CN110275979A - 一种语音数据与文本数据的映射管理方法 - Google Patents

一种语音数据与文本数据的映射管理方法 Download PDF

Info

Publication number
CN110275979A
CN110275979A CN201910586614.5A CN201910586614A CN110275979A CN 110275979 A CN110275979 A CN 110275979A CN 201910586614 A CN201910586614 A CN 201910586614A CN 110275979 A CN110275979 A CN 110275979A
Authority
CN
China
Prior art keywords
data
index
name
voice data
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910586614.5A
Other languages
English (en)
Inventor
游萌
何云鹏
高君效
许兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Leader Technology Co Ltd
Chipintelli Technology Co Ltd
Original Assignee
Chengdu Leader Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Leader Technology Co Ltd filed Critical Chengdu Leader Technology Co Ltd
Priority to CN201910586614.5A priority Critical patent/CN110275979A/zh
Publication of CN110275979A publication Critical patent/CN110275979A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/61Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/686Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title or artist information, time, location or usage information, user ratings

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种语音数据与文本数据的映射管理方法,对于语音数据的命名中,包含多个参数Ci,每一语音数据命名对应唯一文本数据,所述文本数据为语音数据的对应文本;对于命名建立如下索引:以文本数据为依据,建立每一文本数据下对应的语音数据命名索引库;对每一语音数据的命名建立索引库,依次以每一参数为索引,分层建立多层索引。采用本发明所述的语音数据与文本数据的映射管理方法,可以对音频数据和文本数据实现一一对应的映射管理关系,并有效降低了文件命名和进行数据管理所需要的存储空间大小,数据的搜索和调用更加快速,同时,对海量数据的批量化新增、修改和删除也更加方便快捷。

Description

一种语音数据与文本数据的映射管理方法
技术领域
本发明属于人工智能技术领域,涉及一种语音数据管理方法,具体涉及一种语音数据与文本数据的映射管理方法。
背景技术
语音数据的识别依赖于人工智能神经网络的反复持续训练,需要海量的语音数据,语音数据通常根据不同发音者,发音时间,采集距离等进行分类,一般来说训练用数据的多寡和数据标注的质量以及整体的数据管理体系是当下人工智能为主体业务的公司运营管理方面的重中之重,而目前对于海量语音数据的管理在行业内并没有统一的管理流程和规范。主要用于大数据音频文件的检索和文本的一一对应关系的文件管理。
在确立一对一的数据结构的关系上,通常的结构是一个音频文件对应于一个文本的标注,而随着技术的发展和训练的需求,一对一并非全部数据类型的格式。数据在采样的过程中可能存在多个距离,或多个发音志愿者对应于同一组朗读数据的情况。一般的语音数据在现场采集的过程中数据的保存是依据发音者,距离信息,采样类型及采样设备等明显标志,但是在收集数据后的整理阶段,通常会对海量数据进行甄别和筛选,选取其中的关键信息保存并且规则化数据的结构,而对于这些数据关键信息的管理需要充分考虑存储架构在空间上的复杂度,因为大数据领域空间存储的大小,处理相同的数据使用的存储空间越大,维护成本越高,访问数据调度时间也越长,造成数据成本的单位存储介质综合价格也越高昂。
发明内容
为克服现有技术存在的技术缺陷,本发明公开了一种语音数据与文本数据的映射管理方法。
本发明所述一种语音数据与文本数据的映射管理方法,
对于语音数据的命名中,包含多个参数Ci,每一语音数据命名对应唯一文本数据,所述文本数据为语音数据的对应文本;
对于命名建立如下索引:
以文本数据为依据,建立每一文本数据下对应的语音数据命名索引库;
对每一语音数据的命名建立索引库,依次以每一参数为索引,分层建立多层索引。
优选的,所述参数Ci中至少一个参数Ck,其关联有唯一的其他参数,则语音数据命名中省略关联的其他参数,
对于未关联参数,以其关联的每一参数为索引,分层建立对文本数据的多层索引;
对于被关联的参数,以其关联的每一参数为索引,分层建议对参数Ck的多层索引。
优选的,所述管理方法包括对数据的增加、修改和删除。
进一步的,所述数据的修改和删除是对应参数索引的修改和删除。
采用本发明所述的语音数据与文本数据的映射管理方法,可以对音频数据和文本数据实现一一对应的映射管理关系,并有效降低了文件命名和进行数据管理所需要的存储空间大小,数据的搜索和调用更加快速,同时,对海量数据的批量化新增、修改和删除也更加方便快捷。
附图说明
图1给出利用本发明进行数据检索管理的一种具体实施方式流程图。
具体实施方式
下面对本发明的具体实施方式作进一步的详细说明。
本发明所述语音数据与文本数据的映射管理方法,其特征在于,
对于语音数据的命名中,包含多个参数Ci,每一语音数据命名对应唯一文本数据,所述文本数据为语音数据的对应文本;
对于命名建立如下索引:
以文本数据为依据,建立每一文本数据下对应的语音数据命名索引库;
对每一语音数据的命名建立索引库,依次以每一参数为索引,分层建立多层索引。
例如:
对于某一语音数据D1,其关联的参数Ci包括C1发音者,C2采集时间,C3采音距离,C4发音者性别,C5发音者年龄段。
假设该语音数据采集时的状态如下表:
发音者姓名 采集时间 采音距离 发音者性别 发音者年龄段
D1 张三(ZS) 白天(day) 0.5米 男(ma) 10-18
D2 张三(ZS) 夜晚(ngt) 1米 男(ma) 10-18
D3 李四(LS) 白天(day) 1米 男(ma) 18-30
D4 王五(WW) 夜晚(ngt) 3米 女(fem) 40-50
其中D1和D2语音数据对应的文本为:打开空调。
其中D3和D4语音数据对应的文本为:打开电视。
则对语音数据D1至 D4的命名可以如下所示:
ZS-day-05m-ma-1018
ZS-ngt-1m-ma-1018
LS-day-1m-ma-1830
WW-ngt-3m-fem-4050
与文本数据的对应关系为:
打开空调-ZS-day-05m-ma-1018
打开空调-ZS-ngt-1m-ma-1018
打开电视-LS-day-1m-ma-1830
打开电视-WW-ngt-3m-fem-4050
直接按照上述命名规则存储和调用数据,存储空间大,调用速度慢。
由于上述各组数据的文本数据信息相同,则可以建立以文本数据为依据的语音数据命名索引库。
即《打开空调》索引库下存储以下信息:
ZS-day-05m-ma-1018
ZS-ngt-1m-ma-1018
《打开电视》索引库下存储以下信息:
LS-day-1m-ma-1830
WW-ngt-3m-fem-4050
并继续对每一语音数据的命名建立索引库,依次以每一参数为索引,分层建立多层索引。
例如ZS-day-05m-ma-1018,各个信息分别对应:发音者姓名,发音时间,发音距离,发音者性别,发音者年龄;
如以发音者姓名为第一层索引:语音数据的索引信息为:
《ZS》 day-05m-ma-1018
ngt-1m-ma-1018
《LS》 day-1m-ma-1830
《WW》 ngt-3m-fem-4050
在《ZS》的第一层索引下,以发音时间作为第二层索引;
《ZS》-《day》05m-ma-1018
《ZS》-《ngt》05m-ma-1018
以此类推。
如以发音距离为第一层索引:语音数据的索引信息则为
《05m》ZS-day-ma-1018
《1m》ZS-ngt-ma-1018
LS-day-ma-1830
《3m》WW-ngt-fem-4050
次级索引以此类推。
采用上述层次化的索引方式,在组织数和整理数据时,可以完全依据每一语音数据关联的一个或多个参数属性定义,选取有关的数据内容。
例如在语音识别训练中,需要只选择近场数据做训练前的准备工作,只使用发音距离的0.5和1m的数据内容,那么符合这个条件的数据在索引数据库的引导下,进入某个训练前数据准备的工作目录做前期的处理,这时数据相应的只保留了数量较少的一部分,相对于原始的数据总量存储空间减小。
在处理后更新训练用数据准备的工作目录的存在数据,减少一些被排除后的数据内容,如果数据后续解码验证发现数据质量较高,可以替换原始文件,如果是数据文件质量差,则在当前文件夹内做保留,等待后续的工作流程。
使用同一个发音者姓名在一个多时间多距离的数据采样中对应的文本记录分别是1:3和1:4;即分别有3个采音时间和4个采音距离,在文件命名上只需要指出发音者姓名后的命名规则,采用自动化的命名脚本程序,加上单独采音时间和采音距离的命名,从而共同构成了单一发音者姓名在单一时间和单一距离的唯一对应文本命名方法。
按照上述命名索引规则,存储空间减少。文件命名更加简单,从使用,读取,整理和调度等一系列操作上更加直观,易于维护和便于操作。就文件命名上来说也更贴近实际使用,文件存储空间更小,利于数据的整体维护。
在另一种优选实施方式中,所述参数Ci中至少一个参数Ck,其关联有唯一的其他参数,则语音数据命名中省略关联的其他参数,
对于未关联参数,以其关联的每一参数为索引,分层建立对文本数据的多层索引;
对于被关联的参数,以其关联的每一参数为索引,分层建议对参数Ck的多层索引。
例如,发音者姓名与发音者年龄,发音者性别对应,此时在命名中可以只保留发音者姓名,而省略发音者年龄和性别,例如前述对语音数据D1至 D4的命名:
ZS-day-05m-ma-1018
ZS-ngt-1m-ma-1018
LS-day-1m-ma-1830
WW-ngt-3m-fem-4050
发音者姓名为ZS的发音者为15岁男性,LS为20岁男性,WW为45岁女性,则上述命名可以进一步简化为,
ZS-day-05m
ZS-ngt-1m
LS-day-1m
WW-ngt-3m;
进一步对未关联参数如发音时间,发音距离等,以其关联的每一参数为索引,分层建立多层索引;
如:
《ZS》 day-05m
ngt-1m
《LS》 day-1m
《WW》 ngt-3m
在《ZS》的第一层索引下,以发音时间作为第二层索引;
《ZS》-《day》05m
《ZS》-《ngt》05m
由于每一发音者的性别年龄唯一确定,可以以性别和年龄为不同层次索引,建立对于发音者姓名的索引,方便根据发音者姓名和年龄调取数据;
例如:
《ma》1018- ZS
1830-LS
《fem》4050-WW
上述实施方式进一步简化了命名的存储空间。
基于以上的在正常使用索引库的同时,对于数据的新增、删除、修改等常见基本操作,如果采用通常的全局性的一一对应的音频和文本对应关系命名管理,则存储介质会存在冗余现象,在使用本发明的索引方法管理数据,可以有效的提高上述新增、删除、修改等常见基本操作的速度。
例如针对于“空调”的设备在家庭中“男性”的“近距离(0.5m)”体验不好,我们需要对符合以上条件的数据调度使用以重新整理。
根据“空调”“ma”“05m”的三个检索条件。
仍然以前述数据库为例
《打开空调》索引库:
ZS-day-05m-ma-1018
ZS-ngt-1m-ma-1018
《打开电视》索引库:
LS-day-1m-ma-1830
WW-ngt-3m-fem-4050
首先检索文本数据,发现仅《打开空调》索引库具有检索条件“空调”,剩余检索条件为发音者性别和采音距离,根据前述的层次化索引,可以快速检索到性别索引和采音距离索引,最后发现ZS-day-05m-ma-1018数据符合要求。
层次化索引不仅方便快速检索,也方便删除和修改某类数据,例如发现某个发音者姓名输入错误,直接将发音者姓名索引修改即可,而不用每个文件一一修改,删除某类文件也是如此,例如要删除发音距离3米,发音时间是晚上的数据,则对应删除同时在索引发音距离3m和发音时间ngt下的全部数据即可。
采用本发明所述的语音数据与文本数据的映射管理方法,可以对音频数据和文本数据实现一一对应的映射管理关系,并有效降低了文件命名和进行数据管理所需要的存储空间大小,数据的搜索和调用更加快速,同时,对海量数据的批量化新增、修改和删除也更加方便快捷。
前文所述的为本发明的各个优选实施例,各个优选实施例中的优选实施方式如果不是明显自相矛盾或以某一优选实施方式为前提,各个优选实施方式都可以任意叠加组合使用,所述实施例以及实施例中的具体参数仅是为了清楚表述发明人的发明验证过程,并非用以限制本发明的专利保护范围,本发明的专利保护范围仍然以其权利要求书为准,凡是运用本发明的说明书内容所作的等同结构变化,同理均应包含在本发明的保护范围内。

Claims (4)

1.一种语音数据与文本数据的映射管理方法,其特征在于,
对于语音数据的命名中,包含多个参数Ci,每一语音数据命名对应唯一文本数据,所述文本数据为语音数据的对应文本;
对于命名建立如下索引:
以文本数据为依据,建立每一文本数据下对应的语音数据命名索引库;
对每一语音数据的命名建立索引库,依次以每一参数为索引,分层建立多层索引。
2.如权利要求1所述的语音数据与文本数据的映射管理方法,其特征在于,所述参数Ci中至少一个参数Ck,其关联有唯一的其他参数,则语音数据命名中省略关联的其他参数,
对于未关联参数,以其关联的每一参数为索引,分层建立对文本数据的多层索引;
对于被关联的参数,以其关联的每一参数为索引,分层建议对参数Ck的多层索引。
3.如权利要求1所述的语音数据与文本数据的映射管理方法,其特征在于,所述管理方法包括对数据的增加、修改和删除。
4.如权利要求3所述的语音数据与文本数据的映射管理方法,其特征在于,所述数据的修改和删除是对应参数索引的修改和删除。
CN201910586614.5A 2019-07-01 2019-07-01 一种语音数据与文本数据的映射管理方法 Pending CN110275979A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910586614.5A CN110275979A (zh) 2019-07-01 2019-07-01 一种语音数据与文本数据的映射管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910586614.5A CN110275979A (zh) 2019-07-01 2019-07-01 一种语音数据与文本数据的映射管理方法

Publications (1)

Publication Number Publication Date
CN110275979A true CN110275979A (zh) 2019-09-24

Family

ID=67963878

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910586614.5A Pending CN110275979A (zh) 2019-07-01 2019-07-01 一种语音数据与文本数据的映射管理方法

Country Status (1)

Country Link
CN (1) CN110275979A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090226150A1 (en) * 2008-03-05 2009-09-10 Jang-Zern Tsai Audio/Video Recording Method and Device
CN101996195A (zh) * 2009-08-28 2011-03-30 中国移动通信集团公司 音频文件中语音信息的搜索方法、装置及设备
CN104765836A (zh) * 2015-04-15 2015-07-08 王磊 一种针对音频指纹库数据的多级索引方法
CN106897458A (zh) * 2017-03-10 2017-06-27 广州白云电器设备股份有限公司 一种面向机电设备数据的存储及检索方法
CN108829796A (zh) * 2018-06-04 2018-11-16 国家电网公司 一种用于电力大数据高效组合查询的实时索引方法
CN108874815A (zh) * 2017-05-10 2018-11-23 北京国双科技有限公司 音视频的检索方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090226150A1 (en) * 2008-03-05 2009-09-10 Jang-Zern Tsai Audio/Video Recording Method and Device
CN101996195A (zh) * 2009-08-28 2011-03-30 中国移动通信集团公司 音频文件中语音信息的搜索方法、装置及设备
CN104765836A (zh) * 2015-04-15 2015-07-08 王磊 一种针对音频指纹库数据的多级索引方法
CN106897458A (zh) * 2017-03-10 2017-06-27 广州白云电器设备股份有限公司 一种面向机电设备数据的存储及检索方法
CN108874815A (zh) * 2017-05-10 2018-11-23 北京国双科技有限公司 音视频的检索方法及装置
CN108829796A (zh) * 2018-06-04 2018-11-16 国家电网公司 一种用于电力大数据高效组合查询的实时索引方法

Similar Documents

Publication Publication Date Title
CN103886376B (zh) 用于基于规则的内容过滤的系统和方法
CN107423363A (zh) 基于人工智能的话术生成方法、装置、设备及存储介质
CN106161209B (zh) 一种基于深度自学习的垃圾短信过滤方法及系统
CN107766371A (zh) 一种文本信息分类方法及其装置
CN104035993B (zh) 电子书的存储检索方法、电子书管理系统、阅读系统
CN110020424A (zh) 合同信息的提取方法、装置和文本信息的提取方法
CN109918472A (zh) 存储和查询数据的方法、装置、设备和介质
CN103081430A (zh) 用于过滤流数据的方法和装置
CN110032732A (zh) 一种文本标点预测方法、装置、计算机设备及存储介质
CN102780574A (zh) 面向业务的局数据的配置方法、装置以及核查方法、装置
CN108595523A (zh) 设备数据检索模型构建方法、装置及计算机设备
CN109753656A (zh) 一种数据处理方法、装置及存储介质
CN109922131A (zh) 基于区块链的数据存储方法、装置、设备及存储介质
CN109614627A (zh) 一种文本标点预测方法、装置、计算机设备及存储介质
CN109800309A (zh) 课堂话语类型分类方法及装置
CN110211592A (zh) 智能语音数据处理装置及方法
CN110046242A (zh) 一种自动应答装置及方法
CN114265957A (zh) 基于图数据库的多种数据源联合查询方法及系统
CN107391769A (zh) 一种索引查询方法及装置
CN104572730B (zh) 数字资源导入、导出方法及装置
CN110275979A (zh) 一种语音数据与文本数据的映射管理方法
CN111259025B (zh) 一种多源异构数据的自适应变频增量更新方法
CN112488736A (zh) 一种住建领域政务热线工单数据分析方法及系统
CN107016050A (zh) 数据处理方法及装置
CN102571381B (zh) 一种信息存储方法以及信息存储装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190924