CN110275979A

CN110275979A - 一种语音数据与文本数据的映射管理方法

Info

Publication number: CN110275979A
Application number: CN201910586614.5A
Authority: CN
Inventors: 游萌; 何云鹏; 高君效; 许兵
Original assignee: Chengdu Leader Technology Co Ltd
Current assignee: Chengdu Leader Technology Co Ltd; Chipintelli Technology Co Ltd
Priority date: 2019-07-01
Filing date: 2019-07-01
Publication date: 2019-09-24

Abstract

一种语音数据与文本数据的映射管理方法,对于语音数据的命名中,包含多个参数Ci,每一语音数据命名对应唯一文本数据，所述文本数据为语音数据的对应文本；对于命名建立如下索引：以文本数据为依据，建立每一文本数据下对应的语音数据命名索引库；对每一语音数据的命名建立索引库，依次以每一参数为索引，分层建立多层索引。采用本发明所述的语音数据与文本数据的映射管理方法，可以对音频数据和文本数据实现一一对应的映射管理关系，并有效降低了文件命名和进行数据管理所需要的存储空间大小，数据的搜索和调用更加快速，同时，对海量数据的批量化新增、修改和删除也更加方便快捷。

Description

一种语音数据与文本数据的映射管理方法

技术领域

本发明属于人工智能技术领域，涉及一种语音数据管理方法，具体涉及一种语音数据与文本数据的映射管理方法。

背景技术

语音数据的识别依赖于人工智能神经网络的反复持续训练，需要海量的语音数据，语音数据通常根据不同发音者，发音时间，采集距离等进行分类，一般来说训练用数据的多寡和数据标注的质量以及整体的数据管理体系是当下人工智能为主体业务的公司运营管理方面的重中之重，而目前对于海量语音数据的管理在行业内并没有统一的管理流程和规范。主要用于大数据音频文件的检索和文本的一一对应关系的文件管理。

在确立一对一的数据结构的关系上，通常的结构是一个音频文件对应于一个文本的标注，而随着技术的发展和训练的需求，一对一并非全部数据类型的格式。数据在采样的过程中可能存在多个距离，或多个发音志愿者对应于同一组朗读数据的情况。一般的语音数据在现场采集的过程中数据的保存是依据发音者，距离信息，采样类型及采样设备等明显标志，但是在收集数据后的整理阶段，通常会对海量数据进行甄别和筛选，选取其中的关键信息保存并且规则化数据的结构，而对于这些数据关键信息的管理需要充分考虑存储架构在空间上的复杂度，因为大数据领域空间存储的大小，处理相同的数据使用的存储空间越大，维护成本越高，访问数据调度时间也越长，造成数据成本的单位存储介质综合价格也越高昂。

发明内容

为克服现有技术存在的技术缺陷，本发明公开了一种语音数据与文本数据的映射管理方法。

本发明所述一种语音数据与文本数据的映射管理方法,

对于语音数据的命名中,包含多个参数Ci,每一语音数据命名对应唯一文本数据，所述文本数据为语音数据的对应文本；

对于命名建立如下索引：

以文本数据为依据，建立每一文本数据下对应的语音数据命名索引库；

对每一语音数据的命名建立索引库，依次以每一参数为索引，分层建立多层索引。

优选的，所述参数Ci中至少一个参数Ck，其关联有唯一的其他参数，则语音数据命名中省略关联的其他参数，

对于未关联参数，以其关联的每一参数为索引，分层建立对文本数据的多层索引；

对于被关联的参数，以其关联的每一参数为索引，分层建议对参数Ck的多层索引。

优选的，所述管理方法包括对数据的增加、修改和删除。

进一步的，所述数据的修改和删除是对应参数索引的修改和删除。

采用本发明所述的语音数据与文本数据的映射管理方法，可以对音频数据和文本数据实现一一对应的映射管理关系，并有效降低了文件命名和进行数据管理所需要的存储空间大小，数据的搜索和调用更加快速，同时，对海量数据的批量化新增、修改和删除也更加方便快捷。

附图说明

图1给出利用本发明进行数据检索管理的一种具体实施方式流程图。

具体实施方式

下面对本发明的具体实施方式作进一步的详细说明。

本发明所述语音数据与文本数据的映射管理方法,其特征在于,

对于命名建立如下索引：

例如：

对于某一语音数据D1，其关联的参数Ci包括C1发音者，C2采集时间，C3采音距离，C4发音者性别，C5发音者年龄段。

假设该语音数据采集时的状态如下表：

	发音者姓名	采集时间	采音距离	发音者性别	发音者年龄段
						D1	张三(ZS)	白天（day）	0.5米	男（ma）	10-18
D2	张三(ZS)	夜晚(ngt)	1米	男（ma）	10-18
						D3	李四(LS)	白天（day）	1米	男（ma）	18-30
D4	王五(WW)	夜晚(ngt)	3米	女（fem）	40-50

其中D1和D2语音数据对应的文本为：打开空调。

其中D3和D4语音数据对应的文本为：打开电视。

则对语音数据D1至 D4的命名可以如下所示：

ZS-day-05m-ma-1018

ZS-ngt-1m-ma-1018

LS-day-1m-ma-1830

WW-ngt-3m-fem-4050

与文本数据的对应关系为：

打开空调-ZS-day-05m-ma-1018

打开空调-ZS-ngt-1m-ma-1018

打开电视-LS-day-1m-ma-1830

打开电视-WW-ngt-3m-fem-4050

直接按照上述命名规则存储和调用数据,存储空间大,调用速度慢。

由于上述各组数据的文本数据信息相同，则可以建立以文本数据为依据的语音数据命名索引库。

即《打开空调》索引库下存储以下信息：

ZS-day-05m-ma-1018

ZS-ngt-1m-ma-1018

《打开电视》索引库下存储以下信息：

LS-day-1m-ma-1830

WW-ngt-3m-fem-4050

并继续对每一语音数据的命名建立索引库，依次以每一参数为索引，分层建立多层索引。

例如ZS-day-05m-ma-1018，各个信息分别对应：发音者姓名，发音时间，发音距离，发音者性别，发音者年龄；

如以发音者姓名为第一层索引：语音数据的索引信息为：

《ZS》 day-05m-ma-1018

ngt-1m-ma-1018

《LS》 day-1m-ma-1830

《WW》 ngt-3m-fem-4050

在《ZS》的第一层索引下，以发音时间作为第二层索引；

《ZS》-《day》05m-ma-1018

《ZS》-《ngt》05m-ma-1018

以此类推。

如以发音距离为第一层索引：语音数据的索引信息则为

《05m》ZS-day-ma-1018

《1m》ZS-ngt-ma-1018

LS-day-ma-1830

《3m》WW-ngt-fem-4050

次级索引以此类推。

采用上述层次化的索引方式，在组织数和整理数据时，可以完全依据每一语音数据关联的一个或多个参数属性定义，选取有关的数据内容。

例如在语音识别训练中，需要只选择近场数据做训练前的准备工作，只使用发音距离的0.5和1m的数据内容，那么符合这个条件的数据在索引数据库的引导下，进入某个训练前数据准备的工作目录做前期的处理，这时数据相应的只保留了数量较少的一部分，相对于原始的数据总量存储空间减小。

在处理后更新训练用数据准备的工作目录的存在数据，减少一些被排除后的数据内容，如果数据后续解码验证发现数据质量较高，可以替换原始文件，如果是数据文件质量差，则在当前文件夹内做保留，等待后续的工作流程。

使用同一个发音者姓名在一个多时间多距离的数据采样中对应的文本记录分别是1:3和1:4；即分别有3个采音时间和4个采音距离，在文件命名上只需要指出发音者姓名后的命名规则，采用自动化的命名脚本程序，加上单独采音时间和采音距离的命名，从而共同构成了单一发音者姓名在单一时间和单一距离的唯一对应文本命名方法。

按照上述命名索引规则，存储空间减少。文件命名更加简单，从使用，读取，整理和调度等一系列操作上更加直观，易于维护和便于操作。就文件命名上来说也更贴近实际使用，文件存储空间更小，利于数据的整体维护。

在另一种优选实施方式中，所述参数Ci中至少一个参数Ck，其关联有唯一的其他参数，则语音数据命名中省略关联的其他参数，

例如，发音者姓名与发音者年龄，发音者性别对应，此时在命名中可以只保留发音者姓名，而省略发音者年龄和性别，例如前述对语音数据D1至 D4的命名：

ZS-day-05m-ma-1018

ZS-ngt-1m-ma-1018

LS-day-1m-ma-1830

WW-ngt-3m-fem-4050

发音者姓名为ZS的发音者为15岁男性，LS为20岁男性，WW为45岁女性，则上述命名可以进一步简化为，

ZS-day-05m

ZS-ngt-1m

LS-day-1m

WW-ngt-3m;

进一步对未关联参数如发音时间，发音距离等，以其关联的每一参数为索引，分层建立多层索引；

如：

《ZS》 day-05m

ngt-1m

《LS》 day-1m

《WW》 ngt-3m

在《ZS》的第一层索引下，以发音时间作为第二层索引；

《ZS》-《day》05m

《ZS》-《ngt》05m

由于每一发音者的性别年龄唯一确定，可以以性别和年龄为不同层次索引，建立对于发音者姓名的索引，方便根据发音者姓名和年龄调取数据；

例如：

《ma》1018- ZS

1830-LS

《fem》4050-WW

上述实施方式进一步简化了命名的存储空间。

基于以上的在正常使用索引库的同时，对于数据的新增、删除、修改等常见基本操作，如果采用通常的全局性的一一对应的音频和文本对应关系命名管理，则存储介质会存在冗余现象，在使用本发明的索引方法管理数据，可以有效的提高上述新增、删除、修改等常见基本操作的速度。

例如针对于“空调”的设备在家庭中“男性”的“近距离（0.5m）”体验不好，我们需要对符合以上条件的数据调度使用以重新整理。

根据“空调”“ma”“05m”的三个检索条件。

仍然以前述数据库为例

《打开空调》索引库：

ZS-day-05m-ma-1018

ZS-ngt-1m-ma-1018

《打开电视》索引库：

LS-day-1m-ma-1830

WW-ngt-3m-fem-4050

首先检索文本数据，发现仅《打开空调》索引库具有检索条件“空调”，剩余检索条件为发音者性别和采音距离，根据前述的层次化索引，可以快速检索到性别索引和采音距离索引，最后发现ZS-day-05m-ma-1018数据符合要求。

层次化索引不仅方便快速检索，也方便删除和修改某类数据，例如发现某个发音者姓名输入错误，直接将发音者姓名索引修改即可，而不用每个文件一一修改，删除某类文件也是如此，例如要删除发音距离3米，发音时间是晚上的数据，则对应删除同时在索引发音距离3m和发音时间ngt下的全部数据即可。

前文所述的为本发明的各个优选实施例，各个优选实施例中的优选实施方式如果不是明显自相矛盾或以某一优选实施方式为前提，各个优选实施方式都可以任意叠加组合使用，所述实施例以及实施例中的具体参数仅是为了清楚表述发明人的发明验证过程，并非用以限制本发明的专利保护范围，本发明的专利保护范围仍然以其权利要求书为准，凡是运用本发明的说明书内容所作的等同结构变化，同理均应包含在本发明的保护范围内。

Claims

1.一种语音数据与文本数据的映射管理方法,其特征在于,

对于命名建立如下索引：

2.如权利要求1所述的语音数据与文本数据的映射管理方法，其特征在于，所述参数Ci中至少一个参数Ck，其关联有唯一的其他参数，则语音数据命名中省略关联的其他参数，

3.如权利要求1所述的语音数据与文本数据的映射管理方法，其特征在于，所述管理方法包括对数据的增加、修改和删除。

4.如权利要求3所述的语音数据与文本数据的映射管理方法，其特征在于，所述数据的修改和删除是对应参数索引的修改和删除。