CN103198828A

CN103198828A - 语音语料库的构建方法和系统

Info

Publication number: CN103198828A
Application number: CN2013101163961A
Authority: CN
Inventors: 江南; 陈德全
Original assignee: CENTRIN DATA SYSTEMS CO LTD
Current assignee: CENTRIN DATA SYSTEMS CO LTD
Priority date: 2013-04-03
Filing date: 2013-04-03
Publication date: 2013-07-10
Anticipated expiration: 2033-04-03
Also published as: CN103198828B

Abstract

本发明的语音语料库的构建方法和系统，通过语音录入客户端实现语音语料的采集，进而通过网络传输给服务器，使得语音语料的采集可以随时随地进行，无需专门的录音棚和专门的录音设备，借用现有的网络即可实现，语音语料的获取成本大大降低；同时，语音语料是用于后续语音识别的，识别的语音均在平时的生活环境中生成，要识别的录音自然会有周围环境的噪音，如果语音语料仅在录音棚中生成，反而脱离了实际生活，不利于实际生活场景中语音的识别。本发明的语音语料库的构建方法和系统，在减少成本的基础上，更使得语音语料更接近实际场景中的语音，提高实际场景中语音的识别率。

Description

语音语料库的构建方法和系统

技术领域

本发明涉及到一种语音识别方法和系统，具体是一种语音语料库的构建方法和系统。

背景技术

语音识别技术的发展已有40多年的历史了，并取得显著的进步，在一些企业系统中已经得到普及和应用。但由于识别准确率的影响，极大地限制了语音识别在更广泛的应用领域内的应用。

语音识别属于人工智能和机器学习任务的一种应用，其中，机器学习任务一般分为训练和预测两个过程：训练过程对已知样本进行总结归纳，形成模型；预测过程则利用该模型对未知样本进行预测。那么预测的结果将取决于模型的完善性和准确性。机器学习任务符合贝叶斯原则，贝叶斯公式如下:P(h|D)=P(D|h)*p(h)/P(D)，其中D为样本集合，h为假设空间即模型，P(h|D)为在已出现D的情况出现h的条件概率也成为h的后验概率。贝叶斯公式的基本含义是观察到已知样本的情况下，使得模型的后验概率最大化。从上述公式可以看出如果P(D)越大，得到模型也越接近于真实情况，也就是说我们需要收集足够多的样本才能保证模型的完善性。其中的已知样本指语音样本即语料，多个语音样本的集合就构成语料库。因为统计自然语言中通常无法观测到大规模的语言实例，所以简单的把典型的特定的文本上下文关系作为现实世界中语言的上下文关系的替代品，在语音识别领域，这种替代品被称为话术。在语音识别优化过程中，需要采集与话术匹配的声音信息，也就是语料。根据上述机器学习理论原理，在采集质量一定的情况下，语料库数量与语音识别的准确率成正向关系。

为保证后期获取比较纯正的语音语料，现有语音语料库的采集通常采用如下方式：准备专用的录音室，招募数量庞大的志愿者进行语料录制并组建一批经过训练的工作人员用以采集、标注和后期的维护工作。进而导致数据采集的成本过高，进而导致语音语料的成本过高，限制了语音语料库的使用！

而且，现有的语音语料库的建设，要么完全依赖话术建设，要么完全依赖实际场景中获得的语音语料建设；完全依赖话术建设的语音语料库目标明确，训练时间短，可大幅度提高识别的精度，但是完全依赖话术建设的语音语料库的识别率又依赖于拟定话术的业务专家的水平，识别精度不好控制且建设成本高；完全依赖实际场景中获得的语音语料逼近业务场景，可充分利用现有资源，但是完全依赖实际场景获得的语音语料目标不明确，需要基数巨大的语音语料才能覆盖该特定领域的所有关键词。中国专利文献101593518就公开了一种实际场景语料和有限状态网络语料的平衡方法，其语料的来源有两部分，一部分是通过整理实际应用场景下录音得到的语料，称为实际场景语料；另一部分是用有限状态网络句法规则方法生成的语料，称为FSN语料，该文献重点研究了这两种语料的平衡方法，提出了以实际场景语料和FSN语料中共有的关键词的概率的比较为依据，用一定倍数的部分实际场景语料扩展FSN语料，得到最终语言模型训练语料的方法。因此，该文献公开的方法最终都完全依赖实际场景语料，由于实际场景语料本身目标不明确，与完全依赖话术建设的语音语料数量相同的实际场景语料的能识别的目标少，识别率低。

发明内容

为此，本发明第一个所要解决的是现有语音语料采集方法采集成本高的技术问题，提供一种充分利用现有互联网的语音语料库的构建方法和系统。

本发明第二个要解决的是现有完全依赖话术建设的语音语料库和完全基于实际场景获取的实际场景语音语料库不能兼顾低成本和高识别率的技术问题，提供一种成本低且识别率高的语音语料库的建立方法和系统。

为解决上述技术问题，本发明采用的技术方案如下：

一种语音语料库的构建系统，包括，

语音录入客户端，其进一步包括：

声音采集装置，采集基于话术录入的语音作为基础语音语料，并将采集得到的所述基础语音语料和对应的所述话术传输给网络发送装置；

网络发送装置，接收所述声音采集装置采集的基础语音语料并将所述基础语音语料和对应的所述话术通过网络传输给服务器；

服务器，接收所述网络发送装置发送的基础语音语料和对应的所述话术并存储至语料库。

还包括实际场景语音语料采集装置，用于采集实际应用场景中产生的语音语料，并将采集得到的实际场景语音语料进行识别并将实际场景语音语料和识别结果传输至所述服务器的临时语料库。

还包括对所述临时语料库存储的实际场景语音语料进行在线标注的标注用客户端。

所述标注用客户端进一步包括，

实际场景语音语料获取装置，获取所述实际场景语音语料和对应的识别结果文件，并传送至第一语音标注装置；

第一语音标注装置，接收所述实际场景语音语料获取装置传输的所述实际场景语音语料和其语音识别结果，在线调听所述实际场景语音语料，并判断在线调听的所述实际场景语音语料的语音识别结果是否正确，若正确，则标注为正确，并将标注结果发送给所述服务器的接收装置；否则，标注为错误，将标注结果发送给所述服务器的接收装置；

第二语音标注装置，获取服务器传输的语音文件，调听所述语音文件，并根据调听结果生成所述语音文件的识别结果，将所述识别结果与所述语音文件发送至所述服务器的语料库；

其中，所述标注结果包括：录音文件的唯一标识、起止时间和正确或错误的标识；

服务器，其进一步包括：

接收装置，接收所述第一语音标注装置发送的标注结果，将标注为正确的所述实际场景语音语料和其语音识别结果存储至所述服务器中的所述语料库中；同时，将标注为错误的所述实际场景语音语料发送至切分装置；

切分装置，接收所述接收装置发送的所述实际场景语音语料，将标注为错误的所述语音段落从所述实际场景语音语料中切分，并将切分出的所述语音文件发送至客户端的第二语音标注装置。

所述切分装置为基于白高斯模型的切分装置。

基于同一发明构思，本发明还提供一种基于上述语音语料库的构建系统的语音语料库的构建方法，包括如下步骤，

S01:声音采集装置录入语音信息形成基础语音语料并传输给网络发送装置；

S02:所述网络发送装置将从所述语音录入客户端接收到的所述基础语音语料发送给服务器；

S03:所述服务器接收所述网络发送装置发送的基础语音语料并存储至语料库。

还包括采集实际场景语音语料，并将采集到的所述实际场景语音语料行识别并将实际场景语音语料和识别结果传输至所述服务器的临时语料库的步骤。

还包括对所述临时语料库存储的实际场景语音语料进行在线标注的步骤。

所述在线标注具体包括如下步骤：

S10:获取所述实际场景语音语料和对应的识别结果文件；

S11:在线调听所述实际场景语音语料，并判断在线调听的所述实际场景语音语料的语音识别结果是否正确，若正确，则标注为正确，并将标注结果发送给所述服务器的接收装置；否则，标注为错误，将标注结果发送给所述服务器的接收装置；其中，所述标注结果包括：录音文件的唯一标识、起止时间和正确或错误的标识；

S12:接收所述标注结果，将标注为正确的所述实际场景语音语料和其语音识别结果存储至所述服务器中的所述语料库中；同时，将标注为错误的所述语音段落从所述实际场景语音语料中切分，并将切分出的所述语音文件发送至标注用客户端；

S13:所述标注用客户端获取服务器传输的语音文件，调听所述语音文件，并根据调听结果生成所述语音文件的识别结果，将所述识别结果与所述语音文件发送至所述服务器的语料库。

步骤S12中基于白高斯模型进行切分。

本发明的上述技术方案相比现有技术具有以下优点：

进一步地，本发明的语音语料库的构建方法和系统中，所述语料库即包括基于话术录制的基础语音语料，又包括实际场景语音语料；其中，基于话术录制的基础语音语料，目标明确，训练时间短，可大幅度提高识别的精度；实际场景语音语料逼近业务场景。充分融合两种语音语料的优点，即能降低语音语料的建设成本，又能最大程度地提高识别效率。

附图说明

为了使本发明的内容更容易被清楚的理解，下面根据本发明的具体实施例并结合附图，对本发明作进一步详细的说明，其中

图1为本发明一个实施例的语音语料库的构建系统的结构框图；

图2为本发明一个实施例的语音语料库的构建方法的流程图一；

图3为本发明一个实施例的语音语料库的构建方法的流程图二；

图4为本发明一个实施例的语音语料库的构建方法的流程图三。

具体实施方式

实施例一：

参见图1所示，为本发明的一个实施例的语音语料库的构建系统，其包括：语音录入客户端、标注用客户端和服务器。

其中，所述语音录入客户端进一步包括：声音采集装置，采集用户录入的语音作为基础语音语料，并将采集得到的所述基础语音语料传输给网络发送装置，作为具体实施方式，所述声音采集装置为麦克，当然作为其它实施方式，所述声音采集装置可为任何能实现声音采集的装置；网络发送装置，接收所述声音采集装置采集的基础语音语料并将所述基础语音语料通过网络传输给服务器；

实际场景语音语料采集装置，用于采集实际应用场景中产生的语音语料，并将采集得到的实际场景语音语料进行识别，并将实际场景语音语料和识别结果传输至所述服务器的临时语料库；作为一种具体实施例，所述实际场景语音语料采集装置可以为录音笔。

通过语音录入客户端实现语音语料的采集，进而通过网络传输给服务器，使得语音语料的采集可以随时随地进行，无需专门的录音棚和专门的录音设备，借用现有的网络即可实现，语音语料的获取成本大大降低。

所述标注用客户端，用于对所述临时语料库存储的实际场景语音语料进行在线标注；其进一步包括：

其中，所述标注结果包括：录音文件的唯一标识、起止时间和正确或错误的标识。

语音语料是用于后续语音识别的，识别的语音均在平时的生活环境中生成，要识别的录音自然会有周围环境的噪音，如果语音语料仅在录音棚中生成，反而脱离了实际生活，不利于实际生活场景中语音的识别。

所述标注用客户端用于在线读取所述服务器中存储的实际场景语音语料并进行在线标注，然后将标注后的语料返回给服务器存储。作为本发明中的所述标注只指对识别后的所述实际场景语音语料与计算机自动识别结果的人工核对过程，如经试听确定所述实际场景语音语料与计算机自动识别结果一致，则将所述实际场景语音语料与计算机自动识别结果发送给服务器存储，并将该条记录标识为识别后，识别后的实际场景语音语料构成最终的语音语料库的一部分，用于实际语音识别中；如发现所述实际场景语音语料与计算机自动识别结果不一致，则在线更正错误的计算机自动识别结果获得正确的识别结果连带其对应的所述实际场景语音语料一起传输给所述服务器存储，并将该条记录标识为识别后，识别后的实际场景语音语料构成最终的语音语料库的一部分，用于实际语音识别中。

所述服务器，用于接收所述网络发送装置发送的基础语音语料并存储。

服务器，其进一步包括：

所述切分装置为基于白高斯模型的切分装置。

实施例二：

参见图2，基于同一发明构思，本发明还提供一种语音语料库的构建方法，包括如下步骤，

参见图3，本发明的语音语料库的构建方法还包括以下步骤：

S’01：采集实际场景语音语料，并将采集到的所述实际场景语音语料行识别并将实际场景语音语料和识别结果传输至所述服务器的临时语料库。

S’02：对所述临时语料库存储的实际场景语音语料进行在线标注。

参见图4，所述步骤S’02具体包括如下步骤：

S’021:获取所述实际场景语音语料和对应的识别结果文件；

S’022:在线调听所述实际场景语音语料，并判断在线调听的所述实际场景语音语料的语音识别结果是否正确，若正确，则标注为正确，并将标注结果发送给所述服务器的接收装置；否则，标注为错误，将标注结果发送给所述服务器的接收装置；其中，所述标注结果包括：录音文件的唯一标识、起止时间和正确或错误的标识；

S’023:接收所述标注结果，将标注为正确的所述实际场景语音语料和其语音识别结果存储至所述服务器中的所述语料库中；同时，将标注为错误的所述语音段落从所述实际场景语音语料中切分，并将切分出的所述语音文件发送至标注用客户端；所述切分为基于白高斯模型的切分；

S’024:所述标注用客户端获取服务器传输的语音文件，调听所述语音文件，并根据调听结果生成所述语音文件的识别结果，将所述识别结果与所述语音文件发送至所述服务器的语料库。

本发明的语音语料库的构建方法和系统，在减少成本的基础上，更使得语音语料更接近实际场景中的语音，提高实际场景中语音的识别率。本发明的所述客户端可为电脑也可为能联网的智能移动设备，比如PAD、智能手机等。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种语音语料库的构建系统，其特征在于：包括，

语音录入客户端，其进一步包括：

2.根据权利要求1所述的一种语音语料库的构建系统，其特征在于：还包括实际场景语音语料采集装置，用于采集实际应用场景中产生的语音语料，并将采集得到的实际场景语音语料进行识别并将实际场景语音语料和识别结果传输至所述服务器的临时语料库。

3.根据权利要求2所述的一种语音语料库的构建系统，其特征在于：还包括对所述临时语料库存储的实际场景语音语料进行在线标注的标注用客户端。

4.根据权利要求3所述的一种语音语料库的构建系统，其特征在于：所述标注用客户端进一步包括，

服务器，其进一步包括：

5.根据权利要求4所述的一种语音语料库的构建系统，其特征在于：所述切分装置为基于白高斯模型的切分装置。

6.一种基于权利要求1－5任一所述的一种语音语料库的构建系统的语音语料库的构建方法，其特征在于：包括如下步骤，

7.根据权利要求6所述的一种语音语料库的构建方法，其特征在于：还包括采集实际场景语音语料，并将采集到的所述实际场景语音语料行识别并将实际场景语音语料和识别结果传输至所述服务器的临时语料库的步骤。

8.根据权利要求7所述的一种语音语料库的构建方法，其特征在于：还包括对所述临时语料库存储的实际场景语音语料进行在线标注的步骤。

9.根据权利要求8所述的一种语音语料库的构建方法，其特征在于：所述在线标注具体包括如下步骤：

S10:获取所述实际场景语音语料和对应的识别结果文件；

10.根据权利要求9所述的一种语音语料库的构建方法，其特征在于：步骤S12中基于白高斯模型进行切分。