CN103824560A

CN103824560A - 中文语音识别系统

Info

Publication number: CN103824560A
Application number: CN201410099005.4A
Authority: CN
Inventors: 陈洪林; 蔡潮力; 安枫
Original assignee: SHANGHAI TALKSEA COMMUNICATIONS CO Ltd
Current assignee: SHANGHAI TALKSEA COMMUNICATIONS CO Ltd
Priority date: 2014-03-18
Filing date: 2014-03-18
Publication date: 2014-05-28

Abstract

本发明是一种智能化的中文语音识别软件系统，属于电子信息技术领域，包括了声学、语言学、统计学、人工智能、云计算等多项背景技术。语音（讲话）是最为方便、快捷、自然的人际交流手段，采用自然语音作为人与计算机交互的手段，使计算机能像人一样，具有听、说和理解的能力，是智能语音技术应用发展的基础。本发明在多年的中文语音识别系统研发基础上，推出了多项创新，主要集中在语音识别系统结构上，以及具体的语音识别功能与智能化特性，能够让用户高效、便捷的开展与应用各种语音识别服务。

Description

中文语音识别系统

技术领域

本发明是一种智能化的中文语音识别软件系统，属于电子信息技术领域，包括了声学、语言学、统计学、人工智能、计算机网络、云计算等多项背景技术。

背景技术

语音（讲话）是最为方便、快捷、自然的人际交流手段，采用自然语音作为人与计算机交互的手段，使计算机能像人一样，具有听、说和理解的能力，是智能语音技术应用发展的基础。在其中所需的各种技术中，以语音识别技术最具挑战性，因而被国外众多媒体和专家评为21世纪前十年将对人类生活方式产生重大影响的十大科技进展之一。

语音识别技术相当复杂，包括了声学、语言学、数字信号处理、统计模式、概率论和信息论、发声机理和听觉机理、人工智能等多学科技术的一项综合性技术，研究所投入的人力、物力等非常大，所需时间相对也比较长。

语音识别属于多维模式识别和智能计算机接口的范畴，语音识别研究的根本目的是研究出一种具有听觉功能的机器，能直接接受人的语音命令，理解人的意图并作出相应的反应。事实上，让机器听懂人的语言，一直是人类长期追求的理想，有着广泛的应用需求。例如，带有语音接口的计算机可以改变人们目前对电脑的操作方式，引起操作系统的革命；实现两种语言间的直接通信，即通过“语音识别-机器翻译-文本合成”将一种语言直接转换成另一种语言；语音世界可以使用户通过语音直接检索数据库，也就是类似互联网搜索引擎的语音搜索，获取所需的信息，或者语音电话拨号，这在特定环境中，如汽车驾驶过程中将显得非常重要和便捷。

以上这些应用需求来源于语音信号的本质特点：一方面它是人们最自然、最便捷的界湖工具，不需要再做专门训练，而且反应速度特别快，可以达到毫秒量级；另一方面语音信号无严格方向限制，且可以在黑暗中传播，是图片、文字或按钮等其它视、触觉信息所无法替代的。

但是，要让计算机听懂人的语言却面临着诸多困难，主要体现以下几个方面：1.语音信号的声学特征随其前后与之相连的语音不同而产生很大的变异，且连续语流中各语音单位之间不存在明显的边界；2.语音特征会随发音人的不同、发音人心理或生理状态的变化而产生很大的差异；3.传声设备的差异及环境噪声干扰也将直接影响语音特征的准确提取；4.一个语句所表达的意思，是与上下文内容、说话时的环境条件以及背景等因素有关的，而语句的语法结构又是多变化的，并且语境信息几乎是计算机自动语音识别无法利用的；5.语音识别在具体应用中不能只是单纯的识别技术，而要形成一个分布式的系统，来满足大量并发的语音识别服务。

本发明是一个智能化的连续中文语音识别系统，除了语音识别技术自身外，重点在语音识别系统结构上做出了多项创新，其中系统结构准确度高、伸缩空间大、质量稳定可靠，可创建高质量的语音识别系统应用。

发明内容

说明书附图说明：图1为语音识别系统结构图；图2为语音识别过程图；图3为语音识别步骤示意图；图4为语音识别结构示意图；图5为相似音识别示意图。

本发明的是一种智能化的语音识别系统，主要发明内容如下：

语音识别系统结构

语音识别系统是基于分布式结构，系统灵活、可靠，成本效率高。系统结构图1所示。下面将分别描述系统各组成部分。

识别客户端

识别客户端是处理应用程序和语音识别系统间交互的过程。它处理音频输入和输出，并支持有限的电话控制。音频输入可选择取消回音然后作断句。音频输出支持预录音提示回放，为第三方的文本到语音转换(TTS)系统提供了一个框架。在特定配置下，呼叫控制和提示回放由系统外的组件控制。最后，识别客户端将音频传给语音识别服务器，并将事件和结果回传给应用程序。

识别服务器

识别服务器对从识别客户端接收来的终端音频进行语音识别和自然语言理解。如果为识别语音并为表达内容返回自然语言的解释，识别服务器需要一系列的声学模型和语法。声学模型和语法帮助识别服务器确定说话内容。语法也用于解释口头词汇的意思。应用程序对识别服务器加载包中的声学模型和语法进行指定。

资源管理器

资源管理器执行实时载入平衡功能，以保证识别任务平均分配到可用的识别服务器，从而降低硬件需求，改善服务质量。

数据库

语音识别系统采用数据库（支持文本、ODBC等关系型数据库）来保存动态语法和用户资料。对于某些语音识别应用，视其应用程序情况，可能不需要数据库。

语音识别过程

为了理解语音识别系统的结构，最重要的是大致了解其识别过程，重点在客户端、服务器和应用程序。图2和图3为语音识别过程的示意图和步骤，随后是每个步骤的说明。

语音识别系统识别的过程，大致包括以下若干个步骤：

1.识别客户端有电话到达，识别客户端通知应用程序，系统接电话；

2.系统要求识别客户端播放第一个提示，呼叫者作出反应。对文本到语音转换提示，识别客户端将要合成文本通过一个套接字发送到TTS服务器，并接收回传的样本；

3.为识别呼叫方的反应，识别客户端向资源管理器发送服务器请求（同时缓存音频数据），资源管理器将识别客户端指向最合适的识别服务器；

4.识别客户端向识别服务器发送一条识别请求。每个请求由音频流和在应用中的语法条目组成。该语法条目暗含了声学模型，因为两者被内置于识别服务器加载的识别包里；

5.识别服务器接收到请求后，执行识别任务，然后将识别结果返回给识别客户端；

6.在此期间，资源管理器对识别服务器的当前载入的内容进行监视；

7.识别客户端将识别结果发送给应用程序；

8.应用程序做出相应的响应，例如，进行数据库查询或请求识别客户端播放另一个提示，作为对用户的响应；

9.呼叫者做出反应；识别客户端发送下一个识别请求（见步骤4）；

以上是一个简单的识别过程，如果针对大量的语音识别应用，识别服务端可以启用多个，并通过资源管理，合理分配识别服务处理。

语音识别结果

每个语音识别完成后，系统将识别结果传给应用程序，应用程序根据结果相应做出响应。识别结果包含丰富的信息供应用程序使用，包括：

1.经识别的讲话副本及其置信度

2.自然语言结果、每一档的值及对应的置信度分值

3.校验分值

图4是识别结果的示意图，包括被识别的文本、置信级别及自然语言解释。

相似音识别

对于相似音，尤其中文发音，相似音会经常遇到。举个自动语音总机应用的例子，一个公司有多个员工名字发音相近或接近的情况，如有位男员工叫“李响”，女员工叫“李湘”，还有其他如李强、李祥等。如果用户找李响，系统发现李湘、李响的识别结果非常接近，都超过了经验值（如85），基于这种情况，应用流程收到结果后，不能确定用户的选择，但会进一步提示用户，男的李响还是女的李湘，如果用户说男的李响，系统将很容易判定识别结果，完成用户的操作，如图5所示。

容错处理

在语音识别应用过程中，很少的时候，如用户的语音输入略不清楚或者轻重不同，难免造成识别结果有误，会给用户带来不便。

用户电话簿里面存放李响和李湘两个联系人，用户为了快速便捷，没有进行相似音处理，如果电话转接时听到不是用户说的名字，此时，用户无需挂断电话，只需说出“回来”或者“错了”，系统会自动返回上一级，让用户重新选择。既避免了误转接，也让用户方便的重新输入。以上只是简单的例子，在语音搜索等应用中，这种容错处理将体现出非常重要的价值。

语音识别系统主要特性

1.云计算（分布式）结构。资源管理器在识别服务器间进行载入均衡，从而保证硬件的利用效率。对CPU强度大的识别可以由非运行应用程序和音频接口的远程机器来执行；

2.高密度接口。将客户端的少量处理从CPU密集型的服务器处理隔离，允许客户端有高密度的接口又能提高服务器端CPU的使用效率；

3.容错和可靠性。即使个别服务器失效，也不会使系统崩溃，甚至不会错过一个识别请求。当一个识别服务器失效时，资源管理器自动停止向其发送请求，当服务器恢复时，自动开始向它发送请求；

4.维护方便。可以关闭一个识别服务器进行维修，而对整个系统的性能没有影响，或者影响很小。一些类型的维护甚至可以不关闭识别服务器进行；

5.可伸缩性。随着客户端识别请求的增加，可增加识别服务器、识别客户端和应用的实例，无须停止任何运行着的应用程序或关闭识别系统；

6.多渠道请求。系统支持来自互联网（TCP/IP和SIP协议）和电话网（固话和移动）等不同网络的识别服务请求；

7.算法优化，单台识别服务器识别并发处理能力大于300个（Intel CPU Xeon E5 ,RAM RDIMM 8GB, RAID5），单个识别处理过程所需时间<0.1秒。

语音识别系统主要功能

1.海量词汇、独立于讲话者的强大识别功能

语音识别系统能可靠地对多种语言进行大词汇量的识别，并可提供识别结果的置信度。该系统对大量词汇提供最准确的语音识别技术。利用语音识别系统开发的应用程序经测试，准确性超过96%；

2.内建的自然语言理解

通过语音识别系统可以开发自然语言理解系统，它以句子为输入，返回句子意义的解释性表达。应用程序可以根据用户的请求采取相应的动作。本系统也提供基于档次的置信评分，它能更加接近地判别可能准确（或不准确）识别的短语各部分。然后可更加自然和有效地修改应用程序，处理错误检查或重新提示；

3.基于主机的客户/服务机结构

语音识别系统基于开放式客户/服务机结构，特别为大型应用程序所需的稳定性和可伸缩性而设计。呼叫者的讲话由客户端收集，而识别处理的负载被平均分配到网络上的多个分开的服务器上；

4.单个词汇校正

也叫按档置信评分，如果一个长句中的一个词语未被识别，应用程序可提示用户重复该片段，而不是整个句子；

5.热词识别

热词识别使系统能对讲话者进监听，等待特定的词汇或短语，将控制交还该应用程序。可在应用程序使用该功能，使识别器能够静静倾听，直到用户说出特定的短语进行请求时才与用户交互；

6.智能断句

断句是对进来的样本流确定语句的起始和终止的处理过程。当找到语句的起始和终止点后，语句区向前后分别延伸预先确定的长度。一旦检测到语句的起始点，样本开始流向识别服务器，直到发现语句的终止点。通过这种方式，识别服务器在用户仍在讲话的同时，实际上已经开始处理讲话的内容，而又不处理讲话的起止处多余的空白，从而节约CPU时间和网络带宽；

7.打断功能

打断功能使用户可以打断提示、做出响应，无需等到提示结束播放。打断功能使用户和系统间的交流更加快捷、自然，特别是系统的经常用户；

8.N-Best处理

对于有些应用程序，可能需要识别引擎产生可能的识别结果集，而不是一个最好的结果。本系统的N-best识别处理方法便有这个功能，它提供了可能的识别结果列表，并按可能性从高到低排列；

9.语法概率

本系统允许对呼叫者所讲的特定词语或短语的在语法中的概率进行指定。当被讲的词语或短语的概率可根据实际使用进行估计时，非常有用。对语法增加概率可提高识别的准确率和速度；

10.降低噪音

当进来的呼叫包含稳定的背景噪音时，本系统通过一种机制，使识别服务器更准确地进行识别。识别服务器将进来的话语进行增强，以有效地将语气、嗡嗡声、哼叫声、嘘嘘声等噪声过滤。如果相当数量的电话均含有稳定的背景噪声，比如在汽车上免提打电话时，这个机制效果较理想；

11.提示回放

本系统允许播放预先录好的提示和由文本到语音转换系统产生的提示。如果应用程序使用多个文本到语音转换服务器，资源管理器将对这些服务器的转换负载进行平衡，以提高硬件效率；

12.SNMP支持

本系统为远程监控提供了简单网络管理协议(SNMP)支持，独具可视化工具，便于进行配置、管理和操作。

Claims

1.一种智能化的中文语音识别系统，其特征是基于分布式的可识别中文语音的计算机系统，能够将中文语音音频输入，经过各种系列算法处理，能够将语音计算出所需要的文字信息，实现计算机能够理解人类的自然语音。

2.根据权利要求1所描述的中文语音识别系统，其特征是语音预处理和多结果匹配，特点是提升识别执行效率和识别准确性。

3.根据权利要求1所描述的中文语音识别系统，其特征是关键字匹配和识别结果的流程再造，进一步判断用户的真实输入。

4.根据权利要求1所描述的中文语音识别系统，其特征是即使个别服务器失效，也不会使系统崩溃，甚至不会错过一个识别请求，当一个识别服务器失效时，资源管理器自动停止向其发送请求，当服务器恢复时，自动开始向它发送请求。

5.根据权利要求1所描述的中文语音识别系统，其特征是系统恢复结果过程中，可接受用户的重新输入。

6.根据权利要求1所描述的中文语音识别系统，其特征是断句是对进来的样本流确定语句的起始和终止的处理过程。

7.根据权利要求1所描述的中文语音识别系统，其特征是使识别服务器能够静静倾听，直到用户说出特定的短语进行请求时才与用户交互。

8.根据权利要求1所描述的中文语音识别系统，其特征是用户可以打断语音提示、作出响应，无需等到提示结束播放，打断功能使用户和系统间的交流更加快捷、自然，特别是系统的经常用户。