CN201259777Y

CN201259777Y - 中文语音识别系统

Info

Publication number: CN201259777Y
Application number: CNU2008200606505U
Authority: CN
Inventors: 陈洪林
Original assignee: SHANGHAI TALKSEA COMMUNICATIONS CO Ltd
Current assignee: SHANGHAI TALKSEA COMMUNICATIONS CO Ltd
Priority date: 2008-07-10
Filing date: 2008-07-10
Publication date: 2009-06-17
Anticipated expiration: 2018-07-10

Abstract

本实用新型揭示了一种中文语音识别系统，包括依次连接的语音数据接收单元、数模转换单元、语音数据识别单元、业务流程控制单元。所述语音数据识别单元包括语音数据库、相似音识别模块、模糊识别模块；业务流程控制单元用以根据接收到的、来自所述语音数据识别单元的语音信息控制业务流程。本实用新型通过开发中文“关键字识别系统”、“昵称、同义近义词识别”、“模糊识别”等语音识别技术，有效提高了中文语音识别率。

Description

中文语音识别系统

技术领域

本实用新型属于计算机智能应用技术领域，涉及一种语音识别系统，尤其涉及一种中文语音识别系统。

背景技术

语音识别技术在国外研究得比较早，技术相对比较成熟，在90年代就已经开始应用于电信、金融等行业。比较知名语音识别产品，如Nuance语音识别系统，该系统采用的是客户/服务机的结构，可在Windows及很多UNIX系统上运行，它可灵活伸缩，支持很小到很大的应用程序。Nuance系统能够支持大容量的语音检索、自然语言识别等，已支持包括中文在内的二十几种语言的语音识别。国外的语音识别技术虽然已经很成熟，但是也存在很多不足的地方，如中文语音识别，针对中文语言特点，如自然语言、关键字、多音字等方面的处理，以及特殊的交互式语音要求等方面，还存在很多缺欠和不足。

实用新型内容

本实用新型所要解决的技术问题是：提供一种可以有效减化语音交互流程、提高用户效率的中文语音识别系统。

为解决上述技术问题，本实用新型采用如下技术方案：

一种中文语音识别系统，所述语音识别系统通过一NGN通信协议接口与NGN网络连接。

作为本实用新型的一种优选方案，所述系统还包括依次连接的语音数据接收单元、数模转换单元、语音数据识别单元；所述语音数据识别单元包括：

关键字识别模块，用以识别语音中设定特定类型的关键字；

自然语音识别模块，用以根据所述识别后的关键字辨别自然语言的内容；

语音数据库，用以保存采样语音的数据信息；

相似音识别模块，把接收语音的数据信息与所述数据库中的数据信息做比对，返回结果的可信度，若可信度超过设定值，则本次识别成功；

模糊识别模块，当识别未获成功时，选择若干识别率高的语音供用户选择，或者提示用户重新发音。

作为本实用新型的一种优选方案，所述语音数据识别单元还包括同义近义词识别模块，用以根据所述数据库中的数据信息识别语音的同义词及近义词。

作为本实用新型的一种优选方案，所述识别系统还包括与语音数据识别单元连接的业务流程控制单元，用以根据接收到的、来自所述语音数据识别单元的语音信息控制业务流程。

作为本实用新型的一种优选方案，所述业务流程控制单元包括插话模块，用以在业务进行的过程中识别用户的语音；进而针对该语音的内容配合用户进入相应业务。

作为本实用新型的一种优选方案，所述系统的接口符合NGN标准，通过该接口直接与NGN网络连接；所述系统包括相互分离的业务逻辑部分与呼叫控制部分。

作为本实用新型的一种优选方案，所述语音数据接收单元设置于识别客户端，语音数据识别单元设置于识别服务端；所述识别服务端把识别后的数据发送至所述识别客户端。

作为本实用新型的一种优选方案，所述语音识别系统包括：

接入层，包括平台对接模块与终端用户接入模块，平台接入模块支持H.323协议和SIP协议；终端用户接入模块支持H.323、SIP和MGCP类型的终端注册到TSV平台上；

呼叫控制层，实现呼入呼出、呼叫状态分析、电话转接、录放音、接收DTMF、转接坐席与呼叫相关的功能，以及和计费服务器的通信和计费服务；

会话层，主要实现用户与系统的对话过程，包括媒体处理、语音识别声音采样、文本合成媒体输出功能，以及与语音识别服务、文本合成服务的接口和交互处理；

流程解析层，主要实现Voice XML的流程脚本解析功能，根据来自业务流程控制层的业务请求，控制着用户的业务流程；

业务流程控制层，用以接收来自应用服务器的业务请求，经过判断分析，将该业务请求交付给流程解析层处理。

上述中文语音识别系统的语音识别方法，包括如下步骤：

步骤A、识别客户端中的语音数据接收单元采集语音信息；

步骤B、所述语音数据接收单元把采集的语音信息通过所述数模转换单元转换成数据包，发送至识别服务端中的语音数据识别单元；

步骤C、识别服务端识别经过识别处理，得到识别结果，返回给识别客户端；

步骤D、业务流程控制单元根据接收到的、来自所述语音数据识别单元的语音信息控制业务流程；

步骤D中包括模糊识别步骤，当识别未获成功时，选择若干识别率高的语音供用户选择，或者提示用户重新发音。

作为本实用新型的一种优选方案，所述步骤D包括识别用户插话的步骤，在业务进行的过程中识别用户的语音，针对该语音的内容配合用户进入相应业务。

本实用新型的有益效果在于：本实用新型提供的中文语音识别系统，提高了语音识别系统的可扩展性和多种业务集成能力，同时比传统的方式节省硬件投资50％以上。在使用上，本实用新型极大的简便了业务控制流程，使建立各种既有利于新业务的快速推出，又节省了系统维护成本。而且采用语音同步技术大大减化了语音交互流程，提高用户效率。同时，通过开发中文“关键字识别系统”、“昵称、同义近义词识别”、“模糊识别”等语音识别技术，大大提高了中文语音识别率。另外，通过智能流程控制技术，实现了“自动容错”功能，提高了系统语音识别中的自动容错能力。

附图说明

图1为本实用新型中文语音识别系统的组成示意图。

图2为本实用新型中文语音识别方法的流程图。

图3为自然语言识别结果示意图。

图4为相似音识别示意图。

图5为语音电话簿流程图。

图6为本实用新型与NGN接口连接示意图。

图7为本实用新型语音识别系统的架构图。

具体实施方式

下面结合附图详细说明本实用新型的优选实施例。

实施例一

请参阅图1，本实用新型揭示了一种中文语音识别系统，包括依次连接的语音数据接收单元、数模转换单元、语音数据识别单元、业务流程控制单元。

所述语音数据识别单元包括语音数据库、相似音识别模块、模糊识别模块、关键字识别模块、自然语音识别模块、同义近义词识别模块。语音数据库用以保存采样语音的数据信息；相似音识别模块把接收语音的数据信息与所述数据库中的数据信息做比对，返回结果的可信度，若可信度超过设定值，则本次识别成功；当识别未获成功时，选择若干识别率高的语音供用户选择，或者提示用户重新发音；关键字识别模块，用以识别语音中设定特定类型的关键字；其中，设定的关键字包括时间、地点、特定事项；自然语音识别模块，用以根据所述识别后的关键字辨别自然语言的内容；同义近义词识别模块用以根据所述数据库中的数据信息识别语音的同义词及近义词，同义词及近义词在数据库中设定。

其中，自然语言识别就是让以往的多组简单用户对话识别，变成让用户说成一句话来实现，例如，航班查询，用户打电话查询航班信息，一般做法，系统会问，“星期几”，“上午、下午还是晚上的航班”，“出发城市”，“到达城市”等。用户最终得到了查询结果，但这个过程太繁琐，耽误时间。如果用户能够说出一句话，如“查询星期五上午北京到上海的航班”，系统能够立刻把查询结果播报给用户。其中实现的原理，是“TSNS自然语言识别”和“TSKS关键字匹配”协同作业的结果，再针对用户输入的时候，TSSE识别引擎加载该查询的动态语法包，包括时间、地点、动作、目标信息等多项关键词组，每个关键词，如时间，包含星期一到星期天、上午、中午、晚上等。从而，根据用户输入的这句话中，先提取出相应的关键字，然后进行匹配、收集可信度，确定识别结果，最终实现信息的准确获得和判断。

“相似音识别”也是本实用新型中文语音识别系统一个重要特色，其实现原理：通过检索所述语音数据库中的中文语料库，针对返回结果的可信度，而进行进一步的判断来让用户选择而实现对话流程的可行性。

中文语音识别别系统中另外两个关键模块就是中文语料库和语音识别模块，这两个模块与识别引擎协同工作，实现用户语音识别。中文语料库是汇集了对中文普通有160万次的数据采集，包括部分带有口音的普通话，数据采集量越高，对识别的结果可靠性就越高，通常40万次的数据采集就能够确保识别正确的需要。中文语料库、语音识别模型和识别引擎一起工作时，经过我们大量的数据采集和计算分析，对于中文系统，识别引擎对于识别返回的结果值(可信度)达到85时，确定识别结果的肯定和唯一性为98％；如果可信度值达到95，确定识别结果的肯定和唯一性为99.8％；如果可信度值达到65，确定识别结果的肯定和唯一性为88％；通过以上的数据，结合实际应用的可行性，本实施例中，可信度值达到85时，识别的结果实际值为正确的。

业务流程控制单元用以根据接收到的、来自所述语音数据识别单元的语音信息控制业务流程。业务流程控制单元包括插话模块，在业务进行的过程中识别用户的语音，进而针对该语音的内容配合用户进入相应业务。这样，用户无需等待繁琐冗长的业务介绍，直接说明自己需要的业务或其他信息，进而方便进入该流程。如在银行业务服务中，用户需要挂失，现有的电话业务中，用户需要等待银行端把业务介绍一个个说明，直到出现挂失选择的步骤，过程较繁琐。而通过该插话模块，用户接通电话银行后，直接说明“挂失”，语音数据识别单元识别该信息后，交由业务流程控制单元控制相应的业务流程。

所述语音数据接收单元设置于识别客户端，语音数据识别单元设置于识别服务端；所述识别服务端把识别后的数据发送至所述识别客户端。本实施例中，识别服务端设置2个，如果针对大量的语音识别应用，识别服务端可以启用更多个，并通过资源管理，合理分配识别服务处理。

请参阅图2，上述中文语音识别系统的语音识别方法，包括如下步骤：

步骤A、识别客户端中的语音数据接收单元采集语音信息；

步骤D中包括模糊识别步骤，当识别未获成功时，选择若干识别率高的语音供用户选择，或者提示用户重新发音。所述步骤D包括识别用户插话的步骤，在业务进行的过程中识别用户的语音，针对该语音的内容配合用户进入相应业务。

此外，本实用新型还做了以下改进：所述系统的接口符合NGN标准，通过该接口直接与NGN网络连接。所述系统包括相互分离的业务逻辑部分与呼叫控制部分。

综上所述，本实用新型提供的中文语音识别系统，提高了语音识别系统的可扩展性和多种业务集成能力，同时比传统的方式节省硬件投资50％以上。在使用上，本实用新型极大的简便了业务控制流程，使建立各种既有利于新业务的快速推出，又节省了系统维护成本。而且采用语音同步技术大大减化了语音交互流程，提高用户效率。同时，通过开发中文“关键字识别系统”、“昵称、同义近义词识别”、“模糊识别”等语音识别技术，大大提高了中文语音识别率。另外，通过智能流程控制技术，实现了“自动容错”功能，提高了系统语音识别中的自动容错能力。

实施例二——自然语言理解

一般的语音识别应用，都是基于对话式的，例如，航班查询。用户打电话查询航班信息，一般做法，系统会问，星期几，上午、下午还是晚上的航班，出发城市，到大城市等。用户最终得到了查询结果，但这个过程太繁琐，耽误时间。如果用户能够说出一句话，如“查询星期五上午北京到上海的航班”，系统能够立刻把查询结果播报给用户，这种方便、简单的过程实现，无疑大大提高了用户效率。本发通过关键字检索、模糊匹配等技术，实现了自然语言理解，其过程和结果如图3所示。

实施例三——相似音识别

中文有很多相似音，举个自动语音总机的例子，一个公司有多个员工名字发音相近或接近的情况，如有位男员工叫“李响”，女员工叫“李湘”，还有其他如李强、李祥等。如果用户找李响，系统发现李湘、李响的识别结果非常接近，都超过了经验值(如85)，基于这种情况，应用流程收到结果后，不能确定用户的选择，但会进一步提示用户，男的李响还是女的李湘，如果用户说男的李响，系统将很容易判定识别结果，完成用户的操作，如图4所示。或者问用户是“李响”还是“李湘”，供用户选择。

实施例四——容错处理

在识别应用过程中，很少的时候，如用户的语音输入略不清楚或者轻重不同，难免造成识别结果有误，会给用户带来不便。如图5所示的语音电话簿应用。

用户电话簿里面存放李响和李湘两个联系人，用户为了快速便捷，没有进行相似音处理，如果电话转接时听到不是用户说的名字，此时，用户无需挂断电话，只需说出“回来”或者“错了”，系统会自动返回上一级，让用户重新选择。既避免了误转接，也让用户方便的重新输入。以上只是简单的例子，在语音搜索等应用中，这种容错处理将体现出非常重要的价值。

实施例五——系统架构

中文语音识别系统采用分层结构，从下至上分别为接入层、呼叫控制层、会话层、流程解析层和业务流程控制层，另外通过TCP/IP方式与各种外部服务或第三方产品保持通信。系统结构图如图7所示。

1)接入层

接入层包括平台对接模块与终端用户接入模块，平台接入模块支持H.323协议和SIP协议；终端用户接入模块支持H.323、SIP和MGCP类型的终端注册到TSV平台上。

2)呼叫控制层

呼叫控制层实现呼入呼出、呼叫状态分析、电话转接、录放音、接收DTMF、转接坐席等各种与呼叫相关的功能，以及和计费服务器的通信和计费服务。

3)会话层

会话层主要实现用户与系统的对话过程，包括媒体处理、语音识别声音采样、文本合成媒体输出等功能，以及与语音识别服务、文本合成服务的接口和交互处理。

4)流程解析层

流程解析层主要实现Voice XML的流程脚本解析功能，根据来自业务流程控制层的业务请求，控制着用户的业务流程。

5)业务流程控制层

业务流程控制层接收来自应用服务器的业务请求，经过判断分析，将该业务请求交付给流程解析层处理。

6)外部接口模块

外部接口模块主要包括应用服务器(包括数据库服务器和Web服务器)、计费服务器、语音识别服务器、文本合成服务器、内容服务器、人工坐席、IP终端、管理和维护终端等。

7)与NGN平台接口

中文语音识别系统与NGN平台接口，主要支持H.323和SIP协议，联接方式如图6所示，只需网络连接即可，无需硬件语音板卡，大大节省成本。

以上实施例仅用以说明而非限制本实用新型的技术方案。不脱离本实用新型精神和范围的任何修改或局部替换，均应涵盖在本实用新型的权利要求范围当中。

Claims

1、一种中文语音识别系统，其特征在于，所述语音识别系统通过一NGN通信协议接口与NGN网络连接。

2、根据权利要求1所述的中文语音识别系统，其特征在于：所述系统包括相互分离的业务逻辑部分与呼叫控制部分。

3、根据权利要求1所述的中文语音识别系统，其特征在于：该系统包括依次连接的语音数据接收单元、数模转换单元、语音数据识别单元；所述语音数据识别单元包括：

关键字识别模块，用以识别语音中设定特定类型的关键字；

语音数据库，用以保存采样语音的数据信息；

4、根据权利要求3所述的中文语音识别系统，其特征在于：所述语音数据识别单元还包括同义近义词识别模块，用以根据所述数据库中的数据信息识别语音的同义词及近义词。

5、根据权利要求1所述的中文语音识别系统，其特征在于：所述识别系统还包括与语音数据识别单元连接的业务流程控制单元，用以根据接收到的、来自所述语音数据识别单元的语音信息控制业务流程。

6、根据权利要求1所述的中文语音识别系统，其特征在于：所述业务流程控制单元包括插话模块，用以在业务进行的过程中识别用户的语音；进而针对该语音的内容配合用户进入相应业务。

7、根据权利要求1所述的中文语音识别系统，其特征在于：所述语音数据接收单元设置于识别客户端，语音数据识别单元设置于识别服务端；所述识别服务端把识别后的数据发送至所述识别客户端。

8、根据权利要求1所述的中文语音识别系统，其特征在于：所述语音识别系统包括：