CN104485107A

CN104485107A - 名称的语音识别方法、语音识别系统和语音识别设备

Info

Publication number: CN104485107A
Application number: CN201410743432.1A
Authority: CN
Inventors: 薛会萍
Original assignee: CHANJET INFORMATION TECHNOLOGY Co Ltd
Current assignee: CHANJET INFORMATION TECHNOLOGY Co Ltd
Priority date: 2014-12-08
Filing date: 2014-12-08
Publication date: 2015-04-01
Anticipated expiration: 2034-12-08
Also published as: CN104485107B

Abstract

本发明提供了一种名称的语音识别方法、一种名称的语音识别系统和一种名称的语音识别设备，其中，名称的语音识别方法，包括：获取所述名称的语音字符串；根据所述语音字符串创建单词查找树；判断所述单词查找树是否与预存的名称信息匹配；以及在判定所述名称信息与所述预存的名称信息匹配时向用户提示所述名称的语音识别结果。通过本发明的技术方案，提高了语音识别过程中的识别准确率和识别效率，同时，降低了对于用户发出语音指令的语调、语速和音色的要求，提升了用户的使用体验。

Description

名称的语音识别方法、语音识别系统和语音识别设备

技术领域

本发明涉及语音识别技术领域，具体而言，涉及一种名称的语音识别方法、一种名称的语音识别系统和一种名称的语音识别设备。

背景技术

随着计算机处理能力的迅速提高，语音识别技术得到了飞速发展，并且正在日益改变人类的生产和生活方式，被广泛应用于诸如语音输入系统、语音控制系统和智能对话查询系统等领域。

语音识别技术是通过识别和解析过程把语音信号转变为相应的文本或命令的技术，其具体过程包括：

(1)采集和预处理步骤：未知语音经过话筒变换成电信号后加在识别系统的输入端，经过预处理过程对电信号进行降噪和滤波等处理，以初步提高信噪比；

(2)识别步骤：对经过预处理的电信号进行识别处理，根据用户的语音特定建立语音模型，根据语音模型对电信号进行分析，抽取电信号中包括的语音特征，在此基础上建立语音识别所需的模板。而计算机在识别过程中需要根据语音识别的模型，将计算机中预存储的语音模板和输入的语音特征进行匹配，按照预定的匹配策略找出最优的匹配模板；

(3)后处理步骤：根据模板的映射表和定义获知语音特征对应的文本信息。

其中，识别步骤作为语音识别的重要步骤通常有以下几个指标作为衡量标准：

(1)词汇表范围：语音设备能够识别的单词或词组的范围；

(2)说话人限制：语音设备能够识别指定语音、语调和音色的语音信息；

(3)训练要求：语音设备是否经过大量语音信号的识别训练过程；

(4)识别率：语音设备能够平均正确识别的百分数，取决于前三个参数。

相关技术中，名称作为最主要的语音识别对象之一，针对上述语音识别参数而言存在以下问题：

(1)将连续的语音信息分解为词、音素等单位，语音识别过程较慢因此要求用户语速不能过快；

(2)语音信息量大，受用户发出语音指令的方式影响，会对识别过程产生影响甚至误判；

(3)单个字母或词、字的语音特性受上下文影响，会影响语音识别的误判；

(4)语音的混淆音影响，具体地，如同音字、前后鼻音、平翘舌音和混淆音，都会影响语音识别的误判；

(5)环境噪声和干扰对语音识别过程产生严重影响。

因此，如何设计名称的语音识别方案提高识别过程的准确率和识别效率成为亟待解决的技术问题。

发明内容

本发明正是基于上述技术问题至少之一，提出了一种新的名称的语音识别方案和一种语音识别设备。

有鉴于此，本发明提出了一种名称的语音识别方法，包括：获取所述名称的语音字符串；根据所述语音字符串创建单词查找树；判断所述单词查找树是否与预存的名称信息匹配；以及在判定所述名称信息与所述预存的名称信息匹配时向用户提示所述名称的语音识别结果。

在该技术方案中，通过根据语音字符串创建单词查找树(trie树)，实现了名称的快速和准确查找，由于识别效率高且速度快，故识别过程受到环境噪声影响极小，具体地，将名称的语音字符串中的单个字符依次生成单词查找树中的节点，并且将每个节点拓展为相关信息，例如，名称的全拼、简拼、容易拼错的汉字拼音组合、容易读错的汉字拼音组合以及名称中的相关职位信息等，将有连接关系的节点根据生成顺序和映射模板转换为文本信息，最终将所有的文本信息列表向用户进行提示。

其中，单词查找树具备节省存储空间和查询速度极快的特点，具体地，单词查找树包括汉字查找树和字母查找树，例如用户输入的名称为中文名称则同时生产汉字查找树和字母查找树，也同时向用户提示汉字查找树和字母查找树生成的语音识别结果，或者生成汉字查找树，在生成的汉字查找树中没有语言识别结果时，则生成字母查找树完成语音识别过程，而在用户输入的名称为外文名称时仅生成字母查找树，向用户提示字母查找树生成的语音识别结果。

在上述技术方案中，优选地，根据所述语音字符串创建单词查找树，包括以下具体步骤：在获取到所述语音字符串后，创建至少一个词元字符串；选择最接近所述语音字符串的所述词元字符串作为最优词元字符串；根据所述最优词元字符串的创建顺序将所述词元字符串通过分隔符划分为至少一个单个字符串；根据所述至少一个单个字符串和所述至少一个单个字符串的划分顺序创建所述单词查找树。

在该技术方案中，通过在创建的至少一个词元字符串中选择最接近的最优词元字符串，并以最优词元字符串创建单词查找树，实现了精准识别模式，同时提高了识别效率，具体地，对一个最有词元字符串进行分割和生成单词查找树处理，同样的，对每个单个字符串进行拓展处理，拓展信息作为该单个字符串的子节点。

在上述技术方案中，优选地，根据所述至少一个单个字符串和所述至少一个单个字符串的划分顺序创建单词查找树，包括以下具体步骤：根据所述每个单个字符串创建第一类单词查找树的节点，其中，先划分得到的所述单个字符串为第一类母节点，后划分得到的所述单个字符串作为所述第一类母节点的第一类子节点。

在上述技术方案中，优选地，判断所述单词查找树是否与预存的名称信息匹配，包括以下具体步骤：在所述第一类单词查找树不与所述预存的所述名称信息匹配时，根据所述语音字符串创建第二类单词查找树；判断所述第二类单词查找树是否与所述预存的名称信息匹配。

在该技术方案中，通过在所述第一类单词查找树不与预存的名称信息匹配时，创建第二类单词查找树继续进行语音识别，增加了语音识别过程的多样性，更便于为用户提供准确的识别结果，具体地，如第一类单词查找树生成了汉字查找树或字母查找树，遍历汉字查找树和字母查找树后均为得到语音识别结果，此时，创建第二类单词查找树，例如字符查找树，也即在名称中加入了字符信息，如语音输入信息为“Lily’s uncle”，在遍历包括Lily的第一类单词查找树后，并未获得用户需要的语音信息，此时，创建例如“Lily’s”的第二类单词查找树，会生成包括诸如“李丽的叔叔”、“丽丽的叔叔”、“李莉的叔叔”以及“Lily’s uncle”等字符串的第二类单词查找树，并将所有的语音识别结果提示给用户。

在上述技术方案中，优选地，根据所述语音字符串创建第二类单词查找树，包括以下具体步骤：在获取到所述语音字符串后，创建所述至少一个词元字符串；创建每个所述词元字符串的至少一个混淆音字符串；根据所述至少一个混淆音字符串的创建顺序将所述至少一个混淆音字符串通过分隔符划分为至少一个单个混淆音字符串；将通过所述分隔符划分的所述至少一个单个混淆音字符串中的相同单个混淆音字符串放置于所述单词查找树的一个节点位置，其中，先划分得到的所述单个混淆音字符串为第二类母节点，后划分得到的所述单个混淆音字符串作为所述第二类母节点的第二类子节点。

在该技术方案中，通过创建基于混淆音的单词查找树，可以提高语音识别效率和丰富的语音识别结果，具体地，以汉语发音为例，当语音设备获取用户的语音指令为“zhang”，会生成“zhang”的全部混淆音字符串，例如“zang”、“zhan”和“zan”等，对“zang”、“zhan”和“zan”进行字符划分后，生成包括“zang”、“zhan”和“zan”的单词查找树，并将单词查找树的生成结果提示给用户，这种识别方式降低了对用户的发音准确度和语速的要求，提升了用户的使用体验。

根据本发明的另一方面，还提出了一种名称的语音识别系统，包括：获取单元，用于获取所述名称的语音字符串；创建单元，用于根据所述语音字符串创建单词查找树；判断单元，用于判断所述单词查找树是否与预存的名称信息匹配；以及提示单元，用于在判定所述名称信息与所述预存的名称信息匹配时向用户提示所述名称的语音识别结果。

在上述技术方案中，优选地，所述创建单元还用于，在获取到所述语音字符串后，创建至少一个词元字符串；所述名称的语音识别系统，还包括：选择单元，用于选择最接近所述语音字符串的所述词元字符串作为最优词元字符串；划分单元，用于根据所述最优词元字符串的创建顺序将所述词元字符串通过分隔符划分为至少一个单个字符串；所述创建单元还用于，根据所述至少一个单个字符串和所述至少一个单个字符串的划分顺序创建所述单词查找树。

在上述技术方案中，优选地，所述创建单元还用于，根据所述每个单个字符串创建第一类单词查找树的节点，其中，先划分得到的所述单个字符串为第一类母节点，后划分得到的所述单个字符串作为所述第一类母节点的第一类子节点。

在上述技术方案中，优选地，所述创建单元还用于，在所述第一类单词查找树不与所述预存的所述名称信息匹配时，根据所述语音字符串创建第二类单词查找树；所述判断单元还用于，判断所述第二类单词查找树是否与所述预存的名称信息匹配。

在上述技术方案中，优选地，所述创建单元还用于，在获取到所述语音字符串后，创建所述至少一个词元字符串；所述创建单元还用于，创建每个所述词元字符串的至少一个混淆音字符串；所述划分单元还用于，根据所述至少一个混淆音字符串的创建顺序将所述至少一个混淆音字符串通过分隔符划分为至少一个单个混淆音字符串；所述创建单元还用于，将通过所述分隔符划分的所述至少一个单个混淆音字符串中的相同单个混淆音字符串放置于所述单词查找树的一个节点位置，其中，先划分得到的所述单个混淆音字符串为第二类母节点，后划分得到的所述单个混淆音字符串作为所述第二类母节点的第二类子节点。

根据本发明的第三方面，还提出了一种名称的语音识别设备，包括：如上述任一项技术方案所述的名称的语音识别系统。

通过以上技术方案，提高了语音识别过程中的识别准确率和识别效率，同时，降低了对于用户发出语音指令的语调、语速和音色的要求，提升了用户的使用体验。

附图说明

图1示出了根据本发明的一个实施例的名称的语音识别方法的示意流程图；

图2示出了根据本发明的实施例的名称的语音识别系统的示意框图；

图3示出了根据本发明的另一个实施例的名称的语音识别方法的示意流程图；

图4示出了根据本发明的一个实施例的名称的语音识别方法的单词查找树的示意图；

图5示出了根据本发明的另一个实施例的名称的语音识别方法的单词查找树的示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

图1示出了根据本发明的实施例的名称的语音识别方法的示意流程图。

如图1所示，根据本发明的实施例的名称的语音识别方法，包括：步骤102，获取所述名称的语音字符串；步骤104，根据所述语音字符串创建单词查找树；步骤106，判断所述单词查找树是否与预存的名称信息匹配；步骤108，以及在判定所述名称信息与所述预存的名称信息匹配时向用户提示所述名称的语音识别结果。

图2示出了根据本发明的实施例的名称的语音识别系统的示意框图。

如图2所示，根据本发明的实施例的名称的语音识别系统200，包括：获取单元202，用于获取所述名称的语音字符串；创建单元204，用于根据所述语音字符串创建单词查找树；判断单元206，用于判断所述单词查找树是否与预存的名称信息匹配；以及提示单元208，用于在判定所述名称信息与所述预存的名称信息匹配时向用户提示所述名称的语音识别结果。

在上述技术方案中，优选地，所述创建单元204还用于，在获取到所述语音字符串后，创建至少一个词元字符串；所述名称的语音识别系统，还包括：选择单元210，用于选择最接近所述语音字符串的所述词元字符串作为最优词元字符串；划分单元212，用于根据所述最优词元字符串的创建顺序将所述词元字符串通过分隔符划分为至少一个单个字符串；所述创建单元204还用于，根据所述至少一个单个字符串和所述至少一个单个字符串的划分顺序创建所述单词查找树。

在上述技术方案中，优选地，所述创建单元204还用于，根据所述每个单个字符串创建第一类单词查找树的节点，其中，先划分得到的所述单个字符串为第一类母节点，后划分得到的所述单个字符串作为所述第一类母节点的第一类子节点。

在上述技术方案中，优选地，所述创建单元204还用于，在所述第一类单词查找树不与所述预存的所述名称信息匹配时，根据所述语音字符串创建第二类单词查找树；所述判断单元206还用于，判断所述第二类单词查找树是否与所述预存的名称信息匹配。

在上述技术方案中，优选地，所述创建单元204还用于，在获取到所述语音字符串后，创建所述至少一个词元字符串；所述创建单元204还用于，创建每个所述词元字符串的至少一个混淆音字符串；所述划分单元212还用于，根据所述至少一个混淆音字符串的创建顺序将所述至少一个混淆音字符串通过分隔符划分为至少一个单个混淆音字符串；所述创建单元204还用于，将通过所述分隔符划分的所述至少一个单个混淆音字符串中的相同单个混淆音字符串放置于所述单词查找树的一个节点位置，其中，先划分得到的所述单个混淆音字符串为第二类母节点，后划分得到的所述单个混淆音字符串作为所述第二类母节点的第二类子节点。

结合图3至图5，对根据本发明的实施例的名称的语音识别方法进行具体说明。

如图3所示，根据本发明的实施例的名称的语音识别方法，包括：步骤302，预处理过程；步骤304，语音识别过程；步骤306，后处理过程；步骤3041，精准识别；步骤3042，模糊音识别；步骤3043，混淆音识别；步骤3043，分词识别。

具体地，在接收到用户输入数据时，首先进行存储。存储的时候，尽可能扩展数据的信息，例如：人名的全拼、简拼、容易拼错的汉字拼音组合、容易读错的汉字拼音组合等。对于具有职位信息的数据，还需要增加职位称呼的扩展信息，例如：总经理、研发总监、产品经理、销售区域经理等。

本系统使用的存储结构为trie树。trie树具有节省存储空间、查询速度快的特点。trie树插入的内容包括名称以及对应的扩展信息，叶子节点绑定对应人名的id信息。

其中，trie树结构设计包括多种实施方式：

实施方式一：

单词查找树为汉字查找树，汉字查找树的中间节点存储了人名的每一个字符(汉字)，叶子节点存储了符合该姓名的实体列表，汉字查找树在存储的准确人名的时候，还存储了人名的昵称，为以后的识别和纠错提供数据支持。

汉字查找树包括以下具体实施方式：

如图4所示，Ci表示人名的一个字符，上图中最左边的人名是由C1、C2和C3顺序连接组成的。

图4中根节点的中间叶子节点表示人名的昵称，一般是去掉姓之后的字符串，如果去掉姓之后仅剩一个汉字，则不存储，叶子节点存储的list(j)表示符合该人名的实体列表。

实施方式二：

单词查找树为拼音查找树，拼音树的中间节点存储人名全拼(包括准确全拼和模糊拼音)的每一个字母，和汉字树一样，叶子节点存储符合该全拼的的实体列表。模糊音的扩展规则如表1所示，规则涵盖前后两个发音的互转。

表1

在定义trie树的结构和模糊音的扩展规则之后，系统使用具体的数据开始建立trie树，下面举例说明trie树的建立过程。

如图4所示，假设存企业A存在联系人{张俊林(E1)、李梅(E2)}，企业B存在联系人{王丽梅(E3)、张俊林(E4)、王印(E5)}，由于拼音树使用全拼和模糊音，建立起来的trie树会非常大，所以这里仅使用“张俊林”作为示例，trie树保存：zhangjunlin、zhangjunling、zangjunlin、zangjunling共4个拼音，以及各自对应的实体列表。

在上述的存储阶段，已经将所有数据插入trie树，所以，在查询阶段，系统只需要按照trie树和人名纠错规则查找。

以上述trie树为例，用户输入不同字符串时的识别和纠错流程：

对于能够准确匹配的，处理流程比较简单，直接查找汉字树即可，例如：“李梅”，从汉字树找到“李梅”，返回列表[E2]。

如图5所示，对于不能准确匹配的名称，需要使用拼音树(包括准确拼音和模糊拼音)的进行语音识别，需要多次查找拼音树，返回和用户输入尽可能接近的结果，例如：用户输入“张俊领的电话”，系统的识别和纠错处理流程如下：

(1)首先进行句法解析，系统计算出用户要查找“XXX的电话”，开始识别实体；

(2)查找汉字树，结果没有找到，转入下一步；

(3)对用户的输入加注拼音“zhangjunling”；

(4)查找拼音树，发现存在该拼音的实体；

进入判断逻辑过程：

(5)如果存在准确的读音为“zhangjunling”的实体列表，则优先返回；

(6)否则返回模糊音为该拼音的实体列表。在本例中直接返回“张俊林的电话”。

(7)删除和更新操作，不仅仅涉及到要操作的人名，而且涉及到它的扩展信息。在更新操作中，系统使用先删除后插入的逻辑，这样操作比较方便。

而在具体的语音识别过程中，提出了一些优化的方案对本发明的名称的语音识别方案进行补充，包括：

(1)少数民族人名

少数民族人名的姓一般为多个汉字，姓和名之间用点号分割。系统在该类型的人名时，会添加一个特殊标记符号，并把姓和名分开，其他的处理逻辑和普通汉字人名类似。

(2)英文人名

英语姓名一般包含多个英语字符串并且使用空格分开，外加长度不容易控制。人名纠错系统在这里使用搜索的机制，即将英文人名存入分布式全文检索系统solr，然后按照一定的规则去搜索即可。

(3)职位和称呼

在职位和称呼方面，系统首先进入正常的识别逻辑，如果没有结果，则启动该模块。系统枚举了企业环境下常用的职位和称呼，并以规则匹配的方式进行识别。在接收到类似于“*总”的时候，系统会遍历所有的称呼列表，然后逐个匹配联系人信息。

以上结合附图详细说明了本发明的技术方案，考虑到如何设计名称的语音识别方案提高识别过程的准确率和识别效率的技术问题。因此，本发明提出了一种新的名称的语音识别方案和一种语音识别设备，通过根据语音字符串创建单词查找树(trie树)，实现了名称的快速和准确查找，由于识别效率高且速度快，故识别过程受到环境噪声影响极小。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种名称的语音识别方法，其特征在于，包括：

获取所述名称的语音字符串；

根据所述语音字符串创建单词查找树；

判断所述单词查找树是否与预存的名称信息匹配；以及

在判定所述名称信息与所述预存的名称信息匹配时向用户提示所述名称的语音识别结果。

2.根据权利要求1所述的名称的语音识别方法，其特征在于，根据所述语音字符串创建单词查找树，包括以下具体步骤：

在获取到所述语音字符串后，创建至少一个词元字符串；

选择最接近所述语音字符串的所述词元字符串作为最优词元字符串；

根据所述最优词元字符串的创建顺序将所述词元字符串通过分隔符划分为至少一个单个字符串；

根据所述至少一个单个字符串和所述至少一个单个字符串的划分顺序创建所述单词查找树。

3.根据权利要求2所述的名称的语音识别方法，其特征在于，根据所述至少一个单个字符串和所述至少一个单个字符串的划分顺序创建单词查找树，包括以下具体步骤：

根据所述每个单个字符串创建第一类单词查找树的节点，其中，先划分得到的所述单个字符串为第一类母节点，后划分得到的所述单个字符串作为所述第一类母节点的第一类子节点。

4.根据权利要求3所述的名称的语音识别方法，其特征在于，判断所述单词查找树是否与预存的名称信息匹配，包括以下具体步骤：

在所述第一类单词查找树不与所述预存的所述名称信息匹配时，根据所述语音字符串创建第二类单词查找树；

判断所述第二类单词查找树是否与所述预存的名称信息匹配。

5.根据权利要求4所述的名称的语音识别方法，其特征在于，根据所述语音字符串创建第二类单词查找树，包括以下具体步骤：

在获取到所述语音字符串后，创建所述至少一个词元字符串；

创建每个所述词元字符串的至少一个混淆音字符串；

根据所述至少一个混淆音字符串的创建顺序将所述至少一个混淆音字符串通过分隔符划分为至少一个单个混淆音字符串；

将通过所述分隔符划分的所述至少一个单个混淆音字符串中的相同单个混淆音字符串放置于所述单词查找树的一个节点位置，其中，先划分得到的所述单个混淆音字符串为第二类母节点，后划分得到的所述单个混淆音字符串作为所述第二类母节点的第二类子节点。

6.一种名称的语音识别系统，其特征在于，包括：

获取单元，用于获取所述名称的语音字符串；

创建单元，用于根据所述语音字符串创建单词查找树；

判断单元，用于判断所述单词查找树是否与预存的名称信息匹配；以及

提示单元，用于在判定所述名称信息与所述预存的名称信息匹配时向用户提示所述名称的语音识别结果。

7.根据权利要求6所述的名称的语音识别系统，其特征在于，所述创建单元还用于，在获取到所述语音字符串后，创建至少一个词元字符串；

所述名称的语音识别系统，还包括：

选择单元，用于选择最接近所述语音字符串的所述词元字符串作为最优词元字符串；

划分单元，用于根据所述最优词元字符串的创建顺序将所述词元字符串通过分隔符划分为至少一个单个字符串；

所述创建单元还用于，根据所述至少一个单个字符串和所述至少一个单个字符串的划分顺序创建所述单词查找树。

8.根据权利要求7所述的名称的语音识别系统，其特征在于，所述创建单元还用于，根据所述每个单个字符串创建第一类单词查找树的节点，其中，先划分得到的所述单个字符串为第一类母节点，后划分得到的所述单个字符串作为所述第一类母节点的第一类子节点。

9.根据权利要求8所述的名称的语音识别系统，其特征在于，所述创建单元还用于，在所述第一类单词查找树不与所述预存的所述名称信息匹配时，根据所述语音字符串创建第二类单词查找树；

所述判断单元还用于，判断所述第二类单词查找树是否与所述预存的名称信息匹配。

10.根据权利要求9所述的名称的语音识别系统，其特征在于，所述创建单元还用于，在获取到所述语音字符串后，创建所述至少一个词元字符串；

所述创建单元还用于，创建每个所述词元字符串的至少一个混淆音字符串；

所述划分单元还用于，根据所述至少一个混淆音字符串的创建顺序将所述至少一个混淆音字符串通过分隔符划分为至少一个单个混淆音字符串；

所述创建单元还用于，将通过所述分隔符划分的所述至少一个单个混淆音字符串中的相同单个混淆音字符串放置于所述单词查找树的一个节点位置，其中，先划分得到的所述单个混淆音字符串为第二类母节点，后划分得到的所述单个混淆音字符串作为所述第二类母节点的第二类子节点。

11.一种名称的语音识别设备，其特征在于，包括：如权利要求6至10中任一项所述的名称的语音识别系统。