CN109785842A

CN109785842A - 语音识别纠错方法以及语音识别纠错系统

Info

Publication number: CN109785842A
Application number: CN201711121071.7A
Authority: CN
Inventors: 葛斯函; 马天泽; 林锋; 段全盛; 赵浩天; 夏妍; 梁微; 周际; 徐龙生; 马英财; 尹路通
Original assignee: NIO Nextev Ltd
Current assignee: NIO Holding Co Ltd
Priority date: 2017-11-14
Filing date: 2017-11-14
Publication date: 2019-05-21
Anticipated expiration: 2037-11-14
Also published as: EP3779970A1; EP3779970A4; WO2019096068A1; EP3779970B1; CN109785842B

Abstract

本发明涉及语音识别纠错方法以及系统。该方法包括下述步骤：通过语音识别和语义理解提取地名并将地名转换为地名拼音；拆分所述地名拼音，得到N个拼音列表，将N个拼音列表进行第一笛卡尔乘积生成第一拼音候选集，其中，N为自然数；对所述第一拼音候选集的拼音进行过滤，过滤去除非法拼音；将所述过滤步骤输出的拼音进行第二笛卡尔乘积，得到第二拼音侯选集；基于所述第二拼音侯选集构造查询query；将查询query在倒排索引中进行查询，获得可能性有高到低的候选地名并展示给用户。根据本发明，能够提高语音识别的准确性。

Description

语音识别纠错方法以及语音识别纠错系统

技术领域

本发明涉及语音识别技术，具体地涉及一种语音识别纠错方法以及语音识别纠错系统。

背景技术

语音识别是将声音识别成文字的过程，中文语音识别是根据说话人的发音将语音转换成中文文字。但是由于个人发音差异，不规范的中文拼音会造成语音识别的正确率打打降低。

当将语音识别应用在车辆导航场景的情况下下，语音对话系统会先将语音转换为文字，然后进行语义理解，识别出地名，查询地名的具体信息，并进行导航。然而，由于说话人发音区别很大，地名较多以及同音字等原因，语音识别出来的地名在某些时候会出现错误，从而导致用户无法找到正确的地点。例如在下表1中表示了3种识别错误：

同音字	“导航到嘉亭荟”→“导航到家庭会”
		前后鼻音	“导航到星光佳园”→“导航到新光家园”
平卷舌	“导航到紫荆一村”→“导航到只进一村”

表1

发明内容

鉴于所述问题，本发明旨在提供一种能够提高语音识别正确率的语音识别地名纠错系统以及语音识别地名纠错方法。

本发明一方面的语音识别纠错方法，其特征在于，包括下述步骤：

拼音转换步骤，通过语音识别和语义理解提取将语音信息转换为拼音；

第一拼音侯选集生成步骤，拆分所述拼音，得到N个拼音列表，将N个拼音列表进行第一笛卡尔乘积生成第一拼音候选集，其中，N为自然数；

过滤步骤，对所述第一拼音候选集的拼音进行过滤，过滤去除非法拼音；

第二拼音侯选集生成步骤，将所述过滤步骤输出的拼音进行第二笛卡尔乘积，得到第二拼音侯选集；

查询query生成步骤，基于所述第二拼音侯选集构造查询query；以及

候选地名生成步骤，将查询query在倒排索引中进行查询，获得可能性有高到低的候选地名并展示给用户。

可选地，在所述第一拼音侯选集生成步骤中，拆分所述拼音为声母和韵母，根据相似字典找到相似的声母列表和韵母列表，将声母列表和韵母列表进行笛卡尔乘积生成拼音的候选集。

可选地，在第一拼音侯选集生成步骤中，声母的相似声母列表为：

韵母相似的韵母列表为：

接着，再将和进行第一笛卡尔乘积，生成拼音的相似拼音作为第一拼音候选集，即：

可选地，在所述第二拼音侯选集生成步骤中，将每个拼音的候选集进行第二笛卡尔乘积，得到正确拼音候选集：C＝PC₁×PC₂×...×PC_n。

可选地，在所述过滤步骤中，根据拼音字典对所述第一拼音候选集的拼音进行过滤。

可选地，在所述查询query生成步骤中，基于所述第二拼音侯选集，根据下式构造查询query：

其中，should表示或操作，match_phrase指文档中必须包含查询语句中的字符串，weight是查询子句的权重，权重是根据候选拼音与原始拼音的距离计算得来的。

可选地，所述权重如下式所示计算获得：

其中，p_i是原始拼音第i个字的拼音，q_i是候选拼音第i个字的拼音，d(p_i，q_i)是p_i与q_i的距离。d(p_i，q_i)的值是p_i变为q_i所要替换声母和韵母的次数。

本发明的一方面的音识别纠错系统，其特征在于，具备：

拼音转换模块，获取语音信息并通过语音识别和语义理解将语音信息转换为拼音；

第一拼音侯选集生成模块，拆分所述拼音，得到N个拼音列表，将N个拼音列表进行第一笛卡尔乘积生成第一拼音候选集，其中，N为自然数；

过滤模块，对所述第一拼音候选集的拼音进行过滤，过滤去除非法拼音；

第二拼音侯选集生成模块，将所述过滤模块输出的拼音进行第二笛卡尔乘积，得到第二拼音侯选集；以及

查询query生成模块，基于所述第二拼音侯选集构造查询query；以及

候选生成模块，将查询query在倒排索引中进行查询，获得可能性有高到低的候选信息并展示给用户。

可选地，所述第一拼音侯选集生成模块，拆分所述拼音为声母和韵母，根据相似字典找到相似的声母列表和韵母列表，将声母列表和韵母列表进行笛卡尔乘积生成拼音的候选集，

其中，声母的相似声母列表为：

韵母相似的韵母列表为：

进一步将和进行第一笛卡尔乘积，生成拼音的相似拼音作为第一拼音候选集，即：

可选地，所述第二拼音侯选集生成模块将每个拼音的候选集进行第二笛卡尔乘积，得到正确拼音候选集：C＝PC₁×PC₂×...×PC_n。

可选地，所述查询query生成模块基于所述第二拼音侯选集根据下式构造查询query：

其中，should表示或操作，match_phrase指文档中必须包含查询语句中的字符串，weight是查询子句的权重，权重是根据候选拼音与原始拼音的距离计算得来的，

其中，所述权重如下式所示计算获得：

本发明的计算机可读介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现所述的语音识别地错方法。

本发明的计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现所述的语音识别纠错方法的步骤。

根据本发明的语音识别纠错方法以及语音识别纠错系统，能够对于错误拼音进行过滤，由此能够提高识别的准确性。另一方面，利用第一拼音侯选集生成模块和第二拼音侯选集生成模块能够计算出更多相似拼音，而且利用查询query生成模块和候选地名生成模块够将可能性由高到低的候选地名排列出来，由此，能够方便用户选择并同时通过提高识别的正确性。

附图说明

图1是本发明的一实施方式的语音识别纠错方法的流程图。

图2是表示相似字典的示例。

图3是表示拼音字典的示例。

图4是本发明的一实施方式的语音识别纠错系统的构造示意图。

具体实施方式

下面介绍的是本发明的多个实施例中的一些，旨在提供对本发明的基本了解。并不旨在确认本发明的关键或决定性的要素或限定所要保护的范围。

在以下的说明中，对于本发明的语音识别纠错方法以及语音识别纠错系统，以将它们应用到地名的识别纠错的场景为例进行说明。当然，本发明的语音识别纠错方法以及语音识别纠错系统不仅可以适用于地名的语音识别纠错，还可以适用于其他场景，例如网上搜索引导、购物导向等各种各样的场景。

图1是本发明的一实施方式的语音识别纠错方法的流程图。

如图1所示，本发明的一实施方式的语音识别纠错方法包括下述步骤：

拼音转换步骤S100：通过语音识别和语义理解提取地名并将地名转换为地名拼音，具体地，例如，“上海滩”转换为拼音后得到一个拼音串：“shang hai tan”；

第一拼音侯选集生成步骤S200：拆分所述地名拼音，得到N个拼音列表，将N个拼音列表进行第一笛卡尔乘积生成第一拼音候选集，其中，N为自然数，具体地，例如，在拼音转换步骤S100中转换为“shang hai tan”的这个拼音串包含三个字的拼音，这里对这三个拼音的每一个拼音求得候选集，因为sh和s相似，ang和an相似(从相似字典中获取)，因此shang对应的候选有sang,shan,san，同样还可以计算出hai没有其他候选，tan的候选有tang，这样就生成了每个拼音的候选列表；

过滤步骤S300：对所述第一拼音候选集的拼音进行过滤，过滤去除非法拼音；第二拼音侯选集生成步骤S400：将所述过滤步骤输出的拼音进行第二笛卡尔乘积，得到第二拼音侯选集，具体地，例如，“shang hai tan”这个拼音串整体的候选：sang hai tan、shanhai tan、san hai tan、shang hai tang、sang hai tang、shan hai tang、san hai tang；

查询query生成步骤S500：基于所述第二拼音侯选集构造查询query(即指“查询语句”)；以及

候选地名生成步骤S600：将查询query在倒排索引中进行查询，获得可能性有高到低的候选地名并展示给用户。

接着，对于上述步骤进行具体说明。

在拼音转换步骤S100中，通过语音识别和语义理解提取地名并将地名转换为地名拼音，例如我们构造文档D＝(name，pinyin)，该文档有两个属性，地名以及地名对应的拼音。文档示例如下表2：

D<sub>1</sub>：(嘉亭荟，jia ting hui)
	D<sub>2</sub>：(星光佳园，xing guang jia yuan)
D<sub>3</sub>：(紫荆一村，zi jing yi cun)

表2

根据拼音构造倒排索引，此过程可以借助现有资源的搜索引擎来进行，如：elastic search，将所有的地名以上述方式构造文档，并进行索引。

接着，在第一拼音侯选集生成步骤S200中，从语音对话系统的语义理解结果中，提取出地名之后，将地名转换为拼音c_org。然后，拆分地名拼音，得到一个拼音的列表：P＝[p₁，p₂，...，p_n]。

对于每一个拼音p_k，将声母和韵母拆分开，生成声母以及韵母根据声母和韵母，在相似字典中找到声母的相似声母列表：

以及

韵母相似的韵母列表：

其中，相似字典例如可以是以文件的形式存储在磁盘或者数据库中，系统会读取文件，加载相似字典。字典的每一条记录是一个键值对，键是一个声母(或韵母)，值是与其相似的声母(或韵母)。相似字典的示例请参见图2，字典中目前有常见的近似音，比如：z和zh,c和ch等。

接着，再将和进行第一笛卡尔乘积，生成拼音的相似拼音，即生成候选集：

由于生成的候选集里面的拼音并不是所有的都是合法拼音，因此需要对非法拼音进行过滤。因此，在过滤步骤S300中对生成的候选集的拼音进行过滤，过滤去除非法拼音。此过滤步骤可以通过拼音字典进行。其中，拼音字典可以例如是以文件的形式存储在磁盘或者数据库中，系统会读取文件，加载拼音字典。字典中包含了所有合法的汉语拼音，字典的每一条记录就是一个合法的汉语拼音。拼音字典的示例请参见图3。

接着，在第二拼音侯选集生成步骤S400中，将每个拼音的候选集进行第二笛卡尔乘积，得到正确地名拼音候选集：

C＝PC₁×PC₂×...×PC_n。

最后，在查询query生成步骤S500中，对于上述步骤计算出的地名拼音候选集，根据候选集构造查询query去倒排索引查询对应的文档。构造query的时候，是将每个候选拼音进行或操作，且每个候选拼音的权重也是不一样的。与原始地名拼音距离越近的候选拼音，更有可能是正确的地名拼音，因此权重越高。这里，在本实施方式中构造query示例如下：

其中，should表示或操作，match_phrase指文档中必须包含查询语句中的字符串，在这里指的是文档的拼音字段必须包含查询子句中的拼音字段。weight是查询子句的权重，权重是根据候选拼音与原始地名拼音的距离计算得来的。其中，该距离的计算采用如下公式进行：

其中，p_i是原始地名拼音第i个字的拼音，q_i是候选地名拼音第i个字的拼音，d(p_i，q_i)是p_i与q_i的距离。d(p_i，q_i)的值是p_i变为q_i所要替换声母和韵母的次数。

接着，对于用计算机代码实现上述的公式的过程进行举例说明。算法distance(c_org，c)的具体代码实现过程如下：

最后，在候选地名生成步骤S600中，将query在倒排索引中进行查询，就可以获取到可能性由高到低的候选地名列表，可以将候选地名列表展示出来之后，用户就可以选择正确的地名，从而进行纠错。

以上对于发明的一实施方式的语音识别地名纠错方法进行了具体说明。接着，对于本发明的一实施方式的语音识别地名纠错系统进行说明。

图4是本发明的一实施方式的语音识别地名纠错系统的构造示意图。

如图4所示，本发明的一实施方式的语音识别地名纠错系统具备：

拼音转换模块100，用于获取语音信息并通过语音识别和语义理解从语音信息中提取地名并将地名转换为地名拼音，具体地，例如，“上海滩”转换为拼音后得到一个拼音串：“shang hai tan”；

第一拼音侯选集生成模块200，用于拆分所述地名拼音并得到N个拼音列表，将N个拼音列表进行第一笛卡尔乘积生成第一拼音候选集，其中，N为自然数，具体地例如，在拼音转换步骤S100中转换为“shang hai tan”的这个拼音串包含三个字的拼音，这里对这三个拼音的每一个拼音求得候选集，因为sh和s相似，ang和an相似(从相似字典中获取)，因此shang对应的候选有sang,shan,san，同样还可以计算出hai没有其他候选，tan的候选有tang，这样就生成了每个拼音的候选列表；

过滤模块300，用于对所述第一拼音候选集的拼音进行过滤并去除非法拼音；

第二拼音侯选集生成模块400，用于将所述过滤模块输出的拼音进行第二笛卡尔乘积，得到第二拼音侯选集，具体地，例如，“shang hai tan”这个拼音串整体的候选：sanghai tan、shan hai tan、san hai tan、shang hai tang、sang hai tang、shan hai tang、san hai tang；以及

查询query生成模块500，用于基于所述第二拼音侯选集构造查询query；以及

候选地名生成模块600，用于将查询query在倒排索引中进行查询，获得可能性有高到低的候选地名并展示给用户。

其中，第一拼音侯选集生成模块200拆分地名拼音为声母和韵母，根据相似字典找到相似的声母列表和韵母列表，将声母列表和韵母列表进行笛卡尔乘积生成拼音的候选集，

其中，声母的相似声母列表为：

韵母相似的韵母列表为：

进一步，第二拼音侯选集生成模块400将每个拼音的候选集进行第二笛卡尔乘积，得到正确地名拼音候选集：C＝PC₁×PC₂×...×PC_n。

再者，查询query生成模块500基于第二拼音侯选集根据下式构造查询query：

其中，should表示或操作，match_phrase指文档中必须包含查询语句中的字符串，weight是查询子句的权重，权重是根据候选拼音与原始地名拼音的距离计算得来的，

其中，所述权重如下式所示计算获得：

本发明的语音识别地名纠错系统利用过滤模块300能够对于错误拼音进行过滤，由此能够提高识别的准确性。另一方面，利用第一拼音侯选集生成模块200和第二拼音侯选集生成模块400能够计算出更多相似拼音，进一步，利用查询query生成模块500和候选地名生成模块600能够将可能性由高到低的候选地名排列出来，由此，能够方便用户选择并同时通过提高识别的正确性。

再者，本发明提供一种计算机可读介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述语音识别地名纠错方法。

再者，本发明提供一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行上述计算机程序时实现上述语音识别地名纠错方法。

作为计算机可读介质，存在磁性记录装置、光盘、光磁记录介质、半导体存储器等。对于磁性记录装置，存在HDD、FD、磁带等。对于光盘，存在DVD(Digital Versatile Disc，数字通用光盘)、DVD-RAM、CD-ROM、CD-R(Recordable，可记录)/RW(ReWritable，可重写)等。对于光磁记录装置，存在MO(Magneto Optical disk，磁光盘)等。

以上例子主要说明了本发明的语音识别地名纠错系统以及语音识别地名纠错方法。尽管只对其中一些本发明的具体实施方式进行了描述，但是本领域普通技术人员应当了解，本发明可以在不偏离其主旨与范围内以许多其他的形式实施。因此，所展示的例子与实施方式被视为示意性的而非限制性的，在不脱离如所附各权利要求所定义的本发明精神及范围的情况下，本发明可能涵盖各种的修改与替换。

Claims

1.一种语音识别纠错方法，其特征在于，包括下述步骤：

拼音转换步骤，将语音信息转换为拼音；

过滤步骤，对所述第一拼音候选集的拼音进行过滤，以去除非法拼音；

候选信息生成步骤，将查询query在倒排索引中进行查询，获得可能性有高到低的候选信息并展示给用户。

2.如权利要求1所述的语音识别纠错方法，其特征在于，

在所述第一拼音侯选集生成步骤中，拆分所述拼音为声母和韵母，根据相似字典找到相似的声母列表和韵母列表，将声母列表和韵母列表进行笛卡尔乘积生成拼音的候选集。

3.如权利要求2所述的语音识别纠错方法，其特征在于，

在第一拼音侯选集生成步骤中，声母的相似声母列表为：

韵母相似的韵母列表为：

4.如权利要求3中所述的语音识别纠错方法，其特征在于，

在所述第二拼音侯选集生成步骤中，将每个拼音的候选集进行第二笛卡尔乘积，得到正确拼音候选集：C＝PC₁×PC₂×...×PC_n。

5.如权利要求3中所述的语音识别纠错方法，其特征在于，

在所述过滤步骤中，根据拼音字典对所述第一拼音候选集的拼音进行过滤。

6.如权利要求5中所述的语音识别纠错方法，其特征在于，

在所述查询query生成步骤中，基于所述第二拼音侯选集，根据下式构造查询query：

7.如权利要求6中所述的语音识别纠错方法，其特征在于，

所述权重如下式所示计算获得：

8.一种语音识别纠错系统，其特征在于，具备：

拼音转换模块，获取语音信息并、解将语音信息转换为拼音；

候选信息生成模块，将查询query在倒排索引中进行查询，获得可能性有高到低的候选信息并展示给用户。

9.如权利要求8所述的语音识别纠错系统，其特征在于，

所述第一拼音侯选集生成模块，拆分所述拼音为声母和韵母，根据相似字典找到相似的声母列表和韵母列表，将声母列表和韵母列表进行笛卡尔乘积生成拼音的候选集，

其中，声母的相似声母列表为：

韵母相似的韵母列表为：

10.如权利要求9中所述的语音识别纠错系统，其特征在于，

所述第二拼音侯选集生成模块将每个拼音的候选集进行第二笛卡尔乘积，得到正确拼音候选集：C＝PC₁×PC₂×...×PC_n。

11.如权利要求10中所述的语音识别纠错系统，其特征在于，

所述查询query生成模块基于所述第二拼音侯选集根据下式构造查询query：

其中，所述权重如下式所示计算获得：

12.一种计算机可读介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1～7中任意一项所述的语音识别地错方法。

13.一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1～7中任意一项所述的语音识别纠错方法的步骤。