CN111737541B

CN111737541B - 一种支持多语言的语义识别评估方法

Info

Publication number: CN111737541B
Application number: CN202010614728.9A
Authority: CN
Inventors: 王中平; 秦波; 钟科; 朱盼盼; 张顺; 秦萍
Original assignee: Hubei Ecarx Technology Co Ltd
Current assignee: Ecarx Hubei Tech Co Ltd
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2021-10-15
Anticipated expiration: 2040-06-30
Also published as: CN111737541A

Abstract

本发明提供了一种支持多语言的语义识别评估方法，其包括接收原始字符串和基于对测试音频进行识别得到的待识别字符串，其中，测试音频根据原始字符串生成；确定测试音频对应的语言类型，获取与该语言类型对应的模糊词典；模糊词典存储有适用于该语言类型的多个语义不同的模糊词组，每个模糊词组包括多个语义相同的模糊词语，每个模糊词组分别对应一标准词语；获取通用词典，通用词典存储有适用于全部语言类型的多个语义不同的通用词组，每个通用词组包括多个语义相同的通用词语，每个通用词组分别对应一标准词语；基于模糊词典和通用词典对待识别字符串进行字符转换，得到标准字符串；对比原始字符串和标准字符串的字符匹配程度，生成评估结果。

Description

一种支持多语言的语义识别评估方法

技术领域

本发明涉及计算机技术领域，特别是涉及一种支持多语言的语义识别评估方法。

背景技术

近年来，随着ASR(Automatic Speech Recognition，自动语音识别)的快速发展，ASR在越来越多的领域得到应用，例如汽车制造，智能家居等。

现有技术中通常是将ASR识别引擎的识别结果直接拿来与原始字符串进行字符匹配，从而根据字符串匹配程度判断ASR识别引擎的识别效果。而实际上，可能存在这样的情况，类似ASR识别引擎将“今天”识别为“今个”，对于这样情况再采用直接匹配可能导致字符串匹配程度低，对ASR识别引擎的评估结果不准确。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种支持多语言的语义识别评估方法。

根据本发明的一个方面，提供了一种支持多语言的语义识别评估方法，该方法包括：

接收原始字符串和基于对测试音频进行识别得到的待识别字符串，其中，所述测试音频根据所述原始字符串生成；

确定所述测试音频对应的语言类型，获取与所述语言类型对应的模糊词典；所述模糊词典存储有适用于该语言类型的多个语义不同的模糊词组，每个模糊词组包括多个语义相同的模糊词语，每个模糊词组分别对应一标准词语；

获取通用词典，所述通用词典存储有适用于全部语言类型的多个语义不同的通用词组，每个通用词组包括多个语义相同的通用词语，每个通用词组分别对应一标准词语；

基于所述模糊词典和所述通用词典对所述待识别字符串进行字符转换，将所述待识别字符串中包含的模糊词语和/或通用词语替换为标准词语从而得到标准字符串；

对比所述原始字符串和所述标准字符串的字符匹配程度，生成评估结果。

可选地，所述确定所述测试音频对应的语言类型，包括：

基于用户输入的语言类型选择命令确定所述测试音频对应的语言类型；或

通过识别所述待识别字符串的部分字符确定所述测试音频对应的语言类型；或

将当前配置的应用语言类型作为所述测试音频对应的语言类型。

可选地，所述基于所述模糊词典和所述通用词典对所述待识别字符串进行字符转换，将所述待识别字符串中的包含的模糊词语和/或通用词语替换为标准词语从而得到标准字符串，包括：

将所述待识别字符串与所述通用词典进行匹配，确定所述待识别字符串包含的通用词语；

将所述待识别字符串包含的通用词语替换为所述通用词典中的对应的标准词语；

将所述待识别字符串与所述模糊词典进行匹配，确定所述待识别字符串包含的模糊词语；

将所述待识别字符串包含的模糊词语替换为所述模糊词典中的对应的标准词语；

将替换标准词语后的待识别字符串作为所述标准字符串。

可选地，所述模糊词典中的每个模糊词组和所述通用词典中的每个通用词组还包括匹配模式，所述匹配模式包括全局替换或句尾替换或句首替换或句中替换；

所述将所述待识别字符串包含的通用词语替换为所述通用词典中的对应的标准词语，包括：

根据所述通用词典中的与所述待识别字符串的通用词语对应的标准词语的匹配模式，将所述待识别字符串中的通用词语替换为对应的标准词语；

所述将所述待识别字符串包含的模糊词语替换为所述模糊词典中的对应的标准词语，包括：

根据所述模糊词典中的与所述待识别字符串的模糊词语对应的标准词语的匹配模式，将所述待识别字符串中的模糊词语替换为对应的标准词语。

可选地，所述基于所述模糊词典和所述通用词典对所述待识别字符串进行字符转换之前，还包括：

判断所述待识别字符串中是否包含特殊字符，所述特殊字符包括：电话号码和门牌号；

若是，则将所述待识别字符串中包含的特殊字符转换为标准阿拉伯数字。

对所述待识别字符串和所述原始字符串中的标点符号及空格进行删除处理。

可选地，所述通用词典和不同语言类型的所述模糊词典是基于配置词典生成的，所述配置词典中包含任一模糊词组和通用词组及其各自对应的标准词语及匹配模式；

不同语言类型的所述模糊词典具体是通过确定所述配置词典中适用于不同语言类型的模糊词组和与模糊词组对应的标准词语及匹配模式生成的；

所述通用词典具体是通过确定所述配置词典中适用于全部语言类型的通用词组和与模糊词语对应的标准词语及匹配模式生成的。

可选地，所述配置词典在达到预设更新条件时进行更新，所述预设更新条件包括：出现新的模糊词语和/或新的通用词语；

所述配置词典更新后，将所述新的模糊词语和/或新的通用词语更新至对应的模糊词典和/或通用词典中。

根据本发明的另一个方面，还提供了一种电子设备，其特征在于，包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述任意一项所述的方法。

根据本发明的又一个方面，所述存储介质中存储有至少一条指令、至少一段程序、代读码集或指令集，所述至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行如上述任意一项所述的方法

在本发明提供的方案中，在基于对测试音频识别得到待识别字符串后，会获取测试音频对应的语言类型的模糊词典和通用词典。进而基于模糊词典和通用词典对待识别字符串中包含的模糊词语和/或通用词语替换为标准词语从而得到标准字符串，对比原始字符串和标准字符串的字符匹配程度生成评估结果。基于本发明提供的方案，将待识别字符串转换为标准字符串，从而可以提高原始字符串和待识别字符串的字符匹配程度，提高ASR识别引擎的识别结果的准确性，进一步地，还可以将不同ASR识别引擎的识别结果标准化，在实际生产应用中用途广泛。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

根据下文结合附图对本发明具体实施例的详细描述，本领域技术人员将会更加明了本发明的上述以及其他目的、优点和特征。

附图说明

后文将参照附图以示例性而非限制性的方式详细描述本发明的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解，这些附图未必是按比例绘制的。附图中：

图1示出了根据本发明一个实施例的支持多语言的语义识别评估方法的流程示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

需要说明的是，在不冲突的前提下本发明实施例及可选实施例中的技术特征可以相互结合。

图1示出了根据本发明一个实施例的支持多语言的语义识别评估方法的流程示意图。参见图1，该方法至少包括以下步骤：

步骤S102：接收原始字符串和基于对测试音频进行识别得到的待识别字符串，其中，测试音频根据原始字符串生成；

步骤S104：确定测试音频对应的语言类型，获取与该语言类型对应的模糊词典；模糊词典存储有适用于该语言类型的多个语义不同的模糊词组，每个模糊词组包括多个语义相同的模糊词语，每个模糊词组分别对应一标准词语；

步骤S106：获取通用词典，通用词典存储有适用于全部语言类型的多个语义不同的通用词组，每个通用词组包括多个语义相同的通用词语，每个通用词组分别对应一标准词语；

步骤S108：基于模糊词典和通用词典对待识别字符串进行字符转换，将待识别字符串中包含的模糊词语和/或通用词语替换为标准词语从而得到标准字符串；

步骤S110：对比原始字符串和标准字符串的字符匹配程度，生成评估结果。

基于本发明提供的方案，将待识别字符串转换为标准字符串后，可以提高原始字符串和待识别字符串的字符匹配程度，提高ASR识别引擎的识别结果的准确性，进一步地，还可以将不同ASR识别引擎的识别结果标准化，在实际生产应用中用途广泛。

上文步骤S104中提到的确定测试音频对应的语言类型，具体可以通过如下方式来确定：基于用户输入的语言类型选择命令确定测试音频对应的语言类型；或通过识别待识别字符串的部分字符确定测试音频对应的语言类型；或将当前配置的应用语言类型作为测试音频对应的语言类型。

例如，若用户输入语言类型选择指令为中文，则确定测试音频对应的语言类型为中文；若识别出待识别字符串中的部分字符为中文，则确定测试音频对应的语言类型为中文；若识别出系统当前配置的应用语言类型为中文，则将中文作为测试音频对应的语言类型。

在确定测试音频对应的语言类型之后，在步骤S104中，接下来会获取与该语言类型对应的模糊词典，举例来说，若测试音频对应的语言类型为中文，接下来则会获取中文模糊词典；若测试音频对应的语言类型为英文，接下来则会获取英文模糊词典。

模糊词典中存储有适用于该语言类型的多个语义不同的模糊词组，每个模糊词组包括多个语义相同的模糊词语，每个模糊词组对应一标准词语。

对于中文模糊词典来说，其至少可以包括如下模糊词组：“钟意；中意”；“等一下；等一哈”；“花；花儿”；“嘛；吗；么”。其中，“钟意、中意”这一模糊词组对应的标准词语可以是“中意”，“等一下；等一哈”这一模糊词组对应的标准词语可以是“等一下”，“花；花儿”这一模糊词组对应的标准词语可以是“花”，“嘛；吗；么”这一模糊词组对应的标准词语可以是“吗”。需要说明地是，模糊词组对应的标准词语可以根据实际情况调整，本发明对此不做过多限定。

在获取到与测试音频的语言类型对应的模糊词典后，在步骤S106中，接下来会获取通用词典，通用词典中存储有适用于全部语言类型的多个语义不同的通用词组，每个通用词组包括多个语义相同的通用词语，每个通用词组分别对应一标准词语。

对于通用词典来说，其至少可以包括如下通用词组：“耐克；NIKE；nike”、“哈喽；哈佬；hello”。其中，“耐克；NIKE；nike”这一通用词组对应的标准词语可以是“耐克”，“哈喽；哈佬；hello”这一通用词组对应的标准词语可以是“hello”。需要说明地是，通用词组对应的标准词语也可以根据实际情况调整，本发明对此不做过多限定。

此外，模糊词典中的每个模糊词组和通用词典中的每个通用词组还可以包括相应的匹配模式，匹配模式包括全局替换或句尾替换或句首替换或句中替换。

例如，在中文模糊词典中，“嘛；吗；么”这一模糊词组对应的匹配模式为句尾替换，即当待识别字符串的句尾包括这一模糊词组的模糊词语时，则将其均替换为“吗”，其他位置这一词语时则不做替换。“钟意；中意”及“等一下；等一哈”等模糊词组对应的匹配模式为全局替换，即待识别字符串中一旦出现这类词语时，将其均替换为“中意”、“等一下”。

在通用词典中，“耐克；NIKE；nike”对应的匹配模式为全局替换，即当待识别字符串中出现这一模糊词组的模糊词语时，则均替换为“耐克”。“哈喽；哈佬；hello”等通用词组对应的匹配模式为句首替换，即当待识别字符串的句首出现这一模糊词组的模糊词语时，则将其均替换为“hello”。

此外，上文提到的不同语言类型的模糊词典和通用词典都可以是基于配置词典生成的，配置词典中包含任一模糊词组和通用词组及其各自对应的标准词语及匹配模式；不同语言类型的模糊词典具体是通过确定配置词典中适用于不同语言类型的模糊词组和与模糊词组对应的标准词语及匹配模式生成的；通用词典具体是通过确定配置词典中适用于全部语言类型的通用词组和与模糊词语对应的标准词语及匹配模式生成的。

举例来说，配置词典可以包括词组“AL#all#耐克；NIKE；nike”。其中，AL表示该词组适用于全部语言类型，all表示该词组对应的匹配形式为全局替换，后面的“耐克；NIKE；nike”则是语义相同且读音相似的模糊词语，处于第一位的“耐克”为标准词语，基于配置词典中这一类适配于全部语言类型的词组可生成通用词典。此外，配置词典还可以包括词组“CN#end#吗；嘛；么”。其中，CN表示该词组适用于语言类型为中文，end表示该词组对应的匹配形式为句尾替换。同理，基于配置词典中适配于不同语言类型的词组即可生成不同语言类型的模糊词典，例如中文模糊词典、英文模糊词、日文模糊词典等。

在本发明实施例中，根据配置词典生成多种语言类型的模糊词典和通用词典，从而在获取测试音频对应的语言类型的模糊词典及通用词典后，在步骤S108中可以直接基于获取的模糊词典和通用词典对待识别字符串中包含的模糊词语和/或通用词语替换为标准词语从而得到标准字符串。与直接基于配置词典对待识别字符串进行字符转换相比，查找速度快、效率高。

此外，配置词典会在达到预设条件时更新，预设条件可以至少包括：出现新的模糊词语和/或新的通用词语。在配置词典更新完成后，会将新的模糊词语和/或新的通用词语更新至对应的模糊词典和/或通用词典中。

在本发明一些实施例中，在步骤S108之前，还会判断待识别字符串中是否包含特殊字符，特殊字符可以至少包括电话号码和门牌号。若判断待识别字符串中包含特殊字符，则将待识别字符串中包含的特殊字符替换为阿拉伯数字。

例如，待识别字符串中包含“幺三八七七******”这样类似电话号码的字符，则将其替换为“13877******”。或待识别字符串中出现“三零幺”这样类似门牌号的字符，则将其替换为“301”，从而使待识别字符串中的数字格式标准化。需要说明地是，若待识别字符串中出现类似电话号码和门牌号这样格式的特殊字符时，同样将其替换为标准阿拉伯数字。

在本发明的一些实施例中，在步骤S108之前，还会对原始字符串和标准字符串中的标点符号及空格进行删除处理。

例如，原始字符串为“我想买耐克。”，待识别字符串为“我想买耐克！”两个字符串中包含的标点、空格字符会影响到字符串内容，但是并不影响字符串语义，因此本发明将不影响语义的标点及空格删除，这样可以避免接下来导致字符串匹配失败。

在对待识别字符串和原始字符串完成上述处理后，具体地，在步骤S108中，本发明会将待识别字符串与通用词典进行匹配，确定待识别字符串包含的通用词语，然后将待识别字符串包含的通用词语替换为通用词典中的对应的标准词语；将待识别字符串与所述模糊词典进行匹配，确定待识别字符串包含的模糊词语，然后将待识别字符串包含的模糊词语替换为模糊词典中的对应的标准词语，之后将替换标准词语后的待识别字符串作为标准字符串。

进一步地，模糊词典中的每个模糊词组和通用词典中的每个通用词组还包括匹配模式，匹配模式包括全局替换或句尾替换或句首替换或句中替换；将待识别字符串包含的通用词语替换为通用词典中的对应的标准词语包括：根据通用词典中的与待识别字符串的通用词语对应的标准词语的匹配模式，将待识别字符串中的通用词语替换为对应的标准词语；将待识别字符串包含的模糊词语替换为模糊词典中的对应的标准词语，包括：根据模糊词典中的与待识别字符串的模糊词语对应的标准词语的匹配模式，将待识别字符串中的模糊词语替换为对应的标准词语。

例如，原始字符串为“附近有耐克的专卖店吗”，在对测试音频识别后得到的待识别字符串为“附近有NIKE的专卖店么”，之后确定测试音频对应的语言类型是中文，进而获取中文模糊词典和通用词典，基于中文模糊词典和通用词典可以确定出待识别字符串中包括模糊词语“么”和通用词语“NIKE”，之后根据“么”对应的模糊词组的匹配模式“句尾替换”将“么”替换为标准词语“吗”，根据“NIKE”对应的通用模糊词组的匹配模式“全局替换”将“NIKE”替换为“耐克”，从而得到的标准字符串“附近有耐克的专卖店吗”。

在本实施例中，基于模糊词典和通用词典对待识别字符串进行字符转换，将待识别字符串中包含的模糊词语和/或通用词语替换为标准词语得到标准字符串，从而可以提高原始字符串和识别字符串的字符匹配程度，提高对ASR识别引擎的识别结果的准确性，进一步地，还可以将不同ASR识别引擎的识别结果标准化，在实际生产应用中用途广泛。

通过上述方式得到标准字符串后，接下来在步骤S110中，本发明会对比原始字符串和标准字符串的字符匹配程度，生成评估结果。

具体地，原始字符串和标准字符串进行匹配指将原始字符串中的各个字符与标准字符串中的各个字符按照字符的顺序进行一一匹配，确定两个字符串中包含的各个字符是否相同，如果均相同，则完全匹配，如果有部分字符不相同，可以进一步的计算字符匹配比例，即字符相同的字符数量占字符串中包含的字符总数量的比值，该比值越大，说明匹配程度越高。

可以设置一个匹配阈值，上述的匹配比例(即比值)达到这个匹配阈值，可认为匹配成功，生成匹配通过结果；匹配程度未达到这个匹配阈值，生成匹配未通过结果，匹配阈值可以是98％或97％，匹配阈值可以根据实际需要设置。

或者也可以根据匹配程度的高低作为评估结果，对于评估整个语义识别的准确度而言，可以通过对比大量原始字符串和对应的标准字符串的字符匹配程度综合得出评出结果。

基于同一发明构思，本发明还提供了一种电子设备，其包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述任意实施例所述的方法。

基于同一发明构思，本发明还提供了一种计算机可读存储介质，其中，所述存储介质中存储有至少一条指令、至少一段程序、代读码集或指令集，所述至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行如上述任意实施例的方法。

本发明提供了一种支持多语言的语义识别评估方法，在本发明提供的方法中，在对测试音频识别得到测试音频对应的待识别字符串后，获取与测试音频对应的语言类型的模糊词典以及通用词典，之后基于模糊词典和通用词典将待识别字符串中包含的模糊词语和/或通用词语替换为标准词语从而得到标准字符串，再对比原始字符串和标准字符串的字符匹配程度生成评估结果。从而可以提高原始字符串和待识别字符串的字符匹配程度，提高ASR识别引擎的识别结果的准确性。另外，基于本发明提出的方案，可以将不同ASR识别引擎的识别结果标准化，在实际生产应用中用途广泛。

所属领域的技术人员可以清楚地了解到，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，为简洁起见，在此不另赘述。

另外，在本发明各个实施例中的各功能单元可以物理上相互独立，也可以两个或两个以上功能单元集成在一起，还可以全部功能单元都集成在一个处理单元中。上述集成的功能单元既可以采用硬件的形式实现，也可以采用软件或者固件的形式实现。

本领域普通技术人员可以理解：所述集成的功能单元如果以软件的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，其包括若干指令，用以使得一台计算设备(例如个人计算机，服务器，或者网络设备等)在运行所述指令时执行本发明各实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM)、随机存取存储器(RAM)，磁碟或者光盘等各种可以存储程序代码的介质。

或者，实现前述方法实施例的全部或部分步骤可以通过程序指令相关的硬件(诸如个人计算机，服务器，或者网络设备等的计算设备)来完成，所述程序指令可以存储于一计算机可读取存储介质中，当所述程序指令被计算设备的处理器执行时，所述计算设备执行本发明各实施例所述方法的全部或部分步骤。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：在本发明的精神和原则之内，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案脱离本发明的保护范围。

Claims

1.一种支持多语言的语义识别评估方法，包括：

对比所述原始字符串和所述标准字符串的字符匹配程度，生成评估结果；

其中，所述模糊词典中的每个模糊词组和所述通用词典中的每个通用词组还包括匹配模式，所述匹配模式包括全局替换或句尾替换或句首替换或句中替换，所述基于所述模糊词典和所述通用词典对所述待识别字符串进行字符转换，将所述待识别字符串中的包含的模糊词语和/或通用词语替换为标准词语从而得到标准字符串，包括：

根据所述模糊词典中的与所述待识别字符串的模糊词语对应的标准词语的匹配模式，将所述待识别字符串中的模糊词语替换为对应的标准词语；

将替换标准词语后的待识别字符串作为所述标准字符串；

其中，所述通用词典和不同语言类型的所述模糊词典是基于配置词典生成的，所述配置词典中包含任一模糊词组和通用词组及其各自对应的标准词语及匹配模式；

2.根据权利要求1所述的方法，其中，所述确定所述测试音频对应的语言类型，包括：

3.根据权利要求1所述的方法，所述基于所述模糊词典和所述通用词典对所述待识别字符串进行字符转换之前，还包括：

4.根据权利要求1所述的方法，所述基于所述模糊词典和所述通用词典对所述待识别字符串进行字符转换之前，还包括：

5.根据权利要求1所述的方法，其中，

所述配置词典在达到预设更新条件时进行更新，所述预设更新条件包括：出现新的模糊词语和/或新的通用词语；

6.一种电子设备，其特征在于，包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1-5任意一项所述的方法。

7.一种计算机可读存储介质，其中，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行如权利要求1-5任意一项所述的方法。