CN110853635B

CN110853635B - 语音识别方法、音频标注方法、计算机设备、存储装置

Info

Publication number: CN110853635B
Application number: CN201910975224.7A
Authority: CN
Inventors: 洪志云; 徐成茂
Original assignee: Midea Group Co Ltd; Guangdong Midea White Goods Technology Innovation Center Co Ltd
Current assignee: Midea Group Co Ltd; Guangdong Midea White Goods Technology Innovation Center Co Ltd
Priority date: 2019-10-14
Filing date: 2019-10-14
Publication date: 2022-04-01
Anticipated expiration: 2039-10-14
Also published as: CN110853635A

Abstract

本申请公开了语音识别方法、音频标注方法、计算机设备、具有存储功能的装置，其中语音识别方法包括：获得至少两个不同的自动语音识别ASR引擎识别同一音频后所得到的至少两份ASR文本；确定至少两份ASR文本中相同的文本内容和不同的文本内容；保留相同的文本内容，对不同的文本内容依次进行至少一个维度的共性比对，保留每个维度下具有共性的文本内容或文本内容的属性，直至遍历所有不同的文本内容；通过语言模型自动适配所有保留下来的文本内容或属性，以得到识别文本。通过上述方式，本申请能够提高语音识别的准确率。

Description

语音识别方法、音频标注方法、计算机设备、存储装置

技术领域

本申请涉及语音识别领域，特别是涉及语音识别方法、音频标注方法、计算机设备、具有存储功能的装置。

背景技术

ASR，英文的全称是Automated Speech Recognition，即自动语音识别技术，是一种将人的语音转换为文本的技术。伴随人工智能(AI，Artificial Intelligence)技术的发展，基于ASR技术的语音机器人、坐席助于、语音质检等智能产品得到了大量的推广。ASR技术的准确率将直接影响智能产品效果，而现有的ASR技术识别准确率较低。

发明内容

本申请主要解决的技术问题是提供一种语音识别方法、音频标注方法、计算机设备、具有存储功能的装置，能够解决目前ASR技术中准确率较低的问题。

为解决上述技术问题，本申请采用的一个技术方案是：提供一种语音识别方法，包括以下步骤：获得至少两个不同的自动语音识别ASR引擎识别同一音频后所得到的至少两份ASR文本；确定至少两份ASR文本中相同的文本内容和不同的文本内容；保留相同的文本内容，对不同的文本内容依次进行至少一个维度的共性比对，保留每个维度下具有共性的文本内容或文本内容的属性，直至遍历所有不同的文本内容；通过语言模型自动适配所有保留下来的文本内容或属性，以得到识别文本。

其中，保留相同的文本内容后包括：对保留的相同的文本内容设置位置标签；对不同的文本内容依次进行至少一个维度的共性比对包括：以设置标签后的相同的文本内容开始，从后往前对不同的文本内容依次进行至少一个维度的共性比对，和/或从前往后对不同的文本内容依次进行至少一个维度的共性比对。

其中，对不同的文本内容依次进行至少一个维度的共性比对，保留每个维度下具有共性的文本内容或文本内容的属性前包括：确定至少两份ASR文本中位置对应的不同的文本内容的字数是否相同；响应于不同的文本内容的字数相同，输出字数相同的文本内容作为至少部分保留下来的文本内容。

其中，确定至少两份ASR文本中位置对应的不同的文本内容的字数是否相同后包括：响应于不同的文本内容的字数不同，将每份ASR文本中对应字数不同位置的文本内容全部转换为拼音；字数最多的ASR文本保留对应位置的该部分拼音，字数较少的ASR文本保留每份ASR文本中拼音相同的部分，将字数最多的ASR文本中拼音不同的部分填充到字数较少的ASR文本中的拼音相应位置。

其中，获得至少两个不同的自动语音识别ASR引擎识别同一音频后所得到的至少两份ASR文本包括：获得三个不同的自动语音识别ASR引擎识别同一音频后所得到的三份ASR文本；对不同的文本内容依次进行至少一个维度的共性比对，保留每个维度下具有共性的文本内容或文本内容的属性包括：对不同的文本内容逐字进行单字比较，确定三份ASR文本中处于对应位置的字是否有两个字内容相同；响应于内容相同，输出相同的字作为至少部分保留下来的文本内容。

其中，对不同的文本内容逐字进行单字比较，确定三份ASR文本中处于对应位置的字是否有两个字相同包括：响应于内容不同，确定三份ASR文本中处于对应位置的字的拼音是否有两个字的拼音相同；响应于拼音相同，输出相同的拼音作为至少部分保留下来的文本内容的属性。

其中，确定三份ASR文本中处于对应位置的字的拼音是否有两个字的拼音相同后包括：响应于拼音不同，输出相同的拼音组成部分作为至少部分保留下来的文本内容的属性。

其中，对不同的文本内容依次进行至少一个维度的共性比对后包括：确定所有保留下来的文本内容或文本内容的属性是否有不确定的字；响应于有不确定的字，结合不确定的字的拼音及其前后字，进行语义理解，将不确定的字转化为确定的字并保留下来，重新返回确定所有保留下来的文本内容或文本内容的属性是否有不确定的字步骤。

其中，确定所有保留下来的文本内容或文本内容的属性是否有不确定的字后包括：响应于不存在不确定的字，将所有保留下来的文本内容转换为拼音，作为所有保留下来的文本内容的属性；通过语言模型自动适配所有保留下来的文本内容或属性包括：通过语言模型自动适配所有保留下来的拼音。

其中，确定至少两份ASR文本中相同的文本内容和不同的文本内容前包括：确定三份ASR文本的字数是否相同；响应于三份ASR文本的字数相同，执行确定至少两份ASR文本中相同的文本内容和不同的文本内容步骤；响应于三份ASR文本的字数不相同，确定字数最多的ASR文本数量是否大于一；响应于字数最多的ASR文本数量大于一，执行确定至少两份ASR文本中相同的文本内容和不同的文本内容步骤。

其中，获得三个不同的自动语音识别ASR引擎识别同一音频后所得到的三份ASR文本后包括：确定是否存在两份以上ASR文本一致的情况，响应于存在两份以上ASR文本一致的情况，将一致的ASR文本作为识别文本，响应于存在两份以上ASR文本不一致的情况，执行确定至少两份ASR文本中相同的文本内容和不同的文本内容步骤。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种语音标注方法，包括：获得音频；采用上述任一语音识别方法识别音频，得到识别文本；用识别文本对音频进行标注。

为解决上述技术问题，本申请采用的又一个技术方案是：提供一种计算机设备，包括：处理器、存储器及其存储的指令，存储器用于存储音频，处理器执行指令时实现上述任一方法的步骤。

为解决上述技术问题，本申请采用的再一个技术方案是：提供一种具有存储功能的装置，包括：装置上存储有指令，指令被处理器执行时实现上述任一方法的步骤。

本申请的有益效果是：区别于现有技术的情况，本申请通过至少两个自动语音识别ASR引擎同一音频，得到至少两份ASR文本，再对至少两份ASR文本进行至少一个维度的共性比对，以解决单个ASR引擎识别的可信度问题以及如何融合不同ASR引擎识别以提高识别准确性的问题，再通过语言模型的自动适配，得到逼近正确文本的识别文本，以此提高ASR技术的准确性。

附图说明

图1是本申请语音识别方法第一实施例的流程示意图；

图2是本申请语音识别方法第二实施例的流程示意图；

图3是本申请语音识别方法第三实施例的流程示意图；

图4是本申请语音识别方法第四实施例的流程示意图；

图5是本申请音频标注方法第一实施例的流程示意图；

图6是本申请计算机设备第一实施例的结构示意图；

图7是本申请具有存储功能的装置第一实施例的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参阅图1，图1示出了本申请语音识别方法第一实施例的流程示意图，该方法包括如下步骤：

S101:获得至少两个不同的自动语音识别ASR引擎识别同一音频后所得到的至少两份ASR文本。

本实施例中，采用至少两个不同的自动语音识别ASR引擎识别同一音频的目的是得到对应的至少两份ASR文本。

可选地，不同的自动语音识别ASR引擎可以为不同厂商提供的ASR引擎或不同型号的ASR引擎。

例如，ASR1引擎和ASR2引擎识别同一音频，分别得到ASR1文本和ASR2文本。ASR1引擎和ASR2引擎为不同的ASR引擎。ASR1文本和ASR2文本的文本内容可以相同，也可以不同。

本实施例中，音频的格式为自动语音识别ASR引擎所支持的格式。若该音频的原始音频格式得不到自动语音识别ASR引擎的支持，则将该音频的原始音频进行格式转换，以得到自动语音识别ASR引擎所支持的格式的音频。

S102:确定至少两份ASR文本中相同的文本内容和不同的文本内容。

可选地，ASR文本的文本内容为汉字。确定至少两份ASR文本中相同的文本内容和不同的文本内容，即是确定至少两份ASR文本中相同的汉字和不同的汉字。

可选地，相同的内容为至少两份ASR文本中对应位置的相同的汉字；不同的文本内容为至少两份ASR文本中对应位置的不同的汉字，或至少一份ASR文本中对应位置缺失的汉字。

例如，ASR1文本的文本内容为“今天天气真好”，ASR2文本的文本内容为“今天天汽好”，其中相同的文本内容为“今天、天、好”，不同的文本内容为“气、汽、真”。

此外，ASR文本的文本内容还可以为其他国家的语言文字，例如，美国、日本、韩国、葡萄牙等。

S103:保留相同的文本内容，对不同的文本内容依次进行至少一个维度的共性比对，保留每个维度下具有共性的文本内容或文本内容的属性，直至遍历所有不同的文本内容。

可选地，维度可以是文本内容或文本内容的属性。其中，文本内容可以是汉字，文本内容的属性可以是汉字的字数、汉字的词性、汉字的拼音、拼音的字母等。

其中，在进行文本内容的属性的共性比对时，若不同文本内容中对应位置存在缺失的文本内容的属性，则将其他ASR文本的不同文本内容中对应位置的文本内容的属性保留下来。

其中，当对不同的文本内容依次进行至少一个维度的共性比对时，保留每个维度下具有共性的文本内容或文本内容的属性，直至遍历所有不同的文本内容，包括：

一种情况，对不同的文本内容进行第一个维度的共性比对后，保留该维度下具有共性的文本内容或文本内容的属性，再对第一维度共性比对后的不具有共性的文本内容或文本内容的属性进行第二维度的共性比对，保留该维度下具有共性的文本内容或文本内容的属性。

例如，ASR1文本的文本内容为“今天天气真好”，ASR2文本的文本内容为“今天天汽好”，ASR1文本与ASR2文本中不相同的文本内容“气、汽、真”。其中，ASR1文本为“汽”，ASR2文本为“气、真”。

第一维度共性比对：ASR1文本的“汽”、ASR2文本的“气、真”依次进行对应位置的文字字数比对，字数相同位置的文字保留下来，即ASR1文本留下“汽”，ASR2文本留下“气”，字数不同位置的文字作为不具有共性的文字留到下一维度比对，此时ASR2文本还剩下“真”，而ASR1文本不剩下文字，为了方便讨论，ASR1文本当作剩下“无”，与ASR2文本一起留到下一维度比对。

第二维度共性比对：将上述文字维度下不具有共性的文字：ASR1文本的“无”、ASR2文本的“真”转变为拼音“zhen”，并且将ASR2文本的拼音“zhen”填充到ASR1文本的“无”中，此时两个文本的相应位置都有拼音“zhen”，依次进行该位置的文字的拼音比对，保留该拼音维度下具有共性拼音“zhen”。

另一种情况，对不同的文本内容依次分别进行两个维度的共性比对，分别保留该维度下具有共性的文本内容或文本内容的属性。

如果，如果前面的维度对比已经保留了该位置的相应的文本内容或文本内容的属性，则后面的维度默认保留其他空余位置的文本内容或文本内容的属性。

例如，ASR1文本的文本内容为“今天天气真好”，ASR2文本的文本内容为“今天天汽好”，对ASR1文本与ASR2文本中不相同的文本内容“气、汽、真”，ASR1文本为“汽”，ASR2文本为“气、真”。

第一维度共性比对：ASR1文本的“汽”、ASR2文本的“气、真”依次进行对应位置的文字字数比对，字数相同位置的文字保留下来，即ASR1文本留下“汽”，ASR2文本留下“气”。

第二维度共性比对：ASR1文本的“汽”、ASR2文本的“气、真”依次进行对应位置的拼音比对，将“气、汽、真”转化为拼音，并将ASR2文本的拼音“zhen”填充到ASR1文本的相应位置中，此时两个文本的相应位置都有拼音“zhen”，依次进行该位置的文字的拼音比对，将对应位置相同的拼音保留下来。由于在进行第一维度对比时对应位置已经保留了“汽”、“气”，所以本维度下对应位置默认只保留拼音“qi”，即最后ASR1不同的文本内容保留下来的为“汽、zhen”，ASR2不同的文本内容保留下来的为“气、zhen”。

再一种情况，先对不同的文本内容的一部分进行一个维度的共性比对，保留该维度下具有共性的文本内容或文本内容的属性，再对不同的文本内容的另一部分进行另一个维度的共性比对，保留该维度下具有共性的文本内容或文本内容的属性。

例如，ASR1文本的文本内容为“今天天气真好”，ASR2文本的文本内容为“今天天汽好”，对ASR1文本与ASR2文本中不相同的文本内容“气、汽、真”。

第一维度共性比对：先对不同的文本内容中的一部分“气、汽”进行文字字数的比对，将字数相同位置的文字保留下来，即ASR1文本留下“汽”，ASR2文本留下“气”。

第二维度共性比对：再不同的文本内容中的一部分对“真”进行拼音比对，将ASR2文本的“真”转变为拼音“zhen”，并且将ASR2文本的拼音“zhen”填充到ASR1文本的相应位置中，此时两个文本的相应位置都有拼音“zhen”，依次进行该位置的文字的拼音比对，保留该拼音维度下具有共性拼音“zhen”。

S104:通过语言模型自动适配所有保留下来的文本内容或属性，以得到识别文本。

其中，所有保留下来的文本内容或属性是指通过步骤S103后所有保留下来的文本内容或属性。

语言模型是根据语言客观事实而进行的语言抽象数学建模，是一种对应关系。语言模型主要有以下三种类型：

(1)生成性模型从一个形式语言系统出发，生成语言的某一集合，如N.乔姆斯基的形式语言理论和转换语法。

(2)分析性模型从语言的某一集合开始，根据对这个集合中各个元素的性质的分析，阐明这些元素之间的关系，并在此基础上用演绎的方法建立语言的规则系统，如苏联数学家O.C.库拉金娜和罗马尼亚数学家S.马尔库斯用集合论方法提出的语言模型。

(3)在生成性模型和分析性模型的基础上，把二者结合起来，便产生了一种很有实用价值的模型，即辨识性模型。辨识性模型可以从语言元素的某一集合及规则系统出发，通过有限步骤的运算，确定这些元素是一堆乱七八糟的词还是语言中合格的句子。如Y.巴尔-希列尔用数理逻辑方法提出的句法类型演算模型。

其中，汉语语言模型是指根据汉语语言客观事实而进行的语言抽象数学建模。通过汉语语言模型可以自动适配所有保留下来的汉字或汉字的拼音，以得到完整的文本内容为汉字的识别文本。

以上可以看出，通过对至少两份ASR文本进行至少一个维度的共性比对，保留两份ASR文本中差异部分中正确的部分，以解决单个ASR引擎识别的可信度问题以及如何融合不同ASR引擎识别以提高识别准确性的问题，从而能够提高ASR技术的准确性。

参阅图2，图2示出了本申请语音识别方法第二实施例的流程示意图，该方法包括如下步骤：

S201:获得至少两个不同的自动语音识别ASR引擎识别同一音频后所得到的至少两份ASR文本。

本实施例中的音频可以是人类说话或唱歌所录制的语音。

本实施例中，对于该步骤的阐述可以参照语音识别方法第一实施例中相应位置的阐述，此处不再赘述。

S202:确定至少两份ASR文本中相同的文本内容和不同的文本内容。

S203:保留相同的文本内容，对保留的相同的文本内容设置位置标签；对不同的文本内容依次进行至少一个维度的共性比对，保留每个维度下具有共性的文本内容或文本内容的属性，直至遍历所有不同的文本内容。

其中，对不同的文本内容依次进行至少一个维度的共性比对，包括：

以设置标签后的相同的文本内容开始，从后往前对不同的文本内容依次进行至少一个维度的共性比对，和/或从前往后对不同的文本内容依次进行至少一个维度的共性比对。

例如，ASR1文本的文本内容为“今天天气真好”，ASR2文本的文本内容为“今天天汽好”，ASR1文本与ASR2文本中不相同的文本内容“气、汽、真”。以设置标签后的相同的文本内容“今天天”开始，从前往后对不同的文本内容“气、汽、真”依次进行至少一个维度的共性比对。

此外，当ASR1文本的文本内容为“今天天气真好”，ASR2文本的文本内容为“金田田汽好”时，ASR1文本与ASR2文本中不相同的文本内容“金田田汽、真”。以设置标签后的相同的文本内容“好”开始，从后往前对不同的文本内容“金田田汽、真”依次进行至少一个维度的共性比对。

可选地，维度可以是文本内容、文本内容属性。其中，文本内容可以是汉字，文本内容的属性可以是汉字的字数、汉字的词性、汉字的拼音、拼音的字母等。

其中，当对不同的文本内容依次进行至少一个维度的共性比对时，保留每个维度下具有共性的文本内容或文本内容的属性，直至遍历所有不同的文本内容，可以为是三种情况中任一种，与语音识别方法第一实施例相同，此处不再赘述。

可选地，设置位置标签可以是在相同文本与不同文本之间添加相应标号，也可以是将保留的相同的文本内容的位置信息存储在某一具有存储功能的介质中，该介质可以是移动硬盘、U盘、磁碟或云盘中的任意一种等。

S204:确定所有保留下来的文本内容或文本内容的属性是否有不确定的字。

响应于存在不确定的字，结合不确定的字的拼音及其前后字，进行语义理解，将不确定的字转化为确定的字并保留下来，返回步骤S204。

响应于不存在不确定的字，执行步骤S205。

其中，所有保留下来的文本内容或文本内容的属性是指通过步骤S203后所有保留下来的文本内容或文本内容的属性。

其中，不确定的字是指并不是具体的文字。例如，具体的文字可以是汉字，不确定的字可以是拼音、拼音的韵母或声母或字母。

S205：将所有保留下来的文本内容转换为拼音，作为所有保留下来的文本内容的属性。

其中，所有保留下来的文本内容是指通过步骤S204后所有保留下来的文本内容。

S206：通过语言模型自动适配所有保留下来的拼音，以得到识别文本。

由于上述通过步骤S204后所有保留下来的文本内容中，仍可能存在不准确的部分。例如，该文本内容中部分是至少两份ASR文本中具有相同汉字的部分，而保留下来的相同的汉字并不能说明该汉字是正确的汉字。所以本实施例通过将所有保留下来的文本内容转换为拼音，再通过语言模型自动适配所有保留下来的拼音，以提高语音识别的准确率。

进一步举例，ASR1文本的文本内容为“金天天气真好”，ASR2文本的文本内容为“金天天汽好”，所有保留下来的汉字为“金天天气真好”，由于ASR1文本与ASR2文本具有相同的汉字“金”，所以“金”被保留了下来，但是被保留下来的“金”并不是正确的汉字。所以将“金天天气真好”转换为拼音“jin tian tian qi zhen hao”，再通过汉语语言模型自动适配该拼音，可以得到识别文本“今天天气真好”，以提高语音识别的准确率。

本实施例中的语言模型是汉语语言模型，与语音识别方法第一实施例中的相关论述相同，此处不再赘述。

参阅图3，图3示出了本申请语音识别方法第三实施例的流程示意图，该方法包括如下步骤：

S301:获得至少两个不同的自动语音识别ASR引擎识别同一音频后所得到的至少两份ASR文本。

可选地，ASR引擎的数量可以是奇数，具体可以是3个、5个、7个或9个。

本实施例中，至少两个不同的自动语音识别ASR引擎对同一音频的识别可以是分时识别，也可以是同时识别。

本实施例中，对于该步骤的阐述可以参照语音识别方法第一实施例和第二实施例中相应位置的阐述，此处不再赘述。

S302:确定至少两份ASR文本中相同的文本内容和不同的文本内容。

S303:保留相同的文本内容，确定至少两份ASR文本中位置对应的不同的文本内容的字数是否相同。

响应于不同的文本内容的字数相同，输出字数相同的文本内容作为至少部分保留下来的文本内容。

响应于不同的文本内容的字数不同，执行步骤S304。

例如，ASR1文本的文本内容为“桥，今天天气真好”，ASR2文本的文本内容为“你瞧，今天天汽好”，相同的文本内容为“今天、天、好”，不同的文本内容为“桥、你瞧、气、汽、真”。保留相同的文本内容，确定位置对应的不同的文本内容的字数是否相同。其中，由于对应位置不同的文本内容“桥、你瞧”的字数不相同，为1和2，所以执行步骤S304；对应位置不同的文本内容“气、汽”的字数相同，都为1，则将ASR1文本与ASR2文本对应位置的“气、汽”保留下来；由于对应位置不同的文本内容“真”的字数不相同，为0和1，所以执行步骤S304。

S304：将每份ASR文本中对应字数不同位置的文本内容全部转换为拼音；字数最多的ASR文本保留对应位置的该部分拼音，字数较少的ASR文本保留每份ASR文本中拼音相同的部分，将字数最多的ASR文本中拼音不同的部分填充到字数较少的ASR文本中的拼音相应位置。

例如，将步骤S303中的对应位置不同的文本内容“桥、你瞧、真”转换为拼音“qiao、ni qiao、zhen”；字数最多的ASR2文本保留对应位置的该部分拼音“ni qiao”；字数较少的ASR文本保留每份ASR文本中拼音相同的部分“qiao”，将字数最多的ASR2文本中拼音不同的部分“ni”填充到字数较少的ASR1文本中的拼音相应位置，得到“ni qiao”。ASR1文本中对应位置的“真”转换为“zhen”保留下来，而ASR2文本的对应位置填充字数较多的ASR1文本中对应位置的拼音“zhen”。

S305：对不同的文本内容依次进行至少一个维度的共性比对，保留每个维度下具有共性的文本内容或文本内容的属性，直至遍历所有不同的文本内容。

S306：确定所有保留下来的文本内容或文本内容的属性是否有不确定的字。

响应于有不确定的字，结合不确定的字的拼音及其前后字，进行语义理解，将不确定的字转化为确定的字并保留下来，重新返回步骤S306。

响应于不存在不确定的字，执行步骤S307。

其中，所有保留下来的文本内容或文本内容的属性是指通过步骤S305后所有保留下来的文本内容或文本内容的属性。

其中，不确定的字是指不是具体的文字。例如，具体的文字可以是汉字，不确定的字可以是拼音、拼音的韵母或声母或字母。

S307：将所有保留下来的文本内容转换为拼音，作为所有保留下来的文本内容的属性。

S308:通过语言模型自动适配所有保留下来的拼音，以得到识别文本。

参阅图4，图4示出了本申请语音识别方法第四实施例的流程示意图，该方法包括如下步骤：

S401:获得三个不同的自动语音识别ASR引擎识别同一音频后所得到的三份ASR文本。

本实施例采用三个不同的自动语音识别ASR引擎识别同一音频的目的是得到三份ASR文本。在对三份ASR文本的差异性比较时，可以通过“少数服从对数”的原则，选择出更准确的ASR文本，提高ASR技术的准确率。

S402：确定是否存在两份以上ASR文本一致的情况。

响应于存在两份以上ASR文本一致的情况，将一致的ASR文本作为识别文本。

响应于存在两份以上ASR文本不一致的情况，执行步骤S403。

其中，ASR文本一致是指ASR文本的字数和ASR文本对应位置的文本内容都一致。

通过该步骤筛选出来的存在两份以上一致的ASR文本的可靠性较高，可以直接作为识别文本，从而简化操作步骤。

S403：确定三份ASR文本的字数是否相同。

响应于三份ASR文本的字数相同，执行步骤S405。

响应于三份ASR文本的字数不相同，执行步骤S404。

由于字数相同的ASR文本的可靠性更高，通过简单的字数筛选，分别对字数相同和字数不同的情况进行不同的操作，可以简化操作步骤。

S404：确定字数最多的ASR文本数量是否大于一。

响应于字数最多的ASR文本数量大于一，执行步骤S405。

如果最多的ASR文本数量大于一，即是说明存在字数相同的ASR文本，则执行步骤S405。

响应于字数最多的ASR文本数量等于一，执行步骤S405。

S405:确定至少两份ASR文本中相同的文本内容和不同的文本内容。

本实施例中对于该步骤的阐述，可以参照语音识别方法第一实施例和第二实施例中相应位置的阐述，此处不再赘述。

S406a：保留相同的文本内容，对保留的相同的文本内容设置位置标签。

本实施例中对于该步骤的阐述，可以参照语音识别方法第二实施例中相应位置的阐述，此处不再赘述。

S406b1:保留相同的文本内容，确定至少两份ASR文本中位置对应的不同的文本内容的字数是否相同。

响应于不同的文本内容的字数的相同，输出字数相同的文本内容作为至少部分保留下来的文本内容。

响应于不同的文本内容的字数的不同，执行步骤S406b2。

本实施例中对于该步骤的阐述，可以参照语音识别方法第三实施例中相应位置的阐述，此处不再赘述。

S406b2:将每份ASR文本中对应字数不同位置的文本内容全部转换为拼音；字数最多的ASR文本保留对应位置的该部分拼音，字数较少的ASR文本保留每份ASR文本中拼音相同的部分，将字数最多的ASR文本中拼音不同的部分填充到字数较少的ASR文本中的拼音相应位置。

S407：对不同的文本内容逐字进行单字比较，确定三份ASR文本中处于对应位置的字是否有两个字内容相同。

响应于内容相同，输出相同的字作为至少部分保留下来的文本内容。

响应于内容不同，执行步骤S408。

其中，单字比较为第一维度的共性比对。

可选地，对不同的文本内容逐字进行单字比较是按顺序进行的单字比较。这里的顺序可以是从后往前的顺序，和/或从前往后的顺序。进一步可以是以设置标签后的相同的文本内容开始，从后往前，和/或从前往后对不同的文本内容依次进行至少一个维度的共性比对。

可选地，输出相同的字作为至少部分保留下来的文本内容中可以是对应位置的字输出到一个新的空白文本中。

S408：确定三份ASR文本中处于对应位置的字的拼音是否有两个字的拼音相同。

响应于拼音相同，输出相同的拼音作为至少部分保留下来的文本内容的属性。

响应于拼音不同，执行步骤S409。

其中，拼音比较为第二维度的共性比对。

可选地，输出相同的拼音作为至少部分保留下来的文本内容的属性可以是对应位置的拼音输出到一个新的空白文本中。

S409:输出相同的拼音组成部分作为至少部分保留下来的文本内容的属性；保留每个维度下具有共性的文本内容或文本内容的属性，直至遍历所有不同的文本内容。

其中，拼音组成部分可以是声母、韵母，也可以是单个的字母。韵母又可以是单韵母、复韵母、前鼻韵母或后鼻韵母。

例如，当拼音组成部分可以是声母、韵母时，三份ASR文本中对应位置的拼音分别为“san”、“shan”、“han”，则输出相同的拼音组成部分为输出前鼻韵母“an”，作为至少部分保留下来的文本内容的属性。

当拼音组成部分为单个的字母时，三份ASR文本中对应位置的拼音分别为“shang”、“shan”、“san”，则输出相同的拼音组成部分为输出“san”，作为至少部分保留下来的文本内容的属性。

S410:确定所有保留下来的文本内容或文本内容的属性是否有不确定的字。

响应于有不确定的字，结合不确定的字的拼音及其前后字，进行语义理解，将不确定的字转化为确定的字并保留下来，重新返回步骤S410。

响应于不存在不确定的字，执行步骤S411。

其中，所有保留下来的文本内容或文本内容的属性是指通过步骤S409后所有保留下来的文本内容或文本内容的属性。

S411:将所有保留下来的文本内容转换为拼音，作为所有保留下来的文本内容的属性。

S412:通过语言模型自动适配所有保留下来的拼音，以得到识别文本。

参阅图5，图5示出了本申请音频标注方法第一实施例的流程示意图，该方法包括如下步骤：

S501：获得音频。

S502：采用上述任一实施例中的语音识别方法识别音频，得到识别文本。

S503：用识别文本对音频进行标注。

参阅图6，图6示出了本申请计算机设备第一实施例的流程示意图。

本申请实施例提供的一种计算机设备100，包括处理器101、存储器102及其存储的指令。存储器102还可用于存储音频。处理器101执行指令时实现如上述任一实施例方法的步骤。

处理器101还可以称为CPU(Central Processing Unit，中央处理单元)。处理器101还可能是一种集成电路芯片，具有信号的处理能力。处理器101还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

参阅图7，图7示出了具有存储功能的装置第一实施例的流程示意图。

本申请实施例提供的一种具有存储功能的装置200，装置上存储有指令，指令被处理器执行时实现如上述任一实施例方法的步骤。

该存储装置200具体可以为U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等可以存储程序指令的介质，或者也可以为存储有该程序指令的服务器，该服务器可将存储的程序指令发送给其他设备运行，或者也可以自运行该存储的程序指令。

以上仅为本申请的实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种语音识别方法，其特征在于，包括：

获得至少两个不同的自动语音识别ASR引擎识别同一音频后所得到的至少两份ASR文本；

确定所述至少两份ASR文本中相同的文本内容和不同的文本内容；

保留所述相同的文本内容，确定所述至少两份ASR文本中处于对应位置的所述不同的文本内容的字数是否相同；

响应于所述不同的文本内容的字数相同，输出所述字数相同的文本内容作为至少部分保留下来的文本内容；

对所述不同的文本内容依次进行至少一个维度的共性比对，保留每个维度下具有共性的文本内容或文本内容的属性，直至遍历所有所述不同的文本内容；其中，所述文本内容的属性包括以下至少一种：汉字的字数、汉字的词性、汉字的拼音和拼音的字母；

通过语言模型自动适配所有保留下来的文本内容或文本内容的属性，以得到识别文本。

2.根据权利要求1中所述的方法，其特征在于，

所述保留所述相同的文本内容后包括：

对保留的所述相同的文本内容设置位置标签；

所述对所述不同的文本内容依次进行至少一个维度的共性比对包括：

以所述设置位置标签后的所述相同的文本内容开始，从后往前对所述不同的文本内容依次进行至少一个维度的共性比对，和/或从前往后对所述不同的文本内容依次进行至少一个维度的共性比对。

3.根据权利要求1中所述的方法，其特征在于，

所述确定所述至少两份ASR文本中处于对应位置的所述不同的文本内容的字数是否相同后包括：

响应于所述不同的文本内容的字数不同，将每份所述ASR文本中对应字数不同位置的文本内容全部转换为拼音；

字数最多的ASR文本保留对应位置的部分拼音，字数较少的ASR文本保留每份ASR文本中拼音相同的部分，将字数最多的ASR文本中拼音不同的部分填充到字数较少的ASR文本中的拼音相应位置。

4.根据权利要求2或3中所述的方法，其特征在于，

所述获得至少两个不同的自动语音识别ASR引擎识别同一音频后所得到的至少两份ASR文本包括：

获得三个不同的自动语音识别ASR引擎识别同一音频后所得到的三份ASR文本；

所述对所述不同的文本内容依次进行至少一个维度的共性比对，保留每个维度下具有共性的文本内容或文本内容的属性包括：

对所述不同的文本内容逐字进行单字比较，确定三份ASR文本中处于对应位置的字是否有两个字内容相同；

响应于内容相同，输出相同的字作为至少部分所述保留下来的文本内容。

5.根据权利要求4中所述的方法，其特征在于，

所述对所述不同的文本内容逐字进行单字比较，确定三份ASR文本中处于对应位置的字是否有两个字相同包括：

响应于内容不同，确定三份ASR文本中处于对应位置的字的拼音是否有两个字的拼音相同；

响应于拼音相同，输出相同的拼音作为至少部分所述保留下来的文本内容的属性。

6.根据权利要求5中所述的方法，其特征在于，

所述确定三份ASR文本中处于对应位置的字的拼音是否有两个字的拼音相同后包括：

响应于拼音不同，输出相同的拼音组成部分作为至少部分所述保留下来的文本内容的属性。

7.根据权利要求1或2中所述的方法，其特征在于，

所述对所述不同的文本内容依次进行至少一个维度的共性比对后包括：

确定所有所述保留下来的文本内容或文本内容的属性是否有不确定的字；

响应于有不确定的字，结合所述不确定的字的拼音及其前后字，进行语义理解，将所述不确定的字转化为确定的字并保留下来，重新返回所述确定所有所述保留下来的文本内容或文本内容的属性是否有不确定的字步骤。

8.根据权利要求7中所述的方法，其特征在于，

所述确定所有所述保留下来的文本内容或文本内容的属性是否有不确定的字后包括：

响应于不存在不确定的字，将所有所述保留下来的文本内容转换为拼音，作为所有所述保留下来的文本内容的属性；

所述通过语言模型自动适配所有所述保留下来的文本内容或文本内容的属性包括：

通过语言模型自动适配所有保留下来的拼音。

9.根据权利要求4中所述的方法，其特征在于，

所述确定所述至少两份ASR文本中相同的文本内容和不同的文本内容前包括：

确定所述三份ASR文本的字数是否相同；

响应于所述三份ASR文本的字数相同，执行所述确定所述至少两份ASR文本中相同的文本内容和不同的文本内容步骤；

响应于所述三份ASR文本的字数不相同，确定字数最多的所述ASR文本的数量是否大于一；

响应于所述字数最多的所述ASR文本的数量大于一，执行所述确定所述至少两份ASR文本中相同的文本内容和不同的文本内容步骤。

10.根据权利要求9中所述的方法，其特征在于，

所述获得三个不同的自动语音识别ASR引擎识别同一音频后所得到的三份ASR文本后包括：

确定是否存在两份以上所述ASR文本一致的情况，响应于存在两份以上所述ASR文本一致的情况，将所述一致的所述ASR文本作为所述识别文本；响应于存在两份以上所述ASR文本不一致的情况，执行所述确定所述至少两份ASR文本中相同的文本内容和不同的文本内容步骤。

11.一种音频标注方法，其特征在于，包括：

获得音频；

采用权利要求1至10任一项中所述的语音识别方法识别所述音频，得到识别文本；

用所述识别文本对所述音频进行标注。

12.一种计算机设备，其特征在于，包括处理器、存储器及其存储的指令，所述存储器用于存储音频，所述处理器执行所述指令时实现如权利要求1至11任一项所述方法的步骤。

13.一种具有存储功能的装置，其特征在于，所述装置上存储有指令，所述指令被处理器执行时实现权利要求1至11任一项所述方法的步骤。