CN112151014B

CN112151014B - 语音识别结果的测评方法、装置、设备及存储介质

Info

Publication number: CN112151014B
Application number: CN202011215789.4A
Authority: CN
Inventors: 陈益
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-11-04
Filing date: 2020-11-04
Publication date: 2023-07-21
Anticipated expiration: 2040-11-04
Also published as: CN112151014A; WO2022095353A1

Abstract

本发明涉及人工智能领域，公开了语音识别结果的测评方法、装置、设备及存储介质，用于提高评定初始语音转化为初始文本的准确率的测评效率。语音识别结果的测评方法包括：基于语音识别函数对视频回访项目中的初始语音进行转化，得到初始文本；对初始文本进行删除空格字符预处理、排序预处理与删除标点字符预处理，得到待检测文本；获取待检测文本中的待检测词序列，根据预置的标准词序列对待检测词序列进行校对与校对标记，得到校对文本；采用预置的计算公式计算校对文本的字符识别错误率；通过对比字符识别错误率与标准错误率选取预置的比对结果，并确定语音转化文本的转化测评结果。本发明还涉及区块链技术，初始文本可存储于区块链中。

Description

语音识别结果的测评方法、装置、设备及存储介质

技术领域

本发明涉及人工智能领域，尤其涉及一种语音识别结果的测评方法、装置、设备及存储介质。

背景技术

视频回访是现公司维护客户的手段之一，通过公司的运维人员对客户进行视频回访，令公司可以进一步了解客户需求。视频回访中采用到的技术之一为语音识别技术(automatic speech recognition，ASR)，语音识别技术也被称为自动语音识别，其主要目的是将人类的语音中的词汇内容转换为计算机可读的输入，也就是说，在视频回访项目中，通过语音识别技术对客户所回复的语音进行识别，然后将识别到的语音转化成对应的文本文字，实现视频回访的语音识别。在利用语音识别技术对语音进行文本转化后，通常会采用随机抽查的方式确定语音转化为文本的准确性。

在采用随机抽查的方式检测语音转化为文本的过程中，不仅步骤冗杂，而且消耗大量的时间，进而导致评定初始语音转化为初始文本的准确率的测评效率低下。

发明内容

本发明提供了一种语音识别结果的测评，用于提高评定初始语音转化为初始文本的准确率的测评效率。

本发明第一方面提供了一种语音识别结果的测评方法，包括：获取视频回访项目中的初始语音，并基于语音识别函数对所述初始语音进行转化，得到转化过后的初始文本；对所述初始文本进行删除空格字符预处理、排序预处理与删除标点字符预处理，得到待检测文本；基于预置的序列函数获取所述待检测文本中的待检测词序列，根据预置的标准词序列对所述待检测词序列进行校对，并在所述待检测词序列中进行校对标记，得到校对文本；采用预置的计算公式计算所述校对文本的字符识别错误率；通过对比所述字符识别错误率与标准错误率选取预置的比对结果，并根据所述预置的比对结果确定语音转化文本的转化测评结果。

可选的，在本发明第一方面的第一种实现方式中，所述基于预置的序列函数获取所述待检测文本中的待检测词序列，根据预置的标准词序列对所述待检测词序列进行校对，并在所述待检测词序列中进行校对标记，得到校对文本包括：基于预置的序列函数获取所述待检测文本中的待检测词序列，并将所述待检测词序列与预置的标准词序列进行比对，判断待检测词序列的字符数与预置的标准词序列的字符数之间的关系；若所述待检测词序列的字符数大于所述预置的标准词序列的字符数，则在所述待检测词序列的位置上标记预置的插入字符；若所述待检测词序列的字符数小于所述预置的标准词序列的字符数，则在所述待检测词序列的位置上标记预置的删除字符；若所述待检测词序列的字符数等于所述预置的标准词序列的字符数，则判断所述待检测词序列与所述预置的标准词序列是否相同；若所述待检测词序列与所述预置的标准词序列不相同，则在所述待检测词序列的位置上标记预置的替换字符，将校对标记后的待检测文本确定为校对文本。

可选的，在本发明第一方面的第二种实现方式中，所述基于预置的序列函数获取所述待检测文本中的待检测词序列，并将所述待检测词序列与预置的标准词序列进行比对，判断待检测词序列的字符数与预置的标准词序列的字符数之间的关系包括：获取所述待检测文本中的基础文本字符以及初始观测序列，所述初始观测序列用于指示所述基础文本字符的文本字符序列；通过所述预置的序列函数中的划分规则将所述基础文本字符划分为预测观测序列，所述预测观测序列用于指示所述文本字符序列的组合；利用预置的条件概率公式计算所述基础文本字符在初始观测序列的排列条件下，发生按照所述预测观测序列进行排列的基础条件概率，其中，预置的条件概率公式为：S^*＝argmaxP(S|O)，其中，S^*为目标观测序列，S为预测观测序列，且S＝(s₁,s₂,…,s_T)，T为初始观测序列的长度，s₁为按照预测观测序列划分基础文本字符的第一个词序列，O为初始观测序列，且O＝(o₁,o₂,…,o_T)，o₁为按照初始观测序列划分基础文本字符的第一个字序列；将所述基础条件概率数值最大的目标条件概率对应的预测观测序列作为目标观测序列；按照所述目标观测序列对所述基础文本字符进行划分，得到待检测词序列；将所述待检测词序列与预置的标准词序列进行比对，判断待检测词序列的字符数与预置的标准词序列的字符数之间的关系。

可选的，在本发明第一方面的第三种实现方式中，所述获取视频回访项目中的初始语音，并基于语音识别函数对所述初始语音进行转化，得到转化过后的初始文本包括：获取视频回访项目中的初始语音，并将所述初始语音输入至语音识别函数中，通过所述语音识别函数提取所述初始语音中的语音特征；通过预置的转译模型将所述语音特征转化为音素信息，其中，所述音素信息用于指示构成语音音节的最小语音单位；将所述音素信息与预置的标准文字进行匹配，生成所述初始语音对应的初始文本。

可选的，在本发明第一方面的第四种实现方式中，所述对所述初始文本进行删除空格字符预处理、排序预处理与删除标点字符预处理，得到待检测文本包括：获取所述初始文本的文本字符，判断所述文本字符之间是否存在空格字符；若所述文本字符之间存在空格字符，则删除所述空格字符，将删除所述空格字符后剩余的文本字符确定为第一预处理文本字符；在所述第一预处理文本字符中获取标点字符的位置，并将所述标点字符的后一个字符作为下一行的第一个字符，对所述第一预处理文本字符进行分段排序，得到第二预处理文本字符，所述标点字符用于指示辅助文字记录语言的符号；在所述第二预处理文本字符中删除所述标点字符，将删除所述标点字符后剩余的第二预处理文本字符确定为目标文本字符，得到到待检测文本。

可选的，在本发明第一方面的第五种实现方式中，所述采用预置的计算公式计算所述校对文本的字符识别错误率包括：分别统计所述校对文本中的插入字符数量、删除字符数量、替换字符数量与校对文本的字符数量；将所述插入字符数量、所述删除字符数量、所述替换字符数量与所述校对文本的字符数量输入至预置的计算公式中，得到所述校对文本的字符识别错误率，其中，所述预置计算公式为：

在式中，WER表示字符识别错误率，i表示插入字符数量，s表示替换字符数量，d表示删除字符数量，t表示校对文本的字符数量。

可选的，在本发明第一方面的第六种实现方式中，所述通过对比所述字符识别错误率与标准错误率选取预置的比对结果，并根据所述预置的比对结果确定语音转化文本的转化测评结果包括：对比所述字符识别错误率与标准错误率，判断所述字符识别错误率是否大于所述标准错误率；若所述字符识别错误率大于所述标准错误率，则将预置的第一比对结果确定为语音转化文本的转化测评结果，其中，所述预置的第一比对结果为语音转化文本的准确率低；若所述字符识别错误率不大于所述标准错误率，则将预置的第二比对结果确定为语音转化文本的转化测评结果，其中，所述预置的第二比对结果为语音转化文本的准确率高。

本发明第二方面提供了一种语音识别结果的测评装置，包括：转化模块，用于获取视频回访项目中的初始语音，并基于语音识别函数对所述初始语音进行转化，得到转化过后的初始文本；预处理模块，用于对所述初始文本进行删除空格字符预处理、排序预处理与删除标点字符预处理，得到待检测文本；校对模块，用于基于预置的序列函数获取所述待检测文本中的待检测词序列，根据预置的标准词序列对所述待检测词序列进行校对，并在所述待检测词序列中进行校对标记，得到校对文本；计算模块，用于采用预置的计算公式计算所述校对文本的字符识别错误率；确定模块，用于通过对比所述字符识别错误率与标准错误率选取预置的比对结果，并根据所述预置的比对结果确定语音转化文本的转化测评结果。

可选的，在本发明第二方面的第一种实现方式中，所述校对模块包括：比对单元，用于基于预置的序列函数获取所述待检测文本中的待检测词序列，并将所述待检测词序列与预置的标准词序列进行比对，判断待检测词序列的字符数与预置的标准词序列的字符数之间的关系；第一标记单元，若所述待检测词序列的字符数大于所述预置的标准词序列的字符数，则用于在所述待检测词序列的位置上标记预置的插入字符；第二标记单元，若所述待检测词序列的字符数小于所述预置的标准词序列的字符数，则用于在所述待检测词序列的位置上标记预置的删除字符；判断单元，若所述待检测词序列的字符数等于所述预置的标准词序列的字符数，则用于判断所述待检测词序列与所述预置的标准词序列是否相同；第三标记单元，若所述待检测词序列与所述预置的标准词序列不相同，则用于在所述待检测词序列的位置上标记预置的替换字符，将校对标记后的待检测文本确定为校对文本。

可选的，在本发明第二方面的第二种实现方式中，所述比对单元具体用于：获取所述待检测文本中的基础文本字符以及初始观测序列，所述初始观测序列用于指示所述基础文本字符的文本字符序列；通过所述预置的序列函数中的划分规则将所述基础文本字符划分为预测观测序列，所述预测观测序列用于指示所述文本字符序列的组合；利用预置的条件概率公式计算所述基础文本字符在初始观测序列的排列条件下，发生按照所述预测观测序列进行排列的基础条件概率，其中，预置的条件概率公式为：S^*＝argmaxP(S|O)，其中，S^*为目标观测序列，S为预测观测序列，且S＝(s₁,s₂,…,s_T)，T为初始观测序列的长度，s₁为按照预测观测序列划分基础文本字符的第一个词序列，O为初始观测序列，且O＝(o₁,o₂,…,o_T)，o₁为按照初始观测序列划分基础文本字符的第一个字序列；将所述基础条件概率数值最大的目标条件概率对应的预测观测序列作为目标观测序列；按照所述目标观测序列对所述基础文本字符进行划分，得到待检测词序列；将所述待检测词序列与预置的标准词序列进行比对，判断待检测词序列的字符数与预置的标准词序列的字符数之间的关系。

可选的，在本发明第二方面的第三种实现方式中，所述转化模块具体用于：获取视频回访项目中的初始语音，并将所述初始语音输入至语音识别函数中，通过所述语音识别函数提取所述初始语音中的语音特征；通过预置的转译模型将所述语音特征转化为音素信息，其中，所述音素信息用于指示构成语音音节的最小语音单位；将所述音素信息与预置的标准文字进行匹配，生成所述初始语音对应的初始文本。

可选的，在本发明第二方面的第四种实现方式中，所述预处理模块具体用于：获取所述初始文本的文本字符，判断所述文本字符之间是否存在空格字符；若所述文本字符之间存在空格字符，则删除所述空格字符，将删除所述空格字符后剩余的文本字符确定为第一预处理文本字符；在所述第一预处理文本字符中获取标点字符的位置，并将所述标点字符的后一个字符作为下一行的第一个字符，对所述第一预处理文本字符进行分段排序，得到第二预处理文本字符，所述标点字符用于指示辅助文字记录语言的符号；在所述第二预处理文本字符中删除所述标点字符，将删除所述标点字符后剩余的第二预处理文本字符确定为目标文本字符，得到到待检测文本。

可选的，在本发明第二方面的第五种实现方式中，所述计算模块具体用于：分别统计所述校对文本中的插入字符数量、删除字符数量、替换字符数量与校对文本的字符数量；将所述插入字符数量、所述删除字符数量、所述替换字符数量与所述校对文本的字符数量输入至预置的计算公式中，得到所述校对文本的字符识别错误率，其中，所述预置计算公式为：

可选的，在本发明第二方面的第六种实现方式中，所述确定模块具体用于：对比所述字符识别错误率与标准错误率，判断所述字符识别错误率是否大于所述标准错误率；若所述字符识别错误率大于所述标准错误率，则将预置的第一比对结果确定为语音转化文本的转化测评结果，其中，所述预置的第一比对结果为语音转化文本的准确率低；若所述字符识别错误率不大于所述标准错误率，则将预置的第二比对结果确定为语音转化文本的转化测评结果，其中，所述预置的第二比对结果为语音转化文本的准确率高。

本发明第三方面提供了一种语音识别结果的测评设备，包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述语音识别结果的测评设备执行上述的语音识别结果的测评方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的语音识别结果的测评方法。

本发明提供的技术方案中，获取视频回访项目中的初始语音，并基于语音识别函数对所述初始语音进行转化，得到转化过后的初始文本；对所述初始文本进行删除空格字符预处理、排序预处理与删除标点字符预处理，得到待检测文本；基于预置的序列函数获取所述待检测文本中的待检测词序列，根据预置的标准词序列对所述待检测词序列进行校对，并在所述待检测词序列中进行校对标记，得到校对文本；采用预置的计算公式计算所述校对文本的字符识别错误率；通过对比所述字符识别错误率与标准错误率选取预置的比对结果，并根据所述预置的比对结果确定语音转化文本的转化测评结果。本发明实施例中，通过语音识别函数对视频回访项目中的初始语音进行转化，得到初始文本，然后再对初始文本进行预处理、词序列校对和错误率计算，得到字符识别错误率，最后通过字符识别错误率与标准错误率选取预置的比对结果，得到语音转化文本的转化测评结果，提高了评定初始语音转化为初始文本的准确率的测评效率。

附图说明

图1为本发明实施例中语音识别结果的测评方法的一个实施例示意图；

图2为本发明实施例中语音识别结果的测评方法的另一个实施例示意图；

图3为本发明实施例中语音识别结果的测评装置的一个实施例示意图；

图4为本发明实施例中语音识别结果的测评装置的另一个实施例示意图；

图5为本发明实施例中语音识别结果的测评设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种语音识别结果的测评方法、装置、设备及存储介质，用于提高评定初始语音转化为初始文本的准确率的测评效率。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中语音识别结果的测评方法的一个实施例包括：

101、获取视频回访项目中的初始语音，并基于语音识别函数对初始语音进行转化，得到转化过后的初始文本；

可以理解的是，本发明的执行主体可以为语音识别结果的测评装置，还可以是终端或者服务器，具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

服务器通过语音收集器收集视频回访中的初始语音，初始语音指的是视频回访项目中进行通话或对话的语音，其内容可以包括不同的业务内容，初始语音的格式可以为cda音轨索引格式(CD音频格式)、WAVE格式、音频交换文件格式(audio interchange fileformat，AIFF)与动态影像专家压缩标准音频层面3格式(moving picture experts groupaudio layer III，MP3格式)，在本申请中并不对初始语音的格式进行限定。

服务器收集到初始语音后，通过语音识别函数对初始语音进行转化，将初始语音转化为文字文本的形式，得到初始文本。由于语音识别系统将语音转化为文本的正确率并不为100％，因此服务器需要对初始文本进行处理，并检测由初始语音转化为初始文本的准确率。

需要说明的是，通过语音识别函数将初始语音转化的初始文本保存在项目日志文件中。需要强调的是，为进一步保证上述初始文本的私密和安全性，上述初始文本还可以存储于一区块链的节点中。

102、对初始文本进行删除空格字符预处理、排序预处理与删除标点字符预处理，得到待检测文本；

服务器在对初始文本进行检测前需要对初始文本进行预处理，得到预处理后的待检测文本，预处理包括删除空格字符预处理、排序预处理与删除标点字符预处理，通过对初始文本进行预处理，减少对后续步骤中服务器计算初始语音转化为初始文本的字符识别错误率的影响。

103、基于预置的序列函数获取待检测文本中的待检测词序列，根据预置的标准词序列对待检测词序列进行校对，并在待检测词序列中进行校对标记，得到校对文本；

待服务器得到通过预处理后的待检测文本后，需要获取到待检测文本中的待检测词序列，并利用预置的标准词序列对待检测词序列进行校对，这里预置的标准词序列有很多个，首先服务器计算待检测词序列与预置的标准词序列之间的基础相似度，将基础相似度数值最大的基础相似度确定为目标相似度，并将目标相似度所对应的预置的标准词序列作为目标标准词序列，然后服务器判断待检测词序列的字符数与目标标准词序列的字符数之间的关系，由此对待检测文本中的待检测词序列进行校对，得到最后的校对文本。

104、采用预置的计算公式计算校对文本的字符识别错误率；

待服务器得到校对文本后通过预置的计算公式计算校对文本的字符识别错误率，字符识别错误率即为由初始语音转化为初始文本时的错误率，通过对错误率的计算，服务器可以明确在初始语音转化为初始文本的过程中存在多少错误转化字符，错误转化字符为评判转化效率好坏的因素之一。

105、通过对比字符识别错误率与标准错误率选取预置的比对结果，并根据预置的比对结果确定语音转化文本的转化测评结果。

服务器得到字符识别错误率后，通过比较字符识别错误率与标准错误率之间的数值大小从而确定语音转化文本的转化测评结果，这里的比对结果包括第一比对结果与第二比对结果，其中，第一比对结果为语音转化文本的准确率低，第二比对结果为语音转化文本的准确率高。当字符识别错误率的数值大于标准错误率的数值时，选择的比对结果为第一比对结果，此时将第一比对结果确定为语音转化文本的转化测评结果；当字符识别错误率的数值小于或等于标准错误率的数值时，选择的比对结果为第二比对结果，此时将第二比对结果确定为语音转化文本的转化测评结果。

本发明实施例中，通过语音识别函数对视频回访项目中的初始语音进行转化，得到初始文本，然后再对初始文本进行预处理、词序列校对和错误率计算，得到字符识别错误率，最后通过字符识别错误率与标准错误率选取预置的比对结果，得到语音转化文本的转化测评结果，提高了评定初始语音转化为初始文本的准确率的测评效率。

请参阅图2，本发明实施例中语音识别结果的测评方法的另一个实施例包括：

201、获取视频回访项目中的初始语音，并基于语音识别函数对初始语音进行转化，得到转化过后的初始文本；

具体的，服务器首先获取视频回访项目中的初始语音，并将初始语音输入至语音识别函数中，通过语音识别函数提取初始语音中的语音特征；服务器通过预置的转译模型将语音特征转化为音素信息，其中，音素信息用于指示构成语音音节的最小语音单位；最后服务器将音素信息与预置的标准文字进行匹配，生成初始语音对应的初始文本。

服务器在获取到视频回访项目中的初始语音之后，需要利用语音识别函数对初始语音进行识别与转化，语音识别函数的主要原理是：服务器首先收集大量的语音样本进行训练，对语音样本中的每个语音特征参数进行分析与整合，在语音比对库中建立语音特征参数的语音特征模板，然后服务器获取待识别的语音信息，对语音信息进行相同的处理后得到目标语音参数，利用判决法匹配目标语音参数对应的语音特征参数，确定语音识别结果。整个语音识别过程中，采用基于模式匹配的动态时间规整法和基于统计模型的隐马尔可夫模型法等识别框架，便捷迅速的将多条目标语音转化的多条初始语句。

可以理解的是，音素信息是根据语音的自然属性划分出来的最小语音单位，依据音节里的发音动作对语音进行解析，将一个动作划分成一个对应的音素。通过对音素单位的分析，并将音素信息与预置的标准文字进行匹配，可以更精准的将音素信息拼合成文字信息。

举例说明，以识别及转化目标语音“贵公司服务好”为例，首先服务器获取到目标语音“贵公司服务好”，然后服务器提取目标语音中的语音特征，如得到的语音特征为：[1 28 4 7 6 0 9 3]，然后服务器通过声学模型将提取到的语音特征转化为音素信息，如得到因素信息为：g u i g o n g s i f u w u h a o，待得到音素信息之后，服务器在预置字典中匹配到与音素信息相对应的文字，如得到以下文字：柜：g u i；贵：g u i；工：g o n g；公：g o n g；四：s i；司：s i；服：f u；务：w u；好：h a o；然后服务器在预置关联概率中获取文字信息之间的关联概率，如得到以下概率：贵：0.1786，公：0.0546，公司：0.7898，服务：0.8967，好：0.3982；服务好：0.6785；最后服务器选取关联概率最大的文字信息作为目标文字，关联概率越大，说明按照该组合形成的词语或句子出现的概率越大，服务器按照顺序将目标文字组合在一起，得到目标语句，如得到的目标语句为：贵公司服务好。

需要强调的是，为进一步保证上述初始文本的私密和安全性，上述初始文本还可以存储于一区块链的节点中。

202、对初始文本进行删除空格字符预处理、排序预处理与删除标点字符预处理，得到待检测文本；

具体的，服务器首先获取初始文本的文本字符，判断文本字符之间是否存在空格字符；若文本字符之间存在空格字符，则服务器删除空格字符，将删除空格字符后剩余的文本字符确定为第一预处理文本字符；然后服务器在第一预处理文本字符中获取标点字符的位置，并将标点字符的后一个字符作为下一行的第一个字符，对第一预处理文本字符进行分段排序，得到第二预处理文本字符，标点字符用于指示辅助文字记录语言的符号；最后服务器在第二预处理文本字符中删除标点字符，将删除标点字符后剩余的第二预处理文本字符确定为目标文本字符，得到到待检测文本。

服务器在预处理的过程中，首先将初始文本中的每个文本字符之间的空格字符删除，得到第一预处理文本字符，防止出现字符乱码，同时便于服务器对文本字符的排序；然后服务器通过第一预处理文本字符中的标点字符的位置对文本字符进行排序，确保排序后的每行存在一个标点字符与至少一个文本字符，得到第二预处理文本字符，这样将第一预处理文本字符进行排序，便于第一预处理文本字符的校对；最后服务器将第二预处理文本字符中的标点字符删除，将删除标点字符后剩余的第二预处理文本字符确定为目标文本字符，得到待检测文本，因为标点字符仅仅起到辅助文字记录语言的作用，标点字符是否识别正确并不会影响文本字符的准确率，若不将文本字符中的标点字符删除会影响后续文本字符校对的准确率，因此需要将标点字符删除。

203、基于预置的序列函数获取待检测文本中的待检测词序列，并将待检测词序列与预置的标准词序列进行比对，判断待检测词序列的字符数与预置的标准词序列的字符数之间的关系；

具体的，服务器首先获取待检测文本中的基础文本字符以及初始观测序列，初始观测序列用于指示基础文本字符的文本字符序列；其次服务器通过预置的序列函数中的划分规则将基础文本字符划分为预测观测序列，预测观测序列用于指示文本字符序列的组合；然后服务器利用预置的条件概率公式计算基础文本字符在初始观测序列的排列条件下，发生按照预测观测序列进行排列的基础条件概率，其中，预置的条件概率公式为：S^*＝argmaxP(S|O)，其中，S^*为目标观测序列，S为预测观测序列，且S＝(s₁,s₂,…,s_T)，T为初始观测序列的长度，s₁为按照预测观测序列划分基础文本字符的第一个词序列，O为初始观测序列，且O＝(o₁,o₂,…,o_T)，o₁为按照初始观测序列划分基础文本字符的第一个字序列；服务器将基础条件概率数值最大的目标条件概率对应的预测观测序列作为目标观测序列；服务器按照目标观测序列对基础文本字符进行划分，得到待检测词序列；最后服务器将待检测词序列与预置的标准词序列进行比对，判断待检测词序列的字符数与预置的标准词序列的字符数之间的关系。

举例说明，待检测文本为“贵公司服务好”，其中的基础文本字符为“贵/公/司/服/务/好”每一个文字为一个文本字符，其中的初始观测序列为“贵/公司/服务/好”这里的初始观测序列用于指示基础文本字符的文本字符序列；其次服务器通过预置的序列函数中的划分规则将基础文本字符划分为预测观测序列，得到的预测观测序列可以为“贵/公司/服务好”、“贵公司/服务/好”、“贵公司/服务好”；然后服务器利用预置的条件概率公式计算基础文本字符在初始观测序列的排列条件下，发生按照预测观测序列进行排列的基础条件概率，通过条件概率公式的计算，得到发生“贵/公司/服务好”的基础条件概率为0.682，发生“贵公司/服务/好”的基础条件概率为0.798，发生“贵公司/服务好”的基础条件概率为0.865；服务器选取基础条件概率为0.865所对应的预测观测序列作为目标观测序列；服务器直接照“贵公司/服务好”的划分序列对“贵/公/司/服/务/好”进行划分，得到待检测词序列“贵公司/服务好”；最后服务器将待检测词序列与预置的标准词序列进行比对，判断待检测词序列的字符数与预置的标准词序列的字符数之间的关系。

204、若待检测词序列的字符数大于预置的标准词序列的字符数，则在待检测词序列的位置上标记预置的插入字符；

当待检测词序列的字符数大于预置的标准序列的字符数时，说明服务器识别到的待检测词序列中的字符数比预置的标准词序列的字符数多，也就是说，待检测词序列中存在多余的插入字符，服务器则在待检测词序列的位置上标记预置的插入字符。

举例说明，已知的标准文本为：我暂时缺钱，对应预置的标准词序列的字符数为5，识别到的待检测文本为：我暂时不缺钱，对应待检测词序列的字符数6，则服务器直接在待检测词序列的位置上标记预置的插入字符。

205、若待检测词序列的字符数小于预置的标准词序列的字符数，则在待检测词序列的位置上标记预置的删除字符；

当待检测词序列的字符数小于预置的标准序列的字符数时，说明服务器识别到的待检测词序列中的字符数比预置的标准词序列的字符数少，也就是说，待检测词序列中存在缺少的删除字符，服务器则在待检测词序列的位置上标记预置的删除字符。

举例说明，已知的标准文本为：我暂时不缺钱，对应预置的标准词序列的字符数为6，识别到的待检测文本为：我暂时缺钱，对应待检测词序列的字符数5，则服务器直接在待检测词序列的位置上标记预置的删除字符。

206、若待检测词序列的字符数等于预置的标准词序列的字符数，则判断待检测词序列与预置的标准词序列是否相同；

当待检测词序列的字符数等于预置的标准序列的字符数时，说明服务器识别到的待检测文本可能与标准文本可能相同，则需要进一步判断待检测词序列与预置的标准词序列是否相同，这里的标准文本是预置的标准词序列对应的文本内容。

207、若待检测词序列与预置的标准词序列不相同，则在待检测词序列的位置上标记预置的替换字符，将校对标记后的待检测文本确定为校对文本；

当待检测词序列与预置的标准词序列不相同时，说明对应的待检测文本与标准文本不相同，也就是说，待检测文本中存在替换字符，服务器直接在待检测词序列的位置上标记预置的替换字符，然后将做好校对标记后的待检测文本确定为校对文本即可。

举例说明，已知的标准文本为：我暂时不缺钱，对应预置的标准词序列的字符数为6，识别到的待检测文本为：我暂时很缺钱，对应待检测词序列的字符数6，则服务器判断待检测词序列与预置的标准词序列是否相同，服务器检测到待检测词序列与预置的标准词序列不相同，则在待检测词序列的位置上标记预置的替换字符，最后服务器将标记预置的插入字符、预置的删除字符和预置的替换字符的待检测文本确定为校对文本。

208、采用预置的计算公式计算校对文本的字符识别错误率；

具体的，服务器分别统计校对文本中的插入字符数量、删除字符数量、替换字符数量与校对文本的字符数量；

服务器将插入字符数量、删除字符数量、替换字符数量与校对文本的字符数量输入至预置的计算公式中，得到校对文本的字符识别错误率，其中，预置计算公式为：

服务器在计算校对文本的字符识别错误率之前，首先需要明确校对文本中的插入字符数量、删除字符数量、替换字符数量与校对文本的字符数量，通过这些变量与预置计算公式才可以计算校对文本的字符识别错误率，步骤203-207是服务器利用词序列对待检测文本进行校对的过程，在上述过程中，服务器可以通过统计预置的插入字符的数量得到插入字符数量，通过统计预置的删除字符的数量得到删除字符数量，通过统计预置的替换字符的数量得到替换字符数量，直接统计对校对文本中字符的数量即可得到校对文本的字符数量，将上述获取到的因素输入到预置计算公式中，即可得到校对文本的字符识别错误率。

209、通过对比字符识别错误率与标准错误率选取预置的比对结果，并根据预置的比对结果确定语音转化文本的转化测评结果。

具体的，服务器对比字符识别错误率与标准错误率，判断字符识别错误率是否大于标准错误率；若字符识别错误率大于标准错误率，则服务器将预置的第一比对结果确定为语音转化文本的转化测评结果，其中，预置的第一比对结果为语音转化文本的准确率低；若字符识别错误率不大于标准错误率，则服务器将预置的第二比对结果确定为语音转化文本的转化测评结果，其中，预置的第二比对结果为语音转化文本的准确率高。

可以理解的是，这里的标准错误率指的是评判初始语音转化为初始文本的标准，标准错误率的数值可以为60％，也可以为88％，本申请并不对标准错误率的数值进行限定，可以根据实际情况对标准错误率的数值进行设定。

上面对本发明实施例中语音识别结果的测评方法进行了描述，下面对本发明实施例中语音识别结果的测评装置进行描述，请参阅图3，本发明实施例中语音识别结果的测评装置一个实施例包括：

转化模块301，用于获取视频回访项目中的初始语音，并基于语音识别函数对所述初始语音进行转化，得到转化过后的初始文本；

预处理模块302，用于对所述初始文本进行删除空格字符预处理、排序预处理与删除标点字符预处理，得到待检测文本；

校对模块303，用于基于预置的序列函数获取所述待检测文本中的待检测词序列，根据预置的标准词序列对所述待检测词序列进行校对，并在所述待检测词序列中进行校对标记，得到校对文本；

计算模块304，用于采用预置的计算公式计算所述校对文本的字符识别错误率；

确定模块305，用于通过对比所述字符识别错误率与标准错误率选取预置的比对结果，并根据所述预置的比对结果确定语音转化文本的转化测评结果。

请参阅图4，本发明实施例中语音识别结果的测评装置的另一个实施例包括：

转化模块301，用于获取视频回访项目中的初始语音，并基于语音识别函数对所述初始语音进行转化，得到转化过后的初始文本；预处理模块302，用于对所述初始文本进行删除空格字符预处理、排序预处理与删除标点字符预处理，得到待检测文本；校对模块303，用于基于预置的序列函数获取所述待检测文本中的待检测词序列，根据预置的标准词序列对所述待检测词序列进行校对，并在所述待检测词序列中进行校对标记，得到校对文本；计算模块304，用于采用预置的计算公式计算所述校对文本的字符识别错误率；确定模块305，用于通过对比所述字符识别错误率与标准错误率选取预置的比对结果，并根据所述预置的比对结果确定语音转化文本的转化测评结果。

可选的，校对模块303包括：比对单元3031，用于基于预置的序列函数获取所述待检测文本中的待检测词序列，并将所述待检测词序列与预置的标准词序列进行比对，判断待检测词序列的字符数与预置的标准词序列的字符数之间的关系；第一标记单元3032，若所述待检测词序列的字符数大于所述预置的标准词序列的字符数，则用于在所述待检测词序列的位置上标记预置的插入字符；二标记单元3033，若所述待检测词序列的字符数小于所述预置的标准词序列的字符数，则用于在所述待检测词序列的位置上标记预置的删除字符；判断单元3034，若所述待检测词序列的字符数等于所述预置的标准词序列的字符数，则用于判断所述待检测词序列与所述预置的标准词序列是否相同；第三标记单元3035，若所述待检测词序列与所述预置的标准词序列不相同，则用于在所述待检测词序列的位置上标记预置的替换字符，将校对标记后的待检测文本确定为校对文本。

可选的，比对单元3031具体用于：获取所述待检测文本中的基础文本字符以及初始观测序列，所述初始观测序列用于指示所述基础文本字符的文本字符序列；通过所述预置的序列函数中的划分规则将所述基础文本字符划分为预测观测序列，所述预测观测序列用于指示所述文本字符序列的组合；利用预置的条件概率公式计算所述基础文本字符在初始观测序列的排列条件下，发生按照所述预测观测序列进行排列的基础条件概率，其中，预置的条件概率公式为：S^*＝argmaxP(S|O)，其中，S^*为目标观测序列，S为预测观测序列，且S＝(s₁,s₂,…,s_T)，T为初始观测序列的长度，s₁为按照预测观测序列划分基础文本字符的第一个词序列，O为初始观测序列，且O＝(o₁,o₂,…,o_T)，o₁为按照初始观测序列划分基础文本字符的第一个字序列；将所述基础条件概率数值最大的目标条件概率对应的预测观测序列作为目标观测序列；按照所述目标观测序列对所述基础文本字符进行划分，得到待检测词序列；将所述待检测词序列与预置的标准词序列进行比对，判断待检测词序列的字符数与预置的标准词序列的字符数之间的关系。

可选的，转化模块301具体用于：获取视频回访项目中的初始语音，并将所述初始语音输入至语音识别函数中，通过所述语音识别函数提取所述初始语音中的语音特征；通过预置的转译模型将所述语音特征转化为音素信息，其中，所述音素信息用于指示构成语音音节的最小语音单位；将所述音素信息与预置的标准文字进行匹配，生成所述初始语音对应的初始文本。

可选的，预处理模块302具体用于：获取所述初始文本的文本字符，判断所述文本字符之间是否存在空格字符；若所述文本字符之间存在空格字符，则删除所述空格字符，将删除所述空格字符后剩余的文本字符确定为第一预处理文本字符；在所述第一预处理文本字符中获取标点字符的位置，并将所述标点字符的后一个字符作为下一行的第一个字符，对所述第一预处理文本字符进行分段排序，得到第二预处理文本字符，所述标点字符用于指示辅助文字记录语言的符号；在所述第二预处理文本字符中删除所述标点字符，将删除所述标点字符后剩余的第二预处理文本字符确定为目标文本字符，得到到待检测文本。

可选的，计算模块304具体用于：分别统计所述校对文本中的插入字符数量、删除字符数量、替换字符数量与校对文本的字符数量；将所述插入字符数量、所述删除字符数量、所述替换字符数量与所述校对文本的字符数量输入至预置的计算公式中，得到所述校对文本的字符识别错误率，其中，所述预置计算公式为：

可选的，确定模块305具体用于：对比所述字符识别错误率与标准错误率，判断所述字符识别错误率是否大于所述标准错误率；若所述字符识别错误率大于所述标准错误率，则将预置的第一比对结果确定为语音转化文本的转化测评结果，其中，所述预置的第一比对结果为语音转化文本的准确率低；所述字符识别错误率不大于所述标准错误率，则将预置的第二比对结果确定为语音转化文本的转化测评结果，其中，所述预置的第二比对结果为语音转化文本的准确率高。

上面图3和图4从模块化功能实体的角度对本发明实施例中的语音识别结果的测评装置进行详细描述，下面从硬件处理的角度对本发明实施例中语音识别结果的测评设备进行详细描述。

图5是本发明实施例提供的一种语音识别结果的测评设备的结构示意图，该语音识别结果的测评设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)510(例如，一个或一个以上处理器)和存储器520，一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中，存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对语音识别结果的测评设备500中的一系列指令操作。更进一步地，处理器510可以设置为与存储介质530通信，在语音识别结果的测评设备500上执行存储介质530中的一系列指令操作。

语音识别结果的测评设备500还可以包括一个或一个以上电源540，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口560，和/或，一个或一个以上操作系统531，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图5示出的语音识别结果的测评设备结构并不构成对语音识别结果的测评设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种语音识别结果的测评设备，所述计算机设备包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行上述各实施例中的所述语音识别结果的测评方法的步骤。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述语音识别结果的测评方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音识别结果的测评方法，其特征在于，所述语音识别结果的测评方法包括：

获取视频回访项目中的初始语音，并基于语音识别函数对所述初始语音进行转化，得到转化过后的初始文本；

对所述初始文本进行删除空格字符预处理、排序预处理与删除标点字符预处理，得到待检测文本；

基于预置的序列函数获取所述待检测文本中的待检测词序列，根据预置的标准词序列对所述待检测词序列进行校对，并在所述待检测词序列中进行校对标记，得到校对文本；

采用预置的计算公式计算所述校对文本的字符识别错误率；

通过对比所述字符识别错误率与标准错误率选取预置的比对结果，并根据所述预置的比对结果确定语音转化文本的转化测评结果；

所述基于预置的序列函数获取所述待检测文本中的待检测词序列，根据预置的标准词序列对所述待检测词序列进行校对，并在所述待检测词序列中进行校对标记，得到校对文本包括：基于预置的序列函数获取所述待检测文本中的待检测词序列，并将所述待检测词序列与预置的标准词序列进行比对，判断待检测词序列的字符数与预置的标准词序列的字符数之间的关系；若所述待检测词序列的字符数大于所述预置的标准词序列的字符数，则在所述待检测词序列的位置上标记预置的插入字符；若所述待检测词序列的字符数小于所述预置的标准词序列的字符数，则在所述待检测词序列的位置上标记预置的删除字符；若所述待检测词序列的字符数等于所述预置的标准词序列的字符数，则判断所述待检测词序列与所述预置的标准词序列是否相同；若所述待检测词序列与所述预置的标准词序列不相同，则在所述待检测词序列的位置上标记预置的替换字符，将校对标记后的待检测文本确定为校对文本；

所述基于预置的序列函数获取所述待检测文本中的待检测词序列，并将所述待检测词序列与预置的标准词序列进行比对，判断待检测词序列的字符数与预置的标准词序列的字符数之间的关系包括：获取所述待检测文本中的基础文本字符以及初始观测序列，所述初始观测序列用于指示所述基础文本字符的文本字符序列；通过所述预置的序列函数中的划分规则将所述基础文本字符划分为预测观测序列，所述预测观测序列用于指示所述文本字符序列的组合；利用预置的条件概率公式计算所述基础文本字符在初始观测序列的排列条件下，发生按照所述预测观测序列进行排列的基础条件概率，其中，预置的条件概率公式为：S^*＝arg maxP(S|O)，其中，S^*为目标观测序列，S为预测观测序列，且S＝(s₁,s₂,…,s_T)，T为初始观测序列的长度，s₁为按照预测观测序列划分基础文本字符的第一个词序列，O为初始观测序列，且O＝(o₁,o₂,…,o_T)，o₁为按照初始观测序列划分基础文本字符的第一个字序列；将所述基础条件概率数值最大的目标条件概率对应的预测观测序列作为目标观测序列；按照所述目标观测序列对所述基础文本字符进行划分，得到待检测词序列；将所述待检测词序列与预置的标准词序列进行比对，判断待检测词序列的字符数与预置的标准词序列的字符数之间的关系。

2.根据权利要求1所述的语音识别结果的测评方法，其特征在于，所述获取视频回访项目中的初始语音，并基于语音识别函数对所述初始语音进行转化，得到转化过后的初始文本包括：

获取视频回访项目中的初始语音，并将所述初始语音输入至语音识别函数中，通过所述语音识别函数提取所述初始语音中的语音特征；

通过预置的转译模型将所述语音特征转化为音素信息，其中，所述音素信息用于指示构成语音音节的最小语音单位；

将所述音素信息与预置的标准文字进行匹配，生成所述初始语音对应的初始文本。

3.根据权利要求1所述的语音识别结果的测评方法，其特征在于，所述对所述初始文本进行删除空格字符预处理、排序预处理与删除标点字符预处理，得到待检测文本包括：

获取所述初始文本的文本字符，判断所述文本字符之间是否存在空格字符；

若所述文本字符之间存在空格字符，则删除所述空格字符，将删除所述空格字符后剩余的文本字符确定为第一预处理文本字符；

在所述第一预处理文本字符中获取标点字符的位置，并将所述标点字符的后一个字符作为下一行的第一个字符，对所述第一预处理文本字符进行分段排序，得到第二预处理文本字符，所述标点字符用于指示辅助文字记录语言的符号；

在所述第二预处理文本字符中删除所述标点字符，将删除所述标点字符后剩余的第二预处理文本字符确定为目标文本字符，得到待检测文本。

4.根据权利要求1所述的语音识别结果的测评方法，其特征在于，所述采用预置的计算公式计算所述校对文本的字符识别错误率包括：

分别统计所述校对文本中的插入字符数量、删除字符数量、替换字符数量与校对文本的字符数量；

将所述插入字符数量、所述删除字符数量、所述替换字符数量与所述校对文本的字符数量输入至预置的计算公式中，得到所述校对文本的字符识别错误率，其中，所述预置的计算公式为：

5.根据权利要求1-4中任一项所述的语音识别结果的测评方法，其特征在于，所述通过对比所述字符识别错误率与标准错误率选取预置的比对结果，并根据所述预置的比对结果确定语音转化文本的转化测评结果包括：

对比所述字符识别错误率与标准错误率，判断所述字符识别错误率是否大于所述标准错误率；

若所述字符识别错误率大于所述标准错误率，则将预置的第一比对结果确定为语音转化文本的转化测评结果，其中，所述预置的第一比对结果为语音转化文本的准确率低；

若所述字符识别错误率不大于所述标准错误率，则将预置的第二比对结果确定为语音转化文本的转化测评结果，其中，所述预置的第二比对结果为语音转化文本的准确率高。

6.一种语音识别结果的测评装置，其特征在于，所述语音识别结果的测评装置包括：

转化模块，用于获取视频回访项目中的初始语音，并基于语音识别函数对所述初始语音进行转化，得到转化过后的初始文本；

预处理模块，用于对所述初始文本进行删除空格字符预处理、排序预处理与删除标点字符预处理，得到待检测文本；

校对模块，用于基于预置的序列函数获取所述待检测文本中的待检测词序列，根据预置的标准词序列对所述待检测词序列进行校对，并在所述待检测词序列中进行校对标记，得到校对文本；

计算模块，用于采用预置的计算公式计算所述校对文本的字符识别错误率；

确定模块，用于通过对比所述字符识别错误率与标准错误率选取预置的比对结果，并根据所述预置的比对结果确定语音转化文本的转化测评结果；

所述校对模块包括：比对单元，用于基于预置的序列函数获取所述待检测文本中的待检测词序列，并将所述待检测词序列与预置的标准词序列进行比对，判断待检测词序列的字符数与预置的标准词序列的字符数之间的关系；第一标记单元，若所述待检测词序列的字符数大于所述预置的标准词序列的字符数，则用于在所述待检测词序列的位置上标记预置的插入字符；第二标记单元，若所述待检测词序列的字符数小于所述预置的标准词序列的字符数，则用于在所述待检测词序列的位置上标记预置的删除字符；判断单元，若所述待检测词序列的字符数等于所述预置的标准词序列的字符数，则用于判断所述待检测词序列与所述预置的标准词序列是否相同；第三标记单元，若所述待检测词序列与所述预置的标准词序列不相同，则用于在所述待检测词序列的位置上标记预置的替换字符，将校对标记后的待检测文本确定为校对文本；

所述比对单元具体用于：获取所述待检测文本中的基础文本字符以及初始观测序列，所述初始观测序列用于指示所述基础文本字符的文本字符序列；通过所述预置的序列函数中的划分规则将所述基础文本字符划分为预测观测序列，所述预测观测序列用于指示所述文本字符序列的组合；利用预置的条件概率公式计算所述基础文本字符在初始观测序列的排列条件下，发生按照所述预测观测序列进行排列的基础条件概率，其中，预置的条件概率公式为：S^*＝arg maxP(S|O)，其中，S^*为目标观测序列，S为预测观测序列，且S＝(s₁,s₂,…,s_T)，T为初始观测序列的长度，s₁为按照预测观测序列划分基础文本字符的第一个词序列，O为初始观测序列，且O＝(o₁,o₂,…,o_T)，o₁为按照初始观测序列划分基础文本字符的第一个字序列；将所述基础条件概率数值最大的目标条件概率对应的预测观测序列作为目标观测序列；按照所述目标观测序列对所述基础文本字符进行划分，得到待检测词序列；将所述待检测词序列与预置的标准词序列进行比对，判断待检测词序列的字符数与预置的标准词序列的字符数之间的关系。

7.一种语音识别结果的测评设备，其特征在于，所述语音识别结果的测评设备包括：存储器和至少一个处理器，所述存储器中存储有指令；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述语音识别结果的测评设备执行如权利要求1-5中任意一项所述的语音识别结果的测评方法。

8.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现如权利要求1-5中任一项所述语音识别结果的测评方法。