CN110322883B

CN110322883B - 一种语音转文字效果评价优化方法

Info

Publication number: CN110322883B
Application number: CN201910567606.6A
Authority: CN
Inventors: 王海洲
Original assignee: Shanghai Microphone Culture Media Co ltd
Current assignee: Shanghai Microphone Culture Media Co ltd
Priority date: 2019-06-27
Filing date: 2019-06-27
Publication date: 2023-02-17
Anticipated expiration: 2039-06-27
Also published as: CN110322883A

Abstract

本发明提出了一种语音转文字效果评价优化方法，包括：S1，通过数据采集端口获取若干语音转文字数据，按照预设规范获取标准语音转文字数据，将标准文字数据进行分段，采集不同语音转文字生成的实时数据；S2，获取第一语音转文字数据和第二语音转文字数据，将第一语音转文字数据和第二语音转文字数据生成一组文字数据集；S3，对第一语音转文字数据和第二语音转文字数据进行文字数据评审，S4，根据设定评审分阈值进行判断，将第一语音转文字数据和第二语音转文字数据评审分阈值以上的文字数据选出，并且将第一语音转文字数据和第二语音转文字数据评审分阈值以下的文字数据过滤删除。

Description

一种语音转文字效果评价优化方法

技术领域

本发明涉及音频文字识别领域，尤其涉及一种语音转文字效果评价优化方法。

背景技术

在实际业务中，常常需要用到语音转文字技术，但是由语音转化而来的文字受各种因素影响，常常出现用字不准确和逻辑难以理解的情况，造成这种情况的可能有音转文算法不够成熟，或音频本身质量较差噪声大，或音频发音人录入的音频内容有同音字歧义等原因。

音频转化成为的文字在使用前(如新闻记录，会议记录，音视频节目文本存档)通常需要进行评审以剔除质量效果太差的用例，这项工作通常由人工完成，而人工评审面临成本高，耗时长，工作枯燥，多个评审员之间评审标准不统一等问题。这就亟需本领域技术人员解决相应的技术问题。

发明内容

本发明旨在至少解决现有技术中存在的技术问题，特别创新地提出了一种语音转文字效果评价优化方法。

为了实现本发明的上述目的，本发明提供了一种语音转文字效果评价优化方法，包括如下步骤：

S1，通过数据采集端口获取若干语音转文字数据，按照预设规范获取标准语音转文字数据，将标准文字数据进行分段，采集不同语音转文字生成的实时数据；

S2，获取第一语音转文字数据和第二语音转文字数据，将第一语音转文字数据和第二语音转文字数据生成一组文字数据集；

S3，对第一语音转文字数据和第二语音转文字数据进行文字数据评审，

形成文字数据评审分＝相同字符数/(增加字符数+删除字符数+相同字符数)；

S4，根据设定评审分阈值进行判断，将第一语音转文字数据和第二语音转文字数据评审分阈值以上的文字数据选出，并且将第一语音转文字数据和第二语音转文字数据评审分阈值以下的文字数据过滤删除。

优选的，还包括：

S5，获取第N语音转文字数据，所述N≥3，将第一语音转文字数据作为源字符串数据，第二语音转文字数据和第N语音转文字数据作为目标字符串数据，生成双文字数据集，即{第一语音转文字数据，第二语音转文字数据}，{第二语音转文字数据，第N语音转文字数据}，{第一语音转文字数据，第N语音转文字数据}。

优选的，还包括：

S6，进行双文字数据集评审分＝双文字数据相同字符数/(双文字数据增加字符数+双文字数据删除字符数+双文字数据相同字符数)。

优选的，还包括：

S7，选出得分最高的一组文字数据集，计算其中各文字数据在与其他文字数据组合时的得分最大值，得分高的语音转文字数据为该组文字数据集内优胜文字数据评价规则为MAX(第一语音转文字数据、第二语音转文字数据，第一语音转文字数据、第N语音转文字数据)>MAX(第二语音转文字数据、第N语音转文字数据，第二语音转文字数据、第N+1语音转文字数据)，则设定为第一语音转文字数据优于第二语音转文字数据。

优选的，所述S2包括：

将第一语音转文字数据作为源字符串数据，第二语音转文字数据作为目标字符串数据，利用Myers Diff算法对比文本差异，得到第一语音转文字数据和第二语音转文字数据比较后的增加字符串数据中的字符数，删除字符串数据中的字符数，相同字符串数据中的字符数。

优选的，所述S3包括：

评审分的打分对象是文字数据集，评审分越高则第一语音转文字数据且第二语音转文字数据语音转文字的准确性越高，评审分越低则第一语音转文字数据或第二语音转文字数据的语音转文字准确性越低；

优选的，所述S5包括：

利用Myers Diff算法对比文本差异，得到第一语音转文字数据、第二语音转文字数据和第N语音转文字数据比较后的增加字符串数据中的字符数，删除字符串数据中的字符数，相同字符串数据中的字符数。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

通过调用不同的音转文技术接口，利用了正确的(语音转文字)翻译总是相同，错误的翻译却错得千差万别这特点，实现了对音转文输出文本准确性进行了自动评审打分。

保护点在于利用多种不同得音转文技术接口(通常是不同服务提供商)对同一音频转译结果进行差异比较来实现文本转译质量打分和挑选文字匹配度最高的音转文数据，通过本发明方法滤去低于阈值的文字数据实现自动挑选和自动过滤的功能。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明实施例流程图；

图2是本发明另一实施例流程图；

图3是本发明总体示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

如图1所示，本发明实施例方法流程1：

准备两种互不相同的语音转文字技术接口(不同是指采用的算法模型或训练数据不相同，通常不同的服务提供商之间有自己的音转文技术，所以音转文效果也会不同)；

将音频送入两个音转文接口得到对应文本(甲，乙)，该两个文本形成一个文本组；

将文本甲作为源字符串，文本乙作为目标字符串，利用Myers Diff算法对比文本差异，得到增加字符数，删除字符数，相同字符数。通过经典Myers Diff算法对比文本差异；

评审分＝相同字符数/(增加字符数+删除字符数+相同字符数).评审分(打分对象是文本组)越高则文本甲且文本乙音转文的准确性越高，评审分越低文本甲或文本乙的音转文准确性越低。

根据需求将一定评审分阈值以上的文本(无论甲乙)选出，或者将一定评审分以下的文本(无论甲乙)滤去就能实现自动挑选和自动过滤的功能。

如图2所示，本发明实施例方法流程2：

准备三种以上不同的语音转文字技术接口.

将音频送入各个接口得到对应文本(如甲，乙，丙，丁，...).接口生成的文本两两一组.

将一组种一个文本(如文本甲)作为源字符串，另一个文本(如文本乙)作为目标字符串，利用Myers Diff算法对比文本差异，得到增加字符数，删除字符数，相同字符数。

甲乙文本组评审分＝相同字符数/(增加字符数+删除字符数+相同字符数)

重复以上步骤生成各个文本组评审分。(如甲乙，甲丙，甲丁，乙丙，乙丁)

选出得分最高的一组(如甲乙)，计算其中各文本在与其他文本组合时的得分最大值，得分高者为组内优胜文本(如，MAX(甲丙，甲丁)>MAX(乙丙，乙丁)，则选甲优于乙).

根据需求将一定评审分阈值以上的组的组内优胜文本选出，能实现文本自动挑选功能。

创新之处在于调用不同的音转文技术接口，利用了正确的(语音转文字)翻译总是相同，错误的翻译却错得千差万别这特点，实现了对音转文输出文本准确性进行了自动评审打分。

保护点在于利用多种不同得音转文技术接口(通常是不同服务提供商)对同一音频转译结果进行差异比较来实现文本转译质量打分和挑选文字匹配度最高的音转文数据。

如图3所示，本发明公开的方法为：

其中采集不同语音转文字生成的实时数据在不同的语音转文字工作过程中，会形成不同的输出结果，从而会与标准文字数据发生偏差；

将第一语音转文字数据作为源字符串数据，第二语音转文字数据作为目标字符串数据，利用Myers Diff算法对比文本差异，得到第一语音转文字数据和第二语音转文字数据比较后的增加字符串数据中的字符数，删除字符串数据中的字符数，相同字符串数据中的字符数；

对在第一语音转文字数据和第二语音转文字数据中提取若干标签文字数据通过与标准文字数据匹配测定后进行重合度分类，计算重合度分类后的第一语音转文字数据和第二语音转文字数据的匹配度，根据第一语音转文字数据和第二语音转文字数据匹配度计算每个文字数据匹配的强度值，以及文字数据的匹配度和强度值得到语音转文字效果评价分析结果，形成语音转文字实时转换的时间戳，在形成的时间戳上获取第一语音转文字数据和第二语音转文字数据的重合文字生成时间，将全部的第一语音转文字数据和第二语音转文字数据重合文字数据时间戳组成文字数据时间轴，保存上述文字数据匹配的强度值、文字实时转换的时间戳和文字数据时间轴；

将保存上述文字数据匹配的强度值、文字实时转换的时间戳和文字数据时间轴的数据形成文字数据数据库，在第一语音转文字数据和第二语音转文字数据生成过程中判断匹配度高的文字数据作为参考文字数据。

其中相同字符数为第一语音转文字数据和第二语音转文字数据与标准文字数据比较后生成的相同文字数据的字符数；增加字符数为第一语音转文字数据和第二语音转文字数据与标准文字数据比较后发生增加文字数据的字符数；删除字符数为第一语音转文字数据和第二语音转文字数据与标准文字数据比较后发生减少文字数据的字符数；

S4，根据设定评审分阈值进行判断，将第一语音转文字数据和第二语音转文字数据评审分阈值以上的文字数据选出，并且将第一语音转文字数据和第二语音转文字数据评审分阈值以下的文字数据过滤删除；

S5，获取第N语音转文字数据，所述N≥3，将第一语音转文字数据作为源字符串数据，第二语音转文字数据和第N语音转文字数据作为目标字符串数据，生成双文字数据集，即{第一语音转文字数据，第二语音转文字数据}，{第二语音转文字数据，第N语音转文字数据}，{第一语音转文字数据，第N语音转文字数据}；

利用Myers Diff算法对比文本差异，得到第一语音转文字数据、第二语音转文字数据和第N语音转文字数据比较后的增加字符串数据中的字符数，删除字符串数据中的字符数，相同字符串数据中的字符数；

S6，进行双文字数据集评审分＝双文字数据相同字符数/(双文字数据增加字符数+双文字数据删除字符数+双文字数据相同字符数)；

其中双文字相同字符数分别为第一语音转文字数据和第二语音转文字数据与标准文字数据比较后生成的相同文字数据的字符数，第二语音转文字数据和第N语音转文字数据与标准文字数据比较后生成的相同文字数据的字符数，第一语音转文字数据和第N语音转文字数据与标准文字数据比较后生成的相同文字数据的字符数；双文字增加字符数为第一语音转文字数据和第二语音转文字数据与标准文字数据比较后发生增加文字数据的字符数，第二语音转文字数据和第N语音转文字数据与标准文字数据比较后发生增加文字数据的字符数，第一语音转文字数据和第N语音转文字数据与标准文字数据比较后发生增加文字数据的字符数；双文字删除字符数为第一语音转文字数据和第二语音转文字数据与标准文字数据比较后发生减少文字数据的字符数，第二语音转文字数据和第N语音转文字数据与标准文字数据比较后发生减少文字数据的字符数，第一语音转文字数据和第N语音转文字数据与标准文字数据比较后发生减少文字数据的字符数；

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种语音转文字效果评价优化方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的语音转文字效果评价优化方法，其特征在于，还包括：

3.根据权利要求2所述的语音转文字效果评价优化方法，其特征在于，还包括：

4.根据权利要求1所述的语音转文字效果评价优化方法，其特征在于，所述S2包括：

5.根据权利要求1所述的语音转文字效果评价优化方法，其特征在于，所述S3包括：

评审分的打分对象是文字数据集，评审分越高则第一语音转文字数据且第二语音转文字数据语音转文字的准确性越高，评审分越低则第一语音转文字数据或第二语音转文字数据的语音转文字准确性越低。

6.根据权利要求1所述的语音转文字效果评价优化方法，其特征在于，所述S5包括：