CN110322883B - 一种语音转文字效果评价优化方法 - Google Patents

一种语音转文字效果评价优化方法 Download PDF

Info

Publication number
CN110322883B
CN110322883B CN201910567606.6A CN201910567606A CN110322883B CN 110322883 B CN110322883 B CN 110322883B CN 201910567606 A CN201910567606 A CN 201910567606A CN 110322883 B CN110322883 B CN 110322883B
Authority
CN
China
Prior art keywords
voice
data
text
character
text data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910567606.6A
Other languages
English (en)
Other versions
CN110322883A (zh
Inventor
王海洲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Microphone Culture Media Co ltd
Original Assignee
Shanghai Microphone Culture Media Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Microphone Culture Media Co ltd filed Critical Shanghai Microphone Culture Media Co ltd
Priority to CN201910567606.6A priority Critical patent/CN110322883B/zh
Publication of CN110322883A publication Critical patent/CN110322883A/zh
Application granted granted Critical
Publication of CN110322883B publication Critical patent/CN110322883B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明提出了一种语音转文字效果评价优化方法,包括:S1,通过数据采集端口获取若干语音转文字数据,按照预设规范获取标准语音转文字数据,将标准文字数据进行分段,采集不同语音转文字生成的实时数据;S2,获取第一语音转文字数据和第二语音转文字数据,将第一语音转文字数据和第二语音转文字数据生成一组文字数据集;S3,对第一语音转文字数据和第二语音转文字数据进行文字数据评审,S4,根据设定评审分阈值进行判断,将第一语音转文字数据和第二语音转文字数据评审分阈值以上的文字数据选出,并且将第一语音转文字数据和第二语音转文字数据评审分阈值以下的文字数据过滤删除。

Description

一种语音转文字效果评价优化方法
技术领域
本发明涉及音频文字识别领域,尤其涉及一种语音转文字效果评价优化方法。
背景技术
在实际业务中,常常需要用到语音转文字技术,但是由语音转化而来的文字受各种因素影响,常常出现用字不准确和逻辑难以理解的情况,造成这种情况的可能有音转文算法不够成熟,或音频本身质量较差噪声大,或音频发音人录入的音频内容有同音字歧义等原因。
音频转化成为的文字在使用前(如新闻记录,会议记录,音视频节目文本存档)通常需要进行评审以剔除质量效果太差的用例,这项工作通常由人工完成,而人工评审面临成本高,耗时长,工作枯燥,多个评审员之间评审标准不统一等问题。这就亟需本领域技术人员解决相应的技术问题。
发明内容
本发明旨在至少解决现有技术中存在的技术问题,特别创新地提出了一种语音转文字效果评价优化方法。
为了实现本发明的上述目的,本发明提供了一种语音转文字效果评价优化方法,包括如下步骤:
S1,通过数据采集端口获取若干语音转文字数据,按照预设规范获取标准语音转文字数据,将标准文字数据进行分段,采集不同语音转文字生成的实时数据;
S2,获取第一语音转文字数据和第二语音转文字数据,将第一语音转文字数据和第二语音转文字数据生成一组文字数据集;
S3,对第一语音转文字数据和第二语音转文字数据进行文字数据评审,
形成文字数据评审分=相同字符数/(增加字符数+删除字符数+相同字符数);
S4,根据设定评审分阈值进行判断,将第一语音转文字数据和第二语音转文字数据评审分阈值以上的文字数据选出,并且将第一语音转文字数据和第二语音转文字数据评审分阈值以下的文字数据过滤删除。
优选的,还包括:
S5,获取第N语音转文字数据,所述N≥3,将第一语音转文字数据作为源字符串数据,第二语音转文字数据和第N语音转文字数据作为目标字符串数据,生成双文字数据集,即{第一语音转文字数据,第二语音转文字数据},{第二语音转文字数据,第N语音转文字数据},{第一语音转文字数据,第N语音转文字数据}。
优选的,还包括:
S6,进行双文字数据集评审分=双文字数据相同字符数/(双文字数据增加字符数+双文字数据删除字符数+双文字数据相同字符数)。
优选的,还包括:
S7,选出得分最高的一组文字数据集,计算其中各文字数据在与其他文字数据组合时的得分最大值,得分高的语音转文字数据为该组文字数据集内优胜文字数据评价规则为MAX(第一语音转文字数据、第二语音转文字数据,第一语音转文字数据、第N语音转文字数据)>MAX(第二语音转文字数据、第N语音转文字数据,第二语音转文字数据、第N+1语音转文字数据),则设定为第一语音转文字数据优于第二语音转文字数据。
优选的,所述S2包括:
将第一语音转文字数据作为源字符串数据,第二语音转文字数据作为目标字符串数据,利用Myers Diff算法对比文本差异,得到第一语音转文字数据和第二语音转文字数据比较后的增加字符串数据中的字符数,删除字符串数据中的字符数,相同字符串数据中的字符数。
优选的,所述S3包括:
评审分的打分对象是文字数据集,评审分越高则第一语音转文字数据且第二语音转文字数据语音转文字的准确性越高,评审分越低则第一语音转文字数据或第二语音转文字数据的语音转文字准确性越低;
优选的,所述S5包括:
利用Myers Diff算法对比文本差异,得到第一语音转文字数据、第二语音转文字数据和第N语音转文字数据比较后的增加字符串数据中的字符数,删除字符串数据中的字符数,相同字符串数据中的字符数。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
通过调用不同的音转文技术接口,利用了正确的(语音转文字)翻译总是相同,错误的翻译却错得千差万别这特点,实现了对音转文输出文本准确性进行了自动评审打分。
保护点在于利用多种不同得音转文技术接口(通常是不同服务提供商)对同一音频转译结果进行差异比较来实现文本转译质量打分和挑选文字匹配度最高的音转文数据,通过本发明方法滤去低于阈值的文字数据实现自动挑选和自动过滤的功能。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明实施例流程图;
图2是本发明另一实施例流程图;
图3是本发明总体示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
如图1所示,本发明实施例方法流程1:
准备两种互不相同的语音转文字技术接口(不同是指采用的算法模型或训练数据不相同,通常不同的服务提供商之间有自己的音转文技术,所以音转文效果也会不同);
将音频送入两个音转文接口得到对应文本(甲,乙),该两个文本形成一个文本组;
将文本甲作为源字符串,文本乙作为目标字符串,利用Myers Diff算法对比文本差异,得到增加字符数,删除字符数,相同字符数。通过经典Myers Diff算法对比文本差异;
评审分=相同字符数/(增加字符数+删除字符数+相同字符数).评审分(打分对象是文本组)越高则文本甲且文本乙音转文的准确性越高,评审分越低文本甲或文本乙的音转文准确性越低。
根据需求将一定评审分阈值以上的文本(无论甲乙)选出,或者将一定评审分以下的文本(无论甲乙)滤去就能实现自动挑选和自动过滤的功能。
如图2所示,本发明实施例方法流程2:
准备三种以上不同的语音转文字技术接口.
将音频送入各个接口得到对应文本(如甲,乙,丙,丁,...).接口生成的文本两两一组.
将一组种一个文本(如文本甲)作为源字符串,另一个文本(如文本乙)作为目标字符串,利用Myers Diff算法对比文本差异,得到增加字符数,删除字符数,相同字符数。
甲乙文本组评审分=相同字符数/(增加字符数+删除字符数+相同字符数)
重复以上步骤生成各个文本组评审分。(如甲乙,甲丙,甲丁,乙丙,乙丁)
选出得分最高的一组(如甲乙),计算其中各文本在与其他文本组合时的得分最大值,得分高者为组内优胜文本(如,MAX(甲丙,甲丁)>MAX(乙丙,乙丁),则选甲优于乙).
根据需求将一定评审分阈值以上的组的组内优胜文本选出,能实现文本自动挑选功能。
创新之处在于调用不同的音转文技术接口,利用了正确的(语音转文字)翻译总是相同,错误的翻译却错得千差万别这特点,实现了对音转文输出文本准确性进行了自动评审打分。
保护点在于利用多种不同得音转文技术接口(通常是不同服务提供商)对同一音频转译结果进行差异比较来实现文本转译质量打分和挑选文字匹配度最高的音转文数据。
如图3所示,本发明公开的方法为:
S1,通过数据采集端口获取若干语音转文字数据,按照预设规范获取标准语音转文字数据,将标准文字数据进行分段,采集不同语音转文字生成的实时数据;
其中采集不同语音转文字生成的实时数据在不同的语音转文字工作过程中,会形成不同的输出结果,从而会与标准文字数据发生偏差;
S2,获取第一语音转文字数据和第二语音转文字数据,将第一语音转文字数据和第二语音转文字数据生成一组文字数据集;
将第一语音转文字数据作为源字符串数据,第二语音转文字数据作为目标字符串数据,利用Myers Diff算法对比文本差异,得到第一语音转文字数据和第二语音转文字数据比较后的增加字符串数据中的字符数,删除字符串数据中的字符数,相同字符串数据中的字符数;
对在第一语音转文字数据和第二语音转文字数据中提取若干标签文字数据通过与标准文字数据匹配测定后进行重合度分类,计算重合度分类后的第一语音转文字数据和第二语音转文字数据的匹配度,根据第一语音转文字数据和第二语音转文字数据匹配度计算每个文字数据匹配的强度值,以及文字数据的匹配度和强度值得到语音转文字效果评价分析结果,形成语音转文字实时转换的时间戳,在形成的时间戳上获取第一语音转文字数据和第二语音转文字数据的重合文字生成时间,将全部的第一语音转文字数据和第二语音转文字数据重合文字数据时间戳组成文字数据时间轴,保存上述文字数据匹配的强度值、文字实时转换的时间戳和文字数据时间轴;
将保存上述文字数据匹配的强度值、文字实时转换的时间戳和文字数据时间轴的数据形成文字数据数据库,在第一语音转文字数据和第二语音转文字数据生成过程中判断匹配度高的文字数据作为参考文字数据。
S3,对第一语音转文字数据和第二语音转文字数据进行文字数据评审,
形成文字数据评审分=相同字符数/(增加字符数+删除字符数+相同字符数);
其中相同字符数为第一语音转文字数据和第二语音转文字数据与标准文字数据比较后生成的相同文字数据的字符数;增加字符数为第一语音转文字数据和第二语音转文字数据与标准文字数据比较后发生增加文字数据的字符数;删除字符数为第一语音转文字数据和第二语音转文字数据与标准文字数据比较后发生减少文字数据的字符数;
评审分的打分对象是文字数据集,评审分越高则第一语音转文字数据且第二语音转文字数据语音转文字的准确性越高,评审分越低则第一语音转文字数据或第二语音转文字数据的语音转文字准确性越低;
S4,根据设定评审分阈值进行判断,将第一语音转文字数据和第二语音转文字数据评审分阈值以上的文字数据选出,并且将第一语音转文字数据和第二语音转文字数据评审分阈值以下的文字数据过滤删除;
S5,获取第N语音转文字数据,所述N≥3,将第一语音转文字数据作为源字符串数据,第二语音转文字数据和第N语音转文字数据作为目标字符串数据,生成双文字数据集,即{第一语音转文字数据,第二语音转文字数据},{第二语音转文字数据,第N语音转文字数据},{第一语音转文字数据,第N语音转文字数据};
利用Myers Diff算法对比文本差异,得到第一语音转文字数据、第二语音转文字数据和第N语音转文字数据比较后的增加字符串数据中的字符数,删除字符串数据中的字符数,相同字符串数据中的字符数;
S6,进行双文字数据集评审分=双文字数据相同字符数/(双文字数据增加字符数+双文字数据删除字符数+双文字数据相同字符数);
其中双文字相同字符数分别为第一语音转文字数据和第二语音转文字数据与标准文字数据比较后生成的相同文字数据的字符数,第二语音转文字数据和第N语音转文字数据与标准文字数据比较后生成的相同文字数据的字符数,第一语音转文字数据和第N语音转文字数据与标准文字数据比较后生成的相同文字数据的字符数;双文字增加字符数为第一语音转文字数据和第二语音转文字数据与标准文字数据比较后发生增加文字数据的字符数,第二语音转文字数据和第N语音转文字数据与标准文字数据比较后发生增加文字数据的字符数,第一语音转文字数据和第N语音转文字数据与标准文字数据比较后发生增加文字数据的字符数;双文字删除字符数为第一语音转文字数据和第二语音转文字数据与标准文字数据比较后发生减少文字数据的字符数,第二语音转文字数据和第N语音转文字数据与标准文字数据比较后发生减少文字数据的字符数,第一语音转文字数据和第N语音转文字数据与标准文字数据比较后发生减少文字数据的字符数;
S7,选出得分最高的一组文字数据集,计算其中各文字数据在与其他文字数据组合时的得分最大值,得分高的语音转文字数据为该组文字数据集内优胜文字数据评价规则为MAX(第一语音转文字数据、第二语音转文字数据,第一语音转文字数据、第N语音转文字数据)>MAX(第二语音转文字数据、第N语音转文字数据,第二语音转文字数据、第N+1语音转文字数据),则设定为第一语音转文字数据优于第二语音转文字数据。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

Claims (6)

1.一种语音转文字效果评价优化方法,其特征在于,包括如下步骤:
S1,通过数据采集端口获取若干语音转文字数据,按照预设规范获取标准语音转文字数据,将标准文字数据进行分段,采集不同语音转文字生成的实时数据;
S2,获取第一语音转文字数据和第二语音转文字数据,将第一语音转文字数据和第二语音转文字数据生成一组文字数据集;
S3,对第一语音转文字数据和第二语音转文字数据进行文字数据评审,
形成文字数据评审分=相同字符数/(增加字符数+删除字符数+相同字符数);
S4,根据设定评审分阈值进行判断,将第一语音转文字数据和第二语音转文字数据评审分阈值以上的文字数据选出,并且将第一语音转文字数据和第二语音转文字数据评审分阈值以下的文字数据过滤删除。
S5,获取第N语音转文字数据,所述N≥3,将第一语音转文字数据作为源字符串数据,第二语音转文字数据和第N语音转文字数据作为目标字符串数据,生成双文字数据集,即{第一语音转文字数据,第二语音转文字数据},{第二语音转文字数据,第N语音转文字数据},{第一语音转文字数据,第N语音转文字数据}。
2.根据权利要求1所述的语音转文字效果评价优化方法,其特征在于,还包括:
S6,进行双文字数据集评审分=双文字数据相同字符数/(双文字数据增加字符数+双文字数据删除字符数+双文字数据相同字符数)。
3.根据权利要求2所述的语音转文字效果评价优化方法,其特征在于,还包括:
S7,选出得分最高的一组文字数据集,计算其中各文字数据在与其他文字数据组合时的得分最大值,得分高的语音转文字数据为该组文字数据集内优胜文字数据评价规则为MAX(第一语音转文字数据、第二语音转文字数据,第一语音转文字数据、第N语音转文字数据)>MAX(第二语音转文字数据、第N语音转文字数据,第二语音转文字数据、第N+1语音转文字数据),则设定为第一语音转文字数据优于第二语音转文字数据。
4.根据权利要求1所述的语音转文字效果评价优化方法,其特征在于,所述S2包括:
将第一语音转文字数据作为源字符串数据,第二语音转文字数据作为目标字符串数据,利用Myers Diff算法对比文本差异,得到第一语音转文字数据和第二语音转文字数据比较后的增加字符串数据中的字符数,删除字符串数据中的字符数,相同字符串数据中的字符数。
5.根据权利要求1所述的语音转文字效果评价优化方法,其特征在于,所述S3包括:
评审分的打分对象是文字数据集,评审分越高则第一语音转文字数据且第二语音转文字数据语音转文字的准确性越高,评审分越低则第一语音转文字数据或第二语音转文字数据的语音转文字准确性越低。
6.根据权利要求1所述的语音转文字效果评价优化方法,其特征在于,所述S5包括:
利用Myers Diff算法对比文本差异,得到第一语音转文字数据、第二语音转文字数据和第N语音转文字数据比较后的增加字符串数据中的字符数,删除字符串数据中的字符数,相同字符串数据中的字符数。
CN201910567606.6A 2019-06-27 2019-06-27 一种语音转文字效果评价优化方法 Active CN110322883B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910567606.6A CN110322883B (zh) 2019-06-27 2019-06-27 一种语音转文字效果评价优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910567606.6A CN110322883B (zh) 2019-06-27 2019-06-27 一种语音转文字效果评价优化方法

Publications (2)

Publication Number Publication Date
CN110322883A CN110322883A (zh) 2019-10-11
CN110322883B true CN110322883B (zh) 2023-02-17

Family

ID=68120453

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910567606.6A Active CN110322883B (zh) 2019-06-27 2019-06-27 一种语音转文字效果评价优化方法

Country Status (1)

Country Link
CN (1) CN110322883B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111599359A (zh) * 2020-05-09 2020-08-28 标贝(北京)科技有限公司 人机交互方法、服务端、客户端及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5428707A (en) * 1992-11-13 1995-06-27 Dragon Systems, Inc. Apparatus and methods for training speech recognition systems and their users and otherwise improving speech recognition performance
CN108734571A (zh) * 2018-05-29 2018-11-02 佛山市金晶微阅信息科技有限公司 一种信贷反欺诈侦测模糊匹配算法
CN109273000A (zh) * 2018-10-11 2019-01-25 河南工学院 一种语音识别方法
JP6462936B1 (ja) * 2018-06-18 2019-01-30 菱洋エレクトロ株式会社 音声認識システム、及び音声認識装置
CN109830230A (zh) * 2019-03-27 2019-05-31 深圳平安综合金融服务有限公司上海分公司 一种基于自我学习算法的数据标注方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5428707A (en) * 1992-11-13 1995-06-27 Dragon Systems, Inc. Apparatus and methods for training speech recognition systems and their users and otherwise improving speech recognition performance
CN108734571A (zh) * 2018-05-29 2018-11-02 佛山市金晶微阅信息科技有限公司 一种信贷反欺诈侦测模糊匹配算法
JP6462936B1 (ja) * 2018-06-18 2019-01-30 菱洋エレクトロ株式会社 音声認識システム、及び音声認識装置
CN109273000A (zh) * 2018-10-11 2019-01-25 河南工学院 一种语音识别方法
CN109830230A (zh) * 2019-03-27 2019-05-31 深圳平安综合金融服务有限公司上海分公司 一种基于自我学习算法的数据标注方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
序列数据的相似性查询研究;戴东波;《中国博士学位论文全文数据库》;20111031;全文 *

Also Published As

Publication number Publication date
CN110322883A (zh) 2019-10-11

Similar Documents

Publication Publication Date Title
CN108962282B (zh) 语音检测分析方法、装置、计算机设备及存储介质
CN106297776B (zh) 一种基于音频模板的语音关键词检索方法
US7346506B2 (en) System and method for synchronized text display and audio playback
CN107818797B (zh) 语音质量评价方法、装置及其系统
US20170242847A1 (en) Apparatus and method for translating a meeting speech
CN107154257A (zh) 基于客户语音情感的客服服务质量评价方法及系统
CN109599114A (zh) 语音处理方法、存储介质和装置
CN111489765A (zh) 一种基于智能语音技术的话务服务质检方法
CN103065620A (zh) 在手机上或网页上接收用户输入的文字并实时合成为个性化声音的方法
CN111462758A (zh) 智能会议角色分类的方法、装置、设备及存储介质
CN112165599A (zh) 一种用于视频会议的会议纪要自动生成方法
CN106847305A (zh) 一种处理客服电话的录音数据的方法及装置
CN111010484A (zh) 一种通话录音自动质检方法
CN114449105A (zh) 基于语音的电力客户服务话务质检系统
CN110322883B (zh) 一种语音转文字效果评价优化方法
CN111339757A (zh) 一种催收场景下语音识别结果的纠错方法
CN113129898A (zh) 一种机器辅助的会议记录系统及方法
CN109858025A (zh) 一种地址标准化语料的分词方法及系统
CN106372083B (zh) 一种有争议性新闻线索自动发现的方法及系统
CN114022923A (zh) 智能采编系统
CN113810548A (zh) 基于iot的智能通话质检方法系统
CN113037934A (zh) 一种基于呼叫中心通话录音的热词分析系统
CN111246026A (zh) 一种基于卷积神经网络和连接性时序分类的录音处理方法
CN109299312B (zh) 基于大数据的音乐节奏分析方法
CN114492436B (zh) 一种审计访谈信息的处理方法、装置和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant