CN111985234B - 语音文本纠错方法 - Google Patents

语音文本纠错方法 Download PDF

Info

Publication number
CN111985234B
CN111985234B CN202010935869.0A CN202010935869A CN111985234B CN 111985234 B CN111985234 B CN 111985234B CN 202010935869 A CN202010935869 A CN 202010935869A CN 111985234 B CN111985234 B CN 111985234B
Authority
CN
China
Prior art keywords
character
text
probability
result
calculating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010935869.0A
Other languages
English (en)
Other versions
CN111985234A (zh
Inventor
韩轶西
刘楚雄
唐军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Changhong Electric Co Ltd
Original Assignee
Sichuan Changhong Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Changhong Electric Co Ltd filed Critical Sichuan Changhong Electric Co Ltd
Priority to CN202010935869.0A priority Critical patent/CN111985234B/zh
Publication of CN111985234A publication Critical patent/CN111985234A/zh
Application granted granted Critical
Publication of CN111985234B publication Critical patent/CN111985234B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种语音文本纠错方法,包括词语的稳定度集合A,将现有文本语料全拆分为双字形式,并记录下每个字与后方各个字搭配的概率,得到unigram集合;对传入的文本利用unigram集合进行计算,得到需要被纠错的文本B并进行分词,对分词结果利用稳定度集合A来进行衡量是否稳定,对于不稳定的结果获取其拼音文本,获得其文字,得到文字混淆集C,替换文本B的原相应位置,使之构成数个序列,得到待解码序列D,计算其隐马尔科夫概率值,取最大概率所对应的文字序列组合为句子即是最终的纠错结果。本发明提升了语音控制和搜索的准确度。

Description

语音文本纠错方法
技术领域
本发明涉及自然语言处理技术领域,特别是一种语音文本纠错方法。
背景技术
在视频领域上,随人工智能技术的发展,利用语音进行控制和搜索被普遍的应用于视频设备领域,包括但不限于电视、移动设备、可穿戴设备等,但由于认知、记忆、口音、口误和语音识别设备的差异,用户所输入的语音文本既有同音错误、少字错误,又有顺序错误和语法错误,从而对视频设备的识别和搜索造成了较大影响;同时现有的文本纠错方法常常堆之以模型,造成了较大的时间花销,影响用户体验。为解决提高语音文本的正确率而时间上又不能造成过多的花销的问题,对语音识别后转译的文本进行高效率的纠错成为了提高语音识别效率的有效方法。
发明内容
为解决现有技术中存在的问题,本发明的目的是提供一种语音文本纠错方法,提升了语音控制和搜索的准确度。
为实现上述目的,本发明采用的技术方案是:一种语音文本纠错方法,包括以下步骤:
S1、对过往的语音识别结果和正确结果进行对比,并计算错误识别结果与正确识别结果的频次,得到词语的稳定度集合A;
S2、将现有文本语料全拆分为双字形式,并记录下每个字与后方各个字搭配的概率,得到unigram集合;
S3、对传入的文本利用步骤S2得到的unigram集合进行计算,对于在平滑的unigram计算数值曲线上产生断层的,或从未在步骤S2的语料中出现过的字词组合,认定为是需要被纠错的文本B;
S4、对文本B进行分词,并对分词结果利用步骤S1得到的稳定度集合A来进行衡量是否稳定,对于稳定的结果不做纠错处理,对于不稳定的结果则进入到下一步;
S5、对步骤S4不稳定的结果,获取其拼音文本,并利用语言学知识得到其易错的结果,获得混淆集合,对混淆集合得到的拼音,利用拼音-文字字典,获得其文字,得到文字混淆集C;
S6、使用与步骤S2相同的文本语料,对语料计算每个拼音下的字的概率,作为发射矩阵R,计算每个字作为开头的概率,作为初始矩阵S,计算每个字后接单一文字或多文字的概率,作为转移矩阵Q;
S7、对步骤S5得到的文字混淆集C,替换文本B的原相应位置,使之构成数个序列,得到待解码序列D;
S8、对步骤S7得到的待解码序列D,计算其隐马尔科夫概率值,取最大概率所对应的文字序列组合为句子即是最终的纠错结果。
作为一种优选的实施方式,所述步骤S8中,计算待解码序列D的隐马尔科夫概率值具体包括以下步骤:
a、对于文本的第一个字从初始矩阵S中获取其初始概率;
b、对于其他位置的字W,获取字W前所有字序列概率的最大值P(max前缀),由发射矩阵R获取字W在字W对应拼音下的发射概率R(W),由转移矩阵Q获取字W作为前一文字组合情况下的下一文字出现的概率Q(W),依据公式P(max前缀)*R(W)*Q(W)得到当前文字到下一文字的概率,最终得到数个文字序列及其对应概率。
作为另一种优选的实施方式,采用分词工具jieba对文本B进行分词。
本发明的有益效果是:
本发明利用N-gram方法对句子进行错误判别,利用大量的语料文本数据建立语音词语识别的稳定度来获得错误识别字词的位置,利用语言学知识获取可能的正确字词组成的候选集,最后使用隐马尔科夫模型对众多候选集进行解码得到纠错的最终结果,从而提升语音控制和搜索的准确度。
附图说明
图1为本发明实施例的流程框图。
具体实施方式
下面结合附图对本发明的实施例进行详细说明。
实施例
如图1所示,一种语音文本纠错方法,包括以下步骤:
S1、利用人工或者程序对本方法使用的领域内的现有文本语料全拆分为双字形式,并记录下每个字与后方各个字搭配的概率,如{“西”:{“安”:0.3,“北”:0.35,“藏”:0.35}},表示“西”字后面跟着“北”的概率为0.35,跟着“安”的概率为0.3,跟着“藏”的概率为0.35,通过本步骤得到unigram集合。当文本传入到本实施例所设计的程序时,对每一个字及其后接文字进行unigram概率计算,例如“我想取席案”,其计算方式就如p(想|我)*p(取|想)*p(席|取)*p(案|席),当出现二者组合未曾在文本语料中出现,或概率相乘后出现断层(如p(想|我)=0.6,p(取|想)=0.03,*p(席|取)=0.09,概率出现大幅度变化,认为产生了断层),则认为该句子需要被纠错。
S2、利用人工或者程序对本方法使用的领域内的过往的语音识别结果和正确结果利用分词器(例如jieba等)分词后,进行对比,并计算错误识别结果与正确识别结果的频次,记录该词汇被错误识别的频次,如{“西安”:0.642},认为西安有0.642的概率被识别正确,通过本步骤得到词语的稳定度集合A。对步骤S1得到的需要被纠错的句子,使用与前述分词器一致的分词器进行分词,对得到的词汇利用稳定度集合A进行判断,例如“我想取席案”分词后为“我想”,“取”,“席案”,设定一个阈值,假设为0.6,查稳定度集合A得知“我想”的稳定度为0.89,“取”,“席案”的稳定度分别为0.34和0.25,则认为“取”,“席案”中存在错误的字词。
S3、利用语言学知识,或从过往的语音识别结果和正确结果中得到易于被人们混淆的拼音,如:“z”和“zh”,“f”和“h”等,建立拼音混淆集,并从字典中得到以各个拼音作为发音符号的字,如“xi”:“西,席,习,夕”等,得到拼音-文字字典。对步骤S2得到的存在错误字词的“取席案”几个字获取其拼音“qu,xi,an”,利用拼音混淆集得到“qu”,“xi,shi”,“an”,再利用拼音-文字字典得到,“取,去,区”,“西,席,时,使”,“安,案”序列。
S4、利用本实施例使用的领域内的现有文本,对其每个句子拆分为双字组合,计算概率p(后一个字|前一个字),构成转移概率矩阵Q,如{“我”:{“想”:0.3,“去”:0.2}},表示在前一个字为“我”的情况下,后一个字为“想”的概率为0.3。记录每个句子的第一个字作为开头的概率,例如“我”:0.6,意味着“我”这个字出现时,其作为开头的概率为0.6,得到初始概率矩阵S。记录每个拼音组合下,各个文字的出现概率,如{“wo”:{“我”:0.3,“喔”:0.05}},表示当拼音为“wo”时,这个字是“我”的概率为0.3,得到发射概率矩阵R。
S5、对步骤S3的得到的序列,结合原文字,得到序列[[“我”],[“想”],[“取,去,区”],[“西,席,时,使”],[“安,案”]],计算从第一个字到最后一个字所有组合的隐马尔科夫概率,计算公式如下:a.对于文本第一个字从初始矩阵S中获取其初始概率。b.对于其他位置的字W,获取该字前所有字序列概率的最大值P(max前缀),由发射矩阵R获取该字在该字对应拼音下的发射概率R(W),由转移矩阵Q获取该字作为前一文字组合情况下的下一文字出现的概率Q(W),依据公式得到当前的概率P(max前缀)*R(W)*Q(W),得到当前文字到下一文字的概率,最终得到数个文字序列及其对应概率,取其最大概率所对应的文字序列组合为句子即是最终的纠错结果。
以上所述实施例仅表达了本发明的具体实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

Claims (2)

1.一种语音文本纠错方法,其特征在于,包括以下步骤:
S1、对过往的语音识别结果和正确结果进行对比,并计算错误识别结果与正确识别结果的频次,得到词语的稳定度集合A;
S2、将现有文本语料全拆分为双字形式,并记录下每个字与后方各个字搭配的概率,得到unigram集合;
S3、对传入的文本利用步骤S2得到的unigram集合进行计算,对于在平滑的unigram计算数值曲线上产生断层的,或从未在步骤S2的语料中出现过的字词组合,认定为是需要被纠错的文本B;
S4、对文本B进行分词,并对分词结果利用步骤S1得到的稳定度集合A来进行衡量是否稳定,对于稳定的结果不做纠错处理,对于不稳定的结果则进入到下一步;
S5、对步骤S4不稳定的结果,获取其拼音文本,并利用语言学知识得到其易错的结果,获得混淆集合,对混淆集合得到的拼音,利用拼音-文字字典,获得其文字,得到文字混淆集C;
S6、使用与步骤S2相同的文本语料,对语料计算每个拼音下的字的概率,作为发射矩阵R,计算每个字作为开头的概率,作为初始矩阵S,计算每个字后接单一文字或多文字的概率,作为转移矩阵Q;
S7、对步骤S5得到的文字混淆集C,替换文本B的原相应位置,使之构成数个序列,得到待解码序列D;
S8、对步骤S7得到的待解码序列D,计算其隐马尔科夫概率值,取最大概率所对应的文字序列组合为句子即是最终的纠错结果;
所述步骤S8中,计算待解码序列D的隐马尔科夫概率值具体包括以下步骤:
a、对于文本的第一个字从初始矩阵S中获取其初始概率;
b、对于其他位置的字W,获取字W前所有字序列概率的最大值P(max前缀),由发射矩阵R获取字W在字W对应拼音下的发射概率R(W),由转移矩阵Q获取字W作为前一文字组合情况下的下一文字出现的概率Q(W),依据公式P(max前缀)*R(W)*Q(W)得到当前文字到下一文字的概率,最终得到数个文字序列及其对应概率。
2.根据权利要求1所述的语音文本纠错方法,其特征在于,所述步骤S4中,采用分词工具jieba对文本B进行分词。
CN202010935869.0A 2020-09-08 2020-09-08 语音文本纠错方法 Active CN111985234B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010935869.0A CN111985234B (zh) 2020-09-08 2020-09-08 语音文本纠错方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010935869.0A CN111985234B (zh) 2020-09-08 2020-09-08 语音文本纠错方法

Publications (2)

Publication Number Publication Date
CN111985234A CN111985234A (zh) 2020-11-24
CN111985234B true CN111985234B (zh) 2022-02-01

Family

ID=73448151

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010935869.0A Active CN111985234B (zh) 2020-09-08 2020-09-08 语音文本纠错方法

Country Status (1)

Country Link
CN (1) CN111985234B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112232062A (zh) * 2020-12-11 2021-01-15 北京百度网讯科技有限公司 文本纠错方法、装置、电子设备和存储介质
CN112632222B (zh) * 2020-12-25 2023-02-03 海信视像科技股份有限公司 一种终端设备和确定数据所属领域的方法
CN113284487B (zh) * 2021-07-22 2021-10-26 北京灵伴即时智能科技有限公司 基于语音识别结果的匹配方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304385A (zh) * 2018-02-09 2018-07-20 叶伟 一种语音识别文本纠错方法及装置
CN110210028A (zh) * 2019-05-30 2019-09-06 杭州远传新业科技有限公司 针对语音转译文本的领域特征词提取方法、装置、设备及介质
CN110428822A (zh) * 2019-08-05 2019-11-08 重庆电子工程职业学院 一种语音识别纠错方法及人机对话系统
CN110516248A (zh) * 2019-08-27 2019-11-29 出门问问(苏州)信息科技有限公司 语音识别结果纠错方法、装置、存储介质和电子设备
US10657306B1 (en) * 2018-11-09 2020-05-19 Nvidia Corp. Deep learning testability analysis with graph convolutional networks
CN111369996A (zh) * 2020-02-24 2020-07-03 网经科技(苏州)有限公司 一种特定领域的语音识别文本纠错方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050022114A1 (en) * 2001-08-13 2005-01-27 Xerox Corporation Meta-document management system with personality identifiers
US7113950B2 (en) * 2002-06-27 2006-09-26 Microsoft Corporation Automated error checking system and method
US10565747B2 (en) * 2017-09-06 2020-02-18 Nvidia Corporation Differentiable rendering pipeline for inverse graphics
CN109992765A (zh) * 2017-12-29 2019-07-09 北京京东尚科信息技术有限公司 文本纠错方法及装置、存储介质和电子设备
CN110210029B (zh) * 2019-05-30 2020-06-19 浙江远传信息技术股份有限公司 基于垂直领域的语音文本纠错方法、系统、设备及介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304385A (zh) * 2018-02-09 2018-07-20 叶伟 一种语音识别文本纠错方法及装置
US10657306B1 (en) * 2018-11-09 2020-05-19 Nvidia Corp. Deep learning testability analysis with graph convolutional networks
CN110210028A (zh) * 2019-05-30 2019-09-06 杭州远传新业科技有限公司 针对语音转译文本的领域特征词提取方法、装置、设备及介质
CN110428822A (zh) * 2019-08-05 2019-11-08 重庆电子工程职业学院 一种语音识别纠错方法及人机对话系统
CN110516248A (zh) * 2019-08-27 2019-11-29 出门问问(苏州)信息科技有限公司 语音识别结果纠错方法、装置、存储介质和电子设备
CN111369996A (zh) * 2020-02-24 2020-07-03 网经科技(苏州)有限公司 一种特定领域的语音识别文本纠错方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Asynchronous Speech Recognition Affects Physician Editing of Notes";Lybarger Kevin J 等;《Applied clinical informatics》;20181009;第9卷(第4期);第782-790页 *
"基于贝叶斯纠错的AR辅助飞机装配数据纠错方法";肖文磊 等;《航空制造技术》;20200315;第63卷(第6期);第14-22页 *

Also Published As

Publication number Publication date
CN111985234A (zh) 2020-11-24

Similar Documents

Publication Publication Date Title
CN111985234B (zh) 语音文本纠错方法
EP4068280A1 (en) Speech recognition error correction method, related devices, and readable storage medium
US11151984B2 (en) Multi-language mixed speech recognition method
CN101133411B (zh) 非罗马字符的容错罗马化输入方法
US8719021B2 (en) Speech recognition dictionary compilation assisting system, speech recognition dictionary compilation assisting method and speech recognition dictionary compilation assisting program
US10073673B2 (en) Method and system for robust tagging of named entities in the presence of source or translation errors
CN107729321A (zh) 一种语音识别结果纠错方法
CN105404621B (zh) 一种用于盲人读取汉字的方法及系统
JP4885160B2 (ja) 英語変異発音を識別するモジュールの構築方法、および、当該モジュールの構築を実現するプログラムを記憶したコンピュータが読み取り可能な記録媒体
KR101633556B1 (ko) 문법 오류 수정 장치 및 이를 이용한 문법 오류 수정 방법
CN108228574B (zh) 文本翻译处理方法及装置
CN111613214A (zh) 一种用于提升语音识别能力的语言模型纠错方法
CN113779972A (zh) 语音识别纠错方法、系统、装置及存储介质
Lee et al. Automatic word spacing using probabilistic models based on character n-grams
JP7190283B2 (ja) 音声認識結果整形モデル学習装置およびそのプログラム
CN108304389B (zh) 交互式语音翻译方法及装置
KR101627402B1 (ko) 자연어를 점진적으로 분석하는 장치와 이를 이용한 적응적인 응답 장치 및 방법
CN110929514A (zh) 文本校对方法、装置、计算机可读存储介质及电子设备
Mekki et al. COTA 2.0: An automatic corrector of Tunisian Arabic social media texts
US11341961B2 (en) Multi-lingual speech recognition and theme-semanteme analysis method and device
CN111814433B (zh) 一种维吾尔语实体识别的方法、装置和电子设备
CN109446537B (zh) 一种针对机器翻译的译文评估方法及装置
CN112000767A (zh) 一种基于文本的信息抽取方法和电子设备
CN112836522A (zh) 语音识别结果的确定方法及装置、存储介质及电子装置
Chen et al. Using Taigi dramas with Mandarin Chinese subtitles to improve Taigi speech recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant