CN111369996A - 一种特定领域的语音识别文本纠错方法 - Google Patents
一种特定领域的语音识别文本纠错方法 Download PDFInfo
- Publication number
- CN111369996A CN111369996A CN202010113318.6A CN202010113318A CN111369996A CN 111369996 A CN111369996 A CN 111369996A CN 202010113318 A CN202010113318 A CN 202010113318A CN 111369996 A CN111369996 A CN 111369996A
- Authority
- CN
- China
- Prior art keywords
- word
- language model
- pinyin
- candidate
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 75
- 238000012545 processing Methods 0.000 claims abstract description 12
- 235000019580 granularity Nutrition 0.000 claims abstract description 6
- 238000012937 correction Methods 0.000 claims description 22
- 230000002159 abnormal effect Effects 0.000 claims description 7
- 230000000694 effects Effects 0.000 claims description 7
- 239000012634 fragment Substances 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000013135 deep learning Methods 0.000 claims description 6
- 230000001105 regulatory effect Effects 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 3
- 230000000306 recurrent effect Effects 0.000 claims description 3
- 230000015654 memory Effects 0.000 claims description 2
- 230000011218 segmentation Effects 0.000 abstract description 6
- 238000011156 evaluation Methods 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 208000022821 personality disease Diseases 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种特定领域的语音识别文本纠错方法,首先,使用正确的领域语料统计得到字、词级别语言模型和拼音语言模型;然后,接收待纠错的文本序列,超过一句的进行分句处理;再使用字、词、拼音语言模型确定疑似错误的字词;继而根据语言模型词汇表与易错音字典确定疑似错误字词的候选词清单;最后将候选词代入原文本序列,结合宏观与微观评分选择最合理的句子输出。选用字、词、拼音、声韵母等不同粒度和维度的基本单元构建语言模型,降低错字导致的分词错误干扰;采用字词语言模型处理孤立的文字错乱,采用拼音语言模型辨别发音偏差导致的连续识别错误;对错误字词替换后候选句子采用宏观与微观评分综合评价,衡量替换后句子通顺程度。
Description
技术领域
本发明涉及一种特定领域的语音识别文本纠错方法,属于数据处理技术领域。
背景技术
近几年技术层面的突破,语音识别的差错率得到大幅降低,目前已经拥有许多应用场景,取得了很好的市场反响。比如智能手机上的语音输入法、智能音箱的语音处理、录音设备的联网转写功能等,都离不开语音识别的助攻。对于典型的语音界面人机交互系统而言,语音识别是最前端的一个模块,经过识别后的文本才能进行自然语言理解与加工处理,从而产生对应的交互返回给用户。
但是,语音识别的结果仍存在不可避免的误差。由于环境噪声、地方口音、设备自身等干扰因素的存在,语音识别转换后的文本段落经常带有一些异常数据,比如同音词、近似音词、错别字等预期之外的错误文本。这样的差错在文本段落中影响是不容小觑的,同音词会带来语义理解的严重偏差,字级别的错误还可能造成分词切分错误,从而导致词性标注、依存关系分析等一系列错误。因此,在语音识别技术瓶颈下,文本纠错成为非常关键的一个环节,良好的纠错能极大地改善输出文本质量。
目前文本纠错的技术方案根据应用场景的不同有较大的区别,比如有些针对图像识别段落的纠错,则除了语言自身特征外,重点需要利用字形近似特征来确定疑似字词。针对语音输入法的纠错,往往可以借助用户点击行为优化易错字词排序模型。有些纯对话的智能体,也可以通过用户的语音纠正来辅助改善纠错效果。对于特定领域业务用途的智能客服系统来说,用户往往期望能一次理解真实意图,无法接受在个别字词层面的澄清询问。因此,这类只能依赖文本内容的场景主流的文本纠错主要采用词级别的概率统计方法来查错和改错。但基于词的结合概率统计会受到识别错误带来分词错误的严重影响,同时也难以处理多词连续错误的情况。另外,这类方法在候选词清单提取方面存在覆盖面低的弊端,在候选词替换后的通顺程度评价方面也不够全面,因此存在较大的改进研究空间。
发明内容
本发明的目的是克服现有技术存在的不足,提供一种特定领域的语音识别文本纠错方法,旨在解决语音识别后错误纠正效果不佳的问题。
本发明的目的通过以下技术方案来实现:
一种特定领域的语音识别文本纠错方法,特点是:包括以下步骤:
101)使用正确的领域语料统计得到字、词级别语言模型和拼音语言模型;
102)接收待纠错的文本序列,超过一句的进行分句处理;
103)使用字、词、拼音语言模型确定疑似错误的字词;
104)根据语言模型词汇表与易错音字典确定疑似错误字词的候选词清单;
105)将候选词代入原文本序列,结合宏观与微观评分选择最合理的句子输出。
进一步地,上述的一种特定领域的语音识别文本纠错方法,其中,步骤101),基于n-gram方法、循环神经网络方法、长短时记忆网络方法或深度学习方法得到所需语言模型,获取每个基本单元的概率,语言模型的基本单元,为单个的字、词语、音节、声韵母或者整个拼音。
进一步地,上述的一种特定领域的语音识别文本纠错方法,其中,n-gram方法,n的取值为1~6,当n为1时,单字、单词为单位的语言模型;
n-gram方法,语料库中每个统计单元wi在这一特定领域中出现的概率P(wi)由公式(1)求得;
其中,V表示语料库中统计单元的总数,Count(wi)表示wi在语料库中出现的次数;
深度学习方法,首先获取每个单元的向量表示,通过多层神经网络对上下文提取特征并建模,最后一层可获得wi出现的概率P(wi)。
进一步地,上述的一种特定领域的语音识别文本纠错方法,其中,n-gram方法,首先确定要统计的长度n和单元gram,然后在语料中针对每个句子依次获取指定长度的单元作为统计对象,计算出每个统计对象的出现频次;
应用于整个语料库,则可得到每个统计单元的出现频率。
进一步地,上述的一种特定领域的语音识别文本纠错方法,其中,步骤102),接收到文本序列后,如果文本序列包含一个以上句子休止符,以句为单位进行后续纠错步骤,否则整个序列进入后续纠错步骤。
进一步地,上述的一种特定领域的语音识别文本纠错方法,其中,步骤103),包含如下步骤:
1)将待纠错文本序列转换为拼音序列;
采用文本到拼音的转换工具得到待纠错文本序列的拼音形式;
2)使用不同长度、粒度的拼音或文字语言模型,确定拼音序列中的罕见音节组合;
5)在连续出现的异常片段序列中,选取位置居中的片段作为疑似错误字词;
如果连续异常片段有奇数个,选取位置最中间的一个;如果连续异常片段有偶数个,选取位置居中两个片段的公共部分。
进一步地,上述的一种特定领域的语音识别文本纠错方法,其中,步骤104),包含如下步骤:
S41)根据收集的模糊音规律构建易错音字典;
S42)根据拼音与文字形式的n-gram词汇表,建立从拼音片段到领域字词的映射表;
S43)针对每个疑似错误的字词,获取其候选清单。
进一步地,上述的一种特定领域的语音识别文本纠错方法,其中,步骤S43),包括如下步骤:
1)利用注音工具将其转换为声韵母组合形式;
2)在易错音字典中查询,按照易错音节的可能候选确定所有疑似发音的全排列;
3)根据上一步得到的疑似发音清单,结合前面n-1个、后面n-1个字词的发音在拼音语言模型n-gram词表中查询,将前后组合均不存在的组合排除,获得候选发音清单一;
4)将候选发音清单送入n-gram语言模型词表中查询,获取对应的文字形式,即为候选清单一;
5)将该字词结合前面n-1个、后面n-1个字词在n-gram语言模型词表中查询,获得候选清单二;
6)候选清单一与候选清单二取并集,即为该字词的全部候选集合。
进一步地,上述的一种特定领域的语音识别文本纠错方法,其中,步骤105),包含如下步骤:
1)根据每个疑似错误字词的候选集合,在句子中按照顺序做全排列,得到若干个待评分的句子集合;
2)对于每个新句子S,基于n-gram语言模型采用公式(2)计算候选词替换后的宏观得分:
其中,n表示语言模型对应统计单元的长度,L表示句子中基本单元的个数,P(wi)表示wi在语言模型中的概率;
3)对于每个新句子S,基于互信息增益采用公式(3)计算候选词替换后的微观得分:
其中,Pos是序列中疑似错误字词所在位置的索引的集合,ci表示序列中一个疑似错误字词,i表示句子S中对应的候选词,ci-1与ci+1分别是序列中前一个与后一个基本单元;M(Ci-1,ci)表示ci与ci-1的互信息,由公式(4)求得;
其中P(x)与P(y)表示x、y各自的概率,P(x,y)是xy同时出现的概率;当log的以2为底数时,互信息的单位是bit;
4)将新句子S的宏观得分Macro(S)与微观得分Micro(S)分别归一化到[0,100]范围,根据公式(5)得到总分;选择总分最高的候选句子作为输出;
Score(S)=αNorm(Macro(S))+(1-α)Norm(Micro(S)) (公式5)
其中,α为调节因子,且0<α<1;再根据实际表现调节以获取更优的效果;Norm为归一化函数,得分由公式(6)可得;
其中x表示待归一化的当前值,maxV、minV分别为x所在集合的最大值与最小值。
本发明与现有技术相比具有显著的优点和有益效果,具体体现在以下方面:
①本发明一种特定领域的语音识别文本纠错方法,选用字、词、拼音、声韵母等不同粒度和维度的基本单元构建语言模型,降低了错字导致的分词错误的干扰,扩大了纠错的适应范围;
②采用字词语言模型处理孤立的文字错乱,采用拼音语言模型辨别发音偏差导致的连续识别错误,提高识别差错的检出率;
③对错误字词替换后的候选句子采用宏观评分与微观评分综合评价,能更全面地衡量替换后句子的通顺程度和局部搭配合理性;
④在高效纠错的同时,更严格地避免了原本正确的字词被误处理;各手段的提出与创造性结合,比目前常用方法大幅降低了语音识别后文本结果的差错,提高了自然语言理解组件的准确性;在垂直领域的语音交互系统中具有较高的应用价值。
本发明的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明具体实施方式了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书中所特别指出的结构来实现和获得。
附图说明
图1:本发明的流程示意图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现详细说明具体实施方案。
本发明一种特定领域的语音识别文本纠错方法,如图1所示,包括以下步骤:
S101:使用正确的领域语料统计得到字、词级别语言模型和拼音语言模型;
在进行特定文本纠错任之前,先收集一定规模的该领域的文本材料,包括法规、制度、指南、手册等各种类型的文档;用于统计的领域语料须是不含错字、错词的正确文本,也可经过人工校对以确保语言模型统计的准确性。
采用统计方法得到所需语言模型,从而获取每个基本单元的概率,统计方法是基于n-gram的方法,或者基于循环神经网络、长短时记忆网络以及深度学习方法,语言模型的基本单元,可以是单个的字、词语、音节、声韵母或者整个拼音。对n-gram方法,n的取值在1~6之间,当n为1时,是常见的单字、单词为单位的语言模型。可以选择不同取值的模型协同使用。
采用n-gram方法时,在合理假设语料库覆盖足够多的业务范围的前提下,每个统计单元wi在这一特定领域中出现的概率P(wi)由公式(1)求得;
其中,V表示语料库中统计单元的总数,Count(wi)表示wi在语料库中出现的次数。
采用深度学习方法时,首先获取每个单元的向量表示,通过多层神经网络对上下文提取特征并建模,最后一层可获得wi出现的概率P(wi)。
以n-gram方法的统计过程为,首先确定要统计的长度n和单元gram,然后在语料中针对每个句子依次获取指定长度的单元作为统计对象,计算出每个统计对象的出现频次。
例如对于语料中的一句话:“请问现在我们已经可以正常在异地使用该医保卡了吗?”
统计2-gram的词级别模型时,句子会得到如下的片段组合:
请问现在现在我们我们已经已经可以可以正常正常在在异地异地使用使用该该医保卡医保卡了了吗吗?
统计2-gram的拼音模型时,会得到如下的片段组合:
qingwen wenxian xianzai zaiwo women menyi yijing jingke keyi yizhengzhengchang changzai zaiyi yidi dishi shiyong yonggai gaiyi yibao baoka kalelema
将这一方法应用于整个语料库,则可得到每个统计单元的出现频率。
S102:接收待纠错的文本序列,超过一句的进行分句处理;
纠错系统在接收文本序列后,如果该文本序列包含一个以上句子休止符(句号、问号、感叹号等),就以句为单位进行后续纠错步骤;否则整个序列送入后续纠错步骤。
S103:采用字、词、拼音语言模型确定疑似错误的字词,包含如下步骤:
1)将待纠错文本序列转换为拼音序列
采用文本到拼音的转换工具得到待纠错文本序列的拼音形式,例如“我妈的预报卡为什么上药店买药刷不了卡?”转换之后得到“wo ma de yu bao ka wei shen me shangyao dian mai yao shua bu liao ka”。
2)使用不同长度、粒度的拼音或文字语言模型,确定拼音序列中的罕见音节组合。
例如,使用5-gram的声韵母模型检查a)中拼音序列的合理性,其中“adeyu deyubeyubao yubaok ubaoka”几个片段的出现概率远远低于正常值以及其他片段。
采用3-gram的字级语言模型检查前述文本序列,其中“妈的预的预报预报卡报卡为”等片段的概率会显著低于正常值以及其他片段。
3)在连续出现的异常片段序列中,选取位置居中的片段作为疑似错误字词。
如果连续异常片段有奇数个,选取位置最中间的一个;如果连续异常片段有偶数个,选取位置居中两个片段的公共部分。
例如2)中使用5-gram声韵母模型检查后,eyubao为疑似错误拼音片段,对应文本序列中的“预报”被选为疑似错误字词;使用3-gram字级别语言模型检查后,选取“预报”作为一个疑似错误字词。
S104:根据语言模型词汇表与易错音字典确定疑似错误字词的候选词清单;包含如下步骤(S41与S42为准备,非每次处理纠错时的必经步骤):
S41根据收集的模糊音规律构建易错音字典。
可以以当前普遍使用的{zh:z,sh:s,ch:c,n:l,f:h,l:r,……}为基础版本,在运行过程中根据新发现的识别错误规律动态更新模糊音字典。运行一段时间后,该字典的变动会越来越小,甚至不再变动。
S42根据拼音与文字形式的n-gram词汇表,建立从拼音片段到领域字词的映射表。
这个映射表通常在统计语言模型时建立初始版本,后续随着语料库的更新而同步更新。
S43针对每个疑似错误的字词,获取其候选清单。包括如下步骤:
1)利用注音工具将其转换为声韵母组合形式;
2)在易错音字典中查询,按照易错音节的可能候选确定所有疑似发音的全排列;
例如‘e y u b ao’在易错音字典中查询。假设音节e的模糊音包括ie、ue,音节y没有模糊音,音节u的模糊音包括i、v,音节b模糊音包括p,音节ao模糊音包括iao,则所有可能的情况有3×1×3×2×2种。分别为:eyubao、eyubiao、eyibao、eyibiao、eyupao、eyupiao、eyipao、eyipiao、eyvbao、eyvbiao、eyvbao、eyvbiao……等。不过这一步获取的疑似发音有些是不存在文字n-gram与之对应的,可以考虑排除。
3)根据上一步得到的疑似发音清单,结合前面n-1个、后面n-1个字词的发音在拼音语言模型n-gram词表中查询,将前后组合均不存在的组合排除,获得候选发音清单一;
4)将候选发音清单送入n-gram语言模型词表中查询,获取对应的文字形式,即为候选清单一;
5)将该字词结合前面n-1个、后面n-1个字词在n-gram语言模型词表中查询,获得候选清单二;
6)候选清单一与候选清单二取并集,即为该字词的全部候选集合。
S105:将候选词代入原文本序列,结合宏观与微观评分选择最合理的句子输出。
1)根据每个疑似错误字词的候选集合,在句子中按照顺序做全排列,得到若干个待评分的句子集合。
例如对于包含错词的句子:“我在本地暂时没有接手单位,怎么找挂号单位给我增援?”
假设‘接手’,‘挂号’,‘增援’的候选集合分别是‘接收、接受、接手’,‘挂靠,挂号,挂失’,‘增援、增员、怎样’,则代入原文本序列并经过全排列之后,可以得到3×3×3共27个待评分的句子。
2)对于每个新句子S,基于n-gram语言模型采用公式(2)计算候选词替换后的宏观得分:
其中,n表示语言模型对应统计单元的长度,L表示句子中基本单元的个数,P(wi)表示wi在语言模型中的概率。
3)对于每个新句子S,基于互信息增益使用公式(3)计算候选词替换后的微观得分:
其中,Pos是序列中疑似错误字词所在位置的索引的集合,ci表示序列中一个疑似错误字词,i表示句子S中对应的候选词,ci-1与ci+1分别是序列中前一个与后一个基本单元,M(Ci-1,ci)表示ci与ci-1的互信息,由公式(4)求得;
其中P(x)与P(y)表示x、y各自的概率,P(x,y)是xy同时出现的概率;当log的以2为底数时,互信息的单位是bit,但底数不要求必须为2。
4)将新句子S的宏观得分Macro(S)与微观得分Micro(S)分别归一化到[0,100]范围,再根据公式(5)得到总分;选择总分最高的候选句子作为输出;
Score(S)=αNorm(Macro(S))+(1-α)Norm(Micro(S)) (公式5)
其中,α为调节因子,且0<α<1;α初始值可以为0.66,再根据实际表现调节以获取更优的效果;Norm为归一化函数,得分由公式(6)可得;
其中x表示待归一化的当前值,maxV、minV分别为x所在集合的最大值与最小值。
综上所述,本发明一种特定领域的语音识别文本纠错方法,选用字、词、拼音、声韵母等不同粒度和维度的基本单元构建语言模型,降低了错字导致的分词错误的干扰,扩大了纠错的适应范围;使用字词语言模型处理孤立的文字错乱,采用拼音语言模型辨别发音偏差导致的连续识别错误,提高识别差错的检出率;对错误字词替换后的候选句子采用宏观评分与微观评分综合评价,能更全面地衡量替换后句子的通顺程度和局部搭配合理性;在高效纠错的同时,更严格地避免了原本正确的字词被误处理;所用各方法的提出与创造性结合,比目前常用方法大幅降低了语音识别后文本结果的差错,提高了自然语言理解组件的准确性;在垂直领域的语音交互系统中具有较高的应用价值。
需要说明的是:以上所述仅为本发明的优选实施方式,并非用以限定本发明的权利范围;同时以上的描述,对于相关技术领域的专门人士应可明了及实施,因此其它未脱离本发明所揭示的精神下所完成的等效改变或修饰,均应包含在申请专利范围中。
Claims (9)
1.一种特定领域的语音识别文本纠错方法,其特征在于:包括以下步骤:
101)使用正确的领域语料统计得到字、词级别语言模型和拼音语言模型;
102)接收待纠错的文本序列,超过一句的进行分句处理;
103)使用字、词、拼音语言模型确定疑似错误的字词;
104)根据语言模型词汇表与易错音字典确定疑似错误字词的候选词清单;
105)将候选词代入原文本序列,结合宏观与微观评分选择最合理的句子输出。
2.根据权利要求1所述的一种特定领域的语音识别文本纠错方法,其特征在于:步骤101),基于n-gram方法、循环神经网络方法、长短时记忆网络方法或深度学习方法得到所需语言模型,获取每个基本单元的概率,语言模型的基本单元,为单个的字、词语、音节、声韵母或者整个拼音。
4.根据权利要求3所述的一种特定领域的语音识别文本纠错方法,其特征在于:n-gram方法,首先确定要统计的长度n和单元gram,然后在语料中针对每个句子依次获取指定长度的单元作为统计对象,计算出每个统计对象的出现频次;
应用于整个语料库,则可得到每个统计单元的出现频率。
5.根据权利要求1所述的一种特定领域的语音识别文本纠错方法,其特征在于:步骤102),接收到文本序列后,如果文本序列包含一个以上句子休止符,以句为单位进行后续纠错步骤,否则整个序列进入后续纠错步骤。
6.根据权利要求1所述的一种特定领域的语音识别文本纠错方法,其特征在于:步骤103),包含如下步骤:
1)将待纠错文本序列转换为拼音序列;
采用文本到拼音的转换工具得到待纠错文本序列的拼音形式;
2)使用不同长度、粒度的拼音或文字语言模型,确定拼音序列中的罕见音节组合;
3)在连续出现的异常片段序列中,选取位置居中的片段作为疑似错误字词;
如果连续异常片段有奇数个,选取位置最中间的一个;如果连续异常片段有偶数个,选取位置居中两个片段的公共部分。
7.根据权利要求1所述的一种特定领域的语音识别文本纠错方法,其特征在于:步骤104),包含如下步骤:
S41)根据收集的模糊音规律构建易错音字典;
S42)根据拼音与文字形式的n-gram词汇表,建立从拼音片段到领域字词的映射表;
S43)针对每个疑似错误的字词,获取其候选清单。
8.根据权利要求7所述的一种特定领域的语音识别文本纠错方法,其特征在于:步骤S43),包括如下步骤:
1)利用注音工具将其转换为声韵母组合形式;
2)在易错音字典中查询,按照易错音节的可能候选确定所有疑似发音的全排列;
3)根据上一步得到的疑似发音清单,结合前面n-1个、后面n-1个字词的发音在拼音语言模型n-gram词表中查询,将前后组合均不存在的组合排除,获得候选发音清单一;
4)将候选发音清单送入n-gram语言模型词表中查询,获取对应的文字形式,即为候选清单一;
5)将该字词结合前面n-1个、后面n-1个字词在n-gram语言模型词表中查询,获得候选清单二;
6)候选清单一与候选清单二取并集,即为该字词的全部候选集合。
9.根据权利要求1所述的一种特定领域的语音识别文本纠错方法,其特征在于:步骤105),包含如下步骤:
1)根据每个疑似错误字词的候选集合,在句子中按照顺序做全排列,得到若干个待评分的句子集合;
2)对于每个新句子S,基于n-gram语言模型采用公式(2)计算候选词替换后的宏观得分:
其中,n表示语言模型对应统计单元的长度,L表示句子中基本单元的个数,P(wi)表示wi在语言模型中的概率;
3)对于每个新句子S,基于互信息增益采用公式(3)计算候选词替换后的微观得分:
其中,Pos是序列中疑似错误字词所在位置的索引的集合,ci表示序列中一个疑似错误字词,i表示句子S中对应的候选词,ci-1与ci+1分别是序列中前一个与后一个基本单元;M(Ci-1,ci)表示ci与ci-1的互信息,由公式(4)求得;
其中P(x)与P(y)表示x、y各自的概率,P(x,y)是xy同时出现的概率;当log的以2为底数时,互信息的单位是bit;
4)将新句子S的宏观得分Macro(S)与微观得分Micro(S)分别归一化到[0,100]范围,根据公式(5)得到总分;选择总分最高的候选句子作为输出;
Score(S)=αNorm(Macro(S))+(1-α)Norm(Micro(S)) (公式5)
其中,α为调节因子,且0<α<1;再根据实际表现调节以获取更优的效果;Norm为归一化函数,得分由公式(6)可得;
其中x表示待归一化的当前值,maxV、minV分别为x所在集合的最大值与最小值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010113318.6A CN111369996B (zh) | 2020-02-24 | 2020-02-24 | 一种特定领域的语音识别文本纠错方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010113318.6A CN111369996B (zh) | 2020-02-24 | 2020-02-24 | 一种特定领域的语音识别文本纠错方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111369996A true CN111369996A (zh) | 2020-07-03 |
CN111369996B CN111369996B (zh) | 2023-08-18 |
Family
ID=71208168
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010113318.6A Active CN111369996B (zh) | 2020-02-24 | 2020-02-24 | 一种特定领域的语音识别文本纠错方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111369996B (zh) |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111859921A (zh) * | 2020-07-08 | 2020-10-30 | 金蝶软件(中国)有限公司 | 文本纠错方法、装置、计算机设备和存储介质 |
CN111985234A (zh) * | 2020-09-08 | 2020-11-24 | 四川长虹电器股份有限公司 | 语音文本纠错方法 |
CN112016304A (zh) * | 2020-09-03 | 2020-12-01 | 平安科技(深圳)有限公司 | 文本纠错方法、装置、电子设备及存储介质 |
CN112149406A (zh) * | 2020-09-25 | 2020-12-29 | 中国电子科技集团公司第十五研究所 | 一种中文文本纠错方法及系统 |
CN112232055A (zh) * | 2020-10-28 | 2021-01-15 | 中国电子科技集团公司第二十八研究所 | 一种基于拼音相似度与语言模型的文本检测与纠正方法 |
CN112307183A (zh) * | 2020-10-30 | 2021-02-02 | 北京金堤征信服务有限公司 | 搜索数据识别方法、装置、电子设备以及计算机存储介质 |
CN112331208A (zh) * | 2020-09-30 | 2021-02-05 | 音数汇元(上海)智能科技有限公司 | 人身安全监控方法、装置、电子设备和存储介质 |
CN112489655A (zh) * | 2020-11-18 | 2021-03-12 | 元梦人文智能国际有限公司 | 一种特定领域的语音识别文本纠错方法、系统和存储介质 |
CN112509581A (zh) * | 2020-11-20 | 2021-03-16 | 北京有竹居网络技术有限公司 | 语音识别后文本的纠错方法、装置、可读介质和电子设备 |
CN112528663A (zh) * | 2020-12-18 | 2021-03-19 | 中国南方电网有限责任公司 | 一种电网领域调度场景下的文本纠错方法及系统 |
CN112560493A (zh) * | 2020-12-17 | 2021-03-26 | 金蝶软件(中国)有限公司 | 命名实体纠错方法、装置、计算机设备和存储介质 |
CN112580324A (zh) * | 2020-12-24 | 2021-03-30 | 北京百度网讯科技有限公司 | 文本纠错方法、装置、电子设备以及存储介质 |
CN112735428A (zh) * | 2020-12-27 | 2021-04-30 | 科大讯飞(上海)科技有限公司 | 一种热词获取方法、语音识别方法及相关设备 |
CN112767924A (zh) * | 2021-02-26 | 2021-05-07 | 北京百度网讯科技有限公司 | 语音识别方法、装置、电子设备及存储介质 |
CN112836493A (zh) * | 2020-12-04 | 2021-05-25 | 国家计算机网络与信息安全管理中心 | 一种转写文本校对方法及存储介质 |
CN112926306A (zh) * | 2021-03-08 | 2021-06-08 | 北京百度网讯科技有限公司 | 文本纠错方法、装置、设备以及存储介质 |
CN112966496A (zh) * | 2021-05-19 | 2021-06-15 | 灯塔财经信息有限公司 | 一种基于拼音特征表征的中文纠错方法及系统 |
CN113033185A (zh) * | 2021-05-28 | 2021-06-25 | 中国电子技术标准化研究院 | 标准文本纠错方法、装置、电子设备和存储介质 |
CN113225612A (zh) * | 2021-04-14 | 2021-08-06 | 新东方教育科技集团有限公司 | 字幕生成方法、装置、计算机可读存储介质及电子设备 |
CN113223509A (zh) * | 2021-04-28 | 2021-08-06 | 华南理工大学 | 一种应用于多人混杂场景下的模糊语句识别方法及系统 |
CN113705203A (zh) * | 2021-09-02 | 2021-11-26 | 上海极链网络科技有限公司 | 文本纠错方法、装置、电子设备及计算机可读存储介质 |
CN113779972A (zh) * | 2021-09-10 | 2021-12-10 | 平安科技(深圳)有限公司 | 语音识别纠错方法、系统、装置及存储介质 |
CN113948065A (zh) * | 2021-09-01 | 2022-01-18 | 北京数美时代科技有限公司 | 基于n-gram模型的错误拦截词筛选方法及系统 |
WO2022012687A1 (zh) * | 2020-07-17 | 2022-01-20 | 武汉联影医疗科技有限公司 | 医疗数据处理方法与系统 |
CN117763153A (zh) * | 2024-02-22 | 2024-03-26 | 大汉软件股份有限公司 | 一种专题语料发现新词的方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017084506A1 (zh) * | 2015-11-17 | 2017-05-26 | 华为技术有限公司 | 搜索查询词纠错方法和装置 |
CN107045496A (zh) * | 2017-04-19 | 2017-08-15 | 畅捷通信息技术股份有限公司 | 语音识别后文本的纠错方法及纠错装置 |
CN107741928A (zh) * | 2017-10-13 | 2018-02-27 | 四川长虹电器股份有限公司 | 一种基于领域识别的对语音识别后文本纠错的方法 |
CN108959250A (zh) * | 2018-06-27 | 2018-12-07 | 众安信息技术服务有限公司 | 一种基于语言模型和词特征的纠错方法及其系统 |
WO2019153996A1 (zh) * | 2018-02-09 | 2019-08-15 | 叶伟 | 一种语音识别文本纠错方法及装置 |
CN110210029A (zh) * | 2019-05-30 | 2019-09-06 | 浙江远传信息技术股份有限公司 | 基于垂直领域的语音文本纠错方法、系统、设备及介质 |
-
2020
- 2020-02-24 CN CN202010113318.6A patent/CN111369996B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017084506A1 (zh) * | 2015-11-17 | 2017-05-26 | 华为技术有限公司 | 搜索查询词纠错方法和装置 |
CN107045496A (zh) * | 2017-04-19 | 2017-08-15 | 畅捷通信息技术股份有限公司 | 语音识别后文本的纠错方法及纠错装置 |
CN107741928A (zh) * | 2017-10-13 | 2018-02-27 | 四川长虹电器股份有限公司 | 一种基于领域识别的对语音识别后文本纠错的方法 |
WO2019153996A1 (zh) * | 2018-02-09 | 2019-08-15 | 叶伟 | 一种语音识别文本纠错方法及装置 |
CN108959250A (zh) * | 2018-06-27 | 2018-12-07 | 众安信息技术服务有限公司 | 一种基于语言模型和词特征的纠错方法及其系统 |
CN110210029A (zh) * | 2019-05-30 | 2019-09-06 | 浙江远传信息技术股份有限公司 | 基于垂直领域的语音文本纠错方法、系统、设备及介质 |
Cited By (44)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111859921B (zh) * | 2020-07-08 | 2024-03-08 | 金蝶软件(中国)有限公司 | 文本纠错方法、装置、计算机设备和存储介质 |
CN111859921A (zh) * | 2020-07-08 | 2020-10-30 | 金蝶软件(中国)有限公司 | 文本纠错方法、装置、计算机设备和存储介质 |
WO2022012687A1 (zh) * | 2020-07-17 | 2022-01-20 | 武汉联影医疗科技有限公司 | 医疗数据处理方法与系统 |
CN112016304A (zh) * | 2020-09-03 | 2020-12-01 | 平安科技(深圳)有限公司 | 文本纠错方法、装置、电子设备及存储介质 |
CN111985234A (zh) * | 2020-09-08 | 2020-11-24 | 四川长虹电器股份有限公司 | 语音文本纠错方法 |
CN111985234B (zh) * | 2020-09-08 | 2022-02-01 | 四川长虹电器股份有限公司 | 语音文本纠错方法 |
CN112149406A (zh) * | 2020-09-25 | 2020-12-29 | 中国电子科技集团公司第十五研究所 | 一种中文文本纠错方法及系统 |
CN112149406B (zh) * | 2020-09-25 | 2023-09-08 | 中国电子科技集团公司第十五研究所 | 一种中文文本纠错方法及系统 |
CN112331208A (zh) * | 2020-09-30 | 2021-02-05 | 音数汇元(上海)智能科技有限公司 | 人身安全监控方法、装置、电子设备和存储介质 |
CN112232055A (zh) * | 2020-10-28 | 2021-01-15 | 中国电子科技集团公司第二十八研究所 | 一种基于拼音相似度与语言模型的文本检测与纠正方法 |
CN112307183A (zh) * | 2020-10-30 | 2021-02-02 | 北京金堤征信服务有限公司 | 搜索数据识别方法、装置、电子设备以及计算机存储介质 |
CN112307183B (zh) * | 2020-10-30 | 2024-04-19 | 北京金堤征信服务有限公司 | 搜索数据识别方法、装置、电子设备以及计算机存储介质 |
CN112489655B (zh) * | 2020-11-18 | 2024-04-19 | 上海元梦智能科技有限公司 | 一种特定领域的语音识别文本纠错方法、系统和存储介质 |
CN112489655A (zh) * | 2020-11-18 | 2021-03-12 | 元梦人文智能国际有限公司 | 一种特定领域的语音识别文本纠错方法、系统和存储介质 |
CN112509581A (zh) * | 2020-11-20 | 2021-03-16 | 北京有竹居网络技术有限公司 | 语音识别后文本的纠错方法、装置、可读介质和电子设备 |
CN112509581B (zh) * | 2020-11-20 | 2024-03-01 | 北京有竹居网络技术有限公司 | 语音识别后文本的纠错方法、装置、可读介质和电子设备 |
CN112836493A (zh) * | 2020-12-04 | 2021-05-25 | 国家计算机网络与信息安全管理中心 | 一种转写文本校对方法及存储介质 |
CN112836493B (zh) * | 2020-12-04 | 2023-03-14 | 国家计算机网络与信息安全管理中心 | 一种转写文本校对方法及存储介质 |
CN112560493A (zh) * | 2020-12-17 | 2021-03-26 | 金蝶软件(中国)有限公司 | 命名实体纠错方法、装置、计算机设备和存储介质 |
CN112560493B (zh) * | 2020-12-17 | 2024-04-30 | 金蝶软件(中国)有限公司 | 命名实体纠错方法、装置、计算机设备和存储介质 |
CN112528663B (zh) * | 2020-12-18 | 2024-02-20 | 中国南方电网有限责任公司 | 一种电网领域调度场景下的文本纠错方法及系统 |
CN112528663A (zh) * | 2020-12-18 | 2021-03-19 | 中国南方电网有限责任公司 | 一种电网领域调度场景下的文本纠错方法及系统 |
CN112580324A (zh) * | 2020-12-24 | 2021-03-30 | 北京百度网讯科技有限公司 | 文本纠错方法、装置、电子设备以及存储介质 |
CN112580324B (zh) * | 2020-12-24 | 2023-07-25 | 北京百度网讯科技有限公司 | 文本纠错方法、装置、电子设备以及存储介质 |
CN112735428A (zh) * | 2020-12-27 | 2021-04-30 | 科大讯飞(上海)科技有限公司 | 一种热词获取方法、语音识别方法及相关设备 |
US11842726B2 (en) | 2021-02-26 | 2023-12-12 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method, apparatus, electronic device and storage medium for speech recognition |
CN112767924A (zh) * | 2021-02-26 | 2021-05-07 | 北京百度网讯科技有限公司 | 语音识别方法、装置、电子设备及存储介质 |
CN112926306A (zh) * | 2021-03-08 | 2021-06-08 | 北京百度网讯科技有限公司 | 文本纠错方法、装置、设备以及存储介质 |
CN112926306B (zh) * | 2021-03-08 | 2024-01-23 | 北京百度网讯科技有限公司 | 文本纠错方法、装置、设备以及存储介质 |
CN113225612A (zh) * | 2021-04-14 | 2021-08-06 | 新东方教育科技集团有限公司 | 字幕生成方法、装置、计算机可读存储介质及电子设备 |
CN113225612B (zh) * | 2021-04-14 | 2022-10-11 | 新东方教育科技集团有限公司 | 字幕生成方法、装置、计算机可读存储介质及电子设备 |
CN113223509B (zh) * | 2021-04-28 | 2022-06-10 | 华南理工大学 | 一种应用于多人混杂场景下的模糊语句识别方法及系统 |
CN113223509A (zh) * | 2021-04-28 | 2021-08-06 | 华南理工大学 | 一种应用于多人混杂场景下的模糊语句识别方法及系统 |
CN112966496A (zh) * | 2021-05-19 | 2021-06-15 | 灯塔财经信息有限公司 | 一种基于拼音特征表征的中文纠错方法及系统 |
CN113033185B (zh) * | 2021-05-28 | 2021-08-10 | 中国电子技术标准化研究院 | 标准文本纠错方法、装置、电子设备和存储介质 |
CN113033185A (zh) * | 2021-05-28 | 2021-06-25 | 中国电子技术标准化研究院 | 标准文本纠错方法、装置、电子设备和存储介质 |
CN113948065B (zh) * | 2021-09-01 | 2022-07-08 | 北京数美时代科技有限公司 | 基于n-gram模型的错误拦截词筛选方法及系统 |
CN113948065A (zh) * | 2021-09-01 | 2022-01-18 | 北京数美时代科技有限公司 | 基于n-gram模型的错误拦截词筛选方法及系统 |
CN113705203A (zh) * | 2021-09-02 | 2021-11-26 | 上海极链网络科技有限公司 | 文本纠错方法、装置、电子设备及计算机可读存储介质 |
CN113779972A (zh) * | 2021-09-10 | 2021-12-10 | 平安科技(深圳)有限公司 | 语音识别纠错方法、系统、装置及存储介质 |
CN113779972B (zh) * | 2021-09-10 | 2023-09-15 | 平安科技(深圳)有限公司 | 语音识别纠错方法、系统、装置及存储介质 |
WO2023035525A1 (zh) * | 2021-09-10 | 2023-03-16 | 平安科技(深圳)有限公司 | 语音识别纠错方法、系统、装置及存储介质 |
CN117763153A (zh) * | 2024-02-22 | 2024-03-26 | 大汉软件股份有限公司 | 一种专题语料发现新词的方法及系统 |
CN117763153B (zh) * | 2024-02-22 | 2024-04-30 | 大汉软件股份有限公司 | 一种专题语料发现新词的方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111369996B (zh) | 2023-08-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111369996B (zh) | 一种特定领域的语音识别文本纠错方法 | |
CN112149406B (zh) | 一种中文文本纠错方法及系统 | |
CN109887497B (zh) | 语音识别的建模方法、装置及设备 | |
CN110046350B (zh) | 文法错误识别方法、装置、计算机设备及存储介质 | |
CN110517663B (zh) | 一种语种识别方法及识别系统 | |
US7421387B2 (en) | Dynamic N-best algorithm to reduce recognition errors | |
US7383172B1 (en) | Process and system for semantically recognizing, correcting, and suggesting domain specific speech | |
US6836760B1 (en) | Use of semantic inference and context-free grammar with speech recognition system | |
US6738741B2 (en) | Segmentation technique increasing the active vocabulary of speech recognizers | |
CN101261623A (zh) | 基于搜索的无词边界标记语言的分词方法以及装置 | |
CN112183094B (zh) | 一种基于多元文本特征的中文语法查错方法及系统 | |
Kirchhoff et al. | Cross-dialectal data sharing for acoustic modeling in Arabic speech recognition | |
CN114580382A (zh) | 文本纠错方法以及装置 | |
JP2005084681A (ja) | 意味的言語モデル化および信頼性測定のための方法およびシステム | |
CN105957518A (zh) | 一种蒙古语大词汇量连续语音识别的方法 | |
CN105404621A (zh) | 一种用于盲人读取汉字的方法及系统 | |
Gallwitz et al. | Integrated recognition of words and prosodic phrase boundaries | |
CN111651978A (zh) | 基于实体的词法检查方法与装置和计算机设备及存储介质 | |
CN112580340A (zh) | 逐字歌词生成方法及装置、存储介质和电子设备 | |
CN111489746A (zh) | 一种基于bert的电网调度语音识别语言模型构建方法 | |
CN112216284B (zh) | 训练数据更新方法及系统、语音识别方法及系统、设备 | |
US20050187767A1 (en) | Dynamic N-best algorithm to reduce speech recognition errors | |
CN113449514A (zh) | 一种适用于特定垂直领域的文本纠错方法及其纠错装置 | |
CN117292680A (zh) | 一种基于小样本合成的输电运检的语音识别的方法 | |
Palmer et al. | Robust information extraction from automatically generated speech transcriptions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |