CN112447172B - 一种语音识别文本的质量提升方法和装置 - Google Patents

一种语音识别文本的质量提升方法和装置 Download PDF

Info

Publication number
CN112447172B
CN112447172B CN201910739528.3A CN201910739528A CN112447172B CN 112447172 B CN112447172 B CN 112447172B CN 201910739528 A CN201910739528 A CN 201910739528A CN 112447172 B CN112447172 B CN 112447172B
Authority
CN
China
Prior art keywords
word
error
model
gram
error detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910739528.3A
Other languages
English (en)
Other versions
CN112447172A (zh
Inventor
葛懿
赵维峥
郑黎
吴泽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yunhao Beijing Technology Co ltd
Original Assignee
Yunhao Beijing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yunhao Beijing Technology Co ltd filed Critical Yunhao Beijing Technology Co ltd
Priority to CN201910739528.3A priority Critical patent/CN112447172B/zh
Publication of CN112447172A publication Critical patent/CN112447172A/zh
Application granted granted Critical
Publication of CN112447172B publication Critical patent/CN112447172B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施方式公开了一种语音识别文本的质量提升方法和装置。该方法包括:获取语音识别文本,将所述语音识别文本平行输入N‑gram检错模型和长短期记忆(LSTM)检错模型;使能N‑gram检错模型对所述语音识别文本检错以确定第一错误词语,使能LSTM检错模型对所述语音识别文本检错以确定第二错误词语;融合N‑gram检错模型输出的第一错误词语和LSTM检错模型输出的第二错误词语,以获取融合后错误词语;基于依存句法分析方式对所述融合后错误词语执行纠错。引入了上下文信息,扩展了检错范围,提高了检错精度。

Description

一种语音识别文本的质量提升方法和装置
技术领域
本发明涉及语音识别与文本纠错技术领域,尤其涉及一种语音识别文本的质量提升方法和装置。
背景技术
语音识别结果的纠错是语音理解过程中的一项重要工作。受限于语音识别的准确性,语音识别的结果经常会出现错误,这将对语音理解的后续工作造成障碍,增加了语音理解的难度。在语音识别结果纠错处理中,可以对一些识别的错误结果进行纠正,从而提高语音理解的准确性。
目前,用于语音识别结果纠正的方法较多,但还没有一个主流的方法。大多数的语音识别后修正的研究基于词的识别结果概率信息的统计方法。其中有代表性的方法以n元语法(n-gram)模型为基础。
然而,n-gram模型是无记忆性的,不能利用上下文的信息,检错精度不高。
发明内容
本发明实施例提出一种语音识别文本的质量提升方法和装置。
本发明实施例的技术方案如下:
一种语音识别文本的质量提升方法,该方法包括:
获取语音识别文本,将所述语音识别文本平行输入N-gram检错模型和长短期记忆(LSTM)检错模型;
使能N-gram检错模型对所述语音识别文本检错以确定第一错误词语,使能LSTM检错模型对所述语音识别文本检错以确定第二错误词语;
融合N-gram检错模型输出的第一错误词语和LSTM检错模型输出的第二错误词语,以获取融合后错误词语;
基于依存句法分析方式对所述融合后错误词语执行纠错。
在一个实施方式中,所述N-gram检错模型包括:训练数据为与领域无关语料的通用模型以及训练数据为与当前业务相关语料的专用模型。
在一个实施方式中,所述通用模型包括2-gram通用模型和3-gram通用模型,所述专用模型包括2-gram专用模型和3-gram专用模型;
其中当所述语音识别文本中的词语经过2-gram通用模型后的第一分数、经过3-gram通用模型后第二分数、经过2-gram专用模型后的第三分数和经过3-gram专用模型后的第四分数都低于预定门限值时,确定所述词语出错。
在一个实施方式中,所述LSTM检错模型是基于字级语言模型建立的。
在一个实施方式中,在使能LSTM检错模型对所述语音识别文本检错以确定第二错误词语之后,该方法还包括:
使能LSTM检错模型确定用于替换第二错误词语的第一备选词;
其中所述基于依存句法分析方式对所述融合后错误词语执行纠错包括:
基于依存句法分析方式确定所述第二错误词语的第二备选词;
利用所述第一备选词在语音识别文本中替换所述第二错误词语,并确定替换后的所述第一备选词经过N-gram检错模型后的第五分数;
利用所述第二备选词在语音识别文本中替换所述第二错误词语,并确定替换后的所述第二备选词经过N-gram检错模型后的第六分数;
当第五分数大于第六分数时,选择第一备选词作为目标备选词,当第五分数小于第六分数时,选择第二备选词作为目标备选词;
利用所述目标备选词在语音识别文本中替换所述第二错误词语,并计算替换之前的句子流畅度和替换之后的句子流畅度,其中当替换之后的句子流畅度大于替换之前的句子流畅度时,输出所述目标备选词在语音识别文本中替换所述第二错误词语的输出结果。
一种语音识别文本的质量提升装置,该装置包括:
输入模块,用于获取语音识别文本,将所述语音识别文本平行输入N-gram检错模型和长短期记忆LSTM检错模型;
检错模块,用于使能N-gram检错模型对所述语音识别文本检错以确定第一错误词语,使能LSTM检错模型对所述语音识别文本检错以确定第二错误词语;
融合模块,用于融合N-gram检错模型输出的第一错误词语和LSTM检错模型输出的第二错误词语,以获取融合后错误词语;
纠错模块,用于基于依存句法分析方式对所述融合后错误词语执行纠错。
在一个实施方式中,所述N-gram检错模型包括:训练数据为与领域无关语料的通用模型以及训练数据为与当前业务相关语料的专用模型。
在一个实施方式中,所述通用模型包括2-gram通用模型和3-gram通用模型,所述专用模型包括2-gram专用模型和3-gram专用模型;
其中当所述语音识别文本中的词语经过2-gram通用模型后的第一分数、经过3-gram通用模型后第二分数、经过2-gram专用模型后的第三分数和经过3-gram专用模型后的第四分数都低于预定门限值时,确定所述词语出错。
在一个实施方式中,所述LSTM检错模型是基于字级语言模型建立的。
在一个实施方式中,所述检错模块,在使能LSTM检错模型对所述语音识别文本检错以确定第二错误词语之后,还用于使能LSTM检错模型确定用于替换第二错误词语的第一备选词;
纠错模块,用于基于依存句法分析方式确定所述第二错误词语的第二备选词;利用所述第一备选词在语音识别文本中替换所述第二错误词语,并确定替换后的所述第一备选词经过N-gram检错模型后的第五分数;利用所述第二备选词在语音识别文本中替换所述第二错误词语,并确定替换后的所述第二备选词经过N-gram检错模型后的第六分数;当第五分数大于第六分数时,选择第一备选词作为目标备选词,当第五分数小于第六分数时,选择第二备选词作为目标备选词;利用所述目标备选词在语音识别文本中替换所述第二错误词语,并计算替换之前的句子流畅度和替换之后的句子流畅度,其中当替换之后的句子流畅度大于替换之前的句子流畅度时,输出所述目标备选词在语音识别文本中替换所述第二错误词语的输出结果。
一种语音识别文本的质量提升装置,包括:
存储器;以及耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行如上任一项所述的方法。
一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如上任一项所述的方法。
从上述技术方案可以看出,本发明实施方式中,该方法包括:获取语音识别文本,将所述语音识别文本平行输入N-gram检错模型和LSTM检错模型;使能N-gram检错模型对所述语音识别文本检错以确定第一错误词语,使能LSTM检错模型对所述语音识别文本检错以确定第二错误词语;融合N-gram检错模型输出的第一错误词语和LSTM检错模型输出的第二错误词语,以获取融合后错误词语;基于依存句法分析方式对所述融合后错误词语执行纠错。可见,本发明实施方式在检错过程中采用了统计语言模型与深度语言模型联合检错的方法,引入了上下文信息,扩展了检错范围,提高了检错精度。
同时,N-gram检错模型同时训练了通用语言模型和专用领域语言模型,兼顾了模型的泛用性和专业性。
另外,在纠错过程中,引入词语搭配库,结合编辑距离和LCS加权的评判标准,有利于精准生成备选词集。同时纠错的结果使用语言模型进行评价,整体把控纠错结果的质量。
附图说明
图1为根据本发明实施方式语音识别文本的质量提升方法的流程图。
图2为根据本发明实施方式n-gram模型检测错误的流程图。
图3为根据本发明实施方式LSTM模型检测错误时的分词、索引和嵌入流程图。
图4为根据本发明实施方式LSTM模型检测错误的流程图。
图5为根据本发明实施方式基于上下文信息的问答系统的处理流程图。
图6为根据本发明实施方式基于上下文信息的问答系统的架构图。
图7为根据本发明实施方式问答系统中语音识别文本的质量提升方法的流程图。
图8为根据本发明实施方式问答系统中语音识别文本的质量提升方法的流程序列图。
图9为根据本发明实施方式语音识别文本的质量提升装置的结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步的详细描述。
为了描述上的简洁和直观,下文通过描述若干代表性的实施方式来对本发明的方案进行阐述。实施方式中大量的细节仅用于帮助理解本发明的方案。但是很明显,本发明的技术方案实现时可以不局限于这些细节。为了避免不必要地模糊了本发明的方案,一些实施方式没有进行细致地描述,而是仅给出了框架。下文中,“包括”是指“包括但不限于”,“根据……”是指“至少根据……,但不限于仅根据……”。由于汉语的语言习惯,下文中没有特别指出一个成分的数量时,意味着该成分可以是一个也可以是多个,或可理解为至少一个。
在本发明实施方式中,通过对领域内文本进行建模,利用文本的上下文信息,识别错误发生的位置并给出纠正答案,有效识别问题的内容,检错精度获得提升,尤其可以使得使问答系统的智能程度与准确性得到有效提升。
尤其是,本发明实施方式的提出的基于上下文信息的问答语音文本质量提升方法,可以用于问答系统中语音识别结果的进一步处理,纠正语音识别结果中可能出现的错误,提升问答系统的准确率和智能程度,提高问答系统的可用性。
图1为根据本发明实施方式语音识别文本的质量提升方法的流程图。
如图1所示,该方法包括:
步骤101:获取语音识别文本,将所述语音识别文本平行输入N-gram检错模型和LSTM检错模型。
在这里,将所述语音识别文本平行输入N-gram检错模型和长短期记忆LSTM检错模型的含义是:将语音识别文本并行地输入N-gram检错模型和长短期记忆LSTM检错模型。或者说,N-gram检错模型和长短期记忆LSTM检错模型是两个并行独立的检错模型,并具有共同的输入来源:语音识别文本。
步骤102:使能N-gram检错模型对所述语音识别文本检错以确定第一错误词语,使能LSTM检错模型对所述语音识别文本检错以确定第二错误词语。
步骤103:融合N-gram检错模型输出的第一错误词语和LSTM检错模型输出的第二错误词语,以获取融合后错误词语。
在这里,融合N-gram检错模型输出的第一错误词语和LSTM检错模型输出的第二错误词语,以获取融合后错误词语的含义是:将N-gram检错模型输出的第一错误词语和LSTM检错模型输出的第二错误词语汇总,汇总结果即为融合后错误词语。比如,第一错误词语包括词语A、词语B和词语C,第二错误词语包括词语C、词语D和词语E,则融合后错误词语包括:词语A、词语B、词语C、词语D和词语E。
步骤104:基于依存句法分析方式对所述融合后错误词语执行纠错。
优选地,N-gram检错模型包括:训练数据为与领域无关语料的通用模型以及训练数据为与语音识别文本的当前业务相关的语料的专用模型。更优选地,通用模型包括2-gram通用模型和3-gram通用模型,所述专用模型包括2-gram专用模型和3-gram专用模型;其中当所述语音识别文本中的词语经过2-gram通用模型后的第一分数、经过3-gram通用模型后第二分数、经过2-gram专用模型后的第三分数和经过3-gram专用模型后的第四分数都低于预定门限值时,确定所述词语出错。
可见,在本发明实施方式中,文本检错包含n-gram模型检错算法和LSTM模型检错算法,融合这两个算法对输入文本的检错结果,再将融合后的检错结果输入到纠错模块,在纠错模块中利用依存句法纠错算法对错误部分做进一步的纠正处理。
图2为根据本发明实施方式n-gram模型检测错误的流程图。
n-gram模型检错算法主要包括:
(1)语料预处理:
获取语料库(比如问答系统)中的历史文本,并做分词处理。分词之后,获取语料中的全体词语以及每个词的频率。根据词频进行适当的删减,如删除大量只出现几次的自造词、语气词或罕见词,以节省计算内存并减少需要计算的参数;将频率过高的停用词替换成统一的标签,防止停用词对模型造成影响。文本中可能包含各种数字,虽然数值各异,但是它们前后可以连接的词是接近的,因此用正则表达式匹配的方式将数字替换为星号以去除不同数字相同模式的影响,然后对句子进行裁剪:n-gram模型本身就无法捕获长距离的语义错误,因此直接根据逗号、句号、问号等明显分割句子的标点符号进行句子切分,将长句子划分成若干个短句子,而后以短句子为单位检测错误。
(2)n-gram模型构建
完成了对预料的预处理后,进行n-gram模型的构建。考虑到问答系统等优选应用环境中可能存在较多专有名词,构造通用领域的n-gram模型以及专业领域的n-gram模型。因为是以短句子为段位进行检错,因此选择2-gram与3-gram模型较为合适,最后分别得到2个普通领域和专业领域的n-gram模型。
(3)n-gram模型错误检测
获取当前的语音识别得到的文本,也就是待检测句子。用预料预处理步骤中同样的分词方法和断句方法对待检测句子分词和断句,然后扫描一遍句子获取词语对列表,例如句子“要增进有意夸大合作”,2-gram的词语对列表就是:[要,增进],[增进,友谊],[有意,夸大],[夸大,合作]。同理可得3-gram的词语对列表。
将词语对列表分别导入两个n-gram模型,得到两个模型的2-gram和3-gram分数,总共四个分数,若四个分数均低于某个阈值,则认为该词出错。
得到了模型认为出错的词语后,记录原本句子的id,大句子分割成的小句子的错误词语索引及词语本身,以及词语的2-gram,3-gram分数。
在一个实施方式中,LSTM检错模型是基于字级语言模型建立的。
LSTM构造的语言模型和n-gram语言模型本源是一样的,均为通过前面的文本获取下一字或词的概率,但是n-gram是基于统计的,只能人为设定有限的n,而LSTM能够结合上下文信息,综合一个词前面所有词的信息给出概率。
LSTM检错算法主要包括:
(1)词表构建与词嵌入
因为中文没有空格区分,因此需要进行分词的操作,然而因为中文的多义性,分词的结果可能会引入额外的错误使得模型产生偏差,而字级粒度可以很好地防止分词错误的问题。
利用分词阶段产生的“词”->“索引”表,把句子中的词替换成索引,同时完成对句子的padding,以解决句子一般不是等长而矩阵要求每行元素等长的矛盾。因为神经网络模型只能处理数字,为了将字和词语转换成神经网络模型可以处理的向量,需要先将它们转成索引,而后通过“索引”->“向量”矩阵直接查到对应的embedding向量。同时构造反转表:“索引”->“词”,根据索引查询到词的字符表示。
词表构建完成后,将字词转化成向量。意义相近的字词具有相似的向量,有利于模型习得语言的规律。
图3为根据本发明实施方式LSTM模型检测错误时的分词、索引和嵌入流程图。
(2)LSTM模型构建
对语言模型进行建模,LSTM每阶段产生两个向量:hidden state和output,称为模型的隐藏状态和输出。因hidden state中包含从开始到最后语言模型的记忆,所以我们选择使用final hidden state,即模型最终的隐藏状态作为模型构建阶段的输出,使用hidden state实际上就是将前面所有词的信息(有些信息会被模型遗忘,有些则会被记忆)用一个向量表示,而后利用这个向量进行下游的检错和纠错任务
(3)LSTM模型检、纠错
把hidden state作为特征进行词表大小的概率预测,根据索引查找对应词的概率,并和阈值比较判定是否认为出错,置信度低于阈值词具有错误的可能。这一步同样可以做错误词语的纠正,从词表中选取预测概率最高的词语,作为替换原来的词语的备选答案
图4为根据本发明实施方式LSTM模型检测错误的流程图。
在一个实施方式中,在使能LSTM检错模型对所述语音识别文本检错以确定第二错误词语之后,该方法还包括:
使能LSTM检错模型确定用于替换第二错误词语的第一备选词;其中所述基于依存句法分析方式对所述融合后错误词语执行纠错包括:基于依存句法分析方式确定所述第二错误词语的第二备选词;利用所述第一备选词在语音识别文本中替换所述第二错误词语,并确定替换后的所述第一备选词经过N-gram检错模型后的第五分数;利用所述第二备选词在语音识别文本中替换所述第二错误词语,并确定替换后的所述第二备选词经过N-gram检错模型后的第六分数;当第五分数大于第六分数时,选择第一备选词作为目标备选词,当第五分数小于第六分数时,选择第二备选词作为目标备选词;利用所述目标备选词在语音识别文本中替换所述第二错误词语,并计算替换之前的句子流畅度和替换之后的句子流畅度,其中当替换之后的句子流畅度大于替换之前的句子流畅度时,输出所述目标备选词在语音识别文本中替换所述第二错误词语的输出结果。
关于依存句法纠错的详细描述:
依存句法通过分析词语间的依存关系揭示句子的结构,识别出句子中的主谓宾、定状补等语法成分并分析各个成分之间的关系。除了解析句子并划分结构之外,还能够找到句子的核心词并且利用编辑距离和最长公共字串分析词语之间的语义距离。
在获得错误词语之后,根据词语搭配和拼音相似度来纠正词语。
(1)首先要获取词语搭配,通过依存句法在语料中提取词语搭配。将词语搭配文件导入哈希表中,每个前驱词都对应一个备选词集,词集中的词是通常接在前驱词后面的词。
(2)获得词语搭配之后,获取拼音并计算相似度。纠正步骤如下:
(2.1)首先,获取待纠正词语以及词语搭配表的拼音;
(2.2)根据待检测语料以及错误词语的索引获取错误词语的前一个词,查询搭配表得到备选词集;
(2.3)将错误词语的拼音和备选词集每个词的拼音求编辑距离和LCS的加权分数,取超过阈值的前几个词语进行观察;
(2.4)将备选词替换疑似错误词并代回n-gram模型中进行分数比较,取分数高者保存。
可见,本发明实施方式中,通过对领域文本的学习,获取字词之间搭配和连接的规律,建立n元语法模型与LSTM神经网络模型这两个语言模型。其中,LSTM神经网络模型既可以用于错误的检测,也可以用于错误的纠正,二者结合可以取长补短,提高错误的识别率和纠错的成功率。而且,在本发明实施方式中,在定位错误位置之后,利用检错阶段建立的语言模型,结合依存句法技术,找到最可能还原句子本来意思的纠错答案。该方法充分利用句子的长短期上下文信息,对传统的基于统计的检纠错模型进行改进,对误识别文本的识别率和改正率更高,为提供优质的问答提供良好的条件。
优选地,可以将本发明实施方式应用到问答系统(Question Answering System,QA)中。
QA系统是信息检索系统的一种高级形式,它能用准确、简洁的自然语言回答用户用自然语言提出的问题。其研究兴起的主要原因是人们对快速、准确地获取信息的需求。问答系统是目前人工智能和自然语言处理领域中一个倍受关注并具有广泛发展前景的研究方向。
在问答系统中,正确识别问题是得到相对合理的答案的前提条件,这也是本发明实施方式所着重关注的问题。将问题正确识别后系统得到对应回答的部分简化,主要关注问题的识别。
图5为根据本发明实施方式基于上下文信息的问答系统的处理流程图。图6为根据本发明实施方式基于上下文信息的问答系统的架构图。
在图5和图6中:
问题录入模块,用于将用户提问的语音信号采集到系统当中,并将采集到的语音信号初步转换为文本形式。此时的语音文本可能包含若干错误。
文本检错模块,用于该将从问题录入模块中采集到的粗文本进行检错。具体地,首先使用领域内相关的语料和通用语料库共同训练语言模型,包括N-gram模型和LSTM模型。将句子分别输入两个模型,对句子中每个字的置信度打分,置信度低于阈值的认为可能出错并标记之。
文本纠错模块,用于利用依存句法提取词语搭配,将词语搭配文件导入哈希表中,为每一个前驱词生成备选词集。获取词语搭配之后,考察检错模块中认为可能出错的位置,取其前驱词并获取前驱词的备选词集,求备选词的编辑距离和LCS的加权分数,将其中超过阈值的词语放回语言模型中,保存替换后的句子中分数较高的保存。
答案生成模块,用于获取经过纠错的问题文本,完成用户问题的判别,生成符合模板标准的用户问题的表达式。将问题链接到知识图谱中,在模板库中进行查询,返回查询结果并转化成用户易于理解的形式。
图7为根据本发明实施方式问答系统中语音识别文本的质量提升方法的流程图。图8为根据本发明实施方式问答系统中语音识别文本的质量提升方法的流程序列图。
问答系统中语音文本质量提升方法,包含两个步骤:错误检测和错误纠正。如图7所示,检错模块通过两个平行的模型分别检错,并融合两个模型的结果对字、词、语法错误进行精确发现。纠错模块中针对检错模块中发现的错误位置使用依存句法纠错模型进行纠错,并比较纠错结果与原始句子的流畅度,选择是否采用纠错结果作为输出。
在本发明实施方式中,分别从通用语料库和专用语料库建立n-gram模型,兼顾了模型的泛用性和专业性。基于字级语言模型建立LSTM模型,结合n-gram模型和LSTM模型的检错结果,同时利用了短程和长程两个层面的上下文信息,相比单一模型提高了对文本检错的准确度。而且,在依存句法纠错算法中,分析词语间的依存关系揭示句子的结构,识别出句子中的主谓宾、定状补等语法成分并分析各个成分之间的关系。解析句子并划分结构并找到句子的核心词。进一步地,利用编辑距离和LCS分析词语之间的语义距离生成备选词集,提高纠错精度。
与现有技术中仅采用了单一的n-gram语言模型相比,本发明实施方式在检错过程中采用了统计语言模型与深度语言模型联合检错的方法,引入了上下文信息,扩展了检错范围,提高了检错精度。同时统计语言模型同时训练了通用语言模型和专用领域语言模型,兼顾了模型的泛用性和专业性。在纠错过程中,现有方案使用了知识库搭配基于bigram模型计算k值的方法挑选备选词集的方法。本发明实施方式引入了词语搭配库,结合编辑距离和LCS加权的评判标准,有利于精准生成备选词集。同时纠错的结果使用语言模型进行评价,整体把控纠错结果的质量。
图9为根据本发明实施方式语音识别文本的质量提升装置的结构图。
如图9所示,该装置包括:
输入模块,用于获取语音识别文本,将所述语音识别文本平行输入N-gram检错模型和LSTM检错模型;
检错模块,用于使能N-gram检错模型对所述语音识别文本检错以确定第一错误词语,使能LSTM检错模型对所述语音识别文本检错以确定第二错误词语;
融合模块,用于融合N-gram检错模型输出的第一错误词语和LSTM检错模型输出的第二错误词语,以获取融合后错误词语;
纠错模块,用于基于依存句法分析方式对所述融合后错误词语执行纠错。
在一个实施方式中,N-gram检错模型包括:训练数据为与领域无关语料的通用模型以及训练数据为与当前业务相关语料的专用模型。
在一个实施方式中,通用模型包括2-gram通用模型和3-gram通用模型,所述专用模型包括2-gram专用模型和3-gram专用模型;
其中当所述语音识别文本中的词语经过2-gram通用模型后的第一分数、经过3-gram通用模型后第二分数、经过2-gram专用模型后的第三分数和经过3-gram专用模型后的第四分数都低于预定门限值时,确定所述词语出错。
在一个实施方式中,LSTM检错模型是基于字级语言模型建立的。
在一个实施方式中,所述检错模块,在使能LSTM检错模型对所述语音识别文本检错以确定第二错误词语之后,还用于使能LSTM检错模型确定用于替换第二错误词语的第一备选词;
纠错模块,用于基于依存句法分析方式确定所述第二错误词语的第二备选词;利用所述第一备选词在语音识别文本中替换所述第二错误词语,并确定替换后的所述第一备选词经过N-gram检错模型后的第五分数;利用所述第二备选词在语音识别文本中替换所述第二错误词语,并确定替换后的所述第二备选词经过N-gram检错模型后的第六分数;当第五分数大于第六分数时,选择第一备选词作为目标备选词,当第五分数小于第六分数时,选择第二备选词作为目标备选词;利用所述目标备选词在语音识别文本中替换所述第二错误词语,并计算替换之前的句子流畅度和替换之后的句子流畅度,其中当替换之后的句子流畅度大于替换之前的句子流畅度时,输出所述目标备选词在语音识别文本中替换所述第二错误词语的输出结果。
综上所述,本发明实施方式中,该方法包括:获取语音识别文本,将所述语音识别文本平行输入N-gram检错模型和LSTM检错模型;使能N-gram检错模型对所述语音识别文本检错以确定第一错误词语,使能LSTM检错模型对所述语音识别文本检错以确定第二错误词语;融合N-gram检错模型输出的第一错误词语和LSTM检错模型输出的第二错误词语,以获取融合后错误词语;基于依存句法分析方式对所述融合后错误词语执行纠错。可见,本发明实施方式在检错过程中采用了统计语言模型与深度语言模型联合检错的方法,引入了上下文信息,扩展了检错范围,提高了检错精度。
同时,N-gram检错模型同时训练了通用语言模型和专用领域语言模型,兼顾了模型的泛用性和专业性。
另外,在纠错过程中,引入词语搭配库,结合编辑距离和LCS加权的评判标准,有利于精准生成备选词集。同时纠错的结果使用语言模型进行评价,整体把控纠错结果的质量。
需要说明的是,上述各流程和各结构图中不是所有的步骤和模块都是必须的,可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的,可以根据需要进行调整。各模块的划分仅仅是为了便于描述采用的功能上的划分,实际实现时,一个模块可以分由多个模块实现,多个模块的功能也可以由同一个模块实现,这些模块可以位于同一个设备中,也可以位于不同的设备中。
各实施方式中的硬件模块可以以机械方式或电子方式实现。例如,一个硬件模块可以包括专门设计的永久性电路或逻辑器件(如专用处理器,如FPGA或ASIC)用于完成特定的操作。硬件模块也可以包括由软件临时配置的可编程逻辑器件或电路(如包括通用处理器或其它可编程处理器)用于执行特定操作。至于具体采用机械方式,或是采用专用的永久性电路,或是采用临时配置的电路(如由软件进行配置)来实现硬件模块,可以根据成本和时间上的考虑来决定。
本发明还提供了一种机器可读的存储介质,存储用于使一机器执行如本申请所述方法的指令。具体地,可以提供配有存储介质的系统或者装置,在该存储介质上存储着实现上述实施例中任一实施方式的功能的软件程序代码,且使该系统或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。此外,还可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作。还可以将从存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中,随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作,从而实现上述实施方式中任一实施方式的功能。
用于提供程序代码的存储介质实施方式包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地,可以由通信网络从服务器计算机或云上下载程序代码。
在本文中,“示意性”表示“充当实例、例子或说明”,不应将在本文中被描述为“示意性”的任何图示、实施方式解释为一种更优选的或更具优点的技术方案。为使图面简洁,各图中的只示意性地表示出了与本发明相关部分,而并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘示了其中的一个,或仅标出了其中的一个。在本文中,“一个”并不表示将本发明相关部分的数量限制为“仅此一个”,并且“一个”不表示排除本发明相关部分的数量“多于一个”的情形。在本文中,“上”、“下”、“前”、“后”、“左”、“右”、“内”、“外”等仅用于表示相关部分之间的相对位置关系,而非限定这些相关部分的绝对位置。
上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明,而并非用以限制本发明的保护范围,凡未脱离本发明技艺精神所作的等效实施方案或变更,如特征的组合、分割或重复,均应包含在本发明的保护范围之内。

Claims (8)

1.一种语音识别文本的质量提升方法,其特征在于,该方法包括:
获取语音识别文本,将所述语音识别文本平行输入N-gram检错模型和长短期记忆LSTM检错模型;
使用N-gram检错模型对所述语音识别文本检错以确定第一错误词语,使用LSTM检错模型对所述语音识别文本检错以确定第二错误词语;
融合N-gram检错模型输出的第一错误词语和LSTM检错模型输出的第二错误词语,以获取融合后错误词语;
基于依存句法分析方式对所述融合后错误词语执行纠错;
所述LSTM检错模型是基于字级语言模型建立的;在使用LSTM检错模型对所述语音识别文本检错以确定第二错误词语之后,该方法还包括:
使用LSTM检错模型确定用于替换第二错误词语的第一备选词;
其中所述基于依存句法分析方式对所述融合后错误词语执行纠错包括:
基于依存句法分析方式确定所述第二错误词语的第二备选词;
利用所述第一备选词在语音识别文本中替换所述第二错误词语,并确定替换后的所述第一备选词经过N-gram检错模型后的第五分数;
利用所述第二备选词在语音识别文本中替换所述第二错误词语,并确定替换后的所述第二备选词经过N-gram检错模型后的第六分数;
当第五分数大于第六分数时,选择第一备选词作为目标备选词,当第五分数小于第六分数时,选择第二备选词作为目标备选词;
利用所述目标备选词在语音识别文本中替换所述第二错误词语,并计算替换之前的句子流畅度和替换之后的句子流畅度,其中当替换之后的句子流畅度大于替换之前的句子流畅度时,输出所述目标备选词在语音识别文本中替换所述第二错误词语的输出结果;
所述使用LSTM检错模型确定用于替换第二错误词语的第一备选词包括:利用LSTM检错模型输出的隐藏状态作为特征进行词表的概率预测,从词表中选择概率最高的词,作为所述第一备选词。
2.根据权利要求1所述的语音识别文本的质量提升方法,其特征在于,所述N-gram检错模型包括:训练数据为与领域无关语料的通用模型以及训练数据为与当前业务相关语料的专用模型。
3.根据权利要求2所述的语音识别文本的质量提升方法,其特征在于,所述通用模型包括2-gram通用模型和3-gram通用模型,所述专用模型包括2-gram专用模型和3-gram专用模型;
其中当所述语音识别文本中的词语经过2-gram通用模型后的第一分数、经过3-gram通用模型后第二分数、经过2-gram专用模型后的第三分数和经过3-gram专用模型后的第四分数都低于预定门限值时,确定所述词语出错。
4.一种语音识别文本的质量提升装置,其特征在于,该装置包括:
输入模块,用于获取语音识别文本,将所述语音识别文本平行输入N-gram检错模型和长短期记忆LSTM检错模型;
检错模块,用于使用N-gram检错模型对所述语音识别文本检错以确定第一错误词语,使用LSTM检错模型对所述语音识别文本检错以确定第二错误词语;
融合模块,用于融合N-gram检错模型输出的第一错误词语和LSTM检错模型输出的第二错误词语,以获取融合后错误词语;
纠错模块,用于基于依存句法分析方式对所述融合后错误词语执行纠错;
所述LSTM检错模型是基于字级语言模型建立的;所述检错模块,在使用LSTM检错模型对所述语音识别文本检错以确定第二错误词语之后,还用于使用LSTM检错模型确定用于替换第二错误词语的第一备选词;所述纠错模块,用于基于依存句法分析方式确定所述第二错误词语的第二备选词;利用所述第一备选词在语音识别文本中替换所述第二错误词语,并确定替换后的所述第一备选词经过N-gram检错模型后的第五分数;利用所述第二备选词在语音识别文本中替换所述第二错误词语,并确定替换后的所述第二备选词经过N-gram检错模型后的第六分数;当第五分数大于第六分数时,选择第一备选词作为目标备选词,当第五分数小于第六分数时,选择第二备选词作为目标备选词;利用所述目标备选词在语音识别文本中替换所述第二错误词语,并计算替换之前的句子流畅度和替换之后的句子流畅度,其中当替换之后的句子流畅度大于替换之前的句子流畅度时,输出所述目标备选词在语音识别文本中替换所述第二错误词语的输出结果;所述使用LSTM检错模型确定用于替换第二错误词语的第一备选词包括:利用LSTM检错模型输出的隐藏状态作为特征进行词表的概率预测,从词表中选择概率最高的词,作为所述第一备选词。
5.根据权利要求4所述的语音识别文本的质量提升装置,其特征在于,所述N-gram检错模型包括:训练数据为与领域无关语料的通用模型以及训练数据为与当前业务相关语料的专用模型。
6.根据权利要求5所述的语音识别文本的质量提升装置,其特征在于,所述通用模型包括2-gram通用模型和3-gram通用模型,所述专用模型包括2-gram专用模型和3-gram专用模型;
其中当所述语音识别文本中的词语经过2-gram通用模型后的第一分数、经过3-gram通用模型后第二分数、经过2-gram专用模型后的第三分数和经过3-gram专用模型后的第四分数都低于预定门限值时,确定所述词语出错。
7.一种语音识别文本的质量提升装置,其特征在于,包括:
存储器;以及耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行如权利要求1-3中任一项所述的方法。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-3中任一项所述的方法。
CN201910739528.3A 2019-08-12 2019-08-12 一种语音识别文本的质量提升方法和装置 Active CN112447172B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910739528.3A CN112447172B (zh) 2019-08-12 2019-08-12 一种语音识别文本的质量提升方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910739528.3A CN112447172B (zh) 2019-08-12 2019-08-12 一种语音识别文本的质量提升方法和装置

Publications (2)

Publication Number Publication Date
CN112447172A CN112447172A (zh) 2021-03-05
CN112447172B true CN112447172B (zh) 2024-03-15

Family

ID=74740613

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910739528.3A Active CN112447172B (zh) 2019-08-12 2019-08-12 一种语音识别文本的质量提升方法和装置

Country Status (1)

Country Link
CN (1) CN112447172B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113571041A (zh) * 2021-07-21 2021-10-29 北京淇瑀信息科技有限公司 语音识别文本处理方法、装置和电子设备
CN113948065B (zh) * 2021-09-01 2022-07-08 北京数美时代科技有限公司 基于n-gram模型的错误拦截词筛选方法及系统
CN115270770B (zh) * 2022-07-08 2023-04-07 名日之梦(北京)科技有限公司 基于文本数据的纠错模型的训练方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160034678A (ko) * 2014-09-22 2016-03-30 포항공과대학교 산학협력단 문법 오류 수정 장치 및 이를 이용한 문법 오류 수정 방법
CN105550173A (zh) * 2016-02-06 2016-05-04 北京京东尚科信息技术有限公司 文本校正方法和装置
CN107357775A (zh) * 2017-06-05 2017-11-17 百度在线网络技术(北京)有限公司 基于人工智能的循环神经网络的文本纠错方法及装置
CN108984525A (zh) * 2018-07-06 2018-12-11 北京邮电大学 一种基于加入文本信息的词向量的中文语法错误检测方法
CN109922371A (zh) * 2019-03-11 2019-06-21 青岛海信电器股份有限公司 自然语言处理方法、设备及存储介质
CN109948152A (zh) * 2019-03-06 2019-06-28 北京工商大学 一种基于lstm的中文文本语法纠错模型方法
CN109977398A (zh) * 2019-02-21 2019-07-05 江苏苏宁银行股份有限公司 一种特定领域的语音识别文本纠错方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160034678A (ko) * 2014-09-22 2016-03-30 포항공과대학교 산학협력단 문법 오류 수정 장치 및 이를 이용한 문법 오류 수정 방법
CN105550173A (zh) * 2016-02-06 2016-05-04 北京京东尚科信息技术有限公司 文本校正方法和装置
CN107357775A (zh) * 2017-06-05 2017-11-17 百度在线网络技术(北京)有限公司 基于人工智能的循环神经网络的文本纠错方法及装置
CN108984525A (zh) * 2018-07-06 2018-12-11 北京邮电大学 一种基于加入文本信息的词向量的中文语法错误检测方法
CN109977398A (zh) * 2019-02-21 2019-07-05 江苏苏宁银行股份有限公司 一种特定领域的语音识别文本纠错方法
CN109948152A (zh) * 2019-03-06 2019-06-28 北京工商大学 一种基于lstm的中文文本语法纠错模型方法
CN109922371A (zh) * 2019-03-11 2019-06-21 青岛海信电器股份有限公司 自然语言处理方法、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《基于机器翻译模型的汉语近音错别字校对方法研究》;薛鑫;《中国优秀硕士学位论文全文数据库 信息科技辑》(第7期);43-56 *

Also Published As

Publication number Publication date
CN112447172A (zh) 2021-03-05

Similar Documents

Publication Publication Date Title
CN108304372B (zh) 实体提取方法和装置、计算机设备和存储介质
CN106202153B (zh) 一种es搜索引擎的拼写纠错方法及系统
US10073673B2 (en) Method and system for robust tagging of named entities in the presence of source or translation errors
CN103885938B (zh) 基于用户反馈的行业拼写错误检查方法
JP4694111B2 (ja) 用例ベースの機械翻訳システム
CN108052499B (zh) 基于人工智能的文本纠错方法、装置及计算机可读介质
US20100070261A1 (en) Method and apparatus for detecting errors in machine translation using parallel corpus
CN111723575A (zh) 识别文本的方法、装置、电子设备及介质
CN112447172B (zh) 一种语音识别文本的质量提升方法和装置
CN106570180A (zh) 基于人工智能的语音搜索方法及装置
CN111666764B (zh) 一种基于XLNet的自动摘要方法与装置
KR100911834B1 (ko) 번역 시스템에서 오류 보정 패턴을 이용한 번역 오류 수정 방법 및 장치
CN114036930A (zh) 文本纠错方法、装置、设备及计算机可读介质
Tensmeyer et al. Training full-page handwritten text recognition models without annotated line breaks
CN111881297A (zh) 语音识别文本的校正方法及装置
KR20230009564A (ko) 앙상블 스코어를 이용한 학습 데이터 교정 방법 및 그 장치
Li et al. Dimsim: An accurate chinese phonetic similarity algorithm based on learned high dimensional encoding
CN111666374A (zh) 一种在深度语言模型中融入额外知识信息的方法
CN114492396A (zh) 用于汽车专有名词的文本错误纠正方法及可读存储介质
KR20150092879A (ko) n-gram 데이터 및 언어 분석에 기반한 문법 오류 교정장치 및 방법
Comas et al. Sibyl, a factoid question-answering system for spoken documents
CN117454898A (zh) 一种根据输入文本实现法人实体标准化输出的方法及装置
Besacier et al. Word confidence estimation for speech translation
CN116306594A (zh) 一种医学ocr识别纠错方法
WO2021196835A1 (zh) 提取时间字符串的方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant