CN110210029B - 基于垂直领域的语音文本纠错方法、系统、设备及介质 - Google Patents

基于垂直领域的语音文本纠错方法、系统、设备及介质 Download PDF

Info

Publication number
CN110210029B
CN110210029B CN201910466328.5A CN201910466328A CN110210029B CN 110210029 B CN110210029 B CN 110210029B CN 201910466328 A CN201910466328 A CN 201910466328A CN 110210029 B CN110210029 B CN 110210029B
Authority
CN
China
Prior art keywords
error correction
correction candidate
word segmentation
dictionary
confusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910466328.5A
Other languages
English (en)
Other versions
CN110210029A (zh
Inventor
嵇望
汪斌
林达
李斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Yuanchuan Xinye Technology Co ltd
Original Assignee
Zhejiang Utry Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Utry Information Technology Co ltd filed Critical Zhejiang Utry Information Technology Co ltd
Priority to CN201910466328.5A priority Critical patent/CN110210029B/zh
Publication of CN110210029A publication Critical patent/CN110210029A/zh
Application granted granted Critical
Publication of CN110210029B publication Critical patent/CN110210029B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明申请涉及自然语言处理领域,公开了一种基于垂直领域的语音文本纠错方法,包括将语音转译为语音文本后基于领域词典进行分词,得到分词结果;根据所述分词结果生成混淆集;从所述混淆集中获取纠错候选句,使用语言模型对纠错候选句进行评分,如果纠错候选句评分不高于原句或不高于预定的阈值,则判定为没有错误,否则得分最高的纠错候选句即为纠错结果。本专利还公开了一种基于垂直领域的语音文本纠错系统、电子设备和计算机存储介质。本专利根据专业领域建立分词词典,提升专业领域下的分词结果,从而提升语音文本识别正确率,再结合语言模型对纠错候选句做评分排序,以确定表达用户真实的语音文本,能进一步提高语音交互的准确率。

Description

基于垂直领域的语音文本纠错方法、系统、设备及介质
技术领域
本发明涉及自然语言处理领域,具体涉及一种基于垂直领域的语音文本纠错方法、系统、设备及介质。
背景技术
着人工智能技术的不断发展,语音识别技术被普遍应用到人工智能领域。而语音识别技术是将人类的语言转变为相应的语音文本,现在主流的语音识别技术为自动语音识别(ASR)技术,但是经ASR识别后的语音文本常常出现错误,主要是受到由于同音误识别,环境音的影响等,从而对人工智能理解人类对话产生较大的影响,因此,提高语音识别的正确率是语音交互中的关键部分,对语音识别后转译的文本进行纠错是提高语音识别正确率的有效方法。
发明内容
为了克服现有技术的不足,本发明的目的之一在于提供一种基于垂直领域的语音文本纠错系统,其基于垂直领域分别建立分词词典,提升专业领域下的纠错效果,结合语言模型对纠错候选句做评分排序,得出最优纠错结果,从而进一步提高语音交互的准确率。
本发明的目的之一采用以下技术方案实现:
基于垂直领域的语音文本纠错方法,包括如下步骤:
将语音转译为语音文本后基于领域词典进行分词,得到分词结果;
根据所述分词结果确定纠错候选分词集合,所述纠错候选分词集合交叉组合形成若干纠错候选句,所述若干纠错候选句构成混淆集;
通过所述混淆集获取纠错候选句,使用语言模型对所述纠错候选句进行评分,如果所述纠错候选句的评分不高于原句评分或不高于预先定义的阈值,则判定为没有错误,否则得分最高的纠错候选句即为纠错结果;
其中,所述领域词典基于垂直领域收集不同专业领域的语料进行标注后构建,所述纠错候选分词集合包括所述分词结果的易混淆词、同音词,近音词,音节歧义以及多音词。
进一步地,收集常见的易混淆字词,建立混淆词典,用于纠错前的纠错建议。
进一步地,建立同音词词典,所述同音词词典为原始词库按照同音词的拼音进行存储的链式hash结构,并且原始词库经过人工标注,具体建立过程如下:
(1)从原始词库中读取一个词条;
(2)获取词条的拼音,如果词条经过人工标注,则获取人工标注的拼音,否则将词条的每一个汉字转化为拼音,得到词条的拼音x;
(3)以所述x为自变量,经由hash函数f(x)得到x对应的hash元素,将词条加入到相应的hash元素的链表中;
(4)如果关键字源文件还有剩余词条,则返回步骤(1),否则所述同音词词典建立结束。
进一步地,建立混淆集的步骤为:遍历所述分词结果,并依次输入到所述混淆词典进行检索,若检索到所述分词结果的纠错候选分词,则通过语言模型计算所述纠错候选分词交叉组合后的句子评分,如果所述评分不高于原句评分或者与原句评分相比得分不高于预先定义的阈值,判定为未命中所述混淆词典,否则将查询到的纠错候选分词加入纠错候选词集合,重复此步骤,直至所有分词结果都遍历完成;
而未命中所述混淆词典的分词结果均转为拼音,将所述拼音依次放入所述同音词词典中检索,以获取所述拼音的同音词和根据相似拼音检索到的近音词,将检索到的所有同音词和近音词加入纠错候选分词集合,重复此步骤,直至所有未命中所述混淆词典的分词结果均加入纠错候选分词集合即完毕;
从所述纠错候选分词集合中获取纠错候选分词,按照所述分词结果在原语音文本中的顺序,交叉组合每个分词的纠错候选分词形成若干纠错候选句,所述若干纠错候选句构成所述混淆集。
进一步地,所述语言模型为n-gram语音模型,所述n-gram语音模型计算句子概率的公式为:
P(w)=P(w1,w2,w3,w4,...wn)=P(w1)P(w2|w1)P(w3|w1,w2)...P(wn|w1,...wn-1);其中w表示分词结果,wn表示第n个分词结果。P(wn|w1,…wn-1)表示之前n-1词是w1,..wn-1的情况下第n个词是wn的概率。
进一步地,将所述n-gram语言模型进行简化,得到Bigram2元语言模型,所述Bigram2元语言模型计算句子概率的公式为:
P(w)=P(w1)P(w2|w1)...P(wn|wn-1);
通过计算最大似然估计(Maximum Likelihood Estimate)构造语言模型,其中P(wn|wn-1)计算公式为:
P(wn|wn-1)=count(wn,wn-1)/count(wn-1),count(wn-1)表示wn-1在语料中出现的次数。
本发明的目的之二在于提供一种基于垂直领域的语音文本纠错系统,其结合语言模型对纠错候选句做评分排序,得出最优纠错结果。
本发明的目的之二采用以下技术方案实现:
数据获取模块,用于获取语音转译的语音文本内容;
自然语音处理模块,将所述语音文本内容基于领域词典进行分词,得到分词结果;
混淆集生成模块,用于确定所述分词结果的纠错候选分词集合,包含纠错候选分词集合交叉组合形成的若干纠错候选句;
纠错模块,用于从所述混淆集生成模块中获取纠错候选句,使用语言模型对所述纠错候选句进行评分排序,确定纠错结果;
结果输出模块,用于输出所述纠错结果。
本发明的目的之三在于提供执行发明目的之一的电子设备,其包括处理器、存储介质以及计算机程序,所述计算机程序存储于存储介质中,所述计算机程序被处理器执行时实现上述的基于垂直领域的语音文本纠错方法。
本发明的目的之四在于提供存储发明目的之一的计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的基于垂直领域的语音文本纠错方法。
相比现有技术,本发明的有益效果在于:
基于垂直领域建立领域词典用于分词,通过收集不同专业领域的专业词汇构成领域词典,使得分词更加准确,从而提升了专业领域下的纠错效果;将分词结果的纠错候选词(每个分词的同音词,近音词,音节歧义以及多音词)交叉组合形成混淆集(纠错候选句集合),结合语言模型对纠错候选句做评分排序,得出最优纠错结果,从而提高语音交互的准确率,进而增加用户的语音交互感。
附图说明
图1是本发明实施例1基于垂直领域的语音文本纠错方法的流程图;
图2是本发明实施例1中混淆集的生成方法的流程图;
图3是本发明实施例1形成纠错候选句的过程示意图;
图4是本发明实施例1形成纠错候选句的示例图;
图5是实施例2的基于垂直领域的语言文本纠错系统的结构框图;
图6是实施例3的电子设备的结构框图。
具体实施方式
以下将结合附图,对本发明进行更为详细的描述,需要说明的是,下参照附图对本发明进行的描述仅是示意性的,而非限制性的。各个不同实施例之间可以进行相互组合,以构成未在以下描述中示出的其他实施例。
实施例1
基于垂直领域的语音文本纠错方法,如图1所示,包括如下步骤:
将语音转译为语音文本后基于领域词典利用Viterbi分词算法进行分词,得到分词结果;
根据分词结果确定纠错候选分词集合,通过混淆集获取纠错候选分词交叉组合形成若干纠错候选句,该混淆集由该若干纠错候选句构成;
如图2所示,上述混淆集的生成方法为:
遍历所述分词结果,并依次输入到混淆词典进行检索,若检索到所述分词结果的纠错候选分词,则通过n-gram语言模型计算所述纠错候选分词交叉组合后的句子评分,如果所述评分不高于原句评分或者与原句评分相比不高于预先定义的阈值,判定为未命中混淆词典,否则将查询到的纠错候选分词加入纠错候选词集合,重复此步骤,直至所有分词结果都遍历完成;
而未命中混淆词典的分词结果均转为拼音,将所述拼音依次放入同音词词典中进行检索,以获取所述拼音的同音词、以及根据该拼音的相似拼音检索到的近音词,将检索到的所有同音词和近音词加入纠错候选分词集合,重复此步骤,直至所有未命中混淆词典的分词结果均确定纠错候选分词即完毕,每个分词结果所有纠错候选分词均加入纠错候选分词集合;
混淆集即为按照分词结果的在原语音文本中的顺序,交叉组合每个分词的纠错候选分词集合,形成的若干纠错候选句的集合。
从混淆集中获取纠错候选句,使用语言模型对所述纠错候选句进行评分,如果所述纠错候选句的评分不高于原句评分或不高于预先定义的阈值,则判定为没有错误,否则得分最高的纠错候选句即为纠错结果;
其中,上述领域词典基于垂直领域收集不同专业领域的语料进行标注后构建,而候选分词交叉组合包括所述分词结果的易混淆词、同音词,近音词,音节歧义以及多音词;而候选分词是分词结果中的每个分词依次基于检索混淆词典和同音词词典得到,混淆词典的建立是为用于混淆集之前的语音文本纠错建议,收集常见的易混淆字词建立混淆词典,在纠错时先查该词典,可直接得到部分易错字词的纠错建议,另外,可以动态地将人工给出的纠错建议加入该词典中。该词典的格式为:
错误分词 纠错建议
零晨 凌晨
而同音词词典为原始词库按照同音词的拼音进行存储的链式hash结构,并且原始词库经过人工标注,主要用以解决近音词以及方言习惯等问题,具体建立过程如下:
(1)从原始词库中读取一个词条;
(2)获取词条的拼音,如果词条经过人工标注,则获取人工标注的拼音,否则将词条的每一个汉字转化为拼音,得到词条的拼音x;
(3)以所述x为自变量,经由hash函数f(x)得到x对应的hash元素,将词条加入到相应的hash元素的链表中;
(4)如果关键字源文件还有剩余词条,则返回步骤(1),否则同音词词典建立结束。
按照分词结果的在原语音文本中的顺序,交叉组合每个分词的纠错候选分词集合(从混淆集中获取),形成纠错候选句的过程如下:
如图3所示,分词结果S=Wl,W2···Wn;Wn表示原句的第n个分词,Wnk表示第n个分词的第k个候选项,依次交叉组合形成混淆集,示例如图4所示。
本实施例中选用预定的阈值为0.72-0.85,如果低于这个范围误判概率就会比较高,高于这个范围漏判概率会比较高,预定的阈值主要根据语料确定。
本实施例中采用n-gram语音模型计算句子概率的公式为:
P(w)=P(w1,w2,w3,w4,...wn)=P(w1)P(w2|w1)P(w3|w1,w2)...P(wn|w1...wn-1);其中w表示分词结果,wn表示第n个分词结果。P(wn|w1,…wn-1)表示当之前n-1词是w1,..wn-1的情况下第n个词是wn的概率。
当n-gram的n值越大时,对下一个词的约束力就越强,但同时模型就越复杂,问题越多,所以在本发明另一实施例中采用Bigram2元语言模型,所述Bigram2元语言模型为n-gram语音模型简化后得到,计算句子概率的公式为:
P(w)=P(w1)P(w2|w1)...P(wn|wn-1),
通过计算最大似然估计(Maximum Likelihood Estimate)构造Bigram2元语言模型,其计算公式为:
P(wn|wn-1)=count(wn,wn-1)/count(wn-1),count(wn-1)表示wn-1在语音文本中出现的次数。
在此结合实例1对Bigram2元语言模型的使用方法进行说明:
对于一个数据集,假设count(wn)统计如下(总共3193个字):
办理 身份证
1588 387 673 545
而count(wn,wn-1)统计如下:
办理 身份证
2 256 50 0
30 0 136 0
办理 0 0 0 150
身份证 0 0 173 3
则Bigram2语言模型的概率矩阵计算如下:
办理 身份证
0.0013 0.16 0.031 0
0.078 0 0.35 0
办理 0 0 0 0.22
身份证 0 0 0.32 0.0055
所以,句子“我想办理身份证”成立的概率为:
P(我想办理身份证)=P(我)P(想|我)P(办理|想)P(身份证|办理)=(1588/3193)*0.16*0.35*0.22。
上述例子中的矩阵存在0值,在语料库数据集中没有出现的词对我们不能就简单地认为他们的概率为0,本发明采用拉普拉斯矩阵平滑,把0值改为1值,设置成该词对出现的概率极小,这样就比较合理。
本实施例中采用SRILM构建和应用n-gram语言模型:
1、首先对大文本数据进行切分
split-d-C 100m trainfile.txt filedir/
2、切分文件列表写入filepath
ls\$(echo$PWD)/filedir/*>filepath
3、各文本单词统计词频,合并,去掉低频词,构建词典
make-batch-counts filepath 1cat./counts1-order 1
merge-batch-counts./counts1...(脚本处理count1/*.ngram.gz=>vocab1)
4、各文本统计2gram词频,合并
make-batch-counts filepath 1cat./counts2-order 2
merge-batch-counts./counts2
5、训练语言模型
make-big-lm-read counts3/*.ngrams.gz-vocab vocab1-1m train.1m-order 3[-interpolate-kndiscount]。
实施例2
本实施例提供一种对应实施例1的基于垂直领域的语音文本纠错方法的系统,为上述实施例的虚拟装置结构,如图5所示,包括:
数据获取模块510,用于获取语音转译的语音文本内容;
自然语音处理模块520,将所述语音文本内容基于领域词典进行分词,得到分词结果;
混淆集生成模块530,用于确定所述分词结果的纠错候选分词集合,包含纠错候选分词集合交叉组合形成的若干纠错候选句;
纠错模块540,用于从所述混淆集生成模块中获取纠错候选句,使用语言模型对所述纠错候选句进行评分排序,确定纠错结果;
结果输出模块550,用于输出所述纠错结果。
优选地,在混淆集生成模块530中,基于混淆词词典和同音词词典确定所述分词结果的纠错候选分词集合,交叉组合每个分词的纠错候选分词集合形成的若干纠错候选句,即生成混淆集。确定所述分词结果的纠错候选分词集合的步骤为:
遍历分词结果,并依次输入到混淆词典进行检索,若命中,则通过n-gram语言模型计算该纠错候选交叉组合的评分,如果该评分不高于原句评分或者与原句评分相比不高于预先定义的阈值,判定为未命中混淆词典,否则将查询到的纠错候选分词加入纠错候选分词集合,重复此步骤,直至所有分词结果都遍历完成;
而未命中混淆词典的分词结果均转为拼音,将所述转为拼音的分词结果放入同音词词典中检索,获取所述转为拼音的分词结果的所有同音词以及相似拼音检索到的近音词加入纠错候选分词集合,重复此步骤,直至所有未命中混淆词典的分词结果均加入纠错候选分词集合即完毕。
优选地,纠错模块540使用n-gram语言模型对所述纠错候选句进行评分排序,如果所述纠错候选句的评分不高于原句评分或不高于预先定义的阈值,则判定为没有错误,否则得分最高的纠错候选句即为纠错结果。
优选地,自然语音处理模块520使用Viterbi分词算法进行分词,得到分词结果;
实施例3
图6为本实施例提供的一种电子设备的结构示意图,如图6所示,该电子设备包括处理器610、存储器620、输入装置630和输出装置640;计算机设备中处理器610的数量可以是一个或多个,图6中以一个处理器610为例;电子设备中的处理器610、存储器620、输入装置630和输出装置640可以通过总线或其他方式连接,图6中以通过总线连接为例。
存储器620作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的基于垂直领域的语音文本纠错方法对应的程序指令/模块(例如,基于垂直领域的语音文本纠错系统中的数据获取模块510、自然语音处理模块520、混淆集生成模块530、纠错模块540和结果输出模块550)。处理器610通过运行存储在存储器620中的软件程序、指令以及模块,从而执行电子设备的各种功能应用以及数据处理,即实现上述实施例1的基于垂直领域的语音文本纠错方法。
存储器620可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器620可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器620可进一步包括相对于处理器610远程设置的存储器,这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置630可用于接收语音文本数据。输出装置640可包括显示屏等显示设备,用于输出纠错结果。
实施例4
本实施例还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行继电器触点燃弧时间状态检测方法,该方法包括:
将语音转译为语音文本后基于领域词典进行分词,得到分词结果;
根据所述分词结果确定纠错候选分词集合,所述纠错候选分词集合交叉组合形成若干纠错候选句,所述若干纠错候选句构成混淆集;
通过所述混淆集获取纠错候选句,使用语言模型对所述纠错候选句进行评分,如果所述纠错候选句的评分不高于原句评分或不高于预先定义的阈值,则判定为没有错误,否则得分最高的纠错候选句即为纠错结果。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的基于垂直领域的语音文本纠错方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台电子设备(可以是手机,个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述基于垂直领域的语音文本纠错系统的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
对本领域的技术人员来说,可根据以上描述的技术方案以及构思,做出其它各种相应的改变以及形变,而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。

Claims (8)

1.一种基于垂直领域的语音文本纠错方法,其特征在于,包括如下步骤:
将语音转译为语音文本后基于领域词典进行分词,得到分词结果;
根据所述分词结果确定纠错候选分词集合,所述纠错候选分词集合交叉组合形成若干纠错候选句,所述若干纠错候选句构成混淆集,建立所述纠错候选分词集合的具体步骤为:遍历所述分词结果,并依次输入到混淆词典进行检索,若检索到所述分词结果的纠错候选分词,则通过语言模型计算所述纠错候选分词交叉组合后的句子评分,如果所述评分不高于原句评分或者与原句评分相比所述评分不高于预先定义的阈值,判定为未命中所述混淆词典,否则将检索到的纠错候选分词加入纠错候选词集合,重复此步骤,直至所有分词结果都遍历完成,而未命中所述混淆词典的分词结果均转为拼音,将所述拼音依次放入同音词词典中检索,以获取所述拼音的同音词和根据相似拼音检索到的近音词,将检索到的所有同音词和近音词加入纠错候选分词集合,重复此步骤,直至所有未命中所述混淆词典的分词结果均加入纠错候选分词集合即完毕;
通过所述混淆集获取纠错候选句,使用语言模型对所述纠错候选句进行评分,如果所述纠错候选句的评分不高于原句评分或不高于预先定义的阈值,则判定为没有错误,否则评分最高的纠错候选句即为纠错结果;
其中,所述领域词典基于垂直领域收集不同专业领域的语料进行标注后构建,所述纠错候选分词集合包括所述分词结果的易混淆词、同音词、近音词、音节歧义以及多音词。
2.如权利要求1所述的基于垂直领域的语音文本纠错方法,其特征在于,收集常见的易混淆字词,建立所述混淆词典。
3.如权利要求2所述的基于垂直领域的语音文本纠错方法,其特征在于,所述同音词词典为原始词库按照同音词的拼音进行存储的链式hash结构,并且原始词库经过人工标注,所述同音词词典具体建立过程如下:
(1)从原始词库中读取一个词条;
(2)获取词条的拼音,如果词条经过人工标注,则获取人工标注的拼音,否则将词条的每一个汉字转化为拼音,得到词条的拼音x;
(3)以所述x为自变量,经由hash函数f(x)得到x对应的hash元素,将词条加入到相应的hash元素的链表中;
(4)如果关键字源文件还有剩余词条,则返回步骤(1),否则所述同音词词典建立结束。
4.如权利要求1所述的基于垂直领域的语音文本纠错方法,其特征在于,所述语言模型为n-gram语音模型,所述n-gram语音模型计算句子概率的公式为:
P(w)=P(w1,w2,w3,w4,...wn)=P(w1)P(w2|w1)P(w3|w1,w2)...P(wn|w1,...wn-1);其中w表示分词结果,wn表示第n个分词结果;P(wn|w1,…wn-1)表示之前n-1词是w1,..wn-1的情况下第n个词是wn的概率。
5.如权利要求4所述的基于垂直领域的语音文本纠错方法,其特征在于,将所述n-gram语言模型进行简化,得到Bigram2元语言模型,所述Bigram2元语言模型计算句子概率的公式为:
P(w)=P(w1)P(w2|w1)...P(wn|wn-1);
通过计算最大似然估计(Maximum Likelihood Estimate)构造语言模型,其中P(wn|wn-1)计算公式为:
P(wn|wn-1)=count(wn,wn-1)/count(wn-1),count(wn-1)表示wn-1在语料中出现的次数。
6.一种基于垂直领域的语音文本纠错系统,其特征在于,其包括:
数据获取模块,用于获取语音转译的语音文本内容;
自然语音处理模块,将所述语音文本内容基于领域词典进行分词,得到分词结果,所述领域词典基于垂直领域收集不同专业领域的语料进行标注后构建;
混淆集生成模块,用于根据所述分词结果确定纠错候选分词集合,所述纠错候选分词集合交叉组合形成的若干纠错候选句构成混淆集,其中建立所述纠错候选分词集合的具体步骤为:遍历所述分词结果,并依次输入到混淆词典进行检索,若检索到所述分词结果的纠错候选分词,则通过语言模型计算所述纠错候选分词交叉组合后的句子评分,如果所述评分不高于原句评分或者与原句评分相比所述评分不高于预先定义的阈值,判定为未命中所述混淆词典,否则将检索到的纠错候选分词加入纠错候选词集合,重复此步骤,直至所有分词结果都遍历完成;而未命中所述混淆词典的分词结果均转为拼音,将所述拼音依次放入同音词词典中检索,以获取所述拼音的同音词和根据相似拼音检索到的近音词,将检索到的所有同音词和近音词加入纠错候选分词集合,重复此步骤,直至所有未命中所述混淆词典的分词结果均加入纠错候选分词集合即完毕;
纠错模块,用于从所述混淆集生成模块中获取纠错候选句,使用语言模型对所述纠错候选句进行评分排序,评分最高的纠错候选句为纠错结果;
结果输出模块,用于输出所述纠错结果。
7.一种电子设备,其包括处理器、存储介质以及计算机程序,所述计算机程序存储于存储介质中,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5任一项所述的基于垂直领域的语音文本纠错方法。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5任一项所述的基于垂直领域的语音文本纠错方法。
CN201910466328.5A 2019-05-30 2019-05-30 基于垂直领域的语音文本纠错方法、系统、设备及介质 Active CN110210029B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910466328.5A CN110210029B (zh) 2019-05-30 2019-05-30 基于垂直领域的语音文本纠错方法、系统、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910466328.5A CN110210029B (zh) 2019-05-30 2019-05-30 基于垂直领域的语音文本纠错方法、系统、设备及介质

Publications (2)

Publication Number Publication Date
CN110210029A CN110210029A (zh) 2019-09-06
CN110210029B true CN110210029B (zh) 2020-06-19

Family

ID=67789690

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910466328.5A Active CN110210029B (zh) 2019-05-30 2019-05-30 基于垂直领域的语音文本纠错方法、系统、设备及介质

Country Status (1)

Country Link
CN (1) CN110210029B (zh)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110600002B (zh) * 2019-09-18 2022-04-22 北京声智科技有限公司 语音合成方法、装置及电子设备
CN110765763B (zh) * 2019-09-24 2023-12-12 金蝶软件(中国)有限公司 语音识别文本的纠错方法、装置、计算机设备和存储介质
CN110782881A (zh) * 2019-10-25 2020-02-11 四川长虹电器股份有限公司 一种语音识别及实体识别后的影视实体纠错方法
CN110782892B (zh) * 2019-10-25 2022-03-25 四川长虹电器股份有限公司 语音文本纠错方法
CN110942767B (zh) * 2019-11-05 2023-03-17 深圳市一号互联科技有限公司 一种asr语言模型识别标注与优化方法及其装置
CN110929514B (zh) * 2019-11-20 2023-06-27 北京百分点科技集团股份有限公司 文本校对方法、装置、计算机可读存储介质及电子设备
CN111144391B (zh) * 2019-12-23 2023-05-09 北京爱医生智慧医疗科技有限公司 一种ocr识别结果纠错方法及装置
CN111079768A (zh) * 2019-12-23 2020-04-28 北京爱医生智慧医疗科技有限公司 一种基于ocr的文字图像识别方法及装置
CN111339757A (zh) * 2020-02-13 2020-06-26 上海凯岸信息科技有限公司 一种催收场景下语音识别结果的纠错方法
CN111369996B (zh) * 2020-02-24 2023-08-18 网经科技(苏州)有限公司 一种特定领域的语音识别文本纠错方法
CN111382260A (zh) * 2020-03-16 2020-07-07 腾讯音乐娱乐科技(深圳)有限公司 一种检索文本纠错方法、装置和存储介质
CN111460795B (zh) * 2020-03-26 2023-05-26 云知声智能科技股份有限公司 一种文本纠错方法及系统
CN111626048A (zh) * 2020-05-22 2020-09-04 腾讯科技(深圳)有限公司 文本纠错方法、装置、设备及存储介质
CN111627447A (zh) * 2020-06-01 2020-09-04 上海适享文化传播有限公司 一种云享智慧语音Ai说系统
CN111753529B (zh) * 2020-06-03 2021-07-27 杭州云嘉云计算有限公司 一种基于拼音相同或相似的中文文本纠错方法
CN111859907B (zh) * 2020-06-11 2023-06-23 北京百度网讯科技有限公司 文字纠错方法、装置、电子设备及存储介质
CN111753531B (zh) * 2020-06-28 2024-03-12 平安科技(深圳)有限公司 基于人工智能的文本纠错方法、装置、设备及存储介质
CN112115706B (zh) * 2020-08-31 2022-05-03 北京字节跳动网络技术有限公司 文本处理方法、装置、电子设备及介质
CN111985234B (zh) * 2020-09-08 2022-02-01 四川长虹电器股份有限公司 语音文本纠错方法
CN112435651B (zh) * 2020-11-20 2023-05-02 昆明学院 一种语音数据自动标注的质量评估方法
CN112417851B (zh) * 2020-11-26 2024-05-24 新智认知数据服务有限公司 文本纠错分词方法、系统及电子设备
CN112560450B (zh) * 2020-12-11 2024-02-13 科大讯飞股份有限公司 一种文本纠错方法及装置
CN112528663B (zh) * 2020-12-18 2024-02-20 中国南方电网有限责任公司 一种电网领域调度场景下的文本纠错方法及系统
CN112487768A (zh) * 2020-12-29 2021-03-12 龙马智芯(珠海横琴)科技有限公司 一种语音文本标注系统
CN112487767A (zh) * 2020-12-29 2021-03-12 龙马智芯(珠海横琴)科技有限公司 语音文本标注方法、装置、服务器及计算机可读存储介质
CN113051896B (zh) * 2021-04-23 2023-08-18 百度在线网络技术(北京)有限公司 对文本进行纠错的方法、装置、电子设备和存储介质
CN113221545B (zh) * 2021-05-10 2023-08-08 北京有竹居网络技术有限公司 一种文本处理方法、装置、设备及介质、程序产品
CN113361238B (zh) * 2021-05-21 2022-02-11 北京语言大学 一种语块重组题型的自动命题的方法及装置
CN113553833B (zh) * 2021-06-30 2024-01-19 北京百度网讯科技有限公司 文本纠错的方法、装置及电子设备
CN113674743A (zh) * 2021-08-20 2021-11-19 云知声(上海)智能科技有限公司 用于自然语言处理中asr结果替换处理设备及处理方法
CN113779972B (zh) * 2021-09-10 2023-09-15 平安科技(深圳)有限公司 语音识别纠错方法、系统、装置及存储介质
CN115719059B (zh) * 2022-11-29 2023-08-08 北京中科智加科技有限公司 一种莫尔斯分组纠错方法
CN116578675A (zh) * 2023-07-11 2023-08-11 北京中关村科金技术有限公司 一种语句意图纠正方法及其装置、电子设备、存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6597527B2 (ja) * 2016-09-06 2019-10-30 トヨタ自動車株式会社 音声認識装置および音声認識方法
CN107741928B (zh) * 2017-10-13 2021-01-26 四川长虹电器股份有限公司 一种基于领域识别的对语音识别后文本纠错的方法
CN107729321A (zh) * 2017-10-23 2018-02-23 上海百芝龙网络科技有限公司 一种语音识别结果纠错方法

Also Published As

Publication number Publication date
CN110210029A (zh) 2019-09-06

Similar Documents

Publication Publication Date Title
CN110210029B (zh) 基于垂直领域的语音文本纠错方法、系统、设备及介质
CN109408526B (zh) Sql语句生成方法、装置、计算机设备及存储介质
WO2019196314A1 (zh) 文本信息相似度匹配方法、装置、计算机设备及存储介质
CN107480143B (zh) 基于上下文相关性的对话话题分割方法和系统
CN107195295B (zh) 基于中英文混合词典的语音识别方法及装置
CN107301860B (zh) 基于中英文混合词典的语音识别方法及装置
CN107729313B (zh) 基于深度神经网络的多音字读音的判别方法和装置
CN108140019B (zh) 语言模型生成装置、语言模型生成方法以及记录介质
CN111859921B (zh) 文本纠错方法、装置、计算机设备和存储介质
CN111125349A (zh) 基于词频和语义的图模型文本摘要生成方法
CN111177324B (zh) 基于语音识别结果进行意图分类的方法和装置
CN111414746B (zh) 一种匹配语句确定方法、装置、设备及存储介质
Adel et al. Features for factored language models for code-Switching speech.
CN111462751A (zh) 解码语音数据的方法、装置、计算机设备和存储介质
CN111191463A (zh) 情感分析方法、装置、电子设备及存储介质
CN111508497B (zh) 语音识别方法、装置、电子设备及存储介质
CN112349294B (zh) 语音处理方法及装置、计算机可读介质、电子设备
CN110750967A (zh) 一种发音的标注方法、装置、计算机设备和存储介质
CN115240712A (zh) 一种基于多模态的情感分类方法、装置、设备及存储介质
CN114896966A (zh) 一种中文文本语法错误定位方法、系统、设备及介质
CN113012685B (zh) 音频识别方法、装置、电子设备及存储介质
CN114896382A (zh) 人工智能问答模型生成方法、问答方法、装置及存储介质
Torunoglu-Selamet et al. Exploring spelling correction approaches for turkish
CN111429886B (zh) 一种语音识别方法及系统
CN113096646B (zh) 音频识别方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20221012

Address after: Room 23011, Yuejiang commercial center, 857 Xincheng Road, Puyan street, Binjiang District, Hangzhou City, Zhejiang Province, 310051

Patentee after: Hangzhou Yuanchuan Xinye Technology Co.,Ltd.

Address before: 23 / F, World Trade Center, 857 Xincheng Road, Binjiang District, Hangzhou City, Zhejiang Province, 310051

Patentee before: ZHEJIANG UTRY INFORMATION TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right