CN110942767B

CN110942767B - 一种asr语言模型识别标注与优化方法及其装置

Info

Publication number: CN110942767B
Application number: CN201911068372.7A
Authority: CN
Inventors: 曾双剑; 黄平
Original assignee: Shenzhen Yihao Hulian Technology Co ltd
Current assignee: Shenzhen Yihao Hulian Technology Co ltd
Priority date: 2019-11-05
Filing date: 2019-11-05
Publication date: 2023-03-17
Anticipated expiration: 2039-11-05
Also published as: CN110942767A

Abstract

本发明公开了一种ASR语言模型识别标注与优化方法及其装置，包括以下组成：语音输入模块，中控处理器，服务器，分词算法，汉字转拼音算法，拼音切分算法，智能拼接算法，词库，拼音库，分词算法首先对输入的句子根据词库作为参考进行分词，分词之后词汇通过汉字转拼音算法将词汇将汉字转化为拼音，通过拼音转换算法和拼音库将原始汉字和目标汉字转换成拼音，将拼音的声母韵母单独拆分，本发明涉及人工智能技术领域。该ASR语言模型识别标注与优化方法及其装置，对纯中文文本进行专业词汇进行纠正而且效果好，利用拼音库，依赖的库及资源少，通用性很好，兼容新出现的专业词汇，该方案简洁，高效，部署方便，适配各种软硬件环境。

Description

一种ASR语言模型识别标注与优化方法及其装置

技术领域

本发明涉及人工智能技术领域，具体为一种ASR语言模型识别标注与优化方法及其装置。

背景技术

在中文语音识别中，由于发音差异，缺少数据训练，通用模型缺陷等原因，对专业词汇、关键词的识别，返回的是意思不明，发音相似的一组词汇，在通常情况下，语音识别是将输入语音通过特征识别转化为文字的一种技术。而在某些特殊场合的应用，这种通用的技术并不能满足人们的需要，比如对人名的识别、设备名或者地名的识别等等，目前还没有对纯中文文本进行专业词汇进行纠正而且效果不错的解决方案，利用拼音库，依赖的库及资源少，现在急需解决利用通用性拼音库，通过拼音相近检索算法，对一段文本中的专业词汇、关键词进行纠错纠正，提高识别准确性。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种ASR语言模型识别标注与优化方法及其装置，解决了对一段文本中的专业词汇、关键词进行纠错纠正，提高识别准确性的问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：一种ASR语言模型识别标注与优化方法及其装置，包括以下组成：

语音输入模块：使用者输入语音模型，并进行语音识别；

中控处理器：对语言算法进行计算处理，并且用于连接服务器；

服务器；用于连接大数据库；

分词算法：NLP的底层任务由易到难大致可以分为词法分析、句法分析和语义分析。分词是词法分析中最基本的任务，最大匹配分词寻找最优组合的方式是将匹配到的最长词组合在一起。主要的思路是先将词典构造成一棵Trie树，通过拼音相近检索算法以及词汇使用频率进行对比分词；

汉字转拼音算法：将汉字转化为拼音的语言算法；

拼音切分算法：将拼音进行单独切分，将拼音的声母韵母单独拆分；

智能拼接算法：对切分的拼音根据词频和词库优选进行重新拼接，拼音完成后输出；

词库：包含常用词汇、高频词汇，用于和输入的语音模型进行对比；

拼音库：包括词库汉字的拼音库。

优选的，语音输入进入中控处理器，中控处理器连接服务器将语音输入后，服务器内的分词算法首先对输入的句子根据词库作为参考进行分词，分词之后词汇通过汉字转拼音算法将词汇将汉字转化为拼音，通过拼音转换算法和拼音库将原始汉字和目标汉字转换成拼音，将拼音的声母韵母单独拆分，通过拼接算法，高频发音错误集，参数将拼接出来的拼音和目标拼音使用KMP算法做匹配。若达到阈值，则认为它是目标汉字，当根据服务器内的词库匹配成功后则直接对原语句进行替换则将目标汉字替换到原汉字字符串中，输出，当匹配失败后则直接返回输出失败，对文本句子进行分词处理。

优选的，分词算法还包括基于词典的方法、正向最大匹配思想MM、逆向最大匹配算法RMM、双向最大匹配法Bi-directction Matching method,BM、设立切分标志法、最佳匹配OM、基于统计的分词、基于规则的分词。

优选的，基于统计的分词包括N-gram模型思想、隐马尔科夫模型思想，的最佳匹配OM包括正向顺序排列和逆向顺序排列。

优选的，的分词算法内包括分割模块、识别比较模块，输入的语句进入服务器后与内部的词库进行识别对比后将输入语句进行分割分词。

优选的，词库默认按照使用频率高的词汇进行识别比较，识别比较模块与服务器的词库及服务器数据库连接。

优选的，拼音切分算法与服务器的拼音库及服务器数据库连接。

(三)有益效果

本发明提供了一种ASR语言模型识别标注与优化方法及其装置。具备以下有益效果：

(一)、该ASR语言模型识别标注与优化方法及其装置，对纯中文文本进行专业词汇进行纠正而且效果好，利用拼音库，依赖的库及资源少。

(二)、该ASR语言模型识别标注与优化方法及其装置，通用性很好，兼容新出现的专业词汇，该方案简洁，高效，部署方便，适配各种软硬件环境。

附图说明

图1为本发明整体优化装置的结构示意图；

图2为本发明优化方法例子的工作流程示意图；

图3为本发明分词算法局部的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-3，本发明提供一种技术方案：一种ASR语言模型识别标注与优化方法及其装置，包括以下组成：

语音输入模块：使用者输入语音模型，并进行语音识别；

服务器；用于连接大数据库；

汉字转拼音算法：将汉字转化为拼音的语言算法；

拼音库：包括词库汉字的拼音库。

语音输入进入中控处理器，中控处理器连接服务器将语音输入后，服务器内的分词算法首先对输入的句子根据词库作为参考进行分词，分词之后词汇通过汉字转拼音算法将词汇将汉字转化为拼音，通过拼音转换算法和拼音库将原始汉字和目标汉字转换成拼音，将拼音的声母韵母单独拆分，通过拼接算法，高频发音错误集，参数将拼接出来的拼音和目标拼音使用KMP算法做匹配。若达到阈值，则认为它是目标汉字，当根据服务器内的词库匹配成功后则直接对原语句进行替换则将目标汉字替换到原汉字字符串中，输出，当匹配失败后则直接返回输出失败，对文本句子进行分词处理。

分词算法还包括基于词典的方法、正向最大匹配思想MM、逆向最大匹配算法RMM、双向最大匹配法Bi-directction Matching method,BM、设立切分标志法、最佳匹配OM、基于统计的分词、基于规则的分词。

基于统计的分词包括N-gram模型思想、隐马尔科夫模型思想，最佳匹配OM包括正向顺序排列和逆向顺序排列。

分词算法内包括分割模块、识别比较模块，输入的语句进入服务器后与内部的词库进行识别对比后将输入语句进行分割分词。

词库默认按照使用频率高的词汇进行识别比较，识别比较模块与服务器的词库及服务器数据库连接。

拼音切分算法与服务器的拼音库及服务器数据库连接。

使用时，语音输入进入中控处理器，中控处理器连接服务器将语音输入后，服务器内的分词算法首先对输入的句子根据词库作为参考进行分词，分词之后词汇通过汉字转拼音算法将词汇将汉字转化为拼音，通过拼音转换算法和拼音库将原始汉字和目标汉字转换成拼音，将拼音的声母韵母单独拆分，通过拼接算法，高频发音错误集，参数将拼接出来的拼音和目标拼音使用KMP算法做匹配。若达到阈值，则认为它是目标汉字，当根据服务器内的词库匹配成功后则直接对原语句进行替换则将目标汉字替换到原汉字字符串中，输出，当匹配失败后则直接返回输出失败，对文本句子进行分词处理；

如，语音输入“我是胡建人”，分词算法通过服务器的词库及服务器数据库进行对比，将“我是胡建人”分出“我”，“是”，“胡建”，“人”，其中的“胡建”对比识别词库内的高频词汇“福建”，将“我”，“是”，“胡建”，“人”进行汉字转拼音算法将词汇进行拼音化得到“wo，shi，hujian，ren”和“fujian”，拼音通过拼音切分算法将所有的拼音进行单独切分，得到“h，u，j，i，an”和“f，u，j，i，an”，对原句进行智能拼接，替换原拼音，当替换成功得到“我是福建人”，当替换失败则返回failed。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下。由语句“包括一个......限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素”。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种ASR语言模型识别标注与优化装置，其特征在于，包括以下组成：

语音输入模块：使用者输入语音模型，并进行语音识别；

服务器；用于连接大数据库；

分词算法：NLP的底层任务由易到难可以分为词法分析、句法分析和语义分析；分词是词法分析中最基本的任务，最大匹配分词寻找最优组合的方式是将匹配到的最长词组合在一起；先将词典构造成一棵Trie树，通过拼音相近检索算法以及词汇使用频率进行对比分词；

汉字转拼音算法：将汉字转化为拼音的语言算法；

拼音库：包括词库汉字的拼音库；

语音输入进入中控处理器，中控处理器连接服务器将语音输入后，服务器内的分词算法首先对输入的句子根据词库作为参考进行分词，分词之后词汇通过汉字转拼音算法将词汇将汉字转化为拼音，通过拼音转换算法和拼音库将原始汉字和目标汉字转换成拼音，将拼音的声母韵母单独拆分，通过拼接算法，高频发音错误集，参数将拼接出来的拼音和目标拼音使用KMP算法做匹配；若达到阈值，则认为它是目标汉字，当根据服务器内的词库匹配成功后则直接对原语句进行替换则将目标汉字替换到原汉字字符串中，输出，当匹配失败后则直接返回输出失败，对文本句子进行分词处理。

2.根据权利要求1所述的一种ASR语言模型识别标注与优化装置，其特征在于：所述的分词算法内包括分割模块、识别比较模块，输入的语句进入服务器后与内部的词库进行识别对比后将输入语句进行分割分词。

3.根据权利要求2所述的一种ASR语言模型识别标注与优化装置，其特征在于：所述词库默认按照使用频率高的词汇进行识别比较，所述识别比较模块与服务器的词库及服务器数据库连接。

4.根据权利要求1所述的一种ASR语言模型识别标注与优化装置，其特征在于：所述拼音切分算法与服务器的拼音库及服务器数据库连接。

5.一种如权利要求1所述的ASR语言模型识别标注与优化装置的优化方法，其特征在于：所述分词算法还包括基于词典的方法、正向最大匹配思想MM、逆向最大匹配算法RMM、双向最大匹配法Bi-directction Matching method,BM、设立切分标志法、最佳匹配OM、基于统计的分词和基于规则的分词。

6.根据权利要求5所述的一种优化方法，其特征在于：所述基于统计的分词包括N-gram模型思想、隐马尔科夫模型思想，所述的最佳匹配OM包括正向顺序排列和逆向顺序排列。