CN110942767B - 一种asr语言模型识别标注与优化方法及其装置 - Google Patents

一种asr语言模型识别标注与优化方法及其装置 Download PDF

Info

Publication number
CN110942767B
CN110942767B CN201911068372.7A CN201911068372A CN110942767B CN 110942767 B CN110942767 B CN 110942767B CN 201911068372 A CN201911068372 A CN 201911068372A CN 110942767 B CN110942767 B CN 110942767B
Authority
CN
China
Prior art keywords
pinyin
algorithm
word
server
word segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911068372.7A
Other languages
English (en)
Other versions
CN110942767A (zh
Inventor
曾双剑
黄平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Yihao Hulian Technology Co ltd
Original Assignee
Shenzhen Yihao Hulian Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Yihao Hulian Technology Co ltd filed Critical Shenzhen Yihao Hulian Technology Co ltd
Priority to CN201911068372.7A priority Critical patent/CN110942767B/zh
Publication of CN110942767A publication Critical patent/CN110942767A/zh
Application granted granted Critical
Publication of CN110942767B publication Critical patent/CN110942767B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种ASR语言模型识别标注与优化方法及其装置,包括以下组成:语音输入模块,中控处理器,服务器,分词算法,汉字转拼音算法,拼音切分算法,智能拼接算法,词库,拼音库,分词算法首先对输入的句子根据词库作为参考进行分词,分词之后词汇通过汉字转拼音算法将词汇将汉字转化为拼音,通过拼音转换算法和拼音库将原始汉字和目标汉字转换成拼音,将拼音的声母韵母单独拆分,本发明涉及人工智能技术领域。该ASR语言模型识别标注与优化方法及其装置,对纯中文文本进行专业词汇进行纠正而且效果好,利用拼音库,依赖的库及资源少,通用性很好,兼容新出现的专业词汇,该方案简洁,高效,部署方便,适配各种软硬件环境。

Description

一种ASR语言模型识别标注与优化方法及其装置
技术领域
本发明涉及人工智能技术领域,具体为一种ASR语言模型识别标注与优化方法及其装置。
背景技术
在中文语音识别中,由于发音差异,缺少数据训练,通用模型缺陷等原因,对专业词汇、关键词的识别,返回的是意思不明,发音相似的一组词汇,在通常情况下,语音识别是将输入语音通过特征识别转化为文字的一种技术。而在某些特殊场合的应用,这种通用的技术并不能满足人们的需要,比如对人名的识别、设备名或者地名的识别等等,目前还没有对纯中文文本进行专业词汇进行纠正而且效果不错的解决方案,利用拼音库,依赖的库及资源少,现在急需解决利用通用性拼音库,通过拼音相近检索算法,对一段文本中的专业词汇、关键词进行纠错纠正,提高识别准确性。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种ASR语言模型识别标注与优化方法及其装置,解决了对一段文本中的专业词汇、关键词进行纠错纠正,提高识别准确性的问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:一种ASR语言模型识别标注与优化方法及其装置,包括以下组成:
语音输入模块:使用者输入语音模型,并进行语音识别;
中控处理器:对语言算法进行计算处理,并且用于连接服务器;
服务器;用于连接大数据库;
分词算法:NLP的底层任务由易到难大致可以分为词法分析、句法分析和语义分析。分词是词法分析中最基本的任务,最大匹配分词寻找最优组合的方式是将匹配到的最长词组合在一起。主要的思路是先将词典构造成一棵Trie树,通过拼音相近检索算法以及词汇使用频率进行对比分词;
汉字转拼音算法:将汉字转化为拼音的语言算法;
拼音切分算法:将拼音进行单独切分,将拼音的声母韵母单独拆分;
智能拼接算法:对切分的拼音根据词频和词库优选进行重新拼接,拼音完成后输出;
词库:包含常用词汇、高频词汇,用于和输入的语音模型进行对比;
拼音库:包括词库汉字的拼音库。
优选的,语音输入进入中控处理器,中控处理器连接服务器将语音输入后,服务器内的分词算法首先对输入的句子根据词库作为参考进行分词,分词之后词汇通过汉字转拼音算法将词汇将汉字转化为拼音,通过拼音转换算法和拼音库将原始汉字和目标汉字转换成拼音,将拼音的声母韵母单独拆分,通过拼接算法,高频发音错误集,参数将拼接出来的拼音和目标拼音使用KMP算法做匹配。若达到阈值,则认为它是目标汉字,当根据服务器内的词库匹配成功后则直接对原语句进行替换则将目标汉字替换到原汉字字符串中,输出,当匹配失败后则直接返回输出失败,对文本句子进行分词处理。
优选的,分词算法还包括基于词典的方法、正向最大匹配思想MM、逆向最大匹配算法RMM、双向最大匹配法Bi-directction Matching method,BM、设立切分标志法、最佳匹配OM、基于统计的分词、基于规则的分词。
优选的,基于统计的分词包括N-gram模型思想、隐马尔科夫模型思想,的最佳匹配OM包括正向顺序排列和逆向顺序排列。
优选的,的分词算法内包括分割模块、识别比较模块,输入的语句进入服务器后与内部的词库进行识别对比后将输入语句进行分割分词。
优选的,词库默认按照使用频率高的词汇进行识别比较,识别比较模块与服务器的词库及服务器数据库连接。
优选的,拼音切分算法与服务器的拼音库及服务器数据库连接。
(三)有益效果
本发明提供了一种ASR语言模型识别标注与优化方法及其装置。具备以下有益效果:
(一)、该ASR语言模型识别标注与优化方法及其装置,对纯中文文本进行专业词汇进行纠正而且效果好,利用拼音库,依赖的库及资源少。
(二)、该ASR语言模型识别标注与优化方法及其装置,通用性很好,兼容新出现的专业词汇,该方案简洁,高效,部署方便,适配各种软硬件环境。
附图说明
图1为本发明整体优化装置的结构示意图;
图2为本发明优化方法例子的工作流程示意图;
图3为本发明分词算法局部的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-3,本发明提供一种技术方案:一种ASR语言模型识别标注与优化方法及其装置,包括以下组成:
语音输入模块:使用者输入语音模型,并进行语音识别;
中控处理器:对语言算法进行计算处理,并且用于连接服务器;
服务器;用于连接大数据库;
分词算法:NLP的底层任务由易到难大致可以分为词法分析、句法分析和语义分析。分词是词法分析中最基本的任务,最大匹配分词寻找最优组合的方式是将匹配到的最长词组合在一起。主要的思路是先将词典构造成一棵Trie树,通过拼音相近检索算法以及词汇使用频率进行对比分词;
汉字转拼音算法:将汉字转化为拼音的语言算法;
拼音切分算法:将拼音进行单独切分,将拼音的声母韵母单独拆分;
智能拼接算法:对切分的拼音根据词频和词库优选进行重新拼接,拼音完成后输出;
词库:包含常用词汇、高频词汇,用于和输入的语音模型进行对比;
拼音库:包括词库汉字的拼音库。
语音输入进入中控处理器,中控处理器连接服务器将语音输入后,服务器内的分词算法首先对输入的句子根据词库作为参考进行分词,分词之后词汇通过汉字转拼音算法将词汇将汉字转化为拼音,通过拼音转换算法和拼音库将原始汉字和目标汉字转换成拼音,将拼音的声母韵母单独拆分,通过拼接算法,高频发音错误集,参数将拼接出来的拼音和目标拼音使用KMP算法做匹配。若达到阈值,则认为它是目标汉字,当根据服务器内的词库匹配成功后则直接对原语句进行替换则将目标汉字替换到原汉字字符串中,输出,当匹配失败后则直接返回输出失败,对文本句子进行分词处理。
分词算法还包括基于词典的方法、正向最大匹配思想MM、逆向最大匹配算法RMM、双向最大匹配法Bi-directction Matching method,BM、设立切分标志法、最佳匹配OM、基于统计的分词、基于规则的分词。
基于统计的分词包括N-gram模型思想、隐马尔科夫模型思想,最佳匹配OM包括正向顺序排列和逆向顺序排列。
分词算法内包括分割模块、识别比较模块,输入的语句进入服务器后与内部的词库进行识别对比后将输入语句进行分割分词。
词库默认按照使用频率高的词汇进行识别比较,识别比较模块与服务器的词库及服务器数据库连接。
拼音切分算法与服务器的拼音库及服务器数据库连接。
使用时,语音输入进入中控处理器,中控处理器连接服务器将语音输入后,服务器内的分词算法首先对输入的句子根据词库作为参考进行分词,分词之后词汇通过汉字转拼音算法将词汇将汉字转化为拼音,通过拼音转换算法和拼音库将原始汉字和目标汉字转换成拼音,将拼音的声母韵母单独拆分,通过拼接算法,高频发音错误集,参数将拼接出来的拼音和目标拼音使用KMP算法做匹配。若达到阈值,则认为它是目标汉字,当根据服务器内的词库匹配成功后则直接对原语句进行替换则将目标汉字替换到原汉字字符串中,输出,当匹配失败后则直接返回输出失败,对文本句子进行分词处理;
如,语音输入“我是胡建人”,分词算法通过服务器的词库及服务器数据库进行对比,将“我是胡建人”分出“我”,“是”,“胡建”,“人”,其中的“胡建”对比识别词库内的高频词汇“福建”,将“我”,“是”,“胡建”,“人”进行汉字转拼音算法将词汇进行拼音化得到“wo,shi,hujian,ren”和“fujian”,拼音通过拼音切分算法将所有的拼音进行单独切分,得到“h,u,j,i,an”和“f,u,j,i,an”,对原句进行智能拼接,替换原拼音,当替换成功得到“我是福建人”,当替换失败则返回failed。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下。由语句“包括一个......限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素”。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (6)

1.一种ASR语言模型识别标注与优化装置,其特征在于,包括以下组成:
语音输入模块:使用者输入语音模型,并进行语音识别;
中控处理器:对语言算法进行计算处理,并且用于连接服务器;
服务器;用于连接大数据库;
分词算法:NLP的底层任务由易到难可以分为词法分析、句法分析和语义分析;分词是词法分析中最基本的任务,最大匹配分词寻找最优组合的方式是将匹配到的最长词组合在一起;先将词典构造成一棵Trie树,通过拼音相近检索算法以及词汇使用频率进行对比分词;
汉字转拼音算法:将汉字转化为拼音的语言算法;
拼音切分算法:将拼音进行单独切分,将拼音的声母韵母单独拆分;
智能拼接算法:对切分的拼音根据词频和词库优选进行重新拼接,拼音完成后输出;
词库:包含常用词汇、高频词汇,用于和输入的语音模型进行对比;
拼音库:包括词库汉字的拼音库;
语音输入进入中控处理器,中控处理器连接服务器将语音输入后,服务器内的分词算法首先对输入的句子根据词库作为参考进行分词,分词之后词汇通过汉字转拼音算法将词汇将汉字转化为拼音,通过拼音转换算法和拼音库将原始汉字和目标汉字转换成拼音,将拼音的声母韵母单独拆分,通过拼接算法,高频发音错误集,参数将拼接出来的拼音和目标拼音使用KMP算法做匹配;若达到阈值,则认为它是目标汉字,当根据服务器内的词库匹配成功后则直接对原语句进行替换则将目标汉字替换到原汉字字符串中,输出,当匹配失败后则直接返回输出失败,对文本句子进行分词处理。
2.根据权利要求1所述的一种ASR语言模型识别标注与优化装置,其特征在于:所述的分词算法内包括分割模块、识别比较模块,输入的语句进入服务器后与内部的词库进行识别对比后将输入语句进行分割分词。
3.根据权利要求2所述的一种ASR语言模型识别标注与优化装置,其特征在于:所述词库默认按照使用频率高的词汇进行识别比较,所述识别比较模块与服务器的词库及服务器数据库连接。
4.根据权利要求1所述的一种ASR语言模型识别标注与优化装置,其特征在于:所述拼音切分算法与服务器的拼音库及服务器数据库连接。
5.一种如权利要求1所述的ASR语言模型识别标注与优化装置的优化方法,其特征在于:所述分词算法还包括基于词典的方法、正向最大匹配思想MM、逆向最大匹配算法RMM、双向最大匹配法Bi-directction Matching method,BM、设立切分标志法、最佳匹配OM、基于统计的分词和基于规则的分词。
6.根据权利要求5所述的一种优化方法,其特征在于:所述基于统计的分词包括N-gram模型思想、隐马尔科夫模型思想,所述的最佳匹配OM包括正向顺序排列和逆向顺序排列。
CN201911068372.7A 2019-11-05 2019-11-05 一种asr语言模型识别标注与优化方法及其装置 Active CN110942767B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911068372.7A CN110942767B (zh) 2019-11-05 2019-11-05 一种asr语言模型识别标注与优化方法及其装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911068372.7A CN110942767B (zh) 2019-11-05 2019-11-05 一种asr语言模型识别标注与优化方法及其装置

Publications (2)

Publication Number Publication Date
CN110942767A CN110942767A (zh) 2020-03-31
CN110942767B true CN110942767B (zh) 2023-03-17

Family

ID=69906518

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911068372.7A Active CN110942767B (zh) 2019-11-05 2019-11-05 一种asr语言模型识别标注与优化方法及其装置

Country Status (1)

Country Link
CN (1) CN110942767B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112185356A (zh) * 2020-09-29 2021-01-05 北京百度网讯科技有限公司 语音识别方法、装置、电子设备以及存储介质
CN112116907A (zh) * 2020-10-22 2020-12-22 浙江同花顺智能科技有限公司 语音识别模型建立、语音识别方法、装置、设备和介质
CN112133295B (zh) * 2020-11-09 2024-02-13 北京小米松果电子有限公司 语音识别方法、装置及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109361823A (zh) * 2018-11-01 2019-02-19 深圳市号互联科技有限公司 一种语音与文本相互转化的智能交互方式
CN109977361A (zh) * 2019-03-01 2019-07-05 广州多益网络股份有限公司 一种基于相似词的汉语拼音标注方法、装置及存储介质
CN110083711A (zh) * 2019-05-13 2019-08-02 成都启英泰伦科技有限公司 一种汉字拼音转换方法及转换系统
CN110210029A (zh) * 2019-05-30 2019-09-06 浙江远传信息技术股份有限公司 基于垂直领域的语音文本纠错方法、系统、设备及介质
CN110245331A (zh) * 2018-03-09 2019-09-17 中兴通讯股份有限公司 一种语句转换方法、装置、服务器及计算机存储介质
WO2019200923A1 (zh) * 2018-04-19 2019-10-24 京东方科技集团股份有限公司 基于拼音的语义识别方法、装置以及人机对话系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102339716B1 (ko) * 2017-06-30 2021-12-14 삼성에스디에스 주식회사 음성 인식 방법 및 그 장치

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110245331A (zh) * 2018-03-09 2019-09-17 中兴通讯股份有限公司 一种语句转换方法、装置、服务器及计算机存储介质
WO2019200923A1 (zh) * 2018-04-19 2019-10-24 京东方科技集团股份有限公司 基于拼音的语义识别方法、装置以及人机对话系统
CN109361823A (zh) * 2018-11-01 2019-02-19 深圳市号互联科技有限公司 一种语音与文本相互转化的智能交互方式
CN109977361A (zh) * 2019-03-01 2019-07-05 广州多益网络股份有限公司 一种基于相似词的汉语拼音标注方法、装置及存储介质
CN110083711A (zh) * 2019-05-13 2019-08-02 成都启英泰伦科技有限公司 一种汉字拼音转换方法及转换系统
CN110210029A (zh) * 2019-05-30 2019-09-06 浙江远传信息技术股份有限公司 基于垂直领域的语音文本纠错方法、系统、设备及介质

Also Published As

Publication number Publication date
CN110942767A (zh) 2020-03-31

Similar Documents

Publication Publication Date Title
US11721329B2 (en) Method, system and apparatus for multilingual and multimodal keyword search in a mixlingual speech corpus
US6278968B1 (en) Method and apparatus for adaptive speech recognition hypothesis construction and selection in a spoken language translation system
US6243669B1 (en) Method and apparatus for providing syntactic analysis and data structure for translation knowledge in example-based language translation
US6374224B1 (en) Method and apparatus for style control in natural language generation
US8069045B2 (en) Hierarchical approach for the statistical vowelization of Arabic text
US7275034B2 (en) Word-specific acoustic models in a speech recognition system
US8131539B2 (en) Search-based word segmentation method and device for language without word boundary tag
US6442524B1 (en) Analyzing inflectional morphology in a spoken language translation system
US8566076B2 (en) System and method for applying bridging models for robust and efficient speech to speech translation
US7873508B2 (en) Apparatus, method, and computer program product for supporting communication through translation between languages
Karpov et al. Large vocabulary Russian speech recognition using syntactico-statistical language modeling
US20020198713A1 (en) Method and apparatus for perfoming spoken language translation
US9978364B2 (en) Pronunciation accuracy in speech recognition
CN110942767B (zh) 一种asr语言模型识别标注与优化方法及其装置
WO2000045376A1 (en) A method and apparatus for interactive source language expression recognition and alternative hypothesis presentation and selection
WO2000045374A1 (en) A method and portable apparatus for performing spoken language translation
US8170865B2 (en) Speech recognition device and method thereof
Marin et al. Using syntactic and confusion network structure for out-of-vocabulary word detection
Karanasou et al. Comparing SMT methods for automatic generation of pronunciation variants
Gao et al. MARS: A statistical semantic parsing and generation-based multilingual automatic translation system
Orosanu et al. Adding new words into a language model using parameters of known words with similar behavior
Bonneau-Maynard et al. Investigating stochastic speech understanding
Laurent et al. Improving recognition of proper nouns in ASR through generating and filtering phonetic transcriptions
JP3441400B2 (ja) 言語変換規則作成装置、及びプログラム記録媒体
KR20050101695A (ko) 인식 결과를 이용한 통계적인 음성 인식 시스템 및 그 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant