CN108140019B - 语言模型生成装置、语言模型生成方法以及记录介质 - Google Patents
语言模型生成装置、语言模型生成方法以及记录介质 Download PDFInfo
- Publication number
- CN108140019B CN108140019B CN201580083593.5A CN201580083593A CN108140019B CN 108140019 B CN108140019 B CN 108140019B CN 201580083593 A CN201580083593 A CN 201580083593A CN 108140019 B CN108140019 B CN 108140019B
- Authority
- CN
- China
- Prior art keywords
- sentence
- text
- language model
- alternative
- morpheme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 24
- 230000014509 gene expression Effects 0.000 claims abstract description 73
- 238000000605 extraction Methods 0.000 claims description 52
- 238000004364 calculation method Methods 0.000 claims description 33
- 239000000284 extract Substances 0.000 claims description 15
- 238000006467 substitution reaction Methods 0.000 claims description 11
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 56
- 238000004458 analytical method Methods 0.000 description 22
- 230000000877 morphologic effect Effects 0.000 description 20
- 238000012545 processing Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 9
- 230000000694 effects Effects 0.000 description 3
- 238000009499 grossing Methods 0.000 description 3
- 238000009991 scouring Methods 0.000 description 3
- 238000000926 separation method Methods 0.000 description 3
- 230000010354 integration Effects 0.000 description 2
- 230000002688 persistence Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 241001122767 Theaceae Species 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000009004 jinqing Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 239000011435 rock Substances 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
本发明的语言模型生成装置具有:替换语句生成部,其使用由多个句子构成的学习用的例文中包含的语句的各词素、和词素的原始表述的近义词,来生成由词素的原始表述与词素的原始表述的近义词的组合和各词素的原始表述的近义词彼此间的组合构成的多个替换语句;以及语言模型生成部,其根据生成的多个替换语句和学习用的例文生成作为N元模型的语言模型,因此,能够获得即使是学习用的例文中不存在的单词链也会减少语音识别的误识别的语言模型。
Description
技术领域
本发明涉及使用除了根据学习用的例文以外还根据例文中包含的语句的近义语句(替换语句)进行学习而得到的N元(N-gram)来生成语言模型的技术。
背景技术
通过语音识别而使语音文本化的技术在医疗或法律领域的抄录、广播字幕的生成等多个领域中是有用的。通过使语音文本化,能够容易地进行对数据库的检索。
例如,在由呼叫中心使通话语音文本化并将语音与文本相关联时,通过对文本进行字符串检索,能够容易地检索与文本相关联的语音。由此,能够将通话语音中包含的顾客名称或产品编号等缩小成检索关键字,精确地进行监视检查。但是,有时语音识别的结果中包含误识别,误识别成为检索精度下降的原因。课题在于如何减少该误识别。
在目前的语音识别技术中,一般使用将语音的特征与音素对应的声音模型、以及表现出连接的单词间关系的语言模型。作为用于高精度地识别语音的语言模型,使用非专利文献1~3中记载的N元模型(N-gram model)的方式备受关注。N元模型是通过根据学习用的例文进行学习而生成的、根据紧前的(N-1)个单词预测接下来出现的单词的概率语言模型。
在N元模型中有着学习用的例文中不存在的单词链的出现概率会变为0的问题,该问题称作稀疏(Sparseness)问题。为了应对该问题,一般使用平滑处理(smoothing)(参照下述非专利文献2)。
现有技术文献
非专利文献
非专利文献1:鹿野清宏、伊藤克亘、河原達也、武田一哉、山本幹雄著、「音声認識システム」、株式会社オーム社,平成13年5月15日、p.53-155
非专利文献2:北研二、辻井潤一著、「確率的言語モデル」、東京大学出版会、1999年11月25日、p.57~99
非专利文献3:長尾真著、「自然言語処理」、岩波書店、1996年4月26日、p.118~137
发明内容
发明要解决的课题
但是,由于在平滑处理中,使用值比目前的N值小的概率值进行预测,因此在语言模型中包含实际上不会产生的单词链,从而存在误识别的可能性升高的问题。
本发明正是为了解决上述那样的问题而完成的,其目的在于获得一种语言模型生成装置,生成即使是学习用的例文中不存在的单词链也会降低语音识别的误识别这样的语言模型。
用于解决问题的手段
本发明的语言模型生成装置具有:替换语句生成部,其使用由多个句子构成的学习用的例文中包含的语句的各词素、和词素的原始表述的近义词,来生成由词素的原始表述与词素的原始表述的近义词的组合和各词素的原始表述的近义词彼此间的组合构成的多个替换语句;以及语言模型生成部,其根据生成的多个替换语句和学习用的例文生成作为N元模型的语言模型。
本发明的语言模型生成方法具有:替换语句生成步骤,使用由多个句子构成的学习用的例文中包含的语句的各词素、和词素的原始表述的近义词,来生成由词素的原始表述与词素的原始表述的近义词的组合和各词素的原始表述的近义词彼此间的组合构成的多个替换语句;以及语言模型生成步骤,根据生成的多个替换语句和学习用的例文生成作为N元模型的语言模型。
本发明的语言模型生成程序使计算机执行如下步骤:替换语句生成步骤,使用由多个句子构成的学习用的例文中包含的语句的各词素、和词素的原始表述的近义词,来生成由词素的原始表述与词素的原始表述的近义词的组合和各词素的原始表述的近义词彼此间的组合构成的多个替换语句;以及语言模型生成步骤,根据生成的多个替换语句和学习用的例文生成作为N元模型的语言模型。
本发明的语音识别装置具有:语言模型存储部,其存储作为N元模型的语言模型,该作为N元模型的语言模型是使用由多个句子构成的学习用的例文中包含的语句的各词素、和词素的原始表述的近义词,根据由词素的原始表述与词素的原始表述的近义词的组合和各词素的原始表述的近义词彼此间的组合构成的多个替换语句以及学习用的例文来生成的;声音模型存储部,其存储由语音的特征量的图形构成的声音模型;语音输入部,其被输入语音信号;以及语音识别部,其使用语言模型和声音模型来识别语音信号,并输出语音识别结果。
本发明的语音识别方法具有:语言模型存储步骤,存储作为N元模型的语言模型,该作为N元模型的语言模型是使用由多个句子构成的学习用的例文中包含的语句的各词素、和词素的原始表述的近义词,根据由词素的原始表述与词素的原始表述的近义词的组合和各词素的原始表述的近义词彼此间的组合构成的多个替换语句以及学习用的例文来生成的;声音模型存储步骤,存储由语音的特征量的图形构成的声音模型;语音输入步骤,输入语音信号;以及语音识别步骤,使用语言模型和声音模型来识别语音信号,并输出语音识别结果。
本发明的语音识别程序用于使计算机执行以下步骤:语言模型存储步骤,存储作为N元模型的语言模型,该作为N元模型的语言模型是使用由多个句子构成的学习用的例文中包含的语句的各词素、和词素的原始表述的近义词,根据由词素的原始表述与词素的原始表述的近义词的组合和各词素的原始表述的近义词彼此间的组合构成的多个替换语句以及学习用的例文而生成的;声音模型存储步骤,存储由语音的特征量的图形构成的声音模型;语音输入步骤,输入语音信号;以及语音识别步骤,使用语言模型和声音模型来识别语音信号,并输出语音识别结果。
发明效果
根据本发明,使用除了根据学习用的例文以外还根据例文中包含的语句的近义语句即替换语句进行学习而得到的N元来生成语言模型,因此,能够获得即使是学习用的例文中不存在的单词链也会降低语音识别的误识别的语言模型。
附图说明
图1是示出实施方式1的语言模型生成装置的结构的框图。
图2是示出实施方式1的近义词字典的数据的例子的图。
图3是示出实施方式1的学习例文中包含的语句“いい音で聞く”的图。
图4是示出实施方式1的替换语句生成部的处理流程的流程图。
图5是示出实施方式1的词素列的图。
图6是示出实施方式1的赋予了近义词的词素列的图。
图7是示出实施方式1的替换语句的图。
图8是示出实施方式1的原文提取部、N元生成部、替换文提取部、似然度计算部和替换语句提取部的处理流程的流程图。
图9是示出实施方式1的原文的图。
图10是示出实施方式1的替换文的图。
图11是示出实施方式1的替换文的似然度信息的图。
图12是示出实施方式1的替换语句及其平均似然度的列表的图。
图13是示出实施方式1的具有小于阈值的平均似然度的替换语句的列表的图。
图14是示出实施方式1的语言模型生成装置的硬件结构的框图。
图15是示出使用由实施方式1的语言模型生成装置生成的语言模型的语音识别装置的结构的框图。
图16是示出使用由实施方式1的语言模型生成装置生成的语言模型的语音识别装置的硬件结构的框图。
图17是示出实施方式1的语言模型生成装置的结构的框图。
图18是示出实施方式2的语言模型生成装置的结构的框图。
图19是示出实施方式2的不同表述存储部存储的数据的例子的图。
图20是示出实施方式2的将不同记述统一后的替换语句及其平均似然度的列表的图。
图21是示出实施方式2的具有小于阈值的平均似然度的替换语句的列表的图。
图22是示出实施方式3的原文的图。
图23是示出实施方式3的替换文的图。
图24是示出实施方式3的对原文进行词素分析而得到的词素分析结果的图。
图25是示出实施方式3的根据词素分析结果转换而成的原文.text文件的图。
图26是示出实施方式3的使用语言模型生成工具来生成语言模型的顺序的图。
图27是示出实施方式3的作为N元语言模型的一例的原文.arpa文件的图。
图28是示出实施方式3的对替换文进行词素分析而得到的词素分析结果的图。
图29是示出实施方式3的PP和覆盖率的计算结果的图。
图30是示出实施方式3的替换文.anno文件的图。
具体实施方式
实施方式1
图1是示出实施方式1的语言模型生成装置100的结构的框图。语言模型生成装置100由语句输入部101、替换语句生成部102、原文提取部103、N元生成部104、替换文提取部105、似然度计算部106、替换语句提取部107和语言模型生成部108构成。语言模型生成装置100以学习例文存储部110、近义词字典111、语料库112为输入,输出语言模型113。
学习例文存储部110是存储用于生成语言模型的学习用的例文的存储部。学习例文使用语音识别对象领域的例文。在本实施方式中,设想对在应对家用电器的询问的呼叫中心被交换的语音进行识别的情况,设学习例文为家用电器的使用说明书中登载的整个文章。在使用说明书中记述有例如“いい音で聞くには、サラウンドモードにして…”这样的家用电器的操作和设定方法。通过将使用说明书作为学习例文而并入到语言模型中,能够提高使用说明书中记载的单词链的识别率。
近义词字典111是登载有近义词的字典的数据。
图2是示出实施方式1的近义词字典111的数据的例子的图。与原始表述对应地示出了近义词。“いい”的近义词为“素晴らしい”、“正しい”、“可愛い”。“音”的近义词为“音調”、“声”。“聞く”的近义词为“聴く”、“差し出す”。
语料库112是集成自然语言的文档而成的大规模数据。语料库112是在将文档的各句子分解成词素以后对各词素赋予了词性信息的带标签语料库。
语句输入部101根据来自用户的指示从学习例文存储部110中存储的学习例文依次读出语句,并将所读出的语句输出到替换语句生成部102和原文提取部103。
替换语句生成部102参照近义词字典111,生成从语句输入部101输入的语句的近义语句即替换语句,并将所生成的替换语句输出到替换文提取部105。
原文提取部103参照学习例文存储部110,从学习例文将包含从语句输入部101输入的语句的句子全部提取出来,并将提取出的句子作为原文输出到N元生成部104。
N元生成部104根据原文进行学习而生成N元,并将所生成的N元输出到似然度计算部106。
替换文提取部105参照语料库112,从语料库112提取包含从替换语句生成部102输入的替换语句的句子,将提取出的句子作为替换文输出到似然度计算部106。
似然度计算部106根据从N元生成部104输入的N元和从替换文提取部105输入的替换文来计算表示各替换文是否接近原文的上下文的似然度,将替换文及其似然度输出到替换语句提取部107。
替换语句提取部107提取从似然度计算部106输入的替换文中的、似然度为阈值以下的替换文,并将提取出的替换文输出到语言模型生成部108。本实施方式中的似然度的值越小,则表示越接近原文的上下文。
语言模型生成部108利用从替换语句提取部107输入的替换语句和学习例文存储部110中存储的学习例文来学习N元,生成语言模型113,并输出所生成的语言模型113。
接着,设语句输入部101从学习例文存储部110读出的语句为“いい音で聞く”来说明详细的动作。
图3是示出实施方式1的学习例文中包含的语句501“いい音で聞く”的图。
首先,使用图4~7,对替换语句生成部102的动作进行说明。
图4是示出实施方式1的替换语句生成部102的处理流程的流程图。
图5是示出实施方式1的词素列502的图。“/”表示词素的分隔。
图6是示出实施方式1的赋予了近义词的词素列503的图。“,”是近义词的分隔,“「」/「」”是表示表现近义词的单词列的列表的开始、结束的符号。
图7是示出实施方式1的替换语句504的图。
替换语句生成部102对从语句输入部101输入的语句“いい音で聞く”进行词素分析。在词素分析中,将所输入的语句分解为作为具有含义的最小单位的词素。“いい音で聞く”通过词素分析,成为词素列502“いい/音/で/聞く”。图5示出词素列502(图4的步骤S11)。
接着,替换语句生成部102参照近义词字典111,查询除了助词以外的全部词素的近义词。
替换语句生成部102利用近义词字典111来检索以词素列502的第1个词素“いい”为原始表述的近义词,读出“素晴らしい、正しい、可愛い”。替换语句生成部102生成对原始表述追加近义词而成的“[いい、素晴らしい、正しい、可愛い]”这样的列表,与词素列502的第1个词素“いい”进行调换。接着,替换语句生成部102利用近义词字典111来检索词素列502的第2个词素“音”的近义词,读出“音調、声”。替换语句生成部102生成对原始表述追加近义词而成的“[音、音調、声]”这样的列表,与词素列502的第2个词素“音”进行调换。
词素列502的第3个词素“で”是助词,因此,替换语句生成部102不进行任何动作。接着,替换语句生成部102利用近义词字典111来检索词素列502的第4个词素“聞く”的近义词,读出“聴く、差し出す”。替换语句生成部102生成对原始表述追加近义词而成的“[聞く、聴く、差し出す]”这样的列表,与词素列502的第4个词素“聞く”进行调换。这样,替换语句生成部102生成对词素列502赋予近义词而成的词素列503“[いい、素晴らしい、正しい、可愛い]/[音、音調、声]/で/[聞く、聴く、差し出す]”。图6示出赋予近义词而成的词素列503(图4的步骤S12)。
接着,替换语句生成部102根据赋予近义词而成的词素列503生成由各词素组合而成的替换语句504,并将替换语句504输出到替换语句提取部107。但是,替换语句504不包括使各词素全部为原始表述的组合。包括近义词在内,“いい”有4种单词、“声音(音)”有3种单词、“听(聞く)”有3种单词,因此,“いい音で聞く”的替换语句504为4×3×3-1=35种组合。替换语句504是将语句501的多个词素中的1个以上的词素置换为原始表述的近义词而成的。图7示出“いい音で聞く”的替换语句504(图4的步骤S13)。
接着,使用图8~12,对原文提取部103、N元生成部104、替换文提取部105、似然度计算部106和替换语句提取部107的动作进行说明。
图8是示出实施方式1的原文提取部103、N元生成部104、替换文提取部105、似然度计算部106和替换语句提取部107的处理流程的流程图。
图9是示出实施方式1的原文505的图。
图10是示出实施方式1的替换文506的图。
图11是示出实施方式1的替换文506的似然度信息的图。
图12是示出实施方式1的替换语句504及其平均似然度的列表508的图。
原文提取部103参照学习例文存储部110存储的学习例文,将学习例文中的包含语句501“いい音で聞く”的句子全部提取出来。在本实施方式中,将提取出的这些句子称作原文。原文提取部103将原文输出到N元生成部104。图9示出包含“いい音で聞く”的原文505(图8的步骤S21)。
接着,N元生成部104根据从原文提取部103输入的原文来生成N元语言模型,并将该N元语言模型输出到似然度计算部106。生成N元语言模型的处理应用公知的方法即可。N元生成部104通过例如非专利文献1的第53~65页中记载的方法生成N元语言模型(图8的步骤S22)。
接着,替换文提取部105参照语料库112,将包含从替换语句生成部102输入的替换语句504中的任意替换语句的句子全部提取出来。替换文提取部105将提取出的句子作为替换文而输出到似然度计算部106。作为替换文的例子,在图10中示出包含替换语句“いい音で聴く”的替换文506(图8的步骤S23)。
接着,似然度计算部106使用从N元生成部104输入的N元语言模型和从替换文提取部105输入的替换文506来计算单词测试集复杂度(以下,称作PP)和覆盖率(在本实施方式中为单词覆盖率)。PP是用于评价语言模型的标准,以某个单词出现1个的概率的几何平均数的倒数来定义。在PP较低时,意味着该语言模型的区别欲识别的句子和非欲识别的句子的能力较高。覆盖率是表示语言模型覆盖单词链的比例的值。PP和覆盖率是使用N元语言模型和替换文506以公知的方法求出的。在实施方式3中记载了求出PP和覆盖率的方法的详细内容。
似然度计算部106使用PP和覆盖率C,利用数式(1)求出似然度L。这时,α是未知词修正常数,在本实施方式中为4。
[数学式1]
L=C·log(PP)+(1-C)·α…数式 (1)
图11示出替换文506的似然度信息。“スピーカーでいい音で聴くためにオーディオを揃えるのもいいが……”的覆盖率为100.0%、PP为108.7,似然度为2.04。“このいい音で聴くためにはいろいろな条件がありますがスピーカーに……”的覆盖率为100.0%、PP为128.2、似然度为2.11。似然度可以说是用覆盖率修正各替换文506相对于原文的交叉熵而得到的值。似然度表示各替换文506的上下文与整个原文505的接近度(图8的步骤S24)。
接着,似然度计算部106计算各替换语句504的平均似然度。平均似然度μ用数式(2)求出。这时,设相同的替换语句的数量为n,相同的替换语句的似然度为Tn。
[数学式2]
似然度计算部106将替换语句504及其平均似然度的列表508输出到替换语句提取部107。图12示出替换语句504及其平均似然度的列表508(图8的步骤S25)。
接着,替换语句提取部107提取替换语句504中的、平均似然度小于阈值的替换语句。在本实施方式中,假设替换语句提取部107预先保持有阈值2.68。似然度越低,则交叉熵越低,从而上下文越接近,因此,替换语句的含义与原文类似的概率越高。
图13是示出实施方式1的具有小于阈值的平均似然度的替换语句的列表509的图。
替换语句提取部107将具有小于阈值的平均似然度的替换语句的列表509输出到语言模型生成部108(图8的步骤S26)。
语言模型生成部108使用从替换语句提取部107输入的替换语句和学习例文存储部110中存储的学习例文来生成N元模型的语言模型并输出。语言模型例如利用非专利文献1的第53~65页中记载的方法生成。
接着,对本实施方式的语言模型生成装置的硬件结构进行说明。
图14是示出实施方式1的语言模型生成装置100的硬件结构的框图。语言模型生成装置100由存储器121和处理器122构成。
存储器121存储用于实现语句输入部101、替换语句生成部102、原文提取部103、N元生成部104、替换文提取部105、似然度计算部106、替换语句提取部107和语言模型生成部108的各功能的程序和数据。存储器121例如由ROM(Read Only Memory:只读存储器)、RAM(Random Access Memory:随机存取存储器)、HDD(Hard Disk Drive:硬盘驱动器)、SSD(Solid State Drive:固态硬盘)构成。
处理器122读出存储器121中存储的程序和数据,实现语句输入部101、替换语句生成部102、原文提取部103、N元生成部104、替换文提取部105、似然度计算部106、替换语句提取部107和语言模型生成部108的各功能。处理器122由执行存储器121中存储的程序的CPU、系统LSI(Large Scale Integration:大规模集成电路)等处理电路实现。
另外,也可以构成为由多个处理电路协作执行语句输入部101、替换语句生成部102、原文提取部103、N元生成部104、替换文提取部105、似然度计算部106、替换语句提取部107和语言模型生成部108的功能。此外,语句输入部101、替换语句生成部102、原文提取部103、N元生成部104、替换文提取部105、似然度计算部106、替换语句提取部107和语言模型生成部108的各功能也可以利用由存储器121和处理器122构成的处理电路,通过硬件实现。
接着,对利用了以此方式而生成的语言模型113的语音识别装置进行说明。
图15是示出使用由实施方式1的语言模型生成装置100生成的语言模型113的语音识别装置200的结构的框图。语音识别装置200由语音输入部201、语音识别部202、语言模型存储部203、声音模型存储部204和显示部205构成。
语音输入部201将用户发出的语音转换为可进行数字处理的数字语音信号。语音输入部201输出的数字语音信号被输入到语音识别部202中。
语言模型存储部203存储有从上述语言模型生成装置100输出的语言模型113。
声音模型存储部204以音素为单位存储有由语音的标准特征量的图形构成的声音模型。在语音识别处理中,声音模型用于与输入语音的特征量对照并以音素为单位识别输入语音。
语音识别部202参照声音模型存储部204中存储的声音模型和语言模型存储部203中存储的语言模型113,对所输入的数字语音信号进行语音识别。语音识别部202将最似然的语音识别结果的单词序列输出到显示部205。
显示部205显示从语音识别部202输入的单词序列。
接着,对本实施方式的语音识别装置200的硬件结构进行说明。
图16是示出使用由实施方式1的语言模型生成装置100生成的语言模型113的语音识别装置200的硬件结构的框图。语音识别装置200由麦克风211、存储器212、处理器213和显示器214构成。
麦克风211实现语音输入部201的功能。
存储器212存储用于实现语音识别部202、语言模型存储部203和声音模型存储部204的各功能的程序和数据。存储器212例如由ROM(Read Only Memory:只读存储器)、RAM(Random Access Memory:随机存取存储器)、HDD(Hard Disk Drive:硬盘驱动器)、SSD(Solid State Drive:固态硬盘)构成。
处理器213读出存储器212中存储的程序和数据,实现语音识别部202的各功能。处理器213由执行存储器212中存储的程序的CPU、系统LSI(Large Scale Integration:大规模集成电路)等处理电路来实现。
另外,也可以构成为由多个处理电路协作执行语音识别部202的功能。
显示器214实现显示部205的功能。
即使是相同的意思,根据用户的不同,有时也会将“いい音で聞く”表现为“素晴らしい音で聞く”、“優れた音質で聴く”,如果仅将家用电器的使用说明书的文章作为学习例文,则会存在语音识别部202无法识别的措辞,但通过本实施方式,语音识别部202能够识别更大范围内的措辞。
在本实施方式中,以“いい音で聞く”为例说明了提取替换语句的处理,但语言模型生成装置100是从学习例文存储部110中存储的学习例文读出全部语句,提取全部语句的与原文的上下文接近的替换语句,从而根据学习例文和提取出的替换语句生成语言模型的。但是,在对学习例文的全部语句进行处理时,计算量会增加,因此,例如即使仅对使用说明书的章和节的题目中使用的语句来进行本实施方式的处理并生成语言模型,也具有减少语音识别的误识别的效果。
此外,在本实施方式中,利用替换语句提取部107使用似然度从由替换语句生成部102生成的替换语句504中提取与原文的上下文接近的替换语句,但是也可以根据由替换语句生成部102生成的替换语句和学习例文来完成语言模型。
图17是示出实施方式1的语言模型生成装置120的结构的框图。替换语句生成部102参照近义词字典111,生成从语句输入部101输入的语句的近义语句即替换语句504,并将所生成的替换语句504输出到语言模型生成部108。语言模型生成部108利用从替换语句生成部102输入的替换语句504和学习例文存储部110中存储的学习例文生成N元模型,将所生成的N元模型作为语言模型输出。语言模型生成装置120除了根据学习例文以外还根据替换语句504生成N元模型,因此,能够生成即使是学习例文中不存在的单词链也会减少语音识别的误识别的语言模型。
另外,语言模型生成装置100根据替换语句中的、与原文的上下文接近的替换语句和学习例文来生成语言模型,因此,与语言模型生成装置120相比,不但减少了语言模型生成部108的处理量,还能够生成进一步减少误识别的语言模型。
因此,在本实施方式中,使用除了根据学习例文以外还根据与原文的上下文接近的替换语句进行学习而得到的N元来生成语言模型,因此,能够生成即使是学习例文中不存在的单词链也会减少语音识别的误识别的语言模型。此外,语音识别装置200通过使用这样的语言模型进行语音识别,能够减少误识别。
此外,根据领域的不同,有时无法准备较多的学习例文。由于在这样的情况下,本实施方式也使用除了根据学习例文以外还根据与原文的上下文接近的替换语句进行学习而得到的N元来生成语言模型,因此能够生成减少语音识别的误识别的语言模型。
实施方式2
在以上的实施方式1中,是求出各替换语句的平均似然度,但在本实施方式中,示出在将替换语句中包含的单词的不同表述统一后求出平均似然度的实施方式。由此,会取得如下效果:能够抑制替换语句的似然度的偏差并更高精度地估算似然度。
图18是示出实施方式2的语言模型生成装置100的结构的框图。关于语言模型生成装置100的结构,除了使似然度计算部106参照不同表述存储部114以外,其余都与实施方式1相同。
图19是示出实施方式2的不同表述存储部114存储的数据的例子的图。不同表述存储部114对应地存储意思相同而表述不同的单词。“いい”、“よい”和“良い”、“かわいい”和“可愛い”均是相同意思的不同表述。
在图8的步骤S25中,似然度计算部106在计算各替换语句的平均似然度时,参照不同表述存储部114,除了相同表述的替换语句以外还对不同表述的替换语句的似然度全部进行算术平均,求出平均似然度。
图20是示出实施方式2的将不同表述统一后的替换语句及其平均似然度的列表601的图。在图20中,与实施方式1的图12相比,将“いい音で聴く”、“良い音で聴く”和“よい音で聴く”统一为“いい音で聴く”。此外,将“かわいい声で聞く”、“可愛い声で聞く”统一为“かわいい声で聞く”。
似然度计算部106把将不同表述统一后的替换语句及其平均似然度的列表601输出到替换语句提取部107。
在图8的步骤S26中,替换语句提取部107提取替换语句中的平均似然度小于阈值的替换语句。阈值与实施方式1同样为2.68。
图21是示出实施方式2的具有小于阈值的平均似然度的替换语句的列表602的图。
替换语句提取部107将具有小于阈值的平均似然度的替换语句的列表602输出到语言模型生成部108。
另外,虽然在本实施方式中,不同表述存储部114预先对应地存储有意思相同而表述不同的单词,似然度计算部106参照不同表述存储部114将不同表述的替换语句统一,但也可以不设置不同表述存储部114,而是由用户指示不同表述的替换语句,似然度计算部106依照该指示将不同表述的替换语句统一。
因此,由于在本实施方式中,计算对包含不同表述的替换语句的多个替换文的似然度进行算术平均而得到的平均似然度,因此,能够抑制因不同表述而引起的替换语句的似然度的偏差,从而更高精度地估算似然度。此外,由于不同表述被统一,因此取得了如下效果:即使是语音识别也会抑制语言模型的似然度的偏差。
实施方式3
在上述实施方式1中记载了使用N元语言模型和替换文通过公知的方法求出PP和覆盖率。在本实施方式中,对求出PP和覆盖率的方法的详细内容进行说明。
在本实施方式中,使用日语的N元语言模型和替换文来说明求出PP和覆盖率的方法。
N元语言模型使用非专利文献1的第147~155页中记载的“CMU-Cambridge SLMToolkit”(以下,称作语言模型生成工具)来生成。词素分析使用非专利文献1的第135页中记载的词素分析器“茶筅”来进行。在词素分析中,开头、文末用<s>标记来表示。此外,PP和覆盖率通过非专利文献1的第153~154页中记载的语言模型的评价方法来求出。
图22是示出实施方式3的原文701的图。
图23是示出实施方式3的替换文702的图。
图24是示出实施方式3的对原文701进行词素分析而得到的词素分析结果703的图。各行示出1个词素,各个列示出词素的表述、读法、原型、词性。EOS表示文末。
图25是示出实施方式3的根据词素分析结果703转换而成的原文.text文件704的图。在原文.text文件704中,各词素以“表述+读法+词性”示出,与下一个词素之间的分隔用空白表示。
图26是示出实施方式3的使用语言模型生成工具来生成语言模型的顺序705的图。
图27是示出实施方式3的作为N元语言模型的一例的原文.arpa文件706的图。
图28是示出实施方式3的对替换文702进行词素分析而得到的词素分析结果707的图。
图29是示出实施方式3的PP和覆盖率的计算结果708的图。
图30是示出实施方式3的替换文.anno文件709的图。
以下说明详细情况。原文使用图22的原文701,替换文使用图23的替换文702。N元生成部104利用词素分析器“茶筅”对从原文提取部103输入的原文701进行词素分析,得到词素分析结果703。接着,N元生成部104根据词素分析结果703转换为原文.text文件704。接着,N元生成部104通过图26所示的语言模型生成顺序,根据原文.text文件704生成原文.arpa文件706,将原文.arpa文件706作为N元语言模型输出到似然度计算部106。在图27所示的原文.arpa文件706中,作为折扣(discount)方法,示出了Good-Turing的参数值、N元的条目数、1-gram、2-gram、3-gram各自的对数似然度和回退系数。
并且,N元生成部104以与原文701相同的顺序,利用词素分析器“茶筅”对替换文702进行词素分析,得到词素分析结果707。接着,N元生成部104将词素分析结果707转换为替换文.text707,将替换文.text707输出到似然度计算部106。
似然度计算部106根据原文.arpa文件706和替换文.text707,使用语言模型生成工具来计算PP和覆盖率。原文.arpa文件706是从N元生成部104输出的N元语言模型。图29示出PP和覆盖率的计算结果708。在语言模型生成工具中,用evallm指令输入原文.arpa文件,接着,用perplexity指令输入替换文.text,由此得到Perplexity(复杂度)=9.07、OOVs(50.00%)。OOV表示未知词率,根据该结果,得到PP=9.07、覆盖率=100.0-50.0=50.0%。将该计算过程作为替换文.anno文件709输出。
替换文.anno文件709的各行示出能够利用N元语言模型来进行计数的单词的产生概率。对替换文.text707的12个单词能够计算的单词是6行的6个单词,因此,覆盖率为6÷12×100=50而成为50%。此外,能够计算的单词为6个单词,因此,PP=(0.0769308×0.0769308×0.0769308×0.666653×0.0769308×0.0769308)^(-1÷6))=9.0698440,对小数点以后第3位进行四舍五入,成为9.07。另外,为了使计算简单,也可以使用对数几率即logprob。
这样,能够使用原文和替换文,来计算PP和覆盖率。
因此,在本实施方式中,似然度计算部106使用原文和替换文来计算PP和覆盖率,因此,能够计算表示替换文是否与原文的上下文接近的似然度。
标号说明
100、120:语言模型生成装置;101:语句输入部;102:替换语句生成部;103:原文提取部;104:N元生成部;105:替换文提取部;106:似然度计算部;107:替换语句提取部;108:语言模型生成部;110:学习例文存储部;111:近义词字典;112:语料库;113:语言模型;200:语音识别装置;201:语音输入部;202:语音识别部;203:语言模型存储部;204:声音模型存储部;205:显示部;121、212:存储器;122、213:处理器;211:麦克风;214:显示器;501:语句;502、503:词素列;504:替换语句;505、701:原文;506、702:替换文;507:似然度的列表;508、509:平均似然度的列表;703、707:词素分析结果;704:原文.text文件;705:顺序;706:原文.arpa文件;708:PP和覆盖率的计算结果;709:替换文.anno文件。
Claims (5)
1.一种语言模型生成装置,其特征在于,该语言模型生成装置具有:
替换语句生成部,其使用由多个句子构成的学习用的例文中包含的语句的各词素、和所述词素的原始表述的近义词,来生成由词素的原始表述与词素的原始表述的近义词的组合和各词素的原始表述的近义词彼此间的组合构成的多个替换语句;
替换文提取部,其从包含多个句子的语料库中提取包含所述多个替换语句中的任意替换语句的替换文并输出;
原文提取部,其从所述学习用的例文中提取包含所述语句的原文并输出;
N元生成部,其根据从所述原文提取部输入的所述原文生成N元语言模型并输出;
似然度计算部,其根据从所述替换文提取部输入的所述替换文和从所述N元生成部输入的所述N元语言模型计算似然度,该似然度表示所述替换文的上下文与所述原文的上下文是否接近;
替换语句提取部,其提取如下替换文中包含的替换语句,该替换文的所述似然度为与阈值相比表示上下文更接近所述原文的值;以及
语言模型生成部,其根据从所述替换语句提取部提取出的替换语句和所述学习用的例文生成作为N元模型的语言模型。
2.根据权利要求1所述的语言模型生成装置,其特征在于,
所述似然度计算部计算对包含同一替换语句的多个替换文的似然度进行算术平均而得到的平均似然度,
所述替换语句提取部提取如下替换文中包含的替换语句,该替换文的所述平均似然度为与所述阈值相比表示上下文更接近所述原文的值。
3.根据权利要求2所述的语言模型生成装置,其特征在于,
所述似然度计算部计算对包含不同表述的替换语句的多个替换文的似然度进行算术平均而得到的平均似然度,作为将不同表述统一后的替换语句的似然度。
4.一种语言模型生成方法,其中,该语言模型生成方法具有:
替换语句生成步骤,替换语句生成部使用由多个句子构成的学习用的例文中包含的语句的各词素、和所述词素的原始表述的近义词,来生成由词素的原始表述与词素的原始表述的近义词的组合和各词素的原始表述的近义词彼此间的组合构成的多个替换语句;
替换文提取步骤,替换文提取部从包含多个句子的语料库中提取包含所述多个替换语句中的任意替换语句的替换文并输出;
原文提取步骤,原文提取部从所述学习用的例文中提取包含所述语句的原文并输出;
N元生成步骤,N元生成部根据从所述原文提取部输入的所述原文生成N元语言模型并输出;
似然度计算步骤,似然度计算部根据从所述替换文提取部输入的所述替换文和从所述N元生成部输入的所述N元语言模型计算似然度,该似然度表示所述替换文的上下文与所述原文的上下文是否接近;
替换语句提取步骤,替换语句提取部提取如下替换文中包含的替换语句,该替换文的所述似然度为与阈值相比表示上下文更接近所述原文的值;以及
语言模型生成步骤,语言模型生成部根据从所述替换语句提取部提取出的替换语句和所述学习用的例文生成作为N元模型的语言模型。
5.一种存储介质,其中,该存储介质存储有用于使计算机执行以下步骤的程序:
替换语句生成步骤,使用由多个句子构成的学习用的例文中包含的语句的各词素、和所述词素的原始表述的近义词,来生成由词素的原始表述与词素的原始表述的近义词的组合和各词素的原始表述的近义词彼此间的组合构成的多个替换语句;
替换文提取步骤,从包含多个句子的语料库中提取包含所述多个替换语句中的任意替换语句的替换文并输出;
原文提取步骤,从所述学习用的例文中提取包含所述语句的原文并输出;
N元生成步骤,根据从所述原文提取步骤中输入的所述原文生成N元语言模型并输出;
似然度计算步骤,根据从所述替换文提取步骤中输入的所述替换文和从所述N元生成步骤中输入的所述N元语言模型计算似然度,该似然度表示所述替换文的上下文与所述原文的上下文是否接近;
替换语句提取步骤,提取如下替换文中包含的替换语句,该替换文的所述似然度为与阈值相比表示上下文更接近所述原文的值;以及
语言模型生成步骤,根据在所述替换语句提取步骤中提取出的替换语句和所述学习用的例文生成作为N元模型的语言模型。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2015/078749 WO2017061027A1 (ja) | 2015-10-09 | 2015-10-09 | 言語モデル生成装置、言語モデル生成方法とそのプログラム、音声認識装置、および音声認識方法とそのプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108140019A CN108140019A (zh) | 2018-06-08 |
CN108140019B true CN108140019B (zh) | 2021-05-11 |
Family
ID=58488224
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201580083593.5A Expired - Fee Related CN108140019B (zh) | 2015-10-09 | 2015-10-09 | 语言模型生成装置、语言模型生成方法以及记录介质 |
Country Status (6)
Country | Link |
---|---|
US (1) | US10748528B2 (zh) |
EP (1) | EP3349125B1 (zh) |
JP (1) | JP6312942B2 (zh) |
CN (1) | CN108140019B (zh) |
TW (1) | TWI582754B (zh) |
WO (1) | WO2017061027A1 (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107146604B (zh) * | 2017-04-27 | 2020-07-03 | 北京捷通华声科技股份有限公司 | 一种语言模型优化方法及装置 |
KR102102388B1 (ko) * | 2017-11-20 | 2020-04-21 | 주식회사 마인즈랩 | 학습 문장 생성 시스템 및 이를 이용한 유사 문장 생성 방법 |
US11036926B2 (en) * | 2018-05-21 | 2021-06-15 | Samsung Electronics Co., Ltd. | Generating annotated natural language phrases |
CN110675863A (zh) * | 2018-07-03 | 2020-01-10 | 上海智臻智能网络科技股份有限公司 | 语音语料生成方法及装置、语音识别方法及装置 |
KR20200011796A (ko) * | 2018-07-25 | 2020-02-04 | 엘지전자 주식회사 | 음성 인식 시스템 |
US10748526B2 (en) * | 2018-08-28 | 2020-08-18 | Accenture Global Solutions Limited | Automated data cartridge for conversational AI bots |
JP2020102131A (ja) * | 2018-12-25 | 2020-07-02 | 株式会社日立製作所 | テキスト生成方法、テキスト生成装置および学習済みモデル |
CN110929522A (zh) * | 2019-08-19 | 2020-03-27 | 网娱互动科技(北京)股份有限公司 | 一种智能近义词替换方法及系统 |
KR20210043894A (ko) * | 2019-10-14 | 2021-04-22 | 삼성전자주식회사 | 전자 장치 및 이의 문장 제공 방법 |
KR102208387B1 (ko) * | 2020-03-10 | 2021-01-28 | 주식회사 엘솔루 | 음성 대화 재구성 방법 및 장치 |
WO2021215352A1 (ja) * | 2020-04-21 | 2021-10-28 | 株式会社Nttドコモ | 音声データ作成装置 |
CN111832292B (zh) * | 2020-06-03 | 2024-02-02 | 北京百度网讯科技有限公司 | 文本识别处理方法、装置、电子设备和存储介质 |
CN111933129B (zh) * | 2020-09-11 | 2021-01-05 | 腾讯科技(深圳)有限公司 | 音频处理方法、语言模型的训练方法、装置及计算机设备 |
WO2022226811A1 (zh) * | 2021-04-27 | 2022-11-03 | 华为技术有限公司 | 构建语音识别模型和语音处理的方法和系统 |
CN113420822B (zh) * | 2021-06-30 | 2022-08-12 | 北京百度网讯科技有限公司 | 模型训练方法和装置、文本预测方法和装置 |
CN113971394B (zh) * | 2021-10-26 | 2024-08-02 | 上海交通大学 | 文本复述改写系统 |
CN117057414B (zh) * | 2023-08-11 | 2024-06-07 | 佛山科学技术学院 | 一种面向文本生成的多步协作式提示学习的黑盒知识蒸馏方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004133003A (ja) * | 2002-10-08 | 2004-04-30 | Mitsubishi Electric Corp | 音声認識辞書作成方法及びその装置と音声認識装置 |
CN1934570A (zh) * | 2004-03-18 | 2007-03-21 | 日本电气株式会社 | 文本挖掘装置和其方法以及程序 |
JP2008293457A (ja) * | 2007-05-22 | 2008-12-04 | Ryoma Terao | 言語処理システムおよびプログラム |
CN101346717A (zh) * | 2003-07-03 | 2009-01-14 | 怀特斯莫克公司 | 用于语言处理的方法和装置 |
CN101639826A (zh) * | 2009-09-01 | 2010-02-03 | 西北大学 | 一种基于中文句式模板变换的文本隐藏方法 |
CN102341843A (zh) * | 2009-03-03 | 2012-02-01 | 三菱电机株式会社 | 语音识别装置 |
CN103823794A (zh) * | 2014-02-25 | 2014-05-28 | 浙江大学 | 一种关于英语阅读理解测试疑问式简答题的自动化命题方法 |
CN103871403A (zh) * | 2012-12-13 | 2014-06-18 | 北京百度网讯科技有限公司 | 建立语音识别模型的方法、语音识别方法及对应装置 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3628245B2 (ja) | 2000-09-05 | 2005-03-09 | 日本電信電話株式会社 | 言語モデル生成方法、音声認識方法及びそのプログラム記録媒体 |
US7546235B2 (en) * | 2004-11-15 | 2009-06-09 | Microsoft Corporation | Unsupervised learning of paraphrase/translation alternations and selective application thereof |
US7693829B1 (en) * | 2005-04-25 | 2010-04-06 | Google Inc. | Search engine with fill-the-blanks capability |
US7937265B1 (en) * | 2005-09-27 | 2011-05-03 | Google Inc. | Paraphrase acquisition |
US20080040339A1 (en) * | 2006-08-07 | 2008-02-14 | Microsoft Corporation | Learning question paraphrases from log data |
JP5459214B2 (ja) | 2008-08-20 | 2014-04-02 | 日本電気株式会社 | 言語モデル作成装置、言語モデル作成方法、音声認識装置、音声認識方法、プログラム、および記録媒体 |
JP5276610B2 (ja) | 2010-02-05 | 2013-08-28 | 日本放送協会 | 言語モデル生成装置、そのプログラムおよび音声認識システム |
CN103562907B (zh) * | 2011-05-10 | 2016-12-07 | 日本电气株式会社 | 用于评估同义表达的设备、方法和程序 |
US20130018650A1 (en) * | 2011-07-11 | 2013-01-17 | Microsoft Corporation | Selection of Language Model Training Data |
CA2793268A1 (en) * | 2011-10-21 | 2013-04-21 | National Research Council Of Canada | Method and apparatus for paraphrase acquisition |
CN103971677B (zh) * | 2013-02-01 | 2015-08-12 | 腾讯科技(深圳)有限公司 | 一种声学语言模型训练方法和装置 |
CN103578467B (zh) * | 2013-10-18 | 2017-01-18 | 威盛电子股份有限公司 | 声学模型的建立方法、语音辨识方法及其电子装置 |
CN103578464B (zh) * | 2013-10-18 | 2017-01-11 | 威盛电子股份有限公司 | 语言模型的建立方法、语音辨识方法及电子装置 |
JP5932869B2 (ja) * | 2014-03-27 | 2016-06-08 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム |
US9251139B2 (en) * | 2014-04-08 | 2016-02-02 | TitleFlow LLC | Natural language processing for extracting conveyance graphs |
KR102033435B1 (ko) * | 2014-11-19 | 2019-11-11 | 한국전자통신연구원 | 자연어 질의응답 시스템과 방법 및 패러프라이즈 모듈 |
-
2015
- 2015-10-09 JP JP2017544150A patent/JP6312942B2/ja active Active
- 2015-10-09 US US15/765,620 patent/US10748528B2/en not_active Expired - Fee Related
- 2015-10-09 CN CN201580083593.5A patent/CN108140019B/zh not_active Expired - Fee Related
- 2015-10-09 EP EP15905846.0A patent/EP3349125B1/en active Active
- 2015-10-09 WO PCT/JP2015/078749 patent/WO2017061027A1/ja active Application Filing
- 2015-10-16 TW TW104133968A patent/TWI582754B/zh active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004133003A (ja) * | 2002-10-08 | 2004-04-30 | Mitsubishi Electric Corp | 音声認識辞書作成方法及びその装置と音声認識装置 |
CN101346717A (zh) * | 2003-07-03 | 2009-01-14 | 怀特斯莫克公司 | 用于语言处理的方法和装置 |
CN1934570A (zh) * | 2004-03-18 | 2007-03-21 | 日本电气株式会社 | 文本挖掘装置和其方法以及程序 |
JP2008293457A (ja) * | 2007-05-22 | 2008-12-04 | Ryoma Terao | 言語処理システムおよびプログラム |
CN102341843A (zh) * | 2009-03-03 | 2012-02-01 | 三菱电机株式会社 | 语音识别装置 |
CN101639826A (zh) * | 2009-09-01 | 2010-02-03 | 西北大学 | 一种基于中文句式模板变换的文本隐藏方法 |
CN103871403A (zh) * | 2012-12-13 | 2014-06-18 | 北京百度网讯科技有限公司 | 建立语音识别模型的方法、语音识别方法及对应装置 |
CN103823794A (zh) * | 2014-02-25 | 2014-05-28 | 浙江大学 | 一种关于英语阅读理解测试疑问式简答题的自动化命题方法 |
Non-Patent Citations (2)
Title |
---|
Paraphrastic language models;X. Liu et al.;《Computer Speech and Language》;20140430;第1298-1316页 * |
利用语义词典Web挖掘语言模型的无指导译文消歧;刘鹏远 等;《软件学报》;20090531;第20卷(第5期);第1292-1300页 * |
Also Published As
Publication number | Publication date |
---|---|
EP3349125B1 (en) | 2019-11-20 |
TW201714167A (en) | 2017-04-16 |
WO2017061027A1 (ja) | 2017-04-13 |
US20190080688A1 (en) | 2019-03-14 |
CN108140019A (zh) | 2018-06-08 |
JP6312942B2 (ja) | 2018-04-18 |
TWI582754B (zh) | 2017-05-11 |
EP3349125A4 (en) | 2018-08-29 |
EP3349125A1 (en) | 2018-07-18 |
JPWO2017061027A1 (ja) | 2018-03-01 |
US10748528B2 (en) | 2020-08-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108140019B (zh) | 语言模型生成装置、语言模型生成方法以及记录介质 | |
CN110210029B (zh) | 基于垂直领域的语音文本纠错方法、系统、设备及介质 | |
CN109408526B (zh) | Sql语句生成方法、装置、计算机设备及存储介质 | |
Errattahi et al. | Automatic speech recognition errors detection and correction: A review | |
JP5901001B1 (ja) | 音響言語モデルトレーニングのための方法およびデバイス | |
CN107729313B (zh) | 基于深度神经网络的多音字读音的判别方法和装置 | |
KR101590724B1 (ko) | 음성 인식 오류 수정 방법 및 이를 수행하는 장치 | |
US9564122B2 (en) | Language model adaptation based on filtered data | |
JP5524138B2 (ja) | 同義語辞書生成装置、その方法、及びプログラム | |
JP2009223463A (ja) | 同義性判定装置、その方法、プログラム及び記録媒体 | |
EP2418589A1 (en) | Retrieval device | |
CN110503956B (zh) | 语音识别方法、装置、介质及电子设备 | |
JP2014232268A (ja) | 音声認識における読み精度を改善するシステム、方法、およびプログラム | |
JP6778655B2 (ja) | 単語連接識別モデル学習装置、単語連接検出装置、方法、及びプログラム | |
CN114254628A (zh) | 一种语音转写中结合用户文本的快速热词提取方法、装置、电子设备及存储介质 | |
US11080488B2 (en) | Information processing apparatus, output control method, and computer-readable recording medium | |
JPWO2012131822A1 (ja) | 音声認識結果整形装置、音声認識結果整形方法及びプログラム | |
JP4674609B2 (ja) | 情報処理装置および方法、プログラム、並びに記録媒体 | |
JP4941495B2 (ja) | ユーザ辞書作成システム、方法、及び、プログラム | |
JP2016095399A (ja) | 音声認識結果整形装置、方法及びプログラム | |
US20180033425A1 (en) | Evaluation device and evaluation method | |
JP2004309928A (ja) | 音声認識装置、電子辞書装置、音声認識方法、検索方法、及びプログラム | |
CN114023327B (zh) | 基于语音识别的文本修正方法、装置、设备及介质 | |
JP2014215970A (ja) | 誤り検出装置、方法、及びプログラム | |
JP6003127B2 (ja) | 言語モデル作成プログラム及び言語モデル作成装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210511 |
|
CF01 | Termination of patent right due to non-payment of annual fee |