JP6009396B2 - 発音付与方法とその装置とプログラム - Google Patents

発音付与方法とその装置とプログラム Download PDF

Info

Publication number
JP6009396B2
JP6009396B2 JP2013091471A JP2013091471A JP6009396B2 JP 6009396 B2 JP6009396 B2 JP 6009396B2 JP 2013091471 A JP2013091471 A JP 2013091471A JP 2013091471 A JP2013091471 A JP 2013091471A JP 6009396 B2 JP6009396 B2 JP 6009396B2
Authority
JP
Japan
Prior art keywords
word
word candidate
grammar
series
correspondence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013091471A
Other languages
English (en)
Other versions
JP2014215396A (ja
Inventor
水野 秀之
秀之 水野
勇祐 井島
勇祐 井島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013091471A priority Critical patent/JP6009396B2/ja
Publication of JP2014215396A publication Critical patent/JP2014215396A/ja
Application granted granted Critical
Publication of JP6009396B2 publication Critical patent/JP6009396B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Description

本発明は、正確な発音(「読み」)を付与する発音付与方法とその装置とプログラムに関する。
近年のテキスト音声合成技術の発展に伴い、様々な分野で音声合成が利用されるようになって来ている。特に電子書籍において、視聴覚障害者に対する音声合成技術は必須となっている。例えば、非特許文献1に開示されたようなHMM音声合成技術の発展に伴い、従来の音声合成では一般的であった特定の声質や調子での合成音声ではなく、任意の話者の音声データを学習することで、その話者の声質や調子での合成音声の生成が可能である。
つまり、最新のテキスト音声技術を用いることで、電子書籍に対応した様々な声質や調子での合成音声の作成も可能となっている。様々な声質や調子の合成音声を得るためには、正確な発音(「読み」)を表すテキストが必要である。
正確な「読み」を得るためには、テキストデータを形態素解析する方法と、例えば非特許文献2に開示された大語彙連続音声認識技術を用いて音声データから「読み」を得る方法、の2つがある。
Nose at el, "A style control technique for HMM-based expressive speech synthesis," IEICE Trans. Information and Systems, E90-D, 9, pp.1406-1413,2007. 李晃伸"大語彙連続音声認識エンジンJulius ver.4" 電子情報通信学会技術研究報告NLC2007-85,SP2007-148(2007-12)
電子書籍では、当然音声に対応したテキストが存在するため、形態素解析技術を用いることで容易に単語の候補とその組み合わせを推定することはできる。しかし、日本語の文章では同一の漢字表記に複数の読み方が存在する同形異音語(例、最中:モナカとサイチュウ)、新語、複数の読み方がある固有名詞(例、中島:ナカシマとナカジマ)、造語、当て字等もあり、テキストから単語候補を得る事はできても、読みまで正確に決定することは困難である。また、様々な文体で書かれた小説や雑誌等の解析精度は低く、文書によっては実用に耐える水準の精度が得られていない。
一方、音声認識は、最新の大語彙連続音声認識技術を用いたとしても認識結果には多くの認識誤りが含まれる。このように、テキストデータを言語処理する方法と、音声データを音声認識処理する方法の両者に技術的限界があり、テキストデータ又は音声データから正確な発音情報を得ることが困難であるいう課題がある。
本発明は、これらの課題に鑑みてなされたものであり、テキストデータと音声データとから正確な「読み」を付与する発音付与方法と、その装置とプログラムを提供することを目的とする。
本発明の発音付与方法は、形態素解析過程と、文法生成過程と、文脈自由文法音声認識過程と、を備える。形態素解析過程は、テキストデータを入力として、当該テキストデータを形態素解析した単語候補系列を出力する。文法生成過程は、形態素解析過程で得られた単語候補系列を入力として、当該単語候補系列から文脈自由文法に基づいて文法を生成する。文脈自由文法音声認識過程は、上記テキストデータに対応した音声データと文法生成過程で生成した文法を入力として、当該文法に基づいた文脈自由文法音声認識処理を行って、音声合成に用いる単語系列の読みを出力する。
本発明の発音付与方法は、テキストデータから単語系列を予測する文法を予め生成しておき、そのテキストデータに対応する音声データを、予め生成した文法に基づいて文脈自由文法音声認識処理した単語系列の「読み」を出力する。したがって、単語系列がある程度予測可能な場合に高い認識精度が得られる文脈自由文法音声認識の特徴を生かして、テキストデータと音声データから正確な「読み」を、テキストに付与することが可能になる。
本発明の発音付与装置100の機能構成例を示す図。 発音付与装置100の動作フローを示す図。 形態素解析部110の動作を説明するための図。 拡張BNF文法での記述例を示す図。 文脈自由文法音声認識部130の動作を説明するための図。 本発明の発音付与装置200の機能構成例を示す図。 発音付与装置200の動作フローを示す図。 大語彙連続音声認識部210の動作例(第3単語候補系列の例)を示す図。 対応する第2単語候補系列と第3単語候補系列の例を示す図。 第4単語候補系列の例を示す図。
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。
図1に、この発明の発音付与装置100の機能構成例を示す。その動作フローを図2に示す。発音付与装置100は、形態素解析部110と、文法生成部120と、文脈自由文法音声認識部130と、制御部140と、を具備する。発音付与装置100は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
形態素解析部110は、テキストデータを入力として、当該テキストデータを形態素解析した単語候補系列を出力する(ステップS110)。図3に、形態素解析した単語候補系列の一例を示す。図3は、入力テキストを「今日はお祭り最中に行った」とした場合の例である。単語候補系列の上段は「形態素表記」、下段は「読み」である。単語候補系列としては、この例では「キョー ワ オマツリ サイチュー ニ イッタ」、「コンニチ ワ オマツリ サイチュー ニ イッタ」、「キョー ワ オマツリ モナカ ニ イッタ」、「コンニチ ワ オマツリ モナカ ニ イッタ」、…、「コンニチ ワ オマツリ モナカ ニ オコナッタ」の8種類が出力される。この他にも、「品詞情報」、「各単語の開始時間と終了時間」が出力される。なお、図3において「形態素表記」、「品詞情報」、「各単語の開始時間と終了時間」は省略している。以降の説明では「読み」のみを示して「形態素表記」他は省略する。
ステップS110の形態素解析過程は、入力されるテキストデータの全てについての形態素解析が終了するまで繰り返される(ステップS140のNo)。この繰り返し動作の制御は制御部140が行う。制御部140は、発音付与装置100の各部の時系列動作を制御する一般的なものであって、特別な処理を行うものではない。
文法生成部120は、形態素解析部110が出力する単語候補系列を入力として、当該単語候補系列から文脈自由文法に基づいて文法を生成する(ステップS120)。文脈自由文法に基づいて文法を生成する方法は、例えば参考文献1(http://www.wormjp.umin.jp/jp/acemanjp13/node28.html)に示されているように周知である。図4に、拡張BNF文法での記述例を示す。<>は非終端記号、(・)内はグループ、|はOR結合、構成要素の並びはAND結合を示す。8種類の単語候補系列が、3つのグループのOR結合(・|・)で表記されていることが分かる。ステップS120の文法生成過程は、入力される全ての文(形態素列)についての処理が終了するまで繰り返される(ステップS141のNo)。
文脈自由文法音声認識部130は、上記テキストデータに対応した音声データと文法生成過程で生成した文法を入力として、当該文法に基づいた文脈自由文法音声認識処理を行って、音声合成に用いる単語系列の「読み」を出力する(ステップS130)。文脈自由文法音声認識技術は、例えば参考文献2(中川聖一ほか「文脈自由文法制御によるOnePass型HMM連続音声認識法」電子情報通信学会誌 D-II,情報・システム, II-情報処理 J76-D-2(7), 1337-1345, 1993)に記載されているように周知である。
文脈自由文法音声認識技術は、事前に出現が予想される単語の候補と、想定される文法(単語候補の組み合わせ)の制約に基づいて、音声データから単語系列を同定する方法である。何が発話されるか分らない様な音声に対する認識方法として利用可能な大語彙連続音声認識技術と比較すると、制約が強く利用可能な場面は少ないものの、予め発声される単語や単語順(文法)が分かっている場合に有効な方法である。
文脈自由文法音声認識部130は、音声データの時間区間単位でその時間区間に単語候補を対応付け、単語候補系列ごとに尤度を求める。そして最も尤度の高い単語候補系列の「読み」を外部に出力する。図5に、文脈自由文法音声認識部130動作例を示す。図5の1行目は、音声データである。音声データの横方向は時間、縦方向は振幅である。単語候補系列ごとに尤度が付与される。
この例では、その単語系列「今日はお祭り最中に行った」の尤度が最も高く(0.95)、その読み「キョー ワ オマツリ サイチュー ニ イッタ」が外部に出力される。「読み」とその単語系列を一緒に出力するようにしても良い。
このように発音付与装置100によれば、テキストデータから単語系列を予測する文法を予め生成しておき、そのテキストデータに対応する音声データを、その文法に基づいて文脈自由文法音声認識するので、高い精度で単語系列の同定を行うことができ、その正確な「読み」を決定することが可能となる。
発音付与装置100によれば、単語候補系列に同一の漢字表記に複数の読み方が存在する同形異音語(例、最中:モナカとサイチュウ)が含まれていても、文脈自由文法音声認識処理による尤度の最も高い単語候補を正解単語として選択するので、正確な単語の「読み」の同定が可能である。発音付与装置100が出力する「読み」を、例えば音声合成装置に与えることで、話者の声質や調子を変えた正確な発音の合成音声を得ることができる。
図6に、この発明の発音付与装置200の機能構成例を示す。その動作フローを図7に示す。発音付与装置200は、形態素解析部110と、文法生成部120と、文脈自由文法音声認識部130と、大語彙連続音声認識部210と、単語候補系列照合部220と、単語候補判定統合部230と、再認識部240と、制御部250と、を具備する。
形態素解析部110と文法生成部120と文脈自由文法音声認識部130は、参照符号から明らかなように発音付与装置100と同じものである。発音付与装置200も、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
形態素解析部110は、テキストデータを入力として、当該テキストデータを形態素解析した第1単語候補系列を出力する(ステップS110)。文法生成部120は、第1単語候補系列を入力として、当該第1単語候補系列から文脈自由文法に基づいて文法を生成する(ステップS120)。文脈自由文法音声認識部130は、上記テキストデータに対応する音声データと上記文法を入力として、当該文法に基づいた文脈自由文法音声認識処理を行って、第2単語候補系列とその尤度を出力する(ステップS130)。この第2単語候補系列とその尤度は、図5に示した単語候補系列と尤度のことである。なお図7において、制御部250の動作ステップの表記は省略している。
大語彙連続音声認識部210は、文脈自由文法音声認識部130に入力される音声データと同じ音声データを入力として当該音声データを、大語彙連続音声認識して第3単語候補系列を出力する(ステップS210)。大語彙連続音声認識部210は、図示しない音響モデルと言語モデルを用いて音声データを音声認識し、音声の時間区間単位でその時間区間に単語候補を対応付けるもので、上記(非特許文献2)した周知なものである。
図8に、大語彙連続音声認識部210の動作例を示す。1行目は音声データであり図5に示したものと同じである。図8の3行目から6行目に、第3単語候補系列の例を示す。第3単語候補系列としては、「ヨーマ オマツリ シチュー ニ イッタ」、「ヨーマ オーマ ツリ シチュー ニ イッタ」、「ヨーマ オウ ツリ シチュー ニ イッタ」、他である。このように大語彙連続音声認識は、単語系列が全く未知であっても認識が可能であるが、誤認識が多く含まれる場合がある。
単語候補系列照合部220は、文脈自由文法音声認識部130が出力する第2単語候補系列と大語彙連続音声認識部210が出力する第3単語候補系列とを照合し、同一時間区間で一致している単語候補が存在する時間区間とそれ以外の時間区間を区分して時間区間で対応付けた対応付後第2単語候補系列とその尤度と対応付後第3単語候補系列を出力する(ステップS220)。図9に、時間区間で対応付けた対応付後第2単語候補系列と対応付後第3単語候補系列を示す。
表1に、図9に示した対応付後第2単語候補系列と対応付後第3単語候補系列の対応関係を示す。
単語候補判定統合部230は、対応付後第2単語候補系列と対応付後第3単語候補系列とを、同一時間区間で照合し、一致する単語が1つしかない場合は当該単語を当該時間区間の単語として決定し、一致する単語が複数存在する場合は上記尤度の高い単語を当該時間区間の単語として決定し、一致する単語が無い場合は当該時間区間に対応する対応付後第2単語候補と対応付後第3単語候補を、新たに当該時間区間に対応する単語候補とした第4単語候補系列を出力する(ステップS230)。
図10に、第4単語候補系列の例を示す。時間区間のt−t区間では、対応付後第2単語候補系列の「キョー」と対応付後第3単語候補系列の「キョー」とが一致しているので、その区間の単語は「キョー」に決定される。t−t区間では、一致する単語候補が存在しないので、その区間の全ての単語を単語候補とする。
第4単語候補系列の決定された単語を灰色の塗つぶしで示し、未定の区間の単語候補を斜線のパターンで示す。なお、この例では示されていないが、同一時間区間で一致する対応付後第2単語候補系列と対応付後第3単語候補系列が複数存在する場合は、尤度の最も高い対応付後第2単語候補系列の単語候補に決定する。また、全ての時間区間の単語候補が決定済みの単語で構成される第4単語候補系列が得られた場合は、その「読み」は外部に直接出力される。
再認識部240は、第4単語候補系列を入力として、時間区間に対応する未確定の単語候補から、文脈自由文法を生成して文脈自由文法音声認識処理を行って、尤度最大の単語候補を当該時間区間の単語として決定した単語系列の読みを外部に出力する(ステップS240)。第4単語候補系列の「キョー ワ オマツリ サイチュー ニ イッタ」と「キョー ワ オマツリ シチュー ニ イッタ」と「キョー ワ オマツリ スイチュー ニ イッタ」と「キョー ワ オマツリ サイユー ニ イッタ」の候補の中では、文脈自由文法音声認識処理を行った尤度は「キョー ワ オマツリ サイチュー ニ イッタ」の候補が最大になるので、その読みを外部に出力する。
以上説明したように発音付与装置200の文脈自由文法音声認識部130が出力する第2単語候補系列は、実施例1で説明した発音付与装置100の最終出力であり、ある程度の正確性を備えたものである。その第2単語候補系列の「読み」を、音声合成装置に直接入力しても正しい発音の合成音声を得ることが可能である。
発音付与装置200は、文脈自由文法音声認識処理と大語彙連続音声認識処理を併用した点に特徴がある。単語系列が全く未知であっても認識が可能な大語彙連続音声認識処理の出力結果(第3単語候補系列)を用いて、音声で出現する単語系列がある程度予測可能な場合に認識精度の高い文脈自由文法音声認識処理の出力結果(第2単語候補系列)の単語候補を絞り込むことで、同形異音語のような同一表記に複数の「読み」があるような場合でも、正確な「読み」の付与が可能である。
また、文脈自由文法音声認識部130の出力する第2単語候補系列と、第五位連続音認識部210の出力する3単語候補系列が一致しない単語候補においては、同一時間区間の第2単語候補と第3単語候補の全てを用いて、再度、文脈自由文法音声認識処理を行うことで、新語や当て字等の形態素解析処理で得られない単語が出現した場合でも高い精度で正しい「読み」を付与することができる。
以上説明したようにこの発明の発音付与装置100,200によれば、テキストデータとそのテキストデータに対応する音声データとから正確な「読み」を、テキストに付与することが可能である。発音付与装置100,200で得られた「読み」を、例えば音声合成装置に入力することで、任意の話者の声による正確な合成音声を得ることが可能になる。
上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (3)

  1. テキストデータを入力として、当該テキストデータを形態素解析した第1単語候補系列を出力する形態素解析過程と、
    上記第1単語候補系列を入力として、当該第1単語候補系列から文脈自由文法に基づいて文法を生成する文法生成過程と、
    上記テキストデータの音声データと上記文法を入力として、上記文法に基づいた文脈自由文法音声認識処理を行って、第2単語候補系列とその尤度を出力する文脈自由文法音声認識過程と、
    上記音声データを入力として当該音声データを大語彙連続音声認識して、第3単語候補系列を出力する大語彙連続音声認識過程と、
    上記第2単語候補系列と第3単語候補系列とを照合し、同一時間区間で一致している単語候補が存在する時間区間とそれ以外の時間区間を区分して時間区間に対応付けた対応付後第2単語候補系列とその尤度と対応付後第3単語候補系列を出力する単語候補系列照合過程と、
    上記対応付後第2単語候補系列と上記対応付後第3単語候補系列とを、同一時間区間で照合し、一致する単語が1つしかない場合は当該単語を当該時間区間の単語として決定し、一致する単語が複数存在する場合は上記尤度の高い対応付後第2単語候補系列の単語を当該時間区間の単語として決定し、一致する単語が無い場合は当該時間区間に対応する上記対応付後第2単語候補系列の単語と上記対応付後第3単語候補系列の単語を、新たに当該時間区間に対応する単語候補とした第4単語候補系列を出力する単語候補判定統合過程と、
    上記第4単語候補系列を入力として、上記時間区間に対応する未確定の単語候補から、文脈自由文法を生成して文脈自由文法音声認識処理を行って、尤度最大の単語候補を当該時間区間の単語として決定した単語系列の読みを出力する再認識過程と、
    を備える発音付与方法。
  2. テキストデータを入力として、当該テキストデータを形態素解析した第1単語候補系列を出力する形態素解析部と、
    上記第1単語候補系列を入力として、当該第1単語候補系列から文脈自由文法に基づいて文法を生成する文法生成部と、
    上記テキストデータの音声データと上記文法を入力として、上記文法に基づいた文脈自由文法音声認識処理を行って、第2単語候補系列とその尤度を出力する文脈自由文法音声認識部と、
    上記音声データを入力として当該音声データを大語彙連続音声認識して、第3単語候補系列を出力する大語彙連続音声認識部と、
    上記第2単語候補系列と第3単語候補系列とを照合し、同一時間区間で一致している単語候補が存在する時間区間とそれ以外の時間区間を区分して時間区間に対応付けた対応付後第2単語候補系列とその尤度と対応付後第3単語候補系列を出力する単語候補系列照合部と、
    上記対応付後第2単語候補系列と上記対応付後第3単語候補系列とを、同一時間区間で照合し、一致する単語が1つしかない場合は当該単語を当該時間区間の単語として決定し、一致する単語が複数存在する場合は上記尤度の高い対応付後第2単語候補系列の単語を当該時間区間の単語として決定し、一致する単語が無い場合は当該時間区間に対応する上記対応付後第2単語候補系列の単語と上記対応付後第3単語候補系列の単語を、新たに当該時間区間に対応する単語候補とした第4単語候補系列を出力する単語候補判定統合部と、
    上記第4単語候補系列を入力として、上記時間区間に対応する未確定の単語候補から、文脈自由文法を生成して文脈自由文法音声認識処理を行って、尤度最大の単語候補を当該時間区間の単語として決定した単語系列の読みを出力する再認識部と、
    を具備する発音付与装置。
  3. 請求項1に記載した発音付与方法を、コンピュータで処理するためのプログラム。
JP2013091471A 2013-04-24 2013-04-24 発音付与方法とその装置とプログラム Expired - Fee Related JP6009396B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013091471A JP6009396B2 (ja) 2013-04-24 2013-04-24 発音付与方法とその装置とプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013091471A JP6009396B2 (ja) 2013-04-24 2013-04-24 発音付与方法とその装置とプログラム

Publications (2)

Publication Number Publication Date
JP2014215396A JP2014215396A (ja) 2014-11-17
JP6009396B2 true JP6009396B2 (ja) 2016-10-19

Family

ID=51941218

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013091471A Expired - Fee Related JP6009396B2 (ja) 2013-04-24 2013-04-24 発音付与方法とその装置とプログラム

Country Status (1)

Country Link
JP (1) JP6009396B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7019462B2 (ja) * 2018-03-07 2022-02-15 株式会社Nttドコモ 対話システム
KR102144345B1 (ko) * 2018-09-12 2020-08-13 주식회사 한글과컴퓨터 사용자 정의 단어에 기초하여 음성 인식 결과의 보정 처리를 수행하는 음성 인식 처리 장치 및 그 동작 방법

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02238494A (ja) * 1989-03-13 1990-09-20 Matsushita Electric Ind Co Ltd 音声合成装置
JP3166646B2 (ja) * 1996-12-13 2001-05-14 日本電気株式会社 語義曖昧性解消装置
JP2003242147A (ja) * 2002-02-18 2003-08-29 Seiko Epson Corp ネットワーク文法生成方法およびネットワーク文法生成装置ならびに音声認識装置
JP2004198831A (ja) * 2002-12-19 2004-07-15 Sony Corp 音声認識装置および方法、プログラム、並びに記録媒体
JP2007256297A (ja) * 2004-03-18 2007-10-04 Nec Corp 音声処理方法と通信システム並びに通信端末およびサーバとプログラム
JP2007024960A (ja) * 2005-07-12 2007-02-01 Internatl Business Mach Corp <Ibm> システム、プログラムおよび制御方法
JP2007171275A (ja) * 2005-12-19 2007-07-05 Canon Inc 言語処理装置及び現後処理方法
JP4758919B2 (ja) * 2007-01-22 2011-08-31 日本放送協会 音声認識装置及び音声認識プログラム
JP2011247928A (ja) * 2010-05-24 2011-12-08 Nec Corp 読み決定装置、読み決定方法、読み決定プログラム、音声合成装置、音声合成方法、及び、音声合成プログラム

Also Published As

Publication number Publication date
JP2014215396A (ja) 2014-11-17

Similar Documents

Publication Publication Date Title
JP6251958B2 (ja) 発話解析装置、音声対話制御装置、方法、及びプログラム
JP6493866B2 (ja) 情報処理装置、情報処理方法、およびプログラム
US10319373B2 (en) Information processing device, information processing method, computer program product, and recognition system
US8271282B2 (en) Voice recognition apparatus, voice recognition method and recording medium
US20090112593A1 (en) System for recognizing speech for searching a database
TWI610294B (zh) 語音辨識系統及其方法、詞彙建立方法與電腦程式產品
JP2001296880A5 (ja)
WO2014183373A1 (en) Systems and methods for voice identification
CN108074562B (zh) 语音识别装置、语音识别方法以及存储介质
CN102439660A (zh) 基于置信度得分的语音标签方法和装置
JPWO2014136222A1 (ja) 音声認識装置および音声認識方法
JP5276610B2 (ja) 言語モデル生成装置、そのプログラムおよび音声認識システム
JP2012094117A (ja) アラビア語テキストに発音区別符号を付与するための方法およびシステム
US11295733B2 (en) Dialogue system, dialogue processing method, translating apparatus, and method of translation
KR20100068530A (ko) 음성인식기에서 가비지 및 반단어 모델 기반의 거절 장치 및 방법
KR101483947B1 (ko) 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
US20110224985A1 (en) Model adaptation device, method thereof, and program thereof
JP6009396B2 (ja) 発音付与方法とその装置とプログラム
JP6082657B2 (ja) ポーズ付与モデル選択装置とポーズ付与装置とそれらの方法とプログラム
KR101424496B1 (ko) 음향 모델 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
JP2015161927A (ja) 音響モデル生成装置、音響モデルの生産方法、およびプログラム
JP4764203B2 (ja) 音声認識装置及び音声認識プログラム
JP2004133003A (ja) 音声認識辞書作成方法及びその装置と音声認識装置
JP5888723B2 (ja) 発音辞書作成装置、発音辞書の生産方法、およびプログラム
JP2011048405A (ja) 音声認識装置及び音声認識プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150714

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160715

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160809

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160823

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160913

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160914

R150 Certificate of patent or registration of utility model

Ref document number: 6009396

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees