JP2014219569A - 辞書作成装置、及び辞書作成プログラム - Google Patents

辞書作成装置、及び辞書作成プログラム Download PDF

Info

Publication number
JP2014219569A
JP2014219569A JP2013098856A JP2013098856A JP2014219569A JP 2014219569 A JP2014219569 A JP 2014219569A JP 2013098856 A JP2013098856 A JP 2013098856A JP 2013098856 A JP2013098856 A JP 2013098856A JP 2014219569 A JP2014219569 A JP 2014219569A
Authority
JP
Japan
Prior art keywords
word
compound word
dictionary
compound
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013098856A
Other languages
English (en)
Other versions
JP6276516B2 (ja
Inventor
彰夫 小林
Akio Kobayashi
彰夫 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2013098856A priority Critical patent/JP6276516B2/ja
Publication of JP2014219569A publication Critical patent/JP2014219569A/ja
Application granted granted Critical
Publication of JP6276516B2 publication Critical patent/JP6276516B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Probability & Statistics with Applications (AREA)

Abstract

【課題】従来よりも認識誤りが低減される辞書を作成する辞書作成装置、及び辞書作成プログラムを提供する。【解決手段】音声認識に用いる複合語を新たな語彙として辞書に登録する辞書作成装置100であって、統計的言語モデルおよび統計的音響モデルを用いて音声を音声認識し、正解候補単語列を生成する音声認識部21と、正解単語列および前記正解候補単語列に含まれる単語2つ組の頻度を計数し、前記辞書に登録する複合語の複数の複合語候補を抽出する複合語頻度計数部24と、各々の複合語候補を前記複合語とした場合におけるエントロピーを計算するエントロピー計算部25と、前記エントロピーを最も減少させる複合語候補を選択する複合語選択部26と、選択した複合語候補を前記辞書の新たな語彙として登録する言語モデル更新部27とを備えることを特徴とする。【選択図】図1

Description

本発明は、音声認識で用いる辞書(語彙)を作成する辞書作成装置、及び辞書作成プログラムに関する。
従来、音声認識では、n−gramに代表される統計的言語モデルを用いて入力された音声から正解候補の単語列(正解候補単語列)を生成している。そして、統計的言語モデルでは、正解候補単語列の言語的な尤もらしさを計算している。また、統計的言語モデルの一つであるn−gramモデルでは、前接する単語列(文脈)に基づいて後続単語を予測することにより言語的な尤もらしさを計算している。
例えば、単語列w=w,w,w,wが与えられたとき、n−gramモデルの一つであるバイグラムを用いた場合の単語列の尤もらしさは、以下の(式1)のように計算される。ここで、P(w|w),P(w|w),P(w|w)がそれぞれバイグラムである。バイグラムの値は確率であり、大量のテキストデータから最尤法により推定される。
Figure 2014219569
ここで、音声認識では、n−gramに代表される統計的言語モデルにおける単語の予測しやすさを向上させるために、単語列中において連続する単語組を1つの複合語として連結し、連結した複合語を音声認識用の辞書(語彙)に登録することが行われている。前記の例でいえば、w,wをそれぞれ独立した1語として扱うのではなく、w=w,wのようにまとめて1語として扱うことに相当する。複合語wを用いた単語列w´=w,w,wの尤もらしさは以下の(式2)のように計算できる。
Figure 2014219569
P´(w´)−P(w)が正値(>0)であれば、与えられた単語列が言語的により尤もらしいということになり、バイグラムによる単語予測精度が向上したとみなせる。ただし、P´(w´)−P(w)は常に正値であるとは限らず、複数の複合語の候補の中から、言語的な尤もらしさを向上させるように、複合語となる単語組を選択する必要がある。
従来、辞書に登録される複合語は、テキストデータから言語的な基準を用いて作成されている。複合語を作成する際の言語的な基準は、大きく分けて以下の2つが存在する。
[1]複合語を構成する単語組の頻度(出現頻度)による基準
[2]複合語を構成する前後でのエントロピーの差による基準
ここで、エントロピーとは、所与の言語モデルから計算される単語列の複雑さを示す指標、または、音声認識の難しさを示す指標である。エントロピーが高いほど、単語列の複雑さが増し、当該言語モデルによる音声認識が難しくなる。
これらは、いずれも旧来より複合語を構成するための基準として用いられているので、ここでは簡単に説明する。第1の基準(複合語を構成する単語組の頻度(出現頻度)による基準)によれば、テキストデータに数多く出現する単語列が、追加登録すべき複合語の候補として優先的に抽出される。また、第2の基準(複合語を構成する前後でのエントロピーの差による基準)によれば、複雑さの低い単語列(音声認識の容易な単語列)が、追加登録すべき複合語の候補として優先的に抽出される。
また、前記2つの基準を組み合わせて、高精度かつn−gramの予測性能が最も高くなるような単語の組を順次求める技術が提案されている(例えば、特許文献1及び非特許文献1参照)。その手順は、次に示す通りである。
〔1〕テキストデータにおける隣接する単語2つからなる組み(単語2つ組)の頻度を計算する。
〔2〕高頻度上位M個の単語2つ組を複合語候補として選択する。
〔3〕単語2つ組(複合語候補)を複合語とみなしたときのエントロピーと、複合語とみなさなかったときのエントロピーとを計算する。
手順〔3〕では、例えば、単語2つ組w,wとその前後の単語w,wとを考慮した、学習データ中に存在する単語4つ組(w,w,w,w)を考える。この単語4つ組に対するエントロピーHは、以下の(式3)により求められる。
Figure 2014219569
ここで、すべての単語w,w,w,wが同時に生起する同時分布P(w,w,w,w)は、以下の(式4)により近似することができる。
Figure 2014219569
一方、単語2つ組w,wを複合語wとみなした場合のエントロピーHは、以下の(式5)により求められる。
Figure 2014219569
また、同時分布P(w,w,w)は、(式4)と同様に、以下の(式6)により近似することができる。
Figure 2014219569
単語4つ組に対するエントロピーHと単語2つ組w,wを複合語wとみなした場合のエントロピーHとの差ΔH(w)≡H−Hは、以下の(式7)として計算できる。
Figure 2014219569
M個の単語2つ組の中から、以下の(式8)を満たすものを複合語とする。ここで、(式8)における「argmax f(t)」は、変数tに関する関数f(t)に対して、f(t)が最大になる変数tを求めることを示す。以下、この手続きを所望の数の複合語が得られるまで繰り返す。
Figure 2014219569
特開2007−171724号公報(段落0032〜0054、図2)
小林彰夫ほか、「対談音声のための複合語とクラスを利用した言語モデル」、日本音響学会講演論文集、2006年3月、2-1-1、p.71-p.72
しかしながら、従来から用いられていた言語的な2つの基準や、特許文献1及び非特許文献1に記載されていたこの2つの基準の組み合わせは、n−gram等の言語モデルを推定するためのテキストデータから得られた統計量に基づいている。その為、従来技術は、音声認識のように入力音声から単語列を推定するようなアプリケーションに適しているとは限らない。
つまり、音声認識では、入力音声が与えられたとき、言語的な尤もらしさだけではなく、音響的な尤もらしさも考慮して音声認識結果を出力する。したがって、言語的な尤もらしさのみを考慮した従来技術では、音声認識性能を改善しうる複合語を作成できるとは限らない。これは、従来技術では、音声認識した際の予測単語の誤りやすさが考慮されていないことを意味する。
本発明はかかる点に鑑みてなされたものであって、音声認識の統計的言語モデルにおける単語の予測精度が向上し、従来の統計的言語モデルよりも認識誤りが低減される辞書作成装置、及び辞書作成プログラムを提供することを課題とする。
前記課題を解決するために本発明の一態様による辞書作成装置は、音声認識に用いる複合語を新たな語彙として辞書に登録する辞書作成装置であって、音声言語資源記憶部と、記憶部と、音声認識部と、整列部と、複合語頻度計数部と、エントロピー計算部と、複合語選択部と、辞書登録部とを備える構成とした。
この辞書作成装置は、音声言語資源記憶部に音声とその音声を誤りなく文字化した正解単語列とが蓄積される。また、辞書作成装置は、記憶部に前記辞書、前記音声中の単語間のつながり度合いを示す統計的言語モデル、および前記音声中の単語と波形パターンとの関係を示す統計的音響モデルが記憶される。
また辞書作成装置は、音声認識部が、前記統計的言語モデルおよび前記統計的音響モデルを用いて前記音声を音声認識し、前記音声の正解候補の単語列を示す正解候補単語列を生成する。次に、辞書作成装置は、整列部が前記正解単語列および前記正解候補単語列を発話時刻に合わせて整列させる。そして、辞書作成装置は、複合語頻度計数部が前記正解単語列および前記正解候補単語列に含まれる単語2つ組それぞれの頻度を計数し、前記計数した頻度の高さに応じて前記単語2つ組を前記辞書に登録する複合語の複数の複合語候補として抽出する。
さらに、辞書作成装置は、エントロピー計算部が前記複合語頻度計数部によって抽出した複数の前記複合語候補を用いて、各々の複合語候補を前記複合語とした場合における前記音声の音声認識の難しさを示す指標であり、値が高い程に音声認識が難しいことを示すエントロピーを計算する。また、辞書作成装置は、複合語選択部が各々の複合語候補を前記複合語とした場合の前記エントロピーを最も減少させる複合語候補を選択する。そして、辞書作成装置は、辞書登録部が前記複合語選択部によって選択した複合語候補を前記辞書の新たな語彙として登録する。
このような構成を備える辞書作成装置は、音声の正解単語列と音声認識部によって音声を音声認識した結果である正解候補単語列とから複合語候補を抽出する。また、辞書作成装置は、抽出した複合語候補を用いて複合語候補を複合語とした場合のエントロピーを計算し、計算したエントロピーを用いて辞書に登録する複合語を選択する。
また、本発明の一態様による辞書作成装置は、前記エントロピー計算部が、前記統計的言語モデルにより得られる言語スコアと統計的音響モデルにより得られる音響スコアとを用いて前記エントロピーを計算する構成とした。
このような構成を備える辞書作成装置は、統計的言語モデルにより得られる言語スコアと統計的音響モデルにより得られる音響スコアとを用いて辞書に登録する複合語を選択する基準であるエントロピーを計算する。
また、本発明の一態様による辞書作成装置は、前記音声言語資源記憶部に、放送された音声、及びその音声の正解単語列が逐次蓄積される構成とした。これは例えば、人手による音声認識結果の誤り修正機能(正解単語列の作成機能)を備えた字幕作成装置(音声および正解単語列を出力とする)を前記音声言語資源記憶部の前段に接続することで実現される。
このような構成を備える辞書作成装置は、複合語を辞書に登録するための基準であるエントロピーの計算に放送された音声及びその正解単語列をリアルタイム(実時間)で反映させる。
また、本発明の一態様による辞書作成プログラムは、音声認識に用いる複合語を新たな語彙として辞書に登録する辞書作成装置としてコンピュータを機能させる辞書作成プログラムであって、前記コンピュータが音声言語資源記憶部と、記憶部とを有し、前記コンピュータを、音声認識手段と、整列手段と、複合語頻度計数手段と、エントロピー計算手段と、複合語選択手段と、辞書登録手段として機能させる。
この辞書作成プログラムを実行するコンピュータは、音声言語資源記憶部に音声とその音声を誤りなく文字化した正解単語列とが蓄積される。また、コンピュータは、記憶部に前記辞書、前記音声中の単語間のつながり度合いを示す統計的言語モデル、および前記音声中の単語と波形パターンとの関係を示す統計的音響モデルが記憶される。
また、辞書作成プログラムを実行するコンピュータは、音声認識手段が前記統計的言語モデルおよび前記統計的音響モデルを用いて前記音声を音声認識し、前記音声の正解候補の単語列を示す正解候補単語列を生成する。次に、コンピュータは、整列手段が前記正解単語列および前記正解候補単語列を発話時刻に合わせて整列させる。そして、コンピュータは、複合語頻度計数手段が前記正解単語列および前記正解候補単語列に含まれる単語2つ組それぞれの頻度を計数し、前記計数した頻度の高さに応じて前記単語2つ組を前記辞書に登録する複合語の複数の複合語候補として抽出する。
さらに、辞書作成プログラムを実行するコンピュータは、エントロピー計算手段が抽出した複数の前記複合語候補を用いて、各々の複合語候補を前記複合語とした場合における前記音声の音声認識の難しさを示す指標であり、値が高い程に音声認識が難しいことを示すエントロピーを計算する。また、コンピュータは、複合語選択手段が各々の複合語候補を前記複合語とした場合の前記エントロピーを最も減少させる複合語候補を選択する。そして、コンピュータは、辞書登録手段が前記選択した複合語候補を前記辞書の新たな語彙として登録する。
このような機能を実現する辞書作成プログラムは、音声の正解単語列と音声認識手段によって音声を音声認識した結果である正解候補単語列とから複合語候補を抽出する。また、辞書作成プログラムは、抽出した複合語候補を用いて複合語候補を複合語とした場合のエントロピーを計算し、計算したエントロピーを用いて辞書に登録する複合語を選択する。
本発明の一態様によれば、音声の正解単語列と音声を音声認識した結果である正解候補単語列とから複合語を辞書に登録するための基準であるエントロピーを計算するので、音響的な要素を考慮して辞書に登録する複合語を決定することができる。その為、音声認識の統計的言語モデルにおける単語の予測精度が向上し、従来の統計的言語モデルよりも認識誤りが低減される。
また、本発明の一態様によれば、複合語を辞書に登録するエントロピー計算に、音声認識で使用する統計的言語モデルと統計的音響モデルとを利用することができる。
また、本発明の一態様によれば、音声と正解単語列が逐次的に取得され得る場合、複合語を漸次認識辞書に追加することで、音声内容に追随した辞書を構成することが可能である。
実施形態に係る辞書作成装置の構成を示す機能ブロック図である。 実施形態に係るエントロピー計算部の処理手順を示すフローチャートである。 実施形態に係るエントロピー計算部における言語スコア計算の処理手順を示すフローチャートである。 実施形態に係る言語モデル更新部の処理手順を示すフローチャートである。
[本発明の概要]
最初に本発明の概要を説明する。従来法では、テキストデータを用い、複合語を作成する前後におけるテキストコーパスの変化を求め、この変化に基づいて(この変化を基準として)辞書に登録する複合語を決定していた。
本発明では、テキストデータを使う代わりに音声データとその正解単語列(音声の書き起こし)を用い、音声認識結果である正解の重畳された複数の正解候補単語列を対象として複合語の作成前後のエントロピーの変化を求め、この変化に基づいて(この変化を基準として)辞書に登録する複合語を決定する。
音声認識結果には、統計的音響モデルにより単語列の音響的な尤もらしさが確率(対数音響スコア)として付与されている。その為、従来法がテキストデータの情報しか利用しないことにより音響的な要素を考慮しないで辞書に登録する複合語を決定するのに対して、本発明は音響的な要素を考慮して辞書に登録する複合語を決定する。
≪本発明における複合語を辞書に登録するための基準≫
まず、以下で用いる用語の記載方針について説明する。一般的に行列や集合等は太字で示すことになっており、数式中では行列や集合等を太字で表している。しかしながら、明細書において太字で表わすことができない部分については太字ではない通常の文字を用いて代用する。また、明細書において表すことのできない特定の記号については、括弧書きで記号の名称を記載している。
次に、本発明における複合語を辞書に登録するための基準について説明する。
ベイズの定理によれば、音声入力xが与えられたとき、音響的かつ言語的に尤もらしい単語列w(ハット)は、以下の(式9)により求めることができる。
Figure 2014219569
ここで、P(x|w)は、単語列(文仮説)に対する音響的な尤もらしさであり、対数音響スコア(以下、省略して「音響スコア」と呼ぶ場合がある)はHMM(Hidden Markov Model)および混合Gauss分布(GMM:Gaussian Mixture Model)に代表される統計的音響モデル(以下、省略して「音響モデル」と呼ぶ場合がある)に基づいて計算される。
一方、P(w)は、単語列wに対する言語的な尤もらしさであり、対数言語スコア(以下、省略して「言語スコア」と呼ぶ場合がある)は、単語n−gramモデル等の統計的言語モデル(以下、省略して「言語モデル」と呼ぶ場合がある)により計算される。以下の説明では、言語モデルとしてn−gramを用いる場合を想定する。
音声認識では、前記したベイズの定理に基づいて、以下の(式10)を文仮説の評価関数と定め、以下の(式11)により正解候補となる単語列の集合から最良の単語列w(ハット)を選択する。
Figure 2014219569
Figure 2014219569
ここで、fam(x|w)は、音響モデルによる仮説wの音響スコア、flm(w)は、言語モデルによる仮説の言語スコア、λlmは、音響スコアに対する言語スコアの重みであり、f(w|x)が、仮説wに対するスコアとなる。
ベイズの定理における仮説wの事後確率は、以下の(式12)により計算される。
Figure 2014219569
いま、N個の音声が与えられたとする。n番目の音声x(n=1,・・・,N)に対して、正解単語列wn,0∈Wおよび音声認識結果である複数の正解候補単語列wn,k∈W(k=1,・・・)が得られたとする。xが与えられたときの仮説集合に対する条件付きエントロピーHは、以下の(式13)となる。また、N個の音声全体のエントロピーを以下の(式14)とする。ここで、(式13)及び(式14)の単語列の条件付き確率P(wn,k|x)は、(式12)により、音響スコアと言語スコアから計算される。
Figure 2014219569
Figure 2014219569
音響モデル及び言語モデルによる正解単語列の予測精度が高ければ、正解単語列のスコアは大きくなり、他の誤りを含む仮説のスコアは小さくなる。これは、仮説の識別に関連する不確実性が小さいということを意味し、結果として条件付きエントロピーの値も小さくなる。したがって、条件付きエントロピーがなるべく小さくなるように複合語を作成すれば、音響モデルと言語モデルを組み合わせたときの単語予測精度が改善する。
いま、単語列の集合W(n=1,・・・,N)に含まれる単語列の特定の単語2つ組を複合語wとしたときのN個の音声全体のエントロピーをH(w)、複合語を作成する前のエントロピーをH(w(バー))とすれば、以下の(式15)よりエントロピーの差分が得られる。
Figure 2014219569
そして、複合語の候補が複数与えられた場合、以下の(式16)となる複合語w(ハット)を選べば、w(ハット)は複合語の候補の中で、単語の予測精度が最も高くなる組である。すなわち、(式15)のエントロピーの差分を複合語の選択基準として、(式16)に該当する複合語を辞書に登録する。
Figure 2014219569
従来法では、テキストコーパスから求めたエントロピーの変化を用いているが、これは、音声認識において言語モデルの言語スコア(から導出されるエントロピー)のみを使っていることに等しい。一方、本発明では、対数音響スコアを考慮したエントロピーを用いるため、より音声認識にふさわしい複合語の選択基準となる。
以上で、本発明の概要についての説明を終了する。
[実施形態]
以下、本発明の実施するための形態を、適宜図面を参照しながら詳細に説明する。
各図は、本発明を十分に理解できる程度に、概略的に示してあるに過ぎない。よって、本発明は、図示例のみに限定されるものではない。なお、各図において、共通する構成要素や同様な構成要素については、同一の符号を付し、それらの重複する説明を省略する。
≪実施形態に係る辞書作成装置の構成≫
図1は、本発明の実施形態に係る辞書作成装置100の構成を示す機能ブロック図である。辞書作成装置100は、言語モデル学習データ記憶部11と、語彙・言語モデル記憶部12と、音響モデル記憶部13と、音声言語資源記憶部14と、音声認識部21と、正解単語列整列部22と、整列部23と、複合語頻度計数部24と、エントロピー計算部25と、複合語選択部26と、言語モデル更新部27とを備える。
ここで、言語モデル学習データ記憶部11、語彙・言語モデル記憶部12、音響モデル記憶部13、及び音声言語資源記憶部14は、HDD(Hard Disk Drive)等の一般的な記録媒体である。
また、音声認識部21、正解単語列整列部22、整列部23、複合語頻度計数部24、エントロピー計算部25、複合語選択部26、及び言語モデル更新部27は、CPU(Central Processing Unit)がHDD等に格納されたプログラムをRAM(Random Access Memory)に展開することにより実現するプログラム実行処理や、専用回路等により実現される。これらの機能がプログラム実行処理により実現される場合、「○○部」を「○○手段」と呼ぶ場合がある。
(言語モデル学習データ記憶部)
言語モデル学習データ記憶部11は、音声認識に用いられる言語モデルを作成するための学習データが記憶される。学習データは、ニュース原稿あるいはニュース書き起こしなどのテキストデータを事前に形態素解析により形態素(自立語や付属語などの単語)単位に分割し、また、係り受け解析により文節区切りを付与したものである。ここで、形態素とは、これ以上に細かくすると意味がなくなってしまう最小の文字列をいい、形態素解析とは、文章を形態素のレベルまで分解して解析することである。また、係り受け解析とは、文章を文節に区切ると共に、ある文節に含まれる着目している単語が、他の文節に含まれる単語にどのように係るかを、品詞毎に予め定められた可能性に基づいて解析することである。例えば、日本語の「今日の天気は晴れです」という文章に対して単語区切りと文節区切りとが付与されたテキストデータでは、「(今日/の/)(天気/は/)(晴れ/です)」等のように区切られている。なお、記号( )は文節区切りを示し、記号/は、単語区切りを示している。
(語彙・言語モデル記憶部)
語彙・言語モデル記憶部12は、言語モデル(統計的言語モデル)を作成するための辞書(語彙)、及び統計的言語モデルが記憶される。
辞書(語彙)は、単語(日本語ならば、自立語、付属語)を基礎としているが、音声認識における単語認識率を向上させるために2つ以上の連続した単語列(複合語)を含んで構成される。統計的言語モデルは、大量の音声データを利用して統計的計算手法によって求められた、音声中の単語間のつながり度合いを示す確率モデルの一種(接続確率)である。
なお、詳細は後記する選択された複合語の更新前の状態の語彙・言語モデル記憶部を符号12aで表し、複合語の更新後の語彙・言語モデル記憶部を符号12bで表す場合がある。
(音響モデル記憶部)
音響モデル記憶部13は、音響モデル(統計的音響モデル)が記憶される。
統計的音響モデルは、大量の音声の波形パターンに基づいて求められた、音声中の波形パターンと単語との関係を示す確率モデルの一種である。
(音声言語資源記憶部)
音声言語資源記憶部14には、放送などの音声(音声信号や音声信号を符号化した音声データを含む)とこの音声に付随する正解単語列とが蓄積されている。音声は、所定期間を一つの単位(例えば、番組単位やコーナー単位)としており、複数(例えば、1万個)の発話で構成されている。正解単語列は、音声を文字化したものであり、例えば、音声を書き起こしたものや、事前に音声認識したものに単語の挿入、置換、脱落等の誤り修正を行ったものであってよい。その為、正解単語列は、音声に対して誤りを含まないものである。なお、音声言語資源記憶部14には、音声及びこの音声に付随する正解単語列が、例えばN個蓄積されている。また、人手による誤り修正機能を備えた音声認識に基づく字幕作成装置から得られる音声および正解単語列を逐次記憶部に蓄積することも可能である。
(音声認識部)
音声認識部21には、音声言語資源記憶部14に蓄積される音声が入力される。音声認識部21は、語彙・言語モデル記憶部12に記憶される語彙、言語モデル及び音響モデル記憶部13に記憶される音響モデルを用いて、音声言語資源記憶部14に蓄積される音声を音声認識し、音声認識結果である複数の正解候補単語列を生成する。
正解候補単語列とは、入力された音声に対して尤もらしい単語列であり、音声に対して音声認識の誤りを含む可能性のある単語列である。具体的には、音声認識部21は、一つの発話に対しておおむね100〜500個程度の正解候補の単語を生成する。これにより、例えば、音声が1万個の発話で構成されていた場合に、1万個×100〜500個=100万〜500万個程度の音声認識結果である正解候補単語列が生成される。
また、音声認識部21は、正解候補単語列を構成する単語の発話時刻に合わせて正解候補単語列を整列する。この際、音声認識部21は、この正解候補単語列に対して、言語モデルによる言語スコアと音響モデルによる音響スコアとを付加する。なお、生成された正解候補単語列の中に正解単語列が含まれていてもよい。音声認識部21は、生成した正解候補単語列を整列部23に出力する。
(正解単語列整列部)
正解単語列整列部22には、音声言語資源記憶部14に蓄積される音声とこの音声の正解単語列とが入力される。正解単語列整列部22は、音声及び正解単語列と語彙・言語モデル記憶部12に記憶される言語モデル及び音響モデル記憶部13に記憶される音響モデルとを用いて、正解単語列を構成する単語の発話時刻に合わせて正解単語列を整列する。この際、正解単語列整列部22は、整列後の正解単語列に対して、言語モデルによる言語スコアと音響モデルによる音響スコアとを付加する。これにより、整列後の正解単語列には、何分何秒に何という単語が話されたかという情報と、音声認識部21が言語モデル及び音響モデルを用いて正解の単語列を音声認識した場合の言語スコア及び音響スコアとが付加される。正解単語列整列部22は、整列した正解単語列を整列部23に出力する。
(整列部)
整列部23には、音声認識部21で生成された正解候補単語列と正解単語列整列部22で発話時刻に合わせて整列された正解単語列とが統合されて単語列集合として入力される。以降では、単語列集合は、辞書(語彙)に登録する複合語を作成するための基準の計算(エントロピー計算)に用いられる。
整列部23は、語彙・言語モデル記憶部12bに記憶される複合語を含む新たな辞書(語彙)で学習された言語モデルと音響モデル記憶部13に記憶される音響モデルとで単語列集合の各単語列を単語の発話時刻に合わせて整列する。この際、整列部23は、整列された単語列の各単語に対して、音響モデルによる音響スコア、及び言語モデルによる言語スコアをそれぞれ付加する。なお、初期状態では、複合語が得られていないため、語彙・言語モデル記憶部12aに記憶される言語モデルと語彙・言語モデル記憶部12bに記憶される言語モデルとは同一である。したがって、初期状態では、前段の音声認識部21および正解単語列整列部22において、すでに整列済みであるため、整列部23では整列を行わない。整列部23は、整列を行った単語列集合を複合語頻度計数部24に出力する。
(複合語頻度計数部)
複合語頻度計数部24には、整列部23で整列された単語列集合が入力される。複合語頻度計数部24は、単語列集合に含まれる特定の単語2つ組の頻度を計数する。また、複合語頻度計数部24は、計数後、特定の単語2つ組を頻度の降順に並べ、上位となる高頻度M個の単語2つ組を複合語候補として算出する。複合語頻度計数部24は、単語列集合及び算出した上位となる高頻度M個の複合語候補をエントロピー計算部25に出力する。
(エントロピー計算部)
エントロピー計算部25には、単語列集合及び複合語頻度計数部24で算出された高頻度M個の複合語候補が入力される。エントロピー計算部25は、単語列集合及び高頻度M個の複合語候補を用いて、複合語を作成する前後のエントロピーをそれぞれ計算し、エントロピーの変化を求める。ここで、エントロピーとは、前記した通り、所与の言語モデルから計算される単語列の複雑さを示す指標、または、音声認識の難しさを示す指標であり、エントロピーが高いほど、単語列の複雑さが増し、当該言語モデルによる音声認識が難しくなる。エントロピー計算部25の処理の詳細は後記する処理手順で説明する。エントロピー計算部25は、計算したエントロピーの変化を複合語選択部26に出力する。
(複合語選択部)
複合語選択部26には、エントロピー計算部25が計算したエントロピーの変化が入力される。複合語選択部26は、前段のエントロピー計算部25の結果を受けて、M個の複合語候補の中から、エントロピーの変化が最も大きくなる候補(複合語を作成した後のエントロピーが複合語を作成する前のエントロピーに比べて最も減少する複合語候補)を複合語として選択する。複合語選択部26は、選択した複合語を言語モデル更新部27に出力する。
(言語モデル更新部)
言語モデル更新部27(辞書登録部)には、複合語選択部26から選択した複合語が入力される。言語モデル更新部27は、前段で得られた複合語を新たに語彙・言語モデル記憶部12の辞書(語彙)に追加し、言語モデルの学習に用いた言語モデル学習データを用いて言語モデルを再学習し、語彙・言語モデル記憶部12の言語モデルを更新する。言語モデル更新部27の処理の詳細は後記する処理手順で説明する。言語モデル更新部27は、言語モデルを再学習したことを整列部23に出力する。
そして、整列部23は、複合語が更新された複合語更新後の語彙・言語モデル記憶部12bに記憶された言語モデルを用いて新たに整列を行う。以下、所望の数の複合語が得られるまで、整列部23、複合語頻度計数部24、エントロピー計算部25、複合語選択部26、及び言語モデル更新部27の処理を繰り返す。上記の処理終了後、語彙・言語モデル記憶部12bに記憶された言語モデルを音声認識に用いる。
以上で、実施形態に係る辞書作成装置100の構成についての説明を終了する。
≪実施形態に係る辞書作成装置の処理手順≫
以下では、実施形態に係る辞書作成装置100の主要部(エントロピー計算部25、及び言語モデル更新部27)の処理手順について説明する。
(エントロピー計算部の処理手順)
図2を参照して、エントロピー計算部25の処理手順について説明する。
いま、N個の音声が与えられたとする。n番目の音声x(n=1,・・・,N)に対して、単語列集合(正解単語列wn,0∈Wおよび音声認識結果である複数の正解候補単語列wn,l∈W(l=1,・・・))が得られたとする。なお、正解単語列wn,0及び正解候補単語列wn,lについての(1)言語モデルによる言語スコアflm(wn,l)、ならびに(2)音響モデルによる音響スコアfam(wn,l|x)は、すでに前段(音声認識部21や正解単語列整列部22)で計算済みであり、各々の単語列の各単語に付加されている。また、複合語頻度計数部24で算出された高頻度M個の複合語候補が得られたとする。
ステップS10のループ処理は、複合語頻度計数部24が算出した上位となる高頻度M個の複合語候補について順次処理(例えば、頻度の降順)を行うことを意味する。
エントロピー計算部25は、第m番目(最初は高頻度1番目)の複合語候補に対して、複合語を作成する前後での言語スコアの変更分をあらかじめ計算しておく(ステップS20)。スコアの変更分は、複合語を構成する語w,wおよび複合語候補wに関わる部分のみにおける計算である。ステップS20の言語スコア計算を詳細化したフローチャートを図3に示す。
図3を参照し、エントロピー計算部25における言語スコア計算の処理手順について説明する。
エントロピー計算部25は、第m番目の複合語候補を複合語として構成することにより変更となる単語列の頻度を、言語モデル学習データ記憶部11に記憶された学習データから算出する(ステップS21)。具体的には、以下に示す(1)〜(6)の頻度を求める。
(1)複合語となる単語2つ組(w,w)の頻度C(w,w
(2)wの左側(前方)に接続する単語w∈{V}との2つ組(w,w)の頻度C(w,w
(3)wの右側(後方)に接続する単語w∈{V}との2つ組(w,w)の頻度C(w,w
(4)(w,w)の左側(前方)に接続する単語wとの3つ組(w,w,w)の頻度C(w,w,w
(5)wの右側(後方)に接続する単語w∈{V}との2つ組(w,w)の頻度C(w,w
(6)(w,w)の右側(後方)に接続する単語wとの3つ組(w,w,w)の頻度C(w,w,w
続いて、エントロピー計算部25は、ステップS21で求めた頻度から、複合語に関わる言語スコア(バイグラム)の値を計算する(ステップS22)。以下に具体的な処理を記述する。
まず、複合語wを得た後のバイグラムP´(w|w)は、以下の(式17)となる。
Figure 2014219569
を履歴としたときのバイグラムP´(w|w)は、以下の(式18)となる。
Figure 2014219569
一方、複合語wを得た後のwのバイグラムP´(w|w)は、以下の(式19)となる。
Figure 2014219569
を履歴としたときのバイグラムP´(w|w)は、以下の(式20)となる。
Figure 2014219569
を履歴としたときのバイグラムP´(w|w)は、以下の(式21)となる。
Figure 2014219569
続いて、エントロピー計算部25は、前記した複合語を作成したときの言語スコア(バイグラム)の変更分を言語スコアテーブルが記憶される言語スコアテーブル記憶部15に格納し(言語スコアテーブル作成)、後段の処理(図4の言語モデル更新S130)で参照できるようにする(ステップS23)。そして、処理は図2のステップS30に進む。
ステップS30のループ処理は、与えられたN個の音声(音声データ)について順次処理を行い、結果として全ての音声についてループ内の処理を行うことを意味する。
エントロピー計算部25は、第n番目(最初は第1番目)の音声に対して、単語2つ組を複合語にする前と複合語にした後との言語スコアの差分を計算する(ステップS40)。本実施形態では、言語モデルとしてバイグラムを使っており、単語2つ組(w,w),複合語候補wとする。
複合語wを作成する前後における言語モデルの言語スコアの差分は、以下の(式22)となる。
Figure 2014219569
(式22)においては、flm(w|・)を以下の(式23)とする。ここで、δu,wは単語列wに含まれる単語2つ組(u,w)の個数を返す関数である。
Figure 2014219569
複合化した単語列wの言語スコアは、以下の(式24)により計算できる。
Figure 2014219569
続いて、エントロピー計算部25は、複合語を構成する前後における音響モデルの音響スコアの差分を計算する(ステップS50)。音響スコアの差分は、以下の(式25)となる。
Figure 2014219569
ここで、x[s,e]は、入力音声の内、始端時刻s,終端時刻eとなる部分(音声の一部分)とする。σ(v)は、単語v(式25ではw,w等と表記)の発話始端時刻とする。τ(v)は、発話終端時刻とする。fam(x[s,e]|v)は、単語vが与えられたときの音響スコアとする。その場合、複合語化した単語列の音響スコアは、以下の(式26)となる。
Figure 2014219569
続いて、エントロピー計算部25は、以下の(式27)及び(式28)を用いて、n番目の音声xに対する単語列集合中のすべての単語列から、第m番目の複合語を作成する前のエントロピー及び作成後のエントロピーを計算する(ステップS60)。
Figure 2014219569
Figure 2014219569
続いて、エントロピー計算部25は、計算したn番目の音声xに対する第m番目の複合語を作成する前のエントロピーH (w|x)と作成した後のエントロピーH(バー) (w|x)との差分を以下の(式29)により求める(ステップS70)。
Figure 2014219569
第n番目の音声nに対してステップS70までの処理が終了すると、nに「1」を加算して、次の音声xn+1についてもステップS40〜ステップS70までの処理を行う。このステップS30におけるループ処理は、与えられたN個の音声(全ての音声)について行う。つまり、m番目の複合語候補に対するエントロピーH(w|x)は、N個の音声(全ての音声)で積算することにより以下の(式30)で求められる。
Figure 2014219569
そして、このステップS30におけるループ処理により、m番目の複合語候補に対するエントロピーの差分ΔHは、N個の音声(全ての音声)で積算することで以下の(式31)となる。
Figure 2014219569
与えられたN個の音声に対してステップS30のループ処理が終了すると、mに「1」を加算して、次の第m+1番目の複合語候補m+1についてもステップS20〜ステップS70までの処理を行う。このステップS10におけるループ処理は、与えられた高頻度M個の複合語候補について行う。そして、エントロピー計算部25は、高頻度M個の複合語候補についてのエントロピーの差分ΔHを複合語選択部26に出力する。
(言語モデル更新部の処理手順)
図4を参照して、言語モデル更新部27の処理手順について説明する。
最初に、言語モデル更新部27は、語彙・言語モデル記憶部12に記憶される元の語彙{V}に、複合語選択部26が選択した複合語wを加え({V}←{V}∪{w}))語彙を更新する(ステップS110)。
続いて、言語モデル更新部27は、言語モデル学習データ記憶部11に記憶される学習データに含まれる複合語作成前の単語2つ組を複合語に置き換え、学習データを更新する(ステップS120)。具体的には、言語モデル更新部27は、学習データであるテキストデータの単語区切り(形態素区切り)を更新する。ここで、単語区切りの更新とは、日本語の場合を想定すると、更新前のテキストデータに含まれる「自立語A+自立語B」や「自立語A+付属語C」といった単語ペアを、「複合語AB」や「複合語AC」に変化させることである。
続いて、言語モデル更新部27は、エントロピー計算部25がステップS20(図3参照)で行った言語スコア計算により得た言語スコアテーブル(言語スコアテーブル記憶部15に記憶)を参照して、選択した複合語に該当する言語スコア(バイグラム)を置き換える。また、言語モデル更新部27は、統計的な処理により言語モデルを作成し、語彙・言語モデル記憶部12に記憶される言語モデルを更新する(ステップS130)。そして、言語モデル更新部27は、言語モデルを更新したことを整列部23に出力する。
以上で、実施形態に係る辞書作成装置100の処理手順についての説明を終了する。
以上のように、本実施形態に係る辞書作成装置100は、音声の正解単語列と音声認識部21によって音声を音声認識した結果である正解候補単語列とから複合語を辞書に登録するための基準であるエントロピーを計算するので、音響的な要素を考慮して辞書に登録する複合語を決定することができる。その為、音声認識の統計的言語モデルにおける単語の予測精度が向上し、従来の統計的言語モデルよりも認識誤りが低減される。
[変形例]
以上、本発明の実施形態について説明したが、本発明はこれに限定されるものではなく、その趣旨を変えない範囲で実施することができる。
例えば、実施形態の辞書作成装置100は、日本語を辞書に登録する場合を想定して説明したが、英語などの他の言語についても適用可能である。
また、実施形態の辞書作成装置100は、言語モデルとしてn−gramモデルの一つであるバイグラムを用いた場合を想定して説明したが、トライグラムなどを用いたり、他の言語モデルを用いてもよい。
11 言語モデル学習データ
12 語彙・言語モデル記憶部(記憶部)
13 音響モデル記憶部(記憶部)
14 音声言語資源記憶部
15 言語スコアテーブル記憶部
21 音声認識部(音声認識手段)
22 正解単語列整列部(正解単語列整列手段)
23 整列部(整列手段)
24 複合語頻度計数部(複合語頻度計数手段)
25 エントロピー計算部(エントロピー計算手段)
26 複合語選択部(複合語選択手段)
27 言語モデル更新部(辞書登録部(辞書登録手段))
100 辞書作成装置

Claims (4)

  1. 音声認識に用いる複合語を新たな語彙として辞書に登録する辞書作成装置であって、
    音声とその音声を誤りなく文字化した正解単語列とが蓄積された音声言語資源記憶部と、
    前記辞書、前記音声中の単語間のつながり度合いを示す統計的言語モデル、および前記音声中の単語と波形パターンとの関係を示す統計的音響モデルが記憶された記憶部と、
    前記統計的言語モデルおよび前記統計的音響モデルを用いて前記音声を音声認識し、前記音声の正解候補の単語列を示す正解候補単語列を生成する音声認識部と、
    前記正解単語列および前記正解候補単語列を発話時刻に合わせて整列する整列部と、
    前記正解単語列および前記正解候補単語列に含まれる単語2つ組それぞれの頻度を計数し、前記計数した頻度の高さに応じて前記単語2つ組を前記辞書に登録する複合語の複数の複合語候補として抽出する複合語頻度計数部と、
    前記複合語頻度計数部が抽出した複数の前記複合語候補を用いて、各々の複合語候補を前記複合語とした場合における前記音声の音声認識の難しさを示す指標であり、値が高い程に音声認識が難しいことを示すエントロピーを計算するエントロピー計算部と、
    各々の複合語候補を前記複合語とした場合の前記エントロピーを最も減少させる複合語候補を選択する複合語選択部と、
    前記複合語選択部が選択した複合語候補を前記辞書の新たな語彙として登録する辞書登録部と、
    を備えることを特徴とする辞書作成装置。
  2. 前記エントロピー計算部は、
    前記統計的言語モデルにより得られる言語スコアと前記統計的音響モデルにより得られる音響スコアとを用いて前記エントロピーを計算する、
    ことを特徴とする請求項1に記載の辞書作成装置。
  3. 前記音声言語資源記憶部は、放送音声およびその正解単語列を逐次的に蓄積し、
    前記辞書登録部は、複合語を新たな語彙として漸次登録する、
    ことを特徴とする請求項1または請求項2に記載の辞書作成装置。
  4. 音声認識に用いる複合語を新たな語彙として辞書に登録する辞書作成装置としてコンピュータを機能させる辞書作成プログラムであって、
    前記コンピュータは、
    音声とその音声を誤りなく文字化した正解単語列とが蓄積された音声言語資源記憶部と、前記辞書、前記音声中の単語間のつながり度合いを示す統計的言語モデル、および前記音声中の単語と波形パターンとの関係を示す統計的音響モデルが記憶された記憶部とを有し、
    前記コンピュータを、
    前記統計的言語モデルおよび前記統計的音響モデルを用いて前記音声を音声認識し、前記音声の正解候補の単語列を示す正解候補単語列を生成する音声認識手段と、
    前記正解単語列および前記正解候補単語列を発話時刻に合わせて整列する整列手段と、
    前記正解単語列および前記正解候補単語列に含まれる単語2つ組それぞれの頻度を計数し、前記計数した頻度の高さに応じて前記単語2つ組を前記辞書に登録する複合語の複数の複合語候補として抽出する複合語頻度計数手段と、
    抽出した複数の前記複合語候補を用いて、各々の複合語候補を前記複合語とした場合における前記音声の音声認識の難しさを示す指標であり、値が高い程に音声認識が難しいことを示すエントロピーを計算するエントロピー計算手段と、
    各々の複合語候補を前記複合語とした場合の前記エントロピーを最も減少させる複合語候補を選択する複合語選択手段と、
    前記選択した複合語候補を前記辞書の新たな語彙として登録する辞書登録手段として機能させるための辞書作成プログラム。
JP2013098856A 2013-05-08 2013-05-08 辞書作成装置、及び辞書作成プログラム Active JP6276516B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013098856A JP6276516B2 (ja) 2013-05-08 2013-05-08 辞書作成装置、及び辞書作成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013098856A JP6276516B2 (ja) 2013-05-08 2013-05-08 辞書作成装置、及び辞書作成プログラム

Publications (2)

Publication Number Publication Date
JP2014219569A true JP2014219569A (ja) 2014-11-20
JP6276516B2 JP6276516B2 (ja) 2018-02-07

Family

ID=51938042

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013098856A Active JP6276516B2 (ja) 2013-05-08 2013-05-08 辞書作成装置、及び辞書作成プログラム

Country Status (1)

Country Link
JP (1) JP6276516B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110134767A (zh) * 2019-05-10 2019-08-16 云知声(上海)智能科技有限公司 一种词汇表的筛选方法
WO2021024613A1 (ja) * 2019-08-06 2021-02-11 株式会社Nttドコモ 単語重み計算システム

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6385579B1 (en) * 1999-04-29 2002-05-07 International Business Machines Corporation Methods and apparatus for forming compound words for use in a continuous speech recognition system
JP2007171724A (ja) * 2005-12-26 2007-07-05 Nippon Hoso Kyokai <Nhk> 辞書作成装置および辞書作成プログラム
JP2008064815A (ja) * 2006-09-05 2008-03-21 Nippon Hoso Kyokai <Nhk> 音声認識装置及び音声認識プログラム
JP2008176202A (ja) * 2007-01-22 2008-07-31 Nippon Hoso Kyokai <Nhk> 音声認識装置及び音声認識プログラム
JP2009271465A (ja) * 2008-05-12 2009-11-19 Nippon Telegr & Teleph Corp <Ntt> 単語追加装置、単語追加方法、そのプログラム
JP2011154061A (ja) * 2010-01-26 2011-08-11 Nec Corp 辞書作成装置、そのコンピュータプログラムおよびデータ処理方法
JP2011164175A (ja) * 2010-02-05 2011-08-25 Nippon Hoso Kyokai <Nhk> 言語モデル生成装置、そのプログラムおよび音声認識システム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6385579B1 (en) * 1999-04-29 2002-05-07 International Business Machines Corporation Methods and apparatus for forming compound words for use in a continuous speech recognition system
JP2007171724A (ja) * 2005-12-26 2007-07-05 Nippon Hoso Kyokai <Nhk> 辞書作成装置および辞書作成プログラム
JP2008064815A (ja) * 2006-09-05 2008-03-21 Nippon Hoso Kyokai <Nhk> 音声認識装置及び音声認識プログラム
JP2008176202A (ja) * 2007-01-22 2008-07-31 Nippon Hoso Kyokai <Nhk> 音声認識装置及び音声認識プログラム
JP2009271465A (ja) * 2008-05-12 2009-11-19 Nippon Telegr & Teleph Corp <Ntt> 単語追加装置、単語追加方法、そのプログラム
JP2011154061A (ja) * 2010-01-26 2011-08-11 Nec Corp 辞書作成装置、そのコンピュータプログラムおよびデータ処理方法
JP2011164175A (ja) * 2010-02-05 2011-08-25 Nippon Hoso Kyokai <Nhk> 言語モデル生成装置、そのプログラムおよび音声認識システム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110134767A (zh) * 2019-05-10 2019-08-16 云知声(上海)智能科技有限公司 一种词汇表的筛选方法
CN110134767B (zh) * 2019-05-10 2021-07-23 云知声(上海)智能科技有限公司 一种词汇表的筛选方法
WO2021024613A1 (ja) * 2019-08-06 2021-02-11 株式会社Nttドコモ 単語重み計算システム
JP7512288B2 (ja) 2019-08-06 2024-07-08 株式会社Nttドコモ 単語重み計算システム

Also Published As

Publication number Publication date
JP6276516B2 (ja) 2018-02-07

Similar Documents

Publication Publication Date Title
Collobert et al. Wav2letter: an end-to-end convnet-based speech recognition system
Mangu et al. Finding consensus in speech recognition: word error minimization and other applications of confusion networks
US9672817B2 (en) Method and apparatus for optimizing a speech recognition result
Schuster et al. Japanese and korean voice search
US8185376B2 (en) Identifying language origin of words
KR102375115B1 (ko) 엔드-투-엔드 모델들에서 교차-언어 음성 인식을 위한 음소-기반 컨텍스트화
US8126714B2 (en) Voice search device
JP4968036B2 (ja) 韻律語グルーピング方法及び装置
US10360904B2 (en) Methods and apparatus for speech recognition using a garbage model
Chen et al. Lightly supervised and data-driven approaches to mandarin broadcast news transcription
JP2001092496A (ja) 連続音声認識装置および記録媒体
KR20230156125A (ko) 룩업 테이블 순환 언어 모델
Tejedor et al. Novel methods for query selection and query combination in query-by-example spoken term detection
JP4758758B2 (ja) 辞書作成装置および辞書作成プログラム
JP4764203B2 (ja) 音声認識装置及び音声認識プログラム
JP6276516B2 (ja) 辞書作成装置、及び辞書作成プログラム
Kou et al. Fix it where it fails: Pronunciation learning by mining error corrections from speech logs
Hwang et al. Building a highly accurate Mandarin speech recognizer
AbuZeina et al. Cross-word modeling for Arabic speech recognition
JP5124012B2 (ja) 音声認識装置及び音声認識プログラム
US6772116B2 (en) Method of decoding telegraphic speech
Fu et al. Automatic speech recognition based on non-uniform error criteria
Zitouni et al. Statistical language modeling based on variable-length sequences
JP2006107353A (ja) 情報処理装置および方法、記録媒体、並びにプログラム
JP2002082690A (ja) 言語モデル生成方法、音声認識方法及びそのプログラム記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160330

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170515

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170523

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170718

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171219

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180112

R150 Certificate of patent or registration of utility model

Ref document number: 6276516

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250