JP4987530B2 - 音声認識辞書作成装置および音声認識装置 - Google Patents

音声認識辞書作成装置および音声認識装置 Download PDF

Info

Publication number
JP4987530B2
JP4987530B2 JP2007082282A JP2007082282A JP4987530B2 JP 4987530 B2 JP4987530 B2 JP 4987530B2 JP 2007082282 A JP2007082282 A JP 2007082282A JP 2007082282 A JP2007082282 A JP 2007082282A JP 4987530 B2 JP4987530 B2 JP 4987530B2
Authority
JP
Japan
Prior art keywords
word
speech recognition
words
recognition
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007082282A
Other languages
English (en)
Other versions
JP2008242059A (ja
Inventor
洋平 岡登
利行 花沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2007082282A priority Critical patent/JP4987530B2/ja
Publication of JP2008242059A publication Critical patent/JP2008242059A/ja
Application granted granted Critical
Publication of JP4987530B2 publication Critical patent/JP4987530B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は音声認識を用いて音声入力による文書等の各種テキストを検索する装置に関し、特に音声認識の精度改善技術に関するものである。
音声認識技術は、カーナビゲーションシステム等、ハンズフリーで操作する場合に有用であり、特に、メニュー等で代替困難な大語彙の検索においてニーズが高い。大語彙の認識では、高精度化のために想定される発話内容に沿った言語辞書を作成することが重要である。
住所や電話番号を音声認識する場合、比較的言い方が決まっているため、認識可能な文を構文で記述する構文制御型の言語辞書が用いられる。構文制御型の言語辞書は、決められた内容を高い精度で認識する特徴がある。
しかし、施設名を検索対象とする場合、データベースに記載された名称の通りユーザが発声する割合は低くなる。このため、より多様な言い方を認識可能とする必要がある。さらに、WEBテキストを検索する場合、ユーザはテキスト中のキーワードのみから検索を行うため、検索語彙を事前に想定しておくことが困難である。このように、検索の対象や質問方法のバリエーションが増加すると、想定される発声内容を構文で記述しておくことは困難である。そこで、任意の単語の組合せを認識する連続音声認識が用いられる。
ただし、連続音声認識では、認識語彙全ての単語の接続を考慮し候補を探索するため、演算量・精度の制約から認識対象の単語数を数千から数万語程度に限る必要がある。このため、それ以上の語彙を含む文書や施設名などの名称を検索する場合、認識語彙でカバーできない未登録語の扱いを考慮する必要がある。非特許文献1においては、未登録語を音節とサブワードへ分解して認識し、未登録語と等価または類似の語を検索することにより、未登録語を含む検索対象への改善方法を述べている。
また、非特許文献2では、未登録語のカテゴリをクラスタリングしたモデルを用いることで、未登録語部分の認識率を改善する方法を提案している。しかし、認識単語として表す場合と比較すると、認識率が低下する。
内山、松本,「仮名文字と連語登録を併用した統計的言語モデル」電子情報通信学会技術研究報告,1999-06,SP99-38,pp. 87-94. 谷垣、山本、匂坂,「クラスに依存した確率的記述に基づく階層型言語モデル」電子情報通信学会論文誌,D-II,2001年11月春,Vol, 84-D-II,No. 11、pp. 2371-2378.
連続音声認識では、精度・演算量の制約から、認識単語数が数千から数万語程度に制限される場合がある。このとき、検索対象とする語句を全て登録語とすることはできず、連続音声認識に対する未登録語が生じる。未登録語がある場合の検索方式や未登録語の認識率を改善する方式が検討されているものの、単語登録されている場合と比較すると精度が低下する。
ただし、音声認識を検索の前処理とする場合、入力発声が長ければ未登録語を含む入力であっても正しく認識している部分が増えるため利用可能な情報が多く、競合する候補を絞ることができる。このため、未登録語を含んでいても、候補として抽出できる場合が多く検索精度の低下は小さい。
しかし、入力発話が短くかつ未登録語である場合、端的には、未登録語1単語のみである場合、検索精度は未登録語部分の認識精度に強く依存する。特に、検索においてユーザは必要最小限の内容を発話することが多いため、短い発話を高精度で認識する必要がある。
本発明は、上記を鑑みて、連続音声認識において短い単語発声の認識率を改善することを目的としたものである。
本発明に係る音声認識辞書作成装置は、
認識対象コーパスから連続音声認識の対象とする単語を選択すると共に選択外単語の未登録語モデル化を行う連続音声認識単語選択手段と、
認識対象コーパスと、選択された単語と未登録語モデルにより統計的言語モデルを推定する連続音声認識用辞書作成手段と、
統計的言語モデルを記憶する連続音声認識用辞書と
連続音声認識用辞書を参照し、認識対象コーパスから選択された連続音声認識対象単語以外で、(A)連続音声認識辞書103に無い未登録語を含む場合、(B)未登録語を含み、統計的言語モデルによる文の生成確率が第1のしきい値以下である場合、(C)未登録語を含み、1文の総音節数が第2のしきい値以下である場合、(D)未登録語の頻度が第3のしきい値以上である場合、(E)含まれる未登録語の品詞が事前に指定したものである場合を選択基準とし、前記(A)〜(E)の選択基準の組み合わせに基づいて補完単語を選択して補完単語とする補完認識辞書を作成・出力する補完認識辞書作成手段を備える。
また、音声認識装置は、
入力音声を分析し、音響特徴量ベクトルの時系列へ変換する特徴抽出手段と、
音声認識の基本単位について音響特徴量ベクトル時系列のスペクトル変動と時間変動を統計的にモデル化した音響標準パタンと、
特徴抽出手段で変換された音響特徴量ベクトルの時系列を、音響標準パタンと照合し標準パタンごとの音響スコアを計算する照合手段と、
標準パタンごとの音響スコアに基づいて、任意の単語列へ出力確率を与える統計的言語モデルが保管された連続音声認識用辞書と、連続音声認識辞書の登録語彙を考慮し、認識対象コーパスから単独発声の認識率が低いと推定される文から選択された未登録語を含む単語および単語列が構文として記述され、(A)連続音声認識辞書103に無い未登録語を含む場合、(B)未登録語を含み、統計的言語モデルによる文の生成確率が第1のしきい値以下である場合、(C)未登録語を含み、1文の総音節数が第2のしきい値以下である場合、(D)未登録語の頻度が第3のしきい値以上である場合、(E)含まれる未登録語の品詞が事前に指定したものである場合を選択基準とし、前記(A)〜(E)の選択基準の組み合わせに基づいて補完単語を選択して、補完単語とした構文記述型の認識辞書である補完認識用辞書とを探索し認識結果を求める探索手段を備える。
本発明に係る音声認識辞書作成装置によれば、認識対象コーパスと、認識対象コーパスから選択された連続音声認識対象の単語と、未登録語モデル化された選択外単語とから連続音声認識辞書を、また、続音声認識辞書を考慮して、未登録語の認識を改善するための補完認識辞書を生成する。補完認識辞書は、連続音声認識辞書が認識しにくい状況に限り、限定して働くように設計されている。
音声認識装置は、入力音声を分析して、変換された音響特徴量ベクトルの時系列を、音響標準パタンと照合し標準パタンごとの音響スコアを計算し、連続音声認識用辞書と補完認識辞書の両者を参照して音声認識を行うので、演算量の増大や精度の低下を抑えつつ、短い未登録語に対する認識率を改善できる。
実施の形態1.
図1は、実施の形態1に係る音声認識辞書作成装置および音声認識装置の構成を示すブロック図である。図1に示す音声認識辞書作成装置および音声認識装置は、認識対象コーパス100、連続音声認識対象単語選択手段101、連続音声認識用辞書作成手段102、連続音声認識辞書103、補完認識用辞書作成手段104、補完認識辞書105、特徴抽出手段106、音響標準パタン107、照合手段108、探索手段109からなる。
従来の音声認識辞書作成装置と異なる本発明に特徴的な部分は、補完認識用辞書作成手段104を備え、この補完認識用辞書作成手段104で作成された補完認識辞書105を入力音声からテキストを検索する際に参照することで連続音声認識では精度が低下する未登録語が単独で発声される場合の認識精度を改善することである。
以下、実施の形態1に係る音声認識辞書作成装置および音声認識装置の詳細な構成および動作について説明する。
認識対象コーパス100は、認識対象を表す単語に分割されたテキストデータである。入力されるテキストデータは、事前の言語解析により、単語ごとに読みと、品詞が付与されている。読みは、音声認識の際に音声と対応付けるものである。品詞は、「名詞」「固有名詞」「地名」等の形態素の言語的な属性を示す。このうち、音声認識辞書作成に必須の情報は読みである。それ以外の情報は、辞書作成方法によっては参照しないこともある。
図2は、認識対象コーパス100の記載例である。このコーパスは、テキストデータである各文は空白で単語に区切られており、各単語は表記、読み、品詞がスラッシュ「/」で区切られ記載されている。ここでは、単語「マングース」は、特定の施設の名称を示す。
連続音声認識対象単語選択手段101は、認識対象コーパス100を読み込み、連続音声認識の対象とする単語を選択する。また、選択した単語の認識辞書を作成する。
連続音声認識用辞書作成手段102は、連続音声認識対象単語選択手段101により生成された単語辞書と認識対象コーパス100から、任意の単語間の接続関係を計算する。また、必要に応じて未登録語モデルによる統計的言語モデルの推定を行う。
連続音声認識辞書103は、連続音声認識用辞書作成手段102により推定された任意の単語列へ出力確率を与える統計的言語モデルである。音声認識の探索処理において、言語スコアとして、言語的な候補を選択するために参照される。
補完認識用辞書作成手段104は、連続音声認識辞書103の登録語彙を考慮し、認識対象コーパス100から単独発声の認識率が低いと推定される文を抽出し、補完用の音声認識用辞書を作成して補完認識辞書105へ出力する。
補完認識辞書105は、補完認識用辞書作成手段104が選択した未登録語を含む単語および単語列を構文として記述した構文記述型の認識辞書である。
特徴抽出手段106は、入力された音声をA/D変換し、事前に設定された時間間隔で短時間の音声を音声特徴量ベクトルへ変換する。
音響標準パタン107は、音素など音声認識の基本単位について音響特徴量ベクトル時系列のスペクトル変動と時間変動を統計的にモデル化した標準パタンである。
照合手段108は、特徴量抽出手段106より取得される音響特徴量ベクトルと音響標準パタン107の各モデルを照合し、音響特徴量ベクトルの音響スコアを計算する。
探索手段109は、音素など音声認識の基本単位に対する音響スコアと、連続音声認識辞書103および補完認識辞書105の言語スコアおよび語彙に基づいて、認識候補の探索を行う。
次に、図7のフローチャートを参照し、実施の形態1にかかる音声認識辞書作成装置の動作を説明する。
(ステップS101);まず、連続音声認識対象単語選択手段 101が連続音声認識の対象とする単語を認識対象コーパス100から選択する。即ち、連続音声認識対象単語選択手段 101は、認識対象コーパス100読み込み、連続音声認識の対象とする単語を所定の基準に従い選択する。
具体的な選択方法は、単語数が所定の数に納まるように、認識対象コーパス100のうちで高頻度のものから順に単語を選択する。あるいは、形態素に付与された品詞を参照し、固有名詞以外の表現を優先的に選択する。また、人名について、別途調査したデータに基づいて高頻度のものから順に選択する。例えば、図3のような語彙を選択したとする。
連続音声認識の対象外となった単語は、未登録語モデルにより表現する。未登録語のモデル化方法には、前述の非特許文献1、非特許文献2に記載のような手法がある。例えば、非特許文献1の方法では、未登録語として「鎌倉」がある場合、最も単純には「カ マ ク ラ」という4音節へ分解する。この結果、未登録語は100個程度の音節の組合せで表現でき、未登録語を考慮して確率を付与する言語モデルを構築できる。
また、非特許文献2では、未登録語部分の音節連鎖については単語長を考慮して単語とは異なるモデル化を行う方法を述べている。今回は非特許文献1の方法に従い、説明を行うが別の方法で未登録語をモデル化した場合でも同様に処理できる。
(ステップS102);次に、連続音声認識用辞書作成手段102は、ステップS101で選択された語彙と選択外の単語がモデル化された未登録語モデルを利用し、認識対象コーパス100から読み込んだ単語区切りされたテキストデータから統計的言語モデルを推定する。
統計的言語モデルは、想定される任意の単語系列に対して、その妥当性を表す言語スコア(出現確率)を与える確率モデルである。確率モデルは、学習データである認識対象コーパス100に基づいて推定される。言語スコアは、表現の妥当性を表す指標と見ることができ、音声認識の候補探索時に考慮される。
ここでは、統計的言語モデルとして時系列情報である音声の処理と整合性が良く、学習が容易であることから広く使われている単語N-gramを用いた場合を対象に説明する。
単語N-gramモデルは、直前のN-1単語に対する条件付き確率の積として単語系列の出現確率を与える。例えばN=2の場合、2単語連鎖の出現確率の積となる。
具体的には、<b>を単語列の始端、<e>を単語列の終端を示す仮想的な単語とすると、M単語からなる単語系列 W={w、w、・・・,w}に対しする単語列Wの生成確率P(W)は式1のように計算される。
Figure 0004987530
単語2-gram言語モデルでは、あらかじめ、任意の単語連鎖{wi、wj}について条件付き確率 P(wi|wj)を計算しておく。ただし、学習データが限られるため、学習データで未出現の単語の組合せが多数存在する。単純に学習データの頻度に基づいてP(wi|wj)を推定すると、学習データで未出現の単語列は確率がゼロとなり扱えないという問題がある。そこで、学習データに出現しなかった単語列に対しても確率を付与可能なように、確率分布のスムージングを行う。代表的なものは、バックオフスムージング法である。本方法の詳細は、北研一著,「確率的言語モデル」,初版,東京大学出版会(1999)で説明されている
非特許文献1では、未登録語を音節に分解しているため、単語・音節混合N-gramとして、未登録語を合わせて確率モデルが構成される。例えば、単語列(w1、w2、w3)のうち、単語w2が未登録語であり、2音節{s21、s22}から構成されている場合、単語列出現確率は、式2となる(<b>、<e>は始終端を表す仮想的な単語)。
Figure 0004987530
同様に、単独で出現する単語w2の出現確率は、式3のように計算できる。
Figure 0004987530
(ステップS103);次に、連続音声認識対象単語選択手段101は、選択した単語から連続音声認識用の単語辞書を作成する。単語辞書は音声認識時に高速で検索可能なように木構造化されて格納する。例えば、図3に示した単語リストに対して、図4のような木構造辞書となる。
連続音声認識辞書103に格納される内容は、木構造単語辞書と、N-gram確率表となる。また、N-gram確率表は、N=3(トライグラム)の場合、図5のような表となる。
(ステップS104);次に、補完音声認識用の認識語彙を決定するため、補完認識用辞書作成手段104は、連続音声認識辞書103を読み込む。
(ステップS105);次に、補完認識用辞書作成手段104は、認識対象コーパス100の認識対象データを読み込む。
(ステップS106);次に、補完認識用辞書作成手段104は読み込んだ認識対象コーパスから補完認識単語とする条件に該当する文を抽出する。補完認識辞書105は、連続音声認識処理において特に問題となる短い発話中に未登録語が含まれる場合を対象とする。具体的な判定基準は、例えば、次に示す(A)〜(E)の組合せで構成する。
(A)連続音声認識辞書103に無い未登録語を含む場合、
(B)未登録語を含み、統計的言語モデルによる文Wの生成確率P(W)が第1のしきい値TH1以下である場合、
(C)未登録語を含み、1文の総音節数が第2のしきい値TH2以下である場合、
(D)未登録語の頻度が第3のしきい値TH3以上である場合、
(E)含まれる未登録語の品詞が事前に指定したものである場合
判定基準(C)においてTH2=「5音節」の場合、図2に示した認識対象コーパス100から補完認識辞書105に図6に示す単語が抽出されたとする。補完認識辞書105は、認識時に構文として制御されるため、単語辞書は図4と同様に木構造をとるものの、辞書の終端に到達した場合、それ以上仮説を展開することは無い。
(ステップS107);最後に、補完認識辞書105についても同様に補完認識用辞書作成手段104は木構造化した認識辞書を作成し、処理を終了する。
次に、図9のフローチャートを参照し、実施の形態1にかかる音声認識装置の動作を説明する。
(ステップS201);照合手段108は音響標準パタン107を読み込み、探索手段109は、連続音声認識辞書103、補完認識辞書105を読み込む。
(ステップS202);音声認識装置は、音声入力の待ち受けを開始し、音声区間が検出されるのを待つ。
(ステップS203);音声区間が検出されると、特徴抽出手段106は、一定時間間隔で音響特徴量ベクトルを計算する。例えば、入力音声をサンプリング周波数16kHz、分解能16bitのPCM(Pulse Code Modulation)データへ変換し、高域強調後に10ms間隔で256点フーリエ変換・対数化・逆フーリエ変換・メルスケール変換の操作により13次元のメルケプストラムを算出する。次に前後2フレームを参照して、時間方向の1次回帰係数を算出し、合わせて26次元の音響特徴ベクトルを得る。
(ステップS204);次に、照合手段108は、特徴抽出手段106で算出された音響特徴量ベクトルを音響標準パタン107に含まれる音響モデルと照合し、音響スコアを算出する。典型的には、標準パタンの単位を音素であり、各音素は、自己回帰アークあり、後戻りアーク無しの3状態の隠れマルコフモデル(Hidden Markov Model;HMM)によりモデルされる(図8)。HMMの各状態は、入力ベクトルと対応した次元間で無相関の8混合のガウス分布で表現される。
(ステップS205);次に、探索手段109は算出した音響スコアに基づいて、ビタビアルゴリズムを使い連続認識辞書103における候補仮説の探索を行う。
(ステップS206);次に、探索手段109は連続認識辞書103の終端に達した候補仮説について、単語遷移の言語スコアを乗じ、後続する単語辞書を展開する。このとき、同じ構造の木構造辞書を展開しながら探索を進めていく。このため、連続音声認識型の認識手法では、任意の単語系列を探索可能である。一方で、静的に作成した単語や構文と比べると、メモリ・演算量を多く消費する。
(ステップS207);次に、探索手段109は同様に補完認識辞書105についても同様に候補仮説の探索を行う。
(ステップS208);次に、探索手段109は候補仮説のうち、スコアが低い仮説を枝狩りする。
(ステップS209);音声入力が終了していなければステップS203に戻り、照合手段108と探索手段109により照合と探索を続ける。
(ステップS210);音声入力が終了した場合、探索手段109は探索仮説をバックトラックして認識結果を確定する。
(ステップS211);最後に、探索手段109が認識結果を出力して終了する。
以上の手順は2つの言語辞書を対象としているものの、基本的なビームサーチのアルゴリズムに従うものである。ビームサーチの詳細については、Lawrence Rabiner、 Biing-Hwang Juang共著,古井貞煕監訳,「音声認識の基礎(上)(下)」,NTTアドバンステクノロジ株式会社 に説明されている通りである。ステップS208における枝狩りは連続音声認識辞書103と、補完認識辞書105それぞれについて個別に実施しても良いし、合わせて実施しても良い。
また、連続音声認識辞書103は言語スコアを加えている一方、補完認識辞書105には加えていない。このため、探索時にスコアを正規化しておくか、最終的な比較において、言語スコアを除いて比較する必要がある。
このように、実施の形態1に係る音声認識辞書作成装置は、連続音声認識辞書103と、それを考慮して、未登録語の認識を改善するための補完認識辞書105を生成する。補完認識辞書105は、連続音声認識辞書103が認識しにくい状況に限り、限定して働くように設計されている。この結果、両者を参照して音声認識を行う場合、演算量の増大や精度の低下を抑えつつ、短い未登録語に対する認識率を改善できる。
実施の形態2.
図10は、実施の形態2に係る音声認識辞書作成装置および音声認識装置の構成を示すブロック図である。図10に示す音声認識辞書作成装置および音声認識装置は、認識対象コーパス100、連続音声認識対象単語選択手段101、文頭補完単語選択手段110、統計的言語モデル推定手段111、文頭拡張連続音声認識辞書112、特徴抽出手段106、音響標準パタン107、照合手段108、探索手段109からなる。
従来の音声認識辞書作成装置と異なる本発明に特徴的な部分は、文頭補完単語選択手段110を備え、作成された文頭拡張連続音声認識辞書112は、文頭において語彙が拡張された構造となっていることである。その結果、文頭に未登録語がある場合の認識精度が改善される。
以下、実施の形態2に係る音声認識辞書作成装置および音声認識装置の構成および動作について説明する。ただし、実施の形態1で既に説明した機能ブロックについては、同一の番号を付し説明を省略する。
文頭補完単語選択手段110は、認識対象コーパス100に含まれる単語列のうち文頭に限り、選択された連続音声認識辞書に加えて文頭依存単語を選択し、連続音声認識用語彙を加えて木構造認識辞書を生成する。
文頭拡張連続音声認識辞書112は、文頭および文中の2つの木構造単語認識辞書を備えた連続音声認識辞書である。
次に、図13のフローチャートを参照し、実施の形態2にかかる音声認識辞書作成装置の動作を説明する。
(ステップS301);まず、連続音声認識用の語彙を選択する。連続音声認識対象単語選択手段 101は、認識対象コーパス100を読み込み、連続音声認識の対象となる単語のリストを生成する。単語リストは、演算量・精度の制約から連続音声認識の認識単語数を制限するため検索対象の全単語でない場合、一定の基準に従って所定の制限に収まるように単語を選択する。
(ステップS302);次に、文頭補完単語選択手段110は、ステップS301で選択した語彙以外で、文頭で出現した単語を抽出し、文頭では単語として登録する単語を選択する。
(ステップS303);次に、統計的言語モデル推定手段111は、認識対象コーパス100から読み込んだ単語区切りされたテキストデータのうち、ステップS301およびステップS302で指定された語彙を除いて未登録語モデルへ置き換えた後、統計的言語モデルを推定する。
(ステップS304);次に、文頭補完単語選択手段110は、ステップS301ステップS302で選択した単語から認識結果の1単語目に相当する文頭用の木構造単語辞書を作成する。
(ステップS305);最後に、連続音声認識単語選択手段 101は、ステップS301で選択した単語から認識結果の2単語目以降に相当する文中用の木構造単語辞書を作成する。
図11は、ステップS302において、連続音声認識辞書(文頭拡張連続音声認識辞書112)の登録単語へ未登録語「マングース」が追加された例である。ここでは、連続音声認識対象と区別するため、文頭でのみ単語認識する語であることを示すフラグ「HEAD」を追加している。図12は、図11に対応する木構造辞書である。木構造辞書は、ステップS304で文頭補完単語選択手段110が生成する文頭用の木構造辞書と、ステップS305で連続音声認識単語選択手段101が作成する文中用の木構造辞書である。
次に、図14のフローチャートを参照し、実施の形態2にかかる音声認識装置の動作を説明する。
(ステップS401);照合手段108は音響標準パタン107を読み込み、探索手段109は、文頭拡張連続音声認識辞書112を読み込む。探索には、文頭用の木構造辞書を使用する。
(ステップS402);音声認識装置は、音声入力の待ち受けを開始し、音声区間が検出されるのを待つ。
(ステップS403);音声区間が検出されると、特徴抽出手段106は、一定時間間隔で音響特徴量ベクトルを計算する。
(ステップS404);次に、照合手段108は、特徴抽出手段106で算出された音響特徴量ベクトルを音響標準パタン107に含まれる音響モデルと照合し、音響スコアを算出する。
(ステップS405);次に、算出した音響スコアに基づいて、ビタビアルゴリズムを使い文頭拡張連続音声認識辞書112における候補仮説の探索を行う。
(ステップS406);次に、文頭拡張連続音声認識辞書112の終端に達した候補仮説について、単語遷移の言語スコアを乗じ、文頭拡張連続音声認識辞書112の後続する単語辞書を展開する。後続する単語辞書としては、文中用の木構造辞書を用いる。
(ステップS407);次に、候補仮説のうち、スコアが低い仮説を枝狩りする。
(ステップS408);音声入力が終了していなければステップS403に戻り、照合と探索を続ける。
(ステップS409);音声入力が終了した場合、探索仮説をバックトラックして認識結果を確定する。
(ステップS410);最後に、認識結果を出力して終了する。
このように、実施の形態2に係る音声認識辞書作成装置は、文頭用と文中用の2つの木構造単語辞書を生成する。このため、文頭においては、連続音声認識語彙を超えて認識語彙を設定できる。さらに、文頭のみ登録された単語となる語は、学習データのコンテキストに従い、文中に設定した単語および未登録語と接続可能であるため、単語のみ登録可能な場合よりも強い言語制約をかけることができ、認識率を改善できる。
本発明は、音声により大語彙のテキストデータを検索するシステムに利用可能で、具体的には例えばカーナビゲーションシステムに適用が可能である。
本発明の実施の形態1の構成を示すブロック図である。 認識対象コーパスの記載例の説明図である。 統計的言語モデルのための単語辞書選定結果例の説明図である。 統計的言語モデルのための木構造化された単語辞書例の説明図である。 統計的言語モデルに記載される単語間トライグラム確率の記載テーブル例の説明図である。 補完認識用単語辞書記載例の説明図である。 実施の形態1に係る音声認識辞書作成装置の動作説明用フローチャートである。 隠れマルコフモデルのトポロジー例の説明図である。 実施の形態1に係る音声認識装置の動作説明用フローチャートである 本発明の実施の形態2の構成を示すブロック図である。 統計的言語モデルのための単語辞書選定結果と補完認識用単語辞書をマージした場合のテーブル例の説明図である。 統計的言語モデルのための単語辞書と補完認識用単語辞書をマージした場合の木構造化辞書例の説明図である。 実施の形態2に係る音声認識辞書作成装置の動作説明用フローチャートである。 実施の形態2に係る音声認識装置の動作説明用フローチャートである。
符号の説明
100;認識対象コーパス、101;連続音声認識対象単語選択手段、102;連続音声認識用辞書作成手段、103;連続音声認識辞書、104;補完認識用辞書作成手段、105;補完認識辞書、106;特徴抽出手段、107;音響標準パタン、108;照合手段、109;探索手段、110文頭補完単語選択手段、111;統計的言語モデル推定手段、112;文頭拡張連続音声認識辞書。

Claims (5)

  1. 認識対象コーパスから連続音声認識の対象とする単語を選択すると共に選択外単語の未登録語モデル化を行う連続音声認識単語選択手段と、
    認識対象コーパスと、選択された単語と未登録語モデルによる統計的言語モデルを推定する連続音声認識用辞書作成手段と、
    統計的言語モデルを記憶する連続音声認識用辞書と
    連続音声認識用辞書を参照し、認識対象コーパスから選択された連続音声認識対象単語以外で、(A)連続音声認識辞書103に無い未登録語を含む場合、(B)未登録語を含み、統計的言語モデルによる文の生成確率が第1のしきい値以下である場合、(C)未登録語を含み、1文の総音節数が第2のしきい値以下である場合、(D)未登録語の頻度が第3のしきい値以上である場合、(E)含まれる未登録語の品詞が事前に指定したものである場合を選択基準とし、前記(A)〜(E)の選択基準の組み合わせに基づいて補完単語を選択することにより補完認識辞書を作成・出力する補完認識辞書作成手段を備えることを特徴とする音声認識辞書作成装置。
  2. 認識対象コーパスから連続音声認識の対象となる単語を選択する連続音声認識対象単語選択手段と、
    連続音声認識対象単語選択手段で選択された単語以外で、文頭で出現した単語を認識対象コーパスから選択する文頭補完単語選択手段と、
    連続音声認識対象単語選択手段と文頭補完単語選択手段で選択された単語以外の単語を認識対象コーパスから選択して未登録語モデルへ置き換えた後、連続音声認識対象単語選択手段と文頭補完単語選択手段で選択された単語を含め統計的言語モデルを推定する統計的言語モデル推定手段と、
    連続音声認識対象単語選択手段、文頭補完単語選択手段で選択された単語、および統計的言語モデル推定手段で選択された単語により形成される木構造の文頭拡張連続音声認識辞書を備えることを特徴とした音声認識辞書作成装置。
  3. 補完認識辞書作成手段は、単語の音節数、連続音声認識用辞書に基づく出力確率、認識対象コーパスにおける頻度、形態素に付与された品詞の少なくとも一つを用いて補完単語を選択することを特徴とした請求項1記載の音声認識辞書作成装置。
  4. 入力音声を分析し、音響特徴量ベクトルの時系列へ変換する特徴抽出手段と、
    音声認識の基本単位について音響特徴量ベクトル時系列のスペクトル変動と時間変動を統計的にモデル化した音響標準パタンと、特徴抽出手段で変換された音響特徴量ベクトルの時系列を照合し標準パタンごとの音響スコアを計算する照合手段と、
    標準パタンごとの音響スコアに基づいて、任意の単語列へ出力確率を与える統計的言語モデルが保管された連続音声認識用辞書と、連続音声認識辞書の登録語彙を考慮し、認識対象コーパスから単独発声の認識率が低いと推定される文から選択された未登録語を含む単語および単語列が構文として記述され、(A)連続音声認識辞書103に無い未登録語を含む場合、(B)未登録語を含み、統計的言語モデルによる文の生成確率が第1のしきい値以下である場合、(C)未登録語を含み、1文の総音節数が第2のしきい値以下である場合、(D)未登録語の頻度が第3のしきい値以上である場合、(E)含まれる未登録語の品詞が事前に指定したものである場合を選択基準とし、前記(A)〜(E)の選択基準の組み合わせに基づいて補完単語を選択して、補完単語とした構文記述型の認識辞書である補完認識用辞書とを探索し認識結果を求める探索手段を備えることを特徴とする音声認識装置。
  5. 入力音声を分析し、音響特徴量ベクトルの時系列へ変換する特徴抽出手段と、
    音声認識の基本単位について音響特徴量ベクトル時系列のスペクトル変動と時間変動を統計的にモデル化した音響標準パタンと、特徴抽出手段で変換された音響特徴量ベクトルの時系列を照合し標準パタンごとの音響スコアを計算する照合手段と、
    認識対象コーパスから選択された連続音声認識の対象となる単語からなる文中単語認識辞書と、文中単語認識辞書の単語以外で、認識対象コーパスから選択された文頭で出現した単語なる文頭単語認識辞書及び文中単語認識辞書と文頭単語認識辞書以外の統計的言語モデル推定手段で選択された単語により形成される木構造の文頭拡張連続音声認識辞書と、
    照合手段からの標準パタンごとの音響スコアに基づいて、文頭拡張連続音声認識辞書を探索し認識結果を求める探索手段を備えることを特徴とする音声認識装置。
JP2007082282A 2007-03-27 2007-03-27 音声認識辞書作成装置および音声認識装置 Expired - Fee Related JP4987530B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007082282A JP4987530B2 (ja) 2007-03-27 2007-03-27 音声認識辞書作成装置および音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007082282A JP4987530B2 (ja) 2007-03-27 2007-03-27 音声認識辞書作成装置および音声認識装置

Publications (2)

Publication Number Publication Date
JP2008242059A JP2008242059A (ja) 2008-10-09
JP4987530B2 true JP4987530B2 (ja) 2012-07-25

Family

ID=39913504

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007082282A Expired - Fee Related JP4987530B2 (ja) 2007-03-27 2007-03-27 音声認識辞書作成装置および音声認識装置

Country Status (1)

Country Link
JP (1) JP4987530B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140070703A (ko) * 2012-11-16 2014-06-11 한국전자통신연구원 비문형적 어휘 모델 기반 음성 인식 방법
KR20140077788A (ko) * 2012-12-14 2014-06-24 한국전자통신연구원 음성인식 시스템에서 유사도를 기반으로 한 비인식 대상 단어 생성 방법

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6585022B2 (ja) * 2016-11-11 2019-10-02 株式会社東芝 音声認識装置、音声認識方法およびプログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02178767A (ja) * 1988-12-28 1990-07-11 Ricoh Co Ltd 音声によるワードプロセッシングシステム
JPH06118989A (ja) * 1992-10-02 1994-04-28 Kokusai Denshin Denwa Co Ltd <Kdd> 連続音声認識方法
JP2000259180A (ja) * 1999-03-05 2000-09-22 Nec Corp 連続音声文章入力装置及び連続音声文章入力方法
JP3415585B2 (ja) * 1999-12-17 2003-06-09 株式会社国際電気通信基礎技術研究所 統計的言語モデル生成装置、音声認識装置及び情報検索処理装置
JP2003186494A (ja) * 2001-12-17 2003-07-04 Sony Corp 音声認識装置および方法、記録媒体、並びにプログラム
JP4115723B2 (ja) * 2002-03-18 2008-07-09 独立行政法人産業技術総合研究所 音声入力によるテキスト検索装置
JP2005070330A (ja) * 2003-08-22 2005-03-17 Toyota Central Res & Dev Lab Inc 音声認識装置及びプログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140070703A (ko) * 2012-11-16 2014-06-11 한국전자통신연구원 비문형적 어휘 모델 기반 음성 인식 방법
KR101709188B1 (ko) * 2012-11-16 2017-03-08 한국전자통신연구원 비문형적 어휘 모델 기반 음성 인식 방법
KR20140077788A (ko) * 2012-12-14 2014-06-24 한국전자통신연구원 음성인식 시스템에서 유사도를 기반으로 한 비인식 대상 단어 생성 방법
KR101711941B1 (ko) * 2012-12-14 2017-03-03 한국전자통신연구원 음성인식 시스템에서 유사도를 기반으로 한 비인식 대상 단어 생성 방법

Also Published As

Publication number Publication date
JP2008242059A (ja) 2008-10-09

Similar Documents

Publication Publication Date Title
JP6188831B2 (ja) 音声検索装置および音声検索方法
CN109410914B (zh) 一种赣方言语音和方言点识别方法
US6856956B2 (en) Method and apparatus for generating and displaying N-best alternatives in a speech recognition system
KR100612839B1 (ko) 도메인 기반 대화 음성인식방법 및 장치
US20110224985A1 (en) Model adaptation device, method thereof, and program thereof
JP3961780B2 (ja) 言語モデル学習装置およびそれを用いた音声認識装置
JP4269625B2 (ja) 音声認識辞書作成方法及びその装置と音声認識装置
JP4987530B2 (ja) 音声認識辞書作成装置および音声認識装置
KR101424496B1 (ko) 음향 모델 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
JP3444108B2 (ja) 音声認識装置
JP4595415B2 (ja) 音声検索システムおよび方法ならびにプログラム
JP4528540B2 (ja) 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体
JP3364631B2 (ja) 統計的言語モデル生成装置及び音声認識装置
JP3472101B2 (ja) 音声入力解釈装置及び音声入力解釈方法
JPH09134192A (ja) 統計的言語モデル生成装置及び音声認識装置
JP4733436B2 (ja) 単語・意味表現組データベースの作成方法、音声理解方法、単語・意味表現組データベース作成装置、音声理解装置、プログラムおよび記憶媒体
JP2938865B1 (ja) 音声認識装置
JPH11143493A (ja) 音声言語理解装置及び音声言語理解システム
JP2965529B2 (ja) 音声認識装置
Kawahara et al. KEYVVORD AND PHRASE SPOTTING, VVITH HEURISTIC LANGUAGE MODEL
US20220005462A1 (en) Method and device for generating optimal language model using big data
WO2004066266A2 (en) System and method for utilizing anchor to reduce memory requirements for speech recognition
JPWO2013125203A1 (ja) 音声認識装置、音声認識方法およびコンピュータプログラム
KR20000037625A (ko) 화행 정보를 이용한 음성 인식 방법
JP3894419B2 (ja) 音声認識装置、並びにこれらの方法、これらのプログラムを記録したコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20091120

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110518

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110621

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110804

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120424

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120425

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150511

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees