JPH09134191A

JPH09134191A - 音声認識装置

Info

Publication number: JPH09134191A
Application number: JP7289818A
Authority: JP
Inventors: Hitoshi Iida; 仁飯田
Original assignee: ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK; ATR Interpreting Telecommunications Research Laboratories
Current assignee: ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK; ATR Interpreting Telecommunications Research Laboratories
Priority date: 1995-11-08
Filing date: 1995-11-08
Publication date: 1997-05-20
Anticipated expiration: 2015-11-08
Also published as: JP2871557B2

Abstract

(57)【要約】【課題】入力される発声音声文の話者又は種類によら
ず、従来例に比較して高い音声認識率で音声認識するこ
とができる音声認識装置を提供する。【解決手段】入力される発声音声文の音声信号に基づ
いて所定の言語モデルを用いて音声認識して音声認識結
果を出力する音声認識部６又は９を備えた音声認識装置
において、音声認識部６又は９は、複数の話者又は発声
音声文の複数の種類に対応する複数の言語モデル１２
ａ，１２ｂ又は２２ａ，２２ｂをスイッチＳＷを用いて
選択的に切り換えて、入力される発声音声文の音声信号
を音声認識する。複数の言語モデルに対応した話者又は
種類を識別して識別結果を出力する話者識別部７をさら
に備え、音声認識部６又は９は、話者識別部７によって
識別された話者又は種類に対応する言語モデルを用いて
入力される発声音声文の音声信号を音声認識する。話者
識別部７に代えて入力スイッチを用いてもよい。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、入力される発声音
声文に基づいて所定の言語モデルを用いて音声認識する
音声認識装置に関する。

【０００２】

【従来の技術】従来から、音声認識のための統計的言語
情報として、単語間の連接関係を利用することが研究さ
れており、単語のｂｉｇｒａｍ（バイグラム）、ｔｒｉ
ｇｒａｍ（トライグラム）などの連鎖統計モデルを用い
て音声認識することが有効であることが知られている。

【０００３】例えば、単語のＮ−ｇｒａｍ（ここで、Ｎ
は自然数である。）を用いた音声認識方法（以下、第１
の従来例という。）が、「中川聖一著，“確率モデルに
よる音声認識”の“第５章確率的文音声認識アルゴリズ
ム”，電子情報通信学会，ｐｐ．１０９−１２１，１９
８８年７月１日」において開示されており、この第１の
従来例では、最大Ｎ＝３までの音声認識方法について説
明されている。この単語Ｎ−ｇｒａｍモデルは統計的言
語モデルの代表的なものであり、構文規則によるものに
比べ、モデルの構築、利用が容易であるという利点を有
している。しかしながら、Ｎの値は実用上３程度（ｔｒ
ｉｇｒａｍ）であり、単語間の局所的な制約を捕らえる
ことはできるが、より大局的な単語間の構文的、意味的
関係を制約として表現することはできない。ここで、Ｎ
を大きくすると推定すべきパラメータ数が多くなり、テ
キストデータベースからパラメータを推定する際に推定
精度が悪くなり、また音声認識時の計算量及びメモリ量
も増大し、装置規模が大型になるという問題点があっ
た。

【０００４】以上の問題点を解決するために、特開平７
−１０４７８４号公報において、統計的言語モデルを用
いた音声認識方法（以下、第２の従来例という。）が開
示されており、この音声認識方法では、複数の単語から
なる単語列が順次発声された後にある１つの発声単語が
発声される確率が、上記１つの発声単語とその直前の予
め決められた自然数個の単語と、上記単語列内の単語の
カテゴリ毎の直前の予め決められた自然数個ずつの単語
とによって決定された統計的言語モデルを参照して、入
力された単語列を音声認識することを特徴としている。

【０００５】

【発明が解決しようとする課題】上記第１又は第２の従
来例の音声認識装置においては、本発明者の実験によれ
ば、統計的言語モデルを学習するための学習データとし
て、例えばホテルの宿泊予約を中心とする音声対話にお
けるホテルの宿泊受付係と客との対話のデータを用いた
認識結果の分析において、客が多分に口にすることがな
い句が認識結果にたびたび現れるという問題点があっ
た。すなわち、入力される発声音声文の話者又は種類が
変化した場合に、音声認識結果の品質が低下するという
問題点があった。

【０００６】本発明の目的は以上の問題点を解決し、入
力される発声音声文の話者又は種類によらず、従来例に
比較して高い音声認識率で音声認識することができる音
声認識装置を提供することにある。

【０００７】

【課題を解決するための手段】本発明に係る請求項１記
載の音声認識装置は、入力される発声音声文の音声信号
に基づいて所定の言語モデルを用いて音声認識して音声
認識結果を出力する音声認識手段を備えた音声認識装置
において、上記音声認識手段は、複数の話者又は発声音
声文の複数の種類に対応する複数の言語モデルを選択的
に切り換えて、上記入力される発声音声文の音声信号を
音声認識することを特徴とする。

【０００８】また、請求項２記載の音声認識装置は、請
求項１記載の音声認識装置において、入力される発声音
声文の音声信号に基づいて、上記複数の言語モデルに対
応した話者又は種類を識別して識別結果を出力する識別
手段をさらに備え、上記音声認識手段は、上記識別手段
によって識別された話者又は種類に対応する言語モデル
を用いて、上記入力される発声音声文の音声信号を音声
認識することを特徴とする。

【０００９】さらに、請求項３記載の音声認識装置は、
請求項１記載の音声認識装置において、入力される発声
音声文の話者又は種類を入力する入力手段をさらに備
え、上記音声認識手段は、上記入力手段によって入力さ
れた話者又は種類に対応する言語モデルを用いて、上記
入力される発声音声文の音声信号を音声認識することを
特徴とする。

【００１０】また、請求項４記載の音声認識装置は、請
求項１乃至３のうちの１つに記載の音声認識装置におい
て、上記複数の話者は、社会的立場が互いに異なる少な
くとも二人であることを特徴とする。

【００１１】さらに、請求項５記載の音声認識装置は、
請求項１乃至３のうちの１つに記載の音声認識装置にお
いて、上記複数の種類は、（１）所定の文章を読み上げ
た発声音声文と、（２）複数の話者による対話の発声音
声文と、を含むことを特徴とする。

【００１２】また、請求項６記載の音声認識装置は、請
求項１乃至５のうちの１つに記載の音声認識装置におい
て、上記複数の言語モデルはそれぞれ、統計的言語モデ
ルであることを特徴とする。

【００１３】さらに、請求項７記載の音声認識装置は、
請求項１乃至５のうちの１つに記載の音声認識装置にお
いて、上記複数の言語モデルはそれぞれ、構文規則に基
づいた言語モデルであることを特徴とする。

【００１４】

【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。＜第１の実施形態＞図１は、本発明に係る第１の実施形
態である対話型音声認識装置のブロック図である。この
第１の実施形態の対話型音声認識装置は、入力される発
声音声が話者Ａの発声音声であるか否かを話者識別する
話者識別部７を備え、話者識別部７が話者Ａの発声音声
であると判断したときに、ＯｎｅｐａｓｓＤＰ音声
認識部（以下、音声認識部という。）６に接続されるべ
き統計的言語モデルとして、話者Ｂの統計的言語モデル
１２ｂから話者Ａの統計的言語モデル１２ａに切り換え
るスイッチＳＷを備えたことを特徴とする。

【００１５】この第１の実施形態では、ホテルの宿泊予
約を中心とする音声対話において、ホテルの受け付け係
を話者Ａとし、ホテルの客を話者Ｂとした場合の対話型
音声認識装置を構成した一例について、以下、図１を参
照して説明する。対話システムは一般には、人と機械
（電子計算機システム）との対話を取り扱う。話者Ａと
話者ｂとの人と人との対話システムは、音声翻訳システ
ムなどに代表され、人と機械との対話を含む。

【００１６】図１において、話者の発声音声はマイクロ
ホン１に入力されて音声信号に変換された後、特徴抽出
部２に入力される。特徴抽出部２は、入力された音声信
号をＡ／Ｄ変換した後、例えばＬＰＣ分析を実行し、対
数パワー、１６次ケプストラム係数、Δ対数パワー及び
１６次Δケプストラム係数を含む３４次元の特徴パラメ
ータを抽出する。抽出された特徴パラメータの時系列は
バッファメモリ３を介して音素照合部４に入力される。
音素照合部４に接続される隠れマルコフモデル（以下、
ＨＭＭという。）５は音素認識のためのいわゆる音素Ｈ
ＭＭであって、複数の状態と、各状態間の遷移を示す弧
から構成され、各弧には状態間の遷移確率と入力コード
に対する出力確率を有している。音素照合部４は、入力
されたデータに基づいてＨＭＭ５を参照して音素照合処
理を実行して音素データを、音声認識部６に出力する。

【００１７】話者識別部７はいわゆる発声内容独立型の
話者識別装置であって、特徴抽出部２からバッファメモ
リ３を介して入力される発声音声文の特徴パラメータの
時系列に基づいて、話者Ａの音素ＨＭＭ８を参照して、
例えば動的計画法を用いて時間圧縮又は伸長をするとと
もに、例えばクラスタ化した標準パターンを用いる従来
方法を用いて両者の距離を計算し、計算された距離が所
定のしきい値よりも小さいか否かを判断することによ
り、入力された特徴パラメータの時系列が話者Ａのもの
であるか否かを判断する。話者識別部７は、計算された
距離が所定のしきい値よりも小さいとき、話者Ａである
と判断し、スイッチＳＷを接点ｂから接点ａに切り換え
る一方、計算された距離が所定のしきい値以上のとき、
話者Ａではないと判断し、スイッチＳＷを接点ａから接
点ｂに切り換える。ここで、音素ＨＭＭ８は、話者Ａに
よって発声された１５単語程度の単語の音声信号データ
に基づいて作成された、クラスタ化した標準パターンの
音素ＨＭＭである。なお、話者識別部７において、テキ
ストの識別は、所定のキーワードの検出によりテキスト
の分野を識別することにより行う。

【００１８】それぞれ音声認識部６に接続され、単語の
Ｎ−ｇｒａｍを含む話者Ａ及び話者Ｂの統計的言語モデ
ル１２ａ，１２ｂは以下のように作成される。ホテルの
宿泊予約を中心とする音声対話において、ホテルの受け
付け係が発声する発声音声文を書き下したテキストデー
タ１０ａと、ホテルの客が発声する発声音声文を書き下
したテキストデータ１０ｂとを用意する。上記テキスト
データ１０ａには、例えば、「お待たせ」、「お仕
事」、「ご滞在」、「ご到着」、「ご希望」、「お電
話」、「一名様で」、「何名様」、「はいございま
す」、「お待ちしています」などの句を含むが、テキス
トデータ１０ｂには、これらの句は含まない。すなわ
ち、テキストデータ１０ａには、客が話すことが皆無と
考えられる尊敬表現や謙譲表現、サービス提供を勧める
表現が含まれる。

【００１９】言語モデル作成部１１ａは、テキストデー
タ１０ａに基づいて、例えば、第２の従来例で開示され
た方法で、単語間の連接確率を示すＮ−ｇｒａｍ（ここ
で、Ｎは自然数である。）を含む話者Ａの統計的言語モ
デル１２ａを作成してメモリに格納する。一方、言語モ
デル作成部１１ｂは、テキストデータ１０ｂに基づい
て、言語モデル作成部１１ａと同様に、単語間の連接確
率を示すＮ−ｇｒａｍを含む話者Ｂの統計的言語モデル
１２ｂを作成してメモリに格納する。

【００２０】音声認識部６は、スイッチＳＷを介して接
続された統計的言語モデル１２ａ又は１２ｂを参照し
て、入力される音声スペクトルに関するベクトルのフレ
ームに同期して処理するリアルタイム処理用アルゴリズ
ムである公知のＯｎｅＰａｓｓＤＰ（Dynamic Prog
ramming）アルゴリズム（Ｏｎｅ−ｓｔａｇｅＤＰア
ルゴリズムともいう；例えば、第１の従来例の文献のｐ
ｐ．２０−２６参照。）を用いて、入力された音素デー
タについて左から右方向に、後戻りなしに処理してより
高い生起確率の単語を音声認識結果データと決定するこ
とにより音声認識の処理を実行して、決定された音声認
識結果データ（文字列データ）を出力する。

【００２１】以上説明したように、本実施形態によれ
ば、発声する話者に対応して統計的言語モデル１２ａ又
は１２ｂを選択的に切り換えて参照して音声認識処理を
行うので、従来例のように、例えばホテルの受け付け係
と客とを混同して音声認識することを防止することがで
き、従来例に比較して音声認識率を高くすることができ
る。

【００２２】以上の第１の実施形態において、統計的言
語モデル１２ａは話者Ａにより話者適応化された言語モ
デルであり、統計的言語モデル１２ｂは不特定話者のテ
キストデータに基づいた統計的言語モデルであってもよ
い。言い換えれば、話者Ａは予め登録された登録話者で
ある一方、話者Ｂは予め登録されない未登録話者であ
る。

【００２３】以上の第１の実施形態において、話者Ａの
みの音素ＨＭＭ８を用意しているが、話者Ｂの音素ＨＭ
Ｍなどの複数の話者の音素ＨＭＭを用いて話者識別を行
ってもよい。

【００２４】＜第２の実施形態＞図２は、本発明に係る
第２の実施形態である対話型音声認識装置のブロック図
であり、図２において図１と同一のものについては同一
の符号を付している。この第２の実施形態の対話型音声
認識装置は、図１の第１の実施形態に比較して、（１）
統計的言語モデル１２ａ，１２ｂに代えて、話者Ａ，Ｂ
の文脈自由文法に基づいて作成された、構文規則に基づ
いた言語モデルであるＬＲテーブル２２ａ，２２ｂを用
いたこと、並びに、（２）音声認識部６に代えて、音素
コンテキスト依存型ＬＲパーザ（以下、ＬＲパーザとい
う。）９を用い、ＳＳＳ−ＬＲ（left-to-right right
most型）連続音声認識装置を構成したこと、を特徴とす
る。以下、第１の実施形態との相違点について詳述す
る。なお、この第２の実施形態においても、第１の実施
形態と同様に、ホテルの宿泊予約を中心とする音声対話
において、ホテルの受け付け係を話者Ａとし、ホテルの
客を話者Ｂとした場合の対話型音声認識装置を構成した
一例について説明する。

【００２５】話者Ａの文脈自由文法データ２０ａの一例
を表１に示す。

【００２６】

【表１】話者Ａの文脈自由文法データの一例 ─────────────────────────────────── （１）Ｖ→ＰＦＶ例：お送り（します）（２）Ｖ→ＶＨＡＵＸＶＰ例：承ります、お待ち致しております、振り込み下さい（３）ＮＰ→ＮＳＦ例：何名様 ───────────────────────────────────

【００２７】表１から明らかなように、表１の（１）の
例は、動詞が、敬語の接頭辞（ＰＦ：ｐｒｅｆｉｘ）と
動詞とに分解することができ、（２）の例は、動詞が、
動詞と尊敬の補助動詞句（ＨＡＵＸＶＰ：ｈｏｎｏｒｉ
ｆｉｃａｕｘｉｌｉａｒｙｖｅｒｂｐｈｒａｓｅ）
とに分解することができ、（３）の例は、名詞句が、名
詞とその接尾辞（ＳＦ：ｓｕｆｆｉｘ）とに分解できる
ことを示す。すなわち、話者Ａの文脈自由文法データ２
０ａには、尊敬、謙譲などの表現の文脈自由文法データ
を含む一方、話者Ｂの文脈自由文法データ２０ｂは上記
表１に示したような尊敬、謙譲などの表現を含まない文
脈自由文法データを含む。ＬＲテーブル作成部２１ａ
は、話者Ａの文脈自由文法データ２０ａに基づいて、例
えば文献「北研二，“確率文法を用いた音声言語処
理”，人工知能学会研究会資料，ＳＩＧ−ＳＬＵＤ−９
２０４−６（２／５），１９９２年」に開示された言語
モデル作成方法を用いて、任意の導出木に対してその導
出木の生成確率を定義しながら上記各文脈自由文法デー
タに対応する生成確率付き導出木を生成し、生成した導
出木に基づいて、確率付きＬＲ構文解析表、すなわち話
者ＡのＬＲテーブル２２ａを作成してメモリに記憶す
る。一方、ＬＲテーブル作成部２１ｂは、ＬＲテーブル
作成部２１ｂと同様に、話者ＢのＬＲテーブル２２ａを
作成してメモリに記憶する。

【００２８】本実施形態において用いられるＳＳＳ−Ｌ
Ｒ連続音声認識装置においては、音素の特徴空間上に割
り当てられた確率的定常信号源（状態）の間の確率的な
遷移により音声パラメータの時間的な推移を表現した確
率モデルに対して、尤度最大化の基準に基づいて個々の
状態をコンテキスト方向又は時間方向へ分割するという
操作を繰り返すことによって、モデルの精密化を逐次的
に実行する。

【００２９】音素照合部４は、音素コンテキスト依存型
ＬＲパーザ９からの音素照合要求に応じて音素照合処理
を実行する。そして、不特定話者のＨＭＭ５を用いて音
素照合区間内のデータに対する尤度が計算され、この尤
度の値が音素照合スコアとしてＬＲパーザ９に返され
る。このときに用いられるモデルは、ＨＭＭと等価であ
るために、尤度の計算には通常のＨＭＭで用いられてい
る前向きパスアルゴリズムをそのまま使用する。ＬＲパ
ーザ９は、第１の実施形態と同様に話者識別部７によっ
て選択的に切り換えられた１つのＬＲテーブル２２ａ又
は２２ｂを参照して、入力された音素予測データについ
て左から右方向に、後戻りなしに処理する。構文的にあ
いまいさがある場合は、スタックを分割してすべての候
補の解析が平行して処理される。ＬＲパーザ９は、ＬＲ
テーブル２２ａ又は２２ｂに基づいて次にくる音素を予
測して音素予測データを音素照合部４に出力する。これ
に応答して、音素照合部４は、その音素に対応するＨＭ
Ｍ５の情報を参照して照合し、その尤度を音声認識スコ
アとしてＬＲパーザ９に戻し、順次音素を連接していく
ことにより、連続音声の認識を行い、その音声認識結果
データを出力する。上記連続音声の認識において、複数
の音素が予測された場合は、これらすべての存在をチェ
ックし、ビームサーチの方法により、部分的な音声認識
の尤度の高い部分木を残すという枝刈りを行って高速処
理を実現する。

【００３０】以上説明したように、本実施形態によれ
ば、発声する話者に対応して構文規則に基づいた言語モ
デルであるＬＲテーブル２２ａ，２２ｂを選択的に切り
換えて参照して音声認識処理を行うので、従来例のよう
に、例えばホテルの受け付け係と客とを混同して音声認
識することを防止することができ、従来例に比較して音
声認識率を高くすることができる。

【００３１】以上の第２の実施形態において、ＬＲテー
ブル２２ａは話者Ａにより話者適応化された言語モデル
であり、ＬＲテーブル２２ｂは不特定話者により適応化
された言語モデルであってもよい。言い換えれば、話者
Ａは予め登録された登録話者である一方、話者Ｂは予め
登録されない未登録話者である。

【００３２】以上の第２の実施形態において、話者Ａの
みの音素ＨＭＭ８を用意しているが、話者Ｂの音素ＨＭ
Ｍなどの複数の話者の音素ＨＭＭを用いて話者識別を行
ってもよい。

【００３３】以上の第１と第２の実施形態において、特
徴抽出部２と音素照合部４と音声認識部６と話者識別部
７と言語モデル作成部１１ａ，１１ｂとＬＲパーザ９と
ＬＲテーブル作成部２１ａ，２１ｂとはそれぞれ、例え
ば、デジタル電子計算機で構成される。また、ＨＭＭ５
と音素ＨＭＭ８と統計的言語モデル１２ａ，１２ｂとテ
キストデータ１０ａ，１０ｂとＬＲテーブル２２ａ，２
２ｂと文脈自由文法データ２０ａ，２０ｂとは、例えば
ハードディスクメモリである記憶装置に記憶される。

【００３４】＜変形例＞以上の実施形態において、話者
識別部７を用いてスイッチＳＷを切り換えているが、本
発明はこれに限らず、異なる話者が発声する度に、もし
くは、異なる種類の発声音声文を発声する度に別の入力
スイッチなどの入力手段をオンして、スイッチＳＷを切
り換えてもよい。

【００３５】以上の実施形態においては、一例として、
話者としてホテルの受け付け係と客とを仮定している
が、本発明はこれに限らず、複数の話者は、社会的立場
が互いに異なる少なくとも二人であってもよい。この場
合において、話者Ａのテキストデータ１１ａ又は話者Ａ
の文脈自由文法２０ａには、客が話すことが皆無と考え
られる尊敬表現や、謙譲表現、サービス提供を勧める表
現を含む。また、社会的立場が互いに異なる少なくとも
二人は、例えば、教授場面における教える側の先生と教
えられる側の生徒又は学生であって、話者Ａのテキスト
データ１１ａ又は話者Ａの文脈自由文法２０ａには、例
えば「してみたら」、「こうした方がいいよ」などの提
案、教示、指示、勧誘の表現を含む一方、話者Ｂのテキ
ストデータ１１ｂ又は話者Ｂの文脈自由文法２０ｂに
は、例えば「わかりました」、「わかりません」、「そ
うしてます」、「何してもできません」などの承諾又は
了解や報告の表現を含む。

【００３６】以上の実施形態においては、複数の話者に
対応する複数の言語モデルを選択的に切り換えている
が、本発明はこれに限らず、発声音声文の複数の種類に
対応する複数の言語モデルを選択的に切り換えてもよ
い。ここで、上記複数の種類は、（１）所定の文章を読
み上げた発声音声文と、（２）複数の話者による対話の
発声音声文と、を含む。

【００３７】以上の実施形態において、ＨＭＭ５を用い
ているが、本発明はこれに限らず、ＨＭＭ５を代えて隠
れマルコフ網を用いてもよい。

【００３８】

【発明の効果】以上詳述したように本発明に係る請求項
１記載の音声認識装置によれば、入力される発声音声文
の音声信号に基づいて所定の言語モデルを用いて音声認
識して音声認識結果を出力する音声認識手段を備えた音
声認識装置において、上記音声認識手段は、複数の話者
又は発声音声文の複数の種類に対応する複数の言語モデ
ルを選択的に切り換えて、上記入力される発声音声文の
音声信号を音声認識する。従って、入力される発声音声
文の話者又は種類によらず、従来例に比較して高い音声
認識率で音声認識することができる音声認識装置を提供
することができる。

【００３９】また、請求項２記載の音声認識装置におい
ては、請求項１記載の音声認識装置において、入力され
る発声音声文の音声信号に基づいて、上記複数の言語モ
デルに対応した話者又は種類を識別して識別結果を出力
する識別手段をさらに備え、上記音声認識手段は、上記
識別手段によって識別された話者又は種類に対応する言
語モデルを用いて、上記入力される発声音声文の音声信
号を音声認識する。従って、入力される発声音声文の話
者又は種類によらず、従来例に比較してさらに高い音声
認識率で音声認識することができる音声認識装置を提供
することができる。

【００４０】さらに、請求項３記載の音声認識装置にお
いては、請求項１記載の音声認識装置において、入力さ
れる発声音声文の話者又は種類を入力する入力手段をさ
らに備え、上記音声認識手段は、上記入力手段によって
入力された話者又は種類に対応する言語モデルを用い
て、上記入力される発声音声文の音声信号を音声認識す
る。従って、入力される発声音声文の話者又は種類によ
らず、従来例に比較してさらに高い音声認識率で音声認
識することができる音声認識装置を提供することができ
る。

【００４１】また、請求項４記載の音声認識装置におい
ては、請求項１乃至３のうちの１つに記載の音声認識装
置において、上記複数の話者は、社会的立場が互いに異
なる少なくとも二人である。従って、入力される発声音
声文の話者によらず、従来例に比較してさらに高い音声
認識率で音声認識することができる音声認識装置を提供
することができる。

【００４２】さらに、請求項５記載の音声認識装置にお
いては、請求項１乃至３のうちの１つに記載の音声認識
装置において、上記複数の種類は、（１）所定の文章を
読み上げた発声音声文と、（２）複数の話者による対話
の発声音声文と、を含む。従って、入力される発声音声
文の種類によらず、従来例に比較してさらに高い音声認
識率で音声認識することができる音声認識装置を提供す
ることができる。

【００４３】また、請求項６記載の音声認識装置におい
ては、請求項１乃至５のうちの１つに記載の音声認識装
置において、上記複数の言語モデルはそれぞれ、統計的
言語モデルである。従って、入力される発声音声文の話
者又は種類によらず、統計的言語モデルを用いて、従来
例に比較してさらに高い音声認識率で音声認識すること
ができる音声認識装置を提供することができる。

【００４４】さらに、請求項７記載の音声認識装置にお
いては、請求項１乃至５のうちの１つに記載の音声認識
装置において、上記複数の言語モデルはそれぞれ、構文
規則に基づいた言語モデルである。従って、入力される
発声音声文の話者又は種類によらず、構文規則に基づい
た言語モデルを用いて、従来例に比較してさらに高い音
声認識率で音声認識することができる音声認識装置を提
供することができる。

【図面の簡単な説明】

【図１】本発明に係る第１の実施形態である対話型音
声認識装置のブロック図である。

【図２】本発明に係る第２の実施形態である対話型音
声認識装置のブロック図である。

【符号の説明】

１…マイクロホン、２…特徴抽出部、３…バッファメモリ、４…音素照合部、５…隠れマルコフモデル（ＨＭＭ）、６…ＯｎｅｐａｓｓＤＰ音声認識部、７…話者識別部、８…音素隠れマルコフモデル（音素ＨＭＭ）、９…ＬＲパーザ、１０ａ，１０ｂ…発声音声文のテキストデータ１１ａ，１１ｂ…言語モデル作成部、１２ａ，１２ｂ…統計的言語モデル、２０ａ，２０ｂ…文脈自由文法データ、２１ａ，２１ｂ…ＬＲテーブル作成部、２２ａ，２２ｂ…ＬＲテーブル、ＳＷ…スイッチ。

Claims

【特許請求の範囲】

【請求項１】入力される発声音声文の音声信号に基づ
いて所定の言語モデルを用いて音声認識して音声認識結
果を出力する音声認識手段を備えた音声認識装置におい
て、上記音声認識手段は、複数の話者又は発声音声文の複数
の種類に対応する複数の言語モデルを選択的に切り換え
て、上記入力される発声音声文の音声信号を音声認識す
ることを特徴とする音声認識装置。
【請求項２】入力される発声音声文の音声信号に基づ
いて、上記複数の言語モデルに対応した話者又は種類を
識別して識別結果を出力する識別手段をさらに備え、上記音声認識手段は、上記識別手段によって識別された
話者又は種類に対応する言語モデルを用いて、上記入力
される発声音声文の音声信号を音声認識することを特徴
とする請求項１記載の音声認識装置。
【請求項３】入力される発声音声文の話者又は種類を
入力する入力手段をさらに備え、上記音声認識手段は、上記入力手段によって入力された
話者又は種類に対応する言語モデルを用いて、上記入力
される発声音声文の音声信号を音声認識することを特徴
とする請求項１記載の音声認識装置。
【請求項４】上記複数の話者は、社会的立場が互いに
異なる少なくとも二人であることを特徴とする請求項１
乃至３のうちの１つに記載の音声認識装置。
【請求項５】上記複数の種類は、（１）所定の文章を
読み上げた発声音声文と、（２）複数の話者による対話
の発声音声文と、を含むことを特徴とする請求項１乃至
３のうちの１つに記載の音声認識装置。
【請求項６】上記複数の言語モデルはそれぞれ、統計
的言語モデルであることを特徴とする１乃至５のうちの
１つに記載の音声認識装置。
【請求項７】上記複数の言語モデルはそれぞれ、構文
規則に基づいた言語モデルであることを特徴とする１乃
至５のうちの１つに記載の音声認識装置。