JP4357867B2

JP4357867B2 - 音声認識装置、音声認識方法、並びに、音声認識プログラムおよびそれを記録した記録媒体

Info

Publication number: JP4357867B2
Application number: JP2003122337A
Authority: JP
Inventors: 載小林; 建豪花井
Original assignee: Pioneer Corp
Current assignee: Pioneer Corp
Priority date: 2003-04-25
Filing date: 2003-04-25
Publication date: 2009-11-04
Anticipated expiration: 2023-04-25
Also published as: US20040215454A1; JP2004325936A; EP1471501A2; EP1471501A3

Description

【０００１】
【発明の属する技術分野】
本発明は、発話された音声からキーワードを認識する技術分野に属する。
【０００２】
【従来の技術】
現在、人間が発声した音声を認識する音声認識装置が開発されており、このような音声認識装置では、人間が所定の語句の音声を発声すると、その入力信号から語句の音声を認識するようになっている。
【０００３】
また、このような音声認識装置を車載されたナビゲーション装置やパーソナルコンピュータなど各種装置に適応すれば、その装置はキーボードやスイッチ選択等の手動操作を要することなく、各種の情報を入力することができるようになる。
【０００４】
したがって、自動車の運転中にナビゲーション装置を利用するなどの人間が両手を使用する作業環境であっても、操作者は、所望の情報を当該装置に入力することができるようになっている。
【０００５】
このような音声認識装置に用いられる代表的な音声認識方法にＨＭＭ（隠れマルコフモデル）と呼ばれる確率モデルを利用して音声認識を行う方法（以下、単に「音声認識」という）がある。
【０００６】
この音声認識は、発話音声の特徴量のパターンを、予め用意されたキーワードとなる認識候補の語句（以下、単に「キーワード」という）を示す音声の特徴量のパターンとマッチングさせることにより音声認識を行うようになっている。
【０００７】
具体的には、この音声認識は、入力された発話音声（入力信号）を予め定められた時間間隔毎に分析して特徴量を抽出し、この入力信号の特徴量に予めデータベースに格納されたＨＭＭによって示されるキーワードとのマッチングする割合（以下、類似度という）を算出するとともに、発話音声の全てにおけるこの類似度を積算し、この積算された類似度が最も高いキーワードを認識結果として確定するようになっており、発話音声である入力信号から所定の語句の音声認識を行うことができるようになっている。
【０００８】
なお、ＨＭＭは、遷移する状態の集まりとして表される統計的信号源モデルであり、予めキーワードなどの認識すべき音声の特徴量を示す。また、このＨＭＭは、予め複数の音声データを採取し、これらの音声データに基づいて生成されるようになっている。
【０００９】
従来、このような音声認識では、発話音声に含まれるキーワード部分を如何に抽出するかが重要になる。
【００１０】
通常、発話音声には、キーワードの他に、予め既知の認識する際に不要な語である不要語（キーワードの前後に付加される「えー」や「です」等の語）が含まれるようになっており、発話音声は、原則的には、不要語と当該不要語に挟まれたキーワードによって形成される。したがって、音声認識を行う場合には、音声認識の対象となるキーワードを認識することによって行うワードスポッティングという手法（以下、単にワードスポッティング音声認識という）がよく用いられている。
【００１１】
このワードスポッティング音声認識は、認識対象となる発話音声を、キーワードモデルを示すＨＭＭの他に、不要語のＨＭＭ（例えば、ガーベージモデル）を示すＨＭＭを用意し、最も特徴量の類似度が高いキーワードのＨＭＭ、不要語のＨＭＭまたはそれらの組み合わせを認識することによって音声認識を行うようになっている。
【００１２】
また、このワードスポッティング音声認識を用いた音声認識装置としては、雑音条件を考慮して音声認識を行うものが知られている（例えば、特許文献１参照）。
【００１３】
【特許文献１】
特開平１０−１６１６９２号公報
【００１４】
【発明が解決しようとする課題】
しかしながら、上述の音声認識を用いた音声認識装置であっては、各ＨＭＭの特徴量は、学習用音声データを収録した条件（背景雑音、回線歪み、話者、声道長など）に大きく依存し、この音声収録条件と実際の認識時の条件とが異なる場合には、入力音声データの特徴量とＨＭＭの特徴量との不整合が生じ、結果として認識率が低下してしまう。
【００１５】
すなわち、ＨＭＭを生成するために、様々な発話音声データを収録するようになっており、当該収録した発話音声データに基づいて、当該ＨＭＭを生成するようになっているが、この音声収録条件と実際の認識時の条件とが異なると、各発話音声の特徴量も変わるため、入力データの特徴量とＨＭＭの特徴量との不整合が生じ、結果として認識率が低下してしまう。
【００１６】
一方、入力データとＨＭＭとの不整合による認識率の低下を防ぐには、認識を実行する際の条件と同じ条件で収録した音声データを使って、ＨＭＭを作成し直せばよいが、ＨＭＭのような統計的手法に基づくモデルは、膨大な量の学習音声データが必要で、処理に数百時間の時間が必要となる。
【００１７】
本発明は、上記の各問題点に鑑みて為されたもので、その課題の一例としては、キーワードモデルおよび不要語モデル毎に、認識を実行する条件に基づいてこれらのモデルに対して適応処理を行い、音声認識の性能が高く、データ処理を迅速に行うことができる音声認識装置を提供することにある。
【００１８】
上記の課題を解決するために、請求項１に記載の発明は、発話された発話音声の音声成分を示す特徴量と予め格納されている発話が予想される音声の音声成分の特徴量を示す音声特徴量データとを照合させることによって当該発話音声を認識する音声認識装置であって、複数の前記音声特徴量データが予め格納されている格納手段と、前記格納されている音声特徴量データの種別毎に、予め設定された規則に基づいて、当該音声特徴量データを複数のデータ群に分類する分類手段と、前記分類された各データ群毎に、前記データ群の特徴量を示すデータ群特徴量データを抽出する抽出手段と、前記発話音声が発せられた環境の状況を示す環境データを取得する環境データ取得手段と、前記格納されている各音声特徴量データ、前記分類された各データ群の属性を示す属性データ、前記取得された各データ群特徴量データ、および、前記環境データに基づいて、前記発話音声の特徴量と照合する際に用いられる前記音声特徴量データを生成する生成手段と、前記生成された各音声特徴量データと前記発話音声の特徴量とを照合することによって前記発話音声を認識する認識手段と、を備え、前記発話された発話音声の特徴量を認識すべきキーワードと当該キーワードを構成しない不要語とに識別することによって音声認識を行う場合に、前記格納手段に前記キーワードの音声特徴量データおよび前記不要語の音声特徴量データが格納されているとともに、前記分類手段が、前記キーワードおよび不要語の音声特徴量データの種別毎に、予め設定された規則に基づいて、当該音声特徴量データを複数のデータ群に分類する、構成を有している。
【００１９】
また、請求項７に記載の発明は、発話された発話音声の音声成分を示す特徴量と予め格納されている発話が予想される音声の音声成分の特徴量を示す音声特徴量データとを照合させることによって当該発話音声を認識する音声認識方法であって、複数の前記音声特徴量データが予め格納されている格納手段から当該音声特徴量データを取得する音声特徴量データ取得行程と、音声特徴量データの種別毎に、予め設定された規則に基づいて、当該音声特徴量データを複数のデータ群に分類する分類行程と、前記分類された各データ群毎に、前記データ群の特徴量を示すデータ群特徴量データを抽出する抽出行程と、前記発話音声が発せられた環境の状況を示す環境データを取得する環境データ取得行程と、前記取得された各音声特徴量データ、前記分類された各データ群の属性を示す属性データ、前記取得された各データ群特徴量データ、および、前記環境データに基づいて、前記発話音声の特徴量と照合する際に用いられる前記音声特徴量データを生成する生成行程と、前記生成された各音声特徴量データと前記発話音声の特徴量とを照合することによって前記発話音声を認識する認識行程と、を含み、前記発話された発話音声の特徴量を認識すべきキーワードと当該キーワードを構成しない不要語とに識別することによって音声認識を行う場合に、前記格納手段に前記キーワードの音声特徴量データおよび前記不要語の音声特徴量データが格納されているとともに、前記分類工程では、前記キーワードおよび不要語の音声特徴量データの種別毎に、予め設定された規則に基づいて、当該音声特徴量データを複数のデータ群に分類する、構成を有している。
【００２０】
また、請求項８に記載の発明は、コンピュータによって、発話された発話音声の音声成分を示す特徴量と予め格納されている発話が予想される音声の音声成分の特徴量を示す音声特徴量データとを照合させることによって当該発話音声を認識する音声認識プログラムであって、前記コンピュータを、複数の前記音声特徴量データが予め格納されている格納手段から当該音声特徴量データを取得する音声特徴量データ取得手段、音声特徴量データの種別毎に、予め設定された規則に基づいて、当該音声特徴量データを複数のデータ群に分類する分類手段、前記分類された各データ群毎に、前記データ群の特徴量を示すデータ群特徴量データを抽出する抽出手段、前記発話音声が発せられた環境の状況を示す環境データを取得する環境データ取得手段、前記取得された各音声特徴量データ、前記分類された各データ群の属性を示す属性データ、前記取得された各データ群特徴量データ、および、前記環境データに基づいて、前記発話音声の特徴量と照合する際に用いられる前記音声特徴量データを生成する生成手段、前記生成された各音声特徴量データと前記発話音声の特徴量とを照合することによって前記発話音声を認識する認識手段、として機能させる音声認識プログラムであって、前記発話された発話音声の特徴量を認識すべきキーワードと当該キーワードを構成しない不要語とに識別することによって音声認識を行う場合に、前記格納手段に前記キーワードの音声特徴量データおよび前記不要語の音声特徴量データが格納されているとともに、前記分類手段が、前記キーワードおよび不要語の音声特徴量データの種別毎に、予め設定された規則に基づいて、当該音声特徴量データを複数のデータ群に分類する、構成を有している。
【００２１】
【発明の実施の形態】
次に、本発明に好適な実施の形態について、図面に基づいて説明する。
【００２２】
なお、以下に説明する実施の形態は、本願に係る音声認識装置を車載用のナビゲーション装置に適応した場合の実施形態である。
【００２３】
また、本実施形態において説明する不要語構成要素は、音素単位または音節単位などの音声を構成する音声学的な基本単位を示すが、本実施形態では説明の便宜上、音節単位を用いて以下の説明を行う。
【００２４】
まず、図１を用いて本実施形態におけるナビゲーション装置の全体の構成および概要動作について説明する。
【００２５】
なお、図１は本願に係るナビゲーション装置の概要構成を示すブロック図である。
【００２６】
本実施形態のナビゲーション装置１００は、図１に示すように、図示しないアンテナＡＴに接続され、ＧＰＳ（Global Positioning System）データを受信するＧＰＳ受信部１１０と、車両の走行速度などの走行データを検出するセンサ部１２０と、ＧＰＳデータおよび走行データに基づいて自車位置を算出するインターフェース１３０と、ＶＩＣＳ(Vehicle Information Communication System)データを受信するＶＩＣＳデータ受信部１４０と、地図データが予め格納されている地図データ格納部１５０と、ユーザが各設定を行うとともにシステムに命令を入力する際に用いられる操作部１６０と、ユーザの音声を集音するマイクロホン１７０と、マイクロホン１７０によって集音された音声からシステムに指示された命令を認識する音声認識部３００と、地図データおよび車両の位置を表示する表示部１８０と、バッファメモリ１９０を用いて表示部１８０を制御する表示制御部２００と、経路誘導などの音声を生成する音声処理回路２１０と、音声処理回路２１０から出力された音声信号を拡声するスピーカ２２０と、電話公衆網回線やインターネット回線とアンテナＡＴを介して通信を行う通信部２３０と、経路探索などのナビゲーション処理を行うとともに、システム全体の制御を行うシステム制御部２４０と、ＲＡＭ／ＲＯＭ２５０と、により構成され、システム制御部２４０と各部は、バス２６０により接続されている。
【００２７】
ＧＰＳ受信部１１０は、ＧＰＳに属する複数の人工衛星からの航法電波を、アンテナＡＴを介して受信するとともに、この受信した電波に基づいて移動体の現在位置の擬似座標値を計算してＧＰＳデータとしてインターフェース１３０に出力するようになっている。
【００２８】
センサ部１２０は、車両の走行速度、加速度および方位角の走行データを検出するようになっており、検出した走行データをインターフェース１３０に出力するようになっている。
【００２９】
具体的には、センサ部１２０は、車両の走行速度を検出し、その検出した速度をパルス又は電圧の形態を有する速度データに変換してインターフェース１３０に出力するようになっている。
【００３０】
また、センサ部１２０は、重力加速度と車両の移動により発生する加速度とを比較することにより、上下方向の車両の移動状態を検出し、当該検出した移動状態を示す加速度データをパルス又は電圧の形態に変換してインターフェース１３０に出力するようになっている。
【００３１】
さらに、センサ部１２０は、いわゆるジャイロセンサにより構成され、車両の方位角、即ち車両が進行している進行方向を検出し、検出した方位角をパルス又は電圧の形態を有する方位角データに変換してインターフェース１３０に出力するようになっている。
【００３２】
インターフェース１３０は、センサ部１２０およびＧＰＳ受信部１１０とシステム制御部２４０との間のインターフェース処理を行うようになっており、入力されたＧＰＳデータと走行データに基づいて自車位置を算出して当該自車位置を自車位置データとしてシステム制御部２４０に出力するようになっている。
【００３３】
なお、この自車位置データは、システム制御部２４０において地図データと照合されてマップマッチング処理等が実行されるようなっている。
【００３４】
ＶＩＣＳデータ受信部１４０は、ＦＭ多重放送などの電波を受信することによってＶＩＣＳデータを取得するようになっており、取得したＶＩＣＳデータをシステム制御部２４０に出力するようになっている。
【００３５】
なお、ＶＩＣＳとは、道路交通情報通信システムのことを示し、ＶＩＣＳデータとは、渋滞、事故、規制などの道路交通情報をいう。
【００３６】
地図データ格納部１５０は、例えば、ハードディスク（Hard Disc）によって構成されるようになっており、予め記録されている道路地図などの地図データその他の走行案内に必要な情報（以下、地図データ等という。）を読み出すとともに、読み出した地図データ等をシステム制御部２４０に出力するようになっている。
【００３７】
この地図データ等とは、ナビゲーション動作に必要な道路形状データを含む地図データの他、公園や店舗などの目的地の名称、位置データなどの各種関連データが道路形状データに対応付けられて記憶されているとともに、地図全体がメッシュ状の複数のブロックに分割され、各ブロックに対応する地図データがブロック地図データとして管理されるようになっている。
【００３８】
操作部１６０は、各種確認ボタン、選択ボタン及び数字キー等の多数のキーを含むリモートコントロール装置等により構成されており、特に、音声認識の処理開始命令などの運転者の命令を入力するために用いられるようになっている。
【００３９】
音声認識部３００には、マイクロホン１７０に入力されたユーザから発生された発話音声が入力されるようになっており、例えば、当該音声認識部３００は、ナビゲーション装置１００の操作コマンドとして入力された発話音声を解析し、解析結果をシステム制御部２４０に出力するようになっている。
【００４０】
なお、本実施形態における音声認識部３００の構成および動作の詳細については後述する。
【００４１】
表示部１８０は、例えば、ＣＲＴまたは液晶表示素子によって構成され、表示制御部２００の制御にしたがって地図データ等を種々の態様で表示するとともに、これに重畳して自車位置などの経路案内に必要な各種状態を表示するようになっている。
【００４２】
なお、この表示部１８０は、地図データ等以外のコンテンツ情報等を表示するようにもなっており、表示制御２００を介してシステム制御部２４０の指示に基づいて各コンテンツ情報を表示するようになっている。
【００４３】
表示制御部２００には、システム制御部２４０を介して入力された地図データ等が入力されるようになっており、表示制御部２００は、このシステム制御部２４０の指示に基づいて上述のような表示部１８０に表示すべき表示データを生成し、バッファメモリ１９０に一時的に保存しつつ、所定のタイミングでバッファメモリ１９０から表示データを読み出して表示部１８０に表示出力するようになっている。
【００４４】
音声処理回路２１０は、システム制御部２４０の指示に基づいて音声信号を生成し、生成した音声信号を、スピーカ２２０を介して拡声するようになっており、例えば、次の交差点における車両の進行方向や走行案内上運転者に直接告知すべき渋滞情報又は通行止め情報等を含む経路誘導に関する情報、および、音声認識部３００において認識された音声認識結果を音声信号としてスピーカ２２０に出力するようになっている。
【００４５】
システム制御部２４０は、ＧＰＳ受信ポート、キー入力ポート、表示制御ポート等の各種入出力ポートを含み、ナビゲーション処理のための全般的な機能を総括的に制御するようになっている。
【００４６】
このシステム制御部２４０は、ナビゲーション装置１００全体の動作を制御するようになっており、ＲＡＭ／ＲＯＭ２５０に格納される制御プログラムを読み出して各処理を実行するとともに、当該ＲＡＭ／ＲＯＭ２５０に処理中のデータを一時的に保持することによって経路誘導のための制御を行うようになっている。
【００４７】
例えば、このシステム制御部２４０は、ナビゲーションの処理を行う場合に、音声認識部３００、特に後述する適応処理部３３０を制御して、マイクロホン１７０から入力されたユーザの発話音声を解析させるとともに当該発話音声を認識させるようになっており、この認識させた発話音声からナビゲーション処理の命令コマンドを取得し各部の制御を行うようになっている。
【００４８】
次に、図２を用いて本実施形態の音声認識部の構成および動作について説明する。
【００４９】
なお、図２は、本実施形態における音声認識部の構成を示すブロック図である。
【００５０】
本実施形態の音声認識部３００は、図２に示すように、キーワードモデルおよび不要語モデルを予め格納するＨＭＭデータベース３１０と、マイクロホン１７０を介して入力されたマイク入力信号に基づいて雑音モデルと雑音特徴量とを算出する雑音推定処理部３２０と、システム制御部２４０の指示により雑音モデルに基づいてデータベースに格納されている各ＨＭＭに対して適応処理を行う適応処理部３３０と、入力されたマイク入力信号全体の雑音低減処理を行う雑音低減処理部３５０と、マイク入力信号をフレーム毎に分析してマイク入力信号の特徴量を抽出する音声分析部３６０と、音声分析された各フレーム毎の特徴量とＨＭＭデータベース３１０に格納されている各ＨＭＭの特徴量とを比較し、各フレーム毎の類似度を算出する類似度算出部３７０と、入力されたマイク入力信号により、音声区間の推定を行う音声区間推定部３８０と、音声区間の情報と各フレーム毎の出力確率および遷移出力確率とに基づいて各キーワードモデルと不要語モデルとの各組み合わせの累積類似度を各キーワード毎に算出するマッチング処理部３９０と、各キーワード毎に算出された累積類似度の中で最も累積類似度が高いキーワードをキーワードと判定する判定部４００と、を備えている。
【００５１】
また、雑音推定処理部３２０、雑音低減処理部３５０および音声区間推定部３８０は、バス２６０を介して発話音声信号が入力されるとともに、判定部４００は、バスを介して判定したキーワードをシステム制御部２４０に出力するようになっている。
【００５２】
なお、例えば、本実施形態のＨＭＭデータベース３１０は、本発明の格納手段を構成し、雑音推定処理部３２０は、本発明の環境データ取得手段を構成する。
【００５３】
また、例えば、本実施形態の適応処理部３３０は、本発明の分類手段、抽出手段、生成手段および音声特徴量データ取得手段を構成し、音声分析部３６０は、本発明の発話音声特徴量取得手段を構成する。
【００５４】
さらに、例えば、本実施形態の類似度算出部３７０は、本発明の認識手段および類似度算出手段を構成し、マッチング処理部３９０および判定部４００は、本発明の認識手段および発話音声認識手段を構成する。
【００５５】
ＨＭＭデータベース３１０には、認識すべき複数のキーワードの特徴量のパターンデータを示すキーワードのＨＭＭ（以下、単に「キーワードモデル」という。）と、キーワード以外の言語である不要語における特徴量のパターンデータを示すＨＭＭ（以下、単に「不要語モデル」という。）が格納されており、このＨＭＭデータベース３１０は、格納してある各ＨＭＭモデルを適応処理部３３０に出力するようになっている。
【００５６】
具体的には、ＨＭＭデータベース３１０には、格納してある各ＨＭＭモデルに対して、ユーザ毎に、すなわち、話者毎に適応処理が為された各ＨＭＭが格納されており、この当該話者毎に設定された各ＨＭＭを適応処理部３３０に出力するようになっている。
【００５７】
例えば、システム制御部２４０は、予め設定された文章をユーザに読ませ、マイクロホン１７０を介して入力されたその文章の発話音声特徴量に基づいて音声認識処理を行う前に、ＨＭＭデータベースに格納されているＨＭＭの適応処理を行うようになっており、音声認識の処理を行う毎に当該話者適応された各ＨＭＭを、ＨＭＭデータベース３１０に格納しておくようになっている。
【００５８】
また、本実施形態では、ＨＭＭデータベース３１０には、キーワードモデルとしては、自動車が向かう目的地名や現在位置名、レストランなどの施設名といった音声信号の特徴量のパターンを示すＨＭＭ（以下、「キーワードモデル」という。）が格納されるようになっている。
【００５９】
なお、通常、キーワードは、「現在地」や「目的地」のように、複数の音節または音素から構成され、１つのキーワードモデルは複数のキーワードを構成するＨＭＭによって構成されている。したがって、類似度算出部３７０では、各キーワードの構成要素となるＨＭＭ毎に１のフレーム毎の特徴量における類似度を算出するようになっているため、実際には、ＨＭＭデータベース３１０には、各キーワードモデル毎に、当該キーワードを構成するＨＭＭが格納されている。
【００６０】
さらに、本実施形態では、ＨＭＭデータベース３１０には、複数の不要語の特徴量を示すＨＭＭが（以下、「不要語モデル」という。）が格納されており、例えば、音素毎、または、音節毎に、纏められた複数の音声特徴量のパターンが不要語構成モデルとして格納されている。
【００６１】
なお、各音節毎にそれぞれの特徴量のＨＭＭを生成する場合には、上述したように、予め複数の人間が発する各音節の音声データを取得するとともに、各音節毎に特徴量のパターンを抽出し、当該各音節毎の特徴量のパターンに基づいて各音節の特徴量のパターンデータを学習させて生成するようになっている。
【００６２】
また、本実施形態では、不要語モデルの音声データを生成する際に、複数の音節の音声データに基づいて１の特徴量パターンのＨＭＭを生成し、１のＨＭＭの言語モデルによって複数の音節の特徴量を有するＨＭＭを音韻毎などの予め複数生成した不要語モデルをＨＭＭデータベース３１０に格納するようになっている。
【００６３】
雑音推定処理部３２０には、マイクロホン１７０を介してユーザ発話を含む入力信号（以下、「マイク入力信号」という。）が入力されるようになっており、この雑音推定処理部３２０は、入力されたマイク入力信号から予め設定された初期区間のマイク入力信号（以下、「初期入力信号」という。）に基づいて雑音モデルを算出するとともに、入力されたマイク入力信号に基づいて雑音低減処理のための雑音音声の特徴量（以下、「雑音特徴量」という。）を算出するようになっている。
【００６４】
具体的には、雑音推定処理部３２０は、システム制御部２４０によって検出されたユーザの発話開始に基づいて、当該ユーザの発話が開始された時刻から予め設定された区間のマイク入力信号を初期入力信号として取得するようになっており、この取得した初期入力信号に基づいて、後述する適応処理のための雑音モデルを算出し、当該算出した雑音モデルをデータとして適応処理部３３０に出力するようになっている。
【００６５】
なお、本実施形態では、例えば、この雑音推定処理部３２０は、マイク入力信号の開始時刻から数百ｍｓｅｃ程度の区間のマイク入力信号を取得するようになっている。また、この雑音モデルとは、後述する適応処理のための変数（パラメータ）の一つであり、メルケプストラムまたはＬＰＣ（Linear Predictive Coding）ケプストラムに代表される特徴パラメータとして表現される。
【００６６】
また、雑音推定処理部３２０は、マイク入力信号に基づいて、当該マイク入力信号の一定時間毎の各周波数毎におけるパワーを示すスペクトル包絡、または、このパワースペクトルの対数をとって逆フーリエ変換して算出されたケプストラムの特徴量（以下、「雑音特徴量」という）をデータとして雑音低減処理部３５０に出力するようになっている。
【００６７】
適応処理部３３０には、雑音推定処理部３２０によって算出された雑音モデルのデータ（以下、単に、「雑音モデル」という。）が入力されるようになっており、この適応処理部３３０は、入力された雑音モデルに基づいて、ＨＭＭデータベース３１０に格納されているキーワードのＨＭＭのデータであるキーワードモデルおよび不要語のＨＭＭのデータである不要語モデルにおける各ＨＭＭのデータ適応処理を行うようになっている。
【００６８】
具体的には、適応処理部３３０は、各キーワードモデルおよび不要語モデル毎に予めクラスタリング処理およびその他の処理を行うとともに、クラスタリング処理等の結果に基づいて、各ＨＭＭのデータ適応の処理（以下、「データ適応処理」という。）を行うようになっており、データ適応処理をした各ＨＭＭを類似度算出部３７０に出力するようになっている。
【００６９】
なお、本実施形態における適応処理部３３０の構成およびデータ適応処理の詳細については、後述する。
【００７０】
雑音低減処理部３５０には、マイクロホン１７０を介してユーザが発話したマイク入力信号と、雑音推定処理部３２０において算出された雑音特徴量のデータ（以下、「雑音特徴量データ」という。）と、が入力されるようになっており、この雑音低減処理部３５０は、入力された雑音声特徴量データに基づいて、マイク入力信号全体の雑音低減処理をし、当該雑音低減処理が行われたマイク入力信号を音声信号分析部に出力するようになっている。
【００７１】
例えば、この雑音低減処理部３５０は、雑音が定常であることを利用して、雑音が含まれるマイク入力信号から当該雑音を取り除くスペクトルサブトラクション法を用いてマイク入力信号全体の雑音低減処理を行うようになっている。
【００７２】
音声分析部３６０には、雑音低減処理されたマイク入力信号が入力されるようになっており、この音声分析部３６０は、予め設定された時間間隔毎のフレームに分割するとともに、当該音声信号を分析し、フレーム毎の音声信号の特徴量を抽出して類似度算出部３７０に出力するようになっている。
【００７３】
具体的には、音声分析部３６０は、各フレーム毎に分割された音声信号に基づいて、当該各フレーム毎に、一定時間毎の各周波数毎におけるパワーを示すスペクトル包絡の情報、または、このパワースペクトルの対数をとって逆フーリエ変換したものケプストラムの情報を特徴量として抽出し、当該抽出した特徴量をベクトル化して類似度算出部３７０に出力ようになっている。
【００７４】
なお、例えば、音声分析部３６０は、１フレームを、１０ｍｓ〜２０ｍｓ程度の時間間隔毎に分割するようになっている。
【００７５】
類似度算出部３７０には、各フレーム毎のベクトル特徴量とデータ適応処理されたキーワードモデルおよび不要語モデルが入力されるようになっており、この類似度算出部３７０は、入力された各フレーム毎の特徴量とデータ適応処理された各キーワードモデルおよび各不要語モデルの特徴量とを比較して、入力された各フレームの各キーワードモデルおよび各不要語モデルとの類似度を算出し、この算出された類似度をマッチング処理部３９０に出力するようになっている。
【００７６】
具体的には、類似度算出部３７０は、各フレーム毎の特徴量および各キーワードモデルおよび各不要語モデルの特徴量に基づいて、各フレームが各キーワードモデルおよび各不要語モデルを示す確率を算出するようになっている。
【００７７】
例えば、類似度算出部３７０は、各フレームが各キーワードモデルを示す出力確率、および、各フレームが不要語モデルを示す出力確率を算出するとともに、任意のフレームから次のフレームに状態遷移が各キーワードモデルから他のキーワードモデルまたは不要語モデルに状態遷移を示す状態遷移確率、および、不要語モデルから各キーワードモデルに状態遷移を示す状態遷移確率を算出し、これらの確率を類似度としてマッチング処理部３９０に出力するようになっている。
【００７８】
なお、状態遷移確率には、各キーワードモデルもしくは各不要語モデルの１つの状態から自己の状態への状態遷移を示す状態遷移確率、各キーワードモデルもしくは各不要語モデルの１つの状態から別の状態への状態遷移を示す状態遷移確率、キーワードモデルの最終状態から不要語モデルの初期状態への状態遷移を示す状態遷移確率、および、不要語モデルの最終状態からキーワードモデルの初期状態への状態遷移を示す状態遷移確率が含まれるようになっている。
【００７９】
本実施形態では、類似度算出部３７０は、各フレーム毎に算出された各出力確率および各状態遷移確率を各フレームの類似度としてマッチング処理部３９０に出力するようになっている。
【００８０】
音声区間推定部３８０には、マイクロホン１７０を介してユーザが発話したマイク入力信号が入力されるようになっており、音声区間推定部３８０は、入力されたマイク入力信号に基づいて、音声区間の推定を行い、当該推定した結果を音声区間の情報としてマッチング処理部３９０に出力するようになっている。
【００８１】
マッチング処理部３９０には、各フレーム毎の各出力確率および各遷移出力確率と、音声区間推定部３８０によって推定された音声区間の情報が入力されるようになっており、マッチング処理部３９０は、この入力された音声区間の情報と、各フレーム毎の出力確率および遷移出力確率と、に基づいて各キーワードモデルと不要語モデルとの各組み合わせの類似度を示す累積類似度を算出するマッチング処理を行い、この算出された累積類似度を判定部４００に出力するようになっている。
【００８２】
具体的には、マッチング処理部３９０は、音声区間に該当する各フレーム毎の各出力確率および各遷移出力確率を当てはめ、各キーワード毎に１の累積類似度を算出するようになっており、本実施形態では、マッチング処理部３９０は、ビタビアルゴリズムを用いて、キーワードモデルおよび不要語構成モデルとの各組み合わせの累積類似度を算出するようになっている。
【００８３】
なお、このビタビアルゴリズムは、各状態になる出力確率と各状態から他の状態へ遷移する場合の遷移確率に基づいて累積類似度を算出するアルゴリズムであり、任意の状態iから次の状態ｊへの遷移を示すパスに沿って計算される累積的な確率の計算を行い、この累積的な確率計算を行うことによって状態の遷移が可能な各パス、すなわち、ＨＭＭの繋がりおよび組み合わせを抽出するようになっている。
【００８４】
また、本実施形態では、各キーワード毎に１の累積類似度を算出するようになっているが、キーワードなしの場合の累積類似度、すなわち、不要語構成要素モデルのみの累積類似度も算出するようになっている。
【００８５】
判定部４００には、マッチング処理部３９０において算出された各キーワード毎の累積類似度および音声区間推定部３８０において推定された音声区間の情報が入力されるようになっており、判定部４００は、推定された音声区間に合致し、かつ、入力された累積類似度の中で最も累積類似度が高いキーワードを、発話音声に含まれるキーワードと判定してこのキーワードをシステム制御部２４０に出力するようになっている。
【００８６】
このとき、この判定部４００は、不要語構成要素モデルのみの累積類似度も判定対象に加えてキーワードの判定を行うようになっており、この不要語構成要素モデルのみの累積類似度が最も入力された累積類似度の中で最も高い場合には、発話音声にキーワードが含まれていなかったものと判定してこの判定結果をシステム制御部２４０に出力するようになっている。
【００８７】
次に、図３を用いて本実施形態における適応処理部の構成および動作について説明する。
【００８８】
なお、図３は、本実施形態における適応処理部の構成を示すブロック図である。
【００８９】
本実施形態の適応処理部３３０は、音声認識の処理を行う前に、キーワードモデルおよび不要語モデル毎に、クラスタリング処理、重心ベクトルの算出処理および差分ベクトルの算出処理を行うようになっている。
【００９０】
なお、ＨＭＭは、話者適応処理によって各ＨＭＭデータが変更されない限り、または、新規な話者によるＨＭＭの話者適応が行われない限り、クラスタリング処理の結果は同じになる。したがって、本実施形態では、適応処理部３３０は、話者適応処理毎に、すなわち、ＨＭＭデータベース３１０に格納された各ＨＭＭデータに基づいて新たに話者適応されたＨＭＭデータが生成される毎に、当該データ適応処理を行うようになっている。
【００９１】
本実施形態の適応処理部３３０は、図３に示すように、キーワードモデルおよび不要語モデル毎に、データ適応処理を行うようになっており、データ適応処理を行う不要語モデルおよびキーワードモデルに対してクラスタリング処理を行う第１クラスタリング処理部３３１および第２クラスタリング処理部３４１と、クラスタリング処理された不要語モデルまたはキーワードモデルに基づいて重心ベクトルを算出する第１重心ベクトル算出部３３２および第２重心ベクトル算出部３４２と、クラスタリング処理された不要語モデルまたはキーワードモデルと算出された重心ベクトルに基づいて差分ベクトルを算出する第１差分ベクトル算出部３３３および第２差分ベクトル算出部３４３と、算出された重心ベクトルと雑音モデルに基づいて各ＨＭＭに対してデータ適応処理を行う第１モデル適応処理部３３４および第２モデル適応処理部３４４と、データ適応処理された各ＨＭＭと算出された差分ベクトルに基づいて各ＨＭＭの復元処理を行う第１復元処理部３３５および第２復元処理部３４５と、から構成されている。
【００９２】
なお、例えば、本実施形態の第１クラスタリング処理部３３１および第２クラスタリング処理部３４１は、本発明の分類手段を構成し、第１重心ベクトル算出部３３２および第２重心ベクトル算出部３４２は、本発明の抽出手段を構成する。
【００９３】
また、例えば、本実施形態の第１差分ベクトル算出部３３３および第２差分ベクトル算出部３４３は、本発明の第１算出手段を構成し、第１モデル適応処理部３３４および第２モデル適応処理部３４４は、本発明の第２算出手段を構成する。
【００９４】
また、例えば、本実施形態の第１復元処理部３３５および第２復元処理部３４５は、本発明の音声特徴量データ生成手段を構成する。
【００９５】
第１クラスタリング処理部３３１には、ＨＭＭデータベース３１０に格納されている全ての不要語モデルであるＨＭＭが入力されるようになっており、この第１クラスタリング処理部３３１は、入力された全てのＨＭＭに対してクラスタリング処理を行い、その処理結果を示す各ＨＭＭの属性データを当該各ＨＭＭとともに、重心ベクトル算出部および差分ベクトル算出部に出力するようになっている。
【００９６】
具体的には、第１クラスタリング処理部３３１は、図４に示すように、入力された全ての不要語モデルである全てのＨＭＭを１つの集合として、当該集合（以下、「クラスタ」という。）を、予め定められた規則に従って所定数の複数のＨＭＭの集合群に分割するようになっており、各ＨＭＭがこの分割された各集合群に属することを示す属性データを、当該各ＨＭＭとともに、重心ベクトル算出部および差分ベクトル算出部に出力するようになっている。
【００９７】
本実施形態の第１クラスタリング処理部３３１は、ＨＭＭのクラスタに対して、初回を除き、分割されて生成された各クラスタの歪みのうち、最大となるクラスタを２つに分割し、目的の集合数になるまで、この分割を繰り返すアンバランストクラスタリングを用いて当該ＨＭＭのクラスタリング処理を行うようになっている。
【００９８】
具体的には、本実施形態では、第１クラスタリング処理部３３１は、各クラスタに属する各ＨＭＭに対して、それぞれ、各クラスタの重心との差分ベクトルを算出するようになっており、各クラスタにおいて最大となるＨＭＭとの差分ベクトルの大きさをそのクラスタの最大歪みとして算出するようになっている。
【００９９】
なお、各ＨＭＭ毎に示される属性データとは、各ＨＭＭが属するクラスタの識別符号のデータをいい、例えば、クラスタの識別符号が番号の場合には、その番号を示す。
【０１００】
第１重心ベクトル算出部３３２には、第１クラスタリング処理部３３１において算出された各ＨＭＭの属性データと、当該各ＨＭＭと、が入力されるようになっており、この第１重心ベクトル算出部３３２は、入力された各属性データと各ＨＭＭとに基づいて各クラスタの重心を算出し、当該算出した各クラスタの重心ベクトルをベクトルデータ（以下、「重心ベクトルデータ」という。）として第１モデル適応処理部３３４および第１差分ベクトル算出部３３３に出力するようになっている。
【０１０１】
具体的には、第１重心ベクトル算出部３３２は、入力された各クラスタのＨＭＭに基づいて、各ＨＭＭのベクトルの平均を算出し、この平均されたベクトルを重心ベクトルとして算出するようになっている。
【０１０２】
第１差分ベクトル算出部３３３には、第１クラスタリング処理部３３１において算出された各ＨＭＭの属性データおよび各ＨＭＭと、第１重心ベクトル算出部３３２において算出された各クラスタの重心ベクトルデータが入力されるようになっている。
【０１０３】
この第１差分ベクトル算出部３３３は、入力された各属性データ、そのＨＭＭおよび当該ＨＭＭが属するクラスタの重心ベクトルデータに基づいて、各ＨＭＭ毎に、重心ベクトルデータとの差分ベクトルを算出し、当該算出した各ＨＭＭの差分ベクトルを、差分ベクトルデータとして各ＨＭＭの属性データに対応付けて第１復元処理部３３５に出力するようになっている。
【０１０４】
第１モデル適応処理部３３４には、第１重心ベクトル算出部３３２において算出された各クラスタの重心ベクトルデータと適応パラメータとしての雑音モデルが入力されるようになっており、第１モデル適応処理部３３４は、入力された雑音モデルに基づいて各クラスタの重心ベクトルに対してモデル適応を行い、当該モデル適応した各クラスタの重心ベクトルを第１復元処理部３３５に出力するようになっている。
【０１０５】
具体的には、第１モデル適応処理部３３４は、各クラスタの重心ベクトルに対して雑音モデルを合成するようになっており、各重心ベクトルに雑音モデルを重畳し、各重心ベクトルに適応処理（以下、「モデル適応処理」という。）を行うようになっている。
【０１０６】
なお、本実施形態では、各クラスタの重心ベクトルに対して雑音モデルを合成する方法としては、公知のＨＭＭ合成法を用いるようになっており、例えば、ＰＭＣ法（Parallel Model Combination）やＮＯＶＯ合成法（Voice Mixed with Noise）を用いるようになっている。
【０１０７】
第１復元処理部３３５には、第１差分ベクトル算出部３３３において算出された各ＨＭＭの差分ベクトルおよびその属性データと、第１モデル適応処理部３３４においてモデル適応された各クラスタの重心ベクトルが入力されるようになっている。
【０１０８】
この第１復元処理部３３５は、入力された各クラスタの重心ベクトルと、各ＨＭＭの差分ベクトルおよびその属性データに基づいて各ＨＭＭの復元の処理（以下、単に「復元処理」という。）を行い、当該復元した各ＨＭＭを適応処理部３３０の出力として類似度算出部３７０に出力するようになっている。
【０１０９】
具体的には、第１復元処理部３３５は、属性データに基づいて、上述の差分ベクトルの算出処理と反対の処理、すなわち、適応処理された各重心ベクトルに、各ＨＭＭモデルの差分ベクトルを加算して各ＨＭＭを復元するようになっている。
【０１１０】
なお、本実施形態の適応処理部３３０は、上述のように、不要語モデルに対してデータ適応処理を行う各部について説明したが、図３に示すように、キーワードモデルに対しても不要語モデルと同様に、データ適応処理を行うようになっている。
【０１１１】
すなわち、本実施形態では、第２クラスタリング処理部３４１、第２重心ベクトル算出部３４２、第２差分ベクトル算出部３４３、第２モデル適応処理部３４４および第２復元処理部３４５によって、ＨＭＭデータベース３１０に格納された各キーワードモデルに対して、不要語モデル同様に、クラスタリング処理、重心ベクトルの算出処理（以下、「重心ベクトル算出処理」という。）、差分ベクトルの算出（以下、「差分ベクトル算出処理」という。）、モデル適応処理、および復元処理を行い、復元処理した各キーワードのＨＭＭを適応処理部３３０の出力として類似度算出部３７０に出力するようになっている。
【０１１２】
また、本実施形態では、適応処理部３３０は、クラスタリング処理、重心ベクトル算出処理および差分ベクトル算出処理を各ＨＭＭ毎に、かつ、話者毎に、予め実行するようになっており、後述する音声認識処理を行うときに、予め算出してある各ＨＭＭの重心ベクトル、差分ベクトルおよび属性データに基づいて、話者毎に適応処理したＨＭＭを類似度算出部３７０に出力するようになっている。
【０１１３】
次に、図４および図５を用いて、不要語モデルおよびキーワードモデル毎にクラスタリング処理、および重心ベクトルの算出処理の原理について説明する。
【０１１４】
なお、図４は、本実施形態における重心ベクトルの算出を説明するための図であり、図５は、実施形態のクラスタリング処理を説明するための図である。
【０１１５】
図４に示すように、複数の不要語モデルおよびキーワードモデルが存在すると、不要語モデルのみからなる重心位置およびキーワードモデルのみからなら重心位置と、キーワードモデルおよび不要語モデルが混在する重心位置は、異なる位置となる。
【０１１６】
すなわち、本実施形態では、重心ベクトルに基づいて各不要語モデルおよびキーワードモデルの復元処理を行うため、重心ベクトルの位置に基づいて雑音モデルに適応処理された各不要語モデルおよびキーワードモデルに基づいて音声認識が行われるので、この各クラスタの重心を的確に算出する必要がある。
【０１１７】
一方、不要語モデルとキーワードモデルでは、生成されるＨＭＭモデルの特徴が異なる。すなわち、キーワードモデルは、その性質上、該当する１のキーワードの音声特徴量を現せば十分であるが、不要語モデルは、複数の不要語を識別させるため、１のＨＭＭモデルで複数の不要語の音声特徴量を表すようになっている。
【０１１８】
したがって、キーワードモデルと不要語モデルは、ＨＭＭモデル自体の性質が異なるため、クラスタにキーワードモデルおよび不要語モデルが混在すると、不要語モデルのみからなるクラスタおよびキーワードモデルのみのクラスタにクラスタリング処理することができず、不要語モデルのみからなるクラスタおよびキーワードモデルのみのクラスタに比べ、これらが混在するクラスタから算出される重心位置が的確な位置を示さないこととなる。
【０１１９】
そこで、本実施形態は、不要語モデルまたはキーワードモデル毎にクラスタリング処理を行うようになっており、不要語モデルまたはキーワードモデル毎にクラスタリング処理された集合群（クラスタ）に基づいて、重心ベクトルおよびこの重心ベクトルとの差分ベクトルを算出するようになっている。
【０１２０】
また、クラスタリング処理とは、不要語モデルまたはキーワードモデルに基づいて予め定められた規則に基づいて予め定められた分割数になるまで分割するとともに、分割したクラスタに対して重心ベクトルを算出し、当該重心ベクトルに基づいて各ＨＭＭの復元処理を行うようになっており、各ＨＭＭ毎にモデル適応処理を行う場合に比べ、処理負担の軽減を行うようになっている。すなわち、分割されたクラスタの数は、ＨＭＭの格納されている数に比べ、少なくなるので、この少なくなった分の処理が軽減されるようになっている。
【０１２１】
なお、本実施形態では、例えば、図５に示すように、不要語モデルに対して３回の分割を行う場合には、第１クラスタリング処理部３３１は、まず、全ての不要語モデルにおける集合（クラスタ）を２つのクラスタに分割し、次いで、２つの分割されたクラスタのうち、歪みが最大となるクラスタを選択し、その選択したクラスタをさらに２つに分割するようになっており、次いで、分割されていないクラスタと、２つに分割された各クラスタと、において、最大の歪みとなるクラスタをさらに分割し、目的の集合数、すなわち、分割数になるまでこの分割処理を行うようになっている。
【０１２２】
次に、図６を用いて本実施形態における音声認識処理の動作について説明する。
【０１２３】
なお、図６は、本実施形態のナビゲーション装置１００における音声認識処理の動作を示すフローチャートである。
【０１２４】
まず、操作部１６０または音声認識部３００を介してシステム制御部２４０にユーザから音声認識処理の指示が入力されると、または、ナビゲーション処理中に、システム制御部２４０が音声認識処理を行う必要があると判断すると（ステップＳ１１）、システム制御部２４０は、音声処理回路２１０およびスピーカ２２０を介して、音声認識すべき発話音声をマイクロホン１７０から入力する旨をユーザに告知する（ステップＳ１２）。
【０１２５】
次いで、ユーザが発話し、発話を含む信号が入力されると、システム制御部２４０は、音声認識部３００に、入力された発話音声に対して以下の音声認識処理を行わせる。
【０１２６】
まず、発話音声が入力されると、雑音推定処理部３２０は、予め設定された初期区間の初期入力信号に基づいて雑音モデルを算出するとともに、雑音特徴量を算出し、雑音低減処理部３５０および適応処理部３３０に出力する（ステップＳ１３）。
【０１２７】
次いで、適応処理部３３０に雑音モデルが入力されると、当該適応処理部３３０は、予めクラスタリング処理して算出した各キーワードモデルおよび不要語モデルの重心ベクトル、差分ベクトルおよびその属性データと、入力された雑音性モデルに基づいて、上述のようにモデル適応処理を行うとともに、復元処理を行い、復元した各キーワードモデルおよび各不要語モデルを類似度算出部３７０に出力する（ステップＳ１４）。
【０１２８】
なお、この適応処理部３３０におけるクラスタリング処理、重心ベクトルの算出処理および差分ベクトルの算出処理の動作については、後述する。
【０１２９】
一方、雑音低減処理部３５０にマイク入力信号が入力され、かつ、雑音特徴量が入力されると、当該雑音処理部は、入力された雑音声特徴量データに基づいて、マイク入力信号全体の雑音低減処理をし、当該雑音低減処理が行われたマイク入力信号を音声分析部３６０に出力する（ステップＳ１５）。
【０１３０】
次いで、音声分析部３６０に雑音低減処理されたマイク入力信号が入力されると、当該音声分析部３６０は、入力されたマイク入力信号の発話音声部分の音声区間を示す音声信号をフレームに分割するとともに、当該各フレーム毎の音声信号の特徴量を抽出して類似度算出部３７０に出力する（ステップＳ１６）。
【０１３１】
次いで、類似度算出部３７０に各適応処理されたキーワードモデルおよび不要語モデルが入力され、かつ、各フレーム毎のベクトル特徴量が入力されると、当該類似度算出部３７０は、入力された各フレーム毎の特徴量とＨＭＭデータベース３１０に格納されている各ＨＭＭの特徴量とを比較して、入力された各フレームの各ＨＭＭとの類似度を算出し、この算出された類似度をマッチング処理部３９０に出力する（ステップＳ１７）。
【０１３２】
一方、音声区間推定部３８０にマイク入力信号が入力されると、音声区間推定部３８０は、マイク入力信号に基づいて、音声区間の推定を行い、当該推定した音声区間の情報をマッチング処理部３９０に出力する（ステップＳ１８）。
【０１３３】
次いで、マッチング処理部３９０に各フレーム毎の各出力確率および各遷移出力確率と、音声区間推定部３８０によって推定された音声区間の情報が入力されると、当該マッチング処理部３９０は、この入力された音声区間の情報と、各フレーム毎の出力確率および遷移出力確率と、に基づいて各キーワードモデルと不要語モデルとの各組み合わせの類似度を示す累積類似度を算出するマッチング処理を行い、この算出された累積類似度を判定部４００に出力する（ステップＳ１９）。
【０１３４】
次いで、判定部４００にマッチング処理部３９０において算出された各キーワード毎の累積類似度および音声区間推定部３８０において推定された音声区間の情報が入力されると、当該判定部４００は、推定された音声区間において、入力された累積類似度の中で最も累積類似度が高いキーワードを、発話音声に含まれるキーワードと判定してこのキーワードをシステム制御部２４０に出力する（ステップＳ２０）。
【０１３５】
最後に、システム制御部２４０は、判定部４００から出力されたキーワードに基づいて各部を制御し（ステップＳ２１）、本動作を終了する。
【０１３６】
次に、図７を用いて、適応処理部３３０におけるクラスタリング処理、重心ベクトルの算出処理および差分ベクトルの算出処理の動作について説明する。
【０１３７】
なお、図７は、本実施形態の適応処理部３３０におけるクラスタリング処理、重心ベクトルの算出処理および差分ベクトルの算出処理の動作を示すフローチャートである。
【０１３８】
また、本動作は、操作部１６０を介してシステム制御部２４０に話者が変わった旨または話者の新規登録を行う旨が入力され、各キーワードモデルおよび各不要語モデルに対して当該話者適応が行われた後に、システム制御部２４０の指示に基づいて行われるようになっている。
【０１３９】
まず、システム制御部２４０が音声認識部３００にクラスタリング処理、重心ベクトルの算出処理および差分ベクトルの算出処理を実行する旨が入力されると、システム制御部２４０は、第１クラスタリング処理部３３１および第２クラスタリング処理部３４１に、ＨＭＭデータベース３１０に格納された全てのキーワードモデルまたは全ての不要語モデルを取得させる（ステップＳ３１）。
【０１４０】
次いで、システム制御部２４０は、各キーワードモデル毎に、または、各不要語モデル毎に、以下の動作を行う。
【０１４１】
まず、システム制御部２４０は、第１クラスタリング処理部３３１に、全ての不要語モデルに基づいてクラスタリング処理を行わせ、各不要語モデル毎に属性データを算出させる（ステップＳ３２）。
【０１４２】
次いで、システム制御部２４０は、第１重心ベクトル算出部３３２に、各不要語モデル毎に、各不要語モデルおよびその属性データに基づいて重心ベクトルを算出させ、第１モデル適応処理部３３４に出力する（ステップＳ３３）。
【０１４３】
次いで、システム制御部２４０は、第１差分ベクトル算出部３３３に、各不要語モデル毎に、各キーワードモデル、その属性データおよびその重心ベクトルに基づいて差分ベクトルを算出させる（ステップＳ３４）。
【０１４４】
一方、システム制御部２４０は、第２クラスタリング処理部３４１に、全てのキーワードモデルに基づいてクラスタリング処理を行わせ、各キーワードモデル毎に属性データを算出させる（ステップＳ３５）。
【０１４５】
次いで、システム制御部２４０は、第２重心ベクトル算出部３４２に、各キーワードモデル毎に、各キーワードモデルおよびその属性データに基づいて重心ベクトルを算出させる（ステップＳ３６）。
【０１４６】
次いで、システム制御部２４０は、第２差分ベクトル算出部３４３に、各キーワードモデル毎に、各キーワードモデル、その属性データおよびその重心ベクトルに基づいて差分ベクトルを算出させる（ステップＳ３７）。
【０１４７】
最後に、システム制御部２４０は、算出した各キーワードモデルおよび不要語モデルの重心ベクトル、差分ベクトルおよび属性データを、それぞれ、第１モデル適応処理部３３４、第２モデル適応処理部３４４、第１復元処理部３３５および第２復元処理部３４５に出力させる（ステップＳ３８）。
【０１４８】
なお、本実施形態では、不要語モデルにおいてクラスタリング処理を行うとともに、重心ベクトルおよび差分ベクトルを算出した後に、キーワードモデルにおいてクラスタリング処理、重心ベクトルの算出処理および差分ベクトルの算出処理を行っているが、不要語モデルよりもキーワードモデルにおいてクラスタリング処理等を行った後に、不要語モデルのクラスタリング処理を行うようにしてもよく、また、不要語モデルおよびキーワードモデルのクラスタリング処理を同時並行に行うようにしてもよい。
【０１４９】
次に、図８を用いて、本実施形態における音声認識処理の認識率の実験結果について説明する。
【０１５０】
なお、図８は、本実施形態における音声認識処理の認識率と不要語モデルおよびキーワードモデル毎にクラスタリング処理を行わない従来の方法における音声認識処理の認識率を示す表である。また、この図８は、自動車内で発話された音声に対する認識率を示している。
【０１５１】
ケース１は、キーワードだけが発話された場合の認識率であり、ナビゲーション装置が搭載された車両の時速が、０ｋｍ／ｈ、５０ｋｍ／ｈおよび１００ｋｍ／ｈの場合に、男性１１名、女性９名が発声したそれぞれ１５０語のナビゲーションの指示命令を認識させ、その結果を平均したものである。
【０１５２】
ケース２は、キーワードのワード長よりも短い不要語が含まれる発話音声が発話された場合の認識率であり、ナビゲーション装置が搭載された車両の時速が、０ｋｍ／ｈ、５０ｋｍ／ｈおよび１００ｋｍ／ｈの場合に、男性１１名、女性９名が発声したそれぞれ１５０語のナビゲーションの指示命令を認識させ、その結果を平均したものである。
【０１５３】
ケース３は、キーワードのワード長と同程度かそれ以上のワード長を持つ不要語が含まれる発話音声が発話された場合の認識率であり、ナビゲーション装置が搭載された車両の時速が、１００ｋｍ／ｈの場合に、男性５名、女性４名が発声したそれぞれ２００語のナビゲーションの指示命令を認識させ、その結果を平均したものである。
【０１５４】
このように、本実施形態の音声認識処理は、どのケースにおいても発話音声の認識率の劣化を従来のナビゲーション装置よりも小幅に留めつつ、当該認識率を向上させていることがわかる。
【０１５５】
以上により、本実施形態によれば、複数のＨＭＭが予め格納されているＨＭＭデータベース３１０と、格納されているＨＭＭの種別毎に、予め設定された規則に基づいて、当該ＨＭＭを複数のクラスタにクラスタリング処理を行う第１クラスタリング処理部３３１および第２クラスタリング処理部３４１と、クラスタリング処理された各クラスタ毎に、クラスタの特徴量を示す重心ベクトルを抽出する第１重心ベクトル算出部３３２および第２重心ベクトル算出部３４２と、発話音声が発せられた環境の状況を示す雑音環境を示す雑音モデルを取得する雑音環境を示す雑音推定処理部３２０と、格納されている各ＨＭＭ、クラスタリング処理された各クラスタの属性を示す属性データ、取得された各重心ベクトル、および、雑音環境を示す雑音モデルに基づいて、発話音声の特徴量に照合する際に用いられるＨＭＭを生成する適応処理部３３０と、生成された各ＨＭＭと発話音声の特徴量とを照合することによって発話音声を認識する類似度算出部３７０、マッチング処理部３９０および判定部４００と、を備えた構成を有している。
【０１５６】
この構成により、本実施形態では、格納されている各ＨＭＭ、クラスタリング処理された各クラスタの属性を示す属性データ、取得された各重心ベクトル、および、雑音環境を示す雑音モデルに基づいて、発話音声の特徴量に照合する際に用いられるＨＭＭを生成するとともに、生成された各ＨＭＭと発話音声の特徴量とを照合することによって発話音声を認識する。
【０１５７】
したがって、キーワードモデルおよび不要語モデル毎に、クラスタリング処理を行えば、キーワードモデルおよび不要語モデル毎に、発話音声が発話された雑音環境に適応処理されたＨＭＭモデルを生成することができるので、不要語モデルおよびキーワードモデル間の音声特徴量の大幅な特性の差異によって生ずる誤認識を防止することができ、高精度に音声認識を行うことができる。
【０１５８】
また、本実施形態では、適応処理部３３０が、各ＨＭＭと当該各ＨＭＭが属するクラスタにおける重心ベクトルとの差異を示す差分ベクトルを算出する第１差分ベクトル算出部３３３および第２差分ベクトル算出部３４３と、取得された各重心ベクトルに雑音モデルを、それぞれ、重畳して発話環境に適応した重心ベクトルである適応重心ベクトルを算出する第１モデル適応処理部３３４および第２モデル適応処理部３４４と、算出された各ＨＭＭにおける差分ベクトルおよび属性データと算出された各適応重心ベクトルとに基づいて発話音声の特徴量に照合する際に用いられるＨＭＭを復元する第１復元処理部３３５および第２復元処理部３４５と、を有する構成をしている。
【０１５９】
この構成により、本実施形態では、取得された各重心ベクトルに雑音モデルを、それぞれ、重畳して適応重心ベクトルを算出するとともに、各ＨＭＭにおける算出された差分ベクトルおよび属性データと、算出された各適応重心ベクトルと、に基づいて発話音声の特徴量に照合する際に用いられるＨＭＭを復元する。
【０１６０】
したがって、各クラスタ毎の重心ベクトルおよび各ＨＭＭ毎の差分ベクトルを用いることによって、各重心ベクトル毎に適応処理を行えば、雑音環境に適応したＨＭＭを生成することができるので、各ＨＭＭ毎に適応処理を行うことに比べ、適応処理を迅速に行うことができる。
【０１６１】
また、本実施形態では、各重心ベクトル算出部、および、各差分ベクトル算出部が、それぞれ、重心ベクトルおよび差分ベクトルを予め算出する構成を有している。
【０１６２】
この構成により、本実施形態では、予め各クラスタの重心ベクトルおよび各ＨＭＭの差分ベクトルを算出することができるので、キーワードモデルおよび不要語モデル毎に、クラスタリング処理を行うことができる。したがって、不要語モデルおよびキーワードモデル間の音声特徴量の大幅な特性の差異によって生ずる誤認識を防止することができ、迅速に、かつ、高精度に音声認識を行うことができる。
【０１６３】
また、本実施形態では、発話された発話音声の特徴量を認識すべきキーワードと当該キーワードを構成しない不要語とに識別することによって音声認識を行う場合に、ＨＭＭデータベース３１０にキーワードのＨＭＭおよび不要語のＨＭＭが格納されているとともに、第１クラスタリング処理部３３１および第２クラスタリング処理部３４１が、キーワードおよび不要語のＨＭＭの種別毎に、予め設定された規則に基づいて、当該ＨＭＭを複数のクラスタにクラスタリング処理を行う構成を有している。
【０１６４】
この構成により、本実施形態では、キーワードおよび不要語のＨＭＭの種別毎に、予め設定された規則に基づいて、当該ＨＭＭを複数のクラスタにクラスタリング処理する。
【０１６５】
したがって、キーワードモデルおよび不要語モデル毎に、発話音声が発話された雑音環境に適応処理されたＨＭＭモデルを生成することができるので、不要語モデルおよびキーワードモデル間の音声特徴量の大幅な特性の差異によって生ずる誤認識を防止することができ、迅速に、かつ、高精度に音声認識を行うことができる。
【０１６６】
また、本実施形態では、発話音声を分析することによって当該発話音声の音声成分の特徴量である発話音声特徴量を取得する音声分析部３６０と、マイク入力信号の少なくとも一部の区間の取得された発話音声特徴量と適応処理されたＨＭＭとを照合し、特徴量の特性が類似する割合を示す類似度を算出する類似度算出部３７０と、算出した類似度に基づいて発話音声を認識するマッチング処理部３９０および判定部４００と、を有する構成をしている。
【０１６７】
この構成により、本実施形態では、マイク入力信号の少なくとも一部の音声区間の取得された発話音声特徴量と適応処理されたＨＭＭとを照合し、特徴量の特性が類似する割合を示す類似度を算出するとともに、算出した類似度に基づいて発話音声を認識する。
【０１６８】
したがって、キーワードモデルおよび不要語モデル毎に、発話音声が発話された雑音環境に適応処理されたＨＭＭモデルを生成することができるので、不要語モデルおよびキーワードモデル間の音声特徴量の大幅な特性の差異によって生ずる誤認識を防止することができ、高精度に音声認識を行うことができる。
【０１６９】
なお、本実施形態では、適応処理部３３０は、音声認識処理を行う前に、クラスタリング処理、重心ベクトルの算出処理および差分ベクトルの算出処理を行うようになっているが、音声認識処理毎に、または、操作部１６０によるユーザの指示に基づいて、クラスタリング処理、重心ベクトル算出処理および差分ベクトル算出処理を行うようにしてもよい。
【０１７０】
また、本実施形態では、上述のナビゲーション装置１００によって、音声認識処理を行うようになっているが、認識すべき発話音声を入力するマイクロホン１７０を有するナビゲーション装置１００にコンピュータおよび記録媒体を備え、この記録媒体に上述のデータ適用処理を含む音声認識処理を行うプログラムを格納し、このコンピュータで当該プログラムを読み込むことによって上述と同様の音声認識処理を行うようにしてもよい。
【図面の簡単な説明】
【図１】本願に係るナビゲーション装置の概要構成を示すブロック図である。
【図２】一実施形態における音声認識部の構成を示すブロック図である。
【図３】一実施形態における適応処理部の構成を示すブロック図である。
【図４】一実施形態における重心ベクトルの算出を説明するための図である。
【図５】一実施形態のクラスタリング処理を説明するための図である。
【図６】一実施形態のナビゲーション装置における音声認識処理の動作を示すフローチャートである。
【図７】一実施形態の適応処理部におけるクラスタリング処理、重心ベクトルの算出処理および差分ベクトルの算出処理の動作を示すフローチャートである。
【図８】一実施形態のナビゲーション装置と従来のナビゲーション装置の音声認識率を比較した表である。
【符号の説明】
１００ … ナビゲーション装置
３００ … 音声認識部
３１０ … ＨＭＭデータベース
３２０ … 雑音推定処理部
３３０ … 適応処理部
３３１ … 第１クラスタリング処理部
３３２ … 第１重心ベクトル算出部
３３３ … 第１差分ベクトル算出部
３３４ … 第１モデル適応部
３３５ … 第１復元処理部
３４１ … 第２クラスタリング処理部
３４２ … 第２重心ベクトル算出部
３４３ … 第２差分ベクトル算出部
３４４ … 第２モデル適応部
３４５ … 第２復元処理部
３７０ … 類似度算出部
３９０ … マッチング処理部
４００ … 判定部

Claims

発話された発話音声の音声成分を示す特徴量と予め格納されている発話が予想される音声の音声成分の特徴量を示す音声特徴量データとを照合させることによって当該発話音声を認識する音声認識装置であって、
複数の前記音声特徴量データが予め格納されている格納手段と、
前記格納されている音声特徴量データの種別毎に、予め設定された規則に基づいて、当該音声特徴量データを複数のデータ群に分類する分類手段と、
前記分類された各データ群毎に、前記データ群の特徴量を示すデータ群特徴量データを抽出する抽出手段と、
前記発話音声が発せられた環境の状況を示す環境データを取得する環境データ取得手段と、
前記格納されている各音声特徴量データ、前記分類された各データ群の属性を示す属性データ、前記取得された各データ群特徴量データ、および、前記環境データに基づいて、前記発話音声の特徴量と照合する際に用いられる前記音声特徴量データを生成する生成手段と、
前記生成された各音声特徴量データと前記発話音声の特徴量とを照合することによって前記発話音声を認識する認識手段と、
を備え、
前記発話された発話音声の特徴量を認識すべきキーワードと当該キーワードを構成しない不要語とに識別することによって音声認識を行う場合に、前記格納手段に前記キーワードの音声特徴量データおよび前記不要語の音声特徴量データが格納されているとともに、前記分類手段が、前記キーワードおよび不要語の音声特徴量データの種別毎に、予め設定された規則に基づいて、当該音声特徴量データを複数のデータ群に分類することを特徴とする音声認識装置。
請求項１に記載の音声認識装置において、
前記抽出手段が、前記分類された各データ群毎に、前記データ群特徴量データとして前記各データ群における重心ベクトルのベクトルデータを抽出することを特徴とする音声認識装置。
請求項１または２に記載の音声認識装置において、
前記生成手段が、
前記各音声特徴量データと当該各音声特徴量データが属するデータ群における前記データ群特徴量データとの差異を示す差分特徴量を算出する第１算出手段と、
前記取得された各データ群特徴量データに前記環境データを、それぞれ、重畳して発話環境に適応したデータ群特徴量データである適応データ群特徴量データを算出する第２算出手段と、
前記算出された各音声特徴量データにおける差分特徴量および前記属性データと前記算出された各適応データ群特徴量データに基づいて前記発話音声の特徴量と照合する際に用いられる前記音声特徴量データを生成する音声特徴量データ生成手段と、
を有することを特徴とする音声認識装置。
請求項３に記載の音声認識装置において、
前記第１算出手段および抽出手段の少なくとも何れか一方が、前記データ群特徴量データまたは前記差分特徴量を予め算出することを特徴とする音声認識装置。
請求項３または４に記載の音声認識装置であって、
前記抽出手段が前記データ群特徴量データとして前記各データ群における重心ベクトルのベクトルデータを抽出する場合に、
前記第１算出手段が、前記差分特徴量として、前記各音声特徴量データと当該各音声特徴量データが属するデータ群における前記データ群特徴量データとの差分ベクトルのベクトルデータを算出することを特徴とする音声認識装置。
請求項１乃至５の何れか一項に記載の音声認識装置であって、
前記発話音声を分析することによって当該発話音声の音声成分の特徴量である発話音声特徴量を取得する発話音声特徴量取得手段を備えるとともに、
前記認識手段が、
前記発話音声の少なくとも一部の音声区間の取得された前記発話音声特徴量と前記生成された音声特徴量データとを照合し、前記特徴量の特性が類似する割合を示す類似度を算出する類似度算出手段と、
前記算出した類似度に基づいて前記発話音声を認識する発話音声認識手段と、
を有することを特徴とする音声認識装置。
発話された発話音声の音声成分を示す特徴量と予め格納されている発話が予想される音声の音声成分の特徴量を示す音声特徴量データとを照合させることによって当該発話音声を認識する音声認識方法であって、
複数の前記音声特徴量データが予め格納されている格納手段から当該音声特徴量データを取得する音声特徴量データ取得行程と、
音声特徴量データの種別毎に、予め設定された規則に基づいて、当該音声特徴量データを複数のデータ群に分類する分類行程と、
前記分類された各データ群毎に、前記データ群の特徴量を示すデータ群特徴量データを抽出する抽出行程と、
前記発話音声が発せられた環境の状況を示す環境データを取得する環境データ取得行程と、
前記取得された各音声特徴量データ、前記分類された各データ群の属性を示す属性データ、前記取得された各データ群特徴量データ、および、前記環境データに基づいて、前記発話音声の特徴量と照合する際に用いられる前記音声特徴量データを生成する生成行程と、
前記生成された各音声特徴量データと前記発話音声の特徴量とを照合することによって前記発話音声を認識する認識行程と、
を含み、
前記発話された発話音声の特徴量を認識すべきキーワードと当該キーワードを構成しない不要語とに識別することによって音声認識を行う場合に、前記格納手段に前記キーワードの音声特徴量データおよび前記不要語の音声特徴量データが格納されているとともに、前記分類工程では、前記キーワードおよび不要語の音声特徴量データの種別毎に、予め設定された規則に基づいて、当該音声特徴量データを複数のデータ群に分類することを特徴とする音声認識方法。
コンピュータによって、発話された発話音声の音声成分を示す特徴量と予め格納されている発話が予想される音声の音声成分の特徴量を示す音声特徴量データとを照合させることによって当該発話音声を認識する音声認識プログラムであって、
前記コンピュータを、
複数の前記音声特徴量データが予め格納されている格納手段から当該音声特徴量データを取得する音声特徴量データ取得手段、
音声特徴量データの種別毎に、予め設定された規則に基づいて、当該音声特徴量データを複数のデータ群に分類する分類手段、
前記分類された各データ群毎に、前記データ群の特徴量を示すデータ群特徴量データを抽出する抽出手段、
前記発話音声が発せられた環境の状況を示す環境データを取得する環境データ取得手段、
前記取得された各音声特徴量データ、前記分類された各データ群の属性を示す属性データ、前記取得された各データ群特徴量データ、および、前記環境データに基づいて、前記発話音声の特徴量と照合する際に用いられる前記音声特徴量データを生成する生成手段、
前記生成された各音声特徴量データと前記発話音声の特徴量とを照合することによって前記発話音声を認識する認識手段、
として機能させる音声認識プログラムであって、
前記発話された発話音声の特徴量を認識すべきキーワードと当該キーワードを構成しない不要語とに識別することによって音声認識を行う場合に、前記格納手段に前記キーワードの音声特徴量データおよび前記不要語の音声特徴量データが格納されているとともに、前記分類手段が、前記キーワードおよび不要語の音声特徴量データの種別毎に、予め設定された規則に基づいて、当該音声特徴量データを複数のデータ群に分類することを特徴とする音声認識プログラム。
請求項８に記載の音声認識プログラムをコンピュータに読み取り可能に記録したことを特徴とする記録媒体。