JP4433704B2

JP4433704B2 - 音声認識装置および音声認識用プログラム

Info

Publication number: JP4433704B2
Application number: JP2003185469A
Authority: JP
Inventors: 大介斎藤
Original assignee: Nissan Motor Co Ltd
Current assignee: Nissan Motor Co Ltd
Priority date: 2003-06-27
Filing date: 2003-06-27
Publication date: 2010-03-17
Anticipated expiration: 2023-06-27
Also published as: JP2005017932A

Description

【０００１】
【技術分野】
本発明は、音声認識装置に関し、特に、認識対象となる発話音声の終端を高い精度で判断する音声認識装置および音声認識用プログラムに関する。
【０００２】
【背景技術】
音声認識の手法として、小語彙の単語を単独で認識する孤立単語音声認識手法や、記述文法に従う単語の組合せを認識できる連続単語音声認識手法、自然言語処理を考慮した大語彙連続音声認識手法などが提案されている。
【０００３】
いずれの手法においても音声を正確に認識するためには、連続する単語間に生じる「各単語の区切り」及び発話の終了時に生じる「発話終了の区切り」を正確に検出することが重要である。
【０００４】
【従来の技術】
従来は、「各単語の区切り」と「発話終了の区切り」とを区別して検出するために所定時間長の「閾値」を設定し、この設定された閾値と検出されたポーズ時間とを比較して、発話に含まれた無音区間が「各単語の区切り」または「発話終了の区切り」のどちらであるかを判断する手法が用いられていた。たとえば、特許文献１には、単語を構成する音素の配列情報、各音素の強度情報、及び各音素の継続時間情報に基づいて閾値を定め、当該閾値未満の音素の継続時間長に応じて音声区間を検出する手法が記載されている。
【０００５】
「各単語の区切り」と「発話終了の区切り」とを区別する閾値は、長めに設定するのが一般的である。なぜなら、この閾値が短すぎると、「各単語の区切り」として検出されるべき無音区間が誤って「発話終了の区切り」として検出されてしまい、発話の待ち受けモードが解除され、続いて発話された単語を認識せずに、誤った認識結果を出力してしまう場合があるからである。また、発話中に含まれる「各単語の区切り」の時間長は一律ではないため、これらのバラツキを考慮する必要もある。
【０００６】
しかしながら、「各単語の区切り」と「発話終了の区切り」とを検出するための「閾値」が長すぎると、「発話終了の区切り」の検出を行うのに余分な時間がかかり、音声認識処理が遅くなるという不都合があった。また、「発話終了の区切り」を検出するための閾値が長すぎると、実際には発話が終了しているにもかかわらず発話を待ち受けてしまい、発話以外の音を発話音声として認識し、誤った認識結果を出力してしまうという不都合があった。特に、高ノイズの環境下においては、発話の終端部にノイズが含まれる可能性が高くなるため、正確な音声認識処理ができないという不都合があった。
【０００７】
【特許文献１】
特開２００２−３２０９４号公報
【０００８】
【発明の開示】
本発明は、ユーザの発話の終了を高い精度で検出することを目的とする。
【０００９】
この発明によれば、ユーザから発話入力される連続した単語を含む音声データを取得する音声データ取得手段と、前記取得した音声データを認識する音声認識手段とを有し、前記音声認識手段は、予め時間長が設定された発話終了ポーズ時間以上の無音区間を検出した場合に前記ユーザの発話入力の終了を検出する機能を少なくとも備えた音声区間検出部と、前記ユーザから入力される発話の終端を検出する精度に応じて前記発話終了ポーズ時間を決定する発話終了ポーズ時間演算部とを有する音声認識装置を提供することができる。
【００１０】
これにより、ユーザの発話の終端を検出する精度に応じて、「発話終了の区切り」を高い精度で区別する音声認識装置または音声認識用プログラムを提供することができる。
【００１１】
【発明の実施の形態】
本発明は、ユーザから発話入力される連続した単語を含む音声データに、予め時間長が設定された発話終了ポーズ時間以上の無音区間を検出した場合に前記ユーザの発話入力の終了を検出し、音声認識処理を行う装置に係り、「発話入力の終端を検出する精度」に応じて、発話の終了を検出する基準となる「発話終了ポーズ時間」を決定することを特徴とする。
【００１２】
この「発話入力の終端を検出する精度」とは、ユーザの発話完了の検出の難易度、すなわち、発話完了を認識する場合の確からしさであり、「発話終端検出精度情報」から推測される。
【００１３】
「発話終端検出精度情報」は、発話入力の終端を検出する精度に影響を与える因子であり、発話者側に起因する発話終端検出精度情報と、発話された音声を取得する音声認識装置側に起因する発話終端検出精度情報とを少なくとも含む。発話者側に起因する発話終端検出精度情報としては、発話者の発話の連続性または発話の連続性に影響を与える要因に関係する情報を用いることが好ましい。たとえば、発話者が円滑に発話している場合には発話が連続し、発話の連続性が保たれることから、発話の円滑性に寄与する要因を定量的に示す情報（たとえば第１〜第７実施形態における円滑要因情報）を発話終端検出精度情報として用いることが好ましい。
【００１４】
他方、音声認識装置側に起因する発話終端検出精度情報としては、発話された音声データの取得時の音環境に影響を与える要因に関係する情報を用いることが好ましい。たとえば、音声信号取得時の音環境が何らかの要因によって音声データの取得に好適となる場合、または何らかの要因によって音声データの取得に不適となる場合において、そのような音声データ取得時の音環境に寄与する要因を定量的に示す情報（たとえば第８〜第９実施形態における音声信号取得環境情報）を発話終端検出精度情報として用いることが好ましい。
【００１５】
以下、第１実施形態から第７実施形態では、ユーザの発話の円滑性に寄与する「円滑要因情報」を「発話終端検出精度情報」として用いることにより、発話終了ポーズ時間を決定する例を説明する。また、第８実施形態および第９実施形態では、音声データを取得する際の音環境に寄与する「音声信号取得環境情報」を「発話終端検出精度情報」として用いることにより発話終了ポーズ時間を決定する例を説明する。さらに、第１０実施形態では、「円滑要因情報」及び「音声信号取得環境情報」を「発話終端検出精度情報」として用いることにより、発話終了ポーズ時間を決定する例を説明する。
【００１６】
＜第１実施形態＞
第１実施形態は、本発明の基本的な実施形態である。以下、第１実施形態を図面に基づいて説明する。
図１に示す本実施形態の音声認識装置１００は、入力装置２００を介して入力された音声その他の入力信号を取得する音声データ取得手段１と、音声データ取得手段１が取得した音声データを認識する音声認識手段２と、音声認識手段２の認識結果を外部装置４００へ向けて出力する出力手段３とを有している。具体的には、少なくとも、音声データを認識するプログラム、発話終了ポーズ時間を制御するプログラムを格納したＲＯＭと、このＲＯＭに格納されたプログラムを実行することで、音声認識手段２として機能するＣＰＵと、情報を記憶し記憶装置３００として機能するＲＡＭとを備えている。
【００１７】
音声認識装置１００の各構成について、図１を用いて説明する。
音声データ取得手段１は、入力装置２００を介してユーザからの入力信号を取得する。入力装置２００は、ユーザが発話入力した音声データを受け付けるマイクロフォンを少なくとも有し、マイクロフォンに入力された音声データは、音声データ取得手段１のＡ／Ｄ変換部によりディジタル信号に変換される。音声データ取得手段１が取得する入力信号には、音声データ、音声入力の開始又は終了の信号、訂正命令の入力信号、騒音マイクにより収音した騒音に関するデータなどが少なくとも含まれる。また、音声データ取得手段１は、連続した単語を含む音声データを取得する。連続した単語を含む音声データには、単語が連続する「神奈川県横須賀市」といった発話音声や、単語間に間投詞「の」、「が」、「で」等を挿入できる「神奈川県の横須賀市」といった発話音声が含まれる。
【００１８】
音声認識手段２は、連続した単語を含む音声データを認識し、少なくとも音声区間検出部２１と、特徴分析処理部２３と、照合処理部２４と、発話ポーズ時間演算部２５とを有している。
【００１９】
音声区間検出部２１は、音声データから認識の単位となる単位音声データの始端と終端とを検出し、認識対象となる音声データを有音の音声区間として切り出す。
【００２０】
図２にユーザが発話した音声データの一例を示す。この音声データは、音声入力が開始されるまでの無音区間、発話された単語に対応する有音区間、次に発話された単語との間に形成された無音区間、同様に有音区間と無音区間とが繰り返され、最後に発話された単語に対応する有音区間、その後、発話終了後の無音区間を含んでいる。
【００２１】
音声区間検出部２１は、この音声データから、少なくとも有音区間を切り出す。音声区間の始端と終端は任意に定義することができる。本実施形態の有音区間は、発話された単語に対応する音声データとこの音声データに続く無音区間とを含む。有音区間の始端は、音声データのパワーが所定の閾値以上となったタイミング、または音声入力スイッチ２００が押されたタイミングとすることが好ましい。有音区間の終端は、音声データのパワーが所定の時間よりも長く閾値を下回ったタイミングとすることが好ましい。
【００２２】
本形態の音声区間検出部２１は、取得した音声データを、所定時間長毎の時系列信号として蓄えることが可能なバッファを含んで構成され、入力された音声データをバッファに取得し、入力音声データのパワー値と、予め定めた閾値（ＳＮ比によって制御された閾値を含む）と、入力された音声データのパワー値とを比較する。
【００２３】
また、音声区間検出部２１は、ユーザの発話入力の終了を検出する発話終了検出機能２１１を少なくとも備えている。発話終了検出機能２１１は、予め時間長が設定された「発話終了ポーズ時間２１２」以上の無音区間を検出した場合に、ユーザの発話入力の終了を検出する。この「発話終了ポーズ時間２１２」は予め記憶されていてもよいし、任意のタイミングで算出してもよい。
【００２４】
図３は、「神奈川県横須賀市夏島町」と連続発話をした場合の音声データを示す。図中のアルファベットは音素記号を表し、SilBは発話開始直前のポーズ、SilEは発話終了後のポーズ、ＳＰ１〜ＳＰ４は単語間のポーズの時間長を表す。発話Ａは、ユーザが円滑に発話していない場合（円滑性が低い場合）、発話Ｂはユーザが円滑に発話した場合（円滑度が高い場合）を表している。
【００２５】
図４では、図３で示した各ポーズ区間の時間長を比較した。初期設定時において発話終了ポーズ時間は、ＳＰ１〜ＳＰ４のうち最長であるＳＰ２よりも長い時間であることが好ましい。単語間の無音区間であるＳＰ４を発話終了後の無音区間として検出してしまうからである。
【００２６】
発話終了ポーズ時間２１２の初期設定について説明する。発話終了ポーズ時間は、単語間に形成される無音区間と発話終了時に形成される無音区間の中から、発話終了時に形成される無音区間を検出できるように設定される。発話終了時に形成される無音区間の時間は、単語間に形成される無音区間の時間よりも長い傾向があるため、単語間の無音区間の時間長以上、発話終了時の無音区間の時間長以下であることが好ましい。本実施形態では、ＳＰ２＋αの時間長を発話終了ポーズ時間（ＳＰＭＡＸ）として初期設定する。
【００２７】
この「発話終了ポーズ時間」は、発話終了ポーズ時間演算部２５により決定され、発話終了ポーズ時間２１２に初期設定として書き込まれ、または、記憶されている「発話終了ポーズ時間」に書き換えられる。
【００２８】
図５には、初期設定された発話終了ポーズ時間（ＳＰＭＡＸ）を、実際の音声データにあてはめた場合を示した。ユーザの発話が円滑ではなく、長いポーズ時間（ＳＰ２）を発話中に含む発話Ａについては発話終了ポーズ時間の長さは適切である。しかし、ユーザが円滑に発話し、単語間のポーズ時間が短い発話Ｂ（最長のポーズ時間はＳＰ４）については、ＳＰＭＡＸの時間が経過しないと発話終了を検出することができず、発話終了を検出するまでに長い時間を要する。
【００２９】
ところで、ユーザが発話した音声データに含まれるポーズ時間の長さは、ユーザの発話が円滑であるかどうかに応じて変化する傾向がある。すなわち、円滑な発話のポーズ時間は短くなる傾向があり、円滑でない発話のポーズ時間は長くなる傾向がある。本実施形態ではこの発話の特性を考慮して、ユーザの発話の円滑性に応じて「発話終了ポーズ時間」の時間長を決定する。発話の円滑性とは、単語間をスムーズに繋げて発話できたかどうかという観点から発話を評価したものである。単語間のポーズが相対的に短い発話は、円滑性の高い発話と評価できる。逆に、単語間のポーズが相対的に長い発話は、円滑性の高い発話と評価できる。
【００３０】
「発話終了ポーズ時間演算部２５」は、発話の円滑性を考慮して「発話終了ポーズ時間」の時間長を決定し、「円滑要因情報取得部２５３（情報取得部）」と、「円滑度推測部２５４」と、「演算部２５１」とを有している。
【００３１】
「円滑要因情報取得部２５３」は、ユーザの発話の円滑性に寄与する円滑要因情報を取得する。円滑要因情報取得部２５３が取得する「円滑要因情報」は、ユーザの発話に影響を与える因子であれば特に限定されず、例えば、ユーザの運転負荷に関する情報、ユーザの発話命令に基づく動作履歴に関する情報、ユーザの発話命令履歴に関する情報、ユーザ周囲の騒音量に関する情報、ユーザの発話入力の訂正命令に関する情報などを例示することができる。
【００３２】
「円滑度推測部２５４」は、円滑要因情報取得部２５３により取得された円滑要因情報からユーザの発話の円滑度を推測する。本実施形態の円滑度推測部２５２は、円滑要因情報から所定のパラメータを抽出し、予め円滑要因情報のパラメータと円滑度とを対応づけた円滑度判断テーブルを参照し、取得した円滑要因情報に基づいて円滑度を推測する。
【００３３】
具体的な円滑度の推測手法例を以下に列挙する。
１．ユーザの運転負荷が高い場合には、ユーザが発話に集中できず、発話の円滑性は低下する傾向があるという関係から運転負荷の高さに応じて円滑度を推測する。
【００３４】
２．ある動作が過去に何度も実行されている場合には、ユーザはその動作に慣れていて、発話の円滑性は向上する傾向があるという関係から動作頻度に基づいて円滑度を推測する。
【００３５】
３．ユーザが過去に何度も発話したことのある命令であれば、ユーザは明瞭に発話することができ、発話の円滑性は向上する傾向があるという関係から命令頻度に基づいて円滑度を推測する。
【００３６】
４．周囲の騒音が激しい場合には、ユーザは大きい声ではっきりと発話し、発話の円滑性が高くなる傾向があるという関係から騒音量に基づいて円滑度を推測する。
【００３７】
５．訂正入力時にはユーザは意識的に大きい声ではっきりと発話し、発話の円滑性が高くなる傾向があるので、訂正入力の有無に基づいて円滑度を推測する。
「演算部２５１」は、ユーザの発話が円滑である場合には音声データ中のポーズ時間が短くなり、ユーザの発話が円滑でない場合には音声データ中のポーズ時間が長くなる傾向を踏まえて、推測された円滑度に応じて発話終了ポーズ時間を決定する。
【００３８】
本実施形態の演算部２５１は、円滑度推測部２５２の推測した円滑度が高い場合には、発話終了ポーズ時間を相対的に短く決定し、円滑度推測部２５２の推測した円滑度が低い場合には、発話終了ポーズ時間を相対的に長く決定する。発話終了ポーズ時間の時間長の制御手法は特に限定されないが、本実施形態では、基準となる標準発話終了ポーズ時間を設定し、円滑度に応じて標準発話終了ポーズ時間を相対的に延長又は短縮する手法を用いる。延長の程度または短縮の程度は、予め円滑度に対応づけておくことが好ましい。
【００３９】
発話終了ポーズ時間演算部２５が決定した発話終了ポーズ時間を参照して検出された音声区間に含まれる音声データは、特徴分析処理部２３へ送出される。
【００４０】
「特徴分析処理部２３」は、取得した音声データから音素の音響的な特徴パラメータを抽出する。さらに、抽出した特徴パラメータの時系列ベクトルデータに変換し、変換した時系列ベクトルデータを照合処理部２４に送出する。特徴分析処理の手法は特に限定されず、線形予測分析（ＬＰＣ：Linear Predictive Coding）などの公知の手法を用いることができる。また、ＬＰＣケプストラム、ＬＰＣデルタケプストラム、メルケプストラム、対数パワーその他の特徴パラメータを用いることができる。
【００４１】
「照合処理部２４」は、音響モデル３０１、言語モデル３０２に基づいて、変換された時系列ベクトルデータを評価する。具体的には、言語モデル３０２上に存在する単語(単語辞書上の単語)に対応した音響モデル３０１と、入力された音声データの特徴パラメータとを照合し、言語モデルにて生成された仮説に対し、音響的な尤もらしさ(音響尤度)を求める。音響尤度が最も高いと判定された仮説を認識結果として出力手段３へ向けて出力する。音響モデル３０１、言語モデル３０２は、照合処理部２４が備えていてもよいし、アクセス可能な記憶装置３００に格納しておいてもよい。音響モデル３０１は、単語列の音響特徴を記述する統計的モデルであって、前後につながる音韻の種類を考慮したスペクトル特性の時系列変化を記述したデータである。用いる音響モデル３０１は、特に限定されず、隠れマルコフモデル(ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｄｅｌ：ＨＭＭ)などを用いることができる。言語モデル３０２は、単語群と各単語の音素の並びが格納されたリストデータ及び、該単語群の結合関係を表す単語ネットワークを記述したデータを有している。単語ネットワークとは、音声認識装置が認識可能な単語間のつながりを記憶した辞書であり、連続音声認識における言語モデルの表現手法である。例えば、地名に関する単語ネットワークの一例を図６に示した。
【００４２】
「出力手段３」は、照合処理部２４から送出された認識結果に応じて外部装置４００に対する制御命令を出力する。
【００４３】
以上、図１に示した音声認識装置１００の基本的な動作を説明する。図７は、音声認識装置１００の基本動作制御処理のフローチャート図である。
【００４４】
まず、円滑要因情報取得部２５３は、ユーザの発話の円滑性に影響を与える円滑要因情報を取得する（１０２）。円滑度推測部２５２は、取得した円滑要因情報に基づいて円滑度を推測する（１０３）。この推測は、予め円滑要因情報と円滑度とを対応づけた円滑度判断テーブルを参照して行う。円滑度推測部２５２は、円滑要因情報から抽出した所定のパラメータ値に応じた定量的な円滑度を推測する。
【００４５】
演算部２５１は、推測した円滑度に応じて発話終了ポーズ時間を決定する（１０４）。演算部２５１は、決定した発話終了ポーズ時間を音声区間検出部２１に向けて送出し、発話終了ポーズ時間を書き込み（設定）または更新する。なお、この発話終了ポーズ時間の決定処理は、音声データの入力があった場合にのみ実行させてもよい。
【００４６】
次に、認識処理（１１０〜１２５）が行われる。まず、音声データ取得手段１は、入力装置２００を介して、ユーザが発話した音声データを取得する（１１０）。音声区間検出部２１は音声データ中の音声パワーを取得する（１１１）。取得した音声パワーが所定の閾値よりも大きくなったタイミングを（１１２）検出し、そのポイントを音声区間の始端と決定する（１１３）。他方、音声パワーが所定の閾値よりも小さい場合には、音声データからの音声パワーの抽出を継続する（１１２、１１１）。音声パワーの閾値とは、本装置が使用される環境下での背景雑音(騒音)の混入を考慮しても音声区間を適切に切り出すことができるように予め定めた値である。音声区間の切り出し手法は、これに限定されず、音声パワーが閾値を上回った時点から、所定時間だけ遡った時点を音声区間の始端としてもよい。音声区間の始端となる先頭音素が閾値未満となり、発話途中の音素を音声区間の始端と判断された場合に有効である。また、入力手段２００の発話入力スイッチのＯＮ情報に基づいて判断してもよい。
【００４７】
音声区間の始端が決定されたタイミングで（１１３）、音声データ中の無音区間の時間長を計測するポーズタイマーを初期化し（１１４）、閾値よりも小さい音声パワーを検出するまで、音声データをバッフアリングし（１１５）、音声パワーの取得を継続する（１１６）。所定の閾値よりも小さい音声パワーを取得した場合、無音区間が開始したものと判断して、発話終了ポーズ時間を取得し（１１８）、ポーズタイマーのカウントアップを行う（１１９）。
【００４８】
発話終了検出機能２１１は、ポーズタイマーが計測した「無音区間の時間長」と、取得した「発話終了ポーズ時間２１２」とを比較する。「無音区間の時間長」が「発話終了ポーズ時間」よりも短い場合には（１２０）、ステップ１１５〜ステップ１１９を繰り返す。他方、「無音区間の時間長」が「発話終了ポーズ時間」よりも長い場合には（１２０）、無音区間の終端を音声区間の終端として決定する（１２１）。バッファリングされていた音声区間の音声データを、特徴分析処理部２３、照合処理部２４に向けて送出する（１２２）。音声認識手段２は音声認識処理を行う（１２３）。認識成功と判断された場合（１２３）、認識結果は出力手段３を介して外部装置４００へ向けて送出される（１２５）。一方、認識不成功と判断された場合（１２３）、認識不成功の告知処理、再度の発話入力の要求処理を行う（１２６）。
【００４９】
以上のように構成され、動作する第１実施形態は以下の効果を奏する。
【００５０】
ユーザの発話の状況に応じて、適当な「発話終了ポーズ時間」を決定し、円滑に発話するユーザには迅速な音声認識処理を行い、円滑に発話できないユーザにはユーザのテンポに合った音声認識処理を行うことができる。
【００５１】
すなわち、単語間のポーズと発話終了時のポーズとを区別するための「発話終了ポーズ時間」の時間長を、比較的に長い画一的な時間とせずに、ユーザの発話の円滑性に応じた長さにするため、認識処理の正確性を担保しつつ、円滑に発話するユーザには迅速な音声認識処理を提供することができる。ユーザ側からすると、円滑に発話しているにもかかわらず、音声認識処理が遅いために発話のテンポが乱されるといった不具合や、発話に集中できず沈黙してしまった場合、発話終了と誤認識されてしまうといった不具合がなくなる。
【００５２】
本実施形態では、ユーザの発話の円滑性に応じて「発話終了ポーズ時間」の時間長を必要最低限に短くすることができるため、待ち受ける音声データの終端にノイズが含まれることを防ぐことができる。
【００５３】
本実施形態では、ユーザの「発話の円滑性」という個人的な状況を、「円滑要因情報」という客観的な情報から、「円滑度」という定量的な値として導くため、決定された「発話終了ポーズ時間」は、発話するユーザの状況を正確に反映したものとなる。
【００５４】
本実施形態では、推測した円滑度が高い場合には、「発話終了ポーズ時間」を短く決定し、円滑度が低い場合には「発話終了ポーズ時間」を長く設定する。これにより、円滑度が高いと発話全体の無音区間（ポーズ時間）が短縮され、円滑度が低いと発話全体の無音区間（ポーズ時間）が長くなるという傾向に応じて、「発話終了ポーズ時間」を決定することができる。たとえば、ユーザが円滑な発話をしている場合には、「発話終了ポーズ時間」を短くすることにより、発話終了を検出するまでの時間を短縮し、ユーザへのレスポンスを高めることができる。一方、ユーザが円滑な発話ができない場合には、「発話終了ポーズ時間」を長くすることにより、長くなりがちな単語間の無音区間を誤って発話終了の無音区間と判断することを防ぐことができる。その結果、ユーザの発話の円滑度に応じてレスポンスを高めるとともに、データ終端にノイズが含まれることによる誤認識を防止することができ、高い精度で発話の終端を認識することができる。
【００５５】
以上説明した第１実施形態は、本発明に係る音声認識装置１００の基本的な実施態様である。以下には、発話終了ポーズ時間演算部２５において取得される円滑要因情報が異なる第２〜第８実施形態を説明する。第２〜第８実施形態の音声認識装置１００は車両に搭載されている。基本的な構成および制御手順は第１実施形態と共通する。ここでは、異なる部分を中心に説明する。
【００５６】
＜第２実施形態＞
第２実施形態に係る音声認識装置１００のブロック構成を図８に示した。図８に示すように、第２の実施形態に係る音声認識装置１００は、図１に示した第１実施形態の音声認識装置１００の主要な構成を有している。更に、本実施形態は「運転負荷判定手段５１」とを有している。また、円滑要因情報取得部２５３は、少なくとも「運転負荷情報取得機能」を有している。
【００５７】
「運転負荷判定手段５１」は、外部の車速センサ、ステアリング舵角センサその他の車両情報検出装置５００から、車速情報、ステアリング舵角情報その他の車両情報を取得する。車速センサ、ステアリング舵角センサは、それぞれ、車速、ステアリングの操舵角度を時々刻々検出するものであり、車両一般に搭載されているものを利用することができる。また、「運転負荷判定手段５１」は、取得した車両情報に基づいて、予め対応づけた車両情報と運転負荷との関係を参照して、運転負荷を算出する。運転負荷とは、車両運転者の運転能力に対して要求される運転能力（運転操作）の比率である。本実施形態では、車両の運転速度、ステアリング操作等の車両の操作に基づいて運転負荷を定量的な値として算出する。行うべき操作が多ければ高い運転負荷を算出する。また、運転速度が高い場合には高い運転負荷を算出し、ステアリングの舵角変化量が高い場合には高い運転負荷を算出する。運転負荷を求める手法は特に限定されず、例えば、特開平１１−２２７４９１号公報に記載された手法によって検出された指標に基づいて決定する手法、ペダル、ミッション、ハンドルその他の運転操作の操作頻度に基づいて決定する手法、位置情報システムから取得可能な、位置、道路種別（高速道路、幹線、市街地等）、道の複雑さ、道路幅、混雑度その他の道路情報に基づいて決定する手法などを採用することができる。
【００５８】
「運転負荷情報取得機能」は、運転負荷を円滑要因情報として取得する。円滑要因情報が運転負荷であることを除き、本実施形態の発話ポーズ時間演算部２５は、第１実施形態の発話終了ポーズ演算部２５と同様に発話ポーズ時間決定処理を行う。すなわち、円滑要因情報取得部２５３は、運転負荷情報を円滑要因情報として取得し、円滑度推測部２５２は、予め対応づけた運転負荷と円滑度との対応関係に基づいて、取得した運転負荷情報から円滑度を推測する。
【００５９】
本実施形態の円滑度推測部２５２は、運転負荷が高い場合には低い円滑度を推測し、運転負荷が低い場合には高い円滑度を推測する。
【００６０】
「演算部２５１」は、円滑度推測部２５２により推測された円滑度に基づいて、「円滑度」と「発話終了ポーズ時間」との対応関係を参照して発話終了ポーズ時間を決定する。運転負荷が高い場合には円滑度が低いと推測され、発話終了ポーズ時間が長く決定される。他方、運転負荷が低い場合には、円滑度が高いと推測され、発話終了ポーズ時間が短く決定される。
【００６１】
なお、「車両情報と運転負荷との対応関係」、「運転負荷と円滑度との対応関係」、「円滑度と発話終了ポーズ時間との対応関係」、「運転負荷と発話終了ポーズ時間との対応関係」、その他の本明細書中の「対応関係」は、後に説明する第１０実施形態に示すようなテーブルの形態でもよいし、数式で示される相関関係であってもよい。たとえば、運転負荷の増減と発話終了ポーズ時間の増減との間にある相関関係より、運転負荷をＴＡＳＫ、発話終了ポーズ時間ＳＰmaxとし、（式）ＳＰmax = k * ＴＡＳＫにより相関関係を示すことができる。この式における「ｋ」は実験的に求めた定数又は変数である。
【００６２】
ちなみに、発話終了ポーズ時間演算部２５は、運転負荷から推測される円滑度を考慮したうえで、「運転負荷情報」と「発話終了ポーズ時間」とを直接対応づけ、この対応関係を参照して、運転負荷に基づいて発話終了ポーズ時間を決定してもよい。
【００６３】
第２実施形態における円滑度推測処理手順を図９のフローチャートに示した。
【００６４】
運転負荷判定手段５１は、車速を車速センサ（車両情報検出装置５００）から、ステアリングの舵角をステアリンク蛇角センサ（車両情報検出装置５００）からそれぞれ取得し（９０２）、取得した車速、ステアリング舵角から運転負荷を判定する（９０３）。
【００６５】
円滑要因情報取得部２５３の運転負荷情報取得機能は、運転負荷判定手段５１から運転負荷情報を取得する（９０４）。運転負荷は円滑度推測部２５２に送出される。円滑度推測部２５２は、予め対応づけられた運転負荷と円滑度との対応関係を参照する（９０８）。円滑度推測部２５２は、この対応関係を参照して運転負荷から円滑度を推測する（９０９）。推測した円滑度を演算部２５１に送出する。演算部２５１は、予め対応づけられた円滑度と発話終了ポーズ時間との対応関係を参照する（９１０）。この対応関係を参照して、発話終了ポーズ時間を決定する（９０６）。決定された発話終了ポーズ時間は、音声区間検出部２１の発話終了ポーズ時間２１２に書き込まれる。
【００６６】
ステップ９０４からステップ９０５へ向かうフローは、「運転負荷情報」から直接「発話終了ポーズ時間」を求める手法である。運転負荷を取得した発話終了ポーズ時間演算部２５は、予め対応づけられた運転負荷と発話終了ポーズ時間との対応関係を参照する（９０５）。この対応関係を参照して運転負荷に基づく発話終了ポーズ時間を決定する（９０６）。
【００６７】
本実施形態では、運転負荷が高い場合にはユーザが発話に集中できず、発話中の無音区間（ポーズ）の時間が長くなり、運転負荷が低い場合にはユーザが発話に集中でき、発話中の無音区間（ポーズ）の時間が短くなるという傾向に着目し、運転負荷の高低に応じた発話終了ポーズ時間を決定する。
【００６８】
これにより、第１実施形態と同様の効果に加えて、高速での走行中や、カーブの多い道路において、ユーザの運転負荷が高いと判定された場合には発話終了ポーズ時間が長く決定されるため、ユーザの発話が途切れがちで発話中の無音区間（ポーズ）が長くなったとしても、単語間の無音区間を発話終了の無音区間と誤って判断することを防止することができる。逆に、車両が停車中（車速ゼロ）で、運転負荷が低いと判定された場合には、発話終了ポーズ時間が短く決定されるため、単語間の無音区間と発話終了の無音区間とを適切に判断することができる。
【００６９】
＜第３実施形態＞
次に第３実施形態について説明する。この実施形態は、ユーザが発話入力において入力した訂正命令の頻度（または回数）に関する情報を円滑要因情報として利用する。この訂正命令は、ユーザによって発話入力された音声が誤認識された場合に、再度発話入力を受け付けるように求める命令である。訂正命令後の再度の入力においては、ユーザは明瞭に発話しようと務め、結果として発話の円滑性が向上する傾向があることを利用するものである。
【００７０】
第３実施形態に係る音声認識装置１００のブロック構成を図１０に示した。図１０に示すように、第３の実施形態に係る音声認識装置は、図１に示した第１実施形態の音声認識装置１００の主要な構成を有している。更に、本実施形態の円滑要因情報取得部２５３は、訂正スイッチ２０２から入力された訂正命令を取得する「訂正命令取得得機能」を有している。
【００７１】
円滑要因情報が訂正命令に関する情報であることを除き、本実施形態の発話ポーズ時間演算部２５は、第１実施形態の発話終了ポーズ演算部２５と同様に、発話ポーズ時間決定処理を行う。すなわち、円滑要因情報取得部２５３は、訂正命令を円滑要因情報として取得し、円滑度推測部２５２は、予め対応づけた訂正命令の有無又は訂正命令の回数と円滑度との対応関係に基づいて、取得した訂正命令情報から円滑度を推測する。
【００７２】
本実施形態の円滑度推測部２５２は、訂正命令が入力された場合、円滑度を高く推測し、訂正命令が入力されない場合、発話の円滑度には変更がないと推測する。演算部２５１は発話の円滑度が高いと推測された場合には、所定時間だけ長い発話終了ポーズ時間を決定し、円滑度に変化がないと推測された場合には、予め設定された発話終了ポーズ時間を更新しない。
【００７３】
第３実施形態における円滑度推測処理手順を図１１のフローチャートに示した。
【００７４】
円滑要因情報取得部２５３が、円滑要因情報としての訂正命令を取得した場合（１１０２）、円滑度推測部２５２は、訂正命令の頻度（回数）と円滑度との対応関係を参照する（１１０３）。円滑度推測部２５２は、この対応関係を参照して、訂正命令入力の有無から円滑度を推測する（１１０４）。演算部２５１は、円滑度と発話終了ポーズ時間との対応関係を参照する（１１０５）。演算部２５１はこの対応関係を参照して、円滑度から発話終了ポーズ時間を決定する（１１０６）。決定された発話終了ポーズ時間を音声区間検出部２１に送出し、設定または記憶させる（１１０７）。
【００７５】
本実施形態では、訂正命令が入力された場合にはユーザの発話中の無音区間（ポーズ）の時間が短くなるという傾向に着目し、訂正命令の有無、訂正命令の頻度（回数）に応じて発話終了ポーズ時間を決定する。
【００７６】
これにより、第１実施形態と同様の効果に加えて、訂正命令が入力された場合に、発話終了ポーズ時間が短く決定されるため、単語間の無音区間と発話終了の無音区間とを適切に判断することができる。
【００７７】
＜第４実施形態＞
次に第４実施形態について説明する。この実施形態は、発話入力するユーザの周囲の騒音量に関する情報を円滑要因情報として利用する。発話入力をしようとするユーザは周囲が騒がしい（騒音量が大きい）場合には、ユーザは円滑に発話する傾向があることを利用するものである
第４実施形態に係る音声認識装置１００のブロック構成を図１２に示した。図１２に示すように、第４の実施形態に係る音声認識装置は、図１に示した第１実施形態の音声認識装置１００の主要な構成を有している。更に、本実施形態の円滑要因情報取得部２５３は、少なくとも「騒音情報取得機能」を有している。「騒音情報取得機能」は、騒音マイク２０２が収音した騒音に関する騒音情報を取得する。騒音情報には、少なくとも騒音量の大きさを示す情報が含まれている。騒音量は、騒音マイク２０２が常時収音した騒音量の平均値であってもよいし、発話開始直前の騒音量であってもよい。
【００７８】
「騒音情報取得機能」は、騒音量に関する情報を円滑要因情報として取得する。円滑要因情報が騒音量に関する情報であることを除き、本実施形態の発話ポーズ時間演算部２５は、第１実施形態の発話終了ポーズ演算部２５と同様に発話ポーズ時間決定処理を行う。すなわち、円滑要因情報取得部２５３は、騒音量に関する情報を円滑要因情報として取得し、円滑度推測部２５２は、予め対応づけた騒音量と円滑度との対応関係に基づいて、取得した騒音量から円滑度を推測する。
【００７９】
本実施形態では、原則として、騒音量が大きい場合には発話の円滑度が高くなると推測し、騒音量が小さい場合には発話の円滑度が低くなると推測する。演算部２５１は、発話の円滑度が高いと推測された場合に発話終了ポーズ時間を長くし、円滑度が低いと推測された場合に発話終了ポーズ時間を短くする。よって、騒音量が大きい場合、演算部２５１は、所定時間だけ長い発話終了ポーズ時間を決定し、騒音量が小さい場合、演算部２５１は、所定時間だけ短い発話終了ポーズ時間を決定する。
【００８０】
高騒音下では音声認識がされにくいという経験をもっているユーザが円滑に発話する傾向を利用することにより、このような環境下において発話の終端部分に含まれてしまうノイズによる認識率の低下を抑制し、かつ音声認識処理のレスポンスを向上させることができる。
【００８１】
第４実施形態における円滑度推測処理手順を図１３のフローチャートに示した。
円滑要因情報取得部２５３は円滑要因情報としての騒音量の大きさに関する情報を取得する（１３０２）。円滑度推測部２５２は、騒音量と円滑度との対応関係を参照する（１３０３）。円滑度推測部２５２は、この対応関係を参照して、騒音量から円滑度を推測する（１３０４）。演算部２５１は、円滑度と発話終了ポーズ時間との対応関係を参照する（１３０５）。演算部２５１はこの対応関係を参照して、円滑度から発話終了ポーズ時間を決定する（１３０６）。決定した発話終了ポーズ時間を設定または記憶する（１３０７）。
【００８２】
本実施形態では、騒音量が大きい場合にはユーザが明瞭に発話しようとして、発話が円滑になり、発話中の無音区間（ポーズ）の時間が短くなるという傾向に着目し、騒音量に応じた発話終了ポーズ時間を決定する。
【００８３】
これにより、第１実施形態と同様の効果を奏するとともに、騒音量が高いと判定された場合に発話終了ポーズ時間が短く決定されるため、騒音を意識したユーザの円滑な発話に対し、単語間の無音区間と発話終了の無音区間とを適切に判断することができる。
【００８４】
＜第５実施形態＞
次に第５実施形態について説明する。この実施形態は、過去における車載機器の動作頻度を円滑要因情報として利用する。動作頻度の高い操作に関する命令であれば、ユーザはその動作に必要な手順、コマンド系列および命令言語の単語系列を熟知しており、円滑に発話される傾向があることを利用するものである。
【００８５】
第５実施形態に係る音声認識装置１００のブロック構成を図１４に示した。図１４に示すように、第５の実施形態に係る音声認識装置は、図１に示した第１実施形態の音声認識装置１００の主要な構成を有している。更に、本実施形態の円滑要因情報取得部２５３は「動作頻度情報取得機能」を有し、円滑度推測部２５２は「仮認識結果取得機能２５２１」を有する。
【００８６】
円滑要因情報取得部２５３の「動作頻度情報取得機能」は、動作履歴情報を少なくとも一時的に記憶し、動作履歴から動作頻度を算出し、動作頻度情報を円滑要因情報として取得する。車載装置６００の動作履歴は、音声入力された命令に従う動作履歴のほか、スイッチ入力された命令に従う動作履歴をも含む。外部の車載装置６００は、オーディオ装置、エアーコンディション制御装置、ナビゲーション装置、電話、メールなどの通信装置、その他のユーザが操作して動作させる装置である。
【００８７】
たとえば、ナビゲーション装置についてであれば、「メニュー表示動作」、「目的地設定動作」、「拡大動作」、「縮小操作」、「経路案内操作」、「決定操作」、「検索操作」などの動作が動作履歴として動作履歴記憶部１３１に記憶される。さらに、ナビゲーション装置に対する目的地の設定操作を例にすると、目的地を「神奈川県横須賀市夏島町」と入力した場合、「メニュー」→「目的地」→「住所」→「神奈川県」→「横須賀市」→「夏島町」と順次選択した動作履歴が、動作履歴記憶部１３１に記憶される
動作頻度取得機能は、動作履歴情報から動作頻度を算出する。動作頻度は、ある動作の所定時間あたりの動作回数である。所定時間の間隔は特に限定されず、１ヶ月、３ヶ月という期間であってもよいし、使用開始から現在までの積算回数であってもよい。動作頻度情報取得機能は、算出した動作頻度を円滑要因情報として円滑度推測部２５２に向けて送出する。
【００８８】
円滑度推測部２５２は、予め対応づけた動作頻度と円滑度との対応関係に基づいて、取得した動作頻度から円滑度を推測する。本実施形態では、発話入力された発話命令の対象が、動作頻度の高い動作に関するものであるか否かによって、発話命令をしたユーザの円滑度を推測する。すなわち、発話命令の入力を待って、入力された発話命令が動作頻度の高い動作に関するものであるか否かを判断する。
【００８９】
入力された発話命令の動作対象を先に取得するために、円滑度推測部２５２の「仮認識結果取得機能２５２１」は、照合処理部２４から仮の音声認識結果を取得する。仮の音声認識結果とは、入力された音声データに対して行われる認識処理の途中結果である。たとえば、音声データに含まれるネットワーク文法の全階層中、中間階層までの途中結果（その処理段階で尤度の高いもの）である。上述の例で説明すると、「神奈川県横須賀市夏島町1丁目」という発話入力に対し、「カナガワケン」まで発話した時点では、尤度の高い順に「神奈川県」「香川県」が仮の認識結果である。すなわち、この入力は「神奈川県」または「香川県」に関する動作命令であることを仮に認識することができる。
【００９０】
「円滑度推測部２５２」は、この仮の認識結果の示す動作について、過去の動作履歴を参照し、その動作履歴から求めた動作頻度の高さに応じて円滑度を推測する。具体的には、動作の対象と動作頻度と円滑度とを予め対応づけた対応関係に基づいて、仮認識された動作の動作頻度情報から円滑度を推測する。
【００９１】
本実施形態の円滑度推測部２５２は、仮の認識結果の示す動作が動作頻度の高い動作である場合、円滑度が高いと推測し、仮の認識結果の示す動作が動作頻度の低い動作である場合、円滑度が低いと推測する。これにより、動作頻度が高い動作に関して発話入力があった場合には、ユーザの発話の円滑度が高いと推測され、発話終了ポーズ時間が長く決定される。他方、動作頻度が低い動作に関して発話入力があった場合には、円滑度が低いと推測され、発話終了ポーズ時間が短く決定される。
【００９２】
演算部２５１は、円滑度推測部２５２により推測された円滑度に基づいて、発話終了ポーズ時間を決定する。
【００９３】
第５実施形態における円滑度推測処理手順を図１５のフローチャートを用いて説明する。
【００９４】
発話終了ポーズ時間の決定とは、別のフローにおいて動作履歴頻度の算出が行われる（１５０１〜１５０４）ユーザがナビゲーション装置６００に目的地を入力する場合を例にして説明する。入力装置２００は、ナビゲーション装置６００に対する動作の履歴を蓄積し（１５０１）、記憶する（１５０２）。記憶された動作履歴情報を取得し（１５０３）、動作頻度を算出する（１５０４）。この処理は車載装置側で行ってもよいし、情報取得部２５３の動作頻度情報取得機能において行ってもよい。
【００９５】
発話終了ポーズ時間の決定のフローを説明する。照合処理部２４は、入力された音声データについて認識処理を行い、仮の認識結果を結発話終了ポーズ演算部２５へ向けて送出する（１５１２）。円滑度推測部２５２は、仮の認識結果の尤度を取得し、仮認識結果の尤度が十分に信用できる値の尤度（認識率が９５％以上である仮認識の平均尤度）以上であることを確認する（１５１３）。仮認識結果の尤度が閾値以上である場合は、発話終了ポーズ時間決定へ向けてステップ１５１４へ進む。他方、仮認識結果の尤度が閾値未満である場合は、仮認識結果が信用するに足りないため、発話終了ポーズ時間の設定および更新は行わない。
【００９６】
円滑度推測部２５２は、動作頻度情報を取得する（１５１４）。先に仮認識された発話命令の動作対象が、動作頻度の高い動作であるか否かを判断する（１５１５）。たとえば、「カナガワケン」と仮認識された動作が、過去において高い頻度で行われた動作であるか否かを判断する。具体的な手法としては、動作頻度の高い（閾値以上の動作頻度である）動作を予め識別しておき、この識別された動作と仮認識された動作とを対比し、入力に係る動作が動作頻度の高い動作に該当するか否かを判断する。
【００９７】
入力に係る動作が動作頻度の高い動作に該当する場合には、動作頻度の高さに応じて円滑度を高くする（１７１６）。演算部２５１は、円滑度と発話終了ポーズ時間とを対応づけた対応関係を参照し（１７１７）、円滑度から発話終了ポーズ時間を決定する（１７１８）。発話終了ポーズ時間を設定または更新する（１７１９）。発話終了ポーズ時間の決定処理終了後、入力動作を動作履歴記憶部１３１に記憶する（１７２０）。
【００９８】
ステップ１５１３の判断において、仮認識結果の尤度が閾値未満である場合は、仮認識処理の対象は認識対象となるネットワーク文法の最下層の単語であるか否かを判断する（１５２１）。最下層の単語でない場合には、仮認識処理１５１２を繰り返す。最下層の単語である場合には、発話終了ポーズ時間の変更は行わずにステップ１５２０へ向かう。最下層の単語まで行った認識処理を行ったにもかかわらず、認識結果の尤度が低い場合には、認識処理に何らかの問題があったと考えられ、このような認識処理に基づいて発話終了ポーズ時間を決定することは適当ではないからである。
【００９９】
ちなみに、本実施形態に係る処理は、ネットワーク文法の階層ごとに行うことが好ましい。たとえば、第１階層で十分な尤度が確認でき、かつ動作履歴に含まれる場合、その発話の円滑度は高いものと判断して発話終了ポーズ時間を短縮する。その後、第２階層以降で円滑度が低い（動作履歴の頻度が低い）場合には、一旦短縮された発話終了ポーズ時間を若干延長することが好ましい。例えば、「神奈川県横須賀市」の動作履歴は高いが、「神奈川県横浜市」の動作履歴が低い場合、「神奈川県」と発話入力されたときに発話終了ポーズ時間を延長し、「横浜市」と発話入力されたときに発話終了ポーズ時間を短縮することができる。
【０１００】
なお、ステップ１５２１においては発話開始からｎ番目までの単語（音声区間）であるか否かを判断してもよい。このステップにより、どの深さの階層までを本形態の仮認識結果として利用するかを制御することができる。この手法以外にも、発話開始後から時間で区分した音声データに対する仮認識結果を利用してもよい。
【０１０１】
本実施形態では、過去に動作入力の経験があれば、発話中の無音区間（ポーズ）の時間が短くなる傾向があり、逆に、動作入力の経験が少なければ、発話中の無音区間（ポーズ）の時間が長くなるという傾向があることに着目し、動作履歴の高低に応じて発話終了ポーズ時間を決定する。たとえば、「神奈川県横須賀市…」の入力に係る動作が高い頻度で行われている場合、この地域を含む「神奈川県」の入力に係る動作は、過去に指定したことのない地名（県名）に比べて発話の円滑度が高くなる傾向があるため、発話終了ポーズ時間を短く決定する。
【０１０２】
これにより、第１実施形態と同様の効果を奏するとともに、動作頻度の高い動作に関する入力に対して発話終了ポーズ時間が短く決定されるため、ユーザが円滑に（無音区間を短く）発話した場合であっても、単語間の無音区間と発話終了の無音区間とを適切に判断し、スムーズ処理を行うことができる。逆に、動作頻度が低い動作に関する入力に対しては発話終了ポーズ時間が長く決定されるため、ユーザが長い無音区間を含んだ発話をした場合であっても、単語間の無音区間を発話終了の無音区間と誤って判断することがない。
【０１０３】
＜第６実施形態＞
次に、第６実施形態について説明する。本実施形態は、車載機器に対する発話命令の命令頻度の高さに応じてユーザの円滑度を推測し、推測した円滑度に基づいて、発話終了ポーズ時間を決定する。発話命令の頻度の高い操作に関する命令であれば、ユーザは発話に慣れており、円滑に発話される傾向があることを利用するものである。
【０１０４】
第６実施形態に係る音声認識装置１００のブロック構成を図１６に示し、その動作を図１７に示した。各ブロックの機能および処理は、第５実施形態のそれと基本的に共通する。異なる点は、第５実施形態では車載機器の実際の動作履歴に基づいて発話終了ポーズ時間を決定するのに対し、第６実施形態では車載機器に対して行った発話命令の履歴に基づいて発話終了ポーズ時間を決定する点である。
【０１０５】
すなわち第５実施形態では、発話入力による動作のみならずスイッチ入力による動作を含め、その動作履歴を考慮するが、本実施形態では発話入力の履歴を用いる。発話に慣れているか否かは、発話の円滑性に直接的な影響を与えることから、本実施形態によれば発話命令の履歴から発話の円滑性を直接的に導くことができる。具体的には、本実施形態の発話命令頻度取得機能は、出力手段３を介して出力された認識結果を発話命令履歴として記憶し、発話命令履歴から発話命令頻度を算出する。また、円滑度推測部２５２は仮認識結果取得機能２５２１を有している。
【０１０６】
図１７に示す本実施形態のフローチャートは、図１５に示す第５実施形態と同様の動作手順である。本実施形態の「発話命令履歴」が第５実施形態の「動作履歴」に対応し、本実施形態の「発話命令履歴の命令頻度」が第５実施形態の「動作履歴の動作頻度」に対応する。
【０１０７】
本実施形態では、発話命令頻度が高ければ、発話に慣れているため、無音区間（ポーズ）の時間が短くなり、他方、発話命令頻度が低ければ、発話経験が少ないため、無音区間（ポーズ）の時間が長くなるという傾向に着目し、発話命令頻度の高低に応じて発話終了ポーズ時間を決定する。具体的には、「神奈川県横須賀市…」の発話命令が高い頻度で行われている場合、この地域を含む「神奈川県」の入力に係る動作は、過去に発話したことのない地名（県名）に係る動作に比べて発話の円滑度が高くなる傾向があるため、発話終了ポーズ時間を長く決定する。
【０１０８】
これにより、第１実施形態と同様の効果を奏するとともに、発話命令の頻度が高く、ユーザが円滑に（無音区間を短く）発話した場合、発話終了ポーズ時間が短く決定されるため、単語間の無音区間と発話終了の無音区間とを適切に区別し、スムーズな音声認識処理を行うことができる。逆に、発話経験がなく不慣れな発話であるために無音区間（ポーズ）が長くなったとしても、発話終了ポーズ時間が長く決定されるため、単語間の無音区間を発話終了の無音区間と誤って判断することがない。
【０１０９】
＜第７実施形態＞
以下、第７実施形態について説明する。本実施形態は、ユーザの発話に含まれるポーズ時間の長さに応じてユーザの円滑度を推測し、推測した円滑度に基づいて、発話終了ポーズ時間を決定する。実際の発話に含まれるポーズ時間が短い場合、ユーザの発話の円滑性が高い傾向にあることを利用するものである。
【０１１０】
第７実施形態に係る音声認識装置１００のブロック構成を図１８に示した。図１８に示すように、第７の実施形態に係る音声認識装置は、図１に示した第１実施形態の音声認識装置１００の主要な構成を有している。更に、本実施形態は、「ポーズ時間検出機能２２１」を有している。また、円滑要因情報取得部２５３は、少なくとも「ポーズ時間取得機能」と「平均ポーズ時間算出機能」とを有している。
「ポーズ時間検出機能２２１」は、音声データに含まれるポーズ時間を検出し、少なくとも一時的に記憶する。円滑要因情報取得部２５３の「ポーズ時間取得機能」は、ポーズ時間検出機能２２１により検出されたポーズ時間を取得し、「平均ポーズ時間算出機能」は、取得したポーズ時間の平均時間を算出する。
【０１１１】
第７実施形態における円滑度推測処理手順を図１９のフローチャートに示した。
【０１１２】
ポーズ時間検出機能２２１は、発話中の無音区間（ポーズ）の時間をポーズごとに検出し、記憶する（１９０２）。発話終了ポーズ時間演算部２５のポーズ時間取得機能は、検出されたポーズ時間を取得し、平均ポーズ時間算出機能は平均ポーズ時間を算出する（１９０３）。算出した平均ポーズ時間を円滑度推測部２５２へ向けて送出する。なお、平均ポーズ時間を算出するにあたり用いるポーズ時間は、音声認識が成功した（誤認識しなかった）発話に関するポーズ時間に限定することが好ましい。
【０１１３】
円滑度推測部２５２は、平均ポーズ時間と円滑度とを対応づけた対応関係を参照し（１９０４）、円滑度を推測する（１９０５）。演算部２５１は、円滑度と発話終了ポーズ時間とを対応づけた対応関係を参照する（１９０６）。本実施形態の対応関係では円滑度と発話終了ポーズ時間の延長又は短縮時間αとを対応づけている。もちろん、後に説明する第１０実施形態で示した対応テーブルを用いても良い。演算部２５１は、この対応関係を参照して求めた延長又は短縮時間αを平均ポーズ時間に加算（又は減算）して発話終了ポーズ時間を算出する（１９０７）。この算出結果を発話終了ポーズ時間と決定する（１９０８）。発話終了ポーズ時間を更新する（１９０９）。
【０１１４】
本実施形態では、ユーザの発話から実際に検出されたポーズの時間長を用いて発話終了ポーズ時間を決定することにより、ユーザの発話癖に応じた最適な発話終了ポーズ時間を決定することができる。また、第１実施形態と同様の効果を奏することができる。
＜第８実施形態＞
第８実施形態および第９実施形態は、第１〜第７実施形態とは異なり、発話終端検出精度情報として、音声認識装置側に起因する音声信号取得環境情報を用いる。音声信号取得環境情報とは、ユーザが発話した音声データに対して音声認識装置側が取得する際の音環境に寄与する要因に対応づけられた情報である。音声データ取得時の音環境が、音声認識装置側に起因する何らかの要因によって音声データの取得に適している場合、または何らかの要因によって音声データの取得に適していない場合がある。本実施形態では、この要因を定量的に示す情報を「音声信号取得環境情報」として利用する。「音声信号取得環境情報」の内容は特に限定されないが、第８および第９実施形態では、音声データを取得する際の音環境に寄与する要因を定量的に示す「音声信号取得環境情報」を「発話終端検出精度情報」として用いた。
【０１１５】
第８実施形態に係る構成を図２０に示した。基本的構成は、図1に示す第１実施形態の構成と共通する。異なる点は、発話終了ポーズ時間演算部２５の情報取得部２５７が、「音声信号取得環境情報」を「発話終端検出精度情報」として取得する音声信号取得環境情報の取得部として機能する点である。情報取得部２５７は、騒音情報を音声信号取得環境情報として取得する。これに対応して、推測部２５６は、音声データを取得する環境が音声データの取得に適した環境であるか否かという音環境の状態を推測する。また、演算部２５５は、推測された音環境の状態に応じて発話終了ポーズ時間を決定する。
【０１１６】
第８実施形態の処理手順２１０１を図２１のフローチャートに基づいて説明する。
まず、騒音信号を取得する（２１０２）。騒音情報取得部２５７は、入力装置２００から入力された騒音を、ディジタル信号に変換して騒音信号データとして取得する。騒音信号データは、常時収音することにより取得してもよいし、発話時に取得してもよいし、または発話開始（直前）に取得してもよい。騒音信号データは、発話音声を受け付ける音声マイク２０１を介して収音してもよいし、音声マイク２０１とは別に設けられた騒音マイク２０３を介して収音してもよい。
【０１１７】
推測部２５６は、収音された騒音の騒音信号データから騒音量に関するデータを算出する（２１０３）。騒音量に関するデータとして、「騒音のエネルギー」を算出してもよいし、又は音声データ取得手段１を介して取得された「音声データのエネルギー値」と、それと同時刻に収音された「騒音エネルギー値」との「比」を算出してもよい。
【０１１８】
推測部２５６は予め騒音量と音声信号取得環境値を対応付けたデータテーブルを参照し（２１０４）、音声データ取得時の音環境を示す音声信号取得環境値を取得する（２１０５）。続いて、演算部２５５は音声信号取得環境値と発話終了ポーズ時間を対応付けたデータテーブルを参照し、発話終了ポーズ時間を取得し(２１０６)、取得した発話終了ポーズ時間に基づいて発話終了ポーズ時間を決定する（２１０７）。決定した発話終了ポーズ時間を設定し、更新する（２１０８）。
【０１１９】
以上のように構成され、動作する第８実施形態は以下の効果を奏する。
【０１２０】
音声データ取得時の音環境に応じて、適当な「発話終了ポーズ時間」を決定し、音環境が音声取得に適している場合には迅速な音声認識処理を行い、音環境が音声取得に適していない場合には長めの発話終了ポーズ時間を設定することにより正解な音声認識処理を行うことができる。
【０１２１】
すなわち、単語間のポーズと発話終了時のポーズとを区別するための「発話終了ポーズ時間」の時間長を、比較的に長い画一的な時間とせずに、音声データ取得時の音環境に応じた長さにするため、認識処理の正確性を担保しつつ、音環境が音声データ取得に適している場合には迅速な音声認識処理を提供することができる。騒音量が小さく発話の終端を正確に検出できる音環境であるのに、発話終了ポーズ時間が長いために音声認識処理が遅れるといった不具合がなくなる。
【０１２２】
また、本実施形態では、音声データ取得時の音環境に応じて「発話終了ポーズ時間」の時間長を必要最低限に短くすることができるため、待ち受ける音声データの終端にノイズが含まれることを防ぐことができる。
【０１２３】
なお、本実施形態では、音声データ取得時の音環境という流動的な状況を、「音声信号取得環境情報」という客観的な情報から、「音環境」という定量的な値として導くため、決定された「発話終了ポーズ時間」は、音声データ取得時の音環境を反映したものとなる。
【０１２４】
音環境が音声信号取得に適している場合には「発話終了ポーズ時間」を短く設定し、音環境が音声信号取得に適していない場合には「発話終了ポーズ時間」を長く設定することが好ましい。本実施形態では、検出した騒音量が小さい場合（静かな場合）には、「発話終了ポーズ時間」を短く決定し、騒音量が大きい場合（うるさい場合）には「発話終了ポーズ時間」を長く設定する。
【０１２５】
これにより、騒音量が小さい場合（静かな場合）には、発話音声の認識精度が向上し、発話終端のポーズが短くても発話終端の検出精度が向上するという傾向に応じて、「発話終了ポーズ時間」を決定することができる。たとえば、騒音量が小さい場合には、「発話終了ポーズ時間」を短くすることにより、発話終了を検出するまでの時間を短縮し、認識精度を維持しつつユーザへのレスポンスを高めることができる。一方、騒音量が大きい場合には、「発話終了ポーズ時間」を長くすることにより、発話終了を正確に認識する。その結果、ユーザの発話の円滑度に応じてレスポンスを高めるとともに、高い精度で発話の終端を認識することができる。
＜第９実施形態＞
第９実施形態に係る構成を図２２に示した。基本的構成は、図1に示す第１実施形態の構成と共通する。異なる点は、発話終了ポーズ時間演算部２５の情報取得部２５７が、「音声信号取得環境情報」を「発話終端検出精度情報」として取得する音声信号取得環境情報の取得部として機能する点である。情報取得部２５７は、「訂正情報」を「音声信号取得環境情報」として取得する。「訂正情報」は訂正命令が入力された旨の情報、訂正命令が入力された回数に関する情報である。
【０１２６】
本実施形態では、訂正命令が入力されたという事実から、音環境が音声信号取得に適しているか否かを推測する。具体的には、訂正命令が入力されない場合は音環境が音声信号取得に適していると推測でき、訂正命令が入力され、その入力回数が増加するに従い、音環境が音声信号取得には適していないものと推測する。
【０１２７】
推測部２５６は、取得した「訂正情報」から音声データを取得する環境が音声データの取得に適した環境であるか否かという音環境の状態を推測する。また、演算部２５５は、推測された音環境の状態に応じて発話終了ポーズ時間を決定する。
【０１２８】
第９実施形態の処理手順２３０１を図２３のフローチャートに基づいて説明する。
訂正情報取得部２５７は、入力装置２００を介して訂正スイッチ信号を取得すると（２３０２）、発話終了ポーズ時間変更処理（２３０３以降）を行う。それ以外の場合は、処理を終了する。訂正スイッチ信号とは音声認識結果が誤っている場合に、ユーザが音声認識装置に対して入力した認識結果の訂正命令に関する信号である。
【０１２９】
推測部２５６は、ユーザが入力した訂正スイッチ信号に基づいて音声信号取得環境を推測する。推測部２５６は、予め訂正スイッチ信号と音声信号取得環境値とを対応付けたデータテーブルを参照し（２３０３）、音声信号取得環境値を取得する（２３０４）。ここでは、前回以前の入力があるかの情報すなわち訂正の回数を考慮し、例えば訂正回数が増えるほど音声データ取得時の取得環境が悪いと判断するようにしても良い。
【０１３０】
演算部２５５は、音声信号取得環境値と発話終了ポーズ時間とを対応付けたデータテーブルを参照し、発話終了ポーズ時間を取得し（２３０５）、得られた発話終了ポーズ時間に基づいて発話終了ポーズ時間を決定する（２３０６）。決定した発話終了ポーズ時間を設定・更新する（２３０７）。
【０１３１】
これにより、第８実施形態と同様の効果に加えて、訂正命令の入力または訂正命令の入力回数から音声信号入力時の音環境を推測することができ、音声信号入力時の音環境に応じて発話終了ポーズ時間が決定されるため、単語間の無音区間と発話終了の無音区間とを適切に判断することができる。
【０１３２】
＜第１０実施形態＞
第１０実施形態に係る構成を図２４に示した。基本的構成は、図1に示す第１実施形態の構成と共通する。一方、第１０実施形態は、発話終了ポーズ時間演算部２５が、「円滑要因情報」を「発話終端検出精度情報」として取得する円滑要因情報取得部２５３と、円滑要因情報に基づいて円滑度を推測する円滑度推測部２５２とを有している。また、同じ発話終了ポーズ時間演算部２５が、「音声信号取得環境情報」を「発話終端検出精度情報」として取得する音声信号取得環境情報の取得部２５７と、音声信号取得環境情報に基づいて音環境を推測する音声信号取得環境推測部２５６とを有している。さらに、発話終了ポーズ時間演算部２５は、「ユーザの発話の円滑度」と「音声信号取得時の音環境」とを少なくとも含む「発話の終端検出精度」に応じて発話終了ポーズ時間を求める演算部２５８を有している。
【０１３３】
「円滑要因情報取得部２５３」、「円滑度推測部２５２」の機能および動作は、第１実施形態〜第７実施形態のそれと共通し、「信号情報取得環境情報の取得部２５７」、「音声信号取得環境推測部２５６」の機能および動作は第８、第９実施形態のそれと共通する。
【０１３４】
本実施形態の演算部２５８は、推測された「ユーザの発話の円滑度」と「音声信号取得時の音環境」とから総合的な「発話の終端検出精度」を求め、「発話の終端検出精度」に応じて発話終了ポーズ時間を求める。
【０１３５】
演算部２５８の基本的な処理は以下のとおりである。各種「ユーザの発話の円滑度」を算出し、算出した各種「ユーザの発話の円滑度」からこれらを統合した「統合円滑度」を算出する第１のフローと、各種「音声信号取得時の音環境」を算出し、算出した各種の「音声信号取得時の音環境」からこれらを統合した「統合音環境」を算出する第２のフローとを有し、第１のフローにおいて算出された「統合円滑度」と第２のフローにおいて算出された「統合音環境」とから最終的に一の値である「発話終了ポーズ時間」を算出する。
【０１３６】
第１０実施形態の発話終了ポーズ時間決定処理の処理手順２５０１を図２５のフローチャートに基づいて説明する。ここでは具体的なデータテーブルを示しながら、算出過程を含めて説明する。本形態において示した各種「ユーザの発話の円滑度」のデータテーブルおよびその算出過程、並びに各種「音声信号取得時の音環境」のデータテーブルおよびその算出過程は、先に説明した第１〜第９実施形態においても用いることができる。記載の重複を避けるために、ここでまとめて説明する。
【０１３７】
まず、第１のフローにおいて、円滑要因情報取得部２５３は、運転負荷に関する情報、訂正命令の頻度または訂正命令の回数に関する情報、ユーザの周囲の騒音量に関する情報、外部機器の動作履歴に関する情報、ユーザの発話命令履歴に関する情報、ユーザの発話に含まれるポーズ時間に関する情報を少なくとも含む円滑要因情報を取得する（２５０２）。具体的には、騒音信号、訂正スイッチ信号を入力装置２００より取得し、運転負荷を運転負荷判定手段５１より取得する。動作履歴、発話命令履歴を出力手段３から取得する。ユーザ発話のポーズ時間を音声区間検出部２１のポーズ時間検出機能２２１により取得する。これら取得した各種情報を円滑度推測部２５２へ送出する。
【０１３８】
円滑度推測部２５２は、各種円滑要因情報に基づいて、円滑度を推測する（２５０４）。円滑度推測部２５２は、円滑要因情報に応じたデータテーブルを参照し、円滑要因情報の種類ごとに下記の円滑度をそれぞれ推測する（２５０４）。
【０１３９】
円滑要因情報が運転負荷の場合の円滑度： SM_1
円滑要因情報が訂正命令の場合の円滑度： SM_2
円滑要因情報が騒音量の場合の円滑度： SM_3
円滑要因情報が動作履歴の場合の円滑度： SM_4
円滑要因情報が発話命令履歴の場合の円滑度： SM_5
円滑要因情報がポーズ時間の場合の円滑度： SM_6
【０１４０】
表１は、ユーザの運転負荷の重さと円滑度SM_1とを対応づけたデータテーブルである。このデータテーブルは、１００で正規化した運転負荷と８段階で示された円滑度SM_1と対応づけたものである。円滑度推測部２５２は、取得したユーザの運転負荷の重さから円滑度SM_1を算出する。
【表１】

【０１４１】
表２は、ユーザの発話入力の訂正命令の回数と円滑度SM_2とを対応づけたデータテーブルである。このデータテーブルは、訂正命令の回数と８段階で示された円滑度SM_2と対応づけたものである。円滑度推測部２５２は、取得したユーザの訂正命令の回数から円滑度SM_2を算出する。
【表２】

【０１４２】
表３は、ユーザの周囲の騒音量の大きさと円滑度SM_3とを対応づけたデータテーブルである。このデータテーブルは、騒音量（ＳＮ比[ｄＢ]）と８段階で示された円滑度SM_3と対応づけたものである。騒音量をＳＮ比で示した。ＳＮ比が低いほど（−１０．０方向）騒音量は大きくなり、ＳＮ比が高いほど（＋２０．０方向）騒音量は小さくなる。ちなみに、表３において、円滑要因情報としての騒音量が大きい場合には、ユーザは明確な発話を行うと考えられるため円滑度は高くなる傾向を示す。円滑度推測部２５２は、検出したユーザ周囲の騒音量から円滑度SM_3を算出する。
【表３】

【０１４３】
表４は、ユーザが操作する外部機器の動作履歴に関する情報と円滑度SM_4とを対応づけたデータテーブルである。このデータテーブルは、動作履歴（回数）と８段階で示された円滑度SM_4と対応づけたものである。円滑度推測部２５２は、ユーザの動作回数から円滑度SM_4を算出する。
なお、ユーザが操作する外部機器の動作履歴に代えて、ユーザの発話命令の回数と８段階で示された円滑度SM_5とを対応づけたデータテーブルを用いることができる。この場合、表４の「動作履歴（回数）」を、「発話命令の回数」に読み替え、表４の「円滑度SM_4」を「円滑度SM_5」に読み替えたテーブルを用いる。
【表４】

【０１４４】
表５は、ユーザの発話に含まれるポーズ時間と円滑度SM_6とを対応づけたデータテーブルである。このデータテーブルは、ユーザの発話に含まれるポーズ時間の平均と８段階で示された円滑度SM_6と対応づけたものである。円滑度推測部２５２は、ユーザの平均ポーズ時間から円滑度SM_6を算出する。
【表５】

【０１４５】
円滑度推測部２５２は、以上算出された円滑度各種円滑度(SM_1〜SM_6)のいずれか１以上を任意に用いて統合円滑度（SM）を算出する。算出の手法は特に限定されないが、本実施形態では上記円滑度(SM_1〜SM_6)を用いて、下記の式１を適用して統合円滑度(SM)を算出する（２５０６）。
SM = a*SM_1+b*SM_2+c*SM_3+d*SM_4+e*SM_5+f*SM_6 …（式１）
（a,b,c,d,e,f ：重み係数。この値は実験等により求める。）
演算部２５８は、推測された統合円滑度（SM）に基づいて発話終了ポーズ時間（T_sm）を算出する。この算出の手法は特に限定されないが、本実施形態では表６に示すデータテーブルを参照して行う。表６は、８段階に正規化した円滑度と、この８段階に対応させて区切った発話終了ポーズ時間とを対応させたものである。なお、区分する段階の数は特に限定されず、８以外の数であってもよいし、整数でなくてもよい。
【表６】

第１のフローと同時に又は相前後して処理が行われる第２のフローにおいて、音声信号取得環境情報の取得部２５７は、訂正命令の頻度または訂正命令の回数に関する情報、ユーザの周囲の騒音量に関する情報を少なくとも含む音声信号取得環境情報を取得する（２５０３）。具体的には、騒音信号、訂正スイッチ信号を入力装置２００より取得する。取得した各種情報を音声信号取得環境推測部２５６へ送出する。音声信号取得環境推測部２５６は、各種音声信号取得環境情報に基づいて、音環境を推測する（２５０５）。音声信号取得環境推測部２５６は、音声信号取得環境情報に応じたデータテーブルを参照し、音声信号取得環境推測情報の種類ごとに下記の音環境（音声信号取得環境値）をそれぞれ推測する。
【０１４６】
音声信号取得環境が訂正命令の場合の音声信号取得環境値： ENV_1
音声信号取得環境が騒音量の場合の音声信号取得環境値： ENV_2
【０１４７】
表７は、訂正命令の回数と音声信号取得環境値ENV_1とを対応づけたデータテーブルである。このデータテーブルは、訂正命令がなされた回数と８段階で示された音声信号取得環境値ENV_1と対応づけたものである。音声信号取得環境推測部２５６は、取得した訂正命令の回数から音環境を示す音声信号取得環境値ENV_1を算出する。
【表７】

【０１４８】
表８は、ユーザの周囲の騒音量の大きさと音声信号取得環境値ENV_2とを対応づけたデータテーブルである。このデータテーブルは、騒音量（ＳＮ比[ｄＢ]）と８段階で示された音声信号取得環境値ENV_8と対応づけたものである。騒音量をＳＮ比で示した。ＳＮ比が低いほど（−１０．０方向）騒音量は大きくなり、ＳＮ比が高いほど（＋２０．０方向）騒音量は小さくなる。ちなみに、表８において、音声信号取得環境情報としての騒音量が大きい場合には、音環境が音声信号を取得するには適していないと考えられるので、音声信号取得環境値ENV_2は低くなる傾向を示す。音声信号取得環境推測部２５６は、検出したユーザ周囲の騒音量から音声信号取得環境値ENV_2を算出する。
【表８】

【０１４９】
音声信号取得環境推測部２５６は、以上算出された音声信号取得環境値(ENV_1〜ENV_2)の１つ以上を任意に用いて統合円滑度（ENV）を算出する。算出の手法は特に限定されないが、本実施形態では上記音声信号取得環境値(ENV_1〜ENV_2)を用いて、下記の式２を適用して統合音声信号取得環境値（ENV）を算出する（２５０７）。
ENV = g*ENV_1 + h*ENV_2 …(式2)
（ｇ，ｈ：重み係数。この値は実験等により求める。）
演算部２５８は、推測された統合音声信号取得環境値（ENV）に基づいて発話終了ポーズ時間（T_env）を算出する。この算出の手法は特に限定されないが、本実施形態では表９に示すデータテーブルを参照して行う。表９は、８段階に正規化した音環境を示す音声信号取得環境値と、この８段階に対応させて区切った発話終了ポーズ時間とを対応させたものである。なお、区分する段階の数は特に限定されず、８以外の数であってもよいし、整数でなくてもよい。
【０１５０】
【表９】

次に、ユーザの発話の円滑度に応じた発話終了ポーズ時間（T_sm）と、音声信号取得時の音環境（音声信号取得環境値）に応じた発話終了ポーズ時間（T_env）とから、１の発話終了ポーズ時間を決定する（２５１０）。
【０１５１】
演算部２５８は、統合円滑度(SM)に基づいて、表６に示したデータテーブルを参照して求めた発話終了ポーズ時間（T_sm）を取得する。また、演算部２５８は、統合音声信号取得環境値(ENV)に基づいて、表９に示したデータテーブルを参照して求めたと発話終了ポーズ時間（T_env）を取得する。なお、表６および表９に示した発話終了ポーズ時間T_sm、T_envは、最大値及び最小値を持つ。最大値はこれ以上伸ばしても音声切り出し上効果が無くなる値、もしくは使用者がシステム応答のために待たされる最大許容時間に対応する。最小値は円滑度が最大の場合に正確に音声区間を切り出すことができる最小の発話終了ポーズ時間に対応する。これら双方の値は、認識機の性能及び、認識機の使用される環境に応じ実験的に求められる。
【０１５２】
取得した発話終了ポーズ時間（T_sm）と発話終了ポーズ時間（T_env）とから、最終的な発話終了ポーズ時間Tを算出する（２５１０）。この算出手法は特に限定されないが、本実施形態では、T=Max(T_sm、T_env)の式を用い、取得した発話終了ポーズ時間（T_sm）と発話終了ポーズ時間（T_env）のうちいずれか大きい値を示す発話終了ポーズ時間を、最終的な発話終了ポーズ時間Tとして決定する。
【０１５３】
図２６には、円滑度および音声信号取得環境値をともに８段階に正規化し、円滑度と発話終了ポーズ時間（T_sm）との対応関係と、音声信号取得環境値と発話終了ポーズ時間（T_env）との対応関係とを示した。ある発話に対し円滑度が３で音環境が６となった場合、円滑度に基づけば発話終了ポーズ時間（T_sm）は１０００秒となり、音環境に基づくと発話終了ポーズ時間（T_env）は６００秒となる。この場合は、発話終了ポーズ時間が長い円滑度に基づく発話終了ポーズ時間（T_sm）が採用される。また、ある発話に対し円滑度が３で音環境が３となった場合、円滑度に基づけば発話終了ポーズ時間（T_sm）は１０００秒となり、音環境に基づくと発話終了ポーズ時間（T_env）は１１００秒となる。この場合は、発話終了ポーズ時間が長い音環境に基づく発話終了ポーズ時間（T_env）が採用される。
【０１５４】
算出された発話終了ポーズ時間Tで発話終了ポーズ時間を更新する。（２５０９）。
【０１５５】
なお、発話終了ポーズ時間Tの算出手法は特に限定されず、円滑度に基づく発話終了ポーズ時間（T_sm）と、音環境に基づく発話終了ポーズ時間（T_env）との平均値を発話終了ポーズ時間Tとしてもよい。
【０１５６】
本実施形態によれば、第１〜第９の実施形態における効果を得られるほか、ユーザに起因する発話の円滑性と、音声信号取得時の環境に起因する音環境との両方の側面から、発話終了ポーズ時間の長さを制御することができる。これにより、音声認識処理が迅速に行われ、また誤認識の原因となるような発話音声以外の信号がポーズに含まれる事態を防ぐことができる。
【０１５７】
本実施形態では音声認識装置１００について説明したが、本発明の音声認識用プログラムにより動作するコンピュータは、音声認識装置１００と同様に作用し、同様の効果を奏する。
【０１５８】
なお、以上説明した実施形態は、本発明の理解を容易にするために記載されたものであって、本発明を限定するために記載されたものではない。したがって、上記の実施形態に開示された各要素は、本発明の技術的範囲に属する全ての設計決定や均等物をも含む趣旨である。
【図面の簡単な説明】
【図１】第１実施形態に係る音声認識装置のブロック図である。
【図２】音声データを説明するための図である。
【図３】無音区間（ポーズ）を説明するための図である。
【図４】発話終了ポーズ時間を説明するための図である。
【図５】発話終了ポーズ時間を、音声データにあてはめた図である。
【図６】ネットワーク言語の言語モデルの一例を示す図である。
【図７】第１実施形態のおける制御手順を示すフローチャート図である。
【図８】第２実施形態に係る音声認識装置のブロック図である。
【図９】第２実施形態のおける制御手順を示すフローチャート図である。
【図１０】第３実施形態に係る音声認識装置のブロック図である。
【図１１】第３実施形態のおける制御手順を示すフローチャート図である。
【図１２】第４実施形態に係る音声認識装置のブロック図である。
【図１３】第４実施形態のおける制御手順を示すフローチャート図である。
【図１４】第５実施形態に係る音声認識装置のブロック図である。
【図１５】第５実施形態のおける制御手順を示すフローチャート図である。
【図１６】第６実施形態に係る音声認識装置のブロック図である。
【図１７】第６実施形態のおける制御手順を示すフローチャート図である。
【図１８】第７実施形態に係る音声認識装置のブロック図である。
【図１９】第７実施形態のおける制御手順を示すフローチャート図である。
【図２０】第８実施形態に係る音声認識装置のブロック図である。
【図２１】第８実施形態のおける制御手順を示すフローチャート図である。
【図２２】第９実施形態に係る音声認識装置のブロック図である。
【図２３】第９実施形態のおける制御手順を示すフローチャート図である。
【図２４】第１０実施形態に係る音声認識装置のブロック図である。
【図２５】第１０実施形態のおける制御手順を示すフローチャート図である。
【図２６】第１０実施形態の処理に関し、円滑度および音環境と発話終了ポーズ時間との関係を示す図である。
【符号の説明】
１００…音声認識装置
１…音声データ取得手段
２…音声認識手段
２１…音声区間検出部
２３…特徴分析処理部
２４…照合処理部
２５…発話終了ポーズ時間演算部
２５１…演算部
２５２…推測部（円滑度推測）
２５６…推測部（音環境推測）
２５３…情報取得部、円滑要因情報取得部、
２５７…情報取得部、音声信号取得環境情報の取得部
３…出力手段
２００…入力装置
３００…記憶装置
４００…外部装置
５００…車両情報検出装置

Claims

ユーザから発話入力される連続した単語を含む音声データを取得する音声データ取得手段と、前記取得した音声データを認識する音声認識手段とを有する音声認識装置であって、
前記音声認識手段は、
予め時間長が設定された発話終了ポーズ時間以上の無音区間を検出した場合に前記ユーザの発話入力の終了を検出する機能を少なくとも備えた音声区間検出部と、
前記ユーザから入力される発話の終端を検出する精度に応じて前記発話終了ポーズ時間を決定する発話終了ポーズ時間演算部とを有し、
前記発話終了ポーズ時間演算部は、
前記ユーザの発話の円滑性に寄与する円滑要因情報を、前記発話の終端を検出する精度に寄与する発話終端検出精度情報として取得する情報取得部と、
前記情報取得部の取得した円滑要因情報から前記ユーザの発話の円滑度を推測する推測部と、
前記推測部により推測されたユーザの発話の円滑度に応じて前記発話終了ポーズ時間を求める演算部と、を有し、
前記円滑要因情報は、前記ユーザの運転負荷に関する情報、前記ユーザの発話入力の訂正命令の頻度に関する情報、前記ユーザの周囲の騒音量に関する情報、前記ユーザが操作する外部機器の動作履歴の動作頻度に関する情報、前記ユーザの発話命令履歴の命令頻度に関する情報のいずれかの情報を含み、
前記演算部は、前記ユーザの運転負荷が小さいほど、前記ユーザの発話入力の訂正命令の頻度が高いほど、前記ユーザの周囲の騒音量が大きいほど、前記ユーザが操作する外部機器の動作履歴の動作頻度が高いほど、前記ユーザの発話命令履歴の命令頻度が高いほど、それぞれ前記発話終了ポーズ時間を相対的に短くすることを特徴とする音声認識装置。
前記情報取得部は、前記音声データを取得する際の騒音量に関する情報または入力された訂正命令の頻度に関する情報のいずれかの情報を含む、音声データを取得する際の音環境に寄与する音声信号取得環境情報を発話終端検出精度情報として取得し、
前記推測部は、前記情報取得部の取得した音声信号取得環境情報から音声信号取得時の音環境を推測し、
前記演算部は、前記音声データを取得する際の騒音量が小さいほど、前記入力された訂正命令の頻度が低いほど、前記発話終了ポーズ時間を相対的に短くする請求項１記載の音声認識装置。
前記演算部は、前記推測部により推測された前記ユーザの発話の円滑度から求められた発話終了ポーズ時間と、前記音声データ取得時の音環境から求められた発話終了ポーズ時間のうち大きい方又はこれらの平均値を最終的な発話終了ポーズ時間に決定する請求項２に記載の音声認識装置。
コンピュータの音声認識手段に、
ユーザから発話入力される連続した単語を含む音声データを取得するステップと、
前記取得した音声データを認識するステップとを実行させるプログラムであって、
前記音声データを認識するステップは、
前記ユーザから入力される発話の終端の検出精度に応じて前記発話終了ポーズ時間を決定するステップと、
前記決定された発話終了ポーズ時間以上の無音区間を検出した場合に前記ユーザの発話入力の終了を検出するステップとを含み、
前記発話終了ポーズ時間を決定するステップは、
前記発話の終端を検出する精度に寄与する発話終端検出精度情報を取得するステップと、
前記取得した発話終端検出精度情報から前記ユーザの発話の終端検出精度を推測するステップと、
前記推測された発話の終端検出精度に応じて前記発話終了ポーズ時間を求めるステップとを有し、
前記発話の終端を検出する精度に寄与する発話終端検出精度情報を取得するステップは、以下のａ〜ｅに示した前記ユーザの発話の円滑性に寄与する円滑要因情報の中から任意に選択された１又は２以上の情報を、前記発話終端検出精度情報として取得し、
前記発話終了ポーズ時間を求めるステップは、前記ユーザの運転負荷が小さいほど、前記ユーザの発話入力の訂正命令の頻度が高いほど、前記ユーザの周囲の騒音量が大きいほど、前記ユーザが操作する外部機器の動作履歴の動作頻度が高いほど、前記ユーザの発話命令履歴の命令頻度が高いほど、それぞれ前記発話終了ポーズ時間を相対的に短くする音声認識用プログラム。
ａ：前記ユーザの運転負荷に関する情報
ｂ：前記ユーザの発話入力の訂正命令の頻度に関する情報
ｃ：前記ユーザの周囲の騒音量に関する情報
ｄ：前記ユーザが操作する外部機器の動作履歴の動作頻度に関する情報
ｅ：前記ユーザの発話命令履歴の命令頻度に関する情報
前記発話の終端を検出する精度に寄与する発話終端検出精度情報を取得するステップは、以下のｆ〜ｇに示した前記音声データを取得する際の音環境に寄与する音声信号取得環境情報の中から任意に選択された１又は２以上の情報を、前記発話終端検出精度情報として取得し、
前記発話終了ポーズ時間を求めるステップは、前記音声データを取得する際の騒音量が小さいほど、前記入力された訂正命令の頻度が低いほど、前記発話終了ポーズ時間を相対的に短くする請求項４に記載の音声認識用プログラム。
ｆ：前記ユーザの発話入力の訂正命令の頻度に関する情報
ｇ：前記ユーザの周囲の騒音量に関する情報
前記発話終了ポーズ時間を求めるステップは、前記ユーザの発話の円滑性に寄与する円滑要因情報から求められた発話終了ポーズ時間と、前記音声データを取得する際の音環境に寄与する音声信号取得環境情報から求められた発話終了ポーズ時間のうち大きい方又はこれらの平均値を最終的な発話終了ポーズ時間に決定する請求項５に記載の音声認識用プログラム。