JP7251953B2

JP7251953B2 - 音声認識装置、音声認識方法及び音声認識プログラム

Info

Publication number: JP7251953B2
Application number: JP2018216873A
Authority: JP
Inventors: 文雄和田
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2018-11-19
Filing date: 2018-11-19
Publication date: 2023-04-04
Anticipated expiration: 2038-11-19
Also published as: CN111199738B; CN111199738A; US11195535B2; US20200160871A1; JP2020086010A

Description

本発明は、音声認識装置、音声認識方法及び音声認識プログラムに関する。

車両の利用者の利便性を向上させる観点から、マイクロフォンを経由して取り込んだ利用者の声を音声認識し、音声認識結果に基づいてカーナビゲーションシステムを作動させたり、各種の検索動作を起動させたりしている。例えば、利用者が目的地として住所を発話発声すると、カーナビゲーションシステムや、ネットワークを介してカーナビゲーションシステムに接続される音声認識装置では、予め用意された施設情報を検索する。そして、検索結果が、カーナビゲーションシステムの表示画面に表示される。

カーナビゲーションシステムに導入可能な音声認識装置として、検索項目のカテゴリに応じて、利用者の終話（すなわち音声データの入力完了）を判定するための継続時間の設定を変更する技術が知られている（例えば、特許文献１を参照）。継続時間は、音声データが入力されていない無音状態が続いている時間である。特許文献１によれば、住所の音声入力や、施設名の音声入力に応じた継続時間が設定され、設定された継続時間に基づいて音声データの入力を完了するか否かが判定されている。

特開２００６－７１７９４号公報

特許文献１では、予め検索項目のカテゴリを設定し、継続時間をそのカテゴリに応じた時間に設定した後、利用者が発話して音声データが入力され、音声認識装置によって音声データの入力が完了したか否かが判定される。特許文献１では、予め検索項目のカテゴリを設定せずに利用者が発話する場合、継続時間が適切に設定されず、音声データの入力完了の判定を適切に行うことができない場合があった。また、音声認識に関連する技術では、利用者の声の特徴に対する考慮もなされておらず、判定に対する柔軟性を向上することが望まれていた。

本発明は、上記に鑑みてなされたものであって、検索ワードの終話判定に対する柔軟性を向上させることができる音声認識装置、音声認識方法及び音声認識プログラムを提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明に係る音声認識装置は、メモリと、ハードウェアを備えたプロセッサと、を備え、前記プロセッサは、入力される音声データの特徴を抽出し、前記音声データが無音状態に遷移した後の該無音状態の継続時間であって前記音声データの入力が完了したと判定し得る継続時間を、前記特徴に基づいて設定することを特徴とする。

また、上記音声認識装置において、前記プロセッサは、入力された音声データが前記無音状態に遷移してから経過した無音時間が、前記継続時間を超過した場合に、前記音声データの入力が完了したと判定してもよい。

この音声認識装置によれば、無音時間が、音声データの特徴に応じて設定される継続時間を超過した場合に、利用者の発話が終了（音声データの入力が完了）したと判定するため、適切なタイミングで利用者の終話を判定することができる。

また、上記音声認識装置において、前記プロセッサは、前記音声データから、前記特徴が住所、施設名及び電話番号のいずれであるかを判定し、判定した特徴に応じて前記継続時間を設定してもよい。

この音声認識装置によれば、音声入力されるカテゴリに応じて継続時間を設定するようにしたので、そのカテゴリに応じた継続時間が設定され、適切なタイミングで利用者の終話を判定することができる。

また、上記音声認識装置において、前記プロセッサは、前記音声データにおける音声認識のエラー回数を算出し、該エラー回数に応じて前記継続時間を設定してもよい。

この音声認識装置によれば、音声認識のエラー回数に応じて継続時間を設定するようにしたので、認識エラーが生じた場合に、適切なタイミングで終話が判定なされるように調整することができる。

また、上記音声認識装置において、前記プロセッサは、当該音声認識装置を利用する利用者の情報から前記音声データの特徴を取得し、該取得した音声データの特徴に応じて前記継続時間を設定してもよい。

この音声認識装置によれば、個人に応じて継続時間を設定するようにしたので、音声入力を行う利用者個人の特性に応じた適切なタイミングで利用者の終話を判定することができる。

また、上記音声認識装置において、前記プロセッサは、利用者の年齢を判定し、判定した年齢に応じて前記継続時間を設定してもよい。

この音声認識装置によれば、発話する利用者の年齢に応じて継続時間を設定するようにしたので、適切なタイミングで利用者の終話を判定することができる。

また、上記音声認識装置において、前記プロセッサは、音声データから発話速度を算出し、算出した発話速度に応じて前記継続時間を設定してもよい。

この音声認識装置によれば、発話速度に応じて継続時間を設定するようにしたので、音声入力を行う個人に適したタイミングでの終話を判定することができ、さらに、発話状況によって適切なタイミングで終話を判定するため、利用者のストレスを低減できる。

また、音声認識方法において、外部から入力される音声を認識する音声認識方法であって、入力される音声データの特徴を抽出し、前記音声データが無音状態に遷移した後の該無音状態の継続時間であって前記音声データの入力が完了したと判定し得る継続時間を、前記特徴に基づいて設定することを特徴とする。

また、音声認識プログラムにおいて、外部から入力される音声を認識する音声認識装置に、入力される音声データの特徴を抽出させ、前記音声データが無音状態に遷移した後の該無音状態の継続時間であって前記音声データの入力が完了したと判定し得る継続時間を、前記特徴に基づいて設定させることを特徴とする。

本発明に係る音声認識装置、音声認識方法及び音声認識プログラムは、音声データの特徴に応じて継続時間を設定するようにしたので、検索ワードの終話判定に対する柔軟性を向上させることができるという効果を奏する。

図１は、本発明の一実施の形態に係る音声認識装置を備える車両用音声認識システムを示す概略図である。図２は、本発明の一実施の形態に係る車両用音声認識システムが備える音声認識装置及び車両制御装置の構成を示すブロック図である。図３は、本発明の一実施の形態に係る音声認識装置を備える車両用音声認識システムにおける発話内容の一例を示す図である。図４は、本発明の一実施の形態に係る車両用音声認識システムが行う音声認識処理の流れを説明する図である。図５は、本発明の実施の形態の変形例１に係る車両用音声認識システムが行う音声認識処理の流れを説明する図である。図６は、本発明の実施の形態の変形例２に係る車両用音声認識システムが備える音声認識装置及び車両制御装置の構成を示すブロック図である。図７は、本発明の実施の形態の変形例２に係る車両用音声認識システムが行う音声認識処理の流れを説明する図である。図８は、本発明の実施の形態の変形例３に係る車両用音声認識システムが備える音声認識装置及び車両制御装置の構成を示すブロック図である。図９は、本発明の実施の形態の変形例３に係る車両用音声認識システムが行う音声認識処理の流れを説明する図である。

以下、本発明の一実施形態について図面を参照しつつ説明する。なお、以下の一実施形態の全図においては、同一又は対応する部分には同一の符号を付す。また、本発明は以下に説明する一実施形態によって限定されるものではない。

（実施の形態）
まず、本発明の一実施の形態に係る音声認識装置を備える車両用音声認識システムについて説明する。図１は、本発明の一実施形態に係る車両用音声認識システムを示す概略図である。図２は、本発明の一実施の形態に係る車両用音声認識システムが備える音声認識装置及び車両制御装置の構成を示すブロック図である。

図１に示すように、この一実施形態による車両用音声認識システム１は、音声認識装置２０及び車両３０を備える。この一実施形態による車両用音声認識システム１においては、音声認識装置２０、各車両３０が、ネットワーク１０によって互いに通信可能に接続されている。具体的には、音声認識装置２０と、車両３０が備える車両制御装置３１とが、ネットワーク１０を介して通信可能に接続されている。ネットワーク１０は、音声認識装置２０及び車両３０の相互間で通信可能な、インターネット回線網や携帯電話回線網などから構成される。

音声認識装置２０は、各車両３０から、音声入力された音声データを受信し、受信した音声データに基づいて処理した情報を送信する。さらに、音声認識装置２０は、車両３０における安全確認処理等の運転支援処理を実行してもよい。

音声認識装置２０は、図３に示すように、通信部２１、発話情報処理部２２、制御部２３及び記憶部２４を備える。音声認識装置２０は、ＣＰＵ（Central Processing Unit）、ＦＰＧＡ（Field Programmable Gate Array）、ＲＯＭ（Read Only Memory）、及びＲＡＭ（Random Access Memory）等からなる一つ又は複数のコンピュータ等を用いて構成される。

通信部２１は、ネットワーク１０に接続して、車両３０と通信を行う。通信部２１は、車両３０から、音声データを受信したり、送信対象の車両３０に、音声認識した検索ワードに関する検索結果を送信したりする。通信部２１は、このほか、該車両３０に関する情報を受信し、車両３０の運転を支援する情報を送信してもよい。

発話情報処理部２２は、車両３０から音声データを受信すると、検索ワードの判定、及び、その検索ワードに対応する検索処理を実行する。発話情報処理部２２は、変換部２２１、カテゴリ判定部２２２、継続時間設定部２２３、終話判定部２２４及び情報抽出部２２５を備える。以下、「発話」とは利用者が一つ又は複数の単語を発することをいい、「終話」とは利用者が発話を終了することをいう。このため、「発話」中は、車両制御装置３１から順次音声データが入力され、「終話」は、利用者の発話による音声データの入力が完了したことを意味する。

変換部２２１は、車両制御装置３１から受信した音声データを単語列へ変換する。発話情報処理部２２は、記憶部２４にあらかじめ登録されている音素（例えば、「あ」、「い」など）と、受信した音声データとを照合することで、音声データに含まれる各音素を、文字へ変換する。そして、変換部２２１は、変換した各文字の集合を、記憶部２４に予め登録されている単語と照合することで、単語列へと変換する処理を行う。また、変換部２２１は、予め登録されている文法を単語列に対して適用することで、単語列に含まれる助詞などの単語を、検索キーワードとすべき単語と区別してカテゴリ判定部２２２へ出力する。

ここで、記憶部２４が記憶する単語及び文法の内容は、外部のデータベースを用いて更新することが可能であり、その更新内容は、記憶部２４にも反映される。たとえば、データベースに新たな店舗や施設が追加された場合には、追加された店舗名や施設名が新たな単語として記憶部２４に追加される。

カテゴリ判定部２２２は、変換部２２１から取得した単語列のカテゴリ（発話ドメイン）を判定する。カテゴリとしては、住所や施設、電話番号が挙げられる。カテゴリ判定部２２２は、単語列に基づいて、例えば住所、施設及び電話番号のうちのいずれかを、この単語列のカテゴリに選択する。本実施の形態では、カテゴリ判定部２２２によって判定されるカテゴリが、音声データの特徴に相当する。

継続時間設定部２２３は、音声データの入力が完了したと判定し得る継続時間を設定する。本実施の形態において、継続時間設定部２２３は、カテゴリ判定部２２２が判定したカテゴリに応じて継続時間を設定する。この継続時間は、前回音声データを受信した時刻から、新たな音声データの入力を受け付ける期間である。継続時間設定部２２３は、例えば、カテゴリに「住所」が選択された場合は、継続時間を、「施設」が選択されている場合よりも長い時間に設定する。

終話判定部２２４は、継続時間設定部２２３が設定した継続時間に基づいて利用者の発話が終了（終話）したか否かを判定する。具体的に、終話判定部２２４は、前回音声データが入力された時刻から、音声データが入力されない無音と判定される状態を維持している無音時間が、設定されている継続時間を超過したか否かを判定することによって、利用者の発話による音声データの入力が完了したか否かを判定する。

図３は、本発明の一実施形態に係る音声認識装置を備える車両用音声認識システムにおける発話内容の一例を示す図である。例えば、利用者が、施設名（「近くのコンビニ」）を音声入力した際には、図３の（ａ）に示すように、カテゴリ判定部２２２ではカテゴリとして「施設」が選択され、継続時間設定部２２３によって継続時間がＴ₁に設定される。これに対し、利用者が、住所（「愛知県名古屋市・・・昭和区一丁目・・・」）を音声入力した際には、図３の（ｂ）に示すように、カテゴリ判定部２２２ではカテゴリとして「住所」が選択され、継続時間設定部２２３によって継続時間がＴ₂（＞Ｔ₁）に設定される。

具体的には、図３の（ａ）に示すように、発話開始から「近くのコンビニ」という単語列の音声データを入力し終え、音声データの入力のない無音状態に遷移した時間ｔ₁₁から、継続時間Ｔ₁が経過しても新たな音声データの入力がなければ、終話判定部２２４は、今回の音声入力について音声データの入力が完了（終話）したと判定する。
これに対し、図３の（ｂ）に示すように、発話開始から「愛知県名古屋市」という単語列の音声データを入力し終え、音声データの入力のない無音状態に遷移した時間ｔ₂₁から、継続時間Ｔ₂が経過する前の継続時間内に新たな音声データの入力があれば、単語列の入力処理を継続する。例えば、時間ｔ₂₁から、継続時間Ｔ₁が経過し、かつ継続時間Ｔ₂（時間ｔ₂₁から時間ｔ₂₃までの期間）内である時間ｔ₂₂に音声入力があれば、単語列の入力処理を継続する。さらに、その後の「昭和区一丁目」という単語列を認識し終えた時間ｔ₂₄から、継続時間Ｔ₂内（時間ｔ₂₅まで）に新たな音声データの入力がなければ、終話判定部２２４は、今回の音声入力について音声データの入力が完了（終話）したと判定する。

情報抽出部２２５は、変換部２２１によって変換された単語列について、対応する情報を抽出する。例えば、利用者が住所を発話した場合、情報抽出部２２５は、記憶部２４に記憶されている地図情報から、住所に対応する位置と、その周辺の地図情報とを抽出する。この場合、カテゴリ判定部２２２はカテゴリとして「住所」を選択し、継続時間設定部２２３によって住所の音声入力に応じた継続時間が設定される。
なお、情報抽出部２２５は、終話の判定を待たずに、入力された単語列に基づいて情報を抽出している。この場合、単語列から複数の情報が抽出される場合もある。
音声認識装置２０は、情報抽出部２２５によって情報が抽出されると、この抽出情報を車両３０に出力する。

制御部２３は、音声認識装置２０の各部の動作を統括的に制御する。

記憶部２４は、ハードディスクや半導体メモリなどの記憶媒体、及びこれらの記憶媒体のドライブ装置を有して構成され、各種プログラム及び各種データが書き込み及び読み出し可能に格納されている。記憶部２４には、音声認識されるデータに対し、検索対象となる情報が記憶されている。検索対象となる情報としては、例えば、地図情報、施設情報、地図情報や施設情報と対応付いた電話番号等が挙げられる。

記憶部２４は、個人情報記憶部２４１を有する。個人情報記憶部２４１には、車両３０に対応付いて登録されている利用者の年齢や、発話速度、顔画像、声情報、体重等の利用者の個人情報が記憶されている。発話速度は、例えば、音声データに基づいて変換される単語列の単語間の無音時間から算出される速度である。このほか、発話速度は、互いに異なる利用者にそれぞれ特徴付けられる速度の相対値としてもよい。

車両３０に設けられる車両制御装置３１は、ネットワーク１０を介して音声認識装置２０と通信可能に接続するとともに、車両３０の各部を電気的に制御する。車両制御装置３１は、通信部３２、入出力部３３、音声認識部３４、ＥＣＵ（Electronic Control Unit）３５を備える。また、車両３０には、音声を集音するマイクロフォン３６が設けられる。マイクロフォン３６によって集音した音声データは、音声認識部３４に出力される。

通信部３２は、ネットワーク１０を介した無線通信によって、音声認識装置２０との間で通信を行う。

入出力部３３は、タッチパネルディスプレイやスピーカなどから構成される。入出力部３３は、ＥＣＵ３５の制御のもと、タッチパネルディスプレイの画面上に文字や図形などを表示したり、スピーカから音を出力したりして、運転支援に関する情報などの所定の情報を入出力可能に構成される。また、入出力部３３は、ユーザなどがタッチパネルディスプレイを操作することによって、ＥＣＵ３５に所定の情報を入力可能に構成される。
入出力部３３は、例えば、カーナビゲーションシステムの一部を構成する。

音声認識部３４は、マイクロフォン３６を介して入力される音声から音声データを生成して、ＥＣＵ３５に出力する。ＥＣＵ３５は、音声データが入力されると、ネットワーク１０を介して音声認識装置２０に送信する。
なお、音声認識部３４において、上述した単語列に変換してもよい。

ＥＣＵ３５は、ＣＰＵ、ＦＰＧＡ、ＲＯＭ、及びＲＡＭなどからなるマイクロコンピュータ等の情報処理装置によって構成されている。ＥＣＵ３５は、車両３０の各部の電気的な動作を統括的に制御する。ＥＣＵ３５は、入力されたデータや予め記憶しているデータ及びプログラムを使用して演算を行い、その演算結果を制御指令信号として出力するように構成されている。ＥＣＵ３５は、例えば、音声認識装置２０から情報を受信すると、入出力部３３に表示させる。具体的には、情報に応じた画像をカーナビゲーションシステムの表示画面に表示する。

なお、図示省略したが、車両制御装置３１は、ハードディスクや半導体メモリなどの記憶媒体、及びこれらの記憶媒体のドライブ装置を含む記憶部を備える。この記憶部には、ＥＣＵ３５が車両３０の各部の作動を統括的に制御するために必要なオペレーティングシステム（ＯＳ）や各種アプリケーションのプログラムが格納されている。

また、車両３０は、走行に必要な従来公知の設備を備える。具体的に、車両３０は、エンジンを備える。このエンジンは、燃料の燃焼による駆動によって電動機などを用いて発電可能に構成されてもよい。発電された電力は、例えば充電可能なバッテリに充電される。
また、車両３０には、ＧＰＳ（Global Positioning System）衛星からの電波を受信して、車両３０の位置を検出するＧＰＳ部を備える（図示略）。検出された位置は、車両３０の位置情報として、外部に出力又は記憶部に格納される。

続いて、車両用音声認識システム１が行う音声認識処理について、図４を参照して説明する。図４は、本発明の一実施形態に係る車両用音声認識システムが行う音声認識処理の流れを説明する図である。図４に示す処理は、例えば、車両３０が駆動した後に開始される。

ＥＣＵ３５は、音声認識を開始するか否かを判断する（ステップＳ１０１）。ＥＣＵ３５は、マイクロフォン３６を通じて音声認識部３４が音声入力を検出したか否かを判断することによって、音声認識の開始を判断する。ここで、ＥＣＵ３５は、音声認識部３４が音声入力を検出していない場合（ステップＳ１０１：Ｎｏ）、音声認識の開始の確認を繰り返す。これに対し、ＥＣＵ３５は、音声認識部３４が音声入力を検出した場合（ステップＳ１０１：Ｙｅｓ）、音声認識を開始し、ステップＳ１０２に移行する。

ステップＳ１０２において、音声認識部３４は、入力された音声から音声データを生成して、ＥＣＵ３５に出力する。ＥＣＵ３５は、音声データを、ネットワーク１０を介して音声認識装置２０に送信する。

ステップＳ１０２に続くステップＳ１０３において、音声認識装置２０では、変換部２２１によって音声データが単語列に変換され、カテゴリ判定部２２２が、この単語列のカテゴリを判定する。カテゴリ判定部２２２は、例えば、住所や施設名、電話番号のいずれかをカテゴリとして選択する。

継続時間設定部２２３は、ステップＳ１０４において判定されたカテゴリに応じて継続時間を設定する（ステップ１０４）。制御部２３は、継続時間を設定すると、ステップＳ１０５に移行する。

ステップＳ１０５において、情報抽出部２２５が、入力された単語列に対応する情報を抽出する。単語列に対応する情報が抽出されると、通信部２１から車両３０にこの抽出情報が送信される（ステップＳ１０６）。抽出情報には、複数の選択候補を含まれる場合がある。

その後、車両３０において、取得した抽出情報が表示される（ステップＳ１０７）。
なお、上述したステップＳ１０３、Ｓ１０４と、Ｓ１０５～Ｓ１０７とは、順序が逆であってもよい。

終話判定部２２４は、無音状態であるか否かを判断する（ステップＳ１０８）。具体的に、終話判定部２２４は、車両制御装置３１から音声データが入力されたか否かを判断する（ステップＳ１０８）。ここで、終話判定部２２４は、無音状態ではない、すなわち新たな音声データの入力がある場合（ステップＳ１０８：Ｎｏ）、ステップＳ１０３に戻り、上述した処理を繰り返す。これに対し、ＥＣＵ３５は、音声データが入力されていない、無音状態である場合（ステップＳ１０８：Ｙｅｓ）、ステップＳ１０９に移行する。

ステップＳ１０９において、終話判定部２２４は、すでに無音時間を計測中であるか否かを判断する。終話判定部２２４は、無音時間を計測中であれば（ステップＳ１０９：Ｙｅｓ）、ステップＳ１１１に移行する。これに対し、終話判定部２２４は、無音時間の計測を開始していなければ（ステップＳ１０９：Ｎｏ）、ステップＳ１１０に移行する。

ステップＳ１１０において、終話判定部２２４は、無音時間の計測を開始する。終話判定部２２４は、最新の音声データが入力された時刻からの経過時間を無音時間として計測する。

ステップＳ１１１において、終話判定部２２４は、計測された無音時間が、設定されている継続時間を超過しているか否かを判断する。終話判定部２２４は、無音時間が継続時間を超過していないと判断した場合（ステップＳ１１１：Ｎｏ）、ステップＳ１０８に戻る。これに対し、終話判定部２２４は、無音時間が継続時間を超過していると判断した場合（ステップＳ１１１：Ｙｅｓ）、ステップＳ１１２に移行する。

ステップＳ１１２において、終話判定部２２４は、音声データの入力が完了（利用者が発話を終了（終話））したと判定する。

利用者は、車両３０において都度表示される抽出結果を確認し、所望の情報を選択、又は設定を行う。例えば、住所を検索した場合、利用者は、目的地とする住所が表示されていれば、その住所を目的地に設定する。この際、現在地から目的地までの経路検索等がなされる。一方、所望の情報が表示されない場合に、利用者が再び音声入力した際には、車両用音声認識システム１において上述した音声認識処理が再度実行される。

以上説明した本実施の形態では、入力された音声データから、発話カテゴリを判定し、判定した発話カテゴリに応じて、音声データの入力が完了したと判定し得る継続時間を設定するようにした。本実施の形態によれば、音声入力を実施する直前に、予め検索項目のカテゴリを設定せずに、検索ワードの終話を適切に判定することができる。

なお、上述した実施の形態では、発話カテゴリを判定し、この判定した発話カテゴリに基づいて継続時間を設定するようにしたが、継続時間の設定は、発話カテゴリに限定されない。

（変形例１）
次に、本実施の形態の変形例１について、図５を参照して説明する。本変形例１に係る車両用音声認識システムは、上述した音声認識装置２０、車両制御装置３１において、終話判定部２２４を車両制御装置３１に設ける。これ以外の構成は、上述した車両用音声認識システム１と同じ構成であるため、説明を省略する。

図５は、本発明の実施形態の変形例１に係る車両用音声認識システムが行う音声認識処理の流れを説明する図である。図５に示す処理は、例えば、車両３０が駆動した後に開始される。

ＥＣＵ３５は、音声認識を開始するか否かを判断する（ステップＳ２０１）。ＥＣＵ３５は、マイクロフォン３６を通じて音声認識部３４が音声入力を検出したか否かを判断することによって、音声認識の開始を判断する。ここで、ＥＣＵ３５は、音声認識部３４が音声入力を検出していない場合（ステップＳ２０１：Ｎｏ）、音声認識の開始の確認を繰り返す。これに対し、ＥＣＵ３５は、音声認識部３４が音声入力を検出した場合（ステップＳ２０１：Ｙｅｓ）、音声認識を開始し、ステップＳ２０２に移行する。

ステップＳ２０２において、音声認識部３４は、入力された音声から音声データを生成して、ＥＣＵ３５に出力する。ＥＣＵ３５は、音声データを、ネットワーク１０を介して音声認識装置２０に送信する。

ステップＳ２０２に続くステップＳ２０３において、音声認識装置２０では、変換部２２１によって音声データが単語列に変換され、カテゴリ判定部２２２が、この単語列のカテゴリを判定する。カテゴリ判定部２２２は、例えば、住所や施設名、電話番号のいずれかをカテゴリとして選択する。

継続時間設定部２２３は、ステップＳ１０４において判定されたカテゴリに応じて継続時間を設定する（ステップ２０４）。制御部２３は、継続時間を設定すると、設定した継続時間を車両制御装置３１に送信する（ステップＳ２０５）。

制御部２３は、受信した継続時間にしたがって、継続時間を設定する（ステップ２０６）。

一方、音声認識装置２０では、情報抽出部２２５が、入力された単語列に対応する情報を抽出する（ステップＳ２０７）。単語列に対応する情報が抽出されると、通信部２１から車両３０にこの抽出情報が送信される（ステップＳ２０８）。抽出情報には、複数の選択候補を含まれる場合がある。

その後、車両３０において、取得した抽出情報が表示される（ステップＳ２０９）。
なお、上述したステップＳ２０３～Ｓ２０６と、Ｓ２０７～Ｓ２０９とは、順序が逆であってもよい。

車両制御装置３１に設けられる終話判定部２２４は、無音状態であるか否かを判断する（ステップＳ２１０）。具体的に、終話判定部２２４は、マイクロフォン３６を介して音声データが入力されたか否かを判断する。ここで、終話判定部２２４は、音声データの入力がある場合（ステップＳ２１０：Ｎｏ）、ステップＳ２０２に戻り、上述した処理を繰り返す。これに対し、ＥＣＵ３５は、音声データが入力されていない、無音状態である場合（ステップＳ２１０：Ｙｅｓ）、ステップＳ２１１に移行する。

ステップＳ２１１において、終話判定部２２４は、すでに無音時間を計測中であるか否かを判断する。終話判定部２２４は、無音時間を計測中であれば（ステップＳ２１１：Ｙｅｓ）、ステップＳ２１３に移行する。これに対し、終話判定部２２４は、無音時間の計測を開始していなければ（ステップＳ２１１：Ｎｏ）、ステップＳ２１２に移行する。

ステップＳ２１２において、終話判定部２２４は、無音時間の計測を開始する。終話判定部２２４は、最新の音声データが入力された時刻からの経過時間を無音時間として計測する。

ステップＳ２１３において、終話判定部２２４は、計測された無音時間が、設定されている継続時間を超過しているか否かを判断する。終話判定部２２４は、無音時間が継続時間を超過していないと判断した場合（ステップＳ２１３：Ｎｏ）、ステップＳ２１０に戻る。これに対し、終話判定部２２４は、無音時間が継続時間を超過していると判断した場合（ステップＳ２１３：Ｙｅｓ）、ステップＳ１４に移行する。

ステップＳ２１４において、終話判定部２２４は、音声データの入力が完了（利用者が発話を終了（終話））したと判定する。

以上説明した変形例１のように、車両制御装置３１において、終話が完了したと判定してもよい。本変形例１においても、音声入力を実施する直前に、予め検索項目のカテゴリを設定せずに、検索ワードの終話を適切に判定することができる。

（変形例２）
図６は、本発明の実施の形態の変形例２に係る車両用音声認識システムが備える音声認識装置及び車両制御装置の構成を示すブロック図である。本変形例２に係る車両用音声認識システムは、上述した音声認識装置２０、車両制御装置３１に代えて音声認識装置２０Ａ、車両制御装置３１Ａを備える。

音声認識装置２０Ａは、上述した通信部２１、制御部２３及び記憶部２４に加え、発話情報処理部２２Ａを備える。通信部２１、制御部２３及び記憶部２４は、上述した車両用音声認識システム１と同じ構成であるため、説明を省略する。

発話情報処理部２２Ａは、変換部２２１、継続時間設定部２２３、終話判定部２２４及び情報抽出部２２５を備える。発話情報処理部２２Ａは、上述した発話情報処理部２２に対し、カテゴリ判定部２２２を有しない構成である。

車両制御装置３１Ａは、上述した通信部３２、入出力部３３、音声認識部３４及びＥＣＵ３５に加え、個人情報記憶部３７を備える。また、車両３０には、音声を集音するマイクロフォン３６が設けられる。通信部３２、入出力部３３、音声認識部３４及びＥＣＵ３５、並びに車両に設けられるマイクロフォン３６は、上述した車両用音声認識システム１と同じ構成であるため、説明を省略する。

個人情報記憶部３７は、車両３０を利用する利用者の個人情報を記憶する。個人情報記憶部３７には、年齢や発話速度等が個人名に対応付けて記憶されている。
ＥＣＵ３５は、入出力部３３を介して選択された個人について、個人情報記憶部３７を参照して情報を抽出し、音声認識装置２０Ａに出力する。

本変形例２では、予め設定されている個人情報に基づいて継続時間を設定する。図７は、本発明の実施の形態の変形例１に係る車両用音声認識システムが行う音声認識処理の流れを説明する図である。図７に示す処理は、例えば、車両が駆動した後に開始される。

まず、車両駆動時、ＥＣＵ３５が、個人情報記憶部３７を参照して、自身の車両の個人情報を音声認識装置２０に送信する（ステップＳ３０１）。ここで送信される個人情報としては、車両に乗って、音声入力を利用する利用者であって、入出力部３３を介して選択された利用者の年齢を含む情報である。本変形例１では、利用者の年齢が、音声データの特徴に相当する。

音声認識装置２０Ａが車両制御装置３１Ａから個人情報を取得すると、継続時間設定部２２３が、個人情報に基づいて、継続時間を設定する（ステップＳ３０２）。本変形例２では、継続時間設定部２２３が、個人情報から年齢を抽出し、この年齢に応じて継続時間を設定する。この際、例えば、個人の年齢が高いほど継続時間を長く設定する。

ＥＣＵ３５は、音声認識を開始するか否かを判断する（ステップＳ３０３）。ＥＣＵ３５は、マイクロフォン３６を通じて音声認識部３４が音声入力を検出したか否かを判断することによって、音声認識の開始を判断する。ここで、ＥＣＵ３５は、音声認識部３４が音声入力を検出していない場合（ステップＳ３０３：Ｎｏ）、音声認識の開始の確認を繰り返す。これに対し、ＥＣＵ３５は、音声認識部３４が音声入力を検出した場合（ステップＳ３０３：Ｙｅｓ）、音声認識を開始し、ステップＳ３０４に移行する。

ステップＳ３０４において、音声認識部３４は、入力された音声から音声データを生成して、ＥＣＵ３５に出力する。ＥＣＵ３５は、音声データを、ネットワーク１０を介して音声認識装置２０Ａに送信する。

ステップＳ３０４に続くステップＳ３０５において、音声認識装置２０では、変換部２２１によって音声データが単語列に変換され、情報抽出部２２５が、入力された単語列に対応する情報を抽出する。単語列に対応する情報が抽出されると、通信部２１から車両３０にこの抽出情報が送信される（ステップＳ３０６）。抽出情報には、複数の選択候補が含まれる場合がある。

その後、車両３０Ａにおいて、取得した抽出情報が表示される（ステップＳ３０７）。

終話判定部２２４は、無音状態であるか否かを判断する（ステップＳ３０８）。具体的に、終話判定部２２４は、車両制御装置３１から音声データが入力されたか否かを判断する（ステップＳ３０８）。ここで、終話判定部２２４は、音声データの入力がある場合（ステップＳ３０８：Ｎｏ）、ステップＳ３０５に戻り、上述した処理を繰り返す。これに対し、ＥＣＵ３５は、音声データが入力されていない、無音状態である場合（ステップＳ３０８：Ｙｅｓ）、ステップＳ３０９に移行する。

ステップＳ３０９において、終話判定部２２４は、すでに無音時間を計測中であるか否かを判断する。終話判定部２２４は、無音時間を計測中であれば（ステップＳ３０９：Ｙｅｓ）、ステップＳ３１１に移行する。これに対し、終話判定部２２４は、無音時間の計測を開始していなければ（ステップＳ３０９：Ｎｏ）、ステップＳ３１０に移行する。

ステップＳ３１０において、終話判定部２２４は、無音時間の計測を開始する。終話判定部２２４は、最新の音声データが入力された時刻からの経過時間を無音時間として計測する。

ステップＳ３１１において、終話判定部２２４は、計測された無音時間が、設定されている継続時間を超過しているか否かを判断する。終話判定部２２４は、無音時間が継続時間を超過していないと判断した場合（ステップＳ３１１：Ｎｏ）、ステップＳ３０８に戻る。これに対し、終話判定部２２４は、無音時間が継続時間を超過していると判断した場合（ステップＳ３１１：Ｙｅｓ）、ステップＳ３１２に移行する。

ステップＳ３１２において、終話判定部２２４は、音声データの入力が完了（利用者が発話を終了（終話））したと判定する。

以上説明した本変形例２では、入力された個人情報から継続時間を設定するようにした。本変形例２によれば、音声入力を実施するにあたり、個人情報から継続時間が設定されるため、予め検索項目のカテゴリを設定せずに、検索ワードの終話を適切に判定することができる。このように、個人情報に応じて終話を判定することによって、検索ワードの終話判定に対する柔軟性を向上させることができる。

なお、上述した変形例２において、例えば、車両に乗車した個人の顔情報を取得して、顔画像に基づく識別処理によって個人を特定する、又は、声（周波数等）によって個人を特定するようにしてもよい。声によって個人を判定することによって、車両３０に複数人乗った場合であっても、発話した利用者に応じた継続時間を設定することができる。

（変形例３）
図８は、本発明の実施の形態の変形例２に係る車両用音声認識システムが備える音声認識装置及び車両制御装置の構成を示すブロック図である。本変形例３に係る車両用音声認識システムは、上述した音声認識装置２０に代えて音声認識装置２０Ｂを備える。音声認識装置２０Ｂ以外の構成は、上述した車両用音声認識システム１と同じ構成であるため、説明を省略する。

音声認識装置２０Ｂは、上述した通信部２１、制御部２３及び記憶部２４に加え、発話情報処理部２２Ｂを備える。通信部２１、制御部２３及び記憶部２４は、上述した車両用音声認識システム１と同じ構成であるため、説明を省略する。

発話情報処理部２２Ｂは、変換部２２１、認識エラー判定部２２６、継続時間設定部２２３、終話判定部２２４及び情報抽出部２２５を備える。発話情報処理部２２Ｂは、上述した発話情報処理部２２に対し、カテゴリ判定部２２２に代えて認識エラー判定部２２６を有する構成である。

認識エラー判定部２２６は、発話内容（単語又は単語列）の前後の関係を検出して、音声認識処理に認識エラーが生じたか否かを判定する。認識エラー判定部２２６は、例えば、発話カテゴリや発話内容等、発話内容が途中で変更された場合や、発話内容確定後、設定等がなされず、新たに音声入力があった場合、検索結果として設定候補が幾つか存在した状態で処理が終了した場合に、認識エラーが生じたと判定する。ここで、認識エラー判定部２２６は、発話内容が、例えば住所から施設名に変わる等、発話内容に繋がりがないと判定した場合に、発話内容が変更されたと判定する。
制御部２３は、認識エラーが生じたと判定された場合に、個人情報記憶部２４１に記憶されている該当の利用者の認識エラー回数を一つ増加させる。本変形例２では、認識エラー回数が、音声データの特徴に相当する。

本変形例３では、予め設定されている個人情報に基づいて継続時間を設定する。図９は、本発明の実施の形態の変形例２に係る車両用音声認識システムが行う音声認識処理の流れを説明する図である。図９に示す処理では、基本とする継続時間が予め設定されている。

ＥＣＵ３５は、音声認識を開始するか否かを判断する（ステップＳ４０１）。ＥＣＵ３５は、マイクロフォン３６を通じて音声認識部３４が音声入力を検出したか否かを判断することによって、音声認識の開始を判断する。ここで、ＥＣＵ３５は、音声認識部３４が音声入力を検出していない場合（ステップＳ４０１：Ｎｏ）、音声認識の開始の確認を繰り返す。これに対し、ＥＣＵ３５は、音声認識部３４が音声入力を検出した場合（ステップＳ４０１：Ｙｅｓ）、音声認識を開始し、ステップＳ４０２に移行する。

ステップＳ４０２において、音声認識部３４は、入力された音声から音声データを生成して、ＥＣＵ３５に出力する。ＥＣＵ３５は、音声データを、ネットワーク１０を介して音声認識装置２０に送信する。

ステップＳ４０２に続くステップＳ４０３において、音声認識装置２０Ｂでは、変換部２２１によって音声データが単語列に変換され、情報抽出部２２５が、入力された単語列に対応する情報を抽出する。単語列に対応する情報が抽出されると、通信部２１から車両３０にこの抽出情報が送信される（ステップＳ４０４）。抽出情報には、複数の選択候補が含まれる場合がある。

その後、車両３０において、取得した抽出情報が表示される（ステップＳ４０５）。

一方、音声認識装置２０Ｂでは、認識エラーの判定処理が行われる（ステップＳ４０６）。認識エラー判定部２２６は、音声データをもとに、利用者が前回発話した発話内容（単語又は単語列）と、今回の発話内容（単語又は単語列）とを比較して、認識エラーが生じているか否かを判定する。ここで、認識エラー判定部２２６は、発話内容に認識エラーが生じていると判定した場合（ステップＳ４０６：Ｙｅｓ）、ステップＳ４０７に移行する。これに対し、認識エラー判定部２２６は、発話内容に認識エラーが生じていないと判定した場合（ステップＳ４０６：Ｎｏ）、ステップＳ４１０に移行する。

ステップＳ４０７において、制御部２３は、認識エラー回数をカウントアップする。これにより、利用者に対応付いた認識エラー回数が一つ増加する。この際、制御部２３は、認識エラー回数を記憶部２４に記憶させるようにしてもよい。

その後、制御部２３は、カウントアップ後の認識エラー回数が閾値以上であるか否かを判定する（ステップＳ４０８）。制御部２３は、認識エラー回数が閾値以上であると判定した場合（ステップＳ４０８：Ｙｅｓ）、ステップＳ４０９に移行する。これに対し、制御部２３は、認識エラー回数が閾値より小さいと判定した場合（ステップＳ４０８：Ｎｏ）、ステップＳ４１０に移行する。ここで、閾値は、予め設定されており、継続時間を延長すべきと判断される認識エラーの回数に応じて設定される。

ステップＳ４０９において、継続時間設定部２２３は、継続時間を再設定する。この際、継続時間設定部２２３は、継続時間が長くなる設定を行う。

一方、ステップＳ４１０において、継続時間設定部２２３は、現在設定されている継続時間の設定を維持する。

ステップＳ４０９又はステップＳ４１０による継続時間の設定後、終話判定部２２４は、無音状態であるか否かを判断する（ステップＳ４１１）。具体的に、終話判定部２２４は、車両制御装置３１から音声データが入力されたか否かを判断する（ステップＳ４１１）。ここで、終話判定部２２４は、音声データの入力がある場合（ステップＳ４１１：Ｎｏ）、ステップＳ４０３に戻り、上述した処理を繰り返す。これに対し、ＥＣＵ３５は、音声データが入力されていない、無音状態である場合（ステップＳ４１１：Ｙｅｓ）、ステップＳ４１２に移行する。

ステップＳ４１２において、終話判定部２２４は、すでに無音時間を計測中であるか否かを判断する。終話判定部２２４は、無音時間を計測中であれば（ステップＳ４１２：Ｙｅｓ）、ステップＳ４１４に移行する。これに対し、終話判定部２２４は、無音時間の計測を開始していなければ（ステップＳ４１１：Ｎｏ）、ステップＳ４０３に戻り、上述した指示を繰り返す。

ステップＳ４１３において、終話判定部２２４は、無音時間の計測を開始する。終話判定部２２４は、最新の音声データが入力された時刻からの経過時間を無音時間として計測する。

ステップＳ４１４において、終話判定部２２４は、計測された無音時間が、設定されている継続時間を超過しているか否かを判断する。終話判定部２２４は、無音時間が継続時間を超過していないと判断した場合（ステップＳ４１４：Ｎｏ）、ステップＳ４１１に戻る。これに対し、終話判定部２２４は、無音時間が継続時間を超過していると判断した場合（ステップＳ４１４：Ｙｅｓ）、ステップＳ４１５に移行する。

ステップＳ４１５において、終話判定部２２４は、音声データの入力が完了（利用者が発話を終了（終話））したと判定する。

以上説明した本変形例３では、音声認識の認識エラーの回数から継続時間を設定するようにした。本変形例３によれば、音声入力を実施するにあたり、認識エラーが続くと継続時間が再設定されるため、予め検索項目のカテゴリを設定せずに、検索ワードの終話を適切に判定することができる。

なお、変形例３において、認識エラーの回数を都度、個人情報と関連付けて個人ごとに認識エラーのカウント値を付与し、車両３０に乗った個人を特定後、認識エラーのカウント値が抽出され、そのカウント値に応じて継続時間が設定されるようにしてもよい。

また、上述した実施の形態及び変形例に限らず、例えば、利用者の発話速度が速いほど、継続時間を短くしてもよい。この場合、例えば図４のステップＳ１０３、Ｓ１０４において、継続時間設定部２２３が、音声データに基づいて、例えば単語列の単語間の無音時間を検出したり、単語数とその発話に要した時間とを検出したりして、この検出結果から発話速度を算出し、この発話速度に応じて継続時間を設定する。これにより、例えば利用者が急いで話した場合に、相対的に早く終話することによって、利用者のストレスを軽減することができる。
さらに、利用者の声の声量や抑揚に応じて継続時間を変更してもよい。
また、使用する曜日などを継続時間の設定パラメータとしてもよい。
また、上述したパラメータを、適宜組み合わせてもよい。

上述した実施の形態及び変形例では、音声認識装置２０と車両３０との通信によってカテゴリ判定や情報抽出を行うようにしたが、例えば、発話情報処理部２２と、その処理に必要な情報を車両３０に持たせて、車両３０内部において、上述した音声認識処理のすべてを行うようにしてもよい。また、車両３０に限らず、利用者の端末に、音声認識部３４やマイクロフォン３６を設けて、発話情報処理部を備えたサーバに接続して音声入力や音声認識処理を実行するようにしてもよい。

さらなる効果や変形例は、当業者によって容易に導き出すことができる。本発明のより広範な態様は、以上のように表しかつ記述した特定の詳細および代表的な実施の形態に限定されるものではない。したがって、添付のクレームおよびその均等物によって定義される総括的な発明の概念の精神または範囲から逸脱することなく、様々な変更が可能である。

１車両用音声認識システム
２０、２０Ａ、２０Ｂ音声認識装置
２１、３２通信部
２２発話情報処理部
２３制御部
２４記憶部
３０車両
３１、３１Ａ車両制御装置
３３入出力部
３４音声認識部
３５ＥＣＵ
３６マイクロフォン
３７、２４１個人情報記憶部
２２１変換部
２２２カテゴリ判定部
２２３継続時間設定部
２２４終話判定部
２２５情報抽出部
２２６認識エラー判定部

Claims

メモリと、
ハードウェアを備えたプロセッサと、
を備え、
前記プロセッサは、
入力される音声データから単語列を抽出し、
該抽出した単語列のカテゴリを決定し、
前記音声データが無音状態に遷移した後の該無音状態の継続時間であって前記音声データの入力が完了したと判定し得る無音状態の継続時間を、決定した前記カテゴリに基づいて設定する
音声認識装置。
前記プロセッサは、入力された音声データが前記無音状態に遷移してから経過した無音時間が、前記無音状態の継続時間を超過した場合に、前記音声データの入力が完了したと判定する
請求項１に記載の音声認識装置。
前記プロセッサは、前記音声データから、決定した前記カテゴリが住所、施設名及び電話番号のいずれであるかを判定し、判定した特徴に応じて前記無音状態の継続時間を設定する
請求項１に記載の音声認識装置。
前記プロセッサは、前記音声データにおける音声認識のエラー回数を算出し、該エラー回数に応じて前記無音状態の継続時間を設定する
請求項１に記載の音声認識装置。
前記プロセッサは、当該音声認識装置を利用する利用者の情報から前記音声データの特徴を取得し、該取得した音声データの特徴に応じて前記無音状態の継続時間を設定する
請求項１に記載の音声認識装置。
前記プロセッサは、利用者の年齢を判定し、判定した年齢に応じて前記無音状態の継続時間を設定する
請求項５に記載の音声認識装置。
前記プロセッサは、音声データから発話速度を算出し、算出した発話速度に応じて前記無音状態の継続時間を設定する
請求項１に記載の音声認識装置。
外部から入力される音声を認識する音声認識方法であって、
入力される音声データから単語列を抽出し、
該抽出した単語列のカテゴリを決定し、
前記音声データが無音状態に遷移した後の該無音状態の継続時間であって前記音声データの入力が完了したと判定し得る無音状態の継続時間を、決定した前記カテゴリに基づいて設定する
音声認識方法。
外部から入力される音声を認識する音声認識装置に、
入力される音声データから単語列を抽出させ、
該抽出した単語列のカテゴリを決定し、
前記音声データが無音状態に遷移した後の該無音状態の継続時間であって前記音声データの入力が完了したと判定し得る無音状態の継続時間を、決定した前記カテゴリに基づいて設定させる
音声認識プログラム。