JP6522009B2

JP6522009B2 - 音声認識システム

Info

Publication number: JP6522009B2
Application number: JP2016565813A
Authority: JP
Inventors: 悠希住吉; 匠武井; 直哉馬場
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2014-12-26
Filing date: 2014-12-26
Publication date: 2019-05-29
Anticipated expiration: 2034-12-26
Also published as: CN107110660A; DE112014007288T5; WO2016103465A1; US20170301349A1; JPWO2016103465A1

Description

この発明は、ユーザの発話を認識する音声認識システムに関するものである。

従来の音声認識システムにおいては、ユーザは予めシステムに認識させたい内容を考えておき、ＰＴＴ（ＰｕｓｈＴｏＴａｌｋ）ボタンの押下等による音声認識開始指示を行った後に発話する必要があった。このシステムでは、ユーザ同士の自然な会話中に出現した単語を自動的に認識することができないので、ユーザはその単語を認識させるためにＰＴＴボタン等を押下した後に改めて発話しなければならない。そのため操作が煩わしいという問題および認識させたい内容を忘れてしまうという問題があった。

これに対し、マイクにより集音された音声を、常時、音声認識する音声認識システムがある。この音声認識システムにおいては、ユーザによる音声認識開始指示が不要であるため、上述した煩わしさを解消することはできる。しかし、ユーザの操作意図の有無に関わらず勝手に認識結果に対応する機能を実行するため、ユーザを混乱させてしまう。

ここで、特許文献１には、常時音声を認識し、認識結果に対応する機能を実行するためのショートカットボタンを生成して表示する作動制御装置が記載されている。

特開２００８-１４８１８号公報

上記特許文献１の作動制御装置では、ユーザがショートカットボタンを押下することで初めて、認識結果に対応する機能を実行するので、ユーザの意図に反して勝手に動作することを防止することができる。しかしながら、特許文献１の場合、ショートカットボタンにより画面に表示されている情報の一部が隠されてしまったり、ショートカットボタンを表示する際の画面更新により表示内容の変化が生じたりするため、ユーザに不快感を生じさせたり、運転中の場合等は集中力の低下を生じさせたりするという課題がある。

この発明は、上記のような問題を解決するためになされたものであり、常時音声を認識し、認識結果に対応する機能を実行するための機能実行ボタンを、ユーザが必要とするタイミングで提示することができる音声認識システムを提供することを目的とする。

本発明に係る音声認識システムは、会話中の音声を、予め設定された音声取得期間に亘って取得する音声取得部と、音声認識開始指示がなくても、予め定義されている機能が割り当てられた機能実行ボタンの表示内容に対応して前記音声取得部が前記音声取得期間に亘って取得した会話中の音声を認識し、認識結果として保持する音声認識部と、音声認識部の認識結果に対して予め定義されている機能が割り当てられた機能実行ボタンを表示部に表示するきっかけとなる、予め定められた操作または動作を行ったか否かを判定する判定部と、判定部において予め定められた操作または動作を行ったと判定された場合、音声認識部に保持されている認識結果に対して予め定義されている機能を被制御装置に実行させる機能実行ボタンを表示部に表示させる表示制御部とを備えるものである。

本発明は、予め設定された音声取得期間に亘って会話中の音声を取り込み、かつ、ユーザにより予め定められた操作または動作がなされたときに、音声取得部が音声取得期間に亘って取得した会話中の音声に基づき、予め定義されている機能が割り当てられた機能実行ボタンを表示することとしたので、会話中に出現した単語をＰＴＴボタン押下後に改めて発話し直す煩雑さを解消することができる。また、ユーザの意図に反した動作を生じなくなり、さらには、機能実行ボタン表示時の画面更新による集中力の低下を抑制することができる。その上、ユーザにとっては、自身の操作意図を先読みした機能実行ボタンを提示してくれることになるので、ユーザフレンドリさおよび使い易さを向上させることができる。

この発明の実施の形態１に係る音声認識システムを適用したナビゲーションシステムの一例を示すブロック図である。実施の形態１に係る音声認識システムを適用したナビゲーションシステムの主なハードウェア構成を示す概略構成図である。実施の形態１に係る音声認識システムの動作の概略を説明するための説明図である。認識結果に含まれる認識結果文字列と認識結果種別の例を示す図である。認識結果種別と機能実行ボタンに割り当てるべき機能との対応の一例を示す図である。実施の形態１に係る音声認識システムにおいて、ユーザ発話の認識結果の保持についての処理を示したフローチャートである。実施の形態１に係る音声認識システムにおいて、機能実行ボタンの表示についての処理を示したフローチャートである。機能実行ボタンの表示例を示す図である。認識結果格納部による認識結果の格納例を示す図である。機能実行ボタンの表示態様の一例を示す図である。実施の形態１に係る音声認識システムの変形例を示すブロック図である。ユーザの操作と認識結果種別との対応の一例を示す図である。この発明の実施の形態２に係る音声認識システムにおいて、機能実行ボタンの表示についての処理を示したフローチャートである。機能実行ボタンの別の表示例を示す図である。ユーザの発話内容と認識結果種別との対応およびユーザの動作内容と認識結果種別との対応の一例を示す図である。この発明の実施の形態３に係る音声認識システムを適用したナビゲーションシステムの一例を示すブロック図である。実施の形態３に係る音声認識システムにおいて、ユーザ発話の取り込みおよび保持についての処理を示したフローチャートである。実施の形態３に係る音声認識システムにおいて、機能実行ボタンの表示についての処理を示したフローチャートである。

以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
なお、以下の実施の形態では、この発明に係る音声認識システムを車両等の移動体用のナビゲーションシステム（被制御装置）に適用した場合を例に挙げて説明するが、音声操作機能を有するシステムであれば、どのようなシステムに適用してもよい。

実施の形態１．
図１は、この発明の実施の形態１に係る音声認識システム２を適用したナビゲーションシステム１の一例を示すブロック図である。このナビゲーションシステム１は、制御部３、入力受信部５、ナビゲーション部６、音声制御部７、音声取得部１０、音声認識部１１、判定部１４および表示制御部１５を備えている。なお、ナビゲーションシステム１の構成要件は、ネットワーク上のサーバ、スマートフォン等の携帯端末、車載器に分散されていてもよい。

ここで、音声取得部１０、音声認識部１１、判定部１４および表示制御部１５が、音声認識システム２を構成する。

図２は、実施の形態１におけるナビゲーションシステム１とその周辺機器の主なハードウェア構成を示す概略図である。バス１００には、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１０１、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１０２、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１０３、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）１０４、入力装置１０５、および出力装置１０６が接続されている。

ＣＰＵ１０１は、ＲＯＭ１０２またはＨＤＤ１０４に記憶された各種プログラムを読みだして実行することにより、各ハードウェアと協働してナビゲーションシステム１の制御部３、入力受信部５、ナビゲーション部６、音声制御部７、音声取得部１０、音声認識部１１、判定部１４および表示制御部１５としての機能を実現する。入力装置１０５は、指示入力部４、入力受信部５およびマイク９である。出力装置１０６は、スピーカ８および表示部１８である。

まず、音声認識システム２の動作概要を説明する。
音声認識システム２は、マイク９により集音された音声を予め設定された音声取得期間に亘って連続的に取り込んで、予め定められたキーワードを認識し、認識結果を保持する。そして、音声認識システム２は、移動体のユーザによりナビゲーションシステム１に対して予め定められた操作が行われたか否か判定し、当該操作が行われると、保持している認識結果を用いて認識結果に対応する機能を実行するための機能実行ボタンを生成し、生成した機能実行ボタンを表示部１８へ出力する。
予め設定された音声取得期間については後述する。

例えば、図３（ａ）のような地図表示画面が表示部１８のディスプレイに表示されているときに、ユーザＡとユーザＢにより以下のような会話が行われたものとする。
Ａ：「この曲終わったら次は何再生しよう？」
Ｂ：「ミスチャイルドを久しぶりに聞きたいなぁ」
Ａ：「いいねー。そういえば、昼食はレストランでいい？」
Ｂ：「コンビニで何か買えばいいかなぁ」
Ａ：「わかったー」
ここで、音声認識システム２は、キーワードとしてアーティスト名「ミスチャイルド」と施設ジャンル名「レストラン」「コンビニ」とを認識するが、この段階では、これらの認識結果に対応する機能実行ボタンを表示部１８に表示しない。なお、図３に示す「メニュー」ボタンＨＷ１、「目的地」ボタンＨＷ２、「ＡＶ（ＡｕｄｉｏＶｉｓｕａｌ）」ボタンＨＷ３および「現在地」ボタンＨＷ４は、表示部１８のディスプレイ筐体に設置されたハードウェア（ＨＷ）キーである。

その後、ユーザＢが現在地周辺のコンビニを検索するために、メニュー画面を表示するための「メニュー」ボタンＨＷ１を押下し、図３（ｂ）のようなメニュー画面が表示されたときに、音声認識システム２は、認識結果「ミスチャイルド」「レストラン」「コンビニ」に対応する機能実行ボタンである「ミスチャイルド」ボタンＳＷ１、「レストラン」ボタンＳＷ２、および「コンビニ」ボタンＳＷ３を表示部１８に表示する。これらの機能実行ボタンは、メニュー画面に表示されたソフトウェア（ＳＷ）キーである。また、「目的地設定」ボタンＳＷ１１、「ＡＶ」ボタンＳＷ１２、「電話」ボタンＳＷ１３および「設定」ボタンＳＷ１４は、機能実行ボタンではないが、ソフトウェアキーではある。

続いて、ユーザＢが機能実行ボタンである「コンビニ」ボタンＳＷ３を押下すると、ナビゲーションシステム１のナビゲーション部６は、現在地周辺のコンビニの検索を実行し、検索結果を表示部１８に表示する。なお、音声認識システム２についての詳細な説明は後述する。
一方、「コンビニ」ボタンＳＷ３を使用せずに現在地周辺のコンビニの検索を実行しようとした場合、ユーザＢは、例えば「メニュー」ボタンＨＷ１を押下操作してメニュー画面を表示させ、メニュー画面の「目的地設定」ボタンＳＷ１１を押下操作して目的地検索画面を表示させ、目的地検索画面の「周辺施設検索」ボタンを押下操作して周辺施設検索画面を表示させ、検索キーとして「コンビニ」を設定して検索実行を指示することになる。つまり、通常であれば複数回の操作を行って呼び出して実行することとなる機能を、機能実行ボタン１回の操作で呼び出して実行することができる。

制御部３は、ナビゲーションシステム１全体の動作を制御する。
マイク９は、ユーザが発話した音声を集音する。マイク９には、例えば、全指向性（無指向性）のマイク、複数の全指向性（無指向性）のマイクをアレイ状に配列して指向特性を調整可能としたアレイマイク、または一方向のみに指向性を有しており指向特性を調整できない単一指向性マイクなどがある。

表示部１８は、例えばＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）または有機ＥＬ（Ｅｌｅｃｔｒｏｌｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイ等である。また、表示部１８は、ＬＣＤまたは有機ＥＬディスプレイとタッチセンサから構成されている表示一体型のタッチパネルであってもよい。

指示入力部４は、ユーザの手動による指示を入力するものである。例えばナビゲーションシステム１の筐体などに設けられたハードウェアのボタン（キー）、スイッチ、タッチセンサ、あるいはハンドル等に設置されたリモコンもしくは別体のリモコン、ジェスチャ操作による指示を認識する認識装置等が挙げられる。なお、タッチセンサには、感圧方式、電磁誘導方式、静電容量方式、あるいはこれらを組み合わせた方式などのうち、いずれを用いてもよい。
入力受信部５は、指示入力部４により入力された指示を受信して、制御部３へ出力する。

ナビゲーション部６は、入力受信部５により受信され制御部３を介して入力されたユーザの操作に応じて、画面遷移を行ったり、地図データ（図示しない）を用いて施設検索および住所検索等の種々の検索を行ったりする。また、ユーザにより設定された住所または施設への経路を計算し、経路案内のための音声情報および表示内容を生成し、それらを出力するよう後述する表示制御部１５および音声制御部７へ、制御部３を介して指示する。ナビゲーション部６は、さらに上述以外にも楽曲名またはアーティスト名等による楽曲検索を行ったり、楽曲を再生したり、ユーザの指示に応じてエアコン等の他の車載機器の操作を実行したりする。

音声制御部７は、制御部３を介してナビゲーション部６から指示された案内音声および楽曲等をスピーカ８から出力する。

次に、音声認識システム２の構成要素について説明する。
音声取得部１０は、マイク９により集音された音声を連続的に取り込み、例えば、ＰＣＭ（ＰｕｌｓｅＣｏｄｅＭｏｄｕｌａｔｉｏｎ）によりＡ／Ｄ（Ａｎａｌｏｇ／Ｄｉｇｉｔａｌ）変換する。

ここで、「連続的」とは「予め設定された音声取得期間に亘って」という意味であり「常時」という意味に限らない。「音声取得期間」には、例えば、ナビゲーションシステム１が起動してから５分間、移動体が停車してから１分間、またはナビゲーションシステム１が起動してから停止するまでの間等の期間が含まれるものとする。本実施の形態１においては、音声取得部１０はナビゲーションシステム１が起動してから停止するまでの間、音声を取り込むものとして説明する。

なお、以下の説明においては、上述のとおりマイク９と音声取得部１０が別個のものであるとするが、マイク９に音声取得部１０が内蔵されているものであってもよい。

音声認識部１１は、処理部１２と認識結果格納部１３から構成されている。
処理部１２は、音声取得部１０によりデジタル化された音声データから、ユーザが発話した内容に該当する音声区間（以下、「発話区間」と記載する）を検出し、該発話区間の音声データの特徴量を抽出し、その特徴量に基づいて音声認識辞書を用いて認識処理を行い、認識結果を認識結果格納部１３へ出力する。認識処理の方法としては、例えばＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）法のような一般的な方法を用いて行えばよいため詳細な説明を省略する。

ここで、音声認識の手法としては、文法に基づく単語認識、キーワードスポッティング、大語彙連続音声認識、またはその他の周知の手法のいずれを用いてもよい。また、音声認識部１１は、周知の意図理解処理を含むものとし大語彙連続音声認識による認識結果からユーザの意図を推定したり検索したりした結果を、認識結果として出力するものとしてもよい。

処理部１２は、認識結果として少なくとも認識結果文字列と認識結果の種別（以下、「認識結果種別」と記載する）を出力する。図４は、認識結果文字列と認識結果種別の一例を示したものであり、例えば、認識結果文字列が「コンビニ」の場合、処理部１２は認識結果種別「施設ジャンル名」を出力する。

なお、認識結果種別は、具体的な文字列に限らず数字で表されたＩＤでもよいし、認識処理をする際に用いた辞書名（認識結果文字列が認識語彙として含まれている辞書名）としてもよい。また、本実施の形態１においては、音声認識部１１の認識対象語彙は「コンビニ」「レストラン」等の施設ジャンル名と「ミスチャイルド」等のアーティスト名として説明するが、これに限らない。

認識結果格納部１３は、処理部１２により出力された認識結果を格納する。そして、後述する判定部１４から指示を受けると、格納している認識結果を生成部１６へ出力する。

ところで、カーナビゲーションシステム等に搭載されている音声認識機能においては、ユーザが発話の開始をシステムに対して明示（指示）するのが一般的である。そのために、音声認識開始を指示するボタン（以下、「音声認識開始指示部」と記載する）が、タッチパネルに表示されたりハンドルに設置されたりしている。そして、ユーザにより音声認識開始指示部が押下された後に発話された音声を認識する。すなわち、音声認識開始指示部は音声認識開始信号を出力し、音声認識部は当該信号を受けると、当該信号を受けた後に音声取得部により取得された音声データから、ユーザが発話した内容に該当する発話区間を検出し、上述した認識処理を行う。

対して、この実施の形態１における音声認識部１１は、上述したようなユーザによる音声認識開始指示がなくても、常に、音声取得部１０により取り込まれた音声データを認識する。すなわち、音声認識部１１は、音声認識開始信号を受けなくても、音声取得部１０により取得された音声データから、ユーザが発話した内容に該当する発話区間を検出し、該発話区間の音声データの特徴量を抽出し、その特徴量に基づいて音声認識辞書を用いて認識処理を行い、認識結果を出力する処理を繰り返し行う。

判定部１４は、ユーザ発話の認識結果に対応する機能実行ボタンを表示部１８に表示するきっかけとなるユーザの操作を、予め定義している。すなわち、認識結果格納部１３が格納している認識結果を後述する生成部１６へ出力するよう、判定部１４から認識結果格納部１３に対して指示するきっかけとなるユーザの操作を、予め定義している。

判定部１４が予め定義しているユーザの操作は、例えば、表示部１８に、ナビゲーションシステム１の機能一覧を示すメニュー画面を表示させたり、目的地検索画面を表示させたり、ＡＶ画面を表示させたりするための機能を有するボタンの押下等である。ここで、当該ボタンは、例えば、ディスプレイに表示されたソフトウェアキー（例えば、図３（ｂ）の「目的地設定」ボタンＳＷ１１）、ディスプレイ筐体などに設置されているハードウェアキー（例えば、図３（ａ）の「メニュー」ボタンＨＷ１）またはリモコンのキー等である。

判定部１４は、制御部３を介して入力受信部５からユーザの操作内容を取得し、当該取得した操作内容が予め定義されている操作と一致するか否か判定する。そして、当該取得した操作内容が予め定義されている操作と一致する場合、判定部１４は認識結果格納部１３に対して、格納している認識結果を生成部１６へ出力するよう指示する。一方、一致しない場合、判定部１４は何もしない。

表示制御部１５は、生成部１６と描画部１７から構成されている。生成部１６は、認識結果格納部１３から認識結果を取得し、取得した認識結果に対応する機能実行ボタンを生成する。

具体的には、生成部１６は、図５に示すように認識結果種別と機能実行ボタンに割り当てるべき機能（以下、「機能実行ボタンへの割り当て機能」と記載する）を認識結果種別に対応付けて定義している。そして、生成部１６は、認識結果格納部１３から取得した認識結果に含まれる認識結果種別に対応する、機能実行ボタンへの割り当て機能を決定する。さらに生成部１６は、当該決定した機能が割り当てられた機能実行ボタンを生成する。その後、生成部１６は、生成した機能実行ボタンを表示部１８に表示するよう、描画部１７に対して指示する。

例えば、認識結果格納部１３から取得した認識結果に含まれる認識結果種別が「施設ジャンル名」で、認識結果文字列が「コンビニ」である場合、生成部１６は、図５のテーブルを参照して、機能実行ボタンへの割り当て機能は、「「コンビニ」を検索キーとした周辺施設検索」と決定する。

描画部１７は、制御部３を介してナビゲーション部６により指示された内容、および生成部１６により生成された機能実行ボタンを表示部１８に表示させる。

次に、図６と図７に示すフローチャートと具体例を用いて、実施の形態１の音声認識システム２の動作を説明する。なお、ここでは、機能実行ボタンを表示部１８に表示するきっかけとなるユーザの操作は、図３（ａ）に示すようなディスプレイの辺縁に設置されているハードウェアキーである、「メニュー」ボタンＨＷ１、「目的地」ボタンＨＷ２、「ＡＶ」ボタンＨＷ３の押下であるものとする。また、説明を簡単にするために、以下では制御部３の動作の記載を省略する。

「メニュー」ボタンＨＷ１は、図３（ｂ）に示すような、ユーザに対して様々な機能を提示するメニュー画面を表示するためのものである。また、「目的地」ボタンＨＷ２は、図８（ａ）に示すような目的地検索画面を表示するためのものである。また、「ＡＶ」ボタンＨＷ３は、図８（ｂ）に示すようなＡＶ画面を表示するためのものである。なお、これらのハードウェアキー押下後の動作は一例であり、これらの動作に限られるものではない。

まず、図３（ａ）の地図表示画面で、ユーザＡとユーザＢにより上述した会話が行われたものとする。

図６は、ユーザ発話を認識して、認識結果を保持するフローチャートを示している。
ここでは、音声取得部１０は、ナビゲーションシステム１が起動してから停止するまでの音声取得期間、常に、マイク９により集音された音声を取り込むものとして説明する。まず、音声取得部１０は、マイク９により集音されたユーザ発話、すなわち、入力された音声を取り込み、例えばＰＣＭによりＡ／Ｄ変換する（ステップＳＴ０１）。

次に、処理部１２は、音声取得部１０によりデジタル化された音声データから、ユーザが発話した内容に該当する発話区間を検出し、該発話区間の音声データの特徴量を抽出し、その特徴量に基づいて音声認識辞書を用いて認識処理を行い（ステップＳＴ０２）、認識結果を認識結果格納部１３へ格納する（ステップＳＴ０３）。その結果、図９に示すように認識結果が認識結果格納部１３に格納される。そして、ナビゲーションシステム１が停止されていない場合（ステップＳＴ０４「ＮＯ」）、音声認識システム２はステップＳＴ０１の処理へ戻り、停止されている場合（ステップＳＴ０４「ＹＥＳ」）、処理を終了する。

図７は、機能実行ボタンを表示するフローチャートを示している。
まず、判定部１４は、入力受信部５からユーザの操作内容を取得する（ステップＳＴ１１）。操作内容が取得できた場合すなわち何らかのユーザ操作があった場合（ステップＳＴ１２「ＹＥＳ」）、判定部１４はステップＳＴ１３の処理へ進む。一方、操作内容が取得できなかった場合（ステップＳＴ１２「ＮＯ」）、判定部１４はステップＳＴ１１の処理へ戻る。

次に、判定部１４は、入力受信部５から取得した操作内容が予め定義されている操作と一致するか否か判定する。一致している場合（ステップＳＴ１３「ＹＥＳ」）、判定部１４は認識結果格納部１３に対して、格納している認識結果を生成部１６へ出力するよう指示する。一方、入力受信部５から取得した操作内容が予め定義されている操作と一致しない場合（ステップＳＴ１３「ＮＯ」）、判定部１４はステップＳＴ１１の処理に戻る。

ここで、上述の会話の後ユーザＡまたはユーザＢにより「メニュー」ボタンＨＷ１等のハードウェアキーが押下されるまで、ステップＳＴ１３の処理へ進まないため、認識対象語である「ミスチャイルド」「レストラン」「コンビニ」が発話内容に含まれていても、表示部１８に機能実行ボタンは表示されない。

ユーザＢが、現在地周辺のコンビニを検索したいと思い、その機能を実行するためのきっかけとなる操作である「目的地」ボタンＨＷ２の押下操作を行うと（ステップＳＴ１１、ステップＳＴ１２「ＹＥＳ」）、「目的地」ボタンＨＷ２の押下操作は、判定部１４に予め定義されている操作と一致するため（ステップＳＴ１３「ＹＥＳ」）、判定部１４は、認識結果格納部１３に対して、格納している認識結果を生成部１６へ出力するよう指示する。「メニュー」ボタンＨＷ１および「ＡＶ」ボタンＨＷ３が押下された場合も同様である。

一方、ユーザＢが「現在地」ボタンＨＷ４の押下操作をした場合は、判定部１４に予め定義されている操作と一致しないため（ステップＳＴ１３「ＮＯ」）、ステップＳＴ１４の処理へ進まず、表示部１８に機能実行ボタンは表示されない。

認識結果格納部１３は、判定部１４からの指示を受けると、当該指示を受けた時点で格納している認識結果を生成部１６へ出力する（ステップＳＴ１４）。
その後、生成部１６は、認識結果格納部１３から取得した認識結果に対応する機能実行ボタンを生成し（ステップＳＴ１５）、当該生成した機能実行ボタンを表示部１８へ表示するよう描画部１７に対して指示する。最後に、描画部１７は機能実行ボタンを表示部１８に表示させる（ステップＳＴ１６）。

具体的には、認識結果格納部１３は、認識結果「ミスチャイルド」「コンビニ」「レストラン」を生成部１６へ出力する（ステップＳＴ１４）。その後、生成部１６は、「「ミスチャイルド」を検索キーとした楽曲検索」をする機能を割り当てた機能実行ボタンと「「コンビニ」を検索キーとした周辺施設検索」する機能を割り当てた機能実行ボタンと「「レストラン」を検索キーとした周辺施設検索」する機能を割り当てた機能実行ボタンを生成し（ステップＳＴ１５）、描画部１７に対して表示部１８へ表示するよう指示する。

描画部１７は、ナビゲーション部６が表示を指示した画面に、生成部１６で生成された機能実行ボタンを重ねて、表示部１８に表示させる。例えば、ユーザにより「メニュー」ボタンＨＷ１が押下されている場合、描画部１７は図３（ｂ）に示すように、ナビゲーション部６が指示したメニュー画面を表示するとともに、生成部１６で生成された「ミスチャイルド」ボタンＳＷ１、「レストラン」ボタンＳＷ２、および「コンビニ」ボタンＳＷ３の機能実行ボタンを表示させる。同様にして、ユーザにより「目的地」ボタンＨＷ２および「ＡＶ」ボタンＨＷ３が押下されている場合は、図８（ｃ）および図８（ｄ）のような画面となる。ユーザにより機能実行ボタンが押下操作されると、入力受信部５から指示を受けたナビゲーション部６が、当該機能実行ボタンに割り当てられた機能を実行する。

以上のように、この実施の形態１によれば、音声認識システム２は、ユーザが発話した音声を予め設定された音声取得期間に亘って取得する音声取得部１０と、音声取得部１０が取得した音声を認識する音声認識部１１と、ユーザが予め定められた操作を行ったか否かを判定する判定部１４と、判定部１４においてユーザが予め定められた操作を行ったと判定された場合に音声認識部１１の認識結果に対応した機能をナビゲーションシステム１に実行させる機能実行ボタンを表示部１８に表示させる表示制御部１５とを備え、予め設定された音声取得期間に亘って音声を取り込み、かつ、ユーザが予め定められた操作を行ったときに、発話内容に基づいた機能実行ボタンを表示することとしたので、会話中に出現した単語をＰＴＴボタン押下後に改めて発話し直す煩雑さを解消することができる。また、ユーザの意図に反した動作を生じなくなり、さらには、機能実行ボタン表示時の画面更新による集中力の低下を抑制することができる。その上、ユーザにとっては、自身の操作意図を先読みした機能実行ボタンを提示してくれることになるので、ユーザフレンドリさおよび使い易さを向上させることができる。

なお、この実施の形態１では、生成部１６は、認識結果文字列のみが表示された機能実行ボタンを生成するものとして説明したが、予め、認識結果文字列に対応したアイコンを定義しておき、図１０（ａ）に示すように認識結果文字列とアイコンを組み合わせた機能実行ボタン、または図１０（ｂ）に示すように認識結果文字列に対応するアイコンのみの機能実行ボタンを生成するとしてもよい。以下の実施の形態２，３においても機能実行ボタンの表示形態は問わない。

このようにすることで、ユーザが直感的に機能実行ボタンの内容を理解することができるようになる。

また、生成部１６は、認識結果種別に応じて機能実行ボタンの表示態様を変えるとしてもよい。例えば、認識結果種別「アーティスト名」に対応する機能実行ボタンは、そのアーティストのアルバムのジャケット画像にし、認識結果種別「施設ジャンル名」に対応する機能実行ボタンは、アイコンにするというように変えてもよい。

また、認識結果に対して種別ごとに優先度を付与する優先度付与部を音声認識システム２が備える構成とし、生成部１６は認識結果の優先度に基づいて、認識結果に対応する機能実行ボタンの大きさ、表示順序の少なくとも一方を変化させるとしてもよい。

例えば、図１１に示すように、音声認識システム２が優先度付与部１９を備える。この優先度付与部１９は、制御部３を介して入力受信部５からユーザの操作内容を取得し、操作履歴として管理する。また、優先度付与部１９は認識結果格納部１３を監視し、認識結果格納部１３に認識結果が格納されると、その認識結果に対して、ユーザの過去の操作履歴に基づく優先度を付与する。認識結果格納部１３は、認識結果を生成部１６へ出力する際、優先度付与部１９が付与した優先度も一緒に出力する。
具体的には、手動でのジャンル名による施設検索の回数がアーティスト名検索の回数より多い場合は、優先度付与部１９は、認識結果種別が「施設ジャンル名」である認識結果の優先度を、認識結果種別が「アーティスト名」である認識結果の優先度より高くする。そして、生成部１６は、例えば、優先度が高い認識結果に対する機能実行ボタンの大きさが、優先度が低い認識結果に対する機能実行ボタンの大きさより大きくなるように、各機能実行ボタンを生成する。このようにすることでも、ユーザが必要としていそうな機能実行ボタンを目立たせることができるので、利便性が向上する。

また、描画部１７は、機能実行ボタンを表示部１８に表示する際、優先度が高い認識結果に対応する機能実行ボタンを優先度が低い認識結果に対応する機能実行ボタンの上部に表示する。このようにすることで、ユーザが必要としていそうな機能実行ボタンを目立たせることができるので、利便性が向上する。

さらに、認識結果の優先度に基づいて、機能実行ボタンを出力するか出力しないかを変化させてもよい。例えば、描画部１７は、生成部１６により生成された機能実行ボタンの個数が、予め定められた表示個数の上限を超えている場合、優先度が高い認識結果に対応する機能実行ボタンを優先して出力し、上限個数を超えた場合は、他の機能実行ボタンを表示しないようにしてもよい。このようにすることで、ユーザが必要としていそうな機能実行ボタンを優先して表示することができるので、利便性が向上する。

また、この実施の形態１では、ハードウェアキーまたはソフトウェアキー等のボタンをユーザが操作したことをきっかけとして機能実行ボタンを表示するとしたが、予め定められた動作をユーザが行ったことをきっかけとして機能実行ボタンを表示するとしてもよい。ユーザが行う動作の例として発話、ジェスチャなどがある。

具体的に上述した各構成要素において処理が異なる部分について説明する。処理部１２は、上述したようなジャンル名等に加え、例えば「電話」「オーディオ」等の被制御装置を操作するためのコマンド、および「行きたい」「聞きたい」「メールする」等の被制御装置への操作意図を含むと考えられる発話を認識対象語彙とする。そして、処理部１２は、認識結果を認識結果格納部１３だけでなく判定部１４に対しても出力する。

判定部１４は、上述したユーザ操作に加えて予め機能実行ボタンを表示させるきっかけとなる発話を定義している。例えば、「行きたい」「聞きたい」「オーディオ」等の発話を定義している。そして、判定部１４は、処理部１２により出力された認識結果を取得し、当該認識結果が予め定義した発話内容と一致する場合は、格納している認識結果を生成部１６へ出力するよう、認識結果格納部１３に対して指示する。

さらに、音声認識システム２は、自車周辺を見回したりハンドルを叩いたりするユーザのジェスチャ動作をきっかけとして、機能実行ボタンを表示するとしてもよい。例えば、判定部１４は、車内に設置された可視光カメラまたは赤外線カメラ等（図示せず）が測定した情報を取得し、取得した情報から顔の動きを検出する。そして、判定部１４は、顔がカメラに対して正面を向いたときを０度として、１秒間に左右４５度の範囲を往復した場合、自車周辺を見回していると判断する。

さらに、描画部１７は、機能実行ボタンを表示するきっかけとなるユーザの操作等が行われた場合、当該操作等に対応した画面遷移をすることなしに、表示中の画面の上に重ねて機能実行ボタンを表示するとしてもよい。例えば、図３（ａ）の地図表示画面を表示中にユーザが「メニュー」ボタンＨＷ１を押下した場合、描画部１７は、図３（ｂ）のメニュー画面に遷移して機能実行ボタンを表示するが、ユーザがハンドルを叩く動作を行った場合は図３（ａ）の地図表示画面に機能実行ボタンを表示する。

実施の形態２．
この発明の実施の形態２による音声認識システムを適用したナビゲーションシステムの一例を示すブロック図は、実施の形態１において示した図１と同じであるため、図示および説明を省略する。以下に示す実施の形態２では、実施の形態１と比べると、判定部１４が、例えば図１２に示すように、ユーザの操作と認識結果種別とを対応付けて記憶している点が異なる。図１２のハードウェアキーとは、例えば図３（ａ）に示すようなディスプレイの辺縁に設置されている「メニュー」ボタンＨＷ１、「目的地」ボタンＨＷ２、「ＡＶ」ボタンＨＷ３などである。また、図１２のソフトウェアキーとは、例えば図３（ｂ）に示すようなディスプレイ上に表示されている「目的地設定」ボタンＳＷ１１、「ＡＶ」ボタンＳＷ１２などである。

実施の形態２の判定部１４は、入力受信部５からユーザの操作内容を取得し、当該取得した操作内容が予め定義されている操作と一致するか否か判定する。そして、当該取得した操作内容が予め定義されている操作と一致する場合、判定部１４は、当該操作内容に対応する認識結果種別を決定する。その後、判定部１４は認識結果格納部１３に対して、当該決定した認識結果種別を有する認識結果を生成部１６へ出力するよう指示する。一方、当該取得した操作内容が予め定義されている操作と一致しない場合、判定部１４は何もしない。

認識結果格納部１３は、判定部１４からの指示を受けると、判定部１４から指示された認識結果種別と一致する認識結果種別を有する認識結果を、生成部１６へ出力する。

次に、図１３に示すフローチャートと具体例を用いて、実施の形態２の音声認識システム２の動作を説明する。なお、ここでは、機能実行ボタンを表示部１８に表示するきっかけとなるユーザの操作は、図１２に定義された操作とする。また、ユーザ同士の会話は実施の形態１と同一であるとする。

実施の形態２において、ユーザ発話を認識して、認識結果を保持するフローチャートは、図６のフローチャートと同一であるため説明を省略する。また、図１３のフローチャートのステップＳＴ２１からステップＳＴ２３の処理は、図７のフローチャートのステップＳＴ１１からステップＳＴ１３と同一であるため説明を省略する。なお、以降の説明においては、図６の処理が実行され、認識結果格納部１３には、図９に示すように認識結果が格納されているものとする。

判定部１４は、入力受信部５から取得したユーザの操作内容が、予め定義されている操作と一致する場合（ステップＳＴ２３「ＹＥＳ」）、当該操作内容に対応する認識結果種別を決定した後、認識結果格納部１３に対して、当該決定した認識結果種別を有する認識結果を生成部１６へ出力するよう指示する（ステップＳＴ２４）。

次に、認識結果格納部１３は、判定部１４からの指示を受けると、判定部１４から指示された認識結果種別と一致する認識結果種別を有する認識結果を、生成部１６に対して出力する（ステップＳＴ２５）。

具体的には、ユーザＢが、現在地周辺のコンビニを検索したいと思い、その機能を実行するためのきっかけとなる操作である「目的地」ボタンＨＷ２の押下操作を行うと（ステップＳＴ２１、ステップＳＴ２２「ＹＥＳ」）、「目的地」ボタンＨＷ２の押下操作は、判定部１４に予め定義されている操作と一致するため（ステップＳＴ２３「ＹＥＳ」）、判定部１４は、図１２に示すテーブルを参照して、当該操作に対応する認識結果種別を「施設ジャンル名」に決定する（ステップＳＴ２４）。その後、判定部１４は、認識結果格納部１３に対して、認識結果種別「施設ジャンル名」を有する認識結果を生成部１６へ出力するよう指示する。

認識結果格納部１３は、判定部１４からの指示を受けると、認識結果種別が「施設ジャンル名」である認識結果、すなわち認識結果文字列が「コンビニ」と「レストラン」である認識結果を生成部１６へ出力する（ステップＳＴ２５）。

その後、生成部１６は「「コンビニ」を検索キーとした周辺施設検索」する機能を割り当てた機能実行ボタンと「「レストラン」を検索キーとした周辺施設検索」する機能を割り当てた機能実行ボタンを生成する（ステップＳＴ２６）。描画部１７は、表示部１８に図１４（ａ）に示すように「コンビニ」ボタンＳＷ３と「レストラン」ボタンＳＷ２の機能実行ボタンを表示する（ステップＳＴ２７）。

同様にして、ユーザＢが「ＡＶ」ボタンＨＷ３の押下操作を行うと、「「ミスチャイルド」を検索キーとした楽曲検索」をする機能を割り当てた機能実行ボタンである「ミスチャイルド」ボタンＳＷ１が、表示部１８に図１４（ｂ）に示すように表示される。

なお、ユーザの操作内容だけでなく、ユーザの動作内容（発話、ジェスチャ等）をきっかけとして、当該動作内容と関連性が高い機能実行ボタンを表示するようにしてもよい。この場合、図１５（ａ）と図１５（ｂ）に示すように、判定部１４は、ユーザの発話内容またはユーザのジェスチャ内容と認識結果種別とを対応付けて記憶しており、判定部１４は、音声認識部１１から取得したユーザの発話内容、またはカメラもしくはタッチセンサから取得した情報に基づいて判断したユーザのジェスチャ内容と一致する認識結果種別を、認識結果格納部１３へ出力するようにすればよい。

以上のように、この実施の形態２によれば、判定部１４は、ユーザが行う操作または動作と音声認識部１１の認識結果の種別との対応関係を示す情報を用いて、ユーザが操作または動作を行ったと判定した場合に対応する種別を判定し、表示制御部１５は、音声認識部１１の認識結果の中から判定部１４が判定した種別に一致する認識結果を選択し、当該選択した認識結果に対応した機能をナビゲーションシステム１に実行させる機能実行ボタンを表示部１８に表示させる構成にしたので、ユーザが操作等した内容と関連性が高い機能実行ボタンが提示されるようになる。従って、ユーザにとっては、より正確に自身の操作意図を先読みして提示してくれることになり、ユーザフレンドリさおよび使い易さをより向上させることができる。

実施の形態３．
図１６は、この発明の実施の形態３による音声認識システム２を適用したナビゲーションシステム１の一例を示すブロック図である。なお、実施の形態１で説明したものと同様の構成には、同一の符号を付して重複した説明を省略する。

以下に示す実施の形態３では、実施の形態１と比べると、音声認識システム２が認識結果格納部１３を備えていない。その代わりに音声認識システム２は音声データ格納部２０を備え、音声取得部１０が、マイク９により集音された音声を連続的に取り込みＡ／Ｄ変換によりデジタル化した音声データのすべて、または一部を音声データ格納部２０に格納する。

例えば、音声取得部１０は、音声取得期間として移動体が停車してから１分間、マイク９により集音された音声を取り込みデジタル化した音声データを音声データ格納部２０に格納する。また、音声取得部１０は、音声取得期間としてナビゲーションシステム１が起動してから停止するまでの間、マイク９により集音された音声を取り込む場合は、例えば、過去３０秒分の音声データを音声データ格納部２０に格納する。なお、音声取得部１０が、処理部１２の代わりに、音声データから発話区間を検出し当該区間を抽出する処理を行う構成とし、音声取得部１０は、発話区間の音声データを音声データ格納部２０に格納するとしてもよい。また、予め定められた発話区間数分の音声データを音声データ格納部２０に格納するとし、予め定められた発話区間数を超える音声データは古いものから順に削除するとしてもよい。

さらに、判定部１４は、入力受信部５からユーザの操作内容を取得し、当該取得した操作内容が予め定義されている操作と一致する場合、処理部１２に対して音声認識開始指示を出力する。

さらに、処理部１２が、判定部１４からの音声認識開始指示を受けると、音声データ格納部２０から音声データを取得し、当該取得した音声データに対して音声認識処理を行い、認識結果を生成部１６へ出力する。

次に図１７と図１８に示すフローチャートを用いて、実施の形態３の音声認識システム２の動作を説明する。なお、ここでは、音声取得部１０は、音声取得期間としてナビゲーションシステム１が起動してから停止するまでの間、マイク９により集音された音声を取り込むものとし、そのうちの過去３０秒分の音声データが音声データ格納部２０に格納されているものとする。

図１７は、ユーザ発話を取り込んで保持するフローチャートを示している。まず、音声取得部１０は、マイク９により集音されたユーザ発話、すなわち、入力された音声を取り込み、例えばＰＣＭによりＡ／Ｄ変換する（ステップＳＴ３１）。次に、音声取得部１０は、デジタル化した音声データを音声データ格納部２０に格納する（ステップＳＴ３２）。そして、ナビゲーションシステム１が停止されていない場合（ステップＳＴ３３「ＮＯ」）、音声取得部１０はステップＳＴ３１の処理へ戻り、停止されている場合（ステップＳＴ３３「ＹＥＳ」）、処理を終了する。

図１８は、機能実行ボタンを表示するフローチャートを示している。なお、ステップＳＴ４１からステップＳＴ４３の処理は、図７のフローチャートのステップＳＴ１１からステップＳＴ１３と同一であるため説明を省略する。

判定部１４は、入力受信部５から取得したユーザの操作内容が、予め定義されている操作と一致する場合（ステップＳＴ４３「ＹＥＳ」）、処理部１２に対して音声認識開始指示を出力する。処理部１２は、判定部１４から音声認識開始指示を受けると、音声データ格納部２０から音声データを取得し（ステップＳＴ４４）、当該取得した音声データに対して音声認識処理を行い、認識結果を生成部１６へ出力する（ステップＳＴ４５）。

以上のように、この実施の形態３によれば、音声認識部１１は、判定部１４においてユーザが予め定められた操作または動作を行ったと判定された場合に、音声取得部１０が音声取得期間に亘って取得しておいた音声を認識する構成にしたので、音声認識処理が行われていないときに、地図画面描画処理等の他の処理にメモリ等のリソースを割り当てることができるようになり、音声操作以外のユーザ操作に対する応答速度を向上させることができる。

なお、本発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、各実施の形態の任意の構成要素の変形、または各実施の形態の任意の構成要素の省略が可能である。

この発明に係る音声認識システムは、ユーザが必要とするタイミングで機能実行ボタンを提示するようにしたので、ユーザの発話を常時認識する音声認識システムなどに用いるのに適している。

１ナビゲーションシステム（被制御装置）、２音声認識システム、３制御部、４指示入力部、５入力受信部、６ナビゲーション部、７音声制御部、８スピーカ、９マイク、１０音声取得部、１１音声認識部、１２処理部、１３認識結果格納部、１４判定部、１５表示制御部、１６生成部、１７描画部、１８表示部、１９優先度付与部、２０音声データ格納部、１００バス、１０１ＣＰＵ、１０２ＲＯＭ、１０３ＲＡＭ、１０４ＨＤＤ、１０５入力装置、１０６出力装置。

Claims

会話中の音声を、予め設定された音声取得期間に亘って取得する音声取得部と、
音声認識開始指示がなくても、予め定義されている機能が割り当てられた機能実行ボタンの表示内容に対応して前記音声取得部が前記音声取得期間に亘って取得した会話中の音声を認識し、認識結果として保持する音声認識部と、
前記音声認識部の認識結果に対して予め定義されている機能が割り当てられた機能実行ボタンを表示部に表示するきっかけとなる、予め定められた操作または動作を行ったか否かを判定する判定部と、
前記判定部において、前記予め定められた操作または動作を行ったと判定された場合、前記音声認識部に保持されている前記認識結果に対して予め定義されている機能を被制御装置に実行させる前記機能実行ボタンを前記表示部に表示させる表示制御部と、
を備えることを特徴とする音声認識システム。
前記音声認識部は、前記認識結果を複数保持し、
前記表示制御部は、前記音声認識部に保持されている複数の前記認識結果の各々に対する前記機能実行ボタンを前記表示部に表示させることを特徴とする請求項１記載の音声認識システム。
前記認識結果に対して優先度を付与する優先度付与部を備え、
前記表示制御部は、前記優先度が高い認識結果に対応する機能実行ボタンを優先して出力することを特徴とする請求項１記載の音声認識システム。
前記判定部は、ユーザが行う操作または動作と前記音声認識部の認識結果の種別との対応関係を示す情報を用いて、前記操作また前記動作を行ったと判定した場合に対応する種別を判定し、
前記表示制御部は、前記音声認識部の認識結果の中から前記判定部が判定した種別に一致する認識結果を選択し、当該選択した認識結果に対して予め定義されている機能を前記被制御装置に実行させる前記機能実行ボタンを前記表示部に表示させることを特徴とする請求項１記載の音声認識システム。
前記表示制御部は、前記音声認識部の認識結果の種別に応じて、前記機能実行ボタンの表示態様を変更することを特徴とする請求項１記載の音声認識システム。
前記音声認識部の認識結果に対して、種別ごとに優先度を付与する優先度付与部を備え、前記表示制御部は、前記優先度付与部が前記音声認識部の認識結果に対して付与した優先度に基づいて、前記機能実行ボタンの表示態様を変更することを特徴とする請求項５記載の音声認識システム。