JP2017037176A

JP2017037176A - 音声操作システム、サーバー装置、車載機器および音声操作方法

Info

Publication number: JP2017037176A
Application number: JP2015158152A
Authority: JP
Inventors: 山口　隆; Takashi Yamaguchi; 隆山口; 靖永井; Yasushi Nagai
Original assignee: Clarion Co Ltd
Current assignee: Faurecia Clarion Electronics Co Ltd
Priority date: 2015-08-10
Filing date: 2015-08-10
Publication date: 2017-02-16
Anticipated expiration: 2035-08-10
Also published as: CN107851437A; CN107851437B; US10540969B2; WO2017026239A1; EP3336836A1; JP6621613B2; US20180211662A1; EP3336836A4

Abstract

【課題】本発明の目的は、容易に音声認識を正確に行わせる技術を提供することにある。
【解決手段】
車載機器とサーバー装置とを備える音声操作システムであって、車載機器は、音声入力受付部と、車両環境情報管理部と、入力情報と車両環境情報をサーバー装置へ送信した後、サーバー装置から受信した実行タスク候補を音声認識の誤認識の推定要因とともに出力し許可を受け付けると実行タスク候補を実行する指示を送信する出力制御部とを備え、サーバー装置は、車載機器から入力情報と車両環境情報とを受け付け入力情報を文字列変換する音声データ処理部と、文字列に応じた実行タスク候補を特定するとともに入力情報と車両環境情報とを用いて信頼度と誤認識の推定要因を特定するタスク推定部と、信頼度が所定未満であれば推定要因と実行タスク候補とを送信するユーザー確認要否判定部と、タスク処理部と、を備える。
【選択図】図１

Description

本発明は、音声操作システム、サーバー装置、車載機器および音声操作方法の技術に関するものである。

従来、入力音声に対し音声認識処理と意味解析処理を行い、意味項目候補とその尤度を出力する音声理解部と、意味項目候補とその尤度から意味項目の信頼度を計算する信頼度計算部と、意味項目の信頼度を補正するための補正パラメータを記憶する補正パラメータ記憶部と、信頼度と補正パラメータから、意味項目の補正信頼度を計算する信頼度補正部と、入力された個々の意味項目に対し、補正信頼度を用いて、意味項目の正誤をユーザに確認するか否かを決定してユーザへの応答文を出力し、更にユーザとのやり取りを対話履歴データとして対話履歴記憶部に書き込む対話管理部と、対話履歴データを用いて、前記補正パラメータ記憶部に記憶された補正パラメータを更新する補正パラメータ調整部とを備えることを特徴とする音声対話処理装置についての技術が、特許文献１に記載されている。

特開２００５−１８１３８６号公報

上記のような技術では、ユーザーは音声認識結果の訂正のために再発話することができるが、正常に認識されるまで何度も発話を行う以外に対処のしようがなく、必ずしも利用者の利便性に寄与するものではなかった。

本発明の目的は、容易に音声認識を正確に行わせる技術を提供することにある。

本発明は、上記課題の少なくとも一部を解決する手段を複数含んでいるが、その例を挙げるならば、以下のとおりである。上記課題を解決すべく、本発明に係る音声操作システムは、車載機器と、当該車載機器と通信可能なサーバー装置と、を備える音声操作システムであって、上記車載機器は、音声による入力情報を受け付ける音声入力受付部と、当該車載機器が備えられた車両の環境を特定する車両環境情報を取得する車両環境情報管理部と、上記入力情報および上記車両環境情報を上記サーバー装置へ送信した後、上記サーバー装置から受信した実行タスク候補を音声認識の誤認識の推定要因とともに出力し、当該実行タスク候補の実行許可を受け付けると当該実行タスク候補を実行する指示を前記サーバー装置へ送信する出力制御部と、を備え、上記サーバー装置は、上記車載機器から上記入力情報と上記車両環境情報とを受け付けると、上記入力情報を文字列変換する音声データ処理部と、上記音声データ処理部により変換された文字列に応じた実行タスク候補を特定するとともに、上記入力情報と上記車両環境情報とを用いて信頼度を特定し、誤認識の推定要因があれば特定するタスク推定部と、上記信頼度が所定未満であれば、上記音声認識の誤認識の推定要因と、上記実行タスク候補と、を上記車載機器へ送信するユーザー確認要否判定部と、上記実行タスク候補を実行するタスク処理部とを備える。

本願発明によれば、容易に音声認識を正確に行わせる技術を提供することが可能となる。上記した以外の課題、構成および効果は、以下の実施形態の説明により明らかにされる。

第一の実施形態に係る音声操作システムの構造を示す図である。タスク推定結果履歴記憶部のデータ構造を示す図である。信頼度低下要因記憶部のデータ構造を示す図である。タスク記憶部のデータ構造を示す図である。第一の実施形態に係る車載機器のハードウェア構造を示す図である。第一の実施形態に係るサーバー装置のハードウェア構造を示す図である。タスク実行処理の流れを示す図である。タスク実行処理の画面出力の例（その１）を示す図である。タスク実行処理の画面出力の例（その２）を示す図である。第二の実施形態に係る音声操作システムの構造を示す図である。

以下に、本発明に係る第一の実施形態および第二の実施形態を適用した音声操作システムについて、図面を参照して説明する。なお、図１〜１０は、音声操作システムの全ての構成を示すものではなく、理解容易のため、適宜、構成の一部を省略して描いている。

図１に、第一の実施形態に係る音声操作システムの構造を示す。第一の実施形態に係る音声操作システムにおいては、車載機器１００と、サーバー装置２００と、がネットワーク５０を介して通信可能に接続されている。ネットワーク５０は、例えばインターネット網や携帯電話網等の公衆無線通信網であることが望ましいが、所定の管理地域ごとに設けられた閉鎖的な通信網であってもよい。より具体的には、ネットワーク５０は、インターネット、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）、ＷｉＦｉ（登録商標）等の無線ネットワーク、Ｂｌｕｅｔｏｏｔｈ（登録商標）等の近距離無線等の、各種通信方法による通信網である。

車載機器１００は、車両に搭載され、車両に搭載された他の機器と所定の通信を行うことが可能な情報処理装置である。本実施形態においては、車載機器１００は、現在位置情報や経路情報等を取得することが可能なナビゲーション装置である。しかし、本願発明の対象となる車載機器１００は、図１に示す車載機器１００に限られるものではない。例えば、移動体に組み込まれた各種制御機器であってもよい。また、車載機器１００は、車両に着脱可能に設けられるものであってもよい。あるいは、車載機器１００は、車両の運転者あるいは乗員が有する携帯電話機器等の移動端末であってもよく、例えばスマートフォンやフィーチャーフォン、あるいはＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｃｅ）、ノートパソコン、タブレット端末等であってもよい。

車載機器１００は、制御部１１０と、記憶部１２０と、を含んで構成される。制御部１１０には、音声入力受付部１１１と、車両環境情報管理部１１２と、タスク推定結果履歴管理部１１３と、音声出力部１１４と、出力制御部１１５と、が含まれる。記憶部１２０には、タスク推定結果履歴記憶部１２１と、信頼度低下要因記憶部１２２と、が含まれる。

音声入力受付部１１１は、ユーザーからの音声入力を受け付ける。車両環境情報管理部１１２は、車載機器１００が搭載された車両に係る所定の環境情報を取得し、保持し、提供する。具体的には、車両環境情報には、例えば、外気温、降雨情報、走行速度、車内騒音レベル、窓の開放状況、ドアの開放状況、車両の乗員数、道路種別等の情報である。タスク推定結果履歴管理部１１３は、サーバー装置２００に依頼した実行タスク候補の推定の結果得られた実行タスク候補に関して、その履歴を管理する。具体的には、後述するタスク推定結果履歴記憶部１２１の情報の入出力を管理する。また、タスク推定結果履歴管理部１１３は、サーバー装置２００に依頼した実行タスク候補の推定の結果得られた実行タスク候補に関して、音声認識の信頼度が所定以下である場合、すなわち誤認識の場合に推定される要因の履歴を管理する。具体的には、後述する信頼度低下要因記憶部１２２の情報の入出力を管理する。

音声出力部１１４は、サーバー装置２００から受信した実行タスク候補の確認案内に関する音声案内あるいはタスクの実行結果を音声により出力する制御を行う。

出力制御部１１５は、サーバー装置２００から受信した実行タスク候補の確認案内に関する案内表示あるいはタスクの実行結果表示を画面情報により出力する制御を行う。出力の画面としては、さまざまな画面が想定されるが、図８に示すタスク実行処理の画面出力の例（その１）３００あるいは図９に示すタスク実行処理の画面出力の例（その２）４００のような出力の画面であってよい。それぞれの画面例については、後述する。また、出力制御部１１５は、音声情報および車両環境情報をサーバー装置２００へ送信した後、サーバー装置２００から受信した実行タスク候補を音声認識信頼度の誤認識の推定要因とともに出力し、当該実行タスク候補の実行許可を受け付けると当該実行タスク候補を実行する指示をサーバー装置２００へ送信する。

図２は、タスク推定結果履歴記憶部１２１のデータ構造を示す図である。タスク推定結果履歴記憶部１２１は、サーバー装置２００に依頼した実行タスク候補の推定の結果得られた実行タスク候補に関して、その履歴を記憶する。具体的には、タスク推定結果履歴記憶部１２１には、発話識別子１２１Ａと、推定タスク１２１Ｂと、信頼度１２１Ｃと、誤認識フラグ１２１Ｄと、が含まれる。発話識別子１２１Ａは、所定の連続する時間において発話された音声を識別する情報である。推定タスク１２１Ｂは、発話識別子１２１Ａにより特定される音声を用いて推定された推定タスクを特定する情報である。信頼度１２１Ｃは、推定タスク１２１Ｂにより特定されるタスクの推定の信頼度を特定する情報である。誤認識フラグ１２１Ｄは、推定タスク１２１Ｂにより特定されるタスクの推定が誤っていたか否かを特定するフラグである。なお、本実施形態においては、誤認識フラグ１２１Ｄが「Ｙ」となる場合は、推定が誤っていたことを示し、そうでない場合には推定が誤っていたか未確認であることを示す。

図３は、信頼度低下要因記憶部１２２のデータ構造を示す図である。信頼度低下要因記憶部１２２は、サーバー装置２００に依頼した実行タスク候補の推定の結果得られた実行タスク候補に関して、信頼度が低下している要因を記憶する。具体的には、信頼度低下要因記憶部１２２には、発話識別子１２２Ａと、要因１２２Ｂと、要因該当フラグ１２２Ｃと、が含まれる。発話識別子１２２Ａは、所定の連続する時間において発話された音声を識別する情報である。要因１２２Ｂは、発話識別子１２２Ａにより特定される発話の信頼性を低下させている要因を特定する情報である。要因該当フラグ１２２Ｃは、要因１２２Ｂが、信頼性が低下している要因であるか否かを特定するフラグである。本実施形態においては、要因該当フラグ１２２Ｃが「Ｙ」となる場合は、要因が該当したことを示し、そうでない場合には要因に該当しなかったか未確認であることを示す。

サーバー装置２００は、制御部２１０と、記憶部２２０と、を含んで構成される情報処理装置である。サーバー装置２００は、車載機器１００から音声情報、または音声情報と車両環境情報と、を含む推定タスク候補の要求を受け付けると、要求に応じた推定タスク候補の情報を提供する。

サーバー装置２００の記憶部２２０には、タスク記憶部２２１が含まれる。

図４は、タスク記憶部２２１のデータ構造を示す図である。タスク記憶部２２１は、タスクと、そのタスク開始のためのキーワードを記憶する。具体的には、タスク記憶部２２１には、タスク識別子２２１Ａと、実行タスク２２１Ｂと、開始キーワード２２１Ｃと、が含まれる。タスク識別子２２１Ａは、タスクを特定する情報である。なお、タスクとは、分解不能な処理単位のことであり、例えば経路検索、施設検索、楽曲再生等の処理の単位である。

実行タスク２２１Ｂは、タスク識別子２２１Ａにより特定されるタスクの実体のエントリポイントを特定する情報である。すなわち、具体的には、実行タスク２２１Ｂは、タスクのプログラムの開始アドレスであってもよいし、ＵＲＩ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＩｄｅｎｔｉｆｉｅｒ）であってもよい。

開始キーワード２２１Ｃは、タスク識別子２２１Ａにより特定されるタスクを開始させるためのトリガーとなる一つまたは複数のキーワードである。たとえば、経路検索タスクを開始させるキーワードは、「経路検索」、「行きたい」、「ルート」、「どの道」、・・・等の所定のキーワードとして開始キーワード２２１Ｃに格納される。その他、施設検索タスクを開始させるキーワードは、施設の名称そのものや、施設のジャンル（コンビニエンスストア、レストラン、駅等）の指定であってもよい。

サーバー装置２００の制御部２１０には、音声データ処理部２１１と、タスク推定部２１２と、ユーザー確認要否判定部２１３と、タスク処理部２１４と、が含まれる。

音声データ処理部２１１は、入力音声データを発話内容の文字列に変換する。また、音声データ処理部２１１は、入力音声データの信号成分（発話音圧）と雑音成分（騒音音圧）との大きさを推定する。また、音声データ処理部２１１は、雑音成分の波形の特徴を根拠として、パターンの類似比較等の方法により騒音の要因を推定する。

タスク推定部２１２は、入力された情報から発話意図に応じたタスクを推定し、その信頼度を算出する。また、タスク推定部２１２は、信頼度を低下させていると推定される要因を抽出する。本実施形態においては、信頼度を決定付ける要因に、音声入力のＳ／Ｎ比（発話音圧と騒音音圧の比）、車両の走行速度、車両環境情報の信頼度低下要因比、を想定する。Ｓ／Ｎ比については、あらかじめ定めたＳ／Ｎ比の閾値以下であれば、信頼度低下要因と考えられる。また、車両の走行速度は、所定の速度を上回ると、信頼度低下要因と考えられる。車両環境情報の信頼度低下要因比は、所定の車両環境情報のうち該当する項目の数の比が高いほど信頼度が低下するものと考える。ただし、本実施形態における信頼度決定方法に限定されず、他の方法や要素を用いて信頼度を特定してもよいし、信頼度の低下要因の推定方法についても他の方法や要素を用いて推定するものであってもよい。

ユーザー確認要否判定部２１３は、推定タスク候補の信頼度が所定の閾値に満たない場合には、発話者に推定タスク候補が正しいものであるか否かを確認する必要があると判定する。確認の必要がある場合には、ユーザー確認要否判定部２１３は、後述する図８に示すタスク実行処理の画面３００あるいは図９に示すタスク実行処理の画面４００のような出力の画面情報および案内用の音声情報を車載機器１００へ送信し、入力を受け付ける。なお、信頼度を低下させている要因についても、ユーザー確認要否判定部２１３は、信頼度が低下することを回避する対策方法の案内とともに車載機器１００へ送信する。

タスク処理部２１４は、タスクを実行する。具体的には、信頼度が所定以上に高い推定タスク、あるいは信頼度は所定未満であるがユーザーから実行指示を得た推定タスク候補を、タスク記憶部２２１の開始キーワード２２１Ｃと比較して実行タスク２２１Ｂを特定し、実行する。また、タスク処理部２１４は、実行したタスクの出力情報について、車載機器１００へ送信する。

図５は、車載機器１００のハードウェア構造を示す図である。車載機器１００は、演算処理部２０と、ディスプレイ２と、記憶装置３と、音声入出力装置接続装置４（音声入力装置としてマイクロフォン４１、音声出力装置としてスピーカ４２を備える）と、入力装置５（接触入力装置としてタッチパネル５１と、ダイヤルスイッチ５２とを備える）と、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）装置６と、車速センサ７と、ジャイロセンサ８と、ＧＰＳ(ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ)受信装置９と、通信装置１０と、を備えている。

演算処理部２０は、様々な処理を行う中心的ユニットである。例えば各種センサ７,８やＧＰＳ受信装置９、通信装置１０等から出力される情報に基づいて現在地を算出する。また、得られた現在地の情報に基づいて、表示に必要な地図データを記憶装置３あるいはＲＯＭ装置６から読み出す。

また、演算処理部２０は、読み出した地図データをグラフィックス展開し、そこに現在地を示すマークを重ねてディスプレイ２へ表示する。また、記憶装置３あるいはＲＯＭ装置６に記憶されている地図データ等を用いて、現在地又はユーザーから指示された出発地と、目的地（または、経由地や立ち寄り地）と、を結ぶ最適な経路である推奨経路を探索する。また、スピーカ４２やディスプレイ２を用いてユーザーを誘導する。なお、演算処理部２０は、さらに、車載機器１００の制御部１１０の各機能部、すなわち音声入力受付部１１１、車両環境情報管理部１１２、タスク推定結果履歴管理部１１３、音声出力部１１４、出力制御部１１５のそれぞれが実行する後述の処理を行う。

車載機器１００の演算処理部２０は、各デバイス間をバス２５で接続した構成である。演算処理部２０は、数値演算及び各デバイスを制御するといった様々な処理を実行するＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）２１と、記憶装置３から読み出した地図データ、演算データなどを格納するＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）２２と、プログラムやデータを格納するＲＯＭ２３と、各種ハードウェアを演算処理部２０と接続するためのＩ／Ｆ（インターフェース）２４と、を有する。

ディスプレイ２は、演算処理部２０等で生成されたグラフィックス情報を表示するユニットである。ディスプレイ２は、液晶ディスプレイ、有機ＥＬ（ＥｌｅｃｔｒｏＬｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイなど各種のディスプレイ装置で構成される。

記憶装置３は、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）やＳＳＤ（Ｓｏｌｉｄ
ＳｔａｔｅＤｒｉｖｅ）、不揮発性メモリカードといった、少なくとも読み書きが可能な記憶媒体で構成される。

この記憶媒体には、通常の経路探索装置に必要な地図データ（地図上の道路を構成するリンクのリンクデータを含む）である地図情報が記憶されている。

音声入出力装置接続装置４は、音声入力装置としてマイクロフォン４１と、音声出力装置としてスピーカ４２と、に接続して使用可能とする。マイクロフォン４１は、ユーザーやその他の搭乗者が発した声、車両の所定の位置で集音される外部の音などの車載機器１００の外部の音声を取得する。

スピーカ４２は、演算処理部２０で生成されたユーザーへのメッセージを音声として出力する。マイクロフォン４１とスピーカ４２は、車両の所定の部位に、別個に配されている。ただし、一体の筐体に収納されていても良い。車載機器１００は、マイクロフォン４１及びスピーカ４２を、それぞれ複数備えることができる。

入力装置５は、ユーザーからの指示をユーザーの手による操作を介して受け付ける装置である。入力装置５は、タッチパネル５１と、ダイヤルスイッチ５２と、その他のハードスイッチ（図示しない）であるスクロールキー、縮尺変更キーなどで構成される。また、入力装置５には、車載機器１００に対して遠隔で操作指示を行うことができるリモートコントローラが含まれる。リモートコントローラは、ダイヤルスイッチやスクロールキー、縮尺変更キーなどを備え、各キーやスイッチが操作された情報を車載機器１００に送出することができる。

タッチパネル５１は、ディスプレイ２の表示面側に搭載され、表示画面を透視可能である。タッチパネル５１は、ディスプレイ２に表示された画像のＸＹ座標と対応したタッチ位置を特定し、タッチ位置を座標に変換して出力する。タッチパネル５１は、感圧式または静電式の入力検出素子などにより構成される。なお、タッチパネル５１は、同時に複数のタッチ位置を検出することのできるマルチタッチを実現できるものであってもよい。

ダイヤルスイッチ５２は、時計回り及び反時計回りに回転可能に構成され、所定の角度の回転ごとにパルス信号を発生し、演算処理部２０に出力する。演算処理部２０では、パルス信号の数から、回転角度を求める。

ＲＯＭ装置６は、ＣＤ-ＲＯＭやＤＶＤ-ＲＯＭ等のＲＯＭや、ＩＣ（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）カードといった、少なくとも読み取りが可能な記憶媒体で構成されている。この記憶媒体には、例えば、動画データや、音声データなどが記憶されている。

車速センサ７,ジャイロセンサ８およびＧＰＳ受信装置９は、車載機器１００で現在地（例えば、自車位置）を検出するために使用されるものである。車速センサ７は、車速を算出するのに用いる値を出力するセンサである。ジャイロセンサ８は、光ファイバジャイロや振動ジャイロ等で構成され、移動体の回転による角速度を検出するものである。ＧＰＳ受信装置９は、ＧＰＳ衛星からの信号を受信し移動体とＧＰＳ衛星間の距離と距離の変化率とを３個以上の衛星に対して測定することで移動体の現在地、進行速度および進行方位を測定するものである。

通信装置１０は、サーバー装置２００と通信可能なアクセス制御装置との通信を開始、継続、終了させる。通信装置１０は、例えばインターネット、ＬＡＮ、ＷＡＮ、ＷｉＦｉ（登録商標）等の無線ネットワーク、Ｂｌｕｅｔｏｏｔｈ（登録商標）等の近距離無線、等の各種通信方法によりアクセス制御装置に接続する。また、通信装置１０は、定期的あるいは所定のタイミングでアクセス制御装置の発見および接続を試み、接続可能なアクセス制御装置に対して通信を確立させる。

上記した車載機器１００の制御部１１０の各機能部、すなわち音声入力受付部１１１、車両環境情報管理部１１２、タスク推定結果履歴管理部１１３、音声出力部１１４、出力制御部１１５は、ＣＰＵ２１が所定のプログラムを読み込み実行することにより構築される。そのため、ＲＡＭ２２には、各機能部の処理を実現するためのプログラムが記憶されている。

なお、上記した各構成要素は、車載機器１００の構成を、理解を容易にするために、主な処理内容に応じて分類したものである。そのため、構成要素の分類の仕方やその名称によって、本願発明が制限されることはない。車載機器１００の構成は、処理内容に応じて、さらに多くの構成要素に分類することもできる。また、１つの構成要素がさらに多くの処理を実行するように分類することもできる。

また、各機能部は、ＣＰＵに限らず他のハードウェア（ＡＳＩＣ、ＧＰＵなど）により構築されてもよい。また、各機能部の処理が一つのハードウェアで実行されてもよいし、複数のハードウェアで実行されてもよい。

図６は、サーバー装置２００のハードウェア構造を示す図である。サーバー装置２００は、入力受付装置２０１と、演算装置２０２と、外部記憶装置２０３と、主記憶装置２０４と、通信装置２０５と、これらをつなぐバス２０６と、を含んで構成される。

上記した制御部２１０の各機能部、すなわち音声データ処理部２１１、タスク推定部２１２、ユーザー確認要否判定部２１３、タスク処理部２１４は、演算装置２０２が所定のプログラムを読み込み実行することにより構築される。そのため、主記憶装置２０４あるいは外部記憶装置２０３には、各機能部の処理を実現するためのプログラムが記憶されている。

なお、上記した各構成要素は、サーバー装置２００の構成を、理解を容易にするために、主な処理内容に応じて分類したものである。そのため、構成要素の分類の仕方やその名称によって、本願発明が制限されることはない。サーバー装置２００の構成は、処理内容に応じて、さらに多くの構成要素に分類することもできる。また、１つの構成要素がさらに多くの処理を実行するように分類することもできる。

また、各機能部は、ＣＰＵに限らずハードウェア（ＡＳＩＣ、ＧＰＵなど）により構築されてもよい。また、各機能部の処理が一つのハードウェアで実行されてもよいし、複数のハードウェアで実行されてもよい。

［動作の説明］次に、車載機器１００およびサーバー装置２００が実施するタスク実行処理の動作について説明する。

図７は、タスク実行処理の流れを示す図である。タスク実行処理は、ユーザーからの音声入力に応じ開始される。

まず、車載機器１００の音声入力受付部１１１は、入力された音声を受け付けて、デジタル情報に変換して保存する（ステップＳ００１）。

そして、車両環境情報管理部１１２は、車両環境情報を取得する（ステップＳ００２）。具体的には、車両環境情報管理部１１２は、車速センサ７を用いて車速を取得し、ジャイロセンサ８を用いて回転角を取得する。また他にも、車両環境情報管理部１１２は、図示しない加速度センサを用いて複数軸の加速度を取得し、ＧＰＳ受信装置９を用いて位置情報を取得する。その他、車両環境情報管理部１１２は、図示しない雨量センサを用いて降雨量を取得し、マイクロフォン４１を用いて車内あるいは車外の周囲の音を取得する。また、車両環境情報管理部１１２は、図示しないＣＡＮ（ＣｏｎｔｒｉｌｌｅｒＡｒｅａＮｅｔｗｏｒｋ）等の車両内ネットワークに接続された他の機器等から、車両の窓の開閉状況を取得する。そして、取得した情報を車両環境情報として音声情報に付加してサーバー装置２００へ送信する。

そして、サーバー装置２００の音声データ処理部２１１は、入力音声情報を文字列変換する（ステップＳ００３）。具体的には、音声データ処理部２１１は、所定のアルゴリズムにより入力音声から単語を切り出し、単語の認識を行い、単語を文字列変換する。

そして、音声データ処理部２１１は、入力音声データの発話音圧と騒音音圧とを特定する（ステップＳ００４）。具体的には、音声データ処理部２１１は、入力音声データの信号成分（発話音圧）と雑音成分（騒音音圧）との大きさを所定のアルゴリズムにより推定する。

そして、音声データ処理部２１１は、雑音成分の特徴から、騒音要因を推定する（ステップＳ００５）。具体的には、音声データ処理部２１１は、雑音成分の波形の特徴を根拠として、パターンの類似の比較等の方法により騒音の要因を推定する。

そして、タスク推定部２１２は、タスクを一つまたは複数推定してそれぞれの信頼度を算出し、信頼度が低下している要因を推定する（ステップＳ００６）。具体的には、タスク推定部２１２は、音声入力のＳ／Ｎ比（発話音圧と騒音音圧の比）、車両の走行速度、車両環境情報の信頼度低下要因比、を用いて、推定したタスクの信頼度を算出する。そして、タスク推定部２１２は、算出した信頼度が所定の閾値以下である場合には、信頼度が低下している要因として、音声入力のＳ／Ｎ比（発話音圧と騒音音圧の比）、車両の走行速度、車両環境情報の信頼度低下要因比のそれぞれの所定の閾値と比較して下回っている要因を特定する。そして、タスク推定部２１２は、車載機器１００のタスク推定結果履歴管理部１１３に問い合わせて、信頼度低下要因記憶部１２２に格納された要因であって要因該当フラグ１２２Ｃが「Ｎｏ」となっている要因を取得する。そして、タスク推定部２１２は、当該閾値を下回った要因からこれらの要因該当フラグ１２２Ｃが「Ｎｏ」である要因を除外して信頼度低下の要因と推定する。

そして、タスク推定部２１２は、推定タスクから履歴上の誤認結果を除外する（ステップＳ００７）。具体的には、タスク推定部２１２は、ステップＳ００６において推定した推定タスクについて、当該発話に対して認識した結果、ユーザー確認により誤りとされた推定タスクについては、推定タスクから除外する。また、タスク推定部２１２は、車載機器１００のタスク推定結果履歴管理部１１３に問い合わせて、タスク推定結果履歴記憶部１２１に格納された推定タスクであって誤認識フラグ１２１Ｄが「Ｙ」である要因を取得する。そして、タスク推定部２１２は、当該推定タスクからこれらの誤認識フラグ１２１Ｄが「Ｙ」であるタスクを除外して推定タスクとする。

そして、ユーザー確認要否判定部２１３は、推定タスクのうち最高の信頼度を有する推定タスクの信頼度は所定以下であるか否かを判定する（ステップＳ００８）。当該判定の結果、最高の信頼度を有する推定タスクの信頼度が所定以下でない場合には、後述のステップＳ０１１へ制御を進める。

推定タスクのうち最高の信頼度を有する推定タスクの信頼度は所定以下である場合（ステップＳ００８にて「Ｙｅｓ」の場合）には、車載機器１００のタスク推定結果履歴管理部１１３は推定結果を履歴に保存し、出力制御部１１５はタスク確認画面を表示する（ステップＳ００９）。具体的には、まず、ユーザー確認要否判定部２１３は、最高の信頼度を有する推定タスクと、その信頼度と、その信頼度低下要因とを車載機器１００へ送信し、タスク推定結果履歴管理部１１３は推定タスクおよびその信頼度をタスク推定結果履歴記憶部１２１に格納し、信頼度低下要因を信頼度低下要因記憶部１２２に保存し、要因該当フラグ１２２Ｃを「Ｙｅｓ」に設定する。そして、タスク推定結果履歴管理部１１３は、タスク確認画面を表示するよう出力制御部１１５に指示する。そして、再発話の指示をユーザーから受け付けると、出力制御部１１５は、音声出力部１１４による信頼度低下要因に対する対処方法を案内して、制御をステップＳ００１へ戻す。その処理においては、タスク推定結果履歴管理部１１３は推定タスクについて誤認識フラグ１２１Ｄを「Ｙ」に設定する。

タスク確認画面において推定タスクの確認を受け付けると、出力制御部１１５は、確認されたタスクをサーバー装置２００へ通知する（ステップＳ０１０）。具体的には、出力制御部１１５は、推定タスクを積極的に肯定する指示を受け付けるか、何も操作がなされないまま所定の時間（たとえば、５秒）が経過すると、推定タスクが確認されたものとして、その旨をサーバー装置２００へ送信する。

そして、タスク処理部２１４は、確認済みタスクまたは最高の信頼度を有する推定タスクを開始する（ステップＳ０１１）。具体的には、タスク処理部２１４は、確認された推定タスクあるいは信頼度が所定以上に高いタスクについては、タスク記憶部２２１の開始キーワード２２１Ｃと比較して対応する実行タスク２２１Ｂを引き当て、実行する。

そして、タスク処理部２１４は、タスク出力を送信する（ステップＳ０１２）。具体的には、タスク処理部２１４は、ステップＳ０１１において開始されたタスクの出力情報を車載機器１００へ送信する。

そして、出力制御部１１５は、タスク推定結果履歴記憶部１２１と、信頼度低下要因記憶部１２２と、の内容を削除してタスク出力を表示させる（ステップＳ０１３）。

以上が、タスク実行処理の流れである。タスク実行処理によれば、音声により指示された内容を解釈して、推定されるタスクの信頼度が所定以上高い場合にはそのままタスクを実行し、そうでない場合には実行対象のタスクの確認を行って再発話あるいは実行確認を促し、確認のとれたタスクを実行することができる。また、その際、信頼度が低下している要因に対する対処方法について音声案内を行って、ユーザーに具体的な対策を促すことができる。

図８は、タスク実行処理の画面出力の例（その１）を示す図である。タスク実行処理の出力画面の例（その１）３００は、信頼度が所定以下の場合に車載機器１００に表示される画面の例である。タスク実行処理の出力画面の例（その１）３００においては、音声認識の結果の推定タスクと、信頼度低下要因と、を表示する推定結果表示領域３０１と、再発話を行う指示を受け付けるもう一度発話するボタン３１１と、推定タスクの確認を受け付けるＯＫボタン３１２と、が表示される。なお、もう一度発話するボタン３１１には、再発話指示を受け付ける期限が表示される。ここで、ＯＫボタン３１２への指示を受け付けるか、指示なく所定の期限が経過すると、タスクが実行され、その結果であるタスク処理結果画面３３１が表示される。

もう一度発話するボタン３１１への指示を受け付けると、準備中画面３２１が表示され、その際に音声により信頼度低下要因に応じた対処法が音声により案内される。例えば、「より大きな声で話すと認識しやすくなります」（発話音圧が低い場合）または「静かな状態でお話ください」（Ｓ／Ｎ比が低い場合）等の、信頼度低下要因に応じた案内がなされる。

そして、案内が終わると、ユーザーが発話を終了させるまで、発話を受け付ける発話画面３２２が表示される。

図９は、タスク実行処理の画面出力の例（その２）を示す図である。タスク実行処理の出力画面の例（その２）４００は、信頼度が所定以下の場合に車載機器１００に表示される画面の例である。タスク実行処理の出力画面の例（その２）４００においては、音声認識の結果の推定タスクと、信頼度低下要因と、を表示する推定結果表示領域４０１と、再発話を行う指示を受け付けるもう一度発話するボタン４１１と、推定タスクの確認を受け付けるＯＫボタン４１２と、が表示される。なお、もう一度発話するボタン４１１には、再発話指示を受け付ける期限が表示される。ここで、ＯＫボタン４１２への指示を受け付けるか、指示なく所定の期限が経過すると、タスクが実行され、その結果であるタスク処理結果画面４３１が表示される。

もう一度発話するボタン４１１への指示を受け付けると、準備中画面４２１が表示され、その際に音声により信頼度低下要因に応じた対処法が音声により案内される。例えば、「ピッと鳴り終わってからお話ください」（発話入力受付開始時の音圧がすでに所定以上に高い場合）等の、信頼度低下要因に応じた案内がなされる。

そして、案内が終わると、ユーザーが発話を終了させるまで、発話を受け付ける発話画面４２２が表示される。

以上が、第一の実施形態に係る音声操作システムである。第一の実施形態によれば、容易に音声認識を正確に行わせることができるといえる。

ただし、本発明は、上記の実施形態に制限されない。上記の第一の実施形態は、本発明の技術的思想の範囲内で様々な変形が可能である。

図１０は、第二の実施形態に係る音声操作システムの構造を示す図である。第二の実施形態に係る音声操作システムは、基本的に第一の実施形態と同様の構造であるが、一部において相違がある。以下、その相違点を中心に説明する。

第二の実施形態に係る音声操作システムにおいては、サーバー装置２００´は、制御部２１０´を備える。制御部２１０´は、音声データ処理部２１１に代えて、音声認識処理委託部２１１´を備える。音声認識処理委託部２１１´は、受け取った音声情報を音声認識サーバー装置５００へ送信し、発話内容の文字列を取得する。

音声認識サーバー装置５００は、ネットワーク５０に接続されるサーバー装置である。音声認識サーバー装置５００は、音声データ処理部５１０を備える。音声データ処理部５１０は、入力音声データを発話内容の文字列に変換する。また、音声データ処理部５１０は、音声情報の信号成分（発話音圧）と雑音成分（騒音音圧）との大きさを推定する。また、音声データ処理部５１０は、雑音成分の波形の特徴を根拠として、パターンの類似比較等の方法により騒音の要因を推定する。

以上が、第二の実施形態に係る音声操作システムの構造である。第二の実施形態に係る音声操作システムでは、サーバー装置２００´と異なる装置である音声認識サーバー装置５００へ、音声認識等の音声データ処理を委譲する。そのため、サーバー装置２００´の処理負荷を下げることが可能となり、さらにはより汎用性の高い外部の組織が提供する音声認識処理等についても容易に利用可能となるため、システム構成のバリエーションの柔軟性のみならず、規模の拡張等についても容易となり、さらには精度の向上、管理の容易化も見込むことができる。

また、本発明に係る音声操作システムは、上記第一の実施形態および第二の実施形態に限られず、本発明の技術的思想の範囲内で様々な変形が可能である。例えば、タスク実行処理のステップＳ００９における音声案内は、第一の実施形態に示した案内に限られず、さまざまな変形が可能である。具体的には、発話音圧の推定値が所定の閾値よりも小さい場合には、通知音声の音量を所定よりも大きく出力することが考えられる。このようにすることで、通知を聞き取りやすくするだけでなく、音量につられて発話音量を大きくするよう誘導できる。

またその他、騒音音圧の推定値が騒音音圧の所定の閾値よりも大きい場合には、再発話による音声入力を行わず、タッチ操作やリモコンによる操作、あるいはハードボタンによる操作を促すようにしてもよい。これは、発話者が騒音環境にあることが想定されることから、再発話してもやはり誤認識を繰り返してしまうことを避けることができる。

また、例えば、信頼度の算出に関しては、例えば、音声データのＳ／Ｎの推定値よりも所定のＳ／Ｎの閾値が小さい場合に所定のポイントを加算するようにしてもよいし、発話時の車速が所定の車速の閾値よりも小さい場合に所定のポイントを加算するようにしてもよい。あるいはまた、車両環境情報の状況があらかじめ定められた条件を満たす度合に応じたポイントを加算するようにしてもよい。もちろん、これらを組み合わせて得たポイントに応じて信頼度を算出するようにしてもよい。このようにすることで、信頼度の算出基準を適正化することができる。

以上、本発明について、実施形態を挙げて説明した。しかし、これに限られず、上記実施形態に記載した特徴的な処理について、別の機器に適用する（例えば、車載機器１００に限らず、着脱可能なナビゲーション装置等の携帯端末等に適用する）ことも可能である。

５０・・・ネットワーク、１００・・・車載装置、１１０・・・制御部、１１１・・・音声入力受付部、１１２・・・車両環境情報管理部、１１３・・・タスク推定結果履歴管理部、１１４・・・音声出力部、１１５・・・出力制御部、１２０・・・記憶部、１２１・・・タスク推定結果履歴記憶部、１２２・・・信頼度低下要因記憶部、２００・・・サーバー装置、２１０・・・制御部、２１１・・・音声データ処理部、２１２・・・タスク推定部、２１３・・・ユーザー確認要否判定部、２１４・・・タスク処理部、２２０・・・記憶部、２２１・・・タスク記憶部

Claims

車載機器と、当該車載機器と通信可能なサーバー装置と、を備える音声操作システムであって、
前記車載機器は、
音声による入力情報を受け付ける音声入力受付部と、
当該車載機器が備えられた車両の環境を特定する車両環境情報を取得する車両環境情報管理部と、
前記入力情報および前記車両環境情報を前記サーバー装置へ送信した後、前記サーバー装置から受信した実行タスク候補を音声認識の誤認識の推定要因とともに出力し、当該実行タスク候補の実行許可を受け付けると当該実行タスク候補を実行する指示を前記サーバー装置へ送信する出力制御部と、を備え、
前記サーバー装置は、
前記車載機器から前記入力情報と前記車両環境情報とを受け付けると、前記入力情報を文字列変換する音声データ処理部と、
前記音声データ処理部により変換された文字列に応じた実行タスク候補を特定するとともに、前記入力情報と前記車両環境情報とを用いて信頼度を特定し、誤認識の推定要因があれば特定するタスク推定部と、
前記信頼度が所定未満であれば、前記音声認識の誤認識の推定要因と、前記実行タスク候補と、を前記車載機器へ送信するユーザー確認要否判定部と、
前記実行タスク候補を実行するタスク処理部と、
を備える、
ことを特徴とする音声操作システム。
請求項１に記載の音声操作システムであって、
前記出力制御部は、前記実行タスク候補について再度の入力指示を受け付けると、前記音声認識の誤認識の推定要因の対処方法を音声で通知して、前記音声入力受付部に音声による入力情報の受け付けをさせる、
ことを特徴とする音声操作システム。
請求項１に記載の音声操作システムであって、
前記車載機器は、
前記実行タスク候補の履歴を管理するタスク推定結果履歴管理部を備え、
前記タスク推定結果履歴管理部は、前記出力制御部が受信した実行タスク候補を記憶し、
前記タスク推定部は、
前記実行タスク候補の特定処理において、前記タスク推定結果履歴管理部が記憶している実行タスク候補を除外する、
ことを特徴とする音声操作システム。
請求項１に記載の音声操作システムであって、
前記車載機器は、
前記出力制御部が受信した前記音声認識の誤認識の推定要因の履歴を記憶する信頼度低下要因記憶部を備え、
前記タスク推定結果履歴管理部は、前記出力制御部が受信した前記音声認識の誤認識の推定要因を記憶し、
前記タスク推定部は、
前記誤認識の推定要因を特定する処理において、前記信頼度低下要因記憶部が記憶している前記音声認識の誤認識の推定要因を除外する、
ことを特徴とする音声操作システム。
請求項１に記載の音声操作システムであって、
前記出力制御部は、前記実行タスク候補について再度の入力指示を受け付けると、前記音声認識の誤認識の推定要因の対処方法を音声で通知して、前記音声入力受付部に音声による入力情報の受け付けをさせ、当該処理においては、前記音声入力受付部により前回受け付けた音声による前記入力情報の発話音圧が所定の音圧より小さい場合には、前記対処方法を所定の音量以上の音量に増大させて通知する、
ことを特徴とする音声操作システム。
請求項１に記載の音声操作システムであって、
前記出力制御部は、前記実行タスク候補について再度の入力指示を受け付けると、前記音声認識の誤認識の推定要因の対処方法を音声で通知して、前記音声入力受付部に音声による入力情報の受け付けをさせ、当該処理においては、前記音声入力受付部により前回受け付けた音声による前記入力情報の騒音音圧が所定の音圧より大きい場合には、前記音声による入力情報の受け付けを中止する、
ことを特徴とする音声操作システム。
所定の車載機器と通信可能なサーバー装置であって、
前記車載機器から、音声による入力情報と、前記車載機器が備えられた車両の環境を特定する車両環境情報と、を受け付けると、前記入力情報を文字列変換する音声データ処理部と、
前記音声データ処理部により変換された文字列に応じた実行タスク候補を特定するとともに、前記入力情報と前記車両環境情報とを用いて信頼度を特定し、誤認識の推定要因があれば特定するタスク推定部と、
前記信頼度が所定未満であれば、前記音声認識の誤認識の推定要因と、前記実行タスク候補と、を前記車載機器へ送信するユーザー確認要否判定部と、
前記実行タスク候補を実行するタスク処理部と、
を備えることを特徴とするサーバー装置。
所定のサーバー装置と通信可能な車載機器であって、
音声による入力情報を受け付ける音声入力受付部と、
当該車載機器が備えられた車両の環境を特定する車両環境情報を取得する車両環境情報管理部と、
前記入力情報および前記車両環境情報を前記サーバー装置へ送信した後、前記サーバー装置から受信した実行タスク候補を音声認識の誤認識の推定要因とともに出力し、当該実行タスク候補の実行許可を受け付けると当該実行タスク候補を実行する指示を前記サーバー装置へ送信する出力制御部と、
を備えることを特徴とする車載機器。
請求項８に記載の車載機器であって、
前記出力制御部は、前記実行タスク候補について再度の入力指示を受け付けると、前記音声認識の誤認識の推定要因の対処方法を音声で通知して、前記音声入力受付部に音声による入力情報の受け付けをさせ、当該処理においては、前記音声入力受付部により前回受け付けた音声による前記入力情報の発話音圧が所定の音圧より小さい場合には、前記対処方法を所定の音量以上の音量に増大させて通知する、
ことを特徴とする車載機器。
車載機器と、当該車載機器と通信可能なサーバー装置と、を備える音声操作システムによる音声操作方法であって、
前記車載機器は、制御部を備え、
前記制御部は、
音声による入力情報を受け付ける音声入力受付ステップと、
当該車載機器が備えられた車両の環境を特定する車両環境情報を取得する車両環境情報管理ステップと、
前記入力情報および前記車両環境情報を前記サーバー装置へ送信した後、前記サーバー装置から受信した実行タスク候補を音声認識の誤認識の推定要因とともに出力し、当該実行タスク候補の実行許可を受け付けると当該実行タスク候補を実行する指示を前記サーバー装置へ送信する出力制御ステップと、を実行し、
前記サーバー装置は、サーバー制御部を備え、
前記サーバー制御部は、
前記車載機器から前記入力情報と前記車両環境情報とを受け付けると、前記入力情報を文字列変換する音声データ処理ステップと、
前記音声データ処理ステップにより変換された文字列に応じた実行タスク候補を特定するとともに、前記入力情報と前記車両環境情報とを用いて信頼度を特定し、誤認識の推定要因があれば特定するタスク推定ステップと、
前記信頼度が所定未満であれば、前記音声認識信頼度の誤認識の推定要因と、前記実行タスク候補と、を前記車載機器へ送信するユーザー確認要否判定ステップと、
前記実行タスク候補を実行するタスク処理ステップと、
を実行することを特徴とする音声操作方法。