JP5315289B2

JP5315289B2 - オペレーティングシステム及びオペレーティング方法

Info

Publication number: JP5315289B2
Application number: JP2010091374A
Authority: JP
Inventors: 利行難波; 博昭関山; 達之岡; 実奈子藤城; 克利大川; 恵美大谷; 淳志佐々木; 泰彦藤田
Original assignee: Toyota Motor Corp; Advanced Media Inc
Current assignee: Toyota Motor Corp; Advanced Media Inc
Priority date: 2010-04-12
Filing date: 2010-04-12
Publication date: 2013-10-16
Anticipated expiration: 2030-04-12
Also published as: EP2560158A1; EP2560158A4; EP2560158B1; US20130103405A1; WO2011129335A1; CN102844807B; US9076451B2; JP2011221344A; CN102844807A

Description

本発明はオペレーティングシステム及びオペレーティング方法に関し、特に、発話者の発話に含まれる情報から要求されるタスクの推定を行うオペレーティングシステム及びオペレーティング方法に関するものである。

車両を運転中のドライバーは、運転操作に忙しいため、ナビゲーションシステムの目的地の設定等の運転操作以外の操作を行うことが困難である。そこで、ドライバーの発話を解析することにより、ドライバーが要求するタスクを推定し、ドライバーの操作を要さずに、当該タスクを実行する装置が提案されている。例えば、特許文献１には、車両のドライバーと外部センターのオペレータとが対話をし、外部センターがドライバーの発話を認識して、ドライバーが希望する表示情報を車両の表示装置に表示させるシステムが開示されている。

特開２００４−３３３３１９号公報

しかしながら、上記のような技術では、例えば、オペレータに目的地設定をさせる場合には、ドライバーが現在地、目的地及び要求するタスクを具体的にコマンドとしてオペレータに告げる必要があり、ドライバーはコマンドの水準でしか発話をすることができないため、ドライバーにとって利便性が低い。また、ドライバーの発話から要求されるタスクを推定する精度が低く、システムの動作の信頼性が低い。そのため、上記のような技術では、誤認識を極力防ぐために、限られた操作に関するコマンドとしての発話しか受け付けられず、限られた操作の補助のみを行なうシステムとなっている。

本発明は、このような事情を考慮してなされたものであり、その目的は、ユーザにとっての利便性を向上させ、発話から要求されるタスクを推定する精度を向上させたオペレーティングシステム及びオペレーティング方法を提供することにある。

本発明は、第１発話者の発話に含まれる情報から、要求されるタスクの候補の推定を行う要求タスク推定ユニットを備え、要求タスク推定ユニットは、第１発話者の発話に含まれる複数の単語を抽出し、単語ごとに単数又は複数の属性が関連付けられて記憶されたデータベースから、単語に関連付けられた前記属性を読み出し、読み出された単数又は複数の属性に関連付けられたタスクの候補の単数又は複数のドメインが記憶されたデータベースから、属性に関連付けられたタスクの候補のドメインを読み出し、第１発話者の発話に含まれる複数の単語について、単語ごとに読み出されたドメインを集計し、最も集計数の多いドメインに係るタスクの候補を要求されるタスクの候補として推定するオペレーティングシステムである。

この構成によれば、要求タスク推定ユニットは、第１発話者の発話に含まれる複数の単語を抽出し、単語ごとに単数又は複数の属性が関連付けられて記憶されたデータベースから、単語に関連付けられた属性を読み出し、読み出された単数又は複数の属性に関連付けられたタスクの候補の単数又は複数のドメインが記憶されたデータベースから、属性に関連付けられたタスクの候補のドメインを読み出し、第１発話者の発話に含まれる複数の単語について、単語ごとに読み出されたドメインを集計し、最も集計数の多いドメインに係るタスクの候補を要求されるタスクの候補として推定するため、高精度にタスクの候補の推定を行うことができる。

なお、本発明における「タスクの候補」とは、例えば、後述するように、検索、経路案内、ナビゲーションシステムの操作及び機器の設定の変更等のユーザに対するサービスそれぞれが挙げられる。あるいは、本発明のおける「タスクの候補」とは、後述するように、例えば、検索キーワード等の検索条件が異なる検索処理それぞれが含まれる。

この場合、要求タスク推定ユニットは、単語ごとに読み出されたドメインについて、単語に対するドメインの重要度に応じたスコアを集計し、最も集計されたスコアの多いドメインに係るタスクの候補を要求されるタスクの候補として推定することが好適である。

この構成によれば、要求タスク推定ユニットは、単語ごとに読み出されたドメインについて、単語に対するドメインの重要度に応じたスコアを集計し、最も集計されたスコアの多いドメインに係るタスクの候補を要求されるタスクの候補として推定するため、さらに単語に対するドメインの重要度に応じて、高精度にタスクの候補の推定を行うことができる。

また、第２発話者の発話に含まれる情報に基づいて、要求タスク推定ユニットが推定した要求されるタスクの候補から行われるべきタスクを選択するアクションタスク選択ユニットをさらに備えることが好適である。

この構成によれば、要求タスク推定ユニットが、第１発話者の発話に含まれる情報から要求されるタスクの候補の推定を行ない、アクションタスク選択ユニットが、第２発話者の発話に含まれる情報に基づいて、要求タスク推定ユニットが推定した要求されるタスクの候補に応じて行われるべきタスクを選択する。そのため、第１発話者と第２発話者との二人の発話に含まれる情報からタスクの推定が行われる。よって、タスクの推定に要する時間や発話数を低減でき、ユーザにとっての利便性を向上させ、発話から要求されるタスクを推定する精度を向上させることができる。

この場合、アクションタスク選択ユニットは、第２発話者の発話に含まれる複数の単語を抽出し、単語ごとに単数又は複数の属性が関連付けられて記憶されたデータベースから、単語に関連付けられた属性を読み出し、読み出された単数又は複数の属性に関連付けられたタスクの単数又は複数のドメインが記憶されたデータベースから、属性に関連付けられたタスクのドメインを読み出し、第１発話者の発話に含まれる複数の単語について、単語ごとに読み出されたドメインを集計し、最も集計数の多いドメインに係るタスクを要求されるタスクに応じたタスクとして選択することが好適である。

この構成によれば、アクションタスク選択ユニットは、第２発話者の発話に含まれる複数の単語を抽出し、単語ごとに単数又は複数の属性が関連付けられて記憶されたデータベースから、単語に関連付けられた属性を読み出し、読み出された単数又は複数の属性に関連付けられたタスクの単数又は複数のドメインが記憶されたデータベースから、属性に関連付けられたタスクのドメインを読み出し、第１発話者の発話に含まれる複数の単語について、単語ごとに読み出されたドメインを集計し、最も集計数の多いドメインに係るタスクを要求されるタスクに応じたタスクとして選択するため、さらに高精度にタスクの選択を行うことができる。

この場合、アクションタスク選択ユニットは、単語ごとに読み出されたドメインについて、単語に対するドメインの重要度に応じたスコアを集計し、最も集計されたスコアの多いドメインに係るタスクを要求されるタスクとして選択することが好適である。

この構成によれば、アクションタスク選択ユニットは、単語ごとに読み出されたドメインについて、単語に対するドメインの重要度に応じたスコアを集計し、最も集計されたスコアの多いドメインに係るタスクを要求されるタスクとして選択するため、単語に対するドメインの重要度に応じて、高精度にタスクの選択を行うことができる。

一方、本発明は、第１発話者の発話に含まれる情報から、要求されるタスクの推定を行う要求タスク推定工程を含み、要求タスク推定工程は、第１発話者の発話に含まれる複数の単語を抽出し、単語ごとに単数又は複数の属性が関連付けられて記憶されたデータベースから、単語に関連付けられた属性を読み出し、読み出された単数又は複数の属性に関連付けられたタスクの候補の単数又は複数のドメインが記憶されたデータベースから、属性に関連付けられたタスクの候補のドメインを読み出し、第１発話者の発話に含まれる複数の単語について、単語ごとに読み出されたドメインを集計し、最も集計数の多いドメインに係るタスクの候補を要求されるタスクの候補として推定するオペレーティング方法である。

この場合、要求タスク推定工程は、単語ごとに読み出されたドメインについて、単語に対するドメインの重要度に応じたスコアを集計し、最も集計されたスコアの多いドメインに係るタスクの候補を要求されるタスクの候補として推定することが好適である。

また、第２発話者の発話に含まれる情報に基づいて、要求タスク推定工程で推定した要求されるタスクの候補から行われるべきタスクを選択するアクションタスク選択工程をさらに含むことが好適である。

この場合、要求タスク推定工程は、第１発話者の発話に含まれる複数の単語を抽出し、単語ごとに単数又は複数の属性が関連付けられて記憶されたデータベースから、単語に関連付けられた属性を読み出し、読み出された単数又は複数の属性に関連付けられたタスクの候補の単数又は複数のドメインが記憶されたデータベースから、属性に関連付けられたタスクの候補のドメインを読み出し、第１発話者の発話に含まれる複数の単語について、単語ごとに読み出されたドメインを集計し、最も集計数の多いドメインに係るタスクの候補を要求されるタスクの候補として推定することが好適である。

この場合、アクションタスク選択工程は、単語ごとに読み出されたドメインについて、単語に対するドメインの重要度に応じたスコアを集計し、最も集計されたスコアの多いドメインに係るタスクを要求される前記タスクとして選択することが好適である。

本発明のオペレーティングシステム及びオペレーティング方法によれば、ユーザにとっての利便性を向上させ、発話から要求されるタスクを推定する精度を向上させることができる。

第１実施形態に係るオペレーティングシステムの構成を示す図である。第１実施形態に係る発話の認識結果から要求タスクのドメインを抽出する処理を示すフローチャートである。語句属性１を示す属性１テーブルである。語句属性２を示す属性２テーブルである。語句属性１，２に関連付けられたドメインを示すドメイン対応表である。ドメインに関連付けられた要求タスクを示すドメイン−要求タスク対応表である。第２実施形態に係る発話の認識結果から要求タスクのドメインを抽出する処理を示すフローチャートである。認識された単語と各単語ごとに予め付与されている属性ａ，ｂとを示すテーブルである。語句属性ａを示す属性ａテーブルである。語句属性ｂを示す属性ｂテーブルである。ドメインごとの重要度に応じたスコアを定義した属性スコア算出テーブルである。認識された単語とその属性ａ，ｂとの一部を示すテーブルである。スコア算出の例を示す図である。

以下、図面を参照して本発明の実施形態に係るオペレーティングシステムを説明する。

図１に示すように、本発明の第１実施形態に係るオペレーティングシステムは、通信回線で接続された車載機１００、センター２００及びオペレータ端末３００からなる。本実施形態のオペレーティングシステムは、車両に搭載された車載機１００を用いるユーザとオペレータ端末３００を操作するオペレータとがセンター２００を介して対話することにより、ユーザの要求に応じてオペレータが行なうべきタスクを推定するためのものである。

図１に示すように、車載機１００は、マイク１０１、音声分析処理部（ＤＳＲ−Ｃ：Distributed Speech Recognition Client）１０２、ＧＰＳセンサ１０３、位置情報処理部１０４、画面出力処理部１０５及びディスプレイ装置１０６を有している。マイク１０１は、車両内の特にドライバーであるユーザ（第１発話者）の発話を検出し、検出結果を音声信号として音響分析処理部１０２に出力する。音響分析処理部１０２は、音声認識処理をセンター２００で行うため、発話データのサイズを圧縮してセンター２００に送信する。

ＧＰＳセンサ１０３は、ＧＰＳ（Global Positioning System）衛星からの信号をＧＰＳ受信機で受信し、各々の信号の相違から車両の位置を測位する。車載機１００は、ＧＰＳセンサ１０３が測位した位置情報と地図データとに基づいてユーザに対して経路案内を行う不図示のナビゲーションを備えている。位置情報処理部１０４は、ＧＰＳセンサ１０３が検出した位置情報を収集してセンター２００に送信する。

画面出力処理部１０５は、センター２００から送信された情報を受信し、特にドライバーであるユーザに対してディスプレイ装置１０６により情報を表示するためのものである。

センター２００は、語彙ＤＢ２０１、音声認識処理部（ＤＳＲ−Ｓ）２０２、キーワード抽出処理部２０３、行動履歴ＤＢ２０４、操作履歴ＤＢ２０５、状況判断処理部２０６、操作判断処理部２０７及び類語・関連語ＤＢ２０８を有している。

語彙ＤＢ２０１は、音声認識の対象となる語彙を蓄積した認識辞書のデータベースである。語彙ＤＢ２０１には、同じ単語の別名や愛称等の言換え語彙も含まれる。

音声認識処理部（ＤＳＲ−Ｓ：Distributed Speech Recognition Server）２０２は、車載機１００の音響分析処理部１０２から送信されたユーザの発話データをディクテーション認識してテキスト化する。また、音声認識処理部２０２は、オペレータ端末３００の音響分析処理部３０３から送信されたオペレータの発話データをディクテーション認識してテキスト化する。

キーワード抽出処理部２０３は、音声認識処理部２０２がテキスト化した発話テキストからタスクの推定に必要なキーワードとなる単語を抽出する。

行動履歴ＤＢ２０４は、車載機１００が搭載された車両のユーザであるドライバーの過去の設定目的地、走行ルート、時間帯等の行動履歴に関する情報を格納する。なお、本実施形態では、センター２００の行動履歴ＤＢ２０４にドライバーの過去の行動履歴に関する情報を格納するが、センター２００の外部の機器にドライバーの過去の行動履歴に関する情報が格納されても良い。

操作履歴ＤＢ２０５は、車載機１００が搭載された車両のユーザであるドライバーの過去の発話内容、検索条件等の操作履歴に関する情報を格納する。

状況判断処理部２０６は、車載機１００の位置情報処理部１０４から送信された車載機１００が搭載された車両の位置情報の取得と、行動履歴ＤＢ２０４に格納された行動履歴に関する情報及び操作履歴ＤＢ２０５に格納された操作履歴に関する情報の取得とを行なう。また、状況判断処理部２０６は、現在の時刻も取得する。

操作判断処理部２０７は、キーワード抽出処理部２０３のキーワードの抽出結果と、状況判断処理部２０６が取得したユーザに関する情報とを合わせ、類語・関連語ＤＢに格納された類語・関連語に関する情報を参照しつつ、ユーザの要求するタスクの候補を推定する。また、操作判断処理部２０７は、タスクの候補の推定結果に基づいて、オペレータが行うべきタスクを選択し、実行させる。操作判断処理部２０７の推定結果は、車載機１００の画面出力処理部１０５及びオペレータ端末３００のディスプレイ装置３０１に出力される。

類語・関連語ＤＢ２０８は、語彙ＤＢ２０１に格納された語彙と意味的な関連のある類語及び関連語に関する情報を格納する。なお、車載機１００からの発話データ、位置情報及びセンター２００からの推定結果は、車載機１００とセンター２００に接続された路側インフラストラクチャーとの間で、短距離通信等により送受信される。施設情報ＤＢ２１０には、車載機１００を搭載した車両が立寄ることが可能な種々の施設に関する情報が記憶されている。

オペレータ端末３００は、ディスプレイ装置３０１、マイク３０２及び音響分析処理部（ＤＳＲ−Ｃ：Distributed Speech Recognition Client）３０３を有している。ディスプレイ装置３０１は、センター２００の操作判断処理部２０７から送信された情報を受信し、オペレータに対して情報を表示するためのものである。

マイク３０２は、オペレータ（第２発話者）の発話を検出し、検出結果を音声信号として音響分析処理部３０３に出力する。音響分析処理部３０３は、音声認識処理をセンター２００で行うため、発話データのサイズを圧縮してセンター２００に送信する。

以下、本実施形態のオペレーティングシステムの動作について説明する。以下の例では、まず、発話からタスクを推定する原理を示すため、ドライバーの発話から、ＰＯＩ（Position Information）検索といったタスクを推定する手法を中心に説明する。例えば、車載機１００が搭載された車両のドライバーがマイク１０１に、「池袋のＸＸＸ（コンビニエンスストア名）は？」と発話する。音響分析処理部１０２は、センター２００の音声認識処理部２０２が音声認識を行うのに最低限必要な情報のみを抽出し、発話データとしてセンター２００の音声認識処理部２０２に送信する。

音声認識処理部２０２は、ディクテーション認識を用いて発話データをテキスト化し、発話テキストとする。このとき、音声認識処理部２０２は語彙ＤＢ２０１を参照しつつ、キーワード中に愛称、別称等の言換え表現が含まれる場合は、言換え表現を基本表現に置換したものを出力する。上記の例では、発話内に言換え表現は含まれないので、基本表現の置換は行なわれない。なお、言換え表現と基本表現の定義は普遍的なものではなく、語彙ＤＢ２０１の整備仕様により適宜決定される。

キーワード抽出処理部２０３は、音声認識処理部２０２が出力した発話テキストを構文解析する。構文解析では、キーワード抽出処理部２０３は、形態素解析による品詞分解と係り受け関係の判別を行なう。キーワード抽出処理部２０３は、品詞分解結果から、意味の判別に必要な品詞の単語のみを抜き出したものを操作判断処理部２０７に送信する。ここで、意味の判別に必要な品詞とは、名詞、動詞、形容詞、形容動詞等の単独で目的推定のための意味を持つ可能性が高い品詞をいう。例えば、本例では、「池袋」、「ＸＸＸ（コンビニエンスストア名）」が抽出される。以上より、図２に示すように、音声認識結果からの単語抽出が完了する（Ｓ１０１）。

操作判断処理部２０７は、キーワード抽出処理部２０３から受け取った抽出されたキーワードを、予め定義された判断のルールと照合し、ドライバーから要求される要求タスクを推定する。本実施形態では、類語・関連語ＤＢ２０８に複数の語句属性が記憶されている。語句属性には、所定のキーワードが関連付けられて類語・関連語ＤＢ２０８に記憶されている。例えば、語句属性１について図３に示すような属性１テーブルが定義されているものとする。操作判断処理部２０７は、抽出されたキーワードそれぞれが、語句属性１の語句属性１テーブルに関連付けられているか否か判定する（Ｓ１０２）。キーワード「池袋」に関連付けられている語句属性１は、ｉｄ１＝２：「エリア」である。キーワード「ＸＸＸ（コンビニエンスストア名）」に関連付けられている語句属性１は、ｉｄ１＝４：「チェーン」である。このような語句属性は、施設情報ＤＢ２１０の各施設の属性情報からも生成することができる。

例えば、語句属性２について図４に示すような属性２テーブルが定義されているものとする。操作判断処理部２０７は、抽出されたキーワードそれぞれが、語句属性２の語句属性２テーブルに関連付けられているか否か判定する（Ｓ１０３）。キーワード「池袋」に関連付けられている語句属性２は、ｉｄ２＝ａ：「属性なし」である。キーワード「ＸＸＸ（コンビニエンスストア名）」に関連付けられている語句属性２は、ｉｄ２＝ｅ：「コンビニ」である。

本例では、抽出されたキーワード「池袋」、「ＸＸＸ（コンビニエンスストア名）」は、語句属性１テーブル及び語句属性２テーブルのいずれかに関連付けられているため、操作判断処理部２０７は、これらのキーワードをドメイン判定必要語句として記憶する（Ｓ１０４）。一方、もし、抽出されたキーワードが、語句属性１テーブル、語句属性２テーブル及びその他の語句属性テーブルのいずれにも関連付けられていないときは、操作判断処理部２０７は、当該キーワードをドメイン判定必要語句ではないとして破棄する（Ｓ１０５）。

全てのキーワードを操作判断処理部２０７が処理したときは（Ｓ１０６）、操作判断処理部２０７は、抽出されたキーワードそれぞれについてドメイン対応表による該当ドメインがいずれであるかを判定し、ドメイン一覧より該当ドメインを抽出する（Ｓ１０７，Ｓ１０８）。

類語・関連語ＤＢ２０８には、図５に示すようなドメイン対応表が記憶されている。ドメイン対応表では、語句属性１及び語句属性２ごとに対応するタスクのドメイン１〜１３が定義されている。ドメイン１〜１３のタスクは、それぞれ図６に示すように定義されている。

例えば、キーワード「池袋」については、語句属性１はｉｄ１＝２：「エリア」であり、語句属性２はｉｄ２＝ａ：「属性なし」であるから、図５の表の丸印で示すドメイン１，４，５，６，７，８，９，１０，１１，１２及び１３が該当する。また、キーワード「ＸＸＸ（コンビニエンスストア名）」については、語句属性１はｉｄ１＝４：「チェーン」であり、語句属性２はｉｄ２＝ｅ：「コンビニ」であるから、図５の表の丸印で示すドメイン８が該当する。

操作判断処理部２０７は、ドメイン対応表による該当ドメインの判定が全てのキーワードについて完了したときは（Ｓ１０７）、該当するドメインを集計することにより要求タスクを推定する（Ｓ１０９）。例えば、本例では、キーワード「池袋」、「ＸＸＸ（コンビニエンスストア名）」のいずれにも該当するドメインは、ドメイン８の「ＰＯＩ検索−ＰＯＩ未定−コンビニ」である。そこで、操作判断処理部２０７は、ドメイン８の「ＰＯＩ（Position Information）検索−ＰＯＩ未定−コンビニ」をタスクとして推定する。

操作判断処理部２０７は、タスクの推定結果をオペレータ端末３００のディスプレイ装置３０１と車載機１００の画面出力処理部１０５に送信する。オペレータ端末３００では、当該タスクの推定結果に基づき、オペレータがマイク３０２に発話をし、ドライバーの発話と同様の処理が行われ、当該タスクを実際に行なわれるべきタスクとして確認する処理がなされる。これに対して、車載機１００でも、ドライバーがマイク１０１に発話をし、上記と同様の処理が行われる。このような処理を繰り返すことにより、短時間で精度良くタスクの推定を行うことができる。

本実施形態によれば、センター２００の操作判断処理部２０７は、ドライバー及びオペレータの発話に含まれる複数の単語を抽出し、単語ごとに単数又は複数の属性が関連付けられて記憶された類語・関連語ＤＢ２０８から、単語に関連付けられた属性を読み出し、読み出された単数又は複数の属性に関連付けられたタスクの候補あるいは実際に行なわれるべきタスクの単数又は複数のドメインが記憶された類語・関連語ＤＢ２０８から、属性に関連付けられたタスクの候補あるいは実際に行なわれるべきタスクのドメインを読み出し、ドライバー及びオペレータの発話に含まれる複数の単語について、単語ごとに読み出されたドメインを集計し、最も集計数の多いドメインに係るタスクの候補あるいは実際に行なわれるべきタスクをタスクの候補及び実際に行なわれるべきタスクとして推定するため、さらに高精度にタスクの推定を行うことができる。

また、本実施形態によれば、センター２００の操作判断処理部２０７が、ドライバー（ユーザ）の発話に含まれる情報から要求されるタスクの候補の推定を行ない、オペレータの発話に含まれる情報に基づいて、推定したタスクの候補に応じて行われるべきタスクを選択する。そのため、ドライバーとオペレータとの二人の発話に含まれる情報からタスクの推定が行われる。よって、タスクの推定に要する時間や発話数を低減でき、ユーザにとっての利便性を向上させ、発話から要求されるタスクを推定する精度を向上させることができる。

以下、本発明の第２実施形態について説明する。本実施形態では、単語ごとに読み出されたドメインについて、単語に対するドメインの重要度に応じたスコアを集計し、最も集計されたスコアの多いドメインに係るタスクの候補やタスクを要求されるタスクの候補や実際に行われるべきタスクとして推定する。

例えば、車載機１００が搭載された車両のドライバーがマイク１０１に、「池袋でＡチェーン（コンビニエンスストア名）を探して欲しいんだけど？」と発話する。図７及び図８に示すように、発話に含まれる各単語が認識され、認識結果よりデータベースから各単語の属性が抽出される（Ｓ２０１）。なお、第１実施形態と同様に、このような語句属性は、施設情報ＤＢ２１０の各施設の属性情報からも生成することができる。また、図８に示すように、信頼度といった要素を設定し、信頼度が所定の閾値未満の単語を処理から除いたり、信頼度に応じて処理の重み付けをしても良い。

図７に示すように、操作判別処理部２０７は、単語の属性ａからＩＤを抽出する（Ｓ２０２）。図８及び９に示すように、また、音声認識結果による単語「池袋」に対して、属性ａのＩＤは、ＩＤａ＝２の「エリア」となる。また、音声認識結果による単語「Ａチェーン」に対して、属性ａのＩＤは、ＩＤａ＝８の「チェーン」となる。さらに、図７に示すように、操作判別処理部２０７は、単語の属性ｂからＩＤを抽出する（Ｓ２０３）。図８及び１０に示すように、また、音声認識結果による単語「池袋」に対して、属性ｂのＩＤは、存在しない。また、音声認識結果による単語「Ａチェーン」に対して、属性ｂのＩＤは、ＩＤｂ＝８の「コンビニ」となる。

操作判別処理部２０７は、図１１に示すようなドメインごとの重要度に応じたスコアを定義した属性スコア算出テーブルから、該当ＩＤに対応する全ドメインのスコアを算出する（Ｓ２０４）。例えば、単語「Ａチェーン」に対しては、属性ａのＩＤａ＝８、属性ｂのＩＤｂ＝８であるから、ドメイン１のスコアは１である。一方、ドメイン８のスコアは３となる。

このようにして、操作判別処理部２０７は、発話中で認識された各単語について各ドメインのスコアを加算する（Ｓ２０５）。例えば、図１２に示すように、単語「池袋」に対して、属性ａのＩＤａ＝２であり、属性ｂのＩＤｂ＝０である。また、単語「Ａチェーン」に対して、属性ａのＩＤａ＝８であり、属性ｂのＩＤｂ＝８である。さらに、単語「探して」に対して、属性ａのＩＤａ＝０であり、属性ｂのＩＤｂ＝１６である。

これらの各単語について、図１１の属性スコア算出テーブルを用いて、各ドメインのスコアが算出される。例えば、図１３に示すように、ドメイン１「ＰＯＩ検索−ＰＯＩ特定−名称」については、単語「池袋」に対してスコア３、単語「Ａチェーン」に対してスコア１、単語「探して」に対してスコア０である。これにより、ドメイン１のスコアの集計値は４となる。一方、ドメイン８「ＰＯＩ検索−ＰＯＩ未定−コンビニ」については、単語「池袋」に対してスコア３、単語「Ａチェーン」に対してスコア３、単語「探して」に対してスコア０である。これにより、ドメイン１のスコアの集計値は６となる。

操作判別処理部２０７は、対話の終端まで全てのドメインについて同様の処理を繰り返し（Ｓ２０６）、集計したスコア順にドメインをソートする（Ｓ２０７）。例えば、最もスコアの高いドメインがドメイン８「ＰＯＩ検索−ＰＯＩ未定−コンビニ」であるとすると、操作判別処理部２０７は、ドメイン８の「ＰＯＩ検索−ＰＯＩ未定−コンビニ」が要求されるタスクであり、実際に行われるべきタスクである可能性が高いと推定する。

本実施形態では、センター２００の操作判断処理部２０７は、ドライバー及びオペレータの発話に含まれる複数の単語を抽出し、単語ごとに単数又は複数の属性が関連付けられて記憶された類語・関連語ＤＢ２０８から、単語に関連付けられた属性を読み出し、読み出された単数又は複数の属性に関連付けられたタスクの候補あるいは実際に行なわれるべきタスクの単数又は複数のドメインが記憶された類語・関連語ＤＢ２０８から、属性に関連付けられたタスクの候補あるいは実際に行なわれるべきタスクのドメインを読み出し、ドライバー及びオペレータの発話に含まれる複数の単語について、単語ごとに読み出されたドメインについて、単語に対するドメインの重要度に応じたスコアを集計し、最も集計されたスコアの多いドメインに係るタスクの候補あるいは実際に行なわれるべきタスクをタスクの候補及び実際に行なわれるべきタスクとして推定するため、さらに高精度にタスクの推定を行うことができる。

尚、本発明は、上記した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変更を加え得ることは勿論である。例えば、上記実施形態では、車載機を用いるドライバーとオペレータ端末を用いるオペレータとの間で対話をする態様について中心に説明したが、例えば、車載機以外にも、発話者の一部又は全部が、何らかの事情により細かい手動による操作が困難な場合においても、本発明は適用可能であり、効果を発揮する。さらに、発話者も２名に限られず、３名以上の発話者からの発話に基づいてタスクを推定することが可能である。

１００…車載機、１０１…マイク、１０２…音響分析処理部（ＤＳＲ−Ｃ）、１０３…ＧＰＳセンサ、１０４…位置情報処理部、１０５…画面出力処理部、１０６…ディスプレイ装置、２００…センター、２０１…語彙ＤＢ、２０２…音声認識処理部（ＤＳＲ−Ｓ）、２０３…キーワード抽出処理部、２０４…行動履歴ＤＢ、２０５…操作履歴ＤＢ、２０６…状況判断処理部、２０７…操作判断処理部、２０８…類語・関連語ＤＢ、２１０…施設情報ＤＢ、３００…オペレータ端末、３０１…ディスプレイ、３０２…マイク、３０３…音響分析処理部。

Claims

第１発話者の発話に含まれる情報から、要求されるタスクの候補の推定を行う要求タスク推定ユニットを備え、
前記要求タスク推定ユニットは、
前記第１発話者の発話に含まれる複数の単語を抽出し、
前記単語ごとに単数又は複数の属性が関連付けられて記憶されたデータベースから、前記単語に関連付けられた前記属性を読み出し、
読み出された単数又は複数の前記属性に関連付けられた前記タスクの候補の単数又は複数のドメインが記憶されたデータベースから、前記属性に関連付けられた前記タスクの候補の前記ドメインを読み出し、
前記第１発話者の発話に含まれる複数の単語について、前記単語ごとに読み出された前記ドメインを集計し、最も集計数の多いドメインに係る前記タスクの候補を要求される前記タスクの候補として推定する、オペレーティングシステム。
前記要求タスク推定ユニットは、前記単語ごとに読み出された前記ドメインについて、前記単語に対する前記ドメインの重要度に応じたスコアを集計し、最も集計された前記スコアの多いドメインに係る前記タスクの候補を要求される前記タスクの候補として推定する、請求項１に記載のオペレーティングシステム。
第２発話者の発話に含まれる情報に基づいて、前記要求タスク推定ユニットが推定した要求されるタスクの候補から行われるべきタスクを選択するアクションタスク選択ユニットをさらに備えた、請求項１又は２に記載のオペレーティングシステム。
前記アクションタスク選択ユニットは、
前記第２発話者の発話に含まれる複数の単語を抽出し、
前記単語ごとに単数又は複数の属性が関連付けられて記憶されたデータベースから、前記単語に関連付けられた前記属性を読み出し、
読み出された単数又は複数の前記属性に関連付けられた前記アクションタスクの単数又は複数のドメインが記憶されたデータベースから、前記属性に関連付けられた前記タスクの前記ドメインを読み出し、
前記第２発話者の発話に含まれる複数の単語について、前記単語ごとに読み出された前記ドメインを集計し、最も集計数の多いドメインに係る前記タスクを要求される前記タスクとして選択する、請求項３に記載のオペレーティングシステム。
前記アクションタスク選択ユニットは、前記単語ごとに読み出された前記ドメインについて、前記単語に対する前記ドメインの重要度に応じたスコアを集計し、最も集計された前記スコアの多いドメインに係る前記タスクを要求される前記タスクとして選択する、請求項４に記載のオペレーティングシステム。
第１発話者の発話に含まれる情報から、要求されるタスクの推定を行う要求タスク推定工程を含み、
前記要求タスク推定工程は、
前記第１発話者の発話に含まれる複数の単語を抽出し、
前記単語ごとに単数又は複数の属性が関連付けられて記憶されたデータベースから、前記単語に関連付けられた前記属性を読み出し、
読み出された単数又は複数の前記属性に関連付けられた前記タスクの候補の単数又は複数のドメインが記憶されたデータベースから、前記属性に関連付けられた前記タスクの候補の前記ドメインを読み出し、
前記第１発話者の発話に含まれる複数の単語について、前記単語ごとに読み出された前記ドメインを集計し、最も集計数の多いドメインに係る前記タスクの候補を要求される前記タスクの候補として推定する、オペレーティング方法。
前記要求タスク推定工程は、前記単語ごとに読み出された前記ドメインについて、前記単語に対する前記ドメインの重要度に応じたスコアを集計し、最も集計された前記スコアの多いドメインに係る前記タスクの候補を要求される前記タスクの候補として推定する、請求項６に記載のオペレーティング方法。
第２発話者の発話に含まれる情報に基づいて、前記要求タスク推定工程で推定した要求されるタスクの候補から行われるべきタスクを選択するアクションタスク選択工程をさらに含む、請求項６又は７に記載のオペレーティング方法。
前記アクションタスク選択工程は、
前記第２発話者の発話に含まれる複数の単語を抽出し、
前記単語ごとに単数又は複数の属性が関連付けられて記憶されたデータベースから、前記単語に関連付けられた前記属性を読み出し、
読み出された単数又は複数の前記属性に関連付けられた前記タスクの単数又は複数のドメインが記憶されたデータベースから、前記属性に関連付けられた前記タスクの前記ドメインを読み出し、
前記第１発話者の発話に含まれる複数の単語について、前記単語ごとに読み出された前記ドメインを集計し、最も集計数の多いドメインに係る前記タスクを要求タスクに応じた前記タスクとして選択する、請求項８に記載のオペレーティング方法。
前記アクションタスク選択工程は、前記単語ごとに読み出された前記ドメインについて、前記単語に対する前記ドメインの重要度に応じたスコアを集計し、最も集計された前記スコアの多いドメインに係る前記タスクを要求される前記タスクとして選択する、請求項９に記載のオペレーティング方法。