JP2021026188A

JP2021026188A - 通信制御システム、通知制御方法、及び通信制御プログラム

Info

Publication number: JP2021026188A
Application number: JP2019146804A
Authority: JP
Inventors: 昌宏暮橋; Masahiro Kurehashi; 桂輔荒川; Keisuke Arakawa
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2019-08-08
Filing date: 2019-08-08
Publication date: 2021-02-22
Also published as: CN112349284A

Abstract

【課題】簡潔にされた乗員の発話内容に対して応答することができる通知制御システム、通知制御方法、及び通知制御プログラムを提供すること。【解決手段】通知制御システムは視覚情報又は聴覚情報の少なくともどちらか一方を通知するために音声出力部及び表示部に接続される通知制御装置であって利用者の発話の音声を示すデータを取得する取得部と前記取得部により取得された前記データに基づいて前記利用者の発話内容を解釈する発話内容解釈部と前記発話内容に対する応答内容を生成し前記表示部に出力させる応答内容生成部と正式名称と該正式名称における略称略語省略語及び短縮語が含まれるものである別称とが対応付けられた辞書情報に基づいて前記発話内容解釈部により解釈された前記発話内容に含まれる前記別称に対応する正式名称を特定する特定部と前記特定部により特定された正式名称を前記表示部に表示させる表示制御部とを備える。【選択図】図１

Description

本発明は、通信制御システム、通知制御方法、及び通信制御プログラムに関する。

従来、ナビゲーション装置において、運転者が視認し易いように表示を簡潔にする技術が開示されている（例えば、特許文献１参照）。

特開２００２−１８８９２９号公報

ここで、近年、車両の乗員と対話を行いながら、乗員の要求に応じた運転支援に関する情報や車両の制御、その他のアプリケーション等を提供する応答機能が知られている。しかしながら、従来の技術では、簡潔にされた乗員の発話内容に対して応答することまでは困難であった。

本発明は、このような事情を考慮してなされたものであり、簡潔にされた乗員の発話内容に対して応答することができる通知制御システム、通知制御方法、及び通知制御プログラムを提供することを目的の一つとする。

この発明に係る通信制御システム、通知制御方法、及び通信制御プログラムは、以下の構成を採用した。
（１）この発明の一態様の通知制御システムは、視覚情報又は聴覚情報の少なくともどちらか一方を通知するために、音声出力部及び表示部に接続される通知制御装置であって、利用者の発話の音声を示すデータを取得する取得部と、前記取得部により取得された前記データに基づいて、前記利用者の発話内容を解釈する発話内容解釈部と、前記発話内容に対する応答内容を生成し、前記表示部に出力させる応答内容生成部と、正式名称と、該正式名称における略称、略語、省略語、及び短縮語が含まれるものである別称とが、対応付けられた辞書情報に基づいて、前記発話内容解釈部により解釈された前記発話内容に含まれる前記別称に対応する正式名称を特定する特定部と、前記特定部により特定された正式名称を前記表示部に表示させる表示制御部と、を備えるものである。

（２）この発明の他の態様の通知制御システムは、視覚情報又は聴覚情報の少なくともどちらか一方を通知するために、音声出力部及び表示部に接続される通知制御装置であって、利用者の発話の音声を示すデータを取得する取得部と、前記取得部により取得された前記データに基づいて、前記利用者の発話内容を解釈する発話内容解釈部と、前記発話内容に対する応答内容を生成し前記音声出力部に出力させる応答内容生成部と、正式名称と、該正式名称における略称、略語、省略語、及び短縮語が含まれるものである別称とが、対応付けられた辞書情報に基づいて、前記発話内容解釈部により解釈され前記発話内容に含まれる前記別称に対応する正式名称を特定する特定部と、前記特定部により特定された正式名称を前記音声出力部に出力させる音声制御部と、を備えるものである。

（３）の態様は、上記（１）または（２）の態様に係る通知制御システムにおいて、前記応答内容生成部は、前記別称を用いて前記発話内容に対する応答内容を生成するものである。

（４）この発明の他の態様の通知制御システムは、視覚情報又は聴覚情報の少なくともどちらか一方を通知するために、音声出力部及び表示部に接続される通知制御装置であって、利用者の発話の音声を示すデータを取得する取得部と、前記取得部により取得された前記データに基づいて、前記利用者の発話内容を解釈する発話内容解釈部と、前記発話内容に対する応答内容を生成し前記通知部に出力させる応答内容生成部と、正式名称と、該正式名称における略称、略語、省略語、及び短縮語が含まれるものである別称とが、対応付けられた辞書情報に基づいて、前記発話内容解釈部により解釈され前記発話内容に含まれる前記別称に対応する正式名称を特定する特定部と、前記特定部により特定された前記正式名称を前記表示部に表示させる表示制御部と、前記特定部により特定された前記別称を前記音声出力部に出力させる音声制御部と、を備えるものである。

（５）の態様は、上記（４）の態様に係る通知制御システムにおいて、前記応答内容生成部は、前記音声出力部に出力させる前記応答内容のモーラ数と、該音声出力部に出力させる応答内容のモーラ数に対応する前記表示部に表示させる該応答内容における文字数とを比較して、該モーラ数と比較して該文字数が多くなるように、当該表示部に表示させる該応答内容を生成するものである。

（６）の態様は、上記（１）から（５）のいずれかの態様に係る通知制御システムが、前記特定部により前記別称が特定された履歴を示す履歴情報を記憶部に記憶させる履歴管理部を更に備え、前記応答内容生成部は、前記履歴情報に基づいて、前記応答内容を生成するものである。

（７）の態様は、上記（６）の態様に係る通知制御システムにおいて、前記応答内容生成部は、前記履歴情報を参照し、前記別称が繰り返し使用されている場合に、前記別称を用いて応答内容を生成するものである。

（８）の態様は、上記（１）から（７）のいずれかの態様に係る通知制御システムにおいて、前記応答内容生成部は、前記特定部により前記別称が特定された頻度が高くなるほど、前記応答内容を簡潔にするものである。

（９）の態様は、上記（１）から（８）のいずれかの態様に係る通知制御システムにおいて、前記辞書情報には、前記別称に対して、前記別称が用いられる地域を示す情報が更に対応付けられており、前記取得部は、前記利用者の位置を示す位置情報を更に取得し、前記特定部は、前記辞書情報において、前記発話内容解釈部により解釈された前記発話内容に含まれる前記別称に対して前記地域を示す情報が対応づけられており、且つ前記位置情報が前記地域を示す情報に合致する場合に、前記別称に対応する前記正式名称を特定するものである。

（１０）の態様は、上記（１）から（９）のいずれかの態様に係る通知制御システムにおいて、前記応答内容生成部は、前記別称または前記正式名称を用いて前記発話内容に対する応答内容を生成し、前記発話内容解釈部により前記応答内容の応答中に前記利用者の発話が有ったことが解釈された場合に前記別称を優先的に使用するものである。

（１１）この発明の他の態様の通知制御装置は、視覚情報又は聴覚情報の少なくともどちらか一方を通知するために、音声出力部及び表示部に接続される通知制御装置であって、利用者の発話の音声を示すデータを取得する取得部と、前記取得部により取得された前記データに基づいて、前記利用者の発話内容を解釈する発話内容解釈部と、前記発話内容に対する応答内容を生成し前記音声出力部に出力させる応答内容生成部と、正式名称と、該正式名称における略称、略語、省略語、及び短縮語が含まれるものである別称とが対応付けられた辞書情報に基づいて、前記発話内容解釈部により解釈され前記発話内容に含まれる前記別称に対応する正式名称を特定する特定部と、前記特定部により特定された正式名称を前記表示部に表示させる音声制御部と、を備えるものである。

（１２）この発明の他の態様の通知制御方法は、単一または複数のコンピュータが実行する、利用者の発話の音声を示す音声データを取得するステップと、音声データに基づいて前記利用者の発話内容を解釈するステップと、正式名称と、該正式名称における略称、略語、省略語、及び短縮語が含まれるものである別称とが対応付けられた辞書情報に基づいて、解釈され前記発話内容に含まれる前記別称に対応する正式名称を特定するステップと、前記発話内容に対する応答内容を生成し通知部に出力させるステップと、特定された前記正式名称を前記通知部に出力するステップと、を有するものである。

（１３）この発明の他の態様の通知制御プログラムは、単一または複数のコンピュータにインストールされるための通知制御プログラムであって、利用者の発話の音声を示す音声データを取得する処理と、音声データに基づいて前記利用者の発話内容を解釈する処理と、正式名称と、該正式名称における略称、略語、省略語、及び短縮語が含まれるものである別称とが対応付けられた辞書情報に基づいて、解釈され前記発話内容に含まれる前記別称に対応する正式名称を特定する処理と、前記発話内容に対する応答内容を生成し通知部に出力させる処理と、特定された前記正式名称を前記通知部に出力する処理と、を前記コンピュータに実行させるものである。

（１）〜（１３）によれば、簡潔にされた乗員の発話内容に対して応答することができる。

（３）によれば、乗員の発話内容に対して簡潔に応答することができる。

（６）〜（８）によれば、乗員のこれまでの発話内容に適した応答をすることができる。

（９）〜（１０）によれば、乗員の特徴に応じた応答をすることができる。

エージェント装置１００を含むエージェントシステム１の構成図である。実施形態に係るエージェント装置１００の構成と、車両Ｍに搭載された機器とを示す図である。実施形態に係るエージェントサーバ２００の構成と、エージェント装置１００の構成の一部とを示す図である。別称辞書２５２Ｃの内容の一例を示す図である。パーソナルプロファイル２５４の内容の一例を示す図である。表示・操作装置２０により出力される応答内容の一例（その１）を示す図である。表示・操作装置２０により出力される応答内容の一例（その２）を示す図である。表示・操作装置２０により出力される応答内容の一例（その３）を示す図である。表示・操作装置２０により出力される応答内容の一例（その４）を示す図である。エージェントシステム１の一連の動作の一例を示すフローチャートである。応答文ＲＣの生成処理の一例を示すフローチャートである。エージェントサーバ２００の機能を備えるエージェント装置１００Ａの構成の一例を示す図である。

以下、図面を参照し、本発明の通知制御システム、通知制御方法、及び通知制御プログラムの実施形態について説明する。

＜実施形態＞
エージェント装置は、本実施形態の通知制御システムを含むエージェントシステム１の一部または全部を実現する装置である。以下では、エージェント装置の一例として、乗員（利用者の一例）が搭乗する車両（以下、車両Ｍ）に搭載され、エージェント機能を備えたエージェント装置について説明する。なお、本発明の適用上、必ずしもエージェント装置がエージェント機能を有している必要はない。また、エージェント装置は、スマートフォン等の可搬型端末装置（汎用端末）であってもよいが、以下では、車両に搭載されたエージェント機能を備えたエージェント装置を前提として説明する。エージェント機能とは、例えば、車両Ｍの乗員と対話をしながら、乗員の発話の中に含まれる要求（コマンド）に基づく各種の情報提供や各種機器制御を行ったり、ネットワークサービスを仲介したりする機能である。エージェント装置が複数のエージェント機能を有する場合、エージェント機能は、それぞれに果たす機能、処理手順、制御、出力態様・内容がそれぞれ異なってもよい。また、エージェント機能の中には、車両内の機器（例えば運転制御や車体制御に関わる機器）の制御等を行う機能を有するものがあってよい。

エージェント機能は、例えば、乗員の音声を認識する音声認識機能（音声をテキスト化する機能）に加え、自然言語処理機能（テキストの構造や意味を理解する機能）、対話管理機能、ネットワークを介して他装置を検索し、或いは自装置が保有する所定のデータベースを検索するネットワーク検索機能等を統合的に利用して実現される。これらの機能の一部または全部は、ＡＩ（Artificial Intelligence）技術によって実現されてよい。また、これらの機能を行うための構成の一部（特に、音声認識機能や自然言語処理解釈機能）は、車両Ｍの車載通信装置または車両Ｍに持ち込まれた汎用通信装置と通信可能なエージェントサーバ（外部装置）に搭載されてもよい。以下の説明では、構成の一部がエージェントサーバに搭載されており、エージェント装置とエージェントサーバとが協働してエージェントシステムを実現することを前提とする。また、エージェント装置とエージェントサーバが協働して仮想的に出現させるサービス提供主体（サービス・エンティティ）をエージェントと称する。

＜全体構成＞
図１は、エージェント装置１００を含むエージェントシステム１の構成図である。エージェントシステム１は、例えば、エージェント装置１００と、一以上のエージェントサーバ２００と、を備える。本実施形態におけるエージェントシステム１を提供する提供者は、例えば、自動車メーカー、ネットワークサービス事業者、電子商取引事業者、携帯端末の販売者や製造者等が挙げられ、任意の主体（法人、団体、個人等）がエージェントシステム１の提供者となり得る。なお、図１では、エージェントサーバ２００が一つである場合について説明したが、これに限られず、エージェントシステム１は、二以上のエージェントサーバ２００を備えるものであってもよい。この場合、各エージェントサーバ２００は、互いに異なる任意の主体によって提供されてもよい。

エージェント装置１００は、ネットワークＮＷを介してエージェントサーバ２００と通信する。ネットワークＮＷは、例えば、インターネット、セルラー網、Ｗｉ−Ｆｉ網、ＷＡＮ（Wide Area Network）、ＬＡＮ（Local Area Network）、公衆回線、電話回線、無線基地局等の通信網のうち一部または全部を含む。ネットワークＮＷには、各種ウェブサーバ３００が接続されており、エージェントサーバ２００またはエージェント装置１００は、ネットワークＮＷを介して各種ウェブサーバ３００からウェブページを取得することができる。

エージェント装置１００は、車両Ｍの乗員と対話を行い、乗員からの音声をエージェントサーバ２００に送信し、エージェントサーバ２００から得られた回答を、音声出力や画像表示の形で乗員に提示する。

［車両］
図２は、実施形態に係るエージェント装置１００の構成と、車両Ｍに搭載された機器とを示す図である。車両Ｍには、例えば、一以上のマイク１０と、表示・操作装置２０と、スピーカ３０と、ナビゲーション装置４０と、車載通信装置５０と、エージェント装置１００とが搭載される。これらの装置は、ＣＡＮ（Controller Area Network）通信線等の多重通信線やシリアル通信線、無線通信網等によって互いに接続される。なお、図２に示す構成はあくまで一例であり、構成の一部が省略されてもよいし、更に別の構成が追加されてもよい。

マイク１０は、車室内で発せられた音を収集する収音部である。表示・操作装置２０は、画像を表示するとともに、入力操作を受付可能な装置（或いは装置群）である。表示・操作装置２０は、例えば、タッチパネルとして構成されたディスプレイ装置を含む。表示・操作装置２０は、更に、ＨＵＤ（Head Up Display）や機械式の入力装置を含んでもよい。スピーカ３０は、例えば、車室内に配設されたスピーカ（音出力部）を含む。表示・操作装置２０は、エージェント装置１００とナビゲーション装置４０とで共用されてもよい。スピーカ３０は、「音声出力部」の一例である。

ナビゲーション装置４０は、ナビＨＭＩ（Human Machine Interface）と、ＧＰＳ（Global Positioning System）等の位置測位装置と、地図情報を記憶した記憶装置と、経路探索等を行う制御装置（ナビゲーションコントローラ）とを備える。マイク１０、表示・操作装置２０、およびスピーカ３０のうち一部または全部がナビＨＭＩとして用いられてもよい。ナビゲーション装置４０は、位置測位装置によって特定された車両Ｍの位置から、乗員によって入力された目的地まで移動するための経路（ナビ経路）を探索し、経路に沿って車両Ｍが走行できるように、ナビＨＭＩを用いて案内情報を出力する。経路探索機能は、ネットワークＮＷを介してアクセス可能なナビゲーションサーバにあってもよい。この場合、ナビゲーション装置４０は、ナビゲーションサーバから経路を取得して案内情報を出力する。

なお、エージェント装置１００は、ナビゲーションコントローラを基盤として構築されてもよい。この場合、ナビゲーションコントローラとエージェント装置１００は、ハードウェア上は一体に構成される。表示・操作装置２０のディスプレイ装置と、ナビゲーション装置４０のナビＨＭＩとは、「表示部」の一例である。

車載通信装置５０は、例えば、セルラー網やＷｉ−Ｆｉ網を利用してネットワークＮＷにアクセス可能な無線通信装置である。

［エージェント装置］
エージェント装置１００は、管理部１１０と、エージェント機能部１３０と、車載通信部１４０と、記憶部１５０とを備える。管理部１１０は、例えば、音響処理部１１２と、エージェントＷＵ（Wake Up）判定部１１４と、通信制御部１１６と、出力制御部１２０と備える。図２に示すソフトウェア配置は説明のために簡易に示しており、実際には、例えば、エージェント機能部１３０と車載通信装置５０の間に管理部１１０が介在してもよいように、任意に改変することができる。また、以下では、エージェント機能部１３０とエージェントサーバ２００が協働して出現させるエージェントを、単に「エージェント」と称する場合がある。

エージェント装置１００の各構成要素は、例えば、ＣＰＵ（Central Processing Unit）等のハードウェアプロセッサがプログラム（ソフトウェア）を実行することにより実現される。これらの構成要素のうち一部または全部は、ＬＳＩ（Large Scale Integration）やＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-Programmable Gate Array）、ＧＰＵ（Graphics Processing Unit）等のハードウェア（回路部；circuitryを含む）によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。記憶部１５０は、ＨＤＤ（Hard Disk Drive）やフラッシュメモリなどの記憶装置（非一過性の記憶媒体を備える記憶装置）により実現されてもよく、ＤＶＤやＣＤ−ＲＯＭなどの着脱可能な記憶媒体（非一過性の記憶媒体）により実現されてもよく、ドライブ装置に装着される記憶媒体であってもよい。また、記憶部１５０の一部又は全部は、ＮＡＳや外部のストレージサーバ等、エージェント装置１００がアクセス可能な外部装置であってもよい。記憶部１５０には、例えば、エージェント装置１００において実行されるプログラム等の情報が記憶される。

管理部１１０は、ＯＳ（Operating System）やミドルウェア等のプログラムが実行されることで機能する。

管理部１１０の音響処理部１１２は、マイク１０から収集される音を受け付け、受け付けた音に対して、エージェントごとに予め設定されているウエイクアップワードを認識したり、その他の発話内容を認識するのに適した状態になるようにしたりする音響処理を行う。ウエイクアップワードとは、例えば、対象のエージェントを起動させるためのワード（単語）やフレーズ等である。ウエイクアップワードは、単体のエージェントを起動させるものでもよく、複数のエージェントを起動させるものでもよい。音響処理とは、例えば、バンドパスフィルタ等のフィルタリングによるノイズ除去や音の増幅等である。また、音響処理部１１２は、音響処理された音声を、エージェントＷＵ判定部１１４や起動中のエージェント機能部１３０に出力する。

エージェントＷＵ判定部１１４は、エージェントに予め定められているウエイクアップワードを認識する。エージェントＷＵ判定部１１４は、音響処理が行われた音声（音声ストリーム）から発話された音声を認識する。まず、エージェントＷＵ判定部１１４は、音声ストリームにおける音声波形の振幅と零交差に基づいて音声区間を検出する。エージェントＷＵ判定部１１４は、混合ガウス分布モデル（ＧＭＭ；Gaussian mixture model) に基づくフレーム単位の音声識別および非音声識別に基づく区間検出を行ってもよい。

次に、エージェントＷＵ判定部１１４は、検出した音声区間における音声をテキスト化し、文字情報とする。そして、エージェントＷＵ判定部１１４は、テキスト化した文字情報がウエイクアップワードに該当するか否かを判定する。ウエイクアップワードであると判定した場合、エージェントＷＵ判定部１１４は、ウエイクアップワードに対応するエージェント機能部１３０を起動させる。なお、エージェントＷＵ判定部１１４に相当する機能が、エージェントサーバ２００に搭載されてもよい。この場合、管理部１１０は、音響処理部１１２によって音響処理が行われた音声ストリームをエージェントサーバ２００に送信し、エージェントサーバ２００がウエイクアップワードであると判定した場合、エージェントサーバ２００からの指示に従ってエージェント機能部１３０が起動する。また、各エージェント機能部１３０は、常時起動しており且つウエイクアップワードの判定を自ら行うものであってよい。この場合、管理部１１０がエージェントＷＵ判定部１１４を備える必要はない。

また、エージェントＷＵ判定部１１４は、上述した手順と同様の手順で、発話された音声に含まれる終了ワードを認識した場合であり、且つ、終了ワードに対応するエージェントが起動している状態（以下、必要に応じて「起動中」と称する）である場合、起動中のエージェント機能部を終了（停止）させる。なお、エージェントの起動および終了は、例えば、表示・操作装置２０から所定の操作を受け付けることによって実行されてもよいが、以下では、音声による起動および停止の例を説明する。また、起動中のエージェントは、音声の入力を所定時間以上受け付けなかった場合に停止させてもよい。

通信制御部１１６は、エージェント機能部１３０を、ネットワークＮＷに接続可能にするための制御を行う。例えば、通信制御部１１６は、エージェント機能部１３０がネットワークを介して外部装置（例えば、エージェントサーバ２００）と通信を行う場合の接続状態等を制御する。また、通信制御部１１６は、通信が途切れた場合の再接続や、接続状態の切り替え等の制御を行う。

出力制御部１２０は、通信制御部１１６またはエージェント機能部１３０等からの指示に応じて表示部またはスピーカ３０に応答内容等の情報を出力させることで、乗員にサービス等の提供を行う。出力制御部１２０は、例えば、表示制御部１２２と、音声制御部１２４とを備える。

表示制御部１２２は、エージェント機能部１３０がエージェントサーバ２００から取得した情報に基づいて、エージェントが車両Ｍの乗員の発話に応答する応答内容を、車両Ｍの乗員に通知するために用いられる画像を表示・操作装置２０のディスプレイ装置に表示させる。

音声制御部１２４は、エージェント機能部１３０がエージェントサーバ２００から取得した情報に基づいて、エージェントが車両Ｍの乗員の発話に応答する応答内容を、車両Ｍの乗員に通知するために用いられる音声をスピーカ３０に出力させる。

エージェント機能部１３０は、エージェントサーバ２００と協働して、車両の乗員の発話に応じて、音声、及び画像による応答を含むサービスを提供する。エージェント機能部１３０には、例えば、車両Ｍ、又は車両Ｍに搭載される車載機器を制御する権限が付与されており、後述する処理によりエージェントサーバ２００によって認識された車両Ｍの発話内容が、車両Ｍに搭載される車載機器の動作を指示するコマンドである場合、エージェント機能部１３０は、コマンドに基づいてそれらの車載機器を制御する。車載機器には、ナビゲーション装置４０が含まれる。エージェント機能部１３０は、通信制御部１１６の制御に基づいて、車載通信部１４０によって車載通信装置５０を介してエージェントサーバ２００と通信する。

なお、エージェント機能部１３０には、法律や条例、エージェントを提供する事業者同士の契約等に応じて、車載機器を制御する権限が割り振られるものであってもよい。

車載通信部１４０は、例えば、エージェント機能部１３０がネットワークＮＷに接続する場合に、車載通信装置５０を介して通信させる。車載通信部１４０は、エージェント機能部１３０からの情報を、車載通信装置５０を介してエージェントサーバ２００やその他の外部装置に出力する。また、車載通信部１４０は、車載通信装置５０を介して入力された情報をエージェント機能部１３０に出力する。

エージェント機能部１３０は、エージェントＷＵ判定部１１４による起動指示に基づいて起動し、乗員の発話に対して、エージェントサーバ２００を介して乗員の発話の音声に含まれる要求に対する応答内容を生成し、生成した応答内容を出力制御部１２０に出力する。また、エージェント機能部１３０は、エージェントサーバ２００と通信を行う場合には、通信制御部１１６により制御された接続状態によって通信を行う。また、エージェント機能部１３０は、エージェントＷＵ判定部１１４による制御に基づいて、エージェントを停止させてもよい。

［エージェントサーバ］
図３は、実施形態に係るエージェントサーバ２００の構成と、エージェント装置１００の構成の一部とを示す図である。以下、エージェントサーバ２００の構成とともに、エージェント機能部１３０等の動作について説明する。ここでは、エージェント装置１００からネットワークＮＷまでの物理的な通信についての説明を省略する。

エージェントサーバ２００は、通信部２１０を備える。通信部２１０は、例えば、ＮＩＣ（Network Interface Card）等のネットワークインターフェースである。更に、エージェントサーバ２００は、例えば、音声認識部２２０と、自然言語処理部２２１と、特定部２２２と、対話管理部２２３と、ネットワーク検索部２２４と、履歴管理部２２５と、応答内容生成部２２６と、記憶部２５０とを備える。これらの構成要素は、例えば、ＣＰＵ等のハードウェアプロセッサがプログラム（ソフトウェア）を実行することにより実現される。これらの構成要素のうち一部または全部は、ＬＳＩやＡＳＩＣ、ＦＰＧＡ、ＧＰＵ等のハードウェア（回路部；circuitryを含む）によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予めＨＤＤやフラッシュメモリ等の記憶装置（非一過性の記憶媒体を備える記憶装置）に格納されていてもよいし、ＤＶＤやＣＤ−ＲＯＭ等の着脱可能な記憶媒体（非一過性の記憶媒体）に格納されており、記憶媒体がドライブ装置に装着されることでインストールされてもよい。音声認識部２２０と、自然言語処理部２２１とを合わせたものは、「発話内容解釈部」の一例である。

記憶部２５０は、上記の各種記憶装置により実現される。記憶部２５０には、例えば、辞書ＤＢ２５２、パーソナルプロファイル２５４、知識ベースＤＢ２５６、応答規則ＤＢ２５８等のデータやプログラムが格納される。

エージェント装置１００において、エージェント機能部１３０は、例えば、音響処理部１１２等から入力される音声ストリーム、或いは圧縮や符号化等の処理を行った音声ストリームを、エージェントサーバ２００に送信する。エージェント機能部１３０は、ローカル処理（エージェントサーバ２００を介さない処理）が可能なコマンド（要求内容）が認識できた場合には、コマンドで要求された処理を実行してもよい。ローカル処理が可能なコマンドとは、例えば、エージェント装置１００が備える記憶部１５０を参照することで応答可能なコマンドである。より具体的には、ローカル処理が可能なコマンドとは、例えば、記憶部１５０内に存在する電話帳データ（不図示）から特定者の名前を検索し、合致した名前に対応付けられた電話番号に電話をかける（相手を呼び出す）コマンドである。したがって、エージェント機能部１３０は、エージェントサーバ２００が備える機能の一部を有してもよい。

音声ストリームを取得すると、音声認識部２２０が音声認識を行ってテキスト化された文字情報を出力し、自然言語処理部２２１が文字情報に対して辞書ＤＢ２５２を参照しながら意味解釈を行う。辞書ＤＢ２５２は、例えば、文字情報に対して抽象化された意味情報が対応付けられたものである。辞書ＤＢ２５２は、例えば、機能辞書２５２Ａと、汎用辞書２５２Ｂと、別称辞書２５２Ｃとを含む。

機能辞書２５２Ａは、エージェントサーバ２００がエージェント機能部１３０と協働して実現するエージェントが提供する機能（サービス）をカバーするための辞書である。例えば、エージェントが車載エアコンを制御する機能を提供する場合、機能辞書２５２Ａには、「エアコン」、「空調」、「つける」、「消す」、「温度」、「上げる」、「下げる」、「内気」、「外気」等の単語が、動詞、目的語等の単語種別、および抽象化された意味と対応付けられて登録されている。また、機能辞書２５２Ａには、同時に使用可能であることを示す単語間リンク情報が含まれてよい。

汎用辞書２５２Ｂは、エージェントの提供する機能に限らず、一般的な物事の事象を抽象化された意味と対応付けた辞書である。機能辞書２５２Ａと汎用辞書２５２Ｂのそれぞれは、同義語や類義語の一覧情報を含んでもよい。機能辞書２５２Ａと汎用辞書２５２Ｂとは、複数の言語のそれぞれに対応して用意されてよく、その場合、音声認識部２２０および自然言語処理部２２１は、予め設定されている言語設定に応じた機能辞書２５２Ａおよび汎用辞書２５２Ｂ、並びに文法情報（不図示）を使用する。音声認識部２２０の処理と、自然言語処理部２２１の処理は、段階が明確に分かれるものではなく、自然言語処理部２２１の処理結果を受けて音声認識部２２０が認識結果を修正する等、相互に影響し合って行われてよい。

図４は、別称辞書２５２Ｃの内容の一例を示す図である。別称辞書２５２Ｃは、車両Ｍの乗員が用いる別称であり、正式名称の略称、略語、省略語、及び短縮語を示す情報と、正式名称を示す情報と、別称が用いられる地域を示す情報とが互いに対応付けられた情報である。図４では、別称である「ワック」と、正式名称である「ワクワクバーガー」とが対応付けられている。ここで、「ワック」という別称には、特定の地域に限らず用いられるため、地域を示す情報が対応付けられていない（或いは、地域を限定しない「全国」等の情報が対応付けられる）。また、図４では、別称である「ドレミ」と、正式名称である「ドレミドーナッツ」と、別称が用いられる地域を示す「関西」とが対応付けられ、更に、正式名称である「ドレミラーメン」と、別称が用いられる地域を示す「関東」とが対応付けられる。これは、「ドレミ」という別称が、関西では、「ドレミドーナッツ」について用いられており、関東では、「ドレミラーメン」について用いられていることを示す。別称辞書２５２Ｃは、「辞書情報」の一例である。

図３に戻り、自然言語処理部２２１は、音声認識部２２０による認識結果に基づく意味解釈の一つとして、音声に含まれるサービスの要求に対応するためにエージェントが必要な機能に関する情報（以下、機能必要情報と称する）を取得する。例えば、認識結果として、「目的地をワックに設定して」のテキストが認識された場合、自然言語処理部２２１は、辞書ＤＢ２５２等を参照して解釈し、「ナビゲーション装置の制御」という対象機器及び機能種別等を取得する。そして、自然言語処理部２２１は、取得した機能必要情報をエージェント機能部１３０に出力する。自然言語処理部２２１は、機能必要情報に基づきサービス要求に対する実行可否の判定結果を取得する。自然言語処理部２２１は、要求された機能が実行可能である場合に、サービス要求に対応できるものとして、解釈された発話内容に対応したコマンドを生成する。

例えば、自然言語処理部２２１は、認識結果として、「目的地をワックに設定して」、「目的地をワック」、「ワックまでの道順を教えて」等の発話が認識された場合に、標準文字情報「目的地をワックに設定」又は「ＳＥＴ＿ＤＥＳＴＩＮＡＴＩＯＮ “ワック”」等に置き換えたコマンドを生成する。これにより、リクエスト（要求）の音声に発話用語の地域相違が有った場合にも要求に合ったサービスを提供し易くすることができる。また、自然言語処理部２２１は、例えば、確率を利用した機械学習処理等の人工知能処理を用いて文字情報の意味を認識したり、認識結果に基づくコマンドを生成したりしてもよい。

特定部２２２は、別称辞書２５２Ｃに基づいて、自然言語処理部２２１により生成（解釈）されたコマンドに含まれる別称の正式名称を特定する。例えば、自然言語処理部２２１によって生成されたコマンドが「目的地をワックに設定」である場合、特定部２２２は、別称辞書２５２Ｃに基づいて、「ワック」の正式名称が「ワクワクバーガー」であると特定する。そして、特定部２２２は、自然言語処理部２２１により生成されたコマンドを、正式名称を含むコマンドに更新する。この場合、特定部２２２は、自然言語処理部２２１により生成されたコマンドを、「目的地をワクワクバーガーに設定」というコマンドに更新する。なお、特定部２２２は、自然言語処理部２２１により生成されたコマンドに別称が含まれていないことを特定した場合、コマンドを更新しなくてもよい。

対話管理部２２３は、自然言語処理部２２１により生成されたコマンド、又は特定部２２２により更新されたコマンドに基づいて、パーソナルプロファイル２５４や知識ベースＤＢ２５６、応答規則ＤＢ２５８を参照しながら車両Ｍの乗員に対する応答内容（例えば、乗員への発話内容や出力部から出力する画像、音声）を決定する。知識ベースＤＢ２５６は、物事の関係性を規定した情報である。応答規則ＤＢ２５８は、コマンドに対してエージェントが行うべき動作（回答や機器制御の内容等）を規定した情報である。図５は、パーソナルプロファイル２５４の内容の一例を示す図である。パーソナルプロファイル２５４は、乗員の個人情報と、趣味嗜好を示す情報と、過去の対話の履歴（以下、発話履歴）を示す情報と、対応する発話履歴に発話内容に別称が含まれるか否かを示す情報と、これらの情報を取得した日時とが互いに対応付けられた乗員毎の情報である。

また、対話管理部２２３は、音声ストリームから得られる特徴情報を用いて、パーソナルプロファイル２５４と照合を行うことで、乗員を特定してもよい。この場合、パーソナルプロファイル２５４には、例えば、音声の特徴情報が更に応付けられている。音声の特徴情報とは、例えば、声の高さ、イントネーション、リズム（音の高低のパターン）等の喋り方の特徴や、メル周波数ケプストラム係数（Mel Frequency Cepstrum Coefficients）等による特徴量に関する情報である。音声の特徴情報は、例えば、乗員の初期登録時に所定の単語や文章等を乗員に発声させ、発声させた音声を認識することで得られる情報である。

対話管理部２２３は、コマンドがネットワークＮＷを介して検索可能な情報を要求するものである場合、ネットワーク検索部２２４に検索を行わせる。ネットワーク検索部２２４は、ネットワークＮＷを介して各種ウェブサーバ３００にアクセスし、所望の情報を取得する。「ネットワークＮＷを介して検索可能な情報」とは、例えば、車両Ｍの周辺にあるレストランの一般ユーザによる評価結果であったり、その日の車両Ｍの位置に応じた天気予報であったりする。なお、ナビゲーション装置４０が記憶する地図情報に、車両Ｍの乗員が目的地として指定した立ち寄り地点（この場合、「ワクワクバーガー」）についての情報が含まれていない場合、対話管理部２２３は、車両Ｍの周辺に存在する立ち寄り地点の位置をネットワーク検索部２２４に検索させてもよい。

履歴管理部２２５は、音声認識部２２０に認識された発話内容、自然言語処理部２２１に生成されたコマンド、特定部２２２に更新されたコマンド、及び対話管理部２２３に決定された応答内容等に基づいて、パーソナルプロファイル２５４を更新する。履歴管理部２２５は、例えば、音声認識部２２０によって車両Ｍの乗員の発話が認識される度に、パーソナルプロファイル２５４を更新する。この場合、パーソナルプロファイル２５４は、「履歴情報」の一例である。

応答内容生成部２２６は、対話管理部２２３により決定された発話の内容が車両Ｍの乗員に理解されるように、応答文を生成し、生成した応答文（応答内容の一例）をエージェント装置１００に送信する。また、応答内容生成部２２６は、乗員認識装置８０による認識結果をエージェント装置１００から取得し、取得した認識結果によりコマンドを含む発話を行った乗員がパーソナルプロファイル２５４に登録された乗員であることが特定されている場合に、乗員の名前を呼んだり、乗員の話し方に似せた話し方にしたりした応答文を生成してもよい。

また、応答内容生成部２２６は、別称辞書２５２Ｃとパーソナルプロファイル２５４を参照し、車両Ｍの乗員が、別称をよく用いる場合には、別称を用いた応答文を生成してもよく、車両Ｍの乗員がこれまでに用いた別称を用いて応答文を生成してもよい。

エージェント機能部１３０は、応答文を取得すると、音声合成を行って音声を出力するように音声制御部１２４に指示する。また、エージェント機能部１３０は、応答文を含む画像等を表示するように表示制御部１２２に指示する。

［応答内容の例（その１）］
以下、図面を参照して応答内容の例について説明する。まず、応答内容の例（その１）について説明する。図６は、表示・操作装置２０により出力される応答内容の一例（その１）を示す図である。図６において、車両Ｍの乗員の発話内容ＵＣ１は、ナビゲーション装置４０に設定する目的地を「ワクワクバーガー」にすることを、別称を用いてエージェントに指示する内容である。具体的には、発話内容ＵＣ１は、「目的地をワックに設定して」等の内容である。エージェントシステム１のエージェント装置１００は、音響処理部１１２によって処理された音声ストリームを生成し、エージェントサーバ２００に送信する。

エージェントサーバ２００は、エージェント装置１００から受信した音声ストリームに基づいて、音声認識部２２０が音声認識を行い、車両Ｍの乗員の発話内容を「目的地をワックに設定して」というテキストに変換する。自然言語処理部２２１は、音声認識部２２０によって認識されたテキストに基づいて、コマンドを生成する。特定部２２２は、自然言語処理部２２１によって生成されたコマンドに含まれる別称ａｂｂ１（この一例では、「ワック」）を特定し、特定した別称を正式名称ｆｎ１（この一例では、「ワクワクバーガー」）に更新する。

応答内容生成部２２６は、対話管理部２２３により決定された応答内容に基づいて、車両Ｍの乗員に理解されるように応答文を生成し、生成した応答文をエージェント装置１００に送信する。応答内容生成部２２６は、車両Ｍの乗員に応答する画像に含まれる応答内容、又は車両Ｍの乗員に応答する音声として出力する応答文のうち、少なくとも一方を生成する。以降の説明では、応答内容生成部２２６が、画像に含まれる応答文、及び音声として出力する応答文の両方を生成する場合について説明する。

応答内容（その１）では、対話管理部２２３は、応答内容として車両Ｍの乗員の発話内容を確認（復唱）することを決定し、応答内容生成部２２６は、発話内容を確認する画像に含まれる応答文と、音声として出力する応答文とを生成する。また、応答内容（その１）では、応答内容生成部２２６は、特定部２２２の特定結果と別称辞書２５２Ｃとに基づいて、正式名称ｆｎ１を用いた応答文ＲＣ１と、別称ａｂｂ１を用いた応答文ＲＣ２とを生成してエージェント装置１００に送信する。応答文ＲＣ１は、例えば、「目的地をワクワクバーガー（正式名称ｆｎ１）に設定します。」等の内容である。応答文ＲＣ２は、例えば、「目的地をワック（別称ａｂｂ１）に設定します。」等の内容である。表示制御部１２２は、エージェントサーバ２００から受信した応答文ＲＣ１を含む通知画像ＩＭａ１を生成し、表示・操作装置２０のディスプレイ装置に表示させる。また、音声制御部１２４は、エージェントサーバ２００から受信した応答文ＲＣ２の音声を生成し、スピーカ３０から出力させる。

これにより、エージェントシステム１は、車両Ｍの乗員の発話内容が正しく認識できていることを、正式名称ｆｎ１を用いた応答文ＲＣ１を示す通知画像ＩＭａ１をディスプレイ装置に表示させ、簡潔にされた乗員の発話内容に対して適切に応答することができる。また、エージェントシステム１は、車両Ｍの乗員の発話として用いられる別称と同様の別称ａｂｂ１を用いた応答文ＲＣ２を音声によってスピーカ３０から出力させ、簡潔にされた乗員の発話内容に対して適切に応答することができる。

［応答内容の例（その２）］
次に、応答内容の例（その２）について説明する。図７は、表示・操作装置２０により出力される応答内容の一例（その２）を示す図である。応答内容の例（その１）では、エージェントシステム１が車両Ｍの乗員の発話に含まれる別称を用いた音声による応答と、当該別称の正式名称を用いた画像による応答とを行う場合について説明した。応答内容の例（その２）では、エージェントシステム１が車両Ｍの乗員の発話に用いられる別称を用いた画像による応答と、当該別称の正式名称を用いた音声による応答とを行う場合について説明する。図７において、車両Ｍの乗員の発話内容ＵＣ１は、ナビゲーション装置４０に設定する目的地を「ワクワクバーガー」にすることを、別称を用いてエージェントに指示する内容である。

応答内容の例（その２）では、対話管理部２２３は、応答内容として車両Ｍの乗員の発話内容を確認（復唱）することを決定し、応答内容生成部２２６は、発話内容を確認する画像に含まれ、且つ音声として出力する応答文を生成する。また、応答内容の例（その２）では、応答内容生成部２２６は、特定部２２２の特定結果と別称辞書２５２Ｃとに基づいて、別称ａｂｂ１を用いた応答文ＲＣ２を生成してエージェント装置１００に送信する。表示制御部１２２は、エージェントサーバ２００から受信した応答文ＲＣ２を含む通知画像ＩＭａ２を生成し、表示・操作装置２０のディスプレイ装置に表示させる。また、音声制御部１２４は、上述した応答内容の例（その１）に係る処理によって生成された応答文ＲＣ１をエージェントサーバ２００から受信し、受信した応答文ＲＣ１の音声を生成し、スピーカ３０から出力させる。

これにより、エージェントシステム１は、車両Ｍの乗員の発話内容が正しく認識できていることを、別称ａｂｂ１を用いた応答文ＲＣ２を示す通知画像ＩＭａ２をディスプレイ装置に表示させ、且つ応答文ＲＣ１の音声をスピーカ３０に出力させることによって示し、簡潔にされた乗員の発話内容に対して適切に応答することができる。

なお、応答内容生成部２２６は、パーソナルプロファイル２５４を参照し、車両Ｍの乗員が以前にも繰り返し（例えば、所定回数以上）別称ａｂｂ１を用いる場合にのみ、別称ａｂｂ１を用いた応答文ＲＣ２を生成するものであってもよい。また、応答内容生成部２２６は、通知画像ＩＭａ、又は音声の一方で別称ａｂｂ１を用いた応答文ＲＣ２を通知する場合、他方では正式名称ｆｎ１を用いた応答文ＲＣ１を通知するものであってもよい。これにより、応答内容生成部２２６は、通知画像ＩＭａ、又は音声の一方では応答内容を正確に伝えつつ、他方では応答内容を簡潔に伝えることができる。

［応答内容の例（その３）］
次に、応答内容の例（その３）について説明する。図８は、表示・操作装置２０により出力される応答内容の一例（その３）を示す図である。応答内容の例（その２）では、エージェントシステム１が特定した正式名称を用いた音声による応答と、車両Ｍの乗員の発話に用いられた別称を用いた画像による応答とを行う場合について説明した。応答内容の例（その３）では、車両Ｍの乗員が繰り返し別称を用いる場合に、より簡潔な応答文ＲＣ３を生成する場合について説明する。図８において、車両Ｍの乗員の発話内容ＵＣ１は、ナビゲーション装置４０に設定する目的地を「ワクワクバーガー」にすることを、別称を用いてエージェントに指示する内容である。

応答内容の例（その３）では、対話管理部２２３は、応答内容として車両Ｍの乗員の発話内容を確認（復唱）することを決定し、応答内容生成部２２６は、発話内容を確認する画像に含まれ、且つ音声として出力する応答文を生成する。また、応答内容の例（その３）では、応答内容生成部２２６は、特定部２２２の特定結果と別称辞書２５２Ｃとパーソナルプロファイル２５４とに基づいて、パーソナルプロファイル２５４の発話履歴に別称が含まれる頻度が高くなるほど、より簡潔な応答文ＲＣ３を生成してエージェント装置１００に送信する。応答文ＲＣ３は、例えば、別称ａｂｂ１を含み、応答文ＲＣ２よりも短い（簡潔な）文、又は語句により示される内容である。図８において、応答文ＲＣ３は、例えば、「目的地：ワック（別称ａｂｂ１）」等の内容である。表示制御部１２２は、エージェントサーバ２００から受信した応答文ＲＣ３を含む通知画像ＩＭａ３を生成し、表示・操作装置２０のディスプレイ装置に表示させる。また、音声制御部１２４は、エージェントサーバ２００から受信した応答文ＲＣ３の音声を生成し、スピーカ３０から出力させる。

これにより、エージェントシステム１は、車両Ｍの乗員が別称をよく用いて、簡潔な応答を好む人物である場合には、別称ａｂｂ１を用いた応答文ＲＣ３を示す通知画像ＩＭａ３をディスプレイ装置に表示させ、且つ応答文ＲＣ３の音声をスピーカ３０に出力させることによって速く伝達することができ、乗員のこれまでの発話内容に適した応答することができる。

なお、応答内容生成部２２６は、通知画像ＩＭａ、又は音声の一方で別称ａｂｂ１を用いた応答文ＲＣ３を通知する場合、他方では正式名称ｆｎ１を用いた応答文ＲＣ１、又は別称ａｂｂ１を用いた（応答文ＲＣ３よりも長い）応答文ＲＣ２を通知するものであってもよい。これにより、応答内容生成部２２６は、通知画像ＩＭａ、又は音声の一方では応答内容を適切に伝えつつ、他方では応答内容を簡潔に伝えることができる。

また、音声認識部２２０により認識された認識結果が、正式名称ｆｎ１を含む応答文ＲＣ１の音声がスピーカ３０から出力されている際（つまり、応答中）に、車両Ｍの乗員の発話があったことが認識（解釈）されたことを示す場合、応答内容生成部２２６は、より簡潔な応答内容（つまり、応答文ＲＣ３）を生成するものであってもよい。これにより、応答内容生成部２２６は、車両Ｍの乗員が応答中に割り込んで発話するせっかちな人物であることが推定される場合に、優先的に別称を使用してより簡潔な応答文ＲＣ２〜ＲＣ３により応答させることができる。

［応答内容の例（その４）］
次に、応答内容の例（その４）について説明する。図９は、表示・操作装置２０により出力される応答内容の一例（その４）を示す図である。応答内容の例（その３）では、車両Ｍの乗員が繰り返し別称を用いる場合に、より簡潔な応答文ＲＣ３を生成する場合について説明した。応答内容の例（その４）では、別称が用いられる地域と車両Ｍの位置とに応じた応答文ＲＣ４を生成する。図９において、車両Ｍの乗員の発話内容ＵＣ２は、ナビゲーション装置４０に設定する目的地を「ドレミラーメン」にすることを、別称を用いてエージェントに指示する内容である。

まず、応答内容の例（その４）では、エージェント機能部１３０は、音声ストリームに加えて、ナビゲーション装置４０が備える位置測位装置によって特定された車両Ｍの位置を示す情報をエージェントサーバ２００に送信する。

応答内容の例（その４）では、対話管理部２２３は、応答内容として車両Ｍの乗員の発話内容を確認（復唱）することを決定し、発話内容を確認する画像に含まれ、且つ音声として出力する応答文を生成する。また、応答内容の例（その４）では、応答内容生成部２２６は、特定部２２２の特定結果と、別称辞書２５２Ｃとに基づいて、特定結果に別称が含まれる場合、当該別称が用いられる地域を特定する。図９において、発話内容ＵＣ２に含まれる別称ａｂｂ２は、「ドレミ」であり、別称辞書２５２Ｃには、別称ａｂｂ２（「ドレミ」）が、「関西」と、「関東」とにおいて用いられることが示されている。応答内容生成部２２６は、特定した地域と、車両Ｍの位置情報とに基づいて、車両Ｍの位置に対応する正式名称ｆｎ２を用いた応答文ＲＣ４を生成してエージェント装置１００に送信する。図９において、車両Ｍの位置は「関東」であるため、応答内容生成部２２６は、正式名称ｆｎ２として「ドレミラーメン」を特定し、「目的地をドレミラーメン（正式名称ｆｎ２）に設定します」等の応答文ＲＣ４を生成する。表示制御部１２２は、エージェントサーバ２００から受信した応答文ＲＣ４を含む通知画像ＩＭａ４を生成し、表示・操作装置２０のディスプレイ装置に表示させる。

これにより、エージェントシステム１は、車両Ｍの乗員の状況（存在する地域）に対応する別称ａｂｂ２の正式名称ｆｎ２を用いた応答文ＲＣ４を示す通知画像ＩＭａ４をディスプレイ装置に表示させることによって、乗員の特徴に応じた応答をすることができる。

また、上述の例（その４）において、図９において「目的地をトーダイに設定して」と発話する場合も考えられる。発話内容ＵＣ２に含まれる別称ａｂｂ２は、「東大」「灯台」（図４参照）であり、別称辞書２５２Ｃには、別称ａｂｂ２（「東大」「灯台」）が、特定の地域に限らず用いられる「−」と、「神奈川県横須賀市」または「東京都千代田区」等々とにおいて用いられることが示されている。応答内容生成部２２６は、特定した地域と、車両Ｍの位置情報とに基づいて、車両Ｍの位置に対応する正式名称ｆｎ２を用いた応答文ＲＣ４を生成してエージェント装置１００に送信する。図４において、車両Ｍの位置が「神奈川県横須賀市」「東京都千代田区」等々の以外であれば、応答内容生成部２２６は、正式名称ｆｎ２として「東京大学」を特定し、「目的地を東京大学（正式名称ｆｎ２）に設定します」等の応答文ＲＣ４を生成する。表示制御部１２２は、エージェントサーバ２００から受信した応答文ＲＣ４を含む通知画像ＩＭａ４を生成し、表示・操作装置２０のディスプレイ装置に表示させる。

なお、応答内容生成部２２６は、パーソナルプロファイル２５４と、別称辞書２５２Ｃとを参照し、特定した別称が用いられる地域と、車両Ｍの乗員の出身地に基づいて、車両Ｍの乗員の出身地に対応する正式名称ｆｎ３を用いた応答文ＲＣ５を生成してもよい。この場合、応答内容生成部２２６は、パーソナルプロファイル２５４に含まれる個人情報に基づいて、車両Ｍの乗員の出身地を特定する。そして、応答内容生成部２２６は、別称辞書２５２Ｃに基づいて特定した別称が用いられる地域のうち、車両Ｍの乗員の出身地に対応する正式名称ｆｎ３を特定する。車両Ｍの乗員が「関西」出身である場合、応答内容生成部２２６は、正式名称ｆｎ３として「ドレミドーナッツ」を特定し、「目的地をドレミドーナッツ（正式名称ｆｎ３）に設定します」等の応答文ＲＣ５を生成する。これにより、エージェントシステム１は、車両Ｍの乗員の状況（出身地）に対応する別称ａｂｂ２の正式名称ｆｎ３を用いた応答文ＲＣ５を示す通知画像ＩＭａ（不図示）をディスプレイ装置に表示させることによって、乗員の特徴に応じた応答をすることができる。

また、応答内容生成部２２６は、パーソナルプロファイル２５４と、別称辞書２５２Ｃとを参照し、特定した別称が用いられる地域と、車両Ｍの乗員の出身地や出身校に基づいて、車両Ｍの乗員の出身校に対応する正式名称ｆｎ３を用いた応答文ＲＣ５を生成してもよい。この場合、応答内容生成部２２６は、パーソナルプロファイル２５４に含まれる個人情報に基づいて、車両Ｍの乗員の出身校を特定する。そして、応答内容生成部２２６は、別称辞書２５２Ｃに基づいて特定した別称が用いられる地域のうち、車両Ｍの乗員の出身校に対応する正式名称ｆｎ３を特定する。車両Ｍの乗員が「東京大学」出身である場合、応答内容生成部２２６は、正式名称ｆｎ３として「東京大学」を特定し、「目的地を東京大学（正式名称ｆｎ３）に設定します」等の応答文ＲＣ５を生成する。これにより、エージェントシステム１は、車両Ｍの乗員の状況（出身校）に対応する別称ａｂｂ２の正式名称ｆｎ３を用いた応答文ＲＣ５を示す通知画像ＩＭａ（不図示）をディスプレイ装置に表示させることによって、乗員の特徴に応じた応答をすることができる。

［複数の応答文ＲＣを生成する場合］
また、上述した処理により、応答内容生成部２２６が、応答文ＲＣ１、及び応答文ＲＣ２、又は応答文ＲＣ２、及び応答文ＲＣ３等の複数の応答文ＲＣを生成する場合、表示制御部１２２、及び音声制御部１２４は、情報量（文字数・モーラ数）が多い方の応答文ＲＣを表示・操作装置２０のディスプレイ装置に表示させ、情報量（モーラ数・文字数）が少ない方の応答文ＲＣをスピーカ３０に出力させてもよい。ここで、車両Ｍの乗員は、同じ情報量（モーラ数・文字数）の応答文ＲＣであっても、画像によって応答される場合と、音声によって応答される場合とでは、画像によって応答される方が応答文ＲＣを短時間で認識し易い場合がある。したがって、エージェントシステム１の表示制御部１２２、及び音声制御部１２４は、情報量（文字数・モーラ数）が多い方の応答文ＲＣを表示・操作装置２０のディスプレイ装置に表示させることにより、車両Ｍの乗員に分かりやすく応答することができる。

［動作フロー］
図１０は、エージェントシステム１の一連の動作の一例を示すフローチャートである。本フローチャートの処理は、例えば、所定周期或いは所定のタイミングで繰り返し実行されてよい。また、図１０の例では、エージェント装置１００により実行される処理のうち、主にウエイクアップワードによりエージェントを起動し、乗員の発話に含まれる要求に応答する処理について説明するものとし、エージェント装置１００のエージェント機能部１３０と協働して実行されるエージェントサーバ２００の処理も含めて説明するものとする。

図１０の例において、まず、エージェントＷＵ判定部１１４は、ウエイクアップワードに対応付けられたエージェント（エージェント機能部１３０）を起動させる（ステップＳ１００）。次に、音響処理部１１２は、マイク１０等により音声を受け付けたか否かを判定する（ステップＳ１０２）。音声を受け付けた場合、音響処理部１１２は、受け付けた音声に対して発話内容を認識するのに適した状態になるように音響処理を行う（ステップＳ１０４）。音響処理された音声は、車載通信装置５０によってエージェント機能部１３０からエージェントサーバ２００に送信される。音響処理部１１２は、「取得部」の一例である。

エージェントサーバ２００の音声認識部２２０は、受け付けた音声の認識を行い、音声をテキスト化する（ステップＳ１０６）。次に、自然言語処理部２２１は、テキスト化された文字情報に対する自然言語処理を実行し、文字情報の意味解析を行う（ステップＳ１０８）。次に、自然言語処理部２２１は、意味解釈結果に対応する機能を抽出し、エージェント装置１００が処理可能なコマンドを生成する（ステップＳ１１０）。次に、特定部２２２は、別称辞書２５２Ｃに基づいて、自然言語処理部２２１により生成（解釈)されたコマンドに別称が含まれるか否かを判定する（ステップＳ１１２）。応答内容生成部２２６は、特定部２２２によってコマンドに別称が含まれていないと判定された場合、対話管理部２２３やネットワーク検索部２２４に決定された応答内容に基づいて、別称を用いない応答文ＲＣ１を生成する（ステップＳ１１４）。応答内容生成部２２６は、特定部２２２によってコマンドに別称が含まれていると判定された場合、対話管理部２２３やネットワーク検索部２２４に決定された応答内容に基づいて、別称を用いた応答文ＲＣ２〜ＲＣ３を生成する（ステップＳ１１６）。ステップＳ１１６の処理の詳細については、後述する。

応答内容生成部２２６は、対話管理部２２３やネットワーク検索部２２４に決定されたコマンドをエージェント装置１００に送信し、コマンドに対応する機能を実行させる（ステップＳ１１８）。応答内容生成部２２６は、生成した応答内容をエージェント装置１００に送信し、エージェント機能部１３０は、エージェントサーバ２００から取得した応答結果を出力部に出力させる（ステップＳ１２０）。履歴管理部２２５は、応答内容生成部２２６により生成された応答文ＲＣ１〜ＲＣ３に基づいて、パーソナルプロファイル２５４を更新する（ステップＳ１２２）。ステップＳ１２０の処理後、またはステップＳ１２０の処理において音声を受け付けていない場合、エージェント機能部１３０は、エージェントの処理を終了させるか否かを判定する（ステップＳ１２４）。エージェントを終了させないと判定された場合には、ステップＳ１０２の処理に戻る。また、また、エージェントを終了させると判定された場合、管理部１１０は、エージェントを終了させる（ステップＳ１２６）。エージェントを終了させる場合には、例えば、エージェントを終了させる終了ワードの音声を受け付けた場合、エージェントを終了させる車載スイッチが押された場合、マイク１０が音声を受け付けない状態が所定時間以上継続した場合等が含まれる。本フローチャートの処理は終了する。

図１１は、応答文ＲＣの生成処理の一例を示すフローチャートである。図１１に示すフローチャートは、図１０に示されるステップＳ１１６の処理の詳細を示すフローチャートである。まず、応答内容生成部２２６は、パーソナルプロファイル２５４に基づいて、発話した車両Ｍの乗員が、これまでに特定部２２２によって特定された別称を繰り返し用いているか否かを判定する（ステップＳ２００）。応答内容生成部２２６は、発話した車両Ｍの乗員がこれまでに特定部２２２によって特定された別称を繰り返し用いていないと判定した場合、当該乗員には別称を用いない応答をすることが好ましいとみなし、別称辞書２５２Ｃに基づいて、当該別称に対応する正式名称を特定して、応答文ＲＣ１を生成する（ステップＳ２０２）。

応答内容生成部２２６は、発話した車両Ｍの乗員がこれまでに特定部２２２によって特定された別称を繰り返し用いていると判定した場合、パーソナルプロファイル２５４に示される当該乗員の発話履歴に基づいて、当該乗員が別称を用いる頻度が高い（つまり、頻度が所定の基準以上）であるか否かを判定する（ステップＳ２０４）。応答内容生成部２２６は、頻度が高くないと判定した場合、当該乗員は、特定部２２２によって特定された別称を用いて応答するものの、あまり別称を用いない人物であるとみなし、別称を用いる応答文ＲＣ２と、別称を用いない応答文ＲＣ１とを生成する（ステップＳ２０６）。この時、応答文ＲＣ２に含まれる別称は、車両Ｍの位置、又は車両Ｍの乗員の出身地に応じた別称であってもよい。また、応答内容生成部２２６は、頻度が高いと判定した場合、当該乗員は、特定部２２２によって特定された別称以外にも、別称を好んで使用する人物であるとみなし、より簡潔な応答として応答文ＲＣ３と、応答文ＲＣ２とを生成する（ステップＳ２０８）。この時、応答文ＲＣ３に含まれる別称は、車両Ｍの位置、又は車両Ｍの乗員の出身地に応じた別称であってもよい。

［エージェント装置１００とエージェントサーバ２００とを合わせた構成］
なお、上述では、エージェント装置１００と、エージェントサーバ２００とが別体によって構成される場合について説明したが、これに限られない。エージェント装置１００と、エージェントサーバ２００とは一体に構成されていてもよい。図１２は、エージェントサーバ２００の機能を備えるエージェント装置１００Ａの構成の一例を示す図である。エージェント装置１００Ａは、エージェント装置１００が備えるエージェント機能部１３０に代えて（或いは、加えて）、エージェント機能部１３０Ａを備える。エージェント機能部１３０Ａは、例えば、音声認識部２２０と、自然言語処理部２２１と、特定部２２２と、対話管理部２２３と、ネットワーク検索部２２４と、履歴管理部２２５と、応答内容生成部２２６とをその機能部として備える。これらの機能部が実行する処理は、上述した処理と同様であるため、説明を省略する。また、エージェント装置１００Ａは、エージェント装置１００が備える記憶部１５０に代えて（或いは、加えて）、記憶部２５０Ａを備える。記憶部２５０Ａには、例えば、エージェント装置１００Ａにおいて実行されるプログラムの他、辞書ＤＢ２５２（機能辞書２５２Ａ、汎用辞書２５２Ｂ、及び別称辞書２５２Ｃを含む）と、パーソナルプロファイル２５４と、知識ベースＤＢ２５６と、応答規則ＤＢ２５８との情報が記憶される。エージェント装置１００Ａによれば、ネットワークを介した通信を行わずとも、上述した処理を実行することができる。

以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。

１…エージェントシステム、１０…マイク、２０…表示・操作装置、３０…スピーカ、４０…ナビゲーション装置、５０…車載通信装置、７０…汎用通信装置、８０…乗員認識装置、１００…エージェント装置、１１０…管理部、１１２…音響処理部、１１４…エージェントＷＵ判定部、１１６…通信制御部、１２０…出力制御部、１２２…表示制御部、１２４…音声制御部、１３０…エージェント機能部、１４０…車載通信部、１５０…記憶部、１７２…通信量情報、１７４…履歴情報、２００…エージェントサーバ、２１０…通信部、２２０…音声認識部、２２１…自然言語処理部、２２２…特定部、２２３…対話管理部、２２４…ネットワーク検索部、２２５…履歴管理部、２２６…応答内容生成部、２５０…記憶部、２５２Ａ…機能辞書、２５２Ｂ…汎用辞書、２５２Ｃ…別称辞書、２５４…パーソナルプロファイル、３００…各種ウェブサーバ、２５２…辞書ＤＢ、２５６…知識ベースＤＢ、２５８…応答規則ＤＢ、ａｂｂ１、ａｂｂ２…別称、ｆｎ１、ｆｎ２、ｆｎ３…正式名称、ＩＭａ、ＩＭａ１、ＩＭａ２、ＩＭａ３、ＩＭａ４…通知画像、ＲＣ、ＲＣ１、ＲＣ２、ＲＣ３、ＲＣ４、ＲＣ５…応答文、ＵＣ１、ＵＣ２…発話内容

Claims

視覚情報又は聴覚情報の少なくともどちらか一方を通知するために、音声出力部及び表示部を有する通知部と、
利用者の発話の音声を示すデータを取得する取得部と、
前記取得部により取得された前記データに基づいて、前記利用者の発話内容を解釈する発話内容解釈部と、
前記発話内容に対する応答内容を生成し、前記表示部に出力させる応答内容生成部と、
正式名称と、該正式名称における略称、略語、省略語、及び短縮語が含まれるものである別称とが、対応付けられた辞書情報に基づいて、前記発話内容解釈部により解釈された前記発話内容に含まれる前記別称に対応する正式名称を特定する特定部と、
前記特定部により特定された正式名称を前記表示部に表示させる表示制御部と、
を備える通知制御システム。
視覚情報又は聴覚情報の少なくともどちらか一方を通知するために、音声出力部及び表示部を有する通知部と、
利用者の発話の音声を示すデータを取得する取得部と、
前記取得部により取得された前記データに基づいて、前記利用者の発話内容を解釈する発話内容解釈部と、
前記発話内容に対する応答内容を生成し前記音声出力部に出力させる応答内容生成部と、
正式名称と、該正式名称における略称、略語、省略語、及び短縮語が含まれるものである別称とが、対応付けられた辞書情報に基づいて、前記発話内容解釈部により解釈され前記発話内容に含まれる前記別称に対応する正式名称を特定する特定部と、
前記特定部により特定された正式名称を前記音声出力部に出力させる音声制御部と、
を備える通知制御システム。
前記応答内容生成部は、前記別称を用いて前記発話内容に対する応答内容を生成する、
請求項１または２に記載の通知制御システム。
視覚情報又は聴覚情報の少なくともどちらか一方を通知するために、音声出力部及び表示部を有する通知部と、
利用者の発話の音声を示すデータを取得する取得部と、
前記取得部により取得された前記データに基づいて、前記利用者の発話内容を解釈する発話内容解釈部と、
前記発話内容に対する応答内容を生成し前記通知部に出力させる応答内容生成部と、
正式名称と、該正式名称における略称、略語、省略語、及び短縮語が含まれるものである別称とが、対応付けられた辞書情報に基づいて、前記発話内容解釈部により解釈され前記発話内容に含まれる前記別称に対応する正式名称を特定する特定部と、
前記特定部により特定された前記正式名称を前記表示部に表示させる表示制御部と、
前記特定部により特定された前記別称を前記音声出力部に出力させる音声制御部と、
を備える通知制御システム。
前記応答内容生成部は、前記音声出力部に出力させる前記応答内容のモーラ数と、該音声出力部に出力させる応答内容のモーラ数に対応する前記表示部に表示させる該応答内容における文字数とを比較して、該モーラ数と比較して該文字数が多くなるように、当該表示部に表示させる該応答内容を生成する、
請求項４に記載の通知制御システム。
前記特定部により前記別称が特定された履歴を示す履歴情報を記憶部に記憶させる履歴管理部を更に備え、
前記応答内容生成部は、前記履歴情報に基づいて、前記応答内容を生成する、
請求項１から５のうちいずれか一項に記載の通知制御システム。
前記応答内容生成部は、前記履歴情報を参照し、前記別称が繰り返し使用されている場合に、前記別称を用いて応答内容を生成する、
請求項６に記載の通知制御システム。
前記応答内容生成部は、前記特定部により前記別称が特定された頻度が高くなるほど、前記応答内容を簡潔にする、
請求項１から７のうちいずれか一項に記載の通知制御システム。
前記辞書情報には、前記別称に対して、前記別称が用いられる地域を示す情報が更に対応付けられており、
前記取得部は、前記利用者の位置を示す位置情報を更に取得し、
前記特定部は、前記辞書情報において、前記発話内容解釈部により解釈された前記発話内容に含まれる前記別称に対して前記地域を示す情報が対応づけられており、且つ前記位置情報が前記地域を示す情報に合致する場合に、前記別称に対応する前記正式名称を特定する、
請求項１から８のうちいずれか一項に記載の通知制御システム。
前記応答内容生成部は、
前記別称または前記正式名称を用いて前記発話内容に対する応答内容を生成し、
前記発話内容解釈部により前記応答内容の応答中に前記利用者の発話が有ったことが解釈された場合に前記別称を優先的に使用する、
請求項１から９のうちいずれか一項に記載の通知制御システム。
視覚情報又は聴覚情報の少なくともどちらか一方を通知するために、音声出力部及び表示部に接続される通知制御装置であって、
利用者の発話の音声を示すデータを取得する取得部と、
前記取得部により取得された前記データに基づいて、前記利用者の発話内容を解釈する発話内容解釈部と、
前記発話内容に対する応答内容を生成し前記音声出力部に出力させる応答内容生成部と、
正式名称と、該正式名称における略称、略語、省略語、及び短縮語が含まれるものである別称とが対応付けられた辞書情報に基づいて、前記発話内容解釈部により解釈され前記発話内容に含まれる前記別称に対応する正式名称を特定する特定部と、
前記特定部により特定された正式名称を前記表示部に表示させる音声制御部と、
を備える通知制御装置。
単一または複数のコンピュータが実行する、
利用者の発話の音声を示す音声データを取得するステップと、
音声データに基づいて前記利用者の発話内容を解釈するステップと、
正式名称と、該正式名称における略称、略語、省略語、及び短縮語が含まれるものである別称とが対応付けられた辞書情報に基づいて、解釈され前記発話内容に含まれる前記別称に対応する正式名称を特定するステップと、
前記発話内容に対する応答内容を生成し通知部に出力させるステップと、
特定された前記正式名称を前記通知部に出力するステップと、
を有する通知制御方法。
単一または複数のコンピュータにインストールされるための通知制御プログラムであって、
利用者の発話の音声を示す音声データを取得する処理と、
音声データに基づいて前記利用者の発話内容を解釈する処理と、
正式名称と、該正式名称における略称、略語、省略語、及び短縮語が含まれるものである別称とが対応付けられた辞書情報に基づいて、解釈され前記発話内容に含まれる前記別称に対応する正式名称を特定する処理と、
前記発話内容に対する応答内容を生成し通知部に出力させる処理と、
特定された前記正式名称を前記通知部に出力する処理と、
を前記コンピュータに実行させる通知制御プログラム。