JP7274376B2

JP7274376B2 - エージェント装置、エージェント装置の制御方法、およびプログラム

Info

Publication number: JP7274376B2
Application number: JP2019133048A
Authority: JP
Inventors: 恵彌永
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2019-07-18
Filing date: 2019-07-18
Publication date: 2023-05-16
Anticipated expiration: 2039-07-18
Also published as: JP2021018293A; CN112241628A

Description

本発明は、エージェント装置、エージェント装置の制御方法、およびプログラムに関する。

従来、車両の乗員と対話を行いながら、乗員の要求に応じた運転支援に関する情報や車両の制御、その他のアプリケーション等を提供するエージェント機能に関する技術が開示されている（例えば、特許文献１参照）。

特開２００６－３３５２３１号公報

しかしながら、従来の技術では、利用の態様が限定的であった。

本発明は、このような事情を考慮してなされたものであり、より発展的な利用の態様を提供することができるエージェント装置、エージェント装置の制御方法、およびプログラムを提供することを目的の一つとする。

この発明に係るエージェント装置、エージェント装置の制御方法、およびプログラムは、以下の構成を採用した。
（１）：この発明の一態様に係るエージェント装置は、ユーザの発話に応じて、音声による応答を含むサービスを提供するエージェント装置であって、前記ユーザの発話時における話し方を検知する検知部と、前記ユーザの発話に所定の話し方が含まれることが前記検知部により検知された場合、前記所定の話し方を矯正するための情報を、前記ユーザに提供する情報提供部と、を備えるものである。

（２）：上記（１）の態様において、前記検知部により検知された前記ユーザの発話時における口癖を登録する口癖登録部をさらに備え、前記情報提供部は、前記検知部により、前記口癖登録部により登録された口癖が検知された頻度が閾値以上である場合、前記閾値以上の頻度で検知された前記ユーザの口癖を、前記所定の話し方として矯正するための情報を、前記ユーザに提供するものである。

（３）：上記（１）または（２）の態様において、前記検知部により検知された前記車両の乗員の発話時における方言を登録する方言登録部をさらに備え、前記情報提供部は、前記検知部により、前記方言登録部により登録された所定の方言が検知された場合、前記所定の方言を、前記所定の話し方として矯正するための情報を、前記ユーザに提供するものである。

（４）：本発明の他の態様に係るエージェント装置は、ユーザの発話に応じて、音声による応答を含むサービスを提供するエージェント装置であって、前記ユーザによる方言の指定の指示を受け付ける方言指定受付部と、前記ユーザの話し方が前記方言指定受付部により受け付けられた方言に近づくように誘導するための情報を、前記ユーザに提供するものである。

（５）：本発明の他の態様に係るエージェント装置の制御方法は、コンピュータが、ユーザの発話に応じて、音声による応答を含むサービスを提供し、前記ユーザの発話時における話し方を検知し、前記ユーザの発話に所定の話し方が含まれることが検知された場合、前記所定の話し方を矯正するための情報を、前記ユーザに提供するものである。

（６）：本発明の他の態様に係るプログラムは、コンピュータに、ユーザの発話に応じて、音声による応答を含むサービスを提供する処理と、前記ユーザの発話時における話し方を検知する処理と、前記ユーザの発話に所定の話し方が含まれることが検知された場合、前記所定の話し方を矯正するための情報を、前記ユーザに提供する処理と、を実行させるものである。

（１）～（６）によれば、より発展的な利用の態様を提供することができる。

エージェント装置１００を含むエージェントシステム１の構成を示す図である。第１実施形態に係るエージェント装置１００の構成と、車両Ｍに搭載された機器とを示す図である。話し方ＤＢ２０５に登録されているデータ内容の一例を示す図である。エージェントサーバ２００の構成と、エージェント装置１００の構成の一部とを示す図である。第１実施形態に係るエージェント装置１００の一連の処理の流れを説明するためのフローチャートである。第１実施形態に係るエージェント装置１００の動作を説明するための図である。第２実施形態に係るエージェント装置１００の構成と、車両Ｍに搭載された機器とを示す図である。第２実施形態に係るエージェント装置１００の一連の処理の流れを説明するためのフローチャートである。第２実施形態に係るエージェント装置１００の動作を説明するための図である。第３実施形態に係るエージェント装置１００の構成と、車両Ｍに搭載された機器とを示す図である。第３実施形態に係るエージェント装置１００の一連の処理の流れを説明するためのフローチャートである。第３実施形態に係るエージェント装置１００の動作を説明するための図である。

＜第１実施形態＞
以下、図面を参照し、本発明のエージェント装置、エージェント装置の制御方法、およびプログラムの第１実施形態について説明する。

エージェント装置は、エージェントシステムの一部または全部を実現する装置である。以下では、エージェント装置の一例として、車両（以下、車両Ｍ）に搭載され、エージェント機能を備えたエージェント装置について説明する。エージェント機能とは、例えば、無線通信装置を用いたネットワーク接続を少なくとも部分的に利用して、車両Ｍの乗員と対話をしながら、乗員の発話の中に含まれる要求（コマンド）に基づく各種の情報提供を行ったり、ネットワークサービスを仲介したりする機能である。エージェント機能の中には、車両内の機器（例えば運転制御や車体制御に関わる機器）の制御等を行う機能を有するものがあってよい。

エージェント機能は、例えば、乗員の音声を認識する音声認識機能（音声をテキスト化する機能）に加え、自然言語処理機能（テキストの構造や意味を理解する機能）、対話管理機能、ネットワークを介して他装置を検索し、或いは自装置が保有する所定のデータベースを検索するネットワーク検索機能等を統合的に利用して実現される。これらの機能の一部または全部は、ＡＩ（Artificial Intelligence）技術によって実現されてよい。また、これらの機能を行うための構成の一部（特に、音声認識機能や自然言語処理解釈機能）は、車両Ｍの通信装置と通信可能なエージェントサーバ（外部装置）に搭載されてもよい。以下の説明では、構成の一部がエージェントサーバに搭載されており、エージェント装置とエージェントサーバが協働してエージェントシステムを実現することを前提とする。また、エージェント装置とエージェントサーバが協働して仮想的に出現させるサービス提供主体（サービス・エンティティ）をエージェントと称する。

＜全体構成＞
図１は、エージェント装置１００を含むエージェントシステム１の構成図である。エージェントシステム１は、例えば、エージェント装置１００と、エージェントサーバ２００とを備える。エージェントサーバ２００は、エージェントシステム１の提供者が運営するものである。提供者としては、例えば、自動車メーカー、ネットワークサービス事業者、電子商取引事業者、携帯端末の販売者や製造者などが挙げられ、任意の主体（法人、団体、個人等）がエージェントシステム１の提供者となり得る。

エージェント装置１００は、ネットワークＮＷを介してエージェントサーバ２００と通信する。ネットワークＮＷは、例えば、インターネット、セルラー網、Ｗｉ－Ｆｉ網、ＷＡＮ（Wide Area Network）、ＬＡＮ（Local Area Network）、公衆回線、電話回線、無線基地局などのうち一部または全部を含む。ネットワークＮＷには、各種ウェブサーバ３００が接続されており、エージェントサーバ２００またはエージェント装置１００は、ネットワークＮＷを介して各種ウェブサーバ３００からウェブページを取得することができる。

エージェント装置１００は、車両Ｍの乗員と対話を行い、乗員からの音声をエージェントサーバ２００に送信し、エージェントサーバ２００から得られた回答を、音声出力や画像表示の形で乗員に提示する。

エージェントサーバ２００は、例えば、話し方ＤＢ２０５を備える。話し方ＤＢ２０５には、車両Ｍの乗員の話し方に関する情報が登録されている。話し方に関する情報は、車両Ｍの乗員とエージェント装置１００との日常的な対話を通じて取得される情報である。話し方に関する情報は、例えば、車両Ｍの乗員の口癖を含む。車両Ｍの乗員の口癖は、車両Ｍの乗員にとって習慣のようになっている言葉遣いであり、例えば、車両Ｍの乗員が発話の際に頻繁に用いるフレーズなどを含む。エージェントサーバ２００に代えてまたは加えて、エージェント装置１００が話し方ＤＢ２０５を備えてもよい。

［車両］
図２は、第１実施形態に係るエージェント装置１００の構成と、車両Ｍに搭載された機器とを示す図である。車両Ｍには、例えば、一以上のマイク１０と、表示・操作装置２０と、スピーカユニット３０と、ナビゲーション装置４０と、車両機器５０と、通信装置６０と、エージェント装置１００とが搭載される。これらの装置は、ＣＡＮ（Controller Area Network）通信線等の多重通信線やシリアル通信線、無線通信網等によって互いに接続される。なお、図２に示す構成はあくまで一例であり、構成の一部が省略されてもよいし、更に別の構成が追加されてもよい。

マイク１０は、車室内で発せられた音声を収集する収音部である。表示・操作装置２０は、画像を表示すると共に、入力操作を受付可能な装置（或いは装置群）である。表示・操作装置２０は、例えば、タッチパネルとして構成されたディスプレイ装置を含む。表示・操作装置２０は、更に、ＨＵＤ（Head Up Display）や機械式の入力装置を含んでもよい。スピーカユニット３０は、例えば、車室内の互いに異なる位置に配設された複数のスピーカ（音出力部）を含む。表示・操作装置２０は、エージェント装置１００とナビゲーション装置４０とで共用されてもよい。

ナビゲーション装置４０は、ナビＨＭＩ（Human machine Interface）と、ＧＰＳ（Global Positioning System）などの位置測位装置と、地図情報を記憶した記憶装置と、経路探索などを行う制御装置（ナビゲーションコントローラ）とを備える。マイク１０、表示・操作装置２０、およびスピーカユニット３０のうち一部または全部がナビＨＭＩとして用いられてもよい。ナビゲーション装置４０は、位置測位装置によって特定された車両Ｍの位置から、乗員によって入力された目的地まで移動するための経路（ナビ経路）を探索し、経路に沿って車両Ｍが走行できるように、ナビＨＭＩを用いて案内情報を出力する。経路探索機能は、ネットワークＮＷを介してアクセス可能なナビゲーションサーバにあってもよい。この場合、ナビゲーション装置４０は、ナビゲーションサーバから経路を取得して案内情報を出力する。

車両機器５０は、例えば、エンジンや走行用モータなどの駆動力出力装置、エンジンの始動モータ、ドアロック装置、ドア開閉装置、窓、窓の開閉装置及び窓の開閉制御装置、シート、シート位置の制御装置、ルームミラー及びその角度位置制御装置、車両内外の照明装置及びその制御装置、ワイパーやデフォッガー及びそれぞれの制御装置、方向指示灯及びその制御装置、空調装置、走行距離やタイヤの空気圧の情報や燃料の残量情報などの車両情報装置などを含む。

通信装置６０は、例えば、セルラー網やＷｉ－Ｆｉ網を利用してネットワークＮＷにアクセス可能である。通信装置６０は、車載通信装置であってもよいし、車室内に持ち込まれるスマートフォンなどの汎用通信装置であってもよい。

［エージェント装置］
図２に戻り、エージェント装置１００は、管理部１１０と、エージェント機能部１５０とを備える。管理部１１０は、例えば、音響処理部１１２と、ＷＵ（Wake Up）判定部１１４と、表示制御部１１６と、音声制御部１１８とを備える。図２に示すソフトウェア配置は説明のために簡易に示しており、実際には、例えば、エージェント機能部１５０と通信装置６０の間に管理部１１０が介在してもよいように、任意に改変することができる。

エージェント装置１００の各構成要素は、例えば、ＣＰＵ（Central Processing Unit）などのハードウェアプロセッサがプログラム（ソフトウェア）を実行することにより実現される。これらの構成要素のうち一部または全部は、ＬＳＩ（Large Scale Integration）やＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-Programmable Gate Array）、ＧＰＵ（Graphics Processing Unit）などのハードウェア（回路部；circuitryを含む）によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予めＨＤＤ（Hard Disk Drive）やフラッシュメモリなどの記憶装置（非一過性の記憶媒体を備える記憶装置）に格納されていてもよいし、ＤＶＤやＣＤ－ＲＯＭなどの着脱可能な記憶媒体（非一過性の記憶媒体）に格納されており、記憶媒体がドライブ装置に装着されることでインストールされてもよい。

管理部１１０は、ＯＳ（Operating System）やミドルウェアなどのプログラムが実行されることで機能する。

音響処理部１１２は、エージェントに対して予め設定されているウエイクアップワードを認識するのに適した状態になるように、入力された音に対して音響処理を行う。

ＷＵ判定部１１４は、音響処理が行われた音声（音声ストリーム）から、エージェントに対して予め定められているウエイクアップワードを認識する。まず、ＷＵ判定部１１４は、音声ストリームにおける音声波形の振幅と零交差に基づいて音声区間を検出する。ＷＵ判定部１１４は、混合ガウス分布モデル（ＧＭＭ；Gaussian mixture model) に基づくフレーム単位の音声識別および非音声識別に基づく区間検出を行ってもよい。

次に、ＷＵ判定部１１４は、検出した音声区間における音声をテキスト化し、文字情報とする。そして、ＷＵ判定部１１４は、テキスト化した文字情報がウエイクアップワードに該当するか否かを判定する。ウエイクアップワードであると判定した場合、ＷＵ判定部１１４は、エージェント機能部１５０を起動させる。なお、ＷＵ判定部１１４に相当する機能がエージェントサーバ２００に搭載されてもよい。この場合、管理部１１０は、音響処理部１１２によって音響処理が行われた音声ストリームをエージェントサーバ２００に送信し、エージェントサーバ２００がウエイクアップワードであると判定した場合、エージェントサーバ２００からの指示に従ってエージェント機能部１５０が起動する。なお、エージェント機能部１５０は、常時起動しており且つウエイクアップワードの判定を自ら行うものであってよい。この場合、管理部１１０がＷＵ判定部１１４を備える必要はない。

エージェント機能部１５０は、例えば、検知部１５２と、口癖登録部１５４と、情報提供部１５６とを備える。エージェント機能部１５０は、エージェントサーバ２００と協働してエージェントを出現させ、車両Ｍの乗員の発話に応じて、音声による応答を含むサービスを提供する。エージェント機能部１５０は、車両機器５０を制御する権限が付与されている。また、エージェント機能部１５０は、通信装置６０を介してエージェントサーバ２００と通信する。

検知部１５２は、音響処理部１１２により音響処理が行われた音声を解析することにより、車両Ｍの乗員の発話時における口癖を検知する。口癖は、車両Ｍの乗員の話し方の一例である。口癖には、話し相手に対して好印象を与えやすいポジティブな口癖と、話し相手に対して悪印象を与えやすいネガティブな口癖とが含まれる。ポジティブな口癖としては、例えば、「幸せ」、「楽しい」、「わくわくする」、「面白い」などのフレーズが含まれる。ネガティブな口癖としては、例えば、「クソ」、「でも」、「だって」、「どうせ」、「まあいいか」、「時間がない」、「お金がない」、「忙しい」、「疲れた」、「面倒くさい」などのフレーズが含まれる。

口癖登録部１５４は、検知部１５２により検知された車両Ｍの乗員の発話時における口癖を登録する。口癖登録部１５４は、例えば、車両Ｍの乗員の発話時における口癖が検知部１５２により検知された場合、検知された口癖に関する情報を、通信装置６０を通じてエージェントサーバ２００に送信する。エージェントサーバ２００は、口癖登録部１５４から受信した口癖に関する情報を、話し方ＤＢ２０５に登録する。口癖登録部１５４は、例えば、車両Ｍの乗員の発話時における口癖が検知部１５２により検知された場合、検知された口癖がエージェントサーバ２００の話し方ＤＢ２０５に登録済みである場合には、該当する口癖の頻度を加算して、話し方ＤＢ２０５に登録されている口癖に関する情報を更新する。

図３は、話し方ＤＢ２０５のデータ内容の一例を示す図である。話し方ＤＢ２０５には、車両Ｍの乗員ごとの話し方に関する情報が登録されている。図示の例では、話し方ＤＢ２０５には、例えば、乗員ＩＤに対し、口癖の内容、および、口癖の頻度が対応付けられている。乗員ＩＤは、車両Ｍの乗員を特定するための識別情報である。口癖の内容は、車両Ｍの乗員の口癖として検知されたフレーズである。この例では、例えば、「クソ」、「だって」、「どうせ」などのネガティブな口癖が、車両Ｍの乗員の口癖として登録されている。口癖の頻度は、車両Ｍの乗員の口癖が検知された頻度である。

情報提供部１５６は、車両Ｍの乗員の口癖を矯正するための情報を、車両Ｍの乗員に提供する。情報提供部１５６は、検知部１５２により口癖が検知された場合、話し方ＤＢ２０５を参照して、口癖登録部１５４により登録された口癖が検知された頻度が閾値以上であるか否かを判定する。情報提供部１５６は、口癖が検知された頻度が閾値以上である場合、閾値以上の頻度で検知された口癖を矯正するための情報を、車両Ｍの乗員に提供する。情報提供部１５６は、例えば、ネガティブな口癖が検知された頻度が閾値以上である場合に、閾値以上の頻度で検知されたネガティブな口癖を矯正するための情報を、車両Ｍの乗員に提供する。情報提供部１５６は、例えば、車両Ｍの乗員が対象の口癖を含む発話を行った場合に、車両Ｍの乗員の発話に対象の口癖が含まれることを可視化するための警告を、エージェント装置１００から車両Ｍの乗員に出力することにより、車両Ｍの乗員の口癖を矯正する。また、情報提供部１５６は、例えば、車両Ｍの乗員が対象の口癖を含む発話を行った場合に、対象の口癖を含まない発話をエージェント装置１００から車両Ｍの乗員に出力することにより、車両Ｍの乗員の口癖を矯正してもよい。

表示制御部１１６は、エージェント機能部１５０からの指示に応じて表示・操作装置２０に画像を表示させる。表示制御部１１６は、一部のエージェント機能部１５０の制御により、例えば、車室内で乗員とのコミュニケーションを行う擬人化されたエージェントの画像（以下、エージェント画像と称する）を生成し、生成したエージェント画像を表示・操作装置２０に表示させる。エージェント画像は、例えば、乗員に対して話しかける態様の画像である。エージェント画像は、例えば、少なくとも観者（乗員）によって表情や顔向きが認識される程度の顔画像を含んでよい。例えば、エージェント画像は、顔領域の中に目や鼻に擬したパーツが表されており、顔領域の中のパーツの位置に基づいて表情や顔向きが認識されるものであってよい。また、エージェント画像は、立体的に感じられ、観者によって三次元空間における頭部画像を含むことでエージェントの顔向きが認識されたり、本体（胴体や手足）の画像を含むことで、エージェントの動作や振る舞い、姿勢等が認識されたりするものであってもよい。また、エージェント画像は、アニメーション画像であってもよい。

音声制御部１１８は、エージェント機能部１５０からの指示に応じてスピーカユニット３０に含まれるスピーカのうち一部または全部に音声を出力させる。音声制御部１１８は、複数のスピーカユニット３０を用いて、エージェント画像の表示位置に対応する位置にエージェント音声の音像を定位させる制御を行ってもよい。エージェント画像の表示位置に対応する位置とは、例えば、エージェント画像がエージェント音声を喋っていると乗員が感じると予測される位置であり、具体的には、エージェント画像の表示位置付近の位置である。また、音像が定位するとは、例えば、乗員の左右の耳に伝達される音の大きさを調節することにより、乗員が感じる音源の空間的な位置を定めることである。

［エージェントサーバ］
図４は、エージェントサーバ２００の構成と、エージェント装置１００の構成の一部とを示す図である。以下、エージェントサーバ２００の構成と共にエージェント機能部１５０等の動作について説明する。ここでは、エージェント装置１００からネットワークＮＷまでの物理的な通信についての説明を省略する。

エージェントサーバ２００は、通信部２１０を備える。通信部２１０は、例えばＮＩＣ（Network Interface Card）などのネットワークインターフェースである。更に、エージェントサーバ２００は、例えば、音声認識部２２０と、自然言語処理部２２２と、対話管理部２２４と、ネットワーク検索部２２６と、応答文生成部２２８とを備える。これらの構成要素は、例えば、ＣＰＵなどのハードウェアプロセッサがプログラム（ソフトウェア）を実行することにより実現される。これらの構成要素のうち一部または全部は、ＬＳＩやＡＳＩＣ、ＦＰＧＡ、ＧＰＵなどのハードウェア（回路部；circuitryを含む）によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予めＨＤＤやフラッシュメモリなどの記憶装置（非一過性の記憶媒体を備える記憶装置）に格納されていてもよいし、ＤＶＤやＣＤ－ＲＯＭなどの着脱可能な記憶媒体（非一過性の記憶媒体）に格納されており、記憶媒体がドライブ装置に装着されることでインストールされてもよい。

エージェントサーバ２００は、記憶部２５０を備える。記憶部２５０は、上記の各種記憶装置により実現される。記憶部２５０には、話し方ＤＢ２０５に加え、パーソナルプロファイル２５２、辞書ＤＢ（データベース）２５４、知識ベースＤＢ２５６、応答規則ＤＢ２５８などのデータやプログラムが格納される。

エージェント装置１００において、エージェント機能部１５０は、音声ストリーム、或いは圧縮や符号化などの処理を行った音声ストリームを、エージェントサーバ２００に送信する。エージェント機能部１５０は、ローカル処理（エージェントサーバ２００を介さない処理）が可能な音声コマンドを認識した場合は、音声コマンドで要求された処理を行ってよい。ローカル処理が可能な音声コマンドとは、エージェント装置１００が備える記憶部（不図示）を参照することで回答可能な音声コマンドであったり、車両機器５０を制御する音声コマンド（例えば、空調装置をオンにするコマンドなど）であったりする。従って、エージェント機能部１５０は、エージェントサーバ２００が備える機能の一部を有してもよい。

音声ストリームを取得すると、音声認識部２２０が音声認識を行ってテキスト化された文字情報を出力し、自然言語処理部２２２が文字情報に対して辞書ＤＢ２５４を参照しながら意味解釈を行う。辞書ＤＢ２５４は、文字情報に対して抽象化された意味情報が対応付けられたものである。辞書ＤＢ２５４は、同義語や類義語の一覧情報を含んでもよい。音声認識部２２０の処理と、自然言語処理部２２２の処理は、段階が明確に分かれるものではなく、自然言語処理部２２２の処理結果を受けて音声認識部２２０が認識結果を修正するなど、相互に影響し合って行われてよい。

自然言語処理部２２２は、例えば、認識結果として、「今日の天気は」、「天気はどうですか」等の意味が認識された場合、標準文字情報「今日の天気」に置き換えたコマンドを生成する。これにより、リクエストの音声に文字揺らぎがあった場合にも要求にあった対話をし易くすることができる。また、自然言語処理部２２２は、例えば、確率を利用した機械学習処理等の人工知能処理を用いて文字情報の意味を認識したり、認識結果に基づくコマンドを生成したりしてもよい。

対話管理部２２４は、自然言語処理部２２２の処理結果（コマンド）に基づいて、パーソナルプロファイル２５２や知識ベースＤＢ２５６、応答規則ＤＢ２５８を参照しながら車両Ｍの乗員に対する発話の内容を決定する。パーソナルプロファイル２５２は、乗員ごとに保存されている乗員の個人情報、趣味嗜好、過去の対話の履歴などを含む。知識ベースＤＢ２５６は、物事の関係性を規定した情報である。応答規則ＤＢ２５８は、コマンドに対してエージェントが行うべき動作（回答や機器制御の内容など）を規定した情報である。

また、対話管理部２２４は、音声ストリームから得られる特徴情報を用いて、パーソナルプロファイル２５２と照合を行うことで、乗員を特定してもよい。この場合、パーソナルプロファイル２５２には、例えば、音声の特徴情報に、個人情報が対応付けられている。音声の特徴情報とは、例えば、声の高さ、イントネーション、リズム（音の高低のパターン）等の喋り方の特徴や、メル周波数ケプストラム係数（Mel Frequency Cepstrum Coefficients）等による特徴量に関する情報である。音声の特徴情報は、例えば、乗員の初期登録時に所定の単語や文章等を乗員に発声させ、発声させた音声を認識することで得られる情報である。

対話管理部２２４は、コマンドが、ネットワークＮＷを介して検索可能な情報を要求するものである場合、ネットワーク検索部２２６に検索を行わせる。ネットワーク検索部２２６は、ネットワークＮＷを介して各種ウェブサーバ３００にアクセスし、所望の情報を取得する。「ネットワークＮＷを介して検索可能な情報」とは、例えば、車両Ｍの周辺にあるレストランの一般ユーザによる評価結果であったり、その日の車両Ｍの位置に応じた天気予報であったりする。

応答文生成部２２８は、対話管理部２２４により決定された発話の内容が車両Ｍの乗員に伝わるように、応答文を生成し、エージェント装置１００に送信する。応答文生成部２２８は、乗員がパーソナルプロファイルに登録された乗員であることが特定されている場合に、乗員の名前を呼んだり、乗員の話し方に似せた話し方にした応答文を生成したりしてもよい。

エージェント機能部１５０は、応答文を取得すると、音声合成を行って音声を出力するように音声制御部１１８に指示する。また、エージェント機能部１５０は、音声出力に合わせてエージェントの画像を表示するように表示制御部１１６に指示する。このようにして、仮想的に出現したエージェントが車両Ｍの乗員に応答するエージェント機能が実現される。

［エージェント装置の処理フロー］
以下、第１実施形態に係るエージェント装置１００の一連の処理の流れについてフローチャートを用いて説明する。図５に示すフローチャートの処理は、例えば、車両Ｍの乗員の発話が入力された場合に実行されてもよい。

まず、検知部１５２は、車両Ｍの乗員から入力された発話を解析することにより、車両Ｍの乗員の発話時における口癖を検知する（ステップＳ１０）。口癖登録部１５４は、検知部１５２により検知された口癖を、車両Ｍの乗員の乗員ＩＤに対応付けて話し方ＤＢ２０５に登録する（ステップＳ１２）。次に、情報提供部１５６は、話し方ＤＢ２０５を参照して、検知された頻度が閾値以上である口癖が含まれるか否かを判定する（ステップＳ１４）。情報提供部１５６は、検知された頻度が閾値以上である口癖が含まれると判定した場合、検知された頻度が閾値以上である口癖を矯正するための情報を、車両Ｍの乗員に提供する（ステップＳ１６）。これによって、本フローチャートの処理が終了する。一方、情報提供部１５６は、検知された頻度が閾値以上である口癖が含まれないと判定した場合、口癖を矯正するための情報を車両Ｍの乗員に提供することなく、本フローチャートの処理が終了する。

図６は、第１実施形態に係るエージェント装置１００の動作を説明するための図である。同図に示す例では、車両Ｍの乗員の口癖としてネガティブな口癖が含まれる場合に、当該口癖を矯正するための情報を車両Ｍの乗員に提供する場合を例に挙げて説明する。

エージェント装置１００は、話し方ＤＢ２０５を参照して、検知された頻度が閾値以上である車両Ｍの乗員の口癖を検知する。図示の例では、エージェント装置１００は、「クソ」というネガティブな口癖を、検知された頻度が閾値以上である車両Ｍの乗員の口癖として検知する。この場合、エージェント装置１００は、「クソ」というネガティブな口癖を可視化するための警告を、車両Ｍの乗員に出力する。

エージェント装置１００には、警告した口癖の矯正を依頼する発話が車両Ｍの乗員から入力される。図示の例では、エージェント装置１００には、「クソ」というネガティブな口癖を、「よろしくない」というポジティブな口癖に矯正することを依頼する発話が車両Ｍの乗員から入力される。

エージェント装置１００は、口癖の矯正の依頼を受理した後において、車両Ｍの乗員からネガティブな口癖を含む発話が入力された場合、ネガティブな口癖を矯正するための情報を車両Ｍの乗員に提供する。図示の例では、エージェント装置１００は、車両Ｍの乗員から、「クソ」というネガティブな口癖を含む発話が入力されている。そのため、エージェント装置１００は、「クソ」というネガティブな口癖の代わりに、「よろしくない」というポジティブな口癖を用いた発話を、車両Ｍの乗員からの発話に対する応答として出力する。

上記説明した第１実施形態に係るエージェント装置１００によれば、より発展的な利用の態様で、車両Ｍの乗員の口癖を矯正することができる。車両Ｍの乗員の口癖は、車両Ｍの乗員との日常的な会話から得られる情報であり、車両Ｍの乗員の口癖を検知する機会を設けることは困難となる場合がある。したがって、第１実施形態に係るエージェント装置１００では、車両Ｍの乗員とエージェント装置１００との対話から車両Ｍの乗員の口癖を検知し、検知した口癖を矯正するための情報を車両Ｍの乗員に提供する。これにより、より発展的な利用の態様で、車両Ｍの乗員の口癖を矯正することができる。

＜第２実施形態＞
以下、第２実施形態について説明する。第２実施形態は、第１実施形態と比較すると、車両Ｍの乗員の方言を矯正するための情報を提供する点で処理内容が異なる。以下、この相違点を中心に説明する。

図７は、第２実施形態に係るエージェント装置１００の構成と、車両Ｍに搭載された機器とを示す図である。第２実施形態に係るエージェント装置１００のエージェント機能部１５０Ａは、例えば、検知部１５２と、方言登録部１５４Ａと、情報提供部１５６とを備える。

検知部１５２は、音響処理部１１２により音響処理が行われた音声を解析することにより、車両Ｍの乗員の発話時における方言を検知する。方言は、車両Ｍの乗員の話し方の一例である。方言は、地域ごとの言語体系を意味しており、例えば、大阪弁、京都弁などを含む。方言は、例えば、語彙、文法、イントネーション、アクセントなどにより規定される。

方言登録部１５４Ａは、検知部１５２により検知された車両Ｍの乗員の発話時における方言を登録する。方言登録部１５４Ａは、例えば、車両Ｍの乗員の発話時における方言が検知部１５２により検知された場合、検知された方言に関する情報を、通信装置６０を通じてエージェントサーバ２００に送信する。エージェントサーバ２００は、方言登録部１５４Ａから受信した方言に関する情報を、話し方ＤＢ２０５に登録する。

情報提供部１５６は、車両Ｍの乗員の方言を矯正するための情報を、車両Ｍの乗員に提供する。情報提供部１５６は、検知部１５２により方言が検知された場合、話し方ＤＢ２０５を参照して、検知された方言が方言登録部１５４Ａにより登録された所定の方言であるか否かを判定する。情報提供部１５６は、検知部１５２により検知された方言が所定の方言であると判定した場合、検知された方言を矯正するための情報を、車両Ｍの乗員に提供する。情報提供部１５６は、例えば、検知された方言のうち、車両Ｍの乗員自身が気にしている方言のイントネーション、単語などの特徴を事前に登録し、事前に登録した方言の特徴を矯正するための情報を、車両Ｍの乗員に提供してもよい。

以下、第２実施形態に係るエージェント装置１００の一連の処理の流れについてフローチャートを用いて説明する。図８に示すフローチャートの処理は、例えば、車両Ｍの乗員の発話が入力された場合に実行されてもよい。

検知部１５２は、車両Ｍの乗員から入力された発話を解析することにより、車両Ｍの乗員の発話時における方言を検知する（ステップＳ２０）。検知部１５２は、例えば、車両Ｍの乗員の発話における語彙、文法、音韻、アクセントなどを解析することにより、車両Ｍの乗員の方言を検知する。また、検知部１５２は、ステップＳ１０において検知した方言を、車両Ｍの乗員の乗員ＩＤに対応付けて話し方ＤＢ２０５に登録する（ステップＳ２２）。次に、情報提供部１５６は、話し方ＤＢ２０５を参照して、所定の方言が車両Ｍの乗員に対応付けて話し方ＤＢ２０５に登録されているか否かを判定する（ステップＳ２４）。情報提供部１５６は、所定の方言が車両Ｍの乗員に対応付けて話し方ＤＢ２０５に登録されていると判定した場合、所定の方言を矯正するための情報を車両Ｍの乗員に提供する（ステップＳ２６）。これによって、本フローチャートの処理が終了する。一方、情報提供部１５６は、所定の方言が車両Ｍの乗員に対応付けて話し方ＤＢ２０５に登録されていないと判定した場合、所定の方言を矯正するための情報を車両Ｍの乗員に提供することなく、本フローチャートの処理が終了する。

図９は、第２実施形態に係るエージェント装置１００の動作を説明するための図である。同図に示す例では、車両Ｍの乗員の発話に所定の方言が含まれる場合に、所定の方言を矯正するための情報を車両Ｍの乗員に提供する場合を例に挙げて説明する。

エージェント装置１００は、車両Ｍの乗員から入力された発話を受け付ける。図示の例では、エージェント装置１００は、車両Ｍの乗員から入力された天気に関する話題を含む発話を受け付ける。

エージェント装置１００は、受け付けた発話を解析することにより、車両Ｍの乗員の方言を検知する。図示の例では、エージェント装置１００は、車両Ｍの乗員の方言が「大阪弁」であると検知する。この場合、エージェント装置１００は、車両Ｍの乗員の方言が「大阪弁」である旨を可視化するための警告を、車両Ｍの乗員に出力する。

エージェント装置１００は、警告した方言の矯正を依頼する発話が車両Ｍの乗員から入力される。図示の例では、エージェント装置１００には、「大阪弁」を「東京弁」に矯正することを依頼する発話が車両Ｍの乗員から入力されている。

エージェント装置１００は、方言の矯正の依頼を受理した後において、車両Ｍの乗員から矯正の対象となる方言を含む発話が入力された場合、方言を矯正するための情報を車両Ｍの乗員に提供する。図示の例では、エージェント装置１００は、車両Ｍの乗員から「大阪弁」を含む発話が入力されている。そのため、エージェント装置１００は、「大阪弁」の代わりに、「東京弁」を用いた発話を、車両Ｍの乗員からの発話に対する応答として出力する。

上記説明した第２実施形態に係るエージェント装置１００によれば、第１実施形態に係るエージェント装置１００の効果を奏する他、より発展的な利用の態様で、車両Ｍの乗員の方言を矯正することができる。車両Ｍの乗員の方言は、車両Ｍの乗員との日常的な会話から得られる情報であり、車両Ｍの乗員の方言を検知することは困難さを伴う場合がある。したがって、第２実施形態に係るエージェント装置１００では、乗車時における車両Ｍの乗員とエージェント装置１００との対話から車両Ｍの乗員の方言を検知し、検知した方言を矯正するための情報を車両Ｍの乗員に提供する。これにより、より発展的な利用の態様で、車両Ｍの乗員の方言を矯正することができる。

＜第３実施形態＞
以下、第３実施形態について説明する。第３実施形態は、第１実施形態と比較すると、車両Ｍの乗員により指定された方言に近づくように誘導するための情報を提供する点で処理内容が異なる。以下、この相違点を中心に説明する。

図１０は、第３実施形態に係るエージェント装置１００の構成と、車両Ｍに搭載された機器とを示す図である。第３実施形態に係るエージェント装置１００のエージェント機能部１５０Ｂは、例えば、方言指定受付部１５４Ｂと、情報提供部１５６とを備える。

方言指定受付部１５４Ｂは、車両Ｍの乗員による方言の指定の指示を受け付ける。方言指定受付部１５４Ｂは、例えば、車両Ｍの乗員が表示・操作装置２０を操作して方言を指定した場合に、表示・操作装置２０から出力される操作信号に基づき、方言の指定の指示を受け付ける。指定される方言としては、日本語に限らず、英語などの現地の方言でもよいし、オックスブリッジアクセントなどの特定の地域において限定的に用いられる現地の方言でもよい。

情報提供部１５６は、車両Ｍの乗員の方言が方言指定受付部１５４Ｂにより受け付けられた方言に近づくように誘導するための情報を、車両Ｍの乗員に提供する。情報提供部１５６は、例えば、方言指定受付部１５４Ｂにより方言の指定の指示が受け付けられた場合、受け付けられた方言を含む発話をエージェント装置１００から車両Ｍの乗員に出力することにより、車両Ｍの乗員の方言を誘導する。

以下、第３実施形態に係るエージェント装置１００の一連の処理の流れについてフローチャートを用いて説明する。図１１に示すフローチャートの処理は、例えば、車両Ｍの乗員の発話が入力された場合に実行されてもよい。

方言指定受付部１５４Ｂは、車両Ｍの乗員により方言が指定されたか否かを判定する（ステップＳ３０）。情報提供部１５６は、方言指定受付部１５４Ｂにより方言が指定されたと判定された場合、指定された方言に近づくように誘導するための情報を、車両Ｍの乗員に提供する（ステップＳ３２）。これによって、本フローチャートの処理が終了する。一方、情報提供部１５６は、方言指定受付部１５４Ｂにより方言が指定されていないと判定された場合、車両Ｍの乗員の方言を誘導することなく、本フローチャートの処理が終了する。

図１２は、第３実施形態に係るエージェント装置１００の動作を説明するための図である。同図に示す例では、車両Ｍの乗員により所定の方言が指定されている場合に、指定された方言に近づくように誘導するための情報を車両Ｍの乗員に提供する場合を例に挙げて説明する。

エージェント装置１００は、車両Ｍの乗員から入力された、方言の矯正を依頼する発話を受け付ける。図示の例では、エージェント装置１００は、車両Ｍの乗員の方言を「東京弁」に近づくように誘導することを依頼する。

エージェント装置１００は、方言の誘導の依頼を受理した後において、車両Ｍの乗員から所定の方言を含む発話が入力された場合、指定された方言に近づくように誘導する情報を車両Ｍの乗員に提供する。図示の例では、エージェント装置１００は、車両Ｍの乗員から「大阪弁」を含む発話が入力されている。そのため、エージェント装置１００は、「大阪弁」を用いた車両Ｍの乗員からの発話に対し、「東京弁」を用いた応答を出力する。

上記説明した第３実施形態に係るエージェント装置１００によれば、第１または第２実施形態に係るエージェント装置１００の効果を奏する他、車両Ｍの乗員の意図に合わせて、車両Ｍの乗員の方言を誘導することができる。車両Ｍの乗員の方言は、慣習的に行われるものであり、その誘導は困難さを伴う場合がある。したがって、第３実施形態に係るエージェント装置１００では、車両Ｍの乗員により指定された方言に近づくように誘導するための情報を車両Ｍの乗員に提供する。これにより、車両Ｍの乗員の意図に合わせて、車両Ｍの乗員の方言を誘導することができる。

［実施形態の変形例］
上記第１または第２実施形態において、エージェント装置１００は、車両Ｍの乗員の発話に口癖または方言が含まれる場合に、乗員の発話に対して応答することなく無視することにより、乗員の発話の矯正を促してもよい。

上記各実施形態において、エージェント装置１００は、例えば、政治家の不適切発言のニュースなど、車両Ｍの乗員の感情が高まりやすい場面となったことをトリガとして、乗員の発話の矯正を開始してもよい。

上記各実施形態において、エージェント装置１００は、例えば、車両Ｍの乗員との会話または車室内を撮影した画像などを通じて乗員の人数や乗員同士の関係性を推定し、その推定結果に基づいて、乗員の発話の矯正を開始するか判定してもよい。エージェント装置１００は、例えば、乗員が車室内で1人きりである場合に発話の矯正を開始してもよいし、乗員が家族のみで構成される場合に発話の矯正を開始してもよい。

上記各実施形態において、エージェント装置１００は、例えば、携帯情報端末に備えられてもよい。この場合、携帯情報端末は、ユーザとの対話において、ユーザの話し方を矯正してもよい。

以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。

１０…マイク、２０…表示・操作装置、３０…スピーカユニット、４０…ナビゲーション装置、５０…車両機器、６０…通信装置、１００…エージェント装置、１１０…管理部、１１２…音響処理部、１１４…ＷＵ判定部、１１６…表示制御部、１１８…音声制御部、１５０…エージェント機能部、１５２…検知部、１５４…口癖登録部、１５６…情報提供部、２００…エージェントサーバ。

Claims

ユーザの発話に応じて、音声による応答を含むサービスを提供するエージェント装置であって、
前記ユーザの発話による依頼に応じて動作する検知部と情報提供部であって、前記ユーザの発話時における話し方を検知する検知部と、前記ユーザの発話に所定の話し方が含まれることが前記検知部により検知された場合、前記所定の話し方を矯正するための情報を、前記ユーザに提供する情報提供部と、を備える、
エージェント装置。
前記検知部により検知された前記ユーザの発話時における口癖を登録する口癖登録部をさらに備え、
前記情報提供部は、前記検知部により、前記口癖登録部により登録された口癖が検知された頻度が閾値以上である場合、前記閾値以上の頻度で検知された前記ユーザの口癖を、前記所定の話し方として矯正するための情報を、前記ユーザに提供する、
請求項１記載のエージェント装置。
前記検知部により検知された前記ユーザの発話時における方言を登録する方言登録部をさらに備え、
前記情報提供部は、前記検知部により、前記方言登録部により登録された所定の方言が検知された場合、前記所定の方言を、前記所定の話し方として矯正するための情報を、前記ユーザに提供する、
請求項１または２記載のエージェント装置。
ユーザの発話に応じて、音声による応答を含むサービスを提供するエージェント装置であって、
前記ユーザの発話による方言の指定の指示を受け付ける方言指定受付部と、
前記ユーザの話し方が、前記方言指定受付部により受け付けられた方言に近づくように誘導するための情報を、前記ユーザに提供する、
エージェント装置。
コンピュータが、
ユーザの発話に応じて、音声による応答を含むサービスを提供し、
前記ユーザの発話による依頼に応じて、前記ユーザの発話時における話し方を検知すると共に、前記ユーザの発話に所定の話し方が含まれることが検知された場合、前記所定の話し方を矯正するための情報を、前記ユーザに提供する、
エージェント装置の制御方法。
コンピュータに、
ユーザの発話に応じて、音声による応答を含むサービスを提供する処理と、
前記ユーザの発話による依頼に応じて、前記ユーザの発話時における話し方を検知すると共に、前記ユーザの発話に所定の話し方が含まれることが検知された場合、前記所定の話し方を矯正するための情報を、前記ユーザに提供する処理と、
を実行させるプログラム。