JP7274376B2 - エージェント装置、エージェント装置の制御方法、およびプログラム - Google Patents

エージェント装置、エージェント装置の制御方法、およびプログラム Download PDF

Info

Publication number
JP7274376B2
JP7274376B2 JP2019133048A JP2019133048A JP7274376B2 JP 7274376 B2 JP7274376 B2 JP 7274376B2 JP 2019133048 A JP2019133048 A JP 2019133048A JP 2019133048 A JP2019133048 A JP 2019133048A JP 7274376 B2 JP7274376 B2 JP 7274376B2
Authority
JP
Japan
Prior art keywords
user
dialect
vehicle
unit
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019133048A
Other languages
English (en)
Other versions
JP2021018293A (ja
Inventor
恵 彌永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Priority to JP2019133048A priority Critical patent/JP7274376B2/ja
Priority to CN202010683589.5A priority patent/CN112241628A/zh
Publication of JP2021018293A publication Critical patent/JP2021018293A/ja
Application granted granted Critical
Publication of JP7274376B2 publication Critical patent/JP7274376B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)
  • Navigation (AREA)

Description

本発明は、エージェント装置、エージェント装置の制御方法、およびプログラムに関する。
従来、車両の乗員と対話を行いながら、乗員の要求に応じた運転支援に関する情報や車両の制御、その他のアプリケーション等を提供するエージェント機能に関する技術が開示されている(例えば、特許文献1参照)。
特開2006-335231号公報
しかしながら、従来の技術では、利用の態様が限定的であった。
本発明は、このような事情を考慮してなされたものであり、より発展的な利用の態様を提供することができるエージェント装置、エージェント装置の制御方法、およびプログラムを提供することを目的の一つとする。
この発明に係るエージェント装置、エージェント装置の制御方法、およびプログラムは、以下の構成を採用した。
(1):この発明の一態様に係るエージェント装置は、ユーザの発話に応じて、音声による応答を含むサービスを提供するエージェント装置であって、前記ユーザの発話時における話し方を検知する検知部と、前記ユーザの発話に所定の話し方が含まれることが前記検知部により検知された場合、前記所定の話し方を矯正するための情報を、前記ユーザに提供する情報提供部と、を備えるものである。
(2):上記(1)の態様において、前記検知部により検知された前記ユーザの発話時における口癖を登録する口癖登録部をさらに備え、前記情報提供部は、前記検知部により、前記口癖登録部により登録された口癖が検知された頻度が閾値以上である場合、前記閾値以上の頻度で検知された前記ユーザの口癖を、前記所定の話し方として矯正するための情報を、前記ユーザに提供するものである。
(3):上記(1)または(2)の態様において、前記検知部により検知された前記車両の乗員の発話時における方言を登録する方言登録部をさらに備え、前記情報提供部は、前記検知部により、前記方言登録部により登録された所定の方言が検知された場合、前記所定の方言を、前記所定の話し方として矯正するための情報を、前記ユーザに提供するものである。
(4):本発明の他の態様に係るエージェント装置は、ユーザの発話に応じて、音声による応答を含むサービスを提供するエージェント装置であって、前記ユーザによる方言の指定の指示を受け付ける方言指定受付部と、前記ユーザの話し方が前記方言指定受付部により受け付けられた方言に近づくように誘導するための情報を、前記ユーザに提供するものである。
(5):本発明の他の態様に係るエージェント装置の制御方法は、コンピュータが、ユーザの発話に応じて、音声による応答を含むサービスを提供し、前記ユーザの発話時における話し方を検知し、前記ユーザの発話に所定の話し方が含まれることが検知された場合、前記所定の話し方を矯正するための情報を、前記ユーザに提供するものである。
(6):本発明の他の態様に係るプログラムは、コンピュータに、ユーザの発話に応じて、音声による応答を含むサービスを提供する処理と、前記ユーザの発話時における話し方を検知する処理と、前記ユーザの発話に所定の話し方が含まれることが検知された場合、前記所定の話し方を矯正するための情報を、前記ユーザに提供する処理と、を実行させるものである。
(1)~(6)によれば、より発展的な利用の態様を提供することができる。
エージェント装置100を含むエージェントシステム1の構成を示す図である。 第1実施形態に係るエージェント装置100の構成と、車両Mに搭載された機器とを示す図である。 話し方DB205に登録されているデータ内容の一例を示す図である。 エージェントサーバ200の構成と、エージェント装置100の構成の一部とを示す図である。 第1実施形態に係るエージェント装置100の一連の処理の流れを説明するためのフローチャートである。 第1実施形態に係るエージェント装置100の動作を説明するための図である。 第2実施形態に係るエージェント装置100の構成と、車両Mに搭載された機器とを示す図である。 第2実施形態に係るエージェント装置100の一連の処理の流れを説明するためのフローチャートである。 第2実施形態に係るエージェント装置100の動作を説明するための図である。 第3実施形態に係るエージェント装置100の構成と、車両Mに搭載された機器とを示す図である。 第3実施形態に係るエージェント装置100の一連の処理の流れを説明するためのフローチャートである。 第3実施形態に係るエージェント装置100の動作を説明するための図である。
<第1実施形態>
以下、図面を参照し、本発明のエージェント装置、エージェント装置の制御方法、およびプログラムの第1実施形態について説明する。
エージェント装置は、エージェントシステムの一部または全部を実現する装置である。以下では、エージェント装置の一例として、車両(以下、車両M)に搭載され、エージェント機能を備えたエージェント装置について説明する。エージェント機能とは、例えば、無線通信装置を用いたネットワーク接続を少なくとも部分的に利用して、車両Mの乗員と対話をしながら、乗員の発話の中に含まれる要求(コマンド)に基づく各種の情報提供を行ったり、ネットワークサービスを仲介したりする機能である。エージェント機能の中には、車両内の機器(例えば運転制御や車体制御に関わる機器)の制御等を行う機能を有するものがあってよい。
エージェント機能は、例えば、乗員の音声を認識する音声認識機能(音声をテキスト化する機能)に加え、自然言語処理機能(テキストの構造や意味を理解する機能)、対話管理機能、ネットワークを介して他装置を検索し、或いは自装置が保有する所定のデータベースを検索するネットワーク検索機能等を統合的に利用して実現される。これらの機能の一部または全部は、AI(Artificial Intelligence)技術によって実現されてよい。また、これらの機能を行うための構成の一部(特に、音声認識機能や自然言語処理解釈機能)は、車両Mの通信装置と通信可能なエージェントサーバ(外部装置)に搭載されてもよい。以下の説明では、構成の一部がエージェントサーバに搭載されており、エージェント装置とエージェントサーバが協働してエージェントシステムを実現することを前提とする。また、エージェント装置とエージェントサーバが協働して仮想的に出現させるサービス提供主体(サービス・エンティティ)をエージェントと称する。
<全体構成>
図1は、エージェント装置100を含むエージェントシステム1の構成図である。エージェントシステム1は、例えば、エージェント装置100と、エージェントサーバ200とを備える。エージェントサーバ200は、エージェントシステム1の提供者が運営するものである。提供者としては、例えば、自動車メーカー、ネットワークサービス事業者、電子商取引事業者、携帯端末の販売者や製造者などが挙げられ、任意の主体(法人、団体、個人等)がエージェントシステム1の提供者となり得る。
エージェント装置100は、ネットワークNWを介してエージェントサーバ200と通信する。ネットワークNWは、例えば、インターネット、セルラー網、Wi-Fi網、WAN(Wide Area Network)、LAN(Local Area Network)、公衆回線、電話回線、無線基地局などのうち一部または全部を含む。ネットワークNWには、各種ウェブサーバ300が接続されており、エージェントサーバ200またはエージェント装置100は、ネットワークNWを介して各種ウェブサーバ300からウェブページを取得することができる。
エージェント装置100は、車両Mの乗員と対話を行い、乗員からの音声をエージェントサーバ200に送信し、エージェントサーバ200から得られた回答を、音声出力や画像表示の形で乗員に提示する。
エージェントサーバ200は、例えば、話し方DB205を備える。話し方DB205には、車両Mの乗員の話し方に関する情報が登録されている。話し方に関する情報は、車両Mの乗員とエージェント装置100との日常的な対話を通じて取得される情報である。話し方に関する情報は、例えば、車両Mの乗員の口癖を含む。車両Mの乗員の口癖は、車両Mの乗員にとって習慣のようになっている言葉遣いであり、例えば、車両Mの乗員が発話の際に頻繁に用いるフレーズなどを含む。エージェントサーバ200に代えてまたは加えて、エージェント装置100が話し方DB205を備えてもよい。
[車両]
図2は、第1実施形態に係るエージェント装置100の構成と、車両Mに搭載された機器とを示す図である。車両Mには、例えば、一以上のマイク10と、表示・操作装置20と、スピーカユニット30と、ナビゲーション装置40と、車両機器50と、通信装置60と、エージェント装置100とが搭載される。これらの装置は、CAN(Controller Area Network)通信線等の多重通信線やシリアル通信線、無線通信網等によって互いに接続される。なお、図2に示す構成はあくまで一例であり、構成の一部が省略されてもよいし、更に別の構成が追加されてもよい。
マイク10は、車室内で発せられた音声を収集する収音部である。表示・操作装置20は、画像を表示すると共に、入力操作を受付可能な装置(或いは装置群)である。表示・操作装置20は、例えば、タッチパネルとして構成されたディスプレイ装置を含む。表示・操作装置20は、更に、HUD(Head Up Display)や機械式の入力装置を含んでもよい。スピーカユニット30は、例えば、車室内の互いに異なる位置に配設された複数のスピーカ(音出力部)を含む。表示・操作装置20は、エージェント装置100とナビゲーション装置40とで共用されてもよい。
ナビゲーション装置40は、ナビHMI(Human machine Interface)と、GPS(Global Positioning System)などの位置測位装置と、地図情報を記憶した記憶装置と、経路探索などを行う制御装置(ナビゲーションコントローラ)とを備える。マイク10、表示・操作装置20、およびスピーカユニット30のうち一部または全部がナビHMIとして用いられてもよい。ナビゲーション装置40は、位置測位装置によって特定された車両Mの位置から、乗員によって入力された目的地まで移動するための経路(ナビ経路)を探索し、経路に沿って車両Mが走行できるように、ナビHMIを用いて案内情報を出力する。経路探索機能は、ネットワークNWを介してアクセス可能なナビゲーションサーバにあってもよい。この場合、ナビゲーション装置40は、ナビゲーションサーバから経路を取得して案内情報を出力する。
車両機器50は、例えば、エンジンや走行用モータなどの駆動力出力装置、エンジンの始動モータ、ドアロック装置、ドア開閉装置、窓、窓の開閉装置及び窓の開閉制御装置、シート、シート位置の制御装置、ルームミラー及びその角度位置制御装置、車両内外の照明装置及びその制御装置、ワイパーやデフォッガー及びそれぞれの制御装置、方向指示灯及びその制御装置、空調装置、走行距離やタイヤの空気圧の情報や燃料の残量情報などの車両情報装置などを含む。
通信装置60は、例えば、セルラー網やWi-Fi網を利用してネットワークNWにアクセス可能である。通信装置60は、車載通信装置であってもよいし、車室内に持ち込まれるスマートフォンなどの汎用通信装置であってもよい。
[エージェント装置]
図2に戻り、エージェント装置100は、管理部110と、エージェント機能部150とを備える。管理部110は、例えば、音響処理部112と、WU(Wake Up)判定部114と、表示制御部116と、音声制御部118とを備える。図2に示すソフトウェア配置は説明のために簡易に示しており、実際には、例えば、エージェント機能部150と通信装置60の間に管理部110が介在してもよいように、任意に改変することができる。
エージェント装置100の各構成要素は、例えば、CPU(Central Processing Unit)などのハードウェアプロセッサがプログラム(ソフトウェア)を実行することにより実現される。これらの構成要素のうち一部または全部は、LSI(Large Scale Integration)やASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)などのハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予めHDD(Hard Disk Drive)やフラッシュメモリなどの記憶装置(非一過性の記憶媒体を備える記憶装置)に格納されていてもよいし、DVDやCD-ROMなどの着脱可能な記憶媒体(非一過性の記憶媒体)に格納されており、記憶媒体がドライブ装置に装着されることでインストールされてもよい。
管理部110は、OS(Operating System)やミドルウェアなどのプログラムが実行されることで機能する。
音響処理部112は、エージェントに対して予め設定されているウエイクアップワードを認識するのに適した状態になるように、入力された音に対して音響処理を行う。
WU判定部114は、音響処理が行われた音声(音声ストリーム)から、エージェントに対して予め定められているウエイクアップワードを認識する。まず、WU判定部114は、音声ストリームにおける音声波形の振幅と零交差に基づいて音声区間を検出する。WU判定部114は、混合ガウス分布モデル(GMM;Gaussian mixture model) に基づくフレーム単位の音声識別および非音声識別に基づく区間検出を行ってもよい。
次に、WU判定部114は、検出した音声区間における音声をテキスト化し、文字情報とする。そして、WU判定部114は、テキスト化した文字情報がウエイクアップワードに該当するか否かを判定する。ウエイクアップワードであると判定した場合、WU判定部114は、エージェント機能部150を起動させる。なお、WU判定部114に相当する機能がエージェントサーバ200に搭載されてもよい。この場合、管理部110は、音響処理部112によって音響処理が行われた音声ストリームをエージェントサーバ200に送信し、エージェントサーバ200がウエイクアップワードであると判定した場合、エージェントサーバ200からの指示に従ってエージェント機能部150が起動する。なお、エージェント機能部150は、常時起動しており且つウエイクアップワードの判定を自ら行うものであってよい。この場合、管理部110がWU判定部114を備える必要はない。
エージェント機能部150は、例えば、検知部152と、口癖登録部154と、情報提供部156とを備える。エージェント機能部150は、エージェントサーバ200と協働してエージェントを出現させ、車両Mの乗員の発話に応じて、音声による応答を含むサービスを提供する。エージェント機能部150は、車両機器50を制御する権限が付与されている。また、エージェント機能部150は、通信装置60を介してエージェントサーバ200と通信する。
検知部152は、音響処理部112により音響処理が行われた音声を解析することにより、車両Mの乗員の発話時における口癖を検知する。口癖は、車両Mの乗員の話し方の一例である。口癖には、話し相手に対して好印象を与えやすいポジティブな口癖と、話し相手に対して悪印象を与えやすいネガティブな口癖とが含まれる。ポジティブな口癖としては、例えば、「幸せ」、「楽しい」、「わくわくする」、「面白い」などのフレーズが含まれる。ネガティブな口癖としては、例えば、「クソ」、「でも」、「だって」、「どうせ」、「まあいいか」、「時間がない」、「お金がない」、「忙しい」、「疲れた」、「面倒くさい」などのフレーズが含まれる。
口癖登録部154は、検知部152により検知された車両Mの乗員の発話時における口癖を登録する。口癖登録部154は、例えば、車両Mの乗員の発話時における口癖が検知部152により検知された場合、検知された口癖に関する情報を、通信装置60を通じてエージェントサーバ200に送信する。エージェントサーバ200は、口癖登録部154から受信した口癖に関する情報を、話し方DB205に登録する。口癖登録部154は、例えば、車両Mの乗員の発話時における口癖が検知部152により検知された場合、検知された口癖がエージェントサーバ200の話し方DB205に登録済みである場合には、該当する口癖の頻度を加算して、話し方DB205に登録されている口癖に関する情報を更新する。
図3は、話し方DB205のデータ内容の一例を示す図である。話し方DB205には、車両Mの乗員ごとの話し方に関する情報が登録されている。図示の例では、話し方DB205には、例えば、乗員IDに対し、口癖の内容、および、口癖の頻度が対応付けられている。乗員IDは、車両Mの乗員を特定するための識別情報である。口癖の内容は、車両Mの乗員の口癖として検知されたフレーズである。この例では、例えば、「クソ」、「だって」、「どうせ」などのネガティブな口癖が、車両Mの乗員の口癖として登録されている。口癖の頻度は、車両Mの乗員の口癖が検知された頻度である。
情報提供部156は、車両Mの乗員の口癖を矯正するための情報を、車両Mの乗員に提供する。情報提供部156は、検知部152により口癖が検知された場合、話し方DB205を参照して、口癖登録部154により登録された口癖が検知された頻度が閾値以上であるか否かを判定する。情報提供部156は、口癖が検知された頻度が閾値以上である場合、閾値以上の頻度で検知された口癖を矯正するための情報を、車両Mの乗員に提供する。情報提供部156は、例えば、ネガティブな口癖が検知された頻度が閾値以上である場合に、閾値以上の頻度で検知されたネガティブな口癖を矯正するための情報を、車両Mの乗員に提供する。情報提供部156は、例えば、車両Mの乗員が対象の口癖を含む発話を行った場合に、車両Mの乗員の発話に対象の口癖が含まれることを可視化するための警告を、エージェント装置100から車両Mの乗員に出力することにより、車両Mの乗員の口癖を矯正する。また、情報提供部156は、例えば、車両Mの乗員が対象の口癖を含む発話を行った場合に、対象の口癖を含まない発話をエージェント装置100から車両Mの乗員に出力することにより、車両Mの乗員の口癖を矯正してもよい。
表示制御部116は、エージェント機能部150からの指示に応じて表示・操作装置20に画像を表示させる。表示制御部116は、一部のエージェント機能部150の制御により、例えば、車室内で乗員とのコミュニケーションを行う擬人化されたエージェントの画像(以下、エージェント画像と称する)を生成し、生成したエージェント画像を表示・操作装置20に表示させる。エージェント画像は、例えば、乗員に対して話しかける態様の画像である。エージェント画像は、例えば、少なくとも観者(乗員)によって表情や顔向きが認識される程度の顔画像を含んでよい。例えば、エージェント画像は、顔領域の中に目や鼻に擬したパーツが表されており、顔領域の中のパーツの位置に基づいて表情や顔向きが認識されるものであってよい。また、エージェント画像は、立体的に感じられ、観者によって三次元空間における頭部画像を含むことでエージェントの顔向きが認識されたり、本体(胴体や手足)の画像を含むことで、エージェントの動作や振る舞い、姿勢等が認識されたりするものであってもよい。また、エージェント画像は、アニメーション画像であってもよい。
音声制御部118は、エージェント機能部150からの指示に応じてスピーカユニット30に含まれるスピーカのうち一部または全部に音声を出力させる。音声制御部118は、複数のスピーカユニット30を用いて、エージェント画像の表示位置に対応する位置にエージェント音声の音像を定位させる制御を行ってもよい。エージェント画像の表示位置に対応する位置とは、例えば、エージェント画像がエージェント音声を喋っていると乗員が感じると予測される位置であり、具体的には、エージェント画像の表示位置付近の位置である。また、音像が定位するとは、例えば、乗員の左右の耳に伝達される音の大きさを調節することにより、乗員が感じる音源の空間的な位置を定めることである。
[エージェントサーバ]
図4は、エージェントサーバ200の構成と、エージェント装置100の構成の一部とを示す図である。以下、エージェントサーバ200の構成と共にエージェント機能部150等の動作について説明する。ここでは、エージェント装置100からネットワークNWまでの物理的な通信についての説明を省略する。
エージェントサーバ200は、通信部210を備える。通信部210は、例えばNIC(Network Interface Card)などのネットワークインターフェースである。更に、エージェントサーバ200は、例えば、音声認識部220と、自然言語処理部222と、対話管理部224と、ネットワーク検索部226と、応答文生成部228とを備える。これらの構成要素は、例えば、CPUなどのハードウェアプロセッサがプログラム(ソフトウェア)を実行することにより実現される。これらの構成要素のうち一部または全部は、LSIやASIC、FPGA、GPUなどのハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予めHDDやフラッシュメモリなどの記憶装置(非一過性の記憶媒体を備える記憶装置)に格納されていてもよいし、DVDやCD-ROMなどの着脱可能な記憶媒体(非一過性の記憶媒体)に格納されており、記憶媒体がドライブ装置に装着されることでインストールされてもよい。
エージェントサーバ200は、記憶部250を備える。記憶部250は、上記の各種記憶装置により実現される。記憶部250には、話し方DB205に加え、パーソナルプロファイル252、辞書DB(データベース)254、知識ベースDB256、応答規則DB258などのデータやプログラムが格納される。
エージェント装置100において、エージェント機能部150は、音声ストリーム、或いは圧縮や符号化などの処理を行った音声ストリームを、エージェントサーバ200に送信する。エージェント機能部150は、ローカル処理(エージェントサーバ200を介さない処理)が可能な音声コマンドを認識した場合は、音声コマンドで要求された処理を行ってよい。ローカル処理が可能な音声コマンドとは、エージェント装置100が備える記憶部(不図示)を参照することで回答可能な音声コマンドであったり、車両機器50を制御する音声コマンド(例えば、空調装置をオンにするコマンドなど)であったりする。従って、エージェント機能部150は、エージェントサーバ200が備える機能の一部を有してもよい。
音声ストリームを取得すると、音声認識部220が音声認識を行ってテキスト化された文字情報を出力し、自然言語処理部222が文字情報に対して辞書DB254を参照しながら意味解釈を行う。辞書DB254は、文字情報に対して抽象化された意味情報が対応付けられたものである。辞書DB254は、同義語や類義語の一覧情報を含んでもよい。音声認識部220の処理と、自然言語処理部222の処理は、段階が明確に分かれるものではなく、自然言語処理部222の処理結果を受けて音声認識部220が認識結果を修正するなど、相互に影響し合って行われてよい。
自然言語処理部222は、例えば、認識結果として、「今日の天気は」、「天気はどうですか」等の意味が認識された場合、標準文字情報「今日の天気」に置き換えたコマンドを生成する。これにより、リクエストの音声に文字揺らぎがあった場合にも要求にあった対話をし易くすることができる。また、自然言語処理部222は、例えば、確率を利用した機械学習処理等の人工知能処理を用いて文字情報の意味を認識したり、認識結果に基づくコマンドを生成したりしてもよい。
対話管理部224は、自然言語処理部222の処理結果(コマンド)に基づいて、パーソナルプロファイル252や知識ベースDB256、応答規則DB258を参照しながら車両Mの乗員に対する発話の内容を決定する。パーソナルプロファイル252は、乗員ごとに保存されている乗員の個人情報、趣味嗜好、過去の対話の履歴などを含む。知識ベースDB256は、物事の関係性を規定した情報である。応答規則DB258は、コマンドに対してエージェントが行うべき動作(回答や機器制御の内容など)を規定した情報である。
また、対話管理部224は、音声ストリームから得られる特徴情報を用いて、パーソナルプロファイル252と照合を行うことで、乗員を特定してもよい。この場合、パーソナルプロファイル252には、例えば、音声の特徴情報に、個人情報が対応付けられている。音声の特徴情報とは、例えば、声の高さ、イントネーション、リズム(音の高低のパターン)等の喋り方の特徴や、メル周波数ケプストラム係数(Mel Frequency Cepstrum Coefficients)等による特徴量に関する情報である。音声の特徴情報は、例えば、乗員の初期登録時に所定の単語や文章等を乗員に発声させ、発声させた音声を認識することで得られる情報である。
対話管理部224は、コマンドが、ネットワークNWを介して検索可能な情報を要求するものである場合、ネットワーク検索部226に検索を行わせる。ネットワーク検索部226は、ネットワークNWを介して各種ウェブサーバ300にアクセスし、所望の情報を取得する。「ネットワークNWを介して検索可能な情報」とは、例えば、車両Mの周辺にあるレストランの一般ユーザによる評価結果であったり、その日の車両Mの位置に応じた天気予報であったりする。
応答文生成部228は、対話管理部224により決定された発話の内容が車両Mの乗員に伝わるように、応答文を生成し、エージェント装置100に送信する。応答文生成部228は、乗員がパーソナルプロファイルに登録された乗員であることが特定されている場合に、乗員の名前を呼んだり、乗員の話し方に似せた話し方にした応答文を生成したりしてもよい。
エージェント機能部150は、応答文を取得すると、音声合成を行って音声を出力するように音声制御部118に指示する。また、エージェント機能部150は、音声出力に合わせてエージェントの画像を表示するように表示制御部116に指示する。このようにして、仮想的に出現したエージェントが車両Mの乗員に応答するエージェント機能が実現される。
[エージェント装置の処理フロー]
以下、第1実施形態に係るエージェント装置100の一連の処理の流れについてフローチャートを用いて説明する。図5に示すフローチャートの処理は、例えば、車両Mの乗員の発話が入力された場合に実行されてもよい。
まず、検知部152は、車両Mの乗員から入力された発話を解析することにより、車両Mの乗員の発話時における口癖を検知する(ステップS10)。口癖登録部154は、検知部152により検知された口癖を、車両Mの乗員の乗員IDに対応付けて話し方DB205に登録する(ステップS12)。次に、情報提供部156は、話し方DB205を参照して、検知された頻度が閾値以上である口癖が含まれるか否かを判定する(ステップS14)。情報提供部156は、検知された頻度が閾値以上である口癖が含まれると判定した場合、検知された頻度が閾値以上である口癖を矯正するための情報を、車両Mの乗員に提供する(ステップS16)。これによって、本フローチャートの処理が終了する。一方、情報提供部156は、検知された頻度が閾値以上である口癖が含まれないと判定した場合、口癖を矯正するための情報を車両Mの乗員に提供することなく、本フローチャートの処理が終了する。
図6は、第1実施形態に係るエージェント装置100の動作を説明するための図である。同図に示す例では、車両Mの乗員の口癖としてネガティブな口癖が含まれる場合に、当該口癖を矯正するための情報を車両Mの乗員に提供する場合を例に挙げて説明する。
エージェント装置100は、話し方DB205を参照して、検知された頻度が閾値以上である車両Mの乗員の口癖を検知する。図示の例では、エージェント装置100は、「クソ」というネガティブな口癖を、検知された頻度が閾値以上である車両Mの乗員の口癖として検知する。この場合、エージェント装置100は、「クソ」というネガティブな口癖を可視化するための警告を、車両Mの乗員に出力する。
エージェント装置100には、警告した口癖の矯正を依頼する発話が車両Mの乗員から入力される。図示の例では、エージェント装置100には、「クソ」というネガティブな口癖を、「よろしくない」というポジティブな口癖に矯正することを依頼する発話が車両Mの乗員から入力される。
エージェント装置100は、口癖の矯正の依頼を受理した後において、車両Mの乗員からネガティブな口癖を含む発話が入力された場合、ネガティブな口癖を矯正するための情報を車両Mの乗員に提供する。図示の例では、エージェント装置100は、車両Mの乗員から、「クソ」というネガティブな口癖を含む発話が入力されている。そのため、エージェント装置100は、「クソ」というネガティブな口癖の代わりに、「よろしくない」というポジティブな口癖を用いた発話を、車両Mの乗員からの発話に対する応答として出力する。
上記説明した第1実施形態に係るエージェント装置100によれば、より発展的な利用の態様で、車両Mの乗員の口癖を矯正することができる。車両Mの乗員の口癖は、車両Mの乗員との日常的な会話から得られる情報であり、車両Mの乗員の口癖を検知する機会を設けることは困難となる場合がある。したがって、第1実施形態に係るエージェント装置100では、車両Mの乗員とエージェント装置100との対話から車両Mの乗員の口癖を検知し、検知した口癖を矯正するための情報を車両Mの乗員に提供する。これにより、より発展的な利用の態様で、車両Mの乗員の口癖を矯正することができる。
<第2実施形態>
以下、第2実施形態について説明する。第2実施形態は、第1実施形態と比較すると、車両Mの乗員の方言を矯正するための情報を提供する点で処理内容が異なる。以下、この相違点を中心に説明する。
図7は、第2実施形態に係るエージェント装置100の構成と、車両Mに搭載された機器とを示す図である。第2実施形態に係るエージェント装置100のエージェント機能部150Aは、例えば、検知部152と、方言登録部154Aと、情報提供部156とを備える。
検知部152は、音響処理部112により音響処理が行われた音声を解析することにより、車両Mの乗員の発話時における方言を検知する。方言は、車両Mの乗員の話し方の一例である。方言は、地域ごとの言語体系を意味しており、例えば、大阪弁、京都弁などを含む。方言は、例えば、語彙、文法、イントネーション、アクセントなどにより規定される。
方言登録部154Aは、検知部152により検知された車両Mの乗員の発話時における方言を登録する。方言登録部154Aは、例えば、車両Mの乗員の発話時における方言が検知部152により検知された場合、検知された方言に関する情報を、通信装置60を通じてエージェントサーバ200に送信する。エージェントサーバ200は、方言登録部154Aから受信した方言に関する情報を、話し方DB205に登録する。
情報提供部156は、車両Mの乗員の方言を矯正するための情報を、車両Mの乗員に提供する。情報提供部156は、検知部152により方言が検知された場合、話し方DB205を参照して、検知された方言が方言登録部154Aにより登録された所定の方言であるか否かを判定する。情報提供部156は、検知部152により検知された方言が所定の方言であると判定した場合、検知された方言を矯正するための情報を、車両Mの乗員に提供する。情報提供部156は、例えば、検知された方言のうち、車両Mの乗員自身が気にしている方言のイントネーション、単語などの特徴を事前に登録し、事前に登録した方言の特徴を矯正するための情報を、車両Mの乗員に提供してもよい。
以下、第2実施形態に係るエージェント装置100の一連の処理の流れについてフローチャートを用いて説明する。図8に示すフローチャートの処理は、例えば、車両Mの乗員の発話が入力された場合に実行されてもよい。
検知部152は、車両Mの乗員から入力された発話を解析することにより、車両Mの乗員の発話時における方言を検知する(ステップS20)。検知部152は、例えば、車両Mの乗員の発話における語彙、文法、音韻、アクセントなどを解析することにより、車両Mの乗員の方言を検知する。また、検知部152は、ステップS10において検知した方言を、車両Mの乗員の乗員IDに対応付けて話し方DB205に登録する(ステップS22)。次に、情報提供部156は、話し方DB205を参照して、所定の方言が車両Mの乗員に対応付けて話し方DB205に登録されているか否かを判定する(ステップS24)。情報提供部156は、所定の方言が車両Mの乗員に対応付けて話し方DB205に登録されていると判定した場合、所定の方言を矯正するための情報を車両Mの乗員に提供する(ステップS26)。これによって、本フローチャートの処理が終了する。一方、情報提供部156は、所定の方言が車両Mの乗員に対応付けて話し方DB205に登録されていないと判定した場合、所定の方言を矯正するための情報を車両Mの乗員に提供することなく、本フローチャートの処理が終了する。
図9は、第2実施形態に係るエージェント装置100の動作を説明するための図である。同図に示す例では、車両Mの乗員の発話に所定の方言が含まれる場合に、所定の方言を矯正するための情報を車両Mの乗員に提供する場合を例に挙げて説明する。
エージェント装置100は、車両Mの乗員から入力された発話を受け付ける。図示の例では、エージェント装置100は、車両Mの乗員から入力された天気に関する話題を含む発話を受け付ける。
エージェント装置100は、受け付けた発話を解析することにより、車両Mの乗員の方言を検知する。図示の例では、エージェント装置100は、車両Mの乗員の方言が「大阪弁」であると検知する。この場合、エージェント装置100は、車両Mの乗員の方言が「大阪弁」である旨を可視化するための警告を、車両Mの乗員に出力する。
エージェント装置100は、警告した方言の矯正を依頼する発話が車両Mの乗員から入力される。図示の例では、エージェント装置100には、「大阪弁」を「東京弁」に矯正することを依頼する発話が車両Mの乗員から入力されている。
エージェント装置100は、方言の矯正の依頼を受理した後において、車両Mの乗員から矯正の対象となる方言を含む発話が入力された場合、方言を矯正するための情報を車両Mの乗員に提供する。図示の例では、エージェント装置100は、車両Mの乗員から「大阪弁」を含む発話が入力されている。そのため、エージェント装置100は、「大阪弁」の代わりに、「東京弁」を用いた発話を、車両Mの乗員からの発話に対する応答として出力する。
上記説明した第2実施形態に係るエージェント装置100によれば、第1実施形態に係るエージェント装置100の効果を奏する他、より発展的な利用の態様で、車両Mの乗員の方言を矯正することができる。車両Mの乗員の方言は、車両Mの乗員との日常的な会話から得られる情報であり、車両Mの乗員の方言を検知することは困難さを伴う場合がある。したがって、第2実施形態に係るエージェント装置100では、乗車時における車両Mの乗員とエージェント装置100との対話から車両Mの乗員の方言を検知し、検知した方言を矯正するための情報を車両Mの乗員に提供する。これにより、より発展的な利用の態様で、車両Mの乗員の方言を矯正することができる。
<第3実施形態>
以下、第3実施形態について説明する。第3実施形態は、第1実施形態と比較すると、車両Mの乗員により指定された方言に近づくように誘導するための情報を提供する点で処理内容が異なる。以下、この相違点を中心に説明する。
図10は、第3実施形態に係るエージェント装置100の構成と、車両Mに搭載された機器とを示す図である。第3実施形態に係るエージェント装置100のエージェント機能部150Bは、例えば、方言指定受付部154Bと、情報提供部156とを備える。
方言指定受付部154Bは、車両Mの乗員による方言の指定の指示を受け付ける。方言指定受付部154Bは、例えば、車両Mの乗員が表示・操作装置20を操作して方言を指定した場合に、表示・操作装置20から出力される操作信号に基づき、方言の指定の指示を受け付ける。指定される方言としては、日本語に限らず、英語などの現地の方言でもよいし、オックスブリッジアクセントなどの特定の地域において限定的に用いられる現地の方言でもよい。
情報提供部156は、車両Mの乗員の方言が方言指定受付部154Bにより受け付けられた方言に近づくように誘導するための情報を、車両Mの乗員に提供する。情報提供部156は、例えば、方言指定受付部154Bにより方言の指定の指示が受け付けられた場合、受け付けられた方言を含む発話をエージェント装置100から車両Mの乗員に出力することにより、車両Mの乗員の方言を誘導する。
以下、第3実施形態に係るエージェント装置100の一連の処理の流れについてフローチャートを用いて説明する。図11に示すフローチャートの処理は、例えば、車両Mの乗員の発話が入力された場合に実行されてもよい。
方言指定受付部154Bは、車両Mの乗員により方言が指定されたか否かを判定する(ステップS30)。情報提供部156は、方言指定受付部154Bにより方言が指定されたと判定された場合、指定された方言に近づくように誘導するための情報を、車両Mの乗員に提供する(ステップS32)。これによって、本フローチャートの処理が終了する。一方、情報提供部156は、方言指定受付部154Bにより方言が指定されていないと判定された場合、車両Mの乗員の方言を誘導することなく、本フローチャートの処理が終了する。
図12は、第3実施形態に係るエージェント装置100の動作を説明するための図である。同図に示す例では、車両Mの乗員により所定の方言が指定されている場合に、指定された方言に近づくように誘導するための情報を車両Mの乗員に提供する場合を例に挙げて説明する。
エージェント装置100は、車両Mの乗員から入力された、方言の矯正を依頼する発話を受け付ける。図示の例では、エージェント装置100は、車両Mの乗員の方言を「東京弁」に近づくように誘導することを依頼する。
エージェント装置100は、方言の誘導の依頼を受理した後において、車両Mの乗員から所定の方言を含む発話が入力された場合、指定された方言に近づくように誘導する情報を車両Mの乗員に提供する。図示の例では、エージェント装置100は、車両Mの乗員から「大阪弁」を含む発話が入力されている。そのため、エージェント装置100は、「大阪弁」を用いた車両Mの乗員からの発話に対し、「東京弁」を用いた応答を出力する。
上記説明した第3実施形態に係るエージェント装置100によれば、第1または第2実施形態に係るエージェント装置100の効果を奏する他、車両Mの乗員の意図に合わせて、車両Mの乗員の方言を誘導することができる。車両Mの乗員の方言は、慣習的に行われるものであり、その誘導は困難さを伴う場合がある。したがって、第3実施形態に係るエージェント装置100では、車両Mの乗員により指定された方言に近づくように誘導するための情報を車両Mの乗員に提供する。これにより、車両Mの乗員の意図に合わせて、車両Mの乗員の方言を誘導することができる。
[実施形態の変形例]
上記第1または第2実施形態において、エージェント装置100は、車両Mの乗員の発話に口癖または方言が含まれる場合に、乗員の発話に対して応答することなく無視することにより、乗員の発話の矯正を促してもよい。
上記各実施形態において、エージェント装置100は、例えば、政治家の不適切発言のニュースなど、車両Mの乗員の感情が高まりやすい場面となったことをトリガとして、乗員の発話の矯正を開始してもよい。
上記各実施形態において、エージェント装置100は、例えば、車両Mの乗員との会話または車室内を撮影した画像などを通じて乗員の人数や乗員同士の関係性を推定し、その推定結果に基づいて、乗員の発話の矯正を開始するか判定してもよい。エージェント装置100は、例えば、乗員が車室内で1人きりである場合に発話の矯正を開始してもよいし、乗員が家族のみで構成される場合に発話の矯正を開始してもよい。
上記各実施形態において、エージェント装置100は、例えば、携帯情報端末に備えられてもよい。この場合、携帯情報端末は、ユーザとの対話において、ユーザの話し方を矯正してもよい。
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。
10…マイク、20…表示・操作装置、30…スピーカユニット、40…ナビゲーション装置、50…車両機器、60…通信装置、100…エージェント装置、110…管理部、112…音響処理部、114…WU判定部、116…表示制御部、118…音声制御部、150…エージェント機能部、152…検知部、154…口癖登録部、156…情報提供部、200…エージェントサーバ。

Claims (6)

  1. ユーザの発話に応じて、音声による応答を含むサービスを提供するエージェント装置であって、
    前記ユーザの発話による依頼に応じて動作する検知部と情報提供部であって、前記ユーザの発話時における話し方を検知する検知部と、前記ユーザの発話に所定の話し方が含まれることが前記検知部により検知された場合、前記所定の話し方を矯正するための情報を、前記ユーザに提供する情報提供部と、を備える、
    エージェント装置。
  2. 前記検知部により検知された前記ユーザの発話時における口癖を登録する口癖登録部をさらに備え、
    前記情報提供部は、前記検知部により、前記口癖登録部により登録された口癖が検知された頻度が閾値以上である場合、前記閾値以上の頻度で検知された前記ユーザの口癖を、前記所定の話し方として矯正するための情報を、前記ユーザに提供する、
    請求項1記載のエージェント装置。
  3. 前記検知部により検知された前記ユーザの発話時における方言を登録する方言登録部をさらに備え、
    前記情報提供部は、前記検知部により、前記方言登録部により登録された所定の方言が検知された場合、前記所定の方言を、前記所定の話し方として矯正するための情報を、前記ユーザに提供する、
    請求項1または2記載のエージェント装置。
  4. ユーザの発話に応じて、音声による応答を含むサービスを提供するエージェント装置であって、
    前記ユーザの発話による方言の指定の指示を受け付ける方言指定受付部と、
    前記ユーザの話し方が、前記方言指定受付部により受け付けられた方言に近づくように誘導するための情報を、前記ユーザに提供する、
    エージェント装置。
  5. コンピュータが、
    ユーザの発話に応じて、音声による応答を含むサービスを提供し、
    前記ユーザの発話による依頼に応じて、前記ユーザの発話時における話し方を検知すると共に、前記ユーザの発話に所定の話し方が含まれることが検知された場合、前記所定の話し方を矯正するための情報を、前記ユーザに提供する、
    エージェント装置の制御方法。
  6. コンピュータに、
    ユーザの発話に応じて、音声による応答を含むサービスを提供する処理と、
    前記ユーザの発話による依頼に応じて、前記ユーザの発話時における話し方を検知すると共に、前記ユーザの発話に所定の話し方が含まれることが検知された場合、前記所定の話し方を矯正するための情報を、前記ユーザに提供する処理と、
    を実行させるプログラム。
JP2019133048A 2019-07-18 2019-07-18 エージェント装置、エージェント装置の制御方法、およびプログラム Active JP7274376B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2019133048A JP7274376B2 (ja) 2019-07-18 2019-07-18 エージェント装置、エージェント装置の制御方法、およびプログラム
CN202010683589.5A CN112241628A (zh) 2019-07-18 2020-07-15 智能体装置、智能体装置的控制方法及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019133048A JP7274376B2 (ja) 2019-07-18 2019-07-18 エージェント装置、エージェント装置の制御方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2021018293A JP2021018293A (ja) 2021-02-15
JP7274376B2 true JP7274376B2 (ja) 2023-05-16

Family

ID=74171278

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019133048A Active JP7274376B2 (ja) 2019-07-18 2019-07-18 エージェント装置、エージェント装置の制御方法、およびプログラム

Country Status (2)

Country Link
JP (1) JP7274376B2 (ja)
CN (1) CN112241628A (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007193166A (ja) 2006-01-20 2007-08-02 Kenwood Corp 対話装置、対話方法及びプログラム
JP2007233249A (ja) 2006-03-03 2007-09-13 Nec Corp 音声分岐装置、発話訓練装置、音声分岐方法、発話訓練支援方法およびプログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070065977A (ko) * 2005-12-21 2007-06-27 주식회사 팬택 말버릇 교정 기능을 구비한 이동통신 단말기 및 그제어방법
CN102480561A (zh) * 2010-11-30 2012-05-30 希姆通信息技术(上海)有限公司 不雅语音屏蔽装置及其方法
CN102915730B (zh) * 2012-10-19 2015-04-08 东莞宇龙通信科技有限公司 语音处理方法及系统
CN109003611B (zh) * 2018-09-29 2022-05-27 阿波罗智联(北京)科技有限公司 用于车辆语音控制的方法、装置、设备和介质
CN109785832A (zh) * 2018-12-20 2019-05-21 安徽声讯信息技术有限公司 一种适用于重口音的老人机顶盒智能语音识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007193166A (ja) 2006-01-20 2007-08-02 Kenwood Corp 対話装置、対話方法及びプログラム
JP2007233249A (ja) 2006-03-03 2007-09-13 Nec Corp 音声分岐装置、発話訓練装置、音声分岐方法、発話訓練支援方法およびプログラム

Also Published As

Publication number Publication date
JP2021018293A (ja) 2021-02-15
CN112241628A (zh) 2021-01-19

Similar Documents

Publication Publication Date Title
US11380325B2 (en) Agent device, system, control method of agent device, and storage medium
US11508370B2 (en) On-board agent system, on-board agent system control method, and storage medium
US11608076B2 (en) Agent device, and method for controlling agent device
US20200320998A1 (en) Agent device, method of controlling agent device, and storage medium
US20200317055A1 (en) Agent device, agent device control method, and storage medium
JP7222757B2 (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
JP7274903B2 (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
US11542744B2 (en) Agent device, agent device control method, and storage medium
JP7274376B2 (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
US11797261B2 (en) On-vehicle device, method of controlling on-vehicle device, and storage medium
US20200294502A1 (en) Agent device, method for controlling agent device, and storage medium
US20200320997A1 (en) Agent apparatus, agent apparatus control method, and storage medium
JP7175221B2 (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
JP7217209B2 (ja) 音声対話装置、音声対話方法、及びプログラム
JP2020152298A (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
JP2021033929A (ja) 制御システム、及び制御方法
JP7280074B2 (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
JP7297483B2 (ja) エージェントシステム、サーバ装置、エージェントシステムの制御方法、およびプログラム
JP7274901B2 (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
JP2020160132A (ja) エージェント装置、エージェント装置の制御方法、プログラム、エージェントサーバ、およびエージェントサーバの制御方法
JP2020157854A (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
JP2020152297A (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
JP2020135110A (ja) エージェント装置、エージェント装置の制御方法、およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211126

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221007

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221101

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221220

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230411

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230501

R150 Certificate of patent or registration of utility model

Ref document number: 7274376

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150