JP2021026188A - 通信制御システム、通知制御方法、及び通信制御プログラム - Google Patents

通信制御システム、通知制御方法、及び通信制御プログラム Download PDF

Info

Publication number
JP2021026188A
JP2021026188A JP2019146804A JP2019146804A JP2021026188A JP 2021026188 A JP2021026188 A JP 2021026188A JP 2019146804 A JP2019146804 A JP 2019146804A JP 2019146804 A JP2019146804 A JP 2019146804A JP 2021026188 A JP2021026188 A JP 2021026188A
Authority
JP
Japan
Prior art keywords
unit
name
content
utterance
response
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019146804A
Other languages
English (en)
Inventor
昌宏 暮橋
Masahiro Kurehashi
昌宏 暮橋
桂輔 荒川
Keisuke Arakawa
桂輔 荒川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Priority to JP2019146804A priority Critical patent/JP2021026188A/ja
Priority to CN202010775363.8A priority patent/CN112349284A/zh
Publication of JP2021026188A publication Critical patent/JP2021026188A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • H04W4/024Guidance services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/40Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
    • H04W4/44Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P] for communication between vehicles and infrastructures, e.g. vehicle-to-cloud [V2C] or vehicle-to-home [V2H]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)
  • Navigation (AREA)

Abstract

【課題】簡潔にされた乗員の発話内容に対して応答することができる通知制御システム、通知制御方法、及び通知制御プログラムを提供すること。【解決手段】通知制御システムは視覚情報又は聴覚情報の少なくともどちらか一方を通知するために音声出力部及び表示部に接続される通知制御装置であって利用者の発話の音声を示すデータを取得する取得部と前記取得部により取得された前記データに基づいて前記利用者の発話内容を解釈する発話内容解釈部と前記発話内容に対する応答内容を生成し前記表示部に出力させる応答内容生成部と正式名称と該正式名称における略称略語省略語及び短縮語が含まれるものである別称とが対応付けられた辞書情報に基づいて前記発話内容解釈部により解釈された前記発話内容に含まれる前記別称に対応する正式名称を特定する特定部と前記特定部により特定された正式名称を前記表示部に表示させる表示制御部とを備える。【選択図】図1

Description

本発明は、通信制御システム、通知制御方法、及び通信制御プログラムに関する。
従来、ナビゲーション装置において、運転者が視認し易いように表示を簡潔にする技術が開示されている(例えば、特許文献1参照)。
特開2002−188929号公報
ここで、近年、車両の乗員と対話を行いながら、乗員の要求に応じた運転支援に関する情報や車両の制御、その他のアプリケーション等を提供する応答機能が知られている。しかしながら、従来の技術では、簡潔にされた乗員の発話内容に対して応答することまでは困難であった。
本発明は、このような事情を考慮してなされたものであり、簡潔にされた乗員の発話内容に対して応答することができる通知制御システム、通知制御方法、及び通知制御プログラムを提供することを目的の一つとする。
この発明に係る通信制御システム、通知制御方法、及び通信制御プログラムは、以下の構成を採用した。
(1)この発明の一態様の通知制御システムは、視覚情報又は聴覚情報の少なくともどちらか一方を通知するために、音声出力部及び表示部に接続される通知制御装置であって、利用者の発話の音声を示すデータを取得する取得部と、前記取得部により取得された前記データに基づいて、前記利用者の発話内容を解釈する発話内容解釈部と、前記発話内容に対する応答内容を生成し、前記表示部に出力させる応答内容生成部と、正式名称と、該正式名称における略称、略語、省略語、及び短縮語が含まれるものである別称とが、対応付けられた辞書情報に基づいて、前記発話内容解釈部により解釈された前記発話内容に含まれる前記別称に対応する正式名称を特定する特定部と、前記特定部により特定された正式名称を前記表示部に表示させる表示制御部と、を備えるものである。
(2)この発明の他の態様の通知制御システムは、視覚情報又は聴覚情報の少なくともどちらか一方を通知するために、音声出力部及び表示部に接続される通知制御装置であって、利用者の発話の音声を示すデータを取得する取得部と、前記取得部により取得された前記データに基づいて、前記利用者の発話内容を解釈する発話内容解釈部と、前記発話内容に対する応答内容を生成し前記音声出力部に出力させる応答内容生成部と、正式名称と、該正式名称における略称、略語、省略語、及び短縮語が含まれるものである別称とが、対応付けられた辞書情報に基づいて、前記発話内容解釈部により解釈され前記発話内容に含まれる前記別称に対応する正式名称を特定する特定部と、前記特定部により特定された正式名称を前記音声出力部に出力させる音声制御部と、を備えるものである。
(3)の態様は、上記(1)または(2)の態様に係る通知制御システムにおいて、前記応答内容生成部は、前記別称を用いて前記発話内容に対する応答内容を生成するものである。
(4)この発明の他の態様の通知制御システムは、視覚情報又は聴覚情報の少なくともどちらか一方を通知するために、音声出力部及び表示部に接続される通知制御装置であって、利用者の発話の音声を示すデータを取得する取得部と、前記取得部により取得された前記データに基づいて、前記利用者の発話内容を解釈する発話内容解釈部と、前記発話内容に対する応答内容を生成し前記通知部に出力させる応答内容生成部と、正式名称と、該正式名称における略称、略語、省略語、及び短縮語が含まれるものである別称とが、対応付けられた辞書情報に基づいて、前記発話内容解釈部により解釈され前記発話内容に含まれる前記別称に対応する正式名称を特定する特定部と、前記特定部により特定された前記正式名称を前記表示部に表示させる表示制御部と、前記特定部により特定された前記別称を前記音声出力部に出力させる音声制御部と、を備えるものである。
(5)の態様は、上記(4)の態様に係る通知制御システムにおいて、前記応答内容生成部は、前記音声出力部に出力させる前記応答内容のモーラ数と、該音声出力部に出力させる応答内容のモーラ数に対応する前記表示部に表示させる該応答内容における文字数とを比較して、該モーラ数と比較して該文字数が多くなるように、当該表示部に表示させる該応答内容を生成するものである。
(6)の態様は、上記(1)から(5)のいずれかの態様に係る通知制御システムが、前記特定部により前記別称が特定された履歴を示す履歴情報を記憶部に記憶させる履歴管理部を更に備え、前記応答内容生成部は、前記履歴情報に基づいて、前記応答内容を生成するものである。
(7)の態様は、上記(6)の態様に係る通知制御システムにおいて、前記応答内容生成部は、前記履歴情報を参照し、前記別称が繰り返し使用されている場合に、前記別称を用いて応答内容を生成するものである。
(8)の態様は、上記(1)から(7)のいずれかの態様に係る通知制御システムにおいて、前記応答内容生成部は、前記特定部により前記別称が特定された頻度が高くなるほど、前記応答内容を簡潔にするものである。
(9)の態様は、上記(1)から(8)のいずれかの態様に係る通知制御システムにおいて、前記辞書情報には、前記別称に対して、前記別称が用いられる地域を示す情報が更に対応付けられており、前記取得部は、前記利用者の位置を示す位置情報を更に取得し、前記特定部は、前記辞書情報において、前記発話内容解釈部により解釈された前記発話内容に含まれる前記別称に対して前記地域を示す情報が対応づけられており、且つ前記位置情報が前記地域を示す情報に合致する場合に、前記別称に対応する前記正式名称を特定するものである。
(10)の態様は、上記(1)から(9)のいずれかの態様に係る通知制御システムにおいて、前記応答内容生成部は、前記別称または前記正式名称を用いて前記発話内容に対する応答内容を生成し、前記発話内容解釈部により前記応答内容の応答中に前記利用者の発話が有ったことが解釈された場合に前記別称を優先的に使用するものである。
(11)この発明の他の態様の通知制御装置は、視覚情報又は聴覚情報の少なくともどちらか一方を通知するために、音声出力部及び表示部に接続される通知制御装置であって、利用者の発話の音声を示すデータを取得する取得部と、前記取得部により取得された前記データに基づいて、前記利用者の発話内容を解釈する発話内容解釈部と、前記発話内容に対する応答内容を生成し前記音声出力部に出力させる応答内容生成部と、正式名称と、該正式名称における略称、略語、省略語、及び短縮語が含まれるものである別称とが対応付けられた辞書情報に基づいて、前記発話内容解釈部により解釈され前記発話内容に含まれる前記別称に対応する正式名称を特定する特定部と、前記特定部により特定された正式名称を前記表示部に表示させる音声制御部と、を備えるものである。
(12)この発明の他の態様の通知制御方法は、単一または複数のコンピュータが実行する、利用者の発話の音声を示す音声データを取得するステップと、音声データに基づいて前記利用者の発話内容を解釈するステップと、正式名称と、該正式名称における略称、略語、省略語、及び短縮語が含まれるものである別称とが対応付けられた辞書情報に基づいて、解釈され前記発話内容に含まれる前記別称に対応する正式名称を特定するステップと、前記発話内容に対する応答内容を生成し通知部に出力させるステップと、特定された前記正式名称を前記通知部に出力するステップと、を有するものである。
(13)この発明の他の態様の通知制御プログラムは、単一または複数のコンピュータにインストールされるための通知制御プログラムであって、利用者の発話の音声を示す音声データを取得する処理と、音声データに基づいて前記利用者の発話内容を解釈する処理と、正式名称と、該正式名称における略称、略語、省略語、及び短縮語が含まれるものである別称とが対応付けられた辞書情報に基づいて、解釈され前記発話内容に含まれる前記別称に対応する正式名称を特定する処理と、前記発話内容に対する応答内容を生成し通知部に出力させる処理と、特定された前記正式名称を前記通知部に出力する処理と、を前記コンピュータに実行させるものである。
(1)〜(13)によれば、簡潔にされた乗員の発話内容に対して応答することができる。
(3)によれば、乗員の発話内容に対して簡潔に応答することができる。
(6)〜(8)によれば、乗員のこれまでの発話内容に適した応答をすることができる。
(9)〜(10)によれば、乗員の特徴に応じた応答をすることができる。
エージェント装置100を含むエージェントシステム1の構成図である。 実施形態に係るエージェント装置100の構成と、車両Mに搭載された機器とを示す図である。 実施形態に係るエージェントサーバ200の構成と、エージェント装置100の構成の一部とを示す図である。 別称辞書252Cの内容の一例を示す図である。 パーソナルプロファイル254の内容の一例を示す図である。 表示・操作装置20により出力される応答内容の一例(その1)を示す図である。 表示・操作装置20により出力される応答内容の一例(その2)を示す図である。 表示・操作装置20により出力される応答内容の一例(その3)を示す図である。 表示・操作装置20により出力される応答内容の一例(その4)を示す図である。 エージェントシステム1の一連の動作の一例を示すフローチャートである。 応答文RCの生成処理の一例を示すフローチャートである。 エージェントサーバ200の機能を備えるエージェント装置100Aの構成の一例を示す図である。
以下、図面を参照し、本発明の通知制御システム、通知制御方法、及び通知制御プログラムの実施形態について説明する。
<実施形態>
エージェント装置は、本実施形態の通知制御システムを含むエージェントシステム1の一部または全部を実現する装置である。以下では、エージェント装置の一例として、乗員(利用者の一例)が搭乗する車両(以下、車両M)に搭載され、エージェント機能を備えたエージェント装置について説明する。なお、本発明の適用上、必ずしもエージェント装置がエージェント機能を有している必要はない。また、エージェント装置は、スマートフォン等の可搬型端末装置(汎用端末)であってもよいが、以下では、車両に搭載されたエージェント機能を備えたエージェント装置を前提として説明する。エージェント機能とは、例えば、車両Mの乗員と対話をしながら、乗員の発話の中に含まれる要求(コマンド)に基づく各種の情報提供や各種機器制御を行ったり、ネットワークサービスを仲介したりする機能である。エージェント装置が複数のエージェント機能を有する場合、エージェント機能は、それぞれに果たす機能、処理手順、制御、出力態様・内容がそれぞれ異なってもよい。また、エージェント機能の中には、車両内の機器(例えば運転制御や車体制御に関わる機器)の制御等を行う機能を有するものがあってよい。
エージェント機能は、例えば、乗員の音声を認識する音声認識機能(音声をテキスト化する機能)に加え、自然言語処理機能(テキストの構造や意味を理解する機能)、対話管理機能、ネットワークを介して他装置を検索し、或いは自装置が保有する所定のデータベースを検索するネットワーク検索機能等を統合的に利用して実現される。これらの機能の一部または全部は、AI(Artificial Intelligence)技術によって実現されてよい。また、これらの機能を行うための構成の一部(特に、音声認識機能や自然言語処理解釈機能)は、車両Mの車載通信装置または車両Mに持ち込まれた汎用通信装置と通信可能なエージェントサーバ(外部装置)に搭載されてもよい。以下の説明では、構成の一部がエージェントサーバに搭載されており、エージェント装置とエージェントサーバとが協働してエージェントシステムを実現することを前提とする。また、エージェント装置とエージェントサーバが協働して仮想的に出現させるサービス提供主体(サービス・エンティティ)をエージェントと称する。
<全体構成>
図1は、エージェント装置100を含むエージェントシステム1の構成図である。エージェントシステム1は、例えば、エージェント装置100と、一以上のエージェントサーバ200と、を備える。本実施形態におけるエージェントシステム1を提供する提供者は、例えば、自動車メーカー、ネットワークサービス事業者、電子商取引事業者、携帯端末の販売者や製造者等が挙げられ、任意の主体(法人、団体、個人等)がエージェントシステム1の提供者となり得る。なお、図1では、エージェントサーバ200が一つである場合について説明したが、これに限られず、エージェントシステム1は、二以上のエージェントサーバ200を備えるものであってもよい。この場合、各エージェントサーバ200は、互いに異なる任意の主体によって提供されてもよい。
エージェント装置100は、ネットワークNWを介してエージェントサーバ200と通信する。ネットワークNWは、例えば、インターネット、セルラー網、Wi−Fi網、WAN(Wide Area Network)、LAN(Local Area Network)、公衆回線、電話回線、無線基地局等の通信網のうち一部または全部を含む。ネットワークNWには、各種ウェブサーバ300が接続されており、エージェントサーバ200またはエージェント装置100は、ネットワークNWを介して各種ウェブサーバ300からウェブページを取得することができる。
エージェント装置100は、車両Mの乗員と対話を行い、乗員からの音声をエージェントサーバ200に送信し、エージェントサーバ200から得られた回答を、音声出力や画像表示の形で乗員に提示する。
[車両]
図2は、実施形態に係るエージェント装置100の構成と、車両Mに搭載された機器とを示す図である。車両Mには、例えば、一以上のマイク10と、表示・操作装置20と、スピーカ30と、ナビゲーション装置40と、車載通信装置50と、エージェント装置100とが搭載される。これらの装置は、CAN(Controller Area Network)通信線等の多重通信線やシリアル通信線、無線通信網等によって互いに接続される。なお、図2に示す構成はあくまで一例であり、構成の一部が省略されてもよいし、更に別の構成が追加されてもよい。
マイク10は、車室内で発せられた音を収集する収音部である。表示・操作装置20は、画像を表示するとともに、入力操作を受付可能な装置(或いは装置群)である。表示・操作装置20は、例えば、タッチパネルとして構成されたディスプレイ装置を含む。表示・操作装置20は、更に、HUD(Head Up Display)や機械式の入力装置を含んでもよい。スピーカ30は、例えば、車室内に配設されたスピーカ(音出力部)を含む。表示・操作装置20は、エージェント装置100とナビゲーション装置40とで共用されてもよい。スピーカ30は、「音声出力部」の一例である。
ナビゲーション装置40は、ナビHMI(Human Machine Interface)と、GPS(Global Positioning System)等の位置測位装置と、地図情報を記憶した記憶装置と、経路探索等を行う制御装置(ナビゲーションコントローラ)とを備える。マイク10、表示・操作装置20、およびスピーカ30のうち一部または全部がナビHMIとして用いられてもよい。ナビゲーション装置40は、位置測位装置によって特定された車両Mの位置から、乗員によって入力された目的地まで移動するための経路(ナビ経路)を探索し、経路に沿って車両Mが走行できるように、ナビHMIを用いて案内情報を出力する。経路探索機能は、ネットワークNWを介してアクセス可能なナビゲーションサーバにあってもよい。この場合、ナビゲーション装置40は、ナビゲーションサーバから経路を取得して案内情報を出力する。
なお、エージェント装置100は、ナビゲーションコントローラを基盤として構築されてもよい。この場合、ナビゲーションコントローラとエージェント装置100は、ハードウェア上は一体に構成される。表示・操作装置20のディスプレイ装置と、ナビゲーション装置40のナビHMIとは、「表示部」の一例である。
車載通信装置50は、例えば、セルラー網やWi−Fi網を利用してネットワークNWにアクセス可能な無線通信装置である。
[エージェント装置]
エージェント装置100は、管理部110と、エージェント機能部130と、車載通信部140と、記憶部150とを備える。管理部110は、例えば、音響処理部112と、エージェントWU(Wake Up)判定部114と、通信制御部116と、出力制御部120と備える。図2に示すソフトウェア配置は説明のために簡易に示しており、実際には、例えば、エージェント機能部130と車載通信装置50の間に管理部110が介在してもよいように、任意に改変することができる。また、以下では、エージェント機能部130とエージェントサーバ200が協働して出現させるエージェントを、単に「エージェント」と称する場合がある。
エージェント装置100の各構成要素は、例えば、CPU(Central Processing Unit)等のハードウェアプロセッサがプログラム(ソフトウェア)を実行することにより実現される。これらの構成要素のうち一部または全部は、LSI(Large Scale Integration)やASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)等のハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。記憶部150は、HDD(Hard Disk Drive)やフラッシュメモリなどの記憶装置(非一過性の記憶媒体を備える記憶装置)により実現されてもよく、DVDやCD−ROMなどの着脱可能な記憶媒体(非一過性の記憶媒体)により実現されてもよく、ドライブ装置に装着される記憶媒体であってもよい。また、記憶部150の一部又は全部は、NASや外部のストレージサーバ等、エージェント装置100がアクセス可能な外部装置であってもよい。記憶部150には、例えば、エージェント装置100において実行されるプログラム等の情報が記憶される。
管理部110は、OS(Operating System)やミドルウェア等のプログラムが実行されることで機能する。
管理部110の音響処理部112は、マイク10から収集される音を受け付け、受け付けた音に対して、エージェントごとに予め設定されているウエイクアップワードを認識したり、その他の発話内容を認識するのに適した状態になるようにしたりする音響処理を行う。ウエイクアップワードとは、例えば、対象のエージェントを起動させるためのワード(単語)やフレーズ等である。ウエイクアップワードは、単体のエージェントを起動させるものでもよく、複数のエージェントを起動させるものでもよい。音響処理とは、例えば、バンドパスフィルタ等のフィルタリングによるノイズ除去や音の増幅等である。また、音響処理部112は、音響処理された音声を、エージェントWU判定部114や起動中のエージェント機能部130に出力する。
エージェントWU判定部114は、エージェントに予め定められているウエイクアップワードを認識する。エージェントWU判定部114は、音響処理が行われた音声(音声ストリーム)から発話された音声を認識する。まず、エージェントWU判定部114は、音声ストリームにおける音声波形の振幅と零交差に基づいて音声区間を検出する。エージェントWU判定部114は、混合ガウス分布モデル(GMM;Gaussian mixture model) に基づくフレーム単位の音声識別および非音声識別に基づく区間検出を行ってもよい。
次に、エージェントWU判定部114は、検出した音声区間における音声をテキスト化し、文字情報とする。そして、エージェントWU判定部114は、テキスト化した文字情報がウエイクアップワードに該当するか否かを判定する。ウエイクアップワードであると判定した場合、エージェントWU判定部114は、ウエイクアップワードに対応するエージェント機能部130を起動させる。なお、エージェントWU判定部114に相当する機能が、エージェントサーバ200に搭載されてもよい。この場合、管理部110は、音響処理部112によって音響処理が行われた音声ストリームをエージェントサーバ200に送信し、エージェントサーバ200がウエイクアップワードであると判定した場合、エージェントサーバ200からの指示に従ってエージェント機能部130が起動する。また、各エージェント機能部130は、常時起動しており且つウエイクアップワードの判定を自ら行うものであってよい。この場合、管理部110がエージェントWU判定部114を備える必要はない。
また、エージェントWU判定部114は、上述した手順と同様の手順で、発話された音声に含まれる終了ワードを認識した場合であり、且つ、終了ワードに対応するエージェントが起動している状態(以下、必要に応じて「起動中」と称する)である場合、起動中のエージェント機能部を終了(停止)させる。なお、エージェントの起動および終了は、例えば、表示・操作装置20から所定の操作を受け付けることによって実行されてもよいが、以下では、音声による起動および停止の例を説明する。また、起動中のエージェントは、音声の入力を所定時間以上受け付けなかった場合に停止させてもよい。
通信制御部116は、エージェント機能部130を、ネットワークNWに接続可能にするための制御を行う。例えば、通信制御部116は、エージェント機能部130がネットワークを介して外部装置(例えば、エージェントサーバ200)と通信を行う場合の接続状態等を制御する。また、通信制御部116は、通信が途切れた場合の再接続や、接続状態の切り替え等の制御を行う。
出力制御部120は、通信制御部116またはエージェント機能部130等からの指示に応じて表示部またはスピーカ30に応答内容等の情報を出力させることで、乗員にサービス等の提供を行う。出力制御部120は、例えば、表示制御部122と、音声制御部124とを備える。
表示制御部122は、エージェント機能部130がエージェントサーバ200から取得した情報に基づいて、エージェントが車両Mの乗員の発話に応答する応答内容を、車両Mの乗員に通知するために用いられる画像を表示・操作装置20のディスプレイ装置に表示させる。
音声制御部124は、エージェント機能部130がエージェントサーバ200から取得した情報に基づいて、エージェントが車両Mの乗員の発話に応答する応答内容を、車両Mの乗員に通知するために用いられる音声をスピーカ30に出力させる。
エージェント機能部130は、エージェントサーバ200と協働して、車両の乗員の発話に応じて、音声、及び画像による応答を含むサービスを提供する。エージェント機能部130には、例えば、車両M、又は車両Mに搭載される車載機器を制御する権限が付与されており、後述する処理によりエージェントサーバ200によって認識された車両Mの発話内容が、車両Mに搭載される車載機器の動作を指示するコマンドである場合、エージェント機能部130は、コマンドに基づいてそれらの車載機器を制御する。車載機器には、ナビゲーション装置40が含まれる。エージェント機能部130は、通信制御部116の制御に基づいて、車載通信部140によって車載通信装置50を介してエージェントサーバ200と通信する。
なお、エージェント機能部130には、法律や条例、エージェントを提供する事業者同士の契約等に応じて、車載機器を制御する権限が割り振られるものであってもよい。
車載通信部140は、例えば、エージェント機能部130がネットワークNWに接続する場合に、車載通信装置50を介して通信させる。車載通信部140は、エージェント機能部130からの情報を、車載通信装置50を介してエージェントサーバ200やその他の外部装置に出力する。また、車載通信部140は、車載通信装置50を介して入力された情報をエージェント機能部130に出力する。
エージェント機能部130は、エージェントWU判定部114による起動指示に基づいて起動し、乗員の発話に対して、エージェントサーバ200を介して乗員の発話の音声に含まれる要求に対する応答内容を生成し、生成した応答内容を出力制御部120に出力する。また、エージェント機能部130は、エージェントサーバ200と通信を行う場合には、通信制御部116により制御された接続状態によって通信を行う。また、エージェント機能部130は、エージェントWU判定部114による制御に基づいて、エージェントを停止させてもよい。
[エージェントサーバ]
図3は、実施形態に係るエージェントサーバ200の構成と、エージェント装置100の構成の一部とを示す図である。以下、エージェントサーバ200の構成とともに、エージェント機能部130等の動作について説明する。ここでは、エージェント装置100からネットワークNWまでの物理的な通信についての説明を省略する。
エージェントサーバ200は、通信部210を備える。通信部210は、例えば、NIC(Network Interface Card)等のネットワークインターフェースである。更に、エージェントサーバ200は、例えば、音声認識部220と、自然言語処理部221と、特定部222と、対話管理部223と、ネットワーク検索部224と、履歴管理部225と、応答内容生成部226と、記憶部250とを備える。これらの構成要素は、例えば、CPU等のハードウェアプロセッサがプログラム(ソフトウェア)を実行することにより実現される。これらの構成要素のうち一部または全部は、LSIやASIC、FPGA、GPU等のハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予めHDDやフラッシュメモリ等の記憶装置(非一過性の記憶媒体を備える記憶装置)に格納されていてもよいし、DVDやCD−ROM等の着脱可能な記憶媒体(非一過性の記憶媒体)に格納されており、記憶媒体がドライブ装置に装着されることでインストールされてもよい。音声認識部220と、自然言語処理部221とを合わせたものは、「発話内容解釈部」の一例である。
記憶部250は、上記の各種記憶装置により実現される。記憶部250には、例えば、辞書DB252、パーソナルプロファイル254、知識ベースDB256、応答規則DB258等のデータやプログラムが格納される。
エージェント装置100において、エージェント機能部130は、例えば、音響処理部112等から入力される音声ストリーム、或いは圧縮や符号化等の処理を行った音声ストリームを、エージェントサーバ200に送信する。エージェント機能部130は、ローカル処理(エージェントサーバ200を介さない処理)が可能なコマンド(要求内容)が認識できた場合には、コマンドで要求された処理を実行してもよい。ローカル処理が可能なコマンドとは、例えば、エージェント装置100が備える記憶部150を参照することで応答可能なコマンドである。より具体的には、ローカル処理が可能なコマンドとは、例えば、記憶部150内に存在する電話帳データ(不図示)から特定者の名前を検索し、合致した名前に対応付けられた電話番号に電話をかける(相手を呼び出す)コマンドである。したがって、エージェント機能部130は、エージェントサーバ200が備える機能の一部を有してもよい。
音声ストリームを取得すると、音声認識部220が音声認識を行ってテキスト化された文字情報を出力し、自然言語処理部221が文字情報に対して辞書DB252を参照しながら意味解釈を行う。辞書DB252は、例えば、文字情報に対して抽象化された意味情報が対応付けられたものである。辞書DB252は、例えば、機能辞書252Aと、汎用辞書252Bと、別称辞書252Cとを含む。
機能辞書252Aは、エージェントサーバ200がエージェント機能部130と協働して実現するエージェントが提供する機能(サービス)をカバーするための辞書である。例えば、エージェントが車載エアコンを制御する機能を提供する場合、機能辞書252Aには、「エアコン」、「空調」、「つける」、「消す」、「温度」、「上げる」、「下げる」、「内気」、「外気」等の単語が、動詞、目的語等の単語種別、および抽象化された意味と対応付けられて登録されている。また、機能辞書252Aには、同時に使用可能であることを示す単語間リンク情報が含まれてよい。
汎用辞書252Bは、エージェントの提供する機能に限らず、一般的な物事の事象を抽象化された意味と対応付けた辞書である。機能辞書252Aと汎用辞書252Bのそれぞれは、同義語や類義語の一覧情報を含んでもよい。機能辞書252Aと汎用辞書252Bとは、複数の言語のそれぞれに対応して用意されてよく、その場合、音声認識部220および自然言語処理部221は、予め設定されている言語設定に応じた機能辞書252Aおよび汎用辞書252B、並びに文法情報(不図示)を使用する。音声認識部220の処理と、自然言語処理部221の処理は、段階が明確に分かれるものではなく、自然言語処理部221の処理結果を受けて音声認識部220が認識結果を修正する等、相互に影響し合って行われてよい。
図4は、別称辞書252Cの内容の一例を示す図である。別称辞書252Cは、車両Mの乗員が用いる別称であり、正式名称の略称、略語、省略語、及び短縮語を示す情報と、正式名称を示す情報と、別称が用いられる地域を示す情報とが互いに対応付けられた情報である。図4では、別称である「ワック」と、正式名称である「ワクワクバーガー」とが対応付けられている。ここで、「ワック」という別称には、特定の地域に限らず用いられるため、地域を示す情報が対応付けられていない(或いは、地域を限定しない「全国」等の情報が対応付けられる)。また、図4では、別称である「ドレミ」と、正式名称である「ドレミドーナッツ」と、別称が用いられる地域を示す「関西」とが対応付けられ、更に、正式名称である「ドレミラーメン」と、別称が用いられる地域を示す「関東」とが対応付けられる。これは、「ドレミ」という別称が、関西では、「ドレミドーナッツ」について用いられており、関東では、「ドレミラーメン」について用いられていることを示す。別称辞書252Cは、「辞書情報」の一例である。
図3に戻り、自然言語処理部221は、音声認識部220による認識結果に基づく意味解釈の一つとして、音声に含まれるサービスの要求に対応するためにエージェントが必要な機能に関する情報(以下、機能必要情報と称する)を取得する。例えば、認識結果として、「目的地をワックに設定して」のテキストが認識された場合、自然言語処理部221は、辞書DB252等を参照して解釈し、「ナビゲーション装置の制御」という対象機器及び機能種別等を取得する。そして、自然言語処理部221は、取得した機能必要情報をエージェント機能部130に出力する。自然言語処理部221は、機能必要情報に基づきサービス要求に対する実行可否の判定結果を取得する。自然言語処理部221は、要求された機能が実行可能である場合に、サービス要求に対応できるものとして、解釈された発話内容に対応したコマンドを生成する。
例えば、自然言語処理部221は、認識結果として、「目的地をワックに設定して」、「目的地をワック」、「ワックまでの道順を教えて」等の発話が認識された場合に、標準文字情報「目的地をワックに設定」又は「SET_DESTINATION “ワック”」等に置き換えたコマンドを生成する。これにより、リクエスト(要求)の音声に発話用語の地域相違が有った場合にも要求に合ったサービスを提供し易くすることができる。また、自然言語処理部221は、例えば、確率を利用した機械学習処理等の人工知能処理を用いて文字情報の意味を認識したり、認識結果に基づくコマンドを生成したりしてもよい。
特定部222は、別称辞書252Cに基づいて、自然言語処理部221により生成(解釈)されたコマンドに含まれる別称の正式名称を特定する。例えば、自然言語処理部221によって生成されたコマンドが「目的地をワックに設定」である場合、特定部222は、別称辞書252Cに基づいて、「ワック」の正式名称が「ワクワクバーガー」であると特定する。そして、特定部222は、自然言語処理部221により生成されたコマンドを、正式名称を含むコマンドに更新する。この場合、特定部222は、自然言語処理部221により生成されたコマンドを、「目的地をワクワクバーガーに設定」というコマンドに更新する。なお、特定部222は、自然言語処理部221により生成されたコマンドに別称が含まれていないことを特定した場合、コマンドを更新しなくてもよい。
対話管理部223は、自然言語処理部221により生成されたコマンド、又は特定部222により更新されたコマンドに基づいて、パーソナルプロファイル254や知識ベースDB256、応答規則DB258を参照しながら車両Mの乗員に対する応答内容(例えば、乗員への発話内容や出力部から出力する画像、音声)を決定する。知識ベースDB256は、物事の関係性を規定した情報である。応答規則DB258は、コマンドに対してエージェントが行うべき動作(回答や機器制御の内容等)を規定した情報である。図5は、パーソナルプロファイル254の内容の一例を示す図である。パーソナルプロファイル254は、乗員の個人情報と、趣味嗜好を示す情報と、過去の対話の履歴(以下、発話履歴)を示す情報と、対応する発話履歴に発話内容に別称が含まれるか否かを示す情報と、これらの情報を取得した日時とが互いに対応付けられた乗員毎の情報である。
また、対話管理部223は、音声ストリームから得られる特徴情報を用いて、パーソナルプロファイル254と照合を行うことで、乗員を特定してもよい。この場合、パーソナルプロファイル254には、例えば、音声の特徴情報が更に応付けられている。音声の特徴情報とは、例えば、声の高さ、イントネーション、リズム(音の高低のパターン)等の喋り方の特徴や、メル周波数ケプストラム係数(Mel Frequency Cepstrum Coefficients)等による特徴量に関する情報である。音声の特徴情報は、例えば、乗員の初期登録時に所定の単語や文章等を乗員に発声させ、発声させた音声を認識することで得られる情報である。
対話管理部223は、コマンドがネットワークNWを介して検索可能な情報を要求するものである場合、ネットワーク検索部224に検索を行わせる。ネットワーク検索部224は、ネットワークNWを介して各種ウェブサーバ300にアクセスし、所望の情報を取得する。「ネットワークNWを介して検索可能な情報」とは、例えば、車両Mの周辺にあるレストランの一般ユーザによる評価結果であったり、その日の車両Mの位置に応じた天気予報であったりする。なお、ナビゲーション装置40が記憶する地図情報に、車両Mの乗員が目的地として指定した立ち寄り地点(この場合、「ワクワクバーガー」)についての情報が含まれていない場合、対話管理部223は、車両Mの周辺に存在する立ち寄り地点の位置をネットワーク検索部224に検索させてもよい。
履歴管理部225は、音声認識部220に認識された発話内容、自然言語処理部221に生成されたコマンド、特定部222に更新されたコマンド、及び対話管理部223に決定された応答内容等に基づいて、パーソナルプロファイル254を更新する。履歴管理部225は、例えば、音声認識部220によって車両Mの乗員の発話が認識される度に、パーソナルプロファイル254を更新する。この場合、パーソナルプロファイル254は、「履歴情報」の一例である。
応答内容生成部226は、対話管理部223により決定された発話の内容が車両Mの乗員に理解されるように、応答文を生成し、生成した応答文(応答内容の一例)をエージェント装置100に送信する。また、応答内容生成部226は、乗員認識装置80による認識結果をエージェント装置100から取得し、取得した認識結果によりコマンドを含む発話を行った乗員がパーソナルプロファイル254に登録された乗員であることが特定されている場合に、乗員の名前を呼んだり、乗員の話し方に似せた話し方にしたりした応答文を生成してもよい。
また、応答内容生成部226は、別称辞書252Cとパーソナルプロファイル254を参照し、車両Mの乗員が、別称をよく用いる場合には、別称を用いた応答文を生成してもよく、車両Mの乗員がこれまでに用いた別称を用いて応答文を生成してもよい。
エージェント機能部130は、応答文を取得すると、音声合成を行って音声を出力するように音声制御部124に指示する。また、エージェント機能部130は、応答文を含む画像等を表示するように表示制御部122に指示する。
[応答内容の例(その1)]
以下、図面を参照して応答内容の例について説明する。まず、応答内容の例(その1)について説明する。図6は、表示・操作装置20により出力される応答内容の一例(その1)を示す図である。図6において、車両Mの乗員の発話内容UC1は、ナビゲーション装置40に設定する目的地を「ワクワクバーガー」にすることを、別称を用いてエージェントに指示する内容である。具体的には、発話内容UC1は、「目的地をワックに設定して」等の内容である。エージェントシステム1のエージェント装置100は、音響処理部112によって処理された音声ストリームを生成し、エージェントサーバ200に送信する。
エージェントサーバ200は、エージェント装置100から受信した音声ストリームに基づいて、音声認識部220が音声認識を行い、車両Mの乗員の発話内容を「目的地をワックに設定して」というテキストに変換する。自然言語処理部221は、音声認識部220によって認識されたテキストに基づいて、コマンドを生成する。特定部222は、自然言語処理部221によって生成されたコマンドに含まれる別称abb1(この一例では、「ワック」)を特定し、特定した別称を正式名称fn1(この一例では、「ワクワクバーガー」)に更新する。
応答内容生成部226は、対話管理部223により決定された応答内容に基づいて、車両Mの乗員に理解されるように応答文を生成し、生成した応答文をエージェント装置100に送信する。応答内容生成部226は、車両Mの乗員に応答する画像に含まれる応答内容、又は車両Mの乗員に応答する音声として出力する応答文のうち、少なくとも一方を生成する。以降の説明では、応答内容生成部226が、画像に含まれる応答文、及び音声として出力する応答文の両方を生成する場合について説明する。
応答内容(その1)では、対話管理部223は、応答内容として車両Mの乗員の発話内容を確認(復唱)することを決定し、応答内容生成部226は、発話内容を確認する画像に含まれる応答文と、音声として出力する応答文とを生成する。また、応答内容(その1)では、応答内容生成部226は、特定部222の特定結果と別称辞書252Cとに基づいて、正式名称fn1を用いた応答文RC1と、別称abb1を用いた応答文RC2とを生成してエージェント装置100に送信する。応答文RC1は、例えば、「目的地をワクワクバーガー(正式名称fn1)に設定します。」等の内容である。応答文RC2は、例えば、「目的地をワック(別称abb1)に設定します。」等の内容である。表示制御部122は、エージェントサーバ200から受信した応答文RC1を含む通知画像IMa1を生成し、表示・操作装置20のディスプレイ装置に表示させる。また、音声制御部124は、エージェントサーバ200から受信した応答文RC2の音声を生成し、スピーカ30から出力させる。
これにより、エージェントシステム1は、車両Mの乗員の発話内容が正しく認識できていることを、正式名称fn1を用いた応答文RC1を示す通知画像IMa1をディスプレイ装置に表示させ、簡潔にされた乗員の発話内容に対して適切に応答することができる。また、エージェントシステム1は、車両Mの乗員の発話として用いられる別称と同様の別称abb1を用いた応答文RC2を音声によってスピーカ30から出力させ、簡潔にされた乗員の発話内容に対して適切に応答することができる。
[応答内容の例(その2)]
次に、応答内容の例(その2)について説明する。図7は、表示・操作装置20により出力される応答内容の一例(その2)を示す図である。応答内容の例(その1)では、エージェントシステム1が車両Mの乗員の発話に含まれる別称を用いた音声による応答と、当該別称の正式名称を用いた画像による応答とを行う場合について説明した。応答内容の例(その2)では、エージェントシステム1が車両Mの乗員の発話に用いられる別称を用いた画像による応答と、当該別称の正式名称を用いた音声による応答とを行う場合について説明する。図7において、車両Mの乗員の発話内容UC1は、ナビゲーション装置40に設定する目的地を「ワクワクバーガー」にすることを、別称を用いてエージェントに指示する内容である。
応答内容の例(その2)では、対話管理部223は、応答内容として車両Mの乗員の発話内容を確認(復唱)することを決定し、応答内容生成部226は、発話内容を確認する画像に含まれ、且つ音声として出力する応答文を生成する。また、応答内容の例(その2)では、応答内容生成部226は、特定部222の特定結果と別称辞書252Cとに基づいて、別称abb1を用いた応答文RC2を生成してエージェント装置100に送信する。表示制御部122は、エージェントサーバ200から受信した応答文RC2を含む通知画像IMa2を生成し、表示・操作装置20のディスプレイ装置に表示させる。また、音声制御部124は、上述した応答内容の例(その1)に係る処理によって生成された応答文RC1をエージェントサーバ200から受信し、受信した応答文RC1の音声を生成し、スピーカ30から出力させる。
これにより、エージェントシステム1は、車両Mの乗員の発話内容が正しく認識できていることを、別称abb1を用いた応答文RC2を示す通知画像IMa2をディスプレイ装置に表示させ、且つ応答文RC1の音声をスピーカ30に出力させることによって示し、簡潔にされた乗員の発話内容に対して適切に応答することができる。
なお、応答内容生成部226は、パーソナルプロファイル254を参照し、車両Mの乗員が以前にも繰り返し(例えば、所定回数以上)別称abb1を用いる場合にのみ、別称abb1を用いた応答文RC2を生成するものであってもよい。また、応答内容生成部226は、通知画像IMa、又は音声の一方で別称abb1を用いた応答文RC2を通知する場合、他方では正式名称fn1を用いた応答文RC1を通知するものであってもよい。これにより、応答内容生成部226は、通知画像IMa、又は音声の一方では応答内容を正確に伝えつつ、他方では応答内容を簡潔に伝えることができる。
[応答内容の例(その3)]
次に、応答内容の例(その3)について説明する。図8は、表示・操作装置20により出力される応答内容の一例(その3)を示す図である。応答内容の例(その2)では、エージェントシステム1が特定した正式名称を用いた音声による応答と、車両Mの乗員の発話に用いられた別称を用いた画像による応答とを行う場合について説明した。応答内容の例(その3)では、車両Mの乗員が繰り返し別称を用いる場合に、より簡潔な応答文RC3を生成する場合について説明する。図8において、車両Mの乗員の発話内容UC1は、ナビゲーション装置40に設定する目的地を「ワクワクバーガー」にすることを、別称を用いてエージェントに指示する内容である。
応答内容の例(その3)では、対話管理部223は、応答内容として車両Mの乗員の発話内容を確認(復唱)することを決定し、応答内容生成部226は、発話内容を確認する画像に含まれ、且つ音声として出力する応答文を生成する。また、応答内容の例(その3)では、応答内容生成部226は、特定部222の特定結果と別称辞書252Cとパーソナルプロファイル254とに基づいて、パーソナルプロファイル254の発話履歴に別称が含まれる頻度が高くなるほど、より簡潔な応答文RC3を生成してエージェント装置100に送信する。応答文RC3は、例えば、別称abb1を含み、応答文RC2よりも短い(簡潔な)文、又は語句により示される内容である。図8において、応答文RC3は、例えば、「目的地:ワック(別称abb1)」等の内容である。表示制御部122は、エージェントサーバ200から受信した応答文RC3を含む通知画像IMa3を生成し、表示・操作装置20のディスプレイ装置に表示させる。また、音声制御部124は、エージェントサーバ200から受信した応答文RC3の音声を生成し、スピーカ30から出力させる。
これにより、エージェントシステム1は、車両Mの乗員が別称をよく用いて、簡潔な応答を好む人物である場合には、別称abb1を用いた応答文RC3を示す通知画像IMa3をディスプレイ装置に表示させ、且つ応答文RC3の音声をスピーカ30に出力させることによって速く伝達することができ、乗員のこれまでの発話内容に適した応答することができる。
なお、応答内容生成部226は、通知画像IMa、又は音声の一方で別称abb1を用いた応答文RC3を通知する場合、他方では正式名称fn1を用いた応答文RC1、又は別称abb1を用いた(応答文RC3よりも長い)応答文RC2を通知するものであってもよい。これにより、応答内容生成部226は、通知画像IMa、又は音声の一方では応答内容を適切に伝えつつ、他方では応答内容を簡潔に伝えることができる。
また、音声認識部220により認識された認識結果が、正式名称fn1を含む応答文RC1の音声がスピーカ30から出力されている際(つまり、応答中)に、車両Mの乗員の発話があったことが認識(解釈)されたことを示す場合、応答内容生成部226は、より簡潔な応答内容(つまり、応答文RC3)を生成するものであってもよい。これにより、応答内容生成部226は、車両Mの乗員が応答中に割り込んで発話するせっかちな人物であることが推定される場合に、優先的に別称を使用してより簡潔な応答文RC2〜RC3により応答させることができる。
[応答内容の例(その4)]
次に、応答内容の例(その4)について説明する。図9は、表示・操作装置20により出力される応答内容の一例(その4)を示す図である。応答内容の例(その3)では、車両Mの乗員が繰り返し別称を用いる場合に、より簡潔な応答文RC3を生成する場合について説明した。応答内容の例(その4)では、別称が用いられる地域と車両Mの位置とに応じた応答文RC4を生成する。図9において、車両Mの乗員の発話内容UC2は、ナビゲーション装置40に設定する目的地を「ドレミラーメン」にすることを、別称を用いてエージェントに指示する内容である。
まず、応答内容の例(その4)では、エージェント機能部130は、音声ストリームに加えて、ナビゲーション装置40が備える位置測位装置によって特定された車両Mの位置を示す情報をエージェントサーバ200に送信する。
応答内容の例(その4)では、対話管理部223は、応答内容として車両Mの乗員の発話内容を確認(復唱)することを決定し、発話内容を確認する画像に含まれ、且つ音声として出力する応答文を生成する。また、応答内容の例(その4)では、応答内容生成部226は、特定部222の特定結果と、別称辞書252Cとに基づいて、特定結果に別称が含まれる場合、当該別称が用いられる地域を特定する。図9において、発話内容UC2に含まれる別称abb2は、「ドレミ」であり、別称辞書252Cには、別称abb2(「ドレミ」)が、「関西」と、「関東」とにおいて用いられることが示されている。応答内容生成部226は、特定した地域と、車両Mの位置情報とに基づいて、車両Mの位置に対応する正式名称fn2を用いた応答文RC4を生成してエージェント装置100に送信する。図9において、車両Mの位置は「関東」であるため、応答内容生成部226は、正式名称fn2として「ドレミラーメン」を特定し、「目的地をドレミラーメン(正式名称fn2)に設定します」等の応答文RC4を生成する。表示制御部122は、エージェントサーバ200から受信した応答文RC4を含む通知画像IMa4を生成し、表示・操作装置20のディスプレイ装置に表示させる。
これにより、エージェントシステム1は、車両Mの乗員の状況(存在する地域)に対応する別称abb2の正式名称fn2を用いた応答文RC4を示す通知画像IMa4をディスプレイ装置に表示させることによって、乗員の特徴に応じた応答をすることができる。
また、上述の例(その4)において、図9において「目的地をトーダイに設定して」と発話する場合も考えられる。発話内容UC2に含まれる別称abb2は、「東大」「灯台」(図4参照)であり、別称辞書252Cには、別称abb2(「東大」「灯台」)が、特定の地域に限らず用いられる「−」と、「神奈川県横須賀市」または「東京都千代田区」等々とにおいて用いられることが示されている。応答内容生成部226は、特定した地域と、車両Mの位置情報とに基づいて、車両Mの位置に対応する正式名称fn2を用いた応答文RC4を生成してエージェント装置100に送信する。図4において、車両Mの位置が「神奈川県横須賀市」「東京都千代田区」等々の以外であれば、応答内容生成部226は、正式名称fn2として「東京大学」を特定し、「目的地を東京大学(正式名称fn2)に設定します」等の応答文RC4を生成する。表示制御部122は、エージェントサーバ200から受信した応答文RC4を含む通知画像IMa4を生成し、表示・操作装置20のディスプレイ装置に表示させる。
なお、応答内容生成部226は、パーソナルプロファイル254と、別称辞書252Cとを参照し、特定した別称が用いられる地域と、車両Mの乗員の出身地に基づいて、車両Mの乗員の出身地に対応する正式名称fn3を用いた応答文RC5を生成してもよい。この場合、応答内容生成部226は、パーソナルプロファイル254に含まれる個人情報に基づいて、車両Mの乗員の出身地を特定する。そして、応答内容生成部226は、別称辞書252Cに基づいて特定した別称が用いられる地域のうち、車両Mの乗員の出身地に対応する正式名称fn3を特定する。車両Mの乗員が「関西」出身である場合、応答内容生成部226は、正式名称fn3として「ドレミドーナッツ」を特定し、「目的地をドレミドーナッツ(正式名称fn3)に設定します」等の応答文RC5を生成する。これにより、エージェントシステム1は、車両Mの乗員の状況(出身地)に対応する別称abb2の正式名称fn3を用いた応答文RC5を示す通知画像IMa(不図示)をディスプレイ装置に表示させることによって、乗員の特徴に応じた応答をすることができる。
また、応答内容生成部226は、パーソナルプロファイル254と、別称辞書252Cとを参照し、特定した別称が用いられる地域と、車両Mの乗員の出身地や出身校に基づいて、車両Mの乗員の出身校に対応する正式名称fn3を用いた応答文RC5を生成してもよい。この場合、応答内容生成部226は、パーソナルプロファイル254に含まれる個人情報に基づいて、車両Mの乗員の出身校を特定する。そして、応答内容生成部226は、別称辞書252Cに基づいて特定した別称が用いられる地域のうち、車両Mの乗員の出身校に対応する正式名称fn3を特定する。車両Mの乗員が「東京大学」出身である場合、応答内容生成部226は、正式名称fn3として「東京大学」を特定し、「目的地を東京大学(正式名称fn3)に設定します」等の応答文RC5を生成する。これにより、エージェントシステム1は、車両Mの乗員の状況(出身校)に対応する別称abb2の正式名称fn3を用いた応答文RC5を示す通知画像IMa(不図示)をディスプレイ装置に表示させることによって、乗員の特徴に応じた応答をすることができる。
[複数の応答文RCを生成する場合]
また、上述した処理により、応答内容生成部226が、応答文RC1、及び応答文RC2、又は応答文RC2、及び応答文RC3等の複数の応答文RCを生成する場合、表示制御部122、及び音声制御部124は、情報量(文字数・モーラ数)が多い方の応答文RCを表示・操作装置20のディスプレイ装置に表示させ、情報量(モーラ数・文字数)が少ない方の応答文RCをスピーカ30に出力させてもよい。ここで、車両Mの乗員は、同じ情報量(モーラ数・文字数)の応答文RCであっても、画像によって応答される場合と、音声によって応答される場合とでは、画像によって応答される方が応答文RCを短時間で認識し易い場合がある。したがって、エージェントシステム1の表示制御部122、及び音声制御部124は、情報量(文字数・モーラ数)が多い方の応答文RCを表示・操作装置20のディスプレイ装置に表示させることにより、車両Mの乗員に分かりやすく応答することができる。
[動作フロー]
図10は、エージェントシステム1の一連の動作の一例を示すフローチャートである。本フローチャートの処理は、例えば、所定周期或いは所定のタイミングで繰り返し実行されてよい。また、図10の例では、エージェント装置100により実行される処理のうち、主にウエイクアップワードによりエージェントを起動し、乗員の発話に含まれる要求に応答する処理について説明するものとし、エージェント装置100のエージェント機能部130と協働して実行されるエージェントサーバ200の処理も含めて説明するものとする。
図10の例において、まず、エージェントWU判定部114は、ウエイクアップワードに対応付けられたエージェント(エージェント機能部130)を起動させる(ステップS100)。次に、音響処理部112は、マイク10等により音声を受け付けたか否かを判定する(ステップS102)。音声を受け付けた場合、音響処理部112は、受け付けた音声に対して発話内容を認識するのに適した状態になるように音響処理を行う(ステップS104)。音響処理された音声は、車載通信装置50によってエージェント機能部130からエージェントサーバ200に送信される。音響処理部112は、「取得部」の一例である。
エージェントサーバ200の音声認識部220は、受け付けた音声の認識を行い、音声をテキスト化する(ステップS106)。次に、自然言語処理部221は、テキスト化された文字情報に対する自然言語処理を実行し、文字情報の意味解析を行う(ステップS108)。次に、自然言語処理部221は、意味解釈結果に対応する機能を抽出し、エージェント装置100が処理可能なコマンドを生成する(ステップS110)。次に、特定部222は、別称辞書252Cに基づいて、自然言語処理部221により生成(解釈)されたコマンドに別称が含まれるか否かを判定する(ステップS112)。応答内容生成部226は、特定部222によってコマンドに別称が含まれていないと判定された場合、対話管理部223やネットワーク検索部224に決定された応答内容に基づいて、別称を用いない応答文RC1を生成する(ステップS114)。応答内容生成部226は、特定部222によってコマンドに別称が含まれていると判定された場合、対話管理部223やネットワーク検索部224に決定された応答内容に基づいて、別称を用いた応答文RC2〜RC3を生成する(ステップS116)。ステップS116の処理の詳細については、後述する。
応答内容生成部226は、対話管理部223やネットワーク検索部224に決定されたコマンドをエージェント装置100に送信し、コマンドに対応する機能を実行させる(ステップS118)。応答内容生成部226は、生成した応答内容をエージェント装置100に送信し、エージェント機能部130は、エージェントサーバ200から取得した応答結果を出力部に出力させる(ステップS120)。履歴管理部225は、応答内容生成部226により生成された応答文RC1〜RC3に基づいて、パーソナルプロファイル254を更新する(ステップS122)。ステップS120の処理後、またはステップS120の処理において音声を受け付けていない場合、エージェント機能部130は、エージェントの処理を終了させるか否かを判定する(ステップS124)。エージェントを終了させないと判定された場合には、ステップS102の処理に戻る。また、また、エージェントを終了させると判定された場合、管理部110は、エージェントを終了させる(ステップS126)。エージェントを終了させる場合には、例えば、エージェントを終了させる終了ワードの音声を受け付けた場合、エージェントを終了させる車載スイッチが押された場合、マイク10が音声を受け付けない状態が所定時間以上継続した場合等が含まれる。本フローチャートの処理は終了する。
図11は、応答文RCの生成処理の一例を示すフローチャートである。図11に示すフローチャートは、図10に示されるステップS116の処理の詳細を示すフローチャートである。まず、応答内容生成部226は、パーソナルプロファイル254に基づいて、発話した車両Mの乗員が、これまでに特定部222によって特定された別称を繰り返し用いているか否かを判定する(ステップS200)。応答内容生成部226は、発話した車両Mの乗員がこれまでに特定部222によって特定された別称を繰り返し用いていないと判定した場合、当該乗員には別称を用いない応答をすることが好ましいとみなし、別称辞書252Cに基づいて、当該別称に対応する正式名称を特定して、応答文RC1を生成する(ステップS202)。
応答内容生成部226は、発話した車両Mの乗員がこれまでに特定部222によって特定された別称を繰り返し用いていると判定した場合、パーソナルプロファイル254に示される当該乗員の発話履歴に基づいて、当該乗員が別称を用いる頻度が高い(つまり、頻度が所定の基準以上)であるか否かを判定する(ステップS204)。応答内容生成部226は、頻度が高くないと判定した場合、当該乗員は、特定部222によって特定された別称を用いて応答するものの、あまり別称を用いない人物であるとみなし、別称を用いる応答文RC2と、別称を用いない応答文RC1とを生成する(ステップS206)。この時、応答文RC2に含まれる別称は、車両Mの位置、又は車両Mの乗員の出身地に応じた別称であってもよい。また、応答内容生成部226は、頻度が高いと判定した場合、当該乗員は、特定部222によって特定された別称以外にも、別称を好んで使用する人物であるとみなし、より簡潔な応答として応答文RC3と、応答文RC2とを生成する(ステップS208)。この時、応答文RC3に含まれる別称は、車両Mの位置、又は車両Mの乗員の出身地に応じた別称であってもよい。
[エージェント装置100とエージェントサーバ200とを合わせた構成]
なお、上述では、エージェント装置100と、エージェントサーバ200とが別体によって構成される場合について説明したが、これに限られない。エージェント装置100と、エージェントサーバ200とは一体に構成されていてもよい。図12は、エージェントサーバ200の機能を備えるエージェント装置100Aの構成の一例を示す図である。エージェント装置100Aは、エージェント装置100が備えるエージェント機能部130に代えて(或いは、加えて)、エージェント機能部130Aを備える。エージェント機能部130Aは、例えば、音声認識部220と、自然言語処理部221と、特定部222と、対話管理部223と、ネットワーク検索部224と、履歴管理部225と、応答内容生成部226とをその機能部として備える。これらの機能部が実行する処理は、上述した処理と同様であるため、説明を省略する。また、エージェント装置100Aは、エージェント装置100が備える記憶部150に代えて(或いは、加えて)、記憶部250Aを備える。記憶部250Aには、例えば、エージェント装置100Aにおいて実行されるプログラムの他、辞書DB252(機能辞書252A、汎用辞書252B、及び別称辞書252Cを含む)と、パーソナルプロファイル254と、知識ベースDB256と、応答規則DB258との情報が記憶される。エージェント装置100Aによれば、ネットワークを介した通信を行わずとも、上述した処理を実行することができる。
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。
1…エージェントシステム、10…マイク、20…表示・操作装置、30…スピーカ、40…ナビゲーション装置、50…車載通信装置、70…汎用通信装置、80…乗員認識装置、100…エージェント装置、110…管理部、112…音響処理部、114…エージェントWU判定部、116…通信制御部、120…出力制御部、122…表示制御部、124…音声制御部、130…エージェント機能部、140…車載通信部、150…記憶部、172…通信量情報、174…履歴情報、200…エージェントサーバ、210…通信部、220…音声認識部、221…自然言語処理部、222…特定部、223…対話管理部、224…ネットワーク検索部、225…履歴管理部、226…応答内容生成部、250…記憶部、252A…機能辞書、252B…汎用辞書、252C…別称辞書、254…パーソナルプロファイル、300…各種ウェブサーバ、252…辞書DB、256…知識ベースDB、258…応答規則DB、abb1、abb2…別称、fn1、fn2、fn3…正式名称、IMa、IMa1、IMa2、IMa3、IMa4…通知画像、RC、RC1、RC2、RC3、RC4、RC5…応答文、UC1、UC2…発話内容

Claims (13)

  1. 視覚情報又は聴覚情報の少なくともどちらか一方を通知するために、音声出力部及び表示部を有する通知部と、
    利用者の発話の音声を示すデータを取得する取得部と、
    前記取得部により取得された前記データに基づいて、前記利用者の発話内容を解釈する発話内容解釈部と、
    前記発話内容に対する応答内容を生成し、前記表示部に出力させる応答内容生成部と、
    正式名称と、該正式名称における略称、略語、省略語、及び短縮語が含まれるものである別称とが、対応付けられた辞書情報に基づいて、前記発話内容解釈部により解釈された前記発話内容に含まれる前記別称に対応する正式名称を特定する特定部と、
    前記特定部により特定された正式名称を前記表示部に表示させる表示制御部と、
    を備える通知制御システム。
  2. 視覚情報又は聴覚情報の少なくともどちらか一方を通知するために、音声出力部及び表示部を有する通知部と、
    利用者の発話の音声を示すデータを取得する取得部と、
    前記取得部により取得された前記データに基づいて、前記利用者の発話内容を解釈する発話内容解釈部と、
    前記発話内容に対する応答内容を生成し前記音声出力部に出力させる応答内容生成部と、
    正式名称と、該正式名称における略称、略語、省略語、及び短縮語が含まれるものである別称とが、対応付けられた辞書情報に基づいて、前記発話内容解釈部により解釈され前記発話内容に含まれる前記別称に対応する正式名称を特定する特定部と、
    前記特定部により特定された正式名称を前記音声出力部に出力させる音声制御部と、
    を備える通知制御システム。
  3. 前記応答内容生成部は、前記別称を用いて前記発話内容に対する応答内容を生成する、
    請求項1または2に記載の通知制御システム。
  4. 視覚情報又は聴覚情報の少なくともどちらか一方を通知するために、音声出力部及び表示部を有する通知部と、
    利用者の発話の音声を示すデータを取得する取得部と、
    前記取得部により取得された前記データに基づいて、前記利用者の発話内容を解釈する発話内容解釈部と、
    前記発話内容に対する応答内容を生成し前記通知部に出力させる応答内容生成部と、
    正式名称と、該正式名称における略称、略語、省略語、及び短縮語が含まれるものである別称とが、対応付けられた辞書情報に基づいて、前記発話内容解釈部により解釈され前記発話内容に含まれる前記別称に対応する正式名称を特定する特定部と、
    前記特定部により特定された前記正式名称を前記表示部に表示させる表示制御部と、
    前記特定部により特定された前記別称を前記音声出力部に出力させる音声制御部と、
    を備える通知制御システム。
  5. 前記応答内容生成部は、前記音声出力部に出力させる前記応答内容のモーラ数と、該音声出力部に出力させる応答内容のモーラ数に対応する前記表示部に表示させる該応答内容における文字数とを比較して、該モーラ数と比較して該文字数が多くなるように、当該表示部に表示させる該応答内容を生成する、
    請求項4に記載の通知制御システム。
  6. 前記特定部により前記別称が特定された履歴を示す履歴情報を記憶部に記憶させる履歴管理部を更に備え、
    前記応答内容生成部は、前記履歴情報に基づいて、前記応答内容を生成する、
    請求項1から5のうちいずれか一項に記載の通知制御システム。
  7. 前記応答内容生成部は、前記履歴情報を参照し、前記別称が繰り返し使用されている場合に、前記別称を用いて応答内容を生成する、
    請求項6に記載の通知制御システム。
  8. 前記応答内容生成部は、前記特定部により前記別称が特定された頻度が高くなるほど、前記応答内容を簡潔にする、
    請求項1から7のうちいずれか一項に記載の通知制御システム。
  9. 前記辞書情報には、前記別称に対して、前記別称が用いられる地域を示す情報が更に対応付けられており、
    前記取得部は、前記利用者の位置を示す位置情報を更に取得し、
    前記特定部は、前記辞書情報において、前記発話内容解釈部により解釈された前記発話内容に含まれる前記別称に対して前記地域を示す情報が対応づけられており、且つ前記位置情報が前記地域を示す情報に合致する場合に、前記別称に対応する前記正式名称を特定する、
    請求項1から8のうちいずれか一項に記載の通知制御システム。
  10. 前記応答内容生成部は、
    前記別称または前記正式名称を用いて前記発話内容に対する応答内容を生成し、
    前記発話内容解釈部により前記応答内容の応答中に前記利用者の発話が有ったことが解釈された場合に前記別称を優先的に使用する、
    請求項1から9のうちいずれか一項に記載の通知制御システム。
  11. 視覚情報又は聴覚情報の少なくともどちらか一方を通知するために、音声出力部及び表示部に接続される通知制御装置であって、
    利用者の発話の音声を示すデータを取得する取得部と、
    前記取得部により取得された前記データに基づいて、前記利用者の発話内容を解釈する発話内容解釈部と、
    前記発話内容に対する応答内容を生成し前記音声出力部に出力させる応答内容生成部と、
    正式名称と、該正式名称における略称、略語、省略語、及び短縮語が含まれるものである別称とが対応付けられた辞書情報に基づいて、前記発話内容解釈部により解釈され前記発話内容に含まれる前記別称に対応する正式名称を特定する特定部と、
    前記特定部により特定された正式名称を前記表示部に表示させる音声制御部と、
    を備える通知制御装置。
  12. 単一または複数のコンピュータが実行する、
    利用者の発話の音声を示す音声データを取得するステップと、
    音声データに基づいて前記利用者の発話内容を解釈するステップと、
    正式名称と、該正式名称における略称、略語、省略語、及び短縮語が含まれるものである別称とが対応付けられた辞書情報に基づいて、解釈され前記発話内容に含まれる前記別称に対応する正式名称を特定するステップと、
    前記発話内容に対する応答内容を生成し通知部に出力させるステップと、
    特定された前記正式名称を前記通知部に出力するステップと、
    を有する通知制御方法。
  13. 単一または複数のコンピュータにインストールされるための通知制御プログラムであって、
    利用者の発話の音声を示す音声データを取得する処理と、
    音声データに基づいて前記利用者の発話内容を解釈する処理と、
    正式名称と、該正式名称における略称、略語、省略語、及び短縮語が含まれるものである別称とが対応付けられた辞書情報に基づいて、解釈され前記発話内容に含まれる前記別称に対応する正式名称を特定する処理と、
    前記発話内容に対する応答内容を生成し通知部に出力させる処理と、
    特定された前記正式名称を前記通知部に出力する処理と、
    を前記コンピュータに実行させる通知制御プログラム。
JP2019146804A 2019-08-08 2019-08-08 通信制御システム、通知制御方法、及び通信制御プログラム Pending JP2021026188A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2019146804A JP2021026188A (ja) 2019-08-08 2019-08-08 通信制御システム、通知制御方法、及び通信制御プログラム
CN202010775363.8A CN112349284A (zh) 2019-08-08 2020-08-04 通知控制系统、通知控制装置、通知控制方法及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019146804A JP2021026188A (ja) 2019-08-08 2019-08-08 通信制御システム、通知制御方法、及び通信制御プログラム

Publications (1)

Publication Number Publication Date
JP2021026188A true JP2021026188A (ja) 2021-02-22

Family

ID=74357600

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019146804A Pending JP2021026188A (ja) 2019-08-08 2019-08-08 通信制御システム、通知制御方法、及び通信制御プログラム

Country Status (2)

Country Link
JP (1) JP2021026188A (ja)
CN (1) CN112349284A (ja)

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH045694A (ja) * 1990-04-23 1992-01-09 Oki Electric Ind Co Ltd 規則合成装置
EP0543329B1 (en) * 1991-11-18 2002-02-06 Kabushiki Kaisha Toshiba Speech dialogue system for facilitating human-computer interaction
JPH10260976A (ja) * 1997-03-18 1998-09-29 Ricoh Co Ltd 音声対話方法
JP4554272B2 (ja) * 2004-05-25 2010-09-29 三菱電機株式会社 音声対話装置
JP4277746B2 (ja) * 2004-06-25 2009-06-10 株式会社デンソー カーナビゲーション装置
JP2006330577A (ja) * 2005-05-30 2006-12-07 Alpine Electronics Inc 音声認識装置及び音声認識方法
JP4790024B2 (ja) * 2006-12-15 2011-10-12 三菱電機株式会社 音声認識装置
JP5045201B2 (ja) * 2007-04-20 2012-10-10 船井電機株式会社 ナビゲーション装置
CN101158584B (zh) * 2007-11-15 2011-01-26 熊猫电子集团有限公司 车载gps的语音目的地导航实现方法
JP5240547B2 (ja) * 2007-12-20 2013-07-17 アイシン・エィ・ダブリュ株式会社 目的地入力装置及び目的地入力用プログラム
JP5013266B2 (ja) * 2007-12-20 2012-08-29 アイシン・エィ・ダブリュ株式会社 目的地入力装置及び目的地入力用プログラム
CN101685021B (zh) * 2008-09-24 2012-12-26 高德软件有限公司 一种兴趣点信息获取方法及装置
JP5697860B2 (ja) * 2009-09-09 2015-04-08 クラリオン株式会社 情報検索装置,情報検索方法及びナビゲーションシステム
US9230556B2 (en) * 2012-06-05 2016-01-05 Apple Inc. Voice instructions during navigation
EP3101392B1 (en) * 2013-03-15 2021-12-15 Apple Inc. Mapping application with turn-by-turn navigation mode for output to vehicle display

Also Published As

Publication number Publication date
CN112349284A (zh) 2021-02-09

Similar Documents

Publication Publication Date Title
US11508370B2 (en) On-board agent system, on-board agent system control method, and storage medium
US20200319841A1 (en) Agent apparatus, agent apparatus control method, and storage medium
US11518398B2 (en) Agent system, agent server, method of controlling agent server, and storage medium
US11608076B2 (en) Agent device, and method for controlling agent device
JP7274903B2 (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
JP2020144264A (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
JP2020152183A (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
JP2020162003A (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
JP2020144275A (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
US11542744B2 (en) Agent device, agent device control method, and storage medium
JP2021026188A (ja) 通信制御システム、通知制御方法、及び通信制御プログラム
JP7175221B2 (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
JP2021033929A (ja) 制御システム、及び制御方法
JP2020160133A (ja) エージェントシステム、エージェントシステムの制御方法、およびプログラム
JP2020152298A (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
CN112995270B (zh) 智能体系统、智能体系统的控制方法及存储介质
JP7217209B2 (ja) 音声対話装置、音声対話方法、及びプログラム
US11355114B2 (en) Agent apparatus, agent apparatus control method, and storage medium
JP2020142758A (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
JP7274376B2 (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
JP2020144712A (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
JP2020148583A (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
US11518399B2 (en) Agent device, agent system, method for controlling agent device, and storage medium
JP7280074B2 (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
JP7297483B2 (ja) エージェントシステム、サーバ装置、エージェントシステムの制御方法、およびプログラム