JP7207425B2 - 対話装置、対話システムおよび対話プログラム - Google Patents

対話装置、対話システムおよび対話プログラム Download PDF

Info

Publication number
JP7207425B2
JP7207425B2 JP2020560701A JP2020560701A JP7207425B2 JP 7207425 B2 JP7207425 B2 JP 7207425B2 JP 2020560701 A JP2020560701 A JP 2020560701A JP 2020560701 A JP2020560701 A JP 2020560701A JP 7207425 B2 JP7207425 B2 JP 7207425B2
Authority
JP
Japan
Prior art keywords
information
unit
input
occupant
taro
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020560701A
Other languages
English (en)
Other versions
JPWO2020129182A1 (ja
Inventor
英也 井上
正永 中村
孝幸 糟谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nikon Corp
Original Assignee
Nikon Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nikon Corp filed Critical Nikon Corp
Publication of JPWO2020129182A1 publication Critical patent/JPWO2020129182A1/ja
Application granted granted Critical
Publication of JP7207425B2 publication Critical patent/JP7207425B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • G01C21/3605Destination input or retrieval
    • G01C21/3608Destination input or retrieval using speech input, e.g. using speech recognition
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • G01C21/3605Destination input or retrieval
    • G01C21/3617Destination input or retrieval using user history, behaviour, conditions or preferences, e.g. predicted or inferred from previous use or current movement
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/59Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Automation & Control Theory (AREA)
  • Social Psychology (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Navigation (AREA)

Description

本発明は、対話装置、対話システムおよび対話プログラムに関する。
いわゆるAIスピーカ(AIアシスタント機能を備えるスピーカ)と呼ばれる対話装置の周囲の人に向けて、指向性を異ならせて音声を再生する技術が知られている(特許文献1参照)。しかしながら、他の人に知られたくない情報が再生される場合がある。
日本国特開2016-206646号公報
本発明の第1の態様によると、対話機能を有する対話装置は、発話者と音声対話を行う対話装置であって、前記発話者の周囲の対象者を認識する認識部と、情報を音声により入出力する入出力部と、前記入出力部に入力された第1情報に応答する第2情報を生成する情報生成部と、前記第1情報を発した発話者を特定する特定部と、前記第2情報が前記特定部で特定された発話者にとって好ましい情報か否かを判断し、好ましいと判断された前記第2情報を前記入出力部から出力させる制御部とを備える。
本発明の第2の態様によると、対話機能を有する対話システムは、質問を認識し、前記質問に対する回答を出力する対話システムにおいて、標準的な第1回答を出力する第1回答モードと、周囲環境を考慮した第2回答を出力する第2回答モードと、を有する対話部と、質問者のジェスチャーを認識する認識部と、前記ジェスチャーが認識された場合、前記第1回答モードから前記第2回答モードへ切り替える制御を行う制御部とを備える。
本発明の第3の態様によると、対話プログラムは、発話者と音声対話を行う対話装置に搭載されるコンピュータに実行させるプログラムであって、周囲の環境を認識する処理と、情報を入力する処理と、前記入力された第1情報に応答する第2情報を生成する処理と、前記第1情報を発した発話者を特定する処理と、前記第2情報が、前記認識された周囲の環境もしくは前記特定された発話者にとって好ましい情報か否かを判断し、好ましいと判断された前記第2情報を出力する処理と、を実行させる。
第1の実施の形態における対話システムの構成を例示する図である。 入出力装置の構成を例示する図である。 人工知能の構成を例示する図である。 データベースの構成を例示する図である。 対話システムが実行する動作の流れを説明するフローチャートである。 プログラムの提供を説明する図である。
図1は、一実施の形態における対話システムの構成を例示する図である。
本実施の形態では、車両の乗員が、音声によりナビゲーション装置200に案内を要求する状況を例に説明する。対話システムは、入出力装置10、人工知能(Artificial Intelligence)110、データベース120、およびナビゲーション装置200により構成される。入出力装置10、人工知能110、データベース120は、ネットワーク100を介して接続されている。
なお、入出力装置10およびナビゲーション装置200は、一体に構成してもよい。一体に構成した場合、一体構成したナビゲーション装置200がネットワーク100に接続される。
また、ナビゲーション装置200を設ける代わりに、ナビゲーションサービスを提供するクラウドサーバーをネットワーク100に接続可能に設け、入出力装置10とクラウドサーバーとをネットワーク100を介して接続する構成にしてもよい。
<入出力装置10>
入出力装置10は、発話者が発した音声を入力するとともに、対話システムで合成された音声を出力する。図2は、入出力装置10の構成を例示する図である。入出力装置10は、入力部20、出力部30、認識部40、制御部50、通信部60、および情報選択部70を備える。
(入力部20)
入力部20は、入出力装置10のユーザ、本実施の形態では車両の乗員からの発話音声を受け付ける機能を有する。このため、入力部20は、音声を入力して電気的な音声信号に変換するマイクロフォン21と、入力された音声を認識する音声認識部22とを含んで構成される。音声認識部22は、入力された音声をテキスト情報に変換(テキスト化)することもできる。
なお、入力部20のマイクロフォン21は、たとえば、乗員の着座位置に合わせて集音できるように、複数台が配置されていてもよい。
(出力部30)
出力部30は、車両の乗員に対して音声情報や視覚情報を提供する機能を有する。このため、出力部30は、スピーカ31と表示部32を含んで構成される。スピーカ31は、音声情報として合成音声を再生する。合成音声は、出力部30により、たとえば上記テキスト情報を読み上げ処理するなどして生成される。出力部30は、入力された音声をテキスト情報に変換することなしに、音声信号に基づく再生音声をスピーカ31から再生させることもできる。
また、液晶ディスプレー装置などで構成される表示部32は、視覚情報としてテキスト画面を表示する。テキスト画面は、テキスト情報に基づいて生成される。
(認識部40)
認識部40は、車両の乗員の特定に用いられる情報を得るための画像認識機能を有する。このため、認識部40は、静止画像または動画像を撮像するカメラ41を含んで構成される。認識部40は、カメラ41によって撮像された画像に基づき、車内の人物の顔を認識し、顔部分の画像から得た特徴量情報を記憶する。記憶された特徴量情報は、乗員の特定に用いられる。
また、認識部40は、乗員のID、たとえば免許証等の情報(番号等)を取得する読み取り装置42を含んでもよい。認識部40は、読み取り装置42によって取得した情報と、カメラ41によって撮像された乗員の顔画像に基づく特徴量情報とを対応づけて記憶する。この対応付けは、たとえば、読み取り装置42による情報の取得と、カメラ41による乗員の撮像とを対でおこなうようなアルゴリズムを採用すればよい。記憶された、読み取り装置42による取得情報およびこの情報に対応づけられた特徴量情報は、乗員の特定に用いられる。
なお、認識部40に備えられるカメラ41は、1台に限定されない。カメラ41は、たとえば、車内の座席ごとに複数のカメラ41が配置されていてもよい。
(制御部50)
制御部50は、たとえばマイクロプロセッサ又はマイクロコンピュータ等により構成され、入出力装置10が備える各構成の動作を制御する機能を有する。制御部50は、入力部20による入力制御、出力部30による出力制御、認識部40による認識制御、通信部60による通信制御、情報選択部70による選択制御などを行う。
たとえば、制御部50は、入力部20を介して音声で入力された乗員の要求に基づき、通信部60を介して、ナビゲーション装置200に目的地の候補を探索させたり、目的地へルート案内させたりする。また、制御部50は、入力部20を介して音声で入力された乗員の要求に基づき、通信部60を介して、人工知能110に乗員要求に応じた応答文を生成させる。さらにまた、制御部50は、認識部40による認識結果に基づいて乗員を特定し、通信部60を介してデータベース120にアクセスし、特定した乗員に関する情報、すなわち乗員関連情報の読み書きを行う。データベース120から取得した乗員関連情報は、後述する情報選択部70によって応答文を選択する場合に用いられる。
(通信部60)
通信部60は、外部機器としてのナビゲーション装置200、人工知能110、およびデータベース120と通信を行う機能を有する。通信部60は、制御部50からの指示に基づき、ナビゲーション装置200に対して目的地を探索させる指示や、目的地へルート案内させる指示を送信する。また、通信部60は、制御部50からの指示に基づき、人工知能110との間で音声信号やテキスト情報を送受信する。さらにまた、通信部60は、制御部50からの指示に基づき、データベース120との間でデータを送受信する。通信部60とネットワーク100との間は、有線又は無線により接続可能である。
通信部60はさらに、乗員が携帯するスマートフォン(不図示)とBluetooh(登録商標)などの近距離無線通信を行うこともできる。
(情報選択部70)
情報選択部70は、出力部30から車両の乗員に提供される情報を選択する機能を有する。情報選択部70は、たとえば、ナビゲーション装置200によって複数の目的地が得られた場合には、乗員に提供する目的地を選択する。たとえば、情報選択部70は合理的な観点により、現在位置から近い目的地を選ぶ。
情報選択部70はさらに、人工知能110によって複数の応答文が生成された場合には、乗員に提供する応答文を選択する。たとえば、情報選択部70は、応答文の内容が車内の乗員の全員に知られてもよい情報か、全員には知られたくない情報かを判断することによって、乗員に提供する応答文を選択する。応答文が全ての乗員に知られてよいか、知られたくないかを判断する判断規則は、情報選択部70の情報記憶部71に格納されている。判断規則については後述する。
このように、情報選択部70は、人工知能110によって生成された応答文を車内で提供するか否かを判断する判断部としても機能する。
なお、入出力装置10は、マイクロフォン21、スピーカ31、カメラ41、および通信部60などを備えた電子機器であればよく、たとえばスマートフォンであってもよいし、AI(Artificial Intelligence)スピーカであってもよい。
<人工知能>
図3は、人工知能110の構成を例示する図である。人工知能110は、音声認識部111、回答生成部112、音声合成部113、制御部114、および通信部115を備える。
(音声認識部111)
音声認識部111は、通信部115によって受信された入出力装置10からの音声信号を入力し、入力された音声を認識する機能を有する。音声認識部111はさらに、入力された音声をテキスト情報に変換(テキスト化)する。なお、通信部115によって入出力装置10からのテキスト情報が受信された場合には、音声認識部111によるテキスト化処理は省略される。
(回答生成部112)
回答生成部112は、テキスト情報に基づいて、乗員の発話意図を抽出する機能を有する。たとえば、「イタリアンレストランへ行きたい。」、「イタリアンレストランへ案内して。」、「イタリアンレストランがいいな。」などの場合は、「イタリアンレストランを探して。」という発話意図とする。
また、回答生成部112は、「パスタを食べたい。」、「マルゲリータがいい。」、「カルパッチョを食べたい。」などの場合にも、「イタリアンレストランを探して。」という発話意図とする。テキスト情報と発話意図との関係性は、たとえば、ニューラルネットワーク、回帰モデルなどの機械学習手法、または統計的手法に基づいて設計することができる。
回答生成部112はさらに、抽出した発話意図に対して回答を生成する機能を有する。回答生成部112は、たとえば、「イタリアンレストランを探して。」という発話意図に対応して、「イタリアンレストランを探します。」という応答文を生成する。回答生成部112には、複数の発話意図と、それぞれに対応する応答文とが格納された情報記憶部112aを有する。応答文は、たとえば、テキスト化された応答テキスト情報として生成される。
(音声合成部113)
音声合成部113は、応答テキスト情報を読み上げ処理するなどして合成音声を生成する機能を有する。合成音声は、通信部115を介して入出力装置10へ送信される。
なお、入出力装置10から送信されたテキスト情報が通信部115によって受信されている場合には、音声合成部113による合成音声を生成する処理は省略される。そのため、回答生成部112で生成された応答テキスト情報が、通信部115を介して入出力装置10へ送信される。
(制御部114)
制御部114は、たとえばコンピュータ装置等により構成され、人工知能110が備える各構成の動作を制御する機能を有する。また、本実施の形態に係る制御部114は、各構成による処理の結果を構成間で連携する機能を有する。
(通信部115)
通信部115は、外部機器としての入出力装置10と通信を行う機能を有する。本実施の形態に係る通信部115は、たとえば、入出力装置10と音声信号を送受する音声通話を実現したり、入出力装置10とテキスト情報を送受したりする。
以上のように、図3を参照して説明した本実施の形態に係る人工知能110の機能構成は、あくまで一例であり、図3の例に限定されない。人工知能110が有する各機能は、上述した機械学習手法や統計的手法に基づいて設計される。また、上記にあげた各構成は、明確に分離して構成される必要はなく、選択するアルゴリズムや装置の性能などに応じて柔軟に設計してよい。また、人工知能110は、たとえば入出力装置10からの制御信号に基づいて、発話意図の抽出や応答文の生成を行ってもよい。さらにまた、人工知能110の機能の一部を入出力装置10に分担させてもよい。
<データベース>
図4は、データベース120の構成を例示する図である。データベース120は、行動情報DB121、関係情報DB122、制御部123、および通信部124を備える。
(行動情報DB121)
行動情報DB121は、入出力装置10のユーザの行動に関する情報を記憶するデータベースである。本実施の形態に係る行動情報DB121は、たとえば、ユーザのID、氏名、生年月日、職業、性別、出身地、性格、趣味、などの基本情報と、ユーザの行動履歴などを記憶する。行動履歴は、通勤(通学)履歴や、飲食店、販売店、ジム、理容店、病院、学校(セミナー、塾など)等の利用履歴を含む。
(関係情報DB122)
関係情報DB122は、ユーザの人間関係に関する情報を記憶するデータベースである。本実施の形態に係る関係情報DB122は、たとえば、ユーザのID、氏名、生年月日、職業、性別、出身地、性格、趣味、などの基本情報と、ユーザの家族、恋人、友人、仕事仲間、趣味仲間に関する情報などを記憶する。
(制御部123)
制御部123は、たとえばマイクロプロセッサ又はマイクロコンピュータ等により構成され、データベース120が備える各構成を制御する機能を有する。本実施の形態に係る制御部123は、たとえば、入出力装置10からの要求信号に基づいて、行動情報DB121や関係情報DB122に記憶される情報を検索し、当該情報を取得することができる。
(通信部124)
通信部124は、外部機器としての入出力装置10、および人工知能110と通信を行う機能を有する。通信部124は、たとえば、入出力装置10からユーザIDなどの基本情報を受信し、当該情報に基づいて行動情報DB121および関係情報DB122を参照し、ユーザに関する情報を入出力装置10に送信する。
<対話例>
本実施の形態では、入出力装置10のユーザの名前を太郎とする。太郎は、たとえば、入出力装置10が搭載されている車両に、恋人の花子とともに乗車しているものとする。そのため、対話システムは太郎および花子と対話を行う。
人工知能110の回答生成部112は、入出力装置10によって特定された車両の乗員を示す情報を受信したことに応答して、応答文「こんにちは。太郎さんと花子さん。○月○日△曜日、12時15分です。」を生成する。回答生成部112は続いて、応答文「何かお手伝いしましょうか?」を生成する。これらの応答文は、人工知能110から入出力装置10へ送信され、出力部30から再生されるので、太郎および花子に伝えられる。
なお、対話システムは、太郎あるいは花子からの発声(「OK, 〇×」や「Hey,□△」など)に基づいて対話を開始してもよい。
入出力装置10は、「パスタを食べたい。」や「マルゲリータがいい。」などの太郎と花子が発した発話音声に基づくテキスト情報を人工知能110へ送信する。人工知能110の回答生成部112は、入出力装置10から送信されたテキスト情報に基づき、「イタリアンレストランを探して。」という発話意図を抽出し、この発話意図に対する応答文「イタリアンレストランを探します。」を生成する。応答文(応答テキスト情報)は、発話意図とともに人工知能110から入出力装置10へ送信される。応答文は、出力部30から再生されるので、太郎および花子に伝えられる。
入出力装置10は、人工知能110から受信した発話意図に基づき、ナビゲーション装置200に、たとえば、移動時間が30分以内の距離に位置するイタリアンレストランを検索させる。ナビゲーション装置200によって検索された検索結果は、入出力装置10を介して人工知能110へ送信される。
人工知能110は、ナビゲーション装置200による探索結果に基づき、X店とY店とZ店の種々の情報を、たとえば、飲食店の情報を提供する不図示のポータルサイトから取得してもよい。
人工知能110の回答生成部112は、データベース120から取得したユーザに関する情報や、ポータルサイトから取得した飲食店の情報等に基づき、X店とY店とZ店についての情報を知らせる応答文の候補を複数生成する。
候補1「X店は、ランチタイムサービスがあります。約1ヶ月前に、太郎様と花子様をご案内しました。」
候補2「X店は、ランチタイムサービスがあります。約2ヶ月前に、太郎様とさくら様と次郎様をご案内しました。」
候補3「Y店は、パスタが評判です。約2ヶ月前に、太郎様をご案内しました。」
候補4「Y店は、パスタが評判です。約2週間前に、太郎様と○○会社のQ様をご案内しました。」
候補5「Y店は、パスタが評判です。約半年前に、太郎様とD様をご案内しました。」
候補6「Z店は、カルパッチョとワインが評判です。でも、運転者はお酒を飲むことができません。」
これらの応答文の候補は、応答テキスト情報として人工知能110から入出力装置10へ送られる。この時点では、応答文の候補が出力部30から再生されることはなく、いずれの応答文の候補も太郎および花子に伝えられない。
入出力装置10の情報選択部70は、後に詳述する判断規則に基づき、人工知能110から送信された応答テキスト情報から、上記候補1「X店は、ランチタイムサービスがあります。約1ヶ月前に、太郎様と花子様をご案内しました。」を選択する。この選択結果は、入出力装置10を介して人工知能110へ送信される。また、選択された候補1の応答テキスト情報が出力部30から再生される。これにより、候補1の応答文が太郎および花子に伝えられる。
なお、この例では、たとえば次のようなルールに基づいて人工知能110が上記のような回答文を選択する。すなわち、人工知能110はデータベース120の情報に基づいて太郎と花子の人間関係を悪化させる情報は選択しないというルール、もしくは太郎にとって好ましくない情報を選択しないというルールである。本例では、花子は太郎の「イマカノ」であり、さくらは太郎の「モトカノ」であることをデータベース120の情報から認識する。また、「モトカノ」と食事をしたことを「イマカノ」に知られることは人間関係を悪化させる、すなわち、恋人関係を解消するきっかけとなり得るので、太郎にとって好ましくないと判断して回答文を選択する。
つまり、この例の場合において、太郎および花子の両者にとって好ましい回答文は候補1や候補3(候補1が太郎あるいは花子によって選択されなかったときには候補3を次に推奨する)、好ましくない回答文は候補2および候補6となる。候補4や候補5については、同伴した人物Q、Dが男性であった場合(あるいは同席者に仮に女性が含まれるとしても一対一ではなくてグループだった場合)には好ましい回答文として選択してもよい。人物Q、Dの属性データ(性別など)については、太郎のスマートフォンの電子メール(メッセンジャーアプリを含む)における送受信履歴および送受信内容(相手名、アポイントメント、日時、店名を含めたやりとりなど)から推測することができよう。
なお、回答文の候補を選択するパラメータとしては、太郎と花子(つまり発話者もしくは発話者と同席者)の過去の行動履歴を参酌してもよい。たとえば過去に訪れた店舗のうち、「料理・味」、「雰囲気」、「接客サービス」、「コストパフォーマンス」を評価項目とした総合評価が高いものから優先的に候補とするのが好ましいだろう。これらの一連の評価は、太郎あるいは花子のスマートフォンに記録された行動履歴(会話履歴を含むライフログなど)あるいは太郎もしくは花子が行なったウェブサイト上での店舗評価を参酌するとよい。
入出力装置10は、太郎または花子が発した発話音声「X店がいいな。」に基づくテキスト情報を人工知能110へ送信する。人工知能110の回答生成部112は、入出力装置10から送信されたテキスト情報に基づき、「X店へ案内して。」という発話意図を抽出し、この発話意図に対する応答文「X店へご案内します。ここから30分くらいかかります。」を生成する。この応答文(応答テキスト情報)は、発話意図とともに人工知能110から入出力装置10へ送信される。応答文は、出力部30から再生されるので、太郎および花子に伝えられる。入出力装置10は、人工知能110から受信した発話意図に基づき、ナビゲーション装置200にX店へのルート案内を開始させる。
人工知能110の回答生成部112は、再び、応答文「何かお手伝いしましょうか?」を生成する。これらの応答文は、人工知能110から入出力装置10へ送信され、出力部30から再生されるので、太郎および花子に伝えられる。以降、同様にして対話を繰り返すことができる。
なお、人工知能110それ自身が、発話意図に基づき車両近傍のイタリアンレストランを検索して入出力装置10へ送信してもよい。この場合、人工知能110は、検索したイタリアンレストランの所在地、価格帯、メニューなどの情報を飲食店の情報を提供するポータルサイトから取得して入出力装置10へ送信する。
<対話動作の流れ>
図5は、上記対話例において、対話システムが実行する動作の流れを説明するフローチャートである。入出力装置10の制御部50は、たとえば、車両のシステムオン操作が行われると、図5による処理を開始させる。
本実施の形態では、対話動作の流れを入出力装置10の制御部50による処理の流れとして説明するが、入出力装置10以外の他の機器の制御部と分担して行う構成にしてもよい。
図5のステップS110において、制御部50は、以下のような情報が入力されることにより、車両の乗員を検出する。
1.制御部50に、認識部40のカメラ41に写る車内の人物の顔画像に基づいて得られた特徴量情報が、認識部40から入力される。
2.制御部50に、認識部40の読み取り装置42によって取得された情報が、認識部40から入力される。
なお、制御部50に、入力部20のマイクロフォン21に入力された乗員の音声に基づいて得られた声紋情報が、入力部20から入力されるようにしてもよい。
ステップS120において、制御部50は、以下のように車両の乗員を特定する。制御部50は、顔画像に基づく特徴量情報、その特徴量情報と読み取り装置42による取得情報、音声に基づく声紋情報、その声紋情報と読み取り装置42による取得情報、あるいは、上記特徴量情報と上記声紋情報により、乗員を特定する。
なお、乗員の特定に画像、音声を使用したが、以下のような識別子を使用することもできる。車両が太郎所有のものである場合、太郎はあらかじめ車両に太郎自身や花子を識別する識別子を登録しておき、乗車時に、識別子に基づき乗員を識別する判断処理を実行することにより、乗員が太郎と花子であることを識別してもよい。識別子として携帯電話のIDを使用する場合、携帯電話の近距離無線通信などで識別子を車両に送信し、車両が乗員確認を行うことができる。免許証のIDなどを使用してもよい。
ステップS130において、制御部50はネットワーク100を介してデータベース120にアクセスし、以下のようにデータベース120の情報を更新する。制御部50は、乗員が太郎と花子であることを特定すると、データベース120に格納されている太郎と花子の情報を更新する。太郎の行動に関する情報は、データベース120の行動情報DB121に格納されている。また、太郎の人間関係に関する情報は、データベース120の関係情報DB122に格納されている。花子の行動に関する情報は、データベース120の行動情報DB121に格納されている。また、花子の人間関係に関する情報は、データベース120の関係情報DB122に格納されている。
データベース120に格納される情報のうち、太郎の行動に関する情報および太郎の人間関係に関する情報はいずれも、たとえば、太郎のスマートフォンに格納されている情報に基づいて生成することができる。制御部50は、太郎によってスマートフォンに登録されている情報、太郎がスマートフォンからSNS(social networking service)に投稿した内容やメールの内容、送受信履歴、アプリの利用履歴などに基づき、必要な情報を抽出する。
制御部50は、太郎を特定した時点で、上述の近距離無線通信によって太郎のスマートフォンと無線接続する。制御部50はさらに、データベース120の行動情報DB121および関係情報DB122に格納されるべき情報を、太郎のスマートフォンから抽出する。制御部50がスマートフォンから抽出した情報は、ネットワーク100を介して入出力装置10からデータベース120へ送信され、行動情報DB121または関係情報DB122に格納される。なお、制御部50がスマートフォンから抽出する情報は、前回抽出した時点以降にスマートフォンに蓄積された情報、いわゆる差分情報のみでよい。
行動情報DB121に格納される太郎の行動に関する情報には、たとえば、スマートフォンのルート案内アプリの利用履歴や、電子決済の履歴、GPSによる位置情報、ナビゲーション装置200のルート案内履歴などが有用である。太郎がいつ、どこへ行ったかを明らかにしやすいからである。
関係情報DB122に格納される太郎の人間関係に関する情報には、たとえば、太郎とスマートフォンの通信履歴などが有用である。通信履歴からは、特定の通信相手との通話やデータの送受信の頻度がわかるからである。一般に、送受信の頻度が高いほど、通話相手や送受信の相手と親密度が高いといえる。
同様に、データベース120に格納される情報のうち、花子の行動に関する情報および花子の人間関係に関する情報はいずれも、花子のスマートフォンに格納されている情報に基づいて生成することができる。制御部50は、花子によってスマートフォンに登録されている情報、花子がスマートフォンからSNS に投稿した内容やメールの内容、送受信履歴、アプリの利用履歴などに基づき、必要な情報を抽出する。
制御部50によるスマートフォンからの情報の抽出、制御部50からデータベース120への情報の送信、行動情報DB121または関係情報DB122への情報の格納については、太郎の場合と同様に扱うことができる。
ステップS140において、制御部50は、入出力装置10を介して乗員との音声対話を開始させる。制御部50が、特定した乗員を示す情報を入出力装置10から人工知能110へネットワーク100を介して送信すると、人工知能110は、特定された乗員と音声対話が開始されたものと判定する。そして、人工知能110は、特定された乗員に対するメッセージである応答文「何かお手伝いしましょうか?」を生成し、応答テキスト情報として送信する。応答テキスト情報に基づく応答文は、出力部30から再生されるので、乗員に伝えられる。
ステップS150において、制御部50は、入力部20により乗員が発話する音声を入力させる。制御部50はさらに、乗員による発話音声が入力部20によってテキスト情報に変換された場合、そのテキスト情報を、ネットワーク100を介して人工知能110へ送信する。
なお、制御部50は、乗員による発話音声が入力部20によってテキスト情報に変換されなかった場合、乗員による発話音声をそのまま音声信号としてネットワーク100を介して人工知能110へ送信する。上述したように、音声信号を受信した人工知能110は、音声認識部111によって音声認識を行い、受信した音声信号をテキスト情報に変換する。人工知能110の音声認識部111の音声認識力は、入出力装置10の音声認識部22の音声認識力よりも高度な認識精度を有している場合、入出力装置10で音声認識ができなかったとしても、人工知能110で正しく音声認識が行われる。
ステップS160において、制御部50は、人工知能110によって抽出された発話意図を受信するまで待機する。人工知能110の回答生成部112は、上述したように、入出力装置10から受信したテキスト情報に基づいて乗員の発話意図を抽出し、通信部150から発話意図を入出力装置10に送信する。発話意図を受信すると処理はステップS170に進む。
ステップS170において、制御部50は、人工知能110によって生成された応答文を受信するまで待機する。人工知能110は、乗員の発話意図に対する応答文を複数生成する。複数の応答文は、複数の応答文の候補であり、以下で説明するようにいずれか1つが選択される。人工知能110により生成された応答文の候補は、複数の応答テキスト情報としてネットワーク100を介して入出力装置10へ送信される。発話意図に対する応答文の生成処理の詳細については後述する。
ステップS180において、制御部50は、情報選択部70により、人工知能110から送信された複数の応答テキスト情報から一つの応答テキスト情報を選択する。この応答テキスト情報が乗員に提供する応答文となる。選択のための判断規則の詳細については後述する。
なお、人工知能110から送信された応答テキスト情報が一つであった場合でも、判断規則にしたがって選択可か、選択不可かを判別する。選択可であれば、情報選択部70は、その応答テキスト情報を乗員に提供する応答文として採用するが、選択不可の場合は、「検索できませんでした。再度、入力してください」のような応答文を選択する。
ステップS190において、制御部50は、情報選択部70によって選択した応答テキスト情報に基づく応答文を、出力部30により再生させる。
ステップ200において、制御部50は、音声対話の終了か否かを判定する。制御部50は、たとえば、車両のシステムオフ操作が行われると、制御部50は、乗員との音声対話を終了させる。制御部50は、音声対話を終了することを人工知能110へネットワーク100を介して送信する。
一方、制御部50は、車両のシステムオフ操作が行われない場合は、ステップS150へ戻り、上述した処理を繰り返す。
人工知能110が生成する応答文について、さらに詳細に説明する。
人工知能110は、入出力装置10から特定された乗員を示す情報を受信すると、応答文を応答テキスト情報として生成する。回答生成部112には、応答文の生成規則や、発話意図に対する応答文のパターンを格納する情報記憶部112aが含まれている。そのため、回答生成部112は、様々な態様で、応答テキスト情報を生成することができる。
ステップS140における音声対話の開始後、最初のメッセージである応答文は、上述したように、「こんにちは。太郎さんと花子さん。○月○日△曜日、12時15分です。」である。その後、応答文「何かお手伝いしましょうか?」が生成される。
また、ステップS170において生成される応答文は、乗員の発話意図に対する応答文である。具体的には、回答生成部112は、データベース120に記憶されている情報、ポータルサイトから取得した情報等、発話意図に対する応答文のパターンを参照することにより、応答文を生成する。たとえば、乗員の行動に関する情報や、乗員の人間関係に関する情報を参照して、応答文のパターンの一部にデータベース120から取得した情報、ポータルサイトから取得した情報を含めたり、応答文のパターンの一部をデータベース120から取得した情報、ポータルサイトから取得した情報と置換したりするなどして、乗員の名称や言動などを含む応答文を複数通り生成する。
また、回答生成部112の情報記憶部112aには、たとえば、今日の天気やニュースなどの情報や各種一般常識などの情報を格納しておくことができる。今日の天気やニュースなどの情報は、ネットワーク100を介して別のポータルサイト等の外部機器から取得することができる。回答生成部112は、今日の天気やニュースなどの情報と、発話意図に対する応答文のパターンとを参照することにより、応答文を生成してもよい。
情報記憶部112aに格納される応答文のパターンは、デフォルトセットとして固定されていてもよいし、デフォルトセットに対して機械的な学習により後から追加、変更可能に構成されていてもよい。
上述したように、回答生成部112は、複数の応答文(応答テキスト情報)を生成するものとする。複数の応答文を生成する理由は、太郎にとってより好ましい応答文を選択可能にするためである。
情報選択部70による応答テキスト情報の選択における判断規則について、さらに詳細に説明する。
情報選択部70は、情報記憶部71に格納されている判断規則に基づいて、人工知能110から送信された複数の応答テキスト情報から一つの応答テキスト情報を、乗員に提供する応答文として選択する。判断規則を例示すると、以下の通りである。
<規則1>
情報選択部70は、乗員の中の発話者と入出力装置10との対話の内容が、発話者以外の乗員に聞かれる可能性がある場合には、発話者にとって好ましい応答テキスト情報を選ぶ。以下に、いくつかの場面を例示する。
(例1)乗員が太郎と太郎の恋人Aである場合
車内に太郎と恋人Aが乗車していて、かつ、人工知能110から送信された応答テキスト情報に、太郎と恋人A以外の他の人物B(第三者)に関連する内容が含まれている場合、情報選択部70は、人工知能110から送信された応答テキスト情報から太郎と恋人Aとに関連する応答テキスト情報を選ぶ。換言すると、情報選択部70は、人工知能110から送信された応答テキスト情報から人物Bに関連する応答テキスト情報を除外する。第三者に関連する内容とは、応答テキスト情報に、第三者の名称や言動が含まれていることをいう。
このように応答テキスト情報を選択する理由は、たとえば、太郎が過去に女性の人物Bと出かけたレストランを目的地にすると、太郎(発話者)と入出力装置10との対話内容に人物Bの名前が登場することによって恋人Aの気分を害するおそれがあることから、このような事態を避けるためである。
情報選択部70はさらに、選んだ応答テキスト情報に対して合理的な観点から順位を付け、最も順位が高い応答テキスト情報を選ぶ。たとえば、現在位置から近い目的地は、現在位置から遠い目的地よりも移動時間や燃料代が抑えられる点で合理的である。そのため、情報選択部70は、現在位置からより近い目的地へ案内する応答テキスト情報の順位を高くするように順位をつけ、順位が高い応答テキスト情報を選ぶ。
(例2)乗員が太郎と太郎の家族である場合
車内に太郎と太郎の家族(全員)が乗車していて、かつ、人工知能110から送信された応答テキスト情報に、太郎の家族の一部Cに関連する内容が含まれている場合、情報選択部70は、人工知能110から送信された応答テキスト情報から太郎と家族(全員)とに関連する応答テキスト情報を選ぶ。換言すると、情報選択部70は、人工知能110から送信された応答テキスト情報から太郎の家族の一部Cに関連する応答テキスト情報を除外する。
このように応答テキスト情報を選択する理由は、たとえば、太郎が過去に家族の一部Cと出かけたレストランを目的地にすると、太郎(発話者)と入出力装置10との対話内容にその話題が登場することによって、過去に参加しなかった他の家族Dの気分を害するおそれがあることから、このような事態を避けるためである。
(例3)乗員が太郎と太郎の家族の一部Cである場合
車内に太郎と太郎の家族の一部Cが乗車していて、かつ、人工知能110から送信された応答テキスト情報に、乗車しなかった太郎の家族D(第三者)に関連する内容が含まれている場合、情報選択部70は、人工知能110から送信された応答テキスト情報から太郎と家族Cとに関連する応答テキスト情報を選ぶ。換言すると、情報選択部70は、人工知能110から送信された応答テキスト情報から家族Dに関連する応答テキスト情報を除外する。
このように応答テキスト情報を選択する理由は、たとえば、太郎が過去に家族Dと出かけたレストランを目的地にすると、太郎(発話者)と入出力装置10との対話内容に家族Dの話題が登場することによって、過去に参加しなかった家族Cの気分を害するおそれがあることから、このような事態を避けるためである。
(例4)乗員が太郎と太郎の仕事上の関係があるQ1会社の人物P1とQ2会社の人物P2である場合
車内に太郎と人物P1および人物P2が乗車していて、かつ、人工知能110から送信された応答テキスト情報に、太郎の仕事上の関係があるQ3会社の人物P3(第三者)に関連する内容が含まれている場合、情報選択部70は、人工知能110から送信された応答テキスト情報から太郎と人物P1と人物P2とに関連する応答テキスト情報を選ぶ。換言すると、情報選択部70は、人工知能110から送信された応答テキスト情報から、乗車していない人物P3に関連する応答テキスト情報を除外する。
このように応答テキスト情報を選択する理由は、たとえば、太郎(発話者)と入出力装置10との対話内容にQ1会社とライバル関係にあるQ3会社の人物P3の名前が登場することによって、太郎とQ3会社との間で結ばれている守秘義務違反のおそれが生じることから、このような事態を避けるためである。
なお、上記例2ないし例4において、情報選択部70が選んだ応答テキスト情報に対して合理的な観点から順位を付け、最も順位が高い応答テキスト情報を選ぶ点は、例1の場合と同様である。
<規則2>
情報選択部70は、乗員の中の発話者と入出力装置10との対話の内容が、発話者以外に聞かれる可能性がない場合には、合理的な観点のみに基づいて応答テキスト情報を選ぶ。以下に、想定される場面を例示する。
(例5)乗員が太郎のみで同乗者がいない場合
車内に太郎のみが存在し、太郎以外に乗員がいない場合には、情報選択部70は、人工知能110から送信された全ての応答テキスト情報に対して合理的な観点から順位を付け、最も順位が高い応答テキスト情報を選ぶ。同乗者がいなければ、同乗者の気分を害するか否かを考慮する必要がないからである。
<プログラム>
入出力装置10の制御部50に対し、図5に例示した処理を実行させるプログラムを、コンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムを入出力装置10へ供給してもよい。「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、光ディスク、メモリカード等の可搬型記録媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。「コンピュータシステム」とは、OS(Operating System)や周辺機器のハードウェアを含むものとする。
また、「コンピュータ読み取り可能な記録媒体」には、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持するものを含んでもよい。また上記のプログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせにより実現するものであってもよい。
図6は、入出力装置10に対するプログラムの供給を説明する図である。入出力装置10は、CD-ROM953を介してプログラムの提供を受けることができる。また、入出力装置10は、通信回線900を介してプログラムの提供を受けることもできる。
コンピュータ952は、上記プログラムを提供するサーバーコンピュータであり、ハードディスク等の記録媒体954にプログラムを格納している。通信回線900は、インターネット、パソコン通信などの通信回線、あるいは専用通信回線などである。コンピュータ952は、記録媒体954からプログラムを読み出し、通信回線900を介してプログラムを入出力装置10に送信する。すなわち、プログラムをデータ信号として搬送波により搬送して、通信回線900を介して送信する。このように、プログラムは、記録媒体や搬送波などの種々の形態のコンピュータ読み込み可能なコンピュータプログラム製品として供給できる。
以上説明した実施の形態によれば、次の作用効果が得られる。
(1)人物と音声対話を行う対話装置は、周囲の人物を認識する認識部40と、情報を音声により入出力する入力部20および出力部30と、入力部20に入力された発話意図に応答する応答文を人工知能110から取得する制御部50と、発話意図を発した人物(太郎)を特定する認識部40と、応答文が特定された人物(太郎)にとって好ましい情報か否かを判断し、好ましいと判断された応答文を出力部30から出力させる制御部50とを備える対話機能を有する。このように構成したので、上記例における太郎が他の乗員に知られたくない情報が出力部30から再生されることを防止できる。
(2)制御部50は、発話意図に応答する複数の応答文を取得し、制御部50は、認識部40で特定された人物(太郎)に関連する複数の応答文を上記複数の応答文の中から選択し、選択した応答文のうち認識部40で特定された人物(太郎)にとって好ましい応答文を複数の応答文の中から選択し、選択した応答文を出力部30から出力させる。応答文の取得と選択とを分けて行うように構成したので、応答文の取得と選択を一度に行う場合に比べて処理を簡略化することができる。
(3)制御部50は、認識部40で特定された人物(太郎)にとって好ましいか否かを、応答文が認識部40で認識されている全ての人物に聞かれてよいか否かにより判断するので、太郎以外の乗員の全員についても、他の乗員に知られたくないか否かを判断し、好ましくない情報の出力制限を適切に実行することができる。
(4)制御部50は、認識部40によって認識されていない人物の名称を含む応答文を好ましくないと判断するので、太郎を含む乗員の全員について好ましくない応答文の出力制限を適切に実行することができる。
(5)制御部50は、認識部40によって認識されていない人物の言動を含む応答文を好ましくないと判断するので、太郎を含む乗員の全員について好ましくない応答文の出力制限を適切に実行することができる。
次のような変形も本発明の範囲内であり、変形例の一つ、もしくは複数を上述の実施形態と組み合わせることも可能である。
(変形例1)
以上では、車両に搭載されたナビゲーションの一つの機能としての対話装置を一例として説明した。しかし、本発明はこのような一例に限定されず、家庭内などで単独の商品として使用される対話装置(スマートフォン、さらには、AIスピーカあるいはスマートスピーカと呼ばれる、AIアシスタント機能を備えたスピーカ、さらには感情認識ヒューマノイドロボットなど)にも適用できる。
たとえば、家庭で使用されることを想定した対話装置について以下、説明する。
前提として、この家族は、父親、母親、長男、次男の4人家族である。
問題となるシチュエーションは、母親と子供たちには父親に知られたくない秘密事項があり、対話装置の周囲に家族全員がそろっている場合、上記秘密事項に関連した情報は対話装置から出力しないようにする。この場合、母親が秘密事項を特定する情報を対話装置の選択情報部70に設定し、父親が一緒に対話装置を利用するときには、秘密情報を出力しないようにすればよい。たとえば、父親が、母親の体重について対話装置に質問した場合は「その質問にはお答えできません」といったように対話装置は返答を拒否するだろう。一方で、母親がダイエット中であることが家族で共有化されている場合(日常の家族の会話内容を対話装置がモニタリングしており、対話装置がそのことを認識している場合)にあっては、あえて母親の体重(必要に応じて実際の体重よりも少なめの値)を回答することもあろう。さらには、父親と母親との親密度(仲の良さ)に応じて、母親の体重を回答するか否かを選択してもよいだろう。その親密度を測るパラメータとしては、たとえば対話装置がモニタリングしている日常生活における夫婦間の会話量(笑い声や笑顔の頻度などをも含む)を参酌するのがよいだろう。親密度を測るその他のパラメータとしては、家族であれば、メール送受信回数(電話連絡回数も含む)、外食の頻度、互いの名前を呼び合う回数などが考えられる。他人であれば、互いの家族構成を知っているか否か、互いの趣味を知っているか否か、年賀状のやりとりを毎年行っているか否かなどのパラメータを加味してもよいだろう。家族構成を知っているか否か、趣味を知っているか否かについてはウェアラブルのライフログカメラ(あるいはレコーダ)の記録情報に基づいて判断できるであろうし、年賀状のやりとりをしているか否かは、年賀状データベースを参酌すればよい。
(変形例2)
あるいは、企業の一部門で使用されることを想定した対話装置について以下、説明する。前提として、この部門に所属する部員は、第1課長の小林、第1課の課員である鈴木、山田、第2課長の山本、第2課の課員である斎藤とする。
問題となるシチュエーションは、第1課と第2課は、社内で売り上げを争う間柄であり、第1課と第2課に所属する課長、課員が対話装置を一緒に利用する場合、互いに知られたくない秘密事項に関連した情報は対話装置から出力しないようにする。この場合、第1課および第2課の所属員が秘密事項を特定する情報を対話装置の選択情報部70に設定し、第1課と第2課が一緒に対話装置を利用するときには、秘密情報を出力しないようにすればよい。
なお、秘密事項を特定する情報は、機械学習などで対話装置自身が設定するようにしてもよい。
(変形例3)
対話装置の周囲の人物以外の人物に関する情報,たとえば、対話装置の周囲にいない人物の名称や言動はすべて好ましくない情報として対話装置から出力しないようにしてもよい。
以上説明した対話装置は、対話装置で認識されている複数の人物のいずれか一方、あるいは全員に都合の悪い情報、つまり好ましくない情報を出力しないように構成されている。対話装置は、家族だけで使用する状況、友人などと使用する状況、企業内の同一部門の所属員だけで使用する状況、企業内の異なる部門の所属員が混在して使用する状況、利害関係がある複数の企業のそれぞれの所属員が使用する状況など、さまざまな利用状況を想定している。すべての利用状況において、対話装置の周囲で同時に利用するすべての人物にとって好ましくない情報を人工知能が認識して出力しないようにした。
したがって、人口知能は、機械学習、深層学習などを通して以下のような学習を行う。すなわち、対話装置が認識した家族の構成員、同一企業の同一部門や異なる部門の所属員、利害関係がある複数の企業の所属員、交友関係がある人物などに関して、人間関係を悪化させる情報、気分を害する情報、競争あるいは競合関係にある情報、秘密性の高い情報を学習する。そして、学習内容にしたがって、対話装置の周囲の人物にとって好ましくない情報を出力しないにようにした。換言すると、好ましい情報だけを出力するようにした。
上記では、種々の実施の形態および変形例を説明したが、本発明はこれらの内容に限定されるものではない。本発明の技術的思想の範囲内で考えられるその他の態様も本発明の範囲内に含まれる。
たとえば、対話装置が発話者(質問者)を認識できても、それ以外の人物を認識できない(人物であると認識できるがそれが誰なのか認証できるまでには至らない)場合には、対話装置が回答する前に「太郎さん、あなた以外に見知らぬ方がいらっしゃいますが、このまま回答してもよろしいですか?」といったように発話者に回答の事前承諾を得てもよい。
また、対話装置がスマートフォンである場合であって、発話者がイヤホンを利用している場合は、対話装置からの如何なる回答も、発話者以外が聞くことは不可能であるので、発話者以外にそこに誰が同席しようとも、その回答の選択肢に制限を設けなくてよいだろう。カーナビゲーションにおける「音量自動調節・超指向性スピーカ」も、発話者(運転手)以外が音声を聞くことができないので、回答の選択肢に制限を設けなくてよいだろう。ただし、この場合、発話者の質問内容は同乗者には聞こえているので、その回答が発話者だけには聞こえて同乗者には聞こえないのは不自然である。よって、発話者への回答とは別に同乗者にとって支障のない回答を行なうのが好ましい。この同乗者への回答は、発話者の回答と同時であってもその回答の前後にずらして行なってもどちらでもよい。
一方、音声ではなくテキストで回答する場合には、発話者がたとえイヤホンを装着していたとしても、同席者はこの回答を読むことのできる可能性があるので、テキストによる回答は禁止する(もしくは回答の選択肢に制限を設ける)ことが好ましい。なお、カーナビゲーションあるいはスマートフォンの画面上の特性(カーナビゲーションのデュアルモニターあるいはスマホの覗き見防止フィルターなど)によって同乗者がテキスト回答を読むことのできない場合にあってはテキスト回答を許可しても(回答の選択肢に制限を設けなくとも)よい。稀なケースでは対話装置が手話で回答することも考えられるが、この場合にあっては手話回答を許可しても(回答の選択肢に制限を設けなくとも)よいだろう。
さらに、対話装置のデフォルトでは回答に制限を設けない状態に常時設定しておき、発話者のジェスチャー(たとえば口元に人差し指を添えた「しーっ」という仕草など)を画像認識することによって、はじめて回答に制限を設けて(秘匿モード)もよい。この秘匿モードは、発話者のジェスチャーを認識後、対話装置の利用が終了するまでは継続して設定される。もちろん、ボタン操作によってこの秘匿モードが設定・解除されてもよい。
上記実施の形態および変形例にあっては、対話装置は、人物が発する音声を認識するものを対象としたが、人物に限らず、自律的に自動作業を行うロボット(感情認識ヒューマノイドロボットなど)やアバター(ユーザの分身となる仮想キャラクター)が発する音声を認識してもよい。これらロボットやアバターにあっては、ユーザ自身はその空間には存在しないが、ユーザが遠隔地からディスプレーを経由してロボットやアバターの挙動を制御できるとともに音声会話(ユーザ本人の声であってもなくてもどちらでもよい)を行うことができる。つまり、車両空間内に存在するAという人物とは他のBという人物が自宅(あるいは外出先)からスマートスピーカ(あるいは眼鏡型ウェアラブルデバイスやVRゴーグル)を利用して車両空間内の会話に人物Bの分身であるアバターとしてあたかもB自身がそこに存在するかの如く参加することもできる。
本実施の形態では、車両空間内で使用されるナビゲーション装置あるいは家庭内などで使用されるスマートスピーカの単独の使用形態についてそれぞれ説明したが、これらナビゲーション装置と家庭内のスマートスピーカとを接続する場合(テレマティクスのような情報サービスを利用するなど)にも適用できるし、ナビゲーション装置、家庭内スマートスピーカ、眼鏡型ウェアラブルデバイス(VRゴーグルを含む)が三者接続される場合にも適用できる。
10…入出力装置、20…入力部、30…出力部、40…認識部、50…制御部、60…通信部、70…情報選択部、100…ネットワーク、110…人工知能、120…データベース、200…ナビゲーション装置

Claims (11)

  1. 車両の乗員の要求入力に基づいて行先推奨を行うナビゲーション装置であって、
    前記車両の乗員の認識を行う認識部と、
    前記要求入力に対応する前記行先推奨の候補を示す候補情報であって、前記要求入力より前に行先推奨が行われた際における前記車両の乗員の情報を対応付けた前記候補情報を導出し、
    導出した前記候補情報から、前記認識部が認識した乗員に好ましくない情報を含む候補情報を除外した候補情報の中から行先推奨を行うように制御する制御部と、
    を備えたナビゲーション装置。
  2. 前記乗員の認識は、画像認識によって行われることを特徴とする請求項1に記載のナビゲーション装置。
  3. 前記制御部は、前記乗員の認識結果に基づいて乗員が単数の場合と複数の場合とで前記行先推奨の内容を変更することを特徴とする請求項1または請求項2に記載のナビゲーション装置。
  4. 前記制御部は、前記乗員が複数の場合は単数の場合より前記行先推奨の内容を制限することを特徴とする請求項1~請求項3の何れか1項に記載のナビゲーション装置。
  5. 前記制御部は、前記乗員の認識結果により特定された単数もしくは複数の乗員の各種行動履歴を示す行動情報に基づいて前記行先推奨を行うことを特徴とする請求項1~請求項4の何れか1項に記載のナビゲーション装置。
  6. 前記認識部が認識した乗員に好ましくない情報は、前記要求入力した乗員と他の乗員との間における人間関係を悪化させる情報である請求項1~請求項5の何れか1項に記載のナビゲーション装置。
  7. さらに、音声認識部を備え、
    前記乗員の発する音声を、前記音声認識部が認識することにより、前記要求入力がなされることを特徴とする請求項1~請求項6の何れか1項に記載のナビゲーション装置。
  8. 音声出力部をさらに備え、
    前記行先推奨は、前記音声出力部から、音声の出力により行われることを特徴とする請求項1~請求項7の何れか1項に記載のナビゲーション装置。
  9. 前記認識部は、
    前記乗員のジェスチャーを認識し、
    前記制御部は前記ジェスチャーの認識結果により前記行先推奨の内容を制御することを特徴とする請求項1~請求項8の何れか1項に記載のナビゲーション装置。
  10. 請求項1~請求項9の何れか1項のナビゲーション装置を搭載した車両。
  11. 車両の乗員の要求入力に基づいて行先推奨を行うナビゲーション方法であって、
    前記車両の乗員の認識を行い、
    前記要求入力に対応する前記行先推奨の候補を示す候補情報であって、前記要求入力より前に行先推奨が行われた際における前記車両の乗員の情報を対応付けた前記候補情報を導出し、
    導出した前記候補情報から、認識した乗員に好ましくない情報を含む候補情報を除外した候補情報の中から行先推奨を行うように制御する
    処理をコンピュータが実行するナビゲーション方法。
JP2020560701A 2018-12-19 2018-12-19 対話装置、対話システムおよび対話プログラム Active JP7207425B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/046791 WO2020129182A1 (ja) 2018-12-19 2018-12-19 対話装置、対話システムおよび対話プログラム

Publications (2)

Publication Number Publication Date
JPWO2020129182A1 JPWO2020129182A1 (ja) 2021-10-14
JP7207425B2 true JP7207425B2 (ja) 2023-01-18

Family

ID=71101155

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020560701A Active JP7207425B2 (ja) 2018-12-19 2018-12-19 対話装置、対話システムおよび対話プログラム

Country Status (3)

Country Link
US (1) US20210404830A1 (ja)
JP (1) JP7207425B2 (ja)
WO (1) WO2020129182A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4213481A4 (en) * 2020-09-10 2023-11-01 Nissan Motor Co., Ltd. INFORMATION OUTPUT DEVICE AND INFORMATION OUTPUT METHOD
CN115461810A (zh) * 2021-04-09 2022-12-09 松下知识产权经营株式会社 对发话设备进行控制的方法、服务器、发话设备以及程序
JP7350384B1 (ja) 2022-05-30 2023-09-26 真由美 稲場 対話システム、及び対話方法
CN115840806B (zh) * 2022-12-16 2023-09-05 深圳市人马互动科技有限公司 基于自然语言交互获取剧情信息的方法及相关装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009282704A (ja) 2008-05-21 2009-12-03 Denso Corp 自動車用情報提供システム
WO2016158792A1 (ja) 2015-03-31 2016-10-06 ソニー株式会社 情報処理装置、制御方法、およびプログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120215641A1 (en) * 2011-02-17 2012-08-23 Honda Motor Co., Ltd. System and method for determining destination characteristics of vehicle operators
US8688290B2 (en) * 2011-12-27 2014-04-01 Toyota Motor Enginerring & Manufacturing North America, Inc. Predictive destination entry for a navigation system
WO2014172380A1 (en) * 2013-04-15 2014-10-23 Flextronics Ap, Llc Altered map routes based on user profile information
US9591396B2 (en) * 2015-01-21 2017-03-07 Lg Electronics Inc. Ear set device
US9610510B2 (en) * 2015-07-21 2017-04-04 Disney Enterprises, Inc. Sensing and managing vehicle behavior based on occupant awareness
US20190207946A1 (en) * 2016-12-20 2019-07-04 Google Inc. Conditional provision of access by interactive assistant modules

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009282704A (ja) 2008-05-21 2009-12-03 Denso Corp 自動車用情報提供システム
WO2016158792A1 (ja) 2015-03-31 2016-10-06 ソニー株式会社 情報処理装置、制御方法、およびプログラム

Also Published As

Publication number Publication date
JPWO2020129182A1 (ja) 2021-10-14
US20210404830A1 (en) 2021-12-30
WO2020129182A1 (ja) 2020-06-25

Similar Documents

Publication Publication Date Title
US11575784B1 (en) System and method for modifying the operational state of a telecommunication application using conversational processing
JP7207425B2 (ja) 対話装置、対話システムおよび対話プログラム
KR102050334B1 (ko) 언어 모델을 사용한, 메시지들에서 수신되는 이미지들에 대한 자동적인 제안 응답들
CN110998725B (zh) 在对话中生成响应
US10375236B1 (en) Computer control of online social interactions based on conversation processing
US11093536B2 (en) Explicit signals personalized search
US20180070203A1 (en) Global contact synchronization
US20150278730A1 (en) Situational and global context aware calendar, communications, and relationship management
CN108205627A (zh) 交互式助理模块对访问的有条件提供
CN106910513A (zh) 情绪智能聊天引擎
WO2017163515A1 (ja) 情報処理システム、情報処理装置、情報処理方法、および記録媒体
US20170316451A1 (en) Information processing apparatus and information processing method
WO2020209230A1 (ja) 情報処理システム、情報処理方法、及びプログラム
KR102359228B1 (ko) 맞춤형 대화 연결 서비스 제공방법
US11961516B1 (en) System and method for modifying operations of telecommunication devices using conversation processing
US20240233717A9 (en) System and method for modifying operations of telecommunication devices using conversation processing
McCain A Qualitative Investigation of Electronic Technology Effects on Interpersonal Communication Satisfaction

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210518

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210531

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220621

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220822

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221206

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221219

R150 Certificate of patent or registration of utility model

Ref document number: 7207425

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150