JP7120060B2 - 音声対話装置、音声対話装置の制御装置及び制御プログラム - Google Patents

音声対話装置、音声対話装置の制御装置及び制御プログラム Download PDF

Info

Publication number
JP7120060B2
JP7120060B2 JP2019019745A JP2019019745A JP7120060B2 JP 7120060 B2 JP7120060 B2 JP 7120060B2 JP 2019019745 A JP2019019745 A JP 2019019745A JP 2019019745 A JP2019019745 A JP 2019019745A JP 7120060 B2 JP7120060 B2 JP 7120060B2
Authority
JP
Japan
Prior art keywords
engagement level
question
subject
target person
threshold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019019745A
Other languages
English (en)
Other versions
JP2020126195A (ja
Inventor
航 加来
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP2019019745A priority Critical patent/JP7120060B2/ja
Priority to CN202010036348.1A priority patent/CN111540383A/zh
Priority to US16/781,651 priority patent/US11682389B2/en
Publication of JP2020126195A publication Critical patent/JP2020126195A/ja
Application granted granted Critical
Publication of JP7120060B2 publication Critical patent/JP7120060B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/012Head tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/193Preprocessing; Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/01Indexing scheme relating to G06F3/01
    • G06F2203/011Emotion or mood input determined on the basis of sensed human body parameters such as pulse, heart rate or beat, temperature of skin, facial expressions, iris, voice pitch, brain activity patterns
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Psychiatry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Child & Adolescent Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Signal Processing (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Social Psychology (AREA)
  • Ophthalmology & Optometry (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephonic Communication Services (AREA)

Description

本発明は、音声対話装置、音声対話装置の制御装置及び制御プログラムに関する。
音声認識や言語処理を行うことでユーザ(対象者)と音声により対話を行う音声対話装置が知られている。近年、このような音声対話装置において、対象者が、対話において不快感を覚えることなく、親しみを持つことができるようにする開発が進められている。特許文献1には、ユーザのアクションを示すデータを取得し、ユーザに対して出力される情報に向けられる注意度の期待値を算出し、これに基づき、ユーザへの応答や表示を介した情報提供を行う対話装置が開示されている。
特開2015-132878号公報
介護現場において、対象者に対して問いかけを行い、対象者が推奨される行動を行うよう促すことが、寝たきり状態になるのを防止する上で極めて有効であることが分かってきた。このため、介護現場において、上述した音声対話装置を導入し、当該音声対話装置により対象者に対して問いかけを行わせるようにする試みがなされている。しかしながら、問いかけに対して応答を行った対象者の状態を考慮せずに、何度も問いかけを行うと、対象者を不快にさせてしまう恐れがあった。
本発明は、以上の背景に鑑みなされたものであり、対象者を不快にさせてしまう可能性を低減しつつ、効率的に対象者が推奨される行動を行うよう促すことができる音声対話装置を提供することを目的とする。
本発明の一実施態様に係る音声対話装置は、対象者に対し、前記対象者が推奨される行動を行うように促すための問いかけを行う音声対話装置であって、前記問いかけをした際に、前記問いかけに対して前記対象者より予め想定された応答があったかどうかを判定し、前記対象者より予め想定された応答があったと判定された場合には前記対象者への問いかけを終了する応答内容判定部と、前記応答内容判定部において、前記対象者より予め想定された応答がなかったと判定された場合に前記対象者がどの程度対話の継続に積極的であるかを表す指標であるエンゲージメントレベルを算出し、算出した前記エンゲージメントレベルが、第1の閾値以上の場合には前記対象者に再度問いかけを行うようにし、前記第1の閾値未満の場合には前記対象者への問いかけを終了するエンゲージメントレベル判定部と、を備えるものである。
この音声対話装置では、問いかけを行った後、対象者より予め想定された応答がなかった場合、エンゲージメントレベルを算出し、算出したエンゲージメントレベルが、第1の閾値以上の場合には対象者に再度問いかけを行う。このようにすると、対象者が対話の継続を望んでいない、すなわち、エンゲージメントレベルが第1の閾値未満である場合には、再度問いかけを行わないようにすることができる。これにより、対象者を不快にさせてしまう可能性を低減しつつ、効率的に対象者が推奨される行動を行うよう促すことができる。
前記エンゲージメントレベル判定部において、算出した前記エンゲージメントレベルが、前記第1の閾値よりも高い第2の閾値以上である場合には前回の問いかけと同じ表現で再度問いかけを行い、前記第1の閾値以上で前記第2の閾値未満である場合には前回の問いかけとは表現を変えて再度問いかけを行うようにするものであってもよい。
エンゲージメントレベルが第2の閾値以上で、対象者が対話の継続に非常に積極的である場合、対象者は音声対話装置の問いかけの意味が分からなかった可能性がある。このような場合、音声対話装置は、対象者に対し、前回の問いかけと同じ表現で再度問いかけを行うようにする。一方、エンゲージメントレベルが第1の閾値以上で第2の閾値未満であり、対象者が、対話の継続を望んでいない訳ではないが、対話の継続に非常に積極的という程ではないという場合、対象者に対し、前回の問いかけとは表現を変えて再度問いかけを行う。例えば、再度の問いかけでは、前回の問いかけに対して、より対象者の興味をそそる表現に変える。このようにすることで、効率的に対象者が推奨される行動を行うよう促すことができる。
前記エンゲージメントレベル判定部において、前記エンゲージメントレベルを前記対象者と前記音声対話装置との距離に応じて算出するようにしてもよい。
音声対話装置との対話を適切に行うために、対象者は、対象者と音声対話装置との距離が推奨距離以内になるように音声対話装置に近づいて対話を行う必要がある。このため、音声対話装置の問いかけに対して、対象者が音声対話装置との対話の継続に積極的である場合には、音声対話装置に近づいて応答を行うと考えられる。つまり、対象者と音声対話装置との距離が、短い場合には長い場合よりもエンゲージメントレベルが高くなると考えられる。このように、対象者と音声対話装置との距離と、エンゲージメントレベルと、の間には相関があるので、音声対話装置の問いかけに対して、対象者が応答を行ったときの、対象者と音声対話装置との距離に応じてエンゲージメントレベルを算出することができる。このようにすることで、エンゲージメントレベルの算出を精度良く行うことができる。
前記対象者と前記音声対話装置との距離は、前記音声対話装置の外部にある外部装置に設置されたカメラによる撮像画像に基づいて行うようにしてもよい。
外部装置は、音声対話装置よりも設置の自由度が高い。例えば外部装置を居室の天井に設置すれば、外部装置に設置されたカメラは居室内の広い範囲の撮像が可能になる。このため、音声対話装置のカメラよりも、対象者と音声対話装置との位置関係を精度良く把握することができる。つまり、対象者と音声対話装置との距離の算出を、音声対話装置の外部にある外部装置に設置されたカメラによる撮像画像に基づいて行うことで、対象者と音声対話装置との距離の算出の精度をより向上させることができる。これにより、エンゲージメントレベルの算出を精度良く行うことができる。
前記エンゲージメントレベル判定部において、前記エンゲージメントレベルを、前記問いかけに対する前記対象者の応答内容を考慮して算出するようにしてもよい。対象者の顔の応答内容は、対象者のエンゲージメントレベルと相関があると考えられる。例えば、対象者Tの応答内容に、問いかけの内容を否定する表現が含まれている場合、エンゲージメントレベルをより低く算出する。このようにすることで、エンゲージメントレベルの算出をより精度良く行うことができる。
前記エンゲージメントレベル判定部において、前記エンゲージメントレベルを、前記問いかけに対する前記対象者の顔の表情や挙動を考慮して算出するようにしてもよい。対象者の顔の表情は、対象者のエンゲージメントレベルと相関があると考えられる。対象者の顔の表情の分析において、対象者が困惑した表情が検出された場合、エンゲージメントレベルをより低く算出する。また、対象者の挙動は、対象者のエンゲージメントレベルと相関があると考えられる。対象者の挙動としては、相槌、笑い、うなずきといった顔に関する挙動の他、手足の動きなどが考えらえられる。対象者の挙動を分析した結果、対象者が困惑した挙動が検出された場合、エンゲージメントレベルをより低く算出するようにしてもよい。このようにすることで、エンゲージメントレベルの算出をより精度良く行うことができる。
本発明の一実施態様に係る音声対話装置の制御装置は、対象者に対し、前記対象者が推奨される行動を行うように促すための問いかけを行う音声対話装置の制御装置であって、前記音声対話装置により前記問いかけをした際に、前記問いかけに対して前記対象者より予め想定された応答があったかどうかを判定し、予め想定された応答があったと判定された場合には前記対象者への問いかけを終了するよう前記音声対話装置に指示する応答内容判定部と、前記応答内容判定部において、予め想定された応答がなかったと判定された場合に前記対象者がどの程度対話の継続に積極的であるかを表す指標であるエンゲージメントレベルを算出し、算出した前記エンゲージメントレベルが、第1の閾値以上の場合には前記対象者に再度問いかけを行うよう前記音声対話装置に指示し、前記第1の閾値未満の場合には前記対象者への問いかけを終了するよう前記音声対話装置に指示するエンゲージメントレベル判定部と、を備えるものである。これによれば、対象者を驚かせたり不快にさせてしまったりする可能性を低減しつつ、対象者が推奨される行動を行うよう促すことができる。
本発明の一実施態様に係る制御プログラムは、対象者に対し、前記対象者が推奨される行動を行うように促すための問いかけを行う音声対話装置の制御プログラムであって、前記問いかけをした際に、前記問いかけに対して前記対象者より予め想定された応答があったかどうかを判定し、予め想定された応答があったと判定された場合には前記対象者への問いかけを終了する第1ステップと、前記第1のステップにおいて、予め想定された応答がなかったと判定された場合に前記対象者がどの程度対話の継続に積極的であるかを表す指標であるエンゲージメントレベルを算出し、算出した前記エンゲージメントレベルが、第1の閾値以上の場合には前記対象者に再度問いかけを行うようにし、前記第1の閾値未満の場合には前記対象者への問いかけを終了する第2のステップと、を前記音声対話装置のコンピュータに実行させる音声対話装置の制御プログラムである。これによれば、対象者を不快にさせてしまったりする可能性を低減しつつ、効率的に対象者が推奨される行動を行うよう促すことができる。
本発明によれば、対象者を不快にさせてしまったりする可能性を低減しつつ、効率的に対象者が推奨される行動を行うよう促すことができる。
本実施の形態に係る音声対話装置の概観図である。 本実施の形態に係る音声対話装置のシステム構成図である。 本実施の形態に係る音声対話装置における対象者に対し声かけする処理の流れを示すフローチャートである。 本実施の形態に係る音声対話装置における対象者に対し声かけする処理の流れを示すフローチャートである。 図4に示すフローチャートにおけるステップS110の処理について具体的に説明する模式図である。 図4に示すフローチャートにおけるステップS111及びステップS112の処理について具体的に説明する模式図である。 図4に示すフローチャートにおけるステップS113の処理について具体的に説明する模式図である。 外部装置の構成の一例を示す模式図である。 実施の形態2に係る制御装置の構成について説明するブロック図である。
以下、発明の実施の形態を通じて本発明を説明するが、特許請求の範囲に係る発明を以下の実施形態に限定するものではない。また、実施形態で説明する構成の全てが課題を解決するための手段として必須であるとは限らない。説明の明確化のため、以下の記載及び図面は、適宜、省略、及び簡略化がなされている。各図面において、同一の要素には同一の符号が付されており、必要に応じて重複説明は省略されている。
[実施の形態1]
以下、図面を参照して本発明の実施の形態1について説明する。
図1は、実施の形態1に係る音声対話装置100の概観図である。音声対話装置100は、対象者(ユーザ)に対して問いかけを行い、対象者が推奨される行動を行うように促すロボットである。音声対話装置100は、キャラクターを具現化したキャラクター装置であり、対話に合わせて眼の表情や視線方向が変化する。
音声対話装置100は、外観として動物を模しており、胴体部110と頭部120を有する。胴体部110の内部には、モータ111が設けられており、頭部120は、モータ111の駆動により、胴体部110に対して向きが変化する。頭部120には、対象者が眼と認識できる位置に、眼球部122が設けられている。眼球部122の背後には、例えば液晶パネルや有機ELパネルである表示パネル106が設置されている。表示パネル106には、黒目画像161が映し出される。
音声対話装置100の鼻の位置には、カメラ102が目立たないように配置されている。カメラ102は、例えばCMOSセンサを含み、外部環境を認識するための画像を取得する撮像部として機能する。音声対話装置100の口の位置には、スピーカ109が隠されて配置されている。スピーカ109は、音声対話装置100が生成した音声を発する発話出力部として機能する。対象者は、口の位置から出力される音声に、音声対話装置100が喋っているような感覚を覚える。また、頭部120のいずれかの位置には、マイク101が隠されて配置されている。マイク101は、対象者の発話音声を検出する検出部としての機能を担う。
図2は、音声対話装置100のシステム構成図である。音声対話装置100は、主なシステム構成として、マイク101、カメラ102、表示パネル106、スピーカ109、モータ111、制御部200、および応答音声DB310を備えている。制御部200は、例えばCPUによって構成され、機能ごとの実行を担う機能実行部としても動作し、主に、発話認識部201、顔認識部202、視線制御部203、表示制御部204、モータ制御部205、音声選択部206、発話制御部207、視線検知部208、注視判定部209、及び注意喚起部210として動作する。
マイク101は、主な機能として、音声対話装置100が対話する相手である対象者の発話音声を集音する。マイク101は、集音した対象者の発話音声を音声信号に変換して、発話認識部201へ引き渡す。
発話認識部201は、マイク101から受け取った音声信号を解析して対象者の発話を認識する。発話認識部201は、マイク101と協働して、音声対話装置100へ向かって話しかける対象者の発話を取得する発話取得部としての機能を担う。発話認識部201は、具体的には、一般的な音声認識技術により対象者の発話内容を認識する。発話認識部201は、認識した発話内容を音声選択部206へ引き渡す。
音声選択部206は、発話認識部201で認識された対象者の発話内容に対して会話としてふさわしいセンテンスを選択し、選択したセンテンスに応じた発話データを応答音声DB310から収集して、発話制御部207へ引き渡す。また、音声選択部206は、注意喚起部210もしくはエンゲージメントレベル判定部212からの指示により、対象者に対し、対象者が推奨される行動を行うように促す“問いかけ”を行うためのセンテンスを選択する。さらに、音声選択部206は、注意喚起部210からの指示により、対象者に対して音声対話装置に注意を向けさせる“呼びかけ”を行うためのセンテンスを選択する。
応答音声DB310は、音声選択部206に接続されている応答音声のデータベースであり、例えばハードディスクドライブの記録媒体によって構成されている。応答音声DB310は、例えばコーパスとして体系化されており、個々の用語は、再生可能な発話データを伴って格納されている。
発話制御部207は、受け取った発話データを音声信号に変換してスピーカ109へ引き渡す。音声選択部206と発話制御部207は、互いに協働して、対象者の発話内容に基づいて応答音声を生成する音声生成部としての機能を担う。スピーカ109は、発話制御部207で変換された音声信号を受け取って、応答音声を音声出力する。
発話認識部201は、対象者が発話を始めたタイミングを視線制御部203へ引き渡す。また、発話制御部207は、応答音声を音声出力するタイミングを視線制御部203へ引き渡す。視線制御部203は、これらのタイミング情報に同期させて、視線方向の調整を実行する。
カメラ102は、主な機能として、音声対話装置100と対話を取る対象者を撮影する。カメラ102は、撮影した画像を画像信号に変換して、顔認識部202へ引き渡す。
顔認識部202は、カメラ102から受け取った画像信号を解析して対象者の顔を認識する。顔認識部202は、抽出した顔領域中から、対象者の基準方向を決定する。基準方向は、音声対話装置100から、例えば対象者の両目を結ぶ中点へ向かう方向である。基準方向は、三次元空間におけるベクトルで表されるので、基準方向を定めるためには、音声対話装置100から対象者(対象者の顔)までの距離情報が必要である。距離情報は、例えばカメラ102がステレオカメラで構成される場合には画像間のズレ量から算出することができ、赤外線にも感度を有するカメラで構成される場合には投光した赤外線パターンの歪みから算出することができる。なお、距離情報を取得する手法は、音声対話装置100の仕様に応じて公知技術を任意に選択することができる。
視線制御部203は、発話認識部201、発話制御部207から受け取ったタイミング、あるいはその他のタイミングに同期して、視線方向を顔認識部202から受け取った基準方向へ向ける制御を行う。つまり、視線制御部203は、視線方向を基準方向に一致させるために、黒目画像161の位置を変化させる変化量と、頭部120の向きを変化させる変化量を決定し、それぞれを表示制御部204とモータ制御部205へ引き渡す。
表示制御部204は、視線制御部203から受け取った黒目画像161の位置の変化量に従って、表示パネル106上で黒目画像161の位置を移動させる。表示制御部204は、受け取った変化量の大きさ、すなわち黒目画像161を移動させる距離に応じて、中間的な表示画像を段階的に生成し、アニメーションとして黒目画像161を表示すると良い。モータ制御部205は、視線制御部203から受け取った頭部120の向きの変化量に従って、モータ111を駆動する。
視線検知部208は、対象者の視線を検知する。具体的には、顔認識部202においてカメラ102の撮像した画像の信号を解析することによって認識した対象者の顔から目を抽出し、対象者の視線方向を推定する。対象者の視線方向を推定する手法は、例えば、三次元眼球モデルに基づく手法や、眼球の見えに基づく手法などの公知技術を用いることができる。三次元眼球モデルに基づく手法では、楕円当てはめ、エッジ検出により虹彩や瞳孔の位置を推定し、三次元眼球モデルとのフィッティングを行うことによって視線方向を推定する。眼球の見えに基づく手法では、画像から眼の虹彩の検出は行わず、様々な方向を見ている眼領域の画像を大量に集め、その輝度値の分布を学習することで視線方向を推定する。輝度値の分布の学習には、例えばニューラルネットワークを用いる。
注視判定部209は、視線検知部208からの情報に基づいて注視度合い(Attention Level)が所定の水準より高いか否かを判定する。ここで、注視度合いは、対象者が音声対話装置に対して視線を向けている程度の指標であり、例えば、所定の期間に、対象者が音声対話装置に対して視線を向けている時間の長さである。つまり、所定の期間に、対象者が音声対話装置に対して視線を向けている時間の長さが、予め定めた閾値以上である場合に注視度合いが所定の水準より高いと判定し、予め定めた閾値未満である場合に注視度合いが所定の水準より低いと判定する。これにより、対象者の注視度合いを客観的に判断することができる。
注意喚起部210は、注視度合いが所定の水準より高い場合、対象者に対して“問いかけ”を行い、推奨される行動を実行するよう対象者に促し、注視度合いが所定の水準より低い場合、対象者に対してロボットに注意を向けさせるための呼びかけを行う。注意喚起部210は、推奨される行動を実行するよう対象者に促す“問いかけ”を行う場合、音声選択部206に対して、“問いかけ”を行うためのセンテンスを選択するよう指示する。また、注意喚起部210は、対象者に対して音声対話装置に注意を向けさせる“呼びかけ”を行う場合、音声選択部206に対して、“呼びかけ”を行うためのセンテンスを選択するよう指示する。
応答内容判定部211は、問いかけをした際に、問いかけに対して対象者より予め想定された応答があったかどうかを判定し、対象者より予め想定された応答があったと判定された場合には対象者への問いかけを終了する。応答内容判定部211において、問いかけに対して対象者より予め想定された応答があったかどうかの判定は、問いかけをした際に、発話認識部201により認識された対象者の応答を、ルールベースまたは機械学習の手法により分析することにより行う。ここで、予め想定された応答とは、対象者が推奨される行動を行う意思があること表明する内容の応答である。エンゲージメントレベル判定部212は、応答内容判定部211において、対象者より予め想定された応答がなかったと判定された場合に対象者がどの程度対話の継続に積極的であるかを表す指標であるエンゲージメントレベルを算出する。さらに、エンゲージメントレベル判定部212は、算出したエンゲージメントレベルが、第1の閾値以上の場合には対象者に再度問いかけを行うようにし、第1の閾値未満の場合には対象者への問いかけを終了する。
エンゲージメントレベル判定部212は、算出したエンゲージメントレベルが、第1の閾値以上で第2の閾値未満である場合には前回の問いかけとは表現を変えて再度問いかけを行うようにしてもよい。このようにする場合、エンゲージメントレベル判定部212は、第1の閾値よりも高い第2の閾値以上である場合には前回の問いかけと同じ表現で再度問いかけを行う。
次に、音声対話装置100における対象者に対し声かけする処理の流れについて説明する。なお、以下の説明では、図1についても適宜参照する。
図3及び図4は、音声対話装置100における対象者に対し声かけする処理の流れを示すフローチャートである。図3には、対象者に対して音声対話装置に注意を向けさせるための問いかけを行うまでの処理(ステップS101からステップS108)を示す。図4には、対象者に対して音声対話装置に注意を向けさせるための問いかけを行った後の処理(ステップS110からステップS115)を示す。
図3に示すように、まず、対象者にとって推奨される行動の計画の確認を行う(ステップS101)。ここで、対象者の推奨される行動とは、例えば、対象者が介護施設の入居者であれば、起床する、朝昼晩の食事をしに食堂へ行く、日課の体操を行う、レクリエーションに行く、入浴に行くなどである。なお、対象者にとって推奨される行動の計画は、対象者のその日の行動予定であり、音声対話装置100に内蔵されたメモリなどに予め格納され、注意喚起部210において適宜参照される。続いて、現状把握を行う(ステップS102)。ここで、現状把握とは、現時刻の確認と対象者の状態の確認をすること、つまり、現時刻は昼寝時間など声かけしてはいけない時間に当たるか、対象者が電話中などの声かけをしてはいけない状態にあるか、を確認することである。
続いて、対象者の推奨される行動のうち、開始条件を満たす最優先の行動を選択する(ステップS103)。ここで、開始条件を満たすとは、行動の開始予定時刻(または、行動を行うのに推奨される時刻)と現時刻との時間差が所定時間以内であり、かつ、対象者が声かけしてもよい状態にある場合である。開始条件を満たす行動が複数ある場合は、対象者の推奨される行動の計画において予め定められた優先順位の最も高い(最優先の)行動を選択する。例えば、15:00において対象者の推奨される行動がレクリエーションまたは入浴である場合に、対象者の体調などの諸事情を考慮して、レクリエーションの方が推奨されるのであれば、レクリエーションを選択するようにする。
続いて、対象者が今、実行すべき行動があるかないかを判定する(ステップS104)。すなわち、ステップS103の処理で選択された行動があったか否かを判定する。ステップS104において、実行すべきタスクがないと判定された場合、サーボを停止して待機状態とし(ステップS105)、処理をステップS102に戻す。
ステップS104において、実行すべきタスクがあると判定された場合、対象者が音声対話装置100に対して視線を向けている程度の指標である注視度合いを取得する(ステップS106)。続いて、注視度合いが所定の水準より高いか否かを判定する(ステップS107)。ステップS107において、注視度合いが所定の水準より高い場合、対象者に対して推奨される行動を行うよう即す問いかけを行う(ステップS108)。ステップS107において、注視度合いが所定の水準より低い場合、前記対象者に対して音声対話装置に注意を向けさせるための呼びかけを行い(ステップS109)、処理をステップS106に戻す。
ステップS108に続いて、図4に示すように、対象者から予め想定された応答があったか否かを判定する(ステップS110)。ステップS110において、対象者から予め想定された応答があったと判定された場合は、処理を終了する。ステップS110において、対象者から予め想定された応答がなかったと判定された場合は、エンゲージメントレベルを算出する(ステップS111)。
ステップS111に続いて、エンゲージメントレベルが第1の閾値以上か否かを判定する(ステップS112)。ステップS112において、エンゲージメントレベルが第1の閾値以上と判定された場合は、エンゲージメントレベルが第2の閾値以上か否かを判定する(ステップS113)。ステップS112において、エンゲージメントレベルが第1の閾値未満と判定された場合は、処理を終了する。
ステップS113において、エンゲージメントレベルが第2の閾値以上と判定された場合は、対象者に対し、前回の問いかけと同じ表現で再度問いかけを行い(ステップS114)、処理をステップS110に戻す。ステップS113において、エンゲージメントレベルが第2の閾値未満と判定された場合は、対象者に対し、前回の問いかけとは表現を変えて再度問いかけを行い(ステップS115)、処理をステップS110に戻す。
次に、図4に示すフローチャートにおけるステップS110の処理(対象者から予め想定された応答があったか否かを判定する処理)について具体的に説明する。
図5は、図4に示すフローチャートにおけるステップS110の処理について具体的に説明する模式図である。図5に示すように、対象者Tに対して、音声対話装置100が、例えば「15:00からのレクリエーションに参加しませんか?」といった、推奨される行動を実行するよう対象者に促す“問いかけ”を行ったとする。
当該問いかけに対する対象者Tからの応答が予め想定された応答である、とは、図5の上段に示すように、「分かった、参加するよ。」といったように、対象者が推奨される行動を行う意思があること表明する内容を含む応答である。このような応答があった場合、推奨される行動を実行するよう対象者に促すという目的が達成されたので、音声対話装置100は、対象者に対し声かけする処理を終了する。
当該問いかけに対する対象者Tからの応答が予め想定された応答ではない、とは、図5の下段に示すように、「うーん、どうしようかなぁ?」といったように、対象者が推奨される行動を行う意思があること表明する内容を含まない応答である。このような応答があった場合、推奨される行動を実行するよう対象者に促すという目的が達成されていないので、音声対話装置100は、さらに次の処理(図4のステップS111)を行う。
次に、図4に示すフローチャートにおけるステップS111の処理(エンゲージメントレベルを算出する処理)及びステップS112の処理(エンゲージメントレベルが第1の閾値以上か否かを判定する処理)について具体的に説明する。
図6は、図4に示すフローチャートにおけるステップS111及びステップS112の処理について具体的に説明する模式図である。図6に示すように、エンゲージメントレベルは、対象者Tと音声対話装置100との距離Lによって判定する。ここで、対象者Tと音声対話装置100との距離Lは、顔認識部202において、カメラ102から受け取った画像信号を解析することにより算出する。
音声対話装置100との対話を適切に行うために、対象者Tは、対象者Tと音声対話装置100との距離Lが推奨距離(例えば2~3m)以内になるように音声対話装置100に近づいて対話を行う必要がある。このため、音声対話装置100の問いかけに対して、対象者Tが音声対話装置100との対話の継続に積極的である場合には、音声対話装置100に近づいて応答を行うと考えられる。つまり、対象者Tと音声対話装置100との距離Lが、短い場合には長い場合よりもエンゲージメントレベルが高くなると考えられる。このように、対象者Tと音声対話装置100との距離Lと、エンゲージメントレベルと、の間には相関があるので、音声対話装置100の問いかけに対して、対象者Tが応答を行ったときの、対象者Tと音声対話装置100との距離Lに応じてエンゲージメントレベルを算出することができる。
ここで、第1の閾値に対応する、対象者Tと音声対話装置100との距離Lを第1の距離L1とする。図6の上段に示すように、対象者Tと音声対話装置100との距離Lが第1の距離L1以下の場合にはエンゲージメントレベルは第1の閾値以上であると判定される。このように判定された場合、音声対話装置100は、さらに次の処理(図4のステップS111)を行う。一方、図6の下段に示すように、対象者Tと音声対話装置100との距離Lが第1の距離L1より長い場合にはエンゲージメントレベルは第1の閾値未満であると判定される。このように判定された場合、音声対話装置100は、対象者Tが対話の継続に積極的ではないと判断し、これ以上無理に対話を継続すると対象者Tに不快な思いをさせてしまうことになるため、対象者Tに対し声かけする処理を終了する。
次に、図4に示すフローチャートにおけるステップS113の処理(エンゲージメントレベルが第2の閾値以上か否かを判定する処理)について具体的に説明する。
図7は、図4に示すフローチャートにおけるステップS113の処理について具体的に説明する模式図である。ここで、第1の閾値に対応する、対象者Tと音声対話装置100との距離Lを第1の距離L1、第1の閾値よりも高い第2の閾値に対応する、対象者Tと音声対話装置100との距離Lを第2の距離L2とする。
図7の上段に示すように、対象者Tと音声対話装置100との距離Lが第2の距離L2以下の場合にはエンゲージメントレベルは第2の閾値以上であると判定される。すなわち、エンゲージメントレベルは非常に高く、対象者Tは対話の継続に非常に積極的であると考えられる。このように、エンゲージメントレベルが第2の閾値以上と高い場合、対象者Tは音声対話装置100の問いかけの意味が分からなかった可能性がある。このような場合、音声対話装置100は、対象者Tに対し、前回の問いかけと同じ表現で再度問いかけを行うようにする。
一方、図7の下段に示すように、対象者Tと音声対話装置100との距離Lが、第2の距離L2より長く第1の距離L1以下の場合には、エンゲージメントレベルは第1の閾値以上で第2の閾値未満であると判定される。このように、対象者Tのエンゲージメントレベルが、対話の継続を望んでいない程には低くないが、対話の継続に非常に積極的という程ではないという場合、対象者に対し、前回の問いかけとは表現を変えて再度問いかけを行う。例えば、前回の問いかけが「15:00からのレクリエーションに参加しませんか?」であった場合、再度の問いかけでは「15:00からのレクリエーションは、歌に関するもので、ストレス発散になりますよ。」と、より対象者Tの興味をそそる表現に変える。
図2に示すエンゲージメントレベル判定部212において、発話認識部201において認識された、音声対話装置100の問いかけに対する対象者の応答内容を考慮してエンゲージメントレベルを算出するようにしてもよい。音声対話装置100の問いかけに対する対象者の応答内容は、対象者のエンゲージメントレベルと相関があると考えられる。例えば、図6の下段に示すように、対象者Tの応答内容には、「しかしねぇ」という否定語が含まれる。このように、対象者の応答内容に、問いかけの内容を否定する表現が含まれている場合、エンゲージメントレベル判定部212では、エンゲージメントレベルをより低く算出するようにしてもよい。
図2に示す顔認識部202において、認識された対象者の顔について、さらに表情を分析し、当該表情を分析した結果を、エンゲージメントレベル判定部212におけるエンゲージメントレベルの算出に考慮するようにしてもよい。対象者の顔の表情は、対象者のエンゲージメントレベルと相関があると考えられる。当該表情の分析は、例えばニューラルネットワークなどの機械学習の手法により行う。例えば、図6の下段に示すように、対象者Tの表情には問いかけに対して困惑している様子が伺える。顔認識部202における当該表情の分析において、このような困惑の表情が検出された場合、エンゲージメントレベル判定部212では、エンゲージメントレベルをより低く算出するようにしてもよい。
また、顔認識部202において、対象者の顔に加えて、対象者における顔以外の部位についても認識するようにし、対象者の挙動を分析してもよい。対象者の挙動は、対象者のエンゲージメントレベルと相関があると考えられる。対象者の挙動としては、相槌、笑い、うなずきといった顔に関する挙動の他、手足の動きなどが考えらえられる。そして、対象者の挙動を分析した結果を、エンゲージメントレベル判定部212におけるエンゲージメントレベルの算出に考慮するようにしてもよい。例えば、図6の下段に示すように、対象者Tは手にしている本で顔を隠すようにしており、困惑している挙動が伺える。顔認識部202における当該挙動の分析において、このような困惑の挙動が検出された場合、エンゲージメントレベル判定部212では、エンゲージメントレベルをより低く算出するようにしてもよい。
[変形例1]
図2に示す顔認識部202における、対象者Tと音声対話装置100との距離Lの算出は、音声対話装置100の外部にある外部装置に設置されたカメラによる撮像画像に基づいて行うようにしてもよい。図8は、外部装置500の構成の一例を示す模式図である。図8に示すように、外部装置500は居室の天井に設置されている。外部装置500には、カメラ510が設置されている。また、外部装置500と音声対話装置100とは、無線通信を行うための無線ルータ520、530を介して接続されている。カメラ510は、撮影した画像を画像信号に変換し、無線ルータ520、530を介して画像データを音声対話装置100(具体的には、図2に示す制御部200の顔認識部202)へ引き渡す。外部装置500は、音声対話装置100よりも設置の自由度が高い。例えば外部装置500を居室の天井に設置すれば、カメラ510は居室内の広い範囲の撮像が可能になる。このため、カメラ510により撮像された画像により、対象者Tと音声対話装置100との位置関係を精度良く把握することができる。このため、対象者Tと音声対話装置100との距離Lの算出を、音声対話装置100の外部にある外部装置に設置されたカメラによる撮像画像に基づいて行うことで、対象者Tと音声対話装置100との距離Lの算出の精度をより向上させることができる。
[実施の形態2]
以下、図面を参照して本発明の実施の形態2について説明する。
図9は、実施の形態2に係る制御装置300の構成について説明するブロック図である。図9には制御装置300の制御対象である音声対話装置400の構成も示されている。音声対話装置400は、制御部450において、注視判定部、注意喚起部、応答内容判定部及びエンゲージメントレベル判定部の機能ブロックを備えていない点のみが、図2に示す実施の形態1に係る音声対話装置100との相違点である。実施の形態2に係る制御装置300は、制御部350において、これらの機能ブロック、すなわち、注視判定部209、注意喚起部210、応答内容判定部211及びエンゲージメントレベル判定部212を備えている。制御部300は、例えばCPUによって構成される。音声対話装置400は、制御装置300の制御により、図3及び図4を参照して説明した、対象者に対し声かけする処理を実現する。このような構成によれば、対象者を不快にさせてしまったりする可能性を低減しつつ、効率的に対象者が推奨される行動を行うよう促すことができる。
なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。
本発明にかかる、対象者に対し声かけする処理は、コンピュータなどにプログラムを実行させることによって実現できる。より具体的には、音声対話装置、制御装置のいずれか一つが備えるコンピュータにおいて、プログラムメモリに格納されたプログラムを主記憶装置にロードし、CPUの制御によって当該プログラムを実行して実現する。ここで、プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、CD-ROM(Read Only Memory)、CD-R、CD-R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(random access memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
100、400 音声対話装置
101 マイク
102、510 カメラ
106 表示パネル
109 スピーカ
110 胴体部
111 モータ
120 頭部
122 眼球部
161 黒目画像
200、450 制御部
201 発話認識部
202 顔認識部
203 視線制御部
204 表示制御部
205 モータ制御部
206 音声選択部
207 発話制御部
208 視線検知部
209 注視判定部
210 注意喚起部
211 応答内容判定部
212 エンゲージメントレベル判定部
300 制御装置
500 外部装置
520、530 無線ルータ

Claims (7)

  1. 対象者に対し、前記対象者が推奨される行動を行うように促すための問いかけを行う音声対話装置であって、
    前記問いかけをした際に、前記問いかけに対して前記対象者より予め想定された応答があったかどうかを判定し、前記対象者より予め想定された応答があったと判定された場合には前記対象者への問いかけを終了する応答内容判定部と、
    前記応答内容判定部において、前記対象者より予め想定された応答がなかったと判定された場合に前記対象者がどの程度対話の継続に積極的であるかを表す指標であるエンゲージメントレベルを算出し、算出した前記エンゲージメントレベルが、第1の閾値以上の場合には前記対象者に再度問いかけを行うようにし、前記第1の閾値未満の場合には前記対象者への問いかけを終了するエンゲージメントレベル判定部と、を備え
    前記エンゲージメントレベル判定部において、算出した前記エンゲージメントレベルが、前記第1の閾値よりも高い第2の閾値以上である場合には前回の問いかけと同じ表現で再度問いかけを行い、前記第1の閾値以上で前記第2の閾値未満である場合には前回の問いかけとは表現を変えて再度問いかけを行うようにする、音声対話装置。
  2. 前記エンゲージメントレベル判定部において、前記エンゲージメントレベルを前記対象者と前記音声対話装置との距離に応じて算出する、請求項1に記載の音声対話装置。
  3. 前記対象者と前記音声対話装置との距離の算出は、前記音声対話装置の外部にある外部装置に設置されたカメラによる撮像画像に基づいて行う、請求項に記載の音声対話装置。
  4. 前記エンゲージメントレベル判定部において、前記エンゲージメントレベルを、前記問いかけに対する前記対象者の応答内容を考慮して算出する、請求項1または2に記載の音声対話装置。
  5. 前記エンゲージメントレベル判定部において、前記エンゲージメントレベルを、前記問いかけに対する前記対象者の顔の表情や挙動を考慮して算出する、請求項1または2に記載の音声対話装置。
  6. 対象者に対し、前記対象者が推奨される行動を行うように促すための問いかけを行う音声対話装置の制御装置であって、
    前記音声対話装置により前記問いかけをした際に、前記問いかけに対して前記対象者より予め想定された応答があったかどうかを判定し、予め想定された応答があったと判定された場合には前記対象者への問いかけを終了するよう前記音声対話装置に指示する応答内容判定部と、
    前記応答内容判定部において、前記対象者より予め想定された応答がなかったと判定された場合に前記対象者がどの程度対話の継続に積極的であるかを表す指標であるエンゲージメントレベルを算出し、算出した前記エンゲージメントレベルが、第1の閾値以上の場合には前記対象者に再度問いかけを行うよう前記音声対話装置に指示し、前記第1の閾値未満の場合には前記対象者への問いかけを終了するよう前記音声対話装置に指示するエンゲージメントレベル判定部と、を備え
    前記エンゲージメントレベル判定部において、算出した前記エンゲージメントレベルが、前記第1の閾値よりも高い第2の閾値以上である場合には前回の問いかけと同じ表現で再度問いかけを行い、前記第1の閾値以上で前記第2の閾値未満である場合には前回の問いかけとは表現を変えて再度問いかけを行うよう前記音声対話装置に指示する、音声対話装置の制御装置。
  7. 対象者に対し、前記対象者が推奨される行動を行うように促すための問いかけを行う音声対話装置の制御プログラムであって、
    前記問いかけをした際に、前記問いかけに対して前記対象者より予め想定された応答があったかどうかを判定し、予め想定された応答があったと判定された場合には前記対象者への問いかけを終了する第1ステップと、
    前記第1のステップにおいて、前記対象者より予め想定された応答がなかったと判定された場合に前記対象者がどの程度対話の継続に積極的であるかを表す指標であるエンゲージメントレベルを算出し、算出した前記エンゲージメントレベルが、第1の閾値以上の場合には前記対象者に再度問いかけを行うようにし、前記第1の閾値未満の場合には前記対象者への問いかけを終了する第2のステップと、
    前記第2のステップにおいて、算出した前記エンゲージメントレベルが、前記第1の閾値よりも高い第2の閾値以上である場合には前回の問いかけと同じ表現で再度問いかけを行い、前記第1の閾値以上で前記第2の閾値未満である場合には前回の問いかけとは表現を変えて再度問いかけを行うようにする第3のステップと、を前記音声対話装置のコンピュータに実行させる制御プログラム。
JP2019019745A 2019-02-06 2019-02-06 音声対話装置、音声対話装置の制御装置及び制御プログラム Active JP7120060B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2019019745A JP7120060B2 (ja) 2019-02-06 2019-02-06 音声対話装置、音声対話装置の制御装置及び制御プログラム
CN202010036348.1A CN111540383A (zh) 2019-02-06 2020-01-14 语音会话装置及其控制装置、控制程序以及控制方法
US16/781,651 US11682389B2 (en) 2019-02-06 2020-02-04 Voice conversation system, control system for voice conversation system, and control program, and control method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019019745A JP7120060B2 (ja) 2019-02-06 2019-02-06 音声対話装置、音声対話装置の制御装置及び制御プログラム

Publications (2)

Publication Number Publication Date
JP2020126195A JP2020126195A (ja) 2020-08-20
JP7120060B2 true JP7120060B2 (ja) 2022-08-17

Family

ID=71836090

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019019745A Active JP7120060B2 (ja) 2019-02-06 2019-02-06 音声対話装置、音声対話装置の制御装置及び制御プログラム

Country Status (3)

Country Link
US (1) US11682389B2 (ja)
JP (1) JP7120060B2 (ja)
CN (1) CN111540383A (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7331025B2 (ja) * 2021-02-05 2023-08-22 Necパーソナルコンピュータ株式会社 学習支援システム、学習支援方法、及びプログラム
CN112949551A (zh) * 2021-03-19 2021-06-11 科大讯飞股份有限公司 一种眼部关键信息确定方法、装置、设备及存储介质
WO2022215104A1 (ja) * 2021-04-05 2022-10-13 三菱電機株式会社 音声対話装置および音声対話方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013154458A (ja) 2012-01-31 2013-08-15 Fujitsu Ltd 対話装置、対話プログラムおよび対話方法
JP2016076007A (ja) 2014-10-03 2016-05-12 株式会社Nttドコモ 対話装置および対話方法
JP2017073125A (ja) 2015-09-14 2017-04-13 富士通株式会社 行動推奨のための会話生成
JP2018049132A (ja) 2016-09-21 2018-03-29 トヨタ自動車株式会社 音声対話システムおよび音声対話方法
WO2018105373A1 (ja) 2016-12-05 2018-06-14 ソニー株式会社 情報処理装置、情報処理方法、および情報処理システム

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006252458A (ja) * 2005-03-14 2006-09-21 Yamaha Corp 複数話者の音声信号を処理する音声信号処理装置およびプログラム
WO2007041295A2 (en) * 2005-09-30 2007-04-12 Irobot Corporation Companion robot for personal interaction
US20180144649A1 (en) * 2010-06-07 2018-05-24 Affectiva, Inc. Smart toy interaction using image analysis
US10796176B2 (en) * 2010-06-07 2020-10-06 Affectiva, Inc. Personal emotional profile generation for vehicle manipulation
CA2814426A1 (en) * 2010-10-15 2012-04-19 Intelligent Mechatronic Systems Inc. Implicit association and polymorphism driven human machine interaction
US9727885B1 (en) * 2012-07-12 2017-08-08 Benovate Inc. Systems and methods for producing personalized health recommendation data
WO2014038788A1 (ko) * 2012-09-04 2014-03-13 에스케이플래닛 주식회사 그룹 스케줄 관리 시스템 및 방법
US9536049B2 (en) * 2012-09-07 2017-01-03 Next It Corporation Conversational virtual healthcare assistant
US20170206064A1 (en) * 2013-03-15 2017-07-20 JIBO, Inc. Persistent companion device configuration and deployment platform
US9808709B2 (en) * 2013-09-27 2017-11-07 PlayNovation LLC System and methods for biometric detection of play states, intrinsic motivators, play types/patterns and play personalities
JP2015132878A (ja) 2014-01-09 2015-07-23 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
US10311694B2 (en) * 2014-02-06 2019-06-04 Empoweryu, Inc. System and method for adaptive indirect monitoring of subject for well-being in unattended setting
EP2933070A1 (en) * 2014-04-17 2015-10-21 Aldebaran Robotics Methods and systems of handling a dialog with a robot
US9715875B2 (en) * 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
WO2015198317A1 (en) * 2014-06-23 2015-12-30 Intervyo R&D Ltd. Method and system for analysing subjects
US9375845B1 (en) * 2014-09-30 2016-06-28 Sprint Communications Company, L.P. Synchronizing robot motion with social interaction
US10223442B2 (en) * 2015-04-09 2019-03-05 Qualtrics, Llc Prioritizing survey text responses
US10324979B2 (en) * 2015-06-01 2019-06-18 AffectLayer, Inc. Automatic generation of playlists from conversations
US9724824B1 (en) * 2015-07-08 2017-08-08 Sprint Communications Company L.P. Sensor use and analysis for dynamic update of interaction in a social robot
US11064952B2 (en) * 2015-12-30 2021-07-20 Zoll Medical Corporation External medical device that identifies a response activity
US9921574B1 (en) * 2016-03-03 2018-03-20 Sprint Communications Company L.P. Dynamic interactive robot dialogue creation incorporating disparate information sources and collective feedback analysis
US10714081B1 (en) * 2016-03-07 2020-07-14 Amazon Technologies, Inc. Dynamic voice assistant interaction
WO2018022808A1 (en) * 2016-07-27 2018-02-01 Warner Bros. Entertainment Inc. Control of social robot based on prior character portrayal in fiction or performance
US20190043623A1 (en) * 2017-08-04 2019-02-07 Thomas W. WATLINGTON, IV System and method for physiological and psychological support in home healthcare
US20190068526A1 (en) * 2017-08-25 2019-02-28 Facebook, Inc. Methods and systems for helper bot platform assistance
WO2019044485A1 (ja) * 2017-08-28 2019-03-07 ソニー株式会社 情報処理装置、及び情報処理方法
JP3224675U (ja) * 2017-12-05 2020-01-16 ユエン リー ヴィオラ ラム, 瞳孔反応、顔追跡、及び感情検出を使用した対話型・適応型学習、神経認知障害診断、並びに非追随性検出のシステム
US20190190874A1 (en) * 2017-12-15 2019-06-20 Facebook, Inc. People Matching for Social Activities on an Online Social Network
US11221669B2 (en) * 2017-12-20 2022-01-11 Microsoft Technology Licensing, Llc Non-verbal engagement of a virtual assistant
US11900928B2 (en) * 2017-12-23 2024-02-13 Soundhound Ai Ip, Llc System and method for adapted interactive experiences
CN108510986A (zh) * 2018-03-07 2018-09-07 北京墨丘科技有限公司 语音交互方法、装置、电子设备及计算机可读存储介质
US11279041B2 (en) * 2018-10-12 2022-03-22 Dream Face Technologies, Inc. Socially assistive robot

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013154458A (ja) 2012-01-31 2013-08-15 Fujitsu Ltd 対話装置、対話プログラムおよび対話方法
JP2016076007A (ja) 2014-10-03 2016-05-12 株式会社Nttドコモ 対話装置および対話方法
JP2017073125A (ja) 2015-09-14 2017-04-13 富士通株式会社 行動推奨のための会話生成
JP2018049132A (ja) 2016-09-21 2018-03-29 トヨタ自動車株式会社 音声対話システムおよび音声対話方法
WO2018105373A1 (ja) 2016-12-05 2018-06-14 ソニー株式会社 情報処理装置、情報処理方法、および情報処理システム

Also Published As

Publication number Publication date
CN111540383A (zh) 2020-08-14
US11682389B2 (en) 2023-06-20
US20200251110A1 (en) 2020-08-06
JP2020126195A (ja) 2020-08-20

Similar Documents

Publication Publication Date Title
US11017779B2 (en) System and method for speech understanding via integrated audio and visual based speech recognition
JP6841167B2 (ja) コミュニケーション装置、コミュニケーションロボットおよびコミュニケーション制御プログラム
JP7120060B2 (ja) 音声対話装置、音声対話装置の制御装置及び制御プログラム
US20200027455A1 (en) Dialog system, dialog method, dialog apparatus and program
JP2004310034A (ja) 対話エージェントシステム
US11222634B2 (en) Dialogue method, dialogue system, dialogue apparatus and program
WO2019161193A2 (en) System and method for adaptive detection of spoken language via multiple speech models
JP5294315B2 (ja) 対話活性化ロボット
US20220101856A1 (en) System and method for disambiguating a source of sound based on detected lip movement
JP2006071936A (ja) 対話エージェント
CN111002303B (zh) 识别装置、机器人、识别方法和存储介质
JP6583765B2 (ja) エージェント対話システムおよびプログラム
JP2008509455A (ja) ユーザとシステムとの間の通信方法及びシステム
JP6992957B2 (ja) エージェント対話システム
Matsusaka et al. Conversation robot participating in group conversation
JP2020113197A (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
JP2018062042A (ja) コミュニケーション装置
JP5223605B2 (ja) ロボットシステム、コミュニケーション活性化方法及びプログラム
JP2023055910A (ja) ロボット、対話システム、情報処理方法及びプログラム
JP2020091636A (ja) 音声対話装置の制御方法
WO2020175969A1 (ko) 감정 인식 장치 및 감정 인식 방법
JP2018149625A (ja) コミュニケーションロボット、プログラム及びシステム
KR102051217B1 (ko) 생체 모방 기반 동물형 로봇의 감정표현 제어 장치 및 방법
JP6647636B2 (ja) 対話方法、対話システム、対話装置、及びプログラム
JPH09269889A (ja) 対話装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210526

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220222

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220224

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220316

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220705

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220718

R151 Written notification of patent or utility model registration

Ref document number: 7120060

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151