JP6795387B2 - 音声対話装置、音声対話方法、音声対話プログラム及びロボット - Google Patents

音声対話装置、音声対話方法、音声対話プログラム及びロボット Download PDF

Info

Publication number
JP6795387B2
JP6795387B2 JP2016242180A JP2016242180A JP6795387B2 JP 6795387 B2 JP6795387 B2 JP 6795387B2 JP 2016242180 A JP2016242180 A JP 2016242180A JP 2016242180 A JP2016242180 A JP 2016242180A JP 6795387 B2 JP6795387 B2 JP 6795387B2
Authority
JP
Japan
Prior art keywords
topic
infant
activity
voice
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016242180A
Other languages
English (en)
Other versions
JP2018097185A (ja
Inventor
聖弥 樋口
聖弥 樋口
勇次 國武
勇次 國武
太田 雄策
雄策 太田
亮太 宮崎
亮太 宮崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP2016242180A priority Critical patent/JP6795387B2/ja
Priority to CN201710831295.0A priority patent/CN108231070B/zh
Priority to US15/834,030 priority patent/US10650815B2/en
Publication of JP2018097185A publication Critical patent/JP2018097185A/ja
Application granted granted Critical
Publication of JP6795387B2 publication Critical patent/JP6795387B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J11/00Manipulators not otherwise provided for
    • B25J11/0005Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J13/00Controls for manipulators
    • B25J13/003Controls for manipulators by means of an audio-responsive input
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/0003Home robots, i.e. small robots for domestic use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S901/00Robots
    • Y10S901/01Mobile robot
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S901/00Robots
    • Y10S901/46Sensing device

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)

Description

本開示は、複数のユーザと音声対話する音声対話装置、音声対話方法、音声対話プログラム及びロボットに関するとともに、ユーザと音声対話する音声対話装置、音声対話方法、音声対話プログラム及びロボットに関するものである。
従来技術では、対話者同士の発話に関連する事柄を話題として提供している(例えば、特許文献1、特許文献2及び特許文献3参照)。
特開2016−6607号公報 特開2013−73355号公報 特許第5300497号明細書
大人と幼児との対話においては、幼児が話しやすい話題を提供することが望ましい。
しかしながら、上記従来の技術では、更なる改善が必要とされていた。
本開示は、上記の問題を解決するためになされたもので、幼児の活動内容に応じた話題を提供することができ、幼児が会話しやすい話題を提供することができる音声対話装置、音声対話方法、音声対話プログラム及びロボットを提供することを目的とするものである。
本開示の一態様に係る装置は、複数のユーザと音声対話する装置であって、前記装置の周辺の画像データを取得するセンサと、前記装置の周辺の音を取得するマイクと、前記複数のユーザに対応する複数の画像データを記憶しているメモリと、前記複数のユーザは、大人と幼児とを含み、前記取得された画像データと前記記憶されている複数の画像データとに基づいて、前記取得された画像データに含まれる人物を推定し、前記推定した人物を示すユーザ情報を出力する推定部と、前記取得された音から音声を抽出し、前記音声に対応するテキストデータと前記音声の特徴量とを抽出し、前記テキストデータと前記特徴量とを対応付けて第1データベースに記録する音声認識部と、前記ユーザ情報と前記第1データベースとに基づいて、前記大人と前記幼児とが会話しているか否かを判定し、前記推定された人物が前記大人と前記幼児とであり、且つ、前記特徴量が互いに異なる複数の特徴量を含む場合、前記大人と前記幼児とが会話していると判定する第1判定部と、前記大人と前記幼児とが会話していると判定された場合、前記第1データベースに基づいて、前記大人と前記幼児とに新たに話題を提供する必要があるか否かを判定し、前記テキストデータに、第1キーワードが含まれている場合、前記大人と前記幼児とに新たに話題を提供する必要があると判定する第2判定部と、前記話題を提供する必要があると判定された場合、前記第1データベースと第2データベースとに基づいて、前記話題の候補を抽出する抽出部と、前記第2データベースは、前記幼児が第1所定期間に活動した項目を示す活動項目を記憶し、前記話題の候補は、前記活動項目に対応し、且つ、前記第1データベースに記録された前記テキストデータに含まれる活動項目に対応しておらず、前記話題の候補から前記大人と前記幼児とに提供する一の話題を選択する選択部と、前記一の話題を含む音声データを生成する生成部と、前記生成された音声データを出力するスピーカと、を備える。
本開示によれば、幼児の活動内容に応じた話題を提供することができ、幼児が会話しやすい話題を提供することができる。
話題提供装置が子どもと対話し、子どもが現在活動している活動項目を特定するとともに、子どもの運動量及び声の音量を測定し、活動項目と運動量と音量とをデータベース化する処理を説明するためのイメージ図である。 親子が対話中である際に、話題提供装置が対話の話題を特定する処理を説明するためのイメージ図である。 親子に対して次に提供する話題を話題提供装置が選択する処理を説明するためのイメージ図である。 選択された話題を話題提供装置が親子に対して提供する処理を説明するためのイメージ図である。 本実施の形態1における話題提供装置の全体構成を示す図である。 本実施の形態1における話題提供装置の第1処理部の構成を示す図である。 本実施の形態1における対話履歴データベースの一例を示す図である。 本実施の形態1における幼児活動データベースの一例を示す図である。 本実施の形態1における提供話題判断部が話題の候補から大人と幼児とに提供する一の話題を選択する処理について説明するための図である。 本実施の形態1における話題提供装置による話題提供処理の一例を示すフローチャートである。 図10のステップS13の提供話題文生成処理について説明するためのフローチャートである。 本実施の形態2における話題提供装置の第2処理部の構成を示す図である。 本実施の形態2において、活動項目推定部が活動項目を推定する際に用いる、活動項目と人体の各部位の運動量と姿勢の状態とを対応付けた表を示す図である。 本実施の形態2における話題提供装置による登録処理の一例を示す第1のフローチャートである。 本実施の形態2における話題提供装置による登録処理の一例を示す第2のフローチャートである。 本実施の形態3に係るロボットの外観図である。 本実施の形態3に係るロボットの構成を示すブロック図である。
(本開示の基礎となった知見)
特許文献1は、ネットワークを介して行われる対話型の通話を円滑に進める対話型通信システムを開示している。特許文献1では、対話型通信システムは、複数ユーザの会話が停滞した場合に、ワードデータベースから最近数ヶ月以内に対話型通信システムの会話に出現したワードを無作為に抽出するとともに、位置情報データベースから最近数ヶ月以内に対話型通信システムを利用したユーザ端末の位置情報を無作為に抽出し、抽出したワードと位置情報とに合致する話題を検索サイト又はニュースサイトへアクセスして検索し、検索した話題を提供している(例えば、段落0038参照)。また、特許文献1の対話型通信システムは、検索した話題に含まれるテキストデータ又は画像データを対話型通信画面に表示する(例えば、段落0039参照)。
また、特許文献2は、複数の話者による対話を支援する対話支援装置を開示している。特許文献2では、対話支援装置は、対話に機械翻訳が介在する場合に、対話に応じて知識を補うための補足情報を提示する。特許文献2の対話支援装置は、対話者の発話内容からキーワードを抽出し、補足説明データベースからキーワードに対応する複数の補足情報を出力し、複数の補足情報の中から、優先度が高い順に、予め定められた個数の補足情報を選択して提示する(例えば、段落0091、0095及び0097参照)。
また、特許文献3は、ユーザと対話する対話装置を開示している。特許文献3では、対話装置は、ユーザの発話に対してユーザの関心度に応じた応答を行う。特許文献3の対話装置は、ユーザが表した言語を構成する単語から主要語を抽出し、ユーザの関心度について少なくとも高低を示すユーザ関心度を判定し、関連語データベースからユーザ関心度に応じて主要語と関連する関連語を選択し、主要語と関連語とをそれらの主要語及び関連語の間の概念上の上下関係に対応する定型文に挿入して応答文を作成する(例えば、段落0011参照)。
しかしながら、上記の特許文献1では、無作為に抽出された過去に出現したワードと、無作為に抽出されたユーザ端末の位置情報とに合致する話題が、検索サイト又はニュースサイトから検索されて提供されるので、幼児の活動内容に応じた話題を提供することはできず、幼児が会話しやすい話題を提供することはできない。
また、上記の特許文献2では、対話者の発話内容からキーワードが抽出され、キーワードに対応する補足情報が優先度の順に提示されるので、幼児の活動内容に応じた話題を提供することはできず、幼児が会話しやすい話題を提供することはできない。
また、上記の特許文献3では、ユーザの発話に対してユーザの関心度に応じた応答を行っているが、幼児の活動内容に応じた話題を提供しておらず、幼児が会話しやすい話題を提供することはできない。
以上の課題を解決するために、本開示の一態様に係る装置は、複数のユーザと音声対話する装置であって、前記装置の周辺の画像データを取得するセンサと、前記装置の周辺の音を取得するマイクと、前記複数のユーザに対応する複数の画像データを記憶しているメモリと、前記複数のユーザは、大人と幼児とを含み、前記取得された画像データと前記記憶されている複数の画像データとに基づいて、前記取得された画像データに含まれる人物を推定し、前記推定した人物を示すユーザ情報を出力する推定部と、前記取得された音から音声を抽出し、前記音声に対応するテキストデータと前記音声の特徴量とを抽出し、前記テキストデータと前記特徴量とを対応付けて第1データベースに記録する音声認識部と、前記ユーザ情報と前記第1データベースとに基づいて、前記大人と前記幼児とが会話しているか否かを判定し、前記推定された人物が前記大人と前記幼児とであり、且つ、前記特徴量が互いに異なる複数の特徴量を含む場合、前記大人と前記幼児とが会話していると判定する第1判定部と、前記大人と前記幼児とが会話していると判定された場合、前記第1データベースに基づいて、前記大人と前記幼児とに新たに話題を提供する必要があるか否かを判定し、前記テキストデータに、第1キーワードが含まれている場合、前記大人と前記幼児とに新たに話題を提供する必要があると判定する第2判定部と、前記話題を提供する必要があると判定された場合、前記第1データベースと第2データベースとに基づいて、前記話題の候補を抽出する抽出部と、前記第2データベースは、前記幼児が第1所定期間に活動した項目を示す活動項目を記憶し、前記話題の候補は、前記活動項目に対応し、且つ、前記第1データベースに記録された前記テキストデータに含まれる活動項目に対応しておらず、前記話題の候補から前記大人と前記幼児とに提供する一の話題を選択する選択部と、前記一の話題を含む音声データを生成する生成部と、前記生成された音声データを出力するスピーカと、を備える。
この構成によれば、装置の周辺の画像データが取得される。装置の周辺の音が取得される。複数のユーザに対応する複数の画像データがメモリに記憶されている。複数のユーザは、大人と幼児とを含む。取得された画像データと記憶されている複数の画像データとに基づいて、取得された画像データに含まれる人物が推定され、推定された人物を示すユーザ情報が出力される。取得された音から音声が抽出され、音声に対応するテキストデータと音声の特徴量とが抽出され、テキストデータと特徴量とが対応付けられて第1データベースに記録される。ユーザ情報と第1データベースとに基づいて、大人と幼児とが会話しているか否かが判定される。推定された人物が大人と幼児とであり、且つ、特徴量が互いに異なる複数の特徴量を含む場合、大人と幼児とが会話していると判定される。大人と幼児とが会話していると判定された場合、第1データベースに基づいて、大人と幼児とに新たに話題を提供する必要があるか否かが判定される。テキストデータに、第1キーワードが含まれている場合、大人と幼児とに新たに話題を提供する必要があると判定される。話題を提供する必要があると判定された場合、第1データベースと第2データベースとに基づいて、話題の候補が抽出される。第2データベースは、幼児が第1所定期間に活動した項目を示す活動項目を記憶している。話題の候補は、活動項目に対応し、且つ、第1データベースに記録されたテキストデータに含まれる活動項目に対応していない。話題の候補から大人と幼児とに提供する一の話題が選択される。一の話題を含む音声データが生成される。生成された音声データが出力される。
したがって、大人と幼児との対話を示すテキストデータを記憶する第1データベースと、幼児が第1所定期間に活動した項目を示す活動項目を記憶する第2データベースとに基づいて、活動項目に対応し、且つ、第1データベースに記録されたテキストデータに含まれる活動項目に対応していない話題の候補が抽出され、話題の候補から大人と幼児とに提供する一の話題が選択されるので、幼児の活動内容に応じた話題を提供することができ、幼児が会話しやすい話題を提供することができる。
また、上記の装置において、前記第2データベースは、更に、前記活動項目に対応する運動量を示す運動量情報と、前記活動項目に対応する音量を示す音量情報と、前記活動項目に対応する日付を示す日付情報とを記憶し、前記抽出部は、前記第2データベースに基づいて、最新の活動項目を特定し、前記最新の活動項目と前記テキストデータに含まれる活動項目とは異なる第2活動項目を、前記話題の候補として抽出し、前記選択部は、前記最新の活動項目に対応する第1運動量と、前記最新の活動項目に対応する第1音量と、前記活動項目のうち第2活動項目に対応する第2運動量と、前記第2活動項目に対応する第2音量とに基づいて、前記第2活動項目から第3活動項目を前記一の話題として選択してもよい。
この構成によれば、第2データベースは、更に、活動項目に対応する運動量を示す運動量情報と、活動項目に対応する音量を示す音量情報と、活動項目に対応する日付を示す日付情報とを記憶している。第2データベースに基づいて、最新の活動項目が特定され、最新の活動項目とテキストデータに含まれる活動項目とは異なる第2活動項目が、話題の候補として抽出される。最新の活動項目に対応する第1運動量と、最新の活動項目に対応する第1音量と、活動項目のうち第2活動項目に対応する第2運動量と、第2活動項目に対応する第2音量とに基づいて、第2活動項目から第3活動項目が一の話題として選択される。
したがって、最新の活動項目とテキストデータに含まれる活動項目とは異なる第2活動項目が、話題の候補として抽出されるので、既に大人と幼児との対話で登場した活動項目を、話題の候補から除外することができ、新たな話題を提供することができる。
また、上記の装置において、前記選択部は、前記第1運動量に対する前記第2運動量の相対運動量の二乗と、前記第1音量に対する前記第2音量の相対音量の二乗との和が最大となる第2活動項目を前記第3活動項目として選択してもよい。
この構成によれば、第1運動量に対する第2運動量の相対運動量の二乗と、第1音量に対する第2音量の相対音量の二乗との和が最大となる第2活動項目が第3活動項目として選択される。
したがって、最新の活動項目とは、運動量及び音量が大きく異なる第2活動項目が第3活動項目として選択されるので、対話中の現在の話題とは全く異なる話題を提供することができる。
また、上記の装置において、前記抽出部は、前記最新の活動項目と前記テキストデータに含まれる活動項目とは異なり、且つ第2所定期間に記録された第2活動項目を、前記話題の候補として抽出してもよい。
この構成によれば、最新の活動項目とテキストデータに含まれる活動項目とは異なり、且つ第2所定期間に記録された第2活動項目が、話題の候補として抽出されるので、比較的新しい第2活動項目の中から話題の候補を抽出することができる。
また、上記の装置において、前記運動量情報は、前記運動量に第1係数が乗算された値であり、前記音量情報は、前記音量に第2係数が乗算された値であってもよい。
この構成によれば、運動量情報は、運動量に第1係数が乗算された値であり、音量情報は、音量に第2係数が乗算された値であるので、運動量のスケールと音量のスケールとを合わせることができる。
また、上記の装置において、前記生成部は、前記第2データベースに基づいて、前記第3活動項目に対応する第3運動量が第1閾値以上である場合は、第2キーワードを含む前記音声データを生成し、前記第2データベースに基づいて、前記第3活動項目に対応する第3運動量が前記第1閾値未満である場合は、第3キーワードを含む前記音声データを生成してもよい。
この構成によれば、第2データベースに基づいて、第3活動項目に対応する第3運動量が第1閾値以上である場合は、第2キーワードを含む音声データが生成される。また、第2データベースに基づいて、第3活動項目に対応する第3運動量が第1閾値未満である場合は、第3キーワードを含む音声データが生成される。したがって、運動量の大きさに応じて、異なる音声データを出力することができる。
また、上記の装置において、前記第2キーワード及び前記第3キーワードは、前記第3活動項目に取り組む前記幼児の活発さを示す修飾語を含み、前記第2キーワードが示す意味は、前記第3キーワードが示す意味とは反対の意味であってもよい。
この構成によれば、第2キーワード及び第3キーワードは、第3活動項目に取り組む幼児の活発さを示す修飾語を含む。第2キーワードが示す意味は、第3キーワードが示す意味とは反対の意味である。したがって、より幼児が話しやすい話題を提供することができる。
また、上記の装置において、前記生成部は、前記第2データベースに基づいて、前記第3活動項目に対応する第3音量が第1閾値以上である場合は、第2キーワードを含む前記音声データを生成し、前記第2データベースに基づいて、前記第3活動項目に対応する第3音量が第1閾値未満である場合は、第3キーワードを含む前記音声データを生成してもよい。
この構成によれば、第2データベースに基づいて、第3活動項目に対応する第3音量が第1閾値以上である場合は、第2キーワードを含む音声データが生成される。また、第2データベースに基づいて、第3活動項目に対応する第3音量が第1閾値未満である場合は、第3キーワードを含む音声データが生成される。したがって、音量の大きさに応じて、異なる音声データを出力することができる。
また、上記の装置において、前記第2キーワード及び前記第3キーワードは、前記第3活動項目に取り組む前記幼児の活発さを示す修飾語を含み、前記第2キーワードが示す意味は、前記第3キーワードが示す意味とは反対の意味であってもよい。
この構成によれば、第2キーワード及び第3キーワードは、第3活動項目に取り組む幼児の活発さを示す修飾語を含む。第2キーワードが示す意味は、第3キーワードが示す意味とは反対の意味である。したがって、より幼児が話しやすい話題を提供することができる。
また、上記の装置において、前記特徴量は、前記音声を発話した発話者の声紋を含んでもよい。この構成によれば、音声を発話した発話者の声紋により、人物をより正確に認識することができる。
また、上記の装置において、前記第1キーワードは、話題を示す単語を含んでもよい。この構成によれば、大人又は幼児は、装置に対して新たな話題を要求することができる。
本開示の他の態様に係るロボットは、請求項1記載の装置と、前記装置を内蔵する筐体と、前記筐体を移動させる移動機構と、を備える。この構成によれば、上記の装置をロボットに適用することができる。
本開示の他の態様に係る方法は、複数のユーザと音声対話する装置における方法であって、前記装置の周辺の画像データを取得し、前記装置の周辺の音を取得し、前記取得した画像データと、前記複数のユーザに対応する複数の画像データを記憶するメモリに記憶されている複数の画像データとに基づいて、前記取得した画像データに含まれる人物を推定し、前記推定した人物を示すユーザ情報を出力し、前記複数のユーザは、大人と幼児とを含み、前記取得した音から音声を抽出し、前記音声に対応するテキストデータと前記音声の特徴量とを抽出し、前記テキストデータと前記特徴量とを対応付けて第1データベースに記録し、前記ユーザ情報と前記第1データベースとに基づいて、前記大人と前記幼児とが会話しているか否かを判定し、前記推定した人物が前記大人と前記幼児とであり、且つ、前記特徴量が互いに異なる複数の特徴量を含む場合、前記大人と前記幼児とが会話していると判定し、前記大人と前記幼児とが会話していると判定した場合、前記第1データベースに基づいて、前記大人と前記幼児とに新たに話題を提供する必要があるか否かを判定し、前記テキストデータに、第1キーワードが含まれている場合、前記大人と前記幼児とに新たに話題を提供する必要があると判定し、前記話題を提供する必要があると判定した場合、前記第1データベースと第2データベースとに基づいて、前記話題の候補を抽出し、前記第2データベースは、前記幼児が第1所定期間に活動した項目を示す活動項目を記憶し、前記話題の候補は、前記活動項目に対応し、且つ、前記第1データベースに記録された前記テキストデータに含まれる活動項目に対応しておらず、前記話題の候補から前記大人と前記幼児とに提供する一の話題を選択し、前記一の話題を含む音声データを生成し、前記生成した音声データを出力する。
この構成によれば、装置の周辺の画像データが取得される。装置の周辺の音が取得される。取得した画像データと、複数のユーザに対応する複数の画像データを記憶するメモリに記憶されている複数の画像データとに基づいて、取得した画像データに含まれる人物が推定され、推定された人物を示すユーザ情報が出力される。複数のユーザは、大人と幼児とを含む。取得された音から音声が抽出され、音声に対応するテキストデータと音声の特徴量とが抽出され、テキストデータと特徴量とが対応付けられて第1データベースに記録される。ユーザ情報と第1データベースとに基づいて、大人と幼児とが会話しているか否かが判定される。推定された人物が大人と幼児とであり、且つ、特徴量が互いに異なる複数の特徴量を含む場合、大人と幼児とが会話していると判定される。大人と幼児とが会話していると判定された場合、第1データベースに基づいて、大人と幼児とに新たに話題を提供する必要があるか否かが判定される。テキストデータに、第1キーワードが含まれている場合、大人と幼児とに新たに話題を提供する必要があると判定される。話題を提供する必要があると判定された場合、第1データベースと第2データベースとに基づいて、話題の候補が抽出される。第2データベースは、幼児が第1所定期間に活動した項目を示す活動項目を記憶している。話題の候補は、活動項目に対応し、且つ、第1データベースに記録されたテキストデータに含まれる活動項目に対応していない。話題の候補から大人と幼児とに提供する一の話題が選択される。一の話題を含む音声データが生成される。生成された音声データが出力される。
したがって、大人と幼児との対話を示すテキストデータを記憶する第1データベースと、幼児が第1所定期間に活動した項目を示す活動項目を記憶する第2データベースとに基づいて、活動項目に対応し、且つ、第1データベースに記録されたテキストデータに含まれる活動項目に対応していない話題の候補が抽出され、話題の候補から大人と幼児とに提供する一の話題が選択されるので、幼児の活動内容に応じた話題を提供することができ、幼児が会話しやすい話題を提供することができる。
本開示の他の態様に係るプログラムは、複数のユーザと音声対話するためのプログラムであって、前記複数のユーザと音声対話する装置が備えるプロセッサを、センサによって取得された前記装置の周辺の画像データと、前記複数のユーザに対応する複数の画像データを記憶しているメモリに記憶されている複数の画像データとに基づいて、前記取得された画像データに含まれる人物を推定し、前記推定した人物を示すユーザ情報を出力する推定部と、前記複数のユーザは、大人と幼児とを含み、マイクによって取得された前記装置の周辺の音から音声を抽出し、前記音声に対応するテキストデータと前記音声の特徴量とを抽出し、前記テキストデータと前記特徴量とを対応付けて第1データベースに記録する音声認識部と、前記ユーザ情報と前記第1データベースとに基づいて、前記大人と前記幼児とが会話しているか否かを判定し、前記推定された人物が前記大人と前記幼児とであり、且つ、前記特徴量が互いに異なる複数の特徴量を含む場合、前記大人と前記幼児とが会話していると判定する第1判定部と、前記大人と前記幼児とが会話していると判定された場合、前記第1データベースに基づいて、前記大人と前記幼児とに新たに話題を提供する必要があるか否かを判定し、前記テキストデータに、第1キーワードが含まれている場合、前記大人と前記幼児とに新たに話題を提供する必要があると判定する第2判定部と、前記話題を提供する必要があると判定された場合、前記第1データベースと第2データベースとに基づいて、前記話題の候補を抽出する抽出部と、前記第2データベースは、前記幼児が第1所定期間に活動した項目を示す活動項目を記憶し、前記話題の候補は、前記活動項目に対応し、且つ、前記第1データベースに記録された前記テキストデータに含まれる活動項目に対応しておらず、前記話題の候補から前記大人と前記幼児とに提供する一の話題を選択する選択部と、前記一の話題を含む音声データを生成し、前記生成した音声データをスピーカに出力する生成部として機能させる。
この構成によれば、センサによって取得された装置の周辺の画像データと、複数のユーザに対応する複数の画像データを記憶しているメモリに記憶されている複数の画像データとに基づいて、取得された画像データに含まれる人物が推定され、推定された人物を示すユーザ情報が出力される。複数のユーザは、大人と幼児とを含む。マイクによって取得された装置の周辺の音から音声が抽出され、音声に対応するテキストデータと音声の特徴量とが抽出され、テキストデータと特徴量とが対応付けられて第1データベースに記録される。ユーザ情報と第1データベースとに基づいて、大人と幼児とが会話しているか否かが判定される。推定された人物が大人と幼児とであり、且つ、特徴量が互いに異なる複数の特徴量を含む場合、大人と幼児とが会話していると判定される。大人と幼児とが会話していると判定された場合、第1データベースに基づいて、大人と幼児とに新たに話題を提供する必要があるか否かが判定される。テキストデータに、第1キーワードが含まれている場合、大人と幼児とに新たに話題を提供する必要があると判定される。話題を提供する必要があると判定された場合、第1データベースと第2データベースとに基づいて、話題の候補が抽出される。第2データベースは、幼児が第1所定期間に活動した項目を示す活動項目を記憶している。話題の候補は、活動項目に対応し、且つ、第1データベースに記録されたテキストデータに含まれる活動項目に対応していない。話題の候補から大人と幼児とに提供する一の話題が選択される。一の話題を含む音声データが生成される。生成された音声データがスピーカに出力される。
したがって、大人と幼児との対話を示すテキストデータを記憶する第1データベースと、幼児が第1所定期間に活動した項目を示す活動項目を記憶する第2データベースとに基づいて、活動項目に対応し、且つ、第1データベースに記録されたテキストデータに含まれる活動項目に対応していない話題の候補が抽出され、話題の候補から大人と幼児とに提供する一の話題が選択されるので、幼児の活動内容に応じた話題を提供することができ、幼児が会話しやすい話題を提供することができる。
本開示の他の態様に係る装置は、ユーザと音声対話する装置であって、前記装置の周辺の画像データと、前記装置の周辺に存在する人物を含む物体までの距離を示す距離データとを取得するセンサと、前記装置の周辺の音を取得するマイクと、メモリと、前記取得された音から音声を抽出し、前記抽出した音声の音量を示す音量情報を出力する音量測定部と、前記取得された画像データと前記メモリに記憶されている前記ユーザに対応する画像データとに基づいて、前記取得された画像データに含まれる人物を推定し、前記推定した人物を示すユーザ情報を出力する人物推定部と、前記ユーザは幼児を含み、前記ユーザ情報が示す人物が前記幼児である場合、前記取得された画像データと、前記取得された距離データと、前記メモリに記憶されている人体の各姿勢における3次元骨格位置を示す人体モデルデータとに基づいて、前記幼児の姿勢を推定し、前記推定した幼児の姿勢を示す姿勢情報を出力する姿勢推定部と、前記ユーザ情報が示す人物が前記幼児である場合、前記取得された画像データと、前記取得された距離データと、前記記憶されている人体モデルデータとに基づいて、前記幼児の特定部位の第1所定期間における位置の変化量を運動量として算出し、前記運動量を示す運動量情報を出力する運動量測定部と、前記姿勢情報と、前記運動量情報と、前記メモリに記憶されている前記幼児が行う活動項目と当該活動項目に対応する運動量と当該活動項目に対応する幼児の姿勢との対応関係を示したテーブルとに基づいて、もしくは、前記抽出された音声に含まれる名詞に基づいて、前記幼児が現在行っている活動項目を推定し、前記推定した活動項目を示す活動情報を出力する活動項目推定部と、前記活動情報に示された活動項目に対応するキーワードを含む第1音声データを生成する生成部と、前記第1音声データは疑問文で表され、前記第1音声データを出力するスピーカと、前記第1音声データが出力された後に、取得された音から抽出された音声の内容を認識し、認識された音声の内容を示すテキストデータを出力する音声認識部と、前記テキストデータに肯定語が含まれているか否かを判定する判定部と、前記テキストデータに肯定語が含まれていると判定された場合、前記活動情報と前記運動量情報と前記音量情報とを対応付けてデータベースに記録する記録部と、を備える。
この構成によれば、装置の周辺の画像データと、装置の周辺に存在する人物を含む物体までの距離を示す距離データとが取得される。装置の周辺の音が取得される。取得された音から音声が抽出され、抽出された音声の音量を示す音量情報が出力される。取得された画像データとメモリに記憶されているユーザに対応する画像データとに基づいて、取得された画像データに含まれる人物が推定され、推定された人物を示すユーザ情報が出力される。ユーザは幼児を含む。ユーザ情報が示す人物が幼児である場合、取得された画像データと、取得された距離データと、メモリに記憶されている人体の各姿勢における3次元骨格位置を示す人体モデルデータとに基づいて、幼児の姿勢が推定され、推定された幼児の姿勢を示す姿勢情報が出力される。ユーザ情報が示す人物が幼児である場合、取得された画像データと、取得された距離データと、記憶されている人体モデルデータとに基づいて、幼児の特定部位の第1所定期間における位置の変化量が運動量として算出され、運動量を示す運動量情報が出力される。姿勢情報と、運動量情報と、メモリに記憶されている幼児が行う活動項目と当該活動項目に対応する運動量と当該活動項目に対応する幼児の姿勢との対応関係を示したテーブルとに基づいて、もしくは、抽出された音声に含まれる名詞に基づいて、幼児が現在行っている活動項目が推定され、推定された活動項目を示す活動情報が出力される。活動情報に示された活動項目に対応するキーワードを含む第1音声データが生成される。第1音声データは疑問文で表される。第1音声データが出力される。第1音声データが出力された後に、取得された音から抽出された音声の内容が認識され、認識された音声の内容を示すテキストデータが出力される。テキストデータに肯定語が含まれているか否かが判定される。テキストデータに肯定語が含まれていると判定された場合、活動情報と運動量情報と音量情報とが対応付けられてデータベースに記録される。
したがって、幼児の姿勢と幼児の運動量とに基づいて、もしくは、抽出された音声に含まれる名詞に基づいて、幼児が現在行っている活動項目が推定され、推定された活動項目を示す活動情報と運動量情報と音量情報とが対応付けられてデータベースに記録されるので、幼児に応じたデータベースを容易に作成することができる。
また、活動項目を示す活動情報と運動量情報と音量情報とが対応付けられたデータベースを用いることで、幼児の活動内容に応じた話題を提供することができ、幼児が会話しやすい話題を提供することができる。
また、上記の装置において、前記第1音声データは、前記幼児が前記推定された活動項目を行っているか否かを尋ねるテキストデータを含んでもよい。
この構成によれば、第1音声データは、幼児が推定された活動項目を行っているか否かを尋ねるテキストデータを含むので、幼児が実際に行っている活動項目を確実に特定することができる。
また、上記の装置において、前記判定部は、前記テキストデータに前記肯定語が含まれていないと判定した場合、前記テキストデータに否定語が含まれているか否かを判定し、前記活動項目推定部は、前記判定部によって前記テキストデータに前記否定語が含まれていないと判定された場合、前記テキストデータに名詞が含まれているか否かを判定し、前記テキストデータに前記名詞が含まれていると判定した場合は、前記名詞が、前記幼児が現在行っている活動項目を示していると推定してもよい。
この構成によれば、テキストデータに肯定語が含まれていないと判定された場合、テキストデータに否定語が含まれているか否かが判定される。テキストデータに否定語が含まれていないと判定された場合、テキストデータに名詞が含まれているか否かが判定され、テキストデータに名詞が含まれていると判定された場合は、名詞が、幼児が現在行っている活動項目を示していると推定される。
したがって、推定した活動項目が幼児によって否定された場合、幼児が応答したテキストデータに含まれる名詞を、幼児が現在行っている活動項目として特定することができる。
また、上記の装置において、前記生成部は、前記活動項目推定部によって前記テキストデータに前記名詞が含まれていないと判定された場合、前記幼児に何をしているか尋ねるための第2音声データを生成し、前記スピーカは、前記第2音声データを出力してもよい。
この構成によれば、テキストデータに名詞が含まれていないと判定された場合、幼児に何をしているか尋ねるための第2音声データが生成され、第2音声データが出力されるので、幼児が現在行っている活動項目を確実に特定することができる。
また、上記の装置において、前記運動量測定部は、前記第1所定期間を含む第2所定期間における前記変化量の平均値を前記運動量として算出し、前記音量測定部は、前記第2所定期間において抽出された音声の音量の平均値を前記音量情報として出力してもよい。
この構成によれば、第1所定期間を含む第2所定期間における変化量の平均値が運動量として算出される。また、第2所定期間において抽出された音声の音量の平均値が音量情報として出力される。
したがって、第2所定期間における変化量の平均値を運動量として算出することができるとともに、第2所定期間において抽出された音声の音量の平均値を音量情報として出力することができる。
また、上記の装置において、前記記録部は、第1係数が乗算された前記運動量を前記運動量情報として前記データベースに記録するとともに、第2係数が乗算された前記音量を前記音量情報として前記データベースに記録し、前記第1係数は、所定の第1定数を第2定数で除算した値であり、前記第2係数は、所定の第3定数を前記第2定数で除算した値であってもよい。
この構成によれば、第1係数が乗算された運動量が運動量情報としてデータベースに記録されるとともに、第2係数が乗算された音量が音量情報としてデータベースに記録される。第1係数は、所定の第1定数を第2定数で除算した値であり、第2係数は、所定の第3定数を第2定数で除算した値である。したがって、運動量のスケールと音量のスケールとを合わせることができる。
本開示の他の態様に係るロボットは、請求項15記載の装置と、前記装置を内蔵する筐体と、前記筐体を移動させる移動機構と、を備える。この構成によれば、上記の装置をロボットに適用することができる。
本開示の他の態様に係る方法は、ユーザと音声対話する装置における方法であって、前記装置の周辺の画像データと、前記装置の周辺に存在する人物を含む物体までの距離を示す距離データとを取得し、前記装置の周辺の音を取得し、前記取得した音から音声を抽出し、前記抽出した音声の音量を示す音量情報を出力し、前記取得した画像データとメモリに記憶されている前記ユーザに対応する画像データとに基づいて、前記取得した画像データに含まれる人物を推定し、前記推定した人物を示すユーザ情報を出力し、前記ユーザは幼児を含み、前記ユーザ情報が示す人物が前記幼児である場合、前記取得した画像データと、前記取得した距離データと、前記メモリに記憶されている人体の各姿勢における3次元骨格位置を示す人体モデルデータとに基づいて、前記幼児の姿勢を推定し、前記推定した幼児の姿勢を示す姿勢情報を出力し、前記ユーザ情報が示す人物が前記幼児である場合、前記取得した画像データと、前記取得した距離データと、前記記憶されている人体モデルデータとに基づいて、前記幼児の特定部位の第1所定期間における位置の変化量を運動量として算出し、前記運動量を示す運動量情報を出力し、前記姿勢情報と、前記運動量情報と、前記メモリに記憶されている前記幼児が行う活動項目と当該活動項目に対応する運動量との対応関係を示したテーブルとに基づいて、もしくは、前記抽出した音声に含まれる名詞に基づいて、前記幼児が現在行っている活動項目を推定し、前記推定した活動項目を示す活動情報を出力し、前記活動情報に示された活動項目に対応するキーワードを含む第1音声データを生成し、前記第1音声データは疑問文で表され、前記第1音声データを出力し、前記第1音声データを出力した後に、取得した音から抽出した音声の内容を認識し、認識した音声の内容を示すテキストデータを出力し、前記テキストデータに肯定語が含まれているか否かを判定し、前記テキストデータに肯定語が含まれていると判定した場合、前記活動情報と前記運動量情報と前記音量情報とを対応付けてデータベースに記録する。
この構成によれば、装置の周辺の画像データと、装置の周辺に存在する人物を含む物体までの距離を示す距離データとが取得される。装置の周辺の音が取得される。取得された音から音声が抽出され、抽出された音声の音量を示す音量情報が出力される。取得された画像データとメモリに記憶されているユーザに対応する画像データとに基づいて、取得された画像データに含まれる人物が推定され、推定された人物を示すユーザ情報が出力される。ユーザは幼児を含む。ユーザ情報が示す人物が幼児である場合、取得された画像データと、取得された距離データと、メモリに記憶されている人体の各姿勢における3次元骨格位置を示す人体モデルデータとに基づいて、幼児の姿勢が推定され、推定された幼児の姿勢を示す姿勢情報が出力される。ユーザ情報が示す人物が幼児である場合、取得された画像データと、取得された距離データと、記憶されている人体モデルデータとに基づいて、幼児の特定部位の第1所定期間における位置の変化量が運動量として算出され、運動量を示す運動量情報が出力される。姿勢情報と、運動量情報と、メモリに記憶されている幼児が行う活動項目と当該活動項目に対応する運動量と当該活動項目に対応する幼児の姿勢との対応関係を示したテーブルとに基づいて、もしくは、抽出された音声に含まれる名詞に基づいて、幼児が現在行っている活動項目が推定され、推定された活動項目を示す活動情報が出力される。活動情報に示された活動項目に対応するキーワードを含む第1音声データが生成される。第1音声データは疑問文で表される。第1音声データが出力される。第1音声データが出力された後に、取得された音から抽出された音声の内容が認識され、認識された音声の内容を示すテキストデータが出力される。テキストデータに肯定語が含まれているか否かが判定される。テキストデータに肯定語が含まれていると判定された場合、活動情報と運動量情報と音量情報とが対応付けられてデータベースに記録される。
したがって、幼児の姿勢と幼児の運動量とに基づいて、もしくは、抽出された音声に含まれる名詞に基づいて、幼児が現在行っている活動項目が推定され、推定された活動項目を示す活動情報と運動量情報と音量情報とが対応付けられてデータベースに記録されるので、幼児に応じたデータベースを容易に作成することができる。
また、活動項目を示す活動情報と運動量情報と音量情報とが対応付けられたデータベースを用いることで、幼児の活動内容に応じた話題を提供することができ、幼児が会話しやすい話題を提供することができる。
本開示の他の態様に係るプログラムは、ユーザと音声対話するためのプログラムであって、前記ユーザと音声対話する装置が備えるプロセッサを、マイクによって取得された前記装置の周辺の音から音声を抽出し、前記抽出した音声の音量を示す音量情報を出力する音量測定部と、センサによって取得された前記装置の周辺の画像データとメモリに記憶されている前記ユーザに対応する画像データとに基づいて、前記取得された画像データに含まれる人物を推定し、前記推定した人物を示すユーザ情報を出力する人物推定部と、前記ユーザは幼児を含み、前記ユーザ情報が示す人物が前記幼児である場合、前記取得された画像データと、前記センサによって取得された前記装置の周辺に存在する人物を含む物体までの距離を示す距離データと、前記メモリに記憶されている人体の各姿勢における3次元骨格位置を示す人体モデルデータとに基づいて、前記幼児の姿勢を推定し、前記推定した幼児の姿勢を示す姿勢情報を出力する姿勢推定部と、前記ユーザ情報が示す人物が前記幼児である場合、前記取得された画像データと、前記取得された距離データと、前記記憶されている人体モデルデータとに基づいて、前記幼児の特定部位の第1所定期間における位置の変化量を運動量として算出し、前記運動量を示す運動量情報を出力する運動量測定部と、前記姿勢情報と、前記運動量情報と、前記メモリに記憶されている前記幼児が行う活動項目と当該活動項目に対応する運動量との対応関係を示したテーブルとに基づいて、もしくは、前記抽出された音声に含まれる名詞に基づいて、前記幼児が現在行っている活動項目を推定し、前記推定した活動項目を示す活動情報を出力する活動項目推定部と、前記活動情報に示された活動項目に対応するキーワードを含む第1音声データを生成し、前記第1音声データをスピーカへ出力する生成部と、前記第1音声データは疑問文で表され、前記第1音声データを出力した後に、取得された音から抽出された音声の内容を認識し、認識された音声の内容を示すテキストデータを出力する音声認識部と、前記テキストデータに肯定語が含まれているか否かを判定する判定部と、前記テキストデータに肯定語が含まれていると判定された場合、前記活動情報と前記運動量情報と前記音量情報とを対応付けてデータベースに記録する記録部として機能させる。
この構成によれば、マイクによって取得された装置の周辺の音から音声が抽出され、抽出された音声の音量を示す音量情報が出力される。センサによって取得された装置の周辺の画像データとメモリに記憶されているユーザに対応する画像データとに基づいて、取得された画像データに含まれる人物が推定され、推定された人物を示すユーザ情報が出力される。ユーザは幼児を含む。ユーザ情報が示す人物が幼児である場合、取得された画像データと、センサによって取得された装置の周辺に存在する人物を含む物体までの距離を示す距離データと、メモリに記憶されている人体の各姿勢における3次元骨格位置を示す人体モデルデータとに基づいて、幼児の姿勢が推定され、推定された幼児の姿勢を示す姿勢情報が出力される。ユーザ情報が示す人物が幼児である場合、取得された画像データと、取得された距離データと、記憶されている人体モデルデータとに基づいて、幼児の特定部位の第1所定期間における位置の変化量が運動量として算出され、運動量を示す運動量情報が出力される。姿勢情報と、運動量情報と、メモリに記憶されている幼児が行う活動項目と当該活動項目に対応する運動量との対応関係を示したテーブルとに基づいて、もしくは、抽出された音声に含まれる名詞に基づいて、幼児が現在行っている活動項目が推定され、推定された活動項目を示す活動情報が出力される。活動情報に示された活動項目に対応するキーワードを含む第1音声データが生成され、第1音声データがスピーカへ出力される。第1音声データは疑問文で表される。第1音声データを出力した後に、取得された音から抽出された音声の内容が認識され、認識された音声の内容を示すテキストデータが出力される。テキストデータに肯定語が含まれているか否かが判定される。テキストデータに肯定語が含まれていると判定された場合、活動情報と運動量情報と音量情報とが対応付けられてデータベースに記録される。
したがって、幼児の姿勢と幼児の運動量とに基づいて、もしくは、抽出された音声に含まれる名詞に基づいて、幼児が現在行っている活動項目が推定され、推定された活動項目を示す活動情報と運動量情報と音量情報とが対応付けられてデータベースに記録されるので、幼児に応じたデータベースを容易に作成することができる。
また、活動項目を示す活動情報と運動量情報と音量情報とが対応付けられたデータベースを用いることで、幼児の活動内容に応じた話題を提供することができ、幼児が会話しやすい話題を提供することができる。
以下、本開示の各実施の形態について、図面を参照しながら説明する。なお、以下の実施の形態は、本開示を具体化した一例であって、本開示の技術的範囲を限定するものではない。また、各図面において、同じ構成要素については同じ符号が用いられている。
(実施の形態1)
まず始めに、話題提供装置と子ども(例えば、幼児)と大人(例えば、子どもの親等)との対話について、図1、図2、図3及び図4を用いて説明する。話題提供装置100と子どもと大人との対話は、図1、図2、図3及び図4に示される場面順で進行する。
なお、本開示の各実施の形態において、子どもは、3歳〜6歳の幼児を示す。
図1は、話題提供装置が子どもと対話し、子どもが現在活動している活動項目を特定するとともに、子どもの運動量及び声の音量を測定し、活動項目と運動量と音量とをデータベース化する処理を説明するためのイメージ図である。図1では、話題提供装置100が子ども11と対話し、子ども11が今何をしているか、すなわち子ども11の活動項目(例えば、ダンス)を特定する。また、その際、話題提供装置100は、子ども11の声の音量と子ども11の運動量とを測定し、活動項目と運動量と音量とをデータベース化する。なお、図1の処理は、話題提供装置100の第2処理部が行う処理に対応し、第2処理部については実施の形態2において詳細を説明する。
図2は、親子が対話中である際に、話題提供装置が対話の話題を特定する処理を説明するためのイメージ図である。図2では、例として、話題提供装置100が特定した話題が「絵本」であった場合を示している。例えば、夜に、親12は、子ども11に対して、今日何をして遊んでいたかを尋ねている。これに対し、子ども11は、絵本を読んでいたと返答している。このとき、話題提供装置100は、親12と子ども11との現在の話題が「絵本」であることを特定している。なお、図2の処理は、話題提供装置100の第1処理部が行う処理に対応し、第1処理部については実施の形態1において詳細を説明する。
図3は、親子に対して次に提供する話題を話題提供装置が選択する処理を説明するためのイメージ図である。話題提供装置100は、現在の話題(図2)と、予め生成されたデータベース(図1)とに基づいて、親12及び子ども11に対して次に提供する話題を選択する。図3では、例として、話題提供装置100が「ヒーローごっこ」を親12と子ども11とに提供する次の話題として選択した場合を示している。なお、本開示の目的は、起伏に富んだ話題を親子に対話させることによって親子間の対話を充足させるきっかけを与えることを目的としている。そのため、話題提供装置100は、現在の話題(例えば、絵本等の比較的動きが少ない活動項目)から子ども11の運動量及び子ども11の声の音量が大きく異なる話題(例えば、ヒーローごっこ等の比較的動きが活発な活動項目)を次に提供する話題として選択している。図3の処理は、話題提供装置100の第1処理部が行う処理に対応し、第1処理部については実施の形態1において詳細を説明する。
図4は、選択された話題を話題提供装置が親子に対して提供する処理を説明するためのイメージ図である。図4では、例として、話題提供装置100が「ヒーローごっこ」を次の話題として提供している場合を示している。この場合、話題提供装置100は、「そういえば、今日はヒーローごっこをして遊んだよね」という音声を出力している。話題提供装置100の音声出力に対して子ども11は「うん!」と答えている。このように、新たな話題を提供することにより、特に親12は今日子どもが何をしていたのかを認識し、親12及び子11に対して次は「ヒーローごっこ」について話してみたいというモチベーションを与えることになる。なお、図4の処理は、話題提供装置100の第1処理部が行う処理に対応し、第1処理部については実施の形態1において詳細を説明する。
図5は、本実施の形態1における話題提供装置の全体構成を示す図である。第1処理部200と第2処理部300は、時間軸が違うタイミングで呼び出されるため、便宜上分けている。図6は、本実施の形態1における話題提供装置の第1処理部の構成を示す図である。なお、話題提供装置の第2処理部の構成については、実施の形態2において説明する。
図5及び図6に示す話題提供装置100は、センサ101と、マイク102と、人物推定部103と、音声認識部104と、応答文生成部105と、音声合成部106と、スピーカ107と、メモリ108と、第1処理部200と、第2処理部300と、対話履歴データベース(DB)202と、幼児活動データベース(DB)204とを備える。第1処理部200は、親子対話判断部201と、話題提供判断部203と、対話話題判断部205と、話題候補抽出部206と、提供話題判断部207とを備える。
センサ101は、話題提供装置100の周辺の画像データを取得する。センサ101は、例えばカメラであり、人物を撮影した画像データを人物推定部103へ出力する。なお、センサ101は、距離センサであってもよく、人物の3次元のモデルデータを取得し、人物推定部103へ出力してもよい。つまり、センサ101は、人物ごとの身体的な特徴を示すデータを取得できればよい。
マイク102は、話題提供装置100の周辺の音を取得する。マイク102は、ユーザが発話した音声を収音し、音声認識部104へ出力する。
メモリ108は、複数のユーザに対応する複数の画像データを記憶している。複数のユーザは、大人と幼児とを含む。すなわち、メモリ108は、話題提供装置100が配置される家の家族の構成員を撮影した複数の画像データを記憶する。家族の構成員は、例えば、父及び母である親と、幼児である子どもとを含む。話題提供装置100は、大人(親)と幼児(子ども)と音声対話する。
人物推定部103は、センサ101によって取得された画像データと、メモリ108に記憶されている複数の画像データとに基づいて、取得された画像データに含まれる人物を推定し、推定した人物を示すユーザ情報を出力する。人物推定部103は、センサ101が出力した画像データ内の人物の顔の特徴点の情報と、メモリ108に予め記憶された特定のユーザ毎の画像データ内のユーザの顔の特徴点の情報とを用いて、パターンマッチング等の公知の人物推定処理により、センサ101が出力した画像データ内に含まれる人物を推定する。また、人物推定部103は、センサ101が出力した画像データ内に複数の人物が撮影されている場合は、当該画像データ内の人物それぞれに、上記の人物推定処理を行い、複数の人物に対応する複数のユーザ情報を同時に出力してもよい。人物推定部103は、推定したユーザ情報を親子対話判断部201へ出力する。
音声認識部104は、マイク102によって取得された音から音声を抽出し、音声に対応するテキストデータと音声の特徴量とを抽出し、テキストデータと特徴量とを対応付けて対話履歴データベース202(第1データベース)に記録する。なお、特徴量は、音声を発話した発話者の声紋を含む。
音声認識部104は、まず、マイク102で収音したアナログデータをデジタルデータに変換する。例えば、音声認識部104は、パルス符号変調(PCM:Pulse Code Modulation)等を用いてアナログの音声をデジタル化する。音声認識部104は、デジタル化された音声データに対してメモリ108内に記憶された音響モデル及び言語モデルを用いた公知の音声認識処理を実行することにより、音声データが示す音声に含まれている人物の発話の音声を検知し、音声データを当該発話の内容を表すテキストデータに変換する。なお、音声認識部104は、クラウドサーバ上に記憶された音響モデル及び言語モデルを利用してもよい。音響モデルは、音の波形サンプルを保持しており、言語モデルは、所定の言語の単語の並び方といった言葉の情報を保持している。クラウドサーバ上に記憶された音響モデル及び言語モデルを利用する場合は、話題提供装置100は、デジタル化された音声データをクラウドサーバに送信し、クラウドサーバ上で変換されたテキストデータを受信する。
音声認識部104が生成するテキストデータは、生成過程において、上記の音声データの音声特性から同一人物であるか否かを示す属性情報を付加している。例えば、2人の人物が存在し、3つの音声データA、B、Cを取得し、音声データA及びBが第1の人物による発話であり、音声データCが第2の人物による発話である場合、音声認識部104は、所定の方法で音声データA及びBには同一の第1の人物による発話であることを示すタグを付与し、音声データCには第2の人物による発話であることを示すタグを付与する。音声認識部104は、生成したテキストデータを対話履歴データベース202へ出力する。
図7は、本実施の形態1における対話履歴データベースの一例を示す図である。図7に示すように、対話履歴データベース202は、音声認識部104が出力したテキストデータと、当該テキストデータを登録したタイミングを示すタイムスタンプと、当該テキストデータの発話者を識別する情報とを対応付けて登録する。対話履歴データベース202は、親子対話判断部201と話題提供判断部203と対話話題判断部205とで使用される。
親子対話判断部201は、ユーザ情報と対話履歴データベース202とに基づいて、親(大人)と子ども(幼児)とが会話しているか否かを判定する。親子対話判断部201は、推定された人物が親子であり、且つ、特徴量が互いに異なる複数の特徴量を含む場合、親子が会話していると判定する。
親子対話判断部201は、複数の人物が親子であり、親子が対話しているか否かを判断する。親子対話判断部201は、人物推定部103の推定結果により複数の人物が親子であるか否かを判断し、対話履歴データベース202から親子が対話状態にあるか否かを判断する。
親子対話判断部201は、人物推定部103が出力したユーザ情報が親及び子どものいずれか一方を示し、所定の時間内に、ユーザ情報が親及び子どものいずれか他方を示す場合に、親と子どもとが同時に存在していると判断する。もしくは、複数のユーザ情報が特定され、親と子どもとが同時に検出されてもよい。人物推定部103が出力したユーザ情報が、例えば親である場合、親を検出してから所定時間内に、人物推定部103が子どものユーザ情報を出力したときに、親子対話判断部201は、親と子どもとが同時に存在していると判断する。
また、親子対話判断部201は、親子が同時に存在していると判断している場合に、対話履歴データベース202を参照して、所定の時間内に、二人の人物が発話をしている場合に親子が対話していると判断する。親子対話判断部201は、対話履歴データベース202を参照して、親子が対話していると認識したテキストデータのタイムスタンプが示す時刻から1つ前のテキストデータのタイムスタンプが示す時刻までの経過時間が所定時間以内である場合、当該1つ前のテキストデータは親子で対話中の発話内容であると判断する。そして、親子対話判断部201は、1つ前のテキストデータのタイムスタンプを順に遡って確認し、経過時間が所定時間より長い場合、テキストデータのタイムスタンプを親子が対話を開始した時刻を示す開始時間であると判断する。親子対話判断部201は、親子が対話していると判断した場合に、親子の対話の開始時間をメモリ108に記録する。
話題提供判断部203は、親(大人)と子ども(幼児)とが会話していると判定された場合、対話履歴データベース202に基づいて、親子に新たに話題を提供する必要があるか否かを判断する。話題提供判断部203は、テキストデータに、所定のキーワード(第1キーワード)が含まれている場合、親子に新たに話題を提供する必要があると判断する。所定のキーワードは、話題を示す単語を含む。
話題提供判断部203は、親子対話判断部201によって親子が対話していると判断されたときに、対話履歴データベース202のテキストデータを用いて話題を提供する必要があるか否かを判断する。話題提供判断部203は、対話履歴データベース202内の最新のテキストデータを参照して、当該テキストデータに所定のキーワードが含まれている場合、話題を提供する必要があると判断する。所定のキーワードとは、例えば「話題をちょうだい」というような話題を要求するようなキーワードである。話題提供判断部203は、このようなキーワードがテキストデータに含まれている場合に、話題を提供する必要があると判断する。
話題提供判断部203は、親と子どもが存在しており、且つ、テキストデータが最後に対話履歴データベース202に記録されてから所定時間経過した場合に、話題を提供する必要があると判断してもよい。この場合、親と子どもとが対話している間に、話題がなくなり、沈黙が続いた場合に、新たな話題が提供されることになる。
幼児活動データベース204は、子ども(幼児)が第1所定期間に活動した項目を示す活動項目を記憶する。また、幼児活動データベース204は、更に、活動項目に対応する運動量を示す運動量情報と、活動項目に対応する音量を示す音量情報と、活動項目に対応する日付を示す日付情報とを記憶する。すなわち、幼児活動データベース204は、活動項目と、運動量情報と、音量情報と、日付情報とを対応付けて記憶している。
図8は、本実施の形態1における幼児活動データベースの一例を示す図である。幼児活動データベース204は、幼児が活動した内容を示す活動項目と、幼児の活動時の運動量と、幼児の活動時の音量と、幼児が活動した日時とが記憶されている。幼児が活動した内容は、幼児の遊びの内容であり、例えば「ヒーローごっこ」、「汽車の物まね」、「人形遊び」、「絵本」又は「積み木」等がある。幼児の活動時の運動量は、活動中に幼児がどれだけ動いたかを表す指標である。運動量情報は、運動量に第1係数が乗算された値である。幼児の活動時の音量とは、活動中に発生した音の大きさを表す指標である。音量情報は、音量に第2係数が乗算された値である。幼児活動データベース204の作成方法に関する詳細は後述する実施の形態2で説明する。
対話話題判断部205は、親子の対話中に既に登場した話題を判断する。対話話題判断部205は、メモリ108から親子対話の開始時間を参照し、対話履歴データベース202からユーザ間の開始時間から現在までの対話履歴を参照し、対話の開始時間から現在までのテキストデータを取得する。対話話題判断部205は、幼児活動データベース204の活動項目をキーワードとしたときに、取得したテキストデータ内にキーワードと一致する文字列が存在する場合、一致した当該キーワードを対話中に既に登場した話題と判断する。対話話題判断部205は、例えばキーワードとなる活動項目を「絵本」とし、テキストデータに「ピノキオの絵本を読んだよ」という内容を含んでいた場合に、テキストデータ内にキーワードと一致する文字列「絵本」が存在するため、対話中に「絵本」に関する話題が登場したと判断する。
対話話題判断部205は、対話履歴データベース202に登録しているテキストデータを時系列に沿って参照する場合は、最新の時刻のテキストデータに含まれる話題を、ユーザ間で行われた対話の最新の話題であると判断する。すなわち、対話話題判断部205は、幼児活動データベース204(第2データベース)に基づいて、最新の活動項目を特定する。対話話題判断部205は、対話中に既に登場した話題を示す情報を、話題候補抽出部206へ出力する。また、対話話題判断部205は、最新の話題を示す情報を提供話題判断部207へ出力する。
話題候補抽出部206は、話題を提供する必要があると判定された場合、対話履歴データベース202(第1データベース)と幼児活動データベース204(第2データベース)とに基づいて、話題の候補を抽出する。話題の候補は、活動項目に対応し、且つ、対話履歴データベース202(第1データベース)に記録されたテキストデータに含まれる活動項目に対応していない。話題候補抽出部206は、最新の活動項目とテキストデータに含まれる活動項目とは異なる活動項目(第2活動項目)を、話題の候補として抽出する。
話題候補抽出部206は、幼児活動データベース204の活動項目を、親子に提供する話題の候補として抽出する。話題候補抽出部206は、対話話題判断部205からユーザ間の対話中に既に登場した話題を示す情報を受け取り、受け取った話題を話題の候補から除外する。
また、話題候補抽出部206は、最新の活動項目とテキストデータに含まれる活動項目とは異なり、且つ所定の期間(第2所定期間)に記録された活動項目(第2活動項目)を、話題の候補として抽出する。所定の期間(第2所定期間)は、例えば当日を示す期間である。話題候補抽出部206は、幼児活動データベース204内の日時情報を参照し、話題の候補から当日以外の活動項目を除外する。話題候補抽出部206は、話題の候補を提供話題判断部207へ出力する。
提供話題判断部207は、話題の候補から親(大人)と子ども(幼児)とに提供する一の話題を選択する。提供話題判断部207は、最新の活動項目に対応する第1運動量と、最新の活動項目に対応する第1音量と、活動項目のうち第2活動項目に対応する第2運動量と、第2活動項目に対応する第2音量とに基づいて、第2活動項目から第3活動項目を一の話題として選択する。提供話題判断部207は、第1運動量に対する第2運動量の相対運動量の二乗と、第1音量に対する第2音量の相対音量の二乗との和が最大となる第2活動項目を第3活動項目として選択する。
提供話題判断部207は、幼児の活動データをもとに、情操教育的な観点から提供する話題を判断する。提供話題判断部207は、幼児の活動項目と運動量と音量とを含む活動データを幼児活動データベース204から受け取り、ユーザ間で対話された最新の話題を示す情報を対話話題判断部205から受け取り、話題の候補を示す情報を話題候補抽出部206から受け取る。提供話題判断部207は、幼児活動データベース204の活動データの属性である運動量と音量とをそれぞれ直交する座標軸とする座標辺面上に、最新の話題の活動データと話題の候補の活動データとを設定する。提供話題判断部207は、最新の話題の活動データに対応する座標と、話題の候補の活動データに対応する座標との間の相対的な距離(ユークリッド距離)が最も大きくなる活動データの話題の候補を提供話題として判断する。提供話題判断部207は、最新の話題の活動データが当日の運動量と音量とを含んでいない場合、当日より前の過去に行われた同一の活動項目に対応する運動量と音量とを幼児活動データベース204から取得する。また、提供話題判断部207は、過去に同一の活動項目に対応する運動量と音量とが存在しない場合、所定の値を最新の話題の運動量及び音量とする。提供話題判断部207は、提供話題の判断結果により、提供する話題を示す情報を応答文生成部105へ出力する。
図9は、本実施の形態1における提供話題判断部が話題の候補から大人と幼児とに提供する一の話題を選択する処理について説明するための図である。図9において、横軸は運動量を示し、縦軸は音量を示す。
図9では、例えば、対話に登場した最新の話題501が「絵本」であり、第1の話題の候補511が「ヒーローごっこ」であり、第2の話題の候補512が「汽車の物まね」であり、第3の話題の候補513が「積み木」である。また、最新の話題501、第1の話題の候補511、第2の話題の候補512及び第3の話題の候補513の各活動データは、図8に示す幼児活動データベース204に格納されている。最新の話題501である「絵本」の運動量は2.1であり、音量は1.5である。また、第1の話題の候補511である「ヒーローごっこ」の運動量は8.3であり、音量は7.2である。そのため、最新の話題501と第1の話題の候補511とのユークリッド距離は、{(2.1−8.3)+(1.5−7.2)1/2で計算される。提供話題判断部207は、最新の話題501と他の話題の候補とのユークリッド距離も同様に算出し、算出したユークリッド距離が最も大きい話題の候補を、大人と幼児とに提供する提供話題として選択する。
応答文生成部105は、提供する話題に関する情報を提供話題判断部207から受け取り、ユーザに提供する話題の内容を伝える応答文をテキストデータとして生成する。例えば、提供する話題が「ヒーローごっこ」である場合、応答文生成部105は、「今日は、ヒーローごっこをやっていたね」という応答文を生成する。
なお、応答文生成部105は、活動項目を含ませるだけでなく、他の属性を組み合わせて応答文を生成することが好ましい。すなわち、応答文生成部105は、幼児活動データベース204に基づいて、提供話題(第3活動項目)に対応する運動量(第3運動量)が第1閾値以上である場合は、第2キーワードを含む音声データを生成する。また、応答文生成部105は、幼児活動データベース204に基づいて、提供話題(第3活動項目)に対応する運動量(第3運動量)が第1閾値未満である場合は、第3キーワードを含む音声データを生成する。このとき、第2キーワード及び第3キーワードは、提供話題(第3活動項目)に取り組む幼児の活発さを示す修飾語を含む。第2キーワードが示す意味は、第3キーワードが示す意味とは反対の意味である。
また、応答文生成部105は、幼児活動データベース204に基づいて、提供話題(第3活動項目)に対応する音量(第3音量)が第1閾値以上である場合は、第2キーワードを含む音声データを生成する。また、応答文生成部105は、幼児活動データベース204に基づいて、提供話題(第3活動項目)に対応する音量(第3音量)が第1閾値未満である場合は、第3キーワードを含む音声データを生成する。
例えば、提供する話題が「ヒーローごっこ」である場合、応答文生成部105は、運動量又は音量の大きさを参照して、応答文を生成してもよい。例えば、応答文生成部105は、運動量が所定の値より大きい場合は、「今日は、ヒーローごっこをやって、いっぱい動いていたね」という応答文を生成したり、音量が所定の値より大きい場合は、「今日は、ヒーローごっこをやって、すごく騒いでいたね」という応答文を生成したりして、幼児の活動の状態を付与した応答文を生成する。もしくは、応答文生成部105は、「今日は、ヒーローごっこをやって、いっぱい動いて、すごく騒いでいたね」といったように、運動量及び音量の両方の属性に対応する活動の状態を付与した応答文を生成してもよい。応答文生成部105は、生成した応答文を表すテキストデータを音声合成部106へ出力する。
音声合成部106は、話題の候補から選択された大人と幼児とに提供する一の話題を含む音声データを生成する。音声合成部106は、応答文を表すテキストデータを応答文生成部105から受け取り、公知の音声合成処理を実行することにより、応答文を表すテキストデータを音声データに変換する。音声合成部106は、変換した音声データをスピーカ107へ出力する。
スピーカ107は、音声合成部106によって生成された音声データを出力する。スピーカ107は、音声合成部106から受け取った音声データを出力する。
なお、本実施の形態1において、センサ101、マイク102及びスピーカ107以外の構成の一部又は全部は、話題提供装置100とネットワークを介して互いに通信可能に接続されたサーバに設けられていてもよい。
以下、実施の形態1において、対話を行っているユーザが親子であるか否かを判断し、話題を提供するか否かを判断し、提供する話題を選択し、話題を提供するまでの話題提供処理について図10を用いて説明する。
図10は、本実施の形態1における話題提供装置による話題提供処理の一例を示すフローチャートである。
まず、センサ101は、入力情報として、複数のユーザを撮影した画像データを取得する(ステップS1)。センサ101は、取得した画像データを人物推定部103へ出力する。
次に、人物推定部103は、メモリ108に記憶されているユーザ情報を参照して、センサ101から出力された画像データに対して人物推定処理を実行することにより、画像データに含まれる人物を推定する(ステップS2)。
次に、人物推定部103は、画像データに含まれる人物が推定されたか否かを判断する(ステップS3)。ここで、人物が推定されたと判断された場合(ステップS3でYES)、人物推定部103は、画像データに含まれる人物に対応するユーザ情報を親子対話判断部201へ出力する(ステップS4)。
一方、画像データに含まれる人物が、メモリ108に記憶されているユーザ情報に該当せずに、人物が推定されなかったと判断された場合(ステップS3でNO)、ステップS1の処理に戻る。
次に、マイク102は、入力情報として、複数のユーザによって発話された音声を表す音声データを取得する(ステップS5)。マイク102は、取得した音声データを音声認識部104へ出力する。
次に、音声認識部104は、マイク102から出力された音声データに対して音声認識処理を実行し、音声データに含まれる人物の発話内容をテキストデータに変換する(ステップS6)。
次に、音声認識部104は、音声認識処理過程で抽出された音声データの音声特性から、発話者が同一人物であるか否かを示す属性情報をテキストデータに付加し、テキストデータとタイムスタンプとを対話履歴データベース202に登録する(ステップS7)。
次に、親子対話判断部201は、人物推定部103によって出力されたユーザ情報に基づいて、話題提供装置100の周辺に親子が存在するか否かを判断する(ステップS8)。ステップS1〜S7の処理を複数回行うことで、親子で対話しているか否かの判断が可能になる。親子対話判断部201は、所定時間内に親を示すユーザ情報又は子どもを示すユーザ情報のいずれか一方のみが出力される場合、話題提供装置100の周辺に親子が存在しないと判断し、所定時間内に親を示すユーザ情報と子どもを示すユーザ情報との両方が出力される場合、話題提供装置100の周辺に親子が存在すると判断する。ここで、話題提供装置100の周辺に親子が存在しないと判断された場合(ステップS8でNO)、ステップS1の処理に戻る。
一方、話題提供装置100の周辺に親子が存在すると判断された場合(ステップS8でYES)、親子対話判断部201は、対話履歴データベース202を参照して、親子が対話しているか否かを判断する(ステップS9)。親子対話判断部201は、対話履歴データベース202を参照して、所定時間内に2人の異なる人物が発話している場合、すなわち、所定時間内に2人の異なる発話者に対応するテキストデータが対話履歴データベース202に存在する場合、親子が対話していると判断する。また、親子対話判断部201は、対話履歴データベース202を参照して、所定時間内に1人の人物のみが発話している場合、すなわち、所定時間内に1人の発話者のみに対応するテキストデータが対話履歴データベース202に存在する場合、又は、所定時間内に人物が発話していない場合、すなわち、所定時間内にテキストデータが対話履歴データベース202に存在していない場合、親子が対話していないと判断する。ここで、親子が対話していないと判断された場合(ステップS9でNO)、ステップS1の処理に戻る。
なお、親子対話判断部201は、対話履歴データベース202を参照して、親子が対話していると認識したテキストデータのタイムスタンプが示す時刻から1つ前のテキストデータのタイムスタンプが示す時刻までの経過時間が所定時間以内である場合、当該1つ前のテキストデータは親子で対話中の発話内容であると判断する。そして、親子対話判断部201は、1つ前のテキストデータを順に判断することで、親子が対話を開始した時刻を示す開始時間を特定する。親子対話判断部201は、親子が対話していると判断した時に、親子が対話を開始した時刻を示す開始時間をメモリ108に記録する。
一方、親子が対話していると判断された場合(ステップS9でYES)、話題提供判断部203は、対話履歴データベース202から最新のテキストデータを参照し、話題を提供する必要があるか否かを判断する(ステップS10)。話題提供判断部203は、最新のテキストデータ内に所定のキーワードが含まれている場合、話題を提供する必要があると判断する。なお、所定のキーワードは、例えば、「話題をちょうだい」などの話題の提供を求める文言である。また、話題提供判断部203は、最新のテキストデータ内に所定のキーワードが含まれていない場合、話題を提供する必要がないと判断する。ここで、話題を提供する必要がないと判断された場合(ステップS10でNO)、ステップS1の処理に戻る。
一方、話題を提供する必要があると判断された場合(ステップS10でYES)、対話話題判断部205は、親子の対話中に登場した話題を特定する(ステップS11)。対話話題判断部205は、メモリ108に保存している親子の対話の開始時間を読み出し、対話履歴データベース202の開始時間から現在時刻までのテキストデータを取得する。対話話題判断部205は、幼児活動データベース204内の幼児の活動項目をキーワードとして、取得したテキストデータを検索する。対話話題判断部205は、テキストデータ内にキーワードと一致する単語があった場合は、当該キーワードに対応する活動項目を、親子の対話中に登場した既出話題として特定する。
次に、対話話題判断部205は、親子の対話中に登場した話題のうちの最新の話題を特定する(ステップS12)。対話話題判断部205は、幼児活動データベース204内の幼児の活動項目に対応するキーワードを含むテキストデータの中で、最新のテキストデータ内のキーワードを最新の話題として特定する。
次に、話題候補抽出部206、提供話題判断部207及び応答文生成部105は、親子に話題を提供するための応答文を生成する提供話題文生成処理を実行する(ステップS13)。なお、提供話題文生成処理の詳細については、図11を用いて後述する。
次に、音声合成部106は、提供する話題の応答文を表すテキストデータを音声データに変換する(ステップS14)。
次に、スピーカ107は、音声データを出力する(ステップS15)。
続いて、図10のステップS13の提供話題文生成処理について図11を用いて説明する。
図11は、図10のステップS13の提供話題文生成処理について説明するためのフローチャートである。
まず、話題候補抽出部206は、幼児活動データベース204から幼児の当日の活動データを取得する(ステップS21)。
次に、話題候補抽出部206は、幼児の活動データの当日に行われた活動項目の中から、対話話題判断部205によって判断された親子の対話中に登場した話題と一致する活動項目を除外した活動項目を話題候補として抽出する(ステップS22)。
次に、提供話題判断部207は、当日の活動データの中に、対話話題判断部205によって判断された最新の話題に対応する活動データが存在するか否かを判断する(ステップS23)。ここで、最新の話題に対応する活動データが存在すると判断された場合(ステップS23でYES)、ステップS27の処理へ移行する。
一方、最新の話題に対応する活動データが存在しないと判断された場合(ステップS23でNO)、提供話題判断部207は、幼児活動データベース204内の幼児の過去の活動データを参照して、最新の話題に一致する活動項目を含む活動データが過去に存在するか否かを判断する(ステップS24)。ここで、最新の話題に一致する活動項目を含む活動データが過去に存在すると判断された場合(ステップS24でYES)、提供話題判断部207は、最新の話題に一致する活動項目を含む過去の活動データを幼児活動データベース204から抽出する。
一方、最新の話題に一致する活動項目を含む活動データが過去に存在しないと判断された場合(ステップS24でNO)、提供話題判断部207は、メモリ108に予め記憶されている所定の値(所定の運動量及び所定の音量)を含む活動データを、最新の話題の活動データとして生成する(ステップS26)。
次に、提供話題判断部207は、活動データ内の運動量と音量とをそれぞれ座標軸とする座標平面内において、最新の話題の活動データに対する話題候補の活動データの相対ベクトルを算出する(ステップS27)。
次に、提供話題判断部207は、抽出された全ての話題候補に対応する相対ベクトルを算出したか否かを判断する(ステップS28)。ここで、全ての話題候補に対応する相対ベクトルを算出していないと判断された場合(ステップS28でNO)、ステップS27の処理へ戻る。
一方、全ての話題候補に対応する相対ベクトルを算出したと判断された場合(ステップS28でYES)、提供話題判断部207は、相対ベクトルの値(ユークリッド距離)が最大となる話題候補を、提供話題として選択する。
次に、応答文生成部105は、提供話題判断部207によって選択された提供話題の活動データに基づいて、応答文を生成する(ステップS30)。応答文生成部105は、提供話題に対応する活動項目と、提供話題の活動データに含まれる運動量及び/又は音量とに応じた応答文を生成する。
このように、大人と幼児との対話を示すテキストデータを記憶する対話履歴データベース202と、幼児が第1所定期間に活動した項目を示す活動項目を記憶する幼児活動データベース204とに基づいて、活動項目に対応し、且つ、対話履歴データベース202に記録されたテキストデータに含まれる活動項目に対応していない話題の候補が抽出され、話題の候補から大人と幼児とに提供する一の話題が選択されるので、幼児の活動内容に応じた話題を提供することができ、幼児が会話しやすい話題を提供することができる。
(実施の形態2)
実施の形態2では、話題提供装置100が幼児活動データベース204を作成する処理について説明する。
図12は、本実施の形態2における話題提供装置の第2処理部の構成を示す図である。なお、以下の説明では、説明の簡略化のため上記実施の形態1と同様の構成については同一の符号を付けて説明を省略する。
図12に示す第2処理部300は、姿勢推定部301と、運動量測定部302と、活動項目推定部303と、音量測定部304と、活動項目判断部305と、活動項目登録部306とを備える。本実施の形態2では、スピーカ107が幼児に対して質問する音声を出力し、マイク102が幼児の応答音声を取得する処理が含まれる。幼児の応答内容によっては、上記の処理が繰り返されることもある。
センサ101は、話題提供装置100の周辺の画像データと、センサ101から話題提供装置100の周辺に存在する人物を含む物体までの距離を示す距離データとを取得する。センサ101は、例えば、ステレオカメラ又は距離センサであり、画像データと、幼児の3次元空間の距離データとを取得する。センサ101は、取得した画像データ及び距離データを人物推定部103へ出力する。
人物推定部103は、実施の形態1と同様に、センサ101によって取得された画像データとメモリ108に記憶されているユーザに対応する画像データとに基づいて、取得された画像データに含まれる人物を推定し、推定した人物を示すユーザ情報を出力する。人物推定部103は、推定した人物を示すユーザ情報と、センサ101から取得した距離データとを姿勢推定部301及び運動量測定部302へ出力する。
姿勢推定部301は、ユーザ情報が示す人物が幼児である場合、センサ101から取得された画像データと、センサ101から取得された距離データと、メモリ108に記憶されている人体の各姿勢における3次元骨格位置を示す人体モデルデータとに基づいて、幼児の姿勢を推定し、推定した幼児の姿勢を示す姿勢情報を出力する。
姿勢推定部301は、画像データと3次元空間の距離データとから幼児の姿勢を推定する。姿勢推定部301は、人物の各部位の姿勢(位置)から、姿勢の状態を推定する。部位とは、多関節物体の構成要素、例えば、頭部、胴体、腕及び足などを示す。各部位の状態から「立っている」、「座っている」、「屈んでいる」、「歩いている」、「走っている」及び「寝そべっている」等が、姿勢の状態として事前にメモリ108に定義されている。
姿勢推定部301は、各部位の状態を要素として、各部位の状態から姿勢の状態を推定する。例えば、足の姿勢が地面に対して直立である場合は、姿勢の状態は「立っている」という条件を満たす要素となる。足の姿勢が地面に対して平行である場合は、姿勢の状態は「座っている」又は「寝そべっている」の条件を満たす要素となる。また、例えば両足の姿勢が地面に対して直立であり、胴体の姿勢が地面に対して直立である場合は、姿勢の状態は「立っている」の条件を満たす要素となる。姿勢推定部301は、センサ101から取得した距離データと、メモリ108に予め記憶されている幼児の人体モデルとをマッチングなどの公知の姿勢推定技術により、事前に定義した姿勢の状態を推定結果とし、推定した姿勢の状態を活動項目推定部303へ出力する。
運動量測定部302は、ユーザ情報が示す人物が幼児である場合、センサ101から取得された画像データと、センサ101から取得された距離データと、メモリ108に記憶されている人体モデルデータとに基づいて、幼児の特定部位の第1所定期間における位置の変化量を運動量として算出し、運動量を示す運動量情報を出力する。また、運動量測定部302は、第1所定期間を含む第2所定期間における変化量の平均値を運動量として算出する。
運動量測定部302は、画像データと3次元空間の距離データとから幼児の運動量を測定する。運動量は、スケルトントラッキング等により人物の部位をトラッキングし、各部位の3次元空間上の変化量の時間平均とする。例えば、まず手が三次元空間上の座標(x0、y0、z0)に存在するとき、所定時間後に手が存在する座標(x1、y1、z1)における変化量は{(x0−x1)+(y0−y1)+(z0−z1)1/2である。運動量測定部302は、人物の部位の変化量を所定時間加算し、加算した変化量を所定時間で除算した値を運動量として算出する。運動量測定部302は、算出した運動量を活動項目推定部303と活動項目登録部306とへ出力する。
活動項目推定部303は、姿勢情報と、運動量情報と、メモリ108に記憶されている幼児が行う活動項目と当該活動項目に対応する運動量と当該活動項目に対応する幼児の姿勢との対応関係を示したテーブルとに基づいて、もしくは、抽出された音声に含まれる名詞に基づいて、幼児が現在行っている活動項目を推定し、推定した活動項目を示す活動情報を出力する。
活動項目推定部303は、姿勢の状態とメモリ108に定義した各部位の運動量とから幼児の活動項目(活動内容)を推定する。もしくは、活動項目推定部303は、幼児の発話内容から幼児の活動項目を推定する。推定結果は、複数の活動項目を候補として挙げてもよい。活動項目は、姿勢の状態と各部位の所定の運動量よりも高い又は低い状態を所定時間継続した結果から推定される。
図13は、本実施の形態2において、活動項目推定部が活動項目を推定する際に用いる、活動項目と人体の各部位の運動量と姿勢の状態とを対応付けた表を示す図である。例えば、5分間続けて各部位の運動量が測定されるとともに姿勢の状態が推定された場合、活動項目推定部303は、各部位の運動量と姿勢の状態とが図13に示す条件を満たす活動項目を推定結果とする。
例えば、測定された頭部の運動量が2.0であり、測定された胴部の運動量が2.5であり、測定された腕部の運動量が2.5であり、測定された脚部の運動量が0であり、推定された姿勢の状態が「座っている」である場合は、活動項目推定部303は、頭部の運動量が「3.0以下」であり、かつ胴部の運動量が「3.0以下」であり、かつ腕部の運動量が「3.0以下」であり、かつ姿勢の状態が「座っている」であるという条件を満たす「絵本」を活動項目として推定する。
また、例えば、測定された頭部の運動量が8.5であり、測定された胴部の運動量が8.0であり、測定された腕部の運動量が8.2であり、測定された脚部の運動量が8.2であり、推定された姿勢の状態が「歩いている」である場合は、活動項目推定部303は、頭部の運動量が「8.0以上」であり、かつ胴部の運動量が「8.0以上」であり、かつ腕部の運動量が「8.0以上」であり、かつ脚部の運動量が「8.0」であり、かつ姿勢の状態が「歩いている」であるという条件を満たす「ヒーローごっこ」と、頭部の運動量が「7.0以上」であり、かつ胴部の運動量が「7.0以上」であり、かつ腕部の運動量が「7.0以上」であり、かつ姿勢の状態が「歩いている」であるという条件を満たす「ダンス」との2つを活動項目として推定する。複数の活動項目の候補が存在する場合は、活動項目推定部303は、無差別に1つの候補を選択する。
活動項目推定部303は、推定した活動項目に動詞を付けて応答文生成部105へ出力する。例えば、推定結果が「絵本」だった場合は、活動項目推定部303は、「絵本を読む」を応答文生成部105へ出力する。
応答文生成部105は、活動項目推定部303から取得した推定結果を疑問文に変換したテキストデータを生成する。例えば、生成するテキストデータは、推定結果が「絵本を読む」であった場合は、応答文生成部105は、「絵本を読んでいるの?」というテキストデータを生成する。また、例えば、推定結果が「ヒーローごっこをする」であった場合は、応答文生成部105は、「ヒーローごっこをしているの?」というテキストデータを生成する。応答文生成部105は、生成したテキストデータを音声合成部106へ出力する。
音声合成部106は、応答文生成部105から受け取ったテキストデータを音声データに変換し、スピーカ107へ出力する。音声合成部106は、活動情報に示された活動項目に対応するキーワードを含む音声データ(第1音声データ)を生成する。音声データは疑問文で表される。また、音声データは、幼児が推定された活動項目を行っているか否かを尋ねるテキストデータを含む。スピーカ107は、音声データ(第1音声データ)を出力する。
マイク102は、話題提供装置100の周辺の音を取得する。マイク102は、人物推定部103が幼児を検出している間、周辺の環境音を常時取得し続け、音量測定部304へ出力する。また、マイク102は、スピーカ107から出力された質問に対する幼児の応答音声を取得し、音声認識部104へ出力する。なお、マイク102は、幼児の発話と環境音との違いを認識できないため、音声認識部104と音量測定部304とへ出力される音は同じである。
音声認識部104は、実施の形態1と同様の処理を行い、マイク102から取得した幼児の応答音声をテキストデータに変換し、活動項目判断部305へ出力する。音声認識部104は、スピーカ107から音声データ(第1音声データ)が出力された後に、マイク102によって取得された音から抽出された音声の内容を認識し、認識された音声の内容を示すテキストデータを出力する。
音量測定部304は、マイク102によって取得された音から音声を抽出し、抽出した音声の音量を示す音量情報を出力する。また、音量測定部304は、第1所定期間を含む第2所定期間において抽出された音声の音量の平均値を音量情報として出力する。音量測定部304は、マイク102から取得した音の大きさ(音量)を公知の騒音測定処理により測定する。音の大きさは音圧の大きさで表される。音量測定部304は、測定した音量を活動項目登録部306へ出力する。
活動項目判断部305は、幼児の応答内容から活動項目を判断する。活動項目判断部305は、音声認識部104からのテキストデータに肯定語が含まれているか否かを判定する。また、活動項目判断部305は、テキストデータに肯定語が含まれていないと判定した場合、テキストデータに否定語が含まれているか否かを判定する。
活動項目判断部305は、幼児の応答内容を単語毎に分解し、単語が肯定の意味を示すか、否定の意味を示すか、その他の意味を示すかを判断する。活動項目判断部305は、スピーカ107が音声出力した質問に対する幼児の応答内容が「うん」又は「そうだよ」といった肯定を意味している場合に、活動項目推定部303によって推定された活動項目を幼児の活動項目と判断する。また、活動項目判断部305は、幼児の応答内容が、否定を意味している場合又は別の活動項目を示唆する内容である場合、幼児の活動項目は判明していない、又は幼児が活動していないと判断する。
例えば、スピーカ107が「絵本を読んでいるの?」という質問の音声データを出力し、幼児が「うん、絵本を読んでいるの」という応答音声を発話した場合は、活動項目判断部305は、「うん」という肯定を意味する発話から活動項目は「絵本」であると判断する。また、スピーカ107が、「何をしているの?」という質問の音声データを出力し、幼児が「ヒーローごっこをしている」という肯定又は否定を示す表現が存在しない応答音声を発話した場合は、活動項目判断部305は、幼児の活動項目を特定できないと判断する。また、幼児が「何もしていないよ」という応答音声を発話した場合は、活動項目判断部305は、幼児が活動行為を行っていないと判断する。また、幼児が長時間応答音声を発話しない場合、又は話題提供装置100が複数回数質問しても幼児が応答音声を発話しなかった場合、活動項目判断部305は、幼児は活動行為を行っていないと判断する。
活動項目判断部305は、幼児の活動項目を特定した場合は、特定した活動項目を活動項目登録部306へ出力する。活動項目判断部305は、幼児の活動項目を特定できなかった場合は、単語毎に分解した幼児の応答内容を示すテキストデータを活動項目推定部303へ出力する。
活動項目推定部303は、活動項目判断部305によってテキストデータに否定語が含まれていないと判定された場合、テキストデータに名詞が含まれているか否かを判定し、テキストデータに名詞が含まれていると判定した場合は、名詞が、幼児が現在行っている活動項目を示していると推定する。
活動項目推定部303は、活動項目判断部305によって幼児の活動項目が特定されない場合、幼児の応答内容を示すテキストデータに基づいて活動項目を推定する。活動項目推定部303は、単語毎に分解された幼児の応答内容を示すテキストデータから名詞句を抽出する。活動項目推定部303は、抽出した名詞句を幼児が行っている活動項目と推定する。例えば、幼児の応答内容が「ヒーローごっこをしている」であった場合は、活動項目推定部303は、名詞句である「ヒーローごっこ」を抽出する。活動項目推定部303は、推定結果に動詞を付けて応答文生成部105へ出力する。
また、例えば、幼児の応答内容が「違うよ」であり、応答内容を示すテキストデータに名詞句が含まれず、活動項目を推定できなかった場合は、活動項目推定部303は、「何をしているの?」といった幼児の行為を問い合わせる内容のテキストデータを推定結果とする。この場合、応答文生成部105は、活動項目推定部303によってテキストデータに名詞が含まれていないと判定された場合、幼児に何をしているか尋ねるための音声データ(第2音声データ)を生成する。スピーカ107は、音声データ(第2音声データ)を出力する。
活動項目登録部306は、活動項目判断部305によってテキストデータに肯定語が含まれていると判定された場合、活動情報と運動量情報と音量情報とを対応付けて幼児活動データベース204に記録する。活動項目登録部306は、幼児の活動項目と運動量と音量と活動日付を幼児活動データベース204に登録する。活動項目登録部306は、運動量及び音量を0.0〜10.0の評価値に変換し、幼児活動データベース204へ登録する。なお、評価値は、運動量及び音量のように単位の違う2つ以上の値のスケールを所定の方法で合わせた値である。例えば、事前に幼児の様々な活動に伴う運動量及び音量のデータを取得し、取得したそれぞれのデータの最小値を0.0に設定し、最大値を10.0に設定してもよい。活動項目登録部306は、変換した運動量と、変換した音量と、活動項目判断部305が判断した活動項目と、活動日付とを幼児活動データベース204に登録する。活動項目登録部306は、正規化した運動量を運動量情報として幼児活動データベース204に記録するとともに、正規化した音量を音量情報として幼児活動データベース204に記録する。すなわち、活動項目登録部306は、第1係数が乗算された運動量を運動量情報として幼児活動データベース204に記録するとともに、第2係数が乗算された音量を音量情報として幼児活動データベース204に記録する。そして、第1係数は、所定の第1定数を第2定数で除算した値であり、第2係数は、所定の第3定数を第2定数で除算した値である。
なお、活動項目登録部306は、幼児の体の各部位の運動量の平均値を、活動項目に対応する運動量として幼児活動データベース204へ登録する。また、活動項目登録部306は、幼児の体の各部位の運動量の最大値又は最小値を、活動項目に対応する運動量として幼児活動データベース204へ登録してもよい。
また、本実施の形態2において、センサ101、マイク102及びスピーカ107以外の構成の一部又は全部は、話題提供装置100とネットワークを介して互いに通信可能に接続されたサーバに設けられていてもよい。
以下、実施の形態2において、幼児の活動項目と運動量情報と音声情報と日付とを幼児活動データベースに登録する登録処理について図14及び図15を用いて説明する。
図14は、本実施の形態2における話題提供装置による登録処理の一例を示す第1のフローチャートであり、図15は、本実施の形態2における話題提供装置による登録処理の一例を示す第2のフローチャートである。
まず、センサ101は、画像データと三次元距離データとを取得する(ステップS41)。センサ101は、取得した画像データを人物推定部103へ出力する。また、センサ101は、取得した画像データと三次元距離データとを姿勢推定部301にも出力する。
次に、人物推定部103は、メモリ108に記憶されているユーザ情報を参照して、センサ101から出力された画像データに対して人物推定処理を実行することにより、画像データに含まれる人物を推定する(ステップS42)。
次に、人物推定部103は、画像データに含まれる幼児が推定されたか否かを判断する(ステップS43)。ここで、幼児が推定されなかった場合(ステップS43でNO)、ステップS41の処理に戻り、幼児が検出されるまでステップS41〜ステップS43の処理が繰り返される。
一方、幼児が推定されたと判断された場合(ステップS43でYES)、運動量測定部302は、幼児の動きをトラッキングし、トラッキングした幼児の三次元距離データ上の変化量を運動量として測定する(ステップS44)。なお、運動量測定部302は、幼児の体全体を、手、足、胴体及び頭の4つの部位に切り分けて、それぞれの部位の運動量を測定する。
次に、運動量測定部302は、測定した各部位の運動量を示す運動量情報をメモリ108に保存する(ステップS45)。
次に、マイク102は、幼児の活動に伴う音声データを取得する(ステップS46)。マイク102は、取得した音声データを音量測定部304へ出力する。
次に、音量測定部304は、取得した音声データの音量を測定する(ステップS47)。
次に、音量測定部304は、測定した音量を示す音量情報をメモリ108に保存する(ステップS48)。
次に、姿勢推定部301は、センサ101から取得した画像データ及び距離データに対して、メモリ108に保持されている人体モデルの姿勢をマッチングし、類似度が最も大きい姿勢を幼児の姿勢として推定する(ステップS49)。姿勢推定部301は、推定した幼児の姿勢の状態を示す姿勢情報を活動項目推定部303へ出力する。
次に、活動項目推定部303は、メモリ108に事前に定義された幼児の姿勢と各部位の運動量と活動項目とを対応付けたテーブルを利用して、幼児の活動項目を推定する(ステップS50)。例えば、幼児の姿勢が座っている状態であることが所定時間以上推定され、手の部位の運動量が所定の運動量より大きく、且つ他の部位の運動量が所定の運動量よりも小さいとことが所定時間以上検出された場合は、活動項目推定部303は、幼児が絵本を読んでいる又は幼児が絵を描いていると推定する。例えば、活動項目推定部303は、「絵本」という推定した活動項目を示す名詞に「読む」という動詞を付けたテキストデータを応答文生成部105へ出力する。なお、日本語の場合は、活動項目推定部303は、「を」という助詞も活動項目に付加し、「絵本を読む」というテキストデータを出力してもよい。また、他の言語では、活動項目推定部303は、代名詞などの他の品詞を活動項目に付加してもよい。
次に、活動項目推定部303は、幼児の活動項目が推定されたか否かを判断する(ステップS51)。ここで、活動項目が推定されなかったと判断された場合(ステップS51でNO)、ステップS41の処理に戻り、ステップS41〜ステップS51と同様の処理が行われる。
一方、活動項目が推定されと判断された場合(ステップS51でYES)、応答文生成部105は、活動項目推定部303から受け取った幼児の活動項目を含むテキストデータを、現在進行形の疑問文の形式に変換したテキストデータを生成する(ステップS52)。例えば、受け取った幼児の活動項目を含むテキストデータが「絵本を読む」であった場合、応答文生成部105は、「絵本を読んでいるの?」という疑問文形式のテキストデータを生成し、音声合成部106へ出力する。
次に、音声合成部106は、応答文生成部105から取得したテキストデータを音声データに変換する(ステップS53)。音声合成部106は、音声データをスピーカ107へ出力する。
次に、スピーカ107は、音声合成部106から受け取った音声データを出力する(ステップS54)。これにより、話題提供装置100が、幼児に質問することになる。
次に、マイク102は、スピーカ107から出力された質問内容に関して、幼児の応答内容を示す音声データを取得する(ステップS55)。マイク102は、取得した幼児の応答内容を示す音声データを音声認識部104へ出力する。
次に、音声認識部104は、マイク102から出力された音声データに対して音声認識処理を実行し、取得した音声データに含まれる幼児の応答内容をテキストデータに変換する(ステップS56)。
次に、音声認識部104は、幼児が応答したか否かを判断する(ステップS57)。音声認識部104は、テキストデータに変換した結果の信頼値が所定値以下である場合、変換したテキストデータを棄却する。テキストデータの棄却は、幼児が話題提供装置100に対して応答していないことを示す。また、活動項目を含む疑問形式の音声データがスピーカ107から出力されてから所定時間経過しても幼児の応答内容を示す音声データが取得されない場合も、音声認識部104は、幼児が応答していないと判断してもよい。ここで、幼児が応答していないと判断された場合(ステップS57でNO)、ステップS55の処理に戻り、ステップS55〜ステップS57の処理が行われる。
一方、幼児が応答したと判断された場合(ステップS57でYES)、活動項目判断部305は、音声認識部104から取得したテキストデータが肯定語を含むか否かを判断する(ステップS58)。肯定語は、例えば、「はい」、「うん」又は「そうだよ」といったワードである。テキストデータが肯定語を含む場合は、話題提供装置100が推定した活動を幼児が行っていると判断することができる。そのため、活動項目判断部305は、活動項目を活動項目登録部306へ出力する。
ここで、テキストデータが肯定語を含まないと判断された場合(ステップS58でNO)、活動項目判断部305は、テキストデータが否定語を含むか否かを判断する(ステップS59)。否定語は、例えば、「いいえ」、「違うよ」又は「そんなことしてないよ」といったワードである。
ここで、テキストデータが否定語を含むと判断された場合(ステップS59でYES)、ステップS50の処理に戻り、活動項目推定部303は、テキストデータを単語ごとに分解し、テキストデータから名詞句を抽出する。活動項目推定部303は、抽出した名詞句を幼児が行っている活動項目と推定する。例えば、テキストデータが「違うよ、お絵かきしてるんだよ」だった場合は、活動項目推定部303は、「お絵かき」を抽出し、活動項目に対応する動詞をつけて「お絵かきをする」というテキストデータを出力する。また、テキストデータが「違うよ」又は「そんなことしていないよ」といった名詞句を含まない場合、活動項目推定部303は、活動項目を推定することができないため、例えば「何をしている?」といった活動項目を問いかける内容のテキストデータを推定結果として生成する。活動項目を推定した後は、ステップS50以降の処理が行われる。
一方、テキストデータが否定語を含まないと判断された場合(ステップS59でNO)、処理を終了する。すなわち、活動項目判断部305は、幼児が自身の活動そのものを否定したとき、幼児が活動していないと判断する。例えば、テキストデータが、「何もしていないよ」又は「遊んでいないよ」というような「何かをする」ことや「遊ぶ」ことに対して否定するワードを含む場合は、活動項目判断部305は、幼児が活動を否定したと判断して、処理を終了する。
また、テキストデータが肯定語を含むと判断された場合(ステップS58でYES)、活動項目登録部306は、幼児の活動項目と運動量と音量と日付とを幼児活動データベース204に登録する(ステップS60)。活動項目登録部306は、活動項目を検出したタイミングから所定時間遡った時間までにメモリ108に保存している音量と各部位の運動量とを参照する。活動項目登録部306は、参照した音量のスケールと各部位の運動量のスケールとを所定の方法で合わせる。例えば、事前に想定される音量又は各部位の運動量に対して、最大値及び最小値を定めておき、最小値を0.0とし、最大値を10.0としたときに、最大値及び最小値の幅から0.0〜10.0のスケールに落とし込む。なお、参照した音量又は各部位の運動量が最小値よりも小さかった場合は0.0とし、参照した音量又は各部位の運動量が最大値よりも大きかった場合は10.0とする。スケールに落とし込む音量又は各部位の運動量は、例えば所定時間分の参照した音量の平均値又は各部位の運動量の平均値とする。
このように、幼児の姿勢と幼児の運動量とに基づいて、もしくは、抽出された音声に含まれる名詞に基づいて、幼児が現在行っている活動項目が推定され、推定された活動項目を示す活動情報と運動量情報と音量情報とが対応付けられて幼児活動データベース204に記録されるので、幼児に応じたデータベースを容易に作成することができる。
また、活動項目を示す活動情報と運動量情報と音量情報とが対応付けられた幼児活動データベース204を用いることで、幼児の活動内容に応じた話題を提供することができ、幼児が会話しやすい話題を提供することができる。
(実施の形態3)
実施の形態3では、話題提供装置100をロボット400に実装した例について図16及び図17を用いて説明する。なお、以下の説明では、説明の簡略化のため上記実施の形態1,2と同様の構成については同一の符号を付けて説明を省略する。
図16は、本実施の形態3に係るロボットの外観図である。図17は、本実施の形態3に係るロボットの構成を示すブロック図である。
ロボット400は、図16に示すように、球帯状のメイン筐体405と、球冠部406とを備えており、メイン筐体405と球冠部406とは全体として球体を構成する。すなわち、ロボット400は球体形状を有する。また、ロボット400は、図16に示すように、球冠部406にセンサ101とマイク102とスピーカ107とを備える。また、ロボット400は、図17に示すように、制御回路401を備える。センサ101は、2つのカメラを用いたステレオカメラであるため、周辺環境の画像データと距離データとを取得する。制御回路401は、ロボットの各種動作を制御する。制御回路401の詳細は、図17を参照しながら後述する。なお、本実施の形態3において、ロボット400は、全体として球体を構成しているが、これに限られるものではなく、少なくとも移動機構を有した構成であればよい。
図17に示すロボット400は、センサ101と、マイク102と、スピーカ107と、制御回路401と、駆動制御部403と、駆動部404とを備える。
制御回路401は、人物推定部103と、音声認識部104と、対話履歴データベース202と、幼児活動データベース204と、第1処理部200と、第2処理部300と、主制御部402と、応答文生成部105と、音声合成部106と、メモリ108とを備える。
センサ101は、実施の形態2と同様に、人物推定部103に画像データと距離データとを出力する。
マイク102は、実施の形態1,2と同様に、音声認識部104へ音声データを出力する。
人物推定部103は、実施の形態1と同様の処理を行い、第1処理部200へ人物の推定結果を出力する。また、人物推定部103は、実施の形態2と同様の処理を行い、第2処理部300へ人物(幼児)の推定結果を出力する。
音声認識部104は、実施の形態1と同様の処理を行い、テキストデータ等を対話履歴データベース202へ出力する。また、音声認識部104は、実施の形態2と同様の処理を行い、テキストデータ等を第2処理部300へ出力する。
対話履歴データベース202は、実施の形態1と同様に用いられる。なお、対話履歴データベース202は、クラウド上に存在してもよい。
幼児活動データベース204は、実施の形態1及び実施の形態2と同様に用いられる。なお、幼児活動データベース204は、クラウド上に存在してもよい。
第1処理部200は、実施の形態1と同様の処理を行い、ユーザへ提供する話題の抽出が完了した場合に、提供話題に関する情報を主制御部402へ出力する。
第2処理部300は、実施の形態2と同様の処理を行い、幼児の活動項目の推定が完了した場合に、推定結果を主制御部402へ出力する。
主制御部402は、ロボット400の行動を管理する。主制御部402は、所定の条件を満たすことで、駆動制御部403へコマンドを送信する。これにより、ロボット400は移動する。主制御部402は、第1処理部200から提供話題に関する情報を取得する。主制御部402は、提供話題に関する情報を取得した場合、提供話題に関する情報を応答文生成部105へ出力する。
主制御部402は、第2処理部300から幼児の活動項目の推定結果を取得する。主制御部402は、幼児の活動項目の推定結果を取得した場合、推定結果を応答文生成部105へ出力する。
駆動制御部403は、主制御部402から送信されるコマンドに応じて、ロボット400の駆動部404を動作させる。主制御部402から送信されるコマンドが、例えばユーザを探索することを指示するコマンドであれば、ロボット400は、周辺を見渡すように旋回する。
駆動部404は、球帯状のメイン筐体405を回転させることで、前進又は後進する。また、駆動部404は、メイン筐体405の内部の重心位置を、例えば内蔵した振り子により、変えることで旋回運動することができる。
応答文生成部105は、実施の形態1及び実施の形態2と同様の処理を行い、テキストデータを生成し、音声合成部106へ出力する。
音声合成部106は、実施の形態1及び実施の形態2と同様の処理を行い、テキストデータを音声データに変換する。スピーカ107は、音声データを出力する。
本開示において、ユニット、装置、部材又は部の全部又は一部、又は図に示されるブロック図の機能ブロックの全部又は一部は、半導体装置、半導体集積回路(IC)、又はLSI(Large Scale Integration)を含む一つ又は複数の電子回路によって実行されてもよい。LSI又はICは、一つのチップに集積されてもよいし、複数のチップを組み合わせて構成されてもよい。例えば、記憶素子以外の機能ブロックは、一つのチップに集積されてもよい。ここでは、LSIやICと呼んでいるが、集積の度合いによって呼び方が変わり、システムLSI、VLSI(Very Large Scale Integration)、若しくはULSI(Ultra Large Scale Integration)と呼ばれるものであってもよい。LSIの製造後にプログラムされる、Field Programmable Gate Array(FPGA)、又はLSI内部の接合関係の再構成又はLSI内部の回路区画のセットアップができるReconfigurable Logic Deviceも同じ目的で使うことができる。
さらに、ユニット、装置、部材又は部の全部又は一部の機能又は操作は、ソフトウエア処理によって実行することが可能である。この場合、ソフトウエアは一つ又は複数のROM、光学ディスク、ハードディスクドライブなどの非一時的記録媒体に記録され、ソフトウエアが処理装置(Processor)によって実行されたときに、そのソフトウエアで特定された機能が処理装置(Processor)および周辺装置によって実行される。システム又は装置は、ソフトウエアが記録されている一つ又は複数の非一時的記録媒体、処理装置(Processor)、及び必要とされるハードウエアデバイス、例えばインターフェース、を備えていてもよい。
本開示に係る音声対話装置、音声対話方法、音声対話プログラム及びロボットは、幼児の活動内容に応じた話題を提供することができ、幼児が会話しやすい話題を提供することができ、複数のユーザと音声対話する音声対話装置、音声対話方法、音声対話プログラム及びロボットとして有用である。
100 話題提供装置
101 センサ
102 マイク
103 人物推定部
104 音声認識部
105 応答文生成部
106 音声合成部
107 スピーカ
108 メモリ
200 第1処理部
201 親子対話判断部
202 対話履歴データベース
203 話題提供判断部
204 幼児活動データベース
205 対話話題判断部
206 話題候補抽出部
207 提供話題判断部
300 第2処理部
301 姿勢推定部
302 運動量測定部
303 活動項目推定部
304 音量測定部
305 活動項目判断部
306 活動項目登録部
400 ロボット
401 制御回路
402 主制御部
403 駆動制御部
404 駆動部
405 メイン筐体
406 球冠部

Claims (14)

  1. 複数のユーザと音声対話する装置であって、
    前記装置の周辺の画像データを取得するセンサと、
    前記装置の周辺の音を取得するマイクと、
    前記複数のユーザに対応する複数の画像データを記憶しているメモリと、前記複数のユーザは、大人と幼児とを含み、
    前記取得された画像データと前記記憶されている複数の画像データとに基づいて、前記取得された画像データに含まれる人物を推定し、前記推定した人物を示すユーザ情報を出力する推定部と、
    前記取得された音から音声を抽出し、前記音声に対応するテキストデータと前記音声の特徴量とを抽出し、前記テキストデータと前記特徴量とを対応付けて第1データベースに記録する音声認識部と、
    前記ユーザ情報と前記第1データベースとに基づいて、前記大人と前記幼児とが会話しているか否かを判定し、前記推定された人物が前記大人と前記幼児とであり、且つ、前記特徴量が互いに異なる複数の特徴量を含む場合、前記大人と前記幼児とが会話していると判定する第1判定部と、
    前記大人と前記幼児とが会話していると判定された場合、前記第1データベースに基づいて、前記大人と前記幼児とに新たに話題を提供する必要があるか否かを判定し、前記テキストデータに、第1キーワードが含まれている場合、前記大人と前記幼児とに新たに話題を提供する必要があると判定する第2判定部と、
    前記話題を提供する必要があると判定された場合、前記第1データベースと第2データベースとに基づいて、前記話題の候補を抽出する抽出部と、前記第2データベースは、前記幼児が第1所定期間に活動した項目を示す活動項目を記憶し、前記話題の候補は、前記活動項目に対応し、且つ、前記第1データベースに記録された前記テキストデータに含まれる活動項目に対応しておらず、
    前記話題の候補から前記大人と前記幼児とに提供する一の話題を選択する選択部と、
    前記一の話題を含む音声データを生成する生成部と、
    前記生成された音声データを出力するスピーカと、
    を備える、
    装置。
  2. 前記第2データベースは、更に、前記活動項目に対応する運動量を示す運動量情報と、前記活動項目に対応する音量を示す音量情報と、前記活動項目に対応する日付を示す日付情報とを記憶し、
    前記抽出部は、前記第2データベースに基づいて、最新の活動項目を特定し、前記最新の活動項目と前記テキストデータに含まれる活動項目とは異なる第2活動項目を、前記話題の候補として抽出し、
    前記選択部は、前記最新の活動項目に対応する第1運動量と、前記最新の活動項目に対応する第1音量と、前記活動項目のうち第2活動項目に対応する第2運動量と、前記第2活動項目に対応する第2音量とに基づいて、前記第2活動項目から第3活動項目を前記一の話題として選択する、
    請求項1に記載の装置。
  3. 前記選択部は、前記第1運動量に対する前記第2運動量の相対運動量の二乗と、前記第1音量に対する前記第2音量の相対音量の二乗との和が最大となる第2活動項目を前記第3活動項目として選択する、
    請求項2に記載の装置。
  4. 前記抽出部は、前記最新の活動項目と前記テキストデータに含まれる活動項目とは異なり、且つ第2所定期間に記録された第2活動項目を、前記話題の候補として抽出する、
    請求項2に記載の装置。
  5. 前記運動量情報は、前記運動量に第1係数が乗算された値であり、
    前記音量情報は、前記音量に第2係数が乗算された値である、
    請求項2に記載の装置。
  6. 前記生成部は、前記第2データベースに基づいて、前記第3活動項目に対応する第3運動量が第1閾値以上である場合は、第2キーワードを含む前記音声データを生成し、前記第2データベースに基づいて、前記第3活動項目に対応する第3運動量が第1閾値未満である場合は、第3キーワードを含む前記音声データを生成する、
    請求項2に記載の装置。
  7. 前記第2キーワード及び前記第3キーワードは、前記第3活動項目に取り組む前記幼児の活発さを示す修飾語を含み、
    前記第2キーワードが示す意味は、前記第3キーワードが示す意味とは反対の意味である、
    請求項6に記載の装置。
  8. 前記生成部は、前記第2データベースに基づいて、前記第3活動項目に対応する第3音量が第1閾値以上である場合は、第2キーワードを含む前記音声データを生成し、前記第2データベースに基づいて、前記第3活動項目に対応する第3音量が前記第1閾値未満である場合は、第3キーワードを含む前記音声データを生成する、
    請求項2に記載の装置。
  9. 前記第2キーワード及び前記第3キーワードは、前記第3活動項目に取り組む前記幼児の活発さを示す修飾語を含み、
    前記第2キーワードが示す意味は、前記第3キーワードが示す意味とは反対の意味である、
    請求項8に記載の装置。
  10. 前記特徴量は、前記音声を発話した発話者の声紋を含む、
    請求項1に記載の装置。
  11. 前記第1キーワードは、話題を示す単語を含む、
    請求項1に記載の装置。
  12. 請求項1記載の装置と、
    前記装置を内蔵する筐体と、
    前記筐体を移動させる移動機構と、
    を備えるロボット。
  13. 複数のユーザと音声対話する装置における方法であって、
    前記装置の周辺の画像データを取得し、
    前記装置の周辺の音を取得し、
    前記取得した画像データと、前記複数のユーザに対応する複数の画像データを記憶するメモリに記憶されている複数の画像データとに基づいて、前記取得した画像データに含まれる人物を推定し、前記推定した人物を示すユーザ情報を出力し、前記複数のユーザは、大人と幼児とを含み、
    前記取得した音から音声を抽出し、前記音声に対応するテキストデータと前記音声の特徴量とを抽出し、前記テキストデータと前記特徴量とを対応付けて第1データベースに記録し、
    前記ユーザ情報と前記第1データベースとに基づいて、前記大人と前記幼児とが会話しているか否かを判定し、前記推定した人物が前記大人と前記幼児とであり、且つ、前記特徴量が互いに異なる複数の特徴量を含む場合、前記大人と前記幼児とが会話していると判定し、
    前記大人と前記幼児とが会話していると判定した場合、前記第1データベースに基づいて、前記大人と前記幼児とに新たに話題を提供する必要があるか否かを判定し、前記テキストデータに、第1キーワードが含まれている場合、前記大人と前記幼児とに新たに話題を提供する必要があると判定し、
    前記話題を提供する必要があると判定した場合、前記第1データベースと第2データベースとに基づいて、前記話題の候補を抽出し、前記第2データベースは、前記幼児が第1所定期間に活動した項目を示す活動項目を記憶し、前記話題の候補は、前記活動項目に対応し、且つ、前記第1データベースに記録された前記テキストデータに含まれる活動項目に対応しておらず、
    前記話題の候補から前記大人と前記幼児とに提供する一の話題を選択し、
    前記一の話題を含む音声データを生成し、
    前記生成した音声データを出力する、
    方法。
  14. 複数のユーザと音声対話するためのプログラムであって、
    前記複数のユーザと音声対話する装置が備えるプロセッサを、
    センサによって取得された前記装置の周辺の画像データと、前記複数のユーザに対応する複数の画像データを記憶しているメモリに記憶されている複数の画像データとに基づいて、前記取得された画像データに含まれる人物を推定し、前記推定した人物を示すユーザ情報を出力する推定部と、前記複数のユーザは、大人と幼児とを含み、
    マイクによって取得された前記装置の周辺の音から音声を抽出し、前記音声に対応するテキストデータと前記音声の特徴量とを抽出し、前記テキストデータと前記特徴量とを対応付けて第1データベースに記録する音声認識部と、
    前記ユーザ情報と前記第1データベースとに基づいて、前記大人と前記幼児とが会話しているか否かを判定し、前記推定された人物が前記大人と前記幼児とであり、且つ、前記特徴量が互いに異なる複数の特徴量を含む場合、前記大人と前記幼児とが会話していると判定する第1判定部と、
    前記大人と前記幼児とが会話していると判定された場合、前記第1データベースに基づいて、前記大人と前記幼児とに新たに話題を提供する必要があるか否かを判定し、前記テキストデータに、第1キーワードが含まれている場合、前記大人と前記幼児とに新たに話題を提供する必要があると判定する第2判定部と、
    前記話題を提供する必要があると判定された場合、前記第1データベースと第2データベースとに基づいて、前記話題の候補を抽出する抽出部と、前記第2データベースは、前記幼児が第1所定期間に活動した項目を示す活動項目を記憶し、前記話題の候補は、前記活動項目に対応し、且つ、前記第1データベースに記録された前記テキストデータに含まれる活動項目に対応しておらず、
    前記話題の候補から前記大人と前記幼児とに提供する一の話題を選択する選択部と、
    前記一の話題を含む音声データを生成し、前記生成した音声データをスピーカに出力する生成部として機能させる、
    プログラム。
JP2016242180A 2016-12-14 2016-12-14 音声対話装置、音声対話方法、音声対話プログラム及びロボット Active JP6795387B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2016242180A JP6795387B2 (ja) 2016-12-14 2016-12-14 音声対話装置、音声対話方法、音声対話プログラム及びロボット
CN201710831295.0A CN108231070B (zh) 2016-12-14 2017-09-13 语音对话装置、语音对话方法、记录介质以及机器人
US15/834,030 US10650815B2 (en) 2016-12-14 2017-12-06 Voice interaction device, voice interaction method, voice interaction program, and robot

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016242180A JP6795387B2 (ja) 2016-12-14 2016-12-14 音声対話装置、音声対話方法、音声対話プログラム及びロボット

Publications (2)

Publication Number Publication Date
JP2018097185A JP2018097185A (ja) 2018-06-21
JP6795387B2 true JP6795387B2 (ja) 2020-12-02

Family

ID=62490203

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016242180A Active JP6795387B2 (ja) 2016-12-14 2016-12-14 音声対話装置、音声対話方法、音声対話プログラム及びロボット

Country Status (3)

Country Link
US (1) US10650815B2 (ja)
JP (1) JP6795387B2 (ja)
CN (1) CN108231070B (ja)

Families Citing this family (84)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
EP3809407A1 (en) 2013-02-07 2021-04-21 Apple Inc. Voice trigger for a digital assistant
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
AU2017100670C4 (en) 2016-06-12 2019-11-21 Apple Inc. User interfaces for retrieving contextually relevant media content
JP6751536B2 (ja) * 2017-03-08 2020-09-09 パナソニック株式会社 装置、ロボット、方法、及びプログラム
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US11220008B2 (en) * 2017-07-18 2022-01-11 Panasonic Intellectual Property Management Co., Ltd. Apparatus, method, non-transitory computer-readable recording medium storing program, and robot
WO2019079974A1 (en) * 2017-10-24 2019-05-02 Beijing Didi Infinity Technology And Development Co., Ltd. SYSTEM AND METHOD FOR UNINTERRUPTED APPLICATION REVIEW AND VOICE RECOGNITION
JP7280512B2 (ja) * 2018-02-16 2023-05-24 日本電信電話株式会社 非言語情報生成装置及びプログラム
JP7015711B2 (ja) * 2018-03-08 2022-02-03 パナソニック株式会社 装置、ロボット、方法、及びプログラム
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) * 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
JP7042167B2 (ja) * 2018-06-13 2022-03-25 本田技研工業株式会社 車両制御装置、車両制御方法、およびプログラム
CN109176535B (zh) * 2018-07-16 2021-10-19 北京光年无限科技有限公司 基于智能机器人的交互方法及系统
CN109165997A (zh) * 2018-07-19 2019-01-08 阿里巴巴集团控股有限公司 一种线下购物推荐内容的生成方法及装置
JP7044167B2 (ja) * 2018-09-28 2022-03-30 富士通株式会社 対話装置、対話方法及び対話プログラム
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11398232B1 (en) * 2018-12-21 2022-07-26 Cerner Innovation, Inc. Natural language understanding of conversational sources
US11875883B1 (en) 2018-12-21 2024-01-16 Cerner Innovation, Inc. De-duplication and contextually-intelligent recommendations based on natural language understanding of conversational sources
US11798560B1 (en) 2018-12-21 2023-10-24 Cerner Innovation, Inc. Rapid event and trauma documentation using voice capture
CN109760068A (zh) * 2019-01-22 2019-05-17 合肥状元郎电子科技有限公司 一种儿童娱教监护机器人
JP2020119412A (ja) * 2019-01-28 2020-08-06 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
CN109902834B (zh) * 2019-01-28 2021-02-05 北京怡凯智能技术有限公司 一种话题驱动的老人陪伴主动对话机器人
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
CN110334341B (zh) * 2019-05-23 2022-05-17 平安科技(深圳)有限公司 基于数据分析的语料推荐方法、装置、介质及电子设备
US11379016B2 (en) 2019-05-23 2022-07-05 Intel Corporation Methods and apparatus to operate closed-lid portable computers
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
WO2021005648A1 (ja) * 2019-07-05 2021-01-14 日本電信電話株式会社 情報推薦装置、情報推薦システム、情報推薦方法及び情報推薦プログラム
CN110459200A (zh) * 2019-07-05 2019-11-15 深圳壹账通智能科技有限公司 语音合成方法、装置、计算机设备及存储介质
US11543873B2 (en) 2019-09-27 2023-01-03 Intel Corporation Wake-on-touch display screen devices and related methods
JP7156242B2 (ja) * 2019-10-18 2022-10-19 トヨタ自動車株式会社 情報処理装置、プログラム及び制御方法
US11733761B2 (en) 2019-11-11 2023-08-22 Intel Corporation Methods and apparatus to manage power and performance of computing devices based on user presence
US11809535B2 (en) 2019-12-23 2023-11-07 Intel Corporation Systems and methods for multi-modal user device authentication
US11360528B2 (en) 2019-12-27 2022-06-14 Intel Corporation Apparatus and methods for thermal management of electronic user devices based on user activity
US11449555B2 (en) * 2019-12-30 2022-09-20 GM Cruise Holdings, LLC Conversational AI based on real-time contextual information for autonomous vehicles
JP6841535B1 (ja) * 2020-01-29 2021-03-10 株式会社インタラクティブソリューションズ 会話解析システム
JP7325757B2 (ja) 2020-03-25 2023-08-15 淳 大▲高▼ 対話可能物体表示プログラムおよび対話可能物体表示装置
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US20210109585A1 (en) * 2020-12-21 2021-04-15 Intel Corporation Methods and apparatus to improve user experience on computing devices
WO2023135781A1 (ja) * 2022-01-17 2023-07-20 日本電気株式会社 転倒検出装置、システム及び方法、並びに、コンピュータ可読媒体
CN115312031A (zh) * 2022-07-22 2022-11-08 东北大学 基于深度学习的自然语言处理方法及系统
WO2024023901A1 (ja) * 2022-07-25 2024-02-01 日本電信電話株式会社 通信端末、コメント出力方法、及びプログラム

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1720520B (zh) * 2002-12-02 2010-05-05 索尼株式会社 对话控制设备和方法,以及机器人设备
JP2005010691A (ja) * 2003-06-20 2005-01-13 P To Pa:Kk 音声認識装置、音声認識方法、会話制御装置、会話制御方法及びこれらのためのプログラム
JP4048492B2 (ja) * 2003-07-03 2008-02-20 ソニー株式会社 音声対話装置及び方法並びにロボット装置
WO2005086051A1 (ja) * 2004-03-08 2005-09-15 National Institute Of Information And Communications Technology 対話システム、対話ロボット、プログラム及び記録媒体
JP4682217B2 (ja) * 2007-03-07 2011-05-11 パナソニック株式会社 行動制御装置、方法、プログラム
JP2009061547A (ja) * 2007-09-06 2009-03-26 Olympus Corp ロボット制御システム、ロボット、プログラム及び情報記憶媒体
JP2009131928A (ja) * 2007-11-30 2009-06-18 Olympus Corp ロボット制御システム、ロボット、プログラム及び情報記憶媒体
US8886663B2 (en) * 2008-09-20 2014-11-11 Securus Technologies, Inc. Multi-party conversation analyzer and logger
JP5300497B2 (ja) * 2009-01-07 2013-09-25 株式会社東芝 対話装置、対話プログラムおよび対話方法
KR101622111B1 (ko) * 2009-12-11 2016-05-18 삼성전자 주식회사 대화 시스템 및 그의 대화 방법
FR2963132A1 (fr) * 2010-07-23 2012-01-27 Aldebaran Robotics Robot humanoide dote d'une interface de dialogue naturel, methode d'utilisation et de programmation de ladite interface
US8447863B1 (en) * 2011-05-06 2013-05-21 Google Inc. Systems and methods for object recognition
JP5684082B2 (ja) * 2011-09-27 2015-03-11 株式会社東芝 対話支援装置、方法及びプログラム
JP6281164B2 (ja) * 2013-12-25 2018-02-21 株式会社国際電気通信基礎技術研究所 遊び行動認識システム、遊び行動認識プログラム、遊び行動認識方法および遊び行動認識装置
US9621713B1 (en) * 2014-04-01 2017-04-11 Securus Technologies, Inc. Identical conversation detection method and apparatus
JP2015219583A (ja) * 2014-05-14 2015-12-07 日本電信電話株式会社 話題決定装置、発話装置、方法、及びプログラム
JP6432177B2 (ja) * 2014-06-20 2018-12-05 カシオ計算機株式会社 対話型通信システム、端末装置およびプログラム
US10366689B2 (en) * 2014-10-29 2019-07-30 Kyocera Corporation Communication robot
CN105654950B (zh) * 2016-01-28 2019-07-16 百度在线网络技术(北京)有限公司 自适应语音反馈方法和装置
CN106020488A (zh) * 2016-06-03 2016-10-12 北京光年无限科技有限公司 一种面向对话系统的人机交互方法及装置
JP6633008B2 (ja) * 2017-02-01 2020-01-22 ファーハット ロボティクス エービー 音声対話装置及び音声対話方法
US10853717B2 (en) * 2017-04-11 2020-12-01 Microsoft Technology Licensing, Llc Creating a conversational chat bot of a specific person

Also Published As

Publication number Publication date
CN108231070A (zh) 2018-06-29
CN108231070B (zh) 2023-04-18
JP2018097185A (ja) 2018-06-21
US10650815B2 (en) 2020-05-12
US20180166076A1 (en) 2018-06-14

Similar Documents

Publication Publication Date Title
JP6795387B2 (ja) 音声対話装置、音声対話方法、音声対話プログラム及びロボット
KR102627948B1 (ko) 다수의 연령 및/또는 어휘 수준을 수용하는 자동화 어시스턴트
Roy et al. Learning words from sights and sounds: A computational model
US20190172448A1 (en) Method of performing multi-modal dialogue between a humanoid robot and user, computer program product and humanoid robot for implementing said method
JP6558364B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP5782459B2 (ja) 音声−体識別の相関
WO2017112813A1 (en) Multi-lingual virtual personal assistant
CN109923512A (zh) 人机交互的系统及方法
JP6821393B2 (ja) 辞書修正方法、辞書修正プログラム、音声処理装置及びロボット
US20220215678A1 (en) System and method for reconstructing unoccupied 3d space
CN110136721A (zh) 一种评分生成方法、装置、存储介质及电子设备
KR20180012192A (ko) 유아동용 학습 장치 및 그 동작 방법
JP6798258B2 (ja) 生成プログラム、生成装置、制御プログラム、制御方法、ロボット装置及び通話システム
JP2021131699A (ja) 情報処理装置および行動モード設定方法
JP6306447B2 (ja) 複数の異なる対話制御部を同時に用いて応答文を再生する端末、プログラム及びシステム
Ktistakis et al. A multimodal human-machine interaction scheme for an intelligent robotic nurse
JP6997733B2 (ja) 情報処理装置、情報処理方法、及びプログラム
JP6866731B2 (ja) 音声認識装置、音声認識方法、及びプログラム
Schuller et al. Speech communication and multimodal interfaces
JP7015711B2 (ja) 装置、ロボット、方法、及びプログラム
Denby Down with sound, the story of silent speech
Hrúz et al. Input and output modalities used in a sign-language-enabled information kiosk
Rossiter Multimodal intent recognition for natural human-robotic interaction
JP2005110726A (ja) 学習装置及びその方法
Cooke et al. Using the focus of visual attention to improve spontaneous speech recognition.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191120

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20200605

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200715

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200721

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200903

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201020

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201112

R151 Written notification of patent or utility model registration

Ref document number: 6795387

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151