JP2021117372A - 情報処理装置、情報処理システム、情報処理方法および情報処理プログラム - Google Patents

情報処理装置、情報処理システム、情報処理方法および情報処理プログラム Download PDF

Info

Publication number
JP2021117372A
JP2021117372A JP2020011191A JP2020011191A JP2021117372A JP 2021117372 A JP2021117372 A JP 2021117372A JP 2020011191 A JP2020011191 A JP 2020011191A JP 2020011191 A JP2020011191 A JP 2020011191A JP 2021117372 A JP2021117372 A JP 2021117372A
Authority
JP
Japan
Prior art keywords
information
information processing
speaker
terminal device
utterance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020011191A
Other languages
English (en)
Inventor
真里 斎藤
Mari Saito
真里 斎藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Group Corp
Original Assignee
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Group Corp filed Critical Sony Group Corp
Priority to JP2020011191A priority Critical patent/JP2021117372A/ja
Priority to PCT/JP2020/047859 priority patent/WO2021153102A1/ja
Publication of JP2021117372A publication Critical patent/JP2021117372A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)

Abstract

【課題】話者の発話の意図に沿って対話エージェントの対話に関する動作を制御する。【解決手段】実施形態に係る情報処理装置は、端末装置により取得された対象となる話者の言語情報の終端を検出する終端検出部と、終端検出部によって検出された終端に関する情報に基づいて、端末装置の動作を制御する処理を行う動作制御部とを備える。【選択図】図6

Description

本開示は、情報処理装置、情報処理システム、情報処理方法および情報処理プログラムに関する。
近年、音声の認識精度の向上により、ユーザ(話者)の発話を理解し、話者と対話を行うシステムが普及してきている。例えば、話者の発話の理解度を示すために、入力された発話をテキスト化して表示するシステムが一般化してきている。このシステムは、例えば、スマートスピーカ等のスピーカ型やPepper(登録商標)等の人型の対話エージェントとして実現されている。
特開2018−40897号公報
しかしながら、発話が複雑な場合、テキストが長々と表示されてしまう場合もあり、話者の発話を理解していることが伝わりにくかった。また、表示デバイスに話者の発話の認識結果をそのまま表示することは不自然でもあり、発話を理解しているかどうか話者を不安にさせてしまう可能性も生じ得る。
また、命令や依頼等の目的的な発話ではなく、日常会話等の非目的的な発話を傾聴するようなユースケースでは、発話を理解しているかどうか分からないと、話者が発話を十分に楽しむことができない可能性も生じ得る。
このように、従来技術に係る対話エージェントにおいては、話者の発話の意図に沿った自然な対話を実現することが困難であった。
そこで、本開示では、話者の発話の意図に沿った自然な対話を実現することが可能な、新規かつ改良された情報処理装置、情報処理システム、情報処理方法及び情報処理プログラムを提案する。
本開示によれば、端末装置により取得された対象となる話者の言語情報の終端を検出する終端検出部と、前記終端検出部によって検出された終端に関する情報に基づいて、前記端末装置の動作を制御する処理を行う動作制御部とを備える、情報処理装置が提供される。
実施形態に係る情報処理システムの構成例を示す図である。 実施形態に係る情報処理システムの機能の概要を示す図である。 実施形態に係る情報処理システムの機能の概要を示す図である。 実施形態に係る情報処理システムの機能の概要を示す図である。 実施形態に係る情報処理システムの機能の概要を示す図である。 実施形態に係る情報処理システムの構成例を示すブロック図である。 実施形態に係る記憶部の一例を示す図である。 実施形態に係る情報処理装置における処理の流れを示すフローチャートである。 実施形態に係る情報処理装置における処理の流れを示すフローチャートである。 実施形態に係る情報処理システムの機能の概要を示す図である。 情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
なお、説明は以下の順序で行うものとする。
1.本開示の一実施形態
1.1.概要
1.2.情報処理システムの構成
2.情報処理システムの機能
2.1.機能の概要
2.2.機能構成例
2.3.情報処理システムの処理
2.4.処理のバリエーション
3.応用例
3.1.業務のサポート
3.2.認知症の検出
3.3.遠隔対話者へのサポート
4.ハードウェア構成例
5.まとめ
<<1.本開示の一実施形態>>
<1.1.概要>
近年、音声の認識精度の向上により、話者の発話を理解し、話者と対話を行うシステムが普及してきている。例えば、話者の発話の理解度を示すために、入力された発話をテキスト化して表示するシステムが一般化してきている。このシステムは、例えば、スマートスピーカ等のスピーカ型やPepper(登録商標)等の人型の対話エージェントとして実現されている。
しかしながら、発話が複雑な場合、テキストが長々と表示されてしまう場合もあり、話者の発話を理解していることが伝わりにくかった。また、表示デバイスに話者の発話の認識結果をそのまま表示することは不自然でもあり、発話を理解しているかどうか話者を不安にさせてしまう可能性も生じ得る。
また、命令や依頼等の目的的な発話ではなく、日常会話等の非目的的な発話を傾聴するようなユースケースでは、発話を理解しているかどうか分からないと、話者が発話を十分に楽しむことができない可能性も生じ得る。
話者の発話において、例えば、発話内容とは関係のない繋ぎ言葉であるフィラーや、頷きや相槌等を行うことができれば、対話エージェントが発話を理解していると話者に感じさせることができ得る。そこで、話者の発話において、フィラーや頷きや相槌等を行う対話エージェントに関する技術が進められている。
上述の対話エージェントの技術に関連し、例えば、特許文献1には、話者からの発話を待つべきとも、発話を実行すべきとも推定できなかった場合に、対話エージェントの動作を制御する技術が開示されている。
しかしながら、上述の対話エージェントの技術では、話者の発話の意図と関係なく、対話エージェントの対話に関する動作を制御するため、例えば、対話エージェントの動作が話者の発話の邪魔となる可能性も生じ得る。
本開示の一実施形態では、上記の点に着目して発想されたものであり、話者の発話の意図に沿って対話エージェントの対話に関する動作を制御することが可能な技術を提案する。以下、本実施形態について順次詳細に説明する。以下、言語情報の一例として、発話データを用いて説明する。また、以下、対話エージェントの一例として、端末装置20を用いて説明する。
<1.2.情報処理システムの構成>
まず、実施形態に係る情報処理システム1の構成について説明する。図1は、情報処理システム1の構成例を示す図である。図1に示したように、情報処理システム1は、情報処理装置10及び端末装置20を備える。情報処理装置10には、多様な装置が接続され得る。例えば、情報処理装置10には、端末装置20が接続され、各装置間で情報の連携が行われる。情報処理装置10には、端末装置20が無線で接続される。例えば、情報処理装置10は、端末装置20とBluetooth(登録商標)を用いた近距離無線通信を行う。なお、情報処理装置10には、情報処理装置10及び端末装置20が、有線と無線とを問わず、I2C(Inter-Integrated Circuit)やSPI(Serial Peripheral Interface)などの各種インタフェースや、LAN(Local Area Network)やWAN(Wide Area Network)やインターネットや移動体通信網などの各種ネットワークを介して接続されてもよい。
(1)情報処理装置10
情報処理装置10は、話者の発話(音声)に関する発話(音声)データに応じて、例えば、端末装置20の対話に関する動作を制御する情報処理装置である。具体的には、情報処理装置10は、話者の発話データの終端に関する情報に基づいて、端末装置20の対話に関する動作を制御する。また、情報処理装置10は、話者の発話を認識する認識処理が可能な情報処理装置である。例えば、情報処理装置10は、端末装置20により取得された発話データに対して認識処理を行う。
また、情報処理装置10は、情報処理システム1の動作全般を制御する機能も有する。例えば、情報処理装置10は、各装置間で連携される情報に基づき、情報処理システム1の動作全般を制御する。具体的に、情報処理装置10は、端末装置20から受信する情報に基づき、端末装置20の動作を制御する。
情報処理装置10は、PC(Personal computer)、WS(Work station)等により実現される。なお、情報処理装置10は、PC、WS等に限定されない。例えば、情報処理装置10は、情報処理装置10としての機能をアプリケーションとして実装したPC、WS等の情報処理装置であってもよい。
(2)端末装置20
端末装置20は、制御対象となる情報処理装置である。
端末装置20は、話者の発話の際の発話データを取得する。そして、端末装置20は、取得した発話データを情報処理装置10へ送信する。
端末装置20は、どのような装置として実現されてもよい。例えば、端末装置20は、スピーカ型の装置として実現されてもよいし、人型の装置として実現されてもよい。
<<2.情報処理システムの機能>>
以上、情報処理システム1の構成について説明した。続いて、情報処理システム1の機能について説明する。
<2.1.機能の概要>
(発話に動作依頼が含まれる場合)
図2は、実施形態に係る情報処理システム1の機能の概要を示す図である。端末装置20は、まず、話者U12の発話TK11を検出する。端末装置20は、話者U12の発話中、視線を話者U12に向くような動作を行うように制御される(S11)。情報処理システム1は、発話TK11の終端を検出すると、発話TK11の意図をメモする動作を行うように端末装置20を制御する(S12)。S12では、情報処理システム1は、発話TK11の意図として、「来月」と「出張」の言語情報をメモする動作を行うように制御する。次いで、端末装置20は、話者U12の発話TK12を検出する。そして、S11を行う。情報処理システム1は、発話TK12の終端を検出すると、発話TK12の意図をメモする動作を行うように端末装置20を制御する(S13)。S13では、情報処理システム1は、発話TK12の意図として、「10月」と「出張」と「札幌」の言語情報をメモする動作を行うように制御する。このように、端末装置20は、話者U12の発話中、視線を話者U12に向くような動作を行い、発話TK11の終端でメモする動作を行う。これにより、情報処理システム1は、話者にとって、端末装置20が、発話認識や意味解析を適切に行っていることを伝えやすくすることができる。例えば、情報処理システム1は、端末装置20が、文単位で話者の言語情報を理解していることを伝えやすくすることができる。そして、端末装置20は、話者U12の発話TK13を検出する。そして、S11を行う。情報処理システム1は、発話TK13の終端を検出すると、発話TK13の意図をメモする動作を行うように端末装置20を制御する(S14)。S14では、情報処理システム1は、発話TK13の意図として、「来月」と「出張」と「札幌」と「ホテル予約」の言語情報をメモする動作を行うように制御する。また、情報処理システム1は、発話TK13に話者U12の動作依頼が含まれる場合、例えば、その動作依頼に関する情報を、端末装置20のスケジューラTD11に追加する。そして、情報処理システム1は、スケジューラTD11に追加された情報に対応する動作を行うように端末装置20を制御する。S14では、情報処理システム1は、「10月依頼がないとき教える」に対応する動作を行うように端末装置20の動作を制御する。
(発話に修正依頼が含まれる場合)
図3では、話者U12が図2と異なる発話を行う場合を例に挙げて、情報処理システム1の機能の概要を説明する。端末装置20は、まず、話者U12の発話TK21を検出する。端末装置20は、話者U12の発話中、視線を話者U12に向くような動作を行うように制御される(S21)。情報処理システム1は、発話TK21の終端を検出すると、発話TK21の意図をメモする動作を行うように端末装置20を制御する(S22)。S22では、情報処理システム1は、発話TK21の意図として、「買い物」と「買うもの」の言語情報をメモする動作を行うように制御する。次いで、端末装置20は、話者U12の発話TK22を検出する。そして、S21を行う。情報処理システム1は、発話TK22の終端を検出すると、発話TK22の意図をメモする動作を行うように端末装置20を制御する(S23)。S23では、情報処理システム1は、発話の意図として、「牛乳」と「玉ねぎ」の言語情報のメモを追加する動作を行うように制御する。次いで、端末装置20は、話者U12の発話TK23を検出する。そして、S21を行う。情報処理システム1は、発話TK23の終端を検出すると、発話TK23の意図をメモする動作を行うように端末装置20を制御する(S24)。S24では、情報処理システム1は、発話TK23の意図として、「シャンプー」の言語情報のメモを追加する動作を行うように制御する。また、情報処理システム1は、その後の発話TK24に発話の修正依頼が含まれる場合、その修正依頼に関する情報に応じて、メモした言語情報を修正する動作を行うように制御する(S25)。例えば、情報処理システム1は、修正依頼前にメモした言語情報を削除して、新たな言語情報をメモする動作を行うように制御する。S25では、情報処理システム1は、S24でメモした「シャンプー」の言語情報を削除する取消し線を引いて、「リンス」の言語情報のメモを新たに追加する動作を行うように制御する。このように、情報処理システム1は、話者が言語情報を修正するように指示した場合には、修正に対応する修正前の言語情報を残しつつ、修正に対応する新たな言語情報を追記する動作を行うように制御してもよい。これにより、情報処理システム1は、発話認識や意味解析に誤認識があった場合でも、誤認識された言語情報から正解の言語情報への変化を、話者に伝え易くすることができる。
(発話後に長い間がある場合)
図4では、話者U12が図2及び3と異なる発話を行う場合を例に挙げて、情報処理システム1の機能の概要を説明する。端末装置20は、まず、話者U12の発話TK31を検出する。端末装置20は、話者U12の発話中、視線を話者U12に向くような動作を行うように制御される(S31)。情報処理システム1は、発話TK31の終端を検出すると、発話TK31の意図をメモする動作を行うように端末装置20を制御する(S32)。S32では、情報処理システム1は、発話TK31の意図として、「今日やること」の言語情報をメモする動作を行うように制御する。次いで、端末装置20は、話者U12の発話TK32を検出する。そして、S31を行う。情報処理システム1は、発話TK32の終端を検出すると、発話TK32の意図をメモする動作を行うように端末装置20を制御する(S33)。S33では、情報処理システム1は、発話TK32の意図として、「DVD返却と銀行振り込み」の言語情報のメモを追加する動作を行うように制御する。端末装置20は、言語情報をメモした後、視線を話者U12に向くような動作を行うように制御される(S31)。また、情報処理システム1は、その後所定の期間(時間)、話者U12の発話がない場合、新たな白紙の媒体(例えば、ページ)を表示する動作を行うように制御する(S34)。情報処理システム1は、例えば、終端が検出されてから次の言語情報が検出されるまでに所定の期間が経過した場合には、新たな白紙の媒体を表示する動作を行うように制御する。例えば、情報処理システム1は、新たな白紙の媒体を表示する動作として、メモした媒体を捲る動作を行うように制御する。具体的には、情報処理システム1は、話題(トピック)が変化するところで媒体を捲る動作を行い、新たな白紙の媒体に言語情報を表示するように制御する。これにより、情報処理システム1は、トピック毎にメモ情報を区切ることができるため、話者にとって、メモ情報を参照し易くすることができる。なお、情報処理システム1は、終端が検出された後の言語情報が、例えば、「次は」や「別の話題は」等の話者の言語情報のトピックの変化を示す言語情報であると解釈された場合にも、新たな白紙の媒体に言語情報を表示するように制御してもよい。他の例として、情報処理システム1は、終端が検出された後の言語情報が、例えば、「ページを捲って」や「次のページにメモして」等の動作を指示する言語情報であると解釈された場合にも、指示された言語情報に基づいて、新たな白紙の媒体に言語情報を表示するように制御してもよい。
(発話に他のページの修正依頼が含まれる場合)
図5では、話者U12が図2乃至4と異なる発話を行う場合を例に挙げて、情報処理システム1の機能の概要を説明する。図5に示すS41乃至S44は、図4に示すS31乃至S34と同様であるため、説明を省略する。端末装置20は、S44の後、話者U12の発話TK43を検出する。そして、S41を行う。情報処理システム1は、発話TK43の終端を検出すると、発話TK43の意図をメモする動作を行うように端末装置20を制御する(S45)。S45では、情報処理システム1は、発話TK43の意図として、「明日の学校の用意」と「体操着」と「お弁当」の言語情報のメモを追加する動作を行うように制御する。次いで、端末装置20は、話者U12の発話TK44を検出する。そして、S41を行う。また、情報処理システム1は、発話TK44に他の媒体にメモした言語情報の修正依頼が含まれる場合、その修正依頼に関する情報に応じて、メモした言語情報を修正する動作を行うように制御する(S46)。例えば、情報処理システム1は、他の媒体を表示して、表示した他の媒体に新たな言語情報を追加する動作を行うように制御する。S46では、情報処理システム1は、メモM42に、「アイロンがけ」の言語情報を追加する動作を行うように制御する。
<2.2.機能構成例>
図6は、実施形態に係る情報処理システム1の機能構成例を示すブロック図である。
(1)情報処理装置10
図6に示したように、情報処理装置10は、通信部100、制御部110、及び記憶部120を備える。なお、情報処理装置10は、少なくとも制御部110を有する。
(1−1)通信部100
通信部100は、外部装置と通信を行う機能を有する。例えば、通信部100は、外部装置との通信において、外部装置から受信する情報を制御部110へ出力する。具体的には、通信部100は、端末装置20から受信する発話データを制御部110へ出力する。
通信部100は、外部装置との通信において、制御部110から入力される情報を外部装置へ送信する。具体的には、通信部100は、制御部110から入力される発話データの取得に関する情報を端末装置20へ送信する。
(1−2)制御部110
制御部110は、情報処理装置10の動作を制御する機能を有する。例えば、制御部110は、発話データの終端を検出する。また、制御部110は、検出された終端に関する情報に基づいて、端末装置20の動作を制御する処理を行う。
上述の機能を実現するために、制御部110は、図6に示すように、話者識別部111、発話認識部112、終端検出部113、動作制御部114、意味解析部115、及びメモ内容制御部116を有する。
・話者識別部111
話者識別部111は、話者の識別処理を行う機能を有する。例えば、話者識別部111は、記憶部120にアクセスして話者情報を用いた識別処理を行う。具体的には、話者識別部111は、通信部200を介して、撮像部212から送信された撮像情報と、記憶部120に記憶された話者情報とを比較して、話者を識別する。
・発話認識部112
発話認識部112は、話者の発話(音声)認識処理を行う機能を有する。例えば、発話認識部112は、通信部200を介して、発話取得部211から送信された発話データに対する発話認識処理を行う。具体的には、発話認識部112は、発話データを、言語情報に変換する。
・終端検出部113
終端検出部113は、発話データの終端を検出する処理を行う機能を有する。例えば、終端検出部113は、発話認識部112により発話認識された発話データの終端を検出する処理を行う。具体的には、終端検出部113は、発話認識部112により変換された言語情報の終端を検出する。
・動作制御部114
動作制御部114は、端末装置20の動作を制御するための処理を行う機能を有する。例えば、動作制御部114は、端末装置20の動作として、言語情報を媒体にメモする動作や、言語情報をメモした媒体を捲る等の動作を制御するための処理を行う。動作制御部114は、図6に示すように、動作生成部1141及び動作提示部1142を有する。
・動作生成部1141
動作生成部1141は、端末装置20の動作を制御するための制御情報を生成する処理を行う機能を有する。例えば、動作生成部1141は、終端検出部113により検出された終端に関する情報に基づいて、端末装置20の動作を制御するための制御情報を生成する。
・動作提示部1142
動作提示部1142は、端末装置20の動作を制御するための制御情報を提示する処理を行う機能を有する。例えば、動作提示部1142は、動作生成部1141により生成された制御情報を、通信部100を介して、端末装置20へ送信する。
動作提示部1142は、端末装置20がメモする内容を示すメモ情報を提示する。例えば、動作提示部1142は、メモ内容制御部116により決定されたメモ情報を、通信部100を介して、端末装置20へ送信する。
・意味解析部115
意味解析部115は、話者の発話の解析処理を行う機能を有する。例えば、意味解析部115は、発話認識部112により発話認識された発話データの言語情報の解析処理を行う。具体的には、意味解析部115は、発話データの言語情報を、名詞や動詞や修飾語等に分類する。
意味解析部115は、話者の発話の意図を解析する処理を行う。例えば、意味解析部115は、発話データの言語情報に基づいて、話者の発話にメモの修正依頼等が含まれるか等を解析する。
・メモ内容制御部116
メモ内容制御部116は、メモ情報を制御するための処理を行う機能を有する。例えば、メモ内容制御部116は、話者の発話の解析処理の結果に基づき、メモ情報を決定する。
(1−3)記憶部120
記憶部120は、情報処理装置10における処理に関するデータを記憶する機能を有する。例えば、記憶部120は、メモ内容制御部116により決定されたメモ情報を記憶する。また、記憶部120は、情報処理装置10に入力された話者情報を記憶する。制御部110は、話者を識別する際に、記憶部120にアクセスして話者情報を利用する。なお、記憶部120が記憶するデータは、上述の例に限定されない。例えば、記憶部120は、各種アプリケーション等のプログラムを記憶してもよい。
図7は、記憶部120の一例を示す。図7に示す記憶部120は、メモ情報の対応付けを記憶する。図7に示すように、記憶部120は、「メモID」、「メモ情報」、「関連メモ情報」といった項目を有してもよい。
「メモID」は、メモ情報を識別するための識別情報を示す。「メモ情報」は、メモ情報を示す。「関連メモ情報」は、メモ情報に関連するメモ情報を示す。具体的には、「関連メモ情報」は、メモ情報に示す言語情報と共に、過去に頻出した言語情報を含むメモ情報を示す。
(2)端末装置20
図6に示したように、端末装置20は、通信部200、制御部210、及び提示部220を有する。
(2−1)通信部200
通信部200は、外部装置と通信を行う機能を有する。例えば、通信部200は、外部装置との通信において、外部装置から受信する情報を制御部210へ出力する。具体的に、通信部200は、情報処理装置10から受信する発話データの取得に関する情報を制御部210へ出力する。また、通信部200は、情報処理装置10から受信する制御情報を制御部210へ出力する。
また、通信部200は、情報処理装置10から受信するメモ情報を提示部220へ出力する。
また、通信部200は、外部装置との通信において、制御部210から入力される情報を外部装置へ送信する。具体的に、通信部200は、制御部210から入力される発話データを情報処理装置10へ送信する。
(2−2)制御部210
制御部210は、端末装置20の動作全般を制御する機能を有する。例えば、制御部210は、発話取得部211による発話データの取得処理を制御する。また、制御部210は、発話取得部211により取得された発話データを、通信部200が情報処理装置10へ送信する処理を制御する。
・発話取得部211
発話取得部211は、話者の発話データを取得する機能を有する。例えば、発話取得部211は、端末装置20に備えられた発話(音声)検出器を用いて発話データを取得する。
・撮像部212
撮像部212は、話者を撮像する機能を有する。
・動作制御部213
動作制御部213は、端末装置20の動作を制御する機能を有する。例えば、動作制御部213は、取得した制御情報に応じて、端末装置20の動作を制御する。具体的には、動作制御部213は、取得した制御情報に応じて、話者が発話中、視線を話者に向けるように端末装置20の動作を制御する。
(2−3)提示部220
提示部220は、メモ情報の提示全般を制御する機能を有する。例えば、提示部220は、取得したメモ情報に応じて、対応する媒体にメモされたメモ情報を提示する。
<2.3.情報処理システムの処理>
以上、実施形態に係る情報処理システム1の機能について説明した。続いて、情報処理システム1の処理について説明する。
(1)情報処理装置10における処理
図8は、実施形態に係る情報処理装置10における処理の流れを示すフローチャートである。まず、情報処理装置10は、話者の発話データを取得する(S100)。また、情報処理装置10は、取得した発話データに対して発話認識処理を行う(S102)。次いで、情報処理装置10は、発話にメモ情報の修正依頼が含まれるか否かを判定する(S104)。そして、情報処理装置10は、発話にメモ情報の修正依頼が含まれない場合(S104;NO)、発話に含まれる言語情報を抽出する(S106)。そして、情報処理装置10は、発話の言語情報に基づいて、メモ情報を追加する(S108)。また、情報処理装置10は、発話にメモ情報の修正依頼が含まれる場合(S104;YES)、発話に含まれる言語情報を抽出する(S110)。そして、情報処理装置10は、発話の言語情報に基づいて、メモ情報を修正する(S112)。次いで、情報処理装置10は、発話の終端であるか否かを判定する(S114)。そして、情報処理装置10は、発話の終端である場合(S114;YES)、メモ情報が提示されるように端末装置20を制御する(S116)。また、情報処理装置10は、発話の終端でない場合(S114;NO)、視線が提示されるように端末装置20を制御する(S118)。
(2)情報処理システム1における処理
図9は、実施形態に係る情報処理システム1における処理の流れを示すフローチャートである。まず、端末装置20は、視線のデフォルトを提示する(S200)。また、端末装置20は、音声信号を受信する(S202)。次いで、端末装置20は、話者の発話を検出する(S204)。そして、端末装置20は、話者の位置を特定する(S206)。そして、端末装置20は、話者の方向に視線を変更する(S208)。
一方、情報処理装置10は、S204の処理において検出された発話に基づいて、発話認識の処理を行う(S210)。次いで、情報処理装置10は、意味解析の処理を行う(S212)。そして、情報処理装置10は、終端検出の処理を行う(S214)。
端末装置20は、S214の処理において終端が検出されると、視線をメモの方向に変更する(S216)。次いで、端末装置20は、動作提示の処理を行う(S218)。そして、端末装置20は、話者の方向に視線を変更する(S220)。また、端末装置20は、発話が新たに検出されたか否かを判定する(S222)。そして、端末装置20は、発話が新たに検出された場合(S222;Yes)、S204の処理に戻る。また、端末装置20は、発話が新たに検出されない場合(S222;NO)、情報処理を終了する。
<2.4.処理のバリエーション>
以上、本開示の実施形態について説明した。続いて、本開示の実施形態の処理のバリエーションを説明する。なお、以下に説明する処理のバリエーションは、単独で本開示の実施形態に適用されてもよいし、組み合わせで本開示の実施形態に適用されてもよい。また、処理のバリエーションは、本開示の実施形態で説明した構成に代えて適用されてもよいし、本開示の実施形態で説明した構成に対して追加的に適用されてもよい。
(1)メモ情報
上記実施形態では、情報処理装置10が、メモ情報として、名詞をメモするように端末装置20を制御する場合を示した。図2では、情報処理装置10が、来月や出張や札幌等の名詞をメモするように制御した。ここで、情報処理装置10は、名詞に限らず、他の分類に属する言語情報をメモするように制御してもよい。修正発話の場合には、修正の内容を強調するために、副詞や動詞等が話者の意図になり得る可能性が高まる。情報処理装置10は、修正発話の場合には、副詞や形容詞等の修飾語や動詞等をメモするように制御してもよい。
また、話者が発話を言い直すことや、発音を強調すること等によって発話を強調する場合には、強調された発話に含まれる修飾語等も話者の意図になり得る可能性が高まる。情報処理装置10は、強調された発話に含まれる名詞と共に、強調された修飾語等もメモするように制御してもよい。また、話者がメモすることを指示した言語情報は、名詞以外でも、話者の意図になり得る可能性が高まる。話者がメモすることを指示した言語情報の一例としては、「大容量の洗剤って書いて」や「急いで手配ってメモして」等のメモの動作を指示するものであっても、「シャンプーはいつものシャンプーね」等のメモの内容を指示するものである。例えば、情報処理装置10は、話者がメモするように指示した言語情報をメモするような制御を行ってもよい。
また、情報処理装置10は、話者が名詞を連続して発言した場合には、連続した名詞を一つの名詞として処理を行ってもよい。
(2)メモ情報の修正
上記実施形態では、情報処理装置10が、修正発話の場合には、メモ情報の追加と同様の速度や動作の大きさ等で、メモ情報を修正するように制御する場合を示した。ここで、情報処理装置10は、修正前後の遷移を話者が認識可能な速度でメモ情報を修正するように制御してもよい。例えば、情報処理装置10は、修正の遷移の速度が所定の閾値以下となるような速度でメモ情報を修正するように制御してもよい。また、情報処理装置10は、メモ情報の修正を、メモ情報の追加よりも大きな動作で行うように制御してもよい。また、情報処理装置10は、申し訳ない表情でメモ情報を修正するように制御してもよい。これにより、情報処理装置10は、話者に対して、メモ情報の修正を、より明確に認識させることができる。
(3)メモ情報の補足機能1:他の情報源を用いた補足
上記実施形態では、情報処理装置10が、発話に含まれる言語情報を用いてメモ情報を生成する場合を示した。ここで、情報処理装置10は、発話に含まれる言語情報に応じて、情報を補ったメモ情報を生成してもよい。例えば、メモ内容制御部116は、「来月」等の抽象的な日時の発言や、「ここ」等の抽象的な指示語等が含まれる場合、情報を補ったメモ情報を生成してもよい。メモ内容制御部116は、情報を補ったメモ情報として、例えば、カッコ書き等の所定の態様で表示するための情報を付加したメモ情報を生成してもよい。例えば、「来月(2019年10月)」や「ここ(場所A11)」である。この場合、「来月」や「ここ」が話者の発言であり、「(2019年10月)」や「(場所A11)」が補足情報である。
また、情報処理装置10は、抽象的な発言以外の他の発言に基づいて、対応する情報を記憶した情報源にアクセスして、補足情報を取得してもよい。具体的な例を挙げると、メモ内容制御部116は、話者のスケジュールを記憶した情報源にアクセスして、所定の日時に対応する場所の情報を取得してもよい。他の例として、メモ内容制御部116は、話者の勤務先情報を記憶した情報源にアクセスして、勤務地に対応する場所の情報を取得してもよい。そして、メモ内容制御部116は、他の情報源から取得した情報にカッコを付加したメモ情報を生成してもよい。例えば、「来月もここで打ち合わせ(会議室A12)」や「○○さんの勤務地もここ(勤務先A13)」である。この場合、「来月もここで打ち合わせ」や「○○さんの勤務地もここ」が話者の発言であり、「(会議室A12)」や「(勤務先A13)」が補足情報である。メモ内容制御部116は、例えば、「来月もここで打ち合わせ」の「ここ」に対応する補足情報として、話者のスケジュールを記憶した情報源にアクセスして、「来月」と「打ち合わせ」とに対応する場所の情報である「会議室A12」を取得する。また、メモ内容制御部116は、例えば、「○○さんの勤務地もここ」の「ここ」に対応する補足情報として、話者の勤務先情報を記憶した情報源にアクセスして、「○○さん」と「勤務地」とに対応する勤務先の情報である「勤務先A13」を取得する。
(3)メモ情報の補足機能2:話者の発話に応じた補足
情報処理システム1は、話者の発話の言語情報と共に、話者の発話の態様に関する情報もメモ情報として提示してもよい。例えば、情報処理システム1は、話者の発話の抑揚や速度等に関する情報を、メモ情報の態様を変化させることで、メモ情報として提示してもよい。具体的には、情報処理システム1は、話者の発話音量が大きい言語情報や、話者の発話のピッチが高い言語情報等を、強調文字(ボールド)にして提示してもよい。他の例として、情報処理システム1は、話者の発話音量が大きい言語情報や、話者の発話のピッチが高い言語情報等を、話者の発話音量が平均的な言語情報や話者の発話のピッチが平均的な言語情報等で用いる色とは異なる色(例えば、赤字等の強調に用いる色等)にして提示してもよい。この場合、メモ内容制御部116が、話者の発話の態様に関する情報を、メモ情報とするための処理を行う。
また、情報処理システム1は、話者の発話の抑揚から話者の感情を推定して、推定した感情に応じた色になるように、メモ情報を提示してもよい。例えば、情報処理システム1は、話者の悲しい感情を推定した場合には、対応する言語情報の色が青くなるように、メモ情報を提示してもよい。また、情報処理システム1は、話者の発話の抑揚に限らず、話者の発話に含まれる言語情報の属性に基づいて、話者の感情を推定して、推定した感情に応じた色になるように、メモ情報を提示してもよい。例えば、情報処理システム1は、「困った」や「うれしい」等の話者の感情を推定し得る言語情報には、対応する色を付加することにより、メモ情報を提示してもよい。他の例として、情報処理システム1は、話者の感情を推定し得る言語情報には、対応するフォントに変更することにより、メモ情報を提示してもよい。
(4)動作依頼
上記実施形態では、情報処理システム1が、話者の発話に動作依頼が含まれる場合、その動作依頼に関する情報を、端末装置20のスケジューラTD11に追加する場合を示した。ここで、情報処理システム1は、動作依頼に関する情報を、端末装置20のスケジューラTD11に追加しなくてもよい。この場合、情報処理システム1は、話者の発話に含まれる動作依頼を記憶した外部装置にアクセスして、その動作依頼に対応する動作を行うように、端末装置20を制御する。
また、動作依頼の内容は、図2に示す例に限らず、端末装置20が実現可能なものであれば、どのようなものであってもよい。
(5)修正依頼
上記実施形態では、情報処理システム1が、話者の発話に修正依頼が含まれる場合、その修正依頼に関する情報に応じて、メモした言語情報を修正する動作を行うように制御する場合を示した。図2では、情報処理システム1が、修正依頼前にメモした言語情報を削除して、新たな言語情報をメモする動作を行うように制御する場合を示した。また、図4では、情報処理システム1が、他の媒体を表示して、表示した他の媒体に新たな言語情報を追加する動作を行うように制御する場合を示した。ここで、情報処理システム1は、上述した例に限らず、言語情報を修正する動作であれば、どのような動作を行うように制御してもよい。例えば、情報処理システム1は、修正依頼前にメモした言語情報を削除するのみの動作を行うように制御してもよい。他の例として、情報処理システム1は、他の媒体を表示せずに、他の媒体に新たな言語情報を追加する動作を行うように制御してもよい。
(6)外部サービスを用いる場合
上記実施形態では、実施形態に係る機能を実現するために、制御部110が、発話認識部112、及び意味解析部115を有する場合を示したが、この例に限られない。すなわち、制御部110は、発話認識部112、及び意味解析部115を有さなくてもよい。この場合、情報処理システム1は、外部の情報処理装置を介して、上述した発話認識及び意味解析の処理を行ってもよい。具体的には、制御部110は、通信部100を介して、発話取得部211から送信された発話データを外部の情報処理装置に送信することにより、上述した発話認識及び意味解析の処理を行ってもよい。
(7)終端検出
情報処理システム1は、終端の検出の遅延がなくなるように、話者の発話の履歴を学習し、終端のタイミングを予測して動作を制御してもよい。例えば、動作生成部1141は、記憶部120にアクセスして、終端に関する情報の履歴を学習することで、終端のタイミングで端末装置20が動作するように制御するための制御情報を生成してもよい。また、情報処理システム1は、終端のタイミングを予測して動作を制御する場合には、話者の発話の終端が予測通りのタイミングとは限らないため、動作が小さくなるように制御してもよい。これにより、情報処理システム1は、より適切に話者の発話を邪魔することなく動作を行うように制御することができる。
(8)話者の行動情報
情報処理システム1は、終端が検出された後の話者の行動情報が所定の条件を満たす場合には、端末装置20の動作を制御してもよい。例えば、動作制御部114は、終端が検出された後の話者の頷きや相槌を示す行動情報が所定の閾値以上である場合には、端末装置20の動作を制御するための処理を行ってもよい。具体的には、動作制御部114は、話者の頷きの大きさや相槌の音量が所定の閾値以上である場合には、端末装置20の動作を制御するための処理を行ってもよい。
<<3.応用例>>
以上、本開示の実施形態について説明した。続いて、本開示の実施形態に係る情報処理システム1の応用例を説明する。
<3.1.業務のサポート>
話者の発話が業務等におけるサポート(ヘルプ)に関する場合には、過去のメモ情報が話者の発話の意図になり得る。情報処理装置10は、話者の発話に含まれる言語情報が、過去のメモ情報にも含まれる場合には、過去のメモ情報を、メモ情報を表示する画面の所定の領域内に表示されるように制御してもよい。この場合、動作生成部1141が、例えば、メモ情報を表示する画面の所定の領域内に表示されるように制御する制御情報を生成する。提示部220は、通信部100を介して、情報処理装置10から送信された制御情報に基づいて、メモ情報を表示する画面の所定の領域内に表示する。これにより、話者は、過去の発話のメモ情報を参照しながら、話者の発話のメモ情報を確認することができる。
<3.2.認知症の検出>
上記実施形態は、認知症等の医療分野においても応用し得る。認知症の患者には、繰り返しの発言を多く行う傾向や、事実と異なる発言を行う傾向等がある。図10では、話者U12の過去の発話と比較して、話者U12が事実と異なる発言を行う場合を例に挙げて、情報処理システム1が認知症の患者を検出する場合の機能の概要を説明する。情報処理システム1は、話者U12の発話TK51の意図をメモする動作を行うように端末装置20を制御する(S51)。S51では、情報処理システム1は、発話TK51の意図として、「病院」と「来週水曜(11月11日)」の言語情報をメモする動作を行うように制御する。情報処理システム1は、メモ情報M41を記憶部120に記憶する(S52)。次いで、情報処理システム1は、話者U12と端末装置20との発話TK52乃至TK54に基づいて、話者U12の発話TK54が事実に沿うか否かを判定するために、例えば、話者U12のスケジュールを記憶したスケジュールアプリAP1にアクセスする(S53)。そして、情報処理システム1は、話者U12のスケジュール情報を取得する。話者U12の発話TK54が事実と異なる場合、情報処理システム1は、例えば、話者U12の家族U13へ話者U12が認知症の傾向にあり得る旨の情報を通知するメッセージングアプリAP2にアクセスする(S54)。そして、情報処理システム1は、話者U12の家族U13へ通知する。
<3.3.遠隔対話者へのサポート>
上記実施形態は、テレカン(Teleconference)等の対話者が遠隔の場合のやりとりにも応用し得る。情報処理装置10は、複数の話者間でやりとりする電話やテレカン等において、例えば、要点が提示されるように端末装置20を制御してもよい。この場合、メモ内容制御部116が、例えば、発話データに基づく要点を生成する。提示部220は、通信部100を介して、情報処理装置10から送信された要点を提示する。また、情報処理装置10は、複数の話者のうち、どの話者が話す番であるか(ターンテイク)を示す動作を行うように端末装置20を制御してもよい。この場合、動作生成部1141が、例えば、終端検出部113により検出された終端に関する情報や、メモ内容制御部116により制御されたメモ情報に基づいて、次に話す話者を推定して、ターンテイクを示す動作を行うための制御情報を生成する。
<<4.ハードウェア構成例>>
最後に、図11を参照しながら、実施形態に係る情報処理装置のハードウェア構成例について説明する。図11は、実施形態に係る情報処理装置のハードウェア構成例を示すブロック図である。なお、図11に示す情報処理装置900は、例えば、図6に示した情報処理装置10及び端末装置20を実現し得る。実施形態に係る情報処理装置10及び端末装置20による情報処理は、ソフトウェアと、以下に説明するハードウェアとの協働により実現される。
図11に示すように、情報処理装置900は、CPU(Central Processing Unit)901、ROM(Read Only Memory)902、及びRAM(Random Access Memory)903を備える。また、情報処理装置900は、ホストバス904a、ブリッジ904、外部バス904b、インタフェース905、入力装置906、出力装置907、ストレージ装置908、ドライブ909、接続ポート910、及び通信装置911を備える。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ハードウェア構成は、ここで示される構成要素以外の構成要素をさらに含んでもよい。
CPU901は、例えば、演算処理装置又は制御装置として機能し、ROM902、RAM903、又はストレージ装置908に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。ROM902は、CPU901に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。RAM903には、例えば、CPU901に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。これらはCPUバスなどから構成されるホストバス904aにより相互に接続されている。CPU901、ROM902およびRAM903は、例えば、ソフトウェアとの協働により、図6を参照して説明した制御部110及び制御部210の機能を実現し得る。
CPU901、ROM902、及びRAM903は、例えば、高速なデータ伝送が可能なホストバス904aを介して相互に接続される。一方、ホストバス904aは、例えば、ブリッジ904を介して比較的データ伝送速度が低速な外部バス904bに接続される。また、外部バス904bは、インタフェース905を介して種々の構成要素と接続される。
入力装置906は、例えば、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、スイッチ及びレバー等、話者によって情報が入力される装置によって実現される。また、入力装置906は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、情報処理装置900の操作に対応した携帯電話やPDA等の外部接続機器であってもよい。さらに、入力装置906は、例えば、上記の入力手段を用いて話者により入力された情報に基づいて入力信号を生成し、CPU901に出力する入力制御回路などを含んでいてもよい。情報処理装置900の話者は、この入力装置906を操作することにより、情報処理装置900に対して各種のデータを入力したり処理動作を指示したりすることができる。
他にも、入力装置906は、話者に関する情報を検知する装置により形成され得る。例えば、入力装置906は、画像センサ(例えば、カメラ)、深度センサ(例えば、ステレオカメラ)、加速度センサ、ジャイロセンサ、地磁気センサ、光センサ、音センサ、測距センサ(例えば、ToF(Time of Flight)センサ)、力センサ等の各種のセンサを含み得る。また、入力装置906は、情報処理装置900の姿勢、移動速度等、情報処理装置900自身の状態に関する情報や、情報処理装置900の周辺の明るさや騒音等、情報処理装置900の周辺環境に関する情報を取得してもよい。また、入力装置906は、GNSS(Global Navigation Satellite System)衛星からのGNSS信号(例えば、GPS(Global Positioning System)衛星からのGPS信号)を受信して装置の緯度、経度及び高度を含む位置情報を測定するGNSSモジュールを含んでもよい。また、位置情報に関しては、入力装置906は、Wi−Fi(登録商標)、携帯電話・PHS・スマートフォン等との送受信、または近距離通信等により位置を検知するものであってもよい。入力装置906は、例えば、図6を参照して説明した発話取得部211の機能を実現し得る。
出力装置907は、取得した情報を話者に対して視覚的又は聴覚的に通知することが可能な装置で形成される。このような装置として、CRTディスプレイ装置、液晶ディスプレイ装置、プラズマディスプレイ装置、ELディスプレイ装置、レーザープロジェクタ、LEDプロジェクタ及びランプ等の表示装置や、スピーカ及びヘッドホン等の音声出力装置や、プリンタ装置等がある。出力装置907は、例えば、情報処理装置900が行った各種処理により得られた結果を出力する。具体的には、表示装置は、情報処理装置900が行った各種処理により得られた結果を、テキスト、イメージ、表、グラフ等、様々な形式で視覚的に表示する。他方、音声出力装置は、再生された音声データや音響データ等からなるオーディオ信号をアナログ信号に変換して聴覚的に出力する。出力装置907は、例えば、図6を参照して説明した提示部220の機能を実現し得る。
ストレージ装置908は、情報処理装置900の記憶部の一例として形成されたデータ格納用の装置である。ストレージ装置908は、例えば、HDD等の磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス又は光磁気記憶デバイス等により実現される。ストレージ装置908は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置などを含んでもよい。このストレージ装置908は、CPU901が実行するプログラムや各種データ及び外部から取得した各種のデータ等を格納する。ストレージ装置908は、例えば、図6を参照して説明した記憶部120の機能を実現し得る。
ドライブ909は、記憶媒体用リーダライタであり、情報処理装置900に内蔵、あるいは外付けされる。ドライブ909は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記憶媒体に記録されている情報を読み出して、RAM903に出力する。また、ドライブ909は、リムーバブル記憶媒体に情報を書き込むこともできる。
接続ポート910は、例えば、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)、RS−232Cポート、又は光オーディオ端子等のような外部接続機器を接続するためのポートである。
通信装置911は、例えば、ネットワーク920に接続するための通信デバイス等で形成された通信インタフェースである。通信装置911は、例えば、有線若しくは無線LAN(Local Area Network)、LTE(Long Term Evolution)、Bluetooth(登録商標)又はWUSB(Wireless USB)用の通信カード等である。また、通信装置911は、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ又は各種通信用のモデム等であってもよい。この通信装置911は、例えば、インターネットや他の通信機器との間で、例えばTCP/IP等の所定のプロトコルに則して信号等を送受信することができる。通信装置911は、例えば、図6を参照して説明した通信部100及び通信部200の機能を実現し得る。
なお、ネットワーク920は、ネットワーク920に接続されている装置から送信される情報の有線、または無線の伝送路である。例えば、ネットワーク920は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)などを含んでもよい。また、ネットワーク920は、IP−VPN(Internet Protocol−Virtual Private Network)などの専用回線網を含んでもよい。
以上、実施形態に係る情報処理装置900の機能を実現可能なハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて実現されていてもよいし、各構成要素の機能に特化したハードウェアにより実現されていてもよい。従って、実施形態を実施する時々の技術レベルに応じて、適宜、利用するハードウェア構成を変更することが可能である。
<<5.まとめ>>
以上説明したように、実施形態に係る情報処理装置10は、対象となる話者の言語情報の終端に関する情報に基づいて、端末装置20の動作を制御する処理を行う。これにより、情報処理装置10は、話者の発話の終端で、端末装置20が動作を行うように制御することができる。
よって、話者の発話の意図に沿って対話エージェントの対話に関する動作を制御することが可能な、新規かつ改良された情報処理装置及び情報処理方法を提供することが可能である。
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本
開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
例えば、本明細書において説明した各装置は、単独の装置として実現されてもよく、一部または全部が別々の装置として実現されても良い。例えば、図6に示した情報処理装置10及び端末装置20は、それぞれ単独の装置として実現されてもよい。また、例えば、情報処理装置10及び端末装置20とネットワーク等で接続されたサーバ装置として実現されてもよい。また、情報処理装置10が有する制御部110の機能をネットワーク等で接続されたサーバ装置が有する構成であってもよい。
また、本明細書において説明した各装置による一連の処理は、ソフトウェア、ハードウェア、及びソフトウェアとハードウェアとの組合せのいずれを用いて実現されてもよい。ソフトウェアを構成するプログラムは、例えば、各装置の内部又は外部に設けられる記録媒体(非一時的な媒体:non−transitory media)に予め格納される。そして、各プログラムは、例えば、コンピュータによる実行時にRAMに読み込まれ、CPUなどのプロセッサにより実行される。
また、本明細書においてフローチャートを用いて説明した処理は、必ずしも図示された順序で実行されなくてもよい。いくつかの処理ステップは、並列的に実行されてもよい。また、追加的な処理ステップが採用されてもよく、一部の処理ステップが省略されてもよい。
また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
なお、以下のような構成も本開示の技術的範囲に属する。
(1)
端末装置により取得された対象となる話者の言語情報の終端を検出する終端検出部と、
前記終端検出部によって検出された終端に関する情報に基づいて、前記端末装置の動作を制御する処理を行う動作制御部と、
を備える、情報処理装置。
(2)
前記動作制御部は、
前記終端が検出された前後の前記言語情報が所定の条件を満たす場合、前記端末装置の動作を制御する処理を行う、
前記(1)に記載の情報処理装置。
(3)
前記動作制御部は、
前記終端が検出されてから次の前記言語情報が検出されるまでに所定の時間が経過した場合、前記端末装置の動作を制御する処理を行う、
前記(2)に記載の情報処理装置。
(4)
前記動作制御部は、
前記終端が検出された後の前記言語情報が、前記話者の言語情報のトピックの変化を示す言語情報であると解釈される場合、前記端末装置の動作を制御する処理を行う、
前記(2)に記載の情報処理装置。
(5)
前記動作制御部は、
前記終端が検出された後の前記言語情報が、前記端末装置の前記動作を指示する言語情報であると解釈される場合、前記言語情報に基づいて当該端末装置の動作を制御する処理を行う、
前記(4)に記載の情報処理装置。
(6)
前記動作制御部は、
前記終端が検出された後の前記話者の行動情報が所定の条件を満たす場合、前記端末装置の動作を制御する処理を行う、
前記(1)〜(5)のいずれか一項に記載の情報処理装置。
(7)
前記動作制御部は、
前記終端が検出された後の前記話者の頷き又は相槌を示す行動情報が所定の閾値以上である場合、前記端末装置の動作を制御する処理を行う、
前記(6)に記載の情報処理装置。
(8)
前記動作制御部は、
前記端末装置の動作として、前記言語情報を記録する手段であるメモに関する動作を制御する処理を行う、
前記(1)〜(7)のいずれか一項に記載の情報処理装置。
(9)
前記動作制御部は、
前記言語情報に名詞が含まれる場合、前記メモに関する動作を制御する処理を行う、
前記(8)に記載の情報処理装置。
(10)
前記動作制御部は、
前記言語情報に、前記話者が強調したと解釈される修飾語又は動詞が含まれる場合、前記メモに関する動作を制御する処理を行う、
前記(8)又は(9)に記載の情報処理装置。
(11)
前記動作制御部は、
前記話者が前記言語情報を修正するように指示した場合、当該修正に対応する言語情報に対して、前記メモに関する動作を制御する処理を行う、
前記(8)〜(10)のいずれか一項に記載の情報処理装置。
(12)
前記動作制御部は、
前記修正の遷移の速さが所定の閾値以下となるように、前記メモに関する動作を制御する処理を行う、
前記(11)に記載の情報処理装置。
(13)
前記動作制御部は、
前記話者が前記言語情報を修正するように指示した場合、当該修正に対応する修正前の言語情報を残しつつ、当該修正に対応する新たな言語情報を追記する動作を制御する処理を行う、
前記(11)又は(12)に記載の情報処理装置。
(14)
前記動作制御部は、
前記メモに関する動作として、前記言語情報を媒体にメモする動作、又は、当該言語情報をメモした媒体を捲る動作を制御する処理を行う、
前記(8)〜(13)のいずれか一項に記載の情報処理装置。
(15)
前記端末装置は、前記話者を撮像する撮像部を有し、
前記動作制御部は、
前記話者が発話中の場合、前記端末装置の視線を当該話者に向けるように前記端末装置の動作を制御する処理を行う、
前記(1)〜(14)のいずれか一項に記載の情報処理装置。
(16)
端末装置と、当該端末装置の動作を制御する処理に使われるソフトウェアとを含んで構成される情報処理システムであって、
前記ソフトウェアは、情報処理装置に搭載されており、
前記端末装置に取得された対象となる話者の言語情報の終端に関する情報に基づいて、当該端末装置の動作を制御する処理を行う、
情報処理システム。
(17)
コンピュータが、
端末装置により取得された対象となる話者の言語情報の終端を検出し、
検出された終端に関する情報に基づいて、前記端末装置の動作を制御する処理を行う、
情報処理方法。
(18)
端末装置により取得された対象となる話者の言語情報の終端を検出する終端検出手順と、
前記終端検出手順によって検出された終端に関する情報に基づいて、前記端末装置の動作を制御する処理を行う動作制御手順と、
をコンピュータに実行させることを特徴とする情報処理プログラム。
1 情報処理システム
10 情報処理装置
20 端末装置
100 通信部
110 制御部
111 話者識別部
112 発話認識部
113 終端検出部
114 動作制御部
1141 動作生成部
1142 動作提示部
115 意味解析部
116 メモ内容制御部
120 記憶部
200 通信部
210 制御部
211 発話取得部
212 撮像部
213 動作制御部
220 提示部

Claims (18)

  1. 端末装置により取得された対象となる話者の言語情報の終端を検出する終端検出部と、
    前記終端検出部によって検出された終端に関する情報に基づいて、前記端末装置の動作を制御する処理を行う動作制御部と、
    を備える、情報処理装置。
  2. 前記動作制御部は、
    前記終端が検出された前後の前記言語情報が所定の条件を満たす場合、前記端末装置の動作を制御する処理を行う、
    請求項1に記載の情報処理装置。
  3. 前記動作制御部は、
    前記終端が検出されてから次の前記言語情報が検出されるまでに所定の時間が経過した場合、前記端末装置の動作を制御する処理を行う、
    請求項2に記載の情報処理装置。
  4. 前記動作制御部は、
    前記終端が検出された後の前記言語情報が、前記話者の言語情報のトピックの変化を示す言語情報であると解釈される場合、前記端末装置の動作を制御する処理を行う、
    請求項2に記載の情報処理装置。
  5. 前記動作制御部は、
    前記終端が検出された後の前記言語情報が、前記端末装置の前記動作を指示する言語情報であると解釈される場合、前記言語情報に基づいて当該端末装置の動作を制御する処理を行う、
    請求項4に記載の情報処理装置。
  6. 前記動作制御部は、
    前記終端が検出された後の前記話者の行動情報が所定の条件を満たす場合、前記端末装置の動作を制御する処理を行う、
    請求項1に記載の情報処理装置。
  7. 前記動作制御部は、
    前記終端が検出された後の前記話者の頷き又は相槌を示す行動情報が所定の閾値以上である場合、前記端末装置の動作を制御する処理を行う、
    請求項6に記載の情報処理装置。
  8. 前記動作制御部は、
    前記端末装置の動作として、前記言語情報を記録する手段であるメモに関する動作を制御する処理を行う、
    請求項1に記載の情報処理装置。
  9. 前記動作制御部は、
    前記言語情報に名詞が含まれる場合、前記メモに関する動作を制御する処理を行う、
    請求項8に記載の情報処理装置。
  10. 前記動作制御部は、
    前記言語情報に、前記話者が強調したと解釈される修飾語又は動詞が含まれる場合、前記メモに関する動作を制御する処理を行う、
    請求項8に記載の情報処理装置。
  11. 前記動作制御部は、
    前記話者が前記言語情報を修正するように指示した場合、当該修正に対応する言語情報に対して、前記メモに関する動作を制御する処理を行う、
    請求項8に記載の情報処理装置。
  12. 前記動作制御部は、
    前記修正の遷移の速さが所定の閾値以下となるように、前記メモに関する動作を制御する処理を行う、
    請求項11に記載の情報処理装置。
  13. 前記動作制御部は、
    前記話者が前記言語情報を修正するように指示した場合、当該修正に対応する修正前の言語情報を残しつつ、当該修正に対応する新たな言語情報を追記する動作を制御する処理を行う、
    請求項11に記載の情報処理装置。
  14. 前記動作制御部は、
    前記メモに関する動作として、前記言語情報を媒体にメモする動作、又は、当該言語情報をメモした媒体を捲る動作を制御する処理を行う、
    請求項8に記載の情報処理装置。
  15. 前記端末装置は、前記話者を撮像する撮像部を有し、
    前記動作制御部は、
    前記話者が発話中の場合、前記端末装置の視線を当該話者に向けるように前記端末装置の動作を制御する処理を行う、
    請求項1に記載の情報処理装置。
  16. 端末装置と、当該端末装置の動作を制御する処理に使われるソフトウェアとを含んで構成される情報処理システムであって、
    前記ソフトウェアは、情報処理装置に搭載されており、
    前記端末装置に取得された対象となる話者の言語情報の終端に関する情報に基づいて、当該端末装置の動作を制御する処理を行う、
    情報処理システム。
  17. コンピュータが、
    端末装置により取得された対象となる話者の言語情報の終端を検出し、
    検出された終端に関する情報に基づいて、前記端末装置の動作を制御する処理を行う、
    情報処理方法。
  18. 端末装置により取得された対象となる話者の言語情報の終端を検出する終端検出手順と、
    前記終端検出手順によって検出された終端に関する情報に基づいて、前記端末装置の動作を制御する処理を行う動作制御手順と、
    をコンピュータに実行させることを特徴とする情報処理プログラム。
JP2020011191A 2020-01-27 2020-01-27 情報処理装置、情報処理システム、情報処理方法および情報処理プログラム Pending JP2021117372A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2020011191A JP2021117372A (ja) 2020-01-27 2020-01-27 情報処理装置、情報処理システム、情報処理方法および情報処理プログラム
PCT/JP2020/047859 WO2021153102A1 (ja) 2020-01-27 2020-12-22 情報処理装置、情報処理システム、情報処理方法および情報処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020011191A JP2021117372A (ja) 2020-01-27 2020-01-27 情報処理装置、情報処理システム、情報処理方法および情報処理プログラム

Publications (1)

Publication Number Publication Date
JP2021117372A true JP2021117372A (ja) 2021-08-10

Family

ID=77078736

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020011191A Pending JP2021117372A (ja) 2020-01-27 2020-01-27 情報処理装置、情報処理システム、情報処理方法および情報処理プログラム

Country Status (2)

Country Link
JP (1) JP2021117372A (ja)
WO (1) WO2021153102A1 (ja)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002032370A (ja) * 2000-07-18 2002-01-31 Fujitsu Ltd 情報処理装置
JP6424419B2 (ja) * 2013-09-30 2018-11-21 ヤマハ株式会社 音声制御装置、音声制御方法およびプログラム
US11151997B2 (en) * 2017-03-10 2021-10-19 Nippon Telegraph And Telephone Corporation Dialog system, dialog method, dialog apparatus and program
EP3567585A4 (en) * 2017-11-15 2020-04-15 Sony Corporation INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING METHOD
JP6867939B2 (ja) * 2017-12-20 2021-05-12 株式会社日立製作所 計算機、言語解析方法、及びプログラム
JP6517419B1 (ja) * 2018-10-31 2019-05-22 株式会社eVOICE 対話要約生成装置、対話要約生成方法およびプログラム

Also Published As

Publication number Publication date
WO2021153102A1 (ja) 2021-08-05

Similar Documents

Publication Publication Date Title
US9293133B2 (en) Improving voice communication over a network
US9479911B2 (en) Method and system for supporting a translation-based communication service and terminal supporting the service
KR102599607B1 (ko) 자동화된 어시스턴트를 호출하기 위한 다이내믹 및/또는 컨텍스트 특정 핫워드
KR20210008521A (ko) 자동화된 어시스턴트를 호출하기 위한 다이내믹 및/또는 컨텍스트-특정 핫 워드
US20230386461A1 (en) Voice user interface using non-linguistic input
US20180288109A1 (en) Conference support system, conference support method, program for conference support apparatus, and program for terminal
WO2019026617A1 (ja) 情報処理装置、及び情報処理方法
Alkhalifa et al. Enssat: wearable technology application for the deaf and hard of hearing
WO2021153101A1 (ja) 情報処理装置、情報処理方法および情報処理プログラム
WO2019239659A1 (ja) 情報処理装置および情報処理方法
US20240055003A1 (en) Automated assistant interaction prediction using fusion of visual and audio input
JP6828741B2 (ja) 情報処理装置
KR102367778B1 (ko) 언어 정보를 처리하기 위한 방법 및 그 전자 장치
WO2021153102A1 (ja) 情報処理装置、情報処理システム、情報処理方法および情報処理プログラム
WO2019202804A1 (ja) 音声処理装置および音声処理方法
JP6950708B2 (ja) 情報処理装置、情報処理方法、および情報処理システム
US20200090663A1 (en) Information processing apparatus and electronic device
WO2019073668A1 (ja) 情報処理装置、情報処理方法、およびプログラム
Panek et al. Challenges in adopting speech control for assistive robots
US11430429B2 (en) Information processing apparatus and information processing method
JP2018055155A (ja) 音声対話装置および音声対話方法
US10916250B2 (en) Duplicate speech to text display for the deaf
JP7070402B2 (ja) 情報処理装置
US20220199096A1 (en) Information processing apparatus and information processing method
US20210082427A1 (en) Information processing apparatus and information processing method