JP7348027B2 - 対話システム、対話プログラムおよび対話システムの制御方法 - Google Patents

対話システム、対話プログラムおよび対話システムの制御方法 Download PDF

Info

Publication number
JP7348027B2
JP7348027B2 JP2019195122A JP2019195122A JP7348027B2 JP 7348027 B2 JP7348027 B2 JP 7348027B2 JP 2019195122 A JP2019195122 A JP 2019195122A JP 2019195122 A JP2019195122 A JP 2019195122A JP 7348027 B2 JP7348027 B2 JP 7348027B2
Authority
JP
Japan
Prior art keywords
utterance
information
interface
user
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019195122A
Other languages
English (en)
Other versions
JP2021067907A5 (ja
JP2021067907A (ja
Inventor
崇志 沼田
竜治 嶺
康博 朝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2019195122A priority Critical patent/JP7348027B2/ja
Priority to US17/030,515 priority patent/US11538491B2/en
Publication of JP2021067907A publication Critical patent/JP2021067907A/ja
Publication of JP2021067907A5 publication Critical patent/JP2021067907A5/ja
Application granted granted Critical
Publication of JP7348027B2 publication Critical patent/JP7348027B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)

Description

本開示は、対話インタフェースを介したユーザとの対話を実現する対話システム、対話プログラムおよび対話システムの制御方法に関する。
特許文献1には、「音響信号を検出するマイクMと、マイクMが検出した音響信号に基づき、話者の話し方の特徴値を抽出する特徴抽出部10と、特徴抽出部10が抽出した特徴値に基づいて、同じ特徴値を有するように発話すべき音声信号を生成する音声信号生成部30と、音声信号生成部30が生成した音声信号を発話する音声出力部40と、を備えて、話者の話し方に合わせた返答をする情報伝達装置」が開示されている。
特開2006-113546号公報
特許文献1に記載の情報伝達装置は、話者から取得した発話データから抽出された発話特徴量を模倣するように対話インタフェースの音声を出力することで、対話インタフェースによりユーザの共感を誘起し、持続的な対話を実現できる。しかし、発明者らの実験によれば、対話において相手が取り組んでいる知的作業を支援したり、相手に何らかの行動を促すなど、一方がもう一方に働きかけて何らかの行動を誘発する場合は、対話インタフェースがユーザの発話特徴量を模倣しても、ユーザの共感誘起と行動誘発を両立できない場合があることが分かった。
図17Aおよび17Bは、それぞれ、行動誘発の一例として、知的作業の一つであるフェルミ推定を行っている解答者の発話時間の度数分布のグラフと、その推定に助言する助言者の発話時間の度数分布のグラフとを示す。図17Cは、解答者の発話時間の度数分布と助言者の発話時間の度数分布の重ね合わせを表したグラフである。それぞれのグラフの横軸は、解答者や助言者の発話時間を表している。縦軸は、発話時間の出現頻度を表しており、総和を1として調整している。度数分布は、度数または相対度数の分布を示し、図17Aおよび17Bの例は、相対度数の分布を示す。図17より、助言者の発話時間の度数分布は、解答者の発話時間の度数分布よりも、発話時間が短い方に偏っていることを確認した。
尚、これらの度数分布を算出する際に用いた発話時間データにおいて、解答者と助言者それぞれの合計発話時間には、統計的に有意な差が見られなかったことから、解答者と助言者の発話の特徴の違いは、発話時間の合計よりも、度数分布を用いた方が評価しやすいことを確認した。
図18は、知的作業の一つであるフェルミ推定を行っている解答者と、その推定に助言する助言者の短時間(2秒未満)の発話について、解答者の解答後の自信度に基づいて良い対話と悪い対話に区別して比較した結果を表したグラフである。グラフの横軸は、解答者と助言者を表している。縦軸は、短時間発話の回数を表している。図18より、良い対話において、解答者よりも助言者の短時間発話が統計的に有意に多いことを確認した。
ユーザの共感誘起と行動誘発を効果的に両立するためには、単に共感を誘起するようにユーザの発話特徴量を模倣するのではなく、短時間の発話を多く出力して、効率良く賛同や反対の意見を示すなどにより、ユーザの行動誘発を促すように、対話インタフェースの発話を出力することが望ましい結果が得られた。
一方で、ユーザの行動を誘発するように、対話インタフェースが発話を出力する場合、たとえばユーザの発話に対して返答すべき情報が多かったり少なかったりすることがあり、発話内容よりも発話時間を優先するとユーザの行動誘発の効率が下がる可能性がある。
さらに、ユーザの発話の大きさや声の高さ、リズム、時間は一定ではなく、発話の度に変動する。そのため、毎回ユーザの発話特徴量を模倣するように対話インタフェースの発話を出力すると、ユーザが発話特徴量を模倣されているということを認知してしまう可能性がある。模倣されていることを認知されてしまうと、共感を誘起しにくくなるため、必ずしも発話の度に発話特徴量を模倣するように対話インタフェースが発話を出力することが望ましくない場合がある。
上記課題を解決するために、代表的な本発明の対話システムの一つは、ユーザと対話を行う対話システムであって、ユーザの発話信号を受け付ける入力装置と、前記対話システムの発話内容の発話特徴量の度数分布が理想度数分布に近づくように、前記ユーザの発話信号から取得した発話内容に対する前記対話システムの発話内容を決定する演算装置と、前記決定した前記対話システムの発話内容を出力する出力装置と、を含む。
本発明の代表的な一例によれば、ユーザの共感を誘起し持続的な対話を実現するとともに、ユーザの行動を効率的に誘発することができる。
上記した以外の課題、構成および効果は、以下の実施形態の説明により明らかにされる。
実施例1における対話システムの動作概要の一例を示す図。 実施例1における対話システムの動作概要の一例を示す図。 実施例1における対話システムの動作概要の一例を示す図。 実施例1における対話システムの動作概要の一例を示す図。 実施例1における対話システムの構成例を示す図。 実施例1における情報処理装置の構成例を示す図。 実施例1における発話特徴情報を示す図。 実施例1における発話履歴情報を示す図。 実施例1における発話分布情報を示す図。 実施例1における言語情報を示す図。 実施例1における発話設定情報を示す図。 実施例1における出力発話情報を示す図。 実施例1における対話特徴算出部における処理手順の例を示すフローチャートを示す図。 実施例1における対話分布算出部における処理手順の例を示すフローチャートを示す図。 実施例1における言語情報算出部における処理手順の例を示すフローチャートを示す図。 実施例1における発話設定算出部における処理手順の例を示すフローチャートを示す図。 実施例1における発話情報算出部における処理手順の例を示すフローチャートを示す図。 実施例1における対話情報出力部における処理手順の例を示すフローチャートを示す図。 実施例1における対話システムの他の構成例を示す図。 実施例2における発話特徴量などの設定中の出力画面の例を示した図。 知的作業の一つであるフェルミ推定中の解答者の発話時間の度数分布を表したグラフを示す図。 フェルミ推定中の助言者の発話時間の度数分布とを表したグラフを示す図。 フェルミ推定中の解答者と助言者の発話時間の度数分布の重ね合わせを表したグラフを示す図。 フェルミ推定中の解答者と助言者の短時間の発話時間を良い対話と悪い対話に区別した比較したグラフを示す図。
以下、実施例を図面を用いて説明する。なお、以下に説明する発明の構成において、同一又は類似する構成又は機能には同一の符号を付し、重複する説明は省略する。
図1A~1Dは、対話システムの動作概要の一例を示す図である。対話システムは、まず、ユーザの発話信号を複数回取得し、発話特徴量、たとえば発話時間を複数算出し、発話特徴量分布40を算出する。次に、対話システムは、事前に設定された対話インタフェースの発話設定情報に基づいて、ユーザの発話特徴量分布40を用いて、対話インタフェースの理想的な発話特徴量分布42(理想度数分布)とその分布に近づくための理想的な発話特徴量43を算出する。対話インタフェースは、装置がユーザと対話を行うためのインタフェースであり、たとえば、スマートスピーカ、チャットボット、コミュニケーションロボット、音声アシスタント等、ハードウェアおよびソフトウェアの組み合わせにより実現される。
さらに、対話システムは、ユーザの最新の発話41の発話信号から言語情報を算出し、ユーザの言語情報を用いて対話インタフェースの言語情報候補とそれらの発話時間44とを算出する。最後に、対話システムは、対話インタフェースの理想的な発話特徴量分布42に近づくための理想的な発話時間43と言語情報候補とそれらの発話時間44を用いて、出力する言語情報とその発話時間45を決定し、対話インタフェースから発話を出力する。発話時間は、ユーザの共感誘起と行動誘発を両立する対話を実現するために好適な発話特徴量である。
図2Aは、対話システムの構成例を示す。対話システムは、情報処理装置1、発話入力装置2、出力装置3及び外部入力装置4を含む。図2Aは、情報処理装置1の論理構成を示している。情報処理装置1は、入力部10、出力部15、演算部20、記憶部30を有する。情報処理装置1は、発話入力装置2により発話信号を計測し、出力装置3により、対話インタフェースを用いてユーザに発話情報を出力する。情報処理装置1には、発話入力装置2及び出力装置3に加え、マウス、キーボード、およびタッチパネル等の外部入力装置4が接続される。
入力部10は、発話信号、外部信号等を取得して、情報処理装置1で処理するための変換を行う部分である。発話信号入力部11は、発話入力装置2から発話信号を取得し、外部信号入力部12は、外部入力装置4から、外部信号を取得する。出力部15は、演算部20から取得した出力情報を変換して、他の情報処理装置やディスプレイ、スピーカなどの出力装置3に発話信号を出力する部分である。
演算部20は、情報処理装置1における演算機能を担う部分であり、発話特徴算出部21、発話分布算出部22、言語情報算出部23、発話設定算出部24、発話情報算出部25、発話情報出力部26を含む。記憶部30は、演算部における演算結果を記憶する部分である。
図2Bは、情報処理装置1のハードウェア構成例を示す。情報処理装置1は、計算機構成を有することができる。情報処理装置1は、プロセッサ501、メモリ(主記憶装置)502、補助記憶装置503、入出力インタフェース(I/F)504、及び通信インタフェース(I/F)507を含む。これら構成要素は、バスによって互いに接続されている。メモリ502、補助記憶装置503又はこれらの組み合わせは記憶装置であり、プロセッサ501が使用するプログラム及びデータを格納している。
メモリ502は、例えば半導体メモリから構成され、主に実行中のプログラムやデータを保持するために利用される。プロセッサ501は演算装置であって、メモリ502に格納されているプログラムに従って、様々な処理を実行する。プロセッサ501がプログラムに従って動作することで、様々な機能部が実現される。補助記憶装置503は、例えばハードディスクドライブやソリッドステートドライブなどの大容量の記憶装置から構成され、プログラムやデータを長期間保持するために利用される。
プロセッサ501は、単一の処理ユニットまたは複数の処理ユニットで構成することができ、単一もしくは複数の演算ユニット、又は複数の処理コアを含むことができる。プロセッサ501は、1又は複数の中央処理装置、マイクロプロセッサ、マイクロ計算機、マイクロコントローラ、デジタル信号プロセッサ、ステートマシン、ロジック回路、グラフィック処理装置、チップオンシステム、及び/又は制御指示に基づき信号を操作する任意の装置として実装することができる。
補助記憶装置503に格納されたプログラム及びデータが起動時又は必要時にメモリ502にロードされ、プログラムをプロセッサ501が実行することにより、情報処理装置1の各種処理が実行される。
入出力インタフェース504は、入力装置及び出力装置に対するインタフェース(ハードウェアデバイス)であり、複数の接続端子を含むことができる。プロセッサ501は、入出力インタフェース504を介して入力装置及び出力装置と通信することができる。
情報処理装置1の機能は、1以上のプロセッサ及び非一過性の記憶媒体を含む1以上の記憶装置を含む1以上の計算機からなる計算機システムに実装することができる。複数の計算機はネットワークを介して通信する。例えば、情報処理装置1の複数の機能の一部が一つの計算機に実装され、他の一部が他の計算機に実装されてもよい。
図2Aに示す情報処理装置1の論理構成要素は、図2Bに示すハードウェア構成要素により実装され得る。例えば、入力部10及び出力部15、入出力インタフェース504により実装される。入力部10は、他の機器からの情報が入力されるための複数の端子(USB: Universal Serial Busなど)を含み、発話信号入力部11及び外部信号入力部12は、それぞれ信号を取得するための端子を含む。出力部15は、他の機器と接続するための端子として、VGAおよびHDMI(登録商標)、USBなどを含む。
演算部20は、プロセッサ501により実装され得る。プロセッサ501は、対応するプログラムに従って動作することで、発話特徴算出部21、発話分布算出部22、言語情報算出部23、発話設定算出部24、発話情報算出部25、発話情報出力部26として動作する。記憶部50は、メモリ502及び補助記憶装置503により実装され得る。
図2Aに示すように、まず、発話入力装置2は、発話信号を取得する。取得した発話信号が発話信号入力部11に入力される。発話特徴算出部21は、発話信号入力部11から取得した発話信号から発話特徴量(例えば発話時間)を算出し、発話特徴情報31として記憶部30に保存する。さらに、発話分布算出部22は、発話特徴情報31と記憶部30に保存されている発話履歴情報32を合わせて取得し、ユーザの発話特徴量分布を算出する。発話分布算出部22は、ユーザの発話特徴量分布に基づき対話インタフェースの理想的な発話特徴量分布を算出し、発話分布情報33として記憶部30に保存する。
並行して、言語情報算出部23は、発話信号入力部11から発話信号を取得し、取得した発話信号からユーザの言語情報を算出し、対話インタフェースの言語情報候補とその発話特徴量を算出し、言語情報34として記憶部30に保存する。また、外部入力装置4は、外部信号を取得し、取得された外部信号が外部信号入力部12に入力され、設定情報が生成される。発話設定算出部24は、外部信号入力部12から取得した設定情報から、対話インタフェースの発話を決定するための設定情報を算出し、発話設定情報35として記憶部30に保存する。
そして、発話情報算出部25は、発話分布情報33と言語情報34と発話設定情報35を取得し、対話インタフェースが出力する発話を決定し、出力発話情報36として記憶部30に保存する。最後に、発話情報出力部26は、出力発話情報36から対話インタフェースが出力する発話を取得し、出力装置3を用いて、対話インタフェースから出力発話情報の全部または一部を出力する。
尚、出力装置3が複数存在する場合は、発話情報出力部26は、たとえば事前に専門家が入力した情報により、出力発話情報36の出力信号名に合った出力装置3を選択して出力する。発話情報出力部26は、上記の情報以外に、演算部20の各機能部において作成した情報の全てまたは一部の情報を、出力部15に出力してもよい。
発話信号は、発話特徴量を算出するために用いることが可能なユーザから取得される信号である。たとえば、ヒトの音声などであるが、音声に限定されない。発話信号は、口などの身体の動きや周囲の環境の画像、ユーザの咽喉部などに装着した加速度センサで計測した加速度といった発話時の様々な計測信号を含んでおり、ユーザの発話にかかる情報を取得する際に用いられる。
発話特徴量は、発話信号から算出する発話時間、話者交代潜時(対話の間)、発話エネルギ(声の大きさ)、発話のピッチやトーン(声の高さ)など様々な特徴量を含んでおり、対話インタフェースの発話を出力するために用いられる。本実施例において、発話特徴量の例としてユーザの発話時間を算出する場合を説明する。これら特徴量を使用することでよりユーザの共感誘起と行動誘発を両立する対話が可能となる。
発話入力装置2は、発話信号をユーザから取得するための装置である。たとえば、ヒトの音声を取得するマイク、口の動きをキャプチャするカメラ、発話者の咽喉部に装着した加速度センサなどである。出力装置3は、対話インタフェースから発話を出力するための装置である。たとえば、発話する顔を表示するディスプレイや音声を出力するスピーカである。
外部入力装置4は、外部信号を入力するための装置であり、マウスやキーボードなどの情報処理装置1を制御するための入力装置である、外部信号は、情報処理装置1の動作を制御するために必要となる信号であり、発話特徴量や言語情報を算出するために用いる信号は除かれる。尚、情報処理装置1における各機能部は、別々の装置において動作を実施してもよい。また情報処理装置1の中に図2Aの他の装置が組み込まれていてもよい。
図3は、発話特徴情報31の一例である。発話特徴情報31は、発話信号名301と発話信号取得時間302と発話信号303と発話特徴量名304と発話特徴量305を含む。発話特徴情報31の各項目の詳細は以下のとおりである。尚、特に記述がない場合、発話特徴算出部21が、発話特徴情報31を入力する。
発話信号名301は、発話信号の名称を示し、たとえば音声である。発話信号名は、事前に設定されており、たとえば前回の信号名が入力される。入力部10が複数の発話信号入力部11を有している場合は、「発話信号入力部1」「発話信号入力部2」などと番号を振って、入力された発話信号入力部11または入力部に応じた信号名が事前に設定され、それら信号名のいずれかが入力されてもよい。
発話信号取得時間302は、発話信号を取得した時刻を示す。時刻は、たとえば発話信号の計測開始時刻からの経過時間である。発話信号303は、発話入力装置2から入力された発話信号をA/D(アナログ/デジタル)変換した数値を示す。
発話特徴量名304は、発話特徴量の名称を示し、たとえば発話時間である。発話特徴量名は、発話時間に限らず、たとえば話者交代潜時(対話の間)、発話エネルギ(声の大きさ)、発話のピッチやトーン(声の高さ)などでもよい。
発話特徴量305は、発話信号から発話特徴量分布を算出するためのデータを示し、発話特徴量名が発話時間であればユーザが発話した時間である。発話時間は、たとえば所定時間当たりの発話信号の二乗和が事前に設定した閾値を超えた場合に発話していると判定して、連続して発話したと判定した時間でもよい。たとえば所定時間当たりの発話信号がゼロを交差した(正の値から負の値に変化したか、負の値から正の値に変化した)回数が事前に設定した閾値を超えた場合に発話していると判定して、連続して発話したと判定した時間でもよい。
発話特徴量名が話者交代潜時であれば、発話特徴算出部21は、特徴量として、たとえば対話インタフェースの発話終了後からユーザの発話開始までの時間を算出してもよい。発話特徴量名が発話エネルギであれば、発話特徴算出部21は、特徴量として、たとえば一定時間当たりの発話信号の二乗和を算出してもよい。発話特徴量名が発話のピッチやトーンであれば、発話特徴算出部21は、特徴量として、たとえば一定時間の発話信号の周波数解析により、基本周波数を算出してもよい。
尚、発話信号名や発話信号など、発話情報において複数種類存在する項目があれば、発話信号入力部と同様に、たとえば「発話信号名1」「発話信号1」などと番号を振って記述するなどにより区別できるように表す。
図4は、発話履歴情報32の一例である。発話履歴情報32は、発話特徴算出部21により生成、更新される。発話履歴情報32は、ユーザの発話履歴情報32Aおよび対話インタフェースの発話履歴情報32Bを含む。発話履歴情報32Aおよび32Bは、共に、発話番号311と発話時刻312と発話特徴量名313と発話特徴量314を含む。発話履歴情報32Aは、1又は複数の発話の発話特徴情報31から作成される、または、新しい発話の発話特徴情報31が随時発話履歴情報32Aに追加される。発話履歴情報32Bは、1又は複数の発話の出力発話情報36から作成されるか、または、新しい発話の出力発話情報36が随時発話履歴情報32Bに追加される。発話履歴情報32の各項目の詳細は以下のとおりである。
発話番号311は、発話の番号を示し、たとえば発話特徴量の算出回数と同じ数である。発話時刻312は、発話特徴量の算出に用いた発話を取得した時刻を示す。発話時刻は、発話の開始時刻であってもよいし、発話の終了時刻であってもよい。また、発話履歴情報32において発話信号の計測開始時刻が共通であれば(同時刻を起点にしていれば)、発話特徴量の算出に用いた発話信号を取得した時刻でもよい。
ユーザの発話履歴情報32Aにおいて、発話特徴量名313と発話特徴量314は、過去に発話特徴情報31の発話特徴量名304と発話特徴量305に入力された情報と、それぞれ同じ情報を含む。対話インタフェースの発話履歴情報32Bにおいて、発話特徴量名313と発話特徴量314は、過去に出力発話情報36の発話特徴量名と発話特徴量に入力された情報と、それぞれ同じ情報を含む。
尚、発話履歴情報32に含まれる情報は、過去の発話特徴量を全て含んでもよいし、専門家が事前に入力した情報を用いて、発話番号や発話時刻に基づいて特定の発話特徴量のみに限定してもよい。たとえば、発話特徴算出部21は、最新の発話特徴量が追加される度に、専門家が事前に入力した発話番号の上限を超えているかどうかを確認し、上限を超えていれば、古い発話番号の発話時刻および発話特徴量を削除し、発話番号を振り直してもよい。
尚、発話特徴量名や発話特徴量など、複数種類存在する項目があれば、発話特徴情報31と同様に、たとえば「発話特徴量名1」「発話特徴量1」などと番号を振って記述するなどにより区別できるように表す。
尚、本実施例では、最新の発話特徴情報31が発話履歴情報32に含まれておらず、発話分布算出部22が、発話特徴情報31および発話履歴情報32を読み取り、発話分布情報33を作成した後に、最新の発話特徴情報31が発話履歴情報32に追加される。これと異なり、たとえば最新の発話特徴情報31が算出された直後に、発話履歴情報32に追加される場は、発話履歴情報32のみを用いてもよい。
図5は、発話分布情報33の一例である。発話分布情報33は、発話分布名321と発話特徴量下限322と発話特徴量上限323とユーザ度数324とユーザ相対度数325と分布変換係数326とインタフェース理想相対度数327とインタフェース度数328とインタフェース相対度数329とインタフェース相対度数距離330とインタフェース理想特徴量下限331とインタフェース理想特徴量上限332を含む。尚、特に記述がない場合は、発話分布算出部22が発話分布情報33の情報を入力するものとする。発話分布情報33の各項目の詳細は以下のとおりである。
発話分布名321は、発話分布の名称を示し、たとえば発話時間分布である。発話分布算出部22は、発話特徴情報31や発話履歴情報32の発話特徴量名を取得し、その発話特徴量名の分布を表す名称になるように発話分布名を入力する。
発話特徴量下限322は、度数を算出する際にカウントする発話特徴量の下限を示す。発話分布算出部22は、発話特徴量上限323と合わせて、度数を算出する際にカウントする発話特徴量の範囲を設定し、その範囲内に収まった発話特徴量の数をユーザ度数324に入力する。発話特徴量下限322の値は、たとえば特定の範囲に発話特徴量が集中している分布などにおいては、等間隔でなくてもよい。
発話特徴量上限323は、度数を算出する際にカウントする発話特徴量の上限を示す。発話特徴量上限323は、発話特徴量下限322と合わせて、ユーザ度数を入力する際に用いられる。発話特徴量上限323の値も、たとえば特定の範囲に発話特徴量が集中している分布などにおいては、等間隔でなくてもよい。
ユーザ度数324は、発話特徴情報31の発話特徴量および発話履歴情報32Aの発話特徴量のうち、発話特徴量下限322と発話特徴量上限323の範囲に収まっている発話特徴量の数を示す。ユーザ相対度数325は、ユーザ度数324の総和に対するユーザ度数の割合を示す
分布変換係数326は、ユーザ相対度数325を用いてインタフェース理想相対度数327を算出するための係数を示す。分布変換係数は、たとえばユーザ相対度数をx、インタフェース理想相対度数をyとして、ユーザ相対度数とインタフェース理想相対度数の関係を一次方程式で表す。分布変換係数は、インタフェース理想相対度数をy=axで算出する場合の係数aである。
分布変換係数は、たとえばy=ax+bのaおよびbのように、複数種類存在してもよい。ユーザ相対度数とインタフェース理想相対度数の関係は、一次方程式に限定されず、たとえばy=ax2+bx+cなどの多項式や多次方程式で表されてもよい。分布変換係数は、発話特徴量下限または発話特徴量上限ごとに設定してもよい。
専門家の判断などで事前に設定された分布変換規則に従った共通の分布変換係数を事前に設定してもよい。たとえば発話分布算出部22は、インタフェース理想相対度数の発話特徴量下限よりも係数aだけ大きい発話特徴量下限に入力されているユーザ相対度数をインタフェース理想相対度数に入力し、ユーザ相対度数が入力されなかったインタフェース理想相対度数(最大付近の発話特徴量下限におけるインタフェース理想相対度数)には0を入力する。図17Aから図18を参照して説明したように、発話時間分布の例において、インタフェース理想相対度数は、ユーザの発話時間よりも短い発話時間の数が多くなるように決定される。これにより、より効果的に共感誘起と行動誘発を両立する対話が可能となる。
インタフェース理想相対度数327は、対話インタフェースの理想的な発話特徴量分布を発話特徴量下限322の値または発話特徴量上限323の値ごとに割合で示した数値である。インタフェース理想相対度数327の値は、ユーザ相対度数325の値および分布変換係数326の値を用いて算出される。
インタフェース度数328は、発話履歴情報32Bの発話特徴量のうち、発話特徴量下限と発話特徴量上限の範囲に収まっている発話特徴量の数を示す。インタフェース相対度数329は、インタフェース度数328の総和に対するインタフェース度数の割合を示す。
インタフェース相対度数距離330は、インタフェース理想相対度数(理想度数分布)とインタフェース相対度数(度数分布)の違いを表す。インタフェース相対度数距離は、たとえばインタフェース理想相対度数とインタフェース相対度数の差でもよい。発話特徴量下限または発話特徴量上限ごとに距離係数aを設定して、インタフェース理想相対度数とインタフェース相対度数の差と距離係数の積を算出するなどの方法で重み付けを行った数値でもよい。
インタフェース理想特徴量下限331は、次に対話インタフェースが出力する発話の理想的な発話特徴量の下限を示し、インタフェース相対度数距離を用いて算出される。インタフェース相対度数距離からインタフェース理想特徴量下限を算出する方法は、事前に専門家が入力した情報を用いてもよいし、前回の算出方法と同じ方法でもよい。インタフェース理想特徴量下限331の値は、たとえばインタフェース相対度数距離330が最も大きい値を示した発話特徴量下限322の値であってもよい。
インタフェース理想特徴量上限332は、次に対話インタフェースが出力する発話の理想的な発話特徴量の上限を示し、インタフェース相対度数距離を用いて算出される。インタフェース相対度数距離からインタフェース理想特徴量上限を算出する方法は、事前に専門家が入力した情報を用いてもよいし、前回の算出方法と同じ方法でもよい。
インタフェース理想特徴量上限332の値は、たとえばインタフェース相対度数距離330が最も大きい値を示した発話特徴量上限323の値であってもよい。たとえば、発話分布名321が発話時間分布、インタフェース理想特徴量下限331の値が3.00、インタフェース理想特徴量上限332の値が4.00であれば、次に対話インタフェースが出力する発話の理想的な発話特徴量は、3.00秒から4.00秒の間の発話時間となる。
尚、インタフェース理想特徴量下限331とインタフェース理想特徴量上限332を設定せずに、インタフェース理想特徴量を設定し、特定の範囲ではなく、特定の値を入力するようにしてもよい。たとえば、インタフェース相対度数距離330の値が最も大きい発話特徴量下限322の値が入力される。
図6は、言語情報34の一例である。言語情報34は、ユーザ発話内容341とインタフェース言語情報候補342と発話特徴量343を含む。言語情報34の各項目の詳細は以下のとおりである。尚、特に記述がない場合は、言語情報算出部23が言語情報34の情報を入力しているものとする。
ユーザ発話内容341は、発話特徴情報31の発話信号を用いて、ユーザの音声から認識した発話内容を示す。尚、発話特徴情報31の発話信号がユーザの音声でない場合は、言語情報算出部23は、別種類の発話入力装置を用いて、別種類の発話信号としてユーザの音声を取得して、ユーザ発話内容を算出してもよい。
インタフェース言語情報候補342は、ユーザの行動を誘発するため、ユーザ発話内容に対して対話インタフェースが出力する発話の候補を示す。インタフェース言語情報候補として、ユーザ発話内容に対する応答や質問などの関連する内容を専門家の判断で事前に入力してもよい。事前に入力した言語データベースの中からユーザ発話内容と同様の、または類似する用語や表現が含まれる発話内容が選択されてもよい。
誘発すべきユーザの行動が一定であれば、インタフェース言語情報候補として、特定のユーザの行動を誘発する用語や表現が含まれる発話内容が選択されてもよい。インタフェース言語情報候補は、過去のユーザ発話内容やインタフェース言語情報候補から選択してもよい。同様の発話内容となる2つ以上のインタフェース言語情報が作成される。
図6では、インタフェース言語情報候補が3つ作成された例を示している。発話特徴量がインタフェース言語情報候補の影響を受ける場合は、異なる発話特徴量のインタフェース言語情報候補が作成されるように候補を作成するルールを設定してもよい。インタフェース言語情報候補は、ランダムに作成されてもよい。
たとえば、発話時間は発話文字数の影響を受けることから、発話文字数が3文字以上異なる候補のみを算出するなど、ある程度発話文字数がばらつくように各候補の条件を設定した上で、インタフェース言語情報候補を算出してもよい。また、言語情報算出部23は、発話分布情報33のインタフェース理想特徴量下限331やインタフェース理想特徴量上限332の値を取得して、発話特徴量がその範囲内や範囲近辺となるようにインタフェース言語情報候補を算出してもよい。インタフェース言語情報候補を変化させずに発話特徴量を変化させることができる場合は、同じインタフェース言語情報候補であってもよい。
発話特徴量343は、発話特徴情報31や発話履歴情報32に含まれる発話特徴量と同様の情報を示し、その値は、インタフェース言語情報候補ごとに算出される。発話特徴量がインタフェース言語情報候補の影響を受ける場合、インタフェース言語情報候補から発話特徴量を算出してもよい。たとえば発話特徴量が発話時間であり、対話インタフェースが一定時間あたりに発話できる文字数を設定している場合は、その設定を用いて、インタフェース言語情報候補から発話特徴量を算出してもよい。
発話特徴量がインタフェース言語情報候補の影響を受けない場合は、たとえば話者交代潜時が0.2秒以上異なる発話特徴量のみを作成するなど、ある程度発話特徴量がばらつくように各発話特徴量の条件を設定した上で算出してもよいし、ランダムに算出してもよい。
図7は、発話設定情報35の一例である。発話設定情報35は、言語情報選択基準351を含む。発話設定情報35の詳細は以下のとおりである。尚、特に記述がない場合は、発話設定算出部24が発話設定情報35の情報を入力しているものとする。
言語情報選択基準351は、発話分布情報33のインタフェース理想特徴量下限とインタフェース理想特徴量上限と、言語情報34のインタフェース言語情報候補とその発話特徴量を用いて、対話インタフェースの発話内容を決定するための基準を示す。言語情報選択基準として、たとえば、事前に専門家の判断によりマウスやキーボードから入力され、外部信号入力部12より取得した外部信号を用いて入力してもよいし、前回入力された情報を用いてもよい。発話設定情報35により、ユーザ設定に応じた対話が実現される。
尚、発話設定情報35は、言語情報選択基準351に加えて、事前に専門家などの判断によりマウスやキーボードから入力され、外部信号入力部12より取得された外部信号から生成される他の情報を含んでもよく、発話設定情報35に含まれる情報は、発話設定算出部24以外の機能部が取得してもよい。
たとえば、図7の例のように言語情報選択基準が最小距離であれば、発話情報算出部25は、発話特徴量距離が最小値を示したインタフェース言語情報候補を選択して、入力する。発話設定情報35は、たとえば、発話特徴情報31の発話特徴量名に入力する情報を選択する基準を入力する項目含んでもよい。また、発話設定情報35は、たとえば発話分布情報33のインタフェース相対度数距離からインタフェース理想特徴量下限およびインタフェース理想特徴量上限を算出するアルゴリズムを入力する項目を含んでもよい。
図8は、出力発話情報36の一例である。出力発話情報36は、インタフェース言語情報候補361と発話特徴量距離362と出力信号名363とインタフェース発話内容364と発話特徴量365を含む。尚、特に記述がない場合は、発話情報算出部25が、出力発話情報36の情報を入力しているものとする。
インタフェース言語情報候補361は、言語情報34のインタフェース言語情報候補342と同じ情報を含む。発話特徴量距離362は、理想発話特徴量と各インタフェース言語情報候補の発話特徴量の違いを表した数値を示す。理想発話特徴量は、たとえば、発話分布情報33のインタフェース理想特徴量下限331の値とインタフェース理想特徴量上限332の値と、言語情報34のインタフェース言語情報候補とその発話特徴量を用いて算出される。発話特徴量距離は、たとえばインタフェース理想特徴量下限とインタフェース理想特徴量上限の平均値と、各インタフェース言語情報候補の発話特徴量との差である。
出力信号名363は、インタフェース発話内容を出力する信号の情報を示し、たとえば音声である。出力信号名として、たとえば専門家の判断により事前に入力された情報を用いてもよいし、前回の発話を出力した際の出力信号名を用いてもよい。インタフェース発話内容364は、発話特徴量距離と発話設定情報35の言語情報選択基準を用いて決定した、対話インタフェースの発話内容である。
尚、理想的な発話特徴量分布となるような発話特徴量をもつ対話インタフェースの発話を連続的に出力できる場合は、発話情報算出部25は、一定確率でランダムにインタフェース言語情報候補からインタフェース発話内容を選択してもよい。これにより、ユーザの発話特徴量を用いて対話インタフェースの発話特徴量を決定していることを認知されないようにできる。この場合は、発話設定情報35が例外条件の項目をさらに含み、例外条件を満たした場合は、発話情報算出部25は、言語情報選択基準を用いずに別の基準、たとえばランダムにインタフェース発話内容を選択してもよい。
また、発話設定情報35は、言語情報選択基準に加えて、直前の発話特徴量の考慮の有無といった他の基準の項目を含んでもよい。たとえば、理想的な発話特徴量分布となるような発話特徴量の直前のインタフェース発話内容の発話特徴量からの変化が大きい場合(たとえば直前のインタフェース発話時間が非常に長い場合)、発話情報算出部25は、発話設定情報35の重み付された基準の組み合わせにより、インタフェース発話内容を選択してもよい。
次に、情報処理装置1の演算部20の動作について説明する。図9は、発話特徴算出部21における処理手順の例を示すフローチャートである。
ステップ101:発話特徴算出部21は、発話信号入力部11が発話信号を取得したか否かを判定する。発話信号が取得された場合(101:YES)、発話特徴算出部21は、ステップ102に進む。発話信号が取得されていない場合(101:NO)、発話特徴算出部21は、ステップ101を繰り返す。発話特徴算出部21は、ステップ101を、他の入力部に対して行ってもよいし、専門家が選択した複数の信号取得部または全ての信号取得部が信号を取得していなければステップ101を繰り返してもよい。
ステップ102:発話特徴算出部21は、発話信号を取得する。発話信号とともに、発話特徴情報31の発話信号名301に格納する名と発話信号取得時間302に格納する時間を取得する。尚、発話信号名と発話信号取得時間の取得は、ステップ103などの他のステップで行ってもよい。また、発話信号が複数種類存在する場合は、ステップ102の後に、すべての発話信号を取得したか否かを判断するステップが追加されていてもよい。たとえば、すべての発話信号が取得されている場合、発話特徴算出部21はステップ103に進み、いずれかの発話信号が取得されていない場合、発話特徴算出部21はステップ101に戻る。
ステップ103:発話特徴算出部21は、カウンタiを1に設定する。
ステップ104:発話特徴算出部21は、i番目の種類の発話特徴量があるか否かを判定する。i番目の種類の発話特徴量がある場合(104:YES)、発話特徴算出部21はステップ105に進む。i番目の種類の発話特徴量がない場合(104:NO)、発話特徴算出部21はステップ107に進む。
ステップ105:発話特徴算出部21は、発話信号を用いて、i番目の発話特徴量を算出する。発話特徴算出部21は、発話特徴量とともに、発話特徴情報31の発話特徴量名304に格納する名を取得する。尚、発話特徴量名の取得は、ステップ106などの他のステップで行ってもよい。
ステップ106:発話特徴算出部21は、カウンタiを1だけインクリメントする。
ステップ107:発話特徴算出部21は、発話履歴情報32Aがすでに存在するか否かを判定する。発話履歴情報32Aがすでに存在する場合(107:YES)、発話特徴算出部21はステップ108に進む。発話履歴情報32Aが存在しない場合(107:NO)、発話特徴算出部21はステップ109に進む。
ステップ108:発話特徴算出部21は、発話履歴情報32Aの発話特徴量314に、算出した発話特徴情報31の発話特徴量を追加する。発話特徴算出部21は、発話特徴量の追加とともに、発話履歴情報32Aの発話特徴量名313に算出した発話特徴情報31の発話特徴量名を追加する。また、発話特徴算出部21は、取得した発話信号取得時間の情報を、発話履歴情報32Aの発話時刻312に追加する。発話特徴量以外の情報の追加は、ステップ108と本処理の終了の間に追加された別のステップで実行してもよい。
ステップ109:発話特徴算出部21は、発話履歴情報32Aを取得する。発話履歴情報32Aは、ユーザ本人の過去の発話データでもよいし、他のユーザの発話履歴情報から取得してもよい。取得されるデータは、専門家の判断などで事前に設定した条件で決定してもよい。発話履歴情報32Aは、ステップ105で算出した発話特徴量を用いて新たに作成してもよい。ステップ105で算出した発話特徴量を用いて、新たに作成する場合は、発話特徴算出部21は、ステップ108に進まずに、ステップ110に進んでもよい。
ステップ110:発話特徴算出部21は、発話履歴情報32Bを取得し、終了する。発話履歴情報32Bは、過去の発話履歴情報や最新の出力発話情報36に含まれる発話特徴量から取得してもよいし、ユーザ本人に対する過去の対話インタフェースの発話データから取得してもよいし、他のユーザに対する過去の対話インタフェースの発話データを用いた発話履歴情報から取得してもよい。
取得されるデータは、専門家の判断などで事前に設定した条件で決定してもよい。発話履歴情報32Bは、最新の出力発話情報に含まれる発話特徴量を用いて新たに作成して取得してもよい。発話履歴情報32Bを取得(作成を含む)可能なデータが存在しない場合は、発話特徴算出部21は、発話履歴情報32Bを取得せずに終了してもよい。発話履歴情報32Bを取得せずに終了した場合は、たとえば発話分布算出部22は、発話分布情報33のインタフェース度数328およびインタフェース相対度数329の全項目に0を入力し、ユーザ相対度数325のみを使用してインタフェース理想特徴量下限331およびインタフェース理想特徴量上限332を算出してもよい。
このように、発話特徴算出部21は、発話信号入力部11において取得した発話信号を用いて、発話信号から発話特徴量を含む発話特徴情報31を算出するとともに、算出した発話特徴量を発話履歴情報32に追加するか、新たに発話履歴情報32を作成する。これにより、ユーザおよび対話インタフェースの発話特徴量分布に必要なデータを作成できる。
尚、対話を開始してから2回目以降の発話特徴算出部21の動作である場合は、発話特徴算出部21は、以前の発話特徴情報31や発話履歴情報32も用いて、発話特徴情報31や発話履歴情報32を最新の情報へと更新してもよい。
尚、発話特徴算出部21において、発話信号について、複数の計測機器や計測チャネル(計測点)を用いて複数の発話信号を取得する場合は、発話特徴算出部21は、複数の機器やチャネルの信号の平均値を算出するなどにより、取得された複数の発話信号を用いる。また、発話特徴算出部21は、たとえばユーザに発話時間を口頭で回答させるなど、発話信号以外の情報も用いて発話特徴量を算出してもよい。
図10は、発話分布算出部22における処理手順の例を示すフローチャートである。ステップ111:発話分布算出部22は、発話特徴算出部21が発話特徴量を算出したか否かを判定する。発話特徴量が算出されている場合(111:YES)、発話分布算出部22は、ステップ112に進み、発話特徴量が算出されていない場合(111:NO)、発話分布算出部22は、ステップ111を繰り返す。
発話分布算出部22は、ステップ111を、入力部10や他の機能部に対して行ってもよい。発話分布算出部22は、ステップ111において、発話特徴算出部21が他の情報を算出したり、取得したりしたか否かを判定してもよい。発話分布算出部22は、専門家が事前に選択した複数の情報または全ての情報を取得していなければステップ111を繰り返してもよい。
ステップ112:発話分布算出部22は、発話特徴算出部21が算出した発話特徴量を取得する。発話特徴量が複数種類存在する場合は、ステップ112の後に、すべての発話特徴量を取得したか否かを判断するステップを追加してもよい。発話分布算出部22は、すべての発話特徴量を取得した場合はステップ113に進み、いずれかの発話特徴量を取得していない場合はステップ111に戻ることができる。
ステップ113:発話分布算出部22は、発話履歴情報32Aを取得する。すでに発話履歴情報32Aが存在していれば、発話特徴算出部21が発話履歴情報32Aに発話特徴量を追加するステップ108の前にステップ113を実施してもよい。ステップ108の後に発話履歴情報32Aを取得する場合は、発話分布算出部22は、ステップ111で発話特徴量の算出ではなく、発話履歴情報32Aに発話特徴量が追加されたか否かを判定し、ステップ112で発話特徴量を取得せずにステップ113に進んでもよい。
ステップ114:発話分布算出部22は、発話履歴情報32Aに十分なデータ量があるか否かを判定する。十分なデータ量がある場合(114:YES)、発話分布算出部22は、ステップ115に進み、十分なデータ量がない場合(114:NO)、発話分布算出部22は、ステップ111に戻る。発話履歴情報32Aに十分なデータ量があるか否かの判定は、事前に専門家が入力した判断基準に基づいてもよいし、発話設定情報35に判断基準となる閾値を入力する項目を含めて、その閾値に基づいて判定してもよい。
ステップ115:発話分布算出部22は、カウンタiを1に設定する。
ステップ116:発話分布算出部22は、カウンタjを1に設定する。
ステップ117:発話分布算出部22は、発話履歴情報32Aにi番目の発話特徴量があるか否かを判定する。i番目の発話特徴量がある場合(117:YES)、発話分布算出部22はステップ118に進み、i番目の発話特徴量が無い場合(117:NO)、発話分布算出部22はステップ120に進む。
ステップ118:発話分布算出部22は、発話履歴情報32Aのi番目の発話特徴量を取得し、発話分布情報33の発話特徴量下限322の値と発話特徴量上限323の値を満たすユーザ度数324の値を、1だけインクリメントする。発話分布情報33の発話分布名321と発話特徴量下限322と発話特徴量上限323の値は、最初にステップ118に進んだ際にユーザ度数をインクリメントする前に取得してもよいし、ステップ117などのステップ118よりも前のステップで取得してもよいし、ステップ118よりも前にステップを追加して取得してもよい。
ステップ119:発話分布算出部22は、カウンタiを1だけ、インクリメントする。
ステップ120:発話分布算出部22は、発話分布情報33のユーザ度数324の値を用いて、ユーザ相対度数325の値を算出する。
ステップ121:発話分布算出部22は、発話分布情報33のユーザ相対度数325に基づき、インタフェース理想相対度数327を決定する。具体的には、発話分布算出部22は、発話分布情報33のユーザ相対度数325の値と分布変換係数326の値を用いて、インタフェース理想相対度数327の値を算出する。発話分布情報33の分布変換係数は、ステップ121に進んだ際にユーザ相対度数とともに取得してもよいし、ステップ120などのステップ121よりも前のステップで取得してもよいし、ステップ121よりも前にステップを追加して取得してもよい。インタフェース理想相対度数の算出は、インタフェース理想相対度数を用いるステップ127の前であれば、必ずしもステップ122の前でなくともよい。
ステップ122:発話分布算出部22は、発話履歴情報32Bを取得する。すでに発話履歴情報32Bが存在していれば、本ステップは、発話特徴算出部21が発話履歴情報32Bを取得するステップ110の前に実施してもよい。
ステップ123:発話分布算出部22は、発話履歴情報32Bにj番目の発話特徴量があるか否かを判定する。j番目の発話特徴量がある場合(123:YES)、発話分布算出部22はステップ124に進み、j番目の発話特徴量が無い場合(123:YES)、発話分布算出部22はステップ126に進む。
ステップ124:発話分布算出部22は、発話履歴情報32Bのj番目の発話特徴量を取得し、発話分布情報33の発話特徴量下限322の値と発話特徴量上限323の値を満たすインタフェース度数328の対を1だけインクリメントする。
ステップ125:発話分布算出部22は、カウンタjを1だけインクリメントする。
ステップ126:発話分布算出部22は、発話分布情報33のインタフェース度数328の値を用いて、インタフェース相対度数329の値を算出する。
ステップ127:発話分布算出部22は、発話分布情報33のインタフェース理想相対度数327の値とインタフェース相対度数329の値を用いて、インタフェース相対度数距離330の値を算出する。発話分布情報33の分布変換係数326の値は、ステップ121に進んだ際にユーザ相対度数325の値とともに取得してもよいし、ステップ120などのステップ121よりも前のステップで取得してもよいし、ステップ121よりも前に追加されたステップで取得してもよい。
ステップ128:発話分布算出部22は、発話分布情報33のインタフェース相対度数距離330の値を用いて、インタフェース理想特徴量下限331の値とインタフェース理想特徴量上限332の値を算出し、終了する。
このように、発話分布算出部22は、発話特徴算出部21が算出した発話特徴量と発話履歴情報32を用いて、ユーザ相対度数325やインタフェース相対度数329を含む発話分布情報33を算出する。これにより、対話インタフェースが出力する発話について、理想的な発話特徴量を算出できる。尚、対話を開始してから2回目以降の発話分布算出部22の動作である場合は、以前の発話分布情報33も用いて、最新の発話分布情報33へと更新してもよい。
図11は、言語情報算出部23における処理手順の例を示すフローチャートである。
ステップ131:言語情報算出部23は、発話信号入力部11が発話信号を取得したか否かを判定する。発話信号が取得されている場合(131:YES)、言語情報算出部23はステップ132に進み、発話信号が取得されていない場合(131:NO)、言語情報算出部23はステップ131を繰り返す。ステップ131は、発話特徴算出部21が行ってもよいし、専門家が事前に選択した複数の信号取得部または全ての信号取得部が信号を取得するまでステップ131が繰り返されてもよい。また、発話信号入力部11が発話信号を取得したか否かを判定する代わりに、発話特徴算出部21が発話信号を取得したか否かを判定してもよい。
ステップ132:言語情報算出部23は、発話信号を取得する。発話信号は、発話信号入力部11から直接取得してもよいし、発話特徴算出部21が保存した発話特徴情報31から取得してもよい。
ステップ133:言語情報算出部23は、ユーザ発話内容を算出する。発話信号から発話内容を算出する様々方法が知られており、ここでは詳細を省略する。発話信号に複数回の発話が含まれる場合は、発話ごとに発話信号を分割して、それぞれユーザ発話内容を算出してもよいし、まとめてユーザ発話内容を算出してもよい。専門家の判断などにより事前に閾値を設定して、言語情報算出部23は、発話と発話の間の時間が閾値内であれば、ユーザ発話内容をまとめて算出し、発話と発話の間の時間が閾値を超えていれば発話信号を分割してユーザ発話内容を算出してもよい。
ステップ134:言語情報算出部23は、カウンタiを1に設定する。
ステップ135:言語情報算出部23は、カウンタiがインタフェース言語情報候補の規定数以下であるか否かを判断する。カウンタiが規定数以下であれば、言語情報算出部23はステップ136に進み、カウンタiが規定数を超えていれば言語情報算出部23は終了する。規定数は、専門家の判断により事前に入力した数値でもよいし、前回インタフェース言語情報候補が算出された数を用いてもよい。また、発話設定情報35が規定数を入力する項目を含み、専門家の判断や前回の対話における動作などに基づいてその項目に入力された数値を用いてもよい。
ステップ136:言語情報算出部23は、ユーザの発話内容に応じてi番目のインタフェース言語情報候補を算出する。ユーザの発話内容からインタフェース言語情報候補を算出する様々方法が知られており、ここでは詳細を省略する。
ステップ137:言語情報算出部23は、i番目のインタフェース言語情報候補の発話特徴量を算出する。
ステップ138:言語情報算出部23は、カウンタiを1だけインクリメントする。
このように、言語情報算出部23は、発話信号入力部11において取得した発話信号を用いて、ユーザの発話内容を算出し、ユーザの発話内容に合わせた対話インタフェースの発話内容の候補とその発話特徴量を算出する。これにより、対話インタフェースが出力する発話の候補と実際に出力される発話の選定に用いる発話特徴量を算出できる。
尚、発話特徴算出部21と言語情報算出部23の動作順序は問わない。発話特徴算出部21が先に動作し、発話特徴量を算出した後に、言語情報算出部23が動作してもよいし、逆の順序でもよい。また、たとえば発話特徴算出部21が発話信号を取得したら、言語情報算出部23も動作するなど、先に動作する機能部を設定しておいて、後に動作する機能部の動作のトリガに用いてもよい。先に動作する機能部の動作が終了する前に、もう一方の機能部が動作開始してもよい。他の機能部間についても、必要な情報が取得または算出されていれば、動作順序は問わない。
図12は、発話設定算出部24における処理手順の例を示すフローチャートである。
ステップ141:発話設定算出部24は、外部信号入力部12が外部信号を取得したか否かを判定する。外部信号が取得されている場合(141:YES)、発話設定算出部24はステップ142に進み、外部信号が取得されていない場合(141:NO)、発話設定算出部24はステップ141を繰り返す。ステップ141は、発話設定算出部24が他の入力部に対して行ってもよい。専門家が事前に選択した複数の信号取得部または全ての信号取得部が信号を取得するまで、ステップ141が繰り返されてもよい。
ステップ142:発話設定算出部24は、外部信号を取得する。外部信号が複数種類存在する場合は、ステップ142の後に、すべての外部信号を取得したか否かを判断するステップを追加してもよい。すべての外部信号が取得されている場合、発話設定算出部24はステップ143に進み、いずれかの外部信号が取得されていない場合、発話設定算出部24はステップ141に戻るようにしてもよい。
ステップ143:発話設定算出部24は、発話設定情報35の言語情報選択基準351に、外部信号から算出して得た情報を格納し、終了する。
このように、発話設定算出部24は、外部信号入力部12において取得した外部信号を用いて、外部信号から言語情報選択基準を含む発話設定情報35を算出する。これにより、発話分布情報33のインタフェース理想特徴量下限331とインタフェース理想特徴量上限332と、言語情報34のインタフェース言語情報候補342とその発話特徴量343を用いて、インタフェース発話内容を選択できる。
尚、発話設定情報35が言語情報選択基準以外の項目を含む場合には、項目の種類や数に合わせて、それぞれの項目の情報を取得するステップを追加してもよい。対話を開始してから2回目以降の発話設定算出部24の動作である場合は、以前の情報から変更があった場合のみ発話設定情報35を最新の情報に更新するなど、以前の発話設定情報35も用いてもよい。たとえば前回の対話における発話設定情報35を用いる場合は、外部信号以外の情報をトリガにして発話設定算出部24が動作してもよいし、外部信号以外の情報も用いて言語情報選択基準を算出してもよい。
図13は、発話情報算出部25における処理手順の例を示すフローチャートである。
ステップ151:発話情報算出部25は、言語情報算出部23がインタフェース言語情報候補342を算出したか否かを判定する。インタフェース言語情報候補342が算出されていれば(151:YES)、発話情報算出部25はステップ152に進み、インタフェース言語情報候補342が算出されていない場合(151:NO)、発話情報算出部25はステップ151を繰り返す。ステップ151は、発話情報算出部25が他の機能部に対して行ってもよいし、言語情報算出部23が他の情報を算出したり、取得したりしたか否かを判断してもよい。
専門家が事前に選択した複数の情報または全ての情報が取得されるまで、ステップ151が繰り返されてもよい。たとえば、インタフェース発話内容の算出に用いる発話分布情報33のインタフェース理想特徴量下限331とインタフェース理想特徴量上限332と、言語情報34のインタフェース言語情報候補342と、発話設定情報35の言語情報選択基準351の全てが算出されるまで、ステップ151が繰り返されてもよい。
ステップ152:発話情報算出部25は、言語情報34のインタフェース言語情報候補342とその発話特徴量343を取得して、出力発話情報36のインタフェース言語情報候補361と発話特徴量365に格納する。インタフェース言語情報候補342の取得とともに、発話情報算出部25は、発話分布情報33のインタフェース理想特徴量下限331とインタフェース理想特徴量上限332と、発話設定情報35の言語情報選択基準351も取得する。インタフェース理想特徴量下限331とインタフェース理想特徴量上限332と言語情報選択基準351の取得は、インタフェース発話内容を算出する前の他のステップで実施してもよいし、それぞれの情報を取得するためのステップを追加してもよい。
ステップ153:発話情報算出部25は、すべての種類のインタフェース言語情報候補を取得したか否かを判定する。すべての種類のインタフェース言語情報候補を取得した場合(153:YES)、発話情報算出部25はステップ154に進み、何れかの種類のインタフェース言語情報候補を取得していない場合(153:NO)、発話情報算出部25はステップ151に戻る。
ステップ154:発話情報算出部25は、カウンタiを1に設定する。
ステップ155:発話情報算出部25は、i番目の種類のインタフェース言語情報候補があるか否かを判定する。i番目の種類のインタフェース言語情報候補がある場合(155:YES)、発話情報算出部25はステップ156に進み、i番目の種類のインタフェース言語情報候補がない場合(155:NO)、発話情報算出部25はステップ158に進む。
ステップ156:発話情報算出部25は、i番目の種類のインタフェース言語情報候補の発話特徴量距離を算出して、出力発話情報36の発話特徴量距離362に格納する。
ステップ157:発話情報算出部25は、カウンタiを1、インクリメントする。
ステップ158:発話情報算出部25は、出力信号名を取得する。出力信号名は、上述のように、たとえば事前に設定されている。
ステップ159:発話情報算出部25は、発話分布情報33のインタフェース理想特徴量下限331とインタフェース理想特徴量上限332と、言語情報34のインタフェース言語情報候補342と、発話設定情報35の言語情報選択基準351と、発話特徴量距離362を用いて、インタフェース言語情報候補342の中から、インタフェース発話内容を選択して、出力発話情報36のインタフェース発話内容364に格納する。インタフェース言語情報候補から出力するインタフェース発話内容を選択することで、ユーザ発話内容に対応する適切な発話内容が出力される。また、発話特徴量距離に基づきインタフェース発話内容を選択することで、対話システムの発話特徴量度数分布を理想的な度数分布に近づけることができる。
ステップ160:発話情報算出部25は、選択したインタフェース発話内容の発話特徴量を算出または取得し、出力発話情報36の発話特徴量365に格納して、終了する。
このように、発話情報算出部25は、発話分布算出部22が算出したインタフェース理想特徴量下限とインタフェース理想特徴量上限と、言語情報算出部23が算出したインタフェース言語情報候補とその発話特徴量と、発話設定算出部24が算出した言語情報選択基準を用いて、インタフェース発話内容を含む出力発話情報36を算出する。これにより、共感誘起と行動誘発を効果的に両立できる対話インタフェースの発話を出力できる。
尚、対話を開始してから2回目以降の発話情報算出部25の動作である場合は、発話情報算出部25は、以前の出力発話情報36を、最新の情報へと更新してもよい。
図14は、発話情報出力部26における処理手順の例を示すフローチャートである。
ステップ161:発話情報出力部26は、発話情報算出部25が出力発話情報36のインタフェース発話内容364を算出したか否かを判定する。インタフェース発話内容364が算出されている場合(161:YES)、発話情報出力部26はステップ162に進み、インタフェース発話内容364が算出されていない場合(161:NO)、発話情報出力部26はステップ161を繰り返す。
ステップ161は、発話情報算出部25などの他の機能部が行ってもよい。また、発話情報出力部26は、出力発話情報36の他の情報が取得されたか否かを判定してステップ162に進むようにしてもよい。発話情報出力部26は、インタフェース発話内容364とその発話特徴量365が算出されたか否かなどの複数の情報を組み合わせた判定基準に従ってもよいし、専門家が事前に選択した特定の情報を取得していればステップ162に進むようにしてもよい。
ステップ162:発話情報出力部26は、出力発話情報36を取得する。
ステップ163:発話情報出力部26は、インタフェース発話内容を出力部15に出力する。発話情報出力部26は、インタフェース発話内容とともに、インタフェース発話内容の発話特徴量も出力部15に出力するなど、他の情報の一部または全部も出力してもよい。また、インタフェース発話内容の発話特徴量が前回の出力時の発話特徴量から大きく変化した場合において、発話特徴量がインタフェース発話内容に影響しない場合は、発話情報出力部26は、所定回数や時間をかけて対話インタフェースの発話特徴量を変化させるように出力してもよい。
ステップ164:発話情報出力部26は、出力部15がインタフェース発話内容を出力したか否かを判定する。インタフェース発話内容が出力された場合(164:YES)、発話情報出力部26は終了し、インタフェース発話内容が出力されていない場合(164:NO)、発話情報出力部26はステップ163に戻る。また、インタフェース発話内容が出力されていない場合、発話情報出力部26はステップ162やステップ163に戻るように設定してもよい。
このように、発話情報出力部26は、発話情報算出部25において算出されたインタフェース発話内容などの取得された情報を、対話インタフェースを介して、ユーザに提示できる。これにより、ユーザの共感を効果的に誘起し、持続的な対話や他情報の対話を実現するとともに、ユーザの特定の行動を効果的に誘発できる。
尚、本実施例は分かりやすく説明するために詳細に説明した一例であり、本明細書の特徴は本実施例に限定されない。たとえば、対話システムは、スマートフォンやタブレットPCのように、情報処理装置1、発話入力装置2、出力装置3、外部入力装置4が一体型であってもよい。また、スマートフォンやタブレットPCが備える装置を使用した対話プログラムが本実施例の処理を実行しもよい。
図15は、情報処理装置1、発話入力装置2、出力装置3、外部入力装置4、出力装置5を含み、対話プログラムを実行する対話システム(装置)の例を示す図である。出力装置5は、たとえばディスプレイであり、対話インタフェースの表情やユーザの発話に関して情報処理装置1が算出した情報などを提示できる。
このような装置を用いて、対話プログラムは、発話計測により、対話中の発話データを計測し、発話特徴量を算出し、発話特徴量に基づいてユーザの発話特徴量分布を算出し、対話インタフェースの理想的な発話特徴量分布を算出する。対話プログラムは、最新の理想的な発話特徴量を算出するとともに、ユーザの発話内容を算出し、ユーザの発話内容に合ったインタフェース言語情報候補とその発話特徴量を算出する。対話プログラムは、インタフェース言語情報選択基準を取得し、対話インタフェースの理想的な発話特徴量分布とインタフェース言語情報候補とその発話特徴量を用いて、対話インタフェースの発話を選択し、出力する。
また、たとえば情報処理装置1の演算部20における各機能部の構成および/または動作について、事前に専門家が判断し、入力できる情報があれば、各機能部は、専門家の判断に従って情報を入力または/および出力してもよい。インタフェース理想相対度数を算出する関係式についても、たとえば専門家の判断で関係式やアルゴリズムを事前に設定するなど、ユーザ相対度数そのものを用いずに別の関係式を設定して演算してもよい。
また、演算部20の各機能部は、たとえば事前に設定した情報や以前使用した情報を読み込むなどの他の方法に基づいて動作してもよいし、事前に設定された専門家の判断と組み合わせて情報を取得および出力してもよい。また、各機能部が作成する情報に同じ項目が含まれているのであれば、それらの項目を逐一作成しなくともよいし、その結果として作成されない情報や項目があってもよい。
また、同じ種類の発話信号において複数の計測チャネルや計測機器が存在する場合、対話システムは、たとえば複数チャネル間の平均波形などの指標を取得して、発話信号としてもよい。また、「信号1」「信号2」の代わりに「信号A」「信号B」を用いるなど、対話システムは、それぞれの情報に対して他の名称を付与してもよい。
また、たとえば発話信号として文字(テキストデータ)を取得し、発話特徴量を文字から算出するなどにより、音声以外の情報を用いて対話インタフェースの動作を出力し、ユーザの共感を誘起したり、行動を誘発したりしてもよい。たとえば、ユーザが入力した文字数を発話特徴量として、ユーザの発話特徴量分布に基づいて対話インタフェースが出力する文字を算出してもよい。
また、記憶部30に含まれる情報の一部を、事前の学習により設定してもよい。たとえば、ユーザ相対度数、インタフェース相対度数とユーザ、対話インタフェースの対話の持続時間や対話量や対話インタフェースの発話前後のユーザの行動の変化や有無が紐づけられて格納されたデータベースが使用される。
たとえば、演算部20に対話分布学習部などの新たな機能部を追加したり、他の機能部に機能を追加したりすることで、適切な分布変換係数を設定してもよい。この場合、データベースは、少なくとも発話分布情報33のユーザ相対度数325およびインタフェース相対度数329を含む。データベースを用いて、事前の学習により適切な分布変換係数を設定することで、効果的に共感誘起と行動誘発を両立できる。
データベースを用いた事前の学習による適切な分布変換係数は、たとえば以下の方法で設定できる。この方法は、ユーザ相対度数とインタフェース相対度数を取得し、そのユーザ相対度数とインタフェース相対度数を示した際のユーザと対話インタフェースの対話の持続時間や対話量や対話インタフェースの発話前後のユーザの行動の変化や有無を算出する。さらに、分布変換係数と対話の持続時間や対話量やユーザの行動の変化や有無の関係を算出する。
これらの関係を用いて、専門家の判断により分布変換係数を設定してもよいし、ロジスティック回帰分析やSupport Vector Machineなどの機械学習のアルゴリズムを用いて、事前の学習に用いたデータに対する対話の持続時間や対話量やユーザの行動の変化や有無が大きくなるように設定してもよい。
また、たとえばユーザへの主観アンケートの調査結果などを用いた学習を行い、発話分布情報33のインタフェース理想相対度数を設定するなど、分布変換係数以外の情報を、事前の学習により設定してもよい。分布変換係数以外の情報を設定する場合、データベースが含む情報は目的に合わせて設定可能であり、この場合は少なくとも発話分布情報33のインタフェース相対度数329を含む。また、事前の学習によりインタフェース理想相対度数を設定する場合、ユーザ相対度数や分布変換係数に関係なく、そのインタフェース理想相対度数を設定してもよい。この場合は、インタフェース理想相対度数の基準が事前に用意されており、対話中には変化しない。
また、特定のユーザに関するデータのみを用いて、事前の学習を行ってもよい。記憶部30やデータベースにユーザという項目を作成し、ユーザやユーザの属性に関する情報を入力することで、たとえばユーザ本人や共通する属性を持つユーザから取得した情報のみを使用する。
また、事前の学習を行うためのデータが十分に蓄積しているかどうかを専門家が判定するまたは事前に専門家が入力した情報により対話システムが判定してもよい。データが十分に蓄積していない場合は、対話システムは、学習用のデータを作成するようにユーザに指示したり、他のユーザや過去の発話履歴データを用いて学習用のデータを取得したりするなどにより、データを取得してもよい。たとえば電灯の点灯や消灯、エアコンの温度調整など、一連の対話における対話回数が少ないことが予想される行動を誘発するケースでは、ユーザ本人のデータに限らず、他のユーザのデータやユーザ本人の過去のデータも使用してもよい。
また、ユーザと対話インタフェースの一対一の対話ではなく、複数のユーザと一つの対話インタフェースが対話し、複数のユーザの共感誘起と行動誘発を同時に両立するように対話インタフェースの発話を出力してもよい。この場合は、ユーザごとにユーザ相対度数および理想的なインタフェース相対度数を算出して、インタフェース発話内容とその発話特徴量を算出してもよい。または、複数のユーザのユーザ相対度数を足し合わせて、その足し合わせた分布を用いて理想的なインタフェース相対度数を算出して、インタフェース発話内容とその発話特徴量を算出してもよい。
本実施例の情報処理装置1は、1種類の発話特徴量を用いて、1種類の発話特徴量分布を算出し、対話インタフェースの理想的な発話特徴量分布を1種類算出するとともに、対話インタフェースの言語情報候補とその発話特徴量を3組算出する。さらに、対話インタフェースの理想的な発話特徴量分布と3組の言語情報候補とその発話特徴量に基づいて言語情報を選択し、選択した言語情報に基づいて対話インタフェースの発話を出力する。
他の例において、2種類以上の対話特徴量を用いる、2種類以上の対話特徴量分布を算出する、2組の言語情報候補とその発話特徴量を用いる、または4組以上の言語情報候補とその発話特徴量を用いてもよい。それらの発話特徴量分布や言語情報候補に基づいて対話インタフェースの発話が出力され得る。
複数種類の発話特徴量を使用することで、より効果的にユーザの共感誘起と行動誘発を両立する発話内容を決定できる。発話特徴量が2種類以上の場合であっても、発話特徴量を算出し、発話特徴量分布を算出する方法は同様である。同様に、言語情報候補が2または4以上の場合であっても、言語情報候補とその発話特徴量を算出する方法は同様である。2種類以上の理想的な対話特徴量分布を算出して、対話インタフェースの言語情報を選択する場合は、事前に理想的な対話特徴量分布の優先順位を設定したり、各対話特徴量分布を規格化した上で分布の誤差の総和が最小になるように言語情報を選択したりするなどにより、複数の対話特徴量分布から言語情報を選択する方法を設定した上で、言語情報を選択する。
加えて、本実施例では、1種類の発話信号から1種類の発話特徴量を算出し、1種類の発話特徴量分布を算出する場合の情報処理装置1について説明するが、1種類の発話信号から1種類の発話特徴量や発話特徴量分布を算出しなくともよい。たとえば1種類の発話信号から2種類の発話特徴量を算出してもよいし、2種類の発話信号から1種類の発話特徴量を算出してもよい。
1種類の発話信号から1種類の発話特徴量や発話特徴量分布を算出しない場合であっても、発話信号から発話特徴量を算出する方法は同様である。これは、発話信号から言語情報とその発話特徴量を算出する場合においても同様であり、発話特徴量分布を算出していれば、発話特徴量分布の種類数や発話特徴量分布を算出するための発話特徴量の種類数は問わない。
本実施例は、実施例1におけるシステム構成において、ユーザと対話インタフェースの対話に関する情報を設定する際に特定のGUI(Graphical User Interface)を用いる。以下、実施例1と同様の動作を除いた動作に限定して、説明する。
図16は、発話特徴量などの設定中の出力画面の例を示した図である。図16の上部左側部201は、算出する発話特徴量の数を表示している。その下部202は、算出する発話特徴量をそれぞれ選択するためのボタンと番号を表示している。その右部203は、それぞれ取得する発話信号名を表示している。その右部204は、それぞれ算出する発話特徴量名を表示している。
その右部205は、誘発する行動(誘発行動)の種類数を表示している。その下部206は、誘発する行動(行動の種類)をそれぞれ選択するためのボタンと番号を表示している。その右部207は、それぞれ誘発する行動名を表示している。その右部208は、行動誘発に用いる言語データベースの名称を表示している。その左下部209は、分布を設定する発話特徴量の番号を表示している。
その下部210は、それぞれユーザ度数の算出に用いる発話特徴量下限を表示している。その右部211は、それぞれユーザ度数の算出に用いる発話特徴量上限を表示している。その右部212は、それぞれユーザ度数からインタフェース理想相対度数を算出する際に用いる分布変換係数を表示している。その右部213は、インタフェース理想相対度数の設定方法を表示している。分布変換係数を用いずに、インタフェース理想相対度数に直接数値を入力してもよい。
その右部214は、分布変換係数やインタフェース理想相対度数を算出する方法を選択した結果を表示している。具体的には、学習データを用いるのか、学習データを用いずに算出するのか、また学習データを用いる場合は、新規に情報を取得するのか、過去データを用いるのか、他者データを用いるのか、を選択した結果を表示している。その下部215は、上部214を選択するためのボタンを表示している。
その左下部216は、相対度数距離の算出方法を設定するための見出しを表示している。その右部217は、相対度数距離の算出方法を表示している。その右部218は、インタフェース理想特徴量下限およびインタフェース理想特徴量上限の算出方法を設定するための見出しを表示している。その右部219は、インタフェース理想特徴量下限およびインタフェース理想特徴量上限の算出方法を表示している。
その右部220は、インタフェース言語情報候補の数を設定するための見出しを表示している。その右部221は、インタフェース言語情報候補の数の設定を表示している。その左下部222は、言語情報選択基準を設定するための見出しを表示している。その右部223は、言語情報選択基準の設定を表示している。その右部224は、図16の設定画面において設定した発話特徴量数などを保存するためのボタンを表示している。図16の下部左側225は、対話画面と設定画面のどちらを表示するのかを選択するボタンを表示している。
このように、GUIを用いることで、各発話特徴量とその分布の設定などのインタフェース発話内容の算出に用いる情報を容易に設定し、その設定を変更・追加・削除することができる。また、ユーザ設定に応じた対話が実現される。尚、これらの設定の一部または全部を発話設定情報35に保存するように発話設定算出部24が動作してもよいし、言語情報選択基準以外の情報を保存する機能部および情報を新たに設置してもよい。
尚、本実施例で説明した画面に掲載する情報は一例であり、必ずしも説明した全ての構成を備えるものに限定されるものではなく、他の構成の追加・削除・置換をしてもよい。たとえば、本実施例で説明しなかった構成についても、専門家が設定し得る情報を追加してもよい。
尚、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。たとえば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に別の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
また、上記の各構成、機能、処理部、処理手段等は、それらの一部または全部を、たとえば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリやハードディスク、SSD(Solid State Drive)等の記録装置、またはICカード、SDカード、DVD等の記録媒体に保存することができる。
1…情報処理装置、10…入力部、15…出力部、20…演算部、21…発話特徴算出部、22…発話分布算出部、23…言語情報算出部、24…発話設定算出部、25…発話情報算出部、26…発話情報出力部、30…記憶部

Claims (12)

  1. ユーザと対話を行う対話システムであって、
    ユーザの発話信号を受け付ける入力装置と、
    前記対話システムの発話履歴に基づく発話内容の発話特徴量の度数分布が理想度数分布に近づくように、前記ユーザの発話信号から取得した発話内容に対する前記対話システムの発話内容を決定する演算装置と、
    前記決定した前記対話システムの発話内容を出力する出力装置と、を含む対話システム
  2. 請求項1に記載の対話システムであって、
    前記演算装置は、前記ユーザの発話特徴量の度数分布に基づき、前記理想度数分布を決定する、対話システム。
  3. 請求項1記載の対話システムであって、
    前記発話特徴量の種類は、発話時間、発話のピッチ、発話のトーン、発話のエネルギ、および話者交代潜時のいずれかである、対話システム。
  4. 請求項2記載の対話システムであって、
    前記演算装置は、
    前記ユーザの発話時間の度数分布を算出し、
    前記ユーザの発話時間よりも短い発話時間の数が多くなるように、前記対話システムの発話内容を決定する、対話システム。
  5. 請求項1記載の対話システムであって、
    前記演算装置は、
    前記ユーザの発話特徴量の度数分布から分布変換係数により前記理想度数分布を算出し、
    前記対話システムの発話内容の発話特徴量の度数分布と前記理想度数分布との間の距離を算出し、
    前記距離に基づき、前記対話システムの発話内容の理想発話特徴量を算出する、対話システム。
  6. 請求項5記載の対話システムであって、
    前記演算装置は前記理想発話特徴量に基づき、複数の候補より前記対話システムの出力する発話内容を選択する、対話システム。
  7. 請求項5記載の対話システムであって、
    前記演算装置は、外部から受け付けた発話設定情報に基づき前記対話システムの発話内容を決定する、対話システム。
  8. 請求項7記載の対話システムであって、
    前記発話設定情報は、前記発話特徴量の種類と数、前記発話特徴量の下限と上限、前記分布変換係数、前記距離の算出方法、誘発行動の種類と数、および学習データの使用の有無のうち少なくともいずれかである、対話システム。
  9. 請求項6記載の対話システムであって、
    前記演算装置は、前記複数の候補の発話特徴量と前記理想発話特徴量との間の距離に基づき、前記複数の候補より発話内容を選択する、対話システム。
  10. 請求項1記載の対話システムであって、
    前記演算装置は、前記対話システムの発話内容の複数種類の発話特徴量の度数分布それぞれが対応する理想度数分布に近づくように、前記ユーザの発話信号から取得した発話内容に対する前記対話システムの発話内容を決定する、対話システム。
  11. ユーザと対話を行う計算機に実行される対話プログラムであって、
    計算機に、
    ユーザの発話信号を入力装置から取得する処理、
    前記計算機発話履歴に基づく発話内容の発話特徴量の度数分布が理想度数分布に近づくように、前記ユーザの発話信号から取得した発話内容に対する前記計算機の発話内容を決定する処理、
    前記決定した前記計算機の発話内容を出力装置に出力させる処理、を実行させる対話プログラム。
  12. 演算装置を含み、ユーザと対話を行う対話システムの制御方法であって、
    前記演算装置が、ユーザの発話信号を取得し、
    前記演算装置が、前記対話システムの発話履歴に基づく発話内容の発話特徴量の度数分布が理想度数分布に近づくように、前記ユーザの発話信号から取得した発話内容に対する前記対話システムの発話内容を決定する、ことを含む対話システムの制御方法。
JP2019195122A 2019-10-28 2019-10-28 対話システム、対話プログラムおよび対話システムの制御方法 Active JP7348027B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2019195122A JP7348027B2 (ja) 2019-10-28 2019-10-28 対話システム、対話プログラムおよび対話システムの制御方法
US17/030,515 US11538491B2 (en) 2019-10-28 2020-09-24 Interaction system, non-transitory computer readable storage medium, and method for controlling interaction system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019195122A JP7348027B2 (ja) 2019-10-28 2019-10-28 対話システム、対話プログラムおよび対話システムの制御方法

Publications (3)

Publication Number Publication Date
JP2021067907A JP2021067907A (ja) 2021-04-30
JP2021067907A5 JP2021067907A5 (ja) 2022-05-17
JP7348027B2 true JP7348027B2 (ja) 2023-09-20

Family

ID=75586890

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019195122A Active JP7348027B2 (ja) 2019-10-28 2019-10-28 対話システム、対話プログラムおよび対話システムの制御方法

Country Status (2)

Country Link
US (1) US11538491B2 (ja)
JP (1) JP7348027B2 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011242470A (ja) 2010-05-14 2011-12-01 Nippon Telegr & Teleph Corp <Ntt> 発声用テキストセット作成方法、発声用テキストセット作成装置及び発声用テキストセット作成プログラム
JP2014134675A (ja) 2013-01-10 2014-07-24 Ntt Docomo Inc 機能実行システム及び発話例出力方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4456537B2 (ja) 2004-09-14 2010-04-28 本田技研工業株式会社 情報伝達装置
WO2012063424A1 (ja) * 2010-11-08 2012-05-18 日本電気株式会社 特徴量系列生成装置、特徴量系列生成方法および特徴量系列生成プログラム
CN105247609B (zh) * 2013-05-31 2019-04-12 雅马哈株式会社 利用言语合成对话语进行响应的方法及装置
JP6375604B2 (ja) * 2013-09-25 2018-08-22 ヤマハ株式会社 音声制御装置、音声制御方法およびプログラム
KR20170034154A (ko) * 2015-09-18 2017-03-28 삼성전자주식회사 콘텐츠 제공 방법 및 이를 수행하는 전자 장치
JP6440660B2 (ja) * 2016-09-12 2018-12-19 ヤフー株式会社 情報処理装置、情報処理方法、およびプログラム
US11270684B2 (en) * 2019-09-11 2022-03-08 Artificial Intelligence Foundation, Inc. Generation of speech with a prosodic characteristic

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011242470A (ja) 2010-05-14 2011-12-01 Nippon Telegr & Teleph Corp <Ntt> 発声用テキストセット作成方法、発声用テキストセット作成装置及び発声用テキストセット作成プログラム
JP2014134675A (ja) 2013-01-10 2014-07-24 Ntt Docomo Inc 機能実行システム及び発話例出力方法

Also Published As

Publication number Publication date
US11538491B2 (en) 2022-12-27
US20210125630A1 (en) 2021-04-29
JP2021067907A (ja) 2021-04-30

Similar Documents

Publication Publication Date Title
Tahon et al. Towards a small set of robust acoustic features for emotion recognition: challenges
WO2020135194A1 (zh) 基于情绪引擎技术的语音交互方法、智能终端及存储介质
US9275637B1 (en) Wake word evaluation
EP3966809B1 (en) Wake word selection assistance architectures and methods
US10629192B1 (en) Intelligent personalized speech recognition
JP2021105736A (ja) 情報処理装置、方法及びプログラム
US11900959B2 (en) Speech emotion recognition method and apparatus
CN112309365A (zh) 语音合成模型的训练方法、装置、存储介质以及电子设备
JP7063937B2 (ja) 音声対話するための方法、装置、電子デバイス、コンピュータ読み取り可能な記憶媒体、及びコンピュータプログラム
JP6201212B2 (ja) キャラクタ生成装置およびプログラム
CN109658931A (zh) 语音交互方法、装置、计算机设备及存储介质
CN112562723A (zh) 发音准确度确定方法、装置、存储介质和电子设备
JP7063230B2 (ja) コミュニケーション装置およびコミュニケーション装置の制御プログラム
WO2021009962A1 (ja) 対話装置
JP7348027B2 (ja) 対話システム、対話プログラムおよび対話システムの制御方法
JP6993314B2 (ja) 対話システム、装置、及びプログラム
EP4123498A1 (en) Open input empathy interaction
CN112017668B (zh) 一种基于实时情感检测的智能语音对话方法、装置和系统
Zargham et al. " I Know What You Mean": Context-Aware Recognition to Enhance Speech-Based Games
JPH06315572A (ja) 音声ゲーム機
Kaur Mouse movement using speech and non-speech characteristics of human voice
JP2022081279A (ja) ゲームプログラム、記録媒体、ゲーム処理方法、情報処理装置
JP6993034B1 (ja) コンテンツ再生方法、及びコンテンツ再生システム
WO2024024065A1 (ja) 感性変換方法、感性変換装置および感性変換プログラム
US20240194197A1 (en) Systems, devices and methods for affective computing

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220506

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220506

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230316

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230404

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230525

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230905

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230907

R150 Certificate of patent or registration of utility model

Ref document number: 7348027

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150