JP2021135960A - 情報処理装置、情報処理方法、及びプログラム - Google Patents

情報処理装置、情報処理方法、及びプログラム Download PDF

Info

Publication number
JP2021135960A
JP2021135960A JP2020034198A JP2020034198A JP2021135960A JP 2021135960 A JP2021135960 A JP 2021135960A JP 2020034198 A JP2020034198 A JP 2020034198A JP 2020034198 A JP2020034198 A JP 2020034198A JP 2021135960 A JP2021135960 A JP 2021135960A
Authority
JP
Japan
Prior art keywords
unit
information
information processing
dialogue
processing unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020034198A
Other languages
English (en)
Inventor
裕美 倉沢
Hiromi Kurasawa
裕美 倉沢
侑理 網本
Yuri Amimoto
侑理 網本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Group Corp
Original Assignee
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Group Corp filed Critical Sony Group Corp
Priority to JP2020034198A priority Critical patent/JP2021135960A/ja
Priority to PCT/JP2021/005167 priority patent/WO2021172039A1/ja
Publication of JP2021135960A publication Critical patent/JP2021135960A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】対人コミュニケーションに関する情報として、より有用な情報を提供することができる情報処理装置、情報処理方法及びプログラムを提供する。【解決手段】対話を採点する対話採点装置、又は対話に応じた応答を生成する応答生成装置に適用することができる情報処理装置は、複数の話者の発話に応じたテキストデータを入力する入力部101と、テキストデータに対する解析処理を施す特徴情報群処理部102と、解析処理の結果に基づいて、スコアを計算するスコア計算部103と、計算結果に基づいて出力情報を生成する出力部104と、を備える。【選択図】図1

Description

本技術は、情報処理装置、情報処理方法、及びプログラムに関し、特に、対人コミュニケーションに関する情報として、より有用な情報を提供することができるようにした情報処理装置、情報処理方法、及びプログラムに関する。
医療現場の専門職では、対人コミュニケーションに関する試験がある。また、営業職や、介護、保育、医療従事者など、その職種によっても、好ましい表現方法や話し方がある。
このように、様々な職種ごとに、様々な対人スキルをトレーニングする必要があり、対人トレーニングはコストが高く、また、何を直すべきかを客観的に評価することが一人では難しい。
特許文献1には、コールセンタのオペレータと顧客の会話をコールセンタの特徴に合わせて評価できる方法として、評価パラメータの入力を元に採点を行うオペレータ対顧客会話自動採点装置が開示されている。
この装置では、採点時には、言語分析、対話分析、及び感情分析が行われるが、言語分析では、あらかじめ定められたキーワードを検出し、対話分析では、対話の重複や発話割合、沈黙、話速を検出し、感情分析では、声の高さや音量から感情レベルを検出している。
特開2014-123813号公報
特許文献1に開示されている技術では、採点時に、言語分析、対話分析、及び感情分析を行っているが、これらの分析からは会話の表面的な様子はうかがい知ることができるものの発話内容や発話の表現スタイルなどは考慮されておらず、対人コミュニケーションの評価に際して必要とされる情報として十分あるとは言い難い。そのため、対人コミュニケーションに関する情報として、有用な情報を提供することが求められていた。
本技術はこのような状況に鑑みてなされたものであり、対人コミュニケーションに関する情報として、より有用な情報を提供することができるようにするものである。
本技術の一側面の情報処理装置は、複数の話者の発話に関する入力データに基づいて、対話行為とその対話行為ごとの分類を解析し、対象の話者の解析結果に応じた出力情報を生成する処理部を備える情報処理装置である。
本技術の一側面の情報処理方法は、情報処理装置が、複数の話者の発話に関する入力データに基づいて、対話行為とその対話行為ごとの分類を解析し、対象の話者の解析結果に応じた出力情報を生成する情報処理方法である。
本技術の一側面のプログラムは、コンピュータを、複数の話者の発話に関する入力データに基づいて、対話行為とその対話行為ごとの分類を解析し、対象の話者の解析結果に応じた出力情報を生成する処理部を備える情報処理装置として機能させるプログラムである。
本技術の一側面の情報処理装置、情報処理方法、及びプログラムにおいては、複数の話者の発話に関する入力データに基づいて、対話行為とその対話行為ごとの分類が解析され、対象の話者の解析結果に応じた出力情報が生成される。
なお、本技術の一側面の情報処理装置は、独立した装置であってもよいし、1つの装置を構成している内部ブロックであってもよい。
本技術を適用した情報処理装置の一実施の形態の構成例を示すブロック図である。 図1の特徴情報群処理部の詳細な構成例を示すブロック図である。 図1の情報処理装置の他の構成例を示すブロック図である。 図1の情報処理装置のさらに他の構成例を示すブロック図である。 図4の音声特徴情報群処理部の詳細な構成例を示すブロック図である。 図4の画像特徴情報群処理部の詳細な構成例を示すブロック図である。 第1の処理の流れを説明するフローチャートである。 第2の処理の流れを説明するフローチャートである。 出力情報の第1の例を示す図である。 出力情報の第2の例を示す図である。 出力情報の第3の例を示す図である。 出力情報の第4の例を示す図である。 出力情報の第5の例を示す図である。 出力情報の第6の例を示す図である。 出力情報の第7の例を示す図である。 知識情報の第1の例を示す図である。 知識情報の第2の例を示す図である。 知識情報の第3の例を示す図である。 知識情報の第4の例を示す図である。 知識情報の第5の例を示す図である。 話者と患者による対話とその解析の例を示す図である。 設定情報の第1の例を示す図である。 設定情報の第1の例を示す図である。 設定情報の第1の例を示す図である。 設定情報の第2の例を示す図である。 設定情報の第3の例を示す図である。 設定情報の第4の例を示す図である。 設定情報の第4の例を示す図である。 設定情報の第5の例を示す図である。 本技術を適用した情報処理装置の一実施の形態の他の構成例を示すブロック図である。 第3の処理の流れを説明するフローチャートである。 本技術を適用した情報処理システムの一実施の形態の構成例を示すブロック図である。 コンピュータの構成例を示すブロック図である。
<1.第1の実施の形態>
(装置の構成)
図1は、本技術を適用した情報処理装置の一実施の形態の構成例を示している。
図1において、情報処理装置は、対話を採点する対話採点装置などとして構成される。この情報処理装置は、入力部101、特徴情報群処理部102、スコア計算部103、出力部104、及び第1知識データベース117を有する。
入力部101は、ユーザ(話者)の発話に応じたテキストデータを、特徴情報群処理部102に入力する。このテキストデータは、マイクロフォンにより集音された発話の音声を解析することで得られるものである。入力部101では、入力されるテキストデータに対し、話者情報を付加したり、あるいは、話者判定部により話者判定を行ったりしてもよい。
特徴情報群処理部102は、入力部101から入力されたテキストデータに対し、様々な特徴を解析する構成要素を1つ以上含んでいる。特徴情報群処理部102では、1以上の構成要素により、テキストデータに対する解析処理が施され、その処理結果が、スコア計算部103に供給される。また、特徴情報群処理部102は、第1知識データベース117に格納された情報を取得して利用することができる。
スコア計算部103は、特徴情報群処理部102から供給される処理結果に基づいて、スコアを計算し、そのスコアの計算結果を出力部104に供給する。また、スコア計算部103では、スコアの計算結果を直ぐには出力せず、次の発話に応じたテキストデータの入力を受けて、様々な特徴の解析結果に基づき、繰り返しスコアを計算して、その計算結果を最後に出力してもよい。
出力部104は、スコア計算部103から供給される計算結果に基づいて、出力情報を生成する。出力部104は、生成した出力情報を、ディスプレイに表示するなどして出力する。
なお、図1においては、入力部101からのテキストデータが、出力部104に供給され、テキストが出力されるようにしてもよい。また、出力部104は、出力情報を生成するに際して、スコアの計算結果以外の情報を用いてもよい。
図2は、図1の特徴情報群処理部102の詳細な構成例を示している。
特徴情報群処理部102は、対話行為推定部105、シーン判定部106、難易度測定部107、共感度測定部108、丁寧度測定部109、理解度確認状況判定部110、シーン切替適切度判定部111、大人度測定部112、性別指向性判定部113、性格指向性判定部114、及び確認事項判定部115を有する。
対話行為推定部105は、挨拶(GRT:Greeting)、情報開示(DEC:Description)、質問(QUE:Question)、応答(RES:Response)、願望(DSR:Desire)、依頼(REQ:Request)、などの対話行為を推定する。この対話行為の推定に際しては、判定対象の発話文やその前の発話文を条件として、"GRT"、"DEC"、"QUE"、"RES"、"DSR"、"REQ"といった分類ラベルを機械学習して推定するなどの方法を用いることができる。
シーン判定部106は、対話全体で想定されるシーンのいずれに属するかを判定する。このシーン判定に際しては、シーンの切り替え文となる特徴的な文の存在の有無により切り替わりを判定し、その前後を特定のシーンとしてもよいし、あるいは、特定のシーンのための切り替わり文を判定する方法を用いることができる。この判定では、特徴語を用いてもよいし、切り替わりを判断するための機械学習を行ってもよい。あるいは、各文に対しシーン分類を機械学習し、各文のシーン分類推定結果を元に、全体のシーンの推定結果を元に複数の文の塊に対しシーンを判定する方法でもよい。あるいは、複数の文を入力として与え、その部分となる複数の文に対しシーンを判定する方法でもよい。
難易度測定部107は、専門用語や熟語等の多さ、日常語彙で使わない語を多く含む、説明表現の特徴などから難易度の高さを測定する。この難易度の測定に際しては、例えば、専門用語を使わずとも済むような表現として、「治る」、「改善する」といった意味合いで、「寛解する」を使うことを避けて説明することを期待する場合に、このような専門用語を辞書にあらかじめ登録しておき、専門用語を使った場合に減点していくといった方法を用いることができる。
共感度測定部108は、「おつらいですね」などの特徴的な共感語彙や、相手の行動を褒めるような語彙、相手の言葉を繰り返す行為などの特徴から、共感性の高さを測定する。この共感度の測定に際しては、共感的な定型表現リストを辞書に保持しておき、その定型表現の出現により加点する方法や、直前の別の話者の内容と高類似の内容を話したかの類似度判定により加点する方法などを用いることができる。あるいは、回復や別の話者を望む状態を自己の願望として伝える共感方法をとったかという話者行為推定による条件として、「願望(DSR)」と「回復」を意図する表現を言ったかを機械学習等により判定して加点する方法などを用いても構わない。
丁寧度測定部109は、敬語や丁寧語の特徴から、どの程度の丁寧な表現を使ったかを測定する。この丁寧度の測定に際しては、機械学習により丁寧度合いを学習してもよい。
理解度確認状況判定部110は、一方的に説明をし続けるのではなく間を取りながら話をする(相手の応答を待つなど)、又は相手の説明を聞く際に相槌を打つなどの確認を示すといった、相手の理解の確認や自分の理解を示すことにより、コミュニケーションのやり取りが上手くいっているかを確認する。理解度の確認に際しては、対話行為推定部105での"RES"の入るタイミングや、"DEC"の連続性などの割合を測定して判定することができる。具体的には、"RES"の入るタイミングの測定では、相手が"DEC"を連続している間に適宜"RES"を挟んでいるかを判定したり、"DEC"の連続性の測定では、自分が"DEC"/"REQ"を連続している間に、"QUE"をして相手の発話を促したり、自然と相手が"RES"を挟んだりしたかを判定したりすることができる。
シーン切替適切度判定部111は、異なるシーンに進む場合に、唐突ではなく移り変わっているかを確認する。シーン切替の適切度の確認に際しては、例えば、シーン判定部106と確認事項判定部115と連携して、挨拶のシーンから本題に入るなどの場合には適切なシーンの切り替えがされていると判定する一方で、通常起こりうる組み合わせと異なるシーンで確認事項が発言された場合には、適切なシーンの切り替えがされていないと判定する。
大人度測定部112は、ビジネスシーンなどの大人っぽさを必要とする場合から、幼児などを相手にするような親近感を抱かせた方が良い場合もあり、発言の表現から大人らしさを測定する。大人度の測定に際しては、例えば、大人らしさ、幼児性などが表れている発話にそれらのラベルを付与して機械学習を行い、どのような発話傾向が比較的に高いかにより、全体的な大人度を判定することができる。
性別指向性判定部113は、男性らしさ、女性らしさといった性別的特徴を意識した話し方をしているかを判定し、それぞれの性別に対する偏りを推定する。この性別の指向性の判定に際しては、性別傾向が表れている発話にそれらのラベルを付与して機械学習を行い、どのような発話傾向が比率的に高いかによって、全体的な性別の傾向を判定するなどの方法を用いることができる。
性格指向性判定部114は、例えば分析的、共感的、主観的などの性格的な傾向を推定する。この性格の指向性の判定に際しては、性格傾向が表れている発話にそれらのラベルを付与して機械学習を行い、どのような発話傾向が比率的に高いかによって、全体的な性格の傾向を判定するなどの方法を用いることができる。
確認事項判定部115は、相手から特定の情報を聞き出し、関連する確認すべき事項を確認したかを判定する。確認事項判定部115は、確認事項の判定に際して、適宜、第1知識データベース117に格納された情報を参照することができる。第1知識データベース117は、確認事項判定部115に付属する知識として機能する。この確認事項の判定に際しては、特徴的なキーワードやフレーズの出現による判定を行ったり、あるいは、機械学習により推定したりしてもよい。
以上のように構成される特徴情報群処理部102では、対話行為推定部105乃至確認事項判定部115のうち、いずれか1以上を有し、入力されるテキストデータに基づき、様々な特徴が解析される。なお、対話行為推定部105乃至確認事項判定部115は、特徴を解析する構成要素の一例であり、他の構成要素が含まれても構わない。
なお、特徴情報群処理部102において、対話行為推定部105、シーン判定部106、及び確認事項判定部115による解析の詳細な例は、後述する図21の対話例を参照しながら説明する。
(装置の他の構成)
図3は、図1の情報処理装置の他の構成例を示している。
なお、以下の説明において、同一の符号を付した部分については同様の動作を行うものとして、重ねての説明を省略する。
図3において、情報処理装置は、図1の構成と比べて、入力部101、特徴情報群処理部102、スコア計算部103、出力部104、及び第1知識データベース117のほかに、文分割部116及びスコア記憶部118をさらに有している。
文分割部116は、入力部101から入力されたテキストデータに基づき、入力テキストを文単位等の所定の単位で分割し、分割したテキストデータを、特徴情報群処理部102に供給する。以下、分割したテキストを分割テキストとも称し、入力テキストと区別する。
特徴情報群処理部102では、文分割部116から供給される分割テキストデータに基づき、様々な特徴が解析され、その処理結果が、スコア計算部103に供給される。
スコア計算部103は、特徴情報群処理部102から供給される処理結果に基づいて、スコアを計算する際に、計算したスコア等の情報を、スコア記憶部118に記録することができる。
なお、図3においては、入力部101からのテキストデータのほかに、文分割部116からの分割テキストデータが、出力部104に供給され、分割テキストが出力されるようにしてもよい。
図4は、図1の情報処理装置のさらに他の構成例を示している。
図4において、情報処理装置は、音声や画像を入力に用いた対話採点装置などとして構成される。この情報処理装置は、図1の構成と比べて、入力部101、特徴情報群処理部102、スコア計算部103、出力部104、及び第1知識データベース117のほかに、音声認識部201、音声特徴情報群処理部202、及び画像特徴情報群処理部203をさらに有している。
入力部101は、話者の発話に応じた音声データを、音声認識部201、及び音声特徴情報群処理部202に入力する。また、入力部101は、話者やその周辺を撮影した画像データを、画像特徴情報群処理部203に入力する。
音声認識部201は、入力部101から入力される音声データに対し、音声認識処理を行い、その認識結果のテキストデータを、特徴情報群処理部102に供給する。
特徴情報群処理部102は、音声認識部201から供給されるテキストデータに基づき、様々な特徴が解析され、その処理結果が、スコア計算部103に供給される。
音声特徴情報群処理部202は、入力部101から入力される音声データに対し、様々な音声の特徴を解析する構成要素を1つ以上含んでいる。音声特徴情報群処理部202では、1つ以上の構成要素により、音声データに対する解析処理が施され、その処理結果がスコア計算部103に供給される。
例えば、音声特徴情報群処理部202は、図5に示すように、音量判定部204、第1感情判定部205、及び話速測定部206を有する。
音量判定部204は、音声データを解析して話者の発話の音量を測定する。第1感情判定部205は、音声データを解析して話者の声から認識可能な感情情報を推定し、感情ごとのスコアを出力する。話速測定部206は、音声データを解析して話者の話す速度を測定する。
以上のように、音声特徴情報群処理部202では、音量判定部204乃至話速測定部206のうち、いずれか1以上を有し、入力される音声データに基づき、様々な音声の特徴が解析される。なお、音量判定部204乃至話速測定部206は、音声の特徴を解析する構成要素の一例であり、他の構成要素が含まれても構わない。
図4に戻り、画像特徴情報群処理部203は、入力部101から入力される画像データに対し、様々な画像の特徴を解析する構成要素を1つ以上含んでいる。画像特徴情報群処理部203では、1つ以上の構成要素により、画像データに対する解析処理が施され、その処理結果がスコア計算部103に供給される。
例えば、画像特徴情報群処理部203は、図6に示すように、笑顔判定部207、目線判定部208、及び第2感情判定部209を有する。
笑顔判定部207は、画像データを解析しての解析結果を用いて笑顔認識により話者の笑顔らしさを測定する。目線判定部208は、画像データを解析して、話者の目線を測定し、採点対象の話者がどこを見ているかを判定する。第2感情判定部209は、画像データを解析して、話者の顔の表情から分かる感情情報を推定し、感情ごとのスコアを出力する。
以上のように、画像特徴情報群処理部203では、笑顔判定部207乃至第2感情判定部209のうち、いずれか1以上を有し、入力される画像データに基づき、様々な画像の特徴が解析される。なお、笑顔判定部207乃至第2感情判定部209は、画像の特徴を解析する構成要素の一例であり、他の構成要素が含まれても構わない。
図4に戻り、スコア計算部103は、特徴情報群処理部102、音声特徴情報群処理部202、及び画像特徴情報群処理部203から供給される処理結果に基づいて、スコアを計算し、そのスコアの計算結果を出力部104に供給する。
なお、図4においては、図3の構成に含まれる文分割部116と、スコア記憶部118をさらに設けても構わない。その場合、文分割部116は、音声認識部201の後段に設けられる。
(処理の流れ)
次に、図7のフローチャートを参照して、情報処理装置により実行される第1の処理の流れを説明する。
情報処理装置では、入力部101に入力されたテキストTi(0 < i <= N)を、入力として受け付ける(S101)。また、文分割部116が、テキストTiを、tj(0 < j <= n)に分割する(S102)。ここでは、まず、先頭の分割テキストtjが処理対象とされる。
ステップS103では、特徴情報群処理部102に1つ以上含まれる構成要素を用い、処理対象の分割テキストtjに対し、当該構成要素それぞれから1つ以上の分類名とそのスコアが、出力結果として得られる。
ステップS104では、特徴情報群処理部102が、ステップS103の処理で得られた複数の構成要素の出力結果の組み合わせに該当する、第1知識データベース117の項目を検索し、そこから得られる値を取得する。
ステップS105の判定処理で、j < n であると判定された場合、処理は、ステップS103に戻り、jの値をインクリメント(j = j + 1)して、次の分割テキストtjを処理対象として、上述したステップS103,S104の処理が繰り返される。そして、j = n であると判定された場合、すなわち、最後の分割テキストまで処理対象となった場合、ステップS103乃至S105の繰り返しを終了して、処理は、ステップS106に進められる。
ステップS106の判定処理で、i < N であると判定された場合、処理は、ステップS101に戻り、iの値をインクリメント(i = i + 1)して、次の入力テキストTiを処理対象として、上述したステップS101乃至S105の処理が実行される。そして、i = N であると判定された場合、ステップS101乃至S106の繰り返しを終了して、処理は、ステップS107に進められる。
ステップS107では、出力部104が、ステップS104の処理で得られた値に基づき、出力情報を生成して出力する。ステップS104の処理の具体的な例は、図8又は図31のフローチャートを参照して後述する。ステップS107の処理で、出力情報が出力されると、第1の処理は終了する。
なお、図7では、文分割部116を設けた図3の構成に対応した処理の流れを説明したが、図1の構成に対応する場合には、ステップS102の処理をスキップして、n=1と読み替えればよい。
以上、第1の処理の流れを説明した。この第1の処理では、入力されたテキストに対し、特徴情報群処理部102に1つ以上含まれる構成要素のそれぞれから得られる1つ以上の分類名とそのスコアが得られ、当該分類名とそのスコアの複数の構成要素の出力結果の組み合わせに該当する第1知識データベース117の項目が検索され、そこから得られる値が取得され、取得された値に基づき出力情報が生成される。
次に、図8のフローチャートを参照して、図1の情報処理装置により実行される第2の処理の流れを説明する。
ステップS201乃至S203においては、図7のステップS101乃至S103と同様に、入力されたテキストTiが分割され、処理対象の分割テキストtjに対し、当該構成要素それぞれから1つ以上の分類名とそのスコアが出力結果として得られる。ステップS203が終了すると、処理は、ステップS204に進められる。
ステップS204では、スコア計算部103が、複数の構成要素の出力結果の組み合わせに該当する、第1知識データベース117の項目を検索し、そこから得られる採点スコアを取得する。続いて、ステップS205では、スコア計算部103が、取得した採点スコアを、スコア記憶部118に記録する。
すなわち、ステップS204の処理は、図7のステップS104の処理を具体化したもので、得られる値として、採点スコアが取得される例である。ステップS205で、採点スコアが記録されると、処理は、ステップS206に進められる。なお、ステップS206乃至S208の処理は、必須の処理ではなく、ステップS206からステップS209に、直接進んでも構わない。
ステップS206では、対話行為が、質問(QUE)、応答(RES)、又はその他(Other)のいずれであるかが判定される。
すなわち、ステップS206の判定処理は、対話行為が質問(QUE)である場合の分岐の例となる。これ以外の何らかの条件に基づき、フラグ処理等を行いながら、連続する系列の条件により、さらにスコア記憶部118に記録してもよい。
例えば、対話行為が、第1話者の質問(QUE)、第2話者の情報開示(DEC)、第1話者の応答(RES)という連続した流れを検出した場合、自己が質問した場合に相手が回答内容を答え、それを受けて応答することは丁寧な対話姿勢であるとして、採点スコアを計算するものとする。
ステップS206の判定処理で、対話行為が質問(QUE)であると判定された場合、処理は、ステップS207に進められる。ステップS207では、スコア計算部103が、話者交代の後に、採点対象者が再度話者になり、さらに話者交代が起こるまでのフラグ(期間フラグ)を上げるとともに、スコア記憶部118に保持されるQUEカウンタを1つ増やす。
一方で、ステップS206の判定処理で、対話行為が応答(RES)であると判定された場合、処理は、ステップS208に進められる。ステップS208では、スコア計算部103が、ステップS207の処理で上げられる可能性があるフラグ(期間フラグ)が上がっている場合、質問(QUE)、情報開示(DEC)、応答(RES)の流れに該当するとして、スコア記憶部118に保持されるRESカウンタを1つ増やす。
なお、ステップS206の判定処理で、対話行為が質問(QUE)と応答(RES)のいずれにも該当しないと判定された場合、処理は、ステップS209に進められる。
ステップS209,S210においては、図7のステップS105,S106と同様に、処理対象の入力テキストTiに対し、ステップS201乃至S210の処理が繰り返され、さらに、処理対象の分割テキストtjに対し、ステップS203乃至S209の処理が繰り返される。
ステップS201で受け付けた入力テキストTiに対する処理が終了して、ステップS210の判定処理で、i = N であると判定された場合、処理は、ステップS211に進められる。
ステップS211においては、出力情報が生成されるが、ここでは、スコア記憶部118に保持されるRESカウンタとQUEカウンタの割合によって、適切な丁寧度であるかを判定してその判定結果が利用される。なお、第2話者は、情報開示(DEC)を1回だけでなく、情報開示(DEC)に加えて、応答(RES)や願望(DSR)などを含めても構わない。
なお、図8においても、文分割部116を設けた図3の構成に対応した処理の流れを説明したが、図1の構成に対応する場合には、ステップS202の処理をスキップして、n=1と読み替えればよい。
以上、第2の処理の流れを説明した。この第2の処理は、上述した図7の第1の処理を具体化した処理であり、図7のステップS104の処理で得られる値として、採点スコアを取得するものである。
(出力情報の例)
図1等の情報処理装置において、出力部104では、スコアの計算結果等に基づき、数値、文章、表、グラフ、及び図形のうち、少なくとも1つを含む表示形式で表現された出力情報が生成される。次に、図9乃至図15を参照して、出力情報の例を説明する。
(a)第1の例
図9は、出力情報の第1の例を示している。
図9において、出力情報401は、出力部104によって、ディスプレイの画面に表示される。出力情報401では、「87点」、「判定A」などの総合的な得点や判定結果を示している。
なお、図9に示した表示形式は一例であり、評価対象の全項目数分の上手くできた項目数などのような形式で得点を表現しても構わない。
(b)第2の例
図10は、出力情報の第2の例を示している。
図10において、出力情報402は、ディスプレイの画面に表示されるレーダチャートにより、採点対象の話者のスキルを幾つかの観点で示している。
出力情報402では、スキルA乃至Eの5つのスキルのそれぞれについて、5段階の評価で示している。出力情報402では、図中の一点鎖線で示した自己のスキルのほかに、図中の破線で示した平均のスキルが合わせて示される。なお、自己のスキルとの比較のために示されるスキルとしては、平均のスキルのほかにも、例えば、理想的なスコア分布などを示してもよい。
スキルA乃至Eの各スキルは、例えば、対話構成要素によるバランス、概略評価による一般的な対話スキル、個別内容に基づく知識のスキル、といった観点ごとに1つのスキルとして総和をとって、表示しても構わない。このように、現時点で得られた自己の解析結果に応じた出力情報とともに、他人の解析結果に応じた出力情報を表示することができる。
(c)第3の例
図11は、出力情報の第3の例を示している。
図11において、出力情報403は、ディスプレイの画面に表示される棒グラフにより、採点対象の話者の発話特徴を表す要素の割合を示している。
出力情報403では、採点対象の話者の発話特徴を表す要素として、挨拶(GRT)、依頼(REQ)、質問(QUE)、情報開示(DEC)としての説明、及び応答(RES)としての相槌の割合が、棒グラフにより示されている。出力情報403では、自己の発話特徴を表す要素の割合を示した棒グラフのほかに、平均的な要素の割合を示した棒グラフが合わせて示される。
なお、自己の発話特徴を表す要素の割合との比較のために示される要素の割合としては、平均的な分布のほかにも、例えば、理想的な分布などを示してもよいし、あるいは、シーンごとなどの複数の条件項目ごとに算出された分布を複数表示しても構わない。このように、現時点で得られた自己の解析結果に応じた出力情報とともに、他人の解析結果に応じた出力情報を表示することができる。
(d)第4の例
図12は、出力情報の第4の例を示している。
図12において、出力情報404は、ディスプレイの画面に表示されるリストにより、対話全体での概略評価を示している。
出力情報404では、対話全体での概略評価として、「挨拶をした」、「自己紹介をした」、「共感を示した」、「丁寧に接した」、及び「分かりやすく説明した」のように、評価対象とする特徴について文章で説明し、それに対して出来ていた、又は出来ていなかったという2値で表現している。
なお、対話全体での概略評価は、2値で表現する場合に限らず、例えば、それぞれに対して数値で採点結果を示しても構わない。
(e)第5の例
図13は、出力情報の第5の例を示している。
図13において、出力情報405は、ディスプレイの画面に表示されるリストにより、対話内容の評価を示している。
出力情報405では、対話内容の評価として、「既往歴を確認した」、「痛みの開始時期を確認した」、「痛みの程度を確認した」、及び「家族の病歴を確認した」のように、評価対象とする内容について、言及すべき項目がある場合に、それらの項目について文章で説明し、それに対して出来ていた、又は出来ていなかったという2値で表現している。
なお、対話内容の評価は、2値で表現する場合に限らず、例えば、それぞれに対して数値で採点結果を示しても構わない。また、出力情報405では、「痛み」についての質問事項に対する採点状態を細かく表示してもよいし、あるいは、内部的に細かく採点しているいくつかの項目をまとめて「痛みについて確認できていた」などのように総括して表示してもよい。
(f)第6の例
図14は、出力情報の第6の例を示している。
図14において、出力情報406は、ディスプレイの画面に表示される折れ線グラフにより、採点計測時期と採点結果の時系列の変化を示している。
出力情報406では、スキルA乃至Cの3つのスキルのそれぞれについて、例えば1年間などの所定の期間内での月単位での採点結果の変化が、折れ線グラフにより示されている。なお、採点結果の時系列の変化を示す際には、総合得点について示してもよいし、あるいは、個別のスキル項目や概略評価、内容評価について個別に表しても構わない。このように、現時点で得られた自己の解析結果に応じた出力情報とともに、過去に得られた自己の解析結果に応じた出力情報を表示することができる。
(g)第7の例
図15は、出力情報の第7の例を示している。
図15において、出力情報407は、ディスプレイの画面に表示される文章により、総括コメントを示している。
出力情報407では、総括コメントとして、「全体的に傾聴姿勢をもって取り組めていますが、服薬指導など専門知識が十分に発揮できていません。患者さんに対して十分な情報を提供できるように心がけましょう。」のように、2文構成で出力されている。
すなわち、この2文構成の出力では、前段の1文目で、1要素目として出来ていることを、2要素目として出来ていないことを出力する。また、その後段の2文目で、出来ていないことを改善するアドバイスを表示する。
ここでは、文テンプレートとして、「全体的に、<要素1>取り組めていますが、<要素2>が十分に発揮できていません。<要素3>」といったものをあらかじめ用意しておくようにする。次に、1文目の1要素目は、図10の出力情報402で自己のスキル(スキルA乃至E)の中で最も高い評価になる、あるいは、平均に比べて乖離して強いと言えるスキル(例えばスキルD)を選択する。また、1文目の2要素目は、図10の出力情報402で自己のスキル(スキルA乃至E)の中で最も低い評価になる、あるいは、平均に比べて乖離して低いと言えるスキル(例えばスキルE)を選択する。
また、具体的な事例として、それぞれのスキルに該当する個別項目で、特に評価の高いものを選択し、<要素1>に「傾聴姿勢をもって」、<要素2>に「服薬指導など専門知識」といったあらかじめ用意されたワードで、文テンプレートの文中に埋め込む。<要素3>は、<要素2>で選ばれたものに対してのアドバイスをあらかじめ用意しておき、その前段の文と当てはめる。
(知識の例)
次に、図16乃至図20を参照して、特徴情報群処理部102の確認事項判定部115により用いられる第1知識データベース117に格納される知識情報の例を説明する。
(a)第1の例
図16は、知識情報の第1の例を示している。
図16において、知識情報501は、挨拶の採点に関する知識の例を示している。
知識情報501では、シーンと対話行為と対話行為ごとの分類の3条件で、挨拶の採点を行う例を示している。この例では、知識情報501を用い、挨拶(GRT)である対話行為として、最初の導入部(Intro)のシーンで、「こんにちは(Hello)」に相当する挨拶をしたか、最後の終結(Closing)のシーンで、「さようなら(Goodbye)」に相当する挨拶をしたかを判定する。
「こんにちは」と「さようなら」である挨拶をしたと判定された場合の配点は、それぞれ1点とされる。なお、シーンはシーン判定部106で、対話行為は対話行為推定部105で、対話行為ごとの分類は確認事項判定部115でそれぞれ判定される。
(b)第2の例
図17は、知識情報の第2の例を示している。
図17において、知識情報502は、自己紹介の採点に関する知識の例を示している。
知識情報502では、シーンと対話行為と対話行為ごとの分類の3条件で、自己紹介の採点を行う例を示している。この例では、知識情報502を用い、最初の導入部(Intro)のシーンでの情報開示(DEC)である対話行為として、自己紹介の内容で、名前を言ったか、肩書を言ったか、名前と肩書きの両方を言ったかを判定する。
自己紹介で名前を言ったと判定された場合の配点は2点、自己紹介で肩書を言ったと判定された場合の配点は1点、自己紹介で名前と肩書きの両方を言ったと判定された場合の配点は3点とされる。なお、シーンはシーン判定部106で、対話行為は対話行為推定部105で、対話行為ごとの分類は確認事項判定部115でそれぞれ判定される。
(c)第3の例
図18は、知識情報の第3の例を示している。
図18において、知識情報503は、アレルギーについて確認できたかの採点に関する知識の例を示している。
知識情報503では、シーンと対話行為と対話行為ごとの分類の3条件で、アレルギーについて確認できたかの採点を行う例を示している。この例では、知識情報503を用い、問診(History Taking)のシーンでの質問(QUE)である対話行為として、質問タイプとして"YN"や"WHAT"を判定するとともに、アレルギーについての質問であることを判定する。ここで、"YN"は、Yes/No形式の質問を意味し、"WHAT"は、WHAT形式の質問を意味する。
問診でYes/No形式とWHAT形式のアレルギーに関する質問をしたと判定された場合の配点は、それぞれ1点とされる。なお、シーンはシーン判定部106で、対話行為は対話行為推定部105で、対話行為ごとの分類は確認事項判定部115でそれぞれ判定される。
(d)第4の例
図19は、知識情報の第4の例を示している。
図19において、知識情報504は、症状について確認できたかの採点に関する知識の例を示している。
知識情報504では、シーンと対話行為と対話行為ごとの分類の3条件で、症状について確認できたかの採点を行う例を示している。この例では、知識情報504を用い、問診(History Taking)のシーンでの質問(QUE)である対話行為として、質問タイプとして"WHEN"や"YN"を判定するとともに、湿疹の開始や湿疹の罹患についての質問であることを判定する。ここで、"WHEN"はWHEN形式の質問を意味し、"YN"は、Yes/No形式の質問を意味する。
問診でWHEN形式とYes/No形式の湿疹の症状に関する質問をしたと判定された場合の配点は、それぞれ1点とされる。なお、シーンはシーン判定部106で、対話行為は対話行為推定部105で、対話行為ごとの分類は確認事項判定部115でそれぞれ判定される。
(e)第5の例
図20は、知識情報の第5の例を示している。
図20において、知識情報505は、共感の採点に関する知識の例を示している。
知識情報505では、シーンと対話行為と対話行為ごとの分類の3条件で、共感の採点を行う例を示している。この例では、知識情報505を用い、任意のシーンでの願望(DSR)や挨拶(GRT)等の対話行為として回復や病人向けの共感をしたか、最後の終結(Closing)のシーンで「病人向けのさようなら(Goodbye)」に相当する挨拶をしたかを判定する。なお、図20の表において、シーンで「-」が記述されているレコードは、どのシーンでも構わないことを表している。
回復や病人向けの共感をしたと判定された場合、及び「病人向けのさようなら」である挨拶をしたと判定された場合の配点は、それぞれ1点とされる。なお、シーンはシーン判定部106で、対話行為は対話行為推定部105で、対話行為ごとの分類は確認事項判定部115でそれぞれ判定される。
なお、上述した知識情報のうち、知識情報501,502のようにどのような対話内容であっても、常に利用するような知識もあれば、知識情報503乃至505のように提供されたシナリオによって使用する知識を変える必要があるものがある。いわば、前者の知識情報は、固定的な表で表される知識であり、後者の知識情報は、動的な表で表される知識である。
(対話と解析の例)
図21は、採点対象の話者と患者による対話とその解析の例を示している。
図21においては、「話者」の列で"1"と"2"で区別される、採点対象の話者である第1話者と、患者である第2話者とが、「湿疹」と「塗り薬(コロイド)」に関する対話を行っているが、「発話」の列のうち、第1話者の発話が、解析対象となる。
「シーン切り替え文」の列は、発話のうち、シーンを切り替えるトリガとなった文を含む発話に対し、丸印(○)を記述している。「シーン」の列には、導入部(Intro)、問診(History Taking)、説明(Explanation)、終結(Closing)などのシーンが付与されている。
シーン判定部106では、各発話が、対話全体で想定されるシーンのいずれに属するかを判定する。また、シーン判定部106では、各発話から特徴語を検出するなどして、「シーン切り替え文」の列で丸印(○)を付しているような、シーンを切り替えるトリガとなる発話を検出する。
具体的には、第1話者による「えー、では、先ほどコロイドについてのご相談でしたが、湿疹の症状について教えて下さい」である発話がトリガとして検出され、シーンが最初の導入部(Intro)から問診(History Talking)に切り替わっている。
また、話者単位でシーンをまとめて扱う場合には、この見つけたシーン切り替え文から遡って、同一の話者の範囲に対してシーンを割り振るようにする。具体的には、第1話者による「先生のおっしゃる通り、ロコイドが良いと思います」である発話がトリガとして検出された場合、図中の上向きの矢印で示したように、このシーン切り替え文から遡って、第1話者の発話に対し、説明(Explanation)であるシーンが割り振られる。
この例では、シーンの切り替えのポイントとなる文を見つける方法を示したが、特定のシーンに切り替わることを判定する方法など、他の方法を用いてもよい。例えば、第1話者の発話が、問診(History Taking)の開始ポイントとなる文を含むかどうかを判定する方法を用いることができる。あるいは、各文に対しシーン分類を機械学習し、各文のシーン分類推定結果を元に、全体のシーンの推定結果を元に複数の文の塊に対しシーンを判定する方法でもよい。あるいは、複数の文を入力として与え、その部分となる複数の文に対しシーンを判定する方法でもよい。
次に、「対話行為」の列には、挨拶(GRT)、情報開示(DEC)、質問(QUE)、応答(RES)、願望(DSR)、及び依頼(REQ)などのラベルが付与されている。対話行為推定部105では、発話の内容から、挨拶等の対話行為を推定し、その推定結果に基づき、各文に対して、挨拶(GRT)等のラベルを付与する。
次に、「対話行為ごとの分類」には、質問(QUE)、情報開示(DEC)、挨拶(GRT)、応答(RES)、依頼(REQ)、及び願望(DSR)であるラベルの列ごとに、確認事項の判定結果が記述されている。ただし、質問(QUE)と情報開示(DEC)には、タイプと内容の組み合わせからなる。
確認事項判定部115では、採点対象の話者である第1話者が、患者である第2話者から特定の情報を聞き出して、質問(QUE)や情報開示(DEC)等の確認事項を確認したかを判定する。
具体的には、導入部(Intro)において、第1話者による「こんにちは」である発話から、対話行為として、"Hello"である挨拶(GRT)が行われたことが判定される。また、第1話者による「本日担当の薬剤師です」である発話から、"自己紹介"で"肩書き"である情報開示(DEC)がなされ、「今日はどうされましたか」である発話から、"来院"の"理由"である質問(QUE)がなされたと判定される。
また、導入部(Intro)において、第1話者による「なるほど」と「分かりました」である発話から、"相槌"である応答(RES)がなされたと判定される。さらに、第1話者による「早く良くなるようにしたいですね」である発話から、"回復"である願望(DSR)がなされ、「それではこちらにおかけください」である発話から、"着席"である依頼(REQ)がなされたと判定される。
その後、問診(History Talking)において、第1話者による「えー、では、先ほどコロイドについてのご相談でしたが、湿疹の症状について教えて下さい」である発話から、"説明"である依頼(REQ)がなされたと判定される。また、第1話者による「いつ頃始まりましたか?」である発話から、"When"の"開始(湿疹)"である質問(QUE)がなされたと判定される。
また、問診(History Talking)において、第1話者による「今までかかったことがありますか?」と「何かアレルギーがありますか?」である発話から、"YN"の"罹患(湿疹)"又は"アレルギー"である質問(QUE)がなされたと判定される。
その後、説明(Explanation)において、第1話者による「なるほど」である発話から、"相槌"である応答(RES)がなされ、「ありがとうございます」である発話から、"Thanks"である挨拶(GRT)がなされたと判定される。また、第1話者による「1ヶ月ほど前から湿疹が続いていて、今まで治療はされていないということですね」である発話から、"確認"として"情報整理"である情報開示(DEC)がなされたと判定される。
また、説明(Explanation)において、第1話者による「先生のおっしゃる通り、ロコイドが良いと思います」である発話から、"薬の選択"である情報開示(DEC)がなされたと判定される。また、第1話者による「使い方についてご説明します」と「使う前には手を石鹸で洗ってください」である発話から、"服薬指導"である情報開示(DEC)がなされたと判定される。
そして、終結(Closing)において、第1話者による「お大事に」である発話から、"病気の人向けのGoodbye"である挨拶(GRT)が行われたことが判定される。
以上のようにして、採点対象の話者と患者による対話が、第1知識データベース117に格納される知識情報を参照しながら解析されて、シーンと対話行為と対話行為ごとの分類の3条件で判定され、その判定結果に応じた配点から得られる採点スコアが取得される。
なお、確認事項判定部115では、各ラベルを、図21の例のように対話行為ごとの分類として扱ってもよいし、あるいは、対話行為の下位概念としてではなく、対話行為とは独立したラベルとして用意しても構わない。また、質問(QUE)や情報開示(DEC)として示したように、タイプと内容の組み合わせで解析してもよし、あるいは、挨拶(GRT)等のように、単一のラベルを割り振るといった方法でも構わない。
さらに、図21の例では、シーンと対話行為と対話行為ごとの分類の3条件を用いた場合を例示したが、シーンは必ずしも必須ではなく、少なくとも対話行為と対話行為ごとの分類の2条件を用いていればよい。
(条件設定の例)
次に、図22乃至図29を参照して、確認事項判定部115により用いられる第1知識データベース117に格納される設定情報の例を説明する。この設定情報では、採点対象の話者が話しかける相手(患者)の条件設定を行う場合に、その条件設定に関する情報が含まれる。
(a)第1の例
図22乃至図24は、設定情報の第1の例を示している。
図22乃至図24において、設定情報801乃至803は、患者の背景に関する設定の例を示している。この患者の背景の設定では、年齢、性別、アレルギー、家族の病歴、既往歴、妊娠、授乳、喫煙、アルコール、服薬などの属性に対する値と、詳細な値が設定される。
例えば、図22の設定情報801では、ある幼児(女の子)の背景として、卵アレルギーがあることや、小児喘息にかかっていることなどが設定されている。また、図23の設定情報802では、ある成人女性の背景として、これまでに大きな病気にかかったことがなく、週3回、500ml程度飲酒することなどが設定されている。また、図24の設定情報803では、ある成人男性の背景として、高血圧の病歴と、花粉のアレルギーがあり、週3回、500ml程度飲酒することなどが設定されている。
(b)第2の例
図25は、設定情報の第2の例を示している。
図25において、設定情報804は、属性ごとの値により変化する質問量や知識についての例を示している。設定情報804では、図22乃至図24に示した属性ごとの対応知識への影響度として、属性ごとの値によって変化する質問量や知識などの例を示している。
例えば、年齢である属性に関して、子供(0〜18歳)、大人(18〜65歳)、高齢者(65歳〜)の別で、対応知識への影響度が異なる。また、患者の性別が女性の場合には、採点対象の話者が聞くべき質問が増えるが、その質問は、妊娠、授乳の有無など定型的に決まる質問群であり、それに対する質問を解釈し採点できればよい。
また、アレルギーや既往歴、服薬などがある患者の場合、採点対象の話者には個別知識が必要となる。家族の病歴、喫煙、アルコールがある場合、採点対象の話者が聞くべき質問が増える。
(c)第3の例
図26は、設定情報の第3の例を示している。
図26において、設定情報805は、個別知識の例を示している。図22の設定情報801では、ある幼児の背景として、卵アレルギーがあることが設定されていたが、採点対象の話者が聞くべき項目として、摂取した際のアレルギーの程度や何歳頃に発症したか、何か特別な療法や服薬をしているかなど聞くべき項目があり、猫アレルギーなどとは対応が異なる、といった場合に相当し、値ごとに個別知識を用意することが想定される。
設定情報805では、ある幼児の卵アレルギーに関して、蕁麻疹の程度は軽く、卵を食べた30分後に出ることと、発症してから7ヶ月程度であること、何か特別な療法や服薬はしていないことなどが設定されている。
(d)第4の例
図27,図28は、設定情報の第4の例を示している。
図27,図28において、設定情報806,807は、あらかじめ指定されたシナリオ(問題)に基づき、知識が異なるタイプの採点対象の話者が話しかける相手(患者)の条件設定の例を示している。この患者のタイプの設定では、湿疹という病気(症状)である前提で話をする際の属性として、開始時期、罹患有無、及び部位といった属性に対し、それぞれ値が設定されている。
例えば、図27の設定情報806では、ある湿疹患者のタイプとして、開始時期が1年前で、罹患はなく、発症部位は顔であることなどが設定されている。また、図28の設定情報807では、ある湿疹患者のタイプとして、開始時期が1ヶ月前で、罹患しており、発症部位は背中であることなどが設定されている。
(e)第5の例
図29は、設定情報の第5の例を示している。
図29において、設定情報808は、属性ごとの値によって変化する質問量や知識についての例を示している。設定情報808では、図27,図28に示した属性ごとの対応知識への影響度として、属性ごとの値によって変化する質問量や知識などの例を示している。
設定情報808では、開始時期と部位は変化せず、罹患がある場合のみ質問が増えるとなっているが、例えば、いつ頃(何歳ごろ)にかかったことがあるか、といった定型的に決まる質問群が含まれる。
以上、第1の実施の形態では、本技術を適用した情報処理装置として、対話に関する採点を行う対話採点装置を中心に説明し、人間(採点対象の話者)が、人間(患者)と対話を行う場合に、その人間(採点対象の話者)の発話の評価(対話の採点)を行う事例を説明した。
なお、第1の実施の形態では、人間(採点対象の話者)が、人間(患者)と対話する場合を中心に説明したが、対話の相手は人間に限らず、機械(擬人エージェント、キャラクタ、アバタ、又はチャットボットなどを含む)と会話を行う場合で、その人間の発話の評価を行うようにしても構わない。
<2.第2の実施の形態>
(装置の構成)
図30は、本技術を適用した情報処理装置の一実施の形態の他の構成例を示している。
図30において、情報処理装置は、ユーザ(話者)の対話スキルの評価を行うに際して応答を返すことが可能な応答生成装置として構成される。この情報処理装置は、図1の構成と比べて、音声認識部201のほかに、応答生成部601、第2知識データベース602、及び音声合成部603をさらに有している。
応答生成部601は、入力文(テキストデータ)に対し、特徴情報群処理部102からの採点に用いる特徴情報群を用いながら、応答文(応答テキストデータ)を生成し、音声合成部603に供給する。応答生成部601は、第2知識データベース602に格納された応答用の知識情報を用いても構わない。
例えば、第2知識データベース602に、自分の名前や既病歴などの知識情報を保持しておくことで、質問に答える際にこの知識情報を利用することができる。なお、このときの知識情報が、第1知識データベース117に格納された知識情報や設定情報と同一であってもよい。
例えば、図18の知識情報503におけるYes/No形式のアレルギーに関する質問は、図22乃至図24の設定情報801乃至803におけるアレルギーの値を回答することに相当し、この値のあり/なしを、Yes/Noの回答に用いることができる。さらに、この値が"あり"の場合の詳細な値の"卵"は、図18の知識情報503におけるWHAT形式のアレルギーに関する質問の回答に相当する。
このような処理が可能となるのは、採点時に用いる判定条件とその判定条件に設定された値を回答するのに使える形で、第1知識データベース117と第2知識データベース602が同一の知識の形で保持されている場合とされる。
あるいは、特定の発話内容に関しては、特定の応答メッセージを返すような知識でもよい。例えば、「何かアレルギーはありますか」と聞かれたら、「卵です」と答えるような単純な知識でもよい。あるいは、特定の対話行為に対し、何らかの応答を用意しておくなど、特徴に対する応答でもよい。例えば、依頼(REQ)に対しては、必ず、「はい」と相槌を打つような応答でもよい。なお、上記の様々な応答方法の複数の組み合わせであっても構わない。
音声合成部603は、応答生成部601から供給される応答テキストデータを音声データに変換し、出力部104に供給する。音声合成部603では、テキストから音声への変換に際して、声色などを指定できるようにしてもよい。出力部104は、音声合成部603から供給される音声データに応じた音声(音)を、スピーカなどから出力する。
(処理の流れ)
次に、図31のフローチャートを参照して、図30の情報処理装置により実行される第3の処理の流れを説明する。
ステップS301乃至S303においては、図7のステップS101乃至S103と同様に、入力されたテキストTiが分割され、処理対象の分割テキストtjに対し、当該構成要素それぞれから1つ以上の分類名とそのスコアが出力結果として得られる。ステップS303が終了すると、処理は、ステップS304に進められる。
ステップS304では、応答生成部601が、複数の構成要素の出力結果の組み合わせに該当する、第2知識データベース602の項目を検索し、そこから得られる応答値を取得する。
ステップS305では、応答生成部601が、複数の構成要素の出力結果の組み合わせに該当する、あるいは、入力テキストに対応する応答パターンを生成する際に、取得した応答値を利用して応答文を生成する。
すなわち、ステップS304,S305は、図7のステップS104の処理を具体化したもので、得られる値として、応答値が取得される例であって、ステップS304の処理で取得された応答値を用いて、応答生成部601で応答文を生成する際に、当該応答値を埋め込んだり、そこからさらに第2知識データベース602の項目を検索した結果を用いたりして、応答文全体を生成することができる。
ステップS306,S307においては、図7のステップS105,S106と同様に、処理対象の入力テキストTiに対し、ステップS301乃至S307の処理が繰り返され、さらに、処理対象の分割テキストtjに対し、ステップS303乃至S306の処理が繰り返される。
ステップS301で受け付けた入力テキストTiに対する処理が終了して、ステップS307の判定処理で、i = N であると判定された場合、処理は、ステップS308に進められる。ステップS308においては、出力情報として、応答テキストデータが音声データに変換され、その音声が出力される。
すなわち、話者の対話スキルの評価を行うに際して、応答生成装置等の機械が、音声により応答を返すことになる。このとき、擬人エージェント、キャラクタ、アバタなどを表示して、それらが音声により応答を返すようにしてもよい。ただし、ここでは、テキストから音声への変換を行わずに、応答テキストデータに応じた応答文が、チャットボットなどとして表示されるようにしても構わない。このように、物体(人の顔又は全身等を含む)の静止画、動画、又はCG(Computer Graphics)などが、応答文とともに、出力情報として出力されることになる。
なお、図31においても、文分割部116を設けた図3の構成に対応した処理の流れを説明したが、図1の構成に対応する場合には、ステップS302の処理をスキップして、n=1と読み替えればよい。
以上、第3の処理の流れを説明した。この第3の処理は、上述した図7の第1の処理を具体化した処理であり、図7のステップS104の処理で得られる値として、応答値を取得するものである。
以上、第2の実施の形態では、本技術を適用した情報処理装置として、対話に関する応答の生成を行う応答生成装置を中心に説明し、人間(採点対象の話者)の対話スキルの評価を行う際に、機械が応答を返す事例を説明した。
<3.変形例>
(システムの構成)
上述した説明では、対話採点装置や応答生成装置等の情報処理装置が、単独の装置として構成されるとして説明したが、インターネット等のネットワークを介して複数の装置から構成されるようにしても構わない。
図32は、本技術を適用した情報処理システムの一実施の形態の構成例を示している。
図32において、情報処理システムは、情報処理装置10と情報処理装置20から構成される。情報処理装置10と情報処理装置20は、ネットワーク30を介して相互に接続される。
情報処理装置10は、PC(Personal Computer)、タブレット型端末、スマートフォン、専用の端末などの機器であり、対話採点装置や応答生成装置等として構成される。情報処理装置10は、処理部11、通信部12、入力部101、及び出力部104から構成される。
処理部11は、各部の動作の制御や各種の演算処理を行う中心的な制御装置(処理装置)である。処理部11は、CPU(Central Processing Unit)等のプロセッサから構成される。
処理部11は、図1の構成のうち、特徴情報群処理部102及びスコア計算部103のうち、少なくとも1つの構成要素を含む。なお、図3に示したように、処理部11は、文分割部116を含んでも構わない。
また、図4に示したように、処理部11は、特徴情報群処理部102及びスコア計算部103のほかに、音声認識部201、音声特徴情報群処理部202、及び画像特徴情報群処理部203のうち、少なくとも1つの構成要素を含んでもよい。さらに、図30に示したように、処理部11は、特徴情報群処理部102及びスコア計算部103のほかに、応答生成部601及び音声合成部603のうち、少なくとも1つの構成要素を含んでもよい。
通信部12は、処理部11からの制御に従い、ネットワーク30を介して、情報処理装置20等の他の機器と通信を行う。通信部12は、無線LAN(Local Area Network)などの無線通信や、セルラー方式の通信(例えばLTE-Advancedや5G等)、又は有線通信に対応した通信モジュールとして構成される。
入力部101と出力部104は、上述した図1等の入力部101と出力部104に対応しているが、処理部11に含まれるようにしてもよい。
また、入力部101は、入力インタフェースや各種の処理部を含んで構成されるほか、マイクロフォン、カメラ、センサなどの入力デバイスを含んで構成されてもよい。出力部104は、各種の制御部や出力インタフェースを含んで構成されるほか、ディスプレイ、スピーカ、プロジェクタなどの出力デバイスを含んで構成されてもよい。なお、これらの入力デバイスと出力デバイスは、外部装置として設けても構わない。
情報処理装置20は、処理部21、通信部22、及びデータベース23から構成される。
処理部21は、各部の動作の制御や各種の演算処理を行う中心的な制御装置(処理装置)である。処理部21は、CPU等のプロセッサから構成される。
処理部21は、図1の構成のうち、特徴情報群処理部102及びスコア計算部103のうち、少なくとも1つの構成要素を含む。なお、図3に示したように、処理部21は、文分割部116を含んでも構わない。また、処理部21は、入力部101と出力部104の一部の機能を含んでも構わない。
また、図4に示したように、処理部21は、特徴情報群処理部102及びスコア計算部103のほかに、音声認識部201、音声特徴情報群処理部202、及び画像特徴情報群処理部203のうち、少なくとも1つの構成要素を含んでもよい。さらに、図30に示したように、処理部21は、特徴情報群処理部102及びスコア計算部103のほかに、応答生成部601及び音声合成部603のうち、少なくとも1つの構成要素を含んでもよい。
すなわち、情報処理装置20側の処理部21では、全ての構成要素のうち、情報処理装置10側の処理部11に設けられた構成要素を除いた構成要素が設けられる。
通信部22は、処理部21からの制御に従い、ネットワーク30を介して、情報処理装置10等の他の機器と通信を行う。通信部22は、無線LANなどの無線通信や、セルラー方式の通信、又は有線通信に対応した通信モジュールとして構成される。
データベース23は、HDD(Hard Disk Drive)や半導体メモリ等から構成される補助記憶装置に記憶される。データベース23は、内部ストレージとして構成されてもよいし、外部ストレージであってもよい。
データベース23は、図1等の第1知識データベース117、図3等のスコア記憶部118、及び図30等の第2知識データベース602を含む。なお、データベース23の一部又は全部を、情報処理装置10側に設けても構わない。
ネットワーク30は、インターネット、イントラネット、又は携帯電話網などの通信網を含んで構成され、TCP/IP(Transmission Control Protocol / Internet Protocol)等の通信プロトコルを用いた機器間の相互接続を可能にしている。
(採点対象の他の例)
上述した説明では、採点対象の話者による患者との対話を採点して、試験や対人スキルのトレーニング等に用いる例を説明したが、例えば、特定の品物を売る営業職を対象として顧客との対話に関する対人トレーニングに用いたり、ホテルのレストランでの接客作業を担当する従業員を対象として客との対話に関する対人トレーニングに用いたり、幼児や高齢者などの特定のカテゴリの相手に話す保育や介護などの対人トレーニングに用いたりしても構わない。第1知識データベース117や第2知識データベース602には、対人トレーニングの内容に応じた知識情報等の情報が格納される。
(機械学習の例)
上述した機械学習の方法としては、例えば、ニューラルネットワークや、ディープラーニング(深層学習)が用いられる。
ニューラルネットワークとは、人間の脳神経回路を模倣したモデルであって、入力層、中間層(隠れ層)、出力層の3種類の層からなる。また、ディープラーニングとは、多層構造のニューラルネットワークを用いたモデルであって、各層で特徴的な学習を繰り返し、大量データの中に潜んでいる複雑なパターンを学習することができる。
また、機械学習の問題設定には、教師あり学習、教師なし学習、半教師学習、強化学習、逆強化学習、能動学習、転移学習等がある。教師あり学習では、与えられたラベル付きの学習データ(教師データ)に基づいて特徴量を学習する。これにより、未知のデータのラベルを導くことが可能となる。
なお、上述した説明では、画像に関する説明を行ったが、映像は、複数の画像フレームから構成されるものであるため、「画像」を、「映像」と読み替えても構わない。
以上のように、本技術を適用した情報処理装置では、複数の話者(例えば採点対象の話者と患者)の発話に関する入力データ(例えばテキストデータ、音声データ、又は画像データ)に基づいて、対話行為(例えば挨拶(GRT)や情報開示(DEC)等)とその対話行為ごとの分類(例えばこんにちは(Hello)/さようなら(Goodbye)や、自己紹介/名前、肩書等)が解析され、対象の話者の解析結果に応じた出力情報(例えば図9乃至図15の出力情報401乃至407)が生成される。これにより、対人コミュニケーションに関する情報として、より有用な情報を提供することができる。
なお、上述した特許文献1では、コールセンタのオペレータと顧客の会話をコールセンタの特徴に合わせて評価できる方法として、評価パラメータの入力を元に採点を行うものとしている。また、採点時には、言語分析、対話分析、及び感情分析を行うとしている。対話分析では、発話割合、沈黙、話速を検出し、時間などの数値化を行ったものである。感情分析は、声の高さ、音量などを用い、声のはり、活舌、声の大きさ、高さなどを数値化したものである。言語分析では、キーワード、アクセントなどである。
感情分析は音響情報を元に、また、対話分析は時間情報又は話者による判定を想定している。しかしながら、これらの分析からは、会話の表面的な様子はうかがい知ることができるものの、発話内容や発話の表現スタイルによる情報は考慮されない。また、言語分析でキーワードなど単語量を想定しているが、これらからは特徴的な単語の出現の有無や頻度しか分からず、発話内容や発話の表現スタイルによる文や対話の流れによって表現される情報は考慮できない。本技術を適用した情報処理装置では、テキスト情報を対象に、言及すべき内容を適切に話したかや表現方法による印象など、様々な情報を考慮した採点を行うことができる。
例えば、医療現場の専門職については、医師、看護師、薬剤師などでは、客観的臨床能力試験(OSCE:Objective Structured Clinical Examination)という試験の中で、対人コミュニケーションに関する試験がある。また、営業職では、売る品物によってどのような説明の仕方や振る舞い方が好ましいかという方向性が異なる。さらに、幼児や高齢者など特定のカテゴリの相手に話す保育や介護、あるいは医療従事者において、好ましい表現方法や話し方がある。このように様々な職種ごとに、様々な対人スキルをトレーニングする必要があり、対人トレーニングはコストが高くまた何を直すべきかを客観的に評価することが一人では難しい。また、スピーチの練習など比較的一方通行の対話に関しても、練習相手と評価を行うのに一人では難しい。
そこで、本技術を適用した情報処理装置では、様々な対人スキルを測定し採点できるように、様々な観点の特徴の測定とターゲットとなる対人スキルに向けた指標の重要度を鑑みた採点を可能にしている。
<4.コンピュータの構成>
上述した情報処理装置の一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、各装置のコンピュータにインストールされる。
図33は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
コンピュータにおいて、CPU(Central Processing Unit)1001、ROM(Read Only Memory)1002、RAM(Random Access Memory)1003は、バス1004により相互に接続されている。バス1004には、さらに、入出力インタフェース1005が接続されている。入出力インタフェース1005には、入力部1006、出力部1007、記憶部1008、通信部1009、及び、ドライブ1010が接続されている。
入力部1006は、マイクロフォン、キーボード、マウスなどよりなる。出力部1007は、スピーカ、ディスプレイなどよりなる。記憶部1008は、ハードディスクや不揮発性のメモリなどよりなる。通信部1009は、ネットワークインタフェースなどよりなる。ドライブ1010は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体1011を駆動する。
以上のように構成されるコンピュータでは、CPU1001が、ROM1002や記憶部1008に記録されているプログラムを、入出力インタフェース1005及びバス1004を介して、RAM1003にロードして実行することにより、上述した一連の処理が行われる。
コンピュータ(CPU1001)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体1011に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線又は無線の伝送媒体を介して提供することができる。
コンピュータでは、プログラムは、リムーバブル記録媒体1011をドライブ1010に装着することにより、入出力インタフェース1005を介して、記憶部1008にインストールすることができる。また、プログラムは、有線又は無線の伝送媒体を介して、通信部1009で受信し、記憶部1008にインストールすることができる。その他、プログラムは、ROM1002や記憶部1008に、あらかじめインストールしておくことができる。
ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含む。
また、プログラムは、1のコンピュータ(プロセッサ)により処理されるものであってもよいし、複数のコンピュータによって分散処理されるものでもよい。さらに、プログラムは、遠方のコンピュータに転送されて実行されてもよい。
さらに、本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
なお、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。例えば、本技術は、1つの機能を、ネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
また、上述のフローチャートの各ステップは、1つの装置で実行するほか、複数の装置で分担して実行することができる。さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行するほか、複数の装置で分担して実行することができる。
また、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。
なお、本技術は、以下のような構成をとることができる。
(1)
複数の話者の発話に関する入力データに基づいて、対話行為とその対話行為ごとの分類を解析し、
対象の話者の解析結果に応じた出力情報を生成する
処理部を備える
情報処理装置。
(2)
前記処理部は、
前記発話がなされたシーンをさらに解析し、
前記シーン、前記対話行為、及び前記分類の解析結果に応じた出力情報を生成する
前記(1)に記載の情報処理装置。
(3)
前記処理部は、
対象の話者の解析結果に基づいて、採点スコアを取得し、
取得した前記採点スコアに応じた出力情報を生成する
前記(1)又は(2)に記載の情報処理装置。
(4)
前記処理部は、
対象の話者の解析結果に基づいて、応答値を取得し、
取得した前記応答値に応じた出力情報を生成する
前記(1)又は(2)に記載の情報処理装置。
(5)
前記処理部は、
話者による対話行為を推定する対話行為推定部と、
対話全体で想定されるシーンのいずれに属するかを判定するシーン判定部と、
前記分類に応じて、採点対象の第1の話者が第2の話者に対して確認すべき事項を確認したかを判定する確認事項判定部と
を含む特徴情報群処理部を有する
前記(2)乃至(4)のいずれかに記載の情報処理装置。
(6)
前記特徴情報群処理部は、
専門用語を含む特定の表現に応じた難易度を測定する難易度測定部、
共感語彙を含む特定の表現に応じた共感度を測定する共感度測定部、
敬語又は丁寧語を含む特定の表現に応じた丁寧度を測定する丁寧度測定部、
間又は相槌を含む特定の動作に応じた理解度の確認状況を判定する理解度確認状況判定部、
シーンを切り替えるに際して当該切り替えの適切度を判定するシーン切り替え適切度判定部、
発話の表現に応じた大人度を測定する大人度測定部、
発話の表現に応じた性別指向性を判定する性別指向性判定部、及び、
発話の表現に応じた性格指向性を判定する性格指向性判定部
のうち、少なくとも1つをさらに含む
前記(5)に記載の情報処理装置。
(7)
前記処理部は、
前記採点スコアを用いて、スコアを計算するスコア計算部を有し、
計算した前記スコアに応じた出力情報を生成する
前記(3)に記載の情報処理装置。
(8)
前記処理部は、
前記入力データを入力する入力部と、
前記出力情報を生成して出力する出力部と
をさらに有する前記(1)乃至(7)のいずれかに記載の情報処理装置。
(9)
前記入力データは、テキストデータを含み、
前記処理部は、入力された前記テキストデータに基づいて、対話行為とその対話行為ごとの分類を解析する
前記(8)に記載の情報処理装置。
(10)
前記処理部は、
入力された前記テキストデータに基づいて、テキストを文単位に分割する文分割部をさらに有し、
分割したテキストデータに基づいて、対話行為とその対話行為ごとの分類を解析する
前記(9)に記載の情報処理装置。
(11)
前記入力データは、音声データを含み、
前記処理部は、
入力された前記音声データを、テキストデータに変換する音声認識部をさらに有し、
変換したテキストデータに基づいて、対話行為とその対話行為ごとの分類を解析する
前記(8)に記載の情報処理装置。
(12)
前記入力データは、音声データを含み、
前記処理部は、
入力された前記音声データに基づいて、発話の音声に関する解析を行う音声特徴情報群処理部をさらに有し、
発話の音声の解析結果に応じた出力情報を生成する
前記(8)に記載の情報処理装置。
(13)
前記入力データは、画像データを含み、
前記処理部は、
入力された前記画像データに基づいて、画像に含まれる話者に関する解析を行う画像特徴群処理部をさらに有し、
画像に含まれる話者の解析結果に応じた出力情報を生成する
前記(8)に記載の情報処理装置。
(14)
前記出力部は、前記出力情報を、数値、文章、表、グラフ、及び図形のうち、少なくとも1つを含む所定の表示形式で表示するように表示を制御する
前記(8)に記載の情報処理装置。
(15)
前記出力部は、現時点で得られた自己の解析結果に応じた出力情報とともに、過去に得られた自己の解析結果に応じた出力情報、又は他人の解析結果に応じた出力情報を表示する
前記(14)に記載の情報処理装置。
(16)
前記処理部は、
前記応答値を用いて、応答文を生成する応答生成部をさらに有し、
生成した前記応答文に応じた出力情報を生成する
前記(4)に記載の情報処理装置。
(17)
前記処理部は、
前記応答文を音声合成する音声合成部をさらに有し、
音声合成で得られた合成音が、前記出力情報として出力される
前記(16)に記載の情報処理装置。
(18)
物体の静止画、動画、又はCGが、前記応答文とともに、前記出力情報として出力される
前記(16)又は(17)に記載の情報処理装置。
(19)
情報処理装置が、
複数の話者の発話に関する入力データに基づいて、対話行為とその対話行為ごとの分類を解析し、
対象の話者の解析結果に応じた出力情報を生成する
情報処理方法。
(20)
コンピュータを、
複数の話者の発話に関する入力データに基づいて、対話行為とその対話行為ごとの分類を解析し、
対象の話者の解析結果に応じた出力情報を生成する
処理部を備える
情報処理装置として機能させるプログラム。
10,20 情報処理装置, 30 ネットワーク, 11 処理部, 12 通信部, 21 処理部, 22 通信部, 23 データベース, 101 入力部, 102 特徴情報群処理部, 103 スコア計算部, 104 出力部, 105 対話行為推定部, 106 シーン判定部, 107 難易度測定部, 108 共感度測定部, 109 丁寧度測定部, 110 理解度確認状況判定部, 111 シーン切替適切度判定部, 112 大人度測定部, 113 性別指向性判定部, 114 性格指向性判定部, 115 確認事項判定部, 116 文分割部, 117 第1知識データベース, 118 スコア記憶部, 201 音声認識部, 202 音声特徴情報群処理部, 203 画像特徴情報群処理部, 204 音量判定部, 205 第1感情判定部, 206 話速測定部, 207 笑顔判定部, 208 目線判定部, 209 第2感情判定部, 601 応答生成部, 602 第2知識データベース, 603 音声合成部, 1001 CPU

Claims (20)

  1. 複数の話者の発話に関する入力データに基づいて、対話行為とその対話行為ごとの分類を解析し、
    対象の話者の解析結果に応じた出力情報を生成する
    処理部を備える
    情報処理装置。
  2. 前記処理部は、
    前記発話がなされたシーンをさらに解析し、
    前記シーン、前記対話行為、及び前記分類の解析結果に応じた出力情報を生成する
    請求項1に記載の情報処理装置。
  3. 前記処理部は、
    対象の話者の解析結果に基づいて、採点スコアを取得し、
    取得した前記採点スコアに応じた出力情報を生成する
    請求項1に記載の情報処理装置。
  4. 前記処理部は、
    対象の話者の解析結果に基づいて、応答値を取得し、
    取得した前記応答値に応じた出力情報を生成する
    請求項1に記載の情報処理装置。
  5. 前記処理部は、
    話者による対話行為を推定する対話行為推定部と、
    対話全体で想定されるシーンのいずれに属するかを判定するシーン判定部と、
    前記分類に応じて、採点対象の第1の話者が第2の話者に対して確認すべき事項を確認したかを判定する確認事項判定部と
    を含む特徴情報群処理部を有する
    請求項2に記載の情報処理装置。
  6. 前記特徴情報群処理部は、
    専門用語を含む特定の表現に応じた難易度を測定する難易度測定部、
    共感語彙を含む特定の表現に応じた共感度を測定する共感度測定部、
    敬語又は丁寧語を含む特定の表現に応じた丁寧度を測定する丁寧度測定部、
    間又は相槌を含む特定の動作に応じた理解度の確認状況を判定する理解度確認状況判定部、
    シーンを切り替えるに際して当該切り替えの適切度を判定するシーン切り替え適切度判定部、
    発話の表現に応じた大人度を測定する大人度測定部、
    発話の表現に応じた性別指向性を判定する性別指向性判定部、及び、
    発話の表現に応じた性格指向性を判定する性格指向性判定部
    のうち、少なくとも1つをさらに含む
    請求項5に記載の情報処理装置。
  7. 前記処理部は、
    前記採点スコアを用いて、スコアを計算するスコア計算部を有し、
    計算した前記スコアに応じた出力情報を生成する
    請求項3に記載の情報処理装置。
  8. 前記処理部は、
    前記入力データを入力する入力部と、
    前記出力情報を生成して出力する出力部と
    をさらに有する請求項1に記載の情報処理装置。
  9. 前記入力データは、テキストデータを含み、
    前記処理部は、入力された前記テキストデータに基づいて、対話行為とその対話行為ごとの分類を解析する
    請求項8に記載の情報処理装置。
  10. 前記処理部は、
    入力された前記テキストデータに基づいて、テキストを文単位に分割する文分割部をさらに有し、
    分割したテキストデータに基づいて、対話行為とその対話行為ごとの分類を解析する
    請求項9に記載の情報処理装置。
  11. 前記入力データは、音声データを含み、
    前記処理部は、
    入力された前記音声データを、テキストデータに変換する音声認識部をさらに有し、
    変換したテキストデータに基づいて、対話行為とその対話行為ごとの分類を解析する
    請求項8に記載の情報処理装置。
  12. 前記入力データは、音声データを含み、
    前記処理部は、
    入力された前記音声データに基づいて、発話の音声に関する解析を行う音声特徴情報群処理部をさらに有し、
    発話の音声の解析結果に応じた出力情報を生成する
    請求項8に記載の情報処理装置。
  13. 前記入力データは、画像データを含み、
    前記処理部は、
    入力された前記画像データに基づいて、画像に含まれる話者に関する解析を行う画像特徴群処理部をさらに有し、
    画像に含まれる話者の解析結果に応じた出力情報を生成する
    請求項8に記載の情報処理装置。
  14. 前記出力部は、前記出力情報を、数値、文章、表、グラフ、及び図形のうち、少なくとも1つを含む所定の表示形式で表示するように表示を制御する
    請求項8に記載の情報処理装置。
  15. 前記出力部は、現時点で得られた自己の解析結果に応じた出力情報とともに、過去に得られた自己の解析結果に応じた出力情報、又は他人の解析結果に応じた出力情報を表示する
    請求項14に記載の情報処理装置。
  16. 前記処理部は、
    前記応答値を用いて、応答文を生成する応答生成部をさらに有し、
    生成した前記応答文に応じた出力情報を生成する
    請求項4に記載の情報処理装置。
  17. 前記処理部は、
    前記応答文を音声合成する音声合成部をさらに有し、
    音声合成で得られた合成音が、前記出力情報として出力される
    請求項16に記載の情報処理装置。
  18. 物体の静止画、動画、又はCGが、前記応答文とともに、前記出力情報として出力される
    請求項16に記載の情報処理装置。
  19. 情報処理装置が、
    複数の話者の発話に関する入力データに基づいて、対話行為とその対話行為ごとの分類を解析し、
    対象の話者の解析結果に応じた出力情報を生成する
    情報処理方法。
  20. コンピュータを、
    複数の話者の発話に関する入力データに基づいて、対話行為とその対話行為ごとの分類を解析し、
    対象の話者の解析結果に応じた出力情報を生成する
    処理部を備える
    情報処理装置として機能させるプログラム。
JP2020034198A 2020-02-28 2020-02-28 情報処理装置、情報処理方法、及びプログラム Pending JP2021135960A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2020034198A JP2021135960A (ja) 2020-02-28 2020-02-28 情報処理装置、情報処理方法、及びプログラム
PCT/JP2021/005167 WO2021172039A1 (ja) 2020-02-28 2021-02-12 情報処理装置、情報処理方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020034198A JP2021135960A (ja) 2020-02-28 2020-02-28 情報処理装置、情報処理方法、及びプログラム

Publications (1)

Publication Number Publication Date
JP2021135960A true JP2021135960A (ja) 2021-09-13

Family

ID=77491492

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020034198A Pending JP2021135960A (ja) 2020-02-28 2020-02-28 情報処理装置、情報処理方法、及びプログラム

Country Status (2)

Country Link
JP (1) JP2021135960A (ja)
WO (1) WO2021172039A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7313518B1 (ja) 2022-07-07 2023-07-24 株式会社エクサウィザーズ 評価方法、評価装置、および、評価プログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114861680B (zh) * 2022-05-27 2023-07-25 马上消费金融股份有限公司 对话处理方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106462598A (zh) * 2014-05-22 2017-02-22 索尼公司 信息处理设备、信息处理方法与程序
JP7019984B2 (ja) * 2017-07-20 2022-02-16 凸版印刷株式会社 情報提示システム、情報提示方法及びプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7313518B1 (ja) 2022-07-07 2023-07-24 株式会社エクサウィザーズ 評価方法、評価装置、および、評価プログラム

Also Published As

Publication number Publication date
WO2021172039A1 (ja) 2021-09-02

Similar Documents

Publication Publication Date Title
Bull Posture & Gesture: Posture & Gesture
Hinnant et al. Tacit understandings of health literacy: Interview and survey research with health journalists
Carolan et al. Miscarriage at advanced maternal age and the search for meaning
Waitzkin et al. Narratives of aging and social problems in medical encounters with older persons
WO2021172039A1 (ja) 情報処理装置、情報処理方法、及びプログラム
Zellou et al. The influence of conversational role on phonetic alignment toward voice-AI and human interlocutors
Walker et al. Using ASR technology in language training for specific purposes: A perspective from Quebec, Canada
Nijholt Conversational agents and the construction of humorous acts
Lyakso et al. Recognition of the emotional state of children with down syndrome by video, audio and text modalities: human and automatic
Maharjan et al. What is the difference? investigating the self-report of wellbeing via conversational agent and web app
Rydeman The growth of phrases. User-centred design for activity-based voice output communication aids
Chu et al. Encoding and decoding hidden meanings in face-to-face communication: Understanding the role of verbal and nonverbal behaviors in indirect replies.
Graci Towards an extended notion of Common Ground in aphasiology
Orii et al. Designing for Speech Practice Systems: How Do User-Controlled Voice Manipulation and Model Speakers Impact Self-Perceptions of Voice?
Rykova et al. AphaDIGITAL–Digital Speech Therapy Solution for Aphasia Patients with Automatic Feedback Provided by a Virtual Assistant
Frankowska et al. Rear negativity: Verbal messages coming from behind are perceived as more negative
Desai et al. Understanding and Enhancing The Role of Speechreading in Online d/DHH Communication Accessibility
Alghowinem et al. Beyond the words: analysis and detection of self-disclosure behavior during robot positive psychology interaction
Gamel Performing Sex, Gender and Power in Roman Elegy
Piper et al. Analyzing multimodal communication around a shared tabletop display
Westley Creating and evaluating New Zealand-accented synthesised voices using model talker voice banking technology
JP7350384B1 (ja) 対話システム、及び対話方法
Keeley The nonverbal perception scale
Pennington et al. Beyond the Language Classroom: Wider Applications of Pronunciation Research and Practice
US20220139562A1 (en) Use of virtual agent to assess psychological and medical conditions