JP7169030B1 - プログラム、情報処理装置、情報処理システム、情報処理方法、情報処理端末 - Google Patents

プログラム、情報処理装置、情報処理システム、情報処理方法、情報処理端末 Download PDF

Info

Publication number
JP7169030B1
JP7169030B1 JP2022079945A JP2022079945A JP7169030B1 JP 7169030 B1 JP7169030 B1 JP 7169030B1 JP 2022079945 A JP2022079945 A JP 2022079945A JP 2022079945 A JP2022079945 A JP 2022079945A JP 7169030 B1 JP7169030 B1 JP 7169030B1
Authority
JP
Japan
Prior art keywords
user
emotion
dialogue
information
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022079945A
Other languages
English (en)
Other versions
JP2023168690A (ja
Inventor
賢吉 石塚
泰一 橋本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Revcomm
Original Assignee
Revcomm
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Revcomm filed Critical Revcomm
Priority to JP2022079945A priority Critical patent/JP7169030B1/ja
Priority to JP2022169219A priority patent/JP2023169092A/ja
Application granted granted Critical
Publication of JP7169030B1 publication Critical patent/JP7169030B1/ja
Publication of JP2023168690A publication Critical patent/JP2023168690A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】対話における話者間の対話情報を話者の感情状態に基づき管理することができるプログラム、情報処理装置、情報処理システム、情報処理方法及び情報処理端末を提供する。【解決手段】ネットワークを介して接続されたサーバ、複数のユーザ端末、CRMシステム及び音声サーバを備えるシステムにおいて、サーバの制御部は、対話に関する音声データを受け付け、受け付けた音声データから、発話区間毎に複数の区間音声データを抽出し、抽出した複数の区間音声データのそれぞれに対応し、区間音声データにおける話者の感情状態に関する複数の感情特徴量を算定し、算定した複数の感情特徴量に基づき、対話に対するラベル情報を特定し、特定したラベル情報を、対話と関連づけて記憶する感情解析処理を実行する感情解析部を備える。【選択図】図16

Description

本開示は、プログラム、情報処理装置、情報処理システム、情報処理方法、情報処理端末に関する。
複数のユーザ間で行われるオンライン対話サービスが知られている。
特許文献1には、営業活動を行う者に対して、その営業活動の評価を行う技術が開示されている。
特許文献2には、応対業務のオペレータの応対を自動的に評点し、オペレータ教育の負担を軽減する技術が開示されている。
特許文献3には、意見交換の活発さに鑑みて学習者または学習者の発話を評価する学習支援装置が開示されている。
特開2021-182390号公報 特開2007-286377号公報 特開2020-091609号広報
対話における話者間の対話情報を管理できていないという課題がある。
そこで、本開示は、上記課題を解決すべくなされたものであって、その目的は、話者の感情状態に基づき、対話における話者間の対話情報を管理する技術を提供することである。
プロセッサと、記憶部とを備え、第1ユーザと第2ユーザとの間の対話に関する情報をコンピュータに処理させるプログラムであって、プログラムは、プロセッサに、対話に関する音声データを受け付ける受付ステップと、受付ステップにおいて受け付けた音声データから、発話区間ごとに複数の区間音声データを抽出する音声抽出ステップと、音声抽出ステップにおいて抽出された複数の区間音声データのそれぞれに対応し、区間音声データにおける話者の感情状態に関する複数の感情特徴量を算定する感情算定ステップと、感情算定ステップにおいて算定された複数の感情特徴量に基づき、対話に対するラベル情報を特定するラベル特定ステップと、ラベル特定ステップにおいて特定されたラベル情報を、対話と関連づけて記憶する記憶ステップと、を実行させるプログラム。
本開示によれば、対話における話者間の対話情報を話者の感情状態に基づき管理することができる。
システム1の機能構成を示すブロック図である。 サーバ10の機能構成を示すブロック図である。 第1ユーザ端末20の機能構成を示すブロック図である。 第2ユーザ端末30の機能構成を示すブロック図である。 CRMシステム50の機能構成を示すブロック図である。 ユーザテーブル1012のデータ構造を示す図である。 組織テーブル1013のデータ構造を示す図である。 対話テーブル1014のデータ構造を示す図である。 ラベルテーブル1015のデータ構造を示す図である。 音声区間テーブル1016のデータ構造を示す図である。 トピック関連度テーブル1017のデータ構造を示す図である。 感情条件マスタ1021のデータ構造を示す図である。 話者タイプマスタ1022のデータ構造を示す図である。 トピックマスタ1023のデータ構造を示す図である。 顧客テーブル5012のデータ構造を示す図である。 感情解析処理の動作を示すフローチャートである。 印象解析処理の動作を示すフローチャートである。 トピック解析処理の動作を示すフローチャートである。 トピック提示処理の動作を示すフローチャートである。 トピック提示処理の動作を示す画面例である。 コンピュータ90の基本的なハードウェア構成を示すブロック図である。
以下、本開示の実施形態について図面を参照して説明する。実施形態を説明する全図において、共通の構成要素には同一の符号を付し、繰り返しの説明を省略する。なお、以下の実施形態は、特許請求の範囲に記載された本開示の内容を不当に限定するものではない。また、実施形態に示される構成要素のすべてが、本開示の必須の構成要素であるとは限らない。また、各図は模式図であり、必ずしも厳密に図示されたものではない。
<システム1の構成>
本開示におけるシステム1は、オペレータである第1ユーザと顧客である第2ユーザとの間でオンラインで行われる対話サービス(オンライン対話サービス)を提供する情報処理システムである。なお、本開示におけるシステム1は、第1ユーザ、第2ユーザに加えて、他の1または複数のユーザを含む三者以上のユーザ間でオンラインで行われる対話サービスも提供可能としても良い。
システム1は、ネットワークNを介して接続された、サーバ10、第1ユーザ端末20、第2ユーザ端末30、CRMシステム50、音声サーバ(PBX)60の情報処理装置を備える。
図1は、システム1の機能構成を示すブロック図である。
図2は、サーバ10の機能構成を示すブロック図である。
図3は、第1ユーザ端末20の機能構成を示すブロック図である。
図4は、第2ユーザ端末30の機能構成を示すブロック図である。
図5は、CRMシステム50の機能構成を示すブロック図である。
各情報処理装置は演算装置と記憶装置とを備えたコンピュータにより構成されている。コンピュータの基本ハードウェア構成および、当該ハードウェア構成により実現されるコンピュータの基本機能構成は後述する。サーバ10、第1ユーザ端末20、第2ユーザ端末30、CRMシステム50、音声サーバ(PBX)60のそれぞれについて、後述するコンピュータの基本ハードウェア構成およびコンピュータの基本機能構成と重複する説明は省略する。
<サーバ10の構成>
サーバ10は、第1ユーザと第2ユーザとの間で行われる対話に関連するデータ(対話データ)を記憶、管理するサービスを提供する情報処理装置である。
サーバ10は、記憶部101、制御部104を備える。
<サーバ10の記憶部101の構成>
サーバ10の記憶部101は、アプリケーションプログラム1011、感情評価モデル1031、印象評価モデル1032、第1印象評価モデル1033、第2印象評価モデル1034、要約モデル1035、ユーザテーブル1012、組織テーブル1013、対話テーブル1014、ラベルテーブル1015、音声区間テーブル1016、トピック関連度テーブル1017、感情条件マスタ1021、話者タイプマスタ1022、トピックマスタ1023を備える。
アプリケーションプログラム1011は、サーバ10の制御部104を各機能ユニットとして機能させるためのプログラムである。
アプリケーションプログラム1011は、ウェブブラウザアプリケーションなどのアプリケーションを含む。
感情評価モデル1031は、音声データ、動画データ、音声データまたは動画データにおけるユーザの発言内容に関するテキストデータを入力データとして、複数の感情状態ごとの数値的な強度、数値を出力するためのモデルである。
印象評価モデル1032は、音声データ、動画データ、音声データまたは動画データにおけるユーザの発言内容に関するテキストデータを入力データとして、複数の印象ごとの数値的な強度、数値を出力するためのモデルである。
第1印象評価モデル1033は、音声データ、動画データ、音声データまたは動画データにおけるユーザの発言内容に関するテキストデータを入力データとして、話者の話し方に関する対話特徴量を出力するためのモデルである。対話特徴量とは、話者の話速、抑揚、丁寧な表現の数、フィラーの数および文法的な発話の数のうち少なくともいずれか1つの話し方に関する特徴量である。
第2印象評価モデル1034は、対話特徴量を入力データとして、複数の印象ごとの数値的な強度、数値を出力するためのモデルである。
ユーザテーブル1012は、サービスを利用する会員ユーザ(以下、ユーザ)の情報を記憶し管理するテーブルである。ユーザは、サービスの利用登録を行うことで、当該ユーザの情報がユーザテーブル1012の新しいレコードに記憶される。これにより、ユーザは本開示にかかるサービスを利用できるようになる。
ユーザテーブル1012は、ユーザIDを主キーとして、ユーザID、CRMID、組織ID、ユーザ名、ユーザ属性のカラムを有するテーブルである。
図6は、ユーザテーブル1012のデータ構造を示す図である。
ユーザIDは、ユーザを識別するためのユーザ識別情報を記憶する項目である。ユーザ識別情報は、ユーザごとにユニークな値が設定されている項目である。
CRMIDは、CRMシステム50において、ユーザを識別するためのユーザ識別情報を記憶する項目である。ユーザはCRMIDによりCRMシステム50にログインすることにより、CRMサービスの提供を受けることができる。サーバ10におけるユーザIDは、CRMシステム50におけるCRMIDと関連づけられている。
組織IDは、組織を識別するための組織識別情報を記憶する項目である。
ユーザ名は、ユーザの氏名を記憶する項目である。ユーザ名は、氏名ではなく、ニックネームなど任意の文字列を設定しても良い。
ユーザ属性は、ユーザの年齢、性別、出身地、方言、職種(営業、カスタマーサポートなど)などのユーザの属性に関する情報を記憶する項目である。ユーザ属性は、ユーザ個人の属性に関する情報に加え、ユーザが所属する組織、企業、グループ等に関する業種、事業規模、売上げ規模等の企業属性に関する情報を含んでも良い。
組織テーブル1013は、ユーザが所属する組織に関する情報(組織情報)を記憶し管理するテーブルである。組織は、会社、法人、企業グループ、サークル、各種団体など任意の組織、グループが含まれる。組織は、会社の部署(営業部、総務部、カスタマーサポート部)などのより詳細なサブグループごとに定義しても良い。
組織テーブル1013は、組織IDを主キーとして、組織ID、組織名、組織属性のカラムを有するテーブルである。
図7は、組織テーブル1013のデータ構造を示す図である。
組織IDは、組織を識別するための組織識別情報を記憶する項目である。組織識別情報は、組織情報ごとにユニークな値が設定されている項目である。
組織名は、組織の名称を記憶する項目である。組織名は任意の文字列を設定できる。
組織属性は、組織種別(会社、企業グループ、その他団体など)、業種(不動産、金融など)などの組織の属性に関する情報を記憶する項目である。
対話テーブル1014は、ユーザと顧客との間で行われる対話に関連する情報(対話情報)を記憶し管理するためのテーブルである。
対話テーブル1014は、対話IDを主キーとして、対話ID、ユーザID、顧客ID、対話カテゴリ、受発信種別、音声データ、動画データのカラムを有するテーブルである。
図8は、対話テーブル1014のデータ構造を示す図である。
対話IDは、対話を識別するための対話識別情報を記憶する項目である。対話識別情報は、対話情報ごとにユニークな値が設定されている項目である。
ユーザIDは、ユーザと顧客との間で行われる対話において、ユーザを識別するためのユーザ識別情報を記憶する項目である。対話情報ごとに、複数のユーザIDが関連づけられていても良い。
顧客IDは、ユーザと顧客との間で行われる対話において、顧客を識別するためのユーザ識別情報を記憶する項目である。対話情報ごとに、複数の顧客のユーザIDが関連づけられていても良い。
対話カテゴリは、ユーザと顧客との間で行われた対話の種類(カテゴリ)を記憶する項目である。対話データは、対話カテゴリにより分類される。対話カテゴリには、ユーザと顧客との間で行われる対話の目的などに応じて、テレフォンオペレーター、テレマーケティング、カスタマーサポート、テクニカルサポートなどの値が記憶される。
受発信種別は、ユーザと顧客との間で行われた対話が、ユーザが発信した(アウトバウンド)ものか、ユーザが受信した(インバウンド)もののいずれかを区別するための情報を記憶する項目である。また、3者以上のユーザによる対話の際には、ルームという受発信種別が記憶される。
音声データは、マイクにより集音された音声データを記憶する項目である。他の場所に配置された音声データファイルに対する参照情報(パス)を記憶するものとしても良い。音声データのフォーマットは、AAC,ATRAC、mp3、mp4など任意のデータフォーマットで良い。
音声データは、ユーザの音声と顧客の音声とが、それぞれ独立して識別可能な識別子が設定された形式のデータであっても良い。この場合、サーバ10の制御部104は、ユーザの音声、顧客の音声に対してそれぞれ独立した解析処理を実行できる。また、ユーザ、顧客の音声データに基づき、ユーザ、顧客のユーザIDを特定できる。
本開示において、音声データに替えて、音声情報を含む動画データを用いても構わない。また、本開示における音声データは、動画データに含まれる音声データも含む。
動画データは、カメラ等による撮影された動画データを記憶する項目である。他の場所に配置された動画データファイルに対する参照情報(パス)を記憶するものとしても良い。動画データのフォーマットは、MP4、MOV、WMV、AVI、AVCHDなど任意のデータフォーマットで良い。
動画データは、ユーザの動画と顧客の動画とが、それぞれ独立して識別可能な識別子が設定された形式のデータであっても良い。この場合、サーバ10の制御部104は、ユーザの動画、顧客の動画に対してそれぞれ独立した解析処理を実行できる。また、ユーザ、顧客の動画データに基づき、ユーザ、顧客のユーザIDを特定できる。
ラベルテーブル1015は、ラベルに関する情報(ラベル情報)を記憶し管理するためのテーブルである。
ラベルテーブル1015は、対話ID、ラベルデータのカラムを有するテーブルである。
図9は、ラベルテーブル1015のデータ構造を示す図である。
対話IDは、対話を識別するための対話識別情報を記憶する項目である。
ラベルデータは、対話を管理するためのラベル情報を記憶する項目である。ラベル情報は、分類名、ラベル、分類ラベル、タグなど、対話情報を管理するための付加的な情報である。
ラベルデータはラベル情報の名称を示す文字列でも良いし、他のテーブルに記憶されたラベル情報の名称を参照するためのラベルID等でも良い。
ラベルデータは、特定の対話における話者の感情状態に応じた分類情報を含む。分類データは、特定の対話において話者の応対の善し悪しを分類するための分類情報を含む。
音声区間テーブル1016は、対話情報に含まれる複数の音声区間に関する情報(音声区間情報)を記憶し管理するためのテーブルである。
音声区間テーブル1016は、区間IDを主キーとして、区間ID、対話ID、話者ID、開始日時、終了日時、区間音声データ、区間動画データ、区間読上テキスト、感情データ、印象データ、トピックIDのカラムを有するテーブルである。
図10は、音声区間テーブル1016のデータ構造を示す図である。
区間IDは、音声区間を識別するための区間識別情報を記憶する項目である。区間識別情報は、音声区間情報ごとにユニークな値が設定されている項目である。
対話IDは、音声区間情報が関連づけられる対話を識別するための対話識別情報を記憶する項目である。
話者IDは、音声区間情報が関連づけられる話者を識別するための話者識別情報を記憶する項目である。具体的に、話者IDは、対話に参加した、複数のユーザのユーザIDを記憶する項目である。
開始日時は、音声区間、動画区間の開始日時を記憶する項目である。
終了日時は、音声区間、動画区間の終了日時を記憶する項目である。
区間音声データは、音声区間に含まれる音声データを記憶する項目である。他の場所に配置された音声データファイルに対する参照情報(パス)を記憶するものとしても良い。また、開始日時、終了日時に基づき対話テーブル1014の音声データの開始日時から終了日時までの期間の音声データに対する参照を記憶しても良い。また、区間音声データは、区間動画データに含まれる音声データを含むものとしても構わない。
音声データのフォーマットは、AAC,ATRAC、mp3、mp4など任意のデータフォーマットで良い。
区間動画データは、音声区間に含まれる動画データを記憶する項目である。他の場所に配置された動画データファイルに対する参照情報(パス)を記憶するものとしても良い。また、開始日時、終了日時に基づき対話テーブル1014の動画データの開始日時から終了日時までの期間の動画データに対する参照を記憶しても良い。
動画データのフォーマットは、MP4、MOV、WMV、AVI、AVCHDなど任意のデータフォーマットで良い。
区間読上テキストは、音声区間に含まれる区間音声データにおいて話者により発話された内容のテキスト情報を記憶する項目である.具体的に、区間読上テキストは、区間音声データ、区間動画データに基づき、人手、任意の機械学習、深層学習等の学習モデルを用いることにより生成しても良い。
感情データは、音声区間において、話者の感情状態を記憶する項目である。感情データは、興味・興奮、喜び、驚き、不安、怒り、嫌悪、軽蔑、恐怖、恥、罪悪感等の、話者の複数の感情状態に関する多次元尺度(感情ベクトル)である。感情データは、対話区間において、話者がどのような感情状態にあるのか、複数の感情状態(次元)ごとの強度、数値として定量的に表現したものである。感情データは、感情ベクトルに基づき、1次元の感情に関する強度を示す感情スカラーを算出し、記憶する構成としても良い。
印象データは、音声区間において、話者の印象を記憶する項目である。印象データは、好き、嫌い、うるさい、聞きづらい、丁寧、わかりにくい、おどおどした、神経質、威圧的、暴力的および性的の、話者が与える複数の異なる印象に関する多次元尺度(ベクトル)である。対話区間において、話者がどのような印象を与えるのか、複数の印象(次元)ごとの強度、数値として定量的に表現したものである。
トピックIDは、音声区間において、音声区間に関連づけられたトピック識別情報を記憶する項目である。
トピック関連度テーブル1017は、音声区間ごとのトピック関連度に関する情報(トピック関連度情報)を記憶し管理するためのテーブルである。
トピック関連度テーブル1017は、区間ID、トピックID、関連度のカラムを有するテーブルである。
図11は、トピック関連度テーブル1017のデータ構造を示す図である。
区間IDは、対象となる音声区間の区間識別情報を記憶する項目である。
トピックIDは、トピックを識別するためのトピック識別情報を記憶する項目である。
関連度は、対話情報に含まれる音声区間において、トピックIDにより特定されるトピック識別情報ごとの関連度に関する情報を記憶する項目である。1の音声区間について、トピックIDにより特定されるトピックとの関連度を示す数値が記憶する項目である。関連度が大きいほど対話情報とトピックとの関連性が強くなる。
感情条件マスタ1021は、感情条件に関する情報(感情条件情報)を記憶し管理するためのテーブルである。
感情条件マスタ1021は、感情条件、ラベルデータのカラムを有するテーブルである。
図12は、感情条件マスタ1021のデータ構造を示す図である。
感情条件は、感情データに関する条件を記憶する項目である。具体的には、感情データの閾値、平均値、回帰分析を行った際の回帰係数などに対する条件が記憶される。
ラベルデータは、感情条件に関連づけられるラベル情報を記憶する項目である。
話者タイプマスタ1022は、印象条件に関する情報(印象条件情報)を記憶し管理するためのテーブルである。
話者タイプマスタ1022は、印象条件、話者タイプのカラムを有するテーブルである。
図13は、話者タイプマスタ1022のデータ構造を示す図である。
印象条件は、印象データに関する条件を記憶する項目である。具体的には、印象データの閾値、平均値、回帰分析を行った際の回帰係数などに対する条件が記憶される。
話者タイプは、印象条件に関連づけられる話者タイプを記憶する項目である。話者タイプは、強引、控え目、重厚、友好的、積極的、感情的などの話者が対話相手に与える印象を分類したものである。
トピックマスタ1023は、トピックに関する情報(トピック情報)を記憶し管理するためのテーブルである。
トピックマスタ1023は、トピックIDを主キーとして、トピックID、キーワードのカラムを有するテーブルである。
図14は、トピックマスタ1023のデータ構造を示す図である。
トピックIDは、トピックを識別するためのトピック識別情報を記憶する項目である。トピック識別情報は、トピック情報ごとにユニークな値が設定されている項目である。
キーワードは、トピックが関連づけられる複数のキーワードを記憶する項目である。具体的に、1のトピックに対して複数のキーワードが関連づけられる。
<サーバ10の制御部104の構成>
サーバ10の制御部104は、ユーザ登録制御部1041、感情解析部1042、印象解析部1043、トピック処理部1044、学習部1051を備える。制御部104は、記憶部101に記憶されたアプリケーションプログラム1011を実行することにより、各機能ユニットが実現される。
ユーザ登録制御部1041は、本開示に係るサービスの利用を希望するユーザの情報をユーザテーブル1012に記憶する処理を行う。
ユーザテーブル1012に記憶される情報は、ユーザが任意の情報処理端末からサービス提供者が運営するウェブページなどを開き、所定の入力フォームに情報を入力しサーバ10へ送信する。ユーザ登録制御部1041は、受信した情報をユーザテーブル1012の新しいレコードに記憶し、ユーザ登録が完了する。これにより、ユーザテーブル1012に記憶されたユーザはサービスを利用できるようになる。
ユーザ登録制御部1041によるユーザ情報のユーザテーブル1012への登録に先立ち、サービス提供者は所定の審査を行いユーザによるサービス利用可否を制限しても良い。
ユーザIDは、ユーザを識別できる任意の文字列または数字で良く、ユーザが希望する任意の文字列または数字、もしくはユーザ登録制御部1041が自動的に任意の文字列または数字を設定しても良い。
感情解析部1042は、感情解析処理を実行する。詳細は後述する。
印象解析部1043は、印象解析処理を実行する。詳細は後述する。
トピック処理部1044は、トピック定義処理、トピック解析処理、トピック提示処理を実行する。詳細は後述する。
学習部1051は、学習処理を実行する。
<第1ユーザ端末20の構成>
第1ユーザ端末20は、サービスを利用する第1ユーザが操作する情報処理装置である。第1ユーザ端末20は、例えば、据え置き型のPC(Personal Computer)、ラップトップPCであってもよいし、スマートフォン、タブレット等の携帯端末でもよい。また、HMD(Head Mount Display)、腕時計型端末等のウェアラブル端末であってもよい。
第1ユーザ端末20は、記憶部201、制御部204、入力装置206、出力装置208を備える。
<第1ユーザ端末20の記憶部201の構成>
第1ユーザ端末20の記憶部201は、第1ユーザID2011、アプリケーションプログラム2012を備える。
第1ユーザID2011は、第1ユーザのユーザ識別情報を記憶する。ユーザは、第1ユーザ端末20から第1ユーザID2011を、音声サーバ(PBX)60へ送信する。音声サーバ(PBX)60は、第1ユーザID2011に基づき第1ユーザを識別し、本開示にかかるサービスを第1ユーザに対して提供する。なお、第1ユーザID2011には、第1ユーザ端末20を利用しているユーザを識別するにあたり音声サーバ(PBX)60から一時的に付与されるセッションIDなどの情報を含む。
アプリケーションプログラム2012は、記憶部201に予め記憶されていても良いし、通信IFを介してサービス提供者が運営するウェブサーバ等からダウンロードする構成としても良い。
アプリケーションプログラム2012は、ウェブブラウザアプリケーションなどのアプリケーションを含む。
アプリケーションプログラム2012は、第1ユーザ端末20に記憶されているウェブブラウザアプリケーション上で実行されるJavaScript(登録商標)などのインタープリター型プログラミング言語を含む。
<第1ユーザ端末20の制御部204の構成>
第1ユーザ端末20の制御部204は、入力制御部2041、出力制御部2042を備える。制御部204は、記憶部201に記憶されたアプリケーションプログラム2012を実行することにより、各機能ユニットが実現される。
<第1ユーザ端末20の入力装置206の構成>
第1ユーザ端末20の入力装置206は、カメラ2061、マイク2062、位置情報センサ2063、モーションセンサ2064、キーボード2065を備える。
<第1ユーザ端末20の出力装置208の構成>
第1ユーザ端末20の出力装置208は、ディスプレイ2081、スピーカ2082を備える。
<第2ユーザ端末30の構成>
第2ユーザ端末30は、サービスを利用する第2ユーザが操作する情報処理装置である。第2ユーザ端末30は、例えば、スマートフォン、タブレット等の携帯端末でもよいし、据え置き型のPC(Personal Computer)、ラップトップPCであってもよい。また、HMD(Head Mount Display)、腕時計型端末等のウェアラブル端末であってもよい。
第2ユーザ端末30は、記憶部301、制御部304、入力装置306、出力装置308を備える。
<第2ユーザ端末30の記憶部301の構成>
第2ユーザ端末30の記憶部301は、アプリケーションプログラム3012、電話番号3013を備える。
アプリケーションプログラム3012は、記憶部301に予め記憶されていても良いし、通信IFを介してサービス提供者が運営するウェブサーバ等からダウンロードする構成としても良い。
アプリケーションプログラム3012は、ウェブブラウザアプリケーションなどのアプリケーションを含む。
アプリケーションプログラム3012は、第2ユーザ端末30に記憶されているウェブブラウザアプリケーション上で実行されるJavaScript(登録商標)などのインタープリター型プログラミング言語を含む。
<第2ユーザ端末30の制御部304の構成>
第2ユーザ端末30の制御部304は、入力制御部3041、出力制御部3042を備える。制御部304は、記憶部301に記憶されたアプリケーションプログラム3012を実行することにより、各機能ユニットが実現される。
<第2ユーザ端末30の入力装置306の構成>
第2ユーザ端末30の入力装置306は、カメラ3061、マイク3062、位置情報センサ3063、モーションセンサ3064、タッチデバイス3065を備える。
<第2ユーザ端末30の出力装置308の構成>
第2ユーザ端末30の出力装置308は、ディスプレイ3081、スピーカ3082を備える。
<CRMシステム50の構成>
CRMシステム50は、CRM(Customer Relationship Management、第2ユーザ関係管理)サービスを提供する事業者(CRM事業者)が管理、運営する情報処理装置である。CRMサービスとしては、SalesForce、HubSpot、Zoho CRM、kintoneなどがある。
CRMシステム50は、記憶部501、制御部504を備える。
<CRMシステム50の記憶部501の構成>
CRMシステム50の記憶部501は、アプリケーションプログラム5011、顧客テーブル5012を備える。
アプリケーションプログラム5011は、CRMシステム50の制御部504を各機能ユニットとして機能させるためのプログラムである。
アプリケーションプログラム5011は、ウェブブラウザアプリケーションなどのアプリケーションを含む。
顧客テーブル5012は、顧客にかかるユーザ情報(顧客情報)を記憶し管理するためのテーブルである。
顧客テーブル5012は、顧客IDを主キーとして、顧客ID、ユーザID、氏名、電話番号、話者タイプのカラムを有するテーブルである。
図15は、顧客テーブル5012のデータ構造を示す図である。
顧客IDは、顧客のユーザ識別情報を記憶する項目である。ユーザ識別情報は、顧客ごとにユニークな値が設定されている項目である。
ユーザIDは、顧客を管理するユーザのユーザ識別情報を記憶する項目である。
氏名は、顧客の氏名を記憶する項目である。
電話番号は、顧客の電話番号を記憶する項目である。
ユーザは、CRMシステムが提供するウェブサイトにアクセスし、電話を発信したい顧客を選択し「発信」などの所定の操作を行なうことにより、第1ユーザ端末20から顧客の電話番号に対して電話を発信できる。
話者タイプは、顧客IDにより特定されるユーザの話者タイプを記憶する項目である。
<CRMシステム50の制御部504の構成>
CRMシステム50の制御部504は、ユーザ登録制御部5041を備える。制御部504は、記憶部501に記憶されたアプリケーションプログラム5011を実行することにより、各機能ユニットが実現される。
ユーザ登録制御部5041は、本開示に係るサービスにおいて顧客情報を顧客テーブル5012に記憶する処理を行う。
顧客テーブル5012に記憶される情報は、ユーザが任意の情報処理端末からサービス提供者が運営するウェブページなどを開き、所定の入力フォームに情報を入力しCRMシステム50へ送信する。ユーザ登録制御部5041は、受信した情報を顧客テーブル5012の新しいレコードに記憶し、顧客の登録が完了する。これにより、顧客情報が顧客の管理を行うユーザのユーザIDと関連づけて記憶される。
顧客IDは、ユーザを識別できる任意の文字列または数字で良く、ユーザが希望する任意の文字列または数字、もしくはユーザ登録制御部5041が自動的に任意の文字列または数字を設定しても良い。
<音声サーバ(PBX)60の構成>
音声サーバ(PBX)60は、ネットワークNと電話網Tとを互いに接続することで第1ユーザ端末20と第2ユーザ端末30との間における対話を可能とする交換機として機能する情報処理装置である。
音声サーバ(PBX)60は、記憶部601を備える。
<音声サーバ(PBX)60の記憶部601の構成>
音声サーバ(PBX)60の記憶部601は、アプリケーションプログラム6011を備える。
アプリケーションプログラム6011は、音声サーバ(PBX)60の制御部604を各機能ユニットとして機能させるためのプログラムである。
アプリケーションプログラム6011は、ウェブブラウザアプリケーションなどのアプリケーションを含む。
<システム1の動作>
以下、システム1の各処理について説明する。
図16は、感情解析処理の動作を示すフローチャートである。
図17は、印象解析処理の動作を示すフローチャートである。
図18は、トピック解析処理の動作を示すフローチャートである。
図19は、トピック提示処理の動作を示すフローチャートである。
図20は、トピック提示処理の動作を示す画面例である。
<発信処理>
発信処理は、ユーザ(第1ユーザ)から顧客(第2ユーザ)に対し発信(架電)する処理である。
<発信処理の概要>
発信処理は、ユーザは第1ユーザ端末20の画面に表示された複数の顧客のうち発信を希望する顧客を選択し、発信操作を行うことにより、顧客に対して発信を行なう一連の処理である。本開示においては、顧客として第2ユーザを選択する場合を一例として説明する。
<発信処理の詳細>
ユーザから顧客に発信する場合におけるシステム1の発信処理について説明する。
ユーザが顧客に発信する場合、システム1において以下の処理が実行される。
ユーザは第1ユーザ端末20を操作することにより、ウェブブラウザを起動し、CRMシステム50が提供するCRMサービスのウェブサイトへアクセスする。ユーザは、CRMサービスが提供する顧客管理画面を開くことにより自身の顧客を第1ユーザ端末20のディスプレイ2081へ一覧表示できる。
具体的に、第1ユーザ端末20は、CRMID2013および顧客を一覧表示する旨のリクエストをCRMシステム50へ送信する。CRMシステム50は、リクエストを受信すると、顧客テーブル5012を検索し、顧客ID、氏名、電話番号、顧客属性、顧客組織名、顧客組織属性などのユーザの顧客に関する情報を第1ユーザ端末20に送信する。第1ユーザ端末20は、受信した顧客に関する情報を第1ユーザ端末20のディスプレイ2081に表示する。
ユーザは、第1ユーザ端末20のディスプレイ2081に一覧表示された顧客から発信を希望する顧客(第2ユーザ)を押下し選択する。顧客が選択された状態で、第1ユーザ端末20のディスプレイ2081に表示された「発信」ボタンまたは、電話番号ボタンを押下することにより、CRMシステム50に対し電話番号を含むリクエストを送信する。リクエストを受信したCRMシステム50は、電話番号を含むリクエストをサーバ10へ送信する。リクエストを受信したサーバ10は、音声サーバ(PBX)60に対し、発信リクエストを送信する。音声サーバ(PBX)60は、発信リクエストを受信すると、受信した電話番号に基づき第2ユーザ端末30に対し発信(呼出し)を行う。
これに伴い、第1ユーザ端末20は、スピーカ2082などを制御し音声サーバ(PBX)60により発信(呼出し)が行われている旨を示す鳴動を行う。また、第1ユーザ端末20のディスプレイ2081は、音声サーバ(PBX)60により顧客に対して発信(呼出し)が行われている旨を示す情報を表示する。例えば、第1ユーザ端末20のディスプレイ2081は、「呼出中」という文字を表示してもよい。
顧客は、第2ユーザ端末30において不図示の受話器を持ち上げたり、第2ユーザ端末30の入力装置306に着信時に表示される「受信」ボタンなどを押下することにより、第2ユーザ端末30は対話可能状態となる。これに伴い、音声サーバ(PBX)60は、第2ユーザ端末30による応答がなされたことを示す情報(以下、「応答イベント」と呼ぶ)を、サーバ10、CRMシステム50などを介して第1ユーザ端末20に送信する。
これにより、ユーザと顧客は、それぞれ第1ユーザ端末20、第2ユーザ端末30を用いて対話可能状態となり、ユーザと顧客との間で対話できるようになる。具体的には、第1ユーザ端末20のマイク2062により集音されたユーザの音声は、第2ユーザ端末30のスピーカ3082から出力される。同様に、第2ユーザ端末30のマイク3062から集音された顧客の音声は、第1ユーザ端末20のスピーカ2082から出力される。
第1ユーザ端末20のディスプレイ2081は、対話可能状態になると、応答イベントを受信し、対話が行われていることを示す情報を表示する。例えば、第1ユーザ端末20のディスプレイ2081は、「応答中」という文字を表示してもよい。
<着信処理>
着信処理は、ユーザが顧客から着信(受電)する処理である。
<着信処理の概要>
着信処理は、ユーザが第1ユーザ端末20においてアプリケーションを立ち上げている場合に、顧客がユーザに対して発信した場合に、ユーザが着信する一連の処理である。
<着信処理の詳細>
ユーザが顧客から着信(受電)する場合におけるシステム1の着信処理について説明する。
ユーザが顧客から着信する場合、システム1において以下の処理が実行される。
ユーザは第1ユーザ端末20を操作することにより、ウェブブラウザを起動し、CRMシステム50が提供するCRMサービスのウェブサイトへアクセスする。このとき、ユーザはウェブブラウザにおいて、自身のアカウントにてCRMシステム50にログインし待機しているものとする。なお、ユーザはCRMシステム50にログインしていれば良く、CRMサービスにかかる他の作業などを行っていても良い。
顧客は、第2ユーザ端末30を操作し、音声サーバ(PBX)60に割り当てられた所定の電話番号を入力し、音声サーバ(PBX)60に対して発信する。音声サーバ(PBX)60は、第2ユーザ端末30の発信を着信イベントとして受信する。
音声サーバ(PBX)60は、サーバ10に対し、着信イベントを送信する。具体的には、音声サーバ(PBX)60は、サーバ10に対して顧客の電話番号3011を含む着信リクエストを送信する。サーバ10は、CRMシステム50を介して第1ユーザ端末20に対して着信リクエストを送信する。
これに伴い、第1ユーザ端末20は、スピーカ2082などを制御し音声サーバ(PBX)60により着信が行われている旨を示す鳴動を行う。第1ユーザ端末20のディスプレイ2081は、音声サーバ(PBX)60により顧客から着信があること旨を示す情報を表示する。例えば、第1ユーザ端末20のディスプレイ2081は、「着信中」という文字を表示してもよい。
第1ユーザ端末20は、ユーザによる応答操作を受付ける。応答操作は、例えば、第1ユーザ端末20において不図示の受話器を持ち上げたり、第1ユーザ端末20のディスプレイ2081に「電話に出る」と表示されたボタンを、ユーザがマウス2066を操作して押下する操作などにより実現される。
第1ユーザ端末20は、応答操作を受付けると、音声サーバ(PBX)60に対し、CRMシステム50、サーバ10を介して応答リクエストを送信する。音声サーバ(PBX)60は、送信されてきた応答リクエストを受信し、音声通信を確立する。これにより、第1ユーザ端末20は、第2ユーザ端末30と対話可能状態となる。
第1ユーザ端末20のディスプレイ2081は、対話が行われていることを示す情報を表示する。例えば、第1ユーザ端末20のディスプレイ2081は、「対話中」という文字を表示してもよい。
<発信処理、着信処理の変形例>
第1ユーザが第2ユーザとの間で対話可能状態となる方法は、発信処理、着信処理に限られず、第1ユーザと第2ユーザとの間で対話を実現するための任意の方法を用いても構わない。例えば、サーバ10上に、第1ユーザと第2ユーザとの間で対話を行うためのルームとよばれる仮想的な対話空間を作成し、第1ユーザおよび第2ユーザが当該ルームへ第1ユーザ端末20、第2ユーザ端末30に記憶されたウェブブラウザまたはアプリケーションプログラムを介してアクセスすることにより対話可能状態となる方法でも構わない。この場合、音声サーバ(PBX)50は不要となる。
具体的には、対話の主催者となる第1ユーザが第1ユーザ端末20の入力装置206を操作し、サーバ10へ対話開催に関するリクエストを送信する。サーバ10の制御部104は、リクエストを受信するとユニークなルームIDなどのルーム識別情報を発行し、第1ユーザ端末20へレスポンスを送信する。第1ユーザは、受信したルーム識別情報を、対話相手である第2ユーザへメール、チャットなど任意の通信手段により送信する。第1ユーザは、第1ユーザ端末20の入力装置206を操作し、ウェブブラウザなどでサーバ10のルームに関するサービスを提供するURLへアクセスし、ルーム識別情報を入力することによりルームに入室できる。同様に、第2ユーザは第2ユーザ端末30の入力装置306を操作し、ウェブブラウザなどでサーバ10のルームに関するサービスを提供するURLへアクセスし、ルーム識別情報を入力することによりルームに入室できる。これにより、第1ユーザと第2ユーザとはルーム識別情報により関連付けられたルームとよばれる仮想的な対話空間内で、それぞれ第1ユーザ端末20、第2ユーザ端末30を介して対話を行うことができる。
ルーム識別情報を入力することにより、第1ユーザ、第2ユーザに加えて、他の1または複数のユーザが1つのルームに入室できる。これにより、三者以上の複数のユーザは、ルーム識別情報により関連付けられたルームとよばれる仮想的な対話空間内で、それぞれのユーザ端末を介して対話を行うことができる。
<動画対話>
本開示におけるシステム1は、動画データを含むオンライン対話サービス(ビデオ対話サービス)を提供しても良い。例えば、第1ユーザ端末20の制御部204、第2ユーザ端末30の制御部304は、それぞれ、第1ユーザ端末20のカメラ2061、第2ユーザ端末30のカメラ3061により撮影された動画データをサーバ10へ送信する。
サーバ10は、受信した動画データに基づき、第1ユーザ端末20のカメラ2061により撮影された動画データを第2ユーザ端末30へ、第2ユーザ端末30のカメラ3061により撮影された動画データを第1ユーザ端末20へ送信する。第1ユーザ端末20の制御部204は、受信した第2ユーザ端末30のカメラ3061により撮影された動画データをディスプレイ2081に表示する。第2ユーザ端末30の制御部304は、受信した第1ユーザ端末20のカメラ2061により撮影された動画データをディスプレイ3081に表示する。
サーバ10は、オンライン対話に参加している一部またはすべての複数のユーザの動画データを第1ユーザ端末20、第2ユーザ端末30へ送信しても良い。この場合、第1ユーザ端末20の制御部204は、受信したオンライン対話に参加している一部またはすべての複数のユーザの動画データを一画面に並べて第1ユーザ端末20のディスプレイ2081に表示する。これにより、オンライン対話に参加している複数のユーザの対話状況を確認できる。第2ユーザ端末30においても同様の処理を実行しても良い。
<対話記憶処理>
対話記憶処理は、ユーザと顧客との間で行われる対話に関するデータを記憶する処理である。
<対話記憶処理の概要>
対話記憶処理は、ユーザと顧客との間で対話が開始された場合に、対話に関するデータを対話テーブル1014に記憶する一連の処理である。
<対話記憶処理の詳細>
ユーザと顧客との間で対話が開始されると、音声サーバ(PBX)60は、ユーザと顧客との間で行われる対話に関する音声データを録音し、サーバ10へ送信する。サーバ10の制御部104は、音声データを受信すると、対話テーブル1014に新たなレコードを作成し、ユーザと顧客との間で行われる対話に関するデータを記憶する。具体的に、サーバ10の制御部104は、ユーザID、顧客ID、対話カテゴリ、受発信種別、音声データの内容を対話テーブル1014の新たなレコードに記憶する。
サーバ10の制御部104は、発信処理または着信処理において第1ユーザ端末20から、第1ユーザの第1ユーザID2011を取得し、対話テーブル1014の新たなレコードのユーザIDの項目に記憶する。
サーバ10の制御部104は、発信処理または着信処理において電話番号に基づきCRMシステム50へ問い合わせを行なう。CRMシステム50は、顧客テーブル5012を電話番号により検索することにより、顧客IDを取得し、サーバ10へ送信する。サーバ10の制御部104は、取得した顧客IDを対話テーブル1014の新たなレコードの顧客IDの項目に記憶する。
サーバ10の制御部104は、予めユーザまたは顧客ごとに設定された対話カテゴリの値を、対話テーブル1014の新たなレコードの対話カテゴリの項目に記憶する。なお、対話カテゴリは、対話ごとにユーザが値を選択、入力することにより記憶しても良い。
サーバ10の制御部104は、行われている対話がユーザにより発信したものか、顧客から発信されたものかを識別し、対話テーブル1014の新たなレコードの受発信種別の項目にアウトバウンド(ユーザから発信)、インバウンド(顧客から発信)のいずれかの値を記憶する。
サーバ10の制御部104は、音声サーバ(PBX)60から受信する音声データを、対話テーブル1014の新たなレコードの音声データの項目に記憶する。なお、音声データは他の場所に音声データファイルとして記憶し、対話終了後に、音声データファイルに対する参照情報(パス)を記憶するものとしても良い。また、サーバ10の制御部104は、対話終了後に音声データを記憶する構成としても良い。
また、ビデオ対話サービスにおいては、サーバ10の制御部104は、第1ユーザ端末20、第2ユーザ端末30のから受信する動画データを、対話テーブル1014の新たなレコードの動画データの項目に記憶する。なお、動画データは他の場所に動画データファイルとして記憶し、対話終了後に、動画データファイルに対する参照情報(パス)を記憶するものとしても良い。また、サーバ10の制御部104は、対話終了後に動画データを記憶する構成としても良い。
<感情解析処理>
感情解析処理は、複数のユーザにより行われたオンライン対話の音声、動画等の対話情報を解析し、対話に参加しているユーザの感情状態を特定するとともに、感情状態に基づきラベル情報を特定し、対話情報と関連づけて記憶する処理である。
<感情解析処理の概要>
感情解析処理は、ユーザ間のオンライン対話を検知すると、対話に関する対話情報を記憶し、対話情報に含まれる音声データ、動画データをそれぞれ発話区間ごとの区間音声データ、区間動画データ等の区間データへ分割し、区間データごとの感情特徴量を算定し、感情特徴量に基づきラベル情報を特定し、ラベル情報を対話情報と関連づけて記憶する一連の処理である。
<感情解析処理の詳細>
以下に、感情解析処理の詳細を説明する。
ステップS101において、既に説明した発信処理、着信処理、ルーム等を介してユーザと顧客との間でのオンライン対話が開始される。
ステップS102において、サーバ10の感情解析部1042は、対話に関する音声データを受け付ける受付ステップを実行する。
具体的に、対話記憶処理により、第1ユーザ端末20は、第1ユーザID2011、マイク2062から集音した音声データ、カメラ2061により撮影した動画データをサーバ10へ送信する。サーバ10の制御部104は、受信した第1ユーザID2011、音声データ、動画データを、それぞれ、対話テーブル1014の新たなレコードのユーザID、音声データ、動画データの項目に記憶する。
同様に、第2ユーザ端末30は、第2ユーザID3011、マイク3062から集音した音声データ、カメラ3061により撮影した動画データをサーバ10へ送信する。サーバ10の制御部104は、受信した第2ユーザID3011、音声データ、動画データを、それぞれ、対話テーブル1014の新たなレコードのユーザID、音声データ、動画データの項目に記憶する。
これに伴い、新たな対話IDが採番され、対話テーブル1014の新たなレコードの対話IDの項目に記憶される。
ステップS103において、サーバ10の感情解析部1042は、受付ステップにおいて受け付けた音声データから、発話区間ごとに複数の区間音声データを抽出する音声抽出ステップを実行する。
具体的に、サーバ10の感情解析部1042は、ステップS102において対話テーブル1014に記憶された対話ID、音声データ、動画データを取得する(受け付ける)。サーバ10の感情解析部1042は、取得(受付)した音声データ、動画データから、音声が存在する区間(発話区間)を検出し、発話区間のそれぞれに対して音声データ、動画データを、それぞれ、区間音声データ、区間動画データとして抽出する。区間音声データ、区間動画データは、発話区間ごとに話者のユーザID、発話区間の開始日時、発話区間の終了日時と関連づけられる。
サーバ10の感情解析部1042は、抽出された区間音声データ、区間動画データの発話内容に対してテキスト認識を行うことにより、区間音声データ、区間動画データを文字(テキスト)である区間読上テキストに変換し、文字に起こす。なお、テキスト認識の具体的手法は特に限定されない。例えば信号処理技術、AI(人工知能)を利用した機械学習や深層学習等によって変換してもよい。
サーバ10の感情解析部1042は、処理対象の対話ID、話者のユーザID(第1ユーザID2011または第2ユーザID3011)、開始日時、終了日時、区間音声データ、区間動画データ、区間読上テキストを、それぞれ、音声区間テーブル1016の新たなレコードの対話ID、話者ID、開始日時、終了日時、区間音声データ、区間動画データ、区間読上テキストの項目に記憶する。
音声区間テーブル1016には、音声データの発話区間ごとの区間読上テキストが、開始日時、話者と関連づけられ連続的な時系列データとして記憶される。ユーザは、音声区間テーブル1016に記憶された区間読上テキストを確認することにより、音声データの内容を確認することなしにテキスト情報として対話内容を確認できる。
なお、テキスト認識処理の際に、予めテキストに含まれるフィラーなどのユーザと顧客との間で行われた対話を把握する上で無意味な情報をテキストから除外して、音声認識情報を音声区間テーブル1016に記憶する構成としても良い。
ステップS104において、サーバ10の感情解析部1042は、音声抽出ステップにおいて抽出された複数の区間音声データのそれぞれに対応し、区間音声データにおける話者の感情状態に関する複数の感情特徴量を算定する感情算定ステップを実行する。感情算定ステップは、音声抽出ステップにおいて抽出した区間音声データを入力データとして、学習モデルに適用することにより、感情特徴量を出力データとして算定する。
具体的に、サーバ10の感情解析部1042は、S103において音声区間テーブル1016に記憶された区間音声データ、区間動画データ、区間読上テキストを取得し、入力データとして感情評価モデル1031に適用する、感情評価モデル1031は入力データに応じた感情特徴量を出力データとして出力する。
ステップS104において、感情算定ステップは、音声抽出ステップにおいて抽出された複数の区間音声データのそれぞれに対応する、多次元の感情に関する強度を示す感情ベクトルを算定するステップを実行する。
具体的に、サーバ10の感情解析部1042は、S103において音声区間テーブル1016に記憶された区間音声データ、区間動画データ、区間読上テキストを取得し、入力データとして感情評価モデル1031に適用する、感情評価モデル1031は入力データに応じた複数の感情状態(次元)ごとの強度、数値として定量的に表現される感情ベクトルを出力データとして出力する。
感情算定ステップは、算定された感情ベクトルに基づき、音声抽出ステップにおいて抽出された複数の区間音声データのそれぞれに対応する、1次元の感情に関する強度を示す感情スカラーを算定するステップを実行する。
サーバ10の感情解析部1042は、感情ベクトルに対して、主成分分析、深層学習モデル等の学習モデル、感情ベクトルの成分ごとの演算等を適用することにより、1次元の感情に関する強度を示す感情スカラーを算出する。例えば、感情スカラーは音声区間情報における話者の感情状態のポジティブ度、ネガティブ度を定量的に表現した指標であり、+1(ポジティブ)から、-1(ネガティブ)の値の範囲に正規化された数値データとしても良い。
サーバ10の感情解析部1042は、算定した感情特徴量である感情ベクトル、感情スカラーを、音声区間テーブル1016の解析対象のレコードの感情データの項目に記憶する。感情データの項目には、感情ベクトル、感情スカラーのいずれかが記憶される構成としても良い。
ステップS104において、サーバ10の感情解析部1042は、音声区間テーブル1016の解析対象のレコードの話者IDに基づき、ユーザテーブル1012のユーザIDを検索し、ユーザ属性を取得する。
ステップS105において、サーバ10の感情解析部1042は、感情算定ステップにおいて算定された複数の感情特徴量に基づき、対話に対するラベル情報を特定するラベル特定ステップを実行する。
具体的に、サーバ10の感情解析部1042は、対話IDに基づき、音声区間テーブル1016の対話IDを検索し、感情データの項目を取得する。サーバ10の感情解析部1042は、感情データに基づき、感情条件マスタ1021の感情条件に該当するレコード有無を検索し、該当するレコードのラベルデータの項目を取得する。
本開示においては、サーバ10の感情解析部1042は、1の対話情報に対して抽出された複数の音声区間情報のそれぞれに対して算定し、記憶された複数の感情データに対応する複数の感情特徴量を、感情条件として、ラベルデータを特定し、取得する構成としても良い。
ステップS105において、ラベル特定ステップは、感情算定ステップにおいて算定された複数の感情スカラーに基づき、対話に対するラベル情報を特定するステップを実行する。
具体的に、サーバ10の感情解析部1042は、1の対話情報に対して抽出された複数の音声区間情報のそれぞれに対して算定し、記憶された複数の感情データに含まれる感情スカラーを、感情条件として、ラベルデータを特定しても良い。
ステップS105において、ラベル特定ステップは、感情算定ステップにおいて算定された複数の感情ベクトルに基づき、対話に対するラベル情報を特定するステップを実行する。
具体的に、サーバ10の感情解析部1042は、1の対話情報に対して抽出された複数の音声区間情報のそれぞれに対して算定し、記憶された複数の感情データに含まれる感情ベクトルを、感情条件として、ラベルデータを特定しても良い。例えば、感情条件は、感情ベクトルのそれぞれの要素成分に対する範囲等により特定される構成としても良い。
ステップS105において、ラベル特定ステップは、感情算定ステップにおいて算定された複数の感情特徴量のうち、所定の閾値以上または以下の感情特徴量の個数に基づき、対話に対するラベル情報を特定するステップを実行する。
具体的に、感情条件マスタ1021の感情条件の項目に、所定の閾値と、閾値以上の個数(所定個数)の情報が記憶されているとする。サーバ10の感情解析部1042は、1の対話情報に対して抽出された複数の音声区間情報のそれぞれに対応する感情スカラーの値を、所定の閾値と比較し、所定の閾値以上の音声区間情報(感情スカラー)の個数をカウントする。なお、所定の閾値以下の個数をカウントしても構わない。
サーバ10の感情解析部1042は、カウントされた音声区間情報の個数が、所定個数よりも多い場合には当該感情条件に該当すると判定し、感情条件マスタ1021において感情条件に関連付けられたラベルデータの項目を取得し特定する。
例えば、所定の閾値以上の音声区間情報(感情スカラー)の個数が、所定個数よりも多い場合は、対話における感情状態がポジティブであることを示すラベル情報を特定する。同様に、所定の閾値以下の音声区間情報(感情スカラー)の個数が、所定個数よりも多い場合は、対話における感情状態がネガティブであることを示すラベル情報を特定する。
ステップS105において、ラベル特定ステップは、感情算定ステップにおいて算定された複数の感情特徴量のうち、所定の閾値以上または以下の感情特徴量が占める割合に基づき、対話に対するラベル情報を特定するステップを実行する。
具体的に、感情条件マスタ1021の感情条件の項目に、所定の閾値と、閾値以上の割合(所定割合)の情報が記憶されているとする。サーバ10の感情解析部1042は、1の対話情報に対して抽出された複数の音声区間情報のそれぞれに対応する感情スカラーの値を、所定の閾値と比較し、所定の閾値以上の音声区間情報(感情スカラー)の個数をカウントする。なお、所定の閾値以下の個数をカウントしても構わない。
サーバ10の感情解析部1042は、カウントされた音声区間情報の個数の、1の対話情報に対して抽出されたすべての音声区間情報の個数に対する割合が、所定割合よりも多い場合には当該感情条件に該当すると判定し、感情条件マスタ1021において感情条件に関連付けられたラベルデータの項目を取得し特定する。
例えば、所定の閾値以上の音声区間情報(感情スカラー)の割合が、所定割合よりも多い場合は、対話における感情状態がポジティブであることを示すラベル情報を特定する。同様に、所定の閾値以下の音声区間情報(感情スカラー)の割合が、所定割合よりも多い場合は、対話における感情状態がネガティブであることを示すラベル情報を特定する。
なお、感情スカラーの代わりに、感情ベクトルに含まれる1の要素成分、感情ベクトルに含まれる1または複数の要素成分に基づき算定される指標等を感情特徴量とみなして、同様の処理を実行しても構わない。
ステップS105において、ラベル特定ステップは、感情算定ステップにおいて算定された複数の感情特徴量の統計値に基づき、対話に対するラベル情報を特定するステップを実行する。
具体的に、感情条件マスタ1021の感情条件の項目に、所定の閾値の情報が記憶されているとする。サーバ10の感情解析部1042は、1の対話情報に対して抽出された複数の音声区間情報のそれぞれに対応する感情スカラーの値の平均値、中央値、最頻値などの平均、最大値、最小値などの統計値を算定し、所定の閾値と比較し、所定の閾値以上の場合には当該感情条件に該当すると判定し、感情条件マスタ1021において感情条件に関連付けられたラベルデータの項目を取得し特定する。なお、所定の閾値以下の場合を条件としても構わない。
ステップS105において、ラベル特定ステップは、感情算定ステップにおいて算定された複数の感情特徴量の時系列的な変化に基づき、対話に対するラベル情報を特定するステップを実行する。
ラベル特定ステップは、感情算定ステップにおいて算定された複数の感情特徴量の時系列的な変化に対して回帰分析を行うステップと、回帰分析の結果得られた回帰係数に基づき、対話に対するラベル情報を特定するステップと、を含む。
具体的に、感情条件マスタ1021の感情条件の項目に、回帰係数の範囲が記憶されているとする。対象となる対話データにおいて、対話データに関連づけられた複数の音声区間情報のそれぞれに対して、X軸に音声区間情報の開始日時、終了日時、開始日時から終了日時の間の任意の日時の値、Y軸に当該音声区間情報の感情データに含まれる感情スカラーの値とした場合に、Y=f(X)の回帰分析を行う。回帰分析は、1次回帰、2次回帰等、任意の回帰分析を適用しても構わない。回帰分析を行うことにより回帰係数を算定し、回帰係数の範囲と比較し、回帰係数の範囲内の場合には当該感情条件に該当すると判定し、感情条件マスタ1021において感情条件に関連付けられたラベルデータの項目を取得し特定する。
例えば、線形回帰(1次回帰)の場合において、切片が負であり、傾きが正である場合は、対話における感情状態が改善していることを示すラベル情報を特定する。
なお、感情スカラーの代わりに、感情ベクトルに含まれる1の要素成分、感情ベクトルに含まれる1または複数の要素成分に基づき算定される指標等を感情特徴量とみなして、同様の処理を実行しても構わない。
ステップS105において、サーバ10の感情解析部1042は、音声抽出ステップにおいて抽出した時系列的に連続する複数の区間音声データに対応した複数の感情特徴量の集合である第1感情群を特定するステップを実行する。サーバ10の感情解析部1042は、音声抽出ステップにおいて抽出した時系列的に連続する複数の区間音声データに対応した複数の感情特徴量の集合である第2感情群を特定するステップを実行する。
具体的に、サーバ10の感情解析部1042は、1の対話情報に対して抽出された複数の音声区間情報を、それぞれ複数の音声区間情報からなる区間群に分割し、それぞれの区間群に対して既に説明したラベル特定ステップを実行しても構わない。これにより、複数の区間群のそれぞれに対応するラベル情報が特定される。
例えば、サーバ10の感情解析部1042は、区間群に含まれる抽出された複数の音声区間情報のそれぞれに対して感情スカラーを算定し感情データに記憶する。記憶された複数の感情データに含まれる感情スカラーを、感情条件として、ラベルデータを特定しても良い。
例えば、サーバ10の感情解析部1042は、区間群に含まれる抽出された複数の音声区間情報のそれぞれに対して感情ベクトルを算定し感情データに記憶する。記憶された複数の感情データに含まれる感情ベクトルを、感情条件として、ラベルデータを特定しても良い。
ステップS105において、ラベル特定ステップは、第1感情群に含まれる複数の感情特徴量に基づき、対話に対する第1ラベル情報を特定するステップと、第2感情群に含まれる複数の感情特徴量に基づき、対話に対する第2ラベル情報を特定するステップと、を含む。
具体的に、サーバ10の感情解析部1042は、1の対話情報に対して抽出された複数の音声区間情報を、それぞれ複数の音声区間情報からなる区間群に分割し、それぞれの区間群に対して既に説明したラベル特定ステップを実行することにより、複数の区間群のそれぞれに対応するラベル情報が特定される。
ステップS105において、サーバ10の感情解析部1042は、第1ラベル情報および第2ラベル情報を、第1ユーザに提示するラベル提示ステップを実行する。
具体的に、サーバ10の感情解析部1042は、特定された第1ラベル情報、第2ラベル情報を第1ユーザ端末20へ送信する。第1ユーザ端末20の制御部204は、受信した第1ラベル情報、第2ラベル情報を第1ユーザ端末20のディスプレイ2081に表示し、第1ユーザに提示する。なお、第1ラベル情報および第2ラベル情報は、第2ユーザ、それ以外の管理者、他のユーザ等の任意のユーザに提示しても良い。
ステップS105において、サーバ10の感情解析部1042は、第1ユーザから、ラベル提示ステップにおいて提示した第1ラベル情報および第2ラベル情報の少なくともいずれか1つを選択する選択指示を受け付ける選択受付ステップを実行する。
具体的に、第1ユーザは、第1ユーザ端末20の入力装置206などを操作することにより、第1ユーザ端末20のディスプレイ2081に提示された第1ラベル情報、第2ラベル情報のいずれか1つを選択する。なお、第1ユーザはいずれも選択しないものとしても良い。第1ユーザ端末20の制御部204は、選択されたラベル情報をサーバ10へ送信する。サーバ10の感情解析部1042は、受信したラベル情報を特定する。
ステップS105において、ラベル特定ステップは、感情算定ステップにおいて算定された複数の感情特徴量と、複数の感情特徴量に対応する区間音声データを発話した第1ユーザまたは第2ユーザのユーザ属性と、に基づき、対話に対するラベル情報を特定するステップを実行する。
具体的に、サーバ10の感情解析部1042は、ラベル情報を特定する際に、ステップS104において特定した第1ユーザ、第2ユーザのユーザ属性を考慮し、ラベル情報を特定しても良い。例えば、感情条件マスタ1021における感情条件に、第1ユーザ、第2ユーザのユーザ属性を条件として含めても構わない。
ステップS105において、ラベル特定ステップは、感情算定ステップにおいて算定された、第2ユーザの発話にかかる区間音声データに対応する複数の感情特徴量に基づき、第1ユーザの発話にかかる区間音声データに対応する複数の感情特徴量を考慮せずに、対話に対するラベル情報を特定するステップを実行する。
具体的に、サーバ10の感情解析部1042は、1の対話情報に対して抽出された複数の音声区間情報のうち、話者IDが第1ユーザID2011である音声区間情報を除外し、話者IDが第2ユーザID3011である音声区間情報のみに基づき、既に説明したラベル特定ステップを実行しても構わない。
これにより、顧客の感情状態のみ考慮したラベル情報を特定できる。通常、オペレータ等に相当する第1ユーザは、自身の感情状態ではなく、顧客の感情状態に関心があることが一般的である。このような構成にすることにより、顧客の感情状態を特に考慮したラベル情報を特定できる。
サーバ10の感情解析部1042は、1の対話情報に対して抽出された複数の音声区間情報のうち、話者IDが第2ユーザID3011である音声区間情報を除外し、話者IDが第1ユーザID2011である音声区間情報のみに基づき、既に説明したラベル特定ステップを実行しても構わない。
サーバ10の感情解析部1042は、話者IDが第1ユーザID2011である音声区間情報、話者IDが第2ユーザID3011である音声区間情報、のそれぞれに対して既に説明したラベル特定ステップを実行して、それぞれ、第1のラベル情報、第2のラベル情報の複数のラベル情報を特定しても良い。
また、サーバ10の感情解析部1042は、1の対話情報に対して抽出された複数の音声区間情報のうち、話者IDにより特定されるユーザが対話の主催者であるホストユーザである音声区間情報を除外し、話者IDにより特定されるユーザがホストユーザでない音声区間情報のみに基づき、既に説明したラベル特定ステップを実行しても構わない。
これにより、対話の主催者の感情状態を考慮せずにラベル情報を特定できる。通常、対話の主催者は、自身の感情状態ではなく、対話相手の感情状態に関心があることが一般的である。このような構成にすることにより、対話相手の感情状態を考慮したラベル情報を特定できる。
ステップS106において、サーバ10の感情解析部1042は、ラベル特定ステップにおいて特定されたラベル情報を、対話と関連づけて記憶する記憶ステップを実行する。
具体的に、サーバ10の感情解析部1042は、ステップS105において特定されたラベル情報を、ステップS101において採番された対話IDと関連づけてラベルテーブル1015のラベルデータの項目に記憶する。
なお、ステップS105においては、特定されたラベル情報を第1ユーザに提示し、第1ユーザから選択指示を受け付けたラベル情報をラベルテーブル1015のラベルデータとして記憶する構成としても良い。
ステップS106において、記憶ステップは、ラベル特定ステップにおいて特定された第1ラベル情報または第2ラベル情報を、対話と関連づけて記憶するステップを実行する。記憶ステップは、選択受付ステップにおいて第1ユーザから受け付けた選択指示に基づき第1ラベル情報および第2ラベル情報の少なくともいずれか1つを、対話と関連づけて記憶するステップを実行する。
具体的に、第1ユーザから選択指示を受け付けたラベル情報をラベルテーブル1015のラベルデータとして記憶する構成としても良い。
また、第1ユーザは、第1ユーザ端末20の入力装置206を操作することにより、サーバ10からラベルテーブル1015に記憶されたラベル情報を、第1ユーザ端末20のディスプレイ2081に表示することができる。
<感情解析処理の実行タイミングについて>
感情解析処理のステップS103~S106は複数のユーザによるオンライン対話の終了後に実行する構成としても良い。これにより、オンライン対話が終了した後、対話内容が確定した後に、対話におけるユーザの感情状態に応じたラベル情報が特定され、対話情報と関連づけられて記憶される。
また、感情解析処理は複数のユーザによるオンライン対話の開始後、対話の終了前までに実行する構成としても良い。
つまり、複数のユーザによるオンライン対話の対話中の任意のタイミングに実行する構成としても良い。また、ステップS103~ステップS106は、オンライン対話の対話中に定期的にリアルタイムに実行する構成としても良い。これにより、オンライン対話の対話途中においても、それまでの対話におけるユーザの感情状態に応じたラベル情報が特定され、対話情報と関連づけられて記憶される構成としても良い。
これにより、ユーザは、オンライン対話の対話中にリアルタイムに、オンライン対話に参加しているユーザの感情状態を確認できるとともに、対話情報を最新の感情状態に基づき整理、管理できる。
<印象解析処理>
印象解析処理は、複数のユーザにより行われたオンライン対話の音声、動画等の対話情報を解析し、対話に参加しているユーザの印象状態を特定するとともに、印象状態、話者タイプをユーザに提示する処理である。
<印象解析処理の概要>
印象解析処理は、ユーザ間のオンライン対話を検知すると、対話に関する対話情報を記憶し、対話情報に含まれる音声データ、動画データをそれぞれ発話区間ごとの区間音声データ、区間動画データ等の区間データへ分割し、区間データごとの印象特徴量を算定し、印象特徴量に基づき話者タイプを特定し、特定した話者タイプをユーザへ提示する一連の処理である。
<印象解析処理の詳細>
以下に、印象解析処理の詳細を説明する。
ステップS301において、既に説明した発信処理、着信処理、ルーム等を介してユーザと顧客との間でのオンライン対話が開始される。
ステップS302において、サーバ10の印象解析部1043は、第2ユーザから第1ユーザとの対話応対に関する対話情報を取得する対話取得ステップを実行する。
ステップS302は、感情解析処理におけるステップS102と同様であるため説明を省略する。
ステップS303において、サーバ10の印象解析部1043は、ステップS302において受け付けた第2ユーザの音声データから、発話区間ごとに複数の区間音声データを抽出する音声抽出ステップを実行する。
ステップS303は、感情解析処理におけるステップS103と同様であるため説明を省略する。
ステップS304において、サーバ10の印象解析部1043は、対話取得ステップにおいて取得した第2ユーザの対話情報に基づき、対話において第2ユーザが他のユーザに対して与える印象に関する印象特徴量を算定する印象算定ステップを実行する。印象算定ステップは、対話取得ステップにおいて第2ユーザから取得した対話情報に基づき、好き、嫌い、うるさい、聞きづらい、丁寧、わかりにくい、おどおどした、神経質、威圧的、暴力的および性的のうち少なくともいずれか1つの印象に関する強度を示す印象特徴量を算定するステップを実行する。
印象算定ステップは、対話取得ステップにおいて第2ユーザから取得した対話情報を入力データとして、学習モデルに適用することにより、対話において第2ユーザが他のユーザに対して与える印象に関する印象特徴量を出力データとして算定するステップを実行する。
具体的に、サーバ10の印象解析部1043は、S303において音声区間テーブル1016に記憶された区間音声データ、区間動画データ、区間読上テキストを取得し、音声区間情報のうち話者IDが第1ユーザID2011である音声区間情報を除外し、話者IDが第2ユーザID3011である音声区間情報のみを入力データとして印象評価モデル1032に適用し、印象評価モデル1032は入力データに応じた印象特徴量を出力データとして出力する。これにより、第2ユーザが与える印象を、印象特徴量により評価できる。
なお、印象評価モデル1032に適用する入力データは、音声区間情報のうち話者IDが第2ユーザID3011である音声区間情報を除外し、話者IDが第1ユーザID2011である音声区間情報としても良い。この場合、第1ユーザが与える印象を、印象特徴量により評価できる。
ステップS304において、印象算定ステップは、対話取得ステップにおいて取得した第2ユーザの対話情報に基づき、対話における第2ユーザの話し方に関する対話特徴量を算定するステップと、算定された対話特徴量に基づき、印象特徴量を算定するステップと、を含む。
印象算定ステップは、対話取得ステップにおいて取得した第2ユーザの対話情報を入力データとして、第1学習モデルに適用することにより、対話における第2ユーザの話し方に関する対話特徴量を出力データとして算定するステップと、算定された対話特徴量を入力データとして、第2学習モデルに適用することにより、印象特徴量を算定するステップと、を含む。
印象算定ステップは、対話取得ステップにおいて取得した第2ユーザの対話情報に基づき、対話における第2ユーザの話速、抑揚、丁寧な表現の数、フィラーの数および文法的な発話の数のうち少なくともいずれか1つの話し方に関する対話特徴量を算定するステップを含む。
具体的に、サーバ10の印象解析部1043は、S303において音声区間テーブル1016に記憶された区間音声データ、区間動画データ、区間読上テキストを取得し、音声区間情報のうち話者IDが第1ユーザID2011である音声区間情報を除外し、話者IDが第2ユーザID3011である音声区間情報のみを入力データとして第1印象評価モデル1033に適用し、第1印象評価モデル1033は入力データに応じた対話特徴量を出力データとして出力する。
サーバ10の印象解析部1043は、対話特徴量を入力データとして第2印象評価モデル1034に適用し、第2印象評価モデル1034は入力データに応じた印象特徴量を出力データとして出力する。これにより、第2ユーザが与える印象を、印象特徴量により評価できる。
なお、印象評価モデル1032に適用する入力データは、音声区間情報のうち話者IDが第2ユーザID3011である音声区間情報を除外し、話者IDが第1ユーザID2011である音声区間情報としても良い。この場合、第1ユーザが与える印象を、印象特徴量により評価できる。
ステップS304において、サーバ10の印象解析部1043は、印象算定ステップにおいて算定された印象特徴量を、第2ユーザと関連づけて記憶する記憶ステップを実行する。
具体的に、サーバ10の印象解析部1043は、算定された印象特徴量を、音声区間テーブル1016の解析対象のレコードの印象データの項目に記憶する。これにより、音声区間テーブル1016の話者ID(第2ユーザID)を介して、印象特徴量が第2ユーザと関連づけて記憶される。なお、印象特徴量は、CRMシステム50の顧客テーブル5012に不図示の印象データを記憶するカラムを設けることにより、第2ユーザIDと関連づけて記憶する構成としても良い。また、印象特徴量は、サーバ10のユーザテーブル1012に不図示の印象データを記憶するカラムを設けることにより、第2ユーザIDと関連づけて記憶する構成としても良い。
CRMシステム50の顧客テーブル5012に記憶することにより、対象となる対話において特定されたユーザの印象特徴量を、社内の他の部署のメンバー等と共有できる。例えば、印象特徴量により特定される対話相手の印象に応じて効率的な業務を行うことができる。
ステップS305において、サーバ10の印象解析部1043は、印象算定ステップにおいて算定された印象特徴量に基づき、第2ユーザが他のユーザに対して与える印象をラベルした話者タイプを特定する特定ステップを実行する。
具体的に、サーバ10の印象解析部1043は、対話IDに基づき、音声区間テーブル1016の対話IDを検索し、印象データの項目を取得する。サーバ10の印象解析部1043は、印象データに基づき、話者タイプマスタ1022の印象条件に該当するレコード有無を検索し、該当するレコードの話者タイプの項目を取得する。
本開示においては、サーバ10の印象解析部1043は、1の対話情報に対して抽出された複数の音声区間情報のそれぞれに対して算定し、記憶された複数の印象データにかかる印象特徴量を、印象条件として、話者タイプを特定し、取得する構成としても良い。
ステップS305において、サーバ10の印象解析部1043は、特定ステップにおいて特定された話者タイプを、第2ユーザと関連づけて記憶する記憶ステップを実行する。
具体的に、サーバ10の印象解析部1043は、特定された話者タイプ、第2ユーザIDをCRMシステム50へ送信する。CRMシステム50の制御部504は、受信した話者タイプ、第2ユーザIDをそれぞれ、顧客テーブル5012の話者タイプ、ユーザIDの項目に記憶する。つまり、特定した話者タイプを、当該対話において発話したユーザのユーザIDと関連づけて記憶する。
CRMシステム50の顧客テーブル5012に記憶することにより、対象となる対話において特定されたユーザの話者タイプを、社内の他の部署のメンバー等と共有できる。例えば、対話相手の話者タイプに応じて効率的な応対業務を行うことができる。
本開示においては、ユーザの話者タイプをCRMシステム50の顧客テーブル5012に記憶する構成としたが、サーバ10のユーザテーブル1012に第2ユーザと関連づけて記憶する構成としても構わない。
ステップS306において、サーバ10の印象解析部1043は、第1ユーザに対して、記憶ステップにおいて第2ユーザと関連づけて記憶された印象特徴量を提示する提示ステップを実行する。
具体的に、サーバ10の印象解析部1043は、ステップS305において特定された印象特徴量を第1ユーザ端末20へ送信する。第1ユーザ端末20の制御部204は、受信した印象特徴量を、第1ユーザ端末20のディスプレイ2081に表示し、第1ユーザへ提示する。なお、印象特徴量は、第2ユーザ、それ以外の管理者、他のユーザ等の任意のユーザに提示しても良い。
ステップS306において、サーバ10の印象解析部1043は、第1ユーザと第2ユーザとの間で行われる対話に先立って、第1ユーザに対して、記憶ステップにおいて第2ユーザと関連づけて記憶された印象特徴量を提示する提示ステップを実行する。
例えば、第1ユーザまたは他のユーザが、発信処理、着信処理、ルーム等を介して第2ユーザとの間でのオンライン対話を開始する際に、第1ユーザ端末20のディスプレイ2081に表示される、第2ユーザへ発信を行うための発信画面、第2ユーザから着信を受けるための着信画面、対話開始前のルーム画面等に、ステップS305において第2ユーザと関連づけられて記憶された第2ユーザの印象特徴量を表示し、第1ユーザへ提示しても良い。
これにより、第1ユーザは、対話開始に先立ち、第2ユーザの印象に応じた応対を準備できる。
なお、サーバ10の印象解析部1043は、第1ユーザと第2ユーザとの間で行われる対話に先立って、第1ユーザに対して、記憶ステップにおいて第2ユーザと関連づけて記憶された話者タイプを提示する提示ステップを実行しても良い。
例えば、第1ユーザまたは他のユーザが、発信処理、着信処理、ルーム等を介して第2ユーザとの間でのオンライン対話を開始する際に、第1ユーザ端末20のディスプレイ2081に表示される、第2ユーザへ発信を行うための発信画面、第2ユーザから着信を受けるための着信画面、対話開始前のルーム画面等に、ステップS305において第2ユーザと関連づけられて記憶された第2ユーザの話者タイプを表示し、第1ユーザへ提示しても良い。
これにより、第1ユーザは、対話開始に先立ち、第2ユーザの話者タイプに応じた応対を準備できる。
サーバ10の印象解析部1043は、第1ユーザと第2ユーザとの間で行われる対話の終了前に、第1ユーザに対して、記憶ステップにおいて第2ユーザと関連づけて記憶された印象特徴量を提示する提示ステップを実行しても良い。
例えば、第1ユーザまたは他のユーザが、第2ユーザとの間でのオンライン対話を行っている間に、第1ユーザ端末20のディスプレイ2081に表示される対話画面、ルーム画面等に、ステップS305において第2ユーザと関連づけられて記憶された第2ユーザの印象特徴量を表示し、第1ユーザへ提示しても良い。なお、印象特徴量は、第2ユーザ、それ以外の管理者、他のユーザ等の任意のユーザに提示しても良い。
これにより、第1ユーザは、対話中に、第2ユーザの印象に応じた応対を準備できる。
サーバ10の印象解析部1043は、第1ユーザと第2ユーザとの間で行われる対話の終了前に、第1ユーザに対して、記憶ステップにおいて第2ユーザと関連づけて記憶された話者タイプを提示する提示ステップを実行しても良い。
例えば、第1ユーザまたは他のユーザが、第2ユーザとの間でのオンライン対話を行っている間に、第1ユーザ端末20のディスプレイ2081に表示される対話画面、ルーム画面等に、ステップS305において第2ユーザと関連づけられて記憶された第2ユーザの話者タイプを表示し、第1ユーザへ提示しても良い。なお、印象特徴量は、第2ユーザ、それ以外の管理者、他のユーザ等の任意のユーザに提示しても良い。
これにより、第1ユーザは、対話中に、第2ユーザの話者タイプに応じた応対を準備できる。
サーバ10の印象解析部1043は、印象算定ステップにおいて、複数の対話特徴量のうち、印象特徴量に対する影響度が大きい1または複数の前記対話特徴量を提示する提示ステップを実行しても良い。
具体的に、サーバ10の印象解析部1043は、複数の対話特徴量を入力データとして第2印象評価モデル1034に適用し、第2印象評価モデル1034は入力データに応じた印象特徴量を出力データとして出力する際に、出力される印象特徴量に大きな影響を与える1または複数の対話特徴量を特定し、第1ユーザ端末20、第2ユーザ端末30、それ以外の他のユーザ端末等へ送信し、ユーザへ提示する構成としても良い。
例えば、第2印象評価モデル1034は、出力される印象特徴量に大きな影響を与える1または複数の対話特徴量を出力データとして出力するものとしても良い。これにより、印象特徴量に大きな影響を与える対話特徴量を高速に取得することができる。
<印象解析処理の変形例>
印象解析処理は、顧客である第2ユーザではなく、オペレータである第1ユーザの印象状態を特定する構成としても良い。
また、第1ユーザが他のユーザに与えたい目標印象特徴量、目標話者タイプを受け付けて、第1ユーザが改善すべき対話特徴量を算定し、第1ユーザに提示しても良い。つまり、第1ユーザに対して、好ましい話し方を提案するステップを含めても良い。
この場合、印象解析処理のステップS301からステップS305において、第2ユーザを第1ユーザと読み替えるだけで処理内容としては同様であるため説明を省略する。
ステップS306において、サーバ10の印象解析部1043は、対話において第1ユーザが他のユーザに対して与えるべき目標となる目標話者タイプを受け付ける目標受付ステップを実行する。
具体的に、第1ユーザは、第1ユーザ端末20の入力装置206などを操作することにより、サーバ10が提供する所定のウェブページにアクセスし、一覧表示された複数の話者タイプから、目標とする話者タイプ(目標話者タイプ)を選択する。第1ユーザ端末20の制御部204は、選択された目標話者タイプを特定し、サーバ10へ送信する。サーバ10は、目標話者タイプを受信し受け付ける。目標話者タイプは、第1ユーザが他のユーザに与える印象状態として望ましい印象状態に関する話者タイプであり、第1ユーザが自身で選択しても良いし、第1ユーザの管理者等が、第1ユーザの職務等に応じて選択しても良い。
ステップS306において、サーバ10の印象解析部1043は、対話において第1ユーザが他のユーザに対して与えるべき目標となる目標印象特徴量を受け付ける目標受付ステップを実行する。
具体的に、サーバ10の印象解析部1043は、受信した目標話者タイプに基づき、話者タイプマスタ1022の話者タイプの項目を検索し、印象条件を取得する。サーバ10の印象解析部1043は、取得した印象条件に基づいて、当該印象条件の範囲に含まれる印象特徴量を目標印象特徴量として特定し、受け付ける。サーバ10の印象解析部1043は、目標話者タイプを入力データとして、不図示の学習モデル等に適用することにより出力された目標印象特徴量を取得し、受け付ける構成としても良い。また、第1ユーザから、第1ユーザ端末20の入力装置206などを介して目標印象特徴量を受け付ける構成としても良い。
ステップS306において、サーバ10の印象解析部1043は、印象算定ステップにおいて算定された印象特徴量と、目標受付ステップにおいて受け付けた目標印象特徴量とに基づき、第1ユーザが改善すべき対話特徴量を算定する改善ステップを実行する。
具体的に、サーバ10の印象解析部1043は、特定した目標印象特徴量に基づいて、当該目標印象特徴量を得るための対話特徴量を目標対話特徴量として特定し、受け付ける。サーバ10の印象解析部1043は、目標印象特徴量を入力データとして、不図示の学習モデル等に適用することにより目標対話特徴量を取得し、受け付ける構成としても良い。
第1ユーザが改善すべき対話特徴量としては、例えば、「話速をより速く」、「話速をより遅く」、「抑揚をより大きく」、「抑揚をより小さく」といったものである。また、第1ユーザが改善すべき対話特徴量は、目標となる対話特徴量(目標対話特徴量)としても良い。
サーバ10の印象解析部1043は、ステップS304において算定した対話特徴量と目標対話特徴量とを比較する。サーバ10の印象解析部1043は、対話特徴量の目標対話特徴量に対する差分を第1ユーザが改善すべき対話特徴量として算定する。また、サーバ10の印象解析部1043は、対話特徴量と目標対話特徴量とを比較し、乖離度が大きい対話特徴量を第1ユーザが改善すべき対話特徴量として特定する。
サーバ10の印象解析部1043は、第1ユーザが改善すべき対話特徴量を第1ユーザ端末20へ送信する。第1ユーザ端末20の制御部204は、受信した改善すべき対話特徴量を第1ユーザ端末20のディスプレイ2081に表示し、第1ユーザに提示する。
例えば、対話における第1ユーザの話速、抑揚、丁寧な表現の数、フィラーの数および文法的な発話の数等の対話特徴量のうち、第1ユーザが改善すべき対話特徴量を特定し、話速、抑揚、丁寧な表現の数、フィラーの数等をどの程度改善すべきか第1ユーザに対して提示する。これにより、オペレータ等が、具体的に話し方を改善することにより他者に与える印象を改善できる。
なお、対話特徴量は、第2ユーザ、それ以外の他のユーザに提示しても良い。
これにより、サーバ10の印象解析部1043は、印象算定ステップにおいて算定された話者タイプと、目標受付ステップにおいて受け付けた目標話者タイプとに基づき、第1ユーザが改善すべき対話特徴量を算定する改善ステップを実行できる。
つまり、ユーザは受け付けた目標話者タイプに応じて改善すべき対話特徴量を把握できるとともに、改善すべき対話特徴量に基づき話し方を改善することにより自身が他者に与える印象を目標話者タイプに近づけることができる。
<トピック定義処理>
トピック定義処理は、ユーザが、複数のキーワードと関連づけられ、所定の話題に関するトピックを登録し記憶する処理である。
<トピック定義処理の概要>
ユーザは、複数の単語、名詞、形容詞等のキーワードに基づき、新たなトピックを定義し、記憶できる。また、既に記憶されたトピックに対して、過去に記憶された対話情報に基づいて、当該トピックと関連性が高いキーワードの提示を受け、当該キーワードをトピックに関連づけられたキーワードに追加し、記憶することにより、トピックに関連づけられたキーワードを拡張する一連の処理である。
<トピック定義処理の詳細>
以下に、トピック定義処理の詳細を説明する。
サーバ10のトピック処理部1044は、音声記憶ステップにおいて記憶された音声データと、キーワード受付ステップにおいて受け付けた複数のキーワードに基づき、第1トピックに新たに関連づける1または複数の新たなキーワードを第1ユーザに対して提示するキーワード提示ステップを実行する。
具体的に、第1ユーザは、第1ユーザ端末20の入力装置206などを操作することにより、アプリケーションプログラム2012を実行しブラウザアプリケーションを実行する。第1ユーザは、ブラウザアプリケーションにおいて、サーバ10が提供する所定のウェブサーバを指定する所定のURL(Uniform Resource Locator)を入力することにより、サーバ10へトピックを定義するためのページを要求するリクエストを送信する。
サーバ10のトピック処理部1044は、受信したリクエストに含まれる第1ユーザID2011に基づき、音声区間テーブル1016の話者IDの項目を検索し、区間読上テキストを取得する。
サーバ10のトピック処理部1044は、区間読上テキストに対して形態素解析等の処理を実行することにより、区間読上テキストに含まれる名詞、形容詞、キーワード等の文字列を抽出する。このとき、対話情報、音声区間情報ごとの文字列の出現頻度等に基づき、文字列に対する重要度の算定を行っても良い。重要度の算定手法としては、tf-idf等がある。サーバ10のトピック処理部1044は、重要度が高い所定個数の文字列をキーワード候補として特定する。
サーバ10のトピック処理部1044は、トピックマスタ1023からトピックID、キーワードを取得し、複数のトピックIDのそれぞれに関連づけられた複数のキーワードと、1または複数の対話情報または音声区間情報において共起関係にあり、トピックIDとは関連づけられていない文字列をキーワード候補として特定しても良い。なお、共起関係の算定にあたり、キーワード、文字列ごとの重要度を考慮しても良い。キーワード候補の特定にあたり、出現頻度等に基づき算定された重要度を考慮し、所定個数の文字列をキーワード候補として特定しても良い。
サーバ10のトピック処理部1044は、特定したキーワード候補を第1ユーザ端末20へ送信する。第1ユーザ端末20の制御部204は、受信したキーワード候補を第1ユーザ端末20のディスプレイ2081に表示し、第1ユーザに提示する。
サーバ10のトピック処理部1044は、第1ユーザから1または複数のキーワードを受け付けるキーワード受付ステップを実行する。
具体的に、第1ユーザは、第1ユーザ端末20の入力装置206などを操作することにより、第1ユーザ端末20のディスプレイ2081に表示されたキーワード候補から新たにトピックと関連づけるためのキーワードを選択する。
第1ユーザ端末20の制御部204は、第1ユーザにより選択された1または複数のキーワード候補をサーバ10へ送信する。
キーワード受付ステップは、キーワード提示ステップにおいて第1ユーザに対して提示された複数の新たなキーワードのうち、第1ユーザにより選択された1または複数のキーワードを受け付けるステップを実行する。
具体的に、サーバ10のトピック処理部1044は、第1ユーザ端末20から1または複数のキーワード候補を受信し、受け付ける。
サーバ10のトピック処理部1044は、キーワード受付ステップにおいて受け付けた1または複数のキーワードを、所定の話題に関する第1トピックと関連づけて記憶するトピック記憶ステップを実行する。
具体的に、サーバ10のトピック処理部1044は、受け付けた複数のキーワード候補を、トピックIDと関連づけてトピックマスタ1023に記憶する。なお、第1ユーザにより選択された1または複数のキーワード候補は、既にトピックマスタ1023に記憶されているトピックIDと関連づけても良いし、新たなトピックIDを生成し、当該新たに生成されたトピックIDと関連づける構成としても良い。
既にトピックマスタ1023に記憶されているトピックIDと関連づけて記憶する場合は、第1ユーザは、第1ユーザ端末20の入力装置206などを操作することにより、関連づける対象となるトピックIDを選択する選択操作を実行する。
<トピック解析処理>
トピック解析処理は、複数のユーザにより行われたオンライン対話の音声、動画等の対話情報を解析し、対話情報と1または複数のトピックとの関連度を算定し、関連度に基づき、対話情報にトピックを関連づけ、記憶する処理である。
<トピック解析処理の概要>
トピック解析処理は、ユーザ間のオンライン対話を検知すると、対話に関する対話情報を記憶し、対話情報に含まれる音声データ、動画データをそれぞれ発話区間ごとの区間音声データ、区間動画データ等の区間データへ分割し、区間データごとに複数のトピックとの関連度を算定し、区間データごとのトピックを特定し、代表的なトピックを対話情報のラベル情報として記憶する一連の処理である。
<トピック解析処理の詳細>
以下に、トピック解析処理の詳細を説明する。
ステップS511において、既に説明した発信処理、着信処理、ルーム等を介してユーザと顧客との間でのオンライン対話が開始される。
ステップS512において、サーバ10のトピック処理部1044は、対話に関する音声データを受け付ける受付ステップを実行する。サーバ10のトピック処理部1044は、受付ステップにおいて受け付けた音声データを記憶する音声記憶ステップを実行する。
ステップS512は、感情解析処理におけるステップS102と同様であるため説明を省略する。
ステップS513において、サーバ10のトピック処理部1044は、受付ステップにおいて受け付けた音声データから、発話区間ごとに複数の区間音声データを抽出する音声抽出ステップを実行する。
ステップS513は、感情解析処理におけるステップS103と同様であるため説明を省略する。
ステップS513において、音声抽出ステップは、対話が終了する前に、受付ステップにおいて受け付けた音声データから、発話区間ごとに複数の区間音声データを抽出するステップを実行しても良い。
つまり、音声抽出ステップは、複数のユーザによるオンライン対話の対話中の任意のタイミングに実行する構成としても良い。
ステップS514において、サーバ10のトピック処理部1044は、複数のキーワードと関連づけられ、所定の話題に関する第1トピックを特定するトピック特定ステップを実行する。
具体的に、サーバ10のトピック処理部1044は、トピックマスタ1023を参照して、トピック定義処理により予め登録されたトピックID、トピックIDに関連づけられた1または複数のキーワードを取得し、特定する。
関連度算定ステップは、複数の区間音声データごとに、トピック特定ステップにおいて特定した複数のトピックごとの関連度を算定するステップを実行する。
本開示においては、主に簡単のため1の第1トピックと、第1トピックに関連づけられた1または複数のキーワードについて説明するが、トピックは1つに限られず複数のトピック(第2トピック、第3トピック・・・)に対して同様の処理を実行しても構わない。
ステップS514において、サーバ10のトピック処理部1044は、複数の区間音声データごとに、トピック特定ステップにおいて特定した第1トピックとの関連度を示す第1関連度を算定する関連度算定ステップを実行する。
具体的に、サーバ10のトピック処理部1044は、S513において取得した音声区間情報と、第1トピックに関連づけられたキーワードとの関連性に応じて、第1トピックとの関連度を示す第1関連度を算定する。
第1関連度の算定方法の一例を以下の通り説明する。サーバ10のトピック処理部1044は、第1トピックに関連づけられたキーワードに基づき分散表現(埋め込み表現)として高次元ベクトル(トピックベクトル)を作成する。また、サーバ10のトピック処理部1044は、複数の音声区間情報に含まれる区間読上テキストに対して形態素解析等の処理を実行することにより、区間読上テキストに含まれる名詞、形容詞、キーワード等の文字列を抽出し、抽出された文字列に基づき分散表現として高次元ベクトル(音声区間ベクトル)を作成する。なお、分散表現の作成方法としては、Word2vecと呼ばれる手法が知られている。サーバ10のトピック処理部1044は、第1関連度を、トピックベクトルと音声区間ベクトルとのコサイン類似度を計算することにより算定する。なお、第1関連度は、ユークリッド距離、マハラノビス距離、マンハッタン距離、チェビシェフ距離、ミンコフスキー距離等、任意の多次元ベクトル間の距離を算定するアルゴリズムを適用しても構わない。
このように計算された第1関連度は、第1トピックに関連づけられた複数のキーワードと、複数の音声区間情報に含まれる文字列との全体的な類似傾向を反映したものとなる。これにより、音声区間情報に含まれる文字列が、トピックに含まれるキーワードの言い換え表現や表記の違いにより同じ意味の単語が異なる単語と判定されずに、第1トピックに含まれるキーワードと意味内容の関連性が高い音声区間情報について、より高い関連度が得られる。
本開示においては、第1トピックとの関連度を示す第1関連度の算定について説明したが、任意のトピックと、当該トピックと音声区間情報との関連度の算定も同様である。
関連度算定ステップは、対話が終了する前に、複数の区間音声データに含まれる区間音声データごとに、トピック特定ステップにおいて特定した第1トピックとの関連度を示す第1関連度を算定するステップを実行しても良い。
つまり、複数のユーザによるオンライン対話の対話中の任意のタイミングに実行する構成としても良い。これにより、オンライン対話の対話途中においても、それまでの対話における音声区間情報に対して、それぞれのトピックとの関連度を算定できる。
関連度算定ステップは、第1トピックに関連づけられた複数のキーワードのうち、音声抽出ステップにおいて抽出された複数の区間音声データに多く含まれるキーワードほど関連度へ与える重みが小さくなるようにし、複数の区間音声データごとに第1トピックに関連づけられた複数のキーワードの重み付けを考慮した一致度を、第1トピックとの関連度を示す第1関連度として算定しても良い。
具体的に、関連度算定の際に第1トピックに関連づけられた複数のキーワードごとの重要性について、異なる重み付けを行っても良い。例えば、1の対話情報に対して抽出された複数の音声区間情報に対して、多くの音声区間情報に頻出するキーワードの、関連度へ与える影響度合いが小さくなるように、重要性、重みを他のキーワードに比べて小さい値としても良い。これにより、多くの音声区間情報に頻出するありふれたキーワードに関連付いたトピックとの関連度が過大に評価されることを防止できる。
本開示においては、第1トピックとの関連度を示す第1関連度の算定について説明したが、任意のトピックと、当該トピックと音声区間情報との関連度の算定も同様としても良い。
関連度算定ステップは、第1トピックに関連づけられた複数のキーワードのうち、第1関連度の算定対象となる対象区間音声データから時系列的に所定個数前までの複数の区間音声データに多く含まれるキーワードほど関連度へ与える重みが小さくなるようにし、複数の区間音声データごとに第1トピックに関連づけられた複数のキーワードとの重み付けを考慮した一致度を、第1トピックとの関連度を示す第1関連度として算定しても良い。
例えば、1の対話情報に対して抽出された複数の音声区間情報のすべてではなく、算定対象となる対象区間音声情報から時系列的に所定個数前までの複数の音声区間情報に対して、多くの音声区間情報に頻出するキーワードの、関連度へ与える影響度合いが小さくなるように、重要性、重みを他のキーワードに比べて小さい値としても良い。これにより、対話が終了する前の対話中の任意のタイミングにおいても、直近の音声区間情報とトピックとの関連度をより正確に算定できる。
本開示においては、第1トピックとの関連度を示す第1関連度の算定について説明したが、任意のトピックと、当該トピックと音声区間情報との関連度の算定も同様としても良い。
サーバ10のトピック処理部1044は、1の対話情報に対して抽出された複数の音声区間情報に対して、複数のトピックごとに算定された関連度を、音声区間情報を特定する区間ID、トピックを特定するトピックID、算定された関連度を、それぞれ、トピック関連度テーブル1017の新たなレコードの区間ID、トピックID、関連度の項目に記憶する。
ステップS515において、それぞれの音声区間情報において所定値以上の関連度を有する1または複数のトピックのうち、もっとも関連度が高いトピックを音声区間情報が言及している所定の話題に関するトピックとして特定する。なお、トピックは必ずしも特定される必要はない。サーバ10のトピック処理部1044は、特定したトピックのトピックIDを、音声区間テーブル1016において関連度の算定対象となる音声区間情報の区間IDにより特定されるレコードのトピックIDの項目に記憶する。これにより、音声区間情報が、関連度が高いトピックと関連づけて記憶される。
ステップS516において、サーバ10のトピック処理部1044は、関連度算定ステップにおいて算定された複数のトピックごとの関連度に基づき、対話に対するラベル情報を特定するラベル特定ステップを実行する。サーバ10のトピック処理部1044は、ラベル特定ステップにおいて特定されたラベル情報を、対話と関連づけて記憶する記憶ステップを実行する。
具体的に、サーバ10のトピック処理部1044は、ステップS515において、1の対話情報に対して抽出された複数の音声区間情報のそれぞれに対して記憶されたトピックIDを集計し、集計されたトピックIDが多い順番に1または複数のトピックIDを、当該1の対話情報を特徴付けるトピックとして特定する。なお、集計されたトピックIDの個数が所定数以上の1または複数のトピックIDを、当該1の対話情報を特徴付けるトピックとして特定しても良い。
サーバ10のトピック処理部1044は、当該特定したトピックIDのトピック名、ラベル等のトピックの名称をラベル情報として特定する。なお、不図示のテーブル等を参照して、特定したトピックIDに基づき、任意のラベル情報を特定する構成としても良い。
特定したラベル情報、当該1の対話情報の対話IDを、ラベルテーブル1015の新たなレコードのラベルデータ、対話IDの項目に記憶する。これにより、対話情報と、対話情報を特徴付けるトピックがラベル情報として関連づけられ記憶され、対話情報を検索する際などに利便性よく利用できる。
<トピック解析処理の実行タイミングについて>
トピック解析処理のステップS513~S516は複数のユーザによるオンライン対話の終了後に実行する構成としても良い。これにより、オンライン対話が終了した後、対話内容が確定した後に、対話に関連するトピックが特定され、対話情報と関連づけられて記憶される。
また、トピック解析処理は複数のユーザによるオンライン対話の開始後、対話の終了前までに実行する構成としても良い。
つまり、複数のユーザによるオンライン対話の対話中の任意のタイミングに実行する構成としても良い。また、ステップS513~ステップS516は、オンライン対話の対話中に定期的にリアルタイムに実行する構成としても良い。これにより、オンライン対話の対話途中においても、それまでの対話に応じたトピックが特定され、対話情報と関連づけられて記憶される構成としても良い。
これにより、ユーザは、オンライン対話の対話中にリアルタイムに、オンライン対話に参加しているユーザが言及している話題を確認できるとともに、対話情報を最新のトピックに基づき整理、管理できる。
<トピック提示処理>
トピック提示処理は、複数のユーザにより行われたオンライン対話の音声、動画等の対話情報を視覚的に可視化しユーザに提示するとともに、対話情報に関連づけられたトピックをユーザに対して提示する処理である。ユーザは、対話情報と、対話情報に関連するトピックを一目で確認することができ、対話内容の概要を直感的に把握できる。
<トピック提示処理の概要>
ユーザから提示対象となる対話情報の指定を受け付け、対話情報を取得し、区間データおよび区間データごとのトピックを取得し、対話情報を解析し話者ごとの発話状況を視覚的に確認可能な音声グラフをユーザに提示し、音声グラフに重ねて発話区間ごとのトピックを音声グラフに重ねてユーザに提示する一連の処理である。
<トピック提示処理の詳細>
以下に、トピック提示処理の詳細を説明する。
ステップS521において、第1ユーザはトピックを確認したい対話情報を選択する。
具体的に、第1ユーザは、第1ユーザ端末20の入力装置206などを操作することにより、アプリケーションプログラム2012を実行しブラウザアプリケーションを実行する。第1ユーザは、ブラウザアプリケーションにおいて、サーバ10が提供する所定のウェブサーバを指定する所定のURL(Uniform Resource Locator)を入力することにより、サーバ10へトピックを提示させるためのページを要求するリクエストを送信する。
サーバ10のトピック処理部1044は、受信したリクエストに含まれる第1ユーザID2011に基づき、対話テーブル1014のユーザIDの項目を検索し、対話IDを取得する。サーバ10のトピック処理部1044は、取得した1または複数の対話IDを第1ユーザ端末20に送信する。第1ユーザ端末20の制御部204は、受信した1または複数の対話IDを第1ユーザ端末20のディスプレイ2081に表示することにより、第1ユーザに提示する。
第1ユーザは、第1ユーザ端末20の入力装置206などを操作することにより、提示された対話IDから所定の対話IDを選択する。第1ユーザ端末20の制御部204は、選択された所定の対話IDをサーバ10へ送信する。サーバ10は、対話IDを受信し、受け付ける。
なお、第1ユーザが、本開示にかかるオンライン対話サービスを利用して対話中である場合には、当該対話中の対話情報が選択されているものとしても良い。つまり、対話中に第1ユーザ端末20のディスプレイ2081に表示される対話画面において、トピック提示処理を実行する構成としても良い。
ステップS522において、サーバ10のトピック処理部1044は、受信した対話IDに基づき、対話テーブル1014の対話IDの項目を検索し、ユーザID、顧客ID、対話カテゴリ、受発信種別、音声データ、動画データ等の対話情報を取得する。
ステップS523において、サーバ10のトピック処理部1044は、受信した対話IDに基づき、音声区間テーブル1016の対話IDの項目を検索し、区間ID、開始日時、終了日時、トピックIDの項目を取得する。サーバ10のトピック処理部1044は、取得した区間IDに基づき、トピック関連度テーブル1017の区間IDの項目を検索し、トピックID、関連度を取得する。
つまり、サーバ10のトピック処理部1044は、対話IDに関連づけられた複数の音声区間情報と、音声区間情報ごとのトピックID、関連度を取得する。
ステップS524において、サーバ10のトピック処理部1044は、ステップS522において取得した対話情報に基づき、話者による発話状況の時系列推移を示す音声グラフを出力し、第1ユーザ端末20に送信する。第1ユーザ端末20の制御部204は、受信した音声グラフを第1ユーザ端末20のディスプレイ2081に表示し、第1ユーザに提示する。第1ユーザに提示される音声グラフを含む画面例70を図20に示す。
なお、音声グラフは、第2ユーザ、それ以外の管理者、他のユーザ等の任意のユーザに提示しても良い。
音声グラフは、横軸を対話時間、縦軸(上方)を第1ユーザの音声の出力量、縦軸(下方)を第2ユーザの音声の出力量とするグラフであり、実線L1が第1ユーザの音声を示し、破線L2が第2ユーザの音声を示している。
実線L1及び破線L2を見ると、基本的には、第1ユーザが音声を発している(話している)間は、第2ユーザは音声を発しておらず(黙って聞いている)、第2ユーザが音声を発している(話している)間は、第1ユーザは音声を発していない(黙って聞いている)ことがわかる。ここで、Z3で示された箇所は、両者が同時に音声を発している状態(被っている状態)であり、第2ユーザの話が終わらないうちに第1ユーザが話し始めた可能性がある。Z1及びZ2で示された箇所は、両者が音声を発していない時間(沈黙の時間)である。P1及びP2で示された箇所は、所定のキーワードが出現した箇所である。
ステップS525において、サーバ10のトピック処理部1044は、複数の区間音声データのうち、関連度算定ステップにおいて算定された第1関連度が所定値以上の1または複数の区間音声データを含む、第1区間群を特定する区間群特定ステップを実行する。
具体的に、サーバ10のトピック処理部1044は、トピック解析処理において、1の対話情報に対して抽出された複数の音声区間情報のそれぞれに対して算定された第1関連度が所定値以上の1または複数の音声区間情報が、第1トピックに関する話題について言及していると判定すると、当該1または複数の音声区間情報を含む、1または複数の音声区間情報を第1区間群として特定する。例えば、時系列的に連続する複数の音声区間情報のトピックとの関連づけが、区間1:トピックA、区間2:トピックA、区間3:トピックなし、区間4:トピックA、区間5:トピックなし、区間6:トピックB、区間7:トピックB、区間8:トピックBである場合において、区間1から区間4をトピックAに関する区間群として特定し、区間6から区間8をトピックBに関する区間群として特定する。区間3などのように、トピックAの区間に他のトピックと関連づいた音声区間が含まれている場合においても、区間1から区間4が全体としてトピックAの話題について言及していると考えられる場合には、区間1から区間4をまとめてトピックAに関する区間群として特定しても良い。
本開示においては、第1区間群を特定するものとしたが、複数の区間音声データのうち、所定の話題に関する第1トピックと関連する1または複数の区間音声データを特定するものとしても良い。また、第1ユーザまたは第2ユーザの入力操作により、1または複数の区間音声データ、第1区間群を選択することにより特定しても良い。
ステップS525において、サーバ10のトピック処理部1044は、区間群特定ステップにおいて特定された第1区間群を、第1トピックと関連づけて、第1ユーザまたは第2ユーザに提示する提示ステップを実行する。提示ステップは、受付ステップにおいて受け付けた音声データを解析することにより得られる、話者による発話状況の時系列推移を示す音声グラフにおいて、区間群特定ステップにおいて特定された第1区間群を音声グラフと同じ時系列軸上に提示するとともに、第1トピックを第1区間群に関連づけて、第1ユーザまたは第2ユーザに提示するステップを実行する。
具体的に、図20の音声グラフにおいて、サーバ10のトピック処理部1044は、第1トピックに関連づけられた第1区間群T1、第2トピックに関連づけられた第2区間群T2、第3トピックに関連づけられた第3区間群T3を、描画オブジェクトとして音声グラフに重ねて提示する。例えば、第1区間群T1、第2区間群T2、第3区間群T3は、それぞれトピックごとに割り当てられた異なる色による描画オブジェクトとして描画する構成としても良い。これにより、第1ユーザは、区間群を関連するトピックと関連づけて音声グラフと重ねて視認できる。これにより、第1ユーザは音声グラフにおいて、どの箇所がどのようなトピックについて話題となっているのか視覚的に一目で確認できる。
なお、サーバ10のトピック処理部1044は、区間群特定ステップにおいて特定された第1区間群を、第1ユーザ、第2ユーザ以外の管理者、他のユーザ等の任意のユーザに提示する構成としても良い。
ステップS525において、区間群特定ステップは、時系列的に並べられた複数の区間音声データのそれぞれに対して算定された第1関連度に基づき移動平均を算定するステップと、算定された移動平均が所定値以上の区間音声データを、第1区間群として特定するステップと、を含んでも良い。
具体的に、サーバ10のトピック処理部1044は、区間群を特定するのに際して、トピック関連度テーブルから取得した音声区間情報を、音声区間情報の開始日時等に基づき時系列的に並べる。サーバ10のトピック処理部1044は、所定の音声区間情報の関連度に対して、当該所定の音声区間情報に対する直近N個の関連度の平均を移動平均として算定する。Nは任意の整数である。算定された移動平均を、当該所定の音声区間情報に対する新たな関連度と見なして、当該関連度が所定値以上の音声区間情報を第1トピックに関連づけられた第1区間群として特定する。
本開示においては、主に簡単のため1の第1トピックの関連度に対する移動平均について説明したが、トピックは1つに限られず複数のトピックに対して同様の処理を実行しても構わない。
これにより、発話区間ごとに関連度が高いトピックが短期間で切り替わる場合においても、トピックの関連度を平滑化することにより、トピックについて言及している区間群をまとめて特定できる。オンライン対話サービスにおいて、話者がどのような話題について発話を行ったのか、ユーザはより確認しやすくなる。
ステップS525において、区間群特定ステップは、時系列的に並べられた複数の区間音声データのうち、算定された第1関連度が所定値以上の連続する複数の区間音声データを、第1区間群として特定するステップを実行しても良い。
具体的に、サーバ10のトピック処理部1044は、区間群を特定するのに際して、トピック関連度テーブルから取得した音声区間情報を、音声区間情報の開始日時等に基づき時系列的に並べる。サーバ10のトピック処理部1044は、関連度が所定値以上の複数の連続する音声区間情報を第1トピックに関連づけられた第1区間群として特定する。
本開示においては、主に簡単のため1の第1トピックの関連度に対する移動平均について説明したが、トピックは1つに限られず複数のトピックに対して同様の処理を実行しても構わない。
これにより、特定のトピックについて連続して関連度が高い区間音声データを、トピックについて言及している区間群としてまとめて特定できる。オンライン対話サービスにおいて、話者がどのような話題について発話を行ったのか、ユーザはより確認しやすくなる。
ステップS525において、サーバ10のトピック処理部1044は、複数の区間音声データのうち、1または複数の区間音声データと、トピック特定ステップにおいて特定した第1トピックと、に基づき、1または複数の区間音声データに含まれるテキスト情報を要約した要約テキストを生成する要約ステップを実行する。要約ステップは、1または複数の区間音声データに含まれるテキスト情報のうち、トピック特定ステップにおいて特定した第1トピックと関連性が高い箇所のみ抽出することにより、1または複数の区間音声データに含まれるテキスト情報を要約した要約テキストを生成するステップを実行する。
ステップS525において、要約ステップは、1または複数の区間音声データに含まれるテキスト情報と、第1トピックに関連づけられた複数のキーワードを入力データとして、学習モデルに適用することにより、要約テキストを生成するステップを実行する。
具体的に、区間音声データ、区間動画データおよび区間読上テキストの少なくともいずれか1つを含む区間データと、当該区間データのトピックに関連づけられた複数のキーワードと、を入力データとして、要約モデル1035に適用し、当該区間データに含まれるテキスト情報を要約したテキスト情報である要約テキストを出力データとして取得する。これにより、区間データに含まれるテキスト情報のうち、特にトピックと関連性が高い箇所のみを抽出することができ、区間データに含まれるテキスト情報を要約した要約テキストを取得できる。
ステップS525において、要約ステップは、区間群特定ステップにおいて特定された第1区間群に含まれる1または複数の区間音声データと、トピック特定ステップにおいて特定した第1トピックと、に基づき、1または複数の区間音声データに含まれるテキスト情報を要約した要約テキストを生成するステップを実行する。
具体的に、区間群に含まれる1または複数の区間データと、当該区間群のトピックに関連づけられた複数のキーワードと、を入力データとして、要約モデル1035に適用し、当該区間群に含まれるテキスト情報を要約したテキスト情報である要約テキストを出力データとして取得する。これにより、区間データに含まれるテキスト情報のうち、特にトピックと関連性が高い箇所を抽出することができ、区間データに含まれるテキスト情報を要約した要約テキストを取得できる。
ステップS525において、サーバ10のトピック処理部1044は、要約ステップにおいて生成された要約テキストを、1または複数の区間音声データと関連づけて提示する提示ステップを実行する。
ステップS525において、サーバ10のトピック処理部1044は、要約ステップにおいて生成された要約テキストを、区間群特定ステップにおいて特定されただい1区間群と関連づけて提示する提示ステップを実行する。
具体的に、図20の音声グラフにおいて、サーバ10のトピック処理部1044は、第1区間群T1の第1トピックに関する要約テキスト701を、第1区間群T1と関連づけて提示する。なお、サーバ10のトピック処理部1044は、区間群ではなく、任意の1または複数の音声区間に関連づけて、要約テキスト701を提示しても良い。
なお、サーバ10のトピック処理部1044は、区間群特定ステップにおいて特定された第1区間群を、第1ユーザ、第2ユーザ、それ以外の管理者、他のユーザ等の任意のユーザに提示する構成としても良い。
<学習処理>
感情評価モデル1031、印象評価モデル1032、第1印象評価モデル1033、第2印象評価モデル1034の学習処理を以下に説明する。
<感情評価モデル1031の学習処理>
感情評価モデル1031の学習処理は、感情評価モデル1031に含まれるディープニューラルネットワークの学習パラメータを深層学習により学習させる処理である。
<感情評価モデル1031の学習処理の概要>
感情評価モデル1031の学習処理は、区間音声データ、区間動画データ、区間読上テキストを入力データ(入力ベクトル)として、感情特徴量である感情ベクトルまたは感情スカラーを出力データ(教師データ)となるように、感情評価モデル1031に含まれるディープニューラルネットワークの学習パラメータを深層学習により学習させる処理である。
感情評価モデル1031の入力データから、区間音声データ、区間動画データ、区間読上テキストのいずれかを省略しても構わない。
<感情評価モデル1031の学習処理の詳細>
サーバ10の学習部1051は、区間音声データ、区間動画データ、区間読上テキストなどを入力データ(入力ベクトル)として、所定の感情特徴量を出力データ(教師データ)となるよう、学習データを作成する。
サーバ10の学習部1051は、学習データに基づき、感情評価モデル1031のディープニューラルネットワークを学習させるための訓練データ、テストデータ、検証データなどのデータセットを作成する。
サーバ10の学習部1051は、作成したデータセットに基づき感情評価モデル1031に含まれるディープニューラルネットワークの学習パラメータを深層学習により学習させる。
<印象評価モデル1032の学習処理>
印象評価モデル1032の学習処理は、印象評価モデル1032に含まれるディープニューラルネットワークの学習パラメータを深層学習により学習させる処理である。
<印象評価モデル1032の学習処理の概要>
印象評価モデル1032の学習処理は、区間音声データ、区間動画データ、区間読上テキストを入力データ(入力ベクトル)として、印象特徴量を出力データ(教師データ)となるように、印象評価モデル1032に含まれるディープニューラルネットワークの学習パラメータを深層学習により学習させる処理である。
印象評価モデル1032の入力データから、区間音声データ、区間動画データ、区間読上テキストのいずれかを省略しても構わない。
<印象評価モデル1032の学習処理の詳細>
サーバ10の学習部1051は、区間音声データ、区間動画データ、区間読上テキストなどを入力データ(入力ベクトル)として、所定の印象特徴量を出力データ(教師データ)となるよう、学習データを作成する。
サーバ10の学習部1051は、学習データに基づき、印象評価モデル1032のディープニューラルネットワークを学習させるための訓練データ、テストデータ、検証データなどのデータセットを作成する。
サーバ10の学習部1051は、作成したデータセットに基づき印象評価モデル1032に含まれるディープニューラルネットワークの学習パラメータを深層学習により学習させる。
<第1印象評価モデル1033の学習処理>
第1印象評価モデル1033の学習処理は、第1印象評価モデル1033に含まれるディープニューラルネットワークの学習パラメータを深層学習により学習させる処理である。
<第1印象評価モデル1033の学習処理の概要>
第1印象評価モデル1033の学習処理は、区間音声データ、区間動画データ、区間読上テキストを入力データ(入力ベクトル)として、対話特徴量を出力データ(教師データ)となるように、第1印象評価モデル1033に含まれるディープニューラルネットワークの学習パラメータを深層学習により学習させる処理である。
第1印象評価モデル1033の入力データから、区間音声データ、区間動画データ、区間読上テキストのいずれかを省略しても構わない。
<第1印象評価モデル1033の学習処理の詳細>
サーバ10の学習部1051は、区間音声データ、区間動画データ、区間読上テキストなを入力データ(入力ベクトル)として、所定の対話特徴量を出力データ(教師データ)となるよう、学習データを作成する。
サーバ10の学習部1051は、学習データに基づき、第1印象評価モデル1033のディープニューラルネットワークを学習させるための訓練データ、テストデータ、検証データなどのデータセットを作成する。
サーバ10の学習部1051は、作成したデータセットに基づき第1印象評価モデル1033に含まれるディープニューラルネットワークの学習パラメータを深層学習により学習させる。
<第2印象評価モデル1034の学習処理>
第2印象評価モデル1034の学習処理は、第2印象評価モデル1034に含まれるディープニューラルネットワークの学習パラメータを深層学習により学習させる処理である。
<第2印象評価モデル1034の学習処理の概要>
第2印象評価モデル1034の学習処理は、対話特徴量を入力データ(入力ベクトル)として、印象特徴量を出力データ(教師データ)となるように、第2印象評価モデル1034に含まれるディープニューラルネットワークの学習パラメータを深層学習により学習させる処理である。
<第2印象評価モデル1034の学習処理の詳細>
サーバ10の学習部1051は、対話特徴量などを入力データ(入力ベクトル)として、所定の印象特徴量を出力データ(教師データ)となるよう、学習データを作成する。
サーバ10の学習部1051は、学習データに基づき、第2印象評価モデル1034のディープニューラルネットワークを学習させるための訓練データ、テストデータ、検証データなどのデータセットを作成する。
サーバ10の学習部1051は、作成したデータセットに基づき第2印象評価モデル1034に含まれるディープニューラルネットワークの学習パラメータを深層学習により学習させる。
<要約モデル1035の学習処理の詳細>
サーバ10の学習部1051は、区間音声データ、区間動画データおよび区間読上テキストの少なくともいずれか1つを含む区間データと、所定の話題に関するトピックに関連づけられた複数のキーワードと、を入力データ(入力ベクトル)として、当該区間データに含まれるテキスト情報を要約したテキスト情報である要約テキストを出力データ(教師データ)となるよう、学習データを作成する。
サーバ10の学習部1051は、学習データに基づき、要約モデル1035のディープニューラルネットワークを学習させるための訓練データ、テストデータ、検証データなどのデータセットを作成する。
サーバ10の学習部1051は、作成したデータセットに基づき要約モデル1035に含まれるディープニューラルネットワークの学習パラメータを深層学習により学習させる。
<コンピュータの基本ハードウェア構成>
図21は、コンピュータ90の基本的なハードウェア構成を示すブロック図である。コンピュータ90は、プロセッサ901、主記憶装置902、補助記憶装置903、通信IF991(インタフェース、Interface)を少なくとも備える。これらは通信バス921により相互に電気的に接続される。
プロセッサ901とは、プログラムに記述された命令セットを実行するためのハードウェアである。プロセッサ901は、演算装置、レジスタ、周辺回路等から構成される。
主記憶装置902とは、プログラム、及びプログラム等で処理されるデータ等を一時的に記憶するためのものである。例えば、DRAM(Dynamic Random Access Memory)等の揮発性のメモリである。
補助記憶装置903とは、データ及びプログラムを保存するための記憶装置である。例えば、フラッシュメモリ、HDD(Hard Disc Drive)、光磁気ディスク、CD-ROM、DVD-ROM、半導体メモリ等である。
通信IF991とは、有線又は無線の通信規格を用いて、他のコンピュータとネットワークを介して通信するための信号を入出力するためのインタフェースである。
ネットワークは、インターネット、LAN、無線基地局等によって構築される各種移動通信システム等で構成される。例えば、ネットワークには、3G、4G、5G移動通信システム、LTE(Long Term Evolution)、所定のアクセスポイントによってインターネットに接続可能な無線ネットワーク(例えばWi-Fi(登録商標))等が含まれる。無線で接続する場合、通信プロトコルとして例えば、Z-Wave(登録商標)、ZigBee(登録商標)、Bluetooth(登録商標)等が含まれる。有線で接続する場合は、ネットワークには、USB(Universal Serial Bus)ケーブル等により直接接続するものも含む。
なお、各ハードウェア構成の全部または一部を複数のコンピュータ90に分散して設け、ネットワークを介して相互に接続することによりコンピュータ90を仮想的に実現することができる。このように、コンピュータ90は、単一の筐体、ケースに収納されたコンピュータ90だけでなく、仮想化されたコンピュータシステムも含む概念である。
<コンピュータ90の基本機能構成>
コンピュータ90の基本ハードウェア構成(図21)により実現されるコンピュータの機能構成を説明する。コンピュータは、制御部、記憶部、通信部の機能ユニットを少なくとも備える。
なお、コンピュータ90が備える機能ユニットは、それぞれの機能ユニットの全部または一部を、ネットワークで相互に接続された複数のコンピュータ90に分散して設けても実現することができる。コンピュータ90は、単一のコンピュータ90だけでなく、仮想化されたコンピュータシステムも含む概念である。
制御部は、プロセッサ901が補助記憶装置903に記憶された各種プログラムを読み出して主記憶装置902に展開し、当該プログラムに従って処理を実行することにより実現される。制御部は、プログラムの種類に応じて様々な情報処理を行う機能ユニットを実現することができる。これにより、コンピュータは情報処理を行う情報処理装置として実現される。
記憶部は、主記憶装置902、補助記憶装置903により実現される。記憶部は、データ、各種プログラム、各種データベースを記憶する。また、プロセッサ901は、プログラムに従って記憶部に対応する記憶領域を主記憶装置902または補助記憶装置903に確保することができる。また、制御部は、各種プログラムに従ってプロセッサ901に、記憶部に記憶されたデータの追加、更新、削除処理を実行させることができる。
データベースは、リレーショナルデータベースを指し、行と列によって構造的に規定された表形式のテーブル、マスタと呼ばれるデータ集合を、互いに関連づけて管理するためのものである。データベースでは、表をテーブル、マスタ、表の列をカラム、表の行をレコードと呼ぶ。リレーショナルデータベースでは、テーブル、マスタ同士の関係を設定し、関連づけることができる。
通常、各テーブル、各マスタにはレコードを一意に特定するための主キーとなるカラムが設定されるが、カラムへの主キーの設定は必須ではない。制御部は、各種プログラムに従ってプロセッサ901に、記憶部に記憶された特定のテーブル、マスタにレコードを追加、削除、更新を実行させることができる。
なお、本開示におけるデータベース、マスタは、情報が構造的に規定された任意のデータ構造体(リスト、辞書、連想配列、オブジェクトなど)を含み得る。データ構造体には、データと、任意のプログラミング言語により記述された関数、クラス、メソッドなどを組み合わせることにより、データ構造体と見なし得るデータも含むものとする。
通信部は、通信IF991により実現される。通信部は、ネットワークを介して他のコンピュータ90と通信を行う機能を実現する。通信部は、他のコンピュータ90から送信された情報を受信し、制御部へ入力することができる。制御部は、各種プログラムに従ってプロセッサ901に、受信した情報に対する情報処理を実行させることができる。また、通信部は、制御部から出力された情報を他のコンピュータ90へ送信することができる。
<付記>
以上の各実施形態で説明した事項を以下に付記する。
(付記1)
プロセッサと、記憶部とを備え、第1ユーザと第2ユーザとの間の対話に関する情報をコンピュータに処理させるプログラムであって、プログラムは、プロセッサに、対話に関する音声データを受け付ける受付ステップ(S102)と、受付ステップにおいて受け付けた音声データから、発話区間ごとに複数の区間音声データを抽出する音声抽出ステップ(S103)と、音声抽出ステップにおいて抽出された複数の区間音声データのそれぞれに対応し、区間音声データにおける話者の感情状態に関する複数の感情特徴量を算定する感情算定ステップ(S104)と、感情算定ステップにおいて算定された複数の感情特徴量に基づき、対話に対するラベル情報を特定するラベル特定ステップ(S105)と、ラベル特定ステップにおいて特定されたラベル情報を、対話と関連づけて記憶する記憶ステップ(S106)と、を実行させるプログラム。
これにより、対話における話者間の対話情報を話者の感情状態に基づき管理することができる。
(付記2)
感情算定ステップ(S104)は、音声抽出ステップにおいて抽出された複数の区間音声データのそれぞれに対応する、多次元の感情に関する強度を示す感情ベクトルを算定するステップと、算定された感情ベクトルに基づき、音声抽出ステップにおいて抽出された複数の区間音声データのそれぞれに対応する、1次元の感情に関する強度を示す感情スカラーを算定するステップと、を含み、ラベル特定ステップ(S105)は、感情算定ステップにおいて算定された複数の感情スカラーに基づき、対話に対するラベル情報を特定するステップである、付記1記載のプログラム。
これにより、例えば、感情ベクトルの要素である、怒り、嫌悪、恐怖、幸福、悲しみ、驚き等が統合された1次元の感情スカラーに基づきラベル情報が特定され、話者間の対話情報を管理することができる。
(付記3)
感情算定ステップ(S104)は、音声抽出ステップにおいて抽出された複数の区間音声データのそれぞれに対応する、多次元の感情に関する強度を示す感情ベクトルを算定するステップであり、ラベル特定ステップ(S105)は、感情算定ステップにおいて算定された複数の感情ベクトルに基づき、対話に対するラベル情報を特定するステップである、付記1記載のプログラム。
これにより、例えば、感情ベクトルの要素である、怒り、嫌悪、恐怖、幸福、悲しみ、驚き等の多次元の感情ベクトルに基づきラベル情報が特定され、話者間の対話情報を管理することができる。
(付記4)
ラベル特定ステップ(S105)は、感情算定ステップにおいて算定された複数の感情特徴量のうち、所定の閾値以上または以下の感情特徴量の個数に基づき、対話に対するラベル情報を特定するステップである、付記1記載のプログラム。
これにより、話者の感情状態を推定することができ、対話における話者間の対話情報を話者の感情状態に基づき管理することができる。
(付記5)
ラベル特定ステップ(S105)は、感情算定ステップにおいて算定された複数の感情特徴量のうち、所定の閾値以上または以下の感情特徴量が占める割合に基づき、対話に対するラベル情報を特定するステップである、付記1記載のプログラム。
これにより、話者の感情状態を推定することができ、対話における話者間の対話情報を話者の感情状態に基づき管理することができる。
(付記6)
ラベル特定ステップ(S105)は、感情算定ステップにおいて算定された複数の感情特徴量の統計値に基づき、対話に対するラベル情報を特定するステップである、付記1記載のプログラム。
これにより、話者の感情状態を推定することができ、対話における話者間の対話情報を話者の感情状態に基づき管理することができる。
(付記7)
ラベル特定ステップ(S105)は、感情算定ステップにおいて算定された複数の感情特徴量の時系列的な変化に基づき、対話に対するラベル情報を特定するステップである、付記1記載のプログラム。
これにより、話者の感情状態の時系列的な変化に基づき、話者間の対話情報を管理することができる。
(付記8)
ラベル特定ステップ(S105)は、感情算定ステップにおいて算定された複数の感情特徴量の時系列的な変化に対して回帰分析を行うステップと、回帰分析の結果得られた回帰係数に基づき、対話に対するラベル情報を特定するステップと、を含む、付記7記載のプログラム。
これにより、話者の感情状態の時系列的な変化に基づき、話者間の対話情報を管理することができる。
(付記9)
プログラムは、プロセッサに、音声抽出ステップにおいて抽出した時系列的に連続する複数の区間音声データに対応した複数の感情特徴量の集合である第1感情群を特定するステップ(S105)と、音声抽出ステップにおいて抽出した時系列的に連続する複数の区間音声データに対応した複数の感情特徴量の集合である第2感情群を特定するステップ(S105)と、を実行させ、ラベル特定ステップ(S105)は、第1感情群に含まれる複数の感情特徴量に基づき、対話に対する第1ラベル情報を特定するステップと、第2感情群に含まれる複数の感情特徴量に基づき、対話に対する第2ラベル情報を特定するステップと、を含み、記憶ステップ(S106)は、ラベル特定ステップにおいて特定された第1ラベル情報または第2ラベル情報を、対話と関連づけて記憶するステップである、付記1記載のプログラム。
これにより、1の対話に含まれる複数の話者の感情状態に基づき、複数のラベル情報が特定され、話者間の対話情報をより正確に管理することができる。
(付記10)
プログラムは、プロセッサに、第1ラベル情報および第2ラベル情報を、第1ユーザに提示するラベル提示ステップ(S105)と、第1ユーザから、ラベル提示ステップにおいて提示した第1ラベル情報および第2ラベル情報の少なくともいずれか1つを選択する選択指示を受け付ける選択受付ステップ(S105)と、を実行させ、記憶ステップ(S106)は、選択受付ステップにおいて第1ユーザから受け付けた選択指示に基づき第1ラベル情報および第2ラベル情報の少なくともいずれか1つを、対話と関連づけて記憶するステップである、付記9記載のプログラム。
これにより、1の対話に含まれる複数の話者の感情状態に基づき、複数のラベル情報が特定され、ユーザに対して提示され、ユーザにより選択されたラベル情報に基づき、対話情報をより正確に管理することができる。
(付記11)
ラベル特定ステップ(S105)は、感情算定ステップにおいて算定された複数の感情特徴量と、複数の感情特徴量に対応する区間音声データを発話した第1ユーザまたは第2ユーザのユーザ属性と、に基づき、対話に対するラベル情報を特定するステップである、付記1記載のプログラム。
これにより、ユーザごとのユーザ属性を考慮した、より適切なラベル情報を特定することができ、対話における話者間の対話情報を話者の感情状態に基づきより適切に管理することができる。
(付記12)
ラベル特定ステップ(S105)は、感情算定ステップにおいて算定された、第2ユーザの発話にかかる区間音声データに対応する複数の感情特徴量に基づき、第1ユーザの発話にかかる区間音声データに対応する複数の感情特徴量を考慮せずに、対話に対するラベル情報を特定するステップである、付記1記載のプログラム。
これにより、対話における話者間の対話情報を、第2ユーザにかかる話者の感情状態にのみ基づき管理することができる。
例えば、第1ユーザにかかる話者の感情状態を考慮せずに対話情報を管理することができる。
(付記13)
第1ユーザは、対話の主催者であるホストユーザであり、第2ユーザは、ホストユーザではない、付記12記載のプログラム。
これにより、対話における話者間の対話情報を、対話の主催者であるホストユーザの感情状態を考慮せずに、対話先の第2ユーザの感情状態に基づき管理することができる。
(付記14)
第2ユーザは、対話の主催者であるホストユーザであり、第1ユーザは、ホストユーザではない、付記12記載のプログラム。
これにより、対話における話者間の対話情報を、対話の主催者であるホストユーザの感情状態に基づき、対話先の第2ユーザの感情状態を考慮せずに管理することができる。
(付記15)
感情算定ステップ(S104)は、音声抽出ステップにおいて抽出した区間音声データを入力データとして、学習モデルに適用することにより、感情特徴量を出力データとして算定する、付記1記載のプログラム。
これにより、対話における話者間の対話情報を話者の感情状態に基づき管理することができる。
(付記16)
プロセッサと、記憶部とを備える情報処理装置であって、プロセッサは、付記1から15のいずれか記載のプログラムを実行する、情報処理装置。
これにより、対話における話者間の対話情報を話者の感情状態に基づき管理することができる。
(付記17)
プロセッサと、記憶部とを備える情報処理装置を含む情報処理システムであって、プロセッサは、付記1から15のいずれか記載のプログラムを実行する、情報処理システム。
これにより、対話における話者間の対話情報を話者の感情状態に基づき管理することができる。
(付記18)
プロセッサと、記憶部とを備えるコンピュータにより実行される情報処理方法であって、コンピュータに、付記1から15のいずれか記載のプログラムを実行させる、情報処理方法。
これにより、対話における話者間の対話情報を話者の感情状態に基づき管理することができる。
(付記19)
プロセッサと、表示装置とを備える情報処理端末であって、プロセッサは、付記16記載の情報処理装置において実行されるラベル特定ステップにより特定されたラベル情報を表示装置に表示可能である、情報処理端末。
これにより、ユーザは、対話における話者間の対話情報を話者の感情状態に基づくラベル情報を確認することができる。
1 システム、10 サーバ、101 記憶部、104 制御部、106 入力装置、108 出力装置、20 第1ユーザ端末、201 記憶部、204 制御部、206 入力装置、208 出力装置、30 第2ユーザ端末、301 記憶部、304 制御部、306 入力装置、308 出力装置、50 CRMシステム、501 記憶部、504 制御部、506 入力装置、508 出力装置、60 音声サーバ(PBX)、601 記憶部、604 制御部、606 入力装置、608 出力装置

Claims (20)

  1. プロセッサと、記憶部とを備え、第1ユーザと第2ユーザとの間の対話に関する情報をコンピュータに処理させるプログラムであって、
    前記プログラムは、前記プロセッサに、
    前記対話に関する音声データを受け付ける受付ステップと、
    前記受付ステップにおいて受け付けた前記音声データから、発話区間ごとに複数の区間音声データを抽出する音声抽出ステップと、
    前記音声抽出ステップにおいて抽出された前記複数の区間音声データのそれぞれに対応し、前記区間音声データにおける話者の感情状態に関する複数の感情特徴量を算定する感情算定ステップと、
    前記感情算定ステップにおいて算定された前記複数の感情特徴量に基づき、前記複数の区間音声データごとではなく、前記対話において話者の応対の善し悪しを分類するためのラベル情報を特定するラベル特定ステップと、
    前記ラベル特定ステップにおいて特定された前記ラベル情報を、前記複数の区間音声データごとではなく、前記対話と関連づけて記憶する記憶ステップと、
    を実行させるプログラム。
  2. 前記感情算定ステップは、
    前記音声抽出ステップにおいて抽出された前記複数の区間音声データのそれぞれに対応する、多次元の感情に関する強度を示す感情ベクトルを算定するステップと、
    算定された前記感情ベクトルに基づき、前記音声抽出ステップにおいて抽出された前記複数の区間音声データのそれぞれに対応する、1次元の感情に関する強度を示す感情スカラーを算定するステップと、
    を含み、
    前記ラベル特定ステップは、前記感情算定ステップにおいて算定された複数の前記感情スカラーに基づき、前記対話に対するラベル情報を特定するステップである、
    請求項1記載のプログラム。
  3. 前記ラベル特定ステップは、前記感情算定ステップにおいて算定された前記複数の感情特徴量の時系列的な変化に基づき、前記対話に対するラベル情報を特定するステップである、
    請求項2記載のプログラム。
  4. 前記プログラムは、前記プロセッサに、
    前記音声抽出ステップにおいて抽出した時系列的に連続する複数の区間音声データに対応した複数の感情特徴量の集合である第1感情群を特定するステップと、
    前記音声抽出ステップにおいて抽出した時系列的に連続する複数の区間音声データに対応した複数の感情特徴量の集合である第2感情群を特定するステップと、
    を実行させ、
    前記ラベル特定ステップは、
    前記第1感情群に含まれる前記複数の感情特徴量に基づき、前記対話に対する第1ラベル情報を特定するステップと、
    前記第2感情群に含まれる前記複数の感情特徴量に基づき、前記対話に対する第2ラベル情報を特定するステップと、
    を含み、
    前記記憶ステップは、前記ラベル特定ステップにおいて特定された前記第1ラベル情報または前記第2ラベル情報を、前記対話と関連づけて記憶するステップである、
    請求項2記載のプログラム。
  5. 前記感情算定ステップは、前記音声抽出ステップにおいて抽出された前記複数の区間音声データのそれぞれに対応する、多次元の感情に関する強度を示す感情ベクトルを算定するステップであり、
    前記ラベル特定ステップは、前記感情算定ステップにおいて算定された複数の前記感情ベクトルに基づき、前記対話に対するラベル情報を特定するステップである、
    請求項1記載のプログラム。
  6. 前記ラベル特定ステップは、前記感情算定ステップにおいて算定された前記複数の感情特徴量の時系列的な変化に基づき、前記対話に対するラベル情報を特定するステップである、
    請求項5記載のプログラム。
  7. 前記プログラムは、前記プロセッサに、
    前記音声抽出ステップにおいて抽出した時系列的に連続する複数の区間音声データに対応した複数の感情特徴量の集合である第1感情群を特定するステップと、
    前記音声抽出ステップにおいて抽出した時系列的に連続する複数の区間音声データに対応した複数の感情特徴量の集合である第2感情群を特定するステップと、
    を実行させ、
    前記ラベル特定ステップは、
    前記第1感情群に含まれる前記複数の感情特徴量に基づき、前記対話に対する第1ラベル情報を特定するステップと、
    前記第2感情群に含まれる前記複数の感情特徴量に基づき、前記対話に対する第2ラベル情報を特定するステップと、
    を含み、
    前記記憶ステップは、前記ラベル特定ステップにおいて特定された前記第1ラベル情報または前記第2ラベル情報を、前記対話と関連づけて記憶するステップである、
    請求項5記載のプログラム。
  8. 前記ラベル特定ステップは、前記感情算定ステップにおいて算定された前記複数の感情特徴量のうち、所定の閾値以上または以下の感情特徴量の個数に基づき、前記対話に対するラベル情報を特定するステップである、
    請求項1から7のいずれか記載のプログラム。
  9. 前記ラベル特定ステップは、前記感情算定ステップにおいて算定された前記複数の感情特徴量のうち、所定の閾値以上または以下の感情特徴量が占める割合に基づき、前記対話に対するラベル情報を特定するステップである、
    請求項1から7のいずれか記載のプログラム。
  10. 前記ラベル特定ステップは、前記感情算定ステップにおいて算定された前記複数の感情特徴量の統計値に基づき、前記対話に対するラベル情報を特定するステップである、
    請求項1から7のいずれか記載のプログラム。
  11. 前記ラベル特定ステップは、
    前記感情算定ステップにおいて算定された前記複数の感情特徴量の時系列的な変化に対して回帰分析を行うステップと、
    前記回帰分析の結果得られた回帰係数に基づき、前記対話に対するラベル情報を特定するステップと、
    を含む、
    請求項3または6記載のプログラム。
  12. 前記プログラムは、前記プロセッサに、
    前記第1ラベル情報および前記第2ラベル情報を、前記第1ユーザに提示するラベル提示ステップと、
    前記第1ユーザから、前記ラベル提示ステップにおいて提示した前記第1ラベル情報および前記第2ラベル情報の少なくともいずれか1つを選択する選択指示を受け付ける選択受付ステップと、
    を実行させ、
    前記記憶ステップは、前記選択受付ステップにおいて前記第1ユーザから受け付けた前記選択指示に基づき前記第1ラベル情報および前記第2ラベル情報の少なくともいずれか1つを、前記対話と関連づけて記憶するステップである、
    請求項4または7記載のプログラム。
  13. 前記ラベル特定ステップは、
    前記感情算定ステップにおいて算定された前記複数の感情特徴量と、
    前記複数の感情特徴量に対応する区間音声データを発話した前記第1ユーザまたは前記第2ユーザのユーザ属性と、
    に基づき、前記対話に対するラベル情報を特定するステップである、
    請求項1から7のいずれか記載のプログラム。
  14. 前記ラベル特定ステップは、前記感情算定ステップにおいて算定された、前記第2ユーザの発話にかかる区間音声データに対応する前記複数の感情特徴量に基づき、前記第1ユーザの発話にかかる区間音声データに対応する前記複数の感情特徴量を考慮せずに、前記対話に対するラベル情報を特定するステップである、
    請求項1から7のいずれか記載のプログラム。
  15. 前記第1ユーザは、前記対話の主催者であるホストユーザであり、
    前記第2ユーザは、前記ホストユーザではない、
    請求項14記載のプログラム。
  16. 前記第2ユーザは、前記対話の主催者であるホストユーザであり、
    前記第1ユーザは、前記ホストユーザではない、
    請求項14記載のプログラム。
  17. 前記感情算定ステップは、前記音声抽出ステップにおいて抽出した前記区間音声データを入力データとして、学習モデルに適用することにより、前記感情特徴量を出力データとして算定する、
    請求項1から7のいずれか記載のプログラム。
  18. プロセッサと、記憶部とを備える情報処理装置であって、
    前記プロセッサは、請求項1から7のいずれか記載のプログラムを実行する、
    情報処理装置。
  19. プロセッサと、記憶部とを備える情報処理装置を含む情報処理システムであって、
    前記プロセッサは、請求項1から7のいずれか記載のプログラムを実行する、
    情報処理システム。
  20. プロセッサと、記憶部とを備えるコンピュータにより実行される情報処理方法であって、
    前記コンピュータに、請求項1から7のいずれか記載のプログラムを実行させる、
    情報処理方法。
JP2022079945A 2022-05-16 2022-05-16 プログラム、情報処理装置、情報処理システム、情報処理方法、情報処理端末 Active JP7169030B1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2022079945A JP7169030B1 (ja) 2022-05-16 2022-05-16 プログラム、情報処理装置、情報処理システム、情報処理方法、情報処理端末
JP2022169219A JP2023169092A (ja) 2022-05-16 2022-10-21 プログラム、情報処理装置、情報処理システム、情報処理方法、情報処理端末

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022079945A JP7169030B1 (ja) 2022-05-16 2022-05-16 プログラム、情報処理装置、情報処理システム、情報処理方法、情報処理端末

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2022169219A Division JP2023169092A (ja) 2022-05-16 2022-10-21 プログラム、情報処理装置、情報処理システム、情報処理方法、情報処理端末

Publications (2)

Publication Number Publication Date
JP7169030B1 true JP7169030B1 (ja) 2022-11-10
JP2023168690A JP2023168690A (ja) 2023-11-29

Family

ID=83995299

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2022079945A Active JP7169030B1 (ja) 2022-05-16 2022-05-16 プログラム、情報処理装置、情報処理システム、情報処理方法、情報処理端末
JP2022169219A Pending JP2023169092A (ja) 2022-05-16 2022-10-21 プログラム、情報処理装置、情報処理システム、情報処理方法、情報処理端末

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2022169219A Pending JP2023169092A (ja) 2022-05-16 2022-10-21 プログラム、情報処理装置、情報処理システム、情報処理方法、情報処理端末

Country Status (1)

Country Link
JP (2) JP7169030B1 (ja)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008032787A1 (fr) 2006-09-13 2008-03-20 Nippon Telegraph And Telephone Corporation ProcÉDÉ de dÉtection de sensations, dispositif de dÉtection de sensations, programme de dÉtection de sensations contenant le procÉDÉ, et support d'enregistrement contenant le programme
JP2017134686A (ja) 2016-01-28 2017-08-03 日産自動車株式会社 解析システム、解析方法、及び解析プログラム
JP2019029984A (ja) 2017-07-27 2019-02-21 大日本印刷株式会社 情報処理装置、情報処理方法、映像データ、プログラム、及び情報処理システム
JP2020529680A (ja) 2017-08-08 2020-10-08 Line株式会社 通話中の感情を認識し、認識された感情を活用する方法およびシステム
JP2021036292A (ja) 2019-08-30 2021-03-04 富士通株式会社 情報処理プログラム、情報処理方法および情報処理装置
JP2021096873A (ja) 2016-01-28 2021-06-24 ソニーグループ株式会社 通信システム、通信制御方法およびプログラム
JP2021124530A (ja) 2020-01-31 2021-08-30 Hmcomm株式会社 情報処理装置、情報処理方法及びプログラム
WO2021255795A1 (ja) 2020-06-15 2021-12-23 日本電信電話株式会社 情報処理装置、情報処理方法およびプログラム

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008032787A1 (fr) 2006-09-13 2008-03-20 Nippon Telegraph And Telephone Corporation ProcÉDÉ de dÉtection de sensations, dispositif de dÉtection de sensations, programme de dÉtection de sensations contenant le procÉDÉ, et support d'enregistrement contenant le programme
JP2017134686A (ja) 2016-01-28 2017-08-03 日産自動車株式会社 解析システム、解析方法、及び解析プログラム
JP2021096873A (ja) 2016-01-28 2021-06-24 ソニーグループ株式会社 通信システム、通信制御方法およびプログラム
JP2019029984A (ja) 2017-07-27 2019-02-21 大日本印刷株式会社 情報処理装置、情報処理方法、映像データ、プログラム、及び情報処理システム
JP2020529680A (ja) 2017-08-08 2020-10-08 Line株式会社 通話中の感情を認識し、認識された感情を活用する方法およびシステム
JP2021036292A (ja) 2019-08-30 2021-03-04 富士通株式会社 情報処理プログラム、情報処理方法および情報処理装置
JP2021124530A (ja) 2020-01-31 2021-08-30 Hmcomm株式会社 情報処理装置、情報処理方法及びプログラム
WO2021255795A1 (ja) 2020-06-15 2021-12-23 日本電信電話株式会社 情報処理装置、情報処理方法およびプログラム

Also Published As

Publication number Publication date
JP2023168690A (ja) 2023-11-29
JP2023169092A (ja) 2023-11-29

Similar Documents

Publication Publication Date Title
US11069367B2 (en) Speaker association with a visual representation of spoken content
CN109416816B (zh) 支持交流的人工智能系统
US11315569B1 (en) Transcription and analysis of meeting recordings
CN110825858A (zh) 一种应用于客户服务中心的智能交互机器人系统
JP6502965B2 (ja) コミュニケーション提供システム及びコミュニケーション提供方法
CN112364234B (zh) 一种在线讨论的自动分组系统
JP2023543032A (ja) 自然言語会話から意図をマイニングすることによるボットオーサリングに関するシステム及び方法
JP2007334732A (ja) ネットワークシステム及びネットワーク情報送受信方法
KR101891495B1 (ko) 사용자 발화 입력에 대한 대화 응답 후보를 표시하도록 하는 디스플레이 제어 방법, 컴퓨터 판독가능 기록 매체 및 컴퓨터 장치
JP7159576B2 (ja) 情報提示装置、情報提示システム、情報提示方法及びプログラム
JP2015094811A (ja) 通話録音可視化システムおよび通話録音可視化方法
WO2023090380A1 (ja) プログラム、情報処理システム及び情報処理方法
JP7169030B1 (ja) プログラム、情報処理装置、情報処理システム、情報処理方法、情報処理端末
JP7169031B1 (ja) プログラム、情報処理装置、情報処理システム、情報処理方法、情報処理端末
US20220207066A1 (en) System and method for self-generated entity-specific bot
JP2019207647A (ja) 対話型業務支援システム
JP2023168691A (ja) プログラム、情報処理装置、情報処理システム、情報処理方法、情報処理端末
TW201738830A (zh) 資訊處理系統、受理伺服器、資訊處理方法及程式
JP7168262B1 (ja) プログラム、情報処理システム及び情報処理方法
WO2024127476A1 (ja) プログラム、情報処理装置、製造方法、情報処理方法
WO2022091981A1 (ja) 情報処理システム
JP7386590B1 (ja) プログラム、方法、情報処理装置、システム
WO2023192200A1 (en) Systems and methods for attending and analyzing virtual meetings
JP2024031306A (ja) 情報提供装置及び情報提供方法
JP2020052105A (ja) 音声処理装置、音声処理方法、およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220516

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20220516

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220711

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220819

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221017

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221021

R150 Certificate of patent or registration of utility model

Ref document number: 7169030

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150