JP2023168690A

JP2023168690A - プログラム、情報処理装置、情報処理システム、情報処理方法、情報処理端末

Info

Publication number: JP2023168690A
Application number: JP2022079945A
Authority: JP
Inventors: 賢吉石塚; Kenkichi Ishizuka; 泰一橋本; Taiichi Hashimoto
Original assignee: Revcomm; Revcomm Inc
Current assignee: Revcomm; Revcomm Inc
Priority date: 2022-05-16
Filing date: 2022-05-16
Publication date: 2023-11-29
Anticipated expiration: 2042-05-16
Also published as: JP7169030B1; JP2023169092A

Abstract

【課題】対話における話者間の対話情報を話者の感情状態に基づき管理することができるプログラム、情報処理装置、情報処理システム、情報処理方法及び情報処理端末を提供する。【解決手段】ネットワークを介して接続されたサーバ、複数のユーザ端末、ＣＲＭシステム及び音声サーバを備えるシステムにおいて、サーバの制御部は、対話に関する音声データを受け付け、受け付けた音声データから、発話区間毎に複数の区間音声データを抽出し、抽出した複数の区間音声データのそれぞれに対応し、区間音声データにおける話者の感情状態に関する複数の感情特徴量を算定し、算定した複数の感情特徴量に基づき、対話に対するラベル情報を特定し、特定したラベル情報を、対話と関連づけて記憶する感情解析処理を実行する感情解析部を備える。【選択図】図１６

Description

本開示は、プログラム、情報処理装置、情報処理システム、情報処理方法、情報処理端末に関する。

複数のユーザ間で行われるオンライン対話サービスが知られている。
特許文献１には、営業活動を行う者に対して、その営業活動の評価を行う技術が開示されている。
特許文献２には、応対業務のオペレータの応対を自動的に評点し、オペレータ教育の負担を軽減する技術が開示されている。
特許文献３には、意見交換の活発さに鑑みて学習者または学習者の発話を評価する学習支援装置が開示されている。

特開２０２１－１８２３９０号公報特開２００７－２８６３７７号公報特開２０２０－０９１６０９号広報

対話における話者間の対話情報を管理できていないという課題がある。
そこで、本開示は、上記課題を解決すべくなされたものであって、その目的は、話者の感情状態に基づき、対話における話者間の対話情報を管理する技術を提供することである。

プロセッサと、記憶部とを備え、第１ユーザと第２ユーザとの間の対話に関する情報をコンピュータに処理させるプログラムであって、プログラムは、プロセッサに、対話に関する音声データを受け付ける受付ステップと、受付ステップにおいて受け付けた音声データから、発話区間ごとに複数の区間音声データを抽出する音声抽出ステップと、音声抽出ステップにおいて抽出された複数の区間音声データのそれぞれに対応し、区間音声データにおける話者の感情状態に関する複数の感情特徴量を算定する感情算定ステップと、感情算定ステップにおいて算定された複数の感情特徴量に基づき、対話に対するラベル情報を特定するラベル特定ステップと、ラベル特定ステップにおいて特定されたラベル情報を、対話と関連づけて記憶する記憶ステップと、を実行させるプログラム。

本開示によれば、対話における話者間の対話情報を話者の感情状態に基づき管理することができる。

システム１の機能構成を示すブロック図である。サーバ１０の機能構成を示すブロック図である。第１ユーザ端末２０の機能構成を示すブロック図である。第２ユーザ端末３０の機能構成を示すブロック図である。ＣＲＭシステム５０の機能構成を示すブロック図である。ユーザテーブル１０１２のデータ構造を示す図である。組織テーブル１０１３のデータ構造を示す図である。対話テーブル１０１４のデータ構造を示す図である。ラベルテーブル１０１５のデータ構造を示す図である。音声区間テーブル１０１６のデータ構造を示す図である。トピック関連度テーブル１０１７のデータ構造を示す図である。感情条件マスタ１０２１のデータ構造を示す図である。話者タイプマスタ１０２２のデータ構造を示す図である。トピックマスタ１０２３のデータ構造を示す図である。顧客テーブル５０１２のデータ構造を示す図である。感情解析処理の動作を示すフローチャートである。印象解析処理の動作を示すフローチャートである。トピック解析処理の動作を示すフローチャートである。トピック提示処理の動作を示すフローチャートである。トピック提示処理の動作を示す画面例である。コンピュータ９０の基本的なハードウェア構成を示すブロック図である。

以下、本開示の実施形態について図面を参照して説明する。実施形態を説明する全図において、共通の構成要素には同一の符号を付し、繰り返しの説明を省略する。なお、以下の実施形態は、特許請求の範囲に記載された本開示の内容を不当に限定するものではない。また、実施形態に示される構成要素のすべてが、本開示の必須の構成要素であるとは限らない。また、各図は模式図であり、必ずしも厳密に図示されたものではない。

＜システム１の構成＞
本開示におけるシステム１は、オペレータである第１ユーザと顧客である第２ユーザとの間でオンラインで行われる対話サービス（オンライン対話サービス）を提供する情報処理システムである。なお、本開示におけるシステム１は、第１ユーザ、第２ユーザに加えて、他の１または複数のユーザを含む三者以上のユーザ間でオンラインで行われる対話サービスも提供可能としても良い。
システム１は、ネットワークＮを介して接続された、サーバ１０、第１ユーザ端末２０、第２ユーザ端末３０、ＣＲＭシステム５０、音声サーバ（ＰＢＸ）６０の情報処理装置を備える。
図１は、システム１の機能構成を示すブロック図である。
図２は、サーバ１０の機能構成を示すブロック図である。
図３は、第１ユーザ端末２０の機能構成を示すブロック図である。
図４は、第２ユーザ端末３０の機能構成を示すブロック図である。
図５は、ＣＲＭシステム５０の機能構成を示すブロック図である。

各情報処理装置は演算装置と記憶装置とを備えたコンピュータにより構成されている。コンピュータの基本ハードウェア構成および、当該ハードウェア構成により実現されるコンピュータの基本機能構成は後述する。サーバ１０、第１ユーザ端末２０、第２ユーザ端末３０、ＣＲＭシステム５０、音声サーバ（ＰＢＸ）６０のそれぞれについて、後述するコンピュータの基本ハードウェア構成およびコンピュータの基本機能構成と重複する説明は省略する。

＜サーバ１０の構成＞
サーバ１０は、第１ユーザと第２ユーザとの間で行われる対話に関連するデータ（対話データ）を記憶、管理するサービスを提供する情報処理装置である。
サーバ１０は、記憶部１０１、制御部１０４を備える。

＜サーバ１０の記憶部１０１の構成＞
サーバ１０の記憶部１０１は、アプリケーションプログラム１０１１、感情評価モデル１０３１、印象評価モデル１０３２、第１印象評価モデル１０３３、第２印象評価モデル１０３４、要約モデル１０３５、ユーザテーブル１０１２、組織テーブル１０１３、対話テーブル１０１４、ラベルテーブル１０１５、音声区間テーブル１０１６、トピック関連度テーブル１０１７、感情条件マスタ１０２１、話者タイプマスタ１０２２、トピックマスタ１０２３を備える。

アプリケーションプログラム１０１１は、サーバ１０の制御部１０４を各機能ユニットとして機能させるためのプログラムである。
アプリケーションプログラム１０１１は、ウェブブラウザアプリケーションなどのアプリケーションを含む。

感情評価モデル１０３１は、音声データ、動画データ、音声データまたは動画データにおけるユーザの発言内容に関するテキストデータを入力データとして、複数の感情状態ごとの数値的な強度、数値を出力するためのモデルである。

印象評価モデル１０３２は、音声データ、動画データ、音声データまたは動画データにおけるユーザの発言内容に関するテキストデータを入力データとして、複数の印象ごとの数値的な強度、数値を出力するためのモデルである。

第１印象評価モデル１０３３は、音声データ、動画データ、音声データまたは動画データにおけるユーザの発言内容に関するテキストデータを入力データとして、話者の話し方に関する対話特徴量を出力するためのモデルである。対話特徴量とは、話者の話速、抑揚、丁寧な表現の数、フィラーの数および文法的な発話の数のうち少なくともいずれか１つの話し方に関する特徴量である。

第２印象評価モデル１０３４は、対話特徴量を入力データとして、複数の印象ごとの数値的な強度、数値を出力するためのモデルである。

ユーザテーブル１０１２は、サービスを利用する会員ユーザ（以下、ユーザ）の情報を記憶し管理するテーブルである。ユーザは、サービスの利用登録を行うことで、当該ユーザの情報がユーザテーブル１０１２の新しいレコードに記憶される。これにより、ユーザは本開示にかかるサービスを利用できるようになる。
ユーザテーブル１０１２は、ユーザＩＤを主キーとして、ユーザＩＤ、ＣＲＭＩＤ、組織ＩＤ、ユーザ名、ユーザ属性のカラムを有するテーブルである。
図６は、ユーザテーブル１０１２のデータ構造を示す図である。

ユーザＩＤは、ユーザを識別するためのユーザ識別情報を記憶する項目である。ユーザ識別情報は、ユーザごとにユニークな値が設定されている項目である。
ＣＲＭＩＤは、ＣＲＭシステム５０において、ユーザを識別するためのユーザ識別情報を記憶する項目である。ユーザはＣＲＭＩＤによりＣＲＭシステム５０にログインすることにより、ＣＲＭサービスの提供を受けることができる。サーバ１０におけるユーザＩＤは、ＣＲＭシステム５０におけるＣＲＭＩＤと関連づけられている。
組織ＩＤは、組織を識別するための組織識別情報を記憶する項目である。
ユーザ名は、ユーザの氏名を記憶する項目である。ユーザ名は、氏名ではなく、ニックネームなど任意の文字列を設定しても良い。
ユーザ属性は、ユーザの年齢、性別、出身地、方言、職種（営業、カスタマーサポートなど）などのユーザの属性に関する情報を記憶する項目である。ユーザ属性は、ユーザ個人の属性に関する情報に加え、ユーザが所属する組織、企業、グループ等に関する業種、事業規模、売上げ規模等の企業属性に関する情報を含んでも良い。

組織テーブル１０１３は、ユーザが所属する組織に関する情報（組織情報）を記憶し管理するテーブルである。組織は、会社、法人、企業グループ、サークル、各種団体など任意の組織、グループが含まれる。組織は、会社の部署（営業部、総務部、カスタマーサポート部）などのより詳細なサブグループごとに定義しても良い。
組織テーブル１０１３は、組織ＩＤを主キーとして、組織ＩＤ、組織名、組織属性のカラムを有するテーブルである。
図７は、組織テーブル１０１３のデータ構造を示す図である。

組織ＩＤは、組織を識別するための組織識別情報を記憶する項目である。組織識別情報は、組織情報ごとにユニークな値が設定されている項目である。
組織名は、組織の名称を記憶する項目である。組織名は任意の文字列を設定できる。
組織属性は、組織種別（会社、企業グループ、その他団体など）、業種（不動産、金融など）などの組織の属性に関する情報を記憶する項目である。

対話テーブル１０１４は、ユーザと顧客との間で行われる対話に関連する情報（対話情報）を記憶し管理するためのテーブルである。
対話テーブル１０１４は、対話ＩＤを主キーとして、対話ＩＤ、ユーザＩＤ、顧客ＩＤ、対話カテゴリ、受発信種別、音声データ、動画データのカラムを有するテーブルである。
図８は、対話テーブル１０１４のデータ構造を示す図である。

対話ＩＤは、対話を識別するための対話識別情報を記憶する項目である。対話識別情報は、対話情報ごとにユニークな値が設定されている項目である。
ユーザＩＤは、ユーザと顧客との間で行われる対話において、ユーザを識別するためのユーザ識別情報を記憶する項目である。対話情報ごとに、複数のユーザＩＤが関連づけられていても良い。
顧客ＩＤは、ユーザと顧客との間で行われる対話において、顧客を識別するためのユーザ識別情報を記憶する項目である。対話情報ごとに、複数の顧客のユーザＩＤが関連づけられていても良い。
対話カテゴリは、ユーザと顧客との間で行われた対話の種類（カテゴリ）を記憶する項目である。対話データは、対話カテゴリにより分類される。対話カテゴリには、ユーザと顧客との間で行われる対話の目的などに応じて、テレフォンオペレーター、テレマーケティング、カスタマーサポート、テクニカルサポートなどの値が記憶される。
受発信種別は、ユーザと顧客との間で行われた対話が、ユーザが発信した（アウトバウンド）ものか、ユーザが受信した（インバウンド）もののいずれかを区別するための情報を記憶する項目である。また、３者以上のユーザによる対話の際には、ルームという受発信種別が記憶される。
音声データは、マイクにより集音された音声データを記憶する項目である。他の場所に配置された音声データファイルに対する参照情報（パス）を記憶するものとしても良い。音声データのフォーマットは、ＡＡＣ，ＡＴＲＡＣ、ｍｐ３、ｍｐ４など任意のデータフォーマットで良い。
音声データは、ユーザの音声と顧客の音声とが、それぞれ独立して識別可能な識別子が設定された形式のデータであっても良い。この場合、サーバ１０の制御部１０４は、ユーザの音声、顧客の音声に対してそれぞれ独立した解析処理を実行できる。また、ユーザ、顧客の音声データに基づき、ユーザ、顧客のユーザＩＤを特定できる。
本開示において、音声データに替えて、音声情報を含む動画データを用いても構わない。また、本開示における音声データは、動画データに含まれる音声データも含む。
動画データは、カメラ等による撮影された動画データを記憶する項目である。他の場所に配置された動画データファイルに対する参照情報（パス）を記憶するものとしても良い。動画データのフォーマットは、ＭＰ４、ＭＯＶ、ＷＭＶ、ＡＶＩ、ＡＶＣＨＤなど任意のデータフォーマットで良い。
動画データは、ユーザの動画と顧客の動画とが、それぞれ独立して識別可能な識別子が設定された形式のデータであっても良い。この場合、サーバ１０の制御部１０４は、ユーザの動画、顧客の動画に対してそれぞれ独立した解析処理を実行できる。また、ユーザ、顧客の動画データに基づき、ユーザ、顧客のユーザＩＤを特定できる。

ラベルテーブル１０１５は、ラベルに関する情報（ラベル情報）を記憶し管理するためのテーブルである。
ラベルテーブル１０１５は、対話ＩＤ、ラベルデータのカラムを有するテーブルである。
図９は、ラベルテーブル１０１５のデータ構造を示す図である。

対話ＩＤは、対話を識別するための対話識別情報を記憶する項目である。
ラベルデータは、対話を管理するためのラベル情報を記憶する項目である。ラベル情報は、分類名、ラベル、分類ラベル、タグなど、対話情報を管理するための付加的な情報である。
ラベルデータはラベル情報の名称を示す文字列でも良いし、他のテーブルに記憶されたラベル情報の名称を参照するためのラベルＩＤ等でも良い。
ラベルデータは、特定の対話における話者の感情状態に応じた分類情報を含む。分類データは、特定の対話において話者の応対の善し悪しを分類するための分類情報を含む。

音声区間テーブル１０１６は、対話情報に含まれる複数の音声区間に関する情報（音声区間情報）を記憶し管理するためのテーブルである。
音声区間テーブル１０１６は、区間ＩＤを主キーとして、区間ＩＤ、対話ＩＤ、話者ＩＤ、開始日時、終了日時、区間音声データ、区間動画データ、区間読上テキスト、感情データ、印象データ、トピックＩＤのカラムを有するテーブルである。
図１０は、音声区間テーブル１０１６のデータ構造を示す図である。

区間ＩＤは、音声区間を識別するための区間識別情報を記憶する項目である。区間識別情報は、音声区間情報ごとにユニークな値が設定されている項目である。
対話ＩＤは、音声区間情報が関連づけられる対話を識別するための対話識別情報を記憶する項目である。
話者ＩＤは、音声区間情報が関連づけられる話者を識別するための話者識別情報を記憶する項目である。具体的に、話者ＩＤは、対話に参加した、複数のユーザのユーザＩＤを記憶する項目である。
開始日時は、音声区間、動画区間の開始日時を記憶する項目である。
終了日時は、音声区間、動画区間の終了日時を記憶する項目である。
区間音声データは、音声区間に含まれる音声データを記憶する項目である。他の場所に配置された音声データファイルに対する参照情報（パス）を記憶するものとしても良い。また、開始日時、終了日時に基づき対話テーブル１０１４の音声データの開始日時から終了日時までの期間の音声データに対する参照を記憶しても良い。また、区間音声データは、区間動画データに含まれる音声データを含むものとしても構わない。
音声データのフォーマットは、ＡＡＣ，ＡＴＲＡＣ、ｍｐ３、ｍｐ４など任意のデータフォーマットで良い。
区間動画データは、音声区間に含まれる動画データを記憶する項目である。他の場所に配置された動画データファイルに対する参照情報（パス）を記憶するものとしても良い。また、開始日時、終了日時に基づき対話テーブル１０１４の動画データの開始日時から終了日時までの期間の動画データに対する参照を記憶しても良い。
動画データのフォーマットは、ＭＰ４、ＭＯＶ、ＷＭＶ、ＡＶＩ、ＡＶＣＨＤなど任意のデータフォーマットで良い。
区間読上テキストは、音声区間に含まれる区間音声データにおいて話者により発話された内容のテキスト情報を記憶する項目である．具体的に、区間読上テキストは、区間音声データ、区間動画データに基づき、人手、任意の機械学習、深層学習等の学習モデルを用いることにより生成しても良い。
感情データは、音声区間において、話者の感情状態を記憶する項目である。感情データは、興味・興奮、喜び、驚き、不安、怒り、嫌悪、軽蔑、恐怖、恥、罪悪感等の、話者の複数の感情状態に関する多次元尺度（感情ベクトル）である。感情データは、対話区間において、話者がどのような感情状態にあるのか、複数の感情状態（次元）ごとの強度、数値として定量的に表現したものである。感情データは、感情ベクトルに基づき、１次元の感情に関する強度を示す感情スカラーを算出し、記憶する構成としても良い。
印象データは、音声区間において、話者の印象を記憶する項目である。印象データは、好き、嫌い、うるさい、聞きづらい、丁寧、わかりにくい、おどおどした、神経質、威圧的、暴力的および性的の、話者が与える複数の異なる印象に関する多次元尺度（ベクトル）である。対話区間において、話者がどのような印象を与えるのか、複数の印象（次元）ごとの強度、数値として定量的に表現したものである。
トピックＩＤは、音声区間において、音声区間に関連づけられたトピック識別情報を記憶する項目である。

トピック関連度テーブル１０１７は、音声区間ごとのトピック関連度に関する情報（トピック関連度情報）を記憶し管理するためのテーブルである。
トピック関連度テーブル１０１７は、区間ＩＤ、トピックＩＤ、関連度のカラムを有するテーブルである。
図１１は、トピック関連度テーブル１０１７のデータ構造を示す図である。

区間ＩＤは、対象となる音声区間の区間識別情報を記憶する項目である。
トピックＩＤは、トピックを識別するためのトピック識別情報を記憶する項目である。
関連度は、対話情報に含まれる音声区間において、トピックＩＤにより特定されるトピック識別情報ごとの関連度に関する情報を記憶する項目である。１の音声区間について、トピックＩＤにより特定されるトピックとの関連度を示す数値が記憶する項目である。関連度が大きいほど対話情報とトピックとの関連性が強くなる。

感情条件マスタ１０２１は、感情条件に関する情報（感情条件情報）を記憶し管理するためのテーブルである。
感情条件マスタ１０２１は、感情条件、ラベルデータのカラムを有するテーブルである。
図１２は、感情条件マスタ１０２１のデータ構造を示す図である。

感情条件は、感情データに関する条件を記憶する項目である。具体的には、感情データの閾値、平均値、回帰分析を行った際の回帰係数などに対する条件が記憶される。
ラベルデータは、感情条件に関連づけられるラベル情報を記憶する項目である。

話者タイプマスタ１０２２は、印象条件に関する情報（印象条件情報）を記憶し管理するためのテーブルである。
話者タイプマスタ１０２２は、印象条件、話者タイプのカラムを有するテーブルである。
図１３は、話者タイプマスタ１０２２のデータ構造を示す図である。

印象条件は、印象データに関する条件を記憶する項目である。具体的には、印象データの閾値、平均値、回帰分析を行った際の回帰係数などに対する条件が記憶される。
話者タイプは、印象条件に関連づけられる話者タイプを記憶する項目である。話者タイプは、強引、控え目、重厚、友好的、積極的、感情的などの話者が対話相手に与える印象を分類したものである。

トピックマスタ１０２３は、トピックに関する情報（トピック情報）を記憶し管理するためのテーブルである。
トピックマスタ１０２３は、トピックＩＤを主キーとして、トピックＩＤ、キーワードのカラムを有するテーブルである。
図１４は、トピックマスタ１０２３のデータ構造を示す図である。

トピックＩＤは、トピックを識別するためのトピック識別情報を記憶する項目である。トピック識別情報は、トピック情報ごとにユニークな値が設定されている項目である。
キーワードは、トピックが関連づけられる複数のキーワードを記憶する項目である。具体的に、１のトピックに対して複数のキーワードが関連づけられる。

＜サーバ１０の制御部１０４の構成＞
サーバ１０の制御部１０４は、ユーザ登録制御部１０４１、感情解析部１０４２、印象解析部１０４３、トピック処理部１０４４、学習部１０５１を備える。制御部１０４は、記憶部１０１に記憶されたアプリケーションプログラム１０１１を実行することにより、各機能ユニットが実現される。

ユーザ登録制御部１０４１は、本開示に係るサービスの利用を希望するユーザの情報をユーザテーブル１０１２に記憶する処理を行う。
ユーザテーブル１０１２に記憶される情報は、ユーザが任意の情報処理端末からサービス提供者が運営するウェブページなどを開き、所定の入力フォームに情報を入力しサーバ１０へ送信する。ユーザ登録制御部１０４１は、受信した情報をユーザテーブル１０１２の新しいレコードに記憶し、ユーザ登録が完了する。これにより、ユーザテーブル１０１２に記憶されたユーザはサービスを利用できるようになる。
ユーザ登録制御部１０４１によるユーザ情報のユーザテーブル１０１２への登録に先立ち、サービス提供者は所定の審査を行いユーザによるサービス利用可否を制限しても良い。
ユーザＩＤは、ユーザを識別できる任意の文字列または数字で良く、ユーザが希望する任意の文字列または数字、もしくはユーザ登録制御部１０４１が自動的に任意の文字列または数字を設定しても良い。

感情解析部１０４２は、感情解析処理を実行する。詳細は後述する。

印象解析部１０４３は、印象解析処理を実行する。詳細は後述する。

トピック処理部１０４４は、トピック定義処理、トピック解析処理、トピック提示処理を実行する。詳細は後述する。

学習部１０５１は、学習処理を実行する。

＜第１ユーザ端末２０の構成＞
第１ユーザ端末２０は、サービスを利用する第１ユーザが操作する情報処理装置である。第１ユーザ端末２０は、例えば、据え置き型のＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）、ラップトップＰＣであってもよいし、スマートフォン、タブレット等の携帯端末でもよい。また、ＨＭＤ（ＨｅａｄＭｏｕｎｔＤｉｓｐｌａｙ）、腕時計型端末等のウェアラブル端末であってもよい。
第１ユーザ端末２０は、記憶部２０１、制御部２０４、入力装置２０６、出力装置２０８を備える。

＜第１ユーザ端末２０の記憶部２０１の構成＞
第１ユーザ端末２０の記憶部２０１は、第１ユーザＩＤ２０１１、アプリケーションプログラム２０１２を備える。

第１ユーザＩＤ２０１１は、第１ユーザのユーザ識別情報を記憶する。ユーザは、第１ユーザ端末２０から第１ユーザＩＤ２０１１を、音声サーバ（ＰＢＸ）６０へ送信する。音声サーバ（ＰＢＸ）６０は、第１ユーザＩＤ２０１１に基づき第１ユーザを識別し、本開示にかかるサービスを第１ユーザに対して提供する。なお、第１ユーザＩＤ２０１１には、第１ユーザ端末２０を利用しているユーザを識別するにあたり音声サーバ（ＰＢＸ）６０から一時的に付与されるセッションＩＤなどの情報を含む。

アプリケーションプログラム２０１２は、記憶部２０１に予め記憶されていても良いし、通信ＩＦを介してサービス提供者が運営するウェブサーバ等からダウンロードする構成としても良い。
アプリケーションプログラム２０１２は、ウェブブラウザアプリケーションなどのアプリケーションを含む。
アプリケーションプログラム２０１２は、第１ユーザ端末２０に記憶されているウェブブラウザアプリケーション上で実行されるＪａｖａＳｃｒｉｐｔ（登録商標）などのインタープリター型プログラミング言語を含む。

＜第１ユーザ端末２０の制御部２０４の構成＞
第１ユーザ端末２０の制御部２０４は、入力制御部２０４１、出力制御部２０４２を備える。制御部２０４は、記憶部２０１に記憶されたアプリケーションプログラム２０１２を実行することにより、各機能ユニットが実現される。

＜第１ユーザ端末２０の入力装置２０６の構成＞
第１ユーザ端末２０の入力装置２０６は、カメラ２０６１、マイク２０６２、位置情報センサ２０６３、モーションセンサ２０６４、キーボード２０６５を備える。

＜第１ユーザ端末２０の出力装置２０８の構成＞
第１ユーザ端末２０の出力装置２０８は、ディスプレイ２０８１、スピーカ２０８２を備える。

＜第２ユーザ端末３０の構成＞
第２ユーザ端末３０は、サービスを利用する第２ユーザが操作する情報処理装置である。第２ユーザ端末３０は、例えば、スマートフォン、タブレット等の携帯端末でもよいし、据え置き型のＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）、ラップトップＰＣであってもよい。また、ＨＭＤ（ＨｅａｄＭｏｕｎｔＤｉｓｐｌａｙ）、腕時計型端末等のウェアラブル端末であってもよい。
第２ユーザ端末３０は、記憶部３０１、制御部３０４、入力装置３０６、出力装置３０８を備える。

＜第２ユーザ端末３０の記憶部３０１の構成＞
第２ユーザ端末３０の記憶部３０１は、アプリケーションプログラム３０１２、電話番号３０１３を備える。

アプリケーションプログラム３０１２は、記憶部３０１に予め記憶されていても良いし、通信ＩＦを介してサービス提供者が運営するウェブサーバ等からダウンロードする構成としても良い。
アプリケーションプログラム３０１２は、ウェブブラウザアプリケーションなどのアプリケーションを含む。
アプリケーションプログラム３０１２は、第２ユーザ端末３０に記憶されているウェブブラウザアプリケーション上で実行されるＪａｖａＳｃｒｉｐｔ（登録商標）などのインタープリター型プログラミング言語を含む。

＜第２ユーザ端末３０の制御部３０４の構成＞
第２ユーザ端末３０の制御部３０４は、入力制御部３０４１、出力制御部３０４２を備える。制御部３０４は、記憶部３０１に記憶されたアプリケーションプログラム３０１２を実行することにより、各機能ユニットが実現される。

＜第２ユーザ端末３０の入力装置３０６の構成＞
第２ユーザ端末３０の入力装置３０６は、カメラ３０６１、マイク３０６２、位置情報センサ３０６３、モーションセンサ３０６４、タッチデバイス３０６５を備える。

＜第２ユーザ端末３０の出力装置３０８の構成＞
第２ユーザ端末３０の出力装置３０８は、ディスプレイ３０８１、スピーカ３０８２を備える。

＜ＣＲＭシステム５０の構成＞
ＣＲＭシステム５０は、ＣＲＭ（ＣｕｓｔｏｍｅｒＲｅｌａｔｉｏｎｓｈｉｐＭａｎａｇｅｍｅｎｔ、第２ユーザ関係管理）サービスを提供する事業者（ＣＲＭ事業者）が管理、運営する情報処理装置である。ＣＲＭサービスとしては、ＳａｌｅｓＦｏｒｃｅ、ＨｕｂＳｐｏｔ、ＺｏｈｏＣＲＭ、ｋｉｎｔｏｎｅなどがある。
ＣＲＭシステム５０は、記憶部５０１、制御部５０４を備える。

＜ＣＲＭシステム５０の記憶部５０１の構成＞
ＣＲＭシステム５０の記憶部５０１は、アプリケーションプログラム５０１１、顧客テーブル５０１２を備える。

アプリケーションプログラム５０１１は、ＣＲＭシステム５０の制御部５０４を各機能ユニットとして機能させるためのプログラムである。
アプリケーションプログラム５０１１は、ウェブブラウザアプリケーションなどのアプリケーションを含む。

顧客テーブル５０１２は、顧客にかかるユーザ情報（顧客情報）を記憶し管理するためのテーブルである。
顧客テーブル５０１２は、顧客ＩＤを主キーとして、顧客ＩＤ、ユーザＩＤ、氏名、電話番号、話者タイプのカラムを有するテーブルである。
図１５は、顧客テーブル５０１２のデータ構造を示す図である。

顧客ＩＤは、顧客のユーザ識別情報を記憶する項目である。ユーザ識別情報は、顧客ごとにユニークな値が設定されている項目である。
ユーザＩＤは、顧客を管理するユーザのユーザ識別情報を記憶する項目である。
氏名は、顧客の氏名を記憶する項目である。
電話番号は、顧客の電話番号を記憶する項目である。
ユーザは、ＣＲＭシステムが提供するウェブサイトにアクセスし、電話を発信したい顧客を選択し「発信」などの所定の操作を行なうことにより、第１ユーザ端末２０から顧客の電話番号に対して電話を発信できる。
話者タイプは、顧客ＩＤにより特定されるユーザの話者タイプを記憶する項目である。

＜ＣＲＭシステム５０の制御部５０４の構成＞
ＣＲＭシステム５０の制御部５０４は、ユーザ登録制御部５０４１を備える。制御部５０４は、記憶部５０１に記憶されたアプリケーションプログラム５０１１を実行することにより、各機能ユニットが実現される。

ユーザ登録制御部５０４１は、本開示に係るサービスにおいて顧客情報を顧客テーブル５０１２に記憶する処理を行う。
顧客テーブル５０１２に記憶される情報は、ユーザが任意の情報処理端末からサービス提供者が運営するウェブページなどを開き、所定の入力フォームに情報を入力しＣＲＭシステム５０へ送信する。ユーザ登録制御部５０４１は、受信した情報を顧客テーブル５０１２の新しいレコードに記憶し、顧客の登録が完了する。これにより、顧客情報が顧客の管理を行うユーザのユーザＩＤと関連づけて記憶される。
顧客ＩＤは、ユーザを識別できる任意の文字列または数字で良く、ユーザが希望する任意の文字列または数字、もしくはユーザ登録制御部５０４１が自動的に任意の文字列または数字を設定しても良い。

＜音声サーバ（ＰＢＸ）６０の構成＞
音声サーバ（ＰＢＸ）６０は、ネットワークＮと電話網Ｔとを互いに接続することで第１ユーザ端末２０と第２ユーザ端末３０との間における対話を可能とする交換機として機能する情報処理装置である。
音声サーバ（ＰＢＸ）６０は、記憶部６０１を備える。

＜音声サーバ（ＰＢＸ）６０の記憶部６０１の構成＞
音声サーバ（ＰＢＸ）６０の記憶部６０１は、アプリケーションプログラム６０１１を備える。

アプリケーションプログラム６０１１は、音声サーバ（ＰＢＸ）６０の制御部６０４を各機能ユニットとして機能させるためのプログラムである。
アプリケーションプログラム６０１１は、ウェブブラウザアプリケーションなどのアプリケーションを含む。

＜システム１の動作＞
以下、システム１の各処理について説明する。
図１６は、感情解析処理の動作を示すフローチャートである。
図１７は、印象解析処理の動作を示すフローチャートである。
図１８は、トピック解析処理の動作を示すフローチャートである。
図１９は、トピック提示処理の動作を示すフローチャートである。
図２０は、トピック提示処理の動作を示す画面例である。

＜発信処理＞
発信処理は、ユーザ（第１ユーザ）から顧客（第２ユーザ）に対し発信（架電）する処理である。

＜発信処理の概要＞
発信処理は、ユーザは第１ユーザ端末２０の画面に表示された複数の顧客のうち発信を希望する顧客を選択し、発信操作を行うことにより、顧客に対して発信を行なう一連の処理である。本開示においては、顧客として第２ユーザを選択する場合を一例として説明する。

＜発信処理の詳細＞
ユーザから顧客に発信する場合におけるシステム１の発信処理について説明する。

ユーザが顧客に発信する場合、システム１において以下の処理が実行される。

ユーザは第１ユーザ端末２０を操作することにより、ウェブブラウザを起動し、ＣＲＭシステム５０が提供するＣＲＭサービスのウェブサイトへアクセスする。ユーザは、ＣＲＭサービスが提供する顧客管理画面を開くことにより自身の顧客を第１ユーザ端末２０のディスプレイ２０８１へ一覧表示できる。
具体的に、第１ユーザ端末２０は、ＣＲＭＩＤ２０１３および顧客を一覧表示する旨のリクエストをＣＲＭシステム５０へ送信する。ＣＲＭシステム５０は、リクエストを受信すると、顧客テーブル５０１２を検索し、顧客ＩＤ、氏名、電話番号、顧客属性、顧客組織名、顧客組織属性などのユーザの顧客に関する情報を第１ユーザ端末２０に送信する。第１ユーザ端末２０は、受信した顧客に関する情報を第１ユーザ端末２０のディスプレイ２０８１に表示する。

ユーザは、第１ユーザ端末２０のディスプレイ２０８１に一覧表示された顧客から発信を希望する顧客（第２ユーザ）を押下し選択する。顧客が選択された状態で、第１ユーザ端末２０のディスプレイ２０８１に表示された「発信」ボタンまたは、電話番号ボタンを押下することにより、ＣＲＭシステム５０に対し電話番号を含むリクエストを送信する。リクエストを受信したＣＲＭシステム５０は、電話番号を含むリクエストをサーバ１０へ送信する。リクエストを受信したサーバ１０は、音声サーバ（ＰＢＸ）６０に対し、発信リクエストを送信する。音声サーバ（ＰＢＸ）６０は、発信リクエストを受信すると、受信した電話番号に基づき第２ユーザ端末３０に対し発信（呼出し）を行う。

これに伴い、第１ユーザ端末２０は、スピーカ２０８２などを制御し音声サーバ（ＰＢＸ）６０により発信（呼出し）が行われている旨を示す鳴動を行う。また、第１ユーザ端末２０のディスプレイ２０８１は、音声サーバ（ＰＢＸ）６０により顧客に対して発信（呼出し）が行われている旨を示す情報を表示する。例えば、第１ユーザ端末２０のディスプレイ２０８１は、「呼出中」という文字を表示してもよい。

顧客は、第２ユーザ端末３０において不図示の受話器を持ち上げたり、第２ユーザ端末３０の入力装置３０６に着信時に表示される「受信」ボタンなどを押下することにより、第２ユーザ端末３０は対話可能状態となる。これに伴い、音声サーバ（ＰＢＸ）６０は、第２ユーザ端末３０による応答がなされたことを示す情報（以下、「応答イベント」と呼ぶ）を、サーバ１０、ＣＲＭシステム５０などを介して第１ユーザ端末２０に送信する。
これにより、ユーザと顧客は、それぞれ第１ユーザ端末２０、第２ユーザ端末３０を用いて対話可能状態となり、ユーザと顧客との間で対話できるようになる。具体的には、第１ユーザ端末２０のマイク２０６２により集音されたユーザの音声は、第２ユーザ端末３０のスピーカ３０８２から出力される。同様に、第２ユーザ端末３０のマイク３０６２から集音された顧客の音声は、第１ユーザ端末２０のスピーカ２０８２から出力される。

第１ユーザ端末２０のディスプレイ２０８１は、対話可能状態になると、応答イベントを受信し、対話が行われていることを示す情報を表示する。例えば、第１ユーザ端末２０のディスプレイ２０８１は、「応答中」という文字を表示してもよい。

＜着信処理＞
着信処理は、ユーザが顧客から着信（受電）する処理である。

＜着信処理の概要＞
着信処理は、ユーザが第１ユーザ端末２０においてアプリケーションを立ち上げている場合に、顧客がユーザに対して発信した場合に、ユーザが着信する一連の処理である。

＜着信処理の詳細＞
ユーザが顧客から着信（受電）する場合におけるシステム１の着信処理について説明する。

ユーザが顧客から着信する場合、システム１において以下の処理が実行される。

ユーザは第１ユーザ端末２０を操作することにより、ウェブブラウザを起動し、ＣＲＭシステム５０が提供するＣＲＭサービスのウェブサイトへアクセスする。このとき、ユーザはウェブブラウザにおいて、自身のアカウントにてＣＲＭシステム５０にログインし待機しているものとする。なお、ユーザはＣＲＭシステム５０にログインしていれば良く、ＣＲＭサービスにかかる他の作業などを行っていても良い。

顧客は、第２ユーザ端末３０を操作し、音声サーバ（ＰＢＸ）６０に割り当てられた所定の電話番号を入力し、音声サーバ（ＰＢＸ）６０に対して発信する。音声サーバ（ＰＢＸ）６０は、第２ユーザ端末３０の発信を着信イベントとして受信する。

音声サーバ（ＰＢＸ）６０は、サーバ１０に対し、着信イベントを送信する。具体的には、音声サーバ（ＰＢＸ）６０は、サーバ１０に対して顧客の電話番号３０１１を含む着信リクエストを送信する。サーバ１０は、ＣＲＭシステム５０を介して第１ユーザ端末２０に対して着信リクエストを送信する。
これに伴い、第１ユーザ端末２０は、スピーカ２０８２などを制御し音声サーバ（ＰＢＸ）６０により着信が行われている旨を示す鳴動を行う。第１ユーザ端末２０のディスプレイ２０８１は、音声サーバ（ＰＢＸ）６０により顧客から着信があること旨を示す情報を表示する。例えば、第１ユーザ端末２０のディスプレイ２０８１は、「着信中」という文字を表示してもよい。

第１ユーザ端末２０は、ユーザによる応答操作を受付ける。応答操作は、例えば、第１ユーザ端末２０において不図示の受話器を持ち上げたり、第１ユーザ端末２０のディスプレイ２０８１に「電話に出る」と表示されたボタンを、ユーザがマウス２０６６を操作して押下する操作などにより実現される。
第１ユーザ端末２０は、応答操作を受付けると、音声サーバ（ＰＢＸ）６０に対し、ＣＲＭシステム５０、サーバ１０を介して応答リクエストを送信する。音声サーバ（ＰＢＸ）６０は、送信されてきた応答リクエストを受信し、音声通信を確立する。これにより、第１ユーザ端末２０は、第２ユーザ端末３０と対話可能状態となる。
第１ユーザ端末２０のディスプレイ２０８１は、対話が行われていることを示す情報を表示する。例えば、第１ユーザ端末２０のディスプレイ２０８１は、「対話中」という文字を表示してもよい。

＜発信処理、着信処理の変形例＞
第１ユーザが第２ユーザとの間で対話可能状態となる方法は、発信処理、着信処理に限られず、第１ユーザと第２ユーザとの間で対話を実現するための任意の方法を用いても構わない。例えば、サーバ１０上に、第１ユーザと第２ユーザとの間で対話を行うためのルームとよばれる仮想的な対話空間を作成し、第１ユーザおよび第２ユーザが当該ルームへ第１ユーザ端末２０、第２ユーザ端末３０に記憶されたウェブブラウザまたはアプリケーションプログラムを介してアクセスすることにより対話可能状態となる方法でも構わない。この場合、音声サーバ（ＰＢＸ）５０は不要となる。
具体的には、対話の主催者となる第１ユーザが第１ユーザ端末２０の入力装置２０６を操作し、サーバ１０へ対話開催に関するリクエストを送信する。サーバ１０の制御部１０４は、リクエストを受信するとユニークなルームＩＤなどのルーム識別情報を発行し、第１ユーザ端末２０へレスポンスを送信する。第１ユーザは、受信したルーム識別情報を、対話相手である第２ユーザへメール、チャットなど任意の通信手段により送信する。第１ユーザは、第１ユーザ端末２０の入力装置２０６を操作し、ウェブブラウザなどでサーバ１０のルームに関するサービスを提供するＵＲＬへアクセスし、ルーム識別情報を入力することによりルームに入室できる。同様に、第２ユーザは第２ユーザ端末３０の入力装置３０６を操作し、ウェブブラウザなどでサーバ１０のルームに関するサービスを提供するＵＲＬへアクセスし、ルーム識別情報を入力することによりルームに入室できる。これにより、第１ユーザと第２ユーザとはルーム識別情報により関連付けられたルームとよばれる仮想的な対話空間内で、それぞれ第１ユーザ端末２０、第２ユーザ端末３０を介して対話を行うことができる。
ルーム識別情報を入力することにより、第１ユーザ、第２ユーザに加えて、他の１または複数のユーザが１つのルームに入室できる。これにより、三者以上の複数のユーザは、ルーム識別情報により関連付けられたルームとよばれる仮想的な対話空間内で、それぞれのユーザ端末を介して対話を行うことができる。

＜動画対話＞
本開示におけるシステム１は、動画データを含むオンライン対話サービス（ビデオ対話サービス）を提供しても良い。例えば、第１ユーザ端末２０の制御部２０４、第２ユーザ端末３０の制御部３０４は、それぞれ、第１ユーザ端末２０のカメラ２０６１、第２ユーザ端末３０のカメラ３０６１により撮影された動画データをサーバ１０へ送信する。
サーバ１０は、受信した動画データに基づき、第１ユーザ端末２０のカメラ２０６１により撮影された動画データを第２ユーザ端末３０へ、第２ユーザ端末３０のカメラ３０６１により撮影された動画データを第１ユーザ端末２０へ送信する。第１ユーザ端末２０の制御部２０４は、受信した第２ユーザ端末３０のカメラ３０６１により撮影された動画データをディスプレイ２０８１に表示する。第２ユーザ端末３０の制御部３０４は、受信した第１ユーザ端末２０のカメラ２０６１により撮影された動画データをディスプレイ３０８１に表示する。
サーバ１０は、オンライン対話に参加している一部またはすべての複数のユーザの動画データを第１ユーザ端末２０、第２ユーザ端末３０へ送信しても良い。この場合、第１ユーザ端末２０の制御部２０４は、受信したオンライン対話に参加している一部またはすべての複数のユーザの動画データを一画面に並べて第１ユーザ端末２０のディスプレイ２０８１に表示する。これにより、オンライン対話に参加している複数のユーザの対話状況を確認できる。第２ユーザ端末３０においても同様の処理を実行しても良い。

＜対話記憶処理＞
対話記憶処理は、ユーザと顧客との間で行われる対話に関するデータを記憶する処理である。

＜対話記憶処理の概要＞
対話記憶処理は、ユーザと顧客との間で対話が開始された場合に、対話に関するデータを対話テーブル１０１４に記憶する一連の処理である。

＜対話記憶処理の詳細＞
ユーザと顧客との間で対話が開始されると、音声サーバ（ＰＢＸ）６０は、ユーザと顧客との間で行われる対話に関する音声データを録音し、サーバ１０へ送信する。サーバ１０の制御部１０４は、音声データを受信すると、対話テーブル１０１４に新たなレコードを作成し、ユーザと顧客との間で行われる対話に関するデータを記憶する。具体的に、サーバ１０の制御部１０４は、ユーザＩＤ、顧客ＩＤ、対話カテゴリ、受発信種別、音声データの内容を対話テーブル１０１４の新たなレコードに記憶する。

サーバ１０の制御部１０４は、発信処理または着信処理において第１ユーザ端末２０から、第１ユーザの第１ユーザＩＤ２０１１を取得し、対話テーブル１０１４の新たなレコードのユーザＩＤの項目に記憶する。
サーバ１０の制御部１０４は、発信処理または着信処理において電話番号に基づきＣＲＭシステム５０へ問い合わせを行なう。ＣＲＭシステム５０は、顧客テーブル５０１２を電話番号により検索することにより、顧客ＩＤを取得し、サーバ１０へ送信する。サーバ１０の制御部１０４は、取得した顧客ＩＤを対話テーブル１０１４の新たなレコードの顧客ＩＤの項目に記憶する。
サーバ１０の制御部１０４は、予めユーザまたは顧客ごとに設定された対話カテゴリの値を、対話テーブル１０１４の新たなレコードの対話カテゴリの項目に記憶する。なお、対話カテゴリは、対話ごとにユーザが値を選択、入力することにより記憶しても良い。
サーバ１０の制御部１０４は、行われている対話がユーザにより発信したものか、顧客から発信されたものかを識別し、対話テーブル１０１４の新たなレコードの受発信種別の項目にアウトバウンド（ユーザから発信）、インバウンド（顧客から発信）のいずれかの値を記憶する。

サーバ１０の制御部１０４は、音声サーバ（ＰＢＸ）６０から受信する音声データを、対話テーブル１０１４の新たなレコードの音声データの項目に記憶する。なお、音声データは他の場所に音声データファイルとして記憶し、対話終了後に、音声データファイルに対する参照情報（パス）を記憶するものとしても良い。また、サーバ１０の制御部１０４は、対話終了後に音声データを記憶する構成としても良い。

また、ビデオ対話サービスにおいては、サーバ１０の制御部１０４は、第１ユーザ端末２０、第２ユーザ端末３０のから受信する動画データを、対話テーブル１０１４の新たなレコードの動画データの項目に記憶する。なお、動画データは他の場所に動画データファイルとして記憶し、対話終了後に、動画データファイルに対する参照情報（パス）を記憶するものとしても良い。また、サーバ１０の制御部１０４は、対話終了後に動画データを記憶する構成としても良い。

＜感情解析処理＞
感情解析処理は、複数のユーザにより行われたオンライン対話の音声、動画等の対話情報を解析し、対話に参加しているユーザの感情状態を特定するとともに、感情状態に基づきラベル情報を特定し、対話情報と関連づけて記憶する処理である。

＜感情解析処理の概要＞
感情解析処理は、ユーザ間のオンライン対話を検知すると、対話に関する対話情報を記憶し、対話情報に含まれる音声データ、動画データをそれぞれ発話区間ごとの区間音声データ、区間動画データ等の区間データへ分割し、区間データごとの感情特徴量を算定し、感情特徴量に基づきラベル情報を特定し、ラベル情報を対話情報と関連づけて記憶する一連の処理である。

＜感情解析処理の詳細＞
以下に、感情解析処理の詳細を説明する。

ステップＳ１０１において、既に説明した発信処理、着信処理、ルーム等を介してユーザと顧客との間でのオンライン対話が開始される。

ステップＳ１０２において、サーバ１０の感情解析部１０４２は、対話に関する音声データを受け付ける受付ステップを実行する。
具体的に、対話記憶処理により、第１ユーザ端末２０は、第１ユーザＩＤ２０１１、マイク２０６２から集音した音声データ、カメラ２０６１により撮影した動画データをサーバ１０へ送信する。サーバ１０の制御部１０４は、受信した第１ユーザＩＤ２０１１、音声データ、動画データを、それぞれ、対話テーブル１０１４の新たなレコードのユーザＩＤ、音声データ、動画データの項目に記憶する。
同様に、第２ユーザ端末３０は、第２ユーザＩＤ３０１１、マイク３０６２から集音した音声データ、カメラ３０６１により撮影した動画データをサーバ１０へ送信する。サーバ１０の制御部１０４は、受信した第２ユーザＩＤ３０１１、音声データ、動画データを、それぞれ、対話テーブル１０１４の新たなレコードのユーザＩＤ、音声データ、動画データの項目に記憶する。
これに伴い、新たな対話ＩＤが採番され、対話テーブル１０１４の新たなレコードの対話ＩＤの項目に記憶される。

ステップＳ１０３において、サーバ１０の感情解析部１０４２は、受付ステップにおいて受け付けた音声データから、発話区間ごとに複数の区間音声データを抽出する音声抽出ステップを実行する。
具体的に、サーバ１０の感情解析部１０４２は、ステップＳ１０２において対話テーブル１０１４に記憶された対話ＩＤ、音声データ、動画データを取得する（受け付ける）。サーバ１０の感情解析部１０４２は、取得（受付）した音声データ、動画データから、音声が存在する区間（発話区間）を検出し、発話区間のそれぞれに対して音声データ、動画データを、それぞれ、区間音声データ、区間動画データとして抽出する。区間音声データ、区間動画データは、発話区間ごとに話者のユーザＩＤ、発話区間の開始日時、発話区間の終了日時と関連づけられる。
サーバ１０の感情解析部１０４２は、抽出された区間音声データ、区間動画データの発話内容に対してテキスト認識を行うことにより、区間音声データ、区間動画データを文字（テキスト）である区間読上テキストに変換し、文字に起こす。なお、テキスト認識の具体的手法は特に限定されない。例えば信号処理技術、ＡＩ（人工知能）を利用した機械学習や深層学習等によって変換してもよい。

サーバ１０の感情解析部１０４２は、処理対象の対話ＩＤ、話者のユーザＩＤ（第１ユーザＩＤ２０１１または第２ユーザＩＤ３０１１）、開始日時、終了日時、区間音声データ、区間動画データ、区間読上テキストを、それぞれ、音声区間テーブル１０１６の新たなレコードの対話ＩＤ、話者ＩＤ、開始日時、終了日時、区間音声データ、区間動画データ、区間読上テキストの項目に記憶する。

音声区間テーブル１０１６には、音声データの発話区間ごとの区間読上テキストが、開始日時、話者と関連づけられ連続的な時系列データとして記憶される。ユーザは、音声区間テーブル１０１６に記憶された区間読上テキストを確認することにより、音声データの内容を確認することなしにテキスト情報として対話内容を確認できる。

なお、テキスト認識処理の際に、予めテキストに含まれるフィラーなどのユーザと顧客との間で行われた対話を把握する上で無意味な情報をテキストから除外して、音声認識情報を音声区間テーブル１０１６に記憶する構成としても良い。

ステップＳ１０４において、サーバ１０の感情解析部１０４２は、音声抽出ステップにおいて抽出された複数の区間音声データのそれぞれに対応し、区間音声データにおける話者の感情状態に関する複数の感情特徴量を算定する感情算定ステップを実行する。感情算定ステップは、音声抽出ステップにおいて抽出した区間音声データを入力データとして、学習モデルに適用することにより、感情特徴量を出力データとして算定する。
具体的に、サーバ１０の感情解析部１０４２は、Ｓ１０３において音声区間テーブル１０１６に記憶された区間音声データ、区間動画データ、区間読上テキストを取得し、入力データとして感情評価モデル１０３１に適用する、感情評価モデル１０３１は入力データに応じた感情特徴量を出力データとして出力する。

ステップＳ１０４において、感情算定ステップは、音声抽出ステップにおいて抽出された複数の区間音声データのそれぞれに対応する、多次元の感情に関する強度を示す感情ベクトルを算定するステップを実行する。
具体的に、サーバ１０の感情解析部１０４２は、Ｓ１０３において音声区間テーブル１０１６に記憶された区間音声データ、区間動画データ、区間読上テキストを取得し、入力データとして感情評価モデル１０３１に適用する、感情評価モデル１０３１は入力データに応じた複数の感情状態（次元）ごとの強度、数値として定量的に表現される感情ベクトルを出力データとして出力する。

感情算定ステップは、算定された感情ベクトルに基づき、音声抽出ステップにおいて抽出された複数の区間音声データのそれぞれに対応する、１次元の感情に関する強度を示す感情スカラーを算定するステップを実行する。
サーバ１０の感情解析部１０４２は、感情ベクトルに対して、主成分分析、深層学習モデル等の学習モデル、感情ベクトルの成分ごとの演算等を適用することにより、１次元の感情に関する強度を示す感情スカラーを算出する。例えば、感情スカラーは音声区間情報における話者の感情状態のポジティブ度、ネガティブ度を定量的に表現した指標であり、＋１（ポジティブ）から、－１（ネガティブ）の値の範囲に正規化された数値データとしても良い。

サーバ１０の感情解析部１０４２は、算定した感情特徴量である感情ベクトル、感情スカラーを、音声区間テーブル１０１６の解析対象のレコードの感情データの項目に記憶する。感情データの項目には、感情ベクトル、感情スカラーのいずれかが記憶される構成としても良い。

ステップＳ１０４において、サーバ１０の感情解析部１０４２は、音声区間テーブル１０１６の解析対象のレコードの話者ＩＤに基づき、ユーザテーブル１０１２のユーザＩＤを検索し、ユーザ属性を取得する。

ステップＳ１０５において、サーバ１０の感情解析部１０４２は、感情算定ステップにおいて算定された複数の感情特徴量に基づき、対話に対するラベル情報を特定するラベル特定ステップを実行する。
具体的に、サーバ１０の感情解析部１０４２は、対話ＩＤに基づき、音声区間テーブル１０１６の対話ＩＤを検索し、感情データの項目を取得する。サーバ１０の感情解析部１０４２は、感情データに基づき、感情条件マスタ１０２１の感情条件に該当するレコード有無を検索し、該当するレコードのラベルデータの項目を取得する。
本開示においては、サーバ１０の感情解析部１０４２は、１の対話情報に対して抽出された複数の音声区間情報のそれぞれに対して算定し、記憶された複数の感情データに対応する複数の感情特徴量を、感情条件として、ラベルデータを特定し、取得する構成としても良い。

ステップＳ１０５において、ラベル特定ステップは、感情算定ステップにおいて算定された複数の感情スカラーに基づき、対話に対するラベル情報を特定するステップを実行する。
具体的に、サーバ１０の感情解析部１０４２は、１の対話情報に対して抽出された複数の音声区間情報のそれぞれに対して算定し、記憶された複数の感情データに含まれる感情スカラーを、感情条件として、ラベルデータを特定しても良い。

ステップＳ１０５において、ラベル特定ステップは、感情算定ステップにおいて算定された複数の感情ベクトルに基づき、対話に対するラベル情報を特定するステップを実行する。
具体的に、サーバ１０の感情解析部１０４２は、１の対話情報に対して抽出された複数の音声区間情報のそれぞれに対して算定し、記憶された複数の感情データに含まれる感情ベクトルを、感情条件として、ラベルデータを特定しても良い。例えば、感情条件は、感情ベクトルのそれぞれの要素成分に対する範囲等により特定される構成としても良い。

ステップＳ１０５において、ラベル特定ステップは、感情算定ステップにおいて算定された複数の感情特徴量のうち、所定の閾値以上または以下の感情特徴量の個数に基づき、対話に対するラベル情報を特定するステップを実行する。
具体的に、感情条件マスタ１０２１の感情条件の項目に、所定の閾値と、閾値以上の個数（所定個数）の情報が記憶されているとする。サーバ１０の感情解析部１０４２は、１の対話情報に対して抽出された複数の音声区間情報のそれぞれに対応する感情スカラーの値を、所定の閾値と比較し、所定の閾値以上の音声区間情報（感情スカラー）の個数をカウントする。なお、所定の閾値以下の個数をカウントしても構わない。
サーバ１０の感情解析部１０４２は、カウントされた音声区間情報の個数が、所定個数よりも多い場合には当該感情条件に該当すると判定し、感情条件マスタ１０２１において感情条件に関連付けられたラベルデータの項目を取得し特定する。
例えば、所定の閾値以上の音声区間情報（感情スカラー）の個数が、所定個数よりも多い場合は、対話における感情状態がポジティブであることを示すラベル情報を特定する。同様に、所定の閾値以下の音声区間情報（感情スカラー）の個数が、所定個数よりも多い場合は、対話における感情状態がネガティブであることを示すラベル情報を特定する。

ステップＳ１０５において、ラベル特定ステップは、感情算定ステップにおいて算定された複数の感情特徴量のうち、所定の閾値以上または以下の感情特徴量が占める割合に基づき、対話に対するラベル情報を特定するステップを実行する。
具体的に、感情条件マスタ１０２１の感情条件の項目に、所定の閾値と、閾値以上の割合（所定割合）の情報が記憶されているとする。サーバ１０の感情解析部１０４２は、１の対話情報に対して抽出された複数の音声区間情報のそれぞれに対応する感情スカラーの値を、所定の閾値と比較し、所定の閾値以上の音声区間情報（感情スカラー）の個数をカウントする。なお、所定の閾値以下の個数をカウントしても構わない。
サーバ１０の感情解析部１０４２は、カウントされた音声区間情報の個数の、１の対話情報に対して抽出されたすべての音声区間情報の個数に対する割合が、所定割合よりも多い場合には当該感情条件に該当すると判定し、感情条件マスタ１０２１において感情条件に関連付けられたラベルデータの項目を取得し特定する。
例えば、所定の閾値以上の音声区間情報（感情スカラー）の割合が、所定割合よりも多い場合は、対話における感情状態がポジティブであることを示すラベル情報を特定する。同様に、所定の閾値以下の音声区間情報（感情スカラー）の割合が、所定割合よりも多い場合は、対話における感情状態がネガティブであることを示すラベル情報を特定する。

なお、感情スカラーの代わりに、感情ベクトルに含まれる１の要素成分、感情ベクトルに含まれる１または複数の要素成分に基づき算定される指標等を感情特徴量とみなして、同様の処理を実行しても構わない。

ステップＳ１０５において、ラベル特定ステップは、感情算定ステップにおいて算定された複数の感情特徴量の統計値に基づき、対話に対するラベル情報を特定するステップを実行する。
具体的に、感情条件マスタ１０２１の感情条件の項目に、所定の閾値の情報が記憶されているとする。サーバ１０の感情解析部１０４２は、１の対話情報に対して抽出された複数の音声区間情報のそれぞれに対応する感情スカラーの値の平均値、中央値、最頻値などの平均、最大値、最小値などの統計値を算定し、所定の閾値と比較し、所定の閾値以上の場合には当該感情条件に該当すると判定し、感情条件マスタ１０２１において感情条件に関連付けられたラベルデータの項目を取得し特定する。なお、所定の閾値以下の場合を条件としても構わない。

ステップＳ１０５において、ラベル特定ステップは、感情算定ステップにおいて算定された複数の感情特徴量の時系列的な変化に基づき、対話に対するラベル情報を特定するステップを実行する。
ラベル特定ステップは、感情算定ステップにおいて算定された複数の感情特徴量の時系列的な変化に対して回帰分析を行うステップと、回帰分析の結果得られた回帰係数に基づき、対話に対するラベル情報を特定するステップと、を含む。
具体的に、感情条件マスタ１０２１の感情条件の項目に、回帰係数の範囲が記憶されているとする。対象となる対話データにおいて、対話データに関連づけられた複数の音声区間情報のそれぞれに対して、Ｘ軸に音声区間情報の開始日時、終了日時、開始日時から終了日時の間の任意の日時の値、Ｙ軸に当該音声区間情報の感情データに含まれる感情スカラーの値とした場合に、Ｙ＝ｆ（Ｘ）の回帰分析を行う。回帰分析は、１次回帰、２次回帰等、任意の回帰分析を適用しても構わない。回帰分析を行うことにより回帰係数を算定し、回帰係数の範囲と比較し、回帰係数の範囲内の場合には当該感情条件に該当すると判定し、感情条件マスタ１０２１において感情条件に関連付けられたラベルデータの項目を取得し特定する。
例えば、線形回帰（１次回帰）の場合において、切片が負であり、傾きが正である場合は、対話における感情状態が改善していることを示すラベル情報を特定する。
なお、感情スカラーの代わりに、感情ベクトルに含まれる１の要素成分、感情ベクトルに含まれる１または複数の要素成分に基づき算定される指標等を感情特徴量とみなして、同様の処理を実行しても構わない。

ステップＳ１０５において、サーバ１０の感情解析部１０４２は、音声抽出ステップにおいて抽出した時系列的に連続する複数の区間音声データに対応した複数の感情特徴量の集合である第１感情群を特定するステップを実行する。サーバ１０の感情解析部１０４２は、音声抽出ステップにおいて抽出した時系列的に連続する複数の区間音声データに対応した複数の感情特徴量の集合である第２感情群を特定するステップを実行する。
具体的に、サーバ１０の感情解析部１０４２は、１の対話情報に対して抽出された複数の音声区間情報を、それぞれ複数の音声区間情報からなる区間群に分割し、それぞれの区間群に対して既に説明したラベル特定ステップを実行しても構わない。これにより、複数の区間群のそれぞれに対応するラベル情報が特定される。
例えば、サーバ１０の感情解析部１０４２は、区間群に含まれる抽出された複数の音声区間情報のそれぞれに対して感情スカラーを算定し感情データに記憶する。記憶された複数の感情データに含まれる感情スカラーを、感情条件として、ラベルデータを特定しても良い。
例えば、サーバ１０の感情解析部１０４２は、区間群に含まれる抽出された複数の音声区間情報のそれぞれに対して感情ベクトルを算定し感情データに記憶する。記憶された複数の感情データに含まれる感情ベクトルを、感情条件として、ラベルデータを特定しても良い。

ステップＳ１０５において、ラベル特定ステップは、第１感情群に含まれる複数の感情特徴量に基づき、対話に対する第１ラベル情報を特定するステップと、第２感情群に含まれる複数の感情特徴量に基づき、対話に対する第２ラベル情報を特定するステップと、を含む。
具体的に、サーバ１０の感情解析部１０４２は、１の対話情報に対して抽出された複数の音声区間情報を、それぞれ複数の音声区間情報からなる区間群に分割し、それぞれの区間群に対して既に説明したラベル特定ステップを実行することにより、複数の区間群のそれぞれに対応するラベル情報が特定される。

ステップＳ１０５において、サーバ１０の感情解析部１０４２は、第１ラベル情報および第２ラベル情報を、第１ユーザに提示するラベル提示ステップを実行する。
具体的に、サーバ１０の感情解析部１０４２は、特定された第１ラベル情報、第２ラベル情報を第１ユーザ端末２０へ送信する。第１ユーザ端末２０の制御部２０４は、受信した第１ラベル情報、第２ラベル情報を第１ユーザ端末２０のディスプレイ２０８１に表示し、第１ユーザに提示する。なお、第１ラベル情報および第２ラベル情報は、第２ユーザ、それ以外の管理者、他のユーザ等の任意のユーザに提示しても良い。

ステップＳ１０５において、サーバ１０の感情解析部１０４２は、第１ユーザから、ラベル提示ステップにおいて提示した第１ラベル情報および第２ラベル情報の少なくともいずれか１つを選択する選択指示を受け付ける選択受付ステップを実行する。
具体的に、第１ユーザは、第１ユーザ端末２０の入力装置２０６などを操作することにより、第１ユーザ端末２０のディスプレイ２０８１に提示された第１ラベル情報、第２ラベル情報のいずれか１つを選択する。なお、第１ユーザはいずれも選択しないものとしても良い。第１ユーザ端末２０の制御部２０４は、選択されたラベル情報をサーバ１０へ送信する。サーバ１０の感情解析部１０４２は、受信したラベル情報を特定する。

ステップＳ１０５において、ラベル特定ステップは、感情算定ステップにおいて算定された複数の感情特徴量と、複数の感情特徴量に対応する区間音声データを発話した第１ユーザまたは第２ユーザのユーザ属性と、に基づき、対話に対するラベル情報を特定するステップを実行する。
具体的に、サーバ１０の感情解析部１０４２は、ラベル情報を特定する際に、ステップＳ１０４において特定した第１ユーザ、第２ユーザのユーザ属性を考慮し、ラベル情報を特定しても良い。例えば、感情条件マスタ１０２１における感情条件に、第１ユーザ、第２ユーザのユーザ属性を条件として含めても構わない。

ステップＳ１０５において、ラベル特定ステップは、感情算定ステップにおいて算定された、第２ユーザの発話にかかる区間音声データに対応する複数の感情特徴量に基づき、第１ユーザの発話にかかる区間音声データに対応する複数の感情特徴量を考慮せずに、対話に対するラベル情報を特定するステップを実行する。
具体的に、サーバ１０の感情解析部１０４２は、１の対話情報に対して抽出された複数の音声区間情報のうち、話者ＩＤが第１ユーザＩＤ２０１１である音声区間情報を除外し、話者ＩＤが第２ユーザＩＤ３０１１である音声区間情報のみに基づき、既に説明したラベル特定ステップを実行しても構わない。
これにより、顧客の感情状態のみ考慮したラベル情報を特定できる。通常、オペレータ等に相当する第１ユーザは、自身の感情状態ではなく、顧客の感情状態に関心があることが一般的である。このような構成にすることにより、顧客の感情状態を特に考慮したラベル情報を特定できる。

サーバ１０の感情解析部１０４２は、１の対話情報に対して抽出された複数の音声区間情報のうち、話者ＩＤが第２ユーザＩＤ３０１１である音声区間情報を除外し、話者ＩＤが第１ユーザＩＤ２０１１である音声区間情報のみに基づき、既に説明したラベル特定ステップを実行しても構わない。

サーバ１０の感情解析部１０４２は、話者ＩＤが第１ユーザＩＤ２０１１である音声区間情報、話者ＩＤが第２ユーザＩＤ３０１１である音声区間情報、のそれぞれに対して既に説明したラベル特定ステップを実行して、それぞれ、第１のラベル情報、第２のラベル情報の複数のラベル情報を特定しても良い。

また、サーバ１０の感情解析部１０４２は、１の対話情報に対して抽出された複数の音声区間情報のうち、話者ＩＤにより特定されるユーザが対話の主催者であるホストユーザである音声区間情報を除外し、話者ＩＤにより特定されるユーザがホストユーザでない音声区間情報のみに基づき、既に説明したラベル特定ステップを実行しても構わない。
これにより、対話の主催者の感情状態を考慮せずにラベル情報を特定できる。通常、対話の主催者は、自身の感情状態ではなく、対話相手の感情状態に関心があることが一般的である。このような構成にすることにより、対話相手の感情状態を考慮したラベル情報を特定できる。

ステップＳ１０６において、サーバ１０の感情解析部１０４２は、ラベル特定ステップにおいて特定されたラベル情報を、対話と関連づけて記憶する記憶ステップを実行する。
具体的に、サーバ１０の感情解析部１０４２は、ステップＳ１０５において特定されたラベル情報を、ステップＳ１０１において採番された対話ＩＤと関連づけてラベルテーブル１０１５のラベルデータの項目に記憶する。
なお、ステップＳ１０５においては、特定されたラベル情報を第１ユーザに提示し、第１ユーザから選択指示を受け付けたラベル情報をラベルテーブル１０１５のラベルデータとして記憶する構成としても良い。

ステップＳ１０６において、記憶ステップは、ラベル特定ステップにおいて特定された第１ラベル情報または第２ラベル情報を、対話と関連づけて記憶するステップを実行する。記憶ステップは、選択受付ステップにおいて第１ユーザから受け付けた選択指示に基づき第１ラベル情報および第２ラベル情報の少なくともいずれか１つを、対話と関連づけて記憶するステップを実行する。
具体的に、第１ユーザから選択指示を受け付けたラベル情報をラベルテーブル１０１５のラベルデータとして記憶する構成としても良い。

また、第１ユーザは、第１ユーザ端末２０の入力装置２０６を操作することにより、サーバ１０からラベルテーブル１０１５に記憶されたラベル情報を、第１ユーザ端末２０のディスプレイ２０８１に表示することができる。

＜感情解析処理の実行タイミングについて＞
感情解析処理のステップＳ１０３～Ｓ１０６は複数のユーザによるオンライン対話の終了後に実行する構成としても良い。これにより、オンライン対話が終了した後、対話内容が確定した後に、対話におけるユーザの感情状態に応じたラベル情報が特定され、対話情報と関連づけられて記憶される。

また、感情解析処理は複数のユーザによるオンライン対話の開始後、対話の終了前までに実行する構成としても良い。
つまり、複数のユーザによるオンライン対話の対話中の任意のタイミングに実行する構成としても良い。また、ステップＳ１０３～ステップＳ１０６は、オンライン対話の対話中に定期的にリアルタイムに実行する構成としても良い。これにより、オンライン対話の対話途中においても、それまでの対話におけるユーザの感情状態に応じたラベル情報が特定され、対話情報と関連づけられて記憶される構成としても良い。
これにより、ユーザは、オンライン対話の対話中にリアルタイムに、オンライン対話に参加しているユーザの感情状態を確認できるとともに、対話情報を最新の感情状態に基づき整理、管理できる。

＜印象解析処理＞
印象解析処理は、複数のユーザにより行われたオンライン対話の音声、動画等の対話情報を解析し、対話に参加しているユーザの印象状態を特定するとともに、印象状態、話者タイプをユーザに提示する処理である。

＜印象解析処理の概要＞
印象解析処理は、ユーザ間のオンライン対話を検知すると、対話に関する対話情報を記憶し、対話情報に含まれる音声データ、動画データをそれぞれ発話区間ごとの区間音声データ、区間動画データ等の区間データへ分割し、区間データごとの印象特徴量を算定し、印象特徴量に基づき話者タイプを特定し、特定した話者タイプをユーザへ提示する一連の処理である。

＜印象解析処理の詳細＞
以下に、印象解析処理の詳細を説明する。

ステップＳ３０１において、既に説明した発信処理、着信処理、ルーム等を介してユーザと顧客との間でのオンライン対話が開始される。

ステップＳ３０２において、サーバ１０の印象解析部１０４３は、第２ユーザから第１ユーザとの対話応対に関する対話情報を取得する対話取得ステップを実行する。
ステップＳ３０２は、感情解析処理におけるステップＳ１０２と同様であるため説明を省略する。

ステップＳ３０３において、サーバ１０の印象解析部１０４３は、ステップＳ３０２において受け付けた第２ユーザの音声データから、発話区間ごとに複数の区間音声データを抽出する音声抽出ステップを実行する。
ステップＳ３０３は、感情解析処理におけるステップＳ１０３と同様であるため説明を省略する。

ステップＳ３０４において、サーバ１０の印象解析部１０４３は、対話取得ステップにおいて取得した第２ユーザの対話情報に基づき、対話において第２ユーザが他のユーザに対して与える印象に関する印象特徴量を算定する印象算定ステップを実行する。印象算定ステップは、対話取得ステップにおいて第２ユーザから取得した対話情報に基づき、好き、嫌い、うるさい、聞きづらい、丁寧、わかりにくい、おどおどした、神経質、威圧的、暴力的および性的のうち少なくともいずれか１つの印象に関する強度を示す印象特徴量を算定するステップを実行する。
印象算定ステップは、対話取得ステップにおいて第２ユーザから取得した対話情報を入力データとして、学習モデルに適用することにより、対話において第２ユーザが他のユーザに対して与える印象に関する印象特徴量を出力データとして算定するステップを実行する。
具体的に、サーバ１０の印象解析部１０４３は、Ｓ３０３において音声区間テーブル１０１６に記憶された区間音声データ、区間動画データ、区間読上テキストを取得し、音声区間情報のうち話者ＩＤが第１ユーザＩＤ２０１１である音声区間情報を除外し、話者ＩＤが第２ユーザＩＤ３０１１である音声区間情報のみを入力データとして印象評価モデル１０３２に適用し、印象評価モデル１０３２は入力データに応じた印象特徴量を出力データとして出力する。これにより、第２ユーザが与える印象を、印象特徴量により評価できる。
なお、印象評価モデル１０３２に適用する入力データは、音声区間情報のうち話者ＩＤが第２ユーザＩＤ３０１１である音声区間情報を除外し、話者ＩＤが第１ユーザＩＤ２０１１である音声区間情報としても良い。この場合、第１ユーザが与える印象を、印象特徴量により評価できる。

ステップＳ３０４において、印象算定ステップは、対話取得ステップにおいて取得した第２ユーザの対話情報に基づき、対話における第２ユーザの話し方に関する対話特徴量を算定するステップと、算定された対話特徴量に基づき、印象特徴量を算定するステップと、を含む。
印象算定ステップは、対話取得ステップにおいて取得した第２ユーザの対話情報を入力データとして、第１学習モデルに適用することにより、対話における第２ユーザの話し方に関する対話特徴量を出力データとして算定するステップと、算定された対話特徴量を入力データとして、第２学習モデルに適用することにより、印象特徴量を算定するステップと、を含む。
印象算定ステップは、対話取得ステップにおいて取得した第２ユーザの対話情報に基づき、対話における第２ユーザの話速、抑揚、丁寧な表現の数、フィラーの数および文法的な発話の数のうち少なくともいずれか１つの話し方に関する対話特徴量を算定するステップを含む。

具体的に、サーバ１０の印象解析部１０４３は、Ｓ３０３において音声区間テーブル１０１６に記憶された区間音声データ、区間動画データ、区間読上テキストを取得し、音声区間情報のうち話者ＩＤが第１ユーザＩＤ２０１１である音声区間情報を除外し、話者ＩＤが第２ユーザＩＤ３０１１である音声区間情報のみを入力データとして第１印象評価モデル１０３３に適用し、第１印象評価モデル１０３３は入力データに応じた対話特徴量を出力データとして出力する。
サーバ１０の印象解析部１０４３は、対話特徴量を入力データとして第２印象評価モデル１０３４に適用し、第２印象評価モデル１０３４は入力データに応じた印象特徴量を出力データとして出力する。これにより、第２ユーザが与える印象を、印象特徴量により評価できる。
なお、印象評価モデル１０３２に適用する入力データは、音声区間情報のうち話者ＩＤが第２ユーザＩＤ３０１１である音声区間情報を除外し、話者ＩＤが第１ユーザＩＤ２０１１である音声区間情報としても良い。この場合、第１ユーザが与える印象を、印象特徴量により評価できる。

ステップＳ３０４において、サーバ１０の印象解析部１０４３は、印象算定ステップにおいて算定された印象特徴量を、第２ユーザと関連づけて記憶する記憶ステップを実行する。
具体的に、サーバ１０の印象解析部１０４３は、算定された印象特徴量を、音声区間テーブル１０１６の解析対象のレコードの印象データの項目に記憶する。これにより、音声区間テーブル１０１６の話者ＩＤ（第２ユーザＩＤ）を介して、印象特徴量が第２ユーザと関連づけて記憶される。なお、印象特徴量は、ＣＲＭシステム５０の顧客テーブル５０１２に不図示の印象データを記憶するカラムを設けることにより、第２ユーザＩＤと関連づけて記憶する構成としても良い。また、印象特徴量は、サーバ１０のユーザテーブル１０１２に不図示の印象データを記憶するカラムを設けることにより、第２ユーザＩＤと関連づけて記憶する構成としても良い。
ＣＲＭシステム５０の顧客テーブル５０１２に記憶することにより、対象となる対話において特定されたユーザの印象特徴量を、社内の他の部署のメンバー等と共有できる。例えば、印象特徴量により特定される対話相手の印象に応じて効率的な業務を行うことができる。

ステップＳ３０５において、サーバ１０の印象解析部１０４３は、印象算定ステップにおいて算定された印象特徴量に基づき、第２ユーザが他のユーザに対して与える印象をラベルした話者タイプを特定する特定ステップを実行する。
具体的に、サーバ１０の印象解析部１０４３は、対話ＩＤに基づき、音声区間テーブル１０１６の対話ＩＤを検索し、印象データの項目を取得する。サーバ１０の印象解析部１０４３は、印象データに基づき、話者タイプマスタ１０２２の印象条件に該当するレコード有無を検索し、該当するレコードの話者タイプの項目を取得する。
本開示においては、サーバ１０の印象解析部１０４３は、１の対話情報に対して抽出された複数の音声区間情報のそれぞれに対して算定し、記憶された複数の印象データにかかる印象特徴量を、印象条件として、話者タイプを特定し、取得する構成としても良い。

ステップＳ３０５において、サーバ１０の印象解析部１０４３は、特定ステップにおいて特定された話者タイプを、第２ユーザと関連づけて記憶する記憶ステップを実行する。
具体的に、サーバ１０の印象解析部１０４３は、特定された話者タイプ、第２ユーザＩＤをＣＲＭシステム５０へ送信する。ＣＲＭシステム５０の制御部５０４は、受信した話者タイプ、第２ユーザＩＤをそれぞれ、顧客テーブル５０１２の話者タイプ、ユーザＩＤの項目に記憶する。つまり、特定した話者タイプを、当該対話において発話したユーザのユーザＩＤと関連づけて記憶する。
ＣＲＭシステム５０の顧客テーブル５０１２に記憶することにより、対象となる対話において特定されたユーザの話者タイプを、社内の他の部署のメンバー等と共有できる。例えば、対話相手の話者タイプに応じて効率的な応対業務を行うことができる。
本開示においては、ユーザの話者タイプをＣＲＭシステム５０の顧客テーブル５０１２に記憶する構成としたが、サーバ１０のユーザテーブル１０１２に第２ユーザと関連づけて記憶する構成としても構わない。

ステップＳ３０６において、サーバ１０の印象解析部１０４３は、第１ユーザに対して、記憶ステップにおいて第２ユーザと関連づけて記憶された印象特徴量を提示する提示ステップを実行する。
具体的に、サーバ１０の印象解析部１０４３は、ステップＳ３０５において特定された印象特徴量を第１ユーザ端末２０へ送信する。第１ユーザ端末２０の制御部２０４は、受信した印象特徴量を、第１ユーザ端末２０のディスプレイ２０８１に表示し、第１ユーザへ提示する。なお、印象特徴量は、第２ユーザ、それ以外の管理者、他のユーザ等の任意のユーザに提示しても良い。

ステップＳ３０６において、サーバ１０の印象解析部１０４３は、第１ユーザと第２ユーザとの間で行われる対話に先立って、第１ユーザに対して、記憶ステップにおいて第２ユーザと関連づけて記憶された印象特徴量を提示する提示ステップを実行する。
例えば、第１ユーザまたは他のユーザが、発信処理、着信処理、ルーム等を介して第２ユーザとの間でのオンライン対話を開始する際に、第１ユーザ端末２０のディスプレイ２０８１に表示される、第２ユーザへ発信を行うための発信画面、第２ユーザから着信を受けるための着信画面、対話開始前のルーム画面等に、ステップＳ３０５において第２ユーザと関連づけられて記憶された第２ユーザの印象特徴量を表示し、第１ユーザへ提示しても良い。
これにより、第１ユーザは、対話開始に先立ち、第２ユーザの印象に応じた応対を準備できる。

なお、サーバ１０の印象解析部１０４３は、第１ユーザと第２ユーザとの間で行われる対話に先立って、第１ユーザに対して、記憶ステップにおいて第２ユーザと関連づけて記憶された話者タイプを提示する提示ステップを実行しても良い。
例えば、第１ユーザまたは他のユーザが、発信処理、着信処理、ルーム等を介して第２ユーザとの間でのオンライン対話を開始する際に、第１ユーザ端末２０のディスプレイ２０８１に表示される、第２ユーザへ発信を行うための発信画面、第２ユーザから着信を受けるための着信画面、対話開始前のルーム画面等に、ステップＳ３０５において第２ユーザと関連づけられて記憶された第２ユーザの話者タイプを表示し、第１ユーザへ提示しても良い。
これにより、第１ユーザは、対話開始に先立ち、第２ユーザの話者タイプに応じた応対を準備できる。

サーバ１０の印象解析部１０４３は、第１ユーザと第２ユーザとの間で行われる対話の終了前に、第１ユーザに対して、記憶ステップにおいて第２ユーザと関連づけて記憶された印象特徴量を提示する提示ステップを実行しても良い。
例えば、第１ユーザまたは他のユーザが、第２ユーザとの間でのオンライン対話を行っている間に、第１ユーザ端末２０のディスプレイ２０８１に表示される対話画面、ルーム画面等に、ステップＳ３０５において第２ユーザと関連づけられて記憶された第２ユーザの印象特徴量を表示し、第１ユーザへ提示しても良い。なお、印象特徴量は、第２ユーザ、それ以外の管理者、他のユーザ等の任意のユーザに提示しても良い。
これにより、第１ユーザは、対話中に、第２ユーザの印象に応じた応対を準備できる。

サーバ１０の印象解析部１０４３は、第１ユーザと第２ユーザとの間で行われる対話の終了前に、第１ユーザに対して、記憶ステップにおいて第２ユーザと関連づけて記憶された話者タイプを提示する提示ステップを実行しても良い。
例えば、第１ユーザまたは他のユーザが、第２ユーザとの間でのオンライン対話を行っている間に、第１ユーザ端末２０のディスプレイ２０８１に表示される対話画面、ルーム画面等に、ステップＳ３０５において第２ユーザと関連づけられて記憶された第２ユーザの話者タイプを表示し、第１ユーザへ提示しても良い。なお、印象特徴量は、第２ユーザ、それ以外の管理者、他のユーザ等の任意のユーザに提示しても良い。
これにより、第１ユーザは、対話中に、第２ユーザの話者タイプに応じた応対を準備できる。

サーバ１０の印象解析部１０４３は、印象算定ステップにおいて、複数の対話特徴量のうち、印象特徴量に対する影響度が大きい１または複数の前記対話特徴量を提示する提示ステップを実行しても良い。
具体的に、サーバ１０の印象解析部１０４３は、複数の対話特徴量を入力データとして第２印象評価モデル１０３４に適用し、第２印象評価モデル１０３４は入力データに応じた印象特徴量を出力データとして出力する際に、出力される印象特徴量に大きな影響を与える１または複数の対話特徴量を特定し、第１ユーザ端末２０、第２ユーザ端末３０、それ以外の他のユーザ端末等へ送信し、ユーザへ提示する構成としても良い。
例えば、第２印象評価モデル１０３４は、出力される印象特徴量に大きな影響を与える１または複数の対話特徴量を出力データとして出力するものとしても良い。これにより、印象特徴量に大きな影響を与える対話特徴量を高速に取得することができる。

＜印象解析処理の変形例＞
印象解析処理は、顧客である第２ユーザではなく、オペレータである第１ユーザの印象状態を特定する構成としても良い。
また、第１ユーザが他のユーザに与えたい目標印象特徴量、目標話者タイプを受け付けて、第１ユーザが改善すべき対話特徴量を算定し、第１ユーザに提示しても良い。つまり、第１ユーザに対して、好ましい話し方を提案するステップを含めても良い。
この場合、印象解析処理のステップＳ３０１からステップＳ３０５において、第２ユーザを第１ユーザと読み替えるだけで処理内容としては同様であるため説明を省略する。

ステップＳ３０６において、サーバ１０の印象解析部１０４３は、対話において第１ユーザが他のユーザに対して与えるべき目標となる目標話者タイプを受け付ける目標受付ステップを実行する。
具体的に、第１ユーザは、第１ユーザ端末２０の入力装置２０６などを操作することにより、サーバ１０が提供する所定のウェブページにアクセスし、一覧表示された複数の話者タイプから、目標とする話者タイプ（目標話者タイプ）を選択する。第１ユーザ端末２０の制御部２０４は、選択された目標話者タイプを特定し、サーバ１０へ送信する。サーバ１０は、目標話者タイプを受信し受け付ける。目標話者タイプは、第１ユーザが他のユーザに与える印象状態として望ましい印象状態に関する話者タイプであり、第１ユーザが自身で選択しても良いし、第１ユーザの管理者等が、第１ユーザの職務等に応じて選択しても良い。

ステップＳ３０６において、サーバ１０の印象解析部１０４３は、対話において第１ユーザが他のユーザに対して与えるべき目標となる目標印象特徴量を受け付ける目標受付ステップを実行する。
具体的に、サーバ１０の印象解析部１０４３は、受信した目標話者タイプに基づき、話者タイプマスタ１０２２の話者タイプの項目を検索し、印象条件を取得する。サーバ１０の印象解析部１０４３は、取得した印象条件に基づいて、当該印象条件の範囲に含まれる印象特徴量を目標印象特徴量として特定し、受け付ける。サーバ１０の印象解析部１０４３は、目標話者タイプを入力データとして、不図示の学習モデル等に適用することにより出力された目標印象特徴量を取得し、受け付ける構成としても良い。また、第１ユーザから、第１ユーザ端末２０の入力装置２０６などを介して目標印象特徴量を受け付ける構成としても良い。

ステップＳ３０６において、サーバ１０の印象解析部１０４３は、印象算定ステップにおいて算定された印象特徴量と、目標受付ステップにおいて受け付けた目標印象特徴量とに基づき、第１ユーザが改善すべき対話特徴量を算定する改善ステップを実行する。
具体的に、サーバ１０の印象解析部１０４３は、特定した目標印象特徴量に基づいて、当該目標印象特徴量を得るための対話特徴量を目標対話特徴量として特定し、受け付ける。サーバ１０の印象解析部１０４３は、目標印象特徴量を入力データとして、不図示の学習モデル等に適用することにより目標対話特徴量を取得し、受け付ける構成としても良い。
第１ユーザが改善すべき対話特徴量としては、例えば、「話速をより速く」、「話速をより遅く」、「抑揚をより大きく」、「抑揚をより小さく」といったものである。また、第１ユーザが改善すべき対話特徴量は、目標となる対話特徴量（目標対話特徴量）としても良い。

サーバ１０の印象解析部１０４３は、ステップＳ３０４において算定した対話特徴量と目標対話特徴量とを比較する。サーバ１０の印象解析部１０４３は、対話特徴量の目標対話特徴量に対する差分を第１ユーザが改善すべき対話特徴量として算定する。また、サーバ１０の印象解析部１０４３は、対話特徴量と目標対話特徴量とを比較し、乖離度が大きい対話特徴量を第１ユーザが改善すべき対話特徴量として特定する。
サーバ１０の印象解析部１０４３は、第１ユーザが改善すべき対話特徴量を第１ユーザ端末２０へ送信する。第１ユーザ端末２０の制御部２０４は、受信した改善すべき対話特徴量を第１ユーザ端末２０のディスプレイ２０８１に表示し、第１ユーザに提示する。
例えば、対話における第１ユーザの話速、抑揚、丁寧な表現の数、フィラーの数および文法的な発話の数等の対話特徴量のうち、第１ユーザが改善すべき対話特徴量を特定し、話速、抑揚、丁寧な表現の数、フィラーの数等をどの程度改善すべきか第１ユーザに対して提示する。これにより、オペレータ等が、具体的に話し方を改善することにより他者に与える印象を改善できる。
なお、対話特徴量は、第２ユーザ、それ以外の他のユーザに提示しても良い。

これにより、サーバ１０の印象解析部１０４３は、印象算定ステップにおいて算定された話者タイプと、目標受付ステップにおいて受け付けた目標話者タイプとに基づき、第１ユーザが改善すべき対話特徴量を算定する改善ステップを実行できる。
つまり、ユーザは受け付けた目標話者タイプに応じて改善すべき対話特徴量を把握できるとともに、改善すべき対話特徴量に基づき話し方を改善することにより自身が他者に与える印象を目標話者タイプに近づけることができる。

＜トピック定義処理＞
トピック定義処理は、ユーザが、複数のキーワードと関連づけられ、所定の話題に関するトピックを登録し記憶する処理である。

＜トピック定義処理の概要＞
ユーザは、複数の単語、名詞、形容詞等のキーワードに基づき、新たなトピックを定義し、記憶できる。また、既に記憶されたトピックに対して、過去に記憶された対話情報に基づいて、当該トピックと関連性が高いキーワードの提示を受け、当該キーワードをトピックに関連づけられたキーワードに追加し、記憶することにより、トピックに関連づけられたキーワードを拡張する一連の処理である。

＜トピック定義処理の詳細＞
以下に、トピック定義処理の詳細を説明する。

サーバ１０のトピック処理部１０４４は、音声記憶ステップにおいて記憶された音声データと、キーワード受付ステップにおいて受け付けた複数のキーワードに基づき、第１トピックに新たに関連づける１または複数の新たなキーワードを第１ユーザに対して提示するキーワード提示ステップを実行する。
具体的に、第１ユーザは、第１ユーザ端末２０の入力装置２０６などを操作することにより、アプリケーションプログラム２０１２を実行しブラウザアプリケーションを実行する。第１ユーザは、ブラウザアプリケーションにおいて、サーバ１０が提供する所定のウェブサーバを指定する所定のＵＲＬ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ）を入力することにより、サーバ１０へトピックを定義するためのページを要求するリクエストを送信する。

サーバ１０のトピック処理部１０４４は、受信したリクエストに含まれる第１ユーザＩＤ２０１１に基づき、音声区間テーブル１０１６の話者ＩＤの項目を検索し、区間読上テキストを取得する。
サーバ１０のトピック処理部１０４４は、区間読上テキストに対して形態素解析等の処理を実行することにより、区間読上テキストに含まれる名詞、形容詞、キーワード等の文字列を抽出する。このとき、対話情報、音声区間情報ごとの文字列の出現頻度等に基づき、文字列に対する重要度の算定を行っても良い。重要度の算定手法としては、ｔｆ－ｉｄｆ等がある。サーバ１０のトピック処理部１０４４は、重要度が高い所定個数の文字列をキーワード候補として特定する。

サーバ１０のトピック処理部１０４４は、トピックマスタ１０２３からトピックＩＤ、キーワードを取得し、複数のトピックＩＤのそれぞれに関連づけられた複数のキーワードと、１または複数の対話情報または音声区間情報において共起関係にあり、トピックＩＤとは関連づけられていない文字列をキーワード候補として特定しても良い。なお、共起関係の算定にあたり、キーワード、文字列ごとの重要度を考慮しても良い。キーワード候補の特定にあたり、出現頻度等に基づき算定された重要度を考慮し、所定個数の文字列をキーワード候補として特定しても良い。

サーバ１０のトピック処理部１０４４は、特定したキーワード候補を第１ユーザ端末２０へ送信する。第１ユーザ端末２０の制御部２０４は、受信したキーワード候補を第１ユーザ端末２０のディスプレイ２０８１に表示し、第１ユーザに提示する。

サーバ１０のトピック処理部１０４４は、第１ユーザから１または複数のキーワードを受け付けるキーワード受付ステップを実行する。
具体的に、第１ユーザは、第１ユーザ端末２０の入力装置２０６などを操作することにより、第１ユーザ端末２０のディスプレイ２０８１に表示されたキーワード候補から新たにトピックと関連づけるためのキーワードを選択する。
第１ユーザ端末２０の制御部２０４は、第１ユーザにより選択された１または複数のキーワード候補をサーバ１０へ送信する。

キーワード受付ステップは、キーワード提示ステップにおいて第１ユーザに対して提示された複数の新たなキーワードのうち、第１ユーザにより選択された１または複数のキーワードを受け付けるステップを実行する。
具体的に、サーバ１０のトピック処理部１０４４は、第１ユーザ端末２０から１または複数のキーワード候補を受信し、受け付ける。

サーバ１０のトピック処理部１０４４は、キーワード受付ステップにおいて受け付けた１または複数のキーワードを、所定の話題に関する第１トピックと関連づけて記憶するトピック記憶ステップを実行する。
具体的に、サーバ１０のトピック処理部１０４４は、受け付けた複数のキーワード候補を、トピックＩＤと関連づけてトピックマスタ１０２３に記憶する。なお、第１ユーザにより選択された１または複数のキーワード候補は、既にトピックマスタ１０２３に記憶されているトピックＩＤと関連づけても良いし、新たなトピックＩＤを生成し、当該新たに生成されたトピックＩＤと関連づける構成としても良い。
既にトピックマスタ１０２３に記憶されているトピックＩＤと関連づけて記憶する場合は、第１ユーザは、第１ユーザ端末２０の入力装置２０６などを操作することにより、関連づける対象となるトピックＩＤを選択する選択操作を実行する。

＜トピック解析処理＞
トピック解析処理は、複数のユーザにより行われたオンライン対話の音声、動画等の対話情報を解析し、対話情報と１または複数のトピックとの関連度を算定し、関連度に基づき、対話情報にトピックを関連づけ、記憶する処理である。

＜トピック解析処理の概要＞
トピック解析処理は、ユーザ間のオンライン対話を検知すると、対話に関する対話情報を記憶し、対話情報に含まれる音声データ、動画データをそれぞれ発話区間ごとの区間音声データ、区間動画データ等の区間データへ分割し、区間データごとに複数のトピックとの関連度を算定し、区間データごとのトピックを特定し、代表的なトピックを対話情報のラベル情報として記憶する一連の処理である。

＜トピック解析処理の詳細＞
以下に、トピック解析処理の詳細を説明する。

ステップＳ５１１において、既に説明した発信処理、着信処理、ルーム等を介してユーザと顧客との間でのオンライン対話が開始される。

ステップＳ５１２において、サーバ１０のトピック処理部１０４４は、対話に関する音声データを受け付ける受付ステップを実行する。サーバ１０のトピック処理部１０４４は、受付ステップにおいて受け付けた音声データを記憶する音声記憶ステップを実行する。
ステップＳ５１２は、感情解析処理におけるステップＳ１０２と同様であるため説明を省略する。

ステップＳ５１３において、サーバ１０のトピック処理部１０４４は、受付ステップにおいて受け付けた音声データから、発話区間ごとに複数の区間音声データを抽出する音声抽出ステップを実行する。
ステップＳ５１３は、感情解析処理におけるステップＳ１０３と同様であるため説明を省略する。

ステップＳ５１３において、音声抽出ステップは、対話が終了する前に、受付ステップにおいて受け付けた音声データから、発話区間ごとに複数の区間音声データを抽出するステップを実行しても良い。
つまり、音声抽出ステップは、複数のユーザによるオンライン対話の対話中の任意のタイミングに実行する構成としても良い。

ステップＳ５１４において、サーバ１０のトピック処理部１０４４は、複数のキーワードと関連づけられ、所定の話題に関する第１トピックを特定するトピック特定ステップを実行する。
具体的に、サーバ１０のトピック処理部１０４４は、トピックマスタ１０２３を参照して、トピック定義処理により予め登録されたトピックＩＤ、トピックＩＤに関連づけられた１または複数のキーワードを取得し、特定する。

関連度算定ステップは、複数の区間音声データごとに、トピック特定ステップにおいて特定した複数のトピックごとの関連度を算定するステップを実行する。
本開示においては、主に簡単のため１の第１トピックと、第１トピックに関連づけられた１または複数のキーワードについて説明するが、トピックは１つに限られず複数のトピック（第２トピック、第３トピック・・・）に対して同様の処理を実行しても構わない。

ステップＳ５１４において、サーバ１０のトピック処理部１０４４は、複数の区間音声データごとに、トピック特定ステップにおいて特定した第１トピックとの関連度を示す第１関連度を算定する関連度算定ステップを実行する。
具体的に、サーバ１０のトピック処理部１０４４は、Ｓ５１３において取得した音声区間情報と、第１トピックに関連づけられたキーワードとの関連性に応じて、第１トピックとの関連度を示す第１関連度を算定する。

第１関連度の算定方法の一例を以下の通り説明する。サーバ１０のトピック処理部１０４４は、第１トピックに関連づけられたキーワードに基づき分散表現（埋め込み表現）として高次元ベクトル（トピックベクトル）を作成する。また、サーバ１０のトピック処理部１０４４は、複数の音声区間情報に含まれる区間読上テキストに対して形態素解析等の処理を実行することにより、区間読上テキストに含まれる名詞、形容詞、キーワード等の文字列を抽出し、抽出された文字列に基づき分散表現として高次元ベクトル（音声区間ベクトル）を作成する。なお、分散表現の作成方法としては、Ｗｏｒｄ２ｖｅｃと呼ばれる手法が知られている。サーバ１０のトピック処理部１０４４は、第１関連度を、トピックベクトルと音声区間ベクトルとのコサイン類似度を計算することにより算定する。なお、第１関連度は、ユークリッド距離、マハラノビス距離、マンハッタン距離、チェビシェフ距離、ミンコフスキー距離等、任意の多次元ベクトル間の距離を算定するアルゴリズムを適用しても構わない。
このように計算された第１関連度は、第１トピックに関連づけられた複数のキーワードと、複数の音声区間情報に含まれる文字列との全体的な類似傾向を反映したものとなる。これにより、音声区間情報に含まれる文字列が、トピックに含まれるキーワードの言い換え表現や表記の違いにより同じ意味の単語が異なる単語と判定されずに、第１トピックに含まれるキーワードと意味内容の関連性が高い音声区間情報について、より高い関連度が得られる。
本開示においては、第１トピックとの関連度を示す第１関連度の算定について説明したが、任意のトピックと、当該トピックと音声区間情報との関連度の算定も同様である。

関連度算定ステップは、対話が終了する前に、複数の区間音声データに含まれる区間音声データごとに、トピック特定ステップにおいて特定した第１トピックとの関連度を示す第１関連度を算定するステップを実行しても良い。
つまり、複数のユーザによるオンライン対話の対話中の任意のタイミングに実行する構成としても良い。これにより、オンライン対話の対話途中においても、それまでの対話における音声区間情報に対して、それぞれのトピックとの関連度を算定できる。

関連度算定ステップは、第１トピックに関連づけられた複数のキーワードのうち、音声抽出ステップにおいて抽出された複数の区間音声データに多く含まれるキーワードほど関連度へ与える重みが小さくなるようにし、複数の区間音声データごとに第１トピックに関連づけられた複数のキーワードの重み付けを考慮した一致度を、第１トピックとの関連度を示す第１関連度として算定しても良い。
具体的に、関連度算定の際に第１トピックに関連づけられた複数のキーワードごとの重要性について、異なる重み付けを行っても良い。例えば、１の対話情報に対して抽出された複数の音声区間情報に対して、多くの音声区間情報に頻出するキーワードの、関連度へ与える影響度合いが小さくなるように、重要性、重みを他のキーワードに比べて小さい値としても良い。これにより、多くの音声区間情報に頻出するありふれたキーワードに関連付いたトピックとの関連度が過大に評価されることを防止できる。
本開示においては、第１トピックとの関連度を示す第１関連度の算定について説明したが、任意のトピックと、当該トピックと音声区間情報との関連度の算定も同様としても良い。

関連度算定ステップは、第１トピックに関連づけられた複数のキーワードのうち、第１関連度の算定対象となる対象区間音声データから時系列的に所定個数前までの複数の区間音声データに多く含まれるキーワードほど関連度へ与える重みが小さくなるようにし、複数の区間音声データごとに第１トピックに関連づけられた複数のキーワードとの重み付けを考慮した一致度を、第１トピックとの関連度を示す第１関連度として算定しても良い。
例えば、１の対話情報に対して抽出された複数の音声区間情報のすべてではなく、算定対象となる対象区間音声情報から時系列的に所定個数前までの複数の音声区間情報に対して、多くの音声区間情報に頻出するキーワードの、関連度へ与える影響度合いが小さくなるように、重要性、重みを他のキーワードに比べて小さい値としても良い。これにより、対話が終了する前の対話中の任意のタイミングにおいても、直近の音声区間情報とトピックとの関連度をより正確に算定できる。
本開示においては、第１トピックとの関連度を示す第１関連度の算定について説明したが、任意のトピックと、当該トピックと音声区間情報との関連度の算定も同様としても良い。

サーバ１０のトピック処理部１０４４は、１の対話情報に対して抽出された複数の音声区間情報に対して、複数のトピックごとに算定された関連度を、音声区間情報を特定する区間ＩＤ、トピックを特定するトピックＩＤ、算定された関連度を、それぞれ、トピック関連度テーブル１０１７の新たなレコードの区間ＩＤ、トピックＩＤ、関連度の項目に記憶する。

ステップＳ５１５において、それぞれの音声区間情報において所定値以上の関連度を有する１または複数のトピックのうち、もっとも関連度が高いトピックを音声区間情報が言及している所定の話題に関するトピックとして特定する。なお、トピックは必ずしも特定される必要はない。サーバ１０のトピック処理部１０４４は、特定したトピックのトピックＩＤを、音声区間テーブル１０１６において関連度の算定対象となる音声区間情報の区間ＩＤにより特定されるレコードのトピックＩＤの項目に記憶する。これにより、音声区間情報が、関連度が高いトピックと関連づけて記憶される。

ステップＳ５１６において、サーバ１０のトピック処理部１０４４は、関連度算定ステップにおいて算定された複数のトピックごとの関連度に基づき、対話に対するラベル情報を特定するラベル特定ステップを実行する。サーバ１０のトピック処理部１０４４は、ラベル特定ステップにおいて特定されたラベル情報を、対話と関連づけて記憶する記憶ステップを実行する。
具体的に、サーバ１０のトピック処理部１０４４は、ステップＳ５１５において、１の対話情報に対して抽出された複数の音声区間情報のそれぞれに対して記憶されたトピックＩＤを集計し、集計されたトピックＩＤが多い順番に１または複数のトピックＩＤを、当該１の対話情報を特徴付けるトピックとして特定する。なお、集計されたトピックＩＤの個数が所定数以上の１または複数のトピックＩＤを、当該１の対話情報を特徴付けるトピックとして特定しても良い。
サーバ１０のトピック処理部１０４４は、当該特定したトピックＩＤのトピック名、ラベル等のトピックの名称をラベル情報として特定する。なお、不図示のテーブル等を参照して、特定したトピックＩＤに基づき、任意のラベル情報を特定する構成としても良い。
特定したラベル情報、当該１の対話情報の対話ＩＤを、ラベルテーブル１０１５の新たなレコードのラベルデータ、対話ＩＤの項目に記憶する。これにより、対話情報と、対話情報を特徴付けるトピックがラベル情報として関連づけられ記憶され、対話情報を検索する際などに利便性よく利用できる。

＜トピック解析処理の実行タイミングについて＞
トピック解析処理のステップＳ５１３～Ｓ５１６は複数のユーザによるオンライン対話の終了後に実行する構成としても良い。これにより、オンライン対話が終了した後、対話内容が確定した後に、対話に関連するトピックが特定され、対話情報と関連づけられて記憶される。

また、トピック解析処理は複数のユーザによるオンライン対話の開始後、対話の終了前までに実行する構成としても良い。
つまり、複数のユーザによるオンライン対話の対話中の任意のタイミングに実行する構成としても良い。また、ステップＳ５１３～ステップＳ５１６は、オンライン対話の対話中に定期的にリアルタイムに実行する構成としても良い。これにより、オンライン対話の対話途中においても、それまでの対話に応じたトピックが特定され、対話情報と関連づけられて記憶される構成としても良い。
これにより、ユーザは、オンライン対話の対話中にリアルタイムに、オンライン対話に参加しているユーザが言及している話題を確認できるとともに、対話情報を最新のトピックに基づき整理、管理できる。

＜トピック提示処理＞
トピック提示処理は、複数のユーザにより行われたオンライン対話の音声、動画等の対話情報を視覚的に可視化しユーザに提示するとともに、対話情報に関連づけられたトピックをユーザに対して提示する処理である。ユーザは、対話情報と、対話情報に関連するトピックを一目で確認することができ、対話内容の概要を直感的に把握できる。

＜トピック提示処理の概要＞
ユーザから提示対象となる対話情報の指定を受け付け、対話情報を取得し、区間データおよび区間データごとのトピックを取得し、対話情報を解析し話者ごとの発話状況を視覚的に確認可能な音声グラフをユーザに提示し、音声グラフに重ねて発話区間ごとのトピックを音声グラフに重ねてユーザに提示する一連の処理である。

＜トピック提示処理の詳細＞
以下に、トピック提示処理の詳細を説明する。

ステップＳ５２１において、第１ユーザはトピックを確認したい対話情報を選択する。
具体的に、第１ユーザは、第１ユーザ端末２０の入力装置２０６などを操作することにより、アプリケーションプログラム２０１２を実行しブラウザアプリケーションを実行する。第１ユーザは、ブラウザアプリケーションにおいて、サーバ１０が提供する所定のウェブサーバを指定する所定のＵＲＬ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ）を入力することにより、サーバ１０へトピックを提示させるためのページを要求するリクエストを送信する。
サーバ１０のトピック処理部１０４４は、受信したリクエストに含まれる第１ユーザＩＤ２０１１に基づき、対話テーブル１０１４のユーザＩＤの項目を検索し、対話ＩＤを取得する。サーバ１０のトピック処理部１０４４は、取得した１または複数の対話ＩＤを第１ユーザ端末２０に送信する。第１ユーザ端末２０の制御部２０４は、受信した１または複数の対話ＩＤを第１ユーザ端末２０のディスプレイ２０８１に表示することにより、第１ユーザに提示する。
第１ユーザは、第１ユーザ端末２０の入力装置２０６などを操作することにより、提示された対話ＩＤから所定の対話ＩＤを選択する。第１ユーザ端末２０の制御部２０４は、選択された所定の対話ＩＤをサーバ１０へ送信する。サーバ１０は、対話ＩＤを受信し、受け付ける。

なお、第１ユーザが、本開示にかかるオンライン対話サービスを利用して対話中である場合には、当該対話中の対話情報が選択されているものとしても良い。つまり、対話中に第１ユーザ端末２０のディスプレイ２０８１に表示される対話画面において、トピック提示処理を実行する構成としても良い。

ステップＳ５２２において、サーバ１０のトピック処理部１０４４は、受信した対話ＩＤに基づき、対話テーブル１０１４の対話ＩＤの項目を検索し、ユーザＩＤ、顧客ＩＤ、対話カテゴリ、受発信種別、音声データ、動画データ等の対話情報を取得する。

ステップＳ５２３において、サーバ１０のトピック処理部１０４４は、受信した対話ＩＤに基づき、音声区間テーブル１０１６の対話ＩＤの項目を検索し、区間ＩＤ、開始日時、終了日時、トピックＩＤの項目を取得する。サーバ１０のトピック処理部１０４４は、取得した区間ＩＤに基づき、トピック関連度テーブル１０１７の区間ＩＤの項目を検索し、トピックＩＤ、関連度を取得する。
つまり、サーバ１０のトピック処理部１０４４は、対話ＩＤに関連づけられた複数の音声区間情報と、音声区間情報ごとのトピックＩＤ、関連度を取得する。

ステップＳ５２４において、サーバ１０のトピック処理部１０４４は、ステップＳ５２２において取得した対話情報に基づき、話者による発話状況の時系列推移を示す音声グラフを出力し、第１ユーザ端末２０に送信する。第１ユーザ端末２０の制御部２０４は、受信した音声グラフを第１ユーザ端末２０のディスプレイ２０８１に表示し、第１ユーザに提示する。第１ユーザに提示される音声グラフを含む画面例７０を図２０に示す。
なお、音声グラフは、第２ユーザ、それ以外の管理者、他のユーザ等の任意のユーザに提示しても良い。

音声グラフは、横軸を対話時間、縦軸（上方）を第１ユーザの音声の出力量、縦軸（下方）を第２ユーザの音声の出力量とするグラフであり、実線Ｌ１が第１ユーザの音声を示し、破線Ｌ２が第２ユーザの音声を示している。
実線Ｌ１及び破線Ｌ２を見ると、基本的には、第１ユーザが音声を発している（話している）間は、第２ユーザは音声を発しておらず（黙って聞いている）、第２ユーザが音声を発している（話している）間は、第１ユーザは音声を発していない（黙って聞いている）ことがわかる。ここで、Ｚ３で示された箇所は、両者が同時に音声を発している状態（被っている状態）であり、第２ユーザの話が終わらないうちに第１ユーザが話し始めた可能性がある。Ｚ１及びＺ２で示された箇所は、両者が音声を発していない時間（沈黙の時間）である。Ｐ１及びＰ２で示された箇所は、所定のキーワードが出現した箇所である。

ステップＳ５２５において、サーバ１０のトピック処理部１０４４は、複数の区間音声データのうち、関連度算定ステップにおいて算定された第１関連度が所定値以上の１または複数の区間音声データを含む、第１区間群を特定する区間群特定ステップを実行する。
具体的に、サーバ１０のトピック処理部１０４４は、トピック解析処理において、１の対話情報に対して抽出された複数の音声区間情報のそれぞれに対して算定された第１関連度が所定値以上の１または複数の音声区間情報が、第１トピックに関する話題について言及していると判定すると、当該１または複数の音声区間情報を含む、１または複数の音声区間情報を第１区間群として特定する。例えば、時系列的に連続する複数の音声区間情報のトピックとの関連づけが、区間１：トピックＡ、区間２：トピックＡ、区間３：トピックなし、区間４：トピックＡ、区間５：トピックなし、区間６：トピックＢ、区間７：トピックＢ、区間８：トピックＢである場合において、区間１から区間４をトピックＡに関する区間群として特定し、区間６から区間８をトピックＢに関する区間群として特定する。区間３などのように、トピックＡの区間に他のトピックと関連づいた音声区間が含まれている場合においても、区間１から区間４が全体としてトピックＡの話題について言及していると考えられる場合には、区間１から区間４をまとめてトピックＡに関する区間群として特定しても良い。

本開示においては、第１区間群を特定するものとしたが、複数の区間音声データのうち、所定の話題に関する第１トピックと関連する１または複数の区間音声データを特定するものとしても良い。また、第１ユーザまたは第２ユーザの入力操作により、１または複数の区間音声データ、第１区間群を選択することにより特定しても良い。

ステップＳ５２５において、サーバ１０のトピック処理部１０４４は、区間群特定ステップにおいて特定された第１区間群を、第１トピックと関連づけて、第１ユーザまたは第２ユーザに提示する提示ステップを実行する。提示ステップは、受付ステップにおいて受け付けた音声データを解析することにより得られる、話者による発話状況の時系列推移を示す音声グラフにおいて、区間群特定ステップにおいて特定された第１区間群を音声グラフと同じ時系列軸上に提示するとともに、第１トピックを第１区間群に関連づけて、第１ユーザまたは第２ユーザに提示するステップを実行する。
具体的に、図２０の音声グラフにおいて、サーバ１０のトピック処理部１０４４は、第１トピックに関連づけられた第１区間群Ｔ１、第２トピックに関連づけられた第２区間群Ｔ２、第３トピックに関連づけられた第３区間群Ｔ３を、描画オブジェクトとして音声グラフに重ねて提示する。例えば、第１区間群Ｔ１、第２区間群Ｔ２、第３区間群Ｔ３は、それぞれトピックごとに割り当てられた異なる色による描画オブジェクトとして描画する構成としても良い。これにより、第１ユーザは、区間群を関連するトピックと関連づけて音声グラフと重ねて視認できる。これにより、第１ユーザは音声グラフにおいて、どの箇所がどのようなトピックについて話題となっているのか視覚的に一目で確認できる。
なお、サーバ１０のトピック処理部１０４４は、区間群特定ステップにおいて特定された第１区間群を、第１ユーザ、第２ユーザ以外の管理者、他のユーザ等の任意のユーザに提示する構成としても良い。

ステップＳ５２５において、区間群特定ステップは、時系列的に並べられた複数の区間音声データのそれぞれに対して算定された第１関連度に基づき移動平均を算定するステップと、算定された移動平均が所定値以上の区間音声データを、第１区間群として特定するステップと、を含んでも良い。
具体的に、サーバ１０のトピック処理部１０４４は、区間群を特定するのに際して、トピック関連度テーブルから取得した音声区間情報を、音声区間情報の開始日時等に基づき時系列的に並べる。サーバ１０のトピック処理部１０４４は、所定の音声区間情報の関連度に対して、当該所定の音声区間情報に対する直近Ｎ個の関連度の平均を移動平均として算定する。Ｎは任意の整数である。算定された移動平均を、当該所定の音声区間情報に対する新たな関連度と見なして、当該関連度が所定値以上の音声区間情報を第１トピックに関連づけられた第１区間群として特定する。
本開示においては、主に簡単のため１の第１トピックの関連度に対する移動平均について説明したが、トピックは１つに限られず複数のトピックに対して同様の処理を実行しても構わない。
これにより、発話区間ごとに関連度が高いトピックが短期間で切り替わる場合においても、トピックの関連度を平滑化することにより、トピックについて言及している区間群をまとめて特定できる。オンライン対話サービスにおいて、話者がどのような話題について発話を行ったのか、ユーザはより確認しやすくなる。

ステップＳ５２５において、区間群特定ステップは、時系列的に並べられた複数の区間音声データのうち、算定された第１関連度が所定値以上の連続する複数の区間音声データを、第１区間群として特定するステップを実行しても良い。
具体的に、サーバ１０のトピック処理部１０４４は、区間群を特定するのに際して、トピック関連度テーブルから取得した音声区間情報を、音声区間情報の開始日時等に基づき時系列的に並べる。サーバ１０のトピック処理部１０４４は、関連度が所定値以上の複数の連続する音声区間情報を第１トピックに関連づけられた第１区間群として特定する。
本開示においては、主に簡単のため１の第１トピックの関連度に対する移動平均について説明したが、トピックは１つに限られず複数のトピックに対して同様の処理を実行しても構わない。
これにより、特定のトピックについて連続して関連度が高い区間音声データを、トピックについて言及している区間群としてまとめて特定できる。オンライン対話サービスにおいて、話者がどのような話題について発話を行ったのか、ユーザはより確認しやすくなる。

ステップＳ５２５において、サーバ１０のトピック処理部１０４４は、複数の区間音声データのうち、１または複数の区間音声データと、トピック特定ステップにおいて特定した第１トピックと、に基づき、１または複数の区間音声データに含まれるテキスト情報を要約した要約テキストを生成する要約ステップを実行する。要約ステップは、１または複数の区間音声データに含まれるテキスト情報のうち、トピック特定ステップにおいて特定した第１トピックと関連性が高い箇所のみ抽出することにより、１または複数の区間音声データに含まれるテキスト情報を要約した要約テキストを生成するステップを実行する。

ステップＳ５２５において、要約ステップは、１または複数の区間音声データに含まれるテキスト情報と、第１トピックに関連づけられた複数のキーワードを入力データとして、学習モデルに適用することにより、要約テキストを生成するステップを実行する。
具体的に、区間音声データ、区間動画データおよび区間読上テキストの少なくともいずれか１つを含む区間データと、当該区間データのトピックに関連づけられた複数のキーワードと、を入力データとして、要約モデル１０３５に適用し、当該区間データに含まれるテキスト情報を要約したテキスト情報である要約テキストを出力データとして取得する。これにより、区間データに含まれるテキスト情報のうち、特にトピックと関連性が高い箇所のみを抽出することができ、区間データに含まれるテキスト情報を要約した要約テキストを取得できる。

ステップＳ５２５において、要約ステップは、区間群特定ステップにおいて特定された第１区間群に含まれる１または複数の区間音声データと、トピック特定ステップにおいて特定した第１トピックと、に基づき、１または複数の区間音声データに含まれるテキスト情報を要約した要約テキストを生成するステップを実行する。
具体的に、区間群に含まれる１または複数の区間データと、当該区間群のトピックに関連づけられた複数のキーワードと、を入力データとして、要約モデル１０３５に適用し、当該区間群に含まれるテキスト情報を要約したテキスト情報である要約テキストを出力データとして取得する。これにより、区間データに含まれるテキスト情報のうち、特にトピックと関連性が高い箇所を抽出することができ、区間データに含まれるテキスト情報を要約した要約テキストを取得できる。

ステップＳ５２５において、サーバ１０のトピック処理部１０４４は、要約ステップにおいて生成された要約テキストを、１または複数の区間音声データと関連づけて提示する提示ステップを実行する。
ステップＳ５２５において、サーバ１０のトピック処理部１０４４は、要約ステップにおいて生成された要約テキストを、区間群特定ステップにおいて特定されただい１区間群と関連づけて提示する提示ステップを実行する。
具体的に、図２０の音声グラフにおいて、サーバ１０のトピック処理部１０４４は、第１区間群Ｔ１の第１トピックに関する要約テキスト７０１を、第１区間群Ｔ１と関連づけて提示する。なお、サーバ１０のトピック処理部１０４４は、区間群ではなく、任意の１または複数の音声区間に関連づけて、要約テキスト７０１を提示しても良い。
なお、サーバ１０のトピック処理部１０４４は、区間群特定ステップにおいて特定された第１区間群を、第１ユーザ、第２ユーザ、それ以外の管理者、他のユーザ等の任意のユーザに提示する構成としても良い。

＜学習処理＞
感情評価モデル１０３１、印象評価モデル１０３２、第１印象評価モデル１０３３、第２印象評価モデル１０３４の学習処理を以下に説明する。

＜感情評価モデル１０３１の学習処理＞
感情評価モデル１０３１の学習処理は、感情評価モデル１０３１に含まれるディープニューラルネットワークの学習パラメータを深層学習により学習させる処理である。

＜感情評価モデル１０３１の学習処理の概要＞
感情評価モデル１０３１の学習処理は、区間音声データ、区間動画データ、区間読上テキストを入力データ（入力ベクトル）として、感情特徴量である感情ベクトルまたは感情スカラーを出力データ（教師データ）となるように、感情評価モデル１０３１に含まれるディープニューラルネットワークの学習パラメータを深層学習により学習させる処理である。
感情評価モデル１０３１の入力データから、区間音声データ、区間動画データ、区間読上テキストのいずれかを省略しても構わない。

＜感情評価モデル１０３１の学習処理の詳細＞
サーバ１０の学習部１０５１は、区間音声データ、区間動画データ、区間読上テキストなどを入力データ（入力ベクトル）として、所定の感情特徴量を出力データ（教師データ）となるよう、学習データを作成する。
サーバ１０の学習部１０５１は、学習データに基づき、感情評価モデル１０３１のディープニューラルネットワークを学習させるための訓練データ、テストデータ、検証データなどのデータセットを作成する。
サーバ１０の学習部１０５１は、作成したデータセットに基づき感情評価モデル１０３１に含まれるディープニューラルネットワークの学習パラメータを深層学習により学習させる。

＜印象評価モデル１０３２の学習処理＞
印象評価モデル１０３２の学習処理は、印象評価モデル１０３２に含まれるディープニューラルネットワークの学習パラメータを深層学習により学習させる処理である。

＜印象評価モデル１０３２の学習処理の概要＞
印象評価モデル１０３２の学習処理は、区間音声データ、区間動画データ、区間読上テキストを入力データ（入力ベクトル）として、印象特徴量を出力データ（教師データ）となるように、印象評価モデル１０３２に含まれるディープニューラルネットワークの学習パラメータを深層学習により学習させる処理である。
印象評価モデル１０３２の入力データから、区間音声データ、区間動画データ、区間読上テキストのいずれかを省略しても構わない。

＜印象評価モデル１０３２の学習処理の詳細＞
サーバ１０の学習部１０５１は、区間音声データ、区間動画データ、区間読上テキストなどを入力データ（入力ベクトル）として、所定の印象特徴量を出力データ（教師データ）となるよう、学習データを作成する。
サーバ１０の学習部１０５１は、学習データに基づき、印象評価モデル１０３２のディープニューラルネットワークを学習させるための訓練データ、テストデータ、検証データなどのデータセットを作成する。
サーバ１０の学習部１０５１は、作成したデータセットに基づき印象評価モデル１０３２に含まれるディープニューラルネットワークの学習パラメータを深層学習により学習させる。

＜第１印象評価モデル１０３３の学習処理＞
第１印象評価モデル１０３３の学習処理は、第１印象評価モデル１０３３に含まれるディープニューラルネットワークの学習パラメータを深層学習により学習させる処理である。

＜第１印象評価モデル１０３３の学習処理の概要＞
第１印象評価モデル１０３３の学習処理は、区間音声データ、区間動画データ、区間読上テキストを入力データ（入力ベクトル）として、対話特徴量を出力データ（教師データ）となるように、第１印象評価モデル１０３３に含まれるディープニューラルネットワークの学習パラメータを深層学習により学習させる処理である。
第１印象評価モデル１０３３の入力データから、区間音声データ、区間動画データ、区間読上テキストのいずれかを省略しても構わない。

＜第１印象評価モデル１０３３の学習処理の詳細＞
サーバ１０の学習部１０５１は、区間音声データ、区間動画データ、区間読上テキストなを入力データ（入力ベクトル）として、所定の対話特徴量を出力データ（教師データ）となるよう、学習データを作成する。
サーバ１０の学習部１０５１は、学習データに基づき、第１印象評価モデル１０３３のディープニューラルネットワークを学習させるための訓練データ、テストデータ、検証データなどのデータセットを作成する。
サーバ１０の学習部１０５１は、作成したデータセットに基づき第１印象評価モデル１０３３に含まれるディープニューラルネットワークの学習パラメータを深層学習により学習させる。

＜第２印象評価モデル１０３４の学習処理＞
第２印象評価モデル１０３４の学習処理は、第２印象評価モデル１０３４に含まれるディープニューラルネットワークの学習パラメータを深層学習により学習させる処理である。

＜第２印象評価モデル１０３４の学習処理の概要＞
第２印象評価モデル１０３４の学習処理は、対話特徴量を入力データ（入力ベクトル）として、印象特徴量を出力データ（教師データ）となるように、第２印象評価モデル１０３４に含まれるディープニューラルネットワークの学習パラメータを深層学習により学習させる処理である。

＜第２印象評価モデル１０３４の学習処理の詳細＞
サーバ１０の学習部１０５１は、対話特徴量などを入力データ（入力ベクトル）として、所定の印象特徴量を出力データ（教師データ）となるよう、学習データを作成する。
サーバ１０の学習部１０５１は、学習データに基づき、第２印象評価モデル１０３４のディープニューラルネットワークを学習させるための訓練データ、テストデータ、検証データなどのデータセットを作成する。
サーバ１０の学習部１０５１は、作成したデータセットに基づき第２印象評価モデル１０３４に含まれるディープニューラルネットワークの学習パラメータを深層学習により学習させる。

＜要約モデル１０３５の学習処理の詳細＞
サーバ１０の学習部１０５１は、区間音声データ、区間動画データおよび区間読上テキストの少なくともいずれか１つを含む区間データと、所定の話題に関するトピックに関連づけられた複数のキーワードと、を入力データ（入力ベクトル）として、当該区間データに含まれるテキスト情報を要約したテキスト情報である要約テキストを出力データ（教師データ）となるよう、学習データを作成する。
サーバ１０の学習部１０５１は、学習データに基づき、要約モデル１０３５のディープニューラルネットワークを学習させるための訓練データ、テストデータ、検証データなどのデータセットを作成する。
サーバ１０の学習部１０５１は、作成したデータセットに基づき要約モデル１０３５に含まれるディープニューラルネットワークの学習パラメータを深層学習により学習させる。

＜コンピュータの基本ハードウェア構成＞
図２１は、コンピュータ９０の基本的なハードウェア構成を示すブロック図である。コンピュータ９０は、プロセッサ９０１、主記憶装置９０２、補助記憶装置９０３、通信ＩＦ９９１（インタフェース、Interface）を少なくとも備える。これらは通信バス９２１により相互に電気的に接続される。

プロセッサ９０１とは、プログラムに記述された命令セットを実行するためのハードウェアである。プロセッサ９０１は、演算装置、レジスタ、周辺回路等から構成される。

主記憶装置９０２とは、プログラム、及びプログラム等で処理されるデータ等を一時的に記憶するためのものである。例えば、ＤＲＡＭ（Dynamic Random Access Memory）等の揮発性のメモリである。

補助記憶装置９０３とは、データ及びプログラムを保存するための記憶装置である。例えば、フラッシュメモリ、ＨＤＤ（Hard Disc Drive）、光磁気ディスク、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、半導体メモリ等である。

通信ＩＦ９９１とは、有線又は無線の通信規格を用いて、他のコンピュータとネットワークを介して通信するための信号を入出力するためのインタフェースである。
ネットワークは、インターネット、ＬＡＮ、無線基地局等によって構築される各種移動通信システム等で構成される。例えば、ネットワークには、３Ｇ、４Ｇ、５Ｇ移動通信システム、ＬＴＥ（Long Term Evolution）、所定のアクセスポイントによってインターネットに接続可能な無線ネットワーク（例えばWi-Fi（登録商標））等が含まれる。無線で接続する場合、通信プロトコルとして例えば、Ｚ－Ｗａｖｅ（登録商標）、ＺｉｇＢｅｅ（登録商標）、Ｂｌｕｅｔｏｏｔｈ（登録商標）等が含まれる。有線で接続する場合は、ネットワークには、ＵＳＢ（Universal Serial Bus）ケーブル等により直接接続するものも含む。

なお、各ハードウェア構成の全部または一部を複数のコンピュータ９０に分散して設け、ネットワークを介して相互に接続することによりコンピュータ９０を仮想的に実現することができる。このように、コンピュータ９０は、単一の筐体、ケースに収納されたコンピュータ９０だけでなく、仮想化されたコンピュータシステムも含む概念である。

＜コンピュータ９０の基本機能構成＞
コンピュータ９０の基本ハードウェア構成（図２１）により実現されるコンピュータの機能構成を説明する。コンピュータは、制御部、記憶部、通信部の機能ユニットを少なくとも備える。

なお、コンピュータ９０が備える機能ユニットは、それぞれの機能ユニットの全部または一部を、ネットワークで相互に接続された複数のコンピュータ９０に分散して設けても実現することができる。コンピュータ９０は、単一のコンピュータ９０だけでなく、仮想化されたコンピュータシステムも含む概念である。

制御部は、プロセッサ９０１が補助記憶装置９０３に記憶された各種プログラムを読み出して主記憶装置９０２に展開し、当該プログラムに従って処理を実行することにより実現される。制御部は、プログラムの種類に応じて様々な情報処理を行う機能ユニットを実現することができる。これにより、コンピュータは情報処理を行う情報処理装置として実現される。

記憶部は、主記憶装置９０２、補助記憶装置９０３により実現される。記憶部は、データ、各種プログラム、各種データベースを記憶する。また、プロセッサ９０１は、プログラムに従って記憶部に対応する記憶領域を主記憶装置９０２または補助記憶装置９０３に確保することができる。また、制御部は、各種プログラムに従ってプロセッサ９０１に、記憶部に記憶されたデータの追加、更新、削除処理を実行させることができる。

データベースは、リレーショナルデータベースを指し、行と列によって構造的に規定された表形式のテーブル、マスタと呼ばれるデータ集合を、互いに関連づけて管理するためのものである。データベースでは、表をテーブル、マスタ、表の列をカラム、表の行をレコードと呼ぶ。リレーショナルデータベースでは、テーブル、マスタ同士の関係を設定し、関連づけることができる。
通常、各テーブル、各マスタにはレコードを一意に特定するための主キーとなるカラムが設定されるが、カラムへの主キーの設定は必須ではない。制御部は、各種プログラムに従ってプロセッサ９０１に、記憶部に記憶された特定のテーブル、マスタにレコードを追加、削除、更新を実行させることができる。

なお、本開示におけるデータベース、マスタは、情報が構造的に規定された任意のデータ構造体（リスト、辞書、連想配列、オブジェクトなど）を含み得る。データ構造体には、データと、任意のプログラミング言語により記述された関数、クラス、メソッドなどを組み合わせることにより、データ構造体と見なし得るデータも含むものとする。

通信部は、通信ＩＦ９９１により実現される。通信部は、ネットワークを介して他のコンピュータ９０と通信を行う機能を実現する。通信部は、他のコンピュータ９０から送信された情報を受信し、制御部へ入力することができる。制御部は、各種プログラムに従ってプロセッサ９０１に、受信した情報に対する情報処理を実行させることができる。また、通信部は、制御部から出力された情報を他のコンピュータ９０へ送信することができる。

＜付記＞
以上の各実施形態で説明した事項を以下に付記する。

（付記１）
プロセッサと、記憶部とを備え、第１ユーザと第２ユーザとの間の対話に関する情報をコンピュータに処理させるプログラムであって、プログラムは、プロセッサに、対話に関する音声データを受け付ける受付ステップ（Ｓ１０２）と、受付ステップにおいて受け付けた音声データから、発話区間ごとに複数の区間音声データを抽出する音声抽出ステップ（Ｓ１０３）と、音声抽出ステップにおいて抽出された複数の区間音声データのそれぞれに対応し、区間音声データにおける話者の感情状態に関する複数の感情特徴量を算定する感情算定ステップ（Ｓ１０４）と、感情算定ステップにおいて算定された複数の感情特徴量に基づき、対話に対するラベル情報を特定するラベル特定ステップ（Ｓ１０５）と、ラベル特定ステップにおいて特定されたラベル情報を、対話と関連づけて記憶する記憶ステップ（Ｓ１０６）と、を実行させるプログラム。
これにより、対話における話者間の対話情報を話者の感情状態に基づき管理することができる。

（付記２）
感情算定ステップ（Ｓ１０４）は、音声抽出ステップにおいて抽出された複数の区間音声データのそれぞれに対応する、多次元の感情に関する強度を示す感情ベクトルを算定するステップと、算定された感情ベクトルに基づき、音声抽出ステップにおいて抽出された複数の区間音声データのそれぞれに対応する、１次元の感情に関する強度を示す感情スカラーを算定するステップと、を含み、ラベル特定ステップ（Ｓ１０５）は、感情算定ステップにおいて算定された複数の感情スカラーに基づき、対話に対するラベル情報を特定するステップである、付記１記載のプログラム。
これにより、例えば、感情ベクトルの要素である、怒り、嫌悪、恐怖、幸福、悲しみ、驚き等が統合された１次元の感情スカラーに基づきラベル情報が特定され、話者間の対話情報を管理することができる。

（付記３）
感情算定ステップ（Ｓ１０４）は、音声抽出ステップにおいて抽出された複数の区間音声データのそれぞれに対応する、多次元の感情に関する強度を示す感情ベクトルを算定するステップであり、ラベル特定ステップ（Ｓ１０５）は、感情算定ステップにおいて算定された複数の感情ベクトルに基づき、対話に対するラベル情報を特定するステップである、付記１記載のプログラム。
これにより、例えば、感情ベクトルの要素である、怒り、嫌悪、恐怖、幸福、悲しみ、驚き等の多次元の感情ベクトルに基づきラベル情報が特定され、話者間の対話情報を管理することができる。

（付記４）
ラベル特定ステップ（Ｓ１０５）は、感情算定ステップにおいて算定された複数の感情特徴量のうち、所定の閾値以上または以下の感情特徴量の個数に基づき、対話に対するラベル情報を特定するステップである、付記１記載のプログラム。
これにより、話者の感情状態を推定することができ、対話における話者間の対話情報を話者の感情状態に基づき管理することができる。

（付記５）
ラベル特定ステップ（Ｓ１０５）は、感情算定ステップにおいて算定された複数の感情特徴量のうち、所定の閾値以上または以下の感情特徴量が占める割合に基づき、対話に対するラベル情報を特定するステップである、付記１記載のプログラム。
これにより、話者の感情状態を推定することができ、対話における話者間の対話情報を話者の感情状態に基づき管理することができる。

（付記６）
ラベル特定ステップ（Ｓ１０５）は、感情算定ステップにおいて算定された複数の感情特徴量の統計値に基づき、対話に対するラベル情報を特定するステップである、付記１記載のプログラム。
これにより、話者の感情状態を推定することができ、対話における話者間の対話情報を話者の感情状態に基づき管理することができる。

（付記７）
ラベル特定ステップ（Ｓ１０５）は、感情算定ステップにおいて算定された複数の感情特徴量の時系列的な変化に基づき、対話に対するラベル情報を特定するステップである、付記１記載のプログラム。
これにより、話者の感情状態の時系列的な変化に基づき、話者間の対話情報を管理することができる。

（付記８）
ラベル特定ステップ（Ｓ１０５）は、感情算定ステップにおいて算定された複数の感情特徴量の時系列的な変化に対して回帰分析を行うステップと、回帰分析の結果得られた回帰係数に基づき、対話に対するラベル情報を特定するステップと、を含む、付記７記載のプログラム。
これにより、話者の感情状態の時系列的な変化に基づき、話者間の対話情報を管理することができる。

（付記９）
プログラムは、プロセッサに、音声抽出ステップにおいて抽出した時系列的に連続する複数の区間音声データに対応した複数の感情特徴量の集合である第１感情群を特定するステップ（Ｓ１０５）と、音声抽出ステップにおいて抽出した時系列的に連続する複数の区間音声データに対応した複数の感情特徴量の集合である第２感情群を特定するステップ（Ｓ１０５）と、を実行させ、ラベル特定ステップ（Ｓ１０５）は、第１感情群に含まれる複数の感情特徴量に基づき、対話に対する第１ラベル情報を特定するステップと、第２感情群に含まれる複数の感情特徴量に基づき、対話に対する第２ラベル情報を特定するステップと、を含み、記憶ステップ（Ｓ１０６）は、ラベル特定ステップにおいて特定された第１ラベル情報または第２ラベル情報を、対話と関連づけて記憶するステップである、付記１記載のプログラム。
これにより、１の対話に含まれる複数の話者の感情状態に基づき、複数のラベル情報が特定され、話者間の対話情報をより正確に管理することができる。

（付記１０）
プログラムは、プロセッサに、第１ラベル情報および第２ラベル情報を、第１ユーザに提示するラベル提示ステップ（Ｓ１０５）と、第１ユーザから、ラベル提示ステップにおいて提示した第１ラベル情報および第２ラベル情報の少なくともいずれか１つを選択する選択指示を受け付ける選択受付ステップ（Ｓ１０５）と、を実行させ、記憶ステップ（Ｓ１０６）は、選択受付ステップにおいて第１ユーザから受け付けた選択指示に基づき第１ラベル情報および第２ラベル情報の少なくともいずれか１つを、対話と関連づけて記憶するステップである、付記９記載のプログラム。
これにより、１の対話に含まれる複数の話者の感情状態に基づき、複数のラベル情報が特定され、ユーザに対して提示され、ユーザにより選択されたラベル情報に基づき、対話情報をより正確に管理することができる。

（付記１１）
ラベル特定ステップ（Ｓ１０５）は、感情算定ステップにおいて算定された複数の感情特徴量と、複数の感情特徴量に対応する区間音声データを発話した第１ユーザまたは第２ユーザのユーザ属性と、に基づき、対話に対するラベル情報を特定するステップである、付記１記載のプログラム。
これにより、ユーザごとのユーザ属性を考慮した、より適切なラベル情報を特定することができ、対話における話者間の対話情報を話者の感情状態に基づきより適切に管理することができる。

（付記１２）
ラベル特定ステップ（Ｓ１０５）は、感情算定ステップにおいて算定された、第２ユーザの発話にかかる区間音声データに対応する複数の感情特徴量に基づき、第１ユーザの発話にかかる区間音声データに対応する複数の感情特徴量を考慮せずに、対話に対するラベル情報を特定するステップである、付記１記載のプログラム。
これにより、対話における話者間の対話情報を、第２ユーザにかかる話者の感情状態にのみ基づき管理することができる。
例えば、第１ユーザにかかる話者の感情状態を考慮せずに対話情報を管理することができる。

（付記１３）
第１ユーザは、対話の主催者であるホストユーザであり、第２ユーザは、ホストユーザではない、付記１２記載のプログラム。
これにより、対話における話者間の対話情報を、対話の主催者であるホストユーザの感情状態を考慮せずに、対話先の第２ユーザの感情状態に基づき管理することができる。

（付記１４）
第２ユーザは、対話の主催者であるホストユーザであり、第１ユーザは、ホストユーザではない、付記１２記載のプログラム。
これにより、対話における話者間の対話情報を、対話の主催者であるホストユーザの感情状態に基づき、対話先の第２ユーザの感情状態を考慮せずに管理することができる。

（付記１５）
感情算定ステップ（Ｓ１０４）は、音声抽出ステップにおいて抽出した区間音声データを入力データとして、学習モデルに適用することにより、感情特徴量を出力データとして算定する、付記１記載のプログラム。
これにより、対話における話者間の対話情報を話者の感情状態に基づき管理することができる。

（付記１６）
プロセッサと、記憶部とを備える情報処理装置であって、プロセッサは、付記１から１５のいずれか記載のプログラムを実行する、情報処理装置。
これにより、対話における話者間の対話情報を話者の感情状態に基づき管理することができる。

（付記１７）
プロセッサと、記憶部とを備える情報処理装置を含む情報処理システムであって、プロセッサは、付記１から１５のいずれか記載のプログラムを実行する、情報処理システム。
これにより、対話における話者間の対話情報を話者の感情状態に基づき管理することができる。

（付記１８）
プロセッサと、記憶部とを備えるコンピュータにより実行される情報処理方法であって、コンピュータに、付記１から１５のいずれか記載のプログラムを実行させる、情報処理方法。
これにより、対話における話者間の対話情報を話者の感情状態に基づき管理することができる。

（付記１９）
プロセッサと、表示装置とを備える情報処理端末であって、プロセッサは、付記１６記載の情報処理装置において実行されるラベル特定ステップにより特定されたラベル情報を表示装置に表示可能である、情報処理端末。
これにより、ユーザは、対話における話者間の対話情報を話者の感情状態に基づくラベル情報を確認することができる。

１システム、１０サーバ、１０１記憶部、１０４制御部、１０６入力装置、１０８出力装置、２０第１ユーザ端末、２０１記憶部、２０４制御部、２０６入力装置、２０８出力装置、３０第２ユーザ端末、３０１記憶部、３０４制御部、３０６入力装置、３０８出力装置、５０ＣＲＭシステム、５０１記憶部、５０４制御部、５０６入力装置、５０８出力装置、６０音声サーバ（ＰＢＸ）、６０１記憶部、６０４制御部、６０６入力装置、６０８出力装置

Claims

プロセッサと、記憶部とを備え、第１ユーザと第２ユーザとの間の対話に関する情報をコンピュータに処理させるプログラムであって、
前記プログラムは、前記プロセッサに、
前記対話に関する音声データを受け付ける受付ステップと、
前記受付ステップにおいて受け付けた前記音声データから、発話区間ごとに複数の区間音声データを抽出する音声抽出ステップと、
前記音声抽出ステップにおいて抽出された前記複数の区間音声データのそれぞれに対応し、前記区間音声データにおける話者の感情状態に関する複数の感情特徴量を算定する感情算定ステップと、
前記感情算定ステップにおいて算定された前記複数の感情特徴量に基づき、前記対話に対するラベル情報を特定するラベル特定ステップと、
前記ラベル特定ステップにおいて特定された前記ラベル情報を、前記対話と関連づけて記憶する記憶ステップと、
を実行させるプログラム。
前記感情算定ステップは、
前記音声抽出ステップにおいて抽出された前記複数の区間音声データのそれぞれに対応する、多次元の感情に関する強度を示す感情ベクトルを算定するステップと、
算定された前記感情ベクトルに基づき、前記音声抽出ステップにおいて抽出された前記複数の区間音声データのそれぞれに対応する、１次元の感情に関する強度を示す感情スカラーを算定するステップと、
を含み、
前記ラベル特定ステップは、前記感情算定ステップにおいて算定された複数の前記感情スカラーに基づき、前記対話に対するラベル情報を特定するステップである、
請求項１記載のプログラム。
前記感情算定ステップは、前記音声抽出ステップにおいて抽出された前記複数の区間音声データのそれぞれに対応する、多次元の感情に関する強度を示す感情ベクトルを算定するステップであり、
前記ラベル特定ステップは、前記感情算定ステップにおいて算定された複数の前記感情ベクトルに基づき、前記対話に対するラベル情報を特定するステップである、
請求項１記載のプログラム。
前記ラベル特定ステップは、前記感情算定ステップにおいて算定された前記複数の感情特徴量のうち、所定の閾値以上または以下の感情特徴量の個数に基づき、前記対話に対するラベル情報を特定するステップである、
請求項１記載のプログラム。
前記ラベル特定ステップは、前記感情算定ステップにおいて算定された前記複数の感情特徴量のうち、所定の閾値以上または以下の感情特徴量が占める割合に基づき、前記対話に対するラベル情報を特定するステップである、
請求項１記載のプログラム。
前記ラベル特定ステップは、前記感情算定ステップにおいて算定された前記複数の感情特徴量の統計値に基づき、前記対話に対するラベル情報を特定するステップである、
請求項１記載のプログラム。
前記ラベル特定ステップは、前記感情算定ステップにおいて算定された前記複数の感情特徴量の時系列的な変化に基づき、前記対話に対するラベル情報を特定するステップである、
請求項１記載のプログラム。
前記ラベル特定ステップは、
前記感情算定ステップにおいて算定された前記複数の感情特徴量の時系列的な変化に対して回帰分析を行うステップと、
前記回帰分析の結果得られた回帰係数に基づき、前記対話に対するラベル情報を特定するステップと、
を含む、
請求項７記載のプログラム。
前記プログラムは、前記プロセッサに、
前記音声抽出ステップにおいて抽出した時系列的に連続する複数の区間音声データに対応した複数の感情特徴量の集合である第１感情群を特定するステップと、
前記音声抽出ステップにおいて抽出した時系列的に連続する複数の区間音声データに対応した複数の感情特徴量の集合である第２感情群を特定するステップと、
を実行させ、
前記ラベル特定ステップは、
前記第１感情群に含まれる前記複数の感情特徴量に基づき、前記対話に対する第１ラベル情報を特定するステップと、
前記第２感情群に含まれる前記複数の感情特徴量に基づき、前記対話に対する第２ラベル情報を特定するステップと、
を含み、
前記記憶ステップは、前記ラベル特定ステップにおいて特定された前記第１ラベル情報または前記第２ラベル情報を、前記対話と関連づけて記憶するステップである、
請求項１記載のプログラム。
前記プログラムは、前記プロセッサに、
前記第１ラベル情報および前記第２ラベル情報を、前記第１ユーザに提示するラベル提示ステップと、
前記第１ユーザから、前記ラベル提示ステップにおいて提示した前記第１ラベル情報および前記第２ラベル情報の少なくともいずれか１つを選択する選択指示を受け付ける選択受付ステップと、
を実行させ、
前記記憶ステップは、前記選択受付ステップにおいて前記第１ユーザから受け付けた前記選択指示に基づき前記第１ラベル情報および前記第２ラベル情報の少なくともいずれか１つを、前記対話と関連づけて記憶するステップである、
請求項９記載のプログラム。
前記ラベル特定ステップは、
前記感情算定ステップにおいて算定された前記複数の感情特徴量と、
前記複数の感情特徴量に対応する区間音声データを発話した前記第１ユーザまたは前記第２ユーザのユーザ属性と、
に基づき、前記対話に対するラベル情報を特定するステップである、
請求項１記載のプログラム。
前記ラベル特定ステップは、前記感情算定ステップにおいて算定された、前記第２ユーザの発話にかかる区間音声データに対応する前記複数の感情特徴量に基づき、前記第１ユーザの発話にかかる区間音声データに対応する前記複数の感情特徴量を考慮せずに、前記対話に対するラベル情報を特定するステップである、
請求項１記載のプログラム。
前記第１ユーザは、前記対話の主催者であるホストユーザであり、
前記第２ユーザは、前記ホストユーザではない、
請求項１２記載のプログラム。
前記第２ユーザは、前記対話の主催者であるホストユーザであり、
前記第１ユーザは、前記ホストユーザではない、
請求項１２記載のプログラム。
前記感情算定ステップは、前記音声抽出ステップにおいて抽出した前記区間音声データを入力データとして、学習モデルに適用することにより、前記感情特徴量を出力データとして算定する、
請求項１記載のプログラム。
プロセッサと、記憶部とを備える情報処理装置であって、
前記プロセッサは、請求項１から１５のいずれか記載のプログラムを実行する、
情報処理装置。
プロセッサと、記憶部とを備える情報処理装置を含む情報処理システムであって、
前記プロセッサは、請求項１から１５のいずれか記載のプログラムを実行する、
情報処理システム。
プロセッサと、記憶部とを備えるコンピュータにより実行される情報処理方法であって、
前記コンピュータに、請求項１から１５のいずれか記載のプログラムを実行させる、
情報処理方法。
プロセッサと、表示装置とを備える情報処理端末であって、
前記プロセッサは、請求項１６記載の前記情報処理装置において実行される前記ラベル特定ステップにより特定された前記ラベル情報を前記表示装置に表示可能である、
情報処理端末。