JP2023168692A - プログラム、情報処理装置、情報処理システム、情報処理方法、情報処理端末 - Google Patents
プログラム、情報処理装置、情報処理システム、情報処理方法、情報処理端末 Download PDFInfo
- Publication number
- JP2023168692A JP2023168692A JP2022079947A JP2022079947A JP2023168692A JP 2023168692 A JP2023168692 A JP 2023168692A JP 2022079947 A JP2022079947 A JP 2022079947A JP 2022079947 A JP2022079947 A JP 2022079947A JP 2023168692 A JP2023168692 A JP 2023168692A
- Authority
- JP
- Japan
- Prior art keywords
- section
- user
- topic
- audio data
- dialogue
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 44
- 238000003672 processing method Methods 0.000 title claims abstract description 7
- 238000000034 method Methods 0.000 claims description 94
- 230000008569 process Effects 0.000 claims description 83
- 238000004364 calculation method Methods 0.000 claims description 48
- 230000003993 interaction Effects 0.000 claims description 41
- 238000000605 extraction Methods 0.000 claims description 19
- 230000004044 response Effects 0.000 claims description 19
- 239000000284 extract Substances 0.000 claims description 5
- 230000008859 change Effects 0.000 claims description 4
- 238000012545 processing Methods 0.000 abstract description 136
- 238000004891 communication Methods 0.000 abstract description 16
- 230000008451 emotion Effects 0.000 description 185
- 238000004458 analytical method Methods 0.000 description 126
- 230000002996 emotional effect Effects 0.000 description 70
- 238000013210 evaluation model Methods 0.000 description 66
- 239000013598 vector Substances 0.000 description 37
- 238000010586 diagram Methods 0.000 description 33
- 230000008520 organization Effects 0.000 description 29
- 238000013528 artificial neural network Methods 0.000 description 18
- 238000013135 deep learning Methods 0.000 description 15
- 238000000611 regression analysis Methods 0.000 description 8
- 241001122315 Polites Species 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000014509 gene expression Effects 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 239000000945 filler Substances 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 238000012795 verification Methods 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 230000001568 sexual effect Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 208000019901 Anxiety disease Diseases 0.000 description 1
- 230000036506 anxiety Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
特許文献1には、客観的な指標を考慮しつつ、より効率的な営業活動の実現を補助する手法が開示されている。
そこで、本開示は、上記課題を解決すべくなされたものであって、その目的は、対話において話者間でどのような話題に関してコミュニケーションを行ったのか確認する技術を提供することである。
本開示におけるシステム1は、オペレータである第1ユーザと顧客である第2ユーザとの間でオンラインで行われる対話サービス(オンライン対話サービス)を提供する情報処理システムである。なお、本開示におけるシステム1は、第1ユーザ、第2ユーザに加えて、他の1または複数のユーザを含む三者以上のユーザ間でオンラインで行われる対話サービスも提供可能としても良い。
システム1は、ネットワークNを介して接続された、サーバ10、第1ユーザ端末20、第2ユーザ端末30、CRMシステム50、音声サーバ(PBX)60の情報処理装置を備える。
図1は、システム1の機能構成を示すブロック図である。
図2は、サーバ10の機能構成を示すブロック図である。
図3は、第1ユーザ端末20の機能構成を示すブロック図である。
図4は、第2ユーザ端末30の機能構成を示すブロック図である。
図5は、CRMシステム50の機能構成を示すブロック図である。
サーバ10は、第1ユーザと第2ユーザとの間で行われる対話に関連するデータ(対話データ)を記憶、管理するサービスを提供する情報処理装置である。
サーバ10は、記憶部101、制御部104を備える。
サーバ10の記憶部101は、アプリケーションプログラム1011、感情評価モデル1031、印象評価モデル1032、第1印象評価モデル1033、第2印象評価モデル1034、要約モデル1035、ユーザテーブル1012、組織テーブル1013、対話テーブル1014、ラベルテーブル1015、音声区間テーブル1016、トピック関連度テーブル1017、感情条件マスタ1021、話者タイプマスタ1022、トピックマスタ1023を備える。
アプリケーションプログラム1011は、ウェブブラウザアプリケーションなどのアプリケーションを含む。
ユーザテーブル1012は、ユーザIDを主キーとして、ユーザID、CRMID、組織ID、ユーザ名、ユーザ属性のカラムを有するテーブルである。
図6は、ユーザテーブル1012のデータ構造を示す図である。
CRMIDは、CRMシステム50において、ユーザを識別するためのユーザ識別情報を記憶する項目である。ユーザはCRMIDによりCRMシステム50にログインすることにより、CRMサービスの提供を受けることができる。サーバ10におけるユーザIDは、CRMシステム50におけるCRMIDと関連づけられている。
組織IDは、組織を識別するための組織識別情報を記憶する項目である。
ユーザ名は、ユーザの氏名を記憶する項目である。ユーザ名は、氏名ではなく、ニックネームなど任意の文字列を設定しても良い。
ユーザ属性は、ユーザの年齢、性別、出身地、方言、職種(営業、カスタマーサポートなど)などのユーザの属性に関する情報を記憶する項目である。ユーザ属性は、ユーザ個人の属性に関する情報に加え、ユーザが所属する組織、企業、グループ等に関する業種、事業規模、売上げ規模等の企業属性に関する情報を含んでも良い。
組織テーブル1013は、組織IDを主キーとして、組織ID、組織名、組織属性のカラムを有するテーブルである。
図7は、組織テーブル1013のデータ構造を示す図である。
組織名は、組織の名称を記憶する項目である。組織名は任意の文字列を設定できる。
組織属性は、組織種別(会社、企業グループ、その他団体など)、業種(不動産、金融など)などの組織の属性に関する情報を記憶する項目である。
対話テーブル1014は、対話IDを主キーとして、対話ID、ユーザID、顧客ID、対話カテゴリ、受発信種別、音声データ、動画データのカラムを有するテーブルである。
図8は、対話テーブル1014のデータ構造を示す図である。
ユーザIDは、ユーザと顧客との間で行われる対話において、ユーザを識別するためのユーザ識別情報を記憶する項目である。対話情報ごとに、複数のユーザIDが関連づけられていても良い。
顧客IDは、ユーザと顧客との間で行われる対話において、顧客を識別するためのユーザ識別情報を記憶する項目である。対話情報ごとに、複数の顧客のユーザIDが関連づけられていても良い。
対話カテゴリは、ユーザと顧客との間で行われた対話の種類(カテゴリ)を記憶する項目である。対話データは、対話カテゴリにより分類される。対話カテゴリには、ユーザと顧客との間で行われる対話の目的などに応じて、テレフォンオペレーター、テレマーケティング、カスタマーサポート、テクニカルサポートなどの値が記憶される。
受発信種別は、ユーザと顧客との間で行われた対話が、ユーザが発信した(アウトバウンド)ものか、ユーザが受信した(インバウンド)もののいずれかを区別するための情報を記憶する項目である。また、3者以上のユーザによる対話の際には、ルームという受発信種別が記憶される。
音声データは、マイクにより集音された音声データを記憶する項目である。他の場所に配置された音声データファイルに対する参照情報(パス)を記憶するものとしても良い。音声データのフォーマットは、AAC,ATRAC、mp3、mp4など任意のデータフォーマットで良い。
音声データは、ユーザの音声と顧客の音声とが、それぞれ独立して識別可能な識別子が設定された形式のデータであっても良い。この場合、サーバ10の制御部104は、ユーザの音声、顧客の音声に対してそれぞれ独立した解析処理を実行できる。また、ユーザ、顧客の音声データに基づき、ユーザ、顧客のユーザIDを特定できる。
本開示において、音声データに替えて、音声情報を含む動画データを用いても構わない。また、本開示における音声データは、動画データに含まれる音声データも含む。
動画データは、カメラ等による撮影された動画データを記憶する項目である。他の場所に配置された動画データファイルに対する参照情報(パス)を記憶するものとしても良い。動画データのフォーマットは、MP4、MOV、WMV、AVI、AVCHDなど任意のデータフォーマットで良い。
動画データは、ユーザの動画と顧客の動画とが、それぞれ独立して識別可能な識別子が設定された形式のデータであっても良い。この場合、サーバ10の制御部104は、ユーザの動画、顧客の動画に対してそれぞれ独立した解析処理を実行できる。また、ユーザ、顧客の動画データに基づき、ユーザ、顧客のユーザIDを特定できる。
ラベルテーブル1015は、対話ID、ラベルデータのカラムを有するテーブルである。
図9は、ラベルテーブル1015のデータ構造を示す図である。
ラベルデータは、対話を管理するためのラベル情報を記憶する項目である。ラベル情報は、分類名、ラベル、分類ラベル、タグなど、対話情報を管理するための付加的な情報である。
ラベルデータはラベル情報の名称を示す文字列でも良いし、他のテーブルに記憶されたラベル情報の名称を参照するためのラベルID等でも良い。
ラベルデータは、特定の対話における話者の感情状態に応じた分類情報を含む。分類データは、特定の対話において話者の応対の善し悪しを分類するための分類情報を含む。
音声区間テーブル1016は、区間IDを主キーとして、区間ID、対話ID、話者ID、開始日時、終了日時、区間音声データ、区間動画データ、区間読上テキスト、感情データ、印象データ、トピックIDのカラムを有するテーブルである。
図10は、音声区間テーブル1016のデータ構造を示す図である。
対話IDは、音声区間情報が関連づけられる対話を識別するための対話識別情報を記憶する項目である。
話者IDは、音声区間情報が関連づけられる話者を識別するための話者識別情報を記憶する項目である。具体的に、話者IDは、対話に参加した、複数のユーザのユーザIDを記憶する項目である。
開始日時は、音声区間、動画区間の開始日時を記憶する項目である。
終了日時は、音声区間、動画区間の終了日時を記憶する項目である。
区間音声データは、音声区間に含まれる音声データを記憶する項目である。他の場所に配置された音声データファイルに対する参照情報(パス)を記憶するものとしても良い。また、開始日時、終了日時に基づき対話テーブル1014の音声データの開始日時から終了日時までの期間の音声データに対する参照を記憶しても良い。また、区間音声データは、区間動画データに含まれる音声データを含むものとしても構わない。
音声データのフォーマットは、AAC,ATRAC、mp3、mp4など任意のデータフォーマットで良い。
区間動画データは、音声区間に含まれる動画データを記憶する項目である。他の場所に配置された動画データファイルに対する参照情報(パス)を記憶するものとしても良い。また、開始日時、終了日時に基づき対話テーブル1014の動画データの開始日時から終了日時までの期間の動画データに対する参照を記憶しても良い。
動画データのフォーマットは、MP4、MOV、WMV、AVI、AVCHDなど任意のデータフォーマットで良い。
区間読上テキストは、音声区間に含まれる区間音声データにおいて話者により発話された内容のテキスト情報を記憶する項目である.具体的に、区間読上テキストは、区間音声データ、区間動画データに基づき、人手、任意の機械学習、深層学習等の学習モデルを用いることにより生成しても良い。
感情データは、音声区間において、話者の感情状態を記憶する項目である。感情データは、興味・興奮、喜び、驚き、不安、怒り、嫌悪、軽蔑、恐怖、恥、罪悪感等の、話者の複数の感情状態に関する多次元尺度(感情ベクトル)である。感情データは、対話区間において、話者がどのような感情状態にあるのか、複数の感情状態(次元)ごとの強度、数値として定量的に表現したものである。感情データは、感情ベクトルに基づき、1次元の感情に関する強度を示す感情スカラーを算出し、記憶する構成としても良い。
印象データは、音声区間において、話者の印象を記憶する項目である。印象データは、好き、嫌い、うるさい、聞きづらい、丁寧、わかりにくい、おどおどした、神経質、威圧的、暴力的および性的の、話者が与える複数の異なる印象に関する多次元尺度(ベクトル)である。対話区間において、話者がどのような印象を与えるのか、複数の印象(次元)ごとの強度、数値として定量的に表現したものである。
トピックIDは、音声区間において、音声区間に関連づけられたトピック識別情報を記憶する項目である。
トピック関連度テーブル1017は、区間ID、トピックID、関連度のカラムを有するテーブルである。
図11は、トピック関連度テーブル1017のデータ構造を示す図である。
トピックIDは、トピックを識別するためのトピック識別情報を記憶する項目である。
関連度は、対話情報に含まれる音声区間において、トピックIDにより特定されるトピック識別情報ごとの関連度に関する情報を記憶する項目である。1の音声区間について、トピックIDにより特定されるトピックとの関連度を示す数値が記憶する項目である。関連度が大きいほど対話情報とトピックとの関連性が強くなる。
感情条件マスタ1021は、感情条件、ラベルデータのカラムを有するテーブルである。
図12は、感情条件マスタ1021のデータ構造を示す図である。
ラベルデータは、感情条件に関連づけられるラベル情報を記憶する項目である。
話者タイプマスタ1022は、印象条件、話者タイプのカラムを有するテーブルである。
図13は、話者タイプマスタ1022のデータ構造を示す図である。
話者タイプは、印象条件に関連づけられる話者タイプを記憶する項目である。話者タイプは、強引、控え目、重厚、友好的、積極的、感情的などの話者が対話相手に与える印象を分類したものである。
トピックマスタ1023は、トピックIDを主キーとして、トピックID、キーワードのカラムを有するテーブルである。
図14は、トピックマスタ1023のデータ構造を示す図である。
キーワードは、トピックが関連づけられる複数のキーワードを記憶する項目である。具体的に、1のトピックに対して複数のキーワードが関連づけられる。
サーバ10の制御部104は、ユーザ登録制御部1041、感情解析部1042、印象解析部1043、トピック処理部1044、学習部1051を備える。制御部104は、記憶部101に記憶されたアプリケーションプログラム1011を実行することにより、各機能ユニットが実現される。
ユーザテーブル1012に記憶される情報は、ユーザが任意の情報処理端末からサービス提供者が運営するウェブページなどを開き、所定の入力フォームに情報を入力しサーバ10へ送信する。ユーザ登録制御部1041は、受信した情報をユーザテーブル1012の新しいレコードに記憶し、ユーザ登録が完了する。これにより、ユーザテーブル1012に記憶されたユーザはサービスを利用できるようになる。
ユーザ登録制御部1041によるユーザ情報のユーザテーブル1012への登録に先立ち、サービス提供者は所定の審査を行いユーザによるサービス利用可否を制限しても良い。
ユーザIDは、ユーザを識別できる任意の文字列または数字で良く、ユーザが希望する任意の文字列または数字、もしくはユーザ登録制御部1041が自動的に任意の文字列または数字を設定しても良い。
第1ユーザ端末20は、サービスを利用する第1ユーザが操作する情報処理装置である。第1ユーザ端末20は、例えば、据え置き型のPC(Personal Computer)、ラップトップPCであってもよいし、スマートフォン、タブレット等の携帯端末でもよい。また、HMD(Head Mount Display)、腕時計型端末等のウェアラブル端末であってもよい。
第1ユーザ端末20は、記憶部201、制御部204、入力装置206、出力装置208を備える。
第1ユーザ端末20の記憶部201は、第1ユーザID2011、アプリケーションプログラム2012を備える。
アプリケーションプログラム2012は、ウェブブラウザアプリケーションなどのアプリケーションを含む。
アプリケーションプログラム2012は、第1ユーザ端末20に記憶されているウェブブラウザアプリケーション上で実行されるJavaScript(登録商標)などのインタープリター型プログラミング言語を含む。
第1ユーザ端末20の制御部204は、入力制御部2041、出力制御部2042を備える。制御部204は、記憶部201に記憶されたアプリケーションプログラム2012を実行することにより、各機能ユニットが実現される。
第1ユーザ端末20の入力装置206は、カメラ2061、マイク2062、位置情報センサ2063、モーションセンサ2064、キーボード2065を備える。
第1ユーザ端末20の出力装置208は、ディスプレイ2081、スピーカ2082を備える。
第2ユーザ端末30は、サービスを利用する第2ユーザが操作する情報処理装置である。第2ユーザ端末30は、例えば、スマートフォン、タブレット等の携帯端末でもよいし、据え置き型のPC(Personal Computer)、ラップトップPCであってもよい。また、HMD(Head Mount Display)、腕時計型端末等のウェアラブル端末であってもよい。
第2ユーザ端末30は、記憶部301、制御部304、入力装置306、出力装置308を備える。
第2ユーザ端末30の記憶部301は、アプリケーションプログラム3012、電話番号3013を備える。
アプリケーションプログラム3012は、ウェブブラウザアプリケーションなどのアプリケーションを含む。
アプリケーションプログラム3012は、第2ユーザ端末30に記憶されているウェブブラウザアプリケーション上で実行されるJavaScript(登録商標)などのインタープリター型プログラミング言語を含む。
第2ユーザ端末30の制御部304は、入力制御部3041、出力制御部3042を備える。制御部304は、記憶部301に記憶されたアプリケーションプログラム3012を実行することにより、各機能ユニットが実現される。
第2ユーザ端末30の入力装置306は、カメラ3061、マイク3062、位置情報センサ3063、モーションセンサ3064、タッチデバイス3065を備える。
第2ユーザ端末30の出力装置308は、ディスプレイ3081、スピーカ3082を備える。
CRMシステム50は、CRM(Customer Relationship Management、第2ユーザ関係管理)サービスを提供する事業者(CRM事業者)が管理、運営する情報処理装置である。CRMサービスとしては、SalesForce、HubSpot、Zoho CRM、kintoneなどがある。
CRMシステム50は、記憶部501、制御部504を備える。
CRMシステム50の記憶部501は、アプリケーションプログラム5011、顧客テーブル5012を備える。
アプリケーションプログラム5011は、ウェブブラウザアプリケーションなどのアプリケーションを含む。
顧客テーブル5012は、顧客IDを主キーとして、顧客ID、ユーザID、氏名、電話番号、話者タイプのカラムを有するテーブルである。
図15は、顧客テーブル5012のデータ構造を示す図である。
ユーザIDは、顧客を管理するユーザのユーザ識別情報を記憶する項目である。
氏名は、顧客の氏名を記憶する項目である。
電話番号は、顧客の電話番号を記憶する項目である。
ユーザは、CRMシステムが提供するウェブサイトにアクセスし、電話を発信したい顧客を選択し「発信」などの所定の操作を行なうことにより、第1ユーザ端末20から顧客の電話番号に対して電話を発信できる。
話者タイプは、顧客IDにより特定されるユーザの話者タイプを記憶する項目である。
CRMシステム50の制御部504は、ユーザ登録制御部5041を備える。制御部504は、記憶部501に記憶されたアプリケーションプログラム5011を実行することにより、各機能ユニットが実現される。
顧客テーブル5012に記憶される情報は、ユーザが任意の情報処理端末からサービス提供者が運営するウェブページなどを開き、所定の入力フォームに情報を入力しCRMシステム50へ送信する。ユーザ登録制御部5041は、受信した情報を顧客テーブル5012の新しいレコードに記憶し、顧客の登録が完了する。これにより、顧客情報が顧客の管理を行うユーザのユーザIDと関連づけて記憶される。
顧客IDは、ユーザを識別できる任意の文字列または数字で良く、ユーザが希望する任意の文字列または数字、もしくはユーザ登録制御部5041が自動的に任意の文字列または数字を設定しても良い。
音声サーバ(PBX)60は、ネットワークNと電話網Tとを互いに接続することで第1ユーザ端末20と第2ユーザ端末30との間における対話を可能とする交換機として機能する情報処理装置である。
音声サーバ(PBX)60は、記憶部601を備える。
音声サーバ(PBX)60の記憶部601は、アプリケーションプログラム6011を備える。
アプリケーションプログラム6011は、ウェブブラウザアプリケーションなどのアプリケーションを含む。
以下、システム1の各処理について説明する。
図16は、感情解析処理の動作を示すフローチャートである。
図17は、印象解析処理の動作を示すフローチャートである。
図18は、トピック解析処理の動作を示すフローチャートである。
図19は、トピック提示処理の動作を示すフローチャートである。
図20は、トピック提示処理の動作を示す画面例である。
発信処理は、ユーザ(第1ユーザ)から顧客(第2ユーザ)に対し発信(架電)する処理である。
発信処理は、ユーザは第1ユーザ端末20の画面に表示された複数の顧客のうち発信を希望する顧客を選択し、発信操作を行うことにより、顧客に対して発信を行なう一連の処理である。本開示においては、顧客として第2ユーザを選択する場合を一例として説明する。
ユーザから顧客に発信する場合におけるシステム1の発信処理について説明する。
具体的に、第1ユーザ端末20は、CRMID2013および顧客を一覧表示する旨のリクエストをCRMシステム50へ送信する。CRMシステム50は、リクエストを受信すると、顧客テーブル5012を検索し、顧客ID、氏名、電話番号、顧客属性、顧客組織名、顧客組織属性などのユーザの顧客に関する情報を第1ユーザ端末20に送信する。第1ユーザ端末20は、受信した顧客に関する情報を第1ユーザ端末20のディスプレイ2081に表示する。
これにより、ユーザと顧客は、それぞれ第1ユーザ端末20、第2ユーザ端末30を用いて対話可能状態となり、ユーザと顧客との間で対話できるようになる。具体的には、第1ユーザ端末20のマイク2062により集音されたユーザの音声は、第2ユーザ端末30のスピーカ3082から出力される。同様に、第2ユーザ端末30のマイク3062から集音された顧客の音声は、第1ユーザ端末20のスピーカ2082から出力される。
着信処理は、ユーザが顧客から着信(受電)する処理である。
着信処理は、ユーザが第1ユーザ端末20においてアプリケーションを立ち上げている場合に、顧客がユーザに対して発信した場合に、ユーザが着信する一連の処理である。
ユーザが顧客から着信(受電)する場合におけるシステム1の着信処理について説明する。
これに伴い、第1ユーザ端末20は、スピーカ2082などを制御し音声サーバ(PBX)60により着信が行われている旨を示す鳴動を行う。第1ユーザ端末20のディスプレイ2081は、音声サーバ(PBX)60により顧客から着信があること旨を示す情報を表示する。例えば、第1ユーザ端末20のディスプレイ2081は、「着信中」という文字を表示してもよい。
第1ユーザ端末20は、応答操作を受付けると、音声サーバ(PBX)60に対し、CRMシステム50、サーバ10を介して応答リクエストを送信する。音声サーバ(PBX)60は、送信されてきた応答リクエストを受信し、音声通信を確立する。これにより、第1ユーザ端末20は、第2ユーザ端末30と対話可能状態となる。
第1ユーザ端末20のディスプレイ2081は、対話が行われていることを示す情報を表示する。例えば、第1ユーザ端末20のディスプレイ2081は、「対話中」という文字を表示してもよい。
第1ユーザが第2ユーザとの間で対話可能状態となる方法は、発信処理、着信処理に限られず、第1ユーザと第2ユーザとの間で対話を実現するための任意の方法を用いても構わない。例えば、サーバ10上に、第1ユーザと第2ユーザとの間で対話を行うためのルームとよばれる仮想的な対話空間を作成し、第1ユーザおよび第2ユーザが当該ルームへ第1ユーザ端末20、第2ユーザ端末30に記憶されたウェブブラウザまたはアプリケーションプログラムを介してアクセスすることにより対話可能状態となる方法でも構わない。この場合、音声サーバ(PBX)50は不要となる。
具体的には、対話の主催者となる第1ユーザが第1ユーザ端末20の入力装置206を操作し、サーバ10へ対話開催に関するリクエストを送信する。サーバ10の制御部104は、リクエストを受信するとユニークなルームIDなどのルーム識別情報を発行し、第1ユーザ端末20へレスポンスを送信する。第1ユーザは、受信したルーム識別情報を、対話相手である第2ユーザへメール、チャットなど任意の通信手段により送信する。第1ユーザは、第1ユーザ端末20の入力装置206を操作し、ウェブブラウザなどでサーバ10のルームに関するサービスを提供するURLへアクセスし、ルーム識別情報を入力することによりルームに入室できる。同様に、第2ユーザは第2ユーザ端末30の入力装置306を操作し、ウェブブラウザなどでサーバ10のルームに関するサービスを提供するURLへアクセスし、ルーム識別情報を入力することによりルームに入室できる。これにより、第1ユーザと第2ユーザとはルーム識別情報により関連付けられたルームとよばれる仮想的な対話空間内で、それぞれ第1ユーザ端末20、第2ユーザ端末30を介して対話を行うことができる。
ルーム識別情報を入力することにより、第1ユーザ、第2ユーザに加えて、他の1または複数のユーザが1つのルームに入室できる。これにより、三者以上の複数のユーザは、ルーム識別情報により関連付けられたルームとよばれる仮想的な対話空間内で、それぞれのユーザ端末を介して対話を行うことができる。
本開示におけるシステム1は、動画データを含むオンライン対話サービス(ビデオ対話サービス)を提供しても良い。例えば、第1ユーザ端末20の制御部204、第2ユーザ端末30の制御部304は、それぞれ、第1ユーザ端末20のカメラ2061、第2ユーザ端末30のカメラ3061により撮影された動画データをサーバ10へ送信する。
サーバ10は、受信した動画データに基づき、第1ユーザ端末20のカメラ2061により撮影された動画データを第2ユーザ端末30へ、第2ユーザ端末30のカメラ3061により撮影された動画データを第1ユーザ端末20へ送信する。第1ユーザ端末20の制御部204は、受信した第2ユーザ端末30のカメラ3061により撮影された動画データをディスプレイ2081に表示する。第2ユーザ端末30の制御部304は、受信した第1ユーザ端末20のカメラ2061により撮影された動画データをディスプレイ3081に表示する。
サーバ10は、オンライン対話に参加している一部またはすべての複数のユーザの動画データを第1ユーザ端末20、第2ユーザ端末30へ送信しても良い。この場合、第1ユーザ端末20の制御部204は、受信したオンライン対話に参加している一部またはすべての複数のユーザの動画データを一画面に並べて第1ユーザ端末20のディスプレイ2081に表示する。これにより、オンライン対話に参加している複数のユーザの対話状況を確認できる。第2ユーザ端末30においても同様の処理を実行しても良い。
対話記憶処理は、ユーザと顧客との間で行われる対話に関するデータを記憶する処理である。
対話記憶処理は、ユーザと顧客との間で対話が開始された場合に、対話に関するデータを対話テーブル1014に記憶する一連の処理である。
ユーザと顧客との間で対話が開始されると、音声サーバ(PBX)60は、ユーザと顧客との間で行われる対話に関する音声データを録音し、サーバ10へ送信する。サーバ10の制御部104は、音声データを受信すると、対話テーブル1014に新たなレコードを作成し、ユーザと顧客との間で行われる対話に関するデータを記憶する。具体的に、サーバ10の制御部104は、ユーザID、顧客ID、対話カテゴリ、受発信種別、音声データの内容を対話テーブル1014の新たなレコードに記憶する。
サーバ10の制御部104は、発信処理または着信処理において電話番号に基づきCRMシステム50へ問い合わせを行なう。CRMシステム50は、顧客テーブル5012を電話番号により検索することにより、顧客IDを取得し、サーバ10へ送信する。サーバ10の制御部104は、取得した顧客IDを対話テーブル1014の新たなレコードの顧客IDの項目に記憶する。
サーバ10の制御部104は、予めユーザまたは顧客ごとに設定された対話カテゴリの値を、対話テーブル1014の新たなレコードの対話カテゴリの項目に記憶する。なお、対話カテゴリは、対話ごとにユーザが値を選択、入力することにより記憶しても良い。
サーバ10の制御部104は、行われている対話がユーザにより発信したものか、顧客から発信されたものかを識別し、対話テーブル1014の新たなレコードの受発信種別の項目にアウトバウンド(ユーザから発信)、インバウンド(顧客から発信)のいずれかの値を記憶する。
感情解析処理は、複数のユーザにより行われたオンライン対話の音声、動画等の対話情報を解析し、対話に参加しているユーザの感情状態を特定するとともに、感情状態に基づきラベル情報を特定し、対話情報と関連づけて記憶する処理である。
感情解析処理は、ユーザ間のオンライン対話を検知すると、対話に関する対話情報を記憶し、対話情報に含まれる音声データ、動画データをそれぞれ発話区間ごとの区間音声データ、区間動画データ等の区間データへ分割し、区間データごとの感情特徴量を算定し、感情特徴量に基づきラベル情報を特定し、ラベル情報を対話情報と関連づけて記憶する一連の処理である。
以下に、感情解析処理の詳細を説明する。
具体的に、対話記憶処理により、第1ユーザ端末20は、第1ユーザID2011、マイク2062から集音した音声データ、カメラ2061により撮影した動画データをサーバ10へ送信する。サーバ10の制御部104は、受信した第1ユーザID2011、音声データ、動画データを、それぞれ、対話テーブル1014の新たなレコードのユーザID、音声データ、動画データの項目に記憶する。
同様に、第2ユーザ端末30は、第2ユーザID3011、マイク3062から集音した音声データ、カメラ3061により撮影した動画データをサーバ10へ送信する。サーバ10の制御部104は、受信した第2ユーザID3011、音声データ、動画データを、それぞれ、対話テーブル1014の新たなレコードのユーザID、音声データ、動画データの項目に記憶する。
これに伴い、新たな対話IDが採番され、対話テーブル1014の新たなレコードの対話IDの項目に記憶される。
具体的に、サーバ10の感情解析部1042は、ステップS102において対話テーブル1014に記憶された対話ID、音声データ、動画データを取得する(受け付ける)。サーバ10の感情解析部1042は、取得(受付)した音声データ、動画データから、音声が存在する区間(発話区間)を検出し、発話区間のそれぞれに対して音声データ、動画データを、それぞれ、区間音声データ、区間動画データとして抽出する。区間音声データ、区間動画データは、発話区間ごとに話者のユーザID、発話区間の開始日時、発話区間の終了日時と関連づけられる。
サーバ10の感情解析部1042は、抽出された区間音声データ、区間動画データの発話内容に対してテキスト認識を行うことにより、区間音声データ、区間動画データを文字(テキスト)である区間読上テキストに変換し、文字に起こす。なお、テキスト認識の具体的手法は特に限定されない。例えば信号処理技術、AI(人工知能)を利用した機械学習や深層学習等によって変換してもよい。
具体的に、サーバ10の感情解析部1042は、S103において音声区間テーブル1016に記憶された区間音声データ、区間動画データ、区間読上テキストを取得し、入力データとして感情評価モデル1031に適用する、感情評価モデル1031は入力データに応じた感情特徴量を出力データとして出力する。
具体的に、サーバ10の感情解析部1042は、S103において音声区間テーブル1016に記憶された区間音声データ、区間動画データ、区間読上テキストを取得し、入力データとして感情評価モデル1031に適用する、感情評価モデル1031は入力データに応じた複数の感情状態(次元)ごとの強度、数値として定量的に表現される感情ベクトルを出力データとして出力する。
サーバ10の感情解析部1042は、感情ベクトルに対して、主成分分析、深層学習モデル等の学習モデル、感情ベクトルの成分ごとの演算等を適用することにより、1次元の感情に関する強度を示す感情スカラーを算出する。例えば、感情スカラーは音声区間情報における話者の感情状態のポジティブ度、ネガティブ度を定量的に表現した指標であり、+1(ポジティブ)から、-1(ネガティブ)の値の範囲に正規化された数値データとしても良い。
具体的に、サーバ10の感情解析部1042は、対話IDに基づき、音声区間テーブル1016の対話IDを検索し、感情データの項目を取得する。サーバ10の感情解析部1042は、感情データに基づき、感情条件マスタ1021の感情条件に該当するレコード有無を検索し、該当するレコードのラベルデータの項目を取得する。
本開示においては、サーバ10の感情解析部1042は、1の対話情報に対して抽出された複数の音声区間情報のそれぞれに対して算定し、記憶された複数の感情データに対応する複数の感情特徴量を、感情条件として、ラベルデータを特定し、取得する構成としても良い。
具体的に、サーバ10の感情解析部1042は、1の対話情報に対して抽出された複数の音声区間情報のそれぞれに対して算定し、記憶された複数の感情データに含まれる感情スカラーを、感情条件として、ラベルデータを特定しても良い。
具体的に、サーバ10の感情解析部1042は、1の対話情報に対して抽出された複数の音声区間情報のそれぞれに対して算定し、記憶された複数の感情データに含まれる感情ベクトルを、感情条件として、ラベルデータを特定しても良い。例えば、感情条件は、感情ベクトルのそれぞれの要素成分に対する範囲等により特定される構成としても良い。
具体的に、感情条件マスタ1021の感情条件の項目に、所定の閾値と、閾値以上の個数(所定個数)の情報が記憶されているとする。サーバ10の感情解析部1042は、1の対話情報に対して抽出された複数の音声区間情報のそれぞれに対応する感情スカラーの値を、所定の閾値と比較し、所定の閾値以上の音声区間情報(感情スカラー)の個数をカウントする。なお、所定の閾値以下の個数をカウントしても構わない。
サーバ10の感情解析部1042は、カウントされた音声区間情報の個数が、所定個数よりも多い場合には当該感情条件に該当すると判定し、感情条件マスタ1021において感情条件に関連付けられたラベルデータの項目を取得し特定する。
例えば、所定の閾値以上の音声区間情報(感情スカラー)の個数が、所定個数よりも多い場合は、対話における感情状態がポジティブであることを示すラベル情報を特定する。同様に、所定の閾値以下の音声区間情報(感情スカラー)の個数が、所定個数よりも多い場合は、対話における感情状態がネガティブであることを示すラベル情報を特定する。
具体的に、感情条件マスタ1021の感情条件の項目に、所定の閾値と、閾値以上の割合(所定割合)の情報が記憶されているとする。サーバ10の感情解析部1042は、1の対話情報に対して抽出された複数の音声区間情報のそれぞれに対応する感情スカラーの値を、所定の閾値と比較し、所定の閾値以上の音声区間情報(感情スカラー)の個数をカウントする。なお、所定の閾値以下の個数をカウントしても構わない。
サーバ10の感情解析部1042は、カウントされた音声区間情報の個数の、1の対話情報に対して抽出されたすべての音声区間情報の個数に対する割合が、所定割合よりも多い場合には当該感情条件に該当すると判定し、感情条件マスタ1021において感情条件に関連付けられたラベルデータの項目を取得し特定する。
例えば、所定の閾値以上の音声区間情報(感情スカラー)の割合が、所定割合よりも多い場合は、対話における感情状態がポジティブであることを示すラベル情報を特定する。同様に、所定の閾値以下の音声区間情報(感情スカラー)の割合が、所定割合よりも多い場合は、対話における感情状態がネガティブであることを示すラベル情報を特定する。
具体的に、感情条件マスタ1021の感情条件の項目に、所定の閾値の情報が記憶されているとする。サーバ10の感情解析部1042は、1の対話情報に対して抽出された複数の音声区間情報のそれぞれに対応する感情スカラーの値の平均値、中央値、最頻値などの平均、最大値、最小値などの統計値を算定し、所定の閾値と比較し、所定の閾値以上の場合には当該感情条件に該当すると判定し、感情条件マスタ1021において感情条件に関連付けられたラベルデータの項目を取得し特定する。なお、所定の閾値以下の場合を条件としても構わない。
ラベル特定ステップは、感情算定ステップにおいて算定された複数の感情特徴量の時系列的な変化に対して回帰分析を行うステップと、回帰分析の結果得られた回帰係数に基づき、対話に対するラベル情報を特定するステップと、を含む。
具体的に、感情条件マスタ1021の感情条件の項目に、回帰係数の範囲が記憶されているとする。対象となる対話データにおいて、対話データに関連づけられた複数の音声区間情報のそれぞれに対して、X軸に音声区間情報の開始日時、終了日時、開始日時から終了日時の間の任意の日時の値、Y軸に当該音声区間情報の感情データに含まれる感情スカラーの値とした場合に、Y=f(X)の回帰分析を行う。回帰分析は、1次回帰、2次回帰等、任意の回帰分析を適用しても構わない。回帰分析を行うことにより回帰係数を算定し、回帰係数の範囲と比較し、回帰係数の範囲内の場合には当該感情条件に該当すると判定し、感情条件マスタ1021において感情条件に関連付けられたラベルデータの項目を取得し特定する。
例えば、線形回帰(1次回帰)の場合において、切片が負であり、傾きが正である場合は、対話における感情状態が改善していることを示すラベル情報を特定する。
なお、感情スカラーの代わりに、感情ベクトルに含まれる1の要素成分、感情ベクトルに含まれる1または複数の要素成分に基づき算定される指標等を感情特徴量とみなして、同様の処理を実行しても構わない。
具体的に、サーバ10の感情解析部1042は、1の対話情報に対して抽出された複数の音声区間情報を、それぞれ複数の音声区間情報からなる区間群に分割し、それぞれの区間群に対して既に説明したラベル特定ステップを実行しても構わない。これにより、複数の区間群のそれぞれに対応するラベル情報が特定される。
例えば、サーバ10の感情解析部1042は、区間群に含まれる抽出された複数の音声区間情報のそれぞれに対して感情スカラーを算定し感情データに記憶する。記憶された複数の感情データに含まれる感情スカラーを、感情条件として、ラベルデータを特定しても良い。
例えば、サーバ10の感情解析部1042は、区間群に含まれる抽出された複数の音声区間情報のそれぞれに対して感情ベクトルを算定し感情データに記憶する。記憶された複数の感情データに含まれる感情ベクトルを、感情条件として、ラベルデータを特定しても良い。
具体的に、サーバ10の感情解析部1042は、1の対話情報に対して抽出された複数の音声区間情報を、それぞれ複数の音声区間情報からなる区間群に分割し、それぞれの区間群に対して既に説明したラベル特定ステップを実行することにより、複数の区間群のそれぞれに対応するラベル情報が特定される。
具体的に、サーバ10の感情解析部1042は、特定された第1ラベル情報、第2ラベル情報を第1ユーザ端末20へ送信する。第1ユーザ端末20の制御部204は、受信した第1ラベル情報、第2ラベル情報を第1ユーザ端末20のディスプレイ2081に表示し、第1ユーザに提示する。なお、第1ラベル情報および第2ラベル情報は、第2ユーザ、それ以外の管理者、他のユーザ等の任意のユーザに提示しても良い。
具体的に、第1ユーザは、第1ユーザ端末20の入力装置206などを操作することにより、第1ユーザ端末20のディスプレイ2081に提示された第1ラベル情報、第2ラベル情報のいずれか1つを選択する。なお、第1ユーザはいずれも選択しないものとしても良い。第1ユーザ端末20の制御部204は、選択されたラベル情報をサーバ10へ送信する。サーバ10の感情解析部1042は、受信したラベル情報を特定する。
具体的に、サーバ10の感情解析部1042は、ラベル情報を特定する際に、ステップS104において特定した第1ユーザ、第2ユーザのユーザ属性を考慮し、ラベル情報を特定しても良い。例えば、感情条件マスタ1021における感情条件に、第1ユーザ、第2ユーザのユーザ属性を条件として含めても構わない。
具体的に、サーバ10の感情解析部1042は、1の対話情報に対して抽出された複数の音声区間情報のうち、話者IDが第1ユーザID2011である音声区間情報を除外し、話者IDが第2ユーザID3011である音声区間情報のみに基づき、既に説明したラベル特定ステップを実行しても構わない。
これにより、顧客の感情状態のみ考慮したラベル情報を特定できる。通常、オペレータ等に相当する第1ユーザは、自身の感情状態ではなく、顧客の感情状態に関心があることが一般的である。このような構成にすることにより、顧客の感情状態を特に考慮したラベル情報を特定できる。
これにより、対話の主催者の感情状態を考慮せずにラベル情報を特定できる。通常、対話の主催者は、自身の感情状態ではなく、対話相手の感情状態に関心があることが一般的である。このような構成にすることにより、対話相手の感情状態を考慮したラベル情報を特定できる。
具体的に、サーバ10の感情解析部1042は、ステップS105において特定されたラベル情報を、ステップS101において採番された対話IDと関連づけてラベルテーブル1015のラベルデータの項目に記憶する。
なお、ステップS105においては、特定されたラベル情報を第1ユーザに提示し、第1ユーザから選択指示を受け付けたラベル情報をラベルテーブル1015のラベルデータとして記憶する構成としても良い。
具体的に、第1ユーザから選択指示を受け付けたラベル情報をラベルテーブル1015のラベルデータとして記憶する構成としても良い。
感情解析処理のステップS103~S106は複数のユーザによるオンライン対話の終了後に実行する構成としても良い。これにより、オンライン対話が終了した後、対話内容が確定した後に、対話におけるユーザの感情状態に応じたラベル情報が特定され、対話情報と関連づけられて記憶される。
つまり、複数のユーザによるオンライン対話の対話中の任意のタイミングに実行する構成としても良い。また、ステップS103~ステップS106は、オンライン対話の対話中に定期的にリアルタイムに実行する構成としても良い。これにより、オンライン対話の対話途中においても、それまでの対話におけるユーザの感情状態に応じたラベル情報が特定され、対話情報と関連づけられて記憶される構成としても良い。
これにより、ユーザは、オンライン対話の対話中にリアルタイムに、オンライン対話に参加しているユーザの感情状態を確認できるとともに、対話情報を最新の感情状態に基づき整理、管理できる。
印象解析処理は、複数のユーザにより行われたオンライン対話の音声、動画等の対話情報を解析し、対話に参加しているユーザの印象状態を特定するとともに、印象状態、話者タイプをユーザに提示する処理である。
印象解析処理は、ユーザ間のオンライン対話を検知すると、対話に関する対話情報を記憶し、対話情報に含まれる音声データ、動画データをそれぞれ発話区間ごとの区間音声データ、区間動画データ等の区間データへ分割し、区間データごとの印象特徴量を算定し、印象特徴量に基づき話者タイプを特定し、特定した話者タイプをユーザへ提示する一連の処理である。
以下に、印象解析処理の詳細を説明する。
ステップS302は、感情解析処理におけるステップS102と同様であるため説明を省略する。
ステップS303は、感情解析処理におけるステップS103と同様であるため説明を省略する。
印象算定ステップは、対話取得ステップにおいて第2ユーザから取得した対話情報を入力データとして、学習モデルに適用することにより、対話において第2ユーザが他のユーザに対して与える印象に関する印象特徴量を出力データとして算定するステップを実行する。
具体的に、サーバ10の印象解析部1043は、S303において音声区間テーブル1016に記憶された区間音声データ、区間動画データ、区間読上テキストを取得し、音声区間情報のうち話者IDが第1ユーザID2011である音声区間情報を除外し、話者IDが第2ユーザID3011である音声区間情報のみを入力データとして印象評価モデル1032に適用し、印象評価モデル1032は入力データに応じた印象特徴量を出力データとして出力する。これにより、第2ユーザが与える印象を、印象特徴量により評価できる。
なお、印象評価モデル1032に適用する入力データは、音声区間情報のうち話者IDが第2ユーザID3011である音声区間情報を除外し、話者IDが第1ユーザID2011である音声区間情報としても良い。この場合、第1ユーザが与える印象を、印象特徴量により評価できる。
印象算定ステップは、対話取得ステップにおいて取得した第2ユーザの対話情報を入力データとして、第1学習モデルに適用することにより、対話における第2ユーザの話し方に関する対話特徴量を出力データとして算定するステップと、算定された対話特徴量を入力データとして、第2学習モデルに適用することにより、印象特徴量を算定するステップと、を含む。
印象算定ステップは、対話取得ステップにおいて取得した第2ユーザの対話情報に基づき、対話における第2ユーザの話速、抑揚、丁寧な表現の数、フィラーの数および文法的な発話の数のうち少なくともいずれか1つの話し方に関する対話特徴量を算定するステップを含む。
サーバ10の印象解析部1043は、対話特徴量を入力データとして第2印象評価モデル1034に適用し、第2印象評価モデル1034は入力データに応じた印象特徴量を出力データとして出力する。これにより、第2ユーザが与える印象を、印象特徴量により評価できる。
なお、印象評価モデル1032に適用する入力データは、音声区間情報のうち話者IDが第2ユーザID3011である音声区間情報を除外し、話者IDが第1ユーザID2011である音声区間情報としても良い。この場合、第1ユーザが与える印象を、印象特徴量により評価できる。
具体的に、サーバ10の印象解析部1043は、算定された印象特徴量を、音声区間テーブル1016の解析対象のレコードの印象データの項目に記憶する。これにより、音声区間テーブル1016の話者ID(第2ユーザID)を介して、印象特徴量が第2ユーザと関連づけて記憶される。なお、印象特徴量は、CRMシステム50の顧客テーブル5012に不図示の印象データを記憶するカラムを設けることにより、第2ユーザIDと関連づけて記憶する構成としても良い。また、印象特徴量は、サーバ10のユーザテーブル1012に不図示の印象データを記憶するカラムを設けることにより、第2ユーザIDと関連づけて記憶する構成としても良い。
CRMシステム50の顧客テーブル5012に記憶することにより、対象となる対話において特定されたユーザの印象特徴量を、社内の他の部署のメンバー等と共有できる。例えば、印象特徴量により特定される対話相手の印象に応じて効率的な業務を行うことができる。
具体的に、サーバ10の印象解析部1043は、対話IDに基づき、音声区間テーブル1016の対話IDを検索し、印象データの項目を取得する。サーバ10の印象解析部1043は、印象データに基づき、話者タイプマスタ1022の印象条件に該当するレコード有無を検索し、該当するレコードの話者タイプの項目を取得する。
本開示においては、サーバ10の印象解析部1043は、1の対話情報に対して抽出された複数の音声区間情報のそれぞれに対して算定し、記憶された複数の印象データにかかる印象特徴量を、印象条件として、話者タイプを特定し、取得する構成としても良い。
具体的に、サーバ10の印象解析部1043は、特定された話者タイプ、第2ユーザIDをCRMシステム50へ送信する。CRMシステム50の制御部504は、受信した話者タイプ、第2ユーザIDをそれぞれ、顧客テーブル5012の話者タイプ、ユーザIDの項目に記憶する。つまり、特定した話者タイプを、当該対話において発話したユーザのユーザIDと関連づけて記憶する。
CRMシステム50の顧客テーブル5012に記憶することにより、対象となる対話において特定されたユーザの話者タイプを、社内の他の部署のメンバー等と共有できる。例えば、対話相手の話者タイプに応じて効率的な応対業務を行うことができる。
本開示においては、ユーザの話者タイプをCRMシステム50の顧客テーブル5012に記憶する構成としたが、サーバ10のユーザテーブル1012に第2ユーザと関連づけて記憶する構成としても構わない。
具体的に、サーバ10の印象解析部1043は、ステップS305において特定された印象特徴量を第1ユーザ端末20へ送信する。第1ユーザ端末20の制御部204は、受信した印象特徴量を、第1ユーザ端末20のディスプレイ2081に表示し、第1ユーザへ提示する。なお、印象特徴量は、第2ユーザ、それ以外の管理者、他のユーザ等の任意のユーザに提示しても良い。
例えば、第1ユーザまたは他のユーザが、発信処理、着信処理、ルーム等を介して第2ユーザとの間でのオンライン対話を開始する際に、第1ユーザ端末20のディスプレイ2081に表示される、第2ユーザへ発信を行うための発信画面、第2ユーザから着信を受けるための着信画面、対話開始前のルーム画面等に、ステップS305において第2ユーザと関連づけられて記憶された第2ユーザの印象特徴量を表示し、第1ユーザへ提示しても良い。
これにより、第1ユーザは、対話開始に先立ち、第2ユーザの印象に応じた応対を準備できる。
例えば、第1ユーザまたは他のユーザが、発信処理、着信処理、ルーム等を介して第2ユーザとの間でのオンライン対話を開始する際に、第1ユーザ端末20のディスプレイ2081に表示される、第2ユーザへ発信を行うための発信画面、第2ユーザから着信を受けるための着信画面、対話開始前のルーム画面等に、ステップS305において第2ユーザと関連づけられて記憶された第2ユーザの話者タイプを表示し、第1ユーザへ提示しても良い。
これにより、第1ユーザは、対話開始に先立ち、第2ユーザの話者タイプに応じた応対を準備できる。
例えば、第1ユーザまたは他のユーザが、第2ユーザとの間でのオンライン対話を行っている間に、第1ユーザ端末20のディスプレイ2081に表示される対話画面、ルーム画面等に、ステップS305において第2ユーザと関連づけられて記憶された第2ユーザの印象特徴量を表示し、第1ユーザへ提示しても良い。なお、印象特徴量は、第2ユーザ、それ以外の管理者、他のユーザ等の任意のユーザに提示しても良い。
これにより、第1ユーザは、対話中に、第2ユーザの印象に応じた応対を準備できる。
例えば、第1ユーザまたは他のユーザが、第2ユーザとの間でのオンライン対話を行っている間に、第1ユーザ端末20のディスプレイ2081に表示される対話画面、ルーム画面等に、ステップS305において第2ユーザと関連づけられて記憶された第2ユーザの話者タイプを表示し、第1ユーザへ提示しても良い。なお、印象特徴量は、第2ユーザ、それ以外の管理者、他のユーザ等の任意のユーザに提示しても良い。
これにより、第1ユーザは、対話中に、第2ユーザの話者タイプに応じた応対を準備できる。
具体的に、サーバ10の印象解析部1043は、複数の対話特徴量を入力データとして第2印象評価モデル1034に適用し、第2印象評価モデル1034は入力データに応じた印象特徴量を出力データとして出力する際に、出力される印象特徴量に大きな影響を与える1または複数の対話特徴量を特定し、第1ユーザ端末20、第2ユーザ端末30、それ以外の他のユーザ端末等へ送信し、ユーザへ提示する構成としても良い。
例えば、第2印象評価モデル1034は、出力される印象特徴量に大きな影響を与える1または複数の対話特徴量を出力データとして出力するものとしても良い。これにより、印象特徴量に大きな影響を与える対話特徴量を高速に取得することができる。
印象解析処理は、顧客である第2ユーザではなく、オペレータである第1ユーザの印象状態を特定する構成としても良い。
また、第1ユーザが他のユーザに与えたい目標印象特徴量、目標話者タイプを受け付けて、第1ユーザが改善すべき対話特徴量を算定し、第1ユーザに提示しても良い。つまり、第1ユーザに対して、好ましい話し方を提案するステップを含めても良い。
この場合、印象解析処理のステップS301からステップS305において、第2ユーザを第1ユーザと読み替えるだけで処理内容としては同様であるため説明を省略する。
具体的に、第1ユーザは、第1ユーザ端末20の入力装置206などを操作することにより、サーバ10が提供する所定のウェブページにアクセスし、一覧表示された複数の話者タイプから、目標とする話者タイプ(目標話者タイプ)を選択する。第1ユーザ端末20の制御部204は、選択された目標話者タイプを特定し、サーバ10へ送信する。サーバ10は、目標話者タイプを受信し受け付ける。目標話者タイプは、第1ユーザが他のユーザに与える印象状態として望ましい印象状態に関する話者タイプであり、第1ユーザが自身で選択しても良いし、第1ユーザの管理者等が、第1ユーザの職務等に応じて選択しても良い。
具体的に、サーバ10の印象解析部1043は、受信した目標話者タイプに基づき、話者タイプマスタ1022の話者タイプの項目を検索し、印象条件を取得する。サーバ10の印象解析部1043は、取得した印象条件に基づいて、当該印象条件の範囲に含まれる印象特徴量を目標印象特徴量として特定し、受け付ける。サーバ10の印象解析部1043は、目標話者タイプを入力データとして、不図示の学習モデル等に適用することにより出力された目標印象特徴量を取得し、受け付ける構成としても良い。また、第1ユーザから、第1ユーザ端末20の入力装置206などを介して目標印象特徴量を受け付ける構成としても良い。
具体的に、サーバ10の印象解析部1043は、特定した目標印象特徴量に基づいて、当該目標印象特徴量を得るための対話特徴量を目標対話特徴量として特定し、受け付ける。サーバ10の印象解析部1043は、目標印象特徴量を入力データとして、不図示の学習モデル等に適用することにより目標対話特徴量を取得し、受け付ける構成としても良い。
第1ユーザが改善すべき対話特徴量としては、例えば、「話速をより速く」、「話速をより遅く」、「抑揚をより大きく」、「抑揚をより小さく」といったものである。また、第1ユーザが改善すべき対話特徴量は、目標となる対話特徴量(目標対話特徴量)としても良い。
サーバ10の印象解析部1043は、第1ユーザが改善すべき対話特徴量を第1ユーザ端末20へ送信する。第1ユーザ端末20の制御部204は、受信した改善すべき対話特徴量を第1ユーザ端末20のディスプレイ2081に表示し、第1ユーザに提示する。
例えば、対話における第1ユーザの話速、抑揚、丁寧な表現の数、フィラーの数および文法的な発話の数等の対話特徴量のうち、第1ユーザが改善すべき対話特徴量を特定し、話速、抑揚、丁寧な表現の数、フィラーの数等をどの程度改善すべきか第1ユーザに対して提示する。これにより、オペレータ等が、具体的に話し方を改善することにより他者に与える印象を改善できる。
なお、対話特徴量は、第2ユーザ、それ以外の他のユーザに提示しても良い。
つまり、ユーザは受け付けた目標話者タイプに応じて改善すべき対話特徴量を把握できるとともに、改善すべき対話特徴量に基づき話し方を改善することにより自身が他者に与える印象を目標話者タイプに近づけることができる。
トピック定義処理は、ユーザが、複数のキーワードと関連づけられ、所定の話題に関するトピックを登録し記憶する処理である。
ユーザは、複数の単語、名詞、形容詞等のキーワードに基づき、新たなトピックを定義し、記憶できる。また、既に記憶されたトピックに対して、過去に記憶された対話情報に基づいて、当該トピックと関連性が高いキーワードの提示を受け、当該キーワードをトピックに関連づけられたキーワードに追加し、記憶することにより、トピックに関連づけられたキーワードを拡張する一連の処理である。
以下に、トピック定義処理の詳細を説明する。
具体的に、第1ユーザは、第1ユーザ端末20の入力装置206などを操作することにより、アプリケーションプログラム2012を実行しブラウザアプリケーションを実行する。第1ユーザは、ブラウザアプリケーションにおいて、サーバ10が提供する所定のウェブサーバを指定する所定のURL(Uniform Resource Locator)を入力することにより、サーバ10へトピックを定義するためのページを要求するリクエストを送信する。
サーバ10のトピック処理部1044は、区間読上テキストに対して形態素解析等の処理を実行することにより、区間読上テキストに含まれる名詞、形容詞、キーワード等の文字列を抽出する。このとき、対話情報、音声区間情報ごとの文字列の出現頻度等に基づき、文字列に対する重要度の算定を行っても良い。重要度の算定手法としては、tf-idf等がある。サーバ10のトピック処理部1044は、重要度が高い所定個数の文字列をキーワード候補として特定する。
具体的に、第1ユーザは、第1ユーザ端末20の入力装置206などを操作することにより、第1ユーザ端末20のディスプレイ2081に表示されたキーワード候補から新たにトピックと関連づけるためのキーワードを選択する。
第1ユーザ端末20の制御部204は、第1ユーザにより選択された1または複数のキーワード候補をサーバ10へ送信する。
具体的に、サーバ10のトピック処理部1044は、第1ユーザ端末20から1または複数のキーワード候補を受信し、受け付ける。
具体的に、サーバ10のトピック処理部1044は、受け付けた複数のキーワード候補を、トピックIDと関連づけてトピックマスタ1023に記憶する。なお、第1ユーザにより選択された1または複数のキーワード候補は、既にトピックマスタ1023に記憶されているトピックIDと関連づけても良いし、新たなトピックIDを生成し、当該新たに生成されたトピックIDと関連づける構成としても良い。
既にトピックマスタ1023に記憶されているトピックIDと関連づけて記憶する場合は、第1ユーザは、第1ユーザ端末20の入力装置206などを操作することにより、関連づける対象となるトピックIDを選択する選択操作を実行する。
トピック解析処理は、複数のユーザにより行われたオンライン対話の音声、動画等の対話情報を解析し、対話情報と1または複数のトピックとの関連度を算定し、関連度に基づき、対話情報にトピックを関連づけ、記憶する処理である。
トピック解析処理は、ユーザ間のオンライン対話を検知すると、対話に関する対話情報を記憶し、対話情報に含まれる音声データ、動画データをそれぞれ発話区間ごとの区間音声データ、区間動画データ等の区間データへ分割し、区間データごとに複数のトピックとの関連度を算定し、区間データごとのトピックを特定し、代表的なトピックを対話情報のラベル情報として記憶する一連の処理である。
以下に、トピック解析処理の詳細を説明する。
ステップS512は、感情解析処理におけるステップS102と同様であるため説明を省略する。
ステップS513は、感情解析処理におけるステップS103と同様であるため説明を省略する。
つまり、音声抽出ステップは、複数のユーザによるオンライン対話の対話中の任意のタイミングに実行する構成としても良い。
具体的に、サーバ10のトピック処理部1044は、トピックマスタ1023を参照して、トピック定義処理により予め登録されたトピックID、トピックIDに関連づけられた1または複数のキーワードを取得し、特定する。
本開示においては、主に簡単のため1の第1トピックと、第1トピックに関連づけられた1または複数のキーワードについて説明するが、トピックは1つに限られず複数のトピック(第2トピック、第3トピック・・・)に対して同様の処理を実行しても構わない。
具体的に、サーバ10のトピック処理部1044は、S513において取得した音声区間情報と、第1トピックに関連づけられたキーワードとの関連性に応じて、第1トピックとの関連度を示す第1関連度を算定する。
このように計算された第1関連度は、第1トピックに関連づけられた複数のキーワードと、複数の音声区間情報に含まれる文字列との全体的な類似傾向を反映したものとなる。これにより、音声区間情報に含まれる文字列が、トピックに含まれるキーワードの言い換え表現や表記の違いにより同じ意味の単語が異なる単語と判定されずに、第1トピックに含まれるキーワードと意味内容の関連性が高い音声区間情報について、より高い関連度が得られる。
本開示においては、第1トピックとの関連度を示す第1関連度の算定について説明したが、任意のトピックと、当該トピックと音声区間情報との関連度の算定も同様である。
つまり、複数のユーザによるオンライン対話の対話中の任意のタイミングに実行する構成としても良い。これにより、オンライン対話の対話途中においても、それまでの対話における音声区間情報に対して、それぞれのトピックとの関連度を算定できる。
具体的に、関連度算定の際に第1トピックに関連づけられた複数のキーワードごとの重要性について、異なる重み付けを行っても良い。例えば、1の対話情報に対して抽出された複数の音声区間情報に対して、多くの音声区間情報に頻出するキーワードの、関連度へ与える影響度合いが小さくなるように、重要性、重みを他のキーワードに比べて小さい値としても良い。これにより、多くの音声区間情報に頻出するありふれたキーワードに関連付いたトピックとの関連度が過大に評価されることを防止できる。
本開示においては、第1トピックとの関連度を示す第1関連度の算定について説明したが、任意のトピックと、当該トピックと音声区間情報との関連度の算定も同様としても良い。
例えば、1の対話情報に対して抽出された複数の音声区間情報のすべてではなく、算定対象となる対象区間音声情報から時系列的に所定個数前までの複数の音声区間情報に対して、多くの音声区間情報に頻出するキーワードの、関連度へ与える影響度合いが小さくなるように、重要性、重みを他のキーワードに比べて小さい値としても良い。これにより、対話が終了する前の対話中の任意のタイミングにおいても、直近の音声区間情報とトピックとの関連度をより正確に算定できる。
本開示においては、第1トピックとの関連度を示す第1関連度の算定について説明したが、任意のトピックと、当該トピックと音声区間情報との関連度の算定も同様としても良い。
具体的に、サーバ10のトピック処理部1044は、ステップS515において、1の対話情報に対して抽出された複数の音声区間情報のそれぞれに対して記憶されたトピックIDを集計し、集計されたトピックIDが多い順番に1または複数のトピックIDを、当該1の対話情報を特徴付けるトピックとして特定する。なお、集計されたトピックIDの個数が所定数以上の1または複数のトピックIDを、当該1の対話情報を特徴付けるトピックとして特定しても良い。
サーバ10のトピック処理部1044は、当該特定したトピックIDのトピック名、ラベル等のトピックの名称をラベル情報として特定する。なお、不図示のテーブル等を参照して、特定したトピックIDに基づき、任意のラベル情報を特定する構成としても良い。
特定したラベル情報、当該1の対話情報の対話IDを、ラベルテーブル1015の新たなレコードのラベルデータ、対話IDの項目に記憶する。これにより、対話情報と、対話情報を特徴付けるトピックがラベル情報として関連づけられ記憶され、対話情報を検索する際などに利便性よく利用できる。
トピック解析処理のステップS513~S516は複数のユーザによるオンライン対話の終了後に実行する構成としても良い。これにより、オンライン対話が終了した後、対話内容が確定した後に、対話に関連するトピックが特定され、対話情報と関連づけられて記憶される。
つまり、複数のユーザによるオンライン対話の対話中の任意のタイミングに実行する構成としても良い。また、ステップS513~ステップS516は、オンライン対話の対話中に定期的にリアルタイムに実行する構成としても良い。これにより、オンライン対話の対話途中においても、それまでの対話に応じたトピックが特定され、対話情報と関連づけられて記憶される構成としても良い。
これにより、ユーザは、オンライン対話の対話中にリアルタイムに、オンライン対話に参加しているユーザが言及している話題を確認できるとともに、対話情報を最新のトピックに基づき整理、管理できる。
トピック提示処理は、複数のユーザにより行われたオンライン対話の音声、動画等の対話情報を視覚的に可視化しユーザに提示するとともに、対話情報に関連づけられたトピックをユーザに対して提示する処理である。ユーザは、対話情報と、対話情報に関連するトピックを一目で確認することができ、対話内容の概要を直感的に把握できる。
ユーザから提示対象となる対話情報の指定を受け付け、対話情報を取得し、区間データおよび区間データごとのトピックを取得し、対話情報を解析し話者ごとの発話状況を視覚的に確認可能な音声グラフをユーザに提示し、音声グラフに重ねて発話区間ごとのトピックを音声グラフに重ねてユーザに提示する一連の処理である。
以下に、トピック提示処理の詳細を説明する。
具体的に、第1ユーザは、第1ユーザ端末20の入力装置206などを操作することにより、アプリケーションプログラム2012を実行しブラウザアプリケーションを実行する。第1ユーザは、ブラウザアプリケーションにおいて、サーバ10が提供する所定のウェブサーバを指定する所定のURL(Uniform Resource Locator)を入力することにより、サーバ10へトピックを提示させるためのページを要求するリクエストを送信する。
サーバ10のトピック処理部1044は、受信したリクエストに含まれる第1ユーザID2011に基づき、対話テーブル1014のユーザIDの項目を検索し、対話IDを取得する。サーバ10のトピック処理部1044は、取得した1または複数の対話IDを第1ユーザ端末20に送信する。第1ユーザ端末20の制御部204は、受信した1または複数の対話IDを第1ユーザ端末20のディスプレイ2081に表示することにより、第1ユーザに提示する。
第1ユーザは、第1ユーザ端末20の入力装置206などを操作することにより、提示された対話IDから所定の対話IDを選択する。第1ユーザ端末20の制御部204は、選択された所定の対話IDをサーバ10へ送信する。サーバ10は、対話IDを受信し、受け付ける。
つまり、サーバ10のトピック処理部1044は、対話IDに関連づけられた複数の音声区間情報と、音声区間情報ごとのトピックID、関連度を取得する。
なお、音声グラフは、第2ユーザ、それ以外の管理者、他のユーザ等の任意のユーザに提示しても良い。
実線L1及び破線L2を見ると、基本的には、第1ユーザが音声を発している(話している)間は、第2ユーザは音声を発しておらず(黙って聞いている)、第2ユーザが音声を発している(話している)間は、第1ユーザは音声を発していない(黙って聞いている)ことがわかる。ここで、Z3で示された箇所は、両者が同時に音声を発している状態(被っている状態)であり、第2ユーザの話が終わらないうちに第1ユーザが話し始めた可能性がある。Z1及びZ2で示された箇所は、両者が音声を発していない時間(沈黙の時間)である。P1及びP2で示された箇所は、所定のキーワードが出現した箇所である。
具体的に、サーバ10のトピック処理部1044は、トピック解析処理において、1の対話情報に対して抽出された複数の音声区間情報のそれぞれに対して算定された第1関連度が所定値以上の1または複数の音声区間情報が、第1トピックに関する話題について言及していると判定すると、当該1または複数の音声区間情報を含む、1または複数の音声区間情報を第1区間群として特定する。例えば、時系列的に連続する複数の音声区間情報のトピックとの関連づけが、区間1:トピックA、区間2:トピックA、区間3:トピックなし、区間4:トピックA、区間5:トピックなし、区間6:トピックB、区間7:トピックB、区間8:トピックBである場合において、区間1から区間4をトピックAに関する区間群として特定し、区間6から区間8をトピックBに関する区間群として特定する。区間3などのように、トピックAの区間に他のトピックと関連づいた音声区間が含まれている場合においても、区間1から区間4が全体としてトピックAの話題について言及していると考えられる場合には、区間1から区間4をまとめてトピックAに関する区間群として特定しても良い。
具体的に、図20の音声グラフにおいて、サーバ10のトピック処理部1044は、第1トピックに関連づけられた第1区間群T1、第2トピックに関連づけられた第2区間群T2、第3トピックに関連づけられた第3区間群T3を、描画オブジェクトとして音声グラフに重ねて提示する。例えば、第1区間群T1、第2区間群T2、第3区間群T3は、それぞれトピックごとに割り当てられた異なる色による描画オブジェクトとして描画する構成としても良い。これにより、第1ユーザは、区間群を関連するトピックと関連づけて音声グラフと重ねて視認できる。これにより、第1ユーザは音声グラフにおいて、どの箇所がどのようなトピックについて話題となっているのか視覚的に一目で確認できる。
なお、サーバ10のトピック処理部1044は、区間群特定ステップにおいて特定された第1区間群を、第1ユーザ、第2ユーザ以外の管理者、他のユーザ等の任意のユーザに提示する構成としても良い。
具体的に、サーバ10のトピック処理部1044は、区間群を特定するのに際して、トピック関連度テーブルから取得した音声区間情報を、音声区間情報の開始日時等に基づき時系列的に並べる。サーバ10のトピック処理部1044は、所定の音声区間情報の関連度に対して、当該所定の音声区間情報に対する直近N個の関連度の平均を移動平均として算定する。Nは任意の整数である。算定された移動平均を、当該所定の音声区間情報に対する新たな関連度と見なして、当該関連度が所定値以上の音声区間情報を第1トピックに関連づけられた第1区間群として特定する。
本開示においては、主に簡単のため1の第1トピックの関連度に対する移動平均について説明したが、トピックは1つに限られず複数のトピックに対して同様の処理を実行しても構わない。
これにより、発話区間ごとに関連度が高いトピックが短期間で切り替わる場合においても、トピックの関連度を平滑化することにより、トピックについて言及している区間群をまとめて特定できる。オンライン対話サービスにおいて、話者がどのような話題について発話を行ったのか、ユーザはより確認しやすくなる。
具体的に、サーバ10のトピック処理部1044は、区間群を特定するのに際して、トピック関連度テーブルから取得した音声区間情報を、音声区間情報の開始日時等に基づき時系列的に並べる。サーバ10のトピック処理部1044は、関連度が所定値以上の複数の連続する音声区間情報を第1トピックに関連づけられた第1区間群として特定する。
本開示においては、主に簡単のため1の第1トピックの関連度に対する移動平均について説明したが、トピックは1つに限られず複数のトピックに対して同様の処理を実行しても構わない。
これにより、特定のトピックについて連続して関連度が高い区間音声データを、トピックについて言及している区間群としてまとめて特定できる。オンライン対話サービスにおいて、話者がどのような話題について発話を行ったのか、ユーザはより確認しやすくなる。
具体的に、区間音声データ、区間動画データおよび区間読上テキストの少なくともいずれか1つを含む区間データと、当該区間データのトピックに関連づけられた複数のキーワードと、を入力データとして、要約モデル1035に適用し、当該区間データに含まれるテキスト情報を要約したテキスト情報である要約テキストを出力データとして取得する。これにより、区間データに含まれるテキスト情報のうち、特にトピックと関連性が高い箇所のみを抽出することができ、区間データに含まれるテキスト情報を要約した要約テキストを取得できる。
具体的に、区間群に含まれる1または複数の区間データと、当該区間群のトピックに関連づけられた複数のキーワードと、を入力データとして、要約モデル1035に適用し、当該区間群に含まれるテキスト情報を要約したテキスト情報である要約テキストを出力データとして取得する。これにより、区間データに含まれるテキスト情報のうち、特にトピックと関連性が高い箇所を抽出することができ、区間データに含まれるテキスト情報を要約した要約テキストを取得できる。
ステップS525において、サーバ10のトピック処理部1044は、要約ステップにおいて生成された要約テキストを、区間群特定ステップにおいて特定されただい1区間群と関連づけて提示する提示ステップを実行する。
具体的に、図20の音声グラフにおいて、サーバ10のトピック処理部1044は、第1区間群T1の第1トピックに関する要約テキスト701を、第1区間群T1と関連づけて提示する。なお、サーバ10のトピック処理部1044は、区間群ではなく、任意の1または複数の音声区間に関連づけて、要約テキスト701を提示しても良い。
なお、サーバ10のトピック処理部1044は、区間群特定ステップにおいて特定された第1区間群を、第1ユーザ、第2ユーザ、それ以外の管理者、他のユーザ等の任意のユーザに提示する構成としても良い。
感情評価モデル1031、印象評価モデル1032、第1印象評価モデル1033、第2印象評価モデル1034の学習処理を以下に説明する。
感情評価モデル1031の学習処理は、感情評価モデル1031に含まれるディープニューラルネットワークの学習パラメータを深層学習により学習させる処理である。
感情評価モデル1031の学習処理は、区間音声データ、区間動画データ、区間読上テキストを入力データ(入力ベクトル)として、感情特徴量である感情ベクトルまたは感情スカラーを出力データ(教師データ)となるように、感情評価モデル1031に含まれるディープニューラルネットワークの学習パラメータを深層学習により学習させる処理である。
感情評価モデル1031の入力データから、区間音声データ、区間動画データ、区間読上テキストのいずれかを省略しても構わない。
サーバ10の学習部1051は、区間音声データ、区間動画データ、区間読上テキストなどを入力データ(入力ベクトル)として、所定の感情特徴量を出力データ(教師データ)となるよう、学習データを作成する。
サーバ10の学習部1051は、学習データに基づき、感情評価モデル1031のディープニューラルネットワークを学習させるための訓練データ、テストデータ、検証データなどのデータセットを作成する。
サーバ10の学習部1051は、作成したデータセットに基づき感情評価モデル1031に含まれるディープニューラルネットワークの学習パラメータを深層学習により学習させる。
印象評価モデル1032の学習処理は、印象評価モデル1032に含まれるディープニューラルネットワークの学習パラメータを深層学習により学習させる処理である。
印象評価モデル1032の学習処理は、区間音声データ、区間動画データ、区間読上テキストを入力データ(入力ベクトル)として、印象特徴量を出力データ(教師データ)となるように、印象評価モデル1032に含まれるディープニューラルネットワークの学習パラメータを深層学習により学習させる処理である。
印象評価モデル1032の入力データから、区間音声データ、区間動画データ、区間読上テキストのいずれかを省略しても構わない。
サーバ10の学習部1051は、区間音声データ、区間動画データ、区間読上テキストなどを入力データ(入力ベクトル)として、所定の印象特徴量を出力データ(教師データ)となるよう、学習データを作成する。
サーバ10の学習部1051は、学習データに基づき、印象評価モデル1032のディープニューラルネットワークを学習させるための訓練データ、テストデータ、検証データなどのデータセットを作成する。
サーバ10の学習部1051は、作成したデータセットに基づき印象評価モデル1032に含まれるディープニューラルネットワークの学習パラメータを深層学習により学習させる。
第1印象評価モデル1033の学習処理は、第1印象評価モデル1033に含まれるディープニューラルネットワークの学習パラメータを深層学習により学習させる処理である。
第1印象評価モデル1033の学習処理は、区間音声データ、区間動画データ、区間読上テキストを入力データ(入力ベクトル)として、対話特徴量を出力データ(教師データ)となるように、第1印象評価モデル1033に含まれるディープニューラルネットワークの学習パラメータを深層学習により学習させる処理である。
第1印象評価モデル1033の入力データから、区間音声データ、区間動画データ、区間読上テキストのいずれかを省略しても構わない。
サーバ10の学習部1051は、区間音声データ、区間動画データ、区間読上テキストなを入力データ(入力ベクトル)として、所定の対話特徴量を出力データ(教師データ)となるよう、学習データを作成する。
サーバ10の学習部1051は、学習データに基づき、第1印象評価モデル1033のディープニューラルネットワークを学習させるための訓練データ、テストデータ、検証データなどのデータセットを作成する。
サーバ10の学習部1051は、作成したデータセットに基づき第1印象評価モデル1033に含まれるディープニューラルネットワークの学習パラメータを深層学習により学習させる。
第2印象評価モデル1034の学習処理は、第2印象評価モデル1034に含まれるディープニューラルネットワークの学習パラメータを深層学習により学習させる処理である。
第2印象評価モデル1034の学習処理は、対話特徴量を入力データ(入力ベクトル)として、印象特徴量を出力データ(教師データ)となるように、第2印象評価モデル1034に含まれるディープニューラルネットワークの学習パラメータを深層学習により学習させる処理である。
サーバ10の学習部1051は、対話特徴量などを入力データ(入力ベクトル)として、所定の印象特徴量を出力データ(教師データ)となるよう、学習データを作成する。
サーバ10の学習部1051は、学習データに基づき、第2印象評価モデル1034のディープニューラルネットワークを学習させるための訓練データ、テストデータ、検証データなどのデータセットを作成する。
サーバ10の学習部1051は、作成したデータセットに基づき第2印象評価モデル1034に含まれるディープニューラルネットワークの学習パラメータを深層学習により学習させる。
サーバ10の学習部1051は、区間音声データ、区間動画データおよび区間読上テキストの少なくともいずれか1つを含む区間データと、所定の話題に関するトピックに関連づけられた複数のキーワードと、を入力データ(入力ベクトル)として、当該区間データに含まれるテキスト情報を要約したテキスト情報である要約テキストを出力データ(教師データ)となるよう、学習データを作成する。
サーバ10の学習部1051は、学習データに基づき、要約モデル1035のディープニューラルネットワークを学習させるための訓練データ、テストデータ、検証データなどのデータセットを作成する。
サーバ10の学習部1051は、作成したデータセットに基づき要約モデル1035に含まれるディープニューラルネットワークの学習パラメータを深層学習により学習させる。
図21は、コンピュータ90の基本的なハードウェア構成を示すブロック図である。コンピュータ90は、プロセッサ901、主記憶装置902、補助記憶装置903、通信IF991(インタフェース、Interface)を少なくとも備える。これらは通信バス921により相互に電気的に接続される。
ネットワークは、インターネット、LAN、無線基地局等によって構築される各種移動通信システム等で構成される。例えば、ネットワークには、3G、4G、5G移動通信システム、LTE(Long Term Evolution)、所定のアクセスポイントによってインターネットに接続可能な無線ネットワーク(例えばWi-Fi(登録商標))等が含まれる。無線で接続する場合、通信プロトコルとして例えば、Z-Wave(登録商標)、ZigBee(登録商標)、Bluetooth(登録商標)等が含まれる。有線で接続する場合は、ネットワークには、USB(Universal Serial Bus)ケーブル等により直接接続するものも含む。
コンピュータ90の基本ハードウェア構成(図21)により実現されるコンピュータの機能構成を説明する。コンピュータは、制御部、記憶部、通信部の機能ユニットを少なくとも備える。
通常、各テーブル、各マスタにはレコードを一意に特定するための主キーとなるカラムが設定されるが、カラムへの主キーの設定は必須ではない。制御部は、各種プログラムに従ってプロセッサ901に、記憶部に記憶された特定のテーブル、マスタにレコードを追加、削除、更新を実行させることができる。
以上の各実施形態で説明した事項を以下に付記する。
プロセッサと、記憶部とを備え、第1ユーザと第2ユーザとの間の対話に関する情報をコンピュータに処理させるプログラムであって、プログラムは、プロセッサに、対話に関する音声データを受け付ける受付ステップ(S512)と、受付ステップにおいて受け付けた音声データから、発話区間ごとに複数の区間音声データを抽出する音声抽出ステップ(S513)と、複数の区間音声データのうち、所定の話題に関する第1トピックと関連する1または複数の区間音声データを特定する区間特定ステップ(S525)と、複数の区間音声データのうち、区間特定ステップにおいて特定された1または複数の区間音声データと、第1トピックと、に基づき、1または複数の区間音声データに含まれるテキスト情報を要約した要約テキストを生成する要約ステップ(S525)と、を実行させるプログラム。
これにより、対話において話者がどのような話題(トピック)に関してコミュニケーションを行ったのか、ユーザは一目で確認することができる。
要約ステップ(S525)は、1または複数の区間音声データに含まれるテキスト情報のうち、第1トピックと関連性が高い箇所を抽出することにより、1または複数の区間音声データに含まれるテキスト情報を要約した要約テキストを生成するステップである、付記1記載のプログラム。
これにより、対話において話者がどのような話題(トピック)に関してコミュニケーションを行ったのか、ユーザは一目で確認することができる。
要約ステップ(S525)は、1または複数の区間音声データに含まれるテキスト情報と、第1トピックに関連づけられた複数のキーワードを入力データとして、学習モデルに適用することにより、要約テキストを生成するステップである、付記1記載のプログラム。
これにより、対話において話者がどのような話題(トピック)に関してコミュニケーションを行ったのか、ユーザは一目で確認することができる。
プログラムは、プロセッサに、複数の区間音声データごとに、第1トピックとの関連度を示す第1関連度を算定する関連度算定ステップ(S514)と、を実行させ、区間特定ステップ(S525)は、複数の区間音声データのうち、関連度算定ステップにおいて算定された第1関連度が所定値以上の1または複数の区間音声データを含む、第1区間群を特定するステップであり、要約ステップ(S525)は、区間特定ステップにおいて特定された第1区間群に含まれる1または複数の区間音声データと、第1トピックと、に基づき、1または複数の区間音声データに含まれるテキスト情報を要約した要約テキストを生成するステップである、付記1記載のプログラム。
これにより、対話において話者がどのような話題(トピック)に関してコミュニケーションを行ったのか、ユーザは一目で確認することができる。
プログラムは、プロセッサに、要約ステップにおいて生成された要約テキストを、1または複数の区間音声データと関連づけて提示する提示ステップ(S525)と、を実行させる付記1記載のプログラム。
これにより、対話において話者がどのような話題(トピック)に関してコミュニケーションを行ったのか、ユーザは一目で確認することができる。
プログラムは、プロセッサに、要約ステップにおいて生成された要約テキストを、区間特定ステップにおいて特定されただい1区間群と関連づけて提示する提示ステップ(S525)と、を実行させる付記4記載のプログラム。
これにより、対話において話者がどのような話題(トピック)に関してコミュニケーションを行ったのか、ユーザは一目で確認することができる。
プログラムは、プロセッサに、区間特定ステップにおいて特定された第1区間群を、第1トピックと関連づけて提示する提示ステップ(S525)と、を実行させる付記4記載のプログラム。
これにより、対話において話者がどのような話題(トピック)に関してコミュニケーションを行ったのか、ユーザは一目で確認することができる。
提示ステップ(S525)は、受付ステップにおいて受け付けた音声データを解析することにより得られる、話者による発話状況の時系列推移を示す音声グラフにおいて、区間特定ステップにおいて特定された第1区間群を音声グラフと同じ時系列軸上に提示するとともに、第1トピックを第1区間群に関連づけて提示するステップである、付記7記載のプログラム。
これにより、対話において話者が行った発話状況を時系列的に示す音声グラフと重ねて、話者がどのような話題について発話を行ったのか、ユーザは一目で確認することができる。
プログラムは、プロセッサに、第1ユーザから1または複数のキーワードを受け付けるキーワード受付ステップ(S502)と、キーワード受付ステップにおいて受け付けた1または複数のキーワードを、所定の話題に関する第1トピックと関連づけて記憶するトピック記憶ステップ(S503)と、を実行させる、付記1記載のプログラム。
これにより、ユーザが自身で予めキーワードと関連づけて記憶させたトピックに基づき、対話において話者がどのような話題に関してコミュニケーションを行ったのか、一目で確認することができる。
プログラムは、プロセッサに、受付ステップにおいて受け付けた音声データを記憶する音声記憶ステップ(S512)と、音声記憶ステップにおいて記憶された音声データに基づき、第1トピックに新たに関連づける1または複数の新たなキーワードを第1ユーザに対して提示するキーワード提示ステップ(S501)と、を実行させ、キーワード受付ステップ(S502)は、キーワード提示ステップにおいて第1ユーザに対して提示された複数の新たなキーワードのうち、第1ユーザにより選択された1または複数のキーワードを受け付けるステップである、付記9記載のプログラム。
これにより、ユーザは過去の対話情報において用いられたキーワードに基づき、トピックに新たに関連づけるのが好ましい1または複数の新たなキーワードの提示を受けることができる。ユーザは、簡単にトピックを定義し、記憶することができる。
音声抽出ステップ(S513)は、対話が終了する前に、受付ステップにおいて受け付けた音声データから、発話区間ごとに複数の区間音声データを抽出するステップであり、関連度算定ステップ(S514)は、対話が終了する前に、複数の区間音声データに含まれる区間音声データごとに、第1トピックとの関連度を示す第1関連度を算定するステップである、付記4記載のプログラム。
これにより、区間音声データとトピックとの関連度の算定を対話中にリアルタイムに実行することができる。例えば、商談中に、話者がどのような話題に関してコミュニケーションを行っているのか確認することができる。
関連度算定ステップ(S514)は、複数の区間音声データごとに、それぞれ複数のキーワードと関連づけられた複数のトピックごとの関連度を算定するステップであり、プログラムは、プロセッサに、関連度算定ステップにおいて算定された複数のトピックごとの関連度に基づき、対話に対する応対メモを特定するメモ特定ステップ(S516)と、メモ特定ステップにおいて特定された応対メモを、対話と関連づけて記憶する記憶ステップ(S516)と、を実行させる付記4記載のプログラム。
これにより、対話全体を特徴づけるトピックを特定し、当該トピックに関する応対メモを対話に対して付与することにより、対話情報を管理することができる。
関連度算定ステップ(S514)は、第1トピックに関連づけられた複数のキーワードのうち、音声抽出ステップにおいて抽出された複数の区間音声データに多く含まれるキーワードほど関連度へ与える重みが小さくなるようにし、複数の区間音声データごとに第1トピックに関連づけられた複数のキーワードの重み付けを考慮した一致度を、第1トピックとの関連度を示す第1関連度として算定する、付記4記載のプログラム。
これにより、トピックに関連づけられたキーワードのうち、多くの区間音声データに含まれるありふれたキーワードの重みを小さくすることができる。特定の区間音声データに出現するキーワードの重要度が高まることにより、区間音声データとトピックとの関連度をより正確に算定することができる。
関連度算定ステップ(S514)は、第1トピックに関連づけられた複数のキーワードのうち、第1関連度の算定対象となる対象区間音声データから時系列的に所定個数前までの複数の区間音声データに多く含まれるキーワードほど関連度へ与える重みが小さくなるようにし、複数の区間音声データごとに第1トピックに関連づけられた複数のキーワードとの重み付けを考慮した一致度を、第1トピックとの関連度を示す第1関連度として算定する、付記13記載のプログラム。
これにより、トピックに関連づけられたキーワードのうち、対象となる区間音声データ近傍の複数の過去の区間音声データのみを考慮してより少ない計算量で、区間音声データとトピックとの関連度をより正確に算定することができる。また、トピックとの関連度をリアルタイムで計算することができる。
区間特定ステップ(S525)は、時系列的に並べられた複数の区間音声データのそれぞれに対して算定された第1関連度に基づき移動平均を算定するステップと、算定された移動平均が所定値以上の区間音声データを、第1区間群として特定するステップと、を含む、付記4記載のプログラム。
これにより、発話区間ごとに関連度が高いトピックが短期間で切り替わる場合においても、トピックの関連度を平滑化することにより、トピックについて言及している区間群をまとめて特定することができる。対話において、話者がどのような話題について発話を行ったのか、ユーザはより確認しやすくなる。
区間特定ステップ(S525)は、時系列的に並べられた複数の区間音声データのうち、算定された第1関連度が所定値以上の連続する複数の区間音声データを、第1区間群として特定するステップである、付記4記載のプログラム。
これにより、特定のトピックについて連続して関連度が高い区間音声データを、トピックについて言及している区間群としてまとめて特定することができる。対話において、話者がどのような話題について発話を行ったのか、ユーザはより確認しやすくなる。
プロセッサと、記憶部とを備える情報処理装置であって、プロセッサは、付記1から16のいずれか記載のプログラムを実行する、情報処理装置。
これにより、対話において話者がどのような話題(トピック)に関してコミュニケーションを行ったのか、ユーザは一目で確認することができる。
プロセッサと、記憶部とを備える情報処理装置を含む情報処理システムであって、プロセッサは、付記1から16のいずれか記載のプログラムを実行する、情報処理システム。
これにより、対話において話者がどのような話題(トピック)に関してコミュニケーションを行ったのか、ユーザは一目で確認することができる。
プロセッサと、記憶部とを備えるコンピュータにより実行される情報処理方法であって、プロセッサに、付記1から16のいずれか記載のプログラムを実行させる、情報処理方法。
これにより、対話において話者がどのような話題(トピック)に関してコミュニケーションを行ったのか、ユーザは一目で確認することができる。
プロセッサと、表示装置とを備える情報処理端末であって、プロセッサは、付記5から8のいずれか記載のプログラムを実行可能な情報処理装置において実行される提示ステップにより提示された情報を表示装置に表示可能である、情報処理端末。
これにより、対話において話者がどのような話題(トピック)に関してコミュニケーションを行ったのか、ユーザは一目で確認することができる。
Claims (20)
- プロセッサと、記憶部とを備え、第1ユーザと第2ユーザとの間の対話に関する情報をコンピュータに処理させるプログラムであって、
前記プログラムは、前記プロセッサに、
前記対話に関する音声データを受け付ける受付ステップと、
前記受付ステップにおいて受け付けた前記音声データから、発話区間ごとに複数の区間音声データを抽出する音声抽出ステップと、
前記複数の区間音声データのうち、所定の話題に関する第1トピックと関連する1または複数の区間音声データを特定する区間特定ステップと、
前記複数の区間音声データのうち、前記区間特定ステップにおいて特定された前記1または複数の区間音声データと、前記第1トピックと、に基づき、前記1または複数の区間音声データに含まれるテキスト情報を要約した要約テキストを生成する要約ステップと、
を実行させるプログラム。 - 前記要約ステップは、前記1または複数の区間音声データに含まれるテキスト情報のうち、前記第1トピックと関連性が高い箇所を抽出することにより、前記1または複数の区間音声データに含まれるテキスト情報を要約した要約テキストを生成するステップである、
請求項1記載のプログラム。 - 前記要約ステップは、前記1または複数の区間音声データに含まれるテキスト情報と、前記第1トピックに関連づけられた前記複数のキーワードを入力データとして、学習モデルに適用することにより、前記要約テキストを生成するステップである、
請求項1記載のプログラム。 - 前記プログラムは、前記プロセッサに、
前記複数の区間音声データごとに、前記第1トピックとの関連度を示す第1関連度を算定する関連度算定ステップと、
を実行させ、
前記区間特定ステップは、前記複数の区間音声データのうち、前記関連度算定ステップにおいて算定された前記第1関連度が所定値以上の1または複数の区間音声データを含む、第1区間群を特定するステップであり、
前記要約ステップは、前記区間特定ステップにおいて特定された前記第1区間群に含まれる1または複数の区間音声データと、前記第1トピックと、に基づき、前記1または複数の区間音声データに含まれるテキスト情報を要約した要約テキストを生成するステップである、
請求項1記載のプログラム。 - 前記プログラムは、前記プロセッサに、
前記要約ステップにおいて生成された前記要約テキストを、前記1または複数の区間音声データと関連づけて提示する提示ステップと、
を実行させる請求項1記載のプログラム。 - 前記プログラムは、前記プロセッサに、
前記要約ステップにおいて生成された前記要約テキストを、前記区間特定ステップにおいて特定されただい1区間群と関連づけて提示する提示ステップと、
を実行させる請求項4記載のプログラム。 - 前記プログラムは、前記プロセッサに、
前記区間特定ステップにおいて特定された前記第1区間群を、前記第1トピックと関連づけて提示する提示ステップと、
を実行させる請求項4記載のプログラム。 - 前記提示ステップは、前記受付ステップにおいて受け付けた前記音声データを解析することにより得られる、話者による発話状況の時系列推移を示す音声グラフにおいて、前記区間特定ステップにおいて特定された前記第1区間群を前記音声グラフと同じ時系列軸上に提示するとともに、前記第1トピックを前記第1区間群に関連づけて提示するステップである、
請求項7記載のプログラム。 - 前記プログラムは、前記プロセッサに、
前記第1ユーザから1または複数のキーワードを受け付けるキーワード受付ステップと、
前記キーワード受付ステップにおいて受け付けた前記1または複数のキーワードを、所定の話題に関する前記第1トピックと関連づけて記憶するトピック記憶ステップと、
を実行させる、
請求項1記載のプログラム。 - 前記プログラムは、前記プロセッサに、
前記受付ステップにおいて受け付けた前記音声データを記憶する音声記憶ステップと、
前記音声記憶ステップにおいて記憶された前記音声データに基づき、前記第1トピックに新たに関連づける1または複数の新たなキーワードを前記第1ユーザに対して提示するキーワード提示ステップと、
を実行させ、
前記キーワード受付ステップは、前記キーワード提示ステップにおいて前記第1ユーザに対して提示された前記複数の新たなキーワードのうち、前記第1ユーザにより選択された1または複数のキーワードを受け付けるステップである、
請求項9記載のプログラム。 - 前記音声抽出ステップは、前記対話が終了する前に、前記受付ステップにおいて受け付けた前記音声データから、前記発話区間ごとに複数の区間音声データを抽出するステップであり、
前記関連度算定ステップは、前記対話が終了する前に、前記複数の区間音声データに含まれる区間音声データごとに、前記第1トピックとの関連度を示す前記第1関連度を算定するステップである、
請求項4記載のプログラム。 - 前記関連度算定ステップは、前記複数の区間音声データごとに、それぞれ複数のキーワードと関連づけられた複数のトピックごとの関連度を算定するステップであり、
前記プログラムは、前記プロセッサに、
前記関連度算定ステップにおいて算定された前記複数のトピックごとの関連度に基づき、前記対話に対する応対メモを特定するメモ特定ステップと、
前記メモ特定ステップにおいて特定された前記応対メモを、前記対話と関連づけて記憶する記憶ステップと、
を実行させる請求項4記載のプログラム。 - 前記関連度算定ステップは、
前記第1トピックに関連づけられた複数のキーワードのうち、前記音声抽出ステップにおいて抽出された複数の区間音声データに多く含まれるキーワードほど関連度へ与える重みが小さくなるようにし、
前記複数の区間音声データごとに前記第1トピックに関連づけられた前記複数のキーワードの重み付けを考慮した一致度を、前記第1トピックとの関連度を示す前記第1関連度として算定する、
請求項4記載のプログラム。 - 前記関連度算定ステップは、
前記第1トピックに関連づけられた複数のキーワードのうち、前記第1関連度の算定対象となる対象区間音声データから時系列的に所定個数前までの複数の区間音声データに多く含まれるキーワードほど関連度へ与える重みが小さくなるようにし、
前記複数の区間音声データごとに前記第1トピックに関連づけられた前記複数のキーワードとの前記重み付けを考慮した前記一致度を、前記第1トピックとの関連度を示す前記第1関連度として算定する、
請求項13記載のプログラム。 - 前記区間特定ステップは、
時系列的に並べられた前記複数の区間音声データのそれぞれに対して算定された前記第1関連度に基づき移動平均を算定するステップと、
算定された前記移動平均が所定値以上の前記区間音声データを、前記第1区間群として特定するステップと、
を含む、
請求項4記載のプログラム。 - 前記区間特定ステップは、
時系列的に並べられた前記複数の区間音声データのうち、算定された前記第1関連度が所定値以上の連続する複数の前記区間音声データを、前記第1区間群として特定するステップである、
請求項4記載のプログラム。 - プロセッサと、記憶部とを備える情報処理装置であって、
前記プロセッサは、請求項1から16のいずれか記載のプログラムを実行する、
情報処理装置。 - プロセッサと、記憶部とを備える情報処理装置を含む情報処理システムであって、
前記プロセッサは、請求項1から16のいずれか記載のプログラムを実行する、
情報処理システム。 - プロセッサと、記憶部とを備えるコンピュータにより実行される情報処理方法であって、
前記プロセッサに、請求項1から16のいずれか記載のプログラムを実行させる、
情報処理方法。 - プロセッサと、表示装置とを備える情報処理端末であって、
前記プロセッサは、請求項5から8のいずれか記載のプログラムを実行可能な情報処理装置において実行される前記提示ステップにより提示された情報を前記表示装置に表示可能である、
情報処理端末。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022079947A JP7169031B1 (ja) | 2022-05-16 | 2022-05-16 | プログラム、情報処理装置、情報処理システム、情報処理方法、情報処理端末 |
JP2022169442A JP2023169093A (ja) | 2022-05-16 | 2022-10-21 | プログラム、情報処理装置、情報処理システム、情報処理方法、情報処理端末 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022079947A JP7169031B1 (ja) | 2022-05-16 | 2022-05-16 | プログラム、情報処理装置、情報処理システム、情報処理方法、情報処理端末 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022169442A Division JP2023169093A (ja) | 2022-05-16 | 2022-10-21 | プログラム、情報処理装置、情報処理システム、情報処理方法、情報処理端末 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP7169031B1 JP7169031B1 (ja) | 2022-11-10 |
JP2023168692A true JP2023168692A (ja) | 2023-11-29 |
Family
ID=83995269
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022079947A Active JP7169031B1 (ja) | 2022-05-16 | 2022-05-16 | プログラム、情報処理装置、情報処理システム、情報処理方法、情報処理端末 |
JP2022169442A Pending JP2023169093A (ja) | 2022-05-16 | 2022-10-21 | プログラム、情報処理装置、情報処理システム、情報処理方法、情報処理端末 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022169442A Pending JP2023169093A (ja) | 2022-05-16 | 2022-10-21 | プログラム、情報処理装置、情報処理システム、情報処理方法、情報処理端末 |
Country Status (1)
Country | Link |
---|---|
JP (2) | JP7169031B1 (ja) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017134686A (ja) * | 2016-01-28 | 2017-08-03 | 日産自動車株式会社 | 解析システム、解析方法、及び解析プログラム |
JP2019029984A (ja) * | 2017-07-27 | 2019-02-21 | 大日本印刷株式会社 | 情報処理装置、情報処理方法、映像データ、プログラム、及び情報処理システム |
JP2020529680A (ja) * | 2017-08-08 | 2020-10-08 | Line株式会社 | 通話中の感情を認識し、認識された感情を活用する方法およびシステム |
JP2021036292A (ja) * | 2019-08-30 | 2021-03-04 | 富士通株式会社 | 情報処理プログラム、情報処理方法および情報処理装置 |
CN112765344A (zh) * | 2021-01-12 | 2021-05-07 | 哈尔滨工业大学 | 一种基于会议记录生成会议摘要的方法、装置及存储介质 |
JP2021096873A (ja) * | 2016-01-28 | 2021-06-24 | ソニーグループ株式会社 | 通信システム、通信制御方法およびプログラム |
WO2021255795A1 (ja) * | 2020-06-15 | 2021-12-23 | 日本電信電話株式会社 | 情報処理装置、情報処理方法およびプログラム |
-
2022
- 2022-05-16 JP JP2022079947A patent/JP7169031B1/ja active Active
- 2022-10-21 JP JP2022169442A patent/JP2023169093A/ja active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017134686A (ja) * | 2016-01-28 | 2017-08-03 | 日産自動車株式会社 | 解析システム、解析方法、及び解析プログラム |
JP2021096873A (ja) * | 2016-01-28 | 2021-06-24 | ソニーグループ株式会社 | 通信システム、通信制御方法およびプログラム |
JP2019029984A (ja) * | 2017-07-27 | 2019-02-21 | 大日本印刷株式会社 | 情報処理装置、情報処理方法、映像データ、プログラム、及び情報処理システム |
JP2020529680A (ja) * | 2017-08-08 | 2020-10-08 | Line株式会社 | 通話中の感情を認識し、認識された感情を活用する方法およびシステム |
JP2021036292A (ja) * | 2019-08-30 | 2021-03-04 | 富士通株式会社 | 情報処理プログラム、情報処理方法および情報処理装置 |
WO2021255795A1 (ja) * | 2020-06-15 | 2021-12-23 | 日本電信電話株式会社 | 情報処理装置、情報処理方法およびプログラム |
CN112765344A (zh) * | 2021-01-12 | 2021-05-07 | 哈尔滨工业大学 | 一种基于会议记录生成会议摘要的方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP2023169093A (ja) | 2023-11-29 |
JP7169031B1 (ja) | 2022-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10824814B2 (en) | Generalized phrases in automatic speech recognition systems | |
US20190272269A1 (en) | Method and system of classification in a natural language user interface | |
JP6998680B2 (ja) | 対話型業務支援システムおよび対話型業務支援プログラム | |
US20160012818A1 (en) | System and method for semantically exploring concepts | |
US11798539B2 (en) | Systems and methods relating to bot authoring by mining intents from conversation data via intent seeding | |
US11321675B2 (en) | Cognitive scribe and meeting moderator assistant | |
JP2016085697A (ja) | コンプライアンスチェックシステムおよびコンプライアンスチェックプログラム | |
US10282417B2 (en) | Conversational list management | |
KR20160039273A (ko) | 컨셉 검색 및 탐색 시스템 및 방법 | |
JP7126865B2 (ja) | 対話型業務支援システム | |
JP7169031B1 (ja) | プログラム、情報処理装置、情報処理システム、情報処理方法、情報処理端末 | |
JP7169030B1 (ja) | プログラム、情報処理装置、情報処理システム、情報処理方法、情報処理端末 | |
KR20200082232A (ko) | 감성 분석 장치, 이를 포함하는 대화형 에이전트 시스템, 감성 분석을 수행하기 위한 단말 장치 및 감성 분석 방법 | |
JP2023168691A (ja) | プログラム、情報処理装置、情報処理システム、情報処理方法、情報処理端末 | |
JP2021173988A (ja) | 音声解析システム | |
Anamalamudi et al. | Smarty: An intelligent voice response system model for indian local languages | |
JP7168262B1 (ja) | プログラム、情報処理システム及び情報処理方法 | |
JP2023076017A (ja) | プログラム、情報処理システム及び情報処理方法 | |
JP2023159261A (ja) | 情報処理システム、情報処理方法及びプログラム | |
CN116541488A (zh) | 一种文本搜索方法、装置、计算机设备和存储介质 | |
WO2023192200A1 (en) | Systems and methods for attending and analyzing virtual meetings | |
CN113570324A (zh) | 外呼流程编辑方法、装置、电子设备及存储介质 | |
JP2021189890A (ja) | 対話装置、対話方法及び対話システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220516 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20220516 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220711 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220819 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221017 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221021 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7169031 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |