JP7169031B1 - Program, information processing device, information processing system, information processing method, information processing terminal - Google Patents
Program, information processing device, information processing system, information processing method, information processing terminal Download PDFInfo
- Publication number
- JP7169031B1 JP7169031B1 JP2022079947A JP2022079947A JP7169031B1 JP 7169031 B1 JP7169031 B1 JP 7169031B1 JP 2022079947 A JP2022079947 A JP 2022079947A JP 2022079947 A JP2022079947 A JP 2022079947A JP 7169031 B1 JP7169031 B1 JP 7169031B1
- Authority
- JP
- Japan
- Prior art keywords
- topic
- user
- data
- dialogue
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 41
- 238000003672 processing method Methods 0.000 title claims abstract description 7
- 238000000034 method Methods 0.000 claims description 79
- 230000008569 process Effects 0.000 claims description 68
- 238000004364 calculation method Methods 0.000 claims description 43
- 230000003993 interaction Effects 0.000 claims description 26
- 230000004044 response Effects 0.000 claims description 19
- 238000000605 extraction Methods 0.000 claims description 14
- 239000000284 extract Substances 0.000 claims description 4
- 230000007704 transition Effects 0.000 claims description 4
- 238000012545 processing Methods 0.000 abstract description 148
- 230000008451 emotion Effects 0.000 description 191
- 238000004458 analytical method Methods 0.000 description 125
- 238000013210 evaluation model Methods 0.000 description 65
- 230000002996 emotional effect Effects 0.000 description 59
- 239000013598 vector Substances 0.000 description 36
- 238000010586 diagram Methods 0.000 description 30
- 230000008520 organization Effects 0.000 description 29
- 238000013528 artificial neural network Methods 0.000 description 18
- 238000004891 communication Methods 0.000 description 15
- 238000013135 deep learning Methods 0.000 description 15
- 238000000611 regression analysis Methods 0.000 description 8
- 241001122315 Polites Species 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000002452 interceptive effect Effects 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 239000000945 filler Substances 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 238000012795 verification Methods 0.000 description 5
- 230000033001 locomotion Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 230000001568 sexual effect Effects 0.000 description 2
- 208000019901 Anxiety disease Diseases 0.000 description 1
- 230000036506 anxiety Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
【課題】対話において話者間でどのような話題に関してコミュニケーションを行ったのか確認するプログラム、情報処理装置、情報処理システム、情報処理方法及び情報処理端末を提供する。【解決手段】ネットワークを介して接続されたサーバ、複数のユーザ端末、CRMシステム及び音声サーバを備えるシステムにおいて、サーバの制御部は、対話に関する音声データを受け付け、受け付けた音声データから、発話区間ごとに複数の区間音声データを抽出し、複数の区間音声データのうち、所定の話題に関する第1トピックと関連する1又は複数の区間音声データを特定し、複数の区間音声データのうち、特定した1又は複数の区間音声データと、第1トピックと、に基づき、1又は複数の区間音声データに含まれるテキスト情報を要約した要約テキストを生成するトピック提示処理を実行するトピック処理部を備える。【選択図】図19A program, an information processing device, an information processing system, an information processing method, and an information processing terminal are provided for confirming what topic was communicated between speakers in a dialogue. In a system comprising a server connected via a network, a plurality of user terminals, a CRM system, and a voice server, a control unit of the server receives voice data relating to dialogue, and from the received voice data, extracting a plurality of segmental audio data, identifying one or a plurality of segmental audio data related to a first topic related to a predetermined topic among the plurality of segmental audio data, and identifying one or more segmental audio data among the plurality of segmental audio data Alternatively, a topic processing unit that executes topic presentation processing for generating summary text summarizing text information included in one or more pieces of segmental speech data based on the plurality of pieces of segmental speech data and the first topic. [Selection drawing] Fig. 19
Description
本開示は、プログラム、情報処理装置、情報処理システム、情報処理方法、情報処理端末に関する。 The present disclosure relates to a program, an information processing device, an information processing system, an information processing method, and an information processing terminal.
複数のユーザ間で行われるオンライン対話サービスが知られている。
特許文献1には、客観的な指標を考慮しつつ、より効率的な営業活動の実現を補助する手法が開示されている。
Online interactive services between multiple users are known.
対話において話者間がどのような話題に関してコミュニケーションを行ったのか確認することができていないという課題がある。
そこで、本開示は、上記課題を解決すべくなされたものであって、その目的は、対話において話者間でどのような話題に関してコミュニケーションを行ったのか確認する技術を提供することである。
There is a problem that it is not possible to confirm what topic the speakers communicated about in the dialogue.
Accordingly, the present disclosure has been made to solve the above problems, and its purpose is to provide a technique for confirming what topics have been communicated between speakers in a dialogue.
プロセッサと、記憶部とを備え、第1ユーザと第2ユーザとの間の対話に関する情報をコンピュータに処理させるプログラムであって、プログラムは、プロセッサに、対話に関する音声データを受け付ける受付ステップと、受付ステップにおいて受け付けた音声データから、発話区間ごとに複数の区間音声データを抽出する音声抽出ステップと、複数の区間音声データのうち、所定の話題に関する第1トピックと関連する1または複数の区間音声データを特定する区間特定ステップと、複数の区間音声データのうち、区間特定ステップにおいて特定された1または複数の区間音声データと、第1トピックと、に基づき、1または複数の区間音声データに含まれるテキスト情報を要約した要約テキストを生成する要約ステップと、を実行させるプログラム。 A program, comprising a processor and a storage unit, for causing a computer to process information relating to a dialogue between a first user and a second user, the program comprising: a receiving step of receiving voice data regarding the dialogue to the processor; a speech extraction step of extracting a plurality of segmental speech data for each utterance segment from the speech data received in the step; included in the one or more section audio data based on the section identification step of identifying the section audio data, the one or more section audio data identified in the section identification step among the plurality of section audio data, and the first topic A program that causes a summary step to generate summary text that summarizes textual information.
本開示によれば、対話サービスにおいて話者がどのような話題に関してコミュニケーションを行ったのか特定することができる。 According to the present disclosure, it is possible to identify what topic the speaker has communicated with in the dialogue service.
以下、本開示の実施形態について図面を参照して説明する。実施形態を説明する全図において、共通の構成要素には同一の符号を付し、繰り返しの説明を省略する。なお、以下の実施形態は、特許請求の範囲に記載された本開示の内容を不当に限定するものではない。また、実施形態に示される構成要素のすべてが、本開示の必須の構成要素であるとは限らない。また、各図は模式図であり、必ずしも厳密に図示されたものではない。 Hereinafter, embodiments of the present disclosure will be described with reference to the drawings. In all the drawings for explaining the embodiments, common constituent elements are given the same reference numerals, and repeated explanations are omitted. It should be noted that the following embodiments do not unduly limit the content of the present disclosure described in the claims. Also, not all the components shown in the embodiments are essential components of the present disclosure. Each figure is a schematic diagram and is not necessarily strictly illustrated.
<システム1の構成>
本開示におけるシステム1は、オペレータである第1ユーザと顧客である第2ユーザとの間でオンラインで行われる対話サービス(オンライン対話サービス)を提供する情報処理システムである。なお、本開示におけるシステム1は、第1ユーザ、第2ユーザに加えて、他の1または複数のユーザを含む三者以上のユーザ間でオンラインで行われる対話サービスも提供可能としても良い。
システム1は、ネットワークNを介して接続された、サーバ10、第1ユーザ端末20、第2ユーザ端末30、CRMシステム50、音声サーバ(PBX)60の情報処理装置を備える。
図1は、システム1の機能構成を示すブロック図である。
図2は、サーバ10の機能構成を示すブロック図である。
図3は、第1ユーザ端末20の機能構成を示すブロック図である。
図4は、第2ユーザ端末30の機能構成を示すブロック図である。
図5は、CRMシステム50の機能構成を示すブロック図である。
<Configuration of
A
The
FIG. 1 is a block diagram showing the functional configuration of
FIG. 2 is a block diagram showing the functional configuration of the
FIG. 3 is a block diagram showing the functional configuration of the first user terminal 20. As shown in FIG.
FIG. 4 is a block diagram showing the functional configuration of the second user terminal 30. As shown in FIG.
FIG. 5 is a block diagram showing the functional configuration of the
各情報処理装置は演算装置と記憶装置とを備えたコンピュータにより構成されている。コンピュータの基本ハードウェア構成および、当該ハードウェア構成により実現されるコンピュータの基本機能構成は後述する。サーバ10、第1ユーザ端末20、第2ユーザ端末30、CRMシステム50、音声サーバ(PBX)60のそれぞれについて、後述するコンピュータの基本ハードウェア構成およびコンピュータの基本機能構成と重複する説明は省略する。
Each information processing device is composed of a computer having an arithmetic device and a storage device. The basic hardware configuration of the computer and the basic functional configuration of the computer realized by the hardware configuration will be described later. For each of the
<サーバ10の構成>
サーバ10は、第1ユーザと第2ユーザとの間で行われる対話に関連するデータ(対話データ)を記憶、管理するサービスを提供する情報処理装置である。
サーバ10は、記憶部101、制御部104を備える。
<Configuration of
The
The
<サーバ10の記憶部101の構成>
サーバ10の記憶部101は、アプリケーションプログラム1011、感情評価モデル1031、印象評価モデル1032、第1印象評価モデル1033、第2印象評価モデル1034、要約モデル1035、ユーザテーブル1012、組織テーブル1013、対話テーブル1014、ラベルテーブル1015、音声区間テーブル1016、トピック関連度テーブル1017、感情条件マスタ1021、話者タイプマスタ1022、トピックマスタ1023を備える。
<Configuration of Storage Unit 101 of
The storage unit 101 of the
アプリケーションプログラム1011は、サーバ10の制御部104を各機能ユニットとして機能させるためのプログラムである。
アプリケーションプログラム1011は、ウェブブラウザアプリケーションなどのアプリケーションを含む。
The
感情評価モデル1031は、音声データ、動画データ、音声データまたは動画データにおけるユーザの発言内容に関するテキストデータを入力データとして、複数の感情状態ごとの数値的な強度、数値を出力するためのモデルである。
The
印象評価モデル1032は、音声データ、動画データ、音声データまたは動画データにおけるユーザの発言内容に関するテキストデータを入力データとして、複数の印象ごとの数値的な強度、数値を出力するためのモデルである。
The
第1印象評価モデル1033は、音声データ、動画データ、音声データまたは動画データにおけるユーザの発言内容に関するテキストデータを入力データとして、話者の話し方に関する対話特徴量を出力するためのモデルである。対話特徴量とは、話者の話速、抑揚、丁寧な表現の数、フィラーの数および文法的な発話の数のうち少なくともいずれか1つの話し方に関する特徴量である。
The first
第2印象評価モデル1034は、対話特徴量を入力データとして、複数の印象ごとの数値的な強度、数値を出力するためのモデルである。
The second
ユーザテーブル1012は、サービスを利用する会員ユーザ(以下、ユーザ)の情報を記憶し管理するテーブルである。ユーザは、サービスの利用登録を行うことで、当該ユーザの情報がユーザテーブル1012の新しいレコードに記憶される。これにより、ユーザは本開示にかかるサービスを利用できるようになる。
ユーザテーブル1012は、ユーザIDを主キーとして、ユーザID、CRMID、組織ID、ユーザ名、ユーザ属性のカラムを有するテーブルである。
図6は、ユーザテーブル1012のデータ構造を示す図である。
The user table 1012 is a table that stores and manages information on member users (hereinafter referred to as users) who use the service. By registering to use the service, the user's information is stored in a new record in the user table 1012 . This enables the user to use the service according to the present disclosure.
The user table 1012 is a table having user ID, CRM ID, organization ID, user name, and user attribute columns with user ID as a primary key.
FIG. 6 is a diagram showing the data structure of the user table 1012. As shown in FIG.
ユーザIDは、ユーザを識別するためのユーザ識別情報を記憶する項目である。ユーザ識別情報は、ユーザごとにユニークな値が設定されている項目である。
CRMIDは、CRMシステム50において、ユーザを識別するためのユーザ識別情報を記憶する項目である。ユーザはCRMIDによりCRMシステム50にログインすることにより、CRMサービスの提供を受けることができる。サーバ10におけるユーザIDは、CRMシステム50におけるCRMIDと関連づけられている。
組織IDは、組織を識別するための組織識別情報を記憶する項目である。
ユーザ名は、ユーザの氏名を記憶する項目である。ユーザ名は、氏名ではなく、ニックネームなど任意の文字列を設定しても良い。
ユーザ属性は、ユーザの年齢、性別、出身地、方言、職種(営業、カスタマーサポートなど)などのユーザの属性に関する情報を記憶する項目である。ユーザ属性は、ユーザ個人の属性に関する情報に加え、ユーザが所属する組織、企業、グループ等に関する業種、事業規模、売上げ規模等の企業属性に関する情報を含んでも良い。
User ID is an item that stores user identification information for identifying a user. User identification information is an item in which a unique value is set for each user.
CRMID is an item that stores user identification information for identifying a user in the
The organization ID is an item that stores organization identification information for identifying an organization.
The user name is an item that stores the name of the user. Any character string such as a nickname may be set as the user name instead of the full name.
The user attribute is an item that stores information related to user attributes such as age, gender, hometown, dialect, occupation (sales, customer support, etc.) of the user. The user attributes may include information about the user's personal attributes, as well as information about the company's attributes such as the organization, company, group, etc. to which the user belongs.
組織テーブル1013は、ユーザが所属する組織に関する情報(組織情報)を記憶し管理するテーブルである。組織は、会社、法人、企業グループ、サークル、各種団体など任意の組織、グループが含まれる。組織は、会社の部署(営業部、総務部、カスタマーサポート部)などのより詳細なサブグループごとに定義しても良い。
組織テーブル1013は、組織IDを主キーとして、組織ID、組織名、組織属性のカラムを有するテーブルである。
図7は、組織テーブル1013のデータ構造を示す図である。
The organization table 1013 is a table that stores and manages information (organization information) regarding organizations to which users belong. Organizations include arbitrary organizations and groups such as companies, corporations, corporate groups, circles, and various organizations. Organizations may also be defined by more detailed sub-groups such as company departments (sales department, general affairs department, customer support department).
The organization table 1013 is a table having columns of organization ID, organization name, and organization attribute with organization ID as a primary key.
FIG. 7 is a diagram showing the data structure of the organization table 1013. As shown in FIG.
組織IDは、組織を識別するための組織識別情報を記憶する項目である。組織識別情報は、組織情報ごとにユニークな値が設定されている項目である。
組織名は、組織の名称を記憶する項目である。組織名は任意の文字列を設定できる。
組織属性は、組織種別(会社、企業グループ、その他団体など)、業種(不動産、金融など)などの組織の属性に関する情報を記憶する項目である。
The organization ID is an item that stores organization identification information for identifying an organization. Organization identification information is an item in which a unique value is set for each organization information.
The organization name is an item that stores the name of the organization. Any character string can be set for the organization name.
The organization attribute is an item that stores information related to organization attributes such as organization type (company, corporate group, other organization, etc.) and industry (real estate, finance, etc.).
対話テーブル1014は、ユーザと顧客との間で行われる対話に関連する情報(対話情報)を記憶し管理するためのテーブルである。
対話テーブル1014は、対話IDを主キーとして、対話ID、ユーザID、顧客ID、対話カテゴリ、受発信種別、音声データ、動画データのカラムを有するテーブルである。
図8は、対話テーブル1014のデータ構造を示す図である。
The dialogue table 1014 is a table for storing and managing information (dialogue information) related to dialogue between the user and the customer.
The dialogue table 1014 is a table having columns of dialogue ID, user ID, customer ID, dialogue category, reception/transmission type, audio data, and video data, with the dialogue ID as a primary key.
FIG. 8 is a diagram showing the data structure of the dialogue table 1014. As shown in FIG.
対話IDは、対話を識別するための対話識別情報を記憶する項目である。対話識別情報は、対話情報ごとにユニークな値が設定されている項目である。
ユーザIDは、ユーザと顧客との間で行われる対話において、ユーザを識別するためのユーザ識別情報を記憶する項目である。対話情報ごとに、複数のユーザIDが関連づけられていても良い。
顧客IDは、ユーザと顧客との間で行われる対話において、顧客を識別するためのユーザ識別情報を記憶する項目である。対話情報ごとに、複数の顧客のユーザIDが関連づけられていても良い。
対話カテゴリは、ユーザと顧客との間で行われた対話の種類(カテゴリ)を記憶する項目である。対話データは、対話カテゴリにより分類される。対話カテゴリには、ユーザと顧客との間で行われる対話の目的などに応じて、テレフォンオペレーター、テレマーケティング、カスタマーサポート、テクニカルサポートなどの値が記憶される。
受発信種別は、ユーザと顧客との間で行われた対話が、ユーザが発信した(アウトバウンド)ものか、ユーザが受信した(インバウンド)もののいずれかを区別するための情報を記憶する項目である。また、3者以上のユーザによる対話の際には、ルームという受発信種別が記憶される。
音声データは、マイクにより集音された音声データを記憶する項目である。他の場所に配置された音声データファイルに対する参照情報(パス)を記憶するものとしても良い。音声データのフォーマットは、AAC,ATRAC、mp3、mp4など任意のデータフォーマットで良い。
音声データは、ユーザの音声と顧客の音声とが、それぞれ独立して識別可能な識別子が設定された形式のデータであっても良い。この場合、サーバ10の制御部104は、ユーザの音声、顧客の音声に対してそれぞれ独立した解析処理を実行できる。また、ユーザ、顧客の音声データに基づき、ユーザ、顧客のユーザIDを特定できる。
本開示において、音声データに替えて、音声情報を含む動画データを用いても構わない。また、本開示における音声データは、動画データに含まれる音声データも含む。
動画データは、カメラ等による撮影された動画データを記憶する項目である。他の場所に配置された動画データファイルに対する参照情報(パス)を記憶するものとしても良い。動画データのフォーマットは、MP4、MOV、WMV、AVI、AVCHDなど任意のデータフォーマットで良い。
動画データは、ユーザの動画と顧客の動画とが、それぞれ独立して識別可能な識別子が設定された形式のデータであっても良い。この場合、サーバ10の制御部104は、ユーザの動画、顧客の動画に対してそれぞれ独立した解析処理を実行できる。また、ユーザ、顧客の動画データに基づき、ユーザ、顧客のユーザIDを特定できる。
The dialogue ID is an item that stores dialogue identification information for identifying a dialogue. Dialogue identification information is an item in which a unique value is set for each piece of dialogue information.
The user ID is an item that stores user identification information for identifying the user in the interaction between the user and the customer. A plurality of user IDs may be associated with each piece of dialogue information.
The customer ID is an item that stores user identification information for identifying a customer in a dialogue between the user and the customer. A plurality of customer user IDs may be associated with each piece of dialogue information.
The dialogue category is an item that stores the type (category) of dialogue between the user and the customer. Interaction data is classified by interaction category. Values such as telephone operator, telemarketing, customer support, and technical support are stored in the dialogue category according to the purpose of the dialogue between the user and the customer.
The reception/transmission type is an item that stores information for distinguishing whether the dialogue between the user and the customer is transmitted by the user (outbound) or received by the user (inbound). . Also, when three or more users interact, the reception/transmission type of room is stored.
Audio data is an item that stores audio data collected by a microphone. It is also possible to store reference information (paths) to audio data files located in other locations. The audio data format may be any data format such as AAC, ATRAC, mp3, mp4.
The voice data may be data in a format in which the user's voice and the customer's voice are individually identifiable as identifiers. In this case, the control unit 104 of the
In the present disclosure, video data including audio information may be used instead of audio data. Also, audio data in the present disclosure includes audio data included in moving image data.
Moving image data is an item that stores moving image data captured by a camera or the like. It is also possible to store reference information (paths) for moving image data files located in other locations. Any data format such as MP4, MOV, WMV, AVI, and AVCHD may be used as the format of moving image data.
The moving image data may be data in a format in which identifiers are set so that the moving images of the user and the moving images of the customer are independently identifiable. In this case, the control unit 104 of the
ラベルテーブル1015は、ラベルに関する情報(ラベル情報)を記憶し管理するためのテーブルである。
ラベルテーブル1015は、対話ID、ラベルデータのカラムを有するテーブルである。
図9は、ラベルテーブル1015のデータ構造を示す図である。
The label table 1015 is a table for storing and managing information about labels (label information).
The label table 1015 is a table having columns of dialogue ID and label data.
FIG. 9 is a diagram showing the data structure of the label table 1015. As shown in FIG.
対話IDは、対話を識別するための対話識別情報を記憶する項目である。
ラベルデータは、対話を管理するためのラベル情報を記憶する項目である。ラベル情報は、分類名、ラベル、分類ラベル、タグなど、対話情報を管理するための付加的な情報である。
ラベルデータはラベル情報の名称を示す文字列でも良いし、他のテーブルに記憶されたラベル情報の名称を参照するためのラベルID等でも良い。
ラベルデータは、特定の対話における話者の感情状態に応じた分類情報を含む。分類データは、特定の対話において話者の応対の善し悪しを分類するための分類情報を含む。
The dialogue ID is an item that stores dialogue identification information for identifying a dialogue.
Label data is an item that stores label information for managing interactions. Label information is additional information for managing dialogue information, such as classification names, labels, classification labels, and tags.
The label data may be a character string indicating the name of label information, or may be a label ID or the like for referring to the name of label information stored in another table.
Label data includes classification information according to the speaker's emotional state in a particular dialogue. The classification data includes classification information for classifying whether the speaker's response is good or bad in a specific dialogue.
音声区間テーブル1016は、対話情報に含まれる複数の音声区間に関する情報(音声区間情報)を記憶し管理するためのテーブルである。
音声区間テーブル1016は、区間IDを主キーとして、区間ID、対話ID、話者ID、開始日時、終了日時、区間音声データ、区間動画データ、区間読上テキスト、感情データ、印象データ、トピックIDのカラムを有するテーブルである。
図10は、音声区間テーブル1016のデータ構造を示す図である。
The speech segment table 1016 is a table for storing and managing information (speech segment information) regarding a plurality of speech segments included in dialogue information.
The speech section table 1016 uses the section ID as a main key, and includes section ID, dialogue ID, speaker ID, start date and time, end date and time, section speech data, section video data, section reading text, emotion data, impression data, and topic ID. is a table with columns of
FIG. 10 is a diagram showing the data structure of the voice interval table 1016. As shown in FIG.
区間IDは、音声区間を識別するための区間識別情報を記憶する項目である。区間識別情報は、音声区間情報ごとにユニークな値が設定されている項目である。
対話IDは、音声区間情報が関連づけられる対話を識別するための対話識別情報を記憶する項目である。
話者IDは、音声区間情報が関連づけられる話者を識別するための話者識別情報を記憶する項目である。具体的に、話者IDは、対話に参加した、複数のユーザのユーザIDを記憶する項目である。
開始日時は、音声区間、動画区間の開始日時を記憶する項目である。
終了日時は、音声区間、動画区間の終了日時を記憶する項目である。
区間音声データは、音声区間に含まれる音声データを記憶する項目である。他の場所に配置された音声データファイルに対する参照情報(パス)を記憶するものとしても良い。また、開始日時、終了日時に基づき対話テーブル1014の音声データの開始日時から終了日時までの期間の音声データに対する参照を記憶しても良い。また、区間音声データは、区間動画データに含まれる音声データを含むものとしても構わない。
音声データのフォーマットは、AAC,ATRAC、mp3、mp4など任意のデータフォーマットで良い。
区間動画データは、音声区間に含まれる動画データを記憶する項目である。他の場所に配置された動画データファイルに対する参照情報(パス)を記憶するものとしても良い。また、開始日時、終了日時に基づき対話テーブル1014の動画データの開始日時から終了日時までの期間の動画データに対する参照を記憶しても良い。
動画データのフォーマットは、MP4、MOV、WMV、AVI、AVCHDなど任意のデータフォーマットで良い。
区間読上テキストは、音声区間に含まれる区間音声データにおいて話者により発話された内容のテキスト情報を記憶する項目である.具体的に、区間読上テキストは、区間音声データ、区間動画データに基づき、人手、任意の機械学習、深層学習等の学習モデルを用いることにより生成しても良い。
感情データは、音声区間において、話者の感情状態を記憶する項目である。感情データは、興味・興奮、喜び、驚き、不安、怒り、嫌悪、軽蔑、恐怖、恥、罪悪感等の、話者の複数の感情状態に関する多次元尺度(感情ベクトル)である。感情データは、対話区間において、話者がどのような感情状態にあるのか、複数の感情状態(次元)ごとの強度、数値として定量的に表現したものである。感情データは、感情ベクトルに基づき、1次元の感情に関する強度を示す感情スカラーを算出し、記憶する構成としても良い。
印象データは、音声区間において、話者の印象を記憶する項目である。印象データは、好き、嫌い、うるさい、聞きづらい、丁寧、わかりにくい、おどおどした、神経質、威圧的、暴力的および性的の、話者が与える複数の異なる印象に関する多次元尺度(ベクトル)である。対話区間において、話者がどのような印象を与えるのか、複数の印象(次元)ごとの強度、数値として定量的に表現したものである。
トピックIDは、音声区間において、音声区間に関連づけられたトピック識別情報を記憶する項目である。
The section ID is an item that stores section identification information for identifying a speech section. The section identification information is an item in which a unique value is set for each piece of speech section information.
The dialog ID is an item that stores dialog identification information for identifying a dialog associated with speech segment information.
The speaker ID is an item that stores speaker identification information for identifying a speaker associated with speech segment information. Specifically, the speaker ID is an item that stores the user IDs of multiple users who have participated in the dialogue.
The start date and time is an item for storing the start date and time of the audio segment and the moving image segment.
The end date and time is an item for storing the end date and time of the audio segment and the video segment.
The section sound data is an item for storing sound data included in the sound section. It is also possible to store reference information (paths) to audio data files located in other locations. Also, based on the start date and time and the end date and time, reference to the voice data in the period from the start date and time to the end date and time of the voice data in the dialog table 1014 may be stored. Also, the section audio data may include the audio data included in the section video data.
The audio data format may be any data format such as AAC, ATRAC, mp3, mp4.
Section moving image data is an item for storing moving image data included in a voice section. It is also possible to store reference information (paths) for moving image data files located in other locations. Also, based on the start date and time and the end date and time, reference to the video data in the period from the start date and time to the end date and time of the video data in the interaction table 1014 may be stored.
Any data format such as MP4, MOV, WMV, AVI, and AVCHD may be used as the format of moving image data.
The section reading text is an item that stores text information of the content uttered by the speaker in the section speech data included in the speech section. Specifically, the section reading text may be generated manually, using arbitrary machine learning, deep learning, or other learning models based on section audio data and section video data.
Emotion data is an item that stores the emotional state of the speaker in the speech period. Emotional data is a multidimensional measure (emotional vector) of a speaker's multiple emotional states, such as interest/excitement, joy, surprise, anxiety, anger, disgust, contempt, fear, shame, guilt, and so on. Emotion data quantitatively expresses what kind of emotional state the speaker is in during the dialogue section as the intensity and numerical value for each of a plurality of emotional states (dimensions). The emotion data may be configured to calculate and store an emotion scalar indicating the intensity of one-dimensional emotion based on the emotion vector.
The impression data is an item that stores the speaker's impression in the speech period. Impression data is a multidimensional scale (vector) of multiple different impressions given by a speaker: like, dislike, picky, hard to hear, polite, unclear, timid, nervous, intimidating, violent and sexual. It quantitatively expresses what kind of impression the speaker gives in the dialogue interval as the intensity and numerical value for each of multiple impressions (dimensions).
The topic ID is an item that stores topic identification information associated with a voice segment in the voice segment.
トピック関連度テーブル1017は、音声区間ごとのトピック関連度に関する情報(トピック関連度情報)を記憶し管理するためのテーブルである。
トピック関連度テーブル1017は、区間ID、トピックID、関連度のカラムを有するテーブルである。
図11は、トピック関連度テーブル1017のデータ構造を示す図である。
The topic relevance table 1017 is a table for storing and managing information on topic relevance (topic relevance information) for each speech segment.
The topic relevance table 1017 is a table having columns of section ID, topic ID, and relevance.
FIG. 11 is a diagram showing the data structure of the topic relevance table 1017. As shown in FIG.
区間IDは、対象となる音声区間の区間識別情報を記憶する項目である。
トピックIDは、トピックを識別するためのトピック識別情報を記憶する項目である。
関連度は、対話情報に含まれる音声区間において、トピックIDにより特定されるトピック識別情報ごとの関連度に関する情報を記憶する項目である。1の音声区間について、トピックIDにより特定されるトピックとの関連度を示す数値が記憶する項目である。関連度が大きいほど対話情報とトピックとの関連性が強くなる。
The section ID is an item for storing section identification information of a target speech section.
Topic ID is an item that stores topic identification information for identifying a topic.
The degree of relevance is an item that stores information relating to the degree of relevance for each topic identification information specified by a topic ID in a speech segment included in dialogue information. This is an item in which a numerical value indicating the degree of relevance to a topic specified by a topic ID is stored for one voice segment. The greater the degree of relevance, the stronger the relevance between the dialogue information and the topic.
感情条件マスタ1021は、感情条件に関する情報(感情条件情報)を記憶し管理するためのテーブルである。
感情条件マスタ1021は、感情条件、ラベルデータのカラムを有するテーブルである。
図12は、感情条件マスタ1021のデータ構造を示す図である。
The
FIG. 12 is a diagram showing the data structure of the
感情条件は、感情データに関する条件を記憶する項目である。具体的には、感情データの閾値、平均値、回帰分析を行った際の回帰係数などに対する条件が記憶される。
ラベルデータは、感情条件に関連づけられるラベル情報を記憶する項目である。
The emotional condition is an item that stores conditions related to emotional data. Specifically, conditions for threshold values, average values, regression coefficients when regression analysis is performed, and the like of emotion data are stored.
Label data is an item that stores label information associated with emotional conditions.
話者タイプマスタ1022は、印象条件に関する情報(印象条件情報)を記憶し管理するためのテーブルである。
話者タイプマスタ1022は、印象条件、話者タイプのカラムを有するテーブルである。
図13は、話者タイプマスタ1022のデータ構造を示す図である。
The
The
FIG. 13 shows the data structure of the
印象条件は、印象データに関する条件を記憶する項目である。具体的には、印象データの閾値、平均値、回帰分析を行った際の回帰係数などに対する条件が記憶される。
話者タイプは、印象条件に関連づけられる話者タイプを記憶する項目である。話者タイプは、強引、控え目、重厚、友好的、積極的、感情的などの話者が対話相手に与える印象を分類したものである。
The impression condition is an item that stores conditions related to impression data. Specifically, conditions for threshold values, average values, regression coefficients when performing regression analysis, etc. of impression data are stored.
The speaker type is an item that stores the speaker type associated with the impression condition. The speaker type classifies the impression that the speaker gives to the interlocutor, such as assertive, modest, serious, friendly, positive, and emotional.
トピックマスタ1023は、トピックに関する情報(トピック情報)を記憶し管理するためのテーブルである。
トピックマスタ1023は、トピックIDを主キーとして、トピックID、キーワードのカラムを有するテーブルである。
図14は、トピックマスタ1023のデータ構造を示す図である。
The
The
FIG. 14 is a diagram showing the data structure of the
トピックIDは、トピックを識別するためのトピック識別情報を記憶する項目である。トピック識別情報は、トピック情報ごとにユニークな値が設定されている項目である。
キーワードは、トピックが関連づけられる複数のキーワードを記憶する項目である。具体的に、1のトピックに対して複数のキーワードが関連づけられる。
Topic ID is an item that stores topic identification information for identifying a topic. Topic identification information is an item in which a unique value is set for each topic information.
A keyword is an item that stores a plurality of keywords with which a topic is associated. Specifically, a plurality of keywords are associated with one topic.
<サーバ10の制御部104の構成>
サーバ10の制御部104は、ユーザ登録制御部1041、感情解析部1042、印象解析部1043、トピック処理部1044、学習部1051を備える。制御部104は、記憶部101に記憶されたアプリケーションプログラム1011を実行することにより、各機能ユニットが実現される。
<Configuration of Control Unit 104 of
The control unit 104 of the
ユーザ登録制御部1041は、本開示に係るサービスの利用を希望するユーザの情報をユーザテーブル1012に記憶する処理を行う。
ユーザテーブル1012に記憶される情報は、ユーザが任意の情報処理端末からサービス提供者が運営するウェブページなどを開き、所定の入力フォームに情報を入力しサーバ10へ送信する。ユーザ登録制御部1041は、受信した情報をユーザテーブル1012の新しいレコードに記憶し、ユーザ登録が完了する。これにより、ユーザテーブル1012に記憶されたユーザはサービスを利用できるようになる。
ユーザ登録制御部1041によるユーザ情報のユーザテーブル1012への登録に先立ち、サービス提供者は所定の審査を行いユーザによるサービス利用可否を制限しても良い。
ユーザIDは、ユーザを識別できる任意の文字列または数字で良く、ユーザが希望する任意の文字列または数字、もしくはユーザ登録制御部1041が自動的に任意の文字列または数字を設定しても良い。
The user
The information stored in the user table 1012 is transmitted to the
Prior to registration of user information in the user table 1012 by the user
The user ID may be any character string or number that can identify the user, any character string or number desired by the user, or any character string or number automatically set by the user
感情解析部1042は、感情解析処理を実行する。詳細は後述する。
印象解析部1043は、印象解析処理を実行する。詳細は後述する。
The
トピック処理部1044は、トピック定義処理、トピック解析処理、トピック提示処理を実行する。詳細は後述する。
The
学習部1051は、学習処理を実行する。
The
<第1ユーザ端末20の構成>
第1ユーザ端末20は、サービスを利用する第1ユーザが操作する情報処理装置である。第1ユーザ端末20は、例えば、据え置き型のPC(Personal Computer)、ラップトップPCであってもよいし、スマートフォン、タブレット等の携帯端末でもよい。また、HMD(Head Mount Display)、腕時計型端末等のウェアラブル端末であってもよい。
第1ユーザ端末20は、記憶部201、制御部204、入力装置206、出力装置208を備える。
<Configuration of first user terminal 20>
The first user terminal 20 is an information processing device operated by a first user who uses the service. The first user terminal 20 may be, for example, a stationary PC (Personal Computer), a laptop PC, or a mobile terminal such as a smart phone or a tablet. Moreover, it may be a wearable terminal such as an HMD (Head Mount Display) or a wristwatch type terminal.
The first user terminal 20 includes a storage unit 201 , a control unit 204 , an
<第1ユーザ端末20の記憶部201の構成>
第1ユーザ端末20の記憶部201は、第1ユーザID2011、アプリケーションプログラム2012を備える。
<Configuration of Storage Unit 201 of First User Terminal 20>
The storage unit 201 of the first user terminal 20 has a
第1ユーザID2011は、第1ユーザのユーザ識別情報を記憶する。ユーザは、第1ユーザ端末20から第1ユーザID2011を、音声サーバ(PBX)60へ送信する。音声サーバ(PBX)60は、第1ユーザID2011に基づき第1ユーザを識別し、本開示にかかるサービスを第1ユーザに対して提供する。なお、第1ユーザID2011には、第1ユーザ端末20を利用しているユーザを識別するにあたり音声サーバ(PBX)60から一時的に付与されるセッションIDなどの情報を含む。
The
アプリケーションプログラム2012は、記憶部201に予め記憶されていても良いし、通信IFを介してサービス提供者が運営するウェブサーバ等からダウンロードする構成としても良い。
アプリケーションプログラム2012は、ウェブブラウザアプリケーションなどのアプリケーションを含む。
アプリケーションプログラム2012は、第1ユーザ端末20に記憶されているウェブブラウザアプリケーション上で実行されるJavaScript(登録商標)などのインタープリター型プログラミング言語を含む。
The
The
<第1ユーザ端末20の制御部204の構成>
第1ユーザ端末20の制御部204は、入力制御部2041、出力制御部2042を備える。制御部204は、記憶部201に記憶されたアプリケーションプログラム2012を実行することにより、各機能ユニットが実現される。
<Configuration of the control unit 204 of the first user terminal 20>
The control unit 204 of the first user terminal 20 has an
<第1ユーザ端末20の入力装置206の構成>
第1ユーザ端末20の入力装置206は、カメラ2061、マイク2062、位置情報センサ2063、モーションセンサ2064、キーボード2065を備える。
<Configuration of
The
<第1ユーザ端末20の出力装置208の構成>
第1ユーザ端末20の出力装置208は、ディスプレイ2081、スピーカ2082を備える。
<Configuration of
The
<第2ユーザ端末30の構成>
第2ユーザ端末30は、サービスを利用する第2ユーザが操作する情報処理装置である。第2ユーザ端末30は、例えば、スマートフォン、タブレット等の携帯端末でもよいし、据え置き型のPC(Personal Computer)、ラップトップPCであってもよい。また、HMD(Head Mount Display)、腕時計型端末等のウェアラブル端末であってもよい。
第2ユーザ端末30は、記憶部301、制御部304、入力装置306、出力装置308を備える。
<Configuration of Second User Terminal 30>
The second user terminal 30 is an information processing device operated by a second user who uses the service. The second user terminal 30 may be, for example, a mobile terminal such as a smart phone or tablet, a stationary PC (Personal Computer), or a laptop PC. Moreover, it may be a wearable terminal such as an HMD (Head Mount Display) or a wristwatch type terminal.
The second user terminal 30 includes a storage section 301 , a control section 304 , an
<第2ユーザ端末30の記憶部301の構成>
第2ユーザ端末30の記憶部301は、アプリケーションプログラム3012、電話番号3013を備える。
<Configuration of Storage Unit 301 of Second User Terminal 30>
The storage unit 301 of the second user terminal 30 has an
アプリケーションプログラム3012は、記憶部301に予め記憶されていても良いし、通信IFを介してサービス提供者が運営するウェブサーバ等からダウンロードする構成としても良い。
アプリケーションプログラム3012は、ウェブブラウザアプリケーションなどのアプリケーションを含む。
アプリケーションプログラム3012は、第2ユーザ端末30に記憶されているウェブブラウザアプリケーション上で実行されるJavaScript(登録商標)などのインタープリター型プログラミング言語を含む。
The
The
<第2ユーザ端末30の制御部304の構成>
第2ユーザ端末30の制御部304は、入力制御部3041、出力制御部3042を備える。制御部304は、記憶部301に記憶されたアプリケーションプログラム3012を実行することにより、各機能ユニットが実現される。
<Configuration of the control unit 304 of the second user terminal 30>
The control unit 304 of the second user terminal 30 has an
<第2ユーザ端末30の入力装置306の構成>
第2ユーザ端末30の入力装置306は、カメラ3061、マイク3062、位置情報センサ3063、モーションセンサ3064、タッチデバイス3065を備える。
<Configuration of
The
<第2ユーザ端末30の出力装置308の構成>
第2ユーザ端末30の出力装置308は、ディスプレイ3081、スピーカ3082を備える。
<Configuration of
The
<CRMシステム50の構成>
CRMシステム50は、CRM(Customer Relationship Management、第2ユーザ関係管理)サービスを提供する事業者(CRM事業者)が管理、運営する情報処理装置である。CRMサービスとしては、SalesForce、HubSpot、Zoho CRM、kintoneなどがある。
CRMシステム50は、記憶部501、制御部504を備える。
<Configuration of
The
The
<CRMシステム50の記憶部501の構成>
CRMシステム50の記憶部501は、アプリケーションプログラム5011、顧客テーブル5012を備える。
<Configuration of Storage Unit 501 of
The storage unit 501 of the
アプリケーションプログラム5011は、CRMシステム50の制御部504を各機能ユニットとして機能させるためのプログラムである。
アプリケーションプログラム5011は、ウェブブラウザアプリケーションなどのアプリケーションを含む。
The
顧客テーブル5012は、顧客にかかるユーザ情報(顧客情報)を記憶し管理するためのテーブルである。
顧客テーブル5012は、顧客IDを主キーとして、顧客ID、ユーザID、氏名、電話番号、話者タイプのカラムを有するテーブルである。
図15は、顧客テーブル5012のデータ構造を示す図である。
The customer table 5012 is a table for storing and managing user information (customer information) on customers.
The customer table 5012 is a table having customer ID, user ID, name, telephone number, and speaker type columns with customer ID as a primary key.
FIG. 15 is a diagram showing the data structure of the customer table 5012. As shown in FIG.
顧客IDは、顧客のユーザ識別情報を記憶する項目である。ユーザ識別情報は、顧客ごとにユニークな値が設定されている項目である。
ユーザIDは、顧客を管理するユーザのユーザ識別情報を記憶する項目である。
氏名は、顧客の氏名を記憶する項目である。
電話番号は、顧客の電話番号を記憶する項目である。
ユーザは、CRMシステムが提供するウェブサイトにアクセスし、電話を発信したい顧客を選択し「発信」などの所定の操作を行なうことにより、第1ユーザ端末20から顧客の電話番号に対して電話を発信できる。
話者タイプは、顧客IDにより特定されるユーザの話者タイプを記憶する項目である。
The customer ID is an item that stores customer user identification information. User identification information is an item in which a unique value is set for each customer.
User ID is an item for storing user identification information of a user who manages a customer.
The name is an item for storing the customer's name.
The phone number is an item that stores the customer's phone number.
The user accesses the website provided by the CRM system, selects the customer to whom he/she wants to make a call, and performs a predetermined operation such as "call" to make a call from the first user terminal 20 to the customer's telephone number. I can make a call.
The speaker type is an item that stores the user's speaker type specified by the customer ID.
<CRMシステム50の制御部504の構成>
CRMシステム50の制御部504は、ユーザ登録制御部5041を備える。制御部504は、記憶部501に記憶されたアプリケーションプログラム5011を実行することにより、各機能ユニットが実現される。
<Configuration of Control Unit 504 of
The control unit 504 of the
ユーザ登録制御部5041は、本開示に係るサービスにおいて顧客情報を顧客テーブル5012に記憶する処理を行う。
顧客テーブル5012に記憶される情報は、ユーザが任意の情報処理端末からサービス提供者が運営するウェブページなどを開き、所定の入力フォームに情報を入力しCRMシステム50へ送信する。ユーザ登録制御部5041は、受信した情報を顧客テーブル5012の新しいレコードに記憶し、顧客の登録が完了する。これにより、顧客情報が顧客の管理を行うユーザのユーザIDと関連づけて記憶される。
顧客IDは、ユーザを識別できる任意の文字列または数字で良く、ユーザが希望する任意の文字列または数字、もしくはユーザ登録制御部5041が自動的に任意の文字列または数字を設定しても良い。
The user
The information stored in the customer table 5012 is sent to the
The customer ID may be any character string or number that can identify the user, any character string or number desired by the user, or any character string or number automatically set by the user
<音声サーバ(PBX)60の構成>
音声サーバ(PBX)60は、ネットワークNと電話網Tとを互いに接続することで第1ユーザ端末20と第2ユーザ端末30との間における対話を可能とする交換機として機能する情報処理装置である。
音声サーバ(PBX)60は、記憶部601を備える。
<Configuration of voice server (PBX) 60>
The voice server (PBX) 60 is an information processing device that functions as an exchange that enables dialogue between the first user terminal 20 and the second user terminal 30 by connecting the network N and the telephone network T to each other. .
The voice server (PBX) 60 has a storage unit 601 .
<音声サーバ(PBX)60の記憶部601の構成>
音声サーバ(PBX)60の記憶部601は、アプリケーションプログラム6011を備える。
<Configuration of storage unit 601 of voice server (PBX) 60>
The storage unit 601 of the voice server (PBX) 60 has an application program 6011 .
アプリケーションプログラム6011は、音声サーバ(PBX)60の制御部604を各機能ユニットとして機能させるためのプログラムである。
アプリケーションプログラム6011は、ウェブブラウザアプリケーションなどのアプリケーションを含む。
The application program 6011 is a program for causing the control unit 604 of the voice server (PBX) 60 to function as each functional unit.
Application programs 6011 include applications such as web browser applications.
<システム1の動作>
以下、システム1の各処理について説明する。
図16は、感情解析処理の動作を示すフローチャートである。
図17は、印象解析処理の動作を示すフローチャートである。
図18は、トピック解析処理の動作を示すフローチャートである。
図19は、トピック提示処理の動作を示すフローチャートである。
図20は、トピック提示処理の動作を示す画面例である。
<Operation of
Each process of the
FIG. 16 is a flow chart showing the operation of emotion analysis processing.
FIG. 17 is a flowchart showing the operation of impression analysis processing.
FIG. 18 is a flowchart showing the operation of topic analysis processing.
FIG. 19 is a flowchart showing the operation of topic presentation processing.
FIG. 20 is a screen example showing the operation of topic presentation processing.
<発信処理>
発信処理は、ユーザ(第1ユーザ)から顧客(第2ユーザ)に対し発信(架電)する処理である。
<Outgoing process>
The calling process is a process of making a call (calling) from a user (first user) to a customer (second user).
<発信処理の概要>
発信処理は、ユーザは第1ユーザ端末20の画面に表示された複数の顧客のうち発信を希望する顧客を選択し、発信操作を行うことにより、顧客に対して発信を行なう一連の処理である。本開示においては、顧客として第2ユーザを選択する場合を一例として説明する。
<Outline of call processing>
The calling process is a series of processes in which the user selects a customer who wishes to make a call from among a plurality of customers displayed on the screen of the first user terminal 20 and performs a calling operation to make a call to the customer. . In the present disclosure, a case of selecting the second user as a customer will be described as an example.
<発信処理の詳細>
ユーザから顧客に発信する場合におけるシステム1の発信処理について説明する。
<Details of outgoing processing>
A call processing of the
ユーザが顧客に発信する場合、システム1において以下の処理が実行される。
When a user calls a customer, the
ユーザは第1ユーザ端末20を操作することにより、ウェブブラウザを起動し、CRMシステム50が提供するCRMサービスのウェブサイトへアクセスする。ユーザは、CRMサービスが提供する顧客管理画面を開くことにより自身の顧客を第1ユーザ端末20のディスプレイ2081へ一覧表示できる。
具体的に、第1ユーザ端末20は、CRMID2013および顧客を一覧表示する旨のリクエストをCRMシステム50へ送信する。CRMシステム50は、リクエストを受信すると、顧客テーブル5012を検索し、顧客ID、氏名、電話番号、顧客属性、顧客組織名、顧客組織属性などのユーザの顧客に関する情報を第1ユーザ端末20に送信する。第1ユーザ端末20は、受信した顧客に関する情報を第1ユーザ端末20のディスプレイ2081に表示する。
By operating the first user terminal 20 , the user activates the web browser and accesses the CRM service website provided by the
Specifically, the first user terminal 20 transmits a CRM ID 2013 and a request to display a list of customers to the
ユーザは、第1ユーザ端末20のディスプレイ2081に一覧表示された顧客から発信を希望する顧客(第2ユーザ)を押下し選択する。顧客が選択された状態で、第1ユーザ端末20のディスプレイ2081に表示された「発信」ボタンまたは、電話番号ボタンを押下することにより、CRMシステム50に対し電話番号を含むリクエストを送信する。リクエストを受信したCRMシステム50は、電話番号を含むリクエストをサーバ10へ送信する。リクエストを受信したサーバ10は、音声サーバ(PBX)60に対し、発信リクエストを送信する。音声サーバ(PBX)60は、発信リクエストを受信すると、受信した電話番号に基づき第2ユーザ端末30に対し発信(呼出し)を行う。
The user presses and selects a customer (second user) to whom a call is desired from the customers listed on the
これに伴い、第1ユーザ端末20は、スピーカ2082などを制御し音声サーバ(PBX)60により発信(呼出し)が行われている旨を示す鳴動を行う。また、第1ユーザ端末20のディスプレイ2081は、音声サーバ(PBX)60により顧客に対して発信(呼出し)が行われている旨を示す情報を表示する。例えば、第1ユーザ端末20のディスプレイ2081は、「呼出中」という文字を表示してもよい。
Along with this, the first user terminal 20 controls the speaker 2082 and the like to ring to indicate that the voice server (PBX) 60 is making a call (calling). Also, the
顧客は、第2ユーザ端末30において不図示の受話器を持ち上げたり、第2ユーザ端末30の入力装置306に着信時に表示される「受信」ボタンなどを押下することにより、第2ユーザ端末30は対話可能状態となる。これに伴い、音声サーバ(PBX)60は、第2ユーザ端末30による応答がなされたことを示す情報(以下、「応答イベント」と呼ぶ)を、サーバ10、CRMシステム50などを介して第1ユーザ端末20に送信する。
これにより、ユーザと顧客は、それぞれ第1ユーザ端末20、第2ユーザ端末30を用いて対話可能状態となり、ユーザと顧客との間で対話できるようになる。具体的には、第1ユーザ端末20のマイク2062により集音されたユーザの音声は、第2ユーザ端末30のスピーカ3082から出力される。同様に、第2ユーザ端末30のマイク3062から集音された顧客の音声は、第1ユーザ端末20のスピーカ2082から出力される。
The customer picks up the receiver (not shown) on the second user terminal 30 or presses the "receive" button displayed on the
As a result, the user and the customer can interact using the first user terminal 20 and the second user terminal 30, respectively, so that the user and the customer can interact with each other. Specifically, the user's voice collected by the
第1ユーザ端末20のディスプレイ2081は、対話可能状態になると、応答イベントを受信し、対話が行われていることを示す情報を表示する。例えば、第1ユーザ端末20のディスプレイ2081は、「応答中」という文字を表示してもよい。
When the
<着信処理>
着信処理は、ユーザが顧客から着信(受電)する処理である。
<Incoming processing>
Incoming call processing is processing in which the user receives a call (receives a call) from a customer.
<着信処理の概要>
着信処理は、ユーザが第1ユーザ端末20においてアプリケーションを立ち上げている場合に、顧客がユーザに対して発信した場合に、ユーザが着信する一連の処理である。
<Overview of Incoming Call Processing>
The incoming call process is a series of processes in which the user receives an incoming call when the customer calls the user while the user has launched an application on the first user terminal 20 .
<着信処理の詳細>
ユーザが顧客から着信(受電)する場合におけるシステム1の着信処理について説明する。
<Details of incoming call processing>
Incoming call processing of the
ユーザが顧客から着信する場合、システム1において以下の処理が実行される。
When a user receives an incoming call from a customer, the
ユーザは第1ユーザ端末20を操作することにより、ウェブブラウザを起動し、CRMシステム50が提供するCRMサービスのウェブサイトへアクセスする。このとき、ユーザはウェブブラウザにおいて、自身のアカウントにてCRMシステム50にログインし待機しているものとする。なお、ユーザはCRMシステム50にログインしていれば良く、CRMサービスにかかる他の作業などを行っていても良い。
By operating the first user terminal 20 , the user activates the web browser and accesses the CRM service website provided by the
顧客は、第2ユーザ端末30を操作し、音声サーバ(PBX)60に割り当てられた所定の電話番号を入力し、音声サーバ(PBX)60に対して発信する。音声サーバ(PBX)60は、第2ユーザ端末30の発信を着信イベントとして受信する。 The customer operates the second user terminal 30 , inputs a predetermined telephone number assigned to the voice server (PBX) 60 , and makes a call to the voice server (PBX) 60 . The voice server (PBX) 60 receives the outgoing call from the second user terminal 30 as an incoming call event.
音声サーバ(PBX)60は、サーバ10に対し、着信イベントを送信する。具体的には、音声サーバ(PBX)60は、サーバ10に対して顧客の電話番号3011を含む着信リクエストを送信する。サーバ10は、CRMシステム50を介して第1ユーザ端末20に対して着信リクエストを送信する。
これに伴い、第1ユーザ端末20は、スピーカ2082などを制御し音声サーバ(PBX)60により着信が行われている旨を示す鳴動を行う。第1ユーザ端末20のディスプレイ2081は、音声サーバ(PBX)60により顧客から着信があること旨を示す情報を表示する。例えば、第1ユーザ端末20のディスプレイ2081は、「着信中」という文字を表示してもよい。
A voice server (PBX) 60 sends an incoming call event to the
Along with this, the first user terminal 20 controls the speaker 2082 and the like to ring to indicate that the voice server (PBX) 60 is receiving an incoming call. The
第1ユーザ端末20は、ユーザによる応答操作を受付ける。応答操作は、例えば、第1ユーザ端末20において不図示の受話器を持ち上げたり、第1ユーザ端末20のディスプレイ2081に「電話に出る」と表示されたボタンを、ユーザがマウス2066を操作して押下する操作などにより実現される。
第1ユーザ端末20は、応答操作を受付けると、音声サーバ(PBX)60に対し、CRMシステム50、サーバ10を介して応答リクエストを送信する。音声サーバ(PBX)60は、送信されてきた応答リクエストを受信し、音声通信を確立する。これにより、第1ユーザ端末20は、第2ユーザ端末30と対話可能状態となる。
第1ユーザ端末20のディスプレイ2081は、対話が行われていることを示す情報を表示する。例えば、第1ユーザ端末20のディスプレイ2081は、「対話中」という文字を表示してもよい。
The first user terminal 20 receives a user's response operation. The response operation is, for example, by lifting the handset (not shown) of the first user terminal 20 or by operating the mouse 2066 to press the button labeled "answer the call" on the
Upon receiving the response operation, the first user terminal 20 transmits a response request to the voice server (PBX) 60 via the
The
<発信処理、着信処理の変形例>
第1ユーザが第2ユーザとの間で対話可能状態となる方法は、発信処理、着信処理に限られず、第1ユーザと第2ユーザとの間で対話を実現するための任意の方法を用いても構わない。例えば、サーバ10上に、第1ユーザと第2ユーザとの間で対話を行うためのルームとよばれる仮想的な対話空間を作成し、第1ユーザおよび第2ユーザが当該ルームへ第1ユーザ端末20、第2ユーザ端末30に記憶されたウェブブラウザまたはアプリケーションプログラムを介してアクセスすることにより対話可能状態となる方法でも構わない。この場合、音声サーバ(PBX)50は不要となる。
具体的には、対話の主催者となる第1ユーザが第1ユーザ端末20の入力装置206を操作し、サーバ10へ対話開催に関するリクエストを送信する。サーバ10の制御部104は、リクエストを受信するとユニークなルームIDなどのルーム識別情報を発行し、第1ユーザ端末20へレスポンスを送信する。第1ユーザは、受信したルーム識別情報を、対話相手である第2ユーザへメール、チャットなど任意の通信手段により送信する。第1ユーザは、第1ユーザ端末20の入力装置206を操作し、ウェブブラウザなどでサーバ10のルームに関するサービスを提供するURLへアクセスし、ルーム識別情報を入力することによりルームに入室できる。同様に、第2ユーザは第2ユーザ端末30の入力装置306を操作し、ウェブブラウザなどでサーバ10のルームに関するサービスを提供するURLへアクセスし、ルーム識別情報を入力することによりルームに入室できる。これにより、第1ユーザと第2ユーザとはルーム識別情報により関連付けられたルームとよばれる仮想的な対話空間内で、それぞれ第1ユーザ端末20、第2ユーザ端末30を介して対話を行うことができる。
ルーム識別情報を入力することにより、第1ユーザ、第2ユーザに加えて、他の1または複数のユーザが1つのルームに入室できる。これにより、三者以上の複数のユーザは、ルーム識別情報により関連付けられたルームとよばれる仮想的な対話空間内で、それぞれのユーザ端末を介して対話を行うことができる。
<Modified example of outgoing call processing and incoming call processing>
The method for allowing the first user to interact with the second user is not limited to outgoing call processing and incoming call processing, and any method for realizing interaction between the first user and the second user can be used. I don't mind. For example, a virtual dialogue space called a room for dialogue between a first user and a second user is created on the
Specifically, the first user, who is the organizer of the dialogue, operates the
By inputting room identification information, in addition to the first and second users, one or more other users can enter one room. As a result, three or more users can interact via their respective user terminals in a virtual interaction space called a room associated with the room identification information.
<動画対話>
本開示におけるシステム1は、動画データを含むオンライン対話サービス(ビデオ対話サービス)を提供しても良い。例えば、第1ユーザ端末20の制御部204、第2ユーザ端末30の制御部304は、それぞれ、第1ユーザ端末20のカメラ2061、第2ユーザ端末30のカメラ3061により撮影された動画データをサーバ10へ送信する。
サーバ10は、受信した動画データに基づき、第1ユーザ端末20のカメラ2061により撮影された動画データを第2ユーザ端末30へ、第2ユーザ端末30のカメラ3061により撮影された動画データを第1ユーザ端末20へ送信する。第1ユーザ端末20の制御部204は、受信した第2ユーザ端末30のカメラ3061により撮影された動画データをディスプレイ2081に表示する。第2ユーザ端末30の制御部304は、受信した第1ユーザ端末20のカメラ2061により撮影された動画データをディスプレイ3081に表示する。
サーバ10は、オンライン対話に参加している一部またはすべての複数のユーザの動画データを第1ユーザ端末20、第2ユーザ端末30へ送信しても良い。この場合、第1ユーザ端末20の制御部204は、受信したオンライン対話に参加している一部またはすべての複数のユーザの動画データを一画面に並べて第1ユーザ端末20のディスプレイ2081に表示する。これにより、オンライン対話に参加している複数のユーザの対話状況を確認できる。第2ユーザ端末30においても同様の処理を実行しても良い。
<Video dialogue>
The
Based on the received moving image data, the
The
<対話記憶処理>
対話記憶処理は、ユーザと顧客との間で行われる対話に関するデータを記憶する処理である。
<Dialogue Amnestics>
The interaction storage process is the process of storing data relating to interactions between users and customers.
<対話記憶処理の概要>
対話記憶処理は、ユーザと顧客との間で対話が開始された場合に、対話に関するデータを対話テーブル1014に記憶する一連の処理である。
<Outline of dialogue memory processing>
The dialogue storage process is a series of processes for storing data related to dialogue in the dialogue table 1014 when dialogue is started between the user and the customer.
<対話記憶処理の詳細>
ユーザと顧客との間で対話が開始されると、音声サーバ(PBX)60は、ユーザと顧客との間で行われる対話に関する音声データを録音し、サーバ10へ送信する。サーバ10の制御部104は、音声データを受信すると、対話テーブル1014に新たなレコードを作成し、ユーザと顧客との間で行われる対話に関するデータを記憶する。具体的に、サーバ10の制御部104は、ユーザID、顧客ID、対話カテゴリ、受発信種別、音声データの内容を対話テーブル1014の新たなレコードに記憶する。
<Details of dialogue memory processing>
When a dialogue is started between the user and the customer, the voice server (PBX) 60 records voice data relating to the dialogue between the user and the customer and transmits the data to the
サーバ10の制御部104は、発信処理または着信処理において第1ユーザ端末20から、第1ユーザの第1ユーザID2011を取得し、対話テーブル1014の新たなレコードのユーザIDの項目に記憶する。
サーバ10の制御部104は、発信処理または着信処理において電話番号に基づきCRMシステム50へ問い合わせを行なう。CRMシステム50は、顧客テーブル5012を電話番号により検索することにより、顧客IDを取得し、サーバ10へ送信する。サーバ10の制御部104は、取得した顧客IDを対話テーブル1014の新たなレコードの顧客IDの項目に記憶する。
サーバ10の制御部104は、予めユーザまたは顧客ごとに設定された対話カテゴリの値を、対話テーブル1014の新たなレコードの対話カテゴリの項目に記憶する。なお、対話カテゴリは、対話ごとにユーザが値を選択、入力することにより記憶しても良い。
サーバ10の制御部104は、行われている対話がユーザにより発信したものか、顧客から発信されたものかを識別し、対話テーブル1014の新たなレコードの受発信種別の項目にアウトバウンド(ユーザから発信)、インバウンド(顧客から発信)のいずれかの値を記憶する。
The control unit 104 of the
The control unit 104 of the
The control unit 104 of the
The control unit 104 of the
サーバ10の制御部104は、音声サーバ(PBX)60から受信する音声データを、対話テーブル1014の新たなレコードの音声データの項目に記憶する。なお、音声データは他の場所に音声データファイルとして記憶し、対話終了後に、音声データファイルに対する参照情報(パス)を記憶するものとしても良い。また、サーバ10の制御部104は、対話終了後に音声データを記憶する構成としても良い。
The control unit 104 of the
また、ビデオ対話サービスにおいては、サーバ10の制御部104は、第1ユーザ端末20、第2ユーザ端末30のから受信する動画データを、対話テーブル1014の新たなレコードの動画データの項目に記憶する。なお、動画データは他の場所に動画データファイルとして記憶し、対話終了後に、動画データファイルに対する参照情報(パス)を記憶するものとしても良い。また、サーバ10の制御部104は、対話終了後に動画データを記憶する構成としても良い。
In the video dialogue service, the control unit 104 of the
<感情解析処理>
感情解析処理は、複数のユーザにより行われたオンライン対話の音声、動画等の対話情報を解析し、対話に参加しているユーザの感情状態を特定するとともに、感情状態に基づきラベル情報を特定し、対話情報と関連づけて記憶する処理である。
<Emotion Analysis Processing>
Emotion analysis processing analyzes dialogue information such as voice and video of online dialogue conducted by multiple users, identifies the emotional state of users participating in the dialogue, and identifies label information based on the emotional state. , are stored in association with dialogue information.
<感情解析処理の概要>
感情解析処理は、ユーザ間のオンライン対話を検知すると、対話に関する対話情報を記憶し、対話情報に含まれる音声データ、動画データをそれぞれ発話区間ごとの区間音声データ、区間動画データ等の区間データへ分割し、区間データごとの感情特徴量を算定し、感情特徴量に基づきラベル情報を特定し、ラベル情報を対話情報と関連づけて記憶する一連の処理である。
<Overview of Emotion Analysis Processing>
When an online dialogue between users is detected, the emotion analysis process stores dialogue information related to the dialogue, and converts the audio data and video data included in the dialogue information into segment data such as segment audio data and segment video data for each utterance segment, respectively. This is a series of processes of dividing, calculating the emotion feature amount for each section data, identifying label information based on the emotion feature amount, and storing the label information in association with dialogue information.
<感情解析処理の詳細>
以下に、感情解析処理の詳細を説明する。
<Details of emotion analysis processing>
Details of the emotion analysis processing will be described below.
ステップS101において、既に説明した発信処理、着信処理、ルーム等を介してユーザと顧客との間でのオンライン対話が開始される。 In step S101, an online dialogue between the user and the customer is started through the already-described outgoing call processing, incoming call processing, room, and the like.
ステップS102において、サーバ10の感情解析部1042は、対話に関する音声データを受け付ける受付ステップを実行する。
具体的に、対話記憶処理により、第1ユーザ端末20は、第1ユーザID2011、マイク2062から集音した音声データ、カメラ2061により撮影した動画データをサーバ10へ送信する。サーバ10の制御部104は、受信した第1ユーザID2011、音声データ、動画データを、それぞれ、対話テーブル1014の新たなレコードのユーザID、音声データ、動画データの項目に記憶する。
同様に、第2ユーザ端末30は、第2ユーザID3011、マイク3062から集音した音声データ、カメラ3061により撮影した動画データをサーバ10へ送信する。サーバ10の制御部104は、受信した第2ユーザID3011、音声データ、動画データを、それぞれ、対話テーブル1014の新たなレコードのユーザID、音声データ、動画データの項目に記憶する。
これに伴い、新たな対話IDが採番され、対話テーブル1014の新たなレコードの対話IDの項目に記憶される。
In step S102, the
Specifically, the first user terminal 20 transmits the
Similarly, the second user terminal 30 transmits the
Along with this, a new dialogue ID is numbered and stored in the dialogue ID field of the new record in the dialogue table 1014 .
ステップS103において、サーバ10の感情解析部1042は、受付ステップにおいて受け付けた音声データから、発話区間ごとに複数の区間音声データを抽出する音声抽出ステップを実行する。
具体的に、サーバ10の感情解析部1042は、ステップS102において対話テーブル1014に記憶された対話ID、音声データ、動画データを取得する(受け付ける)。サーバ10の感情解析部1042は、取得(受付)した音声データ、動画データから、音声が存在する区間(発話区間)を検出し、発話区間のそれぞれに対して音声データ、動画データを、それぞれ、区間音声データ、区間動画データとして抽出する。区間音声データ、区間動画データは、発話区間ごとに話者のユーザID、発話区間の開始日時、発話区間の終了日時と関連づけられる。
サーバ10の感情解析部1042は、抽出された区間音声データ、区間動画データの発話内容に対してテキスト認識を行うことにより、区間音声データ、区間動画データを文字(テキスト)である区間読上テキストに変換し、文字に起こす。なお、テキスト認識の具体的手法は特に限定されない。例えば信号処理技術、AI(人工知能)を利用した機械学習や深層学習等によって変換してもよい。
In step S103, the
Specifically, the
The
サーバ10の感情解析部1042は、処理対象の対話ID、話者のユーザID(第1ユーザID2011または第2ユーザID3011)、開始日時、終了日時、区間音声データ、区間動画データ、区間読上テキストを、それぞれ、音声区間テーブル1016の新たなレコードの対話ID、話者ID、開始日時、終了日時、区間音声データ、区間動画データ、区間読上テキストの項目に記憶する。
The
音声区間テーブル1016には、音声データの発話区間ごとの区間読上テキストが、開始日時、話者と関連づけられ連続的な時系列データとして記憶される。ユーザは、音声区間テーブル1016に記憶された区間読上テキストを確認することにより、音声データの内容を確認することなしにテキスト情報として対話内容を確認できる。 In the voice segment table 1016, the segment reading text for each utterance segment of the voice data is associated with the start date and time and the speaker and stored as continuous time-series data. By checking the read-aloud text for the section stored in the speech section table 1016, the user can check the content of the dialogue as text information without checking the content of the speech data.
なお、テキスト認識処理の際に、予めテキストに含まれるフィラーなどのユーザと顧客との間で行われた対話を把握する上で無意味な情報をテキストから除外して、音声認識情報を音声区間テーブル1016に記憶する構成としても良い。 In addition, during the text recognition process, information such as fillers included in the text that is meaningless in terms of understanding the dialogue between the user and the customer is removed from the text in advance, and the speech recognition information is converted to speech segments. It may be configured to be stored in the table 1016 .
ステップS104において、サーバ10の感情解析部1042は、音声抽出ステップにおいて抽出された複数の区間音声データのそれぞれに対応し、区間音声データにおける話者の感情状態に関する複数の感情特徴量を算定する感情算定ステップを実行する。感情算定ステップは、音声抽出ステップにおいて抽出した区間音声データを入力データとして、学習モデルに適用することにより、感情特徴量を出力データとして算定する。
具体的に、サーバ10の感情解析部1042は、S103において音声区間テーブル1016に記憶された区間音声データ、区間動画データ、区間読上テキストを取得し、入力データとして感情評価モデル1031に適用する、感情評価モデル1031は入力データに応じた感情特徴量を出力データとして出力する。
In step S104, the
Specifically, the
ステップS104において、感情算定ステップは、音声抽出ステップにおいて抽出された複数の区間音声データのそれぞれに対応する、多次元の感情に関する強度を示す感情ベクトルを算定するステップを実行する。
具体的に、サーバ10の感情解析部1042は、S103において音声区間テーブル1016に記憶された区間音声データ、区間動画データ、区間読上テキストを取得し、入力データとして感情評価モデル1031に適用する、感情評価モデル1031は入力データに応じた複数の感情状態(次元)ごとの強度、数値として定量的に表現される感情ベクトルを出力データとして出力する。
In step S104, the emotion calculation step executes a step of calculating an emotion vector indicating intensity related to multidimensional emotion corresponding to each of the plurality of segment voice data extracted in the voice extraction step.
Specifically, the
感情算定ステップは、算定された感情ベクトルに基づき、音声抽出ステップにおいて抽出された複数の区間音声データのそれぞれに対応する、1次元の感情に関する強度を示す感情スカラーを算定するステップを実行する。
サーバ10の感情解析部1042は、感情ベクトルに対して、主成分分析、深層学習モデル等の学習モデル、感情ベクトルの成分ごとの演算等を適用することにより、1次元の感情に関する強度を示す感情スカラーを算出する。例えば、感情スカラーは音声区間情報における話者の感情状態のポジティブ度、ネガティブ度を定量的に表現した指標であり、+1(ポジティブ)から、-1(ネガティブ)の値の範囲に正規化された数値データとしても良い。
In the emotion calculation step, based on the calculated emotion vector, a step of calculating an emotion scalar representing a one-dimensional emotion-related intensity corresponding to each of the plurality of segmental speech data extracted in the speech extraction step is executed.
The
サーバ10の感情解析部1042は、算定した感情特徴量である感情ベクトル、感情スカラーを、音声区間テーブル1016の解析対象のレコードの感情データの項目に記憶する。感情データの項目には、感情ベクトル、感情スカラーのいずれかが記憶される構成としても良い。
The
ステップS104において、サーバ10の感情解析部1042は、音声区間テーブル1016の解析対象のレコードの話者IDに基づき、ユーザテーブル1012のユーザIDを検索し、ユーザ属性を取得する。
In step S104, the
ステップS105において、サーバ10の感情解析部1042は、感情算定ステップにおいて算定された複数の感情特徴量に基づき、対話に対するラベル情報を特定するラベル特定ステップを実行する。
具体的に、サーバ10の感情解析部1042は、対話IDに基づき、音声区間テーブル1016の対話IDを検索し、感情データの項目を取得する。サーバ10の感情解析部1042は、感情データに基づき、感情条件マスタ1021の感情条件に該当するレコード有無を検索し、該当するレコードのラベルデータの項目を取得する。
本開示においては、サーバ10の感情解析部1042は、1の対話情報に対して抽出された複数の音声区間情報のそれぞれに対して算定し、記憶された複数の感情データに対応する複数の感情特徴量を、感情条件として、ラベルデータを特定し、取得する構成としても良い。
In step S105, the
Specifically, the
In the present disclosure, the
ステップS105において、ラベル特定ステップは、感情算定ステップにおいて算定された複数の感情スカラーに基づき、対話に対するラベル情報を特定するステップを実行する。
具体的に、サーバ10の感情解析部1042は、1の対話情報に対して抽出された複数の音声区間情報のそれぞれに対して算定し、記憶された複数の感情データに含まれる感情スカラーを、感情条件として、ラベルデータを特定しても良い。
In step S105, the label identification step executes a step of identifying label information for the dialogue based on the plurality of emotion scalars calculated in the emotion calculation step.
Specifically, the
ステップS105において、ラベル特定ステップは、感情算定ステップにおいて算定された複数の感情ベクトルに基づき、対話に対するラベル情報を特定するステップを実行する。
具体的に、サーバ10の感情解析部1042は、1の対話情報に対して抽出された複数の音声区間情報のそれぞれに対して算定し、記憶された複数の感情データに含まれる感情ベクトルを、感情条件として、ラベルデータを特定しても良い。例えば、感情条件は、感情ベクトルのそれぞれの要素成分に対する範囲等により特定される構成としても良い。
In step S105, the label identification step executes a step of identifying label information for the dialogue based on the plurality of emotion vectors calculated in the emotion calculation step.
Specifically, the
ステップS105において、ラベル特定ステップは、感情算定ステップにおいて算定された複数の感情特徴量のうち、所定の閾値以上または以下の感情特徴量の個数に基づき、対話に対するラベル情報を特定するステップを実行する。
具体的に、感情条件マスタ1021の感情条件の項目に、所定の閾値と、閾値以上の個数(所定個数)の情報が記憶されているとする。サーバ10の感情解析部1042は、1の対話情報に対して抽出された複数の音声区間情報のそれぞれに対応する感情スカラーの値を、所定の閾値と比較し、所定の閾値以上の音声区間情報(感情スカラー)の個数をカウントする。なお、所定の閾値以下の個数をカウントしても構わない。
サーバ10の感情解析部1042は、カウントされた音声区間情報の個数が、所定個数よりも多い場合には当該感情条件に該当すると判定し、感情条件マスタ1021において感情条件に関連付けられたラベルデータの項目を取得し特定する。
例えば、所定の閾値以上の音声区間情報(感情スカラー)の個数が、所定個数よりも多い場合は、対話における感情状態がポジティブであることを示すラベル情報を特定する。同様に、所定の閾値以下の音声区間情報(感情スカラー)の個数が、所定個数よりも多い場合は、対話における感情状態がネガティブであることを示すラベル情報を特定する。
In step S105, the label identification step executes a step of identifying label information for the dialogue based on the number of emotion feature amounts equal to or greater than or equal to a predetermined threshold among the plurality of emotion feature amounts calculated in the emotion calculation step. .
Specifically, it is assumed that a predetermined threshold value and the number of pieces of information equal to or greater than the threshold value (predetermined number) are stored in the emotional condition item of the
The
For example, when the number of pieces of speech segment information (emotion scalar) equal to or greater than a predetermined threshold is greater than a predetermined number, label information indicating that the emotional state in the dialogue is positive is specified. Similarly, when the number of pieces of speech segment information (emotion scalar) below a predetermined threshold is greater than a predetermined number, label information indicating that the emotional state in the dialogue is negative is specified.
ステップS105において、ラベル特定ステップは、感情算定ステップにおいて算定された複数の感情特徴量のうち、所定の閾値以上または以下の感情特徴量が占める割合に基づき、対話に対するラベル情報を特定するステップを実行する。
具体的に、感情条件マスタ1021の感情条件の項目に、所定の閾値と、閾値以上の割合(所定割合)の情報が記憶されているとする。サーバ10の感情解析部1042は、1の対話情報に対して抽出された複数の音声区間情報のそれぞれに対応する感情スカラーの値を、所定の閾値と比較し、所定の閾値以上の音声区間情報(感情スカラー)の個数をカウントする。なお、所定の閾値以下の個数をカウントしても構わない。
サーバ10の感情解析部1042は、カウントされた音声区間情報の個数の、1の対話情報に対して抽出されたすべての音声区間情報の個数に対する割合が、所定割合よりも多い場合には当該感情条件に該当すると判定し、感情条件マスタ1021において感情条件に関連付けられたラベルデータの項目を取得し特定する。
例えば、所定の閾値以上の音声区間情報(感情スカラー)の割合が、所定割合よりも多い場合は、対話における感情状態がポジティブであることを示すラベル情報を特定する。同様に、所定の閾値以下の音声区間情報(感情スカラー)の割合が、所定割合よりも多い場合は、対話における感情状態がネガティブであることを示すラベル情報を特定する。
In step S105, the label identification step executes a step of identifying label information for the dialogue based on the ratio of the emotion feature amounts above or below a predetermined threshold among the plurality of emotion feature amounts calculated in the emotion calculation step. do.
Specifically, it is assumed that a predetermined threshold value and information on the ratio of the threshold value or more (predetermined ratio) are stored in the emotional condition item of the
The
For example, if the rate of speech segment information (emotion scalar) equal to or greater than a predetermined threshold is greater than a predetermined rate, label information indicating that the emotional state in the dialogue is positive is specified. Similarly, when the ratio of speech segment information (emotion scalar) below a predetermined threshold is greater than a predetermined ratio, label information indicating that the emotional state in the dialogue is negative is specified.
なお、感情スカラーの代わりに、感情ベクトルに含まれる1の要素成分、感情ベクトルに含まれる1または複数の要素成分に基づき算定される指標等を感情特徴量とみなして、同様の処理を実行しても構わない。 In addition, instead of the emotion scalar, one element component included in the emotion vector, an index calculated based on one or more element components included in the emotion vector, etc. are regarded as emotion feature amounts, and similar processing is performed. I don't mind.
ステップS105において、ラベル特定ステップは、感情算定ステップにおいて算定された複数の感情特徴量の統計値に基づき、対話に対するラベル情報を特定するステップを実行する。
具体的に、感情条件マスタ1021の感情条件の項目に、所定の閾値の情報が記憶されているとする。サーバ10の感情解析部1042は、1の対話情報に対して抽出された複数の音声区間情報のそれぞれに対応する感情スカラーの値の平均値、中央値、最頻値などの平均、最大値、最小値などの統計値を算定し、所定の閾値と比較し、所定の閾値以上の場合には当該感情条件に該当すると判定し、感情条件マスタ1021において感情条件に関連付けられたラベルデータの項目を取得し特定する。なお、所定の閾値以下の場合を条件としても構わない。
In step S105, the label identification step executes a step of identifying label information for the dialogue based on the statistical values of the plurality of emotion feature quantities calculated in the emotion calculation step.
Specifically, it is assumed that predetermined threshold information is stored in the emotion condition item of the
ステップS105において、ラベル特定ステップは、感情算定ステップにおいて算定された複数の感情特徴量の時系列的な変化に基づき、対話に対するラベル情報を特定するステップを実行する。
ラベル特定ステップは、感情算定ステップにおいて算定された複数の感情特徴量の時系列的な変化に対して回帰分析を行うステップと、回帰分析の結果得られた回帰係数に基づき、対話に対するラベル情報を特定するステップと、を含む。
具体的に、感情条件マスタ1021の感情条件の項目に、回帰係数の範囲が記憶されているとする。対象となる対話データにおいて、対話データに関連づけられた複数の音声区間情報のそれぞれに対して、X軸に音声区間情報の開始日時、終了日時、開始日時から終了日時の間の任意の日時の値、Y軸に当該音声区間情報の感情データに含まれる感情スカラーの値とした場合に、Y=f(X)の回帰分析を行う。回帰分析は、1次回帰、2次回帰等、任意の回帰分析を適用しても構わない。回帰分析を行うことにより回帰係数を算定し、回帰係数の範囲と比較し、回帰係数の範囲内の場合には当該感情条件に該当すると判定し、感情条件マスタ1021において感情条件に関連付けられたラベルデータの項目を取得し特定する。
例えば、線形回帰(1次回帰)の場合において、切片が負であり、傾きが正である場合は、対話における感情状態が改善していることを示すラベル情報を特定する。
なお、感情スカラーの代わりに、感情ベクトルに含まれる1の要素成分、感情ベクトルに含まれる1または複数の要素成分に基づき算定される指標等を感情特徴量とみなして、同様の処理を実行しても構わない。
In step S105, the label identification step executes a step of identifying label information for the dialogue based on time-series changes in the plurality of emotion feature quantities calculated in the emotion calculation step.
The label identification step includes a step of performing regression analysis on time-series changes in the multiple emotion feature quantities calculated in the emotion calculation step, and label information for the dialogue based on the regression coefficients obtained as a result of the regression analysis. identifying.
Specifically, it is assumed that the range of regression coefficients is stored in the emotion condition item of the
For example, in the case of linear regression (first-order regression), when the intercept is negative and the slope is positive, label information indicating that the emotional state in the dialogue is improving is specified.
In addition, instead of the emotion scalar, one element component included in the emotion vector, an index calculated based on one or more element components included in the emotion vector, etc. are regarded as emotion feature amounts, and similar processing is performed. I don't mind.
ステップS105において、サーバ10の感情解析部1042は、音声抽出ステップにおいて抽出した時系列的に連続する複数の区間音声データに対応した複数の感情特徴量の集合である第1感情群を特定するステップを実行する。サーバ10の感情解析部1042は、音声抽出ステップにおいて抽出した時系列的に連続する複数の区間音声データに対応した複数の感情特徴量の集合である第2感情群を特定するステップを実行する。
具体的に、サーバ10の感情解析部1042は、1の対話情報に対して抽出された複数の音声区間情報を、それぞれ複数の音声区間情報からなる区間群に分割し、それぞれの区間群に対して既に説明したラベル特定ステップを実行しても構わない。これにより、複数の区間群のそれぞれに対応するラベル情報が特定される。
例えば、サーバ10の感情解析部1042は、区間群に含まれる抽出された複数の音声区間情報のそれぞれに対して感情スカラーを算定し感情データに記憶する。記憶された複数の感情データに含まれる感情スカラーを、感情条件として、ラベルデータを特定しても良い。
例えば、サーバ10の感情解析部1042は、区間群に含まれる抽出された複数の音声区間情報のそれぞれに対して感情ベクトルを算定し感情データに記憶する。記憶された複数の感情データに含まれる感情ベクトルを、感情条件として、ラベルデータを特定しても良い。
In step S105, the
Specifically, the
For example, the
For example, the
ステップS105において、ラベル特定ステップは、第1感情群に含まれる複数の感情特徴量に基づき、対話に対する第1ラベル情報を特定するステップと、第2感情群に含まれる複数の感情特徴量に基づき、対話に対する第2ラベル情報を特定するステップと、を含む。
具体的に、サーバ10の感情解析部1042は、1の対話情報に対して抽出された複数の音声区間情報を、それぞれ複数の音声区間情報からなる区間群に分割し、それぞれの区間群に対して既に説明したラベル特定ステップを実行することにより、複数の区間群のそれぞれに対応するラベル情報が特定される。
In step S105, the label identification step includes a step of identifying first label information for the dialogue based on the plurality of emotion feature amounts included in the first emotion group; , identifying second label information for the interaction.
Specifically, the
ステップS105において、サーバ10の感情解析部1042は、第1ラベル情報および第2ラベル情報を、第1ユーザに提示するラベル提示ステップを実行する。
具体的に、サーバ10の感情解析部1042は、特定された第1ラベル情報、第2ラベル情報を第1ユーザ端末20へ送信する。第1ユーザ端末20の制御部204は、受信した第1ラベル情報、第2ラベル情報を第1ユーザ端末20のディスプレイ2081に表示し、第1ユーザに提示する。なお、第1ラベル情報および第2ラベル情報は、第2ユーザ、それ以外の管理者、他のユーザ等の任意のユーザに提示しても良い。
In step S105, the
Specifically, the
ステップS105において、サーバ10の感情解析部1042は、第1ユーザから、ラベル提示ステップにおいて提示した第1ラベル情報および第2ラベル情報の少なくともいずれか1つを選択する選択指示を受け付ける選択受付ステップを実行する。
具体的に、第1ユーザは、第1ユーザ端末20の入力装置206などを操作することにより、第1ユーザ端末20のディスプレイ2081に提示された第1ラベル情報、第2ラベル情報のいずれか1つを選択する。なお、第1ユーザはいずれも選択しないものとしても良い。第1ユーザ端末20の制御部204は、選択されたラベル情報をサーバ10へ送信する。サーバ10の感情解析部1042は、受信したラベル情報を特定する。
In step S105, the
Specifically, the first user operates the
ステップS105において、ラベル特定ステップは、感情算定ステップにおいて算定された複数の感情特徴量と、複数の感情特徴量に対応する区間音声データを発話した第1ユーザまたは第2ユーザのユーザ属性と、に基づき、対話に対するラベル情報を特定するステップを実行する。
具体的に、サーバ10の感情解析部1042は、ラベル情報を特定する際に、ステップS104において特定した第1ユーザ、第2ユーザのユーザ属性を考慮し、ラベル情報を特定しても良い。例えば、感情条件マスタ1021における感情条件に、第1ユーザ、第2ユーザのユーザ属性を条件として含めても構わない。
In step S105, in the label specifying step, the plurality of emotion feature amounts calculated in the emotion calculation step, and the user attributes of the first user or the second user who uttered the segmental speech data corresponding to the plurality of emotion feature amounts. Based on this, perform the step of identifying label information for the interaction.
Specifically, when identifying the label information, the
ステップS105において、ラベル特定ステップは、感情算定ステップにおいて算定された、第2ユーザの発話にかかる区間音声データに対応する複数の感情特徴量に基づき、第1ユーザの発話にかかる区間音声データに対応する複数の感情特徴量を考慮せずに、対話に対するラベル情報を特定するステップを実行する。
具体的に、サーバ10の感情解析部1042は、1の対話情報に対して抽出された複数の音声区間情報のうち、話者IDが第1ユーザID2011である音声区間情報を除外し、話者IDが第2ユーザID3011である音声区間情報のみに基づき、既に説明したラベル特定ステップを実行しても構わない。
これにより、顧客の感情状態のみ考慮したラベル情報を特定できる。通常、オペレータ等に相当する第1ユーザは、自身の感情状態ではなく、顧客の感情状態に関心があることが一般的である。このような構成にすることにより、顧客の感情状態を特に考慮したラベル情報を特定できる。
In step S105, the label specifying step corresponds to the segmental voice data of the first user's utterance based on the plurality of emotion feature values corresponding to the segmental voice data of the second user's utterance calculated in the emotion calculating step. A step of identifying label information for a dialogue is performed without considering a plurality of emotion features.
Specifically, the
This makes it possible to specify label information that takes into account only the customer's emotional state. Generally, the first user, such as an operator, is interested in the customer's emotional state rather than his or her own emotional state. By adopting such a configuration, it is possible to specify label information that particularly considers the customer's emotional state.
サーバ10の感情解析部1042は、1の対話情報に対して抽出された複数の音声区間情報のうち、話者IDが第2ユーザID3011である音声区間情報を除外し、話者IDが第1ユーザID2011である音声区間情報のみに基づき、既に説明したラベル特定ステップを実行しても構わない。
The
サーバ10の感情解析部1042は、話者IDが第1ユーザID2011である音声区間情報、話者IDが第2ユーザID3011である音声区間情報、のそれぞれに対して既に説明したラベル特定ステップを実行して、それぞれ、第1のラベル情報、第2のラベル情報の複数のラベル情報を特定しても良い。
The
また、サーバ10の感情解析部1042は、1の対話情報に対して抽出された複数の音声区間情報のうち、話者IDにより特定されるユーザが対話の主催者であるホストユーザである音声区間情報を除外し、話者IDにより特定されるユーザがホストユーザでない音声区間情報のみに基づき、既に説明したラベル特定ステップを実行しても構わない。
これにより、対話の主催者の感情状態を考慮せずにラベル情報を特定できる。通常、対話の主催者は、自身の感情状態ではなく、対話相手の感情状態に関心があることが一般的である。このような構成にすることにより、対話相手の感情状態を考慮したラベル情報を特定できる。
In addition, the
This allows label information to be specified without considering the emotional state of the host of the dialogue. It is common for dialogue organizers to be more interested in the emotional state of the interlocutor than in their own emotional state. With such a configuration, it is possible to specify label information that takes into consideration the emotional state of the conversation partner.
ステップS106において、サーバ10の感情解析部1042は、ラベル特定ステップにおいて特定されたラベル情報を、対話と関連づけて記憶する記憶ステップを実行する。
具体的に、サーバ10の感情解析部1042は、ステップS105において特定されたラベル情報を、ステップS101において採番された対話IDと関連づけてラベルテーブル1015のラベルデータの項目に記憶する。
なお、ステップS105においては、特定されたラベル情報を第1ユーザに提示し、第1ユーザから選択指示を受け付けたラベル情報をラベルテーブル1015のラベルデータとして記憶する構成としても良い。
In step S106, the
Specifically, the
In step S105, the specified label information may be presented to the first user, and the label information for which the selection instruction is received from the first user may be stored as label data in the label table 1015. FIG.
ステップS106において、記憶ステップは、ラベル特定ステップにおいて特定された第1ラベル情報または第2ラベル情報を、対話と関連づけて記憶するステップを実行する。記憶ステップは、選択受付ステップにおいて第1ユーザから受け付けた選択指示に基づき第1ラベル情報および第2ラベル情報の少なくともいずれか1つを、対話と関連づけて記憶するステップを実行する。
具体的に、第1ユーザから選択指示を受け付けたラベル情報をラベルテーブル1015のラベルデータとして記憶する構成としても良い。
In step S106, the storing step executes a step of storing the first label information or the second label information specified in the label specifying step in association with the interaction. The storing step stores at least one of the first label information and the second label information in association with the dialogue based on the selection instruction received from the first user in the selection receiving step.
Specifically, label information for which a selection instruction is received from the first user may be stored as label data in the label table 1015 .
また、第1ユーザは、第1ユーザ端末20の入力装置206を操作することにより、サーバ10からラベルテーブル1015に記憶されたラベル情報を、第1ユーザ端末20のディスプレイ2081に表示することができる。
Further, the first user can display the label information stored in the label table 1015 from the
<感情解析処理の実行タイミングについて>
感情解析処理のステップS103~S106は複数のユーザによるオンライン対話の終了後に実行する構成としても良い。これにより、オンライン対話が終了した後、対話内容が確定した後に、対話におけるユーザの感情状態に応じたラベル情報が特定され、対話情報と関連づけられて記憶される。
<Regarding the execution timing of emotion analysis processing>
Steps S103 to S106 of the emotion analysis process may be configured to be executed after the online dialogue by a plurality of users is finished. As a result, after the online dialogue ends and the contents of the dialogue are determined, the label information corresponding to the emotional state of the user in the dialogue is identified and stored in association with the dialogue information.
また、感情解析処理は複数のユーザによるオンライン対話の開始後、対話の終了前までに実行する構成としても良い。
つまり、複数のユーザによるオンライン対話の対話中の任意のタイミングに実行する構成としても良い。また、ステップS103~ステップS106は、オンライン対話の対話中に定期的にリアルタイムに実行する構成としても良い。これにより、オンライン対話の対話途中においても、それまでの対話におけるユーザの感情状態に応じたラベル情報が特定され、対話情報と関連づけられて記憶される構成としても良い。
これにより、ユーザは、オンライン対話の対話中にリアルタイムに、オンライン対話に参加しているユーザの感情状態を確認できるとともに、対話情報を最新の感情状態に基づき整理、管理できる。
Also, the emotion analysis processing may be configured to be executed after the start of online dialogue by a plurality of users and before the end of the dialogue.
In other words, it may be configured to be executed at an arbitrary timing during online dialogue between a plurality of users. Also, steps S103 to S106 may be configured to be periodically executed in real time during online dialogue. As a result, even during the online dialogue, the label information corresponding to the emotional state of the user in the previous dialogue may be identified and stored in association with the dialogue information.
As a result, the user can confirm the emotional state of the user participating in the online dialogue in real time during the online dialogue, and organize and manage the dialogue information based on the latest emotional state.
<印象解析処理>
印象解析処理は、複数のユーザにより行われたオンライン対話の音声、動画等の対話情報を解析し、対話に参加しているユーザの印象状態を特定するとともに、印象状態、話者タイプをユーザに提示する処理である。
<Impression analysis processing>
Impression analysis processing analyzes dialogue information such as voice and video of online dialogue conducted by multiple users, identifies the impression state of the users participating in the dialogue, and informs the user of the impression state and speaker type. This is the processing to be presented.
<印象解析処理の概要>
印象解析処理は、ユーザ間のオンライン対話を検知すると、対話に関する対話情報を記憶し、対話情報に含まれる音声データ、動画データをそれぞれ発話区間ごとの区間音声データ、区間動画データ等の区間データへ分割し、区間データごとの印象特徴量を算定し、印象特徴量に基づき話者タイプを特定し、特定した話者タイプをユーザへ提示する一連の処理である。
<Overview of Impression Analysis Processing>
When an online dialogue between users is detected, the impression analysis process stores the dialogue information related to the dialogue, and converts the audio data and video data included in the dialogue information into segment data such as segment audio data and segment video data for each utterance segment, respectively. This is a series of processes of dividing, calculating the impression feature amount for each section data, identifying the speaker type based on the impression feature amount, and presenting the identified speaker type to the user.
<印象解析処理の詳細>
以下に、印象解析処理の詳細を説明する。
<Details of impression analysis processing>
Details of the impression analysis processing will be described below.
ステップS301において、既に説明した発信処理、着信処理、ルーム等を介してユーザと顧客との間でのオンライン対話が開始される。 In step S301, an online dialogue between the user and the customer is started through the already explained outgoing call processing, incoming call processing, room, and the like.
ステップS302において、サーバ10の印象解析部1043は、第2ユーザから第1ユーザとの対話応対に関する対話情報を取得する対話取得ステップを実行する。
ステップS302は、感情解析処理におけるステップS102と同様であるため説明を省略する。
In step S302, the
Since step S302 is the same as step S102 in the emotion analysis process, the description is omitted.
ステップS303において、サーバ10の印象解析部1043は、ステップS302において受け付けた第2ユーザの音声データから、発話区間ごとに複数の区間音声データを抽出する音声抽出ステップを実行する。
ステップS303は、感情解析処理におけるステップS103と同様であるため説明を省略する。
In step S303, the
Since step S303 is the same as step S103 in the emotion analysis process, the explanation is omitted.
ステップS304において、サーバ10の印象解析部1043は、対話取得ステップにおいて取得した第2ユーザの対話情報に基づき、対話において第2ユーザが他のユーザに対して与える印象に関する印象特徴量を算定する印象算定ステップを実行する。印象算定ステップは、対話取得ステップにおいて第2ユーザから取得した対話情報に基づき、好き、嫌い、うるさい、聞きづらい、丁寧、わかりにくい、おどおどした、神経質、威圧的、暴力的および性的のうち少なくともいずれか1つの印象に関する強度を示す印象特徴量を算定するステップを実行する。
印象算定ステップは、対話取得ステップにおいて第2ユーザから取得した対話情報を入力データとして、学習モデルに適用することにより、対話において第2ユーザが他のユーザに対して与える印象に関する印象特徴量を出力データとして算定するステップを実行する。
具体的に、サーバ10の印象解析部1043は、S303において音声区間テーブル1016に記憶された区間音声データ、区間動画データ、区間読上テキストを取得し、音声区間情報のうち話者IDが第1ユーザID2011である音声区間情報を除外し、話者IDが第2ユーザID3011である音声区間情報のみを入力データとして印象評価モデル1032に適用し、印象評価モデル1032は入力データに応じた印象特徴量を出力データとして出力する。これにより、第2ユーザが与える印象を、印象特徴量により評価できる。
なお、印象評価モデル1032に適用する入力データは、音声区間情報のうち話者IDが第2ユーザID3011である音声区間情報を除外し、話者IDが第1ユーザID2011である音声区間情報としても良い。この場合、第1ユーザが与える印象を、印象特徴量により評価できる。
In step S304, the
In the impression calculation step, dialogue information obtained from the second user in the dialogue acquisition step is used as input data, and is applied to a learning model, thereby outputting an impression feature quantity relating to the impression given by the second user to other users in the dialogue. Execute the step of computing as data.
Specifically, the
Note that the input data applied to the
ステップS304において、印象算定ステップは、対話取得ステップにおいて取得した第2ユーザの対話情報に基づき、対話における第2ユーザの話し方に関する対話特徴量を算定するステップと、算定された対話特徴量に基づき、印象特徴量を算定するステップと、を含む。
印象算定ステップは、対話取得ステップにおいて取得した第2ユーザの対話情報を入力データとして、第1学習モデルに適用することにより、対話における第2ユーザの話し方に関する対話特徴量を出力データとして算定するステップと、算定された対話特徴量を入力データとして、第2学習モデルに適用することにより、印象特徴量を算定するステップと、を含む。
印象算定ステップは、対話取得ステップにおいて取得した第2ユーザの対話情報に基づき、対話における第2ユーザの話速、抑揚、丁寧な表現の数、フィラーの数および文法的な発話の数のうち少なくともいずれか1つの話し方に関する対話特徴量を算定するステップを含む。
In step S304, the impression calculation step includes calculating a dialogue feature amount related to the second user's way of speaking in the dialogue based on the second user's dialogue information acquired in the dialogue acquisition step, and based on the calculated dialogue feature amount, and calculating an impression feature amount.
The impression calculation step is a step of applying the dialogue information of the second user acquired in the dialogue acquisition step as input data to the first learning model, thereby calculating, as output data, a dialogue feature quantity relating to the manner of speaking of the second user in the dialogue. and calculating an impression feature amount by applying the calculated dialogue feature amount as input data to a second learning model.
In the impression calculation step, based on the second user's dialogue information acquired in the dialogue acquisition step, at least the second user's speaking speed, intonation, the number of polite expressions, the number of fillers, and the number of grammatical utterances in the dialogue. It includes the step of calculating dialogue features for any one of the speaking styles.
具体的に、サーバ10の印象解析部1043は、S303において音声区間テーブル1016に記憶された区間音声データ、区間動画データ、区間読上テキストを取得し、音声区間情報のうち話者IDが第1ユーザID2011である音声区間情報を除外し、話者IDが第2ユーザID3011である音声区間情報のみを入力データとして第1印象評価モデル1033に適用し、第1印象評価モデル1033は入力データに応じた対話特徴量を出力データとして出力する。
サーバ10の印象解析部1043は、対話特徴量を入力データとして第2印象評価モデル1034に適用し、第2印象評価モデル1034は入力データに応じた印象特徴量を出力データとして出力する。これにより、第2ユーザが与える印象を、印象特徴量により評価できる。
なお、印象評価モデル1032に適用する入力データは、音声区間情報のうち話者IDが第2ユーザID3011である音声区間情報を除外し、話者IDが第1ユーザID2011である音声区間情報としても良い。この場合、第1ユーザが与える印象を、印象特徴量により評価できる。
Specifically, the
The
Note that the input data applied to the
ステップS304において、サーバ10の印象解析部1043は、印象算定ステップにおいて算定された印象特徴量を、第2ユーザと関連づけて記憶する記憶ステップを実行する。
具体的に、サーバ10の印象解析部1043は、算定された印象特徴量を、音声区間テーブル1016の解析対象のレコードの印象データの項目に記憶する。これにより、音声区間テーブル1016の話者ID(第2ユーザID)を介して、印象特徴量が第2ユーザと関連づけて記憶される。なお、印象特徴量は、CRMシステム50の顧客テーブル5012に不図示の印象データを記憶するカラムを設けることにより、第2ユーザIDと関連づけて記憶する構成としても良い。また、印象特徴量は、サーバ10のユーザテーブル1012に不図示の印象データを記憶するカラムを設けることにより、第2ユーザIDと関連づけて記憶する構成としても良い。
CRMシステム50の顧客テーブル5012に記憶することにより、対象となる対話において特定されたユーザの印象特徴量を、社内の他の部署のメンバー等と共有できる。例えば、印象特徴量により特定される対話相手の印象に応じて効率的な業務を行うことができる。
In step S304, the
Specifically, the
By storing it in the customer table 5012 of the
ステップS305において、サーバ10の印象解析部1043は、印象算定ステップにおいて算定された印象特徴量に基づき、第2ユーザが他のユーザに対して与える印象をラベルした話者タイプを特定する特定ステップを実行する。
具体的に、サーバ10の印象解析部1043は、対話IDに基づき、音声区間テーブル1016の対話IDを検索し、印象データの項目を取得する。サーバ10の印象解析部1043は、印象データに基づき、話者タイプマスタ1022の印象条件に該当するレコード有無を検索し、該当するレコードの話者タイプの項目を取得する。
本開示においては、サーバ10の印象解析部1043は、1の対話情報に対して抽出された複数の音声区間情報のそれぞれに対して算定し、記憶された複数の印象データにかかる印象特徴量を、印象条件として、話者タイプを特定し、取得する構成としても良い。
In step S305, the
Specifically, the
In the present disclosure, the
ステップS305において、サーバ10の印象解析部1043は、特定ステップにおいて特定された話者タイプを、第2ユーザと関連づけて記憶する記憶ステップを実行する。
具体的に、サーバ10の印象解析部1043は、特定された話者タイプ、第2ユーザIDをCRMシステム50へ送信する。CRMシステム50の制御部504は、受信した話者タイプ、第2ユーザIDをそれぞれ、顧客テーブル5012の話者タイプ、ユーザIDの項目に記憶する。つまり、特定した話者タイプを、当該対話において発話したユーザのユーザIDと関連づけて記憶する。
CRMシステム50の顧客テーブル5012に記憶することにより、対象となる対話において特定されたユーザの話者タイプを、社内の他の部署のメンバー等と共有できる。例えば、対話相手の話者タイプに応じて効率的な応対業務を行うことができる。
本開示においては、ユーザの話者タイプをCRMシステム50の顧客テーブル5012に記憶する構成としたが、サーバ10のユーザテーブル1012に第2ユーザと関連づけて記憶する構成としても構わない。
In step S305, the
Specifically, the
By storing in customer table 5012 of
In the present disclosure, the user's speaker type is stored in the customer table 5012 of the
ステップS306において、サーバ10の印象解析部1043は、第1ユーザに対して、記憶ステップにおいて第2ユーザと関連づけて記憶された印象特徴量を提示する提示ステップを実行する。
具体的に、サーバ10の印象解析部1043は、ステップS305において特定された印象特徴量を第1ユーザ端末20へ送信する。第1ユーザ端末20の制御部204は、受信した印象特徴量を、第1ユーザ端末20のディスプレイ2081に表示し、第1ユーザへ提示する。なお、印象特徴量は、第2ユーザ、それ以外の管理者、他のユーザ等の任意のユーザに提示しても良い。
In step S306, the
Specifically, the
ステップS306において、サーバ10の印象解析部1043は、第1ユーザと第2ユーザとの間で行われる対話に先立って、第1ユーザに対して、記憶ステップにおいて第2ユーザと関連づけて記憶された印象特徴量を提示する提示ステップを実行する。
例えば、第1ユーザまたは他のユーザが、発信処理、着信処理、ルーム等を介して第2ユーザとの間でのオンライン対話を開始する際に、第1ユーザ端末20のディスプレイ2081に表示される、第2ユーザへ発信を行うための発信画面、第2ユーザから着信を受けるための着信画面、対話開始前のルーム画面等に、ステップS305において第2ユーザと関連づけられて記憶された第2ユーザの印象特徴量を表示し、第1ユーザへ提示しても良い。
これにより、第1ユーザは、対話開始に先立ち、第2ユーザの印象に応じた応対を準備できる。
In step S306, the
For example, when the first user or another user starts an online dialogue with the second user via outgoing call processing, incoming call processing, rooms, etc., the
Thereby, the first user can prepare a response according to the second user's impression before starting the dialogue.
なお、サーバ10の印象解析部1043は、第1ユーザと第2ユーザとの間で行われる対話に先立って、第1ユーザに対して、記憶ステップにおいて第2ユーザと関連づけて記憶された話者タイプを提示する提示ステップを実行しても良い。
例えば、第1ユーザまたは他のユーザが、発信処理、着信処理、ルーム等を介して第2ユーザとの間でのオンライン対話を開始する際に、第1ユーザ端末20のディスプレイ2081に表示される、第2ユーザへ発信を行うための発信画面、第2ユーザから着信を受けるための着信画面、対話開始前のルーム画面等に、ステップS305において第2ユーザと関連づけられて記憶された第2ユーザの話者タイプを表示し、第1ユーザへ提示しても良い。
これにより、第1ユーザは、対話開始に先立ち、第2ユーザの話者タイプに応じた応対を準備できる。
Note that, prior to the dialogue between the first user and the second user, the
For example, when the first user or another user starts an online dialogue with the second user via outgoing call processing, incoming call processing, rooms, etc., the
This allows the first user to prepare a response according to the second user's speaker type before starting the dialogue.
サーバ10の印象解析部1043は、第1ユーザと第2ユーザとの間で行われる対話の終了前に、第1ユーザに対して、記憶ステップにおいて第2ユーザと関連づけて記憶された印象特徴量を提示する提示ステップを実行しても良い。
例えば、第1ユーザまたは他のユーザが、第2ユーザとの間でのオンライン対話を行っている間に、第1ユーザ端末20のディスプレイ2081に表示される対話画面、ルーム画面等に、ステップS305において第2ユーザと関連づけられて記憶された第2ユーザの印象特徴量を表示し、第1ユーザへ提示しても良い。なお、印象特徴量は、第2ユーザ、それ以外の管理者、他のユーザ等の任意のユーザに提示しても良い。
これにより、第1ユーザは、対話中に、第2ユーザの印象に応じた応対を準備できる。
Before the dialogue between the first user and the second user ends, the
For example, while the first user or another user is having an online dialogue with the second user, the interactive screen, room screen, etc. displayed on the
Thereby, the first user can prepare a response according to the second user's impression during the dialogue.
サーバ10の印象解析部1043は、第1ユーザと第2ユーザとの間で行われる対話の終了前に、第1ユーザに対して、記憶ステップにおいて第2ユーザと関連づけて記憶された話者タイプを提示する提示ステップを実行しても良い。
例えば、第1ユーザまたは他のユーザが、第2ユーザとの間でのオンライン対話を行っている間に、第1ユーザ端末20のディスプレイ2081に表示される対話画面、ルーム画面等に、ステップS305において第2ユーザと関連づけられて記憶された第2ユーザの話者タイプを表示し、第1ユーザへ提示しても良い。なお、印象特徴量は、第2ユーザ、それ以外の管理者、他のユーザ等の任意のユーザに提示しても良い。
これにより、第1ユーザは、対話中に、第2ユーザの話者タイプに応じた応対を準備できる。
Before the dialogue between the first user and the second user ends, the
For example, while the first user or another user is having an online dialogue with the second user, the interactive screen, room screen, etc. displayed on the
Thereby, the first user can prepare a response according to the second user's speaker type during the dialogue.
サーバ10の印象解析部1043は、印象算定ステップにおいて、複数の対話特徴量のうち、印象特徴量に対する影響度が大きい1または複数の前記対話特徴量を提示する提示ステップを実行しても良い。
具体的に、サーバ10の印象解析部1043は、複数の対話特徴量を入力データとして第2印象評価モデル1034に適用し、第2印象評価モデル1034は入力データに応じた印象特徴量を出力データとして出力する際に、出力される印象特徴量に大きな影響を与える1または複数の対話特徴量を特定し、第1ユーザ端末20、第2ユーザ端末30、それ以外の他のユーザ端末等へ送信し、ユーザへ提示する構成としても良い。
例えば、第2印象評価モデル1034は、出力される印象特徴量に大きな影響を与える1または複数の対話特徴量を出力データとして出力するものとしても良い。これにより、印象特徴量に大きな影響を与える対話特徴量を高速に取得することができる。
In the impression calculation step, the
Specifically, the
For example, the second
<印象解析処理の変形例>
印象解析処理は、顧客である第2ユーザではなく、オペレータである第1ユーザの印象状態を特定する構成としても良い。
また、第1ユーザが他のユーザに与えたい目標印象特徴量、目標話者タイプを受け付けて、第1ユーザが改善すべき対話特徴量を算定し、第1ユーザに提示しても良い。つまり、第1ユーザに対して、好ましい話し方を提案するステップを含めても良い。
この場合、印象解析処理のステップS301からステップS305において、第2ユーザを第1ユーザと読み替えるだけで処理内容としては同様であるため説明を省略する。
<Modified example of impression analysis processing>
The impression analysis process may be configured to identify the impression state of the first user who is the operator instead of the second user who is the customer.
Alternatively, the first user may receive the desired impression feature amount and the target speaker type that the first user wants to give to other users, calculate the dialogue feature amount to be improved by the first user, and present it to the first user. That is, a step of suggesting a preferred way of speaking to the first user may be included.
In this case, in steps S301 to S305 of the impression analysis process, only the second user is read as the first user, and the processing contents are the same, so description thereof will be omitted.
ステップS306において、サーバ10の印象解析部1043は、対話において第1ユーザが他のユーザに対して与えるべき目標となる目標話者タイプを受け付ける目標受付ステップを実行する。
具体的に、第1ユーザは、第1ユーザ端末20の入力装置206などを操作することにより、サーバ10が提供する所定のウェブページにアクセスし、一覧表示された複数の話者タイプから、目標とする話者タイプ(目標話者タイプ)を選択する。第1ユーザ端末20の制御部204は、選択された目標話者タイプを特定し、サーバ10へ送信する。サーバ10は、目標話者タイプを受信し受け付ける。目標話者タイプは、第1ユーザが他のユーザに与える印象状態として望ましい印象状態に関する話者タイプであり、第1ユーザが自身で選択しても良いし、第1ユーザの管理者等が、第1ユーザの職務等に応じて選択しても良い。
In step S306, the
Specifically, the first user accesses a predetermined web page provided by the
ステップS306において、サーバ10の印象解析部1043は、対話において第1ユーザが他のユーザに対して与えるべき目標となる目標印象特徴量を受け付ける目標受付ステップを実行する。
具体的に、サーバ10の印象解析部1043は、受信した目標話者タイプに基づき、話者タイプマスタ1022の話者タイプの項目を検索し、印象条件を取得する。サーバ10の印象解析部1043は、取得した印象条件に基づいて、当該印象条件の範囲に含まれる印象特徴量を目標印象特徴量として特定し、受け付ける。サーバ10の印象解析部1043は、目標話者タイプを入力データとして、不図示の学習モデル等に適用することにより出力された目標印象特徴量を取得し、受け付ける構成としても良い。また、第1ユーザから、第1ユーザ端末20の入力装置206などを介して目標印象特徴量を受け付ける構成としても良い。
In step S306, the
Specifically, the
ステップS306において、サーバ10の印象解析部1043は、印象算定ステップにおいて算定された印象特徴量と、目標受付ステップにおいて受け付けた目標印象特徴量とに基づき、第1ユーザが改善すべき対話特徴量を算定する改善ステップを実行する。
具体的に、サーバ10の印象解析部1043は、特定した目標印象特徴量に基づいて、当該目標印象特徴量を得るための対話特徴量を目標対話特徴量として特定し、受け付ける。サーバ10の印象解析部1043は、目標印象特徴量を入力データとして、不図示の学習モデル等に適用することにより目標対話特徴量を取得し、受け付ける構成としても良い。
第1ユーザが改善すべき対話特徴量としては、例えば、「話速をより速く」、「話速をより遅く」、「抑揚をより大きく」、「抑揚をより小さく」といったものである。また、第1ユーザが改善すべき対話特徴量は、目標となる対話特徴量(目標対話特徴量)としても良い。
In step S306, the
Specifically, the
Dialogue features to be improved by the first user include, for example, "faster speaking speed", "slower speaking speed", "higher intonation", and "lower intonation". Further, the dialogue feature amount to be improved by the first user may be a target dialogue feature amount (target dialogue feature amount).
サーバ10の印象解析部1043は、ステップS304において算定した対話特徴量と目標対話特徴量とを比較する。サーバ10の印象解析部1043は、対話特徴量の目標対話特徴量に対する差分を第1ユーザが改善すべき対話特徴量として算定する。また、サーバ10の印象解析部1043は、対話特徴量と目標対話特徴量とを比較し、乖離度が大きい対話特徴量を第1ユーザが改善すべき対話特徴量として特定する。
サーバ10の印象解析部1043は、第1ユーザが改善すべき対話特徴量を第1ユーザ端末20へ送信する。第1ユーザ端末20の制御部204は、受信した改善すべき対話特徴量を第1ユーザ端末20のディスプレイ2081に表示し、第1ユーザに提示する。
例えば、対話における第1ユーザの話速、抑揚、丁寧な表現の数、フィラーの数および文法的な発話の数等の対話特徴量のうち、第1ユーザが改善すべき対話特徴量を特定し、話速、抑揚、丁寧な表現の数、フィラーの数等をどの程度改善すべきか第1ユーザに対して提示する。これにより、オペレータ等が、具体的に話し方を改善することにより他者に与える印象を改善できる。
なお、対話特徴量は、第2ユーザ、それ以外の他のユーザに提示しても良い。
The
The
For example, out of the dialogue feature quantities such as the first user's speaking speed, intonation, the number of polite expressions, the number of fillers, and the number of grammatical utterances in the dialogue, the dialogue feature quantity to be improved by the first user is specified. , speech rate, intonation, the number of polite expressions, the number of fillers, etc., should be improved to the first user. As a result, the operator or the like can improve the impression given to others by specifically improving the manner of speaking.
Note that the dialogue feature amount may be presented to the second user or other users.
これにより、サーバ10の印象解析部1043は、印象算定ステップにおいて算定された話者タイプと、目標受付ステップにおいて受け付けた目標話者タイプとに基づき、第1ユーザが改善すべき対話特徴量を算定する改善ステップを実行できる。
つまり、ユーザは受け付けた目標話者タイプに応じて改善すべき対話特徴量を把握できるとともに、改善すべき対話特徴量に基づき話し方を改善することにより自身が他者に与える印象を目標話者タイプに近づけることができる。
As a result, the
In other words, the user can grasp the dialogue feature amount to be improved according to the received target speaker type, and improve the speaking style based on the dialogue feature amount to be improved, so that the impression the user gives to others can be determined by the target speaker type. can be brought closer to
<トピック定義処理>
トピック定義処理は、ユーザが、複数のキーワードと関連づけられ、所定の話題に関するトピックを登録し記憶する処理である。
<Topic definition processing>
The topic definition process is a process in which a user registers and stores a topic associated with a plurality of keywords and related to a predetermined topic.
<トピック定義処理の概要>
ユーザは、複数の単語、名詞、形容詞等のキーワードに基づき、新たなトピックを定義し、記憶できる。また、既に記憶されたトピックに対して、過去に記憶された対話情報に基づいて、当該トピックと関連性が高いキーワードの提示を受け、当該キーワードをトピックに関連づけられたキーワードに追加し、記憶することにより、トピックに関連づけられたキーワードを拡張する一連の処理である。
<Overview of topic definition processing>
Users can define and memorize new topics based on keywords such as multiple words, nouns, adjectives, and the like. Also, for an already stored topic, a keyword highly related to the topic is presented based on the dialogue information stored in the past, and the keyword is added to the keywords related to the topic and stored. It is a series of processes for expanding the keywords associated with the topic.
<トピック定義処理の詳細>
以下に、トピック定義処理の詳細を説明する。
<Details of topic definition processing>
Details of the topic definition process will be described below.
サーバ10のトピック処理部1044は、音声記憶ステップにおいて記憶された音声データと、キーワード受付ステップにおいて受け付けた複数のキーワードに基づき、第1トピックに新たに関連づける1または複数の新たなキーワードを第1ユーザに対して提示するキーワード提示ステップを実行する。
具体的に、第1ユーザは、第1ユーザ端末20の入力装置206などを操作することにより、アプリケーションプログラム2012を実行しブラウザアプリケーションを実行する。第1ユーザは、ブラウザアプリケーションにおいて、サーバ10が提供する所定のウェブサーバを指定する所定のURL(Uniform Resource Locator)を入力することにより、サーバ10へトピックを定義するためのページを要求するリクエストを送信する。
Based on the speech data stored in the speech storage step and the plurality of keywords accepted in the keyword acceptance step, the
Specifically, the first user operates the
サーバ10のトピック処理部1044は、受信したリクエストに含まれる第1ユーザID2011に基づき、音声区間テーブル1016の話者IDの項目を検索し、区間読上テキストを取得する。
サーバ10のトピック処理部1044は、区間読上テキストに対して形態素解析等の処理を実行することにより、区間読上テキストに含まれる名詞、形容詞、キーワード等の文字列を抽出する。このとき、対話情報、音声区間情報ごとの文字列の出現頻度等に基づき、文字列に対する重要度の算定を行っても良い。重要度の算定手法としては、tf-idf等がある。サーバ10のトピック処理部1044は、重要度が高い所定個数の文字列をキーワード候補として特定する。
Based on the
The
サーバ10のトピック処理部1044は、トピックマスタ1023からトピックID、キーワードを取得し、複数のトピックIDのそれぞれに関連づけられた複数のキーワードと、1または複数の対話情報または音声区間情報において共起関係にあり、トピックIDとは関連づけられていない文字列をキーワード候補として特定しても良い。なお、共起関係の算定にあたり、キーワード、文字列ごとの重要度を考慮しても良い。キーワード候補の特定にあたり、出現頻度等に基づき算定された重要度を考慮し、所定個数の文字列をキーワード候補として特定しても良い。
The
サーバ10のトピック処理部1044は、特定したキーワード候補を第1ユーザ端末20へ送信する。第1ユーザ端末20の制御部204は、受信したキーワード候補を第1ユーザ端末20のディスプレイ2081に表示し、第1ユーザに提示する。
The
サーバ10のトピック処理部1044は、第1ユーザから1または複数のキーワードを受け付けるキーワード受付ステップを実行する。
具体的に、第1ユーザは、第1ユーザ端末20の入力装置206などを操作することにより、第1ユーザ端末20のディスプレイ2081に表示されたキーワード候補から新たにトピックと関連づけるためのキーワードを選択する。
第1ユーザ端末20の制御部204は、第1ユーザにより選択された1または複数のキーワード候補をサーバ10へ送信する。
The
Specifically, the first user operates the
The control unit 204 of the first user terminal 20 transmits the one or more keyword candidates selected by the first user to the
キーワード受付ステップは、キーワード提示ステップにおいて第1ユーザに対して提示された複数の新たなキーワードのうち、第1ユーザにより選択された1または複数のキーワードを受け付けるステップを実行する。
具体的に、サーバ10のトピック処理部1044は、第1ユーザ端末20から1または複数のキーワード候補を受信し、受け付ける。
The keyword acceptance step executes a step of accepting one or more keywords selected by the first user from among the plurality of new keywords presented to the first user in the keyword presentation step.
Specifically, the
サーバ10のトピック処理部1044は、キーワード受付ステップにおいて受け付けた1または複数のキーワードを、所定の話題に関する第1トピックと関連づけて記憶するトピック記憶ステップを実行する。
具体的に、サーバ10のトピック処理部1044は、受け付けた複数のキーワード候補を、トピックIDと関連づけてトピックマスタ1023に記憶する。なお、第1ユーザにより選択された1または複数のキーワード候補は、既にトピックマスタ1023に記憶されているトピックIDと関連づけても良いし、新たなトピックIDを生成し、当該新たに生成されたトピックIDと関連づける構成としても良い。
既にトピックマスタ1023に記憶されているトピックIDと関連づけて記憶する場合は、第1ユーザは、第1ユーザ端末20の入力装置206などを操作することにより、関連づける対象となるトピックIDを選択する選択操作を実行する。
The
Specifically, the
When storing in association with a topic ID already stored in the
<トピック解析処理>
トピック解析処理は、複数のユーザにより行われたオンライン対話の音声、動画等の対話情報を解析し、対話情報と1または複数のトピックとの関連度を算定し、関連度に基づき、対話情報にトピックを関連づけ、記憶する処理である。
<Topic analysis processing>
Topic analysis processing analyzes dialogue information such as audio and video of online dialogue conducted by multiple users, calculates the degree of relevance between the dialogue information and one or more topics, and based on the degree of relevance, analyzes the dialogue information This is the process of associating and storing topics.
<トピック解析処理の概要>
トピック解析処理は、ユーザ間のオンライン対話を検知すると、対話に関する対話情報を記憶し、対話情報に含まれる音声データ、動画データをそれぞれ発話区間ごとの区間音声データ、区間動画データ等の区間データへ分割し、区間データごとに複数のトピックとの関連度を算定し、区間データごとのトピックを特定し、代表的なトピックを対話情報のラベル情報として記憶する一連の処理である。
<Overview of topic analysis processing>
When an online dialogue between users is detected, the topic analysis process stores the dialogue information related to the dialogue, and converts the audio data and video data included in the dialogue information into segment data such as segment audio data and segment video data for each utterance segment, respectively. This is a series of processes of dividing, calculating the degree of relevance to a plurality of topics for each section data, identifying the topic for each section data, and storing representative topics as label information of dialogue information.
<トピック解析処理の詳細>
以下に、トピック解析処理の詳細を説明する。
<Details of topic analysis processing>
Details of the topic analysis process will be described below.
ステップS511において、既に説明した発信処理、着信処理、ルーム等を介してユーザと顧客との間でのオンライン対話が開始される。 In step S511, an online dialogue between the user and the customer is started through the already explained outgoing call processing, incoming call processing, room, and the like.
ステップS512において、サーバ10のトピック処理部1044は、対話に関する音声データを受け付ける受付ステップを実行する。サーバ10のトピック処理部1044は、受付ステップにおいて受け付けた音声データを記憶する音声記憶ステップを実行する。
ステップS512は、感情解析処理におけるステップS102と同様であるため説明を省略する。
In step S512, the
Since step S512 is the same as step S102 in the emotion analysis process, the description is omitted.
ステップS513において、サーバ10のトピック処理部1044は、受付ステップにおいて受け付けた音声データから、発話区間ごとに複数の区間音声データを抽出する音声抽出ステップを実行する。
ステップS513は、感情解析処理におけるステップS103と同様であるため説明を省略する。
In step S513, the
Since step S513 is the same as step S103 in the emotion analysis process, the explanation is omitted.
ステップS513において、音声抽出ステップは、対話が終了する前に、受付ステップにおいて受け付けた音声データから、発話区間ごとに複数の区間音声データを抽出するステップを実行しても良い。
つまり、音声抽出ステップは、複数のユーザによるオンライン対話の対話中の任意のタイミングに実行する構成としても良い。
In step S513, the voice extracting step may execute a step of extracting a plurality of segmental voice data for each utterance segment from the voice data received in the receiving step before the dialogue ends.
In other words, the speech extraction step may be configured to be executed at arbitrary timing during online dialogue between a plurality of users.
ステップS514において、サーバ10のトピック処理部1044は、複数のキーワードと関連づけられ、所定の話題に関する第1トピックを特定するトピック特定ステップを実行する。
具体的に、サーバ10のトピック処理部1044は、トピックマスタ1023を参照して、トピック定義処理により予め登録されたトピックID、トピックIDに関連づけられた1または複数のキーワードを取得し、特定する。
In step S514, the
Specifically, the
関連度算定ステップは、複数の区間音声データごとに、トピック特定ステップにおいて特定した複数のトピックごとの関連度を算定するステップを実行する。
本開示においては、主に簡単のため1の第1トピックと、第1トピックに関連づけられた1または複数のキーワードについて説明するが、トピックは1つに限られず複数のトピック(第2トピック、第3トピック・・・)に対して同様の処理を実行しても構わない。
The degree-of-relevance calculation step executes a step of calculating the degrees of relevance for each of the plurality of topics identified in the topic identification step for each of the plurality of segmental speech data.
In this disclosure, one first topic and one or more keywords associated with the first topic will be mainly described for simplicity, but the topic is not limited to one and may include multiple topics (second topic, second topic, 3 topics . . . ).
ステップS514において、サーバ10のトピック処理部1044は、複数の区間音声データごとに、トピック特定ステップにおいて特定した第1トピックとの関連度を示す第1関連度を算定する関連度算定ステップを実行する。
具体的に、サーバ10のトピック処理部1044は、S513において取得した音声区間情報と、第1トピックに関連づけられたキーワードとの関連性に応じて、第1トピックとの関連度を示す第1関連度を算定する。
In step S514, the
Specifically, the
第1関連度の算定方法の一例を以下の通り説明する。サーバ10のトピック処理部1044は、第1トピックに関連づけられたキーワードに基づき分散表現(埋め込み表現)として高次元ベクトル(トピックベクトル)を作成する。また、サーバ10のトピック処理部1044は、複数の音声区間情報に含まれる区間読上テキストに対して形態素解析等の処理を実行することにより、区間読上テキストに含まれる名詞、形容詞、キーワード等の文字列を抽出し、抽出された文字列に基づき分散表現として高次元ベクトル(音声区間ベクトル)を作成する。なお、分散表現の作成方法としては、Word2vecと呼ばれる手法が知られている。サーバ10のトピック処理部1044は、第1関連度を、トピックベクトルと音声区間ベクトルとのコサイン類似度を計算することにより算定する。なお、第1関連度は、ユークリッド距離、マハラノビス距離、マンハッタン距離、チェビシェフ距離、ミンコフスキー距離等、任意の多次元ベクトル間の距離を算定するアルゴリズムを適用しても構わない。
このように計算された第1関連度は、第1トピックに関連づけられた複数のキーワードと、複数の音声区間情報に含まれる文字列との全体的な類似傾向を反映したものとなる。これにより、音声区間情報に含まれる文字列が、トピックに含まれるキーワードの言い換え表現や表記の違いにより同じ意味の単語が異なる単語と判定されずに、第1トピックに含まれるキーワードと意味内容の関連性が高い音声区間情報について、より高い関連度が得られる。
本開示においては、第1トピックとの関連度を示す第1関連度の算定について説明したが、任意のトピックと、当該トピックと音声区間情報との関連度の算定も同様である。
An example of the method for calculating the first degree of association will be described below. The
The first degree of relevance calculated in this way reflects the general tendency of similarity between the plurality of keywords associated with the first topic and the character strings included in the plurality of speech segment information. As a result, the character strings included in the speech segment information are not determined to be different words with the same meaning due to differences in paraphrasing expressions and notations of the keywords included in the topic, so that the keywords included in the first topic and the semantic content are different. A higher degree of relevance is obtained for speech segment information that is highly relevant.
In the present disclosure, the calculation of the first degree of relevance indicating the degree of relevance to the first topic has been described, but the calculation of the degree of relevance between an arbitrary topic and the speech section information is the same.
関連度算定ステップは、対話が終了する前に、複数の区間音声データに含まれる区間音声データごとに、トピック特定ステップにおいて特定した第1トピックとの関連度を示す第1関連度を算定するステップを実行しても良い。
つまり、複数のユーザによるオンライン対話の対話中の任意のタイミングに実行する構成としても良い。これにより、オンライン対話の対話途中においても、それまでの対話における音声区間情報に対して、それぞれのトピックとの関連度を算定できる。
The degree-of-relevance calculating step is a step of calculating a first degree of relevance indicating the degree of relevance to the first topic identified in the topic identifying step for each segmental audio data included in the plurality of segmental audio data before the dialogue ends. may be executed.
In other words, it may be configured to be executed at an arbitrary timing during online dialogue between a plurality of users. As a result, even in the middle of an online dialogue, it is possible to calculate the degree of relevance to each topic for speech segment information in the dialogue up to that point.
関連度算定ステップは、第1トピックに関連づけられた複数のキーワードのうち、音声抽出ステップにおいて抽出された複数の区間音声データに多く含まれるキーワードほど関連度へ与える重みが小さくなるようにし、複数の区間音声データごとに第1トピックに関連づけられた複数のキーワードの重み付けを考慮した一致度を、第1トピックとの関連度を示す第1関連度として算定しても良い。
具体的に、関連度算定の際に第1トピックに関連づけられた複数のキーワードごとの重要性について、異なる重み付けを行っても良い。例えば、1の対話情報に対して抽出された複数の音声区間情報に対して、多くの音声区間情報に頻出するキーワードの、関連度へ与える影響度合いが小さくなるように、重要性、重みを他のキーワードに比べて小さい値としても良い。これにより、多くの音声区間情報に頻出するありふれたキーワードに関連付いたトピックとの関連度が過大に評価されることを防止できる。
本開示においては、第1トピックとの関連度を示す第1関連度の算定について説明したが、任意のトピックと、当該トピックと音声区間情報との関連度の算定も同様としても良い。
In the degree-of-relevance calculation step, among the plurality of keywords associated with the first topic, the more keywords included in the plurality of segmental speech data extracted in the speech extraction step, the smaller the weight given to the degree of relevance. A degree of matching that takes into consideration the weighting of a plurality of keywords associated with the first topic for each piece of segmental audio data may be calculated as the first degree of relevance indicating the degree of relevance with the first topic.
Specifically, different weights may be applied to the importance of each of the plurality of keywords associated with the first topic when calculating the degree of association. For example, for a plurality of pieces of speech segment information extracted for one piece of dialogue information, the importance and weight of keywords frequently appearing in many pieces of speech segment information may be reduced so as to reduce the degree of influence on the degree of relevance. may be set to a value smaller than the number of keywords. As a result, it is possible to prevent overestimation of the degree of relevance to topics associated with common keywords that frequently appear in a lot of speech segment information.
In the present disclosure, calculation of the first degree of relevance, which indicates the degree of relevance to the first topic, has been described.
関連度算定ステップは、第1トピックに関連づけられた複数のキーワードのうち、第1関連度の算定対象となる対象区間音声データから時系列的に所定個数前までの複数の区間音声データに多く含まれるキーワードほど関連度へ与える重みが小さくなるようにし、複数の区間音声データごとに第1トピックに関連づけられた複数のキーワードとの重み付けを考慮した一致度を、第1トピックとの関連度を示す第1関連度として算定しても良い。
例えば、1の対話情報に対して抽出された複数の音声区間情報のすべてではなく、算定対象となる対象区間音声情報から時系列的に所定個数前までの複数の音声区間情報に対して、多くの音声区間情報に頻出するキーワードの、関連度へ与える影響度合いが小さくなるように、重要性、重みを他のキーワードに比べて小さい値としても良い。これにより、対話が終了する前の対話中の任意のタイミングにおいても、直近の音声区間情報とトピックとの関連度をより正確に算定できる。
本開示においては、第1トピックとの関連度を示す第1関連度の算定について説明したが、任意のトピックと、当該トピックと音声区間情報との関連度の算定も同様としても良い。
In the degree-of-relevance calculation step, among the plurality of keywords associated with the first topic, a large number of the plurality of section-speech data up to a predetermined number in chronological order from the target section-sound data for which the first degree of relevance is to be calculated. The degree of association with the first topic is indicated by weighting the degree of relevance for each of the plurality of segmental audio data, taking into consideration the weighting of the plurality of keywords associated with the first topic, for each of the plurality of segmental audio data. It may be calculated as the first degree of association.
For example, instead of all of a plurality of speech segment information extracted from one piece of dialogue information, many of the speech segment information up to a predetermined number in chronological order from the target segment speech information to be calculated are extracted. The importance and weight may be set to values smaller than those of other keywords so that the degree of influence of the keywords frequently appearing in the speech section information on the relevance is small. This makes it possible to more accurately calculate the degree of relevance between the most recent speech segment information and the topic even at any timing during the dialogue before the dialogue ends.
In the present disclosure, calculation of the first degree of relevance, which indicates the degree of relevance to the first topic, has been described.
サーバ10のトピック処理部1044は、1の対話情報に対して抽出された複数の音声区間情報に対して、複数のトピックごとに算定された関連度を、音声区間情報を特定する区間ID、トピックを特定するトピックID、算定された関連度を、それぞれ、トピック関連度テーブル1017の新たなレコードの区間ID、トピックID、関連度の項目に記憶する。
The
ステップS515において、それぞれの音声区間情報において所定値以上の関連度を有する1または複数のトピックのうち、もっとも関連度が高いトピックを音声区間情報が言及している所定の話題に関するトピックとして特定する。なお、トピックは必ずしも特定される必要はない。サーバ10のトピック処理部1044は、特定したトピックのトピックIDを、音声区間テーブル1016において関連度の算定対象となる音声区間情報の区間IDにより特定されるレコードのトピックIDの項目に記憶する。これにより、音声区間情報が、関連度が高いトピックと関連づけて記憶される。
In step S515, among one or a plurality of topics having a degree of relevance equal to or greater than a predetermined value in each speech segment information, the topic with the highest degree of relevance is specified as a topic related to the predetermined topic referred to by the speech segment information. Note that the topic does not necessarily have to be specified. The
ステップS516において、サーバ10のトピック処理部1044は、関連度算定ステップにおいて算定された複数のトピックごとの関連度に基づき、対話に対するラベル情報を特定するラベル特定ステップを実行する。サーバ10のトピック処理部1044は、ラベル特定ステップにおいて特定されたラベル情報を、対話と関連づけて記憶する記憶ステップを実行する。
具体的に、サーバ10のトピック処理部1044は、ステップS515において、1の対話情報に対して抽出された複数の音声区間情報のそれぞれに対して記憶されたトピックIDを集計し、集計されたトピックIDが多い順番に1または複数のトピックIDを、当該1の対話情報を特徴付けるトピックとして特定する。なお、集計されたトピックIDの個数が所定数以上の1または複数のトピックIDを、当該1の対話情報を特徴付けるトピックとして特定しても良い。
サーバ10のトピック処理部1044は、当該特定したトピックIDのトピック名、ラベル等のトピックの名称をラベル情報として特定する。なお、不図示のテーブル等を参照して、特定したトピックIDに基づき、任意のラベル情報を特定する構成としても良い。
特定したラベル情報、当該1の対話情報の対話IDを、ラベルテーブル1015の新たなレコードのラベルデータ、対話IDの項目に記憶する。これにより、対話情報と、対話情報を特徴付けるトピックがラベル情報として関連づけられ記憶され、対話情報を検索する際などに利便性よく利用できる。
In step S516, the
Specifically, in step S515, the
The
The specified label information and the dialogue ID of the one piece of dialogue information are stored in the label data and dialogue ID fields of a new record in the label table 1015 . As a result, the dialogue information and the topic characterizing the dialogue information are associated and stored as label information, which can be conveniently used when retrieving the dialogue information.
<トピック解析処理の実行タイミングについて>
トピック解析処理のステップS513~S516は複数のユーザによるオンライン対話の終了後に実行する構成としても良い。これにより、オンライン対話が終了した後、対話内容が確定した後に、対話に関連するトピックが特定され、対話情報と関連づけられて記憶される。
<Regarding the execution timing of topic analysis processing>
Steps S513 to S516 of the topic analysis process may be configured to be executed after the online dialogue by a plurality of users is finished. As a result, after the online dialogue ends and the contents of the dialogue are determined, the topic related to the dialogue is identified and stored in association with the dialogue information.
また、トピック解析処理は複数のユーザによるオンライン対話の開始後、対話の終了前までに実行する構成としても良い。
つまり、複数のユーザによるオンライン対話の対話中の任意のタイミングに実行する構成としても良い。また、ステップS513~ステップS516は、オンライン対話の対話中に定期的にリアルタイムに実行する構成としても良い。これにより、オンライン対話の対話途中においても、それまでの対話に応じたトピックが特定され、対話情報と関連づけられて記憶される構成としても良い。
これにより、ユーザは、オンライン対話の対話中にリアルタイムに、オンライン対話に参加しているユーザが言及している話題を確認できるとともに、対話情報を最新のトピックに基づき整理、管理できる。
Also, the topic analysis processing may be configured to be executed after the start of online dialogue by a plurality of users and before the end of the dialogue.
In other words, it may be configured to be executed at an arbitrary timing during online dialogue between a plurality of users. Also, steps S513 to S516 may be configured to be periodically executed in real time during online dialogue. As a result, even in the middle of an online dialogue, a topic corresponding to the dialogue up to that point may be identified and stored in association with the dialogue information.
As a result, the user can confirm the topics mentioned by the users participating in the online dialogue in real time during the online dialogue, and can organize and manage the dialogue information based on the latest topics.
<トピック提示処理>
トピック提示処理は、複数のユーザにより行われたオンライン対話の音声、動画等の対話情報を視覚的に可視化しユーザに提示するとともに、対話情報に関連づけられたトピックをユーザに対して提示する処理である。ユーザは、対話情報と、対話情報に関連するトピックを一目で確認することができ、対話内容の概要を直感的に把握できる。
<Topic presentation processing>
The topic presentation process visually visualizes dialogue information such as audio and video of online dialogue conducted by multiple users and presents it to the user, as well as presenting the topic associated with the dialogue information to the user. be. The user can confirm the dialogue information and the topic related to the dialogue information at a glance, and can intuitively grasp the outline of the dialogue contents.
<トピック提示処理の概要>
ユーザから提示対象となる対話情報の指定を受け付け、対話情報を取得し、区間データおよび区間データごとのトピックを取得し、対話情報を解析し話者ごとの発話状況を視覚的に確認可能な音声グラフをユーザに提示し、音声グラフに重ねて発話区間ごとのトピックを音声グラフに重ねてユーザに提示する一連の処理である。
<Overview of topic presentation processing>
A voice that accepts the dialogue information to be presented from the user, acquires the dialogue information, acquires the section data and the topic for each section data, analyzes the dialogue information, and visually confirms the utterance status of each speaker. This is a series of processes of presenting a graph to the user, superimposing it on the speech graph, and presenting the topic for each utterance section to the user by superimposing it on the speech graph.
<トピック提示処理の詳細>
以下に、トピック提示処理の詳細を説明する。
<Details of topic presentation processing>
Details of the topic presentation process will be described below.
ステップS521において、第1ユーザはトピックを確認したい対話情報を選択する。
具体的に、第1ユーザは、第1ユーザ端末20の入力装置206などを操作することにより、アプリケーションプログラム2012を実行しブラウザアプリケーションを実行する。第1ユーザは、ブラウザアプリケーションにおいて、サーバ10が提供する所定のウェブサーバを指定する所定のURL(Uniform Resource Locator)を入力することにより、サーバ10へトピックを提示させるためのページを要求するリクエストを送信する。
サーバ10のトピック処理部1044は、受信したリクエストに含まれる第1ユーザID2011に基づき、対話テーブル1014のユーザIDの項目を検索し、対話IDを取得する。サーバ10のトピック処理部1044は、取得した1または複数の対話IDを第1ユーザ端末20に送信する。第1ユーザ端末20の制御部204は、受信した1または複数の対話IDを第1ユーザ端末20のディスプレイ2081に表示することにより、第1ユーザに提示する。
第1ユーザは、第1ユーザ端末20の入力装置206などを操作することにより、提示された対話IDから所定の対話IDを選択する。第1ユーザ端末20の制御部204は、選択された所定の対話IDをサーバ10へ送信する。サーバ10は、対話IDを受信し、受け付ける。
In step S521, the first user selects dialogue information whose topic he wants to check.
Specifically, the first user operates the
The
The first user selects a predetermined interaction ID from the presented interaction IDs by operating the
なお、第1ユーザが、本開示にかかるオンライン対話サービスを利用して対話中である場合には、当該対話中の対話情報が選択されているものとしても良い。つまり、対話中に第1ユーザ端末20のディスプレイ2081に表示される対話画面において、トピック提示処理を実行する構成としても良い。
Note that, when the first user is having a dialogue using the online dialogue service according to the present disclosure, the dialogue information during the dialogue may be selected. In other words, the topic presentation process may be executed on the dialog screen displayed on the
ステップS522において、サーバ10のトピック処理部1044は、受信した対話IDに基づき、対話テーブル1014の対話IDの項目を検索し、ユーザID、顧客ID、対話カテゴリ、受発信種別、音声データ、動画データ等の対話情報を取得する。
In step S522, the
ステップS523において、サーバ10のトピック処理部1044は、受信した対話IDに基づき、音声区間テーブル1016の対話IDの項目を検索し、区間ID、開始日時、終了日時、トピックIDの項目を取得する。サーバ10のトピック処理部1044は、取得した区間IDに基づき、トピック関連度テーブル1017の区間IDの項目を検索し、トピックID、関連度を取得する。
つまり、サーバ10のトピック処理部1044は、対話IDに関連づけられた複数の音声区間情報と、音声区間情報ごとのトピックID、関連度を取得する。
In step S523, the
That is, the
ステップS524において、サーバ10のトピック処理部1044は、ステップS522において取得した対話情報に基づき、話者による発話状況の時系列推移を示す音声グラフを出力し、第1ユーザ端末20に送信する。第1ユーザ端末20の制御部204は、受信した音声グラフを第1ユーザ端末20のディスプレイ2081に表示し、第1ユーザに提示する。第1ユーザに提示される音声グラフを含む画面例70を図20に示す。
なお、音声グラフは、第2ユーザ、それ以外の管理者、他のユーザ等の任意のユーザに提示しても良い。
In step S<b>524 , the
Note that the voice graph may be presented to any user such as the second user, other administrators, or other users.
音声グラフは、横軸を対話時間、縦軸(上方)を第1ユーザの音声の出力量、縦軸(下方)を第2ユーザの音声の出力量とするグラフであり、実線L1が第1ユーザの音声を示し、破線L2が第2ユーザの音声を示している。
実線L1及び破線L2を見ると、基本的には、第1ユーザが音声を発している(話している)間は、第2ユーザは音声を発しておらず(黙って聞いている)、第2ユーザが音声を発している(話している)間は、第1ユーザは音声を発していない(黙って聞いている)ことがわかる。ここで、Z3で示された箇所は、両者が同時に音声を発している状態(被っている状態)であり、第2ユーザの話が終わらないうちに第1ユーザが話し始めた可能性がある。Z1及びZ2で示された箇所は、両者が音声を発していない時間(沈黙の時間)である。P1及びP2で示された箇所は、所定のキーワードが出現した箇所である。
The speech graph is a graph in which the horizontal axis is the dialogue time, the vertical axis (upper) is the first user's speech output amount, and the vertical axis (lower) is the second user's speech output amount. The voice of the user is shown, and the dashed line L2 represents the voice of the second user.
Looking at the solid line L1 and the dashed line L2, basically, while the first user is speaking (speaking), the second user is not speaking (listening silently). It can be seen that while the second user is speaking (speaking), the first user is not speaking (listening silently). Here, the location indicated by Z3 is a state in which both of them are uttering voices at the same time (a state of overlap), and there is a possibility that the first user started speaking before the second user finished speaking. . The locations indicated by Z1 and Z2 are times when neither of them utters a sound (silence time). The locations indicated by P1 and P2 are locations where a given keyword appears.
ステップS525において、サーバ10のトピック処理部1044は、複数の区間音声データのうち、関連度算定ステップにおいて算定された第1関連度が所定値以上の1または複数の区間音声データを含む、第1区間群を特定する区間群特定ステップを実行する。
具体的に、サーバ10のトピック処理部1044は、トピック解析処理において、1の対話情報に対して抽出された複数の音声区間情報のそれぞれに対して算定された第1関連度が所定値以上の1または複数の音声区間情報が、第1トピックに関する話題について言及していると判定すると、当該1または複数の音声区間情報を含む、1または複数の音声区間情報を第1区間群として特定する。例えば、時系列的に連続する複数の音声区間情報のトピックとの関連づけが、区間1:トピックA、区間2:トピックA、区間3:トピックなし、区間4:トピックA、区間5:トピックなし、区間6:トピックB、区間7:トピックB、区間8:トピックBである場合において、区間1から区間4をトピックAに関する区間群として特定し、区間6から区間8をトピックBに関する区間群として特定する。区間3などのように、トピックAの区間に他のトピックと関連づいた音声区間が含まれている場合においても、区間1から区間4が全体としてトピックAの話題について言及していると考えられる場合には、区間1から区間4をまとめてトピックAに関する区間群として特定しても良い。
In step S525, the
Specifically, in the topic analysis processing, the
本開示においては、第1区間群を特定するものとしたが、複数の区間音声データのうち、所定の話題に関する第1トピックと関連する1または複数の区間音声データを特定するものとしても良い。また、第1ユーザまたは第2ユーザの入力操作により、1または複数の区間音声データ、第1区間群を選択することにより特定しても良い。 In the present disclosure, the first segment group is identified, but one or more segmental audio data related to a first topic related to a predetermined topic may be identified among a plurality of segmental audio data. Alternatively, the input operation of the first user or the second user may be used to select one or a plurality of segment audio data and the first segment group.
ステップS525において、サーバ10のトピック処理部1044は、区間群特定ステップにおいて特定された第1区間群を、第1トピックと関連づけて、第1ユーザまたは第2ユーザに提示する提示ステップを実行する。提示ステップは、受付ステップにおいて受け付けた音声データを解析することにより得られる、話者による発話状況の時系列推移を示す音声グラフにおいて、区間群特定ステップにおいて特定された第1区間群を音声グラフと同じ時系列軸上に提示するとともに、第1トピックを第1区間群に関連づけて、第1ユーザまたは第2ユーザに提示するステップを実行する。
具体的に、図20の音声グラフにおいて、サーバ10のトピック処理部1044は、第1トピックに関連づけられた第1区間群T1、第2トピックに関連づけられた第2区間群T2、第3トピックに関連づけられた第3区間群T3を、描画オブジェクトとして音声グラフに重ねて提示する。例えば、第1区間群T1、第2区間群T2、第3区間群T3は、それぞれトピックごとに割り当てられた異なる色による描画オブジェクトとして描画する構成としても良い。これにより、第1ユーザは、区間群を関連するトピックと関連づけて音声グラフと重ねて視認できる。これにより、第1ユーザは音声グラフにおいて、どの箇所がどのようなトピックについて話題となっているのか視覚的に一目で確認できる。
なお、サーバ10のトピック処理部1044は、区間群特定ステップにおいて特定された第1区間群を、第1ユーザ、第2ユーザ以外の管理者、他のユーザ等の任意のユーザに提示する構成としても良い。
In step S525, the
Specifically, in the speech graph of FIG. 20, the
Note that the
ステップS525において、区間群特定ステップは、時系列的に並べられた複数の区間音声データのそれぞれに対して算定された第1関連度に基づき移動平均を算定するステップと、算定された移動平均が所定値以上の区間音声データを、第1区間群として特定するステップと、を含んでも良い。
具体的に、サーバ10のトピック処理部1044は、区間群を特定するのに際して、トピック関連度テーブルから取得した音声区間情報を、音声区間情報の開始日時等に基づき時系列的に並べる。サーバ10のトピック処理部1044は、所定の音声区間情報の関連度に対して、当該所定の音声区間情報に対する直近N個の関連度の平均を移動平均として算定する。Nは任意の整数である。算定された移動平均を、当該所定の音声区間情報に対する新たな関連度と見なして、当該関連度が所定値以上の音声区間情報を第1トピックに関連づけられた第1区間群として特定する。
本開示においては、主に簡単のため1の第1トピックの関連度に対する移動平均について説明したが、トピックは1つに限られず複数のトピックに対して同様の処理を実行しても構わない。
これにより、発話区間ごとに関連度が高いトピックが短期間で切り替わる場合においても、トピックの関連度を平滑化することにより、トピックについて言及している区間群をまとめて特定できる。オンライン対話サービスにおいて、話者がどのような話題について発話を行ったのか、ユーザはより確認しやすくなる。
In step S525, the section group identification step includes calculating a moving average based on the first relevance calculated for each of the plurality of section audio data arranged in time series, and a step of identifying the segment audio data having a predetermined value or more as the first segment group.
Specifically, when specifying a segment group, the
In the present disclosure, the moving average for the degree of relevance of one first topic has been mainly described for the sake of simplicity, but the number of topics is not limited to one, and similar processing may be performed for a plurality of topics.
As a result, even when the topic with a high degree of relevance changes in a short period of time for each utterance section, by smoothing the relevance of the topic, a group of sections referring to the topic can be collectively identified. In the online dialogue service, it becomes easier for the user to confirm what topic the speaker spoke about.
ステップS525において、区間群特定ステップは、時系列的に並べられた複数の区間音声データのうち、算定された第1関連度が所定値以上の連続する複数の区間音声データを、第1区間群として特定するステップを実行しても良い。
具体的に、サーバ10のトピック処理部1044は、区間群を特定するのに際して、トピック関連度テーブルから取得した音声区間情報を、音声区間情報の開始日時等に基づき時系列的に並べる。サーバ10のトピック処理部1044は、関連度が所定値以上の複数の連続する音声区間情報を第1トピックに関連づけられた第1区間群として特定する。
本開示においては、主に簡単のため1の第1トピックの関連度に対する移動平均について説明したが、トピックは1つに限られず複数のトピックに対して同様の処理を実行しても構わない。
これにより、特定のトピックについて連続して関連度が高い区間音声データを、トピックについて言及している区間群としてまとめて特定できる。オンライン対話サービスにおいて、話者がどのような話題について発話を行ったのか、ユーザはより確認しやすくなる。
In step S525, in the segment group identification step, among the plurality of segment audio data arranged in chronological order, a plurality of consecutive segment audio data having a calculated first degree of association equal to or greater than a predetermined value are selected as the first segment group. You may perform the steps identified as
Specifically, when specifying a segment group, the
In the present disclosure, the moving average for the degree of relevance of one first topic has been mainly described for the sake of simplicity, but the number of topics is not limited to one, and similar processing may be performed for a plurality of topics.
As a result, it is possible to collectively identify the segment audio data continuously having a high degree of relevance to a specific topic as a segment group referring to the topic. In the online dialogue service, it becomes easier for the user to confirm what topic the speaker spoke about.
ステップS525において、サーバ10のトピック処理部1044は、複数の区間音声データのうち、1または複数の区間音声データと、トピック特定ステップにおいて特定した第1トピックと、に基づき、1または複数の区間音声データに含まれるテキスト情報を要約した要約テキストを生成する要約ステップを実行する。要約ステップは、1または複数の区間音声データに含まれるテキスト情報のうち、トピック特定ステップにおいて特定した第1トピックと関連性が高い箇所のみ抽出することにより、1または複数の区間音声データに含まれるテキスト情報を要約した要約テキストを生成するステップを実行する。
In step S525, the
ステップS525において、要約ステップは、1または複数の区間音声データに含まれるテキスト情報と、第1トピックに関連づけられた複数のキーワードを入力データとして、学習モデルに適用することにより、要約テキストを生成するステップを実行する。
具体的に、区間音声データ、区間動画データおよび区間読上テキストの少なくともいずれか1つを含む区間データと、当該区間データのトピックに関連づけられた複数のキーワードと、を入力データとして、要約モデル1035に適用し、当該区間データに含まれるテキスト情報を要約したテキスト情報である要約テキストを出力データとして取得する。これにより、区間データに含まれるテキスト情報のうち、特にトピックと関連性が高い箇所のみを抽出することができ、区間データに含まれるテキスト情報を要約した要約テキストを取得できる。
In step S525, the summarization step generates a summary text by applying text information included in one or more segmental speech data and a plurality of keywords associated with the first topic as input data to a learning model. Execute the step.
Specifically, section data including at least one of section audio data, section video data, and section reading text, and a plurality of keywords associated with the topic of the section data as input data, the
ステップS525において、要約ステップは、区間群特定ステップにおいて特定された第1区間群に含まれる1または複数の区間音声データと、トピック特定ステップにおいて特定した第1トピックと、に基づき、1または複数の区間音声データに含まれるテキスト情報を要約した要約テキストを生成するステップを実行する。
具体的に、区間群に含まれる1または複数の区間データと、当該区間群のトピックに関連づけられた複数のキーワードと、を入力データとして、要約モデル1035に適用し、当該区間群に含まれるテキスト情報を要約したテキスト情報である要約テキストを出力データとして取得する。これにより、区間データに含まれるテキスト情報のうち、特にトピックと関連性が高い箇所を抽出することができ、区間データに含まれるテキスト情報を要約した要約テキストを取得できる。
In step S525, the summarizing step includes one or more segment audio data included in the first segment group identified in the segment group identifying step and the first topic identified in the topic identifying step. A step of generating a summary text summarizing the text information contained in the segmental speech data is executed.
Specifically, one or more section data included in the section group and a plurality of keywords associated with the topic of the section group are applied as input data to the
ステップS525において、サーバ10のトピック処理部1044は、要約ステップにおいて生成された要約テキストを、1または複数の区間音声データと関連づけて提示する提示ステップを実行する。
ステップS525において、サーバ10のトピック処理部1044は、要約ステップにおいて生成された要約テキストを、区間群特定ステップにおいて特定されただい1区間群と関連づけて提示する提示ステップを実行する。
具体的に、図20の音声グラフにおいて、サーバ10のトピック処理部1044は、第1区間群T1の第1トピックに関する要約テキスト701を、第1区間群T1と関連づけて提示する。なお、サーバ10のトピック処理部1044は、区間群ではなく、任意の1または複数の音声区間に関連づけて、要約テキスト701を提示しても良い。
なお、サーバ10のトピック処理部1044は、区間群特定ステップにおいて特定された第1区間群を、第1ユーザ、第2ユーザ、それ以外の管理者、他のユーザ等の任意のユーザに提示する構成としても良い。
In step S525, the
In step S525, the
Specifically, in the speech graph of FIG. 20, the
Note that the
<学習処理>
感情評価モデル1031、印象評価モデル1032、第1印象評価モデル1033、第2印象評価モデル1034の学習処理を以下に説明する。
<Learning processing>
Learning processing of the
<感情評価モデル1031の学習処理>
感情評価モデル1031の学習処理は、感情評価モデル1031に含まれるディープニューラルネットワークの学習パラメータを深層学習により学習させる処理である。
<Learning processing of
The learning process of the
<感情評価モデル1031の学習処理の概要>
感情評価モデル1031の学習処理は、区間音声データ、区間動画データ、区間読上テキストを入力データ(入力ベクトル)として、感情特徴量である感情ベクトルまたは感情スカラーを出力データ(教師データ)となるように、感情評価モデル1031に含まれるディープニューラルネットワークの学習パラメータを深層学習により学習させる処理である。
感情評価モデル1031の入力データから、区間音声データ、区間動画データ、区間読上テキストのいずれかを省略しても構わない。
<Overview of Learning Processing of
In the learning process of the
From the input data of the
<感情評価モデル1031の学習処理の詳細>
サーバ10の学習部1051は、区間音声データ、区間動画データ、区間読上テキストなどを入力データ(入力ベクトル)として、所定の感情特徴量を出力データ(教師データ)となるよう、学習データを作成する。
サーバ10の学習部1051は、学習データに基づき、感情評価モデル1031のディープニューラルネットワークを学習させるための訓練データ、テストデータ、検証データなどのデータセットを作成する。
サーバ10の学習部1051は、作成したデータセットに基づき感情評価モデル1031に含まれるディープニューラルネットワークの学習パラメータを深層学習により学習させる。
<Details of the learning process of the
The
The
The
<印象評価モデル1032の学習処理>
印象評価モデル1032の学習処理は、印象評価モデル1032に含まれるディープニューラルネットワークの学習パラメータを深層学習により学習させる処理である。
<Learning processing of the
The learning process of the
<印象評価モデル1032の学習処理の概要>
印象評価モデル1032の学習処理は、区間音声データ、区間動画データ、区間読上テキストを入力データ(入力ベクトル)として、印象特徴量を出力データ(教師データ)となるように、印象評価モデル1032に含まれるディープニューラルネットワークの学習パラメータを深層学習により学習させる処理である。
印象評価モデル1032の入力データから、区間音声データ、区間動画データ、区間読上テキストのいずれかを省略しても構わない。
<Overview of Learning Processing of
In the learning process of the
From the input data of the
<印象評価モデル1032の学習処理の詳細>
サーバ10の学習部1051は、区間音声データ、区間動画データ、区間読上テキストなどを入力データ(入力ベクトル)として、所定の印象特徴量を出力データ(教師データ)となるよう、学習データを作成する。
サーバ10の学習部1051は、学習データに基づき、印象評価モデル1032のディープニューラルネットワークを学習させるための訓練データ、テストデータ、検証データなどのデータセットを作成する。
サーバ10の学習部1051は、作成したデータセットに基づき印象評価モデル1032に含まれるディープニューラルネットワークの学習パラメータを深層学習により学習させる。
<Details of Learning Processing of
The
The
The
<第1印象評価モデル1033の学習処理>
第1印象評価モデル1033の学習処理は、第1印象評価モデル1033に含まれるディープニューラルネットワークの学習パラメータを深層学習により学習させる処理である。
<Learning processing of the first
The learning process of the first
<第1印象評価モデル1033の学習処理の概要>
第1印象評価モデル1033の学習処理は、区間音声データ、区間動画データ、区間読上テキストを入力データ(入力ベクトル)として、対話特徴量を出力データ(教師データ)となるように、第1印象評価モデル1033に含まれるディープニューラルネットワークの学習パラメータを深層学習により学習させる処理である。
第1印象評価モデル1033の入力データから、区間音声データ、区間動画データ、区間読上テキストのいずれかを省略しても構わない。
<Overview of Learning Processing of First
In the learning process of the first
From the input data of the first
<第1印象評価モデル1033の学習処理の詳細>
サーバ10の学習部1051は、区間音声データ、区間動画データ、区間読上テキストなを入力データ(入力ベクトル)として、所定の対話特徴量を出力データ(教師データ)となるよう、学習データを作成する。
サーバ10の学習部1051は、学習データに基づき、第1印象評価モデル1033のディープニューラルネットワークを学習させるための訓練データ、テストデータ、検証データなどのデータセットを作成する。
サーバ10の学習部1051は、作成したデータセットに基づき第1印象評価モデル1033に含まれるディープニューラルネットワークの学習パラメータを深層学習により学習させる。
<Details of the learning process of the first
The
The
The
<第2印象評価モデル1034の学習処理>
第2印象評価モデル1034の学習処理は、第2印象評価モデル1034に含まれるディープニューラルネットワークの学習パラメータを深層学習により学習させる処理である。
<Learning processing of the second
The learning process of the second
<第2印象評価モデル1034の学習処理の概要>
第2印象評価モデル1034の学習処理は、対話特徴量を入力データ(入力ベクトル)として、印象特徴量を出力データ(教師データ)となるように、第2印象評価モデル1034に含まれるディープニューラルネットワークの学習パラメータを深層学習により学習させる処理である。
<Overview of Learning Processing of Second
The learning process of the second
<第2印象評価モデル1034の学習処理の詳細>
サーバ10の学習部1051は、対話特徴量などを入力データ(入力ベクトル)として、所定の印象特徴量を出力データ(教師データ)となるよう、学習データを作成する。
サーバ10の学習部1051は、学習データに基づき、第2印象評価モデル1034のディープニューラルネットワークを学習させるための訓練データ、テストデータ、検証データなどのデータセットを作成する。
サーバ10の学習部1051は、作成したデータセットに基づき第2印象評価モデル1034に含まれるディープニューラルネットワークの学習パラメータを深層学習により学習させる。
<Details of the learning process of the second
The
The
The
<要約モデル1035の学習処理の詳細>
サーバ10の学習部1051は、区間音声データ、区間動画データおよび区間読上テキストの少なくともいずれか1つを含む区間データと、所定の話題に関するトピックに関連づけられた複数のキーワードと、を入力データ(入力ベクトル)として、当該区間データに含まれるテキスト情報を要約したテキスト情報である要約テキストを出力データ(教師データ)となるよう、学習データを作成する。
サーバ10の学習部1051は、学習データに基づき、要約モデル1035のディープニューラルネットワークを学習させるための訓練データ、テストデータ、検証データなどのデータセットを作成する。
サーバ10の学習部1051は、作成したデータセットに基づき要約モデル1035に含まれるディープニューラルネットワークの学習パラメータを深層学習により学習させる。
<Details of Learning Processing of
The
The
The
<コンピュータの基本ハードウェア構成>
図21は、コンピュータ90の基本的なハードウェア構成を示すブロック図である。コンピュータ90は、プロセッサ901、主記憶装置902、補助記憶装置903、通信IF991(インタフェース、Interface)を少なくとも備える。これらは通信バス921により相互に電気的に接続される。
<Basic computer hardware configuration>
FIG. 21 is a block diagram showing the basic hardware configuration of the computer 90. As shown in FIG. The computer 90 includes at least a
プロセッサ901とは、プログラムに記述された命令セットを実行するためのハードウェアである。プロセッサ901は、演算装置、レジスタ、周辺回路等から構成される。
The
主記憶装置902とは、プログラム、及びプログラム等で処理されるデータ等を一時的に記憶するためのものである。例えば、DRAM(Dynamic Random Access Memory)等の揮発性のメモリである。
The
補助記憶装置903とは、データ及びプログラムを保存するための記憶装置である。例えば、フラッシュメモリ、HDD(Hard Disc Drive)、光磁気ディスク、CD-ROM、DVD-ROM、半導体メモリ等である。
通信IF991とは、有線又は無線の通信規格を用いて、他のコンピュータとネットワークを介して通信するための信号を入出力するためのインタフェースである。
ネットワークは、インターネット、LAN、無線基地局等によって構築される各種移動通信システム等で構成される。例えば、ネットワークには、3G、4G、5G移動通信システム、LTE(Long Term Evolution)、所定のアクセスポイントによってインターネットに接続可能な無線ネットワーク(例えばWi-Fi(登録商標))等が含まれる。無線で接続する場合、通信プロトコルとして例えば、Z-Wave(登録商標)、ZigBee(登録商標)、Bluetooth(登録商標)等が含まれる。有線で接続する場合は、ネットワークには、USB(Universal Serial Bus)ケーブル等により直接接続するものも含む。
The communication IF 991 is an interface for inputting and outputting signals for communicating with other computers via a network using a wired or wireless communication standard.
The network is composed of various mobile communication systems constructed by the Internet, LAN, wireless base stations, and the like. For example, networks include 3G, 4G, and 5G mobile communication systems, LTE (Long Term Evolution), wireless networks (for example, Wi-Fi (registered trademark)) that can be connected to the Internet through predetermined access points, and the like. When connecting wirelessly, communication protocols include, for example, Z-Wave (registered trademark), ZigBee (registered trademark), Bluetooth (registered trademark), and the like. In the case of wired connection, the network includes direct connection using a USB (Universal Serial Bus) cable or the like.
なお、各ハードウェア構成の全部または一部を複数のコンピュータ90に分散して設け、ネットワークを介して相互に接続することによりコンピュータ90を仮想的に実現することができる。このように、コンピュータ90は、単一の筐体、ケースに収納されたコンピュータ90だけでなく、仮想化されたコンピュータシステムも含む概念である。 It should be noted that the computer 90 can be virtually realized by distributing all or part of each hardware configuration to a plurality of computers 90 and connecting them to each other via a network. Thus, the computer 90 is a concept that includes not only the computer 90 housed in a single housing or case, but also a virtualized computer system.
<コンピュータ90の基本機能構成>
コンピュータ90の基本ハードウェア構成(図21)により実現されるコンピュータの機能構成を説明する。コンピュータは、制御部、記憶部、通信部の機能ユニットを少なくとも備える。
<Basic Functional Configuration of Computer 90>
A functional configuration of the computer realized by the basic hardware configuration of the computer 90 (FIG. 21) will be described. The computer includes at least functional units of a control section, a storage section, and a communication section.
なお、コンピュータ90が備える機能ユニットは、それぞれの機能ユニットの全部または一部を、ネットワークで相互に接続された複数のコンピュータ90に分散して設けても実現することができる。コンピュータ90は、単一のコンピュータ90だけでなく、仮想化されたコンピュータシステムも含む概念である。 Note that the functional units included in the computer 90 can also be implemented by distributing all or part of each functional unit to a plurality of computers 90 interconnected via a network. The computer 90 is a concept that includes not only a single computer 90 but also a virtualized computer system.
制御部は、プロセッサ901が補助記憶装置903に記憶された各種プログラムを読み出して主記憶装置902に展開し、当該プログラムに従って処理を実行することにより実現される。制御部は、プログラムの種類に応じて様々な情報処理を行う機能ユニットを実現することができる。これにより、コンピュータは情報処理を行う情報処理装置として実現される。
The control unit is implemented by the
記憶部は、主記憶装置902、補助記憶装置903により実現される。記憶部は、データ、各種プログラム、各種データベースを記憶する。また、プロセッサ901は、プログラムに従って記憶部に対応する記憶領域を主記憶装置902または補助記憶装置903に確保することができる。また、制御部は、各種プログラムに従ってプロセッサ901に、記憶部に記憶されたデータの追加、更新、削除処理を実行させることができる。
A storage unit is realized by the
データベースは、リレーショナルデータベースを指し、行と列によって構造的に規定された表形式のテーブル、マスタと呼ばれるデータ集合を、互いに関連づけて管理するためのものである。データベースでは、表をテーブル、マスタ、表の列をカラム、表の行をレコードと呼ぶ。リレーショナルデータベースでは、テーブル、マスタ同士の関係を設定し、関連づけることができる。
通常、各テーブル、各マスタにはレコードを一意に特定するための主キーとなるカラムが設定されるが、カラムへの主キーの設定は必須ではない。制御部は、各種プログラムに従ってプロセッサ901に、記憶部に記憶された特定のテーブル、マスタにレコードを追加、削除、更新を実行させることができる。
A database refers to a relational database, and is used to manage tabular tables structurally defined by rows and columns, and data sets called masters in association with each other. In a database, a table is called a table, a master is called a column, and a row is called a record. In a relational database, relationships between tables and masters can be set and associated.
Normally, each table and each master has a primary key column for uniquely identifying a record, but setting a primary key to a column is not essential. The control unit can cause the
なお、本開示におけるデータベース、マスタは、情報が構造的に規定された任意のデータ構造体(リスト、辞書、連想配列、オブジェクトなど)を含み得る。データ構造体には、データと、任意のプログラミング言語により記述された関数、クラス、メソッドなどを組み合わせることにより、データ構造体と見なし得るデータも含むものとする。 Note that the database and master in the present disclosure may include any data structure (list, dictionary, associative array, object, etc.) in which information is structurally defined. The data structure also includes data that can be regarded as a data structure by combining data with functions, classes, methods, etc. written in any programming language.
通信部は、通信IF991により実現される。通信部は、ネットワークを介して他のコンピュータ90と通信を行う機能を実現する。通信部は、他のコンピュータ90から送信された情報を受信し、制御部へ入力することができる。制御部は、各種プログラムに従ってプロセッサ901に、受信した情報に対する情報処理を実行させることができる。また、通信部は、制御部から出力された情報を他のコンピュータ90へ送信することができる。
A communication unit is implemented by the communication IF 991 . The communication unit implements a function of communicating with another computer 90 via a network. The communication section can receive information transmitted from another computer 90 and input it to the control section. The control unit can cause the
<付記>
以上の各実施形態で説明した事項を以下に付記する。
<Appendix>
The items described in the above embodiments will be added below.
(付記1)
プロセッサと、記憶部とを備え、第1ユーザと第2ユーザとの間の対話に関する情報をコンピュータに処理させるプログラムであって、プログラムは、プロセッサに、対話に関する音声データを受け付ける受付ステップ(S512)と、受付ステップにおいて受け付けた音声データから、発話区間ごとに複数の区間音声データを抽出する音声抽出ステップ(S513)と、複数の区間音声データのうち、所定の話題に関する第1トピックと関連する1または複数の区間音声データを特定する区間特定ステップ(S525)と、複数の区間音声データのうち、区間特定ステップにおいて特定された1または複数の区間音声データと、第1トピックと、に基づき、1または複数の区間音声データに含まれるテキスト情報を要約した要約テキストを生成する要約ステップ(S525)と、を実行させるプログラム。
これにより、対話において話者がどのような話題(トピック)に関してコミュニケーションを行ったのか、ユーザは一目で確認することができる。
(Appendix 1)
A program comprising a processor and a storage unit, and causing a computer to process information relating to a dialogue between a first user and a second user, wherein the program causes the processor to receive voice data relating to the dialogue (S512). a voice extracting step (S513) for extracting a plurality of segmental voice data for each utterance segment from the voice data received in the receiving step; Alternatively, based on the segment identification step (S525) of identifying a plurality of segment audio data, one or a plurality of segment audio data identified in the segment identification step among the plurality of segment audio data, and the first topic, 1 Alternatively, a program for executing a summarizing step (S525) of generating a summary text summarizing text information contained in a plurality of segmental speech data.
As a result, the user can confirm at a glance what topic the speaker has communicated about in the dialogue.
(付記2)
要約ステップ(S525)は、1または複数の区間音声データに含まれるテキスト情報のうち、第1トピックと関連性が高い箇所を抽出することにより、1または複数の区間音声データに含まれるテキスト情報を要約した要約テキストを生成するステップである、付記1記載のプログラム。
これにより、対話において話者がどのような話題(トピック)に関してコミュニケーションを行ったのか、ユーザは一目で確認することができる。
(Appendix 2)
The summarizing step (S525) extracts the text information contained in the one or more segmental speech data by extracting the portion highly relevant to the first topic from the text information contained in the one or more segmental speech data. 10. The program of
As a result, the user can confirm at a glance what topic the speaker has communicated about in the dialogue.
(付記3)
要約ステップ(S525)は、1または複数の区間音声データに含まれるテキスト情報と、第1トピックに関連づけられた複数のキーワードを入力データとして、学習モデルに適用することにより、要約テキストを生成するステップである、付記1記載のプログラム。
これにより、対話において話者がどのような話題(トピック)に関してコミュニケーションを行ったのか、ユーザは一目で確認することができる。
(Appendix 3)
The summarizing step (S525) is a step of generating a summary text by applying text information contained in one or more segmental speech data and a plurality of keywords associated with the first topic as input data to a learning model. The program according to
As a result, the user can confirm at a glance what topic the speaker has communicated about in the dialogue.
(付記4)
プログラムは、プロセッサに、複数の区間音声データごとに、第1トピックとの関連度を示す第1関連度を算定する関連度算定ステップ(S514)と、を実行させ、区間特定ステップ(S525)は、複数の区間音声データのうち、関連度算定ステップにおいて算定された第1関連度が所定値以上の1または複数の区間音声データを含む、第1区間群を特定するステップであり、要約ステップ(S525)は、区間特定ステップにおいて特定された第1区間群に含まれる1または複数の区間音声データと、第1トピックと、に基づき、1または複数の区間音声データに含まれるテキスト情報を要約した要約テキストを生成するステップである、付記1記載のプログラム。
これにより、対話において話者がどのような話題(トピック)に関してコミュニケーションを行ったのか、ユーザは一目で確認することができる。
(Appendix 4)
The program causes the processor to execute a degree-of-relevance calculation step (S514) of calculating a first degree of relevance indicating the degree of relevance to a first topic for each of a plurality of pieces of section speech data, and a section identification step (S525) of , a step of identifying a first segment group including one or a plurality of segmental audio data whose first relevance calculated in the relevance calculating step is equal to or greater than a predetermined value among the plurality of segmental audio data, and a summarizing step ( S525) summarizes the text information contained in the one or more segmental audio data based on the one or more segmental audio data contained in the first segment group identified in the segment identifying step and the first topic. 10. The program of
As a result, the user can confirm at a glance what topic the speaker has communicated about in the dialogue.
(付記5)
プログラムは、プロセッサに、要約ステップにおいて生成された要約テキストを、1または複数の区間音声データと関連づけて提示する提示ステップ(S525)と、を実行させる付記1記載のプログラム。
これにより、対話において話者がどのような話題(トピック)に関してコミュニケーションを行ったのか、ユーザは一目で確認することができる。
(Appendix 5)
1. The program according to
As a result, the user can confirm at a glance what topic the speaker has communicated about in the dialogue.
(付記6)
プログラムは、プロセッサに、要約ステップにおいて生成された要約テキストを、区間特定ステップにおいて特定されただい1区間群と関連づけて提示する提示ステップ(S525)と、を実行させる付記4記載のプログラム。
これにより、対話において話者がどのような話題(トピック)に関してコミュニケーションを行ったのか、ユーザは一目で確認することができる。
(Appendix 6)
5. The program according to
As a result, the user can confirm at a glance what topic the speaker has communicated about in the dialogue.
(付記7)
プログラムは、プロセッサに、区間特定ステップにおいて特定された第1区間群を、第1トピックと関連づけて提示する提示ステップ(S525)と、を実行させる付記4記載のプログラム。
これにより、対話において話者がどのような話題(トピック)に関してコミュニケーションを行ったのか、ユーザは一目で確認することができる。
(Appendix 7)
4. The program according to
As a result, the user can confirm at a glance what topic the speaker has communicated about in the dialogue.
(付記8)
提示ステップ(S525)は、受付ステップにおいて受け付けた音声データを解析することにより得られる、話者による発話状況の時系列推移を示す音声グラフにおいて、区間特定ステップにおいて特定された第1区間群を音声グラフと同じ時系列軸上に提示するとともに、第1トピックを第1区間群に関連づけて提示するステップである、付記7記載のプログラム。
これにより、対話において話者が行った発話状況を時系列的に示す音声グラフと重ねて、話者がどのような話題について発話を行ったのか、ユーザは一目で確認することができる。
(Appendix 8)
The presenting step (S525) presents the first section group identified in the section identifying step in the speech graph showing the chronological transition of the utterance situation of the speaker, which is obtained by analyzing the speech data received in the receiving step. 8. The program according to appendix 7, wherein the step of presenting on the same chronological axis as the graph and presenting the first topic in association with the first section group.
As a result, the user can confirm at a glance what topic the speaker has spoken about by superimposing the situation of the speaker's utterance in the dialogue on the speech graph showing the chronological order.
(付記9)
プログラムは、プロセッサに、第1ユーザから1または複数のキーワードを受け付けるキーワード受付ステップ(S502)と、キーワード受付ステップにおいて受け付けた1または複数のキーワードを、所定の話題に関する第1トピックと関連づけて記憶するトピック記憶ステップ(S503)と、を実行させる、付記1記載のプログラム。
これにより、ユーザが自身で予めキーワードと関連づけて記憶させたトピックに基づき、対話において話者がどのような話題に関してコミュニケーションを行ったのか、一目で確認することができる。
(Appendix 9)
The program stores, in the processor, a keyword receiving step (S502) of receiving one or more keywords from a first user, and the one or more keywords received in the keyword receiving step in association with a first topic related to a predetermined topic. The program according to
With this, it is possible to confirm at a glance what topic the speaker has communicated about in the dialogue based on the topic that the user has stored in advance in association with the keyword.
(付記10)
プログラムは、プロセッサに、受付ステップにおいて受け付けた音声データを記憶する音声記憶ステップ(S512)と、音声記憶ステップにおいて記憶された音声データに基づき、第1トピックに新たに関連づける1または複数の新たなキーワードを第1ユーザに対して提示するキーワード提示ステップ(S501)と、を実行させ、キーワード受付ステップ(S502)は、キーワード提示ステップにおいて第1ユーザに対して提示された複数の新たなキーワードのうち、第1ユーザにより選択された1または複数のキーワードを受け付けるステップである、付記9記載のプログラム。
これにより、ユーザは過去の対話情報において用いられたキーワードに基づき、トピックに新たに関連づけるのが好ましい1または複数の新たなキーワードの提示を受けることができる。ユーザは、簡単にトピックを定義し、記憶することができる。
(Appendix 10)
The program instructs the processor to store a voice data received in the receiving step (S512), and one or more new keywords to be newly associated with the first topic based on the voice data stored in the voice storing step. and a keyword presentation step (S501) of presenting to the first user, and a keyword reception step (S502) includes, among the plurality of new keywords presented to the first user in the keyword presentation step, 10. The program of
Thereby, the user can receive presentation of one or more new keywords that are preferably newly associated with the topic, based on the keywords used in the past dialogue information. Users can easily define and memorize topics.
(付記11)
音声抽出ステップ(S513)は、対話が終了する前に、受付ステップにおいて受け付けた音声データから、発話区間ごとに複数の区間音声データを抽出するステップであり、関連度算定ステップ(S514)は、対話が終了する前に、複数の区間音声データに含まれる区間音声データごとに、第1トピックとの関連度を示す第1関連度を算定するステップである、付記4記載のプログラム。
これにより、区間音声データとトピックとの関連度の算定を対話中にリアルタイムに実行することができる。例えば、商談中に、話者がどのような話題に関してコミュニケーションを行っているのか確認することができる。
(Appendix 11)
The voice extracting step (S513) is a step of extracting a plurality of segment voice data for each utterance segment from the voice data received in the receiving step before the dialogue ends. 4. The program according to
As a result, it is possible to calculate the degree of relevance between the segmental audio data and the topic in real time during the dialogue. For example, during business negotiations, it is possible to confirm what topic the speaker is communicating about.
(付記12)
関連度算定ステップ(S514)は、複数の区間音声データごとに、それぞれ複数のキーワードと関連づけられた複数のトピックごとの関連度を算定するステップであり、プログラムは、プロセッサに、関連度算定ステップにおいて算定された複数のトピックごとの関連度に基づき、対話に対する応対メモを特定するメモ特定ステップ(S516)と、メモ特定ステップにおいて特定された応対メモを、対話と関連づけて記憶する記憶ステップ(S516)と、を実行させる付記4記載のプログラム。
これにより、対話全体を特徴づけるトピックを特定し、当該トピックに関する応対メモを対話に対して付与することにより、対話情報を管理することができる。
(Appendix 12)
The degree-of-relevance calculation step (S514) is a step of calculating the degrees of relevance for each of a plurality of topics associated with a plurality of keywords for each of the plurality of segmental audio data. A memo specifying step (S516) of specifying a response memo to the dialogue based on the calculated degrees of relevance for each of the plurality of topics, and a storing step (S516) of storing the response memo identified in the memo identifying step in association with the dialogue. and the program according to
Accordingly, dialogue information can be managed by specifying a topic that characterizes the entire dialogue and adding a response memo on the topic to the dialogue.
(付記13)
関連度算定ステップ(S514)は、第1トピックに関連づけられた複数のキーワードのうち、音声抽出ステップにおいて抽出された複数の区間音声データに多く含まれるキーワードほど関連度へ与える重みが小さくなるようにし、複数の区間音声データごとに第1トピックに関連づけられた複数のキーワードの重み付けを考慮した一致度を、第1トピックとの関連度を示す第1関連度として算定する、付記4記載のプログラム。
これにより、トピックに関連づけられたキーワードのうち、多くの区間音声データに含まれるありふれたキーワードの重みを小さくすることができる。特定の区間音声データに出現するキーワードの重要度が高まることにより、区間音声データとトピックとの関連度をより正確に算定することができる。
(Appendix 13)
In the degree-of-relevance calculation step (S514), among the plurality of keywords associated with the first topic, the more keywords are included in the plurality of segmental speech data extracted in the speech extraction step, the smaller the weight given to the degree of relevance. 4. The program according to
As a result, among the keywords associated with the topic, the weight of common keywords contained in many segmental speech data can be reduced. By increasing the importance of keywords appearing in specific segmental audio data, it is possible to more accurately calculate the degree of relevance between the segmental audio data and the topic.
(付記14)
関連度算定ステップ(S514)は、第1トピックに関連づけられた複数のキーワードのうち、第1関連度の算定対象となる対象区間音声データから時系列的に所定個数前までの複数の区間音声データに多く含まれるキーワードほど関連度へ与える重みが小さくなるようにし、複数の区間音声データごとに第1トピックに関連づけられた複数のキーワードとの重み付けを考慮した一致度を、第1トピックとの関連度を示す第1関連度として算定する、付記13記載のプログラム。
これにより、トピックに関連づけられたキーワードのうち、対象となる区間音声データ近傍の複数の過去の区間音声データのみを考慮してより少ない計算量で、区間音声データとトピックとの関連度をより正確に算定することができる。また、トピックとの関連度をリアルタイムで計算することができる。
(Appendix 14)
The degree-of-relevance calculation step (S514) includes, among the plurality of keywords associated with the first topic, a plurality of pieces of segmental speech data up to a predetermined number in chronological order from the target segmental speech data for which the first degree of relevance is to be calculated. The weight given to the degree of relevance becomes smaller as the number of keywords included in the first topic increases. 14. The program according to appendix 13, wherein the program is calculated as the first degree of relevance indicating the degree of relevance.
As a result, among the keywords associated with the topic, considering only a plurality of past segmental audio data near the target segmental audio data, the degree of relevance between the segmental audio data and the topic can be determined more accurately with a smaller amount of calculation. can be calculated to Also, the degree of relevance to a topic can be calculated in real time.
(付記15)
区間特定ステップ(S525)は、時系列的に並べられた複数の区間音声データのそれぞれに対して算定された第1関連度に基づき移動平均を算定するステップと、算定された移動平均が所定値以上の区間音声データを、第1区間群として特定するステップと、を含む、付記4記載のプログラム。
これにより、発話区間ごとに関連度が高いトピックが短期間で切り替わる場合においても、トピックの関連度を平滑化することにより、トピックについて言及している区間群をまとめて特定することができる。対話において、話者がどのような話題について発話を行ったのか、ユーザはより確認しやすくなる。
(Appendix 15)
The section specifying step (S525) includes a step of calculating a moving average based on the first relevance calculated for each of the plurality of section audio data arranged in chronological order; A program according to
As a result, even when topics with high relevance for each utterance segment change in a short period of time, by smoothing the relevance of the topic, it is possible to collectively identify a segment group referring to the topic. It becomes easier for the user to confirm what topic the speaker spoke about in the dialogue.
(付記16)
区間特定ステップ(S525)は、時系列的に並べられた複数の区間音声データのうち、算定された第1関連度が所定値以上の連続する複数の区間音声データを、第1区間群として特定するステップである、付記4記載のプログラム。
これにより、特定のトピックについて連続して関連度が高い区間音声データを、トピックについて言及している区間群としてまとめて特定することができる。対話において、話者がどのような話題について発話を行ったのか、ユーザはより確認しやすくなる。
(Appendix 16)
The section identifying step (S525) identifies, as a first section group, a plurality of continuous section sound data having a calculated first degree of association equal to or higher than a predetermined value among the plurality of section sound data arranged in chronological order. The program according to
As a result, it is possible to collectively identify the segment audio data continuously having a high degree of relevance to a specific topic as a segment group referring to the topic. It becomes easier for the user to confirm what topic the speaker spoke about in the dialogue.
(付記17)
プロセッサと、記憶部とを備える情報処理装置であって、プロセッサは、付記1から16のいずれか記載のプログラムを実行する、情報処理装置。
これにより、対話において話者がどのような話題(トピック)に関してコミュニケーションを行ったのか、ユーザは一目で確認することができる。
(Appendix 17)
An information processing apparatus comprising a processor and a storage unit, wherein the processor executes the program according to any one of
As a result, the user can confirm at a glance what topic the speaker has communicated about in the dialogue.
(付記18)
プロセッサと、記憶部とを備える情報処理装置を含む情報処理システムであって、プロセッサは、付記1から16のいずれか記載のプログラムを実行する、情報処理システム。
これにより、対話において話者がどのような話題(トピック)に関してコミュニケーションを行ったのか、ユーザは一目で確認することができる。
(Appendix 18)
17. An information processing system including an information processing device comprising a processor and a storage unit, wherein the processor executes the program according to any one of
As a result, the user can confirm at a glance what topic the speaker has communicated about in the dialogue.
(付記19)
プロセッサと、記憶部とを備えるコンピュータにより実行される情報処理方法であって、プロセッサに、付記1から16のいずれか記載のプログラムを実行させる、情報処理方法。
これにより、対話において話者がどのような話題(トピック)に関してコミュニケーションを行ったのか、ユーザは一目で確認することができる。
(Appendix 19)
17. An information processing method executed by a computer comprising a processor and a storage unit, the information processing method comprising causing the processor to execute the program according to any one of
As a result, the user can confirm at a glance what topic the speaker has communicated about in the dialogue.
(付記20)
プロセッサと、表示装置とを備える情報処理端末であって、プロセッサは、付記5から8のいずれか記載のプログラムを実行可能な情報処理装置において実行される提示ステップにより提示された情報を表示装置に表示可能である、情報処理端末。
これにより、対話において話者がどのような話題(トピック)に関してコミュニケーションを行ったのか、ユーザは一目で確認することができる。
(Appendix 20)
An information processing terminal comprising a processor and a display device, wherein the processor displays information presented by a presentation step executed in the information processing device capable of executing the program according to any one of appendices 5 to 8 on the display device. Information processing terminal capable of display.
As a result, the user can confirm at a glance what topic the speaker has communicated about in the dialogue.
1 システム、10 サーバ、101 記憶部、104 制御部、106 入力装置、108 出力装置、20 第1ユーザ端末、201 記憶部、204 制御部、206 入力装置、208 出力装置、30 第2ユーザ端末、301 記憶部、304 制御部、306 入力装置、308 出力装置、50 CRMシステム、501 記憶部、504 制御部、506 入力装置、508 出力装置、60 音声サーバ(PBX)、601 記憶部、604 制御部、606 入力装置、608 出力装置
1 system, 10 server, 101 storage unit, 104 control unit, 106 input device, 108 output device, 20 first user terminal, 201 storage unit, 204 control unit, 206 input device, 208 output device, 30 second user terminal, 301 storage unit, 304 control unit, 306 input device, 308 output device, 50 CRM system, 501 storage unit, 504 control unit, 506 input device, 508 output device, 60 voice server (PBX), 601 storage unit, 604 control unit , 606 input device, 608 output device
Claims (18)
前記プログラムは、前記プロセッサに、
前記対話に関する音声データを受け付ける受付ステップと、
前記受付ステップにおいて受け付けた前記音声データから、発話区間ごとに複数の区間音声データを抽出する音声抽出ステップと、
前記複数の区間音声データのうち、所定の話題に関する第1トピックと関連する1または複数の区間音声データを特定する区間特定ステップと、
前記複数の区間音声データのうち、前記区間特定ステップにおいて特定された前記1または複数の区間音声データと、前記第1トピックと、に基づき、前記1または複数の区間音声データに含まれるテキスト情報を要約した要約テキストを生成する要約ステップと、
前記第1ユーザから1または複数のキーワードを受け付けるキーワード受付ステップと、
前記キーワード受付ステップにおいて受け付けた前記1または複数のキーワードを、所定の話題に関する前記第1トピックと関連づけて記憶するトピック記憶ステップと、
を実行させるプログラム。 A program, comprising a processor and a storage unit, for causing a computer to process information relating to interaction between a first user and a second user,
The program causes the processor to:
a receiving step of receiving audio data relating to the dialogue;
a voice extracting step of extracting a plurality of segmental voice data for each utterance segment from the voice data received in the receiving step;
a section identification step of identifying one or a plurality of section sound data related to a first topic related to a predetermined topic among the plurality of section sound data;
Text information contained in the one or more section audio data based on the one or more section audio data identified in the section identifying step and the first topic among the plurality of section audio data, a summarizing step to generate a summarized summary text;
a keyword receiving step of receiving one or more keywords from the first user;
a topic storing step of storing the one or more keywords received in the keyword receiving step in association with the first topic related to a predetermined topic;
program to run.
請求項1記載のプログラム。 The summarizing step extracts the text information contained in the one or more segmental speech data by extracting portions highly relevant to the first topic from the text information contained in the one or more segmental speech data. is the step of generating a summary text that summarizes the
A program according to claim 1.
請求項1記載のプログラム。 The summarizing step generates the summary text by applying text information included in the one or more segmental speech data and the plurality of keywords associated with the first topic as input data to a learning model. is the step to
A program according to claim 1.
前記複数の区間音声データごとに、前記第1トピックとの関連度を示す第1関連度を算定する関連度算定ステップと、
を実行させ、
前記区間特定ステップは、前記複数の区間音声データのうち、前記関連度算定ステップにおいて算定された前記第1関連度が所定値以上の1または複数の区間音声データを含む、第1区間群を特定するステップであり、
前記要約ステップは、前記区間特定ステップにおいて特定された前記第1区間群に含まれる1または複数の区間音声データと、前記第1トピックと、に基づき、前記1または複数の区間音声データに含まれるテキスト情報を要約した要約テキストを生成するステップである、
請求項1記載のプログラム。 The program causes the processor to:
a degree-of-relevance calculation step of calculating a first degree of relevance indicating a degree of relevance to the first topic for each of the plurality of segmental audio data;
and
The section identification step identifies a first section group including one or a plurality of section sound data whose first relevance calculated in the relevance calculation step is equal to or greater than a predetermined value, among the plurality of section sound data. is a step to
The summarizing step is included in the one or more segmental audio data based on the one or more segmental audio data included in the first segment group identified in the segment identifying step and the first topic. generating a summary text that summarizes the textual information;
A program according to claim 1.
前記要約ステップにおいて生成された前記要約テキストを、前記1または複数の区間音声データと関連づけて提示する提示ステップと、
を実行させる請求項1記載のプログラム。 The program causes the processor to:
a presenting step of presenting the summarized text generated in the summarizing step in association with the one or more segmental speech data;
2. The program according to claim 1, causing the execution of
前記要約ステップにおいて生成された前記要約テキストを、前記区間特定ステップにおいて特定された第1区間群と関連づけて提示する提示ステップと、
を実行させる請求項4記載のプログラム。 The program causes the processor to:
a presenting step of presenting the summary text generated in the summarizing step in association with the first section group identified in the section identifying step;
5. The program according to claim 4, causing the execution of
前記区間特定ステップにおいて特定された前記第1区間群を、前記第1トピックと関連づけて提示する提示ステップと、
を実行させる請求項4記載のプログラム。 The program causes the processor to:
a presentation step of presenting the first segment group identified in the segment identification step in association with the first topic;
5. The program according to claim 4, causing the execution of
請求項7記載のプログラム。 In the presenting step, the first section group identified in the section identifying step in the speech graph showing the time-series transition of the utterance situation of the speaker, which is obtained by analyzing the speech data received in the receiving step. is presented on the same chronological axis as the speech graph, and the first topic is presented in association with the first segment group,
8. A program according to claim 7.
前記受付ステップにおいて受け付けた前記音声データを記憶する音声記憶ステップと、
前記音声記憶ステップにおいて記憶された前記音声データに基づき、前記第1トピックに新たに関連づける1または複数の新たなキーワードを前記第1ユーザに対して提示するキーワード提示ステップと、
を実行させ、
前記キーワード受付ステップは、前記キーワード提示ステップにおいて前記第1ユーザに対して提示された前記複数の新たなキーワードのうち、前記第1ユーザにより選択された1または複数のキーワードを受け付けるステップである、
請求項1記載のプログラム。 The program causes the processor to:
a voice storage step of storing the voice data received in the receiving step;
a keyword presenting step of presenting one or more new keywords to be newly associated with the first topic to the first user based on the voice data stored in the voice storing step;
and
The keyword accepting step is a step of accepting one or more keywords selected by the first user from among the plurality of new keywords presented to the first user in the keyword presenting step.
A program according to claim 1 .
前記関連度算定ステップは、前記対話が終了する前に、前記複数の区間音声データに含まれる区間音声データごとに、前記第1トピックとの関連度を示す前記第1関連度を算定するステップである、
請求項4記載のプログラム。 The voice extracting step is a step of extracting a plurality of segment voice data for each utterance segment from the voice data received in the receiving step before the dialogue ends,
The degree-of-relevance calculating step is a step of calculating, before the dialogue ends, the first degree of relevance indicating the degree of relevance to the first topic for each segmental audio data included in the plurality of segmental audio data. be,
5. The program according to claim 4.
前記プログラムは、前記プロセッサに、
前記関連度算定ステップにおいて算定された前記複数のトピックごとの関連度に基づき、前記対話に対する応対メモを特定するメモ特定ステップと、
前記メモ特定ステップにおいて特定された前記応対メモを、前記対話と関連づけて記憶する記憶ステップと、
を実行させる請求項4記載のプログラム。 The relevance calculating step is a step of calculating, for each of the plurality of segmental audio data, the relevance of each of a plurality of topics associated with a plurality of keywords,
The program causes the processor to:
a memo identifying step of identifying a response memo to the dialogue based on the degrees of relevance for each of the plurality of topics calculated in the relevance calculating step;
a storing step of storing the response memo identified in the memo identifying step in association with the dialogue;
5. The program according to claim 4, causing the execution of
前記第1トピックに関連づけられた複数のキーワードのうち、前記音声抽出ステップにおいて抽出された複数の区間音声データに多く含まれるキーワードほど関連度へ与える重みが小さくなるようにし、
前記複数の区間音声データごとに前記第1トピックに関連づけられた前記複数のキーワードの重み付けを考慮した一致度を、前記第1トピックとの関連度を示す前記第1関連度として算定する、
請求項4記載のプログラム。 The relevance calculation step includes:
among the plurality of keywords associated with the first topic, the more keywords are included in the plurality of segmental speech data extracted in the speech extraction step, the smaller the weight given to the degree of association;
Calculating a matching degree considering the weighting of the plurality of keywords associated with the first topic for each of the plurality of segmental audio data as the first degree of relevance indicating the degree of relevance with the first topic;
5. The program according to claim 4.
前記第1トピックに関連づけられた複数のキーワードのうち、前記第1関連度の算定対象となる対象区間音声データから時系列的に所定個数前までの複数の区間音声データに多く含まれるキーワードほど関連度へ与える重みが小さくなるようにし、
前記複数の区間音声データごとに前記第1トピックに関連づけられた前記複数のキーワードとの前記重み付けを考慮した前記一致度を、前記第1トピックとの関連度を示す前記第1関連度として算定する、
請求項12記載のプログラム。 The relevance calculation step includes:
Of the plurality of keywords associated with the first topic, the more keywords are included in the plurality of segmental audio data up to a predetermined number in chronological order from the target segmental audio data for which the first relevance is to be calculated, the more relevant the keyword is. so that the weight given to degrees is small,
Calculating the degree of matching with the plurality of keywords associated with the first topic for each of the plurality of segmental audio data in consideration of the weighting as the first degree of association indicating the degree of association with the first topic ,
13. A program according to claim 12 .
時系列的に並べられた前記複数の区間音声データのそれぞれに対して算定された前記第1関連度に基づき移動平均を算定するステップと、
算定された前記移動平均が所定値以上の前記区間音声データを、前記第1区間群として特定するステップと、
を含む、
請求項4記載のプログラム。 The section identification step includes:
calculating a moving average based on the first relevance calculated for each of the plurality of segment audio data arranged in time series;
identifying, as the first segment group, the segment audio data for which the calculated moving average is equal to or greater than a predetermined value;
including,
5. The program according to claim 4.
時系列的に並べられた前記複数の区間音声データのうち、算定された前記第1関連度が所定値以上の連続する複数の前記区間音声データを、前記第1区間群として特定するステップである、
請求項4記載のプログラム。 The section identification step includes:
A step of specifying, as the first segment group, a plurality of continuous segmental audio data having a calculated first degree of association equal to or greater than a predetermined value among the plurality of segmental audio data arranged in time series. ,
5. The program according to claim 4.
前記プロセッサは、請求項1から15のいずれか記載のプログラムを実行する、
情報処理装置。 An information processing device comprising a processor and a storage unit,
The processor executes the program according to any one of claims 1 to 15 ,
Information processing equipment.
前記プロセッサは、請求項1から15のいずれか記載のプログラムを実行する、
情報処理システム。 An information processing system including an information processing device comprising a processor and a storage unit,
The processor executes the program according to any one of claims 1 to 15 ,
Information processing system.
前記プロセッサに、請求項1から15のいずれか記載のプログラムを実行させる、
情報処理方法。 An information processing method executed by a computer comprising a processor and a storage unit,
causing the processor to execute the program according to any one of claims 1 to 15 ;
Information processing methods.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022079947A JP7169031B1 (en) | 2022-05-16 | 2022-05-16 | Program, information processing device, information processing system, information processing method, information processing terminal |
JP2022169442A JP2023169093A (en) | 2022-05-16 | 2022-10-21 | Program, information processing device, information processing system, information processing method, and information processing terminal |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022079947A JP7169031B1 (en) | 2022-05-16 | 2022-05-16 | Program, information processing device, information processing system, information processing method, information processing terminal |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022169442A Division JP2023169093A (en) | 2022-05-16 | 2022-10-21 | Program, information processing device, information processing system, information processing method, and information processing terminal |
Publications (2)
Publication Number | Publication Date |
---|---|
JP7169031B1 true JP7169031B1 (en) | 2022-11-10 |
JP2023168692A JP2023168692A (en) | 2023-11-29 |
Family
ID=83995269
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022079947A Active JP7169031B1 (en) | 2022-05-16 | 2022-05-16 | Program, information processing device, information processing system, information processing method, information processing terminal |
JP2022169442A Pending JP2023169093A (en) | 2022-05-16 | 2022-10-21 | Program, information processing device, information processing system, information processing method, and information processing terminal |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022169442A Pending JP2023169093A (en) | 2022-05-16 | 2022-10-21 | Program, information processing device, information processing system, information processing method, and information processing terminal |
Country Status (1)
Country | Link |
---|---|
JP (2) | JP7169031B1 (en) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017134686A (en) | 2016-01-28 | 2017-08-03 | 日産自動車株式会社 | Analysis system, analysis method, and analysis program |
JP2019029984A (en) | 2017-07-27 | 2019-02-21 | 大日本印刷株式会社 | Information processing apparatus, information processing method, video data, program, and information processing system |
JP2020529680A (en) | 2017-08-08 | 2020-10-08 | Line株式会社 | Methods and systems for recognizing emotions during a call and leveraging the perceived emotions |
JP2021036292A (en) | 2019-08-30 | 2021-03-04 | 富士通株式会社 | Information processing program, information processing method, and information processing device |
CN112765344A (en) | 2021-01-12 | 2021-05-07 | 哈尔滨工业大学 | Method, device and storage medium for generating meeting abstract based on meeting record |
JP2021096873A (en) | 2016-01-28 | 2021-06-24 | ソニーグループ株式会社 | Communication system, communication control method, and program |
WO2021255795A1 (en) | 2020-06-15 | 2021-12-23 | 日本電信電話株式会社 | Information processing device, information processing method, and program |
-
2022
- 2022-05-16 JP JP2022079947A patent/JP7169031B1/en active Active
- 2022-10-21 JP JP2022169442A patent/JP2023169093A/en active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017134686A (en) | 2016-01-28 | 2017-08-03 | 日産自動車株式会社 | Analysis system, analysis method, and analysis program |
JP2021096873A (en) | 2016-01-28 | 2021-06-24 | ソニーグループ株式会社 | Communication system, communication control method, and program |
JP2019029984A (en) | 2017-07-27 | 2019-02-21 | 大日本印刷株式会社 | Information processing apparatus, information processing method, video data, program, and information processing system |
JP2020529680A (en) | 2017-08-08 | 2020-10-08 | Line株式会社 | Methods and systems for recognizing emotions during a call and leveraging the perceived emotions |
JP2021036292A (en) | 2019-08-30 | 2021-03-04 | 富士通株式会社 | Information processing program, information processing method, and information processing device |
WO2021255795A1 (en) | 2020-06-15 | 2021-12-23 | 日本電信電話株式会社 | Information processing device, information processing method, and program |
CN112765344A (en) | 2021-01-12 | 2021-05-07 | 哈尔滨工业大学 | Method, device and storage medium for generating meeting abstract based on meeting record |
Also Published As
Publication number | Publication date |
---|---|
JP2023168692A (en) | 2023-11-29 |
JP2023169093A (en) | 2023-11-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11069367B2 (en) | Speaker association with a visual representation of spoken content | |
CN109416816B (en) | Artificial intelligence system supporting communication | |
CN110825858A (en) | Intelligent interaction robot system applied to customer service center | |
JP6998680B2 (en) | Interactive business support system and interactive business support program | |
US11315569B1 (en) | Transcription and analysis of meeting recordings | |
CN116235177A (en) | Systems and methods related to robotic authoring by mining intent from dialogue data using known intent of an associated sample utterance | |
CN112364234B (en) | Automatic grouping system for online discussion | |
JP2017215943A (en) | Information sharing support system, information sharing support device, information sharing support method, and program | |
CN114360678A (en) | Information processing method, device, equipment and storage medium | |
JP2015094811A (en) | System and method for visualizing speech recording | |
WO2023090380A1 (en) | Program, information processing system, and information processing method | |
JP7169031B1 (en) | Program, information processing device, information processing system, information processing method, information processing terminal | |
JP7169030B1 (en) | Program, information processing device, information processing system, information processing method, information processing terminal | |
JP7159576B2 (en) | Information presentation device, information presentation system, information presentation method and program | |
US20220207066A1 (en) | System and method for self-generated entity-specific bot | |
JP2019207647A (en) | Interactive business assistance system | |
JP2018120640A (en) | Compliance check system and compliance check program | |
JP2023168691A (en) | Program, information processing device, information processing system, information processing method, and information processing terminal | |
JP7207543B2 (en) | Information recommendation device, information recommendation system, information recommendation method, and information recommendation program | |
TW201738830A (en) | Information processing system, receiving server, information processing method and program wherein the information processing system includes a voice recognition sector, an intention and state interpretation sector, and an FAQ search database | |
JP7168262B1 (en) | Program, information processing system and information processing method | |
WO2024127477A1 (en) | Program, information processing device, manufacturing method, and information processing method | |
WO2024127476A1 (en) | Program, information processing device, production method and information processing method | |
JP2023076017A (en) | Program, information processing system, and information processing method | |
WO2022091981A1 (en) | Information processing system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220516 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20220516 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220711 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220819 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221017 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221021 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7169031 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |