JP2020067790A - Keyword extracting program, keyword extracting method and keyword extracting apparatus - Google Patents
Keyword extracting program, keyword extracting method and keyword extracting apparatus Download PDFInfo
- Publication number
- JP2020067790A JP2020067790A JP2018199696A JP2018199696A JP2020067790A JP 2020067790 A JP2020067790 A JP 2020067790A JP 2018199696 A JP2018199696 A JP 2018199696A JP 2018199696 A JP2018199696 A JP 2018199696A JP 2020067790 A JP2020067790 A JP 2020067790A
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- user
- customer
- timing
- evaluation value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
Description
本発明はキーワード抽出プログラム、キーワード抽出方法およびキーワード抽出装置に関する。 The present invention relates to a keyword extraction program, a keyword extraction method, and a keyword extraction device.
ユーザ間の会話の中から当該会話にとって重要であったキーワードを抽出したいことがある。例えば、顧客と接客担当者との間の会話から、顧客の共感に大きく貢献したポジティブなキーワードを抽出して、後の接客に役立てることが考えられる。また、例えば、顧客と接客担当者との間の会話から、好ましくない接客において使用された要注意のキーワードを抽出して、後の接客に役立てることが考えられる。 From the conversation between users, it may be desired to extract a keyword that is important for the conversation. For example, it is conceivable to extract a positive keyword that greatly contributes to the empathy of the customer from the conversation between the customer and the person in charge of the customer, and utilize it for later customer service. Further, for example, it is conceivable to extract a keyword of caution used in an unfavorable customer service from a conversation between the customer and the person in charge of the customer service and utilize it for later customer service.
なお、画像の表示中にユーザの発話の音声認識を行ってキーワードを抽出し、抽出したキーワードを画像にタグとして付与するデジタルフォトフレームが提案されている。また、あるユーザに他のユーザの映像を提示し、映像視聴中の当該ユーザの頭部を撮影し、二人のユーザの動作を分析して共感解釈を推定する共感解釈推定装置が提案されている。また、会議参加者それぞれの活動状態を示す信号を収集し、会議参加者それぞれの発話からコミュニケーション難易度を判定し、活動状態とコミュニケーション難易度に基づいて各会議参加者の理解度を推定する理解状態推定装置が提案されている。 A digital photo frame has been proposed in which voice recognition of a user's utterance is performed while an image is displayed, a keyword is extracted, and the extracted keyword is added as a tag to the image. Further, there has been proposed an empathic interpretation estimation device that presents a video of another user to a user, photographs the heads of the users while watching the video, analyzes the actions of the two users, and estimates the empathic interpretation. There is. Also, a signal indicating the activity state of each conference participant is collected, the communication difficulty level is determined from each utterance of each conference participant, and the understanding level of each conference participant is estimated based on the activity state and communication difficulty level. A state estimation device has been proposed.
また、ユーザの音声から発話速度を算出し、発話中のユーザを撮影した動画像からユーザ領域の時間変化を検出し、発話速度とユーザ領域の時間変換とに基づいてユーザの応対評価値を算出する応対品質評価装置が提案されている。また、センサ装置を用いて複数のユーザそれぞれの状態を検出し、検出した状態に基づいてユーザ同士の同調度を算出し、ユーザに提示する情報を同調度に応じて変化させる情報処理装置が提案されている。 Also, the speech rate is calculated from the user's voice, the time change of the user area is detected from the moving image of the user who is speaking, and the user response evaluation value is calculated based on the speech rate and the time conversion of the user area. A response quality evaluation device has been proposed. In addition, an information processing device is proposed which detects a state of each of a plurality of users using a sensor device, calculates the degree of synchronization between users based on the detected states, and changes information presented to the user according to the degree of synchronization. Has been done.
しかし、会話からキーワードを抽出する従来技術では、ユーザの心理状態の観点から重要度の高いキーワードを抽出することの精度に改善の余地がある。例えば、単純にキーワードの出現頻度から重要度を判定してしまうと、顧客の共感度や接客担当者の接客度などの心理状態と関連性が高いキーワードが抽出されないおそれがある。 However, in the conventional technique of extracting a keyword from a conversation, there is room for improvement in the accuracy of extracting a keyword of high importance from the viewpoint of the psychological state of the user. For example, if the importance degree is simply determined from the appearance frequency of the keyword, there is a possibility that the keyword having a high degree of relation with the psychological state such as the customer's sympathy or the degree of customer service of the customer is not extracted.
1つの側面では、本発明は、ユーザの心理状態を反映したキーワードの抽出精度を向上させるキーワード抽出プログラム、キーワード抽出方法およびキーワード抽出装置を提供することを目的とする。 In one aspect, an object of the present invention is to provide a keyword extraction program, a keyword extraction method, and a keyword extraction device that improve the extraction accuracy of keywords that reflect the psychological state of the user.
1つの態様では、コンピュータに実行させるキーワード抽出プログラムが提供される。サービスの提供側となる第1のユーザとサービスの享受側となる第2のユーザとの間の会話において第1のユーザおよび第2のユーザの少なくとも一方が行った発話を示す音声データから、キーワードを検出する。会話において第1のユーザが行った動作および第2のユーザが行った動作を示す動作データから、第1のユーザによる第1の動作のタイミングおよび第2のユーザによる第2の動作のタイミングを検出する。第1の動作のタイミングと第2の動作のタイミングとの間の関係に基づいて、キーワードの重要度を示す評価値を算出する。 In one aspect, a keyword extraction program to be executed by a computer is provided. From the voice data indicating the utterance made by at least one of the first user and the second user in the conversation between the first user who is the service providing side and the second user who is the service receiving side, a keyword To detect. Detecting the timing of the first operation by the first user and the timing of the second operation by the second user from the operation data indicating the operation performed by the first user and the operation performed by the second user in the conversation. To do. An evaluation value indicating the importance of the keyword is calculated based on the relationship between the timing of the first operation and the timing of the second operation.
また、1つの態様では、コンピュータが実行するキーワード抽出方法が提供される。また、1つの態様では、記憶部と処理部とを有するキーワード抽出装置が提供される。 Further, in one aspect, a computer-executed keyword extraction method is provided. Further, in one aspect, a keyword extraction device having a storage unit and a processing unit is provided.
1つの側面では、ユーザの心理状態を反映したキーワードの抽出精度が向上する。 In one aspect, the keyword extraction accuracy that reflects the psychological state of the user is improved.
以下、本実施の形態を図面を参照して説明する。
[第1の実施の形態]
第1の実施の形態を説明する。
Hereinafter, the present embodiment will be described with reference to the drawings.
[First Embodiment]
The first embodiment will be described.
図1は、第1の実施の形態のキーワード抽出装置の例を説明する図である。
第1の実施の形態のキーワード抽出装置10は、ユーザ間の会話の中から少なくとも一方のユーザの心理状態を反映した重要キーワードを抽出する。例えば、キーワード抽出装置10は、顧客と接客担当者の間の会話から顧客の共感度に関連する重要キーワードを抽出する。また、例えば、キーワード抽出装置10は、顧客と接客担当者の間の会話から接客担当者の接客度に関連する重要キーワードを抽出する。
FIG. 1 is a diagram illustrating an example of the keyword extracting device according to the first embodiment.
The
キーワード抽出装置10を、コンピュータや情報処理装置と言うこともできる。キーワード抽出装置10は、クライアント装置でもよいしサーバ装置でもよい。また、キーワード抽出装置10は、ユーザ間の会話の間にリアルタイムに重要キーワードを抽出してもよいし、会話終了後にバッチ処理として重要キーワードを抽出してもよい。
The
キーワード抽出装置10は、記憶部11および処理部12を有する。記憶部11は、RAM(Random Access Memory)などの揮発性の半導体メモリでもよいし、HDD(Hard Disk Drive)やフラッシュメモリなどの不揮発性ストレージでもよい。処理部12は、例えば、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、DSP(Digital Signal Processor)などのプロセッサである。ただし、処理部12は、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などの特定用途の電子回路を含んでもよい。複数のプロセッサの集合を「マルチプロセッサ」または単に「プロセッサ」と言うことがある。
The
記憶部11は、音声データ13および動作データ14を記憶する。音声データ13および動作データ14は、第1のユーザと第2のユーザとの間の会話についての記録である。第1のユーザはサービスの提供側となる者であり、第2のユーザはサービスの享受側となる者である。サービス分野としては、例えば、小売りや教育や医療などコミュニケーションを通じて行われる業務が挙げられる。第1のユーザは、例えば、店舗の商品説明者、教育機関に従事する講師、医療機関に従事する医師やカウンセラーなど、接客を行う接客担当者である。第2のユーザは、例えば、店舗を訪れた消費者、教育機関の受講者、医療機関を訪れた患者など、接客を受ける顧客である。
The
音声データ13は、第1のユーザおよび第2のユーザの少なくとも一方が行った発話を示す。例えば、音声データ13は、マイクロフォンを用いて、第1のユーザおよび第2のユーザの少なくとも一方の発話を録音した音声信号である。その場合に、音声データ13は、第1のユーザの発話のみ録音したものでもよいし、第2のユーザの発話のみ録音したものでもよいし、第1のユーザと第2のユーザの両方の発話を録音したものでもよい。また、第1のユーザの発話と第2のユーザの発話は、同じマイクロフォンを用いて録音されてもよいし、異なるマイクロフォンを用いて録音されてもよい。
The
動作データ14は、会話において第1のユーザが行った動作および第2のユーザが行った動作を示す。動作は、表情の変化、頭部や腕や足のジェスチャ、視線の変更、姿勢の変更など、相手ユーザから視認可能な身体的動作である。表情の変化には笑うことが含まれる。頭部のジェスチャにはうなずくことが含まれる。視線の変更には相手ユーザの頭部を見ることが含まれる。姿勢の変更には前のめりになることが含まれる。
The
例えば、動作データ14は、イメージセンサを用いて、第1のユーザおよび第2のユーザを撮影した動画像などの画像データである。ただし、動作データ14は、イメージセンサ以外のセンサデバイスを用いて生成されたセンサデータであってもよい。例えば、動作データ14は、ヘッドセットに組み込まれた加速度センサを用いて頭部のジェスチャを検出したものでもよい。また、動作データ14は、腕時計に組み込まれた加速度センサを用いて腕のジェスチャを検出したものでもよい。また、動作データ14は、椅子に組み込まれた感圧センサを用いて姿勢の変化を検出したものでもよい。
For example, the
動作データ14のうち第1のユーザに関するデータと第2のユーザに関するデータとは、同じデバイスを用いて生成されてもよいし異なるデバイスを用いて生成されてもよい。例えば、動作データ14が画像データである場合、1つのイメージセンサを用いて撮影された画像に第1のユーザと第2のユーザの両方が写っていてもよいし、異なるイメージセンサを用いて撮影された異なる画像に異なるユーザが写っていてもよい。
The data regarding the first user and the data regarding the second user of the
処理部12は、音声データ13からキーワード15を検出する。例えば、処理部12は、音声認識によって音声データ13を発話の文字列(テキスト)に変換し、文字列の中から所定の検索対象キーワードを検索する。検索対象キーワードは、例えば、予めキーワードリストとして定義されている。また、例えば、処理部12は、発話全体を文字列に変換せずに、ワードスポッティングにより発話の音声信号の特徴量と検索対象キーワードの音声信号の特徴量とを連続的に比較し、検索対象キーワードのみを直接認識する。
The
キーワード15は、第1のユーザの発話でもよいし第2のユーザの発話でもよい。処理部12は、第1のユーザの発話と第2のユーザの発話とを区別して検索対象キーワードを検索してもよいし、第1のユーザの発話と第2のユーザの発話とを区別せずに検索対象キーワードを検索してもよい。また、処理部12は、第1のユーザの発話と第2のユーザの発話の何れか一方に限定して検索対象キーワードを検索してもよい。
The
また、処理部12は、動作データ14から、第1のユーザによる動作16(第1の動作)のタイミングと、第2のユーザによる動作17(第2の動作)のタイミングとを検出する。上記の音声データ13の処理と動作データ14の処理は、何れを先に実行してもよいし並列に実行してもよい。第1のユーザの動作16と第2のユーザの動作17とは区別して検出される。例えば、処理部12は、画像認識によって第1のユーザと第2のユーザそれぞれの表情の変化、頭部や腕や足のジェスチャ、視線の変更、姿勢の変更などの身体的動作を、画像データである動作データ14から検出する。イメージセンサ以外のセンサデバイスが動作データ14を生成した場合、特段の認識処理を行わなくてよいこともある。
Further, the
そして、処理部12は、第1のユーザによる動作16のタイミングと第2のユーザによる動作17のタイミングとの間の関係に基づいて、検出したキーワード15の重要度を示す評価値18を算出する。処理部12は、例えば、評価値18に基づいて、キーワード15を重要キーワードとして抽出するか否か判定する。処理部12は、評価値18が所定の第1の閾値を超える場合、キーワード15を好ましいキーワードとして抽出してもよい。また、処理部12は、評価値18が第1の閾値より小さい所定の第2の閾値未満である場合、キーワード15を要注意のキーワードとして抽出してもよい。キーワード15は、例えば、時間軸上で動作16,17から所定範囲内に発せられたキーワードである。
Then, the
動作16,17のタイミングの関係として、処理部12は、動作16,17が同じ種類の動作であり、動作16が先に行われ動作16から所定時間以内に動作17が行われたことを検出してもよい。このとき、動作16の直前の所定時間以内に第2のユーザが動作を行っていないこと、すなわち、第1のユーザから動作を開始したことを条件に加えてもよい。この関係は、第2のユーザの心理状態を反映していると言える。
As a timing relationship between the
例えば、第1のユーザが接客担当者であり第2のユーザが顧客である場合、この関係は、接客担当者の笑いやうなずきなどの動作と連動して、顧客の笑いやうなずきなどの同じ種類の動作が発生したという同期を示している。よって、これは顧客が接客担当者の動作をよく観察しており、接客担当者の話に共感をもっているという会話の盛り上がりを示していると推定できる。また、例えば、動作17が先に行われ動作17から所定時間以内に動作16が行われた場合、顧客の笑いやうなずきなどの動作と連動して、接客担当者の笑いやうなずきなどの同じ種類の動作が発生したという同期を示している。よって、これは接客担当者が顧客の動作をよく観察しており、良い接客を示していると推定できる。
For example, when the first user is a customer service representative and the second user is a customer, this relationship is linked to the behavior of the customer service representative, such as laughing or nodding, and the same type of customer laughing or nodding. Indicates that synchronization has occurred. Therefore, it can be inferred that this indicates the excitement of the conversation in which the customer often observes the behavior of the customer service representative and has an empathy for the story of the customer service representative. Further, for example, when the
動作16,17が同じ種類の動作であり、動作16が先に行われ動作16から所定時間以内に動作17が行われた場合、処理部12は、動作16,17の近辺にあるキーワード15を高く評価することが考えられる。キーワード15を高く評価することは、第2のユーザの心理状態が良好であることに対応する。第2のユーザが顧客である場合、キーワード15は、顧客の共感が得られた好ましいキーワードである可能性がある。
When the
一方、動作16から所定時間以内に動作17が行われていない場合、処理部12は、動作16,17の近辺にあるキーワード15を低く評価することが考えられる。キーワード15を低く評価することは、第2のユーザの心理状態が良好でないことに対応する。第2のユーザが顧客である場合、キーワード15は、顧客の共感が得られなかった要注意のキーワードである可能性がある。
On the other hand, when the
処理部12は、抽出した重要キーワードを出力してもよい。例えば、処理部12は、キーワード抽出装置10が備えるストレージ装置に重要キーワードを保存してもよい。また、例えば、処理部12は、ディスプレイに表示するなどキーワード抽出装置10が備える出力デバイスに重要キーワードを出力してもよい。また、例えば、処理部12は、ネットワーク経由で他の情報処理装置に重要キーワードを送信してもよい。
The
第1の実施の形態のキーワード抽出装置10によれば、音声データ13からキーワード15が検出され、動作データ14から第1のユーザの動作16のタイミングおよび第2のユーザの動作17のタイミングが検出される。そして、動作16のタイミングと動作17のタイミングの間の関係に基づいて、キーワード15の評価値18が算出される。これにより、第1のユーザと第2のユーザの少なくとも一方の心理状態の観点から重要キーワードを精度よく抽出することが可能となる。よって、接客の改善などの所定の目的のために、キーワード抽出装置10が抽出した重要キーワードを活用することが可能となる。
According to the
[第2の実施の形態]
次に、第2の実施の形態を説明する。
図2は、第2の実施の形態の情報処理システムの例を示す図である。
[Second Embodiment]
Next, a second embodiment will be described.
FIG. 2 is a diagram illustrating an example of the information processing system according to the second embodiment.
第2の実施の形態の情報処理システムは、顧客と接客担当者とが会話する業種において、会話を分析して接客の改善を支援するものである。この情報処理システムは、商品説明や保健指導など様々な業種に適用することが可能である。 The information processing system according to the second embodiment is for supporting the improvement of customer service by analyzing the conversation in an industry in which the customer and the person in charge of customer service have a conversation. This information processing system can be applied to various industries such as product explanations and health guidance.
第2の実施の形態の情報処理システムは、ネットワーク40に接続された管理装置41および会話分析装置100を含む。会話分析装置100にはカメラ装置50が接続されている。管理装置41は、接客担当者の上司など接客担当者を指導する管理者が使用する端末装置である。会話分析装置100は、顧客と接客担当者とが会話する場所に設置された端末装置である。例えば、会話分析装置100は、顧客と接客担当者とが対面するカウンターの上またはその周辺に設置されている。カメラ装置50は、動画撮影機能および音声録音機能をもつデバイス装置である。カメラ装置50は、顧客と接客担当者との間の会話を撮影および録音できるように設置されている。
The information processing system according to the second embodiment includes a
カメラ装置50は、顧客と接客担当者とが会話を行っている間、画像内に顧客と接客担当者の両方が収まるように撮影を行う。また、カメラ装置50は、顧客と接客担当者とが会話を行っている間、顧客の音声と接客担当者の音声の両方が含まれるように録音を行う。会話分析装置100は、撮影された動画を示す画像データと録音された音声を示す音声データとを収集して、顧客と接客担当者との間の会話を分析する。具体的には、会話分析装置100は、音声データから顧客または接客担当者が発したキーワードを検出し、画像データから会話中の顧客の動作および接客担当者の動作を検出する。会話分析装置100は、顧客と接客担当者の動作からキーワードを評価して重要キーワードを抽出する。会話分析装置100は、抽出した重要キーワードを管理装置41に報告する。
The
会話分析装置100による会話分析および会話分析装置100から管理装置41への重要キーワードの報告は、接客担当者の業務中にリアルタイムに行ってもよいし、接客担当者の業務終了後にバッチ処理として行ってもよい。例えば、会話分析装置100は、カメラ装置50が出力する音声データおよび画像データをリアルタイムに分析し、会話の区切り毎に重要キーワードを判定して管理装置41に送信する。会話の区切りとしては、一人の顧客に対する接客が終了したとき、無発話時間が所定時間以上継続したとき、会話開始から一定時間経過したときなどが考えられる。また、例えば、会話分析装置100は、カメラ装置50が出力する音声データおよび画像データを保存し、業務終了後にまとめて音声データおよび画像データを分析し、重要キーワードを管理装置41に送信する。
The conversation analysis by the
会話分析装置100から管理装置41に送信された重要キーワードの少なくとも一部は、管理装置41のディスプレイに表示される。管理者は、接客担当者の業務中に重要キーワードを確認してもよいし、業務終了後に重要キーワードを確認してもよい。
At least a part of the important keywords transmitted from the
なお、会話分析装置100は、第1の実施の形態のキーワード抽出装置10に対応する。カメラ装置50を用いて撮影された動画を示す画像データは、第1の実施の形態の動作データ14に対応する。カメラ装置50を用いて録音された音声を示す音声データは、第1の実施の形態の音声データ13に対応する。
The
図3は、会話分析装置のハードウェア例を示すブロック図である。
会話分析装置100は、バスに接続されたCPU101、RAM102、HDD103、画像信号処理部104、入力信号処理部105,106、媒体リーダ107および通信インタフェース108を有する。CPU101は、第1の実施の形態の処理部12に対応する。RAM102またはHDD103は、第1の実施の形態の記憶部11に対応する。管理装置41も同様のハードウェアを用いて実現できる。
FIG. 3 is a block diagram showing a hardware example of the conversation analysis device.
The
CPU101は、プログラムの命令を実行するプロセッサである。CPU101は、HDD103に記憶されたプログラムやデータの少なくとも一部をRAM102にロードし、プログラムを実行する。なお、CPU101は複数のプロセッサコアを備えてもよく、会話分析装置100は複数のプロセッサを備えてもよい。複数のプロセッサの集合を「マルチプロセッサ」または単に「プロセッサ」と言うことがある。
The
RAM102は、CPU101が実行するプログラムやCPU101が演算に使用するデータを一時的に記憶する揮発性の半導体メモリである。なお、会話分析装置100は、RAM以外の種類のメモリを備えてもよく、複数のメモリを備えてもよい。
The
HDD103は、OS(Operating System)やミドルウェアやアプリケーションソフトウェアなどのソフトウェアのプログラム、および、データを記憶する不揮発性ストレージである。なお、会話分析装置100は、フラッシュメモリやSSD(Solid State Drive)など他の種類のストレージを備えてもよく、複数のストレージを備えてもよい。
The
画像信号処理部104は、CPU101からの命令に従って、会話分析装置100に接続されたディスプレイ111に画像を出力する。ディスプレイ111としては、CRT(Cathode Ray Tube)ディスプレイ、液晶ディスプレイ(LCD:Liquid Crystal Display)、有機EL(OEL:Organic Electro-Luminescence)ディスプレイなど、任意の種類のディスプレイを使用することができる。
The image
入力信号処理部105は、会話分析装置100に接続された入力デバイス112から入力信号を受信する。入力デバイス112として、マウス、タッチパネル、タッチパッド、キーボードなど、任意の種類の入力デバイスを使用できる。また、会話分析装置100に複数の種類の入力デバイスが接続されてもよい。
The input
入力信号処理部106は、会話分析装置100に接続されたカメラ装置50から画像信号および音声信号を受信する。カメラ装置50は、イメージセンサ51およびマイクロフォン52を有する。イメージセンサ51は、光を電気信号(画像信号)に変換する撮像素子である。イメージセンサ51として、CCD(Charge Coupled Device)イメージセンサやCMOS(Complementary Metal Oxide Semiconductor)イメージセンサなど、任意の種類のイメージセンサを使用できる。マイクロフォン52は、音を電気信号(音声信号)に変換する。マイクロフォン52として、ダイナミックマイクやコンデンサマイクなど、任意の種類のマイクロフォンを使用できる。
The input
媒体リーダ107は、記録媒体113に記録されたプログラムやデータを読み取る読み取り装置である。記録媒体113として、例えば、フレキシブルディスク(FD:Flexible Disk)やHDDなどの磁気ディスク、CD(Compact Disc)やDVD(Digital Versatile Disc)などの光ディスク、光磁気ディスク(MO:Magneto-Optical disk)、半導体メモリなどを使用できる。媒体リーダ107は、例えば、記録媒体113から読み取ったプログラムやデータをRAM102またはHDD103に格納する。
The
通信インタフェース108は、ネットワーク40に接続され、ネットワーク40を介して管理装置41と通信を行う。通信インタフェース108は、スイッチやルータなどの有線通信装置に接続される有線通信インタフェースでもよいし、基地局やアクセスポイントなどの無線通信装置に接続される無線通信インタフェースでもよい。
The
次に、第2の実施の形態のキーワード抽出方法について説明する。第2の実施の形態の会話分析装置100は、顧客と接客担当者との間の会話で出現したキーワードの中から、顧客の共感を得られた好ましいキーワードを推定して重要キーワードとして抽出する。また、第2の実施の形態の会話分析装置100は、顧客と接客担当者との間の会話で出現したキーワードの中から、顧客の共感を得られなかった要注意のキーワードを推定して重要キーワードとして抽出する。これにより、次回以降の接客において顧客の共感がより得られるように、接客担当者の接客スキルを向上させることが可能となる。
Next, a keyword extracting method according to the second embodiment will be described. The
図4は、第2の実施の形態のキーワード抽出例を示す図である。
顧客と接客担当者との間で会話が盛り上がっており接客担当者の話に顧客が共感しているか否かを評価するため、第2の実施の形態では、顧客の動作と接客担当者の動作との間の同期を検出する。第2の実施の形態の同期は、接客担当者から動作を開始し、その直後に顧客が同じ種類の動作を行ったという動作の連鎖である。この場合、顧客は接客担当者を注意深く見ており、接客担当者の話をポジティブに聞いていると推定される。よって、このような同期が発生しているときに顧客または接客担当者が発したキーワードは、好ましいキーワードである可能性がある。一方、このような同期が発生していないときに顧客または接客担当者が発したキーワードは、要注意のキーワードである可能性がある。
FIG. 4 is a diagram showing an example of keyword extraction according to the second embodiment.
In order to evaluate whether the conversation between the customer and the customer contact person is lively and the customer is sympathetic to the story of the customer contact person, in the second embodiment, the behavior of the customer and the behavior of the customer contact person are evaluated. Detect synchronization between and. The synchronization in the second embodiment is a chain of operations in which an operation is started by a person in charge of customer service and immediately after that, the customer performs the same kind of operation. In this case, it is presumed that the customer is carefully watching the customer contact person and listens to the customer contact person positively. Therefore, the keyword issued by the customer or the person in charge of customer service during such synchronization may be a preferable keyword. On the other hand, a keyword issued by a customer or a person in charge of customer service when such synchronization has not occurred may be a keyword requiring attention.
例えば、以下に説明するシーン71〜73を考える。
シーン71では、接客担当者が笑うという動作を行い、その直後に顧客が笑うという動作を行っている。接客担当者の動作の直前の時間S1以内に顧客は動作を行っておらず、接客担当者の動作の直後の時間S2以内に顧客は動作を行っている。シーン71では、接客担当者から開始して顧客の動作と接客担当者の動作とが同期しているため、顧客の共感度が大きいと判定される。すると、シーン71の周辺で顧客または接客担当者が発した「レスポンス」というキーワードの評価値は高くなる。
For example, consider scenes 71-73 described below.
In the
シーン72では、接客担当者が笑うという動作を行ったものの、接客担当者の動作の直前の時間S1以内に顧客は動作を行っておらず、接客担当者の動作の直後の時間S2以内にも顧客は動作を行っていない。シーン72では、顧客の動作と接客担当者の動作とが同期していないため、顧客の共感度が小さいと判定される。すると、シーン72の周辺で顧客または接客担当者が発した「新機能」というキーワードの評価値は低くなる。
In the
シーン73では、顧客がうなずくという動作を行い、その直後に接客担当者がうなずくという動作を行っている。接客担当者の動作の直前の時間S1以内に顧客は動作を行っており、接客担当者の動作の直後の時間S2以内に顧客は動作を行っていない。シーン73では、接客担当者から開始して顧客の動作と接客担当者の動作とが同期しているわけではなく、顧客の共感度が小さいと判定される。すると、シーン73の周辺で顧客または接客担当者が発した「画質」というキーワードの評価値は低くなる。
In the
会話分析装置100は、評価値が閾値T1より大きいキーワードを好ましいキーワードと推定し、重要キーワードとして抽出する。また、会話分析装置100は、評価値が閾値T2より小さいキーワードを要注意のキーワードと推定し、同様に重要キーワードとして抽出する。閾値T1,T2は予め決められており、T1>T2である。上記の例では、「レスポンス」が重要キーワードとして抽出される可能性がある。
The
ここで、会話分析装置100は、画像データから顧客と接客担当者それぞれの動作を検出することになる。検出すべき動作は、表情の変化、頭部や腕や足のジェスチャ、視線の変更、姿勢の変更など、視認可能な身体的動作である。表情の変化には笑うことが含まれる。頭部のジェスチャにはうなずくことが含まれる。視線の変更には相手の頭部を見ることが含まれる。姿勢の変更には前のめりになることが含まれる。
Here, the
会話分析装置100は、画像認識により画像データから顧客と接客担当者を認識する。例えば、会話分析装置100には接客担当者の容姿の特徴情報が予め登録されており、その特徴情報に基づいて接客担当者が認識される。その場合、接客担当者以外の人物が顧客として認識される。また、会話分析装置100は、画像認識により画像データから顧客と接客担当者それぞれの動作の種類を認識する。このとき、うなずきの大きさや腕のジェスチャの大きさなど、動作の大きさを併せて認識してもよい。
The
動作の検出には、特許文献2(特開2015−64827号公報)に記載された技術を用いてもよい。例えば、表情について、会話分析装置100は、画像データの各フレームから目と口の輪郭を抽出し、フレーム間における輪郭の変化から表情の変化を判定する。また、例えば、うなずきについて、会話分析装置100は、画像データの各フレームから目と鼻と口の位置を抽出し、フレーム間における目と鼻と口の位置の変化からうなずきを判定する。動作の大きさは、その変化量から判定することができる。
The technique described in Patent Document 2 (JP-A-2015-64827) may be used to detect the motion. For example, regarding facial expressions, the
また、会話分析装置100は、音声認識により音声データからキーワードを認識する。このとき、会話分析装置100は、顧客の発話と接客担当者の発話とを区別して認識してもよいし、両者を区別せずに認識してもよい。顧客の発話と接客担当者の発話とを区別する方法として、例えば、接客担当者の声質の特徴情報を予め会話分析装置100に登録しておき、異なる2つの声質の発話のうち接客担当者の発話を先に判定して他方の発話を顧客の発話とみなす方法が考えられる。また、顧客の発話と接客担当者の発話とを区別する方法として、例えば、録音時の音声の到来方向から判定する方法も考えられる。
Further, the
キーワードの検出には、特許文献1(特開2010−224715号公報)に記載された技術を用いてもよい。例えば、会話分析装置100には、顧客の共感度に影響を与える可能性がある検索対象キーワードが予め登録されている。会話分析装置100は、音声データが示す音声波形をフーリエ変換などにより音声特徴情報に変換し、予め用意した音声認識モデルに音声特徴情報を入力して単語列に変換し、単語列の中から検索対象キーワードを検索する。ただし、会話分析装置100は、発話全体を単語列に変換せずに、ワードスポッティングにより検索対象キーワードのみを直接検出してもよい。
The technique described in Patent Document 1 (Japanese Patent Laid-Open No. 2010-224715) may be used for detecting the keyword. For example, in the
次に、キーワード評価値の算出方法について説明する。
図5は、キーワード評価値の算出例を示す図である。
まず、会話分析装置100は、顧客と接客担当者を録画した画像データを用いて、所定の時間間隔でシーン評価値を算出する。第2の実施の形態では、シーン評価値は顧客と接客担当者との間のその時点の会話の盛り上がりを示しており、顧客の共感度に相当する。シーン評価値が大きいほど会話の盛り上がりが大きく、共感度が大きいと推定される。シーン評価値が小さいほど会話の盛り上がりが小さく、共感度が小さいと推定される。
Next, a method of calculating the keyword evaluation value will be described.
FIG. 5 is a diagram illustrating a calculation example of the keyword evaluation value.
First, the
そして、会話分析装置100は、音声データから抽出されたキーワードについて、当該キーワードが発せられた時刻の周辺のシーン評価値を用いてキーワード評価値を算出する。キーワード評価値が大きいキーワードほど、顧客の共感を得られたキーワードである可能性が高い。キーワード評価値が小さいキーワードほど、顧客の共感を得られなかったキーワードである可能性が高い。会話分析装置100は、キーワード評価値が閾値T1を超えるキーワードを重要キーワードとして抽出する。また、会話分析装置100は、キーワード評価値が閾値T2未満のキーワードも重要キーワードとして抽出する。
Then, the
シーン評価値の算出では、会話分析装置100は、ある時刻を中心にして時間S0前から時間S0後までの区間(前後の時間S0の区間)をスライディングウィンドウ81として設定する。スライディングウィンドウ81の位置は、時間Δtずつずらしていくことになる。時間Δtは、例えば、1フレーム時間から1秒程度とする。時間S0は、例えば、1分から2分程度とする。スライディングウィンドウ81の中心時刻に対して1つのシーン評価値が算出されるため、時間Δt間隔でシーン評価値が算出されることになる。
In the calculation of the scene evaluation value, the
スライディングウィンドウ81の中で、接客担当者が動作を行った時刻をF(x)とし、時刻F(x)における動作の重みをw(x)とする。重みw(x)は、時刻F(x)の直前の時間S1の間における顧客の動作に基づいて決定される。時間S1は、例えば、1秒から2秒程度である。直前の時間S1の間に顧客が動作を行っていない場合は重みw(x)=w1とし、直前の時間S1の間に顧客が動作を行っている場合は重みw(x)=w2とする。ただし、重みw1と重みw2の大小関係は、w1>w2である。
In the sliding
また、スライディングウィンドウ81に属する各動作を、顧客の同期の有無に応じて集合r1,r2に分類する。時刻F(x)の直後の時間S2の間に顧客が同じ種類の動作を行っている場合、すなわち、同期ありの場合、接客担当者の動作は集合r1に分類される。直後の時間S2の間に顧客が同じ種類の動作を行っていない場合、すなわち、同期なしの場合、接客担当者の動作は集合r2に分類される。時間S2は、例えば、1秒から2秒程度であり時間S1と同じでもよい。また、下記で使用する係数aの値を予め決めておく。係数aの値は1未満の実数(a<1)であり、負の値であってもよい。
Further, each operation belonging to the sliding
このようなスライディングウィンドウ81から、例えば、中心時刻のシーン評価値Vtは数式(1)のように算出される。すなわち、集合r1に属する動作の重みと、集合r2に属する動作の重みに係数aを乗じたものについての平均値が、シーン評価値となる。係数aの値は1未満であるため、スライディングウィンドウ81に属する接客担当者の動作のうち、顧客の動作と同期しているものの割合が高いほど、シーン評価値は大きくなる。
From such a sliding
ただし、接客担当者の動作と顧客の動作とが同期している場合に、接客担当者の動作から顧客の動作までの遅延時間を更に考慮してシーン評価値を算出することも可能である。時刻F(x)からの遅延時間をE(x)とし、係数bの値を予め決めておく。係数bの値は正の実数である。この場合、例えば、中心時刻のシーン評価値Vtは数式(2)のように算出される。数式(2)では、集合r1に属する動作の重みが遅延時間E(x)と係数bによって補正される。スライディングウィンドウ81において、接客担当者の動作から顧客の動作までの遅延時間が短いほど、シーン評価値は大きくなる。
However, when the action of the customer service representative and the action of the customer are synchronized, the scene evaluation value can be calculated by further considering the delay time from the action of the customer service representative to the action of the customer. The delay time from time F (x) is E (x), and the value of the coefficient b is predetermined. The value of the coefficient b is a positive real number. In this case, for example, the scene evaluation value Vt at the central time is calculated as in Expression (2). In Expression (2), the weight of the operation belonging to the set r1 is corrected by the delay time E (x) and the coefficient b. In the sliding
また、接客担当者の動作と顧客の動作とが同期している場合に、顧客の動作の大きさを更に考慮してシーン評価値を算出することも可能である。接客担当者の動作と同期する顧客の動作の大きさをD(x)とし、係数cの値を予め決めておく。大きさD(x)は、頭部の位置の変化量や腕の移動量など、画像データから認識される単位時間当たりの位置の変化量を示し、変化量が大きいほどD(x)も大きい値をとる。係数cの値は正の実数である。この場合、例えば、中心時刻のシーン評価値Vtは数式(3)のように算出される。数式(3)では、集合r1に属する動作の重みが大きさD(x)と係数cによって補正される。スライディングウィンドウ81において、接客担当者の動作と同期する顧客の動作が大きいほど、シーン評価値は大きくなる。なお、数式(3)では遅延時間E(x)も考慮しているが、遅延時間E(x)を考慮しないようにしてもよい。
Further, when the action of the customer service person and the action of the customer are synchronized, the scene evaluation value can be calculated by further considering the magnitude of the action of the customer. The value of the coefficient c is determined in advance, where D (x) is the magnitude of the customer's action synchronized with the action of the customer service representative. The size D (x) indicates the amount of change in the position per unit time that is recognized from the image data, such as the amount of change in the position of the head or the amount of movement of the arm. Takes a value. The value of the coefficient c is a positive real number. In this case, for example, the scene evaluation value Vt at the central time is calculated as in Expression (3). In Expression (3), the weight of the motion belonging to the set r1 is corrected by the magnitude D (x) and the coefficient c. In the sliding
キーワード評価値の算出では、会話分析装置100は、キーワードが発せられた時刻G(y)を中心にして時間S3前から時間S3後までの区間(前後の時間S3の区間)をウィンドウ82として設定する。時間S3は、例えば、2分から数分程度とする。一区切りの会話(例えば、一人の顧客に対する接客が始まってから終了するまでの一連の会話)の中で、同じキーワードが複数回発せられることがある。ここでは、1つのキーワードに着目し、一区切りの会話の中で当該キーワードがY+1回発せられたとする。ウィンドウ82は、y=0,1,…,Yそれぞれに対して設定される。
In the calculation of the keyword evaluation value, the
着目するキーワードの1回の出現に対して、ウィンドウ82の範囲内にあるシーン評価値の平均値をH(y)とする。すると、例えば、一区切りの会話における当該キーワードのキーワード評価値Vkは数式(4)のように算出される。すなわち、キーワードが発せられた各時刻の周辺のキーワード評価値の平均値を、当該キーワードの複数回の出現の間で平均化したものが、当該キーワードのキーワード評価値となる。
Let H (y) be the average value of the scene evaluation values within the range of the
キーワード評価値が閾値T1を超える場合、当該キーワードは重要キーワードである。また、キーワード評価値が閾値T2未満である場合、当該キーワードは重要キーワードである。会話分析装置100は、抽出した重要キーワードを管理装置41に送信する。管理装置41は、会話分析装置100から受信した重要キーワードの全部または一部をディスプレイに表示する。例えば、管理装置41は、受信した重要キーワードのうちキーワード評価値が大きい方からN個(上位N件)の重要キーワードを表示する。また、管理装置41は、受信した重要キーワードのうちキーワード評価値が小さい方からN個(下位N件)の重要キーワードを表示する。Nは予め決めておく1以上の整数である。ただし、会話分析装置100が、重要キーワードを上位N件と下位N件に絞り込んでもよい。
When the keyword evaluation value exceeds the threshold value T1, the keyword is an important keyword. When the keyword evaluation value is less than the threshold value T2, the keyword is an important keyword. The
次に、会話分析装置100の機能および処理手順について説明する。
図6は、第2の実施の形態の会話分析装置の機能例を示すブロック図である。
会話分析装置100は、音声記憶部121、画像記憶部122、キーワード記憶部123および評価結果記憶部124を有する。これらの記憶部は、例えば、RAM102またはHDD103の記憶領域を用いて実現される。また、会話分析装置100は、キーワード検出部125、動作検出部126、シーン評価部127およびキーワード評価部128を有する。これらの処理部は、例えば、プログラムを用いて実現される。
Next, the function and processing procedure of the
FIG. 6 is a block diagram showing a functional example of the conversation analysis device according to the second embodiment.
The
音声記憶部121は、カメラ装置50から受信した音声信号を含む音声データを記憶する。画像記憶部122は、カメラ装置50から受信した画像信号を含む画像データを記憶する。キーワード記憶部123は、検索対象キーワードを記憶する。検索対象キーワードは予め指定されている。管理者が検索対象キーワードを追加または削除できるようにしてもよい。評価結果記憶部124は、キーワードの評価結果を記憶する。評価結果は、音声データから抽出された重要キーワードとその順位とを含む。
The
キーワード検出部125は、音声記憶部121に記憶された音声データを、音声認識により単語列に変換する。キーワード検出部125は、キーワード記憶部123に記憶された検索対象キーワードを単語列の中から検出する。キーワードの検出結果は、検出したキーワードと当該キーワードが出現する時刻とを含む。
The
動作検出部126は、画像記憶部122に記憶された画像データに含まれる各フレームから、画像認識により顧客と接客担当者を認識する。動作検出部126は、各フレームから接客担当者が写った領域の特徴情報を抽出し、フレーム間の特徴情報の変化に基づいて接客担当者の動作を検出する。また、動作検出部126は、各フレームから顧客が写った領域の特徴情報を抽出し、フレーム間の特徴情報の変化に基づいて顧客の動作を検出する。動作の検出結果は、時刻と動作主体と動作の種類と動作の大きさを含む。
The
シーン評価部127は、動作検出部126による動作の検出結果を用いて、時間Δt間隔でシーン評価値を算出する。前述のように、シーン評価部127は、接客担当者の動作時刻を基準にして、その直前の時間S1の間に顧客の動作が生じているか否か、および、その直後の時間S2の間に同じ種類の顧客の動作が生じているか否かを判定する。シーン評価部127は、このような接客担当者の動作と顧客の動作の間の同期状況に基づいてシーン評価値を算出する。同期状況の評価では、接客担当者の動作から顧客の動作までの遅延時間や、顧客の動作の大きさを更に考慮してもよい。シーン評価結果は、複数の時刻と当該複数の時刻に対応する複数のシーン評価値とを含む。
The
キーワード評価部128は、キーワード検出部125によるキーワードの検出結果とシーン評価部127によるシーン評価結果を用いて、検出されたキーワードそれぞれのキーワード評価値を算出する。前述のように、キーワード評価部128は、キーワード毎に当該キーワードの1回以上の出現時刻を抽出し、出現時刻毎に周辺時刻のシーン評価値を平均化し、1回以上の出現時刻の間で更に平均化してキーワード評価値とする。
The
キーワード評価部128は、キーワード評価値が閾値T1を超えるキーワードと閾値T2未満のキーワードを重要キーワードとして抽出する。そして、キーワード評価部128は、抽出した重要キーワードとキーワード評価値によって決まる順位(ベスト1、ベスト2、ワースト1、ワースト2など)を評価結果として評価結果記憶部124に格納する。キーワード評価部128は、評価結果を管理装置41に送信する。
The
図7は、会話分析装置が保持するテーブルの例を示す第1の図である。
キーワードテーブル131は、キーワード記憶部123に記憶される。キーワードテーブル131には、検索対象キーワードとして指定されたキーワードの文字列が登録される。音声データが示す発話の中から、キーワードテーブル131に登録されたキーワードのみが抽出され、それ以外の単語は抽出されない。
FIG. 7 is a first diagram showing an example of a table held by the conversation analysis device.
The keyword table 131 is stored in the
キーワード検出テーブル132は、キーワード検出部125によって生成される。キーワード検出テーブル132は、RAM102またはHDD103に保存されてもよい。キーワード検出テーブル132は、時刻およびキーワードの項目を含む。時刻の項目には、キーワードテーブル131に登録された何れかのキーワードが発せられた時刻が登録される。キーワードの項目には、当該発せられたキーワードが登録される。なお、顧客による発話と接客担当者による発話とを区別して認識する場合、キーワード検出テーブル132は、話者を示す項目を更に含んでもよい。話者は顧客または接客担当者である。
The keyword detection table 132 is generated by the
動作検出テーブル133は、動作検出部126によって生成される。動作検出テーブル133は、RAM102またはHDD103に保存されてもよい。動作検出テーブル133は、時刻、動作主体、種類および大きさの項目を含む。時刻の項目には、動作が行われた時刻が登録される。動作主体の項目には、動作を行った主体として「顧客」または「接客担当者」が登録される。種類の項目には、「笑う」や「うなずく」などの動作の種類が登録される。大きさの項目には、動作の大きさを示す数値が登録される。
The motion detection table 133 is generated by the
図8は、会話分析装置が保持するテーブルの例を示す第2の図である。
シーン評価テーブル134は、シーン評価部127によって生成される。シーン評価テーブル134は、RAM102またはHDD103に保存されてもよい。シーン評価テーブル134は、時刻および評価値の項目を含む。時刻の項目には、会話の盛り上がりの程度が評価された時刻、すなわち、顧客の共感度が評価された時刻が登録される。評価値の項目には、算出されたシーン評価値が登録される。
FIG. 8 is a second diagram showing an example of a table held by the conversation analysis device.
The scene evaluation table 134 is generated by the
キーワード評価テーブル135は、キーワード評価部128によって生成される。キーワード評価テーブル135は、RAM102またはHDD103に保存されてもよい。キーワード評価テーブル135は、キーワードおよび評価値の項目を含む。キーワードの項目には、キーワード検出テーブル132に出現するキーワードが登録される。評価値の項目には、算出されたキーワード評価値が登録される。
The keyword evaluation table 135 is generated by the
重要キーワードテーブル136は、評価結果記憶部124に記憶される。重要キーワードテーブル136は、順位およびキーワードの項目を含む。順位の項目には、ベスト1、ベスト2、ワースト1、ワースト2など、キーワード評価値によって決まる重要キーワードの順位が登録される。キーワードの項目には、キーワード評価テーブル135に登録されたキーワードのうちキーワード評価値に基づいて選択された重要キーワードが登録される。重要キーワードテーブル136の内容が管理装置41に送信される。
The important keyword table 136 is stored in the evaluation
図9は、第2の実施の形態の会話分析の手順例を示すフローチャートである。
(S10)動作検出部126は、画像記憶部122から画像データを読み出す。読み出す画像データは、処理済みの画像データの次の一定時間分の画像データである。また、キーワード検出部125は、音声記憶部121から音声データを読み出す。読み出す音声データは、処理済みの音声データの次の一定時間分の音声データである。
FIG. 9 is a flowchart showing a procedure example of conversation analysis according to the second embodiment.
(S10) The
(S11)キーワード検出部125は、ステップS10で読み出した音声データを音声認識により単語列に変換する。キーワード検出部125は、変換した単語列から、キーワードテーブル131に登録された検索対象キーワードを検索し、検索されたキーワードおよび当該キーワードの出現時刻を示すキーワード検出テーブル132を生成する。
(S11) The
(S12)動作検出部126は、ステップS10で読み出した画像データに含まれる各フレームから、画像認識により顧客が写った領域および接客担当者が写った領域を認識する。動作検出部126は、フレーム間の位置変化から顧客の動作の種類、動作時刻および動作の大きさを検出する。また、動作検出部126は、フレーム間の位置変化から接客担当者の動作の種類、動作時刻および動作の大きさを検出する。動作検出部126は、これらの検出した情報を含む動作検出テーブル133を生成する。
(S12) The
(S13)シーン評価部127は、ステップS12で生成された動作検出テーブル133から接客担当者の動作時刻を抽出する。
(S14)シーン評価部127は、ステップS13で抽出した接客担当者の動作時刻それぞれについて、直前の顧客動作を動作検出テーブル133から検索して顧客動作の有無を判定し、顧客動作の有無に応じた重みを決定する。具体的には、シーン評価部127は、直前の時間S1の間に顧客の動作がない場合は重みw1を選択し、直前の時間S1の間に顧客の動作がある場合は重みw1より小さい重みw2を選択する。
(S13) The
(S14) The
(S15)シーン評価部127は、ステップS13で抽出した接客担当者の動作時刻それぞれについて、直後の顧客動作を動作検出テーブル133から検索して同じ種類の顧客動作による同期の有無を判定し、同期の有無に応じた係数を決定する。具体的には、同期がある場合、すなわち、直後の時間S2の間に同じ種類の顧客動作がある場合、シーン評価部127は係数=1を選択する。一方、同期がない場合、すなわち、直後の時間S2の間に同じ種類の顧客動作がない場合、シーン評価部127は係数=aを選択する。これらの係数は重みに乗じる値であり、a<1である。
(S15) The
(S16)シーン評価部127は、時間S0×2の時間幅をもつスライディングウィンドウを設定する。シーン評価部127は、スライディングウィンドウに属する接客担当者の動作に対して算出したステップS14,S15の重みおよび係数を用いて、スライディングウィンドウの中心時刻におけるシーン評価値を算出する。このシーン評価値は顧客の共感度を表している。シーン評価部127は、スライディングウィンドウを時間Δtずつスライドさせることで、時間Δt間隔でシーン評価値を算出する。シーン評価部127は、複数の時刻それぞれのシーン評価値を示すシーン評価テーブル134を生成する。
(S16) The
(S17)動作検出部126は、画像データが終了したか判断する。キーワード検出部125は、音声データが終了したか判断する。例えば、一人の顧客に対する接客が終了したときに画像データと音声データが終了する。画像データと音声データが終了した場合はステップS18に進み、終了していない場合はステップS10に進む。
(S17) The
(S18)キーワード評価部128は、ステップS11で生成されたキーワード検出テーブル132からキーワードの出現時刻を抽出する。キーワード評価部128は、キーワードの出現時刻それぞれについて、ステップS16で生成されたシーン評価テーブル134から、当該出現時刻の直前の時間S3および直後の時間S3に属する周辺のシーン評価値を検索する。キーワード評価部128は、周辺のシーン評価値の平均値を算出する。
(S18) The
(S19)キーワード評価部128は、ステップS18で算出されたシーン評価値の平均値をキーワードの同一性に応じて分類する。キーワード評価部128は、キーワード毎にシーン評価値の平均値を更に平均化してキーワード評価値を算出する。キーワード評価部128は、キーワード評価値を示すキーワード評価テーブル135を生成する。
(S19) The
(S20)キーワード評価部128は、ステップS19で生成されたキーワード評価テーブル135から、キーワード評価値が閾値T1を超えるキーワードおよびキーワード評価値が閾値T2未満のキーワードを重要キーワードとして抽出する。キーワード評価部128は、抽出した重要キーワードとその順位を示す重要キーワードテーブル136を生成して評価結果記憶部124に格納する。キーワード評価部128は、重要キーワードテーブル136の内容を管理装置41に送信する。管理装置41は、重要キーワードテーブル136の内容に基づいて、上位N件および下位N件の重要キーワードを表示する。
(S20) The
第2の実施の形態の情報処理システムによれば、音声データからキーワードが検出され、画像データから顧客の動作と接客担当者の動作が検出される。接客担当者が先に動作を行い、その直後に顧客が同じ種類の動作を行ったという同期が検出され、動作の同期に基づいて顧客の共感度を示すシーン評価値が算出され、キーワードの周辺時刻のシーン評価値からキーワード評価値が算出される。そして、キーワード評価値が高い好ましいキーワードとキーワード評価値が低い要注意のキーワードが抽出されて管理者に報告される。 According to the information processing system of the second embodiment, the keyword is detected from the voice data, and the motion of the customer and the motion of the customer service representative are detected from the image data. The customer service person first performed the action, and immediately after that, the synchronization that the customer performed the same type of action was detected, and the scene evaluation value indicating the customer's empathy was calculated based on the action synchronization, and the vicinity of the keyword was calculated. A keyword evaluation value is calculated from the time scene evaluation value. Then, the preferred keyword having a high keyword evaluation value and the caution keyword having a low keyword evaluation value are extracted and reported to the administrator.
これにより、顧客の心理状態に対してポジティブな影響を与えた可能性の高い重要キーワードと、顧客の心理状態に対してネガティブな影響を与えた可能性の高い重要キーワードとを推定でき、接客担当者の接客スキルの改善を支援することができる。また、接客担当者の動作と顧客の動作の同期状況からキーワードを評価するため、キーワードの出現回数から評価する方法などと比べて、顧客の心理状態を反映した重要キーワードを精度よく抽出することができる。また、接客担当者の動作の直前に顧客が動作を行っておらず、接客担当者の動作の直後に顧客が同じ種類の動作を行ったという条件を判定するため、接客を受ける顧客の心理状態を精度よく推定することができる。 This makes it possible to estimate important keywords that are likely to have had a positive impact on the customer's psychological state and important keywords that are likely to have had a negative impact on the customer's psychological state. Can improve the customer service skill of the person. In addition, since the keywords are evaluated based on the synchronization of the behavior of the customer service representative and the behavior of the customer, it is possible to extract the important keywords that reflect the psychological state of the customer more accurately than the method of evaluating the appearance frequency of the keywords. it can. In addition, the customer's psychological state of the customer who receives the service is determined in order to determine the condition that the customer did not perform the operation immediately before the operation of the customer service representative and the customer performed the same type of operation immediately after the operation of the service representative. Can be accurately estimated.
[第3の実施の形態]
次に、第3の実施の形態を説明する。第2の実施の形態との違いを中心に説明し、第2の実施の形態と同様の内容については説明を省略することがある。第3の実施の形態の情報処理システムは、会話分析装置100の配置が第2の実施の形態と異なる。
[Third Embodiment]
Next, a third embodiment will be described. The description will focus on the differences from the second embodiment, and the description of the same contents as those of the second embodiment may be omitted. The information processing system of the third embodiment is different from that of the second embodiment in the arrangement of the
図10は、第3の実施の形態の情報処理システムの例を示す図である。
第3の実施の形態の情報処理システムは、第2の実施の形態と同様に、管理装置41、カメラ装置50および会話分析装置100を含む。ただし、第3の実施の形態では、カメラ装置50はネットワーク40に接続されており、会話分析装置100はネットワーク40経由でカメラ装置50と通信するサーバ装置として動作する。カメラ装置50は、音声信号と画像信号をネットワーク40経由で会話分析装置100に送信する。第3の実施の形態の情報処理システムによれば、第2の実施の形態と同様の効果が得られる。
FIG. 10 is a diagram illustrating an example of the information processing system according to the third embodiment.
The information processing system according to the third embodiment includes a
[第4の実施の形態]
次に、第4の実施の形態を説明する。第2の実施の形態との違いを中心に説明し、第2の実施の形態と同様の内容については説明を省略することがある。第4の実施の形態の情報処理システムは、接客担当者が遠隔で顧客を接客する業務に適用される。
[Fourth Embodiment]
Next, a fourth embodiment will be described. The description will focus on the differences from the second embodiment, and the description of the same contents as those of the second embodiment may be omitted. The information processing system according to the fourth embodiment is applied to a business where a customer service representative remotely serves a customer.
図11は、第4の実施の形態の情報処理システムの例を示す図である。
第4の実施の形態の情報処理システムは、ユーザ装置42、カメラ装置50,60および会話分析装置100を含む。ユーザ装置42にはカメラ装置60が接続されている。会話分析装置100にはカメラ装置50が接続されている。ユーザ装置42および会話分析装置100はネットワーク40に接続されている。
FIG. 11 is a diagram illustrating an example of the information processing system according to the fourth embodiment.
The information processing system according to the fourth embodiment includes a
ユーザ装置42は、顧客の自宅など会話分析装置100とは異なる場所に設置され、顧客が使用する端末装置である。会話分析装置100は、オフィスなどに設置され、接客担当者が使用する端末装置である。カメラ装置50,60は、イメージセンサを用いた動画撮影機能およびマイクロフォンを用いた音声録音機能をもつデバイス装置である。カメラ装置50は、接客担当者を撮影し接客担当者の発話を録音するよう設定されている。カメラ装置60は、顧客を撮影し顧客の発話を録音するよう設置されている。
The
ユーザ装置42は、顧客を撮影した画像データおよび顧客の音声を録音した音声データを収集し、ネットワーク40を介して会話分析装置100に送信する。また、ユーザ装置42は、接客担当者を撮影した画像データおよび接客担当者の音声を録音した音声データを、ネットワーク40を介して会話分析装置100から受信する。ユーザ装置42は、受信した画像データに基づいて接客担当者の映像をディスプレイに表示し、受信した音声データに基づいて接客担当者の発話をスピーカから再生する。
The
会話分析装置100は、接客担当者の画像データおよび接客担当者の音声データを収集し、ネットワーク40を介してユーザ装置42に送信する。また、会話分析装置100は、顧客の画像データおよび顧客の音声データを、ネットワーク40を介してユーザ装置42から受信する。会話分析装置100は、受信した画像データに基づいて顧客の映像をディスプレイに表示し、受信した音声データに基づいて顧客の発話をスピーカから再生する。これにより、顧客と接客担当者がテレビ会議方式で会話することができる。
The
また、会話分析装置100は、顧客の画像データ、接客担当者の画像データ、顧客の音声データおよび接客担当者の音声データに基づいて、第2の実施の形態と同様に顧客と接客担当者との間の会話を分析する。すなわち、会話分析装置100は、音声データから顧客または接客担当者が発したキーワードを検出し、画像データから会話中の顧客の動作および接客担当者の動作を検出する。会話分析装置100は、顧客と接客担当者の動作からキーワードを評価して重要キーワードを抽出する。会話分析装置100は、抽出した重要キーワードのうち上位N件および下位N件の重要キーワードをディスプレイに表示する。
Further, the
ただし、会話分析装置100は、ネットワーク40を介して管理装置41に重要キーワードを送信するようにしてもよい。また、接客担当者が接客に使用する端末装置と会話分析装置100とを分離するようにしてもよい。第4の実施の形態の情報処理システムによれば、遠隔での接客についても第2の実施の形態と同様の効果が得られる。
However, the
[第5の実施の形態]
次に、第5の実施の形態を説明する。第2の実施の形態との違いを中心に説明し、第2の実施の形態と同様の内容については説明を省略することがある。第2の実施の形態では、顧客の動作と接客担当者の動作の同期状況から顧客の共感度を推定し、顧客の共感度に応じてキーワードの重要度を評価した。これに対して第5の実施の形態では、顧客の動作と接客担当者の動作の同期状況から接客担当者の接客度を推定し、接客担当者の接客度に応じてキーワードの重要度を評価する。接客度は、接客の積極性や熱心さや丁寧さなどを含む接客姿勢を表している。第5の実施の形態で算出されるシーン評価値は接客担当者の接客度に対応し、第5の実施の形態で算出されるキーワード評価値は顧客または接客担当者がキーワードを発したときの接客度を反映している。よって、第5の実施の形態で抽出される重要キーワードは、良い接客との関連が大きいと推定されるキーワードや悪い接客との関連が大きいと推定されるキーワードである。第5の実施の形態で抽出される重要キーワードは、接客担当者の心理状態を反映していると言うこともできる。
[Fifth Embodiment]
Next, a fifth embodiment will be described. The description will focus on the differences from the second embodiment, and the description of the same contents as those of the second embodiment may be omitted. In the second embodiment, the customer's co-sensitivity is estimated from the synchronization of the customer's behavior and the customer service representative's behavior, and the importance of the keyword is evaluated according to the customer's co-sensitivity. On the other hand, in the fifth embodiment, the degree of customer service of the customer service representative is estimated from the synchronization status of the behavior of the customer and the operation of the customer service representative, and the importance of the keyword is evaluated according to the degree of customer service of the customer service representative. To do. The degree of customer service represents a customer service attitude that includes customer service aggressiveness, enthusiasm, and politeness. The scene evaluation value calculated in the fifth embodiment corresponds to the degree of customer service of the customer service representative, and the keyword evaluation value calculated in the fifth embodiment is when the customer or the customer service engineer utters a keyword. It reflects the degree of customer service. Therefore, the important keywords extracted in the fifth embodiment are keywords that are estimated to be highly related to good customer service and keywords that are estimated to be highly related to bad customer service. It can be said that the important keyword extracted in the fifth embodiment reflects the psychological state of the customer service representative.
第5の実施の形態の情報処理システムは、図2,3,6〜8に示した第2の実施の形態の情報処理システムと同様の構成によって実現できる。そこで、以下では第5の実施の形態を、図2,3,6〜8と同様の符号を用いて説明することがある。なお、第5の実施の形態の情報処理システムを、図10に示した第3の実施の形態の情報処理システムと同様のシステム構成とすることも可能であり、図11に示した第4の実施の形態の情報処理システムと同様のシステム構成とすることも可能である。 The information processing system of the fifth embodiment can be realized by the same configuration as the information processing system of the second embodiment shown in FIGS. Therefore, in the following, the fifth embodiment may be described using the same reference numerals as those in FIGS. 2, 3, 6 to 8. The information processing system according to the fifth embodiment may have the same system configuration as the information processing system according to the third embodiment shown in FIG. 10, and the fourth embodiment shown in FIG. It is also possible to adopt a system configuration similar to that of the information processing system of the embodiment.
図12は、第5の実施の形態のキーワード抽出例を示す図である。
第5の実施の形態では、顧客の動作と接客担当者の動作との間の同期を検出する。第5の実施の形態の同期は、顧客から動作を開始し、その直後に接客担当者が同じ種類の動作を行ったという動作の連鎖である。第5の実施の形態で検出する同期は、動作の順序が異なる点で第2の実施の形態の同期と異なる。この場合、接客担当者は顧客を注意深く見ており、顧客の話を注意深く聞いていると推定される。よって、このような同期が発生しているときに顧客または接客担当者が発したキーワードは、良い接客と関連のあるキーワードである可能性がある。一方、このような同期が発生していないときに顧客または接客担当者が発したキーワードは、悪い接客と関連のあるキーワードである可能性がある。
FIG. 12 is a diagram showing an example of keyword extraction according to the fifth embodiment.
In the fifth embodiment, the synchronization between the movement of the customer and the movement of the customer service person is detected. The synchronization according to the fifth embodiment is a chain of operations in which an operation is started by a customer, and immediately after that, a customer service person performs the same kind of operation. The synchronization detected in the fifth embodiment differs from the synchronization in the second embodiment in that the order of operations is different. In this case, it is presumed that the customer service representative watches the customer carefully and listens carefully to the customer. Therefore, the keyword issued by the customer or the person in charge of customer service during such synchronization may be a keyword associated with good customer service. On the other hand, a keyword issued by a customer or a person in charge of customer service when such synchronization has not occurred may be a keyword associated with bad customer service.
例えば、以下に説明するシーン74〜76を考える。
シーン74では、接客担当者が笑うという動作を行い、その直後に顧客が笑うという動作を行っている。シーン74は、図4のシーン71に対応する。顧客の動作の直前の時間S1以内に接客担当者は動作を行っており、顧客の動作の直後の時間S2以内に接客担当者は動作を行っていない。シーン74では、顧客から開始して顧客の動作と接客担当者の動作とが同期しているわけではなく、接客度が小さいと判定される。すると、シーン74の周辺で顧客または接客担当者が発した「速い」というキーワードの評価値は低くなる。
For example, consider scenes 74-76 described below.
In the
シーン75では、顧客が笑うという動作を行ったものの、顧客の動作の直前の時間S1以内に接客担当者は動作を行っておらず、顧客の動作の直後の時間S2以内にも接客担当者は動作を行っていない。シーン75では、顧客の動作と接客担当者の動作とが同期していないため、接客度が小さいと判定される。すると、シーン75の周辺で顧客または接客担当者が発した「面白い」というキーワードの評価値は低くなる。
In the
シーン76では、顧客がうなずくという動作を行い、その直後に接客担当者がうなずくという動作を行っている。シーン76は、図4のシーン73に対応する。顧客の動作の直前の時間S1以内に接客担当者は動作を行っておらず、顧客の動作の直後の時間S2以内に接客担当者は同じ種類の動作を行っている。顧客から開始して顧客の動作と接客担当者の動作とが同期しているため、接客度が大きいと判定される。すると、シーン76の周辺で顧客または接客担当者が発した「きれい」というキーワードの評価値は高くなる。
In the
キーワード評価値が算出されると第2の実施の形態と同様に、会話分析装置100は、キーワード評価値が閾値T1より大きいキーワードを好ましいキーワードと推定し、重要キーワードとして抽出する。また、会話分析装置100は、キーワード評価値が閾値T2より小さいキーワードを要注意のキーワードと推定し、重要キーワードとして抽出する。上記の例では、「きれい」が重要キーワードとして抽出される可能性がある。
When the keyword evaluation value is calculated, as in the second embodiment, the
図13は、第5の実施の形態の会話分析の手順例を示すフローチャートである。
(S30)動作検出部126は、画像記憶部122から画像データを読み出す。また、キーワード検出部125は、音声記憶部121から音声データを読み出す。
FIG. 13 is a flowchart showing a procedure example of conversation analysis according to the fifth embodiment.
(S30) The
(S31)キーワード検出部125は、ステップS30で読み出した音声データを音声認識により単語列に変換する。キーワード検出部125は、変換した単語列から、キーワードテーブル131に登録された検索対象キーワードを検索し、検索されたキーワードおよび当該キーワードの出現時刻を示すキーワード検出テーブル132を生成する。
(S31) The
(S32)動作検出部126は、ステップS30で読み出した画像データに含まれる各フレームから、画像認識により顧客が写った領域および接客担当者が写った領域を認識する。動作検出部126は、フレーム間の位置変化から顧客の動作の種類、動作時刻および動作の大きさを検出する。また、動作検出部126は、フレーム間の位置変化から接客担当者の動作の種類、動作時刻および動作の大きさを検出する。動作検出部126は、これらの検出した情報を含む動作検出テーブル133を生成する。
(S32) The
(S33)シーン評価部127は、ステップS32で生成された動作検出テーブル133から顧客の動作時刻を抽出する。
(S34)シーン評価部127は、ステップS33で抽出した顧客の動作時刻それぞれについて、直前の接客担当者動作を動作検出テーブル133から検索して接客担当者動作の有無を判定し、接客担当者動作の有無に応じた重みを決定する。具体的には、シーン評価部127は、直前の時間S1の間に接客担当者の動作がない場合は重みw1を選択し、直前の時間S1の間に接客担当者の動作がある場合は重みw2を選択する。
(S33) The
(S34) The
(S35)シーン評価部127は、ステップS33で抽出した顧客の動作時刻それぞれについて、直後の接客担当者動作を動作検出テーブル133から検索して同じ種類の接客担当者動作による同期の有無を判定し、同期の有無に応じた係数を決定する。具体的には、同期がある場合、すなわち、直後の時間S2の間に同じ種類の接客担当者動作がある場合、シーン評価部127は係数=1を選択する。一方、同期がない場合、すなわち、直後の時間S2の間に同じ種類の接客担当者動作がない場合、シーン評価部127は係数=aを選択する。これらの係数は重みに乗じる値であり、a<1である。
(S35) The
(S36)シーン評価部127は、時間S0×2の時間幅をもつスライディングウィンドウを設定する。シーン評価部127は、スライディングウィンドウに属する顧客の動作に対して算出したステップS34,S35の重みおよび係数を用いて、スライディングウィンドウの中心時刻におけるシーン評価値を算出する。このシーン評価値は接客担当者の接客度を表している。シーン評価部127は、スライディングウィンドウを時間Δtずつスライドさせることで、時間Δt間隔でシーン評価値を算出する。シーン評価部127は、複数の時刻それぞれのシーン評価値を示すシーン評価テーブル134を生成する。
(S36) The
(S37)動作検出部126は、画像データが終了したか判断する。キーワード検出部125は、音声データが終了したか判断する。画像データと音声データが終了した場合はステップS38に進み、終了していない場合はステップS30に進む。
(S37) The
(S38)キーワード評価部128は、ステップS31で生成されたキーワード検出テーブル132からキーワードの出現時刻を抽出する。キーワード評価部128は、キーワードの出現時刻それぞれについて、ステップS36で生成されたシーン評価テーブル134から、当該出現時刻の直前の時間S3および直後の時間S3に属する周辺のシーン評価値を検索する。キーワード評価部128は、周辺のシーン評価値の平均値を算出する。
(S38) The
(S39)キーワード評価部128は、ステップS38で算出されたシーン評価値の平均値をキーワードの同一性に応じて分類する。キーワード評価部128は、キーワード毎にシーン評価値の平均値を更に平均化してキーワード評価値を算出する。キーワード評価部128は、キーワード評価値を示すキーワード評価テーブル135を生成する。
(S39) The
(S40)キーワード評価部128は、ステップS39で生成されたキーワード評価テーブル135から、キーワード評価値が閾値T1を超えるキーワードおよびキーワード評価値が閾値T2未満のキーワードを重要キーワードとして抽出する。キーワード評価部128は、抽出した重要キーワードとその順位を示す重要キーワードテーブル136を生成して評価結果記憶部124に格納する。キーワード評価部128は、重要キーワードテーブル136の内容を管理装置41に送信する。管理装置41は、重要キーワードテーブル136の内容に基づいて、上位N件および下位N件の重要キーワードを表示する。
(S40) The
第5の実施の形態の情報処理システムによれば、音声データからキーワードが検出され、画像データから顧客の動作と接客担当者の動作が検出される。顧客が先に動作を行い、その直後に接客担当者が同じ種類の動作を行ったという同期が検出され、動作の同期に基づいて接客度を示すシーン評価値が算出され、キーワードの周辺時刻のシーン評価値からキーワード評価値が算出される。そして、キーワード評価値が高い好ましいキーワードとキーワード評価値が低い要注意のキーワードが抽出されて管理者に報告される。 According to the information processing system of the fifth embodiment, the keyword is detected from the voice data, and the action of the customer and the action of the person in charge of customer service are detected from the image data. The synchronization that the customer performed the action first and the customer service representative performed the same type of action immediately after that was detected, and the scene evaluation value indicating the degree of customer service was calculated based on the synchronization of the action and the time around the keyword was calculated. A keyword evaluation value is calculated from the scene evaluation value. Then, the preferred keyword having a high keyword evaluation value and the caution keyword having a low keyword evaluation value are extracted and reported to the administrator.
これにより、接客担当者の良い接客姿勢と関連がある可能性の高い重要キーワードと、接客担当者の悪い接客姿勢と関連がある可能性の高い重要キーワードとを推定でき、接客担当者の接客スキルの改善を支援することができる。また、顧客の動作と接客担当者の動作の同期状況からキーワードを評価するため、キーワードの出現回数から評価する方法などと比べて、接客担当者の心理状態を反映した重要キーワードを精度よく抽出することができる。また、顧客の動作の直前に接客担当者が動作を行っておらず、顧客の動作の直後に接客担当者が同じ種類の動作を行ったという条件を判定するため、接客姿勢としての接客担当者の心理状態を精度よく推定することができる。 This makes it possible to estimate important keywords that are likely to be related to the good customer service attitude of the customer service staff and important keywords that are likely to be related to the bad customer service attitude of the customer service staff. Can help improve. Further, since the keyword is evaluated from the synchronization of the customer's action and the action of the customer service representative, the important keyword reflecting the psychological state of the customer service provider is extracted more accurately than the method of evaluating the keyword occurrence frequency. be able to. In addition, since the service representative does not perform the action immediately before the customer's action and the condition that the service representative has performed the same type of action immediately after the customer's action, the service representative in the service attitude is determined. Can be accurately estimated.
[第6の実施の形態]
次に、第6の実施の形態を説明する。第2の実施の形態との違いを中心に説明し、第2の実施の形態と同様の内容については説明を省略することがある。第2の実施の形態では、音声データから検出すべき検索対象キーワードは予め指定されていた。これに対して第6の実施の形態では、会話分析を通じて自動的に検索対象キーワードが追加されるようにし、手動で検索対象キーワードを指定する負担を軽減する。
[Sixth Embodiment]
Next, a sixth embodiment will be described. The description will focus on the differences from the second embodiment, and the description of the same contents as those of the second embodiment may be omitted. In the second embodiment, the search target keyword to be detected from the voice data is designated in advance. On the other hand, in the sixth embodiment, the search target keyword is automatically added through the conversation analysis, and the burden of manually specifying the search target keyword is reduced.
第6の実施の形態の情報処理システムは、図2に示した第2の実施の形態の情報処理システムと同様のシステム構成によって実現できる。第6の実施の形態の情報処理システムを、図10に示した第3の実施の形態の情報処理システムと同様のシステム構成とすることも可能であり、図11に示した第4の実施の形態の情報処理システムと同様のシステム構成とすることも可能である。ただし、会話分析装置100に代えて後述する会話分析装置200を使用する。第6の実施の形態の会話分析装置200は、図3に示した第2の実施の形態の情報処理システムと同様のハードウェア構成によって実現できる。なお、第5の実施の形態のように、接客度を反映した重要キーワードを抽出することも可能である。
The information processing system of the sixth embodiment can be realized by the same system configuration as the information processing system of the second embodiment shown in FIG. The information processing system according to the sixth embodiment may have the same system configuration as the information processing system according to the third embodiment shown in FIG. 10, and the information processing system according to the fourth embodiment shown in FIG. It is also possible to have a system configuration similar to that of the information processing system of the embodiment. However, instead of the
図14は、第6の実施の形態の会話分析装置の機能例を示すブロック図である。
会話分析装置200は、音声記憶部221、画像記憶部222、キーワード記憶部223および評価結果記憶部224を有する。これらの記憶部は、例えば、RAMまたはHDDの記憶領域を用いて実現される。また、会話分析装置200は、キーワード検出部225、動作検出部226、シーン評価部227、単語抽出部228およびキーワード評価部229を有する。これらの処理部は、例えば、プログラムを用いて実現される。
FIG. 14 is a block diagram showing a functional example of the conversation analysis device according to the sixth embodiment.
The
音声記憶部221は、カメラ装置50から受信した音声信号を含む音声データを記憶する。画像記憶部222は、カメラ装置50から受信した画像信号を含む画像データを記憶する。キーワード記憶部223は、図7に示したキーワードテーブル131を記憶する。キーワードテーブル131には、管理者などによって予め指定された検索対象キーワードが登録される。また、キーワードテーブル131には、キーワード評価部229によって自動的に追加された検索対象キーワードが登録される。評価結果記憶部224は、図8に示した重要キーワードテーブル136を記憶する。
The
キーワード検出部225は、音声記憶部221に記憶された音声データを、音声認識により単語列に変換する。キーワード検出部225は、キーワード記憶部223に記憶されたキーワードテーブル131が示す検索対象キーワードを単語列の中から検出し、図7に示したキーワード検出テーブル132を生成する。
The
動作検出部226は、画像記憶部222に記憶された画像データに含まれる各フレームから、画像認識により顧客と接客担当者を認識する。動作検出部226は、各フレームから接客担当者が写った領域の特徴情報を抽出し、フレーム間の特徴情報の変化に基づいて接客担当者の動作を検出する。また、動作検出部226は、各フレームから顧客が写った領域の特徴情報を抽出し、フレーム間の特徴情報の変化に基づいて顧客の動作を検出する。動作検出部226は、図7に示した動作検出テーブル133を生成する。
The
シーン評価部227は、動作検出テーブル133に基づいて、時間Δt間隔でシーン評価値を算出する。前述のように、シーン評価部227は、接客担当者の動作時刻を基準にして、その直前の時間S1の間に顧客の動作が生じているか否か、および、その直後の時間S2の間に同じ種類の顧客の動作が生じているか否かを判定する。シーン評価部227は、このような接客担当者の動作と顧客の動作の間の同期状況に基づいてシーン評価値を算出し、図8に示したシーン評価テーブル134を生成する。
The
単語抽出部228は、音声記憶部221に記憶された音声データを、音声認識により単語列に変換する。単語抽出部228は、キーワードテーブル131に登録されていない未登録単語を単語列の中から抽出する。ただし、日本語の助詞や助動詞など発話中に多数出現し得る汎用的単語(ストップワード)は除外する。未登録単語の抽出には、非特許文献1(「単語抽出による音声要約文生成法とその評価」)に記載された技術を用いてもよい。単語抽出部228は、未登録単語の抽出結果をキーワード評価部229に通知する。抽出結果は、抽出した未登録単語と当該未登録単語が出現する時刻とを含む。
The
キーワード評価部229は、キーワード検出テーブル132、シーン評価テーブル134および未登録単語の抽出結果に基づいて、キーワードおよび未登録単語それぞれの単語評価値を算出する。単語評価値の算出方法は、第2の実施の形態のキーワード評価値と同様である。すなわち、キーワードに対する単語評価値はキーワード評価値と同じであり、未登録単語に対する単語評価値はキーワード評価値と同様の方法で算出される。
The
よって、キーワード評価部229は、キーワード毎に当該キーワードの1回以上の出現時刻を抽出し、出現時刻毎に周辺時刻のシーン評価値を平均化し、1回以上の出現時刻の間で更に平均化して単語評価値とする。また、キーワード評価部229は、未登録単語毎に当該未登録単語の1回以上の出現時刻を抽出し、出現時刻毎に周辺時刻のシーン評価値を平均化し、1回以上の出現時刻の間で更に平均化して単語評価値とする。そして、キーワード評価部229は、図8に示したキーワード評価テーブル135と同様のデータ構造をもつ単語評価テーブルを生成する。単語評価テーブルには、キーワードに対する単語評価値と未登録単語に対する単語評価値の両方が記載される。
Therefore, the
キーワード評価部229は、キーワードのうち単語評価値が閾値T1を超えるキーワードと閾値T2未満のキーワードを重要キーワードとして抽出する。そして、キーワード評価部229は、図8に示した重要キーワードテーブル136を生成して評価結果記憶部224に格納し、重要キーワードテーブル136の内容を管理装置41に送信する。また、キーワード評価部229は、未登録単語のうち単語評価値が閾値T1を超える未登録単語と閾値T2未満の未登録単語を抽出する。キーワード評価部229は、抽出した未登録単語を検索対象キーワードとしてキーワードテーブル131に追加する。
The
図15は、第6の実施の形態の会話分析の手順例を示すフローチャートである。
(S50)動作検出部226は、画像記憶部222から画像データを読み出す。また、キーワード検出部225は、音声記憶部221から音声データを読み出す。また、単語抽出部228は、音声記憶部221から同じ音声データを読み出す。
FIG. 15 is a flowchart showing a procedure example of conversation analysis according to the sixth embodiment.
(S50) The
(S51)キーワード検出部225は、ステップS50で読み出した音声データを音声認識により単語列に変換し、キーワードテーブル131に登録された検索対象キーワードを単語列から検索し、キーワード検出テーブル132を生成する。また、単語抽出部228は、ステップS50で読み出した音声データを音声認識により単語列に変換し、キーワードテーブル131に登録されていない未登録単語を単語列から抽出する。
(S51) The
(S52)動作検出部226は、ステップS50で読み出した画像データに含まれる各フレームから、画像認識により顧客が写った領域および接客担当者が写った領域を認識する。動作検出部226は、フレーム間の位置変化から顧客の動作の種類、動作時刻および動作の大きさを検出する。また、動作検出部226は、フレーム間の位置変化から接客担当者の動作の種類、動作時刻および動作の大きさを検出する。動作検出部226は、これらの検出した情報を含む動作検出テーブル133を生成する。
(S52) The
(S53)シーン評価部227は、ステップS52で生成された動作検出テーブル133から接客担当者の動作時刻を抽出する。
(S54)シーン評価部227は、ステップS53で抽出した接客担当者の動作時刻それぞれについて、直前の顧客動作を動作検出テーブル133から検索して顧客動作の有無を判定し、顧客動作の有無に応じた重みを決定する。
(S53) The
(S54) The
(S55)シーン評価部227は、ステップS53で抽出した接客担当者の動作時刻それぞれについて、直後の顧客動作を動作検出テーブル133から検索して同じ種類の顧客動作による同期の有無を判定し、同期の有無に応じた係数を決定する。
(S55) The
(S56)シーン評価部227は、所定の時間幅をもつスライディングウィンドウを設定する。シーン評価部227は、スライディングウィンドウに属する接客担当者の動作に対して算出したステップS54,S55の重みおよび係数を用いて、スライディングウィンドウの中心時刻におけるシーン評価値を算出する。シーン評価部227は、スライディングウィンドウを時間Δtずつスライドさせてシーン評価テーブル134を生成する。
(S56) The
(S57)動作検出部226は、画像データが終了したか判断する。キーワード検出部225は、音声データが終了したか判断する。単語抽出部228は、音声データが終了したか判断する。画像データと音声データが終了した場合はステップS58に進み、終了していない場合はステップS50に進む。
(S57) The
(S58)キーワード評価部229は、ステップS51で生成されたキーワード検出テーブル132からキーワードの出現時刻を抽出する。キーワード評価部229は、キーワードの出現時刻それぞれについて、ステップS56で生成されたシーン評価テーブル134から、当該出現時刻の周辺のシーン評価値を検索し、周辺のシーン評価値の平均値を算出する。同様に、キーワード評価部229は、ステップS51の未登録単語の抽出結果から未登録単語の出現時刻を抽出する。キーワード評価部229は、未登録単語の出現時刻それぞれについて、シーン評価テーブル134から当該出現時刻の周辺のシーン評価値を検索し、周辺のシーン評価値の平均値を算出する。
(S58) The
(S59)キーワード評価部229は、キーワードについて、ステップS58で算出されたシーン評価値の平均値をキーワードの同一性に応じて分類し、キーワード毎にシーン評価値の平均値を更に平均化して単語評価値を算出する。同様に、キーワード評価部229は、未登録単語について、ステップS58で算出されたシーン評価値の平均値を未登録単語の同一性に応じて分類し、未登録単語毎にシーン評価値の平均値を更に平均化して単語評価値を算出する。キーワード評価部229は、キーワードおよび未登録単語の単語評価値を示す単語評価テーブルを生成する。
(S59) The
(S60)キーワード評価部229は、ステップS59で生成された単語評価テーブルから、単語評価値が閾値T1を超えるキーワードおよび単語評価値が閾値T2未満のキーワードを重要キーワードとして抽出する。キーワード評価部229は、抽出した重要キーワードとその順位を示す重要キーワードテーブル136を生成して評価結果記憶部224に格納する。キーワード評価部229は、重要キーワードテーブル136の内容を管理装置41に送信する。管理装置41は、重要キーワードテーブル136の内容に基づいて、上位N件および下位N件の重要キーワードを表示する。
(S60) The
(S61)キーワード評価部229は、ステップS59で生成された単語評価テーブルから、単語評価値が閾値T1を超える未登録単語および単語評価値が閾値T2未満の未登録単語を抽出する。キーワード評価部229は、抽出した未登録単語を新たな検索対象キーワードとしてキーワードテーブル131に追加する。
(S61) The
第6の実施の形態の情報処理システムによれば、第2の実施の形態と同様の効果が得られる。第6の実施の形態では更に、接客との関連が大きい可能性がある検索対象キーワードが、会話分析を通じて自動的に追加される。よって、検索対象キーワードを事前に網羅的に指定しておかなくてもよく、検索対象キーワードを指定する作業の負担を軽減できる。また、検索対象キーワードが自動的に学習されるため、会話から抽出される重要キーワードの精度が向上し、会話分析結果の有用性が向上する。 According to the information processing system of the sixth embodiment, the same effect as that of the second embodiment can be obtained. Further, in the sixth embodiment, search target keywords that may be highly related to customer service are automatically added through conversation analysis. Therefore, it is not necessary to comprehensively specify the search target keywords in advance, and the burden of the work of specifying the search target keywords can be reduced. Further, since the search target keyword is automatically learned, the accuracy of the important keyword extracted from the conversation is improved and the usefulness of the conversation analysis result is improved.
10 キーワード抽出装置
11 記憶部
12 処理部
13 音声データ
14 動作データ
15 キーワード
16,17 動作
18 評価値
10
Claims (8)
サービスの提供側となる第1のユーザと前記サービスの享受側となる第2のユーザとの間の会話において前記第1のユーザおよび前記第2のユーザの少なくとも一方が行った発話を示す音声データから、キーワードを検出し、
前記会話において前記第1のユーザが行った動作および前記第2のユーザが行った動作を示す動作データから、前記第1のユーザによる第1の動作のタイミングおよび前記第2のユーザによる第2の動作のタイミングを検出し、
前記第1の動作のタイミングと前記第2の動作のタイミングとの間の関係に基づいて、前記キーワードの重要度を示す評価値を算出する、
処理を実行させるキーワード抽出プログラム。 On the computer,
Voice data indicating an utterance made by at least one of the first user and the second user in a conversation between a first user who is a service providing side and a second user who is a service receiving side Detect keywords from
From the motion data indicating the motion performed by the first user and the motion performed by the second user in the conversation, the timing of the first motion performed by the first user and the second motion performed by the second user. Detects the timing of movement,
An evaluation value indicating the importance of the keyword is calculated based on the relationship between the timing of the first operation and the timing of the second operation.
A keyword extraction program that executes processing.
請求項1記載のキーワード抽出プログラム。 The operation data is image data obtained by capturing the first user and the second user during the conversation.
The keyword extraction program according to claim 1.
前記評価値の算出では、前記第1の動作のタイミングから所定時間以内に前記第2の動作のタイミングが存在する場合、前記所定時間以内に前記第2の動作のタイミングが存在しない場合よりも前記重要度を高く評価する、
請求項1記載のキーワード抽出プログラム。 The second operation is the same type of operation that is performed after the first operation,
In the calculation of the evaluation value, when the timing of the second operation is within a predetermined time from the timing of the first operation, the timing of the second operation is less than that when the timing of the second operation is not within the predetermined time. Highly value the importance,
The keyword extraction program according to claim 1.
前記評価値の算出では、前記第1の動作のタイミングから前記第2の動作のタイミングまでの経過時間が短いほど前記重要度を高く評価する、
請求項1記載のキーワード抽出プログラム。 The second operation is the same type of operation that is performed after the first operation,
In the calculation of the evaluation value, the shorter the elapsed time from the timing of the first operation to the timing of the second operation, the higher the importance is evaluated.
The keyword extraction program according to claim 1.
請求項1記載のキーワード抽出プログラム。 In the calculation of the evaluation value, as a predetermined condition in which the timing of the second operation is later than the timing of the first operation, the second user has a predetermined time immediately before the first operation. The psychological state of the second user is determined according to whether or not the operation is not performed and the timing of the second operation exists within the predetermined time immediately after the first operation. Then, the evaluation value is calculated based on the determination result of the psychological state,
The keyword extraction program according to claim 1.
前記コンピュータに更に、
前記音声データから前記検索対象キーワード以外の単語を抽出し、
前記関係に基づいて、前記抽出した単語の重要度を示す他の評価値を算出し、
前記他の評価値が所定の条件を満たす場合、前記抽出した単語を前記検索対象キーワードに追加する処理を実行させる、
請求項1記載のキーワード抽出プログラム。 In the detection of the keyword, a predetermined search target keyword is searched from the voice data,
Further on the computer,
Extracting words other than the search target keyword from the voice data,
Based on the relationship, to calculate another evaluation value indicating the importance of the extracted word,
When the other evaluation value satisfies a predetermined condition, a process of adding the extracted word to the search target keyword is executed,
The keyword extraction program according to claim 1.
サービスの提供側となる第1のユーザと前記サービスの享受側となる第2のユーザとの間の会話において前記第1のユーザおよび前記第2のユーザの少なくとも一方が行った発話を示す音声データから、キーワードを検出し、
前記会話において前記第1のユーザが行った動作および前記第2のユーザが行った動作を示す動作データから、前記第1のユーザによる第1の動作のタイミングおよび前記第2のユーザによる第2の動作のタイミングを検出し、
前記第1の動作のタイミングと前記第2の動作のタイミングとの間の関係に基づいて、前記キーワードの重要度を示す評価値を算出する、
キーワード抽出方法。 Computer
Voice data indicating an utterance made by at least one of the first user and the second user in a conversation between a first user who is a service providing side and a second user who is a service receiving side Detect keywords from
From the motion data indicating the motion performed by the first user and the motion performed by the second user in the conversation, the timing of the first motion performed by the first user and the second motion performed by the second user. Detects the timing of movement,
An evaluation value indicating the importance of the keyword is calculated based on the relationship between the timing of the first operation and the timing of the second operation.
Keyword extraction method.
前記音声データからキーワードを検出し、前記動作データから前記第1のユーザによる第1の動作のタイミングおよび前記第2のユーザによる第2の動作のタイミングを検出し、前記第1の動作のタイミングと前記第2の動作のタイミングとの間の関係に基づいて、前記キーワードの重要度を示す評価値を算出する処理部と、
を有するキーワード抽出装置。 Voice data indicating an utterance made by at least one of the first user and the second user in a conversation between a first user who is a service providing side and a second user who is a service receiving side And a storage unit that stores operation data indicating an operation performed by the first user and an operation performed by the second user in the conversation,
A keyword is detected from the voice data, the timing of the first operation by the first user and the timing of the second operation by the second user are detected from the operation data, and the timing of the first operation is detected. A processing unit that calculates an evaluation value indicating the importance of the keyword based on the relationship with the timing of the second operation;
A keyword extraction device having.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018199696A JP7108184B2 (en) | 2018-10-24 | 2018-10-24 | Keyword extraction program, keyword extraction method and keyword extraction device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018199696A JP7108184B2 (en) | 2018-10-24 | 2018-10-24 | Keyword extraction program, keyword extraction method and keyword extraction device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020067790A true JP2020067790A (en) | 2020-04-30 |
JP7108184B2 JP7108184B2 (en) | 2022-07-28 |
Family
ID=70390410
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018199696A Active JP7108184B2 (en) | 2018-10-24 | 2018-10-24 | Keyword extraction program, keyword extraction method and keyword extraction device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7108184B2 (en) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011210100A (en) * | 2010-03-30 | 2011-10-20 | Seiko Epson Corp | Customer service data recording device, customer service data recording method and program |
JP2016177483A (en) * | 2015-03-19 | 2016-10-06 | キヤノン株式会社 | Communication support device, communication support method, and program |
JP2018124604A (en) * | 2017-01-30 | 2018-08-09 | グローリー株式会社 | Customer service support system, customer service support device and customer service support method |
-
2018
- 2018-10-24 JP JP2018199696A patent/JP7108184B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011210100A (en) * | 2010-03-30 | 2011-10-20 | Seiko Epson Corp | Customer service data recording device, customer service data recording method and program |
JP2016177483A (en) * | 2015-03-19 | 2016-10-06 | キヤノン株式会社 | Communication support device, communication support method, and program |
JP2018124604A (en) * | 2017-01-30 | 2018-08-09 | グローリー株式会社 | Customer service support system, customer service support device and customer service support method |
Also Published As
Publication number | Publication date |
---|---|
JP7108184B2 (en) | 2022-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110785735B (en) | Apparatus and method for voice command scenario | |
JP6260979B1 (en) | Event evaluation support system, event evaluation support device, and event evaluation support program | |
US11080723B2 (en) | Real time event audience sentiment analysis utilizing biometric data | |
JP2018530804A5 (en) | Multi-sensor event correlation system | |
WO2015196582A1 (en) | Behavior pattern statistical apparatus and method | |
JP2013031009A (en) | Information processor, digest generating method, and digest generating program | |
JP2005531080A (en) | Content rating measurement via visual and speech recognition | |
JPWO2017168936A1 (en) | Information processing apparatus, information processing method, and program | |
US20200314483A1 (en) | Intelligent masking of non-verbal cues during a video communication | |
EP3889804A1 (en) | Video quality evaluation method, apparatus and device, and storage medium | |
JP5989603B2 (en) | Estimation apparatus, estimation method, and program | |
US20180168498A1 (en) | Computer Automated Method and System for Measurement of User Energy, Attitude, and Interpersonal Skills | |
JP2019200475A (en) | Activity evaluation program, apparatus, and method | |
JP2017064853A (en) | Robot, content deciding device, content deciding method, and program | |
CN109522799A (en) | Information cuing method, device, computer equipment and storage medium | |
CN113591515B (en) | Concentration degree processing method, device and storage medium | |
JP6629172B2 (en) | Dialogue control device, its method and program | |
JP7206741B2 (en) | HEALTH CONDITION DETERMINATION SYSTEM, HEALTH CONDITION DETERMINATION DEVICE, SERVER, HEALTH CONDITION DETERMINATION METHOD, AND PROGRAM | |
JP7108184B2 (en) | Keyword extraction program, keyword extraction method and keyword extraction device | |
Soneda et al. | M3B corpus: Multi-modal meeting behavior corpus for group meeting assessment | |
WO2019202804A1 (en) | Speech processing device and speech processing method | |
JP7465487B2 (en) | Emoticon Generator | |
CN116088675A (en) | Virtual image interaction method, related device, equipment, system and medium | |
JP2020067562A (en) | Device, program and method for determining action taking timing based on video of user's face | |
US20200365172A1 (en) | Storage medium, control device, and control method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210709 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20210715 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20210715 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220524 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220614 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220627 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7108184 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |