JP6055804B2 - 内容抽出装置、内容抽出方法及びコンピュータプログラム - Google Patents

内容抽出装置、内容抽出方法及びコンピュータプログラム Download PDF

Info

Publication number
JP6055804B2
JP6055804B2 JP2014181405A JP2014181405A JP6055804B2 JP 6055804 B2 JP6055804 B2 JP 6055804B2 JP 2014181405 A JP2014181405 A JP 2014181405A JP 2014181405 A JP2014181405 A JP 2014181405A JP 6055804 B2 JP6055804 B2 JP 6055804B2
Authority
JP
Japan
Prior art keywords
words
utterance
content
threshold
conversation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014181405A
Other languages
English (en)
Other versions
JP2016057355A (ja
Inventor
弘順 越地
弘順 越地
絵美 吉野
絵美 吉野
憲久 坂本
憲久 坂本
哲 小橋川
哲 小橋川
石原 晋也
晋也 石原
勇哉 秋吉
勇哉 秋吉
匠平 高倉
匠平 高倉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Software Corp
Nippon Telegraph and Telephone East Corp
Original Assignee
NTT Software Corp
Nippon Telegraph and Telephone East Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Software Corp, Nippon Telegraph and Telephone East Corp filed Critical NTT Software Corp
Priority to JP2014181405A priority Critical patent/JP6055804B2/ja
Publication of JP2016057355A publication Critical patent/JP2016057355A/ja
Application granted granted Critical
Publication of JP6055804B2 publication Critical patent/JP6055804B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)

Description

本発明は、テキスト化された内容の抽出技術に関する。
お客様視点のサービス向上を実現するためには、お客様の不満や要望や意見等(以下、「お客様の考え」という。)の把握が必要不可欠である。特に、重要な顧客接点の1つとして考えられるコールセンタの応対内容を、音声認識技術等を活用してテキスト化してお客様の考えを抽出する取り組みの重要性が高まっている。そこで、従来、テキスト化された対話内容からお客様の考えに該当しない挨拶や本人確認に関する発話を除外することにより、対話内容の解析の効率化を図る技術が提案されている(例えば、特許文献1参照)。特許文献1の技術では、挨拶や本人確認の発話に現れる単語の辞書をあらかじめ用意しておき、辞書に含まれる単語が対話者間の発話に一定数以上発生した場合にその発話を挨拶や本人確認の発話として除外する。これにより、お客様の考えに該当する対話内容を抽出することができる。
特開2012−108262号公報
しかしながら、特許文献1の技術では、発話に現れる単語と辞書に含まれる単語との整合性が取れない場合には、挨拶や本人確認の発話を除外することができない。すなわち、対話内容のテキスト化の精度に大きく依存してしまうという問題があった。このような問題は、対話内容に限らず、テキスト化された内容から所望の内容を抽出する場面全てに共通する問題である。
上記事情に鑑み、本発明は、テキスト化の精度に依存せず、テキスト化された内容から所望の内容を抽出する精度を向上させる技術の提供を目的としている。
本発明の一態様は、テキストデータを取得する取得部と、取得された前記テキストデータを構成する単語の単語数を所定の区間毎に取得する単語数取得部と、取得された前記単語数が閾値以上である区間内の単語で構成される内容を前記テキストデータから抽出する抽出部と、を備え、前記テキストデータは、会話内容の音声データがテキスト化されたデータであり、前記単語数取得部は、前記会話内容において、特定の会話者の所定期間内の発話毎に単語数を取得し、前記抽出部は、前記会話内容のうち、前記単語数が閾値以上である所定期間内の発話と前記所定期間内の発話の前後所定数の発話とをテキスト化したデータを抽出し、前記単語数が閾値以上であるか否かを判定する閾値判定部をさらに備え、前記閾値判定部は、前記特定の会話者の所定期間内の発話を構成する単語の単語数と、前記特定の会話者の所定期間内の発話の前又は後の発話を構成する単語の単語数との差が第1の閾値以上である場合に前記単語数が閾値以上であると判定する内容抽出装置である。本発明の一態様は、上記の内容抽出装置であって、前記単語数が閾値以上である所定期間内の発話と、前記単語数が閾値未満である所定期間内の発話とを異なる表示態様で表示部に表示させる表示制御部をさらに備える。
本発明の一態様は、テキストデータから所望の内容を抽出する内容抽出装置が行う内容抽出方法であって、前記内容抽出装置が、前記テキストデータを取得する取得ステップと、前記内容抽出装置が、取得した前記テキストデータを構成する単語の単語数を所定の区間毎に取得する単語数取得ステップと、前記内容抽出装置が、取得した前記単語数が閾値以上である区間内の単語で構成される内容を前記テキストデータから抽出する抽出ステップと、を有し、前記テキストデータは、会話内容の音声データがテキスト化されたデータであり、前記内容抽出装置が、前記単語数取得ステップにおいて、前記会話内容から、特定の会話者の所定期間内の発話毎に単語数を取得し、前記内容抽出装置が、前記抽出ステップにおいて、前記会話内容のうち、前記単語数が閾値以上である所定期間内の発話と前記所定期間内の発話の前後所定数の発話とをテキスト化したデータを抽出し、前記内容抽出装置が、前記単語数が閾値以上であるか否かを判定する閾値判定ステップをさらに有し、前記内容抽出装置が、前記閾値判定ステップにおいて、前記特定の会話者の所定期間内の発話を構成する単語の単語数と、前記特定の会話者の所定期間内の発話の前又は後の発話を構成する単語の単語数との差が第1の閾値以上である場合に前記単語数が閾値以上であると判定する内容抽出方法である。
本発明の一態様は、テキストデータを取得する取得ステップと、取得された前記テキストデータを構成する単語の単語数を所定の区間毎に取得する単語数取得ステップと、取得された前記単語数が閾値以上である区間内の単語で構成される内容を前記テキストデータから抽出する抽出ステップと、をコンピュータに実行させ、前記テキストデータは、会話内容の音声データがテキスト化されたデータであり、前記単語数取得ステップにおいて、前記会話内容から、特定の会話者の所定期間内の発話毎に単語数を取得し、前記抽出ステップにおいて、前記会話内容のうち、前記単語数が閾値以上である所定期間内の発話と前記所定期間内の発話の前後所定数の発話とをテキスト化したデータを抽出し、前記単語数が閾値以上であるか否かを判定する閾値判定ステップをさらにコンピュータに実行させ、前記閾値判定ステップにおいて、前記特定の会話者の所定期間内の発話を構成する単語の単語数と、前記特定の会話者の所定期間内の発話の前又は後の発話を構成する単語の単語数との差が第1の閾値以上である場合に前記単語数が閾値以上であると判定するためのコンピュータプログラムである。
本発明により、テキスト化の精度に依存せず、テキスト化された内容から所望の内容を抽出する精度を向上させることが可能となる。
本発明における内容抽出システム100のシステム構成を示す図である。 オペレータ端末23の機能構成を表す概略ブロック図である。 内容抽出装置40の機能構成を表す概略ブロック図である。 会話情報テーブルの具体例を示す図である。 オペレータ端末23の表示部234に表示される表示例を示す図である。 発話の分布傾向を示す図である。 本発明における内容抽出システム100の処理の流れを示すシーケンス図である。
以下、本発明の一実施形態を、図面を参照しながら説明する。
[概略]
本発明における内容抽出システムでは、会話者間の会話内容の音声データをテキスト化したテキストデータを用いてテキストデータ内から所望の内容を抽出する。具体的には、本発明における内容抽出システムでは、テキストデータに含まれる会話者それぞれの発話のうち、特定の会話者の所定期間内の発話(以下、「一発話」という。)を構成する単語の単語数が閾値以上である場合に、単語数が閾値以上である一発話の内容を所望の内容としてテキストデータから抽出する。所定期間内の発話とは、例えば他の会話者が発話するまでのある会話者の発話を表す。より具体的には、A(他の会話者)が発話してから所定の時間経過後にB(特定の会話者)が発話して、B(特定の会話者)が発話してから所定の時間経過後にA(他の会話者)が発話する状況を考えた場合、本実施形態ではB(特定の会話者)が発話してA(他の会話者)が発話するまでの期間を所定期間とし、当該所定期間内のB(特定の会話者)の発話を所定期間内の発話とする。
以下の説明では、本発明における内容抽出システムの適用例としてコールセンタで利用する場合を例に説明する。この場合、コールセンタを利用する利用者(特定の会話者に相当)と、コールセンタの従業員(他の会話者に相当)との会話内容の音声データをテキスト化したデータがテキストデータとなる。そして、内容抽出システムでは、一発話を構成する単語の単語数が閾値以上である場合に、テキストデータに含まれる会話者間(利用者と従業員との間)の発話のうち、単語数が閾値以上である一発話の内容を所望の内容として抽出する。ここで、所望の内容とは、例えば利用者が自らの考え(お客様の考え)を発言した時の内容を表す。
以下、内容抽出システムの具体的な構成について説明する。
図1は、本発明における内容抽出システム100のシステム構成を示す図である。本発明の内容抽出システム100は、コールセンタ20、音声認識サーバ30及び内容抽出装置40を備える。コールセンタ20には従業員用端末21、通話録音装置22及びオペレータ端末23が備えられる。また、内容抽出システム100には利用者用端末10が接続される。利用者用端末10及び従業員用端末21は、第1ネットワーク50を介して通信可能に接続される。また、コールセンタ20は、第2ネットワーク60を介して音声認識サーバ30及び内容抽出装置40と通信可能に接続される。
利用者用端末10は、利用者によって使用される通信装置である。利用者用端末10は、例えばスマートフォン、携帯電話、タブレット端末、ノートパソコン、パーソナルコンピュータ、ゲーム機器等の情報処理装置を用いて構成される。利用者は、利用者用端末10を使用することによって、コールセンタの従業員と会話することが可能である。
コールセンタ20は、利用者への電話対応業務を専門に行う事業所である。
従業員用端末21は、コールセンタの従業員によって使用される通信装置である。従業員用端末21は、例えばスマートフォン、携帯電話、タブレット端末、ノートパソコン、パーソナルコンピュータ、ゲーム機器等の情報処理装置を用いて構成される。従業員は、従業員用端末21を使用することによって、コールセンタの従業員と会話することが可能である。
通話録音装置22は、利用者用端末10のユーザ(利用者)と従業員用端末21のユーザ(従業員)との通話音声を録音する。通話録音装置22は、例えばコンバージャー等である。
オペレータ端末23は、コールセンタの管理者によって操作される通信装置である。オペレータ端末23は、例えばパーソナルコンピュータ等の情報処理装置を用いて構成される。オペレータ端末23は、各種条件の入力を受け付ける。条件の具体例として、例えば対象データ条件、閾値決定条件及び発話内容抽出条件がある。対象データ条件は、管理者が所望する会話内容を抽出する対象となるテキストデータの条件であり、例えばインバウンドのテキストデータ又はアウトバウンドのテキストデータがある。インバウンドのテキストデータとは、利用者からコールセンタ20の従業員に電話をかけてきたときの会話内容のテキストデータである。アウトバウンドのテキストデータとは、コールセンタ20の従業員が利用者に電話をかけたときの会話内容のテキストデータである。
閾値決定条件は、一発話を構成する単語の単語数と比較する基準となる閾値を決定するための条件である。本実施形態では、管理者が直接入力した閾値を、単語数と比較する基準となる閾値として決定する場合を例に説明する。発話内容抽出条件は、テキストデータに含まれる内容から抽出する内容の範囲を示す条件であり、例えばテキストデータに含まれる内容のうち、一発話を構成する単語の単語数が閾値以上である一発話の内容のみを抽出するのか、単語数が閾値以上である一発話の内容と当該一発話の内容の前後の所定数分の内容とを抽出するのかを示す。
音声認識サーバ30は、パーソナルコンピュータ等の情報処理装置を用いて構成される。音声認識サーバ30は、通話録音装置22により録音された音声データの音声認識を行うことによって音声データをテキストデータに変換する。
内容抽出装置40は、音声認識サーバ30によって変換されたテキストデータから所望の内容を抽出する。例えば、内容抽出装置40は、オペレータ端末23によって入力された各種条件に従い、テキストデータから所望の内容を抽出する。なお、音声認識サーバ30から受信されたテキストデータには、例えば発話内容の「全文ひらがなの文字列」、発話内容が「かな漢字変換」された文字列、発話内容が「形態素解析」された単語の区切り情報等が含まれる。
第1ネットワーク50は、どのように構成されたネットワークでもよい。例えば、第1ネットワーク50は電話網、IP(Internet Protocol)網、移動体網を用いて構成されてもよい。
第2ネットワーク60は、どのように構成されたネットワークでもよい。例えば、第2ネットワーク60はインターネットを用いて構成されてもよい。
図2は、オペレータ端末23の機能構成を表す概略ブロック図である。
オペレータ端末23は、バスで接続されたCPU(Central Processing Unit)やメモリや補助記憶装置などを備え、表示プログラムを実行する。表示プログラムの実行によって、オペレータ端末23は、入力部231、通信部232、表示制御部233、表示部234を備える装置として機能する。なお、オペレータ端末23の各機能の全て又は一部は、ASIC(Application Specific Integrated Circuit)やPLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)等のハードウェアを用いて実現されてもよい。また、表示プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。また、表示プログラムは、電気通信回線を介して送受信されてもよい。
入力部231は、タッチパネル、ボタン等の既存の入力装置を用いて構成される。入力部231は、ユーザの指示をオペレータ端末23に入力する際にユーザによって操作される。例えば、入力部231は、各種条件の入力を受け付ける。また、入力部231は、入力装置をオペレータ端末23に接続するためのインタフェースであってもよい。この場合、入力部231は、入力装置においてユーザの入力に応じて生成された入力信号をオペレータ端末23に入力する。
通信部232は、内容抽出装置40との間で通信を行う。例えば、通信部232は、入力部231を介して入力された各種条件に関する情報(以下、「条件情報」という。)を内容抽出装置40に送信する。例えば、通信部232は、各種条件を満たす所望の内容を含む情報を内容抽出装置40から受信する。
表示制御部233は、表示部234の表示を制御する。例えば、表示制御部233は、受信された情報を表示部234に表示させる。この際、表示制御部233は、情報に含まれる所望の内容を他の内容(所望の内容とは異なる内容)と異なる表示態様で表示部234に表示させる。例えば、表示制御部233は、所望の内容を太文字で表示させてもよいし、色を変更して表示させてもよいし、フォントを変更して表示させてもよいし、サイズを変更して表示させてもよいし、他の内容と異なる表示態様であればどのような態様で表示させてもよい。
表示部234は、液晶ディスプレイ、有機EL(Electro Luminescence)ディスプレイ、CRT(Cathode Ray Tube)ディスプレイ等の画像表示装置である。表示部234は、表示制御部233の制御に従って各種条件を満たす所望の内容を含む情報を表示する。表示部234は、画像表示装置をオペレータ端末23に接続するためのインタフェースであってもよい。この場合、表示部234は、各種条件を満たす所望の内容を含む情報を表示するための映像信号を生成し、自身に接続されている画像表示装置に映像信号を出力する。
図3は、内容抽出装置40の機能構成を表す概略ブロック図である。
内容抽出装置40は、バスで接続されたCPUやメモリや補助記憶装置などを備え、内容抽出プログラムを実行する。内容抽出プログラムの実行によって、内容抽出装置40は、通信部401、通信制御部402、記憶部403、会話種別判定部404、単語数取得部405、閾値決定部406、閾値判定部407、送信制御部408を備える装置として機能する。なお、内容抽出装置40の各機能の全て又は一部は、ASICやPLDやFPGA等のハードウェアを用いて実現されてもよい。また、内容抽出プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。また、内容抽出プログラムは、電気通信回線を介して送受信されてもよい。
通信部401は、オペレータ端末23との間で通信を行う。例えば、通信部401は、オペレータ端末23から条件情報を受信する。例えば、通信部401は、各種条件を満たす所望の内容を含む情報をオペレータ端末23に送信する。また、通信部401は、音声認識サーバ30との間で通信を行う。例えば、通信部401(取得部)は、音声認識サーバ30からテキストデータを受信(取得)する。また、通信部401は、従業員用端末21との間で通信を行う。例えば、通信部401は、従業員用端末21から応対履歴の情報を受信する。応対履歴の情報には、例えば従業員が手入力した応対の内容、従業員の内線番号及び日時の情報が含まれる。
通信制御部402は、受信された情報に応じた制御を行う。例えば、通信制御部402は、受信されたテキストデータ及び応対履歴の情報を対応付けて記憶部403に記録する。また、例えば、通信制御部402は、条件情報を記憶部403に記録するとともに会話種別判定部404に条件が入力された旨を通知する。
記憶部403は、複数の情報を記憶する。記憶部403は、会話情報記憶部4031及び条件記憶部4032を備える。
会話情報記憶部4031は、磁気ハードディスク装置や半導体記憶装置などの記憶装置を用いて構成される。会話情報記憶部4031は、会話情報テーブルを記憶する。会話情報テーブルには、会話情報に関するレコード(以下、「会話情報レコード」という。)が登録されている。
図4は、会話情報テーブルの具体例を示す図である。
会話情報テーブルは、会話情報レコード70を複数有する。会話情報レコード70は、会話ID、内線番号、日時、応対履歴及びテキストデータの各値を有する。会話IDの値は、会話を一意に識別するための識別情報を表す。内線番号の値は、同じ会話情報レコード70の会話の対応を行った従業員の内線番号を表す。日時の値は、同じ会話情報レコード70の会話の対応を行った日時を表す。応対履歴の値は、同じ会話情報レコード70の会話の対応を行った従業員が入力した応対履歴を表す。テキストデータの値は、同じ会話情報レコード70の会話内容の音声データがテキスト化されたデータを表す。
図3に戻って、内容抽出装置40の説明を続ける。
条件記憶部4032は、磁気ハードディスク装置や半導体記憶装置などの記憶装置を用いて構成される。条件記憶部4032は、対象データ条件、閾値決定条件及び発話内容抽出条件などの各種条件を記憶する。
会話種別判定部404は、会話情報テーブルに記憶されている応対履歴に基づいて対話種別を判定する。そして、会話種別判定部404は、条件記憶部4032に記憶されている対象データ条件に基づいて、会話情報テーブルに記憶されているテキストデータのうち、対象データ条件を満たすテキストデータを会話情報テーブルから抽出する。
単語数取得部405は、会話種別判定部404によって抽出された各テキストデータから一発話を構成する単語の単語数を取得する。
閾値決定部406は、条件記憶部4032に記憶されている閾値決定条件に従って閾値を決定する。例えば、閾値決定条件として管理者が直接入力した閾値が設定されている場合、閾値決定部406は管理者が直接入力した閾値を、一発話を構成する単語の単語数と比較する基準となる閾値に決定する。
閾値判定部407は、単語数取得部405によって取得された各テキストデータの一発話毎の単語数と、閾値決定部406が決定した閾値とを比較することによって閾値以上である単語数の一発話があるか否かテキストデータ毎に判定する。
送信制御部408は、通信部401の送信を制御する。
図5は、オペレータ端末23の表示部234に表示される表示例を示す図である。
オペレータ端末23の表示部234には、画面に表示させる対象となる会話内容の条件を設定する条件設定領域205と、内容抽出装置40によって抽出された、条件を満たす会話内容が表示される結果表示領域206とが表示される。管理者がオペレータ端末23の入力部231において、条件設定領域205に条件を入力する前には結果表示領域206には何も表示されない。
図5において、条件設定領域205には条件を入力するための入力枠2051及び2052が表示されている。各入力枠は、入力対象となる項目ごとに設けられている。例えば、図5では、抽出設定の項目には入力枠2051が設けられ、対象日時の項目には入力枠2052が設けられている。抽出設定は、対象データ条件の設定を表す。つまり、入力枠2051にはインバウンド又はアウトバウンドのいずれかが入力される。抽出設定の入力は、直接入力であってもよいし、プルダウンによる入力であってもよい。対象日時は、所望の内容の抽出対象となる日時を表す。入力枠2052には、管理者が所望の内容を表示させたい日時が入力される。対象日時の入力は、直接入力であってもよいし、プルダウンによる入力であってもよい。
結果表示領域206には、条件設定領域205に入力された条件を満たす所望の内容が表示される。図5の例では、条件を満たす所望の内容が2件表示されている。発話内容の項目に表示されている発話内容のうち、所望の内容については他の発話内容(閾値未満の単語数の発話内容)と異なる表示態様で表示される。例えば、図5において所望の内容は、太文字で表示されている。
このように、所望の内容を他の発話内容と異なる表示態様で表示させることにより、管理者は所望の内容を容易に把握することができる。
図6は、発話の分布傾向を示す図である。
図6において、縦軸は密度を表し、横軸は単語数を表す。図6には、利用者とコールセンタ20の従業員との会話における利用者の一発話の単語数の分布傾向が示されている。図6に示されるように、利用者の発話の内容は、単語数に応じて3つに分類することができる(図6のA、B、C)。
Aで示される単語数(単語数1〜3)の範囲に含まれる利用者の発話の内容は返事や相槌(例えば、「はい」や「うん、そうだね」など)が考えられる。Bで示される単語数(単語数4〜30)の範囲に含まれる利用者の発話の内容は簡易な回答(例えば、「あぁ、ええ、それで、お願いします」など)が考えられる。Cで示される単語数(単語数30〜200)の範囲に含まれる利用者の発話の内容はお客様の考えが含まれる発話が考えられる。
上述したように、単語数が所定の値(例えば、単語数が30)より少なくなると、お客様の考えが含まれる発話が少なくなる可能性がある。それに対して、単語数が所定の値(例えば、単語数が30)より多くなると、お客様の考えが含まれる発話が多い可能性がある。お客様の考えが含まれる発話が本実施形態における所望の内容である。そのため、本実施形態では、お客様の考えが含まれる発話として考えられる一発話を構成する単語の単語数の範囲(図6の場合、単語数が30〜200)内を所定の条件に従って閾値として設定することによりお客様の考えが含まれる発話内容を抽出する精度を向上させることができる。
図7は、本発明における内容抽出システム100の処理の流れを示すシーケンス図である。なお、処理開始時には、利用者とコールセンタ20の従業員との会話内容が通話録音装置22によって録音され、音声認識サーバ30によって会話内容がテキスト化されている場合を例に説明する。
音声認識サーバ30は、会話内容のテキストデータを内容抽出装置40に送信する(ステップS101)。
また、従業員用端末21は、応対履歴情報を内容抽出装置40に送信する(ステップS102)。
内容抽出装置40の通信部401は、音声認識サーバ30からテキストデータを受信する。また、通信部401は、従業員用端末21から応対履歴情報を受信する。通信制御部402は、受信されたテキストデータ及び応対履歴情報を対応付けて会話情報記憶部4031に記録する(ステップS103)。
管理者は、オペレータ端末23を操作して各種条件を入力する(ステップS104)。具体的には、管理者は、入力部231を介して対象データ条件、閾値決定条件及び発話内容抽出条件を入力する。通信部232は、入力された各種条件を含む条件信号を生成し、生成した条件信号を内容抽出装置40に送信する(ステップS105)。
内容抽出装置40の通信部401は、オペレータ端末23から送信された条件信号を受信する。通信部401は、受信した条件信号を通信制御部402に出力する。通信制御部402は、条件信号に含まれる各種条件を条件記憶部4032に記録する(ステップS106)。
会話情報記憶部4031に記憶されている会話情報テーブルの応対履歴と、条件記憶部4032に記憶されている対象データ条件とに基づいて、対象データ条件を満たすテキストデータを会話情報テーブルから抽出する(ステップS107)。単語数取得部405は、抽出されたテキストデータ内の一発話毎を構成する単語の単語数を一発話毎に取得する(ステップS108)。単語数取得部405は、ステップS108の処理をステップS107の処理で抽出されたテキストデータ全てに行う。
閾値決定部406は、条件記憶部4032に記憶されている閾値決定条件に基づいて閾値を決定する(ステップS109)。閾値判定部407は、ステップS108の処理でテキストデータ毎に抽出された一発話毎の単語数と、閾値とに基づいて閾値以上の単語数の一発話があるか否か判定する(ステップS110)。送信制御部408は、ステップS110の処理の結果、閾値以上の単語数の一発話がある場合、会話情報テーブルに記録されているテキストデータから、閾値以上の単語数の一発話に対応する会話内容を所望の内容として抽出する(ステップS111)。この際、送信制御部408は、条件記憶部4032に記憶されている発話内容抽出条件が閾値以上の単語数の一発話に対応する会話内容の前後所定数分の会話内容も含む条件である場合には、閾値以上の単語数の一発話に対応する会話内容と、前後所定数分の会話内容とを所望の内容として抽出する。
送信制御部408は、抽出した会話内容をオペレータ端末23に送信する(ステップS112)。
オペレータ端末23の通信部232は、内容抽出装置40から送信された会話内容を受信する。表示制御部233は、受信された会話内容を表示部234に表示させる。この際、表示制御部233は、所望の内容を他の会話内容と異なる表示態様で表示部234に表示させる。表示部234は、表示制御部233の制御に従って所望の内容を画面に表示する(ステップS113)。
以上のように構成された内容抽出システム100によれば、単語数が閾値以上である一発話がある場合に、単語数が閾値以上である一発話に対応する会話内容がお客様の考えを表す所望の内容として表示される。例えば、会話内容が音声認識によって多少の誤差を含む内容のテキストデータに変換されたとしても一発話を構成する単語数が閾値以上である場合には、その一発話が所望の内容である可能性があるため当該一発話に対応する会話内容が表示される。このように、従来に比べてお客様の考えを表す内容を抽出する精度が向上する。そのため、テキスト化の精度に依存せず、テキスト化された内容から所望の内容を抽出する精度を向上させることが可能になる。
また、本発明における内容抽出装置40は、単語数が閾値以上である一発話に対応する会話内容だけでなく当該一発話に対応する会話内容の前後の会話内容も抽出される。したがって、管理者は前後の会話内容からどのような場合に利用者が自身の考えを発話する傾向にあるのかを容易に把握することができる。そのため、把握した内容をその後の活動に用いることで、より利用者からお客様の考えを引き出すためのノウハウを得ることができる。
<変形例>
本実施形態では、内容抽出システム100には1台の利用者用端末10が接続されているが、内容抽出システム100には2台以上の利用者用端末10が接続されてもよい。
本実施形態では、会話情報記憶部4031に蓄積された会話情報を用いて所望の内容を抽出する構成を示したが、内容抽出装置40はリアルタイムに所望の内容を抽出するように構成されてもよい。
本実施形態における内容抽出システム100は、上述の場面(例えば、コールセンタ)以外にも適用可能である。例えば、内容抽出システム100は、小説や絵本などの書物をOCRにより文書に変換することで生成されたテキストデータを用いて所望の内容を抽出することも可能である。
閾値判定部407は、一発話を構成する単語の単語数と、一発話の前又は後の発話内容を構成する単語の単語数との差が閾値以上であるか否かに基づいて、閾値以上である単語数の一発話があるか否かの判定を行うように構成されてもよい。一発話を構成する単語の単語数と、一発話の前又は後の発話内容を構成する単語の単語数との差が閾値以上である場合、閾値判定部407は閾値以上である単語数の一発話があると判定する。この場合には、比較対象となった発話内容のうち利用者の発話内容が所望の内容として決定される。一方、一発話を構成する単語の単語数と、一発話の前又は後の発話内容を構成する単語の単語数との差が閾値未満である場合、閾値判定部407は閾値以上である単語数の一発話がないと判定する。なお、閾値は閾値判定部407に予め設定されていてもよいし、管理者又は従業員によって設定されてもよい。
閾値の決定条件は、上述の条件(管理者が直接入力)に限定される必要はない。例えば、閾値の決定条件は、一発話を構成する単語の単語数の平均値であってもよいし、一発話を構成する単語の単語数の中点値であってもよいし、一発話を単語数の多い順に並べた際に上位所定の割合に該当する一発話を構成する単語の単語数の最小値であってもよいし、一発話を構成する単語の単語数の中央値であってもよい。以下、それぞれの条件について説明する。
(一発話を構成する単語の単語数の平均値を閾値とする場合)
閾値決定部406は、以下の式1に基づいて閾値xを算出する。
Figure 0006055804
式1のNは発話数を表し、xは単語数を表す。そして、閾値決定部406は、算出した閾値を、一発話を構成する単語の単語数と比較する基準となる閾値に決定する。
(一発話を構成する単語の単語数の中点値を閾値とする場合)
閾値決定部406は、以下の式2に基づいて閾値xを算出する。
Figure 0006055804
式2のxminは単語数の最小値を表し、xmaxは単語数の最大値を表す。そして、閾値決定部406は、算出した閾値を、一発話を構成する単語の単語数と比較する基準となる閾値に決定する。
(一発話を単語数の多い順に並べた際に上位所定の割合に該当する一発話を構成する単語の単語数の最小値を閾値とする場合)
閾値決定部406は、以下の式3に基づいて閾値xを算出する。
Figure 0006055804
式3のf(x)は単語数をxとした発話数の確率密度関数を表す。なお、f(x)はどのように導出されてもよい。所定の割合は、例えば0.3%でもよいし、0.5%でもよいし、0.7%でもよいし、その他の割合であってもよい。所定の割合は、管理者によって適宜変更される。そして、閾値決定部406は、算出した閾値を、一発話を構成する単語の単語数と比較する基準となる閾値に決定する。
(一発話を構成する単語の単語数の中央値を閾値とする場合)
閾値決定部406は、以下の式4に基づいて閾値xを算出する。
Figure 0006055804
式4のf(x)は単語数をxとした発話数の確率密度関数を表す。なお、f(x)はどのように導出されてもよい。そして、閾値決定部406は、算出した閾値を、一発話を構成する単語の単語数と比較する基準となる閾値に決定する。
上述したように、閾値の決定条件として複数の条件が存在する。管理者は、オペレータ端末23を操作して所望する閾値決定条件を入力する。内容抽出装置40の閾値決定部406は、管理者によって入力された閾値決定条件に基づいて閾値を決定する。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
10…利用者用端末, 20…コールセンタ, 21…従業員用端末, 22…通話録音装置, 23…オペレータ端末, 30…音声認識サーバ, 40…内容抽出装置, 50…第1ネットワーク, 60…第2ネットワーク, 231…入力部, 232…通信部, 233…表示制御部, 234…表示部, 401…通信部, 402…通信制御部, 403…記憶部, 4031…会話情報記憶部, 4032…条件記憶部, 404…会話種別判定部, 405…単語数取得部, 406…閾値決定部, 407…閾値判定部, 408…送信制御部

Claims (4)

  1. テキストデータを取得する取得部と、
    取得された前記テキストデータを構成する単語の単語数を所定の区間毎に取得する単語数取得部と、
    取得された前記単語数が閾値以上である区間内の単語で構成される内容を前記テキストデータから抽出する抽出部と、
    を備え、
    前記テキストデータは、会話内容の音声データがテキスト化されたデータであり、
    前記単語数取得部は、前記会話内容において、特定の会話者の所定期間内の発話毎に単語数を取得し、
    前記抽出部は、前記会話内容のうち、前記単語数が閾値以上である所定期間内の発話と前記所定期間内の発話の前後所定数の発話とをテキスト化したデータを抽出し、
    前記単語数が閾値以上であるか否かを判定する閾値判定部をさらに備え、
    前記閾値判定部は、前記特定の会話者の所定期間内の発話を構成する単語の単語数と、前記特定の会話者の所定期間内の発話の前又は後の発話を構成する単語の単語数との差が第1の閾値以上である場合に前記単語数が閾値以上であると判定する内容抽出装置。
  2. 前記単語数が閾値以上である所定期間内の発話と、前記単語数が閾値未満である所定期間内の発話とを異なる表示態様で表示部に表示させる表示制御部をさらに備える、請求項1に記載の内容抽出装置。
  3. テキストデータから所望の内容を抽出する内容抽出装置が行う内容抽出方法であって、
    前記内容抽出装置が、前記テキストデータを取得する取得ステップと、
    前記内容抽出装置が、取得した前記テキストデータを構成する単語の単語数を所定の区間毎に取得する単語数取得ステップと、
    前記内容抽出装置が、取得した前記単語数が閾値以上である区間内の単語で構成される内容を前記テキストデータから抽出する抽出ステップと、
    を有し、
    前記テキストデータは、会話内容の音声データがテキスト化されたデータであり、
    前記内容抽出装置が、前記単語数取得ステップにおいて、前記会話内容から、特定の会話者の所定期間内の発話毎に単語数を取得し、
    前記内容抽出装置が、前記抽出ステップにおいて、前記会話内容のうち、前記単語数が閾値以上である所定期間内の発話と前記所定期間内の発話の前後所定数の発話とをテキスト化したデータを抽出し、
    前記内容抽出装置が、前記単語数が閾値以上であるか否かを判定する閾値判定ステップをさらに有し、
    前記内容抽出装置が、前記閾値判定ステップにおいて、前記特定の会話者の所定期間内の発話を構成する単語の単語数と、前記特定の会話者の所定期間内の発話の前又は後の発話を構成する単語の単語数との差が第1の閾値以上である場合に前記単語数が閾値以上であると判定する内容抽出方法。
  4. テキストデータを取得する取得ステップと、
    取得された前記テキストデータを構成する単語の単語数を所定の区間毎に取得する単語数取得ステップと、
    取得された前記単語数が閾値以上である区間内の単語で構成される内容を前記テキストデータから抽出する抽出ステップと、
    をコンピュータに実行させ、
    前記テキストデータは、会話内容の音声データがテキスト化されたデータであり、
    前記単語数取得ステップにおいて、前記会話内容から、特定の会話者の所定期間内の発話毎に単語数を取得し、
    前記抽出ステップにおいて、前記会話内容のうち、前記単語数が閾値以上である所定期間内の発話と前記所定期間内の発話の前後所定数の発話とをテキスト化したデータを抽出し、
    前記単語数が閾値以上であるか否かを判定する閾値判定ステップをさらにコンピュータに実行させ、
    前記閾値判定ステップにおいて、前記特定の会話者の所定期間内の発話を構成する単語の単語数と、前記特定の会話者の所定期間内の発話の前又は後の発話を構成する単語の単語数との差が第1の閾値以上である場合に前記単語数が閾値以上であると判定するためのコンピュータプログラム。
JP2014181405A 2014-09-05 2014-09-05 内容抽出装置、内容抽出方法及びコンピュータプログラム Active JP6055804B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014181405A JP6055804B2 (ja) 2014-09-05 2014-09-05 内容抽出装置、内容抽出方法及びコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014181405A JP6055804B2 (ja) 2014-09-05 2014-09-05 内容抽出装置、内容抽出方法及びコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2016057355A JP2016057355A (ja) 2016-04-21
JP6055804B2 true JP6055804B2 (ja) 2016-12-27

Family

ID=55758292

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014181405A Active JP6055804B2 (ja) 2014-09-05 2014-09-05 内容抽出装置、内容抽出方法及びコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP6055804B2 (ja)

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08166954A (ja) * 1994-12-13 1996-06-25 Sharp Corp 翻訳支援装置
JPH09134358A (ja) * 1995-11-13 1997-05-20 Oki Electric Ind Co Ltd 機械翻訳装置
JP3696765B2 (ja) * 1999-04-23 2005-09-21 シャープ株式会社 辞書作成装置、辞書作成方法、辞書作成プログラムを記録したコンピュータで読取可能な記録媒体および翻訳装置
JP3791877B2 (ja) * 1999-06-15 2006-06-28 富士通株式会社 文書の参照理由を用いて情報検索を行う装置
JP2004326315A (ja) * 2003-04-23 2004-11-18 Nippon Hoso Kyokai <Nhk> 文書要約装置、文書要約方法、及びそのプログラム
JP2007102662A (ja) * 2005-10-07 2007-04-19 Advanced Telecommunication Research Institute International 情報処理装置、およびプログラム
JP4662861B2 (ja) * 2006-02-07 2011-03-30 日本電気株式会社 モニタリング装置、評価データ選別装置、応対者評価装置、応対者評価システムおよびプログラム
JP2011103075A (ja) * 2009-11-11 2011-05-26 Kansai Electric Power Co Inc:The 抜粋文抽出方法
JP2010266880A (ja) * 2010-06-23 2010-11-25 Sony Corp 携帯端末装置、情報処理方法、及びプログラム

Also Published As

Publication number Publication date
JP2016057355A (ja) 2016-04-21

Similar Documents

Publication Publication Date Title
US9621698B2 (en) Identifying a contact based on a voice communication session
US10462300B2 (en) Technologies for monitoring interaction between customers and agents using sentiment detection
US8442563B2 (en) Automated text-based messaging interaction using natural language understanding technologies
US20170034479A1 (en) Video endpoints and related methods for transmitting stored text to other video endpoints
KR102136706B1 (ko) 정보 처리 시스템, 접수 서버, 정보 처리 방법 및 프로그램
JP2016103270A (ja) 情報処理システム、受付サーバ、情報処理方法及びプログラム
US9172795B1 (en) Phone call context setting
US20150279391A1 (en) Dissatisfying conversation determination device and dissatisfying conversation determination method
US11398224B2 (en) Communication system and method for providing advice to improve a speaking style
JPWO2015083741A1 (ja) 中継装置、表示装置および通信システム
US11343290B2 (en) Methods and systems for facilitating context-to-call communications between communication points in multiple communication modes
JP6570893B2 (ja) 翻訳支援システムおよび情報処理装置
JP7028179B2 (ja) 情報処理装置、情報処理方法およびコンピュータ・プログラム
JP5691174B2 (ja) オペレータ選定装置、オペレータ選定プログラム、オペレータ評価装置、オペレータ評価プログラム及びオペレータ評価方法
CN107331396A (zh) 输出数字的方法及装置
JP6055804B2 (ja) 内容抽出装置、内容抽出方法及びコンピュータプログラム
US10984229B2 (en) Interactive sign language response system and method
CN115118820A (zh) 一种通话处理方法、装置、计算机设备及存储介质
CN109005304A (zh) 一种排队方法及装置、计算机可读存储介质
CN112969000A (zh) 网络会议的控制方法、装置、电子设备和存储介质
CN110895657B (zh) 一种基于口语对话特征的语义逻辑表达和分析方法
US20230412764A1 (en) Analysis apparatus, system, method, and non-transitory computer readable medium storing program
US20220188526A1 (en) Translation device and method for the hearing impaired
CN115731937A (zh) 信息处理方法、装置、电子设备及存储介质
JP2024084169A (ja) 音声認識システム、及び、音声認識方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160412

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160610

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161108

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161205

R150 Certificate of patent or registration of utility model

Ref document number: 6055804

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250