JP2020071675A - 対話要約生成装置、対話要約生成方法およびプログラム - Google Patents
対話要約生成装置、対話要約生成方法およびプログラム Download PDFInfo
- Publication number
- JP2020071675A JP2020071675A JP2018205370A JP2018205370A JP2020071675A JP 2020071675 A JP2020071675 A JP 2020071675A JP 2018205370 A JP2018205370 A JP 2018205370A JP 2018205370 A JP2018205370 A JP 2018205370A JP 2020071675 A JP2020071675 A JP 2020071675A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- dialogue
- unit
- text
- utterance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 76
- 238000000926 separation method Methods 0.000 claims abstract description 13
- 238000012545 processing Methods 0.000 claims description 71
- 230000008569 process Effects 0.000 claims description 54
- 238000012805 post-processing Methods 0.000 claims description 32
- 230000004044 response Effects 0.000 abstract description 32
- 230000008451 emotion Effects 0.000 description 103
- 230000002996 emotional effect Effects 0.000 description 33
- 238000006243 chemical reaction Methods 0.000 description 29
- 230000014509 gene expression Effects 0.000 description 23
- 238000007781 pre-processing Methods 0.000 description 19
- 238000012937 correction Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 16
- 230000000877 morphologic effect Effects 0.000 description 12
- 230000008030 elimination Effects 0.000 description 10
- 238000003379 elimination reaction Methods 0.000 description 10
- 238000004904 shortening Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 101100189471 Mus musculus Pbx1 gene Proteins 0.000 description 7
- 230000007704 transition Effects 0.000 description 7
- 238000012790 confirmation Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 238000003860 storage Methods 0.000 description 4
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 101100365087 Arabidopsis thaliana SCRA gene Proteins 0.000 description 2
- 241000238631 Hexapoda Species 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 230000036651 mood Effects 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 230000029058 respiratory gaseous exchange Effects 0.000 description 2
- 208000019901 Anxiety disease Diseases 0.000 description 1
- 101000610107 Homo sapiens Pre-B-cell leukemia transcription factor 1 Proteins 0.000 description 1
- 102100028423 MAP6 domain-containing protein 1 Human genes 0.000 description 1
- 101710163760 MAP6 domain-containing protein 1 Proteins 0.000 description 1
- 241000277269 Oncorhynchus masou Species 0.000 description 1
- 241001122315 Polites Species 0.000 description 1
- 102100040171 Pre-B-cell leukemia transcription factor 1 Human genes 0.000 description 1
- 230000036506 anxiety Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000002940 repellent Effects 0.000 description 1
- 239000005871 repellent Substances 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】対話要約生成装置は、対話音声データから対話の話者を識別する話者識別部と、識別された話者ごとに、対話音声データを発話単位に分離する音声分離部と、対話音声データを、分離された発話単位で音声認識して対話音声テキストを生成する音声認識部と、生成された対話音声テキストを要約して要約文テキストを生成する要約生成部と、第1の話者の対話音声テキストから所定時間長内の短い発話を検出し、検出された短い発話に対応する第2の話者の対話音声データの発話単位に基づいて、第1の話者の短い発話が受け答えか否かを判定し、受け答えと判定された短い発話を、生成された要約文テキストに付加する受け答え判定部とを備える。
【選択図】図2
Description
このような音声データから要約テキストを作成する技術において、音声データファイル中の音声を音声認識処理により文字コード化し、文字コード化された音声テキストデータから要約テキストを生成する技術がある。テキスト化された要約を生成することで、応対履歴の内容の把握が容易となり、一覧性が提供され、さらにテキスト中の単語をキーワードに用いて検索を実行できる等、コンピュータとの柔軟な連携が可能となる。
しかしながら、従来の技術では、これらの発話を要約に含めるべきか否かについて適切に区別することができなかった。
前記受け答え判定部は、検出された前記短い発話に対応する前記第2の話者の前記対話音声データの発話単位中に、前記第1の閾値より小さい第2の閾値以上の時間長の無音区間が検出できるか否かを判定し、前記第2の閾値以上の時間長の前記無音区間が検出できる場合に、前記第1の話者の前記短い発話を、前記受け答えと判定してよい。
前記受け答え判定部は、前記受け答えでないと判定された前記第1の話者の前記短い発話を相槌と判定し、判定された前記相槌を前記要約生成部に入力すべき前記対話音声テキストから削除してよい。
前記音声認識後処理部は、生成された前記要約単位のそれぞれに重みと種別を付与してよい。
通話音声または対面での対話音声を録音して前記対話音声データを取得する音声取得部をさらに備えてよい。
以下では、顧客と、コールセンタのオペレータとの間で電話網を介してなされた通話を録音する例を説明するが、本実施形態はこれに限定されない。本実施形態は、例えば、通話に替えて、対面での対話をマイクロフォン等の集音装置により集音し録音した対話音声についても、同様に要約文を生成することができる。
図1は、本実施形態に係る音声処理システムのネットワーク構成の非限定的一例を示す図である。図1を参照して、音声処理システムは、PBX(交換機)1、音声取得サーバ2、通話録音サーバ3、制御サーバ4、音声認識サーバ5、感情解析サーバ6、要約生成サーバ7、および対話要約照会用に利用可能なPC(Personal Computer)9を備える。PBX1、音声取得サーバ2、通話録音サーバ3、制御サーバ4、音声認識サーバ5、感情解析サーバ6、要約生成サーバ7、およびPC9の全部または一部は、コールセンタ構内に設置され、LAN(Local Area Network)/WAN(Wide Area Network)等のイントラネット8等のIP(Internet Protocol)ネットワークにより相互接続されてよい。
特に、コールセンタのオペレータ以外の管理者等が対話要約照会用PC9を操作して要約文データベース内の応対履歴である対話音声要約の照会ないし更新処理を行う場合には、当該対話要約照会PC9は、オペレータ近傍に設置される必要はなく、遠隔IP接続を介して適宜コールセンタ外部に設置されることが好適である。
<各サーバ装置の機能構成>
好適には、通話録音サーバ3は、音声取得サーバ2からアナログ音声が供給された場合、このアナログ音声波形を電圧で表したものを所定のビット深度と所定のサンプリング周波数でサンプリングすることによりデジタル音声に変換し、対話音声ファイル31に蓄積保存する。
通話録音サーバ3により取得される呼情報は、例えば、着信開始情報(着信開始タイムスタンプを含む)、発信開始情報(発信開始タイムスタンプを含む)、通話開始情報(通話開始タイムスタンプを含む)、通話終了情報(通話終了タイムスタンプを含む)等の呼制御情報と、発信元電話番号、発信先電話番号、発信元チャネル番号、発信者番号、着信チャネル番号、着信電話番号(着信先内線番号等)等の呼識別情報とを含む。
ISDNの場合には、話者識別情報は、回線終端装置(Digital Service Unit:DSU)の物理的なピン位置として取得可能である。
本実施形態において、音声認識サーバ5は、分離された発話単位ごとに対話音声データを解析して特徴量を抽出し、音声認識辞書(図2の音声認識辞書32)等の各種認識用辞書を参照し、公知の音声認識技術を適用して対話音声データを文字コード列に変換し、さらに変換された文字コード列を対話音声テキストとしてファイルに出力する。本実施形態において、音声認識サーバ5が出力する対話音声テキストは、要約単位に区切られたテキスト(図2の要約単位テキスト)を含む。この対話音声テキストを要約単位に区切る処理は、図4、図7、および図8を参照して後述する。
好適には、PC9等に表示出力される要約文は、操作者の修正入力により、適宜更新され得る。この更新結果を学習し、要約文生成の際に参照されるべき重要語テーブル、不要語テーブル、各種変換テーブル等を適宜更新することにより、より高精度かつ簡明な要約文を生成することが可能となる。
本実施形態において、要約生成サーバ7はさらに、音声認識サーバ5から供給される対話音声テキストを入力として、感情語テーブル(図3の感情語テーブル37)等を参照して、対話音声テキスト中の感情表現部分を抽出し、要約文に含めるべき感情表現語に変換する。
図2は、本実施形態に係る音声認識サーバ5の機能構成の非限定的一例を示す図である。
図2に示す音声認識サーバ5の各機能モジュールのうち、ソフトウエアにより実現される機能については、各機能モジュールの機能を提供するためのプログラムがROM等のメモリに記憶され、RAMに読み出してCPUが実行することにより実現される。ハードウエアにより実現される機能については、例えば、所定のコンパイラを用いることで、各機能モジュールの機能を実現するためのプログラムからFPGA上に自動的に専用回路を生成すればよい。FPGAとは、Field Programmable Gate Arrayの略である。また、FPGAと同様にしてGate Array回路を形成し、ハードウエアとして実現するようにしてもよい。また、ASIC(Application Specific Integrated Circuit)により実現するようにしてもよい。なお、図2に示した機能ブロックの構成は一例であり、複数の機能ブロックが1つの機能ブロックを構成するようにしてもよいし、いずれかの機能ブロックが複数の機能を行うブロックに分かれてもよい。図3に示す要約生成サーバ7、および他のサーバ装置の機能構成についても同様である。
図2を参照して、音声認識サーバ5は、音声認識前処理部51、音声認識部52、音声認識後処理部53、および相槌解析部54を備える。
一方、相槌解析部54はまた、受け答えと判定されたテキストは、要約生成サーバ7が生成する要約文に含まれるよう、対話音声テキスト33に含めるとともに、対話音声テキスト中で当該テキストに「受け答え」である旨をタグ付けする。この相槌解析処理の詳細は、図13および図14を参照して後述する。
図3は、本実施形態に係る要約生成サーバ7の機能構成の非限定的一例を示す図である。
図3を参照して、要約生成サーバ7は、テキスト補正部71、冗長性排除部72、要約文生成部73、感情解析部74、および要約文短縮部75を備える。
要約文短縮部75は、要約文生成部73から供給される要約文が、所定長、例えば所定文字数の閾値を超えた場合に、当該閾値内の要約文長となるよう、要約文を短縮し、短縮化された要約文を要約文テキスト38として出力する。
図4は、音声認識サーバ5の各部が実行する音声認識処理の処理手順の非限定的一例を示すフローチャートである。
S1で、音声認識サーバ5の音声認識前処理部51は、対話音声ファイル31から、1通話ごとにファイル化された対話音声データを読み出す。
S2で、音声認識サーバ5の音声認識前処理部51は、S1で読み出された対話音声中の話者を識別する。具体的には、音声認識前処理部51は、対話音声ファイルに対応付けられた呼情報の話者識別情報を参照することにより、対話音声から話者、例えば顧客とオペレータ、を識別することができる。
後段の音声認識部52では、識別された話者ごとに、対話音声データが音声認識されるとともに、音声認識された対話音声テキストから要約を生成する要約生成サーバ7の要約文生成部73では、対話録音のタイムスタンプを参照して、双方の話者の認識結果のテキストを対応付けることができる。
代替的に、音声認識前処理部51は、一方の話者のみ、例えばオペレータの発話であると識別された発話の対話音声データのみを音声認識して、対話音声テキストに変換してもよい。音声認識の対象を制限することで、高負荷な音声認識を行う音声認識サーバ5内におけるハードウエア資源が低減でき、音声認識処理や要約文生成処理のリアルタイム性が向上するとともに、対話音声テキストファイル等のリソース容量も削減できる。
具体的には、音声認識前処理部51は、対話音声データ中で一定の無音区間を検出し、検出された無音区間で音声を区切ることにより、有音区間を切り出して発話単位の対話音声として分離する。
音声認識前処理部51は、一定の長さの無音区間を検出する。検出すべき無音区間は、例えば、1.5秒以上の無音区間であってよく、例えば1秒から2秒の間でその下限値が調整されてよい。この無音区間の下限値を、第1の閾値という。この無音区間の下限値は、例えば息継ぎに要する時間を考慮して設定することができる。また、この無音区間の下限値は、例えば「言ったよね」の発話中の撥音「っ」を誤って無音区間として検出しないよう設定されることが好適である。
同様に、図5を参照して、音声認識前処理部51は、CH2のオペレータの音声から、第1の閾値を下限値とする無音区間(SL21、SL22、・・・、SL26)を検出し、検出された2つの無音区間の間にある有音区間(SP21、SP22、・・・、S27)を抽出する。抽出された有音区間(SP21、SP22、・・・、S27)のそれぞれが、オペレータとして識別された音声中の1つの発話単位となる。
本実施形態においては、このように対話音声データを発話単位で音声認識処理を実行する。上記の無音区間は、当該無音区間中に話者が切り替わったこと、あるいは同一の話者が話題ないし内容を転換したことを推認させる。このため、無音区間の前後では発話内容における連続性が乏しいと推定でき、発話単位で対話音声テキストを音声認識することで、認識精度の向上が期待できる。
音声認識部52が実行する音声認識処理における文字コード列への変換の一例として、例えば、対話音声データ中の、必要に応じて各種変換処理された音声波形から抽出される特徴量を、予め定義されている音素ごとの参照音響パターンと比較処理することにより、音声波形データを文字コード列に変換することができる。
なお、S5における変換処理の詳細は、図7および図8を参照して後述する。
相槌解析部54は、この判定結果に基づいて、相槌と判定されたテキストを、音声認識後処理部53が出力する要約単位に区切られた対話音声テキスト33から削除する。一方、相槌解析部54は、受け答えと判定されたテキストを、要約生成サーバ7が生成する要約文に含まれるよう、通話音声テキスト33に含めるとともに、対話音声テキスト中で当該テキスト要素に「受け答え」である旨をタグ付け(種別付与)する。なお、S6における相槌解析処理の詳細は、図13および図14を参照して後述する。
S7で、相槌解析部54は、受け答えと判定されたテキストを付加した要約単位に区切られた対話音声テキストを出力する。
図7は、図4のS5で音声認識後処理部53が実行する音声認識後処理の詳細処理手順の一例を示すフローチャートである。
図7を参照して、S51で、音声認識サーバ5の音声認識後処理部53は、音声認識辞書32を参照して、S4で音声認識部52が出力する音声認識結果である発話単位の対話音声テキストの構文解析を実行する。
S52で、音声認識後処理部53は、音声認識辞書32を参照して、発話単位の対話音声テキストの形態素解析を実行する。なお、S51の構文解析およびS52の形態素解析は、いずれかを先に実行してもよく、同時並行的に実行されてよい。
図11は、図9に示す発話単位の対話音声テキストに対して、S52における形態素解析処理を実行して得られる形態素解析結果の非限定的一例を示す。図11に示すように、形態素解析結果は、抽出された形態素ごとに、書字、読み、取得された品詞種別(大分類、中分類、小分類)を含んでよい。
図8は、図7のS53で音声認識後処理部53が実行する要約単位への分離処理の詳細処理手順の一例を示すフローチャートである。
S531で、音声認識後処理部53は、形態素解析および構文解析の結果得られた区切り単位の品詞種別が、名詞か否かを判定する。解析の結果得られた区切り単位の品詞種別が名詞である場合S(S531:Y)、S532に進む。一方、解析の結果得られた区切り単位の品詞種別が名詞以外である場合、S532以降の処理をスキップして処理を終了し、S6へ進む。
図12中の四角記号は、それぞれ要約単位の区切りを示す。図12に示すように、S5の自然発話への変換および要約単位への分離処理を実行することにより、連続する「対話」、「要約」、「処理は」が1つの要約単位に、また、連続する「処理」、「対象」、「データの」が他の1つの要約単位に、それぞれ結合されて、要約単位を構成している。
音声認識サーバ5の音声認識後処理部43はさらに、分離された要約単位の対話音声テキストのそれぞれに、音声認識辞書32を参照することにより、種別や重み付けを付加してよい。図12では、要約単位「対話要約処理は」および要約単位「処理対象データの」が、それぞれ要約文に含められるべき重要要約単位として重み付けされている。
図13は、図4のS6で音声認識サーバ5の相槌解析部54が実行する相槌解析処理の詳細処理手順の非限定的一例を示すフローチャートである。
図13を参照して、S61で、音声認識サーバ5の相槌解析部54は、双方の話者、例えば顧客およびオペレータの対話音声を対話音声ファイル31から取得する。対話音声ファイル31には、1通話ごとに双方の話者を対応付けることが可能なタイムスタンプが付与されているため、相槌解析部44は、1通話単位を構成する双方の話者の対話音声を取得することができる。或いは、通話単位ごとに当該通話単位を構成する話者の対話音声それぞれに共通の識別子が付与されることにより、双方の話者の対話音声を対応付けてもよい。S61では、取得された双方の話者の対話音声とともに、当該対話音声を音声認識して得られた対話音声テキストが入力される。
図14(a)を参照して、CH1の顧客の対話音声中の短い発話(SP14)は、対話の相手であるCH2のオペレータの発話(SP24)の間になされた短い発話であるため、S62で検出される。S62で検出すべき短い発話とは、例えば2秒未満であってよい。
相手が発話中に短い発話が検出されない場合(S62:N)、S63からS68の処理をスキップして処理を終了し、S7へ進む。一方、相手が発話中に短い発話が検出された場合(S62:Y)、S63に進む。
図14(a)を参照して、CH1の顧客の音声中の短い発話(SP14)に対応するCH2のオペレータの発話では、図4のS3で音声認識前処理部41により、第1の閾値以上の長さの無音区間を含まないため、1つの発話単位SP24として検出されている。S65では、この第1の閾値より小さい第2の閾値を用いて、対話の相手の音声に短い無音区間が検出できるか否かが判定される。この第2の閾値は、第1の閾値より小さい値を持ち、例えば、1秒であり、0.5秒から1.5秒の間で調整されてよい。
S67で、相槌解析部54は、S66で受け答えと判定された短い発話の前後で、対話の相手の音声を2つの発話単位に分離する。
図6は、要約生成サーバ7の各部が実行する要約生成処理の処理手順の非限定的一例を示すフローチャートである。
図6を参照して、S10で、要約生成サーバ7のテキスト補正部71は、要約単位に区切られた対話音声テキスト33から1通話単位の対話音声テキストを読み出す。
図15は、テキスト補正部71が参照する句読点テーブルの非限定的一例を示す。図15の句読点テーブルは、句点または読点を直後に挿入すべき用語を定義する。図15において、「1」は読点の挿入、「0」は句点の挿入を示す。テキスト補正部71は、図15の句読点テーブルを参照して、要約単位の区切り記号から後方一致で、句読点テーブルに定義される「ますが」、「ますか」、「ます」、「はい」等の語を検索し、検索された語の直後に、句読点テーブルの定義に従って句点または読点を挿入していく。テキスト補正部71は、図15の句読点テーブルに定義される検索語のうち、字数の多いものから順に検索してよい。
数詞の意味としては、例えば、「日付」、「時間」、「金額」、「電話番号」、「個数」等が付与され得るがこれに限定されない。
一方、テキスト補正部71は、対話音声テキスト中に前後の語に関連しない数詞が検索された場合、誤認識と判定して、対話音声テキストから当該数詞を削除してよい。また、テキスト補正部71は、要約文中における視認性および明瞭性向上のため、検索された数詞を半角数字に変換してよい。
具体的には、冗長性排除部72は、不要語テーブル35を参照して、対話音声テキストから不要語を削除する。
図17は、冗長性排除部72が参照する不要語テーブル35の非限定的一例を示す。図17を参照して、不要語テーブル35には、「えー」等の間投詞、「いつもお世話になっております。」等の定型挨拶文等が不要語として定義されている。
例えば、重要語テーブル34にキーワードとして表記「eVoice」、読み「イーボイス」と登録されていたものとする。
この場合、認識結果が「明日の10時にいいeVoiceへ伺います。」であったとすると、冗長性排除部72は、登録済みのキーワードの直前に読みが先頭から部分一致するものを検索し、検索された語を削除する。これにより、言い淀み箇所を対話音声テキストから削除することができる。
同様に、認識結果が「明日の10時にeVoiceへeVoiceにお伺いします。」であったとすると、冗長性排除部72は、上記のように、登録済みのキーワードの繰り返しは前方を削除する。これにより、繰り返し箇所を対話音声テキストから削除することができる。
なお、図19の文体変換テーブル36中、変換元の「ちょっと」の語には対応する変換先の文章体の語が定義されていない。この場合、要約文生成部72は、変換元の語を対話音声テキストから削除すればよい。
図19、図20および図21はそれぞれ、要約文生成部73が参照する重要語テーブル34の非限定的一例を示す。図17を参照して、重要語テーブル34には、「連絡」、および「確認」の語が重要語として定義されている。重要語テーブル34には、重要語を可変の重み(ポイント)とともに定義してよい。図19には、「連絡」、および「確認」の語には、いずれも重み「1」が定義されている。また、ユーザが追加や削除等の編集可能な他の重要語テーブル34を提供し、固有名詞等を適宜定義可能としてよい。
要約文生成部73は、対話音声テキストから、重要語テーブル34に定義された重要語を検索し、検索された重要語を対応する重みに応じて重み付けして、生成すべき要約文に含める。
なお、好適には、要約文生成部73は、冗長性排除部72から複数の文が供給された場合と単独の文が供給された場合のいずれであっても、1つの通話単位について1つの要約文を生成してよい。
好適には、要約文短縮部75は、対話要約文が一覧表示される照会結果表示画面において、1通話単位の要約文表示用に設けられた出力欄に要約文全文がスクロールを要することなく一瞥して可読な範囲の文字数を閾値として設定してよい。これにより、要約文確認のための追加的操作が不要となり、要約文全体の迅速な視認が可能となる。
一例として、要約文短縮部75は、冗長性排除部72から供給される対話音声テキストを、句点(「。」)ごとに区切り、1つの対話音声テキスト文ごとに、文中に出現する重要語の重要度ポイントを加算し、高い重要度が算出された通話テキスト文を優先的に選択してよい。
要約文短縮部75は、短縮された要約文を、要約文テキスト38のファイルへ出力する。
音声認識サーバ5の相槌解析部54により実行された図13の相槌解析処理により、一方の話者(例えば、顧客)により発話された、受け答えと判定された対話音声テキストと、当該受け答えの直前に他方の話者(例えば、オペレータ)により発話された、当該受け答えを促した、何に対する受け答えであるかを特定する対話音声テキストとが対となり、「受け答え」の種別が付与されて、一問一答形式の対話として対話音声テキストに含まれている。
前者の対話音声データに基づく感情解析処理において、感情解析部74から呼び出された感情解析サーバ6は、通話録音サーバ3から供給される対話音声データを入力として、話者ごとに例えば、喜怒、満足度、ストレス度、信頼度等の話者の感情を数値化した定量的指標を話者の感情解析結果として出力する。
後者の対話音声テキストに基づく感情解析処理において、要約生成サーバ7の感情解析部74は、音声認識サーバ5から供給される対話音声テキストを入力として、対話音声テキスト中の感情語を抽出し、感情語テーブル37を参照して、要約文に含めるべき感情表現に変換する。
例えば、通話の始めから「喜怒」の感情指標がマイナスで「怒り」が高いが、通話の最後には、「喜怒」の感情指標が0またはプラスに転化して「喜び」の傾向を示し、かつ「満足度」の感情指標も0またはプラスに転化して「満足」の傾向を示している場合、オペレータの応対履歴の評価は、優れた応対を示す「応対優良」としてよい。
ただし、通話の最後に、例えば顧客の「信頼度」の感情指標がマイナスで「不信」の傾向を示している場合、当該顧客の発話内容の信頼度が低いと評価することができるため、当該顧客の発言につき要注意であることを示す「顧客注意」を注記してもよい。
この場合も、通話の最後に、例えば顧客の「信頼度」の感情指標がマイナスで「不信」の傾向を示している場合、当該顧客の発話内容の信頼度が低いと評価することができるため、当該顧客の発言につき要注意であることを示す「顧客注意」を注記してもよい。
また、上記のような傾向が示されなかった場合には、妥当な応対であることを示す「応対通常」としてよい。
この場合、例えば、前回までのストレス度の感情指標の数値の遷移と比較して今回の通話でのストレスが高まっている場合には、オペレータの評価指標を、当該オペレータのストレス状態を引き続き監視すべきであることを示す「応対注意」としてよい。
この場合、オペレータの評価指標を、当該オペレータの応対を中止させ、直ちにヒヤリングを実施すべきであることを示す「応対中止」としてよい。
上記のように、生成される要約文に話者の感情表現を反映させることにより、話者の感情遷移の状況把握や、対策を取るべき問題通話の自動抽出が容易に可能となる。
S18で、要約文生成部73または要約文短縮部75は、最終的に生成された要約文を要約文テキスト38のファイルへ出力する。
図28は、音声認識サーバ5が出力し、要約生成サーバ7に入力される1つの通話単位の対話音声テキストの非限定的一例を示す。図28の対話音声テキストは、識別された話者(オペレータ(OP)または顧客(CS))ごとに、各行に1つの発話単位の対話音声テキストが示されており、各行の対話音声テキストは、四角で示される要約単位の区切りが挿入されている。
図29は、図28に示す対話音声テキストから、要約生成サーバ7の要約文生成部73が中間的に出力する要約文テキストの非限定的一例を示す。図29に示すように、図28の20発話単位のテキストから、6発話単位のテキスト(3番目、6番目、9番目、11番目、14番目、および15番目の発話単位のテキスト)が抽出されるとともに、抽出された発話単位のテキストのそれぞれが、要約文用のより簡潔なテキストに変換されている。要約文生成部73は、重要語テーブル34、不要語テーブル35、および各種変換テーブル36を参照することにより、図28の1通話全体の対話音声テキストから図29の中間的要約文テキストに変換する。
図32は、感情解析結果として、図31で照会された通話単位についての、話者ごとの感情指標について、感情指標の数値から得られる感情解析結果が、「喜怒」が「通常」、満足感が「普通」ないし「やや高い」、ストレスが「なし」、「若干あり」等と示されている。図31と図32は同時に視認可能に表示装置上表示されてよい。
また、図33左下の生成された要約文には、対話において最終的に「サクサファンドの目論見書をインターネットで見ることを了承」したことが示されているが、当該要約文部分のうち「了承」に対して、複数の感情指標の数値から得られる感情解析結果を、例えば、「了承(快諾)」または「了承(渋々承諾)」のように括弧書等で付加してもよく、「了承」を「快諾」ないし「渋々承諾」等の感情解析結果を含む表現で置き換えてもよい。
本実施形態によれば、このように対話録音データ、対話音声の音声認識結果、自然言語処理結果、感情解析結果、および生成された要約文を統合して出力することができる。
図34は、音声処理システムにおける各装置が備えるハードウエア構成の一例を示す図である。音声取得サーバ2、通話録音サーバ3、制御サーバ4、音声認識サーバ5、感情解析サーバ6、要約生成サーバ7、およびPC9,10は、図34に示すハードウエアコンポーネントの全部又は一部を備える。図34に示す各装置100は、CPU101、ROM102、RAM103、外部メモリ104、入力部105、表示部106、通信I/F107及びシステムバス108を備えてよい。
なお、上述した各実施形態は、その複数を組み合わせて実現することが可能である。
また、本発明は、上述の実施形態の一部または1以上の機能を実現するプログラムによっても実現可能である。すなわち、そのプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータ(またはCPUやMPU等)における1つ以上のプロセッサがプログラムを読出し実行する処理により実現可能である。また、そのプログラムをコンピュータ可読な記録媒体に記録して提供してもよい。
また、コンピュータが読みだしたプログラムを実行することにより、実施形態の機能が実現されるものに限定されない。例えば、プログラムの指示に基づき、コンピュータ上で稼働しているオペレーティングシステム(OS)などが実際の処理の一部または全部を行い、その処理によって上記した実施形態の機能が実現されてもよい。
2 音声取得サーバ
3 通話録音サーバ
4 制御サーバ
5 音声認識サーバ
6 感情解析サーバ
7 要約生成サーバ
8 構内回線
9、10 PC
31 対話音声
32 音声認識辞書
33 要約単位テキスト
34 重用語テーブル
35 不要語テーブル
36 変換テーブル
37 感情語テーブル
51 音声認識前処理部
52 音声認識部
53 音声認識後処理部
54 相槌解析部
71 テキスト補正部
72 冗長性排除部
73 要約文生成部
74 感情解析部
75 要約文短縮部
Claims (10)
- 対話音声データから対話の話者を識別する話者識別部と、
前記話者識別部により識別された話者ごとに、前記対話音声データを発話単位に分離する音声分離部と、
前記対話音声データを、前記音声分離部により分離された前記発話単位で音声認識して対話音声テキストを生成する音声認識部と、
前記音声認識部により生成された前記対話音声テキストを要約して要約文テキストを生成する要約生成部と、
第1の話者の前記対話音声テキストから所定時間長内の短い発話を検出し、検出された前記短い発話に対応する第2の話者の前記対話音声データの発話単位に基づいて、前記第1の話者の前記短い発話が受け答えか否かを判定し、受け答えと判定された前記短い発話を、前記要約生成部により生成された前記要約文テキストに付加する受け答え判定部と、
を備えることを特徴とする対話要約生成装置。 - 前記音声分離部は、前記対話音声データから、第1の閾値以上の時間長の無音区間を検出し、前記無音区間で区切られた有音区間を前記発話単位として分離する、
ことを特徴とする請求項1に記載の対話要約生成装置。 - 前記受け答え判定部は、検出された前記短い発話に対応する前記第2の話者の前記対話音声データの発話単位中に、前記第1の閾値より小さい第2の閾値以上の時間長の無音区間が検出できるか否かを判定し、前記第2の閾値以上の時間長の前記無音区間が検出できる場合に、前記第1の話者の前記短い発話を、前記受け答えと判定する、
ことを特徴とする請求項2に記載の対話要約生成装置。 - 前記受け答え判定部は、検出された前記短い発話が受け答えであると判定した場合に、前記短い発話に対応する第2の話者の前記対話音声データの発話単位を前記無音区間の前後で分離し、分離された前記無音区間の直前の発話区間の対話音声データを音声認識して得られた対話音声テキストと、受け答えと判定された前記短い発話とを対にして、前記要約文テキストに付加する、
ことを特徴とする請求項3に記載の対話要約生成装置。 - 前記受け答え判定部は、前記受け答えでないと判定された前記第1の話者の前記短い発話を相槌と判定し、判定された前記相槌を前記要約生成部に入力すべき前記対話音声テキストから削除する、
ことを特徴とする請求項1から4のいずれか1項に記載の対話要約生成装置。 - 前記音声認識部により生成された前記対話音声テキストを解析して複数の要素に区切り、区切られた複数の要素で名詞が連続するか否かを判定し、名詞が連続すると判定された複数の要素を結合して1つの要約単位を生成し、生成された要約単位で、前記要約生成部へ前記対話音声テキストを供給する音声認識後処理部をさらに備える、
ことを特徴とする請求項1から5のいずれか1項に記載の対話要約生成装置。 - 前記音声認識後処理部は、生成された前記要約単位のそれぞれに重みと種別を付与する、
ことを特徴とする請求項6に記載の対話要約生成装置。 - 通話音声または対面での対話音声を録音して前記対話音声データを取得する音声取得部をさらに備える、
ことを特徴とする請求項1から7のいずれか1項に記載の対話要約生成装置。 - 対話音声データから対話の話者を識別するステップと、
識別された話者ごとに、前記対話音声データを発話単位に分離するステップと、
前記対話音声データを、分離された前記発話単位で音声認識して対話音声テキストを生成するステップと、
生成された前記対話音声テキストを要約して要約文テキストを生成するステップと、
第1の話者の前記対話音声テキストから所定時間長内の短い発話を検出し、検出された前記短い発話に対応する第2の話者の前記対話音声データの発話単位に基づいて、前記第1の話者の前記短い発話が受け答えか否かを判定し、受け答えと判定された前記短い発話を、前記要約生成部により生成された前記要約文テキストに付加するステップと、
を含むことを特徴とする対話要約生成方法。 - 対話要約生成処理をコンピュータに実行させるための対話要約生成プログラムであって、該プログラムは、前記コンピュータに、
対話音声データから対話の話者を識別する話者識別処理と、
識別された話者ごとに、前記対話音声データを発話単位に分離する音声分離処理と、
前記対話音声データを、分離された前記発話単位で音声認識して対話音声テキストを生成する音声認識処理と、
生成された前記対話音声テキストを要約して要約文テキストを生成する要約生成処理と、
第1の話者の前記対話音声テキストから所定時間長内の短い発話を検出し、検出された前記短い発話に対応する第2の話者の前記対話音声データの発話単位に基づいて、前記第1の話者の前記短い発話が受け答えか否かを判定し、受け答えと判定された前記短い発話を、前記要約生成部により生成された前記要約文テキストに付加する受け答え判定処理と、を含む処理を実行させるためのものである、
ことを特徴とする対話要約生成プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018205370A JP6517419B1 (ja) | 2018-10-31 | 2018-10-31 | 対話要約生成装置、対話要約生成方法およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018205370A JP6517419B1 (ja) | 2018-10-31 | 2018-10-31 | 対話要約生成装置、対話要約生成方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6517419B1 JP6517419B1 (ja) | 2019-05-22 |
JP2020071675A true JP2020071675A (ja) | 2020-05-07 |
Family
ID=66625459
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018205370A Active JP6517419B1 (ja) | 2018-10-31 | 2018-10-31 | 対話要約生成装置、対話要約生成方法およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6517419B1 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7237381B1 (ja) | 2021-11-22 | 2023-03-13 | 株式会社RevComm | プログラム、情報処理システム及び情報処理方法 |
WO2023157296A1 (ja) * | 2022-02-21 | 2023-08-24 | Nttテクノクロス株式会社 | 応対支援システム、応対支援方法及びプログラム |
JP7344612B1 (ja) * | 2023-04-20 | 2023-09-14 | amptalk株式会社 | プログラム、会話要約装置、および会話要約方法 |
JP7474295B2 (ja) | 2022-09-01 | 2024-04-24 | 三菱電機インフォメーションシステムズ株式会社 | 情報処理システム、情報処理方法、およびプログラム |
JP7474296B2 (ja) | 2022-09-01 | 2024-04-24 | 三菱電機インフォメーションシステムズ株式会社 | 情報処理システム、情報処理方法、およびプログラム |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021117372A (ja) * | 2020-01-27 | 2021-08-10 | ソニーグループ株式会社 | 情報処理装置、情報処理システム、情報処理方法および情報処理プログラム |
KR102312993B1 (ko) | 2020-06-12 | 2021-10-13 | 주식회사 리턴제로 | 인공신경망을 이용한 대화형 메시지 구현 방법 및 그 장치 |
CN114357987A (zh) * | 2021-12-28 | 2022-04-15 | 讯飞智元信息科技有限公司 | 摘要生成方法及相关装置、设备和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005242891A (ja) * | 2004-02-27 | 2005-09-08 | Fujitsu Ltd | 事例検索プログラム |
JP2013016106A (ja) * | 2011-07-06 | 2013-01-24 | Kyocera Communication Systems Co Ltd | 要約文生成装置 |
JP2013140226A (ja) * | 2011-12-28 | 2013-07-18 | Fujitsu Ltd | 音声認識装置、音声認識方法及び音声認識プログラム |
JP2017111190A (ja) * | 2015-12-14 | 2017-06-22 | 株式会社日立製作所 | 対話テキスト要約装置及び方法 |
JP2017181596A (ja) * | 2016-03-28 | 2017-10-05 | 株式会社富士通エフサス | 分析装置、分析方法および分析プログラム |
-
2018
- 2018-10-31 JP JP2018205370A patent/JP6517419B1/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005242891A (ja) * | 2004-02-27 | 2005-09-08 | Fujitsu Ltd | 事例検索プログラム |
JP2013016106A (ja) * | 2011-07-06 | 2013-01-24 | Kyocera Communication Systems Co Ltd | 要約文生成装置 |
JP2013140226A (ja) * | 2011-12-28 | 2013-07-18 | Fujitsu Ltd | 音声認識装置、音声認識方法及び音声認識プログラム |
JP2017111190A (ja) * | 2015-12-14 | 2017-06-22 | 株式会社日立製作所 | 対話テキスト要約装置及び方法 |
JP2017181596A (ja) * | 2016-03-28 | 2017-10-05 | 株式会社富士通エフサス | 分析装置、分析方法および分析プログラム |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7237381B1 (ja) | 2021-11-22 | 2023-03-13 | 株式会社RevComm | プログラム、情報処理システム及び情報処理方法 |
WO2023090380A1 (ja) * | 2021-11-22 | 2023-05-25 | 株式会社RevComm | プログラム、情報処理システム及び情報処理方法 |
JP2023076003A (ja) * | 2021-11-22 | 2023-06-01 | 株式会社RevComm | プログラム、情報処理システム及び情報処理方法 |
WO2023157296A1 (ja) * | 2022-02-21 | 2023-08-24 | Nttテクノクロス株式会社 | 応対支援システム、応対支援方法及びプログラム |
JP7474295B2 (ja) | 2022-09-01 | 2024-04-24 | 三菱電機インフォメーションシステムズ株式会社 | 情報処理システム、情報処理方法、およびプログラム |
JP7474296B2 (ja) | 2022-09-01 | 2024-04-24 | 三菱電機インフォメーションシステムズ株式会社 | 情報処理システム、情報処理方法、およびプログラム |
JP7344612B1 (ja) * | 2023-04-20 | 2023-09-14 | amptalk株式会社 | プログラム、会話要約装置、および会話要約方法 |
Also Published As
Publication number | Publication date |
---|---|
JP6517419B1 (ja) | 2019-05-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6517419B1 (ja) | 対話要約生成装置、対話要約生成方法およびプログラム | |
US11594221B2 (en) | Transcription generation from multiple speech recognition systems | |
US11935540B2 (en) | Switching between speech recognition systems | |
US10672383B1 (en) | Training speech recognition systems using word sequences | |
US11170761B2 (en) | Training of speech recognition systems | |
US8145482B2 (en) | Enhancing analysis of test key phrases from acoustic sources with key phrase training models | |
US8676586B2 (en) | Method and apparatus for interaction or discourse analytics | |
US8301447B2 (en) | Associating source information with phonetic indices | |
US7788095B2 (en) | Method and apparatus for fast search in call-center monitoring | |
US7275032B2 (en) | Telephone call handling center where operators utilize synthesized voices generated or modified to exhibit or omit prescribed speech characteristics | |
JP6513869B1 (ja) | 対話要約生成装置、対話要約生成方法およびプログラム | |
US20100217591A1 (en) | Vowel recognition system and method in speech to text applictions | |
US20110004473A1 (en) | Apparatus and method for enhanced speech recognition | |
JP5311348B2 (ja) | 音声データ内の音声キーワード照合システム、その方法及び音声データ内の音声キーワード照合プログラム | |
WO2016176371A1 (en) | Methods and systems for determining conversation quality | |
US9401145B1 (en) | Speech analytics system and system and method for determining structured speech | |
KR20070090745A (ko) | 감정 보존 기능을 갖는 음성 및 텍스트 채널을 통한 통신 | |
JP2011087005A (ja) | 通話音声要約生成システム、その方法及び通話音声要約生成プログラム | |
US11721324B2 (en) | Providing high quality speech recognition | |
EP1317749B1 (en) | Method of and system for improving accuracy in a speech recognition system | |
CN114328867A (zh) | 一种人机对话中智能打断的方法及装置 | |
Westall et al. | Speech technology for telecommunications | |
Wu et al. | Intelligent Call Manager Based on the Integration of Computer Telephony, Internet and Speech Processing | |
EP1103954A1 (en) | Digital speech acquisition, transmission, storage and search system and method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181031 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20181101 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20181120 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20181127 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20190124 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190307 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190402 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190403 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190416 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190417 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6517419 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313115 |
|
R360 | Written notification for declining of transfer of rights |
Free format text: JAPANESE INTERMEDIATE CODE: R360 |