JP2017111190A - 対話テキスト要約装置及び方法 - Google Patents

対話テキスト要約装置及び方法 Download PDF

Info

Publication number
JP2017111190A
JP2017111190A JP2015243243A JP2015243243A JP2017111190A JP 2017111190 A JP2017111190 A JP 2017111190A JP 2015243243 A JP2015243243 A JP 2015243243A JP 2015243243 A JP2015243243 A JP 2015243243A JP 2017111190 A JP2017111190 A JP 2017111190A
Authority
JP
Japan
Prior art keywords
text
word
call
unit
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015243243A
Other languages
English (en)
Other versions
JP6604836B2 (ja
Inventor
藤田 雄介
Yusuke Fujita
雄介 藤田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2015243243A priority Critical patent/JP6604836B2/ja
Priority to US15/365,147 priority patent/US20170169822A1/en
Publication of JP2017111190A publication Critical patent/JP2017111190A/ja
Application granted granted Critical
Publication of JP6604836B2 publication Critical patent/JP6604836B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M11/00Telephonic communication systems specially adapted for combination with other electrical systems
    • H04M11/10Telephonic communication systems specially adapted for combination with other electrical systems with dictation recording and playback systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2203/00Aspects of automatic or semi-automatic exchanges
    • H04M2203/40Aspects of automatic or semi-automatic exchanges related to call centers

Abstract

【課題】対話構造を利用して単語単位で対話テキストを読み易く訂正する要約技術を提供する。
【解決手段】対話テキスト要約装置は、対話形式のテキストから認識された単語と、前記単語の時系列情報と、前記単語の発言者を識別する識別情報とをデータベースから取得する認識結果取得部と、前記単語と前記単語の時系列情報と前記識別情報と要約モデルに基づいて前記単語を訂正し、訂正結果を前記データベースに出力するテキスト要約部とを有する。
【選択図】図1

Description

本発明は、対話形式のテキスト又はメッセージ(以下、「対話形式のテキスト」又は「対話テキスト」という。)を自動的に要約する技術に関する。
顧客からの問い合わせ等に対応するコールセンタの多くでは、オペレータと顧客の間で交わされた通話の内容を通話録音装置に録音している。今日、通話録音データベースに録音される音声情報のサイズは年々増加している。現在、録音された音声情報を自動的にテキスト化し、コールセンタ業務の品質や効率の向上に繋げようとする考えがある。
しかし、自動でテキスト化されたデータは、人間にとって読みづらいという問題がある。その要因として、認識精度が不十分である点と、重要な箇所のみを要約してテキスト化することが困難であるという点が挙げられる。
特許文献1の要約には、「対話内容から1つ以上の重要文を抽出して要約データを生成する対話要約システム1であって、対話内容における各ステートメントの情報、および各ステートメントについての重要度を示すスコアの情報と、話者毎の連続したステートメントを単位とするブロックの情報とを有する対話構造データ14に基づいて、所定の要約条件を満たすまで、スコアが最も高いステートメントを重要文として対話構造データ14から抽出し、重要文を抽出した第1のブロックおよびその近辺の第2のブロックに対して所定のスコアを割り当て、第1および第2のブロックに含まれる各ステートメントのスコアに対して所定のスコアを所定の条件に従って割り当てて加算する重要文抽出部13を有する」対話要約システムが記載されている。以下では、この技術を「従来の方法」という。
特開2013−120514号公報
前述したように、従来の方法は、文章単位(ブロック単位)で重要度を決定して要約する手法であり、単語単位での重要度の決定は想定されていない。また、従来の方法は、仮に単語単位で重要度を決定できたとしても、対話の構造に基づいて単語単位の重要度を決定することは想定されていない。
対話の構造に基づいて単語単位の重要度を決定する機能は、例えば以下のような場面のテキストを要約する場合に有用になる、と発明者は考える。
・場面1:相手が話し続けている状態での相槌
このような場面での相槌は重要度が低く削除した方が読みやすいテキストになる。
・場面2:相手方の発言を受けての相槌や返しの発言
このような発言は重要度が高く、積極的に残すことが望まれる。
・場面3:「なるほど」と顧客から言われた直前のオペレータの発言
このような発言は重要度が高く、積極的に残すことが望まれる。
・場面4:重要単語を含む発言でも認識誤りがある場合
顧客側の誤りをオペレータが復唱して正している場合は、誤った発言を削除してしまった方が読みやすいテキストとなる。
そこで、本発明者は、対話構造を利用して単語単位で対話テキストを読み易く訂正する要約技術を提供する。
上記課題を解決するために、本発明は、例えば特許請求の範囲に記載の構成を採用する。本明細書は上記課題を解決する手段を複数含んでいるが、その一例を挙げるならば、「対話形式のテキストから認識された単語と、前記単語の時系列情報と、前記単語の発言者を識別する識別情報とをデータベースから取得する認識結果取得部と、前記単語と前記単語の時系列情報と前記識別情報と要約モデルに基づいて前記単語を訂正し、訂正結果を前記データベースに出力するテキスト要約部と、を有する対話テキスト要約装置」を特徴とする。
本発明によれば、対話形式のテキストを単語単位で自動的に訂正した読み易い要約を作成することができる。前述した以外の課題、構成及び効果は、以下の実施の形態の説明により明らかにされる。
実施例1のシステム構成を示すブロック図。 テキスト要約動作の概要を示すフローチャート。 通話録音DBのデータ構造例を示す図。 通話認識結果DBのデータ構造例を示す図。 テキスト要約部による単語訂正の例を示す図。 要約モデルの構造例を示す図。 通話可視化動作を説明するフローチャート。 結果表示画面で要約表示が選択された場合の表示例を示す図。 結果表示画面で要約表示が選択されなかった場合の表示例を示す図。 実施例2のシステム構成を示すブロック図。 実施例2におけるテキスト要約動作を説明する図。
以下、図面に基づいて、本発明の実施の形態を説明する。なお、本発明の実施の態様は、後述する実施例に限定されるものではなく、その技術思想の範囲において、種々の変形が可能である。
(1)実施例1
(1−1)システム構成
図1に、本実施例に係る通話録音認識要約システムの全体構成を示す。当該システムは、顧客電話機100、オペレータ電話機200、通話録音認識要約装置300、通話録音可視化端末装置400で構成される。顧客電話機100は顧客が使用する電話機であり、例えば固定電話機、携帯電話機、スマートフォンなどである。オペレータ電話機200は、コールセンタのオペレータが使用する電話機である。図1では、顧客電話機100とオペレータ電話機200が各1台の例を示しているが、各電話機は複数台であってよい。
通話録音認識要約装置300は、オペレータと顧客の間で交わされた音声情報を自動的にテキスト化する機能と、テキスト化により作成された対話テキストの要約を自動的に作成する機能と、要求に応じて対話テキストの要約を提供する機能とを提供する。多くの場合、通話録音認識要約装置300はサーバとして実現される。例えば通話録音認識要約装置300の構成要素のうちデータベースを除く機能部は、コンピュータ(CPU、RAM、ROM等)上で実行されるプログラムを通じて実現される。
通話録音可視化端末装置400は、要約された対話テキストを可視化する際に使用する端末である。通話録音可視化端末装置400は、モニタを有する端末であればよく、例えばデスクトップコンピュータ、ラップトップコンピュータ、スマートフォンなどである。図1では、通話録音可視化端末装置400が1台の例を示しているが、複数台あってもよい。
本実施例の場合、オペレータ電話機200、通話録音認識要約装置300及び通話録音可視化端末装置400は単一のコールセンタ内に配置される。もっとも、オペレータ電話機200、通話録音認識要約装置300及び通話録音可視化端末装置400の構成要素の全てが単一のコールセンタ内に存在するとは限らず、複数の拠点や複数の事業者に分散される形態も考えられる。
通話録音認識要約装置300は、通話録音部11と、発言者識別部12と、通話録音DB13と、通話録音取得部14と、音声認識部15と、通話認識結果DB16と、通話認識結果取得部17と、テキスト要約部18と、要約モデル19と、クエリ受付部22と、通話検索部23と、結果送信部24とを備えている。図1は、通話録音認識要約装置300を構成する全ての機能部が単一の事業者の管理下にある場合を想定している。
通話録音部11は、顧客電話機100とオペレータ電話機200との間で送受信される音声(通話)を取得し、通話毎に音声ファイルを作成する。通話録音部11は、例えばIP電話に基づく既知の録音システムを通じて該当する機能を実現する。通話録音部11は、個々の音声ファイルに録音時刻、内線番号、相手先の電話番号などを紐づけて管理する。発言者識別部12は、紐づけ情報を利用して、音声の発言者(送信者か受信者か)を識別する。すなわち、発言者がオペレータか顧客かを識別する。通話録音部11と発言者識別部12は、1つの通話から、送信側の音声ファイルと受信側の音声ファイルを作成し、通話録音データベース(DB:data base)13に保存する。通話録音DB13は大容量のストレージ装置又はシステムであり、記録媒体はハードディスク、光ディスク、磁気テープ等で構成される。通話録音DB13は、DAS(Direct Attached Storage)、NAS(Network Attached Storage)、SAN(Storage Area Network)として構成されてもよい。
通話録音取得部14は、通話毎に音声ファイル(送信者の音声ファイルと受信者の音声ファイル)を通話録音DB13から読出し、音声認識部15に与える。音声ファイルの読出しは、通話中(リアルタイム)に、又は、通話終了後の任意のタイミングに実行される。本実施例では、音声ファイルの読出しは、通話中(リアルタイム)に実行されるものとする。音声認識部15は、2つの音声ファイルの内容を音声認識してテキスト情報に変換する。音声認識には公知の技術を使用する。ただし、後段で実行される要約処理を考慮すると、テキスト情報を単語単位で時系列に出力できる音声認識技術が望ましい。音声認識結果は、通話認識結果DB16に登録される。通話認識結果DB16も大容量のストレージ装置又はシステムであり、通話録音DB13と同様の媒体や形態として実現される。なお、通話録音DB13と通話認識結果DB16は同じストレージ装置又はシステムの異なる記憶領域として管理されてもよい。
通話認識結果取得部17は、通話認識結果DB16から録音IDに紐づけられている通話認識結果を取得して単語の出現時刻順にソートする。ここでのソートにより、1つの録音IDに対して発言者IDが付与された単語の時系列が得られる。テキスト要約部18は、通話認識結果取得部17が作成した単語の時系列を入力すると、要約モデル19を適用し、単語単位でテキストを要約する。本実施例の場合、要約モデル19として、リカレントニューラルネットワークを想定する。テキスト要約部18による要約は、単語単位での訂正処理を伴う。単語単位の訂正情報は、テキスト要約部18から通話認識結果DB16にフィードバックされる。結果的に、通話認識結果DB16には、前述した1つの録音IDに対して発言者IDが付与された単語の時系列に、単語単位の訂正情報が紐付けられて保存される。
クエリ受付部22は、通話録音可視化端末装置400からクエリを受け付ける処理を実行する。クエリには、録音IDの他、要約表示の実行の有無等が含まれてもよい。通話検索部23は、クエリによって特定された録音IDに基づいて、発言者毎の単語の時系列を通話認識結果DB16から読み出す。結果送信部24は、読み出した発言者毎の単語の時系列を通話録音可視化端末装置400に送信する。
通話録音可視化端末装置400は、クエリの入力を受け付けるクエリ送信部21と、対話テキストを可視化する結果表示部25とを有している。通話録音可視化端末装置400はモニタを有し、クエリに入力や対話テキストの表示はモニタの画面上に表示されるインタフェース画面を通じて実行される。
(1−2)テキスト要約動作
図2に、通話録音認識要約装置300で実行されるテキスト要約動作の概要を示す。まず、通話録音部11が、顧客電話機100とオペレータ電話機200の間で送受信される音声(通話)を取得し、通話毎に音声ファイルを作成する(ステップS201)。前述したように、音声ファイルには、録音時刻、内線番号、相手先の電話番号などが紐づけられる。発言者識別部12は、この紐づけ情報を利用して音声の発言者(送信者か受信者か)を識別する(ステップS202)。通話録音部11および発言者識別部12は、1つの通話から送信側の音声ファイルと受信側の音声ファイルを作成し、通話録音DB13に保存する(ステップS203)。
図3に、通話録音DB13のデータ構造例を示す。通話録音DB13には、1つの通話に対して、録音ID、内線番号、電話番号、録音時刻、ファイル名、各ファイルのパスなどの情報が記録される。内線番号によってオペレータ電話機200が特定され、電話番号によって顧客電話機100が特定される。
図2の説明に戻る。次に、通話録音取得部14は、通話録音DB13から、録音された音声ファイルとして2つの音声ファイルを取得し、音声認識部15に与える(ステップS204)。音声認識部15は、音声認識技術を用いて2つの音声ファイルの内容をテキスト情報に変換する(ステップS205)。さらに、音声認識部15は、音声認識結果であるテキスト情報を単語単位で通話認識結果DB16に登録する(ステップS206)。
図4に、通話認識結果DB16のデータ構造例を示す。通話認識結果DB16は、音声区間テーブル401と通話認識結果テーブル402を備えている。音声区間テーブル401には、通話録音DB13の録音ID、発言者ID(本実施例の場合、送信側は“O”、受信側は“C”である。)、音声区間の開始時刻、終了時刻が記録される。ここでの音声区間は、音声認識部15による音声ファイルの処理結果として検出された呼気段落の開始と終了を単位として記録される。通話認識結果テーブル402には、録音ID、発言者ID、単語、単語の出現時刻が記録される。音声認識部15による情報の記録時には、訂正後単語の欄は空白である。
図2の説明に戻る。次に、通話認識結果取得部17は、通話認識結果DB16から通話認識結果を取得する(ステップS207)。具体的には、通話認識結果取得部17は、新たに録音された録音IDに紐づけられている通話認識結果を通話認識結果テーブル402から取得し、取得された単語を出現時刻順にソートする。ここでのソートにより、1つの録音IDに対して発言者IDが付与された単語の時系列が得られる。得られた単語の時系列は、テキスト要約部18に入力される。テキスト要約部18は、単語の時系列を入力すると、要約モデル19を適用し、単語単位でテキストを要約する(ステップS208)。
図5に、テキスト要約部18による単語訂正の例を示す。テキスト要約部18は、単語毎に訂正の必要性を評価し、その結果を出力する。テキスト要約部18は、例えば訂正の必要がある場合には訂正後の単語を出力し、削除の必要がある場合には「DELETE」を出力し、訂正の必要が無い場合には空白や特定の符号等を出力する。図5では、訂正の必要性が無いこと空白で表している。
図5に示すように、同じ単語「はい」であっても、顧客(発言者IDが“C”)の発言中にオペレータ(発信者IDが“O”)が行った相槌と捉えられる場合は削除され、相手の発言が終了した後の相槌と捉えられる場合には残されている。また、「あのー」や、「はい」の後に出現する「そうです」などの読み易さを妨げる単語は削除されている。また、前後の文脈の判断に基づいて「ません」が「ます」に訂正されている。さらに、顧客の発言のうち認識誤りと判定されたテキスト(例えば「日立 製 削除 で」)については削除している。本実施例では、このように単語単位の削除や訂正を、発言者ID及び時系列の文脈に基づいて行い、認識結果の読み易さを向上させている。
本実施例の場合、要約モデル19には、リカレントニューラルネットワークを使用する。図6に、リカレントニューラルネットワークの構成例を示す。以下、図6に基づいて、リカレントニューラルネットワークによる処理概要を説明する。入力層には、i番目の単語を表現するベクトルx(i)と発言者IDを表現する値d(i)とが与えられる。隠れ層の出力s(i)は、i−1番目の隠れ層の出力s(i−1)と、入力層に与えられるi番目の単語を表現するベクトルx(i)と、同じく入力層に与えられる発言者IDを表現するd(i)と、入力重み行列Uと、シグモイド関数σ(・)を用いて次式で表わされる。
s(i) = σ(U[x(i) d(i) s(i−i)]) …(式1)
出力層の出力y(i)は、隠れ層の出力s(i)と、出力重み行列Vと、ソフトマックス関数softmax(・)を用いて次式で表わされる。
y(i) = softmax(Vs(i)) …(式2)
このように計算された出力y(i)を、i番目の単語の訂正後の単語を表現するベクトルとする。ここで、入力重み行列Uと出力重み行列Vとは、学習によって事前に求めておく。このような学習は、入出力関係の正解を多数与えておけば、例えば通時的誤差逆伝播法などを用いて実現できる。ここで、入出力関係の正解を、音声認識結果の単語系列と、それを人間が要約した結果の単語系列とを用いて作成しておくことで、適切な要約モデルができる。実際には、このような正解の中には、冗長な単語の削除、認識誤り単語の訂正、文脈を考慮した不要文の削除などが混在することになるが、リカレントニューラルネットワークによる要約モデルではこれらを同じ枠組みで動作させることが可能となる。
なお、要約モデル19には、前述したリカレントニューラルネットワーク以外の仕組みを採用することもできる。例えば該当単語と、その前後に出現する単語と、それぞれの発言者IDとが予め定めた条件に合致する場合に訂正又は削除を指定するようなルールベースの仕組みを採用してもよい。また、要約モデル19は、リカレントニューラルネットワークのように時系列の履歴を考慮する方法でなくともよい。例えば削除すべき単語か否かの判定用として、前後の単語や発言者IDから構成した特徴量に基づいて、条件付き確率場等の識別モデルを用いてもよい。
(1−3)通話可視化動作
図7に、通話可視化時に実行される一連の動作を示す。通話可視化動作は、通話録音可視化端末装置400を起点に開始される。まず、クエリ送信部21が、インタフェース画面を通じて受け付けた所望の録音IDをクエリとして通話録音認識要約装置300に送信する(ステップS701)。ただし、録音IDは、通話録音DB13へのアクセスなどの別の手法により事前に取得され、選択可能にユーザに対して提示されるものとする。
クエリ受付部22は、クエリ送信部21が送信したクエリを受け付けて通話探索部23に与える(ステップS702)。通話検索部23は、クエリ受付部22が受け付けたクエリに含まれる録音IDに基づいて通話認識結果DB16を検索し、該当する音声区間の情報と認識結果の情報にアクセスする(ステップS703)。ここでは、音声区間テーブル401と通話認識結果テーブル402の両方を検索結果として結果送信部24に出力とする。結果送信部24は、通話検索部23が出力する検索結果を通話録音可視化端末装置400に送信する(ステップS704)。結果表示部25は、受信した検索結果をモニタに表示する(S705)。
図8に、結果表示画面801の例を示す。録音ID欄802には、検索された録音IDが表示される。なお、録音ID欄802は、クエリを受け付ける際の録音IDの入力にも用いられる。検索ボタン803が画面上でクリックされると、録音ID欄802に入力された録音IDを一部とするクエリが通話録音認識要約装置300に送信される。要約表示チェックボックス欄804は、要約表示の選択用である。図8では、要約表示チェックボックス欄804にチェックが入っている。この場合、結果表示部25は、訂正結果を反映した対話テキストを表示する。この表示が要約表示である。
結果表示部25は、まず、検索結果に基づき、顧客(発言者IDが“C”)の音声区間を意味する矩形を左側に、オペレータ(発言者IDが“O”)の音声区間を意味する矩形を右側に配置する。各矩形の中には、同じ音声区間内で発言されている単語を順に配置する。矩形内に単語を配置する際に、訂正後単語が「DELETE」となっている場合、結果表示部25は、該当する単語を表示しない。訂正後単語が空白以外の場合、結果表示部25は、該当する単語の代わりに訂正後単語を表示する。
訂正後の音声区間内に単語が存在しなくなる場合や相手の音声区間に全て包含されている場合は相槌と考えられるため、結果表示部25は、矩形自体を削除する。また、相手の音声区間に包含されていない場合、認識誤りを削除した結果と考えられるため、結果表示部25は、「・・・」のように、発言はあるが認識出来なかったことを意味する表示に置き換える。各矩形は時間順に高さ(行)を代えて表示される。このように単語単位で要約した結果、読み易い表示が得られる。なお、訂正箇所の存在を該当するテキストのハイライト表示、フォントサイズの変更、フォント色の変更、修飾の付加等によって明示しても良い。ここで、結果表示画面801の表示内容やレイアウトは結果送信部24が作成して結果表示部25に送信してもよい。
図9に、要約表示チェックボックス欄804にチェックが入っていない場合、すなわち検索結果を要約表示しない場合の例を示す。この場合、テキスト要約前の原文をそのまま表示することも可能であるが、図9の例では、訂正結果の内容を確認可能に表示する例を表している。例えば要約により「DELETE」となる単語集合を括弧で括った上、小さな文字で表示する。このような表記を採用することで、ユーザは、該当する記載部分を必要な際には読むが、不要な際には簡単に読み飛ばすことができる。また、訂正前後の単語を括弧で括って表示することとし、更に訂正前の単語は小さい文字で表示することにより、どのような訂正がなされたのかが明らかとなる。このような表示は、主として、音声全体を聞きながら評価するような際に有効である。例えば、要約によって削除されたしまった単語付近に頭出しして再生したいというケースで有効である。なお、図8と図9を同じ画面上に並列表示してもよい。
(1−4)実施例の効果
以上説明したように、本実施例に係る通話録音認識要約システムでは、対話テキストを単語レベルに分割した後、通話録音の対話の構造(具体的には、各単語の発言者を識別する情報と単語の時系列情報)を利用して、単語単位でテキストを訂正した要約を作成することができる。この結果、従来の方法に比して読み易い対話テキストの要約を作成することができる。
例えば相手が話し続けている状態での相槌や認識誤りのあるテキストを削除することができる。また、相手方の発言を受けての相槌や返しの発言や「なるほど」と顧客から言われた直前のオペレータの発言のように重要度の高い発言は積極的に残すことができる。その結果、重要度の高い単語を残しながらも読み易い要約を作成できる。また、本実施例では、要約表示するか否かの選択が可能であり、必要に応じて要約された内容を確認することができる。
(2)実施例2
実施例1では、通話の録音と同時に、音声認識と要約処理とを一つの装置内で実施する場合について述べたが、本実施例では、利用者の要求に応じて必要な通話録音の音声認識と要約処理を実行し、その結果を可視化する通話録音認識要約システムについて説明する。
図10に、本実施例に係る通話録音認識要約システムの全体構成を示す。当該システムの場合、通話録音認識要約装置300は、通話録音装置301、通話認識装置302、通話要約装置303に分割されている。通話録音装置301は、通話録音部11と、発言者識別部12と、通話録音DB13とを備える。通話認識装置302は、通話録音取得部14と、音声認識部15と通話認識結果DB16とを備える。通話要約装置303は、通話認識結果取得部17と、テキスト要約部18と、要約モデル19と、クエリ受付部22と、通話検索部23と、結果送信部24とを備える。通話録音装置301、通話認識装置302、通話要約装置303は、同一の拠点に配置されてもよいし、複数の拠点に分散して配置されてもよい。また、通話録音装置301、通話認識装置302、通話要約装置303は、それぞれ異なる事業者が管理運営してもよい。
図11に、本実施例におけるテキスト要約動作を説明する。図11に示すように、テキスト要約動作は、録音動作と通話可視化動作(音声認識動作、要約動作)で構成される。すなわち、本実施例では、通話可視化のクエリを受け付けた後に、音声認識(ステップS1101)と要約(ステップS1102)を実行する。このため、図2のステップS204〜S209の処理が通話可視化動作内で実行される。なお、個々の動作ステップで実行される動作の内容は、実施例1と同等である。
本実施例の場合、音声認識動作S1101は、全ての録音IDについて実行するのではなく、通話可視化動作において受け付けたクエリに含まれる録音IDに対してのみ実行される。音声認識動作の終了後に実行される要約動作S1102も同様である。以上のように構成すれば、ユーザが指定した必要な録音のみを音声認識し、要約して可視化することができる。このため、計算資源の有効活用が可能となる。
なお、本実施例では、音声認識動作と要約動作を通話可視化動作の一部として実行しているが、通話可視化動作の一部として実行するのは要約動作のみとしてもよい。この場合、音声認識動作は実施例1と同様、顧客とオペレータの通話の録音時に、又は、少なくとも通話可視化動作の開始前までに実行される。このような動作手法を採用しても計算資源の有効活用が可能になる。
(3)他の実施例
本発明は、上述した実施例に限定されるものでなく、様々な変形例を含んでいる。例えば上述した実施例では、通話音声を可視化するシステムを示したが、本発明は、音声に限らず対話を含んだデータの検索に広く適用できる。例えば、テキストチャットなどにおいても、テキスト内容およびメッセージの送信時刻の系列から、同様の要約が可能である。また、対象は2名による対話に限らない。発言者IDとして3名以上を対象とすることで、TV会議システム等、3名以上の対話への応用も可能である。
また、本発明は、上述した実施例で説明した全ての構成を必ずしも備える必要はない。また、ある実施例の一部を他の実施例の構成に置き換えることができる。また、ある実施例の構成に他の実施例の構成を加えることもできる。また、各実施例に他の構成要素を追加してもよく、各実施例の一部の構成要素を他の構成要素と置換してもよい。
また、上述した各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。例えばサーバのCPU上で実行されるプログラムにより実現される通話録音、認識、要約の各種機能一部又は全部を集積回路等の電子部品を用いたハードウェアにより実現してもよい。
各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスク、SSD(Solid State Drive)等の記憶装置、又は、ICカード、SDカード、DVD等の記憶媒体に格納することができる。また、制御線や情報線は、説明上必要と考えられるものを示すものであり、製品上必要な全ての制御線や情報線を表すものでない。実際にはほとんど全ての構成が相互に接続されていると考えてよい。
11…通話録音部、
12…発言者識別部、
13…通話録音DB、
14…通話録音取得部、
15…音声認識部、
16…通話認識結果DB、
17…通話認識結果取得部、
18…テキスト要約部、
19…要約モデル、
21…クエリ送信部、
22…クエリ受付部、
23…通話検索部、
24…結果送信部、
25…結果表示部、
100…顧客電話機、
200…オペレータ電話機、
300…通話録音認識要約装置、
301…通話録音装置、
302…通話認識装置、
303…通話要約装置、
400…通話録音可視化端末装置。

Claims (15)

  1. 対話形式のテキストから認識された単語と、前記単語の時系列情報と、前記単語の発言者を識別する識別情報とを第1のデータベースから取得する認識結果取得部と、
    前記単語と前記単語の時系列情報と前記識別情報と要約モデルに基づいて前記単語を訂正し、訂正結果を前記第1のデータベースに出力するテキスト要約部と、
    を有する対話テキスト要約装置。
  2. 請求項1に記載のテキスト要約装置において、
    前記テキスト要約部は、前記要約モデルを用いた判定により重要でないと判定された単語を削除する
    ことを特徴とする対話テキスト要約装置。
  3. 請求項1に記載の対話テキスト要約装置において、
    前記テキスト要約部は、前記要約モデルを用いた判定により認識誤りと判定された単語を削除する
    ことを特徴とする対話テキスト要約装置。
  4. 請求項1に記載の対話テキスト要約装置において、
    前記テキスト要約部は、前記要約モデルにリカレントニューラルネットワークを使用して単語を訂正する
    ことを特徴とする対話テキスト要約装置。
  5. 請求項1に記載の対話テキスト要約装置において、
    前記訂正結果を含む前記対話形式のテキストを表示する場合に、訂正箇所及び/又は訂正内容を確認可能な態様で表示する結果表示部を更に有する
    ことを特徴とする対話テキスト要約装置。
  6. 請求項1に記載の対話テキスト要約装置において、
    前記訂正結果を反映した前記対話形式のテキストと前記訂正結果を含む前記対話形式のテキストとを並列表示する結果表示部を更に有する
    ことを特徴とする対話テキスト要約装置。
  7. 請求項1に記載の対話テキスト要約装置において、
    前記対話形式のテキストに含まれる単語を認識する処理と、前記認識された前記単語ごとに時系列情報を管理する処理と、前記単語の発言者を識別する識別情報を管理する処理とを認識処理として実行する認識部を更に有する
    ことを特徴とする対話テキスト要約装置。
  8. 請求項7に記載の対話テキスト要約装置において、
    前記認識部は、前記対話形式のテキストを指定するクエリを外部端末から受け付けた後、前記クエリで指定された前記対話形式のテキストを第2のデータベースから取得して前記認識処理を実行し、更に処理結果を前記第1のデータベースに格納し、
    前記認識結果取得部は、前記認識部の認識結果が得られた後、前記クエリで指定された前記対話形式のテキストに関する前記単語と、前記単語の時系列情報と、前記識別情報を前記テキスト要約部に出力する
    ことを特徴とする対話テキスト要約装置。
  9. 請求項7に記載の対話テキスト要約装置において、
    前記認識結果取得部は、前記対話形式のテキストを指定するクエリを外部端末から受け付けた後に、前記クエリで指定された前記対話形式のテキストに関する前記単語と、前記単語の時系列情報と、前記識別情報を前記第1のデータベースから取得する
    ことを特徴とする対話テキスト要約装置。
  10. 認識結果取得部が、対話形式のテキストから認識された単語と、前記単語の時系列情報と、前記単語の発言者を識別する識別情報とを第1のデータベースから取得する処理と、
    テキスト要約部が、前記単語と前記単語の時系列情報と前記識別情報と要約モデルに基づいて前記単語を訂正し、訂正結果を前記第1のデータベースに出力する処理と、
    を有する対話テキスト要約方法。
  11. 請求項10に記載のテキスト要約方法において、
    前記テキスト要約部は、前記要約モデルを用いた判定により重要でないと判定された単語を削除する
    ことを特徴とする対話テキスト要約方法。
  12. 請求項10に記載の対話テキスト要約方法において、
    前記テキスト要約部は、前記要約モデルを用いた判定により認識誤りと判定された単語を削除する
    ことを特徴とする対話テキスト要約方法。
  13. 請求項10に記載の対話テキスト要約方法において、
    前記テキスト要約部は、前記要約モデルにリカレントニューラルネットワークを使用して単語を訂正する
    ことを特徴とする対話テキスト要約方法。
  14. 請求項10に記載の対話テキスト要約方法において、
    前記テキスト要約部は、前記訂正結果を含む前記対話形式のテキストを表示する場合に、訂正箇所及び/又は訂正内容を確認可能な態様で表示する
    ことを特徴とする対話テキスト要約方法。
  15. 請求項10に記載の対話テキスト要約方法において、
    認識部が、前記対話形式のテキストに含まれる単語を認識する処理と、前記認識された前記単語ごとに時系列情報を管理する処理と、前記単語の発言者を識別する識別情報を管理する処理とを実行する
    ことを特徴とする対話テキスト要約方法。
JP2015243243A 2015-12-14 2015-12-14 対話テキスト要約装置及び方法 Active JP6604836B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2015243243A JP6604836B2 (ja) 2015-12-14 2015-12-14 対話テキスト要約装置及び方法
US15/365,147 US20170169822A1 (en) 2015-12-14 2016-11-30 Dialog text summarization device and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015243243A JP6604836B2 (ja) 2015-12-14 2015-12-14 対話テキスト要約装置及び方法

Publications (2)

Publication Number Publication Date
JP2017111190A true JP2017111190A (ja) 2017-06-22
JP6604836B2 JP6604836B2 (ja) 2019-11-13

Family

ID=59020815

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015243243A Active JP6604836B2 (ja) 2015-12-14 2015-12-14 対話テキスト要約装置及び方法

Country Status (2)

Country Link
US (1) US20170169822A1 (ja)
JP (1) JP6604836B2 (ja)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019053558A (ja) * 2017-09-15 2019-04-04 ヤフー株式会社 学習装置、学習方法、学習プログラム、第1のモデルおよび第2のモデル
JP2019056973A (ja) * 2017-09-19 2019-04-11 ヤフー株式会社 学習装置、生成装置、学習方法、生成方法、学習プログラム、生成プログラム、及びモデル
JP2019121139A (ja) * 2017-12-29 2019-07-22 Airev株式会社 要約装置、要約方法、及び要約プログラム
JP2019144355A (ja) * 2018-02-19 2019-08-29 ヤフー株式会社 決定装置、決定方法、決定プログラム及びモデル
JP2019207371A (ja) * 2018-05-30 2019-12-05 ソフトバンク株式会社 音声認識結果の出力プログラム、通信装置及び音声認識結果の表示システム
JP2020024488A (ja) * 2018-08-06 2020-02-13 国立研究開発法人情報通信研究機構 要約生成装置、および学習方法
JP2020034704A (ja) * 2018-08-29 2020-03-05 富士通株式会社 テキスト生成装置、テキスト生成プログラムおよびテキスト生成方法
JP2020071675A (ja) * 2018-10-31 2020-05-07 株式会社eVOICE 対話要約生成装置、対話要約生成方法およびプログラム
JP2020150408A (ja) * 2019-03-13 2020-09-17 株式会社日立情報通信エンジニアリング コールセンタシステムおよび通話監視方法
JP2022043263A (ja) * 2018-08-15 2022-03-15 日本電信電話株式会社 応対履歴作成支援装置、応対履歴作成支援方法、プログラム、及び表示装置
JP7285308B1 (ja) 2021-12-21 2023-06-01 株式会社エクサウィザーズ 情報処理装置、情報処理方法、及びプログラム

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017130474A1 (ja) * 2016-01-25 2017-08-03 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
US10229111B1 (en) * 2016-02-03 2019-03-12 Google Llc Sentence compression using recurrent neural networks
JP6517718B2 (ja) * 2016-03-11 2019-05-22 株式会社東芝 会議支援装置、会議支援方法、及び会議支援プログラム
US10445356B1 (en) * 2016-06-24 2019-10-15 Pulselight Holdings, Inc. Method and system for analyzing entities
CN109726372B (zh) * 2017-10-31 2023-06-30 上海优扬新媒信息技术有限公司 基于通话记录的工单的生成方法、装置及计算机可读介质
CN108846098B (zh) * 2018-06-15 2023-03-10 南京尚网网络科技有限公司 一种信息流摘要生成及展示方法
CN109783677A (zh) * 2019-01-21 2019-05-21 三角兽(北京)科技有限公司 回复方法、回复装置、电子设备及计算机可读存储介质
CN111460109B (zh) * 2019-01-22 2023-12-26 阿里巴巴集团控股有限公司 摘要及对话摘要生成方法和装置
US11302335B2 (en) * 2019-08-01 2022-04-12 Nuance Communications, Inc. System and method for managing an automated voicemail
CN111400489B (zh) * 2020-04-08 2022-12-02 科大讯飞股份有限公司 对话文本摘要生成方法、装置、电子设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007132690A1 (ja) * 2006-05-17 2007-11-22 Nec Corporation 音声データ要約再生装置、音声データ要約再生方法および音声データ要約再生用プログラム
US20100104087A1 (en) * 2008-10-27 2010-04-29 International Business Machines Corporation System and Method for Automatically Generating Adaptive Interaction Logs from Customer Interaction Text
JP2012037797A (ja) * 2010-08-10 2012-02-23 Nippon Telegr & Teleph Corp <Ntt> 対話学習装置、要約装置、対話学習方法、要約方法、プログラム
WO2012131822A1 (ja) * 2011-03-30 2012-10-04 日本電気株式会社 音声認識結果整形装置、音声認識結果整形方法及びプログラム
JP2014130613A (ja) * 2014-02-06 2014-07-10 Nomura Research Institute Ltd 談話要約生成システムおよび談話要約生成プログラム
JP2015075706A (ja) * 2013-10-10 2015-04-20 日本放送協会 誤り修正モデル学習装置、及びプログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5151948A (en) * 1990-03-12 1992-09-29 International Business Machines Corporation System and method for processing documents having amounts recorded thereon
US20030154072A1 (en) * 1998-03-31 2003-08-14 Scansoft, Inc., A Delaware Corporation Call analysis
US7039166B1 (en) * 2001-03-05 2006-05-02 Verizon Corporate Services Group Inc. Apparatus and method for visually representing behavior of a user of an automated response system
US6823054B1 (en) * 2001-03-05 2004-11-23 Verizon Corporate Services Group Inc. Apparatus and method for analyzing an automated response system
US7398201B2 (en) * 2001-08-14 2008-07-08 Evri Inc. Method and system for enhanced data searching
US7660715B1 (en) * 2004-01-12 2010-02-09 Avaya Inc. Transparent monitoring and intervention to improve automatic adaptation of speech models
US20150106091A1 (en) * 2013-10-14 2015-04-16 Spence Wetjen Conference transcription system and method
KR102380833B1 (ko) * 2014-12-02 2022-03-31 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007132690A1 (ja) * 2006-05-17 2007-11-22 Nec Corporation 音声データ要約再生装置、音声データ要約再生方法および音声データ要約再生用プログラム
US20100104087A1 (en) * 2008-10-27 2010-04-29 International Business Machines Corporation System and Method for Automatically Generating Adaptive Interaction Logs from Customer Interaction Text
JP2012037797A (ja) * 2010-08-10 2012-02-23 Nippon Telegr & Teleph Corp <Ntt> 対話学習装置、要約装置、対話学習方法、要約方法、プログラム
WO2012131822A1 (ja) * 2011-03-30 2012-10-04 日本電気株式会社 音声認識結果整形装置、音声認識結果整形方法及びプログラム
JP2015075706A (ja) * 2013-10-10 2015-04-20 日本放送協会 誤り修正モデル学習装置、及びプログラム
JP2014130613A (ja) * 2014-02-06 2014-07-10 Nomura Research Institute Ltd 談話要約生成システムおよび談話要約生成プログラム

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019053558A (ja) * 2017-09-15 2019-04-04 ヤフー株式会社 学習装置、学習方法、学習プログラム、第1のモデルおよび第2のモデル
JP2019056973A (ja) * 2017-09-19 2019-04-11 ヤフー株式会社 学習装置、生成装置、学習方法、生成方法、学習プログラム、生成プログラム、及びモデル
JP2019121139A (ja) * 2017-12-29 2019-07-22 Airev株式会社 要約装置、要約方法、及び要約プログラム
JP7142435B2 (ja) 2017-12-29 2022-09-27 Airev株式会社 要約装置、要約方法、及び要約プログラム
JP2021177261A (ja) * 2018-02-19 2021-11-11 ヤフー株式会社 決定装置、決定方法、決定プログラム及びプログラム
JP2019144355A (ja) * 2018-02-19 2019-08-29 ヤフー株式会社 決定装置、決定方法、決定プログラム及びモデル
JP7278340B2 (ja) 2018-02-19 2023-05-19 ヤフー株式会社 決定装置、決定方法、及び決定プログラム
JP2019207371A (ja) * 2018-05-30 2019-12-05 ソフトバンク株式会社 音声認識結果の出力プログラム、通信装置及び音声認識結果の表示システム
JP7130233B2 (ja) 2018-08-06 2022-09-05 国立研究開発法人情報通信研究機構 要約生成装置、および学習方法
JP2020024488A (ja) * 2018-08-06 2020-02-13 国立研究開発法人情報通信研究機構 要約生成装置、および学習方法
JP2022043263A (ja) * 2018-08-15 2022-03-15 日本電信電話株式会社 応対履歴作成支援装置、応対履歴作成支援方法、プログラム、及び表示装置
JP7208564B2 (ja) 2018-08-15 2023-01-19 日本電信電話株式会社 応対履歴作成支援装置、応対履歴作成支援方法、プログラム、及び表示装置
JP2020034704A (ja) * 2018-08-29 2020-03-05 富士通株式会社 テキスト生成装置、テキスト生成プログラムおよびテキスト生成方法
JP7210938B2 (ja) 2018-08-29 2023-01-24 富士通株式会社 テキスト生成装置、テキスト生成プログラムおよびテキスト生成方法
JP2020071675A (ja) * 2018-10-31 2020-05-07 株式会社eVOICE 対話要約生成装置、対話要約生成方法およびプログラム
JP2020150408A (ja) * 2019-03-13 2020-09-17 株式会社日立情報通信エンジニアリング コールセンタシステムおよび通話監視方法
JP7274315B2 (ja) 2019-03-13 2023-05-16 株式会社日立情報通信エンジニアリング コールセンタシステムおよび通話監視方法
JP7285308B1 (ja) 2021-12-21 2023-06-01 株式会社エクサウィザーズ 情報処理装置、情報処理方法、及びプログラム

Also Published As

Publication number Publication date
JP6604836B2 (ja) 2019-11-13
US20170169822A1 (en) 2017-06-15

Similar Documents

Publication Publication Date Title
JP6604836B2 (ja) 対話テキスト要約装置及び方法
US10824814B2 (en) Generalized phrases in automatic speech recognition systems
CN108962282B (zh) 语音检测分析方法、装置、计算机设备及存储介质
CN109325091B (zh) 兴趣点属性信息的更新方法、装置、设备及介质
JP6233798B2 (ja) データを変換する装置及び方法
US8972265B1 (en) Multiple voices in audio content
US20130144619A1 (en) Enhanced voice conferencing
US20090055186A1 (en) Method to voice id tag content to ease reading for visually impaired
US20170300499A1 (en) Quality monitoring automation in contact centers
CN107430616A (zh) 语音查询的交互式再形成
US20220124421A1 (en) Method of generating bullet comment, device, and storage medium
CN116235177A (zh) 与通过使用相关联的样本话语的已知意图从对话数据挖掘意图来进行机器人创作相关的系统和方法
KR102140253B1 (ko) 챗봇 통신을 기반으로 한 사용자 맞춤형 공공지식 정보 제공방법 및 그 시스템
JP6373243B2 (ja) 情報処理装置、情報処理方法および情報処理プログラム
JP6254504B2 (ja) 検索サーバ、及び検索方法
KR102222637B1 (ko) 감성 분석 장치, 이를 포함하는 대화형 에이전트 시스템, 감성 분석을 수행하기 위한 단말 장치 및 감성 분석 방법
JP2023162332A (ja) 情報提供方法
CN111933128A (zh) 调查问卷的题库的处理方法、装置、电子设备
JP2022025665A (ja) 要約文作成装置、要約文作成方法及びプログラム
JP2023076430A (ja) プログラム、情報処理システム及び情報処理方法
CN113689854B (zh) 语音会话方法、装置、计算机设备和存储介质
CN113221514A (zh) 文本处理方法、装置、电子设备和存储介质
CN114462376A (zh) 基于rpa和ai的庭审笔录生成方法、装置、设备及介质
US20080046230A1 (en) Reception support system and program therefor
CN113111658B (zh) 校验信息的方法、装置、设备和存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180517

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190517

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190528

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190917

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191015

R151 Written notification of patent or utility model registration

Ref document number: 6604836

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151