JP2020008690A - 抽出装置、抽出方法、およびプログラム - Google Patents

抽出装置、抽出方法、およびプログラム Download PDF

Info

Publication number
JP2020008690A
JP2020008690A JP2018129152A JP2018129152A JP2020008690A JP 2020008690 A JP2020008690 A JP 2020008690A JP 2018129152 A JP2018129152 A JP 2018129152A JP 2018129152 A JP2018129152 A JP 2018129152A JP 2020008690 A JP2020008690 A JP 2020008690A
Authority
JP
Japan
Prior art keywords
utterance
phrase
unit
gist
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018129152A
Other languages
English (en)
Inventor
ヘイカイ ミョウ
Heikai Myo
ヘイカイ ミョウ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2018129152A priority Critical patent/JP2020008690A/ja
Publication of JP2020008690A publication Critical patent/JP2020008690A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】音声データにより表される発言の要旨を精度よく抽出する技術を提供する。【解決手段】抽出装置は、発言が記録された音声データから抽出された、発話が検出された区間における発話のデータである複数の発話単位のうちの、前記発話単位間の関係に関する所定の条件を満たす一群の前記発話単位を、1つのフレーズとして特定するフレーズ特定部と、前記フレーズを用いて、発言の要旨のモデルを記憶する記憶部から、当該フレーズが表す情報の要旨に相当する前記モデルを抽出する要旨抽出部と、を備える。【選択図】 図16

Description

本開示は、音声データから、発言の内容に関する情報を抽出する技術に関する。
人が発した声の音データ(以下、「音声データ」と表記)から、その人の発言の内容に関する情報を抽出する技術は、特にコールセンタ等において利活用される。
例えば、コールセンタにおいて、電話をかけてきた顧客に応対するオペレータが顧客の発言の内容を理解するのを支援するために、顧客の発言をテキスト化した情報を、オペレータの使用するコンピュータの画面上に表示させるシステムがある。
特許文献1および2は、上記のシステムに関する発明を記載する文献である。
特許文献1の音声認識システムは、オペレータの音声からキーワードを抽出し、そのキーワードの時間的周辺においてカスタマーが発したキーフレーズが含まれる区間を検出する。この音声認識システムは、検出された区間の音声を用いて音響モデルを補正することにより、音声認識精度を向上させる。
特許文献2のオペレータ業務支援システムは、音声データをテキストデータに変換し、そのテキストデータに含まれる所定のキーワードを強調表示する。
特開2015−049254号公報 特開2006−276754号公報
上記各特許文献に記載の技術は、重要な単語を抽出する処理を含むが、顧客がオペレータに伝えた事項の要点、すなわち発言の要旨を、抽出する技術ではない。
本発明は、音声データにより表される発言の要旨を精度よく抽出する技術を提供することを、目的の1つとする。
本発明の一態様に係る抽出装置は、発言が記録された音声データから抽出された、発話が検出された区間における発話のデータである複数の発話単位のうちの、前記発話単位間の関係に関する所定の条件を満たす一群の前記発話単位を、1つのフレーズとして特定するフレーズ特定手段と、前記フレーズを用いて、発言の要旨のモデルを記憶する記憶手段から、当該フレーズが表す情報の要旨に相当する前記モデルを抽出する要旨抽出手段と、を備える。
本発明の一態様に係る抽出方法は、発言が記録された音声データから抽出された、発話が検出された区間における発話のデータである複数の発話単位のうちの、前記発話単位間の関係に関する所定の条件を満たす一群の前記発話単位を、1つのフレーズとして特定し、前記フレーズを用いて、発言の要旨のモデルを記憶する記憶手段から、当該フレーズが表す情報の要旨に相当する前記モデルを抽出する。
本発明の一態様に係るプログラムは、発言が記録された音声データから抽出された、発話が検出された区間における発話のデータである複数の発話単位のうちの、前記発話単位間の関係に関する所定の条件を満たす一群の前記発話単位を、1つのフレーズとして特定するフレーズ特定処理と、前記フレーズを用いて、発言の要旨のモデルを記憶する記憶手段から、当該フレーズが表す情報の要旨に相当する前記モデルを抽出する要旨抽出処理と、をコンピュータに実行させる。
本発明によれば、音声データにより表される発言の要旨を精度よく抽出することができる。
本発明の第1の実施形態に係る通話支援システム1の構成を示すブロック図である。 音声データの例を示す図である。 第1の実施形態に係る通話モジュールと解析モジュールとの動作の流れを示すフローチャートである。 第1の実施形態に係る解析モジュールによる処理の詳細を示すフローチャートである。 第1の実施形態に係る認識部によって生成されるデータの例を示す表である。 第1の実施形態に係るフレーズ生成部による処理の流れを示すフローチャートである。 発話単位データ、仮フレーズ、および生成されるフレーズデータの例を示す図である。 抽出モデルによって記憶されるデータの例を示す図である 表示装置により表示される画面の例を示す図である。 表示装置により表示される画面の別の例を示す図である。 表示装置により表示される画面のさらに別の例を示す図である。 第1の実施形態の変形例に係る表示装置により表示される画面の例を示す図である。 本発明の第2の実施形態に係る解析モジュールの構成を示すブロック図である。 第2の実施形態に係る解析モジュールによる処理の流れを示すフローチャートである。 図15(a)は、第2の実施形態に係る表示装置により表示される画面の例を示す図である。図15(b)は、同表示装置により次に表示される画面の例を示す図である。 本発明の一実施形態に係る抽出装置の構成を示すブロック図である。 本発明の一実施形態に係る抽出方法の流れを示すフローチャートである。 本発明の各実施形態の各部を構成し得るハードウェアの例を示すブロック図である。
以下、図面を参照しながら、本発明の実施形態を詳細に説明する。
<<第1の実施形態>>
まず、本発明の第1の実施形態について説明する。
<構成>
図1は、第1の実施形態に係る通話支援システム1の全体像を概念的に示すブロック図である。
通話支援システム1は、架電者51と応対者61との間の通話を支援するシステムである。架電者51は通話装置11を用いて架電する。架電者51からの着信を受けた応対者61は、通話モジュール21を用いて通話を行うことで、架電者51に対する応対をする。
通話装置11と通話モジュール21とは、電話網99により、互いに音声信号の送受信が可能であるように接続される。電話網99は一般的な電話網でよい。
通話モジュール21により受信される、通話装置11からの音声信号(すなわち、架電者51により発せられた声の信号)は、音声出力装置213によって音として出力される。また、通話装置11からの音声信号は、解析モジュール31にも送られ、解析モジュール31により解析される。解析モジュール31による解析の結果は、表示装置417に表示される。応対者61は、表示装置417を見ることで、解析モジュール31による解析の結果を認知する。
以下、通話支援システム1の構成要素について詳細に説明する。
===通話装置11===
通話装置11は、架電者51が通話のために使用する装置である。通話装置11は、通話機能を持つ一般的なデバイス(例えば、固定電話、携帯電話等)でよい。
===通話モジュール21===
通話モジュール21は、応対者61が通話のために使用するモジュールである。なお、本開示において、「モジュール」とは、特定の機能を発揮する要素に付与される語である。モジュールは1つの物でもよいし、概念的にひとまとまりとして捉えられる、複数の物の組み合わせ、または1つの物の部分でもよい。
通話モジュール21は、通信部211と、音声取得部212と、音声出力装置213と、音声入力装置214と、音声送出部215と、を含む。通話モジュール21は、例えば、PC(Personal Computer)と、PCに接続される入出力装置と、のセットによって実現されてもよい。
通信部211は、電話網99から音声信号を受信し、電話網99に対して音声信号を送信する。通信部211は、電話網99から受信した音声信号を音声取得部212に送出する。また、通信部211は、電話網99に対して送信する音声信号を音声送出部215から取得する。
音声取得部212は、通信部211が受信した音声信号を取得し、取得した音声信号を音声出力装置213および解析モジュール31に送出する。
音声出力装置213は、音声取得部212から受け取った音声信号を音として出力する装置である。音声出力装置213は、例えば、一般的なスピーカーまたはヘッドフォン等でよい。
音声入力装置214は、音を入力として受け付け、受け付けた音を音声信号に変換する。本実施形態では、音声入力装置214によって、応対者61が発する声が、音声信号に変換される。音声入力装置214は、例えば、一般的なマイクロフォンでよい。
音声送出部215は、音声入力装置214に入力された音声(すなわち、応対者61により発せられた声)の音声信号を音声入力装置214から受け取り、その音声信号を通信部211に送出する。
===解析モジュール31===
解析モジュール31は、通話装置11からの音声信号を解析するモジュールである。なお、本実施形態における解析とは、以降で説明する、音声信号または音声信号から得られるデータから何らかの情報を得る種々の処理の、一部または全部を指す。
解析モジュール31は、記憶部310と、発話区間検出部311と、認識部312と、フレーズ生成部313と、要旨抽出部314と、要旨モデル記憶部3141と、表示制御部315と、を含む。
解析モジュール31は、1つまたは複数のコンピュータによって実現されてもよい。解析モジュール31は、通話モジュール21を構成するコンピュータに含まれていてもよい。
記憶部310は、解析モジュール31が扱うデータを記憶する。例えば、記憶部310は、音声取得部212から、通話装置11からの音声信号を受け取り、その音声信号を記憶する。通話モジュール21と解析モジュール31とが別個の装置によってそれぞれ実現されている場合は、記憶部310は、音声取得部212から、例えば図示されない通信インタフェースを経由して、音声信号を受け取ってもよい。記憶部310は、この他、解析モジュール31の各構成要素によって生成されるデータおよび情報等を記憶してもよい。以下、音声信号から生成される音声の時系列データを「音声データ」と表記する。
発話区間検出部311は、記憶部310に記憶された音声データから発話区間を検出する。
発話区間とは、音声データにおいて架電者51による発言が記録されている区間(時間区間)である。発話区間は、後述の認識部312による処理の対象の単位となる。
発話区間検出部311は、例えば、「非発話区間」を検出し、非発話区間でない区間を発話区間として検出し得る。具体的には、例えば、発話区間検出部311は、音声データにおける、音の強さが所定の閾値θ以下である区間を検出する。音の強さが所定の閾値以下である区間は、架電者51が声(無声音を含む)を発していない区間(以下、「非発声区間」)であるとみなされる。ただし、架電者51が言葉の一部として無音を作っている(例えば促音を表現している)時間や、淀みながら言葉を発することで発生する無音の時間も、非発声時間となり得る。そのため、発話区間検出部311は、非発声区間のうち、その長さが所定の閾値θ以上である区間を、非発話区間として検出するよう構成され得る。そして、発話区間検出部311は、非発話区間でない区間を発話区間として検出し得る。
図2は、架電者51の音声データを視覚的に例示する図である。図2において、波形の振幅は、架電者51の声の強さに対応している。
一例として、発話区間検出部311は、長さが0.3秒以上である非発声区間を、非発話区間であるとして検出し得る。この場合、発話区間検出部311は、区間B2、B4を、非発話区間として検出し得る。そして、発話区間検出部311は、非発話区間でない区間(区間B1、B3、B5)を、発話区間として検出する。
発話区間の検出方法は上記に限られない。発話区間検出部311は、ひと続きの発言が行われた区間を発話区間として検出するよう、構成されればよい。
認識部312は、発話区間検出部311によって検出された発話区間における音声について、言葉を認識する。認識部312による認識とは、具体的には、音声により表される言葉をテキストデータにすることである。音声により表される言葉をテキストデータにする方法には、既知の方法が用いられればよい。
以下、発話区間に対して認識部312により生成されるテキストデータを、「発話単位データ」と呼ぶ。
フレーズ生成部313は、所定のアルゴリズムに基づき、発話単位データから、1つの発話単位データまたは2つ以上の発話単位データが連結されたものである「フレーズデータ」を生成する。フレーズデータは、後述する要旨抽出部314による処理において用いられる。
要旨抽出部314は、フレーズデータと要旨モデル記憶部3141とを用いて、架電者51の発言の要旨を抽出する。抽出されるべき要旨のモデルは、要旨モデル記憶部3141に記憶されている。つまり、要旨抽出部314は、要旨モデル記憶部3141に記憶されている要旨のモデル(以下、「要旨モデル」とも表記)から、フレーズデータを用いることで特定される要旨モデルを、抽出する。なお、本開示では、要旨モデルを抽出することを、「要旨を抽出する」とも表現する。
要旨モデルの特定および抽出に係る処理の具体例を、以下に説明する。
(例1)
要旨抽出部314は、フレーズデータと各要旨モデルとの類似度をそれぞれ計算し、類似度が所定の基準を満たす要旨モデルを抽出してもよい。
類似度の計算方法は、公知の方法でよい。例えば、要旨モデル記憶部3141が、各要旨モデルについて、その要旨モデルの特徴を表すベクトルを記憶しておく。要旨抽出部314は、フレーズデータに対し自然言語処理(公知の方法でよい)を行い、そのフレーズデータの特徴を表すベクトルを生成する。そして、要旨抽出部314は、フレーズデータのベクトルと、要旨モデルのベクトルとの類似度を、例えばコサイン類似度、Jaccard係数、またはDice係数等を計算することにより算出し得る。
所定の基準は、例えば、「すべての要旨モデルのうち最も類似度が高いこと」でもよいし、「類似度が所定の値より大きいこと」でもよい。所定の基準は、複数の要件の組み合わせでもよい(例:「すべての要旨モデルのうち最も類似度が高い」かつ「類似度が所定の値より大きい」等)。
なお、所定の基準を満たす要旨モデルが無い場合は、要旨抽出部314は要旨モデルを抽出しなくてもよい。
(例2)
要旨抽出部314は、例えば、フレーズデータから特徴的な単語(キーワード)を抽出し、そのキーワードを最も多く含む要旨モデルを抽出してもよい。ただし、要旨モデルごとに条件(必ず含むべき単語、一致する単語数等に関する条件)が用意され、その条件を満たさない要旨モデルは抽出しないよう、要旨抽出部314が構成されていてもよい。
(例3)
要旨抽出部314は、例えば、予め用意された、要旨モデルを特定するための分類木にフレーズデータを入力し、出力として要旨モデルを得てもよい。ただし、分類木は、いずれの要旨モデルも特定されない、という結果を出力する場合があってもよい。
(例4)
要旨抽出部314は、予め用意されたニューラルネットワークに、フレーズデータの特徴を表すベクトルを入力し、出力として要旨モデルの各々の尤度を出力として取得してもよい。この場合における尤度は、入力されたフレーズデータが表している内容に一致している確率のことである。そして、要旨抽出部314は、尤度が最も高い要旨モデルを抽出してもよい。あるいは、要旨抽出部314は、尤度が一定の基準を満たす要旨モデルをすべて抽出してもよい。
以上に説明されるように、要旨抽出部314が要旨モデルを抽出する方法は様々に考えられる。あるフレーズデータに対して、要旨モデルが抽出されない場合があってもよい。また、要旨抽出部314は、複数の要旨モデルを抽出してもよい。
なお、要旨抽出部314は、要旨モデルの抽出にあたり、フレーズデータに対して前処理を行ってもよい。例えば、要旨抽出部314は、活用語の活用形を終止形に統一したり、「です」「けど」等の文意への影響が少ない語(設計または学習により設定され得る)を取り除いたりしてもよい。
また、要旨抽出部314は、フレーズデータを文単位で分割し、分割によって生成したデータのそれぞれについて要旨モデルの抽出を行ってもよい。
表示制御部315は、認識部312および要旨抽出部314による処理の結果に基づいて、表示装置417による表示を制御する。
===表示装置417===
表示装置417は、応対者61に情報を視覚的に提供するための装置である。表示装置417は、例えば、一般的なモニターでよい。
表示装置417と音声入力装置214とが、一つの装置に備わっていてもよい。
<動作>
通話モジュール21と解析モジュール31との動作の概要について、図3のフローチャートを参照しながら説明する。
架電者51が、通話装置11を用いて通話モジュール21を含むシステムに架電し、通話モジュール21が通話装置11との通信を行うことが決まると、通話モジュール21は、通話装置11との通信を開始する(ステップS11)。以下の処理は、この通信の継続中の処理である。
通信の継続中、音声取得部212は、通話装置11からの音声信号を取得する(ステップS12)。通話モジュール21は、音声出力装置213により、この音声信号から音を生成してその音を出力する(ステップS13)とともに、この音声信号を解析モジュール31に送出する(ステップS14)。通話モジュール21は、音声信号が取得される限り、すなわち、通信が継続している間、得られる音声信号を随時解析モジュール31に送出すればよい。音声信号の送出方法は、連続的であるか断続的であるかを問わない。
解析モジュール31は、通話モジュール21から受け取った音声信号を音声データとして記憶部310により記憶し(ステップS21)、発話区間検出部311、認識部312、フレーズ生成部313、および要旨抽出部314により、音声データの解析を行う(ステップS22)。そして、解析モジュール31は、表示制御部315により、解析の結果を表示装置417に表示させる(ステップS23)。また、解析モジュール31は、ステップS21の処理で記憶された音声データでまだ解析されていない音声データがあれば(ステップS24においてYES)、再びステップS22とステップS23との処理を行う。
解析モジュール31は、ステップS21からステップS23の処理を、通信が終了する(ステップS25においてYESになる)まで、すなわち通話モジュール21により音声信号が取得されている間、新たに取得される音声信号に対して繰り返し行う。
応対者は、ステップS23の処理によって解析の結果が表示された表示装置417を見ながら、架電者51と会話をする。図3のフローチャートには示されていないが、通話モジュール21は、応対者61から入力された音声信号を通話装置11に送信する。
通話モジュール21は、例えば、応対者61から通話を終了する指示を受け付けるか、通話装置11との通信が切れた場合に、音声信号の取得を終了する(ステップS15においてNO)。この場合、通信部211は通話装置11との通信を終了する(ステップS16)。この時、ステップS21は、解析モジュール31に対して通話を終了する(または終了した)旨を通知してもよい。
解析モジュール31は、通話が終了した場合(ステップS25においてYES)、すなわち、通話モジュール21が新たな音声信号を取得しなくなったら、処理を終了してよい。
次に、解析モジュール31による解析(ステップS22の処理)の詳細について説明する。図4は、ステップS22からステップS24の処理をより具体的に記載したフローチャートである。
なお、各処理は、各処理がプログラムを実行するプロセッサによって実行される場合においては、プログラムの中の命令の順序に従って実行されればよい。各処理が別個のデバイスによって実行される場合においては、処理を完了したデバイスが次の処理を実行するデバイスに通知を行うことで、処理が順番に実行されればよい。なお、処理を行う各部は、めいめいの処理に必要なデータを、例えば、そのデータを生成した部から受け取り、および/または解析モジュール31が使用できる記憶領域(記憶部310等)から読み出せばよい。
まず、発話区間検出部311が、音声データに対して、発話区間を検出する(ステップS31)。
次に、認識部312が、発話区間ごとに、その発話区間において発せられた言葉を認識する(ステップS32)。認識部312は、認識によって、発話区間ごとに検出された発話単位データを生成する。
図5は、認識部312によって生成された発話単位データの例を示す図である。発話単位データは、図5に示されるように、その発話単位データが取得された発話区間の、開始時刻および終了時刻の情報に関連づけられる形式で、記憶部310に記録されてもよい。
次に、解析モジュール31は、ステップS34およびステップS35の処理の対象となる、発話単位データのグループである解析対象グループを決定する(ステップS33)。
解析モジュール31は、例えば、未だ解析対象になっていない発話単位データのうち最も早く取得された発話単位データの発話の開始時刻から所定の時間(例えば15秒)後までの間に発話が開始された、発話単位データの組を、解析対象グループとして決定してもよい。
解析モジュール31は、例えば、未だ解析対象になっていない発話単位データのうち最も早く取得された発話単位データの発話の開始時刻から、その開始時刻から所定の時間(例えば15秒)の経過後、最初に非発声時間が所定の閾値θ以上になる時刻までの間に、発せられた発話単位データの組を、解析対象グループとして決定してもよい。この所定の閾値θは、後述するDefTimeと同じ値でよい。
解析モジュール31は、例えば、所定の個数(例えば5つ)以上の連続した発話単位データのグループであって、そのグループのうちの最後の発話単位データの直後の非発声時間が所定の閾値θ以上であるようなグループを、解析対象グループとして決定してもよい。
なお、解析対象グループの決定方法は上記に限られず、自由に設計されてよい。
解析対象グループが定まったら、フレーズ生成部313が、解析対象グループに含まれる発話単位データから、フレーズデータを生成する(ステップS34)。フレーズデータを生成する処理の詳細は後述する。
そして、要旨抽出部314が、フレーズデータの各々について、要旨抽出処理を行う(ステップS35)。要旨抽出処理の詳細は後述する。
各々のフレーズデータに対する要旨抽出処理が完了したら、表示制御部315が、解析対象グループに対する解析の結果を表示装置に表示させる(ステップS36)。解析の結果の表示例は、後述する。
その後、解析されていないデータがある場合には(ステップS37においてYES)、解析モジュール31は新たに解析対象グループを決定し(ステップS33)、ステップS34からの処理を行う。
解析されていないデータがなくなったら(ステップS37においてNO)、解析モジュール31は処理を終了するか、新たな音声データを記憶してその音声データに対する解析を行う(図3のステップS21)。
[フレーズデータの生成方法]
以下、ステップS34のフレーズデータの生成方法について詳述する。
説明のために、前提を次に示す。
・解析対象グループに含まれる発話単位データはn個あり、発話された順に1番目、…、n番目とする。
・隣り合う発話単位データを仮に連結することを「仮連結する」と表現する。
・k番目の発話単位データをPhrase(k)とする。Phrase(k)はテキストデータである。
・生成されるフレーズデータの暫定的な候補である、発話単位または発話単位が仮連結されたものを、「仮フレーズ」と呼ぶ。
・k番目の発話単位に関する処理において生成される仮フレーズをTempTalk(k)とする。TempTalk(k)はテキストデータである。
・パラメータを以下のように定義する。
StartTime(k):k番目の発話単位の開始時間
EndTime(k):k番目の発話単位の終了時間
PCount:仮フレーズに含まれる発話単位の個数
DefNum:PCountについて設定される上限値
DefTime:発話単位間の長さについて設定される上限値
図6は、フレーズデータの生成方法の具体例を示すフローチャートである。なお、図6において、左向きの矢印は、値の代入を意味する。また、等号「=」は、左辺の値と右辺の値とが等しいことを意味する。
フレーズ生成部313は、i=1として処理を開始し(ステップS341)、iがnを超えるまで、ステップS342からステップS350までの処理を繰り返し行う。
フレーズ生成部313は、まず、PCount(i)の値を1に設定する(ステップS342)。また、フレーズ生成部313は、TempTalk(i)にPhrase(i)を代入する(ステップS343)。すなわち、フレーズ生成部313は、i番目の発話単位データを仮フレーズとして設定する。
次に、フレーズ生成部313は、PCount(i)の値とDefNumの値とを比較する。PCount(i)がDefNumに等しい場合(ステップS344においてYES)、フレーズ生成部313は、仮フレーズTempTalk(i)をフレーズデータとして出力する(ステップS349)。また、PCount(i)がDefNum未満である場合(ステップS344においてNO)であっても、i+PCount(i)>nである場合(言い換えれば、Talk(i+PCount(i))が存在しない場合)(ステップS345においてYES)は、フレーズ生成部313は、同様に仮フレーズTempTalk(i)をフレーズデータとして出力する(ステップS349)。
PCount(i)がDefNum未満かつi+PCount(i)≦nである場合は(ステップS345においてNO)、フレーズ生成部313は、StartTime(i+PCount(i)) - EndTime(i+PCount(i)-1)の値をDefTimeと比較する(ステップS346)。StartTime(i+PCount(i)) - EndTime(i+PCount(i)-1)の値は、いわば、i+PCount(i)-1番目の発話単位データとi+PCount(i)番目の発話単位データとの間の非発話時間の長さを意味する値である。この値がDefTimeより小さい場合(ステップS346においてYES)は、フレーズ生成部313は、TempTalk(i)&Phrase(i+PCount(i))をTempTalk(i)とする(ステップS347)。すなわち、フレーズ生成部313は、現行の仮フレーズに、さらにi+PCount(i)番目の発話単位データを連結したものを、新たに仮フレーズとする。また、この場合、フレーズ生成部313は、Pcount(i)の値を1増やし(ステップS348)、ステップS344の処理に戻る。
ステップS346における判定がNOであった場合は、フレーズ生成部313は、仮フレーズであるTempTalk(i)をフレーズデータとして出力する(ステップS349)。
ステップS349の後は、フレーズ生成部313は、「i」の値を1増やす(ステップS350)。すなわち、フレーズ生成部313は、次の発話単位に注目して、ステップS342からのフレーズデータの生成処理を行う。ただし、上述の通り、ステップS350の処理により「i」の値がnを超えた場合は、フレーズ生成部313は、フレーズデータの生成処理を終了する。
フレーズデータの生成処理について、以下、具体例を挙げて説明する。
具体例として、フレーズ生成部313は、図5の表および図7の最左欄に示される発話単位データD1、D2、D3、D4、およびD5を処理対象として、フレーズデータの生成処理を行うとする。DefNumの値は「3」、DefTimeの値は「2000」(単位はms(ミリ秒))とする。
フレーズ生成部313は、まず、発話単位データD1に注目する。PCountの値は初期値(=1)であり、DefNumの値(=3)未満であるので、フレーズ生成部313は、発話単位データD2の開始時刻と発話単位データD1の終了時刻との差(すなわち、発話単位データD1と発話単位データD2との間の非発話時間)を算出する。算出される値は「3270」[ms]であり、DefTimeの値(=2000)より大きいので、フレーズ生成部313は、D1をフレーズデータE1として出力する。そして、フレーズ生成部313は次の発話単位データである発話単位データD2に注目する。PCountの値はリセットされる。
PCountの値は「1」であり、DefNumの値(=3)未満であるので、フレーズ生成部313は、発話単位データD3の開始時刻と発話単位データD2の終了時刻との差を算出する。算出される値は「684」であり、DefTimeの値(=2000)を超えないので、フレーズ生成部313は、発話単位データD2と発話単位データD3とを連結し、仮フレーズD23を生成する。フレーズ生成部313は、PCountの値を「1」増やし、PCountの値は「2」になる。
PCountの値はDefNumの値(=3)未満であるので、フレーズ生成部313は、発話単位データD1の終了時刻から発話単位データD2の開始時刻と発話単位データD1の終了時刻との差を算出する。算出される値は「847」であり、DefTimeの値(=2000)を超えないので、フレーズ生成部313は、仮フレーズD23と発話単位データD4とを連結し、仮フレーズD234を生成する。フレーズ生成部313は、PCountの値を「1」増やし、PCountの値は「3」になる。
PCountの値はDefNumの値(=3)に等しいので、フレーズ生成部313は、仮フレーズD234をフレーズデータE2として出力する。そして、フレーズ生成部313は次の発話単位データである発話単位データD3に注目する。PCountの値はリセットされる。
発話単位データD3に注目した場合、発話単位データD3と発話単位データD4との間の非発話時間はDefTimeの値(=2000)を超えないが、発話単位データD4と発話単位データD5との間の非発話時間はDefTimeの値(=2000)を超えるので、フレーズ生成部313は、発話単位データD3と発話単位データD4とを連結した仮フレーズD34を、フレーズデータE3として出力する。
発話単位データD4に注目した場合、発話単位データD4と発話単位データD5との間の非発話時間はDefTimeの値(=2000)を超えるので、フレーズ生成部313は、発話単位データD4を、フレーズデータE4として出力する。
発話単位データD5に注目した場合、PCount=1である段階で、発話単位データD5の次の発話単位データが無いと判定されるので、フレーズ生成部313は、発話単位データD5をフレーズデータE5として出力する。
以上の例において生成(および出力)されるフレーズデータE1〜E5が、図7の最右欄に示される。なお、生成および出力されたフレーズデータは、記憶部310に記憶されればよい。
[要旨抽出処理]
図4のステップS35の要旨抽出処理について、具体例を用いて説明する。
例として、要旨抽出部314は、図7の最右欄に示されたフレーズデータE1〜E5の各々について、要旨抽出処理を行うとする。また、要旨抽出部314が用いる要旨モデル記憶部3141は、図8に示された要旨を抽出することが可能なモデルであるとする。
要旨抽出部314は、まず、フレーズデータE1「昨日のことなんですけど」に対して要旨抽出処理を行う。具体的には、要旨抽出部314は、フレーズデータE1に要旨モデル記憶部3141を適用し、要旨の抽出を試みる。ただし、要旨が抽出されない場合もあり得る。
フレーズデータE1を用いた場合は、要旨は抽出されなかったとする。
要旨抽出部314は、次に、フレーズデータE2「注文した商品が届いたんですが、色が違うんですよ、どうなってるんですかね」に対して要旨抽出処理を行う。この要旨抽出処理によって、図8において示される、識別番号が「G000001」である要旨「注文した商品と色違いの商品が届いた」が抽出されたとする。この場合、要旨抽出部314は、識別番号が「G000001」である要旨が抽出されたことを、記憶部310に記録する。
また、要旨抽出部314は、フレーズデータE2のうち、特に要旨に関連する部分を、「キー発言」として特定してもよい。キー発言は、言い換えれば、フレーズデータにおいて、抽出された要旨モデルが表す内容に対応する内容が表されている部分である。キー発言を特定する方法の具体例は、次の通りである。
(例1)
要旨抽出部314は、例えば、フレーズデータE2において、抽出された要旨モデルに関連の深い単語(例えば「注文」、「商品」、「届いた」、「色」および「違う」)を抽出し得る。なお、関連の深い単語は、要旨モデルごとに予め定義されていればよい。そして、要旨抽出部314は、フレーズデータE2において、抽出された単語を含むひと続きの部分を、キー発言として抽出すればよい。
(例2)
要旨抽出部314は、例えば、フレーズデータE2を複数の部分に分け、分けられた部分のそれぞれについて、要旨モデルとの類似度を計算し得る。この類似度は、両者から得られるベクトルの類似度でもよいし、要旨モデルごとに作成された学習モデルによって出力される尤度でもよい。そして、要旨抽出部314は、類似度が最も高い部分を、キー発言として抽出してもよい。
以上に示された方法等により、要旨抽出部314は、例えば、フレーズデータE2のうちの「注文した商品が届いたんですが、色が違う」の部分を、「キー発言」として特定し得る。
要旨抽出部314は、フレーズデータE3、E4、E5に対しても、それぞれ要旨抽出処理を行う。ただし、要旨抽出部314は、既に抽出された要旨を抽出の対象としなくてよい。要旨抽出部314は、要旨が抽出された場合は、抽出された要旨の要旨識別番号を記憶部310に記録する。
[出力制御]
以下、図4のステップS36の、解析の結果を表示装置417に表示させる制御(以下、「表示制御」とも表記)の具体例について詳述する。
表示制御部315は、例えば、解析の結果を表す情報の一つとして、発話単位データを表示装置417に表示させ得る。また、表示制御部315は、要旨抽出部314によって「キー発言」として特定された、発話単位データの部分を、目立つ態様で表示装置417に表示させてもよい。目立つ態様とは、例えば、他の部分とは異なる態様のことである。例えば、他の部分とは異なる態様は、文字色、字体、大きさ、太さおよび背景色の一部または全部が他の部分と異なるように表示されることでもよい。対象の部分を目立つ態様で表示することには、対象の部分の前および/または後に、目立つ文字もしくは画像、改行、スペース、等を含めること、ならびに下線を引くこと等、対象の部分が強調されるように表示することも含まれる。
例えば、表示制御部315は、「注文した商品が届いたんですが、色が違う」という部分を目立つ態様で表示装置417に表示させる。これにより、応対者61は、架電者51が伝えようとしている事項(すなわち、架電者51のもとに架電者51が注文した商品の色と異なる色の商品が届いたこと)を、迅速に知ることができる。
図9は、表示装置417により表示される画面の例を示す図である。表示装置417は、表示制御部315による制御により、図9のように架電者51の発言の認識結果を表示させ得る。表示装置417は、キー発言を目立つ態様で表示させ得る。
図10は、表示装置417により表示される画面の別の例を示す図である。表示装置417は、表示制御部315による制御により、図10のように応対者61が応対に係る種々の情報を入力するための画面において、抽出された要旨を表示してもよい。ただし、抽出された要旨が架電者51から応対者61に伝えられた事項に一致しない場合のために、その表示された要旨を削除するコマンド(図10ではバツ印により示されている)があってもよい。表示された要旨は、編集可能であってもよい。
図11は、表示装置417により表示される画面のさらに別の例を示す図である。表示装置417は、図11のように、架電者51から伝えられた事項を応対者61に選択させる画面を表示してもよい。特に要旨抽出部314が抽出されるべき要旨を1つに特定できなかった場合に、このような画面が表示されてもよい。解析モジュール31は、例えば入力装置(不図示)を介して応対者61から選択を受け付ける。解析モジュール31は、選択を受け付けたら、選択された要旨を、解析が行われた会話の他の情報と関連づけて記憶部310に記録してもよい。このような態様により、応対者61が発言の要旨を記録するための入力の手間が省ける。また、解析モジュール31は架電者51の発言の要旨を正しく特定できる。表示制御部315は、表示装置417に、選択された要旨を、図10の画面のように表示させてもよい。
<効果>
第1の実施形態に係る通話支援システム1によれば、架電者51の発言の要旨を精度よく抽出することができる。
その理由は、架電者51が間をおいて(すなわち、複数の発話単位に跨って)情報を伝える場合であっても、フレーズ生成部313が発話単位データを連結させることでフレーズデータを生成し、要旨抽出部314がそのフレーズデータに対して要旨抽出処理を行うからである。
架電者51が一息で発した発言(言い換えれば、発話単位)ごとに発言の要旨の抽出処理を行うと、適切に発言の要旨を抽出できない場合がある。架電者51が、伝えたい事項を、一度または数度の間をおいて話す場合があるからである。例えば、「注文した商品が届いたんですが」という発話単位だけを用いた抽出処理、および「色が違うんですよ」という発話単位だけを用いた抽出処理では、「注文した商品と色違いの商品が届いた」という要旨が正しく抽出されない可能性がある。
解析モジュール31は、「注文した商品が届いたんですが色が違う」という発言を含むフレーズに対して要旨抽出処理を行うので、「注文した商品と色違いの商品が届いた」という要旨が抽出できる。
また、通話支援システム1では、要旨の抽出に寄与したキー発言、または抽出された要旨を表示することにより、応対者61の架電者51に対する応対をスムーズにさせることができる。
<変形例>
(変形例1)
解析モジュール31は、応対者61の発言に対しても解析を行ってもよい。
例えば、記憶部310は、音声入力装置214から、音声入力装置214に入力された音声信号のデータを受け取り、記憶してもよい。そして、解析モジュール31は、その音声信号のデータに対し、図4のステップS31からステップS36の処理を行ってもよい。この場合、表示制御部315は、表示される発話単位データが架電者51の発言からのものであるか応対者61の発言からのものであるかが判るように、表示を制御してもよい。図12は、応対者61の発言も表示された画面の例を示す図である。
(変形例2)
解析モジュール31は、表示制御部315を含まなくてもよい。要旨抽出部314により抽出された要旨の情報は、表示されずに、記憶部310に記録されるだけでもよい。
抽出された要旨の情報の記録は、例えば、統計等の分析に用いられ得る。例えば、大量の電話を受けるコールセンタにおいて、通話の内容を記録し分析することは、そのコールセンタを有する組織が提供する製品やサービスの質を向上させるのに有効である。
すなわち、解析モジュール31によって記憶部310に記録される要旨の情報は、応対者61の応対を支援するために用いられる以外にも、製品やサービスの質の向上のための有益な情報として活用され得る。
(変形例3)
フレーズ生成部313がステップS347の処理を行う条件は、変更されてもよい。
仮フレーズに発話単位データ(次のリストにおいて「対象発話単位データ」と表記)を連結する条件は、ステップS345およびステップS346の判定に加えて、またはそれらの判定に代えて、以下の要件の少なくともいずれかが含まれてもよい。
・仮フレーズに含まれる発話単位データ間の非発話時間の合計と、仮フレーズと対象発話単位データとの間の非発話時間と、の合計が、所定の閾値θを超えないこと
・仮フレーズの時間的長さと対象発話単位データの時間的長さとの合計が、所定の閾値θを超えないこと
・仮フレーズ中の単語数と対象発話単位データ中の単語数との合計が、所定の閾値θを超えないこと
・仮フレーズのテキストの文字数と対象発話単位データのテキストの文字数との合計が、所定の閾値θを超えないこと
・仮フレーズ中の音節の数と対象発話単位データ中の音節の数との合計が、所定の閾値θを超えないこと
上記要件は適宜変更の上採用されてもよい。
(変形例4)
ステップS348の、PCountの値を増やす処理は、所定の条件が満たされる場合にスキップされてもよい。例えば、ステップS347の処理において追加された発話単位データの時間的長さが、所定の長さθよりも短い場合に、ステップS348の処理はスキップされてもよい。追加された発話単位データの文字数が所定の数θ未満である場合や、追加された発話単位データの単語数が所定の数θ未満である場合も、ステップS348の処理がスキップされてもよい。
(変形例5)
上述した各フローチャートに示された処理の順番は、本実施形態の実施が可能である限りにおいて、変更されてもよい。例えば、図3のステップS13の処理とステップS14の処理との順番は問わない。また、図4のステップS32の処理は、ステップS33の処理の後に行われてもよい。
<<第2の実施形態>>
第1の実施形態では、解析モジュール31はいくつかの発話単位データを含む範囲においてフレーズデータを生成し、要旨抽出処理を行ったあとに、その範囲に含まれる発話単位データを表示装置417に出力させる。
解析モジュール31は、発話区間が検出されるごとに、その発話区間の音声データに対して解析を行い、解析の結果を表示装置417に出力させるよう、変形されてもよい。
以下、本発明の第2の実施形態に係る解析モジュール32について説明する。図13は、解析モジュール32の構成を示すブロック図である。解析モジュール32に含まれる構成要素および各構成要素の機能は、解析モジュール31に含まれる構成要素および各構成要素の機能と同様でよい。
解析モジュール31と解析モジュール32との相違点は、処理の流れである。図14は、解析モジュール32による処理の流れを示すフローチャートである。解析モジュール32における発話区間検出部311が発話区間を検出する(ステップS41)と、認識部312がその発話区間における言葉を認識し、発話単位データを生成する(ステップS42)。すると、フレーズ生成部313は、生成された発話単位データを含むフレーズデータを生成する(ステップS43)。ステップS43の処理は、ステップS42の処理のすぐ後に(すなわち、他の処理を待つことなく)行われてよい。
フレーズ生成部313は、生成された発話単位データを、フレーズデータとして生成し得る。
また、フレーズ生成部313は、生成された発話単位データと、生成された発話単位データの前の発話単位データとを連結してフレーズデータを生成し得る。例えば、フレーズ生成部313は、生成された発話単位データと生成された発話単位データの直前の発話単位データとの間の非発話時間がDefTime未満である場合に、生成された発話単位データとその直前の発話単位データとを連結したフレーズデータを生成し得る。さらに、フレーズ生成部313は、生成されたフレーズデータと、生成されたフレーズデータの直前の発話単位データとの間の非発話時間がDefTime未満である場合に、生成されたフレーズデータとその直前の発話単位データとを連結したフレーズデータを生成し得る。フレーズ生成部313は、フレーズデータを構成する発話単位データがDefNumの値を超えない限り、上記のように連結を行ってフレーズデータを生成してもよい。
フレーズ生成部313は、生成された発話単位データ(またはフレーズデータ)と該データの直前の発話単位データとの間の非発話時間がDefTime以上である場合は、フレーズデータの生成を終了してよい。
そして、要旨抽出部314は、生成されたフレーズデータに対して要旨抽出処理を行う(ステップS44)。
表示制御部315は、発話単位データの表示制御を行う(ステップS45)。
例として、表示制御部315は、ステップS42の処理によって生成された発話単位データを表示装置417に表示させる。この時、この発話単位データについて要旨が抽出されなかった場合は、通常の態様でその発話単位データを表示させればよい。この発話単位データについて要旨が抽出された場合は、表示制御部315は、キー発言に相当する部分を目立つ態様で表示させる。
また、表示制御部315は、キー発言を含む、1つまたは複数の発話単位データについては、1つのフレーズとして表示されるように表示装置417を制御してもよい。
例として、表示装置417には図15(a)のような画面が表示されているとする。この後、解析モジュール32が、「違うんですよ」という発言を含むフレーズデータを解析することにより、「注文した商品が届いたんですが、どうやら色がですね、違う」という部分がキー発言であると特定したとする。すると、表示制御部315は、このキー発言を含む発話単位データをまとめ、1つのフレーズとして表示装置417に表示させる。表示装置417の表示は図15(b)のようになる。また、表示装置417は、キー発言を目立つ態様で表示する。このように、既に表示された発話単位にキー発言の一部が含まれていた場合は、表示制御部315は、表示装置417に、その発話単位データを態様を変更して表示し直させ得る。
第2の実施形態に係る解析モジュール32によれば、発話区間が検出されるごとに発言の認識結果が表示される。応対者61は、架電者51のそれぞれの発言の認識結果をすぐに知ることができる。その上で、第1の実施形態と同様の効果を得ることができる。
<<第3の実施形態>>
本発明の一実施形態に係る抽出装置30について説明する。図16は、抽出装置30の構成を示すブロック図である。
抽出装置30は、フレーズ特定部301と、要旨抽出部302と、を備える。
フレーズ特定部301は、所定の条件を満たす一群の発話単位を、1つのフレーズとして特定する。発話単位は、発言が記録された音声データから抽出された、発話が検出された区間における発話のデータである。発話単位は、例えば、上述の発話区間検出部311および認識部312の処理により、音声データから複数抽出され得る。なお、フレーズ特定部301が扱う発話単位のデータ形式は問わない。発話単位を表すデータは、例えば、テキストデータでもよいし、音声データでもよい。
所定の条件は、複数の発話単位間の関係に関する条件である。
上記各実施形態におけるフレーズ生成部313は、フレーズ特定部301の一例に相当する。
要旨抽出部302は、フレーズ特定部301が特定したフレーズを用いて、発言の要旨のモデルを記憶する記憶部から、当該フレーズが表す情報の要旨に相当するモデルを抽出する。
上記各実施形態における要旨抽出部314は、要旨抽出部302の一例に相当する。
図17は、抽出装置30による動作の流れを示すフローチャートである。まず、フレーズ特定部301が、所定の条件を満たす一群の発話単位を1つのフレーズとして特定する(ステップS101)。そして、要旨抽出部302が、フレーズ特定部301が特定したフレーズを用いて、そのフレーズが表す情報の要旨に相当するモデルを抽出する(ステップS102)。
抽出装置30によれば、音声データにより表される発言の要旨を精度よく抽出することができる。その理由は、所定の条件を満たす一群の発話単位であるフレーズを用いて、要旨抽出部302が要旨のモデルの抽出を行うからである。
<実施形態の各部を実現するハードウェアの構成>
以上で説明された本発明の各実施形態において、各構成要素を示すブロックは、機能単位で示されている。しかし、構成要素を示すブロックは、各構成要素が別個のデバイスにより構成されることを必ずしも意味していない。
各構成要素の処理は、例えば、コンピュータシステムが、コンピュータ読み取り可能な記憶媒体により記憶された、その処理をコンピュータシステムに実行させるプログラムを、読み出し、実行することによって、実現されてもよい。「コンピュータ読み取り可能な記憶媒体」は、例えば、光ディスク、磁気ディスク、光磁気ディスク、および不揮発性半導体メモリ等の可搬媒体、ならびに、コンピュータシステムに内蔵されるROM(Read Only Memory)およびハードディスク等の記憶装置である。「コンピュータ読み取り可能な記憶媒体」は、コンピュータシステム内部の揮発性メモリのようにプログラムを一時的に保持可能なもの、および、ネットワークや電話回線等の通信回線のように、プログラムを伝送するものも含む。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよく、更に前述した機能をコンピュータシステムにすでに記憶されているプログラムとの組み合わせで実現できるものであってもよい。
「コンピュータシステム」とは、一例として、図18に示されるようなコンピュータ900を含むシステムである。コンピュータ900は、以下のような構成を含む。
・1つまたは複数のCPU(Central Processing Unit)901
・ROM902
・RAM(Random Access Memory)903
・RAM903へロードされるプログラム904Aおよび記憶情報904B
・プログラム904Aおよび記憶情報904Bを格納する記憶装置905
・記憶媒体906の読み書きを行うドライブ装置907
・通信ネットワーク909と接続する通信インタフェース908
・データの入出力を行う入出力インタフェース910
・各構成要素を接続するバス911
例えば、各実施形態における各構成要素は、その構成要素の機能を実現するプログラム904AをCPU901がRAM903にロードして実行することで実現される。各構成要素の機能を実現するプログラム904Aは、例えば、予め、記憶装置905やROM902に格納される。そして、必要に応じてCPU901がプログラム904Aを読み出す。記憶装置905は、例えば、ハードディスクである。プログラム904Aは、通信ネットワーク909を介してCPU901に供給されてもよいし、予め記憶媒体906に格納されており、ドライブ装置907に読み出され、CPU901に供給されてもよい。なお、記憶媒体906は、例えば、光ディスク、磁気ディスク、光磁気ディスク、および不揮発性半導体メモリ等の、可搬媒体である。
各モジュールおよび各装置の実現方法には、様々な変形例がある。例えば、各モジュールおよび各装置は、構成要素毎にそれぞれ別個のコンピュータ900とプログラムとの可能な組み合わせにより実現されてもよい。また、各モジュールおよび各装置が備える複数の構成要素が、一つのコンピュータ900とプログラムとの可能な組み合わせにより実現されてもよい。
また、各モジュールおよび各装置の、各構成要素の一部または全部は、その他の汎用または専用の回路、コンピュータ等やこれらの組み合わせによって実現されてもよい。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。
各モジュールおよび各装置の、各構成要素の一部または全部が、複数のコンピュータや回路等により実現される場合には、複数のコンピュータや回路等は、集中配置されてもよいし、分散配置されてもよい。例えば、コンピュータや回路等は、クライアントアンドサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。
上記実施形態の一部または全部は以下の付記のようにも記載され得るが、以下には限られない。
<<付記>>
[付記1]
発言が記録された音声データから抽出された、発話が検出された区間における発話のデータである複数の発話単位のうちの、前記発話単位間の関係に関する所定の条件を満たす一群の前記発話単位を、1つのフレーズとして特定するフレーズ特定手段と、
前記フレーズを用いて、発言の要旨のモデルを記憶する記憶手段から、当該フレーズが表す情報の要旨に相当する前記モデルを抽出する要旨抽出手段と、
を備える抽出装置。
[付記2]
前記フレーズを表示手段に表示させる表示制御手段を備え、
前記要旨抽出手段は、前記フレーズにおける、抽出された前記モデルが表す内容に対応する内容が表されている部分を特定し、
前記表示制御手段は、前記部分を目立つ態様で前記表示手段に表示させる、
付記1に記載の抽出装置。
[付記3]
前記要旨抽出手段は、抽出された前記モデルに対して予め用意されているキーワードに基づいて、前記部分を特定する、
付記2に記載の抽出装置。
[付記4]
前記要旨抽出手段は、前記モデルを複数抽出し、
前記抽出装置は、
抽出された複数の前記モデルを表示手段に表示させる表示制御手段と、
前記表示手段に表示された複数の前記モデルのうちのいずれかを選択する操作を受け付ける受付手段と、を備える
付記1に記載の抽出装置。
[付記5]
前記所定の条件は、当該一群の前記発話単位に含まれる互いに隣り合う前記発話単位間の発声されていない時間のいずれもが、所定の長さよりも短いことを、1つの要件として含む、
付記1から4のいずれか一つに記載の抽出装置。
[付記6]
前記所定の条件は、当該一群の前記発話単位に含まれる前記発話単位間の発声されていない時間の合計が、所定の長さよりも短いことを、1つの要件として含む、
付記1から4のいずれか一つに記載の抽出装置。
[付記7]
前記所定の条件は、前記一群の発話単位を構成する前記発話単位、単語、音節および文字の少なくともいずれかの、個数に関する要件を含む、
付記1から6のいずれか一つに記載の抽出装置。
[付記8]
前記要旨抽出手段は、前記フレーズを用いて、当該フレーズの特徴との類似度が所定の基準を満たす特徴を持つ前記モデルを、当該フレーズが表す情報の要旨に相当する前記モデルとして抽出する、
付記1から7のいずれか一つに記載の抽出装置。
[付記9]
発言が記録された音声データから抽出された、発話が検出された区間における発話のデータである複数の発話単位のうちの、前記発話単位間の関係に関する所定の条件を満たす一群の前記発話単位を、1つのフレーズとして特定し、
前記フレーズを用いて、発言の要旨のモデルを記憶する記憶手段から、当該フレーズが表す情報の要旨に相当する前記モデルを抽出する、
抽出方法。
[付記10]
前記フレーズにおける、抽出された前記モデルが表す内容に対応する内容が表されている部分を特定し、
前記フレーズを、前記部分が目立つように、表示手段に表示させる、
付記9に記載の抽出方法。
[付記11]
抽出された前記モデルに対して予め用意されているキーワードに基づいて、前記部分を特定する、
付記10に記載の抽出方法。
[付記12]
前記モデルを複数抽出し、
抽出された複数の前記モデルを表示手段に表示させ、
前記表示手段に表示された複数の前記モデルのうちのいずれかを選択する操作を受け付ける、
付記9に記載の抽出方法。
[付記13]
前記所定の条件は、当該一群の前記発話単位に含まれる互いに隣り合う前記発話単位間の発声されていない時間のいずれもが、所定の長さよりも短いことを、1つの要件として含む、
付記9から12のいずれか一つに記載の抽出方法。
[付記14]
前記所定の条件は、当該一群の前記発話単位に含まれる前記発話単位間の発声されていない時間の合計が、所定の長さよりも短いことを、1つの要件として含む、
付記9から12のいずれか一つに記載の抽出方法。
[付記15]
前記所定の条件は、前記一群の発話単位を構成する前記発話単位、単語、音節および文字の少なくともいずれかの、個数に関する要件を含む、
付記9から14のいずれか一つに記載の抽出方法。
[付記16]
前記フレーズを用いて、当該フレーズの特徴との類似度が所定の基準を満たす特徴を持つ前記モデルを、当該フレーズが表す情報の要旨に相当する前記モデルとして抽出する、
付記9から15のいずれか一つに記載の抽出方法。
[付記17]
発言が記録された音声データから抽出された、発話が検出された区間における発話のデータである複数の発話単位のうちの、前記発話単位間の関係に関する所定の条件を満たす一群の前記発話単位を、1つのフレーズとして特定するフレーズ特定処理と、
前記フレーズを用いて、発言の要旨のモデルを記憶する記憶手段から、当該フレーズが表す情報の要旨に相当する前記モデルを抽出する要旨抽出処理と、
をコンピュータに実行させる、プログラム。
[付記18]
前記フレーズを表示手段に表示させる表示制御処理を、さらに前記コンピュータに実行させ、
前記要旨抽出処理は、前記フレーズにおける、抽出された前記モデルが表す内容に対応する内容が表されている部分を特定し、
前記表示制御処理は、前記部分を目立つ態様で前記表示手段に表示させる、
付記17に記載のプログラム。
[付記19]
前記要旨抽出処理は、抽出された前記モデルに対して予め用意されているキーワードに基づいて、前記部分を特定する、
付記18に記載のプログラム。
[付記20]
前記要旨抽出処理は、前記モデルを複数抽出し、
前記プログラムは、
抽出された複数の前記モデルを表示手段に表示させる表示制御処理と、
前記表示手段に表示された複数の前記モデルのうちのいずれかを選択する操作を受け付ける受付処理と、を前記コンピュータにさらに実行させる、
付記17に記載のプログラム。
[付記21]
前記所定の条件は、当該一群の前記発話単位に含まれる互いに隣り合う前記発話単位間の発声されていない時間のいずれもが、所定の長さよりも短いことを、1つの要件として含む、
付記17から20のいずれか一つに記載のプログラム。
[付記22]
前記所定の条件は、当該一群の前記発話単位に含まれる前記発話単位間の発声されていない時間の合計が、所定の長さよりも短いことを、1つの要件として含む、
付記17から20のいずれか一つに記載のプログラム。
[付記23]
前記所定の条件は、前記一群の発話単位を構成する前記発話単位、単語、音節および文字の少なくともいずれかの、個数に関する要件を含む、
付記17から22のいずれか一つに記載のプログラム。
[付記24]
前記要旨抽出処理は、前記フレーズを用いて、当該フレーズの特徴との類似度が所定の基準を満たす特徴を持つ前記モデルを、当該フレーズが表す情報の要旨に相当する前記モデルとして抽出する、
付記17から23のいずれか一つに記載のプログラム。
本願発明は以上に説明した実施形態に限定されるものではない。以上に説明した実施形態の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
1 通話支援システム
11 通話装置
21 通話モジュール
211 通信部
212 音声取得部
213 音声出力装置
214 音声入力装置
215 音声送出部
30 抽出装置
301 フレーズ特定部
302 要旨抽出部
31、32 解析モジュール
310 記憶部
311 発話区間検出部
312 認識部
313 フレーズ生成部
314 要旨抽出部
3141 要旨モデル記憶部
315 表示制御部
417 表示装置
51 架電者
61 応対者
99 電話網
900 コンピュータ
901 CPU
902 ROM
903 RAM
904A プログラム
904B 記憶情報
905 記憶装置
906 記憶媒体
907 ドライブ装置
908 通信インタフェース
909 通信ネットワーク
910 入出力インタフェース
911 バス

Claims (10)

  1. 発言が記録された音声データから抽出された、発話が検出された区間における発話のデータである複数の発話単位のうちの、前記発話単位間の関係に関する所定の条件を満たす一群の前記発話単位を、1つのフレーズとして特定するフレーズ特定手段と、
    前記フレーズを用いて、発言の要旨のモデルを記憶する記憶手段から、当該フレーズが表す情報の要旨に相当する前記モデルを抽出する要旨抽出手段と、
    を備える抽出装置。
  2. 前記フレーズを表示手段に表示させる表示制御手段を備え、
    前記要旨抽出手段は、前記フレーズにおける、抽出された前記モデルが表す内容に対応する内容が表されている部分を特定し、
    前記表示制御手段は、前記部分を目立つ態様で前記表示手段に表示させる、
    請求項1に記載の抽出装置。
  3. 前記要旨抽出手段は、抽出された前記モデルに対して予め用意されているキーワードに基づいて、前記部分を特定する、
    請求項2に記載の抽出装置。
  4. 前記要旨抽出手段は、前記モデルを複数抽出し、
    前記抽出装置は、
    抽出された複数の前記モデルを表示手段に表示させる表示制御手段と、
    前記表示手段に表示された複数の前記モデルのうちのいずれかを選択する操作を受け付ける受付手段と、を備える
    請求項1に記載の抽出装置。
  5. 前記所定の条件は、当該一群の前記発話単位に含まれる互いに隣り合う前記発話単位間の発声されていない時間のいずれもが、所定の長さよりも短いことを、1つの要件として含む、
    請求項1から4のいずれか一項に記載の抽出装置。
  6. 前記所定の条件は、当該一群の前記発話単位に含まれる前記発話単位間の発声されていない時間の合計が、所定の長さよりも短いことを、1つの要件として含む、
    請求項1から4のいずれか一項に記載の抽出装置。
  7. 前記所定の条件は、前記一群の発話単位を構成する前記発話単位、単語、音節および文字の少なくともいずれかの、個数に関する要件を含む、
    請求項1から6のいずれか一項に記載の抽出装置。
  8. 前記要旨抽出手段は、前記フレーズを用いて、当該フレーズの特徴との類似度が所定の基準を満たす特徴を持つ前記モデルを、当該フレーズが表す情報の要旨に相当する前記モデルとして抽出する、
    請求項1から7のいずれか一項に記載の抽出装置。
  9. 発言が記録された音声データから抽出された、発話が検出された区間における発話のデータである複数の発話単位のうちの、前記発話単位間の関係に関する所定の条件を満たす一群の前記発話単位を、1つのフレーズとして特定し、
    前記フレーズを用いて、発言の要旨のモデルを記憶する記憶手段から、当該フレーズが表す情報の要旨に相当する前記モデルを抽出する、
    抽出方法。
  10. 発言が記録された音声データから抽出された、発話が検出された区間における発話のデータである複数の発話単位のうちの、前記発話単位間の関係に関する所定の条件を満たす一群の前記発話単位を、1つのフレーズとして特定するフレーズ特定処理と、
    前記フレーズを用いて、発言の要旨のモデルを記憶する記憶手段から、当該フレーズが表す情報の要旨に相当する前記モデルを抽出する要旨抽出処理と、
    をコンピュータに実行させる、プログラム。
JP2018129152A 2018-07-06 2018-07-06 抽出装置、抽出方法、およびプログラム Pending JP2020008690A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018129152A JP2020008690A (ja) 2018-07-06 2018-07-06 抽出装置、抽出方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018129152A JP2020008690A (ja) 2018-07-06 2018-07-06 抽出装置、抽出方法、およびプログラム

Publications (1)

Publication Number Publication Date
JP2020008690A true JP2020008690A (ja) 2020-01-16

Family

ID=69151442

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018129152A Pending JP2020008690A (ja) 2018-07-06 2018-07-06 抽出装置、抽出方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP2020008690A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2021255795A1 (ja) * 2020-06-15 2021-12-23

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001125587A (ja) * 1999-10-26 2001-05-11 Ricoh Co Ltd 音声認識対話装置及びその音声認識方法
JP2003030178A (ja) * 2001-05-10 2003-01-31 Oki Electric Ind Co Ltd 電子メール装置および電子メールシステム
JP2006276754A (ja) * 2005-03-30 2006-10-12 Mitsubishi Electric Information Systems Corp オペレータ業務支援システム
JP2016139299A (ja) * 2015-01-28 2016-08-04 日本電気株式会社 情報処理システム、情報処理方法、及び、プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001125587A (ja) * 1999-10-26 2001-05-11 Ricoh Co Ltd 音声認識対話装置及びその音声認識方法
JP2003030178A (ja) * 2001-05-10 2003-01-31 Oki Electric Ind Co Ltd 電子メール装置および電子メールシステム
JP2006276754A (ja) * 2005-03-30 2006-10-12 Mitsubishi Electric Information Systems Corp オペレータ業務支援システム
JP2016139299A (ja) * 2015-01-28 2016-08-04 日本電気株式会社 情報処理システム、情報処理方法、及び、プログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2021255795A1 (ja) * 2020-06-15 2021-12-23
WO2021255795A1 (ja) * 2020-06-15 2021-12-23 日本電信電話株式会社 情報処理装置、情報処理方法およびプログラム
JP7355244B2 (ja) 2020-06-15 2023-10-03 日本電信電話株式会社 情報処理装置、情報処理方法およびプログラム

Similar Documents

Publication Publication Date Title
US10592611B2 (en) System for automatic extraction of structure from spoken conversation using lexical and acoustic features
US9742912B2 (en) Method and apparatus for predicting intent in IVR using natural language queries
US9672829B2 (en) Extracting and displaying key points of a video conference
JP6341092B2 (ja) 表現分類装置、表現分類方法、不満検出装置及び不満検出方法
JP4478939B2 (ja) 音声処理装置およびそのためのコンピュータプログラム
US10083686B2 (en) Analysis object determination device, analysis object determination method and computer-readable medium
US8165874B2 (en) System, method, and program product for processing speech ratio difference data variations in a conversation between two persons
CN111048064B (zh) 基于单说话人语音合成数据集的声音克隆方法及装置
JP4728868B2 (ja) 応対評価装置、その方法、プログラムおよびその記録媒体
CN112530408A (zh) 用于识别语音的方法、装置、电子设备和介质
US20130253932A1 (en) Conversation supporting device, conversation supporting method and conversation supporting program
JP6254504B2 (ja) 検索サーバ、及び検索方法
US8423354B2 (en) Speech recognition dictionary creating support device, computer readable medium storing processing program, and processing method
CN106486134B (zh) 话语状态确定装置及方法
US10522135B2 (en) System and method for segmenting audio files for transcription
JP6327252B2 (ja) 分析対象決定装置及び分析対象決定方法
JP2020008690A (ja) 抽出装置、抽出方法、およびプログラム
CN116564286A (zh) 语音录入方法、装置、存储介质及电子设备
CN114067842B (zh) 客户满意度鉴别方法及装置、存储介质及电子设备
US12002486B2 (en) Tag estimation device, tag estimation method, and program
US20220165276A1 (en) Evaluation system and evaluation method
CN113744712A (zh) 智能外呼语音拼接方法、装置、设备、介质和程序产品
JPH10173769A (ja) 音声メッセージ検索装置
CN112712793A (zh) 语音交互下基于预训练模型的asr纠错方法及相关设备
CN113763921B (zh) 用于纠正文本的方法和装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210615

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20211015

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220311

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220322

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220520

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220906

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221031

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230207