JP2020008690A

JP2020008690A - 抽出装置、抽出方法、およびプログラム

Info

Publication number: JP2020008690A
Application number: JP2018129152A
Authority: JP
Inventors: ヘイカイミョウ; Heikai Myo
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2018-07-06
Filing date: 2018-07-06
Publication date: 2020-01-16

Abstract

【課題】音声データにより表される発言の要旨を精度よく抽出する技術を提供する。【解決手段】抽出装置は、発言が記録された音声データから抽出された、発話が検出された区間における発話のデータである複数の発話単位のうちの、前記発話単位間の関係に関する所定の条件を満たす一群の前記発話単位を、１つのフレーズとして特定するフレーズ特定部と、前記フレーズを用いて、発言の要旨のモデルを記憶する記憶部から、当該フレーズが表す情報の要旨に相当する前記モデルを抽出する要旨抽出部と、を備える。【選択図】図１６

Description

本開示は、音声データから、発言の内容に関する情報を抽出する技術に関する。

人が発した声の音データ（以下、「音声データ」と表記）から、その人の発言の内容に関する情報を抽出する技術は、特にコールセンタ等において利活用される。

例えば、コールセンタにおいて、電話をかけてきた顧客に応対するオペレータが顧客の発言の内容を理解するのを支援するために、顧客の発言をテキスト化した情報を、オペレータの使用するコンピュータの画面上に表示させるシステムがある。

特許文献１および２は、上記のシステムに関する発明を記載する文献である。

特許文献１の音声認識システムは、オペレータの音声からキーワードを抽出し、そのキーワードの時間的周辺においてカスタマーが発したキーフレーズが含まれる区間を検出する。この音声認識システムは、検出された区間の音声を用いて音響モデルを補正することにより、音声認識精度を向上させる。

特許文献２のオペレータ業務支援システムは、音声データをテキストデータに変換し、そのテキストデータに含まれる所定のキーワードを強調表示する。

特開２０１５−０４９２５４号公報特開２００６−２７６７５４号公報

上記各特許文献に記載の技術は、重要な単語を抽出する処理を含むが、顧客がオペレータに伝えた事項の要点、すなわち発言の要旨を、抽出する技術ではない。

本発明は、音声データにより表される発言の要旨を精度よく抽出する技術を提供することを、目的の１つとする。

本発明の一態様に係る抽出装置は、発言が記録された音声データから抽出された、発話が検出された区間における発話のデータである複数の発話単位のうちの、前記発話単位間の関係に関する所定の条件を満たす一群の前記発話単位を、１つのフレーズとして特定するフレーズ特定手段と、前記フレーズを用いて、発言の要旨のモデルを記憶する記憶手段から、当該フレーズが表す情報の要旨に相当する前記モデルを抽出する要旨抽出手段と、を備える。

本発明の一態様に係る抽出方法は、発言が記録された音声データから抽出された、発話が検出された区間における発話のデータである複数の発話単位のうちの、前記発話単位間の関係に関する所定の条件を満たす一群の前記発話単位を、１つのフレーズとして特定し、前記フレーズを用いて、発言の要旨のモデルを記憶する記憶手段から、当該フレーズが表す情報の要旨に相当する前記モデルを抽出する。

本発明の一態様に係るプログラムは、発言が記録された音声データから抽出された、発話が検出された区間における発話のデータである複数の発話単位のうちの、前記発話単位間の関係に関する所定の条件を満たす一群の前記発話単位を、１つのフレーズとして特定するフレーズ特定処理と、前記フレーズを用いて、発言の要旨のモデルを記憶する記憶手段から、当該フレーズが表す情報の要旨に相当する前記モデルを抽出する要旨抽出処理と、をコンピュータに実行させる。

本発明によれば、音声データにより表される発言の要旨を精度よく抽出することができる。

本発明の第１の実施形態に係る通話支援システム１の構成を示すブロック図である。音声データの例を示す図である。第１の実施形態に係る通話モジュールと解析モジュールとの動作の流れを示すフローチャートである。第１の実施形態に係る解析モジュールによる処理の詳細を示すフローチャートである。第１の実施形態に係る認識部によって生成されるデータの例を示す表である。第１の実施形態に係るフレーズ生成部による処理の流れを示すフローチャートである。発話単位データ、仮フレーズ、および生成されるフレーズデータの例を示す図である。抽出モデルによって記憶されるデータの例を示す図である表示装置により表示される画面の例を示す図である。表示装置により表示される画面の別の例を示す図である。表示装置により表示される画面のさらに別の例を示す図である。第１の実施形態の変形例に係る表示装置により表示される画面の例を示す図である。本発明の第２の実施形態に係る解析モジュールの構成を示すブロック図である。第２の実施形態に係る解析モジュールによる処理の流れを示すフローチャートである。図１５（ａ）は、第２の実施形態に係る表示装置により表示される画面の例を示す図である。図１５（ｂ）は、同表示装置により次に表示される画面の例を示す図である。本発明の一実施形態に係る抽出装置の構成を示すブロック図である。本発明の一実施形態に係る抽出方法の流れを示すフローチャートである。本発明の各実施形態の各部を構成し得るハードウェアの例を示すブロック図である。

以下、図面を参照しながら、本発明の実施形態を詳細に説明する。

＜＜第１の実施形態＞＞
まず、本発明の第１の実施形態について説明する。

＜構成＞
図１は、第１の実施形態に係る通話支援システム１の全体像を概念的に示すブロック図である。

通話支援システム１は、架電者５１と応対者６１との間の通話を支援するシステムである。架電者５１は通話装置１１を用いて架電する。架電者５１からの着信を受けた応対者６１は、通話モジュール２１を用いて通話を行うことで、架電者５１に対する応対をする。

通話装置１１と通話モジュール２１とは、電話網９９により、互いに音声信号の送受信が可能であるように接続される。電話網９９は一般的な電話網でよい。

通話モジュール２１により受信される、通話装置１１からの音声信号（すなわち、架電者５１により発せられた声の信号）は、音声出力装置２１３によって音として出力される。また、通話装置１１からの音声信号は、解析モジュール３１にも送られ、解析モジュール３１により解析される。解析モジュール３１による解析の結果は、表示装置４１７に表示される。応対者６１は、表示装置４１７を見ることで、解析モジュール３１による解析の結果を認知する。

以下、通話支援システム１の構成要素について詳細に説明する。

＝＝＝通話装置１１＝＝＝
通話装置１１は、架電者５１が通話のために使用する装置である。通話装置１１は、通話機能を持つ一般的なデバイス（例えば、固定電話、携帯電話等）でよい。

＝＝＝通話モジュール２１＝＝＝
通話モジュール２１は、応対者６１が通話のために使用するモジュールである。なお、本開示において、「モジュール」とは、特定の機能を発揮する要素に付与される語である。モジュールは１つの物でもよいし、概念的にひとまとまりとして捉えられる、複数の物の組み合わせ、または１つの物の部分でもよい。

通話モジュール２１は、通信部２１１と、音声取得部２１２と、音声出力装置２１３と、音声入力装置２１４と、音声送出部２１５と、を含む。通話モジュール２１は、例えば、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）と、ＰＣに接続される入出力装置と、のセットによって実現されてもよい。

通信部２１１は、電話網９９から音声信号を受信し、電話網９９に対して音声信号を送信する。通信部２１１は、電話網９９から受信した音声信号を音声取得部２１２に送出する。また、通信部２１１は、電話網９９に対して送信する音声信号を音声送出部２１５から取得する。

音声取得部２１２は、通信部２１１が受信した音声信号を取得し、取得した音声信号を音声出力装置２１３および解析モジュール３１に送出する。

音声出力装置２１３は、音声取得部２１２から受け取った音声信号を音として出力する装置である。音声出力装置２１３は、例えば、一般的なスピーカーまたはヘッドフォン等でよい。

音声入力装置２１４は、音を入力として受け付け、受け付けた音を音声信号に変換する。本実施形態では、音声入力装置２１４によって、応対者６１が発する声が、音声信号に変換される。音声入力装置２１４は、例えば、一般的なマイクロフォンでよい。

音声送出部２１５は、音声入力装置２１４に入力された音声（すなわち、応対者６１により発せられた声）の音声信号を音声入力装置２１４から受け取り、その音声信号を通信部２１１に送出する。

＝＝＝解析モジュール３１＝＝＝
解析モジュール３１は、通話装置１１からの音声信号を解析するモジュールである。なお、本実施形態における解析とは、以降で説明する、音声信号または音声信号から得られるデータから何らかの情報を得る種々の処理の、一部または全部を指す。

解析モジュール３１は、記憶部３１０と、発話区間検出部３１１と、認識部３１２と、フレーズ生成部３１３と、要旨抽出部３１４と、要旨モデル記憶部３１４１と、表示制御部３１５と、を含む。

解析モジュール３１は、１つまたは複数のコンピュータによって実現されてもよい。解析モジュール３１は、通話モジュール２１を構成するコンピュータに含まれていてもよい。

記憶部３１０は、解析モジュール３１が扱うデータを記憶する。例えば、記憶部３１０は、音声取得部２１２から、通話装置１１からの音声信号を受け取り、その音声信号を記憶する。通話モジュール２１と解析モジュール３１とが別個の装置によってそれぞれ実現されている場合は、記憶部３１０は、音声取得部２１２から、例えば図示されない通信インタフェースを経由して、音声信号を受け取ってもよい。記憶部３１０は、この他、解析モジュール３１の各構成要素によって生成されるデータおよび情報等を記憶してもよい。以下、音声信号から生成される音声の時系列データを「音声データ」と表記する。

発話区間検出部３１１は、記憶部３１０に記憶された音声データから発話区間を検出する。

発話区間とは、音声データにおいて架電者５１による発言が記録されている区間（時間区間）である。発話区間は、後述の認識部３１２による処理の対象の単位となる。

発話区間検出部３１１は、例えば、「非発話区間」を検出し、非発話区間でない区間を発話区間として検出し得る。具体的には、例えば、発話区間検出部３１１は、音声データにおける、音の強さが所定の閾値θ_ｐ以下である区間を検出する。音の強さが所定の閾値以下である区間は、架電者５１が声（無声音を含む）を発していない区間（以下、「非発声区間」）であるとみなされる。ただし、架電者５１が言葉の一部として無音を作っている（例えば促音を表現している）時間や、淀みながら言葉を発することで発生する無音の時間も、非発声時間となり得る。そのため、発話区間検出部３１１は、非発声区間のうち、その長さが所定の閾値θ_ｔ以上である区間を、非発話区間として検出するよう構成され得る。そして、発話区間検出部３１１は、非発話区間でない区間を発話区間として検出し得る。

図２は、架電者５１の音声データを視覚的に例示する図である。図２において、波形の振幅は、架電者５１の声の強さに対応している。

一例として、発話区間検出部３１１は、長さが０．３秒以上である非発声区間を、非発話区間であるとして検出し得る。この場合、発話区間検出部３１１は、区間Ｂ２、Ｂ４を、非発話区間として検出し得る。そして、発話区間検出部３１１は、非発話区間でない区間（区間Ｂ１、Ｂ３、Ｂ５）を、発話区間として検出する。

発話区間の検出方法は上記に限られない。発話区間検出部３１１は、ひと続きの発言が行われた区間を発話区間として検出するよう、構成されればよい。

認識部３１２は、発話区間検出部３１１によって検出された発話区間における音声について、言葉を認識する。認識部３１２による認識とは、具体的には、音声により表される言葉をテキストデータにすることである。音声により表される言葉をテキストデータにする方法には、既知の方法が用いられればよい。

以下、発話区間に対して認識部３１２により生成されるテキストデータを、「発話単位データ」と呼ぶ。

フレーズ生成部３１３は、所定のアルゴリズムに基づき、発話単位データから、１つの発話単位データまたは２つ以上の発話単位データが連結されたものである「フレーズデータ」を生成する。フレーズデータは、後述する要旨抽出部３１４による処理において用いられる。

要旨抽出部３１４は、フレーズデータと要旨モデル記憶部３１４１とを用いて、架電者５１の発言の要旨を抽出する。抽出されるべき要旨のモデルは、要旨モデル記憶部３１４１に記憶されている。つまり、要旨抽出部３１４は、要旨モデル記憶部３１４１に記憶されている要旨のモデル（以下、「要旨モデル」とも表記）から、フレーズデータを用いることで特定される要旨モデルを、抽出する。なお、本開示では、要旨モデルを抽出することを、「要旨を抽出する」とも表現する。

要旨モデルの特定および抽出に係る処理の具体例を、以下に説明する。

（例１）
要旨抽出部３１４は、フレーズデータと各要旨モデルとの類似度をそれぞれ計算し、類似度が所定の基準を満たす要旨モデルを抽出してもよい。

類似度の計算方法は、公知の方法でよい。例えば、要旨モデル記憶部３１４１が、各要旨モデルについて、その要旨モデルの特徴を表すベクトルを記憶しておく。要旨抽出部３１４は、フレーズデータに対し自然言語処理（公知の方法でよい）を行い、そのフレーズデータの特徴を表すベクトルを生成する。そして、要旨抽出部３１４は、フレーズデータのベクトルと、要旨モデルのベクトルとの類似度を、例えばコサイン類似度、Ｊａｃｃａｒｄ係数、またはＤｉｃｅ係数等を計算することにより算出し得る。

所定の基準は、例えば、「すべての要旨モデルのうち最も類似度が高いこと」でもよいし、「類似度が所定の値より大きいこと」でもよい。所定の基準は、複数の要件の組み合わせでもよい（例：「すべての要旨モデルのうち最も類似度が高い」かつ「類似度が所定の値より大きい」等）。

なお、所定の基準を満たす要旨モデルが無い場合は、要旨抽出部３１４は要旨モデルを抽出しなくてもよい。

（例２）
要旨抽出部３１４は、例えば、フレーズデータから特徴的な単語（キーワード）を抽出し、そのキーワードを最も多く含む要旨モデルを抽出してもよい。ただし、要旨モデルごとに条件（必ず含むべき単語、一致する単語数等に関する条件）が用意され、その条件を満たさない要旨モデルは抽出しないよう、要旨抽出部３１４が構成されていてもよい。

（例３）
要旨抽出部３１４は、例えば、予め用意された、要旨モデルを特定するための分類木にフレーズデータを入力し、出力として要旨モデルを得てもよい。ただし、分類木は、いずれの要旨モデルも特定されない、という結果を出力する場合があってもよい。

（例４）
要旨抽出部３１４は、予め用意されたニューラルネットワークに、フレーズデータの特徴を表すベクトルを入力し、出力として要旨モデルの各々の尤度を出力として取得してもよい。この場合における尤度は、入力されたフレーズデータが表している内容に一致している確率のことである。そして、要旨抽出部３１４は、尤度が最も高い要旨モデルを抽出してもよい。あるいは、要旨抽出部３１４は、尤度が一定の基準を満たす要旨モデルをすべて抽出してもよい。

以上に説明されるように、要旨抽出部３１４が要旨モデルを抽出する方法は様々に考えられる。あるフレーズデータに対して、要旨モデルが抽出されない場合があってもよい。また、要旨抽出部３１４は、複数の要旨モデルを抽出してもよい。

なお、要旨抽出部３１４は、要旨モデルの抽出にあたり、フレーズデータに対して前処理を行ってもよい。例えば、要旨抽出部３１４は、活用語の活用形を終止形に統一したり、「です」「けど」等の文意への影響が少ない語（設計または学習により設定され得る）を取り除いたりしてもよい。

また、要旨抽出部３１４は、フレーズデータを文単位で分割し、分割によって生成したデータのそれぞれについて要旨モデルの抽出を行ってもよい。

表示制御部３１５は、認識部３１２および要旨抽出部３１４による処理の結果に基づいて、表示装置４１７による表示を制御する。

＝＝＝表示装置４１７＝＝＝
表示装置４１７は、応対者６１に情報を視覚的に提供するための装置である。表示装置４１７は、例えば、一般的なモニターでよい。

表示装置４１７と音声入力装置２１４とが、一つの装置に備わっていてもよい。

＜動作＞
通話モジュール２１と解析モジュール３１との動作の概要について、図３のフローチャートを参照しながら説明する。

架電者５１が、通話装置１１を用いて通話モジュール２１を含むシステムに架電し、通話モジュール２１が通話装置１１との通信を行うことが決まると、通話モジュール２１は、通話装置１１との通信を開始する（ステップＳ１１）。以下の処理は、この通信の継続中の処理である。

通信の継続中、音声取得部２１２は、通話装置１１からの音声信号を取得する（ステップＳ１２）。通話モジュール２１は、音声出力装置２１３により、この音声信号から音を生成してその音を出力する（ステップＳ１３）とともに、この音声信号を解析モジュール３１に送出する（ステップＳ１４）。通話モジュール２１は、音声信号が取得される限り、すなわち、通信が継続している間、得られる音声信号を随時解析モジュール３１に送出すればよい。音声信号の送出方法は、連続的であるか断続的であるかを問わない。

解析モジュール３１は、通話モジュール２１から受け取った音声信号を音声データとして記憶部３１０により記憶し（ステップＳ２１）、発話区間検出部３１１、認識部３１２、フレーズ生成部３１３、および要旨抽出部３１４により、音声データの解析を行う（ステップＳ２２）。そして、解析モジュール３１は、表示制御部３１５により、解析の結果を表示装置４１７に表示させる（ステップＳ２３）。また、解析モジュール３１は、ステップＳ２１の処理で記憶された音声データでまだ解析されていない音声データがあれば（ステップＳ２４においてＹＥＳ）、再びステップＳ２２とステップＳ２３との処理を行う。

解析モジュール３１は、ステップＳ２１からステップＳ２３の処理を、通信が終了する（ステップＳ２５においてＹＥＳになる）まで、すなわち通話モジュール２１により音声信号が取得されている間、新たに取得される音声信号に対して繰り返し行う。

応対者は、ステップＳ２３の処理によって解析の結果が表示された表示装置４１７を見ながら、架電者５１と会話をする。図３のフローチャートには示されていないが、通話モジュール２１は、応対者６１から入力された音声信号を通話装置１１に送信する。

通話モジュール２１は、例えば、応対者６１から通話を終了する指示を受け付けるか、通話装置１１との通信が切れた場合に、音声信号の取得を終了する（ステップＳ１５においてＮＯ）。この場合、通信部２１１は通話装置１１との通信を終了する（ステップＳ１６）。この時、ステップＳ２１は、解析モジュール３１に対して通話を終了する（または終了した）旨を通知してもよい。

解析モジュール３１は、通話が終了した場合（ステップＳ２５においてＹＥＳ）、すなわち、通話モジュール２１が新たな音声信号を取得しなくなったら、処理を終了してよい。

次に、解析モジュール３１による解析（ステップＳ２２の処理）の詳細について説明する。図４は、ステップＳ２２からステップＳ２４の処理をより具体的に記載したフローチャートである。

なお、各処理は、各処理がプログラムを実行するプロセッサによって実行される場合においては、プログラムの中の命令の順序に従って実行されればよい。各処理が別個のデバイスによって実行される場合においては、処理を完了したデバイスが次の処理を実行するデバイスに通知を行うことで、処理が順番に実行されればよい。なお、処理を行う各部は、めいめいの処理に必要なデータを、例えば、そのデータを生成した部から受け取り、および／または解析モジュール３１が使用できる記憶領域（記憶部３１０等）から読み出せばよい。

まず、発話区間検出部３１１が、音声データに対して、発話区間を検出する（ステップＳ３１）。

次に、認識部３１２が、発話区間ごとに、その発話区間において発せられた言葉を認識する（ステップＳ３２）。認識部３１２は、認識によって、発話区間ごとに検出された発話単位データを生成する。

図５は、認識部３１２によって生成された発話単位データの例を示す図である。発話単位データは、図５に示されるように、その発話単位データが取得された発話区間の、開始時刻および終了時刻の情報に関連づけられる形式で、記憶部３１０に記録されてもよい。

次に、解析モジュール３１は、ステップＳ３４およびステップＳ３５の処理の対象となる、発話単位データのグループである解析対象グループを決定する（ステップＳ３３）。

解析モジュール３１は、例えば、未だ解析対象になっていない発話単位データのうち最も早く取得された発話単位データの発話の開始時刻から所定の時間（例えば１５秒）後までの間に発話が開始された、発話単位データの組を、解析対象グループとして決定してもよい。

解析モジュール３１は、例えば、未だ解析対象になっていない発話単位データのうち最も早く取得された発話単位データの発話の開始時刻から、その開始時刻から所定の時間（例えば１５秒）の経過後、最初に非発声時間が所定の閾値θ_ｓ以上になる時刻までの間に、発せられた発話単位データの組を、解析対象グループとして決定してもよい。この所定の閾値θ_ｓは、後述するDefTimeと同じ値でよい。

解析モジュール３１は、例えば、所定の個数（例えば５つ）以上の連続した発話単位データのグループであって、そのグループのうちの最後の発話単位データの直後の非発声時間が所定の閾値θ_ｓ以上であるようなグループを、解析対象グループとして決定してもよい。

なお、解析対象グループの決定方法は上記に限られず、自由に設計されてよい。

解析対象グループが定まったら、フレーズ生成部３１３が、解析対象グループに含まれる発話単位データから、フレーズデータを生成する（ステップＳ３４）。フレーズデータを生成する処理の詳細は後述する。

そして、要旨抽出部３１４が、フレーズデータの各々について、要旨抽出処理を行う（ステップＳ３５）。要旨抽出処理の詳細は後述する。

各々のフレーズデータに対する要旨抽出処理が完了したら、表示制御部３１５が、解析対象グループに対する解析の結果を表示装置に表示させる（ステップＳ３６）。解析の結果の表示例は、後述する。

その後、解析されていないデータがある場合には（ステップＳ３７においてＹＥＳ）、解析モジュール３１は新たに解析対象グループを決定し（ステップＳ３３）、ステップＳ３４からの処理を行う。

解析されていないデータがなくなったら（ステップＳ３７においてＮＯ）、解析モジュール３１は処理を終了するか、新たな音声データを記憶してその音声データに対する解析を行う（図３のステップＳ２１）。

［フレーズデータの生成方法］
以下、ステップＳ３４のフレーズデータの生成方法について詳述する。

説明のために、前提を次に示す。
・解析対象グループに含まれる発話単位データはｎ個あり、発話された順に１番目、…、ｎ番目とする。
・隣り合う発話単位データを仮に連結することを「仮連結する」と表現する。
・ｋ番目の発話単位データをPhrase(k)とする。Phrase(k)はテキストデータである。
・生成されるフレーズデータの暫定的な候補である、発話単位または発話単位が仮連結されたものを、「仮フレーズ」と呼ぶ。
・ｋ番目の発話単位に関する処理において生成される仮フレーズをTempTalk(k)とする。TempTalk(k)はテキストデータである。
・パラメータを以下のように定義する。
StartTime(k)：ｋ番目の発話単位の開始時間
EndTime(k)：ｋ番目の発話単位の終了時間
PCount：仮フレーズに含まれる発話単位の個数
DefNum：PCountについて設定される上限値
DefTime：発話単位間の長さについて設定される上限値

図６は、フレーズデータの生成方法の具体例を示すフローチャートである。なお、図６において、左向きの矢印は、値の代入を意味する。また、等号「＝」は、左辺の値と右辺の値とが等しいことを意味する。

フレーズ生成部３１３は、ｉ＝１として処理を開始し（ステップＳ３４１）、ｉがｎを超えるまで、ステップＳ３４２からステップＳ３５０までの処理を繰り返し行う。

フレーズ生成部３１３は、まず、PCount(i)の値を１に設定する（ステップＳ３４２）。また、フレーズ生成部３１３は、TempTalk(i)にPhrase(i)を代入する（ステップＳ３４３）。すなわち、フレーズ生成部３１３は、ｉ番目の発話単位データを仮フレーズとして設定する。

次に、フレーズ生成部３１３は、PCount(i)の値とDefNumの値とを比較する。PCount(i)がDefNumに等しい場合（ステップＳ３４４においてＹＥＳ）、フレーズ生成部３１３は、仮フレーズTempTalk(i)をフレーズデータとして出力する（ステップＳ３４９）。また、PCount(i)がDefNum未満である場合（ステップＳ３４４においてＮＯ）であっても、i+PCount(i)>nである場合（言い換えれば、Talk(i+PCount(i))が存在しない場合）（ステップＳ３４５においてＹＥＳ）は、フレーズ生成部３１３は、同様に仮フレーズTempTalk(i)をフレーズデータとして出力する（ステップＳ３４９）。

PCount(i)がDefNum未満かつi+PCount(i)≦nである場合は（ステップＳ３４５においてＮＯ）、フレーズ生成部３１３は、StartTime(i+PCount(i)) - EndTime(i+PCount(i)-1)の値をDefTimeと比較する（ステップＳ３４６）。StartTime(i+PCount(i)) - EndTime(i+PCount(i)-1)の値は、いわば、i+PCount(i)-1番目の発話単位データとi+PCount(i)番目の発話単位データとの間の非発話時間の長さを意味する値である。この値がDefTimeより小さい場合（ステップＳ３４６においてＹＥＳ）は、フレーズ生成部３１３は、TempTalk(i)&Phrase(i+PCount(i))をTempTalk(i)とする（ステップＳ３４７）。すなわち、フレーズ生成部３１３は、現行の仮フレーズに、さらにi+PCount(i)番目の発話単位データを連結したものを、新たに仮フレーズとする。また、この場合、フレーズ生成部３１３は、Pcount(i)の値を１増やし（ステップＳ３４８）、ステップＳ３４４の処理に戻る。

ステップＳ３４６における判定がＮＯであった場合は、フレーズ生成部３１３は、仮フレーズであるTempTalk(i)をフレーズデータとして出力する（ステップＳ３４９）。

ステップＳ３４９の後は、フレーズ生成部３１３は、「ｉ」の値を１増やす（ステップＳ３５０）。すなわち、フレーズ生成部３１３は、次の発話単位に注目して、ステップＳ３４２からのフレーズデータの生成処理を行う。ただし、上述の通り、ステップＳ３５０の処理により「ｉ」の値がｎを超えた場合は、フレーズ生成部３１３は、フレーズデータの生成処理を終了する。

フレーズデータの生成処理について、以下、具体例を挙げて説明する。

具体例として、フレーズ生成部３１３は、図５の表および図７の最左欄に示される発話単位データＤ１、Ｄ２、Ｄ３、Ｄ４、およびＤ５を処理対象として、フレーズデータの生成処理を行うとする。DefNumの値は「３」、DefTimeの値は「２０００」（単位はｍｓ（ミリ秒））とする。

フレーズ生成部３１３は、まず、発話単位データＤ１に注目する。PCountの値は初期値（＝１）であり、DefNumの値（＝３）未満であるので、フレーズ生成部３１３は、発話単位データＤ２の開始時刻と発話単位データＤ１の終了時刻との差（すなわち、発話単位データＤ１と発話単位データＤ２との間の非発話時間）を算出する。算出される値は「３２７０」［ｍｓ］であり、DefTimeの値（＝２０００）より大きいので、フレーズ生成部３１３は、Ｄ１をフレーズデータＥ１として出力する。そして、フレーズ生成部３１３は次の発話単位データである発話単位データＤ２に注目する。PCountの値はリセットされる。

PCountの値は「１」であり、DefNumの値（＝３）未満であるので、フレーズ生成部３１３は、発話単位データＤ３の開始時刻と発話単位データＤ２の終了時刻との差を算出する。算出される値は「６８４」であり、DefTimeの値（＝２０００）を超えないので、フレーズ生成部３１３は、発話単位データＤ２と発話単位データＤ３とを連結し、仮フレーズＤ２３を生成する。フレーズ生成部３１３は、PCountの値を「１」増やし、PCountの値は「２」になる。

PCountの値はDefNumの値（＝３）未満であるので、フレーズ生成部３１３は、発話単位データＤ１の終了時刻から発話単位データＤ２の開始時刻と発話単位データＤ１の終了時刻との差を算出する。算出される値は「８４７」であり、DefTimeの値（＝２０００）を超えないので、フレーズ生成部３１３は、仮フレーズＤ２３と発話単位データＤ４とを連結し、仮フレーズＤ２３４を生成する。フレーズ生成部３１３は、PCountの値を「１」増やし、PCountの値は「３」になる。

PCountの値はDefNumの値（＝３）に等しいので、フレーズ生成部３１３は、仮フレーズＤ２３４をフレーズデータＥ２として出力する。そして、フレーズ生成部３１３は次の発話単位データである発話単位データＤ３に注目する。PCountの値はリセットされる。

発話単位データＤ３に注目した場合、発話単位データＤ３と発話単位データＤ４との間の非発話時間はDefTimeの値（＝２０００）を超えないが、発話単位データＤ４と発話単位データＤ５との間の非発話時間はDefTimeの値（＝２０００）を超えるので、フレーズ生成部３１３は、発話単位データＤ３と発話単位データＤ４とを連結した仮フレーズＤ３４を、フレーズデータＥ３として出力する。

発話単位データＤ４に注目した場合、発話単位データＤ４と発話単位データＤ５との間の非発話時間はDefTimeの値（＝２０００）を超えるので、フレーズ生成部３１３は、発話単位データＤ４を、フレーズデータＥ４として出力する。

発話単位データＤ５に注目した場合、PCount=1である段階で、発話単位データＤ５の次の発話単位データが無いと判定されるので、フレーズ生成部３１３は、発話単位データＤ５をフレーズデータＥ５として出力する。

以上の例において生成（および出力）されるフレーズデータＥ１〜Ｅ５が、図７の最右欄に示される。なお、生成および出力されたフレーズデータは、記憶部３１０に記憶されればよい。

［要旨抽出処理］
図４のステップＳ３５の要旨抽出処理について、具体例を用いて説明する。

例として、要旨抽出部３１４は、図７の最右欄に示されたフレーズデータＥ１〜Ｅ５の各々について、要旨抽出処理を行うとする。また、要旨抽出部３１４が用いる要旨モデル記憶部３１４１は、図８に示された要旨を抽出することが可能なモデルであるとする。

要旨抽出部３１４は、まず、フレーズデータＥ１「昨日のことなんですけど」に対して要旨抽出処理を行う。具体的には、要旨抽出部３１４は、フレーズデータＥ１に要旨モデル記憶部３１４１を適用し、要旨の抽出を試みる。ただし、要旨が抽出されない場合もあり得る。

フレーズデータＥ１を用いた場合は、要旨は抽出されなかったとする。

要旨抽出部３１４は、次に、フレーズデータＥ２「注文した商品が届いたんですが、色が違うんですよ、どうなってるんですかね」に対して要旨抽出処理を行う。この要旨抽出処理によって、図８において示される、識別番号が「G000001」である要旨「注文した商品と色違いの商品が届いた」が抽出されたとする。この場合、要旨抽出部３１４は、識別番号が「G000001」である要旨が抽出されたことを、記憶部３１０に記録する。

また、要旨抽出部３１４は、フレーズデータＥ２のうち、特に要旨に関連する部分を、「キー発言」として特定してもよい。キー発言は、言い換えれば、フレーズデータにおいて、抽出された要旨モデルが表す内容に対応する内容が表されている部分である。キー発言を特定する方法の具体例は、次の通りである。

（例１）
要旨抽出部３１４は、例えば、フレーズデータＥ２において、抽出された要旨モデルに関連の深い単語（例えば「注文」、「商品」、「届いた」、「色」および「違う」）を抽出し得る。なお、関連の深い単語は、要旨モデルごとに予め定義されていればよい。そして、要旨抽出部３１４は、フレーズデータＥ２において、抽出された単語を含むひと続きの部分を、キー発言として抽出すればよい。

（例２）
要旨抽出部３１４は、例えば、フレーズデータＥ２を複数の部分に分け、分けられた部分のそれぞれについて、要旨モデルとの類似度を計算し得る。この類似度は、両者から得られるベクトルの類似度でもよいし、要旨モデルごとに作成された学習モデルによって出力される尤度でもよい。そして、要旨抽出部３１４は、類似度が最も高い部分を、キー発言として抽出してもよい。

以上に示された方法等により、要旨抽出部３１４は、例えば、フレーズデータＥ２のうちの「注文した商品が届いたんですが、色が違う」の部分を、「キー発言」として特定し得る。

要旨抽出部３１４は、フレーズデータＥ３、Ｅ４、Ｅ５に対しても、それぞれ要旨抽出処理を行う。ただし、要旨抽出部３１４は、既に抽出された要旨を抽出の対象としなくてよい。要旨抽出部３１４は、要旨が抽出された場合は、抽出された要旨の要旨識別番号を記憶部３１０に記録する。

［出力制御］
以下、図４のステップＳ３６の、解析の結果を表示装置４１７に表示させる制御（以下、「表示制御」とも表記）の具体例について詳述する。

表示制御部３１５は、例えば、解析の結果を表す情報の一つとして、発話単位データを表示装置４１７に表示させ得る。また、表示制御部３１５は、要旨抽出部３１４によって「キー発言」として特定された、発話単位データの部分を、目立つ態様で表示装置４１７に表示させてもよい。目立つ態様とは、例えば、他の部分とは異なる態様のことである。例えば、他の部分とは異なる態様は、文字色、字体、大きさ、太さおよび背景色の一部または全部が他の部分と異なるように表示されることでもよい。対象の部分を目立つ態様で表示することには、対象の部分の前および／または後に、目立つ文字もしくは画像、改行、スペース、等を含めること、ならびに下線を引くこと等、対象の部分が強調されるように表示することも含まれる。

例えば、表示制御部３１５は、「注文した商品が届いたんですが、色が違う」という部分を目立つ態様で表示装置４１７に表示させる。これにより、応対者６１は、架電者５１が伝えようとしている事項（すなわち、架電者５１のもとに架電者５１が注文した商品の色と異なる色の商品が届いたこと）を、迅速に知ることができる。

図９は、表示装置４１７により表示される画面の例を示す図である。表示装置４１７は、表示制御部３１５による制御により、図９のように架電者５１の発言の認識結果を表示させ得る。表示装置４１７は、キー発言を目立つ態様で表示させ得る。

図１０は、表示装置４１７により表示される画面の別の例を示す図である。表示装置４１７は、表示制御部３１５による制御により、図１０のように応対者６１が応対に係る種々の情報を入力するための画面において、抽出された要旨を表示してもよい。ただし、抽出された要旨が架電者５１から応対者６１に伝えられた事項に一致しない場合のために、その表示された要旨を削除するコマンド（図１０ではバツ印により示されている）があってもよい。表示された要旨は、編集可能であってもよい。

図１１は、表示装置４１７により表示される画面のさらに別の例を示す図である。表示装置４１７は、図１１のように、架電者５１から伝えられた事項を応対者６１に選択させる画面を表示してもよい。特に要旨抽出部３１４が抽出されるべき要旨を１つに特定できなかった場合に、このような画面が表示されてもよい。解析モジュール３１は、例えば入力装置（不図示）を介して応対者６１から選択を受け付ける。解析モジュール３１は、選択を受け付けたら、選択された要旨を、解析が行われた会話の他の情報と関連づけて記憶部３１０に記録してもよい。このような態様により、応対者６１が発言の要旨を記録するための入力の手間が省ける。また、解析モジュール３１は架電者５１の発言の要旨を正しく特定できる。表示制御部３１５は、表示装置４１７に、選択された要旨を、図１０の画面のように表示させてもよい。

＜効果＞
第１の実施形態に係る通話支援システム１によれば、架電者５１の発言の要旨を精度よく抽出することができる。

その理由は、架電者５１が間をおいて（すなわち、複数の発話単位に跨って）情報を伝える場合であっても、フレーズ生成部３１３が発話単位データを連結させることでフレーズデータを生成し、要旨抽出部３１４がそのフレーズデータに対して要旨抽出処理を行うからである。

架電者５１が一息で発した発言（言い換えれば、発話単位）ごとに発言の要旨の抽出処理を行うと、適切に発言の要旨を抽出できない場合がある。架電者５１が、伝えたい事項を、一度または数度の間をおいて話す場合があるからである。例えば、「注文した商品が届いたんですが」という発話単位だけを用いた抽出処理、および「色が違うんですよ」という発話単位だけを用いた抽出処理では、「注文した商品と色違いの商品が届いた」という要旨が正しく抽出されない可能性がある。

解析モジュール３１は、「注文した商品が届いたんですが色が違う」という発言を含むフレーズに対して要旨抽出処理を行うので、「注文した商品と色違いの商品が届いた」という要旨が抽出できる。

また、通話支援システム１では、要旨の抽出に寄与したキー発言、または抽出された要旨を表示することにより、応対者６１の架電者５１に対する応対をスムーズにさせることができる。

＜変形例＞
（変形例１）
解析モジュール３１は、応対者６１の発言に対しても解析を行ってもよい。

例えば、記憶部３１０は、音声入力装置２１４から、音声入力装置２１４に入力された音声信号のデータを受け取り、記憶してもよい。そして、解析モジュール３１は、その音声信号のデータに対し、図４のステップＳ３１からステップＳ３６の処理を行ってもよい。この場合、表示制御部３１５は、表示される発話単位データが架電者５１の発言からのものであるか応対者６１の発言からのものであるかが判るように、表示を制御してもよい。図１２は、応対者６１の発言も表示された画面の例を示す図である。

（変形例２）
解析モジュール３１は、表示制御部３１５を含まなくてもよい。要旨抽出部３１４により抽出された要旨の情報は、表示されずに、記憶部３１０に記録されるだけでもよい。

抽出された要旨の情報の記録は、例えば、統計等の分析に用いられ得る。例えば、大量の電話を受けるコールセンタにおいて、通話の内容を記録し分析することは、そのコールセンタを有する組織が提供する製品やサービスの質を向上させるのに有効である。

すなわち、解析モジュール３１によって記憶部３１０に記録される要旨の情報は、応対者６１の応対を支援するために用いられる以外にも、製品やサービスの質の向上のための有益な情報として活用され得る。

（変形例３）
フレーズ生成部３１３がステップＳ３４７の処理を行う条件は、変更されてもよい。

仮フレーズに発話単位データ（次のリストにおいて「対象発話単位データ」と表記）を連結する条件は、ステップＳ３４５およびステップＳ３４６の判定に加えて、またはそれらの判定に代えて、以下の要件の少なくともいずれかが含まれてもよい。
・仮フレーズに含まれる発話単位データ間の非発話時間の合計と、仮フレーズと対象発話単位データとの間の非発話時間と、の合計が、所定の閾値θ_ｒを超えないこと
・仮フレーズの時間的長さと対象発話単位データの時間的長さとの合計が、所定の閾値θ_ｕを超えないこと
・仮フレーズ中の単語数と対象発話単位データ中の単語数との合計が、所定の閾値θ_ｗを超えないこと
・仮フレーズのテキストの文字数と対象発話単位データのテキストの文字数との合計が、所定の閾値θ_ｘを超えないこと
・仮フレーズ中の音節の数と対象発話単位データ中の音節の数との合計が、所定の閾値θ_ｙを超えないこと
上記要件は適宜変更の上採用されてもよい。

（変形例４）
ステップＳ３４８の、PCountの値を増やす処理は、所定の条件が満たされる場合にスキップされてもよい。例えば、ステップＳ３４７の処理において追加された発話単位データの時間的長さが、所定の長さθ_ｄよりも短い場合に、ステップＳ３４８の処理はスキップされてもよい。追加された発話単位データの文字数が所定の数θ_ｎ未満である場合や、追加された発話単位データの単語数が所定の数θ_ｍ未満である場合も、ステップＳ３４８の処理がスキップされてもよい。

（変形例５）
上述した各フローチャートに示された処理の順番は、本実施形態の実施が可能である限りにおいて、変更されてもよい。例えば、図３のステップＳ１３の処理とステップＳ１４の処理との順番は問わない。また、図４のステップＳ３２の処理は、ステップＳ３３の処理の後に行われてもよい。

＜＜第２の実施形態＞＞
第１の実施形態では、解析モジュール３１はいくつかの発話単位データを含む範囲においてフレーズデータを生成し、要旨抽出処理を行ったあとに、その範囲に含まれる発話単位データを表示装置４１７に出力させる。

解析モジュール３１は、発話区間が検出されるごとに、その発話区間の音声データに対して解析を行い、解析の結果を表示装置４１７に出力させるよう、変形されてもよい。

以下、本発明の第２の実施形態に係る解析モジュール３２について説明する。図１３は、解析モジュール３２の構成を示すブロック図である。解析モジュール３２に含まれる構成要素および各構成要素の機能は、解析モジュール３１に含まれる構成要素および各構成要素の機能と同様でよい。

解析モジュール３１と解析モジュール３２との相違点は、処理の流れである。図１４は、解析モジュール３２による処理の流れを示すフローチャートである。解析モジュール３２における発話区間検出部３１１が発話区間を検出する（ステップＳ４１）と、認識部３１２がその発話区間における言葉を認識し、発話単位データを生成する（ステップＳ４２）。すると、フレーズ生成部３１３は、生成された発話単位データを含むフレーズデータを生成する（ステップＳ４３）。ステップＳ４３の処理は、ステップＳ４２の処理のすぐ後に（すなわち、他の処理を待つことなく）行われてよい。

フレーズ生成部３１３は、生成された発話単位データを、フレーズデータとして生成し得る。

また、フレーズ生成部３１３は、生成された発話単位データと、生成された発話単位データの前の発話単位データとを連結してフレーズデータを生成し得る。例えば、フレーズ生成部３１３は、生成された発話単位データと生成された発話単位データの直前の発話単位データとの間の非発話時間がDefTime未満である場合に、生成された発話単位データとその直前の発話単位データとを連結したフレーズデータを生成し得る。さらに、フレーズ生成部３１３は、生成されたフレーズデータと、生成されたフレーズデータの直前の発話単位データとの間の非発話時間がDefTime未満である場合に、生成されたフレーズデータとその直前の発話単位データとを連結したフレーズデータを生成し得る。フレーズ生成部３１３は、フレーズデータを構成する発話単位データがDefNumの値を超えない限り、上記のように連結を行ってフレーズデータを生成してもよい。

フレーズ生成部３１３は、生成された発話単位データ（またはフレーズデータ）と該データの直前の発話単位データとの間の非発話時間がDefTime以上である場合は、フレーズデータの生成を終了してよい。

そして、要旨抽出部３１４は、生成されたフレーズデータに対して要旨抽出処理を行う（ステップＳ４４）。

表示制御部３１５は、発話単位データの表示制御を行う（ステップＳ４５）。

例として、表示制御部３１５は、ステップＳ４２の処理によって生成された発話単位データを表示装置４１７に表示させる。この時、この発話単位データについて要旨が抽出されなかった場合は、通常の態様でその発話単位データを表示させればよい。この発話単位データについて要旨が抽出された場合は、表示制御部３１５は、キー発言に相当する部分を目立つ態様で表示させる。

また、表示制御部３１５は、キー発言を含む、１つまたは複数の発話単位データについては、１つのフレーズとして表示されるように表示装置４１７を制御してもよい。

例として、表示装置４１７には図１５（ａ）のような画面が表示されているとする。この後、解析モジュール３２が、「違うんですよ」という発言を含むフレーズデータを解析することにより、「注文した商品が届いたんですが、どうやら色がですね、違う」という部分がキー発言であると特定したとする。すると、表示制御部３１５は、このキー発言を含む発話単位データをまとめ、１つのフレーズとして表示装置４１７に表示させる。表示装置４１７の表示は図１５（ｂ）のようになる。また、表示装置４１７は、キー発言を目立つ態様で表示する。このように、既に表示された発話単位にキー発言の一部が含まれていた場合は、表示制御部３１５は、表示装置４１７に、その発話単位データを態様を変更して表示し直させ得る。

第２の実施形態に係る解析モジュール３２によれば、発話区間が検出されるごとに発言の認識結果が表示される。応対者６１は、架電者５１のそれぞれの発言の認識結果をすぐに知ることができる。その上で、第１の実施形態と同様の効果を得ることができる。

＜＜第３の実施形態＞＞
本発明の一実施形態に係る抽出装置３０について説明する。図１６は、抽出装置３０の構成を示すブロック図である。

抽出装置３０は、フレーズ特定部３０１と、要旨抽出部３０２と、を備える。

フレーズ特定部３０１は、所定の条件を満たす一群の発話単位を、１つのフレーズとして特定する。発話単位は、発言が記録された音声データから抽出された、発話が検出された区間における発話のデータである。発話単位は、例えば、上述の発話区間検出部３１１および認識部３１２の処理により、音声データから複数抽出され得る。なお、フレーズ特定部３０１が扱う発話単位のデータ形式は問わない。発話単位を表すデータは、例えば、テキストデータでもよいし、音声データでもよい。

所定の条件は、複数の発話単位間の関係に関する条件である。

上記各実施形態におけるフレーズ生成部３１３は、フレーズ特定部３０１の一例に相当する。

要旨抽出部３０２は、フレーズ特定部３０１が特定したフレーズを用いて、発言の要旨のモデルを記憶する記憶部から、当該フレーズが表す情報の要旨に相当するモデルを抽出する。

上記各実施形態における要旨抽出部３１４は、要旨抽出部３０２の一例に相当する。

図１７は、抽出装置３０による動作の流れを示すフローチャートである。まず、フレーズ特定部３０１が、所定の条件を満たす一群の発話単位を１つのフレーズとして特定する（ステップＳ１０１）。そして、要旨抽出部３０２が、フレーズ特定部３０１が特定したフレーズを用いて、そのフレーズが表す情報の要旨に相当するモデルを抽出する（ステップＳ１０２）。

抽出装置３０によれば、音声データにより表される発言の要旨を精度よく抽出することができる。その理由は、所定の条件を満たす一群の発話単位であるフレーズを用いて、要旨抽出部３０２が要旨のモデルの抽出を行うからである。

＜実施形態の各部を実現するハードウェアの構成＞
以上で説明された本発明の各実施形態において、各構成要素を示すブロックは、機能単位で示されている。しかし、構成要素を示すブロックは、各構成要素が別個のデバイスにより構成されることを必ずしも意味していない。

各構成要素の処理は、例えば、コンピュータシステムが、コンピュータ読み取り可能な記憶媒体により記憶された、その処理をコンピュータシステムに実行させるプログラムを、読み出し、実行することによって、実現されてもよい。「コンピュータ読み取り可能な記憶媒体」は、例えば、光ディスク、磁気ディスク、光磁気ディスク、および不揮発性半導体メモリ等の可搬媒体、ならびに、コンピュータシステムに内蔵されるＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）およびハードディスク等の記憶装置である。「コンピュータ読み取り可能な記憶媒体」は、コンピュータシステム内部の揮発性メモリのようにプログラムを一時的に保持可能なもの、および、ネットワークや電話回線等の通信回線のように、プログラムを伝送するものも含む。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよく、更に前述した機能をコンピュータシステムにすでに記憶されているプログラムとの組み合わせで実現できるものであってもよい。

「コンピュータシステム」とは、一例として、図１８に示されるようなコンピュータ９００を含むシステムである。コンピュータ９００は、以下のような構成を含む。
・１つまたは複数のＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）９０１
・ＲＯＭ９０２
・ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）９０３
・ＲＡＭ９０３へロードされるプログラム９０４Ａおよび記憶情報９０４Ｂ
・プログラム９０４Ａおよび記憶情報９０４Ｂを格納する記憶装置９０５
・記憶媒体９０６の読み書きを行うドライブ装置９０７
・通信ネットワーク９０９と接続する通信インタフェース９０８
・データの入出力を行う入出力インタフェース９１０
・各構成要素を接続するバス９１１

例えば、各実施形態における各構成要素は、その構成要素の機能を実現するプログラム９０４ＡをＣＰＵ９０１がＲＡＭ９０３にロードして実行することで実現される。各構成要素の機能を実現するプログラム９０４Ａは、例えば、予め、記憶装置９０５やＲＯＭ９０２に格納される。そして、必要に応じてＣＰＵ９０１がプログラム９０４Ａを読み出す。記憶装置９０５は、例えば、ハードディスクである。プログラム９０４Ａは、通信ネットワーク９０９を介してＣＰＵ９０１に供給されてもよいし、予め記憶媒体９０６に格納されており、ドライブ装置９０７に読み出され、ＣＰＵ９０１に供給されてもよい。なお、記憶媒体９０６は、例えば、光ディスク、磁気ディスク、光磁気ディスク、および不揮発性半導体メモリ等の、可搬媒体である。

各モジュールおよび各装置の実現方法には、様々な変形例がある。例えば、各モジュールおよび各装置は、構成要素毎にそれぞれ別個のコンピュータ９００とプログラムとの可能な組み合わせにより実現されてもよい。また、各モジュールおよび各装置が備える複数の構成要素が、一つのコンピュータ９００とプログラムとの可能な組み合わせにより実現されてもよい。

また、各モジュールおよび各装置の、各構成要素の一部または全部は、その他の汎用または専用の回路、コンピュータ等やこれらの組み合わせによって実現されてもよい。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。

各モジュールおよび各装置の、各構成要素の一部または全部が、複数のコンピュータや回路等により実現される場合には、複数のコンピュータや回路等は、集中配置されてもよいし、分散配置されてもよい。例えば、コンピュータや回路等は、クライアントアンドサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。

上記実施形態の一部または全部は以下の付記のようにも記載され得るが、以下には限られない。

＜＜付記＞＞
［付記１］
発言が記録された音声データから抽出された、発話が検出された区間における発話のデータである複数の発話単位のうちの、前記発話単位間の関係に関する所定の条件を満たす一群の前記発話単位を、１つのフレーズとして特定するフレーズ特定手段と、
前記フレーズを用いて、発言の要旨のモデルを記憶する記憶手段から、当該フレーズが表す情報の要旨に相当する前記モデルを抽出する要旨抽出手段と、
を備える抽出装置。
［付記２］
前記フレーズを表示手段に表示させる表示制御手段を備え、
前記要旨抽出手段は、前記フレーズにおける、抽出された前記モデルが表す内容に対応する内容が表されている部分を特定し、
前記表示制御手段は、前記部分を目立つ態様で前記表示手段に表示させる、
付記１に記載の抽出装置。
［付記３］
前記要旨抽出手段は、抽出された前記モデルに対して予め用意されているキーワードに基づいて、前記部分を特定する、
付記２に記載の抽出装置。
［付記４］
前記要旨抽出手段は、前記モデルを複数抽出し、
前記抽出装置は、
抽出された複数の前記モデルを表示手段に表示させる表示制御手段と、
前記表示手段に表示された複数の前記モデルのうちのいずれかを選択する操作を受け付ける受付手段と、を備える
付記１に記載の抽出装置。
［付記５］
前記所定の条件は、当該一群の前記発話単位に含まれる互いに隣り合う前記発話単位間の発声されていない時間のいずれもが、所定の長さよりも短いことを、１つの要件として含む、
付記１から４のいずれか一つに記載の抽出装置。
［付記６］
前記所定の条件は、当該一群の前記発話単位に含まれる前記発話単位間の発声されていない時間の合計が、所定の長さよりも短いことを、１つの要件として含む、
付記１から４のいずれか一つに記載の抽出装置。
［付記７］
前記所定の条件は、前記一群の発話単位を構成する前記発話単位、単語、音節および文字の少なくともいずれかの、個数に関する要件を含む、
付記１から６のいずれか一つに記載の抽出装置。
［付記８］
前記要旨抽出手段は、前記フレーズを用いて、当該フレーズの特徴との類似度が所定の基準を満たす特徴を持つ前記モデルを、当該フレーズが表す情報の要旨に相当する前記モデルとして抽出する、
付記１から７のいずれか一つに記載の抽出装置。
［付記９］
発言が記録された音声データから抽出された、発話が検出された区間における発話のデータである複数の発話単位のうちの、前記発話単位間の関係に関する所定の条件を満たす一群の前記発話単位を、１つのフレーズとして特定し、
前記フレーズを用いて、発言の要旨のモデルを記憶する記憶手段から、当該フレーズが表す情報の要旨に相当する前記モデルを抽出する、
抽出方法。
［付記１０］
前記フレーズにおける、抽出された前記モデルが表す内容に対応する内容が表されている部分を特定し、
前記フレーズを、前記部分が目立つように、表示手段に表示させる、
付記９に記載の抽出方法。
［付記１１］
抽出された前記モデルに対して予め用意されているキーワードに基づいて、前記部分を特定する、
付記１０に記載の抽出方法。
［付記１２］
前記モデルを複数抽出し、
抽出された複数の前記モデルを表示手段に表示させ、
前記表示手段に表示された複数の前記モデルのうちのいずれかを選択する操作を受け付ける、
付記９に記載の抽出方法。
［付記１３］
前記所定の条件は、当該一群の前記発話単位に含まれる互いに隣り合う前記発話単位間の発声されていない時間のいずれもが、所定の長さよりも短いことを、１つの要件として含む、
付記９から１２のいずれか一つに記載の抽出方法。
［付記１４］
前記所定の条件は、当該一群の前記発話単位に含まれる前記発話単位間の発声されていない時間の合計が、所定の長さよりも短いことを、１つの要件として含む、
付記９から１２のいずれか一つに記載の抽出方法。
［付記１５］
前記所定の条件は、前記一群の発話単位を構成する前記発話単位、単語、音節および文字の少なくともいずれかの、個数に関する要件を含む、
付記９から１４のいずれか一つに記載の抽出方法。
［付記１６］
前記フレーズを用いて、当該フレーズの特徴との類似度が所定の基準を満たす特徴を持つ前記モデルを、当該フレーズが表す情報の要旨に相当する前記モデルとして抽出する、
付記９から１５のいずれか一つに記載の抽出方法。
［付記１７］
発言が記録された音声データから抽出された、発話が検出された区間における発話のデータである複数の発話単位のうちの、前記発話単位間の関係に関する所定の条件を満たす一群の前記発話単位を、１つのフレーズとして特定するフレーズ特定処理と、
前記フレーズを用いて、発言の要旨のモデルを記憶する記憶手段から、当該フレーズが表す情報の要旨に相当する前記モデルを抽出する要旨抽出処理と、
をコンピュータに実行させる、プログラム。
［付記１８］
前記フレーズを表示手段に表示させる表示制御処理を、さらに前記コンピュータに実行させ、
前記要旨抽出処理は、前記フレーズにおける、抽出された前記モデルが表す内容に対応する内容が表されている部分を特定し、
前記表示制御処理は、前記部分を目立つ態様で前記表示手段に表示させる、
付記１７に記載のプログラム。
［付記１９］
前記要旨抽出処理は、抽出された前記モデルに対して予め用意されているキーワードに基づいて、前記部分を特定する、
付記１８に記載のプログラム。
［付記２０］
前記要旨抽出処理は、前記モデルを複数抽出し、
前記プログラムは、
抽出された複数の前記モデルを表示手段に表示させる表示制御処理と、
前記表示手段に表示された複数の前記モデルのうちのいずれかを選択する操作を受け付ける受付処理と、を前記コンピュータにさらに実行させる、
付記１７に記載のプログラム。
［付記２１］
前記所定の条件は、当該一群の前記発話単位に含まれる互いに隣り合う前記発話単位間の発声されていない時間のいずれもが、所定の長さよりも短いことを、１つの要件として含む、
付記１７から２０のいずれか一つに記載のプログラム。
［付記２２］
前記所定の条件は、当該一群の前記発話単位に含まれる前記発話単位間の発声されていない時間の合計が、所定の長さよりも短いことを、１つの要件として含む、
付記１７から２０のいずれか一つに記載のプログラム。
［付記２３］
前記所定の条件は、前記一群の発話単位を構成する前記発話単位、単語、音節および文字の少なくともいずれかの、個数に関する要件を含む、
付記１７から２２のいずれか一つに記載のプログラム。
［付記２４］
前記要旨抽出処理は、前記フレーズを用いて、当該フレーズの特徴との類似度が所定の基準を満たす特徴を持つ前記モデルを、当該フレーズが表す情報の要旨に相当する前記モデルとして抽出する、
付記１７から２３のいずれか一つに記載のプログラム。

本願発明は以上に説明した実施形態に限定されるものではない。以上に説明した実施形態の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

１通話支援システム
１１通話装置
２１通話モジュール
２１１通信部
２１２音声取得部
２１３音声出力装置
２１４音声入力装置
２１５音声送出部
３０抽出装置
３０１フレーズ特定部
３０２要旨抽出部
３１、３２解析モジュール
３１０記憶部
３１１発話区間検出部
３１２認識部
３１３フレーズ生成部
３１４要旨抽出部
３１４１要旨モデル記憶部
３１５表示制御部
４１７表示装置
５１架電者
６１応対者
９９電話網
９００コンピュータ
９０１ＣＰＵ
９０２ＲＯＭ
９０３ＲＡＭ
９０４Ａプログラム
９０４Ｂ記憶情報
９０５記憶装置
９０６記憶媒体
９０７ドライブ装置
９０８通信インタフェース
９０９通信ネットワーク
９１０入出力インタフェース
９１１バス

Claims

発言が記録された音声データから抽出された、発話が検出された区間における発話のデータである複数の発話単位のうちの、前記発話単位間の関係に関する所定の条件を満たす一群の前記発話単位を、１つのフレーズとして特定するフレーズ特定手段と、
前記フレーズを用いて、発言の要旨のモデルを記憶する記憶手段から、当該フレーズが表す情報の要旨に相当する前記モデルを抽出する要旨抽出手段と、
を備える抽出装置。
前記フレーズを表示手段に表示させる表示制御手段を備え、
前記要旨抽出手段は、前記フレーズにおける、抽出された前記モデルが表す内容に対応する内容が表されている部分を特定し、
前記表示制御手段は、前記部分を目立つ態様で前記表示手段に表示させる、
請求項１に記載の抽出装置。
前記要旨抽出手段は、抽出された前記モデルに対して予め用意されているキーワードに基づいて、前記部分を特定する、
請求項２に記載の抽出装置。
前記要旨抽出手段は、前記モデルを複数抽出し、
前記抽出装置は、
抽出された複数の前記モデルを表示手段に表示させる表示制御手段と、
前記表示手段に表示された複数の前記モデルのうちのいずれかを選択する操作を受け付ける受付手段と、を備える
請求項１に記載の抽出装置。
前記所定の条件は、当該一群の前記発話単位に含まれる互いに隣り合う前記発話単位間の発声されていない時間のいずれもが、所定の長さよりも短いことを、１つの要件として含む、
請求項１から４のいずれか一項に記載の抽出装置。
前記所定の条件は、当該一群の前記発話単位に含まれる前記発話単位間の発声されていない時間の合計が、所定の長さよりも短いことを、１つの要件として含む、
請求項１から４のいずれか一項に記載の抽出装置。
前記所定の条件は、前記一群の発話単位を構成する前記発話単位、単語、音節および文字の少なくともいずれかの、個数に関する要件を含む、
請求項１から６のいずれか一項に記載の抽出装置。
前記要旨抽出手段は、前記フレーズを用いて、当該フレーズの特徴との類似度が所定の基準を満たす特徴を持つ前記モデルを、当該フレーズが表す情報の要旨に相当する前記モデルとして抽出する、
請求項１から７のいずれか一項に記載の抽出装置。
発言が記録された音声データから抽出された、発話が検出された区間における発話のデータである複数の発話単位のうちの、前記発話単位間の関係に関する所定の条件を満たす一群の前記発話単位を、１つのフレーズとして特定し、
前記フレーズを用いて、発言の要旨のモデルを記憶する記憶手段から、当該フレーズが表す情報の要旨に相当する前記モデルを抽出する、
抽出方法。
発言が記録された音声データから抽出された、発話が検出された区間における発話のデータである複数の発話単位のうちの、前記発話単位間の関係に関する所定の条件を満たす一群の前記発話単位を、１つのフレーズとして特定するフレーズ特定処理と、
前記フレーズを用いて、発言の要旨のモデルを記憶する記憶手段から、当該フレーズが表す情報の要旨に相当する前記モデルを抽出する要旨抽出処理と、
をコンピュータに実行させる、プログラム。