JP5104762B2

JP5104762B2 - コンテンツ要約システムと方法とプログラム

Info

Publication number: JP5104762B2
Application number: JP2008540951A
Authority: JP
Inventors: 健太郎長友
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2006-10-23
Filing date: 2007-10-17
Publication date: 2012-12-19
Anticipated expiration: 2027-10-17
Also published as: CN101529500A; WO2008050649A1; CN101529500B; JPWO2008050649A1; US20100031142A1

Description

［関連出願の記載］
（関連出願）本願は、先の日本特許出願２００６−２８７５６２号（２００６年１０月２３日出願）の優先権を主張するものであり、前記先の出願の全記載内容は、本書に引用をもって繰込み記載されているものとみなされる。
本発明は、コンテンツを要約するシステムと方法とプログラムに関し、特に、音声信号から発話内容を要約する応答に適用して好適なシステム、方法およびプログラムに関する。

従来の発話内容要約システムの一例が、特許文献１に開示されている。図１に示すように、この従来の発話内容要約システムは、音声入力手段１０１と音声認識手段１０２とテキスト要約手段１０３から構成されている。

図１の構成を有する従来の発話内容要約システムは、次のように動作する。

まず音声入力手段１０１からの音声信号を音声認識手段１０２を用いてテキストに変換する。

次に変換されたテキストを何らかのテキスト要約手段によって要約し、要約テキストを作成する。テキスト要約には非特許文献１で挙げられるようなさまざまな公知技術が利用される。

特開２０００−０１０５７８号公報奥村学,難波英嗣 "テキスト自動要約に関する研究動向",自然言語処理, Vol.6,No.6, pp.1-26, 1999.

なお、上記特許文献１、非特許文献１の全開示内容はその引用をもって本書に繰込み記載する。以下の分析は本発明によって与えられる。
図１に示した従来のシステムは、以下のような問題点を有している。

第１の問題点は、現行のテキスト要約技術では、ある程度以上の長い発話や、人間同士の自然な対話のように、複雑で多様な構造を持ったテキストを十分な品質で要約することが不可能である、という点である。

その理由は、従来の要約アルゴリズムは、構造が単純で、特徴が明確であり、比較的短いテキストでのみ、十分な品質を有するように設計されている。このため、複雑で多様な構造を持ったテキストを十分な品質で要約することは、実質的に不可能である。

２つの典型的な従来の要約アルゴリズムを例に挙げる。

第１のアルゴリズムは、特許文献１に記載された手法である。この手法は、想定される要約元テキストのあらゆる構造を予め列挙しておき、いずれかの構造にマッチした場合、その構造に関連付けられた変換規則を用いて要約テキストを生成する。

例えば、「部門」と「人名」が近接するという構造を予め登録しておき、その場合の要約生成規則として、「部門人名」を生成するものとすれば、「営業部の佐藤さん」という入力テキストに対し、「営業佐藤」という要約テキストを生成することができる。

この第一のアルゴリズムが実用上十分であるためには、
・入力テキストの構造が例えば上記のように書き下すことができるほど簡単であり、且つ
・予め登録し尽くしておけるほど多様でない、
ということが条件となる。

逆に言えば、構造が複雑で多様な入力に対しては、実用的とは言えない。

第２のアルゴリズムは、非特許文献１に記載された手法である。すなわち、
テキストをいくつかの部位に分割し、
その各々について何らかの尺度から重要度を計算する。

すべての部位のうち、重要度の低いものから順に取り除いていき、必要十分な大きさになるまで繰り返す。

こうする事で、テキスト全体の重要な部位のみからなる十分小さなテキスト（要約テキスト）を得ることができる。

非特許文献１によれば、重要度の求め方としては、
その部位に含まれる、
・重要な単語の個数や、
・各単語の重要度の和、
・接続語などによる部位の論理的重み付け、
・見出しや文頭、文末などの一般的な文章構造に対する知識、
などを複合的に用いることができる。

しかしながらこの第２のアルゴリズムによる手法では、重要度という一次元の尺度に落とした上で、テキスト部位の要・不要を判断するため、一様でないテキストに対して適切な要約を生成することが難しい。

例えばテキストが２つの主題についての議論であったとき、
主題１に関する記述の量が主題２に関するものより著しく多い場合には、
要約テキストには、主題１に関する記述が残りやすくなる。

会議や窓口応対のような人間同士の自然な対話音声は、一つの対話の中で、様々な主題について情報をやり取りする。

このとき、対話の参加者全員が周知している情報に関する発話は、その真の重要度によらず少なくなるであろう。

一方で、結果的にはさして重要とは言えない情報であっても、一部の参加者がよく知らないという理由だけで、記述量が増え、結果として、重要度が高いと判断されることは容易に起こりうる。

よって、この第２のアルゴリズムも、長い発話や人間同士の自然な対話の要約には不十分である。

第２の問題点は、ユーザが音声の中の重要箇所を指示できるような仕組みを用意した場合、その音声がリアルタイムで与えられているとすると、適切な箇所を指定する行為そのものが難しいという点である。

例えば、人間同士が会話している状況で重要箇所を指示するという場面を想定すれば明らかであるが、人間がある音声を耳にしたとき、その意味を理解し、全体における重要度や要約に含めるか否かを判断できるのは、その該当部位の音声が発話されてから、しばらく後になることは明らかである。

したがって、本発明の目的は、比較的長い音声や、人間同士の自然な対話音声であっても、実用上十分な要約を生成することのできる発話内容要約システムを提供することにある。

本発明の他の目的は、ユーザが音声の中の重要箇所を指示できるような仕組みを用意した場合、その音声をリアルタイムに流した場合であっても、適切な箇所を指定できるような発話内容要約システムを提供することである。

本願で開示される発明は、前記課題を解決するため、概略以下の構成とされる。

本発明に係るコンテンツ要約システムは、時間の経過に関連付けて提示されるコンテンツを入力するコンテンツ入力手段と、前記コンテンツ入力手段より入力されたコンテンツからテキスト情報を抽出するテキスト抽出手段と、重要箇所を指示する重要箇所指示手段と、前記コンテンツ入力手段より入力されたコンテンツと、前記重要箇所指示手段より入力された重要箇所との同期を取る同期手段と、を備えている。

本発明において、前記テキスト抽出手段によって得られたテキスト情報について、予め定められた所定の処理を行い、前記重要箇所指示に対応する重要区間を推定する重要区間推定手段を備えている。

本発明において、前記テキスト抽出手段によって得られたテキスト情報に対して、前記重要区間推定手段によって得られた重要区間を参照してテキストの要約処理を行い、要約テキストを出力するテキスト要約手段を備えている。

本発明において、前記テキスト要約手段は、前記重要区間推定手段によって推定された重要区間に相当するコンテンツから得られたテキストを優先して要約処理を行う。

本発明において、前記コンテンツ入力手段より入力されたコンテンツが音声を含み、
前記テキスト抽出手段は、コンテンツとして入力された音声信号を音声認識することによってテキスト情報を抽出する音声認識手段を備えている。

本発明において、前記テキスト抽出手段は、
コンテンツとして与えられた文字情報をテキスト情報として抽出する手段、
メタ情報を含むマルチメディア信号からメタ情報を読み出すことによってテキスト情報を抽出する手段、
像信号からクローズドキャプション信号を読み出すことによってテキスト情報を抽出する手段、
映像に含まれる文字を画像認識することによってテキスト情報を抽出する手段、
のいずれか一つを含む構成としてもよい。

本発明において、前記重要区間推定手段は、前記重要箇所指示手段から入力された、コンテンツの重要箇所の近傍にあるテキスト情報を有するコンテンツの区間を推定区間として含める構成としてもよい。

本発明において、前記コンテンツ入力手段からのコンテンツが音声を含み、
前記重要区間推定手段は、前記重要箇所指示手段から入力された、音声の重要箇所の近傍にある発話を推定区間として含める、構成としてもよい。

本発明において、前記重要区間推定手段は、前記重要箇所指示に相当するコンテンツの箇所にテキスト情報が存在しない場合、その直前のテキスト情報を有するコンテンツの区間を推定区間として用いる、ようにしてもよい。

本発明において、前記コンテンツ入力手段からのコンテンツが音声を含み、前記重要区間推定手段は、重要箇所指示に相当する音声の箇所が無音である場合、その直前の発話区間を推定区間として用いるようにしてもよい。

本発明において、前記重要区間推定手段は、重要箇所指示に相当するコンテンツの前後にあるテキスト情報を有するコンテンツの区間を推定区間に含める際、前のほうの区間を優先して含めるようにしてもよい。

本発明において、前記重要区間推定手段は、重要箇所指示に相当する音声の前後の発話を推定区間に含める際、前のほうの発話を優先して含めるようにしてもよい。

本発明において、前記重要区間推定手段は、重要箇所指示に相当するコンテンツの前後にあるテキストが予め定められた単語を含む場合、所定のアルゴリズムに従って推定区間を伸縮するようにしてもよい。

本発明において、前記テキスト要約手段の出力を分析し、要約の精度を評価する要約結果評価手段をさらに備え、前記重要区間推定手段は、前記要約結果の評価に応じて、抽出された重要区間のいずれかまたは複数を伸縮する構成としてもよい。

本発明において、前記要約結果評価手段として、前記テキスト要約手段の出力を分析し、要約率を計算する要約率計算手段を備え、前記重要区間推定手段は、前記要約率が所定の値を下回らない場合には、抽出された重要区間のいずれかを縮小し、前記要約率が所定の値を上回らない場合には、抽出された重要区間のいずれかを拡大する、構成としてもよい。

本発明に係るシステムは、音声信号を入力する音声入力部と、
音声の認識を行い音声認識結果のテキストを出力する音声認識部と、
前記音声入力部から入力された音声を出力する音声出力部と、
重要箇所を指示する重要箇所指示部と、
前記重要箇所指示部より入力された重要箇所のタイミングに対応する音声認識結果のテキストを前記音声認識部から取得する同期部と、
前記同期部によって取得された重要箇所のタイミングに対応する音声認識結果のテキストをもとに、重要区間の初期値を設定する重要区間推定部と、
前記音声認識部から出力された音声認識結果のテキストから、前記重要区間推定部によって出力された重要区間を考慮したテキスト要約処理を行い要約テキストを出力するテキスト要約部と、を備えている。

本発明に係る方法は、コンピュータにより、入力されたコンテンツからテキスト情報を抽出して要約を作成するコンテンツテキスト要約方法であって、
重要箇所の指示を入力する工程と、
前記入力されたコンテンツから抽出されるテキスト情報に対して、前記重要箇所に対応する重要区間を推定する工程と、
前記重要区間を考慮した要約テキストを作成する工程と、を含む。

本発明に係る方法は、時間の経過に伴ってシーケンシャルに提示されるコンテンツを入力するコンテンツ入力工程と、
前記コンテンツ入力工程より入力されたコンテンツからテキスト情報を抽出するテキスト抽出工程と、
重要箇所を指示する重要箇所指示工程と、
前記コンテンツ入力工程より入力されたコンテンツと、前記重要箇所指示工程より入力された重要箇所との同期を取る工程と、を含む。

本発明に係る方法において、前記テキスト抽出工程によって得られたテキスト情報について、予め定められた所定の処理を行い、前記重要箇所指示に対応すると重要区間を推定する重要区間推定工程を含むようにしてもよい。

本発明に係る方法において、前記テキスト抽出工程によって得られたテキスト情報に対して、前記重要区間推定手段によって得られた重要区間を参照してテキストの要約処理を行い、要約テキストを出力するテキスト要約工程を含むようにしてもよい。

本発明において、前記テキスト要約工程は、前記重要区間推定工程によって推定された重要区間に相当するコンテンツから得られたテキストを優先して要約処理を行うようにしてもよい。

本発明に係るプログラムは、入力されたコンテンツからテキスト情報を抽出して要約を作成するコンテンツテキスト要約を行うコンピュータに、
重要箇所の指示を入力する処理と、
前記入力されたコンテンツから抽出されるテキスト情報に対して、前記重要箇所に対応する重要区間を推定する処理と、
前記重要区間を考慮した要約テキストを作成する処理と、を実行させるプログラムよりなる。

本発明に係るプログラムは、時間の経過に伴ってシーケンシャルに提示されるコンテンツを入力するコンテンツ入力処理と、
前記コンテンツ入力処理より入力されたコンテンツからテキスト情報を抽出するテキスト抽出処理と、
重要箇所を指示する重要箇所指示処理と、
前記コンテンツ入力処理より入力されたコンテンツと、前記重要箇所指示処理より入力された重要箇所との同期を取る処理と、をコンピュータに実行させるプログラムよりなる。

本発明に係るプログラムにおいて、前記テキスト抽出処理によって得られたテキスト情報について、予め定められた所定の処理を行い、前記重要箇所指示に対応すると重要区間を推定する重要区間推定処理を前記コンピュータに実行させるようにしてもよい。

本発明に係るプログラムにおいて、前記テキスト抽出処理によって得られたテキスト情報に対して、前記重要区間推定手段によって得られた重要区間を参照してテキストの要約処理を行い、要約テキストを出力するテキスト要約処理を前記コンピュータに実行させるようにしてもよい。

本発明に係るプログラムにおいて、前記テキスト要約処理は、前記重要区間推定処理によって推定された重要区間に相当するコンテンツから得られたテキストを優先して要約処理を行うようにしてもよい。

本発明に係るコンテンツ要約システムは、入力したコンテンツの要約を作成するシステムであって、重要箇所の指示を入力する手段と、前記コンテンツを解析し、前記重要箇所の指示の入力を契機とし、前記契機に対応した、コンテンツの一部を含む要約を生成する手段と、を備え、実時間で提示又は再現されるコンテンツから、前記重要箇所の指示入力に対応したコンテンツ部分を含む要約を生成自在としている。

本発明において、前記コンテンツを解析してテキスト情報を抽出し、前記重要箇所の指示の入力に対応した、テキスト情報を含む要約を生成するようにしてもよい。

本発明において、前記コンテンツの音声情報を音声認識して、テキストに変換し、前記重要箇所の指示の入力に対応した音声認識結果のテキスト情報を含む要約を生成するようにしてもよい。

本発明において、前記コンテンツの音声情報を音声認識してテキストに変換し、前記重要箇所の指示の入力に対応した、音声情報のテキスト、又は、音声情報のテキストと画像を含む要約を生成するようにしてもよい。

本発明において、前記重要箇所の指示の入力として、コンテンツ要約作成のキーとなる情報を入力し、前記コンテンツを解析し、前記キーに対応する情報を含むコンテンツの一部を要約として出力する、ようにしてもよい。

本発明において、前記コンテンツを構成する画像情報を解析してテキストを抽出し、前記重要箇所の指示として入力されたキーに対応した、画像情報を含む要約として生成するようにしてよい。

本発明によれば、比較的長い音声や、人間同士の自然な対話音声であっても、実用上十分な要約を生成することのできる発話内容要約システムを提供できる。

その理由は、本発明においては、複雑な構造や未知の構造を持った音声であっても、ユーザが適切と思われる音声の一部を指定することが可能になることによって、テキスト要約の精度を向上することが可能となるためである。

本発明によれば、音声をリアルタイムに流した場合であっても、ユーザが音声の中の重要箇所を適切に指定できるような発話内容要約システムを提供できる。

その理由は、本発明において、重要箇所は、例えば「点」として指定され、これを「区間」に自動的に拡張するため、ユーザは重要だと考える音声を耳にした、ただその瞬間だけ、重要箇所指示のアクションを採れば済むためである。

さらに、本発明において、重要区間推定は、重要箇所指示が行われたタイミングより過去の音声も遡って対象とするため、既に再生された過去の音声であっても、重要区間推定手段によって、遡って重要区間として切り出され、要約に加えられるためである。

特許文献１のシステムの構成を示す図である。本発明の第１の実施の形態の構成を示す図である。本発明の第１の実施の形態の動作を示す流れ図である。本発明の第２の実施の形態の構成を示す図である。本発明の第２の実施の形態の動作を示す流れ図である。本発明の一実施例の構成を示す図である。

符号の説明

１００、２００、４００、６００コンピュータ
１０１音声入力手段
１０２音声認識手段
１０３テキスト要約手段
２０１音声入力手段
２０２音声認識手段
２０３重要箇所指示手段
２０４同期手段
２０５重要区間推定手段
２０６テキスト要約手段
４０１音声入力手段
４０２音声認識手段
４０３重要箇所指示手段
４０４同期手段
４０５重要区間推定手段
４０６テキスト要約手段
４０７要約評価手段
６０１音声入力部
６０２音声認識部
６０３音声出力部
６０４指示ボタン
６０５同期部
６０６重要区間推定部
６０７テキスト要約部
６０８要約評価部

次に、本発明を実施するための最良の形態について図面を参照して詳細に説明する。

本発明に係るコンテンツ要約システムを、発話内容要約システムに適用した実施の形態においては、音声入力手段（２０１）と、重要箇所指示手段（２０３）と、重要区間推定手段（２０５）と、音声認識手段（２０２）と、テキスト要約手段（２０６）とを備え、音声入力手段から入力された音声のうち、重要箇所指示手段（２０３）によって指示された箇所を含む音声区間を、要約に必要な区間と捉え、重要区間推定手段（２０５）によって適切な区間を推定した後、これを考慮した上で、音声を認識し、さらにテキスト要約を行うよう動作する。ユーザによって別途必要最小限の情報の入力を受け付けることにより、ユーザが指定した音声の任意の箇所を要約に含めることができる。

図２は、本発明の第１の実施の形態の構成を示す図である。本発明の第１の実施の形態は、ユーザが指定した音声の任意の箇所を要約に含めることを可能とした発話内容要約システムである。

図２を参照すると、本発明の第１の実施の形態の発話内容要約システムにおいて、プログラム制御により動作するコンピュータ２００は、音声入力手段２０１と、音声認識手段２０２と、重要箇所指示手段２０３と、同期手段２０４と、重要区間推定手段２０５と、テキスト要約手段２０６とを備えている。これらの手段は、それぞれ概略つぎのように動作する。

音声入力手段２０１は、要約処理の対象となる音声波形信号をデジタルデータ（時間の経過に関連付けされたデジタル信号列）として取り込む。

音声認識手段２０２は、音声入力手段２０１によって得られたデジタル信号列に対して音声認識処理を施し、その結果としてテキスト情報を出力する。このとき、認識結果テキストは、元の音声波形が音声認識手段２０２にて出力された時刻情報と同期が取れるような形式で得られるものとする。

重要箇所指示手段２０３は、ユーザの操作に基づき、重要箇所指示信号を、同期手段２０４と重要区間推定手段２０５へと送る。

同期手段２０４は、音声入力手段２０１によって得られた音声波形データと、重要箇所指示手段２０３によって得られた重要箇所指示信号とが同期できるように調節する。

例えば、
ある音声波形データが音声入力手段２０１から取り込まれた時刻と、ある重要箇所指示信号が重要箇所指示手段２０３から入力された時刻とが同じであれば、その各々から同じ相対時刻だけ後に入力された音声波形データと、重要箇所信号とは、同期して得られたと判断する。

このとき、音声入力手段２０１によって得られた音声波形データと、音声認識手段２０２によって出力された認識結果とは、互いに同期が取れているため、重要箇所指示手段２０３によって得られた重要箇所指示信号と、音声認識結果との同期も、間接的に確保される。

重要区間推定手段２０５は、重要箇所指示手段２０３からの重要箇所指示信号およびその時刻情報に基づき、その時刻近辺に、音声入力手段２０１から出力された音声に相当する、音声認識手段２０２によって得られた音声認識結果テキストについて、予め定められた所定の処理を行い、ユーザが重要箇所指示手段２０３にて指示したと思しき音声区間を推定する。

テキスト要約手段２０６は、音声認識手段２０２によって得られた音声認識結果テキストに対し、重要区間推定手段２０５によって得られた重要区間を勘案しつつ、予め定められた要約処理を行い、その結果として得られる要約テキストを出力する。

次に図２および図３のフローチャートを参照して本実施の形態の全体の動作について詳細に説明する。

まず、音声入力手段２０１から音声信号が入力される（図３のステップＡ１）。

次に、音声認識手段２０２が入力された音声信号を音声認識し、音声認識結果テキストを出力する（ステップＡ２）。

ユーザが重要箇所指示手段２０３を用いて、重要箇所指示信号を発信させる（ステップＡ３）と、これを受けて、重要区間推定手段２０５が動作し、同期手段２０４によって重要箇所指示信号に相当する時刻、およびその前後の音声認識結果テキストを取得し、これを入力として、重要区間の推定処理を行う（ステップＡ４）。

最後に、テキスト要約手段２０６が、推定された重要区間を考慮しつつ、音声認識結果テキストに、テキスト要約処理を施し、発話内容要約テキストが出力される（ステップＡ５）。

次に、本実施の形態の作用効果について説明する。

本実施の形態では、ユーザが重要箇所指示信号を入力することにより、テキスト要約処理に音声の任意の箇所について考慮するよう指示を与えることができる。このため、テキスト要約の品質や、入力音声の文章構造の複雑さに寄らず、ユーザが求める任意の箇所の音声を要約に含めることができる。

また、本実施の形態では、重要箇所指示信号が入力された、まさにその時点の音声だけでなく、その前後も含めて要約の際に重視する区間（重要区間）として扱われるため、ユーザは、区間でなく点を指示するだけで、ユーザが求める任意の箇所の音声を要約に含めることができる。

また同時に、ある音声が発話されてから、ユーザがその音声を指示しようとするまでに多少のタイムラグがあっても、その音声を要約に含めることができる。

すなわち、特に、リアルタイム（実時間）に音声が入力されているような状況において、ユーザが重要箇所を指示する行為を簡便に行えるようにできる。

次に本発明の第２の実施の形態について説明する。図４は、本発明の第２の実施の形態のシステム構成を示す図である。図４を参照すると、本発明の第２の実施の形態において、プログラム制御により動作するコンピュータ４００が、音声入力手段４０１と、音声認識手段４０２と、重要箇所指示手段４０３と、同期手段４０４と、重要区間推定手段４０５と、テキスト要約手段４０６と、要約評価手段４０７とを備えている。

要約評価手段４０７が新たに追加されており、これ以外は、前記第１の実施の形態と同じ構成である。以下では、前記第１の実施の形態との相違点を説明し、同一部分の説明は重複を回避するため、適宜省略する。

重要区間推定手段４０５は、前記第１の実施の形態の重要区間推定手段とほぼ同一の動作をし、重要箇所指示手段４０３からの重要箇所指示信号およびその時刻情報に基づき、その時刻近辺に音声入力手段４０１から出力された音声に相当する、音声認識手段４０２によって得られた音声認識結果テキストについて所定の処理を行い、ユーザが重要箇所指示にて指示したと思しき音声区間を推定する。

本実施の形態においては、重要区間推定手段４０５は、要約評価手段４０７によって得られた要約の評価を入力とし、その評価に基づいた重要区間の推定処理をさらに行う。

要約評価手段４０７は、テキスト要約手段４０６が生成した要約テキストを予め定められた基準で評価し、もし要約テキストに改善の余地ありと判断すれば、重要区間推定手段４０５に必要な情報を与え、再度、重要区間の推定処理を行う。

次に図４および図５のフローチャートを参照して本実施の形態の全体の動作について詳細に説明する。

音声入力手段４０１から入力された音声データが、重要箇所指示手段４０３から入力された重要箇所指示信号を参考に、テキスト要約手段４０６によって要約されるまでの流れは、図３に示した前記第１の実施の形態の処理手順と同様である（図５のステップＢ１〜Ｂ５）。

本実施の形態においては、さらに次のような動作を行う。

テキスト要約手段４０６が生成した要約テキストは、要約評価手段４０７によって予め定められた基準によって評価される（ステップＢ６）。この評価の結果、改善の余地ありと判断された場合（ステップＢ７）、ステップＢ４に戻り、重要区間推定手段４０５が再び起動される。

要約評価手段４０７による評価基準としては、例えば、要約率を利用することが考えられる。要約率とは、元テキストに対する要約テキストのサイズ（バイト数か文字数を用いることが多い）の比率である。

要約率が予め与えられた閾値よりも十分低い場合、より広い区間を重要区間とするよう重要区間推定手段４０５を動作させ、逆に要約率が十分高い場合には、より狭い区間を重要区間とするように、重要区間推定手段４０５を動作させる。

次に、本実施の形態の作用効果について説明する。

前記第１の実施の形態における重要区間推定手段２０５での重要区間推定は、主として、重要箇所指示手段２０３から入力された重要箇所指示に基づくものであった。この場合、局所的な情報による区間推定しか行えない。

これに対して、本発明の第２の実施の形態の重要区間推定手段４０５は、要約評価手段４０７によって与えられる情報によって、要約テキスト全体を見渡した区間推定が行えるため、より精度の高い要約テキストを得ることが出来る。

なお、前記第１及び第２の実施の形態では、入力されたコンテンツ（音声）からテキスト情報を抽出するテキスト抽出手段として、音声認識手段を用いた例に即して説明したが、本発明は、かかる構成にのみ制限されるものではない。

音声認識手段以外にも、テキストを抽出できる装置であれば、任意のテキスト抽出手段を用いることができる。

テキスト抽出手段は、コンテンツとして与えられた文字情報をテキスト情報として抽出する。あるいは、テキスト抽出手段は、メタ情報を含むマルチメディア信号からメタ情報を読み出すことによってテキスト情報を抽出する。あるいは、テキスト抽出手段が、像信号からクローズドキャプション信号を読み出すことによってテキスト情報を抽出する。

あるいは、テキスト抽出手段が、映像に含まれる文字を画像認識することによってテキスト情報を抽出する。以下、具体的な実施例に即して説明する。

図６は、本発明の一実施例の構成を示す図である。図６に示すように、本実施例において、コンピュータ６００は、音声入力部６０１と、音声認識部６０２と、音声出力部６０３と、指示ボタン６０４と、同期部６０５と、重要区間推定部６０６と、テキスト要約部６０７と、要約評価部６０８を備えている。

音声入力部６０１から音声波形が入力される。この音声は、直ちに、音声認識部６０２に送られる。音声認識部６０２では、予め与えられたモデルと音声とのマッチング処理が行われ、音声認識結果テキストが出力される。

一方、音声入力部６０１から入力された音声波形は、直ちに音声出力部６０３に送られ、スピーカー等を通じてユーザの耳に届く。

ユーザはその音声を聞きながら、任意のタイミングで指示ボタン６０４を押下する。

指示ボタン６０４の押下を検知した同期部６０５は、まず、その押下タイミングに相当する音声を求める。

音声入力部６０１から入力された音声が直ちに、音声出力部６０３に送られ、ユーザの耳に届いているとすれば、この押下タイミングに相当する音声は、まさにその時刻に入力された音声ということになる。

さらに同期部６０５は、音声認識部６０２の出力から、押下タイミングに相当する音声に対する音声認識結果テキストを得る。

重要区間推定部６０６は、同期部６０５によって取得した、指示ボタン６０４の押下タイミングに対応する認識結果テキストをもとに、重要区間の初期値を設定する。例えば、当該認識結果テキストを含む一つの発声区間（連続する非ノイズ区間）を重要区間の初期値に設定する。

あるいは、当該認識結果テキストを含む単語や文節、文（句読点や終助詞によって区切られた一連の単語列）に相当する音声区間を重要区間の初期値としてもよい。

また、このとき、音声認識部６０２から取得できる非テキスト情報を利用してもよい。例えば、予め定められた認識尤度に満たない認識結果テキストはノイズを誤認識したものである可能性が高いため、そのテキストに相当する音声区間は、重要区間の初期値設定の考慮から外す、といった手法が用いられる。

重要区間推定部６０６は、必要に応じて重要区間を初期値から伸縮する。伸縮を行うか否かの判断基準としては、例えば、現在の重要区間の中に、予め定められた語彙が現れたか否かをもって判定する手法等が用いられる。

例えば重要区間から得られる認識結果テキストに、機能語が一つも含まれていなければ、その前後の区間を重要区間に組み入れることを検討する。

逆に、重要区間から得られる認識結果テキストが「えっと」などのフィラーを含むのであれば、これらフィラーに相当する音声区間を重要区間から削除することを検討する。

また、要約する内容がある程度限定的である場合には、
・予め定められた指示語（「それは」、「すなわち」、「つまり」、「確認しますが」）の有無や、
・電話番号、人名、組織名、製品名などのより限定的な単語の有無
を用いることで、より精度のよい重要区間推定が可能である。

また別の判断基準としては、重要区間の中に、有効な音声認識テキストが存在するかどうかによって判定する手法を用いてもよい。

指示ボタン６０４の押下タイミングによっては、該当する音声がノイズであるなどの理由から、有効な認識結果テキストが得られないことがある。

この場合は、該当音声の直前または直後にある認識結果テキストを含む音声区間を求め、これを重要区間とする。

直前および直後のいずれを選ぶかの基準としては、例えば、
（ａ）より押下タイミングに近い方を選ぶ、
（ｂ）前後区間に属すテキストの属性（予め与えられた重要度や品詞、「なぜなら」などの文法的キーワードを含むか否か、など）を比較して一般的な重要度の高い方を選ぶ、
（ｃ）音声認識処理の精度がより良い方を選ぶ、
などを用いることができる。

また、ユーザが指示ボタンを押下するタイミングは、目的音声を聞いたタイミングより若干遅れるというヒューリスティックを用いて、常に、前の方を選ぶ方法を用いてもよい。前後両方の区間を重要区間としてもよいことは勿論である。

重要区間の伸縮方法としては、例えば、その区間の前後の予め定められた時間または単語／文数に相当する音声の分だけ伸縮する方法が用いられる。

例えば、区間を伸張する際に、前後の一発話ずつを現在の区間に組み入れる。

別の重要区間の伸縮方法としては、重要区間の初期値の近傍（これもまた時間ないし発話の個数によって定義される）に予め定められたキーワードが現れた場合に、そのキーワードと共起することが知られている単語群のいずれかが属す音声区間まで伸縮する方法が用いられる。

例えば、重要区間に「電話番号」が現れたとき、その直後の発話に電話番号らしき数字列が現れるなら、その発話区間までを、重要区間に組み入れる。

この方法はヒューリスティックを必要とするため利用できる場面が限られるが、精度は非常に高い。

また、別の重要区間の伸縮方法としては、重要区間の初期値の近傍に予め定められた指示語（「それは」、「すなわち」、「つまり」、「確認しますが」）などが現れた場合、その直後の音声区間を重要区間に組み入れる手法が用いられる。

この手法は、前記共起キーワードを用いる方法とよく似ているが、利用する知識が比較的汎用的であるため利用可能範囲が広い。

さらにまた、別の重要区間の伸縮方法としては、重要区間の近傍に予め定義された音響的に特徴的な現象（パワーやピッチ、発話速度の変化など）が見られた場合、その近傍の音声区間を重要区間に組み入れる手法を用いてもよい。

例えば予め定められた閾値より大きなパワーで発声された音声は、その発話内容を強調したいという話者の意図を表している可能性が高い。

重要区間推定部６０６は、最終的に最も適切と思しき、区間を重要区間として、テキスト要約部６０７に通知する。

場合によっては、初期値として設定した区間が最適な重要区間として出力されることもある。

テキスト要約部６０７は、音声認識部６０２から出力された音声認識結果テキストから、重要区間推定部６０６によって出力された重要区間を考慮して、テキスト要約処理を行い、要約テキストを出力する。

重要区間を考慮したテキスト要約の手法としては、例えば、通常のテキスト要約と同様にテキストの各部位の重要度を求める際に、重要区間推定部６０６が重要区間と推定した区間に相当するテキスト部位の重要度にバイアスを加える手法等が用いられる。

また別の重要区間を考慮したテキスト要約の方法としては、例えば、重要区間として得られたいくつかの区間のみを利用してテキスト要約を行うという方法が用いられる。この場合、重要区間推定部６０６は区間推定の際に若干広めの区間を推定するよう調整すると好適である。

要約評価部６０８は、テキスト要約部６０７が出力した要約テキストを所定の基準で評価する。

もし要約テキストが予め与えられた基準を満たさない場合には、再び、重要区間推定部６０６が動作し、重要区間を、再度、伸縮させ、テキスト要約部６０７に送る。これを何度か繰り返すことで、質の良い要約テキストを得ることが出来る。

繰り返し回数としては、
・要約テキストが予め与えられた基準を満たすまで繰り返す方法、
・所定の処理時間まで繰り返す方法、
・所定の回数だけ繰り返す方法
などを用いることができる。

要約テキストの評価基準としては、例えば、要約率が考えられる。

テキスト要約における要約率とは、元のテキストサイズに対する要約テキストのサイズの比率である。サイズは、通常、文字数単位で数えられる。

本実施例においては、音声入力部６０１から入力されたすべての音声区間を、音声認識部６０２で音声認識した結果として得られた音声認識結果テキストの総文字数と、テキスト要約部６０７が出力した要約テキストの文字数との比率となる。

評価基準として要約率を用いた場合、例えば、テキスト要約部６０７が出力した要約テキストの要約率が、予め定められた目標要約率を上回っていれば、重要区間を縮小するように検討し、逆に、目標要約率を大きく下回っていれば、重要区間の拡大を検討する。

本発明によれば、人間同士の自然な発話や、ある程度長い音声に対して、より適切な要約テキストを生成することが出来るので、例えば、
・会議録の作成や
・講演の聴講記録の作成、
・電話応対の応対内容の覚書や
・記録文書の作成、
・テレビ番組の名場面集の作成、
などといった用途に適用可能である。

また本発明は、テキスト要約だけでなく、テキスト検索などにも適用可能である。この場合、図４のテキスト要約手段４０６は、検索クエリ生成手段に置き換えられる。

検索クエリ生成手段の動作は、例えば、重要区間に含まれるテキストから自立語を抽出し、これらの論理積を検索クエリとして生成する。

その後、検索クエリを、任意の検索エンジンに与えることによって、ユーザに簡便な操作による検索機能を提供することができる。

また、図４の要約評価手段４０７のかわりに、検索結果評価手段を用意することによって、例えば推定された重要区間での検索結果が一つも見つからない場合に、重要区間推定をやり直す（区間を拡大する）ように工夫することもできる。

本発明において、コンテンツの音声情報を音声認識してテキストに変換し、前記重要箇所の指示の入力に対応した、音声認識結果のテキストと、該音声に対応する画像情報を含む要約を生成するようにしてもよい。本発明において、前記重要箇所の指示の入力として、コンテンツ要約作成のキー（タイミング情報、テキスト情報、属性情報）となる情報を入力し、前記コンテンツを解析し、前記キーに対応する情報を含むコンテンツの一部を要約として出力する、ようにしてもよい。

本発明の全開示（請求の範囲を含む）の枠内において、さらにその基本的技術思想に基づいて、実施形態ないし実施例の変更・調整が可能である。また、本発明の請求の範囲の枠内において種々の開示要素の多様な組み合わせないし選択が可能である。

Claims

入力された、時間の経過に関連付けられたコンテンツからテキスト情報を抽出するテキスト抽出手段と、
テキストの要約処理を行い要約テキストを出力するテキスト要約手段と、
を備えたコンテンツ要約システムであって、
重要箇所を指示する重要箇所指示手段と、
前記コンテンツと、前記重要箇所指示手段より入力された重要箇所との同期を取る同期手段と、
前記テキスト抽出手段によって得られたテキスト情報について、前記重要箇所として指示したと推定される重要区間を導出する重要区間推定手段と、
を備え、
前記テキスト要約手段は、前記テキスト抽出手段によって得られたテキスト情報に対して、前記重要区間推定手段によって得られた重要区間を参照して、テキストの要約処理を行い、要約テキストを出力する、ことを特徴とするコンテンツ要約システム。
前記テキスト要約手段は、前記重要区間推定手段によって推定された重要区間に相当するコンテンツから得られたテキストを優先して要約処理を行う、ことを特徴とする請求項１に記載のコンテンツ要約システム。
前記コンテンツ入力手段より入力されたコンテンツが音声を含み、
前記テキスト抽出手段は、コンテンツとして入力された音声信号を音声認識することによってテキスト情報を抽出する音声認識手段を備えている、ことを特徴とする請求項１又は２に記載のコンテンツ要約システム。
前記テキスト抽出手段は、
コンテンツとして与えられた文字情報をテキスト情報として抽出する手段、
メタ情報を含むマルチメディア信号からメタ情報を読み出すことによってテキスト情報を抽出する手段、
像信号からクローズドキャプション信号を読み出すことによってテキスト情報を抽出する手段、
映像に含まれる文字を画像認識することによってテキスト情報を抽出する手段、
のうちのいずれか一の手段を含む、ことを特徴とする請求項１又は２に記載のコンテンツ要約システム。
前記重要区間推定手段は、前記重要箇所指示手段から入力された、コンテンツの重要箇所の近傍にあるテキスト情報を有するコンテンツの区間を推定区間として含める、ことを特徴とする請求項１又は２に記載のコンテンツ要約システム。
前記コンテンツ入力手段からのコンテンツが音声を含み、
前記重要区間推定手段は、前記重要箇所指示手段から入力された、音声の重要箇所の近傍にある発話を推定区間として含める、ことを特徴とする請求項１又は２に記載のコンテンツ要約システム。
前記重要区間推定手段は、前記重要箇所指示に相当するコンテンツの箇所にテキスト情報が存在しない場合、その直前のテキスト情報を有するコンテンツの区間を推定区間として用いる、ことを特徴とする請求項１又は２に記載のコンテンツ要約システム。
前記コンテンツ入力手段からのコンテンツが音声を含み、
前記重要区間推定手段は、重要箇所指示に相当する音声の箇所が無音である場合、その直前の発話区間を推定区間として用いる、ことを特徴とする請求項１又は２に記載のコンテンツ要約システム。
前記重要区間推定手段は、重要箇所指示に対応するコンテンツの前後にあるテキスト情報を有するコンテンツの区間を推定区間に含める際、時間的に前のほうの区間を優先して含めることを特徴とする請求項５に記載のコンテンツ要約システム。
前記重要区間推定手段は、重要箇所指示に相当する音声の、前後の発話を推定区間に含める際、前のほうの発話を優先して含めることを特徴とする請求項６に記載のコンテンツ要約システム。
前記重要区間推定手段は、重要箇所指示に相当するコンテンツの前後にあるテキストが予め定められた単語を含む場合、推定区間を伸縮することを特徴とする請求項１、２、５乃至１０のいずれか一に記載のコンテンツ要約システム。
前記テキスト要約手段の出力を分析し、要約の精度を評価する要約結果評価手段をさらに備え、
前記重要区間推定手段は、前記要約結果の評価に応じて、抽出された重要区間のいずれかまたは複数を伸縮することを特徴とする請求項１、２、５乃至１１のいずれか一に記載のコンテンツ要約システム。
前記要約結果評価手段として、前記テキスト要約手段の出力を分析し、要約率を計算する要約率計算手段を備え、
前記重要区間推定手段は、前記要約率が所定の値を下回らない場合には、抽出された重要区間のいずれかを縮小し、前記要約率が所定の値を上回らない場合には、抽出された重要区間のいずれかを拡大する、ことを特徴とする請求項１２に記載のコンテンツ要約システム。
時間の経過に関連付けて提示されるコンテンツを入力するコンテンツ入力手段と、
前記コンテンツ入力手段より入力されたコンテンツからテキスト情報を抽出するテキスト抽出手段と、
重要箇所の指示を入力する重要箇所指示手段と、
前記コンテンツ入力手段より入力されたコンテンツと、前記重要箇所指示手段より入力された重要箇所指示との同期を取る同期手段と、
コンテンツとして音声信号を入力する音声入力部と、
前記音声入力部からの入力音声信号の認識を行い音声認識結果のテキストを出力する音声認識部と、
前記音声入力部から入力された音声のうち、前記重要箇所を指示する手段によって指示された箇所を含む音声区間を、要約に必要な区間と捉え、前記重要区間を推定する手段によって適切な区間を推定し、これを考慮した上で、音声を認識し、さらにテキスト要約を行うことで発話内容の要約を作成し、ユーザによって別途必要最小限の情報の入力を受け付けることにより、ユーザが指定した音声の任意の箇所を要約に含めることを可能としてなる、ことを特徴とするコンテンツ要約システム。
時間の経過に関連付けて提示されるコンテンツを入力するコンテンツ入力手段と、
前記コンテンツ入力手段より入力されたコンテンツからテキスト情報を抽出するテキスト抽出手段と、
重要箇所の指示を入力する重要箇所指示手段と、
前記コンテンツ入力手段より入力されたコンテンツと、前記重要箇所指示手段より入力された重要箇所指示との同期を取る同期手段と、
コンテンツとして音声信号を入力する音声入力部と、
前記音声入力部からの入力音声信号の認識を行い音声認識結果のテキストを出力する音声認識部と、
前記音声入力部から入力された音声を出力する音声出力部と、
を備え、
前記重要箇所を指示する手段は、ユーザが重要箇所を指示する操作ボタンを備え、
前記操作ボタンより入力された重要箇所のタイミングに対応する音声認識結果のテキストを、前記音声認識部から取得する同期部を備え、
前記重要区間を推定する手段は、前記同期部によって取得された重要箇所のタイミングに対応する音声認識結果のテキストをもとに、重要区間の初期値を設定し、
前記要約テキストを作成する手段は、前記音声認識部から出力された音声認識結果のテキストから、前記重要区間を考慮したテキスト要約処理を行い要約テキストを出力する、ことを特徴とするコンテンツ要約システム。
前記テキスト抽出手段によって得られたテキスト情報について、予め定められた所定の処理を行い、前記重要箇所として指示したと推定される重要区間を導出する重要区間推定手段と、
テキストの要約処理を行い要約テキストを出力するテキスト要約手段と、
を備え、
前記テキスト要約手段は、前記テキスト抽出手段によって得られたテキスト情報に対して、前記重要区間推定手段によって得られた重要区間を参照して、テキストの要約処理を行い、要約テキストを出力する、ことを特徴とする請求項１４又は１５記載のコンテンツ要約システム。
コンピュータにより、入力されたコンテンツからテキスト情報を抽出して要約を作成するコンテンツ要約方法であって、
時間の経過に伴ってシーケンシャルに提示されるコンテンツを入力するコンテンツ入力工程と、
前記コンテンツ入力工程より入力されたコンテンツからテキスト情報を抽出するテキスト抽出工程と、
テキストの要約処理を行い要約テキストを出力するテキスト要約工程と、
重要箇所を指示する重要箇所指示工程と、
前記コンテンツ入力工程より入力されたコンテンツと、前記重要箇所指示工程より入力された重要箇所との同期を取る工程と、
前記テキスト抽出工程によって得られたテキスト情報について、予め定められた所定の処理を行い、前記重要箇所として指示したと推定される重要区間を導出する重要区間推定工程と、
を含み、
前記テキスト要約工程は、前記テキスト抽出工程によって得られたテキスト情報に対して、前記重要区間推定工程によって得られた重要区間を参照して、テキストの要約処理を行い、要約テキストを出力する、ことを特徴とするコンテンツ要約方法。
入力されたコンテンツからテキスト情報を抽出して要約を作成するコンテンツテキスト要約を行うコンピュータに、
時間の経過に伴ってシーケンシャルに提示されるコンテンツを入力するコンテンツ入力処理と、
前記コンテンツ入力処理より入力されたコンテンツからテキスト情報を抽出するテキスト抽出処理と、
重要箇所を指示する重要箇所指示処理と、
前記コンテンツ入力処理より入力されたコンテンツと、前記重要箇所指示処理より入力された重要箇所との同期を取る処理と、
前記テキスト抽出処理によって得られたテキスト情報について、予め定められた所定の処理を行い、前記重要箇所として指示したと推定される重要区間を導出する重要区間推定処理と、
テキストの要約処理を行い要約テキストを出力するテキスト要約処理であって、前記テキスト抽出処理によって得られたテキスト情報に対して、前記重要区間推定処理によって得られた重要区間を参照して、テキストの要約処理を行い、要約テキストを出力するテキスト要約処理と、
をコンピュータに実行させるプログラム。