JP2007233823A

JP2007233823A - 自動要約装置及びコンピュータプログラム

Info

Publication number: JP2007233823A
Application number: JP2006056145A
Authority: JP
Inventors: Masahiro Ono; 誠寛大野; Shigeki Matsubara; 茂樹松原; Hidenori Kashioka; 秀紀柏岡; Naoto Kato; 直人加藤
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2006-03-02
Filing date: 2006-03-02
Publication date: 2007-09-13

Abstract

【課題】テキストの要約を内容が正確に理解できる程度に行なえる自動要約装置を提供する。
【解決手段】テキスト自動要約装置４４は、テキストの各文を節に分割する節分割処理部５２と、分割された各節内の文節間の係り受け構造を解析する節内部の係り受け解析部５４と、節間の係り受け構造を解析し、解析結果に従って要約対象の単位となる文節列と当該文節列内の文節間の係り受け構造とを出力する節末文節の係り先解析部５６と、出力される係り受け構造と係り受け構造内で削除すべき部分を定めるために予め定義された削除規則とに従って、係り先解析部５６から出力される各文節列に対し、当該文節列内で削除すべき文節を定めて削除する不要部分削除部５８とを含む。
【選択図】図２

Description

この発明は、テキストを要約する装置に関し、特に、発話等から得られたテキストを自動的に要約するための技術に関する。

公演及び生放送のテレビジョンプログラムにおける解説等においては、内容について観客のよりよい理解を助けるために様々なシステムが必要とされている。その一つとして、字幕自動生成システムが考えられる。この様な字幕自動生成において考慮すべき主な事項は二つある。第１は、正確さ、第２は追従性（リアルタイム性）である。

観客等に発話の中身が最も正確に伝わる様に字幕を生成しようとすると、発話の内容から一字一句違わずに字幕を生成する事が好ましい。しかし、この様に字幕生成の際に発話内容をそのまま表示すると、観客等が表示時間内に字幕を読みきる事ができないおそれがある。

かといって、表示時間内で読みきる事のできる様に字幕の表示時間を延ばすと、発話内容と字幕表示内容がずれてしまう。つまり、字幕表示内容が発話内容から遅れ、追いかける様な現象が起こる。この遅れによって、字幕生成のリアルタイム性は損なわれてしまう。

これらの問題点を解決するために、人手によって発話内容をリアルタイムで要約し、その要約内容から字幕を生成するという方法が考えられる。一般に、人間が１秒間に読みきる事のできる文字数の上限は４文字程度であると考えられている。この方法によると、人手によって１秒間に４文字以内に収まる様に要約を行ない、字幕を生成する事が可能である。
特開２００４−３１８３００号公報

しかし、人手を使って要約を行なうと処理が煩雑になりがちである。また、要約にかかる人件費等を考えると経済的でもない。さらに、人手を介すると、人間が内容を理解して要約するという過程を経なければならない。そのため、リアルタイム性が損なわれる恐れもある。

そこで、人手を介さずに、１秒間に４文字以内に収まる様に要約された字幕を生成する必要がある。また、その際には、発話の内容がなるべく損なわれない様にする必要がある。

従って、本発明の一つの目的は、発話等から得られるテキストの要約を、その内容が正確に理解できる程度に行なえる様な自動要約装置を提供する事である。

また、本発明の他の目的は、テキストの入力に追従してリアルタイムで要約が行なえる様な自動要約装置を提供する事である。

本発明の第１の局面に係るテキスト自動要約装置は、入力されるテキストを自動的に要約するためのテキスト自動要約装置であって、入力されるテキストの各文を節に分割するための節分割手段と、節分割手段により分割された各節内の文節間の係り受け構造と、節間の係り受け構造とを解析し、解析結果に従って要約対象の単位となる文節列と、当該文節列内の文節間の係り受け構造とを出力するための係り受け構造解析手段と、係り受け構造解析手段により出力される係り受け構造と、係り受け構造内で削除すべき部分を定めるための予め定義された削除規則とに従って、係り受け構造解析手段から出力される各文節列に対し、当該文節列内で削除すべき文節を定めて削除するための削除手段とを含む。

節分割手段により、入力されるテキストの各文が節に分割され、その分割された節に基づいて文の節内及び節間の係り受け構造が解析される。これら係り受け構造の解析結果に従って要約の単位となる文節列が出力される。削除手段は、この係り受け構造と、係り受け構造内で削除すべき部分を定めるための予め定義された削除規則とに従って、文節列に含まれる文節のうちで削除すべき文節を決定する。ゆえに、文の係り受け構造と、削除規則とに従って、適切な文節の削除を行なう事ができる。その結果、発話等から得られるテキストの要約を、係り受け構造に基づいてその内容が正確に理解できる程度に行なう事ができる。

好ましくは、係り受け構造解析手段の出力する文節列内の各文節には時間期間の情報が付されており、削除手段は、係り受け構造解析手段の出力する各文節列に対し、当該文節列内の文節の時間期間の合計と当該文節列内の文字数とが所定の条件を充足しているか否かを判定するための判定手段と、判定手段により所定の条件が充足されていないと判定された事に応答して、係り受け構造解析手段により出力される係り受け構造と、削除規則とに従って、文節列内で削除すべき文節を定めて削除するための手段と、判定手段により所定の条件が充足されたと判定されるまで、削除するための手段による削除処理と、判定手段による判定処理とを繰返し実行する様に、削除するための手段と判定手段とを制御するための制御手段とを含む。

この自動要約装置によると、各文節に時間期間の情報が付されており、文節列内の文節の時間期間の合計と当該文節列内の文字数とが所定の条件を充足しているか否かを判定する事ができる。そして、この所定の条件を充足しているか否かで、文節を削除すべきか否かが判定される。また、所定の条件が充足されたと判定されるまで、削除処理と判定処理とが繰返し実行される。ゆえに、所定の条件を充足する範囲でできるだけ多くの情報を残しながら文節の削除を行なう事ができる。その結果、発話等から得られるテキストの要約を、その内容が正確に理解できる程度に行なう事ができる。

好ましくは、節分割手段は、入力されるテキスト内の局部的な形態素列に基づいて、入力されるテキストを漸進的に節に分割して、分割された節を出力するための漸進的節分割手段を含み、係り受け構造解析手段は、節分割手段から出力される節を受けた事に応答して、当該節内の文節の係り受け構造を解析するための節内係り受け構造解析手段と、節内係り受け構造解析手段により節内の文節の係り受け構造が解析された節を受けた事に応答して、節内係り受け構造解析手段によりそれ以前に出力された節との間の節間係り受け構造を解析し、節間の係り受け関係の係り先が決定すると、新たに係り先が決定した節と、最も後の係り先との間の節内の文節列を出力するための節間係り受け構造解析手段とを含み、条件確認手段は、節間係り受け構造解析手段から与えられた文節列に付された時間情報を合計して、合計時間を計算するための時間合計手段と、時間合計手段により計算された合計時間と文節列に含まれる文字数とを比較して、節間係り受け構造解析手段から与えられた文節列に含まれる文字が時間あたり所定の文字数以内に収まっているか否かを判定するための時間比較手段とを含む。

この自動要約装置によると、入力されるテキストを漸進的に節に分割する。また、漸進的に節分割された節を受けて節の係り受け構造を解析する。さらに、係り受け構造の解析された文節列に付された時間情報の合計と当該文節列に含まれる文字が時間あたり所定の文字数以内に収まっているか否かを判定する。ゆえに、この判定に基づいて行なわれる文節の削除も、漸進的に行なう事ができる。その結果、要約がテキストの入力に追従してリアルタイムで行なわれる。

好ましくは、時間比較手段は、時間合計手段で計算された合計時間と文節列に含まれる文字数とを比較して、解析結果テキストに含まれる文字数が１秒間あたり４文字以内に収まっているか否かを判定するための手段を含む。

この自動要約装置によると、合計時間と文節列に含まれる文字数とを比較した結果が、文字数が１秒間あたり４文字以内に収まっているか否かを判定する事ができる。人間が１秒間に読む事のできる限度であると考えられている文字数は４文字程度とされており、この比率に達するまで文節の削除が行なわれる。その結果、発話等から得られるテキストの要約をリアルタイムで作成する場合にも、その内容が正確に理解できる程度に要約を行なう事ができる。

好ましくは、削除規則は、係り受け構造解析手段による解析により得られる係り受け構造に基づいて、進み得る枝が決定される決定木であって、係り受け構造と文節列とが与えられると、テキストのどの部分を削除すべきかが判定可能となる様に予め準備されている。

この自動要約装置によると、決定木により係り受け構造と文節列とが与えられると進み得る枝が決定される。その結果、決定木によって削除すべき文節が決定される。決定木は、係り受け構造からどの文節を削除すべきかを適切に決定できる様、予め準備されている。そのため要約の際の文節の削除が適切に行なわれる。その結果、発話等から得られるテキストの要約を、その内容が正確に理解できる程度に行なう事ができる。

さらに好ましくは、自動要約装置はさらに、削除規則を格納するための削除規則格納手段を含む。

この自動要約装置によると、文節の削除を行なう際に削除規則格納手段に格納された削除規則を使用する事ができる。ゆえに、効率的な文節の削除を行なう事ができる。その結果、テキストの要約も効率的に行なう事ができる。

本発明の第２の局面に係るコンピュータプログラムは、コンピュータにより実行されると、当該コンピュータを上記のいずれかに記載の自動要約装置として動作させるので、上記したいずれかの効果と同様の効果を得る事ができる。

［構成］
図１に、本発明の一実施の形態に係るリアルタイム字幕生成装置３０のブロック図を示す。図１を参照して、リアルタイム字幕生成装置３０は、入力された発話音声を音声信号に変換するためのマイクロフォン４０と、マイクロフォン４０の出力する音声信号をテキストに変換するための音声認識装置４２と、音声認識装置４２によってテキスト変換された発話テキストの内容をリアルタイムで要約するためのリアルタイム要約装置４４と、リアルタイム要約装置４４で要約された要約済み発話内容を字幕表示するための字幕表示装置４６とを含む。

ここで、音声認識装置４２では発話音声信号のテキスト化と同時に形態素解析も行なわれている。さらに、文節単位での発話時間情報を付す処理も行なわれる。また、ここでの音声認識精度は１００％であると仮定する。

図２に、リアルタイム要約装置４４の内部構成を示すブロック図を示す。図２を参照して、リアルタイム要約装置４４は、特許文献１に開示の技術を用いて、発話テキストを節に分割する際に使用される規則を格納する節分割規則格納部５０と、節分割規則格納部５０に格納された規則を用いて発話テキストを節境界で分割する処理を行なうための、特許文献１に開示の技術を採用した節分割処理部５２とを含む。ここでの節分割処理は、発話の進行と同時並行的に行なわれている。この様な節分割処理を漸進的節分割処理と呼ぶ。

リアルタイム要約装置４４はさらに、予め準備された、統計処理による節内係り受け確率モデルを参照して、節分割処理部５２から出力される各節に対する節内係り受け解析処理を行ない、その結果を当該節の形態素列とともに出力するための節内部の係り受け解析部５４と、節内部の係り受け解析部５４によって解析された節内部の係り受け構造を前提として、予め準備された、統計処理による節間係り受け確率モデルを参照して、確率計算と繰返し処理とによって各節の節末文節の係り先を決定し、係り先が決定されたところまでの節を次の処理部に与えるための節末文節の係り先解析部５６とを含む。ここでの係り受け処理も、節分割処理と同様、発話の進行と同時並行的に行なわれている。この様な係り受け処理を漸進的係り受け処理と呼ぶ。

この様に、節分割処理及び係り受け処理が漸進的に行なわれる事により、発話に追従した処理が可能となる。その結果として、リアルタイムな字幕生成処理が可能となる。

節内部の係り受け解析部５４が使用する節内係り受け確率モデルは、特願２００５−０１６３４１号で本願出願人により提案されている。ここでは、節内部の係り受け構造が予め付与された多数の学習用データに基づいた統計処理により、この確率モデルが予め作成される。原理的には、節内部の係り受け解析部５４は、入力される節の間の係り受け構造として考えられる構造を全て列挙する。そして、それらの確率を確率モデルを用いて算出する事で、最も確からしいと推定される係り受け構造を採用する。ただし、節末の文節の係り先は決定しない。

節末文節の係り先解析部５６が使用する節間係り受け確率モデルも、同様に、特願２００５−０１６３４１号において提案されている。ここでは、節間の係り受け構造が予め付与された多数の学習用データに基づいた統計処理により、この確率モデルが予め作成される。節末文節の係り先解析部５６は、節分割処理部５２によって新たな節境界が検出されるたびに、それまでに得られた節のうち、節末文節の係り先が未確定な節の各々について、節間係り受け確率モデルを使用して、係り先の文節として可能なものの確率を全て計算する。係り先の文節は、当該文節に含まれた節に後続するいずれかの節内の文節である。

節末文節の係り先解析部５６は、その中で最も確率の高いものをその節の節末文節の係り先の一応の候補として決定する。節末文節の係り先解析部５６は、新たな節境界が検出されるたびにこの処理を繰返し、そのたびに一応の候補を決定する。ある文節について、こうして繰返し定められる一応の候補が一定の回数の処理の間変わらなかった場合、その受け文節を当該節末文節の係り先として確定させる。

節分割処理部５２、節内部の係り受け解析処理部５４、及び節末文節の係り先解析処理部５６での具体的な処理例については後述する。

リアルタイム要約装置４４はさらに、節末文節の係り先解析部５６から与えられた解析結果テキストを要約するためにその不要部分を削除する際に使用する削除規則を格納するための削除規則格納部６０と、削除規則格納部６０に格納された規則を参照して解析結果テキストの不要部分を削除して要約を作成するための不要部分削除部５８とを含む。

削除規則格納部６０に格納された規則の詳細については後述する。

図３に、節分割処理部５２、節内部の係り受け解析部５４、及び節末文節の係り先解析部５６での具体的な処理例を示す。図３を参照して、テキスト７０は、音声認識装置４２から出力された発話テキストの一例であり、形態素列に基づいて文節で分割されている。テキスト７０に節分割処理７２を行なうと節毎に分割されたテキスト７４が生成される。図中で楕円で囲まれた範囲が一つの節を表す。一つの節に複数の文節が含まれている場合もあるし、一つの節に一つだけ文節が含まれている場合もある。

節毎に分割されたテキスト７４に節内部の係り受け解析処理７６を行なうと、節内部での係り受け構造が解析されたテキスト７８が生成される。テキスト７８の文節と文節とをつなぐ実線の矢印が節内部での文節同士の係り受け構造を示している。この節内部の係り受け構造を決定するために、上述した統計的手法が使われている。

テキスト７８に節末文節の係り先解析処理８０を行なうと、節間の係り受け構造が解析されたテキスト８２が生成される。テキスト８２の文節と文節とをつなぐ点線の矢印が節間にまたがる節末文節の係り受け構造を示している。この節間にまたがる係り受け構造を決定するために、上述した統計的手法が使われている。

図４に、削除規則格納部６０に格納された規則の詳細について示す。この規則は、最終文節の述語は重要な文節であるという仮定と、その最終文節の述語から離れるほど文節の重要性が下がるという仮定とに基づいて作成された決定木である。

また、規則中に登場する「係り受けの深さ」とは、ある文節からある文節までの距離を意味する。ここで、文節間の距離とは、ある文節とある文節とが係り受け構造上でどのくらい離れているかを示すために使用している語である。

さらに、人間が字幕を読みきる事のできる文字数は上記した様に１秒間に４文字程度であるので、以下で説明する文節又は節の削除は、この文字数制限に達するまで行なわれる。

図４を参照して、節末文節の係り先解析処理まで終わった解析結果テキストが入力されると、そこに含まれる全ての文節に対し、第１の条件１６０、すなわち当該文節に係る文節がなく、当該文節が節末でなく、当該文節の係り先が形容詞又は副詞等であるという条件を満たすか否かが判定される。この第１の条件１６０を満たす文節は削除候補１７２となる。削除候補１７２であると判定されても、直ちに削除されるわけではない。後述する様に複数の削除候補があるときは、さらに第２の条件１６２、すなわち節末からの係り受けの深さが最も深いという条件、第３の条件１６４、すなわち最右文節からの係り受けが最も深いという条件、及び第４の条件１６６、すなわち文節の文字数が最も多いという条件を満たすか否かが同様に順次判定され、削除すべき文節が決定される。

第１の条件〜第４の条件１６０〜１６６を満たす文節は全て削除候補とみなされるが、仮に、第３の条件１６４までを満たす文節が複数個存在する場合、第４の条件１６６を満たす文節が削除される。これは、先に述べた重要文節か否かという仮定に加えて、文字数の多い文節から削除した方が１秒間に４文字という文字数制限を満たしながらより多くの情報を残す事ができるという理由による。

第１の条件１６０を満たす文節がなければ、各文節が第５の条件１６８、すなわち当該文節に係る文節がなく、当該文節が節末でなく、当該文節の係り先が形式名詞以外の名詞であり、形容詞等であるという条件を満たすか否かが判定される。第５の条件１６８を満たす文節は、削除候補１７４となる。第５の条件１６８を満たす文節がなければ、各文節について第６の条件１７０、すなわち当該文節に係る文節がなく、当該文節が節末でなく、当該文節の係り先が状態動詞以外で述語であり、副詞等であるという条件が満たされるか否かが判定される。第６の条件１７０が満たされると、その文節は削除候補１７６となる。いずれの文節も第６の条件を満たさなければ、削除候補と判定される文節が存在しない事になる。そこで、この場合は、節単位の削除処理へと移行する。

この様に、削除規則は、文節列と係り受け構造とを受けると、それらに従ってルートノードから始まり、進み得る枝が決定される様になっている。この規則により、係り受け構造に基づき、どの文節を削除するかを決定できる。

図５に、削除規則格納部６０に格納された、解析結果テキストの不要部分を節単位で削除して要約を作成するための規則の詳細について示す。この規則は、最終節は重要な節であるという仮定と、その最終節から離れるほど節の重要性が下がるという仮定とにより作成されている。また、規則中に登場する「係り受けの深さ」とは、文節の削除規則同様、ある節からある節までの係り受け構造における距離を意味する。

図５を参照して、図４の第６の条件１７０までの条件を満たさなかった解析結果テキストが入力されると、そこに含まれる全ての節に対し、第１の条件１８０、すなわち最終節ではなく、当該節に係る節はなく、形式名詞以外の名詞に係る節末を持つ節であるという条件を満たす節であるか否かが判定される。第１の条件１８０が満たされれば、その節は削除候補１８８となる。ある節が削除候補１８８であると判定されても、直ちに削除されるわけではない。後述する様に複数の削除候補があるときは、さらに、第２の条件１８２、すなわち最右節からの係り受けが最も深いという条件及び第３の条件１８４、すなわち節の文字数が最も多いという条件を満たすかが順次判定され、削除すべき節が決定される。

第１の条件〜第３の条件１８０〜１８４を満たす節は全て削除候補とみなされるが、仮に、第２の条件１８２までを満たす節が複数個存在する場合、第３の条件１８４を満たす節が削除される。文節の削除の場合同様、重要節か否かの仮定に加えて、文字数の多い節から削除した方が１秒間に４文字という文字数制限を満たしながらより多くの情報を残す事ができるという理由による。

第１の条件を満たす節がなければ、各節について第４の条件１８６、すなわち当該節が最終節ではなく、当該節に係る節がなく、当該節が形式名詞に係らず、節境界が最も弱いという条件が満たされるか否かが判定される。第４の条件１８６が満たされると、その節は削除候補１９０となる。

図６に、不要部分削除部５８の内部構成を示すブロック図を示す。図６を参照して、不要部分削除部５８は、節末文節の係り先解析部５６から与えられた節間の係り受け構造が決定されたところまでの解析結果テキストについて、その一部を削除する必要があるか否かを確認するための条件確認部９０と、条件確認部９０によって削除をする必要があると判定された場合に、削除規則格納部６０に格納された削除規則を参照して、解析結果テキストの一部を削除するための削除部９２とを含む。

図７に、条件確認部９０及び削除部９２の内部構成を示すブロック図を示す。図７を参照して、条件確認部９０は、節末文節の係り先解析部５６から与えられた解析結果テキスト中の文節に付された発話時間を合計して、合計発話時間を計算するための時間合計部１００と、時間合計部１００で合計された時間と解析結果テキストの文字数との比較から、解析結果テキストが４文字１秒以内に収まっているか否かを計算するための時間比較部１０２とを含む。

削除部９２は、二つの入力及び一つの出力を有し、時間比較部１０２からの制御入力によって二つの入力のいずれかを出力に接続するための第１のスイッチ１１０と、第１のスイッチ１１０からの出力テキストを一旦格納するためのバッファ１１２と、バッファ１１２の出力が接続された入力と二つの出力とを有し、時間比較部１０２からの制御入力によって、バッファ１１２からの入力を二つの出力のいずれかに接続するための第２のスイッチ１１４とを含む。

削除部９２はさらに、時間比較部１０２での比較結果により文字数が４文字１秒に収まっていなければ、第２のスイッチ１１４が出力する形態素列から削除規則格納部６０に格納された規則を参照して削除対象となる文節又は節を決定するための削除対象決定部１１６と、削除対象決定部１１６で決定された文節又は節を削除するための文節／節削除部１１８とを含む。なお、文節／節削除部１１８の出力は、第１のスイッチ１１０の二つある入力のうち、節末文節の係り先解析部５６が接続されているものと別の方に接続されている。

ここで、第１のスイッチ１１０は、時間比較部１０２で文字数が１秒４文字以内に収まっていると判定されれば、時間比較部１０２からの制御信号を受けて、節末文節の係り先解析部５６とバッファ１１２とを接続する。また、第１のスイッチ１１０は、文字数が１秒４文字よりも多ければ、文節／節削除部１１８とバッファ１１２とを接続する。

第２のスイッチ１１４は、時間比較部１０２で文字数が１秒４文字以内に収まっていると判定されれば、時間比較部１０２からの制御信号を受けて、バッファ１１２と字幕表示部４６とを接続する。また、第２のスイッチ１１４は、文字数が１秒４文字よりも多ければ、バッファ１１２と削除対象決定部１１６とを接続する。

図８に、本実施の形態の要約装置４４、特にそのうちの不要部分削除部５８をコンピュータで実現するためのコンピュータプログラムのフローチャートを示す。図８を参照して、処理が開始されると、ステップ１３０では節末文節の係り先解析部５６から節の入力があったか否かが判定される。節の入力がなければ、ステップ１３０に戻り、あればステップ１３４に進む。

ステップ１３４では、節末文節の係り先解析部５６から入力された節をバッファ１１２に追加する処理が行なわれる。ステップ１３６では、バッファ１１２に格納された節の発話時間の合計が計算される。この処理の際には、バッファ１１２内に格納された節の文字数も計算される。

ステップ１３８では、計算された発話時間と文字数とが１秒間に４文字以内という条件を充足しているか否かが判定される。１秒間に４文字以内であれば、ステップ１４０に進み、４文字よりも多ければ、ステップ１４２へ進む。

ステップ１４０では、バッファ１１２内の文字を字幕として出力する処理が行なわれる。処理はステップ１３０に戻る。

ステップ１４２では、削除規則に基づいて、バッファ１１２内のどの文節を削除するかを決定する処理が前述した文節単位の削除規則に従って行なわれる。どの文節を削除するかが決定されなければステップ１４４へ進み、決定されればステップ１４６へ進む。

ステップ１４４ではどの節を削除するのかを前述した節単位の削除規則に従って決定する処理が行なわれる。ステップ１４６では、ステップ１４２で削除すべきと判定された文節又はステップ１４４で削除すべきと判定された節を削除する処理が行なわれる。削除結果によってバッファ１１２内が更新される。その後、処理はステップ１３６へ戻り、上記した処理を繰返す。

［動作］
本実施の一形態に係るリアルタイム字幕生成装置は以下の様に動作する。動作の説明は、図１、図２、図６、及び図７を適宜参照して行なう。

まず、マイクロフォン４０（図１参照）は入力された発話音声を音声信号に変換して、音声認識装置４２に与える。音声認識装置４２は、音声信号を音声認識し、文節ごとに時間情報の付された形態素列の形式で、リアルタイム要約装置４４に与える。

与えられた形態素列を用いて、節分割処理部５２（図２参照）で節分割規則格納部５０に格納された規則を参照して、形態素の並びに基づき、入力される文中の節の境界が検出される。指定された節の境界位置には何らかのマーカが付される。節分割処理部５２によって節分割処理されたテキストは、節内部の係り受け解析部５４に与えられる。

節内部の係り受け解析部５４は、節分割処理部５２により節境界が検出されるたびに、当該節境界の直前の節に対し、節内係り受け構造確率モデルを参照して節内係り受け解析処理を行なう。解析処理結果は当該節の形態素列とともに、節末文節の係り先解析部５６に与えられる。

節末文節の係り先解析部５６は、節内部の係り受け解析部５４により得られた節内部の係り受け構造を前提とし、節間係り受け確率モデルを参照して、確率計算により係り先が未確定の節末文節の受け文節の候補を決定する。そして、ある節について上記した受け文節候補の決定処理を所定回数繰返しても候補とされた受け文節が変化しなかった場合、その受け文節が当該節の節末の文節の係り先として決定される。

節分割処理部５２が文を節に分割し、節内部の係り受け解析部５４と節末文節の係り先解析部５６とによって各節内の係り受け構造と節間の係り受け構造とが順次決定されて行く。節分割処理部５２の処理、節内部の係り受け解析部５４、及び節末文節の係り先解析部５６の処理が節全体について終了する事により、当該節に対する係り受け解析結果が得られる。

得られた係り受け解析結果テキストは、削除部９２（図６参照）に与えられる。削除部９２に含まれるスイッチ１１０（図７参照）は、節末文節の係り先解析部５６から最初の解析結果がスイッチ１１０を経てバッファ１１２に与えられるまでは、節末文節の係り先解析部５６とバッファ１１２とを接続している。バッファ１１２は節末文節の係り先解析部５６から与えられた解析結果を一旦格納する。バッファ１１２は一旦格納した解析結果テキストを時間合計部１００に与える。

時間合計部１００は与えられた解析結果テキストから文節ごとに付された発話時間情報を取り出し、発話時間の合計を計算する。計算された発話時間の合計は、時間比較部１０２に与えられる。

時間比較部１０２は、バッファ１１２に一旦格納された範囲の解析結果テキストに含まれている文字数と時間合計部１００で計算された発話時間との比較を行なう。この比較によって、文字数が１秒間に４文字という基準に収まっているか否かが判定される。時間比較部１０２は判定結果をスイッチ１１４に与える。

文字数が１秒間に４文字以内であれば、スイッチ１１４はバッファと字幕表示部４６とを接続する様に切替えられる。その結果、字幕表示部４６には、バッファ１１２に一旦格納されていた発話内容が与えられる。字幕表示部４６は、この発話内容を字幕表示する。

文字数が１秒間に４文字よりも多ければ、スイッチ１１４はバッファ１１２と削除対象決定部１１６とを接続する様に切替えられる。スイッチ１１０は、文節／節削除部１１８とバッファ１１２を接続する様に切替えられる。削除対象決定部１１６は、削除規則格納部６０に格納された規則を参照して、バッファ１１２から与えられた解析結果テキストから削除すべき部分を決定する。

文節／節削除部１１８は、削除対象決定部１１６によって削除すべきと決定された部分を削除する。不要部分が削除された解析結果テキストは、スイッチ１１０を経て、バッファ１１２に与えられる。バッファ１１２は格納されていた解析結果テキストに、文節／節削除部１１８から新たに与えられたテキストを上書きする。

バッファ１１２に上書きされたテキストは時間合計部１００に与えられ、合計時間が計算される。以後、この動作が何度か繰返される事によって、１秒間に含まれる文字数が４文字以内であるという条件を満たす様にテキストの一部を削除していく。テキストが文字制限条件を満たす様になれば、最終的にバッファ１１２内に残っているテキストが、字幕表示部４６が与えられ、字幕として表示される。

［コンピュータによる実現］
この実施の形態のリアルタイム字幕生成装置３０は、コンピュータハードウェアと、そのコンピュータハードウェアにより実行されるプログラムと、コンピュータハードウェアに格納されるデータとにより実現される。図９はこのコンピュータシステム３３０の外観を示し、図１０はコンピュータシステム３３０の内部構成を示す。

図９を参照して、このコンピュータシステム３３０は、ＦＤ（フレキシブルディスク）ドライブ３５２及びＣＤ−ＲＯＭ（コンパクトディスク読出専用メモリ）ドライブ３５０を有するコンピュータ３４０と、キーボード３４６と、マウス３４８と、モニタ３４２と、マイクロフォン３７０とを含む。

図１０を参照して、コンピュータ３４０は、ＦＤドライブ３５２と、ＣＤ−ＲＯＭドライブ３５０と、マイクロフォン３７０とに加えて、ＣＰＵ（中央処理装置）３５６と、ＣＰＵ３５６、ＦＤドライブ３５２及びＣＤ−ＲＯＭドライブ３５０に接続されたバス３６６と、ブートアッププログラム等を記憶する読出専用メモリ（ＲＯＭ）３５８と、バス３６６に接続され、プログラム命令、システムプログラム、及び作業データ等を記憶するランダムアクセスメモリ（ＲＡＭ）３６０と、バス３６６及びマイクロフォン３７０に接続されるサウンドボード３６８とを含む。

ここでは示さないが、コンピュータ３４０はさらにローカルエリアネットワーク（ＬＡＮ）への接続を提供するネットワークアダプタボードを含んでもよい。

コンピュータシステム３３０にリアルタイム字幕生成装置３０としての動作を行なわせるためのコンピュータプログラムは、ＣＤ−ＲＯＭドライブ３５０又はＦＤドライブ３５２に挿入されるＣＤ−ＲＯＭ３６２又はＦＤ３６４に記憶され、さらにハードディスク３５４に転送される。又は、プログラムは図示しないネットワークを通じてコンピュータ３４０に送信されハードディスク３５４に記憶されてもよい。プログラムは実行の際にＲＡＭ３６０にロードされる。ＣＤ−ＲＯＭ３６２から、ＦＤ３６４から、又はネットワークを介して、直接にＲＡＭ３６０にプログラムをロードしてもよい。

このプログラムは、コンピュータ３４０にこの実施の形態のリアルタイム字幕生成装置３０として動作を行なわせる複数の命令を含む。この動作を行なわせるのに必要な基本的機能のいくつかはコンピュータ３４０上で動作するオペレーティングシステム（ＯＳ）もしくはサードパーティのプログラム、又はコンピュータ３４０にインストールされる各種ツールキットのモジュールにより提供される。従って、このプログラムはこの実施の形態のシステム及び方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られる様に制御されたやり方で適切な機能又は「ツール」を呼出す事により、上記したリアルタイム字幕生成装置としての動作を実行する命令のみを含んでいればよい。コンピュータシステム３３０の動作は周知であるので、ここでは繰返さない。

以上の様に、本発明の一実施の形態に係るリアルタイム字幕生成装置３０によると、発話が音声認識装置４２（図１参照）によって音声認識されると、順次、節分割処理部５２（図２参照）、節内部の係り受け解析部５４、及び節末文節の係り先解析部５６によって係り受け構造が推定される。さらに、こうして得られたテキストが１秒４文字の条件を充足するまで、係り受け解析結果に基づいて不要部分が決定され、不要部分削除部５８で削除される。

この削除処理に使用される規則は、「最終文節の述語は重要である」等の仮定に基づいて作成されている。原理的には、この削除規則は、節の係り受け構造に基づいて作成されている。節の係り受け構造を明らかにするためには、節分割処理部５２、節内部の係り受け解析部５４、及び節末文節の係り先解析部５６での処理に使用される特許文献１及び本願出願者により特願２００５−０１６３４１号で提案された既存の、又は既に利用可能な技術を有効に使用する事ができる。すなわち、この様にして得られる削除規則に基づいて不要部分削除部５８で削除処理が行なわれるので、削除処理自体も既存の技術を有効に利用して行なう事ができる。

また、不要部分削除部５８では、漸進的節分割処理及び漸進的係り受け処理によって得られた係り受け解析結果を用いて不要な文節又は節の削除が行なわれるので、発話に追従してリアルタイムに要約処理を行なう事ができる。さらに、要約処理が人手を使わずに自動的に行なわれるので、人手を介する事による処理の遅れを回避する事ができ、リアルタイム性を損なわない様な要約処理が可能になる。

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内でのすべての変更を含む。

本発明の一実施の形態に係るリアルタイム字幕生成装置３０の構成を示すブロック図である。リアルタイム要約装置４４の内部構成を示すブロック図である。節分割処理部５２、節内部の係り受け解析部５４、及び節末文節の係り先解析部５６での具体的な処理例を示す図である。削除規則格納部６０に格納された解析結果テキストの不要部分を文節単位で削除して要約を作成するための規則の詳細について示す図である。削除規則格納部６０に格納された発話テキストの不要部分を節単位で削除して要約を作成するための規則の詳細について示す図である。不要部分削除部５８の内部構成を示すブロック図である。条件確認部９０及び削除部９２の内部構成を示すブロック図である。本実施の形態のリアルタイム字幕生成装置３０をコンピュータで実現するためのコンピュータプログラムのフローチャートである。本発明の一実施の形態に係るリアルタイム要約装置を実現するコンピュータシステムの外観図である。図９に示すコンピュータのブロック図である。

符号の説明

４４リアルタイム要約装置
５２節分割処理部
５４節内部の係り受け解析部
５６節末文節の係り先解析部
５８不要部分削除部
６０削除規則格納部
９０条件確認部
９２削除部
１００時間合計部
１０２時間比較部
１１０第１のスイッチ
１１２バッファ
１１４第２のスイッチ
１１６削除対象決定部
１１８文節／節削除部

Claims

入力されるテキストを自動的に要約するためのテキスト自動要約装置であって、
入力されるテキストの各文を節に分割するための節分割手段と、
前記節分割手段により分割された各節内の文節間の係り受け構造と、節間の係り受け構造とを解析し、解析結果に従って要約対象の単位となる文節列と、当該文節列内の文節間の係り受け構造とを出力するための係り受け構造解析手段と、
前記係り受け構造解析手段により出力される係り受け構造と、係り受け構造内で削除すべき部分を定めるための予め定義された削除規則とに従って、前記係り受け構造解析手段から出力される各文節列に対し、当該文節列内で削除すべき文節を定めて削除するための削除手段とを含む、自動要約装置。
前記係り受け構造解析手段の出力する文節列内の各文節には時間期間の情報が付されており、
前記削除手段は、
前記前記係り受け構造解析手段の出力する各文節列に対し、当該文節列内の文節の時間期間の合計と当該文節列内の文字数とが所定の条件を充足しているか否かを判定するための判定手段と、
前記判定手段により前記所定の条件が充足されていないと判定された事に応答して、前記係り受け構造解析手段により出力される係り受け構造と、前記削除規則とに従って、前記文節列内で削除すべき文節を定めて削除するための手段と、
前記判定手段により前記所定の条件が充足されたと判定されるまで、前記削除するための手段による削除処理と、前記判定手段による判定処理とを繰返し実行する様に、前記削除するための手段と前記判定手段とを制御するための制御手段とを含む、請求項１に記載の自動要約装置。
前記節分割手段は、前記入力されるテキスト内の局部的な形態素列に基づいて、前記入力されるテキストを漸進的に節に分割して、分割された節を出力するための漸進的節分割手段を含み、
前記係り受け構造解析手段は、
前記節分割手段から出力される節を受けた事に応答して、当該節内の文節の係り受け構造を解析するための節内係り受け構造解析手段と、
前記節内係り受け構造解析手段により節内の文節の係り受け構造が解析された節を受けた事に応答して、前記節内係り受け構造解析手段によりそれ以前に出力された節との間の節間係り受け構造を解析し、節間の係り受け関係の係り先が決定すると、新たに係り先が決定した節と、最も後の係り先との間の節内の文節列を出力するための節間係り受け構造解析手段とを含み、
前記条件確認手段は、
前記節間係り受け構造解析手段から与えられた文節列に付された前記時間情報を合計して、合計時間を計算するための時間合計手段と、
前記時間合計手段により計算された合計時間と前記文節列に含まれる文字数とを比較して、前記節間係り受け構造解析手段から与えられた文節列に含まれる文字が時間あたり所定の文字数以内に収まっているか否かを判定するための時間比較手段とを含む、請求項２に記載の自動要約装置。
コンピュータにより実行されると、当該コンピュータを請求項１〜請求項３のいずれかに記載の自動要約装置として動作させる、コンピュータプログラム。