JP5605280B2 - 文書要約装置、方法、およびプログラム - Google Patents

文書要約装置、方法、およびプログラム Download PDF

Info

Publication number
JP5605280B2
JP5605280B2 JP2011056147A JP2011056147A JP5605280B2 JP 5605280 B2 JP5605280 B2 JP 5605280B2 JP 2011056147 A JP2011056147 A JP 2011056147A JP 2011056147 A JP2011056147 A JP 2011056147A JP 5605280 B2 JP5605280 B2 JP 5605280B2
Authority
JP
Japan
Prior art keywords
sentence
secret
document
important
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011056147A
Other languages
English (en)
Other versions
JP2012194619A (ja
Inventor
潔 山端
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2011056147A priority Critical patent/JP5605280B2/ja
Publication of JP2012194619A publication Critical patent/JP2012194619A/ja
Application granted granted Critical
Publication of JP5605280B2 publication Critical patent/JP5605280B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Storage Device Security (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、文書要約技術に関し、特に秘密情報が含まれる文書を要約するための文書要約技術に関する。
秘密文書の要約は、元文書自体とは異なる公開範囲を持たせたいことがある。例えば、文書の内容自体は、限られた人にのみ公開すべきものであっても、そのような文書が存在すること自体は広く公開したいことがある。要約を見て文書の存在を知りアクセスしてきた人に対して、本体を公開可能かどうかを個別に判断するためである。
従来、このような文書要約技術として、原文書中から重要文を抽出し、さらに修飾句の削除等により文長の圧縮をかけて要約とする技術が提案されている(例えば、特許文献1−2など参照)。
特開平11−053396号公報 特開2006−053862号公報
しかしながら、このような従来技術では、当然のこととして、抽出した重要文中に秘密情報が含まれることが避けられないため、作成した要約自身も原文書と同じ範囲にしか公開できないため、秘密文書から、公開可能な要約を作成することが難しいという問題があった。
また、この課題に対応するために、従来の文書要約装置で、要約を秘密情報を含まないように作成するには、要約処理の前に秘密情報のマスキング処理を行うか、または要約処理を行って得た要約を対象として秘密情報のマスキングを行うか、いずれかを行う必要がある。しかし、要約処理の前に秘密情報のマスキング処理を行うと、単語の含む情報のうち重要なものが欠落することになるため、文の重要度の判定に影響し、要約内容が劣化するおそれがある欠点があった。また、要約処理後に、要約に対して秘密情報のマスキング処理を行うと、要約の内容が変更されるため、例えば指定した要約率を満たさなくなるおそれがある欠点があった。
本発明はこのような課題を解決するためのものであり、要約内容の劣化や要約率の低下を回避しつつ、秘密文書から公開可能な要約を作成できる文書要約技術を提供することを目的としている。
このような目的を達成するために、本発明にかかる文書要約装置は、原文書を入力する文書入力部と、原文書から重要文を抽出する重要文抽出部と、重要文抽出部により抽出された重要文に秘密事項が含まれるかを判定する秘密事項判定部と、秘密事項判定部により秘密事項を含むと判定された重要文から当該秘密事項が含まれない隠蔽文を作成する隠蔽処理部と、秘密事項判定部により秘密事項が含まれないと判定された重要文、および隠蔽処理部で作成された隠蔽文について、それぞれの文長を削減する文圧縮部と、文圧縮部で得られた各文を原文書の要約文として出力する文書出力部とを備えている。
また、本発明にかかる文書要約方法は、入力された原文書を要約する文書要約装置で用いられる文書要約方法であって、文書入力部が、原文書を入力する文書入力ステップと、重要文抽出部が、原文書から重要文を抽出する重要文抽出ステップと、秘密事項判定部が、重要文抽出ステップにより抽出された重要文に秘密事項が含まれるかを判定する秘密事項判定ステップと、隠蔽処理部が、秘密事項判定ステップにより秘密事項を含むと判定された重要文から当該秘密事項が含まれない隠蔽文を作成する隠蔽処理ステップと、文書出力部が、秘密事項判定ステップにより秘密事項が含まれないと判定された重要文、および隠蔽処理ステップで作成された隠蔽文について、それぞれの文長を削減する文圧縮ステップと、文書出力部が、文圧縮ステップで得られた各文を原文書の要約文として出力する文書出力ステップとを備えている。
また、本発明にかかるプログラムは、入力された原文書を要約する文書要約装置のコンピュータで実行されるプログラムであって、文書入力部が、原文書を入力する文書入力ステップと、重要文抽出部が、原文書から重要文を抽出する重要文抽出ステップと、秘密事項判定部が、重要文抽出ステップにより抽出された重要文に秘密事項が含まれるかを判定する秘密事項判定ステップと、隠蔽処理部が、秘密事項判定ステップにより秘密事項を含むと判定された重要文から当該秘密事項が含まれない隠蔽文を作成する隠蔽処理ステップと、文書出力部が、秘密事項判定ステップにより秘密事項が含まれないと判定された重要文、および隠蔽処理ステップで作成された隠蔽文について、それぞれの文長を削減する文圧縮ステップと、文書出力部が、文圧縮ステップで得られた各文を原文書の要約文として出力する文書出力ステップとを備えている。
本発明によれば、原文書に含まれている重要文のうち、秘密事項が含まれている重要文についてのみ、その秘密事項を隠蔽することができる。これにより、要約内容の劣化や要約率の低下を回避しつつ、秘密文書から公開可能な要約を作成できる。
このため、文書の内容自体は秘匿するものの、そのような文書が存在することは広く公開したいようなケースにも対応可能であるという効果がある。
また、秘密事項の隠蔽処理を、文の重要度の判断に影響しないように行うことができる。そのため、秘密事項の隠蔽が要約の質に与える影響を少なくすることができる効果がある。さらに、秘密事項の隠蔽処理を、要約率に直接影響しないように行うことができる。これは、秘密事項の隠蔽後に、あらかじめ指定された要約率を目標とする文圧縮処理を行うためである。これにより、秘密事項の隠蔽を行っても、あらかじめ指定した要約率を達成することが容易となる効果がある。
第1の実施形態にかかる文書要約装置の構成を示すブロック図である。 文書要約処理を示すフローチャートである。 原文書の例である。 原文書から抽出した重要文を示す説明図である。 重要文(第1文)に対する隠蔽処理および圧縮処理の例である。 重要文(第3文)に対する隠蔽処理および圧縮処理の例である。 重要文(第5文)に対する隠蔽処理および圧縮処理の例である。 要約文の例である。 第2の実施形態にかかる文書要約装置の構成を示すブロック図である。
次に、本発明の実施形態について図面を参照して説明する。
[第1の実施形態]
まず、図1を参照して、本発明の第1の実施形態にかかる文書要約装置10について説明する。図1は、第1の実施形態にかかる文書要約装置の構成を示すブロック図である。
この文書要約装置10は、全体として、パーソナルコンピュータやサーバーなどの情報処理装置からなり、入力された文書を要約して出力する機能を有している。
本実施形態は、入力された原文書から重要文を抽出し、これら重要文に秘密事項が含まれるかを判定し、秘密事項を含むと判定された重要文から当該秘密事項が含まれない隠蔽文を作成し、秘密事項が含まれないと判定された重要文、および隠蔽処理部で作成された隠蔽文について、それぞれの文長を削減するようにしたものである。
[文書要約装置の構成]
次に、図1を参照して、本実施形態にかかる文書要約装置10の構成について詳細に説明する。
この文書要約装置10には、主な機能部として、文書入力部11、文書出力部12、記憶部13、および演算処理部14が設けられている。
文書入力部11は、外部装置とデータをやり取りする入出力インターフェース装置や、キーボードなどの操作入力装置からなり、要約文を作成する対象となる原文書を入力して、演算処理部14へ出力する機能を有している。
文書出力部12は、外部装置とデータをやり取りする入出力インターフェース装置や、LCDなどの画面表示装置からなり、原文書に含まれる各文のうち演算処理部14で処理された文を要約文として出力する機能を有している。
記憶部13は、ハードディスクや半導体メモリなどの記憶装置からなり、演算処理部14での各種処理に用いる処理情報やプログラム13Pを記憶する機能を有している。記憶部13で記憶する主な処理情報として辞書13Aがある。この辞書13Aは、原文書のうち隠蔽したい秘密事項を特定するためのキーワードが登録されている。具体的なキーワードの例としては、固有名詞、日時、金額などがあり、原文書の内容や隠蔽するレベルに応じて、任意に登録すればよい。例えば、企業の合併に関するニュースが原文書である場合に、合併の主体である企業の名称や、合併予定日等の日時をキーワードとして指定することにより、これらの情報を要約から隠蔽することができる。
演算処理部14は、CPUなどのマイクロプロセッサとその周辺回路を有し、記憶部13のプログラム13Pを読み込んで実行することにより、各種の処理部を実現する機能を有している。
演算処理部14で実現される主な処理部として、重要文抽出部14A、秘密事項判定部14B、隠蔽処理部14C、および文圧縮部14Dがある。
重要文抽出部14Aは、文書入力部11で入力された原文書から重要文を抽出する機能を有している。重要文判定処理としては、原文書に含まれる文ごとに、重要文か否かを判定できればよく、一般的な公知の技術を利用すればよい。
秘密事項判定部14Bは、重要文抽出部14Aにより抽出された重要文に秘密事項が含まれるかを判定する機能を有している。この際、秘密事項判定処理の方法としては、記憶部13の辞書13Aを参照して、判定対象となる重要文の中に、辞書13Aに登録されているキーワードが含まれているか否かを検索し、任意のキーワードが含まれていた場合、その重要文に秘密事項が含まれていると判定すればよい。
また、秘密事項判定処理では、固有名詞や日時表現全般を秘密事項と判定することもできる。固有名詞や日時は、事象を特定する力が強いため、秘密事項の中核的な事項をあらわす可能性が高いためである。固有名詞の抽出には、固有名詞辞書とのマッチングや、固有名詞を構成する接頭語や接尾語を用いた抽出など、一般的な手法を用いることができる。接頭語や接尾語を用いた抽出としては、例えば「株式会社XX」、「XX株式会社」、「XX市」や「XX空港」のように、単語の前または後に特定の単語が出現する場合、これを手がかりに固有名詞を同定する方法である。また、日時表現も特有の形態素並びをとるため、一般的な手法で容易に同定可能である。
隠蔽処理部14Cは、秘密事項判定部14Bにより秘密事項を含むと判定された重要文から当該秘密事項が含まれない隠蔽文を作成する機能を有している。隠蔽処理の方法としては、隠蔽対象となる重要文のうち、秘密事項、すなわち秘密事項判定部14Bで検索したキーワードについて、当該キーワードを記号で置換する、当該キーワードを削除する等のやり方があり、いずれを採用してもよい。
文圧縮部14Dは、秘密事項判定部14Bにより秘密事項が含まれないと判定された重要文、および隠蔽処理部14Cで作成された隠蔽文について、それぞれの文長を削減する機能を有している。圧縮処理の方法としては、圧縮対象となる文の文長を削減できればよく、一般的な公知の技術を利用すればよい。
[第1の実施形態の動作]
次に、図2を参照して、本実施形態にかかる文書要約装置10の動作について説明する。図2は、文書要約処理を示すフローチャートである。
演算処理部14は、文書入力部11から入力された原文書を要約する際、図2の文書要約処理を実行する。
まず、重要文抽出部14Aは、文書入力部11から原文書を取得し(ステップ100)、原文書に含まれるすべての文について、後述する文書要約処理が終了したか確認する(ステップ101)、ここで、すべての文について文書要約処理が終了した場合(ステップ101:YES)、一連の文書要約処理を終了する。
一方、すべての文について要約処理が終了していない場合(ステップ101:NO)、原文書のうちから未処理の文を1つ選択し(ステップ102)、前述した重要文判定処理を実行することにより、この選択文が重要文か否か判定する(ステップ103)。
ここで、選択文が重要文でなかった場合(ステップ104:NO)、ステップ101へ戻る。
また、選択文が重要文であった場合(ステップ104:YES)、秘密事項判定部14Bは、前述した秘密事項判定処理を実行することにより、この選択文に秘密事項が含まれているか否か判定する(ステップ105)。
ここで、選択文に秘密事項が含まれている場合(ステップ106:YES)、隠蔽処理部14Cは、前述した隠蔽処理を実行することにより、この選択文に含まれる秘密事項を隠蔽した隠蔽文を作成し(ステップ107)、ステップ108へ移行する。
また、ステップ106において、選択文に秘密事項が含まれていない場合(ステップ106:NO)、隠蔽処理を行わずにステップ108へ移行する。
この後、文圧縮部14Dは、秘密事項判定部14Bにより秘密事項が含まれないと判定された重要文、および隠蔽処理部14Cで作成された隠蔽文について、それぞれの文長を削減することにより圧縮する(ステップ108)。
文書出力部12は、文圧縮部14Dで圧縮された各文を原文書の要約文として出力し(ステップ109)、ステップ101へ戻る。
[文書要約処理例]
次に、図3−図8を参照して、本実施形態にかかる文書要約装置10における文書要約処理例について説明する。図3は、原文書の例である。図4は、原文書から抽出した重要文を示す説明図である。図5は、重要文(第1文)に対する隠蔽処理および圧縮処理の例である。図6は、重要文(第3文)に対する隠蔽処理および圧縮処理の例である。図7は、重要文(第5文)に対する隠蔽処理および圧縮処理の例である。図8は、要約文の例である。
ここでは、会社間の契約交渉に関する状況報告文書を要約する場合を例として説明する。
図3に示すように、原文書は、会社間の契約交渉に関する状況報告文書であり、282字で構成されている。なお、この文章は、日本電気株式会社が作成し保有する文章であるものとする。
「2012年10月に、日本電気株式会社は世界電気株式会社と包括的クロスライセンス契約を結ぶ予定で交渉を進めている。両社は、従来、特許権の実施許諾については個別事例ごとに交渉してきたが、事例の数が急増しているため、契約交渉に踏み切ったものである。契約条件として、日本電気株式会社は、世界電気株式会社に一時金20億円の支払いを求めている。一方、世界電気株式会社は一時金の減額を求めており、一時金の金額が交渉の最大の争点となっている。しかし、世界電気株式会社は、決算月の12月までには交渉成立を対外的に公表したい意向であり、一時金20億円の支払いに同意する可能性が高い。」
この原文書を各文に区別して、一文ごとに再掲する。
第1文(21):「2012年10月に、日本電気株式会社は世界電気株式会社と包括的クロスライセンス契約を結ぶ予定で交渉を進めている。」
第2文(22):「両社は、従来、特許権の実施許諾については個別事例ごとに交渉してきたが、事例の数が急増しているため、契約交渉に踏み切ったものである。」
第3文(23):「契約条件として、日本電気株式会社は、世界電気株式会社に一時金20億円の支払いを求めている。」
第4文(24):「一方、世界電気株式会社は一時金の減額を求めており、一時金の金額が交渉の最大の争点となっている。」
第5文(25):「しかし、世界電気株式会社は、決算月の12月までには交渉成立を対外的に公表したい意向であり、一時金20億円の支払いに同意する可能性が高い。」
上記の文が文書入力部11に入力されると、まず、句点から句点までの文を単位に、重要文抽出部14Aにより、文の重要度を判定する。これにより、図4に示すように、太線枠に囲んだ第1文(21)、第3文(23)、および第5文(25)が重要文として判定される。
まず、第1文は、会社名の固有名詞を含むこと、第1文として全体の概要を示す文である可能性が高いこと、等を判断材料として重要文として抽出される。
第2文は、特に重要なキーワード等は含まないため、重要文としては抽出されない。
第3文は、会社名や具体的な金額等のキーワードが含まれるため、重要文として抽出される。
第4文は、主語以外に固有名詞等の重要語がないため、重要文としては抽出されない。
第5文は、具体的な金額が入っていること、文脈構造的に結論を示す位置にあることなどを考慮して、重要文として抽出される。
第1文(21)は、重要文として抽出された後、図5に示すように、秘密事項判定部14Bにより、秘密事項を含むかどうかが判定される。第1文で秘密事項と判定されるのは、「2012年12月」という具体的な時期を表す時間表現、「世界電気株式会社」という会社名をあらわす固有名詞、さらには交渉の具体的な種別を表す「包括的クロスライセンス交渉」という名詞である。なお、「日本電気株式会社」は、この文書を作成し保有している主体であり、主語位置に現れるのは当然のことなので、特に秘密事項にはあたらないと判定される。これらの情報をもって、第1文は、隠蔽処理部14Cに送られる。
隠蔽処理部14Cは、秘密事項の隠蔽処理を行う。具体的には、「2012年12月」という時間表現を第1文から削除する。また、「世界電気株式会社」という会社名は、「A社」という表現に置き換えて、具体的な社名をマスクする。これにより、第1文は、次のような隠蔽文21Xとなる。
第1隠蔽文(21X):「日本電気株式会社はA社と包括的クロスライセンス契約を結ぶ予定で交渉を進めている。」
この文が、文圧縮部14Dに送られ、文長の圧縮が行われる。
文圧縮部14Dは、単語の置き換え、不要な修飾構造の削除等により、大意を変えない範囲で文字数を削減する。例えば、「交渉を進めている」という表現は、意味的主部が「交渉」、「を進めている」は意味的主部に現在進行のアスペクト要素を付加する表現であるという分解に基づき、「交渉中」という表現に置換する。以上により、第1文は、文圧縮部14Dにより以下の圧縮文21Yとなる。
第1圧縮文(21Y):「日本電気株式会社はA社と包括的クロスライセンス契約を結ぶ予定で交渉中。」
次に、重要文として抽出された第3文は、図6に示すように、秘密事項判定部14Bにより、秘密事項として、「世界電気株式会社」「一時金20億円」が抽出される。隠蔽処理部14Cが「世界電気株式会社」を「A社」に置換するのは第1文と同様である。また、「一時金20億円」は、具体的な金額を隠蔽して、「一時金」という表現に置換する。結果として、隠蔽処理部14Cによる処理後の第2文は、以下の隠蔽文23Xとなる。
第3隠蔽文(23X):「契約条件として、日本電気株式会社は、A社に一時金の支払いを求めている。」
この文が、文圧縮部14Dに送られ、文長の圧縮が行われる。文圧縮部14Dは、「日本電気株式会社」が既出であることを用いて「同社」への置換等を行い、次の圧縮文23Yを出力する。
第3圧縮文(23Y):「契約条件として同社はA社に一時金の支払いを求めている。」
次に、重要文として抽出された第5文は、図7に示すように、秘密事項判定部14Bにより、会社名「世界電気株式会社」、時間表現「12月」、金額の表現「20億円」が秘密事項として抽出される。これらが上述の説明のように隠蔽処理が行われた結果、隠蔽処理部14Cの出力は以下の隠蔽文25Xのようになる。
第5隠蔽文(25X):「しかし、A社は、決算月までには交渉成立を対外的に公表したい意向であり、一時金の支払いに同意する可能性が高い。」
これを文圧縮部14Dに送られる。文圧縮部14Dでは、文頭の接続詞「しかし」を削除可能と判断し削除する。また、「決算月・・・意向であり」の部分は、連要中止による付帯状況の説明と分析されるため、やはり削除可能と判断し削除する。結果として、文圧縮部14Dによる第5文の出力は、次の圧縮文25Yのようになる。
第5圧縮文(25Y):「A社は一時金の支払いに同意する可能性が高い。」
このようにして得られた、第1文、第3文、第5文の圧縮文が連結されて、図8に示すような、要約文20Yが、文書出力部12から出力されることになる。この要約文28は78文字であり、原文書20からの要約率は28%となる。
要約文(20):「弊社はA社と包括的クロスライセンス契約を結ぶ予定で交渉中。契約条件として弊社はA社に一時金の支払いを求めている。A社は一時金の支払いに同意する可能性が高い。」
[第1の実施形態の効果]
このように、本実施形態は、重要文抽出部14Aで、入力された原文書から重要文を抽出し、秘密事項判定部14Bで、これら重要文に秘密事項が含まれるかを判定し、隠蔽処理部14Cで、秘密事項を含むと判定された重要文から当該秘密事項が含まれない隠蔽文を作成し、文圧縮部14Dで、秘密事項が含まれないと判定された重要文、および隠蔽処理部で作成された隠蔽文について、それぞれの文長を削減するようにしたものである。
これにより、原文書に含まれている重要文のうち、秘密事項が含まれている重要文についてのみ、その秘密事項を隠蔽することができる。これにより、要約内容の劣化や要約率の低下を回避しつつ、秘密文書から公開可能な要約を作成できる。
このため、文書の内容自体は秘匿するものの、そのような文書が存在することは広く公開したいようなケースにも対応可能であるという効果がある。
また、秘密事項の隠蔽処理を、文の重要度の判断に影響しないように行うことができる。そのため、秘密事項の隠蔽が要約の質に与える影響を少なくすることができる効果がある。さらに、秘密事項の隠蔽処理を、要約率に直接影響しないように行うことができる。これは、秘密事項の隠蔽後に、あらかじめ指定された要約率を目標とする文圧縮処理を行うためである。これにより、秘密事項の隠蔽を行っても、あらかじめ指定した要約率を達成することが容易となる効果がある。
より詳細に、従来技術と本発明との比較について述べる。
秘密事項を含まない要約を作成する方法として、従来技術を単純に組み合わせて、原文から秘密事項をマスキングして隠蔽した後に要約処理を行うやり方がある。しかし、このやり方では、秘密事項のマスキングにより、重要文かどうかの判定が狂うおそれがある。重要な情報内容を持つ単語は、同時に隠蔽したい秘密事項であることが多いためである。単純に秘密事項を削除したり、一律の表現に変換したりすると、それらの重要事項を含む文の重要度自体が低いと判定されてしまい、原文の要約としてピントのずれたものとなる可能性があるのである。
これに対し、本発明では、秘密事項の隠蔽処理は、重要文の抽出の後に行われるので、隠蔽処理が文の重要度の判定に影響しないという利点がある。
また、秘密事項を含まない要約を作成する別の方法として、従来技術を組み合わせて、原文の要約処理を行った後に、要約文に対して秘密事項のマスキング処理を行う、というやりかたも考えられる。しかし、この方法では、要約処理の後に、文長を変えるマスキング処理が入るため、要約直後から文長が変わってしまう。原文の文長に対する要約文の文長の比は要約率と呼ばれ、要約を行う前にパラメタとして与え、与えた要約率が得られるように、抽出する重要文の数や文の圧縮の程度を制御することが多い。要約文に対してマスキングを処理を行う逐次的なやり方では、この要約率が変化してしまうため、結果として得られる要約率は、当初の指定を満たさないものとなってしまう可能性が高いという欠点がある。
これに対し、本発明では、秘密事項を削除する処理は、文圧縮の前に行われるため、文圧縮部14Dの処理の中で指定の要約率を満たすように処理を進めることが可能である。結果的に出力される要約文が指定された要約率に近くなるようにすることができる利点がある。
[第2の実施形態]
次に、図9を参照して、本発明の第2の実施形態にかかる文書要約装置10について説明する。図9は、第2の実施形態にかかる文書要約装置の構成を示すブロック図である。
本実施形態では、秘密事項判定部14Bで、重要文が秘密事項を含むかどうかの判定する際、秘密要約文データベース(以下、秘密要約文DBという)15を参照して判定する場合について説明する。
秘密要約文DB15には、秘密事項を含む秘密要約文が予め格納されている。
これにより、秘密事項判定部14Bは、判定対象となる重要文と秘密要約文DB15の秘密要約文のいずれかとの類似性に基づいて、当該重要文に秘密事項を含むか否かを判定する。
抽出された重要文が、当該要約に含まれる情報を含むかどうかを判定する処理は、文の類似性により判定することが可能である。例えば秘密事項を含む要約の中の文に十分類似していれば秘密事項を含むと判定し、類似の度合いが低ければ秘密事項を含まないと判定する。判定のスレッショルドは可変として、ユーザが適宜調整すればよい。また、文の類似性は、類似する単語を含むかどうか、文構造が類似しているか、等の手がかりにより判定すればよい。
また、隠蔽すべき秘密事項を含む文の部分の同定は、当該箇所が固有名詞や時間表現等の秘密事項に頻出する表現を含むかどうかで判定することができる。
また、当該箇所を固有名詞や時間表現等を抽出した後、それらの表現が秘密事項を含む要約中に現れるかどうかでさらにスクリーニングすることもできる。つまり、固有名詞や時間表現等であっても、秘密事項を含む要約中に同等の、あるいは類似する表現があらわれなければ、当該表現は秘密性がないと判断する。一方、秘密事項を含む要約中に同等の、あるいは類似の表現があらわれる場合は、当該表現は秘密性が高いと判断するのである。
[第2の実施形態の効果]
このように、本実施形態は、秘密事項を含む秘密要約文を格納する秘密要約文DB15をさらに設け、秘密事項判定部14Bで、判定対象となる重要文と秘密要約文データベースの秘密要約文のいずれかとの類似性に基づいて、当該重要文に秘密事項を含むか否かを判定するようにしたので、ユーザが、秘密事項を含む、すなわち非公開用の要約を作成しておくだけで、公開用の要約を自動作成することができる。
なお、重要文抽出部14Aが、重要文を抽出するのではなく、入力の各文に重要度を付与し、文圧縮部14Dが、付与された重要度を参照しながら、別途与えられた要約率を達成するように文の取捨選択と文長の圧縮処理を行うように実施することも可能である。重要でないと判定された文も含めて文圧縮部に送り、文圧縮部で文の取捨選択を含めて要約処理を行うことにより、指定された要約率をより確実に達成することが可能となる。
[実施形態の拡張]
以上、実施形態を参照して本発明を説明したが、本発明は上記実施形態に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解しうる様々な変更をすることができる。
[付記]
以下、本発明の特徴を付記する。
(付記1)
原文書を入力する文書入力部と、
前記原文書から重要文を抽出する重要文抽出部と、
前記重要文抽出部により抽出された前記重要文に秘密事項が含まれるかを判定する秘密事項判定部と、
前記秘密事項判定部により秘密事項を含むと判定された前記重要文から当該秘密事項が含まれない隠蔽文を作成する隠蔽処理部と、
前記秘密事項判定部により秘密事項が含まれないと判定された前記重要文、および前記隠蔽処理部で作成された前記隠蔽文について、それぞれの文長を削減する文圧縮部と、
前記文圧縮部で得られた各文を前記原文書の要約文として出力する文書出力部と
を備えることを特徴とする文書要約装置。
(付記2)
付記1に記載の文書要約装置において、
秘密事項を含む秘密要約文を格納する秘密要約文データベースをさらに備え、
前記秘密事項判定部は、判定対象となる前記重要文と前記秘密要約文データベースの前記秘密要約文のいずれかとの類似性に基づいて、当該重要文に秘密事項を含むか否かを判定する
ことを特徴とする文書要約装置。
(付記3)
入力された原文書を要約する文書要約装置で用いられる文書要約方法であって、
文書入力部が、原文書を入力する文書入力ステップと、
重要文抽出部が、前記原文書から重要文を抽出する重要文抽出ステップと、
秘密事項判定部が、前記重要文抽出ステップにより抽出された前記重要文に秘密事項が含まれるかを判定する秘密事項判定ステップと、
隠蔽処理部が、前記秘密事項判定ステップにより秘密事項を含むと判定された前記重要文から当該秘密事項が含まれない隠蔽文を作成する隠蔽処理ステップと、
文書出力部が、前記秘密事項判定ステップにより秘密事項が含まれないと判定された前記重要文、および前記隠蔽処理ステップで作成された前記隠蔽文について、それぞれの文長を削減する文圧縮ステップと、
文書出力部が、前記文圧縮ステップで得られた各文を前記原文書の要約文として出力する文書出力ステップと
を備えることを特徴とする文書要約方法。
(付記4)
付記3に記載の文書要約方法において、
前記秘密事項判定ステップは、判定対象となる前記重要文と、前記秘密要約文データベースに格納されている、秘密事項を含む秘密要約文のいずれかとの類似性に基づいて、当該重要文に秘密事項を含むか否かを判定するステップを含むことを特徴とする文書要約方法。
(付記5)
入力された原文書を要約する文書要約装置のコンピュータで実行されるプログラムであって、
文書入力部が、原文書を入力する文書入力ステップと、
重要文抽出部が、前記原文書から重要文を抽出する重要文抽出ステップと、
秘密事項判定部が、前記重要文抽出ステップにより抽出された前記重要文に秘密事項が含まれるかを判定する秘密事項判定ステップと、
隠蔽処理部が、前記秘密事項判定ステップにより秘密事項を含むと判定された前記重要文から当該秘密事項が含まれない隠蔽文を作成する隠蔽処理ステップと、
文書出力部が、前記秘密事項判定ステップにより秘密事項が含まれないと判定された前記重要文、および前記隠蔽処理ステップで作成された前記隠蔽文について、それぞれの文長を削減する文圧縮ステップと、
文書出力部が、前記文圧縮ステップで得られた各文を前記原文書の要約文として出力する文書出力ステップと
を備えることを特徴とするプログラム。
(付記6)
付記5に記載のプログラムにおいて、
前記秘密事項判定ステップは、判定対象となる前記重要文と、前記秘密要約文データベースに格納されている、秘密事項を含む秘密要約文のいずれかとの類似性に基づいて、当該重要文に秘密事項を含むか否かを判定するステップを含むことを特徴とするプログラム。
文書要約装置全般への適用が考えられる。なお、本発明は要約処理全般に適用可能な技術であり、文書以外にも、音声や図表の要約にも適用可能である。
10…文書要約装置、11…文書入力部、12…文書出力部、13…記憶部、13A…辞書、13P…プログラム、14…演算処理部、14A…重要文抽出部、14B…秘密事項判定部、14C…隠蔽処理部、14D…文圧縮部、15…秘密要約文DB。

Claims (6)

  1. 原文書を入力する文書入力部と、
    前記原文書から重要文を抽出する重要文抽出部と、
    前記重要文抽出部により抽出された前記重要文に秘密事項が含まれるかを判定する秘密事項判定部と、
    前記秘密事項判定部により秘密事項を含むと判定された前記重要文から当該秘密事項が含まれない隠蔽文を作成する隠蔽処理部と、
    前記秘密事項判定部により秘密事項が含まれないと判定された前記重要文、および前記隠蔽処理部で作成された前記隠蔽文について、それぞれの文長を削減する文圧縮部と、
    前記文圧縮部で得られた各文を前記原文書の要約文として出力する文書出力部と
    を備えることを特徴とする文書要約装置。
  2. 請求項1に記載の文書要約装置において、
    秘密事項を含む秘密要約文を格納する秘密要約文データベースをさらに備え、
    前記秘密事項判定部は、判定対象となる前記重要文と前記秘密要約文データベースの前記秘密要約文のいずれかとの類似性に基づいて、当該重要文に秘密事項を含むか否かを判定する
    ことを特徴とする文書要約装置。
  3. 入力された原文書を要約する文書要約装置で用いられる文書要約方法であって、
    文書入力部が、原文書を入力する文書入力ステップと、
    重要文抽出部が、前記原文書から重要文を抽出する重要文抽出ステップと、
    秘密事項判定部が、前記重要文抽出ステップにより抽出された前記重要文に秘密事項が含まれるかを判定する秘密事項判定ステップと、
    隠蔽処理部が、前記秘密事項判定ステップにより秘密事項を含むと判定された前記重要文から当該秘密事項が含まれない隠蔽文を作成する隠蔽処理ステップと、
    文書出力部が、前記秘密事項判定ステップにより秘密事項が含まれないと判定された前記重要文、および前記隠蔽処理ステップで作成された前記隠蔽文について、それぞれの文長を削減する文圧縮ステップと、
    文書出力部が、前記文圧縮ステップで得られた各文を前記原文書の要約文として出力する文書出力ステップと
    を備えることを特徴とする文書要約方法。
  4. 請求項3に記載の文書要約方法において、
    前記秘密事項判定ステップは、判定対象となる前記重要文と、前記秘密要約文データベースに格納されている、秘密事項を含む秘密要約文のいずれかとの類似性に基づいて、当該重要文に秘密事項を含むか否かを判定するステップを含むことを特徴とする文書要約方法。
  5. 入力された原文書を要約する文書要約装置のコンピュータで実行されるプログラムであって、
    文書入力部が、原文書を入力する文書入力ステップと、
    重要文抽出部が、前記原文書から重要文を抽出する重要文抽出ステップと、
    秘密事項判定部が、前記重要文抽出ステップにより抽出された前記重要文に秘密事項が含まれるかを判定する秘密事項判定ステップと、
    隠蔽処理部が、前記秘密事項判定ステップにより秘密事項を含むと判定された前記重要文から当該秘密事項が含まれない隠蔽文を作成する隠蔽処理ステップと、
    文書出力部が、前記秘密事項判定ステップにより秘密事項が含まれないと判定された前記重要文、および前記隠蔽処理ステップで作成された前記隠蔽文について、それぞれの文長を削減する文圧縮ステップと、
    文書出力部が、前記文圧縮ステップで得られた各文を前記原文書の要約文として出力する文書出力ステップと
    を備えることを特徴とするプログラム。
  6. 請求項5に記載のプログラムにおいて、
    前記秘密事項判定ステップは、判定対象となる前記重要文と、前記秘密要約文データベースに格納されている、秘密事項を含む秘密要約文のいずれかとの類似性に基づいて、当該重要文に秘密事項を含むか否かを判定するステップを含むことを特徴とするプログラム。
JP2011056147A 2011-03-15 2011-03-15 文書要約装置、方法、およびプログラム Active JP5605280B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011056147A JP5605280B2 (ja) 2011-03-15 2011-03-15 文書要約装置、方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011056147A JP5605280B2 (ja) 2011-03-15 2011-03-15 文書要約装置、方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2012194619A JP2012194619A (ja) 2012-10-11
JP5605280B2 true JP5605280B2 (ja) 2014-10-15

Family

ID=47086494

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011056147A Active JP5605280B2 (ja) 2011-03-15 2011-03-15 文書要約装置、方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP5605280B2 (ja)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1115830A (ja) * 1997-06-20 1999-01-22 Fuji Xerox Co Ltd 文短縮装置及び文短縮プログラムを記録した媒体
JP2003108483A (ja) * 2001-09-27 2003-04-11 Seiko Epson Corp メール生成支援装置、メール生成支援装置の制御方法、メール配信システム、制御プログラムおよび記録媒体
JP2004310461A (ja) * 2003-04-07 2004-11-04 Canon Inc 要約作成装置

Also Published As

Publication number Publication date
JP2012194619A (ja) 2012-10-11

Similar Documents

Publication Publication Date Title
CA3098644C (en) Systems and methods for document deviation detection
TWI706271B (zh) 基於區塊鏈的作品存證方法、系統、裝置及設備
US20100131534A1 (en) Information providing system
Prasad et al. Annotation and data mining of the Penn Discourse TreeBank
US20220114349A1 (en) Systems and methods of natural language generation for electronic catalog descriptions
JP2020098594A (ja) 情報処理方法、自然言語処理方法及び情報処理装置
Larsonneur Neural machine translation: From commodity to commons?
Huang et al. Sinica treebank
JP5028823B2 (ja) 同義語対抽出装置及び同義語対抽出方法
JP5605280B2 (ja) 文書要約装置、方法、およびプログラム
Stanković et al. Annotation of the serbian eltec collection
Hansen Putting privacy pictograms into practice–A european perspective
Rakholia et al. The design and implementation of diacritic extraction technique for Gujarati written script using Unicode Transformation Format
De Clercq et al. Towards shared datasets for normalization research
Pujara Extracting knowledge graphs from financial filings
Sztencel Boundaries crossed: The influence of English on modern Polish
JP2007249770A (ja) 個人情報隠蔽サービスシステム
Ahangar et al. The historical study of some morphological elements of Sistani dialect
Bhagwat et al. Handling of Simultaneous Morphology of Sign Languages: Concerns for Cross-modal Machine Translation of Marathi to Indian Sign Language
Manning et al. Zesting Up Stylometry with MapLemon: A Corpus for Stylometric Demographic Identification
Laryea The globalisation versus regionalism debate: Prospects for globalising international trade, investment and commercial laws through regionalism
Teng et al. A behavioural mode research on user-focus summarization
Zhang Machine translation of Chinese fantasy (Xianxia) novels: An investigation into the leading websites translating Chinese internet literature into English
Torza The Facts in Logical Space
Nikonova Hyperlink as a Multimodal Marker of Evidentiality in Electronic Mass Media

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140207

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140717

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140729

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140811

R150 Certificate of patent or registration of utility model

Ref document number: 5605280

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150