JP2012194619A - 文書要約装置、方法、およびプログラム - Google Patents
文書要約装置、方法、およびプログラム Download PDFInfo
- Publication number
- JP2012194619A JP2012194619A JP2011056147A JP2011056147A JP2012194619A JP 2012194619 A JP2012194619 A JP 2012194619A JP 2011056147 A JP2011056147 A JP 2011056147A JP 2011056147 A JP2011056147 A JP 2011056147A JP 2012194619 A JP2012194619 A JP 2012194619A
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- secret
- document
- important
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Storage Device Security (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
【解決手段】重要文抽出部14Aで、入力された原文書から重要文を抽出し、秘密事項判定部14Bで、これら重要文に秘密事項が含まれるかを判定し、隠蔽処理部14Cで、秘密事項を含むと判定された重要文から当該秘密事項が含まれない隠蔽文を作成し、文圧縮部14Dで、秘密事項が含まれないと判定された重要文、および隠蔽処理部で作成された隠蔽文について、それぞれの文長を削減する。
【選択図】 図1
Description
このため、文書の内容自体は秘匿するものの、そのような文書が存在することは広く公開したいようなケースにも対応可能であるという効果がある。
[第1の実施形態]
まず、図1を参照して、本発明の第1の実施形態にかかる文書要約装置10について説明する。図1は、第1の実施形態にかかる文書要約装置の構成を示すブロック図である。
この文書要約装置10は、全体として、パーソナルコンピュータやサーバーなどの情報処理装置からなり、入力された文書を要約して出力する機能を有している。
次に、図1を参照して、本実施形態にかかる文書要約装置10の構成について詳細に説明する。
この文書要約装置10には、主な機能部として、文書入力部11、文書出力部12、記憶部13、および演算処理部14が設けられている。
文書出力部12は、外部装置とデータをやり取りする入出力インターフェース装置や、LCDなどの画面表示装置からなり、原文書に含まれる各文のうち演算処理部14で処理された文を要約文として出力する機能を有している。
演算処理部14で実現される主な処理部として、重要文抽出部14A、秘密事項判定部14B、隠蔽処理部14C、および文圧縮部14Dがある。
次に、図2を参照して、本実施形態にかかる文書要約装置10の動作について説明する。図2は、文書要約処理を示すフローチャートである。
演算処理部14は、文書入力部11から入力された原文書を要約する際、図2の文書要約処理を実行する。
ここで、選択文が重要文でなかった場合(ステップ104:NO)、ステップ101へ戻る。
また、選択文が重要文であった場合(ステップ104:YES)、秘密事項判定部14Bは、前述した秘密事項判定処理を実行することにより、この選択文に秘密事項が含まれているか否か判定する(ステップ105)。
また、ステップ106において、選択文に秘密事項が含まれていない場合(ステップ106:NO)、隠蔽処理を行わずにステップ108へ移行する。
文書出力部12は、文圧縮部14Dで圧縮された各文を原文書の要約文として出力し(ステップ109)、ステップ101へ戻る。
次に、図3−図8を参照して、本実施形態にかかる文書要約装置10における文書要約処理例について説明する。図3は、原文書の例である。図4は、原文書から抽出した重要文を示す説明図である。図5は、重要文(第1文)に対する隠蔽処理および圧縮処理の例である。図6は、重要文(第3文)に対する隠蔽処理および圧縮処理の例である。図7は、重要文(第5文)に対する隠蔽処理および圧縮処理の例である。図8は、要約文の例である。
ここでは、会社間の契約交渉に関する状況報告文書を要約する場合を例として説明する。
第1文(21):「2012年10月に、日本電気株式会社は世界電気株式会社と包括的クロスライセンス契約を結ぶ予定で交渉を進めている。」
第2文(22):「両社は、従来、特許権の実施許諾については個別事例ごとに交渉してきたが、事例の数が急増しているため、契約交渉に踏み切ったものである。」
第3文(23):「契約条件として、日本電気株式会社は、世界電気株式会社に一時金20億円の支払いを求めている。」
第4文(24):「一方、世界電気株式会社は一時金の減額を求めており、一時金の金額が交渉の最大の争点となっている。」
第5文(25):「しかし、世界電気株式会社は、決算月の12月までには交渉成立を対外的に公表したい意向であり、一時金20億円の支払いに同意する可能性が高い。」
第2文は、特に重要なキーワード等は含まないため、重要文としては抽出されない。
第3文は、会社名や具体的な金額等のキーワードが含まれるため、重要文として抽出される。
第4文は、主語以外に固有名詞等の重要語がないため、重要文としては抽出されない。
第5文は、具体的な金額が入っていること、文脈構造的に結論を示す位置にあることなどを考慮して、重要文として抽出される。
第1隠蔽文(21X):「日本電気株式会社はA社と包括的クロスライセンス契約を結ぶ予定で交渉を進めている。」
文圧縮部14Dは、単語の置き換え、不要な修飾構造の削除等により、大意を変えない範囲で文字数を削減する。例えば、「交渉を進めている」という表現は、意味的主部が「交渉」、「を進めている」は意味的主部に現在進行のアスペクト要素を付加する表現であるという分解に基づき、「交渉中」という表現に置換する。以上により、第1文は、文圧縮部14Dにより以下の圧縮文21Yとなる。
第1圧縮文(21Y):「日本電気株式会社はA社と包括的クロスライセンス契約を結ぶ予定で交渉中。」
第3隠蔽文(23X):「契約条件として、日本電気株式会社は、A社に一時金の支払いを求めている。」
第3圧縮文(23Y):「契約条件として同社はA社に一時金の支払いを求めている。」
第5隠蔽文(25X):「しかし、A社は、決算月までには交渉成立を対外的に公表したい意向であり、一時金の支払いに同意する可能性が高い。」
第5圧縮文(25Y):「A社は一時金の支払いに同意する可能性が高い。」
要約文(20):「弊社はA社と包括的クロスライセンス契約を結ぶ予定で交渉中。契約条件として弊社はA社に一時金の支払いを求めている。A社は一時金の支払いに同意する可能性が高い。」
このように、本実施形態は、重要文抽出部14Aで、入力された原文書から重要文を抽出し、秘密事項判定部14Bで、これら重要文に秘密事項が含まれるかを判定し、隠蔽処理部14Cで、秘密事項を含むと判定された重要文から当該秘密事項が含まれない隠蔽文を作成し、文圧縮部14Dで、秘密事項が含まれないと判定された重要文、および隠蔽処理部で作成された隠蔽文について、それぞれの文長を削減するようにしたものである。
このため、文書の内容自体は秘匿するものの、そのような文書が存在することは広く公開したいようなケースにも対応可能であるという効果がある。
秘密事項を含まない要約を作成する方法として、従来技術を単純に組み合わせて、原文から秘密事項をマスキングして隠蔽した後に要約処理を行うやり方がある。しかし、このやり方では、秘密事項のマスキングにより、重要文かどうかの判定が狂うおそれがある。重要な情報内容を持つ単語は、同時に隠蔽したい秘密事項であることが多いためである。単純に秘密事項を削除したり、一律の表現に変換したりすると、それらの重要事項を含む文の重要度自体が低いと判定されてしまい、原文の要約としてピントのずれたものとなる可能性があるのである。
これに対し、本発明では、秘密事項の隠蔽処理は、重要文の抽出の後に行われるので、隠蔽処理が文の重要度の判定に影響しないという利点がある。
これに対し、本発明では、秘密事項を削除する処理は、文圧縮の前に行われるため、文圧縮部14Dの処理の中で指定の要約率を満たすように処理を進めることが可能である。結果的に出力される要約文が指定された要約率に近くなるようにすることができる利点がある。
次に、図9を参照して、本発明の第2の実施形態にかかる文書要約装置10について説明する。図9は、第2の実施形態にかかる文書要約装置の構成を示すブロック図である。
本実施形態では、秘密事項判定部14Bで、重要文が秘密事項を含むかどうかの判定する際、秘密要約文データベース(以下、秘密要約文DBという)15を参照して判定する場合について説明する。
これにより、秘密事項判定部14Bは、判定対象となる重要文と秘密要約文DB15の秘密要約文のいずれかとの類似性に基づいて、当該重要文に秘密事項を含むか否かを判定する。
また、当該箇所を固有名詞や時間表現等を抽出した後、それらの表現が秘密事項を含む要約中に現れるかどうかでさらにスクリーニングすることもできる。つまり、固有名詞や時間表現等であっても、秘密事項を含む要約中に同等の、あるいは類似する表現があらわれなければ、当該表現は秘密性がないと判断する。一方、秘密事項を含む要約中に同等の、あるいは類似の表現があらわれる場合は、当該表現は秘密性が高いと判断するのである。
このように、本実施形態は、秘密事項を含む秘密要約文を格納する秘密要約文DB15をさらに設け、秘密事項判定部14Bで、判定対象となる重要文と秘密要約文データベースの秘密要約文のいずれかとの類似性に基づいて、当該重要文に秘密事項を含むか否かを判定するようにしたので、ユーザが、秘密事項を含む、すなわち非公開用の要約を作成しておくだけで、公開用の要約を自動作成することができる。
以上、実施形態を参照して本発明を説明したが、本発明は上記実施形態に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解しうる様々な変更をすることができる。
以下、本発明の特徴を付記する。
原文書を入力する文書入力部と、
前記原文書から重要文を抽出する重要文抽出部と、
前記重要文抽出部により抽出された前記重要文に秘密事項が含まれるかを判定する秘密事項判定部と、
前記秘密事項判定部により秘密事項を含むと判定された前記重要文から当該秘密事項が含まれない隠蔽文を作成する隠蔽処理部と、
前記秘密事項判定部により秘密事項が含まれないと判定された前記重要文、および前記隠蔽処理部で作成された前記隠蔽文について、それぞれの文長を削減する文圧縮部と、
前記文圧縮部で得られた各文を前記原文書の要約文として出力する文書出力部と
を備えることを特徴とする文書要約装置。
付記1に記載の文書要約装置において、
秘密事項を含む秘密要約文を格納する秘密要約文データベースをさらに備え、
前記秘密事項判定部は、判定対象となる前記重要文と前記秘密要約文データベースの前記秘密要約文のいずれかとの類似性に基づいて、当該重要文に秘密事項を含むか否かを判定する
ことを特徴とする文書要約装置。
入力された原文書を要約する文書要約装置で用いられる文書要約方法であって、
文書入力部が、原文書を入力する文書入力ステップと、
重要文抽出部が、前記原文書から重要文を抽出する重要文抽出ステップと、
秘密事項判定部が、前記重要文抽出ステップにより抽出された前記重要文に秘密事項が含まれるかを判定する秘密事項判定ステップと、
隠蔽処理部が、前記秘密事項判定ステップにより秘密事項を含むと判定された前記重要文から当該秘密事項が含まれない隠蔽文を作成する隠蔽処理ステップと、
文書出力部が、前記秘密事項判定ステップにより秘密事項が含まれないと判定された前記重要文、および前記隠蔽処理ステップで作成された前記隠蔽文について、それぞれの文長を削減する文圧縮ステップと、
文書出力部が、前記文圧縮ステップで得られた各文を前記原文書の要約文として出力する文書出力ステップと
を備えることを特徴とする文書要約方法。
付記3に記載の文書要約方法において、
前記秘密事項判定ステップは、判定対象となる前記重要文と、前記秘密要約文データベースに格納されている、秘密事項を含む秘密要約文のいずれかとの類似性に基づいて、当該重要文に秘密事項を含むか否かを判定するステップを含むことを特徴とする文書要約方法。
入力された原文書を要約する文書要約装置のコンピュータで実行されるプログラムであって、
文書入力部が、原文書を入力する文書入力ステップと、
重要文抽出部が、前記原文書から重要文を抽出する重要文抽出ステップと、
秘密事項判定部が、前記重要文抽出ステップにより抽出された前記重要文に秘密事項が含まれるかを判定する秘密事項判定ステップと、
隠蔽処理部が、前記秘密事項判定ステップにより秘密事項を含むと判定された前記重要文から当該秘密事項が含まれない隠蔽文を作成する隠蔽処理ステップと、
文書出力部が、前記秘密事項判定ステップにより秘密事項が含まれないと判定された前記重要文、および前記隠蔽処理ステップで作成された前記隠蔽文について、それぞれの文長を削減する文圧縮ステップと、
文書出力部が、前記文圧縮ステップで得られた各文を前記原文書の要約文として出力する文書出力ステップと
を備えることを特徴とするプログラム。
付記5に記載のプログラムにおいて、
前記秘密事項判定ステップは、判定対象となる前記重要文と、前記秘密要約文データベースに格納されている、秘密事項を含む秘密要約文のいずれかとの類似性に基づいて、当該重要文に秘密事項を含むか否かを判定するステップを含むことを特徴とするプログラム。
Claims (6)
- 原文書を入力する文書入力部と、
前記原文書から重要文を抽出する重要文抽出部と、
前記重要文抽出部により抽出された前記重要文に秘密事項が含まれるかを判定する秘密事項判定部と、
前記秘密事項判定部により秘密事項を含むと判定された前記重要文から当該秘密事項が含まれない隠蔽文を作成する隠蔽処理部と、
前記秘密事項判定部により秘密事項が含まれないと判定された前記重要文、および前記隠蔽処理部で作成された前記隠蔽文について、それぞれの文長を削減する文圧縮部と、
前記文圧縮部で得られた各文を前記原文書の要約文として出力する文書出力部と
を備えることを特徴とする文書要約装置。 - 請求項1に記載の文書要約装置において、
秘密事項を含む秘密要約文を格納する秘密要約文データベースをさらに備え、
前記秘密事項判定部は、判定対象となる前記重要文と前記秘密要約文データベースの前記秘密要約文のいずれかとの類似性に基づいて、当該重要文に秘密事項を含むか否かを判定する
ことを特徴とする文書要約装置。 - 入力された原文書を要約する文書要約装置で用いられる文書要約方法であって、
文書入力部が、原文書を入力する文書入力ステップと、
重要文抽出部が、前記原文書から重要文を抽出する重要文抽出ステップと、
秘密事項判定部が、前記重要文抽出ステップにより抽出された前記重要文に秘密事項が含まれるかを判定する秘密事項判定ステップと、
隠蔽処理部が、前記秘密事項判定ステップにより秘密事項を含むと判定された前記重要文から当該秘密事項が含まれない隠蔽文を作成する隠蔽処理ステップと、
文書出力部が、前記秘密事項判定ステップにより秘密事項が含まれないと判定された前記重要文、および前記隠蔽処理ステップで作成された前記隠蔽文について、それぞれの文長を削減する文圧縮ステップと、
文書出力部が、前記文圧縮ステップで得られた各文を前記原文書の要約文として出力する文書出力ステップと
を備えることを特徴とする文書要約方法。 - 請求項3に記載の文書要約方法において、
前記秘密事項判定ステップは、判定対象となる前記重要文と、前記秘密要約文データベースに格納されている、秘密事項を含む秘密要約文のいずれかとの類似性に基づいて、当該重要文に秘密事項を含むか否かを判定するステップを含むことを特徴とする文書要約方法。 - 入力された原文書を要約する文書要約装置のコンピュータで実行されるプログラムであって、
文書入力部が、原文書を入力する文書入力ステップと、
重要文抽出部が、前記原文書から重要文を抽出する重要文抽出ステップと、
秘密事項判定部が、前記重要文抽出ステップにより抽出された前記重要文に秘密事項が含まれるかを判定する秘密事項判定ステップと、
隠蔽処理部が、前記秘密事項判定ステップにより秘密事項を含むと判定された前記重要文から当該秘密事項が含まれない隠蔽文を作成する隠蔽処理ステップと、
文書出力部が、前記秘密事項判定ステップにより秘密事項が含まれないと判定された前記重要文、および前記隠蔽処理ステップで作成された前記隠蔽文について、それぞれの文長を削減する文圧縮ステップと、
文書出力部が、前記文圧縮ステップで得られた各文を前記原文書の要約文として出力する文書出力ステップと
を備えることを特徴とするプログラム。 - 請求項5に記載のプログラムにおいて、
前記秘密事項判定ステップは、判定対象となる前記重要文と、前記秘密要約文データベースに格納されている、秘密事項を含む秘密要約文のいずれかとの類似性に基づいて、当該重要文に秘密事項を含むか否かを判定するステップを含むことを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011056147A JP5605280B2 (ja) | 2011-03-15 | 2011-03-15 | 文書要約装置、方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011056147A JP5605280B2 (ja) | 2011-03-15 | 2011-03-15 | 文書要約装置、方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012194619A true JP2012194619A (ja) | 2012-10-11 |
JP5605280B2 JP5605280B2 (ja) | 2014-10-15 |
Family
ID=47086494
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011056147A Active JP5605280B2 (ja) | 2011-03-15 | 2011-03-15 | 文書要約装置、方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5605280B2 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1115830A (ja) * | 1997-06-20 | 1999-01-22 | Fuji Xerox Co Ltd | 文短縮装置及び文短縮プログラムを記録した媒体 |
JP2003108483A (ja) * | 2001-09-27 | 2003-04-11 | Seiko Epson Corp | メール生成支援装置、メール生成支援装置の制御方法、メール配信システム、制御プログラムおよび記録媒体 |
JP2004310461A (ja) * | 2003-04-07 | 2004-11-04 | Canon Inc | 要約作成装置 |
-
2011
- 2011-03-15 JP JP2011056147A patent/JP5605280B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1115830A (ja) * | 1997-06-20 | 1999-01-22 | Fuji Xerox Co Ltd | 文短縮装置及び文短縮プログラムを記録した媒体 |
JP2003108483A (ja) * | 2001-09-27 | 2003-04-11 | Seiko Epson Corp | メール生成支援装置、メール生成支援装置の制御方法、メール配信システム、制御プログラムおよび記録媒体 |
JP2004310461A (ja) * | 2003-04-07 | 2004-11-04 | Canon Inc | 要約作成装置 |
Non-Patent Citations (2)
Title |
---|
CSNG200900001003; 富田 紘平,高村 大也,奥村 学: '重要文抽出と文圧縮を組み合わせた新たな抽出的要約手法' 情報処理学会研究報告 Vol.2009 No.2 第2009巻第2号【ISSN】0919-6072, 20090115, p.13-p.20, 社団法人情報処理学会 * |
JPN6014031346; 富田 紘平,高村 大也,奥村 学: '重要文抽出と文圧縮を組み合わせた新たな抽出的要約手法' 情報処理学会研究報告 Vol.2009 No.2 第2009巻第2号【ISSN】0919-6072, 20090115, p.13-p.20, 社団法人情報処理学会 * |
Also Published As
Publication number | Publication date |
---|---|
JP5605280B2 (ja) | 2014-10-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CA3098644C (en) | Systems and methods for document deviation detection | |
US20100131534A1 (en) | Information providing system | |
WO2020134626A1 (zh) | 基于区块链的作品存证方法、系统、装置及设备 | |
US20220114349A1 (en) | Systems and methods of natural language generation for electronic catalog descriptions | |
Larsonneur | Neural machine translation: From commodity to commons? | |
Huang et al. | Sinica treebank | |
JP5028823B2 (ja) | 同義語対抽出装置及び同義語対抽出方法 | |
JP5605280B2 (ja) | 文書要約装置、方法、およびプログラム | |
JP7095377B2 (ja) | 情報処理装置及び情報処理プログラム | |
De Clercq et al. | Towards shared datasets for normalization research | |
Rakholia et al. | The design and implementation of diacritic extraction technique for Gujarati written script using Unicode Transformation Format | |
Pujara | Extracting knowledge graphs from financial filings | |
JP2018077604A (ja) | 機能記述からの実現手段・方法の侵害候補を自動特定する人工知能装置 | |
Sztencel | Boundaries crossed: The influence of English on modern Polish | |
JP2007249770A (ja) | 個人情報隠蔽サービスシステム | |
CN110750695A (zh) | 信用数据的处理方法及计算机可读存储介质 | |
Sheng et al. | A multi-dimensional analysis of interpreted and non-interpreted English discourses at Chinese and American government press conferences | |
Manning et al. | Zesting Up Stylometry with MapLemon: A Corpus for Stylometric Demographic Identification | |
Torza | The Facts in Logical Space | |
Nikonova | Hyperlink as a Multimodal Marker of Evidentiality in Electronic Mass Media | |
JP6996190B2 (ja) | 複合語生成装置、プログラム及び複合語生成方法 | |
JP2006338133A (ja) | 情報抽出装置、情報抽出方法及びプログラム | |
Abeysekara | A Proposal for the Protection of Digital Databases in Sri Lanka | |
Baturay-Meral | Phonological templates and the lexicon | |
da Silva Vasconcelos | The Influence of Tweet Sentiment to Predict Ibovespa Shares |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140207 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140717 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140729 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140811 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5605280 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |