JP2002297633A - 重要文抽出装置および方法並びにコンピュータプログラム - Google Patents

重要文抽出装置および方法並びにコンピュータプログラム

Info

Publication number
JP2002297633A
JP2002297633A JP2001096396A JP2001096396A JP2002297633A JP 2002297633 A JP2002297633 A JP 2002297633A JP 2001096396 A JP2001096396 A JP 2001096396A JP 2001096396 A JP2001096396 A JP 2001096396A JP 2002297633 A JP2002297633 A JP 2002297633A
Authority
JP
Japan
Prior art keywords
sentence
document
importance
ranking
paragraph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001096396A
Other languages
English (en)
Other versions
JP4257042B2 (ja
Inventor
Masayuki Kameda
雅之 亀田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2001096396A priority Critical patent/JP4257042B2/ja
Publication of JP2002297633A publication Critical patent/JP2002297633A/ja
Application granted granted Critical
Publication of JP4257042B2 publication Critical patent/JP4257042B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 文書の重要文を抽出し、精度の高い要約を自
動的に作成することができる重要文抽出装置を提供す
る。 【解決手段】 入力された対象文書から段落および文を
切り出す段落・文切り出し部25と、前記段落・文切り
出し部で切り出された文書内の各文について重要度を評
価する文重要度評価部26と、対象文書および前記段落
・文切り出し部で切り出された文書内の各文についてそ
の段落番号、前記文重要度評価部26で評価された文重
要度の情報等を記憶する文書情報記憶部24と、前記文
重要度評価部26で評価された文の重要度に基づき文書
内の各文の重要度の順序付けを行なう文ランキング部2
8と、前記文ランキング部28よる文の重要度順序付け
にかかわらず、文書内の特定の位置にある文を優先して
文ランキング結果を修正する文ランキング修正部29
と、入力された要約率に応じて前記文ランキング修正部
29の文ランキング結果から重要文を抽出する重要文抽
出部27とを設けた。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書から重要文を
抽出する重要文抽出技術に係り、特に、文書管理装置、
文書閲覧装置、文書検索装置等における要約等の文書の
縮約表示に好適な重要文抽出装置および抽出方法並びに
抽出方法を実施するためのコンピュータプログラムに関
する。
【0002】
【従来の技術】文書の要約は、文書の概要を把握する上
で重要である。そこで、文書の要約を機械的に作成する
装置、すなわち、自動要約作成装置が期待される。しか
し、人間によっても難しい要約の作成を自動化するの
は、さらに難しい。そこで、要約に代わるものとして、
文書中の重要文を接いで作成した抄録の自動化が、実現
性として高い。
【0003】このような文書中の重要文を接いで抄録を
自動的に作成する技術として、例えば、 1)特開昭61−117658号公報:文章抄録装置 2)特開平03−278270号公報:抄録文作成装置 3)特開昭61−100861号公報:文書編集装置 4)特開平02−181261号公報:自動抄録生成装
置 5)特開平04−074259号公報:文書要約装置 に開示されている技術が公知である。
【0004】これらの公知技術における重要文の抽出
は、高い頻度の単語(1)、キーワードの重要度
(2)、キー構文との照合(3)、重要語と原文の論理
的な構造(4)、重要部分を認識する知識(5)等に基
づいて行われており、このような各方式を使用したさま
ざまな方法が知られている。これらの方法では、文の重
要度といったスコアリングを行い、文のランキング(順
位付け)を行い、必要な文数の重要文を抽出するように
している。
【0005】一方、一般によく見られる新聞記事等にお
いては、そのスタイルの特徴として、冒頭の段落や最終
段落が重要であることから、こうした位置情報を用いた
方法として、6)特開平07−141368号公報:飛
ばし読み支援表示装置および文書処理装置も知られてい
る。
【0006】
【発明が解決しようとする課題】前者の方法は、統計的
あるいは言語的な分析を行なうが、新聞記事において
は、新聞記事で重要といわれている冒頭や最終の段落の
文が必ずしも高い重要度にならない。
【0007】一方、後者のように、単に特定の段落等だ
けに限定すると、要約率が低い場合は、適切な抽出に近
くなるが、要約率が高くなるにつれて、特定段落以外の
重要文を適切に抽出できなくなる。
【0008】そこで、本発明の目的は、文書の重要文を
抽出し、精度の高い要約文を自動的に作成することがで
きる重要文抽出装置および重要文抽出方法を提供するこ
とにある。
【0009】また、他の目的は、重要文抽出方法を実施
するコンピュータプログラムを提供することにある。
【0010】
【課題を解決するための手段】前記目的を達成するた
め、第1の手段は、入力された対象文書から段落および
文を切り出す段落・文切り出し部と、前記段落・文切り
出し部で切り出された文書内の各文について重要度を評
価する文重要度評価部と、対象文書および前記段落・文
切り出し部で切り出された文書内の各文についてその段
落番号、前記文重要度評価部で評価された文重要度の情
報等を記憶する文書情報記憶部と、前記文重要度評価部
で評価された文の重要度に基づき文書内の各文の重要度
の順序付けを行なう文ランキング部と、入力された要約
率に応じて前記文ランキング部の文ランキング結果から
重要文を抽出する重要文抽出部とを有する重要文抽出装
置において、前記文ランキング部による文の重要度順序
付けにかかわらず、文書内の特定の位置にある文を優先
して文ランキング結果を修正する文ランキング修正部を
備えていることを特徴とする。
【0011】この場合、前記文ランキング修正部は、文
書内の特定の位置にある段落内にある文、あるいは、文
書内の先頭から特定の文数内にある文、もしくは、文書
内の特定の位置にある段落内にある文、および文書内の
先頭から特定の文数内にある文の少なくとも一方を満足
する文を優先する。
【0012】また、前記文書内の特定の位置にある段落
は、先頭の段落、または第2の段落と最終の段落の少な
くとも一方の段落であり、同一段落内では段落内の特定
の位置にある文を優先する。なお、前記文書内の先頭か
ら特定の文数は、文書内の総文数に対して一定の割合に
設定する。
【0013】また、前記文ラインキング修正部は、前記
文重要度評価部における文の重要度が低い文および前記
文ランキング部における文のランキングが低い文の少な
くとも一方を満足する文を優先しないようにする。
【0014】さらに、前記文ランキング修正部による文
ランキング修正を有効にするか否かを切り替える手段を
さらに設けるとよい。
【0015】第2の手段は、入力された対象文書から重
要文を抽出する抽出方法において、前記対象文書から段
落および文を切り出す第1の工程と、前記第1の工程で
切り出された文書内の各文について重要度を評価する第
2の工程と、前記第2の工程で評価された文の重要度に
基づき文書内の各文の重要度の順序付けを行なう第3の
工程と、前記第3の工程で順序付けられた重要度にかか
わらず文書内の特定の位置にある文を優先するように順
序付けを修正する第4の工程と、入力された要約率に応
じて前記第4の工程で修正された順序付け結果から重要
文を抽出する第5の工程とを含んでなることを特徴とす
る。
【0016】第3の手段に係るコンピュータプログラム
は、コンピュータが実行する入力された対象文書から段
落および文を切り出す第1の手順と、前記第1の手順で
切り出された文書内の各文について重要度を評価する第
2の手順と、前記第2の手順で評価された文の重要度に
基づき文書内の各文の重要度の順序付けを行なう第3の
手順と、前記第3の手順で順序付けられた重要度にかか
わらず文書内の特定の位置にある文を優先するように順
序付けを修正する第4の手順と、入力された要約率に応
じて前記第4の手順で修正された順序付け結果から重要
文を抽出する第5の手順とを備えていることを特徴とす
る。
【0017】
【発明の実施の形態】以下、本発明の実施形態について
図面を参照して説明する。
【0018】1.全体構成 図1は、本発明の実施形態に係る重要文抽出装置(以
下、本装置という)の全体構成を示す機能ブロック図で
ある。
【0019】同図において、重要文抽出装置1は、入力
手段11、表示手段12、記憶手段13、メモリ14お
よびCPU15とから構成され、これら各要素はバス1
6によって接続されている。
【0020】入力手段11はキーボード、マウス、タッ
チパネル等により構成され、本装置への入力に使用され
る。表示手段12は、本装置の出力情報や入力手段から
入力された情報などを表示する。CPU15は、本装置
の各部(後述する指令入力部、段落・文切り出し部、文
重要度評価部、文ランキング部、重要文表示部等)のプ
ログラムを動作させる。メモリ14は、文書情報記憶部
および本装置の各部がCPU15によって実行されると
きに一時的に作成される情報や各部のプログラム等が保
持される。記憶手段13は、指定された文書、文書情報
記憶部および本装置の各部のプログラム等を保持してい
る。
【0021】2.機能構成 図2は、本装置の機能構成を示すブロック図である。
【0022】同図において、本装置の機能構成は、指令
入力部21、文書入力部22、重要文表示部23、文書
情報記憶部24、段落・文切り出し部25、文重要度評
価部26、重要文抽出部27、文ランキング部28、文
ランキング修正部29とからなり、これらは制御部20
によって制御される。なお、制御部20は前述のCPU
15がその機能を司る。
【0023】指令入力部21は、ユーザから指定された
対象文書名、要約率等を受け付ける。文書入力部22
は、指令入力部21から受け付けられた対象文書名に基
づき、対象文書を入力する。段落・文切り出し部25
は、文書から段落および文を切り出す。文重要度評価部
26は、前記段落・文切り出し部25で切り出された文
書内の各文について、重要度を評価する。文情報記憶部
24は、前記段落・文切り出し部25で切り出された文
書内の各文について、その段落番号、前記文重要度評価
部26で評価された文重要度等の文ごとの情報を記憶す
るまた、文ランキング部28は、前記文重要度評価部2
6で評価された文の重要度に基づき、文書内の各文のラ
ンキング(順序付け)を行なう。文ランキング修正部2
9は、前記文ランキング部28による文の重要度順序付
けにかかわらず、文書内の特定の位置にある文を優先し
て文ランキング結果を修正する。
【0024】重要文抽出部27は、前記指令入力部21
から受け付けた要約率に応じて、前記文ランキング部2
8の文ランキング結果から重要文を抽出する。重要文表
示部23は、前記重要文抽出部27の抽出した重要文を
表示する。制御部20は、各部21〜29の処理の流れ
やデータの流れを制御する。
【0025】3.処理の流れ 3.1 重要文抽出処理の処理手順 図3は本装置の重要文抽出処理の処理手順を示すフロー
チャートである。この処理は、 1)ステップ301:対象文書入力 2)ステップ302:段落・文の切り出し 3)ステップ303:文重要度の評価 4)ステップ304:文のランキング 6)ステップ305:文のランキング修正 5)ステップ306:指定要約率の入力 7)ステップ307:重要文の抽出 8)ステップ308:重要文の表示 の各手順を実行することにより行われる。以下、各ステ
ップについて詳述する。
【0026】3.1.1 ステップ301:対象文書の
入力 まず、指令入力部201からユーザにより文書名指定さ
れた重要文抽出の対象となる文書を入力し、文書情報記
憶部204に格納する。以下、ここでは、下記の(A)
の文書を例にして説明する。なお、一般に、電子化文書
は、さまざまなフォーマットで表現されているが、ここ
では、最もプリミティブなテキスト形式の文書を想定す
る。この対象文書(朝日新聞 1993年1月21日)
は、 (A) −−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−− 通常兵器関連の工業製品/輸出規制が始動/4ヶ国対象↓ ↓ 通常兵器の部品や加工機械に転用できる工業製品の輸出規制が二十日、日本で も始まった。英米などの主要先進七カ国(G7)の合意に基づいた規制で、イラ クなど四カ国を対象にして、対共産圏輸出統制委員会(ココム)のリストを準用 する形。G7は既に対象となる品目、国を広げるための話し合いを始めており、 冷戦終結で変わる新たな輸出規制に発展しそうだ。↓ 規制対象となる国は、イラン、イラク、リビア、朝鮮民主主義共和国(北朝鮮 )の四カ国である。北朝鮮は、既に共産圏として特定地域に指定されているため 、新たに追加されるのは三カ国である。また、イラクは経済制裁で禁輸措置が取 られている。今回の措置で輸出に大きな変化が出るのはイランとリビアの二国に なりそうだ。↓ 輸出貿易管理令などに基づいて定められたコンピュータや工作機械などの規制 品目を輸出する時には、通産省に許可申請を行う。その際、特定地域に指定され ている国に対しては、明らかに民生用とわかる場合でなければ許可が下りず、事 実上、規制品は輸出できない。↓ −−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−− というものであり、この文書が入力され、文書情報記憶
部204に格納される。
【0027】3.1.2 ステップ32:段落・文の切
り出し 入力された文書の段落切り出し、文切り出しを行なう。
【0028】ここでは、対象文書はテキスト形式である
ので、文は、句点「。」または改行コードで終わり、ま
た、段落の改行コードで終わり、とみなすこととする
(なお、前記(A)では、改行コードを「↓」で表して
いる)。
【0029】従って、文書を改行コード位置で分割する
ことで段落を構成する文字列を切り出し、段落をさらに
句点で分割することで文を構成する文字列を切り出すこ
とができる。実際には、この処理の際に、段落番号、文
番号、段落長、文長を計測することで、段落および文に
関する情報として、 ・段落ごとに、段落番号、段落の文書内での開始/終了
位置、段落の先頭/末尾文番号 ・各文ごとに、文番号、所属する段落の段落番号、文書
中の開始位置、終了位置 を文書情報記憶部204内に、段落情報テーブル(図
4)、文情報テーブル(図5)として格納する。
【0030】なお、位置の単位はバイトである。段落番
号と文番号は0から開始している。対象文書では、先頭
段落=先頭文は文書タイトルであり、ここでは、重要文
抽出する対象からは外すことにし、段落番号、文番号、
ともに1からを対象とするものとする。
【0031】3.1.3 ステップ303:文重要度の
評価 文の重要度の評価は、さまざまな方法があるが、ここで
は、従来技術の一つとして、文内の名詞を主体としたキ
ーワード候補単語間の重複度を利用した文間の関連度に
基づいた文の重要度を評価する特開平9−34905号
公報に開示された方法により得た重要度を計算するもの
とし、ここでは、その詳細は省略する。
【0032】なお、前記特開平9−34905号公報に
記載されていると原文と文書が若干異なったり、タイト
ルの扱いが異なったりしているが、ここでは細部は無視
する。
【0033】図6は前記特開平9−34905号公報に
開示された方法で得た重要度を文情報テーブルの各文ご
との欄に格納した結果である。文番号1のタイトルは文
重要度の計算には用いているが、重要文抽出の対象でな
いので、文の重要度は設定していない。
【0034】3.1.4 ステップ304:文のランキ
ング 文のランキングは、文の重要度により順序付けすること
により得ることができる。図6に合わせて、そのランキ
ング値を設定する。なお、重要度が同点の場合は、同ラ
ンキング値とした。
【0035】3.1.5 ステップ305:文のランキ
ング修正 文のランキング修正は、ステップ304の文のランキン
グにかかわらず、文書内の特定の位置にある文を優先す
るものである。特定の位置にある文として、より有効な
優先の方法として以下のような方法をとる。 文書内の特定の位置にある段落内にある文を優先す
る。 文書内の先頭から特定の文数内にある文を優先する。 前記との連言的(AND)あるいは選言的(O
R)な組み合わせの条件の文を優先する。 特定の段落として、先頭の段落、さらに加えるなら
ば、第2の段落と最終の段落の一方あるいは双方であ
り、同一段落内では、段落内の特定の位置にある文を優
先する。 先頭から特定の文数は、文書内の総文数の一定割合で
ある文を優先する。 ステップ303の文の重要度が低い文、あるいは、ス
テップ304の文のランキングが低い文は優先しない。
【0036】3.1.6 ステップ306:指定要約率
の入力 どの程度の重要文を抽出するかを要約率によりユーザの
指定を受け付ける。ここでは、簡単のために抽出するべ
き文数が直接入力されるものとするが、「10%」とか
「30%」という原文書(対象文書)の文数に対する割
合で指定された場合は、ステップ302で総文数がわか
るので、抽出文数を得るのは容易である。なお、本ステ
ップは、ステップ301〜304によらず、次の重要文
の抽出のステップ307の前までに完了していればよ
い。
【0037】ここでは、「20%」と「50%」に相当
する2文と5文の抽出を想定する。
【0038】3.1.7 ステップ307:重要文の抽
出 重要文抽出のステップでは、指定された要約率の文数N
に対応して、各文のランキング値がN以下である文を抽
出すればよい。2文と5文の場合は、各々次の文が抽出
される。
【0039】・2文抽出:第4文、第3文 ・5文抽出:第4文、第3文、第1文、第7文、第2文 3文抽出の場合、第1文と第7文が同ランキング値とな
る。こうした場合は、双方を抽出する、前方にある第1
文を抽出する等、いくつかの方法が考えられるが、どの
ような方法を取るかは限定しない。
【0040】3.1.8 ステップ308: 重要文の
表示 最後に、抽出された文をその文の番号順に表示する。
【0041】このようにステップ301からステップ3
08の処理で一連の処理を終えるが、従来では、文のラ
ンキング修正を行うステップ305の処理が行われてい
なかった。すなわち図7に示すように前記図3に示した
フローチャートに対してステップ305がなく、指定要
約率の入力はステップ304の処理の後に行われるよう
になっていた。このようなステップ305の処理を行わ
ず重要文抽出で2文抽出の場合を(B)、5文抽出の場
合を(C)に示す。ここでは、抽出された文を1行ずつ
表示しているが、段落の形態を保ったままで表示した
り、原文書中で強調表示したり、さまざまな形式が考え
られるが、ここでは、その形式を限定しない。
【0042】 (B) −−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−− G7は既に対象となる品目、国を広げるための話し合いを始めており、冷戦終結 で変わる新たな輸出規制に発展しそうだ。 規制対象となる国は、イラン、イラク、リビア、朝鮮民主主義共和国(北朝鮮) の四カ国である。 −−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
【0043】 (C) −−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−− 通常兵器の部品や加工機械に転用できる工業製品の輸出規制が二十日、日本でも 始まった。 英米などの主要先進七カ国(G7)の合意に基づいた規制で、イラクなど四カ国 を対象にして、対共産圏輸出統制委員会(ココム)のリストを準用する形。 G7は既に対象となる品目、国を広げるための話し合いを始めており、冷戦終結 で変わる新たな輸出規制に発展しそうだ。 規制対象となる国は、イラン、イラク、リビア、朝鮮民主主義共和国(北朝鮮) の四カ国である。 輸出貿易管理令などに基づいて定められたコンピュータや工作機械などの規制品 目を輸出する時には、通産省に許可申請を行う。 −−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
【0044】なお、図3のフローチャートのステップ3
08の後を終了とせず、ステップ306に戻るループに
代えれば、異なった要約率の抽出を繰り返すことができ
る。この場合、ステップ306で0等の特殊な値が入力
された場合に、終了するフローにして、終了させればよ
い。
【0045】以上が、本実施形態に係る重要文抽出の処
理手順を示すフローチャートである。なお、従来では、
図3のフローチャートにおけるランキング修正の処理が
行われていなかった。そこで、このランキング修正処理
の有無による相違点について詳述する。
【0046】図8はステップ305の処理の内容を詳細
に示すフローチャートである。このステップ305は、
ステップ3051〜3057の7ステップから構成され
ている。ステップ3052からステップ3056は、文
情報テーブルの各文ごとの処理のループであり、ステッ
プ3051は、文番号変数iの初期設定とループの終了
条件になる文の総数Nの設定である。
【0047】文情報テーブルに文iごとに新たに作業変
数とランキング修正値の欄を追加し、作業変数には、ま
ず、文のランキング値をそのまま設定した後、文iが優
先文であれば、0に書き換えることを各文iに対して繰
り返す(ステップ3052〜3056)。
【0048】全文について終了した後、作業変数の値で
ランキングし直して、そのランキング値をランキング修
正値として設定し(ステップ3057)、ステップ30
7では、文iの 作業変数の値で昇順をソートし、順位
値を文iのランキング修正値に設定してする。すなわ
ち、文のランキング値ではなく、ランキング修正値で重
要文を抽出する。
【0049】たとえば、前記の優先の例として、 ・先頭2段落、かつ、先頭50%割合の文を優先する ・ただし、文ランキングが全体の80%割合により低い
文は優先しない とする。
【0050】対象文書では、総文数は9なので、 ・先頭50%割合の文の優先は、先頭5文の優先、 ・文ランキングの全体の70%割合より低い文の非優先
は、ランキング7以降の非優先 となる。この場合、先頭2段落は第7文までなので、 ・先頭2段落、かつ、先頭50%割合の文を優先する
は、 ・先頭5文を優先する と同等となる。
【0051】これに従い、ステップ414の文iが優先
文かどうかを判定すると、 ・第1文は、先頭5文内で、ランキングは3なので、優
先文となる。 ・第2文は、先頭5文内で、ランキングは5なので、優
先文となる。 ・第3文は、先頭5文内で、ランキングは2なので、優
先文となる。 ・第4文は、先頭5文内で、ランキングは1なので、優
先文となる。 ・第5文は、先頭5文内だが、ランキングは8なので、
非優先文となる。 ・第6〜8文は、先頭2段落かつ先頭5文内でないの
で、非優先文となる。 となる。
【0052】従って、図9にあるように、優先文の第1
〜第4文の作業変数は0、他はランキング値と同じにな
る。
【0053】さらに、作業変数の値でランキングする
と、図9の文ランキング修正値が設定される。
【0054】これに従うと、第1〜3文のランキング
2,3,5が修正値で1に繰り上がり、第4文は1のま
ま、第7文分が3から5に下がる。従って、ステップ5
では、 ・2文抽出:第1文,第2文 ・5文抽出:第1文,第2文,第3文,第4文,第7文 となり、ステップ6の重要文の抽出では、5文抽出では
従来と同じだが、2文抽出の場合の表示は異なってく
る。
【0055】 (D) −−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−− 通常兵器の部品や加工機械に転用できる工業製品の輸出規制が二十日、日本でも 始まった。 英米などの主要先進七カ国(G7)の合意に基づいた規制で、イラクなど四カ国 を対象にして、対共産圏輸出統制委員会(ココム)のリストを準用する形。 −−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
【0056】なお、優先文の作業変数の値を0にする方
法では、優先文同士では、同位だが、結果的には前方の
文が優先されることになる。必ずしも前方の文を優先せ
ず、優先文内で優先度を代えたい場合、たとえば、 ・第1段落の他に第2段落と最終段落を優先するが、第
2段落より最終段落内の文を優先する。 ・同一段落内では、段落内の第1文、最終文、その他の
文の順に優先する。 といったような場合は、優先文間で順位が決まるよう
に、0から1未満の小数値を設定するなどの方法を取れ
ば、対応できる。
【0057】なお、本発明においては、文ランキング修
正のステップをステップ305に設け、従来から実施さ
れている文ランキングの結果に対して所望の修正を行う
ように構成しているが、いずれの手順を選択するかを切
り替えるようにすることも可能である。すなわち、文ラ
ンキング修正を行わない場合と行う場合とをユーザが任
意に選択できるようにすることも、あるいは、文書の種
別に応じて自動判定するように構成することもできる。
ユーザが選択する場合も、自動で選択する場合も重要文
抽出装置の入力手段11からその旨入力し、制御部20
によって前記入力に応じた設定を行って重要文抽出処理
を実行する。
【0058】
【発明の効果】以上のように、請求項1記載の発明によ
れば、文重要度評価部で評価された文の重要度に基づき
文書内の各文の重要度の順序付けを行なう文ランキング
部と、前記文ランキング部による文の重要度順序付けに
かかわらず、文書内の特定の位置にある文を優先して文
ランキング結果を修正する文ランキング修正部を備え、
入力された要約率に応じて前記文ランキング修正部で修
正された文ランキング結果から重要文を抽出するので、
新聞記事のように、従来の文の重要度を超越して冒頭
(や末尾)の部分や段落に重要文がある文書において、
小さな要約率では、冒頭(や末尾)の文を優先すること
で、精度が高まる一方、要約率が大きくなるにつれて、
従来の文の重要度に基づく重要文抽出結果となり、広い
要約率の範囲で良い精度を維持する重要文抽出装置を提
供することができる。
【0059】請求項2ないし請求項6記載の発明によれ
ば、文書に応じてランキングを修正するので、さらにユ
ーザに意図に沿った精度の高い重要文抽出が可能にな
る。
【0060】請求項7記載の発明によれば、文ラインキ
ング修正部は文重要度評価部における文の重要度が低い
文および前記文ランキング部における文のランキングが
低い文の少なくとも一方を満足する文は優先しないの
で、小さな要約率の場合、優先される冒頭(や末尾)の
文のうち、従来の文の重要度に基づくと重要度あるいは
ランキングが低い文を排除できるので、小さな要約率で
の精度を高めることができる。
【0061】請求項8記載の発明によれば、文ランキン
グ修正部による文ランキング修正を有効にするか否かを
切り替える手段をさらに備えているので、文ランキング
修正が必要な場合のみランキング修正を行うことが可能
になり、必要に応じて好適な処理が可能になる。
【0062】請求項9記載の発明によれば、対象文書か
ら段落および文を切り出し、切り出された文書内の各文
について重要度を評価し、評価された文の重要度に基づ
き文書内の各文の重要度の順序付けを行ない、順序付け
られた重要度にかかわらず文書内の特定の位置にある文
を優先するように順序付けを修正し、入力された要約率
に応じて前記修正された順序付け結果から重要文を抽出
するので、請求項1記載の発明と同様の効果を奏する。
【0063】請求項10記載の発明によれば、入力され
た対象文書から段落および文を切り出す手順と、切り出
された文書内の各文について重要度を評価する手順と、
評価された文の重要度に基づき文書内の各文の重要度の
順序付けを行なう手順と、順序付けられた重要度にかか
わらず文書内の特定の位置にある文を優先するように順
序付けを修正する手順と、入力された要約率に応じて修
正された順序付け結果から重要文を抽出する手順とを実
行するプログラムが書き込まれているので、新聞記事の
ように、従来の文の重要度を超越して冒頭(や末尾)の
部分や段落に重要文がある文書において、小さな要約率
では、冒頭(や末尾)の文を優先することで、精度が高
まる一方、要約率が大きくなるにつれて、従来の文の重
要度に基づく重要文抽出結果となり、広い要約率の範囲
で良い精度を維持する重要文の抽出をコンピュータによ
って簡単に実現することができる。
【図面の簡単な説明】
【図1】本発明の実施形態に係る重要文抽出装置の全体
構成を示す機能ブロック図である。
【図2】本発明の実施形態に係る重要文抽出装置の機能
構成を示すブロック図である。
【図3】本発明の実施形態に係る重要文抽出装置抽出処
理の処理手順を示すフローチャートである。
【図4】段落・文の切り出し工程における段落情報テー
ブルの一例を示す図である。
【図5】段落・文の切り出し工程における文情報テーブ
ルの一例を示す図である。
【図6】文重要度の評価工程において重要度を文情報テ
ーブルの各文ごとの欄に格納した状態を示す図である。
【図7】従来例に係る重要文抽出装置抽出処理の処理手
順を示すフローチャートである。
【図8】図3におけるステップ305の処理の内容を詳
細に示すフローチャートである。
【図9】ステップ305の処理に伴う文ランキング修正
値の状態を示す図である。
【符号の説明】
1 重要文抽出装置 11 入力手段 12 表示手段 13 記憶手段 14 メモリ 15 CPU 16 バス 20 制御部 21 指令入力部 22 文書入力部 23 重要文表示部 24 文書情報記憶部 25 段落・文切り出し部 26 文重要度評価部 27 重要文抽出部 28 文ランキング部 29 文ランキング修正部

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 入力された対象文書から段落および文を
    切り出す段落・文切り出し部と、 前記段落・文切り出し部で切り出された文書内の各文に
    ついて重要度を評価する文重要度評価部と、 対象文書および前記段落・文切り出し部で切り出された
    文書内の各文についてその段落番号、前記文重要度評価
    部で評価された文重要度の情報等を記憶する文書情報記
    憶部と、 前記文重要度評価部で評価された文の重要度に基づき文
    書内の各文の重要度の順序付けを行なう文ランキング部
    と、 入力された要約率に応じて前記文ランキング部の文ラン
    キング結果から重要文を抽出する重要文抽出部と、を有
    する重要文抽出装置において、 前記文ランキング部による文の重要度順序付けにかかわ
    らず、文書内の特定の位置にある文を優先して文ランキ
    ング結果を修正する文ランキング修正部を備えているこ
    とを特徴とする重要文抽出装置。
  2. 【請求項2】 前記文ランキング修正部は、文書内の特
    定の位置にある段落内にある文を優先することを特徴と
    する請求項1記載の重要文抽出装置。
  3. 【請求項3】 前記文ランキング修正部は、文書内の先
    頭から特定の文数内にある文を優先することを特徴とす
    る請求項1記載の重要文抽出装置。
  4. 【請求項4】 前記文ランキング修正部は、文書内の特
    定の位置にある段落内にある文、および文書内の先頭か
    ら特定の文数内にある文の少なくとも一方を満足する文
    を優先することを特徴とする請求項1記載の重要文抽出
    装置。
  5. 【請求項5】 前記文書内の特定の位置にある段落は、
    先頭の段落、または第2の段落と最終の段落の少なくと
    も一方の段落であり、同一段落内では段落内の特定の位
    置にある文を優先することを特徴とする請求項2または
    4記載の重要文抽出装置。
  6. 【請求項6】 前記文書内の先頭から特定の文数は、文
    書内の総文数に対して一定の割合であることを特徴とす
    る請求項3または4記載の重要文抽出装置。
  7. 【請求項7】 前記文ラインキング修正部は、前記文重
    要度評価部における文の重要度が低い文および前記文ラ
    ンキング部における文のランキングが低い文の少なくと
    も一方を満足する文を優先しないことを特徴とする請求
    項1記載の重要文抽出装置
  8. 【請求項8】 前記文ランキング修正部による文ランキ
    ング修正を有効にするか否かを切り替える手段をさらに
    備えていること特徴とする請求項1記載の重要文抽出装
  9. 【請求項9】 入力された対象文書から重要文を抽出す
    る抽出方法において、 前記対象文書から段落および文を切り出す第1の工程
    と、 前記第1の工程で切り出された文書内の各文について重
    要度を評価する第2の工程と、 前記第2の工程で評価された文の重要度に基づき文書内
    の各文の重要度の順序付けを行なう第3の工程と、 前記第3の工程で順序付けられた重要度にかかわらず文
    書内の特定の位置にある文を優先するように順序付けを
    修正する第4の工程と、 入力された要約率に応じて前記第4の工程で修正された
    順序付け結果から重要文を抽出する第5の工程と、を含
    んでなることを特徴とする重要文抽出方法。
  10. 【請求項10】 入力された対象文書から段落および文
    を切り出す第1の手順と、 前記第1の手順で切り出された文書内の各文について重
    要度を評価する第2の手順と、 前記第2の手順で評価された文の重要度に基づき文書内
    の各文の重要度の順序付けを行なう第3の手順と、 前記第3の手順で順序付けられた重要度にかかわらず文
    書内の特定の位置にある文を優先するように順序付けを
    修正する第4の手順と、 入力された要約率に応じて前記第4の手順で修正された
    順序付け結果から重要文を抽出する第5の手順と、を備
    えたコンピュータプログラム。
JP2001096396A 2001-03-29 2001-03-29 重要文抽出装置および方法並びに重要文抽出用プログラム Expired - Fee Related JP4257042B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001096396A JP4257042B2 (ja) 2001-03-29 2001-03-29 重要文抽出装置および方法並びに重要文抽出用プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001096396A JP4257042B2 (ja) 2001-03-29 2001-03-29 重要文抽出装置および方法並びに重要文抽出用プログラム

Publications (2)

Publication Number Publication Date
JP2002297633A true JP2002297633A (ja) 2002-10-11
JP4257042B2 JP4257042B2 (ja) 2009-04-22

Family

ID=18950313

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001096396A Expired - Fee Related JP4257042B2 (ja) 2001-03-29 2001-03-29 重要文抽出装置および方法並びに重要文抽出用プログラム

Country Status (1)

Country Link
JP (1) JP4257042B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016189089A (ja) * 2015-03-30 2016-11-04 日本電気株式会社 抽出装置、抽出方法とそのプログラム、及び、支援装置、表示制御装置
JP2017054509A (ja) * 2015-09-09 2017-03-16 ウバープル カンパニー リミテッド 文抽出方法及びシステム
CN117708434A (zh) * 2024-01-09 2024-03-15 青岛睿哲信息技术有限公司 一种基于关键词的用户推荐浏览内容生成方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9537804B2 (en) 2014-10-22 2017-01-03 International Business Machines Corporation System for delegating the prioritization of incoming communications to trusted users

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016189089A (ja) * 2015-03-30 2016-11-04 日本電気株式会社 抽出装置、抽出方法とそのプログラム、及び、支援装置、表示制御装置
JP2017054509A (ja) * 2015-09-09 2017-03-16 ウバープル カンパニー リミテッド 文抽出方法及びシステム
CN117708434A (zh) * 2024-01-09 2024-03-15 青岛睿哲信息技术有限公司 一种基于关键词的用户推荐浏览内容生成方法

Also Published As

Publication number Publication date
JP4257042B2 (ja) 2009-04-22

Similar Documents

Publication Publication Date Title
US7769578B2 (en) Machine translation system, method and program
US20030145285A1 (en) Method of displaying correct word candidates, spell checking method, computer apparatus, and program
US20110252062A1 (en) Electronic device for searching for entry word in dictionary data, control method thereof and program product
JP4730042B2 (ja) 辞書情報表示制御装置および辞書情報表示制御プログラム
US5007019A (en) Electronic thesaurus with access history list
JP4420210B2 (ja) プログラム開発支援装置および処理方法
JP2002297633A (ja) 重要文抽出装置および方法並びにコンピュータプログラム
KR101090658B1 (ko) 사전기능을 구비한 전자기기
JP2007172260A (ja) 文書ルール作成支援装置および文書ルール作成支援方法並びに文書ルール作成支援プログラム
JP2000172682A (ja) ル―ルベ―スのドキュメントを作成する方法およびシステム
JP4535186B2 (ja) 辞書機能を備えた電子装置およびプログラム
JP4956298B2 (ja) 辞書構築支援装置
JP2939841B2 (ja) データベース検索装置
JP2014130431A (ja) 辞書検索装置、辞書検索方法、辞書検索プログラム、辞書検索システム、およびそのサーバ装置、端末装置
CN109376339B (zh) 一种基于用户行为的文本转换候选规则信息提取方法
JP4614358B2 (ja) プログラムソース比較システムおよび比較方法、ならびにそのプログラム
JP2009205629A (ja) 重要語句抽出装置
JP2838972B2 (ja) 自動索引作成装置
JP3305219B2 (ja) ヘルプ機能検索装置とヘルプ機能検索装置制御プログラムを記憶した媒体
JP2023149188A (ja) 修正支援方法、修正支援プログラムおよび情報処理装置
JPH0981589A (ja) 電子辞書
JP5278377B2 (ja) 電子装置およびプログラム
JP2000148747A (ja) 変換候補表示方法,およびこの方法によるかな漢字変換用のプログラムの記録媒体ならびにかな漢字変換装置
JPH1196154A (ja) 情報処理装置、辞書情報活用方法、及び記録媒体
JPS62143173A (ja) 文字列つづり訂正方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050916

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20081009

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081021

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081219

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090120

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090202

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120206

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120206

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130206

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130206

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140206

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees