JPH02257266A - 抄録文作成装置 - Google Patents

抄録文作成装置

Info

Publication number
JPH02257266A
JPH02257266A JP1028125A JP2812589A JPH02257266A JP H02257266 A JPH02257266 A JP H02257266A JP 1028125 A JP1028125 A JP 1028125A JP 2812589 A JP2812589 A JP 2812589A JP H02257266 A JPH02257266 A JP H02257266A
Authority
JP
Japan
Prior art keywords
important
sentences
sentence
word
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP1028125A
Other languages
English (en)
Other versions
JPH0743717B2 (ja
Inventor
Tamotsu Iwabuchi
岩淵 保
Mikio Arai
荒井 幹夫
Minoru Aizawa
藍澤 實
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TEREMATEIIKU KOKUSAI KENKYUSHO KK
Original Assignee
TEREMATEIIKU KOKUSAI KENKYUSHO KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TEREMATEIIKU KOKUSAI KENKYUSHO KK filed Critical TEREMATEIIKU KOKUSAI KENKYUSHO KK
Priority to JP1028125A priority Critical patent/JPH0743717B2/ja
Publication of JPH02257266A publication Critical patent/JPH02257266A/ja
Publication of JPH0743717B2 publication Critical patent/JPH0743717B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は論文等の文献の抄録文作成装置に関する。特に
全文検索を行うデータベースでの収録文献の全文の中か
ら抄録文に必要な意味情報を含む重要文を抽出して抄録
文を自動的に作成する抄録文作成装置に関する。
なお本明細書において「文」とは文頭から「。」あるい
は「、」で区切られる一つのまとまった意味を終りまで
表したひとつづきの文字列を言い、また「単悟」とは自
立語のことをいう。
〔概要〕
本発明は入力された文章から必要な文を抽出して抄録文
を作成する抄録文作成装置において、入力された全文の
中からキーワードとなる重要語を抽出してその出現頻度
から最重要語を確定し最重要語を含む文および特定の文
を重要文として抽出し、この抽出した重要文から不要な
語および不要な文を削除することにより、 入力された全文から簡易な形で抄録文を作成し抄録文の
作成を省力化するものである。
〔従来の技術〕
近年、論文等の文献を収録したデータベースシステムに
おいて全文で収録した文献を提供することが要請されて
いる。この全文提供のデータベースシステムにおいては
、利用者が文献を検索し易くするために全文からの意味
的情報を抽出して、この抽出した情報から抄録文を作成
する抄録文加工作成システムが必要となっている。そし
てこの抄録文の作成を省力化し自動的に行うシステムが
求められている。
従来、抄録文の作成は人手を介してその文献に記述され
ている用語の中から使用頻度が高い用暗を重要語(キー
ワード〉の形で抽出して記述することで行われていた。
しかし、このような方法では抄録文を作成するに膨大な
人手を必要とするため、文献データベースの作成に多大
の人手を必要としまた費用がかかるものであった。
このような問題に対して、自動的に抄録文を作成するシ
ステムとして、文献の文章をパラグラフごとに分割し、
この分割されたパラグラフの文章の中から用語を抽出し
、この抽出した用語の頻度を計数して、最も重要と見ら
れる用語を含む文を重要文すわなちキーセンテンスとし
てパラグラフごとに文を抽出して抄録文を作成する文章
抄録装置の技術が提案されている(特開昭61−117
658号公報)。
〔発明が解決しようとする問題点〕
このパラグラフごとに文章を分割して一つの重要文を抽
出する方式は、パラグラフ単位で重要な概念が述べられ
ており、用語の使用頻度はこの重要な概念に対応してい
るものと考えられるため、収録文献の記述しようとする
概念と対応して抄録文を作成する点で優れたものである
しかし、このパラグラフごとに一つの文のみを単に抽出
して抄録文とする方式では、文章的につながりがない抽
出した文を単に羅列するにすぎなくなるため、抄録文が
不自然なものとなる欠点がある。
また、パラグラフごとに一つの文を抽出するだけなので
、一つのパラグラフに最も重要な概念を表現する文が二
つ以上含まれている場合には、一つの文しか抽出しない
ので、その文章で表されている重要な概念の用語が含ま
れる文章を落としてしまい、全文検索用の抄録として意
味的情報の欠落が生じる問題があった。
本発明は、上述の問題点に鑑みなされたもので、入力さ
れた文献から必要な用語を含む文の欠落を生ずることが
なく、また抄録文が自然な文のつながりとなる抄録文を
作成できる抄録文作成装置を提供することを目的とする
〔問題点を解決するための手段〕
本発明は、入力された文章の各文の区切りを明確にする
前処理手段と、この前処理手段で区切られた文の中から
重要語を抽出する重要文抽出手段と、この重要文抽出手
段で抽出した重要語の現れる文を重要文として抽出する
重要文抽出手段と、この重要文抽出手段で抽出した重要
文を元にして抄録文を作成する文章整形手段とを備えた
抄録文作成装置において、上記重要文抽出手段で抽出し
た重要語の使用頻度を計数し最も多く出現する重要語を
最重要語として確定する最重要語確定手段を備え、上記
重要文抽出手段は、上記最重要語確定手段で確定された
最重要語が含まれかつ重要語が1以上台まれている文お
よび特定の語を含む文を重要文として抽出する手段を含
み、上記文章整形手段は、抽出した重要文の中から特定
の不要な単語を削除するとともに特定の条件に合致する
重要文を削除する手段を含むことを特徴とする。
また重要文抽出手段は、文に含まれる単語の中から助詞
の前の漢字またはカナ文字で構成される単語を切り出す
手段と、切り出された単語から一文字で構成された文字
を除外する手段とを含むことができる。
また文章整形手段は、削除対象となる特定の不要な単語
が登録された削除単語テーブルを参照して不要な単語を
削除する手段と、削除対象となる文の条件が登録された
文削除指示テーブルを参照して不要な文を削除する手段
とを含むことができる。
〔作用〕
本発明では抄録を作成しようとする文章の空白などを削
除して文の区切りをはっきりさせる前処理を行う。前処
理を行った後、「は」とか「には」などの助詞の前にあ
る漢字、あるいはカナ文字などの単語を重要語として抽
出する。
抽出された重要語の使用頻度を計数し、最も頻度の高い
単語を最重要語として確定する。この確定された最重要
語が含まれかつ重要語が1以上台まれている文および「
結果」などの特定の単語が含まれている文を重要文とし
て抽出する。
抽出された重要文から、「上記」などの不要な単語を削
除し、また、「表」、「図」等の後に数字が来るような
不要な文を削除する文章整形作業を行い、抄録文を作成
出力する。
〔実施例〕
以下図面を参照して本発明の詳細な説明する。
第1図は本発明一実施例の抄録文作成装置を示すブロッ
ク図である。
本実施例の抄録文作成装置は、次のような構成からなっ
ている。まず、入力された文献ファイルの中から、本文
中の図や表などの挿入によって生じた不要な空白や復帰
改行コードなどを削除して文の区切りを確実なものとす
る前処理部11を備える。次にこの前処理部11で前処
理された文章から表題、副表題の行数を指示することに
より表題側表題を分離する表題側表題抽出部12を備え
る。またこの表題側表題抽出部12で分離された本文か
ら後述する重要語を抽出できるように文単位に分割する
文抽出部13を備える。そして表題側表題抽出部12の
出力が導かれ抽出された表題と副表題中から指示された
行の中で漢字、カナ文字で構成される単語を抽出する表
題側表題重要語抽出部14と、文抽出部13で分割され
た文の中から文法規則テーブル16の文法規則に基づい
て本文中の「は」、「には」、「とは」などの前の漢字
やカナ文字で構成される単語などを抽出する窯内重要語
抽出部15を備える。
さらに上述の表題側表題重要語抽出部14および、文内
重要悟抽出部15で抽出された重要語の使用頻度を計数
し最も多い単語を最重要語として確定する使用頻度集計
部17を備え、この使用頻度集計部17で確定された最
重要語が含まれかつ重要語が1以上台まれている文ふよ
び「結果」、「今後」などの特定の単語が含まれている
文を重要文として抽出する重要文抽出部18を備える。
この前処理部11、表題側表題抽出部12、文抽出部1
3、表題側表題重要語抽出部14、窯内重要語抽出部1
5、文法規則テーブル16、使用頻度集計部17、重要
文抽出部18が本抄録文作成装置の主題分析部を構成す
る。
さらに本実施例抄録文作成装置は、文章整形部として、
重要文抽出部18で抽出された重要文のうちから「上記
」、「上記と」、「前述の」などの不要な削除すべき単
語が登録されている削除単語テーブル20を参照して不
要な単語を削除する単語削除整形部19およびこの単語
削除整形部19で不要な単語が削除された重要文から、
「表」や「図」の語の後に数字がある文などの不要な文
の条件が登録されている文削除指示テーブル22を参照
して不要な文を削除する文削除整形部21を備えている
次に本実施例装置による抄録文作成処理動作を第2図に
フローチャートを示して説明する。
まず抄録文を作成すべき対象原文献ファイルが入力され
る(Sl)。この原文献の文章は、文の区切りを確実に
する前処理が施される(S2)。
そして前処理が施された文章から抄録文作成に必要な重
要語が抽出される(S3)。抽出された重要語の使用頻
度を集計して最も頻度の高い重要語を鰻重要語として確
定する(S4)。次に確定された鰻重要語に基づいて、
鰻重要語を含み重要語を1以上含む文および特定の単語
を含む文を重要文として抽出する(S5)。抽出された
重要文の中から不要な単語を削除し、また不要な文章を
削除して抄録文を整形する文章整形処理を行う(S6)
。この文章整形処理は自動的に行われる。整形された抄
録文は出力される(S7)。
このような処理動作により入力された原文献ファイルか
ら抄録文が作成される。なお、この処理動作によって作
成された抄録文には意味が重複した文や前後関係から意
味不明となる文があるのでこれは後に人手による作業に
よって削除して必要な抄録文を作成する。
次に本実施例装置の各部の動作について具体的に説明す
る。
第3図は本実施例の破線で囲まれた表題側表題抽出部1
2、文抽出部13、表題側表題重要語抽出部14、窯内
重要語抽出部15による重要語を抽出する動作を示すフ
ローチャートである。この第3図のフローチャートに従
って重要語の抽出動作を説明する。
まず原文献より一文を読み(S31) 、文が終りか否
か判断しく332) 、終了であれば重要語抽出を終了
し、使用頻度集計動作に移行する。終了でない場合には
、−文が表題あるいは副表題であるか否かを判断する(
S33)。表題あるいは副表題であれば、表題側表題重
要語抽出部14において、漢字、カナ文字で構成される
単工吾を重要語として切り出す(S34)。
表題側表題ではない場合には、文法規則テーブル16内
の文法規則の1を読み込み、窯内重要語抽出部15にセ
ットする(S35)。この文法規則の1はたとえば「は
」や「には」や「とは」の助詞が登録されてふり、この
助詞の前にある漢字、カナ文字で構成される単語を切り
出す(336)。次に文法規則テーブル16内の文法規
則の2を読み込み窯内重要語抽出部15にセットする(
S37)。この規則の2には「や」あるいは「と」など
の助詞が登録されており、ステップ336で切り出され
た単語の直前に「や」あるいは「と」がある場合、その
「や」あるいは「と」の前の漢字、カナ文字で構成され
る単語を切り出す(33B)。
ステップS34およびステップ338で切り出された単
語が1文字である場合には経験則で重要語になりえない
のでこれは削除する(S39)。そして他の語を重要語
として使用頻度集計部17に受は渡す(340)。重要
語の抽出が終了すると使用頻度集計部17の最重要語確
定処理に移行する。
次に使用頻度集計部17の最重要語確定処理を第4図に
フローチャートを示して説明する。
まず、入力された重要語を一つ読む(S41)。
入力された重要語が終了したか否を判断しく S 42
 )、終了であれば使用頻度が最も多い重要語を鰻重要
語として確定し重要文の抽出処理に移行する(S43)
終了でなければ入力された原文献を読み(S44)、終
了か否かを判断しく345) 、重要語が原文献内の単
語であるか否かを判断する(346)。原文献内の単語
でない場合はステップ344に戻る。原文献内の単語で
ある場合は、まず原文献内の単語が複合語でその中に重
要語が含まれているときは重要語の使用頻度計数の対象
にしないように計数対象から除外する(347)。また
、頭から5文字が同一の単語については同一語として計
数対象とする( 348 )。そしてステップ347お
よび34Bの条件を加えて重要語の出現頻度を計数する
(349)。
この出現頻度の計数結果により使用頻度が最も多い重要
語を鰻重要語として確定する(343)。この最重要語
確定処理では、原文献内の参照されている図や表の表題
あるいはその内容の単語および参考文献も使用頻度計数
の対象範囲として使用頻度肝数を行う。
この使用頻度集計部17での鰻重要語確定によって確定
された最重要語が含まれかつ重要語が1以上台まれる文
を重要文抽出部18ですべて抽出し、例外処理として「
結果」、「今後」が含まれている文は無条件で重要文と
して抽出する。
次に文章整形部での文章整形処理を第5図にフローチャ
ートを示して説明する。
抽出された重要文は前後の文との脈絡が欠けたものであ
るので、文章としての体をなすようにこれを整形する。
まず、単語削除整形部19に削除単語テーブル20を読
み込みセットする(351)。削除単語テーブルには「
上記」、「上記と」、「前述の」、「前述のように」、
「ここでは」、「これらの」、「この」の単語が登録さ
れており、この単語は抄録文には不要であり、抽出され
た重要文の前後関係とは無関係なので削除されるべき単
語である。
また、文削除整形部21に文削除指示テーブル22を読
み込みセットする(S52)。文削除指示テーブル22
には、「表」あるいは「図」と次の語が数字の場合の文
あるいは文頭に数字がある文を削除対象文として登録さ
れている。そして、重要文抽出部18で抽出された重要
文を一つ読み込み(S53)、終了か否かを判断しく3
54) 、K了でない場合には、単語削除整形部19に
セットされた単語を文中から削除する(S55)。そし
て文削除整形部21においてステップS52でセットさ
れた単語を含む文および削除すべき条件に合致する文を
そっくり削除する(S56)。これはたとえば抽出した
重要文が「実験1の結果から・・・・・」、「表4を見
ると、・・・・」、「次に実験2の結果を表5に示す。
」などの文である場合を削除するものである。そしてそ
の結果を出力として書き出す(357)。
なお、上述の単語削除整形と文削除整形とによる文章整
形処理では、意味が重複している文や前後の関係で意味
不明となる文が残る。このため、削除単語テーブル20
および文削除指示テーブル22に基づく自動的な文章整
形の後に、意味が重複している文の削除と前後関係から
意味不明となる文の削除を人手により行う処理が入る。
これは出力表示された処理結果の文を見ながら操作者が
文削除整形部21を外部から操作して自然な抄録文に整
形する作業である。この作業は、文章整形部で整形され
た文章を削除するだけの処理であり、文や単語を追加す
る作業は不要である。このため、人手による文章整形作
業は従来に比べて簡単であり効率が向上する。
上述の実施例により具体的に入力文献から抄録文を作成
した例を次頁の〔発明の効果〕以降に挙げて説明する。
この抄録文作成対象とした文献はその題名を「科学技術
文献からの専門用語情報の自動抽出」とする情報処理学
会第35目金国大会で発表された論文である。この論文
は表題〔論文〕で示される内容である。この論文から、
表題〔重要語〕に示すように重要語を抽出して最重要語
を確定した後、表題〔重要文〕のように重要文を抽出す
る。そしてこの重要文から不要な単語および文を削除し
た結果が表題〔自動整形後〕の抄録文である。これに上
述のように人手による削除作業を行った結果が表題〔抄
録〕の抄録文である。
なお、上述の実施例に挙げた文法規則テーブル16に登
録されている文法規則の1および2の重要語を抽出すべ
き単語の条件あるいは重要文抽出部18での無条件の重
要文抽出条件および文章整形部での抽出した重要文から
削除すべき単語、あるいは削除すべき重要文などの条件
は一例であり、これらの条件以外に抄録を作成すべき文
献の性格や求められる抄録文により種々の条件を課する
ことが可能である。
〔発明の効果〕
以上説明したように、本発明によれば、入力された文献
の全文からキーワードとなる最重要語を抽出し、そのキ
ーワードに基づいて全文の中から抽出した文を自動的に
前後関係の脈絡を調整して文章としてなりたつように整
形して抄録文を出力するので、後に人手による抄録文の
整形作業を行う場合の効率が高まる。また、抄録文を作
成しようとする文献の図の説明や参考文献等を含めた全
文の中からキーワードにより重要文を抽出するので、抄
録文に必要な重要文を欠くことを防止でき、検索に必要
な情報を欠くおそれがなくなる効果がある。
(以下本頁余白) 〔論文〕 科学技術文献からの専門用語情報の自動抽出柴田浩−1
宮永喜−1栃内香次(北海道大学)1、 はじめに 我々は、科学技術文献中から専門用語の定義や説明を与
える文を自動的に抽出する研究を行っている。本稿では
、その概要とこれまでに得られた実験結果について述べ
る。
2、概要 本研究で提案する自動抽出法は文章の表記上の特徴を利
用して専門用語に関する情報を自動的に抽出するもので
専門用語に付いての質問応答システムや専門用語集の作
成支援などへの応用を目指している。ある専門用語に関
して文献から抽出すべき情報(専門用語情報)には、用
語の意味・定義の他に、性質や種類など多数考えられる
が、当面は用語の意味・定義に絞っている。対象となる
文献としては、ある分野の入門書的なものを用いている
3、抽出手順 専門用語情報は、その用語を含む文、あるいはその前後
のあまり離れていない文の中で述べられているはずであ
る。
そこで、抽出手順は以下のようになる。
1、情報を得たい用語を含んだ文を文献中より抜き出す
2、抜き出された文、およびその前後の文が専門用語情
報を含んでいるかどうかを判断する。
2、で行う判断は、次に述べるようにさらに二段階に分
けられる。
3、1抽出ルール ある目的をもってかかれた文には、その目的ごとに共通
した特徴があると考えられる。
そのような特徴を抽出ルールと呼び、対象となる文との
マツチングをとることによって目的とする文を選び出し
ている。
現在、以下に示す9種類のルールを用いており、下線の
部分がマツチングさせる部分である。
a く用8吾〉とは−である。
b 〈用語〉は−である。
i く用語〉ニー。
但しルールcSeのく用語〉は、見出しとして使われて
いるものである。
3.2選択ルール 上記抽出ルールの適用のみでは抽出文の精度が不十分で
ある(後述、実験結果参照)。
そこで、抽出ルールによって選ばれた文を候補文として
、それらの文の中から有効な文を一つだけ選択する。こ
のとき用いる手掛りには、対象とする用語が文献中で出
現した順番(用語順位)、抽出ルールによって抽出され
た文の順番(抽出順位)、用いた抽出ルールの正確さ(
優先順位)、抽出ルールで得られた文の前で目的の用語
が見出しとなっているか(見出し則)等があり、抽出ル
ールによる実験結果を分析して得られたものである。こ
れらを選択ルールといい、その手順を以下に示す。
1、見出し則に当てはまる文があれば優先的に取り出す
2、用語順位10以上、抽出順位3以上の文を取り除く
3、候補文が二つ残った場合には、抽出ルールの優先順
位にしたがって一つ選ぶ。優先順位が同じ場合には、抽
出順位の小さい方を選ぶ。なお、抽出ルールの優先順位
は a、f、h、i>c、d、>b、e、gである。
4、実験 上記のアルゴリズムに基づき抽出実験を行った。
抽出結果の評価は、抽出されるべき文を人間があらかじ
め選んでおき、それと比較するという方法によった。実
験に用いた試料は、情報検索とデータベース、有線通信
工学の教科書、各−冊ずつで各々その半分程度を用いた
また、情報抽出の対象とした用語は巻末の用語索引に記
載されている語から選んだ。評価値の算出式を以下に示
す。
実験は二種類行い、抽出ルールのみを用いた場合の結果
を表1に、選択ルールを併用した場合の結果を表2に示
す。
抽出ルールのみを用いた場合では、抽出率は80%以上
の値が得られているが、正抽出率は文献により違いがあ
り、文献3では比較的よい値が得られているのに対し文
献1.2では40%程度と低い値になっている。抽出の
正確さをルールごとに調べた結果、ルールbSe、gが
特に悪い結果となっていることが判った。また、ルール
c、dはあまり使われていなかった。用語順位について
は、5番目までに正しい文が含まれていることが多く、
10番目以降にはほとんど含まれていない。抽出順位で
は、1番目と2番目に含まれていることがほとんどであ
った。また、見出し則が適用された場合は非常に正確に
抽出が行われた。選択ルールを用いると、正抽出率は2
0%向上し、抽出率の低下も6%程度であった。これに
ついても文献による違いがあり、文献1ではかなり効果
的であった。
5、終わりに 選択ルールを用いることにより、抽出率をあまり下げず
に正抽出率を向上させることができた。
今後は、より多くの文献について実験を行い、本方式が
一般的に有効であるか確認する必要がある。
参考文献 1) 柴田、樹内、水田:昭和61年電気関係学会北海
道支部連合大会講演論文集、2522) 柴田、樹内、
水田:電子情報通信学会創立70周年記念総合全国大会 文集、1449  情報処理学会 全国大会 (昭和62年)講演論 35回(昭和62年後期) 表1抽出ルールのみの実験結果 (以下本頁余白) 表2選択ルールを用いた実験結果 (以下本頁余白) 〔重要語〕 重要語二頻度 科学技術文献:2 専門用語情報:4 自動抽出:1 自動抽出法=1 専門用語情報=4 抽出手順:2 判断:2 場合=6 場合=6 優先順位=4 評価:2 資料:1 用語:14 実験:4 抽出率=3 正抽出率:4 場合二6 正抽出率:4 今後=1 結果:4 今後:1 最重要単語は、用語です。
(以下本頁余白) 〔重要文〕 我々は、科学技術文献中から専門用語の定義や説明を与
える文を自動的に抽出する研究を行っている。本稿では
、その概要とこれまでに得られた実験結果について述べ
る。ある専門用語に関して文献から抽出すべき情報(専
門用語情報)には、用語の意味・定義の他に、性質や種
類など多数考えられるが、当面は用語の意味・定義に絞
っている。専門用語情報は、その用語を含む文、あるい
はその前後のあまり離れていない文の中で述べられてい
るはずである。
2、抜き出された文、およびその前後の文が専門用語情
報を含んでいるかどうかを判断する。
上記抽出ルールの適用のみでは抽出文の精度が不十分で
ある(後述、実験結果参照)。このとき用いる手掛りに
は、対象とする用語が文献中で出現した順番(用語順位
)、抽出ルールによって抽出された文の順番(抽出順位
)、用いた抽出ルールの正確さ(優先順位)、抽出ルー
ルで得られた文の前で目的の用語が見出しとなっている
か(見出し則)等があり、抽出ルールによる実験結果を
分析して得られたものである。抽出結果の評価は、抽出
されるべき文を人間があらかじめ選んでおき、それと比
較するという方法によった。実験は二種類行い、抽出ル
ールのみを用いた場合の結果を表1に、選択ルールを併
用した場合の結果を表2に示す。抽出の正確さをルール
ごとに調べた結果、ルールbSeSgが特に悪い結果と
なっていることが判った。今後は、より多くの文献につ
いて実験を行い、本方式が一般的に有効であるか確認す
る必要がある。
表1抽出ルールのみの実験結果 (以下本頁余白) 〔自動整形後〕 我々は、科学技術文献中から専門用語の定義や説明を与
える文を自動的、に抽出する研究を行っている。本稿で
は、その概要とこれまでに得られ、た実験結果について
述べる。ある専門用語に関して文献から抽出すべき情報
(専門用語情報)には、用語の意味・定義の他に、性質
や種類など多数考えられるが、当面は用語の意味・定義
に絞っている。専門用語情報は、その用語を含む文、あ
るいはその前後のあまり離れていない文の中で述べられ
ているはずである。
2、抜き出された文、およびその前後の文が専門用語情
報を含んでいるかどうかを判断する。
抽出ルールの適用のみでは抽出文の精度が不十分である
(後述、実験結果参照)。このとき用いる手掛りには、
対象とする用語が文献中で出現した順番(用語順位)、
抽出ルールによ−って抽出された文の順番(抽出順位)
、用いた抽出ルールの正確さ(優先順位)、抽出ルール
で得られた文の前で目的の用語が見出しとなっているか
(見出し則)等があり、抽出ルールによる実験結果を分
析して得られたものである。抽出結果の評価は、抽出さ
れるべき文を人間があらかじめ選んでおき、それと比較
するという方法によった。抽出の正確さをルールごとに
調べた結果、ルールbSe、gが特に悪い結果となって
いることが判った。今後は、より多くの文献について実
験を行い、本方式が一般的に有効であるか確認する必要
がある。
(以下本頁余白) 〔抄録〕 我々は、科学技術文献中から専門用語の定義や説明を与
える文を自動的に抽出する研究を行っている。本稿では
、その概要とこれまでに得られた実験結果について述べ
る。ある専門用語に関して文献から抽出すべき情報(専
門用語情報)には、用語の意味・定義の他に、性質や種
類など多数考えられるが、当面は用語の意味・定義に絞
っている。専門用語情報は、その用語を含む文、あるい
はその前後のあまり離れていない文の中で述べられてい
るはずである。用いる手掛りには、対象とする用語が文
献中で出現した順番(用語順位)、抽出ルールによって
抽出された文の順番(抽出順位)、用いた抽出ルールの
正確さ(優先順位)、抽出ルールで得られた文の前で目
的の用語が見出しとなっているか(見出し則)等があり
、抽出ルールによる実験結果を分析して得られたもので
ある。抽出結果の評価は、抽出されるべき文を人間があ
らかじめ選んでおき、それと比較するという方法によっ
た。今後は、より多くの文献について実験を行い、本方
式が一般的に有効であるか確認する必要がある。
(以下本頁余白)
【図面の簡単な説明】
第1図は本発明一実施例の抄録文作成装置の構成を示す
ブロック図。 第2図は本実施例の処理動作を示すフローチャート。 第3図は重要語抽出動作を示すフローチャート。 第4図は鰻重要語抽出動作を示すフローチャート。 第5図は文章整形動作を示すフローチャート。 11・・・前処理部、12・・・表題側表題抽出部、1
3・・・文抽出部、14・・・表題側表題重要語抽出部
、15・・・突内重要語抽出部、16・・・文法規則テ
ーブル、17・・・使用頻度集計部、18・・・重要文
抽出部、19・・・単語削除整形部、20・・・削除単
語テーブノペ21・・・文削除整形部、22・・・文削
除指示テーブル。

Claims (1)

  1. 【特許請求の範囲】 1、入力された文章の各文の区切りを明確にする前処理
    手段(11)と、 この前処理手段で区切られた文の中から重要語を抽出す
    る重要語抽出手段(12〜16)と、この重要語抽出手
    段で抽出した重要語の現れる文を重要文として抽出する
    重要文抽出手段(18)と、 この重要文抽出手段で抽出した重要文を元にして抄録文
    を作成する文章整形手段(19〜22)とを備えた抄録
    文作成装置において、 上記重要語抽出手段で抽出した重要語の使用頻度を計数
    し最も多く出現する重要語を最重要語として確定する最
    重要語確定手段(17)を備え、上記重要文抽出手段は
    、上記最重要語確定手段で確定された最重要語が含まれ
    かつ重要語が1以上含まれている文および特定の語を含
    む文を重要文として抽出する手段を含み、 上記文章整形手段は、抽出した重要文の中から特定の不
    要な単語を削除するとともに特定の条件に合致する重要
    文を削除する手段を含む ことを特徴とする抄録文作成装置。 2、重要語抽出手段は、文に含まれる単語の中から助詞
    の前の漢字またはカナ文字で構成される単語を切り出す
    手段と、切り出された単語から一文字で構成された文字
    を除外する手段とを含む請求項1に記載の抄録文作成装
    置。 3、文章整形手段は、削除対象となる特定の不要な単語
    が登録された削除単語テーブルを参照して不要な単語を
    削除する手段と、削除対象となる文の条件が登録された
    文削除指示テーブルを参照して不要な文を削除する手段
    とを含む請求項1または請求項2に記載の抄録文作成装
    置。
JP1028125A 1989-02-06 1989-02-06 抄録文作成装置 Expired - Lifetime JPH0743717B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1028125A JPH0743717B2 (ja) 1989-02-06 1989-02-06 抄録文作成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1028125A JPH0743717B2 (ja) 1989-02-06 1989-02-06 抄録文作成装置

Publications (2)

Publication Number Publication Date
JPH02257266A true JPH02257266A (ja) 1990-10-18
JPH0743717B2 JPH0743717B2 (ja) 1995-05-15

Family

ID=12240070

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1028125A Expired - Lifetime JPH0743717B2 (ja) 1989-02-06 1989-02-06 抄録文作成装置

Country Status (1)

Country Link
JP (1) JPH0743717B2 (ja)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5077668A (en) * 1988-09-30 1991-12-31 Kabushiki Kaisha Toshiba Method and apparatus for producing an abstract of a document
JPH06259423A (ja) * 1993-03-02 1994-09-16 N T T Data Tsushin Kk 要約自動作成方式
JPH07210185A (ja) * 1993-11-30 1995-08-11 Sony Corp 朗読情報作成装置および朗読装置
EP0741364A1 (en) * 1995-05-01 1996-11-06 Xerox Corporation Automatic method of selecting multi-word key phrases from a document
EP0751470A1 (en) * 1995-06-28 1997-01-02 Xerox Corporation Automatic method of generating feature probabilities for automatic extracting summarization
JPH09212504A (ja) * 1996-02-06 1997-08-15 N T T Data Tsushin Kk 文書校正装置
JPH1040267A (ja) * 1996-07-26 1998-02-13 Nec Corp 文書要約ビューア
JPH10207891A (ja) * 1997-01-17 1998-08-07 Fujitsu Ltd 文書要約装置およびその方法
WO1998047083A1 (en) * 1997-04-16 1998-10-22 British Telecommunications Public Limited Company Data summariser
JPH10307837A (ja) * 1997-05-09 1998-11-17 Sharp Corp 検索装置並びに検索プログラムを記録した記録媒体
EP0883846A1 (en) * 1996-01-22 1998-12-16 Lexis-Nexis, A Division of Reed Elsevier Inc. Phrase recognition method and apparatus
US5918240A (en) * 1995-06-28 1999-06-29 Xerox Corporation Automatic method of extracting summarization using feature probabilities
JPH11259521A (ja) * 1998-03-13 1999-09-24 Fujitsu Ltd 文書理解支援装置、要約文生成方法、並びに文書理解支援プログラムを記録したコンピュータ読み取り可能な記録媒体
JPH11282881A (ja) * 1998-01-27 1999-10-15 Fuji Xerox Co Ltd 文書要約装置および記録媒体
JP2001202389A (ja) * 2000-12-11 2001-07-27 Toshiba Corp 文書検索装置及び文書検索方法
JP2002288091A (ja) * 2001-03-28 2002-10-04 Seiko Epson Corp メール、データの表示
WO2011118428A1 (ja) * 2010-03-26 2011-09-29 日本電気株式会社 要求獲得システム、要求獲得方法、及び要求獲得用プログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10340271A (ja) * 1997-06-09 1998-12-22 Fuji Xerox Co Ltd 文書抄録作成装置及び文書抄録作成プログラムを記録した記憶媒体

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61100861A (ja) * 1984-10-23 1986-05-19 Toshiba Corp 文書編集装置
JPS61117658A (ja) * 1984-11-13 1986-06-05 Fujitsu Ltd 文章抄録装置
JPS6428770A (en) * 1987-07-24 1989-01-31 Nippon Atomic Ind Group Co Key word selector

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61100861A (ja) * 1984-10-23 1986-05-19 Toshiba Corp 文書編集装置
JPS61117658A (ja) * 1984-11-13 1986-06-05 Fujitsu Ltd 文章抄録装置
JPS6428770A (en) * 1987-07-24 1989-01-31 Nippon Atomic Ind Group Co Key word selector

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5077668A (en) * 1988-09-30 1991-12-31 Kabushiki Kaisha Toshiba Method and apparatus for producing an abstract of a document
JPH06259423A (ja) * 1993-03-02 1994-09-16 N T T Data Tsushin Kk 要約自動作成方式
JPH07210185A (ja) * 1993-11-30 1995-08-11 Sony Corp 朗読情報作成装置および朗読装置
EP0741364A1 (en) * 1995-05-01 1996-11-06 Xerox Corporation Automatic method of selecting multi-word key phrases from a document
US5745602A (en) * 1995-05-01 1998-04-28 Xerox Corporation Automatic method of selecting multi-word key phrases from a document
EP0751470A1 (en) * 1995-06-28 1997-01-02 Xerox Corporation Automatic method of generating feature probabilities for automatic extracting summarization
US5918240A (en) * 1995-06-28 1999-06-29 Xerox Corporation Automatic method of extracting summarization using feature probabilities
EP0883846A4 (en) * 1996-01-22 1999-04-14 Lexis Nexis A Division Of Reed BLOCK DETECTION METHOD AND DEVICE
EP0883846A1 (en) * 1996-01-22 1998-12-16 Lexis-Nexis, A Division of Reed Elsevier Inc. Phrase recognition method and apparatus
JPH09212504A (ja) * 1996-02-06 1997-08-15 N T T Data Tsushin Kk 文書校正装置
JPH1040267A (ja) * 1996-07-26 1998-02-13 Nec Corp 文書要約ビューア
JPH10207891A (ja) * 1997-01-17 1998-08-07 Fujitsu Ltd 文書要約装置およびその方法
WO1998047083A1 (en) * 1997-04-16 1998-10-22 British Telecommunications Public Limited Company Data summariser
US6334132B1 (en) 1997-04-16 2001-12-25 British Telecommunications Plc Method and apparatus for creating a customized summary of text by selection of sub-sections thereof ranked by comparison to target data items
JPH10307837A (ja) * 1997-05-09 1998-11-17 Sharp Corp 検索装置並びに検索プログラムを記録した記録媒体
JPH11282881A (ja) * 1998-01-27 1999-10-15 Fuji Xerox Co Ltd 文書要約装置および記録媒体
JPH11259521A (ja) * 1998-03-13 1999-09-24 Fujitsu Ltd 文書理解支援装置、要約文生成方法、並びに文書理解支援プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2001202389A (ja) * 2000-12-11 2001-07-27 Toshiba Corp 文書検索装置及び文書検索方法
JP2002288091A (ja) * 2001-03-28 2002-10-04 Seiko Epson Corp メール、データの表示
WO2011118428A1 (ja) * 2010-03-26 2011-09-29 日本電気株式会社 要求獲得システム、要求獲得方法、及び要求獲得用プログラム
US9262394B2 (en) 2010-03-26 2016-02-16 Nec Corporation Document content analysis and abridging apparatus

Also Published As

Publication number Publication date
JPH0743717B2 (ja) 1995-05-15

Similar Documents

Publication Publication Date Title
JPH02257266A (ja) 抄録文作成装置
CN105868176A (zh) 基于文字的视频合成方法及其系统
CN102165437A (zh) 信息处理装置及信息处理方法
CN102165438A (zh) 信息处理装置及信息处理方法
CN104765849A (zh) 一种获取拷贝数据来源信息的方法和系统
Mallinson et al. Sentence compression for arbitrary languages via multilingual pivoting
KR101423254B1 (ko) 도서의 목차 암기를 위한 이미지 목차 편집 시스템
JPH0484271A (ja) 文書内情報検索装置
Berglund Gonna and going to in the spoken component of the British National Corpus
JPS61248160A (ja) 文書情報登録方式
JPH0619968A (ja) 専門用語自動抽出装置
KR970049752A (ko) 동사정보를 이용한 한국어 자연어 질의 정보검색 방법
JP3710463B2 (ja) 翻訳支援辞書装置
JPH0877179A (ja) 文書索引生成装置
Zhang et al. The Construction And Application Of The Multimedia Corpus Of Bisu Language: Taking The Study On Measure Words As An Example
JPS6175952A (ja) 文書入力処理方式
JPH06348756A (ja) 索引作成装置及び索引利用装置
JP7266225B1 (ja) テキスト解析装置、方法、およびプログラム
JPH0668159A (ja) 検索装置
King Appendix 4: Languages and co-production countries, feature films
CN111625643B (zh) 一种数据处理方法及装置、阅读对象处理方法
King Appendix 2: Frequent collaborators
Campbell Note on translations
JPH05282361A (ja) データベース作成支援装置及び機械翻訳装置
Lee et al. GPT-enabled SNS Sentence writing support system Based on Image Object and Meta Information