JPH0743717B2 - 抄録文作成装置 - Google Patents

抄録文作成装置

Info

Publication number
JPH0743717B2
JPH0743717B2 JP1028125A JP2812589A JPH0743717B2 JP H0743717 B2 JPH0743717 B2 JP H0743717B2 JP 1028125 A JP1028125 A JP 1028125A JP 2812589 A JP2812589 A JP 2812589A JP H0743717 B2 JPH0743717 B2 JP H0743717B2
Authority
JP
Japan
Prior art keywords
sentence
important
word
sentences
extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP1028125A
Other languages
English (en)
Other versions
JPH02257266A (ja
Inventor
保 岩淵
幹夫 荒井
實 藍澤
Original Assignee
株式会社テレマティーク国際研究所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社テレマティーク国際研究所 filed Critical 株式会社テレマティーク国際研究所
Priority to JP1028125A priority Critical patent/JPH0743717B2/ja
Publication of JPH02257266A publication Critical patent/JPH02257266A/ja
Publication of JPH0743717B2 publication Critical patent/JPH0743717B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は論文等の文献の抄録文作成装置に関する。特に
全文検索を行うデータベースでの収録文献の全文の中か
ら抄録文に必要な意味情報を含む重要文を抽出して抄録
文を自動的に作成する抄録文作成装置に関する。
なお本明細書において「文」とは文頭から「。」あるい
は「.」で区切られる一つのまとまった意味を終わりま
で表したひとつづきの文字列を言い、また「単語」とは
自立語のことをいう。
〔概要〕
本発明は入力された文章から必要な文を抽出して抄録文
を作成する抄録文作成装置において、 入力された全文の中からキーワードとなる重要語を抽出
してその出現頻度から最重要語を確定し最重要語を含む
文および特定の文を重要文として抽出し、この抽出した
重要文から不要な語および不要な文を削除することによ
り、 入力された全文から簡易な形で抄録文を作成し抄録文の
作成を省力化するものである。
〔従来の技術〕
近年、論文等の文献を収録したデータベースシステムに
おいて全文で収録した文献を提供することが要請されて
いる。この全文提供のデータベースシステムにおいて
は、利用者が文献を検索し易くするために全文からの意
味的情報を抽出して、この抽出した情報から抄録文を作
成する抄録文加工作成システムが必要となっている。そ
してこの抄録文の作成を省力化し自動的に行うシステム
が求められている。
従来、抄録文の作成は人手を介してその文献に記述され
ている用語の中から使用頻度が高い用語を重要語(キー
ワード)の形で抽出して記述することで行われていた。
しかし、このような方法では抄録文を作成するに膨大な
人手を必要とするため、文献データベースの作成に多大
の人手を必要としまた費用がかかるものであった。
このような問題に対して、自動的に抄録文を作成するシ
ステムとして、文献の文章をパラグラフごとに分割し、
この分割されたパラグラフの文章の中から用語を抽出
し、この抽出した用語の頻度を計数して、最も重要と見
られる用語を含む文を重要文すなわちキーセンテンスと
してパラグラフごとに文を抽出して抄録文を作成する文
章抄録装置の技術が提案されている(特開昭61−117658
号公報)。
〔発明が解決しようとする問題点〕
このパラグラフごとに文章を分割して一つの重要文を抽
出する方式は、パラグラフ単位で重要な概念が述べられ
ており、用語の使用頻度はこの重要な概念に対応してい
るものと考えられるため、収録文献の記述しようとする
概念と対応して抄録文を作成する点で優れたものであ
る。
しかし、このパラグラフごとに一つの文のみを単に抽出
して抄録文とする方式では、文章的につながりがない抽
出した文を単に羅列するにすぎなくなるため、抄録文が
不自然なものとなる欠点がある。
また、パラグラフごとに一つの文を抽出するだけなの
で、一つのパラグラフに最も重要な概念を表現する文が
二つ以上含まれている場合には、一つの文しか抽出しな
いので、その文章で表されている重要な概念の用語が含
まれる文章を落としてしまい、全文検索用の抄録として
意味的情報の欠落が生じる問題があった。
本発明は、上述の問題点に鑑みなされたもので、入力さ
れた文献から必要な用語を含む文の欠落を生ずることが
なく、また抄録文が自然な文のつながりとなる抄録文を
作成できる抄録文作成装置を提供することを目的とす
る。
〔問題点を解決するための手段〕
本発明は、入力された文章の各文の区切りを明確にする
前処理手段と、この前処理手段で区切られた文の中から
重要語を抽出する重要語抽出手段と、この重要語抽出手
段で抽出した重要語の現れる文を重要文として抽出する
重要文抽出手段と、この重要文抽出手段で抽出した重要
文を元にして抄録文を作成する文章整形手段とを備えた
抄録文作成装置において、上記重要語抽出手段で抽出し
た重要語の使用頻度を計数し最も多く出現する重要語を
最重要語として確定する最重要語確定手段を備え、上記
重要文抽出手段は、上記最重要語確定手段で確定された
最重要語が含まれかつ重要語が1以上含まれている文お
よび特定の語を含む文を重要文として抽出する手段を含
み、上記文章整形手段は、抽出した重要文の中から特定
の不要な単語を削除するとともに特定の条件に合致する
重要文を削除する手段を含むことを特徴とする。
また重要語抽出手段は、文に含まれる単語の中から助詞
の前の漢字またはカナ文字で構成される単語を切り出す
手段と、切り出された単語から一文字で構成された文字
を除外する手段とを含むことができる。
また文章整形手段は、削除対象となる特定の不要な単語
が登録された削除単語テーブルを参照して不要な単語を
削除する手段と、削除対象となる文の条件が登録された
文削除指示テーブルを参照して不要な文を削除する手段
とを含むことができる。
〔作用〕
本発明では抄録を作成しようとする文章の空白などを削
除して文の区切りをはっきりさせる前処理を行う。前処
理を行った後、「は」とか「には」などの助詞の前にあ
る漢字、あるいはカナ文字などの単語を重要語として抽
出する。
抽出された重要語の使用頻度を計数し、最も頻度の高い
単語を最重要語として確定する。この確定された最重要
語が含まれかつ重要語が1以上含まれている文および
「結果」などの特定の単語が含まれている文を重要文と
して抽出する。
抽出された重要文から、「上記」などの不要な単語を削
除し、また、「表」、「図」等の後に数字が来るような
不要な文を削除する文章整形作業を行い、抄録文を作成
出力する。
〔実施例〕
以下図面を参照して本発明の実施例を説明する。
第1図は本発明一実施例の抄録文作成装置を示すブロッ
ク図である。
本実施例の抄録文作成装置は、次のような構成からなっ
ている。まず、入力された文献ファイルの中から、本文
中の図や表などの挿入によって生じた不要な空白や復帰
改行コードなどを削除して文の区切りを確実なものとす
る前処理部11を備える。次にこの前処理部11で前処理さ
れた文章から表題、副表題の行数を指示することにより
表題副表題を分離する表題副表題抽出部12を備える。ま
たこの表題副表題抽出部12で分離された本文から後述す
る重要語を抽出できるように文単位に分割する文抽出部
13を備える。そして表題副表題抽出部12の出力が導かれ
抽出された表題と副表題中から指示された行の中で漢
字、カナ文字で構成される単語を抽出する表題副表題重
要語抽出部14と、文抽出部13で分割された文の中から文
法規則テーブル16の文法規則に基づいて本文中の
「は」、「には」、「とは」などの前の漢字やカナ文字
で構成される単語などを抽出する文内重要語抽出部15を
備える。
さらに上記の表題副表題重要語抽出部14および文内重要
語抽出部15で抽出された重要語の使用頻度を計数し最も
多い単語を最重要語として確定する使用頻度集計部17を
備え、この使用頻度集計部17で確定された最重要語が含
まれかつ重要語が1以上含まれている文および「結
果」、「今後」などの特定の単語が含まれている文を重
要文として抽出する重要文抽出部18を備える。この前処
理部11、表題副表題抽出部12、文抽出部13、表題副表題
重要語抽出部14、文内重要語抽出部15、文法規則テーブ
ル16、使用頻度集計部17、重要文抽出部18が本抄録文作
成装置の主題分析部を構成する。
さらに本実施例抄録文作成装置は、文章整形部として、
重要文抽出部18で抽出された重要文のうちから「上
記」、「上記と」、「前述の」などの不要な削除すべき
単語が登録されている削除単語テーブル20を参照して不
要な単語を削除する単語削除整形部19およびこの単語削
除整形部19で不要な単語が削除された重要文から、
「表」や「図」の語の後に漢字がある文などの不要な文
の条件が登録されている文削除指示テーブル22を参照し
て不要な文を削除する文削除整形部21を備えている。
次に本実施例装置による抄録文作成処理動作を第2図に
フローチャートを示して説明する。
まず抄録文を作成すべき対象原文献ファイルが入力され
る(S1)。この原文献の文章は、文の区切りを確実にす
る前処理が施される(S2)。そして前処理が施された文
章から抄録文作成に必要な重要語が抽出される(S3)。
抽出された重要語の使用頻度を集計して最も頻度の高い
重要語を最重要語として確定する(S4)。次に確定され
た最重要語に基づいて、最重要語を含み重要語を1以上
含む文および特定の単語を含む文を重要文として抽出す
る(S5)。抽出された重要文の中から不要な単語を削除
し、また不要な文章を削除して抄録文を整形する文章整
形処理を行う(S6)。この文章整形処理は自動的に行わ
れる。整形された抄録文は出力される(S7)。
このような処理動作により入力された原文献ファイルか
ら抄録文が作成される。なお、この処理動作によって作
成された抄録文には意味が重複した文や前後関係から意
味不明となる文があるのでこれは後に人手による作業に
よって削除して必要な抄録文を作成する。
次に本実施例装置の各部の動作について具体的に説明す
る。
第3図は本実施例の破線で囲まれた表題副表題抽出部1
2、文抽出部13、表題副表題重要語抽出部14、文内重要
語抽出部15による重要語を抽出する動作を示すフローチ
ャートである。この第3図のフローチャートに従って重
要語の抽出動作を説明する。
まず原文献より一文を読み(S31)、文が終りか否か判
断し(S32)、終了であれば重要語抽出を終了し、使用
頻度集計動作に移行する。終了でない場合には、一文が
表題あるいは副表題であるか否かを判断する(S33)。
表題あるいは副表題であれば、表題副表題重要語抽出部
14において、漢字、カナ文字で構成される単語を重要語
として切り出す(S34)。
表題副表題ではない場合には、文法規則テーブル16内の
文法規則の1を読み込み、文内重要語抽出部15にセット
する(S35)。この文法規則の1はたとえば「は」や
「には」や「とは」の助詞が登録されており、この助詞
の前にある漢字、カナ文字で構成される単語を切り出す
(S36)。次に文法規則テーブル16内の文法規則の2を
読み込み文内重要語抽出部15にセットする(S37)。こ
の規則の2には「や」あるいは「と」などの助詞が登録
されており、ステップS36で切り出された単語の直前に
「や」あるいは「と」がある場合、その「や」あるいは
「と」の前の漢字、カナ文字で構成される単語を切り出
す(S38)。
ステップS34およびステップS38で切り出された単語が1
文字である場合には経験則で重要語になりえないのでこ
れは削除する(S39)。そして他の語を重要語として使
用頻度集計部17に受け渡す(S40)。重要語の抽出が終
了すると使用頻度集計部17の最重要語確定処理に移行す
る。
次に使用頻度集計部17の最重要語確定処理を第4図にフ
ローチャートを示して説明する。
まず、入力された重要語を一つ読む(S41)。入力され
た重要語が終了したか否を判断し(S42)、終了であれ
ば使用頻度が最も多い重要語を最重要語として確定し重
要文の抽出処理に移行する(S43)。
終了でなければ入力された原文献を読み(S44)、終了
か否かを判断し(S45)、重要語が原文献内の単語であ
るか否かを判断する(S46)。原文献内の単語でない場
合はステップS44に戻る。原文献内の単語である場合
は、まず原文献内の単語が複合語でその中に重要語が含
まれているときは重要語の使用頻度計数の対象にしない
ように計数対象から除外する(S47)。また、頭から5
文字が同一の単語については同一語として計数対象とす
る(S48)。そしてステップS47およびS48の条件を加え
て重要語の出現頻度を計数する(S49)。この出現頻度
の計数結果により使用頻度が最も多い重要語を最重要語
として確定する(S43)。この最重要語確定処理では、
原文献内の参照されている図や表の表題あるいはその内
容の単語および参考文献も使用頻度計数の対象範囲とし
て使用頻度計数を行う。
この使用頻度集計部17での最重要語確定によって確定さ
れた最重要語が含まれかつ重要語が1以上含まれる文を
重要文抽出部18ですべて抽出し、例外処理として「結
果」、「今後」が含まれている文は無条件で重要文とし
て抽出する。
次に文章整形部での文章整形処理を第5図にフローチャ
ートを示して説明する。
抽出された重要文は前後の文との脈絡が欠けたものであ
るので、文章としての体をなすようにこれを整形する。
まず、単語削除整形部19に削除単語テーブル20を読み込
みセットする(S51)。削除単語テーブルには「上
記」、「上記と」、「前述の」、「前述のように」、
「ここでは」、「これらの」、「この」の単語が登録さ
れており、この単語は抄録文には不要であり、抽出され
た重要文の前後関係とは無関係なので削除されるべき単
語である。また、文削除整形部21に文削除指示テーブル
22を読み込みセットする(S52)。文削除指示テーブル2
2には、「表」あるいは「図」と次の語が数字の場合の
文あるいは文頭に数字がある文を削除対象文として登録
されている。そして、重要文抽出部18で抽出された重要
文を一つ読み込み(S53)、終了か否かを判断し(S5
4)、終了でない場合には、単語削除整形部19にセット
された単語を文中から削除する(S55)。そして文削除
整形部21においてステップS52でセットされた単語を含
む文および削除すべき条件に合致する文をそっくり削除
する(S56)。これはたとえば抽出した重要文が「実
験」の結果から・・・・・」、「表4を見ると、・・・
・」、「次に実験2の結果を表5に示す。」などの文で
ある場合を削除するものである。そしてその結果を出力
として書き出す(S57)。
なお、上述の単語削除整形と文削除整形とによる文章整
形処理では、意味が重複している文や前後の関係で意味
不明となる文が残る。このため、削除単語テーブル20お
よび文削除指示テーブル22に基づく自動的な文章整形の
後に、意味が重複している文の削除と前後関係から意味
不明となる文の削除を人手により行う処理が入る。これ
は出力表示された処理結果の文を見ながら操作者が文削
除整形部21を外部から操作して自然な抄録文に整形する
作業である。この作業は、文章整形部で整形された文章
を削除するだけの処理であり、文や単語を追加する作業
は不要である。このため、人手による文章整形作業は従
来に比べて簡単であり効率が向上する。
上述の実施例により具体的に入力文献から抄録文を作成
した例を次頁の〔発明の効果〕以降に挙げて説明する。
この抄録文作成対象とした文献はその題名を「科学技術
文献からの専門用語情報の自動抽出」とする情報処理学
会第35回全国大会で発表された論文である。この論文は
表題〔論文〕で示される内容である。この論文から、表
題〔重要語〕に示すように重要語を抽出して最重要語を
確定した後、表題〔重要文〕のように重要文を抽出す
る。そしてこの重要文から不要な単語および文を削除し
た結果が表題〔自動整形後〕の抄録文である。これに上
述のように人手による削除作業を行った結果が表題〔抄
録〕の抄録文である。
なお、上述の実施例に挙げた文法規則テーブル16に登録
されている文法規則の1および2の重要語を抽出すべき
単語の条件あるいは重要文抽出部18での無条件の重要文
抽出条件および文章整形部での抽出した重要文から削除
すべき単語、あるいは削除すべき重要文などの条件は一
例であり、これらの条件以外に抄録を作成すべき文献の
性格や求められる抄録文により種々の条件を課すること
が可能である。
〔発明の効果〕
以上説明したように、本発明によれば、入力された文献
の全文からキーワードとなる最重要語を抽出し、そのキ
ーワードに基づいて全文の中から抽出した文を自動的に
前後関係の脈絡を調整して文章としてなりたつように整
形して抄録文を出力するので、後に人手による抄録文の
整形作業を行う場合の効率が高まる。また、抄録文を作
成しようとする文献の図の説明や参考文献等を含めた全
文の中からキーワードにより重要文を抽出するので、抄
録文に必要な重要文を欠くことを防止でき、検索に必要
な情報を欠くおそれがなくなる効果がある。
〔論文〕
科学技術文献からの専門用語情報の自動抽出柴田浩一、
宮永喜一、栃内香次(北海道大学) 1.はじめに 我々は、科学技術文献中から専門用語の定義や説明を与
える文を自動的に抽出する研究を行っている。本稿で
は、その概要とこれまでに得られた実験結果について述
べる。
2.概要 本研究で提案する自動抽出法は文章の表記上の特徴を利
用して専門用語に関する情報を自動的に抽出するもので
専門用語に付いての質問応答システムや専門用語集の作
成支援などへの応用を目指している。ある専門用語に関
して文献から抽出すべき情報(専門用語情報)には、用
語の意味・定義の他に、性質や種類など多数考えられる
が、当面は用語の意味・定義に絞っている。対象となる
文献としては、ある分野の入門書的なものを用いてい
る。
3.抽出手順 専門用語情報は、その用語を含む文、あるいはその前後
のあまり離れていない文の中で述べられているはずであ
る。
そこで、抽出手順は以下のようになる。
1.情報を得たい用語を含んだ文を文献中より抜き出す。
2.抜き出された文、およびその前後の文が専門用語情報
を含んでいるかどうかを判断する。
2.で行う判断は、次に述べるようにさらに二段階に分け
られる。
3.1抽出ルール ある目的をもってかかれた文には、その目的ごとに共通
した特徴があると考えられる。
そのような特徴を抽出ルールと呼び、対象となる文との
マッチングをとることによって目的とする文を選び出し
ている。
現在、以下に示す9種類のルールを用いており、下線の
部分がマッチングさせる部分である。
a <用語>とはーである。
b <用語>はーである。
c <用語>これはーである。
d ー<用語>がある。これはーである。
e <用語>ーである。
f ーは<用語>でーである。
g ーが<用語>である。
h ーを<用語>とよぶ。
i <用語>:ー。
但しルールc、eの<用語>は、見出しとして使われて
いるものである。
3.2選択ルール 上記抽出ルールの適用のみでは抽出文の精度が不十分で
ある(後述、実験結果参照)。
そこで、抽出ルールによって選ばれた文を候補分とし
て、それらの文の中から有効な文を一つだけ選択する。
このとき用いる手掛りには、対象とする用語が文献中で
出現した順番(用語順位)、抽出ルールによって抽出さ
れた文の順番(抽出順位)、用いた抽出ルールの正確さ
(優先順位)、抽出ルールで得られた文の前で目的の用
語が見出しとなっているか(見出し則)等があり、抽出
ルールによる実験結果を分析して得られたものである。
これらを選択ルールといい、その手順を以下に示す。
1.見出し則に当てはまる文があれば優先的に取り出す。
2.用語順位10以上、抽出順位3以上の文を取り除く。
3.候補文が二つ残った場合には、抽出ルールの優先順位
にしたがって一つ選ぶ。優先順位が同じ場合には、抽出
順位の小さい方を選ぶ。なお、抽出ルールの優先順位は a,f,h,i>c,d,>b,e,gである。
4.実験 上記のアルゴリズムに基づき抽出実験を行った。抽出結
果の評価は、抽出されるべき文を人間があらかじめ選ん
でおき、それと比較するという方法によった。実験に用
いた試料は、情報検索とデータベース、有線通信工学の
教科書、各一冊ずつで各々その半分程度を用いた。
また、情報抽出の対象とした用語は巻末の用語検索に記
載されている語から選んだ。評価値の算出式を以下に示
す。
実験は二種類行い、抽出ルールのみを用いた場合の結果
を表1に、選択ルールを併用した場合の結果を表2に示
す。
抽出ルールのみを用いた場合では、抽出率は80%以上の
値が得られているが、正抽出率は文献により違いがあ
り、文献3では比較的よい値が得られているのに対し文
献1、2では40%程度と低い値になっている。抽出の正
確さをルールごとに調べた結果、ルールb、e、gが悪
い結果となっていることが判った。また、ルールc、d
はあまり使われていなかった。用語順位については、5
番目までに正しい文が含まれていることが多く、10番目
以降にはほとんど含まれていない。抽出順位では、1番
目と2番目に含まれていることがほとんどであった。ま
た、見出し則が適用された場合は非常に正確に抽出が行
われた。選択ルールを用いると、正抽出率は20%向上
し、抽出率の低下も6%程度であった。これについても
文献による違いがあり、文献1ではかなり効果的であっ
た。
5.終わりに 選択ルールを用いることにより、抽出率をあまり下げず
に正抽出率を向上させることができた。今後は、より多
くの文献について実験を行い、本方式が一般的に有効で
あるか確認する必要がある。
参考文献 1)柴田、栃内、永田:昭和61年電気関係学会北海道支
部連合大会講演論文集、252 2)柴田、栃内、永田:電子情報通信学会創立70周年記
念総合全国大会(昭和62年)講演論文集、1449情報処理
学会35回(昭和62年後期)全国大会 〔重要語〕 重要語:頻度 科学技術文献:2 専門用語情報:4 自動抽出:1 自動抽出法:1 専門用語情報:4 抽出手順:2 判断:2 場合:6 場合:6 優先順位:4 評価:2 資料:1 用語:14 実験:4 抽出率:3 正抽出率:4 場合:6 正抽出率:4 今後:1 結果:4 今後:1 最重要単語は、用語です。
〔重要文〕
我々は、科学技術文献中から専門用語の定義や説明を与
える文を自動的に抽出する研究を行っている。本稿で
は、その概要とこれまでに得られた実験結果について述
べる。ある専門用語に関して文献から抽出すべき情報
(専門用語情報)には、用語の意味・定義の他に、性質
や種類など多数考えられるが、当面は用語の意味・定義
に絞っている。専門用語情報は、その用語を含む文、あ
るいはその前後のあまり離れていない文の中で述べられ
ているはずである。
2.抜き出された文、およびその前後の文が専門用語情報
を含んでいるかどうかを判断する。上記抽出ルールの適
用のみでは抽出文の精度が不十分である(後述、実験結
果参照)。このとき用いる手掛りには、対象とする用語
が文献中で出現した順番(用語順位)、抽出ルールによ
って抽出された文の順番(抽出順位)、用いた抽出ルー
ルの正確さ(優先順位)、抽出ルールで得られた文の前
で目的の用語が見出しとなっているか(見出し則)等が
あり、抽出ルールによる実験結果を分析して得られたも
のである。抽出結果の評価は、抽出されるべき文を人間
があたかじめ選んでおき、それと比較するという方法に
よった。実験は二種類行い、抽出ルールのみを用いた場
合の結果を表1に、選択ルールを併用した場合の結果を
表2に示す。抽出の正確さをルールごとに調べた結果、
ルールb、e、gが特に悪い結果となっていることが判
った。今後は、より多くの文献について実験を行い、本
方式が一般的に有効であるか確認する必要がある。
表1抽出ルールのみの実験結果 〔自動整形後〕 我々は、科学技術文献中から専門用語の定義や説明を与
える文を自動的に抽出する研究を行っている。本稿で
は、その概要とこれまでに得られた実験結果について述
べる。ある専門用語に関して文献から抽出すべき情報
(専門用語情報)には、用語の意味・定義の他に、性質
や種類など多数考えられるが、当面は用語の意味・定義
に絞っている。専門用語情報は、その用語を含む文、あ
るいはその前後のあまり離れていない文の中で述べられ
ているはずである。
2.抜き出された文、およびその前後の文が専門用語情報
を含んでいるかどうかを判断する。抽出ルールの適用の
みでは抽出文の精度が不十分である(後述、実験結果参
照)。このとき用いる手掛りには、対象とする用語が文
献中で出現した順番(用語順位)、抽出ルールによって
抽出された文の順番(抽出順位)、用いた抽出ルールの
正確さ(優先順位)、抽出ルールで得られた文の前で目
的の用語が見出しとなっているか(見出し則)等があ
り、抽出ルールによる実験結果を分析して得られたもの
である。抽出結果の評価は、抽出されるべき文を人間が
あらかじめ選んでおき、それと比較するという方法によ
った。抽出の正確さをルールごとに調べた結果、ルール
b、e、gが特に悪い結果となっていることが判った。
今後は、より多くの文献について実験を行い、本方式が
一般的に有効であるか確認する必要がある。
〔抄録〕
我々は、科学技術文献中から専門用語の定義や説明を与
える文を自動的に抽出する研究を行っている。本稿で
は、その概要とこれまでに得られた実験結果について述
べる。ある専門用語に関して文献から抽出すべき情報
(専門用語情報)には、用語の意味・定義の他に、性質
や種類など多数考えられるが、当面は用語の意味・定義
に絞っている。専門用語情報は、その用語を含む文、あ
るいはその前後のあまり離れていない文の中で述べられ
ているはずである。用いる手掛りには、対象とする用語
が文献中で出現した順番(用語順位)、抽出ルールによ
って抽出された文の順番(抽出順位)、用いた抽出ルー
ルの正確さ(優先順位)、抽出ルールで得られた文の前
で目的の用語が見出しとなっているか(見出し則)等が
あり、抽出ルールによる実験結果を分析して得られたも
のである。抽出結果の評価は、抽出されるべき文を人間
があらかじめ選んでおき、それと比較するという方法に
よった。今後は、より多くの文献について実験を行い、
本方式が一般的に有効であるか確認する必要がある。
【図面の簡単な説明】
第1図は本発明一実施例の抄録文作成装置の構成を示す
ブロック図。 第2図は本実施例の処理動作を示すフローチャート。 第3図は重要語抽出動作を示すフローチャート。 第4図は最重要語抽出動作を示すフローチャート。 第5図は文章整形動作を示すフローチャート。 11…前処理部、12…表題副表題抽出部、13…文抽出部、
14…表題副表題重要語抽出部、15…文内重要語抽出部、
16…文法規則テーブル、17…使用頻度集計部、18…重要
文抽出部、19…単語削除整形部、20…削除単語テーブ
ル、21…文削除整形部、22…文削除指示テーブル。
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 昭61−117658(JP,A) 特開 昭61−100861(JP,A) 特開 昭64−28770(JP,A)

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】入力された文章の各文の区切りを明確にす
    る前処理手段(11)と、 この前処理手段で区切られた文の中から重要語を抽出す
    る重要語抽出手段(12〜16)と、 この重要語抽出手段で抽出した重要語の現れる文を重要
    文として抽出する重要文抽出手段(18)と、 この重要文抽出手段で抽出した重要文を元にして抄録文
    を作成する文章整形手段(19〜22)と を備えた抄録文作成装置において、 上記重要語抽出手段で抽出した重要語の使用頻度を計数
    し最も多く出現する重要語を最重要語として確定する最
    重要語確定手段(17)を備え、 上記重要文抽出手段は、上記最重要語確定手段で確定さ
    れた最重要語が含まれかつ重要語が1以上含まれている
    文および特定の語を含む文を重要文として抽出する手段
    を含み、 上記文章整形手段は、抽出した重要文の中から特定の不
    要な単語を削除するとともに特定の条件に合致する重要
    文を削除する手段を含む ことを特徴とする抄録文作成装置。
  2. 【請求項2】重要語抽出手段は、文に含まれる単語の中
    から助詞の前の漢字またはカナ文字で構成される単語を
    切り出す手段と、切り出された単語から一文字で構成さ
    れた文字を除外する手段とを含む請求項1に記載の抄録
    文作成装置。
  3. 【請求項3】文章整形手段は、削除対象となる特定の不
    要な単語が登録された削除単語テーブルを参照して不要
    な単語を削除する手段と、削除対象となる文の条件が登
    録された文削除指示テーブルを参照して不要な文を削除
    する手段とを含む請求項1または請求項2に記載の抄録
    文作成装置。
JP1028125A 1989-02-06 1989-02-06 抄録文作成装置 Expired - Lifetime JPH0743717B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1028125A JPH0743717B2 (ja) 1989-02-06 1989-02-06 抄録文作成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1028125A JPH0743717B2 (ja) 1989-02-06 1989-02-06 抄録文作成装置

Publications (2)

Publication Number Publication Date
JPH02257266A JPH02257266A (ja) 1990-10-18
JPH0743717B2 true JPH0743717B2 (ja) 1995-05-15

Family

ID=12240070

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1028125A Expired - Lifetime JPH0743717B2 (ja) 1989-02-06 1989-02-06 抄録文作成装置

Country Status (1)

Country Link
JP (1) JPH0743717B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10340271A (ja) * 1997-06-09 1998-12-22 Fuji Xerox Co Ltd 文書抄録作成装置及び文書抄録作成プログラムを記録した記憶媒体

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2783558B2 (ja) * 1988-09-30 1998-08-06 株式会社東芝 要約生成方法および要約生成装置
JPH06259423A (ja) * 1993-03-02 1994-09-16 N T T Data Tsushin Kk 要約自動作成方式
JPH07210185A (ja) * 1993-11-30 1995-08-11 Sony Corp 朗読情報作成装置および朗読装置
US5745602A (en) * 1995-05-01 1998-04-28 Xerox Corporation Automatic method of selecting multi-word key phrases from a document
US5918240A (en) * 1995-06-28 1999-06-29 Xerox Corporation Automatic method of extracting summarization using feature probabilities
US5778397A (en) * 1995-06-28 1998-07-07 Xerox Corporation Automatic method of generating feature probabilities for automatic extracting summarization
US5819260A (en) * 1996-01-22 1998-10-06 Lexis-Nexis Phrase recognition method and apparatus
JPH09212504A (ja) * 1996-02-06 1997-08-15 N T T Data Tsushin Kk 文書校正装置
JPH1040267A (ja) * 1996-07-26 1998-02-13 Nec Corp 文書要約ビューア
JP3579204B2 (ja) * 1997-01-17 2004-10-20 富士通株式会社 文書要約装置およびその方法
NZ500057A (en) * 1997-04-16 2002-09-27 British Telecomm Method and apparatus for summarising data by selecting and ranking targeted information
JPH10307837A (ja) * 1997-05-09 1998-11-17 Sharp Corp 検索装置並びに検索プログラムを記録した記録媒体
JP3817943B2 (ja) * 1998-01-27 2006-09-06 富士ゼロックス株式会社 文書要約装置、および記録媒体
JP3614648B2 (ja) * 1998-03-13 2005-01-26 富士通株式会社 文書理解支援装置、要約文生成方法、並びに文書理解支援プログラムを記録したコンピュータ読み取り可能な記録媒体
JP3281361B2 (ja) * 2000-12-11 2002-05-13 株式会社東芝 文書検索装置及び文書検索方法
JP2002288091A (ja) * 2001-03-28 2002-10-04 Seiko Epson Corp メール、データの表示
US9262394B2 (en) 2010-03-26 2016-02-16 Nec Corporation Document content analysis and abridging apparatus

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61100861A (ja) * 1984-10-23 1986-05-19 Toshiba Corp 文書編集装置
JPS61117658A (ja) * 1984-11-13 1986-06-05 Fujitsu Ltd 文章抄録装置
JPS6428770A (en) * 1987-07-24 1989-01-31 Nippon Atomic Ind Group Co Key word selector

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10340271A (ja) * 1997-06-09 1998-12-22 Fuji Xerox Co Ltd 文書抄録作成装置及び文書抄録作成プログラムを記録した記憶媒体

Also Published As

Publication number Publication date
JPH02257266A (ja) 1990-10-18

Similar Documents

Publication Publication Date Title
JPH0743717B2 (ja) 抄録文作成装置
US6173251B1 (en) Keyword extraction apparatus, keyword extraction method, and computer readable recording medium storing keyword extraction program
CN106502991B (zh) 出版物处理方法和装置
CN116361510A (zh) 一种利用影视类作品和剧本建立剧本场景片段视频自动提取和检索的方法和装置
JP2572314B2 (ja) キーワード抽出装置
JPH0484271A (ja) 文書内情報検索装置
JP3594701B2 (ja) キーセンテンス抽出装置
KR20030039575A (ko) 문서 요약 방법 및 시스템
CN111062832A (zh) 智能提供专利答辩意见的辅助分析方法及装置
JP2000148788A (ja) 文書画像からのタイトル領域抽出装置およびタイトル領域抽出方法,並びに文書検索方法
CN113627200A (zh) 多机器翻译引擎驱动的国际组织科技术语主题句萃取方法
JPH0877196A (ja) 文書情報抽出装置
JPS61248160A (ja) 文書情報登録方式
JP3253657B2 (ja) 文書検索方法
JP2002108888A (ja) ディジタルコンテンツのキーワード抽出装置、方法及びコンピュータ読み取り可能な記録媒体
JPH0877179A (ja) 文書索引生成装置
JP3744136B2 (ja) 訳語選択装置と記憶媒体
JP3082889B2 (ja) モノローグ・データに対する話題構造認識方法および装置
JPS6175952A (ja) 文書入力処理方式
JP7266225B1 (ja) テキスト解析装置、方法、およびプログラム
JP2002297638A (ja) 文書画像からのタイトル抽出方法
JPH08161340A (ja) 連語自動抽出装置
JPH0652151A (ja) 共起学習装置及びこれを用いたかな漢字変換装置
JP3464518B2 (ja) 文書索引作成システム
JPH0668159A (ja) 検索装置