JPH0713967A - Abstract sentence generator - Google Patents

Abstract sentence generator

Info

Publication number
JPH0713967A
JPH0713967A JP4256934A JP25693492A JPH0713967A JP H0713967 A JPH0713967 A JP H0713967A JP 4256934 A JP4256934 A JP 4256934A JP 25693492 A JP25693492 A JP 25693492A JP H0713967 A JPH0713967 A JP H0713967A
Authority
JP
Japan
Prior art keywords
sentence
important
scenario
abstract
predicate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4256934A
Other languages
Japanese (ja)
Inventor
Tamotsu Iwabuchi
岩渕保
Koichiro Tsuda
好一郎 津田
Ryozo Fujiwara
良造 藤原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Maruzen KK
Original Assignee
Maruzen KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Maruzen KK filed Critical Maruzen KK
Priority to JP4256934A priority Critical patent/JPH0713967A/en
Publication of JPH0713967A publication Critical patent/JPH0713967A/en
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

PURPOSE:To prevent the omission occurrence of semantic information by extracting a sentence including a predicate which is previously set at each scenario item expressing a subject to express the item as an important sentence. CONSTITUTION:A scenario setting part 11 sets the scenario item corresponding to a field to which original sentences belong with respect to the original sentences which are pre-processed already within an inputted document file. A field-classified scenario table 12 gives the previously prepared field-classified scenario item to the scenario setting part 11. Then, an important sentence extracting part 13 extracts the important sentence from the original sentences by a scenario item unit and a scenario item unit predicate table 14 gives the predicate of the scenario item unit which is previously prepared by the scenario item unit to the important sentence extracting part 13. Moreover, a sentence shaping part 15 deletes unnecessary words and phrases and a sentence from the important sentence which is extracted by the important sentence extracting part 13 or shapes the sentences by replacing the words and phrases and a shaping instruction table 16 gives an instruction for deleting words and phrases for shaping the sentence to the sentence shaping part 15.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、情報処理装置によって
論文等の文献の抄録文を作成する抄録文作成装置に関す
る。特に全文検索を行うデータベースでの抄録対象文献
の全文中から抄録文に必要な意味情報を含む重要文を抽
出して抄録文を自動的に作成する抄録文作成装置に関す
る。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an abstract sentence creating device for creating abstract sentences of documents such as papers by an information processing device. In particular, the present invention relates to an abstract sentence creating apparatus for automatically creating an abstract sentence by extracting an important sentence including semantic information necessary for the abstract sentence from the whole sentence of an abstract target document in a database that performs a full-text search.

【0002】なお、本明細書において「文」とは、文頭
から「。」あるいは「.」の句点で区切られて完結する
一つのまとまった意味を終わりまで表したひとつづきの
文字列をいう。
In the present specification, the term "sentence" refers to a string of characters that represents a single set of meanings that are separated from the beginning of a sentence by "." Or "."

【0003】[0003]

【従来の技術】近年、情報サービス業あるいは企業内デ
ータベースシステムにおいて、全文情報をサーポートす
るフルテキストデータベースシステムが構築されてい
る。このような全文情報データベースシステムでは、そ
の情報が膨大となるため、実際のシステムでは、全文情
報を二次加工した書誌情報が必要であり、この書誌情報
に基づいて検索を行うようにしている。
2. Description of the Related Art In recent years, a full-text database system that supports full-text information has been constructed in an information service industry or in-company database system. In such a full-text information database system, the amount of information is enormous. Therefore, in an actual system, bibliographic information obtained by secondary-processing the full-text information is required, and the search is performed based on this bibliographic information.

【0004】この書誌情報として、全文情報のなかか
ら、必要な意味的情報を抽出し、この抽出した情報から
全文の抄録である抄録文を作成するシステムが必要とな
る。このような抄録文の作成を自動化し、全文情報から
抄録文を自動的に作成する技術として、パラグラフごと
に一つの重要文を抽出する特開昭61−117658号
に示される技術、あるいは本発明者のうちの一人が発明
者として関与した技術であって、文章の主題を表現する
重要語の出現頻度により最重要語を選択しこの最重要語
を含む文を重要文として抽出する技術である特開平2−
257266号の技術などがある。
As the bibliographic information, a system is required which extracts necessary semantic information from the full-text information and creates an abstract sentence which is an abstract of the full-text from the extracted information. As a technique for automating the creation of such an abstract sentence and automatically creating the abstract sentence from the full-text information, the technique disclosed in Japanese Patent Laid-Open No. 61-117658, which extracts one important sentence for each paragraph, or the present invention This is a technology in which one of the persons involved was involved as an inventor, and the technology selects the most important word according to the frequency of appearance of the important words that express the subject of the sentence, and extracts the sentence containing this most important word as the important sentence. JP-A-2-
There is technology of 257266.

【0005】[0005]

【発明が解決しようとする課題】しかし、パラグラフご
とに一つの重要文を抽出するのでは、全体の抄録文が不
自然となり、また一つのパラグラフに最も重要な主題を
表現する文が二つ以上含まれている場合には重要な意味
的情報の欠落が生ずる問題があった。
However, if one important sentence is extracted for each paragraph, the whole abstract sentence will be unnatural, and more than two sentences will express the most important subject in one paragraph. If included, there was a problem that important semantic information was lost.

【0006】また、重要語の出現頻度によって重要文を
抽出する技術でも、文の流れに沿った抽出ができるが、
データベースシステムに収録する論文ごとに異なる文章
の流れに影響され、抄録に必要な統一した流れの抄録文
とならないことがあった。
[0006] Further, the technique of extracting an important sentence based on the frequency of appearance of an important word can also extract along the flow of the sentence,
There were cases in which the abstract flow was not the unified flow necessary for abstracting, because it was affected by the flow of sentences that differed among the papers recorded in the database system.

【0007】本発明は、データベースシステムに収録す
る全文情報ごとに、その全文に要求される文章の流れと
してシナリオがあり、一般にはこのシナリオに沿って表
現されていることに着目し、抽出された抄録文が自然で
ありかつ意味的情報の欠落が生じない抄録文を自動的に
作成する抄録文作成装置を提供することを目的とする。
The present invention is extracted by paying attention to the fact that, for each full-text information recorded in the database system, there is a scenario as the flow of text required for the full-text, and in general, it is expressed according to this scenario. An object of the present invention is to provide an abstract sentence creating device that automatically creates an abstract sentence in which the abstract sentence is natural and no missing of semantic information occurs.

【0008】[0008]

【課題を解決するための手段】本発明は、入力された文
章中からこの文章の主題を構成している重要文を抽出す
る重要文抽出手段と、抽出された重要文を所定の取り決
めに基づいて整形し抄録文を作成する文章整形手段とを
備えた抄録文作成装置において、上記重要文抽出手段
は、上記入力される文章の分野ごとに設定され、上記主
題を表現するシナリオ項目ごとにあらかじめ設定されて
いるこの項目を表現している述語を含む文を重要文とし
て抽出する手段を含むことを特徴とする。
The present invention is based on an important sentence extracting means for extracting an important sentence constituting the subject of the sentence from an inputted sentence, and the extracted important sentence based on a predetermined agreement. In the abstract sentence creating device provided with a sentence shaping means for shaping and abstracting the abstract sentence, the important sentence extracting means is set for each field of the inputted sentence, and is preliminarily set for each scenario item expressing the subject. It is characterized by including a means for extracting a sentence including a predicate expressing this set item as an important sentence.

【0009】なお、文章整形手段は、抽出した重要文に
ある語句によって直前の文を重要文として抽出して付加
する直前文付加手段と、特定の語句について他の語句に
置き換える手段と、特定の語句を重要文中から削除する
手段と、あらかじめ指示された文を削除する手段とを備
えることが好ましい。
The sentence shaping means extracts an immediately preceding sentence as an important sentence by a word in the extracted important sentence and adds it, a means for replacing a specific phrase with another phrase, and a specific phrase. It is preferable to provide a means for deleting a phrase from an important sentence and a means for deleting a previously designated sentence.

【0010】[0010]

【作用】本発明は、抄録を作成する論文等の文章につい
て、当該分野の代表的なシナリオを投射し、このシナリ
オの投射によって筆者が本来いわんとする粗筋や構想で
あるプロットのみを抽出して抄録文を自動的に作成しよ
うとするものである。
The present invention projects a typical scenario in the relevant field for the text of a paper or the like for which an abstract is to be created, and by projecting this scenario, only the plots and ideas that the writer originally intended are extracted. This is to automatically create an abstract sentence.

【0011】一般に、論文や論述文では、起承転結に代
表されるシナリオに沿ってその文章が記述されている。
例えば、科学技術論文では、その論文は、前提、目的、
方法、結果、考察・結論という項目の筋立てで記述され
ており、その順に論文の主題を述べることが要求されて
いる。したがって、抄録文もこのシナリオにそって筆者
がいわんとするプロットに相当する項目別の重要文を全
文中から抽出して文章化すれば、たとえ対象の論文が上
述のシナリオに沿っていない文章構成であったとして
も、科学技術論文の抄録として必要な意味的情報を欠落
することなく、また論文の抄録として自然な抄録文が作
成されるものである。
Generally, in a thesis or an essay, the text is described in accordance with a scenario represented by a succession and conclusion.
For example, in a science and technology paper, the paper is based on assumptions, objectives,
It is described in terms of methods, results, considerations and conclusions, and it is required to state the subject of the paper in that order. Therefore, even if the abstract text is extracted from the whole sentence by extracting the important sentences for each item corresponding to the plot that the author is talking about according to this scenario, even if the target paper does not follow the above-mentioned scenario Even if it is, a natural abstract sentence is created as an abstract of a paper without missing the necessary semantic information as an abstract of a science and technology paper.

【0012】本発明は、抄録文作成の対象分野ごとに、
シナリオの項目を作成し、この項目ごとに、例えば科学
技術論文の抄録文を作成するときには、上述の前提、目
的、方法、結果等のシナリオの項目ごとに、その項目を
表現する述語テーブルを準備し、この述語を含む文章を
重要文として抽出し、必要な文整形をすることにより、
自然な文章であり、かつ論文等の抄録文に必要な意味的
情報を欠落することのない抄録文を作成するものであ
る。
The present invention is designed to
When a scenario item is created and, for example, an abstract of a scientific paper is created for each item, prepare a predicate table that expresses that item for each scenario item such as the above-mentioned assumptions, objectives, methods, and results. Then, by extracting the sentence containing this predicate as an important sentence and performing necessary sentence shaping,
The abstract text is a natural sentence and does not lack the semantic information necessary for the abstract text such as a paper.

【0013】ここで、述語とは、「補足語」、「修飾
語」、「主題」ととにも文の組立をする要素であって、
文末に位置し、その内容によって文の大枠を決定する語
をいう。本発明は、この述語に着目し、論文の主題を表
現している述語をシナリオ項目ごとに用意して、この述
語を含む文章を重要文として抽出することにより、文章
のシナリオに沿った重要文を抽出している。
Here, the predicate is an element that composes a sentence into a "supplemental word", a "modifier", and a "subject".
A word that is located at the end of a sentence and determines the outline of the sentence depending on its content. The present invention pays attention to this predicate, prepares a predicate expressing the subject of the paper for each scenario item, and extracts a sentence including this predicate as an important sentence. Is being extracted.

【0014】[0014]

【実施例】以下図面を参照して本発明の実施例を説明す
る。
Embodiments of the present invention will be described below with reference to the drawings.

【0015】図1は、本発明一実施例の抄録文作成装置
の構成を示すものである。
FIG. 1 shows the structure of an abstract sentence creating apparatus according to an embodiment of the present invention.

【0016】本実施例の抄録文作成装置1は、入力され
る文献ファイル中から既に前処理がなされている原文章
に対してその原文章の属する分野に対応するシナリオ項
目を設定するシナリオ設定部11と、このシナリオ設定
部にあらかじめ用意された分野別のシナリオ項目を与え
る分野別シナリオテーブル12と、このシナリオ項目単
位に原文章中から重要文を抽出する重要文抽出部13
と、この重要文抽出部13にシナリオ項目単位であらか
じめ用意されたシナリオ項目単位の述語を与えるシナリ
オ項目単位述語テーブル14と、重要文抽出部13で抽
出した重要文から必要のない語句や文を削除し、あるい
は語句の置換えを行って文章を整形する文章整形部15
と、この文章整形部15に文整形用の削除語句等の指示
を与える整形指示テーブル16とを備えたものである。
The abstract sentence creating apparatus 1 of the present embodiment sets a scenario item corresponding to a field to which a source text belongs to a source text which is already preprocessed from an input document file. 11, an area-specific scenario table 12 that provides the scenario setting section with scenario items prepared in advance, and an important-sentence extracting section 13 that extracts an important sentence from an original sentence in units of this scenario item.
And a scenario item unit predicate table 14 for giving a predicate prepared in advance for each scenario item to the important sentence extraction unit 13, and unnecessary words and sentences from the important sentence extracted by the important sentence extraction unit 13. The sentence shaping unit 15 that reforms a sentence by deleting or replacing a phrase
And a shaping instruction table 16 for giving the sentence shaping section 15 instructions such as deletion phrases for sentence shaping.

【0017】図2は、シナリオ設定部11の動作を示す
もので、抄録文を作成する文章の分野によって、シナリ
オを選択し(S21)、分野別シナリオテーブルを読込
み(S22)、シナリオ項目を設定する(S23)。
FIG. 2 shows the operation of the scenario setting section 11. A scenario is selected (S21) according to the field of the sentence for which the abstract sentence is created, the scenario table for each field is read (S22), and the scenario item is set. Yes (S23).

【0018】分野別シナリオテーブル12に用意されて
いるシナリオ項目例を次に示す。科学技術論文として
は、1.前提説明、2.目的・主題文、3.方法、4.
結果、5.考察・結論のシナリオ項目が立てられ、この
シナリオ項目ごとに重要文を抽出する。
An example of scenario items prepared in the field-specific scenario table 12 is shown below. Scientific and technical papers include: 1. Assumption explanation, 2. Purpose / theme sentence, 3. Method, 4.
Result, 5. Scenario items for consideration and conclusion are set up, and important sentences are extracted for each scenario item.

【0019】また他の例として、新聞産業記事のデータ
ベースシステムの場合は、シナリオ項目例として、1.
主文(だれが、何を、どうした)、2.説明(目的・特
徴・性能など)、3.今後の展開(予定・行動など)、
4.価格を設定する。
As another example, in the case of a database system for newspaper industry articles, as scenario item examples: 1.
Main text (who did what, what did you do) 2. Explanation (purpose, characteristics, performance, etc.), 3. Future developments (plans, actions, etc.),
4. Set the price.

【0020】図3は、重要文抽出部13におけるシナリ
オ項目単位の重要文抽出処理を説明する図である。すな
わち、原文章を読込み(S31)、シナリオ項目単位述
語テーブル14を読込む(S32)。このシナリオ項目
単位述語テーブル14中の述語を含む文を原文章中から
重要文として抽出する(S33)。そして抽出したシナ
リオ項目単位重要文を次の文章整形部15へ渡す。
FIG. 3 is a diagram for explaining an important sentence extraction process in scenario item units in the important sentence extraction unit 13. That is, the original sentence is read (S31), and the scenario item unit predicate table 14 is read (S32). A sentence including a predicate in the scenario item unit predicate table 14 is extracted from the original sentence as an important sentence (S33). Then, the extracted scenario item unit important sentence is passed to the next sentence shaping unit 15.

【0021】図4は、重要文抽出部におけるさらに詳し
いシナリオ項目単位の重要文抽出処理を説明する図であ
り、科学技術論文における重要文抽出処理を説明する図
である。
FIG. 4 is a diagram for explaining more detailed important sentence extraction processing in scenario item units in the important sentence extraction unit, and is a diagram for explaining important sentence extraction processing in science and technology papers.

【0022】重要文抽出部13では、まず、対象となる
全文を読込み、シナリオ項目中の前提説明述語テーブル
を参照して、この前提説明述語テーブル中の述語を含む
文を前提説明に該当する重要文として抽出し、これを前
提説明該当重要文とする。
In the important sentence extraction unit 13, first, all the target sentences are read, the predicate explanation predicate table in the scenario item is referred to, and the sentence including the predicate in the premise explanation predicate table corresponds to the premise explanation. It is extracted as a sentence and this is used as an important sentence corresponding to the premise explanation.

【0023】次にまた全文を読込み、今度は目的・主題
文述語テーブルを参照して目的・主題文述語テーブル中
の述語を含む文を目的・主題文に該当する重要文として
抽出し、これを目的・主題文該当重要文とする。
Next, the whole sentence is read again, this time, by referring to the objective / subject sentence predicate table, a sentence including the predicate in the objective / subject sentence predicate table is extracted as an important sentence corresponding to the objective / subject sentence, and this is extracted. Purpose / subject sentence Applicable important sentence.

【0024】次に、方法についても同様に、方法述語テ
ーブルを参照して、方法に該当する重要文を抽出し、方
法該当重要文とする。
Next, regarding the method, similarly, the important sentence corresponding to the method is extracted by referring to the method predicate table and set as the important sentence corresponding to the method.

【0025】次に結果のシナリオ項目について同様に、
結果述語テーブルを参照し、結果に該当する重要文を抽
出し、結果該当重要文とする。
Next, similarly for the resulting scenario items,
The important sentence corresponding to the result is extracted by referring to the result predicate table and is set as the relevant sentence.

【0026】最後に考察・結果のシナリオ項目につい
て、考察・結論述語テーブルを参照し、該当する重要文
を抽出し、考察・結論重要文とする。
Finally, regarding the scenario item of the consideration / result, the consideration / conclusion predicate table is referred to, and the relevant important sentence is extracted to be the consideration / conclusion important sentence.

【0027】ここで、シナリオ項目単位述語テーブル1
4の内容を示す。上述のように科学技術論文に対して
は、シナリオ項目ごとに、前提説明述語テーブル、目的
・主題文述語テーブル、方法述語テーブル、結果述語テ
ーブル、考察・結論述語テーブルの5つの述語テーブル
が用意される。
Here, the scenario item unit predicate table 1
The contents of 4 are shown. As described above, for science and technology papers, five predicate tables are prepared for each scenario item: a predicate explanation predicate table, a purpose / subject sentence predicate table, a method predicate table, a result predicate table, and a consideration / conclusion predicate table. It

【0028】この述語テーブルに用意される具体的な述
語の例を挙げる。
An example of specific predicates prepared in this predicate table will be given.

【0029】前提説明述語テーブルに設定される述語
は、「行われていた。」、「行っている。」、「行われ
ている。」、「行われてきた。」、「行なえるようにな
った。」、「必要となる。」、「必要とする。」、「必
要である。」、「必要になる。」、「必要とされてい
る。」、「必要であろう。」、「必要がある。」、「開
発中である。」、「導入する。」、「期待される。」、
「望まれている。」、「有効である。」、「出現しつつ
ある。」等である。
Predicates The predicates set in the predicate table are "was done", "has been done", "has been done", "has been done", and "so that they can be done". "I need it", "I need it", "I need it", "I need it", "I need it", "I need it", "I need it", "Necessary", "Under development", "Install", "Expected",
These are “desired”, “effective”, “emerging”, etc.

【0030】また、目的・主題文述語テーブルに設定さ
れる述語は、「述べる。」、「報告する。」、「報告し
ている。」、「紹介する。」、「提案する。」、「考察
する。」、「説明する。」、「目指している。」、「可
能である。」、「目的としている。」、「明らかにす
る。」等である。
The predicates set in the purpose / subject sentence predicate table are “state”, “report”, “reporting”, “introduce”, “suggest”, and “propose”. It is "consider.", "Explain.", "Aiming.", "Possible.", "Aiming.", "Clarify."

【0031】次に、方法述語テーブルに設定される述語
は、「選択した。」、「示した。」、「を示す。」、
「である。」、「ことを示す。」、「あわせて示
す。」、「も示す。」、「示すことができた。」、「方
法である。」、「採用している。」、「作成されてい
る。」、「用いた。」、「特徴としている。」、「評価
した。」、「評価を行った。」、「構成される。」、
「構築する。」、「試作した。」、「誘導する。」、
「評価実験を行った。」等である。
Next, the predicates set in the method predicate table are "selected", "shown", "shows",
"It is.", "Indicates that", "Indicates in combination.", "Indicates also.", "I was able to indicate.", "It is a method.", "I have adopted.", "Created.", "Used.", "Characterized.", "Evaluated.", "Evaluated.", "Composed.",
"Build.", "Prototype.", "Guide.",
"Evaluation experiments were performed."

【0032】結果述語テーブルに設定される述語は、
「述べた。」、「得た。」、「得られた。」、「確認し
た。」、「確認された。」、「確認できた。」、「改善
することができた。」、「実現した。」、「実現してい
る。」、「提供した。」、「解消された。」等である。
The predicate set in the result predicate table is
"I mentioned.", "I got it.", "I got it.", "I confirmed.", "It was confirmed.", "I confirmed.", "I could improve.", ". It was realized. ”,“ It has been realized. ”,“ Provided. ”,“ Dissolved. ”, Etc.

【0033】考察・結論述語テーブルに設定される述語
は、「思われる。」、「目指している。」、「課題とな
っている。」、「要求される。」、「判明した。」、
「結論とする。」、「結論を得た。」、「指摘す
る。」、「が示された。」等である。
Consideration / Conclusion The predicates set in the predicate table are “thinking”, “aiming”, “being a subject”, “required”, “cleared”,
“Conclusion is given”, “Conclusion is obtained”, “Point out”, “is shown”, etc.

【0034】これらの述語は、実際の科学技術論文を参
考にして、シナリオ項目に対応する文章から抽出したも
のの例であり、実際にはさらに多数の述語が各シナリオ
項目単位述語テーブルに設定される。
These predicates are examples extracted from sentences corresponding to scenario items with reference to actual science and technology papers. In reality, a larger number of predicates are set in each scenario item unit predicate table. .

【0035】次に、科学技術論文用抄録文を作成するシ
ステム以外の新聞・産業記事分野の述語テーブル例を挙
げる。
Next, an example of a predicate table in the fields of newspapers and industrial articles other than the system for creating abstract sentences for scientific and technical papers will be given.

【0036】上述のように、新聞・産業記事分野のシナ
リオ項目は、1.主文、2.説明、3.今後の展開、
4.価格からなるものであり、各シナリオ項目ごとに、
主文述語テーブル、説明述語テーブル、今後の展開述語
テーブル、価格述語テーブルが作成されている。
As described above, the scenario items in the newspaper / industrial article field are 1. Main text, 2. Explanation, 3. the next deployment,
4. It consists of price, and for each scenario item,
A main sentence predicate table, an explanation predicate table, a future expansion predicate table, and a price predicate table have been created.

【0037】主文述語テーブルには、「発表した。」、
「発売する(した)。」、「販売する(した)。」、
「設立する(した)。」、「始めた(る)。」、「乗り
出す(した)。」、「完成した。」、「出荷する。」、
「展開する。」等の述語が設定される。
In the subject sentence predicate table, "Announced.",
“Sell”, “Sell.”,
"Established", "Started", "Embarked", "Completed", "Ship",
A predicate such as “expand” is set.

【0038】目的、特徴あるいは性能などの説明に対応
する説明述語テーブルには、「可能(となる)。」、
「実現する(した)。」、「装置」、「できるようにし
た。」、「業界」、「利用している(できる)(す
る)。」、「組み込まれている。」、「網羅してい
る。」、「理由となっている。」、「向上できる。」、
「したもの。」、「対応機種」、「国内初」、「概要
は」、「仕様」、「できた。」、「就任する。」、「取
り組む。」などの述語が設定される。
In the explanation predicate table corresponding to the explanation of the purpose, characteristics, performance, etc., "possible (is possible)",
“Achieved”, “Apparatus”, “Able to do”, “Industry”, “Use (Can) (Yes)”, “Incorporated”, “Comprehensive”, “Comprehensive” Yes, ”“ There is a reason. ”“ I can improve. ”,
Predicates such as “what you did.”, “Compatible model”, “first in Japan”, “overview”, “specification”, “made”, “take office”, “work” are set.

【0039】今後の予定、行動等に対応する今後の展開
述語テーブルには、「予定」、「見込む(んでい
る)。」、「進出を図った。」、「進めるもの。」、
「図っていく。」、「計画(している)(である)
(だ)。」、「方針。」、「出資した。」、「弾みがつ
こう。」、「スタート(させる)。」、「販売目標は」
等の述語が設定される。
In the future expansion predicate table corresponding to future schedules, actions, etc., “planned”, “expected (expected).”, “Expanded”, “progress”.
"Aim.", "Planning" (is)
(No). , "Policy.", "Invested.", "Impact momentum.", "Start (make).", "Sales target is".
Predicates such as are set.

【0040】価格の述語テーブルには、「価格は」、
「年間契約料(使用料)は」、「販価は」等の述語が設
定される。
In the price predicate table, "price is",
Predicates such as “annual contract fee (usage fee)” and “selling price” are set.

【0041】このように、抄録文の対象となる論文等の
分野別にその論文等のシナリオに沿って、シナリオ項目
を表現している文を述語テーブルを参照して抽出してい
き、それぞれのシナリオ項目ごとの重要文として抽出す
る。
As described above, the sentences expressing scenario items are extracted by referring to the predicate table according to the scenario of the paper or the like, which is the target of the abstract sentence, according to the scenario of the paper or the like. Extract as important sentences for each item.

【0042】この抽出されたシナリオ項目ごとの重要文
に文章整形処理を行って抄録文として自然な流れの文章
に整形を行う。これは実際に述語テーブルを参照して重
要文を抽出しても、必要のない文や同一文が抽出された
り、あるいは抄録文の文章の流れから必要な文を付加す
る必要などがあるためである。
A sentence shaping process is performed on the extracted important sentence for each scenario item to reform the sentence into a sentence having a natural flow as an abstract sentence. This is because even if an important sentence is actually extracted by referring to the predicate table, unnecessary sentences or identical sentences may be extracted, or necessary sentences may need to be added from the flow of the abstract sentence. is there.

【0043】この文章整形処理を行う文章整形部15と
整形指示テーブル16の更に詳細な構成を図5に示す。
図5に示すように、文章整形を行う文章整形部15は、
直前文を直前文付与指示テーブル52の内容に基づいて
直前文を付与して整形する直前文付与整形部51と、語
句の置換え指示テーブル・語句の削除指示テーブル・文
の削除指示テーブル54の内容に基づいて、語句の置換
えおよび削除処理、文の削除処理を行う語句置換え削除
・文削除部53とを備えている。
FIG. 5 shows a more detailed structure of the sentence shaping unit 15 and the shaping instruction table 16 for performing this sentence shaping process.
As shown in FIG. 5, the sentence shaping unit 15 that performs sentence shaping is
Contents of an immediately preceding sentence assigning / shaping unit 51 for imparting and shaping the immediately preceding sentence based on the contents of the immediately preceding sentence assigning instruction table 52, and a phrase replacement instruction table, a phrase deleting instruction table, and a sentence deleting instruction table 54. A phrase replacement / sentence deleting unit 53 for performing phrase replacement and deletion processing and sentence deletion processing based on the above.

【0044】具体的に図6に直前文付与整形処理の動作
を示すフローチャートを示してその処理を説明する。な
お、ここでは、科学技術論文について抽出した重要文に
ついて文章整形処理を行うものとして説明する。
Specifically, FIG. 6 shows a flowchart showing the operation of the immediately preceding sentence addition and shaping processing, and the processing will be described. It should be noted that here, description will be made assuming that the sentence shaping process is performed on the important sentence extracted from the scientific and technical paper.

【0045】まず、重要文を先頭から順次読込む(S6
1)。すべて読み終わったかを判断し(S62)、直前
文付与指示テーブル52を先頭より順次読込む(S6
3)。
First, important sentences are sequentially read from the beginning (S6).
1). It is determined whether all the sentences have been read (S62), and the immediately preceding sentence addition instruction table 52 is sequentially read from the beginning (S6).
3).

【0046】この直前文付与指示テーブル52の内容と
しては、「ここで(は)」、「そこで」、「この(よう
な)(ように)(とき)(ため)(うち)(こと
は)」、「その(ような)(ため)(ために)(ために
は)」、「また」、「こうした」、「これ(は)(に)
(により)(を)(らの)(らを)」、「それ(は)
(らは)」、「しかし(ながら)」、「つまり」、「か
つ」、「したがって」、「なかでも」、「とくに(特
に)」、「しかも」、「つぎに」などの語が設定されて
いる。
The contents of the immediately preceding sentence addition instruction table 52 are "here (wa)", "where", "this (like) (like) (when) (for) (out of) (koto)" , "That (like) (for) (for) (for)", "again", "this", "this (ha) (for)
(By) (By) (By) (By)), "It (By)"
The words such as “()”, “but (while)”, “that is”, “katsu”, “so”, “naka”, “especially”, “extra”, “next”, etc. are set. Has been done.

【0047】重要文内にこの直前文付与指示テーブル5
2内の語句があるかを判断し(S65)、ある場合に
は、原文章を読込み、重要文の直前文を重要文に付与す
る(S66)。これは、上述のように直前文付与指示テ
ーブル52内の語句は、指示詞であり、このような語句
があると、前に現れた文がないとこの重要文は理解でき
ないためである。なお、この条件を満足しても重要文の
直前が句点のない非文である場合には直前文を付与しな
い。
This immediately preceding sentence addition instruction table 5 is included in the important sentence.
It is determined whether or not there is a word in 2 (S65), and if there is, the original sentence is read and the sentence immediately before the important sentence is added to the important sentence (S66). This is because the words and phrases in the immediately preceding sentence addition instruction table 52 are indicators, as described above, and if such words and phrases exist, this important sentence cannot be understood unless there is a sentence that appears before. Even if this condition is satisfied, if the preceding sentence of the important sentence is a non-sentence with no punctuation, the preceding sentence is not added.

【0048】付与した直前文についても重要文と同じく
直前文付与指示テーブル中の語句がないかを判定して同
じ処理を行う(S67)。付与処理がされた直前文は重
要文となり、抄録の構成文として採用する(S68)。
With respect to the immediately preceding sentence that has been added, it is determined whether or not there is a word or phrase in the immediately preceding sentence addition instruction table, as with the important sentence, and the same processing is performed (S67). The sentence just before the addition process becomes an important sentence and is adopted as a constituent sentence of the abstract (S68).

【0049】この直前文付与指示テーブル中の全ての語
句について処理が終わり、重要文全ての処理が終わると
次の語句の置換え、削除、文削除処理のステップへ移
る。
When all the words and phrases in the immediately preceding sentence addition instruction table have been processed, and when all the important sentences have been processed, the next word / phrase is replaced, deleted, and the sentence deletion process is performed.

【0050】図7は、語句の置換え、削除、文削除処理
の動作を説明するフローチャートである。この動作を説
明する。
FIG. 7 is a flow chart for explaining the operations of word replacement, deletion, and sentence deletion processing. This operation will be described.

【0051】まず、重要文を先頭より順次読込む(S7
1)。全ての処理が終わったかを判断したのちに(S7
2)、語句の置換え指示テーブル、語句の削除指示テー
ブル、文の削除指示テーブルを先頭より順次読込む(S
73)。
First, important sentences are sequentially read from the beginning (S7).
1). After determining whether all processing has been completed (S7
2), the phrase replacement instruction table, the phrase deletion instruction table, and the sentence deletion instruction table are sequentially read from the beginning (S
73).

【0052】ここでこの語句の置換え指示テーブル、語
句の削除指示テーブル、文の削除指示テーブルの内容を
説明する。
The contents of the phrase replacement instruction table, the phrase deletion instruction table, and the sentence deletion instruction table will be described.

【0053】語句の置換え指示テーブルには、例えば
「一般に次のような(問題点)」の語句を「いくつかの
(問題点)」に置換える指示が設定されている。これは
前の語句は問題を羅列することを意味しており、この問
題の羅列は抄録文には適切でないため、「いくつかの」
の語句に置換え、抄録文として適切な文に変換するもの
である。
In the phrase replacement instruction table, for example, an instruction to replace the phrase "generally (problem) as follows" with "some (problem)" is set. This means "some" because the previous phrase means enumerating the questions, which is not appropriate for the abstract.
It is replaced with the phrase of and converted into an appropriate sentence as an abstract sentence.

【0054】語句の削除指示テーブルには、例えば、文
頭にある数詞を削除することを指示するもの、「そし
て」、「なお」の語句を削除することを指示するものが
設定されている。数詞を削除するのは、箇条書き文を重
要文として採用したときにその文頭にある数詞を削除す
るためであり、「そして」、「なお」は抄録文として適
切でなく不要な語句であるため削除するためである。
In the word / phrase deletion instruction table, for example, an instruction to delete the number at the beginning of the sentence and an instruction to delete the words "and" and "nao" are set. The number is deleted because the number at the beginning of the sentence when the itemized sentence is adopted as an important sentence is deleted, and “and” and “na” are not appropriate as abstract sentences and unnecessary words and phrases. This is for deleting.

【0055】文の削除指示テーブルには、例えば、図、
表の説明をしている重要文を削除すること、「以下」の
語句を含む重要文を削除すること、シナリオ項目単位述
語テーブルで、同一述語によって複数の重要文が抽出さ
れた場合に最長の重要文のみを採用してそれ以外の重要
文を削除すること、同一文または同一文が含まれた重要
文が複数存在する場合にはじめに出現した重要文のみを
採用することの指示が設定される。同一文の出現は、例
えば直前文付与整形処理を行うことにより同一の重要文
が抽出されることがあるためである。
In the sentence deletion instruction table, for example,
Delete the important sentence that explains the table, delete the important sentence that contains the following words and phrases, and in the scenario item unit predicate table, the longest when multiple important sentences are extracted by the same predicate. Instructions are set to adopt only important sentences and delete other important sentences, and to adopt only the important sentence that appears first when there are multiple same sentences or the same sentence that contains the same sentence. . The appearance of the same sentence is because the same important sentence may be extracted by performing the preceding sentence addition shaping process, for example.

【0056】このように、指示テーブル内の語句が重要
文内にあるかが判定され(S75)、語句がある場合に
は、語句置換え指示であれば置換え指示を実行して抄録
の構成文として採用し(S76)、語句削除指示であれ
ば削除を実行して文内の語句を詰合わせ、抄録の構成文
として採用し(S77)、文削除指示であれば、抄録文
として採用せず、読み飛ばす(S78)。すべての処理
が終わることにより抄録文が作成される。
In this way, it is judged whether or not the word / phrase in the instruction table is in the important sentence (S75). If there is a word / phrase, if it is a word / phrase replacement instruction, the replacement instruction is executed to obtain the abstract sentence. If it is an instruction to delete a word (S76), if it is an instruction to delete a word, delete it to assemble words in the sentence and use it as a constituent sentence of the abstract (S77). Skip reading (S78). When all processing is completed, an abstract sentence is created.

【0057】ここで、具体的に一つの論文について上述
の処理を行って得た抄録文を示す。対象となった論文
は、特開平2−257266号公報に示した柴田浩一、
宮永喜一、栃内香次 「科学技術文献からの専門用語情
報の自動抽出」情報処理学会第35回全国大会 であ
る。
Here, specifically, an abstract sentence obtained by performing the above-mentioned processing for one paper will be shown. The target papers are Koichi Shibata, which is disclosed in Japanese Patent Laid-Open No. 2-257266.
Kiichi Miyanaga, Koji Tochiuchi "Automatic extraction of technical term information from science and technology literature" is the 35th national conference of the Information Processing Society of Japan.

【0058】本実施例によって作成された抄録文 〔抄録文〕 1.前提説明 我々は、科学技術文献中から専門用語の定義や説明を与
える文を自動的に抽出する研究を行っている。
Abstract sentence created by this embodiment [abstract sentence] 1. Assumptions We are conducting research to automatically extract sentences that provide definitions and explanations of technical terms from scientific and technical literature.

【0059】2.目的・主題 本研究で提案する自動抽出法は文章の表示上の特徴を利
用して専門用語に関する情報を自動的に抽出するもの
で、専門用語についての質問応答システムや専門用語集
の作成支援などへの応用を目指している。
2. Purpose / Subject The automatic extraction method proposed in this research automatically extracts information on technical terms using the characteristics of the text display, and supports the creation of a question-answer system for technical terms and a technical glossary. We are aiming for application to.

【0060】本稿では、その概要とこれまでに得られた
実験結果について述べる。
This paper describes the outline and the experimental results obtained so far.

【0061】3.方法 ある目的をもってかかれた文には、その目的ごとに共通
した特徴があると考えられる。そのような特徴を抽出ル
ールと呼び、対象となる文とのマッチングをとることに
よって目的とする文を選び出している。
3. Method Sentences with a certain purpose are considered to have common characteristics for each purpose. Such features are called extraction rules, and the target sentence is selected by matching with the target sentence.

【0062】抽出ルールの適用のみでは抽出文の精度が
不十分である。そこで、抽出ルールによって選ばれた文
を候補文として、それらの文の中から有効な文を一つだ
け選択する。このとき用いる手掛かりには、対象とする
用語が文献中で出現した順番(用語順位)、抽出ルール
によって抽出された文の順番(抽出順位)、用いた抽出
ルールの正確さ(優先順位)、抽出ルールで得られた文
の前で目的の用語が見出しとなっているか(見出し則)
等があり、抽出ルールによる実験結果を分析して得られ
たものである。
The accuracy of the extracted sentence is insufficient only by applying the extraction rule. Therefore, the sentence selected by the extraction rule is used as a candidate sentence, and only one valid sentence is selected from those sentences. The clues used at this time are the order in which the target terms appear in the document (term order), the order of sentences extracted by the extraction rules (extraction order), the accuracy of the extraction rules used (priority order), the extraction Whether the target term is a headline before the sentence obtained by the rule (headline rule)
Etc., and was obtained by analyzing the experimental results according to the extraction rule.

【0063】実験に用いた資料は、情報検索とデータベ
ース、有線通信工学の教科書、各一冊づつで各々その半
分程度を用いた。
The materials used for the experiment were about one half each of the information retrieval and database, the textbook of wired communication engineering, and one each.

【0064】4.結果 5.考察・結論 今後は、より多くの文献について実験を行い、本方式が
一般的に有効であるか確認する必要がある。
4. Results 5. Discussion / Conclusion In the future, it is necessary to conduct experiments on more documents to confirm whether this method is generally effective.

【0065】以上の抄録文と先願に係る特開平2−25
7266号公報に示された抄録文とを比較すると、ほぼ
同じ文を重要文として抽出しており、特にシナリオ項目
中の前提説明、考察・結論については同じ文を抽出して
いる。目的・主題の前半の文、および方法の前半部分に
ついては、上述の先願では抽出できなかった文である。
The above-mentioned abstract and Japanese Patent Application Laid-Open No. 2-25
Comparing with the abstract sentences shown in Japanese Patent No. 7266, almost the same sentences are extracted as important sentences, and particularly, the same sentences are extracted for the premise explanation, consideration and conclusion in the scenario item. The first half sentence of the purpose / subject and the first half sentence of the method are sentences that could not be extracted by the above-mentioned prior application.

【0066】本願方法によるとシナリオにそって必要な
情報が記述された抄録文が得られ、十分実用的な抄録文
が得られる。
According to the method of the present application, an abstract sentence in which necessary information is described according to the scenario can be obtained, and a sufficiently practical abstract sentence can be obtained.

【0067】[0067]

【発明の効果】以上説明したように、本発明によれば、
抄録文にとって必要な意味的情報を欠落することなく、
文章の筋にそって必要な情報が記述されるので、実用的
な抄録文を自動的に作成することができる。
As described above, according to the present invention,
Without missing the necessary semantic information for the abstract
Since the necessary information is described along the lines of the sentence, it is possible to automatically create a practical abstract sentence.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の一実施例の抄録文作成装置の構成図。FIG. 1 is a configuration diagram of an abstract sentence creating apparatus according to an embodiment of the present invention.

【図2】シナリオ項目設定部の動作を示す図。FIG. 2 is a diagram showing an operation of a scenario item setting unit.

【図3】重要文抽出部の動作を示す図。FIG. 3 is a diagram showing an operation of an important sentence extraction unit.

【図4】重要文抽出処理の一例を示す図。FIG. 4 is a diagram showing an example of important sentence extraction processing.

【図5】文章整形処理部の構成を示す図。FIG. 5 is a diagram showing a configuration of a sentence shaping processing unit.

【図6】直前文付与整形処理の動作を説明する図。FIG. 6 is a diagram illustrating an operation of a preceding sentence addition shaping process.

【図7】語句の置換え・削除・文削除処理の動作を説明
する図。
FIG. 7 is a diagram for explaining the operation of word replacement / deletion / sentence deletion processing.

【符号の説明】[Explanation of symbols]

1 抄録文作成装置 11 シナリオ設定部 12 分野別シナリオテーブル 13 重要文抽出部 14 シナリオ項目単位述語テーブル 15 文章整形部 16 整形指示テーブル 51 直前文付与整形部 52 直前文付与指示テーブル 53 語句置換え削除・文削除部 54 語句の置換え指示テーブル・語句の削除指示テー
ブル・文の削除指示テーブル
1 Abstract sentence creation device 11 Scenario setting unit 12 Scenario-specific scenario table 13 Important sentence extraction unit 14 Scenario item unit predicate table 15 Text shaping unit 16 Shaping instruction table 51 Preceding sentence addition shaping unit 52 Preceding sentence addition instruction table 53 Term substitution deletion / Sentence deletion unit 54 Term replacement instruction table / phrase deletion instruction table / Sentence deletion instruction table

Claims (2)

【特許請求の範囲】[Claims] 【請求項1】 入力された文章中からこの文章の主題を
構成している重要文を抽出する重要文抽出手段と、 抽出された重要文を所定の取り決めに基づいて整形し抄
録文を作成する文章整形手段とを備えた抄録文作成装置
において、 上記重要文抽出手段は、 上記入力される文章の分野ごとに設定され、上記主題を
表現するシナリオ項目ごとにあらかじめ設定されている
この項目を表現している述語を含む文を重要文として抽
出する手段を含むことを特徴とする抄録文作成装置。
1. An important sentence extracting means for extracting an important sentence constituting the subject of this sentence from the inputted sentence, and shaping the extracted important sentence based on a predetermined agreement to create an abstract sentence. In the abstract sentence creating device including sentence shaping means, the important sentence extracting means expresses this item that is set for each field of the input sentence and is preset for each scenario item that expresses the subject. An abstract sentence creating apparatus characterized by including a means for extracting a sentence including a predicate being performed as an important sentence.
【請求項2】 文章整形手段は、 抽出した重要文にある語句によって直前の文を重要文と
して抽出して付加する直前文付加手段と、 特定の語句について他の語句に置き換える手段と、 特定の語句を重要文中から削除する手段と、 あらかじめ指示された文を削除する手段とを備える請求
項1記載の抄録文作成装置。
2. The sentence shaping means includes an immediately preceding sentence adding means for extracting and adding the immediately preceding sentence as an important sentence according to a phrase in the extracted important sentence, a means for replacing a specific phrase with another phrase, and a specific sentence The abstract sentence creating apparatus according to claim 1, further comprising: a unit that deletes the phrase from the important sentence and a unit that deletes a sentence designated in advance.
JP4256934A 1992-09-25 1992-09-25 Abstract sentence generator Pending JPH0713967A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4256934A JPH0713967A (en) 1992-09-25 1992-09-25 Abstract sentence generator

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4256934A JPH0713967A (en) 1992-09-25 1992-09-25 Abstract sentence generator

Publications (1)

Publication Number Publication Date
JPH0713967A true JPH0713967A (en) 1995-01-17

Family

ID=17299403

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4256934A Pending JPH0713967A (en) 1992-09-25 1992-09-25 Abstract sentence generator

Country Status (1)

Country Link
JP (1) JPH0713967A (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11167398A (en) * 1997-12-04 1999-06-22 Mitsubishi Electric Corp Voice synthesizer
JP2004118545A (en) * 2002-09-26 2004-04-15 Nec Corp Text summary system, text summary method and text summary program
JP2009146446A (en) * 2009-03-23 2009-07-02 Nec Corp Text summarization system, text summarization method, and text summarization program
JP2009146447A (en) * 2009-03-23 2009-07-02 Nec Corp Text summarization system, text summarization method, and text summarization program

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61100861A (en) * 1984-10-23 1986-05-19 Toshiba Corp Document editing device
JPH03191475A (en) * 1989-12-20 1991-08-21 Nec Corp Document summarizing system
JPH0474259A (en) * 1990-07-17 1992-03-09 Agency Of Ind Science & Technol Document summarizing device
JPH04257064A (en) * 1991-02-08 1992-09-11 Nippon Telegr & Teleph Corp <Ntt> Summary information extracting device

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61100861A (en) * 1984-10-23 1986-05-19 Toshiba Corp Document editing device
JPH03191475A (en) * 1989-12-20 1991-08-21 Nec Corp Document summarizing system
JPH0474259A (en) * 1990-07-17 1992-03-09 Agency Of Ind Science & Technol Document summarizing device
JPH04257064A (en) * 1991-02-08 1992-09-11 Nippon Telegr & Teleph Corp <Ntt> Summary information extracting device

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11167398A (en) * 1997-12-04 1999-06-22 Mitsubishi Electric Corp Voice synthesizer
JP2004118545A (en) * 2002-09-26 2004-04-15 Nec Corp Text summary system, text summary method and text summary program
JP2009146446A (en) * 2009-03-23 2009-07-02 Nec Corp Text summarization system, text summarization method, and text summarization program
JP2009146447A (en) * 2009-03-23 2009-07-02 Nec Corp Text summarization system, text summarization method, and text summarization program

Similar Documents

Publication Publication Date Title
Furuta et al. Document formatting systems: survey, concepts, and issues
CN101361064A (en) A text editing apparatus and method
JP2002222189A (en) Translation device, translation method, and translation program
JPH08241332A (en) Device and method for retrieving all-sentence registered word
JPH0776969B2 (en) Document processor
CN107767871A (en) Text display method, terminal and server
Amancio et al. An analysis of crowdsourced text simplifications
US5926823A (en) Document generic logical information editing apparatus
CN111078893A (en) Method for efficiently acquiring and identifying linguistic data for dialog meaning graph in large scale
CN109299470A (en) The abstracting method and system of trigger word in textual announcement
Blake et al. Shortening the OED: Experience with a grammar-defined database
CN113408271B (en) Information extraction method, device, equipment and medium based on RPA and AI
JPH0713967A (en) Abstract sentence generator
US20120054605A1 (en) Electronic document conversion system
JPH09146931A (en) Document type definition generating device
Dimitromanolaki et al. Learning to order facts for discourse planning in natural language generation
JPH04352029A (en) Automatic formation device for source program
Hou et al. A token-wise CNN-based method for sentence compression
Burget Hierarchies in HTML documents: linking text to concepts
JP2000250908A (en) Support device for production of electronic book
JPH08221417A (en) New/old comparing editing device for structured document
DuCharme XSLT quickly
Garside The large-scale production of syntactically analysed corpora
Sun et al. Japanese Word Reordering Based on Topological Sort.
JP3156613B2 (en) Document editing method