JPH03214259A - Information extracting method - Google Patents

Information extracting method

Info

Publication number
JPH03214259A
JPH03214259A JP2010069A JP1006990A JPH03214259A JP H03214259 A JPH03214259 A JP H03214259A JP 2010069 A JP2010069 A JP 2010069A JP 1006990 A JP1006990 A JP 1006990A JP H03214259 A JPH03214259 A JP H03214259A
Authority
JP
Japan
Prior art keywords
item
concept
definition
document
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010069A
Other languages
Japanese (ja)
Inventor
Mayumi Hiyoshi
日吉 まゆみ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2010069A priority Critical patent/JPH03214259A/en
Publication of JPH03214259A publication Critical patent/JPH03214259A/en
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PURPOSE:To extract the information at a high speed by starting simultaneously the forward and backward retrieving actions centering on a retrieving start point given in a document. CONSTITUTION:An item value extracting part 11 receives the restrieving start point, the characters and their character expressing definition and sends the retrieving start point and the character expressing definition of each received item to a forward retrieving part 16 and a backward retrieving part 17 to receive the character string which satisfies the given character expressing definition and the position of the character string in the document. Then the part 11 calculates the distances between the retrieving start point given first and the position of the character strings sent back from both parts 16 and 17 in the document and regards the character string having the smaller distance as the first received one to define it as the value of a relevant item. Then a pair of each item and the extracted item value is outputted. Thus the information can be extracted at a high speed and this information extracting method can be applied to a wide range of fields.

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、与えられた文書から、指定された概含泡に関
連する項目を抽出する情報抽出方法に関するものである
DETAILED DESCRIPTION OF THE INVENTION [Field of Industrial Application] The present invention relates to an information extraction method for extracting items related to specified general foam content from a given document.

〔従来の技術〕[Conventional technology]

従来の情報抽出方法では、自然言語の文書中から、指定
された項目を抽出する技術として、「プロシーデインゲ
ス・オン・ザ・フィツス・ナショナル・コンファレンス
・オン・アーティフィシャル・インテリジェンスJ  
(Proceedlngs ofthe fifth 
national conference on ar
tificiallntelllgence) + モ
ーガンカーフマンパブリ、yシャーズ社(Morgan
 Kaufmann Publishers、Inc、
)、1986年、第2巻、 +089頁に記載されてい
るATRANSシステムの採用している技術が知られて
いる。ATRANSシステムは、銀行のテレ・ソクス文
から送金光銀行や送金金額などの項目を抽出するシステ
ムで、入力文は構文意味解析されて意味表現され、その
意味表現から指定項目が抽出される。
Conventional information extraction methods use ``Proceedings on the Fits National Conference on Artificial Intelligence'' as a technology for extracting specified items from natural language documents.
(Procedures of the fifth
national conference on ar
tificialntellgence) + Morgan Calfman Publications, Yshires Inc. (Morgan
Kaufmann Publishers, Inc.
), 1986, Vol. 2, p. +089, the technology adopted by the ATRANS system is known. The ATRANS system is a system that extracts items such as remittance optical bank and remittance amount from a bank's tele-socus text.The input sentence is syntactically and semantically analyzed and expressed semantically, and specified items are extracted from the semantic expression.

〔発明が解決しようとする課題〕 しかしながら従来の情報抽出方法では、文書全体を構文
意味解析するために、大規模な辞書と、複雑な解析技術
と、大容量で高速の計算機とを必要とするという問題点
があった。しかも、抽出できる項目は固定されており、
対象分野がごく限られてしまうという問題点があった。
[Problem to be solved by the invention] However, conventional information extraction methods require large-scale dictionaries, complex analysis techniques, and large-capacity, high-speed computers in order to perform syntactic and semantic analysis of the entire document. There was a problem. Moreover, the items that can be extracted are fixed,
The problem was that the target fields were extremely limited.

本発明の目的は、高速で、かつ広い分野に適応できる情
報抽出方法を提供することにある。
An object of the present invention is to provide an information extraction method that is fast and applicable to a wide range of fields.

〔課題を解決するための手段〕[Means to solve the problem]

第1の発明の情報抽出方法は、与えられた文書から情報
を抽出する情報抽出方法において、概含泡とその概含泡
に関連する項目とその項目の文字表現定義とを格納する
概念定義部を備え、ある文書とその文書中のある概含泡
を与えられると、前記概念定義部を参照して与えられた
概含泡に対応する項目と文字表現定義とを取り出し、取
り出された各項目について、与えられた文書中の与えら
れた概含泡の出現箇所から前向き及び後句ぎに検索を行
い、取り出された各項目に対応する文字表現定義を満た
す最初に検索された文字列を取り出された項目の項目値
とすることにより構成されている。
The information extraction method of the first invention is an information extraction method for extracting information from a given document, in which a concept definition section stores general foam content, items related to the general foam content, and character expression definitions of the items. When a certain document and a certain general bubble content in the document are given, the item and character expression definition corresponding to the given general bubble content are retrieved by referring to the concept definition section, and each extracted item is , perform a forward and backward search from the occurrence location of a given approximate bubble in a given document, and extract the first searched character string that satisfies the character expression definition corresponding to each retrieved item. It is constructed by setting the item values of the specified items.

また、第2の発明の情報抽出方法は、第1の発明の情報
抽出方法において、抽出された項目値を利用者に提示し
、抽出された項目値が正しいか誤っているかの判断を受
け付けるチェック部を備え、前記チェック部で誤ってい
ると判断された場合に誤っていると判断された項目値が
検索された位置から再度検索を続けることにより構成さ
れている。
Further, the information extraction method of the second invention is a check that presents the extracted item values to the user and accepts a judgment as to whether the extracted item values are correct or incorrect in the information extraction method of the first invention. If the item value is determined to be incorrect by the checking section, the search is continued again from the position where the item value determined to be incorrect was retrieved.

一方、第3の発明の情報抽出方法は、第1の発明の情報
抽出方法において、利用者が概念定義部に新しく概含泡
及び項目並びに文字表現定義を追加する概念追加部を備
えることにより構成されている。
On the other hand, the information extraction method of the third invention is configured by providing a concept addition section in which the user adds new general bubbles, items, and character expression definitions to the concept definition section in the information extraction method of the first invention. has been done.

さらに、第4の発明の情報抽出方法は、第1の発明の情
報抽出方法において、概念間の上位下位関係を定義する
概念関係定義部を備え、前記概念関係定義部を参照して
下位概念名に下位概念名の項目および文字表現定義を継
承させ、下位概念名には下位概含泡固有の項目および文
字表現定義のみを定義することにより構成されている。
Furthermore, in the information extraction method of the first invention, the information extraction method of the fourth invention includes a concept relationship definition section that defines a superordinate relationship between the concepts, and refers to the concept relationship definition section to identify the subordinate concept. The subconcept name is constructed by inheriting the items and character expression definitions of the lower level concept name, and defining only the items and character expression definitions specific to the lower level general concept name.

〔作用〕[Effect]

まず、第1の発明の作用について説明する。 First, the operation of the first invention will be explained.

股的に、ある概念に関連する情報はまとまって書かれて
いることが多い。
In general, information related to a certain concept is often written together.

第7図は「送別会」の案内文の一例を示す文書側説明図
である。例えば、「送別会」の案内文の例を第7図に示
すように、「送別会」に関連する「日付」、「時間」、
「場所」などの情報は、文書中の「送別会」という文字
列の出現箇所の近くに書かれる。従ってこの案内文から
「日付」、「時間」、「場所」などの、「送別会」に関
連する項目情報を抽出するときには、文書中の「送別会
」という文字列の出現位置を中心に前方及び後方に並行
して必要項目を探して行けば、早く正しく見つけること
が出来ることが多い。
FIG. 7 is a document-side explanatory diagram showing an example of the guide text for "Farewell Party." For example, as shown in Figure 7, an example of a guide for a "farewell party" includes information such as "date", "time", etc. related to the "farewell party".
Information such as "location" is written near where the character string "farewell party" appears in the document. Therefore, when extracting item information related to "Farewell Party" such as "Date", "Time", and "Place" from this guidance text, it is necessary to move forward from the position where the character string "Farewell Party" appears in the document. If you search for the required item in parallel and backwards, you can often find it quickly and correctly.

一方、「日付」や「時間」などの情報は様々な書き方が
存在する。第1の発明では、「日付」や「時間」などの
各項目に対して、書き方のパターンを表わす複数の文字
表現定義をあらかじめ与えておき、その文字表現定義を
満たす文字列を文書中から捜し出すことによって項目情
報の抽出を行う。
On the other hand, there are various ways to write information such as "date" and "time." In the first invention, multiple character expression definitions representing writing patterns are given in advance for each item such as "date" or "time", and a character string that satisfies the character expression definition is searched from the document. Item information is extracted by

なお、文字表現定義は、あらかじめ決められた文字表現
定義用の文法を用いて記述する。例えば、「日付」の書
き方としては、「4月1日」、r12/31J・・・な
どがある。これらのパターンを、「く数〉−′月”′−
く数〉−“日゛′」、[く数〉−く数〉−“/”−<数
〉−く数〉」・・・などのような文字表現定義として記
述する。
Note that the character expression definition is described using a predetermined grammar for character expression definition. For example, "date" can be written as "April 1st", r12/31J, etc. These patterns can be expressed as “ku number〉−′月”′−
It is written as a character expression definition such as [number>-“day ゛′”, [number>-number>-“/”-<number>-number”, etc.

他方、概念定義部には、「送別会」などの概含泡と、そ
れに関連する「日付」、「時間」、「費用」、などの項
目と、各項目に対して定義される上記のような複数の文
字表現定義とを格納しておく。そして、ある文書とその
文書中のある概含泡を与えられると、概念定義部から概
含泡に対応する項目と文字表現定義とを取り出し、取り
出した各項目についてその文字表現定義を用いて抽出処
理を行う。抽出処理は、与えられた文書中の与えられた
概含泡の出現箇所から前向き及び後向きに検索を行い、
各項目について文字表現定義を満たす文字列を探し、最
初に検索された文字列をその項目の項目値とする。この
ように、概含泡の出現箇所から前方及び後方に並行して
各項目の文字表現定義を満たす文字列を文書中から捜し
出すことによって項目値を抽出するので、文書全体を構
文意味解析する必要がない。
On the other hand, the concept definition section contains general terms such as "farewell party," related items such as "date,""time," and "cost," as well as the above definitions for each item. It stores multiple character expression definitions. Then, given a certain document and a certain general bubble content in that document, the item and character expression definition corresponding to the general bubble content are extracted from the concept definition part, and each extracted item is extracted using the character expression definition. Perform processing. The extraction process searches forward and backward from a given approximate bubble-containing appearance location in a given document.
Search for a character string that satisfies the character expression definition for each item, and use the first character string found as the item value for that item. In this way, item values are extracted by searching the document for character strings that satisfy the character expression definition of each item in parallel forward and backward from the appearance point of the general bubble, so it is necessary to perform syntactic and semantic analysis of the entire document. There is no.

さらに、概含泡と概含泡に関連する項目とその文字表現
定義とを概念定義部に格納しておき、指定された概含泡
に応じて抽出対象となる項目と文字表現定義とを取り出
して抽出を行うので、広い分野に適用することができる
Furthermore, general foam content, items related to general foam content, and their character expression definitions are stored in the concept definition section, and items to be extracted and character expression definitions are retrieved according to the specified general foam content. Since the extraction is performed using the following methods, it can be applied to a wide range of fields.

次に、第2の発明の作用について説明する。第1の発明
では、項目値を抽出するとその項目値を出力して終了す
るので、もし抽出した項目値が誤っている場合に修正す
ることができない。第2の発明では、抽出された項目値
を利用者に提示し、その抽出された項目値が正しいか誤
っているかを利用者がチェックすることによって、もし
誤っている場合に再度検索を続けさせることができる。
Next, the operation of the second invention will be explained. In the first invention, when an item value is extracted, the item value is output and the process ends, so if the extracted item value is incorrect, it cannot be corrected. In the second invention, the extracted item value is presented to the user, the user checks whether the extracted item value is correct or incorrect, and if the extracted item value is incorrect, the user is allowed to continue searching again. be able to.

次に、第3の発明の作用について説明する。文書から情
報を抽出したい概念は利用者によって異なる。また、新
しい概念を追加したいこともある。
Next, the operation of the third invention will be explained. The concept of extracting information from a document differs depending on the user. You may also want to add new concepts.

第3の発明では、概念追加部を備え、利用者が概念定義
部に新しく概含泡と項目と文字表現定義とを追加するこ
とができるので、利用者に適応したより柔軟な処理を行
うことができる。
In the third invention, a concept addition section is provided, and the user can newly add general bubbles, items, and character expression definitions to the concept definition section, so that more flexible processing that is adapted to the user can be performed. I can do it.

次に、第4の発明の作用について説明する。概念間には
、共通の項目があり得る。例えば、「宴会」に関連する
項目が「日付」、「時間」、「場所」、「費用」であり
、「会議」に関連する項目が「日付」、「時間」、「場
所」、「参加者」である場合、「日付」、1時間」、「
場所」は2つの概念間で共通である。このような場合に
、「日付」、「時間」、「場所」の定義を2度記述する
のは煩雑である。第4の発明では、概念間の上位下位関
係を定義しておき、下位概含泡に上位概含泡の項目およ
び文字表現定義を継承させることによって、下位概含泡
には下位概含泡固有の項目および文字表現定義のみを定
義する。
Next, the operation of the fourth invention will be explained. There may be common items between concepts. For example, the items related to "banquet" are "date", "time", "place", and "cost", and the items related to "meeting" are "date", "time", "place", and "participation". ``Date'', ``1 hour'', ``
"Place" is common between the two concepts. In such a case, it is cumbersome to write the definitions of "date", "time", and "place" twice. In the fourth invention, by defining a superior-lower relationship between concepts and having the lower-level general foam-containing inherit the items and character expression definitions of the upper-level general foam-containing, the lower-level general foam-containing Define only the item and character expression definition.

例えば、「宴会」や「会議」の上位概含泡として「イベ
ント」という概含泡を定義し、「イベント」に関連する
項目として、「日付」、「時間」、「場所」を定義する
。そしてその下位概含泡である「宴会」には「費用」の
みを定義し、他の項目は「イベント」から継承させる。
For example, a general content such as "event" is defined as a general content above "banquet" or "meeting", and "date", "time", and "place" are defined as items related to "event". Then, only "cost" is defined for "banquet", which is a lower level bubble, and other items are inherited from "event".

同様に「会議」には「参加者」のみを定義し、他の項目
は「イベント」から継承させる。このように、概念間の
上位下位関係を定義しておき、下位概含泡に上位概含泡
の項目および文字表現定義を継承させることによって、
下位概含泡には下位概含泡固有の項目および文字表現定
義のみを定義すればよいので、文字表現定義の煩雑さを
減少させることができる。
Similarly, only "participant" is defined for "meeting", and other items are inherited from "event". In this way, by defining the superordinate relationship between concepts and having the lower-level general bubbles inherit the items and character expression definitions of the higher-level general bubble-containers,
Since it is only necessary to define items specific to the lower general bubble-containing level and character expression definitions for the lower general bubble-containing level, the complexity of the character expression definition can be reduced.

〔実施例〕〔Example〕

次に、本発明の実施例について図面を参照して説明する
Next, embodiments of the present invention will be described with reference to the drawings.

第1図は第1の発明の情報抽出方法の一実施例を示すブ
ロック図である。第1図に示すように、11は項目値山
部、12は概念定義部、15は概念定義取り出し部、1
6は前方検索部、17は後方検索部である。
FIG. 1 is a block diagram showing an embodiment of the information extraction method of the first invention. As shown in FIG. 1, 11 is an item value mountain part, 12 is a concept definition part, 15 is a concept definition extraction part, 1
6 is a forward search section, and 17 is a backward search section.

概念定義部12には、概念名と、その概念名に関連する
項目と、項目の文字表現定義との3つ組が格納されてい
る。
The concept definition unit 12 stores a triplet of a concept name, an item related to the concept name, and a character expression definition of the item.

第5図は概念定義部12に格納された情報構成の一例を
示す情報構成図である。第5図に示すように、例えば概
念1にはm個の項目が対応付けられており、項目1−1
にはに個の文字表現定義が対応付けられている。
FIG. 5 is an information configuration diagram showing an example of the information configuration stored in the concept definition section 12. As shown in FIG. 5, for example, m items are associated with concept 1, and item 1-1
is associated with character expression definitions.

また、前方検索部16は、与えられた文書中の検索始点
と一つ以上の文字表現定義とを受け取り、その検索始点
から前方へ与えられた文書を走査し、文字表現定義のい
ずれかを満たす文字列を探す。
Further, the forward search unit 16 receives a search starting point in a given document and one or more character expression definitions, scans the given document forward from the search starting point, and satisfies any of the character expression definitions. Find a string.

文字表現定義を満たす文字列があれば、その文字列と文
書中の文字列の位置とを返す。文字表現定義を満たす文
字列がなければ、文書中の文字列の位置として負の値を
返す。
If there is a string that satisfies the character expression definition, that string and its position in the document are returned. If there is no string that satisfies the character representation definition, a negative value is returned as the position of the string in the document.

一方、後方検索部17は、与えられた文書中の検索始点
と一つ以上の文字表現定義とを受け取り、検索始点から
後方へ与えられた文書を走査し、文字表現定義のいずれ
かを満たす文字列を探す。文字表現定義を満たす文字列
があれば、その文字列と文書中の文字列の位置とを返す
。文字表現定義を満たす文字列がなければ、文書中の文
字列の位置として負の値を返す。
On the other hand, the backward search unit 17 receives a search start point in a given document and one or more character expression definitions, scans the given document backward from the search start point, and searches for characters that satisfy any of the character expression definitions. Find a column. If there is a string that satisfies the character expression definition, that string and its position in the document are returned. If there is no string that satisfies the character representation definition, a negative value is returned as the position of the string in the document.

なお、前方検索部16と後方検索部17とは並列に処理
を行っている。
Note that the forward search section 16 and the backward search section 17 perform processing in parallel.

第1図上で、文書からある概念についての情報を抽出し
たいときに、文書と検索始点とを項目値抽出部11へ渡
し、概念名を概念定義取り出し部15へ渡す。概念定義
取り出し部15は、概念名を受け取り、概念定義部12
を参照して、受け取った概念名に対応する項目および文
字表現定義を取り出し、項目値抽出部11へ渡す。
In FIG. 1, when it is desired to extract information about a certain concept from a document, the document and the search start point are passed to the item value extraction unit 11, and the concept name is passed to the concept definition extraction unit 15. The concept definition extraction unit 15 receives the concept name, and the concept definition extraction unit 12
, the item and character expression definition corresponding to the received concept name are extracted and passed to the item value extraction unit 11.

そこで、項目値抽出部11は、文書と検索始点と項目と
その文字表現定義とを受け取り、受け取った各項目につ
いて、検索始点と文字表現定義とを前方検索部16およ
び後方検索部17に渡し、与えられた文字表現定義を満
足する文字列とその文字列の文書中の位置とを受け取る
。前方検索部および後方検索部から返された文字列の文
書中の位置と、最初に与えられた検索始点との距離を計
算し、距離の小さい方を最初に受け取った文字列とみな
して、その項目の項目値とし、各項目と抽出した項目値
との対を出力する。もしいずれかの文字列の文書中の位
置が負の値であれば、負の値でない方の文字列をその項
目の項目値とする。またもしどちらの文字列の文書中の
位置も負の値であるときには、不明であることを示す記
号を項目値とする。
Therefore, the item value extraction unit 11 receives the document, the search start point, the item, and its character expression definition, and passes the search start point and character expression definition for each received item to the forward search unit 16 and backward search unit 17. Receives a character string that satisfies a given character representation definition and the position of that character string in the document. The distance between the position in the document of the string returned from the forward search section and the backward search section and the first given search start point is calculated, the one with the smaller distance is regarded as the first received string, and the It is set as the item value of the item, and a pair of each item and the extracted item value is output. If the position of either character string in the document is a negative value, the non-negative character string is used as the item value for that item. If the position of either character string in the document is a negative value, a symbol indicating that it is unknown is used as the item value.

第2図は第2の発明の情報抽出方法の一実施例を示すブ
ロック図である。第2図に示すように、21は項目値抽
出部、22は必須項目格納部、23はチェック部、25
は概念定義取り出し部、26は前方検索部、27は後方
検索部、29は位置格納部である。第2図に示す22,
25.26゜27のそれぞれは、第1図の12.16.
IE3゜17にそれぞれ対応して同じ機能を有している
FIG. 2 is a block diagram showing an embodiment of the information extraction method of the second invention. As shown in FIG. 2, 21 is an item value extraction section, 22 is an essential item storage section, 23 is a check section, 25
2 is a concept definition retrieval unit, 26 is a forward search unit, 27 is a backward search unit, and 29 is a position storage unit. 22 shown in FIG.
25.26°27 are respectively 12.16. in FIG.
They respectively correspond to IE3.17 and have the same functions.

そして、チェック部23は、項目値抽出部21から受け
取った項目と項目値との対を利用者に提示し、正しいか
誤っているかの判断を受け取る。
Then, the checking unit 23 presents the pair of item and item value received from the item value extraction unit 21 to the user, and receives a determination as to whether the pair is correct or incorrect.

もし正しいと判断された場合には、その時点で終了する
。もし誤っていると判断された場合には、その項目を項
目値抽出部21に渡す。以上の動作を、正しいと判断さ
れるまで繰り返す。
If it is determined to be correct, the process ends at that point. If it is determined that the item is incorrect, the item is passed to the item value extraction unit 21. Repeat the above operations until it is determined to be correct.

また、位置格納部29は、項目と抽出した項目値とその
文書中の位置とを格納しておく場所である。
Further, the position storage unit 29 is a place where items, extracted item values, and their positions in the document are stored.

そこで、項目値抽出部21は、文書と検索始点と項目と
その文字表現定義とを受け取ると、第1図の場合と同様
に抽出処理を行い、各項目と抽出した項目値との対を出
力すると共に、位置格納部29に各項目と抽出した項目
値の文書中の位置との対を格納する。次に、チェック部
23から項目のみを渡されると、位置格納部29を参照
して渡された項目の前回抽出した項目値の位置を取り出
し、取り出した位置と検索始点との距離を求める。
Therefore, when the item value extraction unit 21 receives the document, search start point, item, and its character expression definition, it performs the extraction process in the same way as in the case of FIG. 1, and outputs a pair of each item and the extracted item value. At the same time, pairs of each item and the position of the extracted item value in the document are stored in the position storage unit 29. Next, when only the item is passed from the checking unit 23, the position of the previously extracted item value of the passed item is retrieved with reference to the position storage unit 29, and the distance between the retrieved position and the search start point is determined.

これを修正距離と呼ぶことにする。This will be called the correction distance.

そして、検索始点から修正距離分だけ前方の位置と渡さ
れた項目の文字表現定義とを前方検索部26へ渡し、そ
れと並行して検索始点から修正距離分だけ後方の位置と
渡された項目の文字表現定義とを後方検索部27へ渡し
て、与えられた文字表現定義のいずれかを満足する文字
列を検索し、前方検索部26と後方検索部27との両方
から、与えられた文字表現定義を満足する文字列とその
文字列の文書中の位置とを受け取る。前方検索部26と
後方検索部27とから返された文字列の文書中の位置と
、最初に与えられた検索始点との距離を計算し、距離の
小さい方の文字列をその項目の項目値とみなす。もしい
ずれかの文字列の文書中の位置が負の値であれば、負の
値でない方の文字列をその項目の項目値とする。またも
しどちらの文字列の文書中の位置も負の値であるときに
は、不明であることを示す記号を項目値とする。
Then, the position forward by the corrected distance from the search start point and the character expression definition of the passed item are passed to the forward search unit 26, and in parallel, the position backward by the corrected distance from the search start point and the passed item's character expression definition are passed to the forward search unit 26. The character expression definition is passed to the backward search section 27 to search for a character string that satisfies either of the given character expression definitions, and from both the forward search section 26 and the backward search section 27, the given character expression is searched. Receives a string that satisfies the definition and its position in the document. The distance between the position in the document of the character string returned from the forward search unit 26 and the backward search unit 27 and the first given search starting point is calculated, and the character string with the smaller distance is selected as the item value of the item. regarded as. If the position of either character string in the document is a negative value, the non-negative character string is used as the item value for that item. If the position of either character string in the document is a negative value, a symbol indicating that it is unknown is used as the item value.

各項目と抽出した項目値と項目値の文書中の位置とを位
置格納部29に格納し、各項目と項目値との対をチェッ
ク部23に渡す。
Each item, the extracted item value, and the position of the item value in the document are stored in the position storage unit 29, and the pair of each item and item value is passed to the checking unit 23.

第3図は第3の発明の情報抽出方法の一実施例を示すブ
ロック図である。第3図に示すように、31は項目値抽
出部、32は概念定義部、34は概念追加部、35は概
念定義取り出し部、36は前方検索部、37は後方検索
部である。第3図に示す31,32,35.36.37
のそれぞれは、第1図の11.12,15,16.17
にそれぞれ対応して同じ機能を存している。
FIG. 3 is a block diagram showing an embodiment of the information extraction method of the third invention. As shown in FIG. 3, 31 is an item value extraction section, 32 is a concept definition section, 34 is a concept addition section, 35 is a concept definition extraction section, 36 is a forward search section, and 37 is a backward search section. 31, 32, 35, 36, 37 shown in Figure 3
11.12, 15, 16.17 in Figure 1, respectively.
They have the same functions corresponding to each other.

そして、概念追加部34は、概含泡とその概含泡に関連
する項目と項目の文字表現定義との3つ組を受け取り、
概念定義部32に追加する。もし、受け取った概含泡と
項目とがすでに概念定義部32に存在している場合には
、その文字表現定義の集合に、新たに受け取った文字表
現定義を追加する。もし、概含泡がすでに概念定義部3
2に存在していて、受け取った項目が存在していなけれ
ば、その項目の集合に、新たに受け取った項目と文字表
現定義との対を追加する。
Then, the concept addition unit 34 receives the triplet of the general bubble-containing, the item related to the general bubble-containing, and the character expression definition of the item,
It is added to the concept definition section 32. If the received general bubble-containing definition and item already exist in the concept definition unit 32, the newly received character expression definition is added to the set of character expression definitions. If the general bubble content is already in the concept definition section 3,
2, and if the received item does not exist, the pair of the newly received item and the character expression definition is added to the set of items.

なお、項目値抽出の処理は、第1図の場合と同様である
Note that the item value extraction process is the same as in the case of FIG.

第4図は第4の発明の情報抽出方法の一実施例を示すブ
ロック図である。第4図に示すように、41は項目値抽
出部、42は概念定義部、45は概念定義取り出し部、
46は前方検索部、47は後方検索部、48は概念関係
定義部である。第4図に示す41.46.47のそれぞ
れは、第1図の11.16.17にそれぞれに対応して
同じ機能を有している。そして、概念関係定義部48に
は、概念間の上位下位関係が定義されている。
FIG. 4 is a block diagram showing an embodiment of the information extraction method of the fourth invention. As shown in FIG. 4, 41 is an item value extraction section, 42 is a concept definition section, 45 is a concept definition extraction section,
46 is a forward search section, 47 is a backward search section, and 48 is a conceptual relationship definition section. Each of 41.46.47 shown in FIG. 4 corresponds to 11.16.17 of FIG. 1 and has the same function. In the concept relationship definition section 48, higher-level and lower-level relationships between concepts are defined.

第6図は概念関係定義部48に定義された概念間の上位
下位関係の一例を示す情報構成図である。
FIG. 6 is an information configuration diagram showing an example of the upper-lower relationships between concepts defined in the concept relationship definition section 48.

第6図に示すように、概念関係定義部49は、各概念に
対する各上位概念を定義している。
As shown in FIG. 6, the concept relationship definition unit 49 defines each superordinate concept for each concept.

また、概念定義部42では、下位の概含泡は、上位の僚
含泡の項目および文字表現定義を継承し、もしその上位
概念にも継承する上位概念が登録されている場合には、
さらにその上位概念の項目および文字表現定義を継承す
るので、下位概含泡にはその概含泡固有の項目および文
字表現定義のみを定義する。
In addition, in the concept definition unit 42, the lower-level general bubble inherits the items and character expression definitions of the higher-level affiliated bubble-container, and if the higher-level concept also has a registered higher-level concept to inherit,
Furthermore, since the items and character expression definitions of the higher-level concept are inherited, only the items and character expression definitions specific to the general bubble-containing concept are defined for the lower-level general foam-containing concept.

そこで、概念定義取り出し部45は、概含泡を受け取り
、概念定義部42を参照して、受け取った概含泡に対応
する項目および文字表現定義を取り出すと同時に、概念
関係定義部48を参照して、その概含泡の上位概含泡を
取り出す。もし該当する上位概含泡があれば、概念定義
部42を参照して、上位概含泡に対応する項目及び文字
表現定義を取り出す。この動作を、上位概含泡がなくな
るまで繰り返す。
Therefore, the concept definition retrieval unit 45 receives the general foam content, refers to the concept definition unit 42, retrieves the item and character expression definition corresponding to the received general foam content, and at the same time refers to the concept relationship definition unit 48. Then, take out the uppermost foam-containing one. If there is a corresponding high-level generally foam-containing item, the concept definition unit 42 is referred to and the item and character expression definition corresponding to the high-level generally foam-containing item are extracted. This operation is repeated until the upper layer contains almost no bubbles.

なお、項目値抽出の処理は、第1図の場合と同様である
Note that the item value extraction process is the same as in the case of FIG.

〔発明の効果〕〔Effect of the invention〕

以上述べたように、本発明の情報抽出方法は、文書中の
検索始点を与えられて、そこから前方および後方に同時
に検索していくので、文章全体を解析する必要がなく、
高速に処理できるとともに、概含泡と概含泡に関連する
項目とその文字表現定義とを文書の種類に関係なく定義
できるので、広い分野の文書に適用することができると
いう効果を有している。
As described above, the information extraction method of the present invention is given a search starting point in a document and searches forward and backward simultaneously from there, so there is no need to analyze the entire text.
In addition to being able to process at high speed, it is possible to define general foam content, items related to general foam content, and their character expression definitions regardless of the type of document, so it has the effect of being applicable to documents in a wide range of fields. There is.

【図面の簡単な説明】[Brief explanation of drawings]

第1図は第1の発明の情報抽出方法の一実施例を示すブ
ロック図、第2図は第2の発明の情報抽出方法の一実施
例を示すブロック図、第3図は第3の発明の情報抽出方
法の一実施例を示すブロック図、第4図は第4の発明の
情報抽出方法の一実施例を示すブロック図、第5図は概
念定義部に格納された情報構成の一例を示す情報構成図
、第6図は概念関係定義部に定義された概念間の上位下
位関係の一例を示す情報構成図、第7図は「送別会」の
案内文の一例を示す文書側説明図である。 11・・・項目値抽出部、12・・・概念定義部、15
・・・概念定義取り出し部、16・・・前方検索部、1
7・・・後方検索部、21・・・項目値抽出部、22・
・・概念定義部、23・・・チェック部、24・・・概
念定義取り出し部、26・・・前方検索部、27・・・
後方検索部、29・・・位置格納部、31・・・項目値
抽出部、32・・・概念定義部、34・・・概念追加部
、35・・・概念定義取り出し部、36・・・前方検索
部、37・・・後方検索部、41・・・項目値抽出部、
42・・・概念定義部、45・・・概念定義取り出し部
、46・・・前方検索部、47・・・後方検索部、48
・・・概念関係定義部。
FIG. 1 is a block diagram showing an embodiment of the information extraction method of the first invention, FIG. 2 is a block diagram showing an embodiment of the information extraction method of the second invention, and FIG. 3 is a block diagram showing an embodiment of the information extraction method of the second invention. FIG. 4 is a block diagram showing an embodiment of the information extraction method of the fourth invention, and FIG. 5 shows an example of the information structure stored in the concept definition section. FIG. 6 is an information configuration diagram showing an example of the upper-lower relationship between concepts defined in the concept relationship definition section. FIG. 7 is a document-side explanatory diagram showing an example of the guide text for "Farewell Party" It is. 11... Item value extraction section, 12... Concept definition section, 15
...Concept definition retrieval section, 16...Forward search section, 1
7... Backward search section, 21... Item value extraction section, 22.
... Concept definition part, 23... Check part, 24... Concept definition extraction part, 26... Forward search part, 27...
Backward search unit, 29... Position storage unit, 31... Item value extraction unit, 32... Concept definition unit, 34... Concept addition unit, 35... Concept definition extraction unit, 36... Forward search unit, 37... Backward search unit, 41... Item value extraction unit,
42... Concept definition section, 45... Concept definition extraction section, 46... Forward search section, 47... Backward search section, 48
... Conceptual relationship definition part.

Claims (1)

【特許請求の範囲】 1、与えられた文書から情報を抽出する情報抽出方法に
おいて、概念名とその概念名に関連する項目とその項目
の文字表現定義とを格納する概念定義部を備え、ある文
書とその文書中のある概念名を与えられると、前記概念
定義部を参照して与えられた概念名に対応する項目と文
字表現定義とを取り出し、取り出された各項目について
、与えられた文書中の与えられた概念名の出現箇所から
前向き及び後向きに検索を行い、取り出された各項目に
対応する文字表現定義を満たす最初に検索された文字列
を取り出された項目の項目値とすることを特徴とする情
報抽出方法。 2、請求項1記載の情報抽出方法において、抽出された
項目値を利用者に提示し、抽出された項目値が正しいか
誤っているかの判断を受け付けるチェック部を備え、前
記チェック部で誤っていると判断された場合に誤ってい
ると判断された項目値が検索された位置から再度検索を
続けることを特徴とする情報抽出方法。 3、請求項1記載の情報抽出方法において、利用者が概
念定義部に新しく概念名及び項目並びに文字表現定義を
追加する概念追加部を備えることを特徴とする情報抽出
方法。 4、請求項1記載の情報抽出方法において、概念間の上
位下位関係を定義する概念関係定義部を備え、前記概念
関係定義部を参照して下位概念名に上位概念名の項目お
よび文字表現定義を継承させ、下位概念名には下位概念
名固有の項目および文字表現定義のみを定義することを
特徴とする情報抽出方法。
[Claims] 1. An information extraction method for extracting information from a given document, comprising a concept definition unit storing a concept name, an item related to the concept name, and a character expression definition of the item, When a document and a certain concept name in the document are given, the item and character expression definition corresponding to the given concept name are retrieved by referring to the concept definition section, and for each retrieved item, the given document is Search forwards and backwards from the occurrence of a given concept name in , and use the first searched character string that satisfies the character expression definition corresponding to each retrieved item as the item value of the retrieved item. An information extraction method characterized by: 2. The information extraction method according to claim 1, further comprising a checking section that presents the extracted item values to the user and accepts a judgment as to whether the extracted item values are correct or incorrect, and the checking section An information extraction method characterized by continuing the search again from the position where the item value determined to be incorrect is retrieved when it is determined that the item value is incorrect. 3. The information extraction method according to claim 1, further comprising a concept addition section through which the user adds new concept names, items, and character expression definitions to the concept definition section. 4. The information extraction method according to claim 1, further comprising a concept relationship definition section that defines a superior-subordinate relationship between concepts, and refers to the concept relationship definition section to add items of a superordinate concept name and a character expression definition to a subordinate concept name. , and defining only items and character expression definitions specific to the subordinate concept name in the subordinate concept name.
JP2010069A 1990-01-18 1990-01-18 Information extracting method Pending JPH03214259A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010069A JPH03214259A (en) 1990-01-18 1990-01-18 Information extracting method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010069A JPH03214259A (en) 1990-01-18 1990-01-18 Information extracting method

Publications (1)

Publication Number Publication Date
JPH03214259A true JPH03214259A (en) 1991-09-19

Family

ID=11740089

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010069A Pending JPH03214259A (en) 1990-01-18 1990-01-18 Information extracting method

Country Status (1)

Country Link
JP (1) JPH03214259A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005338581A (en) * 2004-05-28 2005-12-08 Mitsubishi Electric Corp Display method of matrix display device and matrix display device

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005338581A (en) * 2004-05-28 2005-12-08 Mitsubishi Electric Corp Display method of matrix display device and matrix display device

Similar Documents

Publication Publication Date Title
Liao et al. Improving readability for automatic speech recognition transcription
US8892420B2 (en) Text segmentation with multiple granularity levels
US9501467B2 (en) Systems, methods, software and interfaces for entity extraction and resolution and tagging
US8364470B2 (en) Text analysis method for finding acronyms
CN101815996A (en) Detect name entities and neologisms
Saloot et al. An architecture for Malay Tweet normalization
US11531693B2 (en) Information processing apparatus, method and non-transitory computer readable medium
KR20100038378A (en) A method, system and computer program for intelligent text annotation
Lee et al. Deep learning-based context-sensitive spelling typing error correction
Jabbar et al. An improved Urdu stemming algorithm for text mining based on multi-step hybrid approach
Banerjee et al. Generating abstractive summaries from meeting transcripts
Sproat et al. Applications of lexicographic semirings to problems in speech and language processing
Banerjee et al. Named entity recognition on code-mixed cross-script social media content
Sangavi et al. Analysis on bilingual machine translation systems for English and Tamil
Suriyachay et al. Thai named entity tagged corpus annotation scheme and self verification
CN112905752A (en) Intelligent interaction method, device, equipment and storage medium
JPH03214259A (en) Information extracting method
CN112989011A (en) Data query method, data query device and electronic equipment
Wen Text mining using HMM and PMM
JP2019194759A (en) Dialogue system reinforcement device and computer program
Bansal et al. Online insurance business analytics approach for customer segmentation
CN116595192B (en) Technological front information acquisition method and device, electronic equipment and readable storage medium
Hemmer et al. Estimating Post-OCR Denoising Complexity on Numerical Texts
Batawalaarachchi Automated title generation in sinhala language
US20240176947A1 (en) System and method for disambiguating data to improve analysis of electronic content