JP2003330947A - Fact data extracting device - Google Patents

Fact data extracting device

Info

Publication number
JP2003330947A
JP2003330947A JP2002134092A JP2002134092A JP2003330947A JP 2003330947 A JP2003330947 A JP 2003330947A JP 2002134092 A JP2002134092 A JP 2002134092A JP 2002134092 A JP2002134092 A JP 2002134092A JP 2003330947 A JP2003330947 A JP 2003330947A
Authority
JP
Japan
Prior art keywords
extraction
fact data
fact
text
technical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2002134092A
Other languages
Japanese (ja)
Inventor
Harutoshi Okai
晴俊 大貝
Kimitoku Shimamoto
公徳 嶋本
Tadako Suemura
唯子 壽惠村
Tatsuya Iwashita
達哉 岩下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Steel Corp
Original Assignee
Nippon Steel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Steel Corp filed Critical Nippon Steel Corp
Priority to JP2002134092A priority Critical patent/JP2003330947A/en
Publication of JP2003330947A publication Critical patent/JP2003330947A/en
Withdrawn legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To construct database by automatically extracting multiple types of fact data from a lot of technical documents. <P>SOLUTION: This fact data extracting device is provided with a means 16 for inputting and storing a text 11 of the technical documents, a means 5 for inputting and storing technical terms and their category data 10, a means 1 for putting a tag on the technical document text using the technical terms, a means 2 for preparing an extract pattern of the fact data from the technical document text with the tag, and a means 3 for extracting the fact data from the technical document text to be the extract target of the fact data and the extract pattern by a matching operation. <P>COPYRIGHT: (C)2004,JPO

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は、ファクトデータの
抽出装置に関し、特に、論文、実験報告書、研究報告書
等の技術文書中に含まれるファクトデータを抽出するた
めに用いて好適なものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an apparatus for extracting fact data, and is particularly suitable for use in extracting fact data contained in technical documents such as papers, experimental reports, research reports and the like. is there.

【0002】[0002]

【従来の技術】ファクトデータは、材料の物性値など、
実験や観測によって得られた自然現象の特性値を意味す
る。これらのファクトデータは、データベース化して人
類の共通の資産として利用されている。また、医療現場
における患者の臨床データもファクトデータといえる。
2. Description of the Related Art Fact data includes physical property values of materials such as
It means the characteristic value of a natural phenomenon obtained by experiment or observation. These fact data are converted into a database and used as common assets for humankind. Also, clinical data of patients in the medical field can be said to be fact data.

【0003】上記ファクトデータにおけるデータベース
の作成は、基本的には人手により行われていた。具体的
に説明すると、技術者や研究者によってまとめられた論
文、実験報告書、及び研究報告書などの技術文書から、
人手によりファクトデータの抽出と、データベースへの
格納が行われてきた。
The creation of the database of the above fact data was basically done manually. Specifically, from technical documents such as papers, experimental reports, and research reports compiled by engineers and researchers,
Fact data has been manually extracted and stored in a database.

【0004】他方、テキストから情報を抽出する技術と
しては、新聞記事から商品情報を抽出する研究や、イン
ターネットから旅行情報などを検索して、場所、費用な
どを抽出して整理して提示するサービスが行われてい
る。
On the other hand, as a technique for extracting information from texts, there is a research for extracting merchandise information from newspaper articles, a service for retrieving travel information from the Internet, extracting places, costs, etc. and organizing and presenting them. Is being done.

【0005】[0005]

【発明が解決しようとする課題】しかしながら、上述し
た従来の技術では、ファクトデータの抽出を人手によっ
て行っていたので、これらの作業に多大な労力を要する
という問題点があった。
However, in the above-mentioned conventional technique, since the fact data is manually extracted, there is a problem that a great deal of labor is required for these operations.

【0006】本発明は、上述の問題点にかんがみ、特定
分野の論文、実験報告書、研究報告書のような技術文書
からファクトデータを自動的に抽出できるようにするこ
とを目的とする。
The present invention has been made in view of the above problems, and an object of the present invention is to make it possible to automatically extract fact data from technical documents such as articles in specific fields, experimental reports, and research reports.

【0007】[0007]

【課題を解決するための手段】本発明のファクトデータ
抽出装置は、技術文書中に含まれるファクトデータを技
術文書テキストから抽出するファクトデータの抽出装置
であって、予め用意した前記技術文書の該当技術分野の
専門用語辞書ファイルを用いて、学習用テキストファイ
ルの各文を抽出項目に関してタグ付けし、タグ付きファ
イルを作成するタグ付け手段と、前記タグ付きファイル
から選択されたタグ付き文と、指定された抽出情報とか
ら抽出したいファクトデータを抽出するためのテンプレ
ートを作成する抽出パターンマッチテンプレート作成手
段と、前記ファクトデータの抽出対象となるテキストを
入力し、前記作成したテンプレートを用いてマッチング
を行い、テンプレートの抽出項目に対応する入力文の文
字列を解候補とし、さらに解候補の制約判定を行い、フ
ァクトデータを抽出するファクト抽出手段と、前記抽出
したファクトデータをデータベースに格納するデータベ
ース格納手段とを含むことを特徴とする。本発明の他の
特徴とするところは、前記タグ付け手段は、専門用語を
組み込んだ形態素解析により、テキスト中の用語を専門
用語のカテゴリーに分類して基本タグ付けし、前記基本
タグに基づき複合語に合成してタグ付けすることを特徴
とする。本発明のその他の特徴とするところは、前記タ
グ付け手段は、テキスト中の文の構造情報に基づいて前
記テキストの構造をタグ付けすることを特徴とする。本
発明のその他の特徴とするところは、前記ファクト抽出
手段における前記解候補の制約判定は、前記解候補の形
態素解析結果に基づく制約条件を判定することを特徴と
する。本発明のその他の特徴とするところは、前記ファ
クト抽出手段は、求めた解候補の制約判定するにあた
り、複数の抽出項目にまたがる表現の解候補を分割して
個々の抽出項目とする抽出結果分割機能をさらに有する
ことを特徴とする。上記のように構成した本発明によれ
ば、技術文書テキストを入力した技術文書ファイルと、
専門用語とそのカテゴリーを入力した専門用語辞書ファ
イルを用いて、技術文書テキストを専門用語を用いてタ
グ付けすることができ、そのタグ付けされた技術文書テ
キストからファクトデータ抽出を行うテンプレートパタ
ーンを作成することが可能になる。そして、ファクトデ
ータの抽出対象となる技術文書テキストと抽出テンプレ
ートパターンとを文字列のマッチング操作を行うことに
より抽出項目に対応するファクトデータを抽出すること
ができる。抽出したファクトデータはファクトデータベ
ースとして格納・蓄積することが可能になる。また、タ
グ付け手段は、専門用語を組み込んだ形態素解析により
テキスト中の用語を品詞や専門用語のカテゴリーに分類
し基本タグ付けすることが可能になる。さらに基本タグ
を利用して複合語に合成してタグ付けすることが可能に
なる。さらに、タグ付け手段は、テキスト中の文の構造
情報を利用してテキストの構造をタグ付けすることが可
能になる。また、ファクト抽出手段は,ファクトデータ
の抽出対象となる技術文書テキストと抽出パターンとを
マッチング操作を行うことにより得られた解候補から形
態素解析結果に基づく品詞情報や文字区切りや専門用語
のカテゴリーに関する制約条件を満足するものを抽出デ
ータとしている。また、ファクト抽出手段は,ファクト
データの抽出対象となる技術文書テキストと抽出パター
ンからマッチング操作を行うとき,数値と単位,または
数値においてさらに分割して抽出データとすることが可
能になる。本発明により、論文等の技術文書から多くの
ファクトデータが自動的に抽出され、ファクトデータベ
ースとして蓄積でき、診断や制御等の基礎データとして
利用できる。また、タグ付きファイルとして蓄積するこ
とが可能になる。
A fact data extraction device of the present invention is a fact data extraction device for extracting fact data contained in a technical document from a text of a technical document, which corresponds to the technical document prepared in advance. Using the technical term dictionary file in the technical field, each sentence of the learning text file is tagged with respect to the extraction item, and a tagging means for creating a tagged file, and a tagged sentence selected from the tagged file, Extraction pattern match template creating means for creating a template for extracting the fact data to be extracted from the specified extraction information, and input the text to be the extraction target of the fact data, and perform matching using the created template. And the character string of the input sentence corresponding to the extraction item of the template is set as the solution candidate. Further subjected to restriction judgment candidate solutions, wherein the fact extracting means for extracting the fact data to include a database storage means for storing the fact data which the extracted database. Another feature of the present invention is that the tagging means classifies the terms in the text into categories of technical terms by means of morphological analysis incorporating technical terms to perform basic tagging, and based on the basic tags, It is characterized by combining words and tagging them. Another feature of the present invention is that the tagging means tags the structure of the text based on structure information of a sentence in the text. Another feature of the present invention is that the constraint determination of the solution candidate in the fact extraction means determines a constraint condition based on a morphological analysis result of the solution candidate. Another feature of the present invention is that the fact extraction means divides the extraction result into individual extraction items by dividing the solution candidates of the expression that spans a plurality of extraction items in determining the constraints of the obtained solution candidates. It is characterized by further having a function. According to the present invention configured as described above, a technical document file in which a technical document text is input,
You can use the technical term dictionary file that contains the technical terms and their categories to tag technical document texts with technical terms, and create a template pattern that extracts fact data from the tagged technical document texts. It becomes possible to do. Then, the fact data corresponding to the extraction item can be extracted by performing a character string matching operation between the technical document text that is the extraction target of the fact data and the extraction template pattern. The extracted fact data can be stored / stored as a fact database. Further, the tagging unit can classify the terms in the text into categories of parts of speech and technical terms and perform basic tagging by morphological analysis incorporating the technical terms. Furthermore, it becomes possible to synthesize and tag a compound word using the basic tag. Further, the tagging unit can tag the structure of the text by using the structure information of the sentence in the text. Further, the fact extracting means relates to part-of-speech information, character breaks, and technical term categories based on the result of morphological analysis from solution candidates obtained by performing a matching operation between a technical document text that is an object of fact data extraction and an extraction pattern. The data that satisfies the constraint is used as the extracted data. Further, the fact extracting unit can further divide the numerical value and the unit or the numerical value into the extracted data when performing the matching operation from the technical document text to be the extraction target of the fact data and the extraction pattern. According to the present invention, many fact data can be automatically extracted from technical documents such as papers, accumulated as a fact database, and used as basic data for diagnosis and control. Also, it becomes possible to store as a tagged file.

【0008】[0008]

【発明の実施の形態】以下、本発明のファクトデータの
抽出装置の一実施の形態を、添付の図面を参照しながら
説明する。本発明のファクトデータの抽出装置の対象と
する分野は特に問わないが、以下は医療分野を例に説明
する。なお、抽出の対象とするファクトデータは、実験
対象、実験条件とその結果のデータである。
BEST MODE FOR CARRYING OUT THE INVENTION An embodiment of a device for extracting fact data according to the present invention will be described below with reference to the accompanying drawings. The target field of the fact data extraction device of the present invention is not particularly limited, but the medical field will be described below as an example. The fact data to be extracted are the data of the experiment subject, the experiment condition, and the result thereof.

【0009】図1は、本実施の形態のファクトデータの
抽出装置を適用した医療ファクトデータ抽出装置の一構
成例を示すブロック図である。本装置は、例えばパソコ
ンによって実現される。
FIG. 1 is a block diagram showing an example of the configuration of a medical fact data extraction device to which the fact data extraction device of this embodiment is applied. This device is realized by, for example, a personal computer.

【0010】図1において、1はタグ付け処理部で、専
門用語データ10を入力した専門用語辞書ファイル5を
用いて,学習用テキスト11を入力した学習用テキスト
ファイル6をタグ付け処理し、タグ付けファイル7を出
力する.
In FIG. 1, reference numeral 1 denotes a tagging processing unit, which uses a technical term dictionary file 5 into which technical term data 10 has been input to perform tagging processing on a learning text file 6 into which learning text 11 has been input. Output attachment file 7.

【0011】専門用語データ10は、「(専門用語 (
語分類項目 ((見出し語 (用語名 1.0)) (読み 用語の
読み))))」という形式で作成する。上記において、専
門用語の分類カテゴリーは、用語分類項目として表現さ
れる。専門用語は用語名に記述される。1.0は重みを意
味する。
The technical term data 10 is "(technical term ( for
Word categories ((entry word (the term name 1.0)) (read terms
Read )))) ”format. In the above, the technical term classification category is expressed as a term classification item. Technical terms are described in term names. 1.0 means weight.

【0012】具体的に説明すると、専門用語データ10
は、例えば、「(専門用語 (病名 ((見出し語 (肉芽腫
1.0)) (読み ニクゲシュ))))」という形式のデータで
ある。
More specifically, technical term data 10
Is, for example, "(Terminology (Disease ((
1.0)) (reading Nikgesh)))) ”format.

【0013】このような形式の専門用語データ10を入
力して作成したファイルが、専門用語辞書ファイル5で
ある。専門用語辞書ファイル5は、抽出対象分野ごとに
作成する。図2に、医療分野におけるその用語分類項目
の一例を示す。
The file created by inputting the technical term data 10 in such a format is the technical term dictionary file 5. The technical term dictionary file 5 is created for each extraction target field. FIG. 2 shows an example of the term classification items in the medical field.

【0014】タグ付け処理部1におけるタグ付けの処理
は、図3の処理フローにより行う。専門用語辞書を用い
た形態素解析によるタグ付け処理13では、学習用テキ
ストファイル6の文字情報に対して、専門用語辞書ファ
イル5に登録された語彙を検索し、登録された語彙が存
在する場合、その語彙の用語分類項目毎に、それぞれ対
応する要素名を持つタグを付加する。
The tagging process in the tagging processing unit 1 is performed according to the process flow shown in FIG. In the tagging process 13 by morphological analysis using the technical term dictionary, the vocabulary registered in the technical term dictionary file 5 is searched for the character information of the learning text file 6, and when the registered vocabulary exists, A tag having a corresponding element name is added to each term classification item of the vocabulary.

【0015】ここで、タグの付加とは、タグ付けの対象
となる文字列の前後に開始タグと終了タグを挿入するこ
とである。開始タグは要素名と属性指定を”<”と”>”
で囲って表現され、終了タグは要素名を”</”と”>”
で囲って表現される。例えば、「<要素名 属性指定>
グ付け対象文字列</要素名>」というように表現される
場合、開始タグは、<要素名 属性指定>であり、終了タ
グは、</要素名>である。
Here, adding a tag means inserting a start tag and an end tag before and after a character string to be tagged. The start tag is the element name and attribute specification "<" and ">"
Enclosed in, and the end tag is the element name "</" and ">"
Expressed by enclosing in. For example, when expressed as "<element name attribute specification> tag target character string </ element name >", the start tag is <element name attribute specification> and the end tag is </ element name> Is.

【0016】上述したように、専門用語辞書ファイル5
に登録された語彙を検索し、登録された語彙が存在する
かを判定するために形態素解析を行う。本実施の形態に
おける形態素解析には、「日本語形態素解析システムJU
MAN(京都大学)」を用いた。
As described above, the technical term dictionary file 5
The vocabulary registered in is searched, and morphological analysis is performed to determine whether the registered vocabulary exists. For the morphological analysis in this embodiment, "Japanese morphological analysis system JU
MAN (Kyoto University) "was used.

【0017】形態素解析は、与えられた1文に対し、品
詞による文の分解を行い、分解された各形態素の品詞
名、品詞細目分類名などを求めるもので、専門用語につ
いては、用語名とその用語分類項目が結果として求めら
れる。この情報を利用して上記の形式の基本タグ付けを
行っている。属性指定は、要素名の出現番号を、No=1
の形で表している。
In the morphological analysis, a given sentence is decomposed into parts by the part of speech, and the part of speech name and the part of speech subclass classification name of each decomposed morpheme are obtained. The term classification item is obtained as a result. This information is used to do the basic tagging in the above format. For attribute specification, the appearance number of the element name is No = 1
It is expressed in the form.

【0018】次に、行構造の解析によるタグ付け処理1
4を行う。学習用テキストファイルとして、抄録論文集
を対象とする。抄録集は複数の抄録からなる。各抄録の
間には一つもしくは複数の空白行が挿入されている。
Next, the tagging process 1 by analyzing the line structure 1
Do 4. As a text file for learning, the abstract paper collection is targeted. The abstract collection consists of multiple abstracts. One or more blank lines are inserted between each abstract.

【0019】また、各抄録は、「タイトル」、「著
者」、及び「本文」などの複数のセクションからなり、
各セクション間には一つもしくは複数の空白行が挿入さ
れているものとする。そこで、これらのセッションを区
別するために、構造タグを付与する。
Each abstract is composed of a plurality of sections such as "title", "author", and "text".
It is assumed that one or more blank lines are inserted between each section. Therefore, a structure tag is added to distinguish these sessions.

【0020】例えば、「第58回 日本医学放射線学学術
発表会抄録集」に収録された論文抄録では、抄録集全
体、各抄録、及び各セクションには図4のような構造タ
グを付与する。
For example, in the abstracts of papers recorded in "Abstracts of the 58th Annual Meeting of the Japanese Society of Medical Radiology", structure tags as shown in FIG. 4 are attached to the entire abstracts, each abstract, and each section.

【0021】この構造タグの付与は、空白行の認識と順
番によってその種類を判定して行う。最初の空白行でな
い行の前行に、<doc>、<article>、<head>、<title>を
挿入する。次の空白行に</title>、<authors>を挿入す
る。さらに、次の空白行に</authors>、</head>、<body
>を挿入する。次の空白行に</body>、</article>、<art
icle>を挿入する。以下を同様に繰り返すことで全体に
構造タグを付与することできる。
This structural tag is added by judging its type by the recognition and order of blank lines. Insert <doc>, <article>, <head>, <title> before the first non-blank line. Insert </ title> and <authors> in the next blank line. And on the next blank line </ authors>, </ head>, <body
Insert>. On the next blank line </ body>, </ article>, <art
Insert icle>. A structural tag can be added to the whole by repeating the following.

【0022】空白行が挿入されてない場合には、論文番
号、目的等の用語で始まりを検知し、空白行を挿入する
ことができる。また、抄録の本文は、「目的」、「結
果」などの幾つかの記述部に分けることができる。例え
ば、「第58回 日本医学放射線学学術発表会抄録集」に
収録された論文抄録では、その本文は、「目的」、「対
象/方法」、「結果」、及び「結論」の4つの記述部に
分かれている。それぞれの内容記述部には、その内容に
応じた「[目的]」などの特定の文字列で開始される。
When a blank line is not inserted, the beginning can be detected by a term such as the article number and purpose, and a blank line can be inserted. Also, the body of the abstract can be divided into several description parts such as "purpose" and "result". For example, in the abstract of a paper recorded in "Abstracts of the 58th Annual Meeting of the Japanese Society of Medical Radiology", the text is four descriptions of "purpose", "object / method", "result", and "conclusion". It is divided into parts. Each content description section starts with a specific character string such as "[purpose]" according to the content.

【0023】各記述部の各行に、記述内容に応じたタグ
を付加する。各行は、”。”もしくは”.”で終了す
る。内容記述部の開始を指示する開始文字列と、その文
字列によって指示される記述内容の各行に付加するタグ
要素名を「記述内容開始指示文字」辞書ファイル(記述
内容開始辞書ファイル)23によって設定するものとす
る。
A tag corresponding to the description content is added to each line of each description section. Each line ends with "." Or ".". A start character string for instructing the start of the content description part and a tag element name to be added to each line of the description content indicated by the character string are set by the "description content start instruction character" dictionary file (description content start dictionary file) 23 It shall be.

【0024】記述内容ごとの記述は、記述内容開始指示
文字列から始まり、次の記述内容開始指示文字列が出現
するまで、もしくは、抄録が終了するまでの間とする。
The description for each description content starts from the description content start instruction character string and continues until the next description content start instruction character string appears or until the abstract ends.

【0025】図5に、上記「記述内容開始文字辞書ファ
イル」の例を示す。上述の例(図5)では、「目的」記
述部の各行に付加するタグ要素名を”objective”、
「対象/方法」記述部の各行に付加するタグ要素名を”
methods”、「結果」記述部の各行に付加する要素名
を”results”、「結論」記述部の各行に付加するタグ
要素名を”conclusions”と設定している。
FIG. 5 shows an example of the "description content start character dictionary file". In the above example (FIG. 5), the tag element name added to each line of the “purpose” description part is “objective”,
The tag element name to be added to each line of the "target / method" description is "
"results" is set as the element name added to each line of the "methods" and "results" description sections, and "conclusions" is set as the tag element name added to each line of the "conclusion" description section.

【0026】タグの合成処理15では、指定されたタグ
要素および特定文字列の出現パターンの組に対して、特
定の新たなタグを付加する。新たなタグを付加する際に
は、タグの付加条件パターンで指定された従来のタグは
取り除くものとする。
In the tag combining process 15, a specific new tag is added to the set of the specified tag element and the appearance pattern of the specific character string. When adding a new tag, the conventional tag specified by the tag addition condition pattern shall be removed.

【0027】以下に、具体例を示す。最初の例では人名
(山田)と人名(太郎)は合成して人名(山田太郎)と
する。以下同様である。
Specific examples are shown below. In the first example, the personal name (Yamada) and the personal name (Taro) are combined into the personal name (Taro Yamada). The same applies hereinafter.

【0028】人名 人名+人名 人名+" "+人名 ただし、上記において「" "」は空白を示す(以下同様
とする)。
Personal name Personal name + Personal name Personal name + "" + Personal name However, in the above, """" indicates a blank space (the same applies hereinafter).

【0029】所属 組織名+組織部門+組織部門+… 地名+"大学","大" 地名+"病院","院" 所属+(” “(空白)以外の文字列) Affiliation organization name + organization department + organization department + ... place name + "university", "large" place name + "hospital", "hospital" affiliation + ("" character string other than "(blank))

【0030】病名 病名修飾語+病名 病名修飾語+"性"+病名 病名+病名語尾 身体組織+病名語尾 (漢字文字列(アルファベットを含む))+病名 病名+(漢字文字列(アルファベットを含む))は病名
としない
Disease name Disease name modifier + Disease name Disease name modifier + "Gender" + Disease name Disease name + Disease name ending Body organization + Disease name ending (Kanji character string (including alphabets)) + Disease name disease name + (Kanji character string (including alphabets) ) Is not a disease name

【0031】診断機器 機器修飾+診断機器 “超高速”+診断機器 “使用機器は”に接続する漢字(アルファベットを含
む)文字列
Diagnostic equipment Device modification + diagnostic equipment "ultra high speed" + diagnostic equipment Kanji (including alphabets) character string connected to "used equipment is"

【0032】診断方法 診断機器+解析方法 診断機器+"による"+解析方法 Diagnostic method Diagnostic device + analysis method Diagnostic device + "by" + analysis method

【0033】診断ソース 診断機器+”画像”|”像” 身体組織+診断機器+”画像”|”像” ただし、上記において「”|”」は「又は」の意味で用
いる(以下同様とする)。
Diagnostic Source Diagnostic Device + “Image” | “Image” Body Tissue + Diagnostic Device + “Image” | “Image” However, in the above, ““ | ”” means “or” (hereinafter the same. ).

【0034】数値 数値+”±”+数値 数値+”−”+数値 数値+”〜”+数値 “(”+数値+”)”は数値としない Numerical value Numerical value + "±" + Numerical value Numerical value + "-" + Numerical value Numerical value + "-" + Numerical value "(" + Numerical value + ")" is not a numerical value

【0035】報告項目 目的を記述するセクション中の”検討する。”で終了す
る文 目的を記述するセクション中の“評価する。”で終了す
る文
Report Item Statements ending with "Examine." In section describing objectives Statements ending with "Evaluate" in section describing objectives

【0036】抽出項目タグ付け処理16では、タグが出
現する上位タグや前後のタグおよび文字列などの情報を
利用し、用語タグや構造タグなどのタグ付け処理用タグ
を抽出項目タグに変換することによって、ファクトデー
タの抽出対象となる項目のうち、以下の項目に対して抽
出項目タグを付加する。図6、図7に抽出項目の一覧を
示す。
In the extraction item tagging process 16, information such as the upper tag in which the tag appears, the preceding and following tags, and the character string is used to convert the tag for tagging process such as the term tag and the structure tag into the extraction item tag. By doing so, the extraction item tags are added to the following items among the items to be extracted from the fact data. 6 and 7 show a list of extraction items.

【0037】1. 論文番号 論文抄録のタイトル部の先頭に出現する数値。 2. 論文題目 論文抄録のタイトル部の先頭に出現する数値と数値に引
き続く空白文字を除く文字列。 3. 発表者氏名 論文抄録の「著者」部に出現する「人名」。
1. Paper number A numerical value that appears at the beginning of the title part of a paper abstract. 2. The title A string of characters that excludes the number that appears at the beginning of the title part of the abstract and the number that follows the number. 3. Presenter name "Person name" that appears in the "Author" section of the abstract.

【0038】4. 発表者所属 論文抄録の「著者」部に出現する「所属」。 5. 病名 論文抄録の「タイトル」部および「目的」部に出現する
「病名」。 6. 診療部位 論文抄録の「対象/方法」部に出現する「身体組織」。
4. “Affiliation” that appears in the “author” section of the abstract of the paper belonging to the presenter. 5. "Disease name" that appears in the "Title" and "Purpose" sections of the disease abstract. 6. "Body tissue" that appears in the "Target / method" section of the medical site abstract.

【0039】7. 診療対象症例 論文抄録の「対象/方法」部に出現する「病名」。 8. 診療症例例数 論文抄録の「対象/方法」部に出現する「症例単位」に
連接する「数値」。 9. 年齢範囲 論文抄録の「対象/方法」部に出現する以下の文字列。
「年齢単位」に連接する「数値」+「年齢単位」+
“〜”|“から”+「年齢単位」に連接する「数値」+
「年齢単位」。
[0039] 7. "Disease name" that appears in the "Target / method" section of the medical treatment case abstract. 8. Number of cases treated A "numerical value" concatenated with the "case unit" that appears in the "Object / Method" section of the paper abstract. 9. The following character strings that appear in the "Target / Method" section of the age range paper abstract.
"Numeric value" + "Age unit" connected to "Age unit" +
“~” | “From” + “number” connected to “age unit” +
"Age unit".

【0040】10. 診療実施年月 論文抄録の「対象/方法」部に出現する以下の文字列。 「年月単位」に連接する「数値」+「年月単位」+
“〜”|“から”+。「年月単位」に連接する「数値」
+「年月単位」。 11. 診療機器 論文抄録の「対象/方法」部に出現する「診断機器」。 12. 診療方法 論文抄録の「タイトル」部および「対象/方法」部に出
現する「診断方法」。
10. The following character strings appearing in the “object / method” section of the medical practice date abstract. "Numerical value" + "Year / Month unit" +
"~" | "From" +. "Numeric value" connected to "year / month unit"
+ “Year / month unit”. 11. "Diagnostic device" that appears in the "Target / method" section of the medical device abstract. 12. "Diagnosis method" that appears in the "Title" section and the "Target / method" section of the medical treatment method paper abstract.

【0041】13. 診療データ種別 論文抄録の「対象/方法」部に出現する「診断ソー
ス」。 14. データ解析方法 論文抄録の「対象/方法」部に出現する「解析方法」。 15. 治療方法 論文抄録の「タイトル」部および「対象/方法」部に出
現する「治療方法」。
13. "Diagnosis Source" that appears in the "Target / Method" section of the medical data type paper abstract. 14. Data analysis method "Analysis method" that appears in the "object / method" section of the paper abstract. 15. Treatment Method The "treatment method" that appears in the "Title" and "Object / Method" sections of the abstract.

【0042】16. 治療薬 論文抄録の「対象/方法」部に出現する「治療薬」。 17. 治療薬量 論文抄録の「対象/方法」部に出現する「薬量単位」に
連接する「数値」。 18. 治療薬量単位 論文抄録の「対象/方法」部に出現する「薬量単位」。
16. “Therapeutic drug” that appears in the “Object / Method” section of the therapeutic drug abstract. 17. A "numerical value" concatenated with the "dosage unit" that appears in the "Target / Method" section of the therapeutic dose abstract. 18. Therapeutic dosage unit The "dosage unit" that appears in the "Subject / Method" section of the paper abstract.

【0043】19. 放射線名 論文抄録の「対象/方法」部に出現する「放射線名」。 20. 放射線量 論文抄録の「対象/方法」部に出現する「線量単位」に
連接する「数値」。 21. 線量単位 論文抄録の「対象/方法」部に出現する「線量単位」。
19. Radiation name "Radiation name" that appears in the "object / method" section of the abstract of the thesis. 20. A "numerical value" concatenated with the "dose unit" that appears in the "object / method" section of the radiation dose abstract. 21. Dose unit The "dose unit" that appears in the "object / method" section of the paper abstract.

【0044】22. 治療頻度 論文抄録の「対象/方法」部に出現する「頻度単位」に
連接する「数値」。 23. 治療期間 論文抄録の「対象/方法」部に出現する「期間単位」に
連接する「数値」。 24. 診療対象分類 論文抄録の「結果」部に出現する「診療対象分類」。
22. “Frequency” connected to “frequency unit” appearing in the “object / method” section of the treatment frequency paper abstract. 23. A "numerical value" concatenated with the "period unit" that appears in the "object / method" section of the treatment period abstract. 24. Medical treatment classification The "medical treatment classification" that appears in the "Results" section of the abstract.

【0045】25. 診療Gr分類 論文抄録の「結果」部に出現する「診療Gr分類」。 26. 診療Gr分類補足 論文抄録の「結果」部に出現する「診療Gr分類補足」。 27. 評価項目 論文抄録の「結果」部に出現する「診断尺度」。25. Medical treatment Gr classification "Medical treatment Gr classification" that appears in the "Results" section of the abstract. 26. Medical treatment Gr classification supplement "Medical Gr classification supplement" that appears in the "Results" section of the abstract. 27. Evaluation items A "diagnostic scale" that appears in the "Results" section of a paper abstract.

【0046】28. 評価値 論文抄録の「結果」部に出現する「単位」に連接する
「数値」。 29. 評価単位 論文抄録の「結果」部に出現する「単位」。
28. Evaluation value A "numerical value" concatenated with a "unit" that appears in the "results" section of the paper abstract. 29. Evaluation unit "Unit" that appears in the "Results" section of the abstract.

【0047】30. 評価全体例数 論文抄録の「結果」部に出現する以下の文字列。 M+“例中”+N+“例”。 N+“/”+M のM。 ただし、上記において、MとNは「数値」を表す。30. Total number of evaluation cases The following character strings appearing in the "Results" section of the abstract. M + “in the example” + N + “example”. M of N + “/” + M. However, in the above, M and N represent "numerical values."

【0048】31. 評価例数 論文抄録の「結果」部に出現する以下の文字列。 M+“例中”+N+“例”。 N+“/”+M。 N+“例” のN。 ただし、上記において、MとNは「数値」をあらわす。31. Number of evaluation examples The following character strings appearing in the "Results" section of the abstract. M + “in the example” + N + “example”. N + “/” + M. N + N in "example". However, in the above, M and N represent “numerical values”.

【0049】32. 評価補足 論文抄録の「結果」部の「評価補足」。 33. 評価 論文抄録の「結果」部の「評価」。 34. 結論 論文抄録の「結論」部の各行。ただし、「結論」部の開
始識別子を含まず、行の句点“。”もしくは“.”を含
まない。
32. “Supplemental Evaluation” in the “Result” section of the supplementary paper for evaluation. 33. "Evaluation" in the "Results" section of the evaluation paper abstract. 34. Conclusion Each line in the "Conclusion" section of the abstract. However, it does not include the start identifier of the "conclusion" part, and does not include the "." Or "."

【0050】35. 対象 論文抄録の「結論」部に出現する「病名」。 36. 方法 論文抄録の「結論」部に出現する「診断方法」および
「治療方法」。 37. 効果 論文抄録の「結論」部に出現する特定の文字列。文字列
は「結果文字列ファイル」で指定される。上記「結果文
字列ファイル」で指定される文字列の例として、“有
用”、“認められる”、“低い”、“高い”などが挙げ
られる。
35. “Disease name” that appears in the “Conclusion” section of the abstract of the subject paper. 36. "Diagnostic methods" and "treatment methods" appearing in the "Conclusion" section of method paper abstracts. 37. A specific character string that appears in the "Conclusion" section of the effect paper abstract. The character string is specified in the "result character string file". Examples of the character string specified in the “result character string file” include “useful”, “recognized”, “low”, “high” and the like.

【0051】タグの整形処理17では、抽出パターンテ
ンプレート作成処理(抽出パターンマッチテンプレート
作成処理部2における処理)に不必要なタグを削除す
る。整形するタグの情報は、「タグ整形処理ファイル」
に指定するものとする。また、「タグ整形処理ファイ
ル」のフォーマットはXSLフォーマットに準拠するもの
としている。さらに、タグ付けされたファイルは、XML
に準拠するものとしている。最終的に残すタグの一例を
図8、図9に示す。
In the tag shaping process 17, a tag unnecessary for the extraction pattern template creation process (process in the extraction pattern match template creation processing unit 2) is deleted. Information on tags to be formatted is "Tag formatting file"
Shall be specified. Also, the format of the "tag shaping processing file" is based on the XSL format. In addition, the tagged files are XML
It complies with. An example of the tag to be left finally is shown in FIGS.

【0052】図1に戻って、抽出パターンマッチテンプ
レート作成処理部2では、抽出したいファクトデータを
抽出するためのテンプレートの自動作成を行う。テンプ
レートを定義するための用語について述べる。
Returning to FIG. 1, the extraction pattern matching template creation processing unit 2 automatically creates a template for extracting the fact data to be extracted. Describe the terms used to define the template.

【0053】「抽出項目」は、抽出を試みる情報の内容
を表すラベルであり、例えば、「病名」、「診療Gr分
類」、「評価項目」、「評価値」、「評価単位」、「評
価例数」、「評価補足」などが挙げられる。
The "extraction item" is a label showing the content of information to be extracted, and for example, "disease name", "medical treatment Gr classification", "evaluation item", "evaluation value", "evaluation unit", "evaluation". Examples include “number of cases” and “evaluation supplement”.

【0054】「抽出情報」は、抽出項目に対応する情報
を表す文字列(ファクトデータ)である。「パターン」
は、パターンマッチングの対象となる1文字以上の文字
列である。「固定パターン」は、抽出対象に頻出する特
徴的な文字列であり、例えば、“診断する”や“像す
る”などが挙げられる。
"Extraction information" is a character string (fact data) representing information corresponding to the extraction item. "pattern"
Is a character string of one or more characters that is the target of pattern matching. The “fixed pattern” is a characteristic character string that frequently appears in the extraction target, and examples thereof include “diagnose” and “image”.

【0055】「ワイルドカード」は、パターンマッチン
グ上、文字列長0以上の任意の文字列とマッチしうる記
号である。
The “wild card” is a symbol that can match any character string having a character string length of 0 or more in pattern matching.

【0056】テンプレートは、次のように定義する。L
を抽出項目、Pをパターン、Wをワイルドカードとした
時、テンプレートTを以下の(1式)のように定める。
The template is defined as follows. L
, Where P is a pattern and W is a wildcard, the template T is defined as in (Equation 1) below.

【0057】 T = C0L1C1L2…Cn-1LnCn ただし、Ci = P0W1P1W2…Pm-1WmPm (i=0〜n) ・・・(1式)[0057]   T = C0L1C1L2 ... Cn-1LnCn   However, Ci = P0W1P1W2 ... Pm-1WmPm (i = 0 to n) ... (1 formula)

【0058】なお、Cは空文字列であってもよい。ま
た、テンプレートは1文単位で作成し、CとLは交互に現
れるものとする。テンプレートを表現する場合、抽出項
目は[item]の形式で表す。itemは抽出項目名である。ワ
イルドカードは*で表す。
Note that C may be an empty character string. In addition, the template is created for each sentence, and C and L appear alternately. When expressing the template, the extraction items are expressed in the form of [item]. item is the extraction item name. Wild cards are represented by *.

【0059】テンプレートの作成は、タグ付けされたテ
ンプレート作成用データから自動的に行われる。例を用
いてその手順を説明する。
The template is automatically created from the tagged template creating data. The procedure will be described using an example.

【0060】 テンプレート作成用データからテンプ
レートに変換する文を選択し、抽出情報を決定する。
A sentence to be converted into a template is selected from the template creation data, and the extraction information is determined.

【0061】 以下の文を選択した場合を例に挙げて
説明を行う。 例) 「<SNB>過誤腫瘍病変</SNB>は<SNS>29</SNS>
症例中<SNV> 14</SNV><SU>症例</SU>(<SNA>50%</
SNA>)において認められた。」 ここで、抽出情報として、SNB:診療Gr分類、SNS:評価
例数、SNV:評価値、SU: 評価単位、SNA:評価補足 等
を予め設定しておく。
The case where the following sentence is selected will be described as an example. Example) “<SNB> malware tumor lesion </ SNB> is <SNS> 29 </ SNS>
<SNV> 14 </ SNV><SU> cases </ SU>(<SNA> 50% </ SNV)
SNA>). Here, as extraction information, SNB: medical treatment Gr classification, SNS: number of evaluation examples, SNV: evaluation value, SU: evaluation unit, SNA: evaluation supplement, etc. are set in advance.

【0062】 形態素解析システムJUMANを用いて上
記選択した文を単語に切り分ける。 例) 「 <SNB>過誤腫瘍病変</SNB> は <SNS>29</
SNS> 症例中<SNV> 14</SNV> <SU>症例</SU> ( <
SNA>50%</SNA> )に おいて 認められた。」
The selected sentence is divided into words by using the morphological analysis system JUMAN. Example) “<SNB> Halmal tumor lesion </ SNB> is <SNS> 29 </
SNS> Out of cases <SNV> 14 </ SNV><SU> Cases </ SU>(<
SNA> 50% </ SNA>). "

【0063】 文中の抽出情報を抽出項目に置換す
る。 例) 「[診療Gr分類] は [評価例数] 症例中 [評
価値] [評価単位]([評価補足])に おいて 認めら
れた。」
The extraction information in the sentence is replaced with the extraction item. Example) "[Medical treatment Gr classification] was recognized in [Number of evaluated cases] [Evaluation value] [Evaluation unit] ([Supplemental evaluation])."

【0064】 抽出情報前後の1単語と固定パターン
以外の文字列をワイルドカードに置換する。その結果、
テンプレートは、以下のようになる。 例) 「[診療Gr分類]は[評価例数]症例中[評価値][評
価単位]([評価補足])に*認められた。」
One word before and after the extraction information and a character string other than the fixed pattern are replaced with wildcards. as a result,
The template looks like this: Example) "[Medical treatment Gr classification] was found in [number of evaluated cases] [evaluation value] [evaluation unit] ([supplementary evaluation]) in the cases."

【0065】以上のような手順で作成されたテンプレー
トは、テンプレートファイル8に格納される。入力文が
テンプレートとのマッチングに成功すると、パターンに
挟まれた入力文中の文字列が対応する抽出項目の抽出情
報として抽出される。
The template created by the above procedure is stored in the template file 8. When the input sentence is successfully matched with the template, the character string in the input sentence sandwiched between the patterns is extracted as the extraction information of the corresponding extraction item.

【0066】テンプレート集合の中に、情報抽出を行う
文にマッチするテンプレートが複数あった場合には、テ
ンプレート集合の適用法により抽出される情報は異なっ
てくる。ここでは、テンプレートを決められた順番でマ
ッチングさせていき、マッチングが成功した時点で処理
を終了する方法を採用する。
If there are a plurality of templates in the template set that match the sentence for which information is to be extracted, the information extracted will differ depending on the template set application method. Here, a method is adopted in which the templates are matched in a predetermined order, and the processing is ended when the matching is successful.

【0067】そのために、正しい解を抽出する可能性の
高いテンプレートから順番に並べられたテンプレート集
合を以下のようにして作成する。
For that purpose, a template set arranged in order from a template having a high possibility of extracting a correct solution is created as follows.

【0068】 抽出システムを用いて各テンプレート
でパターンマッチングを行い、テンプレート作成用デー
タのすべての文から情報の抽出を行う。 テンプレートとマッチした文の数を求めて、数が少
ないテンプレートから順番にテンプレートを並び換え
る。
Pattern matching is performed on each template using the extraction system, and information is extracted from all the sentences of the template creation data. Find the number of sentences that match the template, and sort the templates in order from the one with the smallest number.

【0069】次に、テンプレートを用いたファクト抽出
処理部3は、ファクト抽出対象のテキスト(抄録論文)
12を句点で分割する。ファクト抽出処理部3は、分割
されたそれぞれの文に対し、図10に示すテンプレート
を用いたファクト抽出処理を行う。
Next, the fact extraction processing unit 3 using the template extracts the text of the fact extraction target (abstract paper).
Divide 12 by punctuation. The fact extraction processing unit 3 performs the fact extraction processing using the template shown in FIG. 10 on each of the divided sentences.

【0070】図10において、表層表現によるテンプレ
ートの変更処理18では、以下の処理を行う。 特定の項目の表記による変更を行う。 評価全体例数、評価例数は、数値及び“全”しか取り得
ないので、以下の(2式)ような表記パターンに置換す
る。 「診断全体例数」のパターン=([0 1 2 3 4 5 6 7 8 9 全]+) ・・・(2式) 項目間関係の表記による表現を行う。 評価項目−評価単位、診療Gr分類−評価項目−評価単
位のパターンでは、評価項目に数値、評価単位に単位の
表記パターンを与える。
In FIG. 10, in the template changing process 18 by surface expression, the following process is performed. Change the notation of a specific item. Since the total number of evaluation examples and the number of evaluation examples can take only numerical values and “total”, they are replaced with the following notation pattern (equation (2)). Pattern of "total number of diagnosis cases" = ([0 1 2 3 4 5 6 7 8 9 all] +) (2 expressions) Express the relationship between items by notation. In the pattern of evaluation item-evaluation unit, medical treatment Gr classification-evaluation item-evaluation unit, a numerical notation is given to the evaluation item and a unit notation pattern is given to the evaluation unit.

【0071】テンプレートによるパターンマッチ処理1
9では、入力文と、上記テンプレートの変更処理18で
変更されたテンプレートのマッチング処理を行う。入力
文がテンプレートとのマッチングに成功すると、パター
ンに挟まれた入力文中の文字列が対応する抽出項目の解
候補として抽出される。
Pattern matching process 1 by template
In 9, the matching processing of the input sentence and the template changed in the template changing processing 18 is performed. When the input sentence is successfully matched with the template, the character string in the input sentence sandwiched between the patterns is extracted as a solution candidate of the corresponding extraction item.

【0072】抽出結果の分割処理20では、抽出結果に
対して分割処理を行う。 「診療Gr分類」−「評価」パターン等は、複数項目にま
たがるような表現も抽出してしまう。そこで抽出結果の
分割処理20により、「数値+単位」に着目して個々の
項目の抽出を行う。
In the extraction result division processing 20, the extraction result is divided. The “medical care Gr classification”-“evaluation” pattern and the like also extract expressions that span multiple items. Therefore, the individual items are extracted by focusing on the “numerical value + unit” by the extraction result division processing 20.

【0073】例えば、診療Gr分類0が「骨病変」、評価0
が「蝶形骨の形成障害が3症例、後頭骨の骨欠損が1症
例」として抽出された場合、「数値+単位」で分割し
て、「蝶形骨の形成障害」を評価項目0、「3」を評価
値0、「症例」を評価単位0、「後頭骨の骨欠損」を評価
項目1、「1」を評価値1、「症例」を評価単位1として
抽出する。なお、各抽出項目名の後の番号は、同一抽出
項目を区別する番号である。
For example, medical treatment Gr classification 0 is “bone lesion”, evaluation 0
Is extracted as “3 cases of sphenoid dysplasia and 1 case of occipital bone defect”, it is divided by “numerical value + unit”, and “sphenoid dysplasia” is evaluated item 0, “3” is extracted as an evaluation value 0, “case” is an evaluation unit 0, “occipital bone defect” is an evaluation item 1, “1” is an evaluation value 1, and “case” is an evaluation unit 1. The number after each extraction item name is a number that distinguishes the same extraction item.

【0074】制約処理22では、形態素情報による解候
補の制約判定を行う。文が入力された時点で、上記JUMA
Nを用いて形態素解析を行い、各文の区切り情報と品詞
情報を記録する。テンプレートマッチによって得られた
解候補に対して、各抽出項目ごとに以下の処理を行う。
In the constraint processing 22, constraint determination of solution candidates is performed based on morpheme information. When the sentence is entered, the above JUMA
Morphological analysis is performed using N, and delimiter information and part-of-speech information of each sentence are recorded. The following processing is performed for each extraction item for the solution candidates obtained by the template matching.

【0075】 単語の区切りを調べ、解候補の前後の
区切りが間違っていたならばその解候補を排除する。 解候補の品詞並びを調べ、特定の品詞以外のものが
含まれていたらその解候補を排除する。 解候補の品詞が専門用語のとき、そのカテゴリーを
調べ、対象外のものはその解候補を排除する。
The word breaks are examined, and if the breaks before and after the solution candidate are incorrect, the solution candidate is excluded. Check the part-of-speech sequence of the solution candidate, and if the part-of-speech other than the specific part-of-speech is included, exclude the solution candidate. When the part-of-speech of a solution candidate is a technical term, the category is examined, and the non-target one excludes the solution candidate.

【0076】具体例を以下の入力文例とそれから抽出さ
れた解候補を用いて示す。入力文例として、「高安動脈
炎の評価におけるCT血管撮像の診断能力を検討する。」
を挙げる。
A specific example will be shown using the following input sentence examples and solution candidates extracted therefrom. As an example of the input sentence, "Examine the diagnostic ability of CT angiography in the evaluation of Takayasu arteritis."
I will give you.

【0077】上記入力文に対して形態素解析を行った
後、パターンマッチング処理によって病名の解候補とし
て以下の表1に示す4つの文字列が抽出されたとする。
It is assumed that, after morphological analysis is performed on the input sentence, four character strings shown in Table 1 below are extracted as disease name solution candidates by pattern matching processing.

【0078】[0078]

【表1】 [Table 1]

【0079】文の区切りを判定すると、第2の解候補は
単語の途中で終わっているため解候補から排除する。品
詞並びを判定すると、第3の解候補は動詞(おける)が
含まれているため排除する。
When the sentence division is determined, the second solution candidate is excluded from the solution candidates because it ends in the middle of the word. When the part-of-speech arrangement is determined, the third solution candidate is excluded because it includes a verb (kaku).

【0080】品詞並びを判定すると、第4の解候補は専
門用語が含まれているが、そのカテゴリーは「診断機
器」であるので、解候補から排除する。以上の処理によ
って、解候補のうち、第1の解候補が残ることになる。
When the part-of-speech arrangement is determined, the fourth solution candidate includes technical terms, but the category thereof is "diagnostic device", so it is excluded from the solution candidates. Through the above processing, the first solution candidate remains among the solution candidates.

【0081】一方、以上のような処理を行った結果、抽
出情報が一つも得られない場合は、その項目の情報は存
在しないものとして処理する。そして、各文ごとに決定
された抽出情報を出力する。
On the other hand, if no extracted information is obtained as a result of the above processing, it is assumed that the information of that item does not exist. Then, the extracted information determined for each sentence is output.

【0082】ファクトデータのDB格納処理部4は、フ
ァクトデータ抽出結果の内容を、指定された「医療ファ
クトデータベース」(ファクトDB9)に格納する。図
11に格納する抽出結果例を示す。図11において記号
「!」の後は、階層−階層内番号を示し、現在は順番に
与えている。
The fact data DB storage processing unit 4 stores the contents of the fact data extraction result in the designated "medical fact database" (fact DB 9). An example of the extraction result stored in FIG. 11 is shown. In FIG. 11, the number after the symbol “!” Indicates a layer-intra-layer number, which is currently given in order.

【0083】なお、上記「医療ファクトデータベース」
は市販のリレーショナルデータベースによって実現され
る。ファクトデータを抽出する医療ファクトデータ抽出
サブシステムについて、医学放射線学会の抄録論文を対
象に、情報情報抽出の実験を行った。
The above "medical fact database"
Is realized by a commercial relational database. We conducted an experiment on information extraction of a medical fact data extraction subsystem, which extracts fact data, from abstract papers of the Japan Society of Medical Radiology.

【0084】精度評価の項目として、病名や診断結果か
ら7項目を選び、抽出精度の検証を行った。その結果を
図12に示す。図12に示すように、再現率(正しく抽
出された情報の数/全ての抄録に記録されている抽出項
目の個数)と、適合率(正しく抽出された情報の数/抽
出した情報の数)からみた精度は、非常に高く、本実施
の形態のファクトデータの抽出装置が非常に有効である
ことを示している。このように、本実施の形態のファク
トデータの抽出装置を用いれば、ファクトデータを技術
論文から自動的に抽出することができる。
As the accuracy evaluation items, seven items were selected from the disease name and the diagnosis result, and the extraction accuracy was verified. The result is shown in FIG. As shown in FIG. 12, recall (the number of correctly extracted information / the number of extracted items recorded in all the abstracts) and precision (the number of correctly extracted information / the number of extracted information) The accuracy seen is very high, which shows that the fact data extraction device of the present embodiment is very effective. As described above, the fact data can be automatically extracted from the technical paper by using the fact data extraction device of the present embodiment.

【0085】上記のように構成した本実施の形態によれ
ば、技術文書テキストを入力した技術文書ファイルと、
専門用語とそのカテゴリーを入力した専門用語辞書ファ
イルを用いて、技術文書テキストを、専門用語を用いて
タグ付けすることができ、そのタグ付けされた技術文書
テキストからファクトデータ抽出を行うテンプレートパ
ターンを作成することができる。
According to the present embodiment configured as described above, the technical document file into which the technical document text is input,
By using the technical term dictionary file in which technical terms and their categories are entered, technical document texts can be tagged with technical terms, and a template pattern for extracting fact data from the tagged technical document texts can be created. Can be created.

【0086】そして、ファクトデータの抽出対象となる
技術文書テキストと抽出テンプレートパターンに対し、
文字列のマッチング操作を行うことにより、抽出項目に
対応するファクトデータを抽出することができる。抽出
したファクトデータは、ファクトデータベースとして格
納・蓄積することができる。
Then, with respect to the technical document text and the extraction template pattern from which the fact data is to be extracted,
The fact data corresponding to the extraction item can be extracted by performing the matching operation of the character string. The extracted fact data can be stored and accumulated as a fact database.

【0087】また、タグ付け処理部(タグ付け手段)1
は、専門用語を組み込んだ形態素解析によりテキスト中
の用語を品詞や専門用語のカテゴリーに分類し基本タグ
付けすることができる。さらに基本タグを利用して複合
語に合成してタグ付けすることができる。
Further, the tagging processing section (tagging means) 1
Can classify terms in a text into categories of part-of-speech and jargon by morphological analysis incorporating jargon and perform basic tagging. In addition, basic tags can be used to combine and tag compound words.

【0088】さらに、タグ付け処理部(タグ付け手段)
1は、テキスト中の文の構造情報を利用してテキストの
構造をタグ付けすることができる。
Further, a tagging processing section (tagging means)
1 can tag the structure of the text by using the structure information of the sentences in the text.

【0089】またファクト抽出処理部(ファクト抽出手
段)3は,ファクトデータの抽出対象となる技術文書テ
キストと抽出パターンとをマッチング操作を行うことに
より得られた解候補から形態素解析結果に基づく品詞情
報や文字区切りや専門用語のカテゴリーに関する制約条
件を満足するものを抽出データとしている。
Further, the fact extraction processing section (fact extraction means) 3 uses the morphological analysis result based on the morphological analysis result from the solution candidates obtained by performing the matching operation between the technical document text as the extraction target of the fact data and the extraction pattern. Extracted data are those that satisfy the constraint conditions regarding character delimiters and technical term categories.

【0090】またファクト抽出部(ファクト抽出手段)
3は,ファクトデータの抽出対象となる技術文書テキス
トと抽出パターンからマッチング操作を行うとき,数値
と単位,または数値においてさらに分割して抽出データ
とすることができる。
Further, a fact extraction section (fact extraction means)
When the matching operation is performed from the technical document text to be the extraction target of the fact data and the extraction pattern, the numerical value 3 and the unit or the numerical value can be further divided to obtain the extracted data.

【0091】以上のように構成することにより、論文等
の技術文書から多くのファクトデータが自動的に抽出さ
れ、ファクトデータベースとして蓄積でき、診断や制御
等の基礎データとして利用できる。また、タグ付きファ
イルとして蓄積することができる。
With the above configuration, many fact data can be automatically extracted from technical documents such as papers, accumulated as a fact database, and used as basic data for diagnosis and control. It can also be stored as a tagged file.

【0092】[0092]

【発明の効果】以上説明したように本発明によれば、技
術文書のテキストを、専門用語を用いてタグ付けし、タ
グ付した技術文書のテキストからファクトデータの抽出
パターンを作成し、ファクトデータの抽出対象となる技
術文書のテキストと、上記作成した抽出パターンとから
マッチング操作によりファクトデータを抽出するように
したので、多数の技術論文や技術文書より特定のファク
トデータを自動的に取りだし、そのデータベースを構築
することができ、多方面への利用が可能となる。
As described above, according to the present invention, the text of the technical document is tagged by using the technical term, the extraction pattern of the fact data is created from the tagged text of the technical document, and the fact data is extracted. Since the fact data is extracted by the matching operation from the text of the technical document to be extracted and the extraction pattern created above, the specific fact data is automatically taken out from a large number of technical papers and technical documents. A database can be constructed and it can be used in various fields.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の実施の形態を示し、ファクトデータ抽
出装置の構成を示したブロック図である。
FIG. 1 is a block diagram showing an embodiment of the present invention and showing a configuration of a fact data extraction device.

【図2】本発明の実施の形態を示し、医療用語専門辞書
の用語分類項目を示した図である。
FIG. 2 shows an embodiment of the present invention and is a diagram showing term classification items of a medical term specialized dictionary.

【図3】本発明の実施の形態を示し、タグ付け処理部に
おける処理を説明するフローチャートである。
FIG. 3 is a flowchart illustrating processing in a tagging processing unit according to the embodiment of this invention.

【図4】本発明の実施の形態を示し、抄録論文集におけ
る構造タグの一例を示した図である。
FIG. 4 is a diagram showing an embodiment of the present invention and showing an example of a structure tag in an abstract paper collection.

【図5】本発明の実施の形態を示し、記述内容開始指示
文字辞書ファイルの一例を示した図である。
FIG. 5 is a diagram showing an embodiment of the present invention and showing an example of a description content start instruction character dictionary file.

【図6】本発明の実施の形態を示し、抽出項目とタグの
一覧を示した図である。
FIG. 6 is a diagram showing a list of extraction items and tags according to the embodiment of the present invention.

【図7】本発明の実施の形態を示し、図6に続く抽出項
目とタグの一覧を示した図である。
7 is a diagram showing an embodiment of the present invention and showing a list of extraction items and tags following FIG. 6. FIG.

【図8】本発明の実施の形態を示し、最終的に残すタグ
の一覧を示した図である。
FIG. 8 is a diagram showing a list of tags to be left finally according to the embodiment of the present invention.

【図9】本発明の実施の形態を示し、図8に続く最終的
に残すタグの一覧を示した図である。
9 is a diagram showing the embodiment of the present invention and showing a list of tags to be left finally, following FIG.

【図10】本発明の実施の形態を示し、ファクト抽出処
理部におけるテンプレートを用いたファクト抽出処理を
説明するフローチャートである。
FIG. 10 shows an embodiment of the present invention and is a flowchart illustrating a fact extraction process using a template in a fact extraction processing unit.

【図11】本発明の実施の形態を示し、ファクトデータ
の抽出結果の一例を示した図である。
FIG. 11 is a diagram showing an embodiment of the present invention and showing an example of an extraction result of fact data.

【図12】本発明の実施の形態を示し、ファクトデータ
の抽出精度の一例を示した図である。
FIG. 12 is a diagram showing an embodiment of the present invention and showing an example of extraction precision of fact data.

【符号の説明】[Explanation of symbols]

1 タグ付け処理部 2 抽出パターンマッチテンプレート作成処理部 3 ファクト抽出処理部 4 ファクトデータのDB格納処理部 5 専門用語辞書ファイル 6 学習用テキストファイル 7 タグ付きファイル 8 テンプレートファイル 9 ファクトデータベース(ファクトDB) 10 専門用語データ 11 学習用テキスト 12 ファクト抽出の対象テキスト 13 専門用語辞書を用いた形態素解析によるタグ付け
処理 14 行構造の解析によるタグ付け処理 15 タグの合成処理 16 抽出項目のタグ付け 17 タグの整形処理 18 表層表現によるテンプレートの変更処理 19 テンプレートによるパターンマッチ処理 20 抽出結果の分割処理 21 形態素解析処理 22 制約処理 23 記述内容開始辞書ファイル 90 ファクトデータ
1 Tagging Processing Section 2 Extraction Pattern Match Template Creation Processing Section 3 Fact Extraction Processing Section 4 Fact Data DB Storage Processing Section 5 Technical Term Dictionary File 6 Learning Text File 7 Tagged File 8 Template File 9 Fact Database (Fact DB) 10 Technical Term Data 11 Learning Text 12 Target Text for Fact Extraction 13 Tagging Processing by Morphological Analysis Using Technical Term Dictionary 14 Tagging Processing by Line Structure Analysis 15 Tag Compositing Processing 16 Tagging Extracted Items 17 Tags Shaping processing 18 Template change processing by surface expression 19 Pattern matching processing by template 20 Extraction result division processing 21 Morphological analysis processing 22 Constraint processing 23 Description content start dictionary file 90 Fact data

───────────────────────────────────────────────────── フロントページの続き (72)発明者 壽惠村 唯子 神奈川県横浜市西区みなとみらい3−3− 1 新日鉄ソリューションズ株式会社シス テム研究開発センター内 (72)発明者 岩下 達哉 神奈川県横浜市西区みなとみらい3−3− 1 新日鉄ソリューションズ株式会社シス テム研究開発センター内 Fターム(参考) 5B009 NA05 VA02 VA09 VC01 5B075 ND03 ND23 NK02 NK10 NK32 NS10 UU06 UU26    ─────────────────────────────────────────────────── ─── Continued front page    (72) Inventor Yuiko Soumura             3-3-Minato Mirai, Nishi Ward, Yokohama City, Kanagawa Prefecture             1 Nippon Steel Solutions Co., Ltd. Sys             Tem R & D Center (72) Inventor Tatsuya Iwashita             3-3-Minato Mirai, Nishi Ward, Yokohama City, Kanagawa Prefecture             1 Nippon Steel Solutions Co., Ltd. Sys             Tem R & D Center F-term (reference) 5B009 NA05 VA02 VA09 VC01                 5B075 ND03 ND23 NK02 NK10 NK32                       NS10 UU06 UU26

Claims (5)

【特許請求の範囲】[Claims] 【請求項1】 技術文書中に含まれるファクトデータを
技術文書テキストから抽出するファクトデータの抽出装
置であって、 予め用意した前記技術文書の該当技術分野の専門用語辞
書ファイルを用いて、学習用テキストファイルの各文を
抽出項目に関してタグ付けし、タグ付きファイルを作成
するタグ付け手段と、 前記タグ付きファイルから選択されたタグ付き文と、指
定された抽出情報とから抽出したいファクトデータを抽
出するためのテンプレートを作成する抽出パターンマッ
チテンプレート作成手段と、 前記ファクトデータの抽出対象となるテキストを入力
し、前記作成したテンプレートを用いてマッチングを行
い、テンプレートの抽出項目に対応する入力文の文字列
を解候補とし、さらに解候補の制約判定を行い、ファク
トデータを抽出するファクト抽出手段と、 前記抽出したファクトデータをデータベースに格納する
データベース格納手段とを含むことを特徴とするファク
トデータの抽出装置。
1. A fact data extraction device for extracting fact data contained in a technical document from a technical document text, which is prepared by using a technical term dictionary file of a relevant technical field of the technical document prepared in advance for learning. Tagging each sentence of the text file with respect to the extraction item to create a tagged file, the tagged sentence selected from the tagged file, and the fact data to be extracted from the specified extraction information Extraction pattern matching template creating means for creating a template for inputting the text to be the extraction target of the fact data, performing matching using the created template, the characters of the input sentence corresponding to the extraction item of the template The columns are set as solution candidates, the constraint judgment of the solution candidates is performed, and the fact data is A fact data extraction device comprising: a fact extraction means for extracting; and a database storage means for storing the extracted fact data in a database.
【請求項2】 前記タグ付け手段は、専門用語を組み込
んだ形態素解析により、テキスト中の用語を専門用語の
カテゴリーに分類して基本タグ付けし、前記基本タグに
基づき複合語に合成してタグ付けすることを特徴とする
請求項1に記載のファクトデータの抽出装置。
2. The tagging means classifies the terms in the text into categories of technical terms by means of morphological analysis incorporating technical terms to perform basic tagging, and synthesizes them into compound words based on the basic tags to tag them. The fact data extraction device according to claim 1, wherein the fact data extraction device is attached.
【請求項3】 前記タグ付け手段は、テキスト中の文の
構造情報に基づいて前記テキストの構造をタグ付けする
ことを特徴とする請求項1または2に記載のファクトデ
ータの抽出装置。
3. The fact data extraction device according to claim 1, wherein the tagging unit tags the structure of the text based on structure information of a sentence in the text.
【請求項4】 前記ファクト抽出手段における前記解候
補の制約判定は、前記解候補の形態素解析結果に基づく
制約条件を判定することを特徴とする請求項1〜3のい
ずれか1項に記載のファクトデータの抽出装置。
4. The constraint determination of the solution candidate in the fact extraction means determines a constraint condition based on a morphological analysis result of the solution candidate, according to any one of claims 1 to 3. Fact data extraction device.
【請求項5】 前記ファクト抽出手段は、求めた解候補
の制約判定するにあたり、複数の抽出項目にまたがる表
現の解候補を分割して個々の抽出項目とする抽出結果分
割機能をさらに有することを特徴とする請求項1〜4の
いずれか1項に記載のファクトデータの抽出装置。
5. The fact extraction means further has an extraction result division function of dividing the solution candidates of the expression spanning a plurality of extraction items into individual extraction items when determining the constraint of the obtained solution candidates. The fact data extraction device according to any one of claims 1 to 4, which is characterized.
JP2002134092A 2002-05-09 2002-05-09 Fact data extracting device Withdrawn JP2003330947A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002134092A JP2003330947A (en) 2002-05-09 2002-05-09 Fact data extracting device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002134092A JP2003330947A (en) 2002-05-09 2002-05-09 Fact data extracting device

Publications (1)

Publication Number Publication Date
JP2003330947A true JP2003330947A (en) 2003-11-21

Family

ID=29696854

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002134092A Withdrawn JP2003330947A (en) 2002-05-09 2002-05-09 Fact data extracting device

Country Status (1)

Country Link
JP (1) JP2003330947A (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8886661B2 (en) 2006-03-23 2014-11-11 Nec Corporation Information extraction system, information extraction method, information extraction program, and information service system
JP2017142618A (en) * 2016-02-09 2017-08-17 株式会社東芝 Material recommendation device
CN109643306A (en) * 2017-07-14 2019-04-16 网鸟株式会社 Use a kind of semiconductor element searching method of the algorithm of removal the last letter
JP2020086901A (en) * 2018-11-26 2020-06-04 リーガルテック株式会社 Data management system and data management method
JP2023015215A (en) * 2021-12-28 2023-01-31 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド Method and apparatus for extracting text information, electronic device, and storage medium
US12135737B1 (en) * 2024-03-25 2024-11-05 Sas Institute Inc. Graphical user interface and pipeline for text analytics

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8886661B2 (en) 2006-03-23 2014-11-11 Nec Corporation Information extraction system, information extraction method, information extraction program, and information service system
JP2017142618A (en) * 2016-02-09 2017-08-17 株式会社東芝 Material recommendation device
CN109643306A (en) * 2017-07-14 2019-04-16 网鸟株式会社 Use a kind of semiconductor element searching method of the algorithm of removal the last letter
JP2019523461A (en) * 2017-07-14 2019-08-22 インターバード カンパニー,リミテッド Semiconductor component search method using last alphabet removal algorithm
CN109643306B (en) * 2017-07-14 2022-12-06 网鸟株式会社 Semiconductor element searching method using algorithm for removing last letter
JP2020086901A (en) * 2018-11-26 2020-06-04 リーガルテック株式会社 Data management system and data management method
JP7221665B2 (en) 2018-11-26 2023-02-14 リーガルテック株式会社 data management system
JP2023015215A (en) * 2021-12-28 2023-01-31 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド Method and apparatus for extracting text information, electronic device, and storage medium
US12135737B1 (en) * 2024-03-25 2024-11-05 Sas Institute Inc. Graphical user interface and pipeline for text analytics

Similar Documents

Publication Publication Date Title
JP2021007031A (en) Automatic identification and extraction of medical condition and fact from electronic medical treatment record
CN111274806B (en) Method and device for recognizing word segmentation and part of speech and method and device for analyzing electronic medical record
US20090299977A1 (en) Method for Automatic Labeling of Unstructured Data Fragments From Electronic Medical Records
CN111581337B (en) Medical text searching method, device, computer equipment and storage medium
CN109192255B (en) Medical record structuring method
CN108628824A (en) A kind of entity recognition method based on Chinese electronic health record
CN113239681B (en) Court case file identification method
Guo et al. Identifying personal health information using support vector machines
US20130060793A1 (en) Extracting information from medical documents
Barrows Jr et al. Limited parsing of notational text visit notes: ad-hoc vs. NLP approaches.
Demner-Fushman et al. Overview of the TAC 2018 Drug-Drug Interaction Extraction from Drug Labels Track.
Butt et al. Classification of research citations (CRC)
CN111597789A (en) Electronic medical record text evaluation method and equipment
CN109840275B (en) Method, device and equipment for processing medical search statement
Santiso et al. Adverse drug event prediction combining shallow analysis and machine learning
Apostolova et al. Automatic segmentation of clinical texts
CN110427621A (en) A kind of Chinese classification term extraction method and system
CN113343680A (en) Structured information extraction method based on multi-type case history texts
JP2003330947A (en) Fact data extracting device
Goswami et al. An effective machine learning framework for data elements extraction from the literature of anxiety outcome measures to build systematic review
Santos et al. De-identification of clinical notes using contextualized language models and a token classifier
CN108231200A (en) It is a kind of that strategy generation method is seen a doctor based on topic model and ILP
Bhatia et al. Extracting information for generating a diabetes report card from free text in physicians notes
Funkner et al. Time expressions identification without human-labeled corpus for clinical text mining in russian
US10586616B2 (en) Systems and methods for generating subsets of electronic healthcare-related documents

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20050802