JP2006023968A - Unique expression extracting method and device and program to be used for the same - Google Patents
Unique expression extracting method and device and program to be used for the same Download PDFInfo
- Publication number
- JP2006023968A JP2006023968A JP2004201272A JP2004201272A JP2006023968A JP 2006023968 A JP2006023968 A JP 2006023968A JP 2004201272 A JP2004201272 A JP 2004201272A JP 2004201272 A JP2004201272 A JP 2004201272A JP 2006023968 A JP2006023968 A JP 2006023968A
- Authority
- JP
- Japan
- Prior art keywords
- specific expression
- user input
- candidates
- extraction
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
本発明は、固有表現抽出、テキストマイニングに関するものである。 The present invention relates to named entity extraction and text mining.
テキストマイニングは膨大な文書データが蓄積されたデータベースから有益な情報を発見するための手法である。例えば,コールセンタに蓄積された問い合せ履歴から,製品に対するクレームなどの重要な情報を発見するために,テキストマイニングが用いられる。このようなクレームの発見において,文書中に現れる製品名の判別は不可欠であるが,テキストマイニングだけでは,膨大な文書データ(数万件/日)から製品名を正確に判別することは困難である。 Text mining is a technique for finding useful information from a database in which a large amount of document data is stored. For example, text mining is used to find important information such as complaints about products from inquiry histories stored in a call center. In the discovery of such a claim, it is indispensable to determine the product name that appears in the document, but it is difficult to accurately determine the product name from a huge amount of document data (tens of thousands of documents / day) by text mining alone. is there.
そこで,文書データから人名,地名,組織名,人工物名(製品名や法律名など)などの固有名詞的表現,日付や時間などの時間表現および価格や割合などの数値表現を抽出する方式がいくつか提案されている。抽出対象となるこれらの表現は固有表現(Named-Entity)と総称される。固有表現抽出の従来方式は,いずれも,固有表現を抽出するための規則(以下,抽出規則)を生成し,抽出規則に基づいて文書データから固有表現を抽出する。一般に、抽出規則の生成には学習アルゴリズムを用いて自動的に行われる。学習アルゴリズムを用いて抽出規則を生成する場合、人手で固有表現を示すタグ(以下,固有表現タグ)を予め付加した文書データを用意する。つまり,学習アルゴリズムに入力するための教師データを作成する。例えば,文書データ中に「日立」という単語が現れれば,「<ORG>日立</ORG>」というように組織を表すタグを単語に付加する。
固有表現抽出の従来方式の一例として,特許文献1,2および非特許文献1,2を挙げる。
Therefore, there is a method to extract proper noun expressions such as person names, place names, organization names, artifact names (product names, law names, etc.), time expressions such as dates and times, and numerical expressions such as prices and ratios from document data. Several proposals have been made. These expressions to be extracted are collectively referred to as named expressions (Named-Entity). In each of the conventional methods for extracting a specific expression, a rule for extracting a specific expression (hereinafter referred to as an extraction rule) is generated, and the specific expression is extracted from the document data based on the extraction rule. Generally, extraction rules are automatically generated using a learning algorithm. When an extraction rule is generated using a learning algorithm, document data to which a tag indicating a specific expression (hereinafter referred to as a specific expression tag) is manually added is prepared. That is, teacher data for input to the learning algorithm is created. For example, if the word “Hitachi” appears in the document data, a tag representing the organization is added to the word, such as “<ORG> Hitachi </ ORG>”.
固有表現抽出の従来方式の一つに、ブートストラップ方式がある。その方式は少量の教師データから逐次的に抽出規則を学習し、効率良く固有表現を抽出することができる。しかしながら、教師データから学習した抽出規則を対象文書に適用して得られる多数の固有表現候補が正しい固有表現か否かを判別する作業に非常に膨大な作業量を要する。つまり、対象分野に対する知識がない作業者が、抽出された固有表現候補をみてもすぐに判別することができず、その候補が出現する文書や関連資料などの調査といった作業が発生する。 There is a bootstrap method as one of the conventional methods for extracting a proper expression. In this method, it is possible to learn extraction rules sequentially from a small amount of teacher data and extract a specific expression efficiently. However, an enormous amount of work is required for determining whether or not a large number of specific expression candidates obtained by applying an extraction rule learned from teacher data to a target document is a correct specific expression. That is, an operator who does not have knowledge of the target field cannot immediately discriminate even if he / she sees the extracted specific expression candidates, and work such as investigation of documents and related materials in which the candidates appear.
例えば、先にあげた営業日報の例では、作業者がまったく営業日報中に出現する製品名を知らなければ、抽出規則を適用して得られる製品名候補を正しい製品名だと判断できない。そのため、作業者は製品カタログなどの参考資料を参照しながら、製品名候補が製品名か否かを判別しなければならず、判別作業には膨大な時間を要する。
したがって、本発明が解決しなければならない課題は、教師データの作成および固有表現候補の判別作業にかかる膨大な作業量を軽減することである。
For example, in the example of the daily business report mentioned above, the product name candidate obtained by applying the extraction rule cannot be determined as the correct product name unless the worker knows the product name that appears in the business daily report. For this reason, the worker must determine whether or not the product name candidate is a product name while referring to reference materials such as a product catalog, and the determination work takes an enormous amount of time.
Therefore, the problem to be solved by the present invention is to reduce the enormous amount of work required for the creation of teacher data and the operation of discriminating candidate candidates for specific expressions.
本発明では、ブートストラップ方式による抽出規則の逐次学習において、教師データとなる候補を作業者に提示することで、教師データを学習アルゴリズムに入力することを支援する。例えば、先に述べた営業日報の例では、正解の例(以下、正例)となる既知の製品名および正例ではない例(以下、負例)となる製品名以外の単語を作業者に提示することで教師データの入力を支援する。 In this invention, in the sequential learning of the extraction rule by a bootstrap system, the candidate which becomes teacher data is shown to an operator, and it supports that teacher data is input into a learning algorithm. For example, in the example of the business daily report mentioned above, a word other than a known product name that is an example of correct answer (hereinafter, positive example) and a product name that is not correct example (hereinafter, negative example) is given to the worker. Supporting the input of teacher data by presenting.
また、本発明では、抽出規則を用いて対象文書から抽出した固有表現候補が正しい固有表現か否かの判別にかかる作業量を軽減するために、抽出した候補に関連する参考資料を作業者に提示する。例えば、営業日報から製品名候補を抽出した場合、作業者にWeb上に存在する製品カタログなどの情報を閲覧させて、その候補の判別を支援する。 Further, in the present invention, in order to reduce the amount of work required to determine whether or not the specific expression candidate extracted from the target document using the extraction rule is a correct specific expression, reference materials related to the extracted candidate are given to the worker. Present. For example, when a product name candidate is extracted from a daily business report, the operator browses information such as a product catalog existing on the Web, and assists the determination of the candidate.
従来の固有表現抽出では、大量の教師データの作成および抽出した固有表現候補の人手での判別に膨大な作業量を要するが、本発明により、大量に教師データを用意する必要はなくなるので作業量を軽減することができる。また、少量の教師データを作成する際に、作業者に教師データとなる候補を提示するため、容易に教師データを作成することができる。また、本発明は固有表現候補に関連する参考資料を作業者に提示するので、その候補が固有表現か否かを判別する作業時間を短縮することができる。 In the conventional specific expression extraction, a huge amount of work is required to create a large amount of teacher data and to manually identify the extracted specific expression candidates. However, according to the present invention, it is not necessary to prepare a large amount of teacher data. Can be reduced. In addition, when a small amount of teacher data is created, candidates for teacher data are presented to the operator, so that teacher data can be created easily. Further, since the present invention presents the reference material related to the specific expression candidate to the worker, it is possible to shorten the work time for determining whether or not the candidate is the specific expression.
以下、本発明の実施形態の一例を、図面を用いて説明する。 Hereinafter, an example of an embodiment of the present invention will be described with reference to the drawings.
1.システム全体の説明
本発明の実施例の一つである固有表現抽出システムにおける構成と処理の流れについて説明する。
1.1構成
システム全体の構成を図1に示す。本システムにおいては、一人以上の作業者が、端末100を利用して膨大な文書データから固有表現を抽出する。本システムは、次の部分から構成される。
・作業者による、正例および負例の入力を受け付けたり、抽出規則の生成や固有表現候補の判別などの各行程において必要な情報を利用者に提示したりする入出力手段を有する端末100
・文書データの集合(以下、文書データ104)、その文書データに形態素解析を適用した後の文書データ(以下、形態素解析済み文書データ105)、および形態素解析済み文書データ105中の単語(形態素)と文書のIDを記録した文書IDテーブル109を蓄積するデータベース103
・端末2で作業者が指定した複数の正例および負例を用いて、データベース103に形態素解析済み文書データ105から規則性を学習し、抽出規則を生成する抽出規則学習部101
・抽出規則学習部101で生成された、固有表現の抽出に用いる抽出規則を記憶する抽出規則記憶部106
・抽出した固有表現を記憶する固有表現記憶部107
・抽出規則学習部101が生成した抽出規則を用いて、データベース103に蓄積された形態素解析済み文書データ105から固有表現候補を抽出し、端末100を介して作業者から抽出した固有表現候補が正しい固有表現か否かを判別する入力などを受け付ける固有表現抽出部102
固有表現抽出部102はインターネット108と接続している。
1. Description of Overall System A configuration and processing flow in a named entity extraction system that is one embodiment of the present invention will be described.
1.1 Configuration The overall system configuration is shown in Fig. 1. In this system, one or more workers use the
A
A set of document data (hereinafter, document data 104), document data after applying morphological analysis to the document data (hereinafter, morphological analyzed document data 105), and words (morphemes) in the morphological analyzed document data 105 And a
An extraction
An extraction
A specific
Using the extraction rule generated by the extraction
The specific expression extraction unit 102 is connected to the Internet 108.
端末100は、一般的なコンピュータで、演算部、記憶部、キーボード・マウスなどのユーザ入出力装置、表示部、サーバと通信を行うための通信部を有する。抽出規則学習部101と固有表現抽出部102は、計算機上で実行するプログラムにより実現される。これらのプログラムは、CD−ROM、ハードディスクなどの媒体に格納され、端末100あるいはその他の機能を司るサーバ装置の演算部において実行される。データベース103、抽出規則記憶部106および固有表現記憶部107は、外部記憶装置である。これらの外部記憶装置は、システムが生成したデータを記憶し、上述のプログラムを実行する演算部から入出力が行われる。
The
文書データ105と形態素解析済み文書データ106中の文書には文書IDが付加されており、文書データ105における文書と形態素解析済み文書データ106における文書の文書IDが同じであれば、形態素解析前後の文書を表す。また、文書IDテーブル109の記録形式は、図11に示すように、単語を格納する単語格納部1100、その単語が形態素解析済み文書データ105に出現する頻度を格納する頻度格納部1101、および形態素解析済み文書データ105の文書IDを格納する文書ID格納部1102からなる。例えば、単語「Server01」は頻度が「948」であり、「Server01」を含む文書の文書IDは「00001、00009、00203、…」である。
A document ID is added to the document data 105 and the document in the morphologically analyzed
1.2固有表現抽出の流れ
本システムの処理の流れは次の二つのフェーズに分けることができる。
・抽出規則生成フェーズ
・固有表現抽出フェーズ
1.2.1抽出規則生成フェーズ
抽出規則生成フェーズでは、抽出規則学習部101が作業者からの入力に基づいて、データベース103に蓄積された形態素解析済み文書データ105から規則性を学習して抽出規則を生成するという処理を行う。図2は作業者とシステム間の処理の流れを示す。図中の矢印はデータの流れを表す。ステップS201からS205までが抽出規則生成フェーズの処理であり、各ステップの概要は次の通りである。
1.2 Specific Expression Extraction Flow The processing flow of this system can be divided into the following two phases.
・ Extraction rule generation phase ・ Specific expression extraction phase
1.2.1 Extraction Rule Generation Phase In the extraction rule generation phase, the extraction
・S201:システムは固有表現記憶部107に記憶された固有表現を正例候補として、固有表現の種別と共に端末100の画面上に表示する。ただし、固有表現抽出部102に固有表現が記憶されていなければ、何も表示しない。
・S202:作業者は端末100の画面に表示された正例候補から正例を選択し、システムに入力する。また、作業者は既に知られている固有表現を正例としてシステムに直接入力することもできる。
・S203:システムは形態素解析済み文書データ105のうち正例を含む文書データから負例候補を抽出し、それら候補を文書データ中に出現する頻度順に端末100の画面上に表示する。
S201: The system displays the specific expression stored in the specific
S202: The worker selects a positive example from the positive example candidates displayed on the screen of the terminal 100 and inputs it to the system. In addition, the operator can directly input a known expression already known to the system as a positive example.
S203: The system extracts negative example candidates from the document data including positive examples from the morphological-analyzed document data 105, and displays the candidates on the screen of the terminal 100 in the order in which they appear in the document data.
・S204:作業者は端末100の画面に表示された負例候補から負例を選択し、システムに入力する。また、作業者は固有表現以外の単語を負例としてシステムに直接入力することもできる。
・S205:システムは作業者により入力された正例と負例に基づき、形態素解析済み文書データ105から規則性を学習して抽出規則を生成し、それらの規則を端末100の画面上に表示する。
S204: The worker selects a negative example from the negative example candidates displayed on the screen of the terminal 100 and inputs it to the system. In addition, the worker can directly input words other than the specific expressions into the system as negative examples.
S205: The system generates regularity rules by learning regularity from the morphological-analyzed document data 105 based on positive and negative examples input by the worker, and displays those rules on the screen of the terminal 100. .
本フェーズにおいてシステムが端末100に表示する画面の構成について、IT企業の営業日報データベースからIT製品の名称(以下、製品名)を抽出するために抽出規則を生成する例を用いて説明する。つまり、データベース103に蓄積される文書データ104は営業日報の文書、形態素解析済み文書データ105は形態素解析後の営業日報の文書である。
The configuration of the screen displayed on the terminal 100 by the system in this phase will be described using an example in which an extraction rule is generated in order to extract the name of an IT product (hereinafter, product name) from an IT company's business daily report database. That is, the document data 104 stored in the
図3に本システムの画面構成の一例を示す。図3は抽出規則生成支援画面300であり、正例候補を表示する正例候補一覧表示部301、正例の入力を受け付ける正例直接入力部302、正例入力決定ボタン303、負例候補を表示する負例候補一覧表示部304、負例の入力を受け付ける負例直接入力部305、負例入力決定ボタン306、および生成された抽出規則を表示する抽出規則一覧表示部307から構成される。正例候補一覧表示部301は、図3に示すように、正例候補を選択するチェックボックスを表示する正例候補選択部308、正例候補を表示する正例候補表示部309、および正例候補の固有表現としての種別を表示する種別表示部310から構成される。
また、負例候補一覧表示部304は、図4に示すように、負例候補を選択するチェックボックスを表示する負例候補選択部400、負例候補を表示する負例候補表示部401、および負例候補が形態素解析済み文書データ105に出現する頻度を表示する頻度表示部402から構成される。
FIG. 3 shows an example of the screen configuration of this system. FIG. 3 shows an extraction rule
Further, as shown in FIG. 4, the negative example candidate
さらに、図6に示す例のように、抽出規則一覧表示部307に抽出規則が表示されている間、抽出規則一覧表示部307は、抽出規則を選択するチェックボックスを表示する抽出規則選択部600、抽出規則のIDを表示する規則ID表示部601、抽出規則の条件部を表示する条件表示部602、抽出規則の結論部を表示する結論表示部603、抽出規則の確信度を表示する規則確信度表示部604、選択された抽出規則を用いて固有表現抽出の実行を開始する抽出ボタン605、および選択された抽出規則を削除する削除ボタン606から構成される。ここで、抽出規則の確信度とはその規則の正しさを表す指標であり、その規則が教師データとして用いた語を正例に分類する回数をP、負例に分類する回数をNとしたときに、規則の確信度はP/(P+N)の式を計算することにより求められる。
ここで、図3、図4および図6に示した画面上の操作例とステップS201からS205を対応付けて説明する。
Further, as in the example shown in FIG. 6, while the extraction rule is displayed on the extraction rule
Here, the on-screen operation examples shown in FIGS. 3, 4, and 6 will be described in association with steps S201 to S205.
・S201(図3):システムは固有表現記憶部107に蓄積された固有表現「JP01」、「PC02」、「DB04」および「DOCP04」を正例候補として、その種別「人工物名(IT製品)」と共に、正例候補一覧表示部301に表示する。
・S202(図3):作業者は正例候補一覧表示部301に表示された正例候補「JP01」、「PC02」、「DB04」、「DOCP04」をすべて正例として選択する。さらに作業者は、正例直接入力部302に「PC01」、「JP02」、「DB01」を正例として入力し、正例入力決定ボタン303を押す。
S201 (FIG. 3): The system uses specific expressions “JP01”, “PC02”, “DB04”, and “DOCP04” stored in the specific
S202 (FIG. 3): The operator selects all of the positive example candidates “JP01”, “PC02”, “DB04”, and “DOCP04” displayed on the positive example candidate
・S203(図4):システムは正例入力決定ボタン103が押されると、「JP01」、「PC02」、「DB04」、「DOCP04」、「PC01」、「JP02」および「DB01」を正例入力として受け付け、正例として入力したIT製品を含む文書データからIT製品以外の語を負例候補として、文書に出現する頻度と共に負例候補一覧表示部304に表示する。図4の例では、システムは「提案」、「説明」。「対応」および「ユーザ」を負例候補として表示する。
S203 (FIG. 4): When the positive example
・S204(図4):作業者は負例候補一覧表示部304に表示された負例候補のうち「提案」、「説明」、「対応」を負例として選択する。さらに作業者は、負例直接入力部305に「導入」、「向け」を負例として入力し、負例入力決定ボタン306を押す。
・S205(図6):まず、システムは負例入力決定ボタン306が押されると、「提案」、「説明」、「対応」、「導入」および「向け」を負例入力として受け付ける。次にシステムは、正例と負例に基づき抽出規則生成用の教師データを生成する。教師データの生成方法は文献「メタルールと決定木学習を用いた日本語固有表現抽出」(磯崎秀樹 著,情報処理学会論文誌,43巻5号,2002年)(非特許文献1)に開示された方法で行うことができる。
S204 (FIG. 4): The worker selects “suggestion”, “explanation”, and “correspondence” as negative examples from the negative example candidates displayed on the negative example candidate
S205 (FIG. 6): First, when the negative example
図5は抽出規則記憶部106に一時的に記憶される教師データの格納形式の例を表す。格納形式は関係表形式であり、正例または負例とした単語前後n単語の文字列、品詞および文字種を属性にもつ(nは1以上の整数)。図5の例では、正負例ラベル格納部500、前1単語文字列格納部501、前1単語品詞格納部502、前1単語文字種格納部503、後1単語文字列格納部504、後1単語品詞格納部505、後1単語文字種格納部506、前2単語以降格納領域507、後2単語以降格納領域508からなる。例えば、形態素解析済み文書データ「運用/管理/ツール/JP01/提案」(元文書「運用管理ツールのJP01を提案する」)から正例「JP01」の教師データを生成すると、図5に示す表の一行目のようになる。最後に、システムは生成した教師データから規則性を学習して抽出規則を生成し、それらを抽出規則一覧表示部307に表示する。規則性の学習には学習アルゴリズムを用いるが、その詳細は先に述べた文献(非特許文献1)に開示されている。
FIG. 5 shows an example of a storage format of teacher data temporarily stored in the extraction
1.2.2固有表現抽出フェーズ
固有表現抽出フェーズでは、固有表現抽出部102が抽出規則生成フェーズで生成した抽出規則に基づいて、データベース103に蓄積された形態素解析済み文書データ105から固有表現候補を抽出するという処理を行う。図2に示した処理の流れにおいてステップS206からS209までが本フェーズである。各ステップの概要は次の通りである。
1.2.2 Specific Expression Extraction Phase In the specific expression extraction phase, specific expression candidates are extracted from the morphological-analyzed document data 105 stored in the
・S206:作業者は端末100に表示された抽出規則から適切なものを選択し、選択した抽出規則を形態素解析済み文書データ105に適用するよう要求する。
・S207:システムは作業者の要求を受け付け、作業者が選択した抽出規則に基づいて、形態素解析済み文書データ105から固有表現候補を抽出し、端末100にそれら候補を表示する。
S206: The worker selects an appropriate one from the extraction rules displayed on the terminal 100, and requests that the selected extraction rule be applied to the morphologically analyzed document data 105.
S207: The system accepts the worker's request, extracts specific expression candidates from the morphological-analyzed document data 105 based on the extraction rule selected by the worker, and displays these candidates on the
・S208:作業者は表示された固有表現候補から正しい固有表現を判別し、それらを固有表現記憶部107に登録するように要求する。
・S209:システムは作業者の要求を受け付け、作業者が正しい固有表現として選択した候補を固有表現記憶部107に登録する。また、登録した候補の抽出に用いた抽出規則を抽出規則記憶部106に登録する。
本フェーズにおいてシステムが端末100に表示する画面の構成について、前節で述べたIT企業の営業日報データベースの例を用いて説明する。端末100に表示する画面は、図6、図7および図10である。図6については前節で述べたとおりである。
S208: The operator discriminates correct proper expressions from the displayed specific expression candidates and requests to register them in the specific
S209: The system accepts the worker's request, and registers the candidate selected by the worker as the correct specific expression in the specific
The configuration of the screen displayed on the terminal 100 by the system in this phase will be described using the example of the daily business report database of the IT company described in the previous section. The screens displayed on the terminal 100 are shown in FIGS. FIG. 6 is as described in the previous section.
図7は固有表現候補判別支援画面700であり、抽出規則を表示する抽出規則一覧表示部701、システムが抽出した固有表現候補を表示する固有表現候補一覧表示部702、判別中の固有表現候補に関する情報を表示する関連情報表示部703から構成される。抽出規則一覧表示部701は、図7に示すように、抽出規則選択部704、規則ID表示部705、条件表示部706、結論表示部707、および規則確信度表示部708からなる。また、固有表現候補一覧表示部702は、固有表現候補を選択するためのチェックボックスを表示する候補選択部709、固有表現候補を表示する候補表示部710、固有表現候補の確信度を表示する候補確信度表示部711、形態素解析済み文書データ105に出現する固有表現候補の頻度を表示する頻度表示部712、固有表現候補を含んだ文書の内容を表示する文書表示部713、選択した候補を固有表現記憶部107に登録する登録ボタン720、および選択した候補を削除する削除ボタン721からなる。
FIG. 7 shows a specific expression candidate
そして、関連情報表示部703は、検索対象となる候補を表示する検索キー表示部714、検索オプションを指定する検索オプション選択部715、検索結果を表示する検索結果一覧表示部716からなる。さらに、検索結果一覧表示部716は、検索結果を選択するためのチェックボックスを表示する検索結果選択部717、検索した資料名を表示する資料名表示部718、資料の内容を表示する内容表示部719、およびに検索キー表示部714に表示した候補に関する情報をデータベース103とは別の情報源から検索する検索ボタン722からなる。ただし、固有表現候補の確信度とはその候補の正しさを表す指標であり、その候補が正例として抽出された回数をP、負例として抽出された回数をNとしたときに、候補の確信度はP/(P+N)の式を計算することにより求められる。
The related
ここで、図6と図7に示した画面上の操作例とステップS206からS209を対応付けて説明する。
・S206(図6):作業者は抽出規則一覧表示部307に表示された抽出規則の確信度をもとに、確信度0.80以上の抽出規則を採用することに決めて該当する抽出規則(画面上では、規則ID:001と002)を選択する。さらに、作業者は抽出ボタン605を押し、選択した抽出規則を用いて固有表現抽出を開始するようにシステムに要求する。
Here, the operation example on the screen shown in FIGS. 6 and 7 and steps S206 to S209 will be described in association with each other.
S206 (FIG. 6): Based on the certainty of the extraction rule displayed on the extraction rule
・S207(図7):抽出ボタン605が押されると、システムは、まず固有表現候補判別支援画面700の抽出規則一覧表示部701にステップS206において作業者が選択した抽出規則(規則ID:001、002)を表示する(画面の例では、規則ID:005も表示している)。次に、システムは規則ID:001、002および005の抽出規則を用いて、形態素解析済み文書データ105から固有表現候補「Server01」、「Tool02」などを抽出する。最後に、抽出した候補を固有表現候補一覧表示部702に表示する。この時点では、抽出規則一覧表示部701に表示した抽出規則が抽出した全候補が固有表現候補一覧表示部702に表示される。
S207 (FIG. 7): When the extraction button 605 is pressed, the system first displays an extraction rule (rule ID: 001, selected by the operator in step S206) on the extraction rule
・S208(図7): 作業者は、抽出規則ごとの抽出結果をみるために、抽出規則一覧表示部701に表示された抽出規則から一部を選択する。図7の例では、規則ID:001の抽出規則を選択している。このとき、固有表現候補一覧表示部702には選択した抽出規則(規則ID:001)が抽出した固有表現候補が表示される。次に、作業者は、固有表現候補が正しい固有表現か否かを判別するために、固有表現候補一覧表示部702に表示されている固有表現候補から一部を選択する。この例では、作業者は候補「Server01」を選択している。候補「Server01」を選択すると、文書表示部713にその候補を含んだ文書の内容が表示される。また、検索キー表示部に「Server01」が表示される。
S208 (FIG. 7): The operator selects a part of the extraction rules displayed on the extraction rule
このとき、作業者は文書の内容をみて正しい固有表現と判別すれば、登録ボタン720を押して「Server01」を固有表現記憶部107に登録する。逆に、固有表現ではないと判別した場合は、削除ボタン721を押して固有表現候補一覧表示部702から「Server01」を削除する。また、「Server01」が固有表現か否かの判別が難しいならば、作業者は検索ボタン722を押して「Server01」についての関連情報を検索する。その際に、作業者は検索範囲を指定するために、検索オプション選択部715にあるオプション「Web(社外)」か「Web(社内)」かを選択する。オプション「Web(社内)」は社内のイントラネット上のホームページを検索範囲とし、オプション「Web(社外)」はインターネット上のホームページを検索範囲とする。図7の例では、作業者は「Web(社外)」を選択し、検索ボタン722を押して、その検索結果が検索結果一覧表示部716に表示される。
At this time, if the worker sees the content of the document and determines that the correct unique expression is found, the worker presses a
このとき、資料名表示部718には検索キー(「Server01」)を含んだホームページのURLが表示され、作業者がそのうちの一つのURL(この例では、「http://www.abcd.co.xx/Products」)を選択する。URLを選択すると、内容表示部719に検索キー(「Server01」)を含んだホームページの内容が表示される。ただし、検索オプションを「Web(社外)」としているので、ホームページ上の表部分のみが表示される。作業者は、内容表示部719に表示された内容をもとに、「Server01」が正しい固有表現か否かを判別する。正しい固有表現だと判別すれば登録ボタン720を押す。
At this time, the URL of the home page including the search key (“Server01”) is displayed in the material
・S209(図7):システムは、作業者により登録ボタン720が押された場合に、候補選択部709にチェックがある候補を固有表現記憶部107に登録する。図7の例において、作業者が固有表現候補「Server01」を選択して、登録ボタン720を押すと、システムはその候補を固有表現として固有表現記憶部107に登録する。
S209 (FIG. 7): When the
ここで、固有表現記憶部107における固有表現の格納形式を図8に示す。その形式は固有表現を格納する固有表現格納部800、固有表現の種類を格納する固有表現種類格納部801、その固有表現を抽出したときの確信度を格納する確信度格納部802、その固有表現が形態素解析済み文書データ105に出現する頻度を格納する出現頻度格納部803、その固有表現の抽出に用いられた抽出規則のIDを格納する抽出規則ID格納部804からなる。固有表現記憶部107に「Server01」を登録した場合、図8に示すように、固有表現格納部800に「Server01」、固有表現種類格納部801に「人工物名(IT製品)」、確信度格納部802に「0.98」、出現頻度格納部803に「948」、抽出規則ID格納部804に「00001,00009,00203」が格納される。図8の例では、その他に、「Tool02」、「PC03」、「DB04」、および「DB05」が格納されている。
Here, the storage format of the specific expression in the specific
次に、システムは固有表現記憶部107に固有表現候補を登録した後、その候補の抽出に用いた抽出規則を抽出規則記憶部106に登録する。図7の例では「Server01」を抽出した規則(規則ID:001、条件:「後1単語“紹介”」、結論:「正例(IT製品)」)が、抽出規則記憶部106に登録される。
Next, the system registers the specific expression candidate in the specific
ここで、抽出規則記憶部106における抽出規則の格納形式を図9に示す。その形式は抽出規則のIDを格納する規則ID格納部900、抽出規則の条件部を格納する条件格納部901、抽出規則の結論部を格納する結論格納部902、および規則の確信度を格納する確信度格納部903からなる。「Server01」を抽出した規則を格納した場合、図9に示すように、規則ID格納部900に「00001」、条件格納部901に「後1単語=“紹介”」、結論格納部902に「正例(IT製品)」、および確信度格納部903に「0.95」が格納される。規則ID格納部900の規則IDは、先に述べた抽出規則ID格納部804に格納される規則IDと対応する。最後に、システムは、固有表現候補および抽出規則の登録が完了すると、端末100の画面上に「登録完了」というメッセージを表示する。
Here, a storage format of the extraction rule in the extraction
1.3教師データの作成支援機能
本システムは図2に示した処理(抽出規則生成フェーズと固有表現抽出フェーズ)を繰り返し実行するブートストラップ方式を採用する。ブートストラップ方式については、文献「ブートストラップによる低人手コスト日本語固有表現抽出」(宇津呂武仁,颯々野学著,情報処理学会研究報告,2000-NL-139,2000年)(非特許文献2)を参照のこと。この方式により、作業者は少量の教師データをシステムに入力するという単純な操作を繰り返すのみで、固有表現抽出作業を行うことができる。このとき、作業者が入力する少量の教師データは、既に述べたように固有表現記憶部107に登録された固有表現を用いる。この教師データ入力作業において、利用者により正確な教師データを入力させるために、本システムの抽出規則学習部101が教師データの作成を支援する機能を作業者に提供する。
1.3 Teacher Data Creation Support Function This system adopts a bootstrap system that repeatedly executes the processing shown in FIG. 2 (extraction rule generation phase and specific expression extraction phase). Regarding the bootstrap method, refer to the document "Low-cost Japanese-specific expression extraction using bootstrap" (Takehito Utsuro, Manabu Sasano, Information Processing Society of Japan Research Report, 2000-NL-139, 2000) (Non-Patent Document 2) )checking. By this method, the worker can perform the proper expression extraction work only by repeating a simple operation of inputting a small amount of teacher data to the system. At this time, the small amount of teacher data input by the worker uses the specific expression registered in the specific
図10にその機能を利用するための教師データ作成支援画面1000を示す。この画面は、抽出規則一覧表示部701、固有表現候補一覧表示部702、および抽出規則が誤って適用された文書(以下、誤適用文書)を表示する語適用文書一覧表示部1001からなる。抽出規則一覧表示部701と固有表現候補一覧表示部702は図7の固有表現候補判別支援画面700のそれらとほぼ同じである。異なる点は、固有表現候補一覧表示部702に、文書表示部713に表示された文書が誤適用文書をチェックする誤適用文書選択部1002、およびチェックされた文書を誤適用文書だと確定する誤り確定ボタン1005が追加されている点である。また誤適用文書一覧表示部1001は、誤適用文書の候補を表示する誤適用文書候補表示部1003、および誤適用文書候補から正しい誤適用文書をチェックする誤適用文書選択部1004、およびチェックされた文書を誤適用文書だと確定する誤り確定ボタン1006からなる。
FIG. 10 shows a teacher data
教師データ作成支援画面1000の操作手順を説明する。図10の例では、抽出規則一覧表示部701に表示された抽出規則のうち、作業者が規則ID:001の規則を選択し、さらに固有表現候補一覧表示部702にその規則が抽出した固有表現候補から「くまくん」を選択する。ここまでは、図7の固有表現候補判別支援画面700上の操作と同様である。システムは文書データ104から「くまくん」を含む文書を検索して文書表示部713に表示する。作業者は表示された文書の内容をみて、「くまくん」が固有表現として扱われていない文書を選択する。この例では、文書ID:90003以外の文書「くまくん」は固有表現の人工物名(IT製品)として扱われ、文書ID:90003の文書は「くまくん」を単に動物の愛称として扱われているものとする。作業者は誤適用文書選択部1002のチェックボックスのうち、文書ID:90003に対応するものにチェックして、文書ID:90003の文書を誤適用文書として選択する。
The operation procedure of the teacher data
このとき、誤り確定ボタン1005を押すと、作業者が選択した文書(文書ID:90003)における「くまくん」をシステムは負例として扱い、未選択の文書における「くまくん」をシステムは正例として扱う。また、選択した文書(文書ID:90003)において、利用者が「くまくん」が固有表現ではないと判別できた部分をマークすると、誤適用文書一覧表示部1001にマークした部分を含んだ文書(文書ID:90003以外)が表示される。図10の例では、作業者は「動物園」をマークしている(マーク部分1007)。「動物園」にマークすると、システムは「くまくん」と「動物園」を含む文書を文書データ104から検索し、検索でヒットした文書を誤適用文書一覧表示部1001に表示する。そして、作業者は誤適用文書候補表示部1003に表示された文書の内容をみて、「くまくん」が固有表現として扱われていない文書を選択する。 この例では、文書ID:90001、90023および90234を選択している。文書の選択作業が終わると、作業者は誤り確定ボタン1006を押す。誤り確定ボタン1005が押された場合と同様に、システムは、作業者が選択した文書(文書ID:90001、90023および90234)中の「くまくん」を負例として扱い、未選択の文書を正例として扱う。
以上のような方法により、作業者は教師データの作成の際に、正例と負例を語の字面で決定するだけでなく、単語が出現する文書を見て同じ単語でも正例となるもの負例となるものを詳細に指定することができる。
At this time, when the
By the above method, when creating the teacher data, the operator not only determines the positive and negative examples in terms of the words, but also looks at the document in which the word appears and even the same word becomes a positive example You can specify in detail what will be negative examples.
2.構成部分の説明
2.1抽出規則学習部
抽出規則学習部101は図2に示した抽出規則作成フェーズ(ステップS201からS205)と図10に示した教師データ作成支援機能の処理を行う。抽出規則作成フェーズで行う処理は既に述べたとおりである。抽出規則学習部101側からみた処理の流れを次にまとめる。
2.Description of components
2.1 Extraction Rule Learning Unit The extraction
・固有表現記憶部107に蓄積した固有表現を正例候補一覧表示部301に表示する(ステップS201)。
・作業者が入力した正例を受け付け、形態素解析済み文書データ105から正例を含む文書から正例以外の後を負例候補として負例候補一覧表示部304に表示する(ステップS203)。
・作業者が入力した正例と負例から教師データ(例えば、図5)を生成し、教師データから規則性を学習して抽出規則を生成する。そして、生成した抽出規則を抽出規則一覧表示部307に表示する(S205)。
また、抽出規則学習部101側からみた教師データ作成支援機能の処理の流れを次にまとめる。
The specific expressions stored in the specific
A positive example input by the operator is received, and a non-positive example is displayed on the negative example candidate
Teacher data (for example, FIG. 5) is generated from positive examples and negative examples input by the operator, and regularity is learned from the teacher data to generate extraction rules. Then, the generated extraction rule is displayed on the extraction rule list display unit 307 (S205).
The processing flow of the teacher data creation support function viewed from the extraction
・生成した抽出規則を抽出規則一覧表示部701(図10)に表示する。
・抽出規則一覧表示部701において作業者が選択した抽出規則を適用して、形態素解析済み文書データ105から抽出した固有表現候補を固有表現候補一覧表示部702に表示する。
・固有表現候補一覧表示部702において作業者が選択した固有表現候補を含む文書を、文書データ104から見つけ出して文書表示部713に表示する。
The generated extraction rule is displayed on the extraction rule list display unit 701 (FIG. 10).
Applying the extraction rule selected by the operator in the extraction rule
A document including the candidate for the specific expression selected by the operator in the specific expression candidate
・誤り確定ボタン1005が押されると、固有表現候補一覧表示部702において作業者が選択した文書を負例、未選択の文書を正例として扱うように教師データ作成の際に正負例ラベル格納部500に格納するラベルを指定する。
・文書表示部713において、利用者によるマーク入力(例:マーク部分1007)を受け付けると、誤適用文書一覧表示部1001にマーク部分を含んだ文書を、文書データ104から見つけ出して表示する。
・誤り確定ボタン1006が押されると、誤り確定ボタン1005が押されたときと同様に、誤適用文書一覧表示部703において作業者が選択した文書を負例、未選択の文書を正例として扱うように教師データ作成の際に正負例ラベル格納部500に格納するラベルを指定する。
When the
When the
When the
2.2固有表現抽出部
固有表現抽出部102は図2に示した固有表現抽出フェーズ(ステップS206からS209)の処理を行う。固有表現抽出フェーズで行う処理は既に述べたとおりである。固有表現抽出部102側からみた処理の概要を次にまとめる。
・抽出規則一覧表示部307(図6)において作業者が選択した抽出規則を適用して、形態素解析済みデータ105から固有表現候補を抽出し、それらを固有表現候補一覧表示部702(図7)に表示する。さらに、候補の抽出に用いた抽出規則を抽出規則一覧表示部701に表示する。
2.2 Specific Expression Extraction Unit The specific expression extraction unit 102 performs the processing of the specific expression extraction phase (steps S206 to S209) shown in FIG. The processing performed in the specific expression extraction phase is as described above. An overview of the processing as seen from the specific expression extraction unit 102 side is summarized below.
Applying the extraction rule selected by the operator in the extraction rule list display unit 307 (FIG. 6), the specific expression candidates are extracted from the morpheme analyzed data 105, and the specific expression candidate list display unit 702 (FIG. 7) is extracted. To display. Further, the extraction rule used for extracting candidates is displayed on the extraction rule
・抽出規則一覧表示部701において、作業者が選択した抽出規則が抽出した固有表現候補を、固有表現候補一覧表示部702に表示する。
・候補選択部709のチェックボックスがチェックされると、チェックのある候補を含む文書を文書データ104から検索し、文書の内容を文書表示部713に表示する。また、その候補を検索キー表示部714に表示する。
・検索ボタン722が押されると、検索オプション選択部715のチェックされたオプションをもとに関連情報を検索して、検索結果を検索結果一覧表示部716に表示する。
・検索結果選択部717のチェックボックスがチェックされると、チェックのある資料の内容を内容表示部719に表示する。
The extraction rule
When the check box of the candidate selection unit 709 is checked, a document including a checked candidate is searched from the document data 104 and the content of the document is displayed on the
When the
When the check box of the search
テキストマイニングシステムや情報検索システムにおいて利用することができる。 It can be used in text mining systems and information retrieval systems.
100:端末、101:抽出規則学習部、102:固有表現抽出部、103:データベース、104:文書データ、105:形態素解析済み文書データ、106:抽出規則記憶部、107:固有表現記憶部、300:抽出規則生成支援画面、301:正例候補一覧表示部、302:正例直接入力部、304:負例候補一覧表示部、305:負例直接入力部、307:抽出規則一覧表示部、500:正負例ラベル格納部、501:前1単語の文字列格納部、502:前1単語の品詞格納部、503:前1単語の文字種格納部、504:後1単語の文字列格納部、505:後1単語の品詞格納部、506:後1単語の文字種格納部、700:固有表現候補判別支援画面、701:抽出規則一覧表示部、702:固有表現候補一覧表示部、703:関連情報表示部、800:固有表現格納部、801:固有表現種類格納部、802:確信度格納部、803:出現頻度格納部、804:抽出規則ID格納部、900:抽出規則ID格納部、901:条件格納部、902:結論格納部、903:確信度格納部、1000:教師データ作成支援画面、1001:誤適用文書一覧表示部、1100:単語格納部、1101:頻度格納部、1102:文書ID格納部。 100: Terminal, 101: Extraction rule learning unit, 102: Specific expression extraction unit, 103: Database, 104: Document data, 105: Document data after morphological analysis, 106: Extraction rule storage unit, 107: Specific expression storage unit, 300 : Extraction rule generation support screen, 301: positive example candidate list display unit, 302: positive example direct input unit, 304: negative example candidate list display unit, 305: negative example direct input unit, 307: extraction rule list display unit, 500 : Positive / negative example label storage unit, 501: Character string storage unit of the previous 1 word, 502: Part of speech storage unit of the previous 1 word, 503: Character type storage unit of the previous 1 word, 504: Character string storage unit of the subsequent 1 word, 505 : Part of speech storage unit for the next one word, 506: Character type storage unit for the next one word, 700: Specific expression candidate discrimination support screen, 701: Extraction rule list display unit, 702: Specific expression candidate list display unit, 703: Continuous information display unit, 800: specific expression storage unit, 801: specific expression type storage unit, 802: certainty factor storage unit, 803: appearance frequency storage unit, 804: extraction rule ID storage unit, 900: extraction rule ID storage unit, 901: Condition storage unit, 902: Conclusion storage unit, 903: Certainty factor storage unit, 1000: Teacher data creation support screen, 1001: Misapplied document list display unit, 1100: Word storage unit, 1101: Frequency storage unit, 1102: Document ID storage unit.
Claims (6)
上記第7のユーザ入力で指定された誤適用文書に類似する文書の一覧を表示するステップとを更に加えたことを特徴とする請求項4記載の固有表現抽出方法。 Receiving a fifth user input for selecting one or more rules from the displayed rules, and displaying a list of candidates for specific expressions extracted using the rules selected by the fifth user input; Receiving a sixth user input for selecting one or more error candidates from the displayed list of specific expression candidates, a list of documents including the error candidates selected by the sixth user input, and A step of displaying a location where the error candidate appears in a list of documents, and a seventh user specifying an erroneously applied document in which the rule selected by the fifth user input is erroneously applied from the displayed list of documents Accepting input, and
5. The specific expression extracting method according to claim 4, further comprising a step of displaying a list of documents similar to the erroneously applied documents designated by the seventh user input.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004201272A JP2006023968A (en) | 2004-07-08 | 2004-07-08 | Unique expression extracting method and device and program to be used for the same |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004201272A JP2006023968A (en) | 2004-07-08 | 2004-07-08 | Unique expression extracting method and device and program to be used for the same |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006023968A true JP2006023968A (en) | 2006-01-26 |
Family
ID=35797198
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004201272A Pending JP2006023968A (en) | 2004-07-08 | 2004-07-08 | Unique expression extracting method and device and program to be used for the same |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006023968A (en) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008305105A (en) * | 2007-06-06 | 2008-12-18 | Toshiba Corp | Document data processor |
JP2009093481A (en) * | 2007-10-10 | 2009-04-30 | Nippon Telegr & Teleph Corp <Ntt> | Method, device and program for forming large-scale tagged corpus |
JP2009116456A (en) * | 2007-11-02 | 2009-05-28 | National Institute Of Information & Communication Technology | Data processor and data processing method |
WO2009087996A1 (en) * | 2008-01-07 | 2009-07-16 | Nec Corporation | Information extraction device and information extraction system |
WO2011148571A1 (en) * | 2010-05-24 | 2011-12-01 | 日本電気株式会社 | Information extraction system, method, and program |
US8380650B2 (en) | 2007-01-29 | 2013-02-19 | Nec Corporation | Information extraction rule making support system, information extraction rule making support method, and information extraction rule making support program |
JP2013061757A (en) * | 2011-09-13 | 2013-04-04 | Hitachi Solutions Ltd | Document sorting method |
JP2018018466A (en) * | 2016-07-29 | 2018-02-01 | セイコーエプソン株式会社 | Information processing device, control method for the same, and control program |
JP2019164609A (en) * | 2018-03-20 | 2019-09-26 | 日本電気株式会社 | Detection pattern evaluation model generating system, method and program |
-
2004
- 2004-07-08 JP JP2004201272A patent/JP2006023968A/en active Pending
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8380650B2 (en) | 2007-01-29 | 2013-02-19 | Nec Corporation | Information extraction rule making support system, information extraction rule making support method, and information extraction rule making support program |
JP2008305105A (en) * | 2007-06-06 | 2008-12-18 | Toshiba Corp | Document data processor |
JP2009093481A (en) * | 2007-10-10 | 2009-04-30 | Nippon Telegr & Teleph Corp <Ntt> | Method, device and program for forming large-scale tagged corpus |
JP2009116456A (en) * | 2007-11-02 | 2009-05-28 | National Institute Of Information & Communication Technology | Data processor and data processing method |
WO2009087996A1 (en) * | 2008-01-07 | 2009-07-16 | Nec Corporation | Information extraction device and information extraction system |
JPWO2009087996A1 (en) * | 2008-01-07 | 2011-05-26 | 日本電気株式会社 | Information extraction apparatus and information extraction system |
JP5370159B2 (en) * | 2008-01-07 | 2013-12-18 | 日本電気株式会社 | Information extraction apparatus and information extraction system |
WO2011148571A1 (en) * | 2010-05-24 | 2011-12-01 | 日本電気株式会社 | Information extraction system, method, and program |
JPWO2011148571A1 (en) * | 2010-05-24 | 2013-07-25 | 日本電気株式会社 | Information extraction system, method and program |
JP5751253B2 (en) * | 2010-05-24 | 2015-07-22 | 日本電気株式会社 | Information extraction system, method and program |
US9189748B2 (en) | 2010-05-24 | 2015-11-17 | Nec Corporation | Information extraction system, method, and program |
JP2013061757A (en) * | 2011-09-13 | 2013-04-04 | Hitachi Solutions Ltd | Document sorting method |
JP2018018466A (en) * | 2016-07-29 | 2018-02-01 | セイコーエプソン株式会社 | Information processing device, control method for the same, and control program |
JP2019164609A (en) * | 2018-03-20 | 2019-09-26 | 日本電気株式会社 | Detection pattern evaluation model generating system, method and program |
JP7024533B2 (en) | 2018-03-20 | 2022-02-24 | 日本電気株式会社 | Detection pattern evaluation model generation system, method and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11372935B2 (en) | Automatically generating a website specific to an industry | |
US9361317B2 (en) | Method for entity enrichment of digital content to enable advanced search functionality in content management systems | |
CN100437573C (en) | Identifying related names | |
JP2006527870A (en) | Configurable information identification system and method | |
US20120323905A1 (en) | Ranking data utilizing attributes associated with semantic sub-keys | |
EP3077918A1 (en) | Systems and methods for in-memory database search | |
US7853595B2 (en) | Method and apparatus for creating a tool for generating an index for a document | |
US20120317141A1 (en) | System and method for ordering of semantic sub-keys | |
JP2006268690A (en) | Faq presentation/improvement method, faq presentation/improvement device and faq presentation/improvement program | |
US9875298B2 (en) | Automatic generation of a search query | |
JP2006023968A (en) | Unique expression extracting method and device and program to be used for the same | |
CN110647504B (en) | Method and device for searching judicial documents | |
JP2019204157A (en) | Inquiry apparatus specification system, inquiry apparatus specification method | |
JP5380874B2 (en) | Information retrieval method, program and apparatus | |
US20120317103A1 (en) | Ranking data utilizing multiple semantic keys in a search query | |
JP2008027290A (en) | Creation support method and equipment for japanese sentence | |
JP2008210229A (en) | Device, method and program for retrieving intellectual property information | |
JP5652519B2 (en) | Information retrieval method, program and apparatus | |
KR20190072883A (en) | Method for extracting professional text data using mediating text data topics | |
KR20190084370A (en) | A Intelligent Method for Searching Legal Information | |
CN114896967B (en) | Method, equipment and storage medium for processing forum problem in purchasing platform | |
JP2008134952A (en) | Information disclosure system, information disclosure method | |
JP2016194822A (en) | Server system and program thereof, and error check method | |
JP5378109B2 (en) | Task model generation apparatus and task model generation method | |
CN112328780A (en) | Natural language conversion processing method and device, electronic equipment and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20060424 |