JP5099498B2 - Data processing apparatus and data processing method - Google Patents

Data processing apparatus and data processing method Download PDF

Info

Publication number
JP5099498B2
JP5099498B2 JP2007286269A JP2007286269A JP5099498B2 JP 5099498 B2 JP5099498 B2 JP 5099498B2 JP 2007286269 A JP2007286269 A JP 2007286269A JP 2007286269 A JP2007286269 A JP 2007286269A JP 5099498 B2 JP5099498 B2 JP 5099498B2
Authority
JP
Japan
Prior art keywords
data
related data
occurrence
file
extracting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007286269A
Other languages
Japanese (ja)
Other versions
JP2009116456A (en
Inventor
真樹 村田
敏幸 金丸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Priority to JP2007286269A priority Critical patent/JP5099498B2/en
Publication of JP2009116456A publication Critical patent/JP2009116456A/en
Application granted granted Critical
Publication of JP5099498B2 publication Critical patent/JP5099498B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、所定の対象データに関連する関連データ間の順序を検出するデータ処理装置と方法に関し、より詳しくは所定のルールや機械学習に基づいて生成される規則に従って、順序を検出する技術に関わる。   The present invention relates to a data processing apparatus and method for detecting an order between related data related to predetermined target data, and more particularly to a technique for detecting an order according to a predetermined rule or a rule generated based on machine learning. Involved.

企業や個人の連絡先を調べる際に、インターネットで検索したり、ローカルなハードディスクに蓄積されたデータベースを検索することは日常的に行われている。このようなデータは、一度蓄積されるとなかなか消去されることがなく、企業が移転をしても従前の住所が検索結果として出力されることが少なくない。   When searching for contact information of a company or an individual, searching on the Internet or searching a database stored on a local hard disk is routinely performed. Once such data is stored, it is not easily erased, and even if a company moves, the previous address is often output as a search result.

このような住所に関する情報の他、企業名の変更や、企業の人事情報や、個人の勤務先情報、製品の型番情報など、ある対象データに関連する関連データが更新された場合に、どちらが新しい関連データなのかを解決すべき場面は多い。   In addition to information about this address, when related data related to certain target data, such as company name change, company personnel information, personal work information, product model number information, is updated, which is newer There are many situations where it is necessary to resolve whether the data is related.

ところで、非特許文献1および2に示されるように、ウェブページなど文書データから企業の所在地住所を取り出す研究や、単一の文書から企業内の人事の情報を取り出す研究は従来から知られている。しかし、企業名、人名を入力として企業の住所の変化情報、人の所属の変化情報を、文書の日付を自動推定する技術や教師あり機械学習手法を含めた高度な自然言語処理技術を駆使してウェブの複数の文書を総合的に扱って取り出す先行技術はない。   By the way, as shown in Non-Patent Documents 1 and 2, research for extracting the address of a company from document data such as a web page, and research for extracting information on personnel within a company from a single document are conventionally known. . However, by using the company name and personal name as input, the company's address change information and person's affiliation change information are fully utilized in advanced natural language processing technology including technology that automatically estimates the document date and supervised machine learning techniques. There is no prior art that comprehensively handles and retrieves multiple documents on the web.

佐藤理史、ワールドワイドウェブを利用した住所探索、情報処理学会論文誌, Vol.42, No.1, pp.59-67, 2001年Satoshi Sato, Address Search Using the World Wide Web, Journal of Information Processing Society of Japan, Vol.42, No.1, pp.59-67, 2001 関根聡,テキストからの情報抽出―文書から特定の情報を抜き出す―,情報処理,Vol.40,No.4,pp.370-373,1999年Sekine, Information extraction from text-Extracting specific information from documents-Information processing, Vol.40, No.4, pp.370-373, 1999

本発明は、上記従来技術の有する問題点に鑑みて創出されたものであり、対象データに関連する2つの関連データの前後を精度良く検出する技術を提供することを目的とする。   The present invention was created in view of the above-described problems of the prior art, and an object of the present invention is to provide a technique for accurately detecting before and after two related data related to target data.

本発明は次のようなデータ処理装置を提供することもできる。
すなわち、請求項1に記載の発明は、所定の対象データに関連する関連データについて、相前後する第1関連データ及び第2関連データの順序を検出するデータ処理装置であって、ネットワーク上又はローカルの記憶手段に格納された同一又は異なるファイルから第1関連データ及び第2関連データをそれぞれ抽出する関連データ抽出手段と、ネットワーク上又はローカルの記憶手段から該第1関連データ及び該第2関連データが共起する関連データ共起ファイルを抽出する関連データ共起ファイル抽出手段と、関連データ共起ファイルから、所定の関連データ間関係規則を参照して、第1関連データ及び第2関連データ間の前後を検出する関連データ間関係検出手段と、検出結果を出力する出力手段とを備えたことを特徴とする。
The present invention can also provide the following data processing apparatus.
That is, the invention described in claim 1 is a data processing device that detects the order of the first related data and the second related data that are related to each other with respect to the related data related to the predetermined target data. Related data extracting means for respectively extracting the first related data and the second related data from the same or different files stored in the storage means, and the first related data and the second related data from a network or local storage means The related data co-occurrence file extracting means for extracting the related data co-occurrence file co-occurring, and the relationship between the first related data and the second related data from the related data co-occurrence file with reference to a predetermined relational data relation rule And a related data inter-relationship detecting means for detecting before and after and an output means for outputting a detection result.

請求項2に記載の発明によれば上記の関連データ間関係規則が、少なくとも前記第1関連データと前記第2関連データとの間に含まれる、又は含まれない、文字列に係る情報であって、関連データ間関係検出手段が、関連データ共起ファイル内において該第1関連データと該第2関連データとの間の文字列を抽出し、該関連データ間関係規則と照合することを特徴とする。   According to the second aspect of the present invention, the related data relation rule is information relating to a character string that is included or not included at least between the first related data and the second related data. The related data relation detecting means extracts a character string between the first related data and the second related data in the related data co-occurrence file, and collates with the related data relation rule. And

請求項3に記載の発明によれば、上記の関連データ間関係規則が、予め前後関係が分かっている2つの教師用関連データが共起する複数の教師用ファイルを用い、該教師用ファイルにおける2つの教師用関連データの出現位置、又は同時に含まれる若しくは含まれない文字列、又は同時に含まれるタグ情報の少なくともいずれかを素性として機械学習した学習結果であって、関連データ間関係検出手段が、前記関連データ共起ファイルから該素性を抽出すると共に、前記第1関連データ及び前記第2関連データを入力として、該学習結果を参照して該第1関連データ及び該第2関連データ間の前後を算出することを特徴とする。   According to the invention described in claim 3, the relation rule between related data uses a plurality of teacher files in which two related data for teachers whose context is known in advance co-occurs, A learning result obtained by machine learning using at least one of the appearance position of two teacher-related data, a character string that is included or not included simultaneously, or tag information that is included simultaneously, , Extracting the feature from the related data co-occurrence file, using the first related data and the second related data as input, and referring to the learning result between the first related data and the second related data It is characterized by calculating before and after.

請求項4に記載の発明によれば、上記請求項1ないし3のいずれかのデータ処理装置であって、関連データ抽出手段が、ネットワーク上又はローカルの記憶手段から前記対象データと共起する第1関連データ及び第2関連データをそれぞれ抽出することを特徴とする。   According to a fourth aspect of the present invention, there is provided the data processing device according to any one of the first to third aspects, wherein the related data extracting means co-occurs with the target data from a network or a local storage means. The first related data and the second related data are extracted, respectively.

請求項5に記載の発明によれば、所定の対象データに関連する関連データについて、相前後する第1関連データ及び第2関連データの順序を検出するデータ処理装置において、ネットワーク上又はローカルの記憶手段に格納された同一又は異なるファイルから第1関連データ及び第2関連データをそれぞれ抽出する関連データ抽出手段と、第1関連データが含まれるファイルから該第1関連データと共起する単数又は複数の第1共起データを抽出すると共に、該第2関連データが含まれるファイルから該第2関連データと共起する単数又は複数の第2共起データを抽出する共起データ抽出手段と、第1共起データ及び第2共起データ間の前後に関する所定の共起データ間関係規則を参照して、第1共起データ及び第2共起データ間の前後を検出する共起データ間関係検出手段と、検出結果をそれらと共起している第1関連データ及び第2関連データの前後として出力する出力手段とを備えたことを特徴とするデータ処理装置を提供する。   According to the fifth aspect of the present invention, in the data processing device that detects the order of the first related data and the second related data that are related to each other with respect to the related data related to the predetermined target data, the data is stored on the network or locally. Related data extracting means for extracting the first related data and the second related data from the same or different files stored in the means, and the singular or plural that co-occurs with the first related data from the file containing the first related data A co-occurrence data extracting means for extracting one or more second co-occurrence data that co-occurs with the second related data from a file including the second related data; Referring to the predetermined co-occurrence data relational rules regarding the front and back between the first co-occurrence data and the second co-occurrence data, the front and rear between the first co-occurrence data and the second co-occurrence data are detected. A data processing apparatus comprising: a co-occurrence data relation detecting means; and an output means for outputting the detection results as the first and second related data co-occurring with the first and second related data. To do.

請求項6に記載の発明によれば、ネットワーク上又はローカルの記憶手段から該第1共起データ及び該第2共起データが共起する共起データ共起ファイルを抽出する共起データ共起ファイル抽出手段を備えた処理装置を提供してもよい。   According to the invention described in claim 6, the co-occurrence data co-occurrence for extracting the co-occurrence data co-occurrence file in which the first co-occurrence data and the second co-occurrence data co-occur from a network or local storage means. You may provide the processing apparatus provided with the file extraction means.

請求項7に記載の発明によれば、上記の共起データ間関係規則が、少なくとも前記第1共起データと前記第2共起データとの間に含まれる、又は含まれない、文字列に係る情報であって、共起データ間関係検出手段が、前記共起データ共起ファイル内において該第1共起データと該第2共起データとの間の文字列を抽出し、該共起データ間関係規則と照合することを特徴とする。   According to the seventh aspect of the present invention, in the character string, the relation rule between the co-occurrence data is included or not included at least between the first co-occurrence data and the second co-occurrence data. The co-occurrence data interrelationship detection means extracts a character string between the first co-occurrence data and the second co-occurrence data in the co-occurrence data co-occurrence file, and the co-occurrence data It is characterized by collating with data relation rules.

請求項8に記載の発明によれば、上記の共起データ間関係規則が、予め前後関係が分かっている2つの教師用関連データのそれぞれと複数の文字列とが含まれる複数の教師用ファイルを用い、該教師用ファイルにおける該教師用関連データと共に含まれる単数又は複数の文字列を素性として機械学習した学習結果であって、共起データ間関係検出手段が、前記第1共起データ及び前記第2共起データを素性として入力し、該学習結果を参照して該第1共起データ及び該第2共起データ間の前後を算出することを特徴とする。   According to the eighth aspect of the present invention, the co-occurrence data relation rule includes a plurality of teacher files each including two pieces of teacher-related data whose context is known in advance and a plurality of character strings. And a learning result obtained by machine learning using one or more character strings included together with the teacher-related data in the teacher file as features, wherein the co-occurrence data relationship detection means includes the first co-occurrence data and The second co-occurrence data is input as a feature, and before and after the first co-occurrence data and the second co-occurrence data are calculated with reference to the learning result.

請求項9に記載の発明によれば、データ処理装置で処理する対象データが宛名であり、関連データが宛先である構成において、第1関連データと前記第2関連データとの間で、その新旧関係を検出することを特徴とする。   According to the ninth aspect of the present invention, in the configuration in which the target data to be processed by the data processing device is the address and the related data is the destination, the old and new between the first related data and the second related data. It is characterized by detecting a relationship.

本発明は、次のようなデータ処理方法を提供することもできる。
請求項10に記載の発明は、所定の対象データに関連する関連データについて、相前後する第1関連データ及び第2関連データの順序を検出するコンピュータのデータ処理方法であって、関連データ抽出手段が、ネットワーク上又はローカルの記憶手段に格納された同一又は異なるファイルから第1関連データ及び第2関連データをそれぞれ抽出する関連データ抽出ステップ、関連データ共起ファイル抽出手段が、ネットワーク上又はローカルの記憶手段から該第1関連データ及び該第2関連データが共起する関連データ共起ファイルを抽出する関連データ共起ファイル抽出ステップ、関連データ間関係検出手段が、該関連データ共起ファイルから、所定の関連データ間関係規則を参照して、第1関連データ及び第2関連データ間の前後を検出する関連データ間関係検出ステップ、出力手段が、該検出結果を出力する出力ステップを有することを特徴とする。
The present invention can also provide the following data processing method.
The invention according to claim 10 is a computer data processing method for detecting the order of the first related data and the second related data which are related to each other with respect to the related data related to the predetermined target data. The related data extraction step for extracting the first related data and the second related data from the same or different files stored on the network or the local storage means, respectively, the related data co-occurrence file extracting means is on the network or local A related data co-occurrence file extracting step for extracting a related data co-occurrence file in which the first related data and the second related data co-occur from the storage means; Before and after the first related data and the second related data, with reference to the predetermined relation data relation rules. Related data between relationship detection step of, output means, and having an output step of outputting the detection result.

本発明が決定する順序は、関連データ間の新旧、前後、評価、重要度などいかなる順序でもよいが、数値の大小など自然法則によって一義的に定まるものは関係規則による必要はないから、本発明の対象としない。すなわち、本発明が対象とするのは、住所変更による住所の新旧、人手によって並べられたデータの前後、アンケート結果から得られた評価、作成者によってばらばらに決定された重要度など、順序が何らかの作為あるいは精神作用によって決定づけられたものである。   The order determined by the present invention may be any order, such as new and old, before and after, evaluation, and importance between related data. However, it is not necessary to use the relational rules for those that are uniquely determined by the laws of nature, such as the magnitude of numerical values. Not subject to. In other words, the present invention is intended for new and old addresses due to address changes, before and after manually arranged data, evaluations obtained from questionnaire results, importance determined by creators, etc. It is determined by work or mental action.

請求項11に記載の発明は、上記の関連データ間関係規則が、少なくとも前記第1関連データと前記第2関連データとの間に含まれる、又は含まれない、文字列に係る情報であって、上記関連データ間関係検出手段が、前記関連データ共起ファイル内において該第1関連データと該第2関連データとの間の文字列を抽出し、該関連データ間関係規則と照合することを特徴とする。   The invention according to claim 11 is information relating to a character string, wherein the relation rule between related data is included or not included at least between the first related data and the second related data. The related data relationship detecting means extracts a character string between the first related data and the second related data in the related data co-occurrence file, and collates with the related data relationship rule. Features.

請求項12に記載の発明は、上記の関連データ間関係規則が、予め前後関係が分かっている2つの教師用関連データが共起する複数の教師用ファイルを用い、該教師用ファイルにおける2つの教師用関連データの出現位置、又は同時に含まれる若しくは含まれない文字列、又は同時に含まれるタグ情報の少なくともいずれかを素性として機械学習した学習結果とする構成である。該機械学習には、サポートベクトルマシンや最大エントロピー法の教師有り機械学習処理を行う公知の機械学習モジュールを用いる。
そして、関連データ間関係検出手段が、前記関連データ共起ファイルから該素性を抽出すると共に、前記第1関連データ及び前記第2関連データを入力として、該学習結果を参照して該第1関連データ及び該第2関連データ間の前後を算出することを特徴とする。
The invention according to claim 12 uses a plurality of teacher files in which two related data for teachers whose related relations are known in advance are co-occurred in the relation rule between related data, In this configuration, at least one of an appearance position of teacher-related data, a character string that is included or not included at the same time, or tag information that is included at the same time is used as a learning result as a feature. For the machine learning, a known machine learning module that performs a supervised machine learning process using a support vector machine or a maximum entropy method is used.
The related data inter-relationship detecting means extracts the feature from the related data co-occurrence file, inputs the first related data and the second related data, and refers to the learning result to refer to the first related data. Before and after the data and the second related data is calculated.

請求項13に記載の発明は、上記の関連データ抽出ステップにおいて関連データ抽出手段が、ネットワーク上又はローカルの記憶手段から対象データと共起する第1関連データ及び第2関連データをそれぞれ抽出することを特徴とする。   According to a thirteenth aspect of the present invention, in the related data extracting step, the related data extracting means extracts the first related data and the second related data co-occurring with the target data from the network or local storage means, respectively. It is characterized by.

請求項14に記載の発明は、所定の対象データに関連する関連データについて、相前後する第1関連データ及び第2関連データの順序を検出するコンピュータのデータ処理方法であって、関連データ抽出手段が、ネットワーク上又はローカルの記憶手段に格納された同一又は異なるファイルから第1関連データ及び第2関連データをそれぞれ抽出する関連データ抽出ステップ、共起データ抽出手段が、該第1関連データが含まれるファイルから該第1関連データと共起する単数又は複数の第1共起データを抽出すると共に、該第2関連データが含まれるファイルから該第2関連データと共起する単数又は複数の第2共起データを抽出する共起データ抽出ステップ、共起データ間関係検出手段が、該第1共起データ及び該第2共起データ間の前後に関する所定の共起データ間関係規則を参照して、第1共起データ及び第2共起データ間の前後を検出する共起データ間関係検出ステップ、出力手段が、該検出結果をそれらと共起している第1関連データ及び第2関連データの前後として出力する出力ステップを有することを特徴とする。   The invention according to claim 14 is a computer data processing method for detecting the order of the first related data and the second related data succeeding each other with respect to related data related to the predetermined target data, the related data extracting means Includes a related data extraction step for extracting the first related data and the second related data from the same or different files stored in the storage means on the network or locally, and the co-occurrence data extracting means includes the first related data. Extracting one or a plurality of first co-occurrence data co-occurring with the first related data from the file and the first or plurality of first co-occurring data co-occurring with the second related data from the file containing the second related data A co-occurrence data extracting step for extracting two co-occurrence data; A co-occurrence data inter-relationship detecting step for detecting the front and back between the first co-occurrence data and the second co-occurrence data with reference to a predetermined co-occurrence data relation rule, and an output means, An output step is provided for outputting the data before and after the first related data and the second related data.

請求項15に記載の発明は、上記のデータ処理方法において、前記共起データ抽出ステップの次に、共起データ共起ファイル抽出手段が、ネットワーク上又はローカルの記憶手段から該第1共起データ及び該第2共起データが共起する共起データ共起ファイルを抽出する共起データ共起ファイル抽出ステップを有することを特徴とする。   According to a fifteenth aspect of the present invention, in the above data processing method, after the co-occurrence data extraction step, the co-occurrence data co-occurrence file extraction means is the first co-occurrence data from a network or local storage means. And a co-occurrence data co-occurrence file extracting step for extracting a co-occurrence data co-occurrence file in which the second co-occurrence data co-occurs.

請求項16に記載の発明は、上記のデータ処理方法において、共起データ間関係規則が、少なくとも前記第1共起データと前記第2共起データとの間に含まれる、又は含まれない、文字列に係る情報であって、共起データ間関係検出手段が、前記共起データ共起ファイル内において該第1共起データと該第2共起データとの間の文字列を抽出し、該共起データ間関係規則と照合することを特徴とする。   The invention according to claim 16 is the data processing method as described above, wherein a co-occurrence data relation rule is included or not included at least between the first co-occurrence data and the second co-occurrence data. Information relating to a character string, wherein the co-occurrence data relationship detection means extracts a character string between the first co-occurrence data and the second co-occurrence data in the co-occurrence data co-occurrence file, It is collated with the co-occurrence data relation rule.

請求項17に記載の発明は、上記の共起データ間関係規則が、予め前後関係が分かっている2つの教師用関連データのそれぞれと複数の文字列とが含まれる複数の教師用ファイルを用い、該教師用ファイルにおける該教師用関連データと共に含まれる単数又は複数の文字列を素性として機械学習した学習結果とする構成である。該機械学習には、サポートベクトルマシンや最大エントロピー法の教師有り機械学習処理を行う公知の機械学習モジュールを用い、関連データ間関係検出ステップの前に実行処理することができる。
そして、共起データ間関係検出手段が、第1共起データ及び第2共起データを素性として入力し、該学習結果を参照して該第1共起データ及び該第2共起データ間の前後を算出することを特徴とする。
The invention according to claim 17 uses a plurality of teacher files in which each of the co-occurrence data relation rules includes two pieces of teacher-related data whose contexts are known in advance and a plurality of character strings. In this configuration, one or a plurality of character strings included together with the teacher-related data in the teacher file is used as a learning result by machine learning. The machine learning can be performed before the related data relationship detection step using a support vector machine or a known machine learning module that performs supervised machine learning processing of the maximum entropy method.
Then, the co-occurrence data relationship detecting means inputs the first co-occurrence data and the second co-occurrence data as features, and refers to the learning result between the first co-occurrence data and the second co-occurrence data. It is characterized by calculating before and after.

請求項18に記載の発明は、上記のデータ処理方法が、対象データが宛名であり、関連データが宛先である構成において、第1関連データと第2関連データとの間で、その新旧関係を検出することを特徴とする。   In the invention according to claim 18, in the data processing method described above, in the configuration in which the target data is the address and the related data is the destination, the old and new relationship is established between the first related data and the second related data. It is characterized by detecting.

本発明は、上記構成を備えることにより次のような効果を奏する。
すなわち、請求項1又は10に記載の発明によれば、対象データと関連のある2つの関連データ間の順序を関連データ間関係規則に基づいて高精度に決定することができ、従来は人手によって前後の文脈から判断していた処理を自動化することができる。
The present invention has the following effects by providing the above configuration.
In other words, according to the invention described in claim 1 or 10, the order between two related data related to the target data can be determined with high accuracy based on the relational rules between related data. Processing that was judged from the context before and after can be automated.

本発明が対象とする順序は、上記の通り人間の作為や精神作用によって決定づけられたものであるため、本来はコンピュータの処理になじみにくい。
これに対して本発明はまず対象データに関連する2つの関連データを抽出し、さらにそれらが共起する関連データ共起ファイルを抽出する。この方法によれば大量のデータを対象として順序の検出に最適な関連データを抽出し、それと関係規則から高精度に順序を検出することができる。
Since the order targeted by the present invention is determined by human actions and mental actions as described above, it is difficult to become familiar with computer processing.
In contrast, the present invention first extracts two related data related to the target data, and further extracts a related data co-occurrence file in which they co-occur. According to this method, it is possible to extract related data optimum for order detection for a large amount of data, and to detect the order with high accuracy from the related data.

請求項2又は11に記載の発明は、関連データ間関係規則として、2つの関連データとの間の文字列が含まれること、あるいは含まれないことを用いるので、コンピュータの文字列比較により簡便に順序を検出することができる。   Since the invention according to claim 2 or 11 uses that a character string between two related data is included or not included as a relation rule between related data, it can be more easily performed by comparing character strings of a computer. The order can be detected.

請求項3又は12に記載の発明によれば、機械学習を用いて教師データから関連データ間の順序を学習すると共に、その結果を関連データ間関係規則として用いるのでさらに高精度な検出に寄与する。   According to the third or twelfth aspect of the present invention, the order between related data is learned from teacher data using machine learning, and the result is used as a relation rule between related data, which contributes to more accurate detection. .

請求項4又は13に記載の発明によれば、上記において対象データだけを抽出するのではなく、対象データと共起するデータを抽出することで、関連データと対象データとの関連性がより確実になり、また、共起するデータに限定することで処理すべき対象データ数が抑制される。これにより順序検出の高精度化、処理の高速化を図ることができる。   According to the invention described in claim 4 or 13, the relevance between the related data and the target data is more reliable by extracting the data co-occurring with the target data instead of extracting only the target data in the above. In addition, the number of target data to be processed is suppressed by limiting to co-occurring data. As a result, it is possible to increase the order detection accuracy and speed up the processing.

請求項5又は14に記載の発明によれば、各関連データから直接順序を検出するのではなく、それらと共起する共起データにより順序を検出することができる。これによって関連データの性質上、順序を決定しにくい場合にも、その共起データを比較することで高精度に検出することができる。   According to the invention described in claim 5 or 14, the order can be detected not by directly detecting the order from each related data but by the co-occurrence data co-occurring therewith. As a result, even if it is difficult to determine the order due to the nature of the related data, it is possible to detect the order with high accuracy by comparing the co-occurrence data.

請求項6又は15に記載の発明によれば、各関連データと共起する共起データが共に出現するファイルを用いることで、共起データ間の関係を正確に把握することができる。   According to the invention described in claim 6 or 15, the relationship between the co-occurrence data can be accurately grasped by using the file in which the co-occurrence data co-occurs with each related data.

請求項7又は16に記載の発明によれば、共起データ間関係規則として、2つの共起データとの間の文字列が含まれること、あるいは含まれないことを用いるので、コンピュータの文字列比較により簡便に順序を検出することができる。   According to the invention of claim 7 or 16, since it is used that the character string between the two co-occurrence data is included or not included as the co-occurrence data relation rule, the character string of the computer The order can be easily detected by comparison.

請求項8又は17に記載の発明によれば、機械学習を用いて教師データから共起データ間の順序を学習すると共に、その結果を共起データ間関係規則として用いるのでさらに高精度な検出に寄与する。   According to the invention described in claim 8 or 17, the order between the co-occurrence data is learned from the teacher data by using machine learning, and the result is used as a relation rule between the co-occurrence data, so that the detection can be performed with higher accuracy. Contribute.

請求項9又は18に記載の発明によれば、対象データとして宛名、関連データとして宛先を用い、変更されることが多く、しかも関連データを較べただけではどちらが新しいかの判定が難しい住所データに対して本発明を適用することができる。   According to the invention described in claim 9 or 18, the address data is used as the target data, the destination is used as the related data, and is often changed, and it is difficult to determine which is new only by comparing the related data. The present invention can be applied to this.

以下、本発明の実施形態を、図面に示す実施例を基に説明する。なお、実施形態は下記に限定されるものではない。
(実施例1)
図1は本発明に係るデータ処理装置(以下、本装置と呼ぶ)の構成図である。本発明は公知のパーソナルコンピュータにより容易に実現することが可能であり、演算処理や機械学習、テキスト処理などを司るCPU(10)によって本発明の各ステップを実行処理する。CPU(10)は周知のようにメモリ(図示しない)と協働して動作し、キーボードやマウス(11)などの入力手段の他、出力結果を表示するモニタ(12)、ハードディスク等の外部記憶装置(13)などを備えている。
また、テキストデータ、ファイル等の取得などのためにデータの取得入力手段としてインターネット等のネットワークと接続するネットワークアダプタ(14)を備える。
Hereinafter, embodiments of the present invention will be described based on examples shown in the drawings. The embodiment is not limited to the following.
Example 1
FIG. 1 is a block diagram of a data processing apparatus (hereinafter referred to as this apparatus) according to the present invention. The present invention can be easily realized by a known personal computer, and each step of the present invention is executed and processed by a CPU (10) that controls arithmetic processing, machine learning, text processing, and the like. As is well known, the CPU (10) operates in cooperation with a memory (not shown), and in addition to input means such as a keyboard and mouse (11), a monitor (12) for displaying output results, an external storage such as a hard disk. A device (13) is provided.
In addition, a network adapter (14) connected to a network such as the Internet is provided as data acquisition input means for acquiring text data, files, and the like.

そして、CPU(10)には入力部(101)、関連データ抽出部(102)、関連データ共起ファイル抽出部(103)、関連データ間関係検出部(104)、出力部(105)が設けられている。
そして、公知のプログラミング言語によって記載されたプログラムがCPU(10)及びそれと連動するハードウェアを動作させて、以下に説述する各部(101)〜(105)の機能が実現される。
The CPU (10) includes an input unit (101), a related data extraction unit (102), a related data co-occurrence file extraction unit (103), a related data relationship detection unit (104), and an output unit (105). It has been.
And the program described by the well-known programming language operates CPU (10) and the hardware linked with it, and the function of each part (101)-(105) demonstrated below is implement | achieved.

以下、図2に示す処理フローチャートを用いて、請求項1ないし4等に係る本発明の各処理を詳細に説述する。
まず、入力部(101)が外部記憶装置(3)あるいはインターネット、LAN(Local Area Network)等のサーバ上からネットワークアダプタ(40)を介して第1コンテンツファイル(20)及び第2コンテンツファイル(21)を取得し、CPU(10)内に取り込む処理を行う。
各コンテンツファイル(20)(21)は同一の記憶装置やサーバ上にあってもよいし、それぞれ別に格納されているものでもよい。
Hereinafter, each processing of the present invention according to claims 1 to 4 will be described in detail with reference to a processing flowchart shown in FIG.
First, the input unit (101) receives the first content file (20) and the second content file (21) from the external storage device (3) or a server such as the Internet or a LAN (Local Area Network) via the network adapter (40). ) Is acquired and taken into the CPU (10).
Each content file (20) (21) may be on the same storage device or server, or may be stored separately.

コンテンツファイル(20)(21)の例としては、住所録などの複数の項目に対してそれぞれデータ(氏名・会社名・住所・電話番号)を割り当ててあるデータベースや、HTML(HyperTextMarkup Language)で記載されたウェブページのソーステキスト、特許公報のウェブページのように、ウェブページであっても項目と内容が正確に対応づけられたデータを含むテキストなどを用いることができる。
分かりやすくするために、以下では対象データを「会社名」、関連データを「住所」として説明を続ける。このように本発明の請求項9等に記載の通り、対象データを宛名、関連データを宛先としたときに、その前後関係として例えば宛先の新旧関係を検出するのに用いることができる。
Examples of content files (20) and (21) are described in a database in which data (name, company name, address, and telephone number) is assigned to a plurality of items such as an address book, or in HTML (HyperTextMarkup Language). Even a web page, such as a source text of a created web page or a web page of a patent gazette, can include text including data in which items and contents are accurately associated with each other.
For the sake of clarity, the following description will be continued with the target data as “company name” and the related data as “address”. Thus, as described in claim 9 of the present invention, when the target data is the address and the related data is the destination, it can be used to detect, for example, the new / old relationship of the destination as its context.

なお、宛名とは手紙や証書等に書く相手方の氏名、会社名等であり、宛先とは宛名の場所である。例えば、「△△株式会社」が宛名であり、その住所である「東京都中央区駅前1-2-3」が宛先である。   The address is the name, company name, etc. of the other party to be written on a letter or certificate, and the address is the address location. For example, “ΔΔ Corporation” is the address, and its address “1-2-3 Chuo-ku, Tokyo Station” is the destination.

関連データ抽出部(102)では、予め定義してある対象データ(22)と関連する関連データを異なるファイルである各コンテンツファイル(20)(21)から抽出する。(関連データ抽出ステップ:S10)
説明上第1関連データ(24)、第2関連データ(25)と呼ぶが、これらの順序は未知であり、本発明により対象データ(22)に関連した2つの関連データ間の順序を検出するものである。
The related data extraction unit (102) extracts related data related to the target data (22) defined in advance from each content file (20) (21) which is a different file. (Related data extraction step: S10)
For the sake of explanation, they are called the first related data (24) and the second related data (25), but their order is unknown, and the present invention detects the order between the two related data related to the target data (22). Is.

例えば、会社が移転した場合を想定して、「旧住所」(序列が前)、「新住所」(序列が後)を考える。この場合、第1コンテンツファイルは、旧住所が記載されたウェブページ、第2コンテンツファイルは、新住所が記載されたウェブページがあり、それらから旧住所と新住所が第1関連データ、第2関連データとして抽出されることになる。詳しくは後述するが、ここでは対象データ(22)自体が各コンテンツファイル(20)(21)に出現していることは必要なく、そのページ自体に会社名が記載されていなくても予め人手により関連があることは選定され、その上でコンテンツファイルが入力される場合にも本発明は適用される。   For example, assuming that the company has moved, consider "old address" (order is before) and "new address" (after order). In this case, the first content file has a web page in which the old address is described, and the second content file has a web page in which the new address is described, from which the old address and the new address are the first related data, the second It will be extracted as related data. Although the details will be described later, it is not necessary here that the target data (22) itself appears in each content file (20) (21), and even if the company name is not described on the page itself, it is manually performed beforehand. The present invention is also applied to the case where the relatedness is selected and the content file is input thereon.

各コンテンツファイル(20)(21)に含まれるデータが1つであって、予め対象データ(22)に関連することが確実な各関連データ(24)(25)を抽出する構成が最もシンプルな構成であるが、通常はコンテンツファイル(20)(21)には複数のデータが含まれる。例えば、旧住所と共に、電話番号や担当者名、製品情報など順序の検出と関係のないデータが含まれている。
本発明では、大量の関連データを比較して順序を決定しても良いので、この段階で真に関連データとして必要であるかを選定する必要はない。
Each content file (20) (21) includes one piece of data, and the simplest configuration is to extract each related data (24) (25) that is surely related to the target data (22) in advance. In general, the content files (20) and (21) contain a plurality of data. For example, data that is not related to the detection of the order such as a telephone number, a person in charge name, and product information is included together with the old address.
In the present invention, since the order may be determined by comparing a large amount of related data, it is not necessary to select whether it is really necessary as related data at this stage.

もっとも、処理の高速化、必要な結果のみを得るために、予め選別して抽出を行っても良い。例えば、住所だけを抽出したいのであれば、CPU(10)により公知のテキスト処理を行い、都道府県名や都市名に続き、数字等で終わるテキストなどを抽出すれば住所だけを簡単に抽出することもできる。
さらに、「本社」に続く文字列だけを抽出することで、複数の住所が記載されているページから、内容の等価性が予想される1つの関連データを特定して抽出してもよい。
However, in order to increase the processing speed and obtain only the necessary results, it is possible to select and extract in advance. For example, if you want to extract only the address, the CPU (10) performs known text processing, and if you extract the text that ends with a prefecture name or city name and ends with numbers, you can easily extract only the address. You can also.
Furthermore, by extracting only the character string following “Headquarters”, one related data that is expected to be equivalent in content may be specified and extracted from a page on which a plurality of addresses are described.

抽出された第1関連データ(24)及び第2関連データ(25)を用い、関連データ共起ファイル抽出部(103)において、コンテンツデータ(23)からそれらが共起する関連データ共起ファイル(231)を抽出する。(関連データ共起ファイル抽出ステップ:S11)   Using the extracted first related data (24) and second related data (25), the related data co-occurrence file extraction unit (103) uses the related data co-occurrence file ( 231) is extracted. (Related data co-occurrence file extraction step: S11)

コンテンツデータ(23)は、外部記憶装置(13)に格納されていても、インターネット等のサーバ上に格納されていてもいずれでも良いが、データ量が多いほど共起するデータが確実に抽出できることから、後者の方が好ましい。
共起するファイルが複数ある場合には、全てを抽出して次の処理に進んでもよいし、ファイルの作成日時が最新のもの1つ、あるいは2つの関連データの占める割合が高いものとして全体のデータ容量が最も小さいもの1つを選んでもよい。
The content data (23) may be stored either in the external storage device (13) or on a server such as the Internet. However, the larger the amount of data, the more reliably the co-occurring data can be extracted. Therefore, the latter is preferable.
If there are multiple co-occurring files, all of them may be extracted and proceed to the next process, or the file creation date / time is the latest, or the ratio of the two related data is high. You may choose one with the smallest data capacity.

関連データ共起ファイル抽出部(103)は、予めどこを検索するかを定めておく場合に限らず、まず公知の検索エンジンのサイトに、各関連データを送信し、それらが共起するウェブページを検索した上で、そのウェブページを関連データ共起ファイル(231)として抽出してもよい。   Related data cooccurrence file extraction unit (103) is not limited to the case to be determined whether to search where previously, the first known search engine site, send each associated data, web pages they co-occur May be extracted as a related data co-occurrence file (231).

次いで、関連データ間関係検出部(104)において、外部記憶装置に格納された関連データ間関係規則(130)を参照し、関連データ間の順序を検出する。(関連データ間関係検出ステップ:S12)
本発明では請求項2等に記載の発明のようにルールベースによる方法と、請求項3等に記載の発明のように機械学習による方法の2つを提案する。
Next, the related data relation detecting unit (104) refers to the related data relation rule (130) stored in the external storage device, and detects the order between the related data. (Related data relationship detection step: S12)
The present invention proposes two methods, a rule-based method as in the invention described in claim 2 and the like, and a method by machine learning as in the invention described in claim 3 and the like.

まずルールベースによる方法から説明する。
ルールベースの場合、予め人手によって規則を定めておき、それに従って判定を行うが、本発明のように自動的にコンテンツデータ(23)を参照して関連データ間の順序を決定することは、コンテンツデータ(23)が膨大であると事実上不可能である。本発明はこのような場合にも高精度に順序を検出することができる。
First, the rule-based method will be described.
In the case of the rule base, a rule is manually defined in advance and a determination is made according to the rule. However, as in the present invention, the order between related data is automatically determined by referring to the content data (23). If the data (23) is enormous, it is virtually impossible. The present invention can detect the order with high accuracy even in such a case.

本発明請求項に係る関連データ共起ファイル(231)の例を図3ないし図5に示す。なおこの関連データ共起ファイル(231)は後述の各実施例においても共通に用いることのできる例である。
図3(A)は抽出されたウェブページの1例(231a)を示しており、様々なテキストの中で「△△は、下記に移転します。」(22a)との表示の後に、「新住所:××××××」(25a)、「現住所:●●●●●」(24a)の順番に記載されている。
図3(B)は、別の表示例(231b)であり、「△△社屋移転のお知らせ」(22b)との表示の後に、「旧住所:●●●●●」(24b)、「新住所:××××××」(25b)の順番に記載されている。
Examples of the related data co-occurrence file (231) according to the claims of the present invention are shown in FIGS. The related data co-occurrence file (231) is an example that can be used in common in each embodiment described later.
FIG. 3 (A) shows an example (231a) of the extracted web page. In various texts, “△△ will move to the following” (22a) is displayed, and “ New address: XXXXXX ”(25a),“ current address: ●●●●● ”(24a).
FIG. 3B is another display example (231b), and after the display of “△△ Office relocation notice” (22b), “Old address: ●●●●●” (24b), “New Address: XXXXXX ”(25b).

明らかなように、本発明の対象データは△△であり、第1関連データは旧住所の●●●●●、第2関連データは新住所の××××××である。
実際には住所変更の場合には多くの表記方法があるが、それらも含めて次のような関連データ間関係規則(130)を用意する。本実施例の関連データ間関係規則(130)は請求項2や7などのルールベースによる方法で共通に用いることの出来る関連データ間関係規則の一例である。
As is apparent, the target data of the present invention is ΔΔ, the first related data is the old address ●●●●●, and the second related data is the new address xxxxxx.
Actually, there are many notation methods in the case of an address change, but the following related data relation rules (130) including these are prepared. The related data relationship rule (130) of the present embodiment is an example of a related data relationship rule that can be commonly used in a rule-based method such as claims 2 and 7.

Figure 0005099498
Figure 0005099498

関連データ間関係検出部(104)では、図3(A)の場合には第2関連データ(25a)が前出、第1関連データ(24a)が後出であり、その間に含まれる文字列から関連データ間関係規則(130)に含まれる文字列「現住所」が発見できることから、番号1の規則を適用して、第2関連データ××××××(25a)が後、第1関連データ●●●●●(24a)が前と検出する。   In the related data relationship detection unit (104), in the case of FIG. 3 (A), the second related data (25a) is mentioned above, the first related data (24a) is mentioned later, and the character string included between them. Since the character string “current address” included in the relation rule between related data (130) can be found from the second relation data xxxxxxx (25a) after applying the rule of number 1, the first relation Data ●●●●● (24a) is detected as previous.

また図3(B)の場合には第1関連データ(24b)が前出、第2関連データ(25b)が後出であり、その間に含まれる文字列から関連データ間関係規則(130)に含まれる文字列「新住所」が発見できることから、番号6の規則を適用して、第1関連データ●●●●●(24b)が前、第2関連データ××××××(25b)が後、と検出する。
なお、上記関連データ間関係規則(130)では含まれる文字列のみを定義したが、逆に含まれない文字列を定義してもよい。
In the case of FIG. 3B, the first related data (24b) is mentioned above, the second related data (25b) is mentioned later, and the character string included between them is changed to the related data relation rule (130). Since the included character string “new address” can be found, the rule of number 6 is applied, and the first related data ●●●●● (24b) is the previous, second related data xxxxxxx (25b) Detected later.
Although only the character string included in the related data relation rule (130) is defined, a character string that is not included may be defined.

次に図4ではウェブページにおける表を利用して、項目名として「旧住所」「新住所」が記載されて、その下欄に第1関連データ(24c)と第2関連データ(25c)が記載されている。
このような場合に、HTMLにおけるタグを利用して関連データ間関係規則(130)とすることもできる。例えば、関連データ間に表の枠線のタグが介在する場合には、その左側の関連データを前、右側の関連データを後とすることができる。そのほか、「旧住所」の文字列の下欄又は左欄にある関連データを前、「新住所」の文字列の下欄又は左欄にある関連データを後と定義してもよい。
Next, in FIG. 4, using the table on the web page, “old address” and “new address” are described as item names, and the first related data (24c) and the second related data (25c) are displayed in the lower column. Are listed.
In such a case, the relation rule between related data (130) can be obtained by using a tag in HTML. For example, when a table frame tag is interposed between related data, the related data on the left side can be the front and the related data on the right side can be the back. In addition, the related data in the lower column or the left column of the “old address” character string may be defined as the front, and the related data in the lower column or the left column of the “new address” character string may be defined as the rear.

その他、図5のように第1関連データ(24d)と第2関連データ(25d)の文字の大きさが異なる場合に、関連データ間関係規則(130)に、文字サイズが小さなものを前、大きなものを後とする規則を備えておいて、文字サイズを指定するタグから順序を検出してもよい。   In addition, when the character size of the first related data (24d) and the second related data (25d) is different as shown in FIG. An order may be detected from a tag designating a character size by providing a rule with a larger one after.

本発明では関連データ共起ファイル(231)は複数抽出してもよいから、以上のような関連データ間関係規則(130)に複数の条件が合致する場合がある。このような場合には単純には多数決により「前」と判定された数が多い関連データが前、「後」と判定された数が多い関連データを後とすればよい。
また、関連データ間関係規則(130)に表2のように重みを定義しておき、例えば番号2と4と5が抽出された場合には、前出関連データが前である確度は0.4、後である確度は0.8+0.4=1.2(後出関連データについてはこの逆)として、確度の高い後、と判定するようにしてもよい。
In the present invention, since a plurality of related data co-occurrence files (231) may be extracted, there may be a case where a plurality of conditions match the related data inter-relationship rules (130). In such a case, simply, related data having a large number determined as “before” by majority vote may be set before and related data having a large number determined as “after” may be set after.
Further, if the weights are defined in the relation rule between related data (130) as shown in Table 2, and numbers 2, 4 and 5 are extracted, for example, the probability that the above-mentioned related data is before is 0. 4. The accuracy afterwards may be determined as 0.8 + 0.4 = 1.2 (the opposite is true for later-related data) and after the accuracy is high.

Figure 0005099498
Figure 0005099498

本発明は、このように関連データ間関係規則(130)を使うとしても単にルールに従って判定するだけでなく、多量のデータに基づいて、どちらがより前らしいか、後らしいかを含めて検出することができる点に特徴を有する。   In the present invention, even if the relation rule (130) between related data is used as described above, it is not only determined according to the rule, but also based on a large amount of data, it is detected including which is likely to be earlier or later. It has a feature in that it can.

検出結果は出力部(105)から出力される。(出力ステップ:S13)
本発明における出力としては、モニタ(12)からの表示や、外部記憶装置(13)への記録、ネットワークアダプタ(14)を介して外部サーバに出力などいずれでもよい。本発明のデータ処理装置(1)を、データ検索装置に装備し、検索結果の表示順を本装置(1)の検出した順序に合わせて変更するように利用してもよい。
The detection result is output from the output unit (105). (Output step: S13)
The output in the present invention may be any one of display from the monitor (12), recording to the external storage device (13), output to an external server via the network adapter (14), and the like. The data processing device (1) of the present invention may be installed in a data search device and used so as to change the display order of search results in accordance with the order detected by the device (1).

図2において、本実施例では異なる2つのコンテンツファイル(20)(21)を入力したが、同一のコンテンツファイルを関連データ抽出部(102)に入力して、2つの関連データを抽出してもよい。この場合、そもそもコンテンツファイルにおいて関連データが共起していることから、これも他のコンテンツデータ(23)と共に、関連データ間関係検出部(204)で用いてもよい。   In FIG. 2, two different content files (20) and (21) are input in this embodiment, but the same content file may be input to the related data extraction unit (102) to extract two related data. Good. In this case, since related data co-occurs in the content file in the first place, this may also be used by the related data relationship detection unit (204) together with other content data (23).

また、請求項4等に記載の発明の実施態様として、関連データ抽出部(102)では対象データと共起する関連データを抽出する構成でもよい。上記したとおり、第1コンテンツファイル(20)等が予め対象データと関連があることが分かっている場合には必要ないが、コンテンツファイルをインターネット等から抽出する場合には、対象データ(22)が出現するファイルを抽出し、これらをコンテンツファイルとする必要がある。   As an embodiment of the invention described in claim 4 or the like, the related data extraction unit (102) may extract related data co-occurring with the target data. As described above, it is not necessary when it is known that the first content file (20) or the like is related to the target data in advance, but when the content file is extracted from the Internet or the like, the target data (22) is It is necessary to extract the appearing files and use them as content files.

この場合、単に対象データ(22)が出現するコンテンツファイル内の全ての文字列を関連データ(24)(25)としてもよいが、より好ましくは、対象データ(22)が出現する前後所定の文字数内の文字列を関連データ(24)(25)としてもよい。これにより、一般的に関連が高いと思われる近傍の文字列を関連データとすることができる。   In this case, all the character strings in the content file in which the target data (22) appears may be used as the related data (24) (25), but more preferably a predetermined number of characters before and after the target data (22) appears. It is good also considering the character string in this as related data (24) (25). Thereby, a character string in the vicinity that is generally considered to be highly related can be used as related data.

本発明における関連データや共起データの抽出には次のような高度な手法を適用することもできる。
共起データを例に挙げると、関連データを構成する単語群A(単語群は単数又は複数の単語を言う。)を、多く含む共起データの抽出方法を説明する。
The following advanced methods can also be applied to the extraction of related data and co-occurrence data in the present invention.
Taking co-occurrence data as an example, a method for extracting co-occurrence data including a large number of word groups A (a word group refers to one or more words) constituting related data will be described.

(1) 基本的な方法 (TF・IDF 法) の説明
(数1)
score(D) = Σ ( tf(w,D) * log(N/df(w)) )
w ∈W で加算
Wは関連データの集合、tf(w,D)はコンテンツデータ中におけるwの出現回数、df(w)は全文書でWが出現した文書の数、Nは文書の総数
数1に示す式において、score(D) が高い文書データを共起データとして出力する。このようにすることで、関連データとして一般的な語句を多数抽出してしまった場合、意味のない共起データが多数抽出されることを防ぐことができる。
同様に関連データを抽出する際にも有意な関連データを抽出するのに寄与させることができる。
(1) Explanation of basic method (TF / IDF method)
(Equation 1)
score (D) = Σ (tf (w, D) * log (N / df (w)))
Add by w ∈W
W is a set of related data, tf (w, D) is the number of occurrences of w in the content data, df (w) is the number of documents in which W appears in all documents, N is the total number of documents , Document data with high score (D) is output as co-occurrence data. By doing in this way, when many common words and phrases are extracted as related data, it can prevent that many meaningless co-occurrence data are extracted.
Similarly, when extracting related data, significant related data can be extracted.

(2)Robertson らの Okapi weightingの説明
本方法は、非特許文献3に記載されている。
(2) Explanation of Okapi weighting by Robertson et al.
This method is described in Non-Patent Document 3.

村田真樹,馬青,内元清貴,小作浩美,内山将夫,井佐原均“位置情報と分野情報を用いた情報検索”自然言語処理(言語処理学会誌) 2000年 4月,7 巻,2 号, p.141 〜 p.160 該非特許文献13における数2が性能がよいことが知られている。 そして、Σで積を取る前の tf 項とidf 項の積が Okapiのウェイティング法になって、この値を単語の重みに使う。Murata Maki, Ma Ao, Uchimoto Kiyotaka, Osaku Hiromi, Uchiyama Masao, Isahara Hitoshi “Information Retrieval Using Location and Field Information” Natural Language Processing (Journal of the Language Processing Society) April 2000, Volume 7, Issue 2 , p.141 to p.160 It is known that the number 2 in Non-Patent Document 13 has good performance. The product of tf term and idf term before taking the product by Σ becomes Okapi's weighting method, and this value is used for the word weight.

Okapi の式なら
(数2)
score(D) = Σ ( tf(w,D)/(tf(w,D) + length/delta) * log(N/df(w)))
w ∈W で加算

lengthはデータDの長さ、delta はデータの長さの平均、データの長さは、データのバイト数、また、データに含まれる単語数などを使う。
If it is an expression of Okapi (Equation 2)
score (D) = Σ (tf (w, D) / (tf (w, D) + length / delta) * log (N / df (w)))
Add by w ∈W

length is the length of data D, delta is the average length of data, and the length of data is the number of bytes of data, the number of words included in the data, or the like.

さらに、以下の情報検索を行うこともできる。
(Okapi の参考文献)
非特許文献4,5に開示されるようなOkapiの式、SMARTの式を用いることもできる。より高度な情報検索の方法として、tf・idf を使うだけの式でなく、これらの OkapiのSMARTの式を用いてもよい。
Further, the following information search can be performed.
(Okapi reference)
The Okapi equation and SMART equation disclosed in Non-Patent Documents 4 and 5 can also be used. As a more advanced information retrieval method, these Okapi SMART formulas may be used instead of just formulas using tf · idf.

S. E. Robertson, S. Walker, S. Jones, M. M.Hancock-Beaulieu, and M. GatfordOkapi at TREC-3, TREC-3, 1994年S. E. Robertson, S. Walker, S. Jones, M. M. Hancock-Beaulieu, and M. Gatford Okapi at TREC-3, TREC-3, 1994 Amit Singhal AT&T at TREC-6, TREC-6,1997 年Amit Singhal AT & T at TREC-6, TREC-6, 1997

これらの方法では、tf・idf だけでなく、コンテンツデータの長さなども利用して、より高精度な情報検索を行うことができる。  In these methods, more accurate information retrieval can be performed using not only tf · idf but also the length of content data.

今回の、単語群Aをより多く含む共起データの抽出方法では、さらに、Rocchio's formula (非特許文献6)を使うことができる。   In this method of extracting co-occurrence data including more word groups A, Rocchio's formula (Non-patent Document 6) can be used.

J. J. Rocchio,Relevance feedback ininformation retrieval,The SMART retrieval System, Edited by G. Salton,PrenticeHall, Inc.,page 313-323, 1971年J. J. Rocchio, Relevance feedback in information retrieval, The SMART retrieval System, Edited by G. Salton, Prentice Hall, Inc., page 313-323, 1971

この方法は、log(N/df(w))のかわりに、
(数3)
{E(t)+ k_af * (RatioC(t) - RatioD(t))} *log(N/df(w))
を使う。
This method can be used instead of log (N / df (w))
(Equation 3)
{E (t) + k_af * (RatioC (t)-RatioD (t))} * log (N / df (w))
use.

E(t) = 1 (対象データ)
= 0 (それ以外)
RatioC(t) は関連データ群Bでのt の出現率
RatioD(t) はコンテンツデータ群Cでのt の出現率
log(N/df(w))を上式でおきかえた式でscore(D)を求めて、その値が大きいものほど単語群Aをより多く含む共起データとして取り出すものである。
E (t) = 1 (target data)
= 0 (otherwise)
RatioC (t) is the occurrence rate of t in the related data group B
RatioD (t) is the appearance rate of t in the content data group C
The score (D) is obtained by replacing log (N / df (w)) with the above equation, and the larger the value, the more the co-occurrence data including the word group A is extracted.

score(D)のΣの加算の際に足す単語wの集合Wは、元の対象データと、単語群Aの両方とする。ただし、元の対象データと、単語群Aは重ならないようにする。  A set W of words w to be added when Σ of score (D) is added is both the original target data and the word group A. However, the original target data and the word group A should not overlap.

また、他の方法として、score(D)のΣの加算の際に足す。単語wの集合Wは、単語群Aのみとする。ただし、元の対象データと、単語群Aは重ならないようにする。   Another method is to add Σ of score (D). The set W of words w is only the word group A. However, the original target data and the word group A should not overlap.

ここでは roccio の式で複雑な方法をとったが、単純に、単語群Aの単語の出現回数の和が大きいものほど、単語群Aをより多く含む共起データとして取り出すようにしてもよいし、また、単語群Aの出現の異なりの大きいものほど、単語群Aをより多く含む共起データとして取り出すようにしてもよい。
以上の方法により、単語群Aを含む共起データを取り出すことができる。
Here, a complicated method is used with the roccio formula. However, as the sum of the number of occurrences of words in word group A is larger, it may be extracted as co-occurrence data including more word groups A. Also, the larger the difference in the appearance of the word group A, the more co-occurrence data including the word group A may be extracted.
The co-occurrence data including the word group A can be extracted by the above method.

(実施例2)
ルールベースを用いた実施例1に続いて、機械学習を用いた手法を実施例2として説明する。以下の実施例は本発明の請求項3等の技術に関する。
本実施例における関連データ間関係検出部(104)のさらに詳細な構成を図6に示す。ここでは教師データ入力部(1041)、解-素性対抽出部(1042)、機械学習処理部(1043)、関係判定部(1044)がそれぞれ設けられる。
(Example 2)
Following Example 1 using the rule base, a method using machine learning is described as Example 2. The following examples relate to the technique of claim 3 of the present invention.
A more detailed configuration of the related data relationship detection unit (104) in the present embodiment is shown in FIG. Here, a teacher data input unit (1041), a solution-feature pair extraction unit (1042), a machine learning processing unit (1043), and a relationship determination unit (1044) are provided.

機械学習の手法は公知の機械学習モジュールにおける学習過程と、それを用いた解の推定過程とが一体的に成り立つものである。本発明の実施において、学習過程は必ずしも必須ではなく外部記憶装置(13)には機械学習の結果形成された関連データ間関係規則(130)を備えておくだけでもよい。その場合には、関連データ間関係検出部(104)に必要なのは各機械学習手法に従って順序を判定する関係判定部(1044)だけである。   In the machine learning method, a learning process in a known machine learning module and a solution estimation process using the learning process are integrated. In the implementation of the present invention, the learning process is not necessarily required, and the external storage device (13) may be provided only with the relation rule (130) between related data formed as a result of machine learning. In that case, all that is necessary for the related data relationship detection unit (104) is the relationship determination unit (1044) that determines the order according to each machine learning method.

機械学習の手法は、様々なものが公知であるが、ここでは各手法を簡単に説明する。問題-解の組のセットを多く用意し、それで学習を行ない、どういう問題のときにどういう解になるかを学習し、その学習結果を利用して、新しい問題のときも解を推測できるようにする方法である(例えば、下記の非特許文献7〜非特許文献9参照)。   Various methods of machine learning are known, but each method will be briefly described here. Prepare a large set of problem-solution pairs so that you can learn, learn what kind of solution the problem will be, and use the learning results to guess the solution even for new problems (See, for example, Non-Patent Document 7 to Non-Patent Document 9 below).

村田真樹,機械学習に基づく言語処理,龍谷大学理工学部.招待講 演.2004.http://www2.nict.go.jp/x/x161/member/murata/ps/kougi-ml-siryou-new2.pdfMaki Murata, Language processing based on machine learning, Faculty of Science and Engineering, Ryukoku University. Invited lecture. 2004. http://www2.nict.go.jp/x/x161/member/murata/ps/kougi-ml-siryou-new2 .pdf サポートベクトルマシンを用いたテンス・アスペクト・モダリティの日英翻訳,村田真樹,馬青,内元清貴,井佐原均,電子情報通信学会言語理解とコミュニケーション研究会 NLC2000-78 ,2001年.Japanese-English translation of tense aspect modality using support vector machine, Maki Murata, Ma Aoi, Kiyotaka Uchimoto, Hitoshi Isahara, IEICE Language Understanding and Communication Study Group NLC2000-78, 2001. SENSEVAL2J辞書タスクでのCRLの取り組み,村田真樹,内山将夫,内元清貴,馬青,井佐原均,電子情報通信学会言語理解とコミュニケーション研究会 NLC2001-40 ,2001年.CRL in the SENSEVAL2J dictionary task, Masaki Murata, Masao Uchiyama, Kiyotaka Uchimoto, Mao Ai, Hitoshi Isahara, IEICE NLC2001-40, 2001.

どういう問題のときに、という、問題の状況を機械に伝える際に、素性(解析に用いる情報で問題を構成する各要素)が必要になる。問題を素性によって表現するのである。例えば、日本語文末表現の時制の推定の問題において、
問題:「彼が話す。」---解「現在」
が与えられた場合に、素性の一例は、「彼が話す。」「が話す。」「話す。」「す。」「。」となる。
In order to convey the problem situation to the machine, what kind of problem is required, features (elements constituting the problem with information used for analysis) are required. The problem is expressed by the feature. For example, in the problem of estimating the tense of Japanese sentence ending expressions,
Problem: "He speaks." --- Solution "Current"
Is given as an example, “He speaks.” “Speaks.” “Speaks.” “Su.” “.”.

すなわち、機械学習の手法は、素性の集合-解の組のセットを多く用意し、それで学習を行ない、どういう素性の集合のときにどういう解になるかを学習し、その学習結果を利用して、新しい問題のときもその問題から素性の集合を取り出し、その素性の場合の解を推測する方法である。   In other words, the machine learning method prepares many sets of feature set-solution pairs, learns with it, learns what kind of feature set the solution will be, and uses the learning results. This is a method of extracting a set of features from a new problem and inferring a solution in the case of the feature.

図6に示すようにCPU(10)において、関係判定部(1044)で処理する前段として、解-素性対抽出部(1042)と、機械学習処理部(1043)を備える。ここで機械学習処理は、図7のように分散したテキストデータをどのように分類するのか、その分類結果(解)を得る。
機械学習処理部(1043)における機械学習の手法として、例えば、k近傍法、シンプルベイズ法、決定リスト法、最大エントロピー法、サポートベクトルマシン法などの手法を用いる。
As shown in FIG. 6, the CPU (10) includes a solution-feature pair extraction unit (1042) and a machine learning processing unit (1043) as a pre-stage processed by the relationship determination unit (1044). Here, the machine learning process obtains a classification result (solution) as to how the distributed text data is classified as shown in FIG.
As a machine learning technique in the machine learning processing unit (1043), for example, a technique such as a k-nearest neighbor method, a simple Bayes method, a decision list method, a maximum entropy method, or a support vector machine method is used.

k近傍法は、最も類似する一つの事例のかわりに、最も類似するk個の事例を用いて、このk個の事例での多数決によって分類先(解)を求める手法である。kは、あらかじめ定める整数の数字であって、一般的に、1から9の間の奇数を用いる。   The k-nearest neighbor method is a method for obtaining a classification destination (solution) by using the k most similar cases instead of the most similar case, and by majority decision of the k cases. k is a predetermined integer number, and generally an odd number between 1 and 9 is used.

シンプルベイズ法は、ベイズの定理にもとづいて各分類になる確率を推定し、その確率値が最も大きい分類を求める分類先とする方法である。   The Simple Bayes method is a method of estimating the probability of each classification based on Bayes' theorem and determining the classification having the highest probability value as a classification destination.

シンプルベイズ法において、文脈bで分類aを出力する確率は、以下の数4で与えられる。   In the Simple Bayes method, the probability of outputting the classification a in the context b is given by the following formula 4.

Figure 0005099498
Figure 0005099498

Figure 0005099498
Figure 0005099498

ただし、ここで文脈bは、あらかじめ設定しておいた素性fj (∈F,1≦j≦k)の集合である。p(b)は、文脈bの出現確率である。ここで、分類aに非依存であって定数のために計算しない。P(a)(ここでPはpの上部にチルダ)とP(fi|a)は、それぞれ教師データから推定された確率であって、分類aの出現確率、分類aのときに素性fiを持つ確率を意味する。P(fi|a)として最尤推定を行って求めた値を用いると、しばしば値がゼロとなり、数5の値がゼロで分類先を決定することが困難な場合が生じる。そのため、スームージングを行う。ここでは、以下の数6を用いてスームージングを行ったものを用いる。 Here, the context b is a set of features f j (∈F, 1 ≦ j ≦ k) set in advance. p (b) is the appearance probability of context b. Here, it is independent of the classification a and is not calculated because it is a constant. P (a) (where P is a tilde at the top of p) and P (f i | a) are the probabilities estimated from the teacher data, respectively, and the probability f of class a, and the feature f for class a means the probability of having i . When the value obtained by performing maximum likelihood estimation as P (f i | a) is used, the value often becomes zero, and it may be difficult to determine the classification destination because the value of Equation 5 is zero. Therefore, smoothing is performed. Here, the smoothing using the following Equation 6 is used.

Figure 0005099498
Figure 0005099498

ただし、freq(fi,a)は、素性fiを持ちかつ分類がaである事例の個数、freq(a)は、分類がaである事例の個数を意味する。 Here, freq (f i , a) means the number of cases having the feature f i and the classification a, and freq (a) means the number of cases having the classification a.

決定リスト法は、素性と分類先の組とを規則とし、それらをあらかじめ定めた優先順序でリストに蓄えおき、検出する対象となる入力が与えられたときに、リストで優先順位の高いところから入力のデータと規則の素性とを比較し、素性が一致した規則の分類先をその入力の分類先とする方法である。   The decision list method uses features and combinations of classification destinations as rules, stores them in the list in a predetermined priority order, and when input to be detected is given, from the highest priority in the list This is a method in which input data is compared with the feature of the rule, and the classification destination of the rule having the same feature is set as the classification destination of the input.

決定リスト方法では、あらかじめ設定しておいた素性fj( ∈F,1≦j≦k)のうち、いずれか一つの素性のみを文脈として各分類の確率値を求める。ある文脈bで分類aを出力する確率は以下の数7によって与えられる。 In the decision list method, the probability value of each classification is obtained using only one of the features f j (εF, 1 ≦ j ≦ k) set in advance as a context. The probability of outputting classification a in a context b is given by

(数7)
p(a|b)=p(a|fmax )

ただし、fmax は以下の数8によって与えられる。
(Equation 7)
p (a | b) = p (a | fmax)

However, fmax is given by the following equation (8).

Figure 0005099498
Figure 0005099498

また、P(ai|fj)(ここでPはpの上部にチルダ)は、素性fjを文脈に持つ場合の分類aiの出現の割合である。 P (a i | f j ) (where P is a tilde at the top of p) is the rate of appearance of classification a i when feature f j is in the context.

最大エントロピー法は、あらかじめ設定しておいた素性fj (1≦j≦k)の集合をFとするとき、以下所定の条件式(数9)を満足しながらエントロピーを意味する数10を最大にするときの確率分布p(a,b)を求め、その確率分布にしたがって求まる各分類の確率のうち、最も大きい確率値を持つ分類を求める分類先とする方法である。 In the maximum entropy method, assuming that a set of preset features f j (1 ≦ j ≦ k) is F, a number 10 that represents entropy is maximized while satisfying a predetermined conditional expression (Equation 9) below. This is a method of obtaining a probability distribution p (a, b) for the classification and obtaining a classification having the largest probability value among the probabilities of the respective classifications determined according to the probability distribution.

Figure 0005099498
Figure 0005099498

Figure 0005099498
Figure 0005099498

ただし、A、Bは分類と文脈の集合を意味し、gj(a,b)は文脈bに素性fj があって、なおかつ分類がaの場合1となり、それ以外で0となる関数を意味する。また、P(ai|fj)(ここでPはpの上部にチルダ)は、既知データでの(a,b)の出現の割合を意味する。 However, A and B mean a set of classification and context, and g j (a, b) is a function that is 1 if the context b has a feature f j and the classification is a, and 0 otherwise means. P (a i | f j ) (where P is a tilde at the top of p) means the rate of appearance of (a, b) in the known data.

数9は、確率pと出力と素性の組の出現を意味する関数gをかけることで出力と素性の組の頻度の期待値を求めることになっており、右辺の既知データにおける期待値と、左辺の求める確率分布に基づいて計算される期待値が等しいことを制約として、エントロピー最大化( 確率分布の平滑化) を行なって、出力と文脈の確率分布を求めるものとなっている。最大エントロピー法の詳細については、以下の非特許文献10に記載されている。   Equation 9 is to obtain the expected value of the frequency of the output and feature pair by multiplying the probability p and the function g which means the appearance of the output and feature pair. With the constraint that the expected values calculated based on the probability distribution obtained on the left side are equal, entropy maximization (smoothing of the probability distribution) is performed to obtain the probability distribution of the output and the context. Details of the maximum entropy method are described in Non-Patent Document 10 below.

Eric Sven Ristad, Maximum Entropy Modelingfor Natural Language,(ACL/EACL Tutorial Program, Madrid, 1997Eric Sven Ristad, Maximum Entropy Modeling for Natural Language, (ACL / EACL Tutorial Program, Madrid, 1997

サポートベクトルマシン法は、空間を超平面で分割することにより、二つの分類からなるデータを分類する手法である。図8にサポートベクトルマシン法のマージン最大化の概念を示す。図8において、白丸は正例、黒丸は負例を意味し、実線は空間を分割する超平面を意味し、破線はマージン領域の境界を表す面を意味する。図8(A)は、正例と負例の間隔が狭い場合(スモールマージン)の概念図、図8(B)は、正例と負例の間隔が広い場合(ラージマージン)の概念図である。   The support vector machine method is a method of classifying data composed of two classifications by dividing a space by a hyperplane. FIG. 8 shows the concept of margin maximization in the support vector machine method. In FIG. 8, a white circle means a positive example, a black circle means a negative example, a solid line means a hyperplane that divides the space, and a broken line means a surface that represents the boundary of the margin area. FIG. 8A is a conceptual diagram when the interval between the positive example and the negative example is small (small margin), and FIG. 8B is a conceptual diagram when the interval between the positive example and the negative example is wide (large margin). is there.

このとき、二つの分類が正例と負例からなるものとすると、学習データにおける正例と負例の間隔(マージン) が大きいものほどオープンデータで誤った分類をする可能性が低いと考えられ、図8(B)に示すように、このマージンを最大にする超平面を求めそれを用いて分類を行なう。   At this time, if the two classifications consist of positive and negative examples, the larger the interval (margin) between the positive and negative examples in the learning data, the less likely it is to make an incorrect classification with open data. As shown in FIG. 8B, a hyperplane that maximizes this margin is obtained, and classification is performed using it.

基本的には上記のとおりであるが、通常、学習データにおいてマージンの内部領域に少数の事例が含まれてもよいとする手法の拡張や、超平面の線形の部分を非線型にする拡張(カーネル関数の導入) がなされたものが用いられる。   Basically, it is as described above, but usually, an extension of the method that a small number of cases may be included in the inner area of the margin in the training data, or an extension that makes the linear part of the hyperplane nonlinear ( The one with the introduction of the kernel function is used.

この拡張された方法は、以下の識別関数(数11)を用いて分類することと等価であり、その識別関数の出力値が正か負かによって二つの分類を判別することができる。   This extended method is equivalent to classification using the following discriminant function (Equation 11), and the two classes can be discriminated depending on whether the output value of the discriminant function is positive or negative.

Figure 0005099498
Figure 0005099498

ただし、xは識別したい事例の文脈(素性の集合) を、xiとyj (i=1,...,l,yj∈{1,-1})は学習データの文脈と分類先を意味し、関数sgnは、
sgn(x)=1(x≧0)
-1(otherwise )
であり、また、各αiは数13と数14の制約のもと数12を最大にする場合のものである。
Where x is the context (set of features) to be identified, and x i and y j (i = 1, ..., l, y j ∈ {1, -1}) are the context of the learning data and the classification destination Means the function sgn
sgn (x) = 1 (x ≧ 0)
-1 (otherwise)
Further, each α i is for the case where the number 12 is maximized under the constraints of the numbers 13 and 14.

Figure 0005099498
Figure 0005099498

Figure 0005099498
Figure 0005099498

Figure 0005099498
Figure 0005099498

また、関数Kはカーネル関数と呼ばれ、様々なものが用いられるが、本形態では以下の多項式のものを用いる。   The function K is called a kernel function, and various functions are used. In this embodiment, the following polynomial is used.

(数15)
K(x,y)=(x・y+1)d

C、dは実験的に設定される定数である。例えば、Cはすべての処理を通して1に固定した。また、dは、1と2の二種類を試している。ここで、αi>0となるxi は、サポートベクトルと呼ばれ、通常、数8の和をとっている部分は、この事例のみを用いて計算される。つまり、実際の解析には学習データのうちサポートベクトルと呼ばれる事例のみしか用いられない。
(Equation 15)
K (x, y) = (x ・ y + 1) d

C and d are constants set experimentally. For example, C was fixed at 1 throughout all treatments. Moreover, d is trying two kinds of 1 and 2. Here, x i satisfying α i > 0 is called a support vector, and the portion taking the sum of Expression 8 is usually calculated using only this case. That is, only actual cases called support vectors are used for actual analysis.

なお、拡張されたサポートベクトルマシン法の詳細については、以下の非特許文献11および非特許文献12に記載されている。   Details of the extended support vector machine method are described in Non-Patent Document 11 and Non-Patent Document 12 below.

Nello Cristianini and John Shawe-Taylor, AnIntroduction to Support Vector Machines and other kernel-based learningmethods,(Cambridge University Press,2000)Nello Cristianini and John Shawe-Taylor, An Introduction to Support Vector Machines and other kernel-based learningmethods, (Cambridge University Press, 2000) Taku Kudoh, Tinysvm:Support Vectormachines,(http://chasen.org/~taku/software/TinySVM/,2002年)Taku Kudoh, Tinysvm: Support Vectormachines, (http://chasen.org/~taku/software/TinySVM/, 2002)

サポートベクトルマシン法は、分類の数が2個のデータを扱うものである。したがって、分類の数が3個以上の事例を扱う場合には、通常、これにペアワイズ法またはワンVSレスト法などの手法を組み合わせて用いることになる。   The support vector machine method handles data with two classifications. Therefore, when dealing with cases where the number of classifications is 3 or more, usually, a method such as the pair-wise method or the one-VS rest method is used in combination.

ペアワイズ法は、n個の分類を持つデータの場合に、異なる二つの分類先のあらゆるペア(n(n-1)/2個)を生成し、各ペアごとにどちらがよいかを二値分類器、すなわちサポートベクトルマシン法処理モジュールで求めて、最終的に、n(n-1)/2個の二値分類による分類先の多数決によって、分類先を求める方法である。   The pairwise method generates all pairs (n (n-1) / 2) of two different classification destinations in the case of data having n classifications, and the binary classifier determines which is better for each pair. In other words, it is a method of obtaining a classification destination by a majority decision of classification destinations based on n (n-1) / 2 binary classifications, which is obtained by a support vector machine method processing module.

ワンVSレスト法は、例えば、a、b、cという三つの分類先があるときは、分類先aとその他、分類先bとその他、分類先cとその他、という三つの組を生成し、それぞれの組についてサポートベクトルマシン法で学習処理する。そして、学習結果による推定処理において、その三つの組のサポートベクトルマシンの学習結果を利用する。推定するべき候補が、その三つのサポートベクトルマシンではどのように推定されるかを見て、その三つのサポートベクトルマシンのうち、その他でないほうの分類先であって、かつサポートベクトルマシンの分離平面から最も離れた場合のものの分類先を求める解とする方法である。例えば、ある候補が、「分類先aとその他」の組の学習処理で作成したサポートベクトルマシンにおいて分離平面から最も離れた場合には、その候補の分類先は、aと推定する。   For example, when there are three classification destinations, a, b, and c, the one-VS rest method generates three sets of classification destination a and other, classification destination b and other, classification destination c and other, The learning process is performed on the set of the support vector machine method. Then, in the estimation process based on the learning result, the learning results of the three sets of support vector machines are used. See how the three support vector machines are estimated as candidates to be estimated. Of the three support vector machines, it is the non-other classification target and the separation plane of the support vector machine. This is a method for obtaining a classification destination of a thing farthest from the object. For example, when a candidate is farthest from the separation plane in the support vector machine created by the learning process of “classification destination a and others”, the candidate classification destination is estimated as a.

以上のように機械学習の手法は様々であるが、本発明はそのいずれも関連データ間関係検出部(104)に利用することができる。すなわち、関連データ間の関係、例えば2つの関連データを連続して入力した時に、その順序が正しければ1、正しくなければ0という解、さらにその確からしさを解として求めることができる。   As described above, there are various machine learning techniques, but any of the present invention can be used for the related data relationship detection unit (104). That is, when relations between related data, for example, two related data are successively input, a solution of 1 is obtained if the order is correct, 0 if the order is not correct, and the probability thereof can be obtained as a solution.

学習の際には教師データ入力部(1041)が予め用意してある教師データを入力する。教師データは、外部記憶装置等に格納しておけばよい。教師データには、予め前後の分かっている2つの関連データが含まれており、解としては例えば含まれている順序が正しければ1、含まれている順序と正解が逆のときには0と考えればよい。この解の定め方は機械学習方法や必要となる結果に応じて適宜設計することができる。
その上で、上記した機械学習方法のいずれかによって解の求め方は次のように異なる。
In learning, the teacher data input unit (1041) inputs teacher data prepared in advance. The teacher data may be stored in an external storage device or the like. The teacher data includes two related data that are known in advance, and the solution is, for example, 1 if the included order is correct, and 0 if the included order and the correct answer are opposite. Good. The method of determining this solution can be appropriately designed according to the machine learning method and the required result.
In addition, the method of obtaining a solution differs as follows depending on any of the machine learning methods described above.

例えば、本発明の実施の形態において、機械学習処理部(1043)が、機械学習の手法としてk近傍法を用いる場合、機械学習処理部(1043)は、教師データ入力部(1041)で入力した教師データから抽出された素性の集合のうち重複する素性の割合(同じ素性をいくつ持っているかの割合)にもとづく事例同士の類似度を定義して、前記定義した類似度と事例とを学習結果情報として関連データ間関係規則(130)に記憶しておく。   For example, in the embodiment of the present invention, when the machine learning processing unit (1043) uses the k-nearest neighbor method as a machine learning method, the machine learning processing unit (1043) is input by the teacher data input unit (1041). Define the similarity between cases based on the ratio of overlapping features (the ratio of how many of the same features) in the set of features extracted from the teacher data, and learn the similarities and cases defined above Information is stored in the relation rule (130) between related data.

そして、関係判定部(1044)は、関連データ共起ファイル(231)から解-素性対抽出部(1042)が抽出したデータについて、関連データ間関係規則(130)において定義された前後関係の正誤の確率と、素性とを参照して、そのデータが正解である可能性が高い順にk個の素性を関連データ間関係規則(130)の事例から選択し、選択したk個の素性での多数決によって正しいか否かという分類先を、解として推定する。   The relationship determination unit (1044) then determines whether the data extracted by the solution-feature pair extraction unit (1042) from the related data co-occurrence file (231) is the correctness of the context defined in the related data relationship rule (130). The k features are selected from the cases of the related data relation rule (130) in descending order of the probability that the data is correct, and the majority of the selected k features is determined. The classification destination of whether or not it is correct is estimated as a solution.

すなわち、関係判定部(1044)では、抽出された各データに対して、どのような解(分類先)になりやすいかの度合いを、選択したk個の素性での多数決の票数、ここでは「正しい(関連データ共起ファイル内の関連データの序列が正しい順序である)」という分類が獲得した票数とする。この票数が過半数以下であれば、逆に出現順と逆が正しいことになる。   That is, in the relationship determination unit (1044), the degree of what kind of solution (classification destination) is likely to be obtained for each piece of extracted data is determined by the number of votes of majority vote with the selected k features, The number of votes acquired by the classification “correct (the order of related data in the related data co-occurrence file is in the correct order)”. If the number of votes is less than a majority, the order of appearance and the reverse are correct.

また、機械学習手法として、シンプルベイズ法を用いる場合には、機械学習処理部(1043)は、教師データの事例について、前記事例の解と素性の集合との組を学習結果情報として関連データ間関係規則(130)に記憶する。   When the simple Bayes method is used as the machine learning method, the machine learning processing unit (1043) uses a combination of a solution of the case and a set of features as learning result information for the case of the teacher data. Store in the relation rule (130).

そして、関係判定部(1044)は、関連データ共起ファイル抽出部(103)が関連データ共起ファイル(231)を抽出したときに、関連データ間関係規則(130)の学習結果情報の解と素性の集合との組をもとに、ベイズの定理にもとづいて解-素性対抽出部(1042)で取得した素性の集合について、出現順が正解か否かに係わる各分類になる確率を算出して、その確率の値が最も大きい分類を、そのデータについての素性の分類(解)と推定する。   Then, when the related data co-occurrence file extraction unit (103) extracts the related data co-occurrence file (231), the relationship determination unit (1044) determines the solution of the learning result information of the related data inter-relationship rule (130). Based on the pair with the feature set, the probability of being classified into each category related to whether the appearance order is correct or not is calculated for the feature set obtained by the solution-feature pair extraction unit (1042) based on Bayes' theorem Then, the classification having the largest probability value is estimated as the classification (solution) of the feature for the data.

すなわち、関係判定部(1044)では、抽出されたデータについての素性の集合の場合にある解となりやすさの度合いを、各分類になる確率、ここでは「出現順が正しい」という分類になる確率とする。   In other words, in the relationship determination unit (1044), the probability of becoming a certain solution in the case of a set of features about the extracted data is set as the probability of being classified into each category, here the probability of being classified as “appearance order is correct”. And

機械学習手法として決定リスト法を用いる場合には、機械学習処理部(1043)は、教師データの事例について、素性と分類先との規則を所定の優先順序で並べたリストを関連データ間関係規則(130)に記憶する。そして、関連データ共起ファイル抽出部(103)が関連データ共起ファイル(231)を抽出したときに、関係判定部(1044)は、関連データ間関係規則(130)のリストの優先順位の高い順に、抽出された表現対の候補の素性と規則の素性とを比較し、素性が一致した規則の分類先をその候補の分類先(解)として推定する。   When the decision list method is used as the machine learning method, the machine learning processing unit (1043) sets a list of rules of features and classification destinations in a predetermined priority order for the example of the teacher data, and the related data relationship rule (130). Then, when the related data co-occurrence file extraction unit (103) extracts the related data co-occurrence file (231), the relationship determination unit (1044) has a higher priority in the list of the relationship rules between related data (130). In order, the feature of the extracted expression pair candidate and the rule feature are compared, and the classification destination of the rule having the same feature is estimated as the candidate classification destination (solution).

すなわち、関係判定部(1044)では、抽出されたデータについてその素性の集合の場合にある解となりやすさの度合いを、所定の優先順位またはそれに相当する数値、尺度、ここでは「出現順が正しい」という分類になる確率のリストにおける優先順位とする。   In other words, the relationship determination unit (1044) determines the degree of likelihood of being a solution in the case of a set of features of the extracted data by using a predetermined priority order or a numerical value or scale corresponding thereto, in this case, “appearance order is correct. ”In the list of probabilities of classification.

また、機械学習手法として最大エントロピー法を使用する場合には、機械学習処理部(1043)は、教師データの事例から解となりうる分類を特定し、所定の条件式を満足しかつエントロピーを示す式を最大にするときの素性の集合と解となりうる分類の二項からなる確率分布を求めて関連データ間関係規則(130)に記憶する。そして、関連データ共起ファイル抽出部(103)が関連データ共起ファイル(231)を抽出したときに、関係判定部(1044)は、関連データ間関係規則(130)の確率分布を利用して、抽出されたファイルについてその素性の集合についてその解となりうる分類の確率を求めて、最も大きい確率値を持つ解となりうる分類を特定し、その特定した分類をその候補の解と推定する。すなわち、関係判定部(1044)では、抽出されたデータについてその素性の集合の場合にある解となりやすさの度合いを、各分類になる確率、ここでは「出現順が正しい」という分類になる確率とする。   When the maximum entropy method is used as the machine learning method, the machine learning processing unit (1043) specifies a class that can be a solution from the example of the teacher data, satisfies the predetermined conditional expression, and indicates the entropy. A probability distribution consisting of a set of features when maximizing and a binomial classification that can be a solution is obtained and stored in the relation rule (130) between related data. When the related data co-occurrence file extraction unit (103) extracts the related data co-occurrence file (231), the relationship determination unit (1044) uses the probability distribution of the relationship rule between related data (130). Then, the probability of a classification that can be a solution for the set of features of the extracted file is obtained, a classification that can be a solution having the largest probability value is specified, and the specified classification is estimated as a candidate solution. That is, in the relationship determination unit (1044), the probability of becoming a certain solution in the case of the set of features of the extracted data is set as the probability of being classified into each category, in this case, the probability of being classified as “appearance order is correct”. And

機械学習手法としてサポートベクトルマシン法を使用する場合には、機械学習処理部(1043)は、教師データの事例から解となりうる分類を特定し、分類を正例と負例に分割して、カーネル関数を用いた所定の実行関数にしたがって事例の素性の集合を次元とする空間上で、その事例の正例と負例の間隔を最大にし、かつ正例と負例を超平面で分割する超平面を求めて関連データ間関係規則(130)に記憶する。
本実施例の関連データ間関係規則(130)は請求項3等の機械学習を用いた方法で共通に用いることの出来る関連データ間関係規則の一例である。
When the support vector machine method is used as the machine learning method, the machine learning processing unit (1043) identifies a class that can be a solution from the example of the teacher data, divides the class into a positive example and a negative example, In a space whose dimension is a set of case features according to a predetermined execution function using a function, the interval between the positive example and the negative example of the case is maximized, and the positive example and the negative example are divided by a hyperplane. A plane is obtained and stored in the relation rule (130) between related data.
The related data relationship rule (130) of the present embodiment is an example of a related data relationship rule that can be commonly used in the method using machine learning according to claim 3 or the like.

そして関連データ共起ファイル抽出部(103)が関連データ共起ファイル(231)を抽出したときに、関係判定部(1044)は、関連データ間関係規則(130)の超平面を利用して、抽出されたデータについての素性の集合が超平面で分割された空間において正例側か負例側のどちらにあるかを特定し、その特定された結果にもとづいて定まる分類を、その候補の解と推定する。   When the related data co-occurrence file extraction unit (103) extracts the related data co-occurrence file (231), the relationship determination unit (1044) uses the hyperplane of the relationship rule between related data (130), Identify whether the feature set for the extracted data is on the positive side or the negative side in the space divided by the hyperplane, and determine the classification determined based on the identified result as the candidate solution. Estimated.

すなわち、関係判定部(1044)では、抽出されたデータについてその素性の集合の場合にある解となりやすさの度合いを、分離平面からの正例(出現順が正しいデータ)の空間への距離の大きさとする。より詳しくは、出現順が正しいデータを正例、風評情報ではないデータを負例とする場合に、分離平面に対して正例側の空間に位置するデータが「出現順が正しいデータ」と判断され、その事例の分離平面からの距離をそのデータの出現順が正しい度合いとする。   That is, in the relationship determination unit (1044), the degree of the likelihood of becoming a solution in the case of the set of features of the extracted data is determined by the distance from the separation plane to the space of the positive example (data in which the appearance order is correct). Magnitude. More specifically, when the data in which the order of appearance is correct is a positive example and the data that is not reputation information is a negative example, the data located in the space on the positive example side with respect to the separation plane is determined as “data in which the order of appearance is correct”. Then, the distance from the separation plane of the case is set to a degree in which the appearance order of the data is correct.

さらに、本発明では機械学習の手法として、公知のニューラルネットワークによる方法、重回帰分析による方法を用いることもできる。
例えば、求める分類が2種類であれば重回帰分析を利用することができる。重回帰分析をコンピュータ上で実行する方法については、非特許文献13に詳しい。
Furthermore, in the present invention, a method using a known neural network or a method using multiple regression analysis can be used as a machine learning method.
For example, if there are two types of classification to be obtained, multiple regression analysis can be used. The method of executing multiple regression analysis on a computer is detailed in Non-Patent Document 13.

「Excelで学ぶ時系列分析と予測」3章,オーム社"Time series analysis and forecasting with Excel", Chapter 3, Ohm

重回帰分析の場合は、素性の数だけ説明変数xを用意し、素性のありなしを、その説明変数xの値を1,0で表現する。目的変数(被説明変数)は、ある分類の場合を値1、他の分類の場合を値0として求めればよい。   In the case of multiple regression analysis, as many explanatory variables x as the number of features are prepared, and the presence or absence of the features is represented by 1,0 as the value of the explanatory variable x. The objective variable (explained variable) may be obtained with a value of 1 for a certain classification and a value of 0 for another classification.

以上に説述した通り、本発明は公知の任意の機械学習手法を備えた機械学習モジュールを用いることで、関連データ間関係規則(130)を生成した上で、関係判定部(1044)が、出現順が正解か否かを的確に判定する。
出現順が正解か否かは、上述したように機械学習手法によって「出現順が正しい」「出現順と正しい順序は逆である」のいずれかで出力される場合もあるし、「出現順が正しい確率」が出力される場合もある。「出現順が正しい確率」が大きな順にその確率と共に出力されてもよい。また、確率を示すための書式、例えば、文字色や文字サイズ、あるいは確率を示すマークなどと共に出力されてもよい。
As described above, the present invention uses a machine learning module having any known machine learning method to generate a relational rule (130) between related data, and then the relation determination unit (1044) It is accurately determined whether or not the order of appearance is correct.
Whether or not the appearance order is correct may be output as either “appearance order is correct” or “appearance order and correct order are opposite” by the machine learning method as described above. In some cases, the “correct probability” is output. The “probability of appearance order” may be output together with the probabilities in descending order. Further, it may be output together with a format for indicating the probability, for example, a character color, a character size, or a mark indicating the probability.

本実施例において、ルールベースに基づく方法や機械学習を用いる方法のいずれにおいても、確率が最も高いものや、高い方から順に所定の個数を取り出すことができる。また、ある閾値を設定して、その閾値以上のものを抽出することもできる。所定の閾値以上のもので、かつ確率が高い方から所定の個数だけを抽出してもよい。このようにデータをどのような基準で抽出するかは本発明において任意である。
閾値や所定の個数は予め本装置に備えて固定してもよいし、ユーザが変更できるようにしてもよい。
In the present embodiment, a predetermined number can be extracted in order from the one with the highest probability or the highest one in either the rule-based method or the method using machine learning. It is also possible to set a certain threshold value and extract a value exceeding the threshold value. Only a predetermined number may be extracted from those having a predetermined probability or higher and a higher probability. In this way, the criteria for extracting data in this way are arbitrary.
The threshold value and the predetermined number may be fixed in advance in the apparatus, or may be changed by the user.

本発明では、素性として2つの関連データの出現位置を用いることができる。ここでいう出現位置とは絶対的な位置の他、2つの関連データの相対的な位置も含まれる。絶対的な出現位置とは、例えばファイル内の関連データが始まる文字数、行、列などである。相対的な位置とは、どちらが前後にあるかの他、何文字前(後)にあるかを示す文字数などである。   In the present invention, the appearance positions of two related data can be used as features. The appearance position here includes not only an absolute position but also a relative position of two related data. The absolute appearance position is, for example, the number of characters, the line, the column, etc., where the related data in the file starts. The relative position includes, for example, the number of characters indicating the number of characters before (after), as well as which is before and after.

素性としては、関連データと同時に含まれる文字列を用いることもできる。例えば前述のルールベースで示したような「新住所」「旧住所」などの文字列が含まれているか、あるいは何が含まれているかを素性とすることができる。
また、逆に含まれていない、ということも素性にすることができる。すなわち文字列「変更」や「移転」が含まれていないことは、その関連データ共起ファイルにおいてそもそも関連データ間の前後関係を示していない可能性を示唆するものであり、それによって確率を算出する素性として用いることができる。
As a feature, a character string included simultaneously with related data can be used. For example, whether or not a character string such as “new address” and “old address” as shown in the rule base is included or what is included can be used as a feature.
Moreover, it can also be made into the feature that it is not contained conversely. In other words, the fact that the character string “change” or “transfer” is not included suggests that the related data co-occurrence file may not indicate the context between related data in the first place, and the probability is calculated accordingly. It can be used as a feature to do.

同時に含まれる文字列は、関連データの一部の文字列であってもよい。例えば、教師用関連データの一部に、古いビル名と新しいビル名が含まれているような場合、それらの文字列を素性としておくことで、新しいビル名が後のデータであることの検出に寄与する。市町村合併などによる住居表示変更の場合にも同様に検出することができる。   The character string included at the same time may be a partial character string of the related data. For example, if part of the teacher-related data includes an old building name and a new building name, it is possible to detect that the new building name is later data by using those character strings as features. Contribute to. It can be detected in the same way when the housing display is changed due to a merger of municipalities.

タグ情報を素性としてもよい。上述した構成と同様に、関連データの表の枠線のタグや、フォントを設定するタグなどを素性とすることができる。
これらは単独で用いるだけでなく、組み合わせて素性とすることができる。例えば、図4のような表において、「旧住所」「新住所」という同時に含まれる文字列と、それぞれの直下に各関連データが配置されているというタグ情報、さらに第1関連データ(24c)が前で、第2関連データ(25c)がその直後という相対的位置関係をすべて素性とすることができる。
Tag information may be used as a feature. Similar to the configuration described above, a tag of a border line of a table of related data, a tag for setting a font, or the like can be used as a feature.
These can be used not only alone but also in combination. For example, in the table as shown in FIG. 4, a character string that is simultaneously included as “old address” and “new address”, tag information that each related data is arranged immediately below each, and first related data (24c) The relative positional relationship that the second related data (25c) is immediately after it can be used as the feature.

本発明の関連データ抽出部(102)において特徴的な関連データを効率よく抽出するために、固有表現の抽出技術を用いてもよい。すなわち、本発明のCPU(10)に図示しない判定対象名詞抽出部を備えて、第1コンテンツファイル(20)、第2コンテンツファイル(21)からそれぞれ固有表現を抽出する。以下簡単に説明する。   In order to efficiently extract characteristic related data in the related data extraction unit (102) of the present invention, a technique for extracting a specific expression may be used. In other words, the CPU (10) of the present invention includes a determination target noun extraction unit (not shown), and extracts specific expressions from the first content file (20) and the second content file (21), respectively. This will be briefly described below.

(1)固有表現抽出のために機械学習を用いる手法
機械学習を用いて固有表現を抽出する手法がある(例えば、以下の非特許文献14参照)。
(1) A method using machine learning to extract proper expressions
There is a method of extracting a specific expression using machine learning (see, for example, Non-Patent Document 14 below).

浅原正幸,松本裕治,日本語固有表現抽出における冗長的な形態素解析の利用情報処理学会自然言語処理研究会 NL153-7 2002年Masayuki Asahara, Yuji Matsumoto, Utilization of Redundant Morphological Analysis in Japanese Named Expression Extraction Information Processing Society of Japan Natural Language Processing Study Group NL153-7 2002

まず、例えば、「日本の首相は小泉さんです。」という文を、各文字に分割し、分割した文字について、以下のように、 B-LOCATION、 I-LOCATION等の正解タグを付与することによって、正解を設定する。以下の一列目は、分割された各文字であり、各文字の正解タグは二列目である。

日 B-LOCATION
本 I-LOCATION
の O
首 O
相 O
は O
小 B-PERSON
泉 I-PERSON
さ O
ん O
で O
す O
。 O

上記において、B-???は、ハイフン以下の固有表現の種類の始まりを意味するタグである。例えば、B-LOCATIONは、地名という固有表現の始まりを意味しており、B-PERSONは、人名という固有表現の始まりを意味している。また、I-???は、ハイフン以下の固有表現の種類の始まり以外を意味するタグであり、O はこれら以外である。従って、例えば、文字「日」は、地名という固有表現の始まりに該当する文字であり、文字「本」までが地名という固有表現である。
First, for example, the sentence “Japan's prime minister is Mr. Koizumi” is divided into each character, and the correct characters such as B-LOCATION and I-LOCATION are assigned to the divided characters as follows: Set the correct answer. The first column below is each divided character, and the correct tag of each character is the second column.

Day B-LOCATION
I-LOCATION
O
Neck O
Phase O
Is O
Small B-PERSON
Izumi I-PERSON
O
N
At O
O
. O

In the above, B-??? is a tag that means the beginning of the type of proper expression below the hyphen. For example, B-LOCATION means the beginning of a unique expression called place name, and B-PERSON means the beginning of a unique expression called person name. Also, I-??? is a tag that means other than the beginning of the type of proper expression below the hyphen, and O is other than these. Therefore, for example, the character “day” is a character that corresponds to the beginning of the unique name “place name”, and the character “book” is the unique name “place name”.

このように、各文字の正解を設定しておき、このようなデータから学習し、新しいデータでこの正解を推定し、この正解のタグから、各固有表現の始まりと、どこまでがその固有表現かを認識して、固有表現を推定する。   In this way, the correct answer of each character is set, learned from such data, this correct answer is estimated with new data, and from this correct answer tag, the beginning of each proper expression and how far it is. Is recognized and the proper expression is estimated.

この各文字に設定された正解のデータから学習するときには、システムによってさまざまな情報を素性という形で利用する。例えば、
日 B-LOCATION
の部分は、
日本-B 名詞-B
などの情報を用いる。日本-B は、日本という単語の先頭を意味し、名詞-Bは、名詞の先頭を意味する。単語や品詞の認定には、例えば前述したChasenによる形態素解析を用いる。上述したChasenは各単語の品詞も推定することができるので、「学校へ行く」を入力すると以下の結果を得る。
When learning from the correct data set for each character, the system uses various information in the form of features. For example,
Day B-LOCATION
Part of
Japan-B Noun-B
Such information is used. Japan-B means the beginning of the word Japan, and noun-B means the beginning of the noun. For the recognition of words and parts of speech, for example, the morphological analysis by Chasen described above is used. The above-mentioned Chasen can also estimate the part of speech of each word, so if you enter "go to school" you get the following results.

学校 ガッコウ 学校 名詞-一般
へ ヘ へ 助詞-格助詞-一般
行く イク 行く 動詞-自立 五段・カ行促音便 基本形
EOS
このように各行に一個の単語が入るように分割され、各単語に読みや品詞の情報が付与される。
School Gakkou School Noun-General
To He To Particle-Case particle-General
Go Iku Go Verb-Independence
EOS
In this way, each line is divided so that one word is included, and reading and part-of-speech information are given to each word.

なお、例えば、上記の非特許文献14では、素性として、入力文を構成する文字の、文字自体(例えば、「小」という文字)、字種(例えば、ひらがなやカタカナ等)、品詞情報、タグ情報(例えば、「B-PERSON」等)を利用している。   For example, in the non-patent document 14 described above, as features, the characters constituting the input sentence itself (for example, “small”), character type (for example, hiragana, katakana, etc.), part of speech information, tag Information (for example, “B-PERSON” etc.) is used.

これら素性を利用して学習する。タグを推定する文字やその周辺の文字にどういう素性が出現するかを調べ、どういう素性が出現しているときにどういうタグになりやすいかを学習し、その学習結果を利用して新しいデータでのタグの推定を行なう。機械学習には、例えばサポートベクトルマシンを用いる。  Learning using these features. Investigate what features appear in the characters that estimate the tag and the surrounding characters, learn what features are likely to appear when the features appear, and use the learning results to create new data Perform tag estimation. For machine learning, for example, a support vector machine is used.

固有表現抽出には、上記の手法の他にも種々の手法がある。例えば、最大エントロピーモデルと書き換え規則を用いて固有表現を抽出する手法がある(非特許文献15参照)。   In addition to the above-described method, there are various methods for extracting the proper expression. For example, there is a method of extracting a specific expression using a maximum entropy model and a rewrite rule (see Non-Patent Document 15).

内元清貴,馬青,村田真樹,小作浩美,内山将夫,井佐原均,最大エ ントロピーモデルと書き換え規則に基づく固有表現抽出,言語処理学会誌, Vol.7, No.2, 2000年Uchimoto Kiyotaka, Ma Aoi, Murata Maki, Osaku Hiromi, Uchiyama Masao, Isahara Hitoshi, Entity Expression Extraction Based on Maximum Entropy Model and Rewriting Rules, Journal of the Language Processing Society, Vol. 7, No. 2, 2000

また、例えば、以下の非特許文献16に、サポートベクトルマシンを用いて日本語固有
表現抽出を行う手法について記載されている。
Also, for example, the following non-patent document 16 uses a support vector machine to
It describes a technique for extracting expressions.

山田寛康,工藤拓,松本裕治,SupportVector Machineを用いた日本語固有表現抽出,情報処理学会論文誌, Vol.43, No.1", 2002年Hiroyasu Yamada, Taku Kudo, Yuji Matsumoto, Japanese Named Expression Extraction Using SupportVector Machine, Transactions of Information Processing Society of Japan, Vol.43, No.1 ", 2002

(2)作成したルールを用いる手法
人手でルールを作って固有表現を取り出すという方法もある。
例えば、
名詞+「さん」だと人名とする
名詞+「首相」だと人名とする
名詞+「株式会社」だと企業名とする
名詞+「町」だと地名とする
名詞+「市」だと地名とする
などである。
(2) Method using created rules
There is also a method of extracting a specific expression by manually creating a rule.
For example,
A noun + “san” means a person
Name as noun + "Prime Minister"
Noun + “corporation” means company name + “town” means place name
For example, a noun + “city” is a place name.

以上の方法によって固有表現を抽出し、抽出された表現のうち、例えば人名や企業名などを解-素性対抽出部(1042)において抽出することができる。   A specific expression is extracted by the above method, and, for example, a person name or a company name can be extracted from the extracted expressions by the solution feature pair extraction unit (1042).

このように固有表現だけを関連データとして抽出することで、前後関係を検出する必要のない関連データを抽出することを防止でき、特に対象データにとって重要な関連データについて本発明の順序の検出を行うことができる。   By extracting only the specific expression as related data in this way, it is possible to prevent the extraction of related data that does not need to detect the context, and the order of the present invention is detected particularly for related data that is important for the target data. be able to.

(実施例3)
本発明は、関連データからその前後を検出する上記の方法に限らず、関連データと共起する共起データから前後を検出する方法を提供することもできる。以下、請求項5ないし8等に記載の本発明の実施例について説述する。
図9は本実施例に係るデータ処理装置(1’)の構成図である。上記実施例1と同一の構成部については同一符号を付し、説明を省略する。
(Example 3)
The present invention is not limited to the above-described method of detecting the front and back of the related data, but can also provide a method of detecting the front and rear from the co-occurrence data co-occurring with the related data. Examples of the present invention described in claims 5 to 8 will be described below.
FIG. 9 is a configuration diagram of the data processing apparatus (1 ′) according to the present embodiment. The same components as those in the first embodiment are denoted by the same reference numerals, and description thereof is omitted.

CPU(10)には入力部(106)、関連データ抽出部(107)、共起データ抽出部(108)、共起データ間関係検出部(109)、出力部(105)が設けられている。本構成により図10に示す処理を実行する。   The CPU (10) includes an input unit (106), a related data extraction unit (107), a co-occurrence data extraction unit (108), a co-occurrence data relationship detection unit (109), and an output unit (105). . The processing shown in FIG. 10 is executed with this configuration.

まず、入力部(106)が外部記憶装置(3)あるいはインターネット、LAN(Local Area Network)等のサーバ上からネットワークアダプタ(40)を介して第1コンテンツファイル(20)及び第2コンテンツファイル(21)を取得し、CPU(10)内に取り込む処理を行う。   First, the input unit (106) is connected to the first content file (20) and the second content file (21) from the external storage device (3) or a server such as the Internet or a LAN (Local Area Network) via the network adapter (40). ) Is acquired and taken into the CPU (10).

請求項5に記載の関連データ抽出手段である関連データ抽出部(107)では、予め定義してある対象データ(22)と関連する関連データを異なるファイルである各コンテンツファイル(20)(21)から抽出する。(関連データ抽出ステップ:S10) 本処理は実施例1と同様である。コンテンツファイルは同一のファイルでもよい。   In the related data extracting unit (107) as the related data extracting means according to claim 5, each content file (20) (21) which is a file different from the related data related to the target data (22) defined in advance. Extract from (Related Data Extraction Step: S10) This process is the same as in the first embodiment. The content file may be the same file.

そして共起データ抽出手段である共起データ抽出部(108)において、第1コンテンツファイル(20)やコンテンツデータ(23)から、第1関連データ(24)と共起している単数又は複数の文字列である第1共起データ(30)、第2コンテンツファイル(21)やコンテンツデータ(23)から、第2関連データ(25)と共起している単数又は複数の文字列である第2共起データ(31)を抽出する。(共起データ抽出ステップ:S20)   In the co-occurrence data extraction unit (108), which is a co-occurrence data extraction means, one or a plurality of co-occurrence with the first related data (24) from the first content file (20) or the content data (23). From the first co-occurrence data (30), the second content file (21) and the content data (23) which are character strings, the first or plural character strings which co-occur with the second related data (25). 2 Co-occurrence data (31) is extracted. (Co-occurrence data extraction step: S20)

なお、別実施例として請求項6等に記載のように、図示しない共起データ共起ファイル抽出ステップを、上記共起データ抽出ステップ(S20)の直後に設けて、第1共起データと第2共起データとが共起する共起データ共起ファイルを抽出してもよい。
抽出された共起データや共起データ共起ファイルから共起データ間関係検出手段である共起データ間関係検出部(109)が共起データ間関係規則(131)を参照して、第1共起データ(30)と第2共起データ(31)の順序を検出する。(共起データ間関係検出ステップ:S21)
As another embodiment, as described in claim 6 and the like, a co-occurrence data co-occurrence file extraction step (not shown) is provided immediately after the co-occurrence data extraction step (S20). A co-occurrence data co-occurrence file in which two co-occurrence data co-occur may be extracted.
From the extracted co-occurrence data and co-occurrence data co-occurrence file, the co-occurrence data inter-relationship detection unit (109), which is a co-occurrence data inter-relationship detection means, refers to the co-occurrence data inter-relationship rule (131) and The order of the co-occurrence data (30) and the second co-occurrence data (31) is detected. (Co-occurrence data relationship detection step: S21)

本実施例では、関連データ間関係検出ステップ(S12)に代わって共起データ間関係検出を行っているが、関連データについて行う場合と全く同様に共起データについて処理すればよい。共起データ間関係規則(131)についても関連データ間関係規則(130)と異なるところはない。   In this embodiment, the co-occurrence data relationship detection is performed instead of the related data relationship detection step (S12). However, the co-occurrence data may be processed in the same manner as the case of the related data. The co-occurrence data relationship rule (131) is not different from the related data relationship rule (130).

共起データ間関係検出ステップ(S21)においても、請求項7等に記載のようにルールベースで作成された共起データ間関係規則(131)を用いてもよいし、請求項8等に記載のように機械学習により作成された共起データ間関係規則(131)を用いてもよい。
ルールベースの作成方法、機械学習方法についても上記実施例と同様である。
In the co-occurrence data relationship detection step (S21), the co-occurrence data relationship rule (131) created based on the rule base as described in claim 7 or the like may be used, or in claim 8 or the like. A co-occurrence data relation rule (131) created by machine learning as described above may be used.
The rule base creation method and the machine learning method are the same as in the above embodiment.

さらに、出力部(110)では、前後の決定された共起データに合わせて、関連データの前後を出力する。(出力ステップ:S22)
すなわち、第1共起データが後、第2共起データが前と検出された場合には、第1関連データを後、第2関連データを前として出力する。
Further, the output unit (110) outputs the before and after related data in accordance with the determined co-occurrence data before and after. (Output step: S22)
That is, when it is detected that the first co-occurrence data is later and the second co-occurrence data is before, the first related data is output as the next and the second related data is output as the previous.

上記の処理について具体例を用いて説明すると、図11(A)に示すような第1コンテンツファイル(20e)には対象データ(22e)と第1関連データ(24e)が含まれる。また第2コンテンツファイル(21e)には同じ対象データ(22e)と第2関連データ(25e)が含まれる。これらを関連データ抽出ステップ(S10)において抽出する。   The above processing will be described using a specific example. The first content file (20e) as shown in FIG. 11A includes target data (22e) and first related data (24e). The second content file (21e) includes the same target data (22e) and second related data (25e). These are extracted in the related data extraction step (S10).

次にコンテンツデータ(23)中の2つのファイル(231e)(231f)から、それぞれ第1関連データ(24e)と共起する第1共起データ(30e)、第2関連データ(25e)と共起する第2共起データ(31e)を共起データ抽出ステップ(S20)で抽出する。   Next, from the two files (231e) and (231f) in the content data (23), the first co-occurrence data (30e) and the second related data (25e) co-occur with the first related data (24e), respectively. The second co-occurrence data (31e) that occurs is extracted in the co-occurrence data extraction step (S20).

図示するように、2つの関連データにはそれぞれ異なるビル名、●●●●●ビルと×××××ビルが記載されているだけであり、ルールベースによる実施例1や機械学習を用いた実施例2でも両者の前後関係が判定できないことがある。そのとき、本発明による共起データを用いる方法を適用する。   As shown in the figure, the two related data only have different building names, ●●●●● building and XXXXXX building, and the rule-based example 1 and machine learning were used. Even in Example 2, the context of both may not be determined. At that time, the method using the co-occurrence data according to the present invention is applied.

すなわち、●●●●●ビルとは2005年10月1日という日付が、×××××ビルとは2008年4月1日という日付がそれぞれ共起しており、それらの共起データ(30e)(31e)を比較することで、●●●●●ビルと×××××ビルとの前後を判定しようとするものである。
ここで挙げた例は単純な例であり、共起データ間関係規則に日付があったときにはその前後で共起データ間の関係を決定すると定めておけば共起データ間関係検出ステップ(S21)において、2008年4月1日である第2共起データ(31e)が後と検出される。
That is, the date of October 1, 2005 for the ●●●●● building co-occurs with the date of April 1, 2008 for the xxx building, and the co-occurrence data ( 30e) (31e) is compared to determine the front and rear of the building and the xxx building.
The example given here is a simple example. If it is determined that the relationship between co-occurrence data is determined before and after the date in the co-occurrence data relationship rule, the co-occurrence data relationship detection step (S21). , The second co-occurrence data (31e) on April 1, 2008 is detected later.

その結果、出力ステップ(S22)では、共起データが後と判定された第2関連データ(25e)が後、第1関連データ(24e)が前と出力される。
なお、共起データを抽出するコンテンツデータ(23)は、例示した「ビル完成情報」のように定型的にビルの完成した情報が記載されたデータを用いれば、極めて高い精度で共起データから関連データの前後を検出することができる。しかし、本発明は多数のコンテンツデータ(23)から多数のルールベースで、あるいは機械学習により検出することができるので、これほど定型的なものでなく、ただ共起する日付が古いものが多い、新しいものが多い、というようにあいまいな複数のデータからでも検出することができる。
As a result, in the output step (S22), the second related data (25e) in which the co-occurrence data is determined to be later is output, and the first related data (24e) is output to the front.
The content data (23) from which the co-occurrence data is extracted can be obtained from the co-occurrence data with extremely high accuracy by using data in which the completed information of the building is regularly described, such as the illustrated “building completion information”. It is possible to detect before and after related data. However, since the present invention can be detected from a large number of content data (23) based on a large number of rule bases or by machine learning, it is not so routine and there are many old dates that co-occur. It can be detected from a lot of ambiguous data such as many new ones.

また、図13ないし図15には別の実施例を挙げる。まず、図13に示すように1つのコンテンツファイル(20g)から対象データ△△(22g)に関連する第1関連データ(24g)と第2関連データ(25g)を抽出する。(S10) このように関連データは同一のコンテンツファイル(20g)から抽出してもよい。   Another embodiment is shown in FIGS. First, as shown in FIG. 13, the first related data (24g) and the second related data (25g) related to the target data ΔΔ (22g) are extracted from one content file (20g). (S10) Thus, the related data may be extracted from the same content file (20g).

図3(A)で示した例と異なり、新住所と旧住所が共起していても、「新」「旧」を表すために文字でなくグラフィックを用いているような場合、前述した方法で両者の前後関係(新旧関係)を検出することはできない。   Unlike the example shown in FIG. 3A, even when a new address and an old address co-occur, a graphic is used to represent “new” and “old” instead of characters. It is not possible to detect the context (new / old relationship) between the two.

そこで第1関連データ(24g)、第2関連データ(25g)と共起する第1共起データ(30g)、第2共起データ(31g)を抽出する。図14に示すように、それぞれを1つのコンテンツファイル(20)の一部(20h)(20i)において、各関連データから所定の文字数内(例えば前後50文字以内)に出現する文字列を共起データとすることができる。本実施例では、旧住所「東京都中央区駅前1-2-3」(24g)と共起する「XYZビル」(30g)が第1共起データであり、新住所「東京都中央区駅間9-8-7」(25g)と共起する「ABCビル」(31g)が第2共起データである。   Therefore, the first co-occurrence data (30g) and the second co-occurrence data (31g) that co-occur with the first related data (24g) and the second related data (25g) are extracted. As shown in FIG. 14, in each part of one content file (20) (20h) (20i), a character string appearing within a predetermined number of characters (for example, within 50 characters before and after) is co-occurred from each related data. It can be data. In the present example, the first co-occurrence data is “XYZ Building” (30 g) co-occurring with the old address “1-2-3 Chuo-ku Ekimae-mae” (24 g), and the new address “Chuo-ku Tokyo Station” “ABC Building” (31 g) co-occurring with “9-8-7” (25 g) is the second co-occurrence data.

さらに、これらの2つの共起データ(30g)(31g)が共起する共起データ共起ファイル(231g)を抽出する。該ファイル(231g)において、文字列「XYZビル」と文字列「ABCビル」の間には「から」が含まれており、上述したようにルールベースを用いても「ABCビル」が新しい住所と判定できる。   Further, a co-occurrence data co-occurrence file (231g) in which these two co-occurrence data (30g) (31g) co-occur is extracted. In the file (231g), “kara” is included between the character string “XYZ building” and the character string “ABC building”, and “ABC building” is a new address even if the rule base is used as described above. Can be determined.

このように共起データを用いるのは、関連データが必ずしも順序を検出するのに最適でない場合があるからである。例えば、前後を検出したい関連データが住所である場合に、住所は住居表示の変更などがない限り、住所だけを見て前後を検出することは難しい。関連データ間関係規則(130)を機械学習結果とする場合でも、位置などから学習して精度良く検出できる場合はあるが、位置も出現位置の前後程度しか特色がなく、あとは住所データのみが関連データの場合に、十分な確度で選択できないことがある。   Co-occurrence data is used in this way because related data may not always be optimal for detecting the order. For example, when the related data to be detected before and after is an address, it is difficult to detect the front and back by looking at only the address unless the address display is changed. Even when the relation rule (130) between related data is used as a machine learning result, there are cases where it can be detected with high accuracy by learning from the position, etc., but the position is only characteristic around the appearance position, and only the address data after that. In the case of related data, selection may not be possible with sufficient accuracy.

上記で示した例の他にも、電話が住所と共起していて、それらを共起データ(30)(31)とした場合に、例えば電話の市外局番の表記方法が変更になった事実から関連データの前後を検出できることが考えられる。すなわち、第1共起データ(30)が、「(0424)12-1234」という電話番号で、第2共起データ(31)が「「(042)321-1234」という電話番号であったとき、共起データ間関係規則(131)には、市外局番が3桁化された方が新しい(後)という学習結果が格納されていれば、第1関連データ(24)と第2関連データ(25)を較べても前後が明らかでない場合にもいずれが前後か検出することができる。   In addition to the example shown above, when the phone co-occurs with the address and uses them as co-occurrence data (30) (31), the notation method of the telephone area code, for example, has been changed. It is conceivable that the facts before and after the relevant data can be detected from the facts. That is, when the first co-occurrence data (30) is the telephone number “(0424) 12-1234” and the second co-occurrence data (31) is the telephone number “(042) 321-1234” In the co-occurrence data relation rule (131), if the learning result that the area code is newer (after) is stored, the first related data (24) and the second related data are stored. Even if (25) is compared, if it is not clear before and after, it is possible to detect which is before or after.

さらに、各関連データと共起するデータにさらに共起するデータを用いてもよい。すなわち、コンテンツファイルが会社名・郵便番号・住所であり、対象データ(会社名)の関連データ(住所)に対応する1次の共起データが郵便番号であったとして、さらにその郵便番号と別のコンテンツファイルで共起する2次の共起データが郵便局名であるときに、その郵便局名であれば前後が容易に検出できることがあり得る。そのような場合に、2次、3次の共起データを用いることもできる。   Further, co-occurrence data may be used as data co-occurring with each related data. That is, if the content file is a company name / zip code / address and the primary co-occurrence data corresponding to the relevant data (address) of the target data (company name) is a zip code, it is further separated from the zip code. When the secondary co-occurrence data co-occurring in the content file is a post office name, the post office name can be easily detected. In such a case, secondary and tertiary co-occurrence data can also be used.

(他言語への適用)
本発明は、日本語以外の言語であっても対象とることができる。例えば、コンテンツファイルやコンテンツデータが英語のテキストファイルであって、対象データ・関連データ・共起データ等がすべて英語の単語又は節(2以上の単語からなる集合)でもよい。
英語のように分かち書きをする言語では単語の抽出は簡単であるが、形態素解析を行って品詞情報を得ることで固有名詞などを的確に抽出することができる。英語の形態素解析を行う手法として、非特許文献17に開示される手法がある。
(Application to other languages)
The present invention can be applied to languages other than Japanese. For example, the content file or the content data may be an English text file, and the target data, related data, co-occurrence data, etc. may all be English words or clauses (a set of two or more words).
Words are easy to extract in a language such as English, but proper nouns can be extracted accurately by performing morphological analysis and obtaining part-of-speech information. As a technique for performing English morphological analysis, there is a technique disclosed in Non-Patent Document 17.

Eric Brill, Transformation-BasedError-Driven Learning and Natural Language Processing: A Case Study inPart-of-Speech Tagging, Computational Linguistics, Vol. 21, No. 4, p.543-565,1995.Eric Brill, Transformation-BasedError-Driven Learning and Natural Language Processing: A Case Study in Part-of-Speech Tagging, Computational Linguistics, Vol. 21, No. 4, p.543-565,1995.

また、関連データ抽出ステップ(S10)、関連データ共起ファイル抽出ステップ(S11)、関連データ間関係検出ステップ(S12)、共起データ(S20)、共起データ間関係検出ステップ(S21)、共起データ共起ファイル抽出ステップなど、本発明の各処理において、日本語と英語を翻訳してから実行処理することができる。   Also, a related data extraction step (S10), a related data co-occurrence file extraction step (S11), a related data relationship detection step (S12), a co-occurrence data (S20), a co-occurrence data relationship detection step (S21), In each process of the present invention, such as the origin data co-occurrence file extraction step, execution processing can be performed after Japanese and English are translated.

例えば、対象データ"Triangle Corporation"に対して関連データ"1-2-3 Ekimae, Chuo-ku,Tokyo"が含まれるとき、それぞれを翻訳して「△△株式会社」「東京都中央区駅前1-2-3」としてから用いることができる。
このような翻訳には訳語辞書、すなわちcar-車のように訳語が対になって表記される辞書を用いて単に置き換えることもできるし、公知の翻訳ソフトウェアなどによって単語・テキスト翻訳してもよい。
For example, when related data “1-2-3 Ekimae, Chuo-ku, Tokyo” is included for the target data “Triangle Corporation”, they are translated into “△△ Corporation”, “Tokyo Chuo-ku Station 1 -2-3 ".
Such translation can be simply replaced by using a translated word dictionary, that is, a dictionary in which translated words are written in pairs, such as car-car, or word / text can be translated by known translation software. .

最後に、住所変更情報を取得するアルゴリズムの一例と、その実験例を示す。
まず、所定の検索エンジンを用いて、会社名「セレスター通信株式会社」と「本社」をAND検索する。その検索結果の一部を次に示す。
Finally, an example of an algorithm for acquiring address change information and an experimental example thereof are shown.
First, using a predetermined search engine, an AND search is performed on the company name “Celestar Communications Co., Ltd.” and “Head Office”. A part of the search result is shown below.

Figure 0005099498
以降省略
Figure 0005099498
Omitted

これらの検索結果から、社名と「本社」という単語の間に、会社という単語がない場合に、「本社」以降の表現を住所の部分表現として抽出(ただし記号などは除く)する。また、日付表現を、次の正規表現で抽出する。   From these search results, when there is no word “company” between the company name and the word “head office”, the expression after “head office” is extracted as a partial expression of the address (excluding symbols and the like). The date expression is extracted by the following regular expression.

Figure 0005099498
Figure 0005099498

そして、社名と「本社」という単語の間のバイト数を計算する。バイト数、住所の部分表現、日付表現、元の検索エンジンの出力データをスペースで区切って出力すると次のようになる。   Then, the number of bytes between the company name and the word “head office” is calculated. When the number of bytes, address partial expression, date expression, and output data of the original search engine are output separated by spaces, the result is as follows.

Figure 0005099498
Figure 0005099498

表5の出力から下記の入力1、入力2のデータを作成する。すなわち、住所の部分表現の種類の分だけ、「社名」と「住所の部分表現」のAND検索用のデータを作成する。   The following input 1 and input 2 data are created from the output of Table 5. In other words, data for AND search of “company name” and “partial expression of address” is created for the type of partial expression of address.

Figure 0005099498
Figure 0005099498

入力1、2を検索エンジンでAND検索する。このときの入力1、入力2の検索エンジンの出力はそれぞれ次の通りであった。   AND search for inputs 1 and 2 with a search engine. At this time, the outputs of the input engines 1 and 2 were as follows.

Figure 0005099498
以下省略
Figure 0005099498
Omitted

Figure 0005099498
以下省略
Figure 0005099498
Omitted

検索エンジンの結果から、住所の完全情報を取得する。そのために、社名と、住所の部分表現の間に、会社や研究所という単語がない場合に、住所の部分表現以降の表現を、句点読点、省略表現、括弧表現、空白表現を含まないまでのものを、住所の部分表現も含めて、住所表現として抽出する。また、日付表現を、下記の正規表現で抽出する。   Get complete address information from search engine results. For this reason, if there is no word “company” or “laboratory” between the company name and the address partial expression, the expression after the address partial expression must not include punctuation marks, abbreviations, parenthesis expressions, and blank expressions. Things are extracted as address expressions, including partial expressions of addresses. The date expression is extracted by the following regular expression.

Figure 0005099498
Figure 0005099498

社名と住所の部分表現の間のバイト数を計算し、バイト数、住所表現、日付表現、元の検索エンジンの出力データをスペースで区切って出力する。   It calculates the number of bytes between the company name and the partial expression of the address, and outputs the number of bytes, address expression, date expression, and output data of the original search engine separated by a space.

Figure 0005099498
Figure 0005099498

Figure 0005099498
Figure 0005099498

表5の出力における住所を表10、11の表現で補完してさらに、日付の新しい順に出力する。   Addresses in the output of Table 5 are complemented with the expressions of Tables 10 and 11, and further output in the order of date.

Figure 0005099498
Figure 0005099498

次に、社名変更情報の取得する方法についても実験を行った。
1.「社名」、「変更」という単語で検索エンジンでAND検索する。その結果が次の通りであった。
Next, an experiment was also conducted on a method for acquiring company name change information.
1. Perform an AND search on the search engine with the words “company name” and “change”. The results were as follows.

Figure 0005099498

以降省略
Figure 0005099498

Omitted

2.社名と変更を含む文から
[A]は.....「[B]」..... のパターンに適合する
[A],[B]を取り出す.
[A] は元の社名で,[B] が新しい社名とする.
以下、[A]、 [B]、取り出した元の文をスペースで区切って出力する。
2.From the sentence including company name and change
[A] matches the pattern of ..... "[B]" .....
Extract [A] and [B].
[A] is the original company name, and [B] is the new company name.
Hereafter, [A], [B], and the extracted original sentence are output separated by spaces.

Figure 0005099498
Figure 0005099498

上記のように、この方法でも多くの社名変更情報が抽出できることがわかった。さらに既存の社名の辞書を用意しておき,[A]が既存の社名辞書にあるものだけを抽出することでさらに性能高く社名の変更情報を取得できると考えられる。   As described above, it was found that a lot of company name change information can be extracted by this method. Furthermore, by preparing an existing company name dictionary and extracting only those whose [A] is in the existing company name dictionary, it is considered that the company name change information can be acquired with higher performance.

本発明のデータ処理装置の全体構成図である。1 is an overall configuration diagram of a data processing apparatus of the present invention. 本発明のデータ処理方法の処理フローチャートである。It is a process flowchart of the data processing method of this invention. 関連データ共起ファイルの例Related data co-occurrence file example 関連データ共起ファイルの例Related data co-occurrence file example 関連データ共起ファイルの例Related data co-occurrence file example 本発明の第3の実施例における関連データ間関係検出部の構成図である。It is a block diagram of the related data relationship detection part in the 3rd Example of this invention. 機械学習の処理を説明する説明図である。It is explanatory drawing explaining the process of machine learning. 機械学習(SVM)の処理を説明する説明図である。It is explanatory drawing explaining the process of machine learning (SVM). 本発明の第3の実施例におけるデータ処理装置の全体構成図である。It is a whole block diagram of the data processor in 3rd Example of this invention. 本発明の第3の実施例におけるデータ処理方法の処理フローチャートである。It is a processing flowchart of the data processing method in 3rd Example of this invention. 関連データ共起ファイルの例Related data co-occurrence file example 共起データ共起ファイルの例Example of co-occurrence data co-occurrence file 関連データ共起ファイルの例Related data co-occurrence file example 共起データ共起ファイルの例Example of co-occurrence data co-occurrence file 共起データ共起ファイルの例Example of co-occurrence data co-occurrence file

符号の説明Explanation of symbols

1 データ処理装置
10 CPU
11 キーボード・マウス
12 モニタ
13 ハードディスク
14 ネットワークアダプタ
101 入力部
102 関連データ抽出部
103 関連データ共起ファイル抽出部
104 関連データ間関係検出部
105 出力部
130 関連データ間関係規則データベース
1 Data processing device 10 CPU
11 Keyboard / Mouse 12 Monitor 13 Hard Disk 14 Network Adapter 101 Input Unit 102 Related Data Extraction Unit 103 Related Data Co-occurrence File Extraction Unit 104 Related Data Relationship Detection Unit 105 Output Unit 130 Related Data Relationship Rule Database

Claims (18)

所定の対象データに関連する関連データについて、相前後する第1関連データ及び第2関連データの順序を検出するデータ処理装置において、
ネットワーク上又はローカルの記憶手段に格納された同一又は異なるファイルから第1関連データ及び第2関連データをそれぞれ抽出する関連データ抽出手段と、
ネットワーク上又はローカルの記憶手段から該第1関連データ及び該第2関連データが共起する関連データ共起ファイルを抽出する関連データ共起ファイル抽出手段と、
該関連データ共起ファイルから、所定の関連データ間関係規則を参照して、第1関連データ及び第2関連データ間の前後を検出する関連データ間関係検出手段と、
該検出結果を出力する出力手段と
を備えたことを特徴とするデータ処理装置。
In the data processing apparatus for detecting the order of the first related data and the second related data that are related to each other with respect to the related data related to the predetermined target data,
Related data extracting means for extracting the first related data and the second related data from the same or different files stored in the storage means on the network or locally, respectively;
Related data co-occurrence file extracting means for extracting a related data co-occurrence file in which the first related data and the second related data co-occur from a network or local storage means;
A related data relationship detecting means for detecting before and after between the first related data and the second related data with reference to a predetermined related data relationship rule from the related data co-occurrence file;
An output means for outputting the detection result.
前記関連データ間関係規則が、少なくとも前記第1関連データと前記第2関連データとの間に含まれる、又は含まれない、文字列に係る情報であって、
前記関連データ間関係検出手段が、前記関連データ共起ファイル内において該第1関連データと該第2関連データとの間の文字列を抽出し、該関連データ間関係規則と照合する
請求項1に記載のデータ処理装置。
The related data relationship rule is information relating to a character string that is included or not included at least between the first related data and the second related data,
2. The relational data relation detecting means extracts a character string between the first relational data and the second relational data in the relational data co-occurrence file and collates with the relational relation relation rule. The data processing apparatus described in 1.
前記関連データ間関係規則が、予め前後関係が分かっている2つの教師用関連データが共起する複数の教師用ファイルを用い、該教師用ファイルにおける2つの教師用関連データの出現位置、又は同時に含まれる若しくは含まれない文字列、又は同時に含まれるタグ情報の少なくともいずれかを素性として機械学習した学習結果であって、
前記関連データ間関係検出手段が、前記関連データ共起ファイルから該素性を抽出すると共に、前記第1関連データ及び前記第2関連データを入力として、該学習結果を参照して該第1関連データ及び該第2関連データ間の前後を算出する
請求項1に記載のデータ処理装置。
The relation rule between related data uses a plurality of teacher files in which two related data for teachers whose context is known in advance co-occurs, and the appearance positions of the two related data for teachers in the teacher file or simultaneously A learning result obtained by machine learning using at least one of a character string included or not included, or tag information included at the same time as a feature,
The related data relation detecting means extracts the feature from the related data co-occurrence file, and inputs the first related data and the second related data, and refers to the learning result to refer to the first related data. The data processing apparatus according to claim 1, wherein before and after the second related data is calculated.
前記データ処理装置であって、
前記関連データ抽出手段が、ネットワーク上又はローカルの記憶手段から前記対象データと共起する第1関連データ及び第2関連データをそれぞれ抽出する
請求項1ないし3のいずれかに記載のデータ処理装置。
The data processing device,
The data processing apparatus according to any one of claims 1 to 3, wherein the related data extracting unit extracts first related data and second related data that co-occur with the target data from a network or a local storage unit.
所定の対象データに関連する関連データについて、相前後する第1関連データ及び第2関連データの順序を検出するデータ処理装置において、
ネットワーク上又はローカルの記憶手段に格納された同一又は異なるファイルから第1関連データ及び第2関連データをそれぞれ抽出する関連データ抽出手段と、
該第1関連データが含まれるファイルから該第1関連データと共起する単数又は複数の第1共起データを抽出すると共に、該第2関連データが含まれるファイルから該第2関連データと共起する単数又は複数の第2共起データを抽出する共起データ抽出手段と、
該第1共起データ及び該第2共起データ間の前後に関する所定の共起データ間関係規則を参照して、第1共起データ及び第2共起データ間の前後を検出する共起データ間関係検出手段と、
該検出結果をそれらと共起している第1関連データ及び第2関連データの前後として出力する出力手段と
を備えたことを特徴とするデータ処理装置。
In the data processing apparatus for detecting the order of the first related data and the second related data that are related to each other with respect to the related data related to the predetermined target data,
Related data extracting means for extracting the first related data and the second related data from the same or different files stored in the storage means on the network or locally, respectively;
One or more first co-occurrence data co-occurring with the first related data is extracted from the file including the first related data, and the second related data is co-existing with the file including the second related data. Co-occurrence data extracting means for extracting one or a plurality of second co-occurrence data to occur,
Co-occurrence data for detecting the front and rear between the first co-occurrence data and the second co-occurrence data with reference to a predetermined co-occurrence data relation rule regarding the front and rear between the first co-occurrence data and the second co-occurrence data Inter-relationship detection means;
A data processing apparatus comprising: output means for outputting the detection results as before and after the first related data and the second related data co-occurring therewith.
前記データ処理装置において、
ネットワーク上又はローカルの記憶手段から該第1共起データ及び該第2共起データが共起する共起データ共起ファイルを抽出する共起データ共起ファイル抽出手段を備えた
請求項5に記載のデータ処理装置。
In the data processing device,
The co-occurrence data co-occurrence file extracting means for extracting the co-occurrence data co-occurrence file in which the first co-occurrence data and the second co-occurrence data co-occur from a network or local storage means. Data processing equipment.
前記共起データ間関係規則が、少なくとも前記第1共起データと前記第2共起データとの間に含まれる、又は含まれない、文字列に係る情報であって、
前記共起データ間関係検出手段が、前記共起データ共起ファイル内において該第1共起データと該第2共起データとの間の文字列を抽出し、該共起データ間関係規則と照合する
請求項6に記載のデータ処理装置。
The co-occurrence data relation rule is information relating to a character string that is included or not included at least between the first co-occurrence data and the second co-occurrence data,
The co-occurrence data relationship detecting means extracts a character string between the first co-occurrence data and the second co-occurrence data in the co-occurrence data co-occurrence file, The data processing device according to claim 6.
前記共起データ間関係規則が、予め前後関係が分かっている2つの教師用関連データのそれぞれと複数の文字列とが含まれる複数の教師用ファイルを用い、該教師用ファイルにおける該教師用関連データと共に含まれる単数又は複数の文字列を素性として機械学習した学習結果であって、
前記共起データ間関係検出手段が、前記第1共起データ及び前記第2共起データを素性として入力し、該学習結果を参照して該第1共起データ及び該第2共起データ間の前後を算出する
請求項5又は6に記載のデータ処理装置。
The co-occurrence data relation rule uses a plurality of teacher files each including two pieces of teacher-related data whose context is known in advance and a plurality of character strings, and the teacher relations in the teacher file A learning result obtained by machine learning using one or more character strings included with data as features,
The co-occurrence data relationship detecting means inputs the first co-occurrence data and the second co-occurrence data as features, and refers to the learning result between the first co-occurrence data and the second co-occurrence data. The data processing apparatus of Claim 5.
前記データ処理装置で処理する対象データが宛名であり、関連データが宛先である構成において、
前記第1関連データと前記第2関連データとの間で、その新旧関係を検出する
ことを特徴とする請求項1ないし8のいずれかにデータ処理装置。
In the configuration in which the target data to be processed by the data processing device is the address and the related data is the destination.
The data processing apparatus according to claim 1, wherein a new / old relationship is detected between the first related data and the second related data.
所定の対象データに関連する関連データについて、相前後する第1関連データ及び第2関連データの順序を検出するコンピュータのデータ処理方法であって、
関連データ抽出手段が、ネットワーク上又はローカルの記憶手段に格納された同一又は異なるファイルから第1関連データ及び第2関連データをそれぞれ抽出する関連データ抽出ステップ、
関連データ共起ファイル抽出手段が、ネットワーク上又はローカルの記憶手段から該第1関連データ及び該第2関連データが共起する関連データ共起ファイルを抽出する関連データ共起ファイル抽出ステップ、
関連データ間関係検出手段が、該関連データ共起ファイルから、所定の関連データ間関係規則を参照して、第1関連データ及び第2関連データ間の前後を検出する関連データ間関係検出ステップ、
出力手段が、該検出結果を出力する出力ステップ
を有することを特徴とするデータ処理方法。
A computer data processing method for detecting a sequence of first related data and second related data, which are related to predetermined target data,
A related data extracting step in which the related data extracting means extracts the first related data and the second related data from the same or different files stored in a network or a local storage means,
A related data co-occurrence file extracting means for extracting a related data co-occurrence file in which the first related data and the second related data co-occur from a network or local storage means;
A related data relationship detecting means for detecting a relation between the first related data and the second related data with reference to a predetermined related data relationship rule from the related data co-occurrence file;
A data processing method, wherein the output means includes an output step of outputting the detection result.
前記関連データ間関係規則が、少なくとも前記第1関連データと前記第2関連データとの間に含まれる、又は含まれない、文字列に係る情報であって、
前記関連データ間関係検出手段が、前記関連データ共起ファイル内において該第1関連データと該第2関連データとの間の文字列を抽出し、該関連データ間関係規則と照合する
請求項10に記載のデータ処理方法。
The related data relationship rule is information relating to a character string that is included or not included at least between the first related data and the second related data,
11. The related data relationship detecting means extracts a character string between the first related data and the second related data in the related data co-occurrence file and collates with the related data relationship rule. The data processing method described in 1.
前記関連データ間関係規則が、予め前後関係が分かっている2つの教師用関連データが共起する複数の教師用ファイルを用い、該教師用ファイルにおける2つの教師用関連データの出現位置、又は同時に含まれる若しくは含まれない文字列、又は同時に含まれるタグ情報の少なくともいずれかを素性として機械学習した学習結果であって、
前記関連データ間関係検出手段が、前記関連データ共起ファイルから該素性を抽出すると共に、前記第1関連データ及び前記第2関連データを入力として、該学習結果を参照して該第1関連データ及び該第2関連データ間の前後を算出する
請求項10に記載のデータ処理方法。
The relation rule between related data uses a plurality of teacher files in which two related data for teachers whose context is known in advance co-occurs, and the appearance positions of the two related data for teachers in the teacher file or simultaneously A learning result obtained by machine learning using at least one of a character string included or not included, or tag information included at the same time as a feature,
The related data relation detecting means extracts the feature from the related data co-occurrence file, and inputs the first related data and the second related data, and refers to the learning result to refer to the first related data. The data processing method according to claim 10, further comprising: calculating before and after the second related data.
前記データ処理方法であって、
前記関連データ抽出ステップにおいて関連データ抽出手段が、ネットワーク上又はローカルの記憶手段から前記対象データと共起する第1関連データ及び第2関連データをそれぞれ抽出する
請求項10ないし12のいずれかに記載のデータ処理方法。
Said data processing method comprising:
13. The related data extracting unit extracts first related data and second related data co-occurring with the target data from a network or a local storage unit in the related data extracting step, respectively. Data processing method.
所定の対象データに関連する関連データについて、相前後する第1関連データ及び第2関連データの順序を検出するコンピュータのデータ処理方法であって、
関連データ抽出手段が、ネットワーク上又はローカルの記憶手段に格納された同一又は異なるファイルから第1関連データ及び第2関連データをそれぞれ抽出する関連データ抽出ステップ、
共起データ抽出手段が、該第1関連データが含まれるファイルから該第1関連データと共起する単数又は複数の第1共起データを抽出すると共に、該第2関連データが含まれるファイルから該第2関連データと共起する単数又は複数の第2共起データを抽出する共起データ抽出ステップ、
共起データ間関係検出手段が、該第1共起データ及び該第2共起データ間の前後に関する所定の共起データ間関係規則を参照して、第1共起データ及び第2共起データ間の前後を検出する共起データ間関係検出ステップ、
出力手段が、該検出結果をそれらと共起している第1関連データ及び第2関連データの前後として出力する出力ステップ
を有することを特徴とするデータ処理方法。
A computer data processing method for detecting a sequence of first related data and second related data, which are related to predetermined target data,
A related data extracting step in which the related data extracting means extracts the first related data and the second related data from the same or different files stored in a network or a local storage means,
The co-occurrence data extracting means extracts one or a plurality of first co-occurrence data that co-occurs with the first related data from the file including the first related data, and from the file including the second related data. A co-occurrence data extraction step of extracting one or a plurality of second co-occurrence data co-occurring with the second related data;
The co-occurrence data relation detecting means refers to a predetermined co-occurrence data relation rule regarding the front and back between the first co-occurrence data and the second co-occurrence data, and the first co-occurrence data and the second co-occurrence data A co-occurrence data inter-relationship detection step for detecting before and after
A data processing method, characterized in that the output means has an output step of outputting the detection results as before and after the first related data and the second related data co-occurring therewith.
前記データ処理方法において、前記共起データ抽出ステップの次に、
共起データ共起ファイル抽出手段が、ネットワーク上又はローカルの記憶手段から該第1共起データ及び該第2共起データが共起する共起データ共起ファイルを抽出する共起データ共起ファイル抽出ステップを有する
請求項14に記載のデータ処理方法。
In the data processing method, after the co-occurrence data extraction step,
Co-occurrence data co-occurrence file extraction means extracts a co-occurrence data co-occurrence file in which the first co-occurrence data and the second co-occurrence data co-occur from a network or local storage means The data processing method according to claim 14, further comprising an extraction step.
前記共起データ間関係規則が、少なくとも前記第1共起データと前記第2共起データとの間に含まれる、又は含まれない、文字列に係る情報であって、
前記共起データ間関係検出手段が、前記共起データ共起ファイル内において該第1共起データと該第2共起データとの間の文字列を抽出し、該共起データ間関係規則と照合する
請求項15に記載のデータ処理方法。
The co-occurrence data relation rule is information relating to a character string that is included or not included at least between the first co-occurrence data and the second co-occurrence data,
The co-occurrence data relationship detecting means extracts a character string between the first co-occurrence data and the second co-occurrence data in the co-occurrence data co-occurrence file, The data processing method according to claim 15, wherein collation is performed.
前記共起データ間関係規則が、予め前後関係が分かっている2つの教師用関連データのそれぞれと複数の文字列とが含まれる複数の教師用ファイルを用い、該教師用ファイルにおける該教師用関連データと共に含まれる単数又は複数の文字列を素性として機械学習した学習結果であって、
前記共起データ間関係検出手段が、前記第1共起データ及び前記第2共起データを素性として入力し、該学習結果を参照して該第1共起データ及び該第2共起データ間の前後を算出する
請求項14又は15に記載のデータ処理方法。
The co-occurrence data relation rule uses a plurality of teacher files each including two pieces of teacher-related data whose context is known in advance and a plurality of character strings, and the teacher relations in the teacher file A learning result obtained by machine learning using one or more character strings included with data as features,
The co-occurrence data relationship detecting means inputs the first co-occurrence data and the second co-occurrence data as features, and refers to the learning result between the first co-occurrence data and the second co-occurrence data. The data processing method according to claim 14 or 15, wherein the data before and after is calculated.
前記データ処理方法が、対象データが宛名であり、関連データが宛先である構成において、
前記第1関連データと前記第2関連データとの間で、その新旧関係を検出する
ことを特徴とする請求項10ないし17のいずれかにデータ処理方法。
In the data processing method, the target data is a destination and the related data is a destination.
18. The data processing method according to claim 10, wherein a new / old relationship is detected between the first related data and the second related data.
JP2007286269A 2007-11-02 2007-11-02 Data processing apparatus and data processing method Expired - Fee Related JP5099498B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007286269A JP5099498B2 (en) 2007-11-02 2007-11-02 Data processing apparatus and data processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007286269A JP5099498B2 (en) 2007-11-02 2007-11-02 Data processing apparatus and data processing method

Publications (2)

Publication Number Publication Date
JP2009116456A JP2009116456A (en) 2009-05-28
JP5099498B2 true JP5099498B2 (en) 2012-12-19

Family

ID=40783564

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007286269A Expired - Fee Related JP5099498B2 (en) 2007-11-02 2007-11-02 Data processing apparatus and data processing method

Country Status (1)

Country Link
JP (1) JP5099498B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11687712B2 (en) 2017-11-10 2023-06-27 Nec Corporation Lexical analysis training of convolutional neural network by windows of different lengths with matrix of semantic vectors

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08241328A (en) * 1995-03-06 1996-09-17 Nippon Telegr & Teleph Corp <Ntt> Method and device for storing and displaying relative item, and data base retrieval system
JP2004102628A (en) * 2002-09-09 2004-04-02 Acton Wins Co Ltd Forming method for change of address display
JP2006023968A (en) * 2004-07-08 2006-01-26 Hitachi Ltd Unique expression extracting method and device and program to be used for the same

Also Published As

Publication number Publication date
JP2009116456A (en) 2009-05-28

Similar Documents

Publication Publication Date Title
JP5008024B2 (en) Reputation information extraction device and reputation information extraction method
Tang et al. Arnetminer: extraction and mining of academic social networks
JP5356197B2 (en) Word semantic relation extraction device
US11210468B2 (en) System and method for comparing plurality of documents
Alzahrani et al. Understanding plagiarism linguistic patterns, textual features, and detection methods
EP2711849A2 (en) Learning opinion-related patterns for contextual and domain-dependent opinion detection
JP4911599B2 (en) Reputation information extraction device and reputation information extraction method
CN106778878B (en) Character relation classification method and device
Wong et al. Learning to adapt web information extraction knowledge and discovering new attributes via a bayesian approach
JP2019185551A (en) Annotation added text data expanding method, annotation added text data expanding program, annotation added text data expanding apparatus, and training method of text classification model
JP6535858B2 (en) Document analyzer, program
Tariq et al. Exploiting topical perceptions over multi-lingual text for hashtag suggestion on twitter
CN111274829A (en) Sequence labeling method using cross-language information
Potthast Technologies for reusing text from the web
JP3899414B2 (en) Teacher data creation device and program, and language analysis processing device and program
JP5366179B2 (en) Information importance estimation system, method and program
da Rocha et al. A text as unique as a fingerprint: Text analysis and authorship recognition in a Virtual Learning Environment of the Unified Health System in Brazil
JP2009237640A (en) Information extraction device, information extraction method, and information extraction program
Manjunathan Cross-Domain Opinion Mining Using a Thesaurus in Social Media Content
JP5099498B2 (en) Data processing apparatus and data processing method
JP5182845B2 (en) Information extraction apparatus, information extraction method, and information extraction program
Pakray et al. An hmm based pos tagger for pos tagging of code-mixed indian social media text
JP4919386B2 (en) Information extraction / display device
Tang et al. Mining language variation using word using and collocation characteristics
Islam et al. A Deep Learning Approach to Detect Plagiarism in Bengali Textual Content using Similarity Algorithms

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101007

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120903

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120911

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120913

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151005

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees