JP6586850B2 - Table reconstruction apparatus and method - Google Patents

Table reconstruction apparatus and method Download PDF

Info

Publication number
JP6586850B2
JP6586850B2 JP2015199484A JP2015199484A JP6586850B2 JP 6586850 B2 JP6586850 B2 JP 6586850B2 JP 2015199484 A JP2015199484 A JP 2015199484A JP 2015199484 A JP2015199484 A JP 2015199484A JP 6586850 B2 JP6586850 B2 JP 6586850B2
Authority
JP
Japan
Prior art keywords
attribute
column
description
description object
attributes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015199484A
Other languages
Japanese (ja)
Other versions
JP2016081526A (en
Inventor
ミアオ・チンリアン
遥 孟
遥 孟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JP2016081526A publication Critical patent/JP2016081526A/en
Application granted granted Critical
Publication of JP6586850B2 publication Critical patent/JP6586850B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は情報処理分野に関し、より具体的にはテーブル再構成装置と方法に関する。   The present invention relates to the field of information processing, and more specifically, to a table reconstruction apparatus and method.

インタネットの飛躍的な発展に伴い、インタネットに大量なテーブルデータが現れ、テーブルデータには豊富な構造化情報が含まれている。テーブルデータを掘り出すことで大量な人類知識を得ることができる。しかし、テーブルデータは一般的に構造が複雑で、フィールドが重複し、一つのテーブルに複数の記述対象及びその属性が含まれている。一部の属性が複数の記述対象を記述できるため、テーブルから知識を抽出するには、まず、テーブルを構造が簡単で、記述対象が単一形式のものに再構成する必要があり、それから有効に知識を取得することができる。例えば、図1Aのテーブルに二つの記述対象「人」と「会社」が含まれており、そのうち、人を記述する属性に「氏名、国籍、学位、卒業学校、創立企業、連絡方法、e−mail」があり、会社を記述する属性に「成立日付、住所、サービス、分野、連絡方法」があり、なお、「連絡方法」の列は人を記述する属性であるとともに、会社を記述する属性でもある。   Along with the rapid development of the Internet, a large amount of table data appears on the Internet, and the table data includes abundant structured information. By digging out table data, a large amount of human knowledge can be obtained. However, table data generally has a complicated structure, duplicate fields, and one table includes a plurality of description objects and their attributes. Because some attributes can describe multiple description objects, to extract knowledge from a table, it is necessary to first restructure the table with a simple structure and a single description object. Can acquire knowledge. For example, the table of FIG. 1A includes two description objects “person” and “company”, and among these attributes, “name, nationality, degree, graduation school, founding company, contact method, e−” mail ”, and the attribute describing the company includes“ date of establishment, address, service, field, contact method ”, and the column of“ contact method ”is an attribute describing a person and an attribute describing a company But there is.

そのため、テーブルを再構成して、構造が簡単で、記述対象が単一形式の単一記述対象テーブルにする装置と方法が求められている。   Therefore, there is a need for an apparatus and method for reconfiguring a table so that the structure is simple and the description target is a single description target table having a single format.

本発明の目的は、テーブルを再構成して、構造が簡単で、記述対象が単一形式の単一記述対象テーブルにする装置と方法を提供することにある。   An object of the present invention is to provide an apparatus and a method for reconfiguring a table into a single description target table having a simple structure and a single description target.

以下に述べる本発明の概要は、本発明を幾つかの側面から示し、その基本理解を促すものである。なお、この概要は本発明を全部網羅するものではないことを理解すべきである。この概要は本発明の要点又は重要部分を特定する意図や、本発明の範囲を限定する意図を持たない。その目的は、後の詳細説明に向けて、一部の概念を簡潔に示すためだけである。   The outline of the present invention described below shows the present invention from several aspects and promotes a basic understanding thereof. It should be understood that this summary is not exhaustive. This summary is not intended to identify key points or important parts of the invention or to limit the scope of the invention. Its purpose is merely to present some concepts briefly for the purpose of further description.

本発明の一つの主な目的はテーブル再構成装置を提供することにあり、該装置はテーブル中の列毎の属性を確定するように構成された列属性確定ユニットと、確定された列毎の属性を語彙知識ベースとリンクさせることにより上記テーブル中の記述対象を確定するように構成された記述対象確定ユニットと、上記語彙知識ベースにおいて各記述対象の属性集合を確定して、上記テーブル中の列毎の属性と上記属性集合中の各属性との第一類似度を算出して、上記テーブル中の上記記述対象に関連する属性を確定するように構成された記述対象関連属性確定ユニットと、上記記述対象と上記記述対象に関連する属性とを用いてテーブルを再構成するように構成されたテーブル再構成ユニットを含む。   One main object of the present invention is to provide a table reconstruction device, the device comprising a column attribute determination unit configured to determine an attribute for each column in the table, and for each determined column. A description object determination unit configured to determine a description object in the table by linking an attribute with the vocabulary knowledge base; and determining an attribute set of each description object in the vocabulary knowledge base; A description target related attribute determination unit configured to calculate a first similarity between an attribute for each column and each attribute in the attribute set, and to determine an attribute related to the description target in the table; A table reconstruction unit configured to reconstruct the table using the description object and attributes associated with the description object;

本発明の一つの側面によると、テーブル再構成方法を提供し、該方法はテーブル中の列毎の属性を確定するステップと、確定された列毎の属性を語彙知識ベースとリンクさせることにより上記テーブルの記述対象を確定するステップと、上記語彙知識ベースにおいて各記述対象の属性集合を確定して、上記テーブル中の列毎の属性と上記属性集合中の各属性との第一類似度を算出して、上記テーブル中の上記記述対象に関連する属性を確定するステップと、上記記述対象と上記記述対象に関連する属性とを用いてテーブルを再構成するステップを含む。   According to one aspect of the present invention, a table reconstruction method is provided, the method comprising: determining a column-by-column attribute in the table; and linking the determined column-by-column attribute with a lexical knowledge base. The step of determining the description target of the table and the attribute set of each description target in the lexical knowledge base are determined, and the first similarity between the attribute for each column in the table and each attribute in the attribute set is calculated. Then, a step of determining an attribute related to the description target in the table, and a step of reconfiguring the table using the description target and the attribute related to the description target are included.

また、本発明の実施例はさらに、上記方法を実現するためのコンピュータプログラムを提供する。   The embodiment of the present invention further provides a computer program for realizing the above method.

また、本発明の実施例はさらに、少なくともコンピュータが読み出し可能な媒体形式のコンピュータプログラム製品を提供し、該コンピュータプログラム製品に上記方法を実現するためのコンピュータプログラムを記憶されている。   The embodiment of the present invention further provides a computer program product in a medium format that can be read at least by a computer, and a computer program for realizing the above method is stored in the computer program product.

以下、図面を参照しながら本発明の好ましい実施例を詳しく説明することにより、本発明の上記及びその他の利点をより明確にする。   The above and other advantages of the present invention will become more apparent by describing in detail preferred embodiments of the present invention with reference to the drawings.

本発明の以上及びその他の目的、特徴と利点をより簡単に理解できるよう、以下は図面を参照しながら本発明の実施例を説明する。図面における部品は本発明の原理を示すことのみが目的でする。図面において、同一又は類似する技術的特徴又は部品を同一又は類似する符号で示す。
複数の記述対象を含む例示的なテーブルを示す図である。 図1Aのテーブルから再構成された一つの単一記述対象のテーブルの図である。 図1Aのテーブルから再構成された別の単一記述対象のテーブルの図である。 本発明の一実施例に基づく、テーブルを再構成する装置200の例示的な構成を示すブロック図である。 図2の記述対象確定ユニット204の一例示的な構成を示すブロック図である。 本発明の一実施例に基づく、テーブルを再構成する方法400のフローチャートである。 図4のステップS404の一例示的なプロセスを示すフローチャートである。 本発明のテーブル再構成装置と方法を実施するために用いられるコンピュータ装置を示す例示的な構造図である。
In order that the above and other objects, features and advantages of the present invention may be more easily understood, embodiments of the present invention will be described below with reference to the drawings. The parts in the drawings are only intended to illustrate the principles of the invention. In the drawings, the same or similar technical features or parts are denoted by the same or similar reference numerals.
It is a figure which shows the example table containing several description object. It is a figure of the table of one single description object reconfigure | reconstructed from the table of FIG. 1A. It is a figure of the table of another single description object reconfigure | reconstructed from the table of FIG. 1A. FIG. 3 is a block diagram illustrating an exemplary configuration of an apparatus 200 for reconfiguring a table, in accordance with one embodiment of the present invention. FIG. 3 is a block diagram illustrating an exemplary configuration of a description target determination unit 204 in FIG. 2. 4 is a flowchart of a method 400 for reconstructing a table according to an embodiment of the present invention. FIG. 5 is a flowchart illustrating an exemplary process of step S404 of FIG. FIG. 2 is an exemplary structural diagram illustrating a computer device used to implement the table reconstruction device and method of the present invention.

以下、図面を参照しながら本発明の実施例を説明する。本発明の一図面又は一実施形態で示された要素及び特徴を、その他の一つ又は複数の図面又は実施形態で示された要素及び特徴と組み合わせることができる。なお、目的を明確にするため、本発明と無関係の、当業者が既知の部品と処理の表示と説明を省略する。   Embodiments of the present invention will be described below with reference to the drawings. Elements and features shown in one drawing or embodiment of the invention may be combined with elements and features shown in one or more other drawings or embodiments. For the sake of clarity, the display and description of parts and processes known to those skilled in the art, which are not related to the present invention, are omitted.

本発明は、複数の記述対象を含むテーブル(図1Aが示すもの)を複数の単一記述対象テーブル(例えば、図1Bと図1Cが示すもの)に分解できるテーブル再構成装置と方法を提供する。図1A−1Cが示すように、図1Aのテーブルに二つの記述対象「人」と「会社」が含まれており、そのうち、人を記述する属性に「氏名、国籍、学位、卒業学校、創立企業、連絡方法、e−mail」があり、会社を記述する属性に「成立日付、住所、サービス、分野、連絡方法」があり、なお、「連絡方法」は人を記述する属性であるとともに、会社を記述する属性でもある。図1Bと1Cはそれぞれ図1Aの二つの記述対象「人」と「会社」及びその対応する属性に基づき再構成された二つの単一記述対象テーブルを示している。   The present invention provides a table reorganization apparatus and method capable of decomposing a table including a plurality of description objects (as shown in FIG. 1A) into a plurality of single description object tables (for example, as shown in FIGS. 1B and 1C). . As shown in FIGS. 1A to 1C, the table of FIG. 1A includes two description objects “person” and “company”, and among these attributes, “name, nationality, degree, graduation school, founding” There are "company, contact method, e-mail", and attributes describing the company include "established date, address, service, field, contact method", and "contact method" is an attribute that describes a person, It is also an attribute that describes the company. FIGS. 1B and 1C show two single description object tables reconfigured based on the two description objects “people” and “company” and their corresponding attributes in FIG. 1A, respectively.

本発明の装置と方法によれば、まず、テーブル列タイトル及び/又はテーブル列中の実例情報に基づいて該列に対応する属性を確定し、そして、各列の対応する属性に基づいて記述対象及びその属性列を確定し、最後に、記述対象と属性列の対応関係に基づいて原始テーブルを単一記述対象テーブルに再構成する。   According to the apparatus and method of the present invention, first, the attribute corresponding to the column is determined based on the table column title and / or the example information in the table column, and the description target is determined based on the corresponding attribute of each column. Finally, the attribute column is determined, and finally, the original table is reconfigured into a single description target table based on the correspondence between the description target and the attribute column.

以下、図面を参照しながら、本発明の一実施例に基づく、テーブルを再構成する装置を詳しく説明する。   Hereinafter, an apparatus for reconfiguring a table according to an embodiment of the present invention will be described in detail with reference to the drawings.

図2は本発明の一実施例に基づく、テーブルを再構成する装置200の例示的な構成を示すブロック図である。   FIG. 2 is a block diagram illustrating an exemplary configuration of an apparatus 200 for reconfiguring a table according to one embodiment of the present invention.

図2が示すように、テーブル再構成装置200は列属性確定ユニット202、記述対象確定ユニット204、記述対象関連属性確定ユニット206とテーブル再構成ユニット208を含む。   As shown in FIG. 2, the table reconstruction device 200 includes a column attribute determination unit 202, a description target determination unit 204, a description target related attribute determination unit 206, and a table reconstruction unit 208.

列属性確定ユニット202はテーブル中の列毎の属性を確定することができる。   The column attribute determination unit 202 can determine the attribute for each column in the table.

記述対象確定ユニット204は、確定された列毎の属性を語彙知識ベースとリンクさせることによってテーブル中の記述対象を確定することができる。   The description target determination unit 204 can determine the description target in the table by linking the determined attribute for each column with the vocabulary knowledge base.

記述対象関連属性確定ユニット206は、語彙知識ベースにおいて各記述対象の属性集合を確定して、テーブル中の列毎の属性と属性集合中の各属性との第一類似度を算出して、テーブル中の記述対象に関連する属性を確定することができる。   The description target related attribute determination unit 206 determines the attribute set of each description target in the vocabulary knowledge base, calculates the first similarity between the attribute for each column in the table and each attribute in the attribute set, It is possible to determine the attribute related to the description target in the table.

テーブル再構成ユニット208は、記述対象と記述対象に関連する属性とを用いて、テーブルを再構成できる。   The table restructuring unit 208 can reconfigure the table using the description object and the attributes related to the description object.

以下、テーブル再構成装置200に含まれる各ユニットについてそれぞれ詳しく説明する。   Hereinafter, each unit included in the table reconstruction device 200 will be described in detail.

テーブルの列はそれぞれ記述対象のある属性を示す。テーブルの列が語彙知識ベースのどの属性に対応するかを確認することにより、テーブルの列に対応する属性を確定できる。一例として、語彙知識ベースはLOD(linked open data、一種のグローバル知識ベースである)知識ベースであることが可能であり、以下語彙知識ベースとしてLOD知識ベースを用いる例を説明する。   Each column of the table indicates an attribute to be described. By confirming which attribute of the vocabulary knowledge base the column of the table corresponds to, the attribute corresponding to the column of the table can be determined. As an example, the vocabulary knowledge base can be a LOD (Linked Open Data, a kind of global knowledge base) knowledge base, and an example using the LOD knowledge base as a vocabulary knowledge base will be described below.

本発明の一例示的な実施例において、テーブルの列に対応する属性を確定する際、列タイトルと列実例情報の二つの側面の情報を考慮することができる。テーブルに列タイトルが存在する場合、テーブルの列タイトルは通常テーブルの第一行であり、テーブル列タイトルをLOD知識ベース中の属性とリンクさせることによって、LOD知識ベース中の対応する属性を得ることができる。対応するLOD属性が見つからなかった場合、改めて列実例に基づく識別方法により識別を行うことができる。テーブルに列タイトルがない場合、直接列実例に基づく識別方法を用いて識別を行う。   In one exemplary embodiment of the present invention, two aspects of information, column title and column instance information, can be considered when determining the attributes corresponding to the columns of the table. If a column title exists in the table, the table column title is usually the first row of the table, and the corresponding attribute in the LOD knowledge base is obtained by linking the table column title with the attribute in the LOD knowledge base. Can do. When the corresponding LOD attribute is not found, the identification can be performed again by the identification method based on the column example. When there is no column title in the table, identification is performed using an identification method based on a direct column example.

以下、列実例情報に基づいてテーブル中の列毎の属性を確定する一例示的な方法を説明する。   Hereinafter, an exemplary method for determining the attribute for each column in the table based on the column example information will be described.

まず、特定パターンを有する列実例に対し正規表現式を用いて識別する。例えば、郵便番号、電話番号(携帯番号、固定電話番号)、ネットワークURL、IPアドレス、E−mail、時間、日付等。図1A中のテーブルの第6、7、8列の属性は成立日付、連絡方法とe−mailであることを確定できる。   First, a column example having a specific pattern is identified using a regular expression. For example, postal code, telephone number (mobile number, fixed telephone number), network URL, IP address, E-mail, time, date, etc. It can be determined that the attributes in the sixth, seventh, and eighth columns of the table in FIG. 1A are the establishment date, the contact method, and e-mail.

次に、人名、住所等の内容を識別する。人名識別は姓氏辞書を利用して識別することができる。住所について段階関係を有する住所知識ベースを用いてマッチングを行い、住所知識ベースの段階関係は上から下へ国家、省市/自治区、区県、村、町等である。検索エンジンを利用して住所を判断することも可能であり、即ち、地図検索エンジンを用いて該列実例を検索し、地図検索エンジンから検索結果が返された場合、該列実例に対応する属性は住所である。図1A中の第1列と第9列に対応する属性はそれぞれ氏名と住所であることを確定できる。   Next, the contents such as the name and address are identified. The personal name can be identified using a surname / dictionary dictionary. Matching is performed using an address knowledge base having a stage relationship with respect to the address, and the stage relationship of the address knowledge base is, from the top to the bottom, the state, province / autonomous region, ward prefecture, village, town, and the like. It is also possible to determine the address using a search engine, that is, when the column example is searched using the map search engine and the search result is returned from the map search engine, the attribute corresponding to the column example Is an address. It can be determined that the attributes corresponding to the first column and the ninth column in FIG. 1A are a name and an address, respectively.

最後に、属性不明の列に対応する列実例をLOD知識ベース中の実体とリンクさせて、LOD知識ベース中の知識を用いて、テーブル列に対応する属性を判断する。例えば、図1A中の第4列をLOD知識ベースとリンクさせて、LOD知識ベースに基づき、「清華大学」と「スタンフォード大学」に対応する属性はいずれも「大学」であることがわかる。このような方法により、第2、3、4、5、10、11に対応する属性はそれぞれ国籍、学位、卒業学校、創立企業、サービス、分野であることを確定できる。   Finally, the column example corresponding to the column with unknown attribute is linked with the entity in the LOD knowledge base, and the attribute corresponding to the table column is determined using the knowledge in the LOD knowledge base. For example, by linking the fourth column in FIG. 1A with the LOD knowledge base, it can be seen that the attributes corresponding to “Tsinghua University” and “Stanford University” are both “university” based on the LOD knowledge base. By such a method, it can be determined that the attributes corresponding to the second, third, fourth, fifth, tenth and eleventh are nationality, degree, graduation school, founding company, service and field, respectively.

一例として、テーブル列の対応属性の識別に全体協同識別を用いて、即ち、識別結果は特定の列実例に依存するものではなく、該列中の複数の列実例の協同識別の結果である。例えば、ある列にn個の実例があり、そのうちm個が属性pに対応し、n−m個が属性pに対応する場合、最終的に該列の種類を所定の条件に基づいて決定することができる。m>(n−m)且つm/nが所定値より大きい場合、該列に対応する属性がpである。所定の条件を満たさない場合は、識別できないため、該列を無視してもよい。 As an example, using global cooperative identification to identify the corresponding attribute of a table column, i.e., the identification result is not dependent on a particular column instance, but is the result of the cooperative identification of multiple column instances in that column. For example, there are n instances in a column, of which corresponds to m attributes p a, if n-m number corresponds to the attribute p b, eventually based on the type of said column to a predetermined condition Can be determined. If m> (n-m) and m / n is larger than a predetermined value, the attribute corresponding to said column is a p a. If the predetermined condition is not satisfied, the column cannot be identified and the column may be ignored.

上記のプロセスにより、列属性確定ユニット202はテーブル中の列毎の属性を確定することができる。   Through the above process, the column attribute determination unit 202 can determine the attribute for each column in the table.

続いて、記述対象確定ユニット204は、確定された列毎の属性を語彙知識ベースとリンクさせることにより、テーブル中の記述対象を確定することができる。   Subsequently, the description target determination unit 204 can determine the description target in the table by linking the determined attribute for each column with the vocabulary knowledge base.

図3は図2の記述対象確定ユニット204の一例示的な構成を示すブロック図である。   FIG. 3 is a block diagram showing an exemplary configuration of the description target determination unit 204 of FIG.

図3が示すように、記述対象確定ユニット204は実体列数確定サブユニット2042、記述対象集合確定サブユニット2044、記述対象条件確率確定サブユニット2046と記述対象確定サブユニット2048を含む。   As shown in FIG. 3, the description target determination unit 204 includes an entity column number determination subunit 2042, a description target set determination subunit 2044, a description target condition probability determination subunit 2046, and a description target determination subunit 2048.

多くの場合、記述対象は実体であり、実体列数確定サブユニット2042は、列属性確定ユニット202によって得られた、LOD知識ベースとのリンク結果に基づき、実体を含む列を見つけ、実体を含む列数を得て、Nと記す。   In many cases, the description target is an entity, and the entity column number determination subunit 2042 finds a column including the entity based on the link result with the LOD knowledge base obtained by the column attribute determination unit 202, and includes the entity. Obtain the number of columns and write N.

属性pが既知の場合、LODから確率P(s|p)を統計することができる。ここで、sは記述対象変量であり、pは属性変量であり、P(s|p)は、ある属性pが知られている場合pによってsを記述できる確率を意味する。 If the attribute p j is known, the probability P (s i | p j ) can be statistics from the LOD. Here, s i is a description target variable, p j is an attribute variable, and P (s i | p j ) is a probability that s i can be described by p j when a certain attribute p j is known. means.

テーブルTがc列を有するとすると、テーブル中の列毎の属性p(j=1、2、・・・c)のいずれについて、LOD中から一つの記述対象集合Sが得られ、合計c個の記述対象集合を得ることができる。記述対象集合確定サブユニット2044を用いて、列毎の属性に対応する記述対象集合を得ることができる。 Assuming that the table T has c columns, one description target set S j is obtained from the LOD for any of the attributes p j (j = 1, 2,... C) for each column in the table, and the total It is possible to obtain c description object sets. Using the description target set determination subunit 2044, a description target set corresponding to the attribute for each column can be obtained.

各記述対象集合中の各記述対象sはいずれも一つの条件確率P(s|p)を有し、集合Sを<s、P(s|p)>の集合と表示してもよい。記述対象条件確率確定サブユニット2046は、LOD知識ベースに基づいて、列毎の属性に対応する記述対象集合中の各記述対象を該属性によって記述できる条件確率を確定することができる。 Each description object s i in each description object set has one conditional probability P (s i | p j ), and the set S is expressed as a set of <s i , P (s i | p j )>. May be. The description target condition probability determination subunit 2046 can determine a condition probability that can describe each description target in the description target set corresponding to the attribute for each column based on the LOD knowledge base.

一つの記述対象sが複数の属性によって記述される可能性があるため、sが複数の記述対象集合に現れる可能性があり、sが異なる属性によって記述される複数の条件確率P(s|p)、P(s|p)・・・を得ることになる。 There is a possibility that one of the described subject s i is described by a plurality of attributes, s i is can appear in multiple descriptions target set, a plurality of conditions the probability that s i is described by a different attribute P ( s i | p 1 ), P (s i | p 2 )...

記述対象確定サブユニット2048は、各記述対象がすべての記述対象集合における条件確率に基づいて、テーブルTの記述対象を確定することができる。   The description target determination subunit 2048 can determine the description target of the table T based on the condition probabilities of each description target in all description target sets.

一例として、記述対象確定サブユニット2048は、各記述対象sがc個の記述対象集合における条件確率の平均確率P(s)を算出し、P(s)を大きい方から小さい方の順に配列させて、前N個の記述対象をテーブルTの記述対象とすることができる。 As an example, the description target determination subunit 2048 calculates the average probability P (s i ) of the conditional probabilities in the set of c description targets for each description target s i, and sets P (s i ) from the larger one to the smaller one. By arranging them in order, the previous N description objects can be used as the description object of the table T.

別の例において、記述対象確定サブユニット2048は各記述対象sがc個の記述対象集合における全条件確率の合計P(ssumを算出し、P(ssumを大きい方から小さい方の順に配列させて、前N個の記述対象をテーブルTの記述対象とすることができる。 In another example, the description target determination subunit 2048 calculates the sum P (s i ) sum of all condition probabilities in the set of c description objects for each description target s i, and increases P (s i ) sum from the larger one. By arranging them in order from the smallest one, the previous N description objects can be used as the description object of the table T.

記述対象確定ユニット204により確定された各記述対象sについて、記述対象関連属性確定ユニット206は、LODから各記述対象sの属性集合Psを得て、属性集合Ps中の各属性pとテーブル中の列毎の属性pとの類似度sim(p、p)を算出し、類似度sim(p、p)に基づいてテーブル中の記述対象に関連する列を確定することができる。例えば、類似度sim(p、p)が所定の閾値より大きい場合、属性pと記述対象sとが関連すると見なす。 For each description target s i determined by the description target determination unit 204, the description target related attribute determination unit 206 obtains the attribute set Ps i of each description target s i from the LOD, and each attribute p in the attribute set Ps i s and similarity sim between attributes p t of each row in the table (p s, p t) is calculated, the similarity sim (p s, p t) columns associated with recitations in the table on the basis of It can be confirmed. For example, when the similarity sim (p s , p t ) is larger than a predetermined threshold, it is considered that the attribute p t and the description target s i are related.

属性pとpの類似度算出に使用可能な具体的な手段又は方式について当業者は熟知しているため、ここで詳しく説明しない。 Those skilled in the art are familiar with the specific means or schemes that can be used to calculate the similarity between the attributes p s and p t and will not be described in detail here.

一例示的な実施例において、記述対象関連属性確定ユニット206はさらに、各属性pの値vとテーブル中の列毎の実例vとの類似度sim(v、v)を算出する。そして、類似度sim(p、p)と類似度sim(v、v)の重み付け和を算出する。 Calculated in an exemplary embodiment, description target related attribute determination unit 206 further the similarity sim (v s, v t) of the Illustrative v t for each column in the value v s and the table for each attribute p s To do. Then, to calculate the weighted sum of the similarity sim (p s, p t) and the similarity sim (v s, v t) .

sim= αsim(p、p)+(1−α)sim(v、v)、ここで、αは所定の係数である。 sim = α * sim (p s , p t) + (1-α) sim (v s, v t), where, alpha is a predetermined coefficient.

重み付け類似度simに基づいて、テーブル中の記述対象に関連する列を確定することができる。simが所定の閾値より大きい場合、属性pと記述対象sとが関連する。 Based on the weighted similarity sim, a column related to the description target in the table can be determined. When sim is larger than a predetermined threshold, the attribute pt and the description target s i are related.

一例示的な実施例において、記述対象関連属性確定ユニット206はさらに、テーブル列からある記述対象sの関連属性が見つからなかった場合、該記述対象の属性集合中の属性がテーブル中の属性のいずれとも関連しないと判断し、該記述対象sを無視することができる。 In one exemplary embodiment, described target related attribute determination unit 206 further, when not found associated attributes DESCRIPTION subject s i in the table column, the attribute in the attribute sets of the description is of an attribute in the table It can be determined that it is not related to any of them, and the description object s i can be ignored.

列属性確定ユニット202、記述対象確定ユニット204、記述対象関連属性確定ユニット206によってテーブルの記述対象と記述対象に関連する属性とが既に確定された場合、テーブル再構成ユニット208は確定された記述対象と記述対象に関連する属性とを用いてテーブルを再構成することができる。   When the column description determination unit 202, the description target determination unit 204, and the description target related attribute determination unit 206 have already determined the table description target and the attribute related to the description target, the table reconstruction unit 208 determines the description target And the attribute related to the description object can be used to reconstruct the table.

本発明の一実施例に基づくテーブルを再構成する装置200により、図1Aが示すテーブルを再構成して、図1Bと図1C示すような構造が簡単で、記述対象が単一形式の二つの単一記述対象のテーブルにすることができる。   The table 200 shown in FIG. 1A is reconfigured by the apparatus 200 for reconfiguring the table according to an embodiment of the present invention, and the structure shown in FIGS. It can be a single table.

以上、本発明の実施例に基づくテーブルを再構成するための装置の説明において、一部の処理又は方法も開示されていることは明らかである。以下はこれらの方法の概説を述べるが、前文において既に検討された一部の詳細を重複しない。なお、テーブルを再構成するための装置の概説においてこれらの方法を開示しているが、これらの方法は必ずしも上記部品を用いると限らず、又はこれらの部品によって実行されるとも限らないことに注意すべきである。例えば、テーブルを再構成する装置の実施形態の一部又は全部をハードウエア及び/又はファームウエアによって実現することが可能であり、以下に検討するテーブルを再構成する方法をすべてコンピュータが実行可能なプログラムによって実現することも可能であり、これらの方法はテーブルを再構成する装置のハードウエア及び/又はファームウエアを用いることも可能である。   As mentioned above, it is obvious that some processes or methods are also disclosed in the description of the apparatus for reconstructing the table according to the embodiment of the present invention. The following outlines these methods but does not duplicate some of the details already discussed in the preamble. Although these methods are disclosed in the overview of the apparatus for reconfiguring the table, it should be noted that these methods are not necessarily used by the above-described parts or executed by these parts. Should. For example, some or all of the embodiments of the apparatus for reconfiguring the table can be realized by hardware and / or firmware, and the computer can execute all the methods for reconfiguring the table to be discussed below. It can also be realized by a program, and these methods can use hardware and / or firmware of a device for reconfiguring the table.

ここで説明すべきなのは、図2−3が示すテーブルを再構成する装置200及びその構成ユニットの構造は例示に過ぎず、当業者は必要に応じて図2−3が示す構造ブロック図を変更することが可能である。   It should be noted here that the structure of the apparatus 200 for reconfiguring the table shown in FIG. 2-3 and the structure of its constituent units are merely examples, and those skilled in the art can change the structural block diagram shown in FIG. 2-3 as needed. Is possible.

図4は本発明の一実施例に基づくテーブルを再構成する方法400を示すフローチャートである。   FIG. 4 is a flowchart illustrating a method 400 for reconstructing a table according to one embodiment of the present invention.

まず、ステップS402において、テーブル中の列毎の属性を確定する。   First, in step S402, the attribute for each column in the table is determined.

具体的に、テーブルが列タイトルを有する場合、テーブルの列タイトルを語彙知識ベース中の属性とリンクさせて、対応する列毎の属性を得る。テーブルが列タイトルを有しない場合、正規表現式による識別、姓氏辞書による識別、住所知識ベースによる識別、地図検索エンジンによる識別、及び語彙知識ベース中の実体とリンクさせて識別する方法のうち一つ又は複数の識別方法を用いて、テーブル中の列毎の属性を確定する。   Specifically, when a table has a column title, the column title of the table is linked with an attribute in the vocabulary knowledge base to obtain a corresponding attribute for each column. If the table does not have a column title, one of the regular expression expression identification, the surname dictionary identification, the address knowledge base identification, the map search engine identification, and the linking to an entity in the vocabulary knowledge base Alternatively, attributes for each column in the table are determined using a plurality of identification methods.

続いて、ステップS404において、確定された列毎の属性を語彙知識ベースとリンクさせることにより、テーブル中の記述対象を確定する。   Subsequently, in step S404, the description target in the table is determined by linking the determined attribute for each column with the vocabulary knowledge base.

図5は図4中のステップS404(確定された列毎の属性を語彙知識ベースとリンクさせることにより、テーブル中の記述対象を確定する)の一例示的なプロセスを示すフローチャートである。   FIG. 5 is a flowchart showing an exemplary process of step S404 in FIG. 4 (determining the description target in the table by linking the determined attribute for each column with the vocabulary knowledge base).

図5が示すように、ステップS4042において、ステップS302で確定された列毎の属性に基づいて、実体を含む列の列数Nを得る。   As shown in FIG. 5, in step S4042, the number N of columns including the entity is obtained based on the attribute for each column determined in step S302.

ステップS4044において、列毎の属性に対応する記述対象集合を得る。   In step S4044, a description target set corresponding to the attribute for each column is obtained.

続いて、ステップS4046において、語彙知識ベースに基づいて、列毎の属性に対応する記述対象集合中の各記述対象を当該属性によって記述できる条件確率を確定する。   Subsequently, in step S4046, based on the vocabulary knowledge base, the condition probability that each description object in the description object set corresponding to the attribute for each column can be described by the attribute is determined.

最後に、ステップS4048において、各記述対象の条件確率に基づいて、テーブルの記述対象を確定することができる。   Finally, in step S4048, the description target of the table can be determined based on the condition probability of each description target.

一例として、各記述対象の条件確率に基づいてテーブルの記述対象を確定するステップは、各記述対象sがc個の記述対象集合における条件確率の平均確率P(s)を算出し、P(s)を大きい方から小さい方の順に配列させて、前N個の記述対象をテーブルTの記述対象とすることを含んでもよい。 As an example, the step of determining the description object of the table based on the condition probability of each description object calculates the average probability P (s i ) of the condition probabilities in the set of c description objects for each description object s i , P (S i ) may be arranged in order from the largest to the smallest to include the previous N description objects as the description objects of the table T.

別の例において、各記述対象の条件確率に基づいてテーブルの記述対象を確定するステップは、各記述対象sがc個の記述対象集合における全条件確率の合計P(ssumを算出し、P(ssumを大きい方から小さい方の順に配列させて、前N個の記述対象をテーブルTの記述対象とすることを含んでもよい。 In another example, the step of determining the description target of the table based on the condition probabilities of each description target is to calculate a total P (s i ) sum of all condition probabilities in the set of c description targets for each description target s i. Then, P (s i ) sum may be arranged in order from the largest to the smallest, and the previous N description objects may be set as the description objects of the table T.

ステップS404で確定された各記述対象sについて、ステップS406において、LODから記述対象sの属性集合Psを得て、属性集合Ps中の各属性pとテーブル中の列毎の属性pとの類似度sim(p、p)を算出し、類似度sim(p、p)に基づいてテーブル中の記述対象に関連する列を確定することができる。例えば、類似度sim(p、p)が所定の閾値より大きい場合、属性pと記述対象sが関連すると見なす。 For each description object s i which is determined in the step S404, in step S406, obtains the attribute set Ps i DESCRIPTION subject s i from LOD, attributes of each column in each attribute p s and the table in the attribute set Ps i similarity sim (p s, p t) and p t is calculated, it is possible to determine the sequence associated with the recitations in the table based on the similarity sim (p s, p t) . For example, when the similarity sim (p s , p t ) is larger than a predetermined threshold, it is considered that the attribute p t and the description target s i are related.

一実施例において、さらに、各属性pの値vとテーブル中の列毎の実例vとの類似度sim(v、v)を算出する。そして、類似度sim(p、p)と類似度sim(v、v)の重み付け和を算出する。 In one embodiment, further, it calculates the similarity sim (v s, v t) of the Illustrative v t for each column in the value v s and the table for each attribute p s. Then, to calculate the weighted sum of the similarity sim (p s, p t) and the similarity sim (v s, v t) .

sim=αsim(p、p)+(1−α)sim(v、v)、そのうち、αは所定の係数である。 sim = α * sim (p s , p t) + (1-α) sim (v s, v t), of which, α is a predetermined coefficient.

重み付け類似度simに基づいてテーブル中の記述対象に関連する列を確定することができる。simが所定の閾値より大きい場合、pと記述対象sが関連する。 A column related to the description target in the table can be determined based on the weighted similarity sim. If sim is greater than a predetermined threshold value, p t the recitations s i is associated.

一例示的な実施例において、さらに、テーブル列からある記述対象sの関連属性が見つからなかった場合、該記述対象の属性集合中の属性がテーブル中の属性のいずれとも関連しないと判断し、該記述対象sを無視してもよい。 In an exemplary embodiment, if a related attribute of a description object s i is not found from the table sequence, it is determined that an attribute in the attribute set of the description object is not related to any of the attributes in the table; The description object s i may be ignored.

最後に、ステップS408において、上記のステップS402−S406で確定されたテーブルの記述対象と記述対象に関連する属性に基づいて、テーブルを再構成することができる。   Finally, in step S408, the table can be reconfigured based on the description target of the table determined in steps S402 to S406 and the attributes related to the description target.

本発明の一実施例に基づくテーブルを再構成する方法400により、図1Aが示すテーブルを再構成して、図1Bと図1Cが示すような構造が簡単で、記述対象が単一形式の二つの単一記述対象のテーブルにすることができる。   The table 400 shown in FIG. 1A is reconfigured by the method 400 for reconfiguring the table according to one embodiment of the present invention, and the structure as shown in FIGS. It can be a single table for single description.

テーブルを再構成する方法400の各ステップの詳細について、図2−3に基づいて説明した本発明のテーブルを再構成する装置の実施例を参照できるため、ここでは詳しく説明しない。   Details of each step of the method 400 for restructuring the table can be referred to the embodiment of the apparatus for restructuring the table of the present invention described with reference to FIGS.

本発明が提供するテーブル再構成装置と方法は、構造が複雑で、フィールドが重複し、複数の記述対象と属性を含むテーブルを再構成して、構造が簡単で、記述対象が単一形式の単一記述対象テーブルにすることにより、効率よく知識を取得する。   The table reconstructing apparatus and method provided by the present invention have a complicated structure, duplicate fields, reconstruct a table including a plurality of description objects and attributes, and have a simple structure and a single description object. Knowledge is efficiently acquired by using a single description target table.

以上、具体的な実施例を用いて本発明の基本原理を説明したが、当業者であれば、本発明の方法と装置の全部又は任意のステップ若しくは部品を、任意のコンピュータ装置(プロセッサ、記憶媒体などを含む)又はコンピュータ装置のネットワークにおいて、ハードウエア、ファームウエア、ソフトウエア又はこれらの組み合わせによって実現可能であることを理解できる。これは、当業者が本発明の説明を読解し、自身のプログラミング基礎技能を応用すれば実現できることである。   Although the basic principle of the present invention has been described above using specific embodiments, those skilled in the art will recognize all or any step or part of the method and apparatus of the present invention in any computer device (processor, memory). It can be understood that the present invention can be realized by hardware, firmware, software, or a combination thereof in a network of computer devices). This can be achieved by those skilled in the art after reading the description of the present invention and applying their programming basic skills.

従って、任意のコンピュータ装置において一つのプログラム又は一組のプログラムを実行することでも本発明の目的を実現できる。上記コンピュータ装置は周知の汎用装置であってもよい。従って、本発明の目的は、上記方法又は装置を実現するプログラムコードを含むプログラム製品を提供するだけでも実現できる。つまり、このようなプログラム製品も本発明に属し、またこのようなプログラム製品を記憶した記憶媒体も本発明に属する。言うまでのなく、上記記憶媒体は任意の周知記憶媒体、又は将来開発される可能性のある任意の記憶媒体であってもよい。   Therefore, the object of the present invention can be realized by executing one program or a set of programs in an arbitrary computer apparatus. The computer device may be a known general-purpose device. Therefore, the object of the present invention can be realized only by providing a program product including a program code for realizing the above method or apparatus. That is, such a program product also belongs to the present invention, and a storage medium storing such a program product also belongs to the present invention. Needless to say, the storage medium may be any known storage medium or any storage medium that may be developed in the future.

ソフトウエア及び/又はファームウエアによって本発明の実施例を実現する場合、記憶媒体又はネットワークから、専用のハードウエア構造を有するコンピュータ、例えば図6が示す汎用コンピュータ600へ該ソフトウエアを構成するプログラムをインストールし、該コンピュータに各種プログラムがインストールされると、各種機能などを実現できる。   When the embodiment of the present invention is realized by software and / or firmware, a program that configures the software from a storage medium or a network to a computer having a dedicated hardware structure, for example, the general-purpose computer 600 shown in FIG. When installed and various programs are installed in the computer, various functions and the like can be realized.

図6において、中央処理ユニット(CPU)601は、読み出し専用メモリ(ROM)602に記憶されているプログラム又は記憶部608からランダムアクセスメモリ(RAM)603へアップロードされたプログラムに基づき、各種の処理を行う。RAM603において、必要であれば、CPU601が各種処理などを実行する際に必要なデータを記憶する。CPU601、ROM602とRAM603はバス604によって互いにリンクする。入力/出力インタフェース605もバス604にリンクする。   In FIG. 6, a central processing unit (CPU) 601 performs various processes based on a program stored in a read-only memory (ROM) 602 or a program uploaded from a storage unit 608 to a random access memory (RAM) 603. Do. If necessary, the RAM 603 stores data necessary for the CPU 601 to execute various processes. The CPU 601, ROM 602, and RAM 603 are linked to each other by a bus 604. Input / output interface 605 is also linked to bus 604.

以下の部品が入力/出力インタフェース605にリンクする:入力部606(キーボード、マウスなどを含む)、出力部607(例えばブラウン管(CRT)、液晶ディスプレイ(LCD)などのディスプレイ、スピーカーなどを含む)、記憶部608(ハードディスクなどを含む)、通信部609(LANカードなどのネットワークインタフェース、モデムなどを含む。通信部609は例えばインタネットなどのネットワークを介して通信処理を行う。必要であれば、ドライブ610も入力/出力インタフェース605にリンクすることができる。脱着可能な媒体611、例えば磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどをドライブ610に実装し、必要に応じてその中からコンピュータプログラムを読み出して、記憶部608にインストールすることができる。   The following parts link to the input / output interface 605: an input unit 606 (including a keyboard, a mouse, etc.), an output unit 607 (including a display such as a cathode ray tube (CRT) or a liquid crystal display (LCD), a speaker, etc.), A storage unit 608 (including a hard disk or the like), a communication unit 609 (including a network interface such as a LAN card, a modem, etc.) The communication unit 609 performs communication processing via a network such as the Internet. Can also be linked to the input / output interface 605. A removable medium 611, for example, a magnetic disk, an optical disk, a magneto-optical disk, a semiconductor memory, etc. is mounted on the drive 610, and a computer program is read out from the medium as necessary. Write It can be installed in the section 608.

上記一連の処理をソフトウエアによって実現する場合、インタネットなどのネットワーク又は脱着可能な媒体611などの記憶媒体から、ソフトウエアを構成するプログラムをインストールする。   When the above-described series of processing is realized by software, a program constituting the software is installed from a network such as the Internet or a storage medium such as a removable medium 611.

当業者は、上記記憶媒体が図6に示すような、プログラムを記憶し、装置と離れた形でユーザへプログラムを提供する脱着可能な媒体611に限定されないことを理解すべきである。脱着可能な媒体611の例として、磁気ディスク(フロッピディスク(登録商標))、光ディスク(光ディスク読み出し専用メモリ(CD−ROM)とデータ多目的ディスク(DVD)を含む)、光磁気ディスク(ミニディスク(MD)(登録商標))と半導体メモリを含む。又は、記憶媒体はROM602、記憶部608に含まれるハードディスクなどであって、その中にプログラムが記憶され、かつこれらを含む装置と一緒にユーザに提供されてもよい。   Those skilled in the art should understand that the storage medium is not limited to the removable medium 611 that stores the program and provides the program to the user apart from the apparatus as shown in FIG. Examples of the removable medium 611 include a magnetic disk (floppy disk (registered trademark)), an optical disk (including an optical disk read-only memory (CD-ROM) and a data multipurpose disk (DVD)), a magneto-optical disk (mini disk (MD ) (Registered trademark)) and a semiconductor memory. Alternatively, the storage medium may be a ROM 602, a hard disk included in the storage unit 608, etc., in which a program is stored and provided to a user together with a device including these.

本発明はさらにマシンが読み出し可能な命令を含むプログラムを提供する。命令は装置に読み取られて実行される時、上記本発明の実施例による方法を実行することができる。   The present invention further provides a program including instructions readable by a machine. When the instructions are read and executed by the apparatus, the above-described method according to the embodiment of the present invention can be executed.

これに応じて、前記マシンが読み出し可能な命令のプログラムを乗せるための記憶媒体も本発明に含まれる。記憶媒体はフロッピディスク、光ディスク、光磁気ディスク、メモリカード、メモリスティックなどを含むが、これらに限定されない。   Accordingly, a storage medium for storing a program of instructions that can be read by the machine is also included in the present invention. Storage media include, but are not limited to, floppy disks, optical disks, magneto-optical disks, memory cards, memory sticks, and the like.

当業者は、ここで挙げた内容は例示であり、本発明がこれに限定されないことを理解すべきである。   Those skilled in the art should understand that what has been described here is illustrative and the present invention is not limited thereto.

本明細書における「第一」、「第二」及び「第N個」などの表現は、本発明を明確に説明するため、その特徴を文字記載で区別するものである。従って、これらの表現は何らの限定的な意味を持つものではない。   In the present specification, expressions such as “first”, “second”, and “Nth” are used to clearly distinguish the features of the present invention in order to clearly describe the present invention. Therefore, these expressions do not have any limiting meaning.

一例として、上記方法の各ステップ及び上記装置の各構成部及び/又はユニットをソフトウエア、ファームウエア、ハードウエア又はこれらの組み合わせによって実現し、かつ関連装置の一部とすることができる。上記装置の各構成部、ユニットをソフトウエア、ファームウエア、ハードウエア又はこれらの組み合わせ方式で構成する際に用いられる手段や方法について、当業者が熟知しているため、ここで省略する。   As an example, each step of the method and each component and / or unit of the device may be implemented by software, firmware, hardware, or a combination thereof and may be part of an associated device. Since those skilled in the art are familiar with the means and methods used to configure each component and unit of the above-described apparatus by software, firmware, hardware, or a combination thereof, they are omitted here.

一例として、ソフトウエア又はファームウエアによって実現する場合、記憶媒体又はネットワークから、専用のハードウエア構造を有するコンピュータ(例えば、図6が示す汎用コンピュータ600)へ該ソフトウエアを構成するプログラムをインストールし、該コンピュータに各種プログラムがインストールされた場合、各種機能などを実現できる。   As an example, when realized by software or firmware, a program constituting the software is installed from a storage medium or a network to a computer having a dedicated hardware structure (for example, the general-purpose computer 600 shown in FIG. 6), When various programs are installed in the computer, various functions can be realized.

以上に説明した本発明の具体的な実施例において、一つの実施形態によって説明及び/又は示された特徴を同じ又は類似する方式で一つ又はより多いその他の実施形態に応用し、その他の実施形態の特徴と組み合わせて、又はその他の実施形態の特徴を代替することができる。   In the specific embodiments of the present invention described above, the features described and / or illustrated by one embodiment may be applied to one or more other embodiments in the same or similar manner to other implementations. It can be combined with features of the form, or can replace features of other embodiments.

なお、本文で使われる「含む/含まれる」という用語は特徴、要素、ステップ又は構成部の存在を意味するが、一つ又はより多いその他の特徴、要素、ステップ又は構成部の存在や付加を排除するものではない。   As used herein, the term “include / include” means the presence of a feature, element, step or component, but the presence or addition of one or more other features, elements, steps or components. It is not excluded.

さらに、本発明の方法は、明細書に記載された時間順の実行に限定されず、その他の時間順に従って並行又は個別に実行されてもよい。従って、本明細書で説明した方法の実行順番は本発明の技術範囲を制限するものではない。   Furthermore, the method of the present invention is not limited to the execution in time order described in the specification, and may be executed in parallel or individually according to other time orders. Accordingly, the execution order of the methods described herein does not limit the technical scope of the present invention.

本発明及びその利点を説明したが、添付の請求の範囲によって限定される本発明の精神及び範囲内に、さまざまな修正、代替又は変換を施すことができる。かつ、本発明の範囲は明細書で説明されたプロセス、装置、手段、方法とステップの具体的な実施例に限定されない。当業者は本発明が開示した内容から、本発明に基づき、これらに対応する実施例と基本的に同じ機能を実行し、又はそれと基本的に同じ結果が得られる現有の又は将来的に開発可能なプロセス、装置、手段、方法又はステップを利用することが可能であることを簡単に理解できる。従って、添付の請求の範囲は、その範囲内にこれらのプロセス、装置、手段、方法又はステップも含まれることを意味する。   While the invention and its advantages have been described, various modifications, substitutions or transformations may be made within the spirit and scope of the invention as defined by the appended claims. In addition, the scope of the present invention is not limited to the specific embodiments of the processes, devices, means, methods and steps described in the specification. Those skilled in the art can, based on the present invention, carry out basically the same functions as those corresponding to these embodiments, or develop the present or future in which basically the same results can be obtained. It can be easily understood that various processes, devices, means, methods or steps can be used. Accordingly, the appended claims are intended to include within their scope these processes, apparatus, means, methods, or steps.

以上の説明からわかるように、少なくとも以下の技術方案が開示されている。   As can be understood from the above description, at least the following technical solutions are disclosed.

(付記1)
テーブル再構成装置であって、
テーブル中の列毎の属性を確定するように構成された列属性確定ユニットと、
確定された列毎の属性を語彙知識ベースとリンクさせることにより、前記テーブル中の記述対象を確定するように構成された記述対象確定ユニットと、
前記語彙知識ベースにおいて各記述対象の属性集合を確定して、前記テーブル中の列毎の属性と前記属性集合中の各属性との第一類似度を算出して、前記テーブル中の前記記述対象に関連する属性を確定するように構成された記述対象関連属性確定ユニットと、
前記記述対象と前記記述対象に関連する属性とを用いてテーブルを再構成するように構成されたテーブル再構成ユニットとを含む装置。
(Appendix 1)
A table reconstruction device,
A column attribute determination unit configured to determine an attribute for each column in the table;
A description object determination unit configured to determine a description object in the table by linking a determined attribute for each column with a vocabulary knowledge base;
Determine the attribute set of each description object in the vocabulary knowledge base, calculate the first similarity between the attribute for each column in the table and each attribute in the attribute set, and the description object in the table A description target related attribute determination unit configured to determine an attribute related to
An apparatus comprising: a table reconstruction unit configured to reconstruct a table using the description object and attributes associated with the description object.

(付記2)
前記列属性確定ユニットはさらに、
前記テーブルが列タイトルを有する場合、前記テーブルの列タイトルを前記語彙知識ベース中の属性とリンクさせて、対応する列毎の属性を得、
前記テーブルが列タイトルを有しない場合、正規表現式による識別、姓氏辞書による識別、住所知識ベースによる識別、地図検索エンジンによる識別、及び前記語彙知識ベース中の実体とリンクさせて識別する方法のうち一つ又は複数の識別方法を用いて、前記テーブル中の列毎の属性を確定するように構成された、付記1に記載の装置。
(Appendix 2)
The column attribute determination unit further includes:
If the table has a column title, link the column title of the table with an attribute in the vocabulary knowledge base to obtain a corresponding attribute for each column;
If the table does not have a column title, among a method of identification by regular expression expression, identification by surname dictionary, identification by address knowledge base, identification by map search engine, and identification by linking with an entity in the vocabulary knowledge base The apparatus of claim 1 configured to determine attributes for each column in the table using one or more identification methods.

(付記3)
前記記述対象確定ユニットは、
確定された列毎の属性に基づいて、実体を含む列の列数Nを得るように構成された実体列数確定サブユニットと、
前記列毎の属性に対応する記述対象集合を得るように構成された記述対象集合確定サブユニットと、
前記語彙知識ベースに基づいて、前記列毎の属性に対応する記述対象集合中の各記述対象を当該属性によって記述できる条件確率を確定するように構成された記述対象条件確率確定サブユニットと、
各記述対象の条件確率に基づいて、前記テーブルの記述対象を確定するように構成された記述対象確定サブユニットとを含む、付記1に記載の装置。
(Appendix 3)
The description target determination unit is:
An entity column number determining subunit configured to obtain a column number N of columns including the entity based on the determined attribute for each column;
A description object set determination subunit configured to obtain a description object set corresponding to the attribute for each column;
A description target condition probability determination subunit configured to determine a condition probability that each description target in the description target set corresponding to the attribute for each column can be described by the attribute based on the vocabulary knowledge base;
The apparatus according to claim 1, further comprising: a description object determination subunit configured to determine a description object of the table based on a condition probability of each description object.

(付記4)
前記記述対象確定サブユニットはさらに、
各記述対象がすべての記述対象集合における条件確率の和又は平均条件確率を算出し、
各記述対象の条件確率の和又は平均条件確率を大きい方から小さい方の順に配列させて、前N個の記述対象を前記テーブルの記述対象とするように構成された、付記3に記載の装置。
(Appendix 4)
The description target determination subunit further includes:
Each description object calculates the sum of condition probabilities or average condition probability in all description object sets,
The apparatus according to attachment 3, wherein the sum of the conditional probabilities of each description object or the average condition probability is arranged in order from the largest to the smallest, and the previous N description objects are set as the description objects of the table. .

(付記5)
前記記述対象関連属性確定ユニットはさらに、
前記テーブル中の列毎の実例と前記属性集合中の各属性の値との第二類似度を算出し、
前記第一類似度と前記第二類似度の重み付け和を求め、重み付け類似度を得て、
前記重み付け類似度が所定の閾値より大きい列の属性を前記テーブル中の前記記述対象に関連する属性と確定するように構成された、付記1に記載の装置。
(Appendix 5)
The description target related attribute determination unit further includes:
Calculating the second similarity between the example of each column in the table and the value of each attribute in the attribute set;
Obtain a weighted sum of the first similarity and the second similarity, obtain a weighted similarity,
The apparatus according to claim 1, configured to determine an attribute of a column having the weighted similarity greater than a predetermined threshold as an attribute related to the description target in the table.

(付記6)
前記記述対象関連属性確定ユニットはさらに、
前記記述対象の属性集合中の属性が前記テーブル中の属性のいずれにも関連しない場合、該記述対象を廃棄するように構成された、付記1に記載の装置。
(Appendix 6)
The description target related attribute determination unit further includes:
The apparatus of claim 1, configured to discard a description object if an attribute in the attribute set of the description object is not related to any of the attributes in the table.

(付記7)
前記列属性確定ユニットはさらに、
ある列中の実例が複数の属性に対応する場合、所定の条件に基づいて該列の属性を確定し、
所定の条件を満たさない場合、該列を無視するように構成された、付記1に記載の装置。
(Appendix 7)
The column attribute determination unit further includes:
When an example in a column corresponds to a plurality of attributes, the column attribute is determined based on a predetermined condition,
The apparatus of claim 1 configured to ignore the column if a predetermined condition is not met.

(付記8)
前記所定の条件として、複数の属性中のある属性に対応する実例の数がその他の属性に対応する実例の数より大きい場合、該属性を該列の属性と確定する、付記7に記載の装置。
(Appendix 8)
The apparatus according to claim 7, wherein, as the predetermined condition, when the number of examples corresponding to an attribute among a plurality of attributes is larger than the number of examples corresponding to other attributes, the attribute is determined as an attribute of the column. .

(付記9)
再構成されたテーブルが単一記述対象テーブルである、付記1に記載の装置。
(Appendix 9)
The apparatus according to appendix 1, wherein the reconstructed table is a single description target table.

(付記10)
テーブル再構成方法であって、
テーブル中の列毎の属性を確定するステップと、
確定された列毎の属性を語彙知識ベースとリンクさせることにより、前記テーブルの記述対象を確定するステップと、
前記語彙知識ベースにおいて各記述対象の属性集合を確定して、前記テーブル中の列毎の属性と前記属性集合中の各属性との第一類似度を算出して、前記テーブル中の前記記述対象に関連する属性を確定するステップと、
前記記述対象と前記記述対象に関連する属性とを用いて、テーブルを再構成するステップとを含む方法。
(Appendix 10)
A table reconstruction method,
Determining the attributes for each column in the table;
Determining the description target of the table by linking the determined attribute for each column with the vocabulary knowledge base;
Determine the attribute set of each description object in the vocabulary knowledge base, calculate the first similarity between the attribute for each column in the table and each attribute in the attribute set, and the description object in the table Determining the attributes associated with
Reconfiguring a table using the description object and attributes associated with the description object.

(付記11)
テーブル中の列毎の属性を確定するステップは、
前記テーブルが列タイトルを有する場合、前記テーブルの列タイトルを前記語彙知識ベース中の属性とリンクさせて、対応する列毎の属性を得るステップと、
前記テーブルが列タイトルを有しない場合、正規表現式による識別、姓氏辞書による識別、住所知識ベースによる識別、地図検索エンジンによる識別、及び前記語彙知識ベース中の実体とリンクさせて識別する方法のうち一つ又は複数の識別方法を用いて、前記テーブル中の列毎の属性を確定するステップとを含む、付記10に記載の方法。
(Appendix 11)
The step of determining the attributes for each column in the table is:
If the table has a column title, linking the column title of the table with an attribute in the vocabulary knowledge base to obtain a corresponding attribute for each column;
If the table does not have a column title, among a method of identification by regular expression expression, identification by surname dictionary, identification by address knowledge base, identification by map search engine, and identification by linking with an entity in the vocabulary knowledge base The method according to claim 10, further comprising the step of: determining an attribute for each column in the table using one or more identification methods.

(付記12)
確定された列毎の属性を語彙知識ベースとリンクさせることにより、前記テーブルの記述対象を確定するステップは、
確定された列毎の属性に基づいて、実体を含む列の列数Nを得るステップと、
前記列毎の属性に対応する記述対象集合を得るステップと、
前記語彙知識ベースに基づいて、前記列毎の属性に対応する記述対象集合中の各記述対象を当該属性によって記述できる条件確率を確定するステップと、
各記述対象の条件確率に基づいて、前記テーブルの記述対象を確定するステップとを含む、付記10に記載の方法。
(Appendix 12)
The step of determining the description target of the table by linking the determined attribute for each column with the vocabulary knowledge base,
Obtaining a column number N of columns including the entity based on the determined attribute for each column;
Obtaining a description target set corresponding to the attribute for each column;
Determining, based on the vocabulary knowledge base, a condition probability that each description object in the description object set corresponding to the attribute for each column can be described by the attribute;
The method according to claim 10, further comprising: determining a description target of the table based on a condition probability of each description target.

(付記13)
各記述対象の条件確率に基づいて、前記テーブルの記述対象を確定するステップは、
各記述対象がすべての記述対象集合における条件確率の和又は平均条件確率を算出するステップと、
各記述対象の条件確率の和又は平均条件確率を大きい方から小さい方の順に配列させて、前N個の記述対象を前記テーブルの記述対象とするステップとを含む、付記12に記載の方法。
(Appendix 13)
Based on the condition probability of each description object, the step of determining the description object of the table includes:
Calculating a sum of condition probabilities or an average condition probability for each description object set in all description object sets;
13. The method according to appendix 12, comprising: arranging the sum of the condition probabilities or the average condition probabilities of each description object in order from the largest to the smallest, and setting the previous N description objects as the description objects of the table.

(付記14)
前記テーブル中の前記記述対象に関連する属性を確定するステップはさらに、
前記テーブル中の列毎の実例と前記属性集合中の各属性の値との第二類似度を算出するステップと、
前記第一類似度と前記第二類似度の重み付け和を求め、重み付け類似度を得るステップと、
前記重み付け類似度が所定の閾値より大きい列の属性を前記テーブル中の前記記述対象に関連する属性と確定するステップを含む、付記10に記載の方法。
(Appendix 14)
The step of determining an attribute related to the description object in the table further includes:
Calculating a second similarity between an example for each column in the table and a value of each attribute in the attribute set;
Obtaining a weighted sum of the first similarity and the second similarity to obtain a weighted similarity;
The method according to claim 10, including the step of determining an attribute of the column having the weighted similarity greater than a predetermined threshold as an attribute related to the description object in the table.

(付記15)
前記語彙知識ベースにおいて各記述対象の属性集合を確定して、前記テーブル中の列毎の属性と前記属性集合中の各属性との第一類似度を算出するステップはさらに、
前記記述対象の属性集合中の属性が前記テーブル中の属性のいずれにも関連しない場合、該記述対象を廃棄するステップを含む、付記10に記載の方法。
(Appendix 15)
The step of determining the attribute set of each description target in the vocabulary knowledge base and calculating the first similarity between the attribute for each column in the table and each attribute in the attribute set further includes:
The method according to claim 10, comprising the step of discarding the description object when the attribute in the attribute set of the description object is not related to any of the attributes in the table.

(付記16)
テーブル中の列毎の属性を確定するステップは、
ある列中の実例が複数の属性に対応する場合、所定の条件に基づいて該列の属性を確定するステップと、
所定の条件を満たさない場合、該列を無視するステップとを含む、付記10に記載の方法。
(Appendix 16)
The step of determining the attributes for each column in the table is:
If an instance in a column corresponds to multiple attributes, determining the column attribute based on a predetermined condition;
The method according to claim 10, comprising the step of ignoring the column if the predetermined condition is not satisfied.

(付記17)
前記所定の条件として、複数の属性中のある属性に対応する実例の数がその他の属性に対応する実例の数より大きい場合、該属性を該列の属性と確定する、付記16に記載の方法。
(Appendix 17)
The method according to claim 16, wherein, as the predetermined condition, when the number of instances corresponding to an attribute among a plurality of attributes is larger than the number of instances corresponding to other attributes, the attribute is determined as an attribute of the column. .

(付記18)
再構成されたテーブルが単一記述対象テーブルである、付記10に記載の方法。
(Appendix 18)
The method according to appendix 10, wherein the reconstructed table is a single description target table.

202 列属性確定ユニット
204 記述対象確定ユニット
206 記述対象関連属性確定ユニット
208 テーブル再構成ユニット
2042 実体列数確定サブユニット
2044 記述対象集合確定サブユニット
2046 記述対象条件確率確定サブユニット
2048 記述対象確定サブユニット
605 入力/出力インタフェース
606 入力部
607 出力部
608 記憶部
609 通信部
610 ドライブ
611 脱着可能な媒体
202 Column attribute determination unit 204 Description target determination unit 206 Description target related attribute determination unit 208 Table reconstruction unit 2042 Substring number determination subunit 2044 Description target set determination subunit 2046 Description target condition probability determination subunit 2048 Description target determination subunit 605 Input / output interface 606 Input unit 607 Output unit 608 Storage unit 609 Communication unit 610 Drive 611 Removable medium

Claims (10)

テーブル再構成装置であって、
テーブル中の列毎の属性を確定するように構成された列属性確定ユニットと、
確定された列毎の属性を語彙知識ベースとリンクさせることにより、前記テーブル中の記述対象を確定するように構成された記述対象確定ユニットと、
前記語彙知識ベースにおいて各記述対象の属性集合を確定して、前記テーブル中の列毎の属性と前記属性集合中の各属性との第一類似度を算出して、前記テーブル中の前記記述対象に関連する属性を確定するように構成された記述対象関連属性確定ユニットと、
前記記述対象と前記記述対象に関連する属性とを用いてテーブルを再構成するように構成されたテーブル再構成ユニットとを含む装置。
A table reconstruction device,
A column attribute determination unit configured to determine an attribute for each column in the table;
A description object determination unit configured to determine a description object in the table by linking a determined attribute for each column with a vocabulary knowledge base;
Determine the attribute set of each description object in the vocabulary knowledge base, calculate the first similarity between the attribute for each column in the table and each attribute in the attribute set, and the description object in the table A description target related attribute determination unit configured to determine an attribute related to
An apparatus comprising: a table reconstruction unit configured to reconstruct a table using the description object and attributes associated with the description object.
前記列属性確定ユニットはさらに、
前記テーブルが列タイトルを有する場合、前記テーブルの列タイトルを前記語彙知識ベース中の属性とリンクさせて、対応する列毎の属性を得、
前記テーブルが列タイトルを有しない場合、正規表現式による識別、姓氏辞書による識別、住所知識ベースによる識別、地図検索エンジンによる識別、及び前記語彙知識ベース中の実体とリンクさせて識別する方法のうち一つ又は複数の識別方法を用いて、前記テーブル中の列毎の属性を確定するように構成された、請求項1に記載の装置。
The column attribute determination unit further includes:
If the table has a column title, link the column title of the table with an attribute in the vocabulary knowledge base to obtain a corresponding attribute for each column;
If the table does not have a column title, among a method of identification by regular expression expression, identification by surname dictionary, identification by address knowledge base, identification by map search engine, and identification by linking with an entity in the vocabulary knowledge base The apparatus of claim 1, wherein the apparatus is configured to determine an attribute for each column in the table using one or more identification methods.
前記記述対象確定ユニットは、
確定された列毎の属性に基づいて、実体を含む列の列数Nを得るように構成された実体列数確定サブユニットと、
前記列毎の属性に対応する記述対象集合を得るように構成された記述対象集合確定サブユニットと、
前記語彙知識ベースに基づいて、前記列毎の属性に対応する記述対象集合中の各記述対象を当該属性によって記述できる条件確率を確定するように構成された記述対象条件確率確定サブユニットと、
各記述対象の条件確率に基づいて、前記テーブルの記述対象を確定するように構成された記述対象確定サブユニットとを含む、請求項1に記載の装置。
The description target determination unit is:
An entity column number determining subunit configured to obtain a column number N of columns including the entity based on the determined attribute for each column;
A description object set determination subunit configured to obtain a description object set corresponding to the attribute for each column;
A description target condition probability determination subunit configured to determine a condition probability that each description target in the description target set corresponding to the attribute for each column can be described by the attribute based on the vocabulary knowledge base;
The apparatus according to claim 1, further comprising: a description object determination subunit configured to determine a description object of the table based on a condition probability of each description object.
前記記述対象確定サブユニットはさらに、
各記述対象がすべての記述対象集合における条件確率の和又は平均条件確率を算出し、
各記述対象の条件確率の和又は平均条件確率を大きい方から小さい方の順に配列させて、前N個の記述対象を前記テーブルの記述対象とするように構成された、請求項3に記載の装置。
The description target determination subunit further includes:
Each description object calculates the sum of condition probabilities or average condition probability in all description object sets,
The sum of the condition probabilities of each description object or the average condition probability is arranged in order from the largest to the smallest, and the previous N description objects are configured as the description objects of the table. apparatus.
前記記述対象関連属性確定ユニットはさらに、
前記テーブル中の列毎の実例と前記属性集合中の各属性の値との第二類似度を算出し、
前記第一類似度と前記第二類似度の重み付け和を求め、重み付け類似度を得て、
前記重み付け類似度が所定の閾値より大きい列の属性を前記テーブル中の前記記述対象に関連する属性と確定するように構成された、請求項1に記載の装置。
The description target related attribute determination unit further includes:
Calculating the second similarity between the example of each column in the table and the value of each attribute in the attribute set;
Obtain a weighted sum of the first similarity and the second similarity, obtain a weighted similarity,
The apparatus according to claim 1, configured to determine an attribute of a column having the weighted similarity greater than a predetermined threshold as an attribute related to the description object in the table.
前記記述対象関連属性確定ユニットはさらに、
前記記述対象の属性集合中の属性が前記テーブル中の属性のいずれにも関連しない場合、該記述対象を廃棄するように構成された、請求項1に記載の装置。
The description target related attribute determination unit further includes:
The apparatus of claim 1, configured to discard a description object if an attribute in the attribute set of the description object is not related to any of the attributes in the table.
前記列属性確定ユニットはさらに、
ある列中の実例が複数の属性に対応する場合、所定の条件に基づいて該列の属性を確定し、
所定の条件を満たさない場合、該列を無視するように構成された、請求項1に記載の装置。
The column attribute determination unit further includes:
When an example in a column corresponds to a plurality of attributes, the column attribute is determined based on a predetermined condition,
The apparatus of claim 1, configured to ignore the column if a predetermined condition is not met.
前記所定の条件として、複数の属性中のある属性に対応する実例の数がその他の属性に対応する実例の数より大きい場合、該属性を該列の属性と確定する、請求項7に記載の装置。   8. The attribute according to claim 7, wherein, as the predetermined condition, when the number of instances corresponding to an attribute among a plurality of attributes is larger than the number of instances corresponding to other attributes, the attribute is determined as an attribute of the column. apparatus. 再構成されたテーブルが単一記述対象テーブルである、請求項1に記載の装置。   The apparatus according to claim 1, wherein the reconstructed table is a single description target table. テーブル再構成装置におけるテーブル再構成方法であって、
前記テーブル再構成装置が、
テーブル中の列毎の属性を確定し、
確定された列毎の属性を語彙知識ベースとリンクさせることにより、前記テーブルの記述対象を確定し、
前記語彙知識ベースにおいて各記述対象の属性集合を確定し、前記テーブル中の列毎の属性と前記属性集合中の各属性との第一類似度を算出し、前記テーブル中の前記記述対象に関連する属性を確定し、及び
前記記述対象と前記記述対象に関連する属性とを用いて、テーブルを再構成するステップ含む、方法。
A table reconstruction method in a table reconstruction device ,
The table reconstruction device is
Determine the attributes for each column in the table ,
By linking the determined attribute for each column with the vocabulary knowledge base, the description target of the table is determined ,
Wherein to confirm the attribute set of each description object in lexical knowledge base, to calculate a first similarity between the attributes in the attribute set with the attribute of each column in the table, associated with the recitations in the table the attributes determined, and by using the attributes relating to the description object and the description object, comprising the step of reconfiguring table method.
JP2015199484A 2014-10-10 2015-10-07 Table reconstruction apparatus and method Active JP6586850B2 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201410532186.5 2014-10-10
CN201410532186.5A CN105573971B (en) 2014-10-10 2014-10-10 Table reconfiguration device and method

Publications (2)

Publication Number Publication Date
JP2016081526A JP2016081526A (en) 2016-05-16
JP6586850B2 true JP6586850B2 (en) 2019-10-09

Family

ID=55884123

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015199484A Active JP6586850B2 (en) 2014-10-10 2015-10-07 Table reconstruction apparatus and method

Country Status (2)

Country Link
JP (1) JP6586850B2 (en)
CN (1) CN105573971B (en)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108932268B (en) * 2017-05-26 2020-09-04 华为技术有限公司 Data processing method and device
CN110019829B (en) * 2017-09-19 2021-05-07 绿湾网络科技有限公司 Data attribute determination method and device
CN107656909B (en) * 2017-10-30 2021-06-01 北京明朝万达科技股份有限公司 Document similarity judgment method and device based on document mixing characteristics
JP7276355B2 (en) * 2019-01-23 2023-05-18 日本電気株式会社 Information provision system, method and program
CN110609928A (en) * 2019-08-28 2019-12-24 宁波市智慧城市规划标准发展研究院 Name feature recognition system based on government affair data

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0527960A (en) * 1991-07-24 1993-02-05 Toshiba Corp Data base constructing method
US5963642A (en) * 1996-12-30 1999-10-05 Goldstein; Benjamin D. Method and apparatus for secure storage of data
JP3211956B2 (en) * 1999-08-31 2001-09-25 勲 清水 Database system
JP2003216619A (en) * 2002-01-18 2003-07-31 Kanazawa Inst Of Technology Computer processing apparatus
JP2003271656A (en) * 2002-03-19 2003-09-26 Fujitsu Ltd Device and method for related candidate generation, related system, program for related candidate generation and readable recording medium recorded with the same program
EP1361758A1 (en) * 2002-05-06 2003-11-12 Motorola, Inc. Image content reconfiguration for different device capabilities and methods therefor
US20060167947A1 (en) * 2003-03-01 2006-07-27 Dunkle Mark V Communications interface database for electronic diagnostic apparatus
CN100437556C (en) * 2006-06-09 2008-11-26 无锡永中科技有限公司 Method of line header and row header showing information in electronic table
US20090097769A1 (en) * 2007-10-16 2009-04-16 Sytech Solutions, Inc. Systems and methods for securely processing form data
US8150850B2 (en) * 2008-01-07 2012-04-03 Akiban Technologies, Inc. Multiple dimensioned database architecture
JP5108660B2 (en) * 2008-06-30 2012-12-26 ヤフー株式会社 Information collection method, apparatus, and program
US9305075B2 (en) * 2009-05-29 2016-04-05 Oracle International Corporation Extending dynamic matrices for improved setup capability and runtime search performance of complex business rules
CN102103576B (en) * 2009-12-17 2013-04-17 珠海金山软件有限公司 Methods and systems for splitting table by utilizing computer
US8666998B2 (en) * 2010-09-14 2014-03-04 International Business Machines Corporation Handling data sets
CN102436456B (en) * 2010-09-29 2016-03-30 国际商业机器公司 For the method and apparatus of classifying to named entity
CN102467378A (en) * 2010-11-11 2012-05-23 深圳市金蝶友商电子商务服务有限公司 HTML (Hypertext Markup Language) form processing method based on two-dimensional matrix and computer
CN103198069A (en) * 2012-01-06 2013-07-10 株式会社理光 Method and device for extracting relational table
CN102542071B (en) * 2012-01-17 2014-02-26 深圳市龙视传媒有限公司 Distributed data processing system and method
CN103020283B (en) * 2012-12-27 2015-12-09 华北电力大学 A kind of semantic retrieving method of the dynamic restructuring based on background knowledge

Also Published As

Publication number Publication date
CN105573971A (en) 2016-05-11
JP2016081526A (en) 2016-05-16
CN105573971B (en) 2018-09-25

Similar Documents

Publication Publication Date Title
JP6586850B2 (en) Table reconstruction apparatus and method
JP7343568B2 (en) Identifying and applying hyperparameters for machine learning
TWI718643B (en) Method and device for identifying abnormal groups
Tong et al. A linear road object matching method for conflation based on optimization and logistic regression
US20160065534A1 (en) System for correlation of domain names
WO2019041521A1 (en) Apparatus and method for extracting user keyword, and computer-readable storage medium
CN107786943B (en) User grouping method and computing device
WO2017066202A1 (en) Systems and method for dynamic autonomous transactional identity management
US11809455B2 (en) Automatically generating user segments
JP2016149127A (en) Device and method for determining entity attribute value
AU2015215881A1 (en) Predictive model generator
CN111046237A (en) User behavior data processing method and device, electronic equipment and readable medium
CN114902246A (en) System for fast interactive exploration of big data
JP7254925B2 (en) Transliteration of data records for improved data matching
CN115293919A (en) Graph neural network prediction method and system oriented to social network distribution generalization
JP2019531539A (en) Method and apparatus for performing distributed computing tasks
CN110209780B (en) Question template generation method and device, server and storage medium
WO2017065891A1 (en) Automated join detection
JP7213890B2 (en) Accelerated large-scale similarity computation
US20120284224A1 (en) Build of website knowledge tables
JP5824429B2 (en) Spam account score calculation apparatus, spam account score calculation method, and program
Beavers et al. Data Nuggets: A Method for Reducing Big Data While Preserving Data Structure
CN116882408B (en) Construction method and device of transformer graph model, computer equipment and storage medium
CN110309127B (en) Data processing method and device and electronic equipment
CN113076316B (en) Information relation mapping analysis method, device, equipment and storage medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180608

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190426

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190604

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190723

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190813

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190826

R150 Certificate of patent or registration of utility model

Ref document number: 6586850

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150