JP7168826B2 - Data integration support device, data integration support method, and data integration support program - Google Patents

Data integration support device, data integration support method, and data integration support program Download PDF

Info

Publication number
JP7168826B2
JP7168826B2 JP2019001834A JP2019001834A JP7168826B2 JP 7168826 B2 JP7168826 B2 JP 7168826B2 JP 2019001834 A JP2019001834 A JP 2019001834A JP 2019001834 A JP2019001834 A JP 2019001834A JP 7168826 B2 JP7168826 B2 JP 7168826B2
Authority
JP
Japan
Prior art keywords
attribute
feature
extracting
syntactic
document information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019001834A
Other languages
Japanese (ja)
Other versions
JP2020112919A (en
Inventor
イーユェー ジャン
慶行 坂巻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2019001834A priority Critical patent/JP7168826B2/en
Publication of JP2020112919A publication Critical patent/JP2020112919A/en
Application granted granted Critical
Publication of JP7168826B2 publication Critical patent/JP7168826B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本件は、データ統合支援装置、データ統合支援方法、及びデータ統合支援プログラムに関する。 The present invention relates to a data integration support device, a data integration support method, and a data integration support program.

システム統合などによりデータベースの統合処理が必要となることが知られている(例えば特許文献1参照)。 It is known that system integration or the like requires database integration processing (see, for example, Patent Document 1).

特開2016-136354号公報JP 2016-136354 A

ところで、データベースの統合処理では、統合対象及び統合先が構造化データである場合、2つのスキーマをマッチングするスキーママッチングと呼ばれる技術が利用される。例えば、統合対象及び統合先がテーブル形式の構造化データである場合、統合対象の個々の属性名データ一式をマッチング対象のスキーマとし、統合先の個々の属性名データ一式をマッチング先のスキーマとしてスキーママッチングが行われる。 By the way, in database integration processing, when the integration target and the integration destination are structured data, a technique called schema matching is used to match two schemas. For example, if the integration target and the integration target are structured data in table format, the individual attribute name data set of the integration target is set as the matching target schema, and the individual attribute name data set of the integration target is set as the matching target schema. matching is done.

ところが、属性名データ(以下、単に属性名という)の表現は統一されていないことがある。例えば、統合対象の属性名として「会社」が定義されており、統合先の属性名として「社名」が定義されている場合がある。この場合、それぞれの属性値データ(以下、単に属性値という)が具体的な企業の名称を表していれば、これら2つの属性名は構文的(syntactic)に一致しないものの意味的(semantic)に同義であると人なら判断することができ、2つの属性名に統合することできる。 However, the expression of attribute name data (hereinafter simply referred to as attribute name) may not be unified. For example, "company" may be defined as an attribute name to be integrated, and "company name" may be defined as an attribute name to be integrated. In this case, if each attribute value data (hereinafter simply referred to as attribute value) represents the name of a specific company, these two attribute names are syntactically inconsistent but semantically A person can determine that they are synonymous and can combine them into two attribute names.

しかしながら、スキーママッチングをソフトウェア処理などによって機械的に行う場合、上述したように、統合対象の属性名と統合先の属性名が構文的に一致しないことがあるため、これら2つの属性名だけで属性名を統合できるか判断することは難しい。一方で、属性値を抽出して属性名の意味を機械的に判断することを試みると、属性値は膨大であるため多大な計算量が要求されるという問題がある。 However, when schema matching is performed mechanically by software processing, etc., as mentioned above, the attribute name to be integrated and the attribute name to be integrated may not syntactically match. It is difficult to determine whether names can be merged. On the other hand, when attempting to mechanically determine the meaning of an attribute name by extracting attribute values, there is a problem that a large amount of calculation is required due to the enormous number of attribute values.

そこで、1つの側面では、効率的なデータ統合を支援することを目的とする。 Therefore, one aspect aims to support efficient data integration.

1つの実施態様では、データ統合支援装置は、第1の属性名と前記第1の属性名に応じた第1の属性値を含む第1の構造化データ及び複数の第2の属性名と前記複数の第2の属性名のそれぞれに応じた第2の属性値を含む第2の構造化データを記憶する記憶部と、前記第1の属性値を集約した第1の文書情報と前記第2の属性値を属性名毎に集約した第2の文書情報を生成し、単語の構文に関する特徴量を表す構文的特徴量を重要単語と併せて抽出する第1の抽出手法に基づいて、前記第1の文書情報から前記第1の属性値が含む単語の第1の構文的特徴量を抽出し、前記第2の文書情報から前記第2の属性値が含む単語の第2の構文的特徴量を抽出し、前記第1の構文的特徴量及び前記第2の構文的特徴量の抽出と併せて特定の重要単語を抽出し、前記単語の意味に関する特徴量を表す意味的特徴量を抽出する第2の抽出手法に基づいて、前記特定の重要単語から前記特定の重要単語に応じた特定の意味的特徴量を抽出し、前記特定の意味的特徴量に前記第1の構文的特徴量を重み付けした第1の合成特徴量と前記特定の意味的特徴量に前記第2の構文的特徴量を重み付けした第2の合成特徴量を生成し、前記第1の合成特徴量と前記第2の合成特徴量の類似度を表す第1の類似度及び前記第1の類似度に応じて決定した前記第1の属性名の統合先を示す特定の第2の属性名の少なくとも一方を出力する処理を実行する処理部と、を備える。 In one embodiment, the data integration support device includes first structured data including a first attribute name and a first attribute value corresponding to the first attribute name, a plurality of second attribute names, and the a storage unit for storing second structured data including a second attribute value corresponding to each of a plurality of second attribute names; first document information obtained by aggregating the first attribute values; based on the first extraction method of extracting together with the important words the syntactic feature amount representing the feature amount related to the syntax of the word, the second document information is generated by aggregating the attribute values of each attribute name. A first syntactic feature quantity of a word included in the first attribute value is extracted from one piece of document information, and a second syntactic feature quantity of a word included in the second attribute value is extracted from the second document information. is extracted, a specific important word is extracted together with the extraction of the first syntactic feature amount and the second syntactic feature amount, and a semantic feature amount representing a feature amount related to the meaning of the word is extracted. Based on a second extraction method, extracting a specific semantic feature amount corresponding to the specific important word from the specific important word, and applying the first syntactic feature amount to the specific semantic feature amount generating a second synthetic feature by weighting the first synthetic feature and the specific semantic feature with the second syntactic feature, and combining the first synthetic feature and the second syntactic feature; A process of outputting at least one of a first degree of similarity representing a degree of similarity of combined feature quantities and a specific second attribute name indicating a destination of integration of the first attribute name determined according to the first degree of similarity. and a processing unit that executes

効率的なデータ統合を支援することができる。 It can support efficient data integration.

図1は端末装置の一例である。FIG. 1 is an example of a terminal device. 図2は端末装置のハードウェア構成の一例である。FIG. 2 is an example of the hardware configuration of a terminal device. 図3は端末装置のブロック図の一例である。FIG. 3 is an example of a block diagram of a terminal device. 図4は端末装置が実行する処理の一例を示すフローチャート(その1)である。FIG. 4 is a flowchart (part 1) showing an example of processing executed by the terminal device. 図5(a)は第1構造化データの一例である。図5(b)は第2構造化データの一例である。FIG. 5(a) is an example of the first structured data. FIG. 5(b) is an example of the second structured data. 図6は第1構造化データからの文書情報の生成例を説明するための図である。FIG. 6 is a diagram for explaining an example of generating document information from the first structured data. 図7は第2構造化データからの文書情報の生成例を説明するための図である。FIG. 7 is a diagram for explaining an example of generating document information from the second structured data. 図8は文書情報の分類例を説明するための図である。FIG. 8 is a diagram for explaining an example of classification of document information. 図9はデータクレンジングの一例を説明するための図である。FIG. 9 is a diagram for explaining an example of data cleansing. 図10は形態素解析の一例を説明するための図である。FIG. 10 is a diagram for explaining an example of morphological analysis. 図11は構文的特徴量と重要単語の抽出例を説明するための図である。FIG. 11 is a diagram for explaining an example of extraction of syntactic features and important words. 図12は意味的特徴量の抽出例を説明するための図である。FIG. 12 is a diagram for explaining an example of extraction of semantic features. 図13は合成特徴量の生成例を説明するための図である。FIG. 13 is a diagram for explaining an example of generating a synthetic feature amount. 図14は属性値が文字である場合のマッチング例を説明するための図である。FIG. 14 is a diagram for explaining a matching example when the attribute value is a character. 図15は端末装置が実行する処理の一例を示すフローチャート(その2)である。FIG. 15 is a flowchart (part 2) showing an example of processing executed by the terminal device. 図16は属性名の抽出例を説明するための図である。FIG. 16 is a diagram for explaining an example of attribute name extraction. 図17は形態素解析の他の一例である。FIG. 17 is another example of morphological analysis. 図18は意味的特徴量の他の抽出例を説明するための図である。FIG. 18 is a diagram for explaining another example of extraction of semantic features. 図19は平均特徴量の生成例を説明するための図である。FIG. 19 is a diagram for explaining an example of generating an average feature amount. 図20は属性値が数値である場合のマッチング例を説明するための図である。FIG. 20 is a diagram for explaining a matching example when attribute values are numerical values. 図21は属性値が数値である場合の他のマッチング例を説明するための図である。FIG. 21 is a diagram for explaining another matching example when attribute values are numerical values. 図22はマッチングリスト画面の一例である。FIG. 22 is an example of the matching list screen. 図23は第1実施形態に係る利点を簡単に説明した図である。FIG. 23 is a diagram briefly explaining the advantages of the first embodiment. 図24は比較例に係るマッチング例を説明するための図である。FIG. 24 is a diagram for explaining a matching example according to the comparative example. 図25は第2実施形態に係るマッチング例を説明するための図である。FIG. 25 is a diagram for explaining a matching example according to the second embodiment. 図26はデータ統合支援システムの一例である。FIG. 26 is an example of a data integration support system.

以下、本件を実施するための形態について図面を参照して説明する。 Hereinafter, the form for carrying out this case will be described with reference to the drawings.

(第1実施形態)
図1は端末装置100の一例である。端末装置100はデータ統合支援装置の一例である。図1では、端末装置100の一例としてPersonal Computer(PC)が示されているが、タブレット端末といったスマートデバイスであってもよい。端末装置100はキーボード及びポインティングデバイス(以下、単にキーボードという)100Fを備えている。端末装置100はディスプレイ100Gを備えている。ディスプレイ100Gは液晶ディスプレイであってもよいし、有機electro-luminescence(EL)ディスプレイであってもよい。
(First embodiment)
FIG. 1 is an example of a terminal device 100. As shown in FIG. The terminal device 100 is an example of a data integration support device. Although FIG. 1 shows a personal computer (PC) as an example of the terminal device 100, it may be a smart device such as a tablet terminal. The terminal device 100 includes a keyboard and pointing device (hereinafter simply referred to as keyboard) 100F. The terminal device 100 has a display 100G. The display 100G may be a liquid crystal display or an organic electro-luminescence (EL) display.

ディスプレイ100Gは種々の画面を表示する。詳細は後述するが、例えばディスプレイ100Gは統合対象の属性名、その属性名に統合可能な統合先の属性名の候補、及びその候補の順位などを含むマッチングリスト画面10を表示する。端末装置100を利用するユーザ(例えばデータサイエンティストなど)はマッチングリスト画面10に含まれる候補の順位などを確認し、キーボード100Fを操作して統合先の属性名の候補の中からいずれか1つの候補を選択する。これにより、端末装置100は選択された候補に統合対象の属性名を統合する。このように、マッチングリスト画面10で提示される情報を利用することによって、ユーザはデータ統合の属性名を容易に決定することができ、データ統合の効率化を図ることができる。 The display 100G displays various screens. Although the details will be described later, for example, the display 100G displays the matching list screen 10 including attribute names to be integrated, candidates for attribute names to be integrated with the attribute names, and ranking of the candidates. A user (for example, a data scientist) using the terminal device 100 confirms the ranking of the candidates included in the matching list screen 10, and operates the keyboard 100F to select one of the candidates for the attribute name to be integrated. to select. As a result, the terminal device 100 integrates the attribute names to be integrated into the selected candidates. By using the information presented on the matching list screen 10 in this way, the user can easily determine the attribute name for data integration, and the efficiency of data integration can be improved.

次に、図2を参照して、端末装置100のハードウェア構成について説明する。 Next, a hardware configuration of the terminal device 100 will be described with reference to FIG.

図2は端末装置100のハードウェア構成の一例である。図2に示すように、端末装置100は、少なくともハードウェアプロセッサとしてのCentral Processing Unit(CPU)100A、Random Access Memory(RAM)100B、Read Only Memory(ROM)100C、及びネットワークI/F(インタフェース)100Dを含んでいる。また、上述したように、端末装置100は、キーボード100F及びディスプレイ100Gも含んでいる。 FIG. 2 shows an example of the hardware configuration of the terminal device 100. As shown in FIG. As shown in FIG. 2, the terminal device 100 includes at least a Central Processing Unit (CPU) 100A as a hardware processor, a Random Access Memory (RAM) 100B, a Read Only Memory (ROM) 100C, and a network I/F (interface). Includes 100D. Moreover, as described above, the terminal device 100 also includes a keyboard 100F and a display 100G.

さらに、端末装置100は、必要に応じて、Hard Disk Drive(HDD)100E、入出力I/F100H、ドライブ装置100I、及び近距離無線通信回路100Jの少なくとも1つを含んでいてもよい。CPU100Aから近距離無線通信回路100Jは、内部バス100Kによって互いに接続されている。すなわち、端末装置100はコンピュータによって実現することができる。尚、CPU100Aに代えてMicro Processing Unit(MPU)をハードウェアプロセッサとして利用してもよい。 Furthermore, the terminal device 100 may include at least one of a hard disk drive (HDD) 100E, an input/output I/F 100H, a drive device 100I, and a short-range wireless communication circuit 100J, if necessary. The CPU 100A to the short-range wireless communication circuit 100J are connected to each other by an internal bus 100K. That is, the terminal device 100 can be implemented by a computer. A Micro Processing Unit (MPU) may be used as a hardware processor instead of the CPU 100A.

入出力I/F100Hには、半導体メモリ730が接続される。半導体メモリ730としては、例えばUniversal Serial Bus(USB)メモリやフラッシュメモリなどがある。入出力I/F100Hは、半導体メモリ730に記憶されたプログラムやデータを読み取る。入出力I/F100Hは、例えばUSBポートを備えている。ドライブ装置100Iには、可搬型記録媒体740が挿入される。可搬型記録媒体740としては、例えばCompact Disc(CD)-ROM、Digital Versatile Disc(DVD)といったリムーバブルディスクがある。ドライブ装置100Iは、可搬型記録媒体740に記録されたプログラムやデータを読み込む。近距離無線通信回路100JはWi-Fi(登録商標)やBluetooth(登録商標)といった近距離無線通信を実現する電気回路又は電子回路である。近距離無線通信回路100Jにはアンテナ100J´が接続されている。近距離無線通信回路100Jに代えて通信機能を実現するCPUが利用されてもよい。ネットワークI/F100Dは、例えばLocal Area Network(LAN)ポートを備えている。 A semiconductor memory 730 is connected to the input/output I/F 100H. Examples of the semiconductor memory 730 include Universal Serial Bus (USB) memory and flash memory. The input/output I/F 100H reads programs and data stored in the semiconductor memory 730 . The input/output I/F 100H has, for example, a USB port. A portable recording medium 740 is inserted into the drive device 100I. Examples of the portable recording medium 740 include removable discs such as Compact Disc (CD)-ROM and Digital Versatile Disc (DVD). The drive device 100I reads programs and data recorded on the portable recording medium 740 . The short-range wireless communication circuit 100J is an electric circuit or electronic circuit that realizes short-range wireless communication such as Wi-Fi (registered trademark) or Bluetooth (registered trademark). An antenna 100J' is connected to the short-range wireless communication circuit 100J. A CPU that implements a communication function may be used instead of the short-range wireless communication circuit 100J. The network I/F 100D has, for example, a Local Area Network (LAN) port.

上述したRAM100Bには、ROM100CやHDD100Eに記憶されたプログラムがCPU100Aによって一時的に格納される。RAM100Bには、可搬型記録媒体740に記録されたプログラムがCPU100Aによって一時的に格納される。格納されたプログラムをCPU100Aが実行することにより、CPU100Aは後述する各種の機能を実現し、また、後述する各種の処理を実行する。尚、プログラムは後述するフローチャートに応じたものとすればよい。 The programs stored in the ROM 100C and the HDD 100E are temporarily stored in the above-described RAM 100B by the CPU 100A. The program recorded on the portable recording medium 740 is temporarily stored in the RAM 100B by the CPU 100A. By executing the stored programs, the CPU 100A implements various functions described later, and also executes various processes described later. Note that the program may be in accordance with the flow chart described later.

次に、図3を参照して、端末装置100の機能構成について説明する。 Next, the functional configuration of the terminal device 100 will be described with reference to FIG.

図3は端末装置100のブロック図の一例である。図3では端末装置100の機能の要部が示されている。図3に示すように、端末装置100は記憶部110、処理部120、入力部130、及び表示部140を備えている。記憶部110は上述したRAM100BやHDD100Eによって実現することができる。処理部120は上述したCPU100Aによって実現することができる。入力部130は上述したキーボード100Fによって実現することができる。表示部140は上述したディスプレイ100Gによって実現することができる。したがって、記憶部110、処理部120、入力部130、及び表示部140は互いに接続されている。 FIG. 3 is an example of a block diagram of the terminal device 100. As shown in FIG. FIG. 3 shows main functions of the terminal device 100 . As shown in FIG. 3, the terminal device 100 includes a storage section 110, a processing section 120, an input section 130, and a display section 140. FIG. The storage unit 110 can be realized by the above-described RAM 100B and HDD 100E. The processing unit 120 can be realized by the CPU 100A described above. The input unit 130 can be implemented by the keyboard 100F described above. The display unit 140 can be realized by the display 100G described above. Therefore, the storage section 110, the processing section 120, the input section 130, and the display section 140 are connected to each other.

ここで、記憶部110はデータ記憶部111、文書記憶部112、及び辞書記憶部113を構成要素として含んでいる。また、記憶部110は構文特徴記憶部114、ベクトル記憶部115、意味特徴記憶部116、及び合成特徴記憶部117を構成要素として含んでいる。一方、処理部120は文書生成部121、クレンジング部122、及び解析部123を構成要素として含んでいる。また、処理部120は第1抽出部124、第2抽出部125、特徴合成部126、及び類似度出力部127を構成要素として含んでいる。 Here, the storage unit 110 includes a data storage unit 111, a document storage unit 112, and a dictionary storage unit 113 as constituent elements. The storage unit 110 also includes a syntactic feature storage unit 114, a vector storage unit 115, a semantic feature storage unit 116, and a composite feature storage unit 117 as components. On the other hand, the processing unit 120 includes a document generation unit 121, a cleansing unit 122, and an analysis unit 123 as constituent elements. The processing unit 120 also includes a first extraction unit 124, a second extraction unit 125, a feature synthesis unit 126, and a similarity output unit 127 as components.

処理部120の各構成要素は記憶部110の各構成要素の少なくとも1つにアクセスして、各種の処理を実行する。例えば、文書生成部121はデータ記憶部111にアクセスして、データ記憶部111が記憶する構造化データを取得する。文書生成部121は構造化データを取得すると、構造化データに含まれる属性値を集約した文書情報を生成し、文書情報を文書記憶部112に格納する。尚、その他の構成要素については、端末装置100の動作を説明する際に詳しく記載する。 Each component of the processing unit 120 accesses at least one of the components of the storage unit 110 to perform various processes. For example, the document generation unit 121 accesses the data storage unit 111 and acquires structured data stored in the data storage unit 111 . When the document generation unit 121 acquires the structured data, it generates document information in which attribute values included in the structured data are aggregated, and stores the document information in the document storage unit 112 . Other components will be described in detail when the operation of the terminal device 100 is described.

次に、図4から図21を参照して、端末装置100の動作について説明する。 Next, operations of the terminal device 100 will be described with reference to FIGS. 4 to 21. FIG.

はじめに、データ記憶部111は2つの構造化データを記憶する(ステップS101)。より詳しくは、図5(a)及び(b)に示すように、データ記憶部111は、2つの構造化データとして、第1構造化データD1と第2構造化データD2を記憶する。第1構造化データD1と第2構造化データD2はいずれもテーブル形式でデータ構造が定義された電子ファイルである。第1実施形態において、第1構造化データD1が統合対象に相当し、第2構造化データD2が統合先に相当する。 First, the data storage unit 111 stores two pieces of structured data (step S101). More specifically, as shown in FIGS. 5A and 5B, the data storage unit 111 stores first structured data D1 and second structured data D2 as two types of structured data. Both the first structured data D1 and the second structured data D2 are electronic files whose data structure is defined in a table format. In the first embodiment, the first structured data D1 corresponds to the integration target, and the second structured data D2 corresponds to the integration target.

尚、データ記憶部111が記憶する2つの構造化データはComma-Separated Values(CSV)形式でデータ構造が定義された電子ファイルであってもよいし、固定長形式でデータ構造が定義された電子ファイルであってもよい。テーブル形式やCSV形式などはデータ構造が完全に定義されているため、構造化データを完全構造化データといいかえてもよい。一方、構造化データには、画像ファイルや音声ファイルといったデータ構造が全く定義されていない非構造化データは含まれない。以上説明した2つの構造化データは後続の処理が実行される前にデータ記憶部111に格納されていればよく、2つの構造化データの格納経路は特に限定されない。 The two structured data stored in the data storage unit 111 may be electronic files whose data structures are defined in the comma-separated values (CSV) format, or electronic files whose data structures are defined in the fixed-length format. It can be a file. Since the data structure of the table format, CSV format, etc. is completely defined, structured data can be called completely structured data. On the other hand, structured data does not include unstructured data, such as image files and audio files, whose data structure is not defined at all. The two structured data described above need only be stored in the data storage unit 111 before subsequent processing is executed, and the storage path of the two structured data is not particularly limited.

図5(a)に示すように、第1構造化データD1は属性名と属性名に応じた属性値を含んでいる。具体的には、第1構造化データD1は「会社」や「振込日」などを属性名として含んでいる。また、第1構造化データD1は「出雲金属(株)」や「2012年2月2日」などを属性値として含んでいる。尚、第1実施形態では、図5(a)に示すように、複数の属性名と複数の属性名のそれぞれに応じた属性値を含む第1構造化データD1を一例として説明するが、1つの属性名と1つの属性名に応じた属性値を含む第1構造化データD1であってもよい。すなわち、統合対象に相当する第1構造化データD1に含まれる属性名の数は特に限定されない。 As shown in FIG. 5A, the first structured data D1 includes attribute names and attribute values corresponding to the attribute names. Specifically, the first structured data D1 includes "company", "transfer date", etc. as attribute names. Further, the first structured data D1 includes "Izumo Metals Co., Ltd." and "February 2, 2012" as attribute values. Incidentally, in the first embodiment, as shown in FIG. The first structured data D1 may include one attribute name and one attribute value corresponding to the attribute name. That is, the number of attribute names included in the first structured data D1 corresponding to the integration target is not particularly limited.

一方、図5(b)に示すように、第2構造化データD2は複数の属性名と複数の属性名のそれぞれに応じた属性値を含んでいる。具体的には、第2構造化データD2は「職位」や「誕生日」などを属性名として含んでいる。また、第2構造化データD2は「研究員」や「1987年3月12日」などを属性値として含んでいる。このように、統合先に相当する第2構造化データD2に含まれる属性名は統合対象に相当する第1構造化データD1に含まれる属性名と構文的に一致しないが、属性値を参照すると、意味的に同義である属性名が存在する。例えば、第2構造化データD2に含まれる「社名」と第1構造化データD1に含まれる「会社」は、単語の形態が一致しないため、構文的に一致しないが、第2構造化データD2に含まれる「アルファ」と第1構造化データD1に含まれる「出雲金属(株)」を参照すると、具体的な企業の名称を表していると想定されるため、「社名」と「会社」は意味的に同義である。このような関係は「誕生日」と「生年月日」についても同様である。また、図示しないが、このような関係は「空調機」と「エアコン」などについても同様である。 On the other hand, as shown in FIG. 5B, the second structured data D2 includes a plurality of attribute names and attribute values corresponding to each of the plurality of attribute names. Specifically, the second structured data D2 includes "position", "birthday", etc. as attribute names. Further, the second structured data D2 includes "researcher" and "March 12, 1987" as attribute values. As described above, the attribute name included in the second structured data D2 corresponding to the integration destination does not syntactically match the attribute name included in the first structured data D1 corresponding to the integration target, but when the attribute value is referred to , there are attribute names that are semantically synonymous. For example, "company name" included in the second structured data D2 and "company" included in the first structured data D1 do not match syntactically because the forms of the words do not match. and "Izumo Kinzoku Co., Ltd." included in the first structured data D1 are assumed to represent the name of a specific company, so "company name" and "company" are semantically synonymous. Such a relationship is the same for “birthday” and “date of birth”. Also, although not shown, such a relationship is the same for "air conditioner" and "air conditioner".

ステップS101の処理が完了すると、次いで、文書生成部121は文書情報を生成する(ステップS102)。具体的には、文書生成部121はデータ記憶部111にアクセスして、データ記憶部111が記憶する第1構造化データD1と第2構造化データD2を取得する。文書生成部121は第1構造化データD1と第2構造化データD2を取得すると、図6に示すように、まず、第1構造化データD1に含まれる属性値を集約して空白で区切った文書情報をカラム毎(即ち列毎)に生成する。そして、文書生成部121は各文書情報にその文書情報を識別する識別子を関連付けて保持する。次に、図7に示すように、第2構造化データD2に含まれる属性値を集約して空白で区切った文書情報をカラム毎に生成する。そして、文書生成部121は各文書情報にその文書情報を識別する識別子を関連付けて保持する。したがって、文書生成部121は統合対象の文書情報と統合先の文書情報を保持する。図6に示すように、統合対象の文書情報は属性値が文字である文書情報もあれば、属性値が数値である文書情報もある。図7に示すように、統合先の文書情報も属性値が文字である文書情報もあれば、属性値が数値である文書情報もある。 When the process of step S101 is completed, the document generation unit 121 then generates document information (step S102). Specifically, the document generation unit 121 accesses the data storage unit 111 and acquires the first structured data D1 and the second structured data D2 stored in the data storage unit 111 . When the document generation unit 121 acquires the first structured data D1 and the second structured data D2, as shown in FIG. Document information is generated column by column (ie, column by column). Then, the document generation unit 121 associates each piece of document information with an identifier for identifying the document information, and holds the document information. Next, as shown in FIG. 7, the attribute values included in the second structured data D2 are aggregated and separated by spaces to generate document information for each column. Then, the document generation unit 121 associates each piece of document information with an identifier for identifying the document information, and holds the document information. Therefore, the document generation unit 121 holds document information to be integrated and document information to be integrated. As shown in FIG. 6, document information to be integrated includes document information whose attribute values are characters and document information whose attribute values are numerical values. As shown in FIG. 7, the document information to be merged includes document information whose attribute values are characters and document information whose attribute values are numerical values.

ステップS102の処理が完了すると、次いで、文書生成部121は文書情報を分類する(ステップS103)。具体的には、文書生成部121は正規表現に基づいて2つの文書情報を分類する。例えば、図8に示すように、文書生成部121は、統合対象の文書情報と統合先の文書情報を保持すると、文書情報を参照し、属性値のタイプを判断することによって2つの文書情報を分類する。文書生成部121は属性値が数値か否かによって2つの文書情報を分類してもよいし、属性値が文字か否かによって2つの文書情報を分類してもよい。これにより、図8に示すように、属性値が文字で統一された統合対象の文書情報及び統合先の文書情報を含む文字グループの文書情報と、属性値が数値で統一された統合対象の文書情報及び統合先の文書情報を含む数値グループの文書情報に分類される。文書生成部121は文字グループの文書情報と数値グループの文書情報を文書記憶部112に格納する。これにより、文書記憶部112は文字グループの文書情報と数値グループの文書情報を記憶する。 After the process of step S102 is completed, the document generation unit 121 classifies the document information (step S103). Specifically, the document generator 121 classifies two pieces of document information based on regular expressions. For example, as shown in FIG. 8, when the document generation unit 121 holds the document information to be integrated and the document information to be integrated, the document generation unit 121 refers to the document information and determines the type of the attribute value to generate the two pieces of document information. Classify. The document generation unit 121 may classify the two pieces of document information according to whether the attribute value is numeric or not, or classify the two pieces of document information according to whether the attribute value is characters. As a result, as shown in FIG. 8, the document information of the character group including the document information to be integrated whose attribute values are standardized by characters and the document information of the integration destination, and the document information to be integrated whose attribute values are standardized by numerical values. It is classified into the document information of the numerical group including the information and the document information of the integration destination. The document generation unit 121 stores the document information of the character group and the document information of the numerical value group in the document storage unit 112 . As a result, the document storage unit 112 stores the document information of the character group and the document information of the numerical value group.

ステップS103の処理が完了すると、次いで、クレンジング部122は属性値が数値か否か判断する(ステップS104)。より詳しくは、クレンジング部122は文書記憶部112にアクセスして、文書記憶部112が記憶する文書情報の1つを取得する。文書生成部121は文書情報の1つを取得すると、取得した文書情報の属性値を確認し、属性値が数値か否か判断する。属性値が数値であれば、クレンジング部122は数値グループの文書情報を取得したことになる。属性値が文字であれば、クレンジング部122は文字グループの文書情報を取得したことになる。 When the process of step S103 is completed, the cleansing unit 122 then determines whether the attribute value is a numerical value (step S104). More specifically, cleansing unit 122 accesses document storage unit 112 and acquires one piece of document information stored in document storage unit 112 . When acquiring one piece of document information, the document generation unit 121 confirms the attribute value of the acquired document information and determines whether the attribute value is a numerical value. If the attribute value is a numerical value, the cleansing unit 122 has acquired the document information of the numerical group. If the attribute value is character, it means that the cleansing unit 122 has acquired the document information of the character group.

ステップS104の処理において、クレンジング部122は属性値が数値でないと判断した場合(ステップS104:NO)、属性値が文字であると判断し、文字グループの文書情報に集約した各属性値を抽出する(ステップS105)。ステップS105の処理が完了すると、クレンジング部122は抽出した各属性値の少なくとも1つに対しデータクレンジングを実行する(ステップS106)。例えば、図9に示すように、クレンジング部122は半角で表現された括弧書きを全角で表現し直すデータクレンジングを実行する。また、クレンジング部122はコンピュータの環境に依存する文字をその環境に依存しない文字に変換するデータクレンジングを実行する。さらに、クレンジング部122は大文字のアルファベットを小文字のアルファベットに変換するデータクレンジングを実行する。尚、これらの処理はデータクレンジングの一例であって、設計に応じて、変更、削除、又は追加してもよい。 In the process of step S104, when the cleansing unit 122 determines that the attribute value is not a numerical value (step S104: NO), it determines that the attribute value is a character, and extracts each attribute value aggregated into the document information of the character group. (Step S105). When the process of step S105 is completed, the cleansing unit 122 performs data cleansing on at least one of the extracted attribute values (step S106). For example, as shown in FIG. 9, the cleansing unit 122 performs data cleansing by re-expressing brackets expressed in half-width characters in full-width characters. The cleansing unit 122 also performs data cleansing to convert characters that depend on the environment of the computer into characters that do not depend on the environment. Furthermore, the cleansing unit 122 performs data cleansing to convert uppercase alphabets to lowercase alphabets. Note that these processes are an example of data cleansing, and may be changed, deleted, or added according to design.

ステップS106の処理が完了すると、解析部123はデータクレンジングが実行された属性値に対し形態素解析を実行する(ステップS107)。より詳しくは、解析部123は辞書記憶部113が記憶する辞書データを参照して形態素解析を実行する。辞書データは形態素解析に必要な辞書に関するデータである。形態素解析が実行されることにより、図10に示すように、いくつかの属性値は単語に分かち書きされる。すなわち、いくつかの属性値は固有名詞を表す単語と一般名詞を表す単語に分けられてこれら2つの単語の間に空白が挟まれる。尚、秘書やマネージャなど属性値によっては属性値自体が単語の場合もある。 When the process of step S106 is completed, the analysis unit 123 performs morphological analysis on the attribute values for which data cleansing has been performed (step S107). More specifically, the analysis unit 123 refers to the dictionary data stored in the dictionary storage unit 113 to perform morphological analysis. Dictionary data is data relating to a dictionary necessary for morphological analysis. By performing morphological analysis, some attribute values are separated into words as shown in FIG. That is, some attribute values are divided into words representing proper nouns and words representing common nouns, with a space between these two words. Depending on the attribute value such as secretary or manager, the attribute value itself may be a word.

ステップS107の処理が完了すると、第1抽出部124は構文的特徴量を抽出する(ステップS108)。より詳しくは、第1抽出部124は、構文的特徴量を重要単語と併せて抽出する公知の第1抽出手法に基づいて、構文的特徴量を抽出する。構文的特徴量は単語の構文に関する特徴量を表している。したがって、第1抽出部124は形態素解析が実行された統合対象の文書情報から単語に応じた第1構文的特徴量を抽出する。また、第1抽出部124は形態素解析が実行された統合先の文書情報から単語に応じた第2構文的特徴量を抽出する。さらに、第1抽出部124は第1構文的特徴量及び第2構文的特徴量の抽出と併せて重要単語を抽出する。これにより、図11に示すように、各単語に応じた第1構文的特徴量及び第2構文的特徴量が数値として抽出されるとともに、重要単語が抽出される。第1抽出部124は抽出した第1構文的特徴量、第2構文的特徴量、及び重要単語を関連付けて構文特徴記憶部114に格納する。これにより、構文特徴記憶部114は互いに関連付いた第1構文的特徴量、第2構文的特徴量、及び重要単語を記憶する。 When the process of step S107 is completed, the first extraction unit 124 extracts syntactic features (step S108). More specifically, the first extraction unit 124 extracts the syntactic feature quantity based on a known first extraction method for extracting the syntactic feature quantity together with the important words. A syntactic feature quantity represents a feature quantity relating to the syntax of a word. Therefore, the first extracting unit 124 extracts the first syntactic feature amount corresponding to the word from the document information to be integrated on which the morphological analysis has been performed. The first extraction unit 124 also extracts a second syntactic feature amount corresponding to a word from the document information of the integration destination on which the morphological analysis has been performed. Furthermore, the first extraction unit 124 extracts important words together with the extraction of the first syntactic feature amount and the second syntactic feature amount. As a result, as shown in FIG. 11, the first syntactic feature amount and the second syntactic feature amount corresponding to each word are extracted as numerical values, and important words are extracted. The first extraction unit 124 stores the extracted first syntactic feature amount, second syntactic feature amount, and important word in the syntactic feature storage unit 114 in association with each other. As a result, the syntactic feature storage unit 114 stores the first syntactic feature quantity, the second syntactic feature quantity, and the important word associated with each other.

ここで、上述した第1抽出手法としては、例えばTerm Frequency - Inverse Document Frequency(tf-idf)(Ramos J. Using tf-idf to determine word relevance in document queries[C]//Proceedings of the first instructional conference on machine learning. 2003, 242: 133-142.)が知られている。tf-idfは単語の出現頻度を表すtf(Hans Peter Luhn, A Statistical Approach to Mechanized Encoding and Searching of Literary Information, IBM Journal of Research and Development. 1 (4): pages 309-317.)と逆文書頻度を表すidf(Karen Sparck Jones, A Statistical Interpretation of Term Specificity and Its Application in Retrieval, Journal of Documentation, Vol. 28 Issue: 1, pages 11-21 (1972))に分けられる。idfは多くの文書に出現する単語の重要度を下げ、特定の文書にしか出現しない単語の重要度を上げる役割を果たす。尚、第1実施形態では、第1の抽出手法としてtf-idfを採用しているが、tf-idfに代えて、例えばBest Matching 25(BM25)(Robertson S, Zaragoza H. The probabilistic relevance framework: BM25 and beyond[J]. Foundations and Trends (登録商標)in Information Retrieval, 2009, 3(4): 333-389.)などを採用してもよい。 Here, as the first extraction method described above, for example, Term Frequency - Inverse Document Frequency (tf-idf) (Ramos J. Using tf-idf to determine word relevance in document queries [C] // Proceedings of the first instructional conference on machine learning. 2003, 242: 133-142.) is known. tf-idf is the word frequency tf (Hans Peter Luhn, A Statistical Approach to Mechanized Encoding and Searching of Literary Information, IBM Journal of Research and Development. 1 (4): pages 309-317.) and inverse document frequency. idf (Karen Sparck Jones, A Statistical Interpretation of Term Specificity and Its Application in Retrieval, Journal of Documentation, Vol. 28 Issue: 1, pages 11-21 (1972)). The idf plays a role of lowering the importance of words appearing in many documents and raising the importance of words appearing only in specific documents. In the first embodiment, tf-idf is used as the first extraction method. Instead of tf-idf, for example, Best Matching 25 (BM25) (Robertson S, Zaragoza H. BM25 and beyond[J]. Foundations and Trends (registered trademark) in Information Retrieval, 2009, 3(4): 333-389.) may be adopted.

ステップS108の処理が完了すると、第2抽出部125は意味的特徴量を抽出する(ステップS109)。より詳しくは、第2抽出部125は、意味的特徴量を抽出する公知の第2抽出手法に基づいて、意味的特徴量を抽出する。意味的特徴量は単語の意味に関する特徴量を表している。公知の第2抽出手法はベクトル記憶部115に記憶されている。第2抽出手法の具体例は後述する。第2抽出部125は第2抽出手法を利用することにより単語をその単語に応じたベクトルで表現することができる。したがって、第2抽出部125は構文特徴記憶部114から重要単語を取得し、第2抽出手法を利用して、取得した重要単語からその重要単語に応じた特定の意味的特徴量をベクトルとして抽出する。これにより、図12に示すように、重要単語に応じた意味的特徴量がベクトルとして抽出される。第2抽出部125は抽出した意味的特徴量を重要単語と関連付けて意味特徴記憶部116に格納する。これにより、意味特徴記憶部116は互いに関連付いた意味的特徴量及び重要単語を記憶する。 When the process of step S108 is completed, the second extracting unit 125 extracts semantic features (step S109). More specifically, the second extraction unit 125 extracts semantic feature quantities based on a known second extraction technique for extracting semantic feature quantities. A semantic feature quantity represents a feature quantity relating to the meaning of a word. A known second extraction method is stored in the vector storage unit 115 . A specific example of the second extraction method will be described later. The second extraction unit 125 can express a word by a vector corresponding to the word by using the second extraction method. Therefore, the second extraction unit 125 acquires the important words from the syntactic feature storage unit 114, and extracts, from the acquired important words, specific semantic feature quantities corresponding to the important words as vectors using the second extraction method. do. As a result, as shown in FIG. 12, semantic feature quantities corresponding to important words are extracted as vectors. The second extraction unit 125 associates the extracted semantic feature quantities with the important words and stores them in the semantic feature storage unit 116 . As a result, the semantic feature storage unit 116 stores the semantic features and important words associated with each other.

ここで、上述した第2抽出手法としては、例えばword2vec(Distributed Representations of Words and Phrases and their Compositionality Advances in Neural Information Processing Systems 26 (NIPS 2013))が知られている。尚、第1実施形態では、第2抽出手法としてword2vecを採用しているが、word2vecに代えて、例えばGlobal Vectors for Word Representation(GloVe)(Jeffrey Pennington, Richard Socher, Christopher D. Manning, GloVe: Global Vectors for Word Representation Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 1532-1543, October 25-29, 2014, Doha, Qatar.)などを採用してもよい。 Here, for example, word2vec (Distributed Representations of Words and Phrases and their Compositionality Advances in Neural Information Processing Systems 26 (NIPS 2013)) is known as the above-described second extraction method. In the first embodiment, word2vec is used as the second extraction method. Vectors for Word Representation Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 1532-1543, October 25-29, 2014, Doha, Qatar.), etc. may be used.

ステップS109の処理が完了すると、特徴合成部126は合成特徴量を生成する(ステップS110)。より詳しくは、図13に示すように、特徴合成部126は、意味特徴記憶部116が記憶する意味的特徴量に構文特徴記憶部114が記憶する第1構文的特徴量を重み付けした第1合成特徴量をベクトルとして生成する。尚、第1合成特徴量は、図13に示す3つの合成特徴量の中の最も上に位置する合成特徴量である。また、特徴合成部126は、意味特徴記憶部116が記憶する意味的特徴量に構文特徴記憶部114が記憶する第2構文的特徴量を重み付けした第2合成特徴量をベクトルとして生成する。尚、第2合成特徴量は、図13に示す3つの合成特徴量の中の真ん中に位置する合成特徴量と最も下に位置する合成特徴量である。このように、意味的な特徴に構文的な特徴を重みづけることにより、構文的に一致しない属性名のアンマッチを抑制することができる。特徴合成部126は第1合成特徴量及び第2合成特徴量を生成すると、生成した第1合成特徴量及び第2合成特徴量を合成特徴記憶部117に格納する。これにより、合成特徴記憶部117は第1合成特徴量及び第2合成特徴量を記憶する。 When the process of step S109 is completed, the feature synthesizing unit 126 generates a synthesized feature amount (step S110). More specifically, as shown in FIG. 13, the feature synthesizing unit 126 weights the semantic feature stored in the semantic feature storing unit 116 with the first syntactic feature stored in the syntactic feature storing unit 114 to obtain a first synthesis. Generate features as vectors. Note that the first combined feature amount is the topmost combined feature amount among the three combined feature amounts shown in FIG. 13 . Further, the feature synthesizing unit 126 generates a second synthesized feature amount by weighting the semantic feature amount stored in the semantic feature storage unit 116 with the second syntactic feature amount stored in the syntactic feature storage unit 114 as a vector. The second combined feature amount is the combined feature amount located in the middle and the combined feature amount located at the bottom among the three combined feature amounts shown in FIG. 13 . In this way, by weighting the syntactic features to the semantic features, unmatching of syntactically inconsistent attribute names can be suppressed. After generating the first combined feature amount and the second combined feature amount, the feature combining unit 126 stores the generated first combined feature amount and second combined feature amount in the combined feature storage unit 117 . Thereby, the combined feature storage unit 117 stores the first combined feature amount and the second combined feature amount.

ステップS110の処理が完了すると、類似度出力部127は類似度を算出する(ステップS111)。より詳しくは、類似度出力部127は合成特徴記憶部117から第1合成特徴量と第2合成特徴量を取得し、取得した第1合成特徴量と第2合成特徴量のコサイン類似度を算出する。ここで、第1実施形態では、図13に示すように、特徴合成部126は識別子「D2C1」に関する第2合成特徴量と識別子「D2C4」に関する第2合成特徴量を生成する。このため、類似度出力部127は識別子「D1C1」に関する第1合成特徴量と識別子「D2C1」に関する第2合成特徴量のコサイン類似度を算出する。また、類似度出力部127は識別子「D1C1」に関する第1合成特徴量と識別子「D2C4」に関する第2合成特徴量のコサイン類似度を算出する。 When the process of step S110 is completed, the similarity output unit 127 calculates the similarity (step S111). More specifically, the similarity output unit 127 acquires the first combined feature amount and the second combined feature amount from the combined feature storage unit 117, and calculates the cosine similarity between the acquired first combined feature amount and the second combined feature amount. do. Here, in the first embodiment, as shown in FIG. 13, the feature synthesizing unit 126 generates a second synthetic feature amount for the identifier "D2C1" and a second synthetic feature amount for the identifier "D2C4". Therefore, the similarity output unit 127 calculates the cosine similarity between the first combined feature amount related to the identifier "D1C1" and the second combined feature amount related to the identifier "D2C1". Further, the similarity output unit 127 calculates the cosine similarity between the first combined feature amount related to the identifier "D1C1" and the second combined feature amount related to the identifier "D2C4".

これにより、図14に示すように、識別子「D1C1」と識別子「D2C4」の第1の組み合わせに基づくベクトル間の角度は、識別子「D1C1」と識別子「D2C1」の第2の組み合わせに基づくベクトル間の角度より小さくなる。したがって、第1の組み合わせに基づくコサイン類似度の方が第2の組み合わせに基づくコサイン類似度より大きくなる。即ち、前者のコサイン類似度の方が後者のコサイン類似度と比べてより「1」に近づいている。この結果、第1の組み合わせに基づく類似度の方が第2の組み合わせに基づく類似度より相対的に高くなり、属性名「会社」は属性名「社名」とマッチし、属性名「職位」とマッチしない(即ちアンマッチ)と特定することができる。 As a result, as shown in FIG. 14, the angle between the vectors based on the first combination of the identifiers "D1C1" and "D2C4" is the angle between the vectors based on the second combination of the identifiers "D1C1" and "D2C1". less than the angle of Therefore, the cosine similarity based on the first combination will be greater than the cosine similarity based on the second combination. That is, the former cosine similarity is closer to "1" than the latter cosine similarity. As a result, the similarity based on the first combination becomes relatively higher than the similarity based on the second combination, the attribute name "company" matches the attribute name "company name", and the attribute name "position" matches. It can be specified as not matching (ie, unmatched).

ステップS111の処理が完了すると、類似度出力部127は類似度を出力する(ステップS112)。より詳しくは、類似度出力部127は算出した類似度と統合対象の属性名と統合先の属性名を含むマッチングリスト画面10を表示部140に出力する。これにより、マッチングリスト画面10を閲覧したユーザは統合対象の属性名をどの属性名に統合したらよいか容易に決定することができる。尚、後にマッチングリスト画面10の詳細を説明する。 When the process of step S111 is completed, the similarity output unit 127 outputs the similarity (step S112). More specifically, the similarity output unit 127 outputs to the display unit 140 the matching list screen 10 including the calculated similarity, the attribute name to be integrated, and the attribute name to be integrated. As a result, the user viewing the matching list screen 10 can easily determine which attribute name should be integrated with the attribute name to be integrated. Details of the matching list screen 10 will be described later.

次に、上述したステップS104の処理において、属性値が数値である場合について説明する。 Next, a case where the attribute value is a numerical value in the process of step S104 described above will be described.

ステップS104の処理において、クレンジング部122は属性値が数値であると判断した場合(ステップS104:YES)、図15に示すように、文書情報を細分化する(ステップS121)。例えば、クレンジング部122は、正規表現に基づいて、数値グループの文書情報を、日付を表す属性値を集約した文書情報と日時を表す属性値を集約した文書情報に細分化する。尚、クレンジング部122は日時を表す属性値を集約した文書情報が存在しないと判断した場合、ステップS121の処理をスキップしてもよい。第1実施形態では、日時を表す属性値を集約した文書情報が存在しないため、ステップS121の詳細な説明を省略する。 In the processing of step S104, when the cleansing unit 122 determines that the attribute value is a numerical value (step S104: YES), it subdivides the document information as shown in FIG. 15 (step S121). For example, based on regular expressions, the cleansing unit 122 subdivides the document information in the numerical group into document information in which attribute values representing dates are aggregated and document information in which attribute values representing dates and times are aggregated. Note that the cleansing unit 122 may skip the process of step S121 when it determines that there is no document information in which attribute values representing date and time are aggregated. In the first embodiment, since there is no document information in which attribute values representing dates and times are aggregated, detailed description of step S121 is omitted.

ステップS121の処理が完了すると、クレンジング部122は属性名を抽出する(ステップS122)。より詳しくは、図16に示すように、クレンジング部122は第1構造化データD1と第2構造化データD2と数字グループの文書情報とに基づいて、識別子を関連付けた属性名を抽出する。数字グループの文書情報には数値の属性値が集約されているため、クレンジング部122はこれらの属性値を第1構造化データD1と第2構造化データD2の各属性値と対比することにより、第1構造化データD1と第2構造化データD2の属性名を抽出することができる。 When the process of step S121 is completed, the cleansing unit 122 extracts attribute names (step S122). More specifically, as shown in FIG. 16, the cleansing unit 122 extracts attribute names associated with identifiers based on the first structured data D1, the second structured data D2, and the document information of the numeric groups. Since numeric attribute values are aggregated in the document information of the numeric group, the cleansing unit 122 compares these attribute values with the attribute values of the first structured data D1 and the second structured data D2 to obtain Attribute names of the first structured data D1 and the second structured data D2 can be extracted.

ステップS122の処理が完了すると、解析部123はクレンジング部122が抽出した属性名に対し形態素解析を実行する(ステップS123)。ステップS107の処理と同様に、解析部123は辞書記憶部113が記憶する辞書データを参照して形態素解析を実行する。形態素解析が実行されることにより、図17に示すように、いくつかの属性名は単語に分かち書きされる。すなわち、いくつかの属性名は2つ以上の単語に分けられ、これら2つ以上の単語の間に空白が挟まれる。第1実施形態では、例えば「振込日」が「振込」と「日」の2つの単語に分けられている。尚、「生年月日」や「誕生日」など属性名によっては属性名自体が単語の場合もある。ステップS123の処理により、解析部123は属性名が含む単語を取得する。 When the process of step S122 is completed, the analysis unit 123 performs morphological analysis on the attribute name extracted by the cleansing unit 122 (step S123). As in the process of step S107, the analysis unit 123 refers to the dictionary data stored in the dictionary storage unit 113 and executes morphological analysis. By performing morphological analysis, some attribute names are separated into words as shown in FIG. That is, some attribute names are split into two or more words with spaces between these two or more words. In the first embodiment, for example, "transfer date" is divided into two words "transfer" and "day". Depending on the attribute name such as "date of birth" or "birthday", the attribute name itself may be a word. Through the process of step S123, the analysis unit 123 acquires words included in the attribute name.

ステップS123の処理が完了すると、第2抽出部125は意味的特徴量を抽出する(ステップS124)。より詳しくは、第2抽出部125は、上述した公知の第2抽出手法に基づいて、意味的特徴量を抽出する。第2抽出部125は解析部123から単語を取得し、第2抽出手法を利用して、取得した単語からその単語に応じた意味的特徴量を抽出する。これにより、図18に示すように、単語に応じた意味的特徴量がベクトルとして抽出される。第2抽出部125はこの単語に応じた意味的特徴量を単語と関連付けて意味特徴記憶部116に格納する。これにより、意味特徴記憶部116は互いに関連付いた意味的特徴量及び単語を記憶する。 When the process of step S123 is completed, the second extracting unit 125 extracts semantic features (step S124). More specifically, the second extraction unit 125 extracts semantic features based on the above-described known second extraction technique. The second extraction unit 125 acquires a word from the analysis unit 123 and extracts a semantic feature amount corresponding to the word from the acquired word using the second extraction method. As a result, as shown in FIG. 18, the semantic feature quantity corresponding to the word is extracted as a vector. The second extraction unit 125 associates the semantic feature amount corresponding to the word with the word and stores it in the semantic feature storage unit 116 . Thereby, the semantic feature storage unit 116 stores semantic features and words associated with each other.

ステップS124の処理が完了すると、特徴合成部126は平均特徴量を生成する(ステップS125)。より詳しくは、図19に示すように、特徴合成部126は、属性名が含む一又は複数の単語の意味的特徴量の総和をその属性名が含む一又は複数の単語の数で割った第1平均特徴量及び第2平均特徴量を識別子毎にベクトルとして生成する。尚、第1平均特徴量は、図19に示す4つの平均特徴量の中の最も上に位置する平均特徴量とその直下に位置する平均特徴量である。第2平均特徴量は、図19に示す4つの平均特徴量の中の最も下に位置する平均特徴量とその直上に位置する平均特徴量である。このように、数値グループの文書情報は属性値が数値であるため、属性値の意味的特徴量を抽出して平均特徴量を生成すること有効でない。したがって、特徴合成部126は属性名が含む単語の意味的特徴量を利用して平均特徴量を生成する。特徴合成部126は第1平均特徴量及び第2平均特徴量を生成すると、生成した第1平均特徴量及び第2平均特徴量を合成特徴記憶部117に格納する。これにより、合成特徴記憶部117は第1平均特徴量及び第2平均特徴量を記憶する。 When the process of step S124 is completed, the feature synthesizing unit 126 generates an average feature amount (step S125). More specifically, as shown in FIG. 19, the feature synthesizing unit 126 divides the sum of the semantic feature amounts of one or more words included in the attribute name by the number of one or more words included in the attribute name. A first average feature amount and a second average feature amount are generated as vectors for each identifier. Note that the first average feature amount is the average feature amount located at the top among the four average feature amounts shown in FIG. 19 and the average feature amount located immediately below it. The second average feature amount is the lowest average feature amount among the four average feature amounts shown in FIG. 19 and the average feature amount located immediately above it. As described above, since the attribute values of the document information in the numeric group are numerical values, it is not effective to extract the semantic feature amount of the attribute values and generate the average feature amount. Therefore, the feature synthesizing unit 126 generates an average feature amount using semantic feature amounts of words included in attribute names. After generating the first average feature amount and the second average feature amount, the feature synthesis unit 126 stores the generated first average feature amount and second average feature amount in the synthesized feature storage unit 117 . Thereby, the combined feature storage unit 117 stores the first average feature amount and the second average feature amount.

ステップS125の処理が完了すると、図4に示すように、類似度出力部127はステップS111の処理を実行する。より詳しくは、類似度出力部127は合成特徴記憶部117から第1平均特徴量と第2平均特徴量を取得し、取得した第1平均特徴量と第2平均特徴量のコサイン類似度を算出する。ここで、第1実施形態では、図19に示すように、特徴合成部126は識別子「D1C2」に関する第1平均特徴量と識別子「D1C3」に関する第1平均特徴量を生成する。また、特徴合成部126は識別子「D2C2」に関する第2平均特徴量と識別子「D2C3」に関する第2平均特徴量を生成する。 When the process of step S125 is completed, the similarity output unit 127 executes the process of step S111 as shown in FIG. More specifically, the similarity output unit 127 acquires the first average feature amount and the second average feature amount from the combined feature storage unit 117, and calculates the cosine similarity of the acquired first average feature amount and the second average feature amount. do. Here, in the first embodiment, as shown in FIG. 19, the feature synthesizing unit 126 generates a first average feature amount related to the identifier "D1C2" and a first average feature amount related to the identifier "D1C3". Also, the feature synthesizing unit 126 generates a second average feature amount for the identifier "D2C2" and a second average feature amount for the identifier "D2C3".

このため、類似度出力部127は識別子「D1C2」に関する第1平均特徴量と識別子「D2C2」に関する第2平均特徴量のコサイン類似度を算出する。また、類似度出力部127は識別子「D1C2」に関する第1平均特徴量と識別子「D2C3」に関する第2平均特徴量のコサイン類似度を算出する。これにより、図20に示すように、識別子「D1C2」と識別子「D2C3」の第3の組み合わせに基づくベクトル間の角度は、識別子「D1C2」と識別子「D2C2」の第4の組み合わせに基づくベクトル間の角度より小さくなる。したがって、第3の組み合わせに基づくコサイン類似度の方が第4の組み合わせに基づくコサイン類似度より大きくなる。即ち、前者のコサイン類似度の方が後者のコサイン類似度と比べてより「1」に近づいている。この結果、第3の組み合わせに基づく類似度の方が第4の組み合わせに基づく類似度より相対的に高くなり、属性名「振込日」は属性名「給料日」とマッチし、属性名「誕生日」とマッチしない(即ちアンマッチ)と特定することができる。 Therefore, the similarity output unit 127 calculates the cosine similarity between the first average feature amount related to the identifier "D1C2" and the second average feature amount related to the identifier "D2C2". Further, the similarity output unit 127 calculates the cosine similarity between the first average feature amount related to the identifier "D1C2" and the second average feature amount related to the identifier "D2C3". As a result, as shown in FIG. 20, the angle between the vectors based on the third combination of the identifiers "D1C2" and "D2C3" is the angle between the vectors based on the fourth combination of the identifiers "D1C2" and "D2C2". less than the angle of Therefore, the cosine similarity based on the third combination is greater than the cosine similarity based on the fourth combination. That is, the former cosine similarity is closer to "1" than the latter cosine similarity. As a result, the degree of similarity based on the third combination is relatively higher than the degree of similarity based on the fourth combination, the attribute name "transfer date" matches the attribute name "salary date", and the attribute name "birth date" matches. date" (i.e. unmatched).

同様に、類似度出力部127は識別子「D1C3」に関する第1平均特徴量と識別子「D2C2」に関する第2平均特徴量のコサイン類似度を算出する。また、類似度出力部127は識別子「D1C3」に関する第1平均特徴量と識別子「D2C3」に関する第2平均特徴量のコサイン類似度を算出する。これにより、図21に示すように、識別子「D1C3」と識別子「D2C2」の第5の組み合わせに基づくベクトル間の角度は、識別子「D1C3」と識別子「D2C3」の第6の組み合わせに基づくベクトル間の角度より小さくなる。したがって、第5の組み合わせに基づくコサイン類似度の方が第6の組み合わせに基づくコサイン類似度より大きくなる。即ち、前者のコサイン類似度の方が後者のコサイン類似度と比べてより「1」に近づいている。この結果、第5の組み合わせに基づく類似度の方が第6の組み合わせに基づく類似度より相対的に高くなり、属性名「生年月日」は属性名「誕生日」とマッチし、属性名「給料日」とマッチしない(即ちアンマッチ)と特定することができる。 Similarly, the similarity output unit 127 calculates the cosine similarity between the first average feature amount related to the identifier "D1C3" and the second average feature amount related to the identifier "D2C2". Further, the similarity output unit 127 calculates the cosine similarity between the first average feature amount related to the identifier "D1C3" and the second average feature amount related to the identifier "D2C3". As a result, as shown in FIG. 21, the angle between the vectors based on the fifth combination of the identifiers "D1C3" and "D2C2" is the angle between the vectors based on the sixth combination of the identifiers "D1C3" and "D2C3". less than the angle of Therefore, the cosine similarity based on the fifth combination is greater than the cosine similarity based on the sixth combination. That is, the former cosine similarity is closer to "1" than the latter cosine similarity. As a result, the degree of similarity based on the fifth combination is relatively higher than the degree of similarity based on the sixth combination, the attribute name "date of birth" matches the attribute name "birthday", and the attribute name " Payday" can be specified as unmatched.

ステップS111の処理が完了すると、類似度出力部127はステップS112の処理を実行する。すなわち、類似度出力部127は類似度などを含むマッチングリスト画面10を表示部140に出力する。これにより、属性値が文字である場合と同様に、マッチングリスト画面10を閲覧したユーザは統合対象の属性名をどの属性名に統合したらよいか容易に決定することができる。 When the process of step S111 is completed, the similarity output unit 127 executes the process of step S112. That is, the similarity output unit 127 outputs the matching list screen 10 including the similarity and the like to the display unit 140 . As a result, the user viewing the matching list screen 10 can easily determine to which attribute name the attribute names to be integrated should be integrated, as in the case where the attribute values are characters.

図22はマッチングリスト画面10の一例である。マッチングリスト画面10は第1構造化データD1に関する画面と第2構造化データD2に関する画面を含んでいる。マッチングリスト画面10に含まれる各画面はいずれも統合対象の情報と統合先の情報を含んでいる。具体的には、マッチングリスト画面10に含まれる各画面はいずれも識別子、属性名、及び属性値を統合対象の情報として含んでいる。また、マッチングリスト画面10に含まれる各画面はいずれも対応識別子、対応属性名、及び対応属性値を統合先の情報として含んでいる。マッチングリスト画面10に含まれる各画面はいずれも統合対象の情報と統合先の情報の間に候補順位と類似度を含んでいる。候補順位は統合対象に対する統合先の候補の順位を表している。類似度はコサイン類似度を表している。数値が大きな類似度ほど統合先の候補として高い順位が付与されている。このように、表示部140にマッチングリスト画面10が表示され、ユーザがマッチングリスト画面10を確認すれば、統合対象の属性名をどの属性名に統合したらよいか容易に決定することができる。 FIG. 22 is an example of the matching list screen 10. FIG. The matching list screen 10 includes a screen related to the first structured data D1 and a screen related to the second structured data D2. Each screen included in the matching list screen 10 includes information to be integrated and information to be integrated. Specifically, each screen included in the matching list screen 10 includes identifiers, attribute names, and attribute values as information to be integrated. In addition, each screen included in the matching list screen 10 includes a corresponding identifier, a corresponding attribute name, and a corresponding attribute value as integration destination information. Each screen included in the matching list screen 10 includes candidate ranking and similarity between the information to be integrated and the information to be integrated. The candidate ranking represents the ranking of candidates for the integration destination with respect to the integration target. Similarity represents cosine similarity. A higher degree of similarity with a higher numerical value is assigned a higher rank as a candidate for integration destination. In this way, the matching list screen 10 is displayed on the display unit 140, and when the user confirms the matching list screen 10, the attribute name to be integrated can be easily determined with which attribute name.

このように、第1実施形態では、ユーザがマッチングリスト画面10を確認して、統合対象の属性名をどの属性名に統合したらよいかを決定している。一方で、マッチングリスト画面10を表示部140に表示せずに、例えば候補順位が1位である統合先の属性名を類似度出力部127が特定し、特定した統合先の属性名に統合対象の属性名を類似度出力部127が動的に統合し、その結果を表示部140に表示するようにしてもよい。これにより、ユーザの確認作業が不要になり、データ統合が円滑化する。 As described above, in the first embodiment, the user confirms the matching list screen 10 and determines which attribute name should be integrated with the attribute name to be integrated. On the other hand, without displaying the matching list screen 10 on the display unit 140, for example, the similarity output unit 127 specifies the attribute name of the integration destination with the first candidate ranking, and the specified attribute name of the integration destination attribute names may be dynamically integrated by the similarity output unit 127 and the result may be displayed on the display unit 140 . This eliminates the need for confirmation work by the user, facilitating data integration.

図23は第1実施形態に係る利点を簡単に説明した図である。上段には比較例に係るユーザ20の作業が示されている。下段には第1実施形態に係るユーザ20の作業が示されている。データサイエンティストといったユーザ20はデータを分析してインサイト(洞察)を導出することが求められるが、上段に示すように、ユーザ20の作業時間の8割近くは分析工程の前の工程である前処理工程で消費されている。特に、前処理工程におけるデータ統合では、属性名の表現が統一されていないことが多く、個々の属性名を個別にチェックして統合対象に対する統合先として同じであるか否かが判断されている。この結果、作業時間の残り2割近くでデータを分析してインサイトを導出することが求められ、効率的なデータ統合が難しかった。 FIG. 23 is a diagram briefly explaining the advantages of the first embodiment. The upper part shows the work of the user 20 according to the comparative example. The lower part shows the work of the user 20 according to the first embodiment. A user 20 such as a data scientist is required to analyze data and derive insights. Consumed in the processing process. In particular, in data integration in the preprocessing process, the expression of attribute names is often not unified, and each attribute name is individually checked to determine whether it is the same as the integration target for the integration target. . As a result, the remaining 20% of work time was required to analyze data and derive insights, making efficient data integration difficult.

しかしながら、第1実施形態によれば、下段に示すように、ユーザ20は端末装置100に表示されたマッチングリスト画面(図23において不図示)を確認すれば、属性名のマッチ及びアンマッチを容易に決定することができる。これにより、前処理工程で消費する作業時間を削減することができ、インサイトの導出に要する作業時間を増やすことできる。 However, according to the first embodiment, as shown in the lower part, if the user 20 checks the matching list screen (not shown in FIG. 23) displayed on the terminal device 100, it is possible to easily match and unmatch attribute names. can decide. As a result, it is possible to reduce the work time consumed in the preprocessing step and increase the work time required for deriving the insight.

以上、第1実施形態によれば、端末装置100は記憶部110と処理部120を備えている。記憶部110はデータ記憶部111を含んでいる。データ記憶部111は第1構造化データD1及び第2構造化データD2を記憶する。第1構造化データD1は属性名とその属性名に応じた属性値を含んでいる。第2構造化データD2は複数の属性名とこれら複数の属性名のそれぞれに応じた属性値を含んでいる。 As described above, according to the first embodiment, the terminal device 100 includes the storage unit 110 and the processing unit 120 . Storage unit 110 includes data storage unit 111 . The data storage unit 111 stores the first structured data D1 and the second structured data D2. The first structured data D1 includes attribute names and attribute values corresponding to the attribute names. The second structured data D2 includes a plurality of attribute names and attribute values corresponding to each of the plurality of attribute names.

一方、処理部120は文書生成部121、第1抽出部124、第2抽出部125、特徴合成部126、及び類似度出力部127を備えている。文書生成部121は第1構造化データD1が含む属性値を集約した文書情報を生成する。また、文書生成部121は第2構造化データD2が含む複数の属性値を集約した文書情報を生成する。第1抽出部124は上述した公知の第1抽出手法に基づいて、前者の文書情報から第1構文的特徴量を抽出し、後者の文書情報から第2構文的特徴量を抽出し、第1構文的特徴量及び第2構文的特徴量の抽出と併せて特定の重要単語を抽出する。第2抽出部125は上述した公知の第2抽出手法に基づいて、特定の重要単語から特定の重要単語に応じた特定の意味的特徴量を抽出する。特徴合成部126は特定の意味的特徴量に第1構文的特徴量を重み付けした第1合成特徴量と特定の意味的特徴量に第2構文的特徴量を重み付けした第2合成特徴量を生成する。類似度出力部127は第1合成特徴量と第2合成特徴量の類似度を表す第1類似度及び第1類似度に応じて決定した統合対象の属性名の統合先を示す特定の属性名の少なくとも一方を出力する。 On the other hand, the processing unit 120 includes a document generation unit 121 , a first extraction unit 124 , a second extraction unit 125 , a feature synthesizing unit 126 and a similarity output unit 127 . The document generation unit 121 generates document information that summarizes the attribute values included in the first structured data D1. Also, the document generation unit 121 generates document information in which a plurality of attribute values included in the second structured data D2 are aggregated. The first extraction unit 124 extracts the first syntactic feature amount from the former document information, extracts the second syntactic feature amount from the latter document information, and extracts the first syntactic feature amount from the latter document information, based on the known first extraction method described above. Specific key words are extracted in conjunction with the extraction of the syntactic features and the second syntactic features. The second extraction unit 125 extracts a specific semantic feature amount corresponding to the specific important word from the specific important word based on the known second extraction method described above. The feature synthesizing unit 126 generates a first synthesized feature amount by weighting the first syntactic feature amount to the specific semantic feature amount and a second synthesized feature amount by weighting the second syntactic feature amount to the specific semantic feature amount. do. The similarity output unit 127 outputs a first similarity indicating the degree of similarity between the first synthesized feature quantity and the second synthesized feature quantity, and a specific attribute name indicating an integration target attribute name determined according to the first similarity. output at least one of

これにより、効率的なデータ統合を支援することができる。特に、第1実施形態によれば、属性名の構文的な特徴だけでなく、属性値の意味的な特徴も考慮しているため、属性名が構文的にマッチしなくても、属性値によって意味的にマッチする属性名を見逃さないで済む。一方で、属性値の意味的な特徴だけに着目してデータ統合の関する処理を実行していないため、属性値の意味的な特徴だけに着目した場合に比べて、計算量を削減することができる。 This can assist efficient data integration. In particular, according to the first embodiment, not only the syntactic features of attribute names but also the semantic features of attribute values are considered. Don't miss attribute names that semantically match. On the other hand, since the processing related to data integration is not performed by focusing only on the semantic features of the attribute values, the amount of calculation can be reduced compared to the case where only the semantic features of the attribute values are noted. can.

(第2実施形態)
続いて、図24及び図25を参照して、本件の第2実施形態について説明する。図24は比較例に係るマッチング例を説明するための図である。図25は第2実施形態に係るマッチング例を説明するための図である。第2実施形態では、第1実施形態で説明した第1構造化データD1及び第2構造化データD2に代えて、第1半構造化データD3と第2半構造化データD4を用いて説明する。
(Second embodiment)
Next, a second embodiment of the present case will be described with reference to FIGS. 24 and 25. FIG. FIG. 24 is a diagram for explaining a matching example according to the comparative example. FIG. 25 is a diagram for explaining a matching example according to the second embodiment. In the second embodiment, instead of the first structured data D1 and the second structured data D2 described in the first embodiment, first semi-structured data D3 and second semi-structured data D4 will be used. .

第1半構造化データD3と第2半構造化データD4はいずれもツリー構造形式でデータ構造が定義された電子ファイルである。このような電子ファイルとしては、例えばeXtensible Markup Language(XML)ファイル、JavaScript(登録商標) Object Notation(JSON)ファイル、テキストファイルなどがある。すなわち、第1半構造化データD3と第2半構造化データD4はいずれもデータ構造が部分的に定義されたデータである。言い換えれば、第1半構造化データD3と第2半構造化データD4はいずれもデータの構造定義を部分的に持っている。 Both the first semi-structured data D3 and the second semi-structured data D4 are electronic files whose data structures are defined in a tree structure format. Examples of such electronic files include eXtensible Markup Language (XML) files, JavaScript (registered trademark) Object Notation (JSON) files, and text files. That is, both the first semi-structured data D3 and the second semi-structured data D4 are data whose data structures are partially defined. In other words, both the first semi-structured data D3 and the second semi-structured data D4 partially have the structure definition of the data.

第2実施形態において、第2半構造化データD4が統合対象に相当し、第1半構造化データD3が統合先に相当する。第2実施形態では、データ記憶部111は、2つの構造化データとして、このような第1半構造化データD3及び第2半構造化データD4を記憶する。尚、第1半構造化データD3及び第2半構造化データD4は上述したステップS102の処理が実行される前にデータ記憶部111に格納されていればよく、第1半構造化データD3及び第2半構造化データD4の格納経路は特に限定されない。 In the second embodiment, the second semi-structured data D4 corresponds to the integration target, and the first semi-structured data D3 corresponds to the integration destination. In the second embodiment, the data storage unit 111 stores such first semi-structured data D3 and second semi-structured data D4 as two structured data. Note that the first semi-structured data D3 and the second semi-structured data D4 only need to be stored in the data storage unit 111 before the process of step S102 described above is executed. The storage path of the second semi-structured data D4 is not particularly limited.

ここで、図24に示すように、第2半構造化データD4がデータセットBとして含む属性名を、第1半構造化データD3がデータセットAとして含む属性名に統合する際、第2半構造化データD4が統合対象として含む上位の属性名(具体的には「ショーファー」(chauffeur:運転手))と第1半構造化データD3が統合先として含む2つの上位の属性名(具体的にはカー情報及びドライバ情報)とのマッチングが実行される。また、この際、第2半構造化データD4が統合対象として含む下位の属性名(具体的にはシリーズ)と第1半構造化データD3が統合先として含む4つの下位の属性名(具体的には「モデル」、「プライス」、「ネーム」、及び「アドレス」)とのマッチングが実行される。 Here, as shown in FIG. 24, when integrating the attribute names included in the second semi-structured data D4 as the data set B into the attribute names included in the first semi-structured data D3 as the data set A, the second half A high-level attribute name (specifically, "chauffeur") included in the structured data D4 as an integration target and two high-level attribute names (specifically, chauffeur) included in the first semi-structured data D3 as an integration destination Specifically, matching with car information and driver information) is performed. At this time, the lower attribute name (specifically, series) included in the second semi-structured data D4 as an integration target and the four lower attribute names (specifically, series) included in the first semi-structured data D3 as integration destinations ("model", "price", "name", and "address").

しかしながら、統合対象である上位の属性名を統合先である2つの上位の属性名のそれぞれと構文的にマッチングしても、文字の形態が一致しないため、統合対象である上位の属性名が統合先である上位の属性名のどちらとマッチするのか精度良く判断することは難しい。同様に、統合対象である下位の属性名を統合先である4つの下位の属性名のそれぞれと構文的にマッチングしても、文字の形態が一致しないため、統合対象である下位の属性名が統合先である下位の属性名のどれとマッチするのか精度良く判断することは難しい。 However, even if the upper attribute name to be merged is syntactically matched with each of the two upper attribute names to be merged, the character forms do not match. It is difficult to accurately determine which of the higher-order attribute names matches. Similarly, even if the lower-level attribute name to be merged is syntactically matched with each of the four lower-level attribute names to be merged, the character forms do not match, so the lower-level attribute name to be merged is It is difficult to accurately determine which of the lower-level attribute names to be merged matches.

ところが、第2実施形態では、図25に示すように、第2半構造化データD4が含む下位の属性名に応じた属性値(具体的にはX1やC63など)と第1半構造化データD3が含む下位の属性名に応じた属性値(具体的にはZ2やM4など)を利用する。このように、第1実施形態と同様に属性値を利用すれば、属性名の構文的な特徴と属性値の意味的な特徴の両方が考慮されて、統合対象である下位の属性名が統合先である下位の属性名のどれとマッチするのか精度良く判断することができる。第2実施形態では、図25に示すように、下位の属性名「シリーズ」は下位の属性名「モデル」とマッチし、下位の属性名「プライス」、「ネーム」及び「アドレス」とマッチしない(即ちアンマッチ)と判断することができる。 However, in the second embodiment, as shown in FIG. 25, the attribute value (specifically, X1, C63, etc.) corresponding to the lower attribute name included in the second semi-structured data D4 and the first semi-structured data Attribute values (specifically, Z2, M4, etc.) corresponding to lower attribute names included in D3 are used. In this way, if attribute values are used in the same way as in the first embodiment, both the syntactic features of attribute names and the semantic features of attribute values are taken into account, and lower-level attribute names to be integrated are integrated. It is possible to accurately determine which of the lower attribute names that are the first to match. In the second embodiment, as shown in FIG. 25, the lower attribute name "series" matches the lower attribute name "model" and does not match the lower attribute names "price", "name" and "address". (that is, unmatched).

また、統合対象である上位の属性名と統合先である上位の属性名をマッチングする際には、下位の属性名及び属性値を利用する。このように、下位の属性名と属性値を利用すれば、上位の属性名及び下位の属性名の構文的な特徴と属性値の意味的な特徴の全てが考慮されて、統合対象である上位の属性名が統合先である上位の属性名のどちらとマッチするのか精度良く判断することができる。第2実施形態では、図25に示すように、上位の属性名「ショーファー」は上位の属性名「ドライバ情報」とマッチし、上位の属性名「カー情報」とマッチしない(即ちアンマッチ)と判断することができる。 In addition, when matching a higher-level attribute name to be integrated with a higher-level attribute name to be integrated, a lower-level attribute name and attribute value are used. In this way, if the lower attribute names and attribute values are used, all of the syntactic characteristics of the upper attribute names and lower attribute names and the semantic characteristics of the attribute values are considered, and the upper It is possible to accurately determine which of the attribute names of the higher level that is the integration destination matches the attribute name of . In the second embodiment, as shown in FIG. 25, the upper attribute name "chauffeur" matches the upper attribute name "driver information" and does not match the upper attribute name "car information" (i.e. unmatches). can judge.

このように、第2実施形態によれば、第1実施形態で説明した構造化データに限らず、半構造化データを利用した場合であっても、効率的なデータ統合を支援することができる。 As described above, according to the second embodiment, efficient data integration can be supported not only with the structured data described in the first embodiment, but also with semi-structured data. .

(第3実施形態)
続いて、図26を参照して、本件の第3実施形態について説明する。図26はデータ統合支援システムSTの一例である。尚、図3に示す端末装置100の各部と同様の構成には同一符号を付し、その説明を省略する。
(Third embodiment)
Next, with reference to FIG. 26, a third embodiment of the present case will be described. FIG. 26 is an example of the data integration support system ST. The same reference numerals are assigned to the same components as those of the terminal device 100 shown in FIG. 3, and the description thereof will be omitted.

データ統合支援システムSTは端末装置100とサーバ装置200を含んでいる。端末装置100とサーバ装置200は通信ネットワークNWを介して接続されている。通信ネットワークNWとしては、例えばLocal Area Network(LAN)やインターネットなどがある。 A data integration support system ST includes a terminal device 100 and a server device 200 . The terminal device 100 and the server device 200 are connected via a communication network NW. The communication network NW includes, for example, a Local Area Network (LAN) and the Internet.

端末装置100は入力部130、表示部140、及び通信部150を備えている。一方、サーバ装置200は記憶部110、処理部120、及び通信部160を備えている。2つの通信部150,160はいずれもネットワークI/F100D又は近距離無線通信回路100Jによって実現することができる。このように、サーバ装置200が記憶部110と処理部120を備えることにより、サーバ装置200をデータ統合支援装置としてもよい。 The terminal device 100 includes an input section 130 , a display section 140 and a communication section 150 . On the other hand, the server device 200 has a storage section 110 , a processing section 120 and a communication section 160 . Both of the two communication units 150 and 160 can be implemented by the network I/F 100D or the short-range wireless communication circuit 100J. In this manner, the server device 200 may be used as a data integration support device by including the storage unit 110 and the processing unit 120 .

図26に示すように、第1実施形態で説明した記憶部110及び処理部120を、端末装置100に代えて、サーバ装置200が備えていてもよい。この場合、端末装置100の入力部130が操作されて、上述した第1構造化データD1及び第2構造化データD2が2つの通信部150,160を介して記憶部110(より詳しくはデータ記憶部111)に格納される。第1構造化データD1及び第2構造化データD2に代えて、第1半構造化データD3及び第2半構造化データD4が記憶部110に格納されてもよい。 As shown in FIG. 26 , the storage unit 110 and the processing unit 120 described in the first embodiment may be provided in the server device 200 instead of the terminal device 100 . In this case, the input unit 130 of the terminal device 100 is operated, and the first structured data D1 and the second structured data D2 described above are sent to the storage unit 110 (more specifically, the data storage unit) via the two communication units 150 and 160. 111). First semi-structured data D3 and second semi-structured data D4 may be stored in storage unit 110 instead of first structured data D1 and second structured data D2.

処理部120は記憶部110にアクセスして、第1構造化データD1及び第2構造化データD2を取得し、第1構造化データD1及び第2構造化データD2に対し、第1実施形態で説明した各種の処理を実行する。そして、処理部120は処理結果を通信部160に出力し、通信部160が処理結果を通信部150に送信する。処理結果としては、例えばマッチングリスト画面10を表示できる画面情報などがある。通信部150は処理結果を受信すると、画面情報を表示部140に出力する。これにより、表示部140はマッチングリスト画面10を表示する。 The processing unit 120 accesses the storage unit 110, acquires the first structured data D1 and the second structured data D2, and stores the first structured data D1 and the second structured data D2 in the first embodiment. Executes the various processes described. Then, the processing unit 120 outputs the processing result to the communication unit 160 , and the communication unit 160 transmits the processing result to the communication unit 150 . The processing results include, for example, screen information capable of displaying the matching list screen 10 . Upon receiving the processing result, communication unit 150 outputs screen information to display unit 140 . Accordingly, the display unit 140 displays the matching list screen 10. FIG.

このように、端末装置100が記憶部110と処理部120を備えずに、サーバ装置200が記憶部110と処理部120を備えていてもよい。また、サーバ装置200が記憶部110を備え、通信ネットワークNWに接続された別のサーバ装置(不図示)が処理部120を備えていてもよい。このような実施形態であっても、効率的なデータ統合を支援することができる。 In this manner, the server device 200 may include the storage unit 110 and the processing unit 120 without the terminal device 100 including the storage unit 110 and the processing unit 120 . Further, the server device 200 may include the storage unit 110 and another server device (not shown) connected to the communication network NW may include the processing unit 120 . Even such an embodiment can support efficient data integration.

以上、本発明の好ましい実施形態について詳述したが、本発明に係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。例えば、データクレンジングの対象の属性値の表現などが事前に統一されている場合には、データクレンジングを実行しなくてもよい。また、形態素解析の対象の属性値が単語に分かち書きされている場合には、形態素解析を実行しなくてもよい。 Although the preferred embodiments of the present invention have been described in detail above, the present invention is not limited to the specific embodiments, and various modifications can be made within the spirit and scope of the present invention described in the claims.・Changes are possible. For example, data cleansing does not need to be performed if the representation of attribute values to be subjected to data cleansing is unified in advance. Further, when the attribute value to be subjected to morphological analysis is written in words, the morphological analysis need not be performed.

なお、以上の説明に関して更に以下の付記を開示する。
(付記1)第1の属性名と前記第1の属性名に応じた第1の属性値を含む第1の構造化データ及び複数の第2の属性名と前記複数の第2の属性名のそれぞれに応じた第2の属性値を含む第2の構造化データを記憶する記憶部と、前記第1の属性値を集約した第1の文書情報と前記第2の属性値を属性名毎に集約した第2の文書情報を生成し、単語の構文に関する特徴量を表す構文的特徴量を重要単語と併せて抽出する第1の抽出手法に基づいて、前記第1の文書情報から前記第1の属性値が含む単語の第1の構文的特徴量を抽出し、前記第2の文書情報から前記第2の属性値が含む単語の第2の構文的特徴量を抽出し、前記第1の構文的特徴量及び前記第2の構文的特徴量の抽出と併せて特定の重要単語を抽出し、前記単語の意味に関する特徴量を表す意味的特徴量を抽出する第2の抽出手法に基づいて、前記特定の重要単語から前記特定の重要単語に応じた特定の意味的特徴量を抽出し、前記特定の意味的特徴量に前記第1の構文的特徴量を重み付けした第1の合成特徴量と前記特定の意味的特徴量に前記第2の構文的特徴量を重み付けした第2の合成特徴量を生成し、前記第1の合成特徴量と前記第2の合成特徴量の類似度を表す第1の類似度及び前記第1の類似度に応じて決定した前記第1の属性名の統合先を示す特定の第2の属性名の少なくとも一方を出力する処理を実行する処理部と、を備えるデータ統合支援装置。
(付記2)前記処理部は、前記第1の文書情報と前記第2の文書情報を生成した後、前記第1の構文的特徴量と前記第2の構文的特徴量を抽出する前に、前記第1の属性値及び前記第2の属性値が文字か否かを判断し、前記第1の属性値及び前記第2の属性値が文字であると判断した場合に、前記第1の構文的特徴量と前記第2の構文的特徴量を抽出する、ことを特徴とする付記1に記載のデータ統合支援装置。
(付記3)前記処理部は、前記第1の類似度を算出し、算出した前記第1の類似度を前記第1の属性名及び前記第2の属性名と併せて表示装置に出力する、ことを特徴とする付記1又は2に記載のデータ統合支援装置。
(付記4)前記処理部は、前記第1の文書情報と前記第2の文書情報を生成した後、前記第1の構文的特徴量と前記第2の構文的特徴量を抽出する前に、前記第1の属性値及び前記第2の属性値が数値か否かを判断し、前記第1の属性値及び前記第2の属性値が数値であると判断した場合、形態素解析に基づいて、前記第1の属性名から前記第1の属性名が含む第1の単語を取得するとともに、前記第2の属性名から前記第2の属性名が含む第2の単語を取得し、前記第2の抽出手法に基づいて、前記第1の単語から前記第1の単語に応じた第1の意味的特徴量を抽出するとともに、前記第2の単語から前記第2の単語に応じた第2の意味的特徴量を抽出し、前記第1の意味的特徴量を平均化した第1の平均特徴量を生成するとともに、前記第2の意味的特徴量を平均化した第2の平均特徴量を生成し、前記第1の平均特徴量と前記第2の平均特徴量の類似度を表す第2の類似度及び前記第2の類似度に応じて決定した前記第1の属性名の統合先を示す特定の第2の属性名の少なくとも一方を出力する、ことを特徴とする付記1に記載のデータ統合支援装置。
(付記5)前記処理部は、前記第2の類似度を算出し、算出した前記第2の類似度を前記第1の属性名及び前記第2の属性名と併せて表示装置に出力する、ことを特徴とする付記4に記載のデータ統合支援装置。
(付記6)前記第1の構造化データと前記第2の構造化データはいずれもデータの構造定義を部分的に持つ半構造化データを含む、ことを特徴とする付記1から5のいずれか1項に記載のデータ統合支援装置。
(付記7)第1の属性名と前記第1の属性名に応じた第1の属性値を含む第1の構造化データ及び複数の第2の属性名と前記複数の第2の属性名のそれぞれに応じた第2の属性値を含む第2の構造化データを記憶し、前記第1の属性値を集約した第1の文書情報と前記第2の属性値を属性名毎に集約した第2の文書情報を生成し、単語の構文に関する特徴量を表す構文的特徴量を重要単語と併せて抽出する第1の抽出手法に基づいて、前記第1の文書情報から前記第1の属性値が含む単語の第1の構文的特徴量を抽出し、前記第2の文書情報から前記第2の属性値が含む単語の第2の構文的特徴量を抽出し、前記第1の構文的特徴量及び前記第2の構文的特徴量の抽出と併せて特定の重要単語を抽出し、前記単語の意味に関する特徴量を表す意味的特徴量を抽出する第2の抽出手法に基づいて、前記特定の重要単語から前記特定の重要単語に応じた特定の意味的特徴量を抽出し、前記特定の意味的特徴量に前記第1の構文的特徴量を重み付けした第1の合成特徴量と前記特定の意味的特徴量に前記第2の構文的特徴量を重み付けした第2の合成特徴量を生成し、前記第1の合成特徴量と前記第2の合成特徴量の類似度を表す第1の類似度及び前記第1の類似度に応じて決定した前記第1の属性名の統合先を示す特定の第2の属性名の少なくとも一方を出力する、処理をコンピュータが実行するデータ統合支援方法。
(付記8)前記処理は、前記第1の文書情報と前記第2の文書情報を生成した後、前記第1の構文的特徴量と前記第2の構文的特徴量を抽出する前に、前記第1の属性値及び前記第2の属性値が文字か否かを判断し、前記第1の属性値及び前記第2の属性値が文字であると判断した場合に、前記第1の構文的特徴量と前記第2の構文的特徴量を抽出する、ことを特徴とする付記7に記載のデータ統合支援方法。
(付記9)前記処理は、前記第1の類似度を算出し、算出した前記第1の類似度を前記第1の属性名及び前記第2の属性名と併せて表示装置に出力する、ことを特徴とする付記7又は8に記載のデータ統合支援方法。
(付記10)前記処理は、前記第1の文書情報と前記第2の文書情報を生成した後、前記第1の構文的特徴量と前記第2の構文的特徴量を抽出する前に、前記第1の属性値及び前記第2の属性値が数値か否かを判断し、前記第1の属性値及び前記第2の属性値が数値であると判断した場合、形態素解析に基づいて、前記第1の属性名から前記第1の属性名が含む第1の単語を取得するとともに、前記第2の属性名から前記第2の属性名が含む第2の単語を取得し、前記第2の抽出手法に基づいて、前記第1の単語から前記第1の単語に応じた第1の意味的特徴量を抽出するとともに、前記第2の単語から前記第2の単語に応じた第2の意味的特徴量を抽出し、前記第1の意味的特徴量を平均化した第1の平均特徴量を生成するとともに、前記第2の意味的特徴量を平均化した第2の平均特徴量を生成し、前記第1の平均特徴量と前記第2の平均特徴量の類似度を表す第2の類似度及び前記第2の類似度に応じて決定した前記第1の属性名の統合先を示す特定の第2の属性名の少なくとも一方を出力する、ことを特徴とする付記7に記載のデータ統合支援方法。
(付記11)前記処理は、前記第2の類似度を算出し、算出した前記第2の類似度を前記第1の属性名及び前記第2の属性名と併せて表示装置に出力する、ことを特徴とする付記10に記載のデータ統合支援方法。
(付記12)前記第1の構造化データと前記第2の構造化データはいずれもデータの構造定義を部分的に持つ半構造化データを含む、ことを特徴とする付記7から11のいずれか1項に記載のデータ統合支援方法。
(付記13)第1の属性名と前記第1の属性名に応じた第1の属性値を含む第1の構造化データ及び複数の第2の属性名と前記複数の第2の属性名のそれぞれに応じた第2の属性値を含む第2の構造化データを記憶し、前記第1の属性値を集約した第1の文書情報と前記第2の属性値を属性名毎に集約した第2の文書情報を生成し、単語の構文に関する特徴量を表す構文的特徴量を重要単語と併せて抽出する第1の抽出手法に基づいて、前記第1の文書情報から前記第1の属性値が含む単語の第1の構文的特徴量を抽出し、前記第2の文書情報から前記第2の属性値が含む単語の第2の構文的特徴量を抽出し、前記第1の構文的特徴量及び前記第2の構文的特徴量の抽出と併せて特定の重要単語を抽出し、前記単語の意味に関する特徴量を表す意味的特徴量を抽出する第2の抽出手法に基づいて、前記特定の重要単語から前記特定の重要単語に応じた特定の意味的特徴量を抽出し、前記特定の意味的特徴量に前記第1の構文的特徴量を重み付けした第1の合成特徴量と前記特定の意味的特徴量に前記第2の構文的特徴量を重み付けした第2の合成特徴量を生成し、前記第1の合成特徴量と前記第2の合成特徴量の類似度を表す第1の類似度及び前記第1の類似度に応じて決定した前記第1の属性名の統合先を示す特定の第2の属性名の少なくとも一方を出力する、処理をコンピュータに実行させるためのデータ統合支援プログラム。
Note that the following notes are further disclosed with respect to the above description.
(Appendix 1) First structured data including a first attribute name and a first attribute value corresponding to the first attribute name, a plurality of second attribute names, and the plurality of second attribute names a storage unit for storing second structured data including second attribute values corresponding to each; first document information in which the first attribute values are aggregated; and the second attribute values for each attribute name. Based on the first extraction method of generating aggregated second document information and extracting syntactic feature quantities representing feature quantities related to the syntax of words together with important words, the first document information is extracted from the first document information. extracting a first syntactic feature quantity of a word included in the attribute value of, extracting a second syntactic feature quantity of a word included in the second attribute value from the second document information, and extracting a second syntactic feature quantity of the word included in the attribute value of Based on a second extraction method of extracting a specific important word together with the extraction of the syntactic feature amount and the second syntactic feature amount, and extracting the semantic feature amount representing the feature amount related to the meaning of the word a first synthetic feature amount obtained by extracting a specific semantic feature amount corresponding to the specific important word from the specific important word, and weighting the first syntactic feature amount to the specific semantic feature amount; and to generate a second synthetic feature amount by weighting the second syntactic feature amount to the specific semantic feature amount, and representing the similarity between the first synthetic feature amount and the second synthetic feature amount a processing unit that outputs at least one of a first degree of similarity and a specific second attribute name indicating an integration destination of the first attribute name determined according to the first degree of similarity; A data integration support device provided.
(Appendix 2) After generating the first document information and the second document information, the processing unit, before extracting the first syntactic feature amount and the second syntactic feature amount, determining whether the first attribute value and the second attribute value are characters, and if determining that the first attribute value and the second attribute value are characters, the first syntax The data integration support device according to appendix 1, wherein the syntactic feature quantity and the second syntactic feature quantity are extracted.
(Appendix 3) The processing unit calculates the first similarity, and outputs the calculated first similarity to the display device together with the first attribute name and the second attribute name. The data integration support device according to appendix 1 or 2, characterized by:
(Appendix 4) After generating the first document information and the second document information, the processing unit, before extracting the first syntactic feature amount and the second syntactic feature amount, Determining whether the first attribute value and the second attribute value are numerical values, and when determining that the first attribute value and the second attribute value are numerical values, based on morphological analysis, A first word included in the first attribute name is obtained from the first attribute name, a second word included in the second attribute name is obtained from the second attribute name, and a second word is obtained from the second attribute name. based on the extraction method of extracting a first semantic feature quantity corresponding to the first word from the first word, and a second semantic feature quantity corresponding to the second word from the second word extracting a semantic feature amount, generating a first average feature amount by averaging the first semantic feature amount, and generating a second average feature amount by averaging the second semantic feature amount; a second degree of similarity representing a degree of similarity between the first average feature amount and the second average feature amount, and an integration destination of the first attribute name determined according to the second similarity; The data integration support device according to appendix 1, wherein at least one of the specified second attribute names is output.
(Appendix 5) The processing unit calculates the second similarity, and outputs the calculated second similarity to the display device together with the first attribute name and the second attribute name. The data integration support device according to appendix 4, characterized by:
(Appendix 6) Any one of Appendices 1 to 5, wherein both the first structured data and the second structured data include semi-structured data partially having a structure definition of the data. The data integration support device according to item 1.
(Appendix 7) First structured data including a first attribute name and a first attribute value corresponding to the first attribute name, a plurality of second attribute names, and the plurality of second attribute names Second structured data including second attribute values corresponding to each of them is stored, and first document information in which the first attribute values are aggregated and second document information in which the second attribute values are aggregated for each attribute name are stored. The first attribute value is extracted from the first document information based on the first extraction method of generating the document information of 2 and extracting the syntactic feature amount representing the feature amount related to the syntax of the word together with the important word. extracting a first syntactic feature of the word included in the second document information, extracting a second syntactic feature of the word included in the second attribute value from the second document information, and extracting the first syntactic feature of the word based on a second extraction method for extracting a specific important word in conjunction with the extraction of the amount and the second syntactic feature amount, and extracting the semantic feature amount representing the feature amount related to the meaning of the word, extracting a specific semantic feature amount corresponding to the specific important word from the important words of the above, and weighting the first syntactic feature amount to the specific semantic feature amount and the first synthetic feature amount and the specific A second synthetic feature is generated by weighting the second syntactic feature to the semantic feature of A data integration support method in which a computer executes a process of outputting at least one of a specific second attribute name indicating an integration destination of the first attribute name determined according to the similarity and the first similarity.
(Supplementary Note 8) The processing includes generating the first document information and the second document information and before extracting the first syntactic feature amount and the second syntactic feature amount. determining whether the first attribute value and the second attribute value are characters, and if determining that the first attribute value and the second attribute value are characters, the first syntactic The data integration support method according to appendix 7, wherein the feature amount and the second syntactic feature amount are extracted.
(Supplementary Note 9) The processing includes calculating the first degree of similarity and outputting the calculated first degree of similarity to a display device together with the first attribute name and the second attribute name. The data integration support method according to appendix 7 or 8, characterized by:
(Supplementary Note 10) The processing includes generating the first document information and the second document information and before extracting the first syntactic feature amount and the second syntactic feature amount. Determining whether the first attribute value and the second attribute value are numerical values, and if it is determined that the first attribute value and the second attribute value are numerical values, based on morphological analysis, the Acquiring a first word included in the first attribute name from the first attribute name, acquiring a second word included in the second attribute name from the second attribute name, and acquiring the second word from the second attribute name Based on the extraction technique, a first semantic feature quantity corresponding to the first word is extracted from the first word, and a second meaning corresponding to the second word is extracted from the second word extracting semantic features, generating a first average feature by averaging the first semantic features, and generating a second average feature by averaging the second semantic features a second similarity indicating the degree of similarity between the first average feature amount and the second average feature amount, and an integration destination of the first attribute name determined according to the second similarity The data integration support method according to appendix 7, wherein at least one of the specific second attribute names is output.
(Supplementary Note 11) The processing includes calculating the second degree of similarity and outputting the calculated second degree of similarity to a display device together with the first attribute name and the second attribute name. The data integration support method according to appendix 10, characterized by:
(Appendix 12) Any one of Appendices 7 to 11, wherein both the first structured data and the second structured data include semi-structured data partially having a structure definition of the data. The data integration support method according to item 1.
(Appendix 13) First structured data including a first attribute name and a first attribute value corresponding to the first attribute name, a plurality of second attribute names, and the plurality of second attribute names Second structured data including second attribute values corresponding to each of them is stored, and first document information in which the first attribute values are aggregated and second document information in which the second attribute values are aggregated for each attribute name are stored. The first attribute value is extracted from the first document information based on the first extraction method of generating the document information of 2 and extracting the syntactic feature amount representing the feature amount related to the syntax of the word together with the important word. extracting a first syntactic feature of the word included in the second document information, extracting a second syntactic feature of the word included in the second attribute value from the second document information, and extracting the first syntactic feature of the word based on a second extraction method for extracting a specific important word in conjunction with the extraction of the amount and the second syntactic feature amount, and extracting the semantic feature amount representing the feature amount related to the meaning of the word, extracting a specific semantic feature amount corresponding to the specific important word from the important words of the above, and weighting the first syntactic feature amount to the specific semantic feature amount and the first synthetic feature amount and the specific A second synthetic feature is generated by weighting the second syntactic feature to the semantic feature of Data integration support for causing a computer to execute a process of outputting at least one of a similarity and a specific second attribute name indicating an integration destination of the first attribute name determined according to the first similarity program.

100 端末装置
110 記憶部
111 データ記憶部
120 処理部
121 文書生成部
124 第1抽出部
125 第2抽出部
126 特徴合成部
127 類似度出力部
100 terminal device 110 storage unit 111 data storage unit 120 processing unit 121 document generation unit 124 first extraction unit 125 second extraction unit 126 feature synthesis unit 127 similarity output unit

Claims (8)

第1の属性名と前記第1の属性名に応じた第1の属性値を含む第1の構造化データ及び複数の第2の属性名と前記複数の第2の属性名のそれぞれに応じた第2の属性値を含む第2の構造化データを記憶する記憶部と、
前記第1の属性値を集約した第1の文書情報と前記第2の属性値を属性名毎に集約した第2の文書情報を生成し、単語の構文に関する特徴量を表す構文的特徴量を重要単語と併せて抽出する第1の抽出手法に基づいて、前記第1の文書情報から前記第1の属性値が含む単語の第1の構文的特徴量を抽出し、前記第2の文書情報から前記第2の属性値が含む単語の第2の構文的特徴量を抽出し、前記第1の構文的特徴量及び前記第2の構文的特徴量の抽出と併せて特定の重要単語を抽出し、前記単語の意味に関する特徴量を表す意味的特徴量を抽出する第2の抽出手法に基づいて、前記特定の重要単語から前記特定の重要単語に応じた特定の意味的特徴量を抽出し、前記特定の意味的特徴量に前記第1の構文的特徴量を重み付けした第1の合成特徴量と前記特定の意味的特徴量に前記第2の構文的特徴量を重み付けした第2の合成特徴量を生成し、前記第1の合成特徴量と前記第2の合成特徴量の類似度を表す第1の類似度及び前記第1の類似度に応じて決定した前記第1の属性名の統合先を示す特定の第2の属性名の少なくとも一方を出力する処理を実行する処理部と、
を備えるデータ統合支援装置。
first structured data including a first attribute name and a first attribute value corresponding to the first attribute name; a plurality of second attribute names; and a plurality of second attribute names corresponding to each of the plurality of second attribute names a storage unit that stores second structured data including a second attribute value;
generating first document information in which the first attribute values are aggregated and second document information in which the second attribute values are aggregated for each attribute name; extracting a first syntactic feature quantity of a word included in the first attribute value from the first document information based on a first extraction technique for extracting together with the important word, and obtaining the second document information; extracting a second syntactic feature of the word included in the second attribute value from, and extracting a specific important word along with the extraction of the first syntactic feature and the second syntactic feature and extracting a specific semantic feature quantity corresponding to the specific important word from the specific important word based on a second extraction method for extracting a semantic feature quantity representing a feature quantity relating to the meaning of the word. , a first composite feature obtained by weighting the first syntactic feature to the specific semantic feature, and a second composite obtained by weighting the second syntactic feature to the specific semantic feature generating a feature quantity, a first degree of similarity representing a degree of similarity between the first synthetic feature quantity and the second synthetic feature quantity, and the name of the first attribute determined according to the first similarity; a processing unit that executes a process of outputting at least one of a specific second attribute name indicating an integration destination;
A data integration support device comprising
前記処理部は、前記第1の文書情報と前記第2の文書情報を生成した後、前記第1の構文的特徴量と前記第2の構文的特徴量を抽出する前に、前記第1の属性値及び前記第2の属性値が文字か否かを判断し、前記第1の属性値及び前記第2の属性値が文字であると判断した場合に、前記第1の構文的特徴量と前記第2の構文的特徴量を抽出する、
ことを特徴とする請求項1に記載のデータ統合支援装置。
After generating the first document information and the second document information, and before extracting the first syntactic feature amount and the second syntactic feature amount, the processing unit generates the first document information and the second document information. determining whether the attribute value and the second attribute value are characters, and if determining that the first attribute value and the second attribute value are characters, the first syntactic feature amount and extracting the second syntactic feature;
The data integration support device according to claim 1, characterized by:
前記処理部は、前記第1の類似度を算出し、算出した前記第1の類似度を前記第1の属性名及び前記第2の属性名と併せて表示装置に出力する、
ことを特徴とする請求項1又は2に記載のデータ統合支援装置。
The processing unit calculates the first degree of similarity, and outputs the calculated first degree of similarity to a display device together with the first attribute name and the second attribute name.
3. The data integration support device according to claim 1 or 2, characterized by:
前記処理部は、前記第1の文書情報と前記第2の文書情報を生成した後、前記第1の構文的特徴量と前記第2の構文的特徴量を抽出する前に、前記第1の属性値及び前記第2の属性値が数値か否かを判断し、前記第1の属性値及び前記第2の属性値が数値であると判断した場合、形態素解析に基づいて、前記第1の属性名から前記第1の属性名が含む第1の単語を取得するとともに、前記第2の属性名から前記第2の属性名が含む第2の単語を取得し、前記第2の抽出手法に基づいて、前記第1の単語から前記第1の単語に応じた第1の意味的特徴量を抽出するとともに、前記第2の単語から前記第2の単語に応じた第2の意味的特徴量を抽出し、前記第1の意味的特徴量を平均化した第1の平均特徴量を生成するとともに、前記第2の意味的特徴量を平均化した第2の平均特徴量を生成し、前記第1の平均特徴量と前記第2の平均特徴量の類似度を表す第2の類似度及び前記第2の類似度に応じて決定した前記第1の属性名の統合先を示す特定の第2の属性名の少なくとも一方を出力する、
ことを特徴とする請求項1に記載のデータ統合支援装置。
After generating the first document information and the second document information, and before extracting the first syntactic feature amount and the second syntactic feature amount, the processing unit generates the first document information and the second document information. determining whether the attribute value and the second attribute value are numerical values, and if it is determined that the first attribute value and the second attribute value are numerical values, based on morphological analysis, the first Acquiring a first word included in the first attribute name from the attribute name, acquiring a second word included in the second attribute name from the second attribute name, and performing the second extraction method a first semantic feature quantity corresponding to the first word is extracted from the first word and a second semantic feature quantity corresponding to the second word is extracted from the second word based on and generating a first average feature amount by averaging the first semantic feature amount, and generating a second average feature amount by averaging the second semantic feature amount, a second degree of similarity representing a degree of similarity between the first average feature quantity and the second average feature quantity; outputs at least one of the two attribute names,
The data integration support device according to claim 1, characterized by:
前記処理部は、前記第2の類似度を算出し、算出した前記第2の類似度を前記第1の属性名及び前記第2の属性名と併せて表示装置に出力する、
ことを特徴とする請求項4に記載のデータ統合支援装置。
The processing unit calculates the second similarity and outputs the calculated second similarity to a display device together with the first attribute name and the second attribute name.
5. The data integration support device according to claim 4, characterized by:
前記第1の構造化データと前記第2の構造化データはいずれもデータの構造定義を部分的に持つ半構造化データを含む、
ことを特徴とする請求項1から5のいずれか1項に記載のデータ統合支援装置。
both the first structured data and the second structured data comprise semi-structured data partially having a structure definition of the data;
6. The data integration support device according to any one of claims 1 to 5, characterized by:
第1の属性名と前記第1の属性名に応じた第1の属性値を含む第1の構造化データ及び複数の第2の属性名と前記複数の第2の属性名のそれぞれに応じた第2の属性値を含む第2の構造化データを記憶し、
前記第1の属性値を集約した第1の文書情報と前記第2の属性値を属性名毎に集約した第2の文書情報を生成し、
単語の構文に関する特徴量を表す構文的特徴量を重要単語と併せて抽出する第1の抽出手法に基づいて、前記第1の文書情報から前記第1の属性値が含む単語の第1の構文的特徴量を抽出し、前記第2の文書情報から前記第2の属性値が含む単語の第2の構文的特徴量を抽出し、前記第1の構文的特徴量及び前記第2の構文的特徴量の抽出と併せて特定の重要単語を抽出し、
前記単語の意味に関する特徴量を表す意味的特徴量を抽出する第2の抽出手法に基づいて、前記特定の重要単語から前記特定の重要単語に応じた特定の意味的特徴量を抽出し、
前記特定の意味的特徴量に前記第1の構文的特徴量を重み付けした第1の合成特徴量と前記特定の意味的特徴量に前記第2の構文的特徴量を重み付けした第2の合成特徴量を生成し、
前記第1の合成特徴量と前記第2の合成特徴量の類似度を表す第1の類似度及び前記第1の類似度に応じて決定した前記第1の属性名の統合先を示す特定の第2の属性名の少なくとも一方を出力する、
処理をコンピュータが実行するデータ統合支援方法。
first structured data including a first attribute name and a first attribute value corresponding to the first attribute name; a plurality of second attribute names; and a plurality of second attribute names corresponding to each of the plurality of second attribute names store second structured data including a second attribute value;
generating first document information in which the first attribute values are aggregated and second document information in which the second attribute values are aggregated for each attribute name;
A first syntax of a word included in the first attribute value from the first document information based on a first extraction method for extracting a syntactic feature representing a feature relating to the syntax of the word together with important words. extracting a syntactic feature quantity, extracting a second syntactic feature quantity of a word included in the second attribute value from the second document information, extracting the first syntactic feature quantity and the second syntactic Extracting specific important words in conjunction with extracting features,
Extracting a specific semantic feature amount corresponding to the specific important word from the specific important word based on a second extraction method for extracting a semantic feature amount representing a feature amount related to the meaning of the word,
a first composite feature obtained by weighting the first syntactic feature to the specific semantic feature; and a second composite feature obtained by weighting the second syntactic feature to the specific semantic feature. produce the amount of
a first degree of similarity representing a degree of similarity between the first synthesized feature quantity and the second synthesized feature quantity; output at least one of the second attribute names;
A data integration support method in which a computer executes processing.
第1の属性名と前記第1の属性名に応じた第1の属性値を含む第1の構造化データ及び複数の第2の属性名と前記複数の第2の属性名のそれぞれに応じた第2の属性値を含む第2の構造化データを記憶し、
前記第1の属性値を集約した第1の文書情報と前記第2の属性値を属性名毎に集約した第2の文書情報を生成し、
単語の構文に関する特徴量を表す構文的特徴量を重要単語と併せて抽出する第1の抽出手法に基づいて、前記第1の文書情報から前記第1の属性値が含む単語の第1の構文的特徴量を抽出し、前記第2の文書情報から前記第2の属性値が含む単語の第2の構文的特徴量を抽出し、前記第1の構文的特徴量及び前記第2の構文的特徴量の抽出と併せて特定の重要単語を抽出し、
前記単語の意味に関する特徴量を表す意味的特徴量を抽出する第2の抽出手法に基づいて、前記特定の重要単語から前記特定の重要単語に応じた特定の意味的特徴量を抽出し、
前記特定の意味的特徴量に前記第1の構文的特徴量を重み付けした第1の合成特徴量と前記特定の意味的特徴量に前記第2の構文的特徴量を重み付けした第2の合成特徴量を生成し、
前記第1の合成特徴量と前記第2の合成特徴量の類似度を表す第1の類似度及び前記第1の類似度に応じて決定した前記第1の属性名の統合先を示す特定の第2の属性名の少なくとも一方を出力する、
処理をコンピュータに実行させるためのデータ統合支援プログラム。
first structured data including a first attribute name and a first attribute value corresponding to the first attribute name; a plurality of second attribute names; and a plurality of second attribute names corresponding to each of the plurality of second attribute names store second structured data including a second attribute value;
generating first document information in which the first attribute values are aggregated and second document information in which the second attribute values are aggregated for each attribute name;
A first syntax of a word included in the first attribute value from the first document information based on a first extraction method for extracting a syntactic feature representing a feature relating to the syntax of the word together with important words. extracting a syntactic feature quantity, extracting a second syntactic feature quantity of a word included in the second attribute value from the second document information, extracting the first syntactic feature quantity and the second syntactic Extracting specific important words in conjunction with extracting features,
Extracting a specific semantic feature amount corresponding to the specific important word from the specific important word based on a second extraction method for extracting a semantic feature amount representing a feature amount related to the meaning of the word,
a first composite feature obtained by weighting the first syntactic feature to the specific semantic feature; and a second composite feature obtained by weighting the second syntactic feature to the specific semantic feature. produce the amount of
a first degree of similarity representing a degree of similarity between the first synthesized feature quantity and the second synthesized feature quantity; output at least one of the second attribute names;
A data integration support program that causes a computer to execute processing.
JP2019001834A 2019-01-09 2019-01-09 Data integration support device, data integration support method, and data integration support program Active JP7168826B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019001834A JP7168826B2 (en) 2019-01-09 2019-01-09 Data integration support device, data integration support method, and data integration support program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019001834A JP7168826B2 (en) 2019-01-09 2019-01-09 Data integration support device, data integration support method, and data integration support program

Publications (2)

Publication Number Publication Date
JP2020112919A JP2020112919A (en) 2020-07-27
JP7168826B2 true JP7168826B2 (en) 2022-11-10

Family

ID=71668059

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019001834A Active JP7168826B2 (en) 2019-01-09 2019-01-09 Data integration support device, data integration support method, and data integration support program

Country Status (1)

Country Link
JP (1) JP7168826B2 (en)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140337331A1 (en) 2013-05-07 2014-11-13 International Business Machines Corporation Methods and Systems for Discovery of Linkage Points Between Data Sources

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140337331A1 (en) 2013-05-07 2014-11-13 International Business Machines Corporation Methods and Systems for Discovery of Linkage Points Between Data Sources

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
田上 諒,単語分散表現を用いたEarth Mover’s Distanceと文長の違いに基づく類似度による対訳文の自動抽出,電子情報通信学会 技術研究報告 Vol.118 No.355 [online],日本,一般社団法人 電子情報通信学会,2018年12月04日,第118巻,第355号,pp. 3-8

Also Published As

Publication number Publication date
JP2020112919A (en) 2020-07-27

Similar Documents

Publication Publication Date Title
Rusyn et al. Model and architecture for virtual library information system
Rai Identifying key product attributes and their importance levels from online customer reviews
US20190318407A1 (en) Method for product search using the user-weighted, attribute-based, sort-ordering and system thereof
US20080195611A1 (en) Methodologies and analytics tools for locating experts with specific sets of expertise
WO2010061813A1 (en) Active metric learning device, active metric learning method, and active metric learning program
JP7451747B2 (en) Methods, devices, equipment and computer readable storage media for searching content
Martín et al. Using semi-structured data for assessing research paper similarity
JP2015138351A (en) Information retrieval device, information retrieval method and information retrieval program
US20120179709A1 (en) Apparatus, method and program product for searching document
CN107632974A (en) Suitable for multi-field Chinese analysis platform
Song et al. Semi-automatic construction of a named entity dictionary for entity-based sentiment analysis in social media
Meuschke et al. A benchmark of pdf information extraction tools using a multi-task and multi-domain evaluation framework for academic documents
Mukku et al. Tag me a label with multi-arm: Active learning for telugu sentiment analysis
Bagga et al. HATHI 1M: Introducing a million page historical prose dataset in English from the Hathi Trust
El Barbary et al. Feature selection for document classification based on topology
JP7168826B2 (en) Data integration support device, data integration support method, and data integration support program
Dinov et al. Natural language processing/text mining
US20220083736A1 (en) Information processing apparatus and non-transitory computer readable medium
Bender et al. Unsupervised Estimation of Subjective Content Descriptions in an Information System
JPH11272709A (en) File retrieval system
JP6509391B1 (en) Computer system
JP5700007B2 (en) Information processing apparatus, method, and program
Huang et al. Rough-set-based approach to manufacturing process document retrieval
CN110737749A (en) Entrepreneurship plan evaluation method, entrepreneurship plan evaluation device, computer equipment and storage medium
JP6496078B2 (en) Analysis support device, analysis support method, and analysis support program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211007

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220830

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220906

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220919

R150 Certificate of patent or registration of utility model

Ref document number: 7168826

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150