JP2019200628A - Arithmetic apparatus, data processing method, and data processing system - Google Patents
Arithmetic apparatus, data processing method, and data processing system Download PDFInfo
- Publication number
- JP2019200628A JP2019200628A JP2018095170A JP2018095170A JP2019200628A JP 2019200628 A JP2019200628 A JP 2019200628A JP 2018095170 A JP2018095170 A JP 2018095170A JP 2018095170 A JP2018095170 A JP 2018095170A JP 2019200628 A JP2019200628 A JP 2019200628A
- Authority
- JP
- Japan
- Prior art keywords
- data
- attribute
- points
- clusters
- same
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】同じ属性を有する複数のデータから、その属性を代表するデータを選択する技術を提供する。【解決手段】演算装置は、複数の属性の何れかを有する第1の複数のデータから選択された同じ属性を有する2つのデータの類似性を示すベクトル空間における点の集合を、複数のクラスタに分割する分割処理と、前記複数のクラスタの夫々から、少なくとも1つの点を選択する第1選択処理と、前記複数のクラスタの夫々から選択された複数の点の基となる第2の複数のデータの何れかと同じデータが、前記第2の複数のデータに含まれる場合、前記同じデータを選択する第2選択処理と、を実行する。【選択図】図5PROBLEM TO BE SOLVED: To provide a technique for selecting data representative of an attribute from a plurality of data having the same attribute. An arithmetic unit sets, in a plurality of clusters, a set of points in a vector space indicating the similarity of two data having the same attribute selected from a first plurality of data having any of a plurality of attributes. Division processing for division, first selection processing for selecting at least one point from each of the plurality of clusters, and second plurality of data serving as a basis for the plurality of points selected from each of the plurality of clusters When the same data as any of the above is included in the second plurality of data, a second selection process of selecting the same data is executed. [Selection diagram] Fig. 5
Description
本発明は、演算装置、データ処理方法、データ処理システムに関するものであり、具体的には、同じ属性を有する複数のデータから、その属性を代表するデータを選択する技術する技術に関する。 The present invention relates to an arithmetic device, a data processing method, and a data processing system. Specifically, the present invention relates to a technique for selecting data representative of an attribute from a plurality of data having the same attribute.
近年、属性を示すラベルが付与されていないラベル無しデータを有効的に活用すべく、ラベル無しデータと、ラベルが付与されているラベル有りデータとの類似性等に基づいて、ラベル無しデータの属性を判定することが行われることがある(例えば、特許文献1参照)。 In recent years, in order to effectively utilize unlabeled data that has not been given a label indicating the attribute, the attribute of unlabeled data is based on the similarity between unlabeled data and labeled data to which a label has been assigned. May be determined (see, for example, Patent Document 1).
ところで、所定の属性を有する複数のラベル有りデータの中には、他の属性に含まれるデータと同一のデータ、または区別し難いデータが含まれていることがある。例えば、「名字」の属性を示すラベルが付された「青山」とのデータは、「地名」の属性を示すラベルが付されたデータ「青山」と同一である。一般に、コンピュータが取り扱うデータ量を減らしつつ、コンピュータがデータの属性を判定するためには、このようなデータを事前に除くことが好ましい。 By the way, a plurality of labeled data having a predetermined attribute may include data that is the same as data included in other attributes or data that is difficult to distinguish. For example, the data “Aoyama” with the label indicating the attribute “Last name” is the same as the data “Aoyama” with the label indicating the attribute “Place name”. In general, it is preferable to remove such data in advance so that the computer can determine the attribute of the data while reducing the amount of data handled by the computer.
そこで本発明の目的は、同じ属性を有する複数のデータから、その属性を代表するデータを選択する技術を提供することにある。 Therefore, an object of the present invention is to provide a technique for selecting data representing an attribute from a plurality of data having the same attribute.
上記課題を解決する本発明の演算装置は、複数の属性の何れかを有する第1の複数のデータから選択された同じ属性を有する2つのデータの類似性を示すベクトル空間における点の集合を、複数のクラスタに分割する分割処理と、前記複数のクラスタの夫々から、少なくとも1つの点を選択する第1選択処理と、前記複数のクラスタの夫々から選択された複数の点の基となる第2の複数のデータの何れかと同じデータが、前記第2の複数のデータに含まれる場合、前記同じデータを選択する第2選択処理と、を実行することとする。 The arithmetic device of the present invention that solves the above-described problem is a set of points in a vector space indicating the similarity of two data having the same attribute selected from the first plurality of data having any one of the plurality of attributes. A division process for dividing the plurality of clusters; a first selection process for selecting at least one point from each of the plurality of clusters; and a second basis for a plurality of points selected from each of the plurality of clusters. When the same data as any of the plurality of data is included in the second plurality of data, a second selection process for selecting the same data is performed.
本発明によれば、同じ属性を有する複数のデータから、その属性を代表するデータを選択することができる。 According to the present invention, data representing an attribute can be selected from a plurality of data having the same attribute.
−−−ラベル付与システム10−−−
図1は、ラベル付与システム10の構成を示す図である。ラベル付与システム10(データ処理システム)は、属性を示すラベルが付与されていないラベル無しデータの属性を判定し、ラベル無しデータに対し、属性を示すラベルを付与するシステムである。ラベル付与システム10は、記憶装置20、データ処理装置21、及びラベル付与装置22を含んで構成される。
--- Labeling
FIG. 1 is a diagram showing the configuration of the
記憶装置20は、例えばハードディスク等の不揮発性の記憶手段領域であり、プログラムやデータベース等の様々な情報が格納される。記憶装置20には、トレーニングデータDB(データベース)30、標準データDB31、及び学習済みモデル32が記憶される。
The
トレーニングデータDB30(第1の複数のデータ)は、データの有する属性ごとに複数のデータが分類されたデータベースである。図2は、トレーニングデータDB30の一例を示す図であり、トレーニングデータDB30は予めシステム管理者等により作成され、記憶装置20に格納されている。トレーニングデータDB30の1列目は、「名前」の属性(attribute)を示すラベルが付されたデータ(以下、属性を有するデータとも言う
)である「Alice」、「Bob」、「John」を含む。なお、ここでは、例えば「Alice」との前に「a0」との情報が付され「a0:Alice」と記載されているが、「a0」は、「Alice」を簡易的に示す記号である。なお、「a1」〜「c2」等も「a0」と同様である。
The training data DB 30 (first plurality of data) is a database in which a plurality of data is classified for each attribute of the data. FIG. 2 is a diagram illustrating an example of the
トレーニングデータDB30の2列目は、「住所」の属性を有するデータである「北海道」、「沖縄」、「東京」を含み、3列目は、「年代」の属性を有するデータである「30代」、「20代」、「50代」を含む。なお、トレーニングデータDB30は、3つ以上の属性を含むが、図2では便宜上省略し3つの属性のみ記載している。また、トレーニングデータDB30の行は、1列目の人物に関する情報を示す。例えば、2行目の情報は、「Alice」という「名前」の人物の「住所」及び「年代」である。
The second column of the
標準データDB31(第4の複数のデータ)は、トレーニングデータDB30から、属性を代表しないデータが除かれたデータ(標準データ、canonical data)が格納されたデータベースである。図3は、標準データDB31の一例を示す図である。ここでは、トレーニングデータDB30の1列目に含まれていた「Alice」「Bob」、「John」のうち、「Bob」、「John」は、「名前」の属性を代表しないデータとして除かれている。つまり、ここでは、「Alice」は、「名前」の属性を代表するデータとして選択されている。なお、標準データDB31の生成方法については後述する。
The standard data DB 31 (fourth data) is a database in which data (standard data, canonical data) obtained by removing data that does not represent attributes from the
学習済みモデル32は、2つのデータの類似性(類似度合い)に基づいて、それらのデータが同じ属性を有するか否かを示す識別情報Iと、同じ属性を有する確率Pと、を出力するモデルである。学習済みモデル32の詳細については後述する。
The learned
データ処理装置21は、所定のプログラムを実行することにより、標準データDB31や学習済みモデル32を生成する装置である。データ処理装置21は、演算装置50、メモリ51、記憶装置52、入力装置53、表示装置54、及び通信装置55を含んで構成される。
The
演算装置50(第1演算装置)は、メモリ51や記憶装置52に格納されたプログラムを実行することにより、様々な機能を実現する。
The arithmetic device 50 (first arithmetic device) realizes various functions by executing programs stored in the
メモリ51は、例えばRAM(Random Access Memory)等であり、プログラムやデータ等の一時的な記憶領域として用いられる。
The
記憶装置52は、例えばハードディスク等の不揮発性の記憶手段領域であり、プログラムやデータベース等の様々な情報が格納される。本実施形態の記憶装置52は、標準データDB31を生成する際に実行されるプログラム70と、学習済みモデル32が生成される際に実行されるプログラム71とを記憶する。
The
入力装置53は、例えばタッチパネルやキーボードであり、利用者の操作結果や入力を受け付ける装置である。また、表示装置54は、例えばディスプレイであり、操作結果や処理結果等を表示する。
The
通信装置55は、ネットワークインターフェイスなどの通信手段であって、ネットワークを介して記憶装置20やラベル付与装置22との間でデータの送受信を行う。
The
ラベル付与装置22は、ラベル無しデータの属性を判定し、ラベル無しデータに対して属性を示すラベルを付与する装置である。ラベル付与装置22は、演算装置60(第2演算装置)、メモリ61、記憶装置62、入力装置63、表示装置64、及び通信装置65を含んで構成される。ここで、ラベル付与装置22に含まれる演算装置60等の夫々の装置は、データ処理装置21に含まれる演算装置50等と同様である。このため、演算装置60等の詳細な説明は省略する。なお、本実施形態の記憶装置62は、ラベル無しデータに対してラベルを付与する際に実行されるプログラム75を記憶する。
The label assigning device 22 is a device that determines the attribute of unlabeled data and assigns a label indicating the attribute to unlabeled data. The label assigning device 22 includes an arithmetic device 60 (second arithmetic device), a
−−−標準データDB31の生成について−−−
<<演算装置50の機能ブロック>>
図4は、演算装置50が、標準データDB31を生成するためのプログラム70を実行した際に、演算装置50に実現される機能ブロックを示す図である。
--- Generation of
<< Functional Block of
FIG. 4 is a diagram illustrating functional blocks implemented in the
演算装置50には、計算部100、分割部101、選択部102,103、及び更新部104が実現される。
In the
計算部100は、トレーニングデータDB30のうち、2つのデータ間の類似度ベクトルの集合を計算する。具体的には、計算部100は、同じ属性のデータ“x”と、データ“y”との間の、Jaccard類似度と、TF−IDFコサイン類似度と、を計算し、結果として2次元のベクトルを出力する。ここで、データ“x”と、データ“y”との間のJaccard類似度は、sim1(x,y)で表し、データ“x”と、データ“y”との間のTF−IDFコサイン類似度は、sim2(x,y)で表す。計算部100は、同じ属性を有する全ての2つのデータ間の類似度ベクトル(類似性を示すベクトル空間における点)を、以下の式(1)を用いて計算する。
The
s(x,y)=(sim1(x,y),sim2(x,y))・・・(1)
なお、ここで(x,y)は、(a0,a1)、(a1,a2)、(b0,b1)・・・
(c1,c2)等である。また、計算部100は、例えば、Jaccard類似度と、TF−IDFコサイン類似度とを計算することとしたが、他の類似度(例えば、Levenshtein距離に基づく類似度)であっても良い。それに伴い、s(x,y)は3以上の次元をもつベクトルであっても良い。
s (x, y) = (sim1 (x, y), sim2 (x, y)) (1)
Here, (x, y) is (a0, a1), (a1, a2), (b0, b1).
(C1, c2) and the like. In addition, the
分割部101は、式(1)の計算結果を示す類似度ベクトルの集合をn個のクラスタに分割する。
The dividing
選択部102は、n個のクラスタの夫々の中心に最も近いm個のベクトルを、n個のクラスタごとに選択する。
The
選択部103は、選択部102で選択されたm×n個の点(第1の複数の点)に基づいて、トレーニングデータDB30から、属性を代表しないデータが除かれた標準データDB31を選択する。なお、選択部103の詳細については後述するが、選択部103は、m×n個の点に基づく複数のデータ(第2の複数のデータ)において、同じデータがk個(所定の個数)以上含まれていたら、そのデータを選択する。さらに、選択部103は、トレーニングデータDB30のうち、k個の同じデータの属性とは異なる属性の全てのデータ(第3の複数のデータ)を選択する。
Based on the m × n points (first plurality of points) selected by the
更新部104は、記憶装置20にアクセスし、記憶装置20に格納された標準データDB31の情報を更新する。
The
<<標準データDB31を生成する処理S100>>
標準データDB31を生成する処理S100について説明する。ここで、分割部101は、点の集合を7個(n=7)のクラスタに分割することとし、選択部102は、夫々のクラスタから2個(m=2)の点を選択することとする。また、選択部103は、同じデータが2個(k=2)含まれていたら、そのデータを属性の代表とする。
<< Process S100 for Generating Standard Data DB31 >>
The process S100 for generating the
まず、計算部100は、トレーニングデータDB30から、同じ属性を有する2つのデータ(例えば、(a0,a1))を選択する(S200)。そして、計算部100は、選択した2つのデータの類似性を示す類似度ベクトルを、式(1)を用いて計算する(S201)。この結果、例えば、s(a0,a1)=(sim1(a0,a1),sim2(a0,a1))が計算されることになる。そして、計算部100は、トレーニングデータDB30のうち、同じ属性を有する全てのペアを選択したか否かを判定する(S202)。全てのペアの選択がされていない場合(S202:No)、処理S200が実行される。一方、全てのペアの選択がされた場合(S202:Yes)、全てのペアの夫々に対応する点の集合300(第1の点の集合)が、図6に示すベクトル空間において表されることになる。なお、図6では、s(a0,a1)に対応する点のみ符号“s(a0,a1)”を付しているが、他の点の夫々も他のペア(例えば、(b0,b1)や(c10,c11))に対応している。また、前述のように、図2のトレーニングデータDB30には、各属性を有するデータとして、3つのデータが記載されているが、実際には多数含まれている。このため、図6のベクトル空間においても点が多数記載されている。
First, the
処理S202で、計算部100が全てのペアの選択がされたと判定すると(S202:Yes)、分割部101は、図7に示すように、ベクトル空間の点の集合300を7個のクラスタ310〜316に分割する(S203:分割処理)。
If the
選択部102は、7個のクラスタ310〜316の夫々の中心点に最も近い2個の点を、クラスタ毎に選択する(S204:第1選択処理)。例えば、クラスタ310の中心点が点P0であり、点P0に最も近い点は、点P1,P2であるとすると、選択部102は
、クラスタ310においては、点P1,P2を選択する。なお、選択部102は、クラスタ311〜316の夫々に対してもクラスタ310と同様の処理を実施するため、処理S204では、結果的に、14個(=7×2)の点が選択される。ここで、14個のそれぞれの点は、同じ属性を有する2つのデータ(例えば、(a0,a1))の類似性を示している。このため、例えば14個の点が選択されると、28個のデータが選択されたことになる。
The
選択部103は、14個の点の基となる28個のデータ(第2の複数のデータ)において、同じデータが2個含まれているか否かを判定する(S205)。そして、同じデータが2個含まれていると(S205:Yes)、選択部103は、トレーニングデータDB30から、同じデータが2個含まれているデータと、2個の同じデータの属性とは異なる属性の全てのデータ(第3の複数のデータ)を選択する(S206:第2選択処理)。一方、同じデータが2個含まれていないと(S205:No)、選択部103は、例えば、トレーニングデータDB30の全てを選択する(S207)。
The
ここで、選択部103が実行する処理の詳細を、図8を参照しつつ説明する。図8は、14個の点の基となる28個のデータの一例である。例えば、14個の点に、(a0,a1)、(a0,a2)、(b1,b2)等が含まれている場合、図8に示すように、データ“a0”の個数は、2個、データ“a1”,“a2”,“b1”,“b2”の夫々の個数は、1個となる。なお、図8では、便宜上、28個のデータのうち、一部のデータのみが記載され、他は省略されている。このような場合、選択部103は、トレーニングデータDB30のうち、データ“a0”と、2個の同じデータの属性「名前」とは異なる属性「住所」、「年代」の全てのデータを選択する。なお、このような処理を実行することにより、「名前」の属性を有するデータのうち、代表的なデータ“a0”を選択することができる。なお、図8では、データ“a0”が2個あることとしたが、例えば、28個のデータのうち、同じデータ2個無い場合(S205:No)、選択部103は、トレーニングデータDB30を選択する(S207)。
Here, the details of the process executed by the
そして、更新部104は、記憶装置20に格納された情報を更新すべく、処理S206で選択されたデータを、標準データDB31として記憶装置20に格納する(S208:更新処理)。この結果、例えば、「名前」の属性においては“a0”のみが選択された、図3で示す標準データDB31が得られることとなる。なお、図3では、便宜上、「住所」または「年代」の属性を有するデータは、“b0”〜“b2”,“c0”〜“c2”のみを記載しているが、例えば、“b3”、“c3”等の複数のデータも含まれている。そして、処理S206では、「住所」及び「年代」の属性を有する全てのデータ(第3の複数のデータ)が選択される。
Then, the
なお、例えば、処理S205において、データ“a0”に加え、データ“a1”も2個含まれていた場合、処理S206では、データ“a0”,“a1”が選択されることになる。 For example, if two pieces of data “a1” are included in addition to data “a0” in step S205, data “a0” and “a1” are selected in step S206.
−−−学習済みモデル32の生成について−−−
<<演算装置50の機能ブロック>>
図9は、演算装置50が、学習済みモデル32を生成するためのプログラム71を実行した際に、演算装置50に実現される機能ブロックを示す図である。
--- About generation of learned
<< Functional Block of
FIG. 9 is a diagram illustrating functional blocks implemented in the
演算装置50には、計算部110、識別情報付与部111、判定部112、及びトレーニング部113が実現される。
In the
計算部110は、トレーニングデータDB30のうち、2つのデータ間の類似度ベクト
ル(類似性を示すベクトル空間における点)の集合を計算する。具体的には、計算部110は、トレーニングデータDB30から2つのデータ(“x”,“y”)を選択し、2つのデータ間の類似度ベクトルを、上述した式(1)を用いて計算する。なお、計算部110は、属性が同じか否かに関わらず、トレーニングデータDB30に含まれる全てのデータのペアについて、式(1)の計算を行う。
The
識別情報付与部111は、計算部110の計算結果に対し、同じ属性の2つのデータに基づく結果であるか、異なる属性の2つのデータに基づく結果であるかを示す識別情報Iを付与する。例えば、同じ属性のデータ“a0”,“a1”の2つのデータの類似性が計算された場合、識別情報付与部111は、計算結果に対し、識別情報I“True”(以下、識別情報I“T”とする)を付与する。一方、異なる属性のデータ“a0”,“b1”の2つのデータの類似性が計算された場合、識別情報付与部111は、計算結果に対し、識別情報I“False”(以下、識別情報I“F”とする)を付与する。
The identification
判定部112は、トレーニングデータDB30に含まれる全てのデータのペアが選択され、計算が実施されたか否かを判定する。
The
トレーニング部113は、識別情報Iが付された計算結果(例えば、s(a0,a1)=(1,35)“T”,s(a1,a2)=(5,58)“T”,s(a0,b0)=(2,58)“F”等)を学習データ(教師データ)とし、これらの学習データを再現する関数(学習済みモデル32)を求める。
The
<<学習済みモデル32を生成する処理S110>>
ここで、図10を参照しつつ、学習済みモデル32を生成する処理S110について説明する。まず、計算部110は、トレーニングデータDB30から、2つのデータを選択する(S210)。そして、計算部110は、選択した2のデータの類似度ベクトルを、式(1)を用いて計算する(S211)。例えば、選択された2つのデータがデータ“a1”,“b1”である場合、処理S210では、s(a1,b1)=(sim1(a1,b1),sim2(a1,b1))が計算されることになる。
<< Process S110 for Generating Learned
Here, the processing S110 for generating the learned
そして、識別情報付与部111は、計算部110が用いた2つのデータの属性を参照し、計算結果に対し、識別情報Iを付与する(S212)。例えば、処理S211において、属性の異なるデータ“a1”,“b1”の類似度ベクトルを示す“s(a1,b1)”が計算された場合、識別情報付与部111は、“s(a1,b1)”の計算結果に対し、識別情報I“F”を付与する。
Then, the identification
図11は、ベクトル空間における計算部110の計算結果を示す図である。ここで、集合350(第1の点の集合)に含まれる点の夫々は、識別情報I“T”が付された計算結果を示し、集合351(第2の点の集合)に含まれる点の夫々は、識別情報I“F”が付された計算結果を示す。
FIG. 11 is a diagram illustrating a calculation result of the
また、判定部112は、トレーニングデータDB30に含まれる全てのデータのペアの計算が実施されたか否かを判定する(S213)。ここで、全てのデータのペアの計算が実施されていない場合(S213:No)、処理S210が実行され、新なペアのデータが選択される。一方、全てのデータのペアの計算が実施された場合(S213:Yes)、
トレーニング部113は、識別情報Iが付された計算結果を学習データとしてトレーニングを実行する(S214)。具体的には、トレーニング部113は、図11のベクトル空間に示された各点を学習データとし、学習済みモデル32を求める。そして、トレーニング部113は、トレーニングデータDB30から得られる学習データの全てを用いて学習
済みモデル32を求めると、学習済みモデル32を記憶装置20に格納する(S215)。なお、本実施形態の学習済みモデル32は、2つのデータ間の類似性を示す計算結果に基づいて、2つのデータが同じ属性であるか否かを示す識別情報Iを確率Pとともに出力する。例えば、学習済みモデル32が、例えば、ベクトル空間の(10,35)の点が、同じ属性のデータによる計算結果であり、その確率は70%であると判定すると、学習済みモデル32は、識別情報I“T”と、確率P“70%”とを出力する。
Further, the
The
−−−ラベル付与の処理について−−−
<<演算装置60の機能ブロック>>
図12は、ラベル付与装置22の演算装置60が、ラベルを付与するためのプログラム75を実行した際に、演算装置60に実現される機能ブロックを示す図である。
--- About labeling process ---
<< Functional Block of
FIG. 12 is a diagram illustrating functional blocks implemented in the
演算装置60には、計算部150、出力部151、判定部152、及びラベル付与部153が実現される。
In the
計算部150は、標準データDB31の夫々のデータと、ラベル無しの入力データ“x”との複数の類似度ベクトル(第2の複数の点)を、式(1)に基づいて計算する。
The
出力部151は、計算されたベクトル空間の複数の点の夫々に対し、学習済みモデル32を用いて、識別情報Iと、確率Pとを出力する。具体的には、出力部151は、学習済みモデル32を用い、入力データ“x”とペアとなったデータと同じ属性であるか否かの識別情報Iと、識別情報Iの確からしさを示す確率P(“T”または“F”である確率)と、を出力する。
The
判定部152は、出力部151で出力された確率Pのうち、最も高い確率Pに基づいて、入力データ“x”の属性を判定する。
The
ラベル付与部153は、入力データ“x”に対し、判定部152で判定された属性を示すラベルを付与して出力する。
The
<<ラベル付与処理S120>>
ここで、図13を参照しつつ、ラベル無しの入力データ“x”に対し、ラベルを付与する処理S120について説明する。まず、計算部150は、標準データDB31の夫々のデータと、入力データ“x”との複数の類似度ベクトルを、式(1)を用いて計算する(S220)。ここで、図3に示すように標準データDB31は、データ“a0”,“b1”等を含むため、計算部150は、s(x,a0)、s(x,b0)等を計算する。この結果、図14に示すように、s(x,a0)=(77.8,5)、s(x,b0)=(2,59)等のベクトル空間における複数の類似度ベクトル(第2の複数の点)が得られる。
<< Labeling Process S120 >>
Here, with reference to FIG. 13, the process S120 for assigning a label to unlabeled input data “x” will be described. First, the
出力部151は、計算された複数の点(例えば(77.8,5)、(2,59))の夫々に対し、学習済みモデル32を用いて、識別情報Iと、確率Pとを出力する。例えば、s(x,a0)の計算結果である(77.8,5)に対し、学習済みモデル32が用いられると、学習済みモデル32は、識別情報I“F”と、確率P“70%”とを出力する。つまり、学習済みモデル32は、データ“x”と、データ“a0”とは属性が異なり、その確率は“70%”であるとの情報を出力する。そして、判定部152は、出力部151で出力された確率Pのうち、最も高い確率Pに基づいて、入力データ“x”の属性を判定する(S222)。図14に示す例では、s(x,b2)の計算結果に基づく確率Pが95%と最も高い。このような場合、判定部152は、入力データ“x”は、データ“b2”の属性である「住所」を有するデータであると判定する。ラベル付与部153は、入力
データ“x”に対し、判定部152で判定された属性を示すラベルを付与して出力する(S223)。具体的には、ラベル付与部153は、入力データ“x”に対して「住所」を示すラベルを付して出力する。このような処理が実行されることにより、ラベル無しのデータに対し、ラベル無しデータの属性を示す正しいラベルが、高い確率で付与されることになる。また、処理S220では、トレーニングデータDB30よりデータ量が少ない標準データDB31が用いられている。このため、ラベル付与処理S120においては、演算装置60への負荷が軽減される。
The
−−−まとめ−−−
以上、本実施形態のラベル付与システム10について説明した。こうした本実施形態の演算装置50は、同じ属性を有する2つのデータの集合から、集合に含まれる何れかのデータと同じデータが選択する。このように選択されたデータは、一般にデータの有する属性の特徴量を多く含むため、本実施形態によれば、同じ属性を有する複数のデータから、その属性を代表するデータを選択できる。
---- Summary ---
The
また、本明細書の記載により、少なくとも次のことが明らかにされる。すなわち、前記第1選択処理は、前記複数のクラスタの夫々から、少なくとも前記複数のクラスタの夫々の中心点に最も近い点を選択する処理としても良い。 Moreover, at least the following will be made clear by the description of the present specification. That is, the first selection process may be a process of selecting a point closest to the center point of each of the plurality of clusters from each of the plurality of clusters.
本実施形態において、図7に示すクラスタ310〜316の夫々に含まれる点をランダムに選択しても良い。しかしながら、クラスタ310〜316の夫々の中心点に近い点が選択されることにより、データ間の類似性が大きく異なるデータのペアを複数選択することができる。この結果、より高い精度で同じ属性を有する複数のデータから、その属性を代表するデータを選択できる。
In the present embodiment, the points included in each of the
また、前記第2選択処理は、前記第2の複数のデータに前記同じデータが2以上の所定の個数含まれている場合、前記同じデータを選択する処理としても良い。 The second selection process may be a process of selecting the same data when the second plurality of data includes a predetermined number of two or more of the same data.
同じ属性を有する2つのデータの集合に、何れかのデータが2以上の所定の個数含まれている場合、そのようなデータは、一般にその属性の特徴量を多く含むデータである。このため、本実施形態によれば、同じ属性を有する複数のデータから、その属性を代表するデータをより高い精度で選択することができる。 When any set of two or more pieces of data is included in a set of two data having the same attribute, such data is generally data including a large amount of feature values of the attribute. For this reason, according to the present embodiment, data representing the attribute can be selected with higher accuracy from a plurality of data having the same attribute.
また、前記第2選択処理は、前記第1の複数のデータのうち前記同じデータの属性とは異なる属性を有する第3の複数のデータと、前記同じデータとを、第4の複数のデータとして選択する処理としても良い。 In the second selection process, the third plurality of data having an attribute different from the attribute of the same data among the first plurality of data and the same data as the fourth plurality of data. It is good also as processing to choose.
このような処理を実行することにより、トレーニングデータDB30から、標準データDB31を生成することができる。
By executing such processing, the
また、前記演算装置は、選択された前記第4の複数のデータが、夫々の属性に対応して記憶装置に記憶されるよう、前記記憶装置の情報を更新する更新処理を実行しても良い。 Further, the arithmetic device may execute an update process for updating information in the storage device so that the selected fourth plurality of data is stored in the storage device corresponding to each attribute. .
このような処理が実行されることにより、標準データDB31の情報が更新されるため、ラベル付与システム10は、最新の標準データDB31を用いることができる。
By executing such processing, the information in the
また、本実施形態の演算装置50,60を含むラベル付与システム10は、ラベル無しのデータに対し、ラベル無しデータの属性を示す正しいラベルを、高い確率で付与することができる。また、ラベル付与システム10では、ラベルを付与する際に、トレーニングデータDB30に比べ、データ量の少ない標準データDB31が用いられている。このた
め、トレーニングデータDB30を用いてラベルを付与する場合と比較すると、演算装置60の計算量を減らすことができる。
Moreover, the
なお、上記実施例は本発明の理解を容易にするためのものであり、本発明を限定して解釈するためのものではない。本発明は、その趣旨を逸脱することなく、変更、改良され得ると共に、本発明にはその等価物も含まれる。 In addition, the said Example is for making an understanding of this invention easy, and is not for limiting and interpreting this invention. The present invention can be changed and improved without departing from the gist thereof, and the present invention includes equivalents thereof.
例えば、図5の標準データDB31を生成する処理S100において、計算部100は、同じ属性を有するペアの類似性を計算し、点の集合300の情報を取得している(処理S200〜S202)。ただし、集合300は、図10の学習済みモデル32を生成する処理S110で得られる、点の集合350(図11)と同様である。このため、点の集合350が、例えば記憶装置20に格納されている場合、分割部101は、点の集合350を複数のクラスタに分割しても良い。この場合、計算部100が実行する処理は省略できる。
For example, in the process S100 for generating the
また、本実施形態では、クラスタの中心点から最も近い点がm個選択されたが、例えば、クラスタの重心点から近い点を選択しても良い。 In the present embodiment, m points closest to the center point of the cluster are selected. However, for example, a point close to the center of gravity point of the cluster may be selected.
また、本実施形態で扱われるデータは、「Alice」、「北海道」等、テキストデータであるがこれに限られず、例えば画像データであっても良い。 The data handled in the present embodiment is text data such as “Alice” and “Hokkaido”, but is not limited thereto, and may be image data, for example.
なお、本実施形態では、分割部101は、点の集合を7個(n=7)のクラスタに分割することとし、選択部102は、夫々のクラスタから2個(m=2)の点を選択することとしたが、これに限られない。例えば、クラスタの個数(n)と、夫々のクラスタから選択する点の数(m)とを多くすると、より精度良く、属性を代表するデータの選択が可能となる。
In this embodiment, the dividing
本実施形態のトレーニングデータDB30の1列目は、例えば「人物」に関するデータであるとしたが、これに限られるものではない。例えば、「施設」、「組織」、「モノ」等であっても良い。また、「年代」に関しても、例えば1列目の情報が「施設」であれば、「築年数」等の情報であっても良い。このように、本実施形態のトレーニングデータDB30の内容は一例であり、データベースを構成するデータであれば良い。
The first column of the
また、実行可能なプログラムが記憶された非一時的なコンピュータ可読媒体(non−transitory computer readable medium with
an executable program thereon)を用いて、コンピュータにプログラムを供給することも可能である。なお、非一時的なコンピュータの可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、CD−ROM(Read Only Memory)等がある。
In addition, a non-transitory computer readable medium with non-transitory computer readable media stored therein.
It is also possible to supply a program to a computer using an executable program thereon). Examples of non-transitory computer readable media include magnetic recording media (for example, flexible disks, magnetic tapes, hard disk drives), CD-ROMs (Read Only Memory), and the like.
10 ラベル付与システム
20,52,62 記憶装置
21 データ処理装置
22 ラベル付与装置
30 トレーニングデータDB
31 標準データDB
32 学習済みモデル
50,60 演算装置
51,61 メモリ
53,63 入力装置
54,64 表示装置
55,65 通信装置
70,71,75 プログラム
100,110,150 計算部
101 分割部
102,103 選択部
104 更新部
111 識別情報付与部
112,152 判定部
113 トレーニング部
151 出力部
153 ラベル付与部
310〜316 クラスタ
300,350,351 集合
10
31 Standard data DB
32 learned
Claims (7)
前記複数のクラスタの夫々から、少なくとも1つの点を選択する第1選択処理と、
前記複数のクラスタの夫々から選択された複数の点の基となる第2の複数のデータの何れかと同じデータが、前記第2の複数のデータに含まれる場合、前記同じデータを選択する第2選択処理と、
を実行することを特徴とする演算装置。 A division process of dividing a set of points in a vector space indicating the similarity of two data having the same attribute selected from the first plurality of data having any of the plurality of attributes into a plurality of clusters;
A first selection process for selecting at least one point from each of the plurality of clusters;
When the same data as any of the second plurality of data that is the basis of the plurality of points selected from each of the plurality of clusters is included in the second plurality of data, the second data that selects the same data Selection process,
An arithmetic unit characterized by executing
前記第1選択処理は、前記複数のクラスタの夫々から、少なくとも前記複数のクラスタの夫々の中心点に最も近い点を選択する処理であること、
を特徴とする演算装置。 The arithmetic device according to claim 1,
The first selection process is a process of selecting a point closest to a center point of each of the plurality of clusters from each of the plurality of clusters;
An arithmetic unit characterized by the above.
前記第2選択処理は、前記第2の複数のデータに前記同じデータが2以上の所定の個数含まれている場合、前記同じデータを選択する処理であること、
を特徴とする演算装置。 The arithmetic device according to claim 1,
The second selection process is a process of selecting the same data when the second plurality of data includes a predetermined number of two or more of the same data;
An arithmetic unit characterized by the above.
前記第2選択処理は、前記第1の複数のデータのうち前記同じデータの属性とは異なる属性を有する第3の複数のデータと、前記同じデータとを、第4の複数のデータとして選択する処理であること、
を特徴とする演算装置。 The arithmetic device according to any one of claims 1 to 3,
The second selection processing selects, as the fourth plurality of data, the third plurality of data having an attribute different from the attribute of the same data among the plurality of first data and the same data. Processing,
An arithmetic unit characterized by the above.
前記演算装置は、選択された前記第4の複数のデータが、夫々の属性に対応して記憶装置に記憶されるよう、前記記憶装置の情報を更新する更新処理を実行すること、
を特徴とする演算装置。 The arithmetic device according to claim 4,
The arithmetic device executes an update process for updating information in the storage device so that the selected fourth plurality of data is stored in the storage device corresponding to each attribute,
An arithmetic unit characterized by the above.
前記複数のクラスタの夫々から、少なくとも1つの点を選択し、
前記複数のクラスタの夫々から選択された複数の点の基となる第2の複数のデータの何れかと同じデータが、前記第2の複数のデータに含まれる場合、前記同じデータを選択する、
ことを特徴とするデータ処理方法。 Dividing a set of points in a vector space indicating the similarity of two data having the same attribute selected from the first plurality of data having any of the plurality of attributes into a plurality of clusters;
Selecting at least one point from each of the plurality of clusters;
When the same data as any of the second plurality of data that is the basis of the plurality of points selected from each of the plurality of clusters is included in the second plurality of data, the same data is selected.
A data processing method.
前記第1演算装置は、
複数の属性の何れかを有する第1の複数のデータから選択された同じ属性を有する2つのデータの類似性を示すベクトル空間における第1の点の集合を、複数のクラスタに分割する分割処理と、
前記複数のクラスタの夫々から、少なくとも1つの点を選択する第1選択処理と、
前記複数のクラスタの夫々から選択された第1の複数の点の基となる第2の複数のデータの何れかと同じデータと、前記第1の複数のデータのうち前記同じデータの属性とは異なる属性を有する第3の複数のデータと、を第4の複数のデータとして選択する第2選択処理と、
を実行し、
前記第2演算装置は、
属性の情報を有しない入力データと、前記第4の複数のデータの夫々との類似性を示す前記ベクトル空間における第2の複数の点を計算する計算処理と、
前記第1の複数のデータから選択された異なる属性を有する2つのデータの類似性を示す前記ベクトル空間における第2の点の集合と、前記第1の点の集合と、に含まれる夫々の点とを、学習データとして得られる、前記ベクトル空間における点が、同じ属性を有する2つのデータに基づく点か、異なる属性を有する2つのデータに基づく点かを示す識別情報を出力する学習済みモデルを用いて、前記第2の複数の点の夫々に対する前記識別情報を出力する出力処理と、
前記第2の複数の点の夫々の前記識別情報に基づいて、前記入力データの属性を判定する判定処理と、を実行すること、
を特徴とするデータ処理システム。 A data processing system including a first arithmetic device and a second arithmetic device,
The first arithmetic unit includes:
A division process for dividing a first set of points in a vector space indicating similarity between two data having the same attribute selected from the first plurality of data having any of the plurality of attributes into a plurality of clusters; ,
A first selection process for selecting at least one point from each of the plurality of clusters;
The same data as any of the second plurality of data that is the basis of the first plurality of points selected from each of the plurality of clusters is different from the attribute of the same data among the first plurality of data A second selection process of selecting the third plurality of data having attributes as the fourth plurality of data;
Run
The second arithmetic unit is
A calculation process for calculating a second plurality of points in the vector space indicating similarity between the input data not having attribute information and each of the fourth plurality of data;
Each point included in the second set of points and the first set of points in the vector space showing the similarity of two data having different attributes selected from the first plurality of data And a learned model that outputs identification information indicating whether the points in the vector space are points based on two data having the same attribute or points based on two data having different attributes, obtained as learning data An output process for outputting the identification information for each of the second plurality of points;
Executing a determination process for determining an attribute of the input data based on the identification information of each of the second plurality of points;
A data processing system.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018095170A JP2019200628A (en) | 2018-05-17 | 2018-05-17 | Arithmetic apparatus, data processing method, and data processing system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018095170A JP2019200628A (en) | 2018-05-17 | 2018-05-17 | Arithmetic apparatus, data processing method, and data processing system |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2019200628A true JP2019200628A (en) | 2019-11-21 |
Family
ID=68612508
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018095170A Pending JP2019200628A (en) | 2018-05-17 | 2018-05-17 | Arithmetic apparatus, data processing method, and data processing system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2019200628A (en) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005122683A (en) * | 2003-09-22 | 2005-05-12 | Nippon Telegr & Teleph Corp <Ntt> | Information providing method and system, and information providing program |
JP2006301959A (en) * | 2005-04-20 | 2006-11-02 | Just Syst Corp | Document processing apparatus, document processing method, document processing program, and computer-readable recording medium |
US20150310000A1 (en) * | 2014-04-23 | 2015-10-29 | Elsevier B.V. | Methods and computer-program products for organizing electronic documents |
-
2018
- 2018-05-17 JP JP2018095170A patent/JP2019200628A/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005122683A (en) * | 2003-09-22 | 2005-05-12 | Nippon Telegr & Teleph Corp <Ntt> | Information providing method and system, and information providing program |
JP2006301959A (en) * | 2005-04-20 | 2006-11-02 | Just Syst Corp | Document processing apparatus, document processing method, document processing program, and computer-readable recording medium |
US20150310000A1 (en) * | 2014-04-23 | 2015-10-29 | Elsevier B.V. | Methods and computer-program products for organizing electronic documents |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10885452B1 (en) | Relation graph optimization using inconsistent cycle detection | |
JP6514305B1 (en) | Recognition dictionary maintenance device, pattern recognition system, recognition dictionary maintenance method and program | |
CN110502519B (en) | Data aggregation method, device, equipment and storage medium | |
US11763084B2 (en) | Automatic formulation of data science problem statements | |
JPWO2020243499A5 (en) | ||
JP2024500464A (en) | Dynamic facet ranking | |
JP2020119544A (en) | Method, apparatus, device and medium for acquiring data model in knowledge graph | |
BR112020007809A2 (en) | genealogical entity resolution method and system | |
JP2021110974A (en) | How to reuse a model | |
JP6973137B2 (en) | Generation program, generation method and generation device | |
CN118922838A (en) | Synthetic data generation using deep reinforcement learning | |
US20220284172A1 (en) | Machine learning technologies for structuring unstructured data | |
JP7603573B2 (en) | Document review support system and document review support method | |
CN113223657B (en) | Medicine information processing method and device, electronic equipment and storage medium | |
JP7295463B2 (en) | Business flow creation support device, business flow creation support method, and business flow creation support program | |
JP2022190752A (en) | Computer system, inference method, and program | |
JP2019200628A (en) | Arithmetic apparatus, data processing method, and data processing system | |
JP7497734B2 (en) | Graph search device, graph search method, and program | |
US20190265954A1 (en) | Apparatus and method for assisting discovery of design pattern in model development environment using flow diagram | |
JP2010237864A (en) | Annotation data analysis device, annotation data analysis program, and recording medium recording the program | |
JP2023181819A (en) | Language processing device, machine learning method, estimation method and program | |
JPWO2019171537A1 (en) | Semantic estimation systems, methods and programs | |
JP2015004785A (en) | Method for determining order relation of teaching materials, learning support system, device for determining order relation of teaching materials, terminal device, and program | |
CN116783601A (en) | Determining and/or mitigating an effective degree of reconstruction of predictions based on model updates transmitted in federal learning | |
JP2022185799A (en) | Information processing program, information processing method, and information processing apparatus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200902 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210825 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210831 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20220301 |