JP7435750B2 - データパターンの分類方法および分類システム - Google Patents

データパターンの分類方法および分類システム Download PDF

Info

Publication number
JP7435750B2
JP7435750B2 JP2022515148A JP2022515148A JP7435750B2 JP 7435750 B2 JP7435750 B2 JP 7435750B2 JP 2022515148 A JP2022515148 A JP 2022515148A JP 2022515148 A JP2022515148 A JP 2022515148A JP 7435750 B2 JP7435750 B2 JP 7435750B2
Authority
JP
Japan
Prior art keywords
column
pattern
information
mixed
data pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022515148A
Other languages
English (en)
Other versions
JPWO2021210142A1 (ja
Inventor
まな美 小川
正崇 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2021210142A1 publication Critical patent/JPWO2021210142A1/ja
Application granted granted Critical
Publication of JP7435750B2 publication Critical patent/JP7435750B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/221Column-oriented storage; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、データベースの1つの欄(カラム)に入力されている情報の種類がカラム内で統一されていない場合に、データベース内の情報から正確な規則の候補を絞り込むデータパターンの分類方法および分類システムに関する。
通常のデータベース(以下「DB」)には、1つのデータに関する情報が専用のカラムに入力されている。一方で、備考欄などのように、入力すべき事柄が明確に定まっていないカラムには、様々な種類の情報が入力されることがある。このような備考欄を持つDBを、別のDBと統合する際、DB間で共通する情報が、この備考欄に格納されている場合には、適切な統合を行なうことができない可能性を生じる。
以下、具体例を用いて説明する。
Figure 0007435750000001
表1は、備考欄に規則的な文字列の重複があるDBの例を示す。備考欄には、(1)住所と(2)電話番号のいずれかが入力されており、(1)住所の場合は「都道府県」「市町村」「番地」の欄にある情報が共通している。ただし、「ID:2」のデータの備考欄には「都道府県」が入力されていないように、住所の表記がカラム内で統一されていない。
Figure 0007435750000002
表2は、建築物に関するDBの例である。
表1にあるDBと表2にあるDBとを統合する場合、住所がトリガとなる共通項目であるが、表1には住所に該当する欄がない上に、一部のデータは電話番号が入力されているために、表1の学校名や電話番号と表2の建物情報とを紐付けることができない。
このような課題に対して従来では、予め規則を登録しておくことにより、入力された文字列がどの規則に従っているのかを判別する技術が提案されている(例えば、特許文献1、2)。
日本国特開2016-136341号公報 日本国特開2014-219833号公報
表1では、備考欄に入力されている情報の種類が複数(住所あるいは電話番号)あり、各備考欄の入力はいずれかの情報を表している。表1の「ID:1」、「ID:2」の備考欄では住所の情報が入力されているが、「ID:1」の備考欄では都道府県名から、「ID:2」では市町村名から、それぞれ住所が入力されているように、情報の表し方が統一されていない。これは、ヒューマンエラーによるもの、住所の入力の仕方が明文化されていないこと等の原因が考えられる。
このように、備考欄に入力される情報が明文化されていない場合には、特許文献1および特許文献2に記載されるような従来技術では対応することができない。
本発明は前記のような実情に鑑みてなされたもので、その目的とするところは、複数のデータベースの統合時に、データベース間で共通する情報を持つカラムの発見を容易にすることが可能なデータパターンの分類方法および分類システムを提供することにある。
本発明の一態様は、情報の種類が複数存在する混合カラムの各入力値が、別の特定の欄に入力された情報との間に規則的な文字列上の重複があるデータベースを対象としたデータパターンの分類システムにより実行される方法であって、前記データパターンの分類システムの抽出部により、前記混合カラムの入力値と文字列上の重複がある欄をパターンと称して、前記混合カラムが存在しているデータベースにおいて、前記混合カラムの前記パターンが変化するタイミングを用いた発見的な第1の手法と、尤度検定による統計手法を用いた第2の手法とのいずれかにより、前記混合カラムに入力される情報の種類を変更する分岐カラムを抽出することと、前記データパターンの分類システムの分類部により、前記抽出部により抽出した分岐カラムに基づいて前記混合カラムから得られる前記パターンを、当該パターンが表す情報によってグループ化し、前記混合カラムに格納している情報が何種類あるのかを取得することと、を備える。
本発明の一態様によれば、複数のデータベースの統合時にデータベース間で共通する情報を持つカラムの発見を容易にすることが可能となる。
以下、本発明をデータパターンの分類方法に適用した場合の一実施形態について説明する。
[概要]
まず本実施形態の概要について説明する。
表1における備考欄のように、欄内に入力される情報の種類が複数あるカラムを、本書では混合カラムと称する。本実施形態で取扱うDBは、混合カラムの各入力値が、別の特定の欄に入力された情報との間に規則的な文字列上の重複があるものを対象とし、混合カラムの入力値と文字列上の重複のある欄との組み合わせをパターンと称する。
混合カラムから得られるパターンで備考欄の入力値をグループ化するべく、単にパターンが同じ入力値を同じ情報を表すグループとして取扱うものとすると、必要以上のグループが作成される虞を生じる。
本実施形態では、混合カラムから得られるパターンを、パターンが表す情報によってグループ化する。表1の例では、ID:1、ID:2の備考欄から得られるパターンが異なるが、どちらも住所に関する情報が入力されているので、同じグループに纏められる。
ここで本実施形態では、以下に分岐カラムと称する存在を想定する。すなわち、分岐カラムとは、混合カラムが存在しているDBにおいて、表1の「分」欄のように、ある文字列X(例えば「住」)が分岐カラムに入力されていれば、備考欄には規則A(住所に関する情報を備考欄に入力する)に従った入力が、別の文字列Y(例えば「電」)が分岐カラムに入力されていれば備考欄には規則B(電話番号に関する情報を備考欄に入力する)に従った入力がされる、といったように、入力される文字列によって備考欄の入力値の情報を変更するカラムを指すものとする。したがって、分岐カラムの入力値の種類は、混合カラムの情報の種類と一致する。
分岐カラムを発見する方法として、
A)混合カラムのパターンが変化するタイミングを用いたヒューリスティック(発見的)な方法と、
B)尤度検定による統計手法を用いた方法、
の2通りを用いるものとする。
前述したように分岐カラムを発見することで、パターンがグループ化され、混合カラムに格納している情報が何種類あるかが明らかになる。混合カラムを各グループで分ければ、混合カラムが情報の種類ごとに分かれたことになるので、DBの統合時にDB間で共通する情報をもつカラムを容易に発見できる。
加えて、一つのグループに属するパターンの中から代表となるパターンを抽出する技術と組み合わせれば、パターン間に優劣を付けることができ、各入力値を最優のパターンにしたがって統一することが可能になる。
[方法手順]
以下、データパターンの分類方法の詳細な手順について説明する。
なお前提として、混合カラムに該当する欄は既知であるものとする。DBに格納された各データを、d(i∈{1,2,…,n})(n:格納データの総数)と表記し、混合カラムが空欄でないもののデータの集合をDとする。
各dには、混合カラムを除いて、i番目のデータに関する情報がリスト化されているものとする。
例えば、表1のDBでは、d=[「A大学」「東京都」「港区」「1-11-1」「5678」]が得られる。
このとき、集合Dの要素であるデータdに対応する混合カラムをaとする。
以下、文字列str1、str2について、共通する文字の集合を str1∩str2 で表記する。
<ステップ0>(前処理:パターン抽出)
混合カラム以外に入力された情報の中で、aと共通する文字列を含むもののインデックスをすべて抽出する。すなわち、a∩d[x]≠φ(x≠y)となるようなインデックスxを見つける。ここでφは空集合を表す。
ただし、インデックスxを見つけるに際しては、以下の条件i)~iii)をすべて満たすものとする。すなわち、
i) 共通している文字列の長さが文字列d[x]の長さの半分以上であること。ただし、数字または記号(:;-+@等)が共通している場合、共通文字列の長さは2以上またはd[x]に数字と記号以外の文字が含まれている必要があるものとする。
ii) 共通している文字列は文字列d[x]の先頭の文字を削除したもの、あるいは末尾の文字を削除したものと一致すること。例えば、d[x]=「福島郡山」であった場合、d[y]と共通している文字列が「福島」や「郡山」であれば条件ii)を満たすが、「福山」は条件ii)を満たさない。
iii) 異なるインデックスの要素間で共通する文字列が重複してはならないこと。例えば、a=「福島郡山」であった場合、d[x]=「福島」、d[z]=「郡山」であれば条件iii)を満たすが、d[x]=「福島」、d[z]=「福島郡山」では条件iii)を満たさない。
抽出されるインデックスが複数ある場合、前述した如くその組み合わせをパターンと称する。すべてのd∈Dに対してパターンを抽出する。パターンの集合をPと表記し、i番目のパターンをp∈Pと表記する。各パターンにはインデックスが格納されている。例えばp=[1,4,6]ならば、1番目、4番目、6番目の欄に入力された文字列と共通部分を持つことを表すものとする。こうした前処理を実行することで、以下のグループ分けに係る処理工程を効率的に実施できる。
まず、手法A)ヒューリスティック(発見的)な方法について説明する。
<ステップ1A>
前記ステップ0を実行してパターンを抽出する。
<ステップ2A>
抽出したパターンの総数を|P|とする。次の2条件に従うカラムを選出する。すなわち、
(1)カラムに入力されている文字列の種類が|P|種類以下であること。
(2)カラムには抽出したパターンのいずれの要素もないこと。
<ステップ3A>
選出された各カラムに対して、次の値sを計算する。すなわち、
s:=(errorc/c)+(errorf/f)
(ただし、上下で隣り合うデータを比較した時に、
c:混合カラムの入力パターンが変化した回数、
errorc:混合カラムの入力パターンが変化してもカラムの入力が変化しなかった回数、
f:混合カラムの入力パターンが一定であった回数、
errorf:混合カラムの入力パターンが変化しなくともカラムの入力が変化した回数。)
これは、分岐カラムの条件として、入力文字列が変化したときに混合カラムのパターンも同時に変化し、且つ文字列が変化しないならばパターンも変化しない、ということがあることから、前記の条件を破った回数とその割合を表している。
<ステップ4A>
sが最小となるようなカラムを選択する。選択された各カラムの名前をh(j∈{1,2,…})とし、hからなる集合をHとする。このとき、混合カラムのパターンがpのデータで、hに入力されている文字列の中で最頻のものをmとする。
ただし、次の条件「mの出現回数がパターンpのデータ数の過半数を超えること」を満たすことが必要であるものとし、満たされない場合にはhが分岐カラムにはならないものとして、集合Hから排除する。
各パターンp(i∈{1,2,…,|P|})に対してmが定まるならば、カラムhを分岐カラムとする。
<ステップ5A>
分岐カラムhに入力されている文字列の種類数が、パターンの総数|P|よりも小さい場合、パターンをグループ化する。具体的には、同一のmを持つ複数のパターンを、同一の情報を表すパターンとしてグループ化する。グループ化されたパターンの中で、代表となるパターンを選出する。
次に手法B)尤度による統計的方法について説明する。
<ステップ1B>
前記ステップ0を実行してパターンを抽出する。
<ステップ2B>
抽出したパターンの総数を|P|とする。次の2条件に従うカラムを選出する。すなわち、
(1)カラムに入力されている文字列の種類が|P|種類以下であること。
(2)カラムには抽出したパターンのいずれの要素もないこと。
<ステップ3B>
選出されたカラムの集合をHとする。集合Hの各カラムhに対し、混合カラムに入力されたパターンがpのデータで、hに入力されている文字列の中で最頻のものを選択し、それをmjiとする。ただし、mjiの候補が複数ある場合、すなわち最頻値をとる文字列が複数ある場合には、hが分岐カラムにはならないものとして、集合Hから排除する。
<ステップ4B>
集合Hのカラムhについて、各p、mjiに対して以下の表3の二次元集計表の各xklに該当する数値をデータから取得する。ここで、
kl:パターンpにおいてmjiが入力されているデータの個数
である。ただし、パターンpにおいてmjk=mjlを満たすようなk、l(k≠l、k≠i、l≠i)が存在するとき、
ik=xil=M/2
(ただし、Mはmjk(またはmjl)が入力されているデータの総数。)
を入力し、均等になるようにする。
Figure 0007435750000003
このデータに対してカイ(χ)二乗検定を用いることで、「各パターンpに従うことと、mjiが入力されていることが同時に起こるのは偶然である」という仮説を検定する。期待度数は、以下の表4
Figure 0007435750000004
に示すようになる。この表4の期待度数表により、検定統計量χ を次式に従って求める。すなわち、
Figure 0007435750000005
前述した作業を各hに対して実行する。
算出した検定統計量χ を検定量の自由度(|P|-1)でのp値へ変換し、有意水準αよりも大きければ仮説を棄却し、hを分岐カラムとして出力する。hが複数存在する場合には、p値が最大となるものを分岐カラムとする。
<ステップ5B>
分岐カラムhに入力されている文字列の種類数が、パターンの総数|P|よりも小さい場合、パターンをグループ化する。具体的には、同一のmを持つ複数のパターンを同一の情報を表すパターンとしてグループ化する。そして、グループ化されたパターンの中で代表となるパターンを選出する。
[実施例]
以下、前述したデータパターンの分類方法の手順に基づいた具体的な実施例について説明する。
Figure 0007435750000006
表5は、入力規則のあるDBの例を示す。ここで備考欄には(1)住所と(2)電話番号のいずれかが入力されており、(1)住所である場合は「都道府県」「市町村」「番地」の欄にある情報が共通している。
<ステップ0>
備考欄と共通する文字列を含むような欄の組み合わせを抽出すると、次の表6のようになる。
Figure 0007435750000007
ここで、「ID」が共通項にないのは、共通する文字が数字1文字分であることが条件i)に反するためである。表6により、パターンは4種類存在し、
=[都道府県、市町村、番地]
=[電話番号]
=[市町村、番地]
=[都道府県、番地]
となる。
手法A)ヒューリスティック(発見的)な方法
<ステップ1A>
前記ステップ0を実行してパターンを抽出する。
<ステップ2A>
次の2条件を満たすカラムを選出する。
(1)カラムに入力されている文字列の種類が4種類以下であること。
(2)カラムは抽出したパターンのいずれの要素でもないこと。
これらを満たすカラムは「位」と「分」となる。カラム「ID」「学校名」はいずれも10種類以上の文字列が入力されているために条件(1)を満たさない。
<ステップ3A>
カラム「位」に対して、
c=6(IDが1から2、2から3、3から4、6から7、8から9、9から10になるときにパターンが変化している)、
error=6(前記のいずれのタイミングでも入力文字が変化していない)
f=3(IDが4から5、5から6、7から8になるときパターンが変化しなかった)、
errorf=1(IDが5から6のタイミングでパターンが変化している)
であるので、
s:=(errorc/c)+(errorf/f)=1+(1/3)≒1.333
が得られる。
一方、カラム「分」に対して、
c=6(IDが1から2、2から3、3から4、6から7、8から9、9から10になるときにパターンが変化している)、
error=2(IDが1から2、9から10になるとき入力文字が変化しなかった)
f=3(IDが4から5、5から6、7から8になるときパターンが変化しなかった)、
errorf=0(前記のタイミングでパターンが変化しなかった)
であるので、
s:=(errorc/c)+(errorf/f)=(2/6)+0≒0.333
が得られる。
<ステップ4A>
sの値が小さいのがカラム「分」の方であった。このとき備考欄のパターンがpのデータで、カラム「分」に入力されている文字列の中で最頻のものは、
:m=住(5データ中に5回)
:m=電(3データ中に3回)
:m=住(1データ中に1回)
:m=住(1データ中に1回)
であった。これにより、4種のパターンが、p、p、pとpとに分類される。
<ステップ5A>
カラム「分」に入力される文字列の種類は2つなので、パターンが2種となるようにグループ化する。ここでは、最もデータ内で出現回数の多かったパターンを代表とし、残りのパターンは誤入力によって生成されたものと見なす。
=「住」となるパターンの中でデータでの出現頻度が最大となるのはパターンpの5回である。よってパターンpが代表パターンであり、同じ情報を表しているものとしてグループ化する。
手法B)尤度による統計的方法
<ステップ1B>
前記ステップ0を実行してパターンを抽出する。
<ステップ2B>
次の2条件を満たすカラムを選出する。
(1)カラムに入力されている文字列の種類が4種類以下であること。
(2)カラムは抽出したパターンのいずれの要素でもないこと。
これらを満たすカラムは「位」と「分」となる。カラム「ID」「学校名」はいずれも10種類以上の文字列が入力されているために条件(1)を満たさない。
<ステップ3B>
:「位」、h:「分」とする。パターンがp(i=1,2,3,4)に対して、mji(j=1,2)は下記の表7のようになる。
Figure 0007435750000008
<ステップ4B>
各カラムhについて二次元集計表を表8、表9のように作成する。
Figure 0007435750000009
この表8において、m11:pとm14:pで1/2と入力されたのは、パターンpにおいて文字列Sが入力されたデータ数1に対し、m11とm14が同一であるためである。
Figure 0007435750000010
各hに対して期待度数の表10、表11を作成する。
Figure 0007435750000011
Figure 0007435750000012
表8及び表10により、hに対するカイ二乗検定量χ は、
χ ≒18.23
表9及び表11により、hに対するカイ二乗検定量χ は、
χ =31
となる。
ここでは有意水準α=0.01とした。自由度9における上側有意確率0.01の値は21.7であるので、hにおける仮説は成立する一方で、hでは棄却されて分岐カラムとなる。
なお、本実施例のようにサンプルデータが小さい場合、カイ二乗検定よりフィッシャー検定の方が適切であるが、実際に技術を適用する際にはデータ数は十分大きいものとして、ここでもカイ二乗検定を使用するものとする。
<ステップ5B>
のカラム「分」に入力される文字列の種類は2つなので、パターンが2種になるようにグループ化する。ここでは、最もデータ内で出現回数の多かったパターンを代表とし、残りのパターンは誤入力によって生成されたものと見なす。
すなわち、m2i=「住」となるパターンの中で、データでの出現頻度が最大なのはパターンpの5回である。よって、パターンpが代表パターンであり、他のパターンp、pはパターンpと同じ情報を表しているものとしてグループ化する。
以上、手法A)ヒューリスティック(発見的)な方法と、手法B)尤度による統計的方法とにより、混合カラムから得られるパターンを、パターンが表す情報によってグループ化することができる。
[実施形態の効果]
以上に詳述した如く本実施形態によれば、複数のデータベースの統合時にデータベース間で共通する情報を持つカラムの発見を容易にすることが可能となる。
なお本発明の方法は、複数のデータベースを統合するコンピュータシステムによっても実現でき、方法手順を実現するプログラムを記録媒体に記録することも、ネットワークを通して提供することも可能となる。
その他、本願発明は、前記実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。また、前記実施形態には種々の段階の発明が含まれており、開示される複数の構成要件における適当な組み合わせにより種々の発明が抽出され得る。例えば、実施形態に示される全構成要件からいくつかの構成要件が削除されても、発明が解決しようとする課題の欄で述べた課題が解決でき、発明の効果の欄で述べられている効果が得られる場合には、この構成要件が削除された構成が発明として抽出され得る。

Claims (4)

  1. 情報の種類が複数存在する混合カラムの各入力値が、別の特定の欄に入力された情報との間に規則的な文字列上の重複があるデータベースを対象としたデータパターンの分類システムにより実行される方法であって、
    前記データパターンの分類システムの抽出部により、前記混合カラムの入力値と文字列上の重複がある欄をパターンと称して、前記混合カラムが存在しているデータベースにおいて、前記混合カラムの前記パターンが変化するタイミングを用いた発見的な第1の手法と、尤度検定による統計手法を用いた第2の手法とのいずれかにより、前記混合カラムに入力される情報の種類を変更する分岐カラムを抽出することと、
    前記データパターンの分類システムの分類部により、前記抽出部により抽出した分岐カラムに基づいて前記混合カラムから得られる前記パターンを、当該パターンが表す情報によってグループ化し、前記混合カラムに格納している情報が何種類あるのかを取得することと、
    備えるデータパターンの分類方法。
  2. 前記抽出部により前記分岐カラムを抽出することに先立って、前記データパターンの分類システムの前処理部により、前記混合カラムと共通する文字列を含む欄のインデックスをすべて抽出することをさらに備える、
    請求項1に記載のデータパターンの分類方法。
  3. 前記分類は、一つのグループに属するパターンの中から代表となるパターンを選出してパターン間に優劣を付与し、各入力値を代表としたパターンにしたがって統一した上でグループ化する、
    請求項1に記載のデータパターンの分類方法。
  4. 情報の種類が複数存在する混合カラムの各入力値が、別の特定の欄に入力された情報との間に規則的な文字列上の重複があるデータベースを対象としたデータパターンの分類システムであって、
    前記混合カラムの入力値と文字列上の重複がある欄をパターンと称して、前記混合カラムが存在しているデータベースにおいて、前記混合カラムの前記パターンが変化するタイミングを用いた発見的な第1の手法と、尤度検定による統計手法を用いた第2の手法とのいずれかにより、前記混合カラムに入力される情報の種類を変更する分岐カラムを抽出する抽出手段と、
    抽出した分岐カラムに基づいて前記混合カラムから得られる前記パターンを、当該パターンが表す情報によってグループ化し、前記混合カラムに格納している情報が何種類あるのかを取得する分類手段と、
    を備えるデータパターンの分類システム。
JP2022515148A 2020-04-16 2020-04-16 データパターンの分類方法および分類システム Active JP7435750B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/016772 WO2021210142A1 (ja) 2020-04-16 2020-04-16 データパターンの分類方法および分類システム

Publications (2)

Publication Number Publication Date
JPWO2021210142A1 JPWO2021210142A1 (ja) 2021-10-21
JP7435750B2 true JP7435750B2 (ja) 2024-02-21

Family

ID=78084085

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022515148A Active JP7435750B2 (ja) 2020-04-16 2020-04-16 データパターンの分類方法および分類システム

Country Status (3)

Country Link
US (1) US20230259589A1 (ja)
JP (1) JP7435750B2 (ja)
WO (1) WO2021210142A1 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180075104A1 (en) 2016-09-15 2018-03-15 Oracle International Corporation Techniques for relationship discovery between datasets

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10269248A (ja) * 1997-01-24 1998-10-09 Hitachi Ltd データベース処理システムにおけるデータの無作為抽出処理方法及びこれに基づくデータベース処理システム
KR101472452B1 (ko) * 2010-11-17 2014-12-17 한국전자통신연구원 멀티미디어 데이터 검색 방법, 장치 및 패턴인식 방법
JP6074820B2 (ja) * 2015-01-23 2017-02-08 国立研究開発法人情報通信研究機構 アノテーション補助装置及びそのためのコンピュータプログラム
EP3905062A1 (en) * 2020-04-27 2021-11-03 Permutable Technologies Limited Method and apparatus for searching for a data pattern

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180075104A1 (en) 2016-09-15 2018-03-15 Oracle International Corporation Techniques for relationship discovery between datasets

Also Published As

Publication number Publication date
JPWO2021210142A1 (ja) 2021-10-21
US20230259589A1 (en) 2023-08-17
WO2021210142A1 (ja) 2021-10-21

Similar Documents

Publication Publication Date Title
EP2565802B1 (en) Data masking setup
US7783658B1 (en) Multi-entity ontology weighting systems and methods
JP7211045B2 (ja) 要約文生成方法、要約文生成プログラム及び要約文生成装置
JP4848317B2 (ja) データベースのインデックス作成システム、方法及びプログラム
US10528766B2 (en) Techniques for masking electronic data
US10860800B2 (en) Information processing method, information processing apparatus, and program for solving a specific task using a model of a dialogue system
CN102023984B (zh) 甄别重复实体数据的方法和装置
Sandaruwan et al. Sinhala hate speech detection in social media using text mining and machine learning
CN112948429B (zh) 一种数据报送方法、装置和设备
Maraut et al. Identifying author–inventors from Spain: methods and a first insight into results
CN108549723A (zh) 一种文本概念分类方法、装置及服务器
CN107679209B (zh) 分类表达式生成方法和装置
Naiknaware et al. Prediction of 2019 Indian election using sentiment analysis
JP5526057B2 (ja) データ分析支援装置およびプログラム
JP7435750B2 (ja) データパターンの分類方法および分類システム
JP7087931B2 (ja) 探索プログラム、探索方法及び探索装置
Newman On being right: Greenberg’s African linguistic classification and the methodological principles which underlie it
CN116484019A (zh) 中文异体字字典库构建与输出利用方法
US20240095286A1 (en) Information processing apparatus, classification method, and storage medium
JP6604207B2 (ja) 関係情報生成方法、装置、及びプログラム
Vrandecić et al. Language resources extracted from Wikipedia
CN107247708B (zh) 一种姓名识别方法及系统
JP7439913B2 (ja) データカラムの分類方法および分類システム
US9208145B2 (en) Computer-implemented systems and methods for non-monotonic recognition of phrasal terms
CN106776607A (zh) 搜索引擎操作行为处理方法和装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220902

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20230104

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20230208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230822

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231020

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240109

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240122

R150 Certificate of patent or registration of utility model

Ref document number: 7435750

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150