JP7435750B2 - データパターンの分類方法および分類システム - Google Patents
データパターンの分類方法および分類システム Download PDFInfo
- Publication number
- JP7435750B2 JP7435750B2 JP2022515148A JP2022515148A JP7435750B2 JP 7435750 B2 JP7435750 B2 JP 7435750B2 JP 2022515148 A JP2022515148 A JP 2022515148A JP 2022515148 A JP2022515148 A JP 2022515148A JP 7435750 B2 JP7435750 B2 JP 7435750B2
- Authority
- JP
- Japan
- Prior art keywords
- column
- pattern
- information
- mixed
- data pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 37
- 238000012360 testing method Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 6
- 238000007619 statistical method Methods 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000000546 chi-square test Methods 0.000 description 5
- 239000000470 constituent Substances 0.000 description 3
- 101150090973 STR2 gene Proteins 0.000 description 2
- 101150035983 str1 gene Proteins 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/221—Column-oriented storage; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
表1にあるDBと表2にあるDBとを統合する場合、住所がトリガとなる共通項目であるが、表1には住所に該当する欄がない上に、一部のデータは電話番号が入力されているために、表1の学校名や電話番号と表2の建物情報とを紐付けることができない。
まず本実施形態の概要について説明する。
表1における備考欄のように、欄内に入力される情報の種類が複数あるカラムを、本書では混合カラムと称する。本実施形態で取扱うDBは、混合カラムの各入力値が、別の特定の欄に入力された情報との間に規則的な文字列上の重複があるものを対象とし、混合カラムの入力値と文字列上の重複のある欄との組み合わせをパターンと称する。
A)混合カラムのパターンが変化するタイミングを用いたヒューリスティック(発見的)な方法と、
B)尤度検定による統計手法を用いた方法、
の2通りを用いるものとする。
以下、データパターンの分類方法の詳細な手順について説明する。
例えば、表1のDBでは、di=[「A大学」「東京都」「港区」「1-11-1」「5678」]が得られる。
このとき、集合Dの要素であるデータdjに対応する混合カラムをajとする。
以下、文字列str1、str2について、共通する文字の集合を str1∩str2 で表記する。
混合カラム以外に入力された情報の中で、ajと共通する文字列を含むもののインデックスをすべて抽出する。すなわち、aj∩dj[x]≠φ(x≠y)となるようなインデックスxを見つける。ここでφは空集合を表す。
i) 共通している文字列の長さが文字列dj[x]の長さの半分以上であること。ただし、数字または記号(:;-+@等)が共通している場合、共通文字列の長さは2以上またはdj[x]に数字と記号以外の文字が含まれている必要があるものとする。
ii) 共通している文字列は文字列dj[x]の先頭の文字を削除したもの、あるいは末尾の文字を削除したものと一致すること。例えば、dj[x]=「福島郡山」であった場合、dj[y]と共通している文字列が「福島」や「郡山」であれば条件ii)を満たすが、「福山」は条件ii)を満たさない。
<ステップ1A>
前記ステップ0を実行してパターンを抽出する。
抽出したパターンの総数を|P|とする。次の2条件に従うカラムを選出する。すなわち、
(1)カラムに入力されている文字列の種類が|P|種類以下であること。
(2)カラムには抽出したパターンのいずれの要素もないこと。
選出された各カラムに対して、次の値sを計算する。すなわち、
s:=(errorc/c)+(errorf/f)
(ただし、上下で隣り合うデータを比較した時に、
c:混合カラムの入力パターンが変化した回数、
errorc:混合カラムの入力パターンが変化してもカラムの入力が変化しなかった回数、
f:混合カラムの入力パターンが一定であった回数、
errorf:混合カラムの入力パターンが変化しなくともカラムの入力が変化した回数。)
これは、分岐カラムの条件として、入力文字列が変化したときに混合カラムのパターンも同時に変化し、且つ文字列が変化しないならばパターンも変化しない、ということがあることから、前記の条件を破った回数とその割合を表している。
sが最小となるようなカラムを選択する。選択された各カラムの名前をhj(j∈{1,2,…})とし、hjからなる集合をHとする。このとき、混合カラムのパターンがpjのデータで、hjに入力されている文字列の中で最頻のものをmiとする。
各パターンpi(i∈{1,2,…,|P|})に対してmiが定まるならば、カラムhjを分岐カラムとする。
分岐カラムhjに入力されている文字列の種類数が、パターンの総数|P|よりも小さい場合、パターンをグループ化する。具体的には、同一のmiを持つ複数のパターンを、同一の情報を表すパターンとしてグループ化する。グループ化されたパターンの中で、代表となるパターンを選出する。
<ステップ1B>
前記ステップ0を実行してパターンを抽出する。
抽出したパターンの総数を|P|とする。次の2条件に従うカラムを選出する。すなわち、
(1)カラムに入力されている文字列の種類が|P|種類以下であること。
(2)カラムには抽出したパターンのいずれの要素もないこと。
選出されたカラムの集合をHとする。集合Hの各カラムhjに対し、混合カラムに入力されたパターンがpiのデータで、hjに入力されている文字列の中で最頻のものを選択し、それをmjiとする。ただし、mjiの候補が複数ある場合、すなわち最頻値をとる文字列が複数ある場合には、hjが分岐カラムにはならないものとして、集合Hから排除する。
集合Hのカラムhjについて、各pi、mjiに対して以下の表3の二次元集計表の各xklに該当する数値をデータから取得する。ここで、
xkl:パターンpkにおいてmjiが入力されているデータの個数
である。ただし、パターンpiにおいてmjk=mjlを満たすようなk、l(k≠l、k≠i、l≠i)が存在するとき、
xik=xil=M/2
(ただし、Mはmjk(またはmjl)が入力されているデータの総数。)
を入力し、均等になるようにする。
分岐カラムhjに入力されている文字列の種類数が、パターンの総数|P|よりも小さい場合、パターンをグループ化する。具体的には、同一のmiを持つ複数のパターンを同一の情報を表すパターンとしてグループ化する。そして、グループ化されたパターンの中で代表となるパターンを選出する。
以下、前述したデータパターンの分類方法の手順に基づいた具体的な実施例について説明する。
備考欄と共通する文字列を含むような欄の組み合わせを抽出すると、次の表6のようになる。
p1=[都道府県、市町村、番地]
p2=[電話番号]
p3=[市町村、番地]
p4=[都道府県、番地]
となる。
<ステップ1A>
前記ステップ0を実行してパターンを抽出する。
次の2条件を満たすカラムを選出する。
(1)カラムに入力されている文字列の種類が4種類以下であること。
(2)カラムは抽出したパターンのいずれの要素でもないこと。
これらを満たすカラムは「位」と「分」となる。カラム「ID」「学校名」はいずれも10種類以上の文字列が入力されているために条件(1)を満たさない。
カラム「位」に対して、
c=6(IDが1から2、2から3、3から4、6から7、8から9、9から10になるときにパターンが変化している)、
errorc=6(前記のいずれのタイミングでも入力文字が変化していない)
f=3(IDが4から5、5から6、7から8になるときパターンが変化しなかった)、
errorf=1(IDが5から6のタイミングでパターンが変化している)
であるので、
s:=(errorc/c)+(errorf/f)=1+(1/3)≒1.333
が得られる。
c=6(IDが1から2、2から3、3から4、6から7、8から9、9から10になるときにパターンが変化している)、
errorc=2(IDが1から2、9から10になるとき入力文字が変化しなかった)
f=3(IDが4から5、5から6、7から8になるときパターンが変化しなかった)、
errorf=0(前記のタイミングでパターンが変化しなかった)
であるので、
s:=(errorc/c)+(errorf/f)=(2/6)+0≒0.333
が得られる。
sの値が小さいのがカラム「分」の方であった。このとき備考欄のパターンがpiのデータで、カラム「分」に入力されている文字列の中で最頻のものは、
p1:m1=住(5データ中に5回)
p2:m2=電(3データ中に3回)
p3:m3=住(1データ中に1回)
p4:m4=住(1データ中に1回)
であった。これにより、4種のパターンが、p1、p2、p3とp4とに分類される。
カラム「分」に入力される文字列の種類は2つなので、パターンが2種となるようにグループ化する。ここでは、最もデータ内で出現回数の多かったパターンを代表とし、残りのパターンは誤入力によって生成されたものと見なす。
<ステップ1B>
前記ステップ0を実行してパターンを抽出する。
次の2条件を満たすカラムを選出する。
(1)カラムに入力されている文字列の種類が4種類以下であること。
(2)カラムは抽出したパターンのいずれの要素でもないこと。
これらを満たすカラムは「位」と「分」となる。カラム「ID」「学校名」はいずれも10種類以上の文字列が入力されているために条件(1)を満たさない。
h1:「位」、h2:「分」とする。パターンがpi(i=1,2,3,4)に対して、mji(j=1,2)は下記の表7のようになる。
各カラムhjについて二次元集計表を表8、表9のように作成する。
χ1 2≒18.23
表9及び表11により、h2に対するカイ二乗検定量χ2 2は、
χ2 2=31
となる。
h2のカラム「分」に入力される文字列の種類は2つなので、パターンが2種になるようにグループ化する。ここでは、最もデータ内で出現回数の多かったパターンを代表とし、残りのパターンは誤入力によって生成されたものと見なす。
以上に詳述した如く本実施形態によれば、複数のデータベースの統合時にデータベース間で共通する情報を持つカラムの発見を容易にすることが可能となる。
Claims (4)
- 情報の種類が複数存在する混合カラムの各入力値が、別の特定の欄に入力された情報との間に規則的な文字列上の重複があるデータベースを対象としたデータパターンの分類システムにより実行される方法であって、
前記データパターンの分類システムの抽出部により、前記混合カラムの入力値と文字列上の重複がある欄をパターンと称して、前記混合カラムが存在しているデータベースにおいて、前記混合カラムの前記パターンが変化するタイミングを用いた発見的な第1の手法と、尤度検定による統計手法を用いた第2の手法とのいずれかにより、前記混合カラムに入力される情報の種類を変更する分岐カラムを抽出することと、
前記データパターンの分類システムの分類部により、前記抽出部により抽出した分岐カラムに基づいて前記混合カラムから得られる前記パターンを、当該パターンが表す情報によってグループ化し、前記混合カラムに格納している情報が何種類あるのかを取得することと、
を備えるデータパターンの分類方法。 - 前記抽出部により前記分岐カラムを抽出することに先立って、前記データパターンの分類システムの前処理部により、前記混合カラムと共通する文字列を含む欄のインデックスをすべて抽出することをさらに備える、
請求項1に記載のデータパターンの分類方法。 - 前記分類部は、一つのグループに属するパターンの中から代表となるパターンを選出してパターン間に優劣を付与し、各入力値を代表としたパターンにしたがって統一した上でグループ化する、
請求項1に記載のデータパターンの分類方法。 - 情報の種類が複数存在する混合カラムの各入力値が、別の特定の欄に入力された情報との間に規則的な文字列上の重複があるデータベースを対象としたデータパターンの分類システムであって、
前記混合カラムの入力値と文字列上の重複がある欄をパターンと称して、前記混合カラムが存在しているデータベースにおいて、前記混合カラムの前記パターンが変化するタイミングを用いた発見的な第1の手法と、尤度検定による統計手法を用いた第2の手法とのいずれかにより、前記混合カラムに入力される情報の種類を変更する分岐カラムを抽出する抽出手段と、
抽出した分岐カラムに基づいて前記混合カラムから得られる前記パターンを、当該パターンが表す情報によってグループ化し、前記混合カラムに格納している情報が何種類あるのかを取得する分類手段と、
を備えるデータパターンの分類システム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2020/016772 WO2021210142A1 (ja) | 2020-04-16 | 2020-04-16 | データパターンの分類方法および分類システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2021210142A1 JPWO2021210142A1 (ja) | 2021-10-21 |
JP7435750B2 true JP7435750B2 (ja) | 2024-02-21 |
Family
ID=78084085
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022515148A Active JP7435750B2 (ja) | 2020-04-16 | 2020-04-16 | データパターンの分類方法および分類システム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20230259589A1 (ja) |
JP (1) | JP7435750B2 (ja) |
WO (1) | WO2021210142A1 (ja) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180075104A1 (en) | 2016-09-15 | 2018-03-15 | Oracle International Corporation | Techniques for relationship discovery between datasets |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10269248A (ja) * | 1997-01-24 | 1998-10-09 | Hitachi Ltd | データベース処理システムにおけるデータの無作為抽出処理方法及びこれに基づくデータベース処理システム |
KR101472452B1 (ko) * | 2010-11-17 | 2014-12-17 | 한국전자통신연구원 | 멀티미디어 데이터 검색 방법, 장치 및 패턴인식 방법 |
JP6074820B2 (ja) * | 2015-01-23 | 2017-02-08 | 国立研究開発法人情報通信研究機構 | アノテーション補助装置及びそのためのコンピュータプログラム |
EP3905062A1 (en) * | 2020-04-27 | 2021-11-03 | Permutable Technologies Limited | Method and apparatus for searching for a data pattern |
-
2020
- 2020-04-16 JP JP2022515148A patent/JP7435750B2/ja active Active
- 2020-04-16 WO PCT/JP2020/016772 patent/WO2021210142A1/ja active Application Filing
- 2020-04-16 US US17/918,013 patent/US20230259589A1/en active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180075104A1 (en) | 2016-09-15 | 2018-03-15 | Oracle International Corporation | Techniques for relationship discovery between datasets |
Also Published As
Publication number | Publication date |
---|---|
JPWO2021210142A1 (ja) | 2021-10-21 |
US20230259589A1 (en) | 2023-08-17 |
WO2021210142A1 (ja) | 2021-10-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2565802B1 (en) | Data masking setup | |
US7783658B1 (en) | Multi-entity ontology weighting systems and methods | |
JP7211045B2 (ja) | 要約文生成方法、要約文生成プログラム及び要約文生成装置 | |
JP4848317B2 (ja) | データベースのインデックス作成システム、方法及びプログラム | |
US10528766B2 (en) | Techniques for masking electronic data | |
US10860800B2 (en) | Information processing method, information processing apparatus, and program for solving a specific task using a model of a dialogue system | |
CN102023984B (zh) | 甄别重复实体数据的方法和装置 | |
Sandaruwan et al. | Sinhala hate speech detection in social media using text mining and machine learning | |
CN112948429B (zh) | 一种数据报送方法、装置和设备 | |
Maraut et al. | Identifying author–inventors from Spain: methods and a first insight into results | |
CN108549723A (zh) | 一种文本概念分类方法、装置及服务器 | |
CN107679209B (zh) | 分类表达式生成方法和装置 | |
Naiknaware et al. | Prediction of 2019 Indian election using sentiment analysis | |
JP5526057B2 (ja) | データ分析支援装置およびプログラム | |
JP7435750B2 (ja) | データパターンの分類方法および分類システム | |
JP7087931B2 (ja) | 探索プログラム、探索方法及び探索装置 | |
Newman | On being right: Greenberg’s African linguistic classification and the methodological principles which underlie it | |
CN116484019A (zh) | 中文异体字字典库构建与输出利用方法 | |
US20240095286A1 (en) | Information processing apparatus, classification method, and storage medium | |
JP6604207B2 (ja) | 関係情報生成方法、装置、及びプログラム | |
Vrandecić et al. | Language resources extracted from Wikipedia | |
CN107247708B (zh) | 一种姓名识别方法及系统 | |
JP7439913B2 (ja) | データカラムの分類方法および分類システム | |
US9208145B2 (en) | Computer-implemented systems and methods for non-monotonic recognition of phrasal terms | |
CN106776607A (zh) | 搜索引擎操作行为处理方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220902 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20230104 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20230208 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230822 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231020 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240109 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240122 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7435750 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |