JP6470249B2 - データクレンジングシステム、データクレンジング方法及びデータクレンジングプログラム - Google Patents
データクレンジングシステム、データクレンジング方法及びデータクレンジングプログラム Download PDFInfo
- Publication number
- JP6470249B2 JP6470249B2 JP2016246327A JP2016246327A JP6470249B2 JP 6470249 B2 JP6470249 B2 JP 6470249B2 JP 2016246327 A JP2016246327 A JP 2016246327A JP 2016246327 A JP2016246327 A JP 2016246327A JP 6470249 B2 JP6470249 B2 JP 6470249B2
- Authority
- JP
- Japan
- Prior art keywords
- character string
- token
- candidate
- dictionary
- address
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Description
入力された文字列から、住所に関する情報を抽出し特定するデータクレンジングシステムであって、
前記文字列を取得する文字列取得部と、
前記入力された文字列を可能な文字の切り分け方を全て試行して分割し、分割された文字列について住所に関する単語を定義する辞書を参照し、辞書から検出された単語を、住所を構成する要素の候補である基本トークンとして追加するとともに、前記分割された文字列について前記辞書から該当する単語が検出されない場合には、当該分割された文字列の文字種別を解析し、解析された文字種別に応じた解析トークンとして追加する候補追加部と、
前記候補追加部によって追加された前記基本トークン及び解析トークンを、特定すべき住所の候補として分岐をさせつつ、上流の処理済みのトークンに接続して木構造を構築するツリー構築部と、
前記ツリー構築部が構築した木構造に含まれる分岐パターン毎に、各トークンの単語や文字種別に応じて付与された重み付けを加算したコストを計算するコスト計算部と、
計算されたコストに応じて、所定の分岐パターンを前記特定すべき住所の候補として選択する候補選択部と
を備え、
前記ツリー構築部は、複数の文字列が辞書から取得された場合に分岐させることを特徴とする。
候補追加部が、前記入力された文字列を可能な文字の切り分け方を全て試行して分割し、分割された文字列について住所に関する単語を定義する辞書を参照し、辞書から検出された単語を、住所を構成する要素の候補である基本トークンとして追加するとともに、前記分割された文字列について前記辞書から該当する単語が検出されない場合には、当該分割された文字列の文字種別を解析し、解析された文字種別に応じた解析トークンとして追加する候補追加ステップと、
ツリー構築部が、前記候補追加ステップで追加された前記基本トークン及び解析トークンを、特定すべき住所の候補として分岐をさせつつ、上流の処理済みのトークンに接続して木構造を構築するツリー構築ステップと、
前記ツリー構築ステップで構築した木構造に含まれる分岐パターン毎に、各トークンの単語や文字種別に応じて付与された重み付けを加算したコストを、コスト計算部が計算するコスト計算ステップと、
計算されたコストに応じて、所定の分岐パターンを前記特定すべき住所の候補として候補選択部が選択する候補選択ステップと
を備え、
前記ツリー構築部は、複数の文字列が辞書から取得された場合に分岐させることを特徴とする。
前記文字列を取得する文字列取得部、
前記入力された文字列を可能な文字の切り分け方を全て試行して分割し、分割された文字列について住所に関する単語を定義する辞書を参照し、辞書から検出された単語を、住所を構成する要素の候補である基本トークンとして追加するとともに、前記分割された文字列について前記辞書から該当する単語が検出されない場合には、当該分割された文字列の文字種別を解析し、解析された文字種別に応じた解析トークンとして追加する候補追加部、
前記候補追加部によって追加された前記基本トークン及び解析トークンを、特定すべき住所の候補として分岐をさせつつ、上流の処理済みのトークンに接続して木構造を構築するツリー構築部と、
前記ツリー構築部が構築した木構造に含まれる分岐パターン毎に、各トークンの単語や文字種別に応じて付与された重み付けを加算したコストを計算するコスト計算部、及び
計算されたコストに応じて、所定の分岐パターンを前記特定すべき住所の候補として選択する候補選択部
として機能させ、
前記ツリー構築部は、複数の文字列が辞書から取得された場合に分岐させるように機能することを特徴とする。
以下に添付図面を参照して、本発明に係るデータクレンジングシステムの実施形態を詳細に説明する。図1は、本実施形態に係るデータクレンジングシステムを実現するための情報処理端末装置の全体構成を示す概念図である。なお、説明中で用いられる「モジュール」とは、装置や機器等のハードウェア、或いはその機能を持ったソフトウェア、又はこれらの組み合わせなどによって構成され、所定の動作を達成するための機能単位を示す。
以上説明したデータクレンジングシステムを動作させることによって、本発明のデータクレンジング方法を実施できる。図3は本実施形態に係るデータクレンジングシステムの全体的な処理概要を示すフロー図であり、図4は各処理に関わるデータを示す説明図である。ここでは「東京都葛飾区新宿4丁目22−19亀有警察」をクレンジング対象とした場合を例示する。
(a)東京都 葛飾 区 新宿 4丁目 22 − 19 亀有 警察
(b)東京都 葛飾 区 新宿 4丁目 22 − 19 亀有警察
(c)東京都 葛飾区 新宿 4丁目 22 − 19 亀有 警察
(d)東京都 葛飾区 新宿 4丁目 22 − 19 亀有警察
本実施形態では、これら(a)〜(d)のうち(d)が適正であり、このように区切られるように処理が実行される。
マッチングレベル等を計算し(S105)、解析結果D03として出力する。
ここで上述したツリー生成について詳述する。図5は、上述したツリー生成処理の詳細を示すフロー図である。
同図に示すように、ツリー生成ステップS102では、文字切り出し(分割)処理(S201a)、辞書問合せ処理(S201b)、辞書にない未知語の品詞や種別を解析する処理(S201d)によってトークンを生成して、候補として追加する辞書検索ループと、この候補として追加されたトークンを絞り込む候補絞り込みステップS202と、絞り込まれたトークンを子ツリーとして順次接続して木構造を構築するツリー生成ループ(S203)とを含んでいる。
先ず、入力された住所に係る文字列を、都道府県・市区町村・大字・字・街区・地番・建物名といった要素単位に切り出して、入力文字列を分割する(S201a)。具体的には、図9(a)に示すように、処理対象となる文字列の先頭から1文字、先頭から2文字、先頭から3文字と文字数を増やしつつ切り出していく。
このようにしてツリーが生成された後、全パターンについてコスト計算を行い(図3中のステップS103)、住所として正しい可能性が最も高いパターンを選択する(同図中のステップS104)。
ここで、上述したステップS201cにおける文字種別解析についてさらに詳述する。本実施形態では、文字列がカナ、アルファベット、記号・空白又は数字であるかを判定し、併せて例外的な住所形式も判定し、その判定結果を返却値に付記する。この例外的な住所の判定としては、本実施形態では、京都における「通り名」の判定が含まれる。
さらには、本実施形態では、候補選択部102eによって選択された情報と、文字列取得部102dによって取得された文字列とをマッチングレベル判定部102fで比較し、その合致の程度をマッチングレベルとして出力するため、通信サービス等の審査などにおいて、マッチしている状態をレベルで分けて出力・表示することができ、例えば不正住所を記載した偽造証明書を使った不正な申し込みを検知することができる。
このような本実施形態によれば、入力文字列から分割した単語について、辞書を参照して、辞書中の単語や文字種別に応じて重み付をしつつ接続して木構造を構築して、木構造の分岐パターン毎のコストを計算して、候補を抽出するため、表記が同じ地名があっても、実在する市区町村に応じて区別して住所の構成要素の候補として抽出することができ、さらに、市区町村を省略して表記されていたり、建物名や人名などが混在している場合であっても、正確なデータクレンジングが可能となる。
D02…ツリー
D03…解析結果
1…情報処理端末装置
1a…CPUバス
101…ストレージ装置
101a…住所マスター
101b…辞書データ
102…CPU
102a…候補追加部
102b…ツリー構築部
102c…コスト計算部
102d…文字列取得部
102e…候補選択部
102f…マッチングレベル判定部
103…メモリ
104…入力インターフェース
105…出力インターフェース
106…通信インターフェース
Claims (6)
- 入力された文字列から、住所に関する情報を抽出し特定するデータクレンジングシステムであって、
前記文字列を取得する文字列取得部と、
前記入力された文字列を可能な文字の切り分け方を全て試行して分割し、分割された文字列について住所に関する単語を定義する辞書を参照し、辞書から検出された単語を、住所を構成する要素の候補である基本トークンとして追加するとともに、前記分割された文字列について前記辞書から該当する単語が検出されない場合には、当該分割された文字列の文字種別を解析し、解析された文字種別に応じた解析トークンとして追加する候補追加部と、
前記候補追加部によって追加された前記基本トークン及び解析トークンを、特定すべき住所の候補として分岐をさせつつ、上流の処理済みのトークンに接続して木構造を構築するツリー構築部と、
前記ツリー構築部が構築した木構造に含まれる分岐パターン毎に、各トークンの単語や文字種別に応じて付与された重み付けを加算したコストを計算するコスト計算部と、
計算されたコストに応じて、所定の分岐パターンを前記特定すべき住所の候補として選択する候補選択部と
を備え、
前記ツリー構築部は、複数の文字列が辞書から取得された場合に分岐させることを特徴とするデータクレンジングシステム。 - 前記候補選択部によって選択された情報と、前記文字列取得部によって取得された文字列とを比較し、その合致の程度をマッチングレベルとして出力するマッチングレベル判定部をさらに備えることを特徴とする請求項1に記載のデータクレンジングシステム。
- 前記候補追加部は、各分岐点において、住所に関する単語を定義する辞書に該当する単語が検出された文字列に関するトークンに対応させて、前記辞書に該当する単語が検出された前記文字列を、前記辞書にない未知語としての重み付が付与された未知語トークンとして、さらに追加することを特徴とする請求項1又は2に記載のデータクレンジングシステム。
- 前記候補追加部は、各分岐点において、前記住所に関する単語を定義する辞書に該当する単語が検出された文字列に関するトークンのうち所定の文字数のものについてのみ前記未知語トークンを生成することを特徴とする請求項3に記載のデータクレンジングシステム。
- 入力された文字列から、住所に関する情報を抽出し特定するデータクレンジング方法であって、
候補追加部が、前記入力された文字列を可能な文字の切り分け方を全て試行して分割し、分割された文字列について住所に関する単語を定義する辞書を参照し、辞書から検出された単語を、住所を構成する要素の候補である基本トークンとして追加するとともに、前記分割された文字列について前記辞書から該当する単語が検出されない場合には、当該分割された文字列の文字種別を解析し、解析された文字種別に応じた解析トークンとして追加する候補追加ステップと、
ツリー構築部が、前記候補追加ステップで追加された前記基本トークン及び解析トークンを、特定すべき住所の候補として分岐をさせつつ、上流の処理済みのトークンに接続して木構造を構築するツリー構築ステップと、
前記ツリー構築ステップで構築した木構造に含まれる分岐パターン毎に、各トークンの単語や文字種別に応じて付与された重み付けを加算したコストを、コスト計算部が計算するコスト計算ステップと、
計算されたコストに応じて、所定の分岐パターンを前記特定すべき住所の候補として候補選択部が選択する候補選択ステップと
を備え、
前記ツリー構築部は、複数の文字列が辞書から取得された場合に分岐させる
ことを特徴とするデータクレンジング方法。 - 入力された文字列から、住所に関する情報を抽出し特定するデータクレンジングプログラムであって、コンピューターを、
前記文字列を取得する文字列取得部、
前記入力された文字列を可能な文字の切り分け方を全て試行して分割し、分割された文字列について住所に関する単語を定義する辞書を参照し、辞書から検出された単語を、住所を構成する要素の候補である基本トークンとして追加するとともに、前記分割された文字列について前記辞書から該当する単語が検出されない場合には、当該分割された文字列の文字種別を解析し、解析された文字種別に応じた解析トークンとして追加する候補追加部、
前記候補追加部によって追加された前記基本トークン及び解析トークンを、特定すべき住所の候補として分岐をさせつつ、上流の処理済みのトークンに接続して木構造を構築するツリー構築部と、
前記ツリー構築部が構築した木構造に含まれる分岐パターン毎に、各トークンの単語や文字種別に応じて付与された重み付けを加算したコストを計算するコスト計算部、及び
計算されたコストに応じて、所定の分岐パターンを前記特定すべき住所の候補として選択する候補選択部
として機能させ、
前記ツリー構築部は、複数の文字列が辞書から取得された場合に分岐させる
ことを特徴とするデータクレンジングプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016246327A JP6470249B2 (ja) | 2016-12-20 | 2016-12-20 | データクレンジングシステム、データクレンジング方法及びデータクレンジングプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016246327A JP6470249B2 (ja) | 2016-12-20 | 2016-12-20 | データクレンジングシステム、データクレンジング方法及びデータクレンジングプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018101244A JP2018101244A (ja) | 2018-06-28 |
JP6470249B2 true JP6470249B2 (ja) | 2019-02-13 |
Family
ID=62715376
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016246327A Active JP6470249B2 (ja) | 2016-12-20 | 2016-12-20 | データクレンジングシステム、データクレンジング方法及びデータクレンジングプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6470249B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6925665B1 (ja) * | 2020-04-27 | 2021-08-25 | アットホームラボ株式会社 | 情報処理装置、情報処理方法及び情報処理プログラム |
CN112417179A (zh) * | 2020-11-23 | 2021-02-26 | 杭州橙鹰数据技术有限公司 | 地址处理方法及装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000011096A (ja) * | 1998-06-23 | 2000-01-14 | Canon Inc | 文字認識処理装置及び方法並びに記憶媒体 |
JP2003223459A (ja) * | 2002-01-31 | 2003-08-08 | Daikei Data Processing Co Ltd | 住所情報の管理方法 |
JP5544693B2 (ja) * | 2008-08-22 | 2014-07-09 | 富士通株式会社 | データ処理装置、データ処理プログラムおよびデータ処理方法 |
WO2012125950A1 (en) * | 2011-03-17 | 2012-09-20 | Mastercard International Incorporated | Systems and methods for creating standardized street addresses from raw address data |
-
2016
- 2016-12-20 JP JP2016246327A patent/JP6470249B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018101244A (ja) | 2018-06-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5605583B2 (ja) | 検索方法、類似度計算方法、類似度計算及び同一文書照合システムと、そのプログラム | |
CN102395965B (zh) | 用于在数据库中搜索对象的方法 | |
TWI426399B (zh) | 用於搜尋輸入資料及使與儲存資料相匹配的電腦化方法及裝置 | |
KR101231560B1 (ko) | 데이터 클러스터와 유의어의 탐색과 수정에 대한 방법 및 시스템 | |
US6173252B1 (en) | Apparatus and methods for Chinese error check by means of dynamic programming and weighted classes | |
JP2019502979A (ja) | 構造化されたマルチフィールドファイルのレイアウトの自動解釈 | |
US9183223B2 (en) | System for non-deterministic disambiguation and qualitative entity matching of geographical locale data for business entities | |
CN110929125A (zh) | 搜索召回方法、装置、设备及其存储介质 | |
MX2012011923A (es) | Asignacion de atributis aplicables para datos que describen la identidad personal. | |
WO2016121048A1 (ja) | 文章生成装置及び方法 | |
CN110457672A (zh) | 关键词确定方法、装置、电子设备及存储介质 | |
CN110489997A (zh) | 一种基于模式匹配算法的敏感信息脱敏方法 | |
JP4687089B2 (ja) | 重複レコード検出システム、および重複レコード検出プログラム | |
JP6470249B2 (ja) | データクレンジングシステム、データクレンジング方法及びデータクレンジングプログラム | |
US9317189B1 (en) | Method to input content in a structured manner with real-time assistance and validation | |
JP4185399B2 (ja) | 顧客データ管理装置、顧客データ管理方法および顧客データ管理用プログラムならびに顧客データ管理用プログラムを格納した記録媒体 | |
CN111914859A (zh) | 一种服务复用方法、计算设备及计算机可读存储介质 | |
JP5594134B2 (ja) | 文字列検索装置,文字列検索方法および文字列検索プログラム | |
CN111339756B (zh) | 一种文本检错方法及装置 | |
CN112269852A (zh) | 生成舆情专题方法、系统及存储介质 | |
JP4844737B2 (ja) | 代表情報選択方法、代表情報選択システム及びプログラム | |
JP5326781B2 (ja) | 抽出規則作成システム、抽出規則作成方法及び抽出規則作成プログラム | |
JP6807201B2 (ja) | 情報処理装置 | |
JP4915499B2 (ja) | 同義語辞書生成システム、同義語辞書生成方法および同義語辞書生成プログラム | |
Ajitha et al. | EFFECTIVE FEATURE EXTRACTION FOR DOCUMENT CLUSTERING TO ENHANCE SEARCH ENGINE USING XML. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180515 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180717 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190108 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190117 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6470249 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |