JP6677093B2 - 表データ検索装置、表データ検索方法、及び表データ検索プログラム - Google Patents
表データ検索装置、表データ検索方法、及び表データ検索プログラム Download PDFInfo
- Publication number
- JP6677093B2 JP6677093B2 JP2016121013A JP2016121013A JP6677093B2 JP 6677093 B2 JP6677093 B2 JP 6677093B2 JP 2016121013 A JP2016121013 A JP 2016121013A JP 2016121013 A JP2016121013 A JP 2016121013A JP 6677093 B2 JP6677093 B2 JP 6677093B2
- Authority
- JP
- Japan
- Prior art keywords
- table data
- attribute
- category
- value
- determined
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
次に、図4、図5を参照して、表データ記憶部11に記憶されている被検索対象の各表データに対する検索用のメタデータを作成する処理の詳細例について説明する。図4は、各表データに対する検索用のメタデータを作成する処理の一例を示すフローチャートである。
次に、図6を参照して、検索対象の表データに基づいて、表データ記憶部11に記憶されている各表データから類似しているものを検索する処理の詳細例について説明する。図6は、表データを検索する処理の一例を示すフローチャートである。
次に、図4のステップS102、S103、及び図6のステップS113、S114の、特徴抽出部12による、各属性の特徴(格納タイプ、及び分布タイプ)を抽出する処理の詳細例について説明する。図7は、属性の特徴を抽出する処理の一例を示すフローチャートである。
(1)対象属性に対する各行データの値と、予め記憶されている人名辞書に含まれるデータとの類似度が、所定の閾値以上である場合に、対象属性のカテゴリは「氏名」カテゴリであると判定可能である。
(2)対象属性に対する各行データの値が、「男」、「女」等の性別を表す文字又は文字列である場合に、対象属性のカテゴリは「性別」カテゴリであると判定可能である。
(3)対象属性に対する各行データの値が、日付の表現形式と一致し、かつ、数値範囲が日付と同等である場合、対象属性のカテゴリは、「生年月日」、または「日付」であると判定可能である。
(4)対象属性に対する各行データの値と、予め記憶されている住所辞書に含まれるデータとの類似度が、所定の閾値以上である場合に、「住所」カテゴリであると判定可能である。
(5)対象属性に対する各行データの値が、メールアドレスの表現形式と一致する場合、「メールアドレス」カテゴリであると判定可能である。
(6)対象属性に対する各行データの値が、郵便番号の表現形式(例えば7桁の数字)と一致し、かつ、予め記憶されている郵便番号辞書に含まれるいずれかの郵便番号と一致する場合、対象属性のカテゴリは、「郵便番号」であると判定可能である。
(7)対象属性に対する各行データの値が、マイナンバーの表現形式(例えば12桁の数字)と一致し、かつ、対象属性に対する各行データの値をマイナンバーとみなした場合における当該マイナンバー用のチェックデジットが正しい場合に、対象属性のカテゴリは、「マイナンバー」のカテゴリであると判定可能である。
(8)対象属性に対する各行データの値が、クレジットカード番号の表現形式(15桁又は16の数字)と一致し、かつ、対象属性に対する各行データの値をクレジットカード番号とみなした場合における当該クレジットカード番号用のチェックデジットが正しい場合に、対象属性のカテゴリは、「クレジットカード」カテゴリであると判定可能である。
(9)対象属性に対する各行データの値をソートし、隣接する値の間の距離の中央値、及び最大値を算出する。続いて、隣接する値の間の距離の中央値と最大値の差が所定の閾値以上であれば、対象属性のカテゴリは、「社員番号」のカテゴリであると判定可能である。これは、対象属性に対する各行データの値が、例えば入社年度+3桁で表現される社員番号であり、1年間に入社する社員が平均100人、3桁の番号がシリアルに発番されているとすると、隣接する値の間の距離の中央値、及び最大値は、それぞれ1、及び900となり、所定の閾値以上である(分布に連続性が無い)と判定可能であるためである。
(10)対象属性に対する各行データの値の分布が、多様な値が出現する均等分布に従う場合、対象属性のカテゴリは、「ID」カテゴリであると判定可能である。
(11)対象属性に対する各行データの値の分布が、特定の値(例えば生年月日等)が出現する均等分布に従う場合、対象属性のカテゴリは、「暗証番号」カテゴリであると判定可能である。
(12)対象属性に対する各行データの値の分布が、パレート分布に従う場合、対象属性のカテゴリは、「病名コード」カテゴリであると判定可能である。なお、病名コードの場合、国際統計分類で使用されているICD−10では、先頭のアルファベットが全21章から成る大分類に続く数字が中分類に使用されている(風邪のコード、J00)。
次に、図6のステップS114の詳細例について説明する。図8は、各属性の類似度を判定する処理の一例を示すフローチャートである。なお、類似度判定部14は、以下の処理を、検索対象の表データにおける各々の属性について、検索された各表データにおける各々の属性に対して実行する。以下、検索対象の表データの各属性のうち、処理対象とされている属性を「対象属性」という。
次に、図6のステップS115の詳細例について説明する。図9は、検索された表データの属性に対する説明文の表示態様を、類似度に応じて制御する例について説明する図である。
次に、図10を参照して、図6のステップS112の表データ検索部15による、被検索対象の表データ群から、検索対象の表データに類似する表データを検索する処理の詳細例について説明する。
図10は、第1の実施例に係るFPを説明するための図である。表データ検索部15は、例えば、表データからキーワードとその並びを抽出し、特定範囲内のキーワードの向きつきの並びを特徴とする。例えば、表データのある行データとして「キーワード1,キーワード2,キーワード3,キーワード4」が存在した場合に、かかる行データの特徴は、図10の特徴10aに示すように、6つのキーワードの組となる。
ここで、表データでは、表データを取得する際のSQL文等に応じて、同じ情報であっても、属性の並び順が異なる場合がある。そのため、第1の実施例では、転置インデックスのデータが増加し、検索コストがかかるようになる。そこで、表データ検索部15は、転置インデックスのデータを以下のように削減してもよい。
第2の実施例では、削除対象を細かく確認するため、処理負荷が大きくなる場合がある。以下においては、図15で説明した第2の実施例の処理と同じ考え方で削除対象を細かく確認する処理を省いた、表データ検索部15の処理の一例について説明する。
上述した実施形態は、情報漏洩の原因を調査するシステムにも適用できる。この場合、表データ検索装置10は、例えば、検索対象の表データが印刷等により外部に出力された際に、出力された表データの特徴を抽出して、出力したユーザのIDと共にメタデータとして格納しておく。そして、情報漏洩が判明した際に、漏洩した表データを検索対象とし、格納されているメタデータに基づいて、類似度が高い表データを、当該表データを出力したユーザIDを取得する。それにより、情報漏洩の原因を調査できる。
表データ(表形式ファイル)は、表データを取得する際のSQL文等に応じて、同じ情報であっても、属性の並び順が異なる場合がある。そのため、検索された表データの一部をスニペットとして表示しても、同じ情報であることが分かりにくい。
(付記1)
各表データの各属性における値の分布の特徴を抽出する抽出部と、
前記抽出部により抽出された特徴に基づいて、第1の表データの各属性と、前記第1の表データに基づいて検索された第2の表データの各属性とが類似するか否かを判定する類似度判定部と、
を備えることを特徴とする表データ検索装置。
(付記2)
前記類似度判定部により類似していると判定された場合、検索された表データの各属性の表示態様を変化させる表示制御部を備える、
ことを特徴とする付記1記載の表データ検索装置。
(付記3)
前記抽出部は、表データの各属性における値の分布形状、平均値、中央値、最大値、最小値、出現種類数、最大出現回数、最少出現回数、及び平均出現回数のうちの少なくとも1つを抽出する、
ことを特徴とする付記1または2記載の表データ検索装置。
(付記4)
表データの各属性のカテゴリを判定するカテゴリ判定部を備え、
前記類似度判定部は、前記カテゴリ判定部により判定されたカテゴリが一致する前記第1の表データの各属性、及び前記第2の表データの各属性について、類似するか否かを判定する、
ことを特徴とする付記1乃至3のいずれか一項に記載の表データ検索装置。
(付記5)
前記抽出部は、前記カテゴリ判定部によりカテゴリが判定できない属性について、カテゴリが判定できない場合の所定のルールに応じて、値の分布の特徴を抽出する、
ことを特徴とする付記4記載の表データ検索装置。
(付記6)
コンピュータが、
各表データの各属性における値の分布の特徴を抽出する処理と、
前記抽出する処理により抽出された特徴に基づいて、第1の表データの各属性と、前記第1の表データに基づいて検索された第2の表データの各属性とが類似するか否かを判定する処理と、
を実行することを特徴とする表データ検索方法。
(付記7)
前記判定する処理により類似していると判定された場合、検索された表データの各属性の表示態様を変化させる処理と、
を実行することを特徴とする付記6記載の表データ検索方法。
(付記8)
前記抽出する処理は、表データの各属性における値の分布形状、平均値、中央値、最大値、最小値、出現種類数、最大出現回数、最少出現回数、及び平均出現回数のうちの少なくとも1つを抽出する、
ことを特徴とする付記6または7記載の表データ検索方法。
(付記9)
表データの各属性のカテゴリを判定する処理を実行し、
前記類似するか否かを判定する処理は、前記カテゴリを判定する処理により判定されたカテゴリが一致する前記第1の表データの各属性、及び前記第2の表データの各属性について、類似するか否かを判定する、
ことを特徴とする付記6乃至8のいずれか一項に記載の表データ検索方法。
(付記10)
前記抽出する処理は、前記カテゴリを判定する処理によりカテゴリが判定できない属性について、カテゴリが判定できない場合の所定のルールに応じて、値の分布の特徴を抽出する、
ことを特徴とする付記9記載の表データ検索方法。
(付記11)
コンピュータに、
各表データの各属性における値の分布の特徴を抽出する処理と、
前記抽出する処理により抽出された特徴に基づいて、第1の表データの各属性と、前記第1の表データに基づいて検索された第2の表データの各属性とが類似するか否かを判定する処理と、
を実行させることを特徴とする表データ検索プログラム。
(付記12)
前記判定する処理により類似していると判定された場合、検索された表データの各属性の表示態様を変化させる処理と、
を実行させることを特徴とする付記6記載の表データ検索プログラム。
(付記13)
前記抽出する処理は、表データの各属性における値の分布形状、平均値、中央値、最大値、最小値、出現種類数、最大出現回数、最少出現回数、及び平均出現回数のうちの少なくとも1つを抽出する、
ことを特徴とする付記6または7記載の表データ検索プログラム。
(付記14)
表データの各属性のカテゴリを判定する処理を実行し、
前記類似するか否かを判定する処理は、前記カテゴリを判定する処理により判定されたカテゴリが一致する前記第1の表データの各属性、及び前記第2の表データの各属性について、類似するか否かを判定する、
ことを特徴とする付記6乃至8のいずれか一項に記載の表データ検索プログラム。
(付記15)
前記抽出する処理は、前記カテゴリを判定する処理によりカテゴリが判定できない属性について、カテゴリが判定できない場合の所定のルールに応じて、値の分布の特徴を抽出する、
ことを特徴とする付記9記載の表データ検索プログラム。
11 表データ記憶部
12 特徴抽出部(抽出部)
13 カテゴリ判定部
14 類似度判定部
15 表データ検索部
16 表示制御部
17 通信部
20 情報端末
Claims (6)
- 各表データの各属性における値の分布の特徴を抽出する抽出部と、
表データの各属性のカテゴリを判定するカテゴリ判定部と、
前記抽出部により抽出された特徴に基づいて、第1の表データの各属性と、前記第1の表データに基づいて検索された第2の表データの各属性とが類似するか否かを判定する類似度判定部と、
を備え、
前記類似度判定部は、前記カテゴリ判定部により判定されたカテゴリが一致する前記第1の表データの各属性、及び前記第2の表データの各属性について、類似するか否かを判定する、
ることを特徴とする表データ検索装置。 - 前記類似度判定部により類似していると判定された場合、検索された表データの各属性の表示態様を変化させる表示制御部を備える、
ことを特徴とする請求項1記載の表データ検索装置。 - 前記抽出部は、表データの各属性における値の分布形状、平均値、中央値、最大値、最小値、出現種類数、最大出現回数、最少出現回数、及び平均出現回数のうちの少なくとも1つを抽出する、
ことを特徴とする請求項1または2記載の表データ検索装置。 - 前記抽出部は、前記カテゴリ判定部によりカテゴリが判定できない属性について、カテゴリが判定できない場合の所定のルールに応じて、値の分布の特徴を抽出する、
ことを特徴とする請求項1から3のいずれか一項に記載の表データ検索装置。 - コンピュータが、
各表データの各属性における値の分布の特徴を抽出する処理と、
表データの各属性のカテゴリを判定する処理と、
前記抽出する処理により抽出された特徴に基づいて、第1の表データの各属性と、前記第1の表データに基づいて検索された第2の表データの各属性とが類似するか否かを、前記判定する処理より判定されたカテゴリが一致する前記第1の表データの各属性、及び前記第2の表データの各属性について判定する処理と、
を実行することを特徴とする表データ検索方法。 - コンピュータに、
各表データの各属性における値の分布の特徴を抽出する処理と、
表データの各属性のカテゴリを判定する処理と、
前記抽出する処理により抽出された特徴に基づいて、第1の表データの各属性と、前記第1の表データに基づいて検索された第2の表データの各属性とが類似するか否かを、前記判定する処理より判定されたカテゴリが一致する前記第1の表データの各属性、及び前記第2の表データの各属性について判定する処理と、
を実行させることを特徴とする表データ検索プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016121013A JP6677093B2 (ja) | 2016-06-17 | 2016-06-17 | 表データ検索装置、表データ検索方法、及び表データ検索プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016121013A JP6677093B2 (ja) | 2016-06-17 | 2016-06-17 | 表データ検索装置、表データ検索方法、及び表データ検索プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017224240A JP2017224240A (ja) | 2017-12-21 |
JP6677093B2 true JP6677093B2 (ja) | 2020-04-08 |
Family
ID=60687029
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016121013A Active JP6677093B2 (ja) | 2016-06-17 | 2016-06-17 | 表データ検索装置、表データ検索方法、及び表データ検索プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6677093B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110209663B (zh) * | 2018-02-14 | 2023-06-20 | 阿里巴巴集团控股有限公司 | 搜索范围确定的方法、装置和存储介质 |
CN110866042B (zh) * | 2019-10-11 | 2023-05-12 | 平安科技(深圳)有限公司 | 表格智能查询方法、装置及计算机可读存储介质 |
JP7350674B2 (ja) | 2020-02-26 | 2023-09-26 | 株式会社東芝 | 情報処理装置、情報処理方法、およびプログラム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003271656A (ja) * | 2002-03-19 | 2003-09-26 | Fujitsu Ltd | 関係付候補生成装置,関係付候補生成方法,関係付システム,関係付候補生成プログラムおよび同プログラムを記録したコンピュータ読取可能な記録媒体 |
JP2004086782A (ja) * | 2002-08-29 | 2004-03-18 | Hitachi Ltd | 異種データベース統合支援装置 |
-
2016
- 2016-06-17 JP JP2016121013A patent/JP6677093B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2017224240A (ja) | 2017-12-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109635296B (zh) | 新词挖掘方法、装置计算机设备和存储介质 | |
CA2748625C (en) | Entity representation identification based on a search query using field match templates | |
CN110377558B (zh) | 文档查询方法、装置、计算机设备和存储介质 | |
US8438183B2 (en) | Ascribing actionable attributes to data that describes a personal identity | |
JP6007784B2 (ja) | 文書分類装置及びプログラム | |
US20180181646A1 (en) | System and method for determining identity relationships among enterprise data entities | |
CN111767716A (zh) | 企业多级行业信息的确定方法、装置及计算机设备 | |
CN108280197B (zh) | 一种识别同源二进制文件的方法及系统 | |
US20160147867A1 (en) | Information matching apparatus, information matching method, and computer readable storage medium having stored information matching program | |
JP6677093B2 (ja) | 表データ検索装置、表データ検索方法、及び表データ検索プログラム | |
JPWO2012096388A1 (ja) | 意外性判定システム、意外性判定方法およびプログラム | |
US9552415B2 (en) | Category classification processing device and method | |
US9442901B2 (en) | Resembling character data search supporting method, resembling candidate extracting method, and resembling candidate extracting apparatus | |
JP5324677B2 (ja) | 類似文書検索支援装置及び類似文書検索支援プログラム | |
CN112395881B (zh) | 物料标签的构建方法、装置、可读存储介质及电子设备 | |
JP2013029891A (ja) | 抽出プログラム、抽出方法及び抽出装置 | |
JP6621514B1 (ja) | 要約作成装置、要約作成方法、及びプログラム | |
CN114610955A (zh) | 一种智能检索方法、装置、电子设备及存储介质 | |
KR101458857B1 (ko) | 특허 분석 시스템 및 방법과 이를 실행하기 위한 프로그램이 기록된 기록매체 | |
JP6677624B2 (ja) | 分析装置、分析方法、および分析プログラム | |
US20230046471A1 (en) | Machine learning enhanced classifier | |
US20220245325A1 (en) | Computer-readable recording medium storing design document management program, design document management method, and information processing apparatus | |
JP2019028788A (ja) | 機密語特定装置、機密語特定方法及び機密語特定プログラム | |
JP2011100332A (ja) | 姓名による属性解析方法、プログラム及びシステム | |
KR20110021019A (ko) | 검색식 추천 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190311 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20191210 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200127 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200212 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200225 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6677093 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |