JP2017123062A - 関係情報生成方法、装置、及びプログラム - Google Patents
関係情報生成方法、装置、及びプログラム Download PDFInfo
- Publication number
- JP2017123062A JP2017123062A JP2016001859A JP2016001859A JP2017123062A JP 2017123062 A JP2017123062 A JP 2017123062A JP 2016001859 A JP2016001859 A JP 2016001859A JP 2016001859 A JP2016001859 A JP 2016001859A JP 2017123062 A JP2017123062 A JP 2017123062A
- Authority
- JP
- Japan
- Prior art keywords
- item
- character string
- database
- items
- partial character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
H(f(m)|m)=−Σf(m),mP(f(m),m)logP(f(m)|m)
・・・(3)
コンピュータに、
複数の項目の各々に文字列が対応付けられた複数のレコードを含む第1のデータベースに含まれるレコードから部分文字列を抽出し、
前記第1のデータベースについての前記複数の項目のうち、前記第1のデータベースから抽出された部分文字列に対応する項目を特定し、
複数の項目の各々に文字列が対応付けられた複数のレコードを含む第2のデータベースにおいて、前記第1のデータベースから抽出された部分文字列と一致する部分文字列に対応する項目の出現数を、前記第1のデータベースから抽出された部分文字列に対応する項目と対応付けて算出し、
算出した前記出現数に基づいて、前記第1のデータベースに含まれる項目と、前記第2のデータベースに含まれる項目との対応関係に関する情報を生成する
ことを含む処理を実行させる関係情報生成方法。
前記第1のデータベースに含まれるレコードから部分文字列を抽出する際に、前記複数の項目の各々に対応付けられた文字列を連結した連結文字列から前記部分文字列を抽出する付記1記載の関係情報生成方法。
前記連結文字列から前記部分文字列を抽出する際に、抽出される部分文字列に対応する項目が、複数の項目に跨るように抽出する付記2記載の関係情報生成方法。
前記第1のデータベースに含まれる複数の項目の全体をM個の分割項目に分割した場合のm番目の分割項目と、前記第2のデータベースに含まれる複数の項目全体をN個の分割項目に分割した場合のn番目の分割項目とが対応関係にあることの信頼度を、n番目の分割項目に含まれる前記第2のデータベースの項目であって、かつm番目の分割項目に含まれる前記第1のデータベースの項目に対応付けられた項目の前記出現数に基づいて算出し、算出した信頼度が最も高くなる前記m番目の分割項目と前記n番目の分割項目との組み合わせを、前記対応関係に関する情報として生成する付記1〜付記3のいずれか1項記載の関係情報生成方法。
複数の項目の各々に文字列が対応付けられた複数のレコードを含む第1のデータベースに含まれるレコードから部分文字列抽出する抽出部と、
前記第1のデータベースについての前記複数の項目のうち、前記第1のデータベースから抽出された部分文字列に対応する項目を特定する特定部と、
複数の項目の各々に文字列が対応付けられた複数のレコードを含む第2のデータベースにおいて、前記第1のデータベースから抽出された部分文字列と一致する部分文字列に対応する項目の出現数を、前記第1のデータベースから抽出された部分文字列に対応する項目と対応付けて算出する算出部と、
算出した前記出現数に基づいて、前記第1のデータベースに含まれる項目と、前記第2のデータベースに含まれる項目との対応関係に関する情報を生成する生成部と、
を含む関係情報生成装置。
前記抽出部は、前記第1のデータベースに含まれるレコードから部分文字列を抽出する際に、前記複数の項目の各々に対応付けられた文字列を連結した連結文字列から前記部分文字列を抽出する付記5記載の関係情報生成装置。
前記抽出部は、前記連結文字列から前記部分文字列を抽出する際に、抽出される部分文字列に対応する項目が、複数の項目に跨るように抽出する付記6記載の関係情報生成装置。
前記生成部は、前記第1のデータベースに含まれる複数の項目の全体をM個の分割項目に分割した場合のm番目の分割項目と、前記第2のデータベースに含まれる複数の項目全体をN個の分割項目に分割した場合のn番目の分割項目とが対応関係にあることの信頼度を、n番目の分割項目に含まれる前記第2のデータベースの項目であって、かつm番目の分割項目に含まれる前記第1のデータベースの項目に対応付けられた項目の前記出現数に基づいて算出し、算出した信頼度が最も高くなる前記m番目の分割項目と前記n番目の分割項目との組み合わせを、前記対応関係に関する情報として生成する付記5〜付記7のいずれか1項記載の関係情報生成装置。
コンピュータに、
複数の項目の各々に文字列が対応付けられた複数のレコードを含む第1のデータベースに含まれるレコードから部分文字列抽出し、
前記第1のデータベースについての前記複数の項目のうち、前記第1のデータベースから抽出された部分文字列に対応する項目を特定し、
複数の項目の各々に文字列が対応付けられた複数のレコードを含む第2のデータベースにおいて、前記第1のデータベースから抽出された部分文字列と一致する部分文字列に対応する項目の出現数を、前記第1のデータベースから抽出された部分文字列に対応する項目と対応付けて算出し、
算出した前記出現数に基づいて、前記第1のデータベースに含まれる項目と、前記第2のデータベースに含まれる項目との対応関係に関する情報を生成する
ことを含む処理を実行させる関係情報生成プログラム。
前記第1のデータベースに含まれるレコードから部分文字列を抽出する際に、前記複数の項目の各々に対応付けられた文字列を連結した連結文字列から前記部分文字列を抽出する付記9記載の関係情報生成プログラム。
前記連結文字列から前記部分文字列を抽出する際に、抽出される部分文字列に対応する項目が、複数の項目に跨るように抽出する付記10記載の関係情報生成プログラム。
前記第1のデータベースに含まれる複数の項目の全体をM個の分割項目に分割した場合のm番目の分割項目と、前記第2のデータベースに含まれる複数の項目全体をN個の分割項目に分割した場合のn番目の分割項目とが対応関係にあることの信頼度を、n番目の分割項目に含まれる前記第2のデータベースの項目であって、かつm番目の分割項目に含まれる前記第1のデータベースの項目に対応付けられた項目の前記出現数に基づいて算出し、算出した信頼度が最も高くなる前記m番目の分割項目と前記n番目の分割項目との組み合わせを、前記対応関係に関する情報として生成する付記9〜付記11のいずれか1項記載の関係情報生成プログラム。
コンピュータに、
複数の項目の各々に文字列が対応付けられた複数のレコードを含む第1のデータベースに含まれるレコードから部分文字列を抽出し、
前記第1のデータベースについての前記複数の項目のうち、前記第1のデータベースから抽出された部分文字列に対応する項目を特定し、
複数の項目の各々に文字列が対応付けられた複数のレコードを含む第2のデータベースにおいて、前記第1のデータベースから抽出された部分文字列と一致する部分文字列に対応する項目の出現数を、前記第1のデータベースから抽出された部分文字列に対応する項目と対応付けて算出し、
算出した前記出現数に基づいて、前記第1のデータベースに含まれる項目と、前記第2のデータベースに含まれる項目との対応関係に関する情報を生成する
ことを含む処理を実行させる関係情報生成プログラムを記憶した記憶媒体。
11 文字列抽出部
12 パターン生成部
13 パターン照合部
14 対応関係抽出部
20 共通辞書データベース
25 名寄せ先表
30 名寄せ元データベース
31A、31B、31C 名寄せ元表
41 連結文字列
42 部分文字列
45 部分文字列
50 コンピュータ
51 CPU
52 メモリ
53 記憶部
59 記録媒体
60 関係情報生成プログラム
Claims (6)
- コンピュータに、
複数の項目の各々に文字列が対応付けられた複数のレコードを含む第1のデータベースに含まれるレコードから部分文字列を抽出し、
前記第1のデータベースについての前記複数の項目のうち、前記第1のデータベースから抽出された部分文字列に対応する項目を特定し、
複数の項目の各々に文字列が対応付けられた複数のレコードを含む第2のデータベースにおいて、前記第1のデータベースから抽出された部分文字列と一致する部分文字列に対応する項目の出現数を、前記第1のデータベースから抽出された部分文字列に対応する項目と対応付けて算出し、
算出した前記出現数に基づいて、前記第1のデータベースに含まれる項目と、前記第2のデータベースに含まれる項目との対応関係に関する情報を生成する
ことを含む処理を実行させる関係情報生成方法。 - 前記第1のデータベースに含まれるレコードから部分文字列を抽出する際に、前記複数の項目の各々に対応付けられた文字列を連結した連結文字列から前記部分文字列を抽出する請求項1記載の関係情報生成方法。
- 前記連結文字列から前記部分文字列を抽出する際に、抽出される部分文字列に対応する項目が、複数の項目に跨るように抽出する請求項2記載の関係情報生成方法。
- 前記第1のデータベースに含まれる複数の項目の全体をM個の分割項目に分割した場合のm番目の分割項目と、前記第2のデータベースに含まれる複数の項目全体をN個の分割項目に分割した場合のn番目の分割項目とが対応関係にあることの信頼度を、n番目の分割項目に含まれる前記第2のデータベースの項目であって、かつm番目の分割項目に含まれる前記第1のデータベースの項目に対応付けられた項目の前記出現数に基づいて算出し、算出した信頼度が最も高くなる前記m番目の分割項目と前記n番目の分割項目との組み合わせを、前記対応関係に関する情報として生成する請求項1〜請求項3のいずれか1項記載の関係情報生成方法。
- 複数の項目の各々に文字列が対応付けられた複数のレコードを含む第1のデータベースに含まれるレコードから部分文字列を抽出する抽出部と、
前記第1のデータベースについての前記複数の項目のうち、前記第1のデータベースから抽出された部分文字列に対応する項目を特定する特定部と、
複数の項目の各々に文字列が対応付けられた複数のレコードを含む第2のデータベースにおいて、前記第1のデータベースから抽出された部分文字列と一致する部分文字列に対応する項目の出現数を、前記第1のデータベースから抽出された部分文字列に対応する項目と対応付けて算出する算出部と、
算出した前記出現数に基づいて、前記第1のデータベースに含まれる項目と、前記第2のデータベースに含まれる項目との対応関係に関する情報を生成する生成部と、
を含む関係情報生成装置。 - コンピュータに、
複数の項目の各々に文字列が対応付けられた複数のレコードを含む第1のデータベースに含まれるレコードから部分文字列を抽出し、
前記第1のデータベースについての前記複数の項目のうち、前記第1のデータベースから抽出された部分文字列に対応する項目を特定し、
複数の項目の各々に文字列が対応付けられた複数のレコードを含む第2のデータベースにおいて、前記第1のデータベースから抽出された部分文字列と一致する部分文字列に対応する項目の出現数を、前記第1のデータベースから抽出された部分文字列に対応する項目と対応付けて算出し、
算出した前記出現数に基づいて、前記第1のデータベースに含まれる項目と、前記第2のデータベースに含まれる項目との対応関係に関する情報を生成する
ことを含む処理を実行させる関係情報生成プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016001859A JP6604207B2 (ja) | 2016-01-07 | 2016-01-07 | 関係情報生成方法、装置、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016001859A JP6604207B2 (ja) | 2016-01-07 | 2016-01-07 | 関係情報生成方法、装置、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017123062A true JP2017123062A (ja) | 2017-07-13 |
JP6604207B2 JP6604207B2 (ja) | 2019-11-13 |
Family
ID=59306554
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016001859A Active JP6604207B2 (ja) | 2016-01-07 | 2016-01-07 | 関係情報生成方法、装置、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6604207B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019159837A (ja) * | 2018-03-13 | 2019-09-19 | 日本電気株式会社 | データベース結合装置、データベース結合方法及びデータベース結合プログラム |
WO2022259303A1 (ja) * | 2021-06-07 | 2022-12-15 | 日本電信電話株式会社 | 名称データ対応付け装置、名称データ対応付け方法及び名称データ対応付けプログラム |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005011049A (ja) * | 2003-06-19 | 2005-01-13 | Nec Soft Ltd | データベース統合装置 |
WO2007083371A1 (ja) * | 2006-01-18 | 2007-07-26 | Fujitsu Limited | データ統合装置、方法、プログラムを記録した記録媒体 |
-
2016
- 2016-01-07 JP JP2016001859A patent/JP6604207B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005011049A (ja) * | 2003-06-19 | 2005-01-13 | Nec Soft Ltd | データベース統合装置 |
WO2007083371A1 (ja) * | 2006-01-18 | 2007-07-26 | Fujitsu Limited | データ統合装置、方法、プログラムを記録した記録媒体 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019159837A (ja) * | 2018-03-13 | 2019-09-19 | 日本電気株式会社 | データベース結合装置、データベース結合方法及びデータベース結合プログラム |
WO2022259303A1 (ja) * | 2021-06-07 | 2022-12-15 | 日本電信電話株式会社 | 名称データ対応付け装置、名称データ対応付け方法及び名称データ対応付けプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP6604207B2 (ja) | 2019-11-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7979268B2 (en) | String matching method and system and computer-readable recording medium storing the string matching method | |
US7305404B2 (en) | Data structure and management system for a superset of relational databases | |
JP4848317B2 (ja) | データベースのインデックス作成システム、方法及びプログラム | |
WO2015045155A1 (ja) | コーパス生成装置、コーパス生成方法、及びコーパス生成プログラム | |
WO2007139039A1 (ja) | 情報分類装置、情報分類方法、及び情報分類プログラム | |
JPWO2008032780A1 (ja) | 検索方法、類似度計算方法、類似度計算及び同一文書照合システムと、そのプログラム | |
US11520835B2 (en) | Learning system, learning method, and program | |
JP6604207B2 (ja) | 関係情報生成方法、装置、及びプログラム | |
JP3812818B2 (ja) | データベース生成装置、データベース生成方法及びデータベース生成処理プログラム | |
JP5152918B2 (ja) | 固有表現抽出装置、その方法およびプログラム | |
JP2008027431A (ja) | 情報解析装置、情報解析方法、及び情報解析プログラム | |
JP5894273B2 (ja) | 文書関連付け方法および文書検索方法、文書関連付け装置および文書検索装置、並びにそのためのプログラム | |
JP2016018279A (ja) | 文書ファイル検索プログラム、文書ファイル検索装置、文書ファイル検索方法、文書情報出力プログラム、文書情報出力装置及び文書情報出力方法 | |
CN107145947A (zh) | 一种信息处理方法、装置及电子设备 | |
JP7157245B2 (ja) | ファイル管理装置、ファイル管理方法、及びプログラム | |
US20090319505A1 (en) | Techniques for extracting authorship dates of documents | |
JP4272690B1 (ja) | 個人情報ファイル判定システム | |
JP2017033434A (ja) | 候補語評価装置、候補語評価システム、プログラム及び候補語評価方法 | |
JP4915499B2 (ja) | 同義語辞書生成システム、同義語辞書生成方法および同義語辞書生成プログラム | |
JP4844737B2 (ja) | 代表情報選択方法、代表情報選択システム及びプログラム | |
JP6361472B2 (ja) | 対応情報生成プログラム、対応情報生成装置及び対応情報生成方法 | |
US11868726B2 (en) | Named-entity extraction apparatus, method, and non-transitory computer readable storage medium | |
JP2018181121A (ja) | 分析装置、分析プログラム及び分析方法 | |
CN112949287B (zh) | 热词挖掘方法、系统、计算机设备和存储介质 | |
JP6664306B2 (ja) | 類似文書抽出装置、類似文書抽出方法及び類似文書抽出プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180912 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190910 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190917 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190930 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6604207 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |