JP2007058885A - データベース利用システム及びデータベース利用プログラム - Google Patents

データベース利用システム及びデータベース利用プログラム Download PDF

Info

Publication number
JP2007058885A
JP2007058885A JP2006318651A JP2006318651A JP2007058885A JP 2007058885 A JP2007058885 A JP 2007058885A JP 2006318651 A JP2006318651 A JP 2006318651A JP 2006318651 A JP2006318651 A JP 2006318651A JP 2007058885 A JP2007058885 A JP 2007058885A
Authority
JP
Japan
Prior art keywords
database
data
reliability
point
record
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006318651A
Other languages
English (en)
Other versions
JP4183725B2 (ja
Inventor
Kenji Ogawa
賢司 小川
Takeshi Matsuda
武 松田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nomura Research Institute Ltd
Original Assignee
Nomura Research Institute Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nomura Research Institute Ltd filed Critical Nomura Research Institute Ltd
Priority to JP2006318651A priority Critical patent/JP4183725B2/ja
Publication of JP2007058885A publication Critical patent/JP2007058885A/ja
Application granted granted Critical
Publication of JP4183725B2 publication Critical patent/JP4183725B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 複数のデータベース間で機械的に同期を取ることなく、利用者に対して最も信頼性の高いデータの組合せを提示することを可能とする技術の実現。
【解決手段】 少なくとも一部に重複するデータを備えた複数のデータベースα、β、γと、各データベース内に設定された特定のデータ項目に関するそれぞれの信頼度ポイントをレコード毎に登録しておく信頼度判定DB30と、検索条件が入力された場合に信頼度判定DB30を参照し、必要なレコードのデータ項目に関し信頼度ポイントが1位のデータベースから検索条件に合致するデータを抽出するデータ処理部24と、ユーザから抽出されたデータに対し訂正候補データを明示した訂正要求が入力された場合に、信頼度判定DB30のポイントを調整する信頼度更新部26を備えたデータベース利用システム10。
【選択図】 図1

Description

この発明はデータベース利用システム及びデータベース利用プログラムに係り、特に、相互に矛盾・相違するデータが登録された複数のデータベースから、最も信頼性の高いデータの組合せを抽出する技術に関する。
企業内においては、各部署毎に同種のデータベースが独自に設けられ、別々に管理されている場合がある。例えば、人事部門と総務部門とがそれぞれ社員データベースを構築したり、営業部門と経理部門で別個の顧客データベースを構築することが行われている。
このような場合、出発点では共通のデータソースが用いられたとしても、それぞれの部署において必要に応じてデータ項目の追加やデータの更新処理、レコードの削除及び追加が実行されるため、同種のデータベースとはいえ時間の経過とともに相互に矛盾や相違が生じてくる。
このように同種のデータベース間で矛盾や相違が生じたまま運用を続けると、せっかく最新のデータが別のデータベースに格納されているにもかかわらず、古いデータを利用してしまう事態が生じる。
これに対処するための一つの方策として、特許文献1に示すように、複数のデータベース間で定期的に同期を取り、それぞれのデータを最新の状態に書き換えることが挙げられる。
特開2002−157158号公報
しかしながら、各部署毎にデータ更新のタイミングや精度についてバラツキがある状況化において、独自の判断と責任において管理しているデータベースを他の部署からの入力データに基づいて機械的に同期させられることに対しては現場レベルで強い抵抗感があり、また実際に、他の部署において誤ったデータや古いデータが登録された場合に他の全てのデータベースに反映されてしまう危険性がある。
この発明は、従来技術の上記問題点を解決するためになされたものであり、複数のデータベース間で機械的に同期を取ることなく、利用者に対して最も信頼性の高いデータの組合せを提示することを可能とする技術の実現を目的としている。
上記の目的を達成するため、請求項1に記載したデータベース利用システムは、少なくとも一部に重複するデータを備えた複数のデータベースと、各データベース内に設定された特定のデータ項目に関するそれぞれの信頼度ポイントを、レコード毎に登録しておく信頼度判定記憶手段と、検索条件が入力された場合に、上記信頼度判定記憶手段を参照し、該当レコードの対応データ項目に関し信頼度ポイントが1位のデータベースから検索条件に合致するデータを抽出する手段と、抽出されたデータに対し訂正候補データを明示した訂正要求が入力された場合に、訂正要求に係るレコードの該当データ項目に関する各データベースの信頼度ポイントを更新する手段とを備えたことを特徴としている。
信頼度ポイントが1位のデータベースが複数存在する場合には、何れかの基準によってデータを抽出する一つのデータベースが特定される。例えば、各データベースにおける該当項目のデータ更新履歴情報をチェックし、最も新しく更新されたデータベースを優先することが該当する。あるいは、各データベースにおける該当項目のポイント増減履歴情報をチェックし、信頼度ポイントが低下した結果現在のポイントになったデータベースよりも、信頼度ポイントが上昇した結果現在のポイントになったデータベースを優先することもできる。
請求項2に記載したデータベース利用システムは、少なくとも一部に重複するデータを備えた複数のデータベースと、各データベース内に設定された特定のデータ項目に関するそれぞれの信頼度ポイントを、レコード毎に登録しておく信頼度判定記憶手段と、検索条件が入力された場合に、上記信頼度判定記憶手段を参照し、該当レコードの対応データ項目に関し信頼度ポイントが1位のデータベースから検索条件に合致するデータを抽出する手段と、抽出されたデータに対し訂正候補データを明示した訂正要求が入力された場合に、訂正要求に係るレコードの該当データ項目に関する各データベースの信頼度ポイントを取得する手段と、信頼度ポイントが1位のデータベースを除き、各データベースにおける該当レコードの対応データ項目に登録されたデータを抽出する手段と、各データと上記訂正候補データとを比較し、訂正候補データに合致するデータが登録されたデータベースを特定する手段と、特定された各データベースにおける該当レコードの対応データ項目に係る信頼度ポイントを、更新判定ポイントとしてカウントする手段と、信頼度ポイントが1位のデータベースにおける信頼度ポイントと上記更新判定ポイントの合計値とを比較し、前者に対し後者が所定の条件を満たしている場合には、訂正候補データと合致するデータが登録されたデータベースの少なくとも一つにおける信頼度ポイントが、上記1位のデータベースにおける信頼度ポイントを上回るように、訂正候補データと合致するデータが登録されたデータベースにおける該当レコードの対応データ項目に対する必要ポイントの加算処理と、上記1位のデータベースにおける該当レコードの対応データ項目に対する必要ポイントの減算処理を実行するポイントの調整手段とを備えたことを特徴としている。
「前者に対し後者が所定の条件を満たしている場合」の典型例としては、信頼度ポイントが1位のデータベースの信頼度ポイントよりも更新判定ポイントの合計値が大きい場合が該当するが、この発明はこれに限定されるものではない。例えば、1位のデータベースの信頼度ポイントに対して更新判定ポイントの合計値が2倍以上となった場合にのみ信頼度ポイントの調整を許容するというように、より厳格にシステムを運用することもできる。
請求項3に記載したデータベース利用システムは、請求項1または2のシステムを前提とし、さらに基本語と同義語との対応関係を定義しておく同義語記憶手段と、この同義語記憶手段を参照し、抽出したデータが同義語に該当する場合には当該データを対応の基本語に変換する手段とを備えたことを特徴としている。
請求項4に記載したデータベース利用システムは、請求項2または3のシステムを前提とし、さらに複数のキーワード間における同義語としての対応関係を登録しておく同義語記憶手段と、この同義語記憶手段を参照し、上記訂正候補データと各データベースに登録されたデータとが同義語の関係に該当する場合には、両データが合致するものと判定する手段とを備えたことを特徴としている。
請求項5に記載したデータベース利用プログラムは、コンピュータを、少なくとも一部に重複するデータを備えた複数のデータベース内に設定された特定のデータ項目に関するそれぞれの信頼度ポイントを、レコード毎に登録しておく信頼度判定記憶手段、検索条件が入力された場合に、上記信頼度判定記憶手段を参照し、該当レコードの対応データ項目に関し信頼度ポイントが1位のデータベースから検索条件に合致するデータを抽出する手段、抽出されたデータに対し訂正候補データを明示した訂正要求が入力された場合に、訂正要求に係るレコードの該当データ項目に関する各データベースの信頼度ポイントを更新する手段として機能させることを特徴としている。
請求項6に記載したデータベース利用プログラムは、コンピュータを、少なくとも一部に重複するデータを備えた複数のデータベース内に設定された特定のデータ項目に関するそれぞれの信頼度ポイントを、レコード毎に登録しておく信頼度判定記憶手段、検索条件が入力された場合に、上記信頼度判定記憶手段を参照し、該当レコードの対応データ項目に関し信頼度ポイントが1位のデータベースから検索条件に合致するデータを抽出する手段、抽出されたデータに対し訂正候補データを明示した訂正要求が入力された場合に、訂正要求に係るレコードの該当データ項目に関する各データベースの信頼度ポイントを取得する手段、信頼度ポイントが1位のデータベースを除き、各データベースにおける該当レコードの対応データ項目に登録されたデータを抽出する手段、各データと上記訂正候補データとを比較し、訂正候補データに合致するデータが登録されたデータベースを特定する手段、特定された各データベースにおける該当レコードの対応データ項目に係る信頼度ポイントを、更新判定ポイントとしてカウントする手段、信頼度ポイントが1位のデータベースにおける信頼度ポイントと上記更新判定ポイントの合計値とを比較し、前者に対し後者が所定の条件を満たしている場合には、訂正候補データと合致するデータが登録されたデータベースの少なくとも一つにおける信頼度ポイントが、上記1位のデータベースにおける信頼度ポイントを上回るように、訂正候補データと合致するデータが登録されたデータベースにおける該当レコードの対応データ項目に対する必要ポイントの加算処理と、上記1位のデータベースにおける該当レコードの対応データ項目に対する必要ポイントの減算処理を実行するポイントの調整手段として機能させることを特徴としている。
請求項7に記載したデータベース利用プログラムは、請求項5または6のプログラムを前提とし、さらにコンピュータを、基本語と同義語との対応関係を定義しておく同義語記憶手段、この同義語記憶手段を参照し、抽出したデータが同義語に該当する場合には当該データを対応の基本語に変換する手段として機能させることを特徴としている。
請求項8に記載したデータベース利用プログラムは、請求項6または7のプログラムを前提とし、さらにコンピュータを、複数のキーワード間における同義語としての対応関係を登録しておく同義語記憶手段、この同義語記憶手段を参照し、上記訂正候補データと各データベースに登録されたデータとが同義語の関係に該当する場合には、両データが合致するものと判定する手段として機能させることを特徴としている。
請求項1に記載のデータベース利用システム及び請求項5に記載のデータベース利用プログラムにあっては、レコード別、データ項目別に各データベースの信頼性を示す信頼度ポイントを設定した信頼度判定記憶手段が各データベースとは別個に設けられており、検索条件が入力される度に信頼度ポイントの最も大きなデータベースから必要なデータを抽出する方式であるため、各データベースの登録内容に変更を加えることなく、現時点で最も信頼性の高いデータの組合せを検索結果として返すことが可能となる。
また、検索結果に対するユーザからの具体的な訂正要求を契機として各データベースにおける該当レコードの対応データ項目の信頼度ポイントを更新する機能を備えているため、検索結果の信頼性を維持することが可能となる。
請求項2に記載のデータベース利用システム及び請求項6に記載のデータベース利用プログラムにあっては、レコード別、データ項目別に各データベースの信頼性を示す信頼度ポイントを設定した信頼度判定記憶手段が各データベースとは別個に設けられており、検索条件が入力される度に信頼度ポイントの最も大きなデータベースから必要なデータを抽出する方式であるため、各データベースの登録内容に変更を加えることなく、現時点で最も信頼性の高いデータの組合せを検索結果として返すことが可能となる。
また、検索結果に対するユーザからの具体的な訂正要求を契機として各データベースにおける該当レコードの対応データ項目の信頼度ポイントを調整することにより、信頼度ポイント1位のデータベースを入れ替えることができ、検索結果の信頼性を向上させることが可能となる。
請求項3に記載のデータベース利用システム及び請求項7に記載のデータベース利用プログラムによれば、各データベースに基本語ではなく同義語が登録されている場合であっても、抽出データが自動的に基本語に変換されるため、各データベース間における表記のバラツキを解消することが可能となる。
請求項4に記載のデータベース利用システム及び請求項8に記載のデータベース利用プログラムによれば、データの表記法に関し各データベース間で多少のバラツキが存在しても、それが同義語の範囲内に収まる限りは信頼度ポイントの更新や調整の可否決定に影響を及ぼすことがなくなり、より実質的な判断が担保される。
図1は、この発明に係るデータベース利用システム10の基本構成を示す概念図であり、データベース管理サーバ12と、クライアント端末14と、複数のデータベース16とを備えている。
各データベース16は、それぞれ異なるコンピュータ18のハードディスク内に設けられており、インターネットやイントラネット等の通信ネットワーク20を介して管理サーバ12と接続されている。ここでは、各データベース16として、社員の属性データを登録した社員データベースα、β、γが例示されている。
また、クライアント端末14と管理サーバ12間も、インターネットやイントラネット等の通信ネットワーク22を介して接続されている。
管理サーバ12は、データ処理部24と、信頼度更新部26と、同義語登録部28と、信頼度判定データベース30と、同義語データベース32と、同義語候補データベース34とを備えている。
これらの中、データ処理部24、信頼度更新部26、及び同義語登録部28は、管理サーバ12のCPUが専用のアプリケーションプログラムに従って必要な処理を実行することによって実現される。
また、信頼度判定データベース30、同義語データベース32、及び同義語候補データベース34は、管理サーバ12のハードディスク内に格納されている。
以下、図2のデータ項目図及び図3のフローチャートに基づき、このシステム10における検索の処理手順を説明する。
図2に示すように、社員データベースα〜γには、それぞれ全社員の社員No.、氏名、部、役職のデータ項目が設定されている。ただし、格納されたデータの一部には、相互に矛盾が存在している。
また、信頼度判定データベース30には、各データ項目に対する社員データベースα〜γ毎の信頼度を示すポイント(数値)が設定されている。
ここでは、この数値が大きいほど当該データ項目に関する信頼度が高いことを意味している。
例えば、社員No.1の社員に関する「部」の信頼度は社員データベースγが「ポイント30」で最も高く、「役職」については社員データベースαが「ポイント30」で最も高いことを示している。
各項目のポイントは、予めシステム運用者によって初期値が設定された後、システムの運用を通じてポイントの加算及び減算処理が適時実行され、最適化が図られる(詳細は後述)。
まずユーザは、クライアント端末14のWebブラウザ上に表示された検索条件入力ページにおいて検索条件を指定した後、「検索」ボタンをクリックすることにより、管理サーバ12に対し必要な社員データの抽出を要求する(S10)。
ここでは、説明を単純化するため、ユーザが社員No.1〜3を検索条件として指定したものと想定する。
クライアント端末14からの検索要求を受信した管理サーバ12のデータ処理部24は、信頼度判定データベース30内に設定された上記の信頼度ポイントを参照し(S12)、最も信頼性の高いデータを各社員データベースα、β、γから個別に抽出する(S14)。また、同義語データベース32を参照し(S16)、各データの表記のバラツキを調整することにより(S18)、現時点で最適の社員リストを生成し(S20)、メモリ上に一時的に蓄積する。
つぎにデータ処理部24は、上記の最適化社員リストからユーザが指定した社員No.1〜3の社員の属性データのみを抽出し(S22)、クライアント端末14に検索結果リストとして送信する(S24)。
この結果、クライアント端末14のWebブラウザ上に、検索結果リスト40が表示される(S26)。
例えば、社員No.1の社員の場合、氏名はポイント30で最も信頼度の高い社員データベースβから「沢田 卓也」の文字列が抽出され、検索結果リスト40中に表示されている。また、部はポイント30で最も信頼度の高い社員データベースγから「知的財産部」の文字列が抽出されると共に、役職はポイント30で最も信頼度の高い社員データベースαから「総合職」の文字列が抽出され、それぞれ検索結果リスト40中に表示されている。
また、社員No.2の社員の場合、氏名はα(ポイント30)、部及び役職はβ(それぞれポイント35及び30)の各社員データベースからデータが抽出され、検索結果リスト40中に表示されている。
また、社員No.3の社員の場合、氏名はβ(ポイント30)、部はγ(ポイント30)、役職はα(ポイント30)の社員データベースからデータが抽出され、検索結果リスト40中に表示されている。
信頼度ポイントが1位のデータベースが複数存在した場合には、何れかの基準によって一つのデータベースを特定し、当該データベースの該当項目からデータを抽出する必要がある。
例えば、各データベースにおける該当項目のデータ更新履歴情報をチェックし、最も新しく更新されたデータベースを優先することが該当する。
あるいは、各データベースにおける該当項目のポイント増減履歴情報をチェックし、信頼度ポイントが低下した結果現在のポイントになったデータベースよりも、信頼度ポイントが上昇した結果現在のポイントになったデータベースを優先することもできる。
上記にあっては、クライアント端末14からの検索要求を受信したデータ処理部24が、まず信頼度判定データベース30を参照し、社員データベースα、β、γの中から最も信頼性の高いデータを抽出して最適の社員リストを生成した上で検索条件に合致するデータを抽出する例を説明したが、この発明はこれに限定されるものではない。
例えば、データ処理部24が社員データベースα、β、γからそれぞれ検索条件に合致するデータを抽出した後、信頼度判定データベース30を参照して各データ項目毎に最も信頼性の高いデータベースのデータを選別し、これらの組合せを検索結果リストとしてクライアント端末14に送信するように運用することもできる。
また、上記においては説明を簡単にするため社員データベースα〜γが同じデータ項目を備えていることを前提にしたが、この発明はこれに限定されるものではなく、データ項目の少なくとも一部が相互に重複していれば適用可能である。
上記の例でいえば、社員データベースαが他のデータベースには設けられていない「資格」というデータ項目を備えていたとしても、氏名、部、役職のデータ項目についてはα〜γの社員データベース間で信頼度ポイントの比較が可能となる。
各データベースのレコードが完全に一致している必要もなく、一部に欠落が存在してもこの発明は適用可能である。
例えば、社員データベースβにおいて社員No.2に関するレコードが削除されていた場合、データ処理部24は社員データベースα及びγ間で信頼度ポイントを比較し、ポイントが大きい方のデータを抽出する。
あるいは、レコードの存否に関する信頼度ポイントを信頼度判定データベース30に登録しておき、最も信頼性の高いデータベースにおいてレコードの削除あるいは追加が生じた場合、他のデータベースに当該レコードの削除や追加が存在しない場合でも、データ処理部24は検索結果リスト40に当該レコードの削除や追加を反映させることもできる。
ところで、社員No.3の部について社員データベースγには「システム部」と登録されているにもかかわらず、検索結果リスト40中には「情報システム部」と表示されている。
これは、データ処理部24が同義語データベース32を参照することによってシステム部の正式名称である「情報システム部」を取得し、これを検索結果リスト40に反映させた結果である。
すなわち、同義語データベース32には、図2に示すように、各部署の正式名称である基本語と、その略称や通称である同義語との対応関係が定義されている。
このため、社員データベースγにおいて「システム部」が登録されていても、データ処理部24は同義語データベース32を参照することにより、その正式名称である「情報システム部」を検索結果リスト40に反映させることができ、データ表記の統一が実現できる。
上記信頼度判定データベース30の信頼度ポイントは、上記の通り最初はシステム運用者によって人為的に設定される。
例えば、「氏名」については旧漢字と新漢字の違いや、婚姻に基づく変更が想定されるが、これらについては総務部が管理している社員データベースが最も信頼性が高いという経験則に基づき、全社員の「氏名」項目については予め他のデータベースに比べて大きな信頼度ポイントが付与される。
また、部や役職については人事部の社員データベースが最も頻繁に更新されているということであれば、全社員の該当項目については他のデータベースに比べて大きな信頼度ポイントが設定される。
以上のようにして各データベースにおける信頼度ポイントの初期値が設定された後は、各ユーザから寄せられた訂正要求を処理する過程を通じてポイントの加減操作が実行され、自動的に信頼度の調整がなされる。
以下、図4及び図5のフローチャートに従い、この場合の処理手順について説明する。
例えば、図2の検索結果リスト40中に列記された社員No.2の部が「営業部」となっているのは間違いであり、正しくは「ISD」の筈であるとの確信を得たユーザは、クライアント端末14から管理サーバ12に対し訂正候補である「ISD」を明示したデータの訂正要求を送信する(S30)。
これを受けた管理サーバ12の信頼度更新部26は、信頼度判定データベース30を参照し、図6に示すように、社員No.2の「部」に関する社員データベースα〜γの信頼度ポイントを取得する(S32)。
ここでは、社員データベースβの信頼度ポイントが35で最も大きく、したがって検索結果リスト40には同データベースβに登録された「営業部」が採用されたことを示している。
つぎに信頼度更新部26は、データ処理部24を通じて2番目に信頼度ポイントが大きな社員データベースαの「部」を取得すると共に(S34)、同義語データベース32を参照することにより(S36)、αのデータがユーザが訂正を要求している「ISD」に合致するか否かを判定する(S38)。
まず、社員データベースαにおいて社員No.2の部には「情報システム部」が登録されている。
そして、同義語データベース32の登録内容に照らせば、「情報システム部」と「ISD」は同義語の関係に該当することが判明するため、信頼度更新部26は社員データベースαの信頼度ポイント30を更新判定ポイントとしてカウントする(S40)。
つぎに信頼度更新部26は、データ処理部24を通じて3番目に信頼度ポイントが大きな社員データベースγの「部」を取得すると共に(S42)、同義語データベース32を参照することにより(S44)、γのデータがユーザが訂正を要求している「ISD」に合致するか否かを判定する(S46)。
まず、社員データベースγにおいて社員No.2の部には「システム部」が登録されている。
そして、同義語データベース32の登録内容に照らせば、「ISD」と「システム部」は「情報システム部」を介して同義語の関係に該当することが判明するため、信頼度更新部26は社員データベースγの信頼度ポイント20を更新判定ポイントとしてカウントする(S48)。
つぎに信頼度更新部26は、上記更新判定ポイントの合計値(50ポイント)と信頼度ポイントが1位の社員データベースβの信頼度ポイント(35ポイント)とを比較し(S50)、更新判定ポイントの合計値がβの信頼度ポイントを上回っているため、今回の訂正要求を許容する判定を下す(S52)。また、その旨のメッセージがクライアント端末14に送信され、画面上にポップアップ表示される。
つぎに信頼度更新部26は、訂正要求の原因となった社員データベースβの信頼度ポイントを所定数低減させると同時に、訂正要求に合致するデータを備えていた社員データベースα及びγの該当項目に対して信頼度ポイントの加算処理を実行する(S54)。
この際、各データベースに対し具体的にどの程度のポイントの加減処理を施すのかが問題となるが、図7に示すように、少なくとも従来の1位(社員データベースβ)と2位(社員データベースα)の信頼度が逆転するようなポイントの調整(α及びγに+5ポイント、βに−5ポイント)がなされる。
この結果、クライアント端末14に対しては、図8に示すように、データ処理部24を介して調整後の検索結果リスト40が送信され(S56)、画面表示される(S58)。この調整後の検索結果リスト40では、当然ながら社員No.2の部には「営業部」の代わりに「情報システム部」が表示されている。
この場合、クライアント端末14から送信された訂正要求を許容する場合であっても、実際に訂正されるのは信頼度判定データベース30に登録された信頼度ポイントについてであり、社員データベースβのデータ自体に変更が加えられるものではないため、同データベースを管理している部署の独自性が損なわれることはない。
ただし、このように特定のデータベースに関する信頼度ポイントを低減させる更新処理が管理サーバ12において実行された際には、その旨を担当部署に電子メール等で通知することにより、データの自主的な修正を促すように運用することが望ましい。
クライアント端末14から、図2の検索結果リスト40中に列記された社員No.1の氏名が「沢田 卓也」となっているのは間違いであり、正しくは「澤田 拓也」であるとの訂正要求が送信された場合(S30)、管理サーバ12の信頼度更新部26は信頼度判定データベース30を参照し、図9に示すように、社員No.1の「氏名」に関する各社員データベースα〜γの信頼度ポイントを取得する(S32)。
ここでは、社員データベースβの信頼度ポイントが30で最も大きく、したがって検索結果リスト40には同データベースβに登録された「沢田 卓也」が採用されたことを示している。
つぎに信頼度更新部26は、データ処理部24を通じて2番目に信頼度ポイントが大きな社員データベースγの氏名「沢田 卓也」を取得すると共に(S34)、これがユーザが訂正を要求している「澤田 拓也」に合致しないことを確認した上で(S38)、社員データベースγの信頼度ポイント20を更新判定ポイントとしてカウントすることを見送る。
つぎに信頼度更新部26は、データ処理部24を通じて3番目に信頼度ポイントが大きな社員データベースαの氏名「澤田 拓也」を取得し(S42)、これがユーザが訂正を要求している「澤田 拓也」に合致するため(S46)、同データベースの信頼度ポイント10をカウントする(S48)。
つぎに信頼度更新部26は、上記更新判定ポイントの合計値(10ポイント)と社員データベースβの信頼度ポイント(30ポイント)とを比較し(S50)、更新判定ポイントの合計値がβの信頼度ポイントを下回っているため、今回の訂正要求を拒否する決定を下す(S60)。また、その旨のメッセージがクライアント端末14に送信され、画面上にポップアップ表示される。
このようにユーザの訂正要求が拒否された場合には、当然ながら信頼度判定データベース30内の信頼度ポイントに対する更新処理は実行されず、これまでのポイントが維持される。
データ訂正の可否判断に際し、上記のように1位のデータベースの信頼度ポイントと2位以下で訂正候補データと合致するデータが登録されたデータベースの信頼度ポイントとを比較する代わりに、順位に応じて予め設定された持ち点を比較することもできる。
例えば、対象となるデータベースの数が10である場合、信頼度ポイントが1位のデータベースに持ち点10、2位のデータベースに持ち点9、3位のデータベースに持ち点8、…10位のデータベースに持ち点1、というように順位の重みに応じた持ち点を付与しておく。
これに対し信頼度更新部26は、信頼度ポイントが2位以下で訂正候補データと合致するデータを備えた各データベースの持ち点を更新判定ポイントとして加算し、その合計値が1位のデータベースの持ち点10を越えた場合に訂正を許容する判定を下す。
対象となるデータベース数が比較的多い場合には、各データベースの信頼度ポイント同士を比較するよりも、このように信頼度ポイントの順位に基づく持ち点同士を比較する方が、より信頼性の高い判定結果が得られる。
また、信頼度更新部26によって訂正許容の決定が下された場合に、上記のように信頼度ポイントの調整を通じて1位のデータベースを入れ替える代わりに、データ処理部24によって1位のデータベースにおける該当のデータを訂正候補データに置き換える更新処理が実行されるようにシステムを運用することもできる。
具体的には、図5のS52とS54との間に「信頼度ポイント1位のデータベースにおける該当データの更新」という処理が追加されることとなる。
なお、1位のデータベースにおける該当データが訂正候補データに置き換えられるとはいっても、他のデータベースにおける登録データとの兼ね合いで訂正候補データの信頼性を確認した上で更新処理が実行されるため、従来の同期処理のように後から入力された誤データに合わせて他のデータベースにおける該当データが機械的に置き換えられてしまうという危険性は少ない。
この場合、信頼度ポイント1位のデータベースにおける該当データが修正済みとなるため、後続の信頼度ポイントの調整ステップ(S54)においては、必ずしも1位と2位以下のデータベースとの間で順位の逆転を生じさせる必要はない。
例えば、訂正候補データと合致するデータを備えていたデータベースについては、信頼度ポイントに対し一律5ポイントを加算し、訂正候補データと異なるデータを備えていたデータベースについては、信頼度ポイントに対し一律5ポイントを減算することが当てはまる。
上記にあっては、同義語データベース32に「部」のデータ項目に係る基本語と同義語との対応関係が定義されている例を示したが、氏名や役職についても同様に基本語と同義語との対応関係を登録しておくことができる。
また、同義語データベース32を参照することなく、クライアント端末14から入力された検索キーワードや訂正候補データと各データベース内に登録されたデータとが完全に一致する場合のみ、データ処理部24によって検索処理が実行されたり、信頼度更新部26によって更新判定ポイントのカウントが実行されるようにシステムを運用することもできる。
また、上記にあっては、各データベースに登録された同義語をデータ処理部24が自動的に基本語に変換して検索結果リスト40に表示させる例を示したが、同義語のまま同リスト40に表示させることも当然に可能である。
さらに、同義語データベース32内に基本語と同義語との対応関係を登録することによって複数のキーワード間の同義語関係を定義する代わりに、関連のある複数のキーワードにそれぞれ共通の同義語コードを付与することにより、相互に対等の同義語として規定しておくことも可能である。
上記にあっては、各社員の属性項目毎に異なった信頼度ポイントが設定される例を示したが、この発明はこれに限定されるものではない。
例えば、図10に示すように、信頼度判定データベース30内に氏名、部、役職単位で信頼度ポイントを設定しておき、これを全社員に共通して適用することができる。
この場合、氏名については社員データベースβの信頼度ポイントが最も大きいため、同データベースから全社員の氏名データがデータ処理部24によって抽出される。同様に、部については社員データベースγから、また役職については社員データベースαからそれぞれ全社員分のデータがデータ処理部24によって抽出され、最適化社員リストが生成される。
上記においては、同義語データベース32に予め基本語と同義語との対応関係を規定しておく例を説明したが、クライアント端末14と管理サーバ12との間における検索要求と結果送信とのやり取りを通じて、自動的に基本語と同義語を検出し、同義語データベース32に登録することもできる。
例えば、クライアント端末14から管理サーバ12に対して「IPD」というキーワードが入力された場合、データ処理部24は信頼度判定データベース30及び各社員データベースα〜γを参照し、該当のデータが格納されていないため「Hit数=0件」の結果をクライアント端末14に返す。
これに対しユーザが、クライアント端末14から「知的財産部」というキーワードを入力して再検索を求めると、データ処理部24は信頼度判定データベース30及び社員データベースα〜γを参照し、知的財産部に所属している全社員の属性データを抽出する。
ここで知的財産部に属する社員が10名存在している場合、クライアント端末14の画面上に「Hit数=10件」の結果が表示される。これに対しユーザがリストの表示を求めると、データ処理部24から知的財産部の各社員の属性データが記述された検索結果リストがクライアント端末14に送信される。
これに対し同義語登録部28は、上記検索処理に伴うクライアント端末14とデータ処理部24間のやり取りを監視しており、所定の条件を具備する場合には同義語候補データベース34内に同義語ポイントを加算する。
具体的には、「Hit数=0」となった先の検索条件入力時から「Hit数≧1」となった後の検索条件の入力時までの時間を計測し、これが一定時間(例えば1分間)以下であればキーワード「IPD」と「知的財産部」間に関連性があるものと推定し、図11に示すように、同義語候補データベース34内にIPDを知的財産部の同義語候補として新規登録する。
この場合、IPDと知的財産部との最初の関連付けであるため、同義語の頻度には1ポイントが付与される。
以下に、あるキーワードが他のキーワードの同義語候補として認定されるための条件を整理しておく。
(1) 第1のキーワード≠第2のキーワード
(2) 第1のキーワードによるヒット数=0
(3) 第2のキーワードによるヒット数≧1
(4) 第1のキーワード入力から第2のキーワード入力まで所定時間内
以後、他のユーザから同様の検索キーワードの入力がある度に、同義語登録部28によって同義語頻度にポイントが加算されてゆき、例えば頻度ポイントが10以上となった時点で、同義語登録部28は「IPD」を「知的財産部」の同義語として同義語データベース32に登録する。
この結果、時間の経過に伴いある基本語について新たな略語や通称が発生した場合にも、これらを自動的に同義語としてシステム内に取り込んでいくことが可能となる。
上記においては、同一社内における複数の同種データベースについてこの発明を適用した場合を例示したが、この発明はこれに限定されるものではない。
例えば、異なる企業が独自に運用している同種のデータベース間で信頼度ポイントを比較し、各データベースから最適なデータの組合せを抽出したり、各データベース間で信頼度ポイントの調整やデータの更新を実行するシステムとしてこの発明を実現することも可能である。
この発明に係るデータベース利用システムの基本構成を示す概念図である。 各データベース内に設定されたデータ項目例を示す説明図である。 このシステムにおける検索の処理手順を示すフローチャートである。 ユーザからの訂正要求に対する処理手順を示すフローチャートである。 ユーザからの訂正要求に対する処理手順を示すフローチャートである。 社員No.2の「部」に関する社員データベースα〜γの調整前の信頼度ポイントを示す図表である。 社員No.2の「部」に関する社員データベースα〜γの調整後の信頼度ポイントを示す図表である。 訂正後の検索結果リストを示す図表である。 社員No.1の「氏名」に関する社員データベースα〜γの調整前の信頼度ポイントを示す図表である。 信頼度判定データベース内に設定された信頼度ポイントの構成例を示す図表である。 同義語候補データベースにおける登録状況を示す図表である。
符号の説明
10 データベース利用システム
12 データベース管理サーバ
14 クライアント端末
16 データベース
18 データベースを管理するコンピュータ
20 通信ネットワーク
22 通信ネットワーク
24 データ処理部
26 信頼度更新部
28 同義語登録部
30 信頼度判定データベース
32 同義語データベース
34 同義語候補データベース
40 検索結果リスト

Claims (8)

  1. 少なくとも一部に重複するデータを備えた複数のデータベースと、
    各データベース内に設定された特定のデータ項目に関するそれぞれの信頼度ポイントを、レコード毎に登録しておく信頼度判定記憶手段と、
    検索条件が入力された場合に、上記信頼度判定記憶手段を参照し、該当レコードの対応データ項目に関し信頼度ポイントが1位のデータベースから検索条件に合致するデータを抽出する手段と、
    抽出されたデータに対し訂正候補データを明示した訂正要求が入力された場合に、訂正要求に係るレコードの該当データ項目に関する各データベースの信頼度ポイントを更新する手段と、
    を備えたことを特徴とするデータベース利用システム。
  2. 少なくとも一部に重複するデータを備えた複数のデータベースと、
    各データベース内に設定された特定のデータ項目に関するそれぞれの信頼度ポイントを、レコード毎に登録しておく信頼度判定記憶手段と、
    検索条件が入力された場合に、上記信頼度判定記憶手段を参照し、該当レコードの対応データ項目に関し信頼度ポイントが1位のデータベースから検索条件に合致するデータを抽出する手段と、
    抽出されたデータに対し訂正候補データを明示した訂正要求が入力された場合に、訂正要求に係るレコードの該当データ項目に関する各データベースの信頼度ポイントを取得する手段と、
    信頼度ポイントが1位のデータベースを除き、各データベースにおける該当レコードの対応データ項目に登録されたデータを抽出する手段と、
    各データと上記訂正候補データとを比較し、訂正候補データに合致するデータが登録されたデータベースを特定する手段と、
    特定された各データベースにおける該当レコードの対応データ項目に係る信頼度ポイントを、更新判定ポイントとしてカウントする手段と、
    信頼度ポイントが1位のデータベースにおける信頼度ポイントと上記更新判定ポイントの合計値とを比較し、前者に対し後者が所定の条件を満たしている場合には、訂正候補データと合致するデータが登録されたデータベースの少なくとも一つにおける信頼度ポイントが、上記1位のデータベースにおける信頼度ポイントを上回るように、訂正候補データと合致するデータが登録されたデータベースにおける該当レコードの対応データ項目に対する必要ポイントの加算処理と、上記1位のデータベースにおける該当レコードの対応データ項目に対する必要ポイントの減算処理を実行するポイントの調整手段と、
    を備えたことを特徴とするデータベース利用システム。
  3. 基本語と同義語との対応関係を定義しておく同義語記憶手段と、
    この同義語記憶手段を参照し、抽出したデータが同義語に該当する場合には当該データを対応の基本語に変換する手段と、
    を備えたことを特徴とする請求項1または2に記載のデータベース利用システム。
  4. 複数のキーワード間における同義語としての対応関係を登録しておく同義語記憶手段と、
    この同義語記憶手段を参照し、上記訂正候補データと各データベースに登録されたデータとが同義語の関係に該当する場合には、両データが合致するものと判定する手段と、
    を備えたことを特徴とする請求項2または3に記載のデータベース利用システ
  5. コンピュータを、
    少なくとも一部に重複するデータを備えた複数のデータベース内に設定された特定のデータ項目に関するそれぞれの信頼度ポイントを、レコード毎に登録しておく信頼度判定記憶手段、
    検索条件が入力された場合に、上記信頼度判定記憶手段を参照し、該当レコードの対応データ項目に関し信頼度ポイントが1位のデータベースから検索条件に合致するデータを抽出する手段、
    抽出されたデータに対し訂正候補データを明示した訂正要求が入力された場合に、訂正要求に係るレコードの該当データ項目に関する各データベースの信頼度ポイントを更新する手段、
    として機能させることを特徴とするデータベース利用プログラム。
  6. コンピュータを、
    少なくとも一部に重複するデータを備えた複数のデータベース内に設定された特定のデータ項目に関するそれぞれの信頼度ポイントを、レコード毎に登録しておく信頼度判定記憶手段、
    検索条件が入力された場合に、上記信頼度判定記憶手段を参照し、該当レコードの対応データ項目に関し信頼度ポイントが1位のデータベースから検索条件に合致するデータを抽出する手段、
    抽出されたデータに対し訂正候補データを明示した訂正要求が入力された場合に、訂正要求に係るレコードの該当データ項目に関する各データベースの信頼度ポイントを取得する手段、
    信頼度ポイントが1位のデータベースを除き、各データベースにおける該当レコードの対応データ項目に登録されたデータを抽出する手段、
    各データと上記訂正候補データとを比較し、訂正候補データに合致するデータが登録されたデータベースを特定する手段、
    特定された各データベースにおける該当レコードの対応データ項目に係る信頼度ポイントを、更新判定ポイントとしてカウントする手段、
    信頼度ポイントが1位のデータベースにおける信頼度ポイントと上記更新判定ポイントの合計値とを比較し、前者に対し後者が所定の条件を満たしている場合には、訂正候補データと合致するデータが登録されたデータベースの少なくとも一つにおける信頼度ポイントが、上記1位のデータベースにおける信頼度ポイントを上回るように、訂正候補データと合致するデータが登録されたデータベースにおける該当レコードの対応データ項目に対する必要ポイントの加算処理と、上記1位のデータベースにおける該当レコードの対応データ項目に対する必要ポイントの減算処理を実行するポイントの調整手段、
    として機能させることを特徴とするデータベース利用プログラム。
  7. コンピュータを、
    基本語と同義語との対応関係を定義しておく同義語記憶手段、
    この同義語記憶手段を参照し、抽出したデータが同義語に該当する場合には当該データを対応の基本語に変換する手段、
    として機能させることを特徴とする請求項5または6に記載のデータベース利用プログラム。
  8. コンピュータを、
    複数のキーワード間における同義語としての対応関係を登録しておく同義語記憶手段、
    この同義語記憶手段を参照し、上記訂正候補データと各データベースに登録されたデータとが同義語の関係に該当する場合には、両データが合致するものと判定する手段、
    として機能させることを特徴とする請求項6または7に記載のデータベース利用プログラム。
JP2006318651A 2006-11-27 2006-11-27 データベース利用システム及びデータベース利用プログラム Expired - Fee Related JP4183725B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006318651A JP4183725B2 (ja) 2006-11-27 2006-11-27 データベース利用システム及びデータベース利用プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006318651A JP4183725B2 (ja) 2006-11-27 2006-11-27 データベース利用システム及びデータベース利用プログラム

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2003281452A Division JP3924271B2 (ja) 2003-07-29 2003-07-29 データベース利用システム及びデータベース利用プログラム

Publications (2)

Publication Number Publication Date
JP2007058885A true JP2007058885A (ja) 2007-03-08
JP4183725B2 JP4183725B2 (ja) 2008-11-19

Family

ID=37922260

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006318651A Expired - Fee Related JP4183725B2 (ja) 2006-11-27 2006-11-27 データベース利用システム及びデータベース利用プログラム

Country Status (1)

Country Link
JP (1) JP4183725B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2467918A (en) * 2009-02-18 2010-08-25 Mtld Top Level Domain Ltd Determining the correct value and the reliability of a data item by aggregating or combining the value of the data item from several databases.
JP2014052932A (ja) * 2012-09-10 2014-03-20 Konica Minolta Inc 情報検索プログラム及び情報検索装置
US20190147988A1 (en) * 2016-04-19 2019-05-16 Koninklijke Philips N.V. Hospital matching of de-identified healthcare databases without obvious quasi-identifiers

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10222521A (ja) * 1997-01-31 1998-08-21 Toshiba Corp 情報共有支援システム
JPH10240536A (ja) * 1997-02-27 1998-09-11 Mitsubishi Electric Corp 事例検索装置及び事例検索方法並びに事例ベース構築装置及び事例ベース構築方法
JPH11110406A (ja) * 1997-10-06 1999-04-23 Sony Corp 情報処理装置および情報処理方法、並びに記録媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10222521A (ja) * 1997-01-31 1998-08-21 Toshiba Corp 情報共有支援システム
JPH10240536A (ja) * 1997-02-27 1998-09-11 Mitsubishi Electric Corp 事例検索装置及び事例検索方法並びに事例ベース構築装置及び事例ベース構築方法
JPH11110406A (ja) * 1997-10-06 1999-04-23 Sony Corp 情報処理装置および情報処理方法、並びに記録媒体

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2467918A (en) * 2009-02-18 2010-08-25 Mtld Top Level Domain Ltd Determining the correct value and the reliability of a data item by aggregating or combining the value of the data item from several databases.
US9043289B2 (en) 2009-02-18 2015-05-26 Afilias Technologies Limited Estimation of errors in attribute values of aggregated databases
JP2014052932A (ja) * 2012-09-10 2014-03-20 Konica Minolta Inc 情報検索プログラム及び情報検索装置
US20190147988A1 (en) * 2016-04-19 2019-05-16 Koninklijke Philips N.V. Hospital matching of de-identified healthcare databases without obvious quasi-identifiers

Also Published As

Publication number Publication date
JP4183725B2 (ja) 2008-11-19

Similar Documents

Publication Publication Date Title
US8949251B2 (en) System for and method of identifying closely matching textual identifiers, such as domain names
US20210209182A1 (en) Systems and methods for improved web searching
US11487744B2 (en) Domain name generation and searching using unigram queries
US8027974B2 (en) Method and system for URL autocompletion using ranked results
CN101194256B (zh) 具有表意文字和音标字符的语言的自动输入完成的方法和系统
US7290131B2 (en) Guaranteeing hypertext link integrity
US8201081B2 (en) Systems and methods for processing inoperative document links
JP4809441B2 (ja) ユーザログからの検索カテゴリ同義語の推定
US8495151B2 (en) Methods and systems for determining email addresses
US7331038B1 (en) Predictive prefetching to improve parallelization of document generation subtasks
US20120084281A1 (en) Domain name tokenization and alternative domain name generation
US20200065770A1 (en) Automatic tagging for online job listings
WO2012142553A2 (en) Identifying query formulation suggestions for low-match queries
JP2009505221A (ja) ユーザの自己修正する検索動作の分析により検索文字列の代替スペルを特定する方法
US10380248B1 (en) Acronym identification in domain names
US10380210B1 (en) Misspelling identification in domain names
US7836041B1 (en) System and method for displaying both time information search results and internet search results
JP4183725B2 (ja) データベース利用システム及びデータベース利用プログラム
JP2006268690A (ja) Faq提示・改善方法、faq提示・改善装置およびfaq提示・改善プログラム
JP3924271B2 (ja) データベース利用システム及びデータベース利用プログラム
US9183299B2 (en) Search engine for ranking a set of pages returned as search results from a search query
JP5083408B2 (ja) 構成管理装置、構成管理プログラム、構成管理方法
JP2011186755A (ja) 構成情報管理装置、構成情報管理装置の辞書生成方法及び構成情報管理装置の辞書生成プログラム
US20080235215A1 (en) Data search method, recording medium recording program, and apparatus
US9659059B2 (en) Matching large sets of words

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061204

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080129

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080331

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080603

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080729

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080826

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080902

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110912

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110912

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120912

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120912

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130912

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees