JP2011248661A - Database control device, database control method, program and recording medium - Google Patents

Database control device, database control method, program and recording medium Download PDF

Info

Publication number
JP2011248661A
JP2011248661A JP2010121623A JP2010121623A JP2011248661A JP 2011248661 A JP2011248661 A JP 2011248661A JP 2010121623 A JP2010121623 A JP 2010121623A JP 2010121623 A JP2010121623 A JP 2010121623A JP 2011248661 A JP2011248661 A JP 2011248661A
Authority
JP
Japan
Prior art keywords
data
database
similarity
stored
accumulated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010121623A
Other languages
Japanese (ja)
Inventor
Atsushi Sugano
充臣 菅野
Takuya Kuraishi
卓也 倉石
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2010121623A priority Critical patent/JP2011248661A/en
Publication of JP2011248661A publication Critical patent/JP2011248661A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a database control device, a database control method, a program and a recording medium that serve to enhance identity among data contents of information searched for among different databases and thereby to enhance the accuracy of information search among a plurality of databases by homogenizing data contents in the same item of information among different databases so that reuse is possible no matter which one of multiple databases may be referenced by whatever service or application.SOLUTION: A database control device has a similarity calculating unit that compares data contents of reference data accumulated in a reference database for reference use and of accumulation data accumulated in an accumulation database for accumulation use, figures out any similarity between the accumulation data and the reference data, and detects any of the accumulation data whose figured-out similarity surpasses a preset threshold as similar data, and a data contents updating unit that updates the accumulation data detected as the similar data with the data contents of the accumulation data.

Description

本発明は、データベース制御装置、データベース制御方法、プログラム及び記録媒体に関するものである。   The present invention relates to a database control device, a database control method, a program, and a recording medium.

データベースは高度情報化社会において、市中に氾濫する情報を蓄積し、必要に応じて情報をユーザに提供する情報処理システムである。
このため、データベースには重要機密から雑多な記録までの、ありとあらゆる情報が格納される性質から、データ検索を行い易くするためにいかに情報を管理するか、という命題は日に日に重要度を増している。
A database is an information processing system that accumulates information flooded in the city in an advanced information society and provides information to users as needed.
For this reason, the proposition of how to manage information in order to facilitate data retrieval increases day by day due to the nature of storing all kinds of information, from important secrets to miscellaneous records, in the database. ing.

また、上述のように管理される複数のデータベースそれぞれに蓄積された情報の再利用性も議論されるべき重要な性質である。
例えば、あるデータベースから検索された情報と同一の情報を、他のデータベースから検索する用途を検討する。この2つのデータベース間において同一の情報が同一の構成で格納されていない場合、単純な検索処理では目的のデータを抽出する事はできず、限られた時間において、データベースから適切な情報を入手する事が困難になり、結果としてシステム全体の利便性を損なう事となる。
In addition, reusability of information stored in each of a plurality of databases managed as described above is also an important property to be discussed.
For example, the use of searching for information identical to information retrieved from a certain database from another database is considered. If the same information is not stored in the same configuration between the two databases, the target data cannot be extracted by a simple search process, and appropriate information is obtained from the database in a limited time. As a result, the convenience of the entire system is impaired.

現在、複数のデータベース間におけるデータ内容を統一する規格、また仕様が存在しておらず、また規格または仕様が制定されたと仮定しても、前述の通り一般的にデータベースというシステムは雑多な記録を格納する構成で用いられる事から、そのような規格または仕様が広く運用される可能性が著しく低いと考えられる。
たとえば、相互に構成、方式の異なる複数のデータベースに対して、共通した情報検索言語を送信し、この共通した情報検索言語により情報検索する情報検索方式が開示されている(例えば、特許文献1参照)。
この情報検索方式においては、エンドユーザが情報検索手続と編集手続とを”共通”情報検索言語の仕様に沿った形式で情報入出力装置から入力すると、生成手段は、対象となるデータ管理システムでの検索処理が可能となるリソース(制御文、ソースプログラム、パラメータ、コマンドなど)を生成し、対応する実行手段を内部起動させる。起動された実行手段は、生成手段によって提供されたリソースを使用し、データベースからの検索処理を行う。検索結果は、送出手段に引き渡され、そこで編集手続に従って編集された結果がエンドユーザの手元にある情報入出力装置に可視表示される。
Currently, there is no standard or specification that unifies data contents among multiple databases, and even if it is assumed that the standard or specification has been established, the database system generally records various records as described above. Since it is used in a storing configuration, it is considered that the possibility that such a standard or specification is widely used is extremely low.
For example, an information search method is disclosed in which a common information search language is transmitted to a plurality of databases having different configurations and methods, and information search is performed using the common information search language (see, for example, Patent Document 1). ).
In this information retrieval method, when an end user inputs an information retrieval procedure and an editing procedure from an information input / output device in a format in accordance with the specifications of a “common” information retrieval language, the generation means is the target data management system. A resource (control statement, source program, parameter, command, etc.) that can be searched is generated, and the corresponding execution means is activated internally. The activated execution means uses the resource provided by the generation means and performs a search process from the database. The search result is delivered to the sending means, and the result edited in accordance with the editing procedure is visually displayed on the information input / output device at hand of the end user.

また、互換性のないデータベース同士が双方向にデータ交換する技術が開示されている(例えば、特許文献2参照)。
この交換技術においては、コンピュータに格納されたコンピュータプロセッサ命令により、データベースシステム内のデータセットを更新し、第1のデータベースシステムにおけるデータセットに対して実行された変更によって、第2のデータベースシステムにおけるデータセットが更新される。これにより、第1及び第2のデータベースシステムにおいて、データセットの再利用性を向上させることができる。
In addition, a technique in which incompatible databases exchange data bidirectionally is disclosed (for example, see Patent Document 2).
In this exchange technique, the data set in the second database system is updated by updating the data set in the database system by computer processor instructions stored in the computer and by the changes made to the data set in the first database system. The set is updated. Thereby, the reusability of a data set can be improved in the first and second database systems.

特開昭61−234431号公報JP-A 61-234431 特表2003−511796号公報JP-T-2003-511796

しかしながら、上記特許文献1の情報検索方式は、データベースの検索においてのみ情報の再利用性は確保されるが、それぞれのデータベース自体が記憶する情報の精度、すなわち検索キーに対して同様なデータが得られるという情報の均質性が向上しないため、同一の検索キーによる検索以外に流用する際、情報の均質性を向上させる処理として、必ず新規開発コストが発生する。   However, although the information search method of Patent Document 1 ensures information reusability only in database search, the same data is obtained for the accuracy of information stored in each database itself, that is, the search key. Therefore, new development costs are always generated as a process for improving the homogeneity of information when diverted to searches other than the same search key.

また、上記特許文献2のデータベース間のデータ交換は、相互にデータ交換を行うデータセットを予め指定した上で処理を実行することが必要なため、再利用可能なデータベースのグループに対し、新たなデータベースを追加する毎に、この新たなデータベースに対してデータセット単位で再利用可能なように対応付けを行うコストが発生する。   In addition, since the data exchange between the databases of the above-mentioned Patent Document 2 requires that processing be performed after a data set for mutual data exchange is designated in advance, a new database group can be renewed. Each time a database is added, there is a cost associated with the new database so that it can be reused in units of data sets.

本発明の課題は、このような問題点を解決するデータベース制御装置、データベース制御方法、プログラム及び記録媒体を提供することである。   An object of the present invention is to provide a database control apparatus, a database control method, a program, and a recording medium that solve such problems.

この発明は上述した課題を解決するためになされたもので、本発明のデータベース制御装置は、参照用の参照データベースに蓄積されている参照データと、蓄積用の蓄積データベースに蓄積されている蓄積データとのデータ内容を比較し、当該蓄積データと前記参照データとの類似度を求め、求められた前記類似度が予め設定された閾値を超える前記蓄積データを、同様データとして検出する類似度算出部と、前記同様データとして検出された前記蓄積データを、当該蓄積データのデータ内容により更新するデータ内容更新部とを有することを特徴とする。   The present invention has been made to solve the above-described problems, and the database control apparatus according to the present invention includes reference data stored in a reference database for reference and stored data stored in a storage database for storage. The similarity calculation unit that detects the accumulated data in which the obtained similarity exceeds a preset threshold value as similar data, compares the data content with the reference data, obtains the similarity between the accumulated data and the reference data And a data content update unit for updating the stored data detected as the same data with the data content of the stored data.

本発明のデータベース制御装置は、前記蓄積データ及び参照データの各々が複数の構成データから構成されており、構成データ毎に情報の更新を行うか否かを示す可否情報が予め設定され、前記可否情報により、前記参照データのデータ内容により前記蓄積データの更新を行うか否かを、前記構成データ毎に判定する書換項目検出部をさらに有することを特徴とする。   In the database control apparatus according to the present invention, each of the accumulated data and the reference data is composed of a plurality of pieces of configuration data, and availability information indicating whether or not to update the information for each configuration data is set in advance. The information processing apparatus further includes a rewrite item detection unit that determines, for each piece of configuration data, whether or not to update the accumulated data based on the data content of the reference data.

本発明のデータベース制御装置は、前記構成データに設定された前記可否情報が可である場合、前記参照データに対して前記同様データとされた前記蓄積データの前記構成データを、当該参照データの対応する構成データにより変更し、一方、前記可否情報が否である場合、前記参照データに対して前記同様データとされた前記蓄積データの構成データを、当該参照データの対応する構成データによる変更を行わないことを特徴とする。   When the availability information set in the configuration data is acceptable, the database control apparatus according to the present invention corresponds to the reference data corresponding to the configuration data of the stored data that is the same data as the reference data. On the other hand, if the availability information is NO, the configuration data of the stored data that is the same data as the reference data is changed by the configuration data corresponding to the reference data. It is characterized by not.

本発明のデータベース制御装置は、前記可否情報が可の場合、該構成データを、前記参照データベースの前記データにおける対応する前記構成データを上書きするか、あるいは当該データの前記構成データと前記参照データベースの前記データにおける対応する構成データとの和集合とするかの変更種別が設定されていることを特徴とする。   When the availability information is acceptable, the database control device of the present invention overwrites the corresponding configuration data in the data of the reference database with the configuration data, or the configuration data of the data and the reference database A change type as to whether the data is a union with corresponding configuration data is set.

本発明のデータベース制御装置は、前記類似度算出部は、前記構成データの前記データ種類毎に設定された、前記参照データの前記構成データと前記蓄積データの前記構成データとの類似度を求める類似度算出方法により、前記参照データベースと前記蓄積データベースとの前記データにおける前記構成データ毎の前記類似度を算出し、算出された類似度の合計を前記データの類似度とすることを特徴とする。   In the database control apparatus according to the present invention, the similarity calculation unit is configured to calculate similarity between the configuration data of the reference data and the configuration data of the accumulated data, which is set for each data type of the configuration data. The similarity is calculated for each of the configuration data in the data of the reference database and the storage database by a degree calculation method, and the sum of the calculated similarities is used as the similarity of the data.

本発明のデータベース制御装置は、前記構成データに含まれるメタ情報がデータ種類を示しており、前記類似度算出部は、関係する前記データ種類と類似度計算方法との関係を示す計算方法テーブルを有し、前記構成データからメタ情報を抽出し、抽出した前記メタ情報に対応する類似度計算方法を前記計算方法テーブルから選択し、前記構成データ毎の前記類似度を算出することを特徴とする。   In the database control apparatus of the present invention, the meta information included in the configuration data indicates a data type, and the similarity calculation unit includes a calculation method table indicating a relationship between the related data type and the similarity calculation method. And extracting meta information from the configuration data, selecting a similarity calculation method corresponding to the extracted meta information from the calculation method table, and calculating the similarity for each of the configuration data .

本発明のデータベース制御装置は、前記類似度算出部は、前記類似度計算方法により求めた前記類似度に対し、前記構成データに設定された重み付け係数を乗算して、前記構成データの前記類似度とすることを特徴とする。   In the database control apparatus of the present invention, the similarity calculation unit multiplies the similarity obtained by the similarity calculation method by a weighting coefficient set in the configuration data, and thereby calculates the similarity of the configuration data. It is characterized by.

本発明のデータベース制御装置は、一定期間毎に更新される複数項目からなるデータベースの信頼性を示す信頼性データを前記データベース毎に記憶する信頼性データ記憶部と、前記信頼性データを元に前記データベース毎の信頼度を求め、最も信頼度の高い前記データベースを前記参照データベースに設定する参照データベース設定部とをさらに有することを特徴とする。   The database control device of the present invention includes a reliability data storage unit that stores reliability data indicating the reliability of a database composed of a plurality of items updated at regular intervals for each database, and the reliability data storage unit based on the reliability data. It further has a reference database setting unit that obtains the reliability for each database and sets the database with the highest reliability as the reference database.

本発明のデータベース制御装置は、前記信頼性データが、前記データベースを管理するサーバーに対する少なくとも外部リンクの数、アクセス情報の有無、ユーザによるアクセス回数、サイトの更新回数、サイトに表示される広告表示の面積及び占める割合のいずれか、あるいは複数の組合せであることを特徴とする。   In the database control apparatus of the present invention, the reliability data includes at least the number of external links to the server managing the database, the presence / absence of access information, the number of accesses by the user, the number of site updates, and the advertisement display displayed on the site. It is any one of the area and the occupying ratio, or a combination thereof.

本発明のデータベース制御方法は、複数のデータベース間において、それぞれのデータベースに蓄積されている蓄積データのデータ内容を均一化するデータベース制御装置を動作させるデータベース制御方法であり、類似度算出部が、参照用の参照データベースに蓄積されている参照データと、蓄積用の蓄積データベースに蓄積されている蓄積データとのデータ内容を比較し、当該蓄積データと前記参照データとの類似度を求め、求められた前記類似度が予め設定された閾値を超える前記蓄積データを、同様データとして検出する類似度算出過程と、データ内容更新部が、前記同様データとして検出された前記蓄積データを、当該蓄積データのデータ内容により更新するデータ内容更新過程とを有する。   The database control method of the present invention is a database control method for operating a database control apparatus that uniformizes the data content of stored data stored in each database among a plurality of databases. The data contents of the reference data stored in the reference database for storage and the stored data stored in the storage database for storage are compared, and the degree of similarity between the stored data and the reference data is obtained. Similarity calculation process for detecting the accumulated data whose similarity exceeds a preset threshold as similar data, and the data content update unit detects the accumulated data detected as the similar data as data of the accumulated data A data content updating process for updating the content.

本発明のプログラムは、複数のデータベース間において、それぞれのデータベースに蓄積されている蓄積データのデータ内容を均一化するデータベース制御装置の機能をコンピュータに実行させるプログラムであり、類似度算出部が、参照用の参照データベースに蓄積されている参照データと、蓄積用の蓄積データベースに蓄積されている蓄積データとのデータ内容を比較し、当該蓄積データと前記参照データとの類似度を求め、求められた前記類似度が予め設定された閾値を超える前記蓄積データを、同様データとして検出する類似度算出処理と、データ内容更新部が、前記同様データとして検出された前記蓄積データを、当該蓄積データのデータ内容により更新するデータ内容更新処理とを有するコンピュータが実行可能なプログラムである。   The program of the present invention is a program that causes a computer to execute the function of a database control device that equalizes the data content of accumulated data accumulated in each database among a plurality of databases. The data contents of the reference data stored in the reference database for storage and the stored data stored in the storage database for storage are compared, and the degree of similarity between the stored data and the reference data is obtained. Similarity calculation processing for detecting, as similar data, the accumulated data in which the similarity exceeds a preset threshold value, and the accumulated data detected by the data content update unit as the similar data are stored as data of the accumulated data. A computer-executable program having data content update processing to be updated according to content That.

本発明のプログラムを記録した記録媒体は、複数のデータベース間において、それぞれのデータベースに蓄積されている蓄積データのデータ内容を均一化するデータベース制御装置の機能をコンピュータに実行させるプログラムであり、類似度算出部が、参照用の参照データベースに蓄積されている参照データと、蓄積用の蓄積データベースに蓄積されている蓄積データとのデータ内容を比較し、当該蓄積データと前記参照データとの類似度を求め、求められた前記類似度が予め設定された閾値を超える前記蓄積データを、同様データとして検出する類似度算出処理と、データ内容更新部が、前記同様データとして検出された前記蓄積データを、当該蓄積データのデータ内容により更新するデータ内容更新処理とを有するコンピュータが実行可能なプログラムを記録した記録媒体である。   The recording medium on which the program of the present invention is recorded is a program that causes a computer to execute the function of a database control device that uniformizes the data content of stored data stored in each database among a plurality of databases. The calculation unit compares the data contents of the reference data stored in the reference database for reference and the stored data stored in the storage database for storage, and determines the similarity between the stored data and the reference data. A similarity calculation process for detecting the stored data in which the calculated similarity exceeds a preset threshold as similar data, and the data content update unit detects the stored data detected as the similar data, Executed by a computer having a data content update process that updates the data content of the stored data A recording medium recording the ability programs.

この発明は、蓄積されたデータの再利用性の高いデータベースを容易に維持することを可能とする。   The present invention makes it possible to easily maintain a highly reusable database of accumulated data.

本発明によるデータベース制御装置を用いた、データベースを有する複数のサービスサーバからなるサービスシステムの概念を説明する図である。It is a figure explaining the concept of the service system which consists of several service servers which have a database using the database control apparatus by this invention. 本実施形態による解析サーバー1を用いたデータベースのデータを均一化するデータベース管理システムの構成例を示す概略ブロック図であるIt is a schematic block diagram which shows the structural example of the database management system which equalizes the data of the database using the analysis server 1 by this embodiment. 図2における解析サーバー1の構成例を示すブロック図である。It is a block diagram which shows the structural example of the analysis server 1 in FIG. サーバーAに設けられた参照データベースのデータと、サーバーBに設けられた蓄積データベースのデータとの一例を示すテーブルである。4 is a table showing an example of reference database data provided in a server A and storage database data provided in a server B. 解析サーバー1が参照データベースの参照データにより、対象データベースのデータの蓄積データ更新を行い、データの均一化を行う処理の動作例を示すフローチャートである。It is a flowchart which shows the operation example of the process which the analysis server 1 updates the accumulation | storage data of the data of a target database with the reference data of a reference database, and equalizes data. データ内容更新部14が参照データベースの参照データの情報により、図4における蓄積データベースの蓄積データの内容が更新される処理を説明する図である。FIG. 5 is a diagram illustrating a process in which the data content update unit updates the content of stored data in the stored database in FIG. 4 with information of reference data in a reference database. データベースの信頼性を求めるために用いられる、信頼性データ記憶部18に格納されている信頼性基準が示される基準テーブルの構成例を示す図である。It is a figure which shows the structural example of the reference | standard table in which the reliability reference | standard stored in the reliability data storage part 18 used for calculating | requiring the reliability of a database is shown. 図8は、参照データベース設定部15が図7に示す信頼性データ記憶部18に記憶された基準テーブルの各信頼性基準に基づき、複数のデータベースのいずれを、最も信頼性の高い参照データベースとして選択するかの動作例を示すフローチャートである。FIG. 8 shows that the reference database setting unit 15 selects one of a plurality of databases as the most reliable reference database based on each reliability standard of the standard table stored in the reliability data storage unit 18 shown in FIG. It is a flowchart which shows the operation example of whether to do. 図9は、類似度算出部16が図4の参照データベースの参照データと、対象データベースの蓄積データとの類似度を算出する動作例を示すフローチャートである。FIG. 9 is a flowchart illustrating an operation example in which the similarity calculation unit 16 calculates the similarity between the reference data in the reference database in FIG. 4 and the accumulated data in the target database. 参照データベースの参照データと対象データベースの蓄積データとの類似度の計算過程を説明する、参照データと蓄積データとのデータ構成を示す図である。It is a figure which shows the data structure of reference data and the accumulation | storage data explaining the calculation process of the similarity degree of the reference data of a reference database, and the accumulation | storage data of a target database. データの各項目毎の類似度の計算処理を説明する図である。It is a figure explaining the calculation process of the similarity for every item of data.

以下、図面を参照して、本発明の概念について説明する。図1は、本発明によるデータベース制御装置を用いた、データベースを有する複数のサービスサーバからなるサービスシステムの概念を説明する図である。図1のサービスシステムは、例えば情報検索システムなどであり、解析サーバ100、複数のサービスサーバ102、105及びユーザ端末107を具備する。
解析サーバー100は、異なるデータベース間のデータ内容の均一化(すなわち均質化)という処理を行う解析モジュール101がアプリケーションとしてインストールされているデータベース制御装置である。
したがって、同様な分野のデータが蓄積されたサービスサーバー102及びサービスサーバー105の各々のデータ103とデータ106との内容の均一化を行う。
Hereinafter, the concept of the present invention will be described with reference to the drawings. FIG. 1 is a diagram for explaining the concept of a service system including a plurality of service servers having a database, using a database control apparatus according to the present invention. The service system in FIG. 1 is an information search system, for example, and includes an analysis server 100, a plurality of service servers 102 and 105, and a user terminal 107.
The analysis server 100 is a database control device in which an analysis module 101 that performs processing of homogenizing (that is, homogenizing) data contents between different databases is installed as an application.
Accordingly, the contents of the data 103 and the data 106 of the service server 102 and the service server 105 in which data of similar fields are accumulated are made uniform.

例えば、サービスサーバー105の方がサービスサーバー102に比較し、より情報検索をしてデータ検索のサービス104を受けるためのユーザ端末107からのアクセス回数が多く、データ103に対してデータ106の内容がより充実し、データの精度が高いと設定されているものとする。
この場合、解析サーバー100は、サービスサーバー105のデータ106と、サービスサーバー102のデータ103とを比較し、類似性の高いデータの組を検出する。
そして、解析サーバー100は、類似性の高い組が同一種類のデータであるとして、サービスサーバー105のデータ106により、サービスサーバー102のデータ103を更新する処理を行う。
For example, the service server 105 has a higher access count from the user terminal 107 for searching for information and receiving the data search service 104 than the service server 102, and the content of the data 106 is compared to the data 103. Assume that it is set to be more substantial and the data accuracy is high.
In this case, the analysis server 100 compares the data 106 of the service server 105 and the data 103 of the service server 102 and detects a data set having high similarity.
Then, the analysis server 100 performs a process of updating the data 103 of the service server 102 with the data 106 of the service server 105, assuming that the sets with high similarity are the same type of data.

これにより、サービスサーバー102のデータ103の内容が、精度が高いとされるサービスサーバー105のデータ103と均一化される。
したがって、サービスサーバー105の存在を知らず、サービスサーバー102にアクセスしたユーザ端末107も、サービスサーバー105のデータ106と同等の精度を有する、データ103を得ることができる。すなわち、解析サーバーの100の管理するサービスサーバー群の各々のデータベースにおけるデータが均一化されているため、ユーザはユーザー端末107から、いずれのサービスサーバーをアクセスしても同等の精度の情報を得ることができる。
As a result, the contents of the data 103 of the service server 102 are made uniform with the data 103 of the service server 105 that is assumed to have high accuracy.
Therefore, the user terminal 107 that has accessed the service server 102 without knowing the existence of the service server 105 can also obtain the data 103 having the same accuracy as the data 106 of the service server 105. That is, since the data in each database of the service server group managed by the analysis server 100 is uniform, the user can obtain information with the same accuracy from the user terminal 107 regardless of which service server is accessed. Can do.

以下、本発明の実施の形態におけるデータベース制御装置としての解析サーバーについて詳細に説明する。
図2は、本実施形態による解析サーバー1を用いたデータベースのデータを均一化するデータベース管理システムの構成例を示す概略ブロック図である。この解析サーバー1は、図1の解析サーバー100に対応している。
これらサービスサーバー21からサービスサーバー2nの各々は、それぞれ同様の分野のデータの検索に用いられるデータベースDB1、DB2、…、DBnを有している。
解析サーバー1は、各データベースDB1からDBn間のデータの均一化処理を、所定の周期(例えば、1日毎)に行う。解析サーバ1と、サービスサーバー21、22、…、2nの各々のとはネットワーク200で接続されている。ネットワーク200は、インターネットなどのデータ通信網で構成されている。
Hereinafter, an analysis server as a database control apparatus according to an embodiment of the present invention will be described in detail.
FIG. 2 is a schematic block diagram showing a configuration example of a database management system for uniformizing database data using the analysis server 1 according to the present embodiment. This analysis server 1 corresponds to the analysis server 100 of FIG.
Each of these service server 21 to service server 2n has databases DB1, DB2,..., DBn used for searching data in the same field.
The analysis server 1 performs data equalization processing between the databases DB1 to DBn at a predetermined cycle (for example, every day). The analysis server 1 and each of the service servers 21, 22, ..., 2n are connected by a network 200. The network 200 is configured by a data communication network such as the Internet.

図3は、図2における解析サーバー1の構成例を示すブロック図である。この図において、解析サーバー1は、制御部11、データ入力部12、データ送受信部13、データ内容更新部14、参照データベース設定部15、類似度算出部16、書換項目検出部17、信頼性データ記憶部18、記憶部19及び表示装置20を具備する。
データ入力部12は、図示しない入力装置からユーザが入力するデータ(解析サーバー1に対する制御指示を含む)を取り込む。
データ送受信部13は、解析サーバー1の管理下にあり、均一化の対象となるデータベースを有する各サービスサーバーとのデータ及び制御信号の送受信を行う。
参照データベース設定部15は、信頼性データ記憶部18に設けられている、各データベースDB1からDB2nの信頼度を示す基準データ(データベースの信頼性を示す信頼性データ)により、いずれのデータベースのデータが、蓄積用の蓄積データベースに蓄積されているデータの書換の際に参照される参照データとなるかの判定を行う。すなわち、参照データベース設定部15は、データベースのデータの均一化を行う際、いずれのデータベースが、他のデータベースのデータを変更する際に参照される参照データベースとなるかの判定を行い、判定結果により参照データベースを選択し、他のデータベースを対象データベースとする。ここで、参照データベースは、蓄積データベース(対象データベース)に比較して蓄積されたデータのデータ内容が充実し、最も信頼度の高い情報が得られるデータベースが、データベース制御装置が管理するデータベースの中から選定される。選定されたデータベースが参照データベースとされ、参照データベース以外のデータベース制御装置が管理するデータベースが蓄積データベースとされる。
FIG. 3 is a block diagram illustrating a configuration example of the analysis server 1 in FIG. In this figure, the analysis server 1 includes a control unit 11, a data input unit 12, a data transmission / reception unit 13, a data content update unit 14, a reference database setting unit 15, a similarity calculation unit 16, a rewrite item detection unit 17, a reliability data. A storage unit 18, a storage unit 19, and a display device 20 are provided.
The data input unit 12 takes in data (including a control instruction for the analysis server 1) input by a user from an input device (not shown).
The data transmission / reception unit 13 is under the control of the analysis server 1 and transmits / receives data and control signals to / from each service server having a database to be homogenized.
The reference database setting unit 15 uses any reference data (reliability data indicating the reliability of the database) indicating the reliability of each of the databases DB1 to DB2n provided in the reliability data storage unit 18. Then, it is determined whether or not the reference data is referred to when the data stored in the storage database for storage is rewritten. That is, the reference database setting unit 15 determines which database will be a reference database to be referred to when changing data in another database when the data in the database is uniformed, and according to the determination result. Select the reference database and set the other database as the target database. Here, the reference database is a database in which the data content of the accumulated data is enhanced compared to the accumulation database (target database) and the most reliable information is obtained from the databases managed by the database controller. Selected. The selected database is a reference database, and a database managed by a database controller other than the reference database is a storage database.

類似度算出部16は、参照データベースに蓄積された参照データの各々に対し、複数の参照データから順次一つずつ類似度を算出する参照データを選択し、対象データベースに蓄積された各蓄積データとの類似度を算出する。そして、類似度算出部16は、参照データの各々に対して、それぞれ類似度が最も高く、かつ予め設定した閾値を超えている蓄積データ(対象データベースの蓄積データ)を、類似度の計算を行った参照データと同様の種類の情報内容を有する同様データとして抽出する。ここで、類似度算出部16は、参照データと蓄積データとが同様の種類のデータであるか否かの判定に用いる類似度の算出を、参照データ及び蓄積データの各々を構成する参照項目データ及び蓄積項目データのデータ種類に応じて、いくつかの類似度算出方法によって行っている。例えばデータが文字列で構成されている場合は、参照項目データ及び蓄積項目データの各々の文字列に含まれる同一の単語あるいは一部を含む単語の割合にて求め、数値で示された識別情報の場合は、数値が完全一致であるか否かにより求め、数値が価格など意味を持つ値の場合は、数値の近さ(数値間の差分の量の大小)により求めている(詳細は後述)。
ここで、類似度算出部16は、各構成データに含まれるメタ情報に記載されたデータ種類と、このデータ種類に対して対応してどのような計算によって類似度を計算するかを示す類似度計算方法との関係を示す計算方法テーブル(類似度算出方法がデータの種類毎に設定されたテーブル)を有し、構成データからメタ情報を抽出し、抽出したメタ情報に対応するデータ種類に対応した類似度計算方法を計算方法テーブルから選択し、構成データ毎の類似度を算出する。なお、メタ情報とは、あるデータが付随して持つそのデータ自身についての抽象度の高い付加的なデータを指す。
The similarity calculation unit 16 selects, for each of the reference data stored in the reference database, reference data for calculating the similarity one by one from a plurality of reference data, and each stored data stored in the target database The similarity is calculated. Then, the similarity calculation unit 16 calculates the similarity of the accumulated data (accumulated data of the target database) having the highest similarity and exceeding a preset threshold with respect to each of the reference data. It is extracted as similar data having the same type of information content as the reference data. Here, the similarity calculation unit 16 calculates the similarity used for determining whether or not the reference data and the accumulated data are the same type of data, and the reference item data constituting each of the reference data and the accumulated data. Depending on the data type of the stored item data, the similarity is calculated by several methods. For example, when the data is composed of character strings, the identification information indicated by numerical values is obtained by the ratio of the same word or part of the words included in each character string of the reference item data and the accumulated item data. In the case of, the value is calculated based on whether or not the numerical values are exactly the same, and if the numerical value is meaningful such as a price, the numerical value is calculated based on the proximity of the numerical values (the amount of difference between the numerical values) (details will be described later) ).
Here, the similarity calculation unit 16 indicates the data type described in the meta information included in each piece of configuration data, and the similarity indicating how the similarity is calculated corresponding to the data type. Has a calculation method table that shows the relationship with the calculation method (a table in which the similarity calculation method is set for each type of data), extracts meta information from the configuration data, and supports data types corresponding to the extracted meta information The similarity calculation method is selected from the calculation method table, and the similarity for each configuration data is calculated. The meta information refers to additional data having a high degree of abstraction about the data itself attached to the data.

書換項目検出部17は、同様データとして抽出された蓄積データを構成する蓄積項目データから、書き換えを行う蓄積項目データの検出を行う。
データ内容更新部14は、検出された蓄積データにおける書き換えを行う書換蓄積項目データを、対応する参照データの蓄積項目データの情報により書換を行う。
記憶部19は、解析サーバー1の管理下にあるサービスサーバーのデータベースにおいて、いずれのデータベースが参照データベースであり、いずれのデータベースが対象データベースであるかの情報、また類似度算出部16が用いる類似度に対する閾値などが記憶されている。
表示装置20は、ユーザの入力するデータや、各データベースに対して行われている均一化処理の経過などが表示される。制御部11は、上述の各種動作の制御を行う。
The rewrite item detection unit 17 detects accumulated item data to be rewritten from accumulated item data constituting accumulated data extracted as the same data.
The data content updating unit 14 rewrites the rewrite accumulation item data for rewriting the detected accumulation data with the information of the accumulation item data of the corresponding reference data.
The storage unit 19 stores information on which database is the reference database and which database is the target database in the service server database managed by the analysis server 1, and the similarity used by the similarity calculation unit 16. The threshold value and the like are stored.
The display device 20 displays data input by the user, the progress of the homogenization process performed on each database, and the like. The control unit 11 controls the various operations described above.

図7は、データベースの信頼性を求めるために用いられる、信頼性データ記憶部18に格納されている信頼性基準が示される基準テーブルの構成例を示す図である。この基準テーブルは解析サーバー1が管理するデータベース毎に設けられている。
信頼性基準としては、例えば、基準名として正当性、組織情報、専門性、関連人物、アクセス数、更新数、広告領域等が用いられる。これら基準名である正当性、組織情報、専門性、関連人物、アクセス数、更新数、広告領域の各々に対応する変数名として、それぞれ”Validity”、”Organization”、”Specialty”、”Person”、”Access”、”Update”、”Advertisement”が設定されている。
FIG. 7 is a diagram showing a configuration example of a reference table showing reliability criteria stored in the reliability data storage unit 18 used for determining the reliability of the database. This reference table is provided for each database managed by the analysis server 1.
As the reliability standard, for example, legitimacy, organization information, expertise, related person, number of accesses, number of updates, advertisement area, etc. are used as the standard name. As variable names corresponding to these reference names, ie, legitimacy, organization information, expertise, related person, access count, update count, and advertisement area, “Validity”, “Organization”, “Speciality”, “Person”, respectively. , “Access”, “Update”, and “Advertisement” are set.

この図7の基準テーブルにおいて、各基準の内容として、正当性はサイト情報を担保する根拠の有無を基準とするものであり、基準の判定に用いられるため収集される情報としては明示的な外部リンクの数、すなわち判定するサービスサーバーをリンク先として設定している他のサービスサーバーの数である。
また、組織情報は、実世界での所属組織の有無(実在する組織に対する所属しているか否か)を基準とするものであり、基準の判定に用いられるため収集される情報としては実在する組織へのアクセスデータ(組織名、住所、電話番号、メールアドレスなどの組織に対して連絡するためのアクセス情報)が記載されているか否かを示す情報である。
また、専門性は、所属組織の専門性の証明の有無を基準とするものであり、基準の判定に用いられるため収集される情報としては第三者機関が発行する資格または資格に対する合格基準の開示情報が記載されているか否かを示す情報である。
In the standard table of FIG. 7, as the contents of each standard, the legitimacy is based on the presence or absence of grounds for securing the site information. The number of links, that is, the number of other service servers in which the service server to be determined is set as the link destination.
Organization information is based on the presence or absence of an affiliated organization in the real world (whether or not affiliated with an existing organization), and since it is used to determine the criteria, the collected information is the existing organization. Information indicating whether or not access data (access information for contacting the organization such as the organization name, address, telephone number, and mail address) is described.
Expertise is based on the presence or absence of proof of expertise of the organization to which it belongs, and since it is used to determine the criteria, the information collected is the qualification issued by a third party or the acceptance criteria for the qualification. This is information indicating whether or not disclosure information is described.

また、関連人物は、実際に実世界に存在する実人物とのリンクの有無を基準とするものであり、基準の判定に用いられるため収集される情報としては実人物に対するアクセスデータ(住所、電話番号、メールアドレスなどの人物に対して連絡するためのアクセス情報)が記載されているか否かを示す情報である。
また、アクセス数は、一般ユーザからのアクセス回数を基準とするものであり、基準の判定に用いられるため収集される情報としてはサービスサーバーの検索サイトにアクセスするユニークユーザ数やPV(page view、ページビュー)数などのアクセスを数値化した情報である。
また、更新数は、サービスサーバーの検索サイトの更新回数を基準とするものであり、基準の判定に用いられるため収集される情報としては検索サイトが作成されてからの更新された更新回数、または予め設定された期間(例えば半年間)における更新の回数を示す更新する更新頻度を示す情報である。
The related person is based on the presence or absence of a link with a real person who actually exists in the real world, and information used to determine the reference includes access data (address, telephone). This is information indicating whether or not (access information for contacting a person such as a number or e-mail address) is described.
In addition, the number of accesses is based on the number of accesses from general users, and since it is used to determine the reference, the collected information includes the number of unique users accessing the service server search site and PV (page view, This is information obtained by quantifying access such as the number of page views.
In addition, the number of updates is based on the number of updates of the search site of the service server, and since it is used for criteria determination, the information collected is the number of updates updated since the search site was created, or It is the information which shows the update frequency which shows the frequency | count of an update in the period (for example, half year) set beforehand.

また、広告領域は、サービスサーバーのサイトに掲載されている宣伝(広告)の表示面積がサイト全体の表示面積に占める割合を基準とするものであり、基準の判定に用いられるため収集される情報としてはサイトに含まれる広告の表示面積とサイト全体の表示面積と、広告の表示面積のサイト全体の表示面積における比率を示す情報である。
上述した基準に対しては重み付けの係数が設定されており、例えば、本実施形態において、正当性の基準に対しては重み付け「5」、組織情報の基準に関しては重み付け「5」、専門性の基準に関しては重み付け「10」、関連人物の基準に関しては重み付け「5」、アクセス数の基準に関しては「30」、更新数の基準関しては「30」、広告領域の基準に関しては「15」が設定されている。
また、基準テーブルにおいて、各変数名の信頼性基準毎に、収集する情報が数値であるか、または基準に対応しているか否かのいずれであるかを示すデータ種別として、数値あるいはT/F(True/False、真/偽)が記載されている。
上述した基準テーブルの各信頼性基準の収集する情報は、定期的に操作者が調査を行い、得られた信頼性を判定するための収集する情報を、データ入力部12を介して解析サーバー1に入力し、信頼性データ記憶部18の基準テーブルに書き込む。
The advertising area is based on the ratio of the display area of advertisements (advertisements) published on the service server site to the display area of the entire site, and is used for criteria judgment. Is information indicating the display area of the advertisement included in the site, the display area of the entire site, and the ratio of the display area of the advertisement to the display area of the entire site.
A weighting coefficient is set for the above-described criteria. For example, in this embodiment, a weighting factor “5” is assigned to the legitimacy criterion, a weighting factor “5” is assigned to the organization information criterion, The weight is “10” for the criterion, the weight is “5” for the criterion for the related person, “30” for the criterion for the number of accesses, “30” for the criterion for the number of updates, and “15” for the criterion for the advertisement area. Is set.
In the reference table, for each reliability name of each variable name, a numerical value or T / F is used as a data type indicating whether the information to be collected is a numerical value or whether it corresponds to the reference. (True / False, true / false).
The information collected by each reliability standard in the above-described standard table is periodically collected by the operator through the data input unit 12 to check the obtained reliability. To the reference table of the reliability data storage unit 18.

次に、本実施形態の動作を説明する前に、均一化を行うデータの構成例を図4を用いて説明する。以下、説明を簡単にするため、図2における解析サーバー1の管理下にあるサービスサーバーをサービスサーバー21及び22の2つとし、データベースDB1とDB2とにおけるデータの構成について説明する。本実施形態の場合、参照データベースを有するサービスサーバーをサーバーAとし、蓄積データベース(対象データベース)を有するサービスサーバーをサーバーBとして設定される。
図4は、サーバーAに設けられた参照データベースのデータと、サーバーBに設けられた蓄積データベースのデータとの一例を示すテーブルである。参照データベース及び蓄積データベースには、このようなデータが蓄積データとして複数個が蓄積されている。参照データを構成する参照項目データの項目名あるいは蓄積データを構成する蓄積項目データの項目名として、商品名(変数名:item_name)、コメント(変数名:comment)、価格(変数名:price)、検索キー(変数名:keyword)、JAN(Japan Article Number code、日本工業規格に定められている、商品識別番号とバーコードの規格)コード(変数名:jan_code)、貯蔵方式(変数名:bin_kbn)、商品の頭文字(変数名:Initial)が記載されている。
Next, before explaining the operation of the present embodiment, a configuration example of data to be uniformized will be described with reference to FIG. In the following, for the sake of simplicity, the service servers under the management of the analysis server 1 in FIG. 2 are assumed to be two service servers 21 and 22, and the data configuration in the databases DB1 and DB2 will be described. In this embodiment, a service server having a reference database is set as server A, and a service server having a storage database (target database) is set as server B.
FIG. 4 is a table showing an example of reference database data provided in the server A and storage database data provided in the server B. In the reference database and the storage database, a plurality of such data is stored as stored data. As item name of reference item data constituting reference data or item name of accumulated item data constituting accumulated data, product name (variable name: item_name), comment (variable name: comment), price (variable name: price), Search key (variable name: keyword), JAN (Japan Article Number code, product identification number and bar code standard defined in Japanese Industrial Standards) code (variable name: jan_code), storage method (variable name: bin_kbn) The initial letter (variable name: Initial) of the product is described.

商品名は項目のメタ情報として「#」の記号にて複数の単語を連結して構成されていることを示す情報として単語複が記載されている。例えば、蓄積項目データとしてはデータベースDB1において「A社#鳥のからあげ#6個入り#冷凍」が記載され、データベースDB2において「A社#とりのからあげ#6個」が記載されている。
また、コメントは項目のメタ情報として文字の連なった文章であることを示す情報として文字列が記載されている。例えば、蓄積項目データとしてはデータベースDB1において「冷めてもやわらかく、ジューシーなおいしさのからあげです。変わらぬおいしさで愛されつづけているロングセラー」が記載され、データベースDB2において「大人気の冷めてもやわらかいジューシーなからあげです。国産鶏がらのブイヨンとまろやかな旨みが特徴」が記載されている。
The product name is described as word information as information indicating that a plurality of words are connected by the symbol “#” as meta information of the item. For example, as the stored item data, “Company A # Bird Fried # 6 #Frozen” is described in the database DB1, and “Company A # Fried # 6 Chickens” is written in the database DB2.
In addition, a character string is described as information indicating that the comment is a sentence with a series of characters as meta information of the item. For example, as stored item data, “DB is soft even if it is cold, and it is succulent because it is juicy. "It's a juicy fried chicken. It is characterized by bouillon and mellow taste of domestic chicken."

価格は項目のメタ情報として数であることを示す情報として数値が記載されている。例えば、蓄積項目データとしてはデータベースDB1において「350」が記載され、データベースDB2において「348」が記載されている。
検索キーは項目のメタ情報として、データベースから各蓄積データを検索する複数の単語が「#」の記号にて連結された構成であることを示す情報として単語複が記載されている。例えば、蓄積項目データとしてはデータベースDB1において「とり#鳥#鶏#からあげ#から揚げ#唐揚#から揚げ#カラアゲ#冷凍食品#冷食」が記載され、データベースDB2において「A社#とり#からあげ#6個」が記載されている。
A numerical value is described as information indicating that the price is a number as meta information of the item. For example, as the accumulated item data, “350” is described in the database DB1, and “348” is described in the database DB2.
The search key is described as meta information of the item, and word duplication is described as information indicating that a plurality of words for retrieving each stored data from the database are connected by a symbol “#”. For example, as the accumulated item data, “tori # bird # chicken # fried # fried # fried # fried # caraage # frozen food # cold food” is described in the database DB 1, and “A company # fried # from # "6" is described.

JANコードは項目のメタ情報として商品の識別情報であることを示すID(identify、識別)が記載されている。例えば、蓄積項目データとしてはデータベースDB1において「5511000044223333」が記載され、データベースDB2において記載されていない。
貯蔵方式は項目のメタ情報として1つの単語で示されていることを示す単語単が記載されている。例えば、蓄積項目データとしてはデータベースDB1において「冷凍」が記載され、データベースDB2において「冷凍」が記載されている。
商品名の頭文字は1つの単語から構成されることを示す情報として単語単が記載されている。例えば、蓄積項目データとしてはデータベースDB1において、「とりのからあげ」の頭文字の「と」が記載され、データベースDB2において記載されていない。
An ID (identify) indicating that the JAN code is product identification information is described as item meta information. For example, as the accumulated item data, “5511000044223333” is described in the database DB1, and is not described in the database DB2.
In the storage method, a single word indicating that it is indicated by one word as meta information of an item is described. For example, as the stored item data, “Frozen” is described in the database DB1, and “Frozen” is described in the database DB2.
A single word is described as information indicating that the initial of the product name is composed of one word. For example, as the stored item data, the initial “TO” is written in the database DB1, and is not described in the database DB2.

参照データの蓄積項目データと蓄積データの蓄積項目データとの情報が一致した際に乗算される重み付けの係数が項目毎に設定されている。
商品名には、単語複により構成される複数の単語の内、一致した単語の数に対して乗算される重み付け係数として「30」が記載されている。コメントの文字列を構成する単語の内、一致する単語の数に対して乗算される重み付け係数として「5」が記載されている。価格には数値のいずれか大きい方により、小さい方を除算した数値に乗算する重み付け係数として「30」が記載されている。検索キーには、単語複により構成される複数の単語の内、一致した単語の数に対して乗算される重み付け係数として「5」が記載されている。JANコードにはコードの識別番号が一致した際に与えられる数値に乗算される重み係数「10」が記載されている。貯蔵方式には単語単として記載された単語が一致した際に与えられる数値に乗算される重み係数「10」が記載されている。商品名の頭文字には単語単として記載された単語が一致した際に与えられる数値に乗算される重み係数「10」が記載されている。
A weighting coefficient to be multiplied when the information of the accumulated item data of the reference data matches the accumulated item data of the accumulated data is set for each item.
In the product name, “30” is described as a weighting coefficient to be multiplied with respect to the number of matched words among a plurality of words composed of words. “5” is described as a weighting coefficient to be multiplied to the number of matching words among the words constituting the character string of the comment. In the price, “30” is described as a weighting coefficient for multiplying the numerical value obtained by dividing the smaller one by the larger numerical value. In the search key, “5” is described as a weighting coefficient to be multiplied to the number of matched words among a plurality of words constituted by word duplication. The JAN code describes a weight coefficient “10” that is multiplied by a numerical value given when the identification numbers of the codes match. The storage method describes a weighting factor “10” that is multiplied by a numerical value given when words described as single words match. The initial value of the product name describes a weighting factor “10” that is multiplied by a numerical value given when a word described as a single word matches.

参照データの蓄積項目データにより、蓄積データの蓄積項目データの書き換えを行うか否か、また書き換える場合にどのように処理するかを示す更新情報が項目毎に設定されている。ここで、書き換えを行うか否かは可否情報であり、更新情報が非対象の場合、書き換えは否であることを示し、更新情報が上書き、和集合の場合、書き換えは可であることを示している。
商品名の項には参照データの商品名により、蓄積データの商品名の情報を書き換えることを示す情報として上書きが記載されている。コメントの項には、参照データのコメントにより、蓄積データのコメントの情報を書き換えないことを示す情報として非対象が記載されている。価格の項には参照データの価格により、蓄積データの価格の情報を書き換えないことを示す情報として非対象が記載されている。検索キーの項には、参照データの情報と蓄積データの情報とのオアを取ることを示す情報である和集合が記載されている。JANコードの項には参照データのJANコードのIDの番号により、蓄積データのJANコードのIDの番号を書き換えることを示す情報として上書きが記載されている。貯蔵方式の項には参照データの貯蔵方式により、蓄積データの貯蔵方式の情報を書き換えることを示す情報として上書きが記載されている。商品名の頭文字の項には参照データの商品名の頭文字により、蓄積データの商品名の頭文字の情報を書き換えることを示す情報として上書きが記載されている。
Update information indicating whether or not to rewrite the stored item data of the stored data and how to process the rewritten data is set for each item based on the reference item stored item data. Here, whether or not rewriting is performed is permission information. When update information is non-target, it indicates that rewriting is not possible, and when update information is overwritten or union, it indicates that rewriting is possible. ing.
In the item of product name, overwriting is described as information indicating that the product name information of the accumulated data is rewritten with the product name of the reference data. In the comment section, non-object is described as information indicating that the comment information of the accumulated data is not rewritten by the comment of the reference data. In the price section, non-object is described as information indicating that the price information of the stored data is not rewritten according to the price of the reference data. The search key field describes a union that is information indicating that the OR of the reference data information and the stored data information is taken. In the JAN code section, overwriting is described as information indicating that the JAN code ID number of the stored data is rewritten with the JAN code ID number of the reference data. In the storage method section, overwriting is described as information indicating that the storage data storage method information is rewritten by the reference data storage method. In the section of the initial of the product name, overwriting is described as information indicating that the initial information of the product name of the stored data is rewritten by the initial of the product name of the reference data.

次に、図5により本実施形態における解析サーバー1の行うデータベースのデータの均一化処理の動作を説明する。図5は、解析サーバー1が参照データベースのデータにより、対象データベースのデータのデータ更新を行い、データの均一化を行う処理の動作例を示すフローチャートである。解析サーバー1の管理するサービスサーバーがサービスサーバー21及び22の2つとして以下、解析サーバー1における均一化処理の説明を行う。   Next, the operation of the database data equalization processing performed by the analysis server 1 in this embodiment will be described with reference to FIG. FIG. 5 is a flowchart showing an operation example of processing in which the analysis server 1 updates the data in the target database with the data in the reference database and uniformizes the data. Assuming that the service servers managed by the analysis server 1 are two service servers 21 and 22, the equalization processing in the analysis server 1 will be described below.

データ入力部12は、操作者(ユーザー)から均一化処理の実行を示す情報が入力された場合、解析サーバー1における均一化処理を開始させる。また、制御部11は予め設定された所定の周期となる時間が経過すると解析サーバー1における均一化処理を開始させる。
参照データベース設定部15は、サービスサーバー21のデータベースDB1と、サービスサーバー22のデータベースDB2とのいずれかが信頼性が高く参照データベースとして用いるかの判定を行う(ステップS1)。
このとき、参照データベース設定部15は、信頼性が高い方を参照データベースとし、この参照データベースを有するサービスサーバーをサーバーAに設定し、低い方を参照データベースのデータにより更新する蓄積データベースとし、この蓄積データベースを有するサービスサーバーをサーバーBに設定し、設定が終了したことを類似度算出部16に対して通知する。
The data input unit 12 starts the homogenization process in the analysis server 1 when information indicating the execution of the homogenization process is input from an operator (user). Moreover, the control part 11 will start the equalization process in the analysis server 1, if the time used as the predetermined period set beforehand passes.
The reference database setting unit 15 determines whether one of the database DB1 of the service server 21 and the database DB2 of the service server 22 is highly reliable and is used as a reference database (step S1).
At this time, the reference database setting unit 15 sets the higher reliability as the reference database, sets the service server having the reference database in the server A, and sets the lower one as the storage database to be updated with the data of the reference database. A service server having a database is set in the server B, and the similarity calculation unit 16 is notified that the setting has been completed.

次に、類似度算出部16は、サーバーAに設けられた参照データベース内のデータ数を、データ送受信部13を介してサーバーAにアクセスして取得する(ステップS2)。すなわち、解析サーバー1はサーバーAに対し、参照データベースに蓄積されているデータの数(すなわち、レコード数)と各データが記憶されている位置を示すレコード番号を取得する依頼信号を送信する。この依頼信号をデータ送受信部13及びネットワークを介して受信すると、サーバーAは、蓄積データベースに蓄積されている参照データのデータ数であるレコード数と、各データのレコード番号を取得し、参照データの参照データ数及びデータのレコード番号として解析サーバー1に対して送信する。
そして、類似度算出部16は、サーバーAから、参照データベースに蓄積されているデータの参照データ数及びレコード番号がデータ送受信部13を介して供給されると、このデータ数及びレコード番号をサーバーAを識別するサーバー識別情報に対応させ、記憶部19に書き込む。また、類似度算出部16は、後述する参照データ数のチェックが終了したか否かの判定に用いるため、記憶部19に記憶されているチェック数Aを初期化して0とする。
Next, the similarity calculation unit 16 obtains the number of data in the reference database provided in the server A by accessing the server A via the data transmission / reception unit 13 (step S2). That is, the analysis server 1 transmits to the server A a request signal for acquiring the number of data stored in the reference database (that is, the number of records) and the record number indicating the position where each data is stored. When this request signal is received via the data transmission / reception unit 13 and the network, the server A acquires the number of records, which is the number of reference data stored in the storage database, and the record number of each data. The number of reference data and the record number of the data are transmitted to the analysis server 1.
When the similarity calculation unit 16 receives the reference data number and record number of the data stored in the reference database from the server A via the data transmission / reception unit 13, the similarity calculation unit 16 obtains the data number and record number from the server A. Is written in the storage unit 19 in correspondence with the server identification information for identifying. In addition, the similarity calculation unit 16 initializes the number of checks A stored in the storage unit 19 to 0 to be used for determining whether or not the check of the number of reference data described later has been completed.

次に、類似度算出部16は、記憶部19から参照データ数及びチェック数Aを読み出し、チェック数Aが参照データ数未満であるか否かの判定を行う(ステップS3)。
このとき、類似度算出部16は、チェック数Aが参照データ数未満である場合、処理をステップS4へ進め、チェック数Aが参照データ数以上となった場合、均一化の処理を終了する。
Next, the similarity calculation unit 16 reads the reference data number and the check number A from the storage unit 19, and determines whether or not the check number A is less than the reference data number (step S3).
At this time, when the number of checks A is less than the number of reference data, the similarity calculation unit 16 advances the process to step S4, and when the number of checks A is equal to or greater than the number of reference data, ends the equalization process.

次に、類似度算出部16は、記憶部19に記憶されている参照データのレコード番号から、処理終了を示す終了フラグが付与されていないレコード番号を選択し、記憶部19に対してこの参照データのレコード番号に対応して終了フラグを書き込むことで、この参照データに対して終了フラグを付与する(ステップS4)。
そして、類似度算出部16は、サーバーAに対し、参照データの読み出し及び送信を依頼する検索信号を、終了フラグを付与した参照データのレコード番号とともに、データ送受信部13を介して送信する。
サーバーAは、類似度算出部16から参照データを送信する検索信号を受信すると、検索信号に付与されているレコード番号の参照データを読み出し、読み出した参照データを解析サーバ1へ送信する。
Next, the similarity calculation unit 16 selects a record number to which the end flag indicating the end of processing is not given from the record number of the reference data stored in the storage unit 19, and refers to the storage unit 19 with this reference number. By writing an end flag corresponding to the record number of the data, an end flag is given to this reference data (step S4).
Then, the similarity calculation unit 16 transmits a search signal for requesting reading and transmission of reference data to the server A through the data transmitting / receiving unit 13 together with the record number of the reference data to which the end flag is added.
When the server A receives the search signal for transmitting the reference data from the similarity calculation unit 16, the server A reads the reference data of the record number given to the search signal and transmits the read reference data to the analysis server 1.

参照データが送受信部13を介して供給されると、類似度算出部16は、前回書き込んだ参照データを記憶部19から削除し、この供給された参照データを記憶部19に書き込み、チェック数Aをインクリメント(1を加算)する(ステップS5)。   When the reference data is supplied via the transmission / reception unit 13, the similarity calculation unit 16 deletes the previously written reference data from the storage unit 19, writes the supplied reference data to the storage unit 19, and the number of checks A Is incremented (1 is added) (step S5).

次に、類似度算出部16は、サーバーBに設けられた対象データベース内のデータ数を、データ送受信部13を介してサーバーBにアクセスして取得する(ステップS6)。すなわち、解析サーバー1はサーバーBに対し、蓄積データベースに蓄積されているデータの数(すなわち、レコード数)と各データが記憶されている位置を示すレコード番号を取得する依頼信号を送信する。この依頼信号をデータ送受信部13及びネットワークを介して受信すると、サーバーBは、蓄積データベースに蓄積されている蓄積データのデータ数であるレコード数と、各データのレコード番号を取得し、蓄積データの蓄積データ数及びデータのレコード番号として解析サーバー1に対して送信する。
そして、類似度算出部16は、サーバーBから、対象データベースに蓄積されているデータの蓄積データ数及びレコード番号がデータ送受信部13を介して供給されると、この蓄積データ数及びレコード番号をサーバーBを識別するサーバー識別情報に対応させ、記憶部19に書き込む。また、類似度算出部16は、後述するデータ数のチェックが終了したか否かの判定に用いるため、記憶部19に記憶されているチェック数Bを初期化して0とする。
Next, the similarity calculation unit 16 accesses the server B via the data transmission / reception unit 13 to obtain the number of data in the target database provided in the server B (step S6). That is, the analysis server 1 transmits to the server B a request signal for obtaining the number of data stored in the storage database (that is, the number of records) and the record number indicating the position where each data is stored. When this request signal is received via the data transmission / reception unit 13 and the network, the server B acquires the number of records, which is the number of stored data stored in the storage database, and the record number of each data. The number of stored data and the record number of the data are transmitted to the analysis server 1.
Then, when the storage data number and the record number of the data stored in the target database are supplied from the server B via the data transmission / reception unit 13, the similarity calculation unit 16 receives the stored data number and the record number from the server B. Write to the storage unit 19 in correspondence with the server identification information for identifying B. In addition, the similarity calculation unit 16 initializes the number of checks B stored in the storage unit 19 to 0 for use in determining whether or not the check of the number of data described later has been completed.

次に、類似度算出部16は、記憶部19から蓄積データ数及びチェック数Bを読み出し、チェック数Bが蓄積データ数未満であるか否かの判定を行う(ステップS7)。
このとき、類似度算出部16は、チェック数Bが蓄積データ数未満である場合、処理をステップS8へ進め、チェック数Bが蓄積データ数以上となった場合、処理をステップS3へ進める。
Next, the similarity calculation unit 16 reads out the accumulated data number and the check number B from the storage unit 19, and determines whether or not the check number B is less than the accumulated data number (step S7).
At this time, the similarity calculation unit 16 advances the process to step S8 when the check number B is less than the accumulated data number, and advances the process to step S3 when the check number B is equal to or greater than the accumulated data number.

次に、類似度算出部16は、記憶部19に記憶されている蓄積データのレコード番号から、処理終了を示す終了フラグが付与されていないレコード番号を選択し、記憶部19に対してこの蓄積データのレコード番号に対応して終了フラグを書き込むことで、この蓄積データに対して終了フラグを付与する(ステップS8)。
そして、類似度算出部16は、サーバーBに対し、蓄積データの読み出し及び送信を依頼する検索信号を、終了フラグを付与した蓄積データのレコード番号とともに、データ送受信部13を介して送信する。
サーバーBは、類似度算出部16から蓄積データを送信する検索信号を受信すると、検索信号に付与されているレコード番号の蓄積データを読み出し、読み出した蓄積データを解析サーバ1へ送信する。
Next, the similarity calculation unit 16 selects a record number that is not given an end flag indicating the end of processing from the record numbers of the accumulated data stored in the storage unit 19, and stores this accumulation in the storage unit 19. By writing an end flag corresponding to the record number of the data, an end flag is given to the accumulated data (step S8).
Then, the similarity calculation unit 16 transmits a search signal for requesting reading and transmission of stored data to the server B through the data transmitting / receiving unit 13 together with the record number of the stored data to which the end flag is added.
When the server B receives the search signal for transmitting the stored data from the similarity calculation unit 16, the server B reads the stored data of the record number given to the search signal and transmits the read stored data to the analysis server 1.

蓄積データが送受信部13を介して供給されると、類似度算出部16は、前回書き込んだ蓄積データを記憶部19から削除し、この供給された蓄積データを記憶部19に書き込み、チェック数Bをインクリメントする(ステップS9)。   When the accumulated data is supplied via the transmission / reception unit 13, the similarity calculation unit 16 deletes the previously written accumulated data from the storage unit 19, writes the supplied accumulated data into the storage unit 19, and checks the number of checks B Is incremented (step S9).

次に、類似度算出部16は、記憶部19に記憶されている参照データ及び蓄積データを読み出し、この参照データ及び蓄積データの類似度SCORE_ALLを算出する(ステップS10)。この類似度算出部16が行う類似度算出の処理についての詳細は後述する。   Next, the similarity calculation unit 16 reads the reference data and accumulated data stored in the storage unit 19, and calculates the similarity SCORE_ALL of the reference data and accumulated data (step S10). Details of the similarity calculation processing performed by the similarity calculation unit 16 will be described later.

そして、類似度算出部16は、求めた類似度SCORE_ALLが予め設定した閾値を超えるか否かの判定を行い(ステップS11)、類似度SCORE_ALLが予め設定した閾値を超える場合、処理をステップS12へ進め、一方、類似度SCORE_ALLが予め設定した閾値以下の場合、処理をステップS7へ進める。   Then, the similarity calculation unit 16 determines whether the obtained similarity SCORE_ALL exceeds a preset threshold (step S11). If the similarity SCORE_ALL exceeds a preset threshold, the process proceeds to step S12. On the other hand, if the similarity SCORE_ALL is less than or equal to a preset threshold value, the process proceeds to step S7.

次に、書換項目検出部17は、蓄積データを構成する蓄積項目データの各変数名(item_name、comment、price、Keyword、jan_code、bin_kbn、Initial)を記憶19から読み込み、記憶部19に設定されている書換リストに書き込み(ステップS12)、処理をステップS13へ進める。   Next, the rewrite item detection unit 17 reads each variable name (item_name, comment, price, keyword, Jan_code, bin_kbn, Initial) of the storage item data constituting the storage data from the storage 19 and is set in the storage unit 19. (Step S12), and the process proceeds to step S13.

次に、書換項目検出部17は、記憶部19の書換リストに蓄積項目データの変数名の有無を確認し(ステップS13)、書込リストにいずれの変数名も存在しない場合、処理をステップS14へ進め、一方、いずれかの変数名が書込リストに存在する場合、処理をステップS14へ進める。   Next, the rewrite item detection unit 17 checks whether or not there is a variable name of the accumulated item data in the rewrite list of the storage unit 19 (step S13). If no variable name exists in the write list, the process is performed in step S14. On the other hand, if any variable name exists in the write list, the process proceeds to step S14.

蓄積データ及び参照データの変更の処理が終了したとして、データ内容更新部14は、記憶部19に記憶されている蓄積データをレコード番号とともに読み出し、読み出した蓄積番号及びレコード番号を書換信号に付与してサーバーBに送信し、同様に、記憶部19に記憶されている参照データをレコード番号とともに読み出し、読み出した参照番号及びレコード番号を書換信号に付与してサーバーAに送信する(ステップS14)。
次に、サーバーBは、解析サーバ1から受信した書換信号により、蓄積データベースにおける書換信号に付与されたレコード番号の蓄積データを、書換信号に付与された蓄積データにより書き換える。
また、サーバーAは、解析サーバ1から受信した書換信号により、参照データベースにおける書換信号に付与されたレコード番号の参照データを、書換信号に付与された参照データにより書き換える。
Assuming that the process of changing the accumulated data and the reference data is completed, the data content updating unit 14 reads the accumulated data stored in the storage unit 19 together with the record number, and adds the read accumulation number and record number to the rewrite signal. Similarly, the reference data stored in the storage unit 19 is read together with the record number, and the read reference number and record number are added to the rewrite signal and transmitted to the server A (step S14).
Next, the server B rewrites the accumulated data of the record number given to the rewrite signal in the accumulation database with the accumulated data given to the rewrite signal by the rewrite signal received from the analysis server 1.
In addition, the server A rewrites the reference data of the record number given to the rewrite signal in the reference database with the reference data given to the rewrite signal by the rewrite signal received from the analysis server 1.

そして、書換項目検出部17は、記憶部19の書換リストから存在する変数名のいずれかを読み出し(ステップS15)、読み出した変数名を記憶部19の書換リストから削除し、処理をステップS16へ進める。   Then, the rewrite item detection unit 17 reads one of the existing variable names from the rewrite list in the storage unit 19 (step S15), deletes the read variable name from the rewrite list in the storage unit 19, and the process proceeds to step S16. Proceed.

次に、書換項目検出部17は、読み出した変数名に対応する蓄積項目データの更新情報を、記憶部19の蓄積データから読み込み(ステップS16)、処理をステップS17へ進める。   Next, the rewrite item detection unit 17 reads the update information of the accumulation item data corresponding to the read variable name from the accumulation data in the storage unit 19 (step S16), and advances the processing to step S17.

更新情報を読み込むと、書換項目検出部17は、更新情報として記載された情報が変更の種別として非対象、上書き、和集合のいずれであるかの判定を行う(ステップS17)。ここで、書換項目検出部17は、読み出した種別と、対応する変数名とをデータ内容更新部14へ出力する。
そして、データ内容更新部14は、供給される種別が非対象の場合、データの書換処理を行わずに、処理をステップS13へ進め、種別が上書きの場合、処理をステップS18へ進め、種別が和集合の場合、処理をステップS19へ進める。
When the update information is read, the rewrite item detection unit 17 determines whether the information described as the update information is non-target, overwrite, or union as the type of change (step S17). Here, the rewrite item detection unit 17 outputs the read type and the corresponding variable name to the data content update unit 14.
Then, the data content update unit 14 advances the process to step S13 without performing the data rewriting process when the supplied type is non-target, and advances the process to step S18 when the type is overwritten. If it is a union, the process proceeds to step S19.

図6は、データ内容更新部14が参照データベースの参照データの情報により、図4における蓄積データベースの蓄積データの内容が更新される処理を説明する図である。
変数名comment及びpriceは、更新情報が非対象のため、変更処理が行われない。
変数名item_name、jan_code、bin_kbn及びinitialは、更新情報が上書きのため、参照項目データにより蓄積項目データが上書きされることにより変更されている。ここで、変数名bin_kbnの場合、参照項目データと蓄積項目データとの情報が変更前から同一であるため、上書きしても変更されていないように見える。
また、変数名keywordは、更新情報が和集合のため、蓄積項目データ及び参照項目データとの双方が互いの単語のオアをとり、和集合の処理が行われる。
FIG. 6 is a diagram illustrating a process in which the data content update unit 14 updates the content of the accumulated data in the accumulated database in FIG. 4 with the information of the reference data in the reference database.
The variable names “comment” and “price” are not subject to change because update information is not targeted.
The variable names item_name, jan_code, bin_kbn, and initial are changed by overwriting the stored item data with the reference item data because the update information is overwritten. Here, in the case of the variable name bin_kbn, since the information of the reference item data and the accumulated item data is the same before the change, it does not seem to be changed even if overwritten.
Further, since the update information of the variable name keyword is a union, both the accumulated item data and the reference item data take the OR of each other word, and the union processing is performed.

更新情報が上書きの場合、データ内容更新部14は、記憶部19において、同様データとして検出された参照データから、変数名に対応した参照項目データを読み出し、この参照項目データにより蓄積データにおける同一の変数名の蓄積項目データを上書きする(ステップS18)。また、データ内容更新部14は、処理をステップS13へ進める。   When the update information is overwritten, the data content update unit 14 reads the reference item data corresponding to the variable name from the reference data detected as the same data in the storage unit 19, and uses the reference item data to store the same in the accumulated data. The accumulated item data of the variable name is overwritten (step S18). In addition, the data content update unit 14 advances the process to step S13.

更新情報が和集合の場合、データ内容更新部14は、蓄積項目データの記号#で区切られた単語列から、記号#により各単語を分割して抽出し、抽出した単語を単語リストに書き込む。
続いて、データ内容更新部14は、参照項目データの記号#で区切られた単語列から、記号#により各単語を分割して抽出し、抽出した単語を単語リストに書き込み(ステップS19)、処理をステップS20へ進める。
When the update information is a union, the data content update unit 14 divides and extracts each word by the symbol # from the word string delimited by the symbol # of the stored item data, and writes the extracted word to the word list.
Subsequently, the data content update unit 14 divides and extracts each word by the symbol # from the word string delimited by the symbol # of the reference item data, writes the extracted word in the word list (step S19), and performs processing To step S20.

次に、データ内容更新部14は、記憶部19において、単語リストのなかから同一の単語が複数存在するか否かを検出し、同一の単語が複数ある場合、この複数の単語からいずれか一つを残し、他の同一の単語を削除し(ステップS20)、処理をステップS21へ進める。   Next, the data content update unit 14 detects in the storage unit 19 whether or not there are a plurality of the same words from the word list. If there are a plurality of the same words, any one of the plurality of words is selected. One other word is deleted (step S20), and the process proceeds to step S21.

そして、データ内容更新部14は、記憶部19の単語リストに存在する単語を1つずつ順番に読み出し、順次読み出した単語を記号#を単語間に挟むことで各単語を連結し(ステップS21)、処理をステップS22へ進める。   Then, the data content update unit 14 sequentially reads the words existing in the word list of the storage unit 19 one by one, and concatenates the words by inserting the symbol # between the sequentially read words (step S21). Then, the process proceeds to step S22.

次に、データ内容更新部14は、この連結した単語列を、記憶部19に記憶されている蓄積データの対応する蓄積項目データに上書きし、かつ参照データの対応する参照項目データに上書きし(ステップS22)、処理をステップS13へ進める。
本実施形態としては、説明を簡単にするため、2つのサービスサーバー21及び22との構成により、蓄積データの均一化を説明した。また、解析サーバー1は、サービスサーバーが3個以上の複数の場合(サービスサーバー21から2nから構成される場合)も、これらのデータベースの中から、参照データベースとなるデータベースの検索を行う。そして、解析サーバー1は、参照データベースとならなかった蓄積データベースを対象データベースとして、上述したデータベース間における蓄積データの均一化処理を、参照データベースの参照データベースにより、順次データベース毎に行っていく。
Next, the data content updating unit 14 overwrites the concatenated word string on the corresponding stored item data of the stored data stored in the storage unit 19 and overwrites the corresponding reference item data of the reference data ( Step S22), the process proceeds to step S13.
In the present embodiment, in order to simplify the description, the uniformization of accumulated data has been described by the configuration with the two service servers 21 and 22. The analysis server 1 also searches for a database serving as a reference database from these databases even when there are a plurality of service servers of three or more (when configured from service servers 21 to 2n). Then, the analysis server 1 uses the storage database that has not become the reference database as a target database, and performs the above-described homogenization processing of the stored data among the databases sequentially for each database using the reference database of the reference database.

次に、図8により本実施形態の解析サーバ1における参照データベース設定部15の行う参照データベースの選択処理の動作を説明する。図8は、参照データベース設定部15が信頼性データ記憶部18に記憶された基準テーブル(図7に示す)の各信頼性基準に基づき、複数のデータベースのいずれを、最も信頼性の高い参照データベースとして選択するかの動作例を示すフローチャートである。
解析サーバー1の管理するサービスサーバーがサービスサーバー21及び22の2つとし、以下、参照データベース設定部15による参照データベースの選択処理を説明する。また、このとき、前回の判定において、サービスサーバー21がサーバーAであり、サービスサーバー22がサーバーBとして設定されているとする。
Next, the operation of the reference database selection process performed by the reference database setting unit 15 in the analysis server 1 of this embodiment will be described with reference to FIG. FIG. 8 shows that the reference database setting unit 15 determines which one of a plurality of databases is the most reliable reference database based on each reliability standard of the standard table (shown in FIG. 7) stored in the reliability data storage unit 18. FIG.
The service servers managed by the analysis server 1 are assumed to be two service servers 21 and 22, and the reference database selection processing by the reference database setting unit 15 will be described below. At this time, it is assumed that the service server 21 is the server A and the service server 22 is the server B in the previous determination.

参照データベース設定部15は、信頼性データ記憶部18の基準テーブルから、各基準の変数名Validity、Organaization、Specialty、Person、Access、Update及びAdvertisementを読み込み、記憶部19の選択テーブルに順次書き込み(ステップS101)、処理をステップS2へ進める。また、このとき、参照データベース設定部15は、いずれのデータベースの信頼性が高いかを示す評価値VALUE_ALLを0に初期化する。   The reference database setting unit 15 reads the variable names Validity, Organization, Specialty, Person, Access, Update, and Advertisement of each criterion from the criterion table of the reliability data storage unit 18 and sequentially writes them to the selection table of the storage unit 19 (steps). S101), the process proceeds to step S2. At this time, the reference database setting unit 15 initializes an evaluation value VALUE_ALL indicating which database has high reliability to 0.

次に、参照データベース設定部15は、記憶部19の選択テーブルにいずれかの変数名が存在するか否かの判定を行い(ステップS102)、いずれの変数名も残っていない場合、処理をステップS103へ進め、一方、いずれかの変数名が存在する場合、処理をステップS105へ進める。   Next, the reference database setting unit 15 determines whether or not any variable name exists in the selection table of the storage unit 19 (step S102). If no variable name remains, the process proceeds to step S102. On the other hand, if any variable name exists, the process proceeds to step S105.

そして、参照データベース設定部15は、評価値VALUE_ALLが正または負のいずれであるか(0以上であるか否か)の判定を行う(ステップS103)。評価値VALUE_ALLが正の場合、サーバーAであるサービスサーバー21に設けられたデータベースDB1が、サーバーBであるサービスサーバー22に設けられたデータベースDB2より信頼性が高いとして、参照データベースとしてデータベースDB1を設定し、対象データベースとしてデータベースDB2を設定した状態を変更せず、参照データベース設定処理を終了する。一方、評価値VALUE_ALLが負の場合、サーバーAであるサービスサーバー21に設けられたデータベースDB1が、サーバーBであるサービスサーバー22に設けられたデータベース22より信頼性が低いとして、参照データベースとしてデータベースDB2を設定し、対象データベースとしてデータベースDB1を設定した状態として(サーバーAとサーバBとをスイッチして)、参照データベース設定処理を終了する。   Then, the reference database setting unit 15 determines whether the evaluation value VALUE_ALL is positive or negative (whether it is 0 or more) (step S103). When the evaluation value VALUE_ALL is positive, the database DB1 provided in the service server 21 that is the server A is set to be more reliable than the database DB2 provided in the service server 22 that is the server B, and the database DB1 is set as the reference database. Then, the reference database setting process is terminated without changing the state in which the database DB2 is set as the target database. On the other hand, when the evaluation value VALUE_ALL is negative, it is assumed that the database DB1 provided in the service server 21 that is the server A is lower in reliability than the database 22 provided in the service server 22 that is the server B. And the database DB1 is set as the target database (switching between the server A and the server B), and the reference database setting process is terminated.

選択リストにいずれかの変数名が存在した場合、参照データベース設定部15は、記憶部19の選択リストに存在するいずれかの変数名を読み込み(ステップS105)、処理をステップS106へ進める。このとき、参照データベース設定部15は、読み込んだ変数名を、記憶部19の選択リストから削除する。   If any variable name exists in the selection list, the reference database setting unit 15 reads any variable name existing in the selection list in the storage unit 19 (step S105), and advances the process to step S106. At this time, the reference database setting unit 15 deletes the read variable name from the selection list in the storage unit 19.

変数名を読み込むと、参照データベース設定部15は、変数名に対応した信頼性基準の収集する情報を、信頼性データ記憶部18のデータベースDB1、DB2の各々に対応した信頼性テーブルそれぞれから読み出す(ステップS106)。
ここで、参照データベース設定部15は、信頼性テーブルから読み出して収集する情報が、数値であるか、または信頼性基準を満たすか否かを示す有無情報であるかを、データ種別により判定し(ステップS107)、データ種別が数値である場合、処理をステップS108へ進め、一方、データ種別がT/Fである場合、処理をステップS114へ進める。図7において、数値としては基準名として、正当性(外部リンクのリンク数)、アクセス数、更新数及び広告領域(広告の表示面積がサイトの全表示面積に占める割合を示す比率)がある。
When the variable name is read, the reference database setting unit 15 reads the information collected by the reliability standard corresponding to the variable name from each of the reliability tables corresponding to the databases DB1 and DB2 of the reliability data storage unit 18 ( Step S106).
Here, the reference database setting unit 15 determines whether the information read and collected from the reliability table is a numerical value or presence / absence information indicating whether or not the reliability standard is satisfied based on the data type ( In step S107), if the data type is a numerical value, the process proceeds to step S108. On the other hand, if the data type is T / F, the process proceeds to step S114. In FIG. 7, as numerical values, there are legitimacy (the number of links of external links), the number of accesses, the number of updates, and the advertisement area (the ratio indicating the ratio of the advertisement display area to the total display area of the site).

データ種別が数値の場合、参照データベース設定部15は、データベースDB1の収集する情報の数値を変数Dat_Aに代入し、同様にデータベースDB2の収集する情報の数値を変数Dat_Bに代入し(ステップS108)、処理をステップS109へ進める。   When the data type is a numerical value, the reference database setting unit 15 assigns the numerical value of the information collected in the database DB1 to the variable Dat_A, and similarly substitutes the numerical value of the information collected in the database DB2 into the variable Dat_B (step S108). The process proceeds to step S109.

次に、参照データベース設定部15は、変数Dat_Aに代入された数値と、変数Dat_Bに代入された数値とが等しいか否かの判定を行い(ステップS109)、変数Dat_Aに代入された数値と変数Dat_Bに代入された数値とが等しい場合、処理をステップS111へ進め、一方、変数Dat_Aに代入された数値と変数Dat_Bに代入された数値とが異なる場合、処理をステップS110へ進める。   Next, the reference database setting unit 15 determines whether or not the numerical value assigned to the variable Dat_A is equal to the numerical value assigned to the variable Dat_B (step S109), and the numerical value assigned to the variable Dat_A and the variable If the numerical value assigned to Dat_B is equal, the process proceeds to step S111. On the other hand, if the numerical value assigned to variable Dat_A is different from the numerical value assigned to variable Dat_B, the process proceeds to step S110.

変数Dat_Aに代入された数値と変数Dat_Bに代入された数値とが等しい場合、参照データベース設定部15は、変数VALUEに0を代入し(ステップS111)、処理をステップS121へ進める。   When the numerical value assigned to the variable Dat_A is equal to the numerical value assigned to the variable Dat_B, the reference database setting unit 15 assigns 0 to the variable VALUE (step S111), and the process proceeds to step S121.

変数Dat_Aに代入された数値と変数Dat_Bに代入された数値とが異なる場合、参照データベース設定部15は、変数Dat_Aに代入された数値が変数Dat_Bに代入された数値より大きいか否かの判定を行い、変数Dat_Aに代入された数値が変数Dat_Bに代入された数値より大きい場合、処理をステップS112へ進める。一方、変数Dat_Aに代入された数値が変数Dat_Bに代入された数値より小さい場合、処理をステップS113へ進める。   When the numerical value assigned to the variable Dat_A is different from the numerical value assigned to the variable Dat_B, the reference database setting unit 15 determines whether or not the numerical value assigned to the variable Dat_A is larger than the numerical value assigned to the variable Dat_B. If the numerical value assigned to the variable Dat_A is larger than the numerical value assigned to the variable Dat_B, the process proceeds to step S112. On the other hand, if the numerical value assigned to the variable Dat_A is smaller than the numerical value assigned to the variable Dat_B, the process proceeds to step S113.

変数Dat_Aに代入された数値が変数Dat_Bに代入された数値より大きい場合、参照データベース設定部15は、変数VALUEに1を代入し(ステップS112)、処理をステップS121へ進める。   When the numerical value assigned to the variable Dat_A is larger than the numerical value assigned to the variable Dat_B, the reference database setting unit 15 assigns 1 to the variable VALUE (step S112), and the process proceeds to step S121.

変数Dat_Aに代入された数値が変数Dat_Bに代入された数値より小さい場合、参照データベース設定部15は、変数VALUEに−1を代入し(ステップS113)、処理をステップS121へ進める。   If the numerical value assigned to the variable Dat_A is smaller than the numerical value assigned to the variable Dat_B, the reference database setting unit 15 assigns −1 to the variable VALUE (step S113), and the process proceeds to step S121.

ステップS107においてデータ種別がT/Fである場合、参照データベース設定部15は、データベースDB1の収集する情報として有無を示すTまたはFの文字を変数Dat_Aに代入し、同様にデータベースDB2の収集する情報として有無を示すTまたはFの数値を変数Dat_Bに代入し(ステップS114)、処理をステップS115へ進める。図7において、T/Fとしては基準名として、組織情報、専門性及び関連人物がある。   When the data type is T / F in step S107, the reference database setting unit 15 substitutes the letter T or F indicating presence / absence as information collected in the database DB1 into the variable Dat_A, and similarly collects information in the database DB2. Then, the numerical value of T or F indicating presence / absence is substituted into the variable Dat_B (step S114), and the process proceeds to step S115. In FIG. 7, T / F includes organization information, expertise, and related persons as reference names.

次に、参照データベース設定部15は、変数Dat_Aに代入された文字と、変数Dat_Bに代入された文字とが等しいか否かの判定を行い(ステップS115)、変数Dat_Aに代入された文字と変数Dat_Bに代入された文字とが等しい場合、処理をステップS116へ進め、一方、変数Dat_Aに代入された文字と変数Dat_Bに代入された文字とが異なる場合、処理をステップS117へ進める。   Next, the reference database setting unit 15 determines whether or not the character assigned to the variable Dat_A is equal to the character assigned to the variable Dat_B (step S115), and the character and variable assigned to the variable Dat_A are determined. If the character assigned to Dat_B is equal, the process proceeds to step S116. If the character assigned to variable Dat_A and the character assigned to variable Dat_B are different, the process proceeds to step S117.

変数Dat_Aに代入された文字と変数Dat_Bに代入された文字とが等しい場合、参照データベース設定部15は、変数Dat_Bに書き込まれた文字がT(True)であるか否かの判定を行い(ステップS116)、変数Dat_Bに書き込まれた文字がTでない場合、処理をステップS118へ進め、一方、変数Dat_Bに書き込まれた文字がTである場合、処理をステップS119へ進める。   When the character assigned to the variable Dat_A is equal to the character assigned to the variable Dat_B, the reference database setting unit 15 determines whether or not the character written to the variable Dat_B is T (True) (step) S116) If the character written in the variable Dat_B is not T, the process proceeds to step S118. On the other hand, if the character written in the variable Dat_B is T, the process proceeds to step S119.

変数Dat_Aに代入された文字と変数Dat_Bに代入された文字とが等しくない場合、参照データベース設定部15は、変数Dat_Bに書き込まれた文字がT(True)であるか否かの判定を行い(ステップS117)、変数Dat_Bに書き込まれた文字がTである場合、処理をステップS120へ進め、一方、変数Dat_Bに書き込まれた文字がTでない場合、処理をステップS119へ進める。   When the character assigned to the variable Dat_A is not equal to the character assigned to the variable Dat_B, the reference database setting unit 15 determines whether or not the character written to the variable Dat_B is T (True) ( In step S117), if the character written in the variable Dat_B is T, the process proceeds to step S120. On the other hand, if the character written in the variable Dat_B is not T, the process proceeds to step S119.

ステップS116において変数Dat_Bに書き込まれた文字がTでない場合、参照データベース設定部15は、変数VALUEに1を代入し(ステップS118)、処理をステップS121へ進める。   If the character written in the variable Dat_B in step S116 is not T, the reference database setting unit 15 assigns 1 to the variable VALUE (step S118), and the process proceeds to step S121.

ステップS116において変数Dat_Bに書き込まれた文字がTである場合、またはステップS117において変数Dat_Bに書き込まれた文字がTでない場合、参照データベース設定部15は、変数VALUEに0を代入し(ステップS119)、処理をステップS121へ進める。   If the character written in the variable Dat_B in step S116 is T, or if the character written in the variable Dat_B in step S117 is not T, the reference database setting unit 15 substitutes 0 for the variable VALUE (step S119). Then, the process proceeds to step S121.

次に、参照データベース設定部15は、変数名に対応する信頼性基準に付与された重み付け係数を、信頼性データ記憶部18の基準テーブルから読み込み、読み込んだ重み付け係数を変数VALUEに乗算し、乗算結果を評価値VALUE_ALLに対して加算し、基準テーブルにおける各信頼性基準の積算を行い(ステップS121)、処理をステップS102へ進める。   Next, the reference database setting unit 15 reads the weighting coefficient assigned to the reliability standard corresponding to the variable name from the standard table of the reliability data storage unit 18, and multiplies the variable VALUE by the read weighting coefficient. The result is added to the evaluation value VALUE_ALL, each reliability criterion in the criterion table is integrated (step S121), and the process proceeds to step S102.

ステップS117において変数Dat_Bに書き込まれた文字がTである場合、参照データベース設定部15は、変数VALUEに−1を代入し(ステップS120)、処理をステップS121へ進める。   If the character written in the variable Dat_B in step S117 is T, the reference database setting unit 15 assigns −1 to the variable VALUE (step S120), and the process proceeds to step S121.

また、本実施形態においては、各サービスサーバーに設けられたデータベースを並列に扱う、すなわち各データベースに蓄積された蓄積データの均一化の処理を行う際、いずれのデータベースがユーザからの信頼が高いかを判定し、最も信頼性の高いデータベースを参照データベースとして、この参照データベースに蓄積されている参照データにより、他の対象データベースに蓄積されている蓄積データを変更している。
他の構成として、解析サーバー1に、参照される参照データベースが、予め管理下にある複数のデータベースサーバにおいて設定され、この参照データベースに蓄積されている蓄積データを参照データとして用いる構成としても良い。
In the present embodiment, the databases provided in the service servers are handled in parallel, that is, which database is highly trusted by the user when performing the process of uniformizing the accumulated data stored in the databases. And the stored data stored in the other target database is changed according to the reference data stored in the reference database, using the most reliable database as a reference database.
As another configuration, a reference database to be referred to in the analysis server 1 may be set in advance in a plurality of database servers under management, and stored data stored in the reference database may be used as reference data.

次に、図9、図10及び図11により本実施形態の解析サーバ1における類似度算出部16の行う参照データと蓄積データとの類似度の算出処理の動作を説明する。図9は、類似度算出部16が図4の参照データ(サーバーAの参照データベース)と蓄積データ(サーバーBの対象データベース)との類似度を、参照項目データと蓄積項目データとの、それぞれの項目毎の類似度を算出し、この項目毎の類似度の合計から同様データであるか否かの判定を行う動作例を示すフローチャートである。図10は、参照データベースの参照データと対象データベースの蓄積データとの類似度の計算過程Iを説明する、参照データと蓄積データとのデータ構成を示す図である。図11は、データの各項目毎の類似度の計算過程IIを説明する図であり、変数名毎の類似度の算出式と、各類似度に乗算する重み付けの計数と、例として算出したSCOREの数値が記載されている。
解析サーバー1の管理するサービスサーバーがサービスサーバー21及び22の2つとし、以下、参照データベース設定部15による参照データベースの選択処理を説明する。また、このとき、前回の判定において、サービスサーバー21がサーバーAであり、サービスサーバー22がサーバーBとして設定されているとする。
Next, the operation of the calculation processing of the similarity between the reference data and the accumulated data performed by the similarity calculation unit 16 in the analysis server 1 of the present embodiment will be described with reference to FIGS. In FIG. 9, the similarity calculation unit 16 calculates the similarity between the reference data (server A reference database) and the storage data (server B target database) in FIG. It is a flowchart which shows the operation example which calculates the similarity for every item and determines whether it is the same data from the sum total of the similarity for every item. FIG. 10 is a diagram illustrating a data configuration of the reference data and the accumulated data for explaining the calculation process I of the similarity between the reference data of the reference database and the accumulated data of the target database. FIG. 11 is a diagram for explaining the calculation process II of the similarity for each item of data. The calculation formula for the similarity for each variable name, the weighting number by which each similarity is multiplied, and the SCORE calculated as an example. The numerical value of is described.
The service servers managed by the analysis server 1 are assumed to be two service servers 21 and 22, and the reference database selection processing by the reference database setting unit 15 will be described below. At this time, it is assumed that the service server 21 is the server A and the service server 22 is the server B in the previous determination.

類似度算出部16は、記憶部19に記憶されている蓄積データを形成する各蓄積項目データの項目全ての変数名item_name、comment、price、Keyword、jan_code、bin_kbn及びInitialを読み出し(ステップS201)、記憶部19に設定されている計算テーブルに書き込む。   The similarity calculation unit 16 reads out the variable names item_name, comment, price, Keyword, jan_code, bin_kbn, and Initial of all items of the accumulation item data forming the accumulation data stored in the storage unit 19 (Step S201). Write to the calculation table set in the storage unit 19.

次に、類似度算出部16は、記憶部19の計算テーブルにいずれかの変数名が存在しているか否かの判定を行い(ステップS202)、計算テーブルにいずれかの変数名が存在している場合、処理をステップS203へ進め、一方、計算テーブルに変数名がいずれも存在しない場合、類似度の計算を終了し、この時点の類似度SCORE_ALLを参照データと蓄積データとの類似度として出力する。   Next, the similarity calculation unit 16 determines whether any variable name exists in the calculation table of the storage unit 19 (step S202), and any variable name exists in the calculation table. If there is no variable name in the calculation table, the calculation of the similarity is terminated, and the similarity SCORE_ALL at this time is output as the similarity between the reference data and the accumulated data. To do.

計算テーブルにいずれかの変数名が存在している場合、類似度算出部16は、記憶部19の計算テーブルからいずれかの項目の変数名を読み出し(ステップS203)、処理をステップS204へ進める。また、このとき、類似度算出部16は、記憶部19の計算テーブルから読み出した変数名を削除する。   If any variable name exists in the calculation table, the similarity calculation unit 16 reads the variable name of any item from the calculation table in the storage unit 19 (step S203), and advances the process to step S204. At this time, the similarity calculation unit 16 deletes the variable name read from the calculation table of the storage unit 19.

次に、類似度算出部16は、読み出した変数名に対応する項目の蓄積項目データが存在するか否かの判定を行い(ステップS204)、蓄積項目データが存在していない場合、処理をステップS205へ進め、蓄積項目データが存在している場合、処理をステップS206へ進める。
例えば、図10に示すように、蓄積データにおいて、変数名jan_code及びInitialの蓄積項目データが存在していないため、この変数名の場合、類似度算出部16は、処理をステップS205へ進めることになる。このため、図11に示すように、類似度算出部16は、ステップS205において変数SCOREに1を代入することになる。
一方、他の変数名item_name、comment、price、Keyword及びbin_kbnには蓄積項目データが存在しているため、類似度算出部16は、処理をステップS206へ進めることになる。
Next, the similarity calculation unit 16 determines whether or not the accumulated item data of the item corresponding to the read variable name exists (step S204), and if the accumulated item data does not exist, the process proceeds to step S204. The process proceeds to S205, and if the accumulated item data exists, the process proceeds to step S206.
For example, as shown in FIG. 10, since there is no variable name jan_code and Initial accumulated item data in the accumulated data, in the case of this variable name, the similarity calculation unit 16 proceeds with the process to step S205. Become. For this reason, as shown in FIG. 11, the similarity calculation unit 16 substitutes 1 for the variable SCORE in step S205.
On the other hand, since the accumulated item data exists in the other variable names item_name, comment, price, Keyword, and bin_kbn, the similarity calculation unit 16 proceeds with the process to step S206.

蓄積項目データが存在していない場合、類似度算出部16は、変数SCOREに1を代入し(ステップS205)、処理をステップS212へ進める。   When the accumulation item data does not exist, the similarity calculation unit 16 substitutes 1 for the variable SCORE (step S205), and the process proceeds to step S212.

蓄積項目データが存在している場合、類似度算出部16は、変数名の項目のメタ情報を記憶部19の蓄積データから読み出し(ステップS206)、処理をステップS207へ進める。   When the accumulated item data exists, the similarity calculation unit 16 reads the meta information of the variable name item from the accumulated data in the storage unit 19 (step S206), and advances the process to step S207.

次に、類似度算出部16は、読み出したメタ情報が数値、ID、単語単、文字列及び単語複のいずれを示しているかの判定を行い(ステップS207)、メタ情報が数値の場合、処理をステップS208へ進め、メタ情報がIDの場合、処理をステップS213へ進め、メタ情報が単語単の場合、処理をステップS217へ進め、メタ情報が文字列の場合、処理をステップS222へ進め、メタ情報が単語複の場合、処理をステップS224へ進める。   Next, the similarity calculation unit 16 determines whether the read meta information indicates a numerical value, an ID, a single word, a character string, or a multiple word (step S207). If the meta information is a numerical value, If the meta information is an ID, the process proceeds to step S213. If the meta information is a single word, the process proceeds to step S217. If the meta information is a character string, the process proceeds to step S222. If the meta information is a multiple word, the process proceeds to step S224.

読み出したメタ情報が数値の場合、類似度算出部16は、データベースDB1の参照データの参照項目データの数値を変数Dat_Aに代入し、同様にデータベースDB2の蓄積データの蓄積項目データの数値を変数Dat_Bに代入し(ステップS208)、処理をステップS209へ進める。   When the read meta information is a numerical value, the similarity calculation unit 16 substitutes the numerical value of the reference item data of the reference data of the database DB1 for the variable Dat_A, and similarly, the numerical value of the stored item data of the stored data of the database DB2 is the variable Dat_B. (Step S208), and the process proceeds to step S209.

次に、類似度算出部16は、変数Dat_Aに代入された数値が、変数Dat_Bに代入された数値を超えているか否かの判定を行い(ステップS209)、変数Dat_Aに代入された数値が変数Dat_Bに代入された数値より小さい場合、処理をステップS210へ進め、一方、変数Dat_Aに代入された数値が変数Dat_Bに代入された数値を超える値である場合、処理をステップS211へ進める。   Next, the similarity calculation unit 16 determines whether or not the numerical value assigned to the variable Dat_A exceeds the numerical value assigned to the variable Dat_B (step S209), and the numerical value assigned to the variable Dat_A is the variable. If it is smaller than the value assigned to Dat_B, the process proceeds to step S210. On the other hand, if the value assigned to variable Dat_A exceeds the value assigned to variable Dat_B, the process proceeds to step S211.

変数Dat_Aに代入された数値が、変数Dat_Bに代入された数値より小さい場合、類似度算出部16は、変数SCOREに対して、変数Dat_Aを変数Dat_Bで除算した結果を代入し(ステップS210)、処理をステップS212へ進める。   When the numerical value assigned to the variable Dat_A is smaller than the numerical value assigned to the variable Dat_B, the similarity calculation unit 16 assigns the result of dividing the variable Dat_A by the variable Dat_B to the variable SCORE (step S210). The process proceeds to step S212.

変数Dat_Aに代入された数値が、変数Dat_Bに代入された数値を超える場合、類似度算出部16は、変数SCOREに対して、変数Dat_Bを変数Dat_Aで除算した結果を代入し(ステップS211)、処理をステップS212へ進める。
例えば、変数名priceの場合、参照項目データの数値が350であり、蓄積項目データの数値が348である。
このため、類似度算出部16は、図11に示すように、348/350の計算を行い、得られた0.999…を変数SCOREに代入する。
When the numerical value assigned to the variable Dat_A exceeds the numerical value assigned to the variable Dat_B, the similarity calculation unit 16 assigns the result of dividing the variable Dat_B by the variable Dat_A to the variable SCORE (step S211). The process proceeds to step S212.
For example, in the case of the variable name price, the numerical value of the reference item data is 350, and the numerical value of the accumulated item data is 348.
Therefore, the similarity calculation unit 16 performs a calculation of 348/350 as shown in FIG. 11 and substitutes the obtained 0.999... Into the variable SCORE.

次に、類似度算出部16は、変数名に対応する重み付け係数を記憶部19の蓄積データから読み出し、読み出した重み付け係数を変数SCOREに対して乗算し、得られた乗算結果を類似度SCORE_ALLに対して加算し(ステップS212)、データの項目毎に求め、重み付けを行った変数SCOREの積算処理を行い、類似度を算出する。   Next, the similarity calculation unit 16 reads the weighting coefficient corresponding to the variable name from the accumulated data in the storage unit 19, multiplies the read weighting coefficient by the variable SCORE, and uses the obtained multiplication result to the similarity SCORE_ALL. Then, addition is performed (step S212), the calculation is performed for each data item, the weighted variable SCORE is integrated, and the similarity is calculated.

ステップS207においてメタ情報がIDの場合、類似度算出部16は、データベースDB1の参照データの参照項目データのIDの識別情報を変数Dat_Aに代入し、同様にデータベースDB2の蓄積データの蓄積項目データのIDの識別情報を変数Dat_Bに代入し(ステップS213)、処理をステップS214へ進める。   When the meta information is ID in step S207, the similarity calculation unit 16 substitutes ID identification information of the reference item data of the reference data of the database DB1 into the variable Dat_A, and similarly stores the accumulated item data of the accumulated data of the database DB2. The ID identification information is substituted into the variable Dat_B (step S213), and the process proceeds to step S214.

次に、類似度算出部16は、変数Dat_Aと変数Dat_Bとが等しいか否かの判定を行い(ステップS214)、変数Dat_Aと変数Dat_Bとが等しい場合、処理をステップS215へ進め、一方、変数Dat_Aと変数Dat_Bとが等しくない場合、処理をステップS216へ進める。   Next, the similarity calculation unit 16 determines whether or not the variable Dat_A and the variable Dat_B are equal (step S214). If the variable Dat_A and the variable Dat_B are equal, the process proceeds to step S215. If Dat_A and variable Dat_B are not equal, the process proceeds to step S216.

変数Dat_Aと変数Dat_Bとが等しい場合、類似度算出部16は、変数SCOREに対して1を代入し(ステップS215)、処理をステップS212へ進める。   When the variable Dat_A and the variable Dat_B are equal, the similarity calculation unit 16 substitutes 1 for the variable SCORE (step S215), and the process proceeds to step S212.

変数Dat_Aと変数Dat_Bとが等しくない場合、類似度算出部16は、変数SCOREに対して0を代入し(ステップS216)、処理をステップS212へ進める。   When the variable Dat_A and the variable Dat_B are not equal, the similarity calculation unit 16 substitutes 0 for the variable SCORE (step S216), and the process proceeds to step S212.

ステップS207においてメタ情報が単語単の場合、類似度算出部16は、参照データにおける参照項目データの単語のデータと、蓄積データにおける蓄積項目データの単語のデータとを記憶部19から読み込み(ステップS217)、処理をステップS218へ進める。   When the meta information is a single word in step S207, the similarity calculation unit 16 reads the word data of the reference item data in the reference data and the word data of the accumulation item data in the accumulation data from the storage unit 19 (step S217). ), And the process proceeds to step S218.

次に、類似度算出部16は、参照項目データの単語と、蓄積項目データの単語とが完全に一致しているか否か(すなわち同一であるか否か)の判定を行い(ステップS219)、参照項目データの単語と、蓄積項目データの単語とが完全に一致している場合、処理をステップS22へ進め、一方、蓄積項目データの単語とが完全に一致していない場合、処理をステップS221へ進める。   Next, the similarity calculation unit 16 determines whether or not the word of the reference item data and the word of the accumulated item data completely match (that is, whether or not they are the same) (step S219). If the word of the reference item data and the word of the accumulated item data are completely matched, the process proceeds to step S22. On the other hand, if the word of the accumulated item data is not completely matched, the process proceeds to step S221. Proceed to

参照項目データの単語と、蓄積項目データの単語とが完全に一致している場合、類似度算出部16は、変数SCOREに対して1を代入し(ステップS220)、処理をステップS212へ進める。   If the word of the reference item data and the word of the stored item data are completely the same, the similarity calculation unit 16 substitutes 1 for the variable SCORE (step S220), and the process proceeds to step S212.

参照項目データの単語と、蓄積項目データの単語とが完全に一致していない場合、類似度算出部16は、変数SCOREに対して0を代入し(ステップS221)、処理をステップS212へ進める。
例えば、変数名bin_kbnの場合、参照項目データの単語「冷凍」と、蓄積項目データの単語「冷凍」とは完全に一致しているため、類似度算出部16は、ステップS220において、変数SCOREに対して1を代入することになる。
When the word of the reference item data and the word of the stored item data do not completely match, the similarity calculation unit 16 substitutes 0 for the variable SCORE (step S221), and the process proceeds to step S212.
For example, in the case of the variable name bin_kbn, since the word “frozen” in the reference item data and the word “frozen” in the accumulated item data completely match, the similarity calculation unit 16 sets the variable SCORE in step S220. For this, 1 is substituted.

ステップS207においてメタ情報が文字列の場合、類似度算出部16は、参照データにおける参照項目データの文字列の単語のデータと、蓄積データにおける蓄積項目データの文字列のデータとを記憶部19から読み込み(ステップS222)、処理をステップS223へ進める。   If the meta information is a character string in step S207, the similarity calculating unit 16 stores the word data of the character string of the reference item data in the reference data and the character string data of the accumulated item data in the accumulated data from the storage unit 19. Reading (step S222), the process proceeds to step S223.

次に、類似度算出部16は、読み込んだ参照項目データの文字列を形態素解析し、単語に分割し、分割した単語を記憶部19に設定された類似単語Aリストに書き込み、同様に、読み込んだ蓄積項目データの文字列を形態素解析し、単語に分割し、分割した単語を記憶部19に設定された類似単語Bリストに書き込み(ステップS223)、処理をステップS226へ進める。このとき、類似度算出部16は、記憶部19における変数COUNTを0に初期化するとともに、記憶部19の類似単語Aリストに存在する単語数と、類似単語Bリストに存在する単語数とを、それぞれ参照データあるいは蓄積データの何れかである識別情報を付与し、この識別情報とともに記憶部19に書き込み記憶させる。   Next, the similarity calculation unit 16 performs a morphological analysis on the character string of the read reference item data, divides it into words, writes the divided words to the similar word A list set in the storage unit 19, and similarly reads them. The character string of the stored item data is morphologically analyzed, divided into words, the divided words are written in the similar word B list set in the storage unit 19 (step S223), and the process proceeds to step S226. At this time, the similarity calculation unit 16 initializes the variable COUNT in the storage unit 19 to 0, and calculates the number of words existing in the similar word A list of the storage unit 19 and the number of words existing in the similar word B list. The identification information, which is either reference data or accumulated data, is given, and is written and stored in the storage unit 19 together with this identification information.

そして、類似度算出部16は、類似単語Aリストに単語が存在しているか否かの判定を行い(ステップS226)、類似単語Aリストに単語が存在している場合、処理をステップS227へ進め、一方、類似単語Aリストに単語が存在していない場合、処理をステップS231へ進める。   Then, the similarity calculation unit 16 determines whether or not a word exists in the similar word A list (step S226), and if a word exists in the similar word A list, the process proceeds to step S227. On the other hand, if a word does not exist in the similar word A list, the process proceeds to step S231.

類似単語Aリストに単語が存在している場合、類似度算出部16は、存在している単語のいずれかを読み込み(ステップS227)、処理をステップS228へ進める。このとき、類似度算出部16は、類似度単語Aリストから読み出した単語を、類似度単語Aリストから削除する。   When a word exists in the similar word A list, the similarity calculation unit 16 reads one of the existing words (step S227), and advances the process to step S228. At this time, the similarity calculation unit 16 deletes the word read from the similarity word A list from the similarity word A list.

次に、類似度算出部16は、類似度単語Aリストから読み込んだ単語と、類似度単語Bリストに存在する単語と比較し(ステップS228)、処理をステップS229へ進める。   Next, the similarity calculation unit 16 compares the word read from the similarity word A list with the word existing in the similarity word B list (step S228), and advances the process to step S229.

比較結果において、類似度算出部16は、類似度単語Aリストから読み込んだ単語と、類似度単語Bリストに存在する単語とが、完全一致あるいは同一の語部分がある部分一致であるか、全く一致する部分がないかのいずれであるかの判定を行い(ステップSS229)、類似度単語Aリストから読み込んだ単語と類似度単語Bリストに存在する単語とが完全に一致していない場合、処理をステップS226へ進め、類似度単語Aリストから読み込んだ単語と類似度単語Bリストに存在する単語とが完全一致あるいは部分一致の場合、処理をステップS230へ進める。   In the comparison result, the similarity calculation unit 16 determines whether the word read from the similarity word A list and the word existing in the similarity word B list are a complete match or a partial match with the same word part. It is determined whether there is no matching part (step SS229), and if the word read from the similarity word A list and the word existing in the similarity word B list do not completely match, processing is performed The process proceeds to step S226, and if the word read from the similarity word A list and the word existing in the similarity word B list match completely or partially, the process proceeds to step S230.

類似度単語Aリストから読み込んだ単語と類似度単語Bリストに存在する単語とが完全一致あるいは部分一致の場合、類似度算出部16は、変数COUNTをインクリメントし(ステップS230)、処理をステップS226へ進める。   When the word read from the similarity word A list and the word existing in the similarity word B list completely or partially match, the similarity calculation unit 16 increments the variable COUNT (step S230), and the process proceeds to step S226. Proceed to

ステップS226において類似度単語Aリストに単語が残っていない場合、類似度算出部16は、類似度単語Aリストに存在する単語数と、類似度単語Bリストに存在する単語数を、記憶部19から読み出し、算出された変数COUNTを類似度単語Aリストに存在する単語数で除算した数値COAと、算出された変数COUNTを類似度単語Aリストに存在する単語数で除算した数値COBとを算出する。
そして、類似度算出部16は、算出された数値COAと数値COBとのいずれか大きい方を変数SCOREの値として出力する(ステップS231)。
If no word remains in the similarity word A list in step S226, the similarity calculation unit 16 stores the number of words existing in the similarity word A list and the number of words existing in the similarity word B list in the storage unit 19. A numerical value COA obtained by dividing the calculated variable COUNT by the number of words existing in the similarity word A list and a numerical value COB obtained by dividing the calculated variable COUNT by the number of words existing in the similarity word A list are calculated. To do.
Then, the similarity calculation unit 16 outputs the larger one of the calculated numerical value COA and numerical value COB as the value of the variable SCORE (step S231).

例えば、メタ情報が文字列の変数名commentの場合、参照項目データは<冷めてもやわらかく、ジューシーなおいしさのからあげです。変らぬおいしさで愛されつづけているロングセラーです>の文字列であり、類似度算出部16は、形態素解析により、<「冷め」ても「やわらか」く、「ジューシーな」「おいしさ」の「からあげ」です。「変ら」ぬ「おいしさ」で「愛さ」れ「つづけ」ている「ロングセラー」です>のように、10個の単語に分解する。
また、同様に、類似度算出部16は、蓄積項目データである<大人気の冷めてもやわらかジューシーなからあげです。国産鶏がらのブイヨンとまろやかな旨みが特徴>の文字列を、形態素解析し、<「大人気」の「冷め」ても「やわらか」「ジューシー」な「からあげ」です。「国産」「鶏がら」の「ブイヨン」と「まろやかな」「旨み」が「特徴」>のように、11個の単語に分解する。
For example, if the meta information is a string variable name comment, the reference item data is <soft even if it is cooled, and it is because it is juicy and delicious. It is a long-selling character that has been loved for its unaltered taste>, and the similarity calculation unit 16 uses a morphological analysis to make it “soft”, “juicy” and “taste”. "Karaage". It is a “long seller” that is “loved” and “continues” by “taste” that does not change, and breaks it down into 10 words.
Similarly, the similarity calculation unit 16 is the accumulated item data because it is a very popular cold and soft and juicy. Morphological analysis is performed on the string of Japanese chicken bouillon and mellow umami, which makes it “soft”, “juicy” and “fried” even if it is “cool”. “Domestic” “Chicken” “bouillon” and “mellow” “umami” are broken into 11 words as “feature”>.

そして、類似度算出部16は、図11に示すように、完全一致または部分一致の単語が4個、参照項目データを形態素解析して得られた単語数が10個、蓄積項目データを形態素解析して得られた単語数が11個、とそれぞれ算出される。完全一致または部分一致した単語数を参照項目データを形態素解析して得られた単語数で除算した値(0.4)が、蓄積項目データを形態素解析して得られた単語数で、除算した値(0.36)より大きいため、0.4を変数SCOREに代入する。   Then, as shown in FIG. 11, the similarity calculation unit 16 includes four words that are completely matched or partially matched, 10 words obtained by morphological analysis of the reference item data, and morphological analysis of the accumulated item data. The number of words obtained in this way is calculated as 11, respectively. The value (0.4) obtained by dividing the number of completely matched or partially matched words by the number of words obtained by morphological analysis of the reference item data is divided by the number of words obtained by morphological analysis of the stored item data. Since it is larger than the value (0.36), 0.4 is substituted into the variable SCORE.

ステップS207においてメタ情報が単語複の場合、類似度算出部16は、参照データにおける参照項目データの単語列のデータと、蓄積データにおける蓄積項目データの単語列のデータとを記憶部19から読み込み(ステップS224)、処理をステップS225へ進める。   In step S207, when the meta information includes multiple words, the similarity calculation unit 16 reads from the storage unit 19 the word string data of the reference item data in the reference data and the word string data of the accumulation item data in the accumulation data ( Step S224), the process proceeds to step S225.

次に、類似度算出部16は、読み込んだ参照項目データの単語列を単語間に挟まれている記号♯により抽出し、単語に分割し、分割した単語を記憶部19に設定された類似単語Aリストに書き込み、同様に、読み込んだ蓄積項目データの単語列を単語間に介挿されている記号♯により抽出し、単語に分割し、分割した単語を記憶部19に設定された類似単語Bリストに書き込み(ステップS225)、処理をステップS226へ進める。このとき、類似度算出部16は、記憶部19における変数COUNTを0に初期化するとともに、記憶部19の類似単語Aリストに存在する単語数と、類似単語Bリストに存在する単語数とを、それぞれ参照データあるいは蓄積データの何れかである識別情報を付与し、この識別情報とともに記憶部19に書き込み記憶させる。   Next, the similarity calculation unit 16 extracts the word string of the read reference item data by using a symbol # sandwiched between words, divides the word string, and the divided words are set to the similar word set in the storage unit 19. Similarly, the word string of the stored item data read is extracted by the symbol # inserted between words, divided into words, and the divided word is set to the similar word B set in the storage unit 19. Writing to the list (step S225), the process proceeds to step S226. At this time, the similarity calculation unit 16 initializes the variable COUNT in the storage unit 19 to 0, and calculates the number of words existing in the similar word A list of the storage unit 19 and the number of words existing in the similar word B list. The identification information, which is either reference data or accumulated data, is given, and is written and stored in the storage unit 19 together with this identification information.

例えば、メタ情報が単語複の変数名item_nameの場合、類似度算出部16は、参照データの参照項目データ<A社#鳥のからあげ#6個入り#冷凍>から、記号#により「A社」、「鳥のからあげ」、「6個入り」及び「冷凍」の4つの単語を抽出する。
同様に、類似度算出部16は、蓄積データの蓄積項目データ<A社#とりのからあげ#6個>から、記号#より「A社」、「とりのからあげ」及び「6個」の3つの単語を抽出する。
For example, when the meta information is a variable name item_name having a plurality of words, the similarity calculation unit 16 uses “#Company A” by the symbol # from the reference item data <Company A>#Bird raising # 6 #Frozen> , Extract four words “bird fried”, “with 6” and “frozen”.
Similarly, the similarity degree calculation unit 16 has three items of “Company A”, “Tori-no-Koriage” and “6” from the symbol #, based on the accumulated item data of the accumulated data <Company A #Takera # 6>. Extract words.

そして、類似度算出部16は、「A社」が完全一致として検出し、「鳥のからあげ」及び「とりのからあげ」と、「6個入り」及び「6個」とが部分一致として検出することで、変数COUNTが3となる。
このため、類似度算出部16は、参照項目データの単語列から抽出された単語数が4個であり、蓄積項目データの単語列から抽出された単語数が3個のため、完全一致または部分一致した単語の数を、蓄積項目データの単語列から抽出された単語数で除算した値(1.0)が、参照項目データの単語列から抽出された単語数で除算した値(0.75)より大きいため、1を変数SCOREに代入する。
Then, the similarity calculation unit 16 detects “Company A” as a complete match, and detects “bird raising” and “torino raising”, “six pieces”, and “6 pieces” as partial matches. As a result, the variable COUNT becomes 3.
For this reason, since the number of words extracted from the word string of the reference item data is four and the number of words extracted from the word string of the accumulated item data is three, the similarity calculation unit 16 has a complete match or partial A value (0.75) obtained by dividing the number of matched words by the number of words extracted from the word string of the stored item data (1.0) and the number of words extracted from the word string of the reference item data (0.75) ) Is larger, 1 is substituted into the variable SCORE.

上述した構成により、本実施形態の解析サーバ1は、管理下にある複数の異なるデータベース(図2のDB1からDBn)間において、最も検索において信頼性の高いと判定されるデータベースを参照データベースとして設定し、その他のデータベースを更新対象の対象データベースとする。参照データべース及び対象データベースそれぞれに蓄積されているデータ間の類似度を求め、類似度が設定された閾値より高いものを同一のデータと判定する。参照データベースのデータを参照することで、対象データベースのデータを更新することにより、データベース間のデータの内容が均一化され、蓄積されたデータの再利用性が高いデータベースを容易に維持することが可能となる。   With the above-described configuration, the analysis server 1 according to the present embodiment sets, as a reference database, a database that is determined to be most reliable in search among a plurality of different databases under management (DB1 to DBn in FIG. 2). Then, other databases are set as target databases to be updated. The similarity between the data stored in each of the reference database and the target database is obtained, and the data whose similarity is higher than the set threshold is determined as the same data. By updating the data in the target database by referring to the data in the reference database, the contents of the data between the databases can be made uniform, and it is possible to easily maintain a database with high reusability of the accumulated data. It becomes.

また、図3におけるデータ内容更新部14、参照データベース設定部15、類似度算出部16及び書換項目検出部の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより複数のデータ間の均一化処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。   Further, a program for realizing the functions of the data content update unit 14, the reference database setting unit 15, the similarity calculation unit 16, and the rewrite item detection unit in FIG. 3 is recorded on a computer-readable recording medium. The program recorded in the above may be read into a computer system and executed to perform a uniform process between a plurality of data. Here, the “computer system” includes an OS and hardware such as peripheral devices.

また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
Further, the “computer system” includes a homepage providing environment (or display environment) if a WWW system is used.
The “computer-readable recording medium” refers to a storage device such as a flexible medium, a magneto-optical disk, a portable medium such as a ROM and a CD-ROM, and a hard disk incorporated in a computer system. Furthermore, the “computer-readable recording medium” dynamically holds a program for a short time like a communication line when transmitting a program via a network such as the Internet or a communication line such as a telephone line. In this case, a volatile memory in a computer system serving as a server or a client in that case, and a program that holds a program for a certain period of time are also included. The program may be a program for realizing a part of the functions described above, and may be a program capable of realizing the functions described above in combination with a program already recorded in a computer system.

以上、この発明の実施形態を図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。   The embodiment of the present invention has been described in detail with reference to the drawings. However, the specific configuration is not limited to this embodiment, and includes design and the like within a scope not departing from the gist of the present invention.

この発明の実施形態は、複数のデータベースに対する情報検索の分野において利用することができる。   The embodiment of the present invention can be used in the field of information retrieval for a plurality of databases.

1,100…解析サーバー
21,22,2n,102,105…サービスサーバー
DB1,DB2,DBn…データベース
11…制御部
12…データ入力部
13…データ送受信部
14…データ内容更新部
15…参照データベース設定部
16…類似度算出部
17…書換項目検出部
18…信頼性データ記憶部
19…記憶部
20…表示装置
DESCRIPTION OF SYMBOLS 1,100 ... Analysis server 21, 22, 2n, 102, 105 ... Service server DB1, DB2, DBn ... Database 11 ... Control part 12 ... Data input part 13 ... Data transmission / reception part 14 ... Data content update part 15 ... Reference database setting Unit 16: Similarity calculation unit 17 ... Rewrite item detection unit 18 ... Reliability data storage unit 19 ... Storage unit 20 ... Display device

Claims (12)

参照用の参照データベースに蓄積されている参照データと、蓄積用の蓄積データベースに蓄積されている蓄積データとのデータ内容を比較し、当該蓄積データと前記参照データとの類似度を求め、求められた前記類似度が予め設定された閾値を超える前記蓄積データを、同様データとして検出する類似度算出部と、
前記同様データとして検出された前記蓄積データを、当該蓄積データのデータ内容により更新するデータ内容更新部と
を有するデータベース制御装置。
The reference data stored in the reference database for reference is compared with the stored data stored in the storage database for storage, and the similarity between the stored data and the reference data is obtained. A similarity calculator that detects the accumulated data in which the similarity exceeds a preset threshold as similar data;
A data content update unit for updating the stored data detected as the same data with the data content of the stored data.
前記蓄積データ及び参照データの各々が複数の構成データから構成されており、構成データ毎に情報の更新を行うか否かを示す可否情報が予め設定され、
前記可否情報により、前記参照データのデータ内容により前記蓄積データの更新を行うか否かを、前記構成データ毎に判定する書換項目検出部をさらに有する
ことを特徴とする請求項1に記載のデータベース制御装置。
Each of the accumulated data and the reference data is composed of a plurality of configuration data, and whether or not to update the information for each configuration data is set in advance,
The database according to claim 1, further comprising a rewrite item detecting unit that determines, for each of the configuration data, whether or not to update the accumulated data based on the data content of the reference data based on the availability information. Control device.
前記構成データに設定された前記可否情報が可である場合、前記参照データに対して前記同様データとされた前記蓄積データの前記構成データを、当該参照データの対応する構成データにより変更し、一方、前記可否情報が否である場合、前記参照データに対して前記同様データとされた前記蓄積データの構成データを、当該参照データの対応する構成データによる変更を行わないことを特徴とする請求項2に記載のデータベース制御装置。   When the availability information set in the configuration data is acceptable, the configuration data of the stored data that is the same data as the reference data is changed by the configuration data corresponding to the reference data, The configuration data of the accumulated data that is the same data as the reference data is not changed by the configuration data corresponding to the reference data when the availability information is NO. 3. The database control device according to 2. また、前記可否情報が可の場合、該構成データを、前記参照データベースの前記データにおける対応する前記構成データを上書きするか、あるいは当該データの前記構成データと前記参照データベースの前記データにおける対応する構成データとの和集合とするかの変更種別が設定されていることを特徴とする請求項3に記載のデータベース制御装置。   If the availability information is acceptable, the configuration data is overwritten with the corresponding configuration data in the data of the reference database, or the configuration data of the data and the corresponding configuration of the data in the reference database 4. The database control apparatus according to claim 3, wherein a change type as to whether it is a union with data is set. 前記類似度算出部は、前記構成データの前記データ種類毎に設定された、前記参照データの前記構成データと前記蓄積データの前記構成データとの類似度を求める類似度算出方法により、前記参照データベースと前記蓄積データベースとの前記データにおける前記構成データ毎の類似度を算出し、算出された類似度の合計を前記データの類似度とすることを特徴とする請求項2から請求項4のいずれか一項に記載のデータベース制御装置。   The similarity calculation unit is configured to determine the similarity between the configuration data of the reference data and the configuration data of the stored data, which is set for each data type of the configuration data. 5. The degree of similarity of each of the configuration data in the data with the storage database is calculated, and the sum of the calculated degrees of similarity is used as the degree of similarity of the data. The database control device according to one item. 前記構成データに含まれるメタ情報がデータ種類を示しており、
前記類似度算出部は、関係する前記データ種類と類似度計算方法との関係を示す計算方法テーブルを有し、前記構成データからメタ情報を抽出し、抽出した前記メタ情報に対応する類似度計算方法を前記計算方法テーブルから選択し、前記構成データ毎の前記類似度を算出する
ことを特徴とする請求項5に記載のデータベース制御装置。
Meta information included in the configuration data indicates a data type,
The similarity calculation unit has a calculation method table indicating a relationship between the related data type and a similarity calculation method, extracts meta information from the configuration data, and calculates a similarity corresponding to the extracted meta information The database control apparatus according to claim 5, wherein a method is selected from the calculation method table, and the similarity for each of the configuration data is calculated.
前記類似度算出部は、前記類似度計算方法により求めた前記類似度に対し、前記構成データに設定された重み付け係数を乗算して、前記構成データの前記類似度とすることを特徴とする請求項6に記載のデータベース制御装置。   The similarity calculation unit is configured to multiply the similarity obtained by the similarity calculation method by a weighting coefficient set in the configuration data to obtain the similarity of the configuration data. Item 7. The database control device according to Item 6. 一定期間毎に更新される複数項目からなるデータベースの信頼性を示す信頼性データを前記データベース毎に記憶する信頼性データ記憶部と、
前記信頼性データを元に前記データベース毎の信頼度を求め、最も信頼度の高い前記データベースを前記参照データベースに設定する参照データベース設定部と
をさらに有することを特徴とする請求項1から請求項7いずれか一項に記載のデータベース制御装置。
A reliability data storage unit that stores, for each database, reliability data indicating the reliability of the database composed of a plurality of items updated every certain period;
A reference database setting unit that obtains the reliability of each database based on the reliability data and sets the database with the highest reliability in the reference database. The database control device according to any one of the above.
前記信頼性データが、前記データベースを管理するサーバーに対する少なくとも外部リンクの数、アクセス情報の有無、ユーザによるアクセス回数、サイトの更新回数、サイトに表示される広告表示の面積及び占める割合のいずれか、あるいは複数の組合せであることを特徴とする請求項8に記載のデータベース制御装置。   The reliability data is any one of at least the number of external links to the server managing the database, the presence or absence of access information, the number of accesses by the user, the number of site updates, the area of the advertisement display displayed on the site, and the ratio Alternatively, the database control apparatus according to claim 8, wherein the database control apparatus is a plurality of combinations. 複数のデータベース間において、それぞれのデータベースに蓄積されている蓄積データのデータ内容を均一化するデータベース制御装置を動作させるデータベース制御方法であり、
類似度算出部が、参照用の参照データベースに蓄積されている参照データと、蓄積用の蓄積データベースに蓄積されている蓄積データとのデータ内容を比較し、当該蓄積データと前記参照データとの類似度を求め、求められた前記類似度が予め設定された閾値を超える前記蓄積データを、同様データとして検出する類似度算出過程と、
データ内容更新部が、前記同様データとして検出された前記蓄積データを、当該蓄積データのデータ内容により更新するデータ内容更新過程と
を有するデータベース制御方法。
A database control method for operating a database control device that uniformizes the data content of stored data stored in each database among a plurality of databases,
The similarity calculation unit compares the data contents of the reference data stored in the reference database for reference and the stored data stored in the storage database for storage, and the similarity between the stored data and the reference data A similarity calculation step of detecting the accumulated data in which the obtained similarity exceeds a preset threshold as similar data;
A data content update process in which a data content update unit updates the accumulated data detected as the data with the data content of the accumulated data.
複数のデータベース間において、それぞれのデータベースに蓄積されている蓄積データのデータ内容を均一化するデータベース制御装置の機能をコンピュータに実行させるプログラムであり、
類似度算出部が、参照用の参照データベースに蓄積されている参照データと、蓄積用の蓄積データベースに蓄積されている蓄積データとのデータ内容を比較し、当該蓄積データと前記参照データとの類似度を求め、求められた前記類似度が予め設定された閾値を超える前記蓄積データを、同様データとして検出する類似度算出処理と、
データ内容更新部が、前記同様データとして検出された前記蓄積データを、当該蓄積データのデータ内容により更新するデータ内容更新処理と
を有するコンピュータが実行可能なプログラム。
A program that causes a computer to execute the function of a database control device that uniformizes the data content of stored data stored in each database among a plurality of databases.
The similarity calculation unit compares the data contents of the reference data stored in the reference database for reference and the stored data stored in the storage database for storage, and the similarity between the stored data and the reference data A degree of similarity calculation process for detecting the accumulated data in which the obtained degree of similarity exceeds a preset threshold as similar data;
A computer-executable program, comprising: a data content update process in which a data content update unit updates the stored data detected as the same data with the data content of the stored data.
複数のデータベース間において、それぞれのデータベースに蓄積されている蓄積データのデータ内容を均一化するデータベース制御装置の機能をコンピュータに実行させるプログラムを記録した記録媒体であり、
類似度算出部が、参照用の参照データベースに蓄積されている参照データと、蓄積用の蓄積データベースに蓄積されている蓄積データとのデータ内容を比較し、当該蓄積データと前記参照データとの類似度を求め、求められた前記類似度が予め設定された閾値を超える前記蓄積データを、同様データとして検出する類似度算出処理と、
データ内容更新部が、前記同様データとして検出された前記蓄積データを、当該蓄積データのデータ内容により更新するデータ内容更新処理と
を有するコンピュータが実行可能なプログラムを記録した記録媒体。
A recording medium that records a program that causes a computer to execute the function of a database control device that equalizes the data content of accumulated data accumulated in each database among a plurality of databases.
The similarity calculation unit compares the data contents of the reference data stored in the reference database for reference and the stored data stored in the storage database for storage, and the similarity between the stored data and the reference data A degree of similarity calculation process for detecting the accumulated data in which the obtained degree of similarity exceeds a preset threshold as similar data;
A recording medium recording a computer-executable program having a data content update process in which a data content update unit updates the stored data detected as the same data with the data content of the stored data.
JP2010121623A 2010-05-27 2010-05-27 Database control device, database control method, program and recording medium Pending JP2011248661A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010121623A JP2011248661A (en) 2010-05-27 2010-05-27 Database control device, database control method, program and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010121623A JP2011248661A (en) 2010-05-27 2010-05-27 Database control device, database control method, program and recording medium

Publications (1)

Publication Number Publication Date
JP2011248661A true JP2011248661A (en) 2011-12-08

Family

ID=45413840

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010121623A Pending JP2011248661A (en) 2010-05-27 2010-05-27 Database control device, database control method, program and recording medium

Country Status (1)

Country Link
JP (1) JP2011248661A (en)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06332766A (en) * 1993-05-19 1994-12-02 Nippon Telegr & Teleph Corp <Ntt> Coupling method for data base
JP2003271656A (en) * 2002-03-19 2003-09-26 Fujitsu Ltd Device and method for related candidate generation, related system, program for related candidate generation and readable recording medium recorded with the same program
JP2007304796A (en) * 2006-05-10 2007-11-22 Mitsubishi Electric Corp Database analysis system, database analysis method and program
JP2009087037A (en) * 2007-09-28 2009-04-23 Ricoh Co Ltd Document management system, image processing device, document registration method, program, and recording medium
JP2009217455A (en) * 2008-03-10 2009-09-24 Fujitsu Ltd Information processor, information processing program, and method

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06332766A (en) * 1993-05-19 1994-12-02 Nippon Telegr & Teleph Corp <Ntt> Coupling method for data base
JP2003271656A (en) * 2002-03-19 2003-09-26 Fujitsu Ltd Device and method for related candidate generation, related system, program for related candidate generation and readable recording medium recorded with the same program
JP2007304796A (en) * 2006-05-10 2007-11-22 Mitsubishi Electric Corp Database analysis system, database analysis method and program
JP2009087037A (en) * 2007-09-28 2009-04-23 Ricoh Co Ltd Document management system, image processing device, document registration method, program, and recording medium
JP2009217455A (en) * 2008-03-10 2009-09-24 Fujitsu Ltd Information processor, information processing program, and method

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSND200800446002; 岡崎勝己: '価格.com上位独占の量販店「ECカレント」がお買い得なワケ 地代・人件費要らずの無店舗運営と"ネッ' ascii 第32巻 第8号, 20080801, pp.34-35, 株式会社アスキー・メディアワークス *
JPN6014002938; 岡崎勝己: '価格.com上位独占の量販店「ECカレント」がお買い得なワケ 地代・人件費要らずの無店舗運営と"ネッ' ascii 第32巻 第8号, 20080801, pp.34-35, 株式会社アスキー・メディアワークス *

Similar Documents

Publication Publication Date Title
US10642938B2 (en) Artificial intelligence based method and apparatus for constructing comment graph
US8407781B2 (en) Information providing support device and information providing support method
US7996419B2 (en) Query rewriting with entity detection
CN100462972C (en) Document-based information and uniform resource locator (URL) management method and device
US20130110839A1 (en) Constructing an analysis of a document
US10423649B2 (en) Natural question generation from query data using natural language processing system
Beel et al. The architecture and datasets of Docear's Research paper recommender system
US20070143317A1 (en) Mechanism for managing facts in a fact repository
US20090089278A1 (en) Techniques for keyword extraction from urls using statistical analysis
US20080040313A1 (en) System and method for providing tag-based relevance recommendations of bookmarks in a bookmark and tag database
US8977625B2 (en) Inference indexing
US20090204598A1 (en) Ad retrieval for user search on social network sites
US20090327304A1 (en) Systems and methods for tokenizing and interpreting uniform resource locators
JP5399450B2 (en) System, method and software for determining ambiguity of medical terms
CN101073080A (en) Suggesting search engine keywords
JP2009271911A (en) Method and system for symbolical linkage and intelligent categorization of information
KR20060116042A (en) Personalized search method using cookie information and system for enabling the method
US20090319481A1 (en) Framework for aggregating information of web pages from a website
CN107807957A (en) entity library generating method and device
US20150206101A1 (en) System for determining infringement of copyright based on the text reference point and method thereof
JP2011108053A (en) System for evaluating news article
KR20040087205A (en) A method of managing web sites registered in search engine and a system thereof
Grigalis Towards web-scale structured web data extraction
US8799312B2 (en) Efficient label acquisition for query rewriting
CN107679186A (en) The method and device of entity search is carried out based on entity storehouse

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130401

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140115

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140128

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20140527