JP2013206066A - Data retrieval system and data retrieval method - Google Patents
Data retrieval system and data retrieval method Download PDFInfo
- Publication number
- JP2013206066A JP2013206066A JP2012073585A JP2012073585A JP2013206066A JP 2013206066 A JP2013206066 A JP 2013206066A JP 2012073585 A JP2012073585 A JP 2012073585A JP 2012073585 A JP2012073585 A JP 2012073585A JP 2013206066 A JP2013206066 A JP 2013206066A
- Authority
- JP
- Japan
- Prior art keywords
- data
- search
- search result
- extracted
- relevance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、ネットワークを介してデータを検索するデータ検索システム及びデータ検索方法に関するものである。 The present invention relates to a data search system and a data search method for searching for data via a network.
従来から、インターネット等の通信ネットワーク内のデータを検索キーワードを用いて検索するサービスが提供されている。このようなサービスに関連する技術に関して、例えば、下記特許文献1には、複数の検索実行装置によって得られた検索結果を、情報の質の高さに応じた重み付けより統合して出力する分散型検索方法が開示されている。このような機能によれば、分散型検索装置における検索結果として検索要求に適合した結果が得られる。
Conventionally, a service for searching data in a communication network such as the Internet using a search keyword has been provided. With regard to the technology related to such services, for example, the following
しかしながら、上述した従来の検索方法では、データ自体の格納先と、そのデータに付加されたメタデータ等の付加データの格納先が異なり、データ自体と付加データとに関する検索結果が別々に得られる場合に、それぞれの検索結果の関連性を適切に評価した検索結果を得ることは困難である。例えば、あるデータについてはメタデータが検索キーワードに一致し、他のデータについてはメタデータとデータ自体の両方が検索キーワードに一致するような場合に、両方のデータの検索順位を適切に評価できない傾向にある。 However, in the conventional search method described above, the storage location of the data itself is different from the storage location of the additional data such as metadata added to the data, and the search results regarding the data itself and the additional data are obtained separately. In addition, it is difficult to obtain a search result that appropriately evaluates the relevance of each search result. For example, when metadata matches the search keyword for some data and both the metadata and the data itself match the search keyword for other data, the search ranking of both data tends not to be evaluated properly It is in.
そこで、本発明は、かかる課題に鑑みて為されたものであり、検索対象データに付加される付加データに関する検索結果と、検索対象データに関する検索結果が別々に得られる場合であっても、適切に検索順位が評価された検索結果を生成することが可能なデータ検索システム及びデータ検索方法を提供することを目的とする。 Therefore, the present invention has been made in view of such problems, and even when a search result related to additional data added to search target data and a search result related to search target data are obtained separately, the present invention is appropriate. It is an object of the present invention to provide a data search system and a data search method capable of generating a search result whose search rank is evaluated.
上記課題を解決するため、本発明のデータ検索システムは、複数の検索対象データのうちから検索キーワードによって抽出された複数の抽出データを示す第1の検索結果を取得する検索結果取得手段と、複数の検索対象データに付加された複数の付加データを格納する付加データ格納手段と、複数の付加データのうちから検索キーワードに関連する複数の抽出付加データを抽出して、複数の抽出付加データが付加された複数の検索対象データを示す第2の検索結果を生成するデータ検索手段と、第1の検索結果取得手段によって取得された第1の検索結果を基に、複数の抽出データの検索キーワードとの第1の関連度を計算し、データ検索手段によって取得された第2の検索結果を基に、複数の抽出付加データに対応する複数の検索対象データの検索キーワードとの第2の関連度を計算する関連度算出手段と、複数の抽出データと複数の抽出付加データに対応する複数の検索対象データとに対して、第1の関連度及び第2の関連度を加味した第3の関連度を計算する検索結果生成手段と、第1の検索結果及び第2の検索結果を合わせた第3の検索結果を、第3の関連度を基にした順位で出力する出力手段と、を備える。 In order to solve the above problems, a data search system according to the present invention includes a search result acquisition unit that acquires a first search result indicating a plurality of extracted data extracted by a search keyword from a plurality of search target data, and a plurality of search result acquisition means. Additional data storage means for storing a plurality of additional data added to the search target data, and extracting a plurality of extracted additional data related to the search keyword from the plurality of additional data, and adding the plurality of extracted additional data A data search unit for generating a second search result indicating the plurality of search target data, a search keyword for the plurality of extracted data based on the first search result acquired by the first search result acquisition unit, and A plurality of search target data corresponding to the plurality of extracted additional data based on the second search result acquired by the data search means. Relevance calculation means for calculating a second relevance level with the search keyword, and a plurality of extracted data and a plurality of search target data corresponding to the plurality of extracted additional data. The search result generation means for calculating the third relevance level taking into account the relevance level of the first search result and the third search result obtained by combining the first search result and the second search result are based on the third relevance level. Output means for outputting in order.
或いは、本発明のデータ検索方法は、検索結果取得手段が、複数の検索対象データのうちから検索キーワードによって抽出された複数の抽出データを示す第1の検索結果を取得する検索結果取得ステップと、付加データ格納手段が、複数の検索対象データに付加された複数の付加データを格納する付加データ格納ステップと、データ検索手段が、複数の付加データのうちから検索キーワードに関連する複数の抽出付加データを抽出して、複数の抽出付加データが付加された複数の検索対象データを示す第2の検索結果を生成するデータ検索ステップと、関連度算出手段が、第1の検索結果取得手段によって取得された第1の検索結果を基に、複数の抽出データの検索キーワードとの第1の関連度を計算し、データ検索手段によって取得された第2の検索結果を基に、複数の抽出付加データに対応する複数の検索対象データの検索キーワードとの第2の関連度を計算する関連度算出ステップと、検索結果生成手段が、複数の検索結果データと複数の抽出付加データに対応する複数の検索対象データとに対して、第1の関連度及び第2の関連度を加味した第3の関連度を計算する検索結果生成ステップと、出力手段が、第1の検索結果及び第2の検索結果を合わせた第3の検索結果を、第3の関連度を基にした順位で出力する出力ステップと、を備える。 Alternatively, in the data search method of the present invention, the search result acquisition means acquires a first search result indicating a plurality of extracted data extracted by a search keyword from a plurality of search target data; An additional data storage step in which the additional data storage means stores a plurality of additional data added to the plurality of search target data; and a plurality of extracted additional data related to the search keyword from the plurality of additional data. And a data search step for generating a second search result indicating a plurality of search target data to which a plurality of extraction additional data is added, and a relevance calculation means are acquired by the first search result acquisition means. Based on the first search result, the first degree of association with the search keyword of the plurality of extracted data is calculated and acquired by the data search means A relevance level calculating step for calculating a second relevance level with a search keyword of a plurality of search target data corresponding to a plurality of extracted additional data based on the search result of 2; A search result generating step for calculating a third relevance factor including the first relevance factor and the second relevance factor for the data and a plurality of search object data corresponding to the plurality of additional data to be extracted; Output a third search result obtained by combining the first search result and the second search result in a rank based on the third relevance level.
このようなデータ検索システム、或いはデータ検索方法によれば、検索キーワードを基に複数の検索対象データを対象に検索された第1の検索結果が取得されると共に、同じ検索キーワードを基に複数の付加データを対象に検索された第2の検索結果が生成される。そして、第1の検索結果を基に複数の抽出データの第1の関連度が計算され、第2の検索結果を基に複数の抽出付加データに対応する複数の検索対象データの第2の関連度が生成された後、両方の検索結果に含まれる複数の検索対象データ毎に第1の関連度及び第2の関連度が加味された第3の関連度が計算され、両方の検索結果を合わせた第3の検索結果が第3の関連度に基づく順位で出力される。これにより、複数の検索対象データを対象にした検索と、それらの検索対象データに対応する付加データを対象にした検索結果が別々に得られる場合であっても、両方の検索結果における検索キーワードとの関連度を加味することにより、検索対象データ毎の関連度が適切に評価された検索結果が得られる。その結果、検索対象データに対して適切に検索順位が評価された検索結果を生成することができる。 According to such a data search system or data search method, a first search result searched for a plurality of search target data based on a search keyword is acquired, and a plurality of search results are acquired based on the same search keyword. A second search result searched for the additional data is generated. Then, the first relevance of the plurality of extracted data is calculated based on the first search result, and the second relevance of the plurality of search target data corresponding to the plurality of extracted additional data is calculated based on the second search result. After the degree is generated, a third relevance level in which the first relevance level and the second relevance level are added is calculated for each of a plurality of search target data included in both search results. The combined third search result is output in the order based on the third degree of association. Thus, even when a search for a plurality of search target data and a search result for additional data corresponding to the search target data are obtained separately, the search keyword in both search results By adding the relevance level, a search result in which the relevance level for each search target data is appropriately evaluated can be obtained. As a result, it is possible to generate a search result in which the search rank is appropriately evaluated for the search target data.
関連度算出手段は、複数の抽出データ中の検索キーワードの出現回数を基に第1の関連度を計算する、ことが好ましい。こうすれば、第1の検索結果における抽出データの関連度を簡易に求めることができる。 The relevance calculation means preferably calculates the first relevance based on the number of appearances of the search keyword in the plurality of extracted data. In this way, the relevance of the extracted data in the first search result can be easily obtained.
また、関連度算出手段は、第1の検索結果中の複数の抽出データの順位を基に第1の関連度を計算する、ことも好ましい。このようにしても、第1の検索結果における抽出データの関連度を簡易に求めることができる。 It is also preferable that the relevance degree calculating means calculates the first relevance degree based on the ranks of the plurality of extracted data in the first search result. Even in this way, the relevance of the extracted data in the first search result can be easily obtained.
さらに、検索結果生成手段は、複数の抽出データと複数の抽出付加データに対応する複数の検索対象データとに対して、第1の関連度及び第2の関連度を重み付け加算して第3の関連度を計算する、ことも好ましい。この場合、第1及び第2の検索結果における検索キーワードとの関連度を用いて、検索対象データ毎の関連度をより適切に評価することができる。 Further, the search result generating means weights and adds the first relevance level and the second relevance level to the plurality of search target data corresponding to the plurality of extracted data and the plurality of additional data to be extracted. It is also preferable to calculate relevance. In this case, the degree of association for each search target data can be more appropriately evaluated using the degree of association with the search keyword in the first and second search results.
またさらに、出力手段により出力された第3の検索結果に対するユーザのデータ選択履歴を基に、重み付け加算時に用いる重み付けの値を動的に変更するパラメータ変更手段をさらに備える、ことも好ましい。かかるパラメータ変更手段を備えれば、ユーザにとって利用価値の高い検索結果を生成することができる。 It is also preferable to further include parameter changing means for dynamically changing a weighting value used at the time of weighting addition based on a user data selection history for the third search result output by the output means. With such parameter changing means, it is possible to generate a search result having a high utility value for the user.
さらにまた、パラメータ変更手段は、データ選択履歴が示す第1の選択結果を選択する回数と、データ選択履歴が示す第2の選択結果を選択する回数との比較に基づいて、重み付けの値を変更する、ことも好ましい。このようにすれば、ユーザにとって利用価値の高い検索結果をより確実に生成することができる。 Furthermore, the parameter changing means changes the weighting value based on a comparison between the number of times of selecting the first selection result indicated by the data selection history and the number of times of selecting the second selection result indicated by the data selection history. It is also preferable. In this way, a search result having a high utility value for the user can be generated more reliably.
本発明によれば、検索対象データに付加される付加データに関する検索結果と、検索対象データに関する検索結果が別々に得られる場合であっても、適切に検索順位が評価された検索結果を生成することができる。 According to the present invention, even when a search result related to additional data added to search target data and a search result related to search target data are obtained separately, a search result whose search rank is appropriately evaluated is generated. be able to.
以下、図面とともに本発明によるデータ検索システム及びデータ検索方法の好適な実施形態について詳細に説明する。なお、図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。 Hereinafter, preferred embodiments of a data search system and a data search method according to the present invention will be described in detail with reference to the drawings. In the description of the drawings, the same elements are denoted by the same reference numerals, and redundant description is omitted.
図1は、本発明の好適な一実施形態にかかるデータ検索システム1の概略構成図である。図1に示すデータ検索システム1は、ユーザにより端末装置2を利用して記憶されたデータやインターネット上に公開されたデータ等の検索対象データを管理し、検索対象データの検索処理を実行する通信システムである。このような検索対象データとしては、スケジュールデータ、写真データ、文書データ、SNS(Social Networking Service)投稿データ、電子メールデータ、音楽データ、ニュースデータ等が挙げられる。詳細には、データ検索システム1は、データ検索を実行しようとするユーザが使用する端末装置2と、検索対象データに付加されたメタデータ(付加データ)を管理するメタデータ検索用サーバ装置3とにより構成されている。この端末装置2とメタデータ検索用サーバ装置3とは、移動体通信方式を採用した移動体通信ネットワークや有線通信ネットワーク等によって構成される通信ネットワークNWを介して、相互にデータ通信を行うことが可能とされている。さらに、端末装置2及びメタデータ検索用サーバ装置3は、通信ネットワークNWを介して、検索対象データを管理するデータ検索用サーバ装置4との間でデータ通信を行うことが可能とされている。なお、メタデータ検索用サーバ装置3及びデータ検索用サーバ装置4は、1台のサーバ装置で構成されていてもよいし、複数のサーバ装置が連携して動作するサーバシステムであってもよい。端末装置2は、携帯電話端末、スマートフォン、PDA等に代表される端末装置である。
FIG. 1 is a schematic configuration diagram of a
図2は、図1のデータ検索システム1の端末装置2或いはメタデータ検索用サーバ装置3を構成する情報処理装置のハードウェア構成を示すブロック図である。この情報処理装置100は、物理的には、CPU51と、主記憶装置であるRAM52及びROM53と、ハードディスク装置等の補助記憶装置56と、入力デバイスである入力キー、タッチパネル、マウス等の入力装置55と、ディスプレイ、スピーカ等の出力装置57と、他の端末装置やサーバ装置との間での通信ネットワークNWを介したデータの送受信を司る通信モジュール54とを含む装置として構成されている。端末装置2或いはメタデータ検索用サーバ装置3によって実現される機能は、図2に示すCPU51、RAM52等のハードウェア上に所定のプログラムを読み込ませることにより、CPU51の制御のもとで通信モジュール54、入力装置55、出力装置57を動作させるとともに、RAM52や補助記憶装置56におけるデータの読み出し及び書き込みを行うことで実現される。
FIG. 2 is a block diagram showing a hardware configuration of an information processing apparatus constituting the
図1に戻って、メタデータ検索用サーバ装置3は、機能的な構成要素として、インデックス作成部31、データ検索部(データ検索手段)32と、検索結果取得部(検索結果取得手段)33と、関連度算出部(関連度算出手段)34と、パラメータ変更部(パラメータ変更手段)35と、検索結果生成部(検索結果生成手段)36と、データ通信部(出力手段)37と、メタデータ格納部38aと、インデックス格納部38bと、選択履歴格納部38cとを備えている。
Returning to FIG. 1, the metadata
まず、メタデータ検索用サーバ装置3の各構成要素の機能について詳細に説明する。
First, the function of each component of the metadata
インデックス作成部31は、端末装置2のユーザによる要求を受け付けたことを契機に、メタデータ格納部38aに格納されたメタデータの検索用のインデックスを作成する。このインデックスは、データ検索部32によってメタデータ格納部38aに格納されたメタデータを検索する際に検索処理を高速化するために参照される。
The
データ検索部32は、端末装置2から検索クエリ(検索要求)を受け付けた際に、メタデータ格納部38aに格納された複数の検索対象データに付加されたメタデータのうちから、その検索クエリに含まれる検索キーワードに関連する複数のメタデータを抽出メタデータとして抽出する。この際、データ検索部32は、インデックス格納部38bに格納されたインデックスを参照しながらデータ検索処理を実行する。
When the
ここで、図3には、メタデータ格納部38aに格納されたメタデータの構成の一例を示している。同図に示すように、メタデータ格納部38aには複数のメタデータが格納されており、これらのメタデータは、データ検索用サーバ装置4に記憶されている複数の検索対象データの1つ1つに対応して予め生成されて格納される。例えば、複数の項目を有するメタデータとして、“作成日時:2012/1/30 11:00”、“作成位置:岡山県岡山市北区”、“作成時スケジュール:岡山出張A社会議”、“同行者:鈴木”、“ファイル名:会議資料1”、及び“キーワード:SNSサービス調査”等の複数の項目のデータが、対応する検索対象データを識別するためのID“d001”に関連付けて格納されている。このように、メタデータ格納部38aには、データ検索用サーバ装置4に格納されている複数の検索対象データに付加された複数のメタデータが記憶されている。このようなメタデータには、“作成日時”、“作成位置”、“作成時スケジュール”、“同行者”、及び“ファイル名”のように端末装置2によって検索対象データに自動的に付与される項目と、“キーワード”のように端末装置2においてユーザから登録された項目の2種類が含まれる。データ検索部32は、図3に示すようなメタデータを参照しながら、メタデータのいずれかの項目のデータ中に検索キーワードを含むようなIDを、抽出メタデータを特定する複数のIDとして抽出する。例えば、検索キーワードが“SNS”の場合は、図3に示すようなメタデータのなかから、項目“キーワード”に“SNS”を含む2つのID“d001”、”d002”を抽出する。そして、データ検索部32は、抽出メタデータを特定する複数のIDを示すメタデータ検索結果を作成し関連度算出部34に引き渡す。データ検索部32は、このメタデータ検索結果を、検索キーワードとの一致度或いは検索キーワードの出現件数を基に決定した検索順位に従ってIDを並べて作成する。
Here, FIG. 3 shows an example of the configuration of the metadata stored in the
ここで、データ検索部32は、検索キーワードに日時情報が含まれている場合には、その日時情報が示す時刻に対して時間的に近似する項目を有するメタデータを抽出する。例えば、検索キーワードに日時情報“2012/1/29”を含む場合には、その日時情報の示す日に対して前後1日の範囲“2012/1/28”〜“2012/1/30”の時刻情報を含むメタデータを抽出する。また、データ検索部32は、検索キーワードに位置情報が含まれている場合には、その位置情報が示す位置に対して空間的に近似する項目を有するメタデータを抽出する。例えば、検索キーワードに位置情報“岡山県岡山市”を含む場合には、当該地名の一致(一部一致含む)を判断してもよいし、当該地名を緯度経度に変換することで、空間的な近接性(位置が近似するか否か)の判断を行ってもよい。
Here, when the date and time information is included in the search keyword, the
図1に戻って、検索結果取得部33は、端末装置2から検索クエリを受け付けた際に、その検索クエリをデータ検索用サーバ装置4に転送し、データ検索用サーバ装置4から検索対象データの中から抽出された抽出データに関するデータ検索結果を取得する。このデータ検索結果は、データ検索用サーバ装置4において所定の方法により決定された検索順位に従ってIDを並べて作成されている。ここで、検索順位の決定方法については、既存の種々のアルゴリズムを用いることができる。また、データ検索用サーバ装置4のデータ検索結果には、各抽出データ中の検索キーワードの出現件数が含まれていてもよい。例えば、検索順位がID“d001”“d002”、及び“d004”の順であった場合には、この順番で並べられたIDが、それぞれの抽出データ中の検索キーワードの出現件数とともにデータ検索結果に含まれている。そして、検索結果取得部33は、取得したデータ検索結果を関連度算出部34に引き渡す。
Returning to FIG. 1, when the search
関連度算出部34は、検索結果取得部33によって取得されたデータ検索結果を基に、データ検索用サーバ装置4によって抽出された各抽出データに関する検索キーワードに対する関連度(抽出データ関連度)を計算する。さらに、データ検索部32によって作成されたメタデータ検索結果を基に、データ検索部32によって抽出された各抽出メタデータに対応する検索対象データの検索キーワードに対する関連度(抽出メタデータ関連度)を計算する。すなわち、関連度算出部34は、各抽出データ中における検索キーワードの出現回数NKと、全ての検索対象データ中の検索キーワードの出現回数の総数NKTOTALとに基づいて、下記式;
VR1=NK/NKTOTAL
を用いて、各抽出データの関連度VR1を算出する。また、関連度算出部34は、各抽出メタデータの関連度VR2を全て固定値1と算出する。
The degree-of-
V R1 = N K / N KTOTAL
Is used to calculate the relevance VR1 of each extracted data. Moreover, the degree-of-
ここで、関連度算出部34は、上記式の代わりに、データ検索結果に含まれる抽出データの件数NDと、該当抽出データの検索順位NORDERとを基に、下記式;
VR1=(ND−NORDER)/ND
を用いて、各抽出データの関連度VR1を算出してもよい。また、関連度算出部34は、抽出データ関連度VR1の算出方法と同様にして、抽出メタデータ関連度VR2を計算してもよい。関連度算出部34は、算出した抽出データ関連度VR1及び抽出メタデータ関連度VR2を、対応する検索対象データを識別するIDとともに検索結果生成部36に引き渡す。
Here, the
V R1 = (N D -N ORDER ) / N D
With, it may calculate the relevance V R1 of the extraction data. Further, the relevance
検索結果生成部36は、データ検索結果に含まれる複数の抽出データとメタデータ検索結果に含まれる複数の抽出メタデータとに対応する複数の検索対象データごとに、抽出データ関連度VR1と抽出メタデータ関連度VR2とを加味した統合関連度VR3を計算する。すなわち、検索結果生成部36は、取得した抽出データ関連度VR1及び抽出メタデータ関連度VR2から同一の検索対象データのIDに対応する関連度を取り出して、両方の関連度VR1,VR2を重み付け加算により統合して統合関連度VR3を求める。具体的には、データ検索結果及びメタデータ検索結果に含まれるIDごとに、重み付け加算のための可変係数α(<1)を用いて、下記式;
VR3=VR1×α+VR2×(1−α)
により、統合関連度VR3を計算する。このとき、検索結果生成部36は、パラメータ変更部35によって設定された可変係数αを用いる。また、データ検索結果に含まれ、メタデータ検索結果に含まれない検索対象データに対しては、VR2=0とし、メタデータ検索結果に含まれ、データ検索結果に含まれない検索対象データに対しては、VR1=0として統合関連度VR3を求める。そして、検索結果生成部36は、データ検索結果及びメタデータ検索結果に含まれる全ての検索対象データのID毎に計算した統合関連度VR3を、選択履歴格納部38cに格納する。
The search
V R3 = V R1 × α + V R2 × (1-α)
Accordingly, calculating the integrated relevance V R3. At this time, the search
図4には、検索結果生成部36により選択履歴格納部38cに格納された統合関連度のデータ構成の一例を示している。同図に示すように、データ検索結果及びメタデータ検索結果に含まれるID“d001”…毎に、関連度算出部34によって算出された抽出データ関連度“0.8”…及び抽出メタデータ関連度“1”…と、検索結果生成部36によって算出された統合関連度“0.8*0.3+1*0.7=0.94”(α=0.3の場合)…とが互いに関連付けて記憶される。この選択履歴格納部38cに格納されたデータは、端末装置2に検索クエリに応じて提示するための統合検索結果データとして利用される。
FIG. 4 shows an example of the data structure of the integration relevance stored in the selection
図1に戻って、データ通信部37は、メタデータ検索用サーバ装置3と、端末装置2及びデータ検索用サーバ装置4との間のデータ通信を実行する。特に、データ通信部37は、端末装置2から検索クエリを受信するとともに、データ検索結果とメタデータ検索結果とを合わせた統合検索結果データを選択履歴格納部38cから読み出して、検索クエリを送信した端末装置2に対して返信する。さらに、データ通信部37は、統合検索結果データによって提示された検索対象データに関する参照要求を端末装置2から受信したか否かを監視し、参照要求の回数(選択履歴)を検索対象データ毎に選択履歴格納部38cに格納する。例えば、図4に示すように、データ通信部37は、検索対象データを特定する複数のID“d001”…毎に、端末装置2のユーザによる参照要求の回数を示す選択回数“N1”…を記録する。データ通信部37は、複数の検索クエリに対して作成された統合検索結果データに関して、所定期間における選択回数を履歴データとして蓄積して格納する。また、データ通信部37は、検索クエリをデータ検索用サーバ装置4に転送するとともに、それに応じてデータ検索用サーバ装置4からデータ検索結果を取得する。
Returning to FIG. 1, the
パラメータ変更部35は、検索結果生成部36が統合関連度VR3を計算するために参照する係数αを、選択履歴格納部38cに格納された検索対象データのユーザによるデータ選択履歴に応じて変更する。すなわち、パラメータ変更部35は、選択履歴格納部38cに含まれる所定期間における選択回数を参照し、メタデータ検索結果に含まれていた検索対象データを選択した選択回数の合計NS1を集計し、データ検索結果に含まれていた検索対象データを選択した選択回数の合計NS2を集計する。例えば、図4の例によれば、0を越える抽出データ関連度を有するID(すなわち、データ検索結果に含まれるID)に対応付けられた選択回数“N1”、“N2”、“N4”を合算して、合計値“NS1=N1+N2+N4”を計算し、0を越える抽出メタデータ関連度を有するID(すなわち、メタデータ検索結果に含まれるID)に対応付けられた選択回数“N1”、“N2” 、“N3”を合算して、合計値“NS2=N1+N2+N3”を計算する。そして、パラメータ変更部35は、係数αを、下記式;
α=NS1/(NS1+NS2)
を用いて、選択回数の2つの合計値NS1,NS2を比較することによって動的に変更する。
α = N S1 / (N S1 + N S2 )
Is used to dynamically change the two total values N S1 and N S2 of the number of selections.
次に、端末装置2の機能構成について説明する。端末装置2は、メタデータ登録部21、クエリ入力部22、情報出力部23、及びデータ通信部24を備えて構成されている。メタデータ登録部21は、ユーザからメタデータ格納部38aに格納するメタデータの一部項目の登録を受け付け、その登録に関するデータをデータ通信部24を介してメタデータ検索用サーバ装置3に送信する。クエリ入力部22は、ユーザから検索クエリの入力を受け付け、データ通信部24を介してメタデータ検索用サーバ装置3に送信する。情報出力部23は、メタデータ検索用サーバ装置3から統合検索結果データを受信し、ディスプレイ等の出力装置に出力させる。データ通信部24は、メタデータ検索用サーバ装置3及びデータ検索用サーバ装置4とのデータ通信を実行する。また、データ通信部24は、ユーザから統合検索結果データによって提示された検索対象データに対してデータ参照のための選択入力を受け付けると、その選択入力をメタデータ検索用サーバ装置3及びデータ検索用サーバ装置4に送信する。
Next, the functional configuration of the
さらに、データ検索用サーバ装置4の機能構成について説明する。データ検索用サーバ装置4は、データ検索部41、データ通信部42、データ格納部43a、及びインデックス格納部43bを備えている。データ格納部43aには、図5に示すように、複数の検索対象データ“会議資料1.doc”…が、それらのデータを識別するID“d001”…に対応付けて格納されており、インデックス格納部43bには、データ格納部43aに格納されている検索対象データの検索用のインデックスが格納されている。データ検索部41は、メタデータ検索用サーバ装置3から検索クエリを受信したことを契機に、データ格納部43aに格納された検索対象データの中から抽出データを抽出し、抽出データを示すデータ検索結果を生成する。ここで、データ検索部41は、このデータ検索結果を、検索順位に従って複数の抽出データを示すIDが並ぶように、各抽出データ中の検索キーワードの出現件数を含めて生成する。データ通信部42は、端末装置2及びメタデータ検索用サーバ装置3との間でのデータ通信を実行する。
Further, the functional configuration of the data
以下、図6を参照して、データ検索システム1の動作について説明するとともに、併せてデータ検索システム1におけるデータ検索方法について詳述する。同図は、データ検索システム1による統合検索結果データ生成時の動作を示すフローチャートである。
Hereinafter, the operation of the
まず、端末装置2において、検索対象データを検索キーワードを用いて検索を要求する検索クエリが受け付けられる(ステップS101)。そうすると、検索クエリがメタデータ検索要求として、メタデータ検索用サーバ装置3のデータ検索部32によって受け付けられる(ステップS102)。そして、データ検索部32によって、検索キーワードを用いてメタデータ格納部38aに格納された複数のメタデータが抽出されることにより、メタデータ検索結果が取得される(ステップS103)。さらに、メタデータ検索用サーバ装置3の検索結果取得部33により、データ検索用サーバ装置4に対して、検索クエリがデータ検索要求として送信される(ステップS104)。これに応じて、検索結果取得部33により、データ検索用サーバ装置4から検索キーワードを用いた検索対象データに関するデータ検索結果が取得される(ステップS105)。
First, the
その後、メタデータ検索用サーバ装置3の関連度算出部34により、データ検索結果及びメタデータ検索結果を基に、各抽出データに関する抽出データ関連度、及び各抽出メタデータに関する抽出メタデータ関連度が計算される(ステップS106)。次に、メタデータ検索用サーバ装置3のパラメータ変更部35により、選択履歴格納部38cに格納された検索対象データの選択履歴が参照されることにより、統合関連度の計算時に用いられる係数αの値が動的に変更される(ステップS107)。さらに、メタデータ検索用サーバ装置3の検索結果生成部36により、検索対象データ毎に抽出データ関連度及び抽出メタデータ関連度を重み付け加算することにより統合関連度が算出される(ステップS108)。その後、検索結果生成部36により、算出された統合関連度が、検索対象データを特定するIDに対応付けられた統合検索結果データとして、選択履歴格納部38cに格納される(ステップS109)。最後に、メタデータ検索用サーバ装置3のデータ通信部37により、端末装置2に対して、選択履歴格納部38cに格納された統合検索結果データが送信される(ステップS110)。
Thereafter, the
図7には、メタデータ検索用サーバ装置3から送信された統合検索結果データに応じて、端末装置2において表示された出力画面D1の一例を示している。同図に示すように、検索キーワード“SNS”に対する統合検索結果として、検索対象データ“会議資料1.doc”、“会議資料2.doc”、“会議資料4.doc”が抽出されたことが示される。また、統合検索結果には、検索キーワードにヒットしたメタデータ中の関連箇所“SNSサービス調査”、及び検索キーワードにヒットした検索対象データ中の関連箇所“2012年度のSNSの市場規模は…”が、各検索対象データ毎に併せて表示される。
FIG. 7 shows an example of the output screen D 1 displayed on the
以上説明したデータ検索システム1、及びデータ検索システム1におけるデータ検索方法によれば、検索キーワードを基に複数の検索対象データを対象に検索されたデータ検索結果が取得されると共に、同じ検索キーワードを基に複数のメタデータを対象に検索されたメタデータ検索結果が生成される。そして、データ検索結果を基に抽出データ関連度が計算され、メタデータ検索結果を基に抽出メタデータ関連度が生成される。その後、両方の検索結果に含まれる複数の検索対象データ毎に統合関連度が計算され、両方の検索結果を合わせた統合検索結果が統合関連度に基づく順位で出力される。これにより、複数の検索対象データを対象にした検索と、それらの検索対象データに対応するメタデータを対象にした検索結果が別々の装置で得られる場合であっても、両方の検索結果における検索キーワードとの関連度を加味することにより、検索対象データ毎の検索キーワードに対する関連度が適切に評価された検索結果が得られる。その結果、検索対象データに対して検索キーワードとの関連性が適切に検索順位が評価された検索結果を生成することができる。
According to the
また、抽出データ関連度が抽出データ中の検索キーワードの出現回数や、データ検索結果中の検索順位を基に計算されるので、データ検索結果における抽出データ関連度を簡易に求めることができる。 Moreover, since the extracted data relevance is calculated based on the number of appearances of the search keyword in the extracted data and the search rank in the data search result, the extracted data relevance in the data search result can be easily obtained.
さらに、統合関連度は抽出データ関連度及び抽出メタデータ関連度を重み付け加算することで得られるので、データ検索結果及びメタデータ検索結果における検索キーワードとの関連度を用いて、検索対象データ毎の関連度をより適切に評価することができる。また、この重み付け加算に用いる係数αは統合検索結果に対するユーザのデータ選択履歴を基に動的に変更されるので、ユーザにとって利用価値の高い検索結果を生成することができる。 Furthermore, since the integrated relevance is obtained by weighted addition of the extracted data relevance and the extracted metadata relevance, the relevance with the search keyword in the data search result and the metadata search result is used for each search target data. Relevance can be evaluated more appropriately. Further, since the coefficient α used for the weighted addition is dynamically changed based on the user's data selection history for the integrated search result, a search result having high utility value for the user can be generated.
なお、本発明は、上述した実施形態に限定されるものではない。 In addition, this invention is not limited to embodiment mentioned above.
例えば、図1に示したようなメタデータ検索用サーバ装置3の各構成要素は、ユーザが使用する端末装置に一部又は全てが具備されていてもよい。例えば、図8に示すように、検索結果取得部33、関連度算出部34、パラメータ変更部35、検索結果生成部36、及び選択履歴格納部38cが、検索対象データを検索しようとするユーザが使用する端末装置102内に備えられていてもよい。
For example, some or all of the components of the metadata
1,101…データ検索システム、2,102…端末装置、3,103…メタデータ検索用サーバ装置、32…データ検索部(データ検索手段)、33…検索結果取得部(検索結果取得手段)、34…関連度算出部(関連度算出手段)、35…パラメータ変更部(パラメータ変更手段)、36…検索結果生成部(検索結果生成手段)、38a…メタデータ格納部(付加データ格納手段)。 DESCRIPTION OF SYMBOLS 1,101 ... Data search system, 2,102 ... Terminal device, 3,103 ... Server device for metadata search, 32 ... Data search part (data search means), 33 ... Search result acquisition part (search result acquisition means), 34... Relevance calculation unit (relevance calculation unit) 35. Parameter change unit (parameter change unit) 36. Search result generation unit (search result generation unit) 38 a. Metadata storage unit (additional data storage unit).
Claims (7)
前記複数の検索対象データに付加された複数の付加データを格納する付加データ格納手段と、
前記複数の付加データのうちから前記検索キーワードに関連する複数の抽出付加データを抽出して、前記複数の抽出付加データが付加された複数の検索対象データを示す第2の検索結果を生成するデータ検索手段と、
前記第1の検索結果取得手段によって取得された第1の検索結果を基に、前記複数の抽出データの前記検索キーワードとの第1の関連度を計算し、前記データ検索手段によって取得された第2の検索結果を基に、前記複数の抽出付加データに対応する前記複数の検索対象データの前記検索キーワードとの第2の関連度を計算する関連度算出手段と、
前記複数の抽出データと前記複数の抽出付加データに対応する前記複数の検索対象データとに対して、前記第1の関連度及び前記第2の関連度を加味した第3の関連度を計算する検索結果生成手段と、
前記第1の検索結果及び前記第2の検索結果を合わせた第3の検索結果を、前記第3の関連度を基にした順位で出力する出力手段と、
を備えることを特徴とするデータ検索システム。 Search result acquisition means for acquiring a first search result indicating a plurality of extracted data extracted from a plurality of search target data by a search keyword;
Additional data storage means for storing a plurality of additional data added to the plurality of search target data;
Data for extracting a plurality of extracted additional data related to the search keyword from the plurality of additional data and generating a second search result indicating a plurality of search target data to which the plurality of extracted additional data is added Search means;
Based on the first search result acquired by the first search result acquisition means, a first relevance level of the plurality of extracted data with the search keyword is calculated, and the first search result acquired by the data search means is obtained. Relevance calculation means for calculating a second relevance of the plurality of search target data corresponding to the plurality of extracted additional data with the search keyword based on the search result of 2;
A third degree of association is calculated by adding the first degree of association and the second degree of association to the plurality of extracted data and the plurality of search target data corresponding to the plurality of extracted additional data. Search result generation means;
Output means for outputting a third search result obtained by combining the first search result and the second search result in an order based on the third degree of association;
A data retrieval system comprising:
前記複数の抽出データ中の前記検索キーワードの出現回数を基に前記第1の関連度を計算する、
ことを特徴とする請求項1記載のデータ検索システム。 The relevance calculation means includes:
Calculating the first relevance based on the number of appearances of the search keyword in the plurality of extracted data;
The data search system according to claim 1.
前記第1の検索結果中の前記複数の抽出データの順位を基に前記第1の関連度を計算する、
ことを特徴とする請求項1記載のデータ検索システム。 The relevance calculation means includes:
Calculating the first relevance based on the ranking of the plurality of extracted data in the first search result;
The data search system according to claim 1.
前記複数の抽出データと前記複数の抽出付加データに対応する前記複数の検索対象データとに対して、前記第1の関連度及び前記第2の関連度を重み付け加算して第3の関連度を計算する、
ことを特徴とする請求項1〜3のいずれか1項に記載のデータ検索システム。 The search result generating means includes
A third relevance level is obtained by weighting and adding the first relevance level and the second relevance level to the plurality of extracted data and the plurality of search target data corresponding to the plurality of extracted additional data. calculate,
The data search system according to claim 1, wherein the data search system is a data search system.
をさらに備えることを特徴とする請求項4記載のデータ検索システム。 5. The apparatus according to claim 4, further comprising parameter changing means for dynamically changing a weighting value used at the time of weighting addition based on a user data selection history for the third search result output by the output means. The data retrieval system described.
ことを特徴とする請求項5記載のデータ検索システム。 The parameter changing means may determine the weighting value based on a comparison between the number of times of selecting the first selection result indicated by the data selection history and the number of times of selecting the second selection result indicated by the data selection history. Change
6. A data search system according to claim 5, wherein:
付加データ格納手段が、前記複数の検索対象データに付加された複数の付加データを格納する付加データ格納ステップと、
データ検索手段が、前記複数の付加データのうちから前記検索キーワードに関連する複数の抽出付加データを抽出して、前記複数の抽出付加データが付加された複数の検索対象データを示す第2の検索結果を生成するデータ検索ステップと、
関連度算出手段が、前記第1の検索結果取得手段によって取得された第1の検索結果を基に、前記複数の抽出データの前記検索キーワードとの第1の関連度を計算し、前記データ検索手段によって取得された第2の検索結果を基に、前記複数の抽出付加データに対応する前記複数の検索対象データの前記検索キーワードとの第2の関連度を計算する関連度算出ステップと、
検索結果生成手段が、前記複数の検索結果データと前記複数の抽出付加データに対応する前記複数の検索対象データとに対して、前記第1の関連度及び前記第2の関連度を加味した第3の関連度を計算する検索結果生成ステップと、
出力手段が、前記第1の検索結果及び前記第2の検索結果を合わせた第3の検索結果を、前記第3の関連度を基にした順位で出力する出力ステップと、
を備えることを特徴とするデータ検索方法。 A search result acquisition step in which a search result acquisition means acquires a first search result indicating a plurality of extracted data extracted from a plurality of search target data by a search keyword;
An additional data storage means for storing a plurality of additional data added to the plurality of search target data;
A data search means extracts a plurality of extracted additional data related to the search keyword from the plurality of additional data, and a second search indicating the plurality of search target data to which the plurality of extracted additional data is added A data retrieval step to generate results;
The degree-of-association calculating means calculates a first degree of association with the search keyword of the plurality of extracted data based on the first search result acquired by the first search result acquisition means, and the data search A relevance calculation step of calculating a second relevance of the plurality of search target data corresponding to the plurality of extracted additional data with the search keyword based on the second search result acquired by the means;
The search result generation means adds the first relevance level and the second relevance level to the plurality of search result data and the plurality of search target data corresponding to the plurality of extracted additional data. A search result generation step for calculating the degree of relevance 3;
An output step of outputting a third search result obtained by combining the first search result and the second search result in an order based on the third degree of association;
A data search method comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012073585A JP2013206066A (en) | 2012-03-28 | 2012-03-28 | Data retrieval system and data retrieval method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012073585A JP2013206066A (en) | 2012-03-28 | 2012-03-28 | Data retrieval system and data retrieval method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2013206066A true JP2013206066A (en) | 2013-10-07 |
Family
ID=49525093
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012073585A Pending JP2013206066A (en) | 2012-03-28 | 2012-03-28 | Data retrieval system and data retrieval method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2013206066A (en) |
-
2012
- 2012-03-28 JP JP2012073585A patent/JP2013206066A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107660284B (en) | Search improvement based on machine learning | |
JP5819412B2 (en) | Providing content items selected based on context | |
CN1813233B (en) | User interface for controlling access to computer objects | |
KR102048108B1 (en) | Sending communications to contacts on a social networking service | |
US20150142790A1 (en) | Generating logical expressions for search queries | |
US20110302153A1 (en) | Service for Aggregating Event Information | |
KR101143968B1 (en) | System and method for providing realtime retrieval service of open type poi | |
US20110113100A1 (en) | System for sharing favorites and enabling in-network local search based on network rankings | |
JP2009076041A (en) | System for predicting and recommend future goal-oriented activity | |
TW201009618A (en) | Context based search arrangement for mobile devices | |
TW201101069A (en) | Subject-based vitality | |
US20150310100A1 (en) | Presenting user-generated content in search results | |
Naaman et al. | ZoneTag's collaborative tag suggestions: What is this person doing in my phone? | |
US8983948B1 (en) | Providing electronic content based on a composition of a social network | |
US9357020B2 (en) | Information source selection system, information source selection method, and program | |
KR20180019656A (en) | Keyword presentation method and device | |
US8209345B2 (en) | User information management device for content provision, processing method, and computer-readable non transitory storage medium storing program | |
Robecke et al. | Dbischolar: An iphone application for performing citation analyses | |
CN103678624A (en) | Searching method, searching server, and searching request executing method and terminal | |
KR20120032290A (en) | Providing personalized poi information using client information and client terminal implementing the same | |
JP5407336B2 (en) | Information processing device | |
JP2008108105A (en) | Information providing device, information providing method and information providing program | |
KR20110037354A (en) | Apparatus for providing contents consumption history syndication, service system, and method by using the same | |
KR20110039120A (en) | Content recommendation list providing system based on location or social relationship | |
JP2015106351A (en) | Content distribution device and free word recommendation method |