JP2010205189A - Scoring system of search result document, score calculation device, scoring method and scoring program - Google Patents
Scoring system of search result document, score calculation device, scoring method and scoring program Download PDFInfo
- Publication number
- JP2010205189A JP2010205189A JP2009052740A JP2009052740A JP2010205189A JP 2010205189 A JP2010205189 A JP 2010205189A JP 2009052740 A JP2009052740 A JP 2009052740A JP 2009052740 A JP2009052740 A JP 2009052740A JP 2010205189 A JP2010205189 A JP 2010205189A
- Authority
- JP
- Japan
- Prior art keywords
- document
- probability
- information
- occurrence probability
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
この発明は、各検索結果文書について、利用者の検索要求に適合する蓋然性の高さに応じたスコアを算出するスコアリングシステム、スコア算出装置、スコアリング方法、及びスコアリングプログラムに関し、例えば、企業等に設置された業務用の文書検索エンジンと連携して用いて好適である。 The present invention relates to a scoring system, a score calculation device, a scoring method, and a scoring program for calculating a score corresponding to a high probability of conforming to a user's search request for each search result document. It is suitable for use in cooperation with a business document search engine installed in
この種のスコアリングシステムとしては、例えば、第1の関連技術としての特許文献1に記載の検索結果文書の優先順位付与システムや、第2の関連技術としての特許文献2に記載の検索語ランキング算出システム等が知られている。
As this type of scoring system, for example, a priority ranking system for search result documents described in
まず、第1の関連技術としての優先順位付与システムは、図14に示すように、ネットワーク21を介して互いに接続される利用者端末22とサーバコンピュータ23とからなる文書検索システムの付随機能として、サーバコンピュータ23に組み込まれている。この優先順位付与システムは、同図に示すように、データ入出力装置24と、データ処理装置25と、記憶装置26とから概略構成されている。
First, as shown in FIG. 14, the prioritization system as the first related technique is an accompanying function of a document search system comprising a
上記データ処理装置25は、同図に示すように、検索実施部27と、点数計算部28と、データ生成部29と、お気に入りリスト登録部30とから構成されている。上記検索実施部27は、利用者(利用者端末22)からの検索要求に従って、文書検索を実施して、検索結果文書リストを生成して、点数計算部28と記憶装置26(検索元データ保存部31)とに出力する。上記点数計算部28は、検索実施部27から提供される検索結果文書リストに列挙された各文書(以下、検索結果文書ともいう)について、利用者の検索要求に適合する蓋然性(可能性)の高さに応じたスコアリング(点数計算)を行う。データ生成部29は、利用者入力の助けを借りて、順位付けの対象となる文書情報を生成する。お気に入りリスト登録部30は、利用者入力の助けを借りて、順位付けの対象となる文書情報をお気に入りリストに登録する。また、検索実施部27は、各検索結果文書に対して、点数計算部28で得られたスコアの高低に従った優先順位付けを行って、利用者からの上記検索要求に応答する。
The
また、上記記憶装置26は、検索の対象となる文書情報や検索結果文書等を保存する検索元データ保存部31と、点数計算部28で点数計算された各検索結果文書のスコア(点数)を保持する計算結果保存部32とを備えている。上記記憶装置26に保存される各種データは、検索実施部27と点数計算部28とによって書き込まれ、必要に応じて、読み出される。
Further, the
上記構成の優先順位付与システムにおいて、データ入出力装置24が、第1の利用者からの検索要求を受けると、検索実施部27は、検索元データ保存部31に対して文書の検索を実施し、検索結果文書リストを得て、点数計算部28に出力する。点数計算部28は、第1の利用者や第2の利用者が作成・保存している順序付けの対象となる文書情報に基づいて点数計算を行う。この点数計算の際には、検索要求する第1の利用者と、順序付けの対象となる文書情報を作成・保存している第2の利用者とが、検索結果文書に対して有する関連性の有無が判断される。
In the prioritization system configured as described above, when the data input /
この関連性判断では、第1及び第2の利用者が持つ属性情報(例えば、コミュニティ)が一致しているか否かが判断され、判断の結果、一致していれば、「関連性有り」と判断され、一致していなければ、「関連性無し」と判断される。つまり、企業内で稼動する当該システムにあっては、例えば、「所属部署」が同一であるか否か等が判断され、同一であれば、「関連性有り」と判断される。点数計算部28は、「関連性有り」のときは、第2の利用者が作成登録した順序付けの対象となる文書情報に基づいて、検索結果文書に対して、第2の利用者から見たスコアを割り当てて、優先順位を算出する。このとき、第1の利用者も順序付けの対象となる文書情報を作成登録しているときは、点数計算部28は、検索結果文書に対して、第2の利用者から見たスコアを、第1の利用者から見たスコアに加算した値をスコアとして割り当てることで、優先順位を算出する。検索実施部27は、検索結果文書に対するスコアを受け取ると、データ入出力装置24を介して、第1の利用者へ優先順位付きの検索結果を出力する。
このように、第1の関連技術の構成によれば、コミュニティの価値観に従った検索結果文書の優先順位付けを行うことができる。
In this relevance determination, it is determined whether or not the attribute information (for example, community) held by the first and second users is the same, and if the result of the determination is the same, “relevant” is determined. If it is determined that they do not match, it is determined that there is no relevance. That is, in the system operating in the company, for example, it is determined whether or not the “affiliation department” is the same, and if it is the same, it is determined as “relevant”. When the
Thus, according to the configuration of the first related technology, it is possible to prioritize search result documents according to community values.
次に、第2の関連技術としての上記検索語ランキング算出システムについて説明する。このランキング算出システムは、一定期間に出現する検索語のランキングを算出するもので、ランキング評価値を上げる(又は下げる)第1の値乃至第3の値を定める第1乃至第3の手段と、上記第1乃至第3の値に基づいて、検索語の総合ランキングを定める第4の手段とから構成されている。上記第1の手段は、記憶手段から読み出された検索ログ情報を利用して、ランキング評価期間中に出現する検索語の中で、利用頻度が高い検索語ほど、ランキング評価値を上げる第1の値を生成する。第2の手段は、過去のN期間に遡って多数利用されている検索語(例えば、最近入力回数が単調減少している検索語)ほど、ランキング評価値を下げる第2の値を生成する。第3の手段は、最近の利用が多い検索語(例えば、最近入力回数が単調増加している検索語)ほど、ランキング評価値を上げる第3の値を生成する。 Next, the search word ranking calculation system as a second related technique will be described. The ranking calculation system calculates the ranking of search terms that appear in a certain period, and includes first to third means for determining first to third values that increase (or decrease) a ranking evaluation value; And a fourth means for determining an overall ranking of search terms based on the first to third values. The first means uses the search log information read from the storage means to increase a ranking evaluation value for a search word having a higher use frequency among search words appearing during the ranking evaluation period. Generate the value of. A 2nd means produces | generates the 2nd value which lowers a ranking evaluation value, so that the search word (for example, the search word in which the frequency | count of the recent input is monotonously decreasing) used many retroactively in the past N period. The third means generates a third value that increases the ranking evaluation value for a search term that has been recently used frequently (for example, a search term whose number of recent inputs has monotonously increased).
この第2の関連技術の構成によれば、長時間出現し続ける検索語よりも新しく出現した検索語のランキング表価値が高くなる(上位にランクされる)ので、最近入力頻度が増加傾向にある検索語、すなわち、これから話題となるであろうと推測できる検索語のランキングを上げることが可能となり、それゆえ、時代を反映したトレンド情報を利用者に提供することができる。 According to the configuration of the second related technique, the value of the search table that newly appears is higher (ranked higher) than the search term that continues to appear for a long time, and thus the input frequency tends to increase recently. It is possible to increase the ranking of search words, that is, search words that can be presumed to become a topic in the future. Therefore, trend information reflecting the times can be provided to the user.
しかしながら、上記第1の関連技術にあっては、人手を使って作成登録された文書情報に頼って、優先順位の付与を行うシステム構成であるため、優先順位付与の的中率が作成登録者の経験や資質の影響を受け易い、という問題がある。
もしも、未熟者が優先順位付与用の文書情報を作成するなら、個人的嗜好性の強い文書情報(すなわち、コミュニティ色の薄い文書情報)が混入し、誤った文書が上位にランクされる虞があるので、問題である。これを回避するためには、文書情報作成の熟練者又は専門家の確保が必要となるので、維持コストの高騰化を避けることができず、不都合である。
また、人手による、順位付けの対象となる文書の選択抽出処理、及び当該文書情報の作成登録処理が不可欠である上、業務内容の推移に伴う対象文書の変更の度に、更新処理も余儀なくされるため、処理が煩雑であり、多大な作業時間も要する、という欠点もある。
However, in the first related technology, since the system configuration assigns priorities by relying on document information created and registered by hand, the target ratio of priority assignment is the creation registrant. There is a problem of being easily affected by the experience and qualities of
If the inexperienced person creates document information for assigning priorities, there is a possibility that document information with a strong personal preference (that is, document information with a light community color) is mixed and an erroneous document is ranked higher. So there is a problem. In order to avoid this, it is necessary to secure an expert or expert of document information creation, which is inconvenient because an increase in maintenance cost cannot be avoided.
In addition, manual selection and extraction processing of documents to be ranked and creation / registration processing of the document information are indispensable, and every time the target document is changed due to the transition of business contents, update processing is also forced. Therefore, there are also disadvantages that the process is complicated and requires a lot of work time.
加えて、第1の関連技術が、企業内システムとして運用されるためには、少なくとも属性値(所属部署)の数だけ、各属性との関連性の強い、順位付けの対象となる文書情報の生成登録処理が必要となる。しかし、属性値の数に応じた登録文書情報の増加は、記憶装置資源の利用効率上好ましくない。とりわけ、部課係り等の属性値の分化・特化が進行する程、登録文書情報及び担当管理者の人員も増加するので、記憶装置及び計算装置資源の利用の効率化を阻害し、ひいては、記憶装置及び計算装置資源の増大化を招く、という不具合もある。 In addition, in order for the first related technology to be operated as an in-house system, at least the number of attribute values (affiliated departments) has a strong relationship with each attribute, and the document information to be ranked. Generation registration processing is required. However, an increase in registered document information corresponding to the number of attribute values is not preferable in terms of utilization efficiency of storage device resources. In particular, as the attribute values such as departmental staff are differentiated and specialized, the number of registered document information and the number of managers in charge increases, which hinders efficient use of storage devices and computing device resources, and in turn There is also a problem that the resources of the apparatus and the computing apparatus are increased.
一方、上記第2の関連技術にあっては、企業内部署等の属性が判断されないため、特定部署では有意義な検索語でも、他の部署では、不適合検索語(ノイズ)と判断されてしまう虞がある。また、役割分担が、ある部署から他の部署に移管されたことにより、他の部署では、最近入力頻度が増加する傾向にあるが、ある部署では、最近入力頻度が減少する傾向にある検索語が多々出現する場合が起こり得る。このような場合、ある部署から見れば、重要ではなくなった検索語(最近入力頻度が減少する傾向にある検索語)が上位のランクに留まる虞があるので、不都合である。一方、他の部署から見れば、これから重要性が増す検索語(最近入力頻度が増加する傾向にある検索語)が思うように上位にランクされてこない虞があるので、この場合もやはり不都合である。さらに、不適合検索語(ノイズ)の入力頻度が増加するトラブルが一旦発生すると、システムは、この不適合検索語を、これから話題となるであろう検索語であると誤判断するので、不適合検索語が益々上位にランキングされるという、不具合もある。 On the other hand, in the second related technology, since attributes such as departments in a company are not judged, there is a possibility that even a meaningful search word in a specific department may be judged as a non-conforming search word (noise) in other departments. There is. In addition, because the division of roles has been transferred from one department to another, search terms tend to increase recently in other departments, but tend to decrease recently in other departments. May occur in many cases. In such a case, it is inconvenient because a search term that is no longer important (a search term that tends to decrease recently input frequency) may remain in a higher rank from a certain department. On the other hand, from the viewpoint of other departments, there is a risk that search terms that will increase in importance (search terms that tend to increase recently) may not be ranked higher as expected. is there. Furthermore, once a trouble that increases the input frequency of non-conforming search words (noise) occurs, the system erroneously determines that this non-conforming search word is a search word that will become a topic in the future. There is also a problem that it is ranked higher and higher.
この発明は、上述の事情に鑑みてなされたもので、利用者が真に必要とする検索結果文書のスコアを高くし、不適合文書(ノイズ)のスコアを低くすることができる、使い勝手の良い検索結果文書のスコアリングシステム、スコア算出装置、スコアリング方法、及びスコアリングプログラムを提供することを第1の目的としている。
また、この発明は、労力及び維持コストの軽減化を達成でき、かつ、記憶装置及び計算装置資源の削減化を図ることができる検索結果文書のスコアリングシステム、スコア算出装置、スコアリング方法、及びスコアリングプログラムを提供することを第2の目的としている。
The present invention has been made in view of the above circumstances, and is an easy-to-use search that can increase the score of a search result document that a user really needs and can decrease the score of a nonconforming document (noise). It is a first object of the present invention to provide a result document scoring system, a score calculation device, a scoring method, and a scoring program.
The present invention also provides a search result document scoring system, a score calculation device, a scoring method, which can achieve a reduction in labor and maintenance costs, and can reduce storage devices and computing device resources, and The second object is to provide a scoring program.
上記課題を解決するために、この発明の第1の構成は、検索結果文書のスコアリングシステムに係り、利用者の今回の検索要求に対する応答として、文書検索手段から提供される各検索結果文書について、利用者の今回の検索要求に適合する蓋然性の程度を推定し、スコアとして数値化するスコア算出手段を備えている。
このスコア算出手段は、各検索結果文書について、利用者の過去の文書選択履歴からそれぞれ生成された、第1の統計情報と第2の統計情報とに基づいて、スコアを算出する。第1の統計情報は、利用者による当該文書選択の発生確率に関する情報であり、第2の統計情報は、当該文書を選択する際の今回の利用者又はその検索要求が持つ、少なくとも一の属性情報の条件付発生確率に関する情報である。
ここで、第2の統計情報である、上記属性情報の条件付発生確率とは、例えば、検索対象の文書毎に、かつ、当該文書を選択する際の利用者又はその検索要求が持つ少なくとも一の属性について、該属性が各属性値を取る確率であると定義される。
In order to solve the above-described problem, a first configuration of the present invention relates to a search result document scoring system, and for each search result document provided from a document search means as a response to a user's current search request. , A score calculation means for estimating the degree of probability that matches the user's current search request and digitizing the score is provided.
The score calculation means calculates a score for each search result document based on the first statistical information and the second statistical information respectively generated from the user's past document selection history. The first statistical information is information regarding the probability of occurrence of the document selection by the user, and the second statistical information is at least one attribute of the current user or the search request when the document is selected. It is information regarding the conditional occurrence probability of information.
Here, the conditional occurrence probability of the attribute information, which is the second statistical information, is, for example, at least one for each search target document and the user or the search request for selecting the document. Is defined as the probability that the attribute takes each attribute value.
この発明の第2の構成は、検索結果文書のスコア算出装置に係り、利用者の今回の検索要求に対する応答として、文書検索手段から提供される各検索結果文書について、利用者の今回の検索要求に適合する蓋然性の程度を推定し、スコアとして数値化する。
このスコア算出装置は、各検索結果文書について、利用者の過去の文書選択履歴からそれぞれ生成された、第1の統計情報と第2の統計情報とに基づいて、スコアを算出する。第1の統計情報は、利用者による当該文書選択の発生確率に関する情報であり、第2の統計情報は、当該文書を選択する際の今回の利用者又はその検索要求が持つ、少なくとも一の属性情報の条件付発生確率に関する情報である。
The second configuration of the present invention relates to a score calculation device for a search result document. As a response to the user's current search request, the user's current search request is provided for each search result document provided from the document search means. Estimate the degree of probability of conforming to, and digitize as a score.
The score calculation device calculates a score for each search result document based on the first statistical information and the second statistical information respectively generated from the user's past document selection history. The first statistical information is information regarding the probability of occurrence of the document selection by the user, and the second statistical information is at least one attribute of the current user or the search request when the document is selected. It is information regarding the conditional occurrence probability of information.
また、この発明の第3の構成は、検索結果文書のスコアリング方法に係り、利用者の今回の検索要求に対する応答として、文書検索手段から提供される各検索結果文書について、利用者の今回の検索要求に適合する蓋然性の程度を推定し、スコアとして数値化するスコア算出ステップを有している。
このスコア算出ステップでは、各検索結果文書について、利用者の過去の文書選択履歴からそれぞれ生成した、第1の統計情報と第2の統計情報とに基づいて、スコアを算出する。第1の統計情報は、利用者による当該文書選択の発生確率に関する情報であり、第2の統計情報は、当該文書を選択する際の今回の利用者又はその検索要求が持つ、少なくとも一の属性情報の条件付発生確率に関する情報である。
A third configuration of the present invention relates to a search result document scoring method, wherein the user's current search request is provided for each search result document provided by the document search means as a response to the user's current search request. It has a score calculation step for estimating the probability of conformity to the search request and digitizing it as a score.
In this score calculation step, a score is calculated for each search result document based on the first statistical information and the second statistical information generated from the user's past document selection history. The first statistical information is information regarding the probability of occurrence of the document selection by the user, and the second statistical information is at least one attribute of the current user or the search request when the document is selected. It is information regarding the conditional occurrence probability of information.
また、この発明の第4の構成は、検索結果文書のスコアリングプログラムに係り、コンピュータに、利用者の今回の検索要求に対する応答として、文書検索手段から提供される各検索結果文書について、利用者の今回の検索要求に適合する蓋然性の程度を推定し、スコアとして数値化するスコア算出処理を実行させる。
このスコア算出処理では、各検索結果文書について、利用者の過去の文書選択履歴からそれぞれ生成した、第1の統計情報と第2の統計情報とに基づいて、スコアを算出する。第1の統計情報は、利用者による当該文書選択の発生確率に関する情報であり、第2の統計情報は、当該文書を選択する際の今回の利用者又はその検索要求が持つ、少なくとも一の属性情報の条件付発生確率に関する情報である。
According to a fourth aspect of the present invention, there is provided a scoring program for a search result document, wherein the user is provided with respect to each search result document provided from the document search means as a response to the user's current search request. The degree of probability that matches the current search request is estimated, and a score calculation process is performed to quantify the score.
In this score calculation process, for each search result document, a score is calculated based on the first statistical information and the second statistical information respectively generated from the user's past document selection history. The first statistical information is information regarding the probability of occurrence of the document selection by the user, and the second statistical information is at least one attribute of the current user or the search request when the document is selected. It is information regarding the conditional occurrence probability of information.
この発明の構成によれば、各検索結果文書について、利用者の過去の文書選択履歴から生成される、2以上の確率情報に基づいて、利用者の検索要求に適合する蓋然性の程度を推定し、スコアとして数値化するので、検索結果文書に対する優先順位付けの的中率の向上を図ることができる。ここで、2以上の確率情報とは、互いに業務上の関連性が高いと考えられる、利用者による当該文書選択の発生確率と、少なくとも一のクエリー属性情報の条件付発生確率であるので、例えば、これらの確率を積算統合処理すると、確率の精度を著しく高めることができる。それゆえ、利用者が真に必要とする検索結果文書のスコアを高くする一方、不適合文書(ノイズ)のスコアを低くすることができる。ここで、クエリー属性情報とは、検索結果文書を選択する際の利用者又はその検索要求が持つ各属性情報の条件付発生確率(例えば、属性毎に各属性値が取る確率)のことである。 According to the configuration of the present invention, for each search result document, based on two or more pieces of probability information generated from the user's past document selection history, the degree of probability that matches the user's search request is estimated. Since it is digitized as a score, it is possible to improve the hit rate of prioritizing search result documents. Here, the probability information of two or more is the occurrence probability of the document selection by the user, which is considered to be highly related to each other, and the conditional occurrence probability of at least one query attribute information. If these probabilities are integrated and integrated, the accuracy of the probabilities can be significantly increased. Therefore, the score of the search result document that the user really needs can be increased while the score of the nonconforming document (noise) can be decreased. Here, the query attribute information is the conditional occurrence probability (for example, the probability that each attribute value takes for each attribute) of each attribute information that the user or the search request has when selecting a search result document. .
この発明は、文書検索手段から提供される上記検索結果に基づく利用者の過去の文書選択履歴を格納する文書選択履歴格納部と、上記文書選択履歴格納部から文書選択履歴を読み出して、2以上の確率情報を生成する確率情報生成手段とを具備することができる。このようにすれば、人手による分散登録業務を廃することができるので、労力及び維持コストの軽減化を達成でき、かつ、記憶装置及び計算装置資源の削減化も図ることができるので、使い勝手の良いシステム環境を具現できる。 According to the present invention, a document selection history storage unit for storing a user's past document selection history based on the search result provided from the document search means, and reading out the document selection history from the document selection history storage unit, two or more Probability information generating means for generating the probability information. In this way, it is possible to eliminate manual distributed registration work, so that it is possible to achieve a reduction in labor and maintenance costs, and also to reduce storage devices and computing device resources. A good system environment can be realized.
この発明の実施形態について、概説すると、上記目的を達成するために、文書検索部1から提供される検索結果に基づく利用者の過去の文書選択履歴を格納する文書選択履歴DB(データベース)4を備えるのが好ましい。
さらに、文書選択履歴DB3から読み出された文書選択履歴に基づいて、文書毎に、利用者による各文書選択の発生確率(第1の統計情報)と、各クエリー属性値の条件付発生確率(第2の統計情報)とを生成する確率DB生成部7Aを備えるのが好ましい。
さらに、確率DB生成部7Aにて生成された、上記文書選択の発生確率を格納する文書発生確率DB(データベース)5と、上記各クエリー属性値の条件付発生確率を格納する属性条件付発生確率DB(データベース)6Aとを備えるのが好ましい。
An outline of the embodiment of the present invention is as follows. In order to achieve the above object, a document selection history DB (database) 4 for storing a user's past document selection history based on a search result provided from the
Further, on the basis of the document selection history read from the document
Furthermore, a document occurrence probability DB (database) 5 that stores the occurrence probability of the document selection generated by the probability DB generation unit 7A, and an attribute conditional occurrence probability that stores the conditional occurrence probability of each query attribute value. It is preferable to include a DB (database) 6A.
スコア算出部8Aは、文書検索部1によって検索された各検索結果文書について、各発生確率DB5、6Aとから、当該文書選択の発生確率と、少なくとも一のクエリー属性値の条件付発生確率とを読み出してスコア計算を行う。このスコア計算では、各検索結果文書について、利用者による当該文書選択の発生確率と、少なくとも一のクエリー属性値の条件付発生確率との積算統合処理を実行して、利用者の今回の検索要求に適合する蓋然性の程度に応じたスコアを算出し、スコア又は優先順位を付した検索結果文書リストを文書検索部1に返却する。
The
以下、図面を参照して、この発明の実施形態について詳細に説明する。
図1は、この発明の第1の実施形態である検索結果文書のスコアリングシステムの構成を示すブロック図である。
この実施形態のスコアリングシステムは、業務用文書検索システム(文書検索部1)と連携して用いて好適なもので、同図に示すように、利用者の行動履歴取得部2と、文書選択履歴DB3と、文書スコアリング部4Aとから概略構成されている。ここで、業務とは、多数の所属部署や所属グループから構成される企業、団体、官公庁、組織体、コミュニティ(以下、企業という)で、営利、非営利を問わず、所定の目的を達成するための営みを含む広い概念である。
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
FIG. 1 is a block diagram showing the configuration of a search result document scoring system according to the first embodiment of the present invention.
The scoring system of this embodiment is suitable for use in cooperation with a business document search system (document search unit 1), and as shown in FIG. The
文書検索部1は、図示せぬ利用者端末からの検索要求を受付け、検索対象の文書の中から該当文書を検索して、検索結果文書リストを生成し、生成した検索結果文書リストをクエリー属性と併せて文書スコアリング部4Aへ渡す。文書検索部1は、文書スコアリング部4Aから、スコア付きの検索結果文書リストを取得すると、検索結果文書リストをスコア順に並び替えて利用者端末の表示部に表示する。
The
行動履歴取得部2は、文書検索部1から提供される検索結果文書リストに表示された各文書に対して、例えば、「所属」や「キーワード」等の各種クエリー属性値と併せて取得する。ここで、利用者が取る反応とは、例えば、表示された検索結果文書リストの中から所望の検索結果文書を広い意味で「選択」する行為のことであり、例えば、クリックする反応、閲覧する反応、ダウンロードする反応、及びお気に入りリストに登録する反応等は、利用者の反応、すなわち、選択行為に含まれる。
The behavior
文書選択履歴DB3は、行動履歴取得部2から随時入力される利用者の行動情報を利用者の過去の文書選択履歴情報としてテーブル形式に蓄積する記憶部である。
ここで、利用者の行動情報とは、例えば、各種クエリー属性値や、検索結果文書に対する利用者の反応情報や、利用者やその反応時の情況に関する情報(例えば、利用者名)等である。上記文書選択履歴DB3には、文書選択履歴情報テーブルTA(図2)が設定されていて、この文書選択履歴情報テーブルTAの中に、上述の各種クエリー属性値と、検索結果文書に対する利用者の反応情報と、利用者やその反応時の情況に関する情報とが対応付けされて記憶されている。
The document
Here, the user behavior information is, for example, various query attribute values, user reaction information with respect to the search result document, information on the user and the situation at the time of the reaction (for example, user name), and the like. . In the document
上記文書スコアリング部4Aは、図1に示すように、文書発生確率DB5と、属性条件付発生確率DB6Aと、確率DB生成部7Aと、スコア算出部8Aとから構成され、これらの構成各部は、コンピュータが、各種プログラム(例えば、確率DB生成プログラム、スコア算出プログラム等)の制御の下で動作することで具現される。
As shown in FIG. 1, the document scoring unit 4A includes a document
文書発生確率DB5は、文書選択の発生確率テーブルTB(図3)を備え、利用者の過去の文書選択履歴から生成された、第1の統計情報としての、利用者による各文書選択の発生確率(各文書の選択確率)をテーブル形式で格納する。また、属性条件付発生確率DB6Aは、各種属性の条件付発生確率テーブルTS1、TK1(図4)を備え、利用者の過去の文書選択履歴から生成された、第2の統計情報としての、各クエリー属性値の条件付発生確率をテーブル形式で格納する。ここで、クエリー属性値の条件付発生確率とは、文書毎のクエリー属性値の発生確率を意味してる。
The document
上記確率DB生成部7Aは、文書発生確率DB5及び属性条件付発生確率DB6Aに格納される各種統計情報(発生確率)を生成/更新するデータ処理部であり、同図に示すように、文書選択履歴取得部9aと、発生確率算出部10aと、発生確率統合部11aと、旧発生確率の重み算出部12aとから概略構成されている。文書選択履歴取得部9aは、過去一定期間毎に、文書選択履歴DB3に格納されている文書選択履歴情報を参照して、文書(文書識別子)毎に、利用者による各文書選択の発生頻度と、各属性値の(文書毎)条件付発生頻度とを取得して発生確率算出部10aに供給する。
The probability DB generation unit 7A is a data processing unit that generates / updates various statistical information (occurrence probabilities) stored in the document
発生確率算出部10aは、文書選択履歴取得部9aから供給される文書選択の発生頻度情報に基づいて、当該過去一定期間に亘る、利用者による各文書選択の発生確率(第1の統計情報)を算出する。また、発生確率算出部10aは、文書選択履歴取得部9aから供給される各クエリー属性値の(文書毎)条件付発生頻度に基づいて、当該過去一定期間に亘る、各クエリー属性値の(文書毎)条件付発生確率(第2の統計情報)を算出する。ここで、クエリー属性(属性値)とは、検索結果文書を選択する際の利用者又はその検索要求が持つ属性情報を意味し、クエリー属性値の条件付発生確率とは、あるクエリー属性について、該クエリー属性が所定の属性値を取る確率であると定義される。
The occurrence probability calculation unit 10a is based on the document selection occurrence frequency information supplied from the document selection
発生確率統合部11aは、文書毎に、文書発生確率DB5に格納されている更新前の文書選択の発生確率(以下、旧発生確率という)X1aと、発生確率算出部10aで算出された文書選択の発生確率X1b(以下、新発生確率という)とを統合し、統合値X1で文書発生確率DB5の旧発生確率X1aを更新する。また、発生確率統合部11aは、文書毎に、属性条件付発生確率DB6Aに格納されている各クエリー属性値の旧条件付発生確率X2aと、発生確率算出部10aで算出された該当新条件付発生確率X2bとを統合し、統合値X2で、属性条件付発生確率DB6Aの旧条件付発生確率X2aを更新する。
The occurrence probability integration unit 11a, for each document, the occurrence probability of document selection before update (hereinafter referred to as old occurrence probability) X1a stored in the document
重み算出部12aは、発生確率統合部11aが新旧発生確率を統合する際に用いる、更新前の旧発生確率(文書選択の旧発生確率X1aや各クエリー属性値の旧条件付発生確率X2a)の重みを、式(3)で示される関数モデル(後述)を使って算出する。
The
スコア算出部8Aは、利用者の今回の検索要求に対する応答として、文書検索エンジンから提供される検索結果に列挙された各文書(検索結果文書)について、利用者の今回の検索要求に適合する蓋然性の程度(検索要求との関連性の程度)を推定し、蓋然性の高さに応じたスコアを算出する。具体的に言えば、スコア算出部8Aは、文書発生確率DB5に格納されている、利用者による当該文書選択の発生確率と、属性条件付発生確率DB6Aに格納されている、少なくとも一のクエリー属性値の条件付発生確率とを積算統合処理することで、検索要求に適合する蓋然性の高さをスコアとして数値化する。
換言すれば、共通のクエリー属性値に対して複数の検索結果文書が存在するときは、スコア算出部8Aによって、共通のクエリー属性値における各検索結果文書のスコアが算出されるので、共通のクエリー属性値における各検索結果文書の優先順位が決定されることになる。
As a response to the user's current search request, the
In other words, when there are a plurality of search result documents for the common query attribute value, the
次に、図2乃至図4を参照して、文書選択履歴DB3、文書発生確率DB5、及び属性条件付発生確率DB6Aの構成について詳述する。
まず、図2を参照して、文書選択履歴DB3について詳述する。
図2は、文書選択履歴DB3に設定されている文書選択履歴情報テーブルTAの一例を模式的に示す概念図である。
文書選択履歴情報テーブルTAには、図2に示すように、日時と、利用者名と、文書識別子と、文書識別子が示す文書を選択した際の、利用者及びその検索要求が持つ各種クエリー属性(属性値)とが、対応付けられて表形式にまとめられている。
ここで、「日時」の列項目には、利用者が取った反応の発生日時(例えば、発生年月日時分秒)が、文字列や、URL、特徴量等を用いて記述される。「利用者名」の列項目は、利用者やその反応時の情況に関する情報の一例であり、クエリー属性には含まれない補完情報として設定されている。利用者名は、例えば、文字列(氏名)や、数値又は数値と文字列との組合せ(社員番号)を用いて記述される。
Next, the configuration of the document
First, the document
FIG. 2 is a conceptual diagram schematically showing an example of the document selection history information table TA set in the document
In the document selection history information table TA, as shown in FIG. 2, the user and various query attributes included in the search request when the date, user name, document identifier, and document indicated by the document identifier are selected. (Attribute values) are associated with each other and summarized in a table format.
Here, in the column item “date and time”, the occurrence date and time (for example, the date and time of occurrence) of the reaction taken by the user is described using a character string, URL, feature amount, and the like. The column item “user name” is an example of information on the user and the situation at the time of the reaction, and is set as complementary information not included in the query attribute. The user name is described using, for example, a character string (name) or a numerical value or a combination of a numerical value and a character string (employee number).
クエリー属性とは、利用者及びその検索要求が持つDBアクセス用のメタ情報を表すものである。文書選択履歴情報テーブルTAには、図2に示すように、利用者が持つクエリー属性として、「所属」が例示され、利用者の検索要求が持つクエリー属性として、「キーワード」が例示されている。クエリー属性「所属」には、例えば、同図に示すように、各利用者が所属する「本社」、「支社1」、「支社2」等のクエリー属性値が記述され、また、クエリー属性「キーワード」には、「トップページ」、「入退場申請」等のクエリー属性値が記述される。
The query attribute represents meta information for DB access included in the user and the search request. In the document selection history information table TA, as shown in FIG. 2, “affiliation” is exemplified as a query attribute possessed by a user, and “keyword” is exemplified as a query attribute possessed by a user search request. . In the query attribute “affiliation”, for example, as shown in the figure, query attribute values such as “head office”, “
また、文書識別子は、利用者が選択した文書を特定するためのもので、図2には、文書の「標題」や「見出し」等の文字列からなる識別子、すなわち、「本社入退場申請」、「全社共通トップページ」、「支社2入退場申請」が例示されている。なお、利用者の選択文書を他の文書から識別できるものである限り、「標題」や「見出し」以外の文字列でも良く、あるいは、文字列に代えて、例えば、URL(Uniform Resource Locator)、や、文書の特徴量を文書識別子として用いることもできる。
The document identifier is for specifying the document selected by the user. FIG. 2 shows an identifier consisting of a character string such as “title” or “heading” of the document, ie, “head office entry / exit application”. “Top page common to all companies” and “Application for entering and leaving
上記を踏まえて、文書選択履歴情報テーブルTA(図2)を参照すると、その第1行目の欄には、2008年10月1日に、「入退場申請」のキーワードで検索要求した「本社」所属の利用者Aが、検索結果文書リストを閲覧しながら、12時35分22秒に、「本社入退場申請」の文書を選択(「本社入退場申請」に反応)した、という記録が例示されている。次に、その第2行目の欄には、2008年10月5日に、「トップページ」のキーワードで検索要求した「支社1」所属の利用者Bが、検索結果文書リストを閲覧しながら、8時15分05秒に、「全社共通トップページ」の文書を選択した、という記録が例示されている。次に、その第3行目の欄には、2008年10月6日に、「入退場申請」のキーワードで検索要求した「支社2」所属の利用者Cが、検索結果文書リストを閲覧しながら、18時22分01秒に、「支社2入退場申請」の文書を選択した、という記録が例示されている。
Based on the above, referring to the document selection history information table TA (FIG. 2), in the column of the first row, “Headquarters” requested to search with the keyword “application for entry / exit” on October 1, 2008. A record that user A belonging to A selected the document “Application for entry / exit of headquarters” at 12:35:22 while browsing the search result document list (reacted to “application for entrance / exit of headquarters”). Illustrated. Next, in the column of the second row, on October 5, 2008, the user B belonging to “
次に、図3を参照して、文書発生確率DB5について詳述する。
図3は、文書発生確率DB5に設定されている文書選択の発生確率テーブルTBの一例を模式的に示す概念図である。
文書選択の発生確率テーブルTBには、図3に示すように、文書識別子と、文書識別子が示す文書が、所定の過去期間に、利用者によって選択された確率とが対応付けられて表形式にまとめられている。
この実施形態では、文書の「標題」や「見出し」等の文字列からなる識別子、すなわち、「全社共通トップページ」、「本社入退場申請」、「支社1入退場申請」、「支社2入退場申請」が、文書識別子として例示されている(図3、図4)。
上記を踏まえて、文書選択の発生確率テーブルTB(図3)を参照すると、文書「全社共通トップページ」を選択する確率は「0.5」、文書「本社入退場申請」を選択する確率は「0.2」、文書「支社1入退場申請」を選択する確率は「0.2」、文書「支社2入退場申請」を選択する確率は「0.1」であることが示されている。
Next, the document
FIG. 3 is a conceptual diagram schematically showing an example of the document selection occurrence probability table TB set in the document
In the document selection occurrence probability table TB, as shown in FIG. 3, the document identifier and the probability that the document indicated by the document identifier is selected by the user in a predetermined past period are associated with each other in a table format. It is summarized.
In this embodiment, identifiers consisting of character strings such as “title” and “headline” of the document, that is, “company-wide top page”, “head office entry / exit application”, “
Based on the above, referring to the document selection probability table TB (FIG. 3), the probability of selecting the document “Company-wide top page” is “0.5”, and the probability of selecting the document “Headquarters entrance / exit application” is It is shown that the probability of selecting “0.2”, the document “
次に、図4を参照して、属性条件付発生確率DB6Aについて詳述する。
図4は、属性条件付発生確率DB6Aに設定されている各種属性の条件付発生確率テーブルTS1、TK1の一例を模式的に示す概念図である。
この実施形態では、論理的なデータ構造としては、クエリー属性毎に独立して、属性の条件付発生確率テーブルTS1、TK1が設定されている。図4には、利用者が持つ「クエリー属性」として、「所属」の条件付発生確率テーブルTS2が例示され(同図(a))、また、利用者の検索要求が持つ「クエリー属性」として、「キーワード」の条件付発生確率テーブルTK2が例示されている(同図(b))。
すなわち、属性「所属」の条件付発生確率テーブルTS1には、図4(a)に示すように、文書識別子と、文書識別子が示す文書を選択する際の利用者が持つクエリー属性「所属」と、その選択の際、当該クエリー属性が所定の属性値を取る確率とが、対応付けられて表形式にまとめられている。クエリー属性「所属」は、「本社」、「支社1」、「支社2」等の属性値を持つ(同図(a))。
また、属性「キーワード」の条件付発生確率テーブルTK1には、図4(b)に示すように、文書識別子と、文書識別子が示す文書を選択する際の当該利用者の検索要求が持つクエリー属性「キーワード」と、その選択の際、当該クエリー属性が所定の属性値を取る確率とが、対応付けられて表形式にまとめられている。この実施形態では、クエリー属性「キーワード」は、「トップページ」、「入退場申請」等の属性値を持つ(同図(b))。
Next, the attribute conditional
FIG. 4 is a conceptual diagram schematically showing an example of conditional occurrence probability tables TS1 and TK1 of various attributes set in the attribute conditional
In this embodiment, as the logical data structure, attribute conditional occurrence probability tables TS1 and TK1 are set independently for each query attribute. FIG. 4 illustrates the “occurrence” conditional occurrence probability table TS2 as “query attributes” possessed by the user (FIG. 4A), and also as “query attributes” possessed by the user search request. , "Keyword" conditional occurrence probability table TK2 is illustrated ((b) in the figure).
That is, in the conditional occurrence probability table TS1 of the attribute “affiliation”, as shown in FIG. 4A, the query attribute “affiliation” possessed by the user when selecting the document identifier and the document indicated by the document identifier. In the selection, the probability that the query attribute takes a predetermined attribute value is associated with each other and summarized in a table format. The query attribute “affiliation” has attribute values such as “head office”, “
In addition, in the conditional occurrence probability table TK1 of the attribute “keyword”, as shown in FIG. 4B, the query attribute included in the search request of the user when selecting the document identifier and the document indicated by the document identifier. The “keyword” and the probability that the query attribute takes a predetermined attribute value at the time of selection are associated and collected in a table format. In this embodiment, the query attribute “keyword” has attribute values such as “top page” and “entrance / exit application” (FIG. 5B).
上記を踏まえて、属性「所属」の条件付発生確率テーブルTS1(同図(a))を参照すると、文書「全社共通トップページ」を選択する際の、クエリー属性「所属」が「本社」を取る確率は「0.497」、「支社1」を取る確率は「0.256」、「支社2」を取る確率は「0.247」であることが示されている。また、文書「本社入退場申請」を選択する際の、クエリー属性「所属」が「本社」を取る確率は「0.700」、「支社1」を取る確率は「0.200」、「支社2」を取る確率は「0.100」であることが示されている。同様に、文書「支社1入退場申請」を選択する際の、クエリー属性「所属」が「本社」を取る確率は「0.150」、「支社1」を取る確率は「0.800」、「支社2」を取る確率は「0.050」であることが示されている。同様に、文書「支社2入退場申請」を選択する際の、クエリー属性「所属」が「本社」を取る確率は「0.050」、「支社1」を取る確率は「0.050」、「支社2」を取る確率は「0.900」であることが示されている。
Based on the above, referring to the conditional occurrence probability table TS1 of the attribute “affiliation” ((a) in the figure), the query attribute “affiliation” is “head office” when selecting the document “company-wide common top page”. It is shown that the probability of taking “0.497”, the probability of taking “
次に、属性「キーワード」の条件付発生確率テーブルTK1には、(同図(b))を参照すると、文書「全社共通トップページ」を選択する際の、クエリー属性「キーワード」が「トップページ」を取る確率は「0.90」、「入退場申請」を取る確率は「0.10」であることが示されている。また、文書「本社入退場申請」を選択する際の、クエリー属性「キーワード」が「トップページ」を取る確率は「0.05」、「入退場申請」を取る確率は「0.95」であることが示されている。同様に、文書「支社1入退場申請」を選択する際も、クエリー属性「キーワード」が「トップページ」を取る確率は「0.05」、「入退場申請」を取る確率は「0.95」であることが示されている。また、文書「支社2入退場申請」を選択する際の、クエリー属性「キーワード」が「トップページ」を取る確率は「0.10」、「入退場申請」を取る確率は「0.90」であることが示されている。
Next, in the conditional occurrence probability table TK1 of the attribute “keyword”, referring to FIG. 5B, the query attribute “keyword” when selecting the document “company-wide top page” is “top page”. It is shown that the probability of taking "" is "0.90" and the probability of taking "entrance / exit application" is "0.10". In addition, when selecting the document “head office entry / exit application”, the probability that the query attribute “keyword” takes “top page” is “0.05”, and the probability of taking “entrance / exit application” is “0.95”. It is shown that there is. Similarly, when selecting the document “
次に、図1乃至図7を参照して、第1の実施形態(スコアリングシステム)の動作について説明する。
図5は、スコア算出部8Aが実行するスコア算出処理の動作手順を示すフローチャート、図6は、確率DB生成部7Aが各種確率DB5、6Aに対して実行する確率DB更新処理の動作手順を示すフローチャート、また、図7は、同確率DB生成部7Aを構成する旧発生確率の重み算出部12aで実行される重み計算処理を説明するためのグラフ曲線図である。
Next, the operation of the first embodiment (scoring system) will be described with reference to FIGS.
FIG. 5 is a flowchart showing the operation procedure of the score calculation process executed by the
スコア算出処理
まず、図5のフローチャート及び各種発生確率テーブル(図3及び図4)を参照して、スコア算出処理の動作について説明する。
まず、図示せぬ利用者端末から、例えば、本社勤務の利用者Aが、利用者に関するクエリー属性「所属」の属性値として「本社」を、閲覧したい文書に関するクエリー属性「キーワード」の属性値として「入退場申請」を順次入力して、業務用文書検索システムに対して検索要求する。
業務用文書検索システムの文書検索部1は、利用者端末からの上記検索要求を受付けると、検索対象の文書の中から該当文書を検索して、検索結果文書リストを生成する。ここで、検索結果文書リストには、検索結果文書を特定するための文書識別子が、該当文書数に応じた数だけ列挙される。今の場合、生成された検索結果文書リストには、「全社共通トップページ」と「本社入退場申請」との2つの文書識別子(検索結果文書)が、この順に列挙されているとする。次に、文書検索部1は、生成した検索結果文書リストをクエリー属性情報と併せて、スコアリングシステムの文書スコアリング部4Aへ渡して、検索結果文書に対するスコアリング(検索結果の適合性推定値の算出)を要求する。
Score Calculation Processing First, the score calculation processing will be described with reference to the flowchart of FIG. 5 and various occurrence probability tables (FIGS. 3 and 4).
First, from a user terminal (not shown), for example, a user A who works at the head office uses “head office” as the attribute value of the query attribute “affiliation” relating to the user, and the attribute value of the query attribute “keyword” relating to the document to be viewed. Enter "entrance / exit application" in sequence and make a search request to the business document search system.
When the
スコア算出部8Aは、文書検索部1から、検索結果文書リストとクエリー属性情報と共に、スコアリング要求を受けると(図5のステップSa0)、これより、「全社共通トップページ」と「本社入退場申請」との文書識別子(検索結果文書)のスコアを逐次算出する処理を開始する。スコア算出部8Aは、ステップSa1において、まず、文書識別子「全社共通トップページ」を検索キーとして、文書発生確率DB5に設定されている文書選択の発生確率テーブルTB(図3)を参照して、検索結果文書「全社共通トップページ」を選択する発生確率として「0.5」の値を取得する。
When the
次に、スコア算出部8Aは、ステップSa2に進み、文書識別子「全社共通トップページ」と「所属」のクエリー属性値「本社」とを検索キーとして、属性条件付発生確率DB6Aに設定されている属性「所属」の条件付発生確率テーブルTS1(図4(a))を参照する。スコア算出部8Aは、参照する属性「所属」の条件付発生確率テーブルTS1から、文書識別子「全社共通トップページ」を選択するクエリー属性値「本社」の条件付発生確率として「0.497」の値を取得する。
この後、スコア算出部8Aは、文書識別子「全社共通トップページ」と、「キーワード」のクエリー属性値「入退場申請」とを検索キーとして、属性条件付発生確率DB6Aに設定されている属性「キーワード」の条件付発生確率テーブルTK1(図4(b))を参照する。スコア算出部8Aは、参照する属性「キーワード」の条件付発生確率テーブルTK1から、文書識別子「全社共通トップページ」でクエリー属性値「入退場申請」の条件付発生確率として「0.10」の値を取得する(ステップSa3→Sa2→Sa3)。
Next, the
Thereafter, the
次に、スコア算出部8Aは、ステップSa4に進み、取得した文書選択の発生確率の値と、クエリー属性値「本社」の条件付発生確率の値と、クエリー属性値「入退場申請」の条件付発生確率とを積算統合して、検索結果文書「全社共通トップページ」のスコアを算出する。この例では、検索結果文書「全社共通トップページ」を選択する発生確率の値「0.5」と、クエリー属性値「本社」の条件付発生確率の値「0.497」と、クエリー属性値「入退場申請」の条件付発生確率の値「0.10」とが積算統合[0.5*0.497*0.10]される。こうして得られた積算値「0.02485」が、検索結果文書「全社共通トップページ」のスコアとなる。
Next, the
検索結果文書「全社共通トップページ」のスコアが算出されると(ステップSa4)、スコア算出部8Aは、ステップSa1に戻り(ステップSa5)、検索結果文書リストに列挙されている、もう1つの検索結果文書「本社入退場申請」について、スコア算出処理を実行する。
スコア算出部8Aは、ステップSa1において、文書識別子「本社入退場申請」を検索キーとして、文書選択の発生確率テーブルTB(図3)を参照して、検索結果文書「本社入退場申請」を選択する発生確率として「0.2」の値を取得する。
When the score of the search result document “company-wide common top page” is calculated (step Sa4), the
In step Sa1, the
次に、スコア算出部8Aは、ステップSa2に進み、文書識別子「本社入退場申請」と「所属」のクエリー属性値「本社」とを検索キーとして、属性「所属」の条件付発生確率テーブルTS1(図4(a))を参照する。スコア算出部8Aは、参照する属性「所属」の条件付発生確率テーブルTS1から、文書識別子「本社入退場申請」を選択するクエリー属性値「本社」の条件付発生確率として「0.700」の値を取得する。同様に、スコア算出部8Aは、文書識別子「本社入退場申請」と、「キーワード」のクエリー属性値「入退場申請」とを検索キーとして、属性「キーワード」の条件付発生確率テーブルTK1(図4(b))を参照する。スコア算出部8Aは、参照する属性「キーワード」の条件付発生確率テーブルTK1から、文書識別子「本社入退場申請」でクエリー属性値「入退場申請」の条件付発生確率として「0.95」の値を取得する(ステップSa3、Sa2)。
Next, the
次に、スコア算出部8Aは、再びステップSa4に進み、上記した積算処理を実行する。この例では、検索結果文書「本社入退場申請」を選択する発生確率の値「0.2」と、クエリー属性値「本社」の条件付発生確率の値「0.700」と、クエリー属性値「入退場申請」の条件付発生確率の値「0.95」とが積算統合[0.2*0.700*0.95]される。このようにして得られた積算値「0.13300」が、検索結果文書「本社入退場申請」のスコアとなる。
Next, the
次に、スコア算出部8Aは、全ての検索結果文書についてのスコアを算出した後、スコア付きの検索結果文書リスト(スコア算出結果)を文書検索部1へ返却して(ステップSa6)処理を終了する。
文書検索部1は、スコア算出部8Aから、スコア付きの検索結果文書リストを取得すると、検索結果文書リストをスコア順、つまり、優先度の高い順に並び替えて利用者端末に通知する。この例では、検索結果文書「全社共通トップページ」のスコアが「0.02485」と算出され、検索結果文書「本社入退場申請」のスコアが「0.13300」と算出されたので、「本社入退場申請」→「全社共通トップページ」の順に、並び替えられて利用者端末に通知される。
なお、図5において、スコア算出部8Aが実施する、検索結果文書選択の発生確率を取得する処理(ステップSa1)と、クエリー属性値の条件付発生確率を取得する処理(ステップSa2、Sa3)とは、必要に応じて、順番を入れ替えて実施しても良いことは勿論である。
Next, the
When the
In FIG. 5, processing (step Sa1) for obtaining the occurrence probability of search result document selection, processing for obtaining the conditional occurrence probability of the query attribute value (step Sa2, Sa3), which are executed by the
確率DB更新処理
次に、図6のフローチャートを参照して、確率DB更新処理の動作について説明する。確率DB生成部7Aは、文書選択履歴DB3の中の文書選択履歴情報テーブルTAを参照して、文書発生確率DB5と属性条件付発生確率DB6Aとを更新するための、確率DB更新処理を実施する。
確率DB生成部7Aにおいて、文書選択履歴取得部9aは、文書選択履歴DB3の中から、前回までの確率DB更新処理の際に参照された旧履歴情報以降の最近一定期間(例えば、最近1ヶ月の期間)に亘る履歴情報を新履歴情報として取得する(図6のステップSb1)。取得された新履歴情報は、発生確率算出部10aに渡される。
Probability DB Update Processing Next, the operation of the probability DB update processing will be described with reference to the flowchart of FIG. The probability DB generation unit 7A refers to the document selection history information table TA in the document selection history DB3, and performs probability DB update processing for updating the document occurrence probability DB5 and the attribute conditional occurrence probability DB6A. .
In the probability DB generation unit 7A, the document selection
発生確率算出部10aは、文書選択履歴取得部9aから与えられた新履歴情報に基づいて、検索対象の文書毎に文書選択の新発生確率X1bを算出し、また、属性毎にクエリー属性値の(文書毎)新条件付発生確率を算出する(ステップSb2)。文書毎に算出された文書選択の新発生確率X1bと、属性毎に算出されたクエリー属性値の新条件付発生確率X2bとは、発生確率統合部11aに渡される。
The occurrence probability calculation unit 10a calculates a new occurrence probability X1b of document selection for each document to be searched based on the new history information given from the document selection
重み算出部12aは、文書発生確率DB5(文書選択の発生確率テーブルTB)から、検索対象の文書毎に、文書選択の発生確率を(今回更新前のものであるから)旧発生確率X1aとして取得して、その重みを算出する(ステップSb3)。同様に、重み算出部12aは、属性条件付発生確率DB6A(属性の条件付発生確率テーブルTS1、TK1)から、属性毎に各クエリー属性値の(文書毎)条件付発生確率を旧発生確率X2aとして取得して、その重みを算出する(同Sb3)。なお、この実施形態では、旧発生確率X1a、X2aの初期設定値として、全ての確率値に対して同等に0又は1が割り当てられる。
この実施形態では、重み算出部12aは、属性「所属」、「キーワード」の条件付発生確率テーブルTS1、TK1(図4(a)、(b))から、属性毎のクエリー属性値の(文書毎)旧条件付発生確率X2aを取得して、その重みを算出する。算出された文書選択の旧発生確率X1aの重みと、クエリー属性値の(文書毎)旧条件付発生確率X2aの重みは、発生確率統合部11aに渡される。
The
In this embodiment, the
発生確率統合部11aは、検索対象の文書毎に、発生確率算出部10aと文書発生確率DB5とから与えられる文書選択の新発生確率X1bと旧発生確率X1aとを、重み算出部12aで算出された旧発生確率の重みを用いて統合する(ステップSb4)。同様に、発生確率統合部11aは、属性毎に、発生確率算出部10aと文書発生確率DB5とから与えられる各クエリー属性値の(文書毎)新旧条件付発生確率X2a、X2bを、旧条件付発生確率X2aの重みを用いて統合する(ステップSb4)。この実施形態では、新旧発生確率の統合は、式(1)、(2)に示される重み付け加算方式を用いて行われる。
X1=X1a*W1+X1b*(1−W1) (1)
X2=X2a*W2+X2b*(1−W2) (2)
ここで、X1aは文書選択の旧発生確率(初期設定値は0又は1)、X1bは文書選択の新発生確率、X1は文書選択の新旧発生確率の統合値、W1は文書選択の旧発生確率の重みである。X2aはクエリー属性値の旧条件付発生確率(初期値設定は0又は1)、X2bはクエリー属性値の新条件付発生確率、X2はクエリー属性値の新旧条件付発生確率の統合値、W2はクエリー属性値の旧条件付発生確率の重みである。
The occurrence probability integration unit 11a calculates the new occurrence probability X1b and the old occurrence probability X1a of document selection given from the occurrence probability calculation unit 10a and the document
X1 = X1a * W1 + X1b * (1-W1) (1)
X2 = X2a * W2 + X2b * (1-W2) (2)
Here, X1a is the old occurrence probability of the document selection (initial setting value is 0 or 1), X1b is the new occurrence probability of the document selection, X1 is the integrated value of the new and old occurrence probability of the document selection, and W1 is the old occurrence probability of the document selection. Is the weight. X2a is the old conditional occurrence probability of the query attribute value (initial value is 0 or 1), X2b is the new conditional occurrence probability of the query attribute value, X2 is the integrated value of the old and new conditional occurrence probability of the query attribute value, and W2 is This is the weight of the old conditional occurrence probability of the query attribute value.
発生確率統合部11aは、文書選択及びクエリー属性値に関して新旧発生確率の統合が完了すると、逐次又は一括して、新旧発生確率の統合値X1、X2で、文書発生確率DB5又は属性条件付発生確率DB6Aの記憶内容X1a、X2aを更新して、当該更新処理を終了する(ステップSb5)。
When the integration of the new and old occurrence probabilities regarding the document selection and the query attribute value is completed, the occurrence probability integration unit 11a sequentially or collectively uses the document occurrence probability DB5 or the attribute conditional occurrence probability with the integrated values X1 and X2 of the old and new occurrence probabilities. The stored contents X1a and X2a of the
重み算出処理
次に、図7を参照して、重み算出部12aの動作についてさらに詳述する。
重み算出部12aは、旧発生確率の重みを算出する際、シグモイド関数が組み込まれたアルゴリズムに基づいて、各種旧発生確率X1a、X2aの値が低いほど重みを大きくし、高いほど重みを小さくするように動作する(ステップSb3)。
すなわち、重み算出部12aは、検索対象の各文書について、更新前の文書選択の発生確率、すなわち、文書選択の旧発生確率X1aが低いほど重みを大きく、高いほど重みを小さくするように動作する。同様に、重み算出部12aは、属性毎の文書識別子毎に、更新前のクエリー属性値の旧条件付発生確率、すなわち、クエリー属性値の旧条件付発生確率X2aが低いほど重みを大きく、高いほど重みを小さくするように動作する。
Weight Calculation Processing Next, the operation of the
When calculating the weight of the old occurrence probability, the
That is, for each document to be searched, the
この実施形態では、旧文書発生確率の重み算出処理モデルとして、式(3)で与えられ、図7に示すような重み曲線を描く、シグモイド関数からなる関数モデルが用いられる。
W(X;a,b,c,g)=(a−b)×S(X−c;−g)+b (3)
ここで、W(X;a,b,c,g)は旧発生確率の重み関数、S(X;g)は、式(4)で示されるシグモイド関数、Xは旧発生確率、gはシグモイド関数のゲイン、cはシグモイド曲線の変曲点のX値、aは予め設定される最大値,bは予め設定される最小値である。
S(X;g)=(1+e−gx)−1 (4)
In this embodiment, as a weight calculation processing model of the old document occurrence probability, a function model made up of a sigmoid function that is given by Expression (3) and draws a weight curve as shown in FIG. 7 is used.
W (X; a, b, c, g) = (a−b) × S (X−c; −g) + b (3)
Here, W (X; a, b, c, g) is a weight function of the old occurrence probability, S (X; g) is a sigmoid function expressed by the equation (4), X is an old occurrence probability, and g is a sigmoid. The gain of the function, c is the X value of the inflection point of the sigmoid curve, a is a preset maximum value, and b is a preset minimum value.
S (X; g) = (1 + e −gx ) −1 (4)
文書選択の旧発生確率の重みWは、式(3)で与えられる関数モデルの変数Xに旧発生確率の値を代入することで得られる。例えば、文書「本社入退場申請」の選択に関して、その旧発生確率の重みを算出するときは、重み算出部12aは、文書発生確率DB5に設定されている文書選択の発生確率テーブルTB(図3)を参照して、「本社入退場申請」選択の旧発生確率「0.2」を取得する。次に、重み算出部12aは、取得された旧発生確率「0.2」を、式(3)の関数モデルの変数Xに代入して演算処理し、重み関数Wの値として、[0.7]が算出される。この演算結果から、重み算出部12aは、「本社入退場申請」選択の旧発生確率の重みとして「0.7」を割り当てる。
同様に、例えば、文書「全社共通トップページ」の選択に関して、その旧発生確率の重みを算出するときは、重み算出部12aは、文書選択の発生確率テーブルTBを参照して、「全社共通トップページ」選択の旧発生確率「0.5」を取得する。次に、重み算出部12aは、取得された旧発生確率「0.5」を、式(3)の関数モデルの変数Xに代入して演算処理し、重み関数Wの値として、[0.23]が算出される。この演算結果から、重み算出部12aは、「全社共通トップページ」選択の旧発生確率の重みとして「0.23」を割り当てる。
このように、重み算出部12aは、旧発生確率の重みを算出する際、文書選択の旧発生確率の値が低い「本社入退場申請」に対しては、重みを大きくし、文書選択の旧発生確率の値が高い「全社共通トップページ」に対しては、重みを小さくするように動作する(ステップSb3)。
The weight W of the old occurrence probability of document selection is obtained by substituting the value of the old occurrence probability into the variable X of the function model given by Expression (3). For example, when calculating the weight of the old occurrence probability with respect to the selection of the document “head office entry / exit application”, the
Similarly, for example, regarding the selection of the document “company-wide common top page”, when calculating the weight of the old occurrence probability, the
As described above, when calculating the weight of the old occurrence probability, the
クエリー属性値の旧条件付発生確率の重みWについても、式(3)で与えられる関数モデルの変数Xに旧発生確率の値を代入することで求められる。
なお、選択文書とクエリー属性との性質の違いを考慮して、同一の関数モデルが用いられるときでも、各種パラメタa,b,c,gは、文書選択の旧発生確率の重み計算と、クエリー属性値の旧条件付発生確率の重み計算とで、異なる値を取るようにしても良い。必要に応じて、パラメタを増減することもできる。同様に、各種「クエリー属性」との性質の違いを考慮して、式(3)の関数モデルが共通に用いられるときでも、各種パラメタa,b,c,gは、属性毎に異なる値を取るようにしても良く、この場合も、必要に応じて、パラメタを増減することができる。
The weight W of the old conditional occurrence probability of the query attribute value can also be obtained by substituting the old occurrence probability value into the variable X of the function model given by Expression (3).
In consideration of the difference in properties between the selected document and the query attribute, even when the same function model is used, the various parameters a, b, c, and g are used to calculate the weight of the old occurrence probability of the document selection and the query. Different values may be taken for the weight calculation of the old conditional occurrence probability of the attribute value. The parameters can be increased or decreased as necessary. Similarly, considering the difference in properties from various “query attributes”, the various parameters a, b, c, and g have different values for each attribute even when the function model of Expression (3) is used in common. In this case as well, the parameters can be increased or decreased as necessary.
このように、上記構成によれば、スコア算出部8Aでは、クエリー属性毎に格納されたクエリー属性値の条件付発生確率を参照して、文書選択の発生確率と各種クエリー属性値の発生確率とを積算統合する処理が実行される。
このため、利用者の所属や職位の変化に伴う業務変更に起因して、利用者にとって、検索結果文書の適合性関連性が変化した場合でも、その適合性変化に的確に追従した適切なスコアリングを行うことができる。
加えて、上記構成によれば、コミュニティ体系が部分的に変化したとしても、他の属性、例えば、利用者の業務や勤務場所等に変化がなければ、各種発生確率の積算統合処理の効果として、変動要因による影響を極力回避できる。それゆえ、全体として適切なスコアリングを継続的に行うことができる。
As described above, according to the above configuration, the
For this reason, even if the relevance relevance of the search result document changes due to a change in business due to a change in the user's affiliation or job title, even if the relevance relevance of the search result document changes, an appropriate score that accurately follows the relevance change Ring can be done.
In addition, according to the above configuration, even if the community system partially changes, if there is no change in other attributes, for example, the user's business or work location, etc. , It is possible to avoid the influence of fluctuation factors as much as possible. Therefore, appropriate scoring can be continuously performed as a whole.
また、重み算出部12aでは、更新前の旧発生確率の値が高いときは、旧発生確率の重みを低くする処理が実行される。このように得られた重みを用いて、発生確率統合部11aでは、新旧発生確率が統合され、新旧発生確率の統合値によって、文書発生確率DB5と属性条件付発生確率DB6Aとが更新される。このような構成は、検索結果文書リストの中で、不適合文書が上位にランクされることを防止できる。
一般に、不適合文書(ノイズ)は、その選択確率が一時的に上昇しても、利用者の学習能力のおかげで、その後減少する傾向にある。しかしながら、この実施形態によれば、一時的に上昇する不適合文書選択の旧発生確率に対しては、低い重みが割り当てられる。また、利用者の学習能力のおかげで、不適合文書選択の新発生確率も低いと考えられる。それゆえ、不適合文書の選択確率は、単純な重み付け加重に比べて、選択確率の減少勾配が大きくなるため、適合文書の選択確率に対して、不適合文書の選択確率が相対的に大きく減少することになり、その順位が急速に下降することになる。その分、適合文書の順位は早く上昇することになる。それゆえ、検索結果文書リストに不適合文書が含まれるときでも、その影響を小さく抑えることができる。
In addition, when the value of the old occurrence probability before update is high, the
In general, non-conforming documents (noise) tend to decrease afterward because of the learning ability of the user even if the selection probability rises temporarily. However, according to this embodiment, a low weight is assigned to the old occurrence probability of the nonconforming document selection that temporarily increases. Also, thanks to the learning ability of the user, the probability of new occurrence of nonconforming document selection is considered to be low. Therefore, the selection probability of the nonconforming document is larger than the simple weighted weighting, and therefore the selection probability of the nonconforming document is relatively greatly reduced with respect to the selection probability of the conforming document. The ranking will drop rapidly. As a result, the ranking of relevant documents rises quickly. Therefore, even when a nonconforming document is included in the search result document list, the influence can be suppressed small.
次に、図8を参照して、第2の実施形態について説明する。
図8は、この発明の第2の実施形態である検索結果文書のスコアリングシステムの構成を示すブロック図である。
第2の実施形態では、クエリー属性値の(文書毎)条件付発生確率の分布と、クエリー属性値の(文書の如何を問わない)発生確率の分布とに、統計的に有意な差異が有るか否かが判断され、その判断結果に基づいて、異なる確率ソースを用いてスコア計算を行う点で、第1の実施形態のそれと相違している。
この実施形態の計算手法を具現するために、図8に示すように、文書スコアリング部4Bには、後述する第3の統計情報を格納する属性発生確率DB(データベース)13Bと特徴検出フィルタ部14Bとが付加されている。なお、図8において、図1に示す構成部分と同一の各部(又は対応する各部)には、同一符号(又は同一符号に添え字)を付して、その説明を省略又は簡略化する。
Next, a second embodiment will be described with reference to FIG.
FIG. 8 is a block diagram showing the configuration of a search result document scoring system according to the second embodiment of the present invention.
In the second embodiment, there is a statistically significant difference between the distribution of the conditional occurrence probability (for each document) of the query attribute value and the distribution of the occurrence probability of the query attribute value (regardless of the document). This is different from that of the first embodiment in that score calculation is performed using different probability sources based on the determination result.
In order to implement the calculation method of this embodiment, as shown in FIG. 8, the document scoring unit 4B includes an attribute occurrence probability DB (database) 13B for storing third statistical information to be described later and a feature detection filter unit. 14B is added. In FIG. 8, the same parts (or corresponding parts) as those shown in FIG. 1 are denoted by the same reference numerals (or the same reference numerals), and the description thereof is omitted or simplified.
文書選択履歴取得部9bは、過去一定期間毎に、文書選択履歴DB3から、各文書選択の発生頻度と、各クエリー属性値の(文書毎)条件付発生頻度とを取得すると共に、選択文書の如何を問わず、各クエリー属性値の発生頻度を取得して発生確率算出部10bに供給する。発生確率算出部10bは、供給される文書選択の発生頻度情報に基づいて、当該過去一定期間に亘る、利用者による各文書選択の発生確率(第1の統計情報)を算出する。また、発生確率算出部10bは、供給される各クエリー属性値の条件付発生頻度に基づいて、当該過去一定期間に亘る、各クエリー属性値の(文書毎)条件付発生確率(第2の統計情報)を算出する。さらに、発生確率算出部10bは、供給される各クエリー属性値の発生頻度に基づいて、当該過去一定期間に亘る、各クエリー属性値の発生確率(第3の統計情報)を算出する。
The document selection
発生確率統合部11bは、文書毎に、文書発生確率DB5に格納されている更新前の文書選択の旧発生確率X1aと、発生確率算出部10bで算出された文書選択の新発生確率X1bとを統合し、統合値X1で文書発生確率DB5の旧発生確率X1aを更新する。また、発生確率統合部11aは、文書毎に、属性条件付発生確率DB6Bに格納されている各クエリー属性値の旧条件付発生確率X2aと、発生確率算出部10にて算出された該当新条件付発生確率X2bとを統合し、統合値X2で、属性条件付発生確率DB6Bの記憶内容X2aを更新する。さらに、発生確率統合部11aは、文書毎に、属性発生確率DB13Bに格納されている各クエリー属性値の旧発生確率X3aと、発生確率算出部10bで算出された該当新発生確率X3bとを統合し、統合値X3で、属性発生確率DB13Bの記憶内容X3aを更新する。
重み算出部12bは、発生確率統合部11bが新旧発生確率を統合する際に用いる、更新前の旧発生確率(文書選択の旧発生確率X1aや各クエリー属性値の旧条件付発生確率X2a及び発生確率X3a)の重みを関数モデル(例えば、式(3))を使って算出する。
The occurrence probability integration unit 11b uses, for each document, the old occurrence probability X1a of the document selection before update stored in the document
The
上記属性発生確率DB13Bは、各種属性の発生確率テーブルTS2、TK2(図9(a)、(b))を備え、利用者の過去の文書選択履歴から生成された、第3の統計情報としての、属性毎の各クエリー属性値の発生確率をテーブル形式で格納する。
ここで、クエリー属性値の発生確率とは、ある属性について、選択文書の如何によらず、各属性値が取る確率を意味し、第2の統計情報である、クエリー属性値の(文書毎)条件付発生確率(図4)とは相違している。
The attribute
Here, the occurrence probability of the query attribute value means the probability that each attribute value takes for a certain attribute regardless of the selected document, and is the second statistical information of the query attribute value (for each document). This is different from the conditional occurrence probability (FIG. 4).
特徴検出フィルタ部14Bは、DB更新時、各属性について、発生確率統合部11bで生成されたクエリー属性値の新旧条件付発生確率の統合値X2で、属性条件付発生確率DB6Bの記憶内容X2aを更新することを、文書単位で許可又は禁止する。
すなわち、特徴検出フィルタ部14Bは、DB更新の際、発生確率統合部11bによって新たに統合生成された、属性毎の、クエリー属性値の条件付発生確率(統合値)X2の分布と、クエリー属性値の発生確率(統合値)Y2の分布とを比較する。特徴検出フィルタ部14Bは、比較の結果、両確率分布の間に、統計的に有意な差異があるときは、生成されたクエリー属性値の条件付発生確率(統合値)X2で属性条件付発生確率DB6Bの記憶内容X2aを更新することを許可する。ここで、「両確率分布の間に、統計的に有意な差異がある」とは、当該文書選択の確率分布が、当該属性について、「特徴的な分布を持つ」ことを意味している。
When updating the DB, the feature
That is, the feature
一方、特徴検出フィルタ部14Bは、比較の結果、両確率分布の間に、統計的に有意な差異がないときは、属性条件付発生確率DB6Bへのクエリー属性値の条件付発生確率X2の書き込みを禁止する。「両確率分布の間に、統計的に有意な差異がない」ときは、当該文書選択の確率分布が、当該属性について、「特徴的な分布を持たない」ことを意味している。上記特徴検出フィルタ部14Bは、当該条件付発生確率X2の書き込みに代えて、当該文書選択の確率分布が、当該属性について、「特徴的な分布を持たない」ことを示す情報(後述)を属性条件付発生確率DB6Bに書き込む。
On the other hand, if there is no statistically significant difference between the two probability distributions as a result of the comparison, the feature
次に、図9を参照して、属性発生確率DB13Bについて詳述する。
図9は、属性発生確率DB13Bに設定されている各種属性の発生確率テーブルTS2、TK2の一例を模式的に示す概念図である
この実施形態では、論理的なデータ構造としては、クエリー属性毎に独立して、属性の発生確率テーブルTS2、TK2が設定されている。図9には、利用者が持つ「クエリー属性」として、「所属」の発生確率テーブルTS2が例示され(同図(a))、また、利用者の検索要求が持つ「クエリー属性」として、「キーワード」の発生確率テーブルTK2が例示されている(同図(b))。
Next, the attribute
FIG. 9 is a conceptual diagram schematically showing an example of the occurrence probability tables TS2 and TK2 of various attributes set in the attribute
すなわち、属性「所属」の発生確率テーブルTS2には、図9(a)に示すように、(特定の文書ではなく)何れかの文書を選択する際の利用者が持つクエリー属性「所属」と、その選択の際、当該クエリー属性が所定の属性値を取る確率とが、対応付けられて表形式にまとめられている。クエリー属性「所属」は、「本社」、「支社1」、「支社2」等の属性値を持つ(同図(a))。
また、属性「キーワード」の発生確率テーブルTK1には、図9(b)に示すように、(特定の文書ではなく)何れかの文書を選択する際の利用者の検索要求が持つクエリー属性「キーワード」と、その選択の際、当該クエリー属性が所定の属性値を取る確率とが、対応付けられて表形式にまとめられている。この実施形態では、クエリー属性「キーワード」は、「トップページ」、及び「入退場申請」等の属性値を持つ(同図(b))。
That is, in the occurrence probability table TS2 of the attribute “affiliation”, as shown in FIG. 9A, the query attribute “affiliation” possessed by the user when selecting any document (not a specific document) is shown. In the selection, the probability that the query attribute takes a predetermined attribute value is associated with each other and summarized in a table format. The query attribute “affiliation” has attribute values such as “head office”, “
In addition, in the occurrence probability table TK1 of the attribute “keyword”, as shown in FIG. 9B, the query attribute “having the search request of the user when selecting any document (not a specific document)” The “keyword” and the probability that the query attribute takes a predetermined attribute value at the time of selection are associated with each other and collected in a table format. In this embodiment, the query attribute “keyword” has attribute values such as “top page” and “entrance / exit request” ((b) in the figure).
上記を踏まえて、属性「所属」の発生確率テーブルTS2(同図(a))を参照すると、選択文書の如何を問わず、クエリー属性「所属」が「本社」を取る確率は「0.500」、「支社1」を取る確率は「0.250」、「支社2」を取る確率は「0.250」であることが示されている。
次に、属性「キーワード」の発生確率テーブルTK2には、(同図(b))を参照すると、選択文書の如何を問わず、クエリー属性「キーワード」が「トップページ」を取る確率は「0.20」、「入退場申請」を取る確率は「0.80」であることが示されている。
Based on the above, referring to the occurrence probability table TS2 of the attribute “affiliation” ((a) in the figure), regardless of the selected document, the probability that the query attribute “affiliation” takes “head office” is “0.50”. The probability of taking “
Next, in the occurrence probability table TK2 of the attribute “keyword”, referring to FIG. 5B, the probability that the query attribute “keyword” takes “top page” is “0” regardless of the selected document. .20 ”, the probability of taking“ application for entrance / exit ”is“ 0.80 ”.
次に、図10を参照して、属性条件付発生確率DB6Bについて詳述する。
図10は、属性条件付発生確率DB6Bに設定されている各種属性の条件付発生確率テーブルTS3、TK3の一例を模式的に示す概念図である。
属性の条件付発生確率テーブルTS3、TK3には、同図(a)、(b)に示すように、当該文書選択の確率分布が、当該属性について、「特徴的な分布を持たない」ことを示す情報を表わすフラグを立てる列が付加されている。フラグは、例えば、真偽を表す数値や、ブール代数や、真偽を表す文字列(TRUE)等で記述される。
Next, the attribute conditional
FIG. 10 is a conceptual diagram schematically showing an example of conditional occurrence probability tables TS3 and TK3 for various attributes set in the attribute conditional
In the conditional occurrence probability tables TS3 and TK3 of the attribute, as shown in FIGS. 9A and 9B, the probability distribution of the document selection indicates that the attribute has “no characteristic distribution”. A column for setting a flag indicating the information to be shown is added. The flag is described by, for example, a numerical value indicating true / false, a Boolean algebra, a character string (TRUE) indicating true / false, and the like.
この実施形態では、「TRUE」とのフラグが立つときは、当該文書選択の確率分布が、当該属性について、「特徴的な分布を持たない」ことを表わしている。図10(a)の例示では、文書識別子「全社共通トップページ」の行に、「TRUE」のフラグが立っているので、「全社共通トップページ」という文書選択の確率分布が、属性「所属」について、「特徴的な分布を持たない」ことを表わしている。「TRUE」のフラグが立つ文書識別子には、同図(a)に示すように、クエリー属性値毎の行が設けられておらず、クエリー属性値毎の確率値の記載も削除禁止されている。これは、文書選択の確率分布が、当該属性について、「特徴的な分布を持たない」文書については、属性の発生確率テーブルTS2、TK2を参照すれば、当該分布が反映されているので、属性の条件付発生確率テーブルTS3、TK3にわざわざ重複的記載をする必要がないからである。 In this embodiment, when the flag “TRUE” is set, the probability distribution of the document selection indicates that the attribute has “no characteristic distribution”. In the example of FIG. 10A, since the flag “TRUE” is set in the row of the document identifier “company-wide common top page”, the probability distribution of the document selection “company-wide common top page” has the attribute “affiliation”. For “has no characteristic distribution”. As shown in FIG. 6A, the document identifier with the flag “TRUE” is not provided with a row for each query attribute value, and the description of the probability value for each query attribute value is prohibited from being deleted. . This is because the probability distribution of document selection is reflected for the attribute, and for the document “having no characteristic distribution”, the distribution is reflected by referring to the attribute occurrence probability tables TS2 and TK2. This is because it is not necessary to make redundant descriptions in the conditional occurrence probability tables TS3 and TK3.
スコア算出部8Bは、属性の条件付発生確率テーブルTS3、TK3を参照して、「TRUE」のフラグが立っていないときは、第1の実施形態で述べたと同様のスコア計算を行う。一方、スコア算出部8Bは、参照の結果、「TRUE」のフラグが立っているときは、属性の条件付発生確率テーブルTS3、TK3には、当該文書について属性の条件付発生確率の記載はないので、代わりに、属性発生確率DB13Bに格納されているクエリー属性値の発生確率を用いてスコアを算出する。
The
次に、図8乃至図12を参照して、第2の実施形態の動作について説明する。
図11は、スコア算出部8Bが実行するスコア算出処理の動作手順を示すフローチャート、また、図12は、確率DB生成部7Bが各種確率DB5、6B、13Bに対して実行する確率DB更新処理の動作手順を示すフローチャートである。
Next, the operation of the second embodiment will be described with reference to FIGS.
FIG. 11 is a flowchart showing the operation procedure of the score calculation process executed by the
スコア算出処理
まず、図11のフローチャート及び各種発生確率テーブル(図3、図9及び図10)を参照して、第2の実施形態におけるスコア算出処理の動作について説明する。
まず、図示せぬ利用者端末から、例えば、本社勤務の利用者Aが、利用者に関するクエリー属性「所属」の属性値として「本社」を、閲覧したい文書に関するクエリー属性「キーワード」の属性値として「入退場申請」を順次入力して、業務用文書検索システムに対して検索要求する。
業務用文書検索システムの文書検索部1は、利用者端末からの上記検索要求を受付けると、検索対象の文書の中から該当文書を検索して、検索結果文書リストを生成する。今の場合、生成された検索結果文書リストには、「全社共通トップページ」と「本社入退場申請」との2つの文書識別子(検索結果文書)が、この順に列挙されているとする。次に、文書検索部1は、生成した検索結果文書リストをクエリー属性情報と併せて、スコアリングシステムの文書スコアリング部4Bへ渡して、検索結果文書に対するスコアリングを要求する。なお、以下において,説明が簡略化又は省略されている事項は、上記した第1の実施形態で述べたと略同様である。
Score Calculation Processing First, the operation of the score calculation processing in the second embodiment will be described with reference to the flowchart of FIG. 11 and various occurrence probability tables (FIGS. 3, 9, and 10).
First, from a user terminal (not shown), for example, a user A who works at the head office uses “head office” as the attribute value of the query attribute “affiliation” relating to the user, and the attribute value of the query attribute “keyword” relating to the document to be viewed. Enter "entrance / exit application" in sequence and make a search request to the business document search system.
When the
スコア算出部8Bは、文書検索部1から、検索結果文書リストとクエリー属性情報と共に、スコアリング要求を受けると(図11のステップPa0)、これより、「全社共通トップページ」と「本社入退場申請」との文書識別子(検索結果文書)のスコアを逐次算出する処理を開始する。スコア算出部8Bは、ステップPa1において、まず、文書識別子「全社共通トップページ」を検索キーとして、文書発生確率DB5に設定されている文書選択の発生確率テーブルTB(図3)を参照して、検索結果文書「全社共通トップページ」を選択する発生確率として「0.5」の値を取得する。
When the
次に、スコア算出部8Bは、ステップPa2に進み、文書識別子「全社共通トップページ」と「所属」のクエリー属性値「本社」とを検索キーとして、属性条件付発生確率DB6Bに設定されている属性「所属」の条件付発生確率テーブルTS3(図10(a))を参照する。スコア算出部8Bは、文書識別子「全社共通トップページ」の行のフラグの列項目を参照して、「全社共通トップページ」選択の確率分布は、属性「所属」について、「特徴的な分布を持っているか否か」を判定する。図10(a)には、文書識別子「全社共通トップページ」の行に、「TRUE」のフラグが立っているので、スコア算出部8Bは、文書「全社共通トップページ」選択の確率分布は、属性「所属」について、「特徴的な分布を持たない」との判定結果を得る。スコア算出部8Bは、「特徴的な分布を持たない」との判定結果を得たときは、ステップPa4に進む。
Next, the
ステップPa4において、スコア算出部8Bは、文書識別子「全社共通トップページ」と「所属」のクエリー属性値「本社」とを検索キーとして、属性発生確率DB13Bに設定されている属性「所属」の発生確率テーブルTS2(図9(a))を参照して、検索結果文書「全社共通トップページ」を選択する発生確率として「0.5」の値を取得する。
In step Pa4, the
この後、スコア算出部8Bは、ステップPa2に戻り、文書識別子「全社共通トップページ」と、属性「キーワード」のクエリー属性値「入退場申請」とを検索キーとして、属性「キーワード」の条件付発生確率テーブルTK3(図10(b))を参照する。スコア算出部8Bは、文書識別子「全社共通トップページ」の行のフラグの列項目を参照して、「全社共通トップページ」選択の確率分布は、属性「キーワード」について、「特徴的な分布を持っているか否か」を判定する。
図10(b)には、文書識別子「全社共通トップページ」の行に、「TRUE」のフラグが立っていないので、スコア算出部8Bは、文書「全社共通トップページ」選択の確率分布は、属性「キーワード」について、「特徴的な分布を持つ」との判定結果を得る。スコア算出部8Bは、「特徴的な分布を持つ」との判定結果を得たときは、ステップPa4に進む。ステップPa4では、属性「キーワード」の条件付発生確率テーブルTK3の文書識別子「全社共通トップページ」の行項目が参照されて、文書識別子「全社共通トップページ」でクエリー属性値「入退場申請」の条件付発生確率として「0.10」の値を取得する(ステップPa5→Pa2→Pa3→Pa5)。
After that, the
In FIG. 10B, since the flag of “TRUE” is not set in the row of the document identifier “company-wide common top page”, the
次に、スコア算出部8Bは、ステップPa6に進み、取得した文書選択の発生確率の値「0.5」と、クエリー属性値「本社」の発生確率の値「0.5」と、クエリー属性値「入退場申請」の条件付発生確率の値「0.1」とを積算統合[0.5*0.5*0.10]して、検索結果文書「全社共通トップページ」のスコア「0.025」を算出する。
Next, the
検索結果文書「全社共通トップページ」のスコアが算出されると(ステップPa6)、スコア算出部8Bは、ステップPa1に戻り(ステップPa7)、検索結果文書リストに列挙されている、もう1つの検索結果文書「本社入退場申請」について、上述のスコア算出処理(ステップPa1乃至Pa6)を繰り返す。
When the score of the search result document “company-wide common top page” is calculated (step Pa6), the
次に、スコア算出部8Bは、全ての検索結果文書についてのスコアを算出した後、スコア付きの検索結果文書リスト(スコア算出結果)を文書検索部1へ返却して(ステップPa8)処理を終了する。
文書検索部1は、スコア算出部8Bから、スコア付きの検索結果文書リストを取得すると、検索結果文書リストをスコア順、つまり、優先度の高い順に並び替えて利用者端末に通知する。
Next, after calculating the scores for all the search result documents, the
When the
確率DB更新処理
次に、図12のフローチャートを参照して、第2の実施形態における確率DB更新処理の動作について説明する。
確率DB生成部7Bは、文書選択履歴DB3の中の文書選択履歴情報テーブルTAを参照して、文書発生確率DB5と属性条件付発生確率DB6Bと属性発生確率DB13Bとを更新するための、確率DB更新処理を実施する。確率DB生成部7Bにおいて、文書選択履歴取得部9bは、文書選択履歴DB3の中から、前回までの確率DB更新処理の際に参照された旧履歴情報以降の最近一定期間(例えば、最近1ヶ月の期間)に亘る履歴情報を新履歴情報として取得する(図12のステップPb1)。取得された新履歴情報は、発生確率算出部10bに渡される。
Probability DB Update Processing Next, the operation of the probability DB update processing in the second embodiment will be described with reference to the flowchart of FIG.
The probability DB generation unit 7B refers to the document selection history information table TA in the document selection history DB3, and updates the document occurrence probability DB5, the attribute conditional occurrence probability DB6B, and the attribute occurrence probability DB13B. Perform the update process. In the probability DB generation unit 7B, the document selection
発生確率算出部10bは、文書選択履歴取得部9bから与えられた新履歴情報に基づいて、検索対象の文書毎に文書選択の新発生確率X1bを算出し、また、属性毎にクエリー属性値の(文書毎)新条件付発生確率と、(文書の如何を問わない)新発生確率X3bとを算出する(ステップPb2)。文書毎に算出された文書選択の新発生確率X1bと、属性毎に算出されたクエリー属性値の新条件付発生確率X2bと新発生確率X3bとは、発生確率統合部11bに渡される。
The occurrence
重み算出部12bは、文書発生確率DB5(文書選択の発生確率テーブルTB)から、検索対象の文書毎に、文書選択の旧発生確率X1aを取得して、その重みを算出する(ステップPb3)。同様に、重み算出部12bは、属性条件付発生確率DB6B(属性の条件付発生確率テーブルTS3、TK3)から、属性毎に、各クエリー属性値の(文書毎)旧条件付発生確率X2aを取得して、その重みを算出する(同Pb3)。さらに、重み算出部12bは、属性発生確率DB13B(属性の発生確率テーブルTS2、TK2)から、属性毎に、各クエリー属性値の(文書の如何を問わない)旧発生確率X3aを取得して、その重みを算出する(同Pb3)。算出された文書選択の旧発生確率X1aの重みと、クエリー属性値の旧条件付発生確率X2a及び旧発生確率X3aの重みは、発生確率統合部11bに渡される。
The
発生確率統合部11bは、文書毎に、発生確率算出部10bと文書発生確率DB5とから与えられる文書選択の新旧発生確率X1b、X1aを、重み算出部12bで算出された旧発生確率の重みを用いて統合する(ステップPb4)。同様に、発生確率統合部11bは、属性毎に、発生確率算出部10aと文書発生確率DB5とから与えられる各クエリー属性値の新旧条件付発生確率X2a、X2bを、旧条件付発生確率X2aの重みを用いて統合する(ステップPb4)。さらに、発生確率統合部11bは、属性毎に、発生確率算出部10aと属性発生確率DB13Bとから与えられる各クエリー属性値の(文書の如何を問わない)新旧発生確率X3a、X3bを、旧発生確率X3aの重みを用いて統合する(ステップPb4)。
For each document, the occurrence probability integration unit 11b uses the old and new occurrence probabilities X1b and X1a of document selection given from the occurrence
この実施形態では、新旧発生確率の統合は、第1の実施形態で述べたと同様の式(1)、(2)に加えて、式(5)に示される重み付け加算方式を用いて行われる。
X1=X1a*W1+X1b*(1−W1) (1)
X2=X2a*W2+X2b*(1−W2) (2)
X3=X3a*W3+X3b*(1−W3) (3)
ここで、X1aは文書選択の旧発生確率(初期設定値は0又は1)、X1bは文書選択の新発生確率、X1は文書選択の新旧発生確率の統合値、W1は文書選択の旧発生確率の重みである。X2aはクエリー属性値の旧条件付発生確率(初期値設定は0又は1)、X2bはクエリー属性値の新条件付発生確率、X2はクエリー属性値の新旧条件付発生確率の統合値、W2はクエリー属性値の旧条件付発生確率の重みである。X3aはクエリー属性値の旧発生確率(初期値設定は0又は1)、X3bはクエリー属性値の新発生確率、X3はクエリー属性値の新旧発生確率の統合値、W3はクエリー属性値の旧発生確率の重みである。
In this embodiment, the new and old occurrence probabilities are integrated by using the weighted addition method shown in Expression (5) in addition to Expressions (1) and (2) similar to those described in the first embodiment.
X1 = X1a * W1 + X1b * (1-W1) (1)
X2 = X2a * W2 + X2b * (1-W2) (2)
X3 = X3a * W3 + X3b * (1-W3) (3)
Here, X1a is the old occurrence probability of the document selection (initial setting value is 0 or 1), X1b is the new occurrence probability of the document selection, X1 is the integrated value of the new and old occurrence probability of the document selection, and W1 is the old occurrence probability of the document selection. Is the weight. X2a is the old conditional occurrence probability of the query attribute value (initial value is 0 or 1), X2b is the new conditional occurrence probability of the query attribute value, X2 is the integrated value of the old and new conditional occurrence probability of the query attribute value, and W2 is This is the weight of the old conditional occurrence probability of the query attribute value. X3a is the old occurrence probability of the query attribute value (initial value is 0 or 1), X3b is the new occurrence probability of the query attribute value, X3 is the integrated value of the old and new occurrence probability of the query attribute value, and W3 is the old occurrence of the query attribute value Probability weight.
発生確率統合部11bは、文書選択及びクエリー属性値に関して新旧発生確率の統合が完了すると、逐次又は一括して、新旧発生確率の統合値X1、X3で、文書発生確率DB5又は属性発生確率DB13Bの記憶内容X1a、X3aを更新する(ステップPb4)。発生確率統合部11bは、また、クエリー属性に関して新旧発生確率及び新旧条件付発生確率の統合が完了すると、新旧発生確率の統合値X2、X3を、特徴検出フィルタ部14Bに渡す(ステップPb4)。
When the integration of the new and old occurrence probabilities regarding the document selection and the query attribute value is completed, the occurrence probability integration unit 11b sequentially or collectively uses the integrated values X1 and X3 of the old and new occurrence probabilities, and the document occurrence probability DB5 or the attribute
特徴検出フィルタ部14Bは、発生確率統合部11bから与えられるクエリー属性値の新旧条件付発生確率の統合値X2と、新旧発生確率の統合値X3との確率分布を比較し、有意な差が有るときは、「特徴的な分布である」と判定する(ステップPb5)。特徴検出フィルタ部14Bは、比較の結果、「特徴的な分布である」と判定したときは、特徴的な分布を持つ属性の条件付発生確率(統合値)X2を、属性条件付発生確率DB6B(属性の条件付発生確率テーブルTS3、TK3)に記録する。一方、特徴検出フィルタ部14Bは、比較の結果、両発生確率(統合値)X2、X3間に有意な差がないときは、属性の条件付発生確率テーブルTS3、TK3に、当該文書について属性の条件付発生確率(統合値)X2を記録する代わりに、「特徴的な分布を持たない」ことを示す「TRUE」のフラグを立てる(図10(a))。
The feature
つまり、この実施形態では、当該文書選択の確率分布が、当該属性について、「特徴的な分布を持つ」条件付発生確率のみが属性条件付発生確率DB6Bに記録され、「特徴的な分布を持たない」条件付発生確率は、属性条件付発生確率DB6Bに記録されない。当該属性について、「特徴的な分布を持たない」条件付発生確率は、属性発生確率DB13B(属性の発生確率テーブルTS2、TK2)に一括記録されていると想定できるので、属性条件付発生確率DB6Bへの記録を省略できるためである。
That is, in this embodiment, only the conditional occurrence probability “having a characteristic distribution” for the attribute is recorded in the attribute conditional
ここで、どのような場合が、統計的に有意な差がないと言えるかは、必要に応じて,任意に定義することができ、例えば、検定を用いても良い。この実施形態では、簡単のため、所定の属性を構成する全てのクエリー属性値について、条件付発生確率(統合値)X2と、発生確率(統合値)X3との間の差が所定の僅少範囲(例えば、「0.05」以内)であるとき、統計的に有意な差はないと判定される。
例えば、文書識別子「全社共通トップページ」を選択する際の、クエリー属性「所属」の条件付発生確率(統合値)X2が、クエリー属性値として「本社」を取る確率「0.497」、「支社1」を取る確率「0.256」、「支社2」を取る確率「0.247」の割合で分布しているとする。
Here, what can be said to be statistically not significant can be arbitrarily defined as necessary. For example, a test may be used. In this embodiment, for the sake of simplicity, the difference between the conditional occurrence probability (integrated value) X2 and the occurrence probability (integrated value) X3 is within a predetermined small range for all query attribute values constituting the predetermined attribute. (For example, within “0.05”), it is determined that there is no statistically significant difference.
For example, when the document identifier “company-wide common top page” is selected, the conditional occurrence probability (integrated value) X2 of the query attribute “affiliation” takes “head office” as the query attribute value “0.497”, “ It is assumed that the distribution is performed at a rate of “0.256” for taking “
一方、属性の発生確率テーブルTS2に記録されたクエリー属性値「所属」の発生確率(統合値)X3は、図9(a)に示すように、クエリー属性値として「本社」を取る確率「0.500」、「支社1」を取る確率「0.250」、「支社2」を取る確率「0.250」の割合で分布している。
On the other hand, the occurrence probability (integrated value) X3 of the query attribute value “affiliation” recorded in the attribute occurrence probability table TS2 is, as shown in FIG. .500 ”, the probability of taking“
このような確率分布の場合、属性「所属」を構成する全てのクエリー属性値について、条件付発生確率(統合値)X2と、発生確率(統合値)X3との間の差が、最大で、「0.006」であるので、統計的に有意な差はないと判定される。したがって、特徴検出フィルタ部14Bは、文書「全社共通トップページ」選択の確率分布が、属性「所属」について、「特徴的な分布を持たない」と判定する(ステップPb5)。
そこで、特徴検出フィルタ部14Bは、属性「所属」の条件付発生確率テーブルTS3に、文書「全社共通トップページ」を選択する際の、クエリー属性値の条件付発生確率(統合値)X2を記録する代わりに、文書「全社共通トップページ」の行項目に、「特徴的な分布を持たない」ことを示す「TRUE」のフラグを設定する(図10(a))。条件付発生確率テーブルTS3、TK3(図10)にフラグの列を設定することにより、第1の実施形態で使用される条件付発生確率テーブルTS1、TK1(図4)では、クエリー属性値の数だけ、「全社共通トップページ」の行数を必要としたが、第2の実施形態では、省略削除することができる。
In the case of such a probability distribution, for all query attribute values constituting the attribute “affiliation”, the difference between the conditional occurrence probability (integrated value) X2 and the occurrence probability (integrated value) X3 is the largest, Since it is “0.006”, it is determined that there is no statistically significant difference. Therefore, the feature
Therefore, the feature
確率DB生成部7Bは、特徴検出フィルタ部14Bが、全ての文書、全てのクエリー属性について、上述の比較判定に基づく記録処理・フラグの設定処理を完了すると、当該DB更新処理を終了する(ステップSb6)。
When the feature
それゆえ、第2の実施形態によっても、上述の第1の実施形態で述べたと略同様の効果を得ることができる。加えて、第2の実施形態によれば、特徴的な分布を持たない属性の条件付発生確率情報を冗長なデータとして、属性条件付発生確率DB6Bから除去できるため、必要な記憶装置資源や、計算資源を削減することができる。
Therefore, according to the second embodiment, substantially the same effect as described in the first embodiment can be obtained. In addition, according to the second embodiment, conditional occurrence probability information of attributes having no characteristic distribution can be removed from the attribute conditional
変形例
図13は、第2の実施形態の変形例である検索結果文書のスコアリングシステムの構成を示すブロック図である。
第2の実施形態(図8)では、特徴検出フィルタ部14Bは、属性の発生確率X3を発生確率統合部11bから取得するようにしたが、これに限らず、図13に示すように、特徴検出フィルタ部14Cが、属性発生確率DB13Cから直接、属性の発生確率X3を取得しても良い。この場合において、発生確率統合部11cが、特徴検出フィルタ部14Cへ属性の条件付発生確率を渡す前に、属性発生確率DB13の記憶内容X2aを更新しておくのが好ましい。なお、図13において、図8に示す構成部分と同一の各部(又は対応する各部)には、同一符号(又は同一符号に添え字)を付して、その説明を省略又は簡略化する。
Modified Example FIG. 13 is a block diagram showing a configuration of a search result document scoring system which is a modified example of the second embodiment.
In the second embodiment (FIG. 8), the feature
以上、この発明の一実施形態を図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計の変更等があってもこの発明に含まれる。例えば、上述の実施形態では、各種の発生確率を単純に積算統合処理することでスコアを算出するようにしたが、これに限定されるものではなく、例えば,各種の発生確率に重み付けをした後、積算統合処理するようにしても良い。また、上述の実施形態では、重み付け加算方式を用いて新旧発生確率の統合を行うようにしたが、これに限定されるものではなく、必要に応じて、重み付けを省略しても良い。
また、重み計算処理モデルとしてシグモイド関数を用いたが、これに限らず、必要に応じて、一次関数、二次関数、三角関数、他の指数関数、又はこれらの組合せからなる関数モデルを用いても良い。加えて、扱う発生確率の種類毎に、異なる関数モデルや異なるパラメタの組合せを用いるようにしても良い。
As described above, the embodiment of the present invention has been described in detail with reference to the drawings. However, the specific configuration is not limited to this embodiment, and there are design changes and the like within the scope not departing from the gist of the present invention. However, it is included in this invention. For example, in the above-described embodiment, the score is calculated by simply integrating and integrating various occurrence probabilities, but the present invention is not limited to this. For example, after weighting various occurrence probabilities The integration integration process may be performed. In the above-described embodiment, the new and old occurrence probabilities are integrated using the weighted addition method. However, the present invention is not limited to this, and weighting may be omitted as necessary.
In addition, the sigmoid function is used as the weight calculation processing model. However, the present invention is not limited to this, and a function model composed of a linear function, a quadratic function, a trigonometric function, another exponential function, or a combination thereof is used as necessary. Also good. In addition, different function models and combinations of different parameters may be used for each type of occurrence probability handled.
また、上述の第1の実施形態では、図3に示すように、文書発生確率DB5が、単一のテーブル(文書選択の発生確率テーブルTB)から構成される場合について述べたが、論理的に図3と同等のデータ構造を持つのであれば、複数のテーブルから構成されるようにしても良い。
また、上述の文書検索部1では、文書スコアリング部4Aから取得したスコアのみに基づいて、検索結果文書リストをスコア順に並び替えるようにしたが、これに限定されない。例えば、文書検索部1自身が生成するTF(Term Frequency)−IDF(Inverse Document Frequency)等のスコアと、文書スコアリング部4Aが生成したスコアとを統合し、統合して得られたスコアに基づいて検索結果文書リストを並び替えるようにしても良い。
また、上述の第1の実施形態では、図4に示すように、クエリー属性毎の条件付発生確率テーブルを設けるようにしたが、これに限らず、論理的に属性毎のテーブルに分解できるのであれば、属性条件付発生確率DB6Aは、複数種のクエリー属性を項目として含むテーブルから構成されても良い。これとは逆に、論理的にクエリー属性毎のテーブルに統合できるのであれば、属性条件付発生確率DB6Aは、クエリー属性の種類の数より多い数のテーブルから構成されても良い。
In the first embodiment described above, as shown in FIG. 3, the document
In the
In the first embodiment, as shown in FIG. 4, a conditional occurrence probability table for each query attribute is provided. However, the present invention is not limited to this, and can be logically decomposed into a table for each attribute. If there is, the attribute conditional
また、上述の各実施形態では、スコア算出に必要な条件付発生確率の標本空間として、「所属」と「キーワード」との2種類の属性を用いるようにしたが、標本空間としての属性は、2種類に限らず、必要に応じて、増減できる。例えば、利用者が属する企業の事業規模が大きい程、また、その業種が分散型である程、標本空間としてのクエリー属性の数を増やすようにしても良く、これに対して、利用者が属する企業の事業規模が小さく、その業種が集中型であれば、標本空間としてのクエリー属性は1つでも良い。 In each of the above-described embodiments, two types of attributes of “affiliation” and “keyword” are used as the sample space of the conditional occurrence probability necessary for calculating the score. Not limited to two types, it can be increased or decreased as necessary. For example, the larger the business scale of the company to which the user belongs, and the more the type of business is distributed, the more the number of query attributes as a sample space may be increased. If the business scale of a company is small and the type of industry is concentrated, only one query attribute as a sample space may be used.
また、上述の各実施形態では、クエリー属性として、「所属」、「キーワード」を用いたが、例示であり、これらに限定されず、別種の属性を単一で、又は、任意の組合せで用いても良いことは勿論である。別種の属性としては、例えば、「職位」、「勤続年数」、「勤務地」、「検索日時」、「検索年月日」等を挙げることができる。なお、「検索日時」や「検索年月日」等の連続的な情報は、任意の幅値を持つ時間帯や期間等に分割して保持するようにしても良い。 In each of the above-described embodiments, “affiliation” and “keyword” are used as query attributes. However, the query attributes are not limited to these examples, and different attributes are used singly or in any combination. Of course, it may be. Examples of other types of attributes include “position”, “year of service”, “work location”, “search date”, “search date”, and the like. Note that continuous information such as “search date and time” and “search date” may be divided and held in time zones or periods having arbitrary width values.
また、上述の第2の実施形態では、当該文書選択の確率分布が当該属性について特徴的な分布でないことを表すために、属性の条件付発生確率テーブルにフラグという列項目を設けるようにしたが、これに限らない。フラグに代えて、例えば、属性や確率の列に空文字(null)を指定することで、あるいは、各属性について「文書選択の特徴的な確率分布の有無」を示す専用テーブルを設定することで、上記フラグと同様の機能を持たせることもできる。 In the second embodiment described above, the column item “flag” is provided in the conditional occurrence probability table of the attribute in order to indicate that the probability distribution of the document selection is not a characteristic distribution for the attribute. Not limited to this. Instead of the flag, for example, by specifying a null character (null) in the attribute or probability column, or by setting a dedicated table indicating “the presence or absence of a characteristic probability distribution of document selection” for each attribute, A function similar to that of the flag can also be provided.
文書インデックスから関連文書を検索する情報検索装置に適用できる。1企業内に限らず、広範なコミュニティ又はコミュニティ間で利用できる。 The present invention can be applied to an information retrieval apparatus that retrieves related documents from a document index. It can be used not only within one company but also in a wide community or between communities.
1 文書検索部(文書検索手段)
2 行動履歴取得部
3 文書選択履歴DB(文書選択履歴格納部)
TA 文書選択履歴情報テーブル
4A、4B、4C 文書スコアリング部
5 文書発生確率DB(確率情報格納部)
TB 文書選択の発生確率テーブル
6A、6B 属性条件付発生確率DB(確率情報格納部)
TS1、TS3 属性「所属」の条件付発生確率テーブル
TK1、TK3 属性「キーワード」の条件付発生確率テーブル
7A、7B、7C 確率DB生成部(確率情報生成手段)
8A、8B スコア算出部(スコア算出手段)
9a、9b 文書選択履歴取得部(確率情報生成手段の一部)
10a、10b 発生確率算出部(確率情報生成手段の一部)
11a、11b、11c 発生確率統合部(確率情報生成手段の一部)
12a、12b 重み算出部(確率情報生成手段の一部)
13B、13C 属性発生確率DB(確率情報格納部)
TS2 属性「所属」の発生確率テーブル
TK2 属性「キーワード」の発生確率テーブル
14B、14C 特徴検出フィルタ部(フィルタ手段)
1 Document search part (document search means)
2 Action
TA document selection history information table 4A, 4B, 4C
TB document selection occurrence probability table 6A, 6B Occurrence probability DB with attribute condition (probability information storage unit)
TS1, TS3 Conditional occurrence probability table with attribute “affiliation” TK1, TK3 Conditional occurrence probability table with attribute “keyword” 7A, 7B, 7C Probability DB generation unit (probability information generation means)
8A, 8B Score calculation unit (score calculation means)
9a, 9b Document selection history acquisition unit (part of probability information generation means)
10a, 10b Occurrence probability calculation unit (part of probability information generation means)
11a, 11b, 11c Occurrence probability integration unit (part of probability information generation means)
12a, 12b Weight calculation unit (part of probability information generation means)
13B, 13C Attribute occurrence probability DB (probability information storage unit)
TS2 attribute “affiliation” occurrence probability table TK2 attribute “keyword” occurrence probability table 14B, 14C feature detection filter unit (filter means)
Claims (38)
利用者の過去の文書選択履歴からそれぞれ生成された、第1の統計情報としての、利用者による当該文書選択の発生確率と、第2の統計情報としての、当該文書を選択する際の今回の利用者又はその検索要求が持つ、少なくとも一の属性情報の条件付発生確率とに基づいて、
利用者の今回の検索要求に適合する蓋然性の程度を推定し、スコアとして数値化するスコア算出手段を備えてなることを特徴とする検索結果文書のスコアリングシステム。 As a response to the user's current search request, for each document listed in the search results provided by the document search means,
The probability of occurrence of the document selection by the user as the first statistical information respectively generated from the past document selection history of the user, and the current time when selecting the document as the second statistical information Based on the conditional occurrence probability of at least one attribute information that the user or the search request has,
A scoring system for search result documents, comprising score calculation means for estimating a probability of conformity to a user's current search request and digitizing the score.
利用者の今回の検索要求に対する応答として、文書検索手段から提供される検索結果に列挙された各文書について、前記確率情報生成手段にてそれぞれ生成された、第1の統計情報としての、利用者による当該文書選択の発生確率と、第2の統計情報としての、当該文書を選択する際の今回の利用者又はその検索要求が持つ、少なくとも一の属性情報の条件付発生確率とに基づいて、利用者の今回の検索要求に適合する蓋然性の程度を推定し、スコアとして数値化するスコア算出手段とを備えてなることを特徴とする検索結果文書のスコアリングシステム。 When selecting the document as the first statistical information as the first statistical information and the document as the second statistical information from the user's past document selection history as the first statistical information Probability information generation means for generating a conditional occurrence probability of each attribute information that the user or the search request has,
As a response to the user's current search request, the user as the first statistical information generated by the probability information generation unit for each document listed in the search result provided by the document search unit On the basis of the occurrence probability of the document selection by and the conditional occurrence probability of at least one attribute information possessed by the current user or the search request when selecting the document as the second statistical information, A scoring system for search result documents, comprising score calculation means for estimating a probability of conformity to a user's current search request and digitizing the score.
前記スコア算出手段は、前記確率情報格納部の中から該当する前記第1及び第2の統計情報を読み出して、前記スコアを算出することを特徴とする請求項2記載の検索結果文書のスコアリングシステム。 The occurrence probability of the document selection as the first statistical information and the conditional occurrence probability of each attribute information as the second statistical information, which are respectively generated by the probability information generation means for each search target document And a probability information storage unit for storing
3. The scoring of a search result document according to claim 2, wherein the score calculation means calculates the score by reading out the corresponding first and second statistical information from the probability information storage unit. system.
前記確率情報生成手段は、前記文書選択履歴格納部から前記文書選択履歴を読み出して、前記第1及び第2の統計情報を生成することを特徴とする請求項2記載の検索結果文書のスコアリングシステム。 A document selection history storage unit for storing a user's past document selection history based on the search result provided from the document search means; and
3. The scoring of a search result document according to claim 2, wherein the probability information generation means generates the first and second statistical information by reading the document selection history from the document selection history storage unit. system.
利用者の過去の前記文書選択履歴から、検索対象の文書毎に、利用者による当該文書選択の発生頻度と、当該文書を選択する際の利用者又はその検索要求が持つ、各属性情報の条件付発生頻度とを取得し、
検索対象の文書毎に、取得した当該文書選択の発生頻度に基づいて、前記第1の統計情報としての前記文書選択の発生確率を生成すると共に、取得した前記各属性情報の条件付発生頻度に基づいて、前記第2の統計情報としての前記各属性情報の条件付発生確率を生成することを特徴とする請求項2記載の検索結果文書のスコアリングシステム。 The probability information generating means includes
From the user's past document selection history, for each search target document, the frequency of occurrence of the document selection by the user, and the condition of each attribute information that the user or the search request has when selecting the document And the frequency of occurrence
For each document to be searched, the occurrence probability of the document selection as the first statistical information is generated based on the obtained occurrence frequency of the document selection, and the conditional occurrence frequency of each acquired attribute information is set. 3. The scoring system for search result documents according to claim 2, wherein a conditional occurrence probability of each attribute information as the second statistical information is generated based on.
利用者の過去の前記文書選択履歴から、検索対象の文書毎に、従前の過去期間に取得した当該文書選択の発生頻度に基づいて算出された当該文書選択の旧発生確率と、直前の過去期間に取得した当該文書選択の発生頻度に基づいて算出された当該文書選択の新発生確率とを統合して、前記第1の統計情報としての前記文書選択の発生確率を生成更新し、かつ、
検索対象の文書毎に、従前の過去期間に取得した前記各属性情報の条件付発生頻度に基づいて算出された前記各属性情報の旧条件付発生確率と、直前の過去期間に取得した前記各属性情報の条件付発生頻度に基づいて算出された前記各属性情報の新条件付発生確率とを統合して、前記第2の統計情報としての前記各属性情報の条件付発生確率を生成更新することを特徴とする請求項2記載の検索結果文書のスコアリングシステム。 The probability information generating means includes
For each document to be searched from the past document selection history of the user, the previous occurrence probability of the document selection calculated based on the occurrence frequency of the document selection acquired in the previous past period, and the previous past period Integrating the new occurrence probability of the document selection calculated based on the frequency of occurrence of the document selection acquired in step (i), generating and updating the occurrence probability of the document selection as the first statistical information, and
For each document to be searched, the old conditional occurrence probability of each attribute information calculated based on the conditional occurrence frequency of each attribute information acquired in the previous past period, and each of the above acquired in the previous previous period The conditional occurrence probability of each attribute information as the second statistical information is generated and updated by integrating the new conditional occurrence probability of each attribute information calculated based on the conditional occurrence frequency of the attribute information The scoring system for search result documents according to claim 2.
前記文書選択の発生確率及び前記各属性情報の条件付発生確率を生成更新する際には、少なくとも、前記文書選択の旧発生確率と前記各属性情報の旧条件付発生確率とに重みを付けると共に、
前記文書選択の旧発生確率又は各属性情報の旧条件付発生確率の値が大きい程、該文書選択の旧発生確率又は各属性情報の旧条件付発生確率の前記重みを小さく設定することを特徴とする請求項8に記載の検索結果文書のスコアリングシステム。 The probability information generating means includes
When generating and updating the occurrence probability of the document selection and the conditional occurrence probability of each attribute information, at least weight the old occurrence probability of the document selection and the old conditional occurrence probability of each attribute information ,
The weight of the old occurrence probability of the document selection or the old conditional occurrence probability of each attribute information is set to be smaller as the value of the old occurrence probability of the document selection or the old conditional occurrence probability of each attribute information is larger. The scoring system for search result documents according to claim 8.
前記確率情報格納部は、前記確率情報生成手段にて生成された前記第3の統計情報を格納し、かつ、
前記スコア算出手段は、ある文書について前記スコアを算出する際に、前記第2の統計情報としての、属性情報の条件付発生確率の分布と、前記第3の統計情報としての、属性情報の発生確率の分布とに、統計的に有意な差異がないときは、
前記第2の統計情報に代えて、前記第1の統計情報としての、前記文書選択の発生確率と、前記第3の統計情報とに基づいて、前記スコアを算出することを特徴とする請求項2記載の検索結果文書のスコアリングシステム。 The probability information generation means reads the document selection history from the document selection history storage unit, and in addition to the first and second statistical information, a user at the time of a search request as third statistical information Or, generate the probability of occurrence of attribute information that the search request has,
The probability information storage unit stores the third statistical information generated by the probability information generation unit, and
When calculating the score for a certain document, the score calculating means generates a conditional occurrence probability distribution of attribute information as the second statistical information and generation of attribute information as the third statistical information. If there is no statistically significant difference in the probability distribution,
The score is calculated based on an occurrence probability of the document selection and the third statistical information as the first statistical information instead of the second statistical information. 2. A scoring system for search result documents according to 2.
利用者の過去の文書選択履歴からそれぞれ生成された、第1の統計情報としての、利用者による当該文書選択の発生確率と、第2の統計情報としての、当該文書を選択する際の今回の利用者又はその検索要求が持つ、少なくとも一の属性情報の条件付発生確率とに基づいて、
利用者の今回の検索要求に適合する蓋然性の程度を推定し、スコアとして数値化することを特徴とする検索結果文書のスコア算出装置。 As a response to the user's current search request, for each document listed in the search results provided by the document search means,
The probability of occurrence of the document selection by the user as the first statistical information respectively generated from the past document selection history of the user, and the current time when selecting the document as the second statistical information Based on the conditional occurrence probability of at least one attribute information that the user or the search request has,
A score calculation device for a search result document, which estimates the degree of probability that matches a user's current search request and quantifies the score as a score.
利用者の過去の文書選択履歴からそれぞれ生成した、第1の統計情報としての、利用者による当該文書選択の発生確率と、第2の統計情報としての、当該文書を選択する際の今回の利用者又はその検索要求が持つ、少なくとも一の属性情報の条件付発生確率とに基づいて、
利用者の今回の検索要求に適合する蓋然性の程度を推定し、スコアとして数値化するスコア算出ステップを有してなることを特徴とする検索結果文書のスコアリング方法。 As a response to the user's current search request, for each document listed in the search results provided by the document search means,
Probability of occurrence of the document selection by the user as the first statistical information generated from the past document selection history of the user, and the current use when selecting the document as the second statistical information Based on the conditional occurrence probability of at least one attribute information possessed by the person or the search request,
A scoring method for a search result document, comprising a score calculation step for estimating a probability of conformity to a user's current search request and digitizing the score.
利用者の今回の検索要求に対する応答として、文書検索手段から提供される検索結果に列挙された各文書について、前記確率情報生成ステップでそれぞれ生成した、第1の統計情報としての、利用者による当該文書選択の発生確率と、第2の統計情報としての、当該文書を選択する際の今回の利用者又はその検索要求が持つ、少なくとも一の属性情報の条件付発生確率とに基づいて、利用者の今回の検索要求に適合する蓋然性の程度を推定し、スコアとして数値化するスコア算出ステップとを有してなることを特徴とする検索結果文書のスコアリング方法。 When selecting the document as the first statistical information as the first statistical information and the document as the second statistical information from the user's past document selection history as the first statistical information Probability information generation step of generating a conditional occurrence probability of each attribute information that the user or the search request has,
As a response to the user's current search request, for each document listed in the search result provided by the document search means, the first statistical information generated in the probability information generation step, respectively, by the user Based on the occurrence probability of document selection and the conditional occurrence probability of at least one attribute information possessed by the current user or the search request when selecting the document as the second statistical information A scoring method for a search result document, comprising: a score calculation step that estimates a probability of conformity to the current search request and quantifies the score as a score.
前記スコア算出ステップでは、前記確率情報格納部の中から該当する前記第1及び第2の統計情報を読み出して、前記スコアを算出することを特徴とする請求項16記載の検索結果文書のスコアリング方法。 For each document to be searched, the occurrence probability of document selection as the first statistical information and the conditional occurrence probability of each attribute information as the second statistical information respectively generated in the probability information generation step. A probability information storage step of storing in the probability information storage unit;
The scoring of a search result document according to claim 16, wherein, in the score calculation step, the first and second statistical information corresponding to the probability information storage unit is read and the score is calculated. Method.
前記確率情報生成ステップでは、前記文書選択履歴格納部から前記文書選択履歴を読み出して、前記第1及び第2の統計情報を生成することを特徴とする請求項16記載の検索結果文書のスコアリング方法。 A document selection history storage step of storing a user's past document selection history based on the search result provided from the document search means in a document selection history storage unit;
17. The scoring of a search result document according to claim 16, wherein in the probability information generation step, the document selection history is read from the document selection history storage unit to generate the first and second statistical information. Method.
利用者の過去の前記文書選択履歴から、検索対象の文書毎に、利用者による当該文書選択の発生頻度と、当該文書を選択する際の利用者又はその検索要求が持つ、各属性情報の条件付発生頻度とを取得した後、
検索対象の文書毎に、取得した当該文書選択の発生頻度に基づいて、前記第1の統計情報としての前記文書選択の発生確率を生成すると共に、取得した前記各属性情報の条件付発生頻度に基づいて、前記第2の統計情報としての前記各属性情報の条件付発生確率を生成することを特徴とする請求項16記載の検索結果文書のスコアリング方法。 In the probability information generating step,
From the user's past document selection history, for each search target document, the frequency of occurrence of the document selection by the user, and the condition of each attribute information that the user or the search request has when selecting the document After obtaining the frequency of occurrence,
For each document to be searched, the occurrence probability of the document selection as the first statistical information is generated based on the obtained occurrence frequency of the document selection, and the conditional occurrence frequency of each acquired attribute information is set. The search result document scoring method according to claim 16, further comprising: generating a conditional occurrence probability of each attribute information as the second statistical information.
利用者の過去の前記文書選択履歴から、検索対象の文書毎に、従前の過去期間に取得した当該文書選択の発生頻度に基づいて算出した当該文書選択の旧発生確率と、直前の過去期間に取得した当該文書選択の発生頻度に基づいて算出した当該文書選択の新発生確率とを統合して、前記第1の統計情報としての前記文書選択の発生確率を生成更新し、かつ、
検索対象の文書毎に、従前の過去期間に取得した前記各属性情報の条件付発生頻度に基づいて算出した前記各属性情報の旧条件付発生確率と、直前の過去期間に取得した前記各属性情報の条件付発生頻度に基づいて算出した前記各属性情報の新条件付発生確率とを統合して、前記第2の統計情報としての前記各属性情報の条件付発生確率を生成更新することを特徴とする請求項16記載の検索結果文書のスコアリング方法。 In the probability information generating step,
For each document to be searched from the past document selection history of the user, the old occurrence probability of the document selection calculated based on the occurrence frequency of the document selection acquired in the previous past period, and the previous past period Integrating the new occurrence probability of the document selection calculated based on the obtained occurrence frequency of the document selection, generating and updating the occurrence probability of the document selection as the first statistical information, and
For each document to be searched, the old conditional occurrence probability of each attribute information calculated based on the conditional occurrence frequency of each attribute information acquired in the previous past period, and each attribute acquired in the previous past period Integrating the new conditional occurrence probability of each attribute information calculated based on the conditional occurrence frequency of information to generate and update the conditional occurrence probability of each attribute information as the second statistical information; 17. The search result document scoring method according to claim 16,
前記文書選択の発生確率及び前記各属性情報の条件付発生確率を生成更新する際には、少なくとも、前記文書選択の旧発生確率と前記各属性情報の旧条件付発生確率とに重みを付けると共に、
前記文書選択の旧発生確率又は各属性情報の旧条件付発生確率の値が大きい程、該文書選択の旧発生確率又は各属性情報の旧条件付発生確率の前記重みを小さく設定することを特徴とする請求項22に記載の検索結果文書のスコアリング方法。 In the probability information generating step,
When generating and updating the occurrence probability of the document selection and the conditional occurrence probability of each attribute information, at least weight the old occurrence probability of the document selection and the old conditional occurrence probability of each attribute information ,
The weight of the old occurrence probability of the document selection or the old conditional occurrence probability of each attribute information is set to be smaller as the value of the old occurrence probability of the document selection or the old conditional occurrence probability of each attribute information is larger. The scoring method for a search result document according to claim 22.
前記確率情報格納ステップでは、前記確率情報生成ステップで生成した前記第3の統計情報を格納し、かつ、
前記スコア算出ステップでは、ある文書について前記スコアを算出する際に、前記第2の統計情報としての、属性情報の条件付発生確率の分布と、前記第3の統計情報としての、属性情報の発生確率の分布とに、統計的に有意な差異がないときは、
前記第2の統計情報に代えて、前記第1の統計情報としての、前記文書選択の発生確率と、前記第3の統計情報とに基づいて、前記スコアを算出することを特徴とする請求項16記載の検索結果文書のスコアリング方法。 In the probability information generating step, the document selection history is read from the document selection history storage unit, and in addition to the first and second statistical information, a user at the time of a search request as third statistical information Or, generate the probability of occurrence of attribute information that the search request has,
In the probability information storage step, the third statistical information generated in the probability information generation step is stored, and
In the score calculation step, when calculating the score for a document, the distribution of conditional occurrence probability of attribute information as the second statistical information and generation of attribute information as the third statistical information If there is no statistically significant difference in the probability distribution,
The score is calculated based on an occurrence probability of the document selection and the third statistical information as the first statistical information instead of the second statistical information. 16. A scoring method for search result documents according to 16.
利用者の今回の検索要求に対する応答として、文書検索手段から提供される検索結果に列挙された各文書について、利用者の過去の文書選択履歴からそれぞれ生成した、第1の統計情報としての、利用者による当該文書選択の発生確率と、第2の統計情報としての、当該文書を選択する際の今回の利用者又はその検索要求が持つ、少なくとも一の属性情報の条件付発生確率とに基づいて、利用者の今回の検索要求に適合する蓋然性の程度を推定し、スコアとして数値化するスコア算出処理を実行させることを特徴とする検索結果文書のスコアリングプログラム。 On the computer,
As a response to the user's current search request, for each document listed in the search results provided by the document search means, the first statistical information generated from the user's past document selection history is used as the first statistical information. Based on the occurrence probability of the document selection by the user and the conditional occurrence probability of at least one attribute information possessed by the current user or the search request when selecting the document as the second statistical information A scoring program for a search result document, which executes a score calculation process for estimating the degree of probability that matches a user's current search request and digitizing it as a score.
利用者の過去の文書選択履歴から、検索対象の文書毎に、第1の統計情報としての、利用者による当該文書選択の発生確率と、第2の統計情報としての、当該文書を選択する際の利用者又はその検索要求が持つ各属性情報の条件付発生確率とを生成する確率情報生成処理と、
利用者の今回の検索要求に対する応答として、文書検索手段から提供される検索結果に列挙された各文書について、前記確率情報生成処理にてそれぞれ生成した、第1の統計情報としての、利用者による当該文書選択の発生確率と、第2の統計情報としての、当該文書を選択する際の今回の利用者又はその検索要求が持つ、少なくとも一の属性情報の条件付発生確率とに基づいて、利用者の今回の検索要求に適合する蓋然性の程度を推定し、スコアとして数値化するスコア算出処理とを実行させることを特徴とする検索結果文書のスコアリングプログラム。 On the computer,
When selecting the document as the first statistical information as the first statistical information and the document as the second statistical information from the user's past document selection history as the first statistical information Probability information generation processing that generates a conditional occurrence probability of each attribute information that the user or the search request has,
As a response to the user's current search request, by the user as the first statistical information generated by the probability information generation process for each document listed in the search results provided by the document search means Use based on the occurrence probability of the document selection and the conditional occurrence probability of at least one attribute information possessed by the current user or the search request when selecting the document as the second statistical information A scoring program for a search result document, which executes a score calculation process that estimates a degree of probability that matches a user's current search request and digitizes the score.
検索対象の文書毎に、前記確率情報生成処理にてそれぞれ生成した、前記第1の統計情報としての文書選択の発生確率と、前記第2の統計情報としての各属性情報の条件付発生確率とを確率情報格納部に格納する確率情報格納処理をさらに実行させ、かつ、
前記スコア算出処理では、前記確率情報格納部の中から該当する前記第1及び第2の統計情報を読み出させて、前記スコアを算出させることを特徴とする請求項28記載の検索結果文書のスコアリングプログラム。 On the computer,
The occurrence probability of document selection as the first statistical information and the conditional occurrence probability of each attribute information as the second statistical information, which are generated by the probability information generation process for each document to be searched The probability information storage process for storing the information in the probability information storage unit, and
29. The search result document according to claim 28, wherein in the score calculation process, the score is calculated by reading out the corresponding first and second statistical information from the probability information storage unit. Scoring program.
前記文書検索手段から提供される前記検索結果に基づく利用者の過去の文書選択履歴を文書選択履歴格納部に格納する文書選択履歴格納処理をさらに実行させ、
前記確率情報生成処理では、前記文書選択履歴格納部から前記文書選択履歴を読み出させて、前記第1及び第2の統計情報を生成させることを特徴とする請求項28記載の検索結果文書のスコアリングプログラム。 On the computer,
A document selection history storage process for storing a user's past document selection history based on the search result provided from the document search means in a document selection history storage unit;
29. The search result document according to claim 28, wherein in the probability information generation process, the document selection history is read from the document selection history storage unit to generate the first and second statistical information. Scoring program.
利用者の過去の前記文書選択履歴から、検索対象の文書毎に、利用者による当該文書選択の発生頻度と、当該文書を選択する際の利用者又はその検索要求が持つ、各属性情報の条件付発生頻度とを取得させた後、
検索対象の文書毎に、取得した当該文書選択の発生頻度に基づいて、前記第1の統計情報としての文書選択の発生確率を生成させると共に、取得した前記各属性情報の条件付発生頻度に基づいて、前記第2の統計情報としての各属性情報の条件付発生確率を生成させることを特徴とする請求項28記載の検索結果文書のスコアリングプログラム。 In the probability information generation process, the computer
From the user's past document selection history, for each search target document, the frequency of occurrence of the document selection by the user, and the condition of each attribute information that the user or the search request has when selecting the document After getting the occurrence frequency,
For each document to be searched, based on the acquired occurrence frequency of the document selection, the occurrence probability of the document selection as the first statistical information is generated, and based on the conditional occurrence frequency of each acquired attribute information 29. The search result document scoring program according to claim 28, wherein a conditional occurrence probability of each attribute information as the second statistical information is generated.
利用者の過去の前記文書選択履歴から、検索対象の文書毎に、従前の過去期間に取得した当該文書選択の発生頻度に基づいて算出させた当該文書選択の旧発生確率と、直前の過去期間に取得した当該文書選択の発生頻度に基づいて算出させた当該文書選択の新発生確率とを統合させて、前記第1の統計情報としての前記文書選択の発生確率を生成更新させ、かつ、
検索対象の文書毎に、従前の過去期間に取得した前記各属性情報の条件付発生頻度に基づいて算出させた前記各属性情報の旧条件付発生確率と、直前の過去期間に取得した前記各属性情報の条件付発生頻度に基づいて算出させた前記各属性情報の新条件付発生確率とを統合させて、前記第2の統計情報としての前記各属性情報の条件付発生確率を生成更新させることを特徴とする請求項28記載の検索結果文書のスコアリングプログラム。 In the probability information generation process, the computer
For each document to be searched from the past document selection history of the user, the old occurrence probability of the document selection calculated based on the occurrence frequency of the document selection acquired in the previous past period, and the previous past period Integrating the new occurrence probability of the document selection calculated based on the frequency of occurrence of the document selection acquired in the step, generating and updating the occurrence probability of the document selection as the first statistical information, and
For each search target document, the old conditional occurrence probability of each attribute information calculated based on the conditional occurrence frequency of each attribute information acquired in the previous past period, and each acquired in the previous past period The conditional occurrence probability of each attribute information as the second statistical information is generated and updated by integrating the new conditional occurrence probability of each attribute information calculated based on the conditional occurrence frequency of the attribute information 30. The search result document scoring program according to claim 28.
前記文書選択の発生確率及び前記各属性情報の条件付発生確率を生成更新させる際には、少なくとも、前記文書選択の旧発生確率と前記各属性情報の旧条件付発生確率とに重みを付ける重み付け処理を実行させると共に、
該重み付け処理では、前記文書選択の旧発生確率又は各属性情報の旧条件付発生確率の値が大きい程、該文書選択の旧発生確率又は各属性情報の旧条件付発生確率の前記重みが小さく設定される処理を実行させることを特徴とする請求項34に記載の検索結果文書のスコアリングプログラム。 In the probability information generation process, the computer
When generating and updating the occurrence probability of the document selection and the conditional occurrence probability of each attribute information, weighting weights at least the old occurrence probability of the document selection and the old conditional occurrence probability of each attribute information As the process is executed,
In the weighting process, the larger the value of the old occurrence probability of the document selection or the old conditional occurrence probability of each attribute information is, the smaller the weight of the old occurrence probability of the document selection or the old conditional occurrence probability of each attribute information is. 35. The search result document scoring program according to claim 34, wherein the set processing is executed.
前記文書選択履歴格納部から前記文書選択履歴を読み出させて、前記第1及び第2の統計情報に加えて、第3の統計情報としての、検索要求の際の利用者又はその検索要求が持つ属性情報の発生確率を生成させ、
前記確率情報格納処理では、前記確率情報生成処理で生成した前記第3の統計情報を格納させ、かつ、
前記スコア算出処理では、ある文書について前記スコアを算出する際に、前記第2の統計情報としての、属性情報の条件付発生確率の分布と、前記第3の統計情報としての、属性情報の発生確率の分布とに、統計的に有意な差異がないときは、
前記第2の統計情報に代えて、前記第1の統計情報としての、前記文書選択の発生確率と、前記第3の統計情報とに基づいて、前記スコアを算出させることを特徴とする請求項28記載の検索結果文書のスコアリングプログラム。 In the probability information generation process, the computer
The document selection history is read from the document selection history storage unit, and in addition to the first and second statistical information, a user at the time of the search request or the search request as the third statistical information Generate the occurrence probability of the attribute information you have,
In the probability information storage process, the third statistical information generated in the probability information generation process is stored, and
In the score calculation process, when calculating the score for a document, the distribution of conditional occurrence probability of attribute information as the second statistical information and generation of attribute information as the third statistical information If there is no statistically significant difference in the probability distribution,
The score is calculated based on the occurrence probability of the document selection and the third statistical information as the first statistical information instead of the second statistical information. 28. A scoring program for search result documents according to 28.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009052740A JP2010205189A (en) | 2009-03-05 | 2009-03-05 | Scoring system of search result document, score calculation device, scoring method and scoring program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009052740A JP2010205189A (en) | 2009-03-05 | 2009-03-05 | Scoring system of search result document, score calculation device, scoring method and scoring program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010205189A true JP2010205189A (en) | 2010-09-16 |
Family
ID=42966569
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009052740A Pending JP2010205189A (en) | 2009-03-05 | 2009-03-05 | Scoring system of search result document, score calculation device, scoring method and scoring program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2010205189A (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012099095A (en) * | 2010-10-06 | 2012-05-24 | Gourmet Navigator Inc | Banquet contracting support system, banquet contracting support program, and banquet contracting support method |
JP2017010514A (en) * | 2015-06-18 | 2017-01-12 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | Search engine and method for implementing the same |
CN111353015A (en) * | 2018-12-24 | 2020-06-30 | 阿里巴巴集团控股有限公司 | Crowdsourcing question recommendation method, device, equipment and storage medium |
JP2021036407A (en) * | 2019-08-30 | 2021-03-04 | トッパン・フォームズ株式会社 | Search support system, learning system, search support method and program |
JP2021036409A (en) * | 2019-08-30 | 2021-03-04 | トッパン・フォームズ株式会社 | Search support system, search support method and program |
-
2009
- 2009-03-05 JP JP2009052740A patent/JP2010205189A/en active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012099095A (en) * | 2010-10-06 | 2012-05-24 | Gourmet Navigator Inc | Banquet contracting support system, banquet contracting support program, and banquet contracting support method |
JP2017010514A (en) * | 2015-06-18 | 2017-01-12 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | Search engine and method for implementing the same |
CN111353015A (en) * | 2018-12-24 | 2020-06-30 | 阿里巴巴集团控股有限公司 | Crowdsourcing question recommendation method, device, equipment and storage medium |
CN111353015B (en) * | 2018-12-24 | 2024-03-15 | 阿里巴巴集团控股有限公司 | Crowd-sourced question recommendation method, device, equipment and storage medium |
JP2021036407A (en) * | 2019-08-30 | 2021-03-04 | トッパン・フォームズ株式会社 | Search support system, learning system, search support method and program |
JP2021036409A (en) * | 2019-08-30 | 2021-03-04 | トッパン・フォームズ株式会社 | Search support system, search support method and program |
JP7234077B2 (en) | 2019-08-30 | 2023-03-07 | トッパン・フォームズ株式会社 | SEARCH SUPPORT SYSTEM, LEARNING SYSTEM, SEARCH SUPPORT METHOD, AND PROGRAM |
JP7234079B2 (en) | 2019-08-30 | 2023-03-07 | トッパン・フォームズ株式会社 | SEARCH SUPPORT SYSTEM, SEARCH SUPPORT METHOD, AND PROGRAM |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4587236B2 (en) | Information search apparatus, information search method, and program | |
US8131716B2 (en) | Tuning of relevancy ranking for federated search | |
JP5351182B2 (en) | Determining relevant information about the area of interest | |
CN111782965A (en) | Intention recommendation method, device, equipment and storage medium | |
KR101511656B1 (en) | Ascribing actionable attributes to data that describes a personal identity | |
US20140317078A1 (en) | Method and system for retrieving information | |
JP2009545810A (en) | Temporal ranking of search results | |
US20120078709A1 (en) | Method and system for managing online advertising objects using textual metadata tags | |
KR20120135218A (en) | Matching metadata sources using rules for characterizing matches | |
JP2008234550A (en) | Expert information retrieval device, expert information retrieval method and program | |
JP2020135891A (en) | Methods, apparatus, devices and media for providing search suggestions | |
JP2010205189A (en) | Scoring system of search result document, score calculation device, scoring method and scoring program | |
JP2018180712A (en) | Model variable candidate generating device and method | |
JP5281104B2 (en) | Advertisement management apparatus, advertisement selection apparatus, advertisement management method, advertisement management program, and recording medium recording advertisement management program | |
KR100932843B1 (en) | Method and system for providing clustered search results based on the degree of association between search results and method and system for clustering search results | |
JP5194731B2 (en) | Document relevance calculation system, document relevance calculation method, and document relevance calculation program | |
JP7456137B2 (en) | Information processing device and program | |
JP4640554B2 (en) | Server apparatus, information processing method, and program | |
US20210248509A1 (en) | Data-driven online score caching for machine learning | |
JP2010146222A (en) | Document classification apparatus, document classification method, and program | |
JP4287464B2 (en) | System infrastructure configuration development support system and support method | |
JP5813052B2 (en) | Information processing apparatus, method, and program | |
JP7428250B2 (en) | Method, system, and apparatus for evaluating document retrieval performance | |
WO2020262183A1 (en) | Information processing device, information processing method, and program | |
CN113743615A (en) | Feature removal framework to simplify machine learning |