JP2010205189A - Scoring system of search result document, score calculation device, scoring method and scoring program - Google Patents

Scoring system of search result document, score calculation device, scoring method and scoring program Download PDF

Info

Publication number
JP2010205189A
JP2010205189A JP2009052740A JP2009052740A JP2010205189A JP 2010205189 A JP2010205189 A JP 2010205189A JP 2009052740 A JP2009052740 A JP 2009052740A JP 2009052740 A JP2009052740 A JP 2009052740A JP 2010205189 A JP2010205189 A JP 2010205189A
Authority
JP
Japan
Prior art keywords
document
probability
information
occurrence probability
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009052740A
Other languages
Japanese (ja)
Inventor
Takeshi Arikuma
威 有熊
Nobuhisa Shiraishi
展久 白石
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2009052740A priority Critical patent/JP2010205189A/en
Publication of JP2010205189A publication Critical patent/JP2010205189A/en
Pending legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To increase the score of a search result document which is actually required by a user while reducing the score of an improper document, to reduce the manpower and maintenance costs, and to reduce the resources of a storage device and a calculation device. <P>SOLUTION: A scoring system of a search result document includes a score calculation part 8A which estimates the degree of probability that satisfies a user's current search request as a numerical score for each document listed up in the search result provided by a document search part 1 as a response to the user's current search request, based on the occurrence probability 5 that the user select the document as first statistical information, and the conditional occurrence probability 6A of at least one piece of attribute information held by the user or the user's search request when selecting the document as second statistical information, generated from the user's past document selection history 3. <P>COPYRIGHT: (C)2010,JPO&INPIT

Description

この発明は、各検索結果文書について、利用者の検索要求に適合する蓋然性の高さに応じたスコアを算出するスコアリングシステム、スコア算出装置、スコアリング方法、及びスコアリングプログラムに関し、例えば、企業等に設置された業務用の文書検索エンジンと連携して用いて好適である。   The present invention relates to a scoring system, a score calculation device, a scoring method, and a scoring program for calculating a score corresponding to a high probability of conforming to a user's search request for each search result document. It is suitable for use in cooperation with a business document search engine installed in

この種のスコアリングシステムとしては、例えば、第1の関連技術としての特許文献1に記載の検索結果文書の優先順位付与システムや、第2の関連技術としての特許文献2に記載の検索語ランキング算出システム等が知られている。   As this type of scoring system, for example, a priority ranking system for search result documents described in Patent Document 1 as a first related technique, or a search word ranking described in Patent Document 2 as a second related technique. A calculation system or the like is known.

まず、第1の関連技術としての優先順位付与システムは、図14に示すように、ネットワーク21を介して互いに接続される利用者端末22とサーバコンピュータ23とからなる文書検索システムの付随機能として、サーバコンピュータ23に組み込まれている。この優先順位付与システムは、同図に示すように、データ入出力装置24と、データ処理装置25と、記憶装置26とから概略構成されている。   First, as shown in FIG. 14, the prioritization system as the first related technique is an accompanying function of a document search system comprising a user terminal 22 and a server computer 23 connected to each other via a network 21. It is incorporated in the server computer 23. As shown in the figure, this priority order assigning system is roughly composed of a data input / output device 24, a data processing device 25, and a storage device 26.

上記データ処理装置25は、同図に示すように、検索実施部27と、点数計算部28と、データ生成部29と、お気に入りリスト登録部30とから構成されている。上記検索実施部27は、利用者(利用者端末22)からの検索要求に従って、文書検索を実施して、検索結果文書リストを生成して、点数計算部28と記憶装置26(検索元データ保存部31)とに出力する。上記点数計算部28は、検索実施部27から提供される検索結果文書リストに列挙された各文書(以下、検索結果文書ともいう)について、利用者の検索要求に適合する蓋然性(可能性)の高さに応じたスコアリング(点数計算)を行う。データ生成部29は、利用者入力の助けを借りて、順位付けの対象となる文書情報を生成する。お気に入りリスト登録部30は、利用者入力の助けを借りて、順位付けの対象となる文書情報をお気に入りリストに登録する。また、検索実施部27は、各検索結果文書に対して、点数計算部28で得られたスコアの高低に従った優先順位付けを行って、利用者からの上記検索要求に応答する。   The data processing device 25 includes a search execution unit 27, a score calculation unit 28, a data generation unit 29, and a favorite list registration unit 30, as shown in FIG. The search execution unit 27 performs a document search according to a search request from a user (user terminal 22), generates a search result document list, and stores the score calculation unit 28 and the storage device 26 (search source data storage). Part 31). The score calculation unit 28 has a probability (possibility) of matching each user's search request for each document (hereinafter also referred to as a search result document) listed in the search result document list provided from the search execution unit 27. Perform scoring (score calculation) according to the height. The data generation unit 29 generates document information to be ranked with the help of user input. The favorite list registration unit 30 registers document information to be ranked in the favorite list with the help of user input. Further, the search execution unit 27 assigns priorities to each search result document according to the level of the score obtained by the score calculation unit 28, and responds to the search request from the user.

また、上記記憶装置26は、検索の対象となる文書情報や検索結果文書等を保存する検索元データ保存部31と、点数計算部28で点数計算された各検索結果文書のスコア(点数)を保持する計算結果保存部32とを備えている。上記記憶装置26に保存される各種データは、検索実施部27と点数計算部28とによって書き込まれ、必要に応じて、読み出される。   Further, the storage device 26 stores a search source data storage unit 31 that stores document information to be searched, a search result document, and the like, and a score (score) of each search result document calculated by the score calculation unit 28. And a calculation result storage unit 32 to be held. Various data stored in the storage device 26 are written by the search execution unit 27 and the score calculation unit 28, and read out as necessary.

上記構成の優先順位付与システムにおいて、データ入出力装置24が、第1の利用者からの検索要求を受けると、検索実施部27は、検索元データ保存部31に対して文書の検索を実施し、検索結果文書リストを得て、点数計算部28に出力する。点数計算部28は、第1の利用者や第2の利用者が作成・保存している順序付けの対象となる文書情報に基づいて点数計算を行う。この点数計算の際には、検索要求する第1の利用者と、順序付けの対象となる文書情報を作成・保存している第2の利用者とが、検索結果文書に対して有する関連性の有無が判断される。   In the prioritization system configured as described above, when the data input / output device 24 receives a search request from the first user, the search execution unit 27 searches the search source data storage unit 31 for a document. The search result document list is obtained and output to the score calculation unit 28. The score calculation unit 28 performs score calculation based on document information to be ordered and created and stored by the first user and the second user. In this score calculation, the relevance of the search result document between the first user who requests the search and the second user who creates and stores the document information to be ordered. Presence or absence is determined.

この関連性判断では、第1及び第2の利用者が持つ属性情報(例えば、コミュニティ)が一致しているか否かが判断され、判断の結果、一致していれば、「関連性有り」と判断され、一致していなければ、「関連性無し」と判断される。つまり、企業内で稼動する当該システムにあっては、例えば、「所属部署」が同一であるか否か等が判断され、同一であれば、「関連性有り」と判断される。点数計算部28は、「関連性有り」のときは、第2の利用者が作成登録した順序付けの対象となる文書情報に基づいて、検索結果文書に対して、第2の利用者から見たスコアを割り当てて、優先順位を算出する。このとき、第1の利用者も順序付けの対象となる文書情報を作成登録しているときは、点数計算部28は、検索結果文書に対して、第2の利用者から見たスコアを、第1の利用者から見たスコアに加算した値をスコアとして割り当てることで、優先順位を算出する。検索実施部27は、検索結果文書に対するスコアを受け取ると、データ入出力装置24を介して、第1の利用者へ優先順位付きの検索結果を出力する。
このように、第1の関連技術の構成によれば、コミュニティの価値観に従った検索結果文書の優先順位付けを行うことができる。
In this relevance determination, it is determined whether or not the attribute information (for example, community) held by the first and second users is the same, and if the result of the determination is the same, “relevant” is determined. If it is determined that they do not match, it is determined that there is no relevance. That is, in the system operating in the company, for example, it is determined whether or not the “affiliation department” is the same, and if it is the same, it is determined as “relevant”. When the score calculation unit 28 is “relevant”, the score calculation unit 28 viewed the search result document from the second user based on the document information to be ordered and created and registered by the second user. Assign a score and calculate priority. At this time, when the first user also creates and registers the document information to be ordered, the score calculation unit 28 sets the score viewed from the second user for the search result document. The priority is calculated by assigning a value added to the score seen by one user as a score. When the search execution unit 27 receives the score for the search result document, the search execution unit 27 outputs the search result with the priority order to the first user via the data input / output device 24.
Thus, according to the configuration of the first related technology, it is possible to prioritize search result documents according to community values.

次に、第2の関連技術としての上記検索語ランキング算出システムについて説明する。このランキング算出システムは、一定期間に出現する検索語のランキングを算出するもので、ランキング評価値を上げる(又は下げる)第1の値乃至第3の値を定める第1乃至第3の手段と、上記第1乃至第3の値に基づいて、検索語の総合ランキングを定める第4の手段とから構成されている。上記第1の手段は、記憶手段から読み出された検索ログ情報を利用して、ランキング評価期間中に出現する検索語の中で、利用頻度が高い検索語ほど、ランキング評価値を上げる第1の値を生成する。第2の手段は、過去のN期間に遡って多数利用されている検索語(例えば、最近入力回数が単調減少している検索語)ほど、ランキング評価値を下げる第2の値を生成する。第3の手段は、最近の利用が多い検索語(例えば、最近入力回数が単調増加している検索語)ほど、ランキング評価値を上げる第3の値を生成する。   Next, the search word ranking calculation system as a second related technique will be described. The ranking calculation system calculates the ranking of search terms that appear in a certain period, and includes first to third means for determining first to third values that increase (or decrease) a ranking evaluation value; And a fourth means for determining an overall ranking of search terms based on the first to third values. The first means uses the search log information read from the storage means to increase a ranking evaluation value for a search word having a higher use frequency among search words appearing during the ranking evaluation period. Generate the value of. A 2nd means produces | generates the 2nd value which lowers a ranking evaluation value, so that the search word (for example, the search word in which the frequency | count of the recent input is monotonously decreasing) used many retroactively in the past N period. The third means generates a third value that increases the ranking evaluation value for a search term that has been recently used frequently (for example, a search term whose number of recent inputs has monotonously increased).

この第2の関連技術の構成によれば、長時間出現し続ける検索語よりも新しく出現した検索語のランキング表価値が高くなる(上位にランクされる)ので、最近入力頻度が増加傾向にある検索語、すなわち、これから話題となるであろうと推測できる検索語のランキングを上げることが可能となり、それゆえ、時代を反映したトレンド情報を利用者に提供することができる。   According to the configuration of the second related technique, the value of the search table that newly appears is higher (ranked higher) than the search term that continues to appear for a long time, and thus the input frequency tends to increase recently. It is possible to increase the ranking of search words, that is, search words that can be presumed to become a topic in the future. Therefore, trend information reflecting the times can be provided to the user.

特開2008−225792号公報JP 2008-225792 A 特開2005−309760号公報JP 2005-309760 A

しかしながら、上記第1の関連技術にあっては、人手を使って作成登録された文書情報に頼って、優先順位の付与を行うシステム構成であるため、優先順位付与の的中率が作成登録者の経験や資質の影響を受け易い、という問題がある。
もしも、未熟者が優先順位付与用の文書情報を作成するなら、個人的嗜好性の強い文書情報(すなわち、コミュニティ色の薄い文書情報)が混入し、誤った文書が上位にランクされる虞があるので、問題である。これを回避するためには、文書情報作成の熟練者又は専門家の確保が必要となるので、維持コストの高騰化を避けることができず、不都合である。
また、人手による、順位付けの対象となる文書の選択抽出処理、及び当該文書情報の作成登録処理が不可欠である上、業務内容の推移に伴う対象文書の変更の度に、更新処理も余儀なくされるため、処理が煩雑であり、多大な作業時間も要する、という欠点もある。
However, in the first related technology, since the system configuration assigns priorities by relying on document information created and registered by hand, the target ratio of priority assignment is the creation registrant. There is a problem of being easily affected by the experience and qualities of
If the inexperienced person creates document information for assigning priorities, there is a possibility that document information with a strong personal preference (that is, document information with a light community color) is mixed and an erroneous document is ranked higher. So there is a problem. In order to avoid this, it is necessary to secure an expert or expert of document information creation, which is inconvenient because an increase in maintenance cost cannot be avoided.
In addition, manual selection and extraction processing of documents to be ranked and creation / registration processing of the document information are indispensable, and every time the target document is changed due to the transition of business contents, update processing is also forced. Therefore, there are also disadvantages that the process is complicated and requires a lot of work time.

加えて、第1の関連技術が、企業内システムとして運用されるためには、少なくとも属性値(所属部署)の数だけ、各属性との関連性の強い、順位付けの対象となる文書情報の生成登録処理が必要となる。しかし、属性値の数に応じた登録文書情報の増加は、記憶装置資源の利用効率上好ましくない。とりわけ、部課係り等の属性値の分化・特化が進行する程、登録文書情報及び担当管理者の人員も増加するので、記憶装置及び計算装置資源の利用の効率化を阻害し、ひいては、記憶装置及び計算装置資源の増大化を招く、という不具合もある。   In addition, in order for the first related technology to be operated as an in-house system, at least the number of attribute values (affiliated departments) has a strong relationship with each attribute, and the document information to be ranked. Generation registration processing is required. However, an increase in registered document information corresponding to the number of attribute values is not preferable in terms of utilization efficiency of storage device resources. In particular, as the attribute values such as departmental staff are differentiated and specialized, the number of registered document information and the number of managers in charge increases, which hinders efficient use of storage devices and computing device resources, and in turn There is also a problem that the resources of the apparatus and the computing apparatus are increased.

一方、上記第2の関連技術にあっては、企業内部署等の属性が判断されないため、特定部署では有意義な検索語でも、他の部署では、不適合検索語(ノイズ)と判断されてしまう虞がある。また、役割分担が、ある部署から他の部署に移管されたことにより、他の部署では、最近入力頻度が増加する傾向にあるが、ある部署では、最近入力頻度が減少する傾向にある検索語が多々出現する場合が起こり得る。このような場合、ある部署から見れば、重要ではなくなった検索語(最近入力頻度が減少する傾向にある検索語)が上位のランクに留まる虞があるので、不都合である。一方、他の部署から見れば、これから重要性が増す検索語(最近入力頻度が増加する傾向にある検索語)が思うように上位にランクされてこない虞があるので、この場合もやはり不都合である。さらに、不適合検索語(ノイズ)の入力頻度が増加するトラブルが一旦発生すると、システムは、この不適合検索語を、これから話題となるであろう検索語であると誤判断するので、不適合検索語が益々上位にランキングされるという、不具合もある。   On the other hand, in the second related technology, since attributes such as departments in a company are not judged, there is a possibility that even a meaningful search word in a specific department may be judged as a non-conforming search word (noise) in other departments. There is. In addition, because the division of roles has been transferred from one department to another, search terms tend to increase recently in other departments, but tend to decrease recently in other departments. May occur in many cases. In such a case, it is inconvenient because a search term that is no longer important (a search term that tends to decrease recently input frequency) may remain in a higher rank from a certain department. On the other hand, from the viewpoint of other departments, there is a risk that search terms that will increase in importance (search terms that tend to increase recently) may not be ranked higher as expected. is there. Furthermore, once a trouble that increases the input frequency of non-conforming search words (noise) occurs, the system erroneously determines that this non-conforming search word is a search word that will become a topic in the future. There is also a problem that it is ranked higher and higher.

この発明は、上述の事情に鑑みてなされたもので、利用者が真に必要とする検索結果文書のスコアを高くし、不適合文書(ノイズ)のスコアを低くすることができる、使い勝手の良い検索結果文書のスコアリングシステム、スコア算出装置、スコアリング方法、及びスコアリングプログラムを提供することを第1の目的としている。
また、この発明は、労力及び維持コストの軽減化を達成でき、かつ、記憶装置及び計算装置資源の削減化を図ることができる検索結果文書のスコアリングシステム、スコア算出装置、スコアリング方法、及びスコアリングプログラムを提供することを第2の目的としている。
The present invention has been made in view of the above circumstances, and is an easy-to-use search that can increase the score of a search result document that a user really needs and can decrease the score of a nonconforming document (noise). It is a first object of the present invention to provide a result document scoring system, a score calculation device, a scoring method, and a scoring program.
The present invention also provides a search result document scoring system, a score calculation device, a scoring method, which can achieve a reduction in labor and maintenance costs, and can reduce storage devices and computing device resources, and The second object is to provide a scoring program.

上記課題を解決するために、この発明の第1の構成は、検索結果文書のスコアリングシステムに係り、利用者の今回の検索要求に対する応答として、文書検索手段から提供される各検索結果文書について、利用者の今回の検索要求に適合する蓋然性の程度を推定し、スコアとして数値化するスコア算出手段を備えている。
このスコア算出手段は、各検索結果文書について、利用者の過去の文書選択履歴からそれぞれ生成された、第1の統計情報と第2の統計情報とに基づいて、スコアを算出する。第1の統計情報は、利用者による当該文書選択の発生確率に関する情報であり、第2の統計情報は、当該文書を選択する際の今回の利用者又はその検索要求が持つ、少なくとも一の属性情報の条件付発生確率に関する情報である。
ここで、第2の統計情報である、上記属性情報の条件付発生確率とは、例えば、検索対象の文書毎に、かつ、当該文書を選択する際の利用者又はその検索要求が持つ少なくとも一の属性について、該属性が各属性値を取る確率であると定義される。
In order to solve the above-described problem, a first configuration of the present invention relates to a search result document scoring system, and for each search result document provided from a document search means as a response to a user's current search request. , A score calculation means for estimating the degree of probability that matches the user's current search request and digitizing the score is provided.
The score calculation means calculates a score for each search result document based on the first statistical information and the second statistical information respectively generated from the user's past document selection history. The first statistical information is information regarding the probability of occurrence of the document selection by the user, and the second statistical information is at least one attribute of the current user or the search request when the document is selected. It is information regarding the conditional occurrence probability of information.
Here, the conditional occurrence probability of the attribute information, which is the second statistical information, is, for example, at least one for each search target document and the user or the search request for selecting the document. Is defined as the probability that the attribute takes each attribute value.

この発明の第2の構成は、検索結果文書のスコア算出装置に係り、利用者の今回の検索要求に対する応答として、文書検索手段から提供される各検索結果文書について、利用者の今回の検索要求に適合する蓋然性の程度を推定し、スコアとして数値化する。
このスコア算出装置は、各検索結果文書について、利用者の過去の文書選択履歴からそれぞれ生成された、第1の統計情報と第2の統計情報とに基づいて、スコアを算出する。第1の統計情報は、利用者による当該文書選択の発生確率に関する情報であり、第2の統計情報は、当該文書を選択する際の今回の利用者又はその検索要求が持つ、少なくとも一の属性情報の条件付発生確率に関する情報である。
The second configuration of the present invention relates to a score calculation device for a search result document. As a response to the user's current search request, the user's current search request is provided for each search result document provided from the document search means. Estimate the degree of probability of conforming to, and digitize as a score.
The score calculation device calculates a score for each search result document based on the first statistical information and the second statistical information respectively generated from the user's past document selection history. The first statistical information is information regarding the probability of occurrence of the document selection by the user, and the second statistical information is at least one attribute of the current user or the search request when the document is selected. It is information regarding the conditional occurrence probability of information.

また、この発明の第3の構成は、検索結果文書のスコアリング方法に係り、利用者の今回の検索要求に対する応答として、文書検索手段から提供される各検索結果文書について、利用者の今回の検索要求に適合する蓋然性の程度を推定し、スコアとして数値化するスコア算出ステップを有している。
このスコア算出ステップでは、各検索結果文書について、利用者の過去の文書選択履歴からそれぞれ生成した、第1の統計情報と第2の統計情報とに基づいて、スコアを算出する。第1の統計情報は、利用者による当該文書選択の発生確率に関する情報であり、第2の統計情報は、当該文書を選択する際の今回の利用者又はその検索要求が持つ、少なくとも一の属性情報の条件付発生確率に関する情報である。
A third configuration of the present invention relates to a search result document scoring method, wherein the user's current search request is provided for each search result document provided by the document search means as a response to the user's current search request. It has a score calculation step for estimating the probability of conformity to the search request and digitizing it as a score.
In this score calculation step, a score is calculated for each search result document based on the first statistical information and the second statistical information generated from the user's past document selection history. The first statistical information is information regarding the probability of occurrence of the document selection by the user, and the second statistical information is at least one attribute of the current user or the search request when the document is selected. It is information regarding the conditional occurrence probability of information.

また、この発明の第4の構成は、検索結果文書のスコアリングプログラムに係り、コンピュータに、利用者の今回の検索要求に対する応答として、文書検索手段から提供される各検索結果文書について、利用者の今回の検索要求に適合する蓋然性の程度を推定し、スコアとして数値化するスコア算出処理を実行させる。
このスコア算出処理では、各検索結果文書について、利用者の過去の文書選択履歴からそれぞれ生成した、第1の統計情報と第2の統計情報とに基づいて、スコアを算出する。第1の統計情報は、利用者による当該文書選択の発生確率に関する情報であり、第2の統計情報は、当該文書を選択する際の今回の利用者又はその検索要求が持つ、少なくとも一の属性情報の条件付発生確率に関する情報である。
According to a fourth aspect of the present invention, there is provided a scoring program for a search result document, wherein the user is provided with respect to each search result document provided from the document search means as a response to the user's current search request. The degree of probability that matches the current search request is estimated, and a score calculation process is performed to quantify the score.
In this score calculation process, for each search result document, a score is calculated based on the first statistical information and the second statistical information respectively generated from the user's past document selection history. The first statistical information is information regarding the probability of occurrence of the document selection by the user, and the second statistical information is at least one attribute of the current user or the search request when the document is selected. It is information regarding the conditional occurrence probability of information.

この発明の構成によれば、各検索結果文書について、利用者の過去の文書選択履歴から生成される、2以上の確率情報に基づいて、利用者の検索要求に適合する蓋然性の程度を推定し、スコアとして数値化するので、検索結果文書に対する優先順位付けの的中率の向上を図ることができる。ここで、2以上の確率情報とは、互いに業務上の関連性が高いと考えられる、利用者による当該文書選択の発生確率と、少なくとも一のクエリー属性情報の条件付発生確率であるので、例えば、これらの確率を積算統合処理すると、確率の精度を著しく高めることができる。それゆえ、利用者が真に必要とする検索結果文書のスコアを高くする一方、不適合文書(ノイズ)のスコアを低くすることができる。ここで、クエリー属性情報とは、検索結果文書を選択する際の利用者又はその検索要求が持つ各属性情報の条件付発生確率(例えば、属性毎に各属性値が取る確率)のことである。   According to the configuration of the present invention, for each search result document, based on two or more pieces of probability information generated from the user's past document selection history, the degree of probability that matches the user's search request is estimated. Since it is digitized as a score, it is possible to improve the hit rate of prioritizing search result documents. Here, the probability information of two or more is the occurrence probability of the document selection by the user, which is considered to be highly related to each other, and the conditional occurrence probability of at least one query attribute information. If these probabilities are integrated and integrated, the accuracy of the probabilities can be significantly increased. Therefore, the score of the search result document that the user really needs can be increased while the score of the nonconforming document (noise) can be decreased. Here, the query attribute information is the conditional occurrence probability (for example, the probability that each attribute value takes for each attribute) of each attribute information that the user or the search request has when selecting a search result document. .

この発明は、文書検索手段から提供される上記検索結果に基づく利用者の過去の文書選択履歴を格納する文書選択履歴格納部と、上記文書選択履歴格納部から文書選択履歴を読み出して、2以上の確率情報を生成する確率情報生成手段とを具備することができる。このようにすれば、人手による分散登録業務を廃することができるので、労力及び維持コストの軽減化を達成でき、かつ、記憶装置及び計算装置資源の削減化も図ることができるので、使い勝手の良いシステム環境を具現できる。   According to the present invention, a document selection history storage unit for storing a user's past document selection history based on the search result provided from the document search means, and reading out the document selection history from the document selection history storage unit, two or more Probability information generating means for generating the probability information. In this way, it is possible to eliminate manual distributed registration work, so that it is possible to achieve a reduction in labor and maintenance costs, and also to reduce storage devices and computing device resources. A good system environment can be realized.

この発明の第1の実施形態である検索結果文書のスコアリングシステムの構成を示すブロック図である。1 is a block diagram showing a configuration of a search result document scoring system according to a first embodiment of the present invention. FIG. 同スコアリングシステムを構成する文書選択履歴DBに設定されている文書選択履歴情報テーブルの一例を模式的に示す概念図である。It is a conceptual diagram which shows typically an example of the document selection log | history information table set to document selection log | history DB which comprises the scoring system. 同スコアリングシステムを構成する文書発生確率DBに設定されている文書選択の発生確率テーブルの一例を模式的に示す概念図である。It is a conceptual diagram which shows typically an example of the occurrence probability table of the document selection set to document occurrence probability DB which comprises the same scoring system. 同スコアリングシステムを構成する属性条件付発生確率DBに設定されている各種属性の条件付発生確率テーブルの例を模式的に示す概念図である。It is a conceptual diagram which shows typically the example of the conditional occurrence probability table of the various attributes set in the attribute conditional occurrence probability DB which comprises the scoring system. 同スコアリングシステムを構成するスコア算出部が実行するスコア算出処理の動作手順を示すフローチャートである。It is a flowchart which shows the operation | movement procedure of the score calculation process which the score calculation part which comprises the scoring system performs. 同スコアリングシステムを構成する確率DB生成部が各種確率DBに対して実行する確率DB更新処理の動作手順を示すフローチャートである。It is a flowchart which shows the operation | movement procedure of the probability DB update process which the probability DB production | generation part which comprises the scoring system performs with respect to various probability DB. 同確率DB生成部を構成する旧発生確率の重み算出部で実行される重み計算処理を説明するためのグラフ曲線図である。It is a graph curve figure for demonstrating the weight calculation process performed in the weight calculation part of the old occurrence probability which comprises the same probability DB production | generation part. この発明の第2の実施形態である検索結果文書のスコアリングシステムの構成を示すブロック図である。It is a block diagram which shows the structure of the scoring system of the search result document which is 2nd Embodiment of this invention. 同スコアリングシステムを構成する属性発生確率DBに設定されている各種属性の発生確率テーブルの一例を模式的に示す概念図である。It is a conceptual diagram which shows typically an example of the generation probability table of various attributes set in attribute generation probability DB which comprises the scoring system. 同スコアリングシステムを構成する属性条件付発生確率DBに設定されている各種属性の条件付発生確率テーブルの一例を模式的に示す概念図である。It is a conceptual diagram which shows typically an example of the conditional occurrence probability table of the various attributes set in attribute conditional occurrence probability DB which comprises the scoring system. 同スコアリングシステムを構成するスコア算出部が実行するスコア算出処理の動作手順を示すフローチャートである。It is a flowchart which shows the operation | movement procedure of the score calculation process which the score calculation part which comprises the scoring system performs. 同スコアリングシステムを構成する確率DB生成部が各種確率DBに対して実行する確率DB更新処理の動作手順を示すフローチャートである。It is a flowchart which shows the operation | movement procedure of the probability DB update process which the probability DB production | generation part which comprises the scoring system performs with respect to various probability DB. 第2の実施形態の変形例である検索結果文書のスコアリングシステムの構成を示すブロック図である。It is a block diagram which shows the structure of the scoring system of the search result document which is a modification of 2nd Embodiment. 第1の関連技術としての優先順位付与システムの電気的構成を概略示すブロック図である。1 is a block diagram schematically showing an electrical configuration of a priority assignment system as a first related technique. FIG.

この発明の実施形態について、概説すると、上記目的を達成するために、文書検索部1から提供される検索結果に基づく利用者の過去の文書選択履歴を格納する文書選択履歴DB(データベース)4を備えるのが好ましい。
さらに、文書選択履歴DB3から読み出された文書選択履歴に基づいて、文書毎に、利用者による各文書選択の発生確率(第1の統計情報)と、各クエリー属性値の条件付発生確率(第2の統計情報)とを生成する確率DB生成部7Aを備えるのが好ましい。
さらに、確率DB生成部7Aにて生成された、上記文書選択の発生確率を格納する文書発生確率DB(データベース)5と、上記各クエリー属性値の条件付発生確率を格納する属性条件付発生確率DB(データベース)6Aとを備えるのが好ましい。
An outline of the embodiment of the present invention is as follows. In order to achieve the above object, a document selection history DB (database) 4 for storing a user's past document selection history based on a search result provided from the document search unit 1 is provided. It is preferable to provide.
Further, on the basis of the document selection history read from the document selection history DB 3, for each document, the occurrence probability of each document selection by the user (first statistical information) and the conditional occurrence probability of each query attribute value ( It is preferable to include a probability DB generation unit 7A that generates (second statistical information).
Furthermore, a document occurrence probability DB (database) 5 that stores the occurrence probability of the document selection generated by the probability DB generation unit 7A, and an attribute conditional occurrence probability that stores the conditional occurrence probability of each query attribute value. It is preferable to include a DB (database) 6A.

スコア算出部8Aは、文書検索部1によって検索された各検索結果文書について、各発生確率DB5、6Aとから、当該文書選択の発生確率と、少なくとも一のクエリー属性値の条件付発生確率とを読み出してスコア計算を行う。このスコア計算では、各検索結果文書について、利用者による当該文書選択の発生確率と、少なくとも一のクエリー属性値の条件付発生確率との積算統合処理を実行して、利用者の今回の検索要求に適合する蓋然性の程度に応じたスコアを算出し、スコア又は優先順位を付した検索結果文書リストを文書検索部1に返却する。   The score calculation unit 8A obtains the occurrence probability of the document selection and the conditional occurrence probability of at least one query attribute value from the occurrence probability DBs 5 and 6A for each search result document searched by the document search unit 1. Read out and calculate the score. In this score calculation, for each search result document, a cumulative integration process of the occurrence probability of the document selection by the user and the conditional occurrence probability of at least one query attribute value is executed, and the user's current search request The score corresponding to the probability of conforming to is calculated, and the search result document list with the score or priority is returned to the document search unit 1.

実施形態1Embodiment 1

以下、図面を参照して、この発明の実施形態について詳細に説明する。
図1は、この発明の第1の実施形態である検索結果文書のスコアリングシステムの構成を示すブロック図である。
この実施形態のスコアリングシステムは、業務用文書検索システム(文書検索部1)と連携して用いて好適なもので、同図に示すように、利用者の行動履歴取得部2と、文書選択履歴DB3と、文書スコアリング部4Aとから概略構成されている。ここで、業務とは、多数の所属部署や所属グループから構成される企業、団体、官公庁、組織体、コミュニティ(以下、企業という)で、営利、非営利を問わず、所定の目的を達成するための営みを含む広い概念である。
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
FIG. 1 is a block diagram showing the configuration of a search result document scoring system according to the first embodiment of the present invention.
The scoring system of this embodiment is suitable for use in cooperation with a business document search system (document search unit 1), and as shown in FIG. The history DB 3 and the document scoring unit 4A are roughly configured. Here, a business is a company, organization, government office, organization, or community (hereinafter referred to as a company) composed of many departments or groups, and achieves a predetermined purpose regardless of profit or non-profit. It is a broad concept that includes the work for.

文書検索部1は、図示せぬ利用者端末からの検索要求を受付け、検索対象の文書の中から該当文書を検索して、検索結果文書リストを生成し、生成した検索結果文書リストをクエリー属性と併せて文書スコアリング部4Aへ渡す。文書検索部1は、文書スコアリング部4Aから、スコア付きの検索結果文書リストを取得すると、検索結果文書リストをスコア順に並び替えて利用者端末の表示部に表示する。   The document search unit 1 receives a search request from a user terminal (not shown), searches for a corresponding document from search target documents, generates a search result document list, and uses the generated search result document list as a query attribute. Together with the document scoring unit 4A. When the document search unit 1 acquires a search result document list with scores from the document scoring unit 4A, the document search unit 1 rearranges the search result document list in the order of score and displays the list on the display unit of the user terminal.

行動履歴取得部2は、文書検索部1から提供される検索結果文書リストに表示された各文書に対して、例えば、「所属」や「キーワード」等の各種クエリー属性値と併せて取得する。ここで、利用者が取る反応とは、例えば、表示された検索結果文書リストの中から所望の検索結果文書を広い意味で「選択」する行為のことであり、例えば、クリックする反応、閲覧する反応、ダウンロードする反応、及びお気に入りリストに登録する反応等は、利用者の反応、すなわち、選択行為に含まれる。   The behavior history acquisition unit 2 acquires each document displayed in the search result document list provided from the document search unit 1 together with various query attribute values such as “affiliation” and “keyword”. Here, the reaction that the user takes is, for example, an act of “selecting” a desired search result document in a broad sense from the displayed search result document list. The reaction, the reaction to download, the reaction to be registered in the favorites list, etc. are included in the user's reaction, that is, the selection action.

文書選択履歴DB3は、行動履歴取得部2から随時入力される利用者の行動情報を利用者の過去の文書選択履歴情報としてテーブル形式に蓄積する記憶部である。
ここで、利用者の行動情報とは、例えば、各種クエリー属性値や、検索結果文書に対する利用者の反応情報や、利用者やその反応時の情況に関する情報(例えば、利用者名)等である。上記文書選択履歴DB3には、文書選択履歴情報テーブルTA(図2)が設定されていて、この文書選択履歴情報テーブルTAの中に、上述の各種クエリー属性値と、検索結果文書に対する利用者の反応情報と、利用者やその反応時の情況に関する情報とが対応付けされて記憶されている。
The document selection history DB 3 is a storage unit that accumulates user behavior information input as needed from the behavior history acquisition unit 2 in a table format as past document selection history information of the user.
Here, the user behavior information is, for example, various query attribute values, user reaction information with respect to the search result document, information on the user and the situation at the time of the reaction (for example, user name), and the like. . In the document selection history DB 3, a document selection history information table TA (FIG. 2) is set. In the document selection history information table TA, the above-described various query attribute values and user's information for the search result document are stored. Reaction information and information on the user and the situation at the time of the reaction are stored in association with each other.

上記文書スコアリング部4Aは、図1に示すように、文書発生確率DB5と、属性条件付発生確率DB6Aと、確率DB生成部7Aと、スコア算出部8Aとから構成され、これらの構成各部は、コンピュータが、各種プログラム(例えば、確率DB生成プログラム、スコア算出プログラム等)の制御の下で動作することで具現される。   As shown in FIG. 1, the document scoring unit 4A includes a document occurrence probability DB 5, an attribute conditional occurrence probability DB 6A, a probability DB generation unit 7A, and a score calculation unit 8A. The computer is embodied by operating under the control of various programs (for example, a probability DB generation program, a score calculation program, etc.).

文書発生確率DB5は、文書選択の発生確率テーブルTB(図3)を備え、利用者の過去の文書選択履歴から生成された、第1の統計情報としての、利用者による各文書選択の発生確率(各文書の選択確率)をテーブル形式で格納する。また、属性条件付発生確率DB6Aは、各種属性の条件付発生確率テーブルTS1、TK1(図4)を備え、利用者の過去の文書選択履歴から生成された、第2の統計情報としての、各クエリー属性値の条件付発生確率をテーブル形式で格納する。ここで、クエリー属性値の条件付発生確率とは、文書毎のクエリー属性値の発生確率を意味してる。   The document occurrence probability DB 5 includes a document selection occurrence probability table TB (FIG. 3), and the occurrence probability of each document selection by the user as the first statistical information generated from the user's past document selection history. (Selection probability of each document) is stored in a table format. The attribute conditional occurrence probability DB 6A includes conditional occurrence probability tables TS1 and TK1 (FIG. 4) of various attributes, and each of the second statistical information generated from the user's past document selection history Stores conditional occurrence probability of query attribute value in table format. Here, the conditional occurrence probability of the query attribute value means the occurrence probability of the query attribute value for each document.

上記確率DB生成部7Aは、文書発生確率DB5及び属性条件付発生確率DB6Aに格納される各種統計情報(発生確率)を生成/更新するデータ処理部であり、同図に示すように、文書選択履歴取得部9aと、発生確率算出部10aと、発生確率統合部11aと、旧発生確率の重み算出部12aとから概略構成されている。文書選択履歴取得部9aは、過去一定期間毎に、文書選択履歴DB3に格納されている文書選択履歴情報を参照して、文書(文書識別子)毎に、利用者による各文書選択の発生頻度と、各属性値の(文書毎)条件付発生頻度とを取得して発生確率算出部10aに供給する。   The probability DB generation unit 7A is a data processing unit that generates / updates various statistical information (occurrence probabilities) stored in the document occurrence probability DB 5 and the attribute conditional occurrence probability DB 6A. As shown in FIG. A history acquisition unit 9a, an occurrence probability calculation unit 10a, an occurrence probability integration unit 11a, and an old occurrence probability weight calculation unit 12a are schematically configured. The document selection history acquisition unit 9a refers to the document selection history information stored in the document selection history DB 3 for each past fixed period, and determines the occurrence frequency of each document selection by the user for each document (document identifier). The conditional occurrence frequency (for each document) of each attribute value is acquired and supplied to the occurrence probability calculation unit 10a.

発生確率算出部10aは、文書選択履歴取得部9aから供給される文書選択の発生頻度情報に基づいて、当該過去一定期間に亘る、利用者による各文書選択の発生確率(第1の統計情報)を算出する。また、発生確率算出部10aは、文書選択履歴取得部9aから供給される各クエリー属性値の(文書毎)条件付発生頻度に基づいて、当該過去一定期間に亘る、各クエリー属性値の(文書毎)条件付発生確率(第2の統計情報)を算出する。ここで、クエリー属性(属性値)とは、検索結果文書を選択する際の利用者又はその検索要求が持つ属性情報を意味し、クエリー属性値の条件付発生確率とは、あるクエリー属性について、該クエリー属性が所定の属性値を取る確率であると定義される。   The occurrence probability calculation unit 10a is based on the document selection occurrence frequency information supplied from the document selection history acquisition unit 9a, and the occurrence probability (first statistical information) of each document selection by the user over the past certain period. Is calculated. In addition, the occurrence probability calculation unit 10a determines the (document) of each query attribute value for the past certain period based on the conditional occurrence frequency (for each document) of each query attribute value supplied from the document selection history acquisition unit 9a. Every) A conditional occurrence probability (second statistical information) is calculated. Here, the query attribute (attribute value) means attribute information of the user or the search request when selecting the search result document, and the conditional occurrence probability of the query attribute value is about a certain query attribute. It is defined that the query attribute is the probability of taking a predetermined attribute value.

発生確率統合部11aは、文書毎に、文書発生確率DB5に格納されている更新前の文書選択の発生確率(以下、旧発生確率という)X1aと、発生確率算出部10aで算出された文書選択の発生確率X1b(以下、新発生確率という)とを統合し、統合値X1で文書発生確率DB5の旧発生確率X1aを更新する。また、発生確率統合部11aは、文書毎に、属性条件付発生確率DB6Aに格納されている各クエリー属性値の旧条件付発生確率X2aと、発生確率算出部10aで算出された該当新条件付発生確率X2bとを統合し、統合値X2で、属性条件付発生確率DB6Aの旧条件付発生確率X2aを更新する。   The occurrence probability integration unit 11a, for each document, the occurrence probability of document selection before update (hereinafter referred to as old occurrence probability) X1a stored in the document occurrence probability DB 5 and the document selection calculated by the occurrence probability calculation unit 10a. Occurrence probability X1b (hereinafter referred to as new occurrence probability) is updated, and the old occurrence probability X1a of the document occurrence probability DB5 is updated with the integrated value X1. Further, the occurrence probability integration unit 11a has, for each document, the old conditional occurrence probability X2a of each query attribute value stored in the attribute conditional occurrence probability DB 6A and the corresponding new conditional calculation calculated by the occurrence probability calculation unit 10a. The occurrence probability X2b is integrated, and the old conditional occurrence probability X2a of the attribute conditional occurrence probability DB6A is updated with the integrated value X2.

重み算出部12aは、発生確率統合部11aが新旧発生確率を統合する際に用いる、更新前の旧発生確率(文書選択の旧発生確率X1aや各クエリー属性値の旧条件付発生確率X2a)の重みを、式(3)で示される関数モデル(後述)を使って算出する。   The weight calculation unit 12a is used when the occurrence probability integration unit 11a integrates the new and old occurrence probabilities before update (the old occurrence probability X1a of document selection and the old conditional occurrence probability X2a of each query attribute value). The weight is calculated using a function model (described later) represented by Expression (3).

スコア算出部8Aは、利用者の今回の検索要求に対する応答として、文書検索エンジンから提供される検索結果に列挙された各文書(検索結果文書)について、利用者の今回の検索要求に適合する蓋然性の程度(検索要求との関連性の程度)を推定し、蓋然性の高さに応じたスコアを算出する。具体的に言えば、スコア算出部8Aは、文書発生確率DB5に格納されている、利用者による当該文書選択の発生確率と、属性条件付発生確率DB6Aに格納されている、少なくとも一のクエリー属性値の条件付発生確率とを積算統合処理することで、検索要求に適合する蓋然性の高さをスコアとして数値化する。
換言すれば、共通のクエリー属性値に対して複数の検索結果文書が存在するときは、スコア算出部8Aによって、共通のクエリー属性値における各検索結果文書のスコアが算出されるので、共通のクエリー属性値における各検索結果文書の優先順位が決定されることになる。
As a response to the user's current search request, the score calculation unit 8A has a probability of matching the user's current search request with respect to each document (search result document) listed in the search results provided from the document search engine. Is estimated (degree of relevance to the search request), and a score corresponding to the high probability is calculated. More specifically, the score calculation unit 8A includes at least one query attribute stored in the document occurrence probability DB 5 and stored in the attribute conditional occurrence probability DB 6A. By integrating and integrating the conditional occurrence probability of the value, the probability of matching the search request is quantified as a score.
In other words, when there are a plurality of search result documents for the common query attribute value, the score calculation unit 8A calculates the score of each search result document in the common query attribute value. The priority of each search result document in the attribute value is determined.

次に、図2乃至図4を参照して、文書選択履歴DB3、文書発生確率DB5、及び属性条件付発生確率DB6Aの構成について詳述する。
まず、図2を参照して、文書選択履歴DB3について詳述する。
図2は、文書選択履歴DB3に設定されている文書選択履歴情報テーブルTAの一例を模式的に示す概念図である。
文書選択履歴情報テーブルTAには、図2に示すように、日時と、利用者名と、文書識別子と、文書識別子が示す文書を選択した際の、利用者及びその検索要求が持つ各種クエリー属性(属性値)とが、対応付けられて表形式にまとめられている。
ここで、「日時」の列項目には、利用者が取った反応の発生日時(例えば、発生年月日時分秒)が、文字列や、URL、特徴量等を用いて記述される。「利用者名」の列項目は、利用者やその反応時の情況に関する情報の一例であり、クエリー属性には含まれない補完情報として設定されている。利用者名は、例えば、文字列(氏名)や、数値又は数値と文字列との組合せ(社員番号)を用いて記述される。
Next, the configuration of the document selection history DB 3, the document occurrence probability DB 5, and the attribute conditional occurrence probability DB 6A will be described in detail with reference to FIGS.
First, the document selection history DB 3 will be described in detail with reference to FIG.
FIG. 2 is a conceptual diagram schematically showing an example of the document selection history information table TA set in the document selection history DB 3.
In the document selection history information table TA, as shown in FIG. 2, the user and various query attributes included in the search request when the date, user name, document identifier, and document indicated by the document identifier are selected. (Attribute values) are associated with each other and summarized in a table format.
Here, in the column item “date and time”, the occurrence date and time (for example, the date and time of occurrence) of the reaction taken by the user is described using a character string, URL, feature amount, and the like. The column item “user name” is an example of information on the user and the situation at the time of the reaction, and is set as complementary information not included in the query attribute. The user name is described using, for example, a character string (name) or a numerical value or a combination of a numerical value and a character string (employee number).

クエリー属性とは、利用者及びその検索要求が持つDBアクセス用のメタ情報を表すものである。文書選択履歴情報テーブルTAには、図2に示すように、利用者が持つクエリー属性として、「所属」が例示され、利用者の検索要求が持つクエリー属性として、「キーワード」が例示されている。クエリー属性「所属」には、例えば、同図に示すように、各利用者が所属する「本社」、「支社1」、「支社2」等のクエリー属性値が記述され、また、クエリー属性「キーワード」には、「トップページ」、「入退場申請」等のクエリー属性値が記述される。   The query attribute represents meta information for DB access included in the user and the search request. In the document selection history information table TA, as shown in FIG. 2, “affiliation” is exemplified as a query attribute possessed by a user, and “keyword” is exemplified as a query attribute possessed by a user search request. . In the query attribute “affiliation”, for example, as shown in the figure, query attribute values such as “head office”, “branch office 1”, “branch office 2” to which each user belongs are described. In the “keyword”, query attribute values such as “top page” and “entrance / exit application” are described.

また、文書識別子は、利用者が選択した文書を特定するためのもので、図2には、文書の「標題」や「見出し」等の文字列からなる識別子、すなわち、「本社入退場申請」、「全社共通トップページ」、「支社2入退場申請」が例示されている。なお、利用者の選択文書を他の文書から識別できるものである限り、「標題」や「見出し」以外の文字列でも良く、あるいは、文字列に代えて、例えば、URL(Uniform Resource Locator)、や、文書の特徴量を文書識別子として用いることもできる。   The document identifier is for specifying the document selected by the user. FIG. 2 shows an identifier consisting of a character string such as “title” or “heading” of the document, ie, “head office entry / exit application”. “Top page common to all companies” and “Application for entering and leaving branch office 2” are exemplified. As long as the user's selected document can be identified from other documents, a character string other than “title” and “heading” may be used. Alternatively, for example, a URL (Uniform Resource Locator), Alternatively, document feature quantities can be used as document identifiers.

上記を踏まえて、文書選択履歴情報テーブルTA(図2)を参照すると、その第1行目の欄には、2008年10月1日に、「入退場申請」のキーワードで検索要求した「本社」所属の利用者Aが、検索結果文書リストを閲覧しながら、12時35分22秒に、「本社入退場申請」の文書を選択(「本社入退場申請」に反応)した、という記録が例示されている。次に、その第2行目の欄には、2008年10月5日に、「トップページ」のキーワードで検索要求した「支社1」所属の利用者Bが、検索結果文書リストを閲覧しながら、8時15分05秒に、「全社共通トップページ」の文書を選択した、という記録が例示されている。次に、その第3行目の欄には、2008年10月6日に、「入退場申請」のキーワードで検索要求した「支社2」所属の利用者Cが、検索結果文書リストを閲覧しながら、18時22分01秒に、「支社2入退場申請」の文書を選択した、という記録が例示されている。   Based on the above, referring to the document selection history information table TA (FIG. 2), in the column of the first row, “Headquarters” requested to search with the keyword “application for entry / exit” on October 1, 2008. A record that user A belonging to A selected the document “Application for entry / exit of headquarters” at 12:35:22 while browsing the search result document list (reacted to “application for entrance / exit of headquarters”). Illustrated. Next, in the column of the second row, on October 5, 2008, the user B belonging to “Branch 1” who requested the search with the keyword “Top Page” browses the search result document list. 8:15:05, a record that a document “top page common to all companies” is selected is illustrated. Next, in the column of the third row, on October 6, 2008, the user C belonging to “Branch 2” who requested the search with the keyword “application for entry / exit” browses the search result document list. However, a record that a document of “Branch 2 Entry / Exit Application” was selected at 18:22:01 is illustrated.

次に、図3を参照して、文書発生確率DB5について詳述する。
図3は、文書発生確率DB5に設定されている文書選択の発生確率テーブルTBの一例を模式的に示す概念図である。
文書選択の発生確率テーブルTBには、図3に示すように、文書識別子と、文書識別子が示す文書が、所定の過去期間に、利用者によって選択された確率とが対応付けられて表形式にまとめられている。
この実施形態では、文書の「標題」や「見出し」等の文字列からなる識別子、すなわち、「全社共通トップページ」、「本社入退場申請」、「支社1入退場申請」、「支社2入退場申請」が、文書識別子として例示されている(図3、図4)。
上記を踏まえて、文書選択の発生確率テーブルTB(図3)を参照すると、文書「全社共通トップページ」を選択する確率は「0.5」、文書「本社入退場申請」を選択する確率は「0.2」、文書「支社1入退場申請」を選択する確率は「0.2」、文書「支社2入退場申請」を選択する確率は「0.1」であることが示されている。
Next, the document occurrence probability DB 5 will be described in detail with reference to FIG.
FIG. 3 is a conceptual diagram schematically showing an example of the document selection occurrence probability table TB set in the document occurrence probability DB 5.
In the document selection occurrence probability table TB, as shown in FIG. 3, the document identifier and the probability that the document indicated by the document identifier is selected by the user in a predetermined past period are associated with each other in a table format. It is summarized.
In this embodiment, identifiers consisting of character strings such as “title” and “headline” of the document, that is, “company-wide top page”, “head office entry / exit application”, “branch office 1 entrance / exit application”, “branch office 2 entrance” “Exit application” is exemplified as the document identifier (FIGS. 3 and 4).
Based on the above, referring to the document selection probability table TB (FIG. 3), the probability of selecting the document “Company-wide top page” is “0.5”, and the probability of selecting the document “Headquarters entrance / exit application” is It is shown that the probability of selecting “0.2”, the document “Branch 1 Entrance / Exit Application” is “0.2”, and the probability of selecting the document “Branch 2 Entrance / Exit Application” is “0.1”. Yes.

次に、図4を参照して、属性条件付発生確率DB6Aについて詳述する。
図4は、属性条件付発生確率DB6Aに設定されている各種属性の条件付発生確率テーブルTS1、TK1の一例を模式的に示す概念図である。
この実施形態では、論理的なデータ構造としては、クエリー属性毎に独立して、属性の条件付発生確率テーブルTS1、TK1が設定されている。図4には、利用者が持つ「クエリー属性」として、「所属」の条件付発生確率テーブルTS2が例示され(同図(a))、また、利用者の検索要求が持つ「クエリー属性」として、「キーワード」の条件付発生確率テーブルTK2が例示されている(同図(b))。
すなわち、属性「所属」の条件付発生確率テーブルTS1には、図4(a)に示すように、文書識別子と、文書識別子が示す文書を選択する際の利用者が持つクエリー属性「所属」と、その選択の際、当該クエリー属性が所定の属性値を取る確率とが、対応付けられて表形式にまとめられている。クエリー属性「所属」は、「本社」、「支社1」、「支社2」等の属性値を持つ(同図(a))。
また、属性「キーワード」の条件付発生確率テーブルTK1には、図4(b)に示すように、文書識別子と、文書識別子が示す文書を選択する際の当該利用者の検索要求が持つクエリー属性「キーワード」と、その選択の際、当該クエリー属性が所定の属性値を取る確率とが、対応付けられて表形式にまとめられている。この実施形態では、クエリー属性「キーワード」は、「トップページ」、「入退場申請」等の属性値を持つ(同図(b))。
Next, the attribute conditional occurrence probability DB 6A will be described in detail with reference to FIG.
FIG. 4 is a conceptual diagram schematically showing an example of conditional occurrence probability tables TS1 and TK1 of various attributes set in the attribute conditional occurrence probability DB 6A.
In this embodiment, as the logical data structure, attribute conditional occurrence probability tables TS1 and TK1 are set independently for each query attribute. FIG. 4 illustrates the “occurrence” conditional occurrence probability table TS2 as “query attributes” possessed by the user (FIG. 4A), and also as “query attributes” possessed by the user search request. , "Keyword" conditional occurrence probability table TK2 is illustrated ((b) in the figure).
That is, in the conditional occurrence probability table TS1 of the attribute “affiliation”, as shown in FIG. 4A, the query attribute “affiliation” possessed by the user when selecting the document identifier and the document indicated by the document identifier. In the selection, the probability that the query attribute takes a predetermined attribute value is associated with each other and summarized in a table format. The query attribute “affiliation” has attribute values such as “head office”, “branch office 1”, “branch office 2” ((a) in the figure).
In addition, in the conditional occurrence probability table TK1 of the attribute “keyword”, as shown in FIG. 4B, the query attribute included in the search request of the user when selecting the document identifier and the document indicated by the document identifier. The “keyword” and the probability that the query attribute takes a predetermined attribute value at the time of selection are associated and collected in a table format. In this embodiment, the query attribute “keyword” has attribute values such as “top page” and “entrance / exit application” (FIG. 5B).

上記を踏まえて、属性「所属」の条件付発生確率テーブルTS1(同図(a))を参照すると、文書「全社共通トップページ」を選択する際の、クエリー属性「所属」が「本社」を取る確率は「0.497」、「支社1」を取る確率は「0.256」、「支社2」を取る確率は「0.247」であることが示されている。また、文書「本社入退場申請」を選択する際の、クエリー属性「所属」が「本社」を取る確率は「0.700」、「支社1」を取る確率は「0.200」、「支社2」を取る確率は「0.100」であることが示されている。同様に、文書「支社1入退場申請」を選択する際の、クエリー属性「所属」が「本社」を取る確率は「0.150」、「支社1」を取る確率は「0.800」、「支社2」を取る確率は「0.050」であることが示されている。同様に、文書「支社2入退場申請」を選択する際の、クエリー属性「所属」が「本社」を取る確率は「0.050」、「支社1」を取る確率は「0.050」、「支社2」を取る確率は「0.900」であることが示されている。   Based on the above, referring to the conditional occurrence probability table TS1 of the attribute “affiliation” ((a) in the figure), the query attribute “affiliation” is “head office” when selecting the document “company-wide common top page”. It is shown that the probability of taking “0.497”, the probability of taking “Branch 1” is “0.256”, and the probability of taking “Branch 2” is “0.247”. In addition, when selecting the document “Headquarters entry / exit application”, the probability that the query attribute “affiliation” takes “Headquarters” is “0.700”, the probability of taking “Branch1” is “0.200”, “Branch” It is shown that the probability of taking “2” is “0.100”. Similarly, when selecting the document “Branch 1 entry / exit application”, the probability that the query attribute “affiliation” takes “head office” is “0.150”, and the probability that “branch 1” takes “0.800”, It is indicated that the probability of taking “Branch 2” is “0.050”. Similarly, when selecting the document “Branch 2 entry / exit application”, the probability that the query attribute “affiliation” takes “head office” is “0.050”, and the probability that “branch 1” takes “0.050”, It is indicated that the probability of taking “Branch 2” is “0.900”.

次に、属性「キーワード」の条件付発生確率テーブルTK1には、(同図(b))を参照すると、文書「全社共通トップページ」を選択する際の、クエリー属性「キーワード」が「トップページ」を取る確率は「0.90」、「入退場申請」を取る確率は「0.10」であることが示されている。また、文書「本社入退場申請」を選択する際の、クエリー属性「キーワード」が「トップページ」を取る確率は「0.05」、「入退場申請」を取る確率は「0.95」であることが示されている。同様に、文書「支社1入退場申請」を選択する際も、クエリー属性「キーワード」が「トップページ」を取る確率は「0.05」、「入退場申請」を取る確率は「0.95」であることが示されている。また、文書「支社2入退場申請」を選択する際の、クエリー属性「キーワード」が「トップページ」を取る確率は「0.10」、「入退場申請」を取る確率は「0.90」であることが示されている。   Next, in the conditional occurrence probability table TK1 of the attribute “keyword”, referring to FIG. 5B, the query attribute “keyword” when selecting the document “company-wide top page” is “top page”. It is shown that the probability of taking "" is "0.90" and the probability of taking "entrance / exit application" is "0.10". In addition, when selecting the document “head office entry / exit application”, the probability that the query attribute “keyword” takes “top page” is “0.05”, and the probability of taking “entrance / exit application” is “0.95”. It is shown that there is. Similarly, when selecting the document “Branch 1 entry / exit application”, the probability that the query attribute “keyword” takes “top page” is “0.05”, and the probability of taking “entrance / exit application” is “0.95”. Is shown. Further, when selecting the document “Branch 2 entry / exit application”, the probability that the query attribute “keyword” takes “top page” is “0.10”, and the probability of taking “entrance / exit application” is “0.90”. It is shown that.

次に、図1乃至図7を参照して、第1の実施形態(スコアリングシステム)の動作について説明する。
図5は、スコア算出部8Aが実行するスコア算出処理の動作手順を示すフローチャート、図6は、確率DB生成部7Aが各種確率DB5、6Aに対して実行する確率DB更新処理の動作手順を示すフローチャート、また、図7は、同確率DB生成部7Aを構成する旧発生確率の重み算出部12aで実行される重み計算処理を説明するためのグラフ曲線図である。
Next, the operation of the first embodiment (scoring system) will be described with reference to FIGS.
FIG. 5 is a flowchart showing the operation procedure of the score calculation process executed by the score calculation unit 8A, and FIG. 6 shows the operation procedure of the probability DB update process executed by the probability DB generation unit 7A for the various probability DBs 5 and 6A. FIG. 7 is a graph curve diagram for explaining the weight calculation process executed by the weight calculation unit 12a of the old occurrence probability constituting the same probability DB generation unit 7A.

スコア算出処理
まず、図5のフローチャート及び各種発生確率テーブル(図3及び図4)を参照して、スコア算出処理の動作について説明する。
まず、図示せぬ利用者端末から、例えば、本社勤務の利用者Aが、利用者に関するクエリー属性「所属」の属性値として「本社」を、閲覧したい文書に関するクエリー属性「キーワード」の属性値として「入退場申請」を順次入力して、業務用文書検索システムに対して検索要求する。
業務用文書検索システムの文書検索部1は、利用者端末からの上記検索要求を受付けると、検索対象の文書の中から該当文書を検索して、検索結果文書リストを生成する。ここで、検索結果文書リストには、検索結果文書を特定するための文書識別子が、該当文書数に応じた数だけ列挙される。今の場合、生成された検索結果文書リストには、「全社共通トップページ」と「本社入退場申請」との2つの文書識別子(検索結果文書)が、この順に列挙されているとする。次に、文書検索部1は、生成した検索結果文書リストをクエリー属性情報と併せて、スコアリングシステムの文書スコアリング部4Aへ渡して、検索結果文書に対するスコアリング(検索結果の適合性推定値の算出)を要求する。
Score Calculation Processing First, the score calculation processing will be described with reference to the flowchart of FIG. 5 and various occurrence probability tables (FIGS. 3 and 4).
First, from a user terminal (not shown), for example, a user A who works at the head office uses “head office” as the attribute value of the query attribute “affiliation” relating to the user, and the attribute value of the query attribute “keyword” relating to the document to be viewed. Enter "entrance / exit application" in sequence and make a search request to the business document search system.
When the document search unit 1 of the business document search system receives the search request from the user terminal, the document search unit 1 searches for the corresponding document from the search target documents and generates a search result document list. Here, in the search result document list, document identifiers for specifying the search result documents are listed in a number corresponding to the number of corresponding documents. In this case, it is assumed that two document identifiers (search result documents) of “company-wide common top page” and “head office entrance / exit application” are listed in this order in the generated search result document list. Next, the document search unit 1 passes the generated search result document list together with the query attribute information to the document scoring unit 4A of the scoring system, and scores the search result document (estimated relevance value of the search result). Request).

スコア算出部8Aは、文書検索部1から、検索結果文書リストとクエリー属性情報と共に、スコアリング要求を受けると(図5のステップSa0)、これより、「全社共通トップページ」と「本社入退場申請」との文書識別子(検索結果文書)のスコアを逐次算出する処理を開始する。スコア算出部8Aは、ステップSa1において、まず、文書識別子「全社共通トップページ」を検索キーとして、文書発生確率DB5に設定されている文書選択の発生確率テーブルTB(図3)を参照して、検索結果文書「全社共通トップページ」を選択する発生確率として「0.5」の値を取得する。   When the score calculation unit 8A receives a scoring request from the document search unit 1 together with the search result document list and the query attribute information (step Sa0 in FIG. 5), the “company-wide common top page” and “entrance / exit to the head office” The process of sequentially calculating the score of the document identifier (search result document) “application” is started. In step Sa1, the score calculation unit 8A first refers to the document selection occurrence probability table TB (FIG. 3) set in the document occurrence probability DB 5 using the document identifier “company-wide common top page” as a search key. A value of “0.5” is acquired as an occurrence probability of selecting the search result document “company-wide common top page”.

次に、スコア算出部8Aは、ステップSa2に進み、文書識別子「全社共通トップページ」と「所属」のクエリー属性値「本社」とを検索キーとして、属性条件付発生確率DB6Aに設定されている属性「所属」の条件付発生確率テーブルTS1(図4(a))を参照する。スコア算出部8Aは、参照する属性「所属」の条件付発生確率テーブルTS1から、文書識別子「全社共通トップページ」を選択するクエリー属性値「本社」の条件付発生確率として「0.497」の値を取得する。
この後、スコア算出部8Aは、文書識別子「全社共通トップページ」と、「キーワード」のクエリー属性値「入退場申請」とを検索キーとして、属性条件付発生確率DB6Aに設定されている属性「キーワード」の条件付発生確率テーブルTK1(図4(b))を参照する。スコア算出部8Aは、参照する属性「キーワード」の条件付発生確率テーブルTK1から、文書識別子「全社共通トップページ」でクエリー属性値「入退場申請」の条件付発生確率として「0.10」の値を取得する(ステップSa3→Sa2→Sa3)。
Next, the score calculation unit 8A proceeds to step Sa2, and is set in the attribute conditional occurrence probability DB 6A using the document identifier “top page common throughout the company” and the query attribute value “head office” of “affiliation” as search keys. Reference is made to the conditional occurrence probability table TS1 (FIG. 4A) of the attribute “affiliation”. The score calculation unit 8A selects “0.497” as the conditional occurrence probability of the query attribute value “head office” that selects the document identifier “company-wide common top page” from the conditional occurrence probability table TS1 of the attribute “affiliation” to be referenced. Get the value.
Thereafter, the score calculation unit 8A uses the document identifier “company-wide common top page” and the query attribute value “entry / exit application” of “keyword” as the search keys to set the attribute “ Reference is made to the conditional occurrence probability table TK1 (FIG. 4B). The score calculation unit 8A sets “0.10” as the conditional occurrence probability of the query attribute value “entrance / exit application” in the document identifier “company-wide top page” from the conditional occurrence probability table TK1 of the attribute “keyword” to be referred to. A value is acquired (step Sa3 → Sa2 → Sa3).

次に、スコア算出部8Aは、ステップSa4に進み、取得した文書選択の発生確率の値と、クエリー属性値「本社」の条件付発生確率の値と、クエリー属性値「入退場申請」の条件付発生確率とを積算統合して、検索結果文書「全社共通トップページ」のスコアを算出する。この例では、検索結果文書「全社共通トップページ」を選択する発生確率の値「0.5」と、クエリー属性値「本社」の条件付発生確率の値「0.497」と、クエリー属性値「入退場申請」の条件付発生確率の値「0.10」とが積算統合[0.5*0.497*0.10]される。こうして得られた積算値「0.02485」が、検索結果文書「全社共通トップページ」のスコアとなる。   Next, the score calculation unit 8A proceeds to step Sa4, where the acquired document selection occurrence value, the conditional occurrence probability value of the query attribute value “head office”, and the query attribute value “entrance / exit application” condition The score of the search result document “company-wide common top page” is calculated by integrating and integrating the occurrence probability. In this example, the occurrence probability value “0.5” for selecting the search result document “company-wide common top page”, the conditional occurrence probability value “0.497” of the query attribute value “head office”, and the query attribute value The conditional occurrence probability value “0.10” of “entrance / exit application” is integrated and integrated [0.5 * 0.497 * 0.10]. The integrated value “0.02485” obtained in this way becomes the score of the search result document “company-wide common top page”.

検索結果文書「全社共通トップページ」のスコアが算出されると(ステップSa4)、スコア算出部8Aは、ステップSa1に戻り(ステップSa5)、検索結果文書リストに列挙されている、もう1つの検索結果文書「本社入退場申請」について、スコア算出処理を実行する。
スコア算出部8Aは、ステップSa1において、文書識別子「本社入退場申請」を検索キーとして、文書選択の発生確率テーブルTB(図3)を参照して、検索結果文書「本社入退場申請」を選択する発生確率として「0.2」の値を取得する。
When the score of the search result document “company-wide common top page” is calculated (step Sa4), the score calculation unit 8A returns to step Sa1 (step Sa5), and another search listed in the search result document list. A score calculation process is executed for the result document “head office entry / exit application”.
In step Sa1, the score calculation unit 8A selects the search result document “head office entry / exit application” with reference to the document selection probability table TB (FIG. 3) using the document identifier “head office entry / exit application” as a search key. A value of “0.2” is acquired as the occurrence probability.

次に、スコア算出部8Aは、ステップSa2に進み、文書識別子「本社入退場申請」と「所属」のクエリー属性値「本社」とを検索キーとして、属性「所属」の条件付発生確率テーブルTS1(図4(a))を参照する。スコア算出部8Aは、参照する属性「所属」の条件付発生確率テーブルTS1から、文書識別子「本社入退場申請」を選択するクエリー属性値「本社」の条件付発生確率として「0.700」の値を取得する。同様に、スコア算出部8Aは、文書識別子「本社入退場申請」と、「キーワード」のクエリー属性値「入退場申請」とを検索キーとして、属性「キーワード」の条件付発生確率テーブルTK1(図4(b))を参照する。スコア算出部8Aは、参照する属性「キーワード」の条件付発生確率テーブルTK1から、文書識別子「本社入退場申請」でクエリー属性値「入退場申請」の条件付発生確率として「0.95」の値を取得する(ステップSa3、Sa2)。   Next, the score calculation unit 8A proceeds to Step Sa2, and uses the document identifier “head office entrance / exit application” and the query attribute value “head office” of “affiliation” as search keys, and the conditional occurrence probability table TS1 of attribute “affiliation” Reference is made to FIG. The score calculation unit 8A selects “0.700” as the conditional occurrence probability of the query attribute value “head office” that selects the document identifier “head office entrance / exit application” from the conditional occurrence probability table TS1 of the attribute “affiliation” to be referenced. Get the value. Similarly, the score calculation unit 8A uses the document identifier “head office entrance / exit application” and the query attribute value “entrance / exit application” of “keyword” as search keys, and the conditional occurrence probability table TK1 (see FIG. Refer to 4 (b)). The score calculation unit 8A uses the conditional occurrence probability table TK1 of the attribute “keyword” to be referred to as “0.95” as the conditional occurrence probability of the query attribute value “entrance / exit application” with the document identifier “head office entrance / exit application”. A value is acquired (steps Sa3 and Sa2).

次に、スコア算出部8Aは、再びステップSa4に進み、上記した積算処理を実行する。この例では、検索結果文書「本社入退場申請」を選択する発生確率の値「0.2」と、クエリー属性値「本社」の条件付発生確率の値「0.700」と、クエリー属性値「入退場申請」の条件付発生確率の値「0.95」とが積算統合[0.2*0.700*0.95]される。このようにして得られた積算値「0.13300」が、検索結果文書「本社入退場申請」のスコアとなる。   Next, the score calculation unit 8A proceeds to step Sa4 again and executes the above-described integration process. In this example, the occurrence probability value “0.2” for selecting the search result document “head office entrance / exit application”, the conditional occurrence probability value “0.700” of the query attribute value “head office”, and the query attribute value The value “0.95” of the conditional occurrence probability of “entrance / exit application” is integrated and integrated [0.2 * 0.700 * 0.95]. The integrated value “0.13300” obtained in this way becomes the score of the search result document “Application for entering / exiting the head office”.

次に、スコア算出部8Aは、全ての検索結果文書についてのスコアを算出した後、スコア付きの検索結果文書リスト(スコア算出結果)を文書検索部1へ返却して(ステップSa6)処理を終了する。
文書検索部1は、スコア算出部8Aから、スコア付きの検索結果文書リストを取得すると、検索結果文書リストをスコア順、つまり、優先度の高い順に並び替えて利用者端末に通知する。この例では、検索結果文書「全社共通トップページ」のスコアが「0.02485」と算出され、検索結果文書「本社入退場申請」のスコアが「0.13300」と算出されたので、「本社入退場申請」→「全社共通トップページ」の順に、並び替えられて利用者端末に通知される。
なお、図5において、スコア算出部8Aが実施する、検索結果文書選択の発生確率を取得する処理(ステップSa1)と、クエリー属性値の条件付発生確率を取得する処理(ステップSa2、Sa3)とは、必要に応じて、順番を入れ替えて実施しても良いことは勿論である。
Next, the score calculation unit 8A calculates the scores for all the search result documents, and then returns the search result document list (score calculation result) with scores to the document search unit 1 (step Sa6) and ends the process. To do.
When the document search unit 1 obtains a search result document list with a score from the score calculation unit 8A, the document search unit 1 rearranges the search result document list in order of score, that is, in order of priority, and notifies the user terminal. In this example, the score of the search result document “company-wide common top page” is calculated as “0.02485”, and the score of the search result document “head office entry / exit application” is calculated as “0.13300”. Sorted in the order of “Application for entry / exit” → “Top page common to all companies” and notified to the user terminal.
In FIG. 5, processing (step Sa1) for obtaining the occurrence probability of search result document selection, processing for obtaining the conditional occurrence probability of the query attribute value (step Sa2, Sa3), which are executed by the score calculation unit 8A. Of course, the order may be changed as necessary.

確率DB更新処理
次に、図6のフローチャートを参照して、確率DB更新処理の動作について説明する。確率DB生成部7Aは、文書選択履歴DB3の中の文書選択履歴情報テーブルTAを参照して、文書発生確率DB5と属性条件付発生確率DB6Aとを更新するための、確率DB更新処理を実施する。
確率DB生成部7Aにおいて、文書選択履歴取得部9aは、文書選択履歴DB3の中から、前回までの確率DB更新処理の際に参照された旧履歴情報以降の最近一定期間(例えば、最近1ヶ月の期間)に亘る履歴情報を新履歴情報として取得する(図6のステップSb1)。取得された新履歴情報は、発生確率算出部10aに渡される。
Probability DB Update Processing Next, the operation of the probability DB update processing will be described with reference to the flowchart of FIG. The probability DB generation unit 7A refers to the document selection history information table TA in the document selection history DB3, and performs probability DB update processing for updating the document occurrence probability DB5 and the attribute conditional occurrence probability DB6A. .
In the probability DB generation unit 7A, the document selection history acquisition unit 9a selects from the document selection history DB 3 a recent fixed period after the old history information referenced in the probability DB update process up to the previous time (for example, the most recent month) The history information over a period of () is acquired as new history information (step Sb1 in FIG. 6). The acquired new history information is passed to the occurrence probability calculation unit 10a.

発生確率算出部10aは、文書選択履歴取得部9aから与えられた新履歴情報に基づいて、検索対象の文書毎に文書選択の新発生確率X1bを算出し、また、属性毎にクエリー属性値の(文書毎)新条件付発生確率を算出する(ステップSb2)。文書毎に算出された文書選択の新発生確率X1bと、属性毎に算出されたクエリー属性値の新条件付発生確率X2bとは、発生確率統合部11aに渡される。   The occurrence probability calculation unit 10a calculates a new occurrence probability X1b of document selection for each document to be searched based on the new history information given from the document selection history acquisition unit 9a, and the query attribute value for each attribute. (For each document) A new conditional occurrence probability is calculated (step Sb2). The new occurrence probability X1b of document selection calculated for each document and the new conditional occurrence probability X2b of the query attribute value calculated for each attribute are passed to the occurrence probability integration unit 11a.

重み算出部12aは、文書発生確率DB5(文書選択の発生確率テーブルTB)から、検索対象の文書毎に、文書選択の発生確率を(今回更新前のものであるから)旧発生確率X1aとして取得して、その重みを算出する(ステップSb3)。同様に、重み算出部12aは、属性条件付発生確率DB6A(属性の条件付発生確率テーブルTS1、TK1)から、属性毎に各クエリー属性値の(文書毎)条件付発生確率を旧発生確率X2aとして取得して、その重みを算出する(同Sb3)。なお、この実施形態では、旧発生確率X1a、X2aの初期設定値として、全ての確率値に対して同等に0又は1が割り当てられる。
この実施形態では、重み算出部12aは、属性「所属」、「キーワード」の条件付発生確率テーブルTS1、TK1(図4(a)、(b))から、属性毎のクエリー属性値の(文書毎)旧条件付発生確率X2aを取得して、その重みを算出する。算出された文書選択の旧発生確率X1aの重みと、クエリー属性値の(文書毎)旧条件付発生確率X2aの重みは、発生確率統合部11aに渡される。
The weight calculation unit 12a obtains the occurrence probability of document selection as the old occurrence probability X1a for each document to be searched from the document occurrence probability DB 5 (document occurrence probability table TB) (since it is the one before update this time). Then, the weight is calculated (step Sb3). Similarly, the weight calculation unit 12a obtains the conditional occurrence probability (for each document) of each query attribute value for each attribute from the attribute conditional occurrence probability DB 6A (attribute conditional occurrence probability table TS1, TK1). And the weight is calculated (Sb3). In this embodiment, 0 or 1 is equally assigned to all probability values as the initial setting values of the old occurrence probabilities X1a and X2a.
In this embodiment, the weight calculation unit 12a determines the query attribute value (document) of each attribute from the conditional occurrence probability tables TS1 and TK1 (FIGS. 4A and 4B) of the attributes “affiliation” and “keyword”. Every) The old conditional occurrence probability X2a is acquired and its weight is calculated. The calculated weight of the old occurrence probability X1a of document selection and the weight of the old conditional occurrence probability X2a (for each document) of the query attribute value are passed to the occurrence probability integration unit 11a.

発生確率統合部11aは、検索対象の文書毎に、発生確率算出部10aと文書発生確率DB5とから与えられる文書選択の新発生確率X1bと旧発生確率X1aとを、重み算出部12aで算出された旧発生確率の重みを用いて統合する(ステップSb4)。同様に、発生確率統合部11aは、属性毎に、発生確率算出部10aと文書発生確率DB5とから与えられる各クエリー属性値の(文書毎)新旧条件付発生確率X2a、X2bを、旧条件付発生確率X2aの重みを用いて統合する(ステップSb4)。この実施形態では、新旧発生確率の統合は、式(1)、(2)に示される重み付け加算方式を用いて行われる。
X1=X1a*W1+X1b*(1−W1) (1)
X2=X2a*W2+X2b*(1−W2) (2)
ここで、X1aは文書選択の旧発生確率(初期設定値は0又は1)、X1bは文書選択の新発生確率、X1は文書選択の新旧発生確率の統合値、W1は文書選択の旧発生確率の重みである。X2aはクエリー属性値の旧条件付発生確率(初期値設定は0又は1)、X2bはクエリー属性値の新条件付発生確率、X2はクエリー属性値の新旧条件付発生確率の統合値、W2はクエリー属性値の旧条件付発生確率の重みである。
The occurrence probability integration unit 11a calculates the new occurrence probability X1b and the old occurrence probability X1a of document selection given from the occurrence probability calculation unit 10a and the document occurrence probability DB 5 by the weight calculation unit 12a for each document to be searched. The old occurrence probability weights are used for integration (step Sb4). Similarly, the occurrence probability integration unit 11a assigns the old and new conditional occurrence probabilities X2a and X2b (for each document) of each query attribute value given from the occurrence probability calculation unit 10a and the document occurrence probability DB 5 to each attribute. Integration is performed using the weight of the occurrence probability X2a (step Sb4). In this embodiment, the integration of new and old occurrence probabilities is performed using the weighted addition method shown in equations (1) and (2).
X1 = X1a * W1 + X1b * (1-W1) (1)
X2 = X2a * W2 + X2b * (1-W2) (2)
Here, X1a is the old occurrence probability of the document selection (initial setting value is 0 or 1), X1b is the new occurrence probability of the document selection, X1 is the integrated value of the new and old occurrence probability of the document selection, and W1 is the old occurrence probability of the document selection. Is the weight. X2a is the old conditional occurrence probability of the query attribute value (initial value is 0 or 1), X2b is the new conditional occurrence probability of the query attribute value, X2 is the integrated value of the old and new conditional occurrence probability of the query attribute value, and W2 is This is the weight of the old conditional occurrence probability of the query attribute value.

発生確率統合部11aは、文書選択及びクエリー属性値に関して新旧発生確率の統合が完了すると、逐次又は一括して、新旧発生確率の統合値X1、X2で、文書発生確率DB5又は属性条件付発生確率DB6Aの記憶内容X1a、X2aを更新して、当該更新処理を終了する(ステップSb5)。   When the integration of the new and old occurrence probabilities regarding the document selection and the query attribute value is completed, the occurrence probability integration unit 11a sequentially or collectively uses the document occurrence probability DB5 or the attribute conditional occurrence probability with the integrated values X1 and X2 of the old and new occurrence probabilities. The stored contents X1a and X2a of the DB 6A are updated, and the update process is terminated (step Sb5).

重み算出処理
次に、図7を参照して、重み算出部12aの動作についてさらに詳述する。
重み算出部12aは、旧発生確率の重みを算出する際、シグモイド関数が組み込まれたアルゴリズムに基づいて、各種旧発生確率X1a、X2aの値が低いほど重みを大きくし、高いほど重みを小さくするように動作する(ステップSb3)。
すなわち、重み算出部12aは、検索対象の各文書について、更新前の文書選択の発生確率、すなわち、文書選択の旧発生確率X1aが低いほど重みを大きく、高いほど重みを小さくするように動作する。同様に、重み算出部12aは、属性毎の文書識別子毎に、更新前のクエリー属性値の旧条件付発生確率、すなわち、クエリー属性値の旧条件付発生確率X2aが低いほど重みを大きく、高いほど重みを小さくするように動作する。
Weight Calculation Processing Next, the operation of the weight calculation unit 12a will be described in further detail with reference to FIG.
When calculating the weight of the old occurrence probability, the weight calculation unit 12a increases the weight as the values of the various old occurrence probabilities X1a and X2a are lower, and decreases the weight as the value is higher, based on an algorithm incorporating a sigmoid function. (Step Sb3).
That is, for each document to be searched, the weight calculation unit 12a operates so as to increase the weight as the occurrence probability of document selection before update, that is, the old occurrence probability X1a of document selection is lower, and to decrease the weight as it is higher. . Similarly, for each document identifier for each attribute, the weight calculation unit 12a increases the weight as the old conditional occurrence probability of the query attribute value before update, that is, the old conditional occurrence probability X2a of the query attribute value decreases. It works to decrease the weight.

この実施形態では、旧文書発生確率の重み算出処理モデルとして、式(3)で与えられ、図7に示すような重み曲線を描く、シグモイド関数からなる関数モデルが用いられる。
W(X;a,b,c,g)=(a−b)×S(X−c;−g)+b (3)
ここで、W(X;a,b,c,g)は旧発生確率の重み関数、S(X;g)は、式(4)で示されるシグモイド関数、Xは旧発生確率、gはシグモイド関数のゲイン、cはシグモイド曲線の変曲点のX値、aは予め設定される最大値,bは予め設定される最小値である。
S(X;g)=(1+e−gx−1 (4)
In this embodiment, as a weight calculation processing model of the old document occurrence probability, a function model made up of a sigmoid function that is given by Expression (3) and draws a weight curve as shown in FIG. 7 is used.
W (X; a, b, c, g) = (a−b) × S (X−c; −g) + b (3)
Here, W (X; a, b, c, g) is a weight function of the old occurrence probability, S (X; g) is a sigmoid function expressed by the equation (4), X is an old occurrence probability, and g is a sigmoid. The gain of the function, c is the X value of the inflection point of the sigmoid curve, a is a preset maximum value, and b is a preset minimum value.
S (X; g) = (1 + e −gx ) −1 (4)

文書選択の旧発生確率の重みWは、式(3)で与えられる関数モデルの変数Xに旧発生確率の値を代入することで得られる。例えば、文書「本社入退場申請」の選択に関して、その旧発生確率の重みを算出するときは、重み算出部12aは、文書発生確率DB5に設定されている文書選択の発生確率テーブルTB(図3)を参照して、「本社入退場申請」選択の旧発生確率「0.2」を取得する。次に、重み算出部12aは、取得された旧発生確率「0.2」を、式(3)の関数モデルの変数Xに代入して演算処理し、重み関数Wの値として、[0.7]が算出される。この演算結果から、重み算出部12aは、「本社入退場申請」選択の旧発生確率の重みとして「0.7」を割り当てる。
同様に、例えば、文書「全社共通トップページ」の選択に関して、その旧発生確率の重みを算出するときは、重み算出部12aは、文書選択の発生確率テーブルTBを参照して、「全社共通トップページ」選択の旧発生確率「0.5」を取得する。次に、重み算出部12aは、取得された旧発生確率「0.5」を、式(3)の関数モデルの変数Xに代入して演算処理し、重み関数Wの値として、[0.23]が算出される。この演算結果から、重み算出部12aは、「全社共通トップページ」選択の旧発生確率の重みとして「0.23」を割り当てる。
このように、重み算出部12aは、旧発生確率の重みを算出する際、文書選択の旧発生確率の値が低い「本社入退場申請」に対しては、重みを大きくし、文書選択の旧発生確率の値が高い「全社共通トップページ」に対しては、重みを小さくするように動作する(ステップSb3)。
The weight W of the old occurrence probability of document selection is obtained by substituting the value of the old occurrence probability into the variable X of the function model given by Expression (3). For example, when calculating the weight of the old occurrence probability with respect to the selection of the document “head office entry / exit application”, the weight calculation unit 12a generates the document selection occurrence probability table TB set in the document occurrence probability DB 5 (FIG. 3). ) To obtain the old occurrence probability “0.2” of the “head office entry / exit application” selection. Next, the weight calculation unit 12a performs arithmetic processing by substituting the acquired old occurrence probability “0.2” into the variable X of the function model of Expression (3), and sets the weight function W as [0. 7] is calculated. From this calculation result, the weight calculation unit 12a assigns “0.7” as the weight of the old occurrence probability of the “head office entry / exit application” selection.
Similarly, for example, regarding the selection of the document “company-wide common top page”, when calculating the weight of the old occurrence probability, the weight calculation unit 12a refers to the document selection occurrence probability table TB, Acquire old occurrence probability “0.5” of “page” selection. Next, the weight calculation unit 12a performs an arithmetic process by substituting the acquired old occurrence probability “0.5” into the variable X of the function model of Expression (3), and the value of the weight function W is [0. 23] is calculated. From this calculation result, the weight calculation unit 12a assigns “0.23” as the weight of the old occurrence probability of selecting the “company-wide common top page”.
As described above, when calculating the weight of the old occurrence probability, the weight calculation unit 12a increases the weight for the “head office entrance / exit application” having a low value of the old occurrence probability of document selection, For the “company-wide common top page” having a high occurrence probability value, the weight is reduced (step Sb3).

クエリー属性値の旧条件付発生確率の重みWについても、式(3)で与えられる関数モデルの変数Xに旧発生確率の値を代入することで求められる。
なお、選択文書とクエリー属性との性質の違いを考慮して、同一の関数モデルが用いられるときでも、各種パラメタa,b,c,gは、文書選択の旧発生確率の重み計算と、クエリー属性値の旧条件付発生確率の重み計算とで、異なる値を取るようにしても良い。必要に応じて、パラメタを増減することもできる。同様に、各種「クエリー属性」との性質の違いを考慮して、式(3)の関数モデルが共通に用いられるときでも、各種パラメタa,b,c,gは、属性毎に異なる値を取るようにしても良く、この場合も、必要に応じて、パラメタを増減することができる。
The weight W of the old conditional occurrence probability of the query attribute value can also be obtained by substituting the old occurrence probability value into the variable X of the function model given by Expression (3).
In consideration of the difference in properties between the selected document and the query attribute, even when the same function model is used, the various parameters a, b, c, and g are used to calculate the weight of the old occurrence probability of the document selection and the query. Different values may be taken for the weight calculation of the old conditional occurrence probability of the attribute value. The parameters can be increased or decreased as necessary. Similarly, considering the difference in properties from various “query attributes”, the various parameters a, b, c, and g have different values for each attribute even when the function model of Expression (3) is used in common. In this case as well, the parameters can be increased or decreased as necessary.

このように、上記構成によれば、スコア算出部8Aでは、クエリー属性毎に格納されたクエリー属性値の条件付発生確率を参照して、文書選択の発生確率と各種クエリー属性値の発生確率とを積算統合する処理が実行される。
このため、利用者の所属や職位の変化に伴う業務変更に起因して、利用者にとって、検索結果文書の適合性関連性が変化した場合でも、その適合性変化に的確に追従した適切なスコアリングを行うことができる。
加えて、上記構成によれば、コミュニティ体系が部分的に変化したとしても、他の属性、例えば、利用者の業務や勤務場所等に変化がなければ、各種発生確率の積算統合処理の効果として、変動要因による影響を極力回避できる。それゆえ、全体として適切なスコアリングを継続的に行うことができる。
As described above, according to the above configuration, the score calculation unit 8A refers to the conditional occurrence probability of the query attribute value stored for each query attribute, and determines the occurrence probability of document selection and the occurrence probability of various query attribute values. Is integrated and integrated.
For this reason, even if the relevance relevance of the search result document changes due to a change in business due to a change in the user's affiliation or job title, even if the relevance relevance of the search result document changes, an appropriate score that accurately follows the relevance change Ring can be done.
In addition, according to the above configuration, even if the community system partially changes, if there is no change in other attributes, for example, the user's business or work location, etc. , It is possible to avoid the influence of fluctuation factors as much as possible. Therefore, appropriate scoring can be continuously performed as a whole.

また、重み算出部12aでは、更新前の旧発生確率の値が高いときは、旧発生確率の重みを低くする処理が実行される。このように得られた重みを用いて、発生確率統合部11aでは、新旧発生確率が統合され、新旧発生確率の統合値によって、文書発生確率DB5と属性条件付発生確率DB6Aとが更新される。このような構成は、検索結果文書リストの中で、不適合文書が上位にランクされることを防止できる。
一般に、不適合文書(ノイズ)は、その選択確率が一時的に上昇しても、利用者の学習能力のおかげで、その後減少する傾向にある。しかしながら、この実施形態によれば、一時的に上昇する不適合文書選択の旧発生確率に対しては、低い重みが割り当てられる。また、利用者の学習能力のおかげで、不適合文書選択の新発生確率も低いと考えられる。それゆえ、不適合文書の選択確率は、単純な重み付け加重に比べて、選択確率の減少勾配が大きくなるため、適合文書の選択確率に対して、不適合文書の選択確率が相対的に大きく減少することになり、その順位が急速に下降することになる。その分、適合文書の順位は早く上昇することになる。それゆえ、検索結果文書リストに不適合文書が含まれるときでも、その影響を小さく抑えることができる。
In addition, when the value of the old occurrence probability before update is high, the weight calculation unit 12a executes a process of reducing the weight of the old occurrence probability. In the occurrence probability integration unit 11a using the weights thus obtained, the old and new occurrence probabilities are integrated, and the document occurrence probability DB 5 and the attribute conditional occurrence probability DB 6A are updated with the integrated value of the old and new occurrence probabilities. Such a configuration can prevent a nonconforming document from being ranked higher in the search result document list.
In general, non-conforming documents (noise) tend to decrease afterward because of the learning ability of the user even if the selection probability rises temporarily. However, according to this embodiment, a low weight is assigned to the old occurrence probability of the nonconforming document selection that temporarily increases. Also, thanks to the learning ability of the user, the probability of new occurrence of nonconforming document selection is considered to be low. Therefore, the selection probability of the nonconforming document is larger than the simple weighted weighting, and therefore the selection probability of the nonconforming document is relatively greatly reduced with respect to the selection probability of the conforming document. The ranking will drop rapidly. As a result, the ranking of relevant documents rises quickly. Therefore, even when a nonconforming document is included in the search result document list, the influence can be suppressed small.

実施形態2Embodiment 2

次に、図8を参照して、第2の実施形態について説明する。
図8は、この発明の第2の実施形態である検索結果文書のスコアリングシステムの構成を示すブロック図である。
第2の実施形態では、クエリー属性値の(文書毎)条件付発生確率の分布と、クエリー属性値の(文書の如何を問わない)発生確率の分布とに、統計的に有意な差異が有るか否かが判断され、その判断結果に基づいて、異なる確率ソースを用いてスコア計算を行う点で、第1の実施形態のそれと相違している。
この実施形態の計算手法を具現するために、図8に示すように、文書スコアリング部4Bには、後述する第3の統計情報を格納する属性発生確率DB(データベース)13Bと特徴検出フィルタ部14Bとが付加されている。なお、図8において、図1に示す構成部分と同一の各部(又は対応する各部)には、同一符号(又は同一符号に添え字)を付して、その説明を省略又は簡略化する。
Next, a second embodiment will be described with reference to FIG.
FIG. 8 is a block diagram showing the configuration of a search result document scoring system according to the second embodiment of the present invention.
In the second embodiment, there is a statistically significant difference between the distribution of the conditional occurrence probability (for each document) of the query attribute value and the distribution of the occurrence probability of the query attribute value (regardless of the document). This is different from that of the first embodiment in that score calculation is performed using different probability sources based on the determination result.
In order to implement the calculation method of this embodiment, as shown in FIG. 8, the document scoring unit 4B includes an attribute occurrence probability DB (database) 13B for storing third statistical information to be described later and a feature detection filter unit. 14B is added. In FIG. 8, the same parts (or corresponding parts) as those shown in FIG. 1 are denoted by the same reference numerals (or the same reference numerals), and the description thereof is omitted or simplified.

文書選択履歴取得部9bは、過去一定期間毎に、文書選択履歴DB3から、各文書選択の発生頻度と、各クエリー属性値の(文書毎)条件付発生頻度とを取得すると共に、選択文書の如何を問わず、各クエリー属性値の発生頻度を取得して発生確率算出部10bに供給する。発生確率算出部10bは、供給される文書選択の発生頻度情報に基づいて、当該過去一定期間に亘る、利用者による各文書選択の発生確率(第1の統計情報)を算出する。また、発生確率算出部10bは、供給される各クエリー属性値の条件付発生頻度に基づいて、当該過去一定期間に亘る、各クエリー属性値の(文書毎)条件付発生確率(第2の統計情報)を算出する。さらに、発生確率算出部10bは、供給される各クエリー属性値の発生頻度に基づいて、当該過去一定期間に亘る、各クエリー属性値の発生確率(第3の統計情報)を算出する。   The document selection history acquisition unit 9b acquires the occurrence frequency of each document selection and the conditional occurrence frequency (for each document) of each query attribute value from the document selection history DB 3 for each fixed period in the past, and for the selected document. Regardless, the occurrence frequency of each query attribute value is acquired and supplied to the occurrence probability calculation unit 10b. The occurrence probability calculation unit 10b calculates the occurrence probability (first statistical information) of each document selection by the user over the past fixed period based on the supplied document selection occurrence frequency information. Also, the occurrence probability calculation unit 10b determines the conditional occurrence probability (second statistic) of each query attribute value (for each document) over the past certain period based on the conditional occurrence frequency of each supplied query attribute value. Information). Furthermore, the occurrence probability calculation unit 10b calculates the occurrence probability (third statistical information) of each query attribute value over the past fixed period based on the occurrence frequency of each supplied query attribute value.

発生確率統合部11bは、文書毎に、文書発生確率DB5に格納されている更新前の文書選択の旧発生確率X1aと、発生確率算出部10bで算出された文書選択の新発生確率X1bとを統合し、統合値X1で文書発生確率DB5の旧発生確率X1aを更新する。また、発生確率統合部11aは、文書毎に、属性条件付発生確率DB6Bに格納されている各クエリー属性値の旧条件付発生確率X2aと、発生確率算出部10にて算出された該当新条件付発生確率X2bとを統合し、統合値X2で、属性条件付発生確率DB6Bの記憶内容X2aを更新する。さらに、発生確率統合部11aは、文書毎に、属性発生確率DB13Bに格納されている各クエリー属性値の旧発生確率X3aと、発生確率算出部10bで算出された該当新発生確率X3bとを統合し、統合値X3で、属性発生確率DB13Bの記憶内容X3aを更新する。
重み算出部12bは、発生確率統合部11bが新旧発生確率を統合する際に用いる、更新前の旧発生確率(文書選択の旧発生確率X1aや各クエリー属性値の旧条件付発生確率X2a及び発生確率X3a)の重みを関数モデル(例えば、式(3))を使って算出する。
The occurrence probability integration unit 11b uses, for each document, the old occurrence probability X1a of the document selection before update stored in the document occurrence probability DB 5 and the new occurrence probability X1b of the document selection calculated by the occurrence probability calculation unit 10b. The old occurrence probability X1a of the document occurrence probability DB5 is updated with the integration value X1. Further, the occurrence probability integration unit 11a, for each document, the old conditional occurrence probability X2a of each query attribute value stored in the attribute conditional occurrence probability DB 6B and the corresponding new condition calculated by the occurrence probability calculation unit 10. The added occurrence probability X2b is integrated, and the stored content X2a of the attribute conditional occurrence probability DB 6B is updated with the integrated value X2. Further, the occurrence probability integration unit 11a integrates, for each document, the old occurrence probability X3a of each query attribute value stored in the attribute occurrence probability DB 13B and the corresponding new occurrence probability X3b calculated by the occurrence probability calculation unit 10b. Then, the stored content X3a of the attribute occurrence probability DB 13B is updated with the integrated value X3.
The weight calculation unit 12b is used when the occurrence probability integration unit 11b integrates the old and new occurrence probabilities, the old occurrence probabilities before update (the old occurrence probability X1a of document selection, the old conditional occurrence probability X2a of each query attribute value, and the occurrence The weight of the probability X3a) is calculated using a function model (for example, equation (3)).

上記属性発生確率DB13Bは、各種属性の発生確率テーブルTS2、TK2(図9(a)、(b))を備え、利用者の過去の文書選択履歴から生成された、第3の統計情報としての、属性毎の各クエリー属性値の発生確率をテーブル形式で格納する。
ここで、クエリー属性値の発生確率とは、ある属性について、選択文書の如何によらず、各属性値が取る確率を意味し、第2の統計情報である、クエリー属性値の(文書毎)条件付発生確率(図4)とは相違している。
The attribute occurrence probability DB 13B includes occurrence probability tables TS2 and TK2 (FIGS. 9A and 9B) of various attributes, and is used as third statistical information generated from the user's past document selection history. The occurrence probability of each query attribute value for each attribute is stored in a table format.
Here, the occurrence probability of the query attribute value means the probability that each attribute value takes for a certain attribute regardless of the selected document, and is the second statistical information of the query attribute value (for each document). This is different from the conditional occurrence probability (FIG. 4).

特徴検出フィルタ部14Bは、DB更新時、各属性について、発生確率統合部11bで生成されたクエリー属性値の新旧条件付発生確率の統合値X2で、属性条件付発生確率DB6Bの記憶内容X2aを更新することを、文書単位で許可又は禁止する。
すなわち、特徴検出フィルタ部14Bは、DB更新の際、発生確率統合部11bによって新たに統合生成された、属性毎の、クエリー属性値の条件付発生確率(統合値)X2の分布と、クエリー属性値の発生確率(統合値)Y2の分布とを比較する。特徴検出フィルタ部14Bは、比較の結果、両確率分布の間に、統計的に有意な差異があるときは、生成されたクエリー属性値の条件付発生確率(統合値)X2で属性条件付発生確率DB6Bの記憶内容X2aを更新することを許可する。ここで、「両確率分布の間に、統計的に有意な差異がある」とは、当該文書選択の確率分布が、当該属性について、「特徴的な分布を持つ」ことを意味している。
When updating the DB, the feature detection filter unit 14B uses the integrated value X2 of the new and old conditional occurrence probabilities of the query attribute values generated by the occurrence probability integration unit 11b for each attribute, and stores the storage content X2a of the attribute conditional occurrence probability DB 6B. Updates are permitted or prohibited on a document-by-document basis.
That is, the feature detection filter unit 14B, when updating the DB, the distribution of the conditional occurrence probability (integrated value) X2 of the query attribute value for each attribute newly generated by the occurrence probability integration unit 11b, and the query attribute The distribution of the value occurrence probability (integrated value) Y2 is compared. When there is a statistically significant difference between the two probability distributions as a result of the comparison, the feature detection filter unit 14B generates an attribute condition with the conditional occurrence probability (integrated value) X2 of the generated query attribute value. The update of the stored content X2a of the probability DB 6B is permitted. Here, “there is a statistically significant difference between the two probability distributions” means that the probability distribution of the document selection “has a characteristic distribution” for the attribute.

一方、特徴検出フィルタ部14Bは、比較の結果、両確率分布の間に、統計的に有意な差異がないときは、属性条件付発生確率DB6Bへのクエリー属性値の条件付発生確率X2の書き込みを禁止する。「両確率分布の間に、統計的に有意な差異がない」ときは、当該文書選択の確率分布が、当該属性について、「特徴的な分布を持たない」ことを意味している。上記特徴検出フィルタ部14Bは、当該条件付発生確率X2の書き込みに代えて、当該文書選択の確率分布が、当該属性について、「特徴的な分布を持たない」ことを示す情報(後述)を属性条件付発生確率DB6Bに書き込む。   On the other hand, if there is no statistically significant difference between the two probability distributions as a result of the comparison, the feature detection filter unit 14B writes the conditional occurrence probability X2 of the query attribute value to the attribute conditional occurrence probability DB 6B. Is prohibited. “There is no statistically significant difference between the two probability distributions” means that the probability distribution of the document selection “has no characteristic distribution” for the attribute. The feature detection filter unit 14B replaces the writing of the conditional occurrence probability X2 with the information (described later) indicating that the probability distribution of the document selection “has no characteristic distribution” for the attribute. Write to the conditional occurrence probability DB 6B.

次に、図9を参照して、属性発生確率DB13Bについて詳述する。
図9は、属性発生確率DB13Bに設定されている各種属性の発生確率テーブルTS2、TK2の一例を模式的に示す概念図である
この実施形態では、論理的なデータ構造としては、クエリー属性毎に独立して、属性の発生確率テーブルTS2、TK2が設定されている。図9には、利用者が持つ「クエリー属性」として、「所属」の発生確率テーブルTS2が例示され(同図(a))、また、利用者の検索要求が持つ「クエリー属性」として、「キーワード」の発生確率テーブルTK2が例示されている(同図(b))。
Next, the attribute occurrence probability DB 13B will be described in detail with reference to FIG.
FIG. 9 is a conceptual diagram schematically showing an example of the occurrence probability tables TS2 and TK2 of various attributes set in the attribute occurrence probability DB 13B. In this embodiment, the logical data structure is as follows for each query attribute. Independently, attribute generation probability tables TS2 and TK2 are set. FIG. 9 illustrates an occurrence probability table TS2 of “affiliation” as a “query attribute” possessed by a user (FIG. 9A), and “query attribute” possessed by a user search request includes “ The occurrence probability table TK2 of “keyword” is illustrated ((b) in the figure).

すなわち、属性「所属」の発生確率テーブルTS2には、図9(a)に示すように、(特定の文書ではなく)何れかの文書を選択する際の利用者が持つクエリー属性「所属」と、その選択の際、当該クエリー属性が所定の属性値を取る確率とが、対応付けられて表形式にまとめられている。クエリー属性「所属」は、「本社」、「支社1」、「支社2」等の属性値を持つ(同図(a))。
また、属性「キーワード」の発生確率テーブルTK1には、図9(b)に示すように、(特定の文書ではなく)何れかの文書を選択する際の利用者の検索要求が持つクエリー属性「キーワード」と、その選択の際、当該クエリー属性が所定の属性値を取る確率とが、対応付けられて表形式にまとめられている。この実施形態では、クエリー属性「キーワード」は、「トップページ」、及び「入退場申請」等の属性値を持つ(同図(b))。
That is, in the occurrence probability table TS2 of the attribute “affiliation”, as shown in FIG. 9A, the query attribute “affiliation” possessed by the user when selecting any document (not a specific document) is shown. In the selection, the probability that the query attribute takes a predetermined attribute value is associated with each other and summarized in a table format. The query attribute “affiliation” has attribute values such as “head office”, “branch office 1”, “branch office 2” ((a) in the figure).
In addition, in the occurrence probability table TK1 of the attribute “keyword”, as shown in FIG. 9B, the query attribute “having the search request of the user when selecting any document (not a specific document)” The “keyword” and the probability that the query attribute takes a predetermined attribute value at the time of selection are associated with each other and collected in a table format. In this embodiment, the query attribute “keyword” has attribute values such as “top page” and “entrance / exit request” ((b) in the figure).

上記を踏まえて、属性「所属」の発生確率テーブルTS2(同図(a))を参照すると、選択文書の如何を問わず、クエリー属性「所属」が「本社」を取る確率は「0.500」、「支社1」を取る確率は「0.250」、「支社2」を取る確率は「0.250」であることが示されている。
次に、属性「キーワード」の発生確率テーブルTK2には、(同図(b))を参照すると、選択文書の如何を問わず、クエリー属性「キーワード」が「トップページ」を取る確率は「0.20」、「入退場申請」を取る確率は「0.80」であることが示されている。
Based on the above, referring to the occurrence probability table TS2 of the attribute “affiliation” ((a) in the figure), regardless of the selected document, the probability that the query attribute “affiliation” takes “head office” is “0.50”. The probability of taking “Branch 1” is “0.250” and the probability of taking “Branch 2” is “0.250”.
Next, in the occurrence probability table TK2 of the attribute “keyword”, referring to FIG. 5B, the probability that the query attribute “keyword” takes “top page” is “0” regardless of the selected document. .20 ”, the probability of taking“ application for entrance / exit ”is“ 0.80 ”.

次に、図10を参照して、属性条件付発生確率DB6Bについて詳述する。
図10は、属性条件付発生確率DB6Bに設定されている各種属性の条件付発生確率テーブルTS3、TK3の一例を模式的に示す概念図である。
属性の条件付発生確率テーブルTS3、TK3には、同図(a)、(b)に示すように、当該文書選択の確率分布が、当該属性について、「特徴的な分布を持たない」ことを示す情報を表わすフラグを立てる列が付加されている。フラグは、例えば、真偽を表す数値や、ブール代数や、真偽を表す文字列(TRUE)等で記述される。
Next, the attribute conditional occurrence probability DB 6B will be described in detail with reference to FIG.
FIG. 10 is a conceptual diagram schematically showing an example of conditional occurrence probability tables TS3 and TK3 for various attributes set in the attribute conditional occurrence probability DB 6B.
In the conditional occurrence probability tables TS3 and TK3 of the attribute, as shown in FIGS. 9A and 9B, the probability distribution of the document selection indicates that the attribute has “no characteristic distribution”. A column for setting a flag indicating the information to be shown is added. The flag is described by, for example, a numerical value indicating true / false, a Boolean algebra, a character string (TRUE) indicating true / false, and the like.

この実施形態では、「TRUE」とのフラグが立つときは、当該文書選択の確率分布が、当該属性について、「特徴的な分布を持たない」ことを表わしている。図10(a)の例示では、文書識別子「全社共通トップページ」の行に、「TRUE」のフラグが立っているので、「全社共通トップページ」という文書選択の確率分布が、属性「所属」について、「特徴的な分布を持たない」ことを表わしている。「TRUE」のフラグが立つ文書識別子には、同図(a)に示すように、クエリー属性値毎の行が設けられておらず、クエリー属性値毎の確率値の記載も削除禁止されている。これは、文書選択の確率分布が、当該属性について、「特徴的な分布を持たない」文書については、属性の発生確率テーブルTS2、TK2を参照すれば、当該分布が反映されているので、属性の条件付発生確率テーブルTS3、TK3にわざわざ重複的記載をする必要がないからである。   In this embodiment, when the flag “TRUE” is set, the probability distribution of the document selection indicates that the attribute has “no characteristic distribution”. In the example of FIG. 10A, since the flag “TRUE” is set in the row of the document identifier “company-wide common top page”, the probability distribution of the document selection “company-wide common top page” has the attribute “affiliation”. For “has no characteristic distribution”. As shown in FIG. 6A, the document identifier with the flag “TRUE” is not provided with a row for each query attribute value, and the description of the probability value for each query attribute value is prohibited from being deleted. . This is because the probability distribution of document selection is reflected for the attribute, and for the document “having no characteristic distribution”, the distribution is reflected by referring to the attribute occurrence probability tables TS2 and TK2. This is because it is not necessary to make redundant descriptions in the conditional occurrence probability tables TS3 and TK3.

スコア算出部8Bは、属性の条件付発生確率テーブルTS3、TK3を参照して、「TRUE」のフラグが立っていないときは、第1の実施形態で述べたと同様のスコア計算を行う。一方、スコア算出部8Bは、参照の結果、「TRUE」のフラグが立っているときは、属性の条件付発生確率テーブルTS3、TK3には、当該文書について属性の条件付発生確率の記載はないので、代わりに、属性発生確率DB13Bに格納されているクエリー属性値の発生確率を用いてスコアを算出する。   The score calculation unit 8B refers to the attribute conditional occurrence probability tables TS3 and TK3, and performs the same score calculation as described in the first embodiment when the flag of “TRUE” is not set. On the other hand, when the flag “TRUE” is set as a result of the reference, the score calculation unit 8B does not describe the conditional occurrence probability of the attribute in the attribute conditional occurrence probability tables TS3 and TK3. Therefore, instead, the score is calculated using the occurrence probability of the query attribute value stored in the attribute occurrence probability DB 13B.

次に、図8乃至図12を参照して、第2の実施形態の動作について説明する。
図11は、スコア算出部8Bが実行するスコア算出処理の動作手順を示すフローチャート、また、図12は、確率DB生成部7Bが各種確率DB5、6B、13Bに対して実行する確率DB更新処理の動作手順を示すフローチャートである。
Next, the operation of the second embodiment will be described with reference to FIGS.
FIG. 11 is a flowchart showing the operation procedure of the score calculation process executed by the score calculation unit 8B. FIG. 12 shows the probability DB update process executed by the probability DB generation unit 7B on the various probability DBs 5, 6B and 13B. It is a flowchart which shows an operation | movement procedure.

スコア算出処理
まず、図11のフローチャート及び各種発生確率テーブル(図3、図9及び図10)を参照して、第2の実施形態におけるスコア算出処理の動作について説明する。
まず、図示せぬ利用者端末から、例えば、本社勤務の利用者Aが、利用者に関するクエリー属性「所属」の属性値として「本社」を、閲覧したい文書に関するクエリー属性「キーワード」の属性値として「入退場申請」を順次入力して、業務用文書検索システムに対して検索要求する。
業務用文書検索システムの文書検索部1は、利用者端末からの上記検索要求を受付けると、検索対象の文書の中から該当文書を検索して、検索結果文書リストを生成する。今の場合、生成された検索結果文書リストには、「全社共通トップページ」と「本社入退場申請」との2つの文書識別子(検索結果文書)が、この順に列挙されているとする。次に、文書検索部1は、生成した検索結果文書リストをクエリー属性情報と併せて、スコアリングシステムの文書スコアリング部4Bへ渡して、検索結果文書に対するスコアリングを要求する。なお、以下において,説明が簡略化又は省略されている事項は、上記した第1の実施形態で述べたと略同様である。
Score Calculation Processing First, the operation of the score calculation processing in the second embodiment will be described with reference to the flowchart of FIG. 11 and various occurrence probability tables (FIGS. 3, 9, and 10).
First, from a user terminal (not shown), for example, a user A who works at the head office uses “head office” as the attribute value of the query attribute “affiliation” relating to the user, and the attribute value of the query attribute “keyword” relating to the document to be viewed. Enter "entrance / exit application" in sequence and make a search request to the business document search system.
When the document search unit 1 of the business document search system receives the search request from the user terminal, the document search unit 1 searches for the corresponding document from the search target documents and generates a search result document list. In this case, it is assumed that two document identifiers (search result documents) of “company-wide common top page” and “head office entrance / exit application” are listed in this order in the generated search result document list. Next, the document search unit 1 passes the generated search result document list together with the query attribute information to the document scoring unit 4B of the scoring system, and requests scoring for the search result document. In the following description, items that are simplified or omitted are substantially the same as those described in the first embodiment.

スコア算出部8Bは、文書検索部1から、検索結果文書リストとクエリー属性情報と共に、スコアリング要求を受けると(図11のステップPa0)、これより、「全社共通トップページ」と「本社入退場申請」との文書識別子(検索結果文書)のスコアを逐次算出する処理を開始する。スコア算出部8Bは、ステップPa1において、まず、文書識別子「全社共通トップページ」を検索キーとして、文書発生確率DB5に設定されている文書選択の発生確率テーブルTB(図3)を参照して、検索結果文書「全社共通トップページ」を選択する発生確率として「0.5」の値を取得する。   When the score calculation unit 8B receives a scoring request from the document search unit 1 together with the search result document list and the query attribute information (step Pa0 in FIG. 11), the “company-wide common top page” and “entrance / exit to the head office” The process of sequentially calculating the score of the document identifier (search result document) “application” is started. In Step Pa1, the score calculation unit 8B first refers to the document selection occurrence probability table TB (FIG. 3) set in the document occurrence probability DB 5 using the document identifier “top page common throughout the company” as a search key. A value of “0.5” is acquired as an occurrence probability of selecting the search result document “company-wide common top page”.

次に、スコア算出部8Bは、ステップPa2に進み、文書識別子「全社共通トップページ」と「所属」のクエリー属性値「本社」とを検索キーとして、属性条件付発生確率DB6Bに設定されている属性「所属」の条件付発生確率テーブルTS3(図10(a))を参照する。スコア算出部8Bは、文書識別子「全社共通トップページ」の行のフラグの列項目を参照して、「全社共通トップページ」選択の確率分布は、属性「所属」について、「特徴的な分布を持っているか否か」を判定する。図10(a)には、文書識別子「全社共通トップページ」の行に、「TRUE」のフラグが立っているので、スコア算出部8Bは、文書「全社共通トップページ」選択の確率分布は、属性「所属」について、「特徴的な分布を持たない」との判定結果を得る。スコア算出部8Bは、「特徴的な分布を持たない」との判定結果を得たときは、ステップPa4に進む。   Next, the score calculation unit 8B proceeds to step Pa2, and is set in the attribute conditional occurrence probability DB 6B using the document identifier “top page common throughout the company” and the query attribute value “head office” of “affiliation” as search keys. Reference is made to the conditional occurrence probability table TS3 (FIG. 10A) of the attribute “affiliation”. The score calculation unit 8B refers to the column item of the flag in the row of the document identifier “company-wide common top page”, and the probability distribution of the “company-wide common top page” selection selects “characteristic distribution” for the attribute “affiliation”. It is determined whether or not it has. In FIG. 10A, since the flag “TRUE” is set in the row of the document identifier “company-wide common top page”, the score calculation unit 8B indicates that the probability distribution of the document “company-wide common top page” selection is For the attribute “affiliation”, a determination result of “having no characteristic distribution” is obtained. When the score calculation unit 8B obtains a determination result of “having no characteristic distribution”, the process proceeds to step Pa4.

ステップPa4において、スコア算出部8Bは、文書識別子「全社共通トップページ」と「所属」のクエリー属性値「本社」とを検索キーとして、属性発生確率DB13Bに設定されている属性「所属」の発生確率テーブルTS2(図9(a))を参照して、検索結果文書「全社共通トップページ」を選択する発生確率として「0.5」の値を取得する。   In step Pa4, the score calculation unit 8B generates the attribute “affiliation” set in the attribute occurrence probability DB 13B using the document identifier “top page common throughout the company” and the query attribute value “head office” of “affiliation” as search keys. With reference to the probability table TS2 (FIG. 9A), a value of “0.5” is acquired as the probability of occurrence of selecting the search result document “company-wide common top page”.

この後、スコア算出部8Bは、ステップPa2に戻り、文書識別子「全社共通トップページ」と、属性「キーワード」のクエリー属性値「入退場申請」とを検索キーとして、属性「キーワード」の条件付発生確率テーブルTK3(図10(b))を参照する。スコア算出部8Bは、文書識別子「全社共通トップページ」の行のフラグの列項目を参照して、「全社共通トップページ」選択の確率分布は、属性「キーワード」について、「特徴的な分布を持っているか否か」を判定する。
図10(b)には、文書識別子「全社共通トップページ」の行に、「TRUE」のフラグが立っていないので、スコア算出部8Bは、文書「全社共通トップページ」選択の確率分布は、属性「キーワード」について、「特徴的な分布を持つ」との判定結果を得る。スコア算出部8Bは、「特徴的な分布を持つ」との判定結果を得たときは、ステップPa4に進む。ステップPa4では、属性「キーワード」の条件付発生確率テーブルTK3の文書識別子「全社共通トップページ」の行項目が参照されて、文書識別子「全社共通トップページ」でクエリー属性値「入退場申請」の条件付発生確率として「0.10」の値を取得する(ステップPa5→Pa2→Pa3→Pa5)。
After that, the score calculation unit 8B returns to step Pa2, and uses the document identifier “company-wide common top page” and the query attribute value “entrance / exit application” of the attribute “keyword” as a search key and sets the condition of the attribute “keyword”. Refer to the occurrence probability table TK3 (FIG. 10B). The score calculation unit 8B refers to the column item of the flag of the row of the document identifier “company-wide common top page”, and the probability distribution of the “company-wide common top page” selection selects “characteristic distribution” for the attribute “keyword”. It is determined whether or not it has.
In FIG. 10B, since the flag of “TRUE” is not set in the row of the document identifier “company-wide common top page”, the score calculation unit 8B has the probability distribution of selecting the document “company-wide common top page” as follows: A determination result of “having a characteristic distribution” is obtained for the attribute “keyword”. When the score calculation unit 8B obtains the determination result “having a characteristic distribution”, the process proceeds to step Pa4. In step Pa4, the row item of the document identifier “company-wide common top page” of the conditional occurrence probability table TK3 of the attribute “keyword” is referred to, and the query attribute value “entrance / exit application” is found in the document identifier “company-wide common top page”. A value of “0.10” is acquired as the conditional occurrence probability (steps Pa5 → Pa2 → Pa3 → Pa5).

次に、スコア算出部8Bは、ステップPa6に進み、取得した文書選択の発生確率の値「0.5」と、クエリー属性値「本社」の発生確率の値「0.5」と、クエリー属性値「入退場申請」の条件付発生確率の値「0.1」とを積算統合[0.5*0.5*0.10]して、検索結果文書「全社共通トップページ」のスコア「0.025」を算出する。   Next, the score calculation unit 8B proceeds to step Pa6, where the acquired document selection occurrence probability value “0.5”, the query attribute value “head office” occurrence probability value “0.5”, and the query attribute The value “0.1” of the conditional occurrence probability of the value “application for entrance / exit” is integrated and integrated [0.5 * 0.5 * 0.10], and the score “ 0.025 "is calculated.

検索結果文書「全社共通トップページ」のスコアが算出されると(ステップPa6)、スコア算出部8Bは、ステップPa1に戻り(ステップPa7)、検索結果文書リストに列挙されている、もう1つの検索結果文書「本社入退場申請」について、上述のスコア算出処理(ステップPa1乃至Pa6)を繰り返す。   When the score of the search result document “company-wide common top page” is calculated (step Pa6), the score calculation unit 8B returns to step Pa1 (step Pa7), and another search listed in the search result document list. The above score calculation process (steps Pa1 to Pa6) is repeated for the result document “head office entry / exit application”.

次に、スコア算出部8Bは、全ての検索結果文書についてのスコアを算出した後、スコア付きの検索結果文書リスト(スコア算出結果)を文書検索部1へ返却して(ステップPa8)処理を終了する。
文書検索部1は、スコア算出部8Bから、スコア付きの検索結果文書リストを取得すると、検索結果文書リストをスコア順、つまり、優先度の高い順に並び替えて利用者端末に通知する。
Next, after calculating the scores for all the search result documents, the score calculation unit 8B returns the search result document list (score calculation result) with scores to the document search unit 1 (step Pa8) and ends the processing. To do.
When the document search unit 1 acquires the search result document list with scores from the score calculation unit 8B, the document search unit 1 rearranges the search result document list in order of score, that is, in order of priority, and notifies the user terminal.

確率DB更新処理
次に、図12のフローチャートを参照して、第2の実施形態における確率DB更新処理の動作について説明する。
確率DB生成部7Bは、文書選択履歴DB3の中の文書選択履歴情報テーブルTAを参照して、文書発生確率DB5と属性条件付発生確率DB6Bと属性発生確率DB13Bとを更新するための、確率DB更新処理を実施する。確率DB生成部7Bにおいて、文書選択履歴取得部9bは、文書選択履歴DB3の中から、前回までの確率DB更新処理の際に参照された旧履歴情報以降の最近一定期間(例えば、最近1ヶ月の期間)に亘る履歴情報を新履歴情報として取得する(図12のステップPb1)。取得された新履歴情報は、発生確率算出部10bに渡される。
Probability DB Update Processing Next, the operation of the probability DB update processing in the second embodiment will be described with reference to the flowchart of FIG.
The probability DB generation unit 7B refers to the document selection history information table TA in the document selection history DB3, and updates the document occurrence probability DB5, the attribute conditional occurrence probability DB6B, and the attribute occurrence probability DB13B. Perform the update process. In the probability DB generation unit 7B, the document selection history acquisition unit 9b selects a recent fixed period after the old history information referred to in the probability DB update process up to the previous time from the document selection history DB 3 (for example, the most recent month) The history information over a period of () is acquired as new history information (step Pb1 in FIG. 12). The acquired new history information is passed to the occurrence probability calculation unit 10b.

発生確率算出部10bは、文書選択履歴取得部9bから与えられた新履歴情報に基づいて、検索対象の文書毎に文書選択の新発生確率X1bを算出し、また、属性毎にクエリー属性値の(文書毎)新条件付発生確率と、(文書の如何を問わない)新発生確率X3bとを算出する(ステップPb2)。文書毎に算出された文書選択の新発生確率X1bと、属性毎に算出されたクエリー属性値の新条件付発生確率X2bと新発生確率X3bとは、発生確率統合部11bに渡される。   The occurrence probability calculation unit 10b calculates a new occurrence probability X1b of document selection for each search target document based on the new history information given from the document selection history acquisition unit 9b, and the query attribute value for each attribute. (For each document) A new conditional occurrence probability and a new occurrence probability X3b (regardless of the document) are calculated (step Pb2). The new occurrence probability X1b of document selection calculated for each document, the new conditional occurrence probability X2b and the new occurrence probability X3b of the query attribute value calculated for each attribute are passed to the occurrence probability integration unit 11b.

重み算出部12bは、文書発生確率DB5(文書選択の発生確率テーブルTB)から、検索対象の文書毎に、文書選択の旧発生確率X1aを取得して、その重みを算出する(ステップPb3)。同様に、重み算出部12bは、属性条件付発生確率DB6B(属性の条件付発生確率テーブルTS3、TK3)から、属性毎に、各クエリー属性値の(文書毎)旧条件付発生確率X2aを取得して、その重みを算出する(同Pb3)。さらに、重み算出部12bは、属性発生確率DB13B(属性の発生確率テーブルTS2、TK2)から、属性毎に、各クエリー属性値の(文書の如何を問わない)旧発生確率X3aを取得して、その重みを算出する(同Pb3)。算出された文書選択の旧発生確率X1aの重みと、クエリー属性値の旧条件付発生確率X2a及び旧発生確率X3aの重みは、発生確率統合部11bに渡される。   The weight calculation unit 12b obtains the old occurrence probability X1a of the document selection for each document to be searched from the document occurrence probability DB5 (document selection occurrence probability table TB), and calculates the weight (Step Pb3). Similarly, the weight calculation unit 12b acquires the old conditional occurrence probability X2a (for each document) of each query attribute value for each attribute from the attribute conditional occurrence probability DB 6B (attribute conditional occurrence probability table TS3, TK3). Then, the weight is calculated (Pb3). Further, the weight calculation unit 12b acquires the old occurrence probability X3a (regardless of the document) of each query attribute value for each attribute from the attribute occurrence probability DB 13B (attribute occurrence probability table TS2, TK2). The weight is calculated (same Pb3). The calculated weight of the old occurrence probability X1a of document selection and the old conditional occurrence probability X2a and old occurrence probability X3a of the query attribute value are passed to the occurrence probability integration unit 11b.

発生確率統合部11bは、文書毎に、発生確率算出部10bと文書発生確率DB5とから与えられる文書選択の新旧発生確率X1b、X1aを、重み算出部12bで算出された旧発生確率の重みを用いて統合する(ステップPb4)。同様に、発生確率統合部11bは、属性毎に、発生確率算出部10aと文書発生確率DB5とから与えられる各クエリー属性値の新旧条件付発生確率X2a、X2bを、旧条件付発生確率X2aの重みを用いて統合する(ステップPb4)。さらに、発生確率統合部11bは、属性毎に、発生確率算出部10aと属性発生確率DB13Bとから与えられる各クエリー属性値の(文書の如何を問わない)新旧発生確率X3a、X3bを、旧発生確率X3aの重みを用いて統合する(ステップPb4)。   For each document, the occurrence probability integration unit 11b uses the old and new occurrence probabilities X1b and X1a of document selection given from the occurrence probability calculation unit 10b and the document occurrence probability DB 5, and the weight of the old occurrence probability calculated by the weight calculation unit 12b. And integrated (step Pb4). Similarly, the occurrence probability integration unit 11b uses, for each attribute, the new and old conditional occurrence probabilities X2a and X2b of the query attribute values given from the occurrence probability calculation unit 10a and the document occurrence probability DB 5 as the old conditional occurrence probability X2a. Integration is performed using weights (step Pb4). Further, the occurrence probability integration unit 11b generates old and new occurrence probabilities X3a and X3b (regardless of the document) of each query attribute value given from the occurrence probability calculation unit 10a and the attribute occurrence probability DB 13B for each attribute. Integration is performed using the weight of the probability X3a (step Pb4).

この実施形態では、新旧発生確率の統合は、第1の実施形態で述べたと同様の式(1)、(2)に加えて、式(5)に示される重み付け加算方式を用いて行われる。
X1=X1a*W1+X1b*(1−W1) (1)
X2=X2a*W2+X2b*(1−W2) (2)
X3=X3a*W3+X3b*(1−W3) (3)
ここで、X1aは文書選択の旧発生確率(初期設定値は0又は1)、X1bは文書選択の新発生確率、X1は文書選択の新旧発生確率の統合値、W1は文書選択の旧発生確率の重みである。X2aはクエリー属性値の旧条件付発生確率(初期値設定は0又は1)、X2bはクエリー属性値の新条件付発生確率、X2はクエリー属性値の新旧条件付発生確率の統合値、W2はクエリー属性値の旧条件付発生確率の重みである。X3aはクエリー属性値の旧発生確率(初期値設定は0又は1)、X3bはクエリー属性値の新発生確率、X3はクエリー属性値の新旧発生確率の統合値、W3はクエリー属性値の旧発生確率の重みである。
In this embodiment, the new and old occurrence probabilities are integrated by using the weighted addition method shown in Expression (5) in addition to Expressions (1) and (2) similar to those described in the first embodiment.
X1 = X1a * W1 + X1b * (1-W1) (1)
X2 = X2a * W2 + X2b * (1-W2) (2)
X3 = X3a * W3 + X3b * (1-W3) (3)
Here, X1a is the old occurrence probability of the document selection (initial setting value is 0 or 1), X1b is the new occurrence probability of the document selection, X1 is the integrated value of the new and old occurrence probability of the document selection, and W1 is the old occurrence probability of the document selection. Is the weight. X2a is the old conditional occurrence probability of the query attribute value (initial value is 0 or 1), X2b is the new conditional occurrence probability of the query attribute value, X2 is the integrated value of the old and new conditional occurrence probability of the query attribute value, and W2 is This is the weight of the old conditional occurrence probability of the query attribute value. X3a is the old occurrence probability of the query attribute value (initial value is 0 or 1), X3b is the new occurrence probability of the query attribute value, X3 is the integrated value of the old and new occurrence probability of the query attribute value, and W3 is the old occurrence of the query attribute value Probability weight.

発生確率統合部11bは、文書選択及びクエリー属性値に関して新旧発生確率の統合が完了すると、逐次又は一括して、新旧発生確率の統合値X1、X3で、文書発生確率DB5又は属性発生確率DB13Bの記憶内容X1a、X3aを更新する(ステップPb4)。発生確率統合部11bは、また、クエリー属性に関して新旧発生確率及び新旧条件付発生確率の統合が完了すると、新旧発生確率の統合値X2、X3を、特徴検出フィルタ部14Bに渡す(ステップPb4)。   When the integration of the new and old occurrence probabilities regarding the document selection and the query attribute value is completed, the occurrence probability integration unit 11b sequentially or collectively uses the integrated values X1 and X3 of the old and new occurrence probabilities, and the document occurrence probability DB5 or the attribute occurrence probability DB 13B. The stored contents X1a and X3a are updated (step Pb4). When the integration of the new and old occurrence probabilities and the new and old conditional occurrence probabilities for the query attributes is completed, the occurrence probability integration unit 11b passes the integrated values X2 and X3 of the new and old occurrence probabilities to the feature detection filter unit 14B (step Pb4).

特徴検出フィルタ部14Bは、発生確率統合部11bから与えられるクエリー属性値の新旧条件付発生確率の統合値X2と、新旧発生確率の統合値X3との確率分布を比較し、有意な差が有るときは、「特徴的な分布である」と判定する(ステップPb5)。特徴検出フィルタ部14Bは、比較の結果、「特徴的な分布である」と判定したときは、特徴的な分布を持つ属性の条件付発生確率(統合値)X2を、属性条件付発生確率DB6B(属性の条件付発生確率テーブルTS3、TK3)に記録する。一方、特徴検出フィルタ部14Bは、比較の結果、両発生確率(統合値)X2、X3間に有意な差がないときは、属性の条件付発生確率テーブルTS3、TK3に、当該文書について属性の条件付発生確率(統合値)X2を記録する代わりに、「特徴的な分布を持たない」ことを示す「TRUE」のフラグを立てる(図10(a))。   The feature detection filter unit 14B compares the probability distribution between the integrated value X2 of the new and old conditional occurrence probability of the query attribute value given from the occurrence probability integration unit 11b and the integrated value X3 of the old and new occurrence probability, and there is a significant difference. Is determined to be “characteristic distribution” (step Pb5). When the feature detection filter unit 14B determines that the distribution is “characteristic distribution” as a result of the comparison, the conditional occurrence probability (integrated value) X2 of the attribute having the characteristic distribution is used as the attribute conditional occurrence probability DB 6B. It records in (attribute conditional occurrence probability table TS3, TK3). On the other hand, when there is no significant difference between the two occurrence probabilities (integrated values) X2 and X3 as a result of the comparison, the feature detection filter unit 14B stores the attribute for the document in the attribute conditional occurrence probability tables TS3 and TK3. Instead of recording the conditional occurrence probability (integrated value) X2, a flag of “TRUE” indicating “no characteristic distribution” is set (FIG. 10A).

つまり、この実施形態では、当該文書選択の確率分布が、当該属性について、「特徴的な分布を持つ」条件付発生確率のみが属性条件付発生確率DB6Bに記録され、「特徴的な分布を持たない」条件付発生確率は、属性条件付発生確率DB6Bに記録されない。当該属性について、「特徴的な分布を持たない」条件付発生確率は、属性発生確率DB13B(属性の発生確率テーブルTS2、TK2)に一括記録されていると想定できるので、属性条件付発生確率DB6Bへの記録を省略できるためである。   That is, in this embodiment, only the conditional occurrence probability “having a characteristic distribution” for the attribute is recorded in the attribute conditional occurrence probability DB 6B, and the document selection probability distribution is “having a characteristic distribution”. The “none” conditional occurrence probability is not recorded in the attribute conditional occurrence probability DB 6B. Since it can be assumed that the conditional occurrence probability “without characteristic distribution” for the attribute is collectively recorded in the attribute occurrence probability DB 13B (attribute occurrence probability table TS2, TK2), the attribute conditional occurrence probability DB 6B This is because the recording to can be omitted.

ここで、どのような場合が、統計的に有意な差がないと言えるかは、必要に応じて,任意に定義することができ、例えば、検定を用いても良い。この実施形態では、簡単のため、所定の属性を構成する全てのクエリー属性値について、条件付発生確率(統合値)X2と、発生確率(統合値)X3との間の差が所定の僅少範囲(例えば、「0.05」以内)であるとき、統計的に有意な差はないと判定される。
例えば、文書識別子「全社共通トップページ」を選択する際の、クエリー属性「所属」の条件付発生確率(統合値)X2が、クエリー属性値として「本社」を取る確率「0.497」、「支社1」を取る確率「0.256」、「支社2」を取る確率「0.247」の割合で分布しているとする。
Here, what can be said to be statistically not significant can be arbitrarily defined as necessary. For example, a test may be used. In this embodiment, for the sake of simplicity, the difference between the conditional occurrence probability (integrated value) X2 and the occurrence probability (integrated value) X3 is within a predetermined small range for all query attribute values constituting the predetermined attribute. (For example, within “0.05”), it is determined that there is no statistically significant difference.
For example, when the document identifier “company-wide common top page” is selected, the conditional occurrence probability (integrated value) X2 of the query attribute “affiliation” takes “head office” as the query attribute value “0.497”, “ It is assumed that the distribution is performed at a rate of “0.256” for taking “branch 1” and “0.247” for taking “branch 2”.

一方、属性の発生確率テーブルTS2に記録されたクエリー属性値「所属」の発生確率(統合値)X3は、図9(a)に示すように、クエリー属性値として「本社」を取る確率「0.500」、「支社1」を取る確率「0.250」、「支社2」を取る確率「0.250」の割合で分布している。   On the other hand, the occurrence probability (integrated value) X3 of the query attribute value “affiliation” recorded in the attribute occurrence probability table TS2 is, as shown in FIG. .500 ”, the probability of taking“ Branch 1 ”is“ 0.250 ”, and the probability of taking“ Branch 2 ”is“ 0.250 ”.

このような確率分布の場合、属性「所属」を構成する全てのクエリー属性値について、条件付発生確率(統合値)X2と、発生確率(統合値)X3との間の差が、最大で、「0.006」であるので、統計的に有意な差はないと判定される。したがって、特徴検出フィルタ部14Bは、文書「全社共通トップページ」選択の確率分布が、属性「所属」について、「特徴的な分布を持たない」と判定する(ステップPb5)。
そこで、特徴検出フィルタ部14Bは、属性「所属」の条件付発生確率テーブルTS3に、文書「全社共通トップページ」を選択する際の、クエリー属性値の条件付発生確率(統合値)X2を記録する代わりに、文書「全社共通トップページ」の行項目に、「特徴的な分布を持たない」ことを示す「TRUE」のフラグを設定する(図10(a))。条件付発生確率テーブルTS3、TK3(図10)にフラグの列を設定することにより、第1の実施形態で使用される条件付発生確率テーブルTS1、TK1(図4)では、クエリー属性値の数だけ、「全社共通トップページ」の行数を必要としたが、第2の実施形態では、省略削除することができる。
In the case of such a probability distribution, for all query attribute values constituting the attribute “affiliation”, the difference between the conditional occurrence probability (integrated value) X2 and the occurrence probability (integrated value) X3 is the largest, Since it is “0.006”, it is determined that there is no statistically significant difference. Therefore, the feature detection filter unit 14B determines that the probability distribution of selecting the document “company-wide common top page” is “has no characteristic distribution” for the attribute “affiliation” (step Pb5).
Therefore, the feature detection filter unit 14B records the conditional occurrence probability (integrated value) X2 of the query attribute value when selecting the document “company-wide common top page” in the conditional occurrence probability table TS3 of the attribute “affiliation”. Instead, a flag of “TRUE” indicating that “there is no characteristic distribution” is set in the line item of the document “top page common throughout the company” (FIG. 10A). By setting a flag column in the conditional occurrence probability tables TS3 and TK3 (FIG. 10), in the conditional occurrence probability tables TS1 and TK1 (FIG. 4) used in the first embodiment, the number of query attribute values However, the number of rows of the “company-wide common top page” is required, but in the second embodiment, it can be omitted.

確率DB生成部7Bは、特徴検出フィルタ部14Bが、全ての文書、全てのクエリー属性について、上述の比較判定に基づく記録処理・フラグの設定処理を完了すると、当該DB更新処理を終了する(ステップSb6)。   When the feature detection filter unit 14B completes the recording process / flag setting process based on the comparison determination described above for all documents and all query attributes, the probability DB generation unit 7B ends the DB update process (Step S1). Sb6).

それゆえ、第2の実施形態によっても、上述の第1の実施形態で述べたと略同様の効果を得ることができる。加えて、第2の実施形態によれば、特徴的な分布を持たない属性の条件付発生確率情報を冗長なデータとして、属性条件付発生確率DB6Bから除去できるため、必要な記憶装置資源や、計算資源を削減することができる。   Therefore, according to the second embodiment, substantially the same effect as described in the first embodiment can be obtained. In addition, according to the second embodiment, conditional occurrence probability information of attributes having no characteristic distribution can be removed from the attribute conditional occurrence probability DB 6B as redundant data, so that necessary storage device resources, Calculation resources can be reduced.

変形例
図13は、第2の実施形態の変形例である検索結果文書のスコアリングシステムの構成を示すブロック図である。
第2の実施形態(図8)では、特徴検出フィルタ部14Bは、属性の発生確率X3を発生確率統合部11bから取得するようにしたが、これに限らず、図13に示すように、特徴検出フィルタ部14Cが、属性発生確率DB13Cから直接、属性の発生確率X3を取得しても良い。この場合において、発生確率統合部11cが、特徴検出フィルタ部14Cへ属性の条件付発生確率を渡す前に、属性発生確率DB13の記憶内容X2aを更新しておくのが好ましい。なお、図13において、図8に示す構成部分と同一の各部(又は対応する各部)には、同一符号(又は同一符号に添え字)を付して、その説明を省略又は簡略化する。
Modified Example FIG. 13 is a block diagram showing a configuration of a search result document scoring system which is a modified example of the second embodiment.
In the second embodiment (FIG. 8), the feature detection filter unit 14B acquires the attribute occurrence probability X3 from the occurrence probability integration unit 11b. However, the present invention is not limited to this, as shown in FIG. The detection filter unit 14C may acquire the attribute occurrence probability X3 directly from the attribute occurrence probability DB 13C. In this case, it is preferable that the occurrence probability integration unit 11c updates the storage content X2a of the attribute occurrence probability DB 13 before passing the conditional occurrence probability of the attribute to the feature detection filter unit 14C. In FIG. 13, the same parts (or corresponding parts) as those shown in FIG. 8 are denoted by the same reference numerals (or the same reference numerals), and the description thereof is omitted or simplified.

以上、この発明の一実施形態を図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計の変更等があってもこの発明に含まれる。例えば、上述の実施形態では、各種の発生確率を単純に積算統合処理することでスコアを算出するようにしたが、これに限定されるものではなく、例えば,各種の発生確率に重み付けをした後、積算統合処理するようにしても良い。また、上述の実施形態では、重み付け加算方式を用いて新旧発生確率の統合を行うようにしたが、これに限定されるものではなく、必要に応じて、重み付けを省略しても良い。
また、重み計算処理モデルとしてシグモイド関数を用いたが、これに限らず、必要に応じて、一次関数、二次関数、三角関数、他の指数関数、又はこれらの組合せからなる関数モデルを用いても良い。加えて、扱う発生確率の種類毎に、異なる関数モデルや異なるパラメタの組合せを用いるようにしても良い。
As described above, the embodiment of the present invention has been described in detail with reference to the drawings. However, the specific configuration is not limited to this embodiment, and there are design changes and the like within the scope not departing from the gist of the present invention. However, it is included in this invention. For example, in the above-described embodiment, the score is calculated by simply integrating and integrating various occurrence probabilities, but the present invention is not limited to this. For example, after weighting various occurrence probabilities The integration integration process may be performed. In the above-described embodiment, the new and old occurrence probabilities are integrated using the weighted addition method. However, the present invention is not limited to this, and weighting may be omitted as necessary.
In addition, the sigmoid function is used as the weight calculation processing model. However, the present invention is not limited to this, and a function model composed of a linear function, a quadratic function, a trigonometric function, another exponential function, or a combination thereof is used as necessary. Also good. In addition, different function models and combinations of different parameters may be used for each type of occurrence probability handled.

また、上述の第1の実施形態では、図3に示すように、文書発生確率DB5が、単一のテーブル(文書選択の発生確率テーブルTB)から構成される場合について述べたが、論理的に図3と同等のデータ構造を持つのであれば、複数のテーブルから構成されるようにしても良い。
また、上述の文書検索部1では、文書スコアリング部4Aから取得したスコアのみに基づいて、検索結果文書リストをスコア順に並び替えるようにしたが、これに限定されない。例えば、文書検索部1自身が生成するTF(Term Frequency)−IDF(Inverse Document Frequency)等のスコアと、文書スコアリング部4Aが生成したスコアとを統合し、統合して得られたスコアに基づいて検索結果文書リストを並び替えるようにしても良い。
また、上述の第1の実施形態では、図4に示すように、クエリー属性毎の条件付発生確率テーブルを設けるようにしたが、これに限らず、論理的に属性毎のテーブルに分解できるのであれば、属性条件付発生確率DB6Aは、複数種のクエリー属性を項目として含むテーブルから構成されても良い。これとは逆に、論理的にクエリー属性毎のテーブルに統合できるのであれば、属性条件付発生確率DB6Aは、クエリー属性の種類の数より多い数のテーブルから構成されても良い。
In the first embodiment described above, as shown in FIG. 3, the document occurrence probability DB 5 has been described as being composed of a single table (document selection occurrence probability table TB). If it has a data structure equivalent to that shown in FIG. 3, it may be composed of a plurality of tables.
In the document search unit 1 described above, the search result document list is rearranged in order of score based only on the score acquired from the document scoring unit 4A. However, the present invention is not limited to this. For example, a score such as TF (Term Frequency) -IDF (Inverse Document Frequency) generated by the document search unit 1 itself and a score generated by the document scoring unit 4A are integrated, and based on the score obtained by the integration. The search result document list may be rearranged.
In the first embodiment, as shown in FIG. 4, a conditional occurrence probability table for each query attribute is provided. However, the present invention is not limited to this, and can be logically decomposed into a table for each attribute. If there is, the attribute conditional occurrence probability DB 6A may be composed of a table including a plurality of types of query attributes as items. On the contrary, as long as it can be logically integrated into a table for each query attribute, the attribute conditional occurrence probability DB 6A may be composed of a larger number of tables than the number of types of query attributes.

また、上述の各実施形態では、スコア算出に必要な条件付発生確率の標本空間として、「所属」と「キーワード」との2種類の属性を用いるようにしたが、標本空間としての属性は、2種類に限らず、必要に応じて、増減できる。例えば、利用者が属する企業の事業規模が大きい程、また、その業種が分散型である程、標本空間としてのクエリー属性の数を増やすようにしても良く、これに対して、利用者が属する企業の事業規模が小さく、その業種が集中型であれば、標本空間としてのクエリー属性は1つでも良い。   In each of the above-described embodiments, two types of attributes of “affiliation” and “keyword” are used as the sample space of the conditional occurrence probability necessary for calculating the score. Not limited to two types, it can be increased or decreased as necessary. For example, the larger the business scale of the company to which the user belongs, and the more the type of business is distributed, the more the number of query attributes as a sample space may be increased. If the business scale of a company is small and the type of industry is concentrated, only one query attribute as a sample space may be used.

また、上述の各実施形態では、クエリー属性として、「所属」、「キーワード」を用いたが、例示であり、これらに限定されず、別種の属性を単一で、又は、任意の組合せで用いても良いことは勿論である。別種の属性としては、例えば、「職位」、「勤続年数」、「勤務地」、「検索日時」、「検索年月日」等を挙げることができる。なお、「検索日時」や「検索年月日」等の連続的な情報は、任意の幅値を持つ時間帯や期間等に分割して保持するようにしても良い。   In each of the above-described embodiments, “affiliation” and “keyword” are used as query attributes. However, the query attributes are not limited to these examples, and different attributes are used singly or in any combination. Of course, it may be. Examples of other types of attributes include “position”, “year of service”, “work location”, “search date”, “search date”, and the like. Note that continuous information such as “search date and time” and “search date” may be divided and held in time zones or periods having arbitrary width values.

また、上述の第2の実施形態では、当該文書選択の確率分布が当該属性について特徴的な分布でないことを表すために、属性の条件付発生確率テーブルにフラグという列項目を設けるようにしたが、これに限らない。フラグに代えて、例えば、属性や確率の列に空文字(null)を指定することで、あるいは、各属性について「文書選択の特徴的な確率分布の有無」を示す専用テーブルを設定することで、上記フラグと同様の機能を持たせることもできる。   In the second embodiment described above, the column item “flag” is provided in the conditional occurrence probability table of the attribute in order to indicate that the probability distribution of the document selection is not a characteristic distribution for the attribute. Not limited to this. Instead of the flag, for example, by specifying a null character (null) in the attribute or probability column, or by setting a dedicated table indicating “the presence or absence of a characteristic probability distribution of document selection” for each attribute, A function similar to that of the flag can also be provided.

文書インデックスから関連文書を検索する情報検索装置に適用できる。1企業内に限らず、広範なコミュニティ又はコミュニティ間で利用できる。   The present invention can be applied to an information retrieval apparatus that retrieves related documents from a document index. It can be used not only within one company but also in a wide community or between communities.

1 文書検索部(文書検索手段)
2 行動履歴取得部
3 文書選択履歴DB(文書選択履歴格納部)
TA 文書選択履歴情報テーブル
4A、4B、4C 文書スコアリング部
5 文書発生確率DB(確率情報格納部)
TB 文書選択の発生確率テーブル
6A、6B 属性条件付発生確率DB(確率情報格納部)
TS1、TS3 属性「所属」の条件付発生確率テーブル
TK1、TK3 属性「キーワード」の条件付発生確率テーブル
7A、7B、7C 確率DB生成部(確率情報生成手段)
8A、8B スコア算出部(スコア算出手段)
9a、9b 文書選択履歴取得部(確率情報生成手段の一部)
10a、10b 発生確率算出部(確率情報生成手段の一部)
11a、11b、11c 発生確率統合部(確率情報生成手段の一部)
12a、12b 重み算出部(確率情報生成手段の一部)
13B、13C 属性発生確率DB(確率情報格納部)
TS2 属性「所属」の発生確率テーブル
TK2 属性「キーワード」の発生確率テーブル
14B、14C 特徴検出フィルタ部(フィルタ手段)
1 Document search part (document search means)
2 Action history acquisition unit 3 Document selection history DB (document selection history storage unit)
TA document selection history information table 4A, 4B, 4C Document scoring unit 5 Document occurrence probability DB (probability information storage unit)
TB document selection occurrence probability table 6A, 6B Occurrence probability DB with attribute condition (probability information storage unit)
TS1, TS3 Conditional occurrence probability table with attribute “affiliation” TK1, TK3 Conditional occurrence probability table with attribute “keyword” 7A, 7B, 7C Probability DB generation unit (probability information generation means)
8A, 8B Score calculation unit (score calculation means)
9a, 9b Document selection history acquisition unit (part of probability information generation means)
10a, 10b Occurrence probability calculation unit (part of probability information generation means)
11a, 11b, 11c Occurrence probability integration unit (part of probability information generation means)
12a, 12b Weight calculation unit (part of probability information generation means)
13B, 13C Attribute occurrence probability DB (probability information storage unit)
TS2 attribute “affiliation” occurrence probability table TK2 attribute “keyword” occurrence probability table 14B, 14C feature detection filter unit (filter means)

Claims (38)

利用者の今回の検索要求に対する応答として、文書検索手段から提供される検索結果に列挙された各文書について、
利用者の過去の文書選択履歴からそれぞれ生成された、第1の統計情報としての、利用者による当該文書選択の発生確率と、第2の統計情報としての、当該文書を選択する際の今回の利用者又はその検索要求が持つ、少なくとも一の属性情報の条件付発生確率とに基づいて、
利用者の今回の検索要求に適合する蓋然性の程度を推定し、スコアとして数値化するスコア算出手段を備えてなることを特徴とする検索結果文書のスコアリングシステム。
As a response to the user's current search request, for each document listed in the search results provided by the document search means,
The probability of occurrence of the document selection by the user as the first statistical information respectively generated from the past document selection history of the user, and the current time when selecting the document as the second statistical information Based on the conditional occurrence probability of at least one attribute information that the user or the search request has,
A scoring system for search result documents, comprising score calculation means for estimating a probability of conformity to a user's current search request and digitizing the score.
利用者の過去の文書選択履歴から、検索対象の文書毎に、第1の統計情報としての、利用者による当該文書選択の発生確率と、第2の統計情報としての、当該文書を選択する際の利用者又はその検索要求が持つ各属性情報の条件付発生確率とを生成する確率情報生成手段と、
利用者の今回の検索要求に対する応答として、文書検索手段から提供される検索結果に列挙された各文書について、前記確率情報生成手段にてそれぞれ生成された、第1の統計情報としての、利用者による当該文書選択の発生確率と、第2の統計情報としての、当該文書を選択する際の今回の利用者又はその検索要求が持つ、少なくとも一の属性情報の条件付発生確率とに基づいて、利用者の今回の検索要求に適合する蓋然性の程度を推定し、スコアとして数値化するスコア算出手段とを備えてなることを特徴とする検索結果文書のスコアリングシステム。
When selecting the document as the first statistical information as the first statistical information and the document as the second statistical information from the user's past document selection history as the first statistical information Probability information generation means for generating a conditional occurrence probability of each attribute information that the user or the search request has,
As a response to the user's current search request, the user as the first statistical information generated by the probability information generation unit for each document listed in the search result provided by the document search unit On the basis of the occurrence probability of the document selection by and the conditional occurrence probability of at least one attribute information possessed by the current user or the search request when selecting the document as the second statistical information, A scoring system for search result documents, comprising score calculation means for estimating a probability of conformity to a user's current search request and digitizing the score.
前記スコア算出手段は、利用者の今回の検索要求に基づく前記検索結果に列挙された各文書について、前記第1の統計情報としての、前記文書選択の発生確率と、前記第2の統計情報としての、少なくとも一の前記属性情報の条件付発生確率とを積算統合処理して前記スコアを算出することを特徴とする請求項1又は2記載の検索結果文書のスコアリングシステム。   The score calculation means, for each document listed in the search result based on the user's current search request, as the first statistical information, the occurrence probability of the document selection, and the second statistical information 3. The search result document scoring system according to claim 1, wherein the score is calculated by integrating and integrating the conditional occurrence probability of at least one of the attribute information. 前記第2の統計情報としての、前記属性情報の条件付発生確率は、検索対象の文書毎に、かつ、当該文書を選択する際の利用者又はその検索要求が持つ少なくとも一の属性について、該属性が各属性値を取る確率であると定義されることを特徴とする請求項1又は2記載の検索結果文書のスコアリングシステム。   The conditional occurrence probability of the attribute information, as the second statistical information, is calculated for each document to be searched and for at least one attribute of the user or the search request when selecting the document. 3. The scoring system for search result documents according to claim 1, wherein the attribute is defined as a probability of taking each attribute value. 検索対象の文書毎に、前記確率情報生成手段にてそれぞれ生成された、第1の統計情報としての前記文書選択の発生確率と、第2の統計情報としての前記各属性情報の条件付発生確率とを格納する確率情報格納部をさらに備え、かつ、
前記スコア算出手段は、前記確率情報格納部の中から該当する前記第1及び第2の統計情報を読み出して、前記スコアを算出することを特徴とする請求項2記載の検索結果文書のスコアリングシステム。
The occurrence probability of the document selection as the first statistical information and the conditional occurrence probability of each attribute information as the second statistical information, which are respectively generated by the probability information generation means for each search target document And a probability information storage unit for storing
3. The scoring of a search result document according to claim 2, wherein the score calculation means calculates the score by reading out the corresponding first and second statistical information from the probability information storage unit. system.
前記文書検索手段から提供される前記検索結果に基づく利用者の過去の文書選択履歴を格納する文書選択履歴格納部をさらに備え、かつ、
前記確率情報生成手段は、前記文書選択履歴格納部から前記文書選択履歴を読み出して、前記第1及び第2の統計情報を生成することを特徴とする請求項2記載の検索結果文書のスコアリングシステム。
A document selection history storage unit for storing a user's past document selection history based on the search result provided from the document search means; and
3. The scoring of a search result document according to claim 2, wherein the probability information generation means generates the first and second statistical information by reading the document selection history from the document selection history storage unit. system.
前記確率情報生成手段は、
利用者の過去の前記文書選択履歴から、検索対象の文書毎に、利用者による当該文書選択の発生頻度と、当該文書を選択する際の利用者又はその検索要求が持つ、各属性情報の条件付発生頻度とを取得し、
検索対象の文書毎に、取得した当該文書選択の発生頻度に基づいて、前記第1の統計情報としての前記文書選択の発生確率を生成すると共に、取得した前記各属性情報の条件付発生頻度に基づいて、前記第2の統計情報としての前記各属性情報の条件付発生確率を生成することを特徴とする請求項2記載の検索結果文書のスコアリングシステム。
The probability information generating means includes
From the user's past document selection history, for each search target document, the frequency of occurrence of the document selection by the user, and the condition of each attribute information that the user or the search request has when selecting the document And the frequency of occurrence
For each document to be searched, the occurrence probability of the document selection as the first statistical information is generated based on the obtained occurrence frequency of the document selection, and the conditional occurrence frequency of each acquired attribute information is set. 3. The scoring system for search result documents according to claim 2, wherein a conditional occurrence probability of each attribute information as the second statistical information is generated based on.
前記確率情報生成手段は、
利用者の過去の前記文書選択履歴から、検索対象の文書毎に、従前の過去期間に取得した当該文書選択の発生頻度に基づいて算出された当該文書選択の旧発生確率と、直前の過去期間に取得した当該文書選択の発生頻度に基づいて算出された当該文書選択の新発生確率とを統合して、前記第1の統計情報としての前記文書選択の発生確率を生成更新し、かつ、
検索対象の文書毎に、従前の過去期間に取得した前記各属性情報の条件付発生頻度に基づいて算出された前記各属性情報の旧条件付発生確率と、直前の過去期間に取得した前記各属性情報の条件付発生頻度に基づいて算出された前記各属性情報の新条件付発生確率とを統合して、前記第2の統計情報としての前記各属性情報の条件付発生確率を生成更新することを特徴とする請求項2記載の検索結果文書のスコアリングシステム。
The probability information generating means includes
For each document to be searched from the past document selection history of the user, the previous occurrence probability of the document selection calculated based on the occurrence frequency of the document selection acquired in the previous past period, and the previous past period Integrating the new occurrence probability of the document selection calculated based on the frequency of occurrence of the document selection acquired in step (i), generating and updating the occurrence probability of the document selection as the first statistical information, and
For each document to be searched, the old conditional occurrence probability of each attribute information calculated based on the conditional occurrence frequency of each attribute information acquired in the previous past period, and each of the above acquired in the previous previous period The conditional occurrence probability of each attribute information as the second statistical information is generated and updated by integrating the new conditional occurrence probability of each attribute information calculated based on the conditional occurrence frequency of the attribute information The scoring system for search result documents according to claim 2.
前記確率情報生成手段は、
前記文書選択の発生確率及び前記各属性情報の条件付発生確率を生成更新する際には、少なくとも、前記文書選択の旧発生確率と前記各属性情報の旧条件付発生確率とに重みを付けると共に、
前記文書選択の旧発生確率又は各属性情報の旧条件付発生確率の値が大きい程、該文書選択の旧発生確率又は各属性情報の旧条件付発生確率の前記重みを小さく設定することを特徴とする請求項8に記載の検索結果文書のスコアリングシステム。
The probability information generating means includes
When generating and updating the occurrence probability of the document selection and the conditional occurrence probability of each attribute information, at least weight the old occurrence probability of the document selection and the old conditional occurrence probability of each attribute information ,
The weight of the old occurrence probability of the document selection or the old conditional occurrence probability of each attribute information is set to be smaller as the value of the old occurrence probability of the document selection or the old conditional occurrence probability of each attribute information is larger. The scoring system for search result documents according to claim 8.
前記確率情報生成手段は、前記文書選択履歴格納部から前記文書選択履歴を読み出して、前記第1及び第2の統計情報に加えて、第3の統計情報としての、検索要求の際の利用者又はその検索要求が持つ属性情報の発生確率を生成し、
前記確率情報格納部は、前記確率情報生成手段にて生成された前記第3の統計情報を格納し、かつ、
前記スコア算出手段は、ある文書について前記スコアを算出する際に、前記第2の統計情報としての、属性情報の条件付発生確率の分布と、前記第3の統計情報としての、属性情報の発生確率の分布とに、統計的に有意な差異がないときは、
前記第2の統計情報に代えて、前記第1の統計情報としての、前記文書選択の発生確率と、前記第3の統計情報とに基づいて、前記スコアを算出することを特徴とする請求項2記載の検索結果文書のスコアリングシステム。
The probability information generation means reads the document selection history from the document selection history storage unit, and in addition to the first and second statistical information, a user at the time of a search request as third statistical information Or, generate the probability of occurrence of attribute information that the search request has,
The probability information storage unit stores the third statistical information generated by the probability information generation unit, and
When calculating the score for a certain document, the score calculating means generates a conditional occurrence probability distribution of attribute information as the second statistical information and generation of attribute information as the third statistical information. If there is no statistically significant difference in the probability distribution,
The score is calculated based on an occurrence probability of the document selection and the third statistical information as the first statistical information instead of the second statistical information. 2. A scoring system for search result documents according to 2.
前記第3の統計情報としての、前記属性情報の発生確率は、検索要求の際の利用者又はその検索要求が持つ少なくとも一の属性について、該属性が各属性値を取る確率であると定義されることを特徴とする請求項10記載の検索結果文書のスコアリングシステム。   The probability of occurrence of the attribute information as the third statistical information is defined as the probability that the attribute takes each attribute value for the user at the time of the search request or at least one attribute of the search request. The scoring system for search result documents according to claim 10. 第2の統計情報を前記確率情報格納部へ格納する際、検索対象の文書毎に、前記第2の統計情報の確率分布と、前記第3の統計情報の確率分布とに、統計的に有意な差異があるか否かを判断し、判断の結果、統計的に有意な差異がないときは、当該第2の統計情報の前記確率情報格納部への格納を禁止するフィルタ手段がさらに備えられていることを特徴とする請求項10記載の検索結果文書のスコアリングシステム。   When storing the second statistical information in the probability information storage unit, the probability distribution of the second statistical information and the probability distribution of the third statistical information are statistically significant for each document to be searched. And a filter means for prohibiting the storage of the second statistical information in the probability information storage unit when there is no statistically significant difference as a result of the determination. 11. The scoring system for a search result document according to claim 10, wherein the scoring system is a search result document. 利用者の今回の検索要求に対する応答として、文書検索手段から提供される検索結果に列挙された各文書について、
利用者の過去の文書選択履歴からそれぞれ生成された、第1の統計情報としての、利用者による当該文書選択の発生確率と、第2の統計情報としての、当該文書を選択する際の今回の利用者又はその検索要求が持つ、少なくとも一の属性情報の条件付発生確率とに基づいて、
利用者の今回の検索要求に適合する蓋然性の程度を推定し、スコアとして数値化することを特徴とする検索結果文書のスコア算出装置。
As a response to the user's current search request, for each document listed in the search results provided by the document search means,
The probability of occurrence of the document selection by the user as the first statistical information respectively generated from the past document selection history of the user, and the current time when selecting the document as the second statistical information Based on the conditional occurrence probability of at least one attribute information that the user or the search request has,
A score calculation device for a search result document, which estimates the degree of probability that matches a user's current search request and quantifies the score as a score.
利用者の今回の検索要求に基づく前記検索結果に列挙された各文書について、前記第1の統計情報としての、前記文書選択の発生確率と、前記第2の統計情報としての、少なくとも一の前記属性情報の条件付発生確率とを積算統合処理して前記スコアを算出することを特徴とする請求項13記載の検索結果文書のスコア算出装置。   For each document listed in the search result based on the user's current search request, the occurrence probability of the document selection as the first statistical information and at least one of the second statistical information The score calculation apparatus for a search result document according to claim 13, wherein the score is calculated by integrating and integrating the conditional occurrence probability of the attribute information. 利用者の今回の検索要求に対する応答として、文書検索手段から提供される検索結果に列挙された各文書について、
利用者の過去の文書選択履歴からそれぞれ生成した、第1の統計情報としての、利用者による当該文書選択の発生確率と、第2の統計情報としての、当該文書を選択する際の今回の利用者又はその検索要求が持つ、少なくとも一の属性情報の条件付発生確率とに基づいて、
利用者の今回の検索要求に適合する蓋然性の程度を推定し、スコアとして数値化するスコア算出ステップを有してなることを特徴とする検索結果文書のスコアリング方法。
As a response to the user's current search request, for each document listed in the search results provided by the document search means,
Probability of occurrence of the document selection by the user as the first statistical information generated from the past document selection history of the user, and the current use when selecting the document as the second statistical information Based on the conditional occurrence probability of at least one attribute information possessed by the person or the search request,
A scoring method for a search result document, comprising a score calculation step for estimating a probability of conformity to a user's current search request and digitizing the score.
利用者の過去の文書選択履歴から、検索対象の文書毎に、第1の統計情報としての、利用者による当該文書選択の発生確率と、第2の統計情報としての、当該文書を選択する際の利用者又はその検索要求が持つ各属性情報の条件付発生確率とを生成する確率情報生成ステップと、
利用者の今回の検索要求に対する応答として、文書検索手段から提供される検索結果に列挙された各文書について、前記確率情報生成ステップでそれぞれ生成した、第1の統計情報としての、利用者による当該文書選択の発生確率と、第2の統計情報としての、当該文書を選択する際の今回の利用者又はその検索要求が持つ、少なくとも一の属性情報の条件付発生確率とに基づいて、利用者の今回の検索要求に適合する蓋然性の程度を推定し、スコアとして数値化するスコア算出ステップとを有してなることを特徴とする検索結果文書のスコアリング方法。
When selecting the document as the first statistical information as the first statistical information and the document as the second statistical information from the user's past document selection history as the first statistical information Probability information generation step of generating a conditional occurrence probability of each attribute information that the user or the search request has,
As a response to the user's current search request, for each document listed in the search result provided by the document search means, the first statistical information generated in the probability information generation step, respectively, by the user Based on the occurrence probability of document selection and the conditional occurrence probability of at least one attribute information possessed by the current user or the search request when selecting the document as the second statistical information A scoring method for a search result document, comprising: a score calculation step that estimates a probability of conformity to the current search request and quantifies the score as a score.
前記スコア算出ステップでは、利用者の今回の検索要求に基づく前記検索結果に列挙された各文書について、前記第1の統計情報としての、前記文書選択の発生確率と、前記第2の統計情報としての、少なくとも一の前記属性情報の条件付発生確率とを積算統合処理して前記スコアを算出することを特徴とする請求項15又は16記載の検索結果文書のスコアリング方法。   In the score calculation step, for each document listed in the search result based on the user's current search request, the probability of occurrence of the document selection as the first statistical information and the second statistical information 17. The search result document scoring method according to claim 15, wherein the score is calculated by integrating and integrating the conditional occurrence probability of at least one of the attribute information. 前記第2の統計情報としての、前記属性情報の条件付発生確率は、検索対象の文書毎に、かつ、当該文書を選択する際の利用者又はその検索要求が持つ少なくとも一の属性について、該属性が各属性値を取る確率であると定義されることを特徴とする請求項15又は16記載の検索結果文書のスコアリング方法。   The conditional occurrence probability of the attribute information, as the second statistical information, is calculated for each document to be searched and for at least one attribute of the user or the search request when selecting the document. 17. The search result document scoring method according to claim 15, wherein the attribute is defined as a probability of taking each attribute value. 検索対象の文書毎に、前記確率情報生成ステップでそれぞれ生成した、前記第1の統計情報としての文書選択の発生確率と、前記第2の統計情報としての各属性情報の条件付発生確率とを確率情報格納部に格納する確率情報格納ステップをさらに有し、
前記スコア算出ステップでは、前記確率情報格納部の中から該当する前記第1及び第2の統計情報を読み出して、前記スコアを算出することを特徴とする請求項16記載の検索結果文書のスコアリング方法。
For each document to be searched, the occurrence probability of document selection as the first statistical information and the conditional occurrence probability of each attribute information as the second statistical information respectively generated in the probability information generation step. A probability information storage step of storing in the probability information storage unit;
The scoring of a search result document according to claim 16, wherein, in the score calculation step, the first and second statistical information corresponding to the probability information storage unit is read and the score is calculated. Method.
前記文書検索手段から提供される前記検索結果に基づく利用者の過去の文書選択履歴を文書選択履歴格納部に格納する文書選択履歴格納ステップをさらに有し、
前記確率情報生成ステップでは、前記文書選択履歴格納部から前記文書選択履歴を読み出して、前記第1及び第2の統計情報を生成することを特徴とする請求項16記載の検索結果文書のスコアリング方法。
A document selection history storage step of storing a user's past document selection history based on the search result provided from the document search means in a document selection history storage unit;
17. The scoring of a search result document according to claim 16, wherein in the probability information generation step, the document selection history is read from the document selection history storage unit to generate the first and second statistical information. Method.
前記確率情報生成ステップでは、
利用者の過去の前記文書選択履歴から、検索対象の文書毎に、利用者による当該文書選択の発生頻度と、当該文書を選択する際の利用者又はその検索要求が持つ、各属性情報の条件付発生頻度とを取得した後、
検索対象の文書毎に、取得した当該文書選択の発生頻度に基づいて、前記第1の統計情報としての前記文書選択の発生確率を生成すると共に、取得した前記各属性情報の条件付発生頻度に基づいて、前記第2の統計情報としての前記各属性情報の条件付発生確率を生成することを特徴とする請求項16記載の検索結果文書のスコアリング方法。
In the probability information generating step,
From the user's past document selection history, for each search target document, the frequency of occurrence of the document selection by the user, and the condition of each attribute information that the user or the search request has when selecting the document After obtaining the frequency of occurrence,
For each document to be searched, the occurrence probability of the document selection as the first statistical information is generated based on the obtained occurrence frequency of the document selection, and the conditional occurrence frequency of each acquired attribute information is set. The search result document scoring method according to claim 16, further comprising: generating a conditional occurrence probability of each attribute information as the second statistical information.
前記確率情報生成ステップでは、
利用者の過去の前記文書選択履歴から、検索対象の文書毎に、従前の過去期間に取得した当該文書選択の発生頻度に基づいて算出した当該文書選択の旧発生確率と、直前の過去期間に取得した当該文書選択の発生頻度に基づいて算出した当該文書選択の新発生確率とを統合して、前記第1の統計情報としての前記文書選択の発生確率を生成更新し、かつ、
検索対象の文書毎に、従前の過去期間に取得した前記各属性情報の条件付発生頻度に基づいて算出した前記各属性情報の旧条件付発生確率と、直前の過去期間に取得した前記各属性情報の条件付発生頻度に基づいて算出した前記各属性情報の新条件付発生確率とを統合して、前記第2の統計情報としての前記各属性情報の条件付発生確率を生成更新することを特徴とする請求項16記載の検索結果文書のスコアリング方法。
In the probability information generating step,
For each document to be searched from the past document selection history of the user, the old occurrence probability of the document selection calculated based on the occurrence frequency of the document selection acquired in the previous past period, and the previous past period Integrating the new occurrence probability of the document selection calculated based on the obtained occurrence frequency of the document selection, generating and updating the occurrence probability of the document selection as the first statistical information, and
For each document to be searched, the old conditional occurrence probability of each attribute information calculated based on the conditional occurrence frequency of each attribute information acquired in the previous past period, and each attribute acquired in the previous past period Integrating the new conditional occurrence probability of each attribute information calculated based on the conditional occurrence frequency of information to generate and update the conditional occurrence probability of each attribute information as the second statistical information; 17. The search result document scoring method according to claim 16,
前記確率情報生成ステップでは、
前記文書選択の発生確率及び前記各属性情報の条件付発生確率を生成更新する際には、少なくとも、前記文書選択の旧発生確率と前記各属性情報の旧条件付発生確率とに重みを付けると共に、
前記文書選択の旧発生確率又は各属性情報の旧条件付発生確率の値が大きい程、該文書選択の旧発生確率又は各属性情報の旧条件付発生確率の前記重みを小さく設定することを特徴とする請求項22に記載の検索結果文書のスコアリング方法。
In the probability information generating step,
When generating and updating the occurrence probability of the document selection and the conditional occurrence probability of each attribute information, at least weight the old occurrence probability of the document selection and the old conditional occurrence probability of each attribute information ,
The weight of the old occurrence probability of the document selection or the old conditional occurrence probability of each attribute information is set to be smaller as the value of the old occurrence probability of the document selection or the old conditional occurrence probability of each attribute information is larger. The scoring method for a search result document according to claim 22.
前記確率情報生成ステップでは、前記文書選択履歴格納部から前記文書選択履歴を読み出して、前記第1及び第2の統計情報に加えて、第3の統計情報としての、検索要求の際の利用者又はその検索要求が持つ属性情報の発生確率を生成し、
前記確率情報格納ステップでは、前記確率情報生成ステップで生成した前記第3の統計情報を格納し、かつ、
前記スコア算出ステップでは、ある文書について前記スコアを算出する際に、前記第2の統計情報としての、属性情報の条件付発生確率の分布と、前記第3の統計情報としての、属性情報の発生確率の分布とに、統計的に有意な差異がないときは、
前記第2の統計情報に代えて、前記第1の統計情報としての、前記文書選択の発生確率と、前記第3の統計情報とに基づいて、前記スコアを算出することを特徴とする請求項16記載の検索結果文書のスコアリング方法。
In the probability information generating step, the document selection history is read from the document selection history storage unit, and in addition to the first and second statistical information, a user at the time of a search request as third statistical information Or, generate the probability of occurrence of attribute information that the search request has,
In the probability information storage step, the third statistical information generated in the probability information generation step is stored, and
In the score calculation step, when calculating the score for a document, the distribution of conditional occurrence probability of attribute information as the second statistical information and generation of attribute information as the third statistical information If there is no statistically significant difference in the probability distribution,
The score is calculated based on an occurrence probability of the document selection and the third statistical information as the first statistical information instead of the second statistical information. 16. A scoring method for search result documents according to 16.
前記第3の統計情報としての、前記属性情報の発生確率は、検索要求の際の利用者又はその検索要求が持つ少なくとも一の属性について、該属性が各属性値を取る確率であると定義されることを特徴とする請求項24記載の検索結果文書のスコアリング方法。   The probability of occurrence of the attribute information as the third statistical information is defined as the probability that the attribute takes each attribute value for the user at the time of the search request or at least one attribute of the search request. 25. The search result document scoring method according to claim 24. 前記第2の統計情報を前記確率情報格納部へ格納する際、検索対象の文書毎に、前記第2の統計情報の確率分布と、前記第3の統計情報の確率分布とに、統計的に有意な差異があるか否かを判断し、判断の結果、統計的に有意な差異がないときは、当該第2の統計情報の前記確率情報格納部への格納を禁止するフィルタリングステップを、さらに有していることを特徴とする請求項25記載の検索結果文書のスコアリング方法。   When storing the second statistical information in the probability information storage unit, the probability distribution of the second statistical information and the probability distribution of the third statistical information are statistically determined for each document to be searched. Determining whether there is a significant difference, and if there is no statistically significant difference as a result of the determination, a filtering step for prohibiting the storage of the second statistical information in the probability information storage unit, 26. The search result document scoring method according to claim 25, further comprising: コンピュータに、
利用者の今回の検索要求に対する応答として、文書検索手段から提供される検索結果に列挙された各文書について、利用者の過去の文書選択履歴からそれぞれ生成した、第1の統計情報としての、利用者による当該文書選択の発生確率と、第2の統計情報としての、当該文書を選択する際の今回の利用者又はその検索要求が持つ、少なくとも一の属性情報の条件付発生確率とに基づいて、利用者の今回の検索要求に適合する蓋然性の程度を推定し、スコアとして数値化するスコア算出処理を実行させることを特徴とする検索結果文書のスコアリングプログラム。
On the computer,
As a response to the user's current search request, for each document listed in the search results provided by the document search means, the first statistical information generated from the user's past document selection history is used as the first statistical information. Based on the occurrence probability of the document selection by the user and the conditional occurrence probability of at least one attribute information possessed by the current user or the search request when selecting the document as the second statistical information A scoring program for a search result document, which executes a score calculation process for estimating the degree of probability that matches a user's current search request and digitizing it as a score.
コンピュータに、
利用者の過去の文書選択履歴から、検索対象の文書毎に、第1の統計情報としての、利用者による当該文書選択の発生確率と、第2の統計情報としての、当該文書を選択する際の利用者又はその検索要求が持つ各属性情報の条件付発生確率とを生成する確率情報生成処理と、
利用者の今回の検索要求に対する応答として、文書検索手段から提供される検索結果に列挙された各文書について、前記確率情報生成処理にてそれぞれ生成した、第1の統計情報としての、利用者による当該文書選択の発生確率と、第2の統計情報としての、当該文書を選択する際の今回の利用者又はその検索要求が持つ、少なくとも一の属性情報の条件付発生確率とに基づいて、利用者の今回の検索要求に適合する蓋然性の程度を推定し、スコアとして数値化するスコア算出処理とを実行させることを特徴とする検索結果文書のスコアリングプログラム。
On the computer,
When selecting the document as the first statistical information as the first statistical information and the document as the second statistical information from the user's past document selection history as the first statistical information Probability information generation processing that generates a conditional occurrence probability of each attribute information that the user or the search request has,
As a response to the user's current search request, by the user as the first statistical information generated by the probability information generation process for each document listed in the search results provided by the document search means Use based on the occurrence probability of the document selection and the conditional occurrence probability of at least one attribute information possessed by the current user or the search request when selecting the document as the second statistical information A scoring program for a search result document, which executes a score calculation process that estimates a degree of probability that matches a user's current search request and digitizes the score.
前記スコア算出処理では、コンピュータに、利用者の今回の検索要求に基づく前記検索結果に列挙された各文書について、前記第1の統計情報としての、前記文書選択の発生確率と、前記第2の統計情報としての、少なくとも一の前記属性情報の条件付発生確率とを積算統合処理して前記スコアを算出させることを特徴とする請求項27又は28記載の検索結果文書のスコアリングプログラム。   In the score calculation process, for each document listed in the search result based on the user's current search request, the document selection occurrence probability as the first statistical information and the second 29. The search result document scoring program according to claim 27 or 28, wherein the score is calculated by integrating and integrating the conditional occurrence probability of at least one of the attribute information as statistical information. 前記第2の統計情報としての、前記属性情報の条件付発生確率は、検索対象の文書毎に、かつ、当該文書を選択する際の利用者又はその検索要求が持つ少なくとも一の属性について、該属性が各属性値を取る確率であると定義されることを特徴とする請求項27又は28記載の検索結果文書のスコアリングプログラム。   The conditional occurrence probability of the attribute information, as the second statistical information, is calculated for each document to be searched and for at least one attribute of the user or the search request when selecting the document. 29. The search result document scoring program according to claim 27 or 28, wherein the attribute is defined as a probability of taking each attribute value. コンピュータに、
検索対象の文書毎に、前記確率情報生成処理にてそれぞれ生成した、前記第1の統計情報としての文書選択の発生確率と、前記第2の統計情報としての各属性情報の条件付発生確率とを確率情報格納部に格納する確率情報格納処理をさらに実行させ、かつ、
前記スコア算出処理では、前記確率情報格納部の中から該当する前記第1及び第2の統計情報を読み出させて、前記スコアを算出させることを特徴とする請求項28記載の検索結果文書のスコアリングプログラム。
On the computer,
The occurrence probability of document selection as the first statistical information and the conditional occurrence probability of each attribute information as the second statistical information, which are generated by the probability information generation process for each document to be searched The probability information storage process for storing the information in the probability information storage unit, and
29. The search result document according to claim 28, wherein in the score calculation process, the score is calculated by reading out the corresponding first and second statistical information from the probability information storage unit. Scoring program.
コンピュータに、
前記文書検索手段から提供される前記検索結果に基づく利用者の過去の文書選択履歴を文書選択履歴格納部に格納する文書選択履歴格納処理をさらに実行させ、
前記確率情報生成処理では、前記文書選択履歴格納部から前記文書選択履歴を読み出させて、前記第1及び第2の統計情報を生成させることを特徴とする請求項28記載の検索結果文書のスコアリングプログラム。
On the computer,
A document selection history storage process for storing a user's past document selection history based on the search result provided from the document search means in a document selection history storage unit;
29. The search result document according to claim 28, wherein in the probability information generation process, the document selection history is read from the document selection history storage unit to generate the first and second statistical information. Scoring program.
前記確率情報生成処理では、コンピュータに、
利用者の過去の前記文書選択履歴から、検索対象の文書毎に、利用者による当該文書選択の発生頻度と、当該文書を選択する際の利用者又はその検索要求が持つ、各属性情報の条件付発生頻度とを取得させた後、
検索対象の文書毎に、取得した当該文書選択の発生頻度に基づいて、前記第1の統計情報としての文書選択の発生確率を生成させると共に、取得した前記各属性情報の条件付発生頻度に基づいて、前記第2の統計情報としての各属性情報の条件付発生確率を生成させることを特徴とする請求項28記載の検索結果文書のスコアリングプログラム。
In the probability information generation process, the computer
From the user's past document selection history, for each search target document, the frequency of occurrence of the document selection by the user, and the condition of each attribute information that the user or the search request has when selecting the document After getting the occurrence frequency,
For each document to be searched, based on the acquired occurrence frequency of the document selection, the occurrence probability of the document selection as the first statistical information is generated, and based on the conditional occurrence frequency of each acquired attribute information 29. The search result document scoring program according to claim 28, wherein a conditional occurrence probability of each attribute information as the second statistical information is generated.
前記確率情報生成処理では、コンピュータに、
利用者の過去の前記文書選択履歴から、検索対象の文書毎に、従前の過去期間に取得した当該文書選択の発生頻度に基づいて算出させた当該文書選択の旧発生確率と、直前の過去期間に取得した当該文書選択の発生頻度に基づいて算出させた当該文書選択の新発生確率とを統合させて、前記第1の統計情報としての前記文書選択の発生確率を生成更新させ、かつ、
検索対象の文書毎に、従前の過去期間に取得した前記各属性情報の条件付発生頻度に基づいて算出させた前記各属性情報の旧条件付発生確率と、直前の過去期間に取得した前記各属性情報の条件付発生頻度に基づいて算出させた前記各属性情報の新条件付発生確率とを統合させて、前記第2の統計情報としての前記各属性情報の条件付発生確率を生成更新させることを特徴とする請求項28記載の検索結果文書のスコアリングプログラム。
In the probability information generation process, the computer
For each document to be searched from the past document selection history of the user, the old occurrence probability of the document selection calculated based on the occurrence frequency of the document selection acquired in the previous past period, and the previous past period Integrating the new occurrence probability of the document selection calculated based on the frequency of occurrence of the document selection acquired in the step, generating and updating the occurrence probability of the document selection as the first statistical information, and
For each search target document, the old conditional occurrence probability of each attribute information calculated based on the conditional occurrence frequency of each attribute information acquired in the previous past period, and each acquired in the previous past period The conditional occurrence probability of each attribute information as the second statistical information is generated and updated by integrating the new conditional occurrence probability of each attribute information calculated based on the conditional occurrence frequency of the attribute information 30. The search result document scoring program according to claim 28.
前記確率情報生成処理では、コンピュータに、
前記文書選択の発生確率及び前記各属性情報の条件付発生確率を生成更新させる際には、少なくとも、前記文書選択の旧発生確率と前記各属性情報の旧条件付発生確率とに重みを付ける重み付け処理を実行させると共に、
該重み付け処理では、前記文書選択の旧発生確率又は各属性情報の旧条件付発生確率の値が大きい程、該文書選択の旧発生確率又は各属性情報の旧条件付発生確率の前記重みが小さく設定される処理を実行させることを特徴とする請求項34に記載の検索結果文書のスコアリングプログラム。
In the probability information generation process, the computer
When generating and updating the occurrence probability of the document selection and the conditional occurrence probability of each attribute information, weighting weights at least the old occurrence probability of the document selection and the old conditional occurrence probability of each attribute information As the process is executed,
In the weighting process, the larger the value of the old occurrence probability of the document selection or the old conditional occurrence probability of each attribute information is, the smaller the weight of the old occurrence probability of the document selection or the old conditional occurrence probability of each attribute information is. 35. The search result document scoring program according to claim 34, wherein the set processing is executed.
前記確率情報生成処理では、コンピュータに、
前記文書選択履歴格納部から前記文書選択履歴を読み出させて、前記第1及び第2の統計情報に加えて、第3の統計情報としての、検索要求の際の利用者又はその検索要求が持つ属性情報の発生確率を生成させ、
前記確率情報格納処理では、前記確率情報生成処理で生成した前記第3の統計情報を格納させ、かつ、
前記スコア算出処理では、ある文書について前記スコアを算出する際に、前記第2の統計情報としての、属性情報の条件付発生確率の分布と、前記第3の統計情報としての、属性情報の発生確率の分布とに、統計的に有意な差異がないときは、
前記第2の統計情報に代えて、前記第1の統計情報としての、前記文書選択の発生確率と、前記第3の統計情報とに基づいて、前記スコアを算出させることを特徴とする請求項28記載の検索結果文書のスコアリングプログラム。
In the probability information generation process, the computer
The document selection history is read from the document selection history storage unit, and in addition to the first and second statistical information, a user at the time of the search request or the search request as the third statistical information Generate the occurrence probability of the attribute information you have,
In the probability information storage process, the third statistical information generated in the probability information generation process is stored, and
In the score calculation process, when calculating the score for a document, the distribution of conditional occurrence probability of attribute information as the second statistical information and generation of attribute information as the third statistical information If there is no statistically significant difference in the probability distribution,
The score is calculated based on the occurrence probability of the document selection and the third statistical information as the first statistical information instead of the second statistical information. 28. A scoring program for search result documents according to 28.
前記第3の統計情報としての、前記属性情報の発生確率は、検索要求の際の利用者又はその検索要求が持つ少なくとも一の属性について、該属性が各属性値を取る確率であると定義されることを特徴とする請求項36記載の検索結果文書のスコアリングプログラム。   The probability of occurrence of the attribute information as the third statistical information is defined as the probability that the attribute takes each attribute value for the user at the time of the search request or at least one attribute of the search request. 37. The search result document scoring program according to claim 36. コンピュータに、前記第2の統計情報を前記確率情報格納部へ格納する際、検索対象の文書毎に、前記第2の統計情報の確率分布と、前記第3の統計情報の確率分布とに、統計的に有意な差異があるか否かを判断し、判断の結果、統計的に有意な差異がないときは、当該第2の統計情報の前記確率情報格納部への格納を禁止するフィルタリング処理を、さらに実行させることを特徴とする請求項36記載の検索結果文書のスコアリングプログラム。   When storing the second statistical information in the probability information storage unit in the computer, for each search target document, the probability distribution of the second statistical information and the probability distribution of the third statistical information, A filtering process for determining whether or not there is a statistically significant difference, and forbidding storage of the second statistical information in the probability information storage unit when there is no statistically significant difference as a result of the determination 37. The search result document scoring program according to claim 36, further comprising:
JP2009052740A 2009-03-05 2009-03-05 Scoring system of search result document, score calculation device, scoring method and scoring program Pending JP2010205189A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009052740A JP2010205189A (en) 2009-03-05 2009-03-05 Scoring system of search result document, score calculation device, scoring method and scoring program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009052740A JP2010205189A (en) 2009-03-05 2009-03-05 Scoring system of search result document, score calculation device, scoring method and scoring program

Publications (1)

Publication Number Publication Date
JP2010205189A true JP2010205189A (en) 2010-09-16

Family

ID=42966569

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009052740A Pending JP2010205189A (en) 2009-03-05 2009-03-05 Scoring system of search result document, score calculation device, scoring method and scoring program

Country Status (1)

Country Link
JP (1) JP2010205189A (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012099095A (en) * 2010-10-06 2012-05-24 Gourmet Navigator Inc Banquet contracting support system, banquet contracting support program, and banquet contracting support method
JP2017010514A (en) * 2015-06-18 2017-01-12 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド Search engine and method for implementing the same
CN111353015A (en) * 2018-12-24 2020-06-30 阿里巴巴集团控股有限公司 Crowdsourcing question recommendation method, device, equipment and storage medium
JP2021036407A (en) * 2019-08-30 2021-03-04 トッパン・フォームズ株式会社 Search support system, learning system, search support method and program
JP2021036409A (en) * 2019-08-30 2021-03-04 トッパン・フォームズ株式会社 Search support system, search support method and program

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012099095A (en) * 2010-10-06 2012-05-24 Gourmet Navigator Inc Banquet contracting support system, banquet contracting support program, and banquet contracting support method
JP2017010514A (en) * 2015-06-18 2017-01-12 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド Search engine and method for implementing the same
CN111353015A (en) * 2018-12-24 2020-06-30 阿里巴巴集团控股有限公司 Crowdsourcing question recommendation method, device, equipment and storage medium
CN111353015B (en) * 2018-12-24 2024-03-15 阿里巴巴集团控股有限公司 Crowd-sourced question recommendation method, device, equipment and storage medium
JP2021036407A (en) * 2019-08-30 2021-03-04 トッパン・フォームズ株式会社 Search support system, learning system, search support method and program
JP2021036409A (en) * 2019-08-30 2021-03-04 トッパン・フォームズ株式会社 Search support system, search support method and program
JP7234077B2 (en) 2019-08-30 2023-03-07 トッパン・フォームズ株式会社 SEARCH SUPPORT SYSTEM, LEARNING SYSTEM, SEARCH SUPPORT METHOD, AND PROGRAM
JP7234079B2 (en) 2019-08-30 2023-03-07 トッパン・フォームズ株式会社 SEARCH SUPPORT SYSTEM, SEARCH SUPPORT METHOD, AND PROGRAM

Similar Documents

Publication Publication Date Title
JP4587236B2 (en) Information search apparatus, information search method, and program
US8131716B2 (en) Tuning of relevancy ranking for federated search
JP5351182B2 (en) Determining relevant information about the area of interest
CN111782965A (en) Intention recommendation method, device, equipment and storage medium
KR101511656B1 (en) Ascribing actionable attributes to data that describes a personal identity
US20140317078A1 (en) Method and system for retrieving information
JP2009545810A (en) Temporal ranking of search results
US20120078709A1 (en) Method and system for managing online advertising objects using textual metadata tags
KR20120135218A (en) Matching metadata sources using rules for characterizing matches
JP2008234550A (en) Expert information retrieval device, expert information retrieval method and program
JP2020135891A (en) Methods, apparatus, devices and media for providing search suggestions
JP2010205189A (en) Scoring system of search result document, score calculation device, scoring method and scoring program
JP2018180712A (en) Model variable candidate generating device and method
JP5281104B2 (en) Advertisement management apparatus, advertisement selection apparatus, advertisement management method, advertisement management program, and recording medium recording advertisement management program
KR100932843B1 (en) Method and system for providing clustered search results based on the degree of association between search results and method and system for clustering search results
JP5194731B2 (en) Document relevance calculation system, document relevance calculation method, and document relevance calculation program
JP7456137B2 (en) Information processing device and program
JP4640554B2 (en) Server apparatus, information processing method, and program
US20210248509A1 (en) Data-driven online score caching for machine learning
JP2010146222A (en) Document classification apparatus, document classification method, and program
JP4287464B2 (en) System infrastructure configuration development support system and support method
JP5813052B2 (en) Information processing apparatus, method, and program
JP7428250B2 (en) Method, system, and apparatus for evaluating document retrieval performance
WO2020262183A1 (en) Information processing device, information processing method, and program
CN113743615A (en) Feature removal framework to simplify machine learning