JP2007172616A - Document search method and device - Google Patents

Document search method and device Download PDF

Info

Publication number
JP2007172616A
JP2007172616A JP2006340412A JP2006340412A JP2007172616A JP 2007172616 A JP2007172616 A JP 2007172616A JP 2006340412 A JP2006340412 A JP 2006340412A JP 2006340412 A JP2006340412 A JP 2006340412A JP 2007172616 A JP2007172616 A JP 2007172616A
Authority
JP
Japan
Prior art keywords
keyword
classification
hierarchy
dissimilarity
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006340412A
Other languages
Japanese (ja)
Inventor
Yaojie Ruu
ヤオジエ ルゥ
Ganmei You
ガンメイ ヨウ
Xiaoxia Wang
シャオシア ワン
Gang Li
ガン リ
Yan Riu
ヤン リウ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Publication of JP2007172616A publication Critical patent/JP2007172616A/en
Pending legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a document search method and device that can increase search precision by effectively using classified digital information. <P>SOLUTION: Searching through a digital data set having a hierarchical classification structure for a target document according to hierarchical class information includes: (a) extracting a keyword string including at least one keyword from a search request sentence; (b) acquiring class information about a current hierarchy from the digital data set; (c) calculating a difference of each keyword from each class belonging to the current hierarchy; (d) calculating the probability that the target document is present in each class belonging to the current hierarchy according to the difference; (e1) repeating the steps (c) to (e1) as designating the next hierarchy as the current hierarchy until the number of processed hierarchies reaches a predetermined number; (e2) combining the calculated difference from each class belonging to each hierarchy and the probability that the target document is present in each class belonging to each hierarchy to compute a combined difference of each keyword across the predetermined number of hierarchies; and (f) searching for the target document according to the combined difference. <P>COPYRIGHT: (C)2007,JPO&INPIT

Description

本発明は、階層的に分類されたデジタル・データ集合において、各階層の分類情報に基づいて目標文書を検索する方法及び装置に関する。   The present invention relates to a method and apparatus for searching a target document based on classification information of each hierarchy in a hierarchically classified digital data set.

近年、益々多くの文書ファイルは、インターネット、デジタル図書館、ニュース、及び会社のLAN(Local Area Network)に現れている。このような電子化データを管理するために、文書デジタル情報の検索は益々重視されている。現在のデジタル情報の検索は、過去のような閉鎖的な、決まった形のものではなく、益々知能的になっている。また、現在のデジタル情報は、オープンで、更新が早く、また、これらのデジタル情報は通常分散されている。一方、デジタル情報システムの利用者は従来のような専門的な検索者から、ビジネスマンや、管理員や、学生など一般的なユーザまで拡大されている。これは、デジタル情報システムに対して様々な特殊な要求をもたらし、個性化及び知能性はデジタル情報検索システムに対する新しい要求となっている。   In recent years, more and more document files have appeared on the Internet, digital libraries, news, and company LANs (Local Area Networks). In order to manage such digitized data, search for document digital information is becoming more important. Today's search for digital information is becoming more intelligent than the closed, fixed form of the past. Also, current digital information is open and updated quickly, and these digital information is usually distributed. On the other hand, the number of users of digital information systems has been expanded from conventional specialized searchers to general users such as businessmen, managers, and students. This brings various special demands on digital information systems, and personalization and intelligence are new demands on digital information retrieval systems.

現在のデジタル情報は以下の重要な特徴がある。即ち、多くのデジタル情報は事前に既に分類されている。例えば、デジタル図書館の分類(例えば、ACM、IEEEなど)や、Webの分類(Yahoo、Google、Sinaなど)がある。しかし、従来のデジタル情報検索システムは、このような分類されたデジタル情報を利用して検索の精度を高めることができない。   The current digital information has the following important features. That is, a lot of digital information is already classified in advance. For example, there are digital library classifications (for example, ACM, IEEE, etc.) and Web classifications (Yahoo, Google, Sina, etc.). However, the conventional digital information search system cannot improve the search accuracy by using such classified digital information.

本発明は、以上の問題点に鑑みてなされ、その目的は、分類されたデジタル情報を有効に利用し、検索の精度を高めることができる文書検索方法及び装置を提供することにある。   The present invention has been made in view of the above problems, and an object of the present invention is to provide a document search method and apparatus that can effectively use classified digital information and improve search accuracy.

本発明の第1の観点によれば、本発明の文書検索方法は、複数の文書のデジタル・データの集合を階層的に分類してなる階層状分類構造を有するデジタル・データ集合から、所定数の階層の分類情報に基づき所定の目標文書を検索する方法であって、(a)ユーザにより入力された検索リクエスト文から、少なくとも一つのキーワードを含むキーワード列を抽出し、(b)前記デジタル・データ集合から現階層の分類情報を求め、(c)前記現階層に属する各分類に対する、前記キーワード列における各キーワードの相違度を計算し、(d)前記相違度に基づき、前記現階層に属する各分類に前記目標文書が存在する確率を計算し、(e1)処理した階層の数が前記所定数より小さい場合は、次の階層を現階層とし、上記ステップ(c)、(d)、(e1)を再度実行し、(e2)処理した階層の数が前記所定数以上である場合は、計算された各階層に属する各分類に対する相違度と、前記各階層に属する各分類に前記目標文書が存在する確率とを合成し、前記各キーワードの前記所定値の階層における合成相違度を求め、及び(f)前記合成相違度に従って前記目標文書を検索することを特徴とする。   According to a first aspect of the present invention, a document search method of the present invention is a predetermined number of digital data sets having a hierarchical classification structure formed by hierarchically classifying a set of digital data of a plurality of documents. (A) extracting a keyword string including at least one keyword from a search request sentence input by a user, and (b) the digital document Classification information of the current hierarchy is obtained from the data set, (c) the degree of difference of each keyword in the keyword string is calculated for each classification belonging to the current hierarchy, and (d) based on the degree of difference, belonging to the current hierarchy The probability that the target document exists in each category is calculated. (E1) When the number of processed layers is smaller than the predetermined number, the next layer is set as the current layer, and the above steps (c), ( ), (E1) are executed again, and (e2) when the number of processed hierarchies is equal to or greater than the predetermined number, the calculated difference between each class belonging to each hierarchy and each class belonging to each hierarchy The probability that the target document exists is synthesized, a synthesis difference degree in the hierarchy of the predetermined value of each keyword is obtained, and (f) the target document is searched according to the synthesis difference degree.

本発明の第2の観点によれば、本発明の文書検索装置は、複数の文書のデジタル・データの集合を階層的に分類してなる階層状分類構造を有するデジタル・データ集合から、所定数の階層の分類情報に基づき所定の目標文書を検索する装置であって、ユーザにより入力された検索リクエスト文から、少なくとも一つのキーワードを含むキーワード列を抽出するワード抽出手段と、前記デジタル・データ集合から現階層の分類情報を求める分類選択細分化手段と、前記現階層に属する各分類に対する、前記キーワード列における各キーワードの相違度を計算する相違度計算手段と、前記相違度に基づき、前記現階層に属する各分類に前記目標文書が存在する確率を計算する目標文書推定手段と、前記各分類に対する相違度と、前記各階層に属する各分類に前記目標文書が存在する確率とを合成し、前記各キーワードの合成相違度を求める相違度合成手段と、前記合成相違度に従って前記目標文書を検索する検索エンジンとを含み、処理した階層の数が前記所定数より小さい場合は、前記相違度計算手段と前記目標文書推定手段は、各階層に対して順次前記相違度及び前記確率を計算し、
前記現階層の階層番号が前記所定数以上である場合は、前記相違度合成手段は前記合成相違度を求め、前記検索エンジンは検索を行うことを特徴とする。
According to the second aspect of the present invention, the document search apparatus of the present invention is configured to select a predetermined number of digital data sets having a hierarchical classification structure obtained by hierarchically classifying a set of digital data of a plurality of documents. An apparatus for searching a predetermined target document based on classification information of a hierarchy of the word, a word extracting means for extracting a keyword string including at least one keyword from a search request sentence input by a user, and the digital data set Classification selection subdivision means for obtaining classification information of the current hierarchy from, classification calculation means for calculating the degree of difference of each keyword in the keyword string for each classification belonging to the current hierarchy, and based on the degree of difference, the current degree Target document estimation means for calculating the probability that the target document exists in each category belonging to a hierarchy, the degree of difference with respect to each category, and belonging to each hierarchy A hierarchy that includes a probability combining unit that obtains the probability that the target document exists in each classification and obtains a combined difference between the keywords, and a search engine that searches the target document according to the combined difference. If the number is less than the predetermined number, the difference calculation means and the target document estimation means calculate the difference and the probability sequentially for each layer,
When the hierarchy number of the current hierarchy is greater than or equal to the predetermined number, the dissimilarity synthesizing unit obtains the composite dissimilarity, and the search engine performs a search.

本発明の文書検索方法及び装置は、デジタル・データ集合における分類などの補助情報を利用し、精確なキーワード・ウエイトを推定し、有効に検索の精度を高めることができる。   The document search method and apparatus of the present invention can use auxiliary information such as classification in a digital data set to estimate accurate keyword weights and effectively improve search accuracy.

次に、添付した図面を参照しながら、本発明の実施形態を説明する。   Next, embodiments of the present invention will be described with reference to the accompanying drawings.

図1は、本発明の一実施例に係る文書検索装置100の構成を示すブロック図である。   FIG. 1 is a block diagram showing a configuration of a document search apparatus 100 according to an embodiment of the present invention.

図1に示す文書検索装置100は、例えば、複数の文書のデジタル・データの集合であるデジタル・データ集合110から目標文書を検索する。デジタル・データ集合110は複数の分類に分けられ、それぞれの分類はさらに複数のサブ分類に細分化され、そのサブ分類はさらに複数の分類に細分化される。このようにデジタル・データ集合110は階層状に分類され、例えば、N階級(第1階層〜第N階層)を有する階層分類構造になっている。それぞれの階層で、当該階層に属する複数の分類の分類情報が与えられている。   The document search apparatus 100 shown in FIG. 1 searches for a target document from a digital data set 110 that is a set of digital data of a plurality of documents, for example. The digital data set 110 is divided into a plurality of classifications, and each classification is further subdivided into a plurality of sub-classifications, and the sub-classification is further subdivided into a plurality of classifications. As described above, the digital data set 110 is classified in a hierarchical manner, and has, for example, a hierarchical classification structure having N classes (first to Nth hierarchies). In each hierarchy, classification information of a plurality of classifications belonging to the hierarchy is given.

文書検索装置100は、例えば、デジタル・データ集合110における第1階層〜第M階層の分類情報に従って目標文書を検索する。ここで、Mは、ユーザが必要に応じて設定した検索しようとする階層の数である。即ち、デジタル・データ集合110はN階層を有しているが、ユーザはそのうちのM階層のみ検索してもよい。なお、M、Nは整数であり、かつ、N≧1,N≧M≧1である。   For example, the document search apparatus 100 searches for a target document according to the classification information of the first to Mth layers in the digital data set 110. Here, M is the number of hierarchies to be searched set as required by the user. That is, although the digital data set 110 has N layers, the user may search only the M layers. M and N are integers, and N ≧ 1, N ≧ M ≧ 1.

文書検索装置100は、ワード抽出手段(TE)101,キーワード選択モジュール(TSM)102,分類選択細分化モジュール(CSM)103,相違度計算器(DPC)104,目標文書推定手段(PRE)105,相違度合成モジュール(DIM)106,分類確定手段(CL)107,ウエイト併合モジュール(TWC)108、及び検索エンジン109を有する。   The document retrieval apparatus 100 includes a word extraction unit (TE) 101, a keyword selection module (TSM) 102, a classification selection subdivision module (CSM) 103, a difference calculator (DPC) 104, a target document estimation unit (PRE) 105, It has a dissimilarity synthesis module (DIM) 106, a classification determination means (CL) 107, a weight merge module (TWC) 108, and a search engine 109.

ワード抽出手段101は、ユーザが入力した検索リクエスト文から、少なくとも一つのキーワードを含むキーワード列を抽出し、現在のキーワード列とする。   The word extraction unit 101 extracts a keyword string including at least one keyword from the search request sentence input by the user and sets it as the current keyword string.

キーワード選択モジュール102は、現階層のキーワード列、それに対応する相違度、及びキーワードの出現頻度に基づき、現在のキーワード列におけるノイズ・キーワードを除去し、次の階層(即ち、現階層より一つランク下の階層)のキーワード列とする。   The keyword selection module 102 removes the noise keyword in the current keyword string based on the keyword string of the current hierarchy, the corresponding difference degree, and the appearance frequency of the keyword, and ranks one rank higher than the current hierarchy (ie, one rank from the current hierarchy). (Lower level) Keyword column.

分類選択細分化モジュール103は、デジタル・データ集合110から現階層の分類情報を求める。   The classification selection subdivision module 103 obtains classification information of the current hierarchy from the digital data set 110.

相違度計算器104は、現階層に属する各分類に対する、現在のキーワード列における各キーワードの相違度を計算する。   The dissimilarity calculator 104 calculates the dissimilarity of each keyword in the current keyword string for each classification belonging to the current hierarchy.

目標文書推定手段105は、上記キーワードの相違度に基づいて、現階層に属する各分類に目標文書が存在する確率を計算する。   The target document estimation means 105 calculates the probability that the target document exists in each classification belonging to the current hierarchy, based on the above-described keyword dissimilarity.

相違度合成モジュール106は、相違度計算器104により得られた各キーワードの相違度と、目標文書推定手段105により得られた目標文書が各階層に属する各分類に存在する確率とを合成し、現在のキーワード列の各キーワードは第1階層〜第M階層における目標文書に対する合成相違度を求める。   The dissimilarity synthesis module 106 synthesizes the dissimilarity of each keyword obtained by the dissimilarity calculator 104 and the probability that the target document obtained by the target document estimation means 105 exists in each classification belonging to each hierarchy, For each keyword in the current keyword string, the composite dissimilarity with respect to the target document in the first to Mth layers is obtained.

分類確定手段107は、各階層に属する各分類に目標文書が存在する確率により、ノイズ分類を除去し、次の階層の分類情報とする。   The classification determination unit 107 removes the noise classification based on the probability that the target document exists in each classification belonging to each hierarchy, and uses the classification information of the next hierarchy.

ウエイト併合モジュール108は、グローバルな相違度を合成する。   The weight merge module 108 synthesizes the global dissimilarity.

検索エンジン109は、合成相違度に基づいて目標文書を検索する。   The search engine 109 searches for the target document based on the composite difference.

文書検索装置100は第1階層〜第M階層の分類情報に従って目標文書を検索する際に、現階層の階層番号がMより小さい場合は、相違度計算器104と目標文書推定手段105は各々の階層に対して順次上記相違度及び上記確率を計算する。現階層の階層番号がM以上になると、相違度合成モジュール106は合成相違度を求め、検索エンジン109は検索を行う。   When the document retrieval apparatus 100 retrieves the target document according to the classification information of the first hierarchy to the Mth hierarchy, if the hierarchy number of the current hierarchy is smaller than M, the difference calculator 104 and the target document estimation means 105 The dissimilarity and the probability are sequentially calculated for the hierarchy. When the hierarchy number of the current hierarchy is greater than or equal to M, the dissimilarity composition module 106 obtains a composite dissimilarity and the search engine 109 performs a search.

以上の構成を有する文書検索装置100は、デジタル・データ集合110における分類などの補助情報を利用し、分類のキーワード・ウエイト計算法を採用することにより、精確なキーワード・ウエイトを推定して、有効に検索の精度を高めることができる。   The document search apparatus 100 having the above configuration uses the auxiliary information such as classification in the digital data set 110 and adopts the keyword weight calculation method of classification to estimate accurate keyword weight and effectively The search accuracy can be improved.

なお、図1に示す構成は本発明を説明するための具体例であり、本願発明を限定するものではない。例えば、キーワード選択モジュール102は、キーワードノイズを除去することにより、精度を高め、応答時間を短縮することができるが、キーワード選択モジュール102を省略してもよい。即ち、相違度計算器104がワード抽出手段101から直接キーワード列を受け取ってもよい。また、分類確定手段107とウエイト併合モジュール108は、分類ノイズを除去することにより、検索精度を高め、応答時間を短縮することができ、さらに、キーワード・ウエイトを計算する際に、グローバルなキーワード・ウエイト計算方法を併用し、検索精度及びシステムの汎用性を高めることができるが、分類確定手段107とウエイト併合モジュール108を省略してもよい。即ち、目標文書推定手段105は分類確定手段107を経由して分類選択細分化モジュール103にノイズ除去の情報をフィードバックしなくてもよく、また、検索エンジン109は、相違度合成モジュール106から直接キーワード列の合成相違度を受け取ってもよい。この場合、例えば、キーワードは一文字或いは一つのフレーズである。   The configuration shown in FIG. 1 is a specific example for explaining the present invention, and does not limit the present invention. For example, the keyword selection module 102 can improve accuracy and shorten the response time by removing keyword noise, but the keyword selection module 102 may be omitted. That is, the difference calculator 104 may receive the keyword string directly from the word extraction unit 101. Further, the classification determining means 107 and the weight merging module 108 can improve the search accuracy and shorten the response time by removing the classification noise. Furthermore, when calculating the keyword weight, Although the weight calculation method can be used in combination to improve the search accuracy and the versatility of the system, the classification determination unit 107 and the weight merge module 108 may be omitted. That is, the target document estimation unit 105 does not need to feed back the noise removal information to the classification selection subdivision module 103 via the classification determination unit 107, and the search engine 109 directly receives the keyword from the dissimilarity synthesis module 106. A composite dissimilarity of the columns may be received. In this case, for example, the keyword is one letter or one phrase.

また、以上の文書検索装置100は、分類されていないデジタル・データ集合(即ち、階級数、分類数は1である)にも適用できる。また、システムの汎用性を高めるために、相違度合成モジュール106は相違度計算器104が計算した全ての相違度について合成を行う。ここで、好ましくは、グローバルなキーワードは統計的な方法により計算される。   The document search apparatus 100 described above can also be applied to unclassified digital data sets (that is, the number of classes and the number of classifications is 1). Further, in order to improve the versatility of the system, the dissimilarity composition module 106 performs composition for all the dissimilarities calculated by the dissimilarity calculator 104. Here, preferably, the global keyword is calculated by a statistical method.

また、分類に対するキーワードの区別力は以下の基準で求める。
(1)分類に対するキーワードの区別力に基づき推定する。
(2)異なる分類に対するキーワードの表現力の相違に基づき推定する。
(3)分類におけるキーワードの出現頻度、及び分類自身の属性を考慮して求める。
In addition, the distinctiveness of keywords with respect to classification is obtained according to the following criteria.
(1) Estimate based on keyword distinctiveness with respect to classification.
(2) Estimate based on differences in the expressiveness of keywords for different classifications.
(3) It is determined in consideration of the appearance frequency of keywords in the classification and the attributes of the classification itself.

図2は、本発明の一実施例に係る文書検索方法を示すフローチャートである。   FIG. 2 is a flowchart illustrating a document search method according to an embodiment of the present invention.

例えば、上記のデジタル・データ集合110における第1階層〜第M階層の分類情報に基づいて目標文書を検索する。   For example, the target document is searched based on the classification information of the first to Mth layers in the digital data set 110 described above.

図2に示すように、ステップS201において、ユーザが入力した検索リクエスト文から、少なくとも一つのキーワードを含むキーワード列を抽出し、現在のキーワード列とする。   As shown in FIG. 2, in step S <b> 201, a keyword string including at least one keyword is extracted from the search request sentence input by the user, and is set as the current keyword string.

ステップS202において、デジタル・データ集合110から現階層の分類情報を求める。   In step S202, classification information of the current hierarchy is obtained from the digital data set 110.

ステップS203において、現階層に属する各分類に対して現在のキーワード列における各キーワードの相違度を計算する。   In step S203, the degree of difference of each keyword in the current keyword string is calculated for each classification belonging to the current hierarchy.

ステップS204において、上記各キーワードの相違度に基づいて、現階層に属する各分類に目標文書が存在する確率を計算する。   In step S204, the probability that the target document exists in each category belonging to the current hierarchy is calculated based on the difference between the keywords.

ステップS205において、現階層の階層番号がMより小さい場合は、ステップS206に進む。現階層の番号がM以上である場合は、ステップS209に進む。   In step S205, if the hierarchy number of the current hierarchy is smaller than M, the process proceeds to step S206. If the current hierarchy number is greater than or equal to M, the process proceeds to step S209.

ステップS206において、次の階層を現階層とする。   In step S206, the next hierarchy is set as the current hierarchy.

ステップS207において、現階層のキーワード列、それに対応する相違度、及びキーワードの出現頻度に基づいて、現在のキーワード列におけるノイズを除去し、次の階層のキーワード列とする。   In step S207, noise in the current keyword string is removed based on the keyword string of the current hierarchy, the degree of difference corresponding thereto, and the appearance frequency of the keyword, and the keyword string is set to the next hierarchy.

ステップS208において、現階層に属する各分類に目標文書が存在する確率によりノイズを除去し、次の階層の分類情報とする。   In step S208, noise is removed based on the probability that the target document exists in each classification belonging to the current hierarchy, and classification information for the next hierarchy is obtained.

ステップS209において、ステップ203において得られた各キーワードの相違度と、ステップ204において得られた目標文書が各階層に属する各分類に存在する確率とを合成し、現在のキーワード列の各キーワードの第1階層〜第M階層において目標文書に対する合成相違度を求める。   In step S209, the degree of difference between the keywords obtained in step 203 and the probability that the target document obtained in step 204 exists in each category belonging to each hierarchy are synthesized, and the number of each keyword in the current keyword string is determined. The degree of composition difference with respect to the target document is obtained from the first layer to the Mth layer.

ステップS210において、グローバルな相違度を合成する。   In step S210, global dissimilarities are synthesized.

ステップS211において、合成相違度に従って目標文書を検索する。   In step S211, the target document is searched according to the compositional difference.

以上の文書検索方法において、デジタル・データ集合110における分類などの補助情報を利用し、精確なキーワード・ウエイトを推定して、有効に検索の精度を高めることができる。   In the above document search method, it is possible to estimate accurate keyword weights by using auxiliary information such as classification in the digital data set 110 and effectively improve the search accuracy.

なお、図2に示す構成は本発明を説明するための具体例であり、本願発明を限定するものではない。例えば、ステップ207には、検索処理においてキーワードノイズを除去することにより、精度を高め応答時間を短縮することができるが、ステップ207を省略してもよい。即ち、ステップ206から直接ステップ208に進んでもよい。また、ステップ208とステップ210には、分類ノイズを除去することにより、検索精度を高め、応答時間を短縮することができ、さらに、キーワード・ウエイトを計算する際に、グローバルなキーワード・ウエイト計算方法を併用し、検索精度及びシステムの汎用性を高めることができるが、ステップ208とステップ210を省略してもよい。即ち、ステップ206から直接ステップ203に戻ってもよく、また、ステップ209から直接ステップ211に進んでもよい。この場合、例えば、キーワードとして一文字或いは一つのフレーズである。   The configuration shown in FIG. 2 is a specific example for explaining the present invention, and does not limit the present invention. For example, in step 207, the keyword noise is removed in the search process to improve accuracy and shorten the response time. However, step 207 may be omitted. That is, the process may proceed directly from step 206 to step 208. Further, in step 208 and step 210, it is possible to improve the search accuracy and shorten the response time by removing the classification noise. Further, when calculating the keyword weight, a global keyword weight calculation method is used. Can be used together to improve search accuracy and system versatility, but step 208 and step 210 may be omitted. That is, the process may return directly from step 206 to step 203, or may proceed directly from step 209 to step 211. In this case, for example, the keyword is one character or one phrase.

また、以上の文書検索方法は、分類されていないデジタル・データ集合にも適用できる。また、システムの汎用性を高めるために、ステップ203で計算した全ての相違度について合成を行う。ここで、好ましくは、グローバルなキーワードは統計的な方法により計算される。   The document retrieval method described above can also be applied to unclassified digital data sets. In addition, in order to improve the versatility of the system, all differences calculated in step 203 are combined. Here, preferably, the global keyword is calculated by a statistical method.

また、分類に対するキーワードの区別力は以下の基準で求める。
(1)分類に対するキーワードの区別力に基づき推定する。
(2)異なる分類に対するキーワードの表現力の相違に基づき推定する。
(3)分類におけるキーワードの出現頻度、及び分類自身の属性を考慮して求める。
In addition, the distinctiveness of keywords with respect to classification is obtained according to the following criteria.
(1) Estimate based on keyword distinctiveness with respect to classification.
(2) Estimate based on differences in the expressiveness of keywords for different classifications.
(3) It is determined in consideration of the appearance frequency of keywords in the classification and the attributes of the classification itself.

図3は、本発明の実施例に係る目標文書を検索する操作を示すフローチャートである。   FIG. 3 is a flowchart showing an operation of searching for a target document according to the embodiment of the present invention.

まず、ユーザが検索リクエスト文を入力する。当該検索リクエスト文はユーザが検索の意図を示している。たとえば、検索リクエスト文として、ユーザは一文、一段落、更に一つの文章を入力する。   First, the user inputs a search request sentence. The search request text indicates the intention of the search by the user. For example, the user inputs one sentence, one paragraph, and one sentence as a search request sentence.

ワード抽出手段101はまずユーザの検索リクエスト文に対してキーワード抽出を行い、キーワードt、t、…、tからなるキーワード列Tを得る。 Word extracting means 101 first performs a keyword extracting the search request statement of the user, the keyword t 1, t 2, ..., obtaining a keyword string T consisting of t m.

T=(t、t、…、t
ここで、検索されるデータ集合は上記のデジタル・データ集合110であるとする。即ち、デジタル・データ集合110は階層分類構造を有している。
T = (t 1 , t 2 ,..., T m )
Here, it is assumed that the data set to be searched is the digital data set 110 described above. That is, the digital data set 110 has a hierarchical classification structure.

まず、分類選択細分化モジュール(CSM)103により第1階層の分類列Cを選択する。分類列Cは、サブ分類c、c、…、cからなる。 First, the classification column C in the first hierarchy is selected by the classification selection subdivision module (CSM) 103. The classification column C includes sub classifications c 1 , c 2 ,..., C n .

C=(c、c、…、c
キーワード列Tにおける各キーワードは、異なる文書に対して異なる区別力を有する。ここで、単語の文書に対する区別力を単語の「ウエイト」と呼ぶ。キーワードのウエイトを推定することは検索システムにとって重要である。本発明は、階層状分類構造においてキーワードのウエイトを推定するシステムを実現した。当該システムにおいて、分類されたデータを繰り返して細分化することにより、徐々にキーワードの最終的なウエイトに近付く。
C = (c 1 , c 2 ,..., C n )
Each keyword in the keyword string T has different distinctiveness for different documents. Here, the distinctiveness of a word with respect to a document is called a word “weight”. Estimating keyword weights is important for search systems. The present invention has realized a system for estimating keyword weights in a hierarchical classification structure. The system gradually approaches the final weight of the keyword by repeatedly subdividing the classified data.

次に、キーワード列T=(t、t、…、t)及び分類列C=(c、c、…、c)を相違度計算器(DPC)104に入力し、相違度計算器(DPC)104は、分類列Cに対してキーワード列Tにおける各キーワードの区別力を計算し、相違度DPを求める。 Next, the keyword string T = (t 1 , t 2 ,..., T m ) and the classification string C = (c 1 , c 2 ,..., C n ) are input to the dissimilarity calculator (DPC) 104 and the difference The degree calculator (DPC) 104 calculates the discriminating power of each keyword in the keyword string T with respect to the classification string C, and obtains the difference DP.

DP=(dp,dp,…,dp)。 DP = (dp 1, dp 2 , ..., dp m).

次に、相違度DPをキーワード選択モジュール(TSM)102に入力し、ノイズとなるキーワードをフィルタリングする。これによって、新しいキーワード列T、及び分類列Cに対する各キーワードの相違度DPが得られる。   Next, the dissimilarity DP is input to the keyword selection module (TSM) 102, and keywords that cause noise are filtered. As a result, the difference DP of each keyword with respect to the new keyword string T and the classification string C is obtained.

次に、新しいキーワード列T及び相違度DPを目標文書推定手段(PRE)105に入力し、目標文書推定手段(PRE)105は、検索しようとする目標文書が分類列Cの各分類に存在する確率PCを計算する。   Next, the new keyword string T and the dissimilarity DP are input to the target document estimation means (PRE) 105, and the target document estimation means (PRE) 105 has a target document to be searched for in each classification of the classification string C. Calculate the probability PC.

PC=(pc、pc、…、pc
実際に、検索しようとする目標文書はサブ分類cに属するにも拘わらず、ユーザが入力した検索リクエスト文におけるキーワードにより、誤って他のサブ分類が検索されることがしばしばある。ここで、このような分類はノイズ分類と呼ぶ。
PC = (pc 1 , pc 2 ,..., Pc n )
Actually, although the target document to be searched belongs to the sub-category ck , another sub-category is often searched by mistake due to the keyword in the search request sentence input by the user. Here, such classification is called noise classification.

このようなノイズ分類の影響を抑えるために、分類確定手段(CL)107を用いてこれらのノイズを除去する。これにより、以下の新しい分類列Cが得られる。   In order to suppress the influence of such noise classification, these noises are removed using the classification determination means (CL) 107. As a result, the following new classification sequence C is obtained.

C=(c、c、…、c
分類選択細分化モジュール(CSM)103は、分類列Cにおける各サブ分類cを更に細分化する。
C = (c 1 , c 2 ,..., C q )
The classification selection subdivision module (CSM) 103 further subdivides each sub-classification c k in the classification column C.

=(ck1、ck2、…、ckn)。 C k = (c k1 , c k2 ,..., C kn ).

上述した上位分類列Cに対する処理と同じように、キーワード列T=(t、t、…、t)及び分類列C=(ck1、ck2、…、ckn)を相違度計算器(DPC)104に入力し、相違度計算器(DPC)104は、キーワード列Tにおける各キーワードの分類列Cに対する区別力を計算し、相違度DPを求める。次に、目標文書推定手段(PRE)105は、ユーザが検索しようとする目標文書のCにおける各分類に存在する確率PCを計算し、そして、分類確定手段(CL)107は目標の分類を選択する。 As with treatment for the upper classification column C as described above, the keyword string T = (t 1, t 2 , ..., t m) and classification column C k = (c k1, c k2, ..., c kn) the dissimilarity enter the calculator (DPC) 104, difference calculating unit (DPC) 104 calculates the distinguishing power for the classification column C k for each keyword in the keyword column T, obtaining a dissimilarity DP. Next, the target document estimation means (PRE) 105 calculates the probability PC existing in each classification in C k of the target document that the user wants to search, and the classification confirmation means (CL) 107 determines the target classification. select.

必要に応じて、分類Cにおける各分類を更に細分化し、次の階層で以上の動作を繰り返す。例えば、階層数はデータ集合の構造及び精度の要求により定められる。 If necessary, each classification in the classification C k is further subdivided, and the above operation is repeated in the next hierarchy. For example, the number of hierarchies is determined by the structure and accuracy requirements of the data set.

以上のように、相違度を計算し、ユーザが検索するキーワード列を求め、各階層に属する分類に対して各キーワードの相違度DPを得て、目標文書が各分類に存在する確率PCを計算する。   As described above, the degree of difference is calculated, the keyword string to be searched by the user is obtained, the degree of difference DP of each keyword is obtained for the classification belonging to each hierarchy, and the probability PC that the target document exists in each classification is calculated. To do.

以上に得た結果を相違度合成モジュール(DIM)106に入力し、相違度合成モジュール106は、以上の結果に基づき、最終的なキーワードの相違度を計算する。   The result obtained above is input to the dissimilarity composition module (DIM) 106, and the dissimilarity composition module 106 calculates the final dissimilarity of keywords based on the above results.

当該相違度は、異なる分類に対して強い区別力を有し、相違度を用いれば、容易に目標文書の属する分類を特定することができる。しかし、もし使用されるキーワードは目標の分類における文書で頻繁に使われている慣用語(即ち、出現頻度が高い)である場合は、当該キーワードでその分類から所望の目標文書を選べることが困難である。この場合は、他の統計学的な方法に基づくキーワード計算方法を併用して最終的なキーワードのウエイトを計算する。   The degree of difference has a strong distinctive power with respect to different classifications, and if the degree of difference is used, the classification to which the target document belongs can be easily specified. However, if the keyword used is an idiom that is frequently used in documents in the target category (that is, the frequency of occurrence is high), it is difficult to select the desired target document from the category for that keyword. It is. In this case, the final keyword weight is calculated using a keyword calculation method based on another statistical method.

例えば、TF*IDFウエイト計算器を用いて、以下の式でキーワードのウエイトを計算する。   For example, a keyword weight is calculated by the following formula using a TF * IDF weight calculator.

Figure 2007172616

ここで、Nは文書の総数であり、ntはキーワードtを含む文書の数である。なお、上記の式は有名なRobertson/Spark-Jones式の変形である。
Figure 2007172616

Here, N is the total number of documents, and nt is the number of documents including the keyword t. The above formula is a variation of the famous Robertson / Spark-Jones formula.

以上のようにTF*IDF方法により得られたウエイト及び上記のように得た全体の相違度をウエイト併合モジュール(TWC)108に入力し、最終的なキーワードのウエイトを計算する。   As described above, the weight obtained by the TF * IDF method and the overall difference obtained as described above are input to the weight merging module (TWC) 108, and the final keyword weight is calculated.

次に、本実施形態の検索装置の各構成を説明する。   Next, each configuration of the search device according to the present embodiment will be described.

まず、ワード抽出手段(TE)101を説明する。   First, the word extraction means (TE) 101 will be described.

ワード抽出手段(TE)101は、ユーザが入力した検索リクエスト文から、キーワード列を抽出する。   The word extraction means (TE) 101 extracts a keyword string from the search request sentence input by the user.

具体的に、ワード抽出手段(TE)101は、
(1)ユーザの検索リクエスト文を分説し、
(2)単語の性質により初期的なフィルタリングを行い、利用されない単語を除去する。例えば、量詞、数詞などである。
(3)停止語テーブルを参照して、一部のノイズ単語を除去する。例えば、「使用」、「効果」などがある。
(4)ノイズを削減する。ここで、誤った検索結果を生じ得る単語を除去する。具体的に、閾値tsを設け、出現頻度が閾値tsを下回る単語を除去する。
Specifically, the word extraction means (TE) 101
(1) Describe user search request text
(2) Perform initial filtering according to the nature of the word to remove unused words. For example, a measure and a number.
(3) Remove some noise words with reference to the stop word table. For example, there are “use” and “effect”.
(4) Reduce noise. Here, words that may cause erroneous search results are removed. Specifically, a threshold value ts is provided, and words whose appearance frequency is lower than the threshold value ts are removed.

以下、具体例を説明する。   Specific examples will be described below.

ユーザが次の検索リクエスト文を入力する。   The user enters the next search request text.

「本発明は、自動追跡ができ、かつ常に光収集器の最大面積で太陽光を収集し、さらに、光を常に一定の角度で一定の位置に伝搬し、室内に進入させ、発散させる太陽光入室装置を快事する。本発明は良好な応用性を供える。」
以上の文書に、二つの誤字がある、即ち、「快事」(開示)と「供える」(備える)である。前者は余り使わない単語であり、後者は比較的によく使う単語である。
“The present invention can automatically track and always collect sunlight at the maximum area of the light collector, and also always propagate the light to a certain position at a certain angle to enter and diverge the room. I'm happy with the entry device. The present invention provides good applicability. "
There are two typographical errors in the above document: “pleasant” (disclosure) and “provide” (provide). The former is a less frequently used word, and the latter is a relatively frequently used word.

まず、以下の単語列が得られる。即ち、「本、発明、は、自動、追跡、でき、常に、光収集器、の、最大、面積、太陽光、を、収集、さらに、光、一定、角度、で、位置、に、伝搬、室内、進入、発散、入、室、装置、快事、する、良好な、応用性、供える」である。   First, the following word string is obtained. That is, “the present invention can be automatically, tracked, always collect the light collector's maximum, area, sunlight, further propagate, to light, constant, angle, position, Indoor, approach, divergence, entrance, room, equipment, pleasant, good, applicability, offer ".

次に、名詞、動詞、形容詞のみを選んで、以下の単語列が得られる。即ち、「本、発明、自動、追跡、でき、光収集器、最大、面積、太陽光、収集、一定、角度、位置、伝搬、室内、進入、発散、入、室、装置、快事、する、良好な、応用性、供える」である。   Next, by selecting only nouns, verbs, and adjectives, the following word sequence is obtained. That is, "book, invention, automatic, tracking, can, light collector, maximum, area, sunlight, collection, constant, angle, position, propagation, indoor, approach, divergence, entrance, room, equipment, pleasure Good, applicability, offering ".

次に、停止語テーブルに存在する単語を除去する。例えば、「する」、「でき」などがある。   Next, the words existing in the stop word table are removed. For example, there are “Yes” and “Done”.

次に、「快事」の出現頻度が非常に低いので、この単語を除去する。このように、以下の単語列が得られる。即ち、「本、発明、自動、追跡、光収集器、最大、面積、太陽光、収集、一定、角度、位置、伝搬、室内、進入、発散、入、室、装置、良好な、応用性、供える」である。   Next, since the appearance frequency of “joy” is very low, this word is removed. In this way, the following word string is obtained. That is, "book, invention, automatic, tracking, light collector, maximum, area, sunlight, collection, constant, angle, position, propagation, indoor, approach, divergence, entrance, room, equipment, good, applicability, "I will offer."

次に、分類選択細分化モジュール(CSM)103を説明する。   Next, the classification selection subdivision module (CSM) 103 will be described.

分類選択細分化モジュール(CSM)103は、デジタル・データ集合110から分類情報を求める。分類選択細分化モジュール(CSM)103への入力はヌルでもよく、分類でもよい。また、分類選択細分化モジュール(CSM)103は入力される分類を更に細分化するか否かを決める。従って、デジタル・データ集合が異なれば、分類選択細分化モジュール(CSM)103も異なる。   A classification selection subdivision module (CSM) 103 obtains classification information from the digital data set 110. The input to the classification selection subdivision module (CSM) 103 may be null or classification. A classification selection subdivision module (CSM) 103 determines whether or not to further subdivide the input classification. Therefore, if the digital data sets are different, the classification selection subdivision module (CSM) 103 is also different.

具体的に、分類選択細分化モジュール(CSM)103への入力はヌルである場合は、分類選択細分化モジュール(CSM)103は、デジタル・データ集合110に分類が存在するか否かを判断する。   Specifically, if the input to the classification selection subdivision module (CSM) 103 is null, the classification selection subdivision module (CSM) 103 determines whether a classification exists in the digital data set 110. .

分類が存在する場合は、分類選択細分化モジュール(CSM)103は、配置情報を読み取り、相違度情報が必要であるか否かを判断する。   If there is a classification, the classification selection subdivision module (CSM) 103 reads the arrangement information and determines whether or not the difference information is necessary.

相違度情報が必要である場合は、分類選択細分化モジュール(CSM)103は、第1階層(一番ランク上の階層)の分類情報を出力する。   When the dissimilarity information is necessary, the classification selection subdivision module (CSM) 103 outputs the classification information of the first hierarchy (the highest rank hierarchy).

デジタル・データ集合110に分類が存在しないと判断する場合は、分類選択細分化モジュール(CSM)103は、検索システムに相違度の計算を完了したことを通知する。   If it is determined that no classification exists in the digital data set 110, the classification selection subdivision module (CSM) 103 notifies the search system that the calculation of the degree of difference has been completed.

一方、分類選択細分化モジュール(CSM)103への入力はヌルではなく、分類情報である場合は、分類選択細分化モジュール(CSM)103は、当該分類にサブ分類が存在するか否かを判断する。   On the other hand, if the input to the classification selection subdivision module (CSM) 103 is not null but classification information, the classification selection subdivision module (CSM) 103 determines whether or not a subclass exists in the classification. To do.

サブ分類が存在する場合は、分類選択細分化モジュール(CSM)103は配置情報を読み取り、さらに細分化するか否かを判断する。   If there is a sub-classification, the classification selection subdivision module (CSM) 103 reads the arrangement information and determines whether or not to further subdivide.

さらに細分化する場合は、分類選択細分化モジュール(CSM)103は、次の階層の分類情報を出力する。   When further subdividing, the classification selection subdivision module (CSM) 103 outputs the classification information of the next layer.

デジタル・データ集合110に分類が存在しないと判断する場合は、分類選択細分化モジュール(CSM)103は、検索システムに相違度の計算を完了したことを通知する。   If it is determined that no classification exists in the digital data set 110, the classification selection subdivision module (CSM) 103 notifies the search system that the calculation of the degree of difference has been completed.

例えば、デジタル・データ集合110は、IPCに準拠する特許データベースであるとする。また、検索システムは相違度の計算は第3階層までと仮定する。   For example, the digital data set 110 is assumed to be a patent database compliant with IPC. In addition, the search system assumes that the difference is calculated up to the third layer.

例えば、分類選択細分化モジュール(CSM)103への入力はN/Aである場合、分類選択細分化モジュール(CSM)103は第1階層のIPCを出力する。即ち、
Aセクション ―― 生活必需品
Bセクション ―― 処理操作;運輸
Cセクション ―― 化学;冶金
Dセクション ―― 繊維;紙
Eセクション ―― 固定構造物
Fセクション ―― 機械工学;照明;加熱;武器;爆破
Gセクション ―― 物理学
Hセクション ―― 電気
1)もし分類選択細分化モジュール(CSM)103への入力は「Hセクション電気」である場合、出力は以下の通りである。
H01 基本的電気素子
H02 電力の発電、変換、配電
H03 基本電子回路
H04 電気通信技術
H05 他に分類されない電気技術
2)もし分類選択細分化モジュール(CSM)103への入力は「H01C抵抗器」である場合、この分類は、第3階層に属する分類であるので、対応する出力はN/Aである。これは更なる分類は存在しないことを示す。このような出力を受け取った場合、相違度の計算を終了する。
For example, when the input to the classification selection subdivision module (CSM) 103 is N / A, the classification selection subdivision module (CSM) 103 outputs the IPC of the first layer. That is,
Section A-Daily Essentials Section B-Processing Operation; Transportation Section C-Chemical; Metallurgy Section D-Textile; Paper Section E-Fixed Structure Section F-Mechanical Engineering; Lighting; Heating; Weapons; Section-Physics H Section-Electricity 1) If the input to the Classification Selection Subdivision Module (CSM) 103 is "H Section Electric", the output is as follows.
H01 Basic electrical element H02 Electric power generation, conversion, and distribution H03 Basic electronic circuit H04 Electrical communication technology H05 Electrical technology not classified elsewhere 2) The input to the classification selection subdivision module (CSM) 103 is “H01C resistor” In some cases, this classification is a classification belonging to the third hierarchy, so the corresponding output is N / A. This indicates that there is no further classification. When such an output is received, the calculation of the difference is terminated.

次に、相違度計算器(DPC)104を説明する。   Next, the dissimilarity calculator (DPC) 104 will be described.

相違度計算器(DPC)104への入力はキーワード列及び分類列であり、その出力は相違度の値である。   The input to the dissimilarity calculator (DPC) 104 is a keyword string and a classification string, and its output is a dissimilarity value.

全ての文書は独自の特性があり、殆どの特性は最も基本的な語義表現単位である単語で表されている。言い換えれば、各単語は文書の特性を表している。ある単語は当該文書に現れているか、頻度はどうか、どのような位置に現れているか、等々、このような全ての情報は文書の属性を表すことに用いることができる。   Every document has its own characteristics, and most characteristics are expressed in words, which are the most basic semantic expression units. In other words, each word represents a document characteristic. All such information can be used to represent the attributes of a document, such as whether a word appears in the document, how often, where it appears, and so on.

キーワード列Tにおける各キーワードtは、分類を表す能力が異なる。ここで、このような表現能力をPtと記す。すべてのキーワード列Tに属するt及び分類列Cに属するc(即ち、t∈T、c∈C)について、以下のようなPtのマトリックスが得られる。 Each keyword t in the keyword string T has a different ability to represent a classification. Here, such an expression ability is denoted as Pt. For all t i belonging to the keyword column T and c j belonging to the classification column C (ie, t i εT, c j εC), the following matrix of Pt is obtained.

Figure 2007172616
Figure 2007172616

Figure 2007172616

ここで、
Figure 2007172616

here,

Figure 2007172616
Figure 2007172616

Figure 2007172616

ここで、ntiは、キーワードtが分類cにおいて出現する回数である。
は分類cの長さである(即ち、分類cにおける単語の数である)。
Figure 2007172616

Here, n ti is the number of times a keyword t appear in the classification c i.
l j is the length of class c j (ie, the number of words in class c j ).

また、   Also,

Figure 2007172616
aveは分類の平均の長さである。
Figure 2007172616
l ave is the average length of the classification.

また、fijは分類における単語の出現頻度であり、ある分類においてある単語が出現する回数を表す。 F ij is the appearance frequency of a word in a classification, and represents the number of times a word appears in a certain classification.

もしある単語が一つの分類に集中している場合は、fijの値は比較的に高い。しかし、出現頻度と分類の長さとの関係を考えなければならない。上記の計算に、分類の長さ及び分類の平均長さを同時に考慮した。 If a word is concentrated in one classification, the value of fij is relatively high. However, the relationship between the appearance frequency and the classification length must be considered. In the above calculation, the classification length and the average classification length were considered simultaneously.

もしある単語が各分類における出現頻度が同じである場合は、分類は短ければ短いほど、この単語の当該分類に対する表現力が高い。パラメータk及びbは出現頻度と分類の長さを調整する因子である。   If a word has the same frequency of appearance in each category, the shorter the category, the higher the expressiveness of this word for that category. Parameters k and b are factors that adjust the appearance frequency and the length of the classification.

このように、各キーワードについて、以下のように、当該キーワードの分類表現力を表すPTが得られる。   As described above, for each keyword, a PT representing the classification expression power of the keyword is obtained as follows.

Figure 2007172616

ここで、
Figure 2007172616

here,

Figure 2007172616

PTにより、単語の現在階層に属する分類に対する相違度を推定できる。以下の式を用いて相違度を計算する。
Figure 2007172616

By PT, it is possible to estimate the degree of difference of a word belonging to the current hierarchy. The dissimilarity is calculated using the following formula.

Figure 2007172616

ここで、nは分類の数である。
Figure 2007172616

Here, n is the number of classifications.

以上の式には、キーワードが各分類において均一に分布し、なお、目標文書は各分類において均一に分布すると仮定している。   In the above formula, it is assumed that the keywords are uniformly distributed in each category, and the target document is uniformly distributed in each category.

dpの値は、単語の各分類における分布の相違を反映する。ある単語は一つ或いは少数の分類に出現する場合は、dpの値は比較的に高くなる(もし単語は一つの分類にしか出現しない場合は、dpの値は1になる)。即ち、当該単語は検索を全体的にこれらの分類に導く傾向がある。一方、ある単語は全ての分類に出現する場合は、dpの値は比較的に小さくなる(当該単語は各分類における分布が同じである場合は、dpの値は最小の0になる)。   The value of dp reflects the distribution difference in each classification of words. If a word appears in one or a few categories, the dp value is relatively high (if the word appears in only one category, the dp value is 1). That is, the word tends to lead the search to these classifications as a whole. On the other hand, if a word appears in all categories, the value of dp is relatively small (if the word has the same distribution in each category, the value of dp is 0, which is the minimum).

図4は、本発明の実施例に係る相違度計算器(DPC)104の動作を示すフローチャートである。   FIG. 4 is a flowchart showing the operation of the dissimilarity calculator (DPC) 104 according to the embodiment of the present invention.

例えば、入力されたキーワード列と分類列はT(t、t、t)、及びC(c、c、c)であるとする。 For example, it is assumed that the input keyword string and classification string are T (t 1 , t 2 , t 3 ) and C (c 1 , c 2 , c 3 ).

データ集合110により、分類c、c、c)のそれぞれの単語の数は2000,3000,及び5000であり、初期化パラメータは、k=2、b=0.7であると定められた。 According to the data set 110, the number of words of each of the classifications c 1 , c 2 , c 3 ) is 2000, 3000, and 5000, and the initialization parameters are defined as k = 2, b = 0.7. It was.

データ集合110を検索し、以下の結果が得られた。
t1はc1に100回出現し、c2に300回出現し、c3に200回出現し、
t2はc1に70回出現し、c2に500回出現し、c3に1000回出現し、
t3はc1に200回出現し、c2に300回出現し、c3に500回出現する。
The data set 110 was searched and the following results were obtained.
t1 appears 100 times in c1, appears 300 times in c2, appears 200 times in c3,
t2 appears 70 times in c1, 500 times in c2, 1000 times in c3,
t3 appears 200 times in c1, appears 300 times in c2, and appears 500 times in c3.

よって、以下のマトリックスPtが得られる。   Therefore, the following matrix Pt is obtained.

Figure 2007172616
Figure 2007172616

Figure 2007172616

従って、以下のような相違度の列が得られる。
Figure 2007172616

Therefore, the following dissimilarity columns are obtained.

DP=(0.430,0.518,0.0528)。   DP = (0.430, 0.518, 0.0528).

次に、キーワード選択モジュール(TSM)102を説明する。   Next, the keyword selection module (TSM) 102 will be described.

キーワード選択モジュール(TSM)102は、主にキーワード列におけるノイズを除去する。キーワード選択モジュール(TSM)102への入力はキーワード列、対応する相違度、及びキーワードの頻度である。キーワード選択モジュール(TSM)102からの出力は選択されたキーワード列、及び対応する相違度である。   The keyword selection module (TSM) 102 mainly removes noise in the keyword string. The input to the keyword selection module (TSM) 102 is the keyword string, the corresponding dissimilarity, and the keyword frequency. The output from the keyword selection module (TSM) 102 is the selected keyword string and the corresponding dissimilarity.

キーワード選択モジュール(TSM)102は、相違度が閾値を下回る如何なる単語を除去する。ここで、その閾値は(Max(dp)*parameter)である。また、parameterは事前に設定したパラメータである。   The keyword selection module (TSM) 102 removes any words whose dissimilarity is below a threshold. Here, the threshold value is (Max (dp) * parameter). Parameter is a parameter set in advance.

このようなフィルタリングステップを通じて、キーワード選択モジュール(TSM)102は、新しいキーワード列及び対応する相違度を出力する。   Through such a filtering step, the keyword selection module (TSM) 102 outputs a new keyword string and a corresponding dissimilarity.

Figure 2007172616

次に、目標文書推定手段(PRE)105を説明する。
Figure 2007172616

Next, the target document estimation means (PRE) 105 will be described.

目標文書推定手段(PRE)105は、目標文書の各分類に存在する確率を計算する。目標文書推定手段(PRE)105への入力はキーワード列、対応する相違度、及び分類情報であり、出力は各分類に目標文書が存在する確率である。   The target document estimation means (PRE) 105 calculates the probability existing in each classification of the target document. The input to the target document estimation means (PRE) 105 is a keyword string, the corresponding dissimilarity, and classification information, and the output is the probability that the target document exists in each classification.

図5は、本発明の実施形態に係る目標文書推定手段(PRE)105の動作を示すフローチャートである。   FIG. 5 is a flowchart showing the operation of the target document estimation means (PRE) 105 according to the embodiment of the present invention.

入力されたキーワード列及び分類情報に従って、相違度計算器(DPC)104と同じように、マトリックスPtが得られる。   A matrix Pt is obtained in the same manner as the dissimilarity calculator (DPC) 104 according to the input keyword string and classification information.

Figure 2007172616

各分類は、マトリックスPtの一行に対応する。さらに、以下のように定義する。
Figure 2007172616

Each classification corresponds to one row of the matrix Pt. Furthermore, it defines as follows.

Figure 2007172616

ここで、
Figure 2007172616

here,

Figure 2007172616

目標文書推定手段105は、相違度に基づいて目標文書の各分類に属する確率を計算する。以下に定義する。c∈Cの場合、
Figure 2007172616

The target document estimation unit 105 calculates a probability belonging to each classification of the target document based on the degree of difference. It is defined below. If c j ∈C,

Figure 2007172616

ここで、PC はPCの反転である。
Figure 2007172616

Here, PC j + is the inversion of PC j .

また、DP=(dp,dp,…,dp)は入力された相違度の列である。 Also, DP = (dp 1, dp 2, ..., dp m) is a sequence of dissimilarity entered.

例えば、入力に応じて、以下のマトリックスが得られる。   For example, the following matrix is obtained according to the input.

Figure 2007172616

よって、以下のPCが得られる。
Figure 2007172616

Therefore, the following PC j is obtained.

Figure 2007172616

次に、分類確定手段(CL)107を説明する。
Figure 2007172616

Next, the classification determination means (CL) 107 will be described.

ユーザが入力した検索リクエストが分類cに属するにもかかわらず、抽出された一部のキーワードがより分類cに傾いていることがある。cのような分類はノイズ分類と呼ぶ。 Users despite the search request input belongs to a classification c k, there is a part of the keywords extracted is tilted more classification c q. Classification such as c q is called noise classification.

検索の最終精度を高めるために、これらのノイズ分類を除去する。具体的に、pcの値は以下に表したtcより小さい分類を除去する。 These noise classifications are removed to increase the final accuracy of the search. Specifically, the classification with a value of pc smaller than tc k shown below is removed.

Figure 2007172616

ここで、Max(PQ’)は最大値であり、pqikは目標文書の分類cに出現する確率である。なお、pqikは上の階級で計算される。ただ、現階級は第1階級であれば、pq=1/nである。ここで、nは現在の分類の分類番号である。
Figure 2007172616

Here, Max (PQ k ′) is the maximum value, and pq ik is the probability of appearing in the target document classification ck . Note that pq ik is calculated in the upper class. However, if the current class is the first class, pq = 1 / n. Here, n is the classification number of the current classification.

分類確定手段(CL)107への入力はPQ列および分類列であり、出力は選択された分類 C=(c、c、…、c)である。 The inputs to the classification determination means (CL) 107 are the PQ column and the classification column, and the output is the selected classification C = (c 1 , c 2 ,..., C q ).

次に、相違度合成モジュール(DIM)106を説明する。   Next, the dissimilarity synthesis module (DIM) 106 will be described.

相違度合成モジュール(DIM)106は、異なる階級の相違度を合成する。   The dissimilarity synthesis module (DIM) 106 synthesizes dissimilarities of different classes.

相違度合成モジュール(DIM)106への入力は、相違度と、目標文書の各分類での確率であり、出力は合成後の相違度twである。 The input to the dissimilarity synthesis module (DIM) 106 is the dissimilarity and the probability in each classification of the target document, and the output is the dissimilarity tw i after synthesis.

Figure 2007172616

ここで、k1、k2、k3はパラメータである。
Figure 2007172616

Here, k1, k2, and k3 are parameters.

twは、第i番目のキーワードのウエイトである。 tw i is the weight of the i-th keyword.

dpは、第i番目のキーワードの第1階級の分類での相違度である。 dp i is the degree of difference in the classification of the first class of the i-th keyword.

dptiは、第i番目のキーワードのCtサブ分類での相違度である。 dp ti is the degree of difference in the Ct subclass of the i-th keyword.

dqは、目標文書が分類Ctに属する確率である。 dq t is a probability that the target document belongs to the classification Ct.

dptutは、第i番目のキーワードのCtのサブ分類での相違度である。 dp tut is the degree of difference in the Ct subclass of the i-th keyword.

dqtuは、目標文書がCtのサブ分類に属する確率である。 dq tu is the probability that the target document belongs to the sub-class of Ct.

次に、ウエイト併合モジュール108を説明する。   Next, the weight merging module 108 will be described.

上記のように、相違度により簡単に目標文書の分類を特定できる。しかし、キーワードは目標文書において頻繁に使われている場合は、このキーワードでさらに検索することができない。この場合は、本発明の方法と他のグローバルなウエイト計算方法とを併用する必要がある。   As described above, the classification of the target document can be easily specified based on the degree of difference. However, if the keyword is frequently used in the target document, it cannot be further searched with this keyword. In this case, it is necessary to use the method of the present invention in combination with another global weight calculation method.

ウエイト併合モジュール108への入力は、キーワード列、対応する相違度、及びグローバルなウエイト計算方法で計算したウエイトである。出力はキーワードのウエイトである。ここで、以下の式を用いて計算する。   Inputs to the weight merging module 108 are keyword strings, corresponding dissimilarities, and weights calculated by a global weight calculation method. The output is the keyword weight. Here, it calculates using the following formula | equation.

Figure 2007172616

以上、本発明の好ましい実施形態を説明したが、本発明はこれらの実施形態に限定されず、本発明の趣旨を離脱しない限り、本発明に対するあらゆる変更は本発明の範囲に属する。
Figure 2007172616

As mentioned above, although preferable embodiment of this invention was described, this invention is not limited to these embodiment, Unless it leaves | separates the meaning of this invention, all the changes with respect to this invention belong to the scope of the present invention.

本発明の一実施例に係る文書検索装置100の構成を示すブロック図である。1 is a block diagram illustrating a configuration of a document search apparatus 100 according to an embodiment of the present invention. 本発明の一実施例に係る文書検索方法を示すフローチャートである。6 is a flowchart illustrating a document search method according to an embodiment of the present invention. 本発明の実施例に係る目標文書を検索する操作を示すフローチャートである。It is a flowchart which shows operation which searches the target document based on the Example of this invention. 本発明の実施例に係る相違度計算器(DPC)104の動作を示すフローチャートである。It is a flowchart which shows operation | movement of the difference calculator (DPC) 104 which concerns on the Example of this invention. 本発明の実施形態に係る目標文書推定手段(PRE)105の動作を示すフローチャートである。It is a flowchart which shows operation | movement of the target document estimation means (PRE) 105 which concerns on embodiment of this invention.

符号の説明Explanation of symbols

100 文書検索装置
101 ワード抽出手段(TE)
102 キーワード選択モジュール(TSM)
103 分類選択細分化モジュール(CSM)
104 相違度計算器(DPC)
105 目標文書推定手段(PRE)
106 相違度合成モジュール(DIM)
107 分類確定手段(CL)
108 ウエイト併合モジュール(TWC)
109 検索エンジン
110 デジタル・データ集合
100 document retrieval apparatus 101 word extraction means (TE)
102 Keyword selection module (TSM)
103 Classification Selection Subdivision Module (CSM)
104 Dissimilarity calculator (DPC)
105 Target document estimation means (PRE)
106 Dissimilarity synthesis module (DIM)
107 Classification confirmation means (CL)
108 Weight Merge Module (TWC)
109 Search Engine 110 Digital Data Set

Claims (22)

複数の文書のデジタル・データの集合を階層的に分類してなる階層状分類構造を有するデジタル・データ集合から、所定数の階層の分類情報に基づき所定の目標文書を検索する方法であって、
(a)ユーザにより入力された検索リクエスト文から、少なくとも一つのキーワードを含むキーワード列を抽出し、
(b)前記デジタル・データ集合から現階層の分類情報を求め、
(c)前記現階層に属する各分類に対する、前記キーワード列における各キーワードの相違度を計算し、
(d)前記相違度に基づき、前記現階層に属する各分類に前記目標文書が存在する確率を計算し、
(e1)処理した階層の数が前記所定数より小さい場合は、次の階層を現階層とし、上記ステップ(c)、(d)、(e1)を再度実行し、
(e2)処理した階層の数が前記所定数以上である場合は、計算された各階層に属する各分類に対する相違度と、前記各階層に属する各分類に前記目標文書が存在する確率とを合成し、前記各キーワードの前記所定値の階層における合成相違度を求め、及び
(f)前記合成相違度に従って前記目標文書を検索する
ことを特徴とする文書検索方法。
A method for retrieving a predetermined target document from a digital data set having a hierarchical classification structure obtained by hierarchically classifying a set of digital data of a plurality of documents based on classification information of a predetermined number of layers,
(A) extracting a keyword string including at least one keyword from a search request sentence input by a user;
(B) obtaining classification information of the current hierarchy from the digital data set;
(C) calculating the degree of difference of each keyword in the keyword string for each classification belonging to the current hierarchy;
(D) calculating a probability that the target document exists in each classification belonging to the current hierarchy based on the degree of difference;
(E1) If the number of processed layers is smaller than the predetermined number, the next layer is set as the current layer, and the above steps (c), (d), and (e1) are executed again.
(E2) When the number of processed hierarchies is equal to or greater than the predetermined number, the calculated difference between each class belonging to each hierarchy and the probability that the target document exists in each class belonging to each hierarchy are combined And (f) searching for the target document in accordance with the composite difference.
前記デジタル・データ集合の最小階層数は1であり、各階層の最小分類数は1である。
請求項1に記載の文書検索方法。
The minimum number of layers in the digital data set is 1, and the minimum number of classifications in each layer is 1.
The document search method according to claim 1.
前記ステップ(e2)において、上記ステップ(c)に計算された全ての相違度を合成する
請求項1又は2に記載の文書検索方法。
The document search method according to claim 1 or 2, wherein in step (e2), all the degrees of difference calculated in step (c) are combined.
前記ステップ(e2)において、さらに、グローバルな相違度を合成する
請求項1から3の何れか一項に記載の文書検索方法。
The document search method according to any one of claims 1 to 3, further comprising combining global dissimilarities in the step (e2).
前記ステップ(c)において、前記キーワードの各分類に対する区別力により前記相違度を計算する
請求項1から4の何れか一項に記載の文書検索方法。
The document search method according to any one of claims 1 to 4, wherein in the step (c), the degree of difference is calculated based on a distinctiveness for each classification of the keyword.
前記キーワードの各分類に対する区別力を、前記キーワードの各分類に対する表現力により計算する
請求項5に記載の文書検索方法。
The document search method according to claim 5, wherein the distinctiveness for each classification of the keyword is calculated by the expressive power for each classification of the keyword.
前記キーワードの各分類に対する表現力を、前記キーワードの各分類における出現頻度及び前記各分類の属性に基づき計算する
請求項6に記載の文書検索方法。
The document search method according to claim 6, wherein the power of expression for each classification of the keyword is calculated based on an appearance frequency in each classification of the keyword and an attribute of each classification.
前記ステップ(e1)において、次の階層を現階層とする前に、
(g)現階層のキーワード列、対応する相違度、及び出現頻度により、前記現階層のキーワード列からノイズ・キーワードを除去し、次の階層のキーワード列とする
請求項1に記載の文書検索方法。
In step (e1), before making the next hierarchy the current hierarchy,
The document search method according to claim 1, wherein (g) a noise keyword is removed from the keyword string of the current hierarchy based on the keyword string of the current hierarchy, the corresponding dissimilarity, and the appearance frequency to obtain a keyword string of the next hierarchy. .
前記グローバルな相違度は、統計的な方法により計算される
請求項4に記載の文書検索方法。
The document search method according to claim 4, wherein the global dissimilarity is calculated by a statistical method.
前記ステップ(e1)において、次の階層を現階層とする前に、
(h)前記目標文書の前記現階層に属する各分類に存在する確率により、ノイズ分類を除去し、次の階層の分類情報とする
請求項1に記載の文書検索方法。
In step (e1), before making the next hierarchy the current hierarchy,
The document search method according to claim 1, wherein (h) noise classification is removed based on a probability existing in each classification belonging to the current hierarchy of the target document, and classification information of the next hierarchy is used.
前記キーワードは、単語又はフレーズを含む
請求項1から10の何れか一項に記載の文書検索方法。
The document search method according to any one of claims 1 to 10, wherein the keyword includes a word or a phrase.
複数の文書のデジタル・データの集合を階層的に分類してなる階層状分類構造を有するデジタル・データ集合から、所定数の階層の分類情報に基づき所定の目標文書を検索する装置であって、
ユーザにより入力された検索リクエスト文から、少なくとも一つのキーワードを含むキーワード列を抽出するワード抽出手段と、
前記デジタル・データ集合から現階層の分類情報を求める分類選択細分化手段と、
前記現階層に属する各分類に対する、前記キーワード列における各キーワードの相違度を計算する相違度計算手段と、
前記相違度に基づき、前記現階層に属する各分類に前記目標文書が存在する確率を計算する目標文書推定手段と、
前記各分類に対する相違度と、前記各階層に属する各分類に前記目標文書が存在する確率とを合成し、前記各キーワードの合成相違度を求める相違度合成手段と、
前記合成相違度に従って前記目標文書を検索する検索エンジンと
を含み、
処理した階層の数が前記所定数より小さい場合は、前記相違度計算手段と前記目標文書推定手段は、各々の階層に対して順次前記相違度及び前記確率を計算し、
処理した階層の数が前記所定数以上である場合は、前記相違度合成手段は前記合成相違度を求め、前記検索エンジンは検索を行う
ことを特徴とする文書検索装置。
An apparatus for retrieving a predetermined target document from a digital data set having a hierarchical classification structure obtained by hierarchically classifying a set of digital data of a plurality of documents, based on classification information of a predetermined number of layers,
Word extraction means for extracting a keyword string including at least one keyword from a search request sentence input by a user;
Classification selection subdivision means for obtaining classification information of the current hierarchy from the digital data set;
A dissimilarity calculating means for calculating a dissimilarity of each keyword in the keyword string for each classification belonging to the current hierarchy;
Target document estimation means for calculating a probability that the target document exists in each classification belonging to the current hierarchy based on the degree of difference;
A dissimilarity synthesizing unit that synthesizes the dissimilarity with respect to each classification and the probability that the target document exists in each classification belonging to each hierarchy, and obtains the synthetic dissimilarity of each keyword;
A search engine that searches the target document according to the composite dissimilarity, and
When the number of processed hierarchies is smaller than the predetermined number, the dissimilarity calculating means and the target document estimating means sequentially calculate the dissimilarity and the probability for each hierarchy,
When the number of processed hierarchies is equal to or greater than the predetermined number, the difference degree synthesizing unit obtains the degree of composition difference, and the search engine performs a search.
前記デジタル・データ集合の最小階層数は1であり、各階層の最小分類数は1である。
請求項12に記載の文書検索装置。
The minimum number of layers in the digital data set is 1, and the minimum number of classifications in each layer is 1.
The document search device according to claim 12.
前記相違度合成手段は、前記相違度計算手段により計算された全ての相違度を合成する
請求項12又は13に記載の文書検索装置。
The document search apparatus according to claim 12 or 13, wherein the dissimilarity synthesis unit synthesizes all the dissimilarities calculated by the dissimilarity calculation unit.
前記相違度合成手段は、さらに、グローバルな相違度を合成する
請求項12から14の何れか一項に記載の文書検索装置。
The document search device according to any one of claims 12 to 14, wherein the dissimilarity synthesizing unit further synthesizes a global dissimilarity.
前記相違度計算手段は、前記キーワードの各分類に対する区別力により前記相違度を計算する
請求項12から15の何れか一項に記載の文書検索装置。
The document search device according to any one of claims 12 to 15, wherein the dissimilarity calculation means calculates the dissimilarity based on a distinctiveness for each classification of the keyword.
前記キーワードの各分類に対する区別力を、前記キーワードの各分類に対する表現力により計算する
請求項16に記載の文書検索装置。
The document search apparatus according to claim 16, wherein the distinctiveness for each classification of the keyword is calculated by the expressive power for each classification of the keyword.
前記キーワードの各分類に対する表現力を、前記キーワードの各分類における出現頻度及び前記各分類の属性に基づき計算する
請求項17に記載の文書検索装置。
The document search apparatus according to claim 17, wherein the expression power for each classification of the keyword is calculated based on an appearance frequency in each classification of the keyword and an attribute of each classification.
さらに、現階層のキーワード列、対応する相違度、及び出現頻度により、前記現階層のキーワード列からノイズ・キーワードを除去し、次の階層のキーワード列とするキーワード選択手段を含む
請求項12に記載の文書検索装置。
The keyword selection unit according to claim 12, further comprising: a keyword selection unit that removes a noise keyword from the keyword string of the current hierarchy according to the keyword string of the current hierarchy, the corresponding difference degree, and the appearance frequency, and sets the keyword keyword of the next hierarchy. Document retrieval device.
前記グローバルな相違度は、統計的な方法により計算される
請求項15に記載の文書検索装置。
The document search apparatus according to claim 15, wherein the global dissimilarity is calculated by a statistical method.
さらに、前記目標文書の前記現階層に属する各分類に存在する確率により、ノイズ分類を除去し、次の階層の分類情報とする分類確定手段と含む
請求項12に記載の文書検索装置。
13. The document search apparatus according to claim 12, further comprising: a class determination unit that removes a noise class based on a probability existing in each class belonging to the current hierarchy of the target document and sets it as class information of a next hierarchy.
前記キーワードは、単語又はフレーズを含む
請求項12から21の何れか一項に記載の文書検索装置。
The document search device according to any one of claims 12 to 21, wherein the keyword includes a word or a phrase.
JP2006340412A 2005-12-19 2006-12-18 Document search method and device Pending JP2007172616A (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2005100229632A CN100419753C (en) 2005-12-19 2005-12-19 Method and device for digital data central searching target file according to classified information

Publications (1)

Publication Number Publication Date
JP2007172616A true JP2007172616A (en) 2007-07-05

Family

ID=38184648

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006340412A Pending JP2007172616A (en) 2005-12-19 2006-12-18 Document search method and device

Country Status (2)

Country Link
JP (1) JP2007172616A (en)
CN (1) CN100419753C (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015162076A (en) * 2014-02-27 2015-09-07 富士通株式会社 Query generation method, query generation program, and query generation device
CN109145108A (en) * 2017-06-16 2019-01-04 贵州小爱机器人科技有限公司 Classifier training method, classification method, device and computer equipment is laminated in text

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102609422A (en) * 2011-01-25 2012-07-25 阿里巴巴集团控股有限公司 Class misplacing identification method and device

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11250100A (en) * 1998-02-27 1999-09-17 Nec Corp Hierarchical document classifying device and machine-readable recording medium recording program
JP2002230005A (en) * 2001-02-05 2002-08-16 Seiko Epson Corp Support center system
JP2003248687A (en) * 2002-02-22 2003-09-05 Nippon Yunishisu Kk Information processor and its method
JP2003316819A (en) * 2002-04-22 2003-11-07 Shinkichi Himeno Object classification researching device and program for executing it
JP2004355069A (en) * 2003-05-27 2004-12-16 Sony Corp Information processor, information processing method, program, and recording medium
JP2005235065A (en) * 2004-02-23 2005-09-02 Ntt Data Corp Information retrieval device

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11134364A (en) * 1997-10-31 1999-05-21 Omron Corp Systematized knowledge analyzing method and device therefor, and classifying method and device therefor
US6778975B1 (en) * 2001-03-05 2004-08-17 Overture Services, Inc. Search engine for selecting targeted messages
US7062498B2 (en) * 2001-11-02 2006-06-13 Thomson Legal Regulatory Global Ag Systems, methods, and software for classifying text from judicial opinions and other documents
US20040078224A1 (en) * 2002-03-18 2004-04-22 Merck & Co., Inc. Computer assisted and/or implemented process and system for searching and producing source-specific sets of search results and a site search summary box
US7424469B2 (en) * 2004-01-07 2008-09-09 Microsoft Corporation System and method for blending the results of a classifier and a search engine

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11250100A (en) * 1998-02-27 1999-09-17 Nec Corp Hierarchical document classifying device and machine-readable recording medium recording program
JP2002230005A (en) * 2001-02-05 2002-08-16 Seiko Epson Corp Support center system
JP2003248687A (en) * 2002-02-22 2003-09-05 Nippon Yunishisu Kk Information processor and its method
JP2003316819A (en) * 2002-04-22 2003-11-07 Shinkichi Himeno Object classification researching device and program for executing it
JP2004355069A (en) * 2003-05-27 2004-12-16 Sony Corp Information processor, information processing method, program, and recording medium
JP2005235065A (en) * 2004-02-23 2005-09-02 Ntt Data Corp Information retrieval device

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015162076A (en) * 2014-02-27 2015-09-07 富士通株式会社 Query generation method, query generation program, and query generation device
CN109145108A (en) * 2017-06-16 2019-01-04 贵州小爱机器人科技有限公司 Classifier training method, classification method, device and computer equipment is laminated in text

Also Published As

Publication number Publication date
CN1987849A (en) 2007-06-27
CN100419753C (en) 2008-09-17

Similar Documents

Publication Publication Date Title
KR101078864B1 (en) The query/document topic category transition analysis system and method and the query expansion based information retrieval system and method
Blei et al. The nested chinese restaurant process and bayesian nonparametric inference of topic hierarchies
US8108405B2 (en) Refining a search space in response to user input
US20090292685A1 (en) Video search re-ranking via multi-graph propagation
US8738635B2 (en) Detection of junk in search result ranking
US7895195B2 (en) Method and apparatus for constructing a link structure between documents
KR19990013736A (en) Keyword Extraction System and Document Retrieval System Using It
JP2004139553A (en) Document retrieval system and question answering system
EP2643770A2 (en) Text segmentation with multiple granularity levels
JP2008542951A (en) Relevance network
Westerveld et al. A probabilistic multimedia retrieval model and its evaluation
CN110750704B (en) Method and device for automatically completing query
CN102971729A (en) Ascribing actionable attributes to data that describes a personal identity
CN112836029A (en) Graph-based document retrieval method, system and related components thereof
JP2005122510A (en) Topic structure extracting method and device and topic structure extracting program and computer-readable storage medium with topic structure extracting program recorded thereon
JP2014146218A (en) Information providing device
JP3921837B2 (en) Information discrimination support device, recording medium storing information discrimination support program, and information discrimination support method
CN112307364B (en) Character representation-oriented news text place extraction method
JP2007172616A (en) Document search method and device
JP3925418B2 (en) Topic boundary determination apparatus and program
CN111737513B (en) Humming retrieval system for mass music data
JP2019128925A (en) Event presentation system and event presentation device
JP2008129943A (en) Structured document generation method and apparatus and program
JPH07319882A (en) Judgement method for keyword
CN114385777A (en) Text data processing method and device, computer equipment and storage medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090907

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111005

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111025

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111226

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120626