WO2007105642A1 - Information retrieval device by means of ambiguous word and program - Google Patents

Information retrieval device by means of ambiguous word and program Download PDF

Info

Publication number
WO2007105642A1
WO2007105642A1 PCT/JP2007/054692 JP2007054692W WO2007105642A1 WO 2007105642 A1 WO2007105642 A1 WO 2007105642A1 JP 2007054692 W JP2007054692 W JP 2007054692W WO 2007105642 A1 WO2007105642 A1 WO 2007105642A1
Authority
WO
WIPO (PCT)
Prior art keywords
extracted
articles
article
input
database
Prior art date
Application number
PCT/JP2007/054692
Other languages
French (fr)
Japanese (ja)
Inventor
Masaki Murata
Kouichi Doi
Tomohiro Mitsumori
Yasushi Fukuda
Original Assignee
National Institute Of Information And Communications Technology
National University Corporation NARA Institute of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute Of Information And Communications Technology, National University Corporation NARA Institute of Science and Technology filed Critical National Institute Of Information And Communications Technology
Publication of WO2007105642A1 publication Critical patent/WO2007105642A1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification

Definitions

  • the present invention relates to an information retrieval apparatus and program using an ambiguous word that performs a search in consideration of the ambiguous word.
  • the word “WINS” has two terms: computer terms and horse racing terms. If you search only by entering “WINS”, search results related to computer terms and search results related to horse racing terms will be mixed and output. If the user wants search results only for articles related to computer terms, the above search results are inconvenient and need to be resolved.
  • Non-Patent Document 1 "Information search using location information and field information" Shingo Murata, Ma Aoi, Kiyotaka Uchimoto, Hiromi Osaku , Masao Uchiyama, Hitoshi Isahara, Natural Language Processing (Journal of the Language Processing Society) April 2000, No. 7, No. 2, P.141- P.160
  • An object of the present invention is to solve the above problems, perform a search in consideration of the ambiguity of words, and search (output) only necessary information.
  • FIG. 1 is an explanatory diagram of an information retrieval apparatus using a polysemy of the present invention.
  • 1 is an input section (input means)
  • 2 is a search extraction section (search extraction means)
  • 4 is a database (storage means)
  • 5 is an output section (output means).
  • the present invention has the following means in order to solve the above conventional problems.
  • the search extraction unit 2 extracts and outputs only the articles including the input keyword in the extracted similar articles. , Output in the order of the article power with the highest similarity to the article group B. Therefore, it is possible to reliably search for articles in the field entered using keywords with ambiguous terms.
  • Search / extraction means 2 for extracting expressions that appear biased in each cluster, and inquiry means for selecting expressions that appear unevenly in each cluster. The search / extraction means 2 is selected by the inquiry means.
  • the article of the cluster of the expressed expression is output. This makes it easy to search for articles in fields where you want to enter only keywords.
  • An input means 1 for inputting a keyword and a field, a database 4 for storing articles in each field, and an article including both the input keyword and field are extracted from the database 4.
  • the search extraction means 2 is a program for causing a computer to function. For this reason, by installing this program on a computer, it is possible to easily provide an information retrieval apparatus using a polysemy that can easily search for articles in a field in which only keywords are desired. Togashi.
  • the present invention has the following effects.
  • the search / extraction means extracts an article including the input keyword and field from the database, extracts a word group A that appears biased to the extracted article group, and includes the input keyword. Since the articles are output in the order of the article power that contains a large number of the word group A, it is possible to search for articles in the input field using keywords based on multiple terms.
  • FIG. 1 is an explanatory diagram of an information retrieval apparatus using a polysemy of the present invention.
  • FIG. 2 is a flowchart (1) of information retrieval using a polysemy of the present invention.
  • FIG. 3 is a flowchart (2) of information retrieval using a polysemy of the present invention.
  • FIG. 5 is a flowchart (3) of information retrieval using a polysemy of the present invention.
  • the information retrieval apparatus using ambiguous words performs retrieval in consideration of word ambiguity in information retrieval.
  • the word “WINS” has two terms: computer terminology and horse racing terminology. If you search only by entering "WINS”, search results related to computer terms and search results related to horse racing terms are mixed and output. If the user wants search results for only articles related to computer terms, the solution described below (Solutions 1 to 3) can be used.
  • FIG. 1 is an explanatory diagram of an information retrieval apparatus using ambiguous words.
  • an information retrieval device (system) using multiple terms includes an input unit (input unit) 1, a search extraction unit (search extraction unit) 2, a database (storage unit) 4, and an output unit (output unit) 5. It is provided.
  • the input unit 1 is an input means for inputting information such as keywords.
  • the search extraction unit 2 is a search extraction unit that performs word extraction, search processing, and the like.
  • Database 4 is a storage means for storing information (including information such as Web).
  • the output unit 5 is output means for outputting information by displaying and printing.
  • the user can enter the input form by specifying a field such as “keyword (field)”. For example, in the previous example, enter "WINS (computer)”.
  • FIG. 2 is a flowchart (1) of information retrieval using ambiguous words.
  • information retrieval using a multiple word Solution 1 will be described according to the processes S1 to S5 in FIG.
  • S1 The user inputs a keyword by designating a field using the input unit 1, and proceeds to processing S2.
  • S2 The search extraction unit 2 extracts an article including the keyword input from the database 4, and proceeds to processing S3.
  • S3 The search and extraction unit 2 extracts an article including the specified field from the extracted article group, and proceeds to processing S4.
  • S4 The search extraction unit 2 extracts a word group A that appears biased to the article group including the specified field from the article group including the input keyword, and proceeds to processing S5.
  • S5 The search extraction unit 2 outputs to the output unit 5 in the order of the article power including more word group A in the articles including the input keyword.
  • the article group can be used to extract word group A that appears biased to articles including computers.
  • C be a larger article group that contains article group B.
  • the article group C may be the whole database or a part thereof.
  • the article group includes 3 ⁇ 4 “WINS”.
  • Solution 1 described above may have other methods.
  • the database that does not extract word group A that appears biased in the articles that include the computer is not included.
  • the word group A that appears biased in the article group including the computer may be extracted from the entire article group, and processed using the extracted word group A. In that case, C is the entire database.
  • Appearance rate of A in C Number of occurrences of A in C Total number of words in ZC
  • Appearance rate of A in B Number of occurrences of A in B Total number of words in ZB
  • N be the number of occurrences of A in C.
  • N1 be the number of occurrences of A in B.
  • N2 N-N1.
  • N1 and N2 are not equivalent probabilities, that is, N1 is significantly larger than N2.
  • P1 is less than 5%, or 10% test, P1 is less than 10% is a criterion for determining whether it is significantly greater.
  • Words that appear to be biased in the article group B are those in which N1 is determined to be significantly larger than N2. In addition, the smaller P1, the more often the word appears in the article group B.
  • the number of occurrences of A in B is Nl, the total number of occurrences of words in B is Fl,
  • the number of occurrences of A that is in C but not in B is N2,
  • F2 be the total number of words that are in C but not in B.
  • R1 and R2 are more significant as the chi-square value is larger.
  • the chi-square value is greater than 3.84, it can be said that there is a significant difference of 5%, and the chi-square value is 6.63. If it is too large, it can be said that there is a significant difference of 1%.
  • test methods may be combined with the method of simply determining the appearance rate of A in B and the appearance rate of A in ZC.
  • W is a set of keywords entered by the user
  • N is the total number of documents
  • length is the length of article D
  • delta is the average length of articles
  • the length of the article uses the number of bytes of the article and the number of words included in the article.
  • E (t) 1 (keyword from the original search)
  • RatioC (t) is the appearance rate of t in article group B
  • RatioD (t) is the appearance rate of t in article group C
  • the score (D) is obtained by replacing the log (N / d w)) with the above equation, and the larger the value! /, the more the word group A is extracted.
  • the set W of words w to be added when score (D) is added is both the original keyword and the word group A. However, the original keyword and word group A should not overlap.
  • score (D) is added at the time of addition.
  • the set W of words w is only word group A. However, the original keyword and word group A should not overlap.
  • the user can enter the input form by specifying a field such as “keyword (field)”. For example, in the previous example, enter "WINS (computer)”.
  • a field such as “keyword (field)”. For example, in the previous example, enter "WINS (computer)”.
  • WINS computer
  • articles containing both “WINS” and the computer are first extracted. Then, similar articles in the article group B are extracted. In the similar articles, only articles that contain “WINS” are extracted and output as search results. At this time, articles with high similarity to article group B are output. This also seems to be able to extract articles in the computer-related field.
  • FIG. 3 is a flowchart (2) of information retrieval using multiple terms.
  • the process Sl l ⁇ in Fig. 3 In accordance with S14, explain information retrieval by using multiple meanings (Solution 2).
  • the search extraction unit 2 extracts articles including both the keyword and the field input from the database 4, and proceeds to processing S13.
  • S13 The search extraction unit 2 extracts similar articles in the extracted article group B, and proceeds to processing S14.
  • S14 The search extraction unit 2 extracts only the articles including the input keyword in the extracted similar articles, and outputs them as search results. At this time, it is output to the article power output unit 5 having a high similarity to the article group B.
  • _x, vector_y The value of _x, vector_y)) is obtained, and an article with a larger value may be determined as an article containing more word group A.
  • the word contained in the word group A is used as a vector (vector_x), and the word contained in the article is used as a vector (vector—y).
  • the similarity between the article group B and the article X includes the following methods.
  • the user inputs only “keyword”. For example, in the previous example, “WINS” is entered.
  • articles including “WINS” are extracted.
  • the articles are clustered. Extract expressions that appear biased in each cluster. For example, suppose that the expressions that are divided into two clusters and appear in each cluster are “computer” and “horse racing”, respectively. In that case, the user is inquired about whether it is related to “computer” or “horse racing”. Then, the user selects one of these. After the selection, the selected expression is processed as the input “field” in the same manner as in the above solutions 1 and 2, or the selected cluster is output as a search result.
  • FIG. 4 is an explanatory diagram of an information retrieval apparatus using a multiple word having an inquiry unit.
  • an information retrieval device (system) with a multiple meaning including an inquiry unit includes an input unit (input unit) 1, a search extraction unit (search extraction unit) 2, an inquiry unit (inquiry unit) 3, a database ( (Storage means) 4 and output unit (output means) 5 are provided.
  • the input unit 1 is an input means for inputting information such as keywords.
  • the search extraction unit 2 is a search extraction unit that performs word extraction, search processing, and the like.
  • the inquiry unit 3 is an inquiry means that asks the user for expressions (technical fields, etc.) that appear biased in the cluster, and makes selections by the user.
  • the database 4 is a storage means for storing information.
  • the output unit 5 is an output unit that outputs information by performing display and printing. [0081] (Description by flowchart)
  • FIG. 5 is a flowchart (3) of information retrieval using a polysemy.
  • information retrieval (solution 3) using a multiple meaning word having an inquiry part will be described according to the processes S21 to S26 in FIG.
  • the search extraction unit 2 extracts an article including the keyword input from the database 4, and proceeds to processing S23.
  • the search extraction unit 2 extracts expressions that appear unevenly in each cluster, and proceeds to processing S25.
  • S25 The inquiry unit 3 inquires the user so as to select an expression that appears biased in each cluster, and proceeds to processing S26.
  • the search extraction unit 2 outputs the articles of the selected cluster to the output unit 5.
  • Clusters and clusters are closest to each other.
  • the distance between cluster A and cluster B is the largest distance between the members of cluster A and cluster B, and the distance is the largest
  • the distance between cluster A and cluster B is the average of all cluster A member positions, and the average of all cluster B member positions is the single cluster position.
  • the average is the distance •
  • Ward method There is also a method called the Ward method. Hereinafter, the Ward method will be described.
  • x (i, j) is the position of the j-th member of the i-th cluster
  • ave— x (i) is the average of the positions of all members of the i-th cluster
  • the position of the member is the word taken from the article, the type of the word is taken as the dimension of the vector, and the value of the vector element of each word is set to the word frequency or the word 'idf (ie, tKw, D ) * log (N / dw) >> and the Okapi formula for that word (ie tl (w, D) / (ti (w, D) + length / delta) * log (N / dw)) Create and make it a member's position.
  • top-down clustering non-hierarchical clustering
  • clustering to a predetermined number k. Choose k members randomly, and use it as the center of the cluster. Each member becomes the closest cluster-centered member. The average of each member in the cluster is the center of each cluster. Each member becomes the closest cluster-centered member. In addition, the average of each member in the cluster The center of the raster. Repeat these. When the center of the cluster stops moving, it stops repeating. Or, repeat it for a predetermined number of times. The cluster is obtained by using the cluster center at the final cluster center. Each member is most recently a cluster-centered member.
  • clustering is performed. There are many other clustering methods that can be used.
  • the keyword given first may be plural, such as the force A B (B ′) C (C,) which is “WINS (computer)”. This means an AND search of word A, word B (but word B in the case of field B ') and word C (but word C in the case of field C').
  • Solution 3 is also possible. First, enter A, B, and C. Next, take out articles including A, B, and C. Clustering and outputting word Z that appears biased to each cluster. Simple The user can select a word and process the selected expression as the “field” of input in the same way as in solutions 1 and 2 above, or output the selected cluster as a search result.
  • Z1 co-occurs well with A
  • Z2 co-occurs with C
  • Z3 co-occurs with B
  • This display may take other forms as long as the relation between the input keyword and Zl, Z2,.
  • n (I ad— be I -n / 2) "2 / (a + b) / (c + d) / (a + c) / (b + d)
  • the process described as “taken out as the value is larger” can be taken out as “take out a value whose value is equal to or greater than the threshold value”.
  • the processing described as “take out a larger value in the order of the number greater than a predetermined value in order,” obtains a value obtained by multiplying the maximum value of the extracted value by a predetermined ratio, and “Take out the one with a value that is equal to or greater than the calculated value”.
  • these threshold values and predetermined values can be determined in advance, or the values can be appropriately changed and set by the user.
  • Input section (input means) 1, search extraction section (search extraction means) 2, question, matching section (question, matching means) 3, database (storage means) 4, output section (output means) 5, etc. are composed of programs It is executed by the main control unit (CPU) and is stored in the main memory.
  • This program is processed by a general computer (information processing apparatus).
  • This computer is composed of hardware such as an input device as input means such as a main control unit, main memory, file device, display device, and keyboard.
  • the program of the present invention is installed in this computer.
  • these programs are stored in a portable recording medium such as a hard disk or a magneto-optical disk, and the drive for accessing the recording medium provided in the computer is used.
  • It is installed in a file device provided in the computer via a device or a network such as a LAN. Then, the program steps necessary for the file device power processing are read out to the main memory and executed by the main control unit.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

An information retrieval device is to surely retrieve articles in a field input by means of an ambiguous keyword. The information retrieval device is comprised of an input means (1) for inputting a keyword and a field, a database (4) for storing articles in each field, a retrieval extracting means (3) for extracting an article including the input keyword and field from the database (4) and a word group (A) unevenly emerged in the extracted articles, and for outputting the articles containing the word groups (A) in the articles including the input keywords in order of those with the number of the word groups (A).

Description

明 細 書  Specification
多義語による情報検索装置及びプログラム  Information retrieval apparatus and program using multiple meanings
技術分野  Technical field
[0001] 本発明は、言葉の多義性を考慮した検索を行う多義語による情報検索装置及びプ ログラムに関する。例えば、「WINS」という語は、コンピュータ用語と、競馬の用語の 二つがある。「WINS」とだけ入力して検索した場合は、コンピュータ用語に関連した 検索結果と、競馬の用語に関連する検索結果が混ざって出力される。もし、ユーザが コンピュータ用語に関連する記事だけの検索結果を欲しい場合は、上記の検索結果 では不便であるので、この問題を解決する必要がある。  TECHNICAL FIELD [0001] The present invention relates to an information retrieval apparatus and program using an ambiguous word that performs a search in consideration of the ambiguous word. For example, the word “WINS” has two terms: computer terms and horse racing terms. If you search only by entering “WINS”, search results related to computer terms and search results related to horse racing terms will be mixed and output. If the user wants search results only for articles related to computer terms, the above search results are inconvenient and need to be resolved.
背景技術  Background art
[0002] 従来、検索のためのキーワードを与えて情報検索を行う技術はあった (非特許文献 1参照)。しかし、検索の段階で、単語の多義を考慮した入力ができないものであった 非特許文献 1 : "位置情報と分野情報を用いた情報検索"村田真榭,馬青,内元清貴 ,小作浩美,内山将夫,井佐原均, 自然言語処理 (言語処理学会誌) 2000年 4月, 7卷, 2号, P.141〜 P.160  Conventionally, there has been a technique for performing information retrieval by providing a keyword for retrieval (see Non-Patent Document 1). However, at the search stage, it was not possible to input in consideration of the ambiguity of words. Non-patent document 1: "Information search using location information and field information" Shingo Murata, Ma Aoi, Kiyotaka Uchimoto, Hiromi Osaku , Masao Uchiyama, Hitoshi Isahara, Natural Language Processing (Journal of the Language Processing Society) April 2000, No. 7, No. 2, P.141- P.160
発明の開示  Disclosure of the invention
発明が解決しょうとする課題  Problems to be solved by the invention
[0003] 上記従来のキーワードを与えて情報検索を行う技術は、検索の段階で、単語の多 義を考慮した入力ができな力つたので、不必要な情報を検索して出力することがあつ た。 [0003] The above-described conventional technology for searching information by providing keywords has been difficult to input in consideration of word ambiguity at the search stage, and therefore, unnecessary information may be searched and output. It was.
[0004] 本発明は上記問題点の解決を図り、言葉の多義性を考慮した検索を行い、必要な 情報のみを検索(出力)することを目的とする。  [0004] An object of the present invention is to solve the above problems, perform a search in consideration of the ambiguity of words, and search (output) only necessary information.
課題を解決するための手段  Means for solving the problem
[0005] 図 1は本発明の多義語による情報検索装置の説明図である。図 1中、 1は入力部( 入力手段)、 2は検索抽出部 (検索抽出手段)、 4はデータベース (格納手段)、 5は出 力部(出力手段)である。 [0006] 本発明は、前記従来の課題を解決するため次のような手段を有する。 [0005] FIG. 1 is an explanatory diagram of an information retrieval apparatus using a polysemy of the present invention. In FIG. 1, 1 is an input section (input means), 2 is a search extraction section (search extraction means), 4 is a database (storage means), and 5 is an output section (output means). The present invention has the following means in order to solve the above conventional problems.
[0007] (1):キーワードと分野を入力する入力手段 1と、各分野の記事を格納するデータべ ース 4と、前記入力したキーワードと分野を含む記事を前記データベース 4から抽出 し、該抽出した記事群に偏って出現する単語群 Aを抽出し、前記入力したキーワード を含む記事の中で前記単語群 Aを多く含む記事力 順に出力する検索抽出手段 2と を備える。このため、多義語によるキーワードを使用して入力した分野の記事を検索 することができる。 [0007] (1): An input means 1 for inputting a keyword and a field, a database 4 for storing articles in each field, and an article including the input keyword and field are extracted from the database 4, And a search and extraction unit 2 that extracts a word group A that appears biased to the extracted article group and outputs the extracted word group A in the order of the article power including the word group A among the articles including the input keyword. For this reason, it is possible to search for articles in the field entered using keywords with multiple meanings.
[0008] (2):キーワードと分野を入力する入力手段 1と、各分野の記事を格納するデータべ ース 4と、前記入力したキーワードと分野を両方含む記事を前記データベース 4から 抽出し、該抽出した記事群 Bの類似記事を抽出し、該抽出した類似記事において、 前記入力したキーワードを含む記事のみを抽出して出力する検索抽出手段 2とを備 える。このため、多義語によるキーワードを使用して入力した分野の記事を検索する ことができる。  [0008] (2): An input means 1 for inputting a keyword and a field, a database 4 for storing articles in each field, and an article including both the input keyword and field are extracted from the database 4. There is provided search extraction means 2 for extracting similar articles of the extracted article group B, and extracting and outputting only articles containing the input keyword in the extracted similar articles. For this reason, it is possible to search for articles in the field entered using keywords with multiple terms.
[0009] (3):前記(2)の多義語による情報検索装置において、前記検索抽出手段 2は、前 記抽出した類似記事において、前記入力したキーワードを含む記事のみを抽出して 出力する場合、前記記事群 Bとの類似度が高い記事力 順に出力する。このため、 多義語によるキーワードを使用して入力した分野の記事を確実に検索することができ る。  [0009] (3): In the information retrieval apparatus using the multiple meanings of (2), the search extraction unit 2 extracts and outputs only the articles including the input keyword in the extracted similar articles. , Output in the order of the article power with the highest similarity to the article group B. Therefore, it is possible to reliably search for articles in the field entered using keywords with ambiguous terms.
[0010] (4):キーワードを入力する入力手段 1と、各分野の記事を格納するデータベース 4 と、前記入力したキーワードを含む記事を前記データベース 4から抽出し、該抽出し た記事群をクラスタリングし、各クラスターで偏つて出現する表現を抽出する検索抽出 手段 2と、前記各クラスターで偏って出現する表現を選択する問い合わせ手段とを備 え、前記検索抽出手段 2は、前記問い合わせ手段で選択された表現のクラスターの 記事を出力する。このため、キーワードのみを入力してほしい分野の記事を容易に検 索することができる。  [0010] (4): An input means 1 for inputting a keyword, a database 4 for storing articles in each field, an article including the input keyword is extracted from the database 4, and the extracted article group is clustered. Search / extraction means 2 for extracting expressions that appear biased in each cluster, and inquiry means for selecting expressions that appear unevenly in each cluster. The search / extraction means 2 is selected by the inquiry means. The article of the cluster of the expressed expression is output. This makes it easy to search for articles in fields where you want to enter only keywords.
[0011] (5):前記(1)〜(3)の多義語による情報検索装置において、前記入力手段 1にキ 一ワードを入力し、前記検索抽出手段 2で前記入力したキーワードを含む記事を前 記データベース 4から抽出し、該抽出した記事群をクラスタリングし、各クラスターで偏 つて出現する表現を抽出し、前記各クラスターで偏って出現する表現を選択する問 V、合わせ手段を備え、前記問!、合わせ手段で選択された表現を前記入力手段 1に 入力される分野として用いる。このため、キーワードを入力して、ほしい分野の記事を 容易に検索することができる。 [0011] (5): In the information retrieval device using the multiple meanings of (1) to (3), an article including the keyword input by the input means 1 and the input keyword by the search extraction means 2 is provided. Extract from the database 4 above, cluster the extracted articles, The question V is selected by extracting the expressions that appear and the expressions that appear biased in each cluster are selected. The expression selected by the matching means is used as the field input to the input means 1. This makes it easy to search for articles in a desired field by entering keywords.
[0012] (6):キーワードと分野を入力する入力手段 1と、各分野の記事を格納するデータべ ース 4と、前記入力したキーワードと分野を含む記事を前記データベース 4から抽出 し、該抽出した記事群に偏って出現する単語群 Aを抽出し、前記入力したキーワード を含む記事の中で前記単語群 Aを多く含む記事力 順に出力する検索抽出手段 2と して、コンピュータを機能させるためのプログラムとする。このため、このプログラムをコ ンピュータにインストールすることで、多義語によるキーワードを使用して入力した分 野の記事を検索することができる多義語による情報検索装置を容易に提供すること ができる。 [0012] (6): An input means 1 for inputting a keyword and a field, a database 4 for storing articles in each field, and an article including the input keyword and field are extracted from the database 4, Extract word group A that appears biased in the extracted article group, and make the computer function as search and extraction means 2 that outputs in order of article power that contains the word group A in the articles including the input keyword. Program. For this reason, by installing this program on a computer, it is possible to easily provide an information retrieval apparatus using a polysemy that can retrieve articles in a field input using a keyword using polysemy.
[0013] (7):キーワードと分野を入力する入力手段 1と、各分野の記事を格納するデータべ ース 4と、前記入力したキーワードと分野を両方含む記事を前記データベース 4から 抽出し、該抽出した記事群 Bの類似記事を抽出し、該抽出した類似記事において、 前記入力したキーワードを含む記事のみを抽出して出力する検索抽出手段 2として、 コンピュータを機能させるためのプログラムとする。このため、このプログラムをコンビ ユータにインストールすることで、多義語によるキーワードを使用して入力した分野の 記事を検索することができる多義語による情報検索装置を容易に提供することができ る。  [0013] (7): An input means 1 for inputting a keyword and a field, a database 4 for storing articles in each field, and an article including both the input keyword and field are extracted from the database 4. A program for causing a computer to function as the search and extraction means 2 that extracts similar articles of the extracted article group B and extracts and outputs only articles including the input keyword in the extracted similar articles. For this reason, by installing this program in a computer, it is possible to easily provide an information retrieval apparatus using a polysemy that can search for articles in a field input using a keyword using polysemy.
[0014] (8):キーワードを入力する入力手段 1と、各分野の記事を格納するデータベース 4 と、前記入力したキーワードを含む記事を前記データベース 4から抽出し、該抽出し た記事群をクラスタリングし、各クラスターで偏つて出現する表現を抽出する検索抽出 手段 2と、前記各クラスターで偏って出現する表現を選択する問い合わせ手段と、前 記問い合わせ手段で選択された表現のクラスターの記事を出力する前記検索抽出 手段 2として、コンピュータを機能させるためのプログラムとする。このため、このプログ ラムをコンピュータにインストールすることで、キーワードのみを入力してほしい分野の 記事を容易に検索することができる多義語による情報検索装置を容易に提供するこ とがでさる。 [0014] (8): An input means 1 for inputting a keyword, a database 4 for storing articles in each field, an article including the input keyword is extracted from the database 4, and the extracted article group is clustered. Search and extraction means 2 for extracting expressions that appear biased in each cluster, inquiry means for selecting expressions that appear biased in each cluster, and outputting articles of clusters of expressions selected by the inquiry means The search extraction means 2 is a program for causing a computer to function. For this reason, by installing this program on a computer, it is possible to easily provide an information retrieval apparatus using a polysemy that can easily search for articles in a field in which only keywords are desired. Togashi.
発明の効果  The invention's effect
[0015] 本発明によれば次のような効果がある。  [0015] The present invention has the following effects.
[0016] (1):検索抽出手段で、入力したキーワードと分野を含む記事をデータベースから 抽出し、該抽出した記事群に偏って出現する単語群 Aを抽出し、前記入力したキー ワードを含む記事の中で前記単語群 Aを多く含む記事力 順に出力するため、多義 語によるキーワードを使用して入力した分野の記事を検索することができる。  [0016] (1): The search / extraction means extracts an article including the input keyword and field from the database, extracts a word group A that appears biased to the extracted article group, and includes the input keyword. Since the articles are output in the order of the article power that contains a large number of the word group A, it is possible to search for articles in the input field using keywords based on multiple terms.
[0017] (2):検索抽出手段で、入力したキーワードと分野を両方含む記事をデータベース 4から抽出し、該抽出した記事群 Bの類似記事を抽出し、該抽出した類似記事にお いて、前記入力したキーワードを含む記事のみを抽出して出力するため、多義語に よるキーワードを使用して入力した分野の記事を検索することができる。  [0017] (2): An article including both the input keyword and the field is extracted from the database 4 by the search extraction means, and similar articles of the extracted article group B are extracted. In the extracted similar articles, Since only articles containing the input keyword are extracted and output, articles in the input field can be searched using a keyword based on multiple terms.
[0018] (3):検索抽出手段で、抽出した類似記事において、入力したキーワードを含む記 事のみを抽出して出力する場合、記事群 Bとの類似度が高い記事力 順に出力する ため、多義語によるキーワードを使用して入力した分野の記事を確実に検索すること ができる。  [0018] (3): When extracting and outputting only the articles including the input keyword in the extracted similar articles by the search extraction means, the articles are output in order of the degree of similarity with the article group B. You can reliably search for articles in the field you entered using keywords with multiple meanings.
[0019] (4):検索抽出手段で、入力したキーワードを含む記事をデータベース力 抽出し、 該抽出した記事群をクラスタリングし、各クラスターで偏つて出現する表現を抽出し、 問い合わせ手段で、前記各クラスターで偏って出現する表現を選択し、前記検索抽 出手段で、前記問 、合わせ手段で選択された表現のクラスターの記事を出力するた め、キーワードのみを入力してほしい分野の記事を容易に検索することができる。  [0019] (4): An article including the input keyword is extracted from the database by the search extraction means, the extracted article group is clustered, expressions that appear biased in each cluster are extracted, and the inquiry means Select an expression that appears biased in each cluster, and the search extraction means outputs an article of the expression cluster selected by the above question and matching means. You can search easily.
[0020] (5):検索抽出手段で入力したキーワードを含む記事をデータベース力 抽出し、 該抽出した記事群をクラスタリングし、各クラスターで偏つて出現する表現を抽出し、 問!ヽ合わせ手段で前記各クラスターで偏って出現する表現を選択し、前記問 、合わ せ手段で選択された表現を前記入力手段に入力される分野として用いるため、キー ワードを入力して、ほし 、分野の記事を容易に検索することができる。  [0020] (5): Extract articles including keywords input by the search extraction means, extract the group of the extracted articles, and extract expressions that appear biased in each cluster. In order to select an expression that appears biased in each cluster by the matching means, and to use the expression selected by the question and matching means as a field to be input to the input means, input a keyword, You can easily search for articles in the field.
図面の簡単な説明  Brief Description of Drawings
[0021] [図 1]本発明の多義語による情報検索装置の説明図である。 [0021] FIG. 1 is an explanatory diagram of an information retrieval apparatus using a polysemy of the present invention.
[図 2]本発明の多義語による情報検索のフローチャート(1)である。 [図 3]本発明の多義語による情報検索のフローチャート(2)である。 FIG. 2 is a flowchart (1) of information retrieval using a polysemy of the present invention. FIG. 3 is a flowchart (2) of information retrieval using a polysemy of the present invention.
圆 4]本発明の問い合わせ部を備える多義語による情報検索装置の説明図である。  4] It is explanatory drawing of the information retrieval apparatus by a polysemy provided with the inquiry part of this invention.
[図 5]本発明の多義語による情報検索のフローチャート(3)である。  FIG. 5 is a flowchart (3) of information retrieval using a polysemy of the present invention.
符号の説明  Explanation of symbols
[0022] 1 入力部 (入力手段) [0022] 1 Input section (input means)
2 検索抽出部 (検索抽出手段)  2 Search extraction unit (Search extraction means)
4 データベース (格納手段)  4 Database (Storage method)
5 出力部(出力手段)  5 Output section (output means)
発明を実施するための最良の形態  BEST MODE FOR CARRYING OUT THE INVENTION
[0023] 本発明の多義語による情報検索装置は、情報検索において言葉の多義性を考慮 した検索をするものである。例えば、「WINS」という語は、コンピュータ用語と、競馬 の用語の二つがある。「WINS」とだけ入力して検索した場合は、コンピュータ用語に 関連した検索結果と、競馬の用語に関連する検索結果が混ざって出力される。もし、 ユーザがコンピュータ用語に関連する記事だけの検索結果を欲しい場合は、以下で 説明する解決法 (解決方法 1〜3)で解決することができる。 [0023] The information retrieval apparatus using ambiguous words according to the present invention performs retrieval in consideration of word ambiguity in information retrieval. For example, the word “WINS” has two terms: computer terminology and horse racing terminology. If you search only by entering "WINS", search results related to computer terms and search results related to horse racing terms are mixed and output. If the user wants search results for only articles related to computer terms, the solution described below (Solutions 1 to 3) can be used.
[0024] (1):多義語による情報検索装置の説明 [0024] (1): Description of information retrieval apparatus using multiple terms
図 1は多義語による情報検索装置の説明図である。図 1において、多義語による情 報検索装置 (システム)には、入力部 (入力手段) 1、検索抽出部 (検索抽出手段) 2、 データベース (格納手段) 4、出力部(出力手段) 5が設けてある。  FIG. 1 is an explanatory diagram of an information retrieval apparatus using ambiguous words. In FIG. 1, an information retrieval device (system) using multiple terms includes an input unit (input unit) 1, a search extraction unit (search extraction unit) 2, a database (storage unit) 4, and an output unit (output unit) 5. It is provided.
[0025] 入力部 1は、キーワード等の情報を入力する入力手段である。検索抽出部 2は、単 語の抽出、検索処理等を行う検索抽出手段である。データベース 4は、情報を格納 する格納手段 (Web等の情報も含む)である。出力部 5は、表示や印刷を行なって情 報を出力する出力手段である。  The input unit 1 is an input means for inputting information such as keywords. The search extraction unit 2 is a search extraction unit that performs word extraction, search processing, and the like. Database 4 is a storage means for storing information (including information such as Web). The output unit 5 is output means for outputting information by displaying and printing.
[0026] (2):多義語による情報検索の説明 1 (解決法 1)  [0026] (2): Explanation of information retrieval using multiple terms 1 (Solution 1)
ユーザが入力する形態を「キーワード (分野)」のように分野を指定して入力できるよ うにする。例えば、先の例だと、「WINS (コンピュータ)」と入力する。  The user can enter the input form by specifying a field such as “keyword (field)”. For example, in the previous example, enter "WINS (computer)".
[0027] この入力がなされると、まず、「WINS」を含む記事を抽出する。そして、その記事群 の中で、コンピュータを含む記事を抽出する。「WINS」を含む記事群の中で、コンビ ユータを含む記事群に偏って出現する単語群 Aを抽出する。 rwiNSjを含む記事の 中で単語群 Aをより多く含む記事力も順に出力する。単語群 Aはコンピュータ関連の 分野の記事に多く出現する表現で、そういう表現が多く出現する記事は、コンビユー タ関連の分野の記事と予想される。そういう記事を出力することで問題を解決する。 When this input is made, first, articles including “WINS” are extracted. Then, articles including computers are extracted from the article group. Among the articles including “WINS”, Extract word group A that appears biased to the article group including Uta. Articles that contain more word group A in articles containing rwiNSj are also output in order. The word group A is an expression that frequently appears in articles in the computer-related field, and an article in which many such expressions appear is expected to be an article in the computer-related field. The problem is solved by outputting such an article.
[0028] (フローチャートによる説明) [0028] (Description by flowchart)
図 2は多義語による情報検索のフローチャート(1)である。以下、図 2の処理 S1〜S 5に従って、多義語による情報検索 (解決法 1)の説明をする。  FIG. 2 is a flowchart (1) of information retrieval using ambiguous words. In the following, information retrieval using a multiple word (Solution 1) will be described according to the processes S1 to S5 in FIG.
[0029] S1 :入力部 1により、ユーザがキーワードを分野を指定して入力し、処理 S2に移る。 [0029] S1: The user inputs a keyword by designating a field using the input unit 1, and proceeds to processing S2.
[0030] S2 :検索抽出部 2は、データベース 4から入力したキーワードを含む記事を抽出し、 処理 S3に移る。 [0030] S2: The search extraction unit 2 extracts an article including the keyword input from the database 4, and proceeds to processing S3.
[0031] S3 :検索抽出部 2は、抽出した記事群の中で、指定した分野を含む記事を抽出し、 処理 S4に移る。  [0031] S3: The search and extraction unit 2 extracts an article including the specified field from the extracted article group, and proceeds to processing S4.
[0032] S4 :検索抽出部 2は、入力したキーワードを含む記事群の中で、指定した分野を含 む記事群に偏って出現する単語群 Aを抽出し、処理 S5に移る。  [0032] S4: The search extraction unit 2 extracts a word group A that appears biased to the article group including the specified field from the article group including the input keyword, and proceeds to processing S5.
[0033] S5 :検索抽出部 2は、入力したキーワードを含む記事の中で単語群 Aをより多く含 む記事力 順に出力部 5に出力する。  [0033] S5: The search extraction unit 2 outputs to the output unit 5 in the order of the article power including more word group A in the articles including the input keyword.
[0034] a)ある記事群 Bに偏って出現する単語群 Aの抽出方法の説明 1 (解決法 1)  [0034] a) Explanation 1 of the extraction method of word group A that appears biased to a certain article group B (Solution 1)
例えば、コンピュータを含む記事群に偏って出現する単語群 Aを、抽出するときな どに使うことができる。記事群 Bを包含する、よりも大きい記事群を Cとする。ここで記 事群 Cはデータベース全体でもいいし、一部でもよい。上述の解決法 1にしたがえば 、 ¾「WINS」を含む記事群となる。  For example, it can be used to extract word group A that appears biased to articles including computers. Let C be a larger article group that contains article group B. Here, the article group C may be the whole database or a part thereof. According to Solution 1 above, the article group includes ¾ “WINS”.
[0035] ただし、上述の解決法 1も他の方法がありえて、「WINS」を含む記事群の中で、コ ンピュータを含む記事群に偏って出現する単語群 Aを取り出すのではなぐデータべ ース全体の記事群の中で、コンピュータを含む記事群に偏って出現する単語群 Aを 取り出し、その取り出した単語群 Aを利用して処理してもよい。その場合は Cはデータ ベース全体となる。  [0035] However, Solution 1 described above may have other methods. Among the articles that include "WINS", the database that does not extract word group A that appears biased in the articles that include the computer is not included. The word group A that appears biased in the article group including the computer may be extracted from the entire article group, and processed using the extracted word group A. In that case, C is the entire database.
[0036] 先ず、 C中の Aの出現率と B中の Aの出現率を求める。  [0036] First, the appearance rate of A in C and the appearance rate of A in B are obtained.
[0037] C中の Aの出現率 =C中の Aの出現回数 ZC中の単語総数 B中の Aの出現率 =B中の Aの出現回数 ZB中の単語総数 [0037] Appearance rate of A in C = Number of occurrences of A in C Total number of words in ZC Appearance rate of A in B = Number of occurrences of A in B Total number of words in ZB
次に、 B中の Aの出現率 ZC中の Aの出現率  Next, the appearance rate of A in B The appearance rate of A in ZC
を求めてこの値が大きいものほど、記事群 Bに偏って出現する単語とする。  The higher this value is, the more the word appears in the article group B.
[0038] b)ある記事群 Bに偏って出現する単語群 Aの抽出方法の説明 2 [0038] b) Explanation of extraction method of word group A that appears biased to a certain article group B 2
(有意差検定を利用する説明)  (Explanation using significant difference test)
'二項検定の場合の説明  'Explanation for binomial test
Aの Cでの出現数を Nとする。 Aの Bでの出現数を N1とする。  Let N be the number of occurrences of A in C. Let N1 be the number of occurrences of A in B.
[0039] N2=N— N1とする。 [0039] N2 = N-N1.
[0040] Aが Cに現れたときにそれが B中に現れる確率を 0.5と仮定して、 Nの総出現のうち [0040] Of the total occurrences of N, assuming that the probability that it appears in B when A appears in C is 0.5
、 N2回以下、 Aが Cに出現して Bに出現しな力つた確率を求める。 N2 times or less, find the probability that A appeared in C and did not appear in B.
[0041] この確率は、 [0041] This probability is
PI =∑ C(N1+N2,x) * 0.5 "(x) * 0.5 '(N1+N2— x)  PI = ∑ C (N1 + N2, x) * 0.5 "(x) * 0.5 '(N1 + N2— x)
(ただし、∑は、 x = 0力ら x = N2の禾口)  (However, ∑ is the mouth of x = 0 force and x = N2)
(ただし、 C(A,B)は、 A個の異なったものから B個のものを取り出す場合の数) (ただし、 'は、指数を意味する)  (However, C (A, B) is the number for extracting B objects from A different objects.) (However, 'means exponent.)
で表され、この確率の値が十分小さければ、 N1と N2は等価な確率でない、すなわち 、 N1が N2に比べて有意に大きいことと判断できる。  If this probability value is sufficiently small, it can be determined that N1 and N2 are not equivalent probabilities, that is, N1 is significantly larger than N2.
[0042] 5%検定なら [0042] 5% test
P1が 5%よりも小さいこと、 10%検定なら P1が 10%よりも小さいこと、が有意に大き いかどうかの判断基準になる。  Whether P1 is less than 5%, or 10% test, P1 is less than 10% is a criterion for determining whether it is significantly greater.
[0043] N1が N2に比べて有意に大きいと判断されたものを記事群 Bに偏って出現する単 語とする。また、 P1が小さいものほど、記事群 Bによく偏って出現する単語とする。 [0043] Words that appear to be biased in the article group B are those in which N1 is determined to be significantly larger than N2. In addition, the smaller P1, the more often the word appears in the article group B.
[0044] 'カイ二乗検定の場合の説明 [0044] 'Explanation for Chi-square test
B中の Aの出現回数を Nl、 B中の単語の総出現数を Fl、  The number of occurrences of A in B is Nl, the total number of occurrences of words in B is Fl,
Cにあって Bにない、 Aの出現回数を N2、  The number of occurrences of A that is in C but not in B is N2,
Cにあって Bにない、単語の総出現数を F2とする。  Let F2 be the total number of words that are in C but not in B.
[0045] N = N1 +N2として、 [0045] As N = N1 + N2,
カイ二乗値 = (N * (Fl * (N2 - F2) - (N1 - Fl) * F2 )"2 )/((Fl + F2)*(N— (Fl + F 2)) * N1 * N2) Chi-square value = (N * (Fl * (N2-F2)-(N1-Fl) * F2) "2) / ((Fl + F2) * (N— (Fl + F 2)) * N1 * N2)
を求める。  Ask for.
[0046] そして、このカイ二乗値が大きいほど R1と R2は有意差があると言え、カイ二乗値が 3.84よりも大きいとき危険率 5%の有意差があると言え、カイ二乗値が 6.63よりも大 きいとき危険率 1%の有意差があると言える。  [0046] R1 and R2 are more significant as the chi-square value is larger. When the chi-square value is greater than 3.84, it can be said that there is a significant difference of 5%, and the chi-square value is 6.63. If it is too large, it can be said that there is a significant difference of 1%.
[0047] Nl > N2でかつ、カイ二乗値が大きいものほど、記事群 Bによく偏って出現する単 語とする。  [0047] As Nl> N2 and the larger the chi-square value, the word appears more biased in the article group B.
[0048] ·比の検定、正確に言うと、比率の差の検定の説明  [0048] · Explanation of ratio test, more precisely, ratio difference test
p = (F1+F2)/(N1+N2)  p = (F1 + F2) / (N1 + N2)
pi = Rl  pi = Rl
p2 = R2  p2 = R2
として、  As
Z = I pi - p2 I / sqrt ( p * (1 - p) * (1/Nl + 1/N2) )  Z = I pi-p2 I / sqrt (p * (1-p) * (1 / Nl + 1 / N2))
を求め、(ただし sqrtはルートを意味する)そして、 Zが大きいほど、 R1と R2は有意 差があると言え、 Zが 1.96よりも大きいとき危険率 5%の有意差があると言え、 Zが 2. 58よりも大きいとき危険率 1%の有意差があると言える。  (Where sqrt means the root) and the larger Z, the more significant the difference between R1 and R2, and when Z is greater than 1.96, there is a significant difference of 5%. When is greater than 2.58, it can be said that there is a significant difference of 1%.
[0049] Nl > N2で、かつ、 Zが大きいものほど、記事群 Bによく偏って出現する単語とする。 [0049] As Nl> N2 and Z is larger, it is assumed that the word appears more biased in the article group B.
[0050] これら三つの検定の方法と、先の単純に、 B中の Aの出現率 ZC中の Aの出現率を 求めて判定する方法を組み合わせてもよ 、。 [0050] These three test methods may be combined with the method of simply determining the appearance rate of A in B and the appearance rate of A in ZC.
[0051] 例えば、危険率 5%以上有意差があるもののうち、 B中の Aの出現率 ZC中の Aの 出現率、の値が大き!/ヽものほど記事群 Bによく偏って出現する単語とする。 [0051] For example, among those that have a significant difference of 5% or more in the risk rate, the appearance rate of A in B and the appearance rate of A in ZC are larger! A word.
[0052] c)単語群 Aをより多く含む記事の抽出方法の説明 (解決法 1) [0052] c) Explanation of how to extract articles containing more words A (Solution 1)
情報検索の基礎知識として以下の式がある。ここで、 Score(D)が大きいものを取る。  There is the following formula as basic knowledge of information retrieval. Here, a score having a large Score (D) is taken.
[0053] (1)基本的な方法(TF · IDF法)の説明 [0053] (1) Explanation of basic method (TF · IDF method)
score(D) =∑ ( tl(w,D) * log(N/dl(w)》  score (D) = ∑ (tl (w, D) * log (N / dl (w))
w £Wで加算  w Add in £ W
Wはユーザーが入力するキーワードの集合  W is a set of keywords entered by the user
t w,D)は文書 Dでの wの出現回数 d w)は全文書で Wが出現した文書の数 (tw, D) is the number of occurrences of w in document D dw) is the number of documents in which W appears in all documents
Nは文書の総数  N is the total number of documents
score(D)が高い文書を検索結果として出力する。  Documents with high score (D) are output as search results.
[0054] (2) Robertsonらの Okapi weightingの説明 [0054] (2) Explanation of Robertson et al. Okapi weighting
(文献)  (Reference)
村田真榭,馬青,内元清貴,小作浩美,内山将夫,井佐原均"位置情報と分野情 報を用いた情報検索"自然言語処理 (言語処理学会誌) 2000年 4月, 7卷, 2号, p. 141〜 P.160  Murata Shingo, Ma Aoi, Uchimoto Kiyotaka, Osaku Hiromi, Uchiyama Masao, Isahara Hitoshi "Information Retrieval Using Location Information and Field Information" Natural Language Processing (Journal of the Language Processing Society) April 2000, 7th No.2, p.141〜 P.160
の(1)式、が性能がよいことが知られている。これの式 (1)の∑で積を取る前のば項 と idf項の積が Okapiのウェイティング法になって、この値を単語の重みに使う。  (1) is known to have good performance. The product of the case term and idf term before taking the product with ∑ in Eq. (1) becomes Okapi's weighting method, and this value is used as the word weight.
[0055] Okapiの式なら [0055] Okapi formula
score(D) = ∑ ( tl(w,D)/(ti(w,D) + length/delta) * log(N/dl(w)) )  score (D) = ∑ (tl (w, D) / (ti (w, D) + length / delta) * log (N / dl (w)))
w £Wで加算  w Add in £ W
lengthは記事 Dの長さ、 deltaは記事の長さの平均、  length is the length of article D, delta is the average length of articles,
記事の長さは、記事のバイト数、また、記事に含まれる単語数などを使う。  The length of the article uses the number of bytes of the article and the number of words included in the article.
[0056] さらに、以下の情報検索を行うこともできる。 [0056] Further, the following information search can be performed.
[0057] (Okapiの参考文献) [0057] (Okapi reference)
S. E. Robertson, b. Walker, b. Jones, M. M. Hancock— Beaulieu, and M. uatfor d Okapi at TREC— 3, TREC— 3, 1994  S. E. Robertson, b. Walker, b. Jones, M. M. Hancock— Beaulieu, and M. uatfor d Okapi at TREC— 3, TREC— 3, 1994
(SMARTの参考文献)  (SMART reference)
Amit Singhal AT&T at TREC— 6, TREC— 6, 1997  Amit Singhal AT & T at TREC— 6, TREC— 6, 1997
より高度な情報検索の方法として、 tf'idfを使うだけの式でなぐこれらの Okapiや S As a more advanced information retrieval method, these Okapi and S
MARTの式を用いてもよ!、。 You can use the MART formula!
[0058] これらの方法では、 tf'idfだけでなぐ記事の長さなども利用して、より高精度な情 報検索を行うことができる。 [0058] In these methods, it is possible to perform more accurate information retrieval by using the length of an article that is just tf'idf.
[0059] 今回の、単語群 Aをより多く含む記事の抽出方法では、さらに、 Rocchio's formula を使うことができる。 [0059] In this method of extracting articles containing more words A, Rocchio's formula can also be used.
[0060] (文献) "]. J. Rocchio", "Relevance feedback in information retrieval", "The SMART retri eval System", "Edited by G. Salton", "Prentice Hall, Inc. , page 313-323〃, 1971 この方法は、 log(N/d w))のかわりに、 [0060] (Reference) "]. J. Rocchio", "Relevance feedback in information retrieval", "The SMART retri eval System", "Edited by G. Salton", "Prentice Hall, Inc., page 313-323〃, 1971 instead of log (N / dw))
{E(t) + k_af * (RatioC(t) - RatioD(t))} *log(N/dl(w))  {E (t) + k_af * (RatioC (t)-RatioD (t))} * log (N / dl (w))
を使う。  use.
[0061] E(t) = 1 (元の検索にあったキーワード)  [0061] E (t) = 1 (keyword from the original search)
= 0 (それ以外)  = 0 (otherwise)
RatioC(t)は記事群 Bでの tの出現率  RatioC (t) is the appearance rate of t in article group B
RatioD(t)は記事群 Cでの tの出現率  RatioD (t) is the appearance rate of t in article group C
log(N/d w))を上式でおきかえた式で score(D)を求めて、その値が大き!/、ものほど、 単語群 Aをより多く含む記事として取り出すものである。  The score (D) is obtained by replacing the log (N / d w)) with the above equation, and the larger the value! /, the more the word group A is extracted.
[0062] score(D)の∑の加算の際に足す単語 wの集合 Wは、元のキーワードと、単語群 Aの 両方とする。ただし、元のキーワードと、単語群 Aは重ならないようにする。 [0062] The set W of words w to be added when score (D) is added is both the original keyword and the word group A. However, the original keyword and word group A should not overlap.
[0063] また、他の方法として、 score(D)の∑の加算の際に足す。単語 wの集合 Wは、単語 群 Aのみとする。ただし、元のキーワードと、単語群 Aは重ならないようにする。 [0063] As another method, score (D) is added at the time of addition. The set W of words w is only word group A. However, the original keyword and word group A should not overlap.
[0064] ここでは roccioの式で複雑な方法をとつた力 単純に、単語群 Aの単語の出現回 数の和が大きいものほど、単語群 Aをより多く含む記事として取り出すようにしてもよ いし、また、単語群 Aの出現の異なりの大きいものほど、単語群 Aをより多く含む記事 として取り出すようにしてもょ 、。 [0064] Here, the power of a complicated method using roccio's formula. Simply, the larger the sum of the number of occurrences of words in word group A, the more the word group A may be extracted. However, the larger the difference in the appearance of the word group A, the more the word group A may be taken out as an article.
[0065] (3):多義語による情報検索の説明 2 (解決法 2) [0065] (3): Explanation of information retrieval using multiple terms 2 (Solution 2)
ユーザが入力する形態を「キーワード (分野)」のように分野を指定して入力できるよ うにする。例えば、先の例だと、「WINS (コンピュータ)」と入力する。この入力がなさ れると、まず、「WINS」とコンピュータの両方を含む記事を抽出する。そして、その記 事群 Bの類似記事を抽出する。その類似記事において、「WINS」を含む記事のみを 抽出し、それを検索結果として出力する。このとき記事群 Bとの類似度が高い記事か ら出力する。これも、コンピュータ関連の分野の記事を抽出できるものと思われる。  The user can enter the input form by specifying a field such as “keyword (field)”. For example, in the previous example, enter "WINS (computer)". When this input is made, articles containing both “WINS” and the computer are first extracted. Then, similar articles in the article group B are extracted. In the similar articles, only articles that contain “WINS” are extracted and output as search results. At this time, articles with high similarity to article group B are output. This also seems to be able to extract articles in the computer-related field.
[0066] (フローチャートによる説明) [0066] (Description by flowchart)
図 3は多義語による情報検索のフローチャート(2)である。以下、図 3の処理 Sl l〜 S14に従って、多義語による情報検索 (解決法 2)の説明をする。 FIG. 3 is a flowchart (2) of information retrieval using multiple terms. Hereafter, the process Sl l ~ in Fig. 3 In accordance with S14, explain information retrieval by using multiple meanings (Solution 2).
[0067] S11 :入力部 1により、ユーザがキーワードを分野を指定して入力し、処理 S12に移 る。 S11: Using the input unit 1, the user inputs a keyword specifying a field, and proceeds to processing S12.
[0068] S12 :検索抽出部 2は、データベース 4から入力したキーワードと分野を両方含む記 事を抽出し、処理 S13に移る。  S12: The search extraction unit 2 extracts articles including both the keyword and the field input from the database 4, and proceeds to processing S13.
[0069] S13 :検索抽出部 2は、抽出した記事群 Bの類似記事を抽出し、処理 S14に移る。  [0069] S13: The search extraction unit 2 extracts similar articles in the extracted article group B, and proceeds to processing S14.
[0070] S14 :検索抽出部 2は、抽出した類似記事において、入力したキーワードを含む記 事のみを抽出し、それを検索結果として出力する。このとき記事群 Bとの類似度が高 い記事力 出力部 5に出力する。  [0070] S14: The search extraction unit 2 extracts only the articles including the input keyword in the extracted similar articles, and outputs them as search results. At this time, it is output to the article power output unit 5 having a high similarity to the article group B.
[0071] a)記事群 Bの類似記事を抽出する方法の説明(解決法 2)  [0071] a) Explanation of a method for extracting similar articles of article group B (Solution 2)
記事同士の類似度を定義する。この類似度は、 tf'idfや okapiや smartを使うとよい 。 tf'idfや okapiや smartなどにおける、記事 Dとクエリを比較する二つの記事 xと yと するとしてよい。そして、 x、 yの両方に含まれる単語^ wとするとよい。  Define the similarity between articles. Use tf'idf, okapi, or smart for this similarity. The two articles x and y that compare the query with article D in tf'idf, okapi, smart, etc. may be used. The word ^ w contained in both x and y is good.
[0072] 各単語を次元と、各単語のスコアを要素とするベクトルを作成し、記事 Xのベクトル を記事 Xに含まれる単語を使ってベクトル (vector— x)にし、また、記事 yのベクトルを 記事 yに含まれる単語を使ってベクトル (vector— y)にし、それらベクトルの余弦 (cos(v ector _x,vector_y))の値を記事の類似度としてもよい。各単語のスコアの算出には 、 tf'idfや okapiや smartを用いるとよい。それらの式の∑の後ろの部分の式がスコア の算出の式となる。その式の値が各単語のスコアとなる。  [0072] Create a vector with each word as a dimension and the score of each word as an element, and change the vector of article X to a vector (vector— x) using the words contained in article X, and the vector of article y May be made into a vector (vector—y) using the words contained in the article y, and the value of the cosine (cos (v ector _x, vector_y)) of these vectors may be used as the similarity of the article. Use tf'idf, okapi, or smart to calculate the score for each word. The formula behind the heel of those formulas is the formula for calculating the score. The value of the expression is the score for each word.
[0073] tf'idfだと t w,D) * log(N/d w))  [0073] tf'idf, t w, D) * log (N / d w))
okapiだと t w,D)/(t w,D) + length/delta) * log(N/dl(w))  okapi t w, D) / (t w, D) + length / delta) * log (N / dl (w))
がその式となる。  Is the formula.
[0074] また、単語群 Aをより多く含む記事の抽出においてもこのベクトルの余弦 (cos(vector  [0074] The cosine of this vector (cos (vector
_x,vector_y))の値を求め、この値が大きい記事ほど単語群 Aをより多く含む記事 と判断してもよい。この場合は、単語群 Aに含まれる単語を使ってベクトル (vector _x )にし、記事に含まれる単語を使ってベクトル (vector—y)にして求める。  The value of _x, vector_y)) is obtained, and an article with a larger value may be determined as an article containing more word group A. In this case, the word contained in the word group A is used as a vector (vector_x), and the word contained in the article is used as a vector (vector—y).
[0075] 記事群 Bと記事 Xの類似度には、次の方法などがある。  [0075] The similarity between the article group B and the article X includes the following methods.
[0076] ,記事群 Bのうち記事 Xと最も類似する記事と、記事 Xの類似度をその類似度とする 方法 [0076], in article group B, the article most similar to article X and the similarity of article X is the similarity Method
•記事群 Bのうち記事 xと最も類似しない記事と、記事 xの類似度をその類似度とす る方法  • How to make the similarity of article x and the similarity of article x in article group B most similar to article x
•記事群 Bのすベての記事と記事 Xの類似度の平均をその類似度とする方法 他の方法でもよいが、このようにして、記事群 Bと記事 Xの類似度を求めて、その類 似度が大き 、ものを類似記事として取り出すことができる。  • A method in which the average of the similarities between all the articles in Article Group B and Article X is used as another similarity method. However, in this way, the similarity between Article Group B and Article X is obtained. The similarity is large, and articles can be extracted as similar articles.
[0077] なお、他の方法としては、記事群 Bに偏って出現する単語を先の方法で取り出し、 そして、その単語も利用して、 Rocchio's formulaに基づく Score(D)を計算し、 Score( D)の大き 、ものを類似記事として取り出してもよ!、。  [0077] As another method, a word that appears biased in the article group B is extracted by the previous method, and the score (D) based on the Rocchio's formula is calculated using the word, and Score ( D) You can take out the article as a similar article!
[0078] (4):多義語による情報検索の説明 3 (解決法 3)  [0078] (4): Explanation of information retrieval using multiple terms 3 (Solution 3)
ユーザは「キーワード」のみを入力する。例えば、先の例だと、「WINS」が入力され る。この入力がなされると、まず、「WINS」を含む記事を抽出する。そして、その記事 群をクラスタリングする。各クラスターで偏って出現する表現を抽出する。例えば、二 つのクラスターに分割され、それぞれのクラスターに偏って出現する表現が、それぞ れ、「コンピュータ」と「競馬」であったとする。その場合は、ユーザに、「コンピュータ」 と「競馬」のどちらに関連するかの問い合わせをする。そして、ユーザはこのいずれか を選択する。選択されたあとは、選択された表現を入力の「分野」として上記解決法 1 、 2と同様に処理するか、もしくは、選択されたクラスターを検索結果として出力する。  The user inputs only “keyword”. For example, in the previous example, “WINS” is entered. When this input is made, first, articles including “WINS” are extracted. Then, the articles are clustered. Extract expressions that appear biased in each cluster. For example, suppose that the expressions that are divided into two clusters and appear in each cluster are “computer” and “horse racing”, respectively. In that case, the user is inquired about whether it is related to “computer” or “horse racing”. Then, the user selects one of these. After the selection, the selected expression is processed as the input “field” in the same manner as in the above solutions 1 and 2, or the selected cluster is output as a search result.
[0079] (問い合わせ部を備える多義語による情報検索装置の説明)  [0079] (Description of Information Retrieval Device Using Polysemy with Inquiry Unit)
図 4は問い合わせ部を備える多義語による情報検索装置の説明図である。図 4に おいて、問い合わせ部を備える多義語による情報検索装置 (システム)には、入力部 (入力手段) 1、検索抽出部 (検索抽出手段) 2、問い合わせ部(問い合わせ手段) 3、 データベース (格納手段) 4、出力部(出力手段) 5が設けてある。  FIG. 4 is an explanatory diagram of an information retrieval apparatus using a multiple word having an inquiry unit. In FIG. 4, an information retrieval device (system) with a multiple meaning including an inquiry unit includes an input unit (input unit) 1, a search extraction unit (search extraction unit) 2, an inquiry unit (inquiry unit) 3, a database ( (Storage means) 4 and output unit (output means) 5 are provided.
[0080] 入力部 1は、キーワード等の情報を入力する入力手段である。検索抽出部 2は、単 語の抽出、検索処理等を行う検索抽出手段である。問い合わせ部 3は、クラスターに 偏って出現する表現 (技術分野等)をユーザに問!、合わせ、ユーザが選択を行う問 い合わせ手段である。データベース 4は、情報を格納する格納手段である。出力部 5 は、表示や印刷を行なって情報を出力する出力手段である。 [0081] (フローチャートによる説明) The input unit 1 is an input means for inputting information such as keywords. The search extraction unit 2 is a search extraction unit that performs word extraction, search processing, and the like. The inquiry unit 3 is an inquiry means that asks the user for expressions (technical fields, etc.) that appear biased in the cluster, and makes selections by the user. The database 4 is a storage means for storing information. The output unit 5 is an output unit that outputs information by performing display and printing. [0081] (Description by flowchart)
図 5は多義語による情報検索のフローチャート(3)である。以下、図 5の処理 S21〜 S26に従って、問い合わせ部を備える多義語による情報検索 (解決法 3)の説明をす る。  FIG. 5 is a flowchart (3) of information retrieval using a polysemy. Hereinafter, information retrieval (solution 3) using a multiple meaning word having an inquiry part will be described according to the processes S21 to S26 in FIG.
[0082] S21 :入力部 1により、ユーザがキーワードのみを入力し、処理 S22に移る。  S21: The user inputs only the keyword through the input unit 1, and the process proceeds to processing S22.
[0083] S22 :検索抽出部 2は、データベース 4から入力したキーワードを含む記事を抽出し 、処理 S23に移る。 S22: The search extraction unit 2 extracts an article including the keyword input from the database 4, and proceeds to processing S23.
[0084] S23 :検索抽出部 2は、抽出した記事群をクラスタリングし、処理 S 24に移る。  S23: The search extraction unit 2 clusters the extracted article group, and proceeds to processing S24.
[0085] S24 :検索抽出部 2は、各クラスターで偏って出現する表現を抽出し、処理 S25に 移る。 S24: The search extraction unit 2 extracts expressions that appear unevenly in each cluster, and proceeds to processing S25.
[0086] S25 :問い合わせ部 3は、各クラスターで偏って出現する表現の選択をするように、 ユーザに問い合わせ、処理 S26に移る。  [0086] S25: The inquiry unit 3 inquires the user so as to select an expression that appears biased in each cluster, and proceeds to processing S26.
[0087] S26 :検索抽出部 2は、選択されたクラスターの記事を出力部 5に出力する。 S26: The search extraction unit 2 outputs the articles of the selected cluster to the output unit 5.
[0088] a)クラスタリングの説明(解決法 3) [0088] a) Explanation of clustering (Solution 3)
クラスタリングにはさまざまな方法がある。一般的なものを以下に記述する。  There are various methods for clustering. The general ones are described below.
[0089] (階層クラスタリング (ボトムアップクラスタリング)の説明) [0089] (Description of hierarchical clustering (bottom-up clustering))
最も近い成員同士をくつつけていき、クラスターを作る。クラスターとクラスター同士 も(クラスターと成員同士も)、最も近 、クラスター同士をくつつける。  The closest members are brought together to form a cluster. Clusters and clusters (both clusters and members) are closest to each other.
クラスタ一間の距離の定義は様々あるので以下に説明する。  Since there are various definitions of the distance between clusters, this will be described below.
[0090] 'クラスター Aとクラスター Bの距離を、クラスター Aの成員とクラスター Bの成員の距 離の中で最も小さ ヽものをその距離とする方法 [0090] 'Method of setting the distance between cluster A and cluster B to be the smallest distance between the members of cluster A and cluster B
'クラスター Aとクラスター Bの距離を、クラスター Aの成員とクラスター Bの成員の距 離の中で最も大き 、ものをその距離とする方法  'The distance between cluster A and cluster B is the largest distance between the members of cluster A and cluster B, and the distance is the largest
'クラスター Aとクラスター Bの距離を、すべてのクラスター Aの成員とクラスター Bの 成員の距離の平均をその距離とする方法  'How to set the distance between cluster A and cluster B to be the average of the distances of all cluster A members and cluster B members
•クラスター Aとクラスター Bの距離を、すべてのクラスター Aの成員の位置の平均を そのクラスターの位置とし、すべてのクラスター Bの成員の位置の平均をそのクラスタ 一の位置とし、その位置同士の距離の平均をその距離とする方法 •ウォード法と呼ばれる方法もある。以下、ウォード法の説明をする。 The distance between cluster A and cluster B is the average of all cluster A member positions, and the average of all cluster B member positions is the single cluster position. The average is the distance • There is also a method called the Ward method. Hereinafter, the Ward method will be described.
[0091] W = ∑ ∑ (x(i,j) - ave _x(i)) " 2  [0091] W = ∑ ∑ (x (i, j)-ave _x (i)) "2
Ίま指数を意味する。  It means cocoon index.
[0092] 一つ目の∑は i=lから i=gまでの加算 [0092] The first trap is the addition from i = l to i = g
二つ目の∑は j=lから j=niまでの加算  The second trap is the addition from j = l to j = ni
x(i,j)は i番目のクラスターの j番目の成員の位置  x (i, j) is the position of the j-th member of the i-th cluster
ave— x(i)は i番目のクラスターのすべての成員の位置の平均  ave— x (i) is the average of the positions of all members of the i-th cluster
クラスター同士をくつつけていくと、 Wの値が増加する力 ウォード法では、 Wの値が なるべく大きくならな 、ようにクラスター同士をくっつけて!/、く。  When the clusters are brought together, the force that increases the value of W. In the Ward method, the values of W must be as large as possible. /
[0093] 成員の位置は、記事から単語を取り出し、その単語の種類をベクトルの次元とし、 各単語のベクトルの要素の値を、単語の頻度やその単語のば 'idf (すなわち、 tKw,D) * log(N/d w)》、その単語の Okapiの式(すなわち、 tl(w,D)/(ti(w,D) + length/delta) * log(N/d w)》としたベクトルを作成し、それをその成員の位置とする。 [0093] The position of the member is the word taken from the article, the type of the word is taken as the dimension of the vector, and the value of the vector element of each word is set to the word frequency or the word 'idf (ie, tKw, D ) * log (N / dw) >> and the Okapi formula for that word (ie tl (w, D) / (ti (w, D) + length / delta) * log (N / dw)) Create and make it a member's position.
[0094] (トップダウンクラスタリング (非階層クラスタリング)の説明) [0094] (Description of top-down clustering (non-hierarchical clustering))
以下、トップダウンのクラスタリング (非階層クラスタリング)の方法を説明する。  Hereinafter, a method of top-down clustering (non-hierarchical clustering) will be described.
[0095] (最大距離アルゴリズムの説明) [0095] (Explanation of maximum distance algorithm)
ある成員をとる。次にその成員と最も離れた成員をとる。これら成員をそれぞれのク ラスターの中心とする。それぞれのクラスター中心と、成員の距離の最小値を、各成 員の距離として、その距離が最も大きい成員をあらたなクラスターの中心とする。これ を繰り返す。あら力じめ定めた数のクラスターになったときに、繰り返しをやめる。また 、クラスタ一間の距離があら力じめ定めた数以下になると繰り返しをやめる。また、クラ スターの良さを AIC情報量基準などで評価してその値を利用して繰り返しをやめる方 法もある。各成員は、最も近いクラスター中心の成員となる。  Take a member. Next, take the member farthest from that member. These members will be the center of each cluster. The minimum distance between each cluster center and the member is taken as the distance of each member, and the member with the largest distance is the center of the new cluster. Repeat this. When the number of clusters has been determined by force, stop repeating. Also, the repetition is stopped when the distance between the clusters is less than a predetermined number. Another method is to evaluate the goodness of the cluster based on the AIC information criterion and stop the repetition using that value. Each member becomes the closest cluster-centered member.
[0096] (K平均法の説明) [0096] (Explanation of K-means method)
あらカゝじめ定めた個数 k個にクラスタリングすることを考える。 k個成員をランダムに 選ぶ、それをクラスターの中心とする。各成員は最も近いクラスター中心の成員となる 。クラスター内の各成員の平均をそれぞれのクラスターの中心とする。各成員は最も 近いクラスター中心の成員となる。また、クラスター内の各成員の平均をそれぞれのク ラスターの中心とする。これらを繰り返す。そして、クラスターの中心が移動しなくなる と繰り返しをやめる。又は、あら力じめ定めた回数だけ繰り返してやめる。その最終的 なクラスター中心のときのクラスター中心を使ってクラスターを求める。各成員は最も 近 、クラスター中心の成員となる。 Consider clustering to a predetermined number k. Choose k members randomly, and use it as the center of the cluster. Each member becomes the closest cluster-centered member. The average of each member in the cluster is the center of each cluster. Each member becomes the closest cluster-centered member. In addition, the average of each member in the cluster The center of the raster. Repeat these. When the center of the cluster stops moving, it stops repeating. Or, repeat it for a predetermined number of times. The cluster is obtained by using the cluster center at the final cluster center. Each member is most recently a cluster-centered member.
[0097] このようにして、クラスタリングをする。クラスタリングの方法は、これら以外にもたくさ んあるので、それらを利用してもよい。  In this way, clustering is performed. There are many other clustering methods that can be used.
[0098] b)各クラスターに偏って出現する表現の抽出の説明(解決法 3) [0098] b) Explanation of extraction of expressions that appear biased in each cluster (Solution 3)
「ある記事群 Bに偏って出現する単語群 Aの抽出方法の説明 1 (解決法 1)」と同様 の方法で取り出すことが考えられ、そのようにしてもょ 、。  It can be extracted in the same way as “Explanation 1 (Solution 1) for Extracting Word Group A that Appears Partly in a certain Article Group B”.
[0099] もっと単純には、各クラスターごとに、そのクラスターにしか出現しな力つた単語を頻 度順に並べて、各クラスターに偏って出現する表現として取り出しても良い。 [0099] More simply, for each cluster, powerful words that appear only in that cluster may be arranged in order of frequency and extracted as an expression that appears biased in each cluster.
[0100] (5) :複数のキーワードを用いる場合の説明 [0100] (5): Explanation of using multiple keywords
前記解決法 1、 2について、最初にあたえるキーワードは、「WINS (コンピュータ)」 になっている力 A B (B' ) C (C,)のように複数でもよい。これは、単語 Aと、単語 B (ただし、分野 B'の意味の場合の単語 B)と、単語 C (ただし、分野 C'の意味の場合 の単語 C)の AND検索を意味する。  Regarding the above solutions 1 and 2, the keyword given first may be plural, such as the force A B (B ′) C (C,) which is “WINS (computer)”. This means an AND search of word A, word B (but word B in the case of field B ') and word C (but word C in the case of field C').
[0101] a)解決法 1による説明 [0101] a) Explanation by Solution 1
これを解決法 1で行う場合は、 A、 B、 Cを含む記事群 Xを取り出す。次に、記事群 X から B'、 C 'を含む記事群 X'を取り出す。記事群 Xのうち、記事群 X'に偏って出現す る単語群 Yを取り出す。そして、記事群 Xのうち、単語群 Yを多く含む記事を取り出し て出力する。  If this is done with Solution 1, the group of articles X containing A, B, and C is extracted. Next, an article group X ′ including B ′ and C ′ is extracted from the article group X. From the article group X, the word group Y that appears biased to the article group X 'is extracted. Then, out of the article group X, articles containing many word groups Y are extracted and output.
[0102] b)解決法 2による説明 [0102] b) Explanation by Solution 2
これを解決法 2で行う場合は、 A、 B、 B'、 C、 C'を含む記事群 Xを取り出す。次に、 記事群 Xの類似記事を抽出する。類似記事において A、 B、 Cを含む記事を取り出し て出力する。  If this is done with Solution 2, the article group X containing A, B, B ', C, and C' is extracted. Next, similar articles in Article Group X are extracted. Extract similar articles that include A, B, and C and output them.
[0103] c)解決法 3による説明 [0103] c) Explanation by Solution 3
解決法 3でもできる。まず、 A、 B、 Cを入力する。次に、 A、 B、 Cを含む記事群を取 り出す。クラスタリングして、各クラスターに偏って出現する単語 Zを出力する。その単 語をユーザーに選ばせて、選択された表現を入力の「分野」として上記解決法 1、 2と 同様に処理するか、もしくは、選択されたクラスターを検索結果として出力することが できる。 Solution 3 is also possible. First, enter A, B, and C. Next, take out articles including A, B, and C. Clustering and outputting word Z that appears biased to each cluster. Simple The user can select a word and process the selected expression as the “field” of input in the same way as in solutions 1 and 2 above, or output the selected cluster as a search result.
[0104] さらに、解決法 3では、各クラスターに偏って出現する単語群 Zを入力の A、 B、じと 対応づけて示すとよい。  [0104] Further, in Solution 3, it is better to show the word group Z that appears biased in each cluster in association with the input A, B, and the same.
[0105] 例えば、単語群 Zが頻度順に Zl, Z2, Z3,…としてあるとする。 Zl, Z2, Z3, ...を A、For example, it is assumed that the word group Z is Z1, Z2, Z3,. Zl, Z2, Z3, ... to A,
B、 Cとよく共起するものと近づけて示してもよい。 It may be shown close to what often co-occurs with B and C.
[0106] Z1が Aとよく共起し、 Z2が Cとよく共起し、 Z3が Bとよく共起する場合 [0106] Z1 co-occurs well with A, Z2 co-occurs with C, and Z3 co-occurs with B
クラスター 1 A Zl、 B Z3、 C Z2  Cluster 1 A Zl, B Z3, C Z2
クラスター 2 のように表示して、 Zl, Z2, Z3, ..をユーザーに選ばせたり。クラスターをユーザに 選ばせる。なお、この表示は、入力キーワードと Zl, Z2,…の関連がわかるものなら ば他の形態でもよい。  Display as cluster 2 and let the user choose Zl, Z2, Z3, .. Let the user choose a cluster. This display may take other forms as long as the relation between the input keyword and Zl, Z2,.
[0107] Z1が Aとよく共起するかどうかは、次のものがある。 [0107] Whether Z1 often co-occurs with A is as follows.
[0108] ·Ζ1と Aがともに出現する記事数が多いほど、よく共起するとするものとする。  [0108] · Assume that the more articles with both Ζ1 and A appear, the more often they co-occur.
[0109] ·前述の偏りの認識の方法を使い、 Z1を含む記事に、 Aがよく偏って出現すると判 断された場合、よく共起するとするものとする。 [0109] · When the bias recognition method described above is used and it is determined that A appears well in the article including Z1, it is assumed that it often co-occurs.
[0110] ·Ζ1と Aがともに出現する記事数を a、 Zlのみが出現する記事数を b、 Aのみが出現 する記事数を c、全記事数を dとして、 [0110] · The number of articles where both Ζ1 and A appear is a, the number of articles where only Zl appears is b, the number of articles where only A appears is c, and the total number of articles is d,
a  a
2a/(2a+b+c)  2a / (2a + b + c)
n(ad-bc) " 2/(a+b)/(c+d)/(a+c)/(b+d)  n (ad-bc) "2 / (a + b) / (c + d) / (a + c) / (b + d)
n( I ad— be I -n/2) " 2/(a+b)/(c+d)/(a+c)/(b+d)  n (I ad— be I -n / 2) "2 / (a + b) / (c + d) / (a + c) / (b + d)
log (an/(a+b)/(a+c))  log (an / (a + b) / (a + c))
(ad -bc)/((a+c)(b+d))"0.5  (ad -bc) / ((a + c) (b + d)) "0.5
a log (an/(a+b)/(a+c)) + b log (bn/(a+b)/(b+d)) + c log (cn/(a+c)/(c+d)) + d log (dn /(b+d)/(c+d)) a/ (bc+ad) a log (an / (a + b) / (a + c)) + b log (bn / (a + b) / (b + d)) + c log (cn / (a + c) / (c + d)) + d log (dn / (b + d) / (c + d)) a / (bc + ad)
a/ (ad- be)  a / (ad-be)
a/b/c  a / b / c
などの値が大きいものを(これらのうちどれかの式を用いる)よく共起するとするもの とする。  It is assumed that a large value such as (couses one of these equations) often co-occurs.
[0111] など、 Z1が Aとよく共起するかどうかは、いろいろある。  [0111] Z1 often co-occurs with A.
[0112] なお、前記の実施の形態では、「値が大きいものほど取り出す」と記載した処理は「 値が閾値以上のものを取り出す」とすることができる。また、「値が大きいものを所定の 値の個数以上のものを大き 、順に取り出す」と記載した処理は「取り出されたものの 値の最大値に対して所定の割合をかけた値を求め、その求めた値以上の値を持つも のを取り出す」とすることができる。更に、これら閾値、所定の値を、あら力じめ定める ことも、適宜ユーザが値を変更、設定できることも可能である。  [0112] In the above-described embodiment, the process described as "taken out as the value is larger" can be taken out as "take out a value whose value is equal to or greater than the threshold value". In addition, the processing described as “take out a larger value in the order of the number greater than a predetermined value in order,” obtains a value obtained by multiplying the maximum value of the extracted value by a predetermined ratio, and “Take out the one with a value that is equal to or greater than the calculated value”. Furthermore, these threshold values and predetermined values can be determined in advance, or the values can be appropriately changed and set by the user.
[0113] (9):プログラムインストールの説明  [0113] (9): Explanation of program installation
入力部 (入力手段) 1、検索抽出部 (検索抽出手段) 2、問 、合わせ部(問 、合わせ 手段) 3、データベース (格納手段) 4、出力部(出力手段) 5等は、プログラムで構成 でき、主制御部(CPU)が実行するものであり、主記憶に格納されているものである。 このプログラムは、一般的な、コンピュータ(情報処理装置)で処理されるものである。 このコンピュータは、主制御部、主記憶、ファイル装置、表示装置、キーボード等の入 力手段である入力装置などのハードウェアで構成されている。  Input section (input means) 1, search extraction section (search extraction means) 2, question, matching section (question, matching means) 3, database (storage means) 4, output section (output means) 5, etc. are composed of programs It is executed by the main control unit (CPU) and is stored in the main memory. This program is processed by a general computer (information processing apparatus). This computer is composed of hardware such as an input device as input means such as a main control unit, main memory, file device, display device, and keyboard.
[0114] このコンピュータに、本発明のプログラムをインストールする。このインストールは、フ 口ツビィ、光磁気ディスク等の可搬型の記録 (記憶)媒体に、これらのプログラムを記 憶させておき、コンピュータが備えている記録媒体に対して、アクセスするためのドラ イブ装置を介して、或いは、 LAN等のネットワークを介して、コンピュータに設けられ たファイル装置にインストールされる。そして、このファイル装置力 処理に必要なプ ログラムステップを主記憶に読み出し、主制御部が実行するものである。  [0114] The program of the present invention is installed in this computer. In this installation, these programs are stored in a portable recording medium such as a hard disk or a magneto-optical disk, and the drive for accessing the recording medium provided in the computer is used. It is installed in a file device provided in the computer via a device or a network such as a LAN. Then, the program steps necessary for the file device power processing are read out to the main memory and executed by the main control unit.

Claims

請求の範囲 The scope of the claims
[1] キーワードと分野を入力する入力手段と、  [1] Input means for entering keywords and fields;
各分野の記事を格納するデータベースと、  A database that stores articles in each field;
前記入力したキーワードと分野を含む記事を前記データベースから抽出し、該抽出 した記事群に偏つて出現する単語群 Aを抽出し、前記入力したキーワードを含む記 事の中で前記単語群 Aを多く含む記事力 順に出力する検索抽出手段とを備えるこ とを特徴とした多義語による情報検索装置。  The article including the input keyword and field is extracted from the database, the word group A that appears biased in the extracted article group is extracted, and the word group A is increased among the articles including the input keyword. An information retrieval apparatus using a polysemy characterized by retrieval extraction means for outputting in the order of the included article power.
[2] キーワードと分野を入力する入力手段と、 [2] Input means for entering keywords and fields;
各分野の記事を格納するデータベースと、  A database that stores articles in each field;
前記入力したキーワードと分野を両方含む記事を前記データベースから抽出し、該 抽出した記事群 Bの類似記事を抽出し、該抽出した類似記事において、前記入力し たキーワードを含む記事のみを抽出して出力する検索抽出手段とを備えることを特 徴とした多義語による情報検索装置。  The article including both the input keyword and the field is extracted from the database, the similar articles of the extracted article group B are extracted, and only the articles including the input keyword are extracted in the extracted similar articles. An information retrieval device using a polysemy characterized by comprising retrieval retrieval means for outputting.
[3] 前記検索抽出手段は、前記抽出した類似記事において、前記入力したキーワードを 含む記事のみを抽出して出力する場合、前記記事群 Bとの類似度が高い記事力 順 に出力することを特徴とした請求項 2記載の多義語による情報検索装置。  [3] In the extracted similar articles, when the extracted similar articles extract and output only the articles including the input keyword, the search extracting means outputs the articles in order of article power having a high similarity to the article group B. 3. An information retrieval apparatus using a polysemy according to claim 2.
[4] キーワードを入力する入力手段と、  [4] Input means for entering keywords;
各分野の記事を格納するデータベースと、  A database that stores articles in each field;
前記入力したキーワードを含む記事を前記データベースから抽出し、該抽出した記 事群をクラスタリングし、各クラスターで偏って出現する表現を抽出する検索抽出手 段と、  A search and extraction means for extracting articles including the input keyword from the database, clustering the extracted article groups, and extracting expressions that appear biased in each cluster;
前記各クラスターで偏って出現する表現を選択する問い合わせ手段とを備え、 前記検索抽出手段は、前記問い合わせ手段で選択された表現のクラスターの記事 を出力することを特徴とした多義語による情報検索装置。  Inquiry means for selecting an expression that appears unevenly in each cluster, and the search extraction means outputs an article of the cluster of the expression selected by the inquiry means. .
[5] 前記入力手段にキーワードを入力し、前記検索抽出手段で前記入力したキーワード を含む記事を前記データベースから抽出し、該抽出した記事群をクラスタリングし、各 クラスターで偏って出現する表現を抽出し、 [5] A keyword is input to the input unit, an article including the input keyword is extracted from the database by the search and extraction unit, the extracted article group is clustered, and expressions that appear unevenly in each cluster are extracted. And
前記各クラスターで偏って出現する表現を選択する問い合わせ手段を備え、 前記問い合わせ手段で選択された表現を前記入力手段に入力される分野として用 いることを特徴とした請求項 1〜3のいずれかに記載の多義語による情報検索装置。 Inquiry means for selecting expressions that appear biased in each cluster, 4. The information retrieval apparatus using a polysemy according to claim 1, wherein an expression selected by the inquiry unit is used as a field to be input to the input unit.
[6] キーワードと分野を入力する入力手段と、 [6] An input means for entering keywords and fields;
各分野の記事を格納するデータベースと、  A database that stores articles in each field;
前記入力したキーワードと分野を含む記事を前記データベースから抽出し、該抽出 した記事群に偏つて出現する単語群 Aを抽出し、前記入力したキーワードを含む記 事の中で前記単語群 Aを多く含む記事力 順に出力する検索抽出手段として、 コンピュータを機能させるためのプログラム。  The article including the input keyword and field is extracted from the database, the word group A that appears biased in the extracted article group is extracted, and the word group A is increased among the articles including the input keyword. A program that causes a computer to function as a search and extraction means that outputs in the order of article power.
[7] キーワードと分野を入力する入力手段と、 [7] Input means for entering keywords and fields;
各分野の記事を格納するデータベースと、  A database that stores articles in each field;
前記入力したキーワードと分野を両方含む記事を前記データベースから抽出し、該 抽出した記事群 Bの類似記事を抽出し、該抽出した類似記事において、前記入力し たキーワードを含む記事のみを抽出して出力する検索抽出手段として、 コンピュータを機能させるためのプログラム。  The article including both the input keyword and the field is extracted from the database, the similar articles of the extracted article group B are extracted, and only the articles including the input keyword are extracted in the extracted similar articles. A program for causing a computer to function as a search and extraction means for outputting.
[8] キーワードを入力する入力手段と、 [8] An input means for entering keywords;
各分野の記事を格納するデータベースと、  A database that stores articles in each field;
前記入力したキーワードを含む記事を前記データベースから抽出し、該抽出した記 事群をクラスタリングし、各クラスターで偏って出現する表現を抽出する検索抽出手 段と、  A search and extraction means for extracting articles including the input keyword from the database, clustering the extracted article groups, and extracting expressions that appear biased in each cluster;
前記各クラスターで偏って出現する表現を選択する問い合わせ手段と、 前記問い合わせ手段で選択された表現のクラスターの記事を出力する前記検索抽 出手段として、  Inquiry means for selecting expressions that appear unevenly in each cluster, and the search extraction means for outputting articles of clusters of expressions selected by the inquiry means,
コンピュータを機能させるためのプログラム。  A program that allows a computer to function.
PCT/JP2007/054692 2006-03-10 2007-03-09 Information retrieval device by means of ambiguous word and program WO2007105642A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2006065291A JP4857448B2 (en) 2006-03-10 2006-03-10 Information retrieval apparatus and program using multiple meanings
JP2006-065291 2006-03-10

Publications (1)

Publication Number Publication Date
WO2007105642A1 true WO2007105642A1 (en) 2007-09-20

Family

ID=38509465

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2007/054692 WO2007105642A1 (en) 2006-03-10 2007-03-09 Information retrieval device by means of ambiguous word and program

Country Status (3)

Country Link
JP (1) JP4857448B2 (en)
CN (1) CN101405725A (en)
WO (1) WO2007105642A1 (en)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5388038B2 (en) * 2009-12-28 2014-01-15 独立行政法人情報通信研究機構 Document summarization apparatus, document processing apparatus, and program
WO2011153708A1 (en) * 2010-06-11 2011-12-15 上海坦瑞信息技术有限公司 Information searching method base on domain concept
WO2012058794A1 (en) 2010-11-01 2012-05-10 Microsoft Corporation Image search
CN102033961A (en) * 2010-12-31 2011-04-27 百度在线网络技术(北京)有限公司 Open-type knowledge sharing platform and polysemous word showing method thereof
JP5972096B2 (en) * 2012-08-08 2016-08-17 Kddi株式会社 Apparatus, method and program for extracting posts related to contents
JP6007088B2 (en) * 2012-12-05 2016-10-12 Kddi株式会社 Question answering program, server and method using a large amount of comment text
CN104008098B (en) * 2013-02-21 2018-09-18 腾讯科技(深圳)有限公司 Text filtering method based on ambiguity keyword and device
CN108920467B (en) * 2018-08-01 2021-04-27 北京三快在线科技有限公司 Method and device for learning word meaning of polysemous word and search result display method

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1145274A (en) * 1997-07-28 1999-02-16 Just Syst Corp Extension method for key word using co-occurrence between words and computer readable recording medium recording program for making computer execute respective processes of the method
JP2000250925A (en) * 1999-02-26 2000-09-14 Matsushita Electric Ind Co Ltd Document retrieval and sorting method and device
JP2003208447A (en) * 2002-01-11 2003-07-25 Nippon Telegr & Teleph Corp <Ntt> Device, method and program for retrieving document, and medium recorded with program for retrieving document
JP2004086635A (en) * 2002-08-27 2004-03-18 Nri & Ncc Co Ltd Concept retrieval system, concept retrieval method, and computer program

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2542464B2 (en) * 1991-09-20 1996-10-09 日本電信電話株式会社 Document search device
JPH0676004A (en) * 1992-07-06 1994-03-18 Nec Corp Display device for data base retrieval solution
JP4075094B2 (en) * 1997-04-09 2008-04-16 松下電器産業株式会社 Information classification device
JP2000148764A (en) * 1998-11-05 2000-05-30 Fujitsu Ltd Device and method for retrieval question expansion using clustering and program recording medium for retrieval question expanding process
JP2001005830A (en) * 1999-06-23 2001-01-12 Canon Inc Information processor, its method and computer readable memory
JP2002132824A (en) * 2000-10-26 2002-05-10 Seiko Epson Corp Method and system for information retrieval
JP3862059B2 (en) * 2001-01-22 2006-12-27 Kddi株式会社 Search expression expansion method and search system
JP4092933B2 (en) * 2002-03-20 2008-05-28 富士ゼロックス株式会社 Document information retrieval apparatus and document information retrieval program
JP2004295797A (en) * 2003-03-28 2004-10-21 Oki Electric Ind Co Ltd Information retrieval device
JP4344207B2 (en) * 2003-09-19 2009-10-14 株式会社リコー Document search device, document search method, document search program, and recording medium
JP4569179B2 (en) * 2004-06-03 2010-10-27 富士ゼロックス株式会社 Document search device

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1145274A (en) * 1997-07-28 1999-02-16 Just Syst Corp Extension method for key word using co-occurrence between words and computer readable recording medium recording program for making computer execute respective processes of the method
JP2000250925A (en) * 1999-02-26 2000-09-14 Matsushita Electric Ind Co Ltd Document retrieval and sorting method and device
JP2003208447A (en) * 2002-01-11 2003-07-25 Nippon Telegr & Teleph Corp <Ntt> Device, method and program for retrieving document, and medium recorded with program for retrieving document
JP2004086635A (en) * 2002-08-27 2004-03-18 Nri & Ncc Co Ltd Concept retrieval system, concept retrieval method, and computer program

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MURATA M. ET AL.: "Ichi Joho to Bun'ya Joho o Mochiita Joho Kensaku", JOURNAL OF NATURAL LANGUAGE PROCESSING, vol. 7, no. 2, 10 April 2000 (2000-04-10), pages 141 - 160, XP003017079 *
YAMAZAKI T.: "Ayamari Kudogata Gakushu to Thesaurus o Mochiita Bunsho Jido Bunrui", IEICE TECHNICAL REPORT, vol. 97, no. 2000, 27 July 1997 (1997-07-27), pages 19 - 26, XP003017080 *

Also Published As

Publication number Publication date
CN101405725A (en) 2009-04-08
JP4857448B2 (en) 2012-01-18
JP2007241794A (en) 2007-09-20

Similar Documents

Publication Publication Date Title
Aliguliyev A new sentence similarity measure and sentence based extractive technique for automatic text summarization
Zhong et al. Effective pattern discovery for text mining
Nallapati Discriminative models for information retrieval
Wu et al. Domain-specific keyphrase extraction
Chirita et al. P-tag: large scale automatic generation of personalized annotation tags for the web
Song et al. Overview of the NTCIR-9 INTENT Task.
US9846744B2 (en) Media discovery and playlist generation
Clinchant et al. Xrce’s participation in wikipedia retrieval, medical image modality classification and ad-hoc retrieval tasks of imageclef 2010
WO2007105642A1 (en) Information retrieval device by means of ambiguous word and program
Wang et al. Targeted disambiguation of ad-hoc, homogeneous sets of named entities
JP2005302042A (en) Term suggestion for multi-sense query
WO2005026992A1 (en) Method and system for interpreting multiple-term queries
US20100257202A1 (en) Content-Based Information Retrieval
Nguyen et al. A math-aware search engine for math question answering system
US9164981B2 (en) Information processing apparatus, information processing method, and program
Tagarelli et al. Toward semantic XML clustering
Elhadi et al. Use of text syntactical structures in detection of document duplicates
AL-Khassawneh et al. Improving triangle-graph based text summarization using hybrid similarity function
Li et al. Complex query recognition based on dynamic learning mechanism
Zhang et al. A preprocessing framework and approach for web applications
CN114298020A (en) Keyword vectorization method based on subject semantic information and application thereof
Li et al. Keyphrase extraction and grouping based on association rules
Verberne et al. Author-topic profiles for academic search
Cakaloglu et al. MRNN: A multi-resolution neural network with duplex attention for document retrieval in the context of question answering
Wen et al. Web snippets clustering based on an improved suffix tree algorithm

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 200780008681.4

Country of ref document: CN

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 07738177

Country of ref document: EP

Kind code of ref document: A1