JP2006227823A - Information processor and its control method - Google Patents

Information processor and its control method Download PDF

Info

Publication number
JP2006227823A
JP2006227823A JP2005039525A JP2005039525A JP2006227823A JP 2006227823 A JP2006227823 A JP 2006227823A JP 2005039525 A JP2005039525 A JP 2005039525A JP 2005039525 A JP2005039525 A JP 2005039525A JP 2006227823 A JP2006227823 A JP 2006227823A
Authority
JP
Japan
Prior art keywords
search
information
document
query
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2005039525A
Other languages
Japanese (ja)
Inventor
Tomonori Kudou
朋紀 工藤
Koji Maekawa
浩司 前川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2005039525A priority Critical patent/JP2006227823A/en
Publication of JP2006227823A publication Critical patent/JP2006227823A/en
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To solve a problem of a search time prolonged when high level search is carried on a large amount of documents. <P>SOLUTION: A query is inputted (S71), and its query character string is classified by category (S73). Information having category information matching the classified category is extracted as a search object (S74), and search processing based on the query character string is carried out on the extracted information (S75). <P>COPYRIGHT: (C)2006,JPO&NCIPI

Description

本発明は、文字列を含む情報に基づいて情報を検索する情報処理装置及びその制御方法に関するものである。   The present invention relates to an information processing apparatus that searches for information based on information including a character string and a control method thereof.

近年、ストレージデバイスの大容量化に伴って大量の文書等を蓄積したデータベースが一般的となり、これら大量の文書の中から所望の文書を検索する技術が重要になってきている。これは単純なキーワード検索(キーワードを指示し、それが出現するか否かで文書を検索する)だけでは、ユーザの要求を十分に満たさなくなってきているためである。そこで文書の検索方法として、キーワードとの関係や構文情報の類似度を用いる方法、文書の内容を特徴付ける文書ベクトルを用いる方法等が新たに提案されている。更には、文書の内容を特徴付ける意味、分野、単語そのものを次元として、その特徴量でベクトル表現し、文書ベクトル間の内積等の値を用いて文書間の類似度を求める方法も提案されている。   In recent years, with the increase in capacity of storage devices, databases that store a large amount of documents and the like have become common, and a technique for retrieving a desired document from these large amounts of documents has become important. This is because a simple keyword search (indicating a keyword and searching for a document based on whether or not it appears) does not sufficiently satisfy the user's request. Therefore, as a document search method, a method using a relationship with a keyword and a similarity of syntax information, a method using a document vector characterizing the content of a document, and the like have been newly proposed. Furthermore, a method has also been proposed in which the meaning, field, and word itself that characterize the contents of a document are taken as dimensions, the vectors are expressed as feature quantities, and the similarity between documents is obtained using values such as inner products between document vectors. .

また、ディレクトリ検索や文書管理を目的として、検索対象の文書をデータベースに登録する際に、手動或は自動で、その文書をいくつかのカテゴリに分類して登録する方法も提案されている。   In addition, for the purpose of directory search and document management, a method of registering a search target document in a database by manually or automatically classifying the document into some categories has been proposed.

またキーワードによる検索時、更に、そのキーワードを、それに関連する単語に展開して検索することは、検索漏れを少なくするための手法として有効である。このための最も単純な手法としては、対象となる単語に対する展開語辞書を参照し、その辞書に格納されている展開語を、新たなキーワードとして加えることによって、その検索用のキーワードを拡張して検索していた。例えば、キーワード「警官」を展開するために展開語辞書を参照して「警官」の見出しを参照して求めると、例えば、展開レベル1では、検索キーワードとして「警察官」「巡査」等が見出せる。また展開レベル2では、「警察」「刑事」が展開語として見出せる。   Further, when searching by keyword, it is effective as a technique for reducing search omissions to search by expanding the keyword into words related to the keyword. The simplest technique for this is to expand the search keyword by referring to the expanded word dictionary for the target word and adding the expanded word stored in the dictionary as a new keyword. I was searching. For example, if the keyword “cop” is expanded by referring to the expansion word dictionary and referring to the heading “cop”, for example, at the expansion level 1, “police officer”, “inspector”, etc. can be found as search keywords. . Moreover, in the expansion level 2, “police” and “criminal” can be found as expansion words.

特許文献1は、ニューラルネットワークを使用して、単語を関連語に展開する技術を記載している。この例では『「みかん」AND「冬」』の検索条件が入力された場合、「みかん」と「冬」を単語展開用のニューラルネットワークによってそれぞれ関連語に展開する。更に、この例では、「みかん」に対して強い関連度として、「静岡」「りんご」「こたつ」、弱い関連度で「猫」が得られる。また「冬」の関連語として、強い関連度で「こたつ」「猫」、弱い関連度で「りんご」「静岡」が取り出される。こうして最終的に、「みかん」と「冬」の両方の単語に対して関連度が高い「こたつ」が得られ、その他の単語「猫」「りんご」「静岡」は弱い関連語として得られる。そして検索時には、最初に入力したキーワード(「みかん」「冬」)に加えて、新たなキーワード(「こたつ」「猫」「りんご」「静岡」)を用いた検索が行われる。   Patent Document 1 describes a technique for expanding words into related words using a neural network. In this example, when a search condition of ““ mandarin orange ”and“ winter ”” is input, “mandarin orange” and “winter” are expanded into related words by a neural network for word expansion. Furthermore, in this example, “Shizuoka”, “Apple”, “Kotatsu” and “Cat” are obtained with a weak relevance degree as a strong relevance degree for “mandarin oranges”. As related words of “winter”, “kotatsu” and “cat” are extracted with strong relevance, and “apple” and “Shizuoka” are extracted with weak relevance. In the end, “kotatsu” having a high degree of association is obtained for both the words “mandarin orange” and “winter”, and the other words “cat”, “apple” and “Shizuoka” are obtained as weakly related words. At the time of search, a search using new keywords ("kotatsu", "cat", "apple", "Shizuoka") is performed in addition to the keyword ("mandarin orange", "winter") that was input first.

また特許文献2には、入力された検索条件を、その意味に応じて変更する技術が開示されている。例えばキーワード「株式会社○○建設」を入力した場合、形態素解析によって「株式会社」「○○」「建設」に分割し、並び替えの規則パターンや言い換えパターンに従って、「○○建設株式会社」「(株)○○建設」「○○建設(株)」「○○建設」というように、元のキーワードを展開した別のキーワードを用いて検索することが記載されている。
特開平5−135110号公報 特開平10−207896号公報
Patent Document 2 discloses a technique for changing an input search condition according to its meaning. For example, if you enter the keyword “Co., Ltd. XX Construction”, it will be divided into “Co., Ltd.”, “XX”, and “Construction” by morphological analysis, and “XX Construction Co., Ltd.” “ It describes that a search is performed using another keyword that expands the original keyword, such as “XX Construction Co., Ltd.”, “XX Construction Co., Ltd.”, and “XX Construction”.
JP-A-5-135110 JP-A-10-207896

しかしながら、上記従来の情報検索装置では、次のような問題点があった。   However, the conventional information retrieval apparatus has the following problems.

大量の文書を対象にして高度な検索を実行すると、検索時間が長くなる。   When an advanced search is performed on a large number of documents, the search time becomes longer.

また従来のキーワードの展開処理では、キーワードに対しての見出しを持ち、見出しに対する展開語を取得して展開処理していた。しかしながら、同じ表現であっても異なる意味を持つ単語があるために、そのような単語の多義性に対応した単語展開を行なうことはできなかった。例えば「DV」には「デジタルビデオ」と「ドメスティックバイオレンス」などの意味が存在するため、「DV」を単語展開した場合、「デジタルビデオ」と「ドメスティックバイオレンス」に展開されてしまう。このため、本来、オーディオ機器に関連した文書を検索したい場合でも、「ドメスティックバイオレンス」が含まれる文書が検索されてしまい、検索結果として多くの不要な文書が含まれることになる。そのため、上述した単語展開を行なうことにより検索漏れは防止できるが、検索精度を向上させるには不十分であった。   Further, in the conventional keyword expansion process, a headline for a keyword is provided, and the expansion word for the headline is acquired and expanded. However, since there are words having different meanings even in the same expression, word expansion corresponding to such ambiguity of words cannot be performed. For example, since “DV” has meanings such as “digital video” and “domestic violence”, when “DV” is expanded into words, it is expanded into “digital video” and “domestic violence”. For this reason, even when it is originally desired to search for a document related to an audio device, a document including “domestic violence” is searched, and many unnecessary documents are included as a search result. For this reason, omission of search can be prevented by performing the word expansion described above, but it is insufficient to improve the search accuracy.

本発明は、上記従来技術の欠点を解決することにある。   The present invention is to solve the above-mentioned drawbacks of the prior art.

また本願発明の特徴は、短時間で高精度な検索結果を得ることができる情報処理装置及びその制御方法を提供することにある。   Another feature of the present invention is to provide an information processing apparatus capable of obtaining a highly accurate search result in a short time and a control method thereof.

上記特徴は、独立クレームに記載の特徴の組み合わせにより達成され、従属項は発明の単なる有利な具体例を規定するものである。   The above features are achieved by combinations of the features described in the independent claims, and the dependent claims merely define advantageous embodiments of the invention.

本発明の一態様に係る情報処理装置は以下のような構成を備える。即ち、
それぞれが文字列を含む複数の情報を、当該情報のカテゴリを示すカテゴリ情報とともに保持する記憶デバイスから所定の情報を検索する情報処理装置であって、
クエリー文字列を入力する入力手段と、
前記入力手段により入力された前記クエリー文字列を1つ又は複数のカテゴリに分類するクエリー分類手段と、
前記クエリー分類手段により分類された前記カテゴリに対応するカテゴリ情報を有する情報を検索対象として抽出する抽出手段と、
前記抽出手段で抽出された情報を検索対象として、前記入力手段により入力された前記クエリー文字列に基づく検索処理を実行する検索手段と、
前記検索手段による検索結果を表示する表示手段と、
を有することを特徴とする。
An information processing apparatus according to one embodiment of the present invention has the following configuration. That is,
An information processing apparatus for retrieving predetermined information from a storage device that holds a plurality of pieces of information each including a character string together with category information indicating a category of the information,
An input means for entering a query string;
Query classification means for classifying the query string input by the input means into one or more categories;
Extraction means for extracting information having category information corresponding to the category classified by the query classification means as a search target;
A search unit that executes a search process based on the query character string input by the input unit, using the information extracted by the extraction unit as a search target;
Display means for displaying a search result by the search means;
It is characterized by having.

本発明の一態様に係る情報処理装置は以下のような構成を備える。即ち、
それぞれが文字列を含む複数の情報を、当該情報のカテゴリを示すカテゴリ情報とともに保持する記憶デバイスから所定の情報を検索する情報処理装置であって、
クエリー文字列を入力する入力手段と、
前記入力手段により入力された前記クエリー文字列に含まれる単語を基にキーワードとなる文字列を抽出する抽出手段と、
前記キーワードとなる文字列に関連する展開文字列と当該展開文字列のカテゴリとを取得する取得手段と、
前記キーワードとなる文字列と前記展開文字列とをキーワードとして前記記憶デバイスの文書を検索して検索候補を抽出する候補検索手段と、
前記候補検索手段により検索された文書の内、前記展開文字列のカテゴリと一致するカテゴリ情報を有する文書を検索結果とする検索手段と、
を有することを特徴とする。
An information processing apparatus according to one embodiment of the present invention has the following configuration. That is,
An information processing apparatus for retrieving predetermined information from a storage device that holds a plurality of pieces of information each including a character string together with category information indicating a category of the information,
An input means for entering a query string;
Extraction means for extracting a character string as a keyword based on a word included in the query character string input by the input means;
An acquisition means for acquiring an expanded character string related to the character string serving as the keyword and a category of the expanded character string;
Candidate search means for searching for documents in the storage device using the character string as the keyword and the expanded character string as keywords and extracting search candidates;
Search means for making a search result a document having category information that matches the category of the expanded character string among the documents searched by the candidate search means;
It is characterized by having.

本発明の一態様に係る情報処理装置の制御方法は以下のような工程を備える。即ち、
それぞれが文字列を含む複数の情報を、当該情報のカテゴリを示すカテゴリ情報とともに保持する記憶デバイスから所定の情報を検索する情報処理装置の制御方法であって、
クエリー文字列を入力する入力工程と、
前記入力工程で入力された前記クエリー文字列を1つ又は複数のカテゴリに分類するクエリー分類工程と、
前記クエリー分類工程で分類された前記カテゴリに対応するカテゴリ情報を有する情報を検索対象として抽出する抽出工程と、
前記抽出工程で抽出された情報を検索対象として、前記入力工程により入力された前記クエリー文字列に基づく検索処理を実行する検索工程と、
前記検索工程での検索結果を表示する表示工程と、
を有することを特徴とする。
An information processing apparatus control method according to an aspect of the present invention includes the following steps. That is,
A method for controlling an information processing apparatus for retrieving predetermined information from a storage device that holds a plurality of pieces of information each including a character string together with category information indicating a category of the information,
An input process for entering a query string;
A query classification step of classifying the query string input in the input step into one or more categories;
An extraction step of extracting information having category information corresponding to the category classified in the query classification step as a search target;
A search step for performing a search process based on the query character string input in the input step, using the information extracted in the extraction step as a search target;
A display step for displaying a search result in the search step;
It is characterized by having.

本発明の一態様に係る情報処理装置の制御方法は以下のような工程を備える。即ち、
それぞれが文字列を含む複数の情報を、当該情報のカテゴリを示すカテゴリ情報とともに保持する記憶デバイスから所定の情報を検索する情報処理装置の制御方法であって、
クエリー文字列を入力する入力工程と、
前記入力工程で入力された前記クエリー文字列に含まれる単語を基にキーワードとなる文字列を抽出する抽出工程と、
前記キーワードとなる文字列に関連する展開文字列と当該展開文字列のカテゴリとを取得する取得工程と、
前記キーワードとなる文字列と前記展開文字列とをキーワードとして前記記憶デバイスの文書を検索して検索候補を抽出する候補検索工程と、
前記候補検索工程で検索された文書の内、前記展開文字列のカテゴリと一致するカテゴリ情報を有する文書を検索結果とする検索工程と、
を有することを特徴とする。
An information processing apparatus control method according to an aspect of the present invention includes the following steps. That is,
A method for controlling an information processing apparatus for retrieving predetermined information from a storage device that holds a plurality of pieces of information each including a character string together with category information indicating a category of the information,
An input process for entering a query string;
An extraction step of extracting a character string as a keyword based on the word included in the query character string input in the input step;
An acquisition step for acquiring a development character string related to the character string to be the keyword and a category of the development character string;
A candidate search step of searching a document in the storage device using the character string as the keyword and the expanded character string as a keyword and extracting a search candidate;
A search step in which a document having category information that matches the category of the expanded character string among the documents searched in the candidate search step is a search result;
It is characterized by having.

尚、この発明の概要は、必要な特徴を全て列挙しているものでなく、よって、これら特徴群のサブコンビネーションも発明になり得る。   The outline of the present invention does not enumerate all necessary features, and therefore, a sub-combination of these feature groups can also be an invention.

本発明によれば、文字列を含むクエリーから高速かつ高精度の検索が可能となる。これにより、ユーザの操作性を大幅に向上させ、目的の情報を効率良く取り出せるという効果がある。   According to the present invention, it is possible to perform a high-speed and high-precision search from a query including a character string. As a result, the operability for the user is greatly improved, and the desired information can be efficiently extracted.

以下、添付図面を参照して本発明の好適な実施の形態を詳しく説明する。尚、以下の実施の形態は特許請求の範囲に係る発明を限定するものでなく、また本実施の形態で説明されている特徴の組み合わせの全てが発明の解決手段に必須のものとは限らない。   DESCRIPTION OF EMBODIMENTS Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings. The following embodiments do not limit the invention according to the claims, and all the combinations of features described in the embodiments are not necessarily essential to the solution means of the invention. .

[実施の形態1]
図1は、本発明の実施の形態に係る情報検索装置(例えば、パーソナルコンピュータ(PC))の概略構成を示すブロック図である。
[Embodiment 1]
FIG. 1 is a block diagram showing a schematic configuration of an information search apparatus (for example, a personal computer (PC)) according to an embodiment of the present invention.

この情報検索装置は、プログラムに従って処理を実行する中央処理部(CPU)1と、検索対象となる文書やアノテーション付き画像等のほか、プログラムや辞書を格納しているデータベース等の記憶部(RAM及びハードディスクなどの大容量記憶装置を含む)2と、ユーザにより操作されて各種データやコマンドを入力するためのキーボードやマウス等の入力部3と、検索結果を表示する表示部4と、FD(フロッピー(登録商標)ディスク),CD−ROM,DVD及び磁気テープ等の記憶媒体に記憶されたプログラムやデータ等を読み取って記憶部2に記憶する記憶媒体読取部5とを有している。   This information retrieval apparatus includes a central processing unit (CPU) 1 that executes processing according to a program, and a storage unit (RAM and RAM) that stores a program and a dictionary in addition to a document to be searched and an annotated image. (Including a mass storage device such as a hard disk) 2, an input unit 3 such as a keyboard and a mouse that are operated by a user to input various data and commands, a display unit 4 that displays search results, and an FD (floppy) (Registered trademark) disk, CD-ROM, DVD, and storage medium reading unit 5 that reads programs and data stored in a storage medium such as a magnetic tape and stores them in the storage unit 2.

<検索動作の概要説明>
次に、本実施の形態に係る情報検索装置による検索動作の概要を説明する。
<Overview of search operation>
Next, an outline of a search operation performed by the information search apparatus according to this embodiment will be described.

図2は、本発明の実施の形態1に係る情報検索装置による文書等の自動分類登録処理を示すフローチャートで、この処理を実行するプログラムは記憶部2に記憶されて中央処理部1の制御の下に実行される。この処理は文書の登録時に、その文書がどのような分野に関連した文書であるかを判定して、その文書と共にその分類情報を登録するための処理を示している。   FIG. 2 is a flowchart showing an automatic classification registration process for documents and the like by the information search apparatus according to the first embodiment of the present invention. A program for executing this process is stored in the storage unit 2 and is controlled by the central processing unit 1. Executed below. This process indicates a process for registering the classification information together with the document by determining which field the document is related to when registering the document.

まずステップS1で、登録対象である文書などの登録対象データを取得する。次にステップS2で、その登録対象データの言語を解析し、そのれに含まれる単語等の解析データを作成する。次にステップS3で、その解析データに基づいて、その登録対象データを分類する。こうして分類した結果に基づいて、その登録先を決定する(ステップS4)。そしてステップS5で、ステップS4で決定された登録先に、その登録対象データ(ここでは文書)を登録する。   First, in step S1, registration target data such as a document to be registered is acquired. Next, in step S2, the language of the registration target data is analyzed, and analysis data such as words included in the registration target data is created. In step S3, the registration target data is classified based on the analysis data. Based on the classification result, the registration destination is determined (step S4). In step S5, the registration target data (here, a document) is registered in the registration destination determined in step S4.

次にステップS3の登録対象データの分類処理の詳細について説明する。この登録対象データの分類の一例として、ベクトルを利用した自動分類の場合で説明する。登録対象データを分類するに当たり、予め分類するカテゴリの文書から有効語辞書と基底語辞書を作成する。   Next, details of the registration target data classification process in step S3 will be described. As an example of the classification of the registration target data, a case of automatic classification using vectors will be described. In classifying the registration target data, an effective word dictionary and a base word dictionary are created from documents in categories to be classified in advance.

次に図3のフローチャートを参照して、有効語の抽出処理を説明する。ここではデータベースに複数の文書が記憶されている状態で、これら複数の文書から、それら文書に含まれている有効語を抽出している。   Next, the effective word extraction process will be described with reference to the flowchart of FIG. Here, in a state where a plurality of documents are stored in the database, valid words included in the documents are extracted from the plurality of documents.

図3は、本実施の形態に係る情報検索装置における、データベースに記憶されている複数の文書から単語を抽出し、それが有効語かどうかを判定して登録する処理を説明するフローチャートで、この処理を実行するプログラムは記憶部2に記憶されて中央処理部1の制御の下に実行される。   FIG. 3 is a flowchart for explaining processing for extracting a word from a plurality of documents stored in a database, determining whether or not it is a valid word, and registering it in the information search apparatus according to the present embodiment. A program for executing processing is stored in the storage unit 2 and executed under the control of the central processing unit 1.

まずステップS11で、データベースに保持された全ての文書データの形態素を解析して単語を抽出する。次にステップS12で、その抽出した単語を単語リストとして記憶部2に保持する。次にステップS13で、その単語リストから任意の単語を取り出す。次にステップS14で、この単語の文書分類のための有効度を計算する。ここでは、あるカテゴリに属する文書の中で、この単語を含む文書の割合を計算する。こうして全てのカテゴリについて正規化する。尚、ここでカテゴリによって、その単語を含む文書の割合に差がある場合は、その単語は、その割合の高いカテゴリを特徴付けると考えられ、分類のために有効な単語と言える。   First, in step S11, morphemes of all document data held in the database are analyzed to extract words. In step S12, the extracted word is stored in the storage unit 2 as a word list. In step S13, an arbitrary word is extracted from the word list. In step S14, the effectiveness of this word for document classification is calculated. Here, the ratio of documents containing this word among the documents belonging to a certain category is calculated. In this way, all categories are normalized. Here, if there is a difference in the ratio of documents containing the word depending on the category, the word is considered to characterize a category having a high ratio, and can be said to be an effective word for classification.

一方、その単語を含む文書の割合がカテゴリによって差がない場合は、逆に分類にとって有効でないと考えられる。このような分布の偏りを評価するために、エントロピーを計算する。ここで、エントロピーは、分布の偏りが大きい(分類に有効)ほど小さい値となり、偏りが小さい(分類に有効でない)ほど大きい値をとる。有効度は、「1−エントロピー」と定義する。   On the other hand, if the ratio of documents containing the word is not different depending on the category, it is considered that it is not effective for classification. In order to evaluate such distribution bias, entropy is calculated. Here, the entropy has a smaller value as the distribution bias is larger (effective for classification), and takes a larger value as the bias is smaller (ineffective for classification). The effectiveness is defined as “1-entropy”.

従って、ステップS15で、その求めた有効度が閾値より大きいか否かを判別する。有効度が閾値より小さい(分類に有効)と判断するとステップS16に進み、その単語を有効語とみなし、有効語辞書に登録してステップS17に進む。一方、有効度が閾値以上(分類に有効でない)の場合はステップS16の有効語辞書(記憶部2に設けられる)への登録処理をスキップしてステップS17に進み、その判定が済んだ単語を単語リストから削除する。尚、本実施の形態では、閾値の値を適切に設定して、文書の分類を有効に行える範囲で極力多数の有効語を抽出して有効語辞書に登録するようにしている。   Accordingly, in step S15, it is determined whether or not the obtained effectiveness is greater than a threshold value. If it is determined that the effectiveness is smaller than the threshold (effective for classification), the process proceeds to step S16, the word is regarded as an effective word, registered in the effective word dictionary, and the process proceeds to step S17. On the other hand, if the validity level is equal to or greater than the threshold (not valid for classification), the registration process to the valid word dictionary (provided in the storage unit 2) in step S16 is skipped, and the process proceeds to step S17. Delete from the word list. In this embodiment, the threshold value is set appropriately, and as many valid words as possible are extracted and registered in the valid word dictionary within a range where the document classification can be effectively performed.

そしてステップS18で、単語リストが空であるか否か(全ての単語に対する判定が終了したか)を判別し、空でなければステップS13に戻って、次の単語について同様の処理を行い、単語リストが空になると、この有効語の抽出処理を終了する。尚、この処理は手動で行うこともできる。   In step S18, it is determined whether or not the word list is empty (whether determinations for all words have been completed). If not, the process returns to step S13, and the same processing is performed for the next word. When the list becomes empty, the effective word extraction process ends. This process can also be performed manually.

次に、基底語の抽出処理を説明する。基底語としては、それぞれが分類のための有効度が高いものであると同時に、お互いに相関の低い組合わせであることが望ましい。例えば、「為替」「最高値」「景気」「財テク」「インフレ」…などが有効語として有効語辞書に登録されていたとする。これらは、それぞれ「経済」というカテゴリをよく特徴付ける単語といえる。しかし「為替」と「最高値」は同じ文書内によく現れるので、この両方を基底語として採用するのは冗長である。むしろ、「為替」「財テク」「インフレ」等を基底語として選択し、有効語辞書において「最高値」と「為替」の相関情報を付与する形にした方がよい。   Next, a base word extraction process will be described. As the base words, it is desirable that each of them has a high effectiveness for classification, and at the same time has a low correlation with each other. For example, it is assumed that “exchange”, “highest price”, “economy”, “good technology”, “inflation”, etc. are registered as valid words in the valid word dictionary. These are words that often characterize the category “economic”. However, since “exchange” and “best” appear frequently in the same document, it is redundant to adopt both as base words. Rather, it is better to select “exchange”, “good tech”, “inflation” or the like as a base word and add correlation information between “highest value” and “exchange” in the effective word dictionary.

このような考えに基づいた基底語の抽出処理を図4に示すフローチャートを参照して説明する。   The base word extraction process based on this idea will be described with reference to the flowchart shown in FIG.

図4は、本実施の形態に係る情報検索装置における基底語の抽出処理を示すフローチャートで、この処理を実行するプログラムは記憶部2に記憶されて中央処理部1の制御の下に実行される。   FIG. 4 is a flowchart showing a base word extraction process in the information search apparatus according to the present embodiment. A program for executing this process is stored in the storage unit 2 and executed under the control of the central processing unit 1. .

この基底語の抽出処理において、まずステップS21で、有効語辞書に登録された単語(有効語)同士の共起確率を文書データベースに保持された文書から計算する。単語Wの単語W’に対する共起確率は、(WとW’を同時に含む文書の数)/(Wを含む文書の数)で求められる。次にステップS22で、初期設定として、その選択された基底語を保持する基底語リスト(記憶部2)、基底語の候補を保持する基底語候補リスト(記憶部2)をそれぞれ空にし、選択された基底語数n(記憶部2)を「0」とする。そしてステップS23で、有効語辞書に登録されている単語の内、基底語リストBに保持されている単語を除く全ての単語を基底語候補として基底語候補リストに保持すると共に、基底語の評価値の最大値を「0」に初期化する。そしてステップS24で、基底語候補リストから任意の単語Wを取り出し、この単語Wの基底語としての評価値を計算する(ステップS25)。   In this base word extraction process, first, in step S21, a co-occurrence probability between words (effective words) registered in the effective word dictionary is calculated from the documents held in the document database. The co-occurrence probability of the word W with respect to the word W ′ is obtained by (number of documents including W and W ′ simultaneously) / (number of documents including W). Next, in step S22, as a default setting, the base word list (storage unit 2) holding the selected base word and the base word candidate list (storage unit 2) holding base word candidates are respectively emptied and selected. The number of base words n (storage unit 2) is “0”. In step S23, all of the words registered in the valid word dictionary except the words held in the base word list B are held as base word candidates in the base word candidate list, and the base word evaluation is performed. The maximum value is initialized to “0”. In step S24, an arbitrary word W is extracted from the base word candidate list, and an evaluation value as a base word of the word W is calculated (step S25).

この評価値は、次のようにして求める。選択された基底語リストが、まだ空のときは、評価値は有効度とする。既に基底語が選択されている場合は、単語の基底語しての評価値は、単語自身の文書分類のための有効度が高いほど高くなり、基底語との相関が高いほど低くなる
次にステップS26で、ステップS25で計算された評価値が最大値より大きいか否かを判別し、大きければステップS27に進み、次の基底語候補に単語をセットし、最大値を単語の評価値に更新してステップS28に進む。一方、評価値が最大値以下であればステップS27の処理をスキップして、ステップS28に進む。ステップS28では、基底語候補リストから、その判定済の単語を削除する。そしてステップS29で、基底語候補リストが空になったか(全ての基底語候補の有効度計算が終了したか)否かを調べ、空でなければステップS24へ戻って、残りの有効語(基底語候補)について同じ評価を行う。ステップS29で、基底語候補リストが空になるとステップS30に進み、基底語候補を基底語リストに加え、基底語数を1つインクリメントする。そしてステップS31で、基底語数がユーザが予め設定した数に達したか否かを調べ、達していなければステップS23に戻って、次の基底語候補を選択する。こすいて基底語の数が設定数に達したら、この基底語抽出処理を完了する。
This evaluation value is obtained as follows. If the selected base word list is still empty, the evaluation value is the validity. If a base word has already been selected, the evaluation value of the word as a base word increases as the effectiveness of the word for document classification increases, and decreases as the correlation with the base word increases. In step S26, it is determined whether or not the evaluation value calculated in step S25 is larger than the maximum value. If it is larger, the process proceeds to step S27, a word is set as the next base word candidate, and the maximum value is set as the word evaluation value. Update and go to step S28. On the other hand, if the evaluation value is equal to or less than the maximum value, the process of step S27 is skipped and the process proceeds to step S28. In step S28, the determined word is deleted from the base word candidate list. In step S29, it is checked whether or not the base word candidate list has been emptied (whether the calculation of the validity of all base word candidates has been completed). If not, the process returns to step S24 to return the remaining valid words (basis The same evaluation is performed for word candidates. When the basic word candidate list becomes empty in step S29, the process proceeds to step S30, where the basic word candidate is added to the basic word list, and the number of basic words is incremented by one. In step S31, it is checked whether or not the number of basic words has reached the number set in advance by the user. If not, the process returns to step S23 to select the next basic word candidate. When the number of base words reaches the set number by rubbing, the base word extraction process is completed.

このようにして抽出された基底語と有効語辞書に登録された各単語との相関情報を有効語辞書に登録する。これは、有効語辞書中の各単語に対し、単語の基底語に対する共起確率を記述することによって行う。また、同義語辞書を用いて、同義の有効語には同じ相関情報を付与するようにする。これも手動で事前に処理することも可能である。   Correlation information between the base word extracted in this way and each word registered in the effective word dictionary is registered in the effective word dictionary. This is done by describing the co-occurrence probabilities for the word base words for each word in the valid word dictionary. In addition, the same correlation information is assigned to synonymous effective words using a synonym dictionary. This can also be processed manually in advance.

図5に示すフローチャートを参照して、ベクトル表現処理を説明する。このベクトル表現処理により作成されたベクトルにより分類カテゴリが決定される。   Vector expression processing will be described with reference to the flowchart shown in FIG. The classification category is determined by the vector created by the vector expression process.

図5は、本実施の形態に係る情報検索装置におけるベクトル表現処理を説明するフローチャートで、この処理を実行するプログラムは記憶部2に記憶されて中央処理部1の制御の下に実行される。   FIG. 5 is a flowchart for explaining vector expression processing in the information search apparatus according to the present embodiment. A program for executing this processing is stored in the storage unit 2 and executed under the control of the central processing unit 1.

まずステップS41で、ベクトルを初期化する。次にステップS42で、対象とする文書を形態素解析し、ステップS43で、その文書に含まれる単語と、その頻度の組からなる単語リストを記憶部2に作成する。そしてステップS44で、その単語リストから任意の1つ単語と、その頻度の組を取り出す。次にステップS45で、その単語を、図3のフローチャートに従って作成した有効語辞書で引いて、ステップS46で、その単語が有効語辞書に登録されているか否かを調べる。ここで登録されていなければステップS44へ戻る。一方、その単語が有効語辞書に登録されていればステップS47に進み、その有効語辞書を基に、単語のベクトル表現を生成し、そのベクトルを更新する(ステップS48)。そしてステップS49で、その組合せを単語リストから削除してステップS50で、単語リストが空になったか(ステップS43で抽出した全ての単語の処理が完了したか)否かを調べる。空でなければステップS44に戻って、次の単語について同様の処理を行う。単語リストが空であれば処理を終了する。   First, in step S41, the vector is initialized. Next, in step S42, the target document is subjected to morphological analysis, and in step S43, a word list including a pair of words included in the document and the frequency thereof is created in the storage unit 2. In step S44, a set of one arbitrary word and its frequency is extracted from the word list. Next, in step S45, the word is drawn with the effective word dictionary created according to the flowchart of FIG. 3, and in step S46, it is checked whether or not the word is registered in the effective word dictionary. If it is not registered here, the process returns to step S44. On the other hand, if the word is registered in the valid word dictionary, the process proceeds to step S47, a vector representation of the word is generated based on the valid word dictionary, and the vector is updated (step S48). In step S49, the combination is deleted from the word list, and in step S50, it is checked whether or not the word list is empty (processing of all the words extracted in step S43 is completed). If it is not empty, the process returns to step S44 and the same processing is performed for the next word. If the word list is empty, the process ends.

このようにして、有効語辞書を用いて、文書の内容をベクトルで表現することができる。即ち、まず分類に有効な有効語をできる限り多く有効語辞書に登録する。そしてこの中から、文書を表現するベクトル空間の軸となる基底語をなるべく少数抽出する。そして、これら基底語と有効語辞書に登録された各有効語との相関情報を有効語辞書に持たせる。これにより分類対象として入力された文書に含まれる単語が、辞書登録した有効語のいずれかに一致する確率を高めると共に、有効語と基底語の相関情報を基に、文書を少ない次元のベクトルとして表現することにより、ベクトル空間上での処理コストを低くするようにしている。   In this way, the content of the document can be expressed by a vector using the effective word dictionary. That is, first, as many valid words as possible for classification are registered in the valid word dictionary as much as possible. From this, as few base words as possible are extracted as axes of the vector space representing the document. Then, the effective word dictionary has correlation information between these base words and each effective word registered in the effective word dictionary. This increases the probability that a word included in a document input as a classification target matches one of the valid words registered in the dictionary, and makes the document a vector with fewer dimensions based on the correlation information between the valid word and the base word. By expressing it, the processing cost on the vector space is reduced.

尚、本発明は上記実施の形態に限定されることなく、例えば、上記のように文書から単語を抽出するときに形態素解析を用いることなく、字種切りなどの方法を用いて単語抽出における処理速度を上げるようにしてもよい。また、上記実施の形態では、単語の分類のための有効度を評価するのに、エントロピー計算を利用したが、分布の偏りを評価できるものであれば、他の評価関数を用いてもよい。   Note that the present invention is not limited to the above-described embodiment. For example, when extracting a word from a document as described above, processing in word extraction using a method such as character type cutting without using morphological analysis. You may make it raise speed. In the above embodiment, the entropy calculation is used to evaluate the effectiveness for classifying words. However, other evaluation functions may be used as long as the distribution bias can be evaluated.

更に、基底語の評価関数は、上記実施の形態に示したものに限定されず、その単語自身のための有効度と、基底語同士の相関を考慮したものであれば、他の評価関数を用いてもよい。   Furthermore, the evaluation function of the base word is not limited to the one shown in the above embodiment, and other evaluation functions can be used as long as the effectiveness for the word itself and the correlation between the base words are taken into consideration. It may be used.

また上記実施の形態では、有効語辞書に、辞書中の各単語それぞれに、全ての基底語との相関情報を付与するものとしたが、相関の高い上位いくつかの基底語との相関情報のみを付与して、有効語辞書の規模を削減するようにしてもよい。また単純な分野辞書、同義語辞書、共起辞書などによる分類でもよい。検索データの登録は検索方法に合せて必要なデータを登録する。   In the above embodiment, correlation information with all base words is given to each word in the dictionary in the effective word dictionary, but only correlation information with several higher-order base words with high correlation is provided. To reduce the scale of the effective word dictionary. A simple field dictionary, synonym dictionary, co-occurrence dictionary, or the like may be used. Registration of search data is performed by registering necessary data according to the search method.

図6は、本実施の形態に係る情報検索装置における概念検索のための登録処理を示すフローチャートで、この処理を実行するプログラムは記憶部2に記憶されて中央処理部1の制御の下に実行される。   FIG. 6 is a flowchart showing a registration process for concept search in the information search apparatus according to the present embodiment. A program for executing this process is stored in the storage unit 2 and executed under the control of the central processing unit 1. Is done.

この概念検索登録処理は、ステップS61の言語解析結果取得処理と、ステップS62の文書ベクトル生成処理と、ステップS63のインデックス登録処理とで構成されている。   The concept search registration process includes a language analysis result acquisition process in step S61, a document vector generation process in step S62, and an index registration process in step S63.

図6において、文書は登録される段階で、まずステップS61で、言語解析の結果を取得し、その文書に含まれる単語を取得する。次にステップS62で、文書ベクトルを生成し、その文書内に出現する単語から、基本ベクトル辞書を用いて文書ベクトルを算出する。   In FIG. 6, at the stage where a document is registered, first, in step S61, a result of language analysis is acquired, and a word included in the document is acquired. In step S62, a document vector is generated, and the document vector is calculated from the words appearing in the document using a basic vector dictionary.

図7は、この基本ベクトル辞書の構成を示す図で、記憶部2に記憶されている。   FIG. 7 is a diagram showing the configuration of this basic vector dictionary, which is stored in the storage unit 2.

図に示すように、この基本ベクトル辞書は、単語毎にベクトル表現時のそれぞれの次元(Dim.)に対応した特徴量を格納している。次元は、その単語本来の意味によって分類された基準や、その単語の使用分野に応じて分類された基準等が採用される。「単語1」の次元01(「Dim.01」)の特徴量は「0」であり、次元02(「Dim.02」)の特徴量は「23」であることが分かる。   As shown in the figure, this basic vector dictionary stores feature amounts corresponding to respective dimensions (Dim.) At the time of vector expression for each word. For the dimension, a standard classified according to the original meaning of the word, a standard classified according to the field of use of the word, or the like is adopted. It can be seen that the feature value of dimension 01 (“Dim.01”) of “word 1” is “0”, and the feature value of dimension 02 (“Dim.02”) is “23”.

このように、この基本ベクトル辞書から、1つの単語におけるそれぞれの次元(Dim.)の特徴量を得ることが可能となる。この特徴量は、その単語が使用されることにより、その文書がその分類基準(=次元)をどれぐらい特徴付ける可能性があるかを示す値と解釈できる。文書を構成する全ての単語から得られた分類基準別(次元別)の特徴量から、その文書全体の特徴量が分類基準を次元とするベクトルで表現される。こうして得られたベクトルをノルム=1で正規化した値を文書ベクトルとして格納する。   As described above, it is possible to obtain the feature amount of each dimension (Dim.) In one word from the basic vector dictionary. This feature amount can be interpreted as a value indicating how much the document may characterize the classification standard (= dimension) by using the word. From the feature values for each classification criterion (by dimension) obtained from all the words constituting the document, the feature amount of the entire document is expressed by a vector having the classification criterion as a dimension. A value obtained by normalizing the vector thus obtained with norm = 1 is stored as a document vector.

その後のインデックス登録処理(ステップS63)では、文書ベクトルを図8に示すようなインデックスに格納する。「文書ID=6947」の文書ベクトルの「Dim.01」の特徴量は、「183」であり、「Dim.02」の特徴量は、「0.214」であることが分かる。   In the subsequent index registration process (step S63), the document vector is stored in an index as shown in FIG. It can be seen that the feature quantity of “Dim.01” of the document vector “document ID = 6947” is “183”, and the feature quantity of “Dim.02” is “0.214”.

次に図9は、検索対象となる複数の文書が4つのカテゴリ(ここでは「スポーツ」「政治」「経済」「環境」)に分類されている例を示す図である。   Next, FIG. 9 is a diagram illustrating an example in which a plurality of documents to be searched are classified into four categories (here, “sports”, “politics”, “economy”, and “environment”).

図10は、本実施の形態に係る情報検索装置における検索処理を説明するフローチャートで、この処理を実行するプログラムは記憶部2に記憶されて中央処理部1の制御の下に実行される。   FIG. 10 is a flowchart for explaining a search process in the information search apparatus according to the present embodiment. A program for executing this process is stored in the storage unit 2 and executed under the control of the central processing unit 1.

まずステップS71で、入力部3により入力されるクエリー(検索データ)を取得し、次にステップS72で、その取得したクエリーの言語解析を行う。次にステップS73で、その取得したクエリーの言語解析の結果を基に、そのクエリーを分類する。このステップS73の分類の結果に基づいて、ステップS74で、検索する対象の文書のカテゴリを決定する。そしてステップS75で、ステップS74で決定した検索対象(カテゴリ)の文書を検索する。そしてステップS76で、この検索処理による検索結果リストを表示部4に一致度の高い順に一覧表示する。   First, in step S71, a query (search data) input by the input unit 3 is acquired. Next, in step S72, language analysis of the acquired query is performed. In step S73, the query is classified based on the result of language analysis of the acquired query. Based on the classification result in step S73, the category of the document to be searched is determined in step S74. In step S75, the search target (category) document determined in step S74 is searched. In step S76, a list of search results obtained by this search process is displayed on the display unit 4 in descending order of coincidence.

図11は、図10のステップS75の検索処理にフレーズ検索を適用した場合の詳細化したフローチャートである。   FIG. 11 is a detailed flowchart when a phrase search is applied to the search process in step S75 of FIG.

このフレーズ検索は、ステップS81のクエリーに含まれる単語の取得処理と、ステップS82のクエリーに含まれる単語間の関係を取得する処理と、ステップS83の類似度の算出処理とで構成されている。   This phrase search includes word acquisition processing included in the query in step S81, processing for acquiring a relationship between words included in the query in step S82, and similarity calculation processing in step S83.

ステップS81のクエリーに含まれる単語の取得処理では、ステップS42(図5)の形態素の解析結果からクエリーに含まれる単語を取得する。次にステップS82のクエリーに含まれる単語間の関係取得処理は、ステップS42(図5)での形態素の解析結果から、クエリーに含まれる単語の構文情報を取得する処理である。またステップS83の類似度の算出処理は、ステップS81とステップS82で取得したクエリーに含まれる単語とその単語間の関係と、文書に含まれる単語と、その単語間の関係を比較して、そのクエリーと文書中の文との類似度を算出する処理である。   In the word acquisition process in step S81, the word included in the query is acquired from the morpheme analysis result in step S42 (FIG. 5). Next, the relationship acquisition processing between words included in the query in step S82 is processing for acquiring syntax information of the words included in the query from the morpheme analysis result in step S42 (FIG. 5). In addition, the similarity calculation processing in step S83 is performed by comparing the word included in the query acquired in step S81 and step S82 with the relationship between the word and the word included in the document with the relationship between the words. This is a process for calculating the similarity between a query and a sentence in a document.

図12は、図10のステップS75の検索処理に概念検索を適用した場合の詳細化したフローチャートである。   FIG. 12 is a detailed flowchart when the concept search is applied to the search processing in step S75 of FIG.

この概念検索は、ステップS91のクエリーの言語解析の結果を取得する処理と、ステップS92のクエリーベクトルの生成処理と、ステップS93の類似度の算出処理とから構成される。   This concept search includes a process for obtaining the language analysis result of the query in step S91, a query vector generation process in step S92, and a similarity calculation process in step S93.

ここで、ステップS91のクエリーの言語解析結果の取得処理は、ステップS72(図10)で生成したクエリーの言語解析の結果を取得する処理である。ステップS92のクエリーベクトルの生成処理は、ステップS91で取得した解析結果からクエリーベクトルを生成する処理であり、ステップS93の類似度の算出処理は、ステップS92で得られたクエリーベクトルと、登録時に記憶部2に格納された文書毎の文書ベクトルとを比較して、そのクエリーと文書中の文との類似度を算出し、検索結果としてリストアップする処理である。   Here, the query language analysis result acquisition processing in step S91 is processing for acquiring the query language analysis result generated in step S72 (FIG. 10). The query vector generation process in step S92 is a process for generating a query vector from the analysis result acquired in step S91, and the similarity calculation process in step S93 stores the query vector obtained in step S92 and the registration time. This is a process of comparing the document vector for each document stored in the section 2, calculating the similarity between the query and a sentence in the document, and listing the result as a search result.

ここで前述の図9のように、「政治」「経済」「環境」「スポーツ」の4つのカテゴリに分類された複数の文書が記憶部2に格納されている場合で説明する。   Here, a case will be described where a plurality of documents classified into four categories of “politics”, “economy”, “environment”, and “sports” are stored in the storage unit 2 as shown in FIG.

図13は、入力部3から入力されるクエリー(文字列)の入力画面の表示例を示す図である。   FIG. 13 is a diagram illustrating a display example of an input screen for a query (character string) input from the input unit 3.

この図13では、クエリーとして「日本の経済における金利の影響について」が入力されている。   In FIG. 13, “Regarding the effect of interest rates in the Japanese economy” is input as a query.

次に、このクエリーに基づく検索処理を図10の前述のフローチャートを参照して具体的に説明する。   Next, a search process based on this query will be specifically described with reference to the flowchart shown in FIG.

まずステップS71で、入力部3を使用して入力されるクエリー「日本経済における金利の影響について」を取得する。次にステップS72で、ステップS71で取得したクエリーの言語解析を行う。ここでは形態素に分解された「日本」「経済」「における」「金利」「の」「影響」「について」を基に、前述の登録文書の分類と同様な手法でクエリーベクトルを生成する。そして、このクエリーベクトルと図9のカテゴリとを比較する。ここでは「経済」のカテゴリに分類される。   First, in step S71, a query “about the influence of interest rates in the Japanese economy” input using the input unit 3 is acquired. Next, in step S72, language analysis of the query acquired in step S71 is performed. Here, based on “Japan”, “economy”, “interest rate”, “no”, “influence”, and “about” broken down into morphemes, a query vector is generated by a method similar to the above-described classification of registered documents. Then, the query vector is compared with the category of FIG. Here, it is classified into the category of “economy”.

このステップS73の分類の結果、検索する対象を「経済」カテゴリに決定する(ステップS74)。次にステップS75で、この決定した「経済」カテゴリに属する文書を検索対象として検索する。この検索ステップの検索結果リストを図14のように表示部4に類似度の高い順に一覧表示する(ステップS76)。   As a result of the classification in step S73, the search target is determined to be the “economy” category (step S74). In step S75, documents belonging to the determined “economy” category are searched as search targets. The search result list of this search step is displayed as a list in descending order of similarity on the display unit 4 as shown in FIG. 14 (step S76).

図14は、本実施の形態に係る情報検索装置における検索結果を示す図である。   FIG. 14 is a diagram illustrating a search result in the information search apparatus according to the present embodiment.

図14では、クエリー「日本経済における金利の影響について」に対する検索結果の内、最も類似度の高いものから順に5件分が表示されている。   In FIG. 14, five items are displayed in order from the highest similarity among the search results for the query “influence of interest rates in the Japanese economy”.

<検索動作の具体的な説明>
次に、上述した各フローチャートで説明した処理で実現される本実施の形態に係る検索処理について具体的に説明する。
<Specific description of search operation>
Next, the search processing according to the present embodiment realized by the processing described in each of the flowcharts described above will be specifically described.

1.フレーズ検索
図10のステップS75の検索処理にフレーズ検索を適用した場合の詳細を、図15(A)〜(C)のデータ例と図11のフローチャートとを参照して説明する。
1. Phrase Search Details when the phrase search is applied to the search processing in step S75 in FIG. 10 will be described with reference to the data examples in FIGS. 15A to 15C and the flowchart in FIG.

図15(A)に示すように、クエリーとして「画像を印刷する。」が入力された場合、クエリーに含まれる単語の取得処理(図11のステップS81)では、「画像」「を」「印刷する。」を取得する。   As shown in FIG. 15A, when “print image” is input as a query, in the process of acquiring words included in the query (step S81 in FIG. 11), “image” “ ”Is acquired.

次にステップS82(図11)の単語間の関係取得処理では、「画像」が「印刷する」に係っている、ことを取得する。続くステップS83(図11)の類似度の算出処理では、クエリーに含まれる単語と単語間の関係が、文書の単語と単語間の関係に類似している度合いを算出する。   Next, in the relationship acquisition process between words in step S82 (FIG. 11), it is acquired that “image” is related to “print”. In the subsequent similarity degree calculation process in step S83 (FIG. 11), the degree of similarity between the words included in the query and the words is calculated.

例えば、図15(B)の文書1では、単語「画像」と単語「印刷する」が含まれ、『「画像」が「印刷する」に係っている』ことと、『「高速」が「印刷する」に係っている』ことが示されている。ここでは、『「画像」が「印刷する」に係っている』点が、図15(A)のクエリーと、図15(B)の文書1との間で類似している。よって、文書1は、類似したフレーズを含んでいる類似度(=1−単語による減点(0)−関係による減点(単語間距離1単語なので0.1))=0.9となる。   For example, in the document 1 in FIG. 15B, the word “image” and the word “print” are included, and ““ image ”is related to“ print ”” and ““ high speed ”is“ It is shown that “it is related to“ printing ”. Here, “the“ image ”is related to“ print ”” ”is similar between the query in FIG. 15A and the document 1 in FIG. Therefore, the document 1 has a similarity degree including similar phrases (= 1−a deduction by a word (0) −a deduction by a relationship (because the distance between words is 0.1)) = 0.9.

次に図15(C)の文書2の場合は、単語「画像」と単語「印刷する」が含まれている点は共通しているが、「画像」が「読み込む」に係っており、「印刷する」が「文書」に係っているため、類似度は(=1−単語による減点(0)−関係による減点(係り先が違う0.5))=0.5となる。   Next, in the case of the document 2 in FIG. 15C, the word “image” and the word “print” are common, but the “image” is related to “reading”. Since “print” is related to “document”, the similarity is (= 1−deduction by word (0) −reduction by relationship (0.5 with different relationship)) = 0.5.

従って、類似度の大きい図15(B)に示した文書1が検索結果となって表示部2に表示されることになる。   Accordingly, the document 1 shown in FIG. 15B having a high similarity is displayed on the display unit 2 as a search result.

図19は、前述のクエリー「日本の経済における金利の影響について」に基づく検索処理をフレーズ検索により行った場合の検索結果の表示例を示す図である。尚、図19において、(1)〜(3)の検索結果は「日本経済」が含まれているため実質的に同じ類似度であるが、より現在(平成16年度)に近い時期の順に順番をつけている。   FIG. 19 is a diagram showing a display example of a search result when a search process based on the above-described query “About the effect of interest rates in the Japanese economy” is performed by a phrase search. In FIG. 19, the search results of (1) to (3) have substantially the same similarity because “Japan economy” is included, but in order of the time closer to the present time (2004). Is attached.

2.概念検索
次に、図10の検索処理(ステップS75)に概念検索を適用した場合の詳細について、図12のフローチャートを参照して説明する。
2. Concept Search Next, the details when the concept search is applied to the search processing (step S75) in FIG. 10 will be described with reference to the flowchart in FIG.

まずステップS91のクエリー言語処理の結果を取得し、そのクエリーに含まれる単語を取得する。次にステップS92のクエリーベクトル生成処理では、文書ベクトル生成と同様に、基本ベクトル辞書によりクエリーのベクトルを生成する。そしてステップS93の類似度の算出処理では、クエリーの特徴ベクトルと、それぞれの文書ベクトルの類似度を算出する。   First, the result of the query language processing in step S91 is acquired, and words included in the query are acquired. Next, in the query vector generation processing in step S92, a query vector is generated by the basic vector dictionary, as in the case of document vector generation. In the similarity calculation process in step S93, the query feature vector and the similarity of each document vector are calculated.

図20は、前述のクエリー「日本の経済における金利の影響について」に基づく検索処理を概念検索により行った場合の検索結果の表示例を示す図である。   FIG. 20 is a diagram showing a display example of a search result when the search process based on the above-described query “About the influence of interest rates in the Japanese economy” is performed by concept search.

このように本実施の形態1によれば、目的の文書やアノテーション付きの画像等の情報を検索する際に、入力されたクエリーを言語解析し、その解析結果(構文情報など)から、どの検索モードを適用するかを判定し、その判定した検索モードを選択して実行する。これにより、ユーザが検索モードを選択することなく、よりノイズの少ない精度の高い検索結果が自動的に得られる。よって、目的の情報を効果的に検索することができる。   As described above, according to the first embodiment, when searching for information such as a target document or an annotated image, the input query is subjected to linguistic analysis, and which search is performed from the analysis result (syntax information, etc.). It is determined whether to apply the mode, and the determined search mode is selected and executed. As a result, a highly accurate search result with less noise is automatically obtained without the user selecting a search mode. Therefore, the target information can be searched effectively.

[実施の形態2]
図16は、本発明の実施の形態2に係る検索手順を示すフローチャートである。
[Embodiment 2]
FIG. 16 is a flowchart showing a search procedure according to the second embodiment of the present invention.

まずステップS101で、入力部3により入力されたクエリーを取得し、次にステップS102で、その取得したクエリーの言語解析を行う。更にステップS103で、そのクエリーの言語解析の結果を基にクエリーをカテゴリに分類する。この分類の結果、検索する対象を決定し、その決定した検索対象を検索する(ステップS4)。ここで検索対象が「A」の場合はステップS105で、その検索対象(カテゴリA)を検索し、検索対象が「B」の場合はステップS106で、その検索対象(カテゴリB)を検索する。こうしてステップS105の検索ステップとステップS106の検索ステップの検索結果リストを表示部4に類似度の高い順に一覧表示する(ステップS107)。   First, in step S101, a query input by the input unit 3 is acquired. Next, in step S102, language analysis of the acquired query is performed. In step S103, the query is classified into categories based on the result of language analysis of the query. As a result of this classification, a search target is determined, and the determined search target is searched (step S4). If the search target is “A”, the search target (category A) is searched in step S105. If the search target is “B”, the search target (category B) is searched in step S106. In this way, the search result list of the search step of step S105 and the search result list of step S106 is displayed as a list in descending order of similarity on the display unit 4 (step S107).

次に図16の検索手順を示すフローチャートをデータに沿って流れを説明する。   Next, the flow of the flowchart showing the search procedure of FIG. 16 will be described along the data.

図17は、7つのカテゴリに分類された複数の文書が記憶部2に蓄積されている状態を示している。ここでは「政治」「世界経済」「日本経済」「環境」「国際」「スポーツ」「娯楽」の7つのカテゴリが含まれている。   FIG. 17 shows a state where a plurality of documents classified into seven categories are accumulated in the storage unit 2. Here, seven categories of “politics”, “world economy”, “Japanese economy”, “environment”, “international”, “sports”, and “entertainment” are included.

まずステップS101で、画面を使用して入力部3によりクエリー「世界経済における日本経済の影響について」を取得し、次にステップS102で、その取得したクエリーの言語解析を行う。「世界」「経済」「における」「日本」「経済」「の」「影響」「について」、更に、そのクエリーの言語解析の結果を基に、検索対象の登録文書の分類と同様な手法でクエリーベクトルを生成し、各カテゴリと比較し、「世界経済」と「日本経済」の2つのカテゴリに分類する(ステップS103)。この分類の結果、検索する対象を「世界経済」「日本経済」のカテゴリに決定する(ステップS104)。次にステップS105で、こうして決定した「世界経済」カテゴリのみを検索対象として検索する。またステップS106では、決定した「日本経済」カテゴリのみを検索対象として検索する。こうしてステップS105とステップS106の検索ステップの検索結果リストを図14のように表示部4に類似度の高い順に一覧表示する(ステップS107)。ここでは2つの分類カテゴリに分類された例を記述したが、2つに限定されるものではない。   First, in step S101, the query “about the influence of the Japanese economy in the world economy” is acquired by the input unit 3 using the screen, and then in step S102, the acquired query is subjected to language analysis. “World” “Economy” “In” “Japan” “Economy” “No” “Impact” “About”, and based on the results of linguistic analysis of the query, the same method as the classification of registered documents to be searched A query vector is generated, compared with each category, and classified into two categories, “world economy” and “Japan economy” (step S103). As a result of this classification, the search target is determined to be the category of “world economy” and “Japanese economy” (step S104). In step S105, only the “world economy” category thus determined is searched as a search target. In step S106, only the determined “Japan economy” category is searched as a search target. In this way, the search result list of the search step of step S105 and step S106 is displayed as a list in descending order of similarity on the display unit 4 as shown in FIG. 14 (step S107). Although the example classified into two classification categories was described here, it is not limited to two.

[実施の形態3]
図18は、本発明の実施の形態3に係る情報検索手順を示すフローチャートである。
[Embodiment 3]
FIG. 18 is a flowchart showing an information search procedure according to Embodiment 3 of the present invention.

まずステップS111で、入力部3により入力されるクエリーを取得する。次にステップS112で、その取得したクエリーの言語解析を行う。そしてステップS113で、検索対象が「A」(ここでは、所定のカテゴリの文書を管理しているサーバA)に指定されるとステップS114で、その指定された1つの検索対象のカテゴリに分類するために、ステップS112で取得したクエリーの言語解析の結果を基にクエリーを分類する。次にステップS115で。ステップS114の分類の結果に基づいて検索する。   First, in step S111, a query input by the input unit 3 is acquired. Next, in step S112, language analysis of the acquired query is performed. In step S113, when the search target is designated as “A” (here, server A managing documents of a predetermined category), in step S114, the search target is classified into one designated search target category. Therefore, the query is classified based on the result of the language analysis of the query acquired in step S112. Next, in step S115. Search is performed based on the classification result of step S114.

一方、ステップS113で、検索対象が「B」(ここでは、所定のカテゴリの文書を管理しているサーバB)に指定されるとステップS116に進み、ステップS112のクエリーの言語解析の結果を基に分類する。次にステップS117で検索する。こうしてステップS118では、ステップS115の検索処理と、ステップS117の検索処理による検索結果リストを表示部4に、類似度の大きい順に一覧表示する。   On the other hand, when the search target is designated as “B” (here, the server B that manages the document of the predetermined category) in step S113, the process proceeds to step S116, and the result of the language analysis of the query in step S112 is performed. Classify into: Next, a search is performed in step S117. In this way, in step S118, the search process list in step S115 and the search result list obtained by the search process in step S117 are displayed on the display unit 4 in a descending order of similarity.

次に図18の情報検索手順を示すフローチャートを図9などのデータに沿って流れを説明する。   Next, the flow of the information search procedure of FIG. 18 will be described along the data of FIG.

図9のように「政治」「経済」「環境」「スポーツ」の4つのカテゴリに分類された複数の文書が記憶部2に格納されているサーバAと、図17のように「政治」「世界経済」「日本経済」「環境」「国際」「スポーツ」「娯楽」の7つのカテゴリに分類された複数の文書が記憶部2に蓄積されているサーバBのように、複数のサーバにそれぞれ異なるカテゴリに分類されている複数の文書を検索する。   As shown in FIG. 9, a server A in which a plurality of documents classified into four categories of “politics”, “economy”, “environment”, and “sports” are stored in the storage unit 2, and “politics” “ A plurality of servers such as server B in which a plurality of documents classified into the seven categories of “world economy”, “Japanese economy”, “environment”, “international”, “sports”, and “entertainment” are stored in the storage unit 2 respectively Search for multiple documents that are classified into different categories.

まず入力部3からクエリー「世界経済における日本経済の影響について」を入力し(ステップS111)、次にステップS112で、その取得したクエリーの言語解析を行う。次にステップS113で、指定された検索対象のサーバを判定する。ここではサーバAとサーバBを検索対象とする。ステップS114では、ステップS113でサーバAが指定された場合で、サーバAの分類カテゴリ(4種類)への分類するために、ステップS112で取得したクエリーの言語解析の結果「日本」「経済」「における」「金利」「の」「影響」「について」を基に、サーバAで登録文書の分類と同様な手法でクエリーベクトルを生成し、サーバAの各カテゴリと比較し、そのクエリーを「経済」のカテゴリに分類する。こうしてステップS115で、その決定した「経済」カテゴリを検索対象として検索する(ステップS115)。   First, a query “Regarding the impact of the Japanese economy on the global economy” is input from the input unit 3 (step S111), and then in step S112, the acquired query is subjected to language analysis. Next, in step S113, the designated search target server is determined. Here, server A and server B are search targets. In step S114, when server A is designated in step S113, the result of language analysis of the query acquired in step S112 in order to classify server A into the classification categories (four types) “Japan” “Economy” “ Based on "", "interest rate", "no", "impact", and "about", a query vector is generated by server A in the same manner as the classification of registered documents, and is compared with each category of server A. ”Category. In step S115, the determined “economy” category is searched for as a search target (step S115).

またサーバBに対して分類カテゴリ(7種類)へ分類する場合はステップS116で、ステップS112で取得したクエリーの言語解析の結果、「日本」「経済」「における」「金利」「の」「影響」「について」を基に、サーバBの登録文書の分類と同様な手法でクエリーベクトルを生成する。このクエリーベクトルとサーバBの登録文書の各カテゴリと比較し、「日本経済」のカテゴリに分類する。次にステップS117で、この決定した「日本経済」カテゴリを検索対象として検索する。こうしてステップS115の検索処理と、ステップS117の検索処理の結果をマージし、その検索結果リストを図14のように表示部4に、その類似度の高い順に一覧表示する(ステップS118)。   When the server B is classified into the classification categories (seven types), in step S116, as a result of the linguistic analysis of the query acquired in step S112, "Japan" "Economy" "In" "Interest rate" "No" "Influence" Based on “about”, a query vector is generated in the same manner as the classification of the registered document of the server B. The query vector is compared with each category of the registered document of the server B, and is classified into the category “Japanese economy”. In step S117, the determined “Japanese economy” category is searched as a search target. In this way, the search process of step S115 and the search process result of step S117 are merged, and the search result list is displayed as a list in descending order of similarity on the display unit 4 as shown in FIG. 14 (step S118).

尚、この実施の形態3では。2つのサーバA,Bの場合で説明したが、本発明は2台に限定するものではなく、1つ又は複数のサーバの場合にも適用可能である。また、それぞれのサーバで異なる分類手法を適用しても良い。   In this third embodiment. Although the case of two servers A and B has been described, the present invention is not limited to two, but can be applied to the case of one or a plurality of servers. Different classification methods may be applied to each server.

[実施の形態4]
図21は、本発明の実施の形態4に係る情報処理装置の概略構成を表すブロック図で、前述の図1の構成と共通する部分は同じ記号で示し、それらの説明を省略する。
[Embodiment 4]
FIG. 21 is a block diagram showing a schematic configuration of the information processing apparatus according to Embodiment 4 of the present invention. Portions that are common to the configuration of FIG.

図において、出力部103は前述の表示部4やプリンタなどの印刷部などを含む。キーボードやファイル等の入力部3から入力された登録用の文書は、メモリやハードディスクなどの記憶部2に展開された検索処理プログラム111や分類処理プログラム112により、CPU1で処理されて記憶部2に登録される。分類処理プログラム112は、その登録用の文書の中からキーワードを抽出し、その抽出したキーワードを基に分類処理を実行し、その文書の分類情報を生成する。検索処理プログラム111は、クエリー文書の中からキーワードを抽出し、同じく記憶部2に記憶されている検索用索引データ113に登録する。   In the figure, the output unit 103 includes the display unit 4 and a printing unit such as a printer. A registration document input from the input unit 3 such as a keyboard or a file is processed by the CPU 1 and stored in the storage unit 2 by the search processing program 111 and the classification processing program 112 developed in the storage unit 2 such as a memory or a hard disk. be registered. The classification processing program 112 extracts keywords from the registration document, executes classification processing based on the extracted keywords, and generates classification information of the document. The search processing program 111 extracts keywords from the query document and registers them in the search index data 113 that is also stored in the storage unit 2.

文書の検索時、キーボードなどの入力部3から入力された検索条件から検索処理プログラム111によって検索条件となる単語を抽出する。その検索条件によって展開単語辞書データ114を取得して検索が実行される。この検索処理プログラム111は、検索条件から検索キーワードを抽出し、単語情報を見出しとし、文書の情報や文書に含まれる単語の特徴を格納した検索用索引データ113から、入力された検索条件に合う文書を取得する。そして、その検索条件に対する類似性の付与や最終的な結果とするかどうかを判断し、その結果をディスプレイなどの出力部103に出力する。   When searching for a document, the search processing program 111 extracts words that serve as search conditions from search conditions input from the input unit 3 such as a keyboard. The expanded word dictionary data 114 is acquired according to the search condition, and the search is executed. The search processing program 111 extracts a search keyword from the search condition, uses the word information as a headline, and matches the input search condition from the search index data 113 storing the document information and the characteristics of the word included in the document. Get the document. Then, it is determined whether similarity is given to the search condition or whether it is a final result, and the result is output to the output unit 103 such as a display.

また本実施の形態の動作環境は、単体のコンピュータ以外にも、ローカルなネットワーク環境、或はインターネット環境にも対応することができる。   Further, the operating environment of this embodiment can correspond to a local network environment or an Internet environment in addition to a single computer.

図22は、本発明の実施の形態4に係る情報処理装置における文書登録時の動作を示すフローチャートである。   FIG. 22 is a flowchart showing an operation at the time of document registration in the information processing apparatus according to the fourth embodiment of the present invention.

まずステップS121で、入力された文書に対して文書解析処理を行なう。この文書解析処理では、形態素解析などの処理によって文書を単語単位に切り分ける。例えば、文書1として「本国会で家庭内暴力に関する法案が成立する見込み。」を形態素解析を行なって単語単位に分割する。その結果、次のように分割される。「本(接尾辞)/国会(名詞)/で(助詞)/家庭内暴力(名詞)/に(助詞)/関する(動詞)/法案(名詞)/が(助詞)/成立する(動詞)/見込み(名詞)/。」
次にステップS122で、その解析された文書から検索処理や分類処理で必要な単語を抽出する。本実施の形態4では、品詞が「名詞」「動詞」「形容詞」「形容動詞」の単語をキーワードとして抽出する。従って、「国会」「家庭内暴力」「関する」「法案」「成立」「見込み」をキーワードとして抽出する。
First, in step S121, document analysis processing is performed on the input document. In this document analysis process, a document is divided into units of words by processing such as morphological analysis. For example, a morphological analysis is performed on document 1 as “Prospects for domestic violence is expected to be enacted in the National Diet” and divided into words. As a result, it is divided as follows. "Book (suffix) / Diet (noun) / De (particle) / Domestic violence (noun) / Ni (particle) / Related (verb) / Bill (noun) / Ga (particle) / Established (verb) / Prospect (noun) /. "
In step S122, words necessary for search processing and classification processing are extracted from the analyzed document. In the fourth embodiment, the words whose part of speech is “noun”, “verb”, “adjective”, and “adjective verb” are extracted as keywords. Accordingly, “National Diet”, “Home Violence”, “Regarding”, “Bill”, “Establishment”, and “Prospect” are extracted as keywords.

次にステップS123では、この文書をカテゴリ分類した分類情報を作成する。   In step S123, classification information is created by categorizing the document.

図23は、カテゴリ別の高頻度キーワード情報の一例を示す図である。   FIG. 23 is a diagram illustrating an example of high-frequency keyword information for each category.

この分類別の高頻度キーワード情報を参照して、文書内のキーワードの使用状況などを考慮し、文書に対して分類情報を付加する。ここでは「国会」「法案」「成立」などは、[政治]というカテゴリに多く出現する単語であることがわかる。そのため、文書1は、カテゴリ[政治]に分類される。   The high-frequency keyword information for each classification is referred to, and the classification information is added to the document in consideration of the usage status of keywords in the document. Here, it is understood that “National Diet”, “Bill”, “Established”, etc. are words that frequently appear in the category of “politics”. Therefore, the document 1 is classified into the category [politics].

次にステップS124で、検索用のインデックスデータを作成する。この検索用のインデックスデータとして最低限必要な情報は、データの検索時に見出しとなる表記文字列の情報と、その文字列が出現した文書の情報である。   In step S124, search index data is created. The minimum information necessary as index data for this search is notation character string information that becomes a headline when searching for data and information on a document in which the character string appears.

図24は、本実施の形態4に係る文書1(カテゴリ「政治」)の検索用インデックスの一例を示す図である。   FIG. 24 is a diagram showing an example of a search index for document 1 (category “politics”) according to the fourth embodiment.

ここではステップS122で抽出したキーワードを見出し文字列とし、出現文書IDとして登録した文書である「文書1」を格納する。次にステップS125で、文書と分類情報とをリンクして格納する(図25参照)。ここでは、文書IDと、ステップS123で生成した分類情報とをリンクし、文書分類データとして格納する。   Here, the keyword extracted in step S122 is used as a heading character string, and “document 1” which is a document registered as an appearance document ID is stored. In step S125, the document and classification information are linked and stored (see FIG. 25). Here, the document ID and the classification information generated in step S123 are linked and stored as document classification data.

図25は、この文書分類データの一例を示す図である。   FIG. 25 is a diagram showing an example of this document classification data.

ここでは文書を特定する文書IDと、その分類情報を格納する。ここでは前述したように「文書1」は、「政治」に分類されているため、文書IDには「文書1」が、その分類情報には「政治」が格納されている。   Here, the document ID for identifying the document and its classification information are stored. Here, as described above, “Document 1” is classified as “Politics”, so “Document 1” is stored in the document ID, and “Politics” is stored in the classification information.

以上の処理によって、「文書1」の登録処理が終了する。   With the above processing, the registration processing of “Document 1” is completed.

複数の文書を登録する場合には、前述のステップS121〜S125の処理を、その文書の数に対応する回数繰り返す。本実施の形態4では、図26に示す「文書1」〜「文書5」を登録する。   When registering a plurality of documents, the processes in steps S121 to S125 described above are repeated a number of times corresponding to the number of documents. In the fourth embodiment, “Document 1” to “Document 5” shown in FIG. 26 are registered.

その結果、図27に示す検索用インデックスデータと図28に示す文書分類データとを作成できる。   As a result, the search index data shown in FIG. 27 and the document classification data shown in FIG. 28 can be created.

図27は、図26に示す各文書に含まれる見出し文字列の抽出例を示す図である。   FIG. 27 is a diagram illustrating an example of extraction of a heading character string included in each document illustrated in FIG.

図28は、これら見出し文字列に基づいて分類された各文書に対応する分類情報の一例を示す図である。   FIG. 28 is a diagram showing an example of classification information corresponding to each document classified based on these heading character strings.

次に本発明の実施の形態4に係る情報処理装置による検索処理について説明する。   Next, search processing by the information processing apparatus according to Embodiment 4 of the present invention will be described.

図29は、本実施の形態4に係る情報処理装置による検索処理を説明するフローチャートで、この処理を実行するプログラムは記憶部2に記憶されて実行される。   FIG. 29 is a flowchart for explaining search processing by the information processing apparatus according to the fourth embodiment. A program for executing this processing is stored in the storage unit 2 and executed.

まずステップS131で、入力部3から検索条件(クエリー)を入力する。ここでは検索条件を自然文或は論理式で入力する。本実施の形態4では自然文で、「家庭内暴力の問題」と入力した場合で説明する。次にステップS132で、そのクエリーに含まれるキーワードを抽出する。ここではステップS131で入力した検索条件(クエリー)に対して、形態素解析などの文字切り処理を行ない、検索の際のキーワードとなる文字列(単語)を抽出する。ここでは検索条件である自然文「家庭内暴力の問題」は次のように単語切りされる。   First, in step S131, a search condition (query) is input from the input unit 3. Here, the search condition is input as a natural sentence or a logical expression. In the fourth embodiment, a description will be given in the case where “natural violence” is input in a natural sentence. In step S132, keywords included in the query are extracted. Here, character cutting processing such as morphological analysis is performed on the search condition (query) input in step S131 to extract a character string (word) that becomes a keyword in the search. Here, the natural sentence “problem of domestic violence” as a search condition is cut into words as follows.

「家庭内暴力(名詞)/の(助詞)/問題(名詞)」
こうして切り出された文字列から、登録時のキーワードの条件、即ち品詞が名詞、動詞、形容詞、形容動詞の単語をキーワードとする。従って、「家庭内暴力」と「問題」がキーワードとして抽出される。
"Home violence (noun) / no (particle) / problem (noun)"
From the character string thus cut out, a keyword condition at the time of registration, that is, a word whose part of speech is a noun, a verb, an adjective, or an adjective verb is used as a keyword. Accordingly, “domestic violence” and “problem” are extracted as keywords.

次にステップS133で、キーワードの展開が指定されているかどうかを判定する。キーワードの展開が指定されていない場合は、その取得したキーワードをそのまま検索条件としてステップS136に進む。一方、キーワード展開が指定されている場合はステップS134に進み、そのキーワードを、単語展開辞書114を参照して展開する。   In step S133, it is determined whether keyword expansion is designated. If keyword expansion is not designated, the process proceeds to step S136 using the acquired keyword as it is as a search condition. On the other hand, if keyword expansion is designated, the process proceeds to step S134, and the keyword is expanded with reference to the word expansion dictionary 114.

図30は、本実施の形態4で使用する展開辞書114の内容の一部の一例を示す図である。   FIG. 30 is a diagram illustrating an example of a part of the contents of the expansion dictionary 114 used in the fourth embodiment.

図において、例えば展開対象語が「問題」は、「トラブル」と「課題」に展開されることがわかる。また対象語が「DV」の場合は、「デジタルビデオ」、「ドメスティックバイオレンス」、「家庭内暴力」の展開語があるが、これらの展開語には制限がついている。例えば「デジタルビデオ」は「デジタルビデオ(産業)」とあり、()内の「産業」は展開分類を指定するための情報である。これにより、この「デジタルビデオ」は、検索対象となる文書の分類情報(カテゴリ)が「産業」であった場合にのみ有効になり、それ以外の分類情報(カテゴリ)では無効になることを表わしている。同様に「ドメスティックバイオレンス」「家庭内暴力」には、「政治・社会」が付与されている。従って、これら「ドメスティックバイオレンス」「家庭内暴力」は、検索対象の文書の分類情報が「政治」もしくは「社会」の場合にのみ有効になる。   In the figure, it can be seen that, for example, the expansion target word “problem” is expanded into “trouble” and “problem”. In addition, when the target word is “DV”, there are expanded words of “digital video”, “domestic violence”, and “domestic violence”, but these expanded words are restricted. For example, “digital video” is “digital video (industry)”, and “industry” in parentheses is information for designating a development category. As a result, this “digital video” is valid only when the classification information (category) of the document to be searched is “industry”, and is invalid for other classification information (category). ing. Similarly, “domestic violence” and “domestic violence” are given “politics and society”. Therefore, “domestic violence” and “domestic violence” are effective only when the classification information of the document to be searched is “politics” or “society”.

尚、例えば、「家庭内暴力」だけを「文化」という分類情報に対しても有効にしたい場合には、「家庭内暴力(政治・文化・社会)」とすれば良い。これにより、「家庭内暴力」は、検索対象の文書の分類情報が「政治」「文化」「社会」のときにも有効になる。また、検索対象の文書の分類情報に依存しない一般的な展開語には、これらの分類情報が付与されていない(「トラブル」「問題」「課題」など)
本実施の形態4に係るキーワードは、「家庭内暴力」と「問題」であるので、展開辞書114を検索して、「家庭内暴力」は「DV(政治・社会)」「デジタルビデオ(産業)」「ドメスティックバイオレンス((政治・社会))に展開される。同様に「問題」は「トラブル」「課題」に展開される。
For example, when it is desired to make only “domestic violence” effective for the classification information “culture”, it may be “domestic violence (politics / culture / society)”. Thereby, “domestic violence” is also effective when the classification information of the document to be searched is “politics”, “culture”, and “society”. In addition, general expansion words that do not depend on the classification information of the document to be searched are not given such classification information (such as “trouble”, “problem”, “issue”).
Since the keywords according to the fourth embodiment are “domestic violence” and “problem”, the expansion dictionary 114 is searched, and “domestic violence” is “DV (politics / society)” “digital video (industry)” ) ”“ Domestic violence ((politics / society)). Similarly, “problem” is developed into “trouble” and “issue”.

次にステップS135で、こうして展開した展開語を取得して検索条件を作成する。即ち、展開前の検索条件である「家庭内暴力」と「問題」は、「家庭内暴力orDV(政治・社会)orドメスティックバイオレンス(政治・社会)」と「問題orトラブルor課題」という検索条件になる。ここで「or」は、択一条件「又は」を示す。   Next, in step S135, the expanded word thus expanded is acquired and a search condition is created. In other words, the search conditions “family violence” and “problem” that are search conditions before deployment are the search conditions “domestic violence or DV (politics and society) or domestic violence (politics and society)” and “problem or trouble or problem”. become. Here, “or” indicates an alternative condition “or”.

こうして検索に使用されるキーワードが決定されると、次にステップS136で、検索用インデックスを用いた検索処理を実行する。   When the keyword used for the search is determined in this way, a search process using the search index is executed in step S136.

本実施の形態4では、文書1から文書5に登録されている検索用インデックスデータ(図27)を検索する場合で説明する。検索用インデックスデータをステップS135で作成された検索条件で検索し、以下のような情報を取得することができる。   In the fourth embodiment, a case will be described where search index data (FIG. 27) registered in documents 1 to 5 is searched. The search index data can be searched using the search conditions created in step S135, and the following information can be acquired.

家庭内暴力 文書1
ドメスティックバイオレンス(政治・社会) 文書3
DV(政治・社会) 文書2、文書5
問題 文書2、文書5
トラブル、課題 検索結果無し。
Domestic violence Document 1
Domestic Violence (Politics / Society) Document 3
DV (Politics / Society) Document 2, Document 5
Problem Document 2, Document 5
Trouble, problem No search results.

こうして「家庭内暴力」では、文書1、文書2、文書3、文書5が検索結果の候補となり、「問題」では、文書2と文書5が検索結果の候補となる。   Thus, in “domestic violence”, document 1, document 2, document 3, and document 5 are search result candidates, and in “problem”, document 2 and document 5 are search result candidates.

ステップS137では、更に図28の文書分類データを参照して、ステップS136で得られた結果候補から検索結果を作成する。ここでは「家庭内暴力」と「問題」は、キーワードであるため全ての分類に対して有効である。よって、ステップS136での検索結果候補を、そのまま最終の検索結果とすることができる。   In step S137, referring to the document classification data in FIG. 28, a search result is created from the result candidate obtained in step S136. Here, “domestic violence” and “problem” are keywords and are effective for all categories. Therefore, the search result candidate in step S136 can be used as the final search result as it is.

一方、「ドメスティックバイオレンス(政治・社会)」に対しては、文書3が検索結果の候補である。この検索語は、図30の展開辞書から、文書の分類情報が「政治」と「社会」のときにのみ有効な展開語となっている。そこで図28の文書の分類情報を参照すると、文書3の分類情報は「社会」となっているため、文書3の検索結果は有効であると判断できる。   On the other hand, for “domestic violence (politics / society)”, document 3 is a candidate for a search result. This search word is an expanded word that is effective only when the document classification information is “politics” and “society” from the expanded dictionary of FIG. Therefore, referring to the classification information of the document in FIG. 28, the classification information of the document 3 is “society”, so that the search result of the document 3 can be determined to be valid.

次に「DV(政治・社会)」に対しては、文書2と文書5の検索結果候補が存在している。展開語である「DV」が有功となる分類情報は、「社会」と「政治」である。ここで図28の文書の分類情報を参照すると、文書2の分類は「社会」であるため、検索結果として有効である。一方、文書5の分類は「産業」であるため、文書5は、この展開語である「DV」の候補とはなり得ないことが分かる。   Next, for "DV (politics / society)", there are search result candidates for document 2 and document 5. The classification information for which the expanded word “DV” is effective is “society” and “politics”. Here, referring to the document classification information of FIG. 28, the classification of the document 2 is “society”, and therefore, it is effective as a search result. On the other hand, since the classification of the document 5 is “industry”, it can be seen that the document 5 cannot be a candidate for the expanded word “DV”.

このようにして、「家庭内暴力」の検索結果として、文書1、文書2、文書3が抽出され、「問題」の検索結果として文書2と文書5が抽出される。こうして検索条件が「家庭内暴力の問題」のとき、その検索結果として文書2を出力できるようになる。   In this way, Document 1, Document 2, and Document 3 are extracted as search results for “domestic violence”, and Document 2 and Document 5 are extracted as search results for “Problem”. Thus, when the search condition is “problem of domestic violence”, the document 2 can be output as the search result.

また、スコア情報を持たせることにより、他の検索候補を捨てること無く、低いスコアの検索結果も出力できる。また例えば、文書2>文書1、文書3、文書5というように、スコア順に検索結果を出力するようにしても良い。   Further, by providing score information, a search result with a low score can be output without discarding other search candidates. Also, for example, the search results may be output in the order of score, such as document 2> document 1, document 3, document 5.

[実施の形態5]
前述の実施の形態4の検索用インデックスデータを使用して、この実施の形態5の説明をする。前述の実施の形態4では、「家庭内暴力」に対して「DV」を適用することができた。しかし、「DV」を入力したときに、「家庭内暴力(政治・社会)」と「デジタルカメラ(産業)」の展開語の適用を制御することは難しい。
[Embodiment 5]
The fifth embodiment will be described using the search index data of the fourth embodiment described above. In the above-described fourth embodiment, “DV” can be applied to “domestic violence”. However, when “DV” is input, it is difficult to control the application of the expanded words “domestic violence (politics and society)” and “digital camera (industry)”.

そこで本実施の形態5では、検索条件に対して分類処理を行ない、検索の意図がどこにあるのか判断して検索処理を行なう。ここでは検索条件として「DVの社会問題化」という文字列が入力された場合について説明する。   Therefore, in the fifth embodiment, classification processing is performed on the search condition, and the search processing is performed by determining where the search intention is. Here, a case where a character string “DV social problem” is input as a search condition will be described.

まず入力された検索条件からキーワードを取得する。即ち、「DV」「社会」「問題」をキーワードとする。次に、こうして抽出したキーワードを基に分類処理を行なう。   First, keywords are acquired from the input search conditions. That is, “DV”, “society”, and “problem” are keywords. Next, classification processing is performed based on the keywords thus extracted.

図23に示す文類別の高頻度キーワード情報を参照して、検索条件に対する分類情報を生成する。本実施の形態5では、検索条件に対して「社会」という分類を付けることができる。   The classification information for the search condition is generated with reference to the high frequency keyword information for each sentence shown in FIG. In the fifth embodiment, the classification “society” can be attached to the search condition.

次に抽出したキーワードを検索用のキーワードとして検索処理を行なう。ここでキーワードの展開指示があった場合、前述の実施の形態4のステップS134と同様にして検索キーワードの展開を行なう。ここで「DV」の展開語には、図30に示すように、「デジタルビデオ(産業)」「ドメスティックバイオレンス(政治・社会)」「家庭内暴力(政治・社会)」の展開語が存在することが分かる。   Next, search processing is performed using the extracted keywords as search keywords. If there is a keyword expansion instruction, the search keyword is expanded in the same manner as in step S134 in the fourth embodiment. Here, as shown in FIG. 30, the expanded words of “DV” include the expanded words of “digital video (industry)”, “domestic violence (politics / society)” and “home violence (politics / society)”. I understand that.

次に検索キーワードと検索キーワードの展開語によって、図24に示す検索用インデックスデータを参照して、一致する文書情報を取得する。   Next, by referring to the search index data shown in FIG. 24 according to the search keyword and the expanded word of the search keyword, the matching document information is acquired.

本実施の形態5の検索条件は、「社会」に分類される検索条件であるので、「社会」の分類情報を持つ検索キーワードを重要展開語として優先する。そのため、優先度は「DV」=「ドメスティックバイオレンス」=「家庭内暴力」>「デジタルビデオ」の関係が成立する。従って、検索した文書の重要度は、文書1=文書2=文書3=文書5>文書4ととなる。   Since the search condition of the fifth embodiment is a search condition classified as “society”, priority is given to a search keyword having classification information of “society” as an important expansion word. Therefore, the priority “DV” = “domestic violence” = “domestic violence”> “digital video” is established. Therefore, the importance of the retrieved document is document 1 = document 2 = document 3 = document 5> document 4.

更に、ここで使用されている「DV」は、「社会」という分類に属する単語であることが予想できる。よって、図28の文書分類データを参照して、「DV」が「社会」という分類情報を持つ文書の検索結果を優先する。その結果、文書1=文書2=文書3>文書5>文書4となる。最後に、検索条件の分類情報と文書の分類情報が一致する文書を優先することで、文書2=文書3=文書1>文書5>文書4という検索結果を得ることができる。   Furthermore, “DV” used here can be expected to be a word belonging to the classification “society”. Therefore, with reference to the document classification data of FIG. 28, priority is given to the retrieval result of the document having classification information “DV” is “Society”. As a result, document 1 = document 2 = document 3> document 5> document 4 is obtained. Finally, by giving priority to a document whose search condition classification information and document classification information match, a search result of document 2 = document 3 = document 1> document 5> document 4 can be obtained.

以上説明したように本実施の形態5によれば、検索条件に、その検索語が含まれる文書の分類情報(カテゴリ)を含ませることにより、その検索語が含まれる文書が複数存在するような場合であっても、検索した文書に一致度の順位を付けて表示することが可能になる。   As described above, according to the fifth embodiment, by including the classification information (category) of the document including the search word in the search condition, there are a plurality of documents including the search word. Even in such a case, it is possible to display the retrieved documents with the degree of matching ranking.

以上説明したように本実施の形態4,5によれば、分類情報を使用することによって、検索語の多義性により誤った文書が検索されたり、或は検索すべき文書が検索からもれるなどの不具合を解決できる。これにより検索精度の向上を図ることができる。   As described above, according to the fourth and fifth embodiments, by using the classification information, an erroneous document is searched for due to the ambiguity of the search word, or a document to be searched can be retrieved. Can solve the problem. As a result, the search accuracy can be improved.

また本発明は、上述した実施の形態の装置に限定されず、複数の機器から構成されるシステムに適用しても、1つの機器から成る装置に適用してもよい。前述した実施形態の機能を実現するソフトウェアのプログラムコードを記憶した記憶媒体をシステムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(又はCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出し実行することによっても、完成されることは言うまでもない。   The present invention is not limited to the apparatus of the above-described embodiment, and may be applied to a system constituted by a plurality of devices or an apparatus constituted by one device. A storage medium storing software program codes for realizing the functions of the above-described embodiments is supplied to a system or apparatus, and a computer (or CPU or MPU) of the system or apparatus reads and executes the program codes stored in the storage medium. Needless to say, it will be completed by doing.

この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。プログラムコードを供給するための記憶媒体としては、例えば、フロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、磁気テープ、不揮発性のメモリカード、ROMを用いることができる。また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけではなく、そのプログラムコードの指示に基づき、コンピュータ上で稼動しているOSなどが実際の処理の一部又は全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。   In this case, the program code itself read from the storage medium realizes the functions of the above-described embodiments, and the storage medium storing the program code constitutes the present invention. As a storage medium for supplying the program code, for example, a floppy (registered trademark) disk, hard disk, optical disk, magneto-optical disk, CD-ROM, CD-R, magnetic tape, nonvolatile memory card, ROM is used. Can do. In addition, by executing the program code read by the computer, not only the functions of the above-described embodiments are realized, but also the OS running on the computer based on the instruction of the program code performs the actual processing. It goes without saying that a case where the functions of the above-described embodiment are realized by performing part or all of the processing, is also included.

さらに、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、次のプログラムコードの指示に基づき、その拡張機能を拡張ボードや拡張ユニットに備わるCPUなどが処理を行って実際の処理の一部又は全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
Furthermore, after the program code read from the storage medium is written to the memory provided in the function expansion board inserted in the computer or the function expansion unit connected to the computer, the program code is expanded based on the instruction of the next program code. It goes without saying that the functions of the embodiment described above are realized by performing some or all of the actual processing by the CPU or the like provided on the expansion board or expansion unit.

本発明の実施の形態に係る情報検索装置の概略構成を示すブロック図である。It is a block diagram which shows schematic structure of the information search device which concerns on embodiment of this invention. 実施の形態1に係る情報検索装置による文書等の自動分類登録処理を示すフローチャートである。4 is a flowchart illustrating automatic classification registration processing for documents and the like by the information search apparatus according to Embodiment 1; 本実施の形態に係る情報検索装置における、データベースに記憶された文書から単語を抽出して有効語かどうかを判定して登録する処理を説明するフローチャートである。It is a flowchart explaining the process which extracts the word from the document memorize | stored in the database, determines whether it is a valid word, and registers in the information search device which concerns on this Embodiment. 本実施の形態に係る情報検索装置における基底語の抽出処理を示すフローチャートである。It is a flowchart which shows the extraction process of the base word in the information search device which concerns on this Embodiment. 本実施の形態に係る情報検索装置におけるベクトル表現処理を説明するフローチャートである。It is a flowchart explaining the vector expression process in the information search device which concerns on this Embodiment. 本実施の形態に係る情報検索装置における概念検索登録処理のフローチャートである。It is a flowchart of the concept search registration process in the information search device concerning this embodiment. 本実施の形態に係る基本ベクトル辞書の構成を示す図である。It is a figure which shows the structure of the basic vector dictionary which concerns on this Embodiment. 本実施の形態に係る登録文書の文書ベクトルの一例を示す図である。It is a figure which shows an example of the document vector of the registration document which concerns on this Embodiment. 検索対象となる複数の文書が4つのカテゴリに分類されている例を示す図である。It is a figure which shows the example by which the some document used as search object is classified into four categories. 本実施の形態に係る情報検索装置における検索処理を説明するフローチャートである。It is a flowchart explaining the search process in the information search device which concerns on this Embodiment. 図10のステップS76における検索処理にフレーズ検索を適用した場合の詳細化したフローチャートである。It is the detailed flowchart at the time of applying a phrase search to the search process in step S76 of FIG. 図10のステップS75の検索処理に概念検索を適用した場合の詳細化したフローチャートである。It is the detailed flowchart when a concept search is applied to the search process of step S75 of FIG. クエリーの入力画面の表示例を示す図である。It is a figure which shows the example of a display of the input screen of a query. 本実施の形態に係る情報検索装置における検索結果を示す図である。It is a figure which shows the search result in the information search device which concerns on this Embodiment. クエリーの例を示す図である。It is a figure which shows the example of a query. 本発明の実施の形態2に係る情報検索手順を示すフローチャートである。It is a flowchart which shows the information search procedure which concerns on Embodiment 2 of this invention. 7つのカテゴリに分類された複数の文書が記憶部に格納蓄積されている状態を示す図である。It is a figure which shows the state by which the some document classified into seven categories is stored and accumulate | stored in the memory | storage part. 本発明の実施の形態3に係る情報検索手順を示すフローチャートである。It is a flowchart which shows the information search procedure which concerns on Embodiment 3 of this invention. クエリー「日本の経済における金利の影響について」に基づく検索処理をフレーズ検索により行った場合の検索結果の表示例を示す図である。It is a figure which shows the example of a display of a search result at the time of performing the search process based on query "About the influence of the interest rate in the Japanese economy" by a phrase search. クエリー「日本の経済における金利の影響について」に基づく検索処理を概念検索により行った場合の検索結果の表示例を示す図である。It is a figure which shows the example of a display of a search result at the time of performing the search process based on query "About the influence of the interest rate in the Japanese economy" by concept search. 本発明の実施の形態4に係る情報処理装置の概略構成を表すブロック図である。It is a block diagram showing schematic structure of the information processing apparatus which concerns on Embodiment 4 of this invention. 本発明の実施の形態4に係る情報処理装置における文書登録時の動作を示すフローチャートである。It is a flowchart which shows the operation | movement at the time of the document registration in the information processing apparatus which concerns on Embodiment 4 of this invention. カテゴリ別の高頻度キーワード情報の一例を示す図である。It is a figure which shows an example of the high frequency keyword information according to category. 実施の形態4に係る文書1(カテゴリ「政治」)の検索用インデックスの一例を示す図である。It is a figure which shows an example of the index for a search of the document 1 (category "politics") concerning Embodiment 4. FIG. 実施の形態4に係る文書分類データの一例を示す図である。It is a figure which shows an example of the document classification data based on Embodiment 4. 実施の形態4に係る文書の内容例を示す図である。FIG. 10 is a diagram illustrating an example of content of a document according to Embodiment 4. 図26に示す各文書に含まれる見出し文字列の抽出例を示す図である。It is a figure which shows the example of extraction of the heading character string contained in each document shown in FIG. 実施の形態4における見出し文字列に基づいて分類された各文書に対応する分類情報の一例を示す図である。FIG. 20 is a diagram illustrating an example of classification information corresponding to each document classified based on a heading character string in the fourth embodiment. 実施の形態4に係る情報処理装置による検索処理を説明するフローチャートである。15 is a flowchart for describing search processing by the information processing apparatus according to the fourth embodiment. 本実施の形態4で使用する展開辞書の一部例を示す図である。It is a figure which shows a part example of the expansion | deployment dictionary used in this Embodiment 4. FIG.

Claims (20)

それぞれが文字列を含む複数の情報を、当該情報のカテゴリを示すカテゴリ情報とともに保持する記憶デバイスから所定の情報を検索する情報処理装置であって、
クエリー文字列を入力する入力手段と、
前記入力手段により入力された前記クエリー文字列を1つ又は複数のカテゴリに分類するクエリー分類手段と、
前記クエリー分類手段により分類された前記カテゴリに対応するカテゴリ情報を有する情報を検索対象として抽出する抽出手段と、
前記抽出手段で抽出された情報を検索対象として、前記入力手段により入力された前記クエリー文字列に基づく検索処理を実行する検索手段と、
前記検索手段による検索結果を表示する表示手段と、
を有することを特徴とする情報処理装置。
An information processing apparatus for retrieving predetermined information from a storage device that holds a plurality of pieces of information each including a character string together with category information indicating a category of the information,
An input means for entering a query string;
Query classification means for classifying the query string input by the input means into one or more categories;
Extraction means for extracting information having category information corresponding to the category classified by the query classification means as a search target;
A search unit that executes a search process based on the query character string input by the input unit, using the information extracted by the extraction unit as a search target;
Display means for displaying a search result by the search means;
An information processing apparatus comprising:
前記検索手段は、前記クエリーに含まれる単語及び構文情報と、検索対象の文書に含まれる単語及びその構文情報とに基づいて前記検索処理を実行することを特徴とする請求項1に記載の情報処理装置。   The information according to claim 1, wherein the search unit executes the search process based on words and syntax information included in the query, and words and syntax information included in a document to be searched. Processing equipment. 前記検索手段は、前記クエリーの内容を特徴付けるクエリーベクトルと、検索対象の文書の内容を特徴付ける文書ベクトルとに基づいて前記検索処理を実行することを特徴とする請求項1に記載の情報処理装置。   The information processing apparatus according to claim 1, wherein the search unit executes the search process based on a query vector that characterizes the content of the query and a document vector that characterizes the content of a document to be searched. 前記クエリー分類手段は、前記記憶デバイスに記憶されている文書のカテゴリ情報に対応するカテゴリのいずれかに分類することを特徴とする請求項1乃至3のいずれか1項に記載の情報処理装置。   The information processing apparatus according to claim 1, wherein the query classification unit classifies the query classification unit into one of categories corresponding to category information of a document stored in the storage device. 前記表示手段は、前記検索結果を類似度の高い順に表示することを特徴とする請求項1乃至4のいずれか1項に記載の情報処理装置。   The information processing apparatus according to claim 1, wherein the display unit displays the search results in descending order of similarity. 文書を検索可能に登録する情報処理装置であって、
登録対象の文書に含まれる単語を抽出する抽出手段と、
前記抽出手段により抽出された単語が出現する頻度に応じて当該文書の分類情報を決定する決定手段と、
前記抽出手段により抽出された単語を検索用インデックスとし前記分類情報に関連付けて前記文書と共に登録する登録手段と、
を有することを特徴とする情報処理装置。
An information processing apparatus for registering a document so as to be searchable,
Extracting means for extracting words contained in the document to be registered;
Determining means for determining classification information of the document according to the frequency of appearance of the word extracted by the extracting means;
A registration unit that registers the word extracted by the extraction unit as a search index in association with the classification information together with the document;
An information processing apparatus comprising:
それぞれが文字列を含む複数の情報を、当該情報のカテゴリを示すカテゴリ情報とともに保持する記憶デバイスから所定の情報を検索する情報処理装置であって、
クエリー文字列を入力する入力手段と、
前記入力手段により入力された前記クエリー文字列に含まれる単語を基にキーワードとなる文字列を抽出する抽出手段と、
前記キーワードとなる文字列に関連する展開文字列と当該展開文字列のカテゴリとを取得する取得手段と、
前記キーワードとなる文字列と前記展開文字列とをキーワードとして前記記憶デバイスの文書を検索して検索候補を抽出する候補検索手段と、
前記候補検索手段により検索された文書の内、前記展開文字列のカテゴリと一致するカテゴリ情報を有する文書を検索結果とする検索手段と、
を有することを特徴とする情報処理装置。
An information processing apparatus for retrieving predetermined information from a storage device that holds a plurality of pieces of information each including a character string together with category information indicating a category of the information,
An input means for entering a query string;
Extraction means for extracting a character string as a keyword based on a word included in the query character string input by the input means;
An acquisition means for acquiring an expanded character string related to the character string serving as the keyword and a category of the expanded character string;
Candidate search means for searching for documents in the storage device using the character string as the keyword and the expanded character string as keywords and extracting search candidates;
Search means for making a search result a document having category information that matches the category of the expanded character string among the documents searched by the candidate search means;
An information processing apparatus comprising:
それぞれが文字列を含む複数の情報を、当該情報のカテゴリを示すカテゴリ情報とともに保持する記憶デバイスから所定の情報を検索する情報処理装置であって、
クエリー文字列を入力する入力手段と、
前記入力手段により入力された前記クエリー文字列に含まれる単語を基にキーワードとなる文字列及び前記クエリーのカテゴリを識別する識別手段と、
前記キーワードとなる文字列に関連し、前記クエリーのカテゴリと一致するカテゴリの展開文字列を取得する取得手段と、
前記キーワードとなる文字列と前記展開文字列とをキーワードとして前記記憶デバイスの文書を検索する検索手段と、
を有することを特徴とする情報処理装置。
An information processing apparatus for retrieving predetermined information from a storage device that holds a plurality of pieces of information each including a character string together with category information indicating a category of the information,
An input means for entering a query string;
Identification means for identifying a character string as a keyword and a category of the query based on a word included in the query character string input by the input means;
An obtaining means for obtaining an expanded character string of a category that is related to the character string serving as the keyword and matches the category of the query;
Search means for searching for a document in the storage device using the character string as the keyword and the expanded character string as keywords;
An information processing apparatus comprising:
前記検索手段による検索結果を表示する表示手段を更に有することを特徴とする請求項7又は8に記載の情報処理装置。   9. The information processing apparatus according to claim 7, further comprising display means for displaying a search result obtained by the search means. それぞれが文字列を含む複数の情報を、当該情報のカテゴリを示すカテゴリ情報とともに保持する記憶デバイスから所定の情報を検索する情報処理装置の制御方法であって、
クエリー文字列を入力する入力工程と、
前記入力工程で入力された前記クエリー文字列を1つ又は複数のカテゴリに分類するクエリー分類工程と、
前記クエリー分類工程で分類された前記カテゴリに対応するカテゴリ情報を有する情報を検索対象として抽出する抽出工程と、
前記抽出工程で抽出された情報を検索対象として、前記入力工程により入力された前記クエリー文字列に基づく検索処理を実行する検索工程と、
前記検索工程での検索結果を表示する表示工程と、
を有することを特徴とする情報処理装置の制御方法。
A method for controlling an information processing apparatus for retrieving predetermined information from a storage device that holds a plurality of pieces of information each including a character string together with category information indicating a category of the information,
An input process for entering a query string;
A query classification step of classifying the query string input in the input step into one or more categories;
An extraction step of extracting information having category information corresponding to the category classified in the query classification step as a search target;
A search step for performing a search process based on the query character string input in the input step, using the information extracted in the extraction step as a search target;
A display step for displaying a search result in the search step;
A method for controlling an information processing apparatus, comprising:
前記検索工程では、前記クエリーに含まれる単語及び構文情報と、検索対象の文書に含まれる単語及びその構文情報とに基づいて前記検索処理を実行することを特徴とする請求項10に記載の情報処理装置の制御方法。   11. The information according to claim 10, wherein in the search step, the search process is executed based on words and syntax information included in the query and words and syntax information included in a document to be searched. A method for controlling a processing apparatus. 前記検索工程では、前記クエリーの内容を特徴付けるクエリーベクトルと、検索対象の文書の内容を特徴付ける文書ベクトルとに基づいて前記検索処理を実行することを特徴とする請求項10に記載の情報処理装置の制御方法。   The information processing apparatus according to claim 10, wherein in the search step, the search process is executed based on a query vector that characterizes the content of the query and a document vector that characterizes the content of a document to be searched. Control method. 前記クエリー分類工程では、前記記憶デバイスに記憶されている文書のカテゴリ情報に対応するカテゴリのいずれかに分類することを特徴とする請求項10乃至12のいずれか1項に記載の情報処理装置の制御方法。   13. The information processing apparatus according to claim 10, wherein in the query classification step, the information is classified into one of categories corresponding to category information of a document stored in the storage device. Control method. 前記表示工程では、前記検索結果を類似度の高い順に表示することを特徴とする請求項10乃至13のいずれか1項に記載の情報処理装置の制御方法。   The information processing apparatus control method according to any one of claims 10 to 13, wherein, in the display step, the search results are displayed in descending order of similarity. 文書を検索可能に登録する情報処理装置の制御方法であって、
登録対象の文書に含まれる単語を抽出する抽出工程と、
前記抽出工程で抽出された単語が出現する頻度に応じて当該文書の分類情報を決定する決定工程と、
前記抽出工程で抽出された単語を検索用インデックスとし前記分類情報に関連付けて前記文書と共に登録する登録工程と、
を有することを特徴とする情報処理装置の制御方法。
A method of controlling an information processing apparatus for registering a document so as to be searchable,
An extraction process for extracting words contained in the document to be registered;
A determination step of determining classification information of the document according to the frequency of occurrence of the word extracted in the extraction step;
A registration step of registering the word extracted in the extraction step with the document in association with the classification information as a search index;
A method for controlling an information processing apparatus, comprising:
それぞれが文字列を含む複数の情報を、当該情報のカテゴリを示すカテゴリ情報とともに保持する記憶デバイスから所定の情報を検索する情報処理装置の制御方法であって、
クエリー文字列を入力する入力工程と、
前記入力工程で入力された前記クエリー文字列に含まれる単語を基にキーワードとなる文字列を抽出する抽出工程と、
前記キーワードとなる文字列に関連する展開文字列と当該展開文字列のカテゴリとを取得する取得工程と、
前記キーワードとなる文字列と前記展開文字列とをキーワードとして前記記憶デバイスの文書を検索して検索候補を抽出する候補検索工程と、
前記候補検索工程で検索された文書の内、前記展開文字列のカテゴリと一致するカテゴリ情報を有する文書を検索結果とする検索工程と、
を有することを特徴とする情報処理装置の制御方法。
A method for controlling an information processing apparatus for retrieving predetermined information from a storage device that holds a plurality of pieces of information each including a character string together with category information indicating a category of the information,
An input process for entering a query string;
An extraction step of extracting a character string as a keyword based on the word included in the query character string input in the input step;
An acquisition step for acquiring a development character string related to the character string to be the keyword and a category of the development character string;
A candidate search step of searching a document in the storage device using the character string as the keyword and the expanded character string as a keyword and extracting a search candidate;
A search step in which a document having category information that matches the category of the expanded character string among the documents searched in the candidate search step is a search result;
A method for controlling an information processing apparatus, comprising:
それぞれが文字列を含む複数の情報を、当該情報のカテゴリを示すカテゴリ情報とともに保持する記憶デバイスから所定の情報を検索する情報処理装置の制御方法であって、
クエリー文字列を入力する入力工程と、
前記入力工程で入力された前記クエリー文字列に含まれる単語を基にキーワードとなる文字列及び前記クエリーのカテゴリを識別する識別工程と、
前記キーワードとなる文字列に関連し、前記クエリーのカテゴリと一致するカテゴリの展開文字列を取得する取得工程と、
前記キーワードとなる文字列と前記展開文字列とをキーワードとして前記記憶デバイスの文書を検索する検索工程と、
を有することを特徴とする情報処理装置の制御方法。
A method for controlling an information processing apparatus for retrieving predetermined information from a storage device that holds a plurality of pieces of information each including a character string together with category information indicating a category of the information,
An input process for entering a query string;
An identification step of identifying a character string as a keyword and a category of the query based on a word included in the query character string input in the input step;
An acquisition step of acquiring a developed character string of a category that is related to the character string that is the keyword and matches the category of the query;
A search step of searching the document in the storage device using the character string as the keyword and the expanded character string as a keyword;
A method for controlling an information processing apparatus, comprising:
前記検索工程による検索結果を表示する表示工程を更に有することを特徴とする請求項16又は17に記載の情報処理装置の制御方法。   The information processing apparatus control method according to claim 16 or 17, further comprising a display step of displaying a search result obtained by the search step. 請求項10乃至18のいずれか1項に記載の制御方法を実行することを特徴とするプログラム。   The program which performs the control method of any one of Claims 10 thru | or 18. 請求項19に記載のプログラムを記憶していることを特徴とする、コンピュータにより読取り可能な記憶媒体。   A computer-readable storage medium storing the program according to claim 19.
JP2005039525A 2005-02-16 2005-02-16 Information processor and its control method Withdrawn JP2006227823A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005039525A JP2006227823A (en) 2005-02-16 2005-02-16 Information processor and its control method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005039525A JP2006227823A (en) 2005-02-16 2005-02-16 Information processor and its control method

Publications (1)

Publication Number Publication Date
JP2006227823A true JP2006227823A (en) 2006-08-31

Family

ID=36989172

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005039525A Withdrawn JP2006227823A (en) 2005-02-16 2005-02-16 Information processor and its control method

Country Status (1)

Country Link
JP (1) JP2006227823A (en)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009043263A (en) * 2007-08-10 2009-02-26 Nhn Corp Question classification method and its system
JP2010515171A (en) * 2006-12-29 2010-05-06 トムソン ルーターズ グローバル リソーシーズ Information retrieval system, method and software with concept-based retrieval and ranking
JP2012003740A (en) * 2010-06-16 2012-01-05 Fuji Xerox Co Ltd Retrieval result generation method, retrieval result generation program and retrieval system
JP2012215966A (en) * 2011-03-31 2012-11-08 Yahoo Japan Corp Device and method for adding common additional information by category
JP2019211974A (en) * 2018-06-04 2019-12-12 株式会社野村総合研究所 Company analysis device
JPWO2020031242A1 (en) * 2018-08-06 2021-09-30 富士通株式会社 Evaluation program, evaluation method and information processing equipment
JP2022079442A (en) * 2020-11-16 2022-05-26 深▲ゼン▼市世強元件網絡有限公司 Method and system for identifying user search scene

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010515171A (en) * 2006-12-29 2010-05-06 トムソン ルーターズ グローバル リソーシーズ Information retrieval system, method and software with concept-based retrieval and ranking
JP2009043263A (en) * 2007-08-10 2009-02-26 Nhn Corp Question classification method and its system
JP4729607B2 (en) * 2007-08-10 2011-07-20 エヌエイチエヌ コーポレーション Question classification method and system
JP2012003740A (en) * 2010-06-16 2012-01-05 Fuji Xerox Co Ltd Retrieval result generation method, retrieval result generation program and retrieval system
JP2012215966A (en) * 2011-03-31 2012-11-08 Yahoo Japan Corp Device and method for adding common additional information by category
JP2019211974A (en) * 2018-06-04 2019-12-12 株式会社野村総合研究所 Company analysis device
JPWO2020031242A1 (en) * 2018-08-06 2021-09-30 富士通株式会社 Evaluation program, evaluation method and information processing equipment
JP7081671B2 (en) 2018-08-06 2022-06-07 富士通株式会社 Evaluation program, evaluation method and information processing equipment
JP2022079442A (en) * 2020-11-16 2022-05-26 深▲ゼン▼市世強元件網絡有限公司 Method and system for identifying user search scene

Similar Documents

Publication Publication Date Title
CN113268995B (en) Chinese academy keyword extraction method, device and storage medium
US20040049499A1 (en) Document retrieval system and question answering system
JP5710581B2 (en) Question answering apparatus, method, and program
JP2005302042A (en) Term suggestion for multi-sense query
JP2009037603A (en) Query requirement expander and query requirement expansion method
CN113268569B (en) Semantic-based related word searching method and device, electronic equipment and storage medium
CN115186050B (en) Method, system and related equipment for recommending selected questions based on natural language processing
CN108038099B (en) Low-frequency keyword identification method based on word clustering
CN109299221A (en) Entity extraction and sort method and device
JP2011118689A (en) Retrieval method and system
CN114661872B (en) Beginner-oriented API self-adaptive recommendation method and system
JP2006227823A (en) Information processor and its control method
JP2006065387A (en) Text sentence search device, method, and program
JP4979637B2 (en) Compound word break estimation device, method, and program for estimating compound word break position
Mima et al. The ATRACT workbench: Automatic term recognition and clustering for terms
JP3612769B2 (en) Information search apparatus and information search method
JP2009199302A (en) Program, device, and method for analyzing document
JP4143085B2 (en) Synonym acquisition method and apparatus, program, and computer-readable recording medium
JP2008077252A (en) Document ranking method, document retrieval method, document ranking device, document retrieval device, and recording medium
US20110106849A1 (en) New case generation device, new case generation method, and new case generation program
CN111831884B (en) Matching system and method based on information search
JP4148247B2 (en) Vocabulary acquisition method and apparatus, program, and computer-readable recording medium
JP3249743B2 (en) Document search system
KR20100039968A (en) Ontology based semantic search system and method for authority heading of various languages via automatic language translation
JP4217410B2 (en) Information retrieval apparatus, control method therefor, and program

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20080513