JP4075094B2 - Information classification device - Google Patents
Information classification device Download PDFInfo
- Publication number
- JP4075094B2 JP4075094B2 JP09065697A JP9065697A JP4075094B2 JP 4075094 B2 JP4075094 B2 JP 4075094B2 JP 09065697 A JP09065697 A JP 09065697A JP 9065697 A JP9065697 A JP 9065697A JP 4075094 B2 JP4075094 B2 JP 4075094B2
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- keywords
- file
- classification
- initial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【0001】
【発明の属する技術分野】
本発明は、文字コードによって構成されるテキストを含むファイルをキーワードを付けて分類する装置に関するものである。
【0002】
【従来の技術】
データベース・システムは一般に、検索目的を持った利用者が目的のファイルに容易に到達できるように、キーワード論理式などを入力するインタフェースを用意している。しかしながら、特に検索目的を持たず、データベースの中にどのようなファイルが収納されているかということに興味を持つ利用者にとっては、このようなインタフェースはあまり役に立たない。データベースの内容の一覧を提供するために、従来は、データベースの管理者があらかじめ固定的な概念体系を用意して、新しく追加するファイルの内容を理解してその体系における位置を決定したり、ファイルの提供者が位置を指定したり、あるいは、すでに手作業で分類したファイルとキーワードを比較して最も近い位置に自動分類して、利用者に分類結果を提供していた。
【0003】
【発明が解決しようとする課題】
前述のあらかじめ固定的な概念体系を用意する方法では、新しい概念を持ったファイルが出現したときに利用者にその存在が伝わらないという問題が生じる。自動分類では、すでに分類されているファイルとキーワードが1つでも一致すれば概念的に近いと判断されて既存の概念に分類されるだけである。したがって、適当な時期に概念体系を修正して分類をやり直す必要があるが、その作業はデータベースの規模に比例して膨大な量になる。
【0004】
本発明は、固定的な概念体系を利用するのではなく、ファイルに含まれるキーワードを概念として利用し、ファイルをそれに属する集合として自動分類して、ユーザにデータベースの内容の一覧を提供することを目的とする。
【0005】
【課題を解決するための手段】
本発明は、文字コードによって構成されるテキストを含むファイルを格納するファイル格納手段と、前記ファイル格納手段が出力するファイルのテキスト部分に対して形態素解析を行って前記ファイルの識別子と共に出力する形態素解析手段と、前記ファイルを分類するためのキーワードを格納するキーワード格納手段と、前記キーワード格納手段の出力と前記形態素解析手段の出力とを入力として、前記形態素解析の結果の中から前記キーワード格納手段で格納されているキーワードと一致するキーワードを収集して前記ファイルの識別子と共に出力するキーワード収集手段と、前記キーワード収集手段で収集されたキーワードから、前記キーワードを含むファイルの数が所定の数より多くなるように、キーワードの組み合わせを選択する初期キーワード選択手段と、前記初期キーワード選択手段で選択されたキーワードと、選択された前記キーワードを含むテキストファイルの識別子から、ファイルをキーワードで分類して表示する表示手段と、利用者が前記初期キーワード選択手段で選択されたキーワードでの分類結果と異なる分類結果を要求する入力手段と、
前記キーワード収集手段で収集したキーワードでかつ前記初期キーワード選択手段で選択されたキーワード以外のキーワードを用いて、前記初期キーワード選択手段で選択されたキーワードとは異なるキーワードの組み合わせを選択する分類キーワード洗練手段と、
前記分類キーワード洗練手段で選択されたキーワードと前記キーワードが含まれる前記テキストファイルの識別子を要素とする集合を生成するファイル集合生成手段と、前記表示手段において、前記分類キーワード洗練手段で選択されたキーワードと、前記ファイル集合生成手段で生成されたファイルの識別子の集合とをキーワードで分類して表示しなおし、初期キーワード選択手段は、キーワード収集手段で収集したキーワードから、前記キーワードが出現するファイル数が多い順に並べ、最上位から一定数のキーワードを分類するキーワードとして選択し、所定のキーワードが含まれるテキストが、下位キーワードにも含まれた場合には、下位のキーワードにファイルの識別子を割り当てることを特徴とする情報分類装置である。
【0006】
【発明の実施の形態】
本発明の一実施形態は、本発明は、文字コードによって構成されるテキストを含むファイルを格納するファイル格納手段と、前記ファイル格納手段が出力するファイルのテキスト部分に対して形態素解析を行って前記ファイルの識別子と共に出力する形態素解析手段と、前記ファイルを分類するためのキーワードを格納するキーワード格納手段と、前記キーワード格納手段の出力と前記形態素解析手段の出力とを入力として、前記形態素解析の結果の中から前記キーワード格納手段で格納されているキーワードと一致するキーワードを収集して前記ファイルの識別子と共に出力するキーワード収集手段と、前記キーワード収集手段で収集されたキーワードから、前記キーワードを含むファイルの数が多くなるように、キーワードの組み合わせを選択する初期キーワード選択手段と、前記初期キーワード選択手段で選択されたキーワードと、選択された前記キーワードを含むテキストファイルの識別子から、ファイルをキーワードで分類して表示する表示手段と、利用者が前記初期キーワード選択手段で選択されたキーワードでの分類結果と異なる分類結果を要求する入力手段と、前記キーワード収集手段で収集したキーワードでかつ前記初期キーワード選択手段で選択されたキーワード以外のキーワードを用いて、前記初期キーワード選択手段で選択されたキーワードとは異なるキーワードの組み合わせを選択する分類キーワード洗練手段と、前記分類キーワード洗練手段で選択されたキーワードと前記キーワードが含まれる前記テキストファイルの識別子を要素とする集合を生成するファイル集合生成手段と、前記表示手段において、前記分類キーワード洗練手段で選択されたキーワードと、前記ファイル集合生成手段で生成されたファイルの識別子の集合とをキーワードで分類して表示しなおすことを特徴とする情報分類装置である。
【0007】
更に、初期キーワード選択手段は、キーワード収集手段で収集したキーワードから、前記キーワードが出現するファイル数が多い順に並べ、最上位から一定数のキーワードを分類するキーワードとして選択し、所定のキーワードが含まれるテキストが、下位キーワードにも含まれた場合には、下位のキーワードにファイルの識別子を割り当てるものである。
【0008】
また、分類キーワード洗練手段において、前記キーワード収集手段で収集したキーワードでかつ前記初期キーワード選択手段で選択されたキーワード以外のキーワードを用いて、前記キーワードが出現するファイル数が多い順に並べ、前記初期キーワード選択手段で選択されたキーワードを、前記順に並べた後に並べ、最上位から一定数のキーワードを洗練されたキーワードとして選択するものである。
【0011】
本発明の一実施の形態の情報分類装置全体の構成を表すブロック図を図1に示す。ファイル格納手段101は、文字コードによって構成されるテキストを含むファイルを格納する。形態素解析手段102は、ファイル格納手段101のファイルのテキスト部分に対して形態素解析を行ってファイルの識別子と共に出力する。キーワード格納手段103は、ファイルを分類するためのキーワードを格納する。キーワード収集手段104は、形態素解析の結果の中からキーワード格納手段103に格納されているキーワードだ けを収集して、ファイルの識別子と共に出力する。情報分類手段105は、ファイルの 識別子をそれに付随するキーワードによって分類する。表示手段106は、ファイル格 納手段101のファイルの内容を分類結果に従って利用者に提供する。入力手段107 は、利用者が提供された分類結果と異なる分類を希望するときに、情報分類手段105 にその要求を伝える。
【0012】
次に本実施の形態の動作を説明する。例として、図2に示すラーメンの飲食店について記述した5つのファイルがファイル格納装置101に格納されているとする。それぞれのファイルの識別子は、
file1, file2, file3, file4, file5
である。
【0013】
形態素解析手段102は、ファイル格納手段101に格納されているファイルのテキスト部分について形態素解析を行い、ファイルの識別子と共に出力する。図2に示すファイルについて、形態素解析手段102が処理した結果の、名詞のみを取り出した結果を図3に示す。
【0014】
キーワード格納手段103には、分類に使用するキーワードを列挙する。例を図4に示す。
【0015】
キーワード収集手段104は、形態素解析手段102の出力の中から、キーワード格納手段103に格納されている単語だけを取り出して、ファイルの識別子と共に出力する。図3の形態素解析の結果を、キーワード収集手段104が処理した結果を図5に示す。
【0016】
情報分類手段105は、キーワード収集手段が104が出力するキーワードを持つファイルの識別子の集合を、キーワードで分類して出力する。情報分類手段105の詳細な構成を示すブロック図を図6に示す。
【0017】
初期キーワード選択手段601は、キーワードをそれが出現するファイル数が多い順に並べ、最上位から一定数のキーワードを分類キーワード集合として選択する。図5のキーワード収集手段104の出力を、キーワードを横軸として出現ファイル数が多い順に左から並べた結果を図7に示す。分類キーワード集合として選択するキーワードの数を2とすると、分類キーワードの集合は、
{ラーメン、しょうゆ味}
となる。
【0018】
分類キーワード洗練手段602は、初期キーワード選択手段601が出力する分類キーワード集合に含まれるキーワードが、より多くのファイルに出現するように他のキーワードと置換する。まず、分類キーワード集合に含まれるキーワードが出現するファイルの数を評価関数とする。そして、分類キーワード集合に含まれる1つのキーワードを、まだ分類キーワード集合に含まれたことがないキーワードと置換する操作を、評価関数の値が増加する限り繰り返す。図7の例で、分類キーワード集合が、
{ラーメン、しょうゆ味}
に設定されているとき、評価関数の値は4である。分類集合に含まれるキーワードの「ラーメン」と「しょうゆ味」を、まだ分類集合に含まれたことがないキーワードの「焼き豚」と置換し、評価関数の値を計算するといずれの場合も4である。したがって、評価関数の値が増加しないので、分類キーワード洗練手段602は分類キーワード集合を、
{ラーメン、しょうゆ味}
として出力する。
【0019】
ファイル集合生成手段603は、分類キーワード洗練手段602が出力する分類キーワード集合に従って、ファイルの識別子を分類する。まず、分類キーワード集合に含まれるキーワードを、それが出現するファイル数が多い順に並べて、キーワードに割り当てるファイルの識別子の集合を、そのキーワードよりも下位のキーワードが1つも出現しないファイルの識別子に限定する。図7の例で分類キーワード集合が、
{ラーメン、しょうゆ味}
であれば、キーワード「ラーメン」が出現するファイルは、
{file1, file3, file5}
であるが、file1にはそれよりも下位のキーワード「しょうゆ味」が出現するので、各キーワードに割り当てるファイルの識別子の集合は、
ラーメン:{file3, file5}
しょうゆ味:{file1, file4}
となる。また、分類キーワード集合に含まれるキーワードが1つも出現しないファイルについては、特殊キーワード「その他」を分類キーワード集合に追加し、それにファイルの識別子を割り当てる。図7の例では、
その他:{file2}
となり、ファイル集合生成手段603から情報分類手段105の結果として、
{ラーメン:{file3, file5}、しょうゆ味:{file1, file4}、その他:{file2}}
が出力される。
【0020】
再帰的分類制御手段604は、ファイル集合生成手段603が分類した結果をさらに細分類するときに使用する。すなわち、すでに分類されたファイルの識別子とそのファイルに出現するキーワードの集合を初期キーワード選択手段601に与えることで、分類されたファイルの識別子をさらにキーワードで分類する。
【0021】
表示手段106は、情報分類手段105の結果を木構造に変換して、利用者にデータベースの内容の一覧を提供する。情報分類手段105の出力が、
{ラーメン:{file3, file5}、しょうゆ味:{file1, file4}、その他:{file2}}
のときは、図8に示すような出力結果が得られる。利用者は、この出力結果を見て、他の分類結果を要求したいときに入力手段107を用いる。入力手段107は情報分類手段105に接続され、初期キーワード選択手段201にその要求が伝えられる。
【0022】
初期キーワード選択手段601は、キーワード収集手段104が出力した結果から最近選択した分類キーワード集合を記憶している。入力手段107から利用者の要求が伝えられると、最近並べたキーワードの列について、最近選択した分類キーワードに含まれるキーワードの列を、最下位に順序を保存して移動した後、最上位から一定数のキーワードを分類キーワード集合として選択して出力する。図7の例では、分類キーワードとして
{ラーメン、しょうゆ味}
を最近選択したので、それを順序を保存して最下位のキーワード「焼き豚」の次に移動し、図9のようなキーワードの列を作る。そして最上位から2つのキーワードを選択して、分類キーワード集合、
{焼き豚、ラーメン}
を選択して出力する。分類キーワード洗練装置602以降の処理は同様であり、情報分類装置の出力として、
{ラーメン:{file1, file5}、焼き豚:{file2, file3}、その他:{file4}}
が出力される。表示手段106には、前回の図8の分類結果とは異なる、図10に示すようなデータベースの内容の一覧が利用者に提供される。
【0023】
なお、本発明は文字コードによって構成されるテキストを含むファイルであればどのような種類のファイルでも分類することができる。ファイルをインターネット上のホームページを構成するHTMLファイル、ファイルの識別子をそのURLアドレスとすれば、本発明の情報分類装置をホームページの分類システムとして利用することができる。
【0024】
【発明の効果】
以上述べたところから明らかなように、本発明は、キーワードを概念として利用し、文字コードによって構成されるテキストを含むファイルを自動分類するので、新しい概念を持ったファイルが出現しても、キーワードを保守するだけで容易に概念体系の更新が可能であり、利用者にデータベースの内容の一覧を迅速に提供できるという長所を有する。
【図面の簡単な説明】
【図1】本発明の一実施の形態の情報分類装置の全体の構成を表すブロック図
【図2】同実施の形態の動作を説明するための図1のファイル格納手段101の一例を示す図
【図3】同実施の形態の動作を説明するための図1の形態素解析手段102の出力の一例を示す図
【図4】同実施の形態の動作を説明するための図1のキーワード格納手段103の一例を示す図
【図5】同実施の形態の動作を説明するための図1のキーワード収集手段104の出力の一例を示す図
【図6】同実施の形態の動作を説明するための図1の情報分類手段105の詳細なブロック図
【図7】同実施の形態の動作を説明するための図6の初期キーワード選択手段601の内部状態の一例を示す図
【図8】同実施の形態の動作を説明するための図1の表示手段106の一例を示す図
【図9】同実施の形態の動作を説明するための図6の初期キーワード選択手段601の内部状態の一例を示す図
【図10】同実施の形態の動作を説明するための図1の表示手段106の一例を示す図
【符号の説明】
101 ファイル格納手段
102 形態素解析手段
103 キーワード格納手段
104 キーワード収集手段
105 情報分類手段
106 表示手段
107 入力手段
601 初期キーワード選択手段
602 分類キーワード洗練手段
603 ファイル集合生成手段
604 再帰的分類制御手段[0001]
BACKGROUND OF THE INVENTION
The present invention relates to an apparatus for classifying a file including text composed of character codes with a keyword attached thereto.
[0002]
[Prior art]
In general, a database system provides an interface for inputting a keyword logical expression or the like so that a user having a search purpose can easily reach a target file. However, such an interface is not very useful for users who have no particular search purpose and are interested in what files are stored in the database. Conventionally, in order to provide a list of database contents, the database administrator prepares a fixed conceptual system in advance, understands the contents of the newly added file, determines the position in the system, The provider specified the location, or compared the file already classified by hand with the keyword and automatically classified it to the closest location, and provided the classification result to the user.
[0003]
[Problems to be solved by the invention]
The above-described method for preparing a fixed concept system has a problem that when a file having a new concept appears, its existence is not transmitted to the user. In automatic classification, if even one of the already classified files and a keyword match, it is determined that they are conceptually close and only classified into existing concepts. Therefore, it is necessary to correct the concept system at an appropriate time and start the classification again, but the work is enormous in proportion to the scale of the database.
[0004]
The present invention uses a keyword contained in a file as a concept, rather than using a fixed concept system, automatically classifies the file as a set belonging to it, and provides the user with a list of database contents. Objective.
[0005]
[Means for Solving the Problems]
The present invention provides a file storage means for storing a file including text composed of character codes, and a morpheme analysis for performing a morphological analysis on a text portion of the file output by the file storage means and outputting the file together with an identifier of the file A keyword storage means for storing a keyword for classifying the file, an output of the keyword storage means and an output of the morpheme analysis means, and the keyword storage means from among the results of the morpheme analysis A keyword collecting unit that collects a keyword that matches a stored keyword and outputs the keyword together with the identifier of the file, and a keyword collected by the keyword collecting unit includes a number of files including the keyword greater than a predetermined number. To choose a keyword combination An initial keyword selection means, a keyword selected by the initial keyword selection means, a display means for classifying and displaying a file by a keyword from an identifier of a text file containing the selected keyword, and a user selects the initial keyword An input means for requesting a classification result different from the classification result of the keyword selected by the selection means;
Classification keyword refinement means for selecting a keyword combination different from the keyword selected by the initial keyword selection means by using a keyword collected by the keyword collection means and a keyword other than the keyword selected by the initial keyword selection means When,
A file set generation means for generating a set selected from the keyword selected by the classification keyword refinement means and an identifier of the text file including the keyword; and a keyword selected by the classification keyword refinement means in the display means And the set of file identifiers generated by the file set generation means are classified and displayed again by keyword , and the initial keyword selection means determines the number of files in which the keyword appears from the keywords collected by the keyword collection means. Arrange them in descending order and select a certain number of keywords from the top to classify them. If the text that includes a given keyword is also included in the lower keywords, assign a file identifier to the lower keywords. This is an information classification device.
[0006]
DETAILED DESCRIPTION OF THE INVENTION
According to an embodiment of the present invention , the present invention relates to a file storage unit that stores a file including text composed of character codes, and a morphological analysis performed on a text portion of the file output by the file storage unit. The result of the morpheme analysis with the input of the morpheme analysis means for outputting together with the identifier of the file, the keyword storage means for storing the keywords for classifying the file, the output of the keyword storage means and the output of the morpheme analysis means A keyword collecting unit that collects a keyword that matches the keyword stored in the keyword storage unit and outputs the keyword together with an identifier of the file; and from a keyword collected by the keyword collecting unit, a file including the keyword Keyword combinations to increase the number And the initial keyword selection means for selecting, and keywords that have been selected by the initial keyword selection means, from the identifier of a text file that contains the keyword that has been selected, and a display means for displaying to classify the files by keyword, user said Using an input means for requesting a classification result different from the classification result of the keyword selected by the initial keyword selection means, and a keyword other than the keyword selected by the initial keyword selection means and the keyword collected by the keyword collection means Classification keyword refinement means for selecting a combination of keywords different from the keyword selected by the initial keyword selection means; the keyword selected by the classification keyword refinement means; and the identifier of the text file containing the keyword as an element Generate a set That the file set generation unit, in the display unit, a keyword selected by the classifying keyword refinement means, said a set of identifiers of the generated files in the file set generation means again displays the classified keywords This is an information classification device.
[0007]
Further, the initial keyword selection means arranges the keywords collected by the keyword collection means in the order of the number of files in which the keywords appear, and selects a certain number of keywords from the top as a keyword to be classified and includes a predetermined keyword. If the text is also included in the lower keyword, a file identifier is assigned to the lower keyword.
[0008]
Further, in the classified keyword refinement means, the keywords collected by the keyword collection means and keywords other than the keyword selected by the initial keyword selection means are arranged in descending order of the number of files in which the keyword appears, and the initial keyword The keywords selected by the selection means are arranged after being arranged in the above order, and a certain number of keywords are selected as refined keywords from the top.
[0011]
FIG. 1 is a block diagram showing the configuration of the entire information classification apparatus according to an embodiment of the present invention . The
[0012]
Next, the operation of the present embodiment will be described. As an example, it is assumed that five files describing the ramen restaurant shown in FIG. The identifier of each file is
file1, file2, file3, file4, file5
It is.
[0013]
The
[0014]
The keyword storage means 103 lists keywords used for classification. An example is shown in FIG.
[0015]
The
[0016]
The
[0017]
The initial
{Ramen, soy sauce}
It becomes.
[0018]
The classification
{Ramen, soy sauce}
Is set to 4, the value of the evaluation function is 4. Replace the keywords “ramen” and “soy sauce taste” included in the classification set with the keywords “baked pork” that have not yet been included in the classification set, and the value of the evaluation function is calculated to be 4. . Therefore, since the value of the evaluation function does not increase, the classified keyword refinement means 602 uses the classified keyword set as
{Ramen, soy sauce}
Output as.
[0019]
The file set
{Ramen, soy sauce}
Then, the file in which the keyword “ramen” appears is
{file1, file3, file5}
However, since the lower keyword “soy sauce taste” appears in file1, the set of file identifiers assigned to each keyword is
Ramen: {file3, file5}
Soy sauce taste: {file1, file4}
It becomes. For a file in which no keyword included in the classified keyword set appears, the special keyword “others” is added to the classified keyword set, and an identifier of the file is assigned to the special keyword “other”. In the example of FIG.
Other: {file2}
As a result of the
{Ramen: {file3, file5}, Soy Sauce: {file1, file4}, Others: {file2}}
Is output.
[0020]
The recursive
[0021]
The display means 106 converts the result of the information classification means 105 into a tree structure, and provides a list of database contents to the user. The output of the information classification means 105 is
{Ramen: {file3, file5}, Soy Sauce: {file1, file4}, Others: {file2}}
In this case, an output result as shown in FIG. 8 is obtained. The user looks at this output result and uses the input means 107 when he wants to request another classification result. The input means 107 is connected to the information classification means 105, and the request is transmitted to the initial keyword selection means 201.
[0022]
The initial
Is recently selected, the order is preserved, and the keyword is moved next to the lowest keyword “baked pork” to create a keyword string as shown in FIG. Then select the two keywords from the top, and set the classification keyword set,
{Fried pork, ramen}
Select to output. The processing after the classification
{Ramen: {file1, file5}, Grilled pork: {file2, file3}, Others: {file4}}
Is output. The display means 106 is provided with a list of database contents as shown in FIG. 10, which is different from the previous classification result of FIG.
[0023]
In the present invention, any type of file can be classified as long as the file includes text composed of character codes. If the file is an HTML file constituting a homepage on the Internet and the file identifier is its URL address, the information classification apparatus of the present invention can be used as a homepage classification system.
[0024]
【The invention's effect】
As is clear from the above description, the present invention uses keywords as concepts and automatically classifies files containing text composed of character codes, so even if a file with a new concept appears, the keywords It is possible to easily update the conceptual system simply by maintaining the database, and to provide a user with a quick list of database contents.
[Brief description of the drawings]
FIG. 1 is a block diagram showing the overall configuration of an information classification apparatus according to an embodiment of the present invention. FIG. 2 is a diagram showing an example of a
101 File storage means 102 Morphological analysis means 103 Keyword storage means 104 Keyword collection means 105 Information classification means 106 Display means 107 Input means 601 Initial keyword selection means 602 Classification keyword refinement means 603 File set generation means 604 Recursive classification control means
Claims (2)
前記ファイル格納手段が出力するファイルのテキスト部分に対して形態素解析を行って前記ファイルの識別子と共に出力する形態素解析手段と、
前記ファイルを分類するためのキーワードを格納するキーワード格納手段と、
前記キーワード格納手段の出力と前記形態素解析手段の出力とを入力として、前記形態素解析の結果の中から前記キーワード格納手段で格納されているキーワードと一致するキーワードを収集して前記ファイルの識別子と共に出力するキーワード収集手段と、
前記キーワード収集手段で収集されたキーワードから、前記キーワードを含むファイルの数が所定の数より多くなるように、キーワードの組み合わせを選択する初期キーワード選択手段と、
前記初期キーワード選択手段で選択されたキーワードと、選択された前記キーワードを含むテキストファイルの識別子から、ファイルをキーワードで分類して表示する表示手段と、
利用者が前記初期キーワード選択手段で選択されたキーワードでの分類結果と異なる分類結果を要求する入力手段と、
前記キーワード収集手段で収集したキーワードでかつ前記初期キーワード選択手段で選択されたキーワード以外のキーワードを用いて、前記初期キーワード選択手段で選択されたキーワードとは異なるキーワードの組み合わせを選択する分類キーワード洗練手段と、
前記分類キーワード洗練手段で選択されたキーワードと前記キーワードが含まれる前記テキストファイルの識別子を要素とする集合を生成するファイル集合生成手段と、
前記表示手段において、前記分類キーワード洗練手段で選択されたキーワードと、前記ファイル集合生成手段で生成されたファイルの識別子の集合とをキーワードで分類して表示しなおし、
初期キーワード選択手段は、
キーワード収集手段で収集したキーワードから、前記キーワードが出現するファイル数が多い順に並べ、最上位から一定数のキーワードを分類するキーワードとして選択し、
所定のキーワードが含まれるテキストが、下位キーワードにも含まれた場合には、下位のキーワードにファイルの識別子を割り当てる
ことを特徴とする情報分類装置。File storage means for storing a file containing text composed of character codes;
Morphological analysis means for performing morphological analysis on the text portion of the file output by the file storage means and outputting together with the identifier of the file;
Keyword storage means for storing keywords for classifying the files;
Using the output of the keyword storage means and the output of the morpheme analysis means as input, collect keywords that match the keywords stored in the keyword storage means from the results of the morpheme analysis and output them together with the identifier of the file Keyword collection means to
Initial keyword selection means for selecting a combination of keywords from the keywords collected by the keyword collection means so that the number of files containing the keywords is greater than a predetermined number ;
Display means for classifying and displaying files by keyword from the keyword selected by the initial keyword selection means and the identifier of the text file containing the selected keyword;
An input means for requesting a classification result different from the classification result of the keyword selected by the initial keyword selection means by the user;
Classification keyword refinement means for selecting a keyword combination different from the keyword selected by the initial keyword selection means by using a keyword collected by the keyword collection means and a keyword other than the keyword selected by the initial keyword selection means When,
File set generation means for generating a set having the keyword selected by the classification keyword refinement means and the identifier of the text file including the keyword as elements;
In the display means, the keyword selected by the classification keyword refinement means and the set of file identifiers generated by the file set generation means are classified and displayed again by keywords,
The initial keyword selection means is
From the keywords collected by the keyword collecting means, arrange the keywords in the order of the number of files in which they appear, select a certain number of keywords from the top to classify them,
An information classification apparatus , wherein when a text including a predetermined keyword is also included in a lower keyword, a file identifier is assigned to the lower keyword .
前記キーワード収集手段で収集したキーワードでかつ前記初期キーワード選択手段で選択されたキーワード以外のキーワードを用いて、前記キーワードが出現するファイル数が多い順に並べ、前記初期キーワード選択手段で選択されたキーワードを、前記順に並べた後に並べ、最上位から一定数のキーワードを洗練されたキーワードとして選択する
ことを特徴とする請求項1記載の情報分類装置。In classification keyword refinement means,
The keywords collected by the keyword collecting means and using keywords other than the keyword selected by the initial keyword selecting means are arranged in descending order of the number of files in which the keyword appears, and the keywords selected by the initial keyword selecting means are arranged. The information classification apparatus according to claim 1, wherein the information is arranged after being arranged in the order, and a certain number of keywords are selected as refined keywords from the top.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP09065697A JP4075094B2 (en) | 1997-04-09 | 1997-04-09 | Information classification device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP09065697A JP4075094B2 (en) | 1997-04-09 | 1997-04-09 | Information classification device |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH10283366A JPH10283366A (en) | 1998-10-23 |
JP4075094B2 true JP4075094B2 (en) | 2008-04-16 |
Family
ID=14004578
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP09065697A Expired - Fee Related JP4075094B2 (en) | 1997-04-09 | 1997-04-09 | Information classification device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4075094B2 (en) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000285140A (en) | 1998-12-24 | 2000-10-13 | Ricoh Co Ltd | Device and method for processing document, device and method for classifying document, and computer readable recording medium recorded with program for allowing computer to execute these methods |
WO2000055765A1 (en) * | 1999-03-05 | 2000-09-21 | Cai Co., Ltd. | Method for sorting/searching/abstracting documents |
JP2000348041A (en) * | 1999-06-03 | 2000-12-15 | Nec Corp | Document retrieval method, device therefor and mechanically readable recording medium |
ATE386302T1 (en) | 2000-05-29 | 2008-03-15 | Saora Kabushiki Kaisha | SYSTEM AND METHOD FOR STORING NAVIGATED DATA |
JP2002063212A (en) * | 2000-08-23 | 2002-02-28 | East Site:Kk | Home page retrieving system |
JP4585768B2 (en) * | 2003-03-18 | 2010-11-24 | 株式会社リコー | Document processing apparatus, document processing method, and document processing program |
EP1630692A4 (en) * | 2003-05-19 | 2007-04-11 | Saora Kabushiki Kaisha | Method for processing information, apparatus therefor and program therefor |
US7818689B2 (en) | 2003-09-29 | 2010-10-19 | Olympus Corporation | Information managing method, information managing apparatus, information managing program and storage medium |
JP2007122112A (en) * | 2005-10-25 | 2007-05-17 | Fujifilm Corp | Apparatus and method, and program for setting degree of importance |
JP4857448B2 (en) * | 2006-03-10 | 2012-01-18 | 独立行政法人情報通信研究機構 | Information retrieval apparatus and program using multiple meanings |
JP5018313B2 (en) * | 2007-07-27 | 2012-09-05 | 日本電気株式会社 | Information structuring apparatus, information structuring method, and program |
JP5229226B2 (en) * | 2007-08-21 | 2013-07-03 | 日本電気株式会社 | Information sharing system, information sharing method, and information sharing program |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3577819B2 (en) * | 1995-07-14 | 2004-10-20 | 富士ゼロックス株式会社 | Information search apparatus and information search method |
-
1997
- 1997-04-09 JP JP09065697A patent/JP4075094B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH10283366A (en) | 1998-10-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6434556B1 (en) | Visualization of Internet search information | |
EP1189148A1 (en) | Document search and analysing method and apparatus | |
US6336112B2 (en) | Method for interactively creating an information database including preferred information elements, such as, preferred-authority, world wide web pages | |
JP4381012B2 (en) | Data search system and data search method using universal identifier | |
US20020055919A1 (en) | Method and system for gathering, organizing, and displaying information from data searches | |
JP2005535039A (en) | Interact with desktop clients with geographic text search systems | |
JP4075094B2 (en) | Information classification device | |
JPH09153059A (en) | History display method | |
WO2000075809A1 (en) | Information sorting method, information sorter, recorded medium on which information sorting program is recorded | |
CA2710413A1 (en) | Systems, methods, and software for an intellectual property relationship warehouse and monitor | |
HANCOCK‐BEAULIEU et al. | An evaluation of interactive query expansion in an online library catalogue with a graphical user interface | |
US7849096B2 (en) | Multiple parameter data media search in a distributed network | |
US20040015485A1 (en) | Method and apparatus for improved internet searching | |
KR20000006838A (en) | Search dedicated website and search method on Internet | |
KR100434902B1 (en) | Knowledge base custom made information offer system and service method thereof | |
JP2002215659A (en) | Information retrieval support method and information retrieval support system | |
EP1212697A1 (en) | Method and apparatus for building a user-defined technical thesaurus using on-line databases | |
JPH0486950A (en) | Document retrieving method | |
US8904272B2 (en) | Method of multi-document aggregation and presentation | |
KR100616152B1 (en) | Control method for automatically sending to other web site news automatically classified on internet | |
JP3908634B2 (en) | Search support method and search support device | |
KR20020014026A (en) | News tracker and analysis service based on web personalization | |
JP4189387B2 (en) | Knowledge search system, knowledge search method and program | |
KR101667918B1 (en) | Methodand device of providing query-adaptive smart search service | |
JP2003256472A (en) | System for retrieving document |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040315 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20040413 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20050623 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070313 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070507 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20071009 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071204 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080108 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080121 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110208 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120208 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130208 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |