JP2017072917A - Information processing device, name determination method, and name determination program - Google Patents

Information processing device, name determination method, and name determination program Download PDF

Info

Publication number
JP2017072917A
JP2017072917A JP2015198072A JP2015198072A JP2017072917A JP 2017072917 A JP2017072917 A JP 2017072917A JP 2015198072 A JP2015198072 A JP 2015198072A JP 2015198072 A JP2015198072 A JP 2015198072A JP 2017072917 A JP2017072917 A JP 2017072917A
Authority
JP
Japan
Prior art keywords
category
name
label
information processing
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015198072A
Other languages
Japanese (ja)
Other versions
JP6565565B2 (en
Inventor
貴三郎 福田
Kisaburo Fukuda
貴三郎 福田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2015198072A priority Critical patent/JP6565565B2/en
Publication of JP2017072917A publication Critical patent/JP2017072917A/en
Application granted granted Critical
Publication of JP6565565B2 publication Critical patent/JP6565565B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide an information processing device for determining a name of a category to a name having a relation to a name of a high-order category, and to provide a name determination method and a name determination program.SOLUTION: An information processing device 100 determines a label of the highest-order category C0 of a plurality of hierarchized categories C0, C11, C12 obtained by classifying a plurality of documents T1, T2, T3, T4, T5, T6. The information processing device 100 specifies a label candidate among a plurality of word phrases included in the documents T1, T2, T3 classified to a first hierarchized category C11. Association scores are calculated on the basis of cooccurrence degrees between label candidates of respective categories and the label of the highest-order category C0 of the category C11. A label candidate relatively having the highest association score is determined as the label of the category C11.SELECTED DRAWING: Figure 1

Description

本発明は、情報処理装置、名称決定方法、および名称決定プログラムに関する。   The present invention relates to an information processing apparatus, a name determination method, and a name determination program.

従来、複数の文書を、階層化された複数のカテゴリに分類する技術がある。また、複数のカテゴリのそれぞれのカテゴリに名称を付与する技術がある。ユーザは、それぞれのカテゴリに付与された名称を参照することにより、最上位階層のカテゴリから下位階層のカテゴリへと辿って、所望の文書を探索する。関連する技術としては、例えば、文書DBの文書群とキーワードDBの各文書に付与されたキーワード群を管理し、個々のキーワードに基づいて文書をフォルダに分類して格納し、類似した文書群を持つフォルダを統合するものがある。   Conventionally, there is a technique for classifying a plurality of documents into a plurality of hierarchical categories. There is also a technique for assigning a name to each of a plurality of categories. By referring to the name given to each category, the user traces from the category of the highest hierarchy to the category of the lower hierarchy and searches for a desired document. As a related technique, for example, the document group of the document DB and the keyword group assigned to each document of the keyword DB are managed, the documents are classified and stored in folders based on the individual keywords, and similar document groups are stored. Some have integrated folders.

特開平8−153121号公報JP-A-8-153121

しかしながら、上述した従来技術では、階層化された複数のカテゴリのそれぞれのカテゴリにどのような名称を付与すれば、ユーザが所望の文書を探索しやすくなるか判断することが難しい場合がある。   However, in the above-described prior art, it may be difficult to determine what kind of name is given to each of a plurality of hierarchized categories so that the user can easily search for a desired document.

1つの側面では、本発明は、カテゴリの名称を上位カテゴリの名称と関連性がある名称に決定することができる情報処理装置、名称決定方法、および名称決定プログラムを提供することを目的とする。   In one aspect, an object of the present invention is to provide an information processing apparatus, a name determination method, and a name determination program that can determine the name of a category as a name related to the name of a higher category.

本発明の一側面によれば、複数の文書を分類した階層化された複数のカテゴリに分類した文書集合から前記カテゴリを特徴付ける名称候補を特定し、前記複数の文書における、特定した前記名称候補と、前記カテゴリの上位カテゴリを特徴付ける名称との共起度合いに基づいて、前記カテゴリを特徴付ける名称を決定する情報処理装置、名称決定方法、および名称決定プログラムが提案される。   According to one aspect of the present invention, a name candidate characterizing the category is identified from a document set classified into a plurality of hierarchical categories into which a plurality of documents are classified, and the identified name candidate in the plurality of documents An information processing apparatus, a name determination method, and a name determination program for determining a name characterizing the category based on the degree of co-occurrence with a name characterizing an upper category of the category are proposed.

本発明の一態様によれば、カテゴリの名称を上位カテゴリの名称と関連性がある名称に決定することで、カテゴリの階層間で連想しやすいカテゴリ名称を付与できるという効果を奏する。   According to an aspect of the present invention, by determining the category name to be a name that is related to the name of the upper category, there is an effect that it is possible to give a category name that can be easily associated between the hierarchy of categories.

図1は、本実施の形態にかかる名称決定方法の一実施例を示す説明図である。FIG. 1 is an explanatory diagram illustrating an example of a name determination method according to the present embodiment. 図2は、情報処理装置100のハードウェアの一例を示すブロック図である。FIG. 2 is a block diagram illustrating an example of hardware of the information processing apparatus 100. 図3は、情報処理装置100の機能的構成例を示すブロック図である。FIG. 3 is a block diagram illustrating a functional configuration example of the information processing apparatus 100. 図4は、実施例1における文書DB400のデータ構造の一例を示す説明図である。FIG. 4 is an explanatory diagram illustrating an example of a data structure of the document DB 400 according to the first embodiment. 図5は、実施例1におけるストップワードリスト500のデータ構造の一例を示す説明図である。FIG. 5 is an explanatory diagram illustrating an example of a data structure of the stop word list 500 according to the first embodiment. 図6は、実施例1における複数の文書を複数のカテゴリに分類する一例を示す説明図である。FIG. 6 is an explanatory diagram illustrating an example of classifying a plurality of documents into a plurality of categories according to the first embodiment. 図7は、実施例1における複数のカテゴリのいずれかのカテゴリのラベル候補を特定する一例を示す説明図である。FIG. 7 is an explanatory diagram illustrating an example of specifying a label candidate of any one of a plurality of categories in the first embodiment. 図8は、実施例1におけるラベル候補の連想スコアを算出する一例を示す説明図である。FIG. 8 is an explanatory diagram illustrating an example of calculating an association score for a label candidate in the first embodiment. 図9は、実施例1におけるラベル候補の中からラベルを決定する一例を示す説明図である。FIG. 9 is an explanatory diagram illustrating an example of determining a label from among the label candidates according to the first embodiment. 図10は、実施例1における表示画面の一例を示す説明図である。FIG. 10 is an explanatory diagram illustrating an example of a display screen according to the first embodiment. 図11は、実施例1における検索処理手順の一例を示すフローチャートである。FIG. 11 is a flowchart illustrating an example of a search processing procedure according to the first embodiment. 図12は、実施例1における分類処理手順の一例を示すフローチャートである。FIG. 12 is a flowchart illustrating an example of a classification process procedure according to the first embodiment. 図13は、実施例1における特定処理手順の一例を示すフローチャートである。FIG. 13 is a flowchart illustrating an example of a specific processing procedure according to the first embodiment. 図14は、実施例1における決定処理手順の一例を示すフローチャートである。FIG. 14 is a flowchart illustrating an example of a determination processing procedure according to the first embodiment. 図15は、実施例2における文書DB400のデータ構造の一例を示す説明図である。FIG. 15 is an explanatory diagram illustrating an example of a data structure of the document DB 400 according to the second embodiment. 図16は、実施例3における階層化された複数のカテゴリの一例を示す説明図である。FIG. 16 is an explanatory diagram illustrating an example of a plurality of hierarchized categories in the third embodiment. 図17は、実施例4における決定処理手順の一例を示すフローチャートである。FIG. 17 is a flowchart illustrating an example of a determination processing procedure according to the fourth embodiment.

以下に、図面を参照して、本発明にかかる情報処理装置、名称決定方法、および名称決定プログラムの実施の形態を詳細に説明する。   Exemplary embodiments of an information processing apparatus, a name determination method, and a name determination program according to the present invention will be described below in detail with reference to the drawings.

(本実施の形態にかかる名称決定方法の一実施例)
図1は、本実施の形態にかかる名称決定方法の一実施例を示す説明図である。図1において、情報処理装置100は、本実施の形態にかかる名称決定方法を実現するコンピュータである。情報処理装置100は、例えば、ユーザが所望の文書を発見しやすくする。
(An example of the name determination method according to the present embodiment)
FIG. 1 is an explanatory diagram illustrating an example of a name determination method according to the present embodiment. In FIG. 1, an information processing apparatus 100 is a computer that realizes the name determination method according to the present embodiment. The information processing apparatus 100 makes it easy for a user to find a desired document, for example.

ここで、ユーザが所望の文書を発見しやすくする技術としては、例えば、文書群の中から、ユーザから入力された検索キーワードに関連する文書を抽出するものがある。具体的には、文書群の中から検索キーワードが出現する文書を抽出する技術がある。しかしながら、ユーザが、所望の文書のタイトルなどといった所望の文書に固有の語句を検索キーワードとして入力しなければ、文書群の中から抽出される文書の数が膨大になってしまうことがある。このため、ユーザは、抽出された膨大な文書の中から所望の文書を探すことになり、所望の文書を発見するのにかかる時間が増大してしまう。   Here, as a technique for facilitating the user to find a desired document, for example, there is a technique of extracting a document related to a search keyword input from the user from a document group. Specifically, there is a technique for extracting a document in which a search keyword appears from a document group. However, if the user does not input, as a search keyword, a phrase unique to the desired document such as the title of the desired document, the number of documents extracted from the document group may become enormous. For this reason, the user searches for a desired document from among a large number of extracted documents, and the time required to find the desired document increases.

さらに、例えば、文書群の中から抽出された検索キーワードに関連する複数の文書を階層化された複数のカテゴリに分類し、分類した複数のカテゴリのそれぞれのカテゴリに、当該カテゴリを特徴付ける名称を付与する技術がある。カテゴリとは、所定の基準に従って複数の文書を分類した場合の区分である。カテゴリを特徴付ける名称は、例えば、カテゴリを特徴付ける語句である。カテゴリを特徴付ける名称は、カテゴリを特徴付ける文章であってもよい。しかしながら、カテゴリを特徴付ける名称は、ユーザが当該カテゴリに所望の文書が分類されたか否かを判別しやすい名称であるとは限らない。このため、ユーザは、どの名称が付与されたカテゴリに所望の文書が分類されたか分からず、所望の文書が分類されていないカテゴリに分類された文書集合を調べてしまうことがあり、所望の文書を発見するのにかかる時間が増大してしまう。   Furthermore, for example, a plurality of documents related to a search keyword extracted from a document group are classified into a plurality of hierarchized categories, and a name characterizing the category is given to each of the classified categories. There is technology to do. A category is a classification when a plurality of documents are classified according to a predetermined standard. The name that characterizes the category is, for example, a word that characterizes the category. The name that characterizes the category may be a sentence that characterizes the category. However, the name that characterizes the category is not necessarily a name that allows the user to easily determine whether or not a desired document has been classified into the category. For this reason, the user does not know which name the desired document is classified in, and may check the document set classified in the category where the desired document is not classified. The time it takes to discover will increase.

そこで、本実施の形態では、あるカテゴリの上位カテゴリを特徴付ける名称と関連性がある語句を、あるカテゴリを特徴付ける名称に決定することができる名称決定方法について説明する。これによれば、複数のカテゴリのそれぞれのカテゴリを特徴付ける名称を体制化することができる。体制化とは、複数のカテゴリのそれぞれのカテゴリを特徴付ける名称を関連性のある名称にすることである。以下の説明では、カテゴリを特徴付ける名称を「ラベル」と表記する場合がある。   Therefore, in the present embodiment, a name determination method capable of determining a phrase that is related to a name that characterizes an upper category of a certain category as a name that characterizes a certain category will be described. According to this, it is possible to organize a name that characterizes each of a plurality of categories. Organization is to make names that characterize each category of a plurality of categories relevant names. In the following description, a name that characterizes a category may be referred to as a “label”.

<情報処理装置100の処理の一例>
図1において、情報処理装置100は、複数の文書を分類した階層化された複数のカテゴリのそれぞれのカテゴリのラベルを決定する。文書とは、1または複数の文を示すデータである。文書は、例えば、帳票、企画書、設計書、マニュアル、特許文献、技術文献、論文、法令、規定、議事録、ニュース記事、電子メール、ウェブページ、または書籍などを示すデータである。
<Example of Processing of Information Processing Device 100>
In FIG. 1, the information processing apparatus 100 determines a label for each of a plurality of hierarchized categories in which a plurality of documents are classified. A document is data indicating one or more sentences. The document is data indicating, for example, a form, a plan, a design, a manual, a patent document, a technical document, a paper, a law, a regulation, a minutes, a news article, an e-mail, a web page, a book, or the like.

複数の文書は、例えば、情報処理装置100が有する記憶装置に記憶された文書群である。また、複数の文書は、情報処理装置100が有する記憶装置に記憶された文書群の中から、情報処理装置100がユーザから入力された検索キーワードに基づいて検索した文書であってもよい。また、複数の文書は、情報処理装置100が他の装置から取得した文書であってもよい。そして、複数の文書は、情報処理装置100によって、階層化された複数のカテゴリに分類される。   The plurality of documents is, for example, a document group stored in a storage device included in the information processing apparatus 100. The plurality of documents may be documents searched by the information processing apparatus 100 based on a search keyword input from a user from a document group stored in a storage device included in the information processing apparatus 100. The plurality of documents may be documents acquired by the information processing apparatus 100 from another apparatus. The plurality of documents are classified into a plurality of hierarchical categories by the information processing apparatus 100.

また、複数の文書は、例えば、情報処理装置100が有する記憶装置に記憶された、予め階層化された複数のカテゴリに分類された文書群であってもよい。また、複数の文書は、予め階層化された複数のカテゴリに分類された文書群の中から、情報処理装置100が検索キーワードに基づいて検索した文書であってもよい。   In addition, the plurality of documents may be, for example, a document group that is stored in a storage device included in the information processing apparatus 100 and is classified into a plurality of categories that are hierarchized in advance. The plurality of documents may be documents searched by the information processing apparatus 100 based on a search keyword from a group of documents classified into a plurality of categories hierarchized in advance.

また、複数の文書は、情報処理装置100とは異なる他の装置によって、階層化された複数のカテゴリに分類されてもよい。そして、複数の文書は、階層化された複数のカテゴリに分類された状態で、情報処理装置100によって取得される。カテゴリは、複数の文書のうちの一部が分類された区分である。カテゴリは、例えば、あるキーワードが出現する文書が分類された区分である。カテゴリは、例えば、キーワードの出現傾向が類似する文書が分類された区分であってもよい。   The plurality of documents may be classified into a plurality of hierarchized categories by another device different from the information processing device 100. The plurality of documents are acquired by the information processing apparatus 100 in a state of being classified into a plurality of hierarchized categories. The category is a classification in which a part of a plurality of documents is classified. The category is, for example, a classification into which documents in which a certain keyword appears are classified. The category may be, for example, a category in which documents having similar keyword appearance tendencies are classified.

図1の例では、情報処理装置100は、複数の文書T1,T2,T3,T4,T5,T6を分類した階層化された複数のカテゴリC0,C11,C12のそれぞれのカテゴリのラベルを決定する。複数の文書T1,T2,T3,T4,T5,T6は、例えば、情報処理装置100によって、情報処理装置100が有する記憶装置に記憶された文書群の中から検索された、検索キーワード「特許」が出現する文書である。   In the example of FIG. 1, the information processing apparatus 100 determines a label for each of a plurality of hierarchized categories C0, C11, and C12 in which a plurality of documents T1, T2, T3, T4, T5, and T6 are classified. . The plurality of documents T1, T2, T3, T4, T5, and T6 are searched by the information processing apparatus 100 from a group of documents stored in a storage device included in the information processing apparatus 100, for example. Is a document that appears.

カテゴリC0は、最上位階層のカテゴリである。カテゴリC0は、文書T1,T2,T3,T4,T5,T6を含む文書集合Ts0が分類されたカテゴリである。カテゴリC11,C12は、最上位階層のカテゴリに分類された文書集合がさらに細かく分類された、最上位階層の1つ下位にある第1階層のカテゴリである。カテゴリC11,C12は、例えば、情報処理装置100によって、複数の文書T1,T2,T3,T4,T5,T6のうち、キーワードの出現傾向が類似する文書集合が分類されたカテゴリである。出現傾向が類似するとは、出現するキーワードのパターンが類似することである。出現傾向が類似するとは、例えば、あるキーワードが共通して出現することや、あるキーワードが共通して出現しないことである。出現傾向が類似するか否かは、具体的には、例えば、図6に後述するコサイン類似度などを用いて判断される。   The category C0 is a category at the highest level. The category C0 is a category in which the document set Ts0 including the documents T1, T2, T3, T4, T5, and T6 is classified. The categories C11 and C12 are categories in the first hierarchy that is one level lower than the highest hierarchy, in which the document set classified in the category of the highest hierarchy is further finely classified. The categories C11 and C12 are categories in which, for example, the information processing apparatus 100 classifies document sets having similar keyword appearance tendencies among a plurality of documents T1, T2, T3, T4, T5, and T6. “Appearance tendency is similar” means that the patterns of appearing keywords are similar. The appearance tendency is similar, for example, that a certain keyword appears in common or a certain keyword does not appear in common. Specifically, whether or not the appearance tendencies are similar is determined using, for example, a cosine similarity described later in FIG.

カテゴリC11は、文書T1,T2,T3を含む文書集合Ts11が分類されたカテゴリである。カテゴリC11は、例えば、「スライド、本出願、修正、申請、実施例」などのキーワードの出現傾向が類似する文書集合Ts11が分類されたカテゴリである。カテゴリC11は、具体的には、例えば、「スライド、本出願、修正、申請、実施例」などのキーワードが共通して出現する文書集合Ts11が分類されたカテゴリである。カテゴリC12は、文書T4,T5,T6を含む文書集合Ts12が分類されたカテゴリである。カテゴリC12は、例えば、「確認、実験、仮出願、スライド、依頼」などのキーワードの出現傾向が類似する文書集合Ts12が分類されたカテゴリである。カテゴリC12は、具体的には、例えば、「確認、実験、仮出願、スライド、依頼」などのキーワードが共通して出現する文書集合Ts12が分類されたカテゴリである。   The category C11 is a category in which the document set Ts11 including the documents T1, T2, and T3 is classified. The category C11 is a category in which, for example, a document set Ts11 having a similar keyword appearance tendency such as “slide, present application, correction, application, example” is classified. Specifically, the category C11 is a category in which, for example, a document set Ts11 in which keywords such as “slide, present application, modification, application, and example” appear in common is classified. The category C12 is a category in which the document set Ts12 including the documents T4, T5, and T6 is classified. The category C12 is a category in which, for example, a document set Ts12 having similar keyword appearance tendency such as “confirmation, experiment, provisional application, slide, request” is classified. Specifically, the category C12 is a category in which, for example, a document set Ts12 in which keywords such as “confirmation, experiment, provisional application, slide, request” appear in common is classified.

以下の説明では、最上位階層のカテゴリを「最上位カテゴリ」と表記する場合がある。また、以下の説明では、あるカテゴリに分類された文書集合がさらに細かく分類され、当該文書集合の一部が分類された、あるカテゴリよりも下位階層のカテゴリを、あるカテゴリの「下位カテゴリ」と表記する場合がある。また、以下の説明では、あるカテゴリの下位カテゴリのうち、あるカテゴリよりも1つ下位階層のカテゴリを「直下位カテゴリ」と表記する場合がある。   In the following description, the category of the highest hierarchy may be referred to as “the highest category”. Further, in the following description, a document set classified into a certain category is further classified, and a category lower than a certain category into which a part of the document set is classified is referred to as a “subcategory” of a category. May be written. In the following description, a category that is one level lower than a certain category among the lower categories of a certain category may be referred to as “directly lower category”.

また、以下の説明では、あるカテゴリに分類された文書集合を一部として含む文書集合が分類された、あるカテゴリよりも上位階層のカテゴリを、あるカテゴリの「上位カテゴリ」と表記する場合がある。また、以下の説明では、あるカテゴリの上位カテゴリのうち、あるカテゴリよりも1つ上位階層のカテゴリを、あるカテゴリの「直上位カテゴリ」と表記する場合がある。図1の例では、カテゴリC11,C12は、カテゴリC0の下位カテゴリである。一方で、カテゴリC0は、カテゴリC11,C12の上位カテゴリである。   In the following description, a category higher than a certain category in which a document set including a document set classified into a certain category is classified may be referred to as a “higher category” of a certain category. . In the following description, a category that is one level higher than a certain category among higher categories of a certain category may be referred to as a “directly higher category” of a certain category. In the example of FIG. 1, the categories C11 and C12 are lower categories of the category C0. On the other hand, the category C0 is an upper category of the categories C11 and C12.

(1)情報処理装置100は、最上位カテゴリC0のラベルを決定する。情報処理装置100は、例えば、最上位カテゴリC0に分類された文書T1,T2,T3,T4,T5,T6が、入力された検索キーワードに基づいて検索された文書である場合には、検索キーワードを最上位カテゴリC0のラベルに決定する。   (1) The information processing apparatus 100 determines the label of the highest category C0. For example, when the documents T1, T2, T3, T4, T5, and T6 classified in the highest category C0 are documents searched based on the input search keyword, the information processing apparatus 100 searches the search keyword. Is determined as the label of the highest category C0.

また、情報処理装置100は、最上位カテゴリC0に分類された文書T1,T2,T3,T4,T5,T6に出現する複数の語句の中から、最上位カテゴリC0の名称候補を特定してもよい。カテゴリの名称候補とは、カテゴリの名称となりうる語句である。カテゴリの名称候補とは、カテゴリの名称となりうる文章であってもよい。そして、情報処理装置100は、特定した名称候補のいずれかを、カテゴリのラベルに決定する。以下の説明では、名称候補を「ラベル候補」と表記する場合がある。図1の例では、情報処理装置100は、検索キーワード「特許」を、最上位カテゴリC0のラベルに決定する。   Further, the information processing apparatus 100 may identify a name candidate of the highest category C0 from a plurality of words appearing in the documents T1, T2, T3, T4, T5, and T6 classified in the highest category C0. Good. A category name candidate is a phrase that can be a category name. The category name candidate may be a sentence that can be a category name. Then, the information processing apparatus 100 determines any of the identified name candidates as a category label. In the following description, the name candidate may be referred to as “label candidate”. In the example of FIG. 1, the information processing apparatus 100 determines the search keyword “patent” as the label of the highest category C0.

(2)情報処理装置100は、第1階層のカテゴリC11のラベル候補を特定する。情報処理装置100は、例えば、カテゴリC11に分類された文書T1,T2,T3に出現する複数の語句の中から、ラベル候補を特定する。   (2) The information processing apparatus 100 specifies a label candidate of the category C11 in the first hierarchy. For example, the information processing apparatus 100 identifies a label candidate from a plurality of words that appear in the documents T1, T2, and T3 classified into the category C11.

情報処理装置100は、具体的には、カテゴリC11に分類された文書T1,T2,T3における複数の語句のそれぞれの出現回数に基づいて、複数の語句の中からラベル候補を特定する。ここで、出現回数は、カテゴリを特徴付ける観点からのラベルとしての尤度を示す指標として用いられる。情報処理装置100は、より具体的には、出現回数が相対的に高い語句のいくつかを、ラベル候補として特定する。図1の例では、情報処理装置100は、ラベル候補「スライド」、「本出願」、「修正」、「申請」、「実施例」を特定する。   Specifically, the information processing apparatus 100 specifies a label candidate from the plurality of words / phrases based on the number of appearances of the plurality of words / phrases in the documents T1, T2, and T3 classified into the category C11. Here, the number of appearances is used as an index indicating the likelihood as a label from the viewpoint of characterizing the category. More specifically, the information processing apparatus 100 identifies some of the phrases having a relatively high number of appearances as label candidates. In the example of FIG. 1, the information processing apparatus 100 identifies label candidates “slide”, “present application”, “correction”, “application”, and “example”.

ここでは、情報処理装置100が、出現回数に基づいてラベル候補を特定する場合について説明したが、これに限らない。例えば、情報処理装置100は、出現回数を正規化した値、または出現回数をカテゴリに分類された文書の数で除算した値に基づいてラベル候補を特定してもよい。また、ここでは、情報処理装置100が、出現回数が相対的に高い語句を、ラベル候補として特定する場合について説明したが、これに限らない。例えば、情報処理装置100は、出現回数が閾値よりも大きい語句を、ラベル候補として特定してもよい。   Here, a case has been described in which the information processing apparatus 100 specifies a label candidate based on the number of appearances. For example, the information processing apparatus 100 may specify a label candidate based on a value obtained by normalizing the number of appearances or a value obtained by dividing the number of appearances by the number of documents classified into categories. In addition, here, a case has been described in which the information processing apparatus 100 identifies a phrase having a relatively high number of appearances as a label candidate, but the present invention is not limited thereto. For example, the information processing apparatus 100 may specify a word / phrase whose number of appearances is greater than a threshold as a label candidate.

また、ここでは、情報処理装置100が、出現回数に基づいて、ラベル候補を特定する場合について説明したが、これに限らない。例えば、情報処理装置100は、出現回数とは異なる指標に基づいて、ラベル候補を特定してもよい。具体的には、情報処理装置100は、TF−IDF(Term Frequency−Inverse Document Frequency)やC−Valueに基づいて、ラベル候補を決定する。TF−IDFやC−Valueについては、図7を用いて後述する。   In addition, here, a case has been described in which the information processing apparatus 100 specifies a label candidate based on the number of appearances, but the present invention is not limited thereto. For example, the information processing apparatus 100 may specify a label candidate based on an index different from the number of appearances. Specifically, the information processing apparatus 100 determines a label candidate based on TF-IDF (Term Frequency-Inverse Document Frequency) or C-Value. TF-IDF and C-Value will be described later with reference to FIG.

また、ここでは、情報処理装置100が、出現回数に基づいて、ラベル候補を特定することができた場合について説明したが、これに限らない。例えば、情報処理装置100は、出現回数に基づいて、ラベル候補を特定することができなかった場合には、出現回数とは異なる指標を用いてラベル候補を特定しなおしてもよい。具体的には、情報処理装置100は、出現回数に基づいて、ラベル候補を特定することができなかった場合には、TF−IDFやC−Valueに基づいて、ラベル候補を決定する。   Although the case where the information processing apparatus 100 can identify a label candidate based on the number of appearances has been described here, the present invention is not limited thereto. For example, when the information processing apparatus 100 cannot identify the label candidate based on the number of appearances, the information processing apparatus 100 may re-specify the label candidate using an index different from the number of appearances. Specifically, the information processing apparatus 100 determines a label candidate based on TF-IDF or C-Value when the label candidate cannot be specified based on the number of appearances.

(3)情報処理装置100は、第1階層のカテゴリC11のラベルを決定する。情報処理装置100は、例えば、特定したラベル候補「スライド」、「本出願」、「修正」、「申請」、「実施例」のいずれかを、カテゴリC11のラベルに決定する。情報処理装置100は、具体的には、それぞれのカテゴリのラベル候補と、カテゴリC11の上位カテゴリC0のラベルとの共起度合いに基づいて、特定したラベル候補のいずれかを、カテゴリC11のラベルに決定する。共起とは、文書、または所定数連続する文において、2つの語句が同時に出現することである。共起度合いとは、2つの語句の共起しやすさを示す。   (3) The information processing apparatus 100 determines the label of the category C11 in the first hierarchy. For example, the information processing apparatus 100 determines any one of the identified label candidates “slide”, “present application”, “correction”, “application”, and “example” as a label of the category C11. Specifically, the information processing apparatus 100 sets one of the identified label candidates as the label of the category C11 based on the co-occurrence degree of the label candidate of each category and the label of the upper category C0 of the category C11. decide. Co-occurrence means that two words appear simultaneously in a document or a predetermined number of sentences. The co-occurrence degree indicates the ease with which two words can co-occur.

ここで、2つの語句が共起することは、2つの語句が一文または所定数連続する文に同時に出現することを示し、2つの語句が同じ話題について述べる語句の組み合わせである可能性があることを示す。これによれば、2つの語句の共起度合いが高いほど、2つの語句は、同じ話題について述べる語句の組み合わせである可能性が高くなり、関連性のある語句の組み合わせである可能性が高くなる。例えば、共起する2つの語句の組み合わせは、「特許」と「出願」との組み合わせ、「音声」と「認識」との組み合わせ、「メール」と「受信」との組み合わせなどである。   Here, the co-occurrence of two words means that the two words appear simultaneously in one sentence or a predetermined number of sentences, and the two words may be a combination of words that describe the same topic. Indicates. According to this, the higher the degree of co-occurrence of two phrases, the more likely that the two phrases are a combination of phrases that describe the same topic, and a higher possibility that they are a combination of related phrases. . For example, the combinations of two words that co-occur are a combination of “patent” and “application”, a combination of “voice” and “recognition”, a combination of “mail” and “reception”, and the like.

したがって、ラベル候補と上位カテゴリのラベルとの共起度合いが高いほど、ラベル候補と上位カテゴリのラベルとの関連性が高いことを示すことになる。このため、共起度合いは、上位カテゴリのラベルとの関連性の観点からのラベルとしての尤度を示す指標として用いられる。共起度合いは、例えば、最上位カテゴリに分類された文書集合における共起回数、当該共起回数を正規化した値、および当該共起回数を最上位カテゴリに分類された文書集合の文書の数で除算した値などである。また、共起度合いは、例えば、最上位カテゴリに分類された文書集合の一部における共起回数、当該共起回数を正規化した値、および当該共起回数を最上位カテゴリに分類された文書集合の文書の数で除算した値などであってもよい。   Therefore, the higher the co-occurrence degree between the label candidate and the label of the higher category, the higher the relevance between the label candidate and the label of the higher category. For this reason, the co-occurrence degree is used as an index indicating the likelihood as a label from the viewpoint of relevance with the label of the upper category. The co-occurrence degree is, for example, the number of co-occurrence in a document set classified in the highest category, a value obtained by normalizing the number of co-occurrence, and the number of documents in the document set classified in the highest category. For example, the value divided by. The co-occurrence degree is, for example, the number of co-occurrence in a part of the document set classified into the highest category, a value obtained by normalizing the co-occurrence number, and a document in which the co-occurrence number is classified into the highest category. It may be a value divided by the number of documents in the set.

また、共起度合いは、例えば、ラベル候補の特定元のカテゴリに分類された文書集合における当該共起回数を正規化した値、および当該共起回数をラベル候補の特定元のカテゴリに分類された文書集合の文書の数で除算した値などであってもよい。また、共起度合いは、例えば、ラベル候補の特定元のカテゴリに分類された文書集合の一部における共起回数、当該共起回数を正規化した値、および当該共起回数をラベル候補の特定元のカテゴリに分類された文書集合の文書の数で除算した値などであってもよい。   The co-occurrence degree is, for example, a value obtained by normalizing the number of times of co-occurrence in a document set classified into the category of identification source of the label candidate, and the number of times of co-occurrence classified into the category of identification source of the label candidate. It may be a value obtained by dividing the number of documents in the document set. The co-occurrence degree is, for example, the number of co-occurrence in a part of a document set classified in the category of the label candidate specifying source, a value obtained by normalizing the co-occurrence number, and the co-occurrence number. It may be a value obtained by dividing the number of documents in the document set classified into the original category.

情報処理装置100は、より具体的には、それぞれのラベル候補と、カテゴリC11の上位カテゴリC0のラベルとの共起度合いを算出する。そして、情報処理装置100は、共起度合いが相対的に最も高いラベル候補を、カテゴリC11のラベルに決定する。図1の例では、情報処理装置100は、ラベル候補「本出願」をカテゴリC11のラベルに決定する。   More specifically, the information processing apparatus 100 calculates the co-occurrence degree of each label candidate and the label of the upper category C0 of the category C11. Then, the information processing apparatus 100 determines the label candidate having the highest co-occurrence degree as the label of the category C11. In the example of FIG. 1, the information processing apparatus 100 determines the label candidate “present application” as a label of category C11.

ここでは、情報処理装置100が、共起度合いが相対的に最も高いラベル候補を、カテゴリのラベルに決定する場合について説明したが、これに限らない。例えば、情報処理装置100は、共起度合いが閾値以上のラベル候補のいずれかを、カテゴリのラベルに決定してもよい。具体的には、情報処理装置100は、最上位カテゴリに分類された文書集合における共起回数を正規化した値、または共起回数を文書の数で除算した値が閾値以上のラベル候補のいずれかを、カテゴリのラベルに決定する。   Here, a case has been described in which the information processing apparatus 100 determines a label candidate having the highest co-occurrence degree as a category label, but the present invention is not limited to this. For example, the information processing apparatus 100 may determine any label candidate having a co-occurrence degree equal to or greater than a threshold as a category label. Specifically, the information processing apparatus 100 selects any one of the label candidates in which a value obtained by normalizing the number of times of co-occurrence in a document set classified into the highest category or a value obtained by dividing the number of times of co-occurrence by the number of documents is equal to or greater than a threshold value. Is determined as the category label.

また、ここでは、情報処理装置100が、特定したラベル候補のいずれかを、カテゴリのラベルに決定する場合について説明したが、これに限らない。例えば、情報処理装置100は、共起度合いに基づいて、ラベル候補のそれぞれをラベルにするか否かを判定してもよい。具体的には、情報処理装置100は、ラベル候補のそれぞれの共起度合いが閾値以上であるか否かを判定し、共起度合いが閾値以上であるラベル候補をラベルにすると判定する。情報処理装置100は、共起度合いが閾値以上であるラベル候補が複数ある場合には、共起度合いが閾値以上である複数のラベル候補をラベルにしてもよい。   In addition, here, a case has been described in which the information processing apparatus 100 determines one of the identified label candidates as a category label, but the present invention is not limited thereto. For example, the information processing apparatus 100 may determine whether or not each of the label candidates is a label based on the co-occurrence degree. Specifically, the information processing apparatus 100 determines whether or not the co-occurrence degree of each label candidate is equal to or greater than a threshold, and determines that the label candidate whose co-occurrence degree is equal to or greater than the threshold is used as a label. When there are a plurality of label candidates whose co-occurrence degree is equal to or greater than the threshold, the information processing apparatus 100 may label the plurality of label candidates whose co-occurrence degree is equal to or greater than the threshold.

また、情報処理装置100は、特定したラベル候補を1つずつラベルに決定するか否かを判定してもよい。情報処理装置100は、例えば、特定したラベル候補を1つずつ選択する。次に、情報処理装置100は、選択したラベル候補について共起度合いが閾値以上であるか否かを判定する。そして、情報処理装置100は、共起度合いが閾値以上と判定した時点で、ラベル候補を選択するのを停止するとともに、共起度合いが閾値以上のラベル候補をカテゴリのラベルに決定する。   Further, the information processing apparatus 100 may determine whether or not the identified label candidates are determined as labels one by one. For example, the information processing apparatus 100 selects the identified label candidates one by one. Next, the information processing apparatus 100 determines whether the co-occurrence degree of the selected label candidate is equal to or greater than a threshold value. Then, when the information processing apparatus 100 determines that the co-occurrence degree is equal to or greater than the threshold value, the information processing apparatus 100 stops selecting the label candidate and determines a label candidate whose co-occurrence degree is equal to or greater than the threshold value as a category label.

また、情報処理装置100は、共起度合いが閾値以上であるラベル候補がない場合には、共起度合いが相対的に最も高いラベル候補をラベルに決定してもよい。また、情報処理装置100は、共起度合いが閾値以上であるラベル候補がない場合には、上記(2)に戻りラベル候補を特定しなおしてもよい。   In addition, when there is no label candidate whose co-occurrence degree is equal to or greater than the threshold, the information processing apparatus 100 may determine a label candidate having the highest co-occurrence degree as a label. In addition, when there is no label candidate whose co-occurrence degree is equal to or greater than the threshold, the information processing apparatus 100 may return to (2) and specify the label candidate again.

また、情報処理装置100は、特定したラベル候補が1つである場合には、特定したラベル候補を、共起度合いに関わらずカテゴリのラベルに決定してもよい。また、情報処理装置100は、特定したラベル候補が1つである場合には、上記(2)に戻りラベル候補を特定しなおしてもよい。   Further, when there is one identified label candidate, the information processing apparatus 100 may determine the identified label candidate as a category label regardless of the co-occurrence degree. Further, when there is one identified label candidate, the information processing apparatus 100 may return to (2) and identify the label candidate again.

(4)情報処理装置100は、第1階層のカテゴリC11と同様にして、第1階層のカテゴリC12のラベル候補を特定する。そして、情報処理装置100は、第1階層のカテゴリC11と同様にして、第1階層のカテゴリC12のラベルを決定する。図1の例では、情報処理装置100は、ラベル候補「仮出願」をカテゴリC12のラベルに決定する。   (4) The information processing apparatus 100 specifies the label candidate of the category C12 of the first hierarchy in the same manner as the category C11 of the first hierarchy. Then, the information processing apparatus 100 determines the label of the first layer category C12 in the same manner as the first layer category C11. In the example of FIG. 1, the information processing apparatus 100 determines a label candidate “provisional application” as a label of category C12.

これにより、情報処理装置100は、カテゴリC11,C12を特徴付ける観点に加えて、カテゴリC11,C12の上位カテゴリC0のラベルとの関連性の観点から、カテゴリC11,C12のラベルを決定することができる。そして、情報処理装置100は、複数のカテゴリのそれぞれのカテゴリのラベルとして、当該カテゴリの上位カテゴリのラベルと関連性があるラベルを付与することができる。   Thereby, the information processing apparatus 100 can determine the labels of the categories C11 and C12 from the viewpoint of the relevance with the labels of the upper category C0 of the categories C11 and C12 in addition to the viewpoint of characterizing the categories C11 and C12. . Then, the information processing apparatus 100 can assign a label that is related to the label of the higher category of the category as the label of each category of the plurality of categories.

ここで、カテゴリC11,C12の上位カテゴリC0に分類された文書集合のそれぞれの文書は、少なくとも上位カテゴリC0のラベルが示す話題についての文書であるとともに、当該話題と関連する種々の話題についての文書でもある。そして、カテゴリC11,C12に分類された文書集合のそれぞれの文書は、上位カテゴリC0のラベルが示す話題と関連する種々の話題のうちの1または複数の話題についての文書である。   Here, each document in the document set classified into the upper category C0 of the categories C11 and C12 is a document on at least the topic indicated by the label of the upper category C0, and documents on various topics related to the topic. But there is. Each document in the document set classified into the categories C11 and C12 is a document on one or more topics among various topics related to the topic indicated by the label of the upper category C0.

あるカテゴリを特徴付ける観点のみを考慮して、あるカテゴリにラベルを付与すると、あるカテゴリのラベルとして、上位カテゴリのラベルとの関連性が相対的に低いラベルが付与されてしまう場合がある。この場合、ユーザは、あるカテゴリに付与されたラベルが示す話題が何かを把握しても、あるカテゴリに、上位カテゴリのラベルが示す話題に関連する種々の話題のうちの何の話題についての文書が分類されたのかを把握することが難しい。   Considering only the viewpoint that characterizes a certain category, if a label is given to a certain category, a label having a relatively low relationship with the label of the higher category may be given as the label of the certain category. In this case, even if the user grasps what the topic indicated by the label assigned to a certain category is, the user can determine what topic among various topics related to the topic indicated by the label of the higher category in a certain category. It is difficult to know if a document has been classified.

一方で、情報処理装置100によれば、あるカテゴリのラベルとして、上位カテゴリのラベルとの関連性が相対的に高いラベルを付与することができる。これにより、ユーザは、あるカテゴリに付与されたラベルが示す話題を把握すれば、あるカテゴリに、上位カテゴリのラベルが示す話題に関連する種々の話題のうちの何の話題についての文書が分類されたのかを把握しやすくなる。   On the other hand, according to the information processing apparatus 100, as a label of a certain category, a label having a relatively high relationship with a label of a higher category can be given. As a result, if the user grasps the topic indicated by the label assigned to a certain category, the document on what topic among the various topics related to the topic indicated by the label of the higher category is classified into the certain category. It becomes easy to grasp whether it was.

結果として、ユーザは、所望の文書が属する話題についての文書が分類されたカテゴリを把握しやすくなり、上位階層から下位階層へとカテゴリを辿って所望の文書が分類されたカテゴリを探索しやすくなる。また、ユーザは、所望の文書が分類されていないカテゴリに分類された文書集合を調べてしまい、所望の文書を発見するのにかかる時間が増大してしまうことを抑制することができる。このように、情報処理装置100は、ユーザが所望の文書が分類されたカテゴリを探索しやすくなるように複数のカテゴリのそれぞれのカテゴリにラベルを付与することができる。   As a result, it becomes easier for the user to grasp the category in which the document about the topic to which the desired document belongs, and to search for the category in which the desired document is classified by tracing the category from the upper hierarchy to the lower hierarchy. . Further, the user can suppress an increase in the time taken to find a desired document by examining a document set classified into a category in which the desired document is not classified. In this way, the information processing apparatus 100 can give a label to each category of the plurality of categories so that the user can easily search for a category in which a desired document is classified.

例えば、カテゴリC11を特徴付ける観点のみを考慮してカテゴリC11にラベルを付与すると、カテゴリC11に、出現回数が相対的に最も高いが、共起度合いが相対的に低いラベルが付与されてしまう場合がある。具体的には、カテゴリC11に、上位カテゴリC0のラベル「特許」との関連性が相対的に低いラベル「スライド」が付与されてしまう場合がある。この場合では、ユーザは、カテゴリC11のラベル「スライド」を参照しても、「特許」との関連性が相対的に低いため、「特許」についての文書集合Ts0のうち、「特許」に関連する何の話題についてカテゴリC11に分類されたのかを把握することが難しい。   For example, if a label is assigned to the category C11 in consideration of only the viewpoint characterizing the category C11, a label having the relatively highest number of appearances but a relatively low co-occurrence degree may be assigned to the category C11. is there. Specifically, the label “slide” having a relatively low relevance to the label “patent” of the upper category C0 may be given to the category C11. In this case, even if the user refers to the label “slide” of the category C11, since the relevance to “patent” is relatively low, the user is related to “patent” in the document set Ts0 for “patent”. It is difficult to grasp what topics are classified into the category C11.

一方で、図1の例では、情報処理装置100は、出現回数が相対的に最も高いラベル候補「スライド」ではなく、出現回数が高く、かつ共起度合いも高いラベル候補「本出願」を、カテゴリC11のラベルとして付与することができる。換言すれば、情報処理装置100は、共起度合いが相対的に最も高いため、カテゴリC11の上位カテゴリC0のラベル「特許」との関連性が相対的に高いラベル「本出願」を、カテゴリC11に付与することができる。これにより、ユーザは、カテゴリC11のラベル「本出願」を参照して、「特許」についての文書集合Ts0のうち、「本出願」について細かく分類され、「本出願」についての文書集合がカテゴリC11に分類されたことを把握しやすくなる。   On the other hand, in the example of FIG. 1, the information processing apparatus 100 does not display the label candidate “slide” having the relatively highest number of appearances, but the label candidate “present application” having a high appearance number and a high degree of co-occurrence. It can be given as a label of category C11. In other words, since the co-occurrence degree is relatively highest, the information processing apparatus 100 assigns the label “present application” having a relatively high relevance to the label “patent” of the upper category C0 of the category C11 to the category C11. Can be granted. As a result, the user refers to the label “present application” of category C11 and finely classifies “present application” out of the document set Ts0 for “patent”, and the document set for “present application” is classified into category C11. It becomes easy to grasp that it was classified into.

また、図1のように、情報処理装置100は、最上位カテゴリに、ユーザから入力された検索キーワードをラベルとして付与することができる。このため、ユーザは、複数のカテゴリのそれぞれのカテゴリのラベルを参照して、複数のカテゴリのそれぞれのカテゴリに、ユーザが入力した検索キーワード「特許」に関連する何の話題についての文書集合が分類されたのかを把握しやすくなる。   As illustrated in FIG. 1, the information processing apparatus 100 can assign a search keyword input by the user as a label to the highest category. For this reason, the user refers to the label of each category of the plurality of categories, and the document set about what topic related to the search keyword “patent” input by the user is classified into each category of the plurality of categories. It will be easier to understand what has been done.

ここで、図1において、ユーザが、「本出願」についての所望の文書を探索する場合を例に挙げる。この場合では、ユーザは、最上位カテゴリC0に分類された文書集合Ts0が、「特許」についての文書の集まりであることを把握する。次に、ユーザは、第1階層のカテゴリC11に分類された文書集合Ts11が、「特許」についての文書集合のうち、「特許」に関連する話題である「本出願」についての文書の集まりであることを把握する。そして、ユーザは、カテゴリC11に分類された文書集合の中から所望の文書を探索する。このようにして、ユーザは、所望の文書を発見することができる。   Here, in FIG. 1, a case where the user searches for a desired document regarding “this application” is taken as an example. In this case, the user grasps that the document set Ts0 classified into the highest category C0 is a collection of documents regarding “patent”. Next, the user is a collection of documents regarding the “present application”, which is a topic related to “patents”, among the document sets regarding “patents”. Know that there is. Then, the user searches for a desired document from the document set classified into the category C11. In this way, the user can find a desired document.

(情報処理装置100を適用するシステムの一例)
次に、図1に示した情報処理装置100を適用するシステムの一例について説明する。
(An example of a system to which the information processing apparatus 100 is applied)
Next, an example of a system to which the information processing apparatus 100 illustrated in FIG. 1 is applied will be described.

例えば、情報処理装置100は、ユーザが検索キーワードに基づいて所望の文書を検索するシステムに適用することができる。情報処理装置100は、例えば、ユーザから検索キーワードの入力を受け付ける。次に、情報処理装置100は、記憶装置に記憶された文書群の中から検索キーワードに関連する複数の文書を抽出する。そして、情報処理装置100は、抽出した複数の文書を階層化された複数のカテゴリに分類する。次に、情報処理装置100は、複数のカテゴリの最上位カテゴリのラベルとして検索キーワードを付与するとともに、残余のカテゴリのそれぞれのカテゴリにラベルを付与する。そして、情報処理装置100は、それぞれのカテゴリに付与されたラベルを表示する。   For example, the information processing apparatus 100 can be applied to a system in which a user searches for a desired document based on a search keyword. For example, the information processing apparatus 100 receives an input of a search keyword from a user. Next, the information processing apparatus 100 extracts a plurality of documents related to the search keyword from the document group stored in the storage device. The information processing apparatus 100 classifies the extracted documents into a plurality of hierarchized categories. Next, the information processing apparatus 100 assigns a search keyword as a label of the highest category among a plurality of categories and assigns a label to each of the remaining categories. Then, the information processing apparatus 100 displays the labels assigned to the respective categories.

これにより、ユーザは、あるカテゴリの下位カテゴリに、あるカテゴリのラベルが示す話題についての文書集合のうちの、何の話題についての文書集合が抽出され、細かく分類されたのかを把握することができる。このため、ユーザは、入力した検索キーワードをラベルとして付与された最上位カテゴリから、所望の文書に関連する話題を示すラベルが付与され、当該話題についての文書集合が分類された下位階層のカテゴリを辿ることができる。そして、ユーザは、所望の文書が分類された下位カテゴリを発見し、所望の文書を発見しやすくなり、所望の文書を発見するのにかかる時間を低減することができる。   As a result, the user can grasp which topic's document set is extracted and finely classified in the subcategory of a certain category from among the document sets regarding the topic indicated by a certain category's label. . For this reason, the user assigns a label indicating a topic related to a desired document from the top category assigned with the input search keyword as a label, and selects a lower-level category in which the document set on the topic is classified. Can be traced. Then, the user can find a lower category in which the desired document is classified, and can easily find the desired document, and can reduce the time taken to find the desired document.

また、例えば、情報処理装置100は、ユーザが、文書群を、階層化された複数のカテゴリに分類して整理するシステムに適用することができる。情報処理装置100は、例えば、記憶装置に記憶された文書群を、階層化された複数のカテゴリに分類する。そして、情報処理装置100は、文書群を分類した複数のカテゴリのそれぞれのカテゴリにラベルを付与する。   Further, for example, the information processing apparatus 100 can be applied to a system in which a user classifies a document group into a plurality of hierarchized categories. For example, the information processing apparatus 100 classifies the document group stored in the storage device into a plurality of hierarchized categories. Then, the information processing apparatus 100 gives a label to each category of the plurality of categories into which the document group is classified.

これにより、ユーザは、あるカテゴリの下位カテゴリに、あるカテゴリのラベルが示す話題についての文書集合のうちの、何の話題についての文書が抽出されて分類されたのかを把握しやすいように、下位カテゴリにラベルを付与することができる。そして、ユーザは、記憶装置に記憶された文書群を階層化された複数のカテゴリを分類する作業、および複数のカテゴリのそれぞれのカテゴリに付与するラベルを決定する作業にかかる時間を低減することができる。   As a result, the user can easily determine which topic's document is extracted and classified in the document category for the topic indicated by the label of the category in the lower category of the category. Labels can be assigned to categories. The user can reduce the time required for classifying a plurality of hierarchized categories of documents stored in the storage device and for determining a label to be assigned to each of the plurality of categories. it can.

(情報処理装置100のハードウェア)
次に、図2を用いて、図1に示した情報処理装置100のハードウェアの一例について説明する。
(Hardware of information processing apparatus 100)
Next, an example of hardware of the information processing apparatus 100 illustrated in FIG. 1 will be described with reference to FIG.

図2は、情報処理装置100のハードウェアの一例を示すブロック図である。図2において、情報処理装置100は、CPU(Central Processing Unit)201と、ROM(Read Only Memory)202と、RAM(Random Access Memory)203と、を有する。   FIG. 2 is a block diagram illustrating an example of hardware of the information processing apparatus 100. In FIG. 2, the information processing apparatus 100 includes a CPU (Central Processing Unit) 201, a ROM (Read Only Memory) 202, and a RAM (Random Access Memory) 203.

また、情報処理装置100は、さらに、ディスクドライブ204と、ディスク205と、インターフェース(I/F:Interface)206と、入力装置207と、出力装置208とを有する。また、CPU201と、ROM202と、RAM203と、ディスクドライブ204と、I/F206と、入力装置207と、出力装置208とは、バス200によって、それぞれ接続されている。情報処理装置100は、例えば、サーバ、ノート型パソコン、デスクトップ型パソコンなどである。   The information processing apparatus 100 further includes a disk drive 204, a disk 205, an interface (I / F: Interface) 206, an input device 207, and an output device 208. Further, the CPU 201, the ROM 202, the RAM 203, the disk drive 204, the I / F 206, the input device 207, and the output device 208 are connected by a bus 200. The information processing apparatus 100 is, for example, a server, a notebook personal computer, a desktop personal computer, or the like.

ここで、CPU201は、情報処理装置100の全体の制御を司る。ROM202は、ブートプログラム、実施の形態にかかる名称決定プログラムなどの各種プログラムを記憶する。RAM203は、CPU201のワークエリアとして使用される。また、RAM203は、各種プログラムの実行により得られたデータなどの各種データを記憶する。また、RAM203は、図4または図15に後述する文書DB(Data Base)400、および図5に後述するストップワードリスト500などを記憶する。   Here, the CPU 201 governs overall control of the information processing apparatus 100. The ROM 202 stores various programs such as a boot program and a name determination program according to the embodiment. The RAM 203 is used as a work area for the CPU 201. The RAM 203 stores various data such as data obtained by executing various programs. The RAM 203 stores a document DB (Data Base) 400 described later in FIG. 4 or FIG. 15, a stop word list 500 described later in FIG.

ディスクドライブ204は、CPU201の制御に従ってディスク205に対するデータのリード/ライトを制御する。ディスク205は、ディスクドライブ204の制御によって書き込まれたデータを記憶する。また、ディスク205は、RAM203の代わりに、図4または図15に後述する文書DB400、および図5に後述するストップワードリスト500などを記憶してもよい。ディスク205は、例えば、磁気ディスク、または光ディスクなどである。   The disk drive 204 controls reading / writing of data with respect to the disk 205 according to the control of the CPU 201. The disk 205 stores data written under the control of the disk drive 204. Further, the disk 205 may store a document DB 400 described later in FIG. 4 or FIG. 15, a stop word list 500 described later in FIG. The disk 205 is, for example, a magnetic disk or an optical disk.

I/F206は、通信回線を通じてネットワーク210に接続され、ネットワーク210を介して他の装置に接続される。ネットワーク210は、例えば、LAN(Local Area Network)、WAN(Wide Area Network)、インターネットなどである。そして、I/F206は、ネットワーク210と内部のインターフェースを司り、外部装置からのデータの入出力を制御する。I/F206は、例えば、モデムやLANアダプタなどである。   The I / F 206 is connected to the network 210 through a communication line, and is connected to other devices via the network 210. The network 210 is, for example, a local area network (LAN), a wide area network (WAN), or the Internet. The I / F 206 controls an internal interface with the network 210 and controls input / output of data from an external device. The I / F 206 is, for example, a modem or a LAN adapter.

入力装置207は、キーボード、タッチパネルなどユーザの操作により、各種データの入力を行うインターフェースである。入力装置207は、マウス、スキャナなどであってもよい。出力装置208は、CPU201の指示により、データを出力するインターフェースである。出力装置208は、例えば、カーソル、アイコンあるいはツールボックスをはじめ、文書、画像、機能情報などのデータを表示するディスプレイである。出力装置208は、プリンタであってもよい。   The input device 207 is an interface for inputting various data by a user operation such as a keyboard and a touch panel. The input device 207 may be a mouse, a scanner, or the like. The output device 208 is an interface that outputs data in accordance with an instruction from the CPU 201. The output device 208 is, for example, a display that displays data such as a document, an image, and function information as well as a cursor, an icon, or a tool box. The output device 208 may be a printer.

(情報処理装置100の機能的構成例)
次に、図3を用いて、情報処理装置100の機能的構成例について説明する。
(Functional configuration example of information processing apparatus 100)
Next, a functional configuration example of the information processing apparatus 100 will be described with reference to FIG.

図3は、情報処理装置100の機能的構成例を示すブロック図である。情報処理装置100は、制御部となる機能として、取得部301と、検索部302と、分類部303と、選択部304と、特定部305と、決定部306と、出力部307とを含む。   FIG. 3 is a block diagram illustrating a functional configuration example of the information processing apparatus 100. The information processing apparatus 100 includes an acquisition unit 301, a search unit 302, a classification unit 303, a selection unit 304, a specifying unit 305, a determination unit 306, and an output unit 307 as functions serving as a control unit.

取得部301は、文書群を取得する。取得部301は、例えば、図4に後述する文書DB400に記憶された文書群を取得する。これにより、取得部301は、取得した文書群を検索部302に出力することができる。そして、取得部301は、検索部302に、出力した文書群の中から文書を検索させることができる。取得した文書群は、例えば、RAM203、ディスク205などの記憶領域に記憶される。   The acquisition unit 301 acquires a document group. For example, the acquisition unit 301 acquires a document group stored in a document DB 400 described later with reference to FIG. Thereby, the acquisition unit 301 can output the acquired document group to the search unit 302. Then, the acquisition unit 301 can cause the search unit 302 to search for a document from the output document group. The acquired document group is stored in a storage area such as the RAM 203 and the disk 205, for example.

また、取得部301は、階層化された複数のカテゴリに分類済みの文書群を取得してもよい。階層化とは、いくつかのカテゴリが集まって1つの上位カテゴリになるといった状態にすることである。これにより、取得部301は、取得した文書群を検索部302に出力することができる。そして、取得部301は、検索部302に、出力した文書群の中から文書を検索させることができる。   The acquisition unit 301 may acquire a group of documents that have been classified into a plurality of hierarchical categories. Hierarchization is a state in which several categories are gathered into one upper category. Thereby, the acquisition unit 301 can output the acquired document group to the search unit 302. Then, the acquisition unit 301 can cause the search unit 302 to search for a document from the output document group.

取得部301は、検索キーワードを取得する。検索キーワードとは、文書群の中から文書を検索するためのキーワードである。検索キーワードは、例えば、語句、語句の組み合わせ、自然文などである。検索キーワードの形式は、後述する検索部302の検索方法に対応する形式であればよい。取得部301は、例えば、図2に示した入力装置207となるキーボードやタッチパネルなどによってユーザから操作入力された検索キーワードを取得する。また、取得部301は、検索条件を取得してもよい。検索条件は、例えば、文書の種別である。文書の種別は、文書にどのような文が記載されているかを示す情報である。文書の種別は、例えば、テキスト、プレゼンテーション用文書、表計算用文書などである。   The acquisition unit 301 acquires a search keyword. A search keyword is a keyword for searching a document from a document group. The search keyword is, for example, a phrase, a combination of phrases, or a natural sentence. The format of the search keyword may be a format corresponding to the search method of the search unit 302 described later. The acquisition unit 301 acquires, for example, a search keyword input by a user using a keyboard, a touch panel, or the like that is the input device 207 illustrated in FIG. The acquisition unit 301 may acquire a search condition. The search condition is, for example, a document type. The document type is information indicating what kind of sentence is described in the document. The document type is, for example, text, presentation document, spreadsheet document, or the like.

これにより、取得部301は、取得した検索キーワードを検索部302に出力することができる。そして、取得部301は、検索部302に、出力した検索キーワードに基づいて文書を検索させることができる。取得した検索キーワードは、例えば、RAM203、ディスク205などの記憶領域に記憶される。   Thereby, the acquisition unit 301 can output the acquired search keyword to the search unit 302. The acquisition unit 301 can cause the search unit 302 to search for a document based on the output search keyword. The acquired search keyword is stored in a storage area such as the RAM 203 or the disk 205, for example.

取得部301は、ストップワードを取得する。ストップワードとは、カテゴリの名称として使用しない語句である。カテゴリの名称とは、カテゴリを特徴付ける語句である。カテゴリの名称は、例えば、カテゴリに分類された文書集合に関する語句である。カテゴリの名称は、具体的には、カテゴリに分類された文書集合に出現する語句である。語句は、単語や数字、単語の組み合わせ、または文章などである。カテゴリの名称は、カテゴリのラベルである。取得部301は、図2に示した入力装置207となるキーボードやタッチパネルなどによってユーザから操作入力されたストップワードを取得する。   The acquisition unit 301 acquires a stop word. A stop word is a phrase that is not used as a category name. A category name is a phrase that characterizes a category. The category name is, for example, a phrase related to a document set classified into the category. Specifically, the category name is a phrase that appears in a document set classified into a category. The phrase is a word, a number, a combination of words, or a sentence. The category name is a category label. The acquisition unit 301 acquires a stop word that is input by a user using a keyboard, a touch panel, or the like that is the input device 207 illustrated in FIG.

また、取得部301は、図5に後述するストップワードリスト500に記憶されたストップワードを読み出すことにより、ストップワードを取得してもよい。ストップワードは、例えば、情報処理装置100の製造者によって、または情報処理装置100のユーザによって、図5に後述するストップワードリスト500に予め記憶された語句である。   Further, the acquisition unit 301 may acquire a stop word by reading a stop word stored in a stop word list 500 described later with reference to FIG. The stop word is, for example, a phrase stored in advance in a stop word list 500 described later with reference to FIG. 5 by the manufacturer of the information processing apparatus 100 or the user of the information processing apparatus 100.

これにより、取得部301は、取得したストップワードを特定部305に出力することができる。そして、取得部301は、特定部305に、ストップワードとは異なる、カテゴリの名称候補を特定させることができる。名称候補は、カテゴリの名称になりうる語句である。名称候補は、カテゴリのラベル候補である。取得したストップワードは、例えば、RAM203、ディスク205などの記憶領域に記憶される。   Thereby, the acquisition unit 301 can output the acquired stop word to the specifying unit 305. And the acquisition part 301 can make the specific | specification part 305 specify the name candidate of a category different from a stop word. A name candidate is a phrase that can be a category name. The name candidates are category label candidates. The acquired stop word is stored in a storage area such as the RAM 203 or the disk 205, for example.

取得部301は、例えば、図2に示したROM202、RAM203、ディスク205などの記憶装置に記憶されたプログラムをCPU201に実行させることにより、または、I/F206により、その機能を実現する。   The acquisition unit 301 realizes its function by causing the CPU 201 to execute a program stored in a storage device such as the ROM 202, the RAM 203, and the disk 205 illustrated in FIG. 2 or by the I / F 206, for example.

検索部302は、取得部301が取得した検索キーワードに基づいて、文書群の中から文書を抽出する。検索部302は、例えば、取得部301が取得した検索キーワードを検索式として、文書DB400に格納された文書群の中から検索キーワードに関連する文書を抽出する。検索キーワードに関連する文書は、例えば、検索キーワードが出現する文書、および検索キーワードの同義語や類似語が出現する文書などである。検索キーワードに関連する文書は、検索キーワードが複数の語句の組み合わせであれば、複数の語句のいずれかの語句が出現する文書であってもよい。   The search unit 302 extracts a document from the document group based on the search keyword acquired by the acquisition unit 301. For example, the search unit 302 extracts a document related to the search keyword from the document group stored in the document DB 400 using the search keyword acquired by the acquisition unit 301 as a search expression. The documents related to the search keyword are, for example, a document in which the search keyword appears and a document in which a synonym or similar word of the search keyword appears. The document related to the search keyword may be a document in which any one of a plurality of words / phrases appears as long as the search keyword is a combination of a plurality of words / phrases.

また、検索部302は、取得部301が取得した検索キーワードの他に、取得部301が取得した検索条件に基づいて、文書群の中から文書を抽出してもよい。検索部302は、例えば、文書DB400に格納された文書群のうちの検索条件を満たす文書の中から、検索キーワードが出現する文書を抽出する。また、検索部302は、取得部301が取得した検索条件に基づいて、文書群の中から文書を抽出してもよい。検索部302は、例えば、文書DB400に格納された文書群の中から、検索条件を満たす文書を抽出する。   In addition to the search keyword acquired by the acquisition unit 301, the search unit 302 may extract a document from the document group based on the search condition acquired by the acquisition unit 301. For example, the search unit 302 extracts a document in which a search keyword appears from documents satisfying a search condition among documents stored in the document DB 400. The search unit 302 may extract a document from the document group based on the search condition acquired by the acquisition unit 301. For example, the search unit 302 extracts a document that satisfies the search condition from the document group stored in the document DB 400.

これにより、検索部302は、検索結果として、検索した文書、検索した文書の識別情報、または検索した文書の格納場所などを、分類部303に出力することができる。そして、検索部302は、検索した文書を分類部303に分類させることができる。検索結果は、例えば、RAM203、ディスク205などの記憶領域に記憶される。   As a result, the search unit 302 can output the searched document, the identification information of the searched document, the storage location of the searched document, or the like as the search result to the classification unit 303. Then, the search unit 302 can cause the classification unit 303 to classify the searched document. The search result is stored in a storage area such as the RAM 203 or the disk 205, for example.

検索部302は、例えば、図2に示したROM202、RAM203、ディスク205などの記憶装置に記憶されたプログラムをCPU201に実行させることにより、その機能を実現する。   The search unit 302 realizes its function by causing the CPU 201 to execute a program stored in a storage device such as the ROM 202, the RAM 203, and the disk 205 shown in FIG.

分類部303は、検索部302が検索した複数の文書を、階層化された複数のカテゴリに分類する。分類部303は、例えば、検索部302が検索した複数の文書に含まれる文書同士の類似度合いを示すコサイン類似度を算出する。次に、分類部303は、算出したコサイン類似度が最小になる文書同士を1つの文書集合としてまとめる。そして、分類部303は、文書同士をまとめた文書集合が分類された最下位階層のカテゴリを作成する。さらに、分類部303は、ウォード法によって、2つのカテゴリに分類された2つの文書集合を併合した1つの文書集合が分類された、2つのカテゴリの上位カテゴリを作成することを繰り返す。ここで、異なるカテゴリに分類された文書集合に、同一の文書が含まれてもよい。   The classification unit 303 classifies the plurality of documents searched by the search unit 302 into a plurality of hierarchized categories. The classification unit 303 calculates, for example, a cosine similarity indicating the degree of similarity between documents included in a plurality of documents searched by the search unit 302. Next, the classification unit 303 collects the documents having the smallest calculated cosine similarity as one document set. Then, the classification unit 303 creates a lowest-level category in which a document set in which documents are collected is classified. Furthermore, the classification unit 303 repeats creating an upper category of two categories in which one document set obtained by merging two document sets classified into two categories is classified by the Ward method. Here, the same document may be included in the document set classified into different categories.

また、分類部303は、取得部301が取得した文書群を、階層化された複数のカテゴリに分類してもよい。これにより、分類部303は、複数の文書を分類した階層化された複数のカテゴリを選択部304に出力することができる。そして、分類部303は、選択部304に、複数のカテゴリのいずれかのカテゴリを選択させることができる。分類結果は、例えば、RAM203、ディスク205などの記憶領域に記憶される。   Further, the classification unit 303 may classify the document group acquired by the acquisition unit 301 into a plurality of hierarchized categories. Thereby, the classification unit 303 can output a plurality of hierarchized categories obtained by classifying a plurality of documents to the selection unit 304. The classification unit 303 can cause the selection unit 304 to select one of a plurality of categories. The classification result is stored in a storage area such as the RAM 203 and the disk 205, for example.

分類部303は、例えば、図2に示したROM202、RAM203、ディスク205などの記憶装置に記憶されたプログラムをCPU201に実行させることにより、その機能を実現する。   The classification unit 303 realizes its function by causing the CPU 201 to execute a program stored in a storage device such as the ROM 202, the RAM 203, and the disk 205 shown in FIG.

選択部304は、分類部303が複数の文書を分類した階層化された複数のカテゴリのいずれかのカテゴリを選択する。選択部304は、分類部303が複数の文書を分類した階層化された複数のカテゴリのうち、既にラベルを決定済みのカテゴリの直下位カテゴリを選択する。これにより、選択部304は、ラベルを決定する対象にするカテゴリを選択することができる。そして、選択部304は、選択したカテゴリを特定部305に出力することができる。選択したカテゴリは、例えば、RAM203、ディスク205などの記憶領域に記憶される。   The selection unit 304 selects one of a plurality of hierarchized categories in which the classification unit 303 classifies a plurality of documents. The selection unit 304 selects a subordinate category of a category for which a label has already been determined from a plurality of hierarchized categories in which the classification unit 303 classifies a plurality of documents. Thereby, the selection unit 304 can select a category for which a label is to be determined. Then, the selection unit 304 can output the selected category to the specifying unit 305. The selected category is stored in a storage area such as the RAM 203 or the disk 205, for example.

選択部304は、例えば、図2に示したROM202、RAM203、ディスク205などの記憶装置に記憶されたプログラムをCPU201に実行させることにより、その機能を実現する。   The selection unit 304 realizes its function by causing the CPU 201 to execute a program stored in a storage device such as the ROM 202, the RAM 203, and the disk 205 shown in FIG.

特定部305は、分類部303が複数の文書を分類した階層化された複数のカテゴリのうち、選択部304が選択したいずれかのカテゴリに分類した文書集合から、選択部304が選択したいずれかのカテゴリのラベル候補を特定する。ここで、文書集合は、1または複数の文書である。特定部305は、例えば、選択部304が選択したカテゴリに分類した文書集合に出現する語句を抽出する。そして、特定部305は、抽出した語句の中から選択部304が選択したカテゴリのラベル候補になる語句を特定する。   The specifying unit 305 selects any one selected by the selection unit 304 from a set of documents classified into one of the categories selected by the selection unit 304 among a plurality of hierarchized categories in which the classification unit 303 classifies the plurality of documents. Identify label candidates for. Here, the document set is one or a plurality of documents. For example, the specifying unit 305 extracts words that appear in the document set classified into the category selected by the selection unit 304. Then, the specifying unit 305 specifies a word / phrase to be a label candidate of the category selected by the selection unit 304 from the extracted words / phrases.

特定部305は、具体的には、選択部304が選択したカテゴリに分類した文書集合についての形態素解析によって、当該文書集合に出現する語句を抽出する。そして、特定部305は、抽出した語句のうちの特定の品詞として認識された語句を、選択部304が選択したカテゴリのラベル候補として特定する。特定の品詞とは、予め、カテゴリのラベルにする条件として設定された語句の種別である。特定の品詞は、例えば、名詞である。これにより、特定部305は、カテゴリのラベルになりうる語句を、カテゴリのラベル候補として特定することができる。   Specifically, the specifying unit 305 extracts words / phrases appearing in the document set by morphological analysis of the document set classified into the category selected by the selection unit 304. Then, the specifying unit 305 specifies a phrase recognized as a specific part of speech among the extracted phrases as a label candidate of the category selected by the selection unit 304. The specific part-of-speech is a type of phrase set in advance as a condition for making a category label. The specific part of speech is, for example, a noun. Thereby, the specifying unit 305 can specify a phrase that can be a category label as a category label candidate.

特定部305は、さらに、選択部304が選択したカテゴリに分類した文書集合から、選択部304が選択したカテゴリのラベル候補として、取得部301が取得したストップワードとは異なる語句を特定してもよい。特定部305は、例えば、選択部304が選択したカテゴリに分類した文書集合に出現する語句を抽出する。そして、特定部305は、抽出した語句の中から選択部304が選択したカテゴリのラベル候補になる、ストップワードとは異なる語句を特定する。   The specifying unit 305 may further specify a word / phrase different from the stop word acquired by the acquiring unit 301 as a label candidate of the category selected by the selecting unit 304 from the document set classified into the category selected by the selecting unit 304. Good. For example, the specifying unit 305 extracts words that appear in the document set classified into the category selected by the selection unit 304. Then, the specifying unit 305 specifies a phrase that is different from the stop word and becomes a label candidate of the category selected by the selection unit 304 from the extracted words.

特定部305は、具体的には、形態素解析によって、特定の品詞として認識された語句を抽出する。次に、特定部305は、抽出した語句の中からストップワードと一致する語句を除外する。また、特定部305は、抽出した語句の中から、ストップワードと部分一致する語句、またはストップワードの同義語や類似語になる語句を除外してもよい。そして、特定部305は、除外後に残った語句を選択部304が選択したカテゴリのラベル候補として特定する。これにより、特定部305は、カテゴリを特徴付けるラベルから特定の語句を除外することができる。   Specifically, the specifying unit 305 extracts words / phrases recognized as specific parts of speech by morphological analysis. Next, the specifying unit 305 excludes a phrase that matches the stop word from the extracted phrases. Further, the specifying unit 305 may exclude, from the extracted words / phrases, words / phrases that partially match the stop word, or words / phrases that become synonyms or similar words of the stop word. Then, the specifying unit 305 specifies the word / phrase remaining after the exclusion as a label candidate of the category selected by the selection unit 304. Thereby, the specific | specification part 305 can exclude a specific word / phrase from the label which characterizes a category.

特定部305は、さらに、選択部304が選択したカテゴリに分類した文書集合から、選択部304が選択したカテゴリのラベル候補として、選択部304が選択したカテゴリの上位カテゴリのラベルとは異なる語句を特定してもよい。特定部305は、例えば、選択部304が選択したカテゴリに分類した文書集合に出現する語句を抽出する。そして、特定部305は、抽出した語句の中から選択部304が選択したカテゴリのラベル候補になる、選択部304が選択したカテゴリの上位カテゴリのラベルとは異なる語句を特定する。   The specifying unit 305 further selects a phrase that is different from the label of the higher category of the category selected by the selection unit 304 as the label candidate of the category selected by the selection unit 304 from the document set classified into the category selected by the selection unit 304. You may specify. For example, the specifying unit 305 extracts words that appear in the document set classified into the category selected by the selection unit 304. Then, the specifying unit 305 specifies a phrase that is different from the label of the higher category of the category selected by the selection unit 304 and becomes the label candidate of the category selected by the selection unit 304 from the extracted words.

特定部305は、具体的には、形態素解析によって、特定の品詞として認識された語句を抽出する。次に、特定部305は、抽出した語句の中から選択部304が選択したカテゴリの上位カテゴリのラベルと一致する語句を除外する。また、特定部305は、抽出した語句の中から、選択部304が選択したカテゴリの上位カテゴリのラベルと部分一致する語句、または選択部304が選択したカテゴリの上位カテゴリのラベルの同義語や類似語になる語句を除外してもよい。そして、特定部305は、除外後に残った語句を選択部304が選択したカテゴリのラベル候補として特定する。これにより、特定部305は、カテゴリを特徴付けるラベルから、当該カテゴリの上位カテゴリを特徴付けるラベルと一致する語句を除外することができる。   Specifically, the specifying unit 305 extracts words / phrases recognized as specific parts of speech by morphological analysis. Next, the specifying unit 305 excludes the phrase that matches the label of the higher category of the category selected by the selection unit 304 from the extracted phrases. In addition, the specifying unit 305 includes a synonym or similarity of a word that partially matches a label of a higher category of the category selected by the selection unit 304 or a label of a higher category of the category selected by the selection unit 304 from the extracted words. You may exclude words that become words. Then, the specifying unit 305 specifies the word / phrase remaining after the exclusion as a label candidate of the category selected by the selection unit 304. As a result, the identifying unit 305 can exclude, from the label characterizing the category, a word that matches the label characterizing the upper category of the category.

特定部305は、さらに、選択部304が選択したカテゴリに分類した文書集合から、選択部304が選択したカテゴリのラベル候補として、選択部304が選択したカテゴリと直上位カテゴリが一致する他のカテゴリのラベルとは異なる語句を特定してもよい。換言すれば、特定部305は、選択部304が選択したカテゴリの直上位カテゴリの直下位カテゴリのうち、選択部304が選択したカテゴリとは異なる他のカテゴリを特徴付ける名称とは異なる語句を特定する。特定部305は、例えば、選択部304が選択したカテゴリに分類した文書集合に出現する語句を抽出する。そして、特定部305は、抽出した語句の中から選択部304が選択したカテゴリのラベル候補になる、選択部304が選択したカテゴリと直上位カテゴリが一致する他のカテゴリのラベルとは異なる語句を特定する。   The specifying unit 305 further selects another category in which the category selected by the selection unit 304 matches the directly higher category as a label candidate of the category selected by the selection unit 304 from the document set classified into the category selected by the selection unit 304. A phrase different from the label may be specified. In other words, the identifying unit 305 identifies a phrase that is different from a name that characterizes another category that is different from the category selected by the selecting unit 304 among the immediately lower categories of the category selected by the selecting unit 304. . For example, the specifying unit 305 extracts words that appear in the document set classified into the category selected by the selection unit 304. Then, the specifying unit 305 selects a phrase that is a candidate for the category selected by the selection unit 304 from the extracted phrases and that is different from the label of the other category that matches the category selected by the selection unit 304 and the directly higher category. Identify.

特定部305は、具体的には、形態素解析によって、特定の品詞として認識された語句を抽出する。次に、特定部305は、抽出した語句の中から選択部304が選択したカテゴリと直上位カテゴリが一致する他のカテゴリのラベルと一致する語句を除外する。また、特定部305は、抽出した語句の中から、直上位カテゴリが一致する他のカテゴリのラベルと部分一致する語句、または直上位カテゴリが一致する他のカテゴリのラベルの同義語や類似語になる語句を除外してもよい。そして、特定部305は、除外後に残った語句を選択部304が選択したカテゴリのラベル候補として特定する。これにより、特定部305は、カテゴリを特徴付けるラベルから、当該カテゴリと直上位カテゴリが一致する他のカテゴリを特徴付けるラベルと一致する語句を除外することができる。   Specifically, the specifying unit 305 extracts words / phrases recognized as specific parts of speech by morphological analysis. Next, the specifying unit 305 excludes a phrase that matches the label of another category in which the category selected by the selection unit 304 matches the category directly higher from the extracted phrases. In addition, the specifying unit 305 selects a synonym or a similar word from a word or phrase that partially matches a label of another category that matches the immediate higher category or a label of another category that matches the immediate higher category from the extracted words or phrases. May be excluded. Then, the specifying unit 305 specifies the word / phrase remaining after the exclusion as a label candidate of the category selected by the selection unit 304. As a result, the identifying unit 305 can exclude, from the label characterizing the category, a word that matches a label characterizing another category that matches the category and the immediately higher category.

また、特定部305は、選択部304が選択したカテゴリに分類した文書集合から、選択部304が選択したカテゴリのラベル候補として、選択部304が選択したカテゴリと同一階層にある他のカテゴリのラベルとは異なる語句を特定してもよい。また、特定部305は、選択部304が選択したカテゴリに分類した文書集合から、選択部304が選択したカテゴリのラベル候補として、選択部304が選択したカテゴリとは異なる他のカテゴリのラベルとは異なる語句を特定してもよい。   Further, the specifying unit 305 selects labels of other categories in the same hierarchy as the category selected by the selection unit 304 as label candidates of the category selected by the selection unit 304 from the document set classified into the category selected by the selection unit 304. Different words may be specified. Further, the specifying unit 305 is a label candidate of the category selected by the selection unit 304 from the document set classified into the category selected by the selection unit 304, and the label of another category different from the category selected by the selection unit 304 Different words may be specified.

特定部305は、さらに、選択部304が選択したカテゴリに分類した文書集合に出現する語句の特徴度を算出してもよい。特徴度とは、語句がカテゴリに分類した文書集合を特徴付ける度合いを示す値である。特徴度は、例えば、語句のTF−IDFやC−Valueといったラベルスコアである。そして、特定部305は、算出したラベルスコアに基づいて選択部304が選択したカテゴリのラベル候補を特定する。   The specifying unit 305 may further calculate the feature degree of a word that appears in the document set classified into the category selected by the selection unit 304. The feature degree is a value indicating the degree of characterizing a document set whose words are classified into categories. The feature degree is, for example, a label score such as TF-IDF or C-Value of a phrase. Then, the specifying unit 305 specifies the label candidate of the category selected by the selection unit 304 based on the calculated label score.

特定部305は、例えば、選択部304が選択したカテゴリに分類した文書集合に出現する語句の当該文書集合における出現度合いと、当該語句の複数の文書における出現度合いとに基づいて、当該語句のラベルスコアを算出する。出現度合いとは、語句の出現しやすさを示す。また、特定部305は、選択部304が選択したカテゴリに分類した文書集合に出現する語句の当該文書集合における出現度合いと、当該語句を含む複合語の当該文書集合における出現度合いとに基づいて、当該語句のラベルスコアを算出してもよい。そして、特定部305は、算出したラベルスコアに基づいて、カテゴリのラベル候補を特定する。   For example, the specifying unit 305 determines the label of the word based on the appearance degree of the word that appears in the document set classified into the category selected by the selection unit 304 in the document set and the appearance degree of the word in a plurality of documents. Calculate the score. The degree of appearance indicates the ease with which a word appears. Further, the specifying unit 305 is based on the appearance degree in the document set of words and phrases appearing in the document set classified into the category selected by the selection unit 304 and the appearance degree in the document set of the compound words including the words and phrases. You may calculate the label score of the said phrase. Then, the specifying unit 305 specifies a category label candidate based on the calculated label score.

特定部305は、具体的には、形態素解析によって、特定の品詞として認識された語句を抽出する。次に、特定部305は、抽出した語句のラベルスコアとしてTF−IDFを算出する。また、特定部305は、抽出した語句のラベルスコアとしてC−Valueを算出してもよい。そして、特定部305は、抽出した語句を、ラベルスコアが高い順にソートする。その後、特定部305は、所定の順位までの語句を、ラベル候補として特定する。これにより、特定部305は、カテゴリを特徴付ける観点からのラベルとしての尤度を示す特徴度に基づいて、カテゴリを特徴付ける観点からラベルとして尤もらしい語句を、ラベル候補として特定することができる。   Specifically, the specifying unit 305 extracts words / phrases recognized as specific parts of speech by morphological analysis. Next, the specifying unit 305 calculates TF-IDF as the label score of the extracted word / phrase. The specifying unit 305 may calculate C-Value as the label score of the extracted word / phrase. Then, the specifying unit 305 sorts the extracted words in descending order of label score. Thereafter, the specifying unit 305 specifies words up to a predetermined rank as label candidates. Thereby, the specifying unit 305 can specify a word / phrase that is likely to be a label from the viewpoint of characterizing the category as a label candidate based on the characteristic degree indicating the likelihood as the label from the viewpoint of characterizing the category.

特定したラベル候補は、例えば、RAM203、ディスク205などの記憶領域に記憶される。特定部305は、例えば、図2に示したROM202、RAM203、ディスク205などの記憶装置に記憶されたプログラムをCPU201に実行させることにより、その機能を実現する。   The identified label candidates are stored in a storage area such as the RAM 203 and the disk 205, for example. The specifying unit 305 realizes its function by causing the CPU 201 to execute a program stored in a storage device such as the ROM 202, the RAM 203, and the disk 205 illustrated in FIG.

決定部306は、最上位カテゴリのラベルを決定する。決定部306は、例えば、検索部302が検索した複数の文書を分類部303が分類した場合には、取得部301が取得した検索キーワードを最上位カテゴリのラベルに決定する。決定部306は、検索キーワードが複数ある場合には、複数の検索キーワードを最上位カテゴリのラベルに決定してもよい。これにより、決定部306は、最上位カテゴリを特徴付けるラベルとして検索キーワードを付与することができる。   The determination unit 306 determines the label of the highest category. For example, when the classification unit 303 classifies a plurality of documents searched by the search unit 302, the determination unit 306 determines the search keyword acquired by the acquisition unit 301 as the label of the highest category. When there are a plurality of search keywords, the determination unit 306 may determine a plurality of search keywords as labels of the highest category. Thereby, the determination unit 306 can assign the search keyword as a label characterizing the highest category.

また、決定部306は、例えば、取得部301が取得した文書群を分類部303が分類した場合には、最上位カテゴリについて特定部305が特定したラベル候補のうち、ラベルスコアが最大のラベル候補を、最上位カテゴリのラベルに決定する。これにより、決定部306は、最上位カテゴリを特徴付けるラベルを付与することができる。   In addition, for example, when the classification unit 303 classifies the document group acquired by the acquisition unit 301, the determination unit 306 has the largest label score among the label candidates specified by the specification unit 305 for the highest category. Is determined as the label of the highest category. Thereby, the determination unit 306 can assign a label characterizing the highest category.

決定部306は、複数の文書における、特定部305が特定したラベル候補と、選択部304が選択したカテゴリの上位カテゴリのラベルとの共起度合いに基づいて、選択部304が選択したカテゴリのラベルを決定する。ここで、上位カテゴリとは、選択部304が選択したカテゴリに分類された文書集合を含む、選択部304が選択したカテゴリよりも上位階層のカテゴリである。上位カテゴリは、例えば、選択部304が選択したカテゴリの直上位カテゴリである。   The determining unit 306 determines the label of the category selected by the selecting unit 304 based on the co-occurrence degree of the label candidate specified by the specifying unit 305 and the label of the higher category of the category selected by the selecting unit 304 in a plurality of documents. To decide. Here, the upper category is a category in a higher hierarchy than the category selected by the selection unit 304 including the document set classified into the category selected by the selection unit 304. The higher category is, for example, a category immediately above the category selected by the selection unit 304.

上位カテゴリは、例えば、最上位カテゴリから、選択部304が選択したカテゴリの直上位カテゴリまでのいずれかのカテゴリであってもよい。上位カテゴリは、例えば、最上位カテゴリから、選択部304が選択したカテゴリの直上位カテゴリまでのそれぞれのカテゴリであってもよい。   The upper category may be, for example, any category from the highest category to the category immediately above the category selected by the selection unit 304. The upper category may be, for example, each category from the highest category to the category immediately above the category selected by the selection unit 304.

決定部306は、例えば、カテゴリに分類した文書集合のそれぞれの文書中の一文単位、または所定数連続する文単位の、ラベル候補と、上位カテゴリのラベルとの共起度合いに基づいて、カテゴリのラベルを決定する。決定部306は、具体的には、カテゴリに分類した文書集合のそれぞれの文書の種別に基づいて、カテゴリに分類した文書集合が、文間に連続性がある文書の集まりであるか否かを判定する。   For example, the determining unit 306 determines the category based on the co-occurrence of the label candidate and the label of the upper category in one sentence unit or a predetermined number of sentence units in each document of the document set classified into the category. Determine the label. Specifically, the determination unit 306 determines whether or not the document set classified into the category is a set of documents having continuity between sentences based on the document types of the document sets classified into the category. judge.

文間に連続性がある文書とは、関連する話題についての複数の文が続けて書かれた文書である。文間に連続性がある文書は、例えば、複数の文が段落分けして書かれた論文、特許文献、技術文献などである。文間に連続性がある文書ではない文書は、例えば、複数の短文が箇条書きされた文書、または複数の説明文が書かれた図面などである。文間に連続性がある文書ではない文書は、具体的には、機械が描画された図面であって、機械の各部の説明文が、図面上の機械の各部の傍らに書かれた図面などである。   A document having continuity between sentences is a document in which a plurality of sentences on related topics are continuously written. A document having continuity between sentences is, for example, a paper, a patent document, a technical document, or the like in which a plurality of sentences are divided into paragraphs. A document that is not a document having continuity between sentences is, for example, a document in which a plurality of short sentences are listed, or a drawing in which a plurality of explanations are written. A document that is not a document with continuity between sentences is specifically a drawing in which a machine is drawn, and a description in which each part of the machine is written beside each part of the machine on the drawing, etc. It is.

文間に連続性がある文書であるか否かは、例えば、文書の種別に基づいて判別される。具体的には、ある文書は、文書の種別がテキストであれば文間に連続性がある文書であるとされ、文書の種別がプレゼンテーション用文書、表計算用文書であれば文間に連続性がある文書ではないとされる。決定部306は、文間に連続性がある文書の集まりである場合には、カテゴリに分類した文書集合のそれぞれの文書中の一文単位、または所定数連続する文単位の、ラベル候補と、上位カテゴリのラベルとの共起度合いに基づいて、カテゴリのラベルを決定する。   Whether a document has continuity between sentences is determined based on the type of the document, for example. Specifically, a document is considered to be a document with continuity between sentences if the document type is text, and continuity between sentences if the document type is a presentation document or spreadsheet document. Is not a document. If the determination unit 306 is a collection of documents with continuity between sentences, the determination unit 306 includes a label candidate and a higher rank in one sentence unit or a predetermined number of sentence units in each document of the document set classified into categories. The category label is determined based on the degree of co-occurrence with the category label.

決定部306は、より具体的には、カテゴリに分類した文書集合のそれぞれの文書中の一文単位、または所定数連続する文単位の、ラベル候補と、上位カテゴリのラベルとの共起度合いに基づいて、ラベル候補の連想スコアを算出する。連想スコアとは、上位カテゴリのラベルとの関連性の観点からのラベルとしての尤度を示す値である。そして、決定部306は、連想スコアが相対的に最も高いラベル候補を、選択部304が選択したカテゴリのラベルに決定する。   More specifically, the determination unit 306 is based on the co-occurrence degree of the label candidate and the label of the higher category in one sentence unit or a predetermined number of sentence units in each document of the document set classified into categories. To calculate an association score for the label candidate. The association score is a value indicating the likelihood as a label from the viewpoint of relevance with the label of the higher category. Then, the determination unit 306 determines the label candidate having the relatively highest association score as the label of the category selected by the selection unit 304.

これにより、決定部306は、文書中に、ラベル候補と、上位カテゴリを特徴付けるラベルとのそれぞれが、所定数よりも離れた2つの文のそれぞれに出現している場合には、共起しない組み合わせと判定することができる。ここで、所定数よりも離れた2つの文は、異なる話題について述べた2つの文である可能性がある。このため、決定部306は、異なる話題について述べた、2つの文のそれぞれの文に出現する語句の組み合わせを、同一の話題について述べた、関連する語句の組み合わせとしてしまうことを抑制することができる。結果として、決定部306は、文間に連続性がある文書の集まりである文書集合が分類されたカテゴリについて、ラベル候補と、上位カテゴリを特徴付けるラベルとの組み合わせが、関連する語句の組み合わせであるか否かを精度よく判定することができる。   As a result, the determination unit 306 causes the combination that does not co-occur when the label candidate and the label characterizing the upper category appear in each of two sentences separated by a predetermined number in the document. Can be determined. Here, the two sentences that are more than the predetermined number may be two sentences that describe different topics. For this reason, the determination unit 306 can suppress a combination of words appearing in each of two sentences describing different topics from being a combination of related words describing the same topic. . As a result, for the category in which the document set, which is a collection of documents having continuity between sentences, is classified, the determination unit 306 is a combination of a related word / phrase combination of a label candidate and a label that characterizes a higher category. Whether or not can be determined with high accuracy.

また、決定部306は、例えば、カテゴリに分類した文書集合のそれぞれの文書の全文単位の、ラベル候補と、上位カテゴリのラベルとの共起度合いに基づいて、カテゴリのラベルを決定してもよい。決定部306は、具体的には、カテゴリに分類した文書集合のそれぞれの文書の種別に基づいて、カテゴリに分類した文書集合が、文間に連続性がある文書の集まりであるか否かを判定する。そして、決定部306は、文間に連続性がある文書の集まりではない場合には、カテゴリに分類した文書集合のそれぞれの文書の全文単位の、ラベル候補と、上位カテゴリのラベルとの共起度合いに基づいて、カテゴリのラベルを決定する。   Further, the determination unit 306 may determine the label of the category based on, for example, the co-occurrence degree of the label candidate and the label of the higher category for each document in the document set classified into the category. . Specifically, the determination unit 306 determines whether or not the document set classified into the category is a set of documents having continuity between sentences based on the document types of the document sets classified into the category. judge. If the determination unit 306 is not a collection of documents with continuity between sentences, the determination unit 306 co-occurs the label candidates and the labels of the upper category for each document in each document of the document set classified into categories. Determine category labels based on degree.

決定部306は、より具体的には、カテゴリに分類した文書集合のそれぞれの文書の全文単位の、ラベル候補と、上位カテゴリのラベルとの共起度合いに基づいて、ラベル候補の連想スコアを算出する。そして、決定部306は、連想スコアが相対的に最も高いラベル候補を、選択部304が選択したカテゴリのラベルに決定する。   More specifically, the determination unit 306 calculates an associative score of the label candidate based on the co-occurrence degree of the label candidate and the label of the higher category for each document of the document set classified into the category. To do. Then, the determination unit 306 determines the label candidate having the relatively highest association score as the label of the category selected by the selection unit 304.

これにより、決定部306は、文書中に、ラベル候補と、上位カテゴリを特徴付けるラベルとが、どれだけ離れて出現していても、共起する組み合わせと判定することができる。ここで、文書が文間に連続性がある文書ではない場合には、文書に含まれる2つの文は、所定数よりも離れていたとしても、同じ話題について述べた2つの文である可能性がある。このため、決定部306は、同一の話題について述べた、関連する語句の組み合わせを、異なる話題について述べた、関連性が相対的に低い語句の組み合わせとしてしまうことを抑制することができる。結果として、決定部306は、文間に連続性がある文書の集まりではない文書集合が分類されたカテゴリについて、ラベル候補と、上位カテゴリを特徴付けるラベルとの組み合わせが、関連する語句の組み合わせであるか否かを精度よく判定することができる。   As a result, the determination unit 306 can determine that the label candidate and the label characterizing the upper category appear in the document as a co-occurring combination, regardless of how far apart they appear. Here, when the document is not a document having continuity between sentences, the two sentences included in the document may be two sentences that describe the same topic even if they are separated from a predetermined number. There is. For this reason, the determination unit 306 can suppress a combination of related words and phrases that describe the same topic from being a combination of words and phrases that are related to different topics and have relatively low relevance. As a result, for a category in which a document set that is not a collection of documents with continuity between sentences is classified, the determination unit 306 combines a combination of a label candidate and a label that characterizes a higher category as a combination of related words. Whether or not can be determined with high accuracy.

決定部306は、さらに、複数の文書のうち、特定部305が特定したラベル候補が出現する文書集合と選択部304が選択したカテゴリの上位カテゴリのラベルが出現する文書集合との重複度合いに基づいて、選択したカテゴリのラベルを決定してもよい。重複度合いとは、2つの文書集合において重複している文書の数の多さを示す。ここでは、連想スコアは、例えば、上位カテゴリのラベルと、選択部304が選択したカテゴリのラベル候補が共起する文書の数が多くなるほど、値が大きくなるようにする。また、連想スコアは、上位カテゴリのラベルと、カテゴリのラベル候補が共起する文書の数に比べて、選択部304が選択したカテゴリのラベル候補が出現する文書の数が多くなるほど、値が小さくなるようにする。   Further, the determination unit 306 is based on the degree of overlap between a document set in which a label candidate specified by the specifying unit 305 appears and a document set in which a label of a higher category of the category selected by the selection unit 304 appears among a plurality of documents. The label of the selected category may be determined. The degree of overlap indicates the number of documents that overlap in two document sets. Here, for example, the value of the associative score increases as the number of documents in which the label of the upper category and the label candidate of the category selected by the selection unit 304 co-occur increases. In addition, the value of the associative score is smaller as the number of documents in which the label candidate of the category selected by the selection unit 304 appears is larger than the number of documents in which the label of the upper category and the label candidate of the category co-occur. To be.

決定部306は、特定部305が特定したラベル候補の連想スコアを算出する。そして、決定部306は、連想スコアが相対的に最も高いラベル候補を、選択部304が選択したカテゴリのラベルに決定する。これにより、決定部306は、複数のカテゴリのそれぞれのカテゴリを特徴付けるラベルとして、当該カテゴリの上位カテゴリを特徴付けるラベルが出現する文書以外の文書に出現する回数が少ないラベルを付与することができる。   The determination unit 306 calculates an association score of the label candidate specified by the specifying unit 305. Then, the determination unit 306 determines the label candidate having the relatively highest association score as the label of the category selected by the selection unit 304. As a result, the determination unit 306 can assign a label with a small number of appearances to a document other than a document in which a label characterizing a higher category of the category appears as a label characterizing each category of the plurality of categories.

また、決定部306は、特定部305がラベルスコアを算出せずにラベル候補を特定した場合には、特定部305が特定したラベル候補のうち、複数の文書における、上位カテゴリのラベルとの共起度合いが相対的に高いラベル候補をさらに特定してもよい。次に、決定部306は、特定した共起度合いが相対的に高いラベル候補のラベルスコアを算出する。そして、決定部306は、算出したラベルスコアに基づいて、カテゴリのラベルを決定する。これにより、決定部306は、共起度合いに基づいてラベル候補を特定することができる。その後、決定部306は、特定したラベル候補のカテゴリを特徴付ける観点からのラベルとしての尤度を示す特徴度に基づいて、ラベルを決定することができる。   In addition, when the specifying unit 305 specifies a label candidate without calculating the label score, the determination unit 306 shares the label candidates specified by the specifying unit 305 with the labels of the upper category in a plurality of documents. Label candidates that have a relatively high degree of occurrence may be further specified. Next, the determination unit 306 calculates the label score of the label candidate having the relatively high co-occurrence degree. Then, the determination unit 306 determines a category label based on the calculated label score. Thereby, the determination part 306 can identify a label candidate based on the co-occurrence degree. Thereafter, the determination unit 306 can determine the label based on the feature degree indicating the likelihood as the label from the viewpoint of characterizing the category of the identified label candidate.

決定したラベルは、例えば、RAM203、ディスク205などの記憶領域に記憶される。決定部306は、例えば、図2に示したROM202、RAM203、ディスク205などの記憶装置に記憶されたプログラムをCPU201に実行させることにより、その機能を実現する。   The determined label is stored in a storage area such as the RAM 203 and the disk 205, for example. The determination unit 306 realizes its function by causing the CPU 201 to execute a program stored in a storage device such as the ROM 202, the RAM 203, and the disk 205 illustrated in FIG.

出力部307は、複数のカテゴリのそれぞれのカテゴリのラベルに対応付けて、複数のカテゴリのそれぞれのカテゴリに分類した文書集合のそれぞれの文書を識別する情報を出力する。出力部307は、例えば、複数のカテゴリのそれぞれのカテゴリのラベルに対応付けて、複数のカテゴリのそれぞれのカテゴリに分類した文書集合のそれぞれの文書を識別する情報を、出力装置208になるディスプレイに表示する。   The output unit 307 outputs information for identifying each document in the document set classified into each category of the plurality of categories in association with the label of each category of the plurality of categories. For example, the output unit 307 associates information identifying each document of the document set classified into each category of the plurality of categories with the label of each category of the plurality of categories on the display serving as the output device 208. indicate.

また、出力部307は、複数のカテゴリのそれぞれのカテゴリのラベルに対応付けて、複数のカテゴリのそれぞれのカテゴリに分類した文書集合のそれぞれの文書を識別する情報を、I/F206によって外部装置へ送信してもよい。また、出力部307は、複数のカテゴリのそれぞれのカテゴリのラベルに対応付けて、複数のカテゴリのそれぞれのカテゴリに分類した文書集合のそれぞれの文書を識別する情報を、RAM203やディスク205などの記憶領域に記憶してもよい。これにより、出力部307は、ユーザに、複数のカテゴリのそれぞれのカテゴリのラベルを通知することができる。   Further, the output unit 307 associates information identifying each document of the document set classified into each category of the plurality of categories with the label of each category of the plurality of categories, via the I / F 206 to the external device. You may send it. Further, the output unit 307 stores information for identifying each document in the document set classified into each category of the plurality of categories in association with each category label of the plurality of categories, such as the RAM 203 and the disk 205. It may be stored in the area. As a result, the output unit 307 can notify the user of the labels of each of the plurality of categories.

(実施例1)
次に、図4〜図10を用いて、実施例1について説明する。
Example 1
Next, Example 1 will be described with reference to FIGS.

<実施例1における文書DB400のデータ構造の一例>
図4は、実施例1における文書DB400のデータ構造の一例を示す説明図である。文書DB400は、例えば、図2に示したROM202、RAM203、ディスク205などの記憶領域によって実現される。
<Example of Data Structure of Document DB 400 in Embodiment 1>
FIG. 4 is an explanatory diagram illustrating an example of a data structure of the document DB 400 according to the first embodiment. The document DB 400 is realized by storage areas such as the ROM 202, the RAM 203, and the disk 205 shown in FIG.

図4に示すように、文書DB400は、文書名項目に対応付けて、一文内容項目を有し、文書ごとに各項目に情報が設定されることにより、レコードを記憶する。文書名項目には、文書の名称が記憶される。一文内容項目には、文書名項目に名称が記憶された文書に含まれる一文の内容が記憶される。例えば、レコード401は、「文書A」と、「文書A」に含まれる「文1」とを示す文書情報に対応する。   As shown in FIG. 4, the document DB 400 has one sentence content item associated with the document name item, and stores information by setting information for each item for each document. In the document name item, the name of the document is stored. The content of one sentence included in the document whose name is stored in the document name item is stored in the one sentence content item. For example, the record 401 corresponds to document information indicating “document A” and “sentence 1” included in “document A”.

また、文書DB400は、さらに、情報処理装置100が文書群のそれぞれの文書の種別、それぞれの文書を代表するキーワード、またはそれぞれの文書の属性に基づいて文書群を分類する場合には、メタデータ項目を有してもよい。メタデータ項目には、文書の種別、文書を代表するキーワード、または文書の属性などを示すメタデータが記憶される。   Further, the document DB 400 further includes metadata when the information processing apparatus 100 classifies the document group based on the type of each document of the document group, the keyword representing each document, or the attribute of each document. You may have items. In the metadata item, metadata indicating a document type, a keyword representing the document, or an attribute of the document is stored.

<実施例1におけるストップワードリスト500のデータ構造の一例>
図5は、実施例1におけるストップワードリスト500のデータ構造の一例を示す説明図である。ストップワードリスト500は、例えば、図2に示したROM202、RAM203、ディスク205などの記憶領域によって実現される。
<Example of Data Structure of Stop Word List 500 in Embodiment 1>
FIG. 5 is an explanatory diagram illustrating an example of a data structure of the stop word list 500 according to the first embodiment. The stop word list 500 is realized by storage areas such as the ROM 202, the RAM 203, and the disk 205 shown in FIG.

図5に示すように、ストップワードリスト500は、ストップワード項目を有し、ストップワード項目に情報が設定されることにより、レコードを記憶する。ストップワード項目には、カテゴリのラベルとして使用しない語句が記憶される。例えば、レコード501は、「ストップワードA」を示す語句情報に対応する。   As shown in FIG. 5, the stop word list 500 has stop word items, and records are stored by setting information in the stop word items. In the stop word item, words that are not used as category labels are stored. For example, the record 501 corresponds to the phrase information indicating “stop word A”.

<実施例1における文書DB400の中から検索キーワードに関連する文書を抽出する一例>
実施例1において、情報処理装置100は、ユーザから検索キーワードの入力を受け付ける。そして、情報処理装置100は、文書群の中から検索キーワードに関連する文書を抽出する。情報処理装置100は、例えば、文書DB400のレコード群の文書名項目に記憶された文書の名称のうち、検索キーワードが出現する文書の名称を抽出する。
<Example of Extracting Document Relevant to Search Keyword from Document DB 400 in Embodiment 1>
In the first embodiment, the information processing apparatus 100 receives an input of a search keyword from a user. Then, the information processing apparatus 100 extracts a document related to the search keyword from the document group. For example, the information processing apparatus 100 extracts the name of the document in which the search keyword appears from the document names stored in the document name item of the record group of the document DB 400.

情報処理装置100は、具体的には、ユーザから検索キーワード「音声」の入力を受け付ける。次に、情報処理装置100は、文書DB400のレコード群のそれぞれのレコードの一文内容項目に記憶された一文の内容に検索キーワード「音声」が出現するか否かを判定する。そして、情報処理装置100は、検索キーワード「音声」が出現すると判定したレコードの文書名項目に記憶された文書の名称を抽出する。これにより、情報処理装置100は、階層化された複数のカテゴリに分類する対象になる、検索キーワードが出現する複数の文書を抽出することができる。   Specifically, the information processing apparatus 100 receives an input of the search keyword “voice” from the user. Next, the information processing apparatus 100 determines whether or not the search keyword “speech” appears in the content of one sentence stored in the one sentence content item of each record of the record group of the document DB 400. Then, the information processing apparatus 100 extracts the name of the document stored in the document name item of the record determined to have the search keyword “voice” appear. Thereby, the information processing apparatus 100 can extract a plurality of documents in which a search keyword appears, which is a target to be classified into a plurality of hierarchical categories.

ここでは、検索キーワードが、1つのキーワードである場合について説明したが、これに限らない。例えば、検索キーワードは、複数のキーワードの組み合わせであってもよい。この場合では、情報処理装置100は、複数のキーワードのいずれかのキーワードが出現する文書を抽出する。また、情報処理装置100は、複数のキーワードが出現する文書を抽出してもよい。   Although the case where the search keyword is one keyword has been described here, the present invention is not limited to this. For example, the search keyword may be a combination of a plurality of keywords. In this case, the information processing apparatus 100 extracts a document in which any one of a plurality of keywords appears. Further, the information processing apparatus 100 may extract a document in which a plurality of keywords appear.

また、例えば、検索キーワードは、自然文であってもよい。この場合では、情報処理装置100は、形態素解析によって自然文に出現するキーワードを抽出する。そして、情報処理装置100は、抽出したキーワードが出現する文書を抽出する。   For example, the search keyword may be a natural sentence. In this case, the information processing apparatus 100 extracts keywords that appear in natural sentences by morphological analysis. Then, the information processing apparatus 100 extracts a document in which the extracted keyword appears.

<実施例1における複数の文書を複数のカテゴリに分類する一例>
図6は、実施例1における複数の文書を複数のカテゴリに分類する一例を示す説明図である。図6の例では、情報処理装置100は、抽出した複数の文書を、最上位カテゴリに分類する文書集合に設定する。そして、情報処理装置100は、最上位カテゴリに分類した文書集合を、複数の文書集合に分割する。
<Example of classifying a plurality of documents into a plurality of categories in the first embodiment>
FIG. 6 is an explanatory diagram illustrating an example of classifying a plurality of documents into a plurality of categories according to the first embodiment. In the example of FIG. 6, the information processing apparatus 100 sets a plurality of extracted documents as a document set that is classified into the highest category. Then, the information processing apparatus 100 divides the document set classified into the highest category into a plurality of document sets.

情報処理装置100は、例えば、最上位カテゴリに分類した文書集合について、図6に示す単語文書行列600を作成する。単語文書行列600の複数の行のそれぞれは、最上位カテゴリに分類した文書集合のそれぞれの文書に対応する。単語文書行列600の複数の列のそれぞれは、最上位カテゴリに分類した文書集合に出現する複数の語句のそれぞれに対応する。   For example, the information processing apparatus 100 creates a word document matrix 600 shown in FIG. 6 for a document set classified into the highest category. Each of the plurality of rows of the word document matrix 600 corresponds to each document of the document set classified into the highest category. Each of the plurality of columns of the word document matrix 600 corresponds to each of a plurality of words appearing in the document set classified into the highest category.

単語文書行列600の要素は、当該要素がある行に対応する文書において、当該要素がある列に対応する語句が出現するか否かを示す値である。要素は、例えば、文書に語句が出現する場合には「1」である。要素は、文書に語句が出現しない場合には「0」である。また、要素は、文書に語句が出現する回数であってもよい。また、要素は、文書における語句についてのTF−IDFであってもよい。   An element of the word document matrix 600 is a value indicating whether or not a word or phrase corresponding to a column including the element appears in a document corresponding to the line including the element. The element is, for example, “1” when a word appears in the document. The element is “0” when no word appears in the document. The element may be the number of times a word appears in the document. The element may be a TF-IDF for a word or phrase in a document.

次に、情報処理装置100は、単語文書行列600に基づいて、文書同士の類似度合いを示すコサイン類似度を算出する。情報処理装置100は、例えば、コサイン類似度として、cosθ=(nv・nw)/(|nv||nw|)を算出する。nvは、単語文書行列600のうちの文書vに対応する行にある要素を並べたベクトルである。nwは、単語文書行列600のうちの文書wに対応する行にある要素を並べたベクトルである。nv・nwは、nvとnwとの内積である。|nv|は、nvのベクトルの大きさである。|nw|は、nwのベクトルの大きさである。   Next, the information processing apparatus 100 calculates a cosine similarity indicating the degree of similarity between documents based on the word document matrix 600. For example, the information processing apparatus 100 calculates cos θ = (nv · nw) / (| nv || nw |) as the cosine similarity. nv is a vector in which elements in a row corresponding to the document v in the word document matrix 600 are arranged. nw is a vector in which elements in a row corresponding to the document w in the word document matrix 600 are arranged. nv · nw is an inner product of nv and nw. | Nv | is the magnitude of the vector of nv. | Nw | is the magnitude of the vector of nw.

2つのベクトルnvとベクトルnwとが同じ向きであれば、2つのベクトルnvとベクトルnwとの間の角度θは0°になり、cosθは1になる。一方で、2つのベクトルnvとベクトルnwとが逆向きであれば、2つのベクトルnvとベクトルnwとの間の角度θは180°になり、cosθは−1になる。換言すれば、文書vと文書wに出現する語句のパターンが似ているほど、コサイン類似度は1に近づく。また、文書vと文書wに出現する語句のパターンが似ていないほど、コサイン類似度は−1に近づく。そして、情報処理装置100は、コサイン類似度が1に最も近くなる文書同士を、最下位階層のカテゴリに分類される文書集合の1つとする。   If the two vectors nv and nw are in the same direction, the angle θ between the two vectors nv and nw is 0 °, and cos θ is 1. On the other hand, if the two vectors nv and nw are in opposite directions, the angle θ between the two vectors nv and nw is 180 °, and cos θ is −1. In other words, the cosine similarity approaches 1 as the patterns of words appearing in the document v and the document w are similar. Further, the cosine similarity is closer to −1 as the patterns of words appearing in the document v and the document w are not similar. Then, the information processing apparatus 100 sets the documents whose cosine similarity is closest to 1 as one of the document sets classified into the category of the lowest hierarchy.

次に、情報処理装置100は、ウォード法を用いて文書集合を併合する。情報処理装置100は、例えば、文書集合同士の距離関数の値を算出する。距離関数は、例えば、文書集合のそれぞれの文書に出現する語句のパターンを座標値とした場合における文書集合同士の中心座標間の距離を示す関数である。次に、情報処理装置100は、距離関数の値が最小になる文書集合同士を併合した1つの文書集合を特定する。そして、情報処理装置100は、2つのカテゴリに分類された2つの文書集合同士を併合した1つの文書集合を、当該2つのカテゴリの上位カテゴリに分類された文書集合とする。   Next, the information processing apparatus 100 merges document sets using the Ward method. For example, the information processing apparatus 100 calculates the value of the distance function between document sets. The distance function is, for example, a function indicating the distance between the center coordinates of the document sets when the coordinate pattern is a pattern of words appearing in each document of the document set. Next, the information processing apparatus 100 specifies one document set obtained by merging document sets having the smallest distance function value. Then, the information processing apparatus 100 sets one document set obtained by merging two document sets classified into two categories as a document set classified into a higher category of the two categories.

さらに、情報処理装置100は、2つの文書集合を併合することを繰り返してもよい。そして、情報処理装置100は、2つの文書集合を併合する都度、2つの文書集合を併合した1つの文書集合を、2つの文書集合が分類されたカテゴリの上位カテゴリに分類された文書集合とする。これにより、情報処理装置100は、複数の文書を、階層化された複数のカテゴリに分類することができる。   Furthermore, the information processing apparatus 100 may repeatedly merge the two document sets. Each time the two document sets are merged, the information processing apparatus 100 sets one document set obtained by merging the two document sets as a document set classified into a higher category of the category in which the two document sets are classified. . Thereby, the information processing apparatus 100 can classify a plurality of documents into a plurality of hierarchized categories.

ここで、情報処理装置100は、検索キーワードを、最上位カテゴリのラベルに決定しておく。そして、情報処理装置100は、検索キーワードを、最上位カテゴリのラベルとして付与する。また、情報処理装置100は、検索キーワードが複数のキーワードの組み合わせであれば、それぞれのキーワードを最上位カテゴリのラベルとして付与してもよい。換言すれば、情報処理装置100は、最上位カテゴリのラベルを複数付与してもよい。   Here, the information processing apparatus 100 determines the search keyword as the label of the highest category. Then, the information processing apparatus 100 assigns the search keyword as a label of the highest category. Further, if the search keyword is a combination of a plurality of keywords, the information processing apparatus 100 may assign each keyword as a label of the highest category. In other words, the information processing apparatus 100 may give a plurality of labels of the highest category.

ここでは、情報処理装置100が、コサイン類似度に基づいて最下位階層のカテゴリに分類する文書集合を作成する場合について説明したが、これに限らない。例えば、情報処理装置100は、文書集合同士の併合を繰り返した結果、併合された文書集合に含まれる文書の数が閾値以上になった場合に、併合された文書集合を最下位階層のカテゴリに分類された文書集合としてもよい。   Here, a case has been described in which the information processing apparatus 100 creates a document set that is classified into the category of the lowest hierarchy based on the cosine similarity, but the present invention is not limited to this. For example, when the number of documents included in the merged document set is equal to or greater than a threshold as a result of repeating merging of document sets, the information processing apparatus 100 sets the merged document set as a category in the lowest hierarchy. A classified document set may be used.

ここでは、情報処理装置100が、最下位階層のカテゴリに分類する文書集合から、最下位階層よりも上位階層のカテゴリに分類する文書集合を作成する場合について説明したが、これに限らない。例えば、情報処理装置100は、最上位階層のカテゴリに分類する文書集合のうち、あるキーワードが出現する文書集合を、最上位階層よりも下位階層のカテゴリに分類する文書集合としてもよい。そして、情報処理装置100は、最上位階層よりも下位階層のカテゴリに分類する文書集合のうち、別のキーワードが出現する文書集合を、さらに下位階層のカテゴリに分類する文書集合としてもよい。   Here, a case has been described in which the information processing apparatus 100 creates a document set classified into a category higher than the lowest hierarchy from a document set classified into the category of the lowest hierarchy, but the present invention is not limited to this. For example, the information processing apparatus 100 may set a document set in which a certain keyword appears in a document set classified into a category of the highest hierarchy as a document set classified into a category lower than the highest hierarchy. Then, the information processing apparatus 100 may set a document set in which another keyword appears among the document sets classified into a lower hierarchy category than the highest hierarchy as a document set further classified into a lower hierarchy category.

<実施例1における複数のカテゴリのいずれかのカテゴリのラベル候補を特定する一例>
図7は、実施例1における複数のカテゴリのいずれかのカテゴリのラベル候補を特定する一例を示す説明図である。情報処理装置100は、TF−IDFを用いて、複数のカテゴリのうち、ラベルを付与済みの最上位カテゴリを除くいずれかのカテゴリのラベル候補を特定する。
<Example of Specifying Label Candidates for Any of Multiple Categories in Embodiment 1>
FIG. 7 is an explanatory diagram illustrating an example of specifying a label candidate of any one of a plurality of categories in the first embodiment. The information processing apparatus 100 uses TF-IDF to identify a label candidate of any category other than the highest category to which a label has been assigned among a plurality of categories.

情報処理装置100は、例えば、ラベル候補を特定する対象として、第1階層のカテゴリを選択する。次に、情報処理装置100は、選択したカテゴリに分類した文書集合に出現する語句を抽出する。ここで、抽出した語句をxとする。選択したカテゴリに分類した文書集合をyとする。そして、情報処理装置100は、抽出した語句のラベルスコアとして、TFx,y×IDFxを算出する。 For example, the information processing apparatus 100 selects a category of the first hierarchy as a target for specifying a label candidate. Next, the information processing apparatus 100 extracts words that appear in the document set classified into the selected category. Here, let x be the extracted word. Let y be the document set classified into the selected category. Then, the information processing apparatus 100 calculates TF x, y × IDF x as the label score of the extracted phrase.

ここで、TFx,y=nx,y/Σzz,yである。また、IDFx=log{D/df(x)}である。nx,yは、抽出した語句xの文書集合yにおける出現回数である。nz,yは、文書集合yに出現する語句zの文書集合yにおける出現回数である。Dは、最上位カテゴリに分類した文書集合に含まれる文書の数である。df(x)は、最上位カテゴリに分類した文書集合のうちの語句xが出現する文書の数である。 Here, TF x, y = n x , y / Σ z n z, a y. Further, IDF x = log {D / df (x)}. nx, y is the number of appearances of the extracted phrase x in the document set y. n z, y is the number of appearances of the word z appearing in the document set y in the document set y. D is the number of documents included in the document set classified into the highest category. df (x) is the number of documents in which the word x appears in the document set classified into the highest category.

次に、情報処理装置100は、抽出した語句をラベルスコアが高い順にソートする。そして、情報処理装置100は、ラベルスコアが所定の順位までの語句を、ラベル候補を特定する対象として選択したカテゴリのラベル候補として特定する。   Next, the information processing apparatus 100 sorts the extracted phrases in descending order of label score. Then, the information processing apparatus 100 identifies words and phrases having a label score up to a predetermined rank as label candidates of a category selected as a target for identifying label candidates.

図7の例では、情報処理装置100は、選択した第1階層のカテゴリに分類した文書集合に出現する「ユーザ」、「確認」、「音声認識」、「判定」、「発明」、「ポイント」、「遅延」などの語句を抽出する。次に、情報処理装置100は、抽出した語句のラベルスコアを算出する。そして、情報処理装置100は、ラベルスコアが上位5位までの語句「ユーザ」、「確認」、「音声認識」、「判定」、「発明」を、ラベル候補として特定する。これにより、情報処理装置100は、カテゴリを特徴付ける観点からラベルとして尤もらしいラベル候補を特定することができる。   In the example of FIG. 7, the information processing apparatus 100 displays “user”, “confirmation”, “voice recognition”, “determination”, “invention”, “point” appearing in the selected document set classified in the first hierarchy category. ”,“ Delay ”, etc. Next, the information processing apparatus 100 calculates a label score of the extracted word / phrase. Then, the information processing apparatus 100 identifies the words “user”, “confirmation”, “speech recognition”, “determination”, and “invention” with the label score up to the top five as label candidates. Thereby, the information processing apparatus 100 can specify a label candidate that is likely to be a label from the viewpoint of characterizing the category.

ここでは、情報処理装置100が、ラベルスコアが所定の順位までの語句を、カテゴリのラベル候補として特定する場合について説明したが、これに限らない。例えば、情報処理装置100は、ラベルスコアが閾値以上の語句を、カテゴリのラベル候補として特定してもよい。また、情報処理装置100は、ラベルスコアが閾値以上であって、かつ、ラベルスコアが所定の順位までの語句を、カテゴリのラベル候補として特定してもよい。   Here, a case has been described in which the information processing apparatus 100 specifies words and phrases having a label score up to a predetermined rank as category category candidates, but the present invention is not limited to this. For example, the information processing apparatus 100 may specify a phrase whose label score is equal to or greater than a threshold as a category label candidate. In addition, the information processing apparatus 100 may specify words and phrases whose label score is equal to or higher than a threshold value and whose label score reaches a predetermined rank as a category label candidate.

<実施例1における複数のカテゴリのいずれかのカテゴリのラベル候補を特定する他の例>
情報処理装置100は、C−Valueを用いて、複数のカテゴリのうち、ラベルを付与済みの最上位カテゴリを除くいずれかのカテゴリのラベル候補を特定してもよい。情報処理装置100は、例えば、第1階層のカテゴリに分類した文書集合に出現する語句を抽出する。次に、情報処理装置100は、抽出した語句のラベルスコアとして、C−Value(CN)を算出する。
<Another example of specifying a label candidate of any one of a plurality of categories in the first embodiment>
The information processing apparatus 100 may specify a label candidate of any category other than the highest category to which a label has been assigned among a plurality of categories by using C-Value. For example, the information processing apparatus 100 extracts words / phrases that appear in a document set classified into categories in the first hierarchy. Next, the information processing apparatus 100 calculates C-Value (CN) as the label score of the extracted word.

ここで、C−Value(CN)=(length(CN)−1)×(n(CN)−t(CN)/c(CN))である。CNは、抽出した語句である。length(CN)は、抽出した語句の長さである。n(CN)は、文書集合において、抽出した語句が出現する回数である。t(CN)は、文書集合において、抽出した語句を含む複合語が出現する回数である。c(CN)は、文書集合に出現する、抽出した語句を含む複合語の種類の数である。   Here, C-Value (CN) = (length (CN) −1) × (n (CN) −t (CN) / c (CN)). CN is the extracted word / phrase. The length (CN) is the length of the extracted word / phrase. n (CN) is the number of times the extracted word appears in the document set. t (CN) is the number of times a compound word including the extracted word appears in the document set. c (CN) is the number of types of compound words that appear in the document set and that contain the extracted phrases.

次に、情報処理装置100は、文書集合に出現する語句をラベルスコアの高い順にソートする。そして、情報処理装置100は、ラベルスコアが所定の順位までの語句を、ラベル候補として特定する。これにより、情報処理装置100は、カテゴリを特徴付ける観点からラベルとして尤もらしいラベル候補を特定することができる。   Next, the information processing apparatus 100 sorts words appearing in the document set in descending order of label score. Then, the information processing apparatus 100 identifies words and phrases with label scores up to a predetermined rank as label candidates. Thereby, the information processing apparatus 100 can specify a label candidate that is likely to be a label from the viewpoint of characterizing the category.

ここでは、情報処理装置100が、ラベルスコアが所定の順位までの語句を、カテゴリのラベル候補として特定する場合について説明したが、これに限らない。例えば、情報処理装置100は、ラベルスコアが閾値以上の語句を、カテゴリのラベル候補として特定してもよい。また、情報処理装置100は、ラベルスコアが閾値以上であって、かつ、ラベルスコアが所定の順位までの語句を、カテゴリのラベル候補として特定してもよい。   Here, a case has been described in which the information processing apparatus 100 specifies words and phrases having a label score up to a predetermined rank as category category candidates, but the present invention is not limited to this. For example, the information processing apparatus 100 may specify a phrase whose label score is equal to or greater than a threshold as a category label candidate. In addition, the information processing apparatus 100 may specify words and phrases whose label score is equal to or higher than a threshold value and whose label score reaches a predetermined rank as a category label candidate.

また、ここでは、情報処理装置100が、TF−IDFまたはC−Valueに基づいて、ラベル候補を特定する場合について説明したが、これに限らない。例えば、情報処理装置100は、TF−IDFが閾値以上であって、かつ、C−Valueが閾値以上である語句を、ラベル候補として特定してもよい。また、情報処理装置100は、TF−IDFに基づいてラベル候補を特定することができなかった場合に、C−Valueに基づいてラベル候補を特定するようにしてもよい。   Moreover, although the case where the information processing apparatus 100 specifies label candidates based on TF-IDF or C-Value has been described here, the present invention is not limited to this. For example, the information processing apparatus 100 may specify a word / phrase having TF-IDF equal to or greater than a threshold and C-Value equal to or greater than the threshold as a label candidate. Further, the information processing apparatus 100 may specify a label candidate based on C-Value when the label candidate cannot be specified based on TF-IDF.

<実施例1におけるラベル候補の連想スコアを算出する一例>
図8は、実施例1におけるラベル候補の連想スコアを算出する一例を示す説明図である。情報処理装置100は、特定したラベル候補のそれぞれの連想スコアを算出する。
<Example of calculating associative score of label candidate in Example 1>
FIG. 8 is an explanatory diagram illustrating an example of calculating an association score for a label candidate in the first embodiment. The information processing apparatus 100 calculates an association score for each identified label candidate.

ここで、上位カテゴリのラベルをi、ラベル候補の特定元のカテゴリのラベル候補をj、最上位カテゴリに分類した文書集合をNとし、所定数連続する複数の文をsとする。また、Nに含まれる複数のsにおけるjの出現回数をΣsNs(j)とする。また、Nに含まれる複数のsにおけるiとjとの組み合わせの出現回数をΣsNs(i∩j)とする。ΣsNs(i∩j)は、iとjとの組み合わせの共起回数に対応する。情報処理装置100は、例えば、上位カテゴリのラベルがiである場合のjの連想スコアa(j|i)=ΣsNs(i∩j)/ΣsNs(j)を算出する。そして、情報処理装置100は、連想スコアが最も高いラベル候補「音声認識」を、カテゴリのラベルに決定する。 Here, it is assumed that the label of the upper category is i, the label candidate of the original category of the label candidate is j, the document set classified into the highest category is N, and a predetermined number of consecutive sentences are s. Further, the number of occurrences of j in a plurality of s included in N is set to Σ sN s (j). Further, the number of appearances of the combination of i and j in a plurality of s included in N is assumed to be Σ sN s (i∩j). Σ sN s (i∩j) corresponds to the number of co-occurrence of the combination of i and j. For example, the information processing apparatus 100 calculates the association score a (j | i) = Σ sN s (i ∩ j) / Σ sN s (j) when the label of the upper category is i. To do. Then, the information processing apparatus 100 determines the label candidate “voice recognition” having the highest association score as the category label.

また、情報処理装置100は、上位カテゴリのラベルiが複数ある場合には、それぞれのラベルiについてjの連想スコアa(j|i)を算出してもよい。そして、情報処理装置100は、算出した連想スコアa(j|i)の和、または算出した連想スコアa(j|i)の平均値を算出する。そして、情報処理装置100は、連想スコアの和、または連想スコアの平均値が最も高いラベル候補「音声認識」を、カテゴリのラベルに決定する。   In addition, when there are a plurality of upper category labels i, the information processing apparatus 100 may calculate an association score a (j | i) of j for each label i. Then, the information processing apparatus 100 calculates the sum of the calculated association scores a (j | i) or the average value of the calculated association scores a (j | i). Then, the information processing apparatus 100 determines the label candidate “voice recognition” having the highest association score or the average association score as the category label.

ここで、上位カテゴリのラベルY、選択したカテゴリのラベル候補A、Bとした場合を例に挙げる。この場合、図8のように、ラベルYが出現する文書集合801とラベル候補Aが出現する文書集合802との積集合803のうち、ハッチを付したラベルYとラベル候補Aが共起する文書集合804に含まれる文書の数が、ラベル候補Aの連想スコアの分子となる。一方で、ラベル候補Aが出現する文書集合802に含まれる文書の数が、ラベル候補Aの連想スコアの分母となる。   Here, the case where the label Y of the upper category and the label candidates A and B of the selected category are given as an example. In this case, as shown in FIG. 8, among the product set 803 of the document set 801 in which the label Y appears and the document set 802 in which the label candidate A appears, a document in which the hatched label Y and the label candidate A co-occur The number of documents included in the set 804 becomes the numerator of the associative score of the label candidate A. On the other hand, the number of documents included in the document set 802 in which the label candidate A appears is the denominator of the associative score of the label candidate A.

同様に、図8のように、ラベルYが出現する文書集合801とラベル候補Bが出現する文書集合805との積集合805のうち、ハッチを付したラベルYとラベル候補Bが共起する文書集合806に含まれる文書の数が、ラベル候補Bの連想スコアの分子となる。一方で、ラベル候補Bが出現する文書集合805に含まれる文書の数が、ラベル候補Bの連想スコアの分母となる。   Similarly, as shown in FIG. 8, among the product set 805 of the document set 801 in which the label Y appears and the document set 805 in which the label candidate B appears, a document in which the hatched label Y and the label candidate B co-occur The number of documents included in the set 806 becomes the numerator of the association score of the label candidate B. On the other hand, the number of documents included in the document set 805 in which the label candidate B appears is the denominator of the associative score of the label candidate B.

これにより、情報処理装置100は、上位カテゴリのラベルと、選択したカテゴリのラベル候補が共起する文書の数が多くなるほど、連想スコアが大きくなるようにすることができる。また、情報処理装置100は、上位カテゴリのラベルと、選択したカテゴリのラベル候補が共起する文書の数に比べて、選択したカテゴリのラベル候補が出現する文書の数が多くなるほど、連想スコアが小さくなるようにすることができる。換言すれば、情報処理装置100は、上位カテゴリのラベルが出現する文書集合と、選択したカテゴリのラベル候補が出現する文書集合とが重複しないほど、連想スコアが小さくなるようにすることができる。   As a result, the information processing apparatus 100 can increase the association score as the number of documents in which the label of the upper category and the label candidate of the selected category co-occur are increased. Further, the information processing apparatus 100 increases the association score as the number of documents in which the label candidate of the selected category appears is larger than the number of documents in which the label candidate of the upper category and the label candidate of the selected category co-occur. It can be made smaller. In other words, the information processing apparatus 100 can reduce the association score so that the document set in which the label of the upper category appears does not overlap the document set in which the label candidate of the selected category appears.

また、情報処理装置100は、選択したカテゴリの上位カテゴリが複数ある場合には、上位カテゴリのラベルの集合をIとして、上位カテゴリのラベル集合がIの場合のjの連想スコアa(j|I)=ΣsNΣiIs(i∩j)/ΣsNs(j)を算出してもよい。これにより、情報処理装置100は、上位カテゴリのそれぞれのラベルとの関連性の観点からのラベルとしての尤度を示す連想スコアを算出することができる。 Further, when there are a plurality of upper categories of the selected category, the information processing apparatus 100 sets the set of upper category labels as I, and the association score a (j | I for j when the upper category label set is I. ) = Σ sN Σ iI s ( i ) j) / Σ sN s (j) may be calculated. Thereby, the information processing apparatus 100 can calculate an associative score indicating the likelihood as a label from the viewpoint of relevance with each label of the upper category.

結果として、ユーザは、あるカテゴリに分類された文書集合が、上位カテゴリのそれぞれのラベルが示す話題についての文書集合のうちの、何の話題について細かく分類された文書集合であるかを把握しやすくなる。また、情報処理装置100は、直上位カテゴリのラベルとの関連性の観点からではラベル候補同士の連想スコアの差が小さいためにラベルを決定しにくい場合であっても、連想スコアの差を大きくしてラベルを決定しやすくすることができることがある。   As a result, it is easy for the user to grasp what topic is a finely classified document set among the document sets for the topics indicated by the labels of the higher categories. Become. Further, the information processing apparatus 100 increases the difference in the association score even when it is difficult to determine the label because the difference in the association score between the label candidates is small from the viewpoint of the relevance to the label in the immediately higher category. This may make it easier to determine the label.

ここでは、情報処理装置100が、上位カテゴリがiである場合のjの連想スコアa(j|i)=ΣsNs(i∩j)/ΣsNs(j)を算出する場合について説明したが、これに限らない。例えば、情報処理装置100は、連想スコアa(j|i)の分子として、最上位カテゴリではなく、ラベル候補の特定元のカテゴリに分類した文書集合nについての共起度合いを示すΣsns(i∩j)を用いてもよい。 Here, the information processing apparatus 100 calculates an associative score a (j | i) = Σ sN s (i ∩ j) / Σ sN s (j) when the upper category is i. Although the case has been described, the present invention is not limited to this. For example, as the numerator of the association score a (j | i), the information processing apparatus 100 represents Σ sn indicating the degree of co-occurrence regarding the document set n classified into the category of the label candidate specifying source instead of the highest category. s (i∩j) may be used.

また、情報処理装置100は、連想スコアa(j|i)の分子として、ラベル候補の特定元のカテゴリとは異なる他のカテゴリに分類した文書集合についての共起度合いを示す値を用いてもよい。また、例えば、情報処理装置100は、連想スコアa(j|i)の分母として、文書集合Nに含まれる複数のsにおいてiとjとの組み合わせが出現しない回数を用いてもよい。   Further, the information processing apparatus 100 may use a value indicating the degree of co-occurrence for a document set classified into another category different from the original category of the label candidate as the numerator of the association score a (j | i). Good. For example, the information processing apparatus 100 may use the number of times that a combination of i and j does not appear in a plurality of s included in the document set N as the denominator of the association score a (j | i).

<実施例1におけるラベル候補の中からラベルを決定する一例>
図9は、実施例1におけるラベル候補の中からラベルを決定する一例を示す説明図である。情報処理装置100は、算出した連想スコアに基づいてラベル候補の中からカテゴリに付与するラベルを決定する。図9の例では、情報処理装置100は、ラベル候補「ユーザ」、「確認」、「音声認識」、「判定」、「発明」のうちの、連想スコアが最も高いラベル候補「音声認識」を、選択したカテゴリのラベルに決定する。
<An example of determining a label from among label candidates in the first embodiment>
FIG. 9 is an explanatory diagram illustrating an example of determining a label from among the label candidates according to the first embodiment. The information processing apparatus 100 determines a label to be assigned to the category from among the label candidates based on the calculated association score. In the example of FIG. 9, the information processing apparatus 100 selects the label candidate “voice recognition” having the highest association score among the label candidates “user”, “confirmation”, “voice recognition”, “determination”, and “invention”. Determine the label for the selected category.

これにより、情報処理装置100は、上位カテゴリのラベルと関連性があるラベルを、選択したカテゴリのラベルに決定することができる。このため、ユーザは、カテゴリのラベルを参照して、あるカテゴリのラベルが示す話題についての文書のうち、何の話題についての文書が下位カテゴリに分類されたかを把握することができる。   As a result, the information processing apparatus 100 can determine, as the label of the selected category, a label that is related to the label of the upper category. For this reason, the user can refer to the label of the category to understand what topic document is classified into the lower category among documents about the topic indicated by the label of a certain category.

ここでは、情報処理装置100が、連想スコアが最も高いラベル候補を、カテゴリのラベルに決定する場合について説明したが、これに限らない。例えば、情報処理装置100は、ラベル候補を連想スコアが高い順にソートし、所定の順位までのラベル候補を、カテゴリのラベルに決定してもよい。また、情報処理装置100は、連想スコアが閾値以上であるラベル候補を、カテゴリのラベルに決定してもよい。また、情報処理装置100は、連想スコアが閾値以上であるラベル候補がない場合には、ラベル候補を特定しなおしてもよい。   Here, a case has been described in which the information processing apparatus 100 determines a label candidate having the highest association score as a category label, but the present invention is not limited thereto. For example, the information processing apparatus 100 may sort the label candidates in descending order of the associative score, and determine the label candidates up to a predetermined rank as the category labels. Further, the information processing apparatus 100 may determine a label candidate whose association score is equal to or greater than a threshold as a category label. Further, the information processing apparatus 100 may re-specify the label candidate when there is no label candidate whose association score is equal to or greater than the threshold value.

ここで、情報処理装置100は、カテゴリのラベルを決定した後、まだラベルを決定していないカテゴリが残っていれば、図7を用いて上述したラベル候補を特定する処理に戻る。そして、情報処理装置100は、まだラベルを決定していないカテゴリのラベル候補が特定された場合には、カテゴリのラベルを決定する。これにより、情報処理装置100は、複数のカテゴリのそれぞれのカテゴリのラベルを決定することができる。   Here, after determining the label of the category, the information processing apparatus 100 returns to the process of specifying the label candidate described above with reference to FIG. 7 if there remains a category for which the label has not yet been determined. Then, the information processing apparatus 100 determines a category label when a label candidate of a category for which a label has not yet been determined is specified. Thereby, the information processing apparatus 100 can determine the label of each category of a plurality of categories.

<実施例1における表示画面の一例>
図10は、実施例1における表示画面の一例を示す説明図である。情報処理装置100は、階層化された複数のカテゴリのそれぞれのカテゴリのラベルを表示する。図10の例では、情報処理装置100は、最上位カテゴリのラベルと最上位カテゴリに分類された文書の数とを表示するとともに、最上位カテゴリの下位カテゴリとなる第1階層のそれぞれのカテゴリのラベルを表示するための展開ボタン1001を表示する。情報処理装置100は、例えば、最上位カテゴリのラベルと最上位カテゴリに分類された文書の数とを対応付けた「音声(6634)」を表示する。
<Example of Display Screen in Example 1>
FIG. 10 is an explanatory diagram illustrating an example of a display screen according to the first embodiment. The information processing apparatus 100 displays each category label of the plurality of hierarchized categories. In the example of FIG. 10, the information processing apparatus 100 displays the label of the highest category and the number of documents classified into the highest category, as well as each category of the first hierarchy that is a lower category of the highest category. An expansion button 1001 for displaying a label is displayed. For example, the information processing apparatus 100 displays “voice (6634)” in which the label of the highest category is associated with the number of documents classified into the highest category.

また、情報処理装置100は、最上位カテゴリに対応する展開ボタン1001がクリックされると、第1階層のそれぞれのカテゴリに分類された文書の数と第1階層のそれぞれのカテゴリのラベルとを表示する。情報処理装置100は、例えば、第1階層のカテゴリのラベルと第1階層のカテゴリに分類された文書の数とを対応付けた「技術(2949)」や「音声認識(1222)」などを表示する。   In addition, when the expansion button 1001 corresponding to the highest category is clicked, the information processing apparatus 100 displays the number of documents classified into the respective categories of the first hierarchy and the labels of the respective categories of the first hierarchy. To do. The information processing apparatus 100 displays, for example, “Technology (2949)”, “Voice Recognition (1222)”, and the like, in which the label of the first layer category is associated with the number of documents classified into the first layer category. To do.

また、情報処理装置100は、第1階層のそれぞれのカテゴリの下位カテゴリとなる第2階層のそれぞれのカテゴリのラベルを表示するための展開ボタンを表示する。情報処理装置100は、例えば、「音声認識」が付与された第1階層のカテゴリの下位カテゴリとなる第2階層のそれぞれのカテゴリのラベルを表示するための展開ボタン1002を表示する。   In addition, the information processing apparatus 100 displays an expansion button for displaying a label of each category of the second hierarchy that is a lower category of each category of the first hierarchy. The information processing apparatus 100 displays, for example, an expansion button 1002 for displaying a label of each category of the second layer that is a lower category of the category of the first layer to which “voice recognition” is assigned.

同様に、情報処理装置100は、第1階層のカテゴリに対応する展開ボタンがクリックされると、当該カテゴリの下位カテゴリになる第2階層の複数のカテゴリのそれぞれのカテゴリに分類された文書の数と、それぞれのカテゴリのラベルとを表示する。情報処理装置100は、例えば、展開ボタン1002をクリックされると、第2階層のカテゴリのラベルと第2階層のカテゴリに分類された文書の数とを対応付けた「区間(164)」や「対話(104)」などを表示する。   Similarly, when the expansion button corresponding to the category of the first hierarchy is clicked, the information processing apparatus 100 counts the number of documents classified into the respective categories of the plurality of categories of the second hierarchy that are lower categories of the category. And the label of each category. For example, when the expansion button 1002 is clicked, the information processing apparatus 100 associates the “section (164)” and the “number of documents classified into the second hierarchy category” with the labels of the second hierarchy category and “ Dialog (104) "or the like is displayed.

また、情報処理装置100は、それぞれのラベルがクリックされると、それぞれのラベルが付与されたカテゴリに分類された文書集合に含まれる文書の数と、文書集合のそれぞれの文書の名称の一覧を表示する。情報処理装置100は、例えば、ラベル1003がクリックされると、ラベル1003が付与されたカテゴリに分類された「音声認識」についての文書集合に含まれる文書の数と、「音声認識」についての文書集合のそれぞれの文書の名称の一覧とを表示する。   In addition, when each label is clicked, the information processing apparatus 100 displays a list of the number of documents included in the document set classified into the category to which each label is assigned and the name of each document in the document set. indicate. For example, when the label 1003 is clicked, the information processing apparatus 100 determines the number of documents included in the document set for “voice recognition” classified into the category to which the label 1003 is assigned, and the document for “voice recognition”. A list of names of each document in the set is displayed.

これにより、情報処理装置100は、ユーザが所望の文書を発見することを支援することができる。例えば、ユーザが、音声認識に関する所望の文書を探す場合に、所望の文書に固有の検索キーワードが思い浮かばないため、検索キーワード「音声」を情報処理装置100に入力した場合を例に挙げる。この場合には、情報処理装置100は、図10に示す表示画面を表示することになる。   Thereby, the information processing apparatus 100 can assist the user in finding a desired document. For example, when a user searches for a desired document related to speech recognition, a search keyword unique to the desired document does not come to mind, and therefore the case where the search keyword “speech” is input to the information processing apparatus 100 is taken as an example. In this case, the information processing apparatus 100 displays the display screen shown in FIG.

ここで、ユーザは、第1階層のカテゴリのラベルのうち、所望の文書に関連する話題を示す「音声認識」のラベルを見つける。次に、ユーザは、ラベル「音声認識」をクリックする。情報処理装置100は、ラベル「音声認識」がクリックされると、音声認識についての文書の名称の一覧を表示する。そして、ユーザは、表示された音声認識についての文書の名称の一覧を参照して、所望の文書を探すことができる。これにより、ユーザは、所望の文書が含まれないカテゴリに分類された文書集合の中から所望の文書を探す作業を回避しやすくなり、所望の文書を探しやすくなる。   Here, the user finds a “voice recognition” label indicating a topic related to a desired document among the labels of the category of the first hierarchy. Next, the user clicks the label “voice recognition”. When the label “voice recognition” is clicked, the information processing apparatus 100 displays a list of document names for voice recognition. Then, the user can search for a desired document by referring to the list of document names for the voice recognition displayed. This makes it easier for the user to avoid the task of searching for a desired document from a set of documents classified into a category that does not include the desired document, and to search for the desired document.

また、ユーザは、所望の文書がさらに「発話時の音声認識」の話題についての文書であることを把握していれば、さらに、第2階層のカテゴリのラベル「発話」をクリックすれば、発話時の音声認識についての文書の名称の一覧を参照することができる。これにより、ユーザは、所望の文書が含まれないカテゴリに分類された文書集合の中から所望の文書を探す作業を回避しやすくなり、所望の文書を探しやすくなる。   Also, if the user knows that the desired document is a document on the topic of “speech recognition during utterance” and further clicks on the label “utterance” in the category of the second hierarchy, the utterance It is possible to refer to a list of document names for the time voice recognition. This makes it easier for the user to avoid the task of searching for a desired document from a set of documents classified into a category that does not include the desired document, and to search for the desired document.

このように、ユーザは、あるカテゴリのラベルが示す話題についての文書のうち、何の話題についての文書が下位カテゴリに分類されているかを把握して、所望の文書を探索することができる。このため、ユーザは、所望の文書を発見するまでに、所望の文書が含まれないカテゴリに分類された文書集合の中から所望の文書を探してしまうことが少なくなり、所望の文書を効率よく探索することができる。   In this way, the user can search for a desired document by grasping what topic document is classified into the lower category among documents about the topic indicated by the label of a certain category. For this reason, the user is less likely to search for a desired document from a set of documents classified into a category that does not include the desired document until the desired document is found. Can be explored.

ここでは、情報処理装置100が、展開ボタンを表示することにより、順次、下位階層のカテゴリのラベルを表示していく場合について説明したが、これに限らない。例えば、情報処理装置100は、階層化された複数のカテゴリのそれぞれのカテゴリのラベルをまとめて表示してもよい。   Here, a case has been described in which the information processing apparatus 100 sequentially displays labels of lower-layer categories by displaying an expansion button, but the present invention is not limited to this. For example, the information processing apparatus 100 may collectively display the labels of each of a plurality of hierarchized categories.

以上のように、実施例1では、情報処理装置100が、1つのカテゴリのラベル候補を特定する都度、当該カテゴリのラベルを決定する場合について説明したが、これに限らない。例えば、情報処理装置100は、複数のカテゴリのそれぞれのカテゴリのラベル候補を特定してから、複数のカテゴリのそれぞれのカテゴリのラベルを決定してもよい。   As described above, in the first embodiment, the information processing apparatus 100 determines the label of the category every time the label candidate of one category is specified. However, the present invention is not limited to this. For example, the information processing apparatus 100 may determine the label of each category of the plurality of categories after specifying the label candidate of each category of the plurality of categories.

また、実施例1では、情報処理装置100が、複数の文書を階層化された複数のカテゴリに分類し終えてから、複数のカテゴリのそれぞれのカテゴリのラベルを決定する場合について説明したが、これに限らない。例えば、情報処理装置100は、複数の文書を階層化された複数のカテゴリに分類する途中で、文書集合が分類されたカテゴリのラベルを決定してもよい。具体的には、情報処理装置100は、ある階層のカテゴリのラベルを決定してから、ある階層のカテゴリに分類された文書集合を併合した1つの文書集合が分類された、ある階層よりも上位階層のカテゴリを作成してもよい。   Further, in the first embodiment, the case where the information processing apparatus 100 determines the labels of the respective categories of the plurality of categories after the classification of the plurality of documents into the plurality of hierarchized categories has been described. Not limited to. For example, the information processing apparatus 100 may determine a label of a category into which a document set is classified while classifying a plurality of documents into a plurality of hierarchical categories. Specifically, the information processing apparatus 100 determines a label of a category in a certain hierarchy, and then has a higher rank than a certain hierarchy in which one document set obtained by merging the document set classified into the category in a certain hierarchy is classified. Hierarchical categories may be created.

<実施例1における検索処理手順の一例>
次に、図11を用いて、実施例1における検索処理手順の一例について説明する。
<Example of Search Processing Procedure in Embodiment 1>
Next, an example of a search processing procedure in the first embodiment will be described with reference to FIG.

図11は、実施例1における検索処理手順の一例を示すフローチャートである。図11において、情報処理装置100は、図12に後述する分類処理を実行することにより、複数の文書を階層化された複数のカテゴリに分類する(ステップS1101)。   FIG. 11 is a flowchart illustrating an example of a search processing procedure according to the first embodiment. In FIG. 11, the information processing apparatus 100 classifies a plurality of documents into a plurality of hierarchized categories by executing a classification process described later in FIG. 12 (step S1101).

次に、情報処理装置100は、図13に後述する特定処理を実行することにより、複数のカテゴリのそれぞれのカテゴリのラベル候補を特定する(ステップS1102)。そして、情報処理装置100は、図14に後述する決定処理を実行することにより、複数のカテゴリのそれぞれのカテゴリのラベルを決定する(ステップS1103)。   Next, the information processing apparatus 100 specifies a label candidate for each of a plurality of categories by executing a specifying process described later with reference to FIG. 13 (step S1102). Then, the information processing apparatus 100 determines a label for each of the plurality of categories by executing a determination process described later in FIG. 14 (step S1103).

次に、情報処理装置100は、複数のカテゴリのそれぞれのカテゴリのラベルに対応付けて、当該カテゴリに分類された文書集合のそれぞれの文書の名称を出力する(ステップS1104)。そして、情報処理装置100は、検索処理を終了する。これにより、情報処理装置100は、ユーザが所望の文書を探索しやすくすることができる。   Next, the information processing apparatus 100 outputs the name of each document of the document set classified into the category in association with the label of each category of the plurality of categories (step S1104). Then, the information processing apparatus 100 ends the search process. Thereby, the information processing apparatus 100 can make it easy for the user to search for a desired document.

<実施例1における分類処理手順の一例>
次に、図12を用いて、図11のステップS1101に示した、実施例1における複数の文書を複数のカテゴリに分類する分類処理手順の一例について説明する。
<Example of Classification Processing Procedure in Example 1>
Next, an example of a classification process procedure for classifying a plurality of documents according to the first embodiment into a plurality of categories shown in step S1101 of FIG. 11 will be described with reference to FIG.

図12は、実施例1における分類処理手順の一例を示すフローチャートである。図12において、情報処理装置100は、検索キーワードの入力を受け付ける(ステップS1201)。   FIG. 12 is a flowchart illustrating an example of a classification process procedure according to the first embodiment. In FIG. 12, the information processing apparatus 100 accepts input of a search keyword (step S1201).

次に、情報処理装置100は、文書DB400に記憶された文書群の中から、入力された検索キーワードに関連する文書を抽出する(ステップS1202)。そして、情報処理装置100は、抽出した複数の文書について単語文書行列600を作成する(ステップS1203)。   Next, the information processing apparatus 100 extracts a document related to the input search keyword from the document group stored in the document DB 400 (step S1202). Then, the information processing apparatus 100 creates a word document matrix 600 for the extracted documents (step S1203).

次に、情報処理装置100は、文書同士のコサイン類似度を算出し、最下位カテゴリに分類する文書集合を作成する(ステップS1204)。そして、情報処理装置100は、ウォード法を用いて、文書集合同士を併合した、上位カテゴリに分類する文書集合を作成する(ステップS1205)。その後、情報処理装置100は、分類処理を終了する。これにより、情報処理装置100は、複数の文書を階層化された複数のカテゴリに分類することができる。   Next, the information processing apparatus 100 calculates a cosine similarity between documents and creates a document set to be classified into the lowest category (step S1204). Then, the information processing apparatus 100 uses the Ward method to create a document set classified into the upper category, which is a combination of the document sets (step S1205). Thereafter, the information processing apparatus 100 ends the classification process. Thereby, the information processing apparatus 100 can classify a plurality of documents into a plurality of hierarchized categories.

<実施例1における特定処理手順の一例>
次に、図13を用いて、図11のステップS1102に示した、実施例1における複数のカテゴリのそれぞれのカテゴリのラベル候補を特定する特定処理手順の一例について説明する。
<Example of Specific Processing Procedure in Embodiment 1>
Next, an example of a specific processing procedure for specifying label candidates for each category of the plurality of categories in the first embodiment illustrated in step S1102 of FIG. 11 will be described with reference to FIG.

図13は、実施例1における特定処理手順の一例を示すフローチャートである。図13において、情報処理装置100は、複数のカテゴリのうちのいずれかのカテゴリを選択し、選択したカテゴリに分類された文書集合から、特定の品詞として認識される語句を抽出する(ステップS1301)。   FIG. 13 is a flowchart illustrating an example of a specific processing procedure according to the first embodiment. In FIG. 13, the information processing apparatus 100 selects any one of a plurality of categories, and extracts a word / phrase recognized as a specific part of speech from a document set classified into the selected category (step S1301). .

次に、情報処理装置100は、ストップワードリスト500に基づいて、抽出した語句の中から、ストップワードと一致する語句を除外する(ステップS1302)。そして、情報処理装置100は、除外後に残った語句のラベルスコアを算出する(ステップS1303)。   Next, the information processing apparatus 100 excludes a phrase that matches the stop word from the extracted phrases based on the stop word list 500 (step S1302). Then, the information processing apparatus 100 calculates the label score of the word / phrase remaining after the exclusion (step S1303).

次に、情報処理装置100は、除外後に残った語句をラベルスコアが高い順にソートし、所定の順位までの語句をラベル候補として特定する(ステップS1304)。そして、情報処理装置100は、全てのカテゴリについてラベル候補を特定したか否かを判定する(ステップS1305)。ここで、ラベル候補を特定していないカテゴリがある場合(ステップS1305:No)、情報処理装置100は、ステップS1301の処理に戻る。   Next, the information processing apparatus 100 sorts the words remaining after the exclusion in descending order of label score, and specifies words and phrases up to a predetermined rank as label candidates (step S1304). The information processing apparatus 100 determines whether label candidates have been specified for all categories (step S1305). If there is a category for which no label candidate is specified (step S1305: NO), the information processing apparatus 100 returns to the process of step S1301.

一方で、全てのカテゴリについてラベル候補を特定した場合(ステップS1305:Yes)、情報処理装置100は、最上位カテゴリのラベルを決定し(ステップS1306)、特定処理を終了する。   On the other hand, when label candidates are specified for all categories (step S1305: Yes), the information processing apparatus 100 determines the label of the highest category (step S1306) and ends the specifying process.

ステップS1306において、情報処理装置100は、例えば、最上位カテゴリのラベル候補のうちのラベルスコアが最も高いラベル候補を、最上位カテゴリのラベルに決定する。また、情報処理装置100は、検索キーワードを、最上位カテゴリのラベルに決定してもよい。情報処理装置100は、検索キーワードを、最上位カテゴリのラベルに決定する場合には、ステップS1301において最上位カテゴリを選択しなくてもよい。   In step S1306, for example, the information processing apparatus 100 determines the label candidate having the highest label score among the label candidates of the highest category as the label of the highest category. Further, the information processing apparatus 100 may determine the search keyword as the label of the highest category. When determining the search keyword as the label of the highest category, the information processing apparatus 100 may not select the highest category in step S1301.

これにより、情報処理装置100は、ラベル候補として、カテゴリを特徴付ける観点からのラベルとしての尤度が相対的に高い語句を特定することができる。また、情報処理装置100は、最上位カテゴリのラベルを決定することができる。   Thereby, the information processing apparatus 100 can specify a phrase having a relatively high likelihood as a label candidate from the viewpoint of characterizing the category. Further, the information processing apparatus 100 can determine the label of the highest category.

<実施例1における決定処理手順の一例>
次に、図14を用いて、図11のステップS1103に示した、実施例1における複数のカテゴリのそれぞれのラベルを決定する決定処理手順の一例について説明する。
<Example of Decision Processing Procedure in Embodiment 1>
Next, an example of a determination processing procedure for determining each label of a plurality of categories in the first embodiment illustrated in step S1103 in FIG. 11 will be described with reference to FIG.

図14は、実施例1における決定処理手順の一例を示すフローチャートである。図14において、情報処理装置100は、ラベルを決定していないカテゴリのうちで、最も上の階層にあるカテゴリを選択する(ステップS1401)。   FIG. 14 is a flowchart illustrating an example of a determination processing procedure according to the first embodiment. In FIG. 14, the information processing apparatus 100 selects a category at the highest level among categories for which labels have not been determined (step S1401).

次に、情報処理装置100は、選択したカテゴリのラベル候補の中から、選択したカテゴリの上位カテゴリのラベルと一致するラベル候補を除外する(ステップS1402)。そして、情報処理装置100は、選択したカテゴリが第1階層のカテゴリであるか否かを判定する(ステップS1403)。ここで、第1階層のカテゴリである場合(ステップS1403:Yes)、情報処理装置100は、除外後に残ったラベル候補と、選択したカテゴリの上位カテゴリのラベルとに基づいて、除外後に残ったラベル候補の連想スコアを算出し(ステップS1404)、ステップS1406の処理に移行する。   Next, the information processing apparatus 100 excludes label candidates that match the label of the higher category of the selected category from the label candidates of the selected category (step S1402). Then, the information processing apparatus 100 determines whether or not the selected category is the first layer category (step S1403). Here, if the category is in the first hierarchy (step S1403: Yes), the information processing apparatus 100 determines the label remaining after the exclusion based on the label candidate remaining after the exclusion and the label of the higher category of the selected category. The candidate association score is calculated (step S1404), and the process proceeds to step S1406.

一方で、第1階層のカテゴリではない場合(ステップS1403:No)、情報処理装置100は、除外後に残ったラベル候補と、選択したカテゴリの上位カテゴリのそれぞれのラベルとに基づいて、除外後に残ったラベル候補の連想スコアを算出し(ステップS1405)、ステップS1406の処理に移行する。   On the other hand, when it is not the category of the first hierarchy (step S1403: No), the information processing apparatus 100 remains after the exclusion based on the label candidates remaining after the exclusion and the respective labels of the higher category of the selected category. The association score of the selected label candidate is calculated (step S1405), and the process proceeds to step S1406.

ステップS1406において、情報処理装置100は、連想スコアが最も高いラベル候補を、選択したカテゴリのラベルに決定する(ステップS1406)。次に、情報処理装置100は、全てのカテゴリについてラベルを決定したか否かを判定する(ステップS1407)。ここで、ラベルを決定していないカテゴリがある場合(ステップS1407:No)、情報処理装置100は、ステップS1401の処理に戻る。   In step S1406, the information processing apparatus 100 determines the label candidate having the highest association score as the label of the selected category (step S1406). Next, the information processing apparatus 100 determines whether labels have been determined for all categories (step S1407). If there is a category for which a label has not been determined (step S1407: NO), the information processing apparatus 100 returns to the process of step S1401.

一方で、全てのカテゴリについてラベルを決定した場合(ステップS1407:Yes)、情報処理装置100は、決定処理を終了する。これにより、情報処理装置100は、上位カテゴリのラベルとの関連性の観点からのラベルとしての尤度が相対的に最も高いラベル候補を、ラベルに決定することができる。   On the other hand, when labels have been determined for all categories (step S1407: Yes), the information processing apparatus 100 ends the determination process. Thereby, the information processing apparatus 100 can determine the label candidate having the highest likelihood as the label from the viewpoint of the relevance with the label of the upper category as the label.

また、情報処理装置100は、ステップS1404およびステップS1405の連想スコアの算出式の代わりに、ΣsNs(i∩j)およびΣsNΣiIs(i∩j)を用いてもよい。これにより、情報処理装置100は、上位カテゴリのラベルと、選択したカテゴリのラベル候補が共起する文書の数が多くなるほど、連想スコアが大きくなるようにすることができる。 Further, the information processing apparatus 100 uses Σ sN s ( i ∩ j) and Σ sN Σ iI s ( i ∩ j) instead of the associative score calculation formulas in steps S1404 and S1405. May be. As a result, the information processing apparatus 100 can increase the association score as the number of documents in which the label of the upper category and the label candidate of the selected category co-occur are increased.

(実施例2)
次に、実施例2について説明する。実施例1は、文書中の所定数連続する複数の文においてラベル候補と上位カテゴリのラベルとが共起するか否かに基づいて、連想スコアを算出する実施例である。これに対し、実施例2は、文書中の全文においてラベル候補と上位カテゴリのラベルとが共起するか否かに基づいて、連想スコアを算出する実施例である。
(Example 2)
Next, Example 2 will be described. In the first embodiment, an associative score is calculated based on whether or not a label candidate and a label in a higher category co-occur in a predetermined number of consecutive sentences in a document. On the other hand, Example 2 is an example in which an associative score is calculated based on whether or not a label candidate and a label of a higher category co-occur in the whole sentence in a document.

<実施例2における文書DB400のデータ構造の一例>
図15は、実施例2における文書DB400のデータ構造の一例を示す説明図である。文書DB400は、例えば、図2に示したROM202、RAM203、ディスク205などの記憶領域によって実現される。
<Example of Data Structure of Document DB 400 in Embodiment 2>
FIG. 15 is an explanatory diagram illustrating an example of a data structure of the document DB 400 according to the second embodiment. The document DB 400 is realized by storage areas such as the ROM 202, the RAM 203, and the disk 205 shown in FIG.

図15に示すように、文書DB400は、文書名項目に対応付けて、全文内容項目を有し、文書ごとに各項目に情報が設定されることにより、レコードを記憶する。文書名項目には、文書の名称が記憶される。全文内容項目には、文書名項目に記憶された名称の文書の全文の内容が記憶される。例えば、レコード1501は、「文書A」と、「文書A」に含まれる「全文1」とを示す文書情報に対応する。   As shown in FIG. 15, the document DB 400 has a full-text content item associated with a document name item, and stores a record by setting information in each item for each document. In the document name item, the name of the document is stored. The full-text content item stores the full-text content of the document having the name stored in the document name item. For example, the record 1501 corresponds to document information indicating “document A” and “full text 1” included in “document A”.

以下、実施例2における情報処理装置100の処理の一例について説明する。実施例2において、情報処理装置100は、実施例1と同様に、実施例2における文書DB400の中から検索キーワードに関連する文書を抽出する。次に、情報処理装置100は、実施例1と同様に、抽出した複数の文書を複数のカテゴリに分類する。そして、情報処理装置100は、実施例1と同様に、複数のカテゴリのそれぞれのカテゴリのラベル候補を特定する。   Hereinafter, an example of processing of the information processing apparatus 100 according to the second embodiment will be described. In the second embodiment, the information processing apparatus 100 extracts a document related to the search keyword from the document DB 400 in the second embodiment, as in the first embodiment. Next, the information processing apparatus 100 classifies the extracted documents into a plurality of categories as in the first embodiment. And the information processing apparatus 100 specifies the label candidate of each category of a some category similarly to Example 1. FIG.

<実施例2におけるラベル候補の連想スコアを算出する一例>
実施例2において、情報処理装置100は、特定したラベル候補のそれぞれの連想スコアを算出する。ここで、上位カテゴリのラベルをi、上位カテゴリのラベル候補をj、検索対象全体の文書集合をNとする。また、Nのそれぞれの文書nにおけるjの出現回数をΣnNs(j)とする。また、Nのそれぞれのnにおけるiとjとの組み合わせの出現回数をΣnNs(i∩j)とする。情報処理装置100は、例えば、jの連想スコアa(j|i)=ΣnNs(i∩j)/ΣnNs(j)を算出する。そして、情報処理装置100は、連想スコアが最も高いラベル候補「音声認識」を、カテゴリのラベルに決定する。
<Example of calculating associative score of label candidate in Example 2>
In the second embodiment, the information processing apparatus 100 calculates an association score for each identified label candidate. Here, the label of the upper category is i, the label candidate of the upper category is j, and the document set of the entire search target is N. Also, let Σ nN s (j) be the number of occurrences of j in each N document n. Further, the number of appearances of the combination of i and j at each n of N is assumed to be Σ nN s (i∩j). The information processing apparatus 100 calculates, for example, the association score a (j | i) = Σ nN s (i∩j) / Σ nN s (j) of j. Then, the information processing apparatus 100 determines the label candidate “voice recognition” having the highest association score as the category label.

これにより、情報処理装置100は、上位カテゴリのラベルと、選択したカテゴリのラベル候補が共起する文書の数が多くなるほど、連想スコアが大きくなるようにすることができる。また、情報処理装置100は、上位カテゴリのラベルと、選択したカテゴリのラベル候補が共起する文書の数に比べて、選択したカテゴリのラベル候補が出現する文書の数が多くなるほど、連想スコアが小さくなるようにすることができる。   As a result, the information processing apparatus 100 can increase the association score as the number of documents in which the label of the upper category and the label candidate of the selected category co-occur are increased. Further, the information processing apparatus 100 increases the association score as the number of documents in which the label candidate of the selected category appears is larger than the number of documents in which the label candidate of the upper category and the label candidate of the selected category co-occur. It can be made smaller.

また、これにより、情報処理装置100は、文書中に、名称候補と、上位カテゴリを特徴付ける名称とが、どれだけ離れて出現していても、共起する組み合わせと判定することができる。このため、情報処理装置100は、同一の話題について述べた、関連する語句の組み合わせを、異なる話題について述べた、関連性が相対的に低い語句の組み合わせとしてしまうことを抑制することができる。結果として、情報処理装置100は、文間に連続性がある文書の集まりではない文書集合が分類されたカテゴリについて、ラベル候補と、上位カテゴリを特徴付けるラベルとの組み合わせが、関連する語句の組み合わせであるか否かを精度よく判定することができる。   Accordingly, the information processing apparatus 100 can determine that the name candidate and the name characterizing the upper category appear in the document as a co-occurring combination no matter how far apart. For this reason, the information processing apparatus 100 can suppress a combination of related words and phrases that describe the same topic as a combination of words and phrases that are related to different topics and have relatively low relevance. As a result, for the category in which a document set that is not a collection of documents having continuity between sentences is classified, the information processing apparatus 100 is a combination of a label candidate and a label that characterizes a higher category as a combination of related phrases. It can be accurately determined whether or not there is.

情報処理装置100は、例えば、あるカテゴリに分類された文書集合が、プレゼンテーション用文書または表計算用文書などの文書の集まりである場合などには、文間に連続性がある文書の集まりではないと判定する。これにより、情報処理装置100は、文間に連続性がある文書の集まりではない文書集合が分類されたカテゴリについて、ラベル候補と、上位カテゴリを特徴付けるラベルとの組み合わせが、関連する語句の組み合わせであるか否かを精度よく判定することができる。   For example, when the document set classified into a certain category is a collection of documents such as a presentation document or a spreadsheet document, the information processing apparatus 100 is not a collection of documents having continuity between sentences. Is determined. As a result, the information processing apparatus 100, for a category in which a document set that is not a collection of documents having continuity between sentences, is classified, a combination of a label candidate and a label that characterizes a higher category is a combination of related phrases. It can be accurately determined whether or not there is.

また、情報処理装置100は、選択したカテゴリの上位カテゴリが複数ある場合には、上位カテゴリのラベルの集合をIとして、jの連想スコアa(j|I)=ΣnNΣiIs(i∩j)/ΣnNs(j)を算出してもよい。これにより、情報処理装置100は、上位カテゴリのそれぞれのラベルとの関連性の観点からのラベルとしての尤度を示す連想スコアを算出することができる。 Further, when there are a plurality of upper categories of the selected category, the information processing apparatus 100 sets the set of labels of the upper categories as I, and the association score a (j | I) = Σ nN Σ iI of j s (i∩j) / Σ nN s (j) may be calculated. Thereby, the information processing apparatus 100 can calculate an associative score indicating the likelihood as a label from the viewpoint of relevance with each label of the upper category.

結果として、ユーザは、あるカテゴリに分類された文書集合が、上位カテゴリのそれぞれのラベルが示す話題についての文書集合のうちの、何の話題について細かく分類された文書集合であるかを把握しやすくなる。また、情報処理装置100は、直上位カテゴリのラベルとの関連性の観点からではラベル候補同士の連想スコアの差が小さいためにラベルを決定しにくい場合であっても、連想スコアの差を大きくしてラベルを決定しやすくすることができることがある。   As a result, it is easy for the user to grasp what topic is a finely classified document set among the document sets for the topics indicated by the labels of the higher categories. Become. Further, the information processing apparatus 100 increases the difference in the association score even when it is difficult to determine the label because the difference in the association score between the label candidates is small from the viewpoint of the relevance to the label in the immediately higher category. This may make it easier to determine the label.

その後、実施例2において、情報処理装置100は、実施例1と同様にして、階層化された複数のカテゴリのそれぞれのカテゴリのラベル候補に基づいて、それぞれのカテゴリのラベルを決定する。そして、実施例2において、情報処理装置100は、実施例1と同様にして、階層化された複数のカテゴリのそれぞれのカテゴリのラベルを表示する。   Thereafter, in the second embodiment, the information processing apparatus 100 determines the labels of the respective categories based on the label candidates of the respective categories of the plurality of hierarchized categories as in the first embodiment. In the second embodiment, the information processing apparatus 100 displays the labels of each of the plurality of hierarchized categories in the same manner as in the first embodiment.

これにより、情報処理装置100は、ユーザが所望の文書を発見することを支援することができる。ユーザは、例えば、あるカテゴリのラベルが示す話題についての文書のうち、何の話題についての文書が下位カテゴリに分類されているかを把握して、所望の文書を探索することができる。このため、ユーザは、所望の文書を発見するまでに、所望の文書が含まれないカテゴリに分類された文書集合の中を探索してしまうことが少なくなり、所望の文書を効率よく探索することができる。   Thereby, the information processing apparatus 100 can assist the user in finding a desired document. The user can search for a desired document by grasping, for example, what topic document is classified into a lower category among documents about a topic indicated by a label of a certain category. For this reason, the user is less likely to search through a set of documents classified into a category that does not include the desired document before finding the desired document, and the user can efficiently search for the desired document. Can do.

実施例2では、情報処理装置100が、文書中の全文においてラベル候補と上位カテゴリのラベルとが共起するか否かに基づいて、連想スコアを算出する場合について説明したが、これに限らない。例えば、情報処理装置100は、文書集合に含まれる文書の種別に応じて、実施例1の連想スコアの算出式と、実施例2の連想スコアの算出式とを使い分けてもよい。情報処理装置100は、文書集合に種々の種別の文書が含まれる場合には、文書集合の中で最も多い種別に応じて、実施例1の連想スコアの算出式と、実施例2の連想スコアの算出式とを使い分ける。これにより、情報処理装置100は、文書集合に含まれる文書の種別に応じて、ラベル候補と、上位カテゴリを特徴付けるラベルとの組み合わせが、関連する語句の組み合わせであるか否かを精度よく判定することができる。   In the second embodiment, the information processing apparatus 100 calculates the associative score based on whether or not the label candidate and the upper category label co-occur in the whole sentence in the document. However, the present invention is not limited to this. . For example, the information processing apparatus 100 may use the associative score calculation formula according to the first embodiment and the associative score calculation formula according to the second embodiment depending on the type of the document included in the document set. When the document set includes various types of documents, the information processing apparatus 100 determines the association score calculation formula according to the first embodiment and the association score according to the second embodiment according to the largest number of types in the document set. Use different calculation formulas. As a result, the information processing apparatus 100 accurately determines whether or not the combination of the label candidate and the label characterizing the upper category is a combination of related words according to the type of the document included in the document set. be able to.

また、例えば、情報処理装置100は、ユーザから、実施例1の連想スコアの算出式と、実施例2の連想スコアの算出式とのいずれかを選択する入力を受け付けてもよい。そして、情報処理装置100は、ユーザの選択に応じて、実施例1の連想スコアの算出式と、実施例2の連想スコアの算出式とを使い分ける。また、例えば、情報処理装置100は、検索条件として文書の種別が入力されていれば、当該文書の種別に応じて、実施例1の連想スコアの算出式と、実施例2の連想スコアの算出式とを使い分けてもよい。   For example, the information processing apparatus 100 may receive an input from the user for selecting either the association score calculation formula of the first embodiment or the association score calculation formula of the second embodiment. The information processing apparatus 100 uses the associative score calculation formula according to the first embodiment and the associative score calculation formula according to the second embodiment in accordance with the user's selection. For example, if a document type is input as a search condition, the information processing apparatus 100 calculates an association score calculation formula according to the first embodiment and an association score calculation according to the second embodiment according to the document type. You may use different expressions.

<実施例2における検索処理手順の一例>
実施例2における検索処理手順の一例については、実施例1における検索処理手順の一例と同様であるため、説明を省略する。また、実施例2における検索処理手順において実行される、分類処理手順、特定処理手順の一例については、実施例1における分類処理手順、特定処理手順の一例と同様であるため、説明を省略する。
<Example of Search Processing Procedure in Embodiment 2>
An example of the search processing procedure in the second embodiment is the same as the example of the search processing procedure in the first embodiment, and a description thereof will be omitted. An example of the classification processing procedure and the specific processing procedure executed in the search processing procedure in the second embodiment is the same as the example of the classification processing procedure and the specific processing procedure in the first embodiment, and a description thereof will be omitted.

ここで、実施例2における検索処理手順において実行される決定処理手順の一例について説明する。実施例2における決定処理手順は、ステップS1404,S1405を除き、実施例1における決定処理手順と同様である。実施例2における決定処理手順においては、ステップS1404,S1405において用いられる連想スコアの算出式が、上述した実施例2の連想スコアの算出式に置換されることになる。   Here, an example of the determination processing procedure executed in the search processing procedure in the second embodiment will be described. The determination processing procedure in the second embodiment is the same as the determination processing procedure in the first embodiment except for steps S1404 and S1405. In the determination processing procedure in the second embodiment, the associative score calculation formula used in steps S1404 and S1405 is replaced with the above-described associative score calculation formula in the second embodiment.

(実施例3)
次に、実施例3について説明する。実施例1は、複数のカテゴリのうちの最上位カテゴリ以外のカテゴリについてラベル候補を特定し、当該カテゴリのラベルを決定する実施例である。これに対し、実施例3は、複数のカテゴリのうちの、最上位カテゴリから所定階層のカテゴリまでを除く、所定階層よりも下位階層のカテゴリについてラベル候補を特定し、当該カテゴリのラベルを決定する場合の実施例である。
(Example 3)
Next, Example 3 will be described. In the first embodiment, label candidates are specified for categories other than the highest category among a plurality of categories, and the label of the category is determined. On the other hand, in the third embodiment, label candidates are specified for categories in a lower hierarchy than a predetermined hierarchy, excluding a category from the highest category to a category in a predetermined hierarchy, and a label of the category is determined. Example of the case.

実施例3は、例えば、最上位カテゴリから所定階層のカテゴリまでのラベルが、予め設定されている場合に適用される。実施例3は、具体的には、既に人手によって最上位カテゴリから所定階層のカテゴリまでについては分類済みの文書群が、情報処理装置100によって取得され、さらに所定階層よりも下位階層のカテゴリに分類される場合に適用される。そして、実施例3は、所定階層よりも下位階層のカテゴリのラベルを決定する。   The third embodiment is applied when, for example, labels from the highest category to a category of a predetermined hierarchy are set in advance. In the third embodiment, specifically, a group of documents that have already been classified by hand from the highest category to a category of a predetermined hierarchy is acquired by the information processing apparatus 100 and further classified into a category of a lower hierarchy than the predetermined hierarchy. Applies when In the third embodiment, a category label in a lower hierarchy than the predetermined hierarchy is determined.

また、実施例3は、例えば、最上位カテゴリから所定階層のカテゴリまでは何の話題についての文書を分類するかといった規則が、予め決定されている場合に適用される。実施例3は、具体的には、最上位カテゴリに文書群のうちの検索キーワードが出現する文書を分類し、第1階層のカテゴリにはさらに予め設定されたキーワードが出現する文書を分類するといった規則が決定されている場合に適用される。   Also, the third embodiment is applied when, for example, a rule such as what topic to classify documents from the highest category to a category of a predetermined hierarchy is determined in advance. In the third embodiment, specifically, a document in which a search keyword appears in the document group is classified in the highest category, and a document in which a preset keyword appears is further classified in the first layer category. Applies when rules are determined.

以下、実施例3における情報処理装置100の処理の一例について説明する。実施例3において、情報処理装置100は、実施例1と同様に、実施例1または実施例2における文書DB400の中から検索キーワードに関連する文書を抽出する。情報処理装置100は、抽出した文書集合を最上位カテゴリに分類する。   Hereinafter, an example of processing of the information processing apparatus 100 according to the third embodiment will be described. In the third embodiment, the information processing apparatus 100 extracts a document related to the search keyword from the document DB 400 in the first or second embodiment, as in the first embodiment. The information processing apparatus 100 classifies the extracted document set into the highest category.

<実施例3における複数の文書を複数のカテゴリに分類する一例>
図16は、実施例3における階層化された複数のカテゴリの一例を示す説明図である。図16において、情報処理装置100は、最上位カテゴリの下位カテゴリに、最上位カテゴリに分類した文書集合のうちの予め設定されたキーワードが出現する文書集合を分類する。ここでは、第1階層についてのキーワードとして「依頼」と「連絡」とが設定され、第1階層のカテゴリにそれぞれのキーワードが示す話題についての文書が分類されるといった規則が決定されているとする。
<Example of classifying a plurality of documents into a plurality of categories in the third embodiment>
FIG. 16 is an explanatory diagram illustrating an example of a plurality of hierarchized categories in the third embodiment. In FIG. 16, the information processing apparatus 100 classifies a document set in which a preset keyword appears in a document set classified into the highest category as a lower category of the highest category. Here, it is assumed that “request” and “contact” are set as keywords for the first layer, and a rule that documents about topics indicated by the respective keywords are classified into categories of the first layer is determined. .

情報処理装置100は、例えば、最上位カテゴリに分類した文書集合のうちのキーワード「依頼」が出現する文書集合を、第1階層のカテゴリ1601に分類する。また、情報処理装置100は、最上位カテゴリに分類した文書集合のうちのキーワード「連絡」が出現する文書集合を、第1階層の他のカテゴリ1602に分類する。情報処理装置100は、第2階層以下のカテゴリに分類する文書集合については、実施例1と同様にして作成する。   For example, the information processing apparatus 100 classifies a document set in which the keyword “request” appears among the document sets classified into the highest category into the category 1601 of the first hierarchy. Further, the information processing apparatus 100 classifies a document set in which the keyword “contact” appears among the document sets classified into the highest category into another category 1602 in the first hierarchy. The information processing apparatus 100 creates a document set to be classified into categories below the second hierarchy in the same manner as in the first embodiment.

実施例3において、情報処理装置100は、実施例1と同様に、所定階層より下位階層のカテゴリについてはラベル候補を特定する。実施例3において、情報処理装置100は、最上位階層から所定階層までのカテゴリについてはラベル候補を特定しなくてもよい。   In the third embodiment, as in the first embodiment, the information processing apparatus 100 specifies a label candidate for a category lower than a predetermined hierarchy. In the third embodiment, the information processing apparatus 100 does not have to specify label candidates for categories from the highest hierarchy to a predetermined hierarchy.

<実施例3における最上位階層から所定階層までのカテゴリのラベルを決定する一例>
実施例3において、情報処理装置100は、最上位階層から第1階層までのカテゴリのラベルを決定する。
<Example of Determining Labels of Categories from the Highest Level to a Predetermined Level in Example 3>
In the third embodiment, the information processing apparatus 100 determines category labels from the highest hierarchy to the first hierarchy.

図16において、情報処理装置100は、例えば、予め設定されたキーワード「依頼」を、予め設定されたキーワード「依頼」が出現する文書集合が分類された第1階層のカテゴリ1601のラベルとして決定する。また、情報処理装置100は、予め設定されたキーワード「連絡」を、予め設定されたキーワード「連絡」が出現する文書集合が分類された第1階層のカテゴリ1602のラベルとして決定する。   In FIG. 16, the information processing apparatus 100 determines, for example, a preset keyword “request” as a label of the first layer category 1601 in which a document set in which the preset keyword “request” appears is classified. . Further, the information processing apparatus 100 determines the preset keyword “contact” as the label of the first layer category 1602 into which the document set in which the preset keyword “contact” appears is classified.

これにより、情報処理装置100は、最上位階層から所定階層までのカテゴリのラベルを、予め設定されたキーワードにすることができる。このため、情報処理装置100は、最上位カテゴリに分類された文書集合を分類する条件として設定されたキーワードなどを、ラベルとして用いることができる。   Thereby, the information processing apparatus 100 can set the labels of the categories from the highest hierarchy to the predetermined hierarchy as keywords set in advance. For this reason, the information processing apparatus 100 can use, as a label, a keyword or the like set as a condition for classifying the document set classified into the highest category.

実施例3において、情報処理装置100は、実施例1と同様にして、所定階層より下位階層のカテゴリについてはラベルを決定する。そして、情報処理装置100は、実施例1と同様にして、階層化された複数のカテゴリのそれぞれのカテゴリのラベルを表示する。   In the third embodiment, the information processing apparatus 100 determines a label for a category in a lower hierarchy than the predetermined hierarchy, as in the first embodiment. Then, the information processing apparatus 100 displays the labels of each of the plurality of hierarchized categories in the same manner as in the first embodiment.

これにより、情報処理装置100は、ユーザが所望の文書を発見することを支援することができる。ユーザは、例えば、あるカテゴリのラベルが示す話題についての文書のうち、何の話題についての文書が下位カテゴリに分類されているかを把握して、所望の文書を探索することができる。このため、ユーザは、所望の文書を発見するまでに、所望の文書が含まれないカテゴリに分類された文書集合の中を探索してしまうことが少なくなり、所望の文書を効率よく探索することができる。   Thereby, the information processing apparatus 100 can assist the user in finding a desired document. The user can search for a desired document by grasping, for example, what topic document is classified into a lower category among documents about a topic indicated by a label of a certain category. For this reason, the user is less likely to search through a set of documents classified into a category that does not include the desired document before finding the desired document, and the user can efficiently search for the desired document. Can do.

実施例3によれば、情報処理装置100は、予めラベルが設定されたカテゴリについては、ラベルを決定する処理を行わなくてもよいため、ラベルを決定する処理を効率化することができる。情報処理装置100は、あるカテゴリに何の話題についての文書が分類されるか決定されていれば、予め設定された当該話題を示すラベルを当該カテゴリに付与することができる。このため、情報処理装置100は、何の話題についての文書が分類されたカテゴリであるかをユーザが把握しやすくなるようにラベルを付与することができる。   According to the third embodiment, the information processing apparatus 100 does not need to perform a process of determining a label for a category for which a label is set in advance, and thus can efficiently perform the process of determining a label. The information processing apparatus 100 can assign a label indicating a preset topic to the category, as long as it is determined what topic a document is classified into. For this reason, the information processing apparatus 100 can assign a label so that the user can easily understand what topic the document is classified into.

<実施例3における検索処理手順の一例>
実施例3における検索処理手順の一例については、実施例1における検索処理手順の一例と同様であるため、説明を省略する。また、実施例3における検索処理手順において実行される決定処理手順の一例については、実施例1における決定処理手順の一例と同様であるため、説明を省略する。
<Example of Search Processing Procedure in Embodiment 3>
An example of the search processing procedure in the third embodiment is the same as the example of the search processing procedure in the first embodiment, and a description thereof will be omitted. An example of the determination processing procedure executed in the search processing procedure in the third embodiment is the same as the example of the determination processing procedure in the first embodiment, and a description thereof will be omitted.

ここで、実施例3における検索処理手順において実行される分類処理手順の一例について説明する。実施例3における分類処理手順は、ステップS1202を除き、実施例1における分類処理手順と同様である。実施例3における分類処理手順においては、ステップS1202の処理が、文書群の中から検索キーワードに関連する文書を抽出し、抽出した文書集合の中から予め設定されたキーワードのそれぞれに関連する文書を抽出する処理に置換されることになる。   Here, an example of the classification processing procedure executed in the search processing procedure in the third embodiment will be described. The classification processing procedure in the third embodiment is the same as the classification processing procedure in the first embodiment except for step S1202. In the classification processing procedure according to the third embodiment, the process of step S1202 extracts a document related to the search keyword from the document group, and a document related to each of the keywords set in advance from the extracted document set. It will be replaced with a process to extract.

また、実施例3における検索処理手順において実行される特定処理手順について説明する。実施例3における特定処理手順は、ステップS1306を除き、実施例1における特定処理手順と同様である。実施例3における特定処理手順においては、ステップS1306の処理が、最上位階層から所定階層までのカテゴリのラベルを決定する処理に置換されることになる。   A specific processing procedure executed in the search processing procedure in the third embodiment will be described. The specific processing procedure in the third embodiment is the same as the specific processing procedure in the first embodiment except for step S1306. In the specific processing procedure according to the third embodiment, the processing in step S1306 is replaced with processing for determining category labels from the highest hierarchy to a predetermined hierarchy.

(実施例4)
次に、実施例4について説明する。実施例1は、カテゴリに分類された文書集合に出現する語句の中から、ラベルスコアに基づいてラベル候補を抽出し、連想スコアに基づいてラベルを決定する実施例である。これに対し、実施例4は、カテゴリに分類された文書集合に出現する語句の中から、連想スコアに基づいてラベル候補を抽出し、ラベルスコアに基づいてラベルを決定する実施例である。
Example 4
Next, Example 4 will be described. Example 1 is an example in which label candidates are extracted based on a label score from words appearing in a document set classified into categories, and a label is determined based on an association score. In contrast, the fourth embodiment is an embodiment in which label candidates are extracted based on an association score from words appearing in a document set classified into categories, and a label is determined based on the label score.

以下、実施例4における情報処理装置100の処理の一例について説明する。実施例4において、情報処理装置100は、実施例1と同様に、実施例1または実施例2における文書DB400の中から検索キーワードに関連する文書を抽出する。次に、情報処理装置100は、実施例1と同様に、抽出した複数の文書を複数のカテゴリに分類する。   Hereinafter, an example of processing of the information processing apparatus 100 according to the fourth embodiment will be described. In the fourth embodiment, the information processing apparatus 100 extracts a document related to the search keyword from the document DB 400 in the first or second embodiment, as in the first embodiment. Next, the information processing apparatus 100 classifies the extracted documents into a plurality of categories as in the first embodiment.

<実施例4における複数のカテゴリのそれぞれのカテゴリのラベル候補を抽出する一例>
次に、実施例4において、情報処理装置100は、実施例1とは異なり、連想スコアを用いて、複数のカテゴリのそれぞれのカテゴリのラベル候補を抽出する。
<Example of Extracting Label Candidates for Each of Multiple Categories in Example 4>
Next, in the fourth embodiment, unlike the first embodiment, the information processing apparatus 100 extracts label candidates for each category of a plurality of categories using an association score.

情報処理装置100は、例えば、第1階層のカテゴリに分類した文書集合に出現する語句を抽出する。次に、情報処理装置100は、抽出した語句の連想スコアを算出する。ここで、連想スコアは、実施例1または実施例2と同様の算出式を用いて算出される。そして、情報処理装置100は、文書集合に出現する語句を連想スコアが高い順にソートする。その後、情報処理装置100は、連想スコアが所定の順位までの語句を、ラベル候補として抽出する。   For example, the information processing apparatus 100 extracts words / phrases that appear in a document set classified into categories in the first hierarchy. Next, the information processing apparatus 100 calculates an association score of the extracted word / phrase. Here, the associative score is calculated using the same calculation formula as in the first or second embodiment. Then, the information processing apparatus 100 sorts words that appear in the document set in descending order of associative score. Thereafter, the information processing apparatus 100 extracts words / phrases whose associative scores have a predetermined rank as label candidates.

<実施例4におけるラベル候補の中からラベルを決定する一例>
次に、実施例4において、情報処理装置100は、ラベル候補のラベルスコアを算出する。そして、情報処理装置100は、算出したラベルスコアに基づいてラベル候補の中からカテゴリに付与するラベルを決定する。
<Example of Determining a Label from Label Candidates in Example 4>
Next, in Example 4, the information processing apparatus 100 calculates the label score of the label candidate. Then, the information processing apparatus 100 determines a label to be assigned to the category from among the label candidates based on the calculated label score.

情報処理装置100は、例えば、特定したラベル候補のそれぞれのラベルスコアとして、TFx,y×IDFxを算出する。また、情報処理装置は、例えば、特定したラベル候補のそれぞれのラベルスコアとして、C−Valueを算出してもよい。そして、情報処理装置100は、ラベル候補のうちの、ラベルスコアが最も高いラベル候補を、選択したカテゴリのラベルに決定する。これにより、情報処理装置100は、上位カテゴリのラベルと関連性があるラベルを、選択したカテゴリのラベルに決定することができる。 For example, the information processing apparatus 100 calculates TF x, y × IDF x as the label score of each identified label candidate. Further, the information processing apparatus may calculate C-Value as each label score of the specified label candidate, for example. Then, the information processing apparatus 100 determines the label candidate having the highest label score among the label candidates as the label of the selected category. As a result, the information processing apparatus 100 can determine, as the label of the selected category, a label that is related to the label of the upper category.

実施例4によれば、情報処理装置100は、連想スコアを算出する文書の数を増大する代わりに、ラベルスコアを算出する文書の数を低減することができる。このため、情報処理装置100は、文書集合に出現する語句についてラベルスコアを算出するよりも連想スコアを算出する方がかかる時間が少ない場合には、ラベルを決定するのにかかる時間を低減することができる。   According to the fourth embodiment, the information processing apparatus 100 can reduce the number of documents for calculating the label score instead of increasing the number of documents for calculating the association score. For this reason, the information processing apparatus 100 reduces the time taken to determine the label when it takes less time to calculate the associative score than to calculate the label score for words appearing in the document set. Can do.

<実施例4における検索処理手順の一例>
実施例4における検索処理手順の一例については、ステップS1102,S1103を除き、実施例1における検索処理手順と同様である。実施例4における検索処理手順においては、ステップS1102,S1103において実行される特定処理と決定処理とが、図17に後述する実施例4における決定処理に置換されることになる。
<Example of Search Processing Procedure in Embodiment 4>
An example of the search processing procedure in the fourth embodiment is the same as the search processing procedure in the first embodiment except for steps S1102 and S1103. In the search processing procedure in the fourth embodiment, the specific processing and the determination processing executed in steps S1102 and S1103 are replaced with the determination processing in the fourth embodiment described later with reference to FIG.

<実施例4における決定処理手順の一例>
図17は、実施例4における決定処理手順の一例を示すフローチャートである。図17において、情報処理装置100は、ラベルを決定していないカテゴリのうちで、最も上の階層にあるカテゴリを選択する(ステップS1701)。
<Example of Determination Processing Procedure in Embodiment 4>
FIG. 17 is a flowchart illustrating an example of a determination processing procedure according to the fourth embodiment. In FIG. 17, the information processing apparatus 100 selects a category at the highest level among categories for which labels have not been determined (step S <b> 1701).

次に、情報処理装置100は、選択したカテゴリに分類された文書集合から、特定の品詞として認識される語句を、選択したカテゴリのラベル候補として抽出する(ステップS1702)。そして、情報処理装置100は、ストップワードリスト500に基づいて、特定したラベル候補の中から、ストップワードと一致するラベル候補を除外する(ステップS1703)。   Next, the information processing apparatus 100 extracts a word / phrase recognized as a specific part of speech from the document set classified into the selected category as a label candidate of the selected category (step S1702). Then, the information processing apparatus 100 excludes label candidates that match the stop word from the identified label candidates based on the stop word list 500 (step S1703).

次に、情報処理装置100は、除外後に残ったラベル候補の中から、選択したカテゴリの上位カテゴリのラベルと一致するラベル候補を、さらに除外する(ステップS1704)。そして、情報処理装置100は、選択したカテゴリが第1階層のカテゴリであるか否かを判定する(ステップS1705)。   Next, the information processing apparatus 100 further excludes label candidates that match the label of the higher category of the selected category from among the label candidates remaining after exclusion (step S1704). Then, the information processing apparatus 100 determines whether or not the selected category is the first layer category (step S1705).

ここで、第1階層のカテゴリである場合(ステップS1705:Yes)、情報処理装置100は、除外後に残ったラベル候補と、選択したカテゴリの上位カテゴリのラベルとに基づいて、除外後に残ったラベル候補の連想スコアを算出し(ステップS1706)、ステップS1708の処理に移行する。   Here, when the category is in the first hierarchy (step S1705: Yes), the information processing apparatus 100 determines the label remaining after the exclusion based on the label candidate remaining after the exclusion and the label of the higher category of the selected category. A candidate association score is calculated (step S1706), and the process proceeds to step S1708.

一方で、第1階層のカテゴリではない場合(ステップS1705:No)、情報処理装置100は、除外後に残ったラベル候補と、選択したカテゴリの上位カテゴリのそれぞれのラベルとに基づいて、除外後に残ったラベル候補の連想スコアを算出し(ステップS1707)、ステップS1708の処理に移行する。   On the other hand, when it is not the category of the first hierarchy (step S1705: No), the information processing apparatus 100 remains after the exclusion based on the label candidates remaining after the exclusion and the respective labels of the higher category of the selected category. The association score of the label candidate is calculated (step S1707), and the process proceeds to step S1708.

ステップS1708において、情報処理装置100は、除外後に残ったラベル候補を連想スコアが高い順にソートし、所定の順位までのラベル候補を特定する(ステップS1708)。次に、情報処理装置100は、特定したラベル候補のラベルスコアを算出する(ステップS1709)。そして、情報処理装置100は、ラベルスコアが最も高いラベル候補を、選択したカテゴリのラベルに決定する(ステップS1710)。   In step S1708, the information processing apparatus 100 sorts the label candidates remaining after exclusion in descending order of associative score, and specifies label candidates up to a predetermined rank (step S1708). Next, the information processing apparatus 100 calculates the label score of the identified label candidate (step S1709). Then, the information processing apparatus 100 determines the label candidate with the highest label score as the label of the selected category (step S1710).

次に、情報処理装置100は、全てのカテゴリについてラベルを決定したか否かを判定する(ステップS1711)。ここで、ラベルを決定していないカテゴリがある場合(ステップS1711:No)、情報処理装置100は、ステップS1701の処理に戻る。   Next, the information processing apparatus 100 determines whether labels have been determined for all categories (step S1711). If there is a category for which a label has not been determined (step S1711: NO), the information processing apparatus 100 returns to the process of step S1701.

一方で、全てのカテゴリについてラベルを決定した場合(ステップS1711:Yes)、情報処理装置100は、決定処理を終了する。これにより、情報処理装置100は、連想スコアを算出する文書の数を増大する代わりに、ラベルスコアを算出する文書の数を低減することができる。このため、情報処理装置100は、文書集合に出現する語句についてラベルスコアを算出するよりも連想スコアを算出する方がかかる時間が少ない場合には、ラベルを決定するのにかかる時間を低減することができる。   On the other hand, when the labels have been determined for all categories (step S1711: Yes), the information processing apparatus 100 ends the determination process. Thereby, the information processing apparatus 100 can reduce the number of documents for calculating the label score instead of increasing the number of documents for calculating the association score. For this reason, the information processing apparatus 100 reduces the time taken to determine the label when it takes less time to calculate the associative score than to calculate the label score for words appearing in the document set. Can do.

以上説明したように、情報処理装置100によれば、複数の文書を分類した階層化された複数のカテゴリに分類した文書集合から、カテゴリを特徴付ける名称候補を特定することができる。そして、情報処理装置100によれば、複数の文書における、特定した名称候補と、カテゴリの上位カテゴリを特徴付ける名称との共起度合いに基づいて、カテゴリを特徴付ける名称を決定することができる。これにより、情報処理装置100は、複数のカテゴリのそれぞれのカテゴリを特徴付ける名称として、当該カテゴリの上位カテゴリを特徴付ける名称と関連性がある名称を付与することができる。   As described above, according to the information processing apparatus 100, it is possible to specify name candidates that characterize a category from a set of documents classified into a plurality of hierarchized categories in which a plurality of documents are classified. Then, according to the information processing apparatus 100, the name that characterizes the category can be determined based on the co-occurrence degree of the specified name candidate and the name that characterizes the upper category of the category in a plurality of documents. Thereby, the information processing apparatus 100 can assign a name that is related to a name that characterizes a higher category of the category as a name that characterizes each category of the plurality of categories.

また、情報処理装置100によれば、さらに、複数の文書のうち、カテゴリの名称候補が出現する文書集合と、カテゴリの上位カテゴリを特徴付ける名称が出現する文書集合との重複度合いに基づいて、カテゴリを特徴付ける名称を決定することができる。これにより、情報処理装置100は、複数のカテゴリのそれぞれのカテゴリを特徴付ける名称として、当該カテゴリの上位カテゴリを特徴付ける名称が出現する文書以外の文書に出現する回数が少ない名称を付与することができる。   Further, according to the information processing apparatus 100, based on the degree of overlap between a document set in which a category name candidate appears among a plurality of documents and a document set in which a name that characterizes a higher category of the category appears, The name that characterizes can be determined. Thereby, the information processing apparatus 100 can assign a name that appears less frequently in a document other than a document in which a name that characterizes a higher category of the category appears as a name that characterizes each category of the plurality of categories.

また、情報処理装置100によれば、カテゴリの名称候補と、カテゴリの上位カテゴリを特徴付ける名称との共起度合いとして、カテゴリの名称候補と、カテゴリの直上位カテゴリを特徴付ける名称との共起度合いを用いることができる。これにより、情報処理装置100は、カテゴリを特徴付ける名称として、当該カテゴリの直上位カテゴリを特徴付ける名称と関連性がある名称を付与することができる。結果として、ユーザは、あるカテゴリに付与された名称を参照し、直上位カテゴリに付与された名称が示す話題に関連する種々の話題のうち、何の話題についての文書集合が絞り込まれて、あるカテゴリに分類されたのかを把握することができる。   Further, according to the information processing apparatus 100, the co-occurrence degree between the category name candidate and the name characterizing the category immediately above the category is used as the co-occurrence degree between the category name candidate and the name characterizing the upper category of the category. Can be used. Thereby, the information processing apparatus 100 can assign a name that is related to the name that characterizes the category directly above the category, as the name that characterizes the category. As a result, the user refers to the name assigned to a certain category, and among various topics related to the topic indicated by the name assigned to the immediately higher category, the document set on what topic is narrowed down, It is possible to grasp whether it is classified into a category.

また、情報処理装置100によれば、複数の文書のそれぞれが、検索キーワードに基づいて検索された文書であれば、検索キーワードを、複数のカテゴリのうちの最上位カテゴリを特徴付ける名称に決定することができる。これにより、情報処理装置100は、最上位カテゴリを特徴付ける名称として検索キーワードを付与することができる。また、情報処理装置100は、最上位カテゴリの下位カテゴリを特徴付ける名称として、検索キーワードと関連性がある名称を付与することができる。   Further, according to the information processing apparatus 100, if each of the plurality of documents is a document searched based on the search keyword, the search keyword is determined as a name characterizing the highest category among the plurality of categories. Can do. Thereby, the information processing apparatus 100 can assign the search keyword as a name that characterizes the highest category. Further, the information processing apparatus 100 can assign a name that is related to the search keyword as a name that characterizes the lower category of the highest category.

また、情報処理装置100によれば、カテゴリを特徴付ける名称として使用しない語句を取得することができる。そして、情報処理装置100によれば、カテゴリに分類した文書集合から、カテゴリを特徴付ける名称候補として、取得した語句とは異なる語句を特定することができる。これにより、情報処理装置100は、カテゴリを特徴付ける名称から特定の語句を除外することができる。   Further, according to the information processing apparatus 100, it is possible to acquire a phrase that is not used as a name that characterizes a category. Then, according to the information processing apparatus 100, a phrase different from the acquired phrase can be specified as a candidate name for characterizing the category from the document set classified into the category. Thereby, the information processing apparatus 100 can exclude a specific word / phrase from the name characterizing the category.

また、情報処理装置100によれば、カテゴリに分類した文書集合から、カテゴリを特徴付ける名称候補として、カテゴリの上位カテゴリを特徴付ける名称とは異なる語句を特定することができる。これにより、情報処理装置100は、カテゴリを特徴付ける名称から、当該カテゴリの上位カテゴリを特徴付ける名称と一致する語句を除外することができる。そして、情報処理装置100は、あるカテゴリと、あるカテゴリの上位カテゴリとに同一の名称が付与されることを防止することができる。このため、情報処理装置100は、上位カテゴリの名称が示す話題に関連する種々の話題のうち、何の話題についての文書が絞り込まれて、あるカテゴリに分類されたのかを、ユーザが把握することができなくなることを防止することができる。結果として、ユーザは、あるカテゴリの名称から何の話題についての文書が絞り込まれたのか把握することができずに、下位カテゴリの名称を参照することになってしまい、所望の文書を探索するのにかかる作業量が増えてしまうことを防止することができる。   Further, according to the information processing apparatus 100, a word / phrase different from the name characterizing the higher category of the category can be specified as a candidate name characterizing the category from the document set classified into the category. As a result, the information processing apparatus 100 can exclude, from the name that characterizes the category, a word that matches the name that characterizes the upper category of the category. The information processing apparatus 100 can prevent the same name from being assigned to a certain category and a higher category of a certain category. For this reason, the information processing apparatus 100 allows the user to grasp what topic is narrowed down and classified into a certain category among various topics related to the topic indicated by the name of the upper category. Can be prevented from becoming impossible. As a result, the user cannot grasp what topic the document has been narrowed down from the name of a certain category, and will refer to the name of a lower category and search for a desired document. It is possible to prevent an increase in the amount of work required.

また、情報処理装置100によれば、カテゴリに分類した文書集合から、カテゴリを特徴付ける名称候補として、カテゴリの直上位カテゴリの直下位カテゴリのうちの他のカテゴリを特徴付ける名称とは異なる語句を特定することができる。これにより、情報処理装置100は、カテゴリを特徴付ける名称から、当該カテゴリと直上位カテゴリが一致する他のカテゴリを特徴付ける名称と一致する語句を除外することができる。そして、情報処理装置100は、あるカテゴリと、あるカテゴリと直上位カテゴリが一致する他のカテゴリとに同一の名称が付与されることを防止することができる。このため、情報処理装置100は、直上位カテゴリが一致する2つのカテゴリのいずれに、直上位カテゴリのラベルが示す話題に関連する種々の話題のうち、何の話題についての文書が絞り込まれたのかを把握することができなくなることを防止することができる。結果として、ユーザは、あるカテゴリの名称から何の話題についての文書が絞り込まれたのか把握することができずに、下位カテゴリの名称を参照することになってしまい、所望の文書を探索するのにかかる作業量が増えてしまうことを防止することができる。   Further, according to the information processing apparatus 100, a phrase that is different from a name that characterizes another category of the immediate lower categories of the category immediately above the category is specified as a name candidate characterizing the category from the document set classified into categories. be able to. As a result, the information processing apparatus 100 can exclude words that match a name that characterizes another category in which the category and the directly higher category match from a name that characterizes the category. Then, the information processing apparatus 100 can prevent the same name from being given to a certain category and another category in which a certain category matches the directly higher category. For this reason, the information processing apparatus 100 determines which topic is narrowed down among the various topics related to the topic indicated by the label of the direct upper category to which of the two categories whose direct upper category matches. Can be prevented from being unable to grasp. As a result, the user cannot grasp what topic the document has been narrowed down from the name of a certain category, and will refer to the name of a lower category and search for a desired document. It is possible to prevent an increase in the amount of work required.

また、情報処理装置100によれば、カテゴリに分類した文書集合のそれぞれの文書中の一文単位、または所定数連続する文単位の、名称候補と、上位カテゴリを特徴付ける名称との共起度合いに基づいて、カテゴリを特徴付ける名称を決定することができる。これにより、情報処理装置100は、文書中に、名称候補と、上位カテゴリを特徴付ける名称とのそれぞれが、所定数よりも離れたそれぞれの文に出現している場合には、共起しない組み合わせと判定することができる。このため、情報処理装置100は、異なる話題について述べた、2つの文のそれぞれの文に出現する語句の組み合わせを、同一の話題について述べた、関連する語句の組み合わせとしてしまうことを抑制することができる。結果として、情報処理装置100は、文間に連続性がある文書の集まりである文書集合が分類されたカテゴリについて、名称候補と、上位カテゴリを特徴付ける名称との組み合わせが、関連する語句の組み合わせであるか否かを精度よく判定することができる。   Further, according to the information processing apparatus 100, based on the degree of co-occurrence of a name candidate and a name that characterizes a higher category in one sentence unit or a predetermined number of consecutive sentence units in each document of a document set classified into categories. The name that characterizes the category can be determined. As a result, the information processing apparatus 100 uses a combination that does not co-occur when each of the name candidate and the name characterizing the upper category appears in each sentence separated from the predetermined number in the document. Can be determined. For this reason, the information processing apparatus 100 can suppress a combination of words and phrases appearing in each of two sentences describing different topics from being a combination of related words and phrases described on the same topic. it can. As a result, for the category in which the document set, which is a collection of documents having continuity between sentences, is classified, the information processing apparatus 100 has a combination of a name candidate and a name that characterizes a higher category as a combination of related words. It can be accurately determined whether or not there is.

また、情報処理装置100によれば、カテゴリに分類した文書集合のそれぞれの文書の全文単位の、名称候補と、上位カテゴリを特徴付ける名称との共起度合いに基づいて、カテゴリを特徴付ける名称を決定することができる。これにより、情報処理装置100は、文書中に、名称候補と、上位カテゴリを特徴付ける名称とが、どれだけ離れて出現していても、共起する組み合わせと判定することができる。このため、情報処理装置100は、同一の話題について述べた、関連する語句の組み合わせを、異なる話題について述べた、関連性が相対的に低い語句の組み合わせとしてしまうことを抑制することができる。結果として、情報処理装置100は、文間に連続性がある文書の集まりではない文書集合が分類されたカテゴリについて、名称候補と、上位カテゴリを特徴付ける名称との組み合わせが、関連する語句の組み合わせであるか否かを精度よく判定することができる。   Further, according to the information processing apparatus 100, the name that characterizes the category is determined based on the co-occurrence degree of the name candidate and the name that characterizes the upper category in the whole sentence unit of each document of the document set classified into the category. be able to. As a result, the information processing apparatus 100 can determine that the name candidate and the name that characterizes the upper category appear in the document as a co-occurring combination, no matter how far apart. For this reason, the information processing apparatus 100 can suppress a combination of related words and phrases that describe the same topic as a combination of words and phrases that are related to different topics and have relatively low relevance. As a result, for the category in which the document set that is not a collection of documents having continuity between sentences is classified, the information processing apparatus 100 is configured such that a combination of a name candidate and a name that characterizes a higher category is a combination of related words. It can be accurately determined whether or not there is.

また、情報処理装置100によれば、カテゴリに分類した文書集合が、文間に連続性がある文書の集まりであるか否かを判定することができる。そして、情報処理装置100によれば、文間に連続性がある文書の集まりである場合には、カテゴリに分類した文書集合のそれぞれの文書中の一文単位、または所定数連続する文単位の共起度合いに基づいて、カテゴリを特徴付ける名称を決定することができる。これにより、情報処理装置100は、文書集合の種別に応じて、名称候補と、上位カテゴリを特徴付ける名称との組み合わせが、関連する語句の組み合わせであるか否かを精度よく判定することができる。   Further, according to the information processing apparatus 100, it is possible to determine whether or not a document set classified into categories is a set of documents having continuity between sentences. Then, according to the information processing apparatus 100, if the document collection is a series of documents having continuity between sentences, a single sentence unit in each document of a document set classified into categories or a predetermined number of consecutive sentence units is shared. Based on the degree of occurrence, the name that characterizes the category can be determined. Thus, the information processing apparatus 100 can accurately determine whether the combination of the name candidate and the name characterizing the upper category is a combination of related words or phrases according to the type of document set.

また、情報処理装置100によれば、文間に連続性がある文書の集まりではない場合には、カテゴリに分類した文書集合のそれぞれの文書の全文単位の共起度合いに基づいて、カテゴリを特徴付ける名称を決定することができる。これにより、情報処理装置100は、文書集合の種別に応じて、名称候補と、上位カテゴリを特徴付ける名称との組み合わせが、関連する語句の組み合わせであるか否かを精度よく判定することができる。   Further, according to the information processing apparatus 100, when the document is not a collection of documents having continuity between sentences, the category is characterized based on the co-occurrence degree of each document in each document of the document set classified into the category. The name can be determined. Thus, the information processing apparatus 100 can accurately determine whether the combination of the name candidate and the name characterizing the upper category is a combination of related words or phrases according to the type of document set.

また、情報処理装置100によれば、カテゴリの名称候補と組み合わせたときの共起度合いを求める対象になる上位カテゴリを特徴付ける名称として、最上位カテゴリから直上位カテゴリまでのそれぞれのカテゴリを特徴付ける名称を用いることができる。これにより、情報処理装置100は、カテゴリを特徴付ける名称として、当該カテゴリの上位カテゴリのそれぞれを特徴付ける名称と関連性がある名称を付与することができる。結果として、ユーザは、あるカテゴリに付与された名称を参照し、上位カテゴリのそれぞれに付与された名称が示す話題に関連する種々の話題のうち、何の話題についての文書集合が絞り込まれて、あるカテゴリに分類されたのかを把握することができる。   Further, according to the information processing apparatus 100, the names that characterize the categories from the highest category to the immediate higher category are used as the features that characterize the upper category for which the co-occurrence degree is obtained when combined with the category name candidates. Can be used. Thereby, the information processing apparatus 100 can assign a name that is related to a name that characterizes each of the higher-level categories of the category as a name that characterizes the category. As a result, the user refers to the name assigned to a certain category, and the document set on what topic is narrowed down among various topics related to the topic indicated by the name assigned to each of the upper categories, It is possible to grasp whether it is classified into a certain category.

また、情報処理装置100によれば、カテゴリに分類した文書集合に出現する語句の当該文書集合における出現度合いと、当該語句の複数の文書における出現度合いとに基づいて、当該語句の当該文書集合を特徴付ける特徴度を算出することができる。そして、情報処理装置100によれば、算出した特徴度に基づいて、カテゴリを特徴付ける名称候補を特定することができる。これにより、情報処理装置100は、カテゴリを特徴付ける観点からの名称としての尤度を示す特徴度に基づいて、カテゴリを特徴付ける観点から名称として尤もらしい語句を、名称候補として特定することができる。   Further, according to the information processing apparatus 100, the document set of the word / phrase is determined based on the appearance degree of the word / phrase appearing in the document set classified into categories in the document set and the appearance degree of the word / phrase in a plurality of documents. It is possible to calculate a characteristic degree to characterize. Then, according to the information processing apparatus 100, it is possible to specify a name candidate that characterizes a category based on the calculated feature degree. Thereby, the information processing apparatus 100 can specify a word / phrase that is likely to be a name from the viewpoint of characterizing the category as a name candidate based on the characteristic degree indicating the likelihood as the name from the viewpoint of characterizing the category.

また、情報処理装置100によれば、カテゴリに分類した文書集合に出現する語句の当該文書集合における出現度合いと当該語句を含む複合語の当該文書集合における出現度合いとに基づいて、当該語句の当該文書集合を特徴付ける特徴度を算出することができる。そして、情報処理装置100によれば、算出した特徴度に基づいて、カテゴリを特徴付ける名称候補を特定することができる。これにより、情報処理装置100は、カテゴリを特徴付ける観点からの名称としての尤度を示す特徴度に基づいて、カテゴリを特徴付ける観点から名称として尤もらしい語句を、名称候補として特定することができる。   Further, according to the information processing apparatus 100, based on the appearance degree in the document set of words and phrases appearing in the document set classified into categories and the appearance degree in the document set of compound words including the words and phrases, It is possible to calculate a characteristic degree that characterizes the document set. Then, according to the information processing apparatus 100, it is possible to specify a name candidate that characterizes a category based on the calculated feature degree. Thereby, the information processing apparatus 100 can specify a word / phrase that is likely to be a name from the viewpoint of characterizing the category as a name candidate based on the characteristic degree indicating the likelihood as the name from the viewpoint of characterizing the category.

また、情報処理装置100によれば、特定した名称候補のうち、複数の文書における、上位カテゴリを特徴付ける名称との共起度合いが相対的に高い名称候補を特定することができる。次に、情報処理装置100によれば、共起度合いが相対的に高い名称候補のカテゴリに分類した文書集合における出現度合いと、当該名称候補の複数の文書における出現度合いとに基づいて、当該名称候補の当該文書集合を特徴付ける特徴度を算出することができる。そして、情報処理装置100によれば、算出した特徴度に基づいて、カテゴリを特徴付ける名称を決定することができる。これにより、情報処理装置100は、共起度合いを算出する文書の数を増大する代わりに、特徴度を算出する文書の数を低減することができる。このため、情報処理装置100は、文書集合に出現する語句について特徴度を算出するよりも共起度合いを算出する方がかかる時間が少ない場合には、名称を決定するのにかかる時間を低減することができる。   Moreover, according to the information processing apparatus 100, among the specified name candidates, it is possible to specify name candidates that have a relatively high degree of co-occurrence with names that characterize the upper category in a plurality of documents. Next, according to the information processing apparatus 100, based on the appearance degree in the document set classified into the category of name candidates having a relatively high co-occurrence degree, and the appearance degree in the plurality of documents of the name candidate, It is possible to calculate a characteristic degree that characterizes the candidate document set. Then, according to the information processing apparatus 100, the name that characterizes the category can be determined based on the calculated feature degree. Thereby, the information processing apparatus 100 can reduce the number of documents for calculating the feature degree instead of increasing the number of documents for calculating the co-occurrence degree. For this reason, the information processing apparatus 100 reduces the time taken to determine the name when it takes less time to calculate the degree of co-occurrence than to calculate the degree of feature for a word or phrase appearing in the document set. be able to.

また、情報処理装置100によれば、特定した名称候補のうち、複数の文書における、上位カテゴリを特徴付ける名称との共起度合いが相対的に高い名称候補を特定することができる。情報処理装置100によれば、共起度合いが相対的に高い名称候補のカテゴリに分類した文書集合における出現度合いと、当該名称候補を含む複合語の当該文書集合における出現度合いとに基づいて、特徴度を算出することができる。そして、情報処理装置100によれば、算出した特徴度に基づいて、カテゴリを特徴付ける名称を決定することができる。これにより、情報処理装置100は、共起度合いを算出する文書の数を増大する代わりに、特徴度を算出する文書の数を低減することができる。このため、情報処理装置100は、文書集合に出現する語句について特徴度を算出するよりも共起度合いを算出する方がかかる時間が少ない場合には、名称を決定するのにかかる時間を低減することができる。   Moreover, according to the information processing apparatus 100, among the specified name candidates, it is possible to specify name candidates that have a relatively high degree of co-occurrence with names that characterize the upper category in a plurality of documents. According to the information processing apparatus 100, based on the appearance degree in the document set classified into the category of candidate names having a relatively high co-occurrence degree, and the appearance degree in the document set of the compound word including the name candidate, The degree can be calculated. Then, according to the information processing apparatus 100, the name that characterizes the category can be determined based on the calculated feature degree. Thereby, the information processing apparatus 100 can reduce the number of documents for calculating the feature degree instead of increasing the number of documents for calculating the co-occurrence degree. For this reason, the information processing apparatus 100 reduces the time taken to determine the name when it takes less time to calculate the degree of co-occurrence than to calculate the degree of feature for a word or phrase appearing in the document set. be able to.

なお、本実施の形態で説明した名称決定方法は、予め用意されたプログラムをパーソナル・コンピュータやワークステーション等のコンピュータで実行することにより実現することができる。本名称決定プログラムは、ハードディスク、フレキシブルディスク、CD−ROM、MO、DVD等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。また本名称決定プログラムは、インターネット等のネットワークを介して配布してもよい。   The name determination method described in this embodiment can be realized by executing a program prepared in advance on a computer such as a personal computer or a workstation. The name determination program is recorded on a computer-readable recording medium such as a hard disk, a flexible disk, a CD-ROM, an MO, and a DVD, and is executed by being read from the recording medium by the computer. The name determination program may be distributed via a network such as the Internet.

上述した実施の形態に関し、さらに以下の付記を開示する。   The following additional notes are disclosed with respect to the embodiment described above.

(付記1)複数の文書を分類した階層化された複数のカテゴリに分類した文書集合から前記カテゴリを特徴付ける名称候補を特定し、
前記複数の文書における、特定した前記名称候補と、前記カテゴリの上位カテゴリを特徴付ける名称との共起度合いに基づいて、前記カテゴリを特徴付ける名称を決定する、
制御部を有することを特徴とする情報処理装置。
(Supplementary Note 1) Identify candidate names characterizing the category from a set of documents classified into a plurality of hierarchical categories into which a plurality of documents are classified,
Determining a name that characterizes the category based on a degree of co-occurrence of the identified name candidate and a name that characterizes an upper category of the category in the plurality of documents.
An information processing apparatus having a control unit.

(付記2)前記制御部は、さらに、前記複数の文書のうち、前記名称候補を含む文書集合と前記上位カテゴリを特徴付ける名称を含む文書集合との重複度合いに基づいて、前記カテゴリを特徴付ける名称を決定する、ことを特徴とする付記1に記載の情報処理装置。 (Additional remark 2) The said control part is further the name which characterizes the said category based on the overlapping degree of the document set containing the said name candidate and the document set containing the name which characterizes the said high-order category among these documents. The information processing apparatus according to supplementary note 1, wherein the information processing apparatus is determined.

(付記3)前記上位カテゴリを特徴付ける名称は、前記カテゴリの直上位カテゴリを特徴付ける名称である、ことを特徴とする付記1または2に記載の情報処理装置。 (Supplementary note 3) The information processing apparatus according to supplementary note 1 or 2, wherein the name characterizing the upper category is a name characterizing a category immediately above the category.

(付記4)前記複数の文書のそれぞれは、検索キーワードに基づいて検索された文書であり、
前記制御部は、前記検索キーワードを、前記複数のカテゴリのうちの最上位カテゴリを特徴付ける名称に決定する、ことを特徴とする付記1〜3のいずれか一つに記載の情報処理装置。
(Appendix 4) Each of the plurality of documents is a document searched based on a search keyword,
The information processing apparatus according to any one of appendices 1 to 3, wherein the control unit determines the search keyword as a name characterizing a highest category among the plurality of categories.

(付記5)前記制御部は、前記カテゴリを特徴付ける名称として使用しない語句を取得し、前記カテゴリに分類した文書集合から、前記カテゴリを特徴付ける名称候補として、取得した前記語句とは異なる語句を特定する、ことを特徴とする付記1〜4のいずれか一つに記載の情報処理装置。 (Additional remark 5) The said control part acquires the phrase which is not used as a name which characterizes the said category, and specifies the phrase different from the acquired said phrase as a candidate name which characterizes the said category from the document set classified into the said category. The information processing apparatus according to any one of supplementary notes 1 to 4, characterized in that:

(付記6)前記制御部は、前記カテゴリに分類した文書集合から、前記カテゴリを特徴付ける名称候補として、前記上位カテゴリを特徴付ける名称とは異なる語句を特定する、ことを特徴とする付記1〜5のいずれか一つに記載の情報処理装置。 (Additional remark 6) The said control part specifies the word and phrase different from the name which characterizes the said high-order category as a name candidate which characterizes the said category from the document set classified into the said category. The information processing apparatus according to any one of the above.

(付記7)前記制御部は、前記カテゴリに分類した文書集合から、前記カテゴリを特徴付ける名称候補として、前記カテゴリの直上位カテゴリの直下位カテゴリのうちの前記カテゴリとは異なる他のカテゴリを特徴付ける名称とは異なる語句を特定する、ことを特徴とする付記1〜6のいずれか一つに記載の情報処理装置。 (Additional remark 7) The said control part is the name which characterizes the other category different from the said category among the immediate lower categories of the immediate upper category of the said category as a candidate name which characterizes the said category from the document set classified into the said category. The information processing apparatus according to any one of supplementary notes 1 to 6, wherein a phrase different from the above is specified.

(付記8)前記カテゴリに分類した文書集合のそれぞれの文書中の一文単位、または所定数連続する文単位の、前記名称候補と、前記上位カテゴリを特徴付ける名称との共起度合いに基づいて、前記カテゴリを特徴付ける名称を決定する、ことを特徴とする付記1〜7のいずれか一つに記載の情報処理装置。 (Supplementary Note 8) Based on the co-occurrence degree of the name candidate and the name characterizing the upper category, in one sentence unit in each document of the document set classified into the category or a predetermined number of sentence units, The information processing apparatus according to any one of appendices 1 to 7, wherein a name that characterizes the category is determined.

(付記9)前記カテゴリに分類した文書集合のそれぞれの文書の全文単位の、前記名称候補と、前記上位カテゴリを特徴付ける名称との共起度合いに基づいて、前記カテゴリを特徴付ける名称を決定する、ことを特徴とする付記8に記載の情報処理装置。 (Additional remark 9) The name which characterizes the said category is determined based on the co-occurrence degree of the said name candidate and the name which characterizes the said high-order category of the whole sentence unit of each document of the document set classified into the said category. The information processing apparatus according to appendix 8, characterized by:

(付記10)前記制御部は、前記カテゴリに分類した文書集合のそれぞれの文書の種別に基づいて、前記カテゴリに分類した文書集合が、文間に連続性がある文書の集まりであるか否かを判定し、
前記文間に連続性がある文書の集まりである場合には、前記カテゴリに分類した文書集合のそれぞれの文書中の一文単位、または所定数連続する文単位の、前記名称候補と、前記上位カテゴリを特徴付ける名称との共起度合いに基づいて、前記カテゴリを特徴付ける名称を決定し、
前記文間に連続性がある文書の集まりではない場合には、前記カテゴリに分類した文書集合のそれぞれの文書の全文単位の、前記名称候補と、前記上位カテゴリを特徴付ける名称との共起度合いに基づいて、前記カテゴリを特徴付ける名称を決定する、ことを特徴とする付記9に記載の情報処理装置。
(Additional remark 10) The said control part determines whether the document set classified into the said category is a collection of documents with continuity between sentences based on the classification of each document of the document set classified into the said category. Determine
In the case of a collection of documents having continuity between the sentences, the name candidates and the upper category of one sentence unit or a predetermined number of consecutive sentence units in each document of the document set classified into the category Determine the name that characterizes the category based on the co-occurrence with the name that characterizes
If it is not a collection of documents with continuity between the sentences, the co-occurrence degree of the name candidates and the names characterizing the higher-level categories in the whole sentence unit of each document of the document set classified into the category The information processing apparatus according to appendix 9, wherein a name that characterizes the category is determined based on the information.

(付記11)前記上位カテゴリを特徴付ける名称は、前記複数のカテゴリのうち、最上位カテゴリから前記カテゴリの直上位カテゴリまでのそれぞれのカテゴリを特徴付ける名称である、ことを特徴とする付記1〜10のいずれか一つに記載の情報処理装置。 (Additional remark 11) The name which characterizes the above-mentioned upper category is a name which characterizes each category from the highest category to the immediate upper category of the above-mentioned category among the plurality of categories. The information processing apparatus according to any one of the above.

(付記12)前記制御部は、前記カテゴリに分類した文書集合に含まれる語句の前記カテゴリに分類した文書集合における出現度合いと、当該語句の前記複数の文書における出現度合いとに基づいて、当該語句の前記カテゴリに分類した文書集合を特徴付ける特徴度を算出し、
算出した前記特徴度に基づいて、前記カテゴリを特徴付ける名称候補を特定する、ことを特徴とする付記1〜11のいずれか一つに記載の情報処理装置。
(Additional remark 12) The said control part is the said phrase based on the appearance degree in the document set classified into the said category of the phrase contained in the document set classified into the said category, and the appearance degree in the said several document of the said phrase. Calculating a characteristic degree that characterizes the document set classified into the category of
The information processing apparatus according to any one of appendices 1 to 11, wherein a name candidate that characterizes the category is specified based on the calculated characteristic degree.

(付記13)前記制御部は、前記カテゴリに分類した文書集合に含まれる語句の前記カテゴリに分類した文書集合における出現度合いと、当該語句を含む複合語の前記カテゴリに分類した文書集合における出現度合いとに基づいて、当該語句の前記カテゴリに分類した文書集合を特徴付ける特徴度を算出し、
算出した前記特徴度に基づいて、前記カテゴリを特徴付ける名称候補を特定する、ことを特徴とする付記1〜11のいずれか一つに記載の情報処理装置。
(Additional remark 13) The said control part WHEREIN: The appearance degree in the document set classified into the said category of the phrase contained in the document set classified into the said category, and the appearance degree in the document set classified into the said category of the compound word containing the said phrase On the basis of the above, a feature degree characterizing the document set classified into the category of the word is calculated,
The information processing apparatus according to any one of appendices 1 to 11, wherein a name candidate that characterizes the category is specified based on the calculated characteristic degree.

(付記14)前記制御部は、特定した前記名称候補のうち、前記複数の文書における、前記上位カテゴリを特徴付ける名称との共起度合いが相対的に高い名称候補を特定し、
特定した前記共起度合いが相対的に高い名称候補の前記カテゴリに分類した文書集合における出現度合いと、当該名称候補の前記複数の文書における出現度合いとに基づいて、当該名称候補の前記カテゴリに分類した文書集合を特徴付ける特徴度を算出し、
算出した前記特徴度に基づいて、前記カテゴリを特徴付ける名称を決定する、ことを特徴とする付記1〜11のいずれか一つに記載の情報処理装置。
(Additional remark 14) The said control part specifies the name candidate with a relatively high co-occurrence degree with the name which characterizes the said high-order category in the said several document among the specified said name candidates,
Based on the appearance degree in the document set classified into the category of the candidate name having a relatively high co-occurrence degree and the appearance degree in the plurality of documents of the candidate name are classified into the category of the candidate name To calculate the features that characterize the document set
The information processing apparatus according to any one of appendices 1 to 11, wherein a name that characterizes the category is determined based on the calculated characteristic degree.

(付記15)前記制御部は、特定した前記名称候補のうち、前記複数の文書における、前記上位カテゴリを特徴付ける名称との共起度合いが相対的に高い名称候補を特定し、
特定した前記共起度合いが相対的に高い名称候補の前記カテゴリに分類した文書集合における出現度合いと、特定した前記共起度合いが相対的に高い名称候補を含む複合語の前記カテゴリに分類した文書集合における出現度合いとに基づいて、当該名称候補の前記カテゴリに分類した文書集合を特徴付ける特徴度を算出し、
算出した前記特徴度に基づいて、前記カテゴリを特徴付ける名称を決定する、ことを特徴とする付記1〜11のいずれか一つに記載の情報処理装置。
(Additional remark 15) The said control part pinpoints a name candidate with a relatively high co-occurrence degree with the name which characterizes the said high-order category in the said several document among the specified said name candidate,
Documents classified into the category of compound words including the degree of appearance in the document set classified into the category of the candidate names having a relatively high co-occurrence degree and the name candidate having the relatively high co-occurrence degree specified Based on the appearance degree in the set, calculate a characteristic degree characterizing the document set classified into the category of the name candidate,
The information processing apparatus according to any one of appendices 1 to 11, wherein a name that characterizes the category is determined based on the calculated characteristic degree.

(付記16)コンピュータが、
複数の文書を分類した階層化された複数のカテゴリに分類した文書集合から前記カテゴリを特徴付ける名称候補を特定し、
前記複数の文書における、特定した前記名称候補と、前記カテゴリの上位カテゴリを特徴付ける名称との共起度合いに基づいて、前記カテゴリを特徴付ける名称を決定する、
処理を実行することを特徴とする名称決定方法。
(Supplementary note 16)
Identifying candidate names characterizing the category from a set of documents classified into a plurality of hierarchical categories into which a plurality of documents are classified,
Determining a name that characterizes the category based on a degree of co-occurrence of the identified name candidate and a name that characterizes an upper category of the category in the plurality of documents.
A name determination method characterized by executing processing.

(付記17)コンピュータに、
複数の文書を分類した階層化された複数のカテゴリに分類した文書集合から前記カテゴリを特徴付ける名称候補を特定し、
前記複数の文書における、特定した前記名称候補と、前記カテゴリの上位カテゴリを特徴付ける名称との共起度合いに基づいて、前記カテゴリを特徴付ける名称を決定する、
処理を実行させることを特徴とする名称決定プログラム。
(Supplementary note 17)
Identifying candidate names characterizing the category from a set of documents classified into a plurality of hierarchical categories into which a plurality of documents are classified,
Determining a name that characterizes the category based on a degree of co-occurrence of the identified name candidate and a name that characterizes an upper category of the category in the plurality of documents.
A name determination program characterized by causing processing to be executed.

100 情報処理装置
301 取得部
302 検索部
303 分類部
304 選択部
305 特定部
306 決定部
307 出力部
DESCRIPTION OF SYMBOLS 100 Information processing apparatus 301 Acquisition part 302 Search part 303 Classification part 304 Selection part 305 Specification part 306 Determination part 307 Output part

Claims (15)

複数の文書を分類した階層化された複数のカテゴリに分類した文書集合から前記カテゴリを特徴付ける名称候補を特定し、
前記複数の文書における、特定した前記名称候補と、前記カテゴリの上位カテゴリを特徴付ける名称との共起度合いに基づいて、前記カテゴリを特徴付ける名称を決定する、
制御部を有することを特徴とする情報処理装置。
Identifying candidate names characterizing the category from a set of documents classified into a plurality of hierarchical categories into which a plurality of documents are classified,
Determining a name that characterizes the category based on a degree of co-occurrence of the identified name candidate and a name that characterizes an upper category of the category in the plurality of documents.
An information processing apparatus having a control unit.
前記制御部は、さらに、前記複数の文書のうち、前記名称候補を含む文書集合と前記上位カテゴリを特徴付ける名称を含む文書集合との重複度合いに基づいて、前記カテゴリを特徴付ける名称を決定する、ことを特徴とする請求項1に記載の情報処理装置。   The control unit further determines a name characterizing the category based on a degree of overlap between a document set including the name candidate and a document set including a name characterizing the upper category among the plurality of documents. The information processing apparatus according to claim 1. 前記上位カテゴリを特徴付ける名称は、前記カテゴリの直上位カテゴリを特徴付ける名称である、ことを特徴とする請求項1または2に記載の情報処理装置。   The information processing apparatus according to claim 1, wherein the name characterizing the upper category is a name characterizing a category directly above the category. 前記複数の文書のそれぞれは、検索キーワードに基づいて検索された文書であり、
前記制御部は、前記検索キーワードを、前記複数のカテゴリのうちの最上位カテゴリを特徴付ける名称に決定する、ことを特徴とする請求項1〜3のいずれか一つに記載の情報処理装置。
Each of the plurality of documents is a document searched based on a search keyword,
The information processing apparatus according to claim 1, wherein the control unit determines the search keyword as a name characterizing a highest category among the plurality of categories.
前記制御部は、前記カテゴリを特徴付ける名称として使用しない語句を取得し、前記カテゴリに分類した文書集合から、前記カテゴリを特徴付ける名称候補として、取得した前記語句とは異なる語句を特定する、ことを特徴とする請求項1〜4のいずれか一つに記載の情報処理装置。   The control unit acquires a phrase that is not used as a name that characterizes the category, and specifies a phrase that is different from the acquired phrase as a name candidate that characterizes the category from a set of documents classified into the category. The information processing apparatus according to any one of claims 1 to 4. 前記制御部は、前記カテゴリに分類した文書集合から、前記カテゴリを特徴付ける名称候補として、前記上位カテゴリを特徴付ける名称とは異なる語句を特定する、ことを特徴とする請求項1〜5のいずれか一つに記載の情報処理装置。   6. The control unit according to claim 1, wherein the control unit identifies a word / phrase different from a name characterizing the upper category as a name candidate characterizing the category from a document set classified into the category. Information processing apparatus described in one. 前記制御部は、前記カテゴリに分類した文書集合から、前記カテゴリを特徴付ける名称候補として、前記カテゴリの直上位カテゴリの直下位カテゴリのうちの前記カテゴリとは異なる他のカテゴリを特徴付ける名称とは異なる語句を特定する、ことを特徴とする請求項1〜6のいずれか一つに記載の情報処理装置。   The control unit, as a candidate name for characterizing the category from a set of documents classified into the category, a phrase that is different from a name characterizing another category different from the category of the immediate lower categories of the category The information processing apparatus according to claim 1, wherein the information processing apparatus is specified. 前記カテゴリに分類した文書集合のそれぞれの文書中の一文単位、または所定数連続する文単位の、前記名称候補と、前記上位カテゴリを特徴付ける名称との共起度合いに基づいて、前記カテゴリを特徴付ける名称を決定する、ことを特徴とする請求項1〜7のいずれか一つに記載の情報処理装置。   The name that characterizes the category based on the degree of co-occurrence of the name candidate and the name that characterizes the higher-order category in a single sentence unit or a predetermined number of sentence units in each document of the document set classified into the category The information processing device according to claim 1, wherein the information processing device is determined. 前記カテゴリに分類した文書集合のそれぞれの文書の全文単位の、前記名称候補と、前記上位カテゴリを特徴付ける名称との共起度合いに基づいて、前記カテゴリを特徴付ける名称を決定する、ことを特徴とする請求項8に記載の情報処理装置。   The name that characterizes the category is determined based on the co-occurrence degree of the name candidate and the name that characterizes the higher-order category in the whole sentence unit of each document of the document set classified into the category. The information processing apparatus according to claim 8. 前記制御部は、前記カテゴリに分類した文書集合のそれぞれの文書の種別に基づいて、前記カテゴリに分類した文書集合が、文間に連続性がある文書の集まりであるか否かを判定し、
前記文間に連続性がある文書の集まりである場合には、前記カテゴリに分類した文書集合のそれぞれの文書中の一文単位、または所定数連続する文単位の、前記名称候補と、前記上位カテゴリを特徴付ける名称との共起度合いに基づいて、前記カテゴリを特徴付ける名称を決定し、
前記文間に連続性がある文書の集まりではない場合には、前記カテゴリに分類した文書集合のそれぞれの文書の全文単位の、前記名称候補と、前記上位カテゴリを特徴付ける名称との共起度合いに基づいて、前記カテゴリを特徴付ける名称を決定する、ことを特徴とする請求項9に記載の情報処理装置。
The control unit determines whether the document set classified into the category is a collection of documents having continuity between sentences based on the types of documents of the document set classified into the category,
In the case of a collection of documents having continuity between the sentences, the name candidates and the upper category of one sentence unit or a predetermined number of consecutive sentence units in each document of the document set classified into the category Determine the name that characterizes the category based on the co-occurrence with the name that characterizes
If it is not a collection of documents with continuity between the sentences, the co-occurrence degree of the name candidates and the names characterizing the higher-level categories in the whole sentence unit of each document of the document set classified into the category The information processing apparatus according to claim 9, wherein a name that characterizes the category is determined based on the information.
前記上位カテゴリを特徴付ける名称は、前記複数のカテゴリのうち、最上位カテゴリから前記カテゴリの直上位カテゴリまでのそれぞれのカテゴリを特徴付ける名称である、ことを特徴とする請求項1〜10のいずれか一つに記載の情報処理装置。   11. The name that characterizes the upper category is a name that characterizes each of the plurality of categories from the highest category to the category immediately above the category. Information processing apparatus described in one. 前記制御部は、前記カテゴリに分類した文書集合に含まれる語句の前記カテゴリに分類した文書集合における出現度合いと、当該語句の前記複数の文書における出現度合いとに基づいて、当該語句の前記カテゴリに分類した文書集合を特徴付ける特徴度を算出し、
算出した前記特徴度に基づいて、前記カテゴリを特徴付ける名称候補を特定する、ことを特徴とする請求項1〜11のいずれか一つに記載の情報処理装置。
The control unit adds the phrase included in the document set classified into the category to the category of the word based on the appearance degree in the document set classified into the category and the appearance degree of the word in the plurality of documents. Calculate the feature that characterizes the classified document set,
The information processing apparatus according to any one of claims 1 to 11, wherein a name candidate that characterizes the category is specified based on the calculated characteristic degree.
前記制御部は、特定した前記名称候補のうち、前記複数の文書における、前記上位カテゴリを特徴付ける名称との共起度合いが相対的に高い名称候補を特定し、
特定した前記共起度合いが相対的に高い名称候補の前記カテゴリに分類した文書集合における出現度合いと、当該名称候補の前記複数の文書における出現度合いとに基づいて、当該名称候補の前記カテゴリに分類した文書集合を特徴付ける特徴度を算出し、
算出した前記特徴度に基づいて、前記カテゴリを特徴付ける名称を決定する、ことを特徴とする請求項1〜11のいずれか一つに記載の情報処理装置。
The control unit specifies a name candidate having a relatively high degree of co-occurrence with a name characterizing the upper category in the plurality of documents among the specified name candidates,
Based on the appearance degree in the document set classified into the category of the candidate name having a relatively high co-occurrence degree and the appearance degree in the plurality of documents of the candidate name are classified into the category of the candidate name To calculate the features that characterize the document set
The information processing apparatus according to claim 1, wherein a name that characterizes the category is determined based on the calculated feature degree.
コンピュータが、
複数の文書を分類した階層化された複数のカテゴリに分類した文書集合から前記カテゴリを特徴付ける名称候補を特定し、
前記複数の文書における、特定した前記名称候補と、前記カテゴリの上位カテゴリを特徴付ける名称との共起度合いに基づいて、前記カテゴリを特徴付ける名称を決定する、
処理を実行することを特徴とする名称決定方法。
Computer
Identifying candidate names characterizing the category from a set of documents classified into a plurality of hierarchical categories into which a plurality of documents are classified,
Determining a name that characterizes the category based on a degree of co-occurrence of the identified name candidate and a name that characterizes an upper category of the category in the plurality of documents.
A name determination method characterized by executing processing.
コンピュータに、
複数の文書を分類した階層化された複数のカテゴリに分類した文書集合から前記カテゴリを特徴付ける名称候補を特定し、
前記複数の文書における、特定した前記名称候補と、前記カテゴリの上位カテゴリを特徴付ける名称との共起度合いに基づいて、前記カテゴリを特徴付ける名称を決定する、
処理を実行させることを特徴とする名称決定プログラム。
On the computer,
Identifying candidate names characterizing the category from a set of documents classified into a plurality of hierarchical categories into which a plurality of documents are classified,
Determining a name that characterizes the category based on a degree of co-occurrence of the identified name candidate and a name that characterizes an upper category of the category in the plurality of documents.
A name determination program characterized by causing processing to be executed.
JP2015198072A 2015-10-05 2015-10-05 Information processing apparatus, name determination method, and name determination program Expired - Fee Related JP6565565B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015198072A JP6565565B2 (en) 2015-10-05 2015-10-05 Information processing apparatus, name determination method, and name determination program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015198072A JP6565565B2 (en) 2015-10-05 2015-10-05 Information processing apparatus, name determination method, and name determination program

Publications (2)

Publication Number Publication Date
JP2017072917A true JP2017072917A (en) 2017-04-13
JP6565565B2 JP6565565B2 (en) 2019-08-28

Family

ID=58537670

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015198072A Expired - Fee Related JP6565565B2 (en) 2015-10-05 2015-10-05 Information processing apparatus, name determination method, and name determination program

Country Status (1)

Country Link
JP (1) JP6565565B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021171373A1 (en) * 2020-02-25 2021-09-02 日本電気株式会社 Item classification assistance system, method, and program

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003162540A (en) * 2001-11-28 2003-06-06 Seiko Epson Corp Data retrieval device and data retrieval method
JP2004126814A (en) * 2002-09-30 2004-04-22 Toshiba Corp Question answering system, question answering method and question answering program
JP2005285127A (en) * 2004-03-29 2005-10-13 Microsoft Corp Generation of name easy to know in flattened hierarchical structure
JP2013105436A (en) * 2011-11-16 2013-05-30 Nippon Telegr & Teleph Corp <Ntt> Interactive model construction device, method and program
JP2014010758A (en) * 2012-07-02 2014-01-20 Hitachi Solutions Ltd File management device, file management method, and program

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003162540A (en) * 2001-11-28 2003-06-06 Seiko Epson Corp Data retrieval device and data retrieval method
JP2004126814A (en) * 2002-09-30 2004-04-22 Toshiba Corp Question answering system, question answering method and question answering program
JP2005285127A (en) * 2004-03-29 2005-10-13 Microsoft Corp Generation of name easy to know in flattened hierarchical structure
JP2013105436A (en) * 2011-11-16 2013-05-30 Nippon Telegr & Teleph Corp <Ntt> Interactive model construction device, method and program
JP2014010758A (en) * 2012-07-02 2014-01-20 Hitachi Solutions Ltd File management device, file management method, and program

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021171373A1 (en) * 2020-02-25 2021-09-02 日本電気株式会社 Item classification assistance system, method, and program
JP7456486B2 (en) 2020-02-25 2024-03-27 日本電気株式会社 Item classification support system, method and program

Also Published As

Publication number Publication date
JP6565565B2 (en) 2019-08-28

Similar Documents

Publication Publication Date Title
CN109992645B (en) Data management system and method based on text data
US11573996B2 (en) System and method for hierarchically organizing documents based on document portions
US9659084B1 (en) System, methods, and user interface for presenting information from unstructured data
US10489439B2 (en) System and method for entity extraction from semi-structured text documents
US9483532B1 (en) Text processing system and methods for automated topic discovery, content tagging, categorization, and search
US20200372073A1 (en) Automatically generating theme-based folders by clustering media items in a semantic space
KR101538998B1 (en) Method and apparatus for providing search service based on knowladge service
JP2005526317A (en) Method and system for automatically searching a concept hierarchy from a document corpus
KR20070089449A (en) Method of classifying documents, computer readable record medium on which program for executing the method is recorded
Nualart et al. How we draw texts: a review of approaches to text visualization and exploration
JP2014106665A (en) Document retrieval device and document retrieval method
JP5349699B1 (en) Document analysis apparatus and program
JPH0484271A (en) Intra-information retrieval device
Spitz et al. EVELIN: Exploration of event and entity links in implicit networks
JP6409071B2 (en) Sentence sorting method and calculator
Vaidya et al. The comparative and analytical study of LibraryThing tags with Library of Congress Subject Headings
JP2001184358A (en) Device and method for retrieving information with category factor and program recording medium therefor
JP5463494B2 (en) Technology trend information generator
JP6565565B2 (en) Information processing apparatus, name determination method, and name determination program
JP2014102625A (en) Information retrieval system, program, and method
JP5269399B2 (en) Structured document retrieval apparatus, method and program
JP2021064143A (en) Sentence generating device, sentence generating method, and sentence generating program
JP7364512B2 (en) Labeling model generation device and labeling model generation method
WO2010103916A1 (en) Device for presentation of characteristic words in document and program giving priority of characteristic words
CN109213830B (en) Document retrieval system for professional technical documents

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180608

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190522

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190702

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190715

R150 Certificate of patent or registration of utility model

Ref document number: 6565565

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees