JP2007257149A - Document processing apparatus and method - Google Patents
Document processing apparatus and method Download PDFInfo
- Publication number
- JP2007257149A JP2007257149A JP2006078801A JP2006078801A JP2007257149A JP 2007257149 A JP2007257149 A JP 2007257149A JP 2006078801 A JP2006078801 A JP 2006078801A JP 2006078801 A JP2006078801 A JP 2006078801A JP 2007257149 A JP2007257149 A JP 2007257149A
- Authority
- JP
- Japan
- Prior art keywords
- expression
- concept
- document
- concept expression
- category
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、文書処理装置及び文書処理方法に関するものである。 The present invention relates to a document processing apparatus and a document processing method.
近年、大量の文書(テキスト、テキスト情報)の収集及び蓄積が可能となり、それらの情報を活用するためのテキスト処理技術、文書処理技術が開発されている。従来の文書処理技術としては、ユーザの意図に合った文書を検索する文書検索技術、大量の文書集合をいくつかの部分集合に分類する文書分類技術、文書あるいは文書集合から重要な語句を抽出するキーワード抽出技術、キーワード抽出技術に基づいた文書要約技術などがある。 In recent years, a large amount of documents (text, text information) can be collected and stored, and text processing techniques and document processing techniques for utilizing such information have been developed. Conventional document processing technologies include document search technology that searches for documents that match the user's intention, document classification technology that classifies a large number of document sets into several subsets, and extracts important phrases from documents or document sets. There are a keyword extraction technique and a document summarization technique based on the keyword extraction technique.
最近ではアンケートデータやコールセンタデータなどの大量のテキストデータを分析することを目的としたテキストマイニング技術なども開発されている。こうした技術ではテキストデータを分析するために、テキストに含まれる概念や話題に基づいてカテゴリに分類し、新たなアイデアや知見を発見し、カテゴリに属するテキストの数を利用して統計的な傾向や関係を分析する。 Recently, text mining technology for analyzing large amounts of text data such as questionnaire data and call center data has been developed. In order to analyze text data, these technologies classify them into categories based on the concepts and topics contained in the text, discover new ideas and knowledge, and use the number of texts belonging to the categories to find statistical trends and Analyze the relationship.
こうしたテキストデータ分析技術として、言語解析情報に基づいた統計処理を行うことで分析を行うものがある。この際に問題となるのは、異なる表現(言葉)であるが意味が同じ表現を含むテキストの処理である。例えば、コールセンタデータの分析において、「顧客が怒っている」と言う内容を含むテキストデータを処理したい場合に、「怒る」という単語を含むテキストデータだけを処理するのではなく、「腹が立つ」、「頭にくる」、「立腹」、「癪に障る」、「怒髪天を突く」など異なる言葉であるが同じ意味の表現を含むテキストデータも同じ内容のテキストデータとして処理しなければならない。そうでなければ統計的な分析の精度や正確性などに問題が生じる。 As such text data analysis technology, there is one that performs analysis by performing statistical processing based on language analysis information. In this case, the problem is the processing of text including different expressions (words) but having the same meaning. For example, in the analysis of call center data, if you want to process text data that includes the content "customer is angry", instead of processing only text data that includes the word "angry", "get angry" Text data including different expressions, such as “coming to the head”, “prone”, “disturbed by wrinkles”, “pushing angry hair”, but having the same meaning must also be processed as text data having the same content. Otherwise, problems arise in the accuracy and accuracy of statistical analysis.
異なる言葉であるが同じ意味を表す言葉に関する情報を扱うための技術として同義語辞書、関連語辞書、シソーラス辞書などがある。これらは単語や語句を意味的に分類し、体系付けたものである。前述のテキストデータ分析技術においても、シソーラス辞書やカテゴリ辞書を利用している。しかしながら、前述のテキストデータ分析技術で利用するシソーラス辞書やカテゴリ辞書はあくまで単語(あるいは複合語)間の関係を記述したものであり、「怒る」と同じ意味を表す表現として「腹が立つ」、「頭にくる」、「癪に障る」、「怒髪天を突く」といった、複数の単語により1つの意味を表す表現を記述して利用することはできなかった。そのために「ある内容を含むテキストデータの数」といった統計的数値に不正確さがあり、これらの情報を元に統計的分析を行った結果に関しても、その精度や正確性に問題がある。 There are synonym dictionaries, related word dictionaries, thesaurus dictionaries, and the like as techniques for handling information on words that are different words but have the same meaning. These are words and phrases that are semantically classified and organized. The aforementioned text data analysis technique also uses a thesaurus dictionary or a category dictionary. However, the thesaurus dictionaries and category dictionaries used in the text data analysis technique described above describe the relationship between words (or compound words) to the last, and are “angry” as expressions that represent the same meaning as “angry”, It was not possible to describe and use expressions expressing one meaning with a plurality of words, such as “coming to the head”, “disturbing the habit”, and “pushing angry hair”. For this reason, there is an inaccuracy in the statistical numerical value such as “the number of text data including a certain content”, and there is a problem in the accuracy and accuracy of the result of the statistical analysis based on such information.
これに対し、複数の単語で表される概念を扱うことができる概念表現方法が提案されている(例えば、特許文献1参照)。この概念表現方法を利用すると複数の単語で表されるフレーズも1つの概念表現として扱うことができる。この概念表現方法を用いてシソーラス辞書を構成すれば、「怒る」、「腹が立つ」、「頭にくる」、「立腹」、「癪に障る」、「怒髪天を突く」などの表現を同じ意味の概念表現であると記述することができ、前記問題を改善することが期待される。更に、前記概念表現方法を適用し、テキスト集合を分析する際に、ユーザが文書集合に含まれる概念表現を自由に探索し、必要な概念表現を用いて文書カテゴリを生成することを支援しているものがある(例えば、特許文献2参照)。また、前記概念表現方法を適用し、対象データをマルチフィールドデータに拡張すること、あるいは既存のカテゴリ定義の再利用を可能にしているものがある(例えば、特許文献3参照)。
しかしながら、従来の文書処理装置及び文書処理方法においては、前述の概念表現方法を適用したシソーラス辞書に基づいて、同義表現や関連表現を検索し、複数の異なる概念表現を1つの概念表現として扱うと共に、ユーザの使い勝手に配慮してより実用的な文書処理を行う点について、更に改善の余地がある。 However, in the conventional document processing apparatus and document processing method, synonymous expressions and related expressions are searched based on a thesaurus dictionary to which the above-described concept expression method is applied, and a plurality of different concept expressions are handled as one concept expression. There is room for further improvement in terms of performing more practical document processing in consideration of user convenience.
本発明は、従来の問題を解決するためになされたもので、複数の単語で表される概念を表現する概念表現方法を用い、概念間の意味的な関係を辞書として利用することができ、テキストデータ分析における統計分析の精度向上、あるいは文書検索の精度向上に好適な文書処理装置及び文書処理方法を提供することを目的とする。 The present invention was made in order to solve the conventional problem, using a concept expression method for expressing a concept represented by a plurality of words, and using a semantic relationship between concepts as a dictionary, An object of the present invention is to provide a document processing apparatus and a document processing method suitable for improving accuracy of statistical analysis in text data analysis or improving accuracy of document search.
本発明は、前記特許文献1に記載の概念表現方法により表現された概念により構成される概念表現シソーラス辞書をもち、概念表現シソーラス辞書に基づいて、同義表現や関連表現を検索し、複数の異なる概念表現を1つの概念表現として扱うようにしている。
The present invention has a concept expression thesaurus dictionary composed of concepts expressed by the concept expression method described in
請求項1に係る本発明の文書処理装置は、文書に含まれる文節情報から抽出されたトークンと意図表現の組み合わせで文書に含まれる概念を表現し、更に文節間の関係情報に基づいて複数の概念表現の関係を表現し、前記トークンと意図表現の組み合わせによる概念表現及び概念表現間の関係に基づいて文書データを処理する文書処理装置であって、処理対象となる文書データの集合を取得する文書データ取得手段と、前記文書データ取得手段により取得された文書データに対して言語解析処理を行い、文書データに含まれる概念表現を抽出する言語処理手段と、前記言語処理手段により抽出された概念表現を表示する概念表現表示手段と、前記文書に含まれる概念を表現した概念表現を登録する概念表現シソーラス辞書を記憶する概念表現シソーラス辞書記憶手段と、前記概念表現シソーラス辞書から概念表現を検索する辞書検索手段と、を備えた構成を有している。
The document processing apparatus of the present invention according to
請求項2に係る本発明の文書処理装置は、請求項1において、前記文書データ取得手段により取得された文書データの集合に含まれる概念表現を指定するための概念表現指定手段と、前記概念表現指定手段により指定された概念表現をカテゴリ定義とし、文書データの集合から、前記カテゴリ定義に基づいて文書グループを生成し、文書カテゴリとする文書カテゴリ生成手段と、前記文書カテゴリ生成手段により生成された文書カテゴリを表示する文書カテゴリ表示手段と、を備えた構成を有している。 A document processing apparatus according to a second aspect of the present invention is the document processing apparatus according to the first aspect, wherein the conceptual expression specifying means for specifying a conceptual expression included in a set of document data acquired by the document data acquiring means, and the conceptual expression The concept expression specified by the specifying means is defined as a category definition, a document group is generated from a set of document data based on the category definition, and the document category is generated by the document category generating means. And a document category display means for displaying the document category.
請求項3に係る本発明の文書処理装置は、請求項1又は請求項2において、前記概念表現シソーラス辞書に登録されている同義の概念表現グループに基づいて一の概念表現を抽出する概念表現抽出手段と、前記概念表現抽出手段により抽出された同義表現グループ概念表現を表示する概念表現表示手段と、を備えた構成を有している。 According to a third aspect of the present invention, there is provided the document processing apparatus according to the first or second aspect, wherein the concept expression extraction extracts one concept expression based on a synonymous concept expression group registered in the concept expression thesaurus dictionary. And a concept expression display means for displaying the synonymous expression group concept expression extracted by the concept expression extracting means.
請求項4に係る本発明の文書処理装置は、請求項1から請求項3のいずれか1項において、前記概念表現シソーラス辞書に登録されている、同義の概念表現及び同義ではないが意味的に関連する概念表現を検索するために、文書データの集合に含まれる概念表現を指定するための同義関連概念表現指定手段と、前記同義の概念表現及び前記関連する概念表現の検索結果を表示する同義関連概念表現表示手段と、を備え、前記辞書検索手段は、前記同義関連概念表現指定手段の指定に基づいて、前記概念表現シソーラス辞書に登録されている前記同義の概念表現及び前記関連する概念表現を検索し、前記同義関連概念表現表示手段は、前記辞書検索手段の検索結果を表示するようにした構成を有している。 A document processing apparatus according to a fourth aspect of the present invention is the document processing apparatus according to any one of the first to third aspects, wherein the syntactic conceptual expression and the synonym registered in the conceptual expression thesaurus dictionary are not semantically. Synonym related concept expression specifying means for specifying concept expressions included in a set of document data to search related concept expressions, and synonyms for displaying search results of the synonymous concept expressions and the related concept expressions Related concept expression display means, the dictionary search means based on the designation of the synonym related concept expression designation means, the synonymous concept expression and the related concept expression registered in the concept expression thesaurus dictionary And the synonym related concept expression display means displays the search result of the dictionary search means.
請求項5に係る本発明の文書処理装置は、請求項1から請求項4のいずれか1項において、前記概念表現シソーラス辞書に登録されている概念表現を拡張した拡張概念表現を検索するために、文書データの集合に含まれる概念表現を指定するための拡張概念表現指定手段と、前記拡張概念表現指定手段の指定に基づいて、前記概念表現シソーラス辞書に登録されている指定された概念表現を検索して一の同義概念表現にまとめ、前記文書データの集合から前記一の同義概念表現を検索する拡張概念表現検索手段と、を備え、前記概念表現表示手段は、前記拡張概念表現検索手段の検索結果を表示するようにした構成を有している。 According to a fifth aspect of the present invention, there is provided the document processing apparatus according to any one of the first to fourth aspects, for searching for an extended concept expression obtained by extending a concept expression registered in the concept expression thesaurus dictionary. An extended concept expression specifying means for specifying a concept expression included in a set of document data, and a specified concept expression registered in the concept expression thesaurus dictionary based on the specification of the extended concept expression specifying means. Extended concept expression search means for searching and collecting the one synonym concept expression from the set of document data, and the concept expression display means includes the extended concept expression search means. The search result is displayed.
請求項6に係る本発明の文書処理装置は、請求項2から請求項5のいずれか1項において、前記文書カテゴリ生成手段により生成された文書カテゴリに基づいて、新たな概念表現を前記概念表現シソーラス辞書に登録する辞書登録手段を備えた構成を有している。
請求項7に係る本発明の文書処理方法は、文書に含まれる文節情報から抽出されたトークンと意図表現の組み合わせで文書に含まれる概念を表現し、更に文節間の関係情報に基づいて複数の概念表現の関係を表現し、前記トークンと意図表現の組み合わせによる概念表現及び概念表現間の関係を登録した概念表現シソーラス辞書を用いて文書データを処理する文書処理方法であって、処理対象となる文書データの集合を取得する文書データ取得手順と、前記文書データ取得手順により取得された文書データに対して言語解析処理を行い、文書データに含まれる概念表現を抽出する言語処理手順と、前記言語処理手順により抽出された概念表現を表示する概念表現表示手順と、前記概念表現シソーラス辞書から概念表現を検索する辞書検索手順と、を実行している。
A document processing apparatus according to a sixth aspect of the present invention provides the document processing apparatus according to any one of the second to fifth aspects, wherein a new conceptual expression is generated based on the document category generated by the document category generating means. It has a configuration provided with dictionary registration means for registering in the thesaurus dictionary.
In the document processing method of the present invention according to
請求項8に係る本発明の文書処理方法は、請求項7において、前記文書データ取得手順により取得された文書データの集合に含まれる概念表現を指定するための概念表現指定手順と、前記概念表現指定手段により指定された概念表現をカテゴリ定義とし、文書データの集合から、前記カテゴリ定義に基づいて文書グループを生成し、文書カテゴリとする文書カテゴリ生成手順と、前記文書カテゴリ生成手段により生成された文書カテゴリを表示する文書カテゴリ表示手順と、を実行している。 A document processing method according to an eighth aspect of the present invention is the document processing method according to the seventh aspect, wherein the conceptual expression specifying procedure for specifying a conceptual expression included in a set of document data acquired by the document data acquiring procedure, and the conceptual expression The concept expression specified by the specifying means is defined as a category definition, a document group is generated from a set of document data based on the category definition, and the document category is generated by the document category generating means. And a document category display procedure for displaying the document category.
請求項9に係る本発明の文書処理方法は、請求項7又は請求項8において、前記概念表現シソーラス辞書に登録されている同義の概念表現グループに基づいて一の概念表現を抽出する概念表現抽出手順と、前記概念表現抽出手順により抽出された同義表現グループ概念表現を表示する概念表現表示手順と、を実行している。 A document processing method according to a ninth aspect of the present invention is the document processing method according to the seventh or eighth aspect, wherein one conceptual expression is extracted based on a synonymous conceptual expression group registered in the conceptual expression thesaurus dictionary. A procedure and a concept expression display procedure for displaying the synonym expression group concept expression extracted by the concept expression extraction procedure.
請求項10に係る本発明の文書処理方法は、請求項7から請求項9のいずれか1項において、前記概念表現シソーラス辞書に登録されている、同義の概念表現及び同義ではないが意味的に関連する概念表現を検索するために、文書データの集合に含まれる概念表現を指定するための同義関連概念表現指定手順と、前記同義の概念表現及び前記関連する概念表現の検索結果を表示する同義関連概念表現指定手順と、を実行し、前記辞書検索手順では、前記同義関連概念表現指定手順の指定に基づいて、前記概念表現シソーラス辞書に登録されている前記同義の概念表現及び前記関連する概念表現を検索し、前記同義関連概念表現表示手順では、前記辞書検索手順の検索結果を表示している。
The document processing method of the present invention according to
請求項11に係る本発明の文書処理方法は、請求項7から請求項10のいずれか1項において、前記概念表現シソーラス辞書に登録されている概念表現を拡張した拡張概念表現を検索するために、文書データの集合に含まれる概念表現を指定するための拡張概念表現指定手順と、前記拡張概念表現指定手順の指定に基づいて、前記概念表現シソーラス辞書に登録されている指定された概念表現を検索して一の同義概念表現にまとめ、前記文書データの集合から前記一の同義概念表現を検索する拡張概念表現検索手順と、を実行し、前記概念表現表示手順では、前記拡張概念表現検索手順の検索結果を表示している。 A document processing method according to an eleventh aspect of the present invention is the document processing method according to any one of the seventh to tenth aspects, wherein an extended concept expression obtained by extending a concept expression registered in the concept expression thesaurus dictionary is retrieved. The specified concept representation registered in the concept representation thesaurus dictionary based on the extended concept representation designation procedure for designating the concept representation included in the document data set and the designation of the extended concept representation designation procedure. And an extended concept expression search procedure for searching for the one synonymous concept expression from the set of document data, and executing the extended concept expression search procedure in the concept expression display procedure. Showing search results for.
請求項12に係る本発明の文書処理方法は、請求項7から請求項11のいずれか1項において、前記文書カテゴリ生成手順により生成された文書カテゴリに基づいて、新たな概念表現を前記概念表現シソーラス辞書に登録する辞書登録手順を実行している。 A document processing method according to a twelfth aspect of the present invention is the document processing method according to any one of the seventh to eleventh aspects, wherein the new concept expression is converted to the concept expression based on the document category generated by the document category generation procedure. A dictionary registration procedure for registering in the thesaurus dictionary is executed.
本発明は、処理対象となる文書データの集合を取得する文書データ取得手段と、前記文書データ取得手段により取得された文書データに対して言語解析処理を行い、文書データに含まれる概念表現を抽出する言語処理手段と、前記言語処理手段により抽出された概念表現を表示する概念表現表示手段と、前記文書に含まれる概念を表現した概念表現を登録する概念表現シソーラス辞書を記憶する概念表現シソーラス辞書記憶手段と、前記概念表現シソーラス辞書から概念表現を検索する辞書検索手段と、を設けることにより、従来の単語間の意味的な関係ではなく、複数の単語で表される概念間の意味的な関係を概念表現シソーラス辞書として利用することができ、テキストデータ分析における統計分析の精度向上、あるいは文書検索の精度向上に好適であり、より実用的な文書処理装置を提供することができる。 The present invention provides a document data acquisition unit that acquires a set of document data to be processed, and performs a language analysis process on the document data acquired by the document data acquisition unit to extract a concept expression included in the document data A conceptual expression thesaurus that stores a conceptual expression thesaurus that registers a conceptual expression that expresses a concept included in the document, and a conceptual expression display that displays the conceptual expression extracted by the language processing means. By providing storage means and dictionary search means for searching a concept expression from the concept expression thesaurus dictionary, the semantic relation between concepts represented by a plurality of words, rather than the conventional semantic relation between words, is provided. Relationships can be used as a conceptual thesaurus dictionary, improving the accuracy of statistical analysis in text data analysis, or document search accuracy Is suitable above, it is possible to provide a more practical document processing apparatus.
以下、本発明の実施形態に係る文書処理装置及び文書処理方法について、図面を用いて説明する。 Hereinafter, a document processing apparatus and a document processing method according to an embodiment of the present invention will be described with reference to the drawings.
[概念表現方法]
本発明の実施形態に適用する係り受け解析及び概念表現の例を図1、図2、図3、図4に示す。ここで、図1は、文書処理における係り受け解析結果の例である。図2は、図1の文書データから生成することのできる概念表現の例である。図3は、基本単位間の関係を表す概念表現の例である。図4は、概念表現の拡張検索結果の例である。なお、前記概念表現については前記特許文献1に詳述されている。
[Concept expression method]
Examples of dependency analysis and concept expression applied to the embodiment of the present invention are shown in FIG. 1, FIG. 2, FIG. 3, and FIG. Here, FIG. 1 is an example of a dependency analysis result in document processing. FIG. 2 is an example of a conceptual expression that can be generated from the document data of FIG. FIG. 3 is an example of a conceptual expression representing the relationship between basic units. FIG. 4 is an example of an extended search result of concept expressions. The concept expression is described in detail in the above-mentioned
前記特許文献1に記載の概念表現は、文書データ(テキストデータ)を言語解析した結果得られる文節あるいは文節間関係情報に基づいている。言語解析としては、例えば形態素解析、文節係り受け解析を利用することができる。形態素解析は文書データに含まれる単語を分析する。係り受け解析は、文書データに含まれる文節を解析し、文節間の関係として係りと受けの関係にある文節を解析する。例えば「ソフトウェアのインストールが正常に実行できない」という文書データを言語解析すると、図1のような情報を得ることができる。
The concept representation described in
図1において、「自」は自立語を、「付」は付属語を表す。自立語は動詞、形容詞、名詞などの品詞の単語であり、付属語とは助詞、助動詞などの品詞の単語である。通常文節は1個の自立語と、0又は1個以上の付属語で構成される。解析方法によっては、1文節に複数個の自立語が含まれるような結果を出すものもあるが、ここでは、文節にはかならず1個のみの自立語しか含まないように文節を生成する解析方法を利用するものとする。 In FIG. 1, “self” represents an independent word, and “attached” represents an attached word. Autonomous words are part-of-speech words such as verbs, adjectives and nouns, and adjuncts are part-of-speech words such as particles and auxiliary verbs. A normal phrase is composed of one independent word and zero or one or more attached words. Depending on the analysis method, there may be a result that a single phrase includes a plurality of independent words, but here, an analysis method for generating a phrase so that the phrase always includes only one independent word. Shall be used.
概念表現は、概念表現の基本単位と基本単位間の関係表現により表現される。概念表現の基本単位は、トークン及び意図表現を利用して表現される。トークンはそれ自体で1つの意味をあらわす単語であり、自立語を利用することができる。例えば、図1では、「ソフトウェア」、「インストール」、「正常」、「実行」がトークンとなる。トークンの表現はトークンの表記を利用することもできるし、トークンの代表的表記に変換したものを利用することもできる。一方、意図表現とは、文節内の単語による意味の付加を表す表現であり、単語のある特定の表現パターンを抽出することで、その文節に付加されている意図を解析する。例えば、「〜ない(助動詞)」「〜ず(助動詞)」という表現は「打消」の意味を、「〜できる(補助動詞)」という表現は「可能」の意味を、「〜たい(助動詞)」という表現は「要望」の意味を、文節に対して付加しているとすることができる。例えば、図1の「実行できない」という文節から「可能」と「打消」の意図表現が抽出される。意図表現は例えば「(+打消)」「(+可能−打消)」というように表現することができる、ここで「+XX」はその意図表現が付加されていることを、「−XX」はその意図表現が付加されていないことを表している。 The concept expression is expressed by a basic unit of the concept expression and a relation expression between the basic units. The basic unit of conceptual expression is expressed using tokens and intention expressions. A token is a word that expresses one meaning by itself, and an independent word can be used. For example, in FIG. 1, “software”, “install”, “normal”, and “execute” are tokens. The token expression can use the token notation, or can be converted to a representative token notation. On the other hand, the intention expression is an expression representing the addition of meaning by a word in a phrase, and the intention added to the phrase is analyzed by extracting a specific expression pattern of the word. For example, the expression “~ not (auxiliary verb)” or “~ z (auxiliary verb)” means “cancellation”, the expression “can do (auxiliary verb)” means “possible”, “~ tai (auxiliary verb)” "Can be said to have added the meaning of" request "to the phrase. For example, intention expressions “possible” and “cancellation” are extracted from the phrase “cannot be executed” in FIG. The intention expression can be expressed as, for example, “(+ cancellation)” and “(+ possible−cancellation)”, where “+ XX” indicates that the intention expression is added and “−XX” indicates that It means that no intention expression is added.
概念表現の基本単位は、トークンのみ、意図表現のみ、あるいはトークンと意図表現の組み合わせで表現される。このトークンと意図表現の組み合わせによる概念表現の基本単位は、例えば、図2における「概念表現7」の「「実行(+可能+打消)」に相当する。ここで、トークンと意図表現の組み合わせとは、ある文節に指定されたトークンが含まれていて、かつその文節に指定された意図表現が付加されていることを意味する。
The basic unit of concept expression is expressed by token only, intention expression only, or a combination of token and intention expression. The basic unit of the concept expression by the combination of the token and the intention expression corresponds to, for example, “execution (+ possible + cancellation)” of “
基本単位間の関係は、基本単位間に意味的な強い関係があることを表す。この意味的な強い関係とは、基本的には係り受け関係にある文節に含まれることを表す。基本単位間の関係を「⇒」で表すものとすると、例えば、図2における「概念表現8」の「ソフトウェア⇒インストール」という概念表現は、係り受け関係にある2つの文節において係り文節に「ソフトウェア」が、受け文節に「インストール」がそれぞれ含まれていることを意味する(「ソフトウェアをインストールする」)。基本単位間の関係として文節係り受け関係を利用することで、一般に文書検索などで利用される単語の論理式「ソフトウェア&インストール」のように単に文書データ内の共起出現関係を指定するのではなく、基本単位が文書データ内で意味的に強い関係をもって出現していることを指定することができる。
The relationship between basic units indicates that there is a strong semantic relationship between basic units. This semantically strong relationship basically means being included in a clause having a dependency relationship. Assuming that the relationship between basic units is represented by “⇒”, for example, the concept representation “software → installation” of “
文節係り受け関係は、ある文節が係り文節になる場合は受け文節は1つのみであるが、複数の係り文節が同じ1つの受け文節に係ることができる。例えば、図1の「文節4」は「文節2」と「文節3」の受け文節となっている。そのため、概念表現における基本単位間の関係の表現は複数の係り文節を持つ受け文節という文節間関係を表現する場合と、しない場合の2通りが可能である。
In the clause dependency relationship, when a certain clause becomes a dependency clause, there is only one reception clause, but a plurality of dependency clauses can relate to the same one reception clause. For example, “
1)複数の係り文節を持つ受け文節という文節間関係を表現しない場合、概念表現は基本単位の単純な1次元のリスト表現となる。これは例えば、図3の「概念表現例1」に相当する。 1) When not expressing the inter-phrase relationship of receiving clauses having a plurality of dependency clauses, the concept representation is a simple one-dimensional list representation of the basic unit. This corresponds to “concept expression example 1” in FIG. 3, for example.
2)複数の係り文節を持つ受け文節という文節間関係を表現する場合、概念表現は基本単位のツリー表現となる。これは例えば、図3の「概念表現例2」に相当する。
1)の場合、概念表現はユーザにとって簡単でわかりやすく、表現の拡張などの操作も行いやすいが、複雑な文節係り受け関係構造の表現ができない問題がある。2)の場合、複雑な文節係り受け関係構造も表現できるが、ユーザにとっては複雑でわかりにくく、操作も行いにくいと考えられる。1)、2)とも利用することができるが、以降の実施形態では、ユーザにとってわかりやすく操作もしやすい、1)の概念表現方法を用いて説明する。
2) When expressing the inter-phrase relationship of receiving clauses having a plurality of dependency clauses, the concept representation is a tree representation of the basic unit. This corresponds to “concept expression example 2” in FIG. 3, for example.
In the case of 1), the concept expression is simple and easy for the user to understand and easy to perform operations such as expansion of the expression, but there is a problem that the complicated phrase dependency relation structure cannot be expressed. In the case of 2), a complicated clause dependency relation structure can be expressed, but it is considered complicated and difficult to understand for the user and difficult to operate. Although both 1) and 2) can be used, the following embodiments will be described using the concept expression method 1) that is easy for the user to understand and operate.
更に、前述の概念表現に基づいて、指定された概念表現を拡張した概念表現を文書データから抽出する概念検索方法がある。例えば、図2における「概念表現9」の「インストール⇒実行」が指定された場合、「インストール⇒実行」が含まれる概念表現として図2における「概念表現10」から「概念表現12」、「概念表現17」から「概念表現20」を抽出し、図4に示す「拡張概念表現1」から「拡張概念表現7」とする。すなわち、図1の文書データに含まれる概念表現(図2に示す)から所望の基本単位を含む概念表現を拡張概念として抽出する。
Further, there is a concept retrieval method for extracting a concept expression obtained by extending a designated concept expression from document data based on the above-described concept expression. For example, when “installation → execution” of “
[第1の実施形態]
本発明の第1の実施形態に係る文書処理装置を図5に示す。これは、前記特許文献1に記載の概念表現方法を適用した概念表現シソーラス辞書を備え、この概念表現シソーラス辞書に基づいて同義表現や関連表現を検索し、複数の異なる概念表現を1つの概念表現として扱うものである。
[First Embodiment]
FIG. 5 shows a document processing apparatus according to the first embodiment of the present invention. This is provided with a concept expression thesaurus dictionary to which the concept expression method described in
図5において、文書処理装置1は、言語処理部42における文書データ構造生成部430(図11に示す)により生成された文書データ構造を記憶する文書データ構造記憶部10と、言語処理部42における概念表現抽出部440(図11に示す)により抽出された概念表現に対してユニークな識別番号(ID)を付与し、例えば出現文書数、出現頻度の情報と共に記憶して管理する概念表現記憶部20と、前述の概念表現間の意味的な関係を表す概念表現シソーラス辞書を記憶する概念表現シソーラス辞書記憶部30と、入力された文書データに対して各種処理を行う文書処理部40と、ユーザの操作に基づいて文書処理に関する指定を受け付けて入力する指定受付部50と、文書処理結果などを表示するためのディスプレイ60と、を有する構成である。
5, the
また、図5において、文書処理部40は、文書処理対象の文書データ(文書集合データ)を入力する文書データ取得部41と、概念表現の抽出及び拡張概念表現の検索を行う言語処理部42と、概念表現シソーラス辞書を用いて、指定された概念表現の同義表現や関連表現を検索する辞書検索部43と、例えば、辞書検索部43の検索結果をディスプレイ60に表示させる概念表現表示部44と、を有している。
In FIG. 5, a
ここで、文書データ取得部41は、文書集合データに対してユニークなIDを付与し、言語処理部42に渡す。なお、前記文書集合データは、ユーザの操作で入力するようにしてもよいし、電子ファイル、データベースに格納されているテキストをスキャナなどで読み込むようにしてもよい。
Here, the document
概念表現シソーラス辞書記憶部30は、概念表現シソーラス辞書を記憶して管理する。この概念表現シソーラス辞書は、前述した概念表現間の意味的な関係として例えば、同義、広義、狭義、関連、反義を表すことができるが、本実施形態では同義表現と関連表現を表す概念表現シソーラス辞書を利用する。同義表現とは、同じ意味を表す表現であり、例えば「怒る」という表現に対して、「憤る」「腹を立てる」、「頭に来る」、「癪に障る」などの表現を同義表現とすることができる。関連表現は、同じ意味ではないが意味的に関連する表現であり、例えば「怒る」という表現に対して、「笑う」、「泣く」、「驚く」、「喜ぶ」などの表現を関連表現とすることができる。
The concept expression thesaurus
概念表現シソーラス辞書の構成要素を図6、図7、図8、図9に示す。概念表現シソーラス辞書では、概念を1つ以上の概念表現の基本単位のリストにより表現する。この表現は、図3における「概念表現例1」に相当する。また、概念表現の基本単位は、図6のように1つのトークン情報(表記、品詞)と、0又は1個以上の意図表現(意図タグ)リストと、を利用して表現される。図7に示すように、概念表現リストは、概念表現シソーラス辞書内で利用する概念表現と、この概念表現に付与された識別番号(概念表現ID)と、からなる。概念表現シソーラス辞書では、概念表現リストに基づいて概念表現を管理している。 The components of the concept expression thesaurus dictionary are shown in FIGS. 6, 7, 8, and 9. FIG. In the concept representation thesaurus dictionary, a concept is represented by a list of one or more basic units of concept representation. This expression corresponds to “concept expression example 1” in FIG. As shown in FIG. 6, the basic unit of the concept expression is expressed using one token information (notation, part of speech) and zero or one or more intention expression (intention tag) lists. As shown in FIG. 7, the concept expression list includes a concept expression used in the concept expression thesaurus dictionary and an identification number (concept expression ID) assigned to the concept expression. The concept expression thesaurus dictionary manages concept expressions based on a concept expression list.
また、概念表現シソーラス辞書には、同じ意味を表す同義表現のグループのリスト(同義表現グループリスト)が登録されている。図8に示すように、同義表現グループリストは、同義表現グループID、同義表現グループラベル、所属概念表現IDリストで構成されている。 In the concept expression thesaurus dictionary, a list of synonymous expression groups (synonymous expression group list) representing the same meaning is registered. As shown in FIG. 8, the synonym expression group list includes a synonym expression group ID, a synonym expression group label, and a belonging concept expression ID list.
また、概念表現シソーラス辞書には、関連表現リストが登録されている。図9に示すように、関連表現リストは、概念表現IDと、概念表現IDで指定される概念表現と意味的に関連する概念表現に付与された概念表現IDのリスト(関連概念表現IDリスト)と、同義表現グループIDで指定される概念表現と意味的に関連する同義表現グループに付与された同義表現グループIDのリスト(関連同義表現グループIDリスト)と、で構成されている。 A related expression list is registered in the concept expression thesaurus dictionary. As shown in FIG. 9, the related expression list is a list of concept expression IDs and concept expression IDs assigned to concept expressions that are semantically related to the concept expression specified by the concept expression ID (related concept expression ID list). And a list of synonym expression group IDs (related synonym expression group ID lists) assigned to synonym expression groups that are semantically related to the concept expression specified by the synonym expression group ID.
概念表現シソーラス辞書記憶部30では、前述の意図表現リスト、概念表現リスト、同義表現グループリスト、関連表現リストに基づいて、概念表現シソーラス辞書における概念表現間の同義表現関係、関連表現関係の情報を管理している。
The concept expression thesaurus
また、図5において、辞書検索部43は、指定受付部50を介して例えば「怒る」という概念表現が指定された場合、概念表現シソーラス辞書に登録された図7の概念表現リスト、図8の同義表現グループリスト、図9の関連表現リストに基づいて同義表現や関連表現を検索し、図10に示す同義表現(同義概念表現)及び関連表現(関連概念表現)を取得する。ここで、関連表現については、関連する概念表現だけでなく、関連する同義概念表現グループの情報を取得するようにしてもよい。
Further, in FIG. 5, when the conceptual expression “angry” is designated through the
次に、言語処理部42の構成を図11に示す。
Next, the configuration of the
図11において、言語処理部42は、文書データに対して形態素解析と係り受け解析を行う言語解析部420と、言語解析部420の解析結果に基づいて文書データのデータ構造を変換する文書データ構造生成部430と、文書データ構造生成部430で生成したデータ構造を利用して文書データに含まれる概念表現を抽出する概念表現抽出部440と、指定された概念表現を拡張した概念表現を文書データから抽出する拡張概念表現検索部450と、を有している。
In FIG. 11, a
ここで、言語解析部420では、形態素解析を行う場合、文書データ集合の文書データに含まれる単語を解析する。また、係り受け解析を行う場合、文書データに含まれる文、文節を解析し、文節間の関係として係りと受けの関係にある文節を解析する。例えば、「ソフトウェアのインストールが正常に実行できない。」という文に対して形態素解析及び係り受け解析を行い、図1に示す解析結果を取得する。
Here, when performing morphological analysis, the
文書データ構造生成部430では、言語解析部420の解析結果に基づいて各文書データを所定のデータ構造に変換する。ここでは、図12に示すように、「文書」、「文」、「文節」の木構造に変換している。また、データ構造の構成要素ごとに各種情報を付与する(図13に示す)。更に、図14に示すように、文書データに含まれる単語に対してユニークな識別子を付与した単語リストを生成する。ここで、文書データ構造生成部430は、単語リストの品詞情報や全体における出現頻度あるいは出現文書数を算出しておくこともできる。前記単語リスト、前記データ構造は、文書データ構造記憶部10が記憶して管理する。
The document data
図13に示すように、前記データ構造の構成要素としての「文書」(図13(a)に相当する)は、文書データに含まれる文IDリストを管理し、同じく「文」は自分の文IDと、自分の文に含まれる文節IDリストと、を管理する。同じく「文節」は自分の文節IDと、文節に含まれる単語の単語IDリストと、係り文節IDリストと、受け文節IDと、を管理する。ここで、単語IDは、図14の単語リストにおける単語IDである。係り文節IDリストは、当該文節を受けとする係り文節のIDである。前記例にもあるように、1つの受け文節に対して複数の文節が係り文節となり得るので、係り文節IDリストで管理する。受け文節IDは、当該文節が係り文節となる受け文節のIDである。係り文節は受け文節を1つしかとることができない。ここで、文節が管理する情報として、係り受けの関係の種類を保持することも可能である。例えば、連体修飾なのか連用修飾なのか、などである。また、文節を結ぶ助詞の種類により関係の種類を記述することもできる。 As shown in FIG. 13, the “document” (corresponding to FIG. 13A) as a component of the data structure manages a sentence ID list included in the document data, and “sentence” is the own sentence. It manages IDs and clause ID lists included in one's own sentence. Similarly, “Phrase” manages its own phrase ID, a word ID list of words included in the phrase, a related phrase ID list, and a received phrase ID. Here, the word ID is a word ID in the word list of FIG. The related phrase ID list is an ID of a related phrase that receives the relevant phrase. As in the above example, since a plurality of clauses can be related clauses for one received clause, they are managed by the related clause ID list. The received phrase ID is an ID of a received phrase that is a related phrase. A dependency clause can take only one receiving clause. Here, it is also possible to hold the type of dependency relationship as information managed by the clause. For example, whether the modification is a continuous modification or a continuous modification. In addition, the type of relationship can be described by the type of particles that connect phrases.
また、図13の意図タグリストは、単語あるいは文節に対して付加的な意味を表す意図タグのデータである。ここでは、文節内の付属語表現などから文書データ構造内の単語あるいは文節に対して付加的な意味を表す意図タグを付与する。この意図タグは、文節内の付属語などが特定の付加的な意味を表している場合に、その意味をタグとして文節に付加するものである。例えば、「打消」「要望」「可能」「疑問」の意味タグは、文節内に所定の単語が出現した場合にその文節に付加する。1つの文節に複数の意図タグがつくこともある。前記意図タグリストにおける意図タグIDの例を図15に示す。なお、概念表現では、例えば「(+打消+可能)」といった表現で意図タグをあらわす。意図タグは単独でも概念表現にもなるし、「実行(+可能+打消)」といったように単語に付加した形でも用いることができる。 In addition, the intention tag list in FIG. 13 is data of intention tags representing additional meanings for words or phrases. Here, an intention tag representing an additional meaning is given to a word or phrase in the document data structure from an attached word expression in the phrase. This intention tag is used to add a meaning to a clause as a tag when an attached word or the like in the clause represents a specific additional meaning. For example, the meaning tags “cancellation”, “request”, “possible”, and “question” are added to a phrase when a predetermined word appears in the phrase. Multiple intention tags may be attached to one clause. An example of the intention tag ID in the intention tag list is shown in FIG. In the concept expression, for example, an intention tag is represented by an expression “(+ cancellation + possible)”. An intention tag can be used alone or as a conceptual expression, or can be used in a form added to a word such as “execution (+ possible + cancellation)”.
また、図11において、概念表現抽出部440は、前記文書データ構造を利用して当該文書データに含まれる概念表現を抽出する際、前処理として予め特定のパターンの概念表現については、文書データに含まれる全種類を抽出しておき、抽出した全種類の情報を元にしてユーザが基本概念表現の探索を行えるようにする。ここでは、「1単語」、「2単語」、「3単語」、「1単語(+意図タグ)」、「意図タグ」の5種類について予め全種類を計算するものとする。概念表現の抽出の際には、その概念表現が出現する文書数、あるいは出現頻度も算出する。また、概念表現抽出部440は、概念表現シソーラス辞書の概念表現リストに登録されている概念表現も抽出し、その概念表現が出現する文書数、あるいは出現頻度も算出する。概念表現抽出部440により抽出された概念表現は、概念表現記憶部20に記憶する。なお、本実施形態で利用する概念表現の抽出方法は、前記特許文献1において詳述されている。
In FIG. 11, when the concept
拡張概念表現検索部450は、概念表現記憶部20を利用し、ユーザが指定した概念表現に対して、トークンのみで構成される概念表現の基本単位を1つ追加するパターンの概念表現と、指定された概念表現の末端の概念表現の基本単位の意図タグを追加するパターンの概念表現と、を抽出する。例えば、図1の「ソフトウェアのインストールが正常に実行できない」という文書データについて、「インストール⇒実行」という概念表現が指定された場合、図4の「拡張概念表現1」から「拡張概念表現4」を抽出する。
The extended concept
また、拡張概念表現検索部450は、同義表現グループ概念表現を指定して拡張概念表現検索を行うこともできる(請求項5)。同義表現グループ概念表現が指定された場合、同義表現グループに所属する概念表現すべてについて拡張概念表現検索を行い、その情報を1つにまとめることで拡張検索を行う。例えば、対象概念表現として同義表現グループ概念表現「怒る(同義)」が指定された場合、所属概念表現である、「怒る」「憤る」「頭⇒来る」「癪⇒障る」「腹⇒立つ」について拡張概念表現検索を行う。
Further, the extended concept
ここで、概念表現の基本単位を1つ追加する拡張検索の例を図16に示す。 Here, FIG. 16 shows an example of an extended search in which one basic unit of concept expression is added.
図16において、(A)は、同義表現グループ概念表現の所属概念表現に対する拡張概念表現検索の結果である。(B)は、(A)の結果を追加した概念表現の基本単位の位置をトークンで並べ替えたものである。(C)は、同義表現グループ概念表現の所属概念表現を同義表現グループラベルで置き換えたものである。(D)は、(C)において同じ概念表現のものをまとめたものである。ここでは、拡張概念表現検索部450の拡張検索の結果として(D)を抽出する。なお、出現頻度が必要な場合は、同じ概念表現をまとめる際にそれぞれの出現頻度の和を計算する。
In FIG. 16, (A) shows the result of the extended concept expression search for the belonging concept expression of the synonymous expression group concept expression. (B) is the result of rearranging the positions of the basic units of the conceptual expression to which the result of (A) is added, by tokens. (C) is obtained by replacing the belonging concept expression of the synonym expression group concept expression with the synonym expression group label. (D) is a summary of the same conceptual representation in (C). Here, (D) is extracted as a result of the extended search by the extended concept
次に、指定された概念表現の末端の概念表現基本単位の意図タグを追加する拡張検索の例を図17に示す。 Next, FIG. 17 shows an example of an extended search for adding an intention tag of a concept expression basic unit at the end of a specified concept expression.
図17において、(A)は、同義表現グループ概念表現の所属概念表現に対する拡張概念表現検索の結果である。(B)は、(A)の結果を追加した意図タグで並べ替えたものである。(C)は、同義表現グループ概念表現の所属概念表現を同義表現グループラベルで置き換えたものである。(D)は、(C)において同じ概念表現のものをまとめたものである。ここでは、拡張概念表現検索部450の拡張検索の結果として(D)を抽出する。なお、出現頻度が必要な場合は、同じ概念表現をまとめる際にそれぞれの出現頻度の和を計算する。
In FIG. 17, (A) shows the result of the extended concept expression search for the belonging concept expression of the synonymous expression group concept expression. (B) is the result of rearranging the result of (A) with the added intention tag. (C) is obtained by replacing the belonging concept expression of the synonym expression group concept expression with the synonym expression group label. (D) is a summary of the same conceptual representation in (C). Here, (D) is extracted as a result of the extended search by the extended concept
更に、図16、図17の拡張検索を併せた場合の検索結果を図18に示す。 Further, FIG. 18 shows a search result when the extended search of FIGS. 16 and 17 is combined.
拡張概念表現検索部450は、前述のように概念表現の基本単位を1つ追加する拡張検索と、指定された概念表現の末端の概念表現基本単位の意図タグを追加する拡張検索と、を行い、双方の検索結果を合わせて図18の最終的な拡張概念表現の検索結果を取得する。
As described above, the extended concept
次に、概念表現抽出部440の構成を図19に示す。
Next, the configuration of the concept
図19において、概念表現抽出部440は、トークン抽出部441と、意図表現抽出部442と、概念表現基本単位間関係抽出部443と、概念表現生成部444と、概念表現基本単位生成部445と、を有している。概念表現基本単位生成部445は、トークン抽出部441と意図表現抽出部442からそれぞれ、トークンと意図表現を受け取り、これらに基づいて概念表現の基本単位を生成する。
In FIG. 19, the concept
ここで、概念表現生成部444は、概念表現シソーラス辞書の同義表現グループを1つの概念表現(同義表現グループ概念表現)として抽出し、概念表現記憶部20に登録する。この同義表現グループ概念表現は、対応する同義表現グループに所属する概念表現を1つに(同義表現グループラベルごとに)まとめたものであり、同義表現グループ概念表現の出現頻度は所属する概念表現の出現頻度の和(もしくは集合和)で表現している。例えば、図7の概念表現リスト、図8の同義表現グループリスト、図9の関連表現リストの情報に基づいて、図20に示す同義表現グループ概念表現を生成する。
Here, the concept
以上のように構成された文書処理装置1について、図21を用いてその同義表現検索の手順を説明する。
The
文書処理部40において、辞書検索部43は、指定受付部50を介して指定された概念表現が概念表現シソーラス辞書の概念表現リストに登録されているかを調べ(S101、S102)、登録されていれば概念表現IDを取得して(S103)、S104へ進み、登録されていなければ処理を終了する。
In the
次いで、辞書検索部43は、S104で取得した同義表現グループIDに基づいて、同義表現グループリストに登録されている同義表現グループに対し、所属概念表現IDリストにS103で取得した概念表現IDを含むかどうかを調べ(S105)、含んでいたら同義表現グループIDを取得する(S106)。
Next, the
この後、辞書検索部43は、同義表現グループリストに登録されているすべての同義表現グループに対して、S105、S106の処理を行う(S107、S108)
次に、前述のように構成された文書処理装置1について、図22を用いてその関連表現検索の手順を説明する。
Thereafter, the
Next, the related expression search procedure for the
文書処理部40において、辞書検索部43は、指定受付部50を介して指定された概念表現が概念表現シソーラス辞書の概念表現リストに登録されているかを調べ(S201、S202)、登録されていれば概念表現IDを取得し(S203)、S204へ進み、登録されていなければ処理を終了する。
In the
S204において、辞書検索部43は、関連表現リストにおいて、S203で取得した概念表現IDと同じ概念表現IDを探し、見つかったら、その概念表現IDに対応する関連概念表現IDリストと関連同義表現グループIDリストを取得する(S205、S206)。
In S204, the
次いで、辞書検索部43は、関連同義表現グループIDリストに未処理の関連同義表現グループIDがある場合には、関連同義表現グループIDに所属する概念表現IDを関連概念表現IDリストに追加する(S207、S208)。この後、関連同義表現グループIDリストのすべての同義表現グループに対してS206〜S208の処理が行われると、同義表現検索を終了する。
Next, when there is an unprocessed related synonym expression group ID in the related synonym expression group ID list, the
次に、前述のように構成された文書処理装置1について、図23を用いてその同義表現グループ概念表現の生成手順を説明する。
Next, a procedure for generating the synonym expression group conceptual expression for the
概念表現抽出部440において、概念表現生成部444は、概念表現シソーラス辞書の同義表現グループリストに登録されている1つの同義表現グループの所属概念表現IDリストを取得する(S301)。
In the concept
次いで、概念表現生成部444は、その所属概念表現IDリストにある概念表現が、概念表現記憶部20に登録されているかを調べる(S302)。ここで、所属概念表現IDリストにある概念表現が1つ以上登録されていれば、その概念表現に対応する同義表現グループを同義表現グループ概念表現として概念表現記憶部20に登録する(S303)。
この後、概念表現生成部444は、S301からS303の処理を概念表現シソーラス辞書の同義表現グループリストに登録されているすべての同義表現グループに対して行う(S304)。
Next, the concept
Thereafter, the concept
ここで、概念表現表示部44の概念表現表示例を図24から図26に示す。
Here, examples of the concept expression display of the concept
概念表現表示部44は、指定受付部50を介して受け付け入力されたユーザの指定に基づいて、言語処理部42で抽出された概念表現をディスプレイ60の画面に表示させる。この画面において、ユーザは図24の基本概念表現ブラウザ61により、例えば抽出された概念表現を参照、あるいは拡張概念表現検索結果を参照することで概念表現を探索するようになっている。図24において、基本概念表現ブラウザ61には、基本概念表現表示領域65と、拡張概念表現表示領域66、67と、カテゴリリスト表示領域62と、ワークスペース63と、テキストブラウザ64と、が設定されている。基本概念表現表示領域65には、基本概念表現と、この基本概念表現が含まれている文書データの数を記す出現文書数と、この基本概念表現の品詞が表示される。拡張概念表現表示領域66、67には、基本概念表現表示領域65に表示される概念表現のうち、ユーザから指定された概念表現に基づいて生成された拡張概念表現が表示される。カテゴリリスト表示領域62、ワークスペース63には、文書カテゴリ生成部92(図29に示す)によって生成された文書カテゴリのカテゴリリストが表示される。ワークスペース63には、文書カテゴリがグラフィカル表示される。テキストブラウザ64には、文書カテゴリ生成部92によって生成された文書カテゴリに分配された文書データが表示される。また、対象カテゴリ指定の入力欄68に、ユーザの指定操作に基づいて対象となるカテゴリが入力されると、このカテゴリに所属する文書データで構成される文書集合に含まれる概念表現が表示される。また、概念表現表示部44は、ユーザの指定に基づいて、図25に示すように同義表現グループの概念表現としてラベルだけをディスプレイ60の画面に表示させる。同じく、図26に示すように同義表現グループのラベルと所属概念表現を表示する。
The concept
このような本発明の第1の実施形態に係る文書処理装置1によれば、文書に含まれる文節情報から抽出されたトークンと意図表現の組み合わせで文書に含まれる概念を表現し、更に文節間の関係情報に基づいて複数の概念表現の関係を表現し、トークンと意図表現の組み合わせによる概念表現及び概念表現間の関係に基づいて文書データを処理する構成において、処理対象となる文書データの集合を取得する文書データ取得部41(文書データ取得手段に相当する)と、ここで取得された文書データに対して言語解析処理を行い、文書データに含まれる概念表現を抽出する言語処理部42(言語処理手段に相当する)と、ここで抽出された概念表現を表示する概念表現表示部44及びディスプレイ60(概念表現表示手段に相当する)と、文書に含まれる概念を表現した概念表現を登録する概念表現シソーラス辞書を記憶する概念表現シソーラス辞書記憶部30(概念表現シソーラス辞書記憶手段に相当する)と、概念表現シソーラス辞書から概念表現を検索する辞書検索部43(辞書検索手段に相当する)と、を備えた構成を有している。この構成は、請求項1、請求項7に係る本発明の実施の一形態に相当する。
According to the
この構成により、従来の単語間の意味的な関係ではなく、複数の単語で表現される概念間の意味的な関係を概念表現シソーラス辞書として利用することができるので、テキストデータ分析における統計分析の精度向上、あるいは文書検索の精度向上に役立つ。例えば、言語処理部42により抽出された概念表現を、辞書検索部43が概念表現シソーラス辞書から検索することで、容易に同義の概念表現に係る文書を取得することができる。また、概念表現表示部44は、文書データから抽出された概念表現をディスプレイ60の画面に表示するので、ユーザは容易にその概念表現を確認することができ、使い勝手が向上する。
With this configuration, it is possible to use a semantic relationship between concepts expressed by a plurality of words, rather than a conventional semantic relationship between words, as a concept expression thesaurus dictionary. Useful for improving accuracy or document search accuracy. For example, the
また、本実施形態によれば、概念表現シソーラス辞書に登録されている同義の概念表現グループに基づいて一の概念表現を抽出する概念表現抽出部440(概念表現抽出手段に相当する)と、概念表現抽出部440により抽出された同義表現グループ概念表現を表示する概念表現表示部44及びディスプレイ60(概念表現表示手段に相当する)と、を備えた構成を有している。この構成は、請求項3、請求項9に係る本発明の実施の一形態に相当する。
Further, according to the present embodiment, a concept expression extraction unit 440 (corresponding to a concept expression extraction unit) that extracts one concept expression based on synonymous concept expression groups registered in the concept expression thesaurus dictionary, and a concept It has a configuration provided with a concept
この構成により、同義表現グループに所属する概念表現に対応する文書の検索精度が高まる。また、概念表現表示部44は、同義表現グループ概念表現をディスプレイ60の画面に表示させるので、ユーザの使い勝手が向上する。
With this configuration, the search accuracy of documents corresponding to concept expressions belonging to the synonym expression group is increased. Moreover, since the conceptual
また、本実施形態によれば、概念表現シソーラス辞書に登録されている概念表現を拡張した拡張概念表現を検索するために、文書データの集合に含まれる概念表現を指定するための指定受付部50、概念表現表示部44及びディスプレイ60(拡張概念表現指定手段に相当する)と、この指定に基づいて、概念表現シソーラス辞書に登録されている指定された概念表現を検索して一の同義概念表現にまとめ、処理対象となる文書データの集合から前記一の同義概念表現を検索する拡張概念表現検索部450(拡張概念表現検索手段に相当する)と、を備え、概念表現表示部44は、拡張概念表現検索部450の検索結果をディスプレイ60の画面に表示させるようにした構成を有している。この構成は、請求項5、請求項11に係る本発明の実施の一形態に相当する。
In addition, according to the present embodiment, the
この構成により、概念表現シソーラス辞書を用い、ユーザの指定に基づいて拡張概念表現検索を行い、更に拡張概念表現検索の結果をディスプレイ60の画面に表示させるので、ユーザの使い勝手が向上する。
With this configuration, the concept expression thesaurus dictionary is used to perform an extended concept expression search based on the user's specification, and the result of the extended concept expression search is displayed on the screen of the
なお、前述した実施形態では図示していないが、本発明の文書処理装置1をパーソナルコンピュータ(例えば、CPU、RAM、ROM、HDDなどの記憶部、通信部、液晶ディスプレイなどの表示部、キーボード、ポインティングデバイスなどの操作部を有する)で構成し、パーソナルコンピュータを前述の文書データ取得手段、言語処理手段、概念表現表示手段、概念表現シソーラス辞書記憶手段、辞書検索手段、概念表現抽出手段、拡張概念表現指定手段、拡張概念表現検索手段として機能させるようにしても同様の効果が得られるものである。また、図21から図23に示す処理手順、前述の文書データ取得手段、言語処理手段、概念表現表示手段、概念表現シソーラス辞書記憶手段、辞書検索手段、概念表現抽出手段、拡張概念表現指定手段、拡張概念表現検索手段の行う処理手順を前記パーソナルコンピュータに実行させるためのプログラムを前記記憶部に記憶するようにしてもよい。
Although not shown in the above-described embodiment, the
[第2の実施形態]
次に、本発明の第2の実施形態に係る文書処理装置を図27に示す。これは、第1の実施形態とは、概念表現シソーラス辞書を用い、指定された概念表現の同義表現、関連表現を検索して検索結果を表示するようにした点が相異している。なお、第1の実施形態と同一構成には同一符号を付与して説明を一部省略する。
[Second Embodiment]
Next, a document processing apparatus according to the second embodiment of the present invention is shown in FIG. This is different from the first embodiment in that a concept expression thesaurus is used to search for synonymous expressions and related expressions of a specified concept expression and display a search result. In addition, the same code | symbol is provided to the same structure as 1st Embodiment, and description is abbreviate | omitted partially.
図27において、辞書検索結果表示部45は、指定受付部50を介して受け付け入力された、概念表現の指定に基づいて辞書検索部43により検索された前記概念表現の同義表現、関連表現をディスプレイ60の画面に表示させるものである。
In FIG. 27, the dictionary search
ここで、辞書検索ダイアログ例を図28に示す。 Here, FIG. 28 shows an example of a dictionary search dialog.
例えば、ユーザの操作に基づいて指定受付部50を介し、ディスプレイ60に表示した関連表現検索画面70の検索対象概念表現の入力欄71に概念表現(例えば「怒る」)が入力され、更に検索ボタン72が指示入力されると、辞書検索部43は、前述したように概念表現シソーラス辞書から同義表現、関連表現を検索する。辞書検索結果表示部45は、辞書検索部43の検索結果に基づいて、所定の検索結果欄73、74に検索結果を表示させる。なお、図28(a)の関連表現検索画面70においては、関連表現検索結果の同義表現グループをラベルのみで表示している。また、図28(b)の関連表現検索画面70においては、関連表現検索結果の同義表現グループをラベルと所属概念表現で表示している。本実施形態に限らず、概念表現の指定は、ディスプレイ60に表示されている概念表現を選択することで指定するようにしてもよい。
For example, a concept expression (for example, “get angry”) is input into the search target concept
このような本発明の第2の実施形態に係る文書処理装置1によれば、概念表現シソーラス辞書に登録されている、同義の概念表現及び同義ではないが意味的に関連する概念表現を検索するために、文書データの集合に含まれる概念表現を指定するための指定受付部50、辞書検索結果表示部45及びディスプレイ60(同義関連概念表現指定手段に相当する)と、前記同義の概念表現及び前記関連する概念表現の検索結果を表示する辞書検索結果表示部45及びディスプレイ60(同義関連概念表現表示手段に相当する)と、を備え、辞書検索部43は、指定受付部50を介しての指定に基づいて、概念表現シソーラス辞書に登録されている前記同義の概念表現及び前記関連する概念表現を検索し、辞書検索結果表示部45は、辞書検索部43の検索結果をディスプレイ60の画面に表示させるようにした構成を有している。この構成は、請求項4、請求項10に係る本発明の実施の一形態に相当する。
According to the
この構成により、ユーザに指定された概念表現の同義表現、関連表現を概念表現シソーラス辞書から検索し、ディスプレイ60の画面に表示するので、ユーザの使い勝手が向上する。
With this configuration, synonymous expressions and related expressions of the concept expression designated by the user are retrieved from the concept expression thesaurus dictionary and displayed on the screen of the
なお、前述した実施形態では図示していないが、本発明の文書処理装置1をパーソナルコンピュータ(例えば、CPU、RAM、ROM、HDDなどの記憶部、通信部、液晶ディスプレイなどの表示部、キーボード、ポインティングデバイスなどの操作部を有する)で構成し、パーソナルコンピュータを前述の同義関連概念表現指定手段、同義関連概念表現表示手段として機能させるようにしても同様の効果が得られるものである。
Although not shown in the above-described embodiment, the
[第3の実施形態]
次に、本発明の第3の実施形態に係る文書処理装置を図29に示す。これは、第1の実施形態とは、例えば、文書カテゴリ生成部92によって文書カテゴリを生成し、生成した文書カテゴリを文書カテゴリ表示部94によって表示させるようにした点が相異している。なお、第1の実施形態と同一構成には同一符号を付与して説明を一部省略する。
[Third Embodiment]
Next, FIG. 29 shows a document processing apparatus according to the third embodiment of the present invention. This is different from the first embodiment in that, for example, a document category is generated by the document
ここで、文書カテゴリとは、所属文書の基準となるカテゴリ定義を持ち、定義に基づいて集められた文書をメンバーとする文書グループである。この文書カテゴリを文書カテゴリ記憶部80が記憶、管理するための情報を図30に示す。図30に示すように、文書カテゴリは、カテゴリID 、カテゴリ定義、所属文書IDリスト、所属文書数、カテゴリラベルによって管理されている。なお、カテゴリラベルはユーザに入力を求めるようにしてもよい。また、カテゴリ定義は、カテゴリID、所属文書IDリスト、所属文書数、カテゴリラベルとは別途管理している。
Here, the document category is a document group having a category definition as a reference for the belonging document and having a document collected based on the definition as a member. FIG. 30 shows information for the document
図29において、文書処理部40は、前述の文書カテゴリを生成する文書カテゴリ生成部92と、文書カテゴリ生成部92により生成された文書カテゴリをシソーラス辞書に登録する辞書登録部91と、文書カテゴリ生成部92により生成された文書カテゴリを記憶する文書カテゴリ記憶部80と、文書カテゴリ生成部92により生成された文書カテゴリをディスプレイ60に表示させる文書カテゴリ表示部94と、指定された概念表現を含む文書データを生成する文書データ生成部93と、文書データ生成部93により生成された文書データをディスプレイ60に表示させる文書データ表示部95と、を有している。
29, the
ここで、文書カテゴリ生成部92は、概念表現カテゴリ、複合カテゴリ、データID指定カテゴリの3種類の文書カテゴリを生成する。
Here, the document
まず、概念表現カテゴリは、概念表現を定義するカテゴリである。ユーザは、概念表現表示部44によってディスプレイ60に表示させた所定の画面から概念表現を指定し、文書カテゴリを生成することができる。例えば、前記所定の画面からカテゴリ化の操作がユーザにより行われ、指定受付部50を介して概念表現が指定入力された場合、文書カテゴリ生成部92は、指定された概念表現をカテゴリ定義とし、その概念表現を含むフィールドデータを持つ文書を所属メンバーとする文書カテゴリを生成する。文書カテゴリ生成部92は、文書データ構造記憶部10に記憶されている文書データ構造に基づいて、指定された概念表現を含む文書データを抽出し、その文書データを文書カテゴリの所属文書とする。
First, the concept expression category is a category that defines a concept expression. The user can generate a document category by designating a concept expression from a predetermined screen displayed on the
また、複合カテゴリは、既存のカテゴリの論理式を定義するカテゴリである。ユーザは、概念表現表示部44によってディスプレイ60に表示させた所定の画面に対し、所定の操作を行うことで複合カテゴリを作成することができる。例えば、ユーザが図24に示すカテゴリリスト62、ワークスペース63に対する操作を行い、既存のカテゴリの組み合わせを指定することで複合カテゴリを生成することができる。カテゴリの組み合わせは、既存カテゴリのカテゴリIDの論理演算式で表すことができる。本実施形態では、複合カテゴリとして、「複合ANDカテゴリ」、「複合ORカテゴリ」、「複合NOTカテゴリ」を生成することができるものとする。
The composite category is a category that defines a logical expression of an existing category. The user can create a composite category by performing a predetermined operation on a predetermined screen displayed on the
複合ANDカテゴリは、指定されたカテゴリIDのANDをとるカテゴリである。例えば、「カテゴリ1」、「カテゴリ3」、「カテゴリ5」が指定されている場合、複合ANDカテゴリのカテゴリ定義は「1AND3AND5」となり、所属テキストは3つのカテゴリの所属テキスト集合の積集合となる。
The composite AND category is a category that takes an AND of designated category IDs. For example, when “
複合ORカテゴリは、指定されたカテゴリIDのORをとるカテゴリである。例えば、
「カテゴリ1」、「カテゴリ3」、「カテゴリ5」が指定されている場合、複合ORカテゴリのカテゴリ定義は「1OR3OR5」となり、所属テキストは3つのカテゴリの所属テキスト集合の和集合となる。
The compound OR category is a category that takes OR of designated category IDs. For example,
When “
複合NOTカテゴリは、指定されたカテゴリIDのNOTをとるカテゴリである。例えば、「カテゴリ1」、「カテゴリ3」、「カテゴリ5」が指定されている場合、複合NOTカテゴリのカテゴリ定義は「NOT(1OR3OR5)」となり、所属テキストは3つのカテゴリの所属テキスト集合の和集合の否定となる。
The composite NOT category is a category that takes a NOT of a specified category ID. For example, when “
更に、データID指定カテゴリは、文書IDリストを定義するカテゴリである。本実施形態では、ユーザが任意に作成できるものではない。しかし、ユーザが文書IDを指定することでデータID指定カテゴリを生成できるようにしてもよい。但し、この場合、カテゴリ定義の再利用は同じ対象文書集合内でのみ有効であり、他の対照文書集合に対する再利用、再適用はできないようにする必要がある。すべての定義を再利用可能にするためには、データID指定カテゴリはユーザが作成できないようにした方がよい。 Furthermore, the data ID designation category is a category that defines a document ID list. In this embodiment, a user cannot create arbitrarily. However, the data ID designation category may be generated by the user designating the document ID. However, in this case, the reuse of the category definition is effective only within the same target document set, and it is necessary to prevent reuse and re-application to other contrast document sets. In order to make all the definitions reusable, it is better that the user cannot create the data ID designation category.
また、図29において、文書カテゴリ表示部94では、文書カテゴリ生成部92により生成された文書カテゴリを表示する場合、例えば、図24に示すカテゴリリスト62のようなリスト表示、あるいはワークスペース63のようなグラフィカル表示とする。
In FIG. 29, when the document
文書データ表示部95は、ユーザが指定した概念表現を含む文書データを表示する場合、例えば、ディスプレイ60の所定の画面上に図24に示すデータブラウザ64を表示させる。ここでは、言語処理部42の概念表現抽出部440が、文書データ構造記憶部10に記憶されている文書データ構造に基づいて、指定された概念表現を含む文書データを抽出し、文書データ表示部95がディスプレイ60画面上のデータブラウザ64に、概念表現抽出部440により抽出された文書データを表示させる。
The document
また、文書データ表示部95は、文書カテゴリ表示部94がディスプレイ60に表示させた画面上でユーザが指定したカテゴリに属する文書を、ディスプレイ60の画面に表示させることができる。ここでは、文書データ生成部93が、文書カテゴリ記憶部80に記憶されているカテゴリ情報(図30に示す)に基づいて、所属文書IDリストから指定されたカテゴリ(カテゴリ定義)に属する文書IDを検出し、文書データ構造記憶部10に記憶されている文書データ構造に基づいて、検出した文書IDに対応する文書データを抽出する。文書データ表示部95は、文書データ生成部93により抽出された文書データをディスプレイ60画面上に表示させる。
Further, the document
以上のように構成された文書処理装置1について、図31を用いてその辞書登録の手順を説明する。ここでは、文書カテゴリのうち、複合OR文書カテゴリを概念表現シソーラス辞書に登録する場合を示す。
A dictionary registration procedure for the
文書処理部40において、辞書登録部91は、指定受付部50を介して指定された、登録対象となる文書カテゴリを入力する(S401)。
In the
次いで、辞書登録部91は、指定された文書カテゴリが複合ORカテゴリであるかを判断し(S402)、複合ORカテゴリでない場合は処理を終了する。ここで、指定された文書カテゴリが複合ORカテゴリである場合、辞書登録部91は、指定受付部50を介して指定された登録種別を入力する(S403)。
Next, the
次いで、辞書登録部91は、指定された登録種別に基づいて、文書カテゴリを「関連表現」として登録するか、「同義表現」として登録するかを判断する(S404)。ここで、「同義表現」として登録する場合はS405に進み、「関連表現」として登録する場合にはS410に進む。
Next, the
S405(同義表現登録)において、辞書登録部91は、対象文書カテゴリの構成メンバーであるカテゴリのうち、すべての基本概念表現カテゴリに対してカテゴリ定義である概念表現を取得し、概念表現シソーラス辞書において、取得した概念表現が含まれている同義表現グループを検索する。
In S405 (synonymous expression registration), the
次いで、辞書登録部91は、指定受付部50を介して指定された、登録対象となる同義表現グループの情報を入力する(S406)。更に、登録対象となる同義表現グループの指定に基づいて、辞書登録部91は、登録対象となる文書カテゴリの情報を、新規の同義表現グループとして登録するのか、それとも同義表現グループ検索で検索された既存の同義表現グループのどれか1つに登録するのかを判断する(S407)。ここで、新規の同義表現グループとして登録する場合は、新規同義表現グループ生成処理(S408)に進み、既存同義表現グループとして登録する場合には、同義表現登録処理(S409)に進む。
Next, the
新規同義表現グループ生成処理(S408)において、辞書登録部91は、概念表現シソーラス辞書に新規同義語表現グループを作成する。この際、カテゴリラベルとして登録対象カテゴリのものを入力してもよいし、ユーザに指定させてもよい。所属概念表現IDリストには何も登録しない。
In the new synonym expression group generation process (S408), the
同義表現登録処理(S409)において、辞書登録部91は、登録対象となる文書カテゴリの構成メンバーであるカテゴリのうち、すべての基本概念表現カテゴリに対してカテゴリ定義である概念表現を取得し、取得した概念表現が概念表現シソーラス辞書の概念表現リストに登録されているかを調べ、登録されていたらその概念表現IDを取得し、登録されていない概念表現にはユニークなIDを付与して新たに概念表現シソーラス辞書の概念表現リストに登録し、登録した概念表現IDを取得する。
In the synonym expression registration process (S409), the
更に、同義表現登録処理(S409)において、辞書登録部91は、登録対象となる同義表現グループの所属概念表現IDリストに、取得した概念表現IDを追加する。ここで、所属概念表現IDリストにIDの重複がある場合は、それを解消する。
Further, in the synonym expression registration process (S409), the
また、文書カテゴリを「関連表現」として登録すると判断した場合(S404)、関連表現登録処理(S410)において、辞書登録部91は、登録対象となる文書カテゴリの構成メンバーであるカテゴリのうち、すべての基本概念表現カテゴリに対してカテゴリ定義である概念表現を取得し、取得した概念表現が概念表現シソーラス辞書の概念表現リストに登録されているかを調べ、登録されていたらその概念表現IDを取得し、登録されていない場合はその概念表現にユニークなIDを付与して概念表現シソーラス辞書の概念表現リストに登録し、登録した概念表現IDを取得する。
When it is determined that the document category is registered as “related expression” (S404), in the related expression registration process (S410), the
更に、関連表現登録処理(S410)において、辞書登録部91は、取得した概念表現IDすべてに対して、概念表現シソーラス辞書の関連表現リストの対応する概念表現IDの関連概念表現IDリストに、取得した概念表現IDのうち、自分を除いたすべての概念表現IDを追加する。ここで、関連概念表現IDリストにIDの重複がある場合は、それを解消する。
Further, in the related expression registration process (S410), the
このような本発明の第3の実施形態に係る文書処理装置1によれば、文書データ取得部41により取得された文書データの集合に含まれる概念表現を指定するための指定受付部50及び概念表現表示部44(概念表現指定手段に相当する)と、ここで指定された概念表現をカテゴリ定義とし、文書データの集合から、前記カテゴリ定義に基づいて文書グループを生成し、文書カテゴリとする文書カテゴリ生成部92(文書カテゴリ生成手段に相当する)と、文書カテゴリ生成部92により生成された文書カテゴリを表示する文書カテゴリ表示部94及びディスプレイ60(文書カテゴリ表示手段に相当する)と、を備えた構成を有している。この構成は、請求項2、請求項8に係る本発明の実施の一形態に相当する。
According to the
この構成により、ユーザは指定受付部50を介してディスプレイ60の画面上から所望のカテゴリ定義としての概念表現を指定し、このカテゴリ定義に基づいて生成された文書グループを前記画面上で確認することができるので、ユーザの使い勝手が向上する。
また、本実施形態によれば、文書カテゴリ生成部92により生成された文書カテゴリに基づいて、新たな概念表現を概念表現シソーラス辞書に登録する辞書登録部91(辞書登録手段に相当する)を備えた構成を有している。この構成は、請求項6、請求項12に係る本発明の実施の一形態に相当する。
With this configuration, the user designates a conceptual expression as a desired category definition from the screen of the
Further, according to the present embodiment, a dictionary registration unit 91 (corresponding to a dictionary registration unit) that registers a new concept expression in the concept expression thesaurus dictionary based on the document category generated by the document
この構成により、文書カテゴリ生成部92により生成された文書カテゴリの情報を概念表現シソーラス辞書に登録することができるので、この概念表現シソーラス辞書を用いたテキストデータ分析や文書検索の精度が向上する。
With this configuration, the document category information generated by the document
なお、前述した実施形態では図示していないが、本発明の文書処理装置1をパーソナルコンピュータ(例えば、CPU、RAM、ROM、HDDなどの記憶部、通信部、液晶ディスプレイなどの表示部、キーボード、ポインティングデバイスなどの操作部を有する)で構成し、パーソナルコンピュータを前述の概念表現指定手段、文書カテゴリ生成手段、文書カテゴリ表示手段、辞書登録手段として機能させるようにしても同様の効果が得られるものである。また、図31に示す処理手順、前述の概念表現指定手段、文書カテゴリ生成手段、文書カテゴリ表示手段、辞書登録手段の行う処理手順を前記パーソナルコンピュータに実行させるためのプログラムを前記記憶部に記憶するようにしてもよい。
Although not shown in the above-described embodiment, the
1 文書処理装置
10 文書データ構造記憶部
20 概念表現記憶部
30 概念表現シソーラス辞書記憶部
40 文書処理部
41 文書データ取得部
42 言語処理部
43 辞書検索部
44 概念表現表示部
50 指定受付部
60 ディスプレイ
DESCRIPTION OF
Claims (12)
処理対象となる文書データの集合を取得する文書データ取得手段と、
前記文書データ取得手段により取得された文書データに対して言語解析処理を行い、文書データに含まれる概念表現を抽出する言語処理手段と、
前記言語処理手段により抽出された概念表現を表示する概念表現表示手段と、
前記文書に含まれる概念を表現した概念表現を登録する概念表現シソーラス辞書を記憶する概念表現シソーラス辞書記憶手段と、
前記概念表現シソーラス辞書から概念表現を検索する辞書検索手段と、
を備えたことを特徴とする文書処理装置。 A concept included in a document is expressed by a combination of a token and an intention expression extracted from clause information included in the document, and a relationship between a plurality of concept expressions is expressed based on relationship information between clauses. A document processing apparatus for processing document data based on a concept expression by a combination of the above and a relationship between the concept expressions,
Document data acquisition means for acquiring a set of document data to be processed;
Language processing means for performing language analysis processing on the document data acquired by the document data acquisition means, and extracting a concept expression included in the document data;
Concept expression display means for displaying the concept expression extracted by the language processing means;
A concept expression thesaurus dictionary storing means for storing a concept expression thesaurus dictionary for registering a concept expression expressing the concept included in the document;
Dictionary search means for searching for a concept expression from the concept expression thesaurus dictionary;
A document processing apparatus comprising:
前記文書データ取得手段により取得された文書データの集合に含まれる概念表現を指定するための概念表現指定手段と、
前記概念表現指定手段により指定された概念表現をカテゴリ定義とし、文書データの集合から、前記カテゴリ定義に基づいて文書グループを生成し、文書カテゴリとする文書カテゴリ生成手段と、
前記文書カテゴリ生成手段により生成された文書カテゴリを表示する文書カテゴリ表示手段と、
を備えたことを特徴とする文書処理装置。 The document processing apparatus according to claim 1,
A concept expression specifying means for specifying a concept expression included in a set of document data acquired by the document data acquiring means;
A document category generation unit that generates a document group based on the category definition from a set of document data, using the concept representation designated by the concept representation designation unit as a category definition;
Document category display means for displaying the document category generated by the document category generation means;
A document processing apparatus comprising:
前記概念表現シソーラス辞書に登録されている同義の概念表現グループに基づいて一の概念表現を抽出する概念表現抽出手段と、
前記概念表現抽出手段により抽出された同義表現グループ概念表現を表示する概念表現表示手段と、
を備えたことを特徴とする文書処理装置。 The document processing apparatus according to claim 1 or 2,
A concept expression extracting means for extracting one concept expression based on synonymous concept expression groups registered in the concept expression thesaurus dictionary;
Concept expression display means for displaying the synonymous expression group concept expression extracted by the concept expression extraction means;
A document processing apparatus comprising:
前記概念表現シソーラス辞書に登録されている、同義の概念表現及び同義ではないが意味的に関連する概念表現を検索するために、文書データの集合に含まれる概念表現を指定するための同義関連概念表現指定手段と、前記同義の概念表現及び前記関連する概念表現の検索結果を表示する同義関連概念表現表示手段と、を備え、
前記辞書検索手段は、前記同義関連概念表現指定手段の指定に基づいて、前記概念表現シソーラス辞書に登録されている前記同義の概念表現及び前記関連する概念表現を検索し、前記同義関連概念表現表示手段は、前記辞書検索手段の検索結果を表示するようにしたことを特徴とする文書処理装置。 The document processing apparatus according to any one of claims 1 to 3,
Synonymous related concepts for specifying conceptual expressions included in a set of document data in order to search synonymous conceptual expressions and conceptual expressions that are not synonymous but semantically related, registered in the conceptual expression thesaurus dictionary An expression designating means; and a synonym related concept expression display means for displaying a search result of the synonymous concept expression and the related concept expression,
The dictionary search means searches for the synonymous concept expression and the related concept expression registered in the concept expression thesaurus dictionary based on the designation of the synonym related concept expression designation means, and displays the synonym related concept expression display The document processing apparatus is characterized in that the means displays the search result of the dictionary search means.
前記概念表現シソーラス辞書に登録されている概念表現を拡張した拡張概念表現を検索するために、文書データの集合に含まれる概念表現を指定するための拡張概念表現指定手段と、前記拡張概念表現指定手段の指定に基づいて、前記概念表現シソーラス辞書に登録されている指定された概念表現を検索して一の同義概念表現にまとめ、前記文書データの集合から前記一の同義概念表現を検索する拡張概念表現検索手段と、を備え、
前記概念表現表示手段は、前記拡張概念表現検索手段の検索結果を表示するようにしたことを特徴とする文書処理装置。 The document processing apparatus according to any one of claims 1 to 4, wherein:
In order to search for an extended concept expression obtained by extending the concept expression registered in the concept expression thesaurus dictionary, an extended concept expression specifying means for specifying a concept expression included in a set of document data, and the extended concept expression specification An extension for searching for the specified syntactic concept registered in the concept expression thesaurus dictionary based on the designation of the means, collecting it into a synonymous concept expression, and searching for the synonymous concept expression from the set of document data A concept expression search means,
The document processing apparatus, wherein the concept expression display means displays a search result of the extended concept expression search means.
前記文書カテゴリ生成手段により生成された文書カテゴリに基づいて、新たな概念表現を前記概念表現シソーラス辞書に登録する辞書登録手段を備えたことを特徴とする文書検索装置。 The document processing apparatus according to any one of claims 2 to 5,
A document search apparatus comprising: a dictionary registration unit that registers a new concept expression in the concept expression thesaurus dictionary based on the document category generated by the document category generation unit.
処理対象となる文書データの集合を取得する文書データ取得手順と、
前記文書データ取得手順により取得された文書データに対して言語解析処理を行い、文書データに含まれる概念表現を抽出する言語処理手順と、
前記言語処理手順により抽出された概念表現を表示する概念表現表示手順と、
前記概念表現シソーラス辞書から概念表現を検索する辞書検索手順と、
を実行することを特徴とする文書処理方法。 A concept included in a document is expressed by a combination of a token and an intention expression extracted from clause information included in the document, and a relationship between a plurality of concept expressions is expressed based on relationship information between clauses. A document processing method for processing document data using a concept expression thesaurus that registers a concept expression by a combination of and a relationship between concept expressions,
A document data acquisition procedure for acquiring a set of document data to be processed;
A language processing procedure for performing a language analysis process on the document data acquired by the document data acquisition procedure and extracting a concept expression included in the document data;
A concept expression display procedure for displaying the concept expression extracted by the language processing procedure;
A dictionary search procedure for searching a concept expression from the concept expression thesaurus dictionary;
The document processing method characterized by performing.
前記文書データ取得手順により取得された文書データの集合に含まれる概念表現を指定するための概念表現指定手順と、
前記概念表現指定手段により指定された概念表現をカテゴリ定義とし、文書データの集合から、前記カテゴリ定義に基づいて文書グループを生成し、文書カテゴリとする文書カテゴリ生成手順と、
前記文書カテゴリ生成手段により生成された文書カテゴリを表示する文書カテゴリ表示手順と、
を実行することを特徴とする文書処理方法。 The document processing method according to claim 7.
A concept expression specifying procedure for specifying a concept expression included in a set of document data acquired by the document data acquiring procedure;
A document category generation procedure in which the concept expression specified by the concept expression specifying means is a category definition, a document group is generated based on the category definition from a set of document data,
A document category display procedure for displaying the document category generated by the document category generation means;
The document processing method characterized by performing.
前記概念表現シソーラス辞書に登録されている同義の概念表現グループに基づいて一の概念表現を抽出する概念表現抽出手順と、
前記概念表現抽出手順により抽出された同義表現グループ概念表現を表示する概念表現表示手順と、
を実行することを特徴とする文書処理方法。 In the document processing method of Claim 7 or Claim 8,
A concept expression extraction procedure for extracting one concept expression based on synonymous concept expression groups registered in the concept expression thesaurus dictionary;
A concept expression display procedure for displaying the synonym expression group concept expression extracted by the concept expression extraction procedure;
The document processing method characterized by performing.
前記概念表現シソーラス辞書に登録されている、同義の概念表現及び同義ではないが意味的に関連する概念表現を検索するために、文書データの集合に含まれる概念表現を指定するための同義関連概念表現指定手順と、前記同義の概念表現及び前記関連する概念表現の検索結果を表示する同義関連概念表現指定手順と、を実行し、
前記辞書検索手順では、前記同義関連概念表現指定手順の指定に基づいて、前記概念表現シソーラス辞書に登録されている前記同義の概念表現及び前記関連する概念表現を検索し、前記同義関連概念表現表示手順では、前記辞書検索手順の検索結果を表示することを特徴とする文書処理方法。 The document processing method according to any one of claims 7 to 9,
Synonymous related concepts for specifying conceptual expressions included in a set of document data in order to search synonymous conceptual expressions and conceptual expressions that are not synonymous but semantically related, registered in the conceptual expression thesaurus dictionary An expression designation procedure, and a synonym related concept expression designation procedure for displaying a search result of the synonymous concept expression and the related concept expression,
In the dictionary search procedure, the synonym related concept representation and the related concept representation registered in the concept representation thesaurus dictionary are searched based on the designation of the synonym related concept representation designation procedure, and the synonym related concept representation display In the procedure, a search result of the dictionary search procedure is displayed.
前記概念表現シソーラス辞書に登録されている概念表現を拡張した拡張概念表現を検索するために、文書データの集合に含まれる概念表現を指定するための拡張概念表現指定手順と、前記拡張概念表現指定手順の指定に基づいて、前記概念表現シソーラス辞書に登録されている指定された概念表現を検索して一の同義概念表現にまとめ、前記文書データの集合から前記一の同義概念表現を検索する拡張概念表現検索手順と、を実行し、
前記概念表現表示手順では、前記拡張概念表現検索手順の検索結果を表示するようにしたことを特徴とする文書処理方法。 The document processing method according to any one of claims 7 to 10,
An extended concept expression designation procedure for designating a concept expression included in a set of document data in order to search for an extended concept expression obtained by extending the concept expression registered in the concept expression thesaurus dictionary, and the extended concept expression designation An extension that searches the specified syntactic concept registered in the conceptual expression thesaurus dictionary based on the procedure specification, collects it into one synonymous conceptual expression, and searches the synonymous conceptual expression from the set of document data A concept expression search procedure, and
In the concept expression display procedure, a search result of the extended concept expression search procedure is displayed.
前記文書カテゴリ生成手順により生成された文書カテゴリに基づいて、新たな概念表現を前記概念表現シソーラス辞書に登録する辞書登録手順を実行することを特徴とする文書処理方法。 The document processing method according to any one of claims 7 to 11,
A document processing method for executing a dictionary registration procedure for registering a new concept expression in the concept expression thesaurus dictionary based on the document category generated by the document category generation procedure.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006078801A JP4877930B2 (en) | 2006-03-22 | 2006-03-22 | Document processing apparatus and document processing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006078801A JP4877930B2 (en) | 2006-03-22 | 2006-03-22 | Document processing apparatus and document processing method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007257149A true JP2007257149A (en) | 2007-10-04 |
JP4877930B2 JP4877930B2 (en) | 2012-02-15 |
Family
ID=38631364
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006078801A Expired - Fee Related JP4877930B2 (en) | 2006-03-22 | 2006-03-22 | Document processing apparatus and document processing method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4877930B2 (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011150611A (en) * | 2010-01-25 | 2011-08-04 | Nippon Telegr & Teleph Corp <Ntt> | Method, apparatus and program for retrieving document |
JP2011170700A (en) * | 2010-02-19 | 2011-09-01 | Nippon Telegr & Teleph Corp <Ntt> | Document retrieval device, document retrieval method, document retrieval program |
JP2012037936A (en) * | 2010-08-03 | 2012-02-23 | Toshiba Corp | Document analyzing device and program |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001075966A (en) * | 1999-07-07 | 2001-03-23 | Internatl Business Mach Corp <Ibm> | Data analysis system |
JP2001101199A (en) * | 1999-09-29 | 2001-04-13 | Fuji Xerox Co Ltd | Document processor |
JP2001147937A (en) * | 1999-11-22 | 2001-05-29 | Toshiba Corp | Job support system |
JP2004303198A (en) * | 2003-03-18 | 2004-10-28 | Ricoh Co Ltd | Document processor, document processing method, and document processing program |
JP2004334602A (en) * | 2003-05-08 | 2004-11-25 | Ricoh Co Ltd | Document retrieving device, document retrieval processing program, and recording medium |
JP2005063030A (en) * | 2003-08-08 | 2005-03-10 | Ricoh Co Ltd | Method for expressing concept, method and device for creating expression of concept, program for implementing this method, and recording medium for recording this program |
-
2006
- 2006-03-22 JP JP2006078801A patent/JP4877930B2/en not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001075966A (en) * | 1999-07-07 | 2001-03-23 | Internatl Business Mach Corp <Ibm> | Data analysis system |
JP2001101199A (en) * | 1999-09-29 | 2001-04-13 | Fuji Xerox Co Ltd | Document processor |
JP2001147937A (en) * | 1999-11-22 | 2001-05-29 | Toshiba Corp | Job support system |
JP2004303198A (en) * | 2003-03-18 | 2004-10-28 | Ricoh Co Ltd | Document processor, document processing method, and document processing program |
JP2004334602A (en) * | 2003-05-08 | 2004-11-25 | Ricoh Co Ltd | Document retrieving device, document retrieval processing program, and recording medium |
JP2005063030A (en) * | 2003-08-08 | 2005-03-10 | Ricoh Co Ltd | Method for expressing concept, method and device for creating expression of concept, program for implementing this method, and recording medium for recording this program |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011150611A (en) * | 2010-01-25 | 2011-08-04 | Nippon Telegr & Teleph Corp <Ntt> | Method, apparatus and program for retrieving document |
JP2011170700A (en) * | 2010-02-19 | 2011-09-01 | Nippon Telegr & Teleph Corp <Ntt> | Document retrieval device, document retrieval method, document retrieval program |
JP2012037936A (en) * | 2010-08-03 | 2012-02-23 | Toshiba Corp | Document analyzing device and program |
Also Published As
Publication number | Publication date |
---|---|
JP4877930B2 (en) | 2012-02-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20180137194A1 (en) | Apparatus and method for automated and assisted patent claim mapping and expense planning | |
Sawyer et al. | Shallow knowledge as an aid to deep understanding in early phase requirements engineering | |
Mahmood et al. | Query based information retrieval and knowledge extraction using Hadith datasets | |
Jabbar et al. | An improved Urdu stemming algorithm for text mining based on multi-step hybrid approach | |
US7853595B2 (en) | Method and apparatus for creating a tool for generating an index for a document | |
Ranwez et al. | How ontology based information retrieval systems may benefit from lexical text analysis | |
JP2011513810A (en) | Term identification method and apparatus | |
Malik et al. | Text mining life cycle for a spatial reading of Viet Thanh Nguyen's The Refugees (2017) | |
Wang et al. | Mining key information of web pages: A method and its application | |
JP4877930B2 (en) | Document processing apparatus and document processing method | |
Angrosh et al. | Context identification of sentences in research articles: Towards developing intelligent tools for the research community | |
Culy et al. | Corpus clouds-facilitating text analysis by means of visualizations | |
Das et al. | Emotion tracking on blogs-a case study for bengali | |
JP2014102625A (en) | Information retrieval system, program, and method | |
JP2007226843A (en) | Document management system and document management method | |
JP2009129176A (en) | Structured document retrieval device, method, and program | |
JP2008197952A (en) | Text segmentation method, its device, its program and computer readable recording medium | |
Lama | Clustering system based on text mining using the K-means algorithm: news headlines clustering | |
Lehmann et al. | Extracting and modeling knowledge about aviation for multilingual semantic applications in Industry 4.0 | |
JP2004220226A (en) | Document classification method and device for retrieved document | |
Chaabene et al. | Semantic annotation for the “on demand graphical representation” of variable data in Web documents | |
Borin et al. | Literary onomastics and language technology | |
Batista-Navarro et al. | Construction of a Biodiversity Knowledge Repository using a Text Mining-based Framework. | |
JP2004133510A (en) | Technical literature retrieval system | |
Rybak et al. | Machine Learning-Enhanced Text Mining as a Support Tool for Research on Climate Change: Theoretical and Technical Considerations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090212 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110825 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110830 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111027 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111122 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111124 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141209 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |