JP2007257149A - Document processing apparatus and method - Google Patents

Document processing apparatus and method Download PDF

Info

Publication number
JP2007257149A
JP2007257149A JP2006078801A JP2006078801A JP2007257149A JP 2007257149 A JP2007257149 A JP 2007257149A JP 2006078801 A JP2006078801 A JP 2006078801A JP 2006078801 A JP2006078801 A JP 2006078801A JP 2007257149 A JP2007257149 A JP 2007257149A
Authority
JP
Japan
Prior art keywords
expression
concept
document
concept expression
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006078801A
Other languages
Japanese (ja)
Other versions
JP4877930B2 (en
Inventor
Tetsuo Nagatsuka
哲郎 長束
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2006078801A priority Critical patent/JP4877930B2/en
Publication of JP2007257149A publication Critical patent/JP2007257149A/en
Application granted granted Critical
Publication of JP4877930B2 publication Critical patent/JP4877930B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a document processing apparatus which uses a method of representing concepts represented by a plurality of words and can use the relationships in meaning between the concepts as a dictionary, and which is suitable for increasing the accuracy of statistical analysis in text data analysis or the accuracy of document searches. <P>SOLUTION: The document processing apparatus 1 expresses concepts contained in a document as combinations of tokens and intent representations extracted from clause information contained in a document, and expresses the relationships between a plurality of concept representations based on information about the relationships between clauses. The document processing apparatus 1 includes a document data acquisition part 41 for acquiring a set of document data; a language processing part 42 for performing a language analysis process on the document data to extract concept representations contained in the document data; a concept representation display part 44 and a display 60 for displaying the concept representations; a concept representation thesaurus dictionary storage part 30 for storing a concept representation thesaurus dictionary; and a dictionary search part 43 for searching the concept representation thesaurus dictionary for concept representations. <P>COPYRIGHT: (C)2008,JPO&INPIT

Description

本発明は、文書処理装置及び文書処理方法に関するものである。   The present invention relates to a document processing apparatus and a document processing method.

近年、大量の文書(テキスト、テキスト情報)の収集及び蓄積が可能となり、それらの情報を活用するためのテキスト処理技術、文書処理技術が開発されている。従来の文書処理技術としては、ユーザの意図に合った文書を検索する文書検索技術、大量の文書集合をいくつかの部分集合に分類する文書分類技術、文書あるいは文書集合から重要な語句を抽出するキーワード抽出技術、キーワード抽出技術に基づいた文書要約技術などがある。   In recent years, a large amount of documents (text, text information) can be collected and stored, and text processing techniques and document processing techniques for utilizing such information have been developed. Conventional document processing technologies include document search technology that searches for documents that match the user's intention, document classification technology that classifies a large number of document sets into several subsets, and extracts important phrases from documents or document sets. There are a keyword extraction technique and a document summarization technique based on the keyword extraction technique.

最近ではアンケートデータやコールセンタデータなどの大量のテキストデータを分析することを目的としたテキストマイニング技術なども開発されている。こうした技術ではテキストデータを分析するために、テキストに含まれる概念や話題に基づいてカテゴリに分類し、新たなアイデアや知見を発見し、カテゴリに属するテキストの数を利用して統計的な傾向や関係を分析する。   Recently, text mining technology for analyzing large amounts of text data such as questionnaire data and call center data has been developed. In order to analyze text data, these technologies classify them into categories based on the concepts and topics contained in the text, discover new ideas and knowledge, and use the number of texts belonging to the categories to find statistical trends and Analyze the relationship.

こうしたテキストデータ分析技術として、言語解析情報に基づいた統計処理を行うことで分析を行うものがある。この際に問題となるのは、異なる表現(言葉)であるが意味が同じ表現を含むテキストの処理である。例えば、コールセンタデータの分析において、「顧客が怒っている」と言う内容を含むテキストデータを処理したい場合に、「怒る」という単語を含むテキストデータだけを処理するのではなく、「腹が立つ」、「頭にくる」、「立腹」、「癪に障る」、「怒髪天を突く」など異なる言葉であるが同じ意味の表現を含むテキストデータも同じ内容のテキストデータとして処理しなければならない。そうでなければ統計的な分析の精度や正確性などに問題が生じる。   As such text data analysis technology, there is one that performs analysis by performing statistical processing based on language analysis information. In this case, the problem is the processing of text including different expressions (words) but having the same meaning. For example, in the analysis of call center data, if you want to process text data that includes the content "customer is angry", instead of processing only text data that includes the word "angry", "get angry" Text data including different expressions, such as “coming to the head”, “prone”, “disturbed by wrinkles”, “pushing angry hair”, but having the same meaning must also be processed as text data having the same content. Otherwise, problems arise in the accuracy and accuracy of statistical analysis.

異なる言葉であるが同じ意味を表す言葉に関する情報を扱うための技術として同義語辞書、関連語辞書、シソーラス辞書などがある。これらは単語や語句を意味的に分類し、体系付けたものである。前述のテキストデータ分析技術においても、シソーラス辞書やカテゴリ辞書を利用している。しかしながら、前述のテキストデータ分析技術で利用するシソーラス辞書やカテゴリ辞書はあくまで単語(あるいは複合語)間の関係を記述したものであり、「怒る」と同じ意味を表す表現として「腹が立つ」、「頭にくる」、「癪に障る」、「怒髪天を突く」といった、複数の単語により1つの意味を表す表現を記述して利用することはできなかった。そのために「ある内容を含むテキストデータの数」といった統計的数値に不正確さがあり、これらの情報を元に統計的分析を行った結果に関しても、その精度や正確性に問題がある。   There are synonym dictionaries, related word dictionaries, thesaurus dictionaries, and the like as techniques for handling information on words that are different words but have the same meaning. These are words and phrases that are semantically classified and organized. The aforementioned text data analysis technique also uses a thesaurus dictionary or a category dictionary. However, the thesaurus dictionaries and category dictionaries used in the text data analysis technique described above describe the relationship between words (or compound words) to the last, and are “angry” as expressions that represent the same meaning as “angry”, It was not possible to describe and use expressions expressing one meaning with a plurality of words, such as “coming to the head”, “disturbing the habit”, and “pushing angry hair”. For this reason, there is an inaccuracy in the statistical numerical value such as “the number of text data including a certain content”, and there is a problem in the accuracy and accuracy of the result of the statistical analysis based on such information.

これに対し、複数の単語で表される概念を扱うことができる概念表現方法が提案されている(例えば、特許文献1参照)。この概念表現方法を利用すると複数の単語で表されるフレーズも1つの概念表現として扱うことができる。この概念表現方法を用いてシソーラス辞書を構成すれば、「怒る」、「腹が立つ」、「頭にくる」、「立腹」、「癪に障る」、「怒髪天を突く」などの表現を同じ意味の概念表現であると記述することができ、前記問題を改善することが期待される。更に、前記概念表現方法を適用し、テキスト集合を分析する際に、ユーザが文書集合に含まれる概念表現を自由に探索し、必要な概念表現を用いて文書カテゴリを生成することを支援しているものがある(例えば、特許文献2参照)。また、前記概念表現方法を適用し、対象データをマルチフィールドデータに拡張すること、あるいは既存のカテゴリ定義の再利用を可能にしているものがある(例えば、特許文献3参照)。
特開2005−063030号公報 特開2004−334602号公報 特開2004−303198号公報
On the other hand, a concept expression method capable of handling concepts expressed by a plurality of words has been proposed (see, for example, Patent Document 1). When this concept expression method is used, phrases expressed by a plurality of words can be handled as one concept expression. By constructing a thesaurus dictionary using this concept expression method, expressions such as `` get angry '', `` get angry '', `` coming to the head '', `` get angry '', `` disturb on the heels '', `` poke angry hair '' It can be described as conceptual expressions having the same meaning, and is expected to improve the problem. Further, when applying the concept expression method and analyzing the text set, the user is free to search for the concept expressions included in the document set and to generate the document category using the necessary concept expressions. (For example, refer to Patent Document 2). In addition, there is a technique in which the concept expression method is applied to extend target data to multi-field data, or an existing category definition can be reused (for example, see Patent Document 3).
JP 2005-063030 A JP 2004-334602 A JP 2004-303198 A

しかしながら、従来の文書処理装置及び文書処理方法においては、前述の概念表現方法を適用したシソーラス辞書に基づいて、同義表現や関連表現を検索し、複数の異なる概念表現を1つの概念表現として扱うと共に、ユーザの使い勝手に配慮してより実用的な文書処理を行う点について、更に改善の余地がある。   However, in the conventional document processing apparatus and document processing method, synonymous expressions and related expressions are searched based on a thesaurus dictionary to which the above-described concept expression method is applied, and a plurality of different concept expressions are handled as one concept expression. There is room for further improvement in terms of performing more practical document processing in consideration of user convenience.

本発明は、従来の問題を解決するためになされたもので、複数の単語で表される概念を表現する概念表現方法を用い、概念間の意味的な関係を辞書として利用することができ、テキストデータ分析における統計分析の精度向上、あるいは文書検索の精度向上に好適な文書処理装置及び文書処理方法を提供することを目的とする。   The present invention was made in order to solve the conventional problem, using a concept expression method for expressing a concept represented by a plurality of words, and using a semantic relationship between concepts as a dictionary, An object of the present invention is to provide a document processing apparatus and a document processing method suitable for improving accuracy of statistical analysis in text data analysis or improving accuracy of document search.

本発明は、前記特許文献1に記載の概念表現方法により表現された概念により構成される概念表現シソーラス辞書をもち、概念表現シソーラス辞書に基づいて、同義表現や関連表現を検索し、複数の異なる概念表現を1つの概念表現として扱うようにしている。   The present invention has a concept expression thesaurus dictionary composed of concepts expressed by the concept expression method described in Patent Document 1, and searches for synonymous expressions and related expressions based on the concept expression thesaurus dictionary, and makes a plurality of different expressions. The concept expression is handled as one concept expression.

請求項1に係る本発明の文書処理装置は、文書に含まれる文節情報から抽出されたトークンと意図表現の組み合わせで文書に含まれる概念を表現し、更に文節間の関係情報に基づいて複数の概念表現の関係を表現し、前記トークンと意図表現の組み合わせによる概念表現及び概念表現間の関係に基づいて文書データを処理する文書処理装置であって、処理対象となる文書データの集合を取得する文書データ取得手段と、前記文書データ取得手段により取得された文書データに対して言語解析処理を行い、文書データに含まれる概念表現を抽出する言語処理手段と、前記言語処理手段により抽出された概念表現を表示する概念表現表示手段と、前記文書に含まれる概念を表現した概念表現を登録する概念表現シソーラス辞書を記憶する概念表現シソーラス辞書記憶手段と、前記概念表現シソーラス辞書から概念表現を検索する辞書検索手段と、を備えた構成を有している。   The document processing apparatus of the present invention according to claim 1 expresses a concept included in a document by a combination of a token extracted from the phrase information included in the document and an intention expression, and further includes a plurality of information based on relationship information between phrases. A document processing apparatus that expresses a relationship between concept expressions and processes document data based on a concept expression based on a combination of the token and the intention expression and a relationship between the concept expressions, and acquires a set of document data to be processed Document data acquisition means, language processing means for performing language analysis processing on the document data acquired by the document data acquisition means, and extracting concept expressions included in the document data, and concepts extracted by the language processing means Conceptual expression for storing a conceptual expression display means for displaying an expression, and a conceptual expression thesaurus for registering a conceptual expression expressing the concept included in the document A thesaurus dictionary storage means, and has a configuration including a dictionary search means for searching the concept expressed in the concept representation thesaurus.

請求項2に係る本発明の文書処理装置は、請求項1において、前記文書データ取得手段により取得された文書データの集合に含まれる概念表現を指定するための概念表現指定手段と、前記概念表現指定手段により指定された概念表現をカテゴリ定義とし、文書データの集合から、前記カテゴリ定義に基づいて文書グループを生成し、文書カテゴリとする文書カテゴリ生成手段と、前記文書カテゴリ生成手段により生成された文書カテゴリを表示する文書カテゴリ表示手段と、を備えた構成を有している。   A document processing apparatus according to a second aspect of the present invention is the document processing apparatus according to the first aspect, wherein the conceptual expression specifying means for specifying a conceptual expression included in a set of document data acquired by the document data acquiring means, and the conceptual expression The concept expression specified by the specifying means is defined as a category definition, a document group is generated from a set of document data based on the category definition, and the document category is generated by the document category generating means. And a document category display means for displaying the document category.

請求項3に係る本発明の文書処理装置は、請求項1又は請求項2において、前記概念表現シソーラス辞書に登録されている同義の概念表現グループに基づいて一の概念表現を抽出する概念表現抽出手段と、前記概念表現抽出手段により抽出された同義表現グループ概念表現を表示する概念表現表示手段と、を備えた構成を有している。   According to a third aspect of the present invention, there is provided the document processing apparatus according to the first or second aspect, wherein the concept expression extraction extracts one concept expression based on a synonymous concept expression group registered in the concept expression thesaurus dictionary. And a concept expression display means for displaying the synonymous expression group concept expression extracted by the concept expression extracting means.

請求項4に係る本発明の文書処理装置は、請求項1から請求項3のいずれか1項において、前記概念表現シソーラス辞書に登録されている、同義の概念表現及び同義ではないが意味的に関連する概念表現を検索するために、文書データの集合に含まれる概念表現を指定するための同義関連概念表現指定手段と、前記同義の概念表現及び前記関連する概念表現の検索結果を表示する同義関連概念表現表示手段と、を備え、前記辞書検索手段は、前記同義関連概念表現指定手段の指定に基づいて、前記概念表現シソーラス辞書に登録されている前記同義の概念表現及び前記関連する概念表現を検索し、前記同義関連概念表現表示手段は、前記辞書検索手段の検索結果を表示するようにした構成を有している。   A document processing apparatus according to a fourth aspect of the present invention is the document processing apparatus according to any one of the first to third aspects, wherein the syntactic conceptual expression and the synonym registered in the conceptual expression thesaurus dictionary are not semantically. Synonym related concept expression specifying means for specifying concept expressions included in a set of document data to search related concept expressions, and synonyms for displaying search results of the synonymous concept expressions and the related concept expressions Related concept expression display means, the dictionary search means based on the designation of the synonym related concept expression designation means, the synonymous concept expression and the related concept expression registered in the concept expression thesaurus dictionary And the synonym related concept expression display means displays the search result of the dictionary search means.

請求項5に係る本発明の文書処理装置は、請求項1から請求項4のいずれか1項において、前記概念表現シソーラス辞書に登録されている概念表現を拡張した拡張概念表現を検索するために、文書データの集合に含まれる概念表現を指定するための拡張概念表現指定手段と、前記拡張概念表現指定手段の指定に基づいて、前記概念表現シソーラス辞書に登録されている指定された概念表現を検索して一の同義概念表現にまとめ、前記文書データの集合から前記一の同義概念表現を検索する拡張概念表現検索手段と、を備え、前記概念表現表示手段は、前記拡張概念表現検索手段の検索結果を表示するようにした構成を有している。   According to a fifth aspect of the present invention, there is provided the document processing apparatus according to any one of the first to fourth aspects, for searching for an extended concept expression obtained by extending a concept expression registered in the concept expression thesaurus dictionary. An extended concept expression specifying means for specifying a concept expression included in a set of document data, and a specified concept expression registered in the concept expression thesaurus dictionary based on the specification of the extended concept expression specifying means. Extended concept expression search means for searching and collecting the one synonym concept expression from the set of document data, and the concept expression display means includes the extended concept expression search means. The search result is displayed.

請求項6に係る本発明の文書処理装置は、請求項2から請求項5のいずれか1項において、前記文書カテゴリ生成手段により生成された文書カテゴリに基づいて、新たな概念表現を前記概念表現シソーラス辞書に登録する辞書登録手段を備えた構成を有している。
請求項7に係る本発明の文書処理方法は、文書に含まれる文節情報から抽出されたトークンと意図表現の組み合わせで文書に含まれる概念を表現し、更に文節間の関係情報に基づいて複数の概念表現の関係を表現し、前記トークンと意図表現の組み合わせによる概念表現及び概念表現間の関係を登録した概念表現シソーラス辞書を用いて文書データを処理する文書処理方法であって、処理対象となる文書データの集合を取得する文書データ取得手順と、前記文書データ取得手順により取得された文書データに対して言語解析処理を行い、文書データに含まれる概念表現を抽出する言語処理手順と、前記言語処理手順により抽出された概念表現を表示する概念表現表示手順と、前記概念表現シソーラス辞書から概念表現を検索する辞書検索手順と、を実行している。
A document processing apparatus according to a sixth aspect of the present invention provides the document processing apparatus according to any one of the second to fifth aspects, wherein a new conceptual expression is generated based on the document category generated by the document category generating means. It has a configuration provided with dictionary registration means for registering in the thesaurus dictionary.
In the document processing method of the present invention according to claim 7, the concept included in the document is expressed by a combination of a token extracted from the phrase information included in the document and the intention expression, and a plurality of information is based on the relationship information between the phrases. A document processing method for processing document data by using a concept expression thesaurus that expresses a relationship between concept expressions and registers a concept expression by a combination of the token and the intention expression and a relationship between the concept expressions, and is a processing target. A document data acquisition procedure for acquiring a set of document data; a language processing procedure for performing a language analysis process on the document data acquired by the document data acquisition procedure and extracting a concept expression included in the document data; and the language A concept expression display procedure for displaying the concept expression extracted by the processing procedure, and a dictionary search procedure for retrieving the concept expression from the concept expression thesaurus dictionary , Is the execution.

請求項8に係る本発明の文書処理方法は、請求項7において、前記文書データ取得手順により取得された文書データの集合に含まれる概念表現を指定するための概念表現指定手順と、前記概念表現指定手段により指定された概念表現をカテゴリ定義とし、文書データの集合から、前記カテゴリ定義に基づいて文書グループを生成し、文書カテゴリとする文書カテゴリ生成手順と、前記文書カテゴリ生成手段により生成された文書カテゴリを表示する文書カテゴリ表示手順と、を実行している。   A document processing method according to an eighth aspect of the present invention is the document processing method according to the seventh aspect, wherein the conceptual expression specifying procedure for specifying a conceptual expression included in a set of document data acquired by the document data acquiring procedure, and the conceptual expression The concept expression specified by the specifying means is defined as a category definition, a document group is generated from a set of document data based on the category definition, and the document category is generated by the document category generating means. And a document category display procedure for displaying the document category.

請求項9に係る本発明の文書処理方法は、請求項7又は請求項8において、前記概念表現シソーラス辞書に登録されている同義の概念表現グループに基づいて一の概念表現を抽出する概念表現抽出手順と、前記概念表現抽出手順により抽出された同義表現グループ概念表現を表示する概念表現表示手順と、を実行している。   A document processing method according to a ninth aspect of the present invention is the document processing method according to the seventh or eighth aspect, wherein one conceptual expression is extracted based on a synonymous conceptual expression group registered in the conceptual expression thesaurus dictionary. A procedure and a concept expression display procedure for displaying the synonym expression group concept expression extracted by the concept expression extraction procedure.

請求項10に係る本発明の文書処理方法は、請求項7から請求項9のいずれか1項において、前記概念表現シソーラス辞書に登録されている、同義の概念表現及び同義ではないが意味的に関連する概念表現を検索するために、文書データの集合に含まれる概念表現を指定するための同義関連概念表現指定手順と、前記同義の概念表現及び前記関連する概念表現の検索結果を表示する同義関連概念表現指定手順と、を実行し、前記辞書検索手順では、前記同義関連概念表現指定手順の指定に基づいて、前記概念表現シソーラス辞書に登録されている前記同義の概念表現及び前記関連する概念表現を検索し、前記同義関連概念表現表示手順では、前記辞書検索手順の検索結果を表示している。   The document processing method of the present invention according to claim 10 is semantically synonymous with synonymous concept expressions and synonyms registered in the concept expression thesaurus dictionary according to any one of claims 7 to 9. In order to search for related concept expressions, a synonym related concept expression designation procedure for designating concept expressions included in a set of document data, and a synonym for displaying the synonymous concept expressions and search results of the related concept expressions A related concept expression designation procedure, and in the dictionary search procedure, based on the designation of the synonym related concept expression designation procedure, the synonymous concept expression and the related concept registered in the concept expression thesaurus dictionary Expressions are searched, and in the synonym related concept expression display procedure, the search result of the dictionary search procedure is displayed.

請求項11に係る本発明の文書処理方法は、請求項7から請求項10のいずれか1項において、前記概念表現シソーラス辞書に登録されている概念表現を拡張した拡張概念表現を検索するために、文書データの集合に含まれる概念表現を指定するための拡張概念表現指定手順と、前記拡張概念表現指定手順の指定に基づいて、前記概念表現シソーラス辞書に登録されている指定された概念表現を検索して一の同義概念表現にまとめ、前記文書データの集合から前記一の同義概念表現を検索する拡張概念表現検索手順と、を実行し、前記概念表現表示手順では、前記拡張概念表現検索手順の検索結果を表示している。   A document processing method according to an eleventh aspect of the present invention is the document processing method according to any one of the seventh to tenth aspects, wherein an extended concept expression obtained by extending a concept expression registered in the concept expression thesaurus dictionary is retrieved. The specified concept representation registered in the concept representation thesaurus dictionary based on the extended concept representation designation procedure for designating the concept representation included in the document data set and the designation of the extended concept representation designation procedure. And an extended concept expression search procedure for searching for the one synonymous concept expression from the set of document data, and executing the extended concept expression search procedure in the concept expression display procedure. Showing search results for.

請求項12に係る本発明の文書処理方法は、請求項7から請求項11のいずれか1項において、前記文書カテゴリ生成手順により生成された文書カテゴリに基づいて、新たな概念表現を前記概念表現シソーラス辞書に登録する辞書登録手順を実行している。   A document processing method according to a twelfth aspect of the present invention is the document processing method according to any one of the seventh to eleventh aspects, wherein the new concept expression is converted to the concept expression based on the document category generated by the document category generation procedure. A dictionary registration procedure for registering in the thesaurus dictionary is executed.

本発明は、処理対象となる文書データの集合を取得する文書データ取得手段と、前記文書データ取得手段により取得された文書データに対して言語解析処理を行い、文書データに含まれる概念表現を抽出する言語処理手段と、前記言語処理手段により抽出された概念表現を表示する概念表現表示手段と、前記文書に含まれる概念を表現した概念表現を登録する概念表現シソーラス辞書を記憶する概念表現シソーラス辞書記憶手段と、前記概念表現シソーラス辞書から概念表現を検索する辞書検索手段と、を設けることにより、従来の単語間の意味的な関係ではなく、複数の単語で表される概念間の意味的な関係を概念表現シソーラス辞書として利用することができ、テキストデータ分析における統計分析の精度向上、あるいは文書検索の精度向上に好適であり、より実用的な文書処理装置を提供することができる。   The present invention provides a document data acquisition unit that acquires a set of document data to be processed, and performs a language analysis process on the document data acquired by the document data acquisition unit to extract a concept expression included in the document data A conceptual expression thesaurus that stores a conceptual expression thesaurus that registers a conceptual expression that expresses a concept included in the document, and a conceptual expression display that displays the conceptual expression extracted by the language processing means. By providing storage means and dictionary search means for searching a concept expression from the concept expression thesaurus dictionary, the semantic relation between concepts represented by a plurality of words, rather than the conventional semantic relation between words, is provided. Relationships can be used as a conceptual thesaurus dictionary, improving the accuracy of statistical analysis in text data analysis, or document search accuracy Is suitable above, it is possible to provide a more practical document processing apparatus.

以下、本発明の実施形態に係る文書処理装置及び文書処理方法について、図面を用いて説明する。   Hereinafter, a document processing apparatus and a document processing method according to an embodiment of the present invention will be described with reference to the drawings.

[概念表現方法]
本発明の実施形態に適用する係り受け解析及び概念表現の例を図1、図2、図3、図4に示す。ここで、図1は、文書処理における係り受け解析結果の例である。図2は、図1の文書データから生成することのできる概念表現の例である。図3は、基本単位間の関係を表す概念表現の例である。図4は、概念表現の拡張検索結果の例である。なお、前記概念表現については前記特許文献1に詳述されている。
[Concept expression method]
Examples of dependency analysis and concept expression applied to the embodiment of the present invention are shown in FIG. 1, FIG. 2, FIG. 3, and FIG. Here, FIG. 1 is an example of a dependency analysis result in document processing. FIG. 2 is an example of a conceptual expression that can be generated from the document data of FIG. FIG. 3 is an example of a conceptual expression representing the relationship between basic units. FIG. 4 is an example of an extended search result of concept expressions. The concept expression is described in detail in the above-mentioned Patent Document 1.

前記特許文献1に記載の概念表現は、文書データ(テキストデータ)を言語解析した結果得られる文節あるいは文節間関係情報に基づいている。言語解析としては、例えば形態素解析、文節係り受け解析を利用することができる。形態素解析は文書データに含まれる単語を分析する。係り受け解析は、文書データに含まれる文節を解析し、文節間の関係として係りと受けの関係にある文節を解析する。例えば「ソフトウェアのインストールが正常に実行できない」という文書データを言語解析すると、図1のような情報を得ることができる。   The concept representation described in Patent Document 1 is based on clauses or inter-phrase relation information obtained as a result of language analysis of document data (text data). As the language analysis, for example, morphological analysis and phrase dependency analysis can be used. Morphological analysis analyzes words contained in document data. Dependency analysis analyzes clauses included in document data, and analyzes clauses in a relationship between dependency and dependency as a relationship between clauses. For example, when the document data “software installation cannot be executed normally” is analyzed in language, information as shown in FIG. 1 can be obtained.

図1において、「自」は自立語を、「付」は付属語を表す。自立語は動詞、形容詞、名詞などの品詞の単語であり、付属語とは助詞、助動詞などの品詞の単語である。通常文節は1個の自立語と、0又は1個以上の付属語で構成される。解析方法によっては、1文節に複数個の自立語が含まれるような結果を出すものもあるが、ここでは、文節にはかならず1個のみの自立語しか含まないように文節を生成する解析方法を利用するものとする。   In FIG. 1, “self” represents an independent word, and “attached” represents an attached word. Autonomous words are part-of-speech words such as verbs, adjectives and nouns, and adjuncts are part-of-speech words such as particles and auxiliary verbs. A normal phrase is composed of one independent word and zero or one or more attached words. Depending on the analysis method, there may be a result that a single phrase includes a plurality of independent words, but here, an analysis method for generating a phrase so that the phrase always includes only one independent word. Shall be used.

概念表現は、概念表現の基本単位と基本単位間の関係表現により表現される。概念表現の基本単位は、トークン及び意図表現を利用して表現される。トークンはそれ自体で1つの意味をあらわす単語であり、自立語を利用することができる。例えば、図1では、「ソフトウェア」、「インストール」、「正常」、「実行」がトークンとなる。トークンの表現はトークンの表記を利用することもできるし、トークンの代表的表記に変換したものを利用することもできる。一方、意図表現とは、文節内の単語による意味の付加を表す表現であり、単語のある特定の表現パターンを抽出することで、その文節に付加されている意図を解析する。例えば、「〜ない(助動詞)」「〜ず(助動詞)」という表現は「打消」の意味を、「〜できる(補助動詞)」という表現は「可能」の意味を、「〜たい(助動詞)」という表現は「要望」の意味を、文節に対して付加しているとすることができる。例えば、図1の「実行できない」という文節から「可能」と「打消」の意図表現が抽出される。意図表現は例えば「(+打消)」「(+可能−打消)」というように表現することができる、ここで「+XX」はその意図表現が付加されていることを、「−XX」はその意図表現が付加されていないことを表している。   The concept expression is expressed by a basic unit of the concept expression and a relation expression between the basic units. The basic unit of conceptual expression is expressed using tokens and intention expressions. A token is a word that expresses one meaning by itself, and an independent word can be used. For example, in FIG. 1, “software”, “install”, “normal”, and “execute” are tokens. The token expression can use the token notation, or can be converted to a representative token notation. On the other hand, the intention expression is an expression representing the addition of meaning by a word in a phrase, and the intention added to the phrase is analyzed by extracting a specific expression pattern of the word. For example, the expression “~ not (auxiliary verb)” or “~ z (auxiliary verb)” means “cancellation”, the expression “can do (auxiliary verb)” means “possible”, “~ tai (auxiliary verb)” "Can be said to have added the meaning of" request "to the phrase. For example, intention expressions “possible” and “cancellation” are extracted from the phrase “cannot be executed” in FIG. The intention expression can be expressed as, for example, “(+ cancellation)” and “(+ possible−cancellation)”, where “+ XX” indicates that the intention expression is added and “−XX” indicates that It means that no intention expression is added.

概念表現の基本単位は、トークンのみ、意図表現のみ、あるいはトークンと意図表現の組み合わせで表現される。このトークンと意図表現の組み合わせによる概念表現の基本単位は、例えば、図2における「概念表現7」の「「実行(+可能+打消)」に相当する。ここで、トークンと意図表現の組み合わせとは、ある文節に指定されたトークンが含まれていて、かつその文節に指定された意図表現が付加されていることを意味する。   The basic unit of concept expression is expressed by token only, intention expression only, or a combination of token and intention expression. The basic unit of the concept expression by the combination of the token and the intention expression corresponds to, for example, “execution (+ possible + cancellation)” of “concept expression 7” in FIG. Here, the combination of a token and an intention expression means that a token specified in a certain phrase is included and the specified intention expression is added to the phrase.

基本単位間の関係は、基本単位間に意味的な強い関係があることを表す。この意味的な強い関係とは、基本的には係り受け関係にある文節に含まれることを表す。基本単位間の関係を「⇒」で表すものとすると、例えば、図2における「概念表現8」の「ソフトウェア⇒インストール」という概念表現は、係り受け関係にある2つの文節において係り文節に「ソフトウェア」が、受け文節に「インストール」がそれぞれ含まれていることを意味する(「ソフトウェアをインストールする」)。基本単位間の関係として文節係り受け関係を利用することで、一般に文書検索などで利用される単語の論理式「ソフトウェア&インストール」のように単に文書データ内の共起出現関係を指定するのではなく、基本単位が文書データ内で意味的に強い関係をもって出現していることを指定することができる。   The relationship between basic units indicates that there is a strong semantic relationship between basic units. This semantically strong relationship basically means being included in a clause having a dependency relationship. Assuming that the relationship between basic units is represented by “⇒”, for example, the concept representation “software → installation” of “concept representation 8” in FIG. 2 is expressed as “software” in the two clauses in the dependency relationship. "Means that the installation clause includes" installation "(" install software "). By using the phrase dependency relationship as the relationship between basic units, it is not possible to simply specify the co-occurrence appearance relationship in the document data like the logical expression “software & install” of words generally used in document search etc. It can be specified that the basic unit appears in the document data with a semantically strong relationship.

文節係り受け関係は、ある文節が係り文節になる場合は受け文節は1つのみであるが、複数の係り文節が同じ1つの受け文節に係ることができる。例えば、図1の「文節4」は「文節2」と「文節3」の受け文節となっている。そのため、概念表現における基本単位間の関係の表現は複数の係り文節を持つ受け文節という文節間関係を表現する場合と、しない場合の2通りが可能である。   In the clause dependency relationship, when a certain clause becomes a dependency clause, there is only one reception clause, but a plurality of dependency clauses can relate to the same one reception clause. For example, “Phrase 4” in FIG. 1 is a receiving clause of “Phrase 2” and “Phrase 3”. For this reason, there are two ways of expressing the relationship between basic units in the concept expression: when expressing the inter-phrase relationship of receiving clauses having a plurality of dependency clauses, and when not expressing them.

1)複数の係り文節を持つ受け文節という文節間関係を表現しない場合、概念表現は基本単位の単純な1次元のリスト表現となる。これは例えば、図3の「概念表現例1」に相当する。   1) When not expressing the inter-phrase relationship of receiving clauses having a plurality of dependency clauses, the concept representation is a simple one-dimensional list representation of the basic unit. This corresponds to “concept expression example 1” in FIG. 3, for example.

2)複数の係り文節を持つ受け文節という文節間関係を表現する場合、概念表現は基本単位のツリー表現となる。これは例えば、図3の「概念表現例2」に相当する。
1)の場合、概念表現はユーザにとって簡単でわかりやすく、表現の拡張などの操作も行いやすいが、複雑な文節係り受け関係構造の表現ができない問題がある。2)の場合、複雑な文節係り受け関係構造も表現できるが、ユーザにとっては複雑でわかりにくく、操作も行いにくいと考えられる。1)、2)とも利用することができるが、以降の実施形態では、ユーザにとってわかりやすく操作もしやすい、1)の概念表現方法を用いて説明する。
2) When expressing the inter-phrase relationship of receiving clauses having a plurality of dependency clauses, the concept representation is a tree representation of the basic unit. This corresponds to “concept expression example 2” in FIG. 3, for example.
In the case of 1), the concept expression is simple and easy for the user to understand and easy to perform operations such as expansion of the expression, but there is a problem that the complicated phrase dependency relation structure cannot be expressed. In the case of 2), a complicated clause dependency relation structure can be expressed, but it is considered complicated and difficult to understand for the user and difficult to operate. Although both 1) and 2) can be used, the following embodiments will be described using the concept expression method 1) that is easy for the user to understand and operate.

更に、前述の概念表現に基づいて、指定された概念表現を拡張した概念表現を文書データから抽出する概念検索方法がある。例えば、図2における「概念表現9」の「インストール⇒実行」が指定された場合、「インストール⇒実行」が含まれる概念表現として図2における「概念表現10」から「概念表現12」、「概念表現17」から「概念表現20」を抽出し、図4に示す「拡張概念表現1」から「拡張概念表現7」とする。すなわち、図1の文書データに含まれる概念表現(図2に示す)から所望の基本単位を含む概念表現を拡張概念として抽出する。   Further, there is a concept retrieval method for extracting a concept expression obtained by extending a designated concept expression from document data based on the above-described concept expression. For example, when “installation → execution” of “concept expression 9” in FIG. 2 is specified, “concept expression 10” to “concept expression 12”, “concept” in FIG. The “concept expression 20” is extracted from the “expression 17” and is changed from “extended concept expression 1” to “extended concept expression 7” shown in FIG. That is, a concept expression including a desired basic unit is extracted as an extended concept from the concept expression (shown in FIG. 2) included in the document data of FIG.

[第1の実施形態]
本発明の第1の実施形態に係る文書処理装置を図5に示す。これは、前記特許文献1に記載の概念表現方法を適用した概念表現シソーラス辞書を備え、この概念表現シソーラス辞書に基づいて同義表現や関連表現を検索し、複数の異なる概念表現を1つの概念表現として扱うものである。
[First Embodiment]
FIG. 5 shows a document processing apparatus according to the first embodiment of the present invention. This is provided with a concept expression thesaurus dictionary to which the concept expression method described in Patent Document 1 is applied, and synonymous expressions and related expressions are searched based on the concept expression thesaurus dictionary, and a plurality of different concept expressions are converted into one concept expression. Are treated as

図5において、文書処理装置1は、言語処理部42における文書データ構造生成部430(図11に示す)により生成された文書データ構造を記憶する文書データ構造記憶部10と、言語処理部42における概念表現抽出部440(図11に示す)により抽出された概念表現に対してユニークな識別番号(ID)を付与し、例えば出現文書数、出現頻度の情報と共に記憶して管理する概念表現記憶部20と、前述の概念表現間の意味的な関係を表す概念表現シソーラス辞書を記憶する概念表現シソーラス辞書記憶部30と、入力された文書データに対して各種処理を行う文書処理部40と、ユーザの操作に基づいて文書処理に関する指定を受け付けて入力する指定受付部50と、文書処理結果などを表示するためのディスプレイ60と、を有する構成である。   5, the document processing apparatus 1 includes a document data structure storage unit 10 that stores a document data structure generated by a document data structure generation unit 430 (shown in FIG. 11) in the language processing unit 42, and a language processing unit 42. A concept expression storage unit that assigns a unique identification number (ID) to the concept expression extracted by the concept expression extraction unit 440 (shown in FIG. 11) and stores and manages it together with information on the number of appearance documents and the appearance frequency, for example. 20, a concept expression thesaurus dictionary storage unit 30 that stores a concept expression thesaurus dictionary that represents a semantic relationship between the above-described concept expressions, a document processing unit 40 that performs various processes on input document data, and a user A specification receiving unit 50 for receiving and inputting a specification related to document processing based on the operation of the document, and a display 60 for displaying a document processing result and the like. It is a configuration that.

また、図5において、文書処理部40は、文書処理対象の文書データ(文書集合データ)を入力する文書データ取得部41と、概念表現の抽出及び拡張概念表現の検索を行う言語処理部42と、概念表現シソーラス辞書を用いて、指定された概念表現の同義表現や関連表現を検索する辞書検索部43と、例えば、辞書検索部43の検索結果をディスプレイ60に表示させる概念表現表示部44と、を有している。   In FIG. 5, a document processing unit 40 includes a document data acquisition unit 41 for inputting document data (document set data) to be processed, a language processing unit 42 for extracting concept expressions and searching for extended concept expressions. A dictionary search unit 43 for searching for synonymous expressions and related expressions of a specified concept expression using a concept expression thesaurus dictionary; and a concept expression display unit 44 for displaying the search result of the dictionary search unit 43 on the display 60, for example. ,have.

ここで、文書データ取得部41は、文書集合データに対してユニークなIDを付与し、言語処理部42に渡す。なお、前記文書集合データは、ユーザの操作で入力するようにしてもよいし、電子ファイル、データベースに格納されているテキストをスキャナなどで読み込むようにしてもよい。   Here, the document data acquisition unit 41 assigns a unique ID to the document set data and passes it to the language processing unit 42. The document set data may be input by a user operation, or text stored in an electronic file or database may be read by a scanner or the like.

概念表現シソーラス辞書記憶部30は、概念表現シソーラス辞書を記憶して管理する。この概念表現シソーラス辞書は、前述した概念表現間の意味的な関係として例えば、同義、広義、狭義、関連、反義を表すことができるが、本実施形態では同義表現と関連表現を表す概念表現シソーラス辞書を利用する。同義表現とは、同じ意味を表す表現であり、例えば「怒る」という表現に対して、「憤る」「腹を立てる」、「頭に来る」、「癪に障る」などの表現を同義表現とすることができる。関連表現は、同じ意味ではないが意味的に関連する表現であり、例えば「怒る」という表現に対して、「笑う」、「泣く」、「驚く」、「喜ぶ」などの表現を関連表現とすることができる。   The concept expression thesaurus dictionary storage unit 30 stores and manages the concept expression thesaurus dictionary. This conceptual expression thesaurus dictionary can express, for example, synonyms, broad meanings, narrow meanings, relations and anomalies as semantic relations between the above-described conceptual expressions, but in this embodiment, conceptual expressions that represent synonymous expressions and related expressions. Use a thesaurus dictionary. Synonymous expressions are expressions that express the same meaning. For example, expressions such as “get angry”, “get angry”, “coming to the head”, and “disturbing the moth” are synonymous expressions. can do. Related expressions are expressions that are not the same meaning but that are semantically related.For example, for expressions such as “anger”, expressions such as “laugh”, “cry”, “surprise”, and “joy” are related expressions. can do.

概念表現シソーラス辞書の構成要素を図6、図7、図8、図9に示す。概念表現シソーラス辞書では、概念を1つ以上の概念表現の基本単位のリストにより表現する。この表現は、図3における「概念表現例1」に相当する。また、概念表現の基本単位は、図6のように1つのトークン情報(表記、品詞)と、0又は1個以上の意図表現(意図タグ)リストと、を利用して表現される。図7に示すように、概念表現リストは、概念表現シソーラス辞書内で利用する概念表現と、この概念表現に付与された識別番号(概念表現ID)と、からなる。概念表現シソーラス辞書では、概念表現リストに基づいて概念表現を管理している。   The components of the concept expression thesaurus dictionary are shown in FIGS. 6, 7, 8, and 9. FIG. In the concept representation thesaurus dictionary, a concept is represented by a list of one or more basic units of concept representation. This expression corresponds to “concept expression example 1” in FIG. As shown in FIG. 6, the basic unit of the concept expression is expressed using one token information (notation, part of speech) and zero or one or more intention expression (intention tag) lists. As shown in FIG. 7, the concept expression list includes a concept expression used in the concept expression thesaurus dictionary and an identification number (concept expression ID) assigned to the concept expression. The concept expression thesaurus dictionary manages concept expressions based on a concept expression list.

また、概念表現シソーラス辞書には、同じ意味を表す同義表現のグループのリスト(同義表現グループリスト)が登録されている。図8に示すように、同義表現グループリストは、同義表現グループID、同義表現グループラベル、所属概念表現IDリストで構成されている。   In the concept expression thesaurus dictionary, a list of synonymous expression groups (synonymous expression group list) representing the same meaning is registered. As shown in FIG. 8, the synonym expression group list includes a synonym expression group ID, a synonym expression group label, and a belonging concept expression ID list.

また、概念表現シソーラス辞書には、関連表現リストが登録されている。図9に示すように、関連表現リストは、概念表現IDと、概念表現IDで指定される概念表現と意味的に関連する概念表現に付与された概念表現IDのリスト(関連概念表現IDリスト)と、同義表現グループIDで指定される概念表現と意味的に関連する同義表現グループに付与された同義表現グループIDのリスト(関連同義表現グループIDリスト)と、で構成されている。   A related expression list is registered in the concept expression thesaurus dictionary. As shown in FIG. 9, the related expression list is a list of concept expression IDs and concept expression IDs assigned to concept expressions that are semantically related to the concept expression specified by the concept expression ID (related concept expression ID list). And a list of synonym expression group IDs (related synonym expression group ID lists) assigned to synonym expression groups that are semantically related to the concept expression specified by the synonym expression group ID.

概念表現シソーラス辞書記憶部30では、前述の意図表現リスト、概念表現リスト、同義表現グループリスト、関連表現リストに基づいて、概念表現シソーラス辞書における概念表現間の同義表現関係、関連表現関係の情報を管理している。   The concept expression thesaurus dictionary storage unit 30 stores information on synonymous expression relations and related expression relations between concept expressions in the concept expression thesaurus dictionary based on the above-described intention expression list, concept expression list, synonym expression group list, and related expression list. I manage.

また、図5において、辞書検索部43は、指定受付部50を介して例えば「怒る」という概念表現が指定された場合、概念表現シソーラス辞書に登録された図7の概念表現リスト、図8の同義表現グループリスト、図9の関連表現リストに基づいて同義表現や関連表現を検索し、図10に示す同義表現(同義概念表現)及び関連表現(関連概念表現)を取得する。ここで、関連表現については、関連する概念表現だけでなく、関連する同義概念表現グループの情報を取得するようにしてもよい。   Further, in FIG. 5, when the conceptual expression “angry” is designated through the designation receiving unit 50, for example, the dictionary search unit 43 stores the conceptual expression list of FIG. 7 registered in the conceptual expression thesaurus dictionary, FIG. Based on the synonymous expression group list and the related expression list shown in FIG. 9, the synonymous expressions and related expressions are searched, and the synonymous expressions (synonymous concept expressions) and related expressions (related concept expressions) shown in FIG. 10 are acquired. Here, regarding the related expression, not only the related concept expression but also the information of the related synonymous concept expression group may be acquired.

次に、言語処理部42の構成を図11に示す。   Next, the configuration of the language processing unit 42 is shown in FIG.

図11において、言語処理部42は、文書データに対して形態素解析と係り受け解析を行う言語解析部420と、言語解析部420の解析結果に基づいて文書データのデータ構造を変換する文書データ構造生成部430と、文書データ構造生成部430で生成したデータ構造を利用して文書データに含まれる概念表現を抽出する概念表現抽出部440と、指定された概念表現を拡張した概念表現を文書データから抽出する拡張概念表現検索部450と、を有している。   In FIG. 11, a language processing unit 42 performs a morphological analysis and dependency analysis on document data, and a document data structure that converts the data structure of document data based on the analysis result of the language analysis unit 420. A generation unit 430, a concept expression extraction unit 440 that extracts a concept expression included in the document data using the data structure generated by the document data structure generation unit 430, and a concept expression obtained by extending the specified concept expression as document data. And an extended concept expression search unit 450 that extracts from.

ここで、言語解析部420では、形態素解析を行う場合、文書データ集合の文書データに含まれる単語を解析する。また、係り受け解析を行う場合、文書データに含まれる文、文節を解析し、文節間の関係として係りと受けの関係にある文節を解析する。例えば、「ソフトウェアのインストールが正常に実行できない。」という文に対して形態素解析及び係り受け解析を行い、図1に示す解析結果を取得する。   Here, when performing morphological analysis, the language analysis unit 420 analyzes words included in the document data of the document data set. When dependency analysis is performed, sentences and phrases included in the document data are analyzed, and phrases having a relationship between dependency and dependency are analyzed as a relationship between phrases. For example, morphological analysis and dependency analysis are performed on the sentence “Software installation cannot be executed normally”, and the analysis result shown in FIG. 1 is acquired.

文書データ構造生成部430では、言語解析部420の解析結果に基づいて各文書データを所定のデータ構造に変換する。ここでは、図12に示すように、「文書」、「文」、「文節」の木構造に変換している。また、データ構造の構成要素ごとに各種情報を付与する(図13に示す)。更に、図14に示すように、文書データに含まれる単語に対してユニークな識別子を付与した単語リストを生成する。ここで、文書データ構造生成部430は、単語リストの品詞情報や全体における出現頻度あるいは出現文書数を算出しておくこともできる。前記単語リスト、前記データ構造は、文書データ構造記憶部10が記憶して管理する。   The document data structure generation unit 430 converts each document data into a predetermined data structure based on the analysis result of the language analysis unit 420. Here, as shown in FIG. 12, it is converted into a tree structure of “document”, “sentence”, and “sentence”. In addition, various pieces of information are assigned to each component of the data structure (shown in FIG. 13). Further, as shown in FIG. 14, a word list is generated in which unique identifiers are assigned to the words included in the document data. Here, the document data structure generation unit 430 can also calculate the part-of-speech information of the word list, the appearance frequency in the whole, or the number of appearing documents. The word list and the data structure are stored and managed by the document data structure storage unit 10.

図13に示すように、前記データ構造の構成要素としての「文書」(図13(a)に相当する)は、文書データに含まれる文IDリストを管理し、同じく「文」は自分の文IDと、自分の文に含まれる文節IDリストと、を管理する。同じく「文節」は自分の文節IDと、文節に含まれる単語の単語IDリストと、係り文節IDリストと、受け文節IDと、を管理する。ここで、単語IDは、図14の単語リストにおける単語IDである。係り文節IDリストは、当該文節を受けとする係り文節のIDである。前記例にもあるように、1つの受け文節に対して複数の文節が係り文節となり得るので、係り文節IDリストで管理する。受け文節IDは、当該文節が係り文節となる受け文節のIDである。係り文節は受け文節を1つしかとることができない。ここで、文節が管理する情報として、係り受けの関係の種類を保持することも可能である。例えば、連体修飾なのか連用修飾なのか、などである。また、文節を結ぶ助詞の種類により関係の種類を記述することもできる。   As shown in FIG. 13, the “document” (corresponding to FIG. 13A) as a component of the data structure manages a sentence ID list included in the document data, and “sentence” is the own sentence. It manages IDs and clause ID lists included in one's own sentence. Similarly, “Phrase” manages its own phrase ID, a word ID list of words included in the phrase, a related phrase ID list, and a received phrase ID. Here, the word ID is a word ID in the word list of FIG. The related phrase ID list is an ID of a related phrase that receives the relevant phrase. As in the above example, since a plurality of clauses can be related clauses for one received clause, they are managed by the related clause ID list. The received phrase ID is an ID of a received phrase that is a related phrase. A dependency clause can take only one receiving clause. Here, it is also possible to hold the type of dependency relationship as information managed by the clause. For example, whether the modification is a continuous modification or a continuous modification. In addition, the type of relationship can be described by the type of particles that connect phrases.

また、図13の意図タグリストは、単語あるいは文節に対して付加的な意味を表す意図タグのデータである。ここでは、文節内の付属語表現などから文書データ構造内の単語あるいは文節に対して付加的な意味を表す意図タグを付与する。この意図タグは、文節内の付属語などが特定の付加的な意味を表している場合に、その意味をタグとして文節に付加するものである。例えば、「打消」「要望」「可能」「疑問」の意味タグは、文節内に所定の単語が出現した場合にその文節に付加する。1つの文節に複数の意図タグがつくこともある。前記意図タグリストにおける意図タグIDの例を図15に示す。なお、概念表現では、例えば「(+打消+可能)」といった表現で意図タグをあらわす。意図タグは単独でも概念表現にもなるし、「実行(+可能+打消)」といったように単語に付加した形でも用いることができる。   In addition, the intention tag list in FIG. 13 is data of intention tags representing additional meanings for words or phrases. Here, an intention tag representing an additional meaning is given to a word or phrase in the document data structure from an attached word expression in the phrase. This intention tag is used to add a meaning to a clause as a tag when an attached word or the like in the clause represents a specific additional meaning. For example, the meaning tags “cancellation”, “request”, “possible”, and “question” are added to a phrase when a predetermined word appears in the phrase. Multiple intention tags may be attached to one clause. An example of the intention tag ID in the intention tag list is shown in FIG. In the concept expression, for example, an intention tag is represented by an expression “(+ cancellation + possible)”. An intention tag can be used alone or as a conceptual expression, or can be used in a form added to a word such as “execution (+ possible + cancellation)”.

また、図11において、概念表現抽出部440は、前記文書データ構造を利用して当該文書データに含まれる概念表現を抽出する際、前処理として予め特定のパターンの概念表現については、文書データに含まれる全種類を抽出しておき、抽出した全種類の情報を元にしてユーザが基本概念表現の探索を行えるようにする。ここでは、「1単語」、「2単語」、「3単語」、「1単語(+意図タグ)」、「意図タグ」の5種類について予め全種類を計算するものとする。概念表現の抽出の際には、その概念表現が出現する文書数、あるいは出現頻度も算出する。また、概念表現抽出部440は、概念表現シソーラス辞書の概念表現リストに登録されている概念表現も抽出し、その概念表現が出現する文書数、あるいは出現頻度も算出する。概念表現抽出部440により抽出された概念表現は、概念表現記憶部20に記憶する。なお、本実施形態で利用する概念表現の抽出方法は、前記特許文献1において詳述されている。   In FIG. 11, when the concept expression extraction unit 440 uses the document data structure to extract the concept expression included in the document data, the concept expression of a specific pattern is previously stored in the document data as preprocessing. All types included are extracted, and the user can search for the basic concept expression based on the extracted information of all types. Here, it is assumed that all types of five types of “1 word”, “2 words”, “3 words”, “1 word (+ intention tag)”, and “intention tag” are calculated in advance. When extracting the concept expression, the number of documents in which the concept expression appears or the appearance frequency is also calculated. The concept expression extraction unit 440 also extracts the concept expressions registered in the concept expression list of the concept expression thesaurus dictionary and calculates the number of documents in which the concept expressions appear or the appearance frequency. The concept representation extracted by the concept representation extraction unit 440 is stored in the concept representation storage unit 20. Note that the method of extracting a concept expression used in the present embodiment is described in detail in Patent Document 1.

拡張概念表現検索部450は、概念表現記憶部20を利用し、ユーザが指定した概念表現に対して、トークンのみで構成される概念表現の基本単位を1つ追加するパターンの概念表現と、指定された概念表現の末端の概念表現の基本単位の意図タグを追加するパターンの概念表現と、を抽出する。例えば、図1の「ソフトウェアのインストールが正常に実行できない」という文書データについて、「インストール⇒実行」という概念表現が指定された場合、図4の「拡張概念表現1」から「拡張概念表現4」を抽出する。   The extended concept expression search unit 450 uses the concept expression storage unit 20 to add a basic unit of a concept expression composed only of tokens to the concept expression specified by the user, and specify the pattern. The concept expression of the pattern to which the intention tag of the basic unit of the concept expression at the end of the generated concept expression is added is extracted. For example, when the concept expression “installation → execution” is designated for the document data “software installation cannot be executed normally” in FIG. 1, “extended concept expression 1” to “extended concept expression 4” in FIG. To extract.

また、拡張概念表現検索部450は、同義表現グループ概念表現を指定して拡張概念表現検索を行うこともできる(請求項5)。同義表現グループ概念表現が指定された場合、同義表現グループに所属する概念表現すべてについて拡張概念表現検索を行い、その情報を1つにまとめることで拡張検索を行う。例えば、対象概念表現として同義表現グループ概念表現「怒る(同義)」が指定された場合、所属概念表現である、「怒る」「憤る」「頭⇒来る」「癪⇒障る」「腹⇒立つ」について拡張概念表現検索を行う。   Further, the extended concept expression search unit 450 can perform an extended concept expression search by designating a synonym expression group concept expression (claim 5). When the synonym expression group concept expression is designated, an extended concept expression search is performed for all the concept expressions belonging to the synonym expression group, and the information is combined into one to perform an extended search. For example, if the synonym expression group concept expression “get angry (synonymous)” is specified as the target concept expression, the affiliation concept expressions are “anger”, “speak”, “head ⇒ come”, “障 ⇒ fail”, “belly ⇒ stand” Perform extended concept expression search for.

ここで、概念表現の基本単位を1つ追加する拡張検索の例を図16に示す。   Here, FIG. 16 shows an example of an extended search in which one basic unit of concept expression is added.

図16において、(A)は、同義表現グループ概念表現の所属概念表現に対する拡張概念表現検索の結果である。(B)は、(A)の結果を追加した概念表現の基本単位の位置をトークンで並べ替えたものである。(C)は、同義表現グループ概念表現の所属概念表現を同義表現グループラベルで置き換えたものである。(D)は、(C)において同じ概念表現のものをまとめたものである。ここでは、拡張概念表現検索部450の拡張検索の結果として(D)を抽出する。なお、出現頻度が必要な場合は、同じ概念表現をまとめる際にそれぞれの出現頻度の和を計算する。   In FIG. 16, (A) shows the result of the extended concept expression search for the belonging concept expression of the synonymous expression group concept expression. (B) is the result of rearranging the positions of the basic units of the conceptual expression to which the result of (A) is added, by tokens. (C) is obtained by replacing the belonging concept expression of the synonym expression group concept expression with the synonym expression group label. (D) is a summary of the same conceptual representation in (C). Here, (D) is extracted as a result of the extended search by the extended concept expression search unit 450. If the appearance frequency is required, the sum of the appearance frequencies is calculated when the same concept expression is put together.

次に、指定された概念表現の末端の概念表現基本単位の意図タグを追加する拡張検索の例を図17に示す。   Next, FIG. 17 shows an example of an extended search for adding an intention tag of a concept expression basic unit at the end of a specified concept expression.

図17において、(A)は、同義表現グループ概念表現の所属概念表現に対する拡張概念表現検索の結果である。(B)は、(A)の結果を追加した意図タグで並べ替えたものである。(C)は、同義表現グループ概念表現の所属概念表現を同義表現グループラベルで置き換えたものである。(D)は、(C)において同じ概念表現のものをまとめたものである。ここでは、拡張概念表現検索部450の拡張検索の結果として(D)を抽出する。なお、出現頻度が必要な場合は、同じ概念表現をまとめる際にそれぞれの出現頻度の和を計算する。   In FIG. 17, (A) shows the result of the extended concept expression search for the belonging concept expression of the synonymous expression group concept expression. (B) is the result of rearranging the result of (A) with the added intention tag. (C) is obtained by replacing the belonging concept expression of the synonym expression group concept expression with the synonym expression group label. (D) is a summary of the same conceptual representation in (C). Here, (D) is extracted as a result of the extended search by the extended concept expression search unit 450. If the appearance frequency is required, the sum of the appearance frequencies is calculated when the same concept expression is put together.

更に、図16、図17の拡張検索を併せた場合の検索結果を図18に示す。   Further, FIG. 18 shows a search result when the extended search of FIGS. 16 and 17 is combined.

拡張概念表現検索部450は、前述のように概念表現の基本単位を1つ追加する拡張検索と、指定された概念表現の末端の概念表現基本単位の意図タグを追加する拡張検索と、を行い、双方の検索結果を合わせて図18の最終的な拡張概念表現の検索結果を取得する。   As described above, the extended concept expression search unit 450 performs an extended search for adding one basic unit of a concept expression and an extended search for adding an intention tag of a concept basic unit at the end of a specified concept expression. The search results of the final extended concept expression in FIG. 18 are acquired by combining both search results.

次に、概念表現抽出部440の構成を図19に示す。   Next, the configuration of the concept expression extraction unit 440 is shown in FIG.

図19において、概念表現抽出部440は、トークン抽出部441と、意図表現抽出部442と、概念表現基本単位間関係抽出部443と、概念表現生成部444と、概念表現基本単位生成部445と、を有している。概念表現基本単位生成部445は、トークン抽出部441と意図表現抽出部442からそれぞれ、トークンと意図表現を受け取り、これらに基づいて概念表現の基本単位を生成する。   In FIG. 19, the concept expression extraction unit 440 includes a token extraction unit 441, an intention expression extraction unit 442, a concept expression basic unit relationship extraction unit 443, a concept expression generation unit 444, and a concept expression basic unit generation unit 445. ,have. The conceptual expression basic unit generation unit 445 receives the token and the intention expression from the token extraction unit 441 and the intention expression extraction unit 442, respectively, and generates a basic unit of the concept expression based on them.

ここで、概念表現生成部444は、概念表現シソーラス辞書の同義表現グループを1つの概念表現(同義表現グループ概念表現)として抽出し、概念表現記憶部20に登録する。この同義表現グループ概念表現は、対応する同義表現グループに所属する概念表現を1つに(同義表現グループラベルごとに)まとめたものであり、同義表現グループ概念表現の出現頻度は所属する概念表現の出現頻度の和(もしくは集合和)で表現している。例えば、図7の概念表現リスト、図8の同義表現グループリスト、図9の関連表現リストの情報に基づいて、図20に示す同義表現グループ概念表現を生成する。   Here, the concept expression generation unit 444 extracts the synonym expression group of the concept expression thesaurus dictionary as one concept expression (synonym expression group concept expression) and registers it in the concept expression storage unit 20. This synonym expression group concept expression is a collection of concept expressions belonging to the corresponding synonym expression group (for each synonym expression group label), and the frequency of occurrence of the synonym expression group concept expression is the frequency of the concept expression to which it belongs. It is expressed as the sum of appearance frequencies (or set sum). For example, the synonym expression group concept expression shown in FIG. 20 is generated based on the information in the concept expression list in FIG. 7, the synonym expression group list in FIG. 8, and the related expression list in FIG.

以上のように構成された文書処理装置1について、図21を用いてその同義表現検索の手順を説明する。   The document processing apparatus 1 configured as described above will be described with reference to FIG.

文書処理部40において、辞書検索部43は、指定受付部50を介して指定された概念表現が概念表現シソーラス辞書の概念表現リストに登録されているかを調べ(S101、S102)、登録されていれば概念表現IDを取得して(S103)、S104へ進み、登録されていなければ処理を終了する。   In the document processing unit 40, the dictionary search unit 43 checks whether the concept expression specified via the specification receiving unit 50 is registered in the concept expression list of the concept expression thesaurus dictionary (S101, S102). For example, the concept expression ID is acquired (S103), and the process proceeds to S104.

次いで、辞書検索部43は、S104で取得した同義表現グループIDに基づいて、同義表現グループリストに登録されている同義表現グループに対し、所属概念表現IDリストにS103で取得した概念表現IDを含むかどうかを調べ(S105)、含んでいたら同義表現グループIDを取得する(S106)。   Next, the dictionary search unit 43 includes the concept expression ID acquired in S103 in the belonging concept expression ID list for the synonym expression groups registered in the synonym expression group list based on the synonym expression group ID acquired in S104. (S105), and if it is included, the synonym expression group ID is acquired (S106).

この後、辞書検索部43は、同義表現グループリストに登録されているすべての同義表現グループに対して、S105、S106の処理を行う(S107、S108)
次に、前述のように構成された文書処理装置1について、図22を用いてその関連表現検索の手順を説明する。
Thereafter, the dictionary search unit 43 performs the processes of S105 and S106 for all the synonym expression groups registered in the synonym expression group list (S107 and S108).
Next, the related expression search procedure for the document processing apparatus 1 configured as described above will be described with reference to FIG.

文書処理部40において、辞書検索部43は、指定受付部50を介して指定された概念表現が概念表現シソーラス辞書の概念表現リストに登録されているかを調べ(S201、S202)、登録されていれば概念表現IDを取得し(S203)、S204へ進み、登録されていなければ処理を終了する。   In the document processing unit 40, the dictionary search unit 43 checks whether the concept expression designated via the designation receiving unit 50 is registered in the concept expression list of the concept expression thesaurus dictionary (S201, S202). For example, the concept expression ID is acquired (S203), and the process proceeds to S204.

S204において、辞書検索部43は、関連表現リストにおいて、S203で取得した概念表現IDと同じ概念表現IDを探し、見つかったら、その概念表現IDに対応する関連概念表現IDリストと関連同義表現グループIDリストを取得する(S205、S206)。   In S204, the dictionary search unit 43 searches the related expression list for the same concept expression ID as the concept expression ID acquired in S203. If found, the related concept expression ID list and the related synonym expression group ID corresponding to the concept expression ID are found. A list is acquired (S205, S206).

次いで、辞書検索部43は、関連同義表現グループIDリストに未処理の関連同義表現グループIDがある場合には、関連同義表現グループIDに所属する概念表現IDを関連概念表現IDリストに追加する(S207、S208)。この後、関連同義表現グループIDリストのすべての同義表現グループに対してS206〜S208の処理が行われると、同義表現検索を終了する。   Next, when there is an unprocessed related synonym expression group ID in the related synonym expression group ID list, the dictionary search unit 43 adds the concept expression ID belonging to the related synonym expression group ID to the related concept expression ID list ( S207, S208). Thereafter, when the processes of S206 to S208 are performed on all the synonym expression groups in the related synonym expression group ID list, the synonym expression search is ended.

次に、前述のように構成された文書処理装置1について、図23を用いてその同義表現グループ概念表現の生成手順を説明する。   Next, a procedure for generating the synonym expression group conceptual expression for the document processing apparatus 1 configured as described above will be described with reference to FIG.

概念表現抽出部440において、概念表現生成部444は、概念表現シソーラス辞書の同義表現グループリストに登録されている1つの同義表現グループの所属概念表現IDリストを取得する(S301)。   In the concept expression extraction unit 440, the concept expression generation unit 444 acquires the belonging concept expression ID list of one synonym expression group registered in the synonym expression group list of the concept expression thesaurus dictionary (S301).

次いで、概念表現生成部444は、その所属概念表現IDリストにある概念表現が、概念表現記憶部20に登録されているかを調べる(S302)。ここで、所属概念表現IDリストにある概念表現が1つ以上登録されていれば、その概念表現に対応する同義表現グループを同義表現グループ概念表現として概念表現記憶部20に登録する(S303)。
この後、概念表現生成部444は、S301からS303の処理を概念表現シソーラス辞書の同義表現グループリストに登録されているすべての同義表現グループに対して行う(S304)。
Next, the concept representation generation unit 444 checks whether the concept representation in the belonging concept representation ID list is registered in the concept representation storage unit 20 (S302). If one or more concept expressions in the belonging concept expression ID list are registered, the synonym expression group corresponding to the concept expression is registered in the concept expression storage unit 20 as the synonym expression group concept expression (S303).
Thereafter, the concept representation generation unit 444 performs the processing from S301 to S303 for all the synonym representation groups registered in the synonym representation group list of the concept representation thesaurus dictionary (S304).

ここで、概念表現表示部44の概念表現表示例を図24から図26に示す。   Here, examples of the concept expression display of the concept expression display unit 44 are shown in FIGS.

概念表現表示部44は、指定受付部50を介して受け付け入力されたユーザの指定に基づいて、言語処理部42で抽出された概念表現をディスプレイ60の画面に表示させる。この画面において、ユーザは図24の基本概念表現ブラウザ61により、例えば抽出された概念表現を参照、あるいは拡張概念表現検索結果を参照することで概念表現を探索するようになっている。図24において、基本概念表現ブラウザ61には、基本概念表現表示領域65と、拡張概念表現表示領域66、67と、カテゴリリスト表示領域62と、ワークスペース63と、テキストブラウザ64と、が設定されている。基本概念表現表示領域65には、基本概念表現と、この基本概念表現が含まれている文書データの数を記す出現文書数と、この基本概念表現の品詞が表示される。拡張概念表現表示領域66、67には、基本概念表現表示領域65に表示される概念表現のうち、ユーザから指定された概念表現に基づいて生成された拡張概念表現が表示される。カテゴリリスト表示領域62、ワークスペース63には、文書カテゴリ生成部92(図29に示す)によって生成された文書カテゴリのカテゴリリストが表示される。ワークスペース63には、文書カテゴリがグラフィカル表示される。テキストブラウザ64には、文書カテゴリ生成部92によって生成された文書カテゴリに分配された文書データが表示される。また、対象カテゴリ指定の入力欄68に、ユーザの指定操作に基づいて対象となるカテゴリが入力されると、このカテゴリに所属する文書データで構成される文書集合に含まれる概念表現が表示される。また、概念表現表示部44は、ユーザの指定に基づいて、図25に示すように同義表現グループの概念表現としてラベルだけをディスプレイ60の画面に表示させる。同じく、図26に示すように同義表現グループのラベルと所属概念表現を表示する。   The concept expression display unit 44 displays the concept expression extracted by the language processing unit 42 on the screen of the display 60 based on the user's designation received and input via the designation receiving unit 50. In this screen, the user searches the concept expression by referring to the extracted concept expression or referring to the extended concept expression search result by using the basic concept expression browser 61 of FIG. 24, a basic concept expression display area 65, extended concept expression display areas 66 and 67, a category list display area 62, a workspace 63, and a text browser 64 are set in the basic concept expression browser 61. ing. The basic concept expression display area 65 displays the basic concept expression, the number of appearing documents indicating the number of document data containing the basic concept expression, and the part of speech of the basic concept expression. In the extended concept expression display areas 66 and 67, among the concept expressions displayed in the basic concept expression display area 65, an extended concept expression generated based on the concept expression designated by the user is displayed. In the category list display area 62 and the workspace 63, a category list of document categories generated by the document category generation unit 92 (shown in FIG. 29) is displayed. In the workspace 63, document categories are displayed graphically. The text browser 64 displays the document data distributed to the document categories generated by the document category generation unit 92. In addition, when a target category is input to the target category designation input field 68 based on a user's designation operation, conceptual expressions included in a document set composed of document data belonging to this category are displayed. . Further, the concept expression display unit 44 displays only the label on the screen of the display 60 as the concept expression of the synonym expression group as shown in FIG. Similarly, as shown in FIG. 26, the label of the synonymous expression group and the belonging concept expression are displayed.

このような本発明の第1の実施形態に係る文書処理装置1によれば、文書に含まれる文節情報から抽出されたトークンと意図表現の組み合わせで文書に含まれる概念を表現し、更に文節間の関係情報に基づいて複数の概念表現の関係を表現し、トークンと意図表現の組み合わせによる概念表現及び概念表現間の関係に基づいて文書データを処理する構成において、処理対象となる文書データの集合を取得する文書データ取得部41(文書データ取得手段に相当する)と、ここで取得された文書データに対して言語解析処理を行い、文書データに含まれる概念表現を抽出する言語処理部42(言語処理手段に相当する)と、ここで抽出された概念表現を表示する概念表現表示部44及びディスプレイ60(概念表現表示手段に相当する)と、文書に含まれる概念を表現した概念表現を登録する概念表現シソーラス辞書を記憶する概念表現シソーラス辞書記憶部30(概念表現シソーラス辞書記憶手段に相当する)と、概念表現シソーラス辞書から概念表現を検索する辞書検索部43(辞書検索手段に相当する)と、を備えた構成を有している。この構成は、請求項1、請求項7に係る本発明の実施の一形態に相当する。   According to the document processing apparatus 1 according to the first embodiment of the present invention, the concept included in the document is expressed by a combination of the token extracted from the phrase information included in the document and the intention expression, and further, the inter-phrase interval A set of document data to be processed in a configuration in which a relationship between a plurality of concept expressions is expressed based on the relationship information, and the document data is processed based on a concept expression based on a combination of a token and an intention expression and the relationship between the concept expressions. A document data acquisition unit 41 (corresponding to document data acquisition means), and a language processing unit 42 that performs language analysis on the acquired document data and extracts a concept expression included in the document data ( Language expression means), a concept expression display unit 44 and a display 60 (corresponding to concept expression display means) for displaying the concept expression extracted here, a sentence A concept expression thesaurus dictionary storage unit 30 (corresponding to the concept expression thesaurus dictionary storage means) for storing a concept expression thesaurus dictionary for registering concept expressions expressing the concepts included in the dictionary, and a dictionary for retrieving concept expressions from the concept expression thesaurus dictionary And a search unit 43 (corresponding to dictionary search means). This configuration corresponds to an embodiment of the present invention according to claims 1 and 7.

この構成により、従来の単語間の意味的な関係ではなく、複数の単語で表現される概念間の意味的な関係を概念表現シソーラス辞書として利用することができるので、テキストデータ分析における統計分析の精度向上、あるいは文書検索の精度向上に役立つ。例えば、言語処理部42により抽出された概念表現を、辞書検索部43が概念表現シソーラス辞書から検索することで、容易に同義の概念表現に係る文書を取得することができる。また、概念表現表示部44は、文書データから抽出された概念表現をディスプレイ60の画面に表示するので、ユーザは容易にその概念表現を確認することができ、使い勝手が向上する。   With this configuration, it is possible to use a semantic relationship between concepts expressed by a plurality of words, rather than a conventional semantic relationship between words, as a concept expression thesaurus dictionary. Useful for improving accuracy or document search accuracy. For example, the dictionary retrieval unit 43 retrieves the concept expression extracted by the language processing unit 42 from the concept expression thesaurus dictionary, whereby a document related to the synonymous concept expression can be easily acquired. Moreover, since the concept expression display unit 44 displays the concept expression extracted from the document data on the screen of the display 60, the user can easily confirm the concept expression, and usability is improved.

また、本実施形態によれば、概念表現シソーラス辞書に登録されている同義の概念表現グループに基づいて一の概念表現を抽出する概念表現抽出部440(概念表現抽出手段に相当する)と、概念表現抽出部440により抽出された同義表現グループ概念表現を表示する概念表現表示部44及びディスプレイ60(概念表現表示手段に相当する)と、を備えた構成を有している。この構成は、請求項3、請求項9に係る本発明の実施の一形態に相当する。   Further, according to the present embodiment, a concept expression extraction unit 440 (corresponding to a concept expression extraction unit) that extracts one concept expression based on synonymous concept expression groups registered in the concept expression thesaurus dictionary, and a concept It has a configuration provided with a concept expression display unit 44 and a display 60 (corresponding to concept expression display means) for displaying the synonymous expression group concept expression extracted by the expression extraction unit 440. This configuration corresponds to an embodiment of the present invention according to claims 3 and 9.

この構成により、同義表現グループに所属する概念表現に対応する文書の検索精度が高まる。また、概念表現表示部44は、同義表現グループ概念表現をディスプレイ60の画面に表示させるので、ユーザの使い勝手が向上する。   With this configuration, the search accuracy of documents corresponding to concept expressions belonging to the synonym expression group is increased. Moreover, since the conceptual expression display unit 44 displays the synonymous expression group conceptual expression on the screen of the display 60, the usability of the user is improved.

また、本実施形態によれば、概念表現シソーラス辞書に登録されている概念表現を拡張した拡張概念表現を検索するために、文書データの集合に含まれる概念表現を指定するための指定受付部50、概念表現表示部44及びディスプレイ60(拡張概念表現指定手段に相当する)と、この指定に基づいて、概念表現シソーラス辞書に登録されている指定された概念表現を検索して一の同義概念表現にまとめ、処理対象となる文書データの集合から前記一の同義概念表現を検索する拡張概念表現検索部450(拡張概念表現検索手段に相当する)と、を備え、概念表現表示部44は、拡張概念表現検索部450の検索結果をディスプレイ60の画面に表示させるようにした構成を有している。この構成は、請求項5、請求項11に係る本発明の実施の一形態に相当する。   In addition, according to the present embodiment, the designation receiving unit 50 for designating a concept expression included in a set of document data in order to search for an extended concept expression obtained by extending the concept expression registered in the concept expression thesaurus dictionary. , A concept expression display unit 44 and a display 60 (corresponding to an extended concept expression specifying means), and on the basis of this specification, the designated concept expression registered in the concept expression thesaurus dictionary is searched to obtain one synonym concept expression And an extended concept expression search unit 450 (corresponding to an extended concept expression search unit) for searching for the one synonymous concept expression from a set of document data to be processed. The search result of the concept expression search unit 450 is displayed on the screen of the display 60. This configuration corresponds to an embodiment of the present invention according to claims 5 and 11.

この構成により、概念表現シソーラス辞書を用い、ユーザの指定に基づいて拡張概念表現検索を行い、更に拡張概念表現検索の結果をディスプレイ60の画面に表示させるので、ユーザの使い勝手が向上する。   With this configuration, the concept expression thesaurus dictionary is used to perform an extended concept expression search based on the user's specification, and the result of the extended concept expression search is displayed on the screen of the display 60, thereby improving user convenience.

なお、前述した実施形態では図示していないが、本発明の文書処理装置1をパーソナルコンピュータ(例えば、CPU、RAM、ROM、HDDなどの記憶部、通信部、液晶ディスプレイなどの表示部、キーボード、ポインティングデバイスなどの操作部を有する)で構成し、パーソナルコンピュータを前述の文書データ取得手段、言語処理手段、概念表現表示手段、概念表現シソーラス辞書記憶手段、辞書検索手段、概念表現抽出手段、拡張概念表現指定手段、拡張概念表現検索手段として機能させるようにしても同様の効果が得られるものである。また、図21から図23に示す処理手順、前述の文書データ取得手段、言語処理手段、概念表現表示手段、概念表現シソーラス辞書記憶手段、辞書検索手段、概念表現抽出手段、拡張概念表現指定手段、拡張概念表現検索手段の行う処理手順を前記パーソナルコンピュータに実行させるためのプログラムを前記記憶部に記憶するようにしてもよい。   Although not shown in the above-described embodiment, the document processing apparatus 1 of the present invention is a personal computer (for example, a storage unit such as a CPU, RAM, ROM, and HDD, a communication unit, a display unit such as a liquid crystal display, a keyboard, A personal computer having the above-mentioned document data acquisition means, language processing means, concept expression display means, concept expression thesaurus dictionary storage means, dictionary search means, concept expression extraction means, and extended concept The same effect can be obtained by functioning as an expression designating means and an extended concept expression searching means. Further, the processing procedure shown in FIGS. 21 to 23, the aforementioned document data acquisition means, language processing means, concept expression display means, concept expression thesaurus dictionary storage means, dictionary search means, concept expression extraction means, extended concept expression designation means, You may make it memorize | store the program for making the said personal computer perform the process sequence which an extended concept expression search means performs in the said memory | storage part.

[第2の実施形態]
次に、本発明の第2の実施形態に係る文書処理装置を図27に示す。これは、第1の実施形態とは、概念表現シソーラス辞書を用い、指定された概念表現の同義表現、関連表現を検索して検索結果を表示するようにした点が相異している。なお、第1の実施形態と同一構成には同一符号を付与して説明を一部省略する。
[Second Embodiment]
Next, a document processing apparatus according to the second embodiment of the present invention is shown in FIG. This is different from the first embodiment in that a concept expression thesaurus is used to search for synonymous expressions and related expressions of a specified concept expression and display a search result. In addition, the same code | symbol is provided to the same structure as 1st Embodiment, and description is abbreviate | omitted partially.

図27において、辞書検索結果表示部45は、指定受付部50を介して受け付け入力された、概念表現の指定に基づいて辞書検索部43により検索された前記概念表現の同義表現、関連表現をディスプレイ60の画面に表示させるものである。   In FIG. 27, the dictionary search result display unit 45 displays the synonymous expression and the related expression of the concept expression searched by the dictionary search unit 43 based on the designation of the concept expression received and input via the designation receiving unit 50. 60 screens are displayed.

ここで、辞書検索ダイアログ例を図28に示す。   Here, FIG. 28 shows an example of a dictionary search dialog.

例えば、ユーザの操作に基づいて指定受付部50を介し、ディスプレイ60に表示した関連表現検索画面70の検索対象概念表現の入力欄71に概念表現(例えば「怒る」)が入力され、更に検索ボタン72が指示入力されると、辞書検索部43は、前述したように概念表現シソーラス辞書から同義表現、関連表現を検索する。辞書検索結果表示部45は、辞書検索部43の検索結果に基づいて、所定の検索結果欄73、74に検索結果を表示させる。なお、図28(a)の関連表現検索画面70においては、関連表現検索結果の同義表現グループをラベルのみで表示している。また、図28(b)の関連表現検索画面70においては、関連表現検索結果の同義表現グループをラベルと所属概念表現で表示している。本実施形態に限らず、概念表現の指定は、ディスプレイ60に表示されている概念表現を選択することで指定するようにしてもよい。   For example, a concept expression (for example, “get angry”) is input into the search target concept expression input field 71 of the related expression search screen 70 displayed on the display 60 via the designation receiving unit 50 based on a user operation, and a search button. When 72 is input, the dictionary search unit 43 searches for a synonym expression and a related expression from the concept expression thesaurus dictionary as described above. The dictionary search result display unit 45 displays search results in predetermined search result fields 73 and 74 based on the search results of the dictionary search unit 43. In the related expression search screen 70 of FIG. 28A, the synonymous expression groups of the related expression search results are displayed only with labels. In the related expression search screen 70 of FIG. 28B, the synonymous expression group of the related expression search result is displayed with the label and the belonging concept expression. The designation of the concept expression is not limited to the present embodiment, and may be performed by selecting the concept expression displayed on the display 60.

このような本発明の第2の実施形態に係る文書処理装置1によれば、概念表現シソーラス辞書に登録されている、同義の概念表現及び同義ではないが意味的に関連する概念表現を検索するために、文書データの集合に含まれる概念表現を指定するための指定受付部50、辞書検索結果表示部45及びディスプレイ60(同義関連概念表現指定手段に相当する)と、前記同義の概念表現及び前記関連する概念表現の検索結果を表示する辞書検索結果表示部45及びディスプレイ60(同義関連概念表現表示手段に相当する)と、を備え、辞書検索部43は、指定受付部50を介しての指定に基づいて、概念表現シソーラス辞書に登録されている前記同義の概念表現及び前記関連する概念表現を検索し、辞書検索結果表示部45は、辞書検索部43の検索結果をディスプレイ60の画面に表示させるようにした構成を有している。この構成は、請求項4、請求項10に係る本発明の実施の一形態に相当する。   According to the document processing apparatus 1 according to the second embodiment of the present invention, a synonymous conceptual expression registered in the conceptual expression thesaurus dictionary and a conceptual expression that is not synonymous but semantically related are searched. Therefore, a designation receiving unit 50 for designating concept expressions included in a set of document data, a dictionary search result display unit 45 and a display 60 (corresponding to synonym related concept expression designating means), the synonymous concept expressions, A dictionary search result display unit 45 and a display 60 (corresponding to synonym related concept expression display means) for displaying the search result of the related concept expression. The dictionary search unit 43 is connected via the designation receiving unit 50. Based on the designation, the synonymous concept expression and the related concept expression registered in the concept expression thesaurus dictionary are searched, and the dictionary search result display unit 45 includes the dictionary search unit 4. The results of the search has a configuration which is adapted to be displayed on the screen of the display 60. This configuration corresponds to an embodiment of the present invention according to claims 4 and 10.

この構成により、ユーザに指定された概念表現の同義表現、関連表現を概念表現シソーラス辞書から検索し、ディスプレイ60の画面に表示するので、ユーザの使い勝手が向上する。   With this configuration, synonymous expressions and related expressions of the concept expression designated by the user are retrieved from the concept expression thesaurus dictionary and displayed on the screen of the display 60, so that the user convenience is improved.

なお、前述した実施形態では図示していないが、本発明の文書処理装置1をパーソナルコンピュータ(例えば、CPU、RAM、ROM、HDDなどの記憶部、通信部、液晶ディスプレイなどの表示部、キーボード、ポインティングデバイスなどの操作部を有する)で構成し、パーソナルコンピュータを前述の同義関連概念表現指定手段、同義関連概念表現表示手段として機能させるようにしても同様の効果が得られるものである。   Although not shown in the above-described embodiment, the document processing apparatus 1 of the present invention is a personal computer (for example, a storage unit such as a CPU, RAM, ROM, and HDD, a communication unit, a display unit such as a liquid crystal display, a keyboard, The same effect can be obtained even if the personal computer functions as the above-mentioned synonym related concept expression designation means and synonym related concept expression display means.

[第3の実施形態]
次に、本発明の第3の実施形態に係る文書処理装置を図29に示す。これは、第1の実施形態とは、例えば、文書カテゴリ生成部92によって文書カテゴリを生成し、生成した文書カテゴリを文書カテゴリ表示部94によって表示させるようにした点が相異している。なお、第1の実施形態と同一構成には同一符号を付与して説明を一部省略する。
[Third Embodiment]
Next, FIG. 29 shows a document processing apparatus according to the third embodiment of the present invention. This is different from the first embodiment in that, for example, a document category is generated by the document category generation unit 92 and the generated document category is displayed by the document category display unit 94. In addition, the same code | symbol is provided to the same structure as 1st Embodiment, and description is abbreviate | omitted partially.

ここで、文書カテゴリとは、所属文書の基準となるカテゴリ定義を持ち、定義に基づいて集められた文書をメンバーとする文書グループである。この文書カテゴリを文書カテゴリ記憶部80が記憶、管理するための情報を図30に示す。図30に示すように、文書カテゴリは、カテゴリID 、カテゴリ定義、所属文書IDリスト、所属文書数、カテゴリラベルによって管理されている。なお、カテゴリラベルはユーザに入力を求めるようにしてもよい。また、カテゴリ定義は、カテゴリID、所属文書IDリスト、所属文書数、カテゴリラベルとは別途管理している。   Here, the document category is a document group having a category definition as a reference for the belonging document and having a document collected based on the definition as a member. FIG. 30 shows information for the document category storage unit 80 to store and manage this document category. As shown in FIG. 30, the document category is managed by category ID, category definition, belonging document ID list, number of belonging documents, and category label. The category label may be requested from the user. The category definition is managed separately from the category ID, the belonging document ID list, the number of belonging documents, and the category label.

図29において、文書処理部40は、前述の文書カテゴリを生成する文書カテゴリ生成部92と、文書カテゴリ生成部92により生成された文書カテゴリをシソーラス辞書に登録する辞書登録部91と、文書カテゴリ生成部92により生成された文書カテゴリを記憶する文書カテゴリ記憶部80と、文書カテゴリ生成部92により生成された文書カテゴリをディスプレイ60に表示させる文書カテゴリ表示部94と、指定された概念表現を含む文書データを生成する文書データ生成部93と、文書データ生成部93により生成された文書データをディスプレイ60に表示させる文書データ表示部95と、を有している。   29, the document processing unit 40 includes a document category generation unit 92 that generates the document category, a dictionary registration unit 91 that registers the document category generated by the document category generation unit 92 in the thesaurus dictionary, and a document category generation. A document category storage unit 80 for storing the document category generated by the unit 92, a document category display unit 94 for displaying the document category generated by the document category generation unit 92 on the display 60, and a document including the specified conceptual expression A document data generation unit 93 that generates data, and a document data display unit 95 that displays the document data generated by the document data generation unit 93 on the display 60 are provided.

ここで、文書カテゴリ生成部92は、概念表現カテゴリ、複合カテゴリ、データID指定カテゴリの3種類の文書カテゴリを生成する。   Here, the document category generation unit 92 generates three types of document categories: a concept expression category, a composite category, and a data ID designation category.

まず、概念表現カテゴリは、概念表現を定義するカテゴリである。ユーザは、概念表現表示部44によってディスプレイ60に表示させた所定の画面から概念表現を指定し、文書カテゴリを生成することができる。例えば、前記所定の画面からカテゴリ化の操作がユーザにより行われ、指定受付部50を介して概念表現が指定入力された場合、文書カテゴリ生成部92は、指定された概念表現をカテゴリ定義とし、その概念表現を含むフィールドデータを持つ文書を所属メンバーとする文書カテゴリを生成する。文書カテゴリ生成部92は、文書データ構造記憶部10に記憶されている文書データ構造に基づいて、指定された概念表現を含む文書データを抽出し、その文書データを文書カテゴリの所属文書とする。   First, the concept expression category is a category that defines a concept expression. The user can generate a document category by designating a concept expression from a predetermined screen displayed on the display 60 by the concept expression display unit 44. For example, when a categorization operation is performed by the user from the predetermined screen and a concept expression is designated and input via the designation receiving unit 50, the document category generation unit 92 sets the designated concept expression as a category definition, A document category having a document having field data including the conceptual expression as a member is generated. The document category generation unit 92 extracts document data including a designated conceptual expression based on the document data structure stored in the document data structure storage unit 10, and sets the document data as a document belonging to the document category.

また、複合カテゴリは、既存のカテゴリの論理式を定義するカテゴリである。ユーザは、概念表現表示部44によってディスプレイ60に表示させた所定の画面に対し、所定の操作を行うことで複合カテゴリを作成することができる。例えば、ユーザが図24に示すカテゴリリスト62、ワークスペース63に対する操作を行い、既存のカテゴリの組み合わせを指定することで複合カテゴリを生成することができる。カテゴリの組み合わせは、既存カテゴリのカテゴリIDの論理演算式で表すことができる。本実施形態では、複合カテゴリとして、「複合ANDカテゴリ」、「複合ORカテゴリ」、「複合NOTカテゴリ」を生成することができるものとする。   The composite category is a category that defines a logical expression of an existing category. The user can create a composite category by performing a predetermined operation on a predetermined screen displayed on the display 60 by the concept expression display unit 44. For example, a composite category can be generated by the user performing an operation on the category list 62 and the workspace 63 shown in FIG. 24 and specifying a combination of existing categories. The combination of categories can be expressed by a logical operation expression of category IDs of existing categories. In the present embodiment, it is assumed that “composite AND category”, “composite OR category”, and “composite NOT category” can be generated as composite categories.

複合ANDカテゴリは、指定されたカテゴリIDのANDをとるカテゴリである。例えば、「カテゴリ1」、「カテゴリ3」、「カテゴリ5」が指定されている場合、複合ANDカテゴリのカテゴリ定義は「1AND3AND5」となり、所属テキストは3つのカテゴリの所属テキスト集合の積集合となる。   The composite AND category is a category that takes an AND of designated category IDs. For example, when “category 1”, “category 3”, and “category 5” are designated, the category definition of the composite AND category is “1AND3AND5”, and the belonging text is a product set of the belonging text sets of the three categories. .

複合ORカテゴリは、指定されたカテゴリIDのORをとるカテゴリである。例えば、
「カテゴリ1」、「カテゴリ3」、「カテゴリ5」が指定されている場合、複合ORカテゴリのカテゴリ定義は「1OR3OR5」となり、所属テキストは3つのカテゴリの所属テキスト集合の和集合となる。
The compound OR category is a category that takes OR of designated category IDs. For example,
When “Category 1”, “Category 3”, and “Category 5” are designated, the category definition of the composite OR category is “1OR3OR5”, and the belonging text is a union of the belonging text sets of the three categories.

複合NOTカテゴリは、指定されたカテゴリIDのNOTをとるカテゴリである。例えば、「カテゴリ1」、「カテゴリ3」、「カテゴリ5」が指定されている場合、複合NOTカテゴリのカテゴリ定義は「NOT(1OR3OR5)」となり、所属テキストは3つのカテゴリの所属テキスト集合の和集合の否定となる。   The composite NOT category is a category that takes a NOT of a specified category ID. For example, when “category 1”, “category 3”, and “category 5” are specified, the category definition of the composite NOT category is “NOT (1OR3OR5)”, and the belonging text is the sum of the belonging text sets of the three categories. Denial of set.

更に、データID指定カテゴリは、文書IDリストを定義するカテゴリである。本実施形態では、ユーザが任意に作成できるものではない。しかし、ユーザが文書IDを指定することでデータID指定カテゴリを生成できるようにしてもよい。但し、この場合、カテゴリ定義の再利用は同じ対象文書集合内でのみ有効であり、他の対照文書集合に対する再利用、再適用はできないようにする必要がある。すべての定義を再利用可能にするためには、データID指定カテゴリはユーザが作成できないようにした方がよい。   Furthermore, the data ID designation category is a category that defines a document ID list. In this embodiment, a user cannot create arbitrarily. However, the data ID designation category may be generated by the user designating the document ID. However, in this case, the reuse of the category definition is effective only within the same target document set, and it is necessary to prevent reuse and re-application to other contrast document sets. In order to make all the definitions reusable, it is better that the user cannot create the data ID designation category.

また、図29において、文書カテゴリ表示部94では、文書カテゴリ生成部92により生成された文書カテゴリを表示する場合、例えば、図24に示すカテゴリリスト62のようなリスト表示、あるいはワークスペース63のようなグラフィカル表示とする。   In FIG. 29, when the document category display unit 94 displays the document category generated by the document category generation unit 92, for example, a list display such as the category list 62 shown in FIG. Graphical display.

文書データ表示部95は、ユーザが指定した概念表現を含む文書データを表示する場合、例えば、ディスプレイ60の所定の画面上に図24に示すデータブラウザ64を表示させる。ここでは、言語処理部42の概念表現抽出部440が、文書データ構造記憶部10に記憶されている文書データ構造に基づいて、指定された概念表現を含む文書データを抽出し、文書データ表示部95がディスプレイ60画面上のデータブラウザ64に、概念表現抽出部440により抽出された文書データを表示させる。   The document data display unit 95 displays, for example, the data browser 64 shown in FIG. 24 on a predetermined screen of the display 60 when displaying the document data including the concept expression designated by the user. Here, the concept expression extraction unit 440 of the language processing unit 42 extracts document data including the designated concept expression based on the document data structure stored in the document data structure storage unit 10, and the document data display unit 95 displays the document data extracted by the concept expression extraction unit 440 on the data browser 64 on the display 60 screen.

また、文書データ表示部95は、文書カテゴリ表示部94がディスプレイ60に表示させた画面上でユーザが指定したカテゴリに属する文書を、ディスプレイ60の画面に表示させることができる。ここでは、文書データ生成部93が、文書カテゴリ記憶部80に記憶されているカテゴリ情報(図30に示す)に基づいて、所属文書IDリストから指定されたカテゴリ(カテゴリ定義)に属する文書IDを検出し、文書データ構造記憶部10に記憶されている文書データ構造に基づいて、検出した文書IDに対応する文書データを抽出する。文書データ表示部95は、文書データ生成部93により抽出された文書データをディスプレイ60画面上に表示させる。   Further, the document data display unit 95 can display on the screen of the display 60 documents belonging to the category designated by the user on the screen displayed on the display 60 by the document category display unit 94. Here, based on the category information (shown in FIG. 30) stored in the document category storage unit 80, the document data generation unit 93 selects document IDs belonging to the category (category definition) specified from the belonging document ID list. Based on the detected document data structure stored in the document data structure storage unit 10, the document data corresponding to the detected document ID is extracted. The document data display unit 95 displays the document data extracted by the document data generation unit 93 on the display 60 screen.

以上のように構成された文書処理装置1について、図31を用いてその辞書登録の手順を説明する。ここでは、文書カテゴリのうち、複合OR文書カテゴリを概念表現シソーラス辞書に登録する場合を示す。   A dictionary registration procedure for the document processing apparatus 1 configured as described above will be described with reference to FIG. Here, a case where a compound OR document category among the document categories is registered in the concept expression thesaurus dictionary is shown.

文書処理部40において、辞書登録部91は、指定受付部50を介して指定された、登録対象となる文書カテゴリを入力する(S401)。   In the document processing unit 40, the dictionary registration unit 91 inputs a document category to be registered designated through the designation receiving unit 50 (S401).

次いで、辞書登録部91は、指定された文書カテゴリが複合ORカテゴリであるかを判断し(S402)、複合ORカテゴリでない場合は処理を終了する。ここで、指定された文書カテゴリが複合ORカテゴリである場合、辞書登録部91は、指定受付部50を介して指定された登録種別を入力する(S403)。   Next, the dictionary registration unit 91 determines whether the designated document category is a compound OR category (S402), and if it is not a compound OR category, the process ends. If the designated document category is a compound OR category, the dictionary registration unit 91 inputs the registration type designated via the designation receiving unit 50 (S403).

次いで、辞書登録部91は、指定された登録種別に基づいて、文書カテゴリを「関連表現」として登録するか、「同義表現」として登録するかを判断する(S404)。ここで、「同義表現」として登録する場合はS405に進み、「関連表現」として登録する場合にはS410に進む。   Next, the dictionary registration unit 91 determines whether to register the document category as “related expression” or “synonymous expression” based on the designated registration type (S404). Here, when registering as “synonymous expression”, the process proceeds to S405, and when registering as “related expression”, the process proceeds to S410.

S405(同義表現登録)において、辞書登録部91は、対象文書カテゴリの構成メンバーであるカテゴリのうち、すべての基本概念表現カテゴリに対してカテゴリ定義である概念表現を取得し、概念表現シソーラス辞書において、取得した概念表現が含まれている同義表現グループを検索する。   In S405 (synonymous expression registration), the dictionary registration unit 91 acquires concept expressions that are category definitions for all basic concept expression categories among categories that are constituent members of the target document category, and stores them in the concept expression thesaurus dictionary. The synonymous expression group including the acquired concept expression is searched.

次いで、辞書登録部91は、指定受付部50を介して指定された、登録対象となる同義表現グループの情報を入力する(S406)。更に、登録対象となる同義表現グループの指定に基づいて、辞書登録部91は、登録対象となる文書カテゴリの情報を、新規の同義表現グループとして登録するのか、それとも同義表現グループ検索で検索された既存の同義表現グループのどれか1つに登録するのかを判断する(S407)。ここで、新規の同義表現グループとして登録する場合は、新規同義表現グループ生成処理(S408)に進み、既存同義表現グループとして登録する場合には、同義表現登録処理(S409)に進む。   Next, the dictionary registration unit 91 inputs information on the synonym expression group to be registered, which is designated via the designation receiving unit 50 (S406). Furthermore, based on the designation of the synonym expression group to be registered, the dictionary registration unit 91 registers the document category information to be registered as a new synonym expression group or searched by a synonym expression group search. It is determined whether to register in any one of the existing synonymous expression groups (S407). Here, when registering as a new synonym expression group, it progresses to a new synonym expression group generation process (S408), and when registering as an existing synonym expression group, it progresses to a synonym expression registration process (S409).

新規同義表現グループ生成処理(S408)において、辞書登録部91は、概念表現シソーラス辞書に新規同義語表現グループを作成する。この際、カテゴリラベルとして登録対象カテゴリのものを入力してもよいし、ユーザに指定させてもよい。所属概念表現IDリストには何も登録しない。   In the new synonym expression group generation process (S408), the dictionary registration unit 91 creates a new synonym expression group in the concept expression thesaurus dictionary. At this time, the category label may be input as the category label, or may be designated by the user. Nothing is registered in the belonging concept expression ID list.

同義表現登録処理(S409)において、辞書登録部91は、登録対象となる文書カテゴリの構成メンバーであるカテゴリのうち、すべての基本概念表現カテゴリに対してカテゴリ定義である概念表現を取得し、取得した概念表現が概念表現シソーラス辞書の概念表現リストに登録されているかを調べ、登録されていたらその概念表現IDを取得し、登録されていない概念表現にはユニークなIDを付与して新たに概念表現シソーラス辞書の概念表現リストに登録し、登録した概念表現IDを取得する。   In the synonym expression registration process (S409), the dictionary registration unit 91 acquires and acquires concept expressions that are category definitions for all basic concept expression categories among categories that are constituent members of the document category to be registered. Whether the registered concept expression is registered in the concept expression list of the concept expression thesaurus dictionary, and if it is registered, the concept expression ID is acquired, and a unique ID is assigned to the unregistered concept expression, and a new concept is obtained. It registers in the concept expression list of the expression thesaurus dictionary, and acquires the registered concept expression ID.

更に、同義表現登録処理(S409)において、辞書登録部91は、登録対象となる同義表現グループの所属概念表現IDリストに、取得した概念表現IDを追加する。ここで、所属概念表現IDリストにIDの重複がある場合は、それを解消する。   Further, in the synonym expression registration process (S409), the dictionary registration unit 91 adds the acquired concept expression ID to the belonging concept expression ID list of the synonym expression group to be registered. Here, if there is an ID overlap in the belonging concept expression ID list, it is eliminated.

また、文書カテゴリを「関連表現」として登録すると判断した場合(S404)、関連表現登録処理(S410)において、辞書登録部91は、登録対象となる文書カテゴリの構成メンバーであるカテゴリのうち、すべての基本概念表現カテゴリに対してカテゴリ定義である概念表現を取得し、取得した概念表現が概念表現シソーラス辞書の概念表現リストに登録されているかを調べ、登録されていたらその概念表現IDを取得し、登録されていない場合はその概念表現にユニークなIDを付与して概念表現シソーラス辞書の概念表現リストに登録し、登録した概念表現IDを取得する。   When it is determined that the document category is registered as “related expression” (S404), in the related expression registration process (S410), the dictionary registration unit 91 selects all of the categories that are constituent members of the document category to be registered. The concept expression which is a category definition is acquired for the basic concept expression category of, and it is checked whether the acquired concept expression is registered in the concept expression list of the concept expression thesaurus dictionary, and if it is registered, the concept expression ID is acquired. If not registered, a unique ID is assigned to the concept expression and registered in the concept expression list of the concept expression thesaurus dictionary, and the registered concept expression ID is acquired.

更に、関連表現登録処理(S410)において、辞書登録部91は、取得した概念表現IDすべてに対して、概念表現シソーラス辞書の関連表現リストの対応する概念表現IDの関連概念表現IDリストに、取得した概念表現IDのうち、自分を除いたすべての概念表現IDを追加する。ここで、関連概念表現IDリストにIDの重複がある場合は、それを解消する。   Further, in the related expression registration process (S410), the dictionary registration unit 91 acquires all the acquired concept expression IDs in the related concept expression ID list of the corresponding concept expression ID in the related expression list of the concept expression thesaurus dictionary. All the concept expression IDs except for the self are added. Here, if there is an ID overlap in the related concept expression ID list, it is eliminated.

このような本発明の第3の実施形態に係る文書処理装置1によれば、文書データ取得部41により取得された文書データの集合に含まれる概念表現を指定するための指定受付部50及び概念表現表示部44(概念表現指定手段に相当する)と、ここで指定された概念表現をカテゴリ定義とし、文書データの集合から、前記カテゴリ定義に基づいて文書グループを生成し、文書カテゴリとする文書カテゴリ生成部92(文書カテゴリ生成手段に相当する)と、文書カテゴリ生成部92により生成された文書カテゴリを表示する文書カテゴリ表示部94及びディスプレイ60(文書カテゴリ表示手段に相当する)と、を備えた構成を有している。この構成は、請求項2、請求項8に係る本発明の実施の一形態に相当する。   According to the document processing apparatus 1 according to the third embodiment of the present invention, the designation receiving unit 50 and the concept for designating the concept expression included in the set of document data acquired by the document data acquiring unit 41. A document that forms an expression display unit 44 (corresponding to concept expression designating means) and a concept expression designated here as a category definition, generates a document group based on the category definition from a set of document data, and sets it as a document category A category generation unit 92 (corresponding to a document category generation unit), a document category display unit 94 for displaying the document category generated by the document category generation unit 92, and a display 60 (corresponding to a document category display unit). It has a configuration. This configuration corresponds to an embodiment of the present invention according to claims 2 and 8.

この構成により、ユーザは指定受付部50を介してディスプレイ60の画面上から所望のカテゴリ定義としての概念表現を指定し、このカテゴリ定義に基づいて生成された文書グループを前記画面上で確認することができるので、ユーザの使い勝手が向上する。
また、本実施形態によれば、文書カテゴリ生成部92により生成された文書カテゴリに基づいて、新たな概念表現を概念表現シソーラス辞書に登録する辞書登録部91(辞書登録手段に相当する)を備えた構成を有している。この構成は、請求項6、請求項12に係る本発明の実施の一形態に相当する。
With this configuration, the user designates a conceptual expression as a desired category definition from the screen of the display 60 via the designation receiving unit 50, and confirms a document group generated based on the category definition on the screen. Therefore, user convenience is improved.
Further, according to the present embodiment, a dictionary registration unit 91 (corresponding to a dictionary registration unit) that registers a new concept expression in the concept expression thesaurus dictionary based on the document category generated by the document category generation unit 92 is provided. It has a configuration. This configuration corresponds to an embodiment of the present invention according to claims 6 and 12.

この構成により、文書カテゴリ生成部92により生成された文書カテゴリの情報を概念表現シソーラス辞書に登録することができるので、この概念表現シソーラス辞書を用いたテキストデータ分析や文書検索の精度が向上する。   With this configuration, the document category information generated by the document category generation unit 92 can be registered in the concept expression thesaurus dictionary, so that the accuracy of text data analysis and document search using the concept expression thesaurus dictionary is improved.

なお、前述した実施形態では図示していないが、本発明の文書処理装置1をパーソナルコンピュータ(例えば、CPU、RAM、ROM、HDDなどの記憶部、通信部、液晶ディスプレイなどの表示部、キーボード、ポインティングデバイスなどの操作部を有する)で構成し、パーソナルコンピュータを前述の概念表現指定手段、文書カテゴリ生成手段、文書カテゴリ表示手段、辞書登録手段として機能させるようにしても同様の効果が得られるものである。また、図31に示す処理手順、前述の概念表現指定手段、文書カテゴリ生成手段、文書カテゴリ表示手段、辞書登録手段の行う処理手順を前記パーソナルコンピュータに実行させるためのプログラムを前記記憶部に記憶するようにしてもよい。   Although not shown in the above-described embodiment, the document processing apparatus 1 of the present invention is a personal computer (for example, a storage unit such as a CPU, RAM, ROM, and HDD, a communication unit, a display unit such as a liquid crystal display, a keyboard, The same effect can be obtained even if the personal computer is made to function as the above-described concept expression specifying means, document category generation means, document category display means, and dictionary registration means. It is. Further, the storage unit stores a program for causing the personal computer to execute the processing procedure shown in FIG. 31, the processing steps performed by the above-described concept expression specifying unit, document category generation unit, document category display unit, and dictionary registration unit. You may do it.

本発明の第1の実施形態に係る係り受け解析結果を表す図である。It is a figure showing the dependency analysis result which concerns on the 1st Embodiment of this invention. 本発明の第1の実施形態に係る概念表現を表す図である。It is a figure showing the concept expression which concerns on the 1st Embodiment of this invention. 本発明の第1の実施形態に係る概念表現の構成を説明する図である。It is a figure explaining the structure of the concept expression which concerns on the 1st Embodiment of this invention. 本発明の第1の実施形態に係る概念表現拡張検索を表す図である。It is a figure showing the concept expression expansion search which concerns on the 1st Embodiment of this invention. 本発明の第1の実施形態に係る文書処理装置のブロック図である。1 is a block diagram of a document processing apparatus according to a first embodiment of the present invention. 本発明の第1の実施形態に係る概念表現の基本単位の構成を説明する図である。It is a figure explaining the structure of the basic unit of the concept expression which concerns on the 1st Embodiment of this invention. 本発明の第1の実施形態に係る概念表現リストを表す図である。It is a figure showing the concept expression list which concerns on the 1st Embodiment of this invention. 本発明の第1の実施形態に係る同義表現グループリストを表す図である。It is a figure showing the synonymous expression group list which concerns on the 1st Embodiment of this invention. 本発明の第1の実施形態に係る関連表現リストを表す図である。It is a figure showing the related expression list which concerns on the 1st Embodiment of this invention. 本発明の第1の実施形態に係る同義表現及び関連表現を表す図である。It is a figure showing the synonymous expression and related expression which concern on the 1st Embodiment of this invention. 本発明の第1の実施形態に係る言語処理部の詳細を表すブロック図である。It is a block diagram showing the detail of the language processing part which concerns on the 1st Embodiment of this invention. 本発明の第1の実施形態に係る文書データ構造を表す図である。It is a figure showing the document data structure concerning the 1st Embodiment of this invention. 本発明の第1の実施形態に係る文書データ構造の構成要素が管理する情報を表す図である。It is a figure showing the information which the component of the document data structure which concerns on the 1st Embodiment of this invention manages. 本発明の第1の実施形態に係る単語リストを表す図である。It is a figure showing the word list which concerns on the 1st Embodiment of this invention. 本発明の第1の実施形態に係る意図タグリストを表す図である。It is a figure showing the intention tag list which concerns on the 1st Embodiment of this invention. 本発明の第1の実施形態に係る拡張概念表現検索(基本単位追加)を説明する図である。It is a figure explaining the extended concept expression search (basic unit addition) which concerns on the 1st Embodiment of this invention. 本発明の第1の実施形態に係る拡張概念表現検索(意図タグ追加)を説明する図である。It is a figure explaining the extended concept expression search (intention tag addition) which concerns on the 1st Embodiment of this invention. 本発明の第1の実施形態に係る拡張概念表現検索を表す図である。It is a figure showing the extended concept expression search which concerns on the 1st Embodiment of this invention. 本発明の第1の実施形態に係る概念表現抽出部の詳細を表すブロック図である。It is a block diagram showing the detail of the concept expression extraction part which concerns on the 1st Embodiment of this invention. 本発明の第1の実施形態に係る同義表現グループの概念表現を表す図である。It is a figure showing the concept expression of the synonym expression group which concerns on the 1st Embodiment of this invention. 本発明の第1の実施形態に係る同義表現検索処理のフローチャートである。It is a flowchart of the synonym expression search process which concerns on the 1st Embodiment of this invention. 本発明の第1の実施形態に係る関連表現検索処理のフローチャートである。It is a flowchart of the related expression search process which concerns on the 1st Embodiment of this invention. 本発明の第1の実施形態に係る同義表現グループ概念表現の生成処理のフローチャートである。It is a flowchart of the production | generation process of a synonym expression group conceptual expression which concerns on the 1st Embodiment of this invention. 本発明の第1の実施形態に係る表示画面を表す図である。It is a figure showing the display screen which concerns on the 1st Embodiment of this invention. 本発明の第1の実施形態に係る概念表現(ラベルのみ)の表示画面を表す図である。It is a figure showing the display screen of the conceptual expression (only label) which concerns on the 1st Embodiment of this invention. 本発明の第1の実施形態に係る概念表現(ラベルと所属概念表現)の表示画面を表す図である。It is a figure showing the display screen of the concept expression (a label and a affiliation concept expression) which concerns on the 1st Embodiment of this invention. 本発明の第2の実施形態に係る文書処理装置のブロック図である。It is a block diagram of the document processing apparatus which concerns on the 2nd Embodiment of this invention. 本発明の第2の実施形態に係る辞書検索ダイアログを表す図である。It is a figure showing the dictionary search dialog which concerns on the 2nd Embodiment of this invention. 本発明の第3の実施形態に係る文書処理装置のブロック図である。It is a block diagram of the document processing apparatus which concerns on the 3rd Embodiment of this invention. 本発明の第3の実施形態に係るカテゴリ情報を表す図である。It is a figure showing the category information which concerns on the 3rd Embodiment of this invention. 本発明の第3の実施形態に係る辞書登録処理のフローチャートである。It is a flowchart of the dictionary registration process which concerns on the 3rd Embodiment of this invention.

符号の説明Explanation of symbols

1 文書処理装置
10 文書データ構造記憶部
20 概念表現記憶部
30 概念表現シソーラス辞書記憶部
40 文書処理部
41 文書データ取得部
42 言語処理部
43 辞書検索部
44 概念表現表示部
50 指定受付部
60 ディスプレイ
DESCRIPTION OF SYMBOLS 1 Document processing apparatus 10 Document data structure storage part 20 Conceptual expression storage part 30 Conceptual expression thesaurus dictionary storage part 40 Document processing part 41 Document data acquisition part 42 Language processing part 43 Dictionary search part 44 Conceptual expression display part 50 Specification reception part 60 Display

Claims (12)

文書に含まれる文節情報から抽出されたトークンと意図表現の組み合わせで文書に含まれる概念を表現し、更に文節間の関係情報に基づいて複数の概念表現の関係を表現し、前記トークンと意図表現の組み合わせによる概念表現及び概念表現間の関係に基づいて文書データを処理する文書処理装置であって、
処理対象となる文書データの集合を取得する文書データ取得手段と、
前記文書データ取得手段により取得された文書データに対して言語解析処理を行い、文書データに含まれる概念表現を抽出する言語処理手段と、
前記言語処理手段により抽出された概念表現を表示する概念表現表示手段と、
前記文書に含まれる概念を表現した概念表現を登録する概念表現シソーラス辞書を記憶する概念表現シソーラス辞書記憶手段と、
前記概念表現シソーラス辞書から概念表現を検索する辞書検索手段と、
を備えたことを特徴とする文書処理装置。
A concept included in a document is expressed by a combination of a token and an intention expression extracted from clause information included in the document, and a relationship between a plurality of concept expressions is expressed based on relationship information between clauses. A document processing apparatus for processing document data based on a concept expression by a combination of the above and a relationship between the concept expressions,
Document data acquisition means for acquiring a set of document data to be processed;
Language processing means for performing language analysis processing on the document data acquired by the document data acquisition means, and extracting a concept expression included in the document data;
Concept expression display means for displaying the concept expression extracted by the language processing means;
A concept expression thesaurus dictionary storing means for storing a concept expression thesaurus dictionary for registering a concept expression expressing the concept included in the document;
Dictionary search means for searching for a concept expression from the concept expression thesaurus dictionary;
A document processing apparatus comprising:
請求項1に記載の文書処理装置において、
前記文書データ取得手段により取得された文書データの集合に含まれる概念表現を指定するための概念表現指定手段と、
前記概念表現指定手段により指定された概念表現をカテゴリ定義とし、文書データの集合から、前記カテゴリ定義に基づいて文書グループを生成し、文書カテゴリとする文書カテゴリ生成手段と、
前記文書カテゴリ生成手段により生成された文書カテゴリを表示する文書カテゴリ表示手段と、
を備えたことを特徴とする文書処理装置。
The document processing apparatus according to claim 1,
A concept expression specifying means for specifying a concept expression included in a set of document data acquired by the document data acquiring means;
A document category generation unit that generates a document group based on the category definition from a set of document data, using the concept representation designated by the concept representation designation unit as a category definition;
Document category display means for displaying the document category generated by the document category generation means;
A document processing apparatus comprising:
請求項1又は請求項2に記載の文書処理装置において、
前記概念表現シソーラス辞書に登録されている同義の概念表現グループに基づいて一の概念表現を抽出する概念表現抽出手段と、
前記概念表現抽出手段により抽出された同義表現グループ概念表現を表示する概念表現表示手段と、
を備えたことを特徴とする文書処理装置。
The document processing apparatus according to claim 1 or 2,
A concept expression extracting means for extracting one concept expression based on synonymous concept expression groups registered in the concept expression thesaurus dictionary;
Concept expression display means for displaying the synonymous expression group concept expression extracted by the concept expression extraction means;
A document processing apparatus comprising:
請求項1から請求項3のいずれか1項に記載の文書処理装置において、
前記概念表現シソーラス辞書に登録されている、同義の概念表現及び同義ではないが意味的に関連する概念表現を検索するために、文書データの集合に含まれる概念表現を指定するための同義関連概念表現指定手段と、前記同義の概念表現及び前記関連する概念表現の検索結果を表示する同義関連概念表現表示手段と、を備え、
前記辞書検索手段は、前記同義関連概念表現指定手段の指定に基づいて、前記概念表現シソーラス辞書に登録されている前記同義の概念表現及び前記関連する概念表現を検索し、前記同義関連概念表現表示手段は、前記辞書検索手段の検索結果を表示するようにしたことを特徴とする文書処理装置。
The document processing apparatus according to any one of claims 1 to 3,
Synonymous related concepts for specifying conceptual expressions included in a set of document data in order to search synonymous conceptual expressions and conceptual expressions that are not synonymous but semantically related, registered in the conceptual expression thesaurus dictionary An expression designating means; and a synonym related concept expression display means for displaying a search result of the synonymous concept expression and the related concept expression,
The dictionary search means searches for the synonymous concept expression and the related concept expression registered in the concept expression thesaurus dictionary based on the designation of the synonym related concept expression designation means, and displays the synonym related concept expression display The document processing apparatus is characterized in that the means displays the search result of the dictionary search means.
請求項1から請求項4のいずれか1項に記載の文書処理装置において、
前記概念表現シソーラス辞書に登録されている概念表現を拡張した拡張概念表現を検索するために、文書データの集合に含まれる概念表現を指定するための拡張概念表現指定手段と、前記拡張概念表現指定手段の指定に基づいて、前記概念表現シソーラス辞書に登録されている指定された概念表現を検索して一の同義概念表現にまとめ、前記文書データの集合から前記一の同義概念表現を検索する拡張概念表現検索手段と、を備え、
前記概念表現表示手段は、前記拡張概念表現検索手段の検索結果を表示するようにしたことを特徴とする文書処理装置。
The document processing apparatus according to any one of claims 1 to 4, wherein:
In order to search for an extended concept expression obtained by extending the concept expression registered in the concept expression thesaurus dictionary, an extended concept expression specifying means for specifying a concept expression included in a set of document data, and the extended concept expression specification An extension for searching for the specified syntactic concept registered in the concept expression thesaurus dictionary based on the designation of the means, collecting it into a synonymous concept expression, and searching for the synonymous concept expression from the set of document data A concept expression search means,
The document processing apparatus, wherein the concept expression display means displays a search result of the extended concept expression search means.
請求項2から請求項5のいずれか1項に記載の文書処理装置において、
前記文書カテゴリ生成手段により生成された文書カテゴリに基づいて、新たな概念表現を前記概念表現シソーラス辞書に登録する辞書登録手段を備えたことを特徴とする文書検索装置。
The document processing apparatus according to any one of claims 2 to 5,
A document search apparatus comprising: a dictionary registration unit that registers a new concept expression in the concept expression thesaurus dictionary based on the document category generated by the document category generation unit.
文書に含まれる文節情報から抽出されたトークンと意図表現の組み合わせで文書に含まれる概念を表現し、更に文節間の関係情報に基づいて複数の概念表現の関係を表現し、前記トークンと意図表現の組み合わせによる概念表現及び概念表現間の関係を登録した概念表現シソーラス辞書を用いて文書データを処理する文書処理方法であって、
処理対象となる文書データの集合を取得する文書データ取得手順と、
前記文書データ取得手順により取得された文書データに対して言語解析処理を行い、文書データに含まれる概念表現を抽出する言語処理手順と、
前記言語処理手順により抽出された概念表現を表示する概念表現表示手順と、
前記概念表現シソーラス辞書から概念表現を検索する辞書検索手順と、
を実行することを特徴とする文書処理方法。
A concept included in a document is expressed by a combination of a token and an intention expression extracted from clause information included in the document, and a relationship between a plurality of concept expressions is expressed based on relationship information between clauses. A document processing method for processing document data using a concept expression thesaurus that registers a concept expression by a combination of and a relationship between concept expressions,
A document data acquisition procedure for acquiring a set of document data to be processed;
A language processing procedure for performing a language analysis process on the document data acquired by the document data acquisition procedure and extracting a concept expression included in the document data;
A concept expression display procedure for displaying the concept expression extracted by the language processing procedure;
A dictionary search procedure for searching a concept expression from the concept expression thesaurus dictionary;
The document processing method characterized by performing.
請求項7に記載の文書処理方法において、
前記文書データ取得手順により取得された文書データの集合に含まれる概念表現を指定するための概念表現指定手順と、
前記概念表現指定手段により指定された概念表現をカテゴリ定義とし、文書データの集合から、前記カテゴリ定義に基づいて文書グループを生成し、文書カテゴリとする文書カテゴリ生成手順と、
前記文書カテゴリ生成手段により生成された文書カテゴリを表示する文書カテゴリ表示手順と、
を実行することを特徴とする文書処理方法。
The document processing method according to claim 7.
A concept expression specifying procedure for specifying a concept expression included in a set of document data acquired by the document data acquiring procedure;
A document category generation procedure in which the concept expression specified by the concept expression specifying means is a category definition, a document group is generated based on the category definition from a set of document data,
A document category display procedure for displaying the document category generated by the document category generation means;
The document processing method characterized by performing.
請求項7又は請求項8に記載の文書処理方法において、
前記概念表現シソーラス辞書に登録されている同義の概念表現グループに基づいて一の概念表現を抽出する概念表現抽出手順と、
前記概念表現抽出手順により抽出された同義表現グループ概念表現を表示する概念表現表示手順と、
を実行することを特徴とする文書処理方法。
In the document processing method of Claim 7 or Claim 8,
A concept expression extraction procedure for extracting one concept expression based on synonymous concept expression groups registered in the concept expression thesaurus dictionary;
A concept expression display procedure for displaying the synonym expression group concept expression extracted by the concept expression extraction procedure;
The document processing method characterized by performing.
請求項7から請求項9のいずれか1項に記載の文書処理方法において、
前記概念表現シソーラス辞書に登録されている、同義の概念表現及び同義ではないが意味的に関連する概念表現を検索するために、文書データの集合に含まれる概念表現を指定するための同義関連概念表現指定手順と、前記同義の概念表現及び前記関連する概念表現の検索結果を表示する同義関連概念表現指定手順と、を実行し、
前記辞書検索手順では、前記同義関連概念表現指定手順の指定に基づいて、前記概念表現シソーラス辞書に登録されている前記同義の概念表現及び前記関連する概念表現を検索し、前記同義関連概念表現表示手順では、前記辞書検索手順の検索結果を表示することを特徴とする文書処理方法。
The document processing method according to any one of claims 7 to 9,
Synonymous related concepts for specifying conceptual expressions included in a set of document data in order to search synonymous conceptual expressions and conceptual expressions that are not synonymous but semantically related, registered in the conceptual expression thesaurus dictionary An expression designation procedure, and a synonym related concept expression designation procedure for displaying a search result of the synonymous concept expression and the related concept expression,
In the dictionary search procedure, the synonym related concept representation and the related concept representation registered in the concept representation thesaurus dictionary are searched based on the designation of the synonym related concept representation designation procedure, and the synonym related concept representation display In the procedure, a search result of the dictionary search procedure is displayed.
請求項7から請求項10のいずれか1項に記載の文書処理方法において、
前記概念表現シソーラス辞書に登録されている概念表現を拡張した拡張概念表現を検索するために、文書データの集合に含まれる概念表現を指定するための拡張概念表現指定手順と、前記拡張概念表現指定手順の指定に基づいて、前記概念表現シソーラス辞書に登録されている指定された概念表現を検索して一の同義概念表現にまとめ、前記文書データの集合から前記一の同義概念表現を検索する拡張概念表現検索手順と、を実行し、
前記概念表現表示手順では、前記拡張概念表現検索手順の検索結果を表示するようにしたことを特徴とする文書処理方法。
The document processing method according to any one of claims 7 to 10,
An extended concept expression designation procedure for designating a concept expression included in a set of document data in order to search for an extended concept expression obtained by extending the concept expression registered in the concept expression thesaurus dictionary, and the extended concept expression designation An extension that searches the specified syntactic concept registered in the conceptual expression thesaurus dictionary based on the procedure specification, collects it into one synonymous conceptual expression, and searches the synonymous conceptual expression from the set of document data A concept expression search procedure, and
In the concept expression display procedure, a search result of the extended concept expression search procedure is displayed.
請求項7から請求項11のいずれか1項に記載の文書処理方法において、
前記文書カテゴリ生成手順により生成された文書カテゴリに基づいて、新たな概念表現を前記概念表現シソーラス辞書に登録する辞書登録手順を実行することを特徴とする文書処理方法。
The document processing method according to any one of claims 7 to 11,
A document processing method for executing a dictionary registration procedure for registering a new concept expression in the concept expression thesaurus dictionary based on the document category generated by the document category generation procedure.
JP2006078801A 2006-03-22 2006-03-22 Document processing apparatus and document processing method Expired - Fee Related JP4877930B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006078801A JP4877930B2 (en) 2006-03-22 2006-03-22 Document processing apparatus and document processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006078801A JP4877930B2 (en) 2006-03-22 2006-03-22 Document processing apparatus and document processing method

Publications (2)

Publication Number Publication Date
JP2007257149A true JP2007257149A (en) 2007-10-04
JP4877930B2 JP4877930B2 (en) 2012-02-15

Family

ID=38631364

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006078801A Expired - Fee Related JP4877930B2 (en) 2006-03-22 2006-03-22 Document processing apparatus and document processing method

Country Status (1)

Country Link
JP (1) JP4877930B2 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011150611A (en) * 2010-01-25 2011-08-04 Nippon Telegr & Teleph Corp <Ntt> Method, apparatus and program for retrieving document
JP2011170700A (en) * 2010-02-19 2011-09-01 Nippon Telegr & Teleph Corp <Ntt> Document retrieval device, document retrieval method, document retrieval program
JP2012037936A (en) * 2010-08-03 2012-02-23 Toshiba Corp Document analyzing device and program

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001075966A (en) * 1999-07-07 2001-03-23 Internatl Business Mach Corp <Ibm> Data analysis system
JP2001101199A (en) * 1999-09-29 2001-04-13 Fuji Xerox Co Ltd Document processor
JP2001147937A (en) * 1999-11-22 2001-05-29 Toshiba Corp Job support system
JP2004303198A (en) * 2003-03-18 2004-10-28 Ricoh Co Ltd Document processor, document processing method, and document processing program
JP2004334602A (en) * 2003-05-08 2004-11-25 Ricoh Co Ltd Document retrieving device, document retrieval processing program, and recording medium
JP2005063030A (en) * 2003-08-08 2005-03-10 Ricoh Co Ltd Method for expressing concept, method and device for creating expression of concept, program for implementing this method, and recording medium for recording this program

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001075966A (en) * 1999-07-07 2001-03-23 Internatl Business Mach Corp <Ibm> Data analysis system
JP2001101199A (en) * 1999-09-29 2001-04-13 Fuji Xerox Co Ltd Document processor
JP2001147937A (en) * 1999-11-22 2001-05-29 Toshiba Corp Job support system
JP2004303198A (en) * 2003-03-18 2004-10-28 Ricoh Co Ltd Document processor, document processing method, and document processing program
JP2004334602A (en) * 2003-05-08 2004-11-25 Ricoh Co Ltd Document retrieving device, document retrieval processing program, and recording medium
JP2005063030A (en) * 2003-08-08 2005-03-10 Ricoh Co Ltd Method for expressing concept, method and device for creating expression of concept, program for implementing this method, and recording medium for recording this program

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011150611A (en) * 2010-01-25 2011-08-04 Nippon Telegr & Teleph Corp <Ntt> Method, apparatus and program for retrieving document
JP2011170700A (en) * 2010-02-19 2011-09-01 Nippon Telegr & Teleph Corp <Ntt> Document retrieval device, document retrieval method, document retrieval program
JP2012037936A (en) * 2010-08-03 2012-02-23 Toshiba Corp Document analyzing device and program

Also Published As

Publication number Publication date
JP4877930B2 (en) 2012-02-15

Similar Documents

Publication Publication Date Title
US20180137194A1 (en) Apparatus and method for automated and assisted patent claim mapping and expense planning
Sawyer et al. Shallow knowledge as an aid to deep understanding in early phase requirements engineering
Mahmood et al. Query based information retrieval and knowledge extraction using Hadith datasets
Jabbar et al. An improved Urdu stemming algorithm for text mining based on multi-step hybrid approach
US7853595B2 (en) Method and apparatus for creating a tool for generating an index for a document
Ranwez et al. How ontology based information retrieval systems may benefit from lexical text analysis
JP2011513810A (en) Term identification method and apparatus
Malik et al. Text mining life cycle for a spatial reading of Viet Thanh Nguyen's The Refugees (2017)
Wang et al. Mining key information of web pages: A method and its application
JP4877930B2 (en) Document processing apparatus and document processing method
Angrosh et al. Context identification of sentences in research articles: Towards developing intelligent tools for the research community
Culy et al. Corpus clouds-facilitating text analysis by means of visualizations
Das et al. Emotion tracking on blogs-a case study for bengali
JP2014102625A (en) Information retrieval system, program, and method
JP2007226843A (en) Document management system and document management method
JP2009129176A (en) Structured document retrieval device, method, and program
JP2008197952A (en) Text segmentation method, its device, its program and computer readable recording medium
Lama Clustering system based on text mining using the K-means algorithm: news headlines clustering
Lehmann et al. Extracting and modeling knowledge about aviation for multilingual semantic applications in Industry 4.0
JP2004220226A (en) Document classification method and device for retrieved document
Chaabene et al. Semantic annotation for the “on demand graphical representation” of variable data in Web documents
Borin et al. Literary onomastics and language technology
Batista-Navarro et al. Construction of a Biodiversity Knowledge Repository using a Text Mining-based Framework.
JP2004133510A (en) Technical literature retrieval system
Rybak et al. Machine Learning-Enhanced Text Mining as a Support Tool for Research on Climate Change: Theoretical and Technical Considerations

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090212

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110825

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110830

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111027

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111122

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111124

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141209

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees