JP2004334602A - 文書検索装置、文書検索処理プログラム及び記録媒体 - Google Patents

文書検索装置、文書検索処理プログラム及び記録媒体 Download PDF

Info

Publication number
JP2004334602A
JP2004334602A JP2003130785A JP2003130785A JP2004334602A JP 2004334602 A JP2004334602 A JP 2004334602A JP 2003130785 A JP2003130785 A JP 2003130785A JP 2003130785 A JP2003130785 A JP 2003130785A JP 2004334602 A JP2004334602 A JP 2004334602A
Authority
JP
Japan
Prior art keywords
expression
concept
concept expression
extended
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003130785A
Other languages
English (en)
Other versions
JP4378106B2 (ja
Inventor
Tetsuo Nagatsuka
哲郎 長束
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2003130785A priority Critical patent/JP4378106B2/ja
Publication of JP2004334602A publication Critical patent/JP2004334602A/ja
Application granted granted Critical
Publication of JP4378106B2 publication Critical patent/JP4378106B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】拡張した概念表現をテキストデータ内から検索する文書検索装置を提供する。
【解決手段】テキスト入力手段101と、言語解析手段102と、トークン抽出手段103と、意図表現抽出手段104と、テキストデータ構造記憶手段105と、概念表現指定手段106と、条件指定手段107と、拡張概念表現抽出手段108と、拡張概念表現記憶手段109と、を有して構成される文書検索装置において、テキストを言語解析し、その解析結果により得られる文節情報から抽出されるトークンと、意図表現と、の組み合わせで表現される概念表現基本単位、および、言語解析結果から得られる文節間関係情報に基づいた複数概念表現基本単位の関係表現、により概念を表現する概念表現方法において、指定された概念表現を拡張した概念表現をテキストから検索する。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
本発明は、情報抽出技術及び情報検索技術を用いた文書検索装置、文書検索処理プログラム及び記録媒体に関し、例えば、文書検索システム、文書分類システム、文書分析システム等に好適な、情報抽出技術を用いた文書検索装置、文書検索処理プログラム及び記録媒体に関する。
【0002】
【従来の技術】
近年、アンケートデータやコールセンターデータなどの大量のテキストデータを分析することを目的としたテキストマイニング技術が注目されている。
このような大量のテキストデータの分析を行う際には、文書集合内に含まれる特徴的な概念を抽出することが大きな課題の1つとなる。概念情報を含む情報抽出技術は、大量の文書データから、何らかの知見を見出す方法として研究が進んでいる。また、テキストデータの分析では、テキストデータにどのような概念が含まれているのかを知ることは重要なことである。
【0003】
従来の技術では、特徴的な概念や概念間関係を抽出するために、テキストデータ内で頻度情報を利用したり、予め概念辞書やカテゴリー辞書などを準備して、その情報を利用したりしている。
【0004】
しかしながら、これでは統計的に有意な概念や、辞書に登録されている概念しか抽出できない。テキストデータの分析においては、アイデアの発見など、統計的に有意な概念や、辞書に登録可能な既知の概念ではなくても、ユーザにとっては重要な情報もある。従って、テキストデータの分析では、ユーザが自由にテキストデータ内に含まれる概念を探索できる機能も必要である。
【0005】
また、システムが提供する概念表現が、ユーザが自由に概念を拡張したり、絞り込んだりすることができるような概念表現になっていないという問題もある。テキストデータにおける概念は、単語の組み合わせで表現されているが、その組み合わせのバリエーションは様々であり、また、ユーザにとって有益な概念というのもユーザの要求や観点により様々である。
【0006】
そのため、テキストデータに含まれる概念をユーザにわかりやすく、また、ユーザが操作しやすい形式で表現する方法、つまり、ユーザが特別な文法知識を必要とせずに、テキストに含まれる概念の概観、あるいは、概念の検索や拡張、絞込みなどの操作ができる概念表現が必要となる。
【0007】
なお、本発明より先に出願された技術文献として、テキスト集合に対して、各テキストから重要文を抽出し、その重要文からキーワードを抽出するとともに、その重要文の係り受け構造とシソーラス辞書とに基づいて文をグループ化し、キーワードと文グループとを軸にした頻度情報を用いて統計的処理を行い、特徴的な文やキーワードを抽出する発明がある(例えば、特許文献1参照)。
【0008】
また、テキスト集合に対して、各テキストからカテゴリー辞書を利用してカテゴリー付キーワードを抽出する。そして、文節係り受け関係に基づいて、キーワード間の組み合わせを抽出し、その相関関係を統計的に算出するシステムがある(例えば、特許文献2参照)。
【0009】
また、テキスト集合に対して、各テキストから単語を抽出し、文節係り受け関係に基づいて構文木を生成する。そして、与えられたパターンの制約に基づいて、頻出するパターンを抽出し、そのパターンを含む構文木を持つ文書を出力する発明がある(例えば、特許文献3参照)。
【0010】
また、文書集合に対して、アクションや結果などの分類軸を予め記述した概念定義辞書を用いて、各文書から概念を抽出する。そして、異なる分類に属する概念を組み合わせた複合概念を用いて文書を分類する発明がある(例えば、特許文献4参照)。
【0011】
【特許文献1】
特開2000−172691号公報
【特許文献2】
特開2001−75966号公報
【特許文献3】
特開2001−84250号公報
【特許文献4】
特開2001−147937号公報
【0012】
【発明が解決しようとする課題】
しかしながら、特許文献1の発明は、頻度情報を利用しているので、統計的に有意な情報しか抽出できない。またシソーラス辞書が必要となる。
【0013】
また、特許文献2におけるシステムは、概念とはキーワードにカテゴリーを付与したものであり、予めカテゴリー辞書が必要となる。また、概念が基本的に1つの単語により表現されており、概念間の関係も2つの概念(キーワード)間の関係を利用しているに過ぎず、複数単語による1つの概念の表現は不可能である。また、特徴的なカテゴリー間の関係を統計的に求めているので、統計的に有意な情報しか抽出できない。
【0014】
また、特許文献3における知識抽出方法は、知識とは構文木のパターンであり、また、知識抽出とは頻出するパターンの抽出である。このため、統計的に有意な情報しか抽出できない。また、知識あるいはその表現を、ユーザが自由に操作することは考慮されていない。
【0015】
また、特許文献4におけるシステムは、概念はあらかじめ辞書として記述されている必要がある。このため、ユーザが自由に概念を表現あるいは指定して、テキスト集合に含まれる概念を探索することは不可能である。
【0016】
本発明は、上記事情に鑑みてなされたものであり、拡張した概念表現をテキストデータ内から検索する文書検索装置、文書検索処理プログラム及び記録媒体を提供することを目的とする。
【0017】
【課題を解決するための手段】
かかる目的を達成するために本発明は以下のような特徴を有する。
請求項1記載の発明は、テキストデータを入力するテキスト入力手段と、テキスト入力手段により入力されたテキストデータに対して言語解析を行う言語解析手段と、言語解析手段により言語解析を行った言語解析結果に基づいて、テキストデータから、それ自体で1つの意味を表す単語となるトークンを生成するトークン抽出手段と、言語解析手段により言語解析を行った言語解析結果に基づいて、テキストデータから、特定の付属語表現パターンを意図表現として抽出する意図表現抽出手段と、言語解析手段により言語解析を行った言語解析結果と、トークン抽出手段により生成したトークンと、意図表現抽出手段により抽出した意図表現と、に関する情報を記憶するテキストデータ構造記憶手段と、拡張検索を行う対称となる概念表現を指定する概念表現指定手段と、テキストデータ構造記憶手段に記憶された情報から、概念表現指定手段により指定された概念表現を拡張した拡張概念表現を抽出する拡張概念表現抽出手段と、拡張概念表現抽出手段により抽出した拡張概念表現を記憶する拡張概念表現記憶手段と、を有することを特徴とする。
【0018】
請求項2記載の発明は、請求項1記載の文書検索装置において、拡張概念表現抽出手段は、概念表現指定手段により指定された概念表現に含まれる概念表現基本単位に対して、意図表現を追加することにより、指定された概念表現を拡張することを特徴とする。
【0019】
請求項3記載の発明は、請求項2記載の文書検索装置において、拡張概念表現抽出手段により拡張概念表現を抽出する際に、意図表現を追加する概念表現基本単位を指定する概念表現基本単位指定手段を有することを特徴とする。
【0020】
請求項4記載の発明は、請求項2または3記載の文書検索装置において、拡張概念表現抽出手段により拡張概念表現を抽出する際に、概念表現基本単位に追加する意図表現種類を指定する意図表現種類指定手段を有することを特徴とする。
【0021】
請求項5記載の発明は、請求項1記載の文書検索装置において、拡張概念表現抽出手段は、概念表現指定手段により指定された概念表現に、新たな概念表現基本単位を追加することにより、指定された概念表現を拡張することを特徴とする。
【0022】
請求項6記載の発明は、請求項5記載の文書検索装置において、拡張概念表現抽出手段により拡張概念表現を抽出する際に、追加する概念表現基本単位の数を指定する概念表現基本単位数指定手段を有することを特徴とする。
【0023】
請求項7記載の発明は、請求項5または6記載の文書検索装置において、拡張概念表現抽出手段により拡張概念表現を抽出する際に、概念表現基本単位を追加する方向を指定する方向指定手段を有することを特徴とする。
【0024】
請求項8記載の発明は、請求項5から7の何れか1項に記載の文書検索装置において、拡張概念表現抽出手段により拡張概念表現を抽出する際に、追加する概念表現基本単位に含まれるトークンの品詞を指定するトークン品詞指定手段を有することを特徴とする。
【0025】
請求項9記載の発明は、請求項5から8の何れか1項に記載の文書検索装置において、拡張概念表現抽出手段により拡張概念表現を抽出する際に、追加する概念表現基本単位間の関係である文節間関係を指定する文節間関係指定手段を有することを特徴とする。
【0026】
請求項10記載の発明は、請求項1記載の文書検索装置において、言語解析手段は、テキストデータに対して、形態素解析、係り受け解析行うことで言語解析を行うことを特徴とする。
【0027】
請求項11記載の発明は、請求項1記載の文書検索装置において、トークン抽出手段は、言語解析結果に基づいて文節情報から特定の自立語を抽出してトークンを生成することを特徴とする。
【0028】
請求項12記載の発明は、テキストデータを入力するテキスト入力手段と、言語解析結果とトークンと意図表現とに関する情報を記憶するテキストデータ構造記憶手段と、拡張検索を行う対称となる概念表現を指定する概念表現指定手段と、制御手段と、を有する文書検索装置において実行される文書検索処理プログラムであって、テキスト入力手段により入力されたテキストデータに対して言語解析を行う言語解析処理と、言語解析処理により言語解析を行った言語解析結果に基づいて、テキストデータから、それ自体で1つの意味を表す単語となるトークンを生成するトークン抽出処理と、言語解析処理により言語解析を行った言語解析結果に基づいて、テキストデータから、特定の付属語表現パターンを意図表現として抽出する意図表現抽出処理と、言語解析処理により言語解析を行った言語解析結果と、トークン抽出処理により生成したトークンと、意図表現抽出処理により抽出した意図表現と、に関する情報をテキストデータ構造記憶手段に記憶する記憶処理と、概念表現指定手段により拡張検索を行う対称となる概念表現を指定する概念表現指定処理と、概念表現指定処理により指定された概念表現を拡張した拡張概念表現を、テキストデータ構造記憶手段に記憶された情報から抽出する拡張概念表現抽出処理と、を制御手段に実行させることを特徴とする。
【0029】
請求項13記載の発明は、請求項12記載の文書検索処理プログラムにおいて、拡張概念表現抽出処理は、概念表現指定手段により指定された概念表現に含まれる概念表現基本単位に対して、意図表現を追加することにより、指定された概念表現を拡張することを特徴とする。
【0030】
請求項14記載の発明は、請求項13記載の文書検索処理プログラムにおいて、拡張概念表現抽出処理により拡張概念表現を抽出する際に、意図表現を追加する概念表現基本単位を指定する概念表現基本単位指定処理を制御手段に実行させることを特徴とする。
【0031】
請求項15記載の発明は、請求項13または14記載の文書検索処理プログラムにおいて、拡張概念表現抽出処理により拡張概念表現を抽出する際に、概念表現基本単位に追加する意図表現種類を指定する意図表現種類指定処理を制御手段に実行させることを特徴とする。
【0032】
請求項16記載の発明は、請求項12記載の文書検索処理プログラムにおいて、拡張概念表現抽出処理は、概念表現指定手段により指定された概念表現に、新たな概念表現基本単位を追加することにより、指定された概念表現を拡張することを特徴とする。
【0033】
請求項17記載の発明は、請求項16記載の文書検索処理プログラムにおいて、拡張概念表現抽出処理により拡張概念表現を抽出する際に、追加する概念表現基本単位の数を指定する概念表現基本単位数指定処理を制御手段に実行させることを特徴とする。
【0034】
請求項18記載の発明は、請求項16または17記載の文書検索処理プログラムにおいて、拡張概念表現抽出処理により拡張概念表現を抽出する際に、概念表現基本単位を追加する方向を指定する方向指定処理を制御手段に実行させることを特徴とする。
【0035】
請求項19記載の発明は、請求項16から18の何れか1項に記載の文書検索処理プログラムにおいて、拡張概念表現抽出処理により拡張概念表現を抽出する際に、追加する概念表現基本単位に含まれるトークンの品詞を指定するトークン品詞指定処理を制御手段に実行させることを特徴とする。
【0036】
請求項20記載の発明は、請求項16から19の何れか1項に記載の文書検索処理プログラムにおいて、拡張概念表現抽出処理により拡張概念表現を抽出する際に、追加する概念表現基本単位間の関係である文節間関係を指定する文節間関係指定処理を制御手段に実行させることを特徴とする。
【0037】
請求項21記載の発明は、請求項12記載の文書検索処理プログラムにおいて、言語解析処理は、テキストデータに対して、形態素解析、係り受け解析行うことで言語解析を行うことを特徴とする。
【0038】
請求項22記載の発明は、請求項12記載の文書検索処理プログラムにおいて、トークン抽出処理は、言語解析結果に基づいて文節情報から特定の自立語を抽出してトークンを生成することを特徴とする。
【0039】
請求項23記載の発明は、請求項12から22の何れか1項に記載の文書検索処理プログラムをコンピュータ読取可能な記録媒体に記録したことを特徴とする。
【0040】
この請求項1、12記載の発明によれば、テキスト情報に含まれる概念を表現する方法として、テキストを言語解析し、その解析結果により得られる文節情報から抽出されるトークンと、意図表現と、の組み合わせで表現される概念表現基本単位、および、言語解析結果から得られる文節間関係情報に基づいた複数概念表現基本単位の関係表現、により概念を表現する概念表現方法において、指定された概念表現を拡張した概念表現をテキストから検索することとしている。これにより、ユーザは指定した概念を意味的に絞り込んだ概念を検索することができ、テキストに含まれる概念の理解、探索を効率的に行うことができる。
【0041】
請求項2、13の発明によれば、指定された概念表現に含まれる概念表現基本単位の意図表現を追加することにより、指定された概念表現を拡張することとしている。これにより、ユーザは指定した概念を意図表現により意味的に絞り込んだ概念を検索することができる。
【0042】
請求項3、14の発明によれば、意図表現を追加する概念表現基本単位をユーザが指定することとしている。これにより、ユーザは指定した概念表現基本単位の意図表現を拡張することにより意味的に絞り込んだ概念を検索することができ、ユーザが必要とする概念表現のみを検索することができる。
【0043】
請求項4、15の発明によれば、概念表現基本単位に追加する意図表現種類をユーザが指定することとしている。これにより、ユーザは指定した意図表現について拡張することにより意味的に絞り込んだ概念を検索することができ、ユーザが必要とする概念表現のみを検索することができる。
【0044】
請求項5、16の発明によれば、概念表現基本単位を追加することにより指定された概念表現を拡張することとしている。これにより、ユーザは指定した概念に対して概念表現基本単位を追加することにより意味的に絞り込んだ概念を検索することができる。
【0045】
請求項6、17の発明によれば、追加する概念表現基本単位の数をユーザが指定することとしている。これにより、ユーザは指定した概念に対して概念表現基本単位を追加する際に、追加する概念表現基本単位の数を指定することができ、ユーザが必要とする概念表現のみを検索することができる。
【0046】
請求項7、18の発明によれば、概念表現基本単位を追加する方向をユーザが指定することとしている。これにより、ユーザは指定した概念に対して概念表現基本単位を追加する際に、指定された概念表現の前方に概念表現基本単位を追加するのか、後方に追加するのかを指定することができ、ユーザが必要とする概念表現のみを検索することができる。
【0047】
請求項8、19の発明によれば、追加する概念表現基本単位を、ユーザが概念表現基本単位に含まれるトークンの品詞を指定することにより選択することとしている。これにより、ユーザは指定した概念に対して概念表現基本単位を追加する際に、指定した品詞のトークンを含む概念表現基本単位のみを指定することができ、ユーザが必要とする概念表現のみを検索することができる。
【0048】
請求項9、20の発明によれば、追加する概念表現基本単位を、ユーザが概念表現基本単位間の関係である文節間関係を指定することにより選択することとしている。これにより、ユーザは指定した概念に対して概念表現基本単位を追加する際に、指定した文節間関係をもつ概念表現基本単位のみを指定することができ、ユーザが必要とする概念表現のみを検索することができる。
【0049】
請求項10、21の発明によれば、テキストデータに対して、形態素解析、係り受け解析行うことで言語解析を行うこととしている。
【0050】
請求項11、22の発明によれば、言語解析結果に基づいて文節情報から特定の自立語を抽出してトークンを生成することとしている。
【0051】
請求項23の発明によれば、請求項12から請求項22記載の文書検索処理プログラムを、コンピュータ読取可能な記録媒体に記録しているので、記録媒体を、コンピュータ等の情報処理装置に読み取らせることで、テキストに含まれる概念の理解、探索を効率的に行うことができる文書検索装置を構築することが可能となる。
【0052】
【発明の実施の形態】
(発明の特徴)
まず、本発明にかかる文書検索装置の特徴について説明する。
本発明にかかる文書検索装置における概念表現方法は、テキスト内に含まれる概念を、文節情報に基づいて抽出される概念表現基本単位と、文節間関係情報に基づいて抽出される概念表現基本単位と、の関係を用いて表現する。概念表現基本単位は、基本的には文節に対応しており、文節内の自立語をトークンとし、文節内の付属語の特定パターン抽出により抽出される意図表現の組み合わせで表現される。
【0053】
この概念表現方法は、概念表現基本単位を連続的につなげることで複数単語による概念を表現、指定することができる。例えば、「最新⇒OS⇒インストール(+可能+打消)」。また、この概念表現方法は、ユーザにとって解り易いだけでなく、その表現の拡張など、ユーザによる操作も行い易くなっている。
【0054】
本発明にかかる文書検索装置は、上記の概念表現方法において、指定された概念表現を拡張した概念表現を、テキストデータ内から検索することとする。これにより、例えば、「わかる(+打消)」という概念表現「わからないという意味」に、ユーザが着目した場合に、概念表現「わかる(+打消)」を拡張した概念表現を、テキストデータ内から検索することが可能となる。この例を以下に記す。
【0055】
(例)
指定概念表現:「わかる(+打消)」
検索概念表現:「使い方 ⇒ わかる(+打消)」
検索概念表現:「操作 ⇒ わかる(+打消)」
検索概念表現:「意味 ⇒ わかる(+打消)」
検索概念表現:「 わかる(+打消) ⇒ ユーザ」
検索概念表現:「 わかる(+打消) ⇒ 理由」
【0056】
これにより、ユーザは、「何がわからないのか」や「わからない何なのか」などを知ることができる。なお、概念表現の拡張は、概念を意味的に絞り込むことである。これは、テキストデータに含まれる概念を理解したり、大量の概念の中から必要な概念を探し出したりするのに効果的である。
【0057】
以下、添付図面を参照しながら本発明にかかる文書検索装置について詳細に説明する。なお、図1は、本発明にかかる文書検索装置の構成図である。図2は、テキストデータ構造の構造例である。図3は、テキストデータ構造の各構成要素が管理する情報例である。図4は、単語リスト例である。図5は、文節管理情報例である。図6は、概念表現検索方法のフローチャートである。
【0058】
(概念表現)
まず、本実施の形態において用いられる概念表現について説明する。
【0059】
本発明における概念表現は、テキストを言語解析することで得られる文節、あるいは、文節間関係情報に基づいている。言語解析としては、例えば、形態素解析、文節係り受け解析を利用することができる。なお、形態素解析は、テキストに含まれる単語を分析する。係り受け解析は、テキストに含まれる文節を解析し、文節間の関係として係りと受けとの関係にある文節を解析する。
【0060】
例えば、「ソフトウェアのインストールが正常に実行できない」というテキストの場合、言語解析の結果、以下に示す(例1)の情報を得ることができる。
【0061】
【表1】
Figure 2004334602
【0062】
なお、上記(例1)における「自」は自立語を、「付」は付属語を示す。なお、自立語とは、動詞、形容詞、名詞などの品詞の単語であり、付属語とは、助詞、助動詞などの品詞の単語である。通常文節は、1個の自立語と、0個以上の付属語と、で構成される。解析方法によっては、1文節に複数個の自立語が含まれるような結果を出すものもあるが、本実施の形態では、文節には必ず1個の自立語しか含まないように文節を生成する解析方法を利用するものとする。
【0063】
なお、概念表現は、概念表現の基本単位と基本単位間の関係表現により表現される。概念表現の基本単位は、トークンおよび意図表現を利用して表現される。
【0064】
なお、トークンとは、それ自体で1つの意味をあらわす単語であり、自立語を利用することができる。例えば、上記(例1)では、「ソフトウェア」「インストール」「正常」「実行」がトークンとなる。トークンの表現はトークンの表記を利用することもできるし、トークンの代表的表記に変換したものを利用することもできる。
【0065】
また、意図表現とは、文節内の付属語による意味の付加を表す表現であり、付属語の特定の表現パターンを抽出することで、その文節に付加されている意図を解析する。例えば、「〜ない(助動詞)」「〜ず(助動詞)」という表現は「打消」の意味を、「〜できる(補助動詞)」という表現は「可能」の意味を、「〜たい(助動詞)」という表現は「要望」の意味を、文節に対して付加しているとすることが可能である。例えば、上記(例1)の「実行できない」という文節から「可能」と「打消」の意図表現が抽出される。
【0066】
意図表現は、例えば、「(+打消)」「(+可能−打消)」というように表現することができる、ここで、「+XX」は、その意図表現が付加されていることを、「−XX」は、その意図表現が付加されていないことを表している。
【0067】
概念表現の基本単位としては、トークンのみ、意図表現のみ、あるいはトークンと意図表現の組み合わせで表現され、例えば、以下のように表現される。
【0068】
概念表現基本単位 表現例 :「購入」「(+可能)」「実行(+可能+打消)」
【0069】
なお、トークンと意図表現との組み合わせとは、ある文節に指定されたトークンが含まれていて、かつ、その文節に指定された意図表現が付加されていることを意味する。
【0070】
基本単位間の関係は、基本単位間に意味的な強い関係があることを示す。意味的な強い関係とは、基本的には係り受け関係にある文節に含まれることを表す。例えば、基本単位間の関係を「⇒」で表すものとすると、「情報⇒検索」という概念表現は、係り受け関係にある2つの文節において、係り文節に「情報」が、受け文節に「検索」が、含まれていることを意味する(「情報を検索する」)。
【0071】
このように、基本単位間の関係として、文節係り受け関係を利用することで、文書検索などで利用される単語の論理式「ソフトウェア&インストール」のように、単にテキスト内の共起出現関係を指定するのではなく、基本単位がテキスト内で意味的に強い関係をもって出現していることを指定することができる。
【0072】
文節係り受け関係は、ある文節が係り文節になる場合は、受け文節は1つのみであるが、複数の係り文節が同じ1つの受け文節に係ることができる(上記(例1)の文節4は、文節2と文節3との受け文節となっている)。そのため、概念表現における基本単位間の関係の表現は、(1)複数の係り文節を持つ受け文節という文節間関係を表現する場合と、(2)文節間関係を表現しない場合と、の2通りが可能である。
【0073】
(1)複数の係り文節を持つ受け文節という文節間関係を表現しない場合は、概念表現は基本単位の単純な1次元のリスト表現となる。
【0074】
【表2】
Figure 2004334602
【0075】
(2)複数の係り文節を持つ受け文節という文節間関係を表現する場合は、概念表現は基本単位のツリー表現となる。
【0076】
【表3】
Figure 2004334602
【0077】
(1)の場合、概念表現は、ユーザにとって簡単でわかりやすく、表現の拡張などの操作も行いやすいが、複雑な文節係り受け関係構造の表現ができない問題がある。(2)の場合、複雑な文節係り受け関係構造も表現できるが、ユーザには複雑で解りにくく、操作も行いにくいと考えられる。また、(1)と(2)との両方を利用することができるが、本実施の形態では、ユーザにとって解りやすく操作もしやすい(1)の表現方法を用いることとして説明する。
【0078】
(例1)のテキストから生成することのできる概念表現例を以下の(例2)に示す。
【0079】
(例2)
概念表現1 :ソフトウェア
概念表現2 :インストール
概念表現3 :正常
概念表現4 :実行
概念表現5 :実行(+可能)
概念表現6 :実行(+打消)
概念表現7 :実行(+可能+打消)
概念表現8 :ソフトウェア⇒インストール
概念表現9 :インストール⇒実行
概念表現10:インストール⇒実行(+可能)
概念表現11:インストール⇒実行(+打消)
概念表現12:インストール⇒実行(+可能+打消)
概念表現13:正常⇒実行
概念表現14:正常⇒実行(+可能)
概念表現15:正常⇒実行(+打消)
概念表現16:正常⇒実行(+可能+打消)
概念表現17:ソフトウェア⇒インストール⇒実行
概念表現18:ソフトウェア⇒インストール⇒実行(+可能)
概念表現19:ソフトウェア⇒インストール⇒実行(+打消)
概念表現20:ソフトウェア⇒インストール⇒実行(+可能+打消)
【0080】
(概念表現の拡張検索)
本発明にかかる文書検索装置は、上記で説明した概念表現を用いた際に、指定された概念表現を拡張した概念表現をテキストから抽出する概念検索方法を用いる。例えば(例1)の場合、概念表現「インストール⇒実行」が指定された場合、下記の(例3)のように(例1)のテキストに含まれる概念表現(例2)のうち「インストール⇒実行」を含む概念表現を拡張概念として抽出する。
【0081】
(例3)
拡張概念表現1:インストール⇒実行(+可能)
拡張概念表現2:インストール⇒実行(+打消)
拡張概念表現3:インストール⇒実行(+可能+打消)
拡張概念表現4:ソフトウェア⇒インストール⇒実行
拡張概念表現5:ソフトウェア⇒インストール⇒実行(+可能)
拡張概念表現6:ソフトウェア⇒インストール⇒実行(+打消)
拡張概念表現7:ソフトウェア⇒インストール⇒実行(+可能+打消)
【0082】
次に、本発明にかかる文書検索装置における動作処理を説明する。
なお、本発明にかかる文書検索装置は、図1に示すように、テキスト入力手段101と、言語解析手段102と、トークン抽出手段103と、意図表現抽出手段104と、テキストデータ構造記憶手段105と、概念表現指定手段106と、条件指定手段107と、拡張概念表現抽出手段108と、拡張概念表現記憶手段109と、を有して構成される。
【0083】
(テキストの入力)
テキスト入力手段101では、テキストを入力する。なお、既にテキストが記録されている場合は、そのテキストを入力とすることもできる。また、入力するテキストは1つでも複数でもかまわないが、以下においては、複数のテキストが入力されたものとして説明する。
【0084】
(言語解析)
言語解析手段102では、入力された各テキストに対して、形態素解析と、係り受け解析と、の言語解析を行う。形態素解析ではテキストに含まれる単語を解析する。係り受け解析では、テキストに含まれる文、文節を解析し、文節間の関係として係りと受けとの関係にある文節を解析する。例えば、「ソフトウェアのインストールが正常に実行できない」という文を解析した場合の解析結果例を以下に示す。なお、単語の区切りを「/」で示す。また、各単語の上の「自」は自立語を、「付」は付属語を示す。
【0085】
【表4】
Figure 2004334602
【0086】
通常、文節は1つの自立語を含む。1つの文節に複数の自立語を含むように解析する処理方法もあるが、本実施の形態では、文節には必ず1つの自立語だけを含むように解析する方法を利用するものとする。
【0087】
(トークン抽出)
トークン抽出手段103は、言語解析手段102によって解析された各文節からトークンを抽出する。文節内の単語情報から、自立語品詞である単語を抽出してトークンとする。
【0088】
上記の(テキスト例)からは、以下のようになる。
文節1トークン: ソフトウェア
文節2トークン: インストール
文節3トークン: 正常
文節4トークン: 実行
【0089】
(意図表現抽出)
意図表現抽出手段104は、言語解析手段102により解析された各文節から意図表現を抽出する。文節内の単語情報から、特定の表現パターンを抽出し、意図表現情報を生成する。例えば、「打消」「要望」「疑問」「可能」という意図表現は、下記のような単語、あるいは、表現パターンが含まれている場合に抽出することができる。
【0090】
意図表現「打消」:助動詞「ない」、助動詞「ず」、助動詞「まい」、補助助動詞「にくい」
意図表現「要望」:助動詞「たい」
意図表現「疑問」:終助詞「か」、終助詞「か」+終助詞「な」、記号「?」
意図表現「可能」:補助動詞「できる」、助動詞「れる」、助動詞「られる」
【0091】
上記の(テキスト例)の場合は、意図表現として以下のものが抽出される。
【0092】
文節4意図表現: +可能+打消
【0093】
(テキストデータ構造記憶)
テキストデータ構造記憶手段105は、言語解析手段102により解析されたテキストの構造と、トークン抽出手段103と、意図表現抽出手段104と、で抽出されたトークンおよび意図表現の情報を記憶する。
【0094】
テキストは、図2に示すようなデータ構造で記憶される。また、図2に示す各構成要素は、図3に示す情報を保持している。本実施の形態では、図4に示すように、テキストに含まれる単語に対して、ユニークな識別子を付与した単語リストを生成し、単語の管理を行うものとする。その際、品詞情報や全体における出現頻度を算出しておくことも可能である。
【0095】
図3に、図2に示す各構成要素が保持する情報を示す。各テキストはユニークなIDを付与されて管理される。各テキストは、テキストに含まれる文IDリストを管理する。文は、自分の文IDと文に含まれる文節リストを管理する。文節は、自分の文節IDと文節に含まれる単語IDリスト、係り文節IDリスト、受け文節IDを管理する。単語IDは、図4に示した単語リストにおけるIDである。係り文節IDリストは、当該文節を受けとする係り文節のIDである。
【0096】
上記の(テキスト例)にもあるように、1つの受け文節に対して、複数の文節が係り文節となりうるので係り文節IDリストで管理する。受け文節IDは、当該文節が係り文節となる受け文節のIDである。係り文節は、受け文節を1つしかとることができない。また、文節はその文節から抽出されたトークンと意図表現も管理する。
【0097】
文節が管理する情報として、係り受けの関係の種類を保持することも可能である。例えば、連体修飾なのか連用修飾なのか、などである。
【0098】
図5に、文節が保持するデータ例を示す。
また、同義語辞書を持ち同義語を持つ単語に関して代表表記情報をもたせることも可能である。これは、図4に示すように、単語リストの項目として同義語代表表記を持つことにより実現できる。
【0099】
(概念表現指定)
概念表現指定手段106は、拡張検索を行う対象となる概念表現を指定する。エディタなどを用いてユーザに直接記述したり、テキストに含まれている概念表現の一覧表示などを行う表示手段がある場合は、その表示手段上で、ユーザが選択することで概念表現を指定したりすることができる。
【0100】
(条件指定)
条件指定手段107は、拡張検索を行う際の条件を指定する。
なお、本実施の形態では、意図表現による拡張を行う際に、指定された概念表現に含まれるどの概念表現基本単位に関して拡張するかを、ユーザが指定することとする。
【0101】
また、本実施の形態では、意図表現による拡張を行う際に、拡張する意図表現の種類をユーザが指定する。例えば、「可能」「打消」「要望」「疑問」の中から選択させることとする。
【0102】
また、本実施の形態では、概念表現基本単位の追加による拡張を行う際に、追加する概念表現基本単位の数をユーザが指定することとする。
【0103】
また、本実施の形態では、概念表現基本単位の追加による拡張を行う際に、概念表現基本単位を追加する方向を(前方か後方か)をユーザが指定することとする。
【0104】
また、本実施の形態では、概念表現基本単位の追加による拡張を行う際に、追加する概念表現基本単位のトークン品詞をユーザが指定することとする。
【0105】
また、本実施の形態では、概念表現基本単位の追加による拡張を行う際に、追加する概念表現基本単位の文節間関係をユーザが指定することとする。例えば、「連体修飾」「連用修飾」「格修飾」「並列関係」「複合関係」などから選択させることとする。
【0106】
(拡張概念表現抽出)
拡張概念表現抽出手段108は、テキストデータ構造記憶手段105に記憶されている情報に基づいて、概念表現指定手段106で指定された概念表現を拡張した概念表現を抽出する。
【0107】
概念表現の拡張は、(1)意図表現の追加による拡張と、(2)概念表現基本単位の追加による拡張の2通りが考えられる。この2通りについて以下に説明する。
【0108】
(1)意図表現の追加による拡張
まず、意図表現の追加による拡張について説明する。
意図表現による拡張とは、指定された概念表現に含まれる概念表現基本単位に対して、意図表現を追加することで拡張する。上記の(テキスト例)の場合、指定概念表現として「インストール⇒実行」が指定されると、意図表現により拡張された概念表現として以下の概念表現を抽出する。
【0109】
【表5】
Figure 2004334602
【0110】
なお、意図表現による拡張は以下の手順で行われる。
【0111】
▲1▼(指定概念表現と適合するテキストデータ構造の検索)
テキストデータ構造記憶手段105に記憶されているデータ構造から、指定概念表現と適合する構造を検索する。指定概念表現の検索処理のフローチャートを図6に示す。図6のフローチャートは、1つのテキストに対する処理であるが、複数テキストを対象とする場合は各テキストに対してこの処理を行う。以下、図6に示す処理動作について説明する。
【0112】
まず、文ID:Siと、文節ID:Kjと、指定概念表現:CEn(n=1〜N)と、のi、j、nに1を代入して(ステップS1)、以下の処理を行う。
【0113】
まず、文節Kjが、概念表現基本単位CEnを含むか否かを判定する(ステップS2)。この判定により、文節Kjが、概念表現基本単位CEnを含まないと判定した場合は(ステップS2/NO)、その文節Kjが、文Siの最後の文節か否かを判定する(ステップS8)。
【0114】
また、このステップS2の判定により、文節Kjが、概念表現基本単位CEnを含むと判定した場合は(ステップS2/YES)、変数の文節Kxに文節Kjを代入する(文節Kx=Kj)(ステップS3)。次に、指定概念表現CEnのnの値が最後の指定概念表現CENか否かを判定する(ステップS4)。該判定により、nの値が最後の指定概念表現のNであると判定した場合は(ステップS4/YES)、概念表現抽出処理を行う(ステップS5)。
【0115】
また、nの値が最後の指定概念表現のNでないと判定した場合は(ステップS4/NO)、nの値を1つ移行させ、n=n+1と設定する(ステップS6)。そして、文節Kxの受け文節Kyが概念表現基本単位CEnを含むか否かを判定する(ステップS7)。この判定により、文節Kxの受け文節Kyが概念表現基本単位CEnを含むと判定した場合は(ステップS7/YES)、ステップS4に戻り同様の処理を繰り返す。また、この判定により、文節Kxの受け文節Kyが概念表現基本単位CEnを含まないと判定した場合は(ステップS7/NO)、その文節Kjが、文Siの最後の文節か否かを判定する(ステップS8)。
【0116】
次に、ステップS8の判定により、その文節Kjが、文Siの最後の文節でないと判定した場合は(ステップS8/NO)、ステップS2に戻り、文節Kjのjの値を1つ移行し、j=j+1とし、また、指定概念表現CEnのnの値を1として、同様の処理を行う。また、このステップS8の判定により、その文節Kjが、文Siの最後の文節であると判定した場合は(ステップS8/YES)、文Siがテキストの最後の文か否かを判定する(ステップS9)。この判定により、文Siがテキストの最後の文であると判定した場合は(ステップS9/YES)、処理を終了する。また、この判定により、文Siがテキストの最後の文でないと判定した場合は(ステップS9/NO)、ステップS2に戻り、文Siのiの値を1つ移行し、i=i+1と設定し、また、文節Kjのjの値を1と設定し、また、指定概念表現CEnのnの値を1と設定して、同様の処理を行う。
【0117】
図6に示す処理を行うことで、上記の(テキスト例)の場合、指定概念表現として「インストール⇒実行」が指定されると、「文節2⇒文節4」というテキストデータ構造が適合する。
【0118】
▲2▼(検索されたテキストデータ構造に基づいた拡張概念表現の抽出)
検索されたテキストデータ構造すべてに対して、その文節情報から、意図表現の拡張により拡張概念表現を抽出する。検索された「文節2」と「文節4」との意図表現情報を参照し、指定概念表現には含まれていない意図表現を追加した拡張概念表現を生成する。文節2には、意図表現情報はなく、文節4には、「+可能+打消」という情報があるので、意図表現の組み合わせのバリエーションにより、以下の3つの拡張概念表現が抽出される。
【0119】
拡張概念表現1: 「インストール⇒実行(+可能)」
拡張概念表現2: 「インストール⇒実行(+打消)」
拡張概念表現3: 「インストール⇒実行(+可能+打消)」
【0120】
▲3▼(抽出した拡張概念表現の記録)
抽出された拡張概念表現を拡張概念表現記憶手段109に記憶する。その際に、出現頻度や出現テキスト数を計数して管理する。
【0121】
なお、本実施の形態では、拡張概念の抽出を行う際に、ユーザが拡張する指定概念表現内の概念表現基本単位を指定することができる。この場合は、上記▲2▼(検索されたテキストデータ構造に基づいた拡張概念表現の抽出)の処理において、指定された概念表現基本単位に対応する文節情報にのみ基づいて拡張概念表現を抽出する。
【0122】
また、本実施の形態では、拡張概念の抽出を行う際に、ユーザが拡張する意図表現の種類を指定することができる。この場合は、上記▲2▼(検索されたテキストデータ構造に基づいた拡張概念表現の抽出)の処理において、指定された意図表現についてのみ拡張概念表現を抽出する。例えば、上記の(テキスト例)において、意図表現として「+可能」が指定されていた場合、「インストール⇒実行(+可能)」だけを拡張概念表現として抽出する。
【0123】
(2)概念表現基本単位の追加による拡張
次に、概念表現基本単位の追加による拡張について説明する。
概念表現基本単位の追加による拡張とは、指定された概念表現に新たな概念表現基本単位を追加した拡張概念表現を抽出する。上記の(テキスト例)の場合、指定概念表現として「インストール」が指定されると、概念表現基本単位の追加により拡張された概念表現として以下の概念表現を抽出する。
【0124】
【表6】
Figure 2004334602
【0125】
なお、追加する概念表現基本単位の数は、いくつでもかまわないが、拡張の処理は繰り返し行うことができるので、通常は、概念表現基本単位を1つ追加した拡張概念表現を抽出するようにしてもよい。
【0126】
また、例えば「インストール⇒実行」という概念表現が指定されている場合、1つ概念表現基本単位を追加する場合、次の3つのパターンが考えられる。
パターン1: XXX:⇒インストール⇒実行
パターン2: インストール⇒実行⇒XXX
パターン3: インストール⇒XXX⇒実行
パターン1、パターン2は、指定された概念表現の前後に概念表現基本表現を追加すればよい。しかし、パターン3は、指定された概念表現に含まれる概念表現基本単位間に、新たな概念表現基本単位を追加するために、指定された概念表現自体も変更してしまう。そのため、指定された概念表現の意味が変わってしまう可能性がある。また、パターン3の拡張を行わないように実装してもかまわないが、パターン3の拡張を行う場合は、指定された概念表現自体も変更してしまうことに注意しなければならない。また、パターン3の拡張は、追加する概念表現基本単位との関係が特定の係り受け関係(例えば、複合関係)の時にのみに行うように実装することも可能である。
【0127】
なお、概念表現基本単位の追加による拡張は以下の手順で行われる。
【0128】
▲1▼(指定された概念表現の拡張パターンの生成)
指定された概念表現に含まれる概念表現基本単位間に、新たな概念表現基本単位を追加した拡張概念表現のパターンを生成する。例えば、「インストール」という概念表現が指定されていて、概念基本表現を1つ追加する場合は、以下のような拡張概念表現パターンを生成する。
拡張概念表現パターン1: 「XXX⇒インストール」
拡張概念表現パターン2: 「インストール⇒XXX」
【0129】
また、概念基本表現を2つ追加する場合は、以下のような拡張概念表現パターンを生成する。
【0130】
拡張概念表現パターン1: 「XXX⇒YYY⇒インストール」
拡張概念表現パターン2: 「インストール⇒XXX⇒YYY」
【0131】
また、例えば、「インストール⇒実行」という概念表現が指定されて場合、概念基本表現を1つ追加する場合は、以下のような拡張概念表現パターンを生成する。
【0132】
拡張概念表現パターン1: 「XXX⇒インストール⇒実行」
拡張概念表現パターン2: 「インストール⇒実行⇒XXX」
拡張概念表現パターン3: 「インストール⇒XXX⇒実行」
【0133】
概念基本表現を2つ追加する場合は、以下のような拡張概念表現パターンを生成する。
【0134】
拡張概念表現パターン1: 「XXX⇒YYY⇒インストール⇒実行」
拡張概念表現パターン2: 「XXX⇒インストール⇒YYY⇒実行」
拡張概念表現パターン3: 「インストール⇒XXX⇒YYY⇒実行」
拡張概念表現パターン4: 「インストール⇒XXX⇒実行⇒YYY」
拡張概念表現パターン5: 「インストール⇒実行⇒XXX⇒YYY」
【0135】
▲2▼(拡張概念表現パターンと適合するテキストデータ構造の検索)
テキストデータ構造記憶手段105に記憶されているデータ構造から、上記▲1▼(指定された概念表現の拡張パターンの生成)で生成した拡張概念表現パターンと適合する構造を検索する。拡張概念表現パターンの検索処理のフローチャートを図6に示す。ただし、▲1▼(指定された概念表現の拡張パターンの生成)で生成した拡張概念パターンの拡張部分(「XXX」「YYY」)は任意の文節に適合するものとして検索を行う。図6のフローチャートは1つのテキストに対する処理であるが、複数テキストを対象とする場合は各テキストに対してこの処理を行う。
【0136】
上記の(テキスト例)の場合、指定概念表現として「インストール」、追加する概念表現基本単位の数を1とすると、拡張概念表現パターンとして以下のパターンが生成される。
【0137】
拡張概念表現パターン1: 「XXX⇒インストール」
拡張概念表現パターン2: 「インストール⇒XXX」
【0138】
そして、以下のテキストデータ構造が適合する。
【0139】
拡張概念表現パターン1: 「文節1⇒文節2」
拡張概念表現パターン2: 「文節2⇒文節4」
【0140】
▲3▼(検索されたテキストデータ構造に基づいた拡張概念表現の抽出)
検索されたテキストデータ構造のすべてに対して、その文節情報のトークン、意図表現情報に基づいて拡張概念表現を抽出する。
【0141】
テキストデータ構造「文節1⇒文節2」
拡張概念表現1: 「ソフトウェア⇒インストール」
【0142】
テキストデータ構造「文節2⇒文節4」
拡張概念表現2: 「インストール⇒実行」
拡張概念表現3: 「インストール⇒実行(+可能)」
拡張概念表現4: 「インストール⇒実行(+打消)」
拡張概念表現5: 「インストール⇒実行(+可能+打消)」
【0143】
なお、拡張概念表現を抽出する際は、意図表現の組み合わせのバリエーションをすべて生成してもかまわないが、抽出する拡張概念表現の種類が増えてしまう問題もある。そのため、概念表現基本単位の追加による拡張は、トークン情報だけで行い(拡張概念表現1、2だけを抽出する)、意図表現の情報が知りたい場合は、抽出された拡張概念表現に対して「意図表現による拡張」を行うように実装してもよい。
【0144】
▲4▼(抽出した拡張概念表現の記録)
抽出された拡張概念表現を拡張概念表現記憶手段109に記憶する。その際に、出現頻度や出現テキスト数を計数して管理する。
【0145】
なお、本実施の形態では、拡張概念の抽出を行う際に、ユーザが追加する概念表現基本単位の数を指定することができる。この場合は、上記▲1▼(指定された概念表現の拡張パターンの生成)の処理において、指定された数の概念表現基本単位を追加した場合の拡張概念表現パターンを生成すればよい。
【0146】
また、本実施の形態では、拡張概念の抽出を行う際に、ユーザが概念表現基本単位を追加する方向(前方か後方か)を指定することができる。この場合は、上記▲1▼(指定された概念表現の拡張パターンの生成)の処理において、指定された方向に対して概念表現基本単位を追加した場合の拡張概念表現パターンを生成すればよい。
【0147】
また、本実施の形態では、拡張概念の抽出を行う際に、ユーザが追加する概念表現基本単位のトークンの品詞を指定することができる。この場合は、上記▲2▼(拡張概念表現パターンと適合するテキストデータ構造の検索)の処理において、拡張概念表現パターンを検索する際に、拡張部分(「XXX」「YYY」)の適合条件に指定された品詞情報を利用すればよい。
【0148】
また、本実施の形態では、拡張概念の抽出を行う際に、追加する概念表現基本単位を、ユーザが概念表現基本単位間の関係である文節間関係を指定することにより選択することができる。この場合は、上記▲2▼(拡張概念表現パターンと適合するテキストデータ構造の検索)の処理において、拡張概念表現パターンを検索する際に、拡張部分(「XXX」「YYY」)の適合条件に指定された文節関係情報を利用すればよい。
【0149】
(拡張概念表現記憶)
拡張概念表現記憶手段109は、拡張概念表現抽出手段108で抽出された拡張概念表現を記憶する。その際、出現頻度や出現テキスト数も記憶することもできる。
【0150】
なお、上述する実施の形態は、本発明の好適な実施の形態であり、本発明の要旨を逸脱しない範囲内において種々変更実施が可能である。例えば、本実施の形態における文書検索装置での一連の処理動作をプログラムとして、情報処理装置で実行させることでも文書検索装置と同様の処理動作を行う装置を構築することが可能である。
【0151】
【発明の効果】
以上の説明より明らかなように本発明は以下のような効果を奏する。
本発明にかかる文書検索装置、文書検索処理プログラム及び記録媒体によれば、テキスト情報に含まれる概念を表現する方法として、テキストを言語解析し、その解析結果により得られる文節情報から抽出されるトークンと、意図表現と、の組み合わせで表現される概念表現基本単位、および、言語解析結果から得られる文節間関係情報に基づいた複数概念表現基本単位の関係表現、により概念を表現する概念表現方法において、指定された概念表現を拡張した概念表現をテキストから検索することとしている。これにより、ユーザは指定した概念を意味的に絞り込んだ概念を検索することができ、テキストに含まれる概念の理解、探索を効率的に行うことができる。
【図面の簡単な説明】
【図1】本発明にかかる文書検索装置の構成を示すブロック図である。
【図2】本実施の形態におけるテキストデータ構造の構造例を示す図である。
【図3】本実施の形態におけるテキストデータ構造の各構成要素が管理する情報例を示す図である。
【図4】本実施の形態における単語リスト例を示す図である。
【図5】本実施の形態における文節管理情報例を示す図である。
【図6】本実施の形態における概念表現検索方法を示すフローチャートである。
【符号の説明】
101 テキスト入力手段
102 言語解析手段
103 トークン抽出手段
104 意図表現抽出手段
105 テキストデータ構造記憶手段
106 概念表現指定手段
107 条件指定手段
108 拡張概念表現抽出手段
109 拡張概念表現記憶手段

Claims (23)

  1. テキストデータを入力するテキスト入力手段と、
    前記テキスト入力手段により入力されたテキストデータに対して言語解析を行う言語解析手段と、
    前記言語解析手段により言語解析を行った言語解析結果に基づいて、前記テキストデータから、それ自体で1つの意味を表す単語となるトークンを生成するトークン抽出手段と、
    前記言語解析手段により言語解析を行った言語解析結果に基づいて、前記テキストデータから、特定の付属語表現パターンを意図表現として抽出する意図表現抽出手段と、
    前記言語解析手段により言語解析を行った言語解析結果と、前記トークン抽出手段により生成したトークンと、前記意図表現抽出手段により抽出した意図表現と、に関する情報を記憶するテキストデータ構造記憶手段と、
    拡張検索を行う対称となる概念表現を指定する概念表現指定手段と、
    前記テキストデータ構造記憶手段に記憶された情報から、前記概念表現指定手段により指定された概念表現を拡張した拡張概念表現を抽出する拡張概念表現抽出手段と、
    前記拡張概念表現抽出手段により抽出した拡張概念表現を記憶する拡張概念表現記憶手段と、
    を有することを特徴とする文書検索装置。
  2. 前記拡張概念表現抽出手段は、
    前記概念表現指定手段により指定された概念表現に含まれる概念表現基本単位に対して、意図表現を追加することにより、前記指定された概念表現を拡張することを特徴とする請求項1記載の文書検索装置。
  3. 前記拡張概念表現抽出手段により拡張概念表現を抽出する際に、前記意図表現を追加する概念表現基本単位を指定する概念表現基本単位指定手段を有することを特徴とする請求項2記載の文書検索装置。
  4. 前記拡張概念表現抽出手段により拡張概念表現を抽出する際に、前記概念表現基本単位に追加する意図表現種類を指定する意図表現種類指定手段を有することを特徴とする請求項2または3記載の文書検索装置。
  5. 前記拡張概念表現抽出手段は、
    前記概念表現指定手段により指定された概念表現に、新たな概念表現基本単位を追加することにより、前記指定された概念表現を拡張することを特徴とする請求項1記載の文書検索装置。
  6. 前記拡張概念表現抽出手段により拡張概念表現を抽出する際に、追加する概念表現基本単位の数を指定する概念表現基本単位数指定手段を有することを特徴とする請求項5記載の文書検索装置。
  7. 前記拡張概念表現抽出手段により拡張概念表現を抽出する際に、前記概念表現基本単位を追加する方向を指定する方向指定手段を有することを特徴とする請求項5または6記載の文書検索装置。
  8. 前記拡張概念表現抽出手段により拡張概念表現を抽出する際に、追加する概念表現基本単位に含まれるトークンの品詞を指定するトークン品詞指定手段を有することを特徴とする請求項5から7の何れか1項に記載の文書検索装置。
  9. 前記拡張概念表現抽出手段により拡張概念表現を抽出する際に、追加する概念表現基本単位間の関係である文節間関係を指定する文節間関係指定手段を有することを特徴とする請求項5から8の何れか1項に記載の文書検索装置。
  10. 前記言語解析手段は、前記テキストデータに対して、形態素解析、係り受け解析行うことで言語解析を行うことを特徴とする請求項1記載の文書検索装置。
  11. 前記トークン抽出手段は、前記言語解析結果に基づいて文節情報から特定の自立語を抽出して前記トークンを生成することを特徴とする請求項1記載の文書検索装置。
  12. テキストデータを入力するテキスト入力手段と、言語解析結果とトークンと意図表現とに関する情報を記憶するテキストデータ構造記憶手段と、拡張検索を行う対称となる概念表現を指定する概念表現指定手段と、制御手段と、を有する文書検索装置において実行される文書検索処理プログラムであって、
    前記テキスト入力手段により入力されたテキストデータに対して言語解析を行う言語解析処理と、
    前記言語解析処理により言語解析を行った言語解析結果に基づいて、前記テキストデータから、それ自体で1つの意味を表す単語となるトークンを生成するトークン抽出処理と、
    前記言語解析処理により言語解析を行った言語解析結果に基づいて、前記テキストデータから、特定の付属語表現パターンを意図表現として抽出する意図表現抽出処理と、
    前記言語解析処理により言語解析を行った言語解析結果と、前記トークン抽出処理により生成したトークンと、前記意図表現抽出処理により抽出した意図表現と、に関する情報を前記テキストデータ構造記憶手段に記憶する記憶処理と、
    前記概念表現指定手段により拡張検索を行う対称となる概念表現を指定する概念表現指定処理と、
    前記概念表現指定処理により指定された概念表現を拡張した拡張概念表現を、前記テキストデータ構造記憶手段に記憶された情報から抽出する拡張概念表現抽出処理と、
    を前記制御手段に実行させることを特徴とする文書検索処理プログラム。
  13. 前記拡張概念表現抽出処理は、
    前記概念表現指定手段により指定された概念表現に含まれる概念表現基本単位に対して、意図表現を追加することにより、前記指定された概念表現を拡張することを特徴とする請求項12記載の文書検索処理プログラム。
  14. 前記拡張概念表現抽出処理により拡張概念表現を抽出する際に、前記意図表現を追加する概念表現基本単位を指定する概念表現基本単位指定処理を前記制御手段に実行させることを特徴とする請求項13記載の文書検索処理プログラム。
  15. 前記拡張概念表現抽出処理により拡張概念表現を抽出する際に、前記概念表現基本単位に追加する意図表現種類を指定する意図表現種類指定処理を前記制御手段に実行させることを特徴とする請求項13または14記載の文書検索処理プログラム。
  16. 前記拡張概念表現抽出処理は、
    前記概念表現指定手段により指定された概念表現に、新たな概念表現基本単位を追加することにより、前記指定された概念表現を拡張することを特徴とする請求項12記載の文書検索処理プログラム。
  17. 前記拡張概念表現抽出処理により拡張概念表現を抽出する際に、追加する概念表現基本単位の数を指定する概念表現基本単位数指定処理を前記制御手段に実行させることを特徴とする請求項16記載の文書検索処理プログラム。
  18. 前記拡張概念表現抽出処理により拡張概念表現を抽出する際に、前記概念表現基本単位を追加する方向を指定する方向指定処理を前記制御手段に実行させることを特徴とする請求項16または17記載の文書検索処理プログラム。
  19. 前記拡張概念表現抽出処理により拡張概念表現を抽出する際に、追加する概念表現基本単位に含まれるトークンの品詞を指定するトークン品詞指定処理を前記制御手段に実行させることを特徴とする請求項16から18の何れか1項に記載の文書検索処理プログラム。
  20. 前記拡張概念表現抽出処理により拡張概念表現を抽出する際に、追加する概念表現基本単位間の関係である文節間関係を指定する文節間関係指定処理を前記制御手段に実行させることを特徴とする請求項16から19の何れか1項に記載の文書検索処理プログラム。
  21. 前記言語解析処理は、前記テキストデータに対して、形態素解析、係り受け解析行うことで言語解析を行うことを特徴とする請求項12記載の文書検索処理プログラム。
  22. 前記トークン抽出処理は、前記言語解析結果に基づいて文節情報から特定の自立語を抽出して前記トークンを生成することを特徴とする請求項12記載の文書検索処理プログラム。
  23. 請求項12から22の何れか1項に記載の文書検索処理プログラムを記録したコンピュータ読取可能な記録媒体。
JP2003130785A 2003-05-08 2003-05-08 文書検索装置、文書検索方法及びプログラム Expired - Fee Related JP4378106B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003130785A JP4378106B2 (ja) 2003-05-08 2003-05-08 文書検索装置、文書検索方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003130785A JP4378106B2 (ja) 2003-05-08 2003-05-08 文書検索装置、文書検索方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2004334602A true JP2004334602A (ja) 2004-11-25
JP4378106B2 JP4378106B2 (ja) 2009-12-02

Family

ID=33506185

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003130785A Expired - Fee Related JP4378106B2 (ja) 2003-05-08 2003-05-08 文書検索装置、文書検索方法及びプログラム

Country Status (1)

Country Link
JP (1) JP4378106B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007257149A (ja) * 2006-03-22 2007-10-04 Ricoh Co Ltd 文書処理装置及び文書処理方法
US9304984B2 (en) 2012-03-26 2016-04-05 Hewlett Packard Enterprise Development Lp Intention statement visualization
US9411860B2 (en) 2011-06-28 2016-08-09 Hewlett Packard Enterprise Development Lp Capturing intentions within online text
JP2017173865A (ja) * 2016-03-18 2017-09-28 ヤフー株式会社 抽出装置および抽出方法
JP2017187898A (ja) * 2016-04-04 2017-10-12 株式会社東芝 情報処理装置、情報処理方法およびプログラム
US11868903B2 (en) 2008-05-01 2024-01-09 Primal Fusion Inc. Method, system, and computer program for user-driven dynamic generation of semantic networks and media synthesis

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007257149A (ja) * 2006-03-22 2007-10-04 Ricoh Co Ltd 文書処理装置及び文書処理方法
US11868903B2 (en) 2008-05-01 2024-01-09 Primal Fusion Inc. Method, system, and computer program for user-driven dynamic generation of semantic networks and media synthesis
US9411860B2 (en) 2011-06-28 2016-08-09 Hewlett Packard Enterprise Development Lp Capturing intentions within online text
US9304984B2 (en) 2012-03-26 2016-04-05 Hewlett Packard Enterprise Development Lp Intention statement visualization
JP2017173865A (ja) * 2016-03-18 2017-09-28 ヤフー株式会社 抽出装置および抽出方法
JP2017187898A (ja) * 2016-04-04 2017-10-12 株式会社東芝 情報処理装置、情報処理方法およびプログラム

Also Published As

Publication number Publication date
JP4378106B2 (ja) 2009-12-02

Similar Documents

Publication Publication Date Title
EP0965089B1 (en) Information retrieval utilizing semantic representation of text
Mahmood et al. Query based information retrieval and knowledge extraction using Hadith datasets
JP2011118689A (ja) 検索方法及びシステム
JP4378106B2 (ja) 文書検索装置、文書検索方法及びプログラム
Ullah et al. Pattern and semantic analysis to improve unsupervised techniques for opinion target identification
JP2009271819A (ja) 文書検索システム、文書検索方法および文書検索プログラム
RU2004127924A (ru) Способ перевода данных и устройство для осуществления этого способа
Ung et al. Combination of features for vietnamese news multi-document summarization
JP2001101184A (ja) 構造化文書生成方法及び装置及び構造化文書生成プログラムを格納した記憶媒体
JP3486406B2 (ja) 特許情報検索装置
JP4635585B2 (ja) 質問応答システム、質問応答方法及び質問応答プログラム
JP2005025555A (ja) シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体
JP4085568B2 (ja) テキストマイニング方法およびテキストマイニング装置並びにコンピュータ読み取り可能な記憶媒体
JP2000305938A5 (ja) 文書情報検索装置および文書情報検索方法
JP2000305938A (ja) 文書情報検索装置およびコンピュータを文書情報検索装置として機能させるためのコンピュータ読取可能な記録媒体
Rosén LFG treebanks
JP2004133510A (ja) 技術文献検索システム
JPH0232469A (ja) 情報検索方式
JP2003099429A (ja) 用語集生成装置及び用語集生成プログラム並びに用語集検索装置
JP4248828B2 (ja) 文書処理装置、文書処理方法及び記録媒体
JPH04182871A (ja) 類似文書検索装置
JP4262529B2 (ja) 全文検索装置、方法、プログラム及び記録媒体
JP2003263458A (ja) テキスト分析方法及び装置
JP2006053907A (ja) 情報抽出方法、情報抽出装置、情報抽出プログラム及び情報抽出プログラムが記載された記録媒体
JP3358100B2 (ja) 日本語質問メッセージ解析方法及び装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060224

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090113

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090316

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090908

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090914

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120918

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130918

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees