JP2004287683A - Evaluation expression extraction device, program, storage medium, and evaluation expression extraction method - Google Patents

Evaluation expression extraction device, program, storage medium, and evaluation expression extraction method Download PDF

Info

Publication number
JP2004287683A
JP2004287683A JP2003077183A JP2003077183A JP2004287683A JP 2004287683 A JP2004287683 A JP 2004287683A JP 2003077183 A JP2003077183 A JP 2003077183A JP 2003077183 A JP2003077183 A JP 2003077183A JP 2004287683 A JP2004287683 A JP 2004287683A
Authority
JP
Japan
Prior art keywords
evaluation
phrase
target
dependency
expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003077183A
Other languages
Japanese (ja)
Other versions
JP4361299B2 (en
Inventor
Naoko Sato
奈穂子 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2003077183A priority Critical patent/JP4361299B2/en
Publication of JP2004287683A publication Critical patent/JP2004287683A/en
Application granted granted Critical
Publication of JP4361299B2 publication Critical patent/JP4361299B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide an evaluation expression extraction device capable of extracting a pair of an evaluation object and an evaluation expression corresponding to the evaluation object from a document. <P>SOLUTION: A text data structure generation means 102 converts a text to a data structure retaining phrase information including at least the notation and modification information of constituting words, based on a language analysis result in a language analysis means 101, which performs a language analysis processing including at least morphological analysis processing and phrase modification analysis processing to the text. A specified phrase pair selection means 104 selects a phrase pair which refers to the evaluation of an article from phrase pairs determined to have a modification relation, and an evaluation object/evaluation expression specifying means 106 specifies the evaluation object and the evaluation expression corresponding to this evaluation object from the selected segment pair. According to this, the pair of the evaluation object and the evaluation expression corresponding to this evaluation object can be extracted from the document. <P>COPYRIGHT: (C)2005,JPO&NCIPI

Description

【0001】
【発明の属する技術分野】
本発明は、評価表現抽出装置、プログラム、記憶媒体及び評価表現抽出方法に関する。
【0002】
【従来の技術】
文書から、その文書の内容を表現する有益な情報を抽出することができれば、それらに基づいた文書検索、文書分類、文書分析などの応用が実現可能となる。特に、アンケート結果を分析するような場合、回答者が寄せる自由記述部分に記載される評価情報にこそ分析のポイントがあると考えられ、書き手の評価表現の抽出は重要な課題である。そこで、近年においては、大量の文書データから何らかの知見を見出すための情報を抽出すべく、各種の文書情報抽出技術が提案されている。
【0003】
特許文献1においては、文書中の単語の頻度を計量し、頻度を単語の「重み」に換算して自動的にキーワードを同定することにより、文書中の有益な情報を自動抽出する技術が提案されている。
【0004】
また、特許文献2においては、語と語の関係を用いたキーワード表現抽出を行なうことにより、文書中の有益な情報を自動抽出する技術が提案されている。これは、隣接する複数の語の並びを正規化し、情報検索精度を高める方法である。
【0005】
さらに、特許文献3においては、対象文書を係り受け解析して、その結果得られる構文木や線形リストを構築し、単語と位置関係の頻出パタンを制約条件やパラメータを用いることにより、文書中の有益な情報を自動抽出する技術が提案されている。
【0006】
【特許文献1】
特開平08−30627号公報
【特許文献2】
特開平08−129554号公報
【特許文献3】
特開2001−84250公報
【0007】
【発明が解決しようとする課題】
しかしながら、特許文献1に提案されている技術によれば、例えば、「価格が高い」を想定しキーワード「価格」&「高い」を検索キーとして文書検索した場合に、「解像度が高いカメラで価格が安い機種を教えて欲しい」など、「高い」と評価している対象が「価格」でなく「カメラ」のような、想定とは全く異なる文書が引かれてしまうという問題がある。
【0008】
また、特許文献2に提案されている技術によれば、表層表現に依存しないキーワード表現が獲得できるが、係り受け解析はせず、隣接語句が対象のため、「価格が高い」という概念を抽出したい場合に、「価格がもっと高いカメラ」というテキストからは抽出することができないとう問題がある。
【0009】
さらに、特許文献3に提案されている技術によれば、「価格がもっと高いカメラ」というテキストから「価格が→高い」という概念を取得することができるが、評価表現は、実際には長い構文木で表わされることは少なく、コストの高い構文木や線形リストの構築は実用的ではない。
【0010】
本発明の目的は、文書中から、評価対象とこの評価対象に対応する評価表現の対を抽出することができる評価表現抽出装置、プログラム、記憶媒体及び評価表現抽出方法を提供することである。
【0011】
【課題を解決するための手段】
請求項1記載の発明の評価表現抽出装置は、テキストに対して少なくとも形態素解析処理と文節係り受け解析処理とを含む言語解析処理を行なう言語解析手段と、この言語解析手段における言語解析結果に基づき、テキストを少なくとも構成単語の表記、係り受け情報を含む文節情報を保持したデータ構造に変換するテキストデータ構造生成手段と、このテキストデータ構造生成手段により係り受け関係にあるとされた文節対から、所定の選別判断基準に合致する文節対を選別する特定文節対選別手段と、この特定文節対選別手段で選別された文節対から評価対象とこの評価対象に対応する評価表現とを特定する評価対象・評価表現特定手段と、を備える。
【0012】
したがって、文書中から、評価対象とこの評価対象に対応する評価表現の対を抽出することが可能となり、アンケートなどにおいて事物の評価に関する分析に適用したり、評価表現による文書検索などが可能となる。
【0013】
請求項2記載の発明は、請求項1記載の評価表現抽出装置において、前記特定文節対選別手段における選別判断基準は、対象文節対の係り受け関係が主述関係であり、受け文節の構成単語の品詞が形容詞、形容動詞、補助形容詞である。
【0014】
したがって、評価表現抽出過程において、文節間係り受け関係が、主述関係であり、評価に使われる用語を含む文節対だけを対象にすることで、全文節対を対象とするよりも抽出処理を軽減できるという効果がある。
【0015】
請求項3記載の発明は、請求項1記載の評価表現抽出装置において、前記特定文節対選別手段における選別判断基準は、対象文節対の係り受け関係が連体修飾関係であり、係り文節の構成単語の品詞が形容詞、形容動詞、補助形容詞である。
【0016】
したがって、評価表現抽出過程において、文節間係り受け関係が、連体修飾関係であり、評価に使われる用語を含む文節対だけを対象にすることで、全文節対を対象とするよりも抽出処理を軽減できるという効果がある。
【0017】
請求項4記載の発明は、請求項1記載の評価表現抽出装置において、前記評価対象・評価表現特定手段は、文節対からの評価対象とこの評価対象に対応する評価表現との特定に際し、評価対象・評価表現特定規則を用いる。
【0018】
したがって、評価対象と評価表現を特定する際には、自然言語の文法知識を活用した特定規則を用いることで、精度の高い評価対象、評価表現を特定することが可能となる。
【0019】
請求項5記載の発明は、請求項4記載の評価表現抽出装置において、前記評価対象・評価表現特定規則には、対象文節対の係り受け関係が主述関係であった場合に、係り文節に含まれる自立語を評価対象と特定し、受け文節に含まれる形容詞、形容動詞、補助形容詞とその前にある自立語、さらに打消しの助動詞が含まれていた場合にはそれを付加した表現を評価表現と特定する規則が記載されている。
【0020】
したがって、主述関係をもつ係り受け文節対に対し、文法的に限定的な特定規則を含むため、より精度の高い評価対象と評価表現の抽出が可能となる。
【0021】
請求項6記載の発明は、請求項4記載の評価表現抽出装置において、前記評価対象・評価表現特定規則には、対象文節対の係り受け関係が主述関係であった場合に、係り文節に含まれる自立語が形式名詞であった場合にはその文節を受け文節として連体修飾する係り文節の自立語を評価対象と特定し、受け文節に含まれる形容詞、形容動詞、補助形容詞とその前にある自立語、さらに打消しの助動詞が含まれていた場合にはそれを付加した表現を、評価表現と特定する規則が記載されている。
【0022】
したがって、主述関係をもつ係り受け文節対に対し、評価対象が実体ではない形式名詞であった場合、そのさらに連体修飾文節から実体を取得することができ、より精度の高い評価対象と評価表現の抽出が可能となる。
【0023】
請求項7記載の発明は、請求項4記載の評価表現抽出装置において、前記評価対象・評価表現特定規則には、対象文節対の係り受け関係が連体修飾関係であった場合に、係り文節に含まれる形容詞、形容動詞、補助形容詞とその前にある自立語、さらに打消しの助動詞が含まれている場合にはそれを付加した表現を評価表現と特定し、受け文節に含まれる自立語を評価対象と特定する規則が記載されている。
【0024】
したがって、連体修飾関係をもつ係り受け文節対に対し、文法的に限定的な特定規則を含むため、より精度の高い評価対象と評価表現の抽出が可能となる。
【0025】
請求項8記載の発明のプログラムは、コンピュータにインストールされるか、あるいは解釈されて実行されるプログラムであって、前記コンピュータに、テキストに対して少なくとも形態素解析処理と文節係り受け解析処理とを含む言語解析処理を行なう言語解析機能と、この言語解析機能における言語解析結果に基づき、テキストを少なくとも構成単語の表記、係り受け情報を含む文節情報を保持したデータ構造に変換するテキストデータ構造生成機能と、このテキストデータ構造生成機能により係り受け関係にあるとされた文節対から、所定の選別判断基準に合致する文節対を選別する特定文節対選別機能と、この特定文節対選別機能で選別された文節対から評価対象とこの評価対象に対応する評価表現とを特定する評価対象・評価表現特定機能と、を実行させる。
【0026】
したがって、文書中から、評価対象とこの評価対象に対応する評価表現の対を抽出することが可能となり、アンケートなどにおいて事物の評価に関する分析に適用したり、評価表現による文書検索などが可能となる。
【0027】
請求項9記載の発明は、請求項8記載のプログラムにおいて、前記特定文節対選別機能における選別判断基準は、対象文節対の係り受け関係が主述関係であり、受け文節の構成単語の品詞が形容詞、形容動詞、補助形容詞である。
【0028】
したがって、評価表現抽出過程において、文節間係り受け関係が、主述関係であり、評価に使われる用語を含む文節対だけを対象にすることで、全文節対を対象とするよりも抽出処理を軽減できるという効果がある。
【0029】
請求項10記載の発明は、請求項8記載のプログラムにおいて、前記特定文節対選別機能における選別判断基準は、対象文節対の係り受け関係が連体修飾関係であり、係り文節の構成単語の品詞が形容詞、形容動詞、補助形容詞である。
【0030】
したがって、評価表現抽出過程において、文節間係り受け関係が、連体修飾関係であり、評価に使われる用語を含む文節対だけを対象にすることで、全文節対を対象とするよりも抽出処理を軽減できるという効果がある。
【0031】
請求項11記載の発明は、請求項8記載のプログラムにおいて、前記評価対象・評価表現特定機能は、文節対からの評価対象とこの評価対象に対応する評価表現との特定に際し、評価対象・評価表現特定規則を用いる。
【0032】
したがって、評価対象と評価表現を特定する際には、自然言語の文法知識を活用した特定規則を用いることで、精度の高い評価対象、評価表現を特定することが可能となる。
【0033】
請求項12記載の発明は、請求項11記載のプログラムにおいて、前記評価対象・評価表現特定規則には、対象文節対の係り受け関係が主述関係であった場合に、係り文節に含まれる自立語を評価対象と特定し、受け文節に含まれる形容詞、形容動詞、補助形容詞とその前にある自立語、さらに打消しの助動詞が含まれていた場合にはそれを付加した表現を評価表現と特定する規則が記載されている。
【0034】
したがって、主述関係をもつ係り受け文節対に対し、文法的に限定的な特定規則を含むため、より精度の高い評価対象と評価表現の抽出が可能となる。
【0035】
請求項13記載の発明は、請求項11記載のプログラムにおいて、前記評価対象・評価表現特定規則には、対象文節対の係り受け関係が主述関係であった場合に、係り文節に含まれる自立語が形式名詞であった場合にはその文節を受け文節として連体修飾する係り文節の自立語を評価対象と特定し、受け文節に含まれる形容詞、形容動詞、補助形容詞とその前にある自立語、さらに打消しの助動詞が含まれていた場合にはそれを付加した表現を、評価表現と特定する規則が記載されている。
【0036】
したがって、主述関係をもつ係り受け文節対に対し、評価対象が実体ではない形式名詞であった場合、そのさらに連体修飾文節から実体を取得することができ、より精度の高い評価対象と評価表現の抽出が可能となる。
【0037】
請求項14記載の発明は、請求項11記載のプログラムにおいて、前記評価対象・評価表現特定規則には、対象文節対の係り受け関係が連体修飾関係であった場合に、係り文節に含まれる形容詞、形容動詞、補助形容詞とその前にある自立語、さらに打消しの助動詞が含まれている場合にはそれを付加した表現を評価表現と特定し、受け文節に含まれる自立語を評価対象と特定する規則が記載されている。
【0038】
したがって、連体修飾関係をもつ係り受け文節対に対し、文法的に限定的な特定規則を含むため、より精度の高い評価対象と評価表現の抽出が可能となる。
【0039】
請求項15記載の発明のコンピュータに読取り可能な記憶媒体は、請求項8ないし14のいずれか一記載のプログラムを記憶している。
【0040】
したがって、この記憶媒体に記憶されたプログラムをコンピュータに読み取らせることにより、請求項8ないし14のいずれか一記載の発明と同様の作用を得ることが可能になる。
【0041】
請求項16記載の発明の評価表現抽出方法は、コンピュータの処理制御により行なう評価表現抽出方法であって、テキストに対して少なくとも形態素解析処理と文節係り受け解析処理とを含む言語解析処理を行なう言語解析工程と、この言語解析工程における言語解析結果に基づき、テキストを少なくとも構成単語の表記、係り受け情報を含む文節情報を保持したデータ構造に変換するテキストデータ構造生成工程と、このテキストデータ構造生成工程により係り受け関係にあるとされた文節対から、所定の選別判断基準に合致する文節対を選別する特定文節対選別工程と、この特定文節対選別工程で選別された文節対から評価対象とこの評価対象に対応する評価表現とを特定する評価対象・評価表現特定工程と、を具備する。
【0042】
したがって、文書中から、評価対象とこの評価対象に対応する評価表現の対を抽出することが可能となり、アンケートなどにおいて事物の評価に関する分析に適用したり、評価表現による文書検索などが可能となる。
【0043】
請求項17記載の発明は、請求項16記載の評価表現抽出方法において、前記特定文節対選別工程における選別判断基準は、対象文節対の係り受け関係が主述関係であり、受け文節の構成単語の品詞が形容詞、形容動詞、補助形容詞である。
【0044】
したがって、評価表現抽出過程において、文節間係り受け関係が、主述関係であり、評価に使われる用語を含む文節対だけを対象にすることで、全文節対を対象とするよりも抽出処理を軽減できるという効果がある。
【0045】
請求項18記載の発明は、請求項16記載の評価表現抽出方法において、前記特定文節対選別工程における選別判断基準は、対象文節対の係り受け関係が連体修飾関係であり、係り文節の構成単語の品詞が形容詞、形容動詞、補助形容詞である。
【0046】
したがって、評価表現抽出過程において、文節間係り受け関係が、連体修飾関係であり、評価に使われる用語を含む文節対だけを対象にすることで、全文節対を対象とするよりも抽出処理を軽減できるという効果がある。
【0047】
請求項19記載の発明は、請求項16記載の評価表現抽出方法において、前記評価対象・評価表現特定工程は、文節対からの評価対象とこの評価対象に対応する評価表現との特定に際し、評価対象・評価表現特定規則を用いる。
【0048】
したがって、評価対象と評価表現を特定する際には、自然言語の文法知識を活用した特定規則を用いることで、精度の高い評価対象、評価表現を特定することが可能となる。
【0049】
請求項20記載の発明は、請求項19記載の評価表現抽出方法において、前記評価対象・評価表現特定規則には、対象文節対の係り受け関係が主述関係であった場合に、係り文節に含まれる自立語を評価対象と特定し、受け文節に含まれる形容詞、形容動詞、補助形容詞とその前にある自立語、さらに打消しの助動詞が含まれていた場合にはそれを付加した表現を評価表現と特定する規則が記載されている。
【0050】
したがって、主述関係をもつ係り受け文節対に対し、文法的に限定的な特定規則を含むため、より精度の高い評価対象と評価表現の抽出が可能となる。
【0051】
請求項21記載の発明は、請求項19記載の評価表現抽出方法において、前記評価対象・評価表現特定規則には、対象文節対の係り受け関係が主述関係であった場合に、係り文節に含まれる自立語が形式名詞であった場合にはその文節を受け文節として連体修飾する係り文節の自立語を評価対象と特定し、受け文節に含まれる形容詞、形容動詞、補助形容詞とその前にある自立語、さらに打消しの助動詞が含まれていた場合にはそれを付加した表現を、評価表現と特定する規則が記載されている。
【0052】
したがって、主述関係をもつ係り受け文節対に対し、評価対象が実体ではない形式名詞であった場合、そのさらに連体修飾文節から実体を取得することができ、より精度の高い評価対象と評価表現の抽出が可能となる。
【0053】
請求項22記載の発明は、請求項19記載の評価表現抽出方法において、前記評価対象・評価表現特定規則には、対象文節対の係り受け関係が連体修飾関係であった場合に、係り文節に含まれる形容詞、形容動詞、補助形容詞とその前にある自立語、さらに打消しの助動詞が含まれている場合にはそれを付加した表現を評価表現と特定し、受け文節に含まれる自立語を評価対象と特定する規則が記載されている。
【0054】
したがって、連体修飾関係をもつ係り受け文節対に対し、文法的に限定的な特定規則を含むため、より精度の高い評価対象と評価表現の抽出が可能となる。
【0055】
【発明の実施の形態】
本発明の実施の一形態を図1ないし図11に基づいて説明する。
【0056】
図1は、本発明が適用される評価表現抽出装置1のハードウェア構成を概略的に示すブロック図である。図1に示すように、評価表現抽出装置1は、例えばパーソナルコンピュータやワークステーションであり、コンピュータの主要部であって各部を集中的に制御するCPU(Central Processing Unit)2を備えている。このCPU2には、BIOSなどを記憶した読出し専用メモリであるROM(Read Only Memory)3と、各種データを書換え可能に記憶するRAM(Random
Access Memory)4とがバス5で接続されている。
【0057】
さらにバス5には、外部記憶装置であるHDD(Hard Disk Drive)6と、配布されたプログラムであるコンピュータソフトウェアを読み取るための機構としてCD(Compact Disc)−ROM7を読み取るCD−ROMドライブ8と、評価表現抽出装置1とネットワーク9との通信を司る通信制御装置10と、キーボードやマウスなどの入力装置11と、CRT(Cathode Ray Tube)、LCD(Liquid Crystal Display)などの表示装置12とが、図示しないI/Oを介して接続されている。
【0058】
RAM4は、各種データを書換え可能に記憶する性質を有していることから、CPU2の作業エリアとして機能し、例えば後述する文書バッファ等の役割を果たす。
【0059】
また、HDD6には、各種のプログラムを格納するプログラムファイルのほか、言語解析用辞書13、評価対象・評価表現特定規則14が格納されている。
【0060】
言語解析用辞書13は、特に図示しないが、形態素列を登録単位(エントリ)としており、エントリの属性としては、“表記”と、各構成形態素の“品詞[カテゴリ]”とが設けられている。
【0061】
次に、評価対象・評価表現特定規則14について説明する。評価対象・評価表現特定規則14は、文節対に対し、評価対象とこの評価対象に対応する評価表現とを特定するためのものである。図2は評価対象・評価表現特定規則14の一例を示す説明図である。図2に示すように、評価対象・評価表現特定規則14は、例えば、文節間の係り受け関係(連体修飾関係、主述関係など)、テキストに表出する評価表現は「高い」「高価だ」など品詞属性が形容詞や形容動詞などの評価用語であること、評価対象や評価表現のキーになるのは文節中に含まれる自立語であり、付属語で加味する必要がある表現は「ない」などの助動詞や「にくい」などの補助形容詞であること等の文法的知識と、その相互関係を示すものである。なお、評価対象・評価表現特定規則14は、図2に示すif−thenルールの他、テーブル形式、辞書形式などで記載するようにしても良い。
【0062】
図1に示すCD−ROM7は、この発明の記憶媒体を実施するものであり、OS(Operating System)や各種のプログラムが記憶されている。CPU2は、CD−ROM7に記憶されているプログラムをCD−ROMドライブ8で読み取り、HDD6にインストールする。
【0063】
なお、記憶媒体としては、CD−ROM7のみならず、DVDなどの各種の光ディスク、各種光磁気ディスク、フレキシブル・ディスクなどの各種磁気ディスク等、半導体メモリ等の各種方式のメディアを用いることができる。また、通信制御装置10を介してインターネットなどのネットワーク9からプログラムをダウンロードし、HDD6にインストールするようにしてもよい。この場合に、送信側のサーバでプログラムを記憶している記憶装置も、この発明の記憶媒体である。なお、プログラムは、所定のOS(Operating System)上で動作するものであってもよいし、その場合に後述の各種処理の一部の実行をOSに肩代わりさせるものであってもよいし、所定のアプリケーションソフトやOSなどを構成する一群のプログラムファイルの一部として含まれているものであってもよい。
【0064】
このシステム全体の動作を制御するCPU2は、このシステムの主記憶として使用されるHDD6上にロードされたプログラムに基づいて各種処理を実行する。
【0065】
次に、評価表現抽出装置1のCPU2がプログラムに基づいて実行する各種処理の内容について説明する。図3は、評価表現抽出装置1の機能ブロック図である。図3に示すように、当該評価表現抽出装置1においては、入力手段100、言語解析手段101、テキストデータ構造生成手段102、テキストデータ構造記憶部103、特定文節対選別手段104、特定文節対記憶部105、評価対象・評価表現特定手段106、評価対象・評価表現記憶部107、出力手段108の各機能が、CPU2がコンピュータソフトウェアに従って動作することにより実現される。
【0066】
入力手段100は、入力装置11から入力された「抽出対象文書」であるテキストを文書バッファに記憶する。評価表現抽出装置1における評価表現抽出は、この「抽出対象文書」を対象に行なわれる。入力装置11から入力された「抽出対象文書」であるテキストは、入力手段100により文書バッファに記憶された後、言語解析手段101に送られる。
【0067】
言語解析手段101は、文書バッファに記憶された「抽出対象文書」であるテキストに対して、形態素解析処理及び係り受け解析処理を行なう。言語解析手段101は、まず、形態素解析処理を実施する。形態素解析処理は、テキストを単語毎に区切り、品詞など、各単語の属性を付加する処理で、原理は“日本語情報処理 第4章「形態素解析」”に詳しく、その処理方法には、最長一致法、コスト最小法、用例検索法など、既存の手法を用いる。次に、言語解析手段101は、係り受け解析処理を実施する。係り受け解析処理は、係り受け処理の1単位である文節を生成し、文節と文節がどのような関係にあるかを同定する処理で、原理は“日本語情報処理 第5章「構文解析」”や、「二文節間の係り受けを基礎とした日本語の構文分析」(吉田)にあるように、既存の手法を用いる。通常、文節は1つの自立語と、0個以上の付属語で構成され、解析方法によっては、1文節に複数個の自立語が含まれるような結果を出す定義の仕方もあるが、本実施の形態においては、文節には必ず1つだけしか自立語を含まないように文節を生成する解析方法を利用する。
【0068】
テキストデータ構造生成手段102は、言語解析手段101における言語解析処理(形態素解析処理及び係り受け解析処理)によって得られた情報を、図4に示すような少なくとも構成単語の表記、係り受け情報を含む文節情報を保持したデータ構造に変換し、HDD6に形成されるテキストデータ構造記憶部103に記憶する。ここで、図5はテキストデータ構造の各構成要素が管理する情報例である。図5に示すように、文節情報としては、文節を構成する単語情報の他、該当文節へ係る係り文節情報、該当文節が係る先の受け文節情報などがある。
【0069】
特定文節対選別手段104は、テキストデータ構造記憶部103の係り受け文節対データの有無をチェックし、先頭の文節対から順にバッファに入れ、選別判断基準に合致する特定文節対かどうかを判断し、合致した文節対をHDD6に形成される特定文節対記憶部105へ格納する。
【0070】
評価対象・評価表現特定手段106は、特定文節対記憶部105に格納されている文節の構成単語に対し、評価対象・評価表現特定規則14に合致するか否かを検査し、特定された評価対象とこの評価対象に対応する評価表現とをHDD6に形成される評価対象・評価表現記憶部107へ格納する。
【0071】
出力手段108は、評価対象・評価表現記憶部107に記憶されている評価対象・評価表現データを表示装置12に出力する。
【0072】
次に、評価表現抽出装置1における評価表現抽出処理の全体的な流れについて図6を参照して説明する。図6に示すように、評価表現抽出指示がなされると(ステップS1のY)、ステップS2に進み、抽出対象文書の有無をチェックする。
【0073】
抽出対象文書が有る場合には(ステップS2のY)、先頭の文書から順に文書バッファに格納し(ステップS3)、文書バッファ中のテキストに対し、形態素解析処理(ステップS4)、係り受け解析処理(ステップS5)を実施する。
【0074】
文書バッファにあるテキストの形態素解析処理及び係り受け解析処理が終わった場合には(ステップS6のY)、解析結果をテキストデータ構造記憶部103に格納し(ステップS7)、次の文書がある場合には(ステップS8のY)、ステップS3に戻り、文書バッファに次の文書を格納する。
【0075】
全ての文書についての言語解析処理(形態素解析処理及び係り受け解析処理)が終了した場合には(ステップS8のN)、ステップS9に進み、テキストデータ構造記憶部103の係り受け文節対データの有無をチェックする。
【0076】
テキストデータ構造記憶部103に係り受け文節対データが有る場合には(ステップS9のY)、先頭の文節対から順にバッファに入れた後(ステップS10)、ステップS11に進み、選別判断基準に合致する特定文節対かどうかを判断する。選別判断基準は、具体的には、係り受け関係が主述関係、もしくは連体修飾関係であり、前者の場合は、受け文節に形容詞か形容動詞か、補助形容詞が含まれている、後者の場合は、係り文節に形容詞か形容動詞か、補助形容詞が含まれている、という基準である。
【0077】
文節対が選別判断基準に合致した場合には(ステップS11のY)、ステップS12に進み、特定文節対であるとして特定文節対記憶部105に格納する。
【0078】
テキストデータ構造記憶部103に格納されている全ての文節対に対してチェックが終わり(ステップS13のN)、特定文節対記憶部105に記憶された文節対がある場合には(ステップS14のY)、特定文節対記憶部105の先頭の文節対から順にバッファに入れ(ステップS15)、その係り受け関係名と、係り文節、受け文節それぞれの文節の構成単語に対し、評価対象・評価表現特定規則14に合致するかどうかを検査する(ステップS16)。
【0079】
次いで、評価対象・評価表現特定規則に合致するかどうかの検査により特定された評価対象とこの評価対象に対応する評価表現を、評価対象・評価表現記憶部107へ格納した後(ステップS17)、ステップS18に進み、次文節があるかどうかチェックする。
【0080】
次文節がある場合には(ステップS18のY)、次文節を取り出し、評価対象とこの評価対象に対応する評価表現の抽出処理(ステップS15〜S17)を実行する。すなわち、評価対象とこの評価対象に対応する評価表現の抽出処理(ステップS15〜S17)は、特定文節対記憶部105に特定の文節対がなくなるまで(ステップS18のN)、繰り返される。
【0081】
特定文節対記憶部105に特定の文節対がなくなった場合には(ステップS18のN)、ステップS19に進み、出力指示の有無をチェックする。
【0082】
出力指示があった場合には(ステップS19のY)、ステップS20に進み、評価対象・評価表現記憶部107に評価対象・評価表現データが格納されているか否かをチェックする。
【0083】
評価対象・評価表現記憶部107に評価対象・評価表現データが格納されている場合には(ステップS20のY)、評価対象・評価表現記憶部107に記憶されている評価対象・評価表現データを表示装置12に出力する(ステップS21)。
【0084】
ここに、テキストに対して少なくとも形態素解析処理と文節係り受け解析処理とを含む言語解析処理を行なう言語解析手段101における言語解析結果に基づき、テキストデータ構造生成手段102でテキストを少なくとも構成単語の表記、係り受け情報を含む文節情報を保持したデータ構造に変換する。そして、係り受け関係にあるとされた文節対から、特定文節対選別手段104において事物に対する評価に言及する文節対を選別し、選別された文節対から評価対象とこの評価対象に対応する評価表現とを評価対象・評価表現特定手段106で特定する。これにより、文書中から、評価対象とこの評価対象に対応する評価表現の対を抽出することができるので、アンケートなどにおいて事物の評価に関する分析に適用したり、評価表現による文書検索などを行なうことができる。
【0085】
[具体例]
ここで、上述したような評価表現抽出装置1における具体的な処理について例示的に説明する。ここでは、ある製品についての複数のアンケート自由記述文書があり、ユーザがこれらに基づく製品評価の分析を行なうものする。なお、入力装置11としてはキーボードを想定し、表示装置12としてはLCDを想定する。このような状況下において、ユーザは、評価表現抽出装置1を起動し、評価表現抽出指示を出すことになる。
【0086】
評価表現抽出装置1は、まず抽出対象文書の有無をチェックし、抽出対象文書がある場合には、先頭の文書から順に文書バッファに格納し、文書バッファ中のテキストに対し、形態素解析処理を行ない、テキストを単語に区切る。続いて、係り受け解析処理を実施し、テキスト中の文節同士の係り受け文節対を同定する。例えば、
A「価格がまだ高すぎて、買わない。」
B「高い価格のカメラ。」
C「価格が下がりにくい。」
D「売るほうが良い。」
E「価格が一般的でない。」
というような記述文がある場合には、図7に示すような言語解析処理結果が得られる。
【0087】
文書バッファにあるテキストの係り受け解析処理が終わったら、解析結果をテキストデータ構造記憶部103に格納し、次の文書を文書バッファに格納する。文書バッファに記憶されている全ての文書に対して、これらの言語解析が終了した場合には、テキストデータ構造記憶部103の係り受け文節対データの有無をチェックする。
【0088】
テキストデータ構造記憶部103には図7に示すような文節対データが存在するので、データの先頭の文節対から順にバッファに入れ、文法的な係り受けの関係と係り文節、または受け文節に含まれる自立語もしくは付属語を選別判断基準として、この基準に合致するかどうかを検査する。
【0089】
本例では、係り受けの関係が主述関係と連体修飾関係であるもの、更に、そのうちで文節構成単語の品詞が形容詞、形容動詞、補助形容詞の属性を持つ文節対が選別されるため、図7に示すような文節対データからは、図8に示す5件の文節データが選別される。
【0090】
図8に示すような選別対象の文節対は、特定文節対記憶部105へ格納される。テキストデータ構造記憶部103に記憶されている係り受け文節対データ全てに対し、この選別処理が終了したら、特定文節対記憶部105の特定文節対の有無をチェックする。特定文節対記憶部105には図8に示すような選別対象の文節対が格納されているので、その先頭の文節対から順にバッファに入れ、その係り受け関係名と、係り文節、受け文節それぞれの文節の構成単語に対し、図2に示す評価対象・評価表現特定規則14に従い、評価対象とこの評価対象に対応する評価表現を抽出する。
【0091】
まず、図8に示す主述関係1は、規則1が適用され、係り文節の構成自立語が形式名詞でないので、評価対象は係り文節の自立語である「価格」となる。次に、受け文節の自立語が、形容詞であり、打消の助動詞は含まれないため、評価表現は自立語の終止形である「高い」となる。
【0092】
図8に示す連体修飾関係1は、規則2が適用され、評価対象は、受け文節の自立語である「価格」となる。次に、係り文節の自立語が、形容詞であり、打消の助動詞は含まれないため、評価表現は自立語の終止形である「高い」となる。
【0093】
図8に示す主述関係2は、規則1が適用され、係り文節の構成自立語が形式名詞でないので、評価対象は係り文節の自立語である「価格」となる。次に、受け文節の自立語は、動詞であるが、補助形容詞「にくい」が含まれ、打消の助動詞は含まれないため、評価表現は自立語「下がり」+補助形容詞「にくい」となる。
【0094】
図8に示す主述関係3は、規則1が適用され、係り文節の構成自立語が形式名詞なので、係り文節「ほうが」を受け文節とする、連体修飾文節を検索する。図9に示すように、連体修飾文節「売る」があるので、評価対象は自立語「売る」となる。次に、受け文節の自立語が、形容詞であり、打消の助動詞は含まれないため、評価表現は自立語の終止形である「良い」となる。
【0095】
図8に示す主述関係4は、規則1が適用され、係り文節の構成自立語が形式名詞でないので、評価対象は係り文節の自立語である「価格」となる。次に、受け文節の自立語が、形容動詞であり、打消の助動詞が含まれるため、評価表現は自立語の終止形である「一般的」+打消となる。
【0096】
このように抽出した評価対象と評価表現を、評価対象と評価表現を記憶する手段へ格納する。特定文節対記憶部105に次文節があるかどうかチェックし、特定文節対記憶部105に次文節がある場合には、次文節を取り出し、特定文節対記憶部105に特定の文節対がなくなるまで、評価対象とこの評価対象に対応する評価表現の抽出処理を繰り返す。そして、最終的には図10に示すような評価対象と評価表現が抽出される。
【0097】
抽出処理が終了したら、出力指示の有無をチェックする。ここでは、評価対象と、それに対応する評価表現を、評価対象を基準にして評価表現をまとめて出力する。ここで、図11は表示装置12への出力例である。表示装置12への出力方法としては、図11に例示するように、評価対象に対応する評価表現をまとめて出力する方法の他に、評価対象と評価表現の対を1対ずつ出力する方法、評価表現に対応する評価対象をまとめて出力する方法などが考えられる。
【0098】
【発明の効果】
請求項1記載の発明の評価表現抽出装置によれば、テキストに対して少なくとも形態素解析処理と文節係り受け解析処理とを含む言語解析処理を行なう言語解析手段と、この言語解析手段における言語解析結果に基づき、テキストを少なくとも構成単語の表記、係り受け情報を含む文節情報を保持したデータ構造に変換するテキストデータ構造生成手段と、このテキストデータ構造生成手段により係り受け関係にあるとされた文節対から、所定の選別判断基準に合致する文節対を選別する特定文節対選別手段と、この特定文節対選別手段で選別された文節対から評価対象とこの評価対象に対応する評価表現とを特定する評価対象・評価表現特定手段と、を備えることにより、文書中から、評価対象とこの評価対象に対応する評価表現の対を抽出することができるので、アンケートなどにおいて事物の評価に関する分析に適用したり、評価表現による文書検索などを行なうことができる。
【0099】
請求項2記載の発明によれば、請求項1記載の評価表現抽出装置において、前記特定文節対選別手段における選別判断基準は、対象文節対の係り受け関係が主述関係であり、受け文節の構成単語の品詞が形容詞、形容動詞、補助形容詞であることにより、評価表現抽出過程において、文節間係り受け関係が、主述関係であり、評価に使われる用語を含む文節対だけを対象にすることで、全文節対を対象とするよりも抽出処理を軽減できるという効果がある。
【0100】
請求項3記載の発明によれば、請求項1記載の評価表現抽出装置において、前記特定文節対選別手段における選別判断基準は、対象文節対の係り受け関係が連体修飾関係であり、係り文節の構成単語の品詞が形容詞、形容動詞、補助形容詞であることにより、評価表現抽出過程において、文節間係り受け関係が、連体修飾関係であり、評価に使われる用語を含む文節対だけを対象にすることで、全文節対を対象とするよりも抽出処理を軽減できるという効果がある。
【0101】
請求項4記載の発明によれば、請求項1記載の評価表現抽出装置において、前記評価対象・評価表現特定手段は、文節対からの評価対象とこの評価対象に対応する評価表現との特定に際し、評価対象・評価表現特定規則を用いることにより、評価対象と評価表現を特定する際には、自然言語の文法知識を活用した特定規則を用いることで、精度の高い評価対象、評価表現を特定することができる。
【0102】
請求項5記載の発明によれば、請求項4記載の評価表現抽出装置において、前記評価対象・評価表現特定規則には、対象文節対の係り受け関係が主述関係であった場合に、係り文節に含まれる自立語を評価対象と特定し、受け文節に含まれる形容詞、形容動詞、補助形容詞とその前にある自立語、さらに打消しの助動詞が含まれていた場合にはそれを付加した表現を評価表現と特定する規則が記載されていることいより、主述関係をもつ係り受け文節対に対し、文法的に限定的な特定規則を含むため、より精度の高い評価対象と評価表現を抽出することができる。
【0103】
請求項6記載の発明によれば、請求項4記載の評価表現抽出装置において、前記評価対象・評価表現特定規則には、対象文節対の係り受け関係が主述関係であった場合に、係り文節に含まれる自立語が形式名詞であった場合にはその文節を受け文節として連体修飾する係り文節の自立語を評価対象と特定し、受け文節に含まれる形容詞、形容動詞、補助形容詞とその前にある自立語、さらに打消しの助動詞が含まれていた場合にはそれを付加した表現を、評価表現と特定する規則が記載されていることにより、主述関係をもつ係り受け文節対に対し、評価対象が実体ではない形式名詞であった場合、そのさらに連体修飾文節から実体を取得することができ、より精度の高い評価対象と評価表現を抽出することができる。
【0104】
請求項7記載の発明によれば、請求項4記載の評価表現抽出装置において、前記評価対象・評価表現特定規則には、対象文節対の係り受け関係が連体修飾関係であった場合に、係り文節に含まれる形容詞、形容動詞、補助形容詞とその前にある自立語、さらに打消しの助動詞が含まれている場合にはそれを付加した表現を評価表現と特定し、受け文節に含まれる自立語を評価対象と特定する規則が記載されていることにより、連体修飾関係をもつ係り受け文節対に対し、文法的に限定的な特定規則を含むため、より精度の高い評価対象と評価表現を抽出することができる。
【0105】
請求項8記載の発明のプログラムによれば、コンピュータにインストールされるか、あるいは解釈されて実行されるプログラムであって、前記コンピュータに、テキストに対して少なくとも形態素解析処理と文節係り受け解析処理とを含む言語解析処理を行なう言語解析機能と、この言語解析機能における言語解析結果に基づき、テキストを少なくとも構成単語の表記、係り受け情報を含む文節情報を保持したデータ構造に変換するテキストデータ構造生成機能と、このテキストデータ構造生成機能により係り受け関係にあるとされた文節対から、所定の選別判断基準に合致する文節対を選別する特定文節対選別機能と、この特定文節対選別機能で選別された文節対から評価対象とこの評価対象に対応する評価表現とを特定する評価対象・評価表現特定機能と、を実行させることにより、文書中から、評価対象とこの評価対象に対応する評価表現の対を抽出することができるので、アンケートなどにおいて事物の評価に関する分析に適用したり、評価表現による文書検索などを行なうことができる。
【0106】
請求項9記載の発明によれば、請求項8記載のプログラムにおいて、前記特定文節対選別機能における選別判断基準は、対象文節対の係り受け関係が主述関係であり、受け文節の構成単語の品詞が形容詞、形容動詞、補助形容詞であることにより、評価表現抽出過程において、文節間係り受け関係が、主述関係であり、評価に使われる用語を含む文節対だけを対象にすることで、全文節対を対象とするよりも抽出処理を軽減できるという効果がある。
【0107】
請求項10記載の発明によれば、請求項8記載のプログラムにおいて、前記特定文節対選別機能における選別判断基準は、対象文節対の係り受け関係が連体修飾関係であり、係り文節の構成単語の品詞が形容詞、形容動詞、補助形容詞であることにより、評価表現抽出過程において、文節間係り受け関係が、連体修飾関係であり、評価に使われる用語を含む文節対だけを対象にすることで、全文節対を対象とするよりも抽出処理を軽減できるという効果がある。
【0108】
請求項11記載の発明によれば、請求項8記載のプログラムにおいて、前記評価対象・評価表現特定機能は、文節対からの評価対象とこの評価対象に対応する評価表現との特定に際し、評価対象・評価表現特定規則を用いることにより、評価対象と評価表現を特定する際には、自然言語の文法知識を活用した特定規則を用いることで、精度の高い評価対象、評価表現を特定することができる。
【0109】
請求項12記載の発明によれば、請求項11記載のプログラムにおいて、前記評価対象・評価表現特定規則には、対象文節対の係り受け関係が主述関係であった場合に、係り文節に含まれる自立語を評価対象と特定し、受け文節に含まれる形容詞、形容動詞、補助形容詞とその前にある自立語、さらに打消しの助動詞が含まれていた場合にはそれを付加した表現を評価表現と特定する規則が記載されていることにより、主述関係をもつ係り受け文節対に対し、文法的に限定的な特定規則を含むため、より精度の高い評価対象と評価表現を抽出することができる。
【0110】
請求項13記載の発明によれば、請求項11記載のプログラムにおいて、前記評価対象・評価表現特定規則には、対象文節対の係り受け関係が主述関係であった場合に、係り文節に含まれる自立語が形式名詞であった場合にはその文節を受け文節として連体修飾する係り文節の自立語を評価対象と特定し、受け文節に含まれる形容詞、形容動詞、補助形容詞とその前にある自立語、さらに打消しの助動詞が含まれていた場合にはそれを付加した表現を、評価表現と特定する規則が記載されていることにより、主述関係をもつ係り受け文節対に対し、評価対象が実体ではない形式名詞であった場合、そのさらに連体修飾文節から実体を取得することができ、より精度の高い評価対象と評価表現を抽出することができる。
【0111】
請求項14記載の発明によれば、請求項11記載のプログラムにおいて、前記評価対象・評価表現特定規則には、対象文節対の係り受け関係が連体修飾関係であった場合に、係り文節に含まれる形容詞、形容動詞、補助形容詞とその前にある自立語、さらに打消しの助動詞が含まれている場合にはそれを付加した表現を評価表現と特定し、受け文節に含まれる自立語を評価対象と特定する規則が記載されていることにより、連体修飾関係をもつ係り受け文節対に対し、文法的に限定的な特定規則を含むため、より精度の高い評価対象と評価表現を抽出することができる。
【0112】
請求項15記載の発明のコンピュータに読取り可能な記憶媒体によれば、請求項8ないし14のいずれか一記載のプログラムを記憶していることにより、この記憶媒体に記憶されたプログラムをコンピュータに読み取らせることで、請求項8ないし14のいずれか一記載の発明と同様の作用効果を得ることができる。
【0113】
請求項16記載の発明の評価表現抽出方法によれば、コンピュータの処理制御により行なう評価表現抽出方法であって、テキストに対して少なくとも形態素解析処理と文節係り受け解析処理とを含む言語解析処理を行なう言語解析工程と、この言語解析工程における言語解析結果に基づき、テキストを少なくとも構成単語の表記、係り受け情報を含む文節情報を保持したデータ構造に変換するテキストデータ構造生成工程と、このテキストデータ構造生成工程により係り受け関係にあるとされた文節対から、所定の選別判断基準に合致する文節対を選別する特定文節対選別工程と、この特定文節対選別工程で選別された文節対から評価対象とこの評価対象に対応する評価表現とを特定する評価対象・評価表現特定工程と、を具備することにより、文書中から、評価対象とこの評価対象に対応する評価表現の対を抽出することができるので、アンケートなどにおいて事物の評価に関する分析に適用したり、評価表現による文書検索などを行なうことができる。
【0114】
請求項17記載の発明によれば、請求項16記載の評価表現抽出方法において、前記特定文節対選別工程における選別判断基準は、対象文節対の係り受け関係が主述関係であり、受け文節の構成単語の品詞が形容詞、形容動詞、補助形容詞であることにより、評価表現抽出過程において、文節間係り受け関係が、主述関係であり、評価に使われる用語を含む文節対だけを対象にすることで、全文節対を対象とするよりも抽出処理を軽減できるという効果がある。
【0115】
請求項18記載の発明によれば、請求項16記載の評価表現抽出方法において、前記特定文節対選別工程における選別判断基準は、対象文節対の係り受け関係が連体修飾関係であり、係り文節の構成単語の品詞が形容詞、形容動詞、補助形容詞であることにより、評価表現抽出過程において、文節間係り受け関係が、連体修飾関係であり、評価に使われる用語を含む文節対だけを対象にすることで、全文節対を対象とするよりも抽出処理を軽減できるという効果がある。
【0116】
請求項19記載の発明によれば、請求項16記載の評価表現抽出方法において、前記評価対象・評価表現特定工程は、文節対からの評価対象とこの評価対象に対応する評価表現との特定に際し、評価対象・評価表現特定規則を用いることにより、評価対象と評価表現を特定する際には、自然言語の文法知識を活用した特定規則を用いることで、精度の高い評価対象、評価表現を特定することができる。
【0117】
請求項20記載の発明によれば、請求項19記載の評価表現抽出方法において、前記評価対象・評価表現特定規則には、対象文節対の係り受け関係が主述関係であった場合に、係り文節に含まれる自立語を評価対象と特定し、受け文節に含まれる形容詞、形容動詞、補助形容詞とその前にある自立語、さらに打消しの助動詞が含まれていた場合にはそれを付加した表現を評価表現と特定する規則が記載されていることにより、主述関係をもつ係り受け文節対に対し、文法的に限定的な特定規則を含むため、より精度の高い評価対象と評価表現を抽出することができる。
【0118】
請求項21記載の発明によれば、請求項19記載の評価表現抽出方法において、前記評価対象・評価表現特定規則には、対象文節対の係り受け関係が主述関係であった場合に、係り文節に含まれる自立語が形式名詞であった場合にはその文節を受け文節として連体修飾する係り文節の自立語を評価対象と特定し、受け文節に含まれる形容詞、形容動詞、補助形容詞とその前にある自立語、さらに打消しの助動詞が含まれていた場合にはそれを付加した表現を、評価表現と特定する規則が記載されていることにより、主述関係をもつ係り受け文節対に対し、評価対象が実体ではない形式名詞であった場合、そのさらに連体修飾文節から実体を取得することができ、より精度の高い評価対象と評価表現を抽出することができる。
【0119】
請求項22記載の発明によれば、請求項19記載の評価表現抽出方法において、前記評価対象・評価表現特定規則には、対象文節対の係り受け関係が連体修飾関係であった場合に、係り文節に含まれる形容詞、形容動詞、補助形容詞とその前にある自立語、さらに打消しの助動詞が含まれている場合にはそれを付加した表現を評価表現と特定し、受け文節に含まれる自立語を評価対象と特定する規則が記載されていることにより、連体修飾関係をもつ係り受け文節対に対し、文法的に限定的な特定規則を含むため、より精度の高い評価対象と評価表現を抽出することができる。
【図面の簡単な説明】
【図1】本発明の実施の一形態の評価表現抽出装置のハードウェア構成を概略的に示すブロック図である。
【図2】評価対象・評価表現特定規則の一例を示す説明図である。
【図3】評価表現抽出装置の機能ブロック図である。
【図4】テキストデータ構造を示す説明図である。
【図5】テキストデータ構造の各構成要素が管理する情報例を示す説明図である。
【図6】評価表現抽出処理の全体的な流れを示すフローチャートである。
【図7】言語解析処理結果の一例を示す説明図である。
【図8】選別対象の文節対を示す説明図である。
【図9】選別対象の文節対を示す説明図である。
【図10】抽出された評価対象及び評価表現の一例を示す説明図である。
【図11】表示装置への出力例を示す正面図である。
【符号の説明】
1 評価表現抽出装置
7 記憶媒体
14 評価対象・評価表現特定規則
101 言語解析手段
102 テキストデータ構造生成手段
104 特定文節対選別手段
106 評価対象・評価表現特定手段
[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to an evaluation expression extraction device, a program, a storage medium, and an evaluation expression extraction method.
[0002]
[Prior art]
If useful information expressing the contents of the document can be extracted from the document, applications such as document search, document classification, and document analysis based on the information can be realized. In particular, when analyzing the results of a questionnaire, it is considered that the evaluation information written in the free description part sent by the respondent has a point of analysis, and extraction of the writer's evaluation expression is an important issue. Therefore, in recent years, various document information extraction techniques have been proposed in order to extract information for finding some knowledge from a large amount of document data.
[0003]
Patent Literature 1 proposes a technique for automatically extracting useful information in a document by measuring the frequency of words in the document, converting the frequency into “weight” of the words, and automatically identifying the keyword. Have been.
[0004]
Patent Document 2 proposes a technique for automatically extracting useful information in a document by extracting a keyword expression using a relationship between words. This is a method of normalizing the arrangement of a plurality of adjacent words and improving information retrieval accuracy.
[0005]
Further, in Patent Document 3, the dependency analysis of a target document is performed, a resulting syntax tree or linear list is constructed, and a frequent pattern of a word and a positional relationship is used by using a constraint condition or a parameter. Techniques for automatically extracting useful information have been proposed.
[0006]
[Patent Document 1]
JP 08-30627 A
[Patent Document 2]
JP-A-08-129554
[Patent Document 3]
JP 2001-84250 A
[0007]
[Problems to be solved by the invention]
However, according to the technology proposed in Patent Literature 1, for example, when “price is high” and a document search is performed using a keyword “price” & “high” as a search key, “price is high with a camera having a high resolution” However, there is a problem in that a document that is completely different from what is expected, such as "camera" instead of "price", is evaluated as "expensive".
[0008]
According to the technique proposed in Patent Document 2, a keyword expression that does not depend on a surface expression can be obtained, but dependency analysis is not performed, and the concept of "high price" is extracted because adjacent words are targeted. If you want to do that, you can't extract from the text "more expensive cameras".
[0009]
Further, according to the technique proposed in Patent Document 3, the concept of “price → high” can be acquired from the text “price is higher”, but the evaluation expression is actually a long syntax. It is rarely represented by a tree, and construction of a high-cost syntax tree or a linear list is not practical.
[0010]
It is an object of the present invention to provide an evaluation expression extraction device, a program, a storage medium, and an evaluation expression extraction method capable of extracting a pair of an evaluation target and an evaluation expression corresponding to the evaluation target from a document.
[0011]
[Means for Solving the Problems]
According to a first aspect of the present invention, there is provided an evaluation expression extracting apparatus for performing a language analysis process on a text including at least a morphological analysis process and a phrase dependency analysis process, based on a language analysis result of the language analysis device. A text data structure generating means for converting a text into a data structure holding phrase information including at least constituent word notation and dependency information; and a phrase pair determined to be in a dependency relationship by the text data structure generating means, A specific phrase pair selecting means for selecting a phrase pair that matches a predetermined selection criterion, and an evaluation target for specifying an evaluation target and an evaluation expression corresponding to the evaluation target from the phrase pairs selected by the specific phrase pair selecting means・ Evaluation expression specifying means.
[0012]
Therefore, it is possible to extract a pair of an evaluation target and an evaluation expression corresponding to the evaluation target from a document, and to apply the analysis to the evaluation of an object in a questionnaire or the like, or to search a document by the evaluation expression. .
[0013]
According to a second aspect of the present invention, in the evaluation expression extracting apparatus according to the first aspect, the selection criterion in the specific phrase pair selecting means is such that a dependency relationship of the target phrase pair is a predicative relationship, Are adjectives, adjective verbs, and auxiliary adjectives.
[0014]
Therefore, in the evaluation expression extraction process, the inter-clause dependency relationship is a predicative relationship, and by targeting only phrase pairs that contain the terms used in the evaluation, the extraction process can be more efficient than targeting all phrase pairs. There is an effect that it can be reduced.
[0015]
According to a third aspect of the present invention, in the evaluation expression extracting apparatus according to the first aspect, the selection criterion in the specific phrase pair selecting means is that the dependency relation of the target phrase pair is a continuous modification relation, Are adjectives, adjective verbs, and auxiliary adjectives.
[0016]
Therefore, in the evaluation expression extraction process, the inter-clause dependency relationship is an adnominal modification relationship, and by targeting only phrase pairs that contain the terms used in the evaluation, the extraction process can be more efficient than targeting all phrase pairs. There is an effect that it can be reduced.
[0017]
According to a fourth aspect of the present invention, in the evaluation expression extracting device according to the first aspect, the evaluation target / evaluation expression specifying means performs evaluation when specifying an evaluation target from a phrase pair and an evaluation expression corresponding to the evaluation target. Use target / evaluation expression specification rules.
[0018]
Therefore, when specifying the evaluation target and the evaluation expression, it is possible to specify the evaluation target and the evaluation expression with high accuracy by using the specific rule utilizing the grammatical knowledge of the natural language.
[0019]
According to a fifth aspect of the present invention, in the evaluation expression extracting device according to the fourth aspect, when the dependency relation of the target clause pair is a predicate relation, the evaluation target / evaluation expression specifying rule includes Identify the independence words that are included in the evaluation, and add the adjectives, adjective verbs, auxiliary adjectives, independence words preceding the adjectives included in the receiving clause, and the auxiliary verb to cancel if they are included. The rules for specifying the evaluation expression are described.
[0020]
Therefore, since the grammatically limited specific rule is included in the dependency clause pair having the predicative relationship, it is possible to more accurately extract the evaluation target and the evaluation expression.
[0021]
According to a sixth aspect of the present invention, in the evaluation expression extracting device according to the fourth aspect, the evaluation target / evaluation expression specifying rule includes a rule in which, when the dependency relationship of the target phrase pair is a predicative relationship, If the independence word contained is a formal noun, the independence word of the dependency clause that receives the phrase and continually modifies it as a phrase is specified as the evaluation target, and the adjective, adjective verb, auxiliary adjective included in the received phrase and When a self-sufficient word and a cancellation auxiliary verb are included, a rule for specifying an expression to which it is added as an evaluation expression is described.
[0022]
Therefore, if the subject to be evaluated is a formal noun that is not an entity for a dependency clause pair having a predicative relationship, the entity can be obtained from the adnominal modifier clause, and the evaluation object and the evaluation expression with higher accuracy can be obtained. Can be extracted.
[0023]
According to a seventh aspect of the present invention, in the evaluation expression extracting apparatus according to the fourth aspect, the evaluation target / evaluation expression specifying rule includes a rule in which, when the dependency relation of the target phrase pair is a continuous modification relation, If the included adjective, adjective verb, auxiliary adjective and the independent word preceding it, and if the auxiliary verb for cancellation is included, specify the expression to which it is added as the evaluation expression, and identify the independent word included in the receiving phrase The rules to be identified as evaluation targets are described.
[0024]
Therefore, since the grammatically limited specific rule is included in the dependency clause pair having the adnominal modification relation, it is possible to more accurately extract the evaluation target and the evaluation expression.
[0025]
The program according to claim 8 is a program installed or interpreted and executed on a computer, wherein the computer includes at least a morphological analysis process and a phrase dependency analysis process for text. A language analysis function for performing a language analysis process, and a text data structure generation function for converting a text into a data structure holding phrase information including at least constituent word notation and dependency information based on a result of the language analysis in the language analysis function. A specific phrase pair selection function for selecting a phrase pair that meets a predetermined selection criterion from phrase pairs determined to be dependent by the text data structure generation function, and a specific phrase pair selection function Evaluation target / evaluation expression that specifies an evaluation target and an evaluation expression corresponding to this evaluation target from a phrase pair A constant function is executed.
[0026]
Therefore, it is possible to extract a pair of an evaluation target and an evaluation expression corresponding to the evaluation target from a document, and to apply the analysis to the evaluation of an object in a questionnaire or the like, or to search a document by the evaluation expression. .
[0027]
According to a ninth aspect of the present invention, in the program according to the eighth aspect, the selection criterion in the specific phrase pair selection function is that the dependency relation of the target phrase pair is a predicative relation, and the part of speech of the constituent words of the receiving phrase is They are adjectives, adjective verbs, and auxiliary adjectives.
[0028]
Therefore, in the evaluation expression extraction process, the inter-clause dependency relationship is a predicative relationship, and by targeting only phrase pairs that contain the terms used in the evaluation, the extraction process can be more efficient than targeting all phrase pairs. There is an effect that it can be reduced.
[0029]
According to a tenth aspect of the present invention, in the program according to the eighth aspect, the selection criterion in the specific phrase pair selection function is that the dependency relation of the target phrase pair is a continuous modification relation, and the part of speech of the constituent words of the dependency phrase is They are adjectives, adjective verbs, and auxiliary adjectives.
[0030]
Therefore, in the evaluation expression extraction process, the inter-clause dependency relationship is an adnominal modification relationship, and by targeting only phrase pairs that contain the terms used in the evaluation, the extraction process can be more efficient than targeting all phrase pairs. There is an effect that it can be reduced.
[0031]
According to an eleventh aspect of the present invention, in the program according to the eighth aspect, the evaluation target / evaluation expression specifying function is used to specify an evaluation target / evaluation expression for specifying an evaluation target from a phrase pair and an evaluation expression corresponding to the evaluation target. Use expression specific rules.
[0032]
Therefore, when specifying the evaluation target and the evaluation expression, it is possible to specify the evaluation target and the evaluation expression with high accuracy by using the specific rule utilizing the grammatical knowledge of the natural language.
[0033]
According to a twelfth aspect of the present invention, in the program according to the eleventh aspect, when the dependency relation of the target clause pair is a predicative relation, the evaluation target / evaluation expression specifying rule includes a self-reliance clause included in the dependency clause. Identify the word as the evaluation target, and evaluate the adjective, adjective verb, auxiliary adjective included in the receiving phrase and the independent word preceding it, and if the auxiliary verb for cancellation is included, add the expression to the evaluation expression. The rules to be specified are described.
[0034]
Therefore, since the grammatically limited specific rule is included in the dependency clause pair having the predicative relationship, it is possible to more accurately extract the evaluation target and the evaluation expression.
[0035]
According to a thirteenth aspect of the present invention, in the program according to the eleventh aspect, when the dependency relation of the target clause pair is a predicate relation, the evaluation target / evaluation expression specifying rule is included in the dependency clause. If the word is a formal noun, the independence word of the dependency phrase that accepts the phrase as a noun and qualifies as a phrase is identified as the evaluation target, and the adjective, adjective verb, auxiliary adjective included in the received phrase and the independent word preceding it In addition, when an auxiliary verb for cancellation is included, a rule for specifying an expression to which the auxiliary verb is added as an evaluation expression is described.
[0036]
Therefore, if the subject to be evaluated is a formal noun that is not an entity for a dependency clause pair having a predicative relationship, the entity can be obtained from the adnominal modifier clause, and the evaluation object and the evaluation expression with higher accuracy can be obtained. Can be extracted.
[0037]
The invention according to claim 14 is the program according to claim 11, wherein the evaluation target / evaluation expression specifying rule includes an adjective included in a dependency phrase when a dependency relationship of the target phrase pair is a union modification relationship. , An adjective, an auxiliary adjective, an independent word preceding it, and an auxiliary verb to negate, if specified, an expression to which it is added is specified as an evaluation expression, and the independent word included in the receiving phrase is evaluated. The rules to be specified are described.
[0038]
Therefore, since the grammatically limited specific rule is included in the dependency clause pair having the adnominal modification relation, it is possible to more accurately extract the evaluation target and the evaluation expression.
[0039]
A computer-readable storage medium according to a fifteenth aspect stores the program according to any one of the eighth to fourteenth aspects.
[0040]
Therefore, by causing a computer to read the program stored in the storage medium, it is possible to obtain the same operation as the invention according to any one of claims 8 to 14.
[0041]
17. An evaluation expression extracting method according to claim 16, wherein the evaluation expression extracting method is performed by computer processing control, and is a language for performing a language analysis process including at least a morphological analysis process and a phrase dependency analysis process on text. An analysis step, a text data structure generation step of converting a text into a data structure holding phrase information including at least constituent word notation and dependency information based on a result of the language analysis in the language analysis step, and a text data structure generation A specific phrase pair selection step of selecting a phrase pair that meets a predetermined selection criterion from the phrase pairs determined to be dependent by the process, and an evaluation target from the phrase pairs selected in the specific phrase pair selection step. An evaluation target / evaluation expression specifying step of specifying an evaluation expression corresponding to the evaluation target.
[0042]
Therefore, it is possible to extract a pair of an evaluation target and an evaluation expression corresponding to the evaluation target from a document, and to apply the analysis to the evaluation of an object in a questionnaire or the like, or to search a document by the evaluation expression. .
[0043]
According to a seventeenth aspect of the present invention, in the evaluation expression extracting method according to the sixteenth aspect, the selection criterion in the specific phrase pair selection step is such that a dependency relationship of the target phrase pair is a predicative relationship, and a constituent word of the receiving phrase. Are adjectives, adjective verbs, and auxiliary adjectives.
[0044]
Therefore, in the evaluation expression extraction process, the inter-clause dependency relationship is a predicative relationship, and by targeting only phrase pairs that contain the terms used in the evaluation, the extraction process can be more efficient than targeting all phrase pairs. There is an effect that it can be reduced.
[0045]
According to an eighteenth aspect of the present invention, in the evaluation expression extracting method according to the sixteenth aspect, the selection criterion in the specific phrase pair selecting step is such that a dependency relationship of the target phrase pair is a continuous modifier relation, and a constituent word of the dependency phrase. Are adjectives, adjective verbs, and auxiliary adjectives.
[0046]
Therefore, in the evaluation expression extraction process, the inter-clause dependency relationship is an adnominal modification relationship, and by targeting only phrase pairs that contain the terms used in the evaluation, the extraction process can be more efficient than targeting all phrase pairs. There is an effect that it can be reduced.
[0047]
According to a nineteenth aspect of the present invention, in the evaluation expression extracting method according to the sixteenth aspect, the evaluation target / evaluation expression specifying step includes the steps of: Use target / evaluation expression specification rules.
[0048]
Therefore, when specifying the evaluation target and the evaluation expression, it is possible to specify the evaluation target and the evaluation expression with high accuracy by using the specific rule utilizing the grammatical knowledge of the natural language.
[0049]
According to a twentieth aspect of the present invention, in the evaluation expression extracting method according to the nineteenth aspect, the evaluation target / evaluation expression specification rule includes a rule that, when the dependency relationship of the target phrase pair is a predicate relationship, Identify the independence words that are included in the evaluation, and add the adjectives, adjective verbs, auxiliary adjectives, independence words preceding the adjectives included in the receiving clause, and the auxiliary verb to cancel if they are included. The rules for specifying the evaluation expression are described.
[0050]
Therefore, since the grammatically limited specific rule is included in the dependency clause pair having the predicative relationship, it is possible to more accurately extract the evaluation target and the evaluation expression.
[0051]
According to a twenty-first aspect of the present invention, in the evaluation expression extracting method according to the nineteenth aspect, the evaluation target / evaluation expression specification rule includes a rule that, when the dependency relationship of the target phrase pair is a predicative relationship, If the included independent word is a formal noun, the independent word of the dependency clause that accepts the phrase and continually modifies it as a phrase is specified as the evaluation target, and the adjective, adjective verb, auxiliary adjective included in the received phrase and When a self-sufficient word and a cancellation auxiliary verb are included, a rule for specifying an expression to which it is added as an evaluation expression is described.
[0052]
Therefore, if the subject to be evaluated is a formal noun that is not an entity for a dependency clause pair having a predicative relationship, the entity can be obtained from the adnominal modifier clause, and the evaluation object and the evaluation expression with higher accuracy can be obtained. Can be extracted.
[0053]
According to a twenty-second aspect of the present invention, in the evaluation expression extracting method according to the nineteenth aspect, the evaluation target / evaluation expression specifying rule includes a rule in which, when the dependency relationship of the target phrase pair is a continuous modification relationship, If the included adjective, adjective verb, auxiliary adjective and the independent word preceding it, and if the auxiliary verb for cancellation is included, specify the expression to which it is added as the evaluation expression, and identify the independent word included in the receiving phrase The rules to be identified as evaluation targets are described.
[0054]
Therefore, since the grammatically limited specific rule is included in the dependency clause pair having the adnominal modification relation, it is possible to more accurately extract the evaluation target and the evaluation expression.
[0055]
BEST MODE FOR CARRYING OUT THE INVENTION
An embodiment of the present invention will be described with reference to FIGS.
[0056]
FIG. 1 is a block diagram schematically showing a hardware configuration of an evaluation expression extraction device 1 to which the present invention is applied. As shown in FIG. 1, the evaluation expression extraction device 1 is, for example, a personal computer or a workstation, and includes a CPU (Central Processing Unit) 2 which is a main part of the computer and centrally controls each unit. The CPU 2 includes a read only memory (ROM) 3 which is a read-only memory storing a BIOS and the like, and a RAM (Random) which rewritably stores various data.
Access Memory) 4 is connected by a bus 5.
[0057]
Further, on the bus 5, an HDD (Hard Disk Drive) 6 as an external storage device, a CD-ROM drive 8 for reading a CD (Compact Disc) -ROM 7 as a mechanism for reading computer software as a distributed program, A communication control device 10 that controls communication between the evaluation expression extraction device 1 and the network 9, an input device 11 such as a keyboard and a mouse, and a display device 12 such as a CRT (Cathode Ray Tube) and an LCD (Liquid Crystal Display) are provided. They are connected via an I / O (not shown).
[0058]
Since the RAM 4 has a property of storing various data in a rewritable manner, the RAM 4 functions as a work area of the CPU 2 and plays a role of, for example, a document buffer described later.
[0059]
In addition, the HDD 6 stores a language analysis dictionary 13 and evaluation target / evaluation expression specification rules 14 in addition to program files for storing various programs.
[0060]
Although not shown, the linguistic analysis dictionary 13 uses a morpheme string as a registration unit (entry), and has “notation” and “speech [category]” of each constituent morpheme as attributes of the entry. .
[0061]
Next, the evaluation target / evaluation expression specifying rule 14 will be described. The evaluation target / evaluation expression specification rule 14 is for specifying an evaluation target and an evaluation expression corresponding to this evaluation target for a phrase pair. FIG. 2 is an explanatory diagram showing an example of the evaluation target / evaluation expression specifying rule 14. As shown in FIG. 2, the evaluation target / evaluation expression specification rule 14 is such that, for example, dependency relations between phrases (adjunct modification relations, predicate relations, etc.) and evaluation expressions expressed in text are “high” or “expensive”. ", The part-of-speech attribute is an evaluation term such as an adjective or an adjective verb, and the key of the evaluation target and the evaluation expression is an independent word included in the phrase, and there is no expression that needs to be added as an adjunct It indicates grammatical knowledge such as auxiliary verbs such as "" and auxiliary adjectives such as "difficult", and their interrelationships. The evaluation target / evaluation expression specifying rule 14 may be described in a table format, a dictionary format, or the like, in addition to the if-then rule shown in FIG.
[0062]
The CD-ROM 7 shown in FIG. 1 embodies a storage medium of the present invention, and stores an OS (Operating System) and various programs. The CPU 2 reads the program stored on the CD-ROM 7 with the CD-ROM drive 8 and installs the program on the HDD 6.
[0063]
As the storage medium, not only the CD-ROM 7 but also various types of media such as semiconductor memories such as various optical disks such as DVDs, various magnetic disks such as magneto-optical disks, and flexible disks can be used. Alternatively, a program may be downloaded from a network 9 such as the Internet via the communication control device 10 and installed on the HDD 6. In this case, the storage device storing the program in the server on the transmission side is also a storage medium of the present invention. Note that the program may operate on a predetermined OS (Operating System), and in that case, the OS may substitute a part of execution of various processes to be described later, May be included as a part of a group of program files constituting the application software or the OS.
[0064]
The CPU 2 that controls the operation of the entire system executes various processes based on a program loaded on the HDD 6 used as a main memory of the system.
[0065]
Next, the contents of various processes executed by the CPU 2 of the evaluation expression extraction device 1 based on a program will be described. FIG. 3 is a functional block diagram of the evaluation expression extraction device 1. As shown in FIG. 3, in the evaluation expression extraction device 1, the input unit 100, the language analysis unit 101, the text data structure generation unit 102, the text data structure storage unit 103, the specific phrase pair selection unit 104, the specific phrase pair storage The functions of the unit 105, the evaluation target / evaluation expression specifying unit 106, the evaluation target / evaluation expression storage unit 107, and the output unit 108 are realized by the CPU 2 operating according to computer software.
[0066]
The input unit 100 stores the text as the “document to be extracted” input from the input device 11 in the document buffer. The extraction of the evaluation expression in the evaluation expression extraction device 1 is performed on the “document to be extracted”. The text that is the “document to be extracted” input from the input device 11 is stored in the document buffer by the input unit 100 and then sent to the language analysis unit 101.
[0067]
The language analysis unit 101 performs a morphological analysis process and a dependency analysis process on the text that is the “document to be extracted” stored in the document buffer. The language analysis unit 101 first performs a morphological analysis process. The morphological analysis process is a process of dividing a text into words and adding attributes of each word such as a part of speech. The principle is described in detail in "Japanese Information Processing Chapter 4" Morphological Analysis "". Existing methods are used, such as a matching method, a minimum cost method, an example search method, etc. Next, the language analysis unit 101 performs a dependency analysis process, which is a clause that is one unit of the dependency process. Is a process to identify the relation between bunsetsu and bunsetsu. The principle is "Japanese information processing Chapter 5" Syntax analysis "" and "Japan based on the dependency between two bunsetsu Use existing methods as described in "Syntax analysis of words" (Yoshida). Normally, a clause is composed of one independent word and zero or more adjuncts. Depending on the analysis method, there is a definition method that produces a result in which one clause includes a plurality of independent words. In the embodiment, an analysis method for generating a phrase is used so that the phrase always contains only one independent word.
[0068]
The text data structure generating means 102 includes information obtained by the language analysis processing (morphological analysis processing and dependency analysis processing) in the language analysis means 101 at least including notation of constituent words and dependency information as shown in FIG. The data is converted into a data structure holding phrase information, and stored in a text data structure storage unit 103 formed in the HDD 6. Here, FIG. 5 is an example of information managed by each component of the text data structure. As shown in FIG. 5, the phrase information includes, in addition to the word information constituting the phrase, related phrase information relating to the relevant phrase, receiving phrase information related to the relevant phrase, and the like.
[0069]
The specific phrase pair selection unit 104 checks whether there is any dependency phrase pair data in the text data structure storage unit 103, places the data into the buffer from the first phrase pair, and determines whether or not the specific phrase pair matches the selection criteria. Then, the matched phrase pair is stored in the specific phrase pair storage unit 105 formed in the HDD 6.
[0070]
The evaluation target / evaluation expression specifying unit 106 checks whether or not the constituent words of the phrase stored in the specific phrase pair storage unit 105 match the evaluation target / evaluation expression specification rules 14 and determines the specified evaluation. The target and the evaluation expression corresponding to the evaluation target are stored in the evaluation target / evaluation expression storage unit 107 formed in the HDD 6.
[0071]
The output unit 108 outputs the evaluation target / evaluation expression data stored in the evaluation target / evaluation expression storage unit 107 to the display device 12.
[0072]
Next, the overall flow of the evaluation expression extraction process in the evaluation expression extraction device 1 will be described with reference to FIG. As shown in FIG. 6, when an instruction to extract an evaluation expression is issued (Y in step S1), the process proceeds to step S2 to check whether there is a document to be extracted.
[0073]
If there is a document to be extracted (Y in step S2), the document is stored in the document buffer in order from the first document (step S3), and the text in the document buffer is subjected to morphological analysis processing (step S4) and dependency analysis processing (Step S5) is performed.
[0074]
When the morphological analysis processing and the dependency analysis processing of the text in the document buffer are completed (Y in step S6), the analysis result is stored in the text data structure storage unit 103 (step S7), and when the next document exists. (Y in step S8), the process returns to step S3, and the next document is stored in the document buffer.
[0075]
If the linguistic analysis processing (morphological analysis processing and dependency analysis processing) has been completed for all documents (N in step S8), the process proceeds to step S9, and the presence / absence of dependency phrase pair data in the text data structure storage unit 103 is determined. Check
[0076]
If there is a dependency phrase pair data in the text data structure storage unit 103 (Y in step S9), the data is put into the buffer in order from the first phrase pair (step S10), and the process proceeds to step S11 to meet the selection criterion. Judge whether it is a specific phrase pair. The selection criterion is, specifically, that the dependency relation is a predicative relation or an adnominal modification relation, and in the former case, the receiving clause contains an adjective, an adjective verb, or an auxiliary adjective, and in the latter case, Is a criterion that a dependency clause contains an adjective, an adjective verb, or an auxiliary adjective.
[0077]
When the phrase pair matches the selection criterion (Y in step S11), the process proceeds to step S12, where the phrase pair is stored in the specific phrase pair storage unit 105 as a specific phrase pair.
[0078]
The check is completed for all the phrase pairs stored in the text data structure storage unit 103 (N in step S13), and when there is a phrase pair stored in the specific phrase pair storage unit 105 (Y in step S14). ), And puts them in the buffer in order from the first phrase pair in the specific phrase pair storage unit 105 (step S15), and specifies the evaluation target / evaluation expression for the dependency relation name, the dependency phrase, and the constituent words of the respective phrases. It is checked whether or not rule 14 is satisfied (step S16).
[0079]
Next, after storing the evaluation target specified by the inspection as to whether it matches the evaluation target / evaluation expression specification rule and the evaluation expression corresponding to the evaluation target in the evaluation target / evaluation expression storage unit 107 (step S17), Proceeding to step S18, it is checked whether there is a next clause.
[0080]
If there is a next phrase (Y in step S18), the next phrase is extracted, and an evaluation target and an evaluation expression corresponding to the evaluation target are extracted (steps S15 to S17). That is, the process of extracting the evaluation target and the evaluation expression corresponding to the evaluation target (steps S15 to S17) is repeated until the specific phrase pair storage unit 105 has no specific phrase pairs (N in step S18).
[0081]
If there is no specific phrase pair in the specific phrase pair storage unit 105 (N in step S18), the process proceeds to step S19 to check for an output instruction.
[0082]
If there is an output instruction (Y in step S19), the process proceeds to step S20, and it is checked whether the evaluation target / evaluation expression data is stored in the evaluation target / evaluation expression storage unit 107.
[0083]
When the evaluation object / evaluation expression data is stored in the evaluation object / evaluation expression storage unit 107 (Y in step S20), the evaluation object / evaluation expression data stored in the evaluation object / evaluation expression storage unit 107 is deleted. Output to the display device 12 (step S21).
[0084]
Here, based on the linguistic analysis result of the linguistic analysis means 101 for performing linguistic analysis processing including at least morphological analysis processing and phrase dependency analysis processing on the text, the text data structure generation means 102 converts the text into at least constituent word notations. Then, it is converted into a data structure holding phrase information including dependency information. Then, specific phrase pair selecting means 104 selects phrase pairs referring to the evaluation of the thing from the phrase pairs determined to be in a dependency relationship, and evaluates the evaluation target and the evaluation expression corresponding to the evaluation target from the selected phrase pairs. Are specified by the evaluation target / evaluation expression specifying means 106. As a result, a pair of an evaluation target and an evaluation expression corresponding to the evaluation target can be extracted from the document, so that the evaluation expression can be applied to analysis of an object in a questionnaire or a document search using the evaluation expression. Can be.
[0085]
[Concrete example]
Here, a specific process in the evaluation expression extraction device 1 as described above will be exemplarily described. Here, there are a plurality of questionnaire free description documents for a certain product, and the user analyzes the product evaluation based on these documents. Note that a keyboard is assumed as the input device 11, and an LCD is assumed as the display device 12. In such a situation, the user activates the evaluation expression extraction device 1 and issues an evaluation expression extraction instruction.
[0086]
The evaluation expression extraction device 1 first checks the presence or absence of a document to be extracted, and if there is a document to be extracted, stores the document in the document buffer in order from the first document, and performs morphological analysis on the text in the document buffer. , Break the text into words. Subsequently, a dependency analysis process is performed to identify a dependency phrase pair between phrases in the text. For example,
A: The price is still too high and I will not buy it.
B “High-priced camera.”
C "Price is hard to fall."
D "It's better to sell."
E "Price is unusual."
If there is such a description sentence, a language analysis processing result as shown in FIG. 7 is obtained.
[0087]
When the dependency analysis processing of the text in the document buffer is completed, the analysis result is stored in the text data structure storage unit 103, and the next document is stored in the document buffer. When these linguistic analyzes have been completed for all documents stored in the document buffer, the presence / absence of dependency phrase pair data in the text data structure storage unit 103 is checked.
[0088]
Since there is phrase pair data as shown in FIG. 7 in the text data structure storage unit 103, the data is buffered in order from the first phrase pair of the data, and is included in the grammatical dependency relationship and the dependency phrase or the reception phrase. Independent words or adjuncts are used as selection criteria to check whether the criteria are met.
[0089]
In this example, the dependency relation is a predicative relation and an adnominal modification relation, and further, a phrase pair having the attributes of the adjective, adjective verb, and auxiliary adjective in the part of speech of the phrase constituent word is selected. From the phrase pair data shown in FIG. 7, five phrase data shown in FIG. 8 are selected.
[0090]
The phrase pairs to be sorted as shown in FIG. 8 are stored in the specific phrase pair storage unit 105. When the selection process is completed for all the dependent phrase pair data stored in the text data structure storage unit 103, the presence / absence of a specific phrase pair in the specific phrase pair storage unit 105 is checked. Since the specific phrase pair storage unit 105 stores the phrase pairs to be sorted as shown in FIG. 8, the phrase pairs are put into the buffer in order from the first phrase pair, and the dependency relation name, the dependency phrase, and the reception phrase are respectively stored. In accordance with the evaluation target / evaluation expression specification rule 14 shown in FIG. 2, an evaluation target and an evaluation expression corresponding to this evaluation target are extracted for the constituent words of the phrase.
[0091]
First, rule 1 is applied to the predicate relation 1 shown in FIG. 8, and since the constituent independent word of the dependency clause is not a formal noun, the evaluation target is “price” which is the independent word of the dependency clause. Next, since the independent word in the receiving phrase is an adjective and does not include an auxiliary verb for cancellation, the evaluation expression is "high", which is the final form of the independent word.
[0092]
The rule 2 is applied to the union modification relation 1 shown in FIG. 8, and the evaluation target is “price” which is an independent word of the receiving clause. Next, since the independent word of the dependency phrase is an adjective and does not include an auxiliary verb for cancellation, the evaluation expression is “high”, which is the final form of the independent word.
[0093]
In the predicate relation 2 shown in FIG. 8, rule 1 is applied, and since the constituent independent word of the dependency clause is not a formal noun, the evaluation target is “price” which is the independent word of the dependency clause. Next, the independent word of the receiving phrase is a verb, but includes the auxiliary adjective "difficult" and does not include the auxiliary verb of defeat, so the evaluation expression is the independent word "fall" + the auxiliary adjective "difficult".
[0094]
In the predicate relation 3 shown in FIG. 8, rule 1 is applied, and since the constituent independent word of the dependency clause is a formal noun, a continuous modifier clause that receives the dependency clause “hoga” as a clause is searched. As shown in FIG. 9, since there is a continuous modifier clause “Sell”, the evaluation target is the independent word “Sell”. Next, since the independent word in the receiving phrase is an adjective and does not include an auxiliary verb for cancellation, the evaluation expression is "good", which is the final form of the independent word.
[0095]
In Rule 4 shown in FIG. 8, rule 1 is applied, and since the constituent independent word of the dependency clause is not a formal noun, the evaluation target is "price" which is the independent word of the dependency clause. Next, since the independent word of the receiving phrase is an adjective verb and includes an auxiliary verb for cancellation, the evaluation expression is "general" which is the final form of the independent word + cancellation.
[0096]
The evaluation object and the evaluation expression thus extracted are stored in the means for storing the evaluation object and the evaluation expression. The specific phrase pair storage unit 105 checks whether there is a next phrase. If the specific phrase pair storage unit 105 has a next phrase, the next phrase is extracted and the specific phrase pair storage unit 105 is deleted until there is no specific phrase pair. The extraction process of the evaluation target and the evaluation expression corresponding to the evaluation target is repeated. Finally, an evaluation target and an evaluation expression as shown in FIG. 10 are extracted.
[0097]
When the extraction process is completed, it is checked whether there is an output instruction. Here, the evaluation target and the corresponding evaluation expression are collectively output based on the evaluation target. Here, FIG. 11 is an example of output to the display device 12. As a method of outputting to the display device 12, as shown in FIG. 11, in addition to a method of collectively outputting evaluation expressions corresponding to evaluation objects, a method of outputting one pair of evaluation objects and evaluation expressions, A method of outputting the evaluation objects corresponding to the evaluation expressions collectively can be considered.
[0098]
【The invention's effect】
According to the evaluation expression extracting apparatus of the first aspect of the present invention, a language analyzing means for performing a language analysis process including at least a morphological analysis process and a phrase dependency analysis process on a text, and a language analysis result in the language analysis device A text data structure generating means for converting the text into a data structure holding phrase information including at least constituent word notation and dependency information based on the text data, and a phrase pair determined to have a dependency relationship by the text data structure generating means. A specific phrase pair selecting means for selecting a phrase pair that meets a predetermined selection criterion, and an evaluation target and an evaluation expression corresponding to the evaluation target are specified from the phrase pairs selected by the specific phrase pair selecting means. By providing an evaluation target / evaluation expression specifying means, a pair of an evaluation target and an evaluation expression corresponding to this evaluation target can be extracted from a document. It is possible to, apply to the analysis of the evaluation of things in such surveys, it is possible to perform such as a document search by evaluation expressions.
[0099]
According to the second aspect of the present invention, in the evaluation expression extracting device according to the first aspect, the selection criterion in the specific phrase pair selecting means is such that the dependency relationship of the target phrase pair is a predicative relationship, Since the constituent parts of speech are adjectives, adjective verbs, and auxiliary adjectives, in the evaluation expression extraction process, the inter-clause dependencies are subject-to-subject relations, and target only phrase pairs that include the terms used in evaluation. Thus, there is an effect that the extraction processing can be reduced as compared with the case where all the phrase pairs are targeted.
[0100]
According to the third aspect of the present invention, in the evaluation expression extracting device according to the first aspect, the selection criterion in the specific phrase pair selecting means is such that a dependency relationship of the target phrase pair is a continuous modification relationship, Since the constituent parts of speech are adjectives, adjective verbs, and auxiliary adjectives, in the evaluation expression extraction process, inter-phrase dependency relations are adnominal modification relations, and target only phrase pairs containing the terms used in evaluation. Thus, there is an effect that the extraction processing can be reduced as compared with the case where all the phrase pairs are targeted.
[0101]
According to the fourth aspect of the present invention, in the evaluation expression extracting device according to the first aspect, the evaluation target / evaluation expression specifying unit is configured to specify an evaluation target from a phrase pair and an evaluation expression corresponding to the evaluation target. When specifying the evaluation target and the evaluation expression by using the rules for specifying the evaluation target / evaluation expression, use the specific rules that utilize natural language grammar knowledge to specify the evaluation target and the evaluation expression with high accuracy can do.
[0102]
According to the fifth aspect of the present invention, in the evaluation expression extracting device according to the fourth aspect, the evaluation target / evaluation expression specifying rule may include a rule that, when the dependency relationship of the target phrase pair is a predicate relationship, Independent words included in the phrase were identified as targets for evaluation, and adjectives, adjective verbs, auxiliary adjectives, independent words preceding the adjective included in the receiving phrase, and additional auxiliary verbs were added if they were included. Since the rules that specify expressions as evaluation expressions are described, the grammatically limited specific rules are included for the dependent clause pairs that have a predicative relationship, so the evaluation target and evaluation expression with higher accuracy Can be extracted.
[0103]
According to the sixth aspect of the present invention, in the evaluation expression extracting apparatus according to the fourth aspect, the evaluation target / evaluation expression specifying rule includes a rule that, when the dependency relationship of the target phrase pair is a predicate relationship, If the independence word included in the phrase is a formal noun, the independence word of the dependency phrase that accepts the phrase and continually modifies it as a phrase is specified as the evaluation target, and the adjective, adjective verb, auxiliary adjective and the If the independence word in front and the auxiliary verb for cancellation are included, the rule that specifies the expression to which it is added as an evaluation expression is described, so that the expression On the other hand, if the evaluation target is a formal noun that is not an entity, the entity can be further obtained from the union-modifying clause, and more accurate evaluation targets and evaluation expressions can be extracted.
[0104]
According to the seventh aspect of the present invention, in the evaluation expression extracting device according to the fourth aspect, the evaluation target / evaluation expression specifying rule may include a rule that, when the dependency relation of the target phrase pair is a continuous modification relation, If an adjective, adjective verb, auxiliary adjective and an independent word in front of it are included in the phrase, and if an auxiliary verb for canceling is included, the expression to which it is added is specified as an evaluation expression, and the independence included in the receiving phrase Since the rules that specify the word as the evaluation target are described, the grammatically limited specific rules are included for the dependent clause pairs having the adnominal modification relation, so that a more accurate evaluation target and evaluation expression can be used. Can be extracted.
[0105]
According to the program of the invention of claim 8, the program is installed on a computer or interpreted and executed, the computer comprising at least a morphological analysis process and a phrase dependency analysis process for text. A language analysis function that performs language analysis processing that includes text, and a text data structure that converts text into a data structure that holds at least the notation of constituent words and phrase information that includes dependency information based on the language analysis result of the language analysis function A specific phrase pair selection function for selecting a phrase pair that meets a predetermined selection criterion from the phrase pairs determined to be dependent by the text data structure generation function, and a selection using the specific phrase pair selection function Evaluation target / evaluation that identifies the evaluation target and the evaluation expression corresponding to this evaluation target from the phrase pairs By executing the expression specifying function, the pair of the evaluation target and the evaluation expression corresponding to this evaluation target can be extracted from the document. Document search by expression can be performed.
[0106]
According to the ninth aspect of the present invention, in the program according to the eighth aspect, the selection criterion in the specific phrase pair selection function is such that the dependency relationship of the target phrase pair is a predicative relationship, and Since the parts of speech are adjectives, adjective verbs, and auxiliary adjectives, in the evaluation expression extraction process, the inter-clause dependency relationship is a predicative relationship, and by targeting only phrase pairs containing the terms used for evaluation, There is an effect that the extraction processing can be reduced as compared with the case of targeting all phrase pairs.
[0107]
According to the tenth aspect of the present invention, in the program according to the eighth aspect, the selection criterion in the specific phrase pair selection function is such that the dependency relation of the target phrase pair is a continuous modification relation, Because the parts of speech are adjectives, adjective verbs, and auxiliary adjectives, in the evaluation expression extraction process, the inter-clause dependency relation is a noun modification relation, and by targeting only phrase pairs containing the terms used for evaluation, There is an effect that the extraction processing can be reduced as compared with the case of targeting all phrase pairs.
[0108]
According to the invention described in claim 11, in the program according to claim 8, the evaluation target / evaluation expression specifying function is used to specify an evaluation target from a phrase pair and an evaluation expression corresponding to the evaluation target. -When specifying the evaluation target and the evaluation expression by using the evaluation expression specification rule, it is possible to specify the evaluation target and the evaluation expression with high accuracy by using the specific rule utilizing the grammatical knowledge of natural language. it can.
[0109]
According to the twelfth aspect of the present invention, in the program according to the eleventh aspect, the evaluation target / evaluation expression specification rule includes the dependency clause in a case where the dependency relation of the target clause pair is a predicative relation. Independent words to be evaluated are identified as evaluation targets, and expressions containing adjectives, adjective verbs, auxiliary adjectives, independent words in front of them, and auxiliary verbs for cancellation are included if they are included in the receiving phrase Extracting higher-precision evaluation targets and evaluation expressions, because grammatically limited specific rules are included for dependency clause pairs that have a predicative relationship by describing rules that specify expressions. Can be.
[0110]
According to a thirteenth aspect of the present invention, in the program according to the eleventh aspect, when the dependency relation of the target clause pair is a predicative relation, the rule for specifying the evaluation target / evaluation expression is included in the dependency clause. If the independence word is a formal noun, the independence word of the continuation clause that modifies the adjunct as a continuation clause is identified as the subject to be evaluated, and the adjective, adjective verb, auxiliary adjective included in the receiving phrase and before it If a rule that specifies an independent word and an ancillary auxiliary verb, if any, as an evaluation expression is described, the phrase is evaluated against a pair of dependent phrases having a predicative relationship. If the target is a formal noun that is not an entity, the entity can be further obtained from the union-qualifying clause, and more accurate evaluation targets and evaluation expressions can be extracted.
[0111]
According to the fourteenth aspect of the present invention, in the program according to the eleventh aspect, when the dependency relation of the target phrase pair is a union modification relation, the evaluation target / evaluation expression specifying rule is included in the dependency phrase. If adjectives, adjective verbs, auxiliary adjectives and independence words preceding the adjectives are included, and if an auxiliary verb for cancellation is included, the expression with the adjective added is specified as the evaluation expression, and the independence word included in the receiving phrase is evaluated Extracting more accurate evaluation targets and evaluation expressions, because specific rules that are grammatically limited are included for dependency clause pairs that have an adnominal modification relationship by describing the rules that identify them as targets. Can be.
[0112]
According to the computer-readable storage medium of the present invention, since the program according to any one of claims 8 to 14 is stored, the program stored in the storage medium is read by the computer. By doing so, the same operation and effect as the invention according to any one of claims 8 to 14 can be obtained.
[0113]
According to the evaluation expression extracting method of the invention according to claim 16, an evaluation expression extracting method performed by computer processing control, wherein a language analysis process including at least a morphological analysis process and a phrase dependency analysis process for text is performed. A language analysis step to be performed, a text data structure generation step of converting a text into a data structure holding phrase information including at least constituent word notation and dependency information based on a result of the language analysis in the language analysis step, and the text data A specific phrase pair selection step of selecting a phrase pair that meets a predetermined selection criterion from the phrase pairs determined to be dependent by the structure generation step, and evaluating the phrase pairs selected in the specific phrase pair selection step. An evaluation object / evaluation expression specifying step of specifying an object and an evaluation expression corresponding to the evaluation object. Since a pair of an evaluation object and an evaluation expression corresponding to the evaluation object can be extracted from a document, it can be applied to an analysis relating to evaluation of an object in a questionnaire or the like, and a document search by the evaluation expression can be performed. .
[0114]
According to the seventeenth aspect of the present invention, in the evaluation expression extracting method according to the sixteenth aspect, the selection criterion in the specific phrase pair selecting step is that a dependency relationship of the target phrase pair is a predicative relationship, Since the constituent parts of speech are adjectives, adjective verbs, and auxiliary adjectives, in the evaluation expression extraction process, the inter-clause dependencies are subject-to-subject relations, and target only phrase pairs that include the terms used in evaluation. Thus, there is an effect that the extraction processing can be reduced as compared with the case where all the phrase pairs are targeted.
[0115]
According to the eighteenth aspect of the present invention, in the evaluation expression extracting method according to the sixteenth aspect, the selection criterion in the specific phrase pair selection step is such that a dependency relationship of the target phrase pair is a continuous modifier relation, Since the constituent parts of speech are adjectives, adjective verbs, and auxiliary adjectives, in the evaluation expression extraction process, inter-phrase dependency relations are adnominal modification relations, and target only phrase pairs containing the terms used in evaluation. Thus, there is an effect that the extraction processing can be reduced as compared with the case where all the phrase pairs are targeted.
[0116]
According to the nineteenth aspect of the present invention, in the evaluation expression extracting method according to the sixteenth aspect, the evaluation target / evaluation expression specifying step includes specifying an evaluation target from a phrase pair and an evaluation expression corresponding to the evaluation target. When specifying the evaluation target and the evaluation expression by using the rules for specifying the evaluation target / evaluation expression, use the specific rules that utilize natural language grammar knowledge to specify the evaluation target and the evaluation expression with high accuracy can do.
[0117]
According to the invention described in claim 20, in the evaluation expression extracting method according to claim 19, the evaluation target / evaluation expression specification rule includes a case where the dependency relation of the target phrase pair is a predicative relation. Independent words included in the phrase were identified as targets for evaluation, and adjectives, adjective verbs, auxiliary adjectives, independent words preceding the adjective included in the receiving phrase, and additional auxiliary verbs were added if they were included. Since the rules that specify the expression as the evaluation expression are described, the grammatically limited specific rules are included for the dependency clause pair having the predicative relationship, so that the evaluation target and the evaluation expression with higher accuracy can be included. Can be extracted.
[0118]
According to the twenty-first aspect of the present invention, in the evaluation expression extracting method according to the nineteenth aspect, the rule for specifying the evaluation target / evaluation expression includes a rule that includes a case where the dependency relation of the target phrase pair is a predicative relation. If the independence word included in the phrase is a formal noun, the independence word of the dependency phrase that accepts the phrase and continually modifies it as a phrase is specified as the evaluation target, and the adjective, adjective verb, auxiliary adjective and the If the independence word in front and the auxiliary verb for cancellation are included, the rule that specifies the expression to which it is added as an evaluation expression is described, so that the expression On the other hand, if the evaluation target is a formal noun that is not an entity, the entity can be further obtained from the union-modifying clause, and more accurate evaluation targets and evaluation expressions can be extracted.
[0119]
According to the invention described in claim 22, in the evaluation expression extraction method according to claim 19, the evaluation target / evaluation expression specification rule includes a rule that, when the dependency relation of the target phrase pair is a continuous modification relation, When an adjective, adjective verb, auxiliary adjective and an independent word preceding it are included in the phrase, and if the auxiliary verb for canceling is included, the expression added with it is specified as an evaluation expression, and the independent word included in the receiving phrase Since the rules that specify the word as the evaluation target are described, the grammatically limited specific rules are included for the dependent phrase pairs that have an adnominal modification relationship, so that more accurate evaluation targets and evaluation expressions can be used. Can be extracted.
[Brief description of the drawings]
FIG. 1 is a block diagram schematically illustrating a hardware configuration of an evaluation expression extraction device according to an embodiment of the present invention.
FIG. 2 is an explanatory diagram showing an example of an evaluation target / evaluation expression specifying rule.
FIG. 3 is a functional block diagram of the evaluation expression extraction device.
FIG. 4 is an explanatory diagram showing a text data structure.
FIG. 5 is an explanatory diagram showing an example of information managed by each component of a text data structure.
FIG. 6 is a flowchart illustrating an overall flow of an evaluation expression extraction process.
FIG. 7 is an explanatory diagram showing an example of a language analysis processing result.
FIG. 8 is an explanatory diagram showing a phrase pair to be sorted;
FIG. 9 is an explanatory view showing a phrase pair to be sorted.
FIG. 10 is an explanatory diagram showing an example of extracted evaluation targets and evaluation expressions.
FIG. 11 is a front view showing an example of output to a display device.
[Explanation of symbols]
1 Evaluation expression extraction device
7 Storage media
14 Rules for specifying evaluation targets and evaluation expressions
101 Language analysis means
102 Text data structure generation means
104 Specific phrase pair selection means
106 Evaluation target / evaluation expression specifying means

Claims (22)

テキストに対して少なくとも形態素解析処理と文節係り受け解析処理とを含む言語解析処理を行なう言語解析手段と、
この言語解析手段における言語解析結果に基づき、テキストを少なくとも構成単語の表記、係り受け情報を含む文節情報を保持したデータ構造に変換するテキストデータ構造生成手段と、
このテキストデータ構造生成手段により係り受け関係にあるとされた文節対から、所定の選別判断基準に合致する文節対を選別する特定文節対選別手段と、
この特定文節対選別手段で選別された文節対から評価対象とこの評価対象に対応する評価表現とを特定する評価対象・評価表現特定手段と、
を備えることを特徴とする評価表現抽出装置。
A language analysis unit that performs a language analysis process including at least a morphological analysis process and a phrase dependency analysis process on the text;
Text data structure generation means for converting a text into a data structure holding phrase information including at least constituent word notation and dependency information based on the language analysis result in the language analysis means,
A specific phrase pair selecting unit that selects a phrase pair that matches a predetermined selection criterion from the phrase pairs determined to be in a dependency relationship by the text data structure generating unit;
An evaluation target / evaluation expression specifying unit that specifies an evaluation target and an evaluation expression corresponding to the evaluation target from the phrase pairs selected by the specific phrase pair selection unit;
An evaluation expression extraction device comprising:
前記特定文節対選別手段における選別判断基準は、対象文節対の係り受け関係が主述関係であり、受け文節の構成単語の品詞が形容詞、形容動詞、補助形容詞であることを特徴とする請求項1記載の評価表現抽出装置。The selection criterion in the specific phrase pair selection means is that the dependency relationship of the target phrase pair is a predicative relationship, and the parts of speech of the constituent words of the target phrase are adjectives, adjective verbs, and auxiliary adjectives. 2. The evaluation expression extraction device according to 1. 前記特定文節対選別手段における選別判断基準は、対象文節対の係り受け関係が連体修飾関係であり、係り文節の構成単語の品詞が形容詞、形容動詞、補助形容詞であることを特徴とする請求項1記載の評価表現抽出装置。The selection criterion in the specific phrase pair selection means, wherein the dependency relationship of the target phrase pair is a continuous modification relationship, and the parts of speech of the constituent words of the dependency phrase are adjectives, adjective verbs, and auxiliary adjectives. 2. The evaluation expression extraction device according to 1. 前記評価対象・評価表現特定手段は、文節対からの評価対象とこの評価対象に対応する評価表現との特定に際し、評価対象・評価表現特定規則を用いることを特徴とする請求項1記載の評価表現抽出装置。2. The evaluation method according to claim 1, wherein the evaluation target / evaluation expression specifying unit uses an evaluation target / evaluation expression specification rule when specifying an evaluation target from a phrase pair and an evaluation expression corresponding to the evaluation target. Expression extraction device. 前記評価対象・評価表現特定規則には、
対象文節対の係り受け関係が主述関係であった場合に、係り文節に含まれる自立語を評価対象と特定し、受け文節に含まれる形容詞、形容動詞、補助形容詞とその前にある自立語、さらに打消しの助動詞が含まれていた場合にはそれを付加した表現を評価表現と特定する規則が記載されている、
ことを特徴とする請求項4記載の評価表現抽出装置。
The evaluation target / evaluation expression specifying rules include:
If the dependency relationship of the target phrase pair is a predicative relationship, the independent word contained in the dependency phrase is specified as the evaluation target, and the adjective, adjective verb, auxiliary adjective contained in the receiving phrase and the independent word preceding it , And further includes rules for specifying an expression to which the auxiliary verb to be canceled is included as an evaluation expression when the auxiliary verb is included.
5. The evaluation expression extraction device according to claim 4, wherein:
前記評価対象・評価表現特定規則には、
対象文節対の係り受け関係が主述関係であった場合に、係り文節に含まれる自立語が形式名詞であった場合にはその文節を受け文節として連体修飾する係り文節の自立語を評価対象と特定し、受け文節に含まれる形容詞、形容動詞、補助形容詞とその前にある自立語、さらに打消しの助動詞が含まれていた場合にはそれを付加した表現を、評価表現と特定する規則が記載されている、
ことを特徴とする請求項4記載の評価表現抽出装置。
The evaluation target / evaluation expression specifying rules include:
If the dependency relation of the target clause pair is a predicate relation, and the independent word contained in the dependency clause is a formal noun, the independent word of the dependency clause that modifies and accepts the phrase as an adjunct is evaluated. A rule that specifies an adjective, adjective verb, auxiliary adjective, an independent word preceding it, and a supplementary adjective, if any, included in the receiving phrase as an evaluation expression Is described,
5. The evaluation expression extraction device according to claim 4, wherein:
前記評価対象・評価表現特定規則には、
対象文節対の係り受け関係が連体修飾関係であった場合に、係り文節に含まれる形容詞、形容動詞、補助形容詞とその前にある自立語、さらに打消しの助動詞が含まれている場合にはそれを付加した表現を評価表現と特定し、受け文節に含まれる自立語を評価対象と特定する規則が記載されている、
ことを特徴とする請求項4記載の評価表現抽出装置。
The evaluation target / evaluation expression specifying rules include:
If the dependency relation of the target phrase pair is an adnominal modification relation, and the adjective, adjective verb, auxiliary adjective included in the dependency phrase and an independent word preceding it, and an auxiliary verb for cancellation, A rule that specifies an expression to which it is added as an evaluation expression and specifies an independent word included in the receiving phrase as an evaluation target is described.
5. The evaluation expression extraction device according to claim 4, wherein:
コンピュータにインストールされるか、あるいは解釈されて実行されるプログラムであって、前記コンピュータに、
テキストに対して少なくとも形態素解析処理と文節係り受け解析処理とを含む言語解析処理を行なう言語解析機能と、
この言語解析機能における言語解析結果に基づき、テキストを少なくとも構成単語の表記、係り受け情報を含む文節情報を保持したデータ構造に変換するテキストデータ構造生成機能と、
このテキストデータ構造生成機能により係り受け関係にあるとされた文節対から、所定の選別判断基準に合致する文節対を選別する特定文節対選別機能と、
この特定文節対選別機能で選別された文節対から評価対象とこの評価対象に対応する評価表現とを特定する評価対象・評価表現特定機能と、
を実行させることを特徴とするプログラム。
A program installed or interpreted and executed on a computer, wherein the computer has
A language analysis function for performing a language analysis process on the text including at least a morphological analysis process and a phrase dependency analysis process;
A text data structure generation function of converting a text into a data structure holding phrase information including at least constituent word notation and dependency information based on a result of the language analysis in the language analysis function;
A specific phrase pair selection function of selecting a phrase pair that matches a predetermined selection criterion from the phrase pairs determined to have a dependency relationship by the text data structure generation function;
An evaluation target / evaluation expression identification function for identifying an evaluation target and an evaluation expression corresponding to the evaluation target from the phrase pairs selected by the specific phrase pair selection function;
A program characterized by executing
前記特定文節対選別機能における選別判断基準は、対象文節対の係り受け関係が主述関係であり、受け文節の構成単語の品詞が形容詞、形容動詞、補助形容詞であることを特徴とする請求項8記載のプログラム。The selection criterion in the specific phrase pair selection function is that the dependency relationship of the target phrase pair is a predicative relationship, and the parts of speech of the constituent words of the target phrase are adjectives, adjective verbs, and auxiliary adjectives. 8. The program according to 8. 前記特定文節対選別機能における選別判断基準は、対象文節対の係り受け関係が連体修飾関係であり、係り文節の構成単語の品詞が形容詞、形容動詞、補助形容詞であることを特徴とする請求項8記載のプログラム。The selection criterion in the specific phrase pair selection function, wherein the dependency relationship of the target phrase pair is a continuous modification relationship, and the parts of speech of the constituent words of the dependency phrase are adjectives, adjective verbs, and auxiliary adjectives. 8. The program according to 8. 前記評価対象・評価表現特定機能は、文節対からの評価対象とこの評価対象に対応する評価表現との特定に際し、評価対象・評価表現特定規則を用いることを特徴とする請求項8記載のプログラム。9. The program according to claim 8, wherein the evaluation target / evaluation expression specifying function uses an evaluation target / evaluation expression specification rule when specifying an evaluation target from a phrase pair and an evaluation expression corresponding to the evaluation target. . 前記評価対象・評価表現特定規則には、
対象文節対の係り受け関係が主述関係であった場合に、係り文節に含まれる自立語を評価対象と特定し、受け文節に含まれる形容詞、形容動詞、補助形容詞とその前にある自立語、さらに打消しの助動詞が含まれていた場合にはそれを付加した表現を評価表現と特定する規則が記載されている、
ことを特徴とする請求項11記載のプログラム。
The evaluation target / evaluation expression specifying rules include:
If the dependency relationship of the target phrase pair is a predicative relationship, the independent word contained in the dependency phrase is specified as the evaluation target, and the adjective, adjective verb, auxiliary adjective contained in the receiving phrase and the independent word preceding it , And further includes rules for specifying an expression to which the auxiliary verb to be canceled is included as an evaluation expression when the auxiliary verb is included.
The program according to claim 11, characterized in that:
前記評価対象・評価表現特定規則には、
対象文節対の係り受け関係が主述関係であった場合に、係り文節に含まれる自立語が形式名詞であった場合にはその文節を受け文節として連体修飾する係り文節の自立語を評価対象と特定し、受け文節に含まれる形容詞、形容動詞、補助形容詞とその前にある自立語、さらに打消しの助動詞が含まれていた場合にはそれを付加した表現を、評価表現と特定する規則が記載されている、
ことを特徴とする請求項11記載のプログラム。
The evaluation target / evaluation expression specifying rules include:
If the dependency relation of the target clause pair is a predicate relation, and the independent word contained in the dependency clause is a formal noun, the independent word of the dependency clause that modifies and accepts the phrase as an adjunct is evaluated. A rule that specifies an adjective, adjective verb, auxiliary adjective, an independent word preceding it, and a supplementary adjective, if any, included in the receiving phrase as an evaluation expression Is described,
The program according to claim 11, characterized in that:
前記評価対象・評価表現特定規則には、
対象文節対の係り受け関係が連体修飾関係であった場合に、係り文節に含まれる形容詞、形容動詞、補助形容詞とその前にある自立語、さらに打消しの助動詞が含まれている場合にはそれを付加した表現を評価表現と特定し、受け文節に含まれる自立語を評価対象と特定する規則が記載されている、
ことを特徴とする請求項11記載のプログラム。
The evaluation target / evaluation expression specifying rules include:
If the dependency relation of the target phrase pair is an adnominal modification relation, and the adjective, adjective verb, auxiliary adjective included in the dependency phrase and an independent word preceding it, and an auxiliary verb for cancellation, A rule that specifies an expression to which it is added as an evaluation expression and specifies an independent word included in the receiving phrase as an evaluation target is described.
The program according to claim 11, characterized in that:
請求項8ないし14のいずれか一記載のプログラムを記憶していることを特徴とするコンピュータに読取り可能な記憶媒体。A computer-readable storage medium storing the program according to any one of claims 8 to 14. コンピュータの処理制御により行なう評価表現抽出方法であって、
テキストに対して少なくとも形態素解析処理と文節係り受け解析処理とを含む言語解析処理を行なう言語解析工程と、
この言語解析工程における言語解析結果に基づき、テキストを少なくとも構成単語の表記、係り受け情報を含む文節情報を保持したデータ構造に変換するテキストデータ構造生成工程と、
このテキストデータ構造生成工程により係り受け関係にあるとされた文節対から、所定の選別判断基準に合致する文節対を選別する特定文節対選別工程と、
この特定文節対選別工程で選別された文節対から評価対象とこの評価対象に対応する評価表現とを特定する評価対象・評価表現特定工程と、
を具備することを特徴とする評価表現抽出方法。
An evaluation expression extraction method performed by processing control of a computer,
A language analysis step of performing a language analysis process on the text including at least a morphological analysis process and a phrase dependency analysis process;
A text data structure generating step of converting a text into a data structure holding phrase information including at least constituent word notation and dependency information based on a result of the language analysis in the language analysis step;
A specific phrase pair selecting step of selecting a phrase pair that matches a predetermined selection criterion from the phrase pairs determined to have a dependency relationship by the text data structure generating step;
An evaluation target / evaluation expression specifying step of specifying an evaluation target and an evaluation expression corresponding to the evaluation target from the phrase pairs selected in the specific phrase pair selection process;
An evaluation expression extraction method, comprising:
前記特定文節対選別工程における選別判断基準は、対象文節対の係り受け関係が主述関係であり、受け文節の構成単語の品詞が形容詞、形容動詞、補助形容詞であることを特徴とする請求項16記載の評価表現抽出方法。The selection criterion in the specific phrase pair selection step is that the dependency relationship of the target phrase pair is a predicative relationship, and the parts of speech of the constituent words of the target phrase are adjectives, adjective verbs, and auxiliary adjectives. 16. The method for extracting an evaluation expression according to item 16. 前記特定文節対選別工程における選別判断基準は、対象文節対の係り受け関係が連体修飾関係であり、係り文節の構成単語の品詞が形容詞、形容動詞、補助形容詞であることを特徴とする請求項16記載の評価表現抽出方法。The selection criterion in the specific phrase pair selection step, wherein the dependency relationship of the target phrase pair is a continuous modification relationship, and the parts of speech of the constituent words of the dependency phrase are adjectives, adjective verbs, and auxiliary adjectives. 16. The method for extracting an evaluation expression according to item 16. 前記評価対象・評価表現特定工程は、文節対からの評価対象とこの評価対象に対応する評価表現との特定に際し、評価対象・評価表現特定規則を用いることを特徴とする請求項16記載の評価表現抽出方法。17. The evaluation according to claim 16, wherein the evaluation target / evaluation expression specifying step uses an evaluation target / evaluation expression specification rule when specifying an evaluation target from a phrase pair and an evaluation expression corresponding to the evaluation target. Expression extraction method. 前記評価対象・評価表現特定規則には、
対象文節対の係り受け関係が主述関係であった場合に、係り文節に含まれる自立語を評価対象と特定し、受け文節に含まれる形容詞、形容動詞、補助形容詞とその前にある自立語、さらに打消しの助動詞が含まれていた場合にはそれを付加した表現を評価表現と特定する規則が記載されている、
ことを特徴とする請求項19記載の評価表現抽出方法。
The evaluation target / evaluation expression specifying rules include:
If the dependency relationship of the target phrase pair is a predicative relationship, the independent word contained in the dependency phrase is specified as the evaluation target, and the adjective, adjective verb, auxiliary adjective contained in the receiving phrase and the independent word preceding it , And further includes rules for specifying an expression to which the auxiliary verb to be canceled is included as an evaluation expression when the auxiliary verb is included.
20. The evaluation expression extracting method according to claim 19, wherein:
前記評価対象・評価表現特定規則には、
対象文節対の係り受け関係が主述関係であった場合に、係り文節に含まれる自立語が形式名詞であった場合にはその文節を受け文節として連体修飾する係り文節の自立語を評価対象と特定し、受け文節に含まれる形容詞、形容動詞、補助形容詞とその前にある自立語、さらに打消しの助動詞が含まれていた場合にはそれを付加した表現を、評価表現と特定する規則が記載されている、
ことを特徴とする請求項19記載の評価表現抽出方法。
The evaluation target / evaluation expression specifying rules include:
If the dependency relation of the target clause pair is a predicate relation, and the independent word contained in the dependency clause is a formal noun, the independent word of the dependency clause that modifies and accepts the phrase as an adjunct is evaluated. A rule that specifies an adjective, adjective verb, auxiliary adjective, an independent word preceding it, and a supplementary adjective, if any, included in the receiving phrase as an evaluation expression Is described,
20. The evaluation expression extracting method according to claim 19, wherein:
前記評価対象・評価表現特定規則には、
対象文節対の係り受け関係が連体修飾関係であった場合に、係り文節に含まれる形容詞、形容動詞、補助形容詞とその前にある自立語、さらに打消しの助動詞が含まれている場合にはそれを付加した表現を評価表現と特定し、受け文節に含まれる自立語を評価対象と特定する規則が記載されている、
ことを特徴とする請求項19記載の評価表現抽出方法。
The evaluation target / evaluation expression specifying rules include:
If the dependency relation of the target phrase pair is an adnominal modification relation, and the adjective, adjective verb, auxiliary adjective included in the dependency phrase and an independent word preceding it, and an auxiliary verb for cancellation, A rule that specifies an expression to which it is added as an evaluation expression and specifies an independent word included in the receiving phrase as an evaluation target is described.
20. The evaluation expression extracting method according to claim 19, wherein:
JP2003077183A 2003-03-20 2003-03-20 Evaluation expression extraction apparatus, program, and storage medium Expired - Fee Related JP4361299B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003077183A JP4361299B2 (en) 2003-03-20 2003-03-20 Evaluation expression extraction apparatus, program, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003077183A JP4361299B2 (en) 2003-03-20 2003-03-20 Evaluation expression extraction apparatus, program, and storage medium

Publications (2)

Publication Number Publication Date
JP2004287683A true JP2004287683A (en) 2004-10-14
JP4361299B2 JP4361299B2 (en) 2009-11-11

Family

ID=33292000

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003077183A Expired - Fee Related JP4361299B2 (en) 2003-03-20 2003-03-20 Evaluation expression extraction apparatus, program, and storage medium

Country Status (1)

Country Link
JP (1) JP4361299B2 (en)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007280052A (en) * 2006-04-06 2007-10-25 Nippon Telegr & Teleph Corp <Ntt> Experience information extraction method and device, program, and computer-readable recording medium
JP2008071002A (en) * 2006-09-13 2008-03-27 C2Cube Inc Evaluation output device, evaluation output method, and program
JP2008209978A (en) * 2007-02-23 2008-09-11 Nippon Telegr & Teleph Corp <Ntt> Comparative evaluation detection device, comparative evaluation detection method, comparative evaluation detection program mounted with the method, and storage medium recording the program
JP2009187048A (en) * 2008-02-01 2009-08-20 Yahoo Japan Corp Evaluation expression extraction method, evaluation expression extraction device and evaluation expression extraction program
US7979454B2 (en) 2007-07-02 2011-07-12 Sony Corporation Information processing apparatus, and method and system for searching for reputation of content
JP2012048291A (en) * 2010-08-24 2012-03-08 Dainippon Printing Co Ltd Synonym dictionary generation device, data analysis device, data detection device, synonym dictionary generation method, and synonym dictionary generation program
CN111783422A (en) * 2020-06-24 2020-10-16 北京字节跳动网络技术有限公司 Text sequence generation method, device, equipment and medium
US11928431B2 (en) 2018-09-28 2024-03-12 Ricoh Company, Ltd. Method of processing language, recording medium, system for processing language, and language processing apparatus

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007280052A (en) * 2006-04-06 2007-10-25 Nippon Telegr & Teleph Corp <Ntt> Experience information extraction method and device, program, and computer-readable recording medium
JP4726683B2 (en) * 2006-04-06 2011-07-20 日本電信電話株式会社 EXPERIENCE INFORMATION EXTRACTION METHOD AND DEVICE, PROGRAM, AND COMPUTER-READABLE RECORDING MEDIUM
JP2008071002A (en) * 2006-09-13 2008-03-27 C2Cube Inc Evaluation output device, evaluation output method, and program
JP2008209978A (en) * 2007-02-23 2008-09-11 Nippon Telegr & Teleph Corp <Ntt> Comparative evaluation detection device, comparative evaluation detection method, comparative evaluation detection program mounted with the method, and storage medium recording the program
US7979454B2 (en) 2007-07-02 2011-07-12 Sony Corporation Information processing apparatus, and method and system for searching for reputation of content
JP2009187048A (en) * 2008-02-01 2009-08-20 Yahoo Japan Corp Evaluation expression extraction method, evaluation expression extraction device and evaluation expression extraction program
JP2012048291A (en) * 2010-08-24 2012-03-08 Dainippon Printing Co Ltd Synonym dictionary generation device, data analysis device, data detection device, synonym dictionary generation method, and synonym dictionary generation program
US11928431B2 (en) 2018-09-28 2024-03-12 Ricoh Company, Ltd. Method of processing language, recording medium, system for processing language, and language processing apparatus
CN111783422A (en) * 2020-06-24 2020-10-16 北京字节跳动网络技术有限公司 Text sequence generation method, device, equipment and medium
CN111783422B (en) * 2020-06-24 2022-03-04 北京字节跳动网络技术有限公司 Text sequence generation method, device, equipment and medium
US11669679B2 (en) 2020-06-24 2023-06-06 Beijing Byledance Network Technology Co., Ltd. Text sequence generating method and apparatus, device and medium

Also Published As

Publication number Publication date
JP4361299B2 (en) 2009-11-11

Similar Documents

Publication Publication Date Title
US10282468B2 (en) Document-based requirement identification and extraction
Vasiliev Natural language processing with Python and spaCy: A practical introduction
US8458198B1 (en) Document analysis and multi-word term detector
KR101279707B1 (en) Definition extraction
KR101136007B1 (en) System and method for anaylyzing document sentiment
JP4347226B2 (en) Information extraction program, recording medium thereof, information extraction apparatus, and information extraction rule creation method
JP2007087401A (en) System and method for indexing, and system and method and program for generating questionnaire template
WO2009123260A1 (en) Cooccurrence dictionary creating system and scoring system
Gupta et al. Designing and development of stemmer of Dogri using unsupervised learning
JP4361299B2 (en) Evaluation expression extraction apparatus, program, and storage medium
JP4073015B2 (en) Similarity calculation method, apparatus, program, and recording medium storing the program
Sanyal et al. Natural language processing technique for generation of SQL queries dynamically
JP2008225846A (en) Word meaning tag application device and method, program, and recording medium
Rosenfeld et al. TEG: a hybrid approach to information extraction
CN113330430B (en) Sentence structure vectorization device, sentence structure vectorization method, and recording medium containing sentence structure vectorization program
Martínez-Fernández et al. A preliminary approach to the automatic extraction of business rules from unrestricted text in the banking industry
US11017172B2 (en) Proposition identification in natural language and usage thereof for search and retrieval
Gebreselassie et al. A finite-state morphological analyzer for Wolaytta
JP2005025555A (en) Thesaurus construction system, thesaurus construction method, program for executing the method, and storage medium with the program stored thereon
Nathani et al. Rule-based derivational stemmer for Sindhi Devanagari using suffix stripping approach
WO2021049485A1 (en) Legal analyzer and legal analysis method
Rekaby Salama et al. Joint labeling of syntactic function and semantic role using probabilistic finite state automata
JP2008204010A (en) Question content extraction device and question content extraction method
JP3875510B2 (en) Information retrieval apparatus, method thereof, program thereof, and recording medium on which program is recorded
Kadam Develop a Marathi Lemmatizer for Common Nouns and Simple Tenses of Verbs

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20041008

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20051021

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060213

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20060811

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081125

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090123

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090407

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090608

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090811

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090812

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120821

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120821

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130821

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees