JP2004030177A - テキスト分析システム、テキスト分析方法、および、テキスト分析プログラム - Google Patents

テキスト分析システム、テキスト分析方法、および、テキスト分析プログラム Download PDF

Info

Publication number
JP2004030177A
JP2004030177A JP2002184688A JP2002184688A JP2004030177A JP 2004030177 A JP2004030177 A JP 2004030177A JP 2002184688 A JP2002184688 A JP 2002184688A JP 2002184688 A JP2002184688 A JP 2002184688A JP 2004030177 A JP2004030177 A JP 2004030177A
Authority
JP
Japan
Prior art keywords
concept
phrase
procedure
recognition
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002184688A
Other languages
English (en)
Other versions
JP4322475B2 (ja
Inventor
Seiya Osada
長田 誠也
Shinichiro Kamei
亀井 真一郎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2002184688A priority Critical patent/JP4322475B2/ja
Publication of JP2004030177A publication Critical patent/JP2004030177A/ja
Application granted granted Critical
Publication of JP4322475B2 publication Critical patent/JP4322475B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Abstract

【課題】ユーザが注目している特定の概念を指定することで、その指定概念が含まれているか含まれていないかで表現を同一視するか区別するかを指定できるようにし、また、この概念の組を複数保持しておき、概念の組を変化させながら特長を分析することにより、助動詞など付属語による意味の違いによってテキストの特徴分析を可能にする。
【解決手段】データ処理装置20の形態素解析手段21は、記憶装置30のテキストデータベース01のテキストを入力として、解析用辞書31に記憶された単語の見出しを元に、テキストを形態素に分割する。文節認定手段22は、形態素解析手段21が分割した形態素から、文節認定規則テーブル32に記憶されている規則に基づき、文節を認定する。データ分析手段29は、文節認定手段22で認定された大量の文節から特徴を分析する。
【選択図】   図1

Description

【0001】
【発明の属する技術分野】
本発明は、テキスト分析システム、テキスト分析方法、および、テキスト分析プログラムに関し、特に、コンピュータに蓄積される電子化テキスト、たとえばアンケートの設問事項に対して自由に記述された解答の内容の特徴を分析するテキスト分析システム、テキスト分析方法、および、テキスト分析プログラムに関する。
【0002】
【従来の技術】
従来のテキスト分析システムでは、たとえば、「Vext Search((株)コマツソフト製品:日経エレクトロニクス1997.12.15(No.705)pp.63−70)」のように蓄積されたテキストから名詞、動詞、形容詞、副詞と接頭辞の一部といった単語を抽出し、助詞や助動詞を取り除いて、そのテキスト中の単語の出現頻度を使用して文章の特徴を分析していた。
【0003】
また、「特開平3−48367号公報」記載の技術は、文を分析して自立語を抽出し、その自立語が持つ意味(概念)からその文の主題を連想するものである。
【0004】
【発明が解決しようとする課題】
上述した「Vext Search」のテキスト分析方法では、活用語に対しては原型を使用していたため「美しい」と「美しくない」のような正反対のことを表す言葉でも「美しい」に同一視されている。そのため、分析対象テキストの特徴が「美しい」なのか「美しくない」なのか区別できないという問題がある。
【0005】
また、上述した「特開平3−48367号公報」記載の技術では、文節の付属語の概念を抽出していないので、詳細な分析ができない(すなわち、「美しい」なのか「美しくない」なのか区別できない)という問題がある。
【0006】
本発明の目的は、特徴を分析する単位を単語から文節にすることにより助動詞など付属語による意味の違いでの特徴分析を可能にすることである。
【0007】
また、他の目的は、単位を完全に文節にしてしまうと、同原型をもつ語として1つに特徴分析されていた表現が、文節を構成するバリエーションで頻度が分散してしまい、分析の結果としてそのバリエーションが特徴として分析されない場合に、「否定」が含まれている文節と含まれていない文節を区別するというように、ユーザが注目している特定の概念を指定することで、その指定概念が含まれているか含まれていないかで表現を同一視するか区別するかを指定できるようにすることである。
【0008】
また、他の目的は、この概念の組を複数保持しておき、概念の組を変化させながら特長を分析することにより、特徴となる概念をみつけだすことを可能とすることである。
【0009】
【課題を解決するための手段】
本発明の第1のテキスト分析システムは、テキストを形態素に分割する形態素解析手段と、分割された形態素を文節にまとめる文節認定手段と、前記文節認定手段からの文節を単位としてテキストの統計分析を実施するデータ分析手段とを備えたことを特徴とする。
【0010】
本発明の第2のテキスト分析システムは、テキストを形態素に分割する形態素解析手段と、分割された形態素を文節にまとめる文節認定手段と、操作者により指定された文節の付属語の概念を入力する概念認定指定装置と、前記文節認定手段からの文節の自立語であるヘッドワード、および、前記概念認定指定装置からの文節の付属語の概念を抽出する概念認定手段と、前記概念認定手段からの文節のヘッドワード、文節の付属語の概念の組を単位としてテキストの統計分析を実施するするデータ分析手段とを備えたことを特徴とする。
【0011】
本発明の第3のテキスト分析システムは、テキストを形態素に分割する形態素解析手段と、分割された形態素を文節にまとめる文節認定手段と、操作者により指定された文節の付属語の概念の組み合わせを段階的に指定できる概念モード指定装置、前記文節認定手段からの文節の自立語であるヘッドワード、および、前記概念モード指定装置からの文節の付属語の概念の組み合わせを抽出する概念認定手段と、前記概念認定手段からの文節のヘッドワード、文節の付属語の概念の組み合わせを単位としてテキストの統計分析を実施するするデータ分析手段とを備えたことを特徴とする。
【0012】
本発明の第4のテキスト分析システムは、テキストを形態素に分割する形態素解析手段と、分割された形態素を文節にまとめる文節認定手段と、文節から付属語の概念を抽出する特徴概念抽出手段と、前記文節認定手段からの文節の自立語であるヘッドワード、および、前記概念認定指定装置からの文節の付属語の概念を抽出する概念認定手段と、前記概念認定手段からの文節のヘッドワード、文節の付属語の概念の組を単位としてテキストの統計分析を実施するするデータ分析手段とを備えたことを特徴とする。
【0013】
本発明の第5のテキスト分析システムは、テキストを形態素に分割する形態素解析手段と、分割された形態素を文節にまとめる文節認定手段と、操作者により指定された文節の付属語の概念を入力する概念認定指定装置と、前記文節認定手段からの文節の自立語であるヘッドワード、および、前記概念認定指定装置からの文節の付属語の概念を抽出する概念認定手段と、概念認定手段からのヘッドワードと概念とにより文節を再生成する文節再生成手段と、前記文節再生成手段からの文節を単位としてテキストの統計分析を実施するデータ分析手段とを備えたことを特徴とする。
【0014】
本発明の第6のテキスト分析システムは、テキストを形態素に分割する形態素解析手段と、分割された形態素を文節にまとめる文節認定手段と、操作者により指定された文節の付属語の概念の組み合わせを段階的に指定できる概念モード指定装置、前記文節認定手段からの文節の自立語であるヘッドワード、および、前記概念モード指定装置からの文節の付属語の概念の組み合わせを抽出する概念認定手段と、前記概念認定手段からの文節のヘッドワード、文節の付属語の概念の組み合わせにより文節を再生成する文節再生成手段と、前記文節再生成手段からの文節を単位としてテキストの統計分析を実施するデータ分析手段とを備えたことを特徴とする。
【0015】
本発明の第7のテキスト分析システムは、テキストを形態素に分割する形態素解析手段と、分割された形態素を文節にまとめる文節認定手段と、文節から付属語の概念を抽出する特徴概念抽出手段と、前記文節認定手段からの文節の自立語であるヘッドワード、および、前記概念認定指定装置からの文節の付属語の概念を抽出する概念認定手段と、前記概念認定手段からの文節のヘッドワード、文節の付属語の概念の組み合わせにより文節を再生成する文節再生成手段と、前記文節再生成手段からの文節を単位としてテキストの統計分析を実施するデータ分析手段とを備えたことを特徴とする。
【0016】
本発明の第1のテキスト分析方法は、テキストを形態素に分割する形態素解析手順と、分割された形態素を文節にまとめる文節認定手順と、前記文節認定手順からの文節を単位としてテキストの統計分析を実施するデータ分析手順とを含むことを特徴とする。
【0017】
本発明の第2のテキスト分析方法は、テキストを形態素に分割する形態素解析手順と、分割された形態素を文節にまとめる文節認定手順と、操作者により指定された文節の付属語の概念を入力する概念認定指定装置と、前記文節認定手順からの文節の自立語であるヘッドワード、および、前記概念認定指定装置からの文節の付属語の概念を抽出する概念認定手順と、前記概念認定手順からの文節のヘッドワード、文節の付属語の概念の組を単位としてテキストの統計分析を実施するするデータ分析手順とを含むことを特徴とする。
【0018】
本発明の第3のテキスト分析方法は、テキストを形態素に分割する形態素解析手順と、分割された形態素を文節にまとめる文節認定手順と、操作者により指定された文節の付属語の概念の組み合わせを段階的に指定できる概念モード指定装置、前記文節認定手順からの文節の自立語であるヘッドワード、および、前記概念モード指定装置からの文節の付属語の概念の組み合わせを抽出する概念認定手順と、前記概念認定手順からの文節のヘッドワード、文節の付属語の概念の組み合わせを単位としてテキストの統計分析を実施するするデータ分析手順とを含むことを特徴とする。
【0019】
本発明の第4のテキスト分析方法は、テキストを形態素に分割する形態素解析手順と、分割された形態素を文節にまとめる文節認定手順と、文節から付属語の概念を抽出する特徴概念抽出手順と、前記文節認定手順からの文節の自立語であるヘッドワード、および、前記概念認定指定装置からの文節の付属語の概念を抽出する概念認定手順と、前記概念認定手順からの文節のヘッドワード、文節の付属語の概念の組を単位としてテキストの統計分析を実施するするデータ分析手順とを含むことを特徴とする。
【0020】
本発明の第5のテキスト分析方法は、テキストを形態素に分割する形態素解析手順と、分割された形態素を文節にまとめる文節認定手順と、操作者により指定された文節の付属語の概念を入力する概念認定指定装置と、前記文節認定手順からの文節の自立語であるヘッドワード、および、前記概念認定指定装置からの文節の付属語の概念を抽出する概念認定手順と、概念認定手順からのヘッドワードと概念とにより文節を再生成する文節再生成手順と、前記文節再生成手順からの文節を単位としてテキストの統計分析を実施するデータ分析手順とを含むことを特徴とする。
【0021】
本発明の第6のテキスト分析方法は、テキストを形態素に分割する形態素解析手順と、分割された形態素を文節にまとめる文節認定手順と、操作者により指定された文節の付属語の概念の組み合わせを段階的に指定できる概念モード指定装置、前記文節認定手順からの文節の自立語であるヘッドワード、および、前記概念モード指定装置からの文節の付属語の概念の組み合わせを抽出する概念認定手順と、前記概念認定手順からの文節のヘッドワード、文節の付属語の概念の組み合わせにより文節を再生成する文節再生成手順と、前記文節再生成手順からの文節を単位としてテキストの統計分析を実施するデータ分析手順とを含むことを特徴とする。
【0022】
本発明の第7のテキスト分析方法は、テキストを形態素に分割する形態素解析手順と、分割された形態素を文節にまとめる文節認定手順と、文節から付属語の概念を抽出する特徴概念抽出手順と、前記文節認定手順からの文節の自立語であるヘッドワード、および、前記概念認定指定装置からの文節の付属語の概念を抽出する概念認定手順と、前記概念認定手順からの文節のヘッドワード、文節の付属語の概念の組み合わせにより文節を再生成する文節再生成手順と、前記文節再生成手順からの文節を単位としてテキストの統計分析を実施するデータ分析手順とを含むことを特徴とする。
【0023】
本発明の第1のテキスト分析プログラムは、テキストを形態素に分割する形態素解析手順と、分割された形態素を文節にまとめる文節認定手順と、前記文節認定手順からの文節を単位としてテキストの統計分析を実施するデータ分析手順とをコンピュータに実行させることを特徴とする。
【0024】
本発明の第2のテキスト分析プログラムは、テキストを形態素に分割する形態素解析手順と、分割された形態素を文節にまとめる文節認定手順と、操作者により指定された文節の付属語の概念を入力する概念認定指定装置と、前記文節認定手順からの文節の自立語であるヘッドワード、および、前記概念認定指定装置からの文節の付属語の概念を抽出する概念認定手順と、前記概念認定手順からの文節のヘッドワード、文節の付属語の概念の組を単位としてテキストの統計分析を実施するするデータ分析手順とをコンピュータに実行させることを特徴とする。
【0025】
本発明の第3のテキスト分析プログラムは、テキストを形態素に分割する形態素解析手順と、分割された形態素を文節にまとめる文節認定手順と、操作者により指定された文節の付属語の概念の組み合わせを段階的に指定できる概念モード指定装置、前記文節認定手順からの文節の自立語であるヘッドワード、および、前記概念モード指定装置からの文節の付属語の概念の組み合わせを抽出する概念認定手順と、前記概念認定手順からの文節のヘッドワード、文節の付属語の概念の組み合わせを単位としてテキストの統計分析を実施するするデータ分析手順とをコンピュータに実行させることを特徴とする。
【0026】
本発明の第4のテキスト分析プログラムは、テキストを形態素に分割する形態素解析手順と、分割された形態素を文節にまとめる文節認定手順と、文節から付属語の概念を抽出する特徴概念抽出手順と、前記文節認定手順からの文節の自立語であるヘッドワード、および、前記概念認定指定装置からの文節の付属語の概念を抽出する概念認定手順と、前記概念認定手順からの文節のヘッドワード、文節の付属語の概念の組を単位としてテキストの統計分析を実施するするデータ分析手順とをコンピュータに実行させることを特徴とする。
【0027】
本発明の第5のテキスト分析プログラムは、テキストを形態素に分割する形態素解析手順と、分割された形態素を文節にまとめる文節認定手順と、操作者により指定された文節の付属語の概念を入力する概念認定指定装置と、前記文節認定手順からの文節の自立語であるヘッドワード、および、前記概念認定指定装置からの文節の付属語の概念を抽出する概念認定手順と、概念認定手順からのヘッドワードと概念とにより文節を再生成する文節再生成手順と、前記文節再生成手順からの文節を単位としてテキストの統計分析を実施するデータ分析手順とをコンピュータに実行させることを特徴とする。
【0028】
本発明の第6のテキスト分析プログラムは、テキストを形態素に分割する形態素解析手順と、分割された形態素を文節にまとめる文節認定手順と、操作者により指定された文節の付属語の概念の組み合わせを段階的に指定できる概念モード指定装置、前記文節認定手順からの文節の自立語であるヘッドワード、および、前記概念モード指定装置からの文節の付属語の概念の組み合わせを抽出する概念認定手順と、前記概念認定手順からの文節のヘッドワード、文節の付属語の概念の組み合わせにより文節を再生成する文節再生成手順と、前記文節再生成手順からの文節を単位としてテキストの統計分析を実施するデータ分析手順とをコンピュータに実行させることを特徴とする。
【0029】
本発明の第7のテキスト分析プログラムは、テキストを形態素に分割する形態素解析手順と、分割された形態素を文節にまとめる文節認定手順と、文節から付属語の概念を抽出する特徴概念抽出手順と、前記文節認定手順からの文節の自立語であるヘッドワード、および、前記概念認定指定装置からの文節の付属語の概念を抽出する概念認定手順と、前記概念認定手順からの文節のヘッドワード、文節の付属語の概念の組み合わせにより文節を再生成する文節再生成手順と、前記文節再生成手順からの文節を単位としてテキストの統計分析を実施するデータ分析手順とをコンピュータに実行させることを特徴とする。
【0030】
【発明の実施の形態】
次に、本発明の第1の実施の形態について図面を参照して詳細に説明する。
【0031】
図1は、本発明の第1の実施の形態の構成を示すブロック図である。
【0032】
図1を参照すると、本発明の第1の実施の形態は、プログラム制御により動作するデータ処理装置20と、情報を記憶する記憶装置30と、ディスプレイ装置や印刷装置等の出力装置40とから構成される。
【0033】
記憶装置30は、解析対象となるテキストデータベース01と、解析用辞書31と、文節認定規則テーブル32とを備える。
【0034】
解析用辞書31は、単語の見出し、品詞など解析に必要な情報をあらかじめ記憶している。文節認定規則テーブル32は、動詞と助動詞が連続していれば1文節とする等の、文節を認定するための規則をあらかじめ記憶している。
【0035】
データ処理装置20は、形態素解析手段21と、文節認定手段22と、データ分析手段29とを備える。
【0036】
形態素解析手段21は、テキストデータベース01のテキストを入力として、解析用辞書31に記憶された単語の見出しを元に、テキストを形態素に分割する。文節認定手段22は、形態素解析手段21が分割した形態素から、文節認定規則テーブル32に記憶されている規則に基づき、文節を認定する。データ分析手段29は、文節認定手段22で認定された大量の文節から特徴を分析する。
【0037】
次に、本発明の第1の実施の形態の動作について図面を参照して詳細に説明する。
【0038】
図2は、本発明の第1の実施の形態の動作を示すフローチャートである。
【0039】
図2を参照すると、本発明の第1の実施の形態の形態素解析手段21に、テキストデータベース01にあるテキストが供給されると、形態素解析手段21は、解析用辞書31を使用して、テキストを形態素に分割する(図2ステップA1)。たとえば、テキストデータベース01に「A車は美しくない」という文が入っていたときは、この文は「A車/は/美しく/ない」と分割される。ただし、解析用辞書31に「A車」という単語が入っているとしている。
【0040】
次に、文節認定手段22が、形態素解析手段21により分割された形態素の列から、文節認定規則テーブル32を使用して文節を認定する(図2ステップA2)。たとえば、上記形態素列からは「A車は/美しくない」と文節が認定される。
【0041】
次に、データ分析手段29が、文節認定手段22により認定された文節から、たとえば、文節文字列の違いで頻度を取るなどの統計的手法により特徴分析をする(図2ステップA9)。たとえば、「文節:A者は−頻度:10」、「文節:美しくない−頻度:5」、「文節:美しい−頻度:7」と出力される(図2ステップA9)。
【0042】
また、たとえば、テキストデータベース01に「B車はとても美しい」という文も入っていたとする。この文をステップA2で同様に文節を認定すると「B車は/とても/美しい」となる。この文節単位の結果を使用して「Xは/Yだ」の組で頻度を取ると、「A車」と「美しくない」の組、「B車」と「美しい」の組が特徴となるような分析をすることも可能である(図2ステップA9)。
【0043】
このように、本発明の第1の実施の形態では、統計的手法で特徴分析をする単位を単語から文節にすることで、たとえば、「美しい」と「美しくない」のような異なる概念をもつ文節を区別した特長の分析ができる。
【0044】
次に、本発明の第2の実施の形態について図面を参照して詳細に説明する。
【0045】
図3は、本発明の第2の実施の形態の構成を示すブロック図である。
【0046】
図3を参照すると、本発明の第2の実施の形態は、ユーザが概念を設定するための概念指定装置51を備え、データ処理装置20が概念認定手段25を備え、記憶装置30が概念記憶部33を備える点で本発明の第1の実施の形態と異なる。
【0047】
本発明の第2の実施の形態では、ユーザが概念指定装置51を使用して設定した概念を概念記憶部33に記憶し、概念認定手段25は、文節認定手段22で認定された文節から、その文節に含まれる形態素の品詞が名詞、動詞、形容詞、形容動詞といった自立語であるヘッドワードと、その文節の中に概念記憶部33で記憶された概念と同じ概念があるかどうかとを認定する。ここで、概念とは、文節中の自立語以外の付属語の表す内容のことである。
【0048】
データ分析手段29では、概念認定手段25で認定された文節内のヘッドワードと、概念の組とで特徴分析をする。
【0049】
次に、本発明の第2の実施の形態の動作について図面を参照して詳細に説明する。
【0050】
図5は、本発明の第2、および第3の実施の形態の動作を示すフローチャートである。
【0051】
図5を参照すると、本発明の第2の実施の形態における図5のステップA1、A2およびA9で示される形態素解析手段21、文節認定手段22、データ分析手段29の動作は、本発明の第1の実施の形態における動作と同一である。
【0052】
本発明の第1の実施の形態では、ユーザが注目している概念が同じだとしても、文節の表記が異なっていれば区別されてしまう。本発明の第2の実施の形態では、ステップA2で認定された文節から概念認定手段25がヘッドワードとユーザが注目している概念とを認定し、データ分析手段29が、そのヘッドワードと概念の組を使って図5ステップA9において分析をする。
【0053】
たとえば、入力テキストに「A車は美しくない」、「A車は美しくありません」、および、「A車は美しくないだろう」が入っている場合に、ユーザは概念指定装置51で「否定」概念を指定したとする。このとき、この3つの入力テキストの「美しい」を含む文節は、すべて「美しい+<否定>」となり同一視される。ただし<>で囲まれた部分を概念とする。
【0054】
このように、本発明の第2の実施の形態では、ヘッドワードと概念の組で頻度を取るなどの統計的手法で特徴分析する単位を、文節から文節が持つヘッドワードと概念の組とすることで、「美しくない」、「美しくありません」と「美しくないだろう」のように文節の表記は異なるが、「美しい+<否定>」のようなヘッドワード+注目概念で同一視した特長の分析ができる。
たとえば、「文節:A者は−頻度:10」、「文節:美しい+<否定>−頻度:10」、と出力される。
【0055】
次に、本発明の第3の実施の形態について図面を参照して詳細に説明する。
【0056】
図4は、本発明の第3の実施の形態の構成を示すブロック図である。
【0057】
図4を参照すると、本発明の第3の実施の形態は、第2の実施の形態の概念指定装置51が概念モード指定装置52に置き換えられている点で第2の実施の形態の概念指定装置51と異なる。ユーザは、概念モード指定装置52を使用して設定した概念の組を、概念記憶部33に記憶する。
次に、本発明の第3の実施の形態の動作について図面を参照して詳細に説明する。
【0058】
本発明の第2の実施の形態では、ユーザはどの概念に注目しているかをあらかじめ知っていることとして、ユーザはその概念を概念指定装置51で指定して、概念認定手段25でその概念を認定し(図5ステップA5)、データ分析手段29でテキストデータベース01の特徴を分析していた(図5ステップA9)。
【0059】
図5を参照すると、本発明の第3の実施の形態は、ユーザが高頻度で注目する概念が概念モード指定装置52に段階的に設定されている。ユーザは、概念モード指定装置52で任意の概念モードをしておき、本発明の第2の実施の形態と同様に図5のように特徴を分析する。分析した結果をユーザが確認し、更に細かい概念まで分析したいときは、概念モード指定装置52で細かい概念モードに変更し、再分析する。分析した結果をユーザが確認し、更に荒い概念で分析したいときは、概念モード指定装置52で荒い概念モードを変更し、図5のように再分析する。
【0060】
たとえば、入力テキストに「A車は美しくない」、「A車は美しくないだろう」、および、「A車は美しくなかった」が入っている場合、ユーザは、最初に「否定・完了」を区別する概念モードを設定したとする。図5ステップA5では、「美しくない」と「美しくないだろう」を「美しい+<否定>」としてこの2つは同一視し、「美しくなかった」を「美しい+<否定>+<完了>」としてこの1つを区別する。
【0061】
この結果をユーザが確認して、更に細かい概念で分析したいときは「否定・完了・推量」を区別する概念モードを設定する。このとき「美しくない」は「美しい+<否定>」、「美しくないだろう」は「美しい+<否定>+<推量>」、「美しくなかった」は「美しい+<否定>+<完了>」となり、すべてを区別する。
【0062】
たとえば、「文節:A者は−頻度:10」、「文節:美しい+<否定>+<推量>頻度:3」「文節:美しい+<否定>+<完了>−頻度:4」と出力される。
【0063】
また、ユーザが荒い概念で分析したいときは「否定」を区別する概念モードを設定する。このとき「美しくない」、「美しくないだろう」、「美しくなかった」の3つとも「美しい+<否定>」となり、すべてを同一視する。
【0064】
このように、本発明の第3の実施の形態では、概念モード指定装置52に段階的な概念モードを用意しておき、解析結果を確認しながら概念モードを段階的に設定することで、ユーザが注目したい概念で特徴を分析できる。
【0065】
次に、本発明の第4の実施の形態について図面を参照して詳細に説明する。
【0066】
図6は、本発明の第4の実施の形態の構成を示すブロック図である。
【0067】
図6を参照すると、本発明の第4の実施の形態は、本発明の第3の実施の形態の概念モード指定装置52がなく、データ処理装置20に特徴概念抽出手段24を有する点で本発明の第3の実施の形態と異なる。
【0068】
入力テキストを文節認定手段22で文節を認定し、その大量の文節から特徴概念抽出手段24で特徴となる概念を抽出する。この抽出した概念を概念記憶部33に記憶し、この概念を使用して概念認定手段25で各文節に抽出した概念が含まれているかどうかを認定する。
【0069】
次に、本発明の第4の実施の形態の動作について図面を参照して説明する。
【0070】
図7は、本発明の第4の実施の形態の動作を示すフローチャートである。
【0071】
第3の実施の形態では、概念モード指定装置52にある概念モード別の分析を繰り返すことで、ユーザは注目すべき概念を探していた。図7を参照すると、本発明の第4の実施の形態は、特徴概念抽出手段24が、文節認定手段22により認定された(図7ステップA2)大量の文節を使って、特徴となる概念を抽出する(図7ステップA4)。次に、概念認定手段25が各文節に抽出した概念が含まれているかを認定する(図7ステップA9)。
【0072】
たとえば、入力テキストに「A車は美しい」、「A車は美しくない」、「A車は美しくありません」、「A車は美しいだろう」、「A車は美しくなかった」という文が入っていたとする。図7ステップA4において、「美しい」、「美しくない」、「美しくありません」、「美しいだろう」、「美しくなかった」のそれぞれの文節が含む概念を調べると、「否定」を含む文節と「否定」を含まない文節がほぼ1対1に分離できるので、たとえば「否定」を抽出する。そして、図7ステップA5でこの概念を含む文節と含まない文節とで区別をする。
「文節:A者は−頻度:10」、「文節:美しい+<否定>−頻度:10」、と出力される。
【0073】
このように、本発明の第4の実施の形態では、大量の文節から特徴概念抽出手段24で特徴的な概念を抽出することで、ユーザが注目したい概念を自動的に抽出できる。
【0074】
次に、本発明の第5の実施の形態について図面を参照して詳細に説明する。
【0075】
図8は、本発明の第5の実施の形態の構成を示すブロック図である。
【0076】
図8を参照すると、本発明の第5の実施の形態は、データ処理装置20が、概念認定手段25とデータ分析手段29の間に文節再生成手段26を備える点で本発明の第2の実施の形態と異なる。また、記憶装置30に文節再生成テーブル34を格納する点でも異なる。概念認定手段25が文節のヘッドワードと概念を認定し、その結果を使用して文節再生成手段26で自然言語の文節に再生成する。
【0077】
次に、本発明の第5の実施の形態の動作について図面を参照して説明する。
【0078】
図9は、本発明の第5の実施の形態の動作を示すフローチャートである。
【0079】
第2の実施の形態では、データ分析手段29でヘッドワードと概念の組を使ってデータ分析手段29で特徴分析をして、その結果を出力装置40で出力していた。図9を参照すると、本発明の第5の実施の形態では、文節再生成手段26が、データ分析手段29から出力されたヘッドワードと概念の組を使って文節を再生成し(図9ステップA6)、データ分析手段29が、その再生成された文節で特徴分析をする(図9ステップA9)。
【0080】
たとえば、入力テキストに「A車は美しくありません」という文が入っているとして、概念指定装置51でユーザは「否定」概念を指定したとする。図9ステップA5の結果として「美しい+<否定>」という組が抽出されたとすると、図9ステップA6で「美しくない」という文節を再生し、この文字列を使用して図9ステップA9で特徴分析する。
「文節:A者は−頻度:10」、「文節:美しくない−頻度:10」、と出力される。
【0081】
このようにして、本発明の第5の実施の形態では、特徴分析した結果を出力装置40で出力する時に、ヘッドワードと概念の組ではなく、再生成した自然言語の文節の形式で出力することで、ユーザにとってわかりやすい出力ができる。
【0082】
また、本発明の第2の実施の形態だけでなく、第3の実施の形態や第4の実施の形態に対しても、データ処理装置20が概念認定手段25とデータ分析手段29の間に、文節再生成手段26を有することで同様の効果が得られる。
【0083】
また、文節再生成手段26は、概念認定手段25とデータ分析手段29の間でなく、データ分析手段29と出力装置40の間でも同様の効果が得られる。
【0084】
次に、本発明の第1の実施例を、図面を参照して説明する。本発明の第1の実施例は、本発明の第1の実施の形態に対応するものである。
【0085】
本発明の第1の実施例は、データ処理装置20としてパーソナル・コンピュータを、記憶装置30として磁気ディスク記憶装置を、出力装置40としてディスプレイを備えている。パーソナル・コンピュータであるデータ処理装置20は、形態素解析手段21、文節認定手段22、データ分析手段29として機能する中央演算装置を有しており、また、磁気ディス記憶装置である記憶装置30には、テキストデータベース01、解析用辞書31、文節認定規則テーブル32が記憶されている。
【0086】
例として、テキストデータベース01に「A車は美しくない」という文が記憶されていたとする。また、解析用辞書31には、たとえば、「A車」という見出し語に対して「名詞」という品詞が付与された情報が登録されている。
【0087】
形態素解析手段21は、テキストデータベース01の文「A車は美しくない」の先頭から順に解析用辞書31の見出し語を検索し、「A車/は美しく/ない」のように形態素に分割する。
【0088】
図10は、文節認定規則テーブル32の内容を示す説明図である。
【0089】
図10を参照すると、たとえば、文節認定規則テーブル32には、「名詞+助詞」、「動詞+助動詞」、「形容詞+補助用言」などの文節を構成する複数の形態素からなる規則が登録されている。
【0090】
文節認定手段22は、分割された形態素に対して、文節認定規則テーブル32を適用し、「A車は/美しくない」のように文節を認定する。
【0091】
データ分析手段29は、テキストデータベース01に記憶されている大量のテキストに対して同様な処理で認定された文節を使って、たとえば、文節文字列の違いで頻度を計算し、頻度順に並べ直すことにより、テキストデータベース01に特徴的な文節をディスプレイに出力する。
【0092】
次に、本発明の第2の実施例を、図3を参照して説明する。本発明の第2の実施例は、本発明の第2の実施の形態に対応するものである。
【0093】
図11は、概念指定装置51の画面の例を示す説明図である。
【0094】
本発明の第2の実施例は、本発明の第1の実施例のデータ処理装置20に、さらに、概念認定手段25を有し、記憶装置30に概念記憶部33が記憶されている。また概念指定装置51として、図11のような出力装置40のディスプレイに表示された画面に対し、概念を選択、指定するためのマウスを備えている。図11を参照すると、「否定」、「容易」、「困難」が指定されている。
【0095】
本発明の第1の実施例と同様に、本発明の第2の実施例は、テキストデータベース01に「A車は美しくない」という文が記憶されていたとし、本発明の第1の実施例のように「A車は/美しくない」と文節の認定がされたとする。
【0096】
概念指定装置51には、たとえば、ディスプレイに表示された「否定」、「容易」、「困難」、「完了」、「進行」、「推量」、「要望」のような概念をマウスで指定できるようになっているとする。ここで、マウスで「否定」概念を指定したとすると、この概念が、概念記憶部33に記憶される。
【0097】
そして、概念認定手段25は、認定された文節から、ヘッドワードと、その文節が概念記憶部33に記憶された概念を含むかどうかを認定する。
【0098】
たとえば、概念認定手段25は、「美しくない」の文節を構成している「美しい」という形態素が持つ「形容詞」という品詞情報からこの形態素をヘッドワードと認定する。また、「美しくない」の文節を構成する「ない」という形態素が持つ「否定」概念と、概念記憶部33に記憶されている「否定」概念とを比較して、この文節が「否定」概念を含むことを認定する。このようにして「美しくない」という文節から「美しい+<否定>」というヘッドワードと概念の組を認定する。
【0099】
他の例として、テキストデータベース01に「A車は不人気だった」という文が記憶されていたとする。この文に対して、文節認定手段22は、「A車は/不人気だった」と文節認定し、概念認定手段25は、「不人気だった」という文節に対して「人気+<否定>」を認定する。
【0100】
また他の例として、概念記憶部33に「容易+完了」が記憶されているときは、「食べやすかった」という文節に対して「食べる+<容易>+<完了>」と認定する。
【0101】
また「食べやすかった」という文節に対して、概念記憶部33に「容易」だけが記憶されているときには、「食べる+<容易>」と認定する。
【0102】
このヘッドワードと概念の組を使って、本発明の第1の実施例と同様にテキストデータベース01に特徴的なヘッドワードと文節の組を抽出し、出力装置40のディスプレイに出力する。
【0103】
また、概念記憶部33に何も記憶されていないときは、ヘッドワードのみを認定し、このときは、名詞、動詞、形容詞、副詞と接頭辞の一部といった単語を抽出し、助詞や助動詞を取り除いた形態素を使った分析と同様な出力が得られる。
【0104】
次に、本発明の第3の実施例を、図4を参照して説明する。本発明の第3の実施例は、本発明の第3の実施の形態に対応するものである。
【0105】
図12は、概念モード指定の画面を示す説明図である。
【0106】
本発明の第3の実施例は、本発明の第2の実施例の概念指定装置51の代わりに概念モード指定装置52として図12のようなディスプレイに表示された概念モードを指定するマウス等を備えている。
【0107】
図5を参照すると、概念モード指定装置52には、たとえば、ディスプレイに表示された「ヘッドワードのみ」、「ヘッドワード+否定」、「ヘッドワード+否定+容易+困難」、「ヘッドワード+否定+完了+進行」、「ヘッドワード+否定+容易+困難+完了+進行」のような概念の組である概念モードをマウスで指定できるようになっている。
【0108】
ここで、マウスで「ヘッドワード+否定+容易+困難」と指定したとすると、この概念が概念記憶部33に記憶される。
【0109】
本発明の第2の実施例と同様な手順で、文節認定手段22がテキストデータベース01に特徴的なヘッドワードと文節の組を認定し、ディスプレイに出力する。この出力結果をユーザが確認し、「ヘッドワード+否定+容易+困難」だけでなく、「完了」や「進行」の概念について区別したいときは、概念モード指定装置52で「ヘッドワード+否定+容易+困難+完了+進行」の概念モードを指定して再分析をする。
【0110】
また、出力結果をユーザが確認し、「ヘッドワード+否定+容易+困難」の「容易」や「困難」の概念について区別する必要がないときは、概念モード指定装置52で「ヘッドワード+否定」の概念モードを指定して再分析をする。
【0111】
次に、本発明の第4の実施例を、図6を参照して説明する。本発明の第4の実施例は、本発明の第4の実施の形態に対応するものである。
【0112】
本発明の第4の実施例は、本発明の第3の実施例の概念モード指定装置52の代わりにデータ処理装置20に特徴概念抽出手段24を有する。
【0113】
特徴概念抽出手段24では、文節認定手段22で認定された大量の文節から統計的手法を用いて特徴的な概念を抽出する。
【0114】
たとえば、テキストデータベース01から認定された大量の文節から、特徴概念抽出手段24で統計的手法(たとえば、頻度)を用いて、「製品Aを使っている」という「進行」の概念と、「製品Aを使いたい」という「願望」の概念に特徴があると抽出したとする。このとき「進行+願望」概念を概念記憶部33に記憶する。
【0115】
他の例として、テキストデータベース01から「製品Aを使っている」という「進行」の概念と、「製品Aを使っていない」という「進行+否定」の概念と「製品Aを使いたい」という「願望」の概念と「製品Aを使いたくない」という「願望+否定」の概念に特徴があると抽出したとすると、「否定+進行+願望」概念を概念記憶部33に記憶する。
【0116】
次に、本発明の第5の実施例を、図8を参照して説明する。本発明の第5の実施例は、本発明の第5の実施の形態に対応するものである。
【0117】
本発明の第5の実施例は、本発明の第2の実施例のデータ処理装置20に、さらに、文節再生成手段26を有し、記憶装置30に文節再生成テーブル34が記憶されている。
【0118】
文節再生成手段26では、文節再生成テーブル34を検索して、概念認定手段25で認定されたヘッドワードと概念の組を文節に再生成する。
【0119】
ヘッドワードと概念の組として、たとえば「使う+<否定>」が文節再生成手段26に入ってきたとする。文節再生成手段26は、文節再生成テーブル34から<否定>を検索し、「<否定>を「ない」と変換して、前の語を未然形に変形する」と書いてあることを検出する。これにより、文節再生成手段26は、「使う+<否定>」を「使わない」と再生成する。
【0120】
他の例として、テキストデータベース01から「使いやすくありません」という文節が認定されたとする。概念記憶部33に「否定」概念だけ記憶されていたとすると、概念認定手段25では「使う+<否定>」と認定される。この結果を文節再生成手段26で再生成すると、「使わない」と文節が再生成される。
【0121】
また、概念記憶部33に「否定+容易」と記憶されていたとすると、概念認定手段25では「使う+<容易>+<否定>」と認定され、文節再生成手段26で、「使いやすくない」と文節が再生成される。このように文節再生成テーブル34には、概念の順番を日本語として自然なように入れ替える規則も記述されている。
【0122】
また、本発明の第5の実施例は、本発明の第2の実施例だけでなく、本発明の第3、第4の実施例に適用してもよい。
【0123】
また、文節再生成手段26は、概念認定手段25の後でなく、データ分析手段29の後でもよい。
【0124】
次に、本発明の第6の実施の形態について図面を参照して詳細に説明する。
【0125】
本発明の第6の実施の形態は、それぞれ、本発明の第1の実施の形態〜本発明の第5の実施の形態の各手段(図1、図3、図4、図6、図8)を手順として含む方法である。本発明の第6の実施の形態は、図2、図5、図7、図9の機能を実現する。
【0126】
次に、本発明の第7の実施の形態について図面を参照して詳細に説明する。
【0127】
本発明の第7の実施の形態は、それぞれ、本発明の第6の実施の形態の各手順をコンピュータ(たとえば、データ処理装置20)に実行させるプログラムである。
【0128】
【発明の効果】
本発明の第1の効果は、特徴分析をする単位を単語から文節にすることで、「美しい」と「美しくない」のような異なる概念をもつ文節を区別した特長の分析ができることである。
【0129】
第2の効果は、特徴分析する単位を文節から文節が持つヘッドワードと概念の組とすることで、「美しくない」、「美しくありません」と「美しくないだろう」のように文節の表記は異なるが、「美しい+<否定>」のようなヘッドワード+注目概念で同一視した特長の分析ができることである。
【0130】
第3の効果は、段階的な概念モードを用意しておき、ユーザは解析結果を確認しながら概念モードを段階的に設定することで、注目したい概念で特徴の分析ができることである。
【0131】
第4の効果は、大量の文節から特徴的な概念を統計的に抽出することで、ユーザが注目したい概念の特徴分析が自動的にできることである。
【0132】
第5の効果は、特徴分析した結果を出力する時に、ヘッドワードと概念の組ではなく、再生成した自然言語の文節の形式で出力することで、ユーザにとってわかりやすい出力ができることである。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態の構成を示すブロック図である。
【図2】本発明の第1の実施の形態の動作を示すフローチャートである。
【図3】本発明の第2の実施の形態の構成を示すブロック図である。
【図4】本発明の第3の実施の形態の構成を示すブロック図である。
【図5】本発明の第2、および第3の実施の形態の動作を示すフローチャートである。
【図6】本発明の第4の実施の形態の構成を示すブロック図である。
【図7】本発明の第4の実施の形態の動作を示すフローチャートである。
【図8】本発明の第5の実施の形態の構成を示すブロック図である。
【図9】本発明の第5の実施の形態の動作を示すフローチャートである。
【図10】文節認定規則テーブルの内容を示す説明図である。
【図11】概念指定装置の画面の例を示す説明図である。
【図12】概念モード指定の画面を示す説明図である。
【符号の説明】
01  テキストデータベース
20  データ処理装置
21  形態素解析手段
22  文節認定手段
24  特徴概念抽出手段
25  概念認定手段
26  文節再生成手段
29  データ分析手段
30  記憶装置
31  解析用辞書
32  文節認定規則テーブル
33  概念記憶部
34  文節再生成テーブル
40  出力装置
51  概念指定装置
52  概念モード指定装置

Claims (21)

  1. テキストを形態素に分割する形態素解析手段と、分割された形態素を文節にまとめる文節認定手段と、前記文節認定手段からの文節を単位としてテキストの統計分析を実施するデータ分析手段とを備えたことを特徴とするテキスト分析システム。
  2. テキストを形態素に分割する形態素解析手段と、分割された形態素を文節にまとめる文節認定手段と、操作者により指定された文節の付属語の概念を入力する概念認定指定装置と、前記文節認定手段からの文節の自立語であるヘッドワード、および、前記概念認定指定装置からの文節の付属語の概念を抽出する概念認定手段と、前記概念認定手段からの文節のヘッドワード、文節の付属語の概念の組を単位としてテキストの統計分析を実施するするデータ分析手段とを備えたことを特徴とするテキスト分析システム。
  3. テキストを形態素に分割する形態素解析手段と、分割された形態素を文節にまとめる文節認定手段と、操作者により指定された文節の付属語の概念の組み合わせを段階的に指定できる概念モード指定装置、前記文節認定手段からの文節の自立語であるヘッドワード、および、前記概念モード指定装置からの文節の付属語の概念の組み合わせを抽出する概念認定手段と、前記概念認定手段からの文節のヘッドワード、文節の付属語の概念の組み合わせを単位としてテキストの統計分析を実施するするデータ分析手段とを備えたことを特徴とするテキスト分析システム。
  4. テキストを形態素に分割する形態素解析手段と、分割された形態素を文節にまとめる文節認定手段と、文節から付属語の概念を抽出する特徴概念抽出手段と、前記文節認定手段からの文節の自立語であるヘッドワード、および、前記概念認定指定装置からの文節の付属語の概念を抽出する概念認定手段と、前記概念認定手段からの文節のヘッドワード、文節の付属語の概念の組を単位としてテキストの統計分析を実施するするデータ分析手段とを備えたことを特徴とするテキスト分析システム。
  5. テキストを形態素に分割する形態素解析手段と、分割された形態素を文節にまとめる文節認定手段と、操作者により指定された文節の付属語の概念を入力する概念認定指定装置と、前記文節認定手段からの文節の自立語であるヘッドワード、および、前記概念認定指定装置からの文節の付属語の概念を抽出する概念認定手段と、概念認定手段からのヘッドワードと概念とにより文節を再生成する文節再生成手段と、前記文節再生成手段からの文節を単位としてテキストの統計分析を実施するデータ分析手段とを備えたことを特徴とするテキスト分析システム。
  6. テキストを形態素に分割する形態素解析手段と、分割された形態素を文節にまとめる文節認定手段と、操作者により指定された文節の付属語の概念の組み合わせを段階的に指定できる概念モード指定装置、前記文節認定手段からの文節の自立語であるヘッドワード、および、前記概念モード指定装置からの文節の付属語の概念の組み合わせを抽出する概念認定手段と、前記概念認定手段からの文節のヘッドワード、文節の付属語の概念の組み合わせにより文節を再生成する文節再生成手段と、前記文節再生成手段からの文節を単位としてテキストの統計分析を実施するデータ分析手段とを備えたことを特徴とするテキスト分析システム。
  7. テキストを形態素に分割する形態素解析手段と、分割された形態素を文節にまとめる文節認定手段と、文節から付属語の概念を抽出する特徴概念抽出手段と、前記文節認定手段からの文節の自立語であるヘッドワード、および、前記概念認定指定装置からの文節の付属語の概念を抽出する概念認定手段と、前記概念認定手段からの文節のヘッドワード、文節の付属語の概念の組み合わせにより文節を再生成する文節再生成手段と、前記文節再生成手段からの文節を単位としてテキストの統計分析を実施するデータ分析手段とを備えたことを特徴とするテキスト分析システム。
  8. テキストを形態素に分割する形態素解析手順と、分割された形態素を文節にまとめる文節認定手順と、前記文節認定手順からの文節を単位としてテキストの統計分析を実施するデータ分析手順とを含むことを特徴とするテキスト分析方法。
  9. テキストを形態素に分割する形態素解析手順と、分割された形態素を文節にまとめる文節認定手順と、操作者により指定された文節の付属語の概念を入力する概念認定指定装置と、前記文節認定手順からの文節の自立語であるヘッドワード、および、前記概念認定指定装置からの文節の付属語の概念を抽出する概念認定手順と、前記概念認定手順からの文節のヘッドワード、文節の付属語の概念の組を単位としてテキストの統計分析を実施するするデータ分析手順とを含むことを特徴とするテキスト分析方法。
  10. テキストを形態素に分割する形態素解析手順と、分割された形態素を文節にまとめる文節認定手順と、操作者により指定された文節の付属語の概念の組み合わせを段階的に指定できる概念モード指定装置、前記文節認定手順からの文節の自立語であるヘッドワード、および、前記概念モード指定装置からの文節の付属語の概念の組み合わせを抽出する概念認定手順と、前記概念認定手順からの文節のヘッドワード、文節の付属語の概念の組み合わせを単位としてテキストの統計分析を実施するするデータ分析手順とを含むことを特徴とするテキスト分析方法。
  11. テキストを形態素に分割する形態素解析手順と、分割された形態素を文節にまとめる文節認定手順と、文節から付属語の概念を抽出する特徴概念抽出手順と、前記文節認定手順からの文節の自立語であるヘッドワード、および、前記概念認定指定装置からの文節の付属語の概念を抽出する概念認定手順と、前記概念認定手順からの文節のヘッドワード、文節の付属語の概念の組を単位としてテキストの統計分析を実施するするデータ分析手順とを含むことを特徴とするテキスト分析方法。
  12. テキストを形態素に分割する形態素解析手順と、分割された形態素を文節にまとめる文節認定手順と、操作者により指定された文節の付属語の概念を入力する概念認定指定装置と、前記文節認定手順からの文節の自立語であるヘッドワード、および、前記概念認定指定装置からの文節の付属語の概念を抽出する概念認定手順と、概念認定手順からのヘッドワードと概念とにより文節を再生成する文節再生成手順と、前記文節再生成手順からの文節を単位としてテキストの統計分析を実施するデータ分析手順とを含むことを特徴とするテキスト分析方法。
  13. テキストを形態素に分割する形態素解析手順と、分割された形態素を文節にまとめる文節認定手順と、操作者により指定された文節の付属語の概念の組み合わせを段階的に指定できる概念モード指定装置、前記文節認定手順からの文節の自立語であるヘッドワード、および、前記概念モード指定装置からの文節の付属語の概念の組み合わせを抽出する概念認定手順と、前記概念認定手順からの文節のヘッドワード、文節の付属語の概念の組み合わせにより文節を再生成する文節再生成手順と、前記文節再生成手順からの文節を単位としてテキストの統計分析を実施するデータ分析手順とを含むことを特徴とするテキスト分析方法。
  14. テキストを形態素に分割する形態素解析手順と、分割された形態素を文節にまとめる文節認定手順と、文節から付属語の概念を抽出する特徴概念抽出手順と、前記文節認定手順からの文節の自立語であるヘッドワード、および、前記概念認定指定装置からの文節の付属語の概念を抽出する概念認定手順と、前記概念認定手順からの文節のヘッドワード、文節の付属語の概念の組み合わせにより文節を再生成する文節再生成手順と、前記文節再生成手順からの文節を単位としてテキストの統計分析を実施するデータ分析手順とを含むことを特徴とするテキスト分析方法。
  15. テキストを形態素に分割する形態素解析手順と、分割された形態素を文節にまとめる文節認定手順と、前記文節認定手順からの文節を単位としてテキストの統計分析を実施するデータ分析手順とをコンピュータに実行させることを特徴とするテキスト分析プログラム。
  16. テキストを形態素に分割する形態素解析手順と、分割された形態素を文節にまとめる文節認定手順と、操作者により指定された文節の付属語の概念を入力する概念認定指定装置と、前記文節認定手順からの文節の自立語であるヘッドワード、および、前記概念認定指定装置からの文節の付属語の概念を抽出する概念認定手順と、前記概念認定手順からの文節のヘッドワード、文節の付属語の概念の組を単位としてテキストの統計分析を実施するするデータ分析手順とをコンピュータに実行させることを特徴とするテキスト分析プログラム。
  17. テキストを形態素に分割する形態素解析手順と、分割された形態素を文節にまとめる文節認定手順と、操作者により指定された文節の付属語の概念の組み合わせを段階的に指定できる概念モード指定装置、前記文節認定手順からの文節の自立語であるヘッドワード、および、前記概念モード指定装置からの文節の付属語の概念の組み合わせを抽出する概念認定手順と、前記概念認定手順からの文節のヘッドワード、文節の付属語の概念の組み合わせを単位としてテキストの統計分析を実施するするデータ分析手順とをコンピュータに実行させることを特徴とするテキスト分析プログラム。
  18. テキストを形態素に分割する形態素解析手順と、分割された形態素を文節にまとめる文節認定手順と、文節から付属語の概念を抽出する特徴概念抽出手順と、前記文節認定手順からの文節の自立語であるヘッドワード、および、前記概念認定指定装置からの文節の付属語の概念を抽出する概念認定手順と、前記概念認定手順からの文節のヘッドワード、文節の付属語の概念の組を単位としてテキストの統計分析を実施するするデータ分析手順とをコンピュータに実行させることを特徴とするテキスト分析プログラム。
  19. テキストを形態素に分割する形態素解析手順と、分割された形態素を文節にまとめる文節認定手順と、操作者により指定された文節の付属語の概念を入力する概念認定指定装置と、前記文節認定手順からの文節の自立語であるヘッドワード、および、前記概念認定指定装置からの文節の付属語の概念を抽出する概念認定手順と、概念認定手順からのヘッドワードと概念とにより文節を再生成する文節再生成手順と、前記文節再生成手順からの文節を単位としてテキストの統計分析を実施するデータ分析手順とをコンピュータに実行させることを特徴とするテキスト分析プログラム。
  20. テキストを形態素に分割する形態素解析手順と、分割された形態素を文節にまとめる文節認定手順と、操作者により指定された文節の付属語の概念の組み合わせを段階的に指定できる概念モード指定装置、前記文節認定手順からの文節の自立語であるヘッドワード、および、前記概念モード指定装置からの文節の付属語の概念の組み合わせを抽出する概念認定手順と、前記概念認定手順からの文節のヘッドワード、文節の付属語の概念の組み合わせにより文節を再生成する文節再生成手順と、前記文節再生成手順からの文節を単位としてテキストの統計分析を実施するデータ分析手順とをコンピュータに実行させることを特徴とするテキスト分析プログラム。
  21. テキストを形態素に分割する形態素解析手順と、分割された形態素を文節にまとめる文節認定手順と、文節から付属語の概念を抽出する特徴概念抽出手順と、前記文節認定手順からの文節の自立語であるヘッドワード、および、前記概念認定指定装置からの文節の付属語の概念を抽出する概念認定手順と、前記概念認定手順からの文節のヘッドワード、文節の付属語の概念の組み合わせにより文節を再生成する文節再生成手順と、前記文節再生成手順からの文節を単位としてテキストの統計分析を実施するデータ分析手順とをコンピュータに実行させることを特徴とするテキスト分析プログラム。
JP2002184688A 2002-06-25 2002-06-25 テキスト分析システム、テキスト分析方法、および、テキスト分析プログラム Expired - Fee Related JP4322475B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002184688A JP4322475B2 (ja) 2002-06-25 2002-06-25 テキスト分析システム、テキスト分析方法、および、テキスト分析プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002184688A JP4322475B2 (ja) 2002-06-25 2002-06-25 テキスト分析システム、テキスト分析方法、および、テキスト分析プログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2009100428A Division JP2009176319A (ja) 2009-04-17 2009-04-17 テキスト分析システム、テキスト分析方法、および、テキスト分析プログラム

Publications (2)

Publication Number Publication Date
JP2004030177A true JP2004030177A (ja) 2004-01-29
JP4322475B2 JP4322475B2 (ja) 2009-09-02

Family

ID=31180544

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002184688A Expired - Fee Related JP4322475B2 (ja) 2002-06-25 2002-06-25 テキスト分析システム、テキスト分析方法、および、テキスト分析プログラム

Country Status (1)

Country Link
JP (1) JP4322475B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013171328A (ja) * 2012-02-17 2013-09-02 Nippon Telegr & Teleph Corp <Ntt> 偏り述部抽出装置、方法、及びプログラム
JP2018206135A (ja) * 2017-06-06 2018-12-27 富士通株式会社 情報生成プログラム、情報処理装置、及び情報生成方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013171328A (ja) * 2012-02-17 2013-09-02 Nippon Telegr & Teleph Corp <Ntt> 偏り述部抽出装置、方法、及びプログラム
JP2018206135A (ja) * 2017-06-06 2018-12-27 富士通株式会社 情報生成プログラム、情報処理装置、及び情報生成方法

Also Published As

Publication number Publication date
JP4322475B2 (ja) 2009-09-02

Similar Documents

Publication Publication Date Title
JP2011216071A (ja) 情報処理装置、情報処理方法及びプログラム
JP3173411B2 (ja) 関連文書検索装置及び関連文書検索プログラムを記録した記録媒体
JP2021022211A (ja) 問合せ対応支援装置、問合せ対応支援方法、プログラム及び記録媒体
KR100501413B1 (ko) 유엠엘에스를 기반으로 생물학 문헌으로부터 생물학적개체명을 인식하는 장치 및 그 방법
JP2018200650A (ja) 言語情報分析装置および方法
WO2021120979A1 (zh) 生成专利概述信息的方法、装置、电子设备和介质
JP2003263441A (ja) キーワード決定データベース作成方法、キーワード決定方法、装置、プログラム、および記録媒体
JP2004030177A (ja) テキスト分析システム、テキスト分析方法、および、テキスト分析プログラム
Tzoukermann et al. GIST-IT: Summarizing email using linguistic knowledge and machine learning
JP3471253B2 (ja) 文書分類方法、文書分類装置、および文書分類プログラムを記録した記録媒体
JP2011090447A (ja) 文書判定条件生成装置および文書判定条件生成方法
JP6451414B2 (ja) 情報処理装置、要約文編集方法、及びプログラム
JP2009176319A (ja) テキスト分析システム、テキスト分析方法、および、テキスト分析プログラム
JP4085568B2 (ja) テキストマイニング方法およびテキストマイニング装置並びにコンピュータ読み取り可能な記憶媒体
CN115577090B (zh) 基于成语理解的语音对话方法、装置、设备及存储介质
JP6996190B2 (ja) 複合語生成装置、プログラム及び複合語生成方法
JP2001142897A (ja) 文書検索装置、文書検索方法、文書検索システム及び文書検索方法を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
Yang et al. A study on music mood detection in online digital music database
JP2008204010A (ja) 質問内容抽出装置と質問内容抽出方法
JP2002366556A (ja) 情報検索方法
JP2004287696A (ja) 検索システム及び検索プログラム
Panagis A AUTOMATED TEXT ANALYSIS
JPH04133173A (ja) 情報検索装置
JP2939348B2 (ja) 画像処理装置
KR20220160358A (ko) 상담문에 대한 요약문을 생성하는 서버, 방법 및 컴퓨터 프로그램

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20050307

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051227

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060220

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060307

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060329

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20060403

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060704

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060830

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20060922

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20070117

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20080604

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090417

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20090508

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090603

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4322475

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120612

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120612

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130612

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees