JP4341077B2 - 文書処理装置、文書処理方法、および、文書処理プログラム - Google Patents

文書処理装置、文書処理方法、および、文書処理プログラム Download PDF

Info

Publication number
JP4341077B2
JP4341077B2 JP2007259326A JP2007259326A JP4341077B2 JP 4341077 B2 JP4341077 B2 JP 4341077B2 JP 2007259326 A JP2007259326 A JP 2007259326A JP 2007259326 A JP2007259326 A JP 2007259326A JP 4341077 B2 JP4341077 B2 JP 4341077B2
Authority
JP
Japan
Prior art keywords
expression
natural language
document processing
typical
morpheme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007259326A
Other languages
English (en)
Other versions
JP2008059600A (ja
Inventor
享 赤峯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2007259326A priority Critical patent/JP4341077B2/ja
Publication of JP2008059600A publication Critical patent/JP2008059600A/ja
Application granted granted Critical
Publication of JP4341077B2 publication Critical patent/JP4341077B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、文書処理装置、文書処理方法、および、文書処理プログラムに関し、特に、係り受け解析などを用いて、コンピュータに蓄積されている電子化テキストを構造化することで、頻出パターンの構造を抽出する文書処理装置、文書処理方法、および、文書処理プログラムに関する。
従来、この種の文書処理装置では、木構造の部分構造の出現頻度を元に頻出パターンを
求め、高頻度で出現する部分構造をテキストマイニング結果として出力していた。従来の
文書処理装置の一例が、特許文献1に記載されている。
この特許文献1に記載された文書処理装置は、文書集合から頻出するパターンを知識と
して抽出する装置である。図11に示すように、この従来の文書処理装置は、言語特徴分
析装置、言語解析装置、パターン抽出装置、頻出パターン表示装置から構成されている。
このような構成を有する従来の文書処理装置はつぎのように動作する。まず言語分析装
置によって基本辞書と文書データから分野依存辞書を作成し、言語解析装置によって基本
辞書と分野依存辞書と文書データから構文木などの構造を作成し、パターン抽出装置がこ
の構造を用いて頻出パターンを抽出してこの頻出パターンに合致する表現書データ中の表
現書を頻出パターン適合表現書記憶部に記憶させ、頻出パターン表示装置が頻出パターン
を出力する。これにより、「出る」−「絵」、「要求する」−「フロッピー(登録商標)
ディスク」などの頻出するパターンを抽出し、頻出パターンにマッチする文書を検索する
ことができる。
このように、言語解析を行い木構造上で頻出パターンを抽出することで、文書集合から
高精度に知識を抽出する文書処理装置は存在する。
また、文書処理の要素技術である係り受け解析の既存技術としては、非特許文献1記載
の技術がある。
特開2001−84250号公報 工藤拓,松本裕治,「チャンキングの段階適用による係り受け解析」,情報処理学会論文誌,2002年6月,第43巻,第6号,p.1834-1842
上述した特許文献1の第1の課題は、抽出した頻出パターンの意味を人間が容易に理解
することが困難ということである。
その理由は、マイニング結果として出力されるのは、例えば「出る」−「絵」のような
単語間の構造、もしくは、その構造が含まれる文全体であり、頻出パターンの部分構造の
みを人間が理解容易な自然言語表現として生成することが考慮されていないためである。
第2の課題は、抽出した複数の頻出パターンを比較することが困難ということである。
その理由は、抽出した複数の頻出パターンを、統一のとれた表現として出力することが
考慮さていないためである。そのため、例えば、「高速な機種A」のように名詞句の表現
と、「機種Bは遅い」のような文の表現が混在して出力される可能性がある。
第3の課題は、ユーザが抽出パターンの表現形態を指定できないことである。
その理由は、抽出対象のパターンの表現形態を選択することができないためである。そ
のため、ユーザの「文を優先して出力する」、「20文字以下の表現を優先して出力する
」という要求にマッチしたパターンの表現形態の文を生成することができない。
本発明の目的は、上記いずれかの課題を解決する文書処理装置、文書処理方法、および
、文書処理プログラムを提供することである。
本発明の第1の文書処理装置は、テキストデータベースに格納されたテキスト中の文を
解析して解析結果の木構造を作成する言語解析手段と、前記言語解析手段により作成され
た木構造の集合から頻出して現れる部分構造を抽出する頻出パターン抽出手段と、前記頻
出パターン抽出手段により抽出された部分構造に対応する形態素列をスコア付けし、最も
スコアの高い自然言語表現、もしくは、スコア順にランキングされた複数の自然言語表現
を生成する典型表現生成手段と、を備えることを特徴とする。
本発明の第2の文書処理装置は、テキストデータベースに格納されたテキスト中の文を
解析して解析結果の木構造を作成する言語解析手段と、前記言語解析手段により作成され
た木構造の集合から頻出して出現する部分構造を抽出する頻出パターン抽出手段と、前記
頻出パターン抽出手段により抽出された部分構造に対応する形態素列をスコア付けし、最
もスコアの高い自然言語表現、もしくは、スコア順にランキングされた自然言語表現を生
成する典型表現生成手段と、前記典型表現生成手段により生成された自然言語表現を他の
頻出する部分構造の自然言語表現と同様の表現形態に統一する表現統一手段と、を備える
ことを特徴とする。
本発明の第3の文書処理装置は、テキストデータベースに格納されたテキスト中の文を
解析して解析結果の木構造を作成する言語解析手段と、前記言語解析手段により作成され
た木構造の集合から頻出して出現する部分集合を抽出する頻出パターン抽出手段と、前記
頻出パターン抽出手段により抽出された部分構造に対応する形態素列をスコア付けし、最
もスコアの高い自然言語表現、もしくは、スコア順にランキングされた自然言語表現を生
成する典型表現生成手段と、前記典型表現生成手段により生成された自然言語表現を外部
から指定された表現で統一する表現統一手段と、を備えることを特徴とする。
本発明の第4の文書処理装置は、前記第1、第2、または、第3の文書処理装置であっ
て、文の生起確率P(w_1)*ΠP(w_i+1|w_i)を用いてスコア付けを行う
前記典型表現生成手段を備えることを特徴とする。
本発明の第1の文書処理方法は、テキスト中の文に対して、言語解析を行うことで木構
造を作成し、木構造の集合を解析し頻出して現れる木構造の部分構造を作成し、頻出パタ
ーンである文の部分構造に対応する表現をスコア付けし、部分構造が表す最も典型的な自
然言語表現、もしくは、スコア順にランキングされた複数の自然言語表現を生成すること
を特徴とする。
本発明の第2の文書処理方法は、テキスト中の文に対して、言語解析を行うことで木構
造を作成し、木構造の集合を解析し頻出して現れる木構造の部分構造を作成し、頻出パタ
ーンである文の部分構造に対応する表現をスコア付けし、スコア順にランキングされた複
数の自然言語表現を生成し、複数の自然言語表現の中から、名詞句、または文を含む特定
の表現形態のものを選択して出力することを特徴とする。
本発明の第3の文書処理方法は、前記第1、または第2の文書処理方法であって、文の
生起確率P(w_1)*ΠP(w_i+1|w_i)を用いてスコア付けを行うことを特
徴とする。
本発明の第1の文書処理プログラムは、文書処理の対象となる文の集合を記憶する記憶
部内の前記文を言語解析して、文の木構造を作成する処理と、木構造の集合を解析し頻出
して現れる木構造の部分構造を作成する処理と、頻出パターンである文の部分構造に対応
する表現をスコア付けし、部分構造が表す最も典型的な自然言語表現、もしくは、スコア
順にランキングされた複数の自然言語表現を生成する処理と、をコンピュータに実行させ
ることを特徴とする。
本発明の第2の文書処理プログラムは、文書処理の対象となる文の集合を記憶する記憶
部の前記文を言語解析して、文の木構造を作成する処理と、木構造の集合を解析し頻出し
て現れる木構造の部分構造を作成する処理と、頻出パターンである文の部分構造に対応す
る表現をスコア付けし、部スコア順にランキングされた複数の自然言語表現を生成する処
理と、複数の自然言語表現の中から、名詞句、または文を含む特定の表現形態のものを選
択して出力する処理と、をコンピュータに実行させることを特徴とする。
本発明の第3の文書処理プログラムは、前記第1、または、第2の文書処理プログラム
であって、文の生起確率P(w_1)*ΠP(w_i+1|w_i)を用いてスコア付け
を行う処理をコンピュータに実行させることを特徴とする。
本発明の効果は、類似した意味を持つ頻出パターンの構造から、対応する典型的な自然
言語表現を生成できることである。
その理由は、頻出パターンの構造に対する複数の自然言語表現をスコア付けして最も典
型的な表現を生成するからである。
次に、本発明を実施するための第1の最良の形態について図面を参照して詳細に説明す
る。
図1は、本発明を実施するための第1の最良の形態の構成を示すブロック図である。
図1を参照すると、本発明を実施するための第1の最良の形態は、情報を記憶する記憶
装置100(メモリ、ハードディスク等)と、プログラム制御により動作するデータ処理
装置200(コンピュータ等)と、ディスプレイ装置等の出力装置300とを含む。
記憶装置100は、データベースであるテキストDB11を含む。
テキストDB11は、マイニング対象となるテキストの集合を記憶している。
データ処理装置200は、言語解析手段21と頻出パターン抽出手段22と典型表現生
成手段23とを備える。データ処理装置200は、プロセッサ(図示せず)と内部記憶装
置(メモリ等、図示せず)とを含む構成が可能である。言語解析手段21、頻出パターン
抽出手段22、および、典型表現生成手段23は、アプリケーションプログラムとして実
現可能である。このアプリケーションプログラムは、内部記憶装置に格納され実行される
これらの手段はそれぞれ概略つぎのように動作する。
言語解析手段21は、テキストDB11から文の集合を読み取り、各文に対して、形態
素解析や係り受け解析を行い、木構造を作成し内部記憶装置に格納する。
頻出パターン抽出手段22は、言語解析手段21で作成された木構造を内部記憶装置か
ら読み出し、木構造から頻出して現れる部分構造を抽出し内部記憶装置に格納する。
典型表現生成手段23は、頻出パターン抽出手段22で作成された部分構造を内部記憶
装置から読み出し、部分構造に対応する形態素列をスコア付けし、最もスコアの高い自然
言語表現、もしくは、スコア順にランキングされた複数の自然言語表現を生成し、出力装
置300に出力する。ここで、自然言語表現とは、文全体、もしくは、文の部分である。
以降、内部記憶装置への格納、内部記憶装置からの読み出しについては、当然のことと
して記述を省略する。
次に、本発明を実施するための第1の最良の形態の動作について図面を参照して詳細に
説明する。
図2は、本発明を実施するための第1の最良の形態の動作を示すフローチャートである
図2を参照すると、まず、言語解析手段21が、テキストDB11からテキスト集合(
テキストの集合)を読み込む。言語解析手段21は、テキスト集合の各文に対して、形態
素解析や係り受け解析を行い、解析結果として木構造を作成する(図2のステップS11
)。次に、頻出パターン抽出手段22は、木構造を解析し頻出して現れる木構造の部分構
造を作成する(図2のステップS12)。次に、典型表現生成手段23は、頻出パターン
である文の部分構造に対応する形態素列をスコア付けし、部分構造が表す最も典型的な自
然言語表現、もしくは、スコア順にランキングされた複数の自然言語表現を生成する(図
2のステップS13)。なお、形態素列のスコアとしては、文の生起確率など(生起確率
以外でもかまわない)を用いることができる。
本発明を実施するための第1の最良の効果は、類似した意味を持つ頻出パターンの構造
から、対応する典型的な自然言語表現を生成できることである。
その理由は、頻出パターンの構造に対する複数の自然言語表現をスコア付けして最も典
型的な表現を生成するためである。
次に、本発明を実施するための第2の最良の形態について図面を参照して詳細に説明す
る。
図3は、本発明を実施するための第2の最良の形態の構成を示すブロック図である。
図3を参照すると、第2の最良の形態においては、データ処理装置400が、図1に示
された第1の最良の形態におけるデータ処理装置200に置き換わる。データ処理装置4
00は、データ処理装置200に表現統一手段24が追加されている。言語解析手段21
、頻出パターン抽出手段22、および、典型表現生成手段23は、第1の最良の形態のも
のと同一である。
第2の最良の形態において、表現統一手段24は概略つぎのように動作する。
表現統一手段24は、典型表現生成手段23の出力のランキングされた複数の自然言語
表現の中から、名詞句や文といった特定の表現形態のものを選択して出力する。
次に、本発明を実施するための第2の最良の形態の動作について図面を参照して詳細に
説明する。
図4は、本発明を実施するための第2の最良の形態の動作を示すフローチャートである
図4を参照すると、まず、言語解析手段21が、テキストDB11からテキスト集合を
読み込む。言語解析手段21は、テキスト集合の各文に対して、形態素解析や係り受け解
析を行い、解析結果として木構造を作成する(図4のステップS21)。
次に、頻出パターン抽出手段22は、木構造を解析し頻出して現れる木構造の部分構造
を作成する(図4のステップS22)。次に、典型表現生成手段23は、頻出パターンで
ある文の部分構造に対応する形態素列をスコア付けし、スコア順にランキングされた複数
の自然言語表現を生成する(図4のステップS23)。次に、表現統一手段24は、典型
表現生成手段23の出力のランキングされた複数の自然言語表現の中から、名詞句や文と
いった特定の表現形態のものを選択して出力する(図4のステップS24)。
本発明を実施するための第2の最良の形態の効果は、他の表現と比較容易な自然言語表
現を生成できることである。
その理由は、生成する自然言語表現を他の頻出パターンに対する自然言語表現と比較す
ることで、同様の表現形態に統一した表現を選択するためである。
次に、本発明を実施するための第1の最良の形態の実施例について図面を参照して詳細
に説明する。
図5は、テキストDB11のテキスト情報の一例を示す説明図である。
図5を参照すると、テキストDB11は、文IDと文とのペアの集合であり、例えば、
文IDが1の文が「機種Aは画面が大きい。」という文であり、文IDが2の文が「大き
な画面の機種A」という文であることを示す。
言語解析手段21は、まず、全ての文に対して形態素解析を行い、文を形態素に分割し
て、品詞などの補助情報を作成する。形態素解析結果には、各形態素に、形態素ID、表
層、原形、品詞の情報が付加される。ここで、表層は文中に出現した文字列そのものであ
り、原形は動詞の活用などの語形変化を元の形で表現したものである。
図6は、形態素解析結果の一例を示す説明図である。
図6(A)を参照すると、文IDが1の文の形態素解析結果であり、例えば、形態素I
Dが1−1の形態素の、表層が「機種A」、原形が「機種A」、品詞が「名詞」であるこ
とを示している。
次に、言語解析手段21は、形態素解析結果を係り受け解析し、木構造を作成する。
図7は、係り受け解析結果の一例を示す説明図である。
図7を参照すると、係り受け解析結果は、文中の自立語を構造の節点で表し、係り受け
関係を係り元の節点から係り先の節点への有向枝で表し、助詞などの付属語を有向枝の節
点の属性値で表している。なお、図7では便宜的に、各節点に付与される自立語と付属語
の形態素情報として、形態素IDと原形のみを示しているが、実際には、表層や品詞とい
った他の形態素情報も同様に付与されている。
ここで行われる形態素解析と係り受け解析は、機械翻訳で行われるような既存の技術で
実現することができる。例えば、非特許文献1がある。
頻出パターン抽出手段22は、意味的に類似したパターンを同一のものとして木構造の
頻出パターンを抽出する。
例えば、係り受け解析結果の木構造に対して以下の(1)−(3)の処理を行い、処理
後の木構造に対して頻出パターンを求めることで、意味的に類似したパターンを同一のも
のとした木構造の頻出パターンを抽出することができる。
(1)係り受けの向きや係り受けの順序を無視した無向無順序木を作成する。
(2)同義の表現を同じ意味の代表表現に統一する。
(3)付属語情報を削除する。
図8は、係り受けの向きや付属語情報を削除することで、図7の木構造より抽出した頻
出パターンの構造を示す説明図である。
図8を参照すると、文ID1、文ID2、文ID3、文ID4の4文に共通して出現し
ているパターン(大きい、画面、機種A)の構造が示される。
典型表現生成手段23は、頻出パターン抽出手段22が作成した頻出パターンの部分構
造、及び、言語解析手段21が作成した形態素解析結果から自然言語表現を生成する。
典型表現生成手段23の動作を、図8に示す構造を例にとって説明する。この例では、
図8の構造に対応する最も生起確率の高い自然言語表現を生成する。
典型表現生成手段23は、まず、図8の構造に対応する部分の形態素列の形態素情報を
取得する。
図9は、図8の構造に対応する形態素情報を示す説明図である。
図9では、形態素情報の代表として、形態素IDと表層のみを示しているが、図6に含
まれる原形、品詞といった他の形態素情報も取得している。
次に、各文の生起確率を(式1)で求める。
P(w_1)*ΠP(w_i+1|w_i)・・・(式1)。
ここで、Πは、i=1からi=nまでの総積を示す。
また、w_iはi番目の形態素を、w_i+1はi+1番目の形態素を、nは形態素の
数を表す。また、P(w_i)はi番目の形態素の出現確率であり、P(w_i+1|w
_i)はi番目の形態素が出現した場合に、i+1番目の形態素が出現する条件付確率で
ある。
例えば、図9の表層を全体集合として形態素の出現確率と条件付確率を求め、(式1)
で文ID1の生起確率を計算すると、以下になる。
P(w_1)は、形態素「機種A」(1−1)が全形態素(1−1〜4−7)中に出現
する確率である。P(w_2|w_1)は、形態素「は」(1−2)が、「機種A」の表
れる文(文ID1〜4)中に表れる確率である。P(w_3|w_2)は、形態素「画面」
(1−3)が、「は」の表れる文(文ID1、文ID4)中に表れる確率である。P(w
_4|w_3)は、形態素「が」(1−4)が、「画面」の表れる文(文ID1〜4)中
に表れる確率である。P(w_5|w_4)は、形態素「大きい」(1−5)が、「が」
の表れる文(文ID1、文ID3、文ID4)中に表れる確率である。
文ID1の生起確率は、P(w_1)*P(w_2|w_1)*P(w_3|w_2)*
P(w_4|w_3)*P(w_5|w_4)=P(機種A)*P(は|機種A)*P(
画面|は)*P(が|画面)*P(大きい|が)=(4/19)*(2/4)*(2/2
)*(3/4)*(3/3)=0.0789となる。
ここでは、部分構造と対応する表層をテキストの全体集合として生起確率を求めたが、
テキストDB11中の全ての文をテキストの全体集合にして生起確率を求めることもでき
る。また、新聞記事のような大量のテキストを全体集合にして生起確率を求めることもで
きる。さらに、生起確率を求めるテキストの全体集合を電子メールにすることで、電子メ
ールで用いられる会話的な表現を優先することもできる。
典型表現生成手段23は、文ID1、文ID2、文ID3、文ID4の生起確率を計算
し、その中で最も生起確率の高い文ID1、および、文ID4の自然言語表現である「機
種Aは画面が大きい」を典型表現として、出力する。
もしくは、典型表現生成手段23は、文ID1、文ID2、文ID3、文ID4の表現
を生起確率の順に並び換え、「機種Aは画面が大きい」、「機種Aの画面が大きい」、「
大きな画面の機種A」の順にランキングして出力する。
ここでは、典型表現を求める基準として、表現の生起確率でランク付けを行ったが、表
現の長さでランク付けを行うこともできる。この場合、最も表現が短いものを優先してラ
ンク付けすることで、文ID2の「大きな画面の機種A」を典型表現として出力する。
次に、本発明を実施するための第2の最良の形態の実施例について図面を参照して詳細
に説明する。
言語解析手段21、頻出パターン抽出手段22、典型表現生成手段23は、前記第1の
最良の形態の実施例と同様に動作する。
図10は、典型表現生成手段23が、複数の頻出パターンの部分構造から、それぞれの
部分構造に対応する自然言語表現をランキングして出力した結果を示す説明図である。
図10を参照すると、出現頻度が10の部分構造から、スコアの高い順に、「高速な機
種A」、「機種Aは速い」、「速い機種A」が順に出力されている。また、図10では、
出現頻度が4の部分構造から、スコアの高い順に、「機種Aは画面が大きい」、「機種A
の画面が大きい」、「大きな画面の機種A」が順に出力されている。
表現統一手段24は、まず、出現頻度が10で最もスコアが高い「高速な機種A」を出
力する。出力された「高速な機種A」は、「機種A」という名詞で表現が終了する名詞句
であるため、表現形態を統一するために、他の表現も名詞句にして出力する。つまり、次
に、出現頻度が4の表現を選択する際に、スコアが最も高い「機種Aは画面が大きい」で
なくて、表現形態が同様の名詞句である「大きな画面の機種A」を選択して、出力する。
以上により、表現統一手段24の出力は、「高速な機種A」、「画面が大きい機種A」と
いう同じ表現形態の名詞句で出力できる。
ここでは、最も出現頻度が高く、スコアが高い表現に合わせて表現を統一したが、予め
表現形態を名詞句や文に指定して、それに従って出力することも可能である。例えば、表
現形態として文が指定されていれば、動詞や形容詞などの用言で終了する表現が選択され
、表現統一手段24の出力は、「機種Aは速い」、「機種Aの画面が大きい」などの文に
なる。
したがって、本発明は、ユーザが指定した表現形態の表現を生成できる効果もある。
その理由は、生成した複数の自然言語表現をユーザが指定した自然言語表現と比較する
ことで、ユーザが指定した表現形態の表現を生成結果として選択できるからである。
本発明は、コンピュータ上に蓄積される顧客からのメール、アンケート結果、掲示板の
情報などの電子化テキストを元に、特徴分析、キー表現の抽出、要約を行う文書処理装置
や、文書処理装置をコンピュータに実現するためのプログラムといった用途に適用できる
本発明を実施するための第1の最良の形態の構成を示すブロック図。 本発明を実施するための第1の最良の形態の動作を示すフローチャート。 本発明を実施するための第2の最良の形態の構成を示すブロック図。 本発明を実施するための第2の最良の形態の動作を示すフローチャート。 テキストDBの例を示す説明図。 言語解析手段の形態素解析結果を示す説明図。 言語解析手段の係り受け解析結果を示す説明図。 頻出パターン抽出手段が抽出する部分構造を示す説明図。 典型表現生成手段の生成対象の形態素列を示す説明図。 表現統一手段の統一対象の自然言語表現を示す説明図。 従来の技術の構成を示すブロック図。
符号の説明
100 記憶装置
200 データ処理装置
300 出力装置
400 データ処理装置
11 テキストDB
21 言語解析手段
22 頻出パターン抽出手段
23 典型表現生成手段
24 表現統一手段

Claims (12)

  1. テキストデータベースに格納されたテキスト中の各文を解析して解析結果の木構造を作成する言語解析手段と、
    前記言語解析手段により作成された木構造の集合から頻出して出現する部分構造を抽出する頻出パターン抽出手段と、
    前記頻出パターン抽出手段により抽出された部分構造に対応する形態素列を、当該形態素列がどの程度に典型表現らしいかを表すスコアによってスコア付けし、最もスコアの高い自然言語表現、もしくは、スコア順にランキングされた複数の自然言語表現を自然言語の文の形で生成する典型表現生成手段と、
    前記典型表現生成手段により生成された自然言語表現を特定の表現形態に統一する表現統一手段と、を備え、
    前記典型表現らしいかを表すスコアは、前記形態素列の生起確率に応じて決定されることを特徴とする文書処理装置。
  2. 前記表現統一手段は、前記典型表現生成手段により生成された自然言語表現を他の頻出する部分構造の自然言語表現と同様の表現形態に統一することを特徴とする請求項1に記載の文書処理装置。
  3. 前記表現統一手段は、前記典型表現生成手段により生成された自然言語表現を外部から指定された表現で統一することを特徴とする請求項1に記載の文書処理装置。
  4. 前記典型表現生成手段は、前記頻出パターン抽出手段により抽出された部分構造に対応する形態素列をw_1、w_2…w_nとし、またw_iの生起確率をP(w_i)、w_iに続いてw_i+1が生起する条件付確率をP(w_i+1|w_i)とした場合、形態素列の生起確率P(w_1)*Π{i=1〜n}P(w_i+1|w_i)を用いてスコア付けを行うことを特徴とする請求項1に記載の文書処理装置。
  5. テキストに対応する自然言語表現を生成する文書処理方法であって、
    言語解析手段が、テキストデータベースに格納されたテキスト中の各文を解析して解析結果の木構造を作成する言語解析ステップと、
    頻出パターン抽出手段が、前記言語解析ステップにおいて作成された木構造の集合から頻出して現れる部分構造を抽出する頻出パターン抽出ステップと、
    典型表現生成手段が、前記頻出パターン抽出ステップにおいて抽出された部分構造に対応する形態素列を、当該形態素列がどの程度に典型表現らしいかを表すスコアによってスコア付けし、最もスコアの高い自然言語表現、もしくは、スコア順にランキングされた複数の自然言語表現を自然言語の文の形で生成する典型表現生成ステップと、
    表現統一手段が、前記典型表現生成ステップにおいて生成された自然言語表現を特定の表現形態に統一する表現統一ステップと、を含み、
    前記典型表現らしいかを表すスコアは、前記形態素列の生起確率に応じて決定されることを特徴とする文書処理方法。
  6. 前記表現統一ステップにおいて、前記典型表現生成ステップにおいて生成された自然言語表現を他の頻出する部分構造の自然言語表現と同様の表現形態に統一することを特徴とする請求項5に記載文書処理方法。
  7. 前記表現統一ステップにおいて、前記典型表現生成ステップにおいて生成された自然言語表現を外部から指定された表現で統一することを特徴とする請求項5に記載文書処理方法。
  8. 前記典型表現生成ステップにおいて、前記頻出パターン抽出ステップにおいて抽出された部分構造に対応する形態素列をw_1、w_2…w_nとし、またw_iの生起確率をP(w_i)、w_iに続いてw_i+1が生起する条件付確率をP(w_i+1|w_i)とした場合、形態素列の生起確率P(w_1)*Π{i=1〜n}P(w_i+1|w_i)を用いてスコア付けを行うことを特徴とする請求項5に記載の文書処理方法。
  9. コンピュータにテキストに対応する自然言語表現を生成する文書処理を実行させる文書処理プログラムであって、
    言語解析手段が、テキストデータベースに格納されたテキスト中の各文を解析して解析結果の木構造を作成する言語解析処理と、
    頻出パターン抽出手段が、前記言語解析処理において作成された木構造の集合から頻出して現れる部分構造を抽出する頻出パターン抽出処理と、
    典型表現生成手段が、前記頻出パターン抽出処理において抽出された部分構造に対応する形態素列を、当該形態素列がどの程度に典型表現らしいかを表すスコアによってスコア付けし、最もスコアの高い自然言語表現、もしくは、スコア順にランキングされた複数の自然言語表現を自然言語の文の形で生成する典型表現生成処理と、
    表現統一手段が、前記典型表現生成処理において生成された自然言語表現を特定の表現形態に統一する表現統一処理と、を実行させ、
    前記典型表現らしいかを表すスコアは、前記形態素列の生起確率に応じて決定されることを特徴とする文書処理プログラム。
  10. 前記表現統一処理において、前記典型表現生成処理において生成された自然言語表現を他の頻出する部分構造の自然言語表現と同様の表現形態に統一することを特徴とする請求項9に記載の文書処理プログラム。
  11. 前記表現統一処理において、前記典型表現生成処理において生成された自然言語表現を外部から指定された表現で統一することを特徴とする請求項9に記載の文書処理プログラム。
  12. 前記典型表現生成処理において、前記頻出パターン抽出処理において抽出された部分構造に対応する形態素列をw_1、w_2…w_nとし、またw_iの生起確率をP(w_i)w_iに続いてw_i+1が生起する条件付確率をP(w_i+1|w_i)とした場合、形態素列の生起確率P(w_1)*Π{i=1〜n}P(w_i+1|w_i)を用いてスコア付けを行うことを特徴とする請求項9に記載の文書処理プログラム。
JP2007259326A 2007-10-03 2007-10-03 文書処理装置、文書処理方法、および、文書処理プログラム Active JP4341077B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007259326A JP4341077B2 (ja) 2007-10-03 2007-10-03 文書処理装置、文書処理方法、および、文書処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007259326A JP4341077B2 (ja) 2007-10-03 2007-10-03 文書処理装置、文書処理方法、および、文書処理プログラム

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2004280083A Division JP4049141B2 (ja) 2004-09-27 2004-09-27 文書処理装置、文書処理方法、および、文書処理プログラム

Publications (2)

Publication Number Publication Date
JP2008059600A JP2008059600A (ja) 2008-03-13
JP4341077B2 true JP4341077B2 (ja) 2009-10-07

Family

ID=39242179

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007259326A Active JP4341077B2 (ja) 2007-10-03 2007-10-03 文書処理装置、文書処理方法、および、文書処理プログラム

Country Status (1)

Country Link
JP (1) JP4341077B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8793121B2 (en) 2011-03-03 2014-07-29 International Business Machines Corporation Information processing apparatus, natural language analysis method, program and recording medium

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113887219B (zh) * 2021-08-12 2022-07-05 南京汇宁桀信息科技有限公司 一种主管部门热线舆情识别与预警方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8793121B2 (en) 2011-03-03 2014-07-29 International Business Machines Corporation Information processing apparatus, natural language analysis method, program and recording medium

Also Published As

Publication number Publication date
JP2008059600A (ja) 2008-03-13

Similar Documents

Publication Publication Date Title
JP5362095B2 (ja) インプットメソッドエディタ
JPH0293866A (ja) 要約生成方法および要約生成装置
JP2011018330A (ja) 統計的な方法を用いて漢字を自国語の発音列に変換するシステムおよび方法
JP3372532B2 (ja) 感情情報抽出方法および感情情報抽出プログラムの計算機読み取り可能な記録媒体
JP2006099428A (ja) 文書要約作成システム、方法、及びプログラム
JP4341077B2 (ja) 文書処理装置、文書処理方法、および、文書処理プログラム
JP5623380B2 (ja) 誤り文修正装置、誤り文修正方法およびプログラム
JP5447368B2 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
JP4856573B2 (ja) 要約文生成装置及び要約文生成プログラム
JP5269399B2 (ja) 構造化文書検索装置、方法およびプログラム
JP4361299B2 (ja) 評価表現抽出装置、プログラム、及び記憶媒体
JP4049141B2 (ja) 文書処理装置、文書処理方法、および、文書処理プログラム
WO2016151690A1 (ja) 文書検索装置、方法及びプログラム
Ivanov et al. Lexical stress-based authorship attribution with accurate pronunciation patterns selection
JP2012150759A (ja) 文章入力支援システム、文章入力支援装置、参照情報作成装置及びプログラム
JP2008140204A (ja) データ検索システム及びプログラム
JP2010250389A (ja) 情報検索システム、方法及びプログラム、索引作成システム、方法及びプログラム、
Jolly et al. Anatomizing lexicon with natural language Tokenizer Toolkit 3
JP2004334382A (ja) 構造化文書要約装置、プログラムおよび記録媒体
JP2004220226A (ja) 検索文書のための文書分類方法及び装置
JP2005025555A (ja) シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体
JP6451151B2 (ja) 質問応答装置、質問応答方法、プログラム
JPS63228326A (ja) キ−ワ−ド自動抽出方式
JP5262190B2 (ja) 入力補完装置、及び入力補完プログラム
JPH1145249A (ja) 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080212

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080411

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20080616

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20081118

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081218

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20090128

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090324

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20090508

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090521

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090615

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090628

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120717

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4341077

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120717

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130717

Year of fee payment: 4