JP4992715B2 - データ処理装置、データ処理方法、データ処理プログラム - Google Patents

データ処理装置、データ処理方法、データ処理プログラム Download PDF

Info

Publication number
JP4992715B2
JP4992715B2 JP2007529503A JP2007529503A JP4992715B2 JP 4992715 B2 JP4992715 B2 JP 4992715B2 JP 2007529503 A JP2007529503 A JP 2007529503A JP 2007529503 A JP2007529503 A JP 2007529503A JP 4992715 B2 JP4992715 B2 JP 4992715B2
Authority
JP
Japan
Prior art keywords
node
nodes
sentence
extracting
data processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007529503A
Other languages
English (en)
Other versions
JPWO2007015505A1 (ja
Inventor
要祐 坂尾
崇博 池田
研治 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2007529503A priority Critical patent/JP4992715B2/ja
Publication of JPWO2007015505A1 publication Critical patent/JPWO2007015505A1/ja
Application granted granted Critical
Publication of JP4992715B2 publication Critical patent/JP4992715B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、コンピュータ上に蓄積される電子化テキストなどの入力データを構文解析などの手段により構造化して分析を行う、テキストマイニングやテキスト要約、テキスト検索、テキスト分類などのデータ処理に関し、特に、構文解析などの手段により得られた入力データの構造を表すグラフを節点同士の関係に基づいて変形し、変形後のグラフから特徴構造を抽出するデータ処理装置、データ処理方法、データ処理プログラムに関する。
テキストマイニング装置の一例として、特許文献1には、図24に示すような構成が開示されている。この従来のテキストマイニング装置は、基本辞書記憶部と、文書データ記憶部と、分野依存辞書記憶部と、言語特徴分析装置と、言語解析装置と、パターン抽出装置と、頻出パターン表示装置とを備えている。
図24のテキストマイニング装置は、おおまかには、次のように動作する。まず、言語特徴分析装置が、基本辞書と文書データとから分野依存辞書を作成する。次に、言語解析装置が基本辞書と分野依存辞書と文書データから1文毎に構文木などの文構造を作成する。ここで、文構造とは、テキストを構文解析することで得られるテキストを表現するグラフ構造を指す。その次に、パターン抽出装置が、この文構造を用いて特徴構造を抽出し、この特徴構造に合致する文書データ中の文書を頻出パターン適合文書記憶部に記憶させると同時にこの特徴構造を出力する。ここで、特徴構造とは、文構造の部分構造に対してテキストマイニング処理を適用して抽出される頻出パターンなどのテキスト集合を特徴付ける部分構造を指す。
特開2001−84250号公報
上記のような従来のマイニング装置は、テキストの中に同一の内容を指す複数の語あるいは意味的に関連のある複数の語が含まれている場合に、特徴構造を正しく抽出することができないという問題がある。ここで言う「同一の内容を指す語」とは、たとえば照応関係にある代名詞またはゼロ代名詞と先行詞である。
従来のテキストマイニング装置は、たとえば、意味の同じ一つの内容について、1テキスト内で単一の語を用いて書かれている場合と、1テキスト内で同一の内容を指す複数の語(テキスト中で省略されているゼロ代名詞等を含む)を用いて書かれている場合とを同一視してテキストマイニングを行うことができない。
これは、従来のテキストマイニング装置は、意味の同じ一つの内容について、1テキスト内で単一の語を用いて書かれている場合と、1テキスト内で同一の内容を指す複数の語を用いて書かれている場合とを同一視する手段を備えていないためである。
図25は、「車種Aは安くて高性能だ。」(テキストS100)と「車種Aは安い。しかも高性能だ。」(テキストS101)という二つのテキストを構文解析して得られる文構造と、その文構造に対して従来技術によるテキストマイニングを行った際にそれぞれの文構造から抽出される特徴構造の例である。
テキストS100を構文解析すると文構造T100が得られ、これがそのまま特徴構造PT101として抽出される(図25(a))。テキストS101を構文解析すると文構造T101と文構造T102が得られ、特徴構造として特徴構造PT101およびPT102が抽出される(図25(b))。
テキストS100は、「車種A」という単一の語を用いて、テキストS101は「車種A」および「高性能だ」の前に省略されている「ゼロ代名詞」という二つの語を用いて、「車種Aは安く且つ高性能だ」という同一の内容について述べている。従って、この内容を表現する図26の部分構造PT103が二つのテキストから特徴構造として抽出されることが望ましい。
しかし、この内容を「車種A」という単一の語で述べているテキストS100の文構造T100と、この内容を先行詞「車種A」と「ゼロ代名詞」を用いて述べているテキストS101の文構造T101およびT102では、異なる構造となってしまっている。その結果、既存のテキストマイニング手法では同じ意味内容を表す両者の文の構造を同一視できず、別々の特徴部分構造として抽出されてしまう。
また、従来のテキストマイニング装置は、たとえば、一つのテキスト中で、意味的に関連のある複数の語を用いて一つの内容を述べている場合に、その内容を一つの構造にまとめて抽出することができない。
これは、従来のテキストマイニング装置は、一つのテキスト中で、意味的に関連のある複数の語を用いて一つの内容を述べている場合に、その内容を一つの構造にまとめて抽出する手段を備えていないためである。
「意味的に関連のある語」には、例えば、同表層の語、シソーラス中で同義語の関係にある語、ユーザ指定の同義語、上位概念と下位概念などシソーラス中で相互に関係を持つ語(シソーラス中での関連語)、ユーザ指定の関連語などの意味的に関連するが同じ内容を指さない語が挙げられる。なお、ユーザ指定の同義語とは、同一の内容を指し得る複数の語としてユーザが指定する語で、頻出パターンなどの特徴構造抽出時に同一の語として判定される。また、ユーザ指定の関連語とは、相互に関連するが必ずしも同一の内容を指さない語としてユーザが指定する語である。
図27に、一つのテキスト中で、意味的に関連のある複数の語を用いて一つの内容を述べている場合に、従来技術では、その内容を一つの構造にまとめて抽出を行うことが出来ない例を示す。図27は、「軽自動車は一般に安いが、B社の軽自動車は高い。」(テキストS102)と「軽自動車は安い。B社の軽自動車は高いが。」(テキストS103)という二つのテキストを構文解析して得られる文構造と、その文構造に対して従来技術によるテキストマイニングを行った際にそれぞれの文構造から抽出される構造の例である。テキストS102を構文解析すると、文構造T103が得られ、部分構造PT104およびPT105が特徴部分構造として抽出される(図27(a))。テキストS103を構文解析すると、文構造T104およびT105が得られ部分構造PT106およびPT107が特徴部分構造として抽出される(図27(b))。
どちらのテキストも一般の軽自動車とB社の軽自動車を比較して述べている。従って、この比較を表現する図28のPT108のような構造が、この二つのテキストから特徴構造として抽出されることが望ましい。
しかし、テキストS102の文構造T103では、一般の軽自動車とB社の軽自動車の意味的な関係が文構造上で表現されていないため、既存のテキストマイニング手法ではこの比較を表す構造を一つの構造にまとめて抽出を行うことができない。また、テキストS103の文構造では、この比較を表す構造が文構造T104およびT105の2つに分割されてしまっているため、既存のテキストマイニング手法では一つの構造にまとめて抽出を行うことができない。
その結果として、二つのテキストには同表層の複数の語「軽自動車」を用いて書かれた関連する内容があるのに、一般の軽自動車について述べた内容の構造(PT104およびPT106)とB社の軽自動車について述べた内容の構造(PT105およびPT107)が別々に抽出されてしまう。
そこで、本発明は、テキストなどの入力データの中に同一の内容を指す複数の語あるいは意味的に関連のある複数の語が含まれている場合にも、特徴構造を正しく抽出することができるデータ処理装置および方法並びにプログラムを提供することを目的とする。
本発明に係るデータ処理装置は、関連節点抽出手段を備え、構文解析などの結果得られたグラフから意味的に関連する語を含む関連節点を抽出する。
関連節点接合手段は、関連節点の一部または全部を接合することによりグラフを変形する。ここで、「接合」とは、複数の節点を一つの節点に結合すること、または、グラフ中のある節点と他の節点を新たな枝で接続することを意味する。
特徴構造抽出手段は、関連節点接合手段により変形されたグラフから、特徴構造を抽出する(請求項1)。
上記データ処理装置によれば、関連節点接合手段が関連節点を接合することによりグラフを変形する。この変形は、意味的に関連のある語を含む関連節点を結合したり、新たな枝で結ぶことにより行われるから、本来は同じ意味を表しているにもかかわらず、構文解析で得られた最初のグラフでは、そのように認識できない複数の部分構造を関連付けることができる。
そのため、入力データの中に同一の内容を指す複数の語あるいは意味的に関連のある複数の語が含まれている場合にも、特徴構造を正しく抽出することができる。
上記データ処理装置において、関連節点接合手段が、関連節点を意味的関連性の強弱により強関連節点と弱関連節点に分類し、強関連節点を一つの節点に結合するようにしても良い(請求項2)。
このようにすれば、同一の内容を指す節点を一つの節点に結合するようにグラフを変形することができる。すなわち、1つの入力データ内で単一の語を用いて書かれている場合の構造と、1つの入力データ内で同一の内容を指す複数の語を用いて書かれている場合の構造とを同一の形に変形することができる。
特徴構造抽出手段は、このように変形した後のグラフから特徴構造を抽出するから、意味の同じ一つの内容について、1つの入力データ内で単一の語を用いて書かれている場合と、1つの入力データ内で同一の内容を指す複数の語(たとえば、先行詞とそれに照応する代名詞)を用いて書かれている場合とを、同一視して特徴構造を抽出することができる。
上記データ処理装置において、関連節点接合手段が、関連節点を意味的関連性の強弱により強関連節点と弱関連節点に分類して、弱関連節点を意味的関連枝で接続し、特徴構造抽出手段が、前記グラフの部分構造が、意味的関連枝で接続された節点を含み、かつ、その中の少なくとも1の節点が係り受け枝により他の節点と接続されていない場合は特徴構造として抽出しないようにしても良い(請求項3)。なお、特徴構造抽出処理の際には、この意味的関連枝はグラフ構造中の係り受け関係を表す枝とは区別される。
このようにすれば、互いに意味的に関連する節点どうしを意味的関連枝により結んで構造変形することで、一つの入力データが意味的に関連のある複数の語を用いて一つの内容を述べている場合に、その語に対応する節点を意味的関連枝により結び一つの部分構造にまとめるようにグラフを変形することができる。
特徴構造抽出手段は、このように変形したグラフから特徴構造を抽出するから、一つの入力データの中で、意味的に関連のある複数の語を用いて一つの内容を述べている場合に、その内容を一つの構造にまとめて抽出することができる。
前記データ処理装置において、関連節点抽出手段が、代名詞またはゼロ代名詞と照応関係にある先行詞を含む節点である照応節点を関連節点として抽出し、前記関連節点接合手段が、照応節点を強関連節点として分類するようにしてもよい(請求項4)。
前記データ処理装置において、関連節点抽出手段が、表層が同じである語を含む節点である同表層節点を関連節点として抽出し、関連節点接合手段が、同表層節点を弱関連節点として分類するようにしてもよい(請求項5)。
前記データ処理装置において、関連節点抽出手段が、シソーラスで同義語とされている語を含む節点である同義語節点を関連節点として抽出し、関連節点接合手段は、同義語節点を弱関連節点として分類するようにしてもよい(請求項6)。
前記データ処理装置において、関連節点抽出手段が、使用者が指定した同義語を含む節点である指定同義語節点を関連節点として抽出し、関連節点接合手段が、指定同義語節点を弱関連節点として分類するようにしてもよい(請求項7)。
前記データ処理装置において、関連節点抽出手段が、シソーラスで関連語とされている語を含む節点である関連語節点を関連節点として抽出し、関連節点接合手段が、関連語節点を弱関連節点として分類するようにしてもよい(請求項8)。
前記データ処理装置において、関連節点抽出手段が、使用者が指定した関連語を含む節点である指定関連語節点を関連節点として抽出し、関連節点接合手段が、指定関連語節点を弱関連節点として分類するようにしてもよい(請求項9)。
前記データ処理装置において、意味的関連度計算手段が関連節点に含まれる語の意味的な関連性の強弱を示す意味的関連度を計算し、関連節点接合手段は、意味的関連度に基づいて関連節点を強関連節点と弱関連節点に分類するようにしてもよい(請求項10)。
このようにすれば、強関連節点と弱関連節点の分類を、定量的な指標に基づいて行うことができる。
前記データ処理装置において、関連節点接合手段が、意味的関連度が第1の閾値より小さい関連節点を弱関連節点として分類し、意味的関連度が第1の閾値以上である関連節点は強関連節点として分類するようにしてもよい(請求項11)。
さらに、意味的関連度が第2の閾値(第1の閾値より小)よりも小さい関連節点に対しては接合を行わないようにしてもよい(請求項12)。
このようにすれば、マイニングなどのデータ処理の目的や対象の入力データの性質に応じて閾値を適切に定めて関連節点接合手段の動作を調整し、特徴構造抽出手段により抽出される特徴構造を調整することができる。
本発明に係る、データ処理方法では、文章の構造を表すグラフの節点から意味的に関連する節点である関連節点を抽出し、関連節点の一部または全部を接合することにより前記グラフを変形し、この変形されたグラフから特徴構造を抽出する(請求項13)。
上記データ処理方法によれば、関連節点を接合することによりグラフを変形する。この変形は、意味的に関連のある語を含む関連節点を結合したり、新たな枝で結ぶことにより行われるから、本来は同じ意味を表しているにもかかわらず、構文解析で得られた最初のグラフでは、そのように認識できない複数の部分構造を関連付けることができる。
そのため、入力データの中に同一の内容を指す複数の語あるいは意味的に関連のある複数の語が含まれている場合にも、特徴構造を正しく抽出することができる。
本発明に係るデータ処理プログラムでは、コンピュータに、入力データの構造を表すグラフの節点から意味的に関連する節点である関連節点を抽出するステップと、関連節点の一部または全部を接合することにより前記グラフを変形するステップと、この変形されたグラフから特徴構造を抽出ステップとを実行させる(請求項14)。
上記データ処理プログラムによれば、コンピュータに、関連節点を接合することによりグラフを変形するステップを実行させる。この変形は、意味的に関連のある語を含む関連節点を結合したり、新たな枝で結ぶことにより行われるから、本来は同じ意味を表しているにもかかわらず、構文解析で得られた最初のグラフでは、そのように認識できない複数の部分構造を関連付けることができる。
そのため、入力データの中に同一の内容を指す複数の語あるいは意味的に関連のある複数の語が含まれている場合にも、特徴構造を正しく抽出することができる。
本発明のデータ処理装置等によれば、関連節点抽出手段が意味的に関連のある節点を関連節点として抽出し、関連節点接合手段が関連節点を接合することによりマイニングなどのデータ処理の対象となる入力データを解析して得られたグラフを変形する。特徴構造抽出手段は、変形後のグラフから特徴構造を抽出する。
そのため、データ処理の対象となる入力データの中に同一の内容を指す複数の語あるいは意味的に関連のある複数の語が含まれている場合にも、特徴構造を正しく抽出することができる。
次に、図を参照しながら本発明の第1の実施形態であるテキストマイニング装置10の構成と動作について説明する。
(テキストマイニング装置10の構成)
図1は、テキストマイニング装置10の構成を示す機能ブロック図である。
テキストマイニング装置10は、たとえばパーソナルコンピュータで構成され、情報を記憶する記憶装置1と、プログラム制御により動作するデータ処理装置2と、検出された部分構造を表示する出力装置3とを備えている。記憶装置1にはテキストデータベース(DB)11が格納されている。テキストDB11には、テキストマイニングの対象となるテキストの集合が記憶されている。
データ処理装置2は、言語解析手段21と、関連節点抽出手段22と、関連節点接合手段23と、特徴構造抽出手段24を備えている。
言語解析手段21は、テキストDB11からテキスト集合を読み込み、集合中の各テキストを解析して文構造を生成する。
関連節点抽出手段22は、言語解析手段21から送られてきた文構造の集合中の各文構造から、互いに意味的に関連する節点(関連接点)の抽出を行う。意味的に関連のある節点としては、例えば、照応関係にある代名詞またはゼロ代名詞と先行詞の関係にある節点、表層が同じである節点、シソーラス中で同義語の関係にある節点、ユーザ指定の同義語の関係にある節点、シソーラス中で関連語の関係にある節点、ユーザ指定の関連語の関係にある節点などが挙げられる。
なお、関連節点の抽出には、例えば、照応解析、2つの文節の表層のパターンマッチング、ユーザ指定の同義語や関連語の表層と文節の表層とのパターンマッチング、シソーラス中の語と文節の表層とのパターンマッチングなどの公知技術が用いられる。
関連節点接合手段23は、関連節点抽出手段22から文構造の集合と関連節点の情報を受け取り、各文構造の変形を行う。
例えば、関連節点接合手段23は、関連節点抽出手段22から文構造の集合と関連節点の情報を受け取り、各文構造中の互いに関連のある節点どうしを結合して一つの節点として各文構造の変形を行う。
別の例としては、関連節点接合手段23は、関連節点抽出手段22から文構造の集合と関連節点の情報を受け取り、各文構造中の意味的に互いに関連のある節点どうしを意味的関連枝で結ぶことで各文構造の変形を行う。
さらに別の例としては、関連節点接合手段23は、関連節点抽出手段22から文構造の集合と関連節点の情報を受け取り、各文構造中の抽出された関連節点について、節点間の関係を分類する。たとえば、関連節点として抽出された複数の節点が同一の内容を指す場合(強関連節点)と意味的に関連があるが必ずしも同一の内容を指さない場合(弱関連節点)の2種類に分類する。
そして、強関連節点については、関連のある節点どうしを結合して一つの節点に結合し、弱関連節点については、関連のある節点どうしを意味的関連枝で結ぶ。
関連節点を強関連節点と弱関連節点に分類するには、たとえば次のようにする。
照応関係にある代名詞またはゼロ代名詞の節点と先行詞の節点を強関連節点とする。
表層が同じである節点、シソーラス中で同義語の関係にある節点、ユーザ指定の同義語の関係にある節点、シソーラス中で関連語の関係にある節点、ユーザ指定の関連語の関係にある節点を弱関連節点とする。
また、ある文構造中の節点A、B、Cについて、節点Aと節点Bが関連節点であり、節点Bと節点Cも関連節点である場合に、節点Aと節点Cも関連節点としても良い。その場合の節点Aと節点Cの関係の分類は、例えば、節点Aと節点Bが強関連節点で、かつ、節点Bと節点Cも強関連節点である場合は、節点Aと節点Cを強関連節点とし、その他の場合は、節点Aと節点Cを弱関連節点とすることにより行う。
文構造から、一つの節点に結合するべき強関連節点の組が複数抽出され、且つある節点がその複数の強関連連節点の組に含まれる場合がある。そのような場合の例として、図2に「車種Aは安い。これは速い。これは人気だ。」(テキストS20)というテキストの文構造を示す。テキストS20からは、構造T20−A、T20−B、T320−Cが得られる。なお、図2中に2つ存在する「これ」という節点を区別するために、テキストS20中での出現順にA,Bの添え字を振っている。
関連節点接合手段23により、照応関係にある代名詞またはゼロ代名詞の節点と先行詞の節点が一つの節点に結合される場合、図2中の「車種A」と「これ」(添え字A)、「車種A」と「これ」(添え字B)がそれぞれ一つの節点に結合するべき関連節点の組となり、「車種A」はその両方に含まれることになる。
このような場合の節点接合は、たとえば、全ての関連節点を一つの節点に結合(方法1)してもよいし、1組の関連節点を結合した節点を関連節点の組の数だけ生成(方法2)してもよい。
図2の文構造に方法1を適用し関連節点の接合を行った結果の文構造T21を図3に示す。構造T21では、図2の3つの節点「車種A」、「これ」(添え字A)、「これ」(添え字B)が一つの節点に結合され、図3の節点「車種A」となっている。
図2の文構造に方法2を適用し、関連節点の接合を行った結果の文構造T22を図4に示す。構造T22では、図2の節点「車種A」と「これ」(添え字A)が一つの節点に結合され、図4の節点「車種A」(添え字A)となっている。また、図2の節点「車種A」と「これ」(添え字B)が一つの節点に結合され、図4の節点「車種A」(添え字B)となっている。
なお、図4の各接点を結ぶ枝は、いずれも係り受けを示す通常の枝である。
また、文構造から、意味的関連枝で結ぶべき弱関連節点の組が複数抽出され、且つある節点がその複数の弱関連連節点の組に含まれる場合が存在する。そのような場合の例として図5に「関東の車種と関西の車種と中部の車種の比較。」(テキストS21)というテキストの文構造T23を示す。なお、T23中に3つ存在する「車種」という節点を区別するために、テキストS21中での出現順にA、B、Cの添え字を振っている。関連節点接合手段23により、同表層の関係にある節点が意味的関連枝で結ばれる場合、T23中の節点「車種」(添え字A)と「車種」(添え字B)、「車種」(添え字A)と「車種」(添え字C)、「車種」(添え字B)と「車種」(添え字C)がそれぞれ意味的関連枝で結ばれるべき弱関連節点の組となり、「車種」(添え字A)、「車種」(添え字B)、「車種」(添え字C)はそれぞれ複数の弱関連節点の組に含まれることになる。
このような場合は、たとえば、全ての関連節点の組について、関連節点どうしを意味的関連枝で結ぶ方法(方法3)がある。
また、複数の関連節点の組に含まれる各節点について、関連節点のうち最もテキスト内での距離が近い文節に対応する節点と意味的関連枝で結んでもよい(方法4)。ただし、関連節点のうち最もテキスト内での距離が近い文節に対応する節点が複数ある場合は、その全てに意味的関連枝を結ぶ。
図5の文構造T23に方法3を適用し関連節点の接合を行った結果の文構造T24を、図6に示す。図6の文構造T24中の点線は、意味的関連枝を示す。図5の関連節点「車種」(添え字A)と「車種」(添え字B)、「車種」(添え字A)と「車種」(添え字C)、「車種」(添え字B)と「車種」(添え字C)の3組全てについて意味的関連枝が張られ、文構造T24となっている。
図5の文構造T23に方法4を適用し関連節点の接合を行った結果の文構造T25を、図7に示す。図7の文構造T25中の点線は、意味的関連枝を示す。
図7の節点「車種」(添え字A)からは、二つある関連節点「車種」(添え字B)、「車種」(添え字C)のうち、文内距離がより短い文節に対応する「車種」(添え字B)に意味的関連枝を結ぶ。
図7の節点「車種」(添え字B)からは、二つある関連節点「車種」(添え字A)、「車種」(添え字C)が等距離にあるため、双方に意味的関連枝を結ぼうとするが、「車種」(添え字A)と「車種」(添え字B)は既に意味的関連枝で結ばれているため、「車種」(添え字B)と「車種」(添え字C)のみが意味的関連枝で結ばれる。
図7の節点「車種」(添え字C)からは、二つある関連節点「車種」(添え字A)、「車種」(添え字B)のうち、文内距離がより短い文節に対応する「車種」(添え字B)に意味的関連枝を結ぼうとするが、「車種」(添え字B)と「車種」(添え字C)は既に意味的関連枝で結ばれているため何も行われない。
このようにして、図5の「車種」(添え字A)と「車種」(添え字B)、「車種」(添え字B)と「車種」(添え字C)がそれぞれ意味的関連枝で結ばれ、図7の文構造T25となる。
特徴構造抽出手段24は、関連節点接合手段23から送られた関連節点の接合により変形された文構造の集合から特徴的な部分構造を抽出し、出力装置3へ送る。ただし、関連節点接合手段23により意味的関連枝で結ばれた節点の少なくとも一方から、係り受けの枝が他の節点に結ばれていない構造を、特徴構造抽出手段24は特徴構造として抽出しない。
(テキストマイニング装置10の動作)
図8は、テキストマイニング装置10の動作を説明するための流れ図である。
まず、言語解析手段21が、テキストDB11からテキスト集合を読み込む。言語解析手段21は、テキスト集合中の各テキストに対し解析を行い、解析結果として文構造を生成し、関連節点抽出手段22に送る(図8のステップA1)。
関連節点抽出手段22は、与えられた文構造の集合中の各文構造から互いに関連する節点の抽出を行い、文構造の集合と各文構造中の関連節点の情報を関連節点接合手段23に送る(図8のステップA2:関連節点抽出ステップ)。
関連節点接合手段23は、与えられた文構造の集合と各文構造中の関連節点の情報から、各文構造中の互いに関連のある節点の接合を行うことで、文構造の集合中の各文構造の変形を行い、変形結果として得た構造の集合を特徴構造抽出手段24に送る(図8のステップA3:関連節点接合ステップ)。
特徴構造抽出手段24は、与えられた関連節点の接合による変形後の文構造の集合から、特徴的な部分構造の抽出を行う(図8のステップA4:特徴構造抽出ステップ)。
最後に、特徴構造抽出手段24は、抽出した特徴構造を出力装置3に出力する(図8のステップA5)。
次に、テキストマイニング装置10の具体的な動作例について説明する。
この動作例においては、関連節点抽出手段22は照応関係にある先行詞と代名詞またはゼロ代名詞を関連節点として抽出し、関連節点接合手段23は関連節点を一つの節点に結合することで文構造の構造変形を行う。
図9に示したテキストS1乃至テキストS3は、図1のテキストDB11に記憶されているテキスト集合の一部である。
言語解析手段21は、図9の各テキストに対して言語解析を行い、各テキストの文構造を得る(図8のステップA1)。図10に、言語解析手段21による解析の結果得られる文構造を示す。図9のテキストS1の文構造が図10の構造T1、図9のテキストS2の文構造が図10の構造T2−AおよびT2−B、図9のテキストS3の文構造が図10の構造T3−AおよびT3−Bである。なお、図10の構造T1については言語解析手段21による並列処理が適用されており、図10の構造T2−Bについては言語解析手段21によるゼロ代名詞抽出処理が適用されている。
関連節点抽出手段22は、図10に示される各文構造から意味的に関連する節点の抽出を行う(図8のステップA2)。本実施例では、照応する先行詞と代名詞の関係にある構造T2−Aの「車種A」と構造T2−Bの「(ゼロ代名詞)」および照応する先行詞と代名詞の関係にある構造T3−Aの「車種A」と構造T3−Bの「その」「車種」(1節点が2節点に照応する)の2組が関連節点としてそれぞれ抽出される。
関連節点接合手段23は、図10に示す文構造の集合中の各文構造に対して、関連節点抽出手段22が抽出した関連節点の情報を元に、関連節点の接合による文構造の変形を行う(図8のステップA3)。図11に、関連節点接合手段23により得られる変形後の構造を示す。
図10の構造T1には、関連節点が存在しないので特に変形が行われず図11の構造T1’となる。
図10の構造T2−AとT2−Bでは、関連節点である構造T2−Aの「車種A」と構造T2−Bの「(ゼロ代名詞)」は照応関係にある先行詞とゼロ代名詞に対応する節点であるので、これらの節点が一つの節点に結合され、図10の構造T2−AとT2−Bは接合されて図11の構造T2’となる。
図10の構造T3−AとT3−Bでは、関連節点である構造T3−Aの「車種A」と構造T3−Bの「その」「車種」は照応関係にある先行詞と代名詞に対応する節点であるので、これらの節点が一つの節点に結合され、図10の構造T3−Aと3−Bは接合されて図11の構造T3’となる。
特徴構造抽出手段24は、図11に示される変形後の文構造の集合から特徴構造の抽出を行う(図8のステップA4)。ここでは、3回以上出現している部分構造を特徴構造として抽出する。図11を参照すると、抽出される頻出部分構造は図12の頻出部分構造PT1ないしPT6のようになる。
最後に、抽出された特徴構造を出力装置3に表示する(図2のステップA5)。
このようにして照応関係にある代名詞・ゼロ代名詞と先行詞の節点を一つの節点に結合する構造変形を行うことで、図9のテキストS2およびテキストS3で、同一の内容を指す複数の語を用いて書かれている一つの内容を一つの構造にまとめ、図12の頻出部分構造PT6を抽出できるようになっていることが分かる。
「車種Aは安く高性能だ」という一つの内容について単一の語「車種A」を用いて述べている図9のテキストS1の文構造では、この内容が一つの部分構造T1にまとまっている。これに対して、「車種Aは安く高性能だ」という内容について同一の内容を指す複数の語を用いて述べている図9のテキストS2およびテキストS3では、この内容が複数の部分構造に分割されてしまっているので、既存のマイニング装置では、同一の構造と判定してマイニングを行うことができなかった。
しかし、テキストマイニング装置10によれば、関連節点接合手段23が関連節点を接合することによりテキストS1乃至テキストS3の「車種Aは安く高性能だ」という内容が同一の形の部分構造(図12の頻出部分構造6)になり、同一視してマイニングできるようになっている。
次に、テキストマイニング装置10の第2の具体的動作例について説明する。
この例においては、関連節点抽出手段22は、表層が同じである節点、ユーザ指定の同義語の関係にある節点およびユーザ指定の関連語の関係にある節点を関連節点として抽出する。関連節点接合手段23は関連節点を意味的関連枝で結合することで文構造の構造変形を行う。
また、「軽自動車」と「軽」が、ユーザ指定の同義語として、「自動車」と「車種C」および「自動車」と「軽自動車」が、ユーザ指定の関連語として指定されているものとする。このような指定は、たとえば、同義語と関連語を定義するファイルを記憶装置11に予め作成しておくことにより行う。
ユーザ指定の関連語を、必ずしも同一の内容を指さないが意味的に関連のある語として扱うとする。
図13に示したテキストS4乃至テキストS9は、図1のテキストDB11に記憶されているテキスト集合の一部である。
言語解析手段21は、図13の各テキストに対して言語解析を行い、各テキストの文構造を得る(図8のステップA1)。図14に、言語解析手段21による解析の結果得られる文構造を示す。図13のテキストS4の文構造が図14の構造T4である。図13のテキストS5の文構造が図14の構造T5−AおよびT5−Bである。図13のテキスト6Sの文構造が図14の構造T6−AおよびT6−Bである。図13のテキストS7の文構造が図14の構造T7である。図13のテキストS8の文構造が図14の構造T8−AおよびT8−Bである。図13のテキストS9の文構造が図14の構造T9−AおよびT9−Bである。
関連節点抽出手段22は、図14に示される各文構造から意味的に関連する節点の抽出を行う(図8のステップA2)。
テキストS4からは、同表層の関係にある構造T4の二つの「軽自動車」が関連節点として抽出される。
テキストS5からは、同表層の関係にある構造T5−Aの「軽自動車」と構造T5−Bの「軽自動車」が関連節点として抽出される。
テキストS6からは、ユーザ指定の同義語の関係にある構造T6−Aの「軽自動車」と構造T6−Bの「軽」が関連節点として抽出される。
テキストS7からは、ユーザ指定の関連語の関係にある構造T7の「自動車」と「車種C」が関連節点として抽出される。
テキストS8からは、ユーザ指定の関連語の関係にある構造T8−Aの「自動車」と構造T8−Bの「車種C」が関連節点として抽出される。
テキストS9からは、ユーザ指定の関連語の関係にある構造T9−Aの「自動車」と構造T9−Bの「車種C」が関連節点として抽出される。
関連節点接合手段23は、図14に示す文構造の集合中の各文構造に対して、関連節点抽出手段22が抽出した関連節点の情報を元に、関連節点の接合による文構造の変形を行う(図8のステップA3)。
図15に、関連節点接合手段23による処理の結果得られる変形後の文構造を示す。
図14の構造T4では、関連節点である二つの「軽自動車」は同表層の節点であるので、これらの節点が意味的関連枝(図15では点線で示されている)で結ばれ、図15の構造T4’となる。なお、特徴構造抽出処理の際には、この意味的関連枝は文構造中の係り受け関係を表す枝とは区別される。
図14の構造T5−AとT5−Bでは、関連節点である構造T5−Aの「軽自動車」と構造T5−Bの「軽自動車」は同表層の節点であるので、これらの節点が意味的関連枝で結ばれ、図14の構造T5−AとT5−Bは接合されて図15の構造T5’となる。
図14の構造T6−AとT6−Bでは、関連節点である構造T6−Aの「軽自動車」と構造T6−Bの「軽」はユーザ指定の同義語の関係にある節点なので、これらの節点が意味的関連枝で結ばれ、図14の構造T6−AとT6−Bは接合されて図15の構造T6’となる。
図14の構造T7では、関連節点である「自動車」と「車種C」はユーザ指定の関連語の関係にある節点であるので、これらの節点が意味的関連枝で結ばれ、図15の構造T7’となる。
図14の構造T8−AとT8−Bでは、関連節点である構造T8−Aの「自動車」と構造T8−Bの「車種C」はユーザ指定の関連語の関係にある節点であるので、これらの節点が意味的関連枝で結ばれ、図15の構造T8’となる。
図14の構造T9−AとT9−Bでは、関連節点である構造T9−Aの「自動車」と構造T9−Bの「車種C」はユーザ指定の関連語の関係にある節点であるので、これらの節点が意味的関連枝で結ばれ、図15の構造T9’となる。
特徴構造抽出手段24は、図15に示される変形後の文構造の集合から特徴構造の抽出を行う(図8のステップA4)。ただし、この動作例においては、関連節点接合手段23が導入した意味的関連枝が結ぶ二つの節点の少なくとも一方から、係り受けの枝が他の節点に結ばれていない構造は、意味を持たない構造であるので特徴構造として抽出しない。
図16に、このような構造の例を示す。図16のT26では、対比関係にある二つの「軽自動車」節点の片方(図では左側)が、他の節点と係り受けの枝で結ばれておらず、意味を持たない構造となってしまっているのが分かる。
ここでは、そのような構造を除き、3回以上出現している部分構造を特徴構造として抽出する。ユーザ指定の同義語により「軽自動車」と「軽」が同一の語として扱われることに注意して、図15を参照すると、抽出される頻出部分構造は図17の頻出部分構造PT7乃至頻出部分構造PT23のようになる。
最後に、そのようにして抽出された特徴構造を出力装置3に出力する(図2のステップA5)。
このようにして同表層の節点やユーザ指定の同義語の関係にある節点の間に意味的関連枝を張ることで、図13のテキストS4とテキストS5とテキストS6、および、テキストS7とテキストS8とテキストS9で、意味的に関連する複数の語を用いて分けて書かれている内容を一つの構造にまとめ、図17の頻出部分構造PT14、15、16、23を抽出できるようになっていることが分かる。
図13のテキストS4とS5とS6では、一般の軽自動車とB社の軽自動車とを比較して述べていた内容が、また、テキストS7とS8とS9では、一般の自動車と車種Cとを比較して述べた内容が、意味的に関連のある複数の語を用いて書いているため、従来のテキストマイニング手法ではこれらの内容が複数の部分構造に分かれて抽出されてしまい、両者を比較して述べていることがマイニング結果からは分からなかった。
この動作例では、関連節点接合手段23が弱関連節点を意味的関連枝により接続して文構造を変形し一つの部分構造にまとめている。特徴節点集出手段24は、このような変形後の文構造T4’(図15)等から特徴部分構造を抽出するので、従来のテキストマイニング装置では抽出できなかった特徴部分構造PT14(図17)等を抽出することができる。
また本実施例では、別テキストの文構造に存在している意味的に関連する節点を接合することで生成される図18のT27のような構造は特徴構造として抽出されない。特徴構造を抽出してから意味的に関連する節点の接合を行った場合には、図17に示す特徴構造のうち、頻出部分構造PT13の節点「軽自動車」と頻出部分構造PT21の節点「自動車」が意味的関連枝により結ばれ、図18の構造T27が生成される。
しかし、構造T27が表す一般の自動車とB社の軽自動車を比較して述べているような内容を実際に述べているテキストは、図13に示す入力テキスト集合中に存在しないため、この構造T27は特徴構造として抽出されないことが望ましい。
テキストマイニング装置10は、特徴構造を抽出してから意味的に関連する節点の接合を行う手法とは異なり、別テキストの文構造に存在している意味的に関連する節点を接合しないため、このような誤った特徴構造を抽出しない。
次に、図を参照しながら本発明の第2の実施形態であるテキストマイニング装置30の構成と動作について説明する。テキストマイニング装置30は、多くの部分がテキストマイニング装置10と共通するので、テキストマイニング装置10と同一の部分には同一の符号を付し説明を省略する。
(テキストマイニング装置30の構成)
図19は、テキストマイニング装置30の構成を示す機能ブロック図である。
テキストマイニング装置30は、図1のテキストマイニング装置10は備えていない入力装置5を備えている。また、データ処理装置4は、図1のデータ処理装置2の関連節点接合手段23の代わりに関連度別関連節点接合手段(関連節点接合手段)26を備え、データ処理装置2は備えていない意味的関連度計算手段25を備えている。
意味的関連度計算手段25は、関連節点抽出手段22から各文構造中の関連節点の情報を受け取り、互いに関連する節点どうしの意味的関連度の計算を行い、各文構造中の関連節点の意味的関連度の情報を関連度別関連節点接合手段26に送る。意味的関連度とは関連節点の意味的な関連性の指標であり、例えば、関連節点が同一の内容を指すか否か、シソーラス中で関連語の関係にある関連節点のシソーラス中での距離、関連節点に対応する文節のテキスト中での距離のようなパラメータの組み合わせにより計算される。
また、ある文構造中の節点A、B、Cについて、節点Aと節点Bが関連節点であり、節点Bと節点Cも関連節点である場合に、節点Aと節点Cも関連節点とする場合は、節点Aと節点Cの意味的関連度は、たとえば、節点Aと節点Bの意味的関連度と、節点Bと節点Cの意味的関連度に基づいて求めることができる。
入力装置5は、ユーザから、関連節点の意味的関連度に応じて関連節点を分類するための閾値、たとえば閾値A(第2の閾値)と閾値B(第1の閾値)の二つ、を入力として受け付け、関連度別関連節点接合手段26に送る。なお、閾値Bの値は常に閾値Aの値以上であることが要求される。
関連度別関連節点接合手段26は、意味的関連度計算手段25から文構造の集合と関連節点の情報および関連節点の意味的関連度の情報を受け取り、さらに、入力装置5から閾値Aと閾値Bを受け取り、互いに関連する節点の意味的関連度の値と閾値A、閾値Bとの大小関係に応じて次のように関連節点の接合をすることで各文構造の構造変形を行う。
意味的関連度の値が閾値Aより小さい場合は、関連節点について、何ら構造変形を行わない。
意味的関連度の値が閾値A以上で、閾値Bより小さい場合は、関連節点を意味的関連枝で結ぶ。
意味的関連度の値が閾値B以上の場合は、関連節点を結合して一つの節点とする。
また、入力装置5から入力された閾値が1個(これを閾値Cとする)の場合は、関連度別関連節点接合手段26は、互いに関連する節点の意味的関連度の値と閾値Cとの大小関係に応じて次のように関連節点の接合をすることで各文構造の構造変形を行う。
意味的関連度の値が閾値Cより小さい場合は、関連節点について、何ら構造変形を行わない。
意味的関連度の値が閾値以上の場合は、関連節点を結合して一つの節点とする。
2個の閾値が入力されたが、それらの値が同一である場合も上記と同様にする。
(テキストマイニング装置30の動作)
図20は、テキストマイニング装置30の動作を説明するための流れ図である。
テキストマイニング装置10と異なる点は、図8のステップA3のかわりにステップB3が実行され、さらにステップA2とステップB3の間にステップB1、B2が挿入されることである。図20のステップA1、A2、A4、A5で示される処理は、テキストマイニング装置10における処理と同一であるため、説明は省略する。
テキストマイニング装置10では、関連節点接合手段23は予め定められた接合方法により関連節点の接合を行っていたが、テキストマイニング装置30では、意味的関連度計算手段25が算出した意味的関連度に応じて関連接点の接合を行う。
意味的関連度計算手段25は、関連節点抽出手段22から各文構造中の関連節点の情報を受け取り、互いに関連する節点の意味的関連度の計算を行い、各文構造中の関連節点の意味的関連度の情報を関連度別関連節点接合手段26に送る(図20のステップB1)。
入力装置5は、関連節点の意味的関連度に応じて関連節点を分類するための2つの閾値、閾値Aと閾値Bを入力として受け付け、関連度別関連節点接合手段26に送る(図20のステップB2)。なお、ステップB2が実行されるタイミングは、図20に示した位置に限らず、ステップA4の前であれば任意の位置でよい。
関連度別関連節点接合手段26は、意味的関連度計算手段25から文構造の集合と関連節点の情報および関連節点の意味的関連度の情報を受け取り、さらに、入力装置5から閾値Aと閾値Bを受け取り、関連節点の意味的関連度の値と閾値A、閾値Bとの大小関係に応じて、関連節点の接合をすることで各文構造の構造変形を行う(図20のステップB3)。
このように、テキストマイニング装置10によれば、関連節点抽出手段22が抽出した文構造中の関連節点を関連節点接合手段23が接合することで変形してから、特徴構造抽出手段24が特徴構造抽出を行うように構成されている。
このため、意味の同じ一つの内容について、1テキスト内で単一の語を用いて書かれている場合と、1テキスト内で同一の内容を指す複数の語を用いて書かれている場合とを、同一視してテキストマイニングを行うことができる。さらに、一つのテキスト中で、意味的に関連のある複数の語を用いて一つの内容を述べている場合に、その内容を一つの構造にまとめて抽出することができる。
次に、テキストマイニング装置30の具体的な動作例について説明する。
なお、本実施例においては、関連節点抽出手段22は、表層が同じである節点、ユーザ指定の同義語の関係にある節点およびユーザ指定の関連語の関係にある節点を関連節点として抽出する。
テキストマイニング装置10の第2の動作例と同様に、図13に示したテキストS4乃至テキストS9がテキストDB11に記憶されているとする。
言語解析手段21は、テキストDB11中の図13に示されるテキスト集合の各テキストに対して言語解析を行い、各テキストの文構造を得る(図20のステップA1)。ここで得られる文構造は、図14のようになる。
関連節点抽出手段22は、図14に示される各文構造から意味的に関連する節点の抽出を行う(図20のステップA2)。
テキストS4からは、同表層の関係にある構造T4の「軽自動車」と「軽自動車」が関連節点として抽出される。
テキストS5からは、同表層の関係にある構造T5−Aの「軽自動車」と構造T5−Bの「軽自動車」が関連節点として抽出される。
テキストS6からは、ユーザ指定の同義語の関係にある構造T6−Aの「軽自動車」と構造T6−Bの「軽」が関連節点として抽出される。
テキストS7からは、ユーザ指定の関連語の関係にある構造T7の「自動車」と「車種C」が関連節点として抽出される。
テキストS8からは、ユーザ指定の関連語の関係にある構造T8−Aの「自動車」と構造T8−Bの「車種C」が関連節点として抽出される。
テキストS9からは、ユーザ指定の関連語の関係にある構造T9−Aの「自動車」と構造T9−Bの「車種C」が関連節点として抽出される。
ここまでの動作は、テキストマイニング装置10の場合と同様である。
意味的関連度計算手段25は、関連節点抽出手段22から各文構造中の関連節点の情報を受け取り、その意味的関連度の計算を行い、各文構造中の関連節点の意味的関連度の情報を関連度別関連節点接合手段26に送る(図20のステップB1)。
関連節点の意味的関連度は、たとえば、表層が同じである節点の意味的関連度は4、ユーザ指定の同義語の関係にある節点の意味的関連度は3、ユーザ指定の関連語の関係にある節点の意味的関連度は1とする。
図14に示される各文構造中の関連節点の意味的関連度は、同表層の関係にある構造4の「軽自動車」と「軽自動車」については4、同表層の関係にある構造T5−Aの「軽自動車」と構造T5−Bの「軽自動車」については4、ユーザ指定の同義語の関係にある構造T6−Aの「軽自動車」と構造T6−Bの「軽」については3、ユーザ指定の関連語の関係にある構造T7の「自動車」と「車種C」については1、ユーザ指定の関連語の関係にある構造T8−Aの「自動車」と構造T8−Bの「車種C」については1、ユーザ指定の関連語の関係にある構造T9−Aの「自動車」と構造T9−Bの「車種C」については1とそれぞれ計算される。
入力装置5は関連節点の意味的関連度に応じて関連節点を分類するための2つの閾値、閾値Aと閾値Bを入力として受け付け、関連度別関連節点接合手段26に送る(図20のステップB2)。ここでは、閾値Aとして2が、閾値Bとして5が入力されたとする。
関連度別関連節点接合手段26は、意味的関連度計算手段25から文構造の集合と関連節点の情報および関連節点の意味的関連度の情報を受け取り、さらに、入力装置5から閾値Aと閾値Bを受け取り、関連節点の意味的関連度の値と閾値A、閾値Bとの大小関係に応じて各文構造の構造変形を行う(図20のステップB3)。
図21に、関連節点接合手段26により得られる変形後の文構造を示す。
図14の構造T4では、関連節点である「軽自動車」と「軽自動車」の意味的関連度は4であり、閾値A以上で閾値Bより小さいため、これらの節点が意味的関連枝(図21では点線で示されている)で結ばれ、図21の構造T4”となる。なお特徴構造抽出処理の際には、この意味的関連枝は文構造中の係り受け関係を表す枝とは区別される。
図14の構造T5−AとT5−Bでは、関連節点である構造T5−Aの「軽自動車」と構造T5−Bの「軽自動車」の意味的関連度は4であり、閾値A以上で閾値Bより小さいため、これらの節点が意味的関連枝で結ばれ、図21の構造T5”となる。
図14の構造T6−AとT6−Bでは、関連節点である構造T6−Aの「軽自動車」と構造T6−Bの「軽」の意味的関連度は3であり、閾値A以上で閾値Bより小さいため、これらの節点が意味的関連枝で結ばれ、図21の構造T6”となる。
図14の構造T7では、関連節点である「自動車」と「車種C」の意味的関連度は1であり、閾値Aより小さいため、何ら構造変形は行われず、図21の構造T7”となる。
図14の構造T8−AとT8−Bでは、関連節点である構造T8−Aの「自動車」と構造T8−Bの「車種C」の意味的関連度は1であり、閾値Aより小さいため、何ら構造変形は行われず、図21の構造T8”−AとT8”−Bとなる。
図14の構造T9−AとT9−Bでは、関連節点である構造T9−Aの「自動車」と構造T9−Bの「車種C」の意味的関連度は1であり、閾値Aより小さいため、何ら構造変形は行われず、図21の構造T9”−AとT9”−Bとなる。
特徴構造抽出手段24は、図21に示される変形後の文構造の集合から特徴構造の抽出を行う(図20のステップA4)。ただし本発明においては、関連度別関連節点接合手段26により意味的関連枝で結ばれた双方の節点の少なくとも一方から係り受けの枝が他の節点に結ばれていない構造は、意味を持たない構造であるので特徴構造として抽出しない。ここでは、そのような構造を除き、3回以上出現している部分構造を特徴構造として抽出する。ユーザ指定の同義語により「軽自動車」と「軽」が同一の語として扱われることに注意して、図21を参照すると、抽出される頻出部分構造は図22の頻出部分構造PT7乃至頻出部分構造PT22のようになる。
最後に、そのようにして抽出された特徴構造を出力装置3に出力する(図20のステップA5)。
図17に示すテキストマイニング装置10の場合の特徴構造の集合と図22に示すテキストマイニング装置30の場合の特徴構造の集合とを比較すると、テキストマイニング装置10においては抽出されていた図17の、ユーザ指定の関連語の関係にある関連節点を意味的関連枝で結ぶことで得られる頻出部分構造PT23が抽出されなくなっていることが分かる。
テキストマイニング装置30によれば、関連度別関連節点接合手段26が、意味的関連度計算手段25が計算した関連節点の意味的関連度とユーザが入力した閾値との大小関係に応じて関連節点の接合による文構造の構造変形を行うため、ユーザが、関連節点を、その意味的な関連の深さに応じて、どのように接合してテキストマイニングを行うかを調整することが出来る。
図8に示したテキストマイニング装置10の動作は、コンピュータとコンピュータプログラムにより実現することができる。図23は、このような実施例を示す図である。
図23のコンピュータ40は、記憶装置1と出力装置3と入力装置5とCPU(Central Processing Unit)6と主記憶装置9を備えている。記憶装置1は、例えばハードディスク装置で、テキストデータベース11を記憶している。主記憶装置9は、たとえばRAM(Random Access Memory)により構成され、テキストマイニング用プログラム7を記憶している。テキストマイニング用プログラム7は、上記に説明したテキストマイニング装置10の動作をCPU6に実行させるプログラムである。テキストマイニング用プログラム7は、CPU6に読み込まれ実行される。
このようにすれば、CPU6を言語解析手段21、関連接点抽出手段22、関連接点結合手段23、特徴構造抽出手段24として動作させ、コンピュータ40をテキストマイニング装置10として動作させることができる。
上記と同様に、CPU6を言語解析手段21、関連接点抽出手段22、意味的関連度計算手段25、関連度別関連接点結合手段26、特徴構造抽出手段24として動作させ、コンピュータ40をテキストマイニング装置30として動作させることもできる。
ここまででは本発明の実施の形態および具体的な動作例として、テキスト集合を入力データとしたテキストマイニング装置とその動作について説明したが、本発明は、テキスト要約やテキスト検索、テキスト分類、音声認識結果を入力とした構造のマイニングなどの、テキストマイニング以外のデータ処理にも応用することができる。
本発明の第1の実施形態であるテキストマイニング装置の構成を示すブロック図である。 文構造中に一つの節点に結合するべき関連節点の組が複数組存在し、且つある節点がその複数の関連連節点の組に含まれる例を示す図である。 図2の文構造に関連節点の接合を行った結果の文構造を示す図である。 図2の文構造に関連節点の接合を行った結果の文構造を示す図である。 文構造中に意味的関連枝で結ぶべき関連節点の組が複数組存在し、且つある節点がその複数の関連連節点の組に含まれる例を示す図である。 図5の文構造に関連節点の接合を行った結果の文構造を示す図である。 図5の文構造に関連節点の接合を行った結果の文構造を示す図である。 図1のテキストマイニング装置の動作を示す流れ図である。 テキストDB中のテキスト集合を示す例である。 言語解析手段により、図9のテキスト集合を言語解析して得られる文構造の集合を示す図である。 図10に示す文構造の集合に対して関連節点接合手段が行う変形を適用して得られる変形後の文構造の集合を示す図である。 特徴抽出手段が、図11に示す変形後の文構造の集合から抽出した特徴構造を示す図である。 テキストDB11中のテキスト集合を示す例である。 言語解析手段により、図13のテキスト集合を言語解析して得られる文構造の集合を示す図である。 図14に示す文構造の集合に対して関連節点接合手段が行う変形を適用して得られる変形後の文構造の集合を示す図である。 意味的関連枝で結ばれている節点に係り受けの枝で結ばれる節点がないために、特徴構造として抽出されない部分構造を示す図である。 図15に示す変形後の文構造の集合から抽出される特徴構造を示す図である。 図14に示す文書構造の関連節点を意味的関連枝で接合することで得られるが、実際には抽出されない構造を示す図である。 本発明の第2の実施形態であるテキストマイニング装置の構成を示すブロック図である。 図19のテキストマイニング装置の動作を示す流れ図である。 図14に示す文構造の集合に対して関連度別関連節点接合手段が行う変形を適用して得られる変形後の文構造の集合を示す図である。 図21に示す変形後の文構造の集合から抽出される特徴構造を示す図である。 本発明のテキストマイニングプログラムの動作を説明する図である。 従来のテキストマイニング装置の構成を示すブロック図である。 従来技法では正しく特徴構造を抽出できないテキストの例を示す図である。 図25の例において、テキストから抽出されることが望ましい特徴構造の例を示す図である。 従来技法ではその内容を一つの構造にまとめて抽出を行うことが出来ないテキストの例を示す図である。 図27の例において、二つのテキストから抽出されることが望ましい特徴構造の例を示す図である。
符号の説明
7 テキストマイニング用プログラム
10、30 テキストマイニング装置
40 コンピュータ
11 テキストDB
22 関連節点抽出手段
23 関連節点接合手段
24 特徴構造抽出手段
25 意味的関連度計算手段
26 関連度別関連節点接合手段(関連節点接合手段)

Claims (14)

  1. 単語を内容とする複数の節点と前記複数の節点の中で係り受けの関係にある2個の節点を接続する係り受け枝により入力データの構造を表すグラフを生成し、前記グラフから前記入力データを特徴付ける特徴構造を抽出するデータ処理装置において、
    文構造の集合中の各文構造から、互いに意味的に関連する節点を抽出する関連節点抽出手段と、
    前記文構造の集合と前記関連節点抽出手段が抽出した節点の情報とを受け取り、各文構造中の意味的に互いに関連する節点同士を意味的関連枝で結びことにより文構造の変形を行う関連節点接合手段と、
    前記関連節点接合手段により変形された文構造の集合から特徴的な部分構造を抽出する特徴構造抽出手段と、を
    備えたことを特徴としたデータ処理装置。
  2. 前記関連節点接合手段は、前記関連節点を意味的関連性が強い強関連節点と意味的関連性が弱い弱関連節点に分類する機能と、前記強関連節点を一つの節点に結合する機能とを備えたことを特徴とした請求項1に記載のデータ処理装置。
  3. 前記関連節点接合手段は、前記弱関連節点を意味的関連枝で接合する機能を備え、
    前記特徴構造抽出手段は、前記グラフの部分構造が、前記意味的関連枝で接続された節点を含み、かつ、その中の少なくとも1の節点が前記係り受け枝により他の節点と接続されていない場合は前記特徴構造として抽出しない否抽出機能を備えていることを特徴とした請求項2に記載のデータ処理装置。
  4. 前記関連節点抽出手段は、代名詞またはゼロ代名詞およびこれらと照応関係にある先行詞を含む節点である照応節点を前記関連節点として抽出する照応節点抽出機能を備え、
    前記関連節点接合手段は、前記照応節点を前記強関連節点として分類する節点分類機能を備えたことを特徴とした請求項3に記載のデータ処理装置。
  5. 前記関連節点抽出手段は、表層が同じである語を含む節点である同表層節点を前記関連節点として抽出する同表層節点抽出機能を備え、
    前記関連節点接合手段は、前記同表層節点を前記弱関連節点として分類する節点分類機能を備えたことを特徴とした請求項3または4に記載のデータ処理装置。
  6. 前記関連節点抽出手段は、シソーラスで同義語とされている語を含む節点である同義語節点を前記関連節点として抽出する同義節点抽出機能を備え、
    前記関連節点接合手段は、前記同義語節点を前記弱関連節点として分類する節点分類機能を備えたことを特徴とした請求項3ないし請求項5のいずれか一つに記載のデータ処理装置。
  7. 前記関連節点抽出手段は、使用者が指定した同義語を含む節点である指定同義語節点を前記関連節点として抽出する指定同義語節点抽出機能を備え、
    前記関連節点接合手段は、前記指定同義語節点を前記弱関連節点として分類する節点分類機能を備えたことを特徴とした請求項3ないし請求項6のいずれか一つに記載のデータ処理装置。
  8. 前記関連節点抽出手段は、シソーラスで関連語とされている語を含む節点である関連語節点を前記関連節点として抽出する関連後節点抽出機能を備え、
    前記関連節点接合手段は、前記関連語節点を前記弱関連節点として分類する節点分類機能を備えたことを特徴とした請求項3ないし請求項7のいずれか一つに記載のデータ処理装置。
  9. 前記関連節点抽出手段は、使用者が指定した関連語を含む節点である指定関連語節点を前記関連節点として抽出する指定関連語節点抽出機能を備え、
    前記関連節点接合手段は、前記指定関連語節点を前記弱関連節点として分類する節点分類機能を備えたことを特徴とした請求項3ないし請求項8のいずれか一つに記載のデータ処理装置。
  10. 前記関連節点に含まれる語の意味的な関連性の強弱を示す意味的関連度を計算する意味的関連度計算手段を有し、
    前記関連節点接合手段は、前記意味的関連度に基づいて前記関連節点を前記強関連節点と前記弱関連節点に分類することを特徴とした請求項2または3に記載のデータ処理装置。
  11. 前記関連節点接合手段は、前記意味的関連度が第1の閾値より小さい前記関連節点を弱関連節点として分類し、前記意味的関連度が前記第1の閾値以上である前記関連節点は前記強関連節点として分類することを特徴とした請求項10に記載のデータ処理装置。
  12. 前記関連節点接合手段は、前記意味的関連度が第2の閾値より小さい前記関連節点に対しては接合を行わないことを特徴とした請求項11に記載のデータ処理装置。
  13. 単語を内容とする複数の節点と前記複数の節点の中で係り受けの関係にある2個の節点を接続する係り受け枝により入力データの構造を表すグラフを生成し、前記グラフから前記入力データを特徴付ける特徴構造を抽出するデータ処理方法において、
    文構造の集合中の各文構造から、互いに意味的に関連する節点を抽出する関連節点抽出ステップと、
    前記文構造の集合と前記関連節点抽出ステップにおいて抽出した節点の情報とを受け取り、各文構造中の意味的に互いに関連する節点同士を意味的関連枝で結びことにより文構造の変形を行う関連節点接合ステップと、
    前記関連節点ステップにおいて変形された文構造の集合から特徴的な部分構造を抽出する特徴構造抽出ステップとを実行することを特徴としたデータ処理方法。
  14. 文構造の集合中の各文構造から、互いに意味的に関連する節点を抽出する関連節点抽出機能と、
    前記文構造の集合と前記抽出した節点の情報とを受け取り、各文構造中の意味的に互いに関連する節点同士を意味的関連枝で結びことにより文構造の変形を行う関連節点接合機能と、
    前記変形された文構造の集合から特徴的な部分構造を抽出する特徴構造抽出機能とをコンピュータに実行させることを特徴としたデータ処理プログラム。
JP2007529503A 2005-08-04 2006-08-02 データ処理装置、データ処理方法、データ処理プログラム Active JP4992715B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007529503A JP4992715B2 (ja) 2005-08-04 2006-08-02 データ処理装置、データ処理方法、データ処理プログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2005227283 2005-08-04
JP2005227283 2005-08-04
PCT/JP2006/315274 WO2007015505A1 (ja) 2005-08-04 2006-08-02 データ処理装置、データ処理方法、データ処理プログラム
JP2007529503A JP4992715B2 (ja) 2005-08-04 2006-08-02 データ処理装置、データ処理方法、データ処理プログラム

Publications (2)

Publication Number Publication Date
JPWO2007015505A1 JPWO2007015505A1 (ja) 2009-02-19
JP4992715B2 true JP4992715B2 (ja) 2012-08-08

Family

ID=37708785

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007529503A Active JP4992715B2 (ja) 2005-08-04 2006-08-02 データ処理装置、データ処理方法、データ処理プログラム

Country Status (3)

Country Link
US (1) US8775158B2 (ja)
JP (1) JP4992715B2 (ja)
WO (1) WO2007015505A1 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5500070B2 (ja) 2008-07-30 2014-05-21 日本電気株式会社 データ分類システム、データ分類方法、及びデータ分類プログラム
JP5423676B2 (ja) * 2008-07-30 2014-02-19 日本電気株式会社 データ分類システム、データ分類方法、及びデータ分類プログラム
US8484201B2 (en) * 2010-06-08 2013-07-09 Microsoft Corporation Comparative entity mining
US8977538B2 (en) * 2010-09-13 2015-03-10 Richard Salisbury Constructing and analyzing a word graph
US9292492B2 (en) 2013-02-04 2016-03-22 Microsoft Technology Licensing, Llc Scaling statistical language understanding systems across domains and intents
US10339223B2 (en) * 2014-09-05 2019-07-02 Nec Corporation Text processing system, text processing method and storage medium storing computer program
CN105988990B (zh) * 2015-02-26 2021-06-01 索尼公司 汉语零指代消解装置和方法、模型训练方法和存储介质
US11062228B2 (en) 2015-07-06 2021-07-13 Microsoft Technoiogy Licensing, LLC Transfer learning techniques for disparate label sets
US20180173805A1 (en) * 2016-12-16 2018-06-21 Sap Se Application programming interface for detection and extraction of data changes
US10885900B2 (en) 2017-08-11 2021-01-05 Microsoft Technology Licensing, Llc Domain adaptation in speech recognition via teacher-student learning
CN110781305B (zh) * 2019-10-30 2023-06-06 北京小米智能科技有限公司 基于分类模型的文本分类方法及装置,以及模型训练方法
JP2022070523A (ja) * 2020-10-27 2022-05-13 株式会社日立製作所 意味表現解析システム及び意味表現解析方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001134575A (ja) * 1999-10-29 2001-05-18 Internatl Business Mach Corp <Ibm> 頻出パターン検出方法およびシステム
JP2001511564A (ja) * 1997-07-22 2001-08-14 マイクロソフト コーポレイション 全体の精度を高めるためにサーチ結果の自然言語処理を用いる情報検索システムのための装置および方法
JP2005011215A (ja) * 2003-06-20 2005-01-13 Fuji Xerox Co Ltd 情報処理装置、情報処理方法、及びプログラム
US20050108001A1 (en) * 2001-11-15 2005-05-19 Aarskog Brit H. Method and apparatus for textual exploration discovery
JP2005284723A (ja) * 2004-03-30 2005-10-13 Fuji Xerox Co Ltd 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
US20060004702A1 (en) * 2002-08-15 2006-01-05 Her Majesty The Queen In Right Of Canada, As Represented By The Minster Of Health Method and system for aggregating and disseminating time-sensitive information
JP2006506692A (ja) * 2002-02-12 2006-02-23 株式会社サン・フレア テンプレート・オートマトンとレイテント・セマンティック・インデックス原理に基づく新しいコンピュータ支援メモリ翻訳スキーム

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03129469A (ja) * 1989-10-14 1991-06-03 Canon Inc 自然言語処理装置
JP3266246B2 (ja) * 1990-06-15 2002-03-18 インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン 自然言語解析装置及び方法並びに自然言語解析用知識ベース構築方法
JP2606541B2 (ja) 1993-01-22 1997-05-07 日本電気株式会社 知識獲得方式
US5721938A (en) * 1995-06-07 1998-02-24 Stuckey; Barbara K. Method and device for parsing and analyzing natural language sentences and text
US5963940A (en) * 1995-08-16 1999-10-05 Syracuse University Natural language information retrieval system and method
US5774833A (en) * 1995-12-08 1998-06-30 Motorola, Inc. Method for syntactic and semantic analysis of patent text and drawings
US5878385A (en) * 1996-09-16 1999-03-02 Ergo Linguistic Technologies Method and apparatus for universal parsing of language
US6044347A (en) * 1997-08-05 2000-03-28 Lucent Technologies Inc. Methods and apparatus object-oriented rule-based dialogue management
JP3135235B2 (ja) * 1999-02-26 2001-02-13 株式会社エイ・ティ・アール音声翻訳通信研究所 照応解析装置
JP3353829B2 (ja) 1999-08-26 2002-12-03 インターナショナル・ビジネス・マシーンズ・コーポレーション 膨大な文書データからの知識抽出方法、その装置及び媒体
US7099855B1 (en) * 2000-01-13 2006-08-29 International Business Machines Corporation System and method for electronic communication management
US20020174147A1 (en) * 2000-05-19 2002-11-21 Zhi Wang System and method for transcoding information for an audio or limited display user interface
US7027974B1 (en) * 2000-10-27 2006-04-11 Science Applications International Corporation Ontology-based parser for natural language processing
US6721706B1 (en) * 2000-10-30 2004-04-13 Koninklijke Philips Electronics N.V. Environment-responsive user interface/entertainment device that simulates personal interaction
US6728679B1 (en) * 2000-10-30 2004-04-27 Koninklijke Philips Electronics N.V. Self-updating user interface/entertainment device that simulates personal interaction
US6795808B1 (en) * 2000-10-30 2004-09-21 Koninklijke Philips Electronics N.V. User interface/entertainment device that simulates personal interaction and charges external database with relevant data
US7050964B2 (en) * 2001-06-01 2006-05-23 Microsoft Corporation Scaleable machine translation system
US7093001B2 (en) * 2001-11-26 2006-08-15 Microsoft Corporation Methods and systems for adaptive delivery of multimedia contents
JP3870112B2 (ja) * 2002-03-13 2007-01-17 インターナショナル・ビジネス・マシーンズ・コーポレーション コンパイル方法、コンパイル装置、及びコンパイル用プログラム
AU2002951244A0 (en) * 2002-09-06 2002-09-19 Telstra New Wave Pty Ltd A development system for a dialog system
WO2005106705A2 (en) * 2004-04-26 2005-11-10 John Francis Glosson Method, system, and software for embedding metadata objects concomitantly with linguistic content
US7610191B2 (en) * 2004-10-06 2009-10-27 Nuance Communications, Inc. Method for fast semi-automatic semantic annotation
US7702500B2 (en) * 2004-11-24 2010-04-20 Blaedow Karen R Method and apparatus for determining the meaning of natural language
US7827029B2 (en) * 2004-11-30 2010-11-02 Palo Alto Research Center Incorporated Systems and methods for user-interest sensitive note-taking
US7693705B1 (en) * 2005-02-16 2010-04-06 Patrick William Jamieson Process for improving the quality of documents using semantic analysis

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001511564A (ja) * 1997-07-22 2001-08-14 マイクロソフト コーポレイション 全体の精度を高めるためにサーチ結果の自然言語処理を用いる情報検索システムのための装置および方法
JP2001134575A (ja) * 1999-10-29 2001-05-18 Internatl Business Mach Corp <Ibm> 頻出パターン検出方法およびシステム
US20050108001A1 (en) * 2001-11-15 2005-05-19 Aarskog Brit H. Method and apparatus for textual exploration discovery
JP2006506692A (ja) * 2002-02-12 2006-02-23 株式会社サン・フレア テンプレート・オートマトンとレイテント・セマンティック・インデックス原理に基づく新しいコンピュータ支援メモリ翻訳スキーム
US20060004702A1 (en) * 2002-08-15 2006-01-05 Her Majesty The Queen In Right Of Canada, As Represented By The Minster Of Health Method and system for aggregating and disseminating time-sensitive information
JP2005011215A (ja) * 2003-06-20 2005-01-13 Fuji Xerox Co Ltd 情報処理装置、情報処理方法、及びプログラム
JP2005284723A (ja) * 2004-03-30 2005-10-13 Fuji Xerox Co Ltd 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム

Also Published As

Publication number Publication date
US8775158B2 (en) 2014-07-08
US20100063795A1 (en) 2010-03-11
WO2007015505A1 (ja) 2007-02-08
JPWO2007015505A1 (ja) 2009-02-19

Similar Documents

Publication Publication Date Title
JP4992715B2 (ja) データ処理装置、データ処理方法、データ処理プログラム
CN103154936B (zh) 用于自动化文本校正的方法和系统
KR102256240B1 (ko) 논팩토이드형 질의 응답 시스템 및 방법
US20190347571A1 (en) Classifier training
Xu et al. Open information extraction with tree kernels
Prabhakaran et al. Automatic committed belief tagging
US20180060306A1 (en) Extracting facts from natural language texts
KR101136007B1 (ko) 문서 감성 분석 시스템 및 그 방법
RU2607976C1 (ru) Извлечение информации из структурированных документов, содержащих текст на естественном языке
Al-Ghadhban et al. Arabic sarcasm detection in Twitter
Gokul et al. Sentence similarity detection in Malayalam language using cosine similarity
KR101627428B1 (ko) 딥 러닝을 이용하는 구문 분석 모델 구축 방법 및 이를 수행하는 장치
CN114254653A (zh) 一种科技项目文本语义抽取与表示分析方法
Gómez-Adorno et al. A graph based authorship identification approach
CN113312922B (zh) 一种改进的篇章级三元组信息抽取方法
Chen et al. Neural maximum subgraph parsing for cross-domain semantic dependency analysis
WO2020091618A1 (ru) Система определения именованных сущностей с динамическими параметрами
Aliwy Tokenization as preprocessing for Arabic tagging system
Al-Khalifa et al. SemQ: A proposed framework for representing semantic opposition in the Holy Quran using Semantic Web technologies
Jang et al. A novel density-based clustering method using word embedding features for dialogue intention recognition
Du et al. Language model-based automatic prefix abbreviation expansion method for biomedical big data analysis
Nichols et al. SpRL-CWW: Spatial relation classification with independent multi-class models
Abdolahi et al. Sentence matrix normalization using most likely n-grams vector
Zarembo et al. Assessment of name based algorithms for land administration ontology matching
CN110263345A (zh) 关键词提取方法、装置及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090717

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111213

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120210

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120410

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120423

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150518

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4992715

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150