JP4992715B2 - データ処理装置、データ処理方法、データ処理プログラム - Google Patents
データ処理装置、データ処理方法、データ処理プログラム Download PDFInfo
- Publication number
- JP4992715B2 JP4992715B2 JP2007529503A JP2007529503A JP4992715B2 JP 4992715 B2 JP4992715 B2 JP 4992715B2 JP 2007529503 A JP2007529503 A JP 2007529503A JP 2007529503 A JP2007529503 A JP 2007529503A JP 4992715 B2 JP4992715 B2 JP 4992715B2
- Authority
- JP
- Japan
- Prior art keywords
- node
- nodes
- sentence
- extracting
- data processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
図24のテキストマイニング装置は、おおまかには、次のように動作する。まず、言語特徴分析装置が、基本辞書と文書データとから分野依存辞書を作成する。次に、言語解析装置が基本辞書と分野依存辞書と文書データから1文毎に構文木などの文構造を作成する。ここで、文構造とは、テキストを構文解析することで得られるテキストを表現するグラフ構造を指す。その次に、パターン抽出装置が、この文構造を用いて特徴構造を抽出し、この特徴構造に合致する文書データ中の文書を頻出パターン適合文書記憶部に記憶させると同時にこの特徴構造を出力する。ここで、特徴構造とは、文構造の部分構造に対してテキストマイニング処理を適用して抽出される頻出パターンなどのテキスト集合を特徴付ける部分構造を指す。
これは、従来のテキストマイニング装置は、意味の同じ一つの内容について、1テキスト内で単一の語を用いて書かれている場合と、1テキスト内で同一の内容を指す複数の語を用いて書かれている場合とを同一視する手段を備えていないためである。
テキストS100を構文解析すると文構造T100が得られ、これがそのまま特徴構造PT101として抽出される(図25(a))。テキストS101を構文解析すると文構造T101と文構造T102が得られ、特徴構造として特徴構造PT101およびPT102が抽出される(図25(b))。
しかし、この内容を「車種A」という単一の語で述べているテキストS100の文構造T100と、この内容を先行詞「車種A」と「ゼロ代名詞」を用いて述べているテキストS101の文構造T101およびT102では、異なる構造となってしまっている。その結果、既存のテキストマイニング手法では同じ意味内容を表す両者の文の構造を同一視できず、別々の特徴部分構造として抽出されてしまう。
これは、従来のテキストマイニング装置は、一つのテキスト中で、意味的に関連のある複数の語を用いて一つの内容を述べている場合に、その内容を一つの構造にまとめて抽出する手段を備えていないためである。
「意味的に関連のある語」には、例えば、同表層の語、シソーラス中で同義語の関係にある語、ユーザ指定の同義語、上位概念と下位概念などシソーラス中で相互に関係を持つ語(シソーラス中での関連語)、ユーザ指定の関連語などの意味的に関連するが同じ内容を指さない語が挙げられる。なお、ユーザ指定の同義語とは、同一の内容を指し得る複数の語としてユーザが指定する語で、頻出パターンなどの特徴構造抽出時に同一の語として判定される。また、ユーザ指定の関連語とは、相互に関連するが必ずしも同一の内容を指さない語としてユーザが指定する語である。
しかし、テキストS102の文構造T103では、一般の軽自動車とB社の軽自動車の意味的な関係が文構造上で表現されていないため、既存のテキストマイニング手法ではこの比較を表す構造を一つの構造にまとめて抽出を行うことができない。また、テキストS103の文構造では、この比較を表す構造が文構造T104およびT105の2つに分割されてしまっているため、既存のテキストマイニング手法では一つの構造にまとめて抽出を行うことができない。
その結果として、二つのテキストには同表層の複数の語「軽自動車」を用いて書かれた関連する内容があるのに、一般の軽自動車について述べた内容の構造(PT104およびPT106)とB社の軽自動車について述べた内容の構造(PT105およびPT107)が別々に抽出されてしまう。
関連節点接合手段は、関連節点の一部または全部を接合することによりグラフを変形する。ここで、「接合」とは、複数の節点を一つの節点に結合すること、または、グラフ中のある節点と他の節点を新たな枝で接続することを意味する。
特徴構造抽出手段は、関連節点接合手段により変形されたグラフから、特徴構造を抽出する(請求項1)。
そのため、入力データの中に同一の内容を指す複数の語あるいは意味的に関連のある複数の語が含まれている場合にも、特徴構造を正しく抽出することができる。
このようにすれば、同一の内容を指す節点を一つの節点に結合するようにグラフを変形することができる。すなわち、1つの入力データ内で単一の語を用いて書かれている場合の構造と、1つの入力データ内で同一の内容を指す複数の語を用いて書かれている場合の構造とを同一の形に変形することができる。
特徴構造抽出手段は、このように変形した後のグラフから特徴構造を抽出するから、意味の同じ一つの内容について、1つの入力データ内で単一の語を用いて書かれている場合と、1つの入力データ内で同一の内容を指す複数の語(たとえば、先行詞とそれに照応する代名詞)を用いて書かれている場合とを、同一視して特徴構造を抽出することができる。
特徴構造抽出手段は、このように変形したグラフから特徴構造を抽出するから、一つの入力データの中で、意味的に関連のある複数の語を用いて一つの内容を述べている場合に、その内容を一つの構造にまとめて抽出することができる。
このようにすれば、強関連節点と弱関連節点の分類を、定量的な指標に基づいて行うことができる。
さらに、意味的関連度が第2の閾値(第1の閾値より小)よりも小さい関連節点に対しては接合を行わないようにしてもよい(請求項12)。
このようにすれば、マイニングなどのデータ処理の目的や対象の入力データの性質に応じて閾値を適切に定めて関連節点接合手段の動作を調整し、特徴構造抽出手段により抽出される特徴構造を調整することができる。
そのため、入力データの中に同一の内容を指す複数の語あるいは意味的に関連のある複数の語が含まれている場合にも、特徴構造を正しく抽出することができる。
そのため、入力データの中に同一の内容を指す複数の語あるいは意味的に関連のある複数の語が含まれている場合にも、特徴構造を正しく抽出することができる。
そのため、データ処理の対象となる入力データの中に同一の内容を指す複数の語あるいは意味的に関連のある複数の語が含まれている場合にも、特徴構造を正しく抽出することができる。
(テキストマイニング装置10の構成)
図1は、テキストマイニング装置10の構成を示す機能ブロック図である。
テキストマイニング装置10は、たとえばパーソナルコンピュータで構成され、情報を記憶する記憶装置1と、プログラム制御により動作するデータ処理装置2と、検出された部分構造を表示する出力装置3とを備えている。記憶装置1にはテキストデータベース(DB)11が格納されている。テキストDB11には、テキストマイニングの対象となるテキストの集合が記憶されている。
言語解析手段21は、テキストDB11からテキスト集合を読み込み、集合中の各テキストを解析して文構造を生成する。
関連節点抽出手段22は、言語解析手段21から送られてきた文構造の集合中の各文構造から、互いに意味的に関連する節点(関連接点)の抽出を行う。意味的に関連のある節点としては、例えば、照応関係にある代名詞またはゼロ代名詞と先行詞の関係にある節点、表層が同じである節点、シソーラス中で同義語の関係にある節点、ユーザ指定の同義語の関係にある節点、シソーラス中で関連語の関係にある節点、ユーザ指定の関連語の関係にある節点などが挙げられる。
例えば、関連節点接合手段23は、関連節点抽出手段22から文構造の集合と関連節点の情報を受け取り、各文構造中の互いに関連のある節点どうしを結合して一つの節点として各文構造の変形を行う。
別の例としては、関連節点接合手段23は、関連節点抽出手段22から文構造の集合と関連節点の情報を受け取り、各文構造中の意味的に互いに関連のある節点どうしを意味的関連枝で結ぶことで各文構造の変形を行う。
そして、強関連節点については、関連のある節点どうしを結合して一つの節点に結合し、弱関連節点については、関連のある節点どうしを意味的関連枝で結ぶ。
照応関係にある代名詞またはゼロ代名詞の節点と先行詞の節点を強関連節点とする。
表層が同じである節点、シソーラス中で同義語の関係にある節点、ユーザ指定の同義語の関係にある節点、シソーラス中で関連語の関係にある節点、ユーザ指定の関連語の関係にある節点を弱関連節点とする。
関連節点接合手段23により、照応関係にある代名詞またはゼロ代名詞の節点と先行詞の節点が一つの節点に結合される場合、図2中の「車種A」と「これ」(添え字A)、「車種A」と「これ」(添え字B)がそれぞれ一つの節点に結合するべき関連節点の組となり、「車種A」はその両方に含まれることになる。
図2の文構造に方法2を適用し、関連節点の接合を行った結果の文構造T22を図4に示す。構造T22では、図2の節点「車種A」と「これ」(添え字A)が一つの節点に結合され、図4の節点「車種A」(添え字A)となっている。また、図2の節点「車種A」と「これ」(添え字B)が一つの節点に結合され、図4の節点「車種A」(添え字B)となっている。
なお、図4の各接点を結ぶ枝は、いずれも係り受けを示す通常の枝である。
また、複数の関連節点の組に含まれる各節点について、関連節点のうち最もテキスト内での距離が近い文節に対応する節点と意味的関連枝で結んでもよい(方法4)。ただし、関連節点のうち最もテキスト内での距離が近い文節に対応する節点が複数ある場合は、その全てに意味的関連枝を結ぶ。
図7の節点「車種」(添え字A)からは、二つある関連節点「車種」(添え字B)、「車種」(添え字C)のうち、文内距離がより短い文節に対応する「車種」(添え字B)に意味的関連枝を結ぶ。
図7の節点「車種」(添え字B)からは、二つある関連節点「車種」(添え字A)、「車種」(添え字C)が等距離にあるため、双方に意味的関連枝を結ぼうとするが、「車種」(添え字A)と「車種」(添え字B)は既に意味的関連枝で結ばれているため、「車種」(添え字B)と「車種」(添え字C)のみが意味的関連枝で結ばれる。
図7の節点「車種」(添え字C)からは、二つある関連節点「車種」(添え字A)、「車種」(添え字B)のうち、文内距離がより短い文節に対応する「車種」(添え字B)に意味的関連枝を結ぼうとするが、「車種」(添え字B)と「車種」(添え字C)は既に意味的関連枝で結ばれているため何も行われない。
このようにして、図5の「車種」(添え字A)と「車種」(添え字B)、「車種」(添え字B)と「車種」(添え字C)がそれぞれ意味的関連枝で結ばれ、図7の文構造T25となる。
図8は、テキストマイニング装置10の動作を説明するための流れ図である。
まず、言語解析手段21が、テキストDB11からテキスト集合を読み込む。言語解析手段21は、テキスト集合中の各テキストに対し解析を行い、解析結果として文構造を生成し、関連節点抽出手段22に送る(図8のステップA1)。
最後に、特徴構造抽出手段24は、抽出した特徴構造を出力装置3に出力する(図8のステップA5)。
この動作例においては、関連節点抽出手段22は照応関係にある先行詞と代名詞またはゼロ代名詞を関連節点として抽出し、関連節点接合手段23は関連節点を一つの節点に結合することで文構造の構造変形を行う。
言語解析手段21は、図9の各テキストに対して言語解析を行い、各テキストの文構造を得る(図8のステップA1)。図10に、言語解析手段21による解析の結果得られる文構造を示す。図9のテキストS1の文構造が図10の構造T1、図9のテキストS2の文構造が図10の構造T2−AおよびT2−B、図9のテキストS3の文構造が図10の構造T3−AおよびT3−Bである。なお、図10の構造T1については言語解析手段21による並列処理が適用されており、図10の構造T2−Bについては言語解析手段21によるゼロ代名詞抽出処理が適用されている。
図10の構造T1には、関連節点が存在しないので特に変形が行われず図11の構造T1’となる。
図10の構造T2−AとT2−Bでは、関連節点である構造T2−Aの「車種A」と構造T2−Bの「(ゼロ代名詞)」は照応関係にある先行詞とゼロ代名詞に対応する節点であるので、これらの節点が一つの節点に結合され、図10の構造T2−AとT2−Bは接合されて図11の構造T2’となる。
図10の構造T3−AとT3−Bでは、関連節点である構造T3−Aの「車種A」と構造T3−Bの「その」「車種」は照応関係にある先行詞と代名詞に対応する節点であるので、これらの節点が一つの節点に結合され、図10の構造T3−Aと3−Bは接合されて図11の構造T3’となる。
最後に、抽出された特徴構造を出力装置3に表示する(図2のステップA5)。
「車種Aは安く高性能だ」という一つの内容について単一の語「車種A」を用いて述べている図9のテキストS1の文構造では、この内容が一つの部分構造T1にまとまっている。これに対して、「車種Aは安く高性能だ」という内容について同一の内容を指す複数の語を用いて述べている図9のテキストS2およびテキストS3では、この内容が複数の部分構造に分割されてしまっているので、既存のマイニング装置では、同一の構造と判定してマイニングを行うことができなかった。
しかし、テキストマイニング装置10によれば、関連節点接合手段23が関連節点を接合することによりテキストS1乃至テキストS3の「車種Aは安く高性能だ」という内容が同一の形の部分構造(図12の頻出部分構造6)になり、同一視してマイニングできるようになっている。
この例においては、関連節点抽出手段22は、表層が同じである節点、ユーザ指定の同義語の関係にある節点およびユーザ指定の関連語の関係にある節点を関連節点として抽出する。関連節点接合手段23は関連節点を意味的関連枝で結合することで文構造の構造変形を行う。
また、「軽自動車」と「軽」が、ユーザ指定の同義語として、「自動車」と「車種C」および「自動車」と「軽自動車」が、ユーザ指定の関連語として指定されているものとする。このような指定は、たとえば、同義語と関連語を定義するファイルを記憶装置11に予め作成しておくことにより行う。
ユーザ指定の関連語を、必ずしも同一の内容を指さないが意味的に関連のある語として扱うとする。
言語解析手段21は、図13の各テキストに対して言語解析を行い、各テキストの文構造を得る(図8のステップA1)。図14に、言語解析手段21による解析の結果得られる文構造を示す。図13のテキストS4の文構造が図14の構造T4である。図13のテキストS5の文構造が図14の構造T5−AおよびT5−Bである。図13のテキスト6Sの文構造が図14の構造T6−AおよびT6−Bである。図13のテキストS7の文構造が図14の構造T7である。図13のテキストS8の文構造が図14の構造T8−AおよびT8−Bである。図13のテキストS9の文構造が図14の構造T9−AおよびT9−Bである。
テキストS4からは、同表層の関係にある構造T4の二つの「軽自動車」が関連節点として抽出される。
テキストS5からは、同表層の関係にある構造T5−Aの「軽自動車」と構造T5−Bの「軽自動車」が関連節点として抽出される。
テキストS6からは、ユーザ指定の同義語の関係にある構造T6−Aの「軽自動車」と構造T6−Bの「軽」が関連節点として抽出される。
テキストS7からは、ユーザ指定の関連語の関係にある構造T7の「自動車」と「車種C」が関連節点として抽出される。
テキストS8からは、ユーザ指定の関連語の関係にある構造T8−Aの「自動車」と構造T8−Bの「車種C」が関連節点として抽出される。
テキストS9からは、ユーザ指定の関連語の関係にある構造T9−Aの「自動車」と構造T9−Bの「車種C」が関連節点として抽出される。
図15に、関連節点接合手段23による処理の結果得られる変形後の文構造を示す。
図14の構造T4では、関連節点である二つの「軽自動車」は同表層の節点であるので、これらの節点が意味的関連枝(図15では点線で示されている)で結ばれ、図15の構造T4’となる。なお、特徴構造抽出処理の際には、この意味的関連枝は文構造中の係り受け関係を表す枝とは区別される。
図14の構造T5−AとT5−Bでは、関連節点である構造T5−Aの「軽自動車」と構造T5−Bの「軽自動車」は同表層の節点であるので、これらの節点が意味的関連枝で結ばれ、図14の構造T5−AとT5−Bは接合されて図15の構造T5’となる。
図14の構造T6−AとT6−Bでは、関連節点である構造T6−Aの「軽自動車」と構造T6−Bの「軽」はユーザ指定の同義語の関係にある節点なので、これらの節点が意味的関連枝で結ばれ、図14の構造T6−AとT6−Bは接合されて図15の構造T6’となる。
図14の構造T7では、関連節点である「自動車」と「車種C」はユーザ指定の関連語の関係にある節点であるので、これらの節点が意味的関連枝で結ばれ、図15の構造T7’となる。
図14の構造T8−AとT8−Bでは、関連節点である構造T8−Aの「自動車」と構造T8−Bの「車種C」はユーザ指定の関連語の関係にある節点であるので、これらの節点が意味的関連枝で結ばれ、図15の構造T8’となる。
図14の構造T9−AとT9−Bでは、関連節点である構造T9−Aの「自動車」と構造T9−Bの「車種C」はユーザ指定の関連語の関係にある節点であるので、これらの節点が意味的関連枝で結ばれ、図15の構造T9’となる。
図16に、このような構造の例を示す。図16のT26では、対比関係にある二つの「軽自動車」節点の片方(図では左側)が、他の節点と係り受けの枝で結ばれておらず、意味を持たない構造となってしまっているのが分かる。
ここでは、そのような構造を除き、3回以上出現している部分構造を特徴構造として抽出する。ユーザ指定の同義語により「軽自動車」と「軽」が同一の語として扱われることに注意して、図15を参照すると、抽出される頻出部分構造は図17の頻出部分構造PT7乃至頻出部分構造PT23のようになる。
最後に、そのようにして抽出された特徴構造を出力装置3に出力する(図2のステップA5)。
図13のテキストS4とS5とS6では、一般の軽自動車とB社の軽自動車とを比較して述べていた内容が、また、テキストS7とS8とS9では、一般の自動車と車種Cとを比較して述べた内容が、意味的に関連のある複数の語を用いて書いているため、従来のテキストマイニング手法ではこれらの内容が複数の部分構造に分かれて抽出されてしまい、両者を比較して述べていることがマイニング結果からは分からなかった。
この動作例では、関連節点接合手段23が弱関連節点を意味的関連枝により接続して文構造を変形し一つの部分構造にまとめている。特徴節点集出手段24は、このような変形後の文構造T4’(図15)等から特徴部分構造を抽出するので、従来のテキストマイニング装置では抽出できなかった特徴部分構造PT14(図17)等を抽出することができる。
しかし、構造T27が表す一般の自動車とB社の軽自動車を比較して述べているような内容を実際に述べているテキストは、図13に示す入力テキスト集合中に存在しないため、この構造T27は特徴構造として抽出されないことが望ましい。
テキストマイニング装置10は、特徴構造を抽出してから意味的に関連する節点の接合を行う手法とは異なり、別テキストの文構造に存在している意味的に関連する節点を接合しないため、このような誤った特徴構造を抽出しない。
(テキストマイニング装置30の構成)
図19は、テキストマイニング装置30の構成を示す機能ブロック図である。
テキストマイニング装置30は、図1のテキストマイニング装置10は備えていない入力装置5を備えている。また、データ処理装置4は、図1のデータ処理装置2の関連節点接合手段23の代わりに関連度別関連節点接合手段(関連節点接合手段)26を備え、データ処理装置2は備えていない意味的関連度計算手段25を備えている。
意味的関連度の値が閾値Aより小さい場合は、関連節点について、何ら構造変形を行わない。
意味的関連度の値が閾値A以上で、閾値Bより小さい場合は、関連節点を意味的関連枝で結ぶ。
意味的関連度の値が閾値B以上の場合は、関連節点を結合して一つの節点とする。
意味的関連度の値が閾値Cより小さい場合は、関連節点について、何ら構造変形を行わない。
意味的関連度の値が閾値以上の場合は、関連節点を結合して一つの節点とする。
2個の閾値が入力されたが、それらの値が同一である場合も上記と同様にする。
図20は、テキストマイニング装置30の動作を説明するための流れ図である。
テキストマイニング装置10と異なる点は、図8のステップA3のかわりにステップB3が実行され、さらにステップA2とステップB3の間にステップB1、B2が挿入されることである。図20のステップA1、A2、A4、A5で示される処理は、テキストマイニング装置10における処理と同一であるため、説明は省略する。
意味的関連度計算手段25は、関連節点抽出手段22から各文構造中の関連節点の情報を受け取り、互いに関連する節点の意味的関連度の計算を行い、各文構造中の関連節点の意味的関連度の情報を関連度別関連節点接合手段26に送る(図20のステップB1)。
入力装置5は、関連節点の意味的関連度に応じて関連節点を分類するための2つの閾値、閾値Aと閾値Bを入力として受け付け、関連度別関連節点接合手段26に送る(図20のステップB2)。なお、ステップB2が実行されるタイミングは、図20に示した位置に限らず、ステップA4の前であれば任意の位置でよい。
このため、意味の同じ一つの内容について、1テキスト内で単一の語を用いて書かれている場合と、1テキスト内で同一の内容を指す複数の語を用いて書かれている場合とを、同一視してテキストマイニングを行うことができる。さらに、一つのテキスト中で、意味的に関連のある複数の語を用いて一つの内容を述べている場合に、その内容を一つの構造にまとめて抽出することができる。
なお、本実施例においては、関連節点抽出手段22は、表層が同じである節点、ユーザ指定の同義語の関係にある節点およびユーザ指定の関連語の関係にある節点を関連節点として抽出する。
テキストマイニング装置10の第2の動作例と同様に、図13に示したテキストS4乃至テキストS9がテキストDB11に記憶されているとする。
テキストS4からは、同表層の関係にある構造T4の「軽自動車」と「軽自動車」が関連節点として抽出される。
テキストS5からは、同表層の関係にある構造T5−Aの「軽自動車」と構造T5−Bの「軽自動車」が関連節点として抽出される。
テキストS6からは、ユーザ指定の同義語の関係にある構造T6−Aの「軽自動車」と構造T6−Bの「軽」が関連節点として抽出される。
テキストS7からは、ユーザ指定の関連語の関係にある構造T7の「自動車」と「車種C」が関連節点として抽出される。
テキストS8からは、ユーザ指定の関連語の関係にある構造T8−Aの「自動車」と構造T8−Bの「車種C」が関連節点として抽出される。
テキストS9からは、ユーザ指定の関連語の関係にある構造T9−Aの「自動車」と構造T9−Bの「車種C」が関連節点として抽出される。
ここまでの動作は、テキストマイニング装置10の場合と同様である。
関連節点の意味的関連度は、たとえば、表層が同じである節点の意味的関連度は4、ユーザ指定の同義語の関係にある節点の意味的関連度は3、ユーザ指定の関連語の関係にある節点の意味的関連度は1とする。
図14に示される各文構造中の関連節点の意味的関連度は、同表層の関係にある構造4の「軽自動車」と「軽自動車」については4、同表層の関係にある構造T5−Aの「軽自動車」と構造T5−Bの「軽自動車」については4、ユーザ指定の同義語の関係にある構造T6−Aの「軽自動車」と構造T6−Bの「軽」については3、ユーザ指定の関連語の関係にある構造T7の「自動車」と「車種C」については1、ユーザ指定の関連語の関係にある構造T8−Aの「自動車」と構造T8−Bの「車種C」については1、ユーザ指定の関連語の関係にある構造T9−Aの「自動車」と構造T9−Bの「車種C」については1とそれぞれ計算される。
図14の構造T4では、関連節点である「軽自動車」と「軽自動車」の意味的関連度は4であり、閾値A以上で閾値Bより小さいため、これらの節点が意味的関連枝(図21では点線で示されている)で結ばれ、図21の構造T4”となる。なお特徴構造抽出処理の際には、この意味的関連枝は文構造中の係り受け関係を表す枝とは区別される。
図14の構造T5−AとT5−Bでは、関連節点である構造T5−Aの「軽自動車」と構造T5−Bの「軽自動車」の意味的関連度は4であり、閾値A以上で閾値Bより小さいため、これらの節点が意味的関連枝で結ばれ、図21の構造T5”となる。
図14の構造T6−AとT6−Bでは、関連節点である構造T6−Aの「軽自動車」と構造T6−Bの「軽」の意味的関連度は3であり、閾値A以上で閾値Bより小さいため、これらの節点が意味的関連枝で結ばれ、図21の構造T6”となる。
図14の構造T7では、関連節点である「自動車」と「車種C」の意味的関連度は1であり、閾値Aより小さいため、何ら構造変形は行われず、図21の構造T7”となる。
図14の構造T8−AとT8−Bでは、関連節点である構造T8−Aの「自動車」と構造T8−Bの「車種C」の意味的関連度は1であり、閾値Aより小さいため、何ら構造変形は行われず、図21の構造T8”−AとT8”−Bとなる。
図14の構造T9−AとT9−Bでは、関連節点である構造T9−Aの「自動車」と構造T9−Bの「車種C」の意味的関連度は1であり、閾値Aより小さいため、何ら構造変形は行われず、図21の構造T9”−AとT9”−Bとなる。
最後に、そのようにして抽出された特徴構造を出力装置3に出力する(図20のステップA5)。
図23のコンピュータ40は、記憶装置1と出力装置3と入力装置5とCPU(Central Processing Unit)6と主記憶装置9を備えている。記憶装置1は、例えばハードディスク装置で、テキストデータベース11を記憶している。主記憶装置9は、たとえばRAM(Random Access Memory)により構成され、テキストマイニング用プログラム7を記憶している。テキストマイニング用プログラム7は、上記に説明したテキストマイニング装置10の動作をCPU6に実行させるプログラムである。テキストマイニング用プログラム7は、CPU6に読み込まれ実行される。
このようにすれば、CPU6を言語解析手段21、関連接点抽出手段22、関連接点結合手段23、特徴構造抽出手段24として動作させ、コンピュータ40をテキストマイニング装置10として動作させることができる。
上記と同様に、CPU6を言語解析手段21、関連接点抽出手段22、意味的関連度計算手段25、関連度別関連接点結合手段26、特徴構造抽出手段24として動作させ、コンピュータ40をテキストマイニング装置30として動作させることもできる。
10、30 テキストマイニング装置
40 コンピュータ
11 テキストDB
22 関連節点抽出手段
23 関連節点接合手段
24 特徴構造抽出手段
25 意味的関連度計算手段
26 関連度別関連節点接合手段(関連節点接合手段)
Claims (14)
- 単語を内容とする複数の節点と前記複数の節点の中で係り受けの関係にある2個の節点を接続する係り受け枝により入力データの構造を表すグラフを生成し、前記グラフから前記入力データを特徴付ける特徴構造を抽出するデータ処理装置において、
文構造の集合中の各文構造から、互いに意味的に関連する節点を抽出する関連節点抽出手段と、
前記文構造の集合と前記関連節点抽出手段が抽出した節点の情報とを受け取り、各文構造中の意味的に互いに関連する節点同士を意味的関連枝で結びことにより文構造の変形を行う関連節点接合手段と、
前記関連節点接合手段により変形された文構造の集合から特徴的な部分構造を抽出する特徴構造抽出手段と、を
備えたことを特徴としたデータ処理装置。 - 前記関連節点接合手段は、前記関連節点を意味的関連性が強い強関連節点と意味的関連性が弱い弱関連節点に分類する機能と、前記強関連節点を一つの節点に結合する機能とを備えたことを特徴とした請求項1に記載のデータ処理装置。
- 前記関連節点接合手段は、前記弱関連節点を意味的関連枝で接合する機能を備え、
前記特徴構造抽出手段は、前記グラフの部分構造が、前記意味的関連枝で接続された節点を含み、かつ、その中の少なくとも1の節点が前記係り受け枝により他の節点と接続されていない場合は前記特徴構造として抽出しない否抽出機能を備えていることを特徴とした請求項2に記載のデータ処理装置。 - 前記関連節点抽出手段は、代名詞またはゼロ代名詞およびこれらと照応関係にある先行詞を含む節点である照応節点を前記関連節点として抽出する照応節点抽出機能を備え、
前記関連節点接合手段は、前記照応節点を前記強関連節点として分類する節点分類機能を備えたことを特徴とした請求項3に記載のデータ処理装置。 - 前記関連節点抽出手段は、表層が同じである語を含む節点である同表層節点を前記関連節点として抽出する同表層節点抽出機能を備え、
前記関連節点接合手段は、前記同表層節点を前記弱関連節点として分類する節点分類機能を備えたことを特徴とした請求項3または4に記載のデータ処理装置。 - 前記関連節点抽出手段は、シソーラスで同義語とされている語を含む節点である同義語節点を前記関連節点として抽出する同義節点抽出機能を備え、
前記関連節点接合手段は、前記同義語節点を前記弱関連節点として分類する節点分類機能を備えたことを特徴とした請求項3ないし請求項5のいずれか一つに記載のデータ処理装置。 - 前記関連節点抽出手段は、使用者が指定した同義語を含む節点である指定同義語節点を前記関連節点として抽出する指定同義語節点抽出機能を備え、
前記関連節点接合手段は、前記指定同義語節点を前記弱関連節点として分類する節点分類機能を備えたことを特徴とした請求項3ないし請求項6のいずれか一つに記載のデータ処理装置。 - 前記関連節点抽出手段は、シソーラスで関連語とされている語を含む節点である関連語節点を前記関連節点として抽出する関連後節点抽出機能を備え、
前記関連節点接合手段は、前記関連語節点を前記弱関連節点として分類する節点分類機能を備えたことを特徴とした請求項3ないし請求項7のいずれか一つに記載のデータ処理装置。 - 前記関連節点抽出手段は、使用者が指定した関連語を含む節点である指定関連語節点を前記関連節点として抽出する指定関連語節点抽出機能を備え、
前記関連節点接合手段は、前記指定関連語節点を前記弱関連節点として分類する節点分類機能を備えたことを特徴とした請求項3ないし請求項8のいずれか一つに記載のデータ処理装置。 - 前記関連節点に含まれる語の意味的な関連性の強弱を示す意味的関連度を計算する意味的関連度計算手段を有し、
前記関連節点接合手段は、前記意味的関連度に基づいて前記関連節点を前記強関連節点と前記弱関連節点に分類することを特徴とした請求項2または3に記載のデータ処理装置。 - 前記関連節点接合手段は、前記意味的関連度が第1の閾値より小さい前記関連節点を弱関連節点として分類し、前記意味的関連度が前記第1の閾値以上である前記関連節点は前記強関連節点として分類することを特徴とした請求項10に記載のデータ処理装置。
- 前記関連節点接合手段は、前記意味的関連度が第2の閾値より小さい前記関連節点に対しては接合を行わないことを特徴とした請求項11に記載のデータ処理装置。
- 単語を内容とする複数の節点と前記複数の節点の中で係り受けの関係にある2個の節点を接続する係り受け枝により入力データの構造を表すグラフを生成し、前記グラフから前記入力データを特徴付ける特徴構造を抽出するデータ処理方法において、
文構造の集合中の各文構造から、互いに意味的に関連する節点を抽出する関連節点抽出ステップと、
前記文構造の集合と前記関連節点抽出ステップにおいて抽出した節点の情報とを受け取り、各文構造中の意味的に互いに関連する節点同士を意味的関連枝で結びことにより文構造の変形を行う関連節点接合ステップと、
前記関連節点ステップにおいて変形された文構造の集合から特徴的な部分構造を抽出する特徴構造抽出ステップとを実行することを特徴としたデータ処理方法。 - 文構造の集合中の各文構造から、互いに意味的に関連する節点を抽出する関連節点抽出機能と、
前記文構造の集合と前記抽出した節点の情報とを受け取り、各文構造中の意味的に互いに関連する節点同士を意味的関連枝で結びことにより文構造の変形を行う関連節点接合機能と、
前記変形された文構造の集合から特徴的な部分構造を抽出する特徴構造抽出機能とをコンピュータに実行させることを特徴としたデータ処理プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007529503A JP4992715B2 (ja) | 2005-08-04 | 2006-08-02 | データ処理装置、データ処理方法、データ処理プログラム |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005227283 | 2005-08-04 | ||
JP2005227283 | 2005-08-04 | ||
PCT/JP2006/315274 WO2007015505A1 (ja) | 2005-08-04 | 2006-08-02 | データ処理装置、データ処理方法、データ処理プログラム |
JP2007529503A JP4992715B2 (ja) | 2005-08-04 | 2006-08-02 | データ処理装置、データ処理方法、データ処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2007015505A1 JPWO2007015505A1 (ja) | 2009-02-19 |
JP4992715B2 true JP4992715B2 (ja) | 2012-08-08 |
Family
ID=37708785
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007529503A Active JP4992715B2 (ja) | 2005-08-04 | 2006-08-02 | データ処理装置、データ処理方法、データ処理プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US8775158B2 (ja) |
JP (1) | JP4992715B2 (ja) |
WO (1) | WO2007015505A1 (ja) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5500070B2 (ja) | 2008-07-30 | 2014-05-21 | 日本電気株式会社 | データ分類システム、データ分類方法、及びデータ分類プログラム |
JP5423676B2 (ja) * | 2008-07-30 | 2014-02-19 | 日本電気株式会社 | データ分類システム、データ分類方法、及びデータ分類プログラム |
US8484201B2 (en) * | 2010-06-08 | 2013-07-09 | Microsoft Corporation | Comparative entity mining |
US8977538B2 (en) * | 2010-09-13 | 2015-03-10 | Richard Salisbury | Constructing and analyzing a word graph |
US9292492B2 (en) | 2013-02-04 | 2016-03-22 | Microsoft Technology Licensing, Llc | Scaling statistical language understanding systems across domains and intents |
US10339223B2 (en) * | 2014-09-05 | 2019-07-02 | Nec Corporation | Text processing system, text processing method and storage medium storing computer program |
CN105988990B (zh) * | 2015-02-26 | 2021-06-01 | 索尼公司 | 汉语零指代消解装置和方法、模型训练方法和存储介质 |
US11062228B2 (en) | 2015-07-06 | 2021-07-13 | Microsoft Technoiogy Licensing, LLC | Transfer learning techniques for disparate label sets |
US20180173805A1 (en) * | 2016-12-16 | 2018-06-21 | Sap Se | Application programming interface for detection and extraction of data changes |
US10885900B2 (en) | 2017-08-11 | 2021-01-05 | Microsoft Technology Licensing, Llc | Domain adaptation in speech recognition via teacher-student learning |
CN110781305B (zh) * | 2019-10-30 | 2023-06-06 | 北京小米智能科技有限公司 | 基于分类模型的文本分类方法及装置,以及模型训练方法 |
JP2022070523A (ja) * | 2020-10-27 | 2022-05-13 | 株式会社日立製作所 | 意味表現解析システム及び意味表現解析方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001134575A (ja) * | 1999-10-29 | 2001-05-18 | Internatl Business Mach Corp <Ibm> | 頻出パターン検出方法およびシステム |
JP2001511564A (ja) * | 1997-07-22 | 2001-08-14 | マイクロソフト コーポレイション | 全体の精度を高めるためにサーチ結果の自然言語処理を用いる情報検索システムのための装置および方法 |
JP2005011215A (ja) * | 2003-06-20 | 2005-01-13 | Fuji Xerox Co Ltd | 情報処理装置、情報処理方法、及びプログラム |
US20050108001A1 (en) * | 2001-11-15 | 2005-05-19 | Aarskog Brit H. | Method and apparatus for textual exploration discovery |
JP2005284723A (ja) * | 2004-03-30 | 2005-10-13 | Fuji Xerox Co Ltd | 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム |
US20060004702A1 (en) * | 2002-08-15 | 2006-01-05 | Her Majesty The Queen In Right Of Canada, As Represented By The Minster Of Health | Method and system for aggregating and disseminating time-sensitive information |
JP2006506692A (ja) * | 2002-02-12 | 2006-02-23 | 株式会社サン・フレア | テンプレート・オートマトンとレイテント・セマンティック・インデックス原理に基づく新しいコンピュータ支援メモリ翻訳スキーム |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03129469A (ja) * | 1989-10-14 | 1991-06-03 | Canon Inc | 自然言語処理装置 |
JP3266246B2 (ja) * | 1990-06-15 | 2002-03-18 | インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン | 自然言語解析装置及び方法並びに自然言語解析用知識ベース構築方法 |
JP2606541B2 (ja) | 1993-01-22 | 1997-05-07 | 日本電気株式会社 | 知識獲得方式 |
US5721938A (en) * | 1995-06-07 | 1998-02-24 | Stuckey; Barbara K. | Method and device for parsing and analyzing natural language sentences and text |
US5963940A (en) * | 1995-08-16 | 1999-10-05 | Syracuse University | Natural language information retrieval system and method |
US5774833A (en) * | 1995-12-08 | 1998-06-30 | Motorola, Inc. | Method for syntactic and semantic analysis of patent text and drawings |
US5878385A (en) * | 1996-09-16 | 1999-03-02 | Ergo Linguistic Technologies | Method and apparatus for universal parsing of language |
US6044347A (en) * | 1997-08-05 | 2000-03-28 | Lucent Technologies Inc. | Methods and apparatus object-oriented rule-based dialogue management |
JP3135235B2 (ja) * | 1999-02-26 | 2001-02-13 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 照応解析装置 |
JP3353829B2 (ja) | 1999-08-26 | 2002-12-03 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 膨大な文書データからの知識抽出方法、その装置及び媒体 |
US7099855B1 (en) * | 2000-01-13 | 2006-08-29 | International Business Machines Corporation | System and method for electronic communication management |
US20020174147A1 (en) * | 2000-05-19 | 2002-11-21 | Zhi Wang | System and method for transcoding information for an audio or limited display user interface |
US7027974B1 (en) * | 2000-10-27 | 2006-04-11 | Science Applications International Corporation | Ontology-based parser for natural language processing |
US6721706B1 (en) * | 2000-10-30 | 2004-04-13 | Koninklijke Philips Electronics N.V. | Environment-responsive user interface/entertainment device that simulates personal interaction |
US6728679B1 (en) * | 2000-10-30 | 2004-04-27 | Koninklijke Philips Electronics N.V. | Self-updating user interface/entertainment device that simulates personal interaction |
US6795808B1 (en) * | 2000-10-30 | 2004-09-21 | Koninklijke Philips Electronics N.V. | User interface/entertainment device that simulates personal interaction and charges external database with relevant data |
US7050964B2 (en) * | 2001-06-01 | 2006-05-23 | Microsoft Corporation | Scaleable machine translation system |
US7093001B2 (en) * | 2001-11-26 | 2006-08-15 | Microsoft Corporation | Methods and systems for adaptive delivery of multimedia contents |
JP3870112B2 (ja) * | 2002-03-13 | 2007-01-17 | インターナショナル・ビジネス・マシーンズ・コーポレーション | コンパイル方法、コンパイル装置、及びコンパイル用プログラム |
AU2002951244A0 (en) * | 2002-09-06 | 2002-09-19 | Telstra New Wave Pty Ltd | A development system for a dialog system |
WO2005106705A2 (en) * | 2004-04-26 | 2005-11-10 | John Francis Glosson | Method, system, and software for embedding metadata objects concomitantly with linguistic content |
US7610191B2 (en) * | 2004-10-06 | 2009-10-27 | Nuance Communications, Inc. | Method for fast semi-automatic semantic annotation |
US7702500B2 (en) * | 2004-11-24 | 2010-04-20 | Blaedow Karen R | Method and apparatus for determining the meaning of natural language |
US7827029B2 (en) * | 2004-11-30 | 2010-11-02 | Palo Alto Research Center Incorporated | Systems and methods for user-interest sensitive note-taking |
US7693705B1 (en) * | 2005-02-16 | 2010-04-06 | Patrick William Jamieson | Process for improving the quality of documents using semantic analysis |
-
2006
- 2006-08-02 JP JP2007529503A patent/JP4992715B2/ja active Active
- 2006-08-02 WO PCT/JP2006/315274 patent/WO2007015505A1/ja active Application Filing
- 2006-08-02 US US11/996,484 patent/US8775158B2/en active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001511564A (ja) * | 1997-07-22 | 2001-08-14 | マイクロソフト コーポレイション | 全体の精度を高めるためにサーチ結果の自然言語処理を用いる情報検索システムのための装置および方法 |
JP2001134575A (ja) * | 1999-10-29 | 2001-05-18 | Internatl Business Mach Corp <Ibm> | 頻出パターン検出方法およびシステム |
US20050108001A1 (en) * | 2001-11-15 | 2005-05-19 | Aarskog Brit H. | Method and apparatus for textual exploration discovery |
JP2006506692A (ja) * | 2002-02-12 | 2006-02-23 | 株式会社サン・フレア | テンプレート・オートマトンとレイテント・セマンティック・インデックス原理に基づく新しいコンピュータ支援メモリ翻訳スキーム |
US20060004702A1 (en) * | 2002-08-15 | 2006-01-05 | Her Majesty The Queen In Right Of Canada, As Represented By The Minster Of Health | Method and system for aggregating and disseminating time-sensitive information |
JP2005011215A (ja) * | 2003-06-20 | 2005-01-13 | Fuji Xerox Co Ltd | 情報処理装置、情報処理方法、及びプログラム |
JP2005284723A (ja) * | 2004-03-30 | 2005-10-13 | Fuji Xerox Co Ltd | 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム |
Also Published As
Publication number | Publication date |
---|---|
US8775158B2 (en) | 2014-07-08 |
US20100063795A1 (en) | 2010-03-11 |
WO2007015505A1 (ja) | 2007-02-08 |
JPWO2007015505A1 (ja) | 2009-02-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4992715B2 (ja) | データ処理装置、データ処理方法、データ処理プログラム | |
CN103154936B (zh) | 用于自动化文本校正的方法和系统 | |
KR102256240B1 (ko) | 논팩토이드형 질의 응답 시스템 및 방법 | |
US20190347571A1 (en) | Classifier training | |
Xu et al. | Open information extraction with tree kernels | |
Prabhakaran et al. | Automatic committed belief tagging | |
US20180060306A1 (en) | Extracting facts from natural language texts | |
KR101136007B1 (ko) | 문서 감성 분석 시스템 및 그 방법 | |
RU2607976C1 (ru) | Извлечение информации из структурированных документов, содержащих текст на естественном языке | |
Al-Ghadhban et al. | Arabic sarcasm detection in Twitter | |
Gokul et al. | Sentence similarity detection in Malayalam language using cosine similarity | |
KR101627428B1 (ko) | 딥 러닝을 이용하는 구문 분석 모델 구축 방법 및 이를 수행하는 장치 | |
CN114254653A (zh) | 一种科技项目文本语义抽取与表示分析方法 | |
Gómez-Adorno et al. | A graph based authorship identification approach | |
CN113312922B (zh) | 一种改进的篇章级三元组信息抽取方法 | |
Chen et al. | Neural maximum subgraph parsing for cross-domain semantic dependency analysis | |
WO2020091618A1 (ru) | Система определения именованных сущностей с динамическими параметрами | |
Aliwy | Tokenization as preprocessing for Arabic tagging system | |
Al-Khalifa et al. | SemQ: A proposed framework for representing semantic opposition in the Holy Quran using Semantic Web technologies | |
Jang et al. | A novel density-based clustering method using word embedding features for dialogue intention recognition | |
Du et al. | Language model-based automatic prefix abbreviation expansion method for biomedical big data analysis | |
Nichols et al. | SpRL-CWW: Spatial relation classification with independent multi-class models | |
Abdolahi et al. | Sentence matrix normalization using most likely n-grams vector | |
Zarembo et al. | Assessment of name based algorithms for land administration ontology matching | |
CN110263345A (zh) | 关键词提取方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090717 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111213 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120210 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120410 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120423 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150518 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4992715 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |