JP5184195B2 - 言語処理装置およびプログラム - Google Patents

言語処理装置およびプログラム Download PDF

Info

Publication number
JP5184195B2
JP5184195B2 JP2008113908A JP2008113908A JP5184195B2 JP 5184195 B2 JP5184195 B2 JP 5184195B2 JP 2008113908 A JP2008113908 A JP 2008113908A JP 2008113908 A JP2008113908 A JP 2008113908A JP 5184195 B2 JP5184195 B2 JP 5184195B2
Authority
JP
Japan
Prior art keywords
word
sentence
processing target
pair
occurrence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008113908A
Other languages
English (en)
Other versions
JP2009265889A (ja
Inventor
一郎 山田
菊佳 三浦
英樹 住吉
正啓 柴田
伸行 八木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2008113908A priority Critical patent/JP5184195B2/ja
Publication of JP2009265889A publication Critical patent/JP2009265889A/ja
Application granted granted Critical
Publication of JP5184195B2 publication Critical patent/JP5184195B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、自然言語処理に関する。特に、テキストから情報を抽出するための言語処理装置およびそのコンピュータプログラムに関する。
従来、同一文に出現する関係のある名詞を抽出する手法として、相互情報量を用いる手法がある。相互情報量とは、2つの確率変数に対する依存尺度を表し、これを単語に対して用いることで、単語がどの程度、別の単語に依存しているかを測ることができる。非特許文献1では、相互情報量について記載されている。
北研二,「言語と計算 4 確率的言語モデル」,東京大学出版会,p.11,1999年
しかしながら、相互情報量を用いることによって関係のある名詞の対を抽出しようとする場合、それら2つの単語が出現するときの構文構造などは考慮されない。従って、出現頻度が低い単語については、相互に全く関係を持たない単語同士の場合でも、偶発的に同じ文に出現するために高い相互情報量を持ってしまう場合があるという問題がある。また、相互情報量を用いて名詞の対を抽出したとき、それら2つの単語がどのような関係を持つかを把握することはできないという問題がある。
本発明は、上記のような課題認識に基づいて行なわれたものであり、互いに関係を持つ可能性の高い名詞の対のみを精度良く抽出するとともに、それら対をなす2つの名詞の関係も抽出することのできる言語処理装置およびそのコンピュータプログラムを提供することを目的とする。
[1]上記の課題を解決するため、本発明の一態様による言語処理装置は、複数の文を含む入力テキストデータの中から、一つの文に含まれる単語のペアを処理対象単語ペアとして選択し、前記入力テキストデータ中の前記処理対象単語ペアの出現頻度の所定の特徴を抽出する処理対象単語ペア特徴抽出部(11)と、前記入力テキストデータの中の前記処理対象単語ペアが含まれる文の中に出現する他の単語を共起単語として選択し、前記入力テキストデータ中の前記共起単語の出現頻度の所定の特徴を抽出する共起単語特徴抽出部(共起名詞特徴抽出部12)と、前記入力テキストデータの中の前記処理対象単語ペアと前記共起単語とが含まれる文の構文構造を抽出し、前記入力テキストデータの中の前記構文構造の出現頻度の所定の特徴を抽出する構文構造特徴抽出部(13)と、処理対象概念と関係する語を予め記憶した処理対象概念関連語データを参照することにより前記共起単語が前記処理対象単語ペアの関係を表わすクラスに属すると判別できる前記入力テキストデータ中の文の情報と、前記処理対象単語ペアの出現頻度特徴と、前記共起単語の出現頻度特徴と、前記構文構造の出現頻度特徴とに基づいて、文が前記処理対象単語ペアの関係を表わすクラスに属することを前提としたとき前記処理対象単語ペアが出現する条件付き確率、および文が前記処理対象単語ペアの関係を表わすクラスに属することを前提としたとき前記共起単語が出現する条件付き確率、および文が前記処理対象単語ペアの関係を表わすクラスに属することを前提としたとき前記構文構造が出現する条件付き確率を、学習結果データとして学習結果データ記憶部(3)に書き込む処理を行なう機械学習処理部(14)とを具備することと特徴とする。
この構成によれば、処理対象単語ペア特徴抽出部は、文に含まれる処理対象単語ペアについての出現頻度特徴を抽出する。共起単語特徴抽出部は、共起単語についての出現頻度特徴を抽出する。構文構造特徴抽出部は、処理対象単語ペアと共起単語との当該文中の構文構造を抽出するとともにその構文構造についての出現頻度特徴を抽出する。入力テキストデータとして大量の文を含むものを用いた場合、これら抽出された出現頻度特徴の数値は、言語として統計的に妥当な特徴を表わすものとなる。機械学習処理部は、処理対象概念と関係する語を予め記憶した処理対象概念関連語データを参照することにより、具体的にはこの処理対象概念関連語データに対応する語が文に含まれているか否かを判定することなどにより、与えられている複数の文のうち、共起単語が処理対象単語ペアの関係を表わすクラスに属すると判別できる文を抽出する。これら抽出された文は、共起単語が処理対象単語ペアの関係を表わすクラスに属することが明らかであるような文であるものとすることができる。このような文は、機械学習処理における正解サンプルとして作用する。なお、機械学習処理部は、処理対象概念関連語を予め記憶した処理対象概念関連語データを参照し、共起単語が処理対象概念関連語データに含まれているか否かにより、共起単語を含む文が、共起単語が処理対象単語ペアの関係を表わすクラスに属するか否かを判別する。これにより、機械学習処理部は、そのクラスに属する文を抽出する。この正解サンプルを基に、例えばEMアルゴリズムなどを用いた機械学習処理等により、統計的に、正解サンプル以外も含めた入力テキストデータに含まれる文全体について、前記クラスのときの処理対象単語ペアの条件付き確率と、前記クラスのときの共起単語の条件付き確率と、前記クラスのときの構文構造の条件付き確率が得られる(学習結果データ)。この場合のクラス(C)とは共起単語が処理対象単語ペアの関係を表わすという命題によるものであるが、本クラスの補集合が成す別のクラス(C、共起単語が処理対象単語ペアの関係を表わさないようなクラス)についてのそれぞれの確率も、全体の確率(1)から前記のそれぞれの条件付き確率を減ずることによって得られる。得られた学習結果データは、処理対象単語ペアが前記クラスに属する確率や、共起単語が前記クラスに属する確率や、構文構造が前記クラスに属する確率を算出するために用いることができる。
つまり、同一文に出現する他の単語(共起単語)が、処理対象とする2つの名詞の関係名を示すかを判定することができる。この結果、出現頻度が低い単語間の関係も高精度に推定することができる。
この言語処理装置が処理の対象とする単語の典型例は、名詞である。このとき、処理対象単語ペアは、処理対象名詞ペアである。共起単語の典型例は共起名詞である。
また、この言語処理装置において、予め決められた処理対象属性に限定して処理対象単語ペアを選択するようにしても良い。このような限定を行なうことにより、無関係な処理対象単語ペアが候補に含まれなくなり、算出される出現頻度特徴の信頼性が上がる。
[2]また、本発明の一態様は、上記の言語処理装置において、前記構文構造特徴抽出部は、前記文の構文解析結果に基づき、前記処理対象単語ペアに含まれる第1の単語と当該処理対象単語ペアに含まれる第2の単語と前記共起単語との共通係り先文節を取り出し、前記第1の単語から前記共通係り先文節までの構文構造と、前記第2の単語から前記共通係り先文節までの構文構造と、前記共通係り先文節を修飾する構文構造との組み合わせにより当該文の構文構造を同定することを特徴とする。
この構成により、本発明の統計的処理に特に適した構文構造が得られる。その結果、単語抽出の精度が上がる。
[3]また、本発明の一態様は、上記の言語処理装置において、前記構文構造特徴抽出部は、前記構文構造を表わす単語のリストに出現する単語であって、前記第1の単語でも前記第2の単語でも前記共起単語でもない単語が共通である割合が所定の閾値以上であるような複数の構文構造を類似の構文構造を有する構文構造グループとし、この構文構造グループの出現頻度特徴を前記構文構造の出現頻度特徴として抽出することを特徴とする。
この構成により、類似の構文構造を有する文をまとめた構文構造グループを対象として出現頻度特徴を抽出することができる。その結果、文中での使用単語や表記に関する些細な揺れを吸収し、統計的に安定した構文構造の出現頻度特徴を抽出できる。その結果、入力テキストデータに含まれる文数が比較的少ない場合にも高い精度での単語抽出が可能となる。
[4]また、本発明の一態様は、上記の言語処理装置において、前記学習結果データ記憶部から読み出した前記学習結果データを用いて、文に前記処理対象単語ペアが出現することを前提として当該文が前記クラスに属する条件付き確率と、文に前記共起単語が出現することを前提として当該文が前記クラスに属する条件付き確率と、文に前記構文構造が出現することを前提として当該文が前記クラスに属する条件付き確率とを算出する確率値計算処理部をさらに具備することを特徴とする。
この構成により、処理対象単語ペアが前記クラスに属する確率や、共起単語が前記クラスに属する確率や、構文構造が前記クラスに属する確率を算出することができる。つまり、例えば適宜確率についての閾値を用いることなどにより、文およびそこに含まれる処理対象単語ペアや共起単語や構文構造が、そのクラスに属するか否かを判定することができる。
[5]また、本発明の一態様による言語処理装置は、上記の言語処理装置によって前記学習結果データ記憶部に書き込まれた前記学習結果データを用いて、文に前記処理対象単語ペアが出現することを前提として当該文が前記クラスに属する条件付き確率と、文に前記共起単語が出現することを前提として当該文が前記クラスに属する条件付き確率と、文に前記構文構造が出現することを前提として当該文が前記クラスに属する条件付き確率とを算出する確率値計算処理部を具備することを特徴とする。
この構成により、予め入力テキストデータを用いて行った機械学習処理の結果である学習結果データを用いて、文およびそこに含まれる処理対象単語ペアや共起単語や構文構造が、そのクラスに属するか否かを判定することができる。
また、機械学習処理に用いた元の入力テキストデータには含まれていなかった別の文を判定対象とすることもできる。
[6]また、本発明の一態様は、複数の文を含む入力テキストデータの中から、一つの文に含まれる単語のペアを処理対象単語ペアとして選択し、前記入力テキストデータ中の前記処理対象単語ペアの出現頻度の所定の特徴を抽出する処理対象単語ペア特徴抽出過程と、前記入力テキストデータの中の前記処理対象単語ペアが含まれる文の中に出現する他の単語を共起単語として選択し、前記入力テキストデータ中の前記共起単語の出現頻度の所定の特徴を抽出する共起単語特徴抽出過程と、前記入力テキストデータの中の前記処理対象単語ペアと前記共起単語とが含まれる文の構文構造を抽出し、前記入力テキストデータの中の前記構文構造の出現頻度の所定の特徴を抽出する構文構造特徴抽出過程と、処理対象概念と関係する語を予め記憶した処理対象概念関連語データを参照することにより前記共起単語が前記処理対象単語ペアの関係を表わすクラスに属すると判別できる前記入力テキストデータ中の文の情報と、前記処理対象単語ペアの出現頻度特徴と、前記共起単語の出現頻度特徴と、前記構文構造の出現頻度特徴とに基づいて、文が前記処理対象単語ペアの関係を表わすクラスに属することを前提としたとき前記処理対象単語ペアが出現する条件付き確率、および文が前記処理対象単語ペアの関係を表わすクラスに属することを前提としたとき前記共起単語が出現する条件付き確率、および文が前記処理対象単語ペアの関係を表わすクラスに属することを前提としたとき前記構文構造が出現する条件付き確率とを、学習結果データとして学習結果データ記憶部に書き込む処理を行なう機械学習処理過程との処理をコンピュータに実行させるプログラムである。
本発明によれば、テキストに含まれる関係のある単語対とその関係名を表わす単語を抽出することができる。また、出現頻度が低い単語間の関係も高精度に推定することができる。また、関係を構成するときの構文構造の特徴も抽出できる。このような技術は、機械によるテキスト理解の分野でも有用であり、今後、大量のテキストを機械により解析して重要な情報を抽出するような情報分析などの分野での応用が期待できる。
[第1の実施の形態]
次に、本発明の一実施形態について、図面を参照しながら説明する。
図1は、本実施形態による言語処理装置の機能構成を示すブロック図である。この図において、符号1は言語処理装置である。図示するように、言語処理装置1は、入力テキスト記憶部2と、学習結果データ記憶部3と、出力データ4と、処理対象単語ペア特徴抽出部11と、共起名詞特徴抽出部12(共起単語特徴抽出部)と、構文構造特徴抽出部13と、機械学習処理部14と、確率値計算処理部15とを含んで構成される。
入力テキスト記憶部2は、処理対象となる入力テキストデータを記憶する。この入力テキストデータには大量の文が含まれている。
処理対象単語ペア特徴抽出部11は、処理対象属性を予め決め、その属性に属する名詞ペアを処理対象単語ペアとする。この処理対象単語ペアに対して、その出現回数などの特徴を入力テキストから抽出する。言い換えれば、処理対象単語ペア特徴抽出部11は、複数の文を含む入力テキストデータの中から、一つの文に含まれる単語のペアを処理対象単語ペアとして選択し、入力テキストデータ中の処理対象単語ペアの出現頻度の所定の特徴を抽出する。
共起名詞特徴抽出部12は、一文中に出現する処理対象属性に属する2つの名詞(名詞ペア)に対して、その関係の候補となる同一文に出現する他の名詞に対して、その出現回数などの特徴を入力テキストから抽出する。言い換えれば、共起名詞特徴抽出部12は、入力テキストデータの中の処理対象単語ペアが含まれる文の中に出現する他の単語を共起単語として選択し、入力テキストデータ中の共起単語の出現頻度の所定の特徴を抽出する。
構文構造特徴抽出部13は、処理対象単語ペアと共起する名詞との間の構文構造特徴を抽出する。具体的には、構文構造特徴抽出部13は、一文中に出現する処理対象属性に属する2つの名詞と、同一文に出現する他の名詞との3文節間の構文構造の出現回数などの特徴を入力テキストから抽出する。言い換えれば、構文構造特徴抽出部13は、入力テキストデータの中の処理対象単語ペアと共起単語とが含まれる文の構文構造を抽出し、入力テキストデータの中の構文構造の出現頻度の所定の特徴を抽出する。
機械学習処理部14は、処理対象単語ペア特徴抽出部11と共起名詞特徴抽出部12と構文構造特徴抽出部13の結果を入力として、EMアルゴリズムによる機械学習処理を行なう。詳しくは、機械学習処理部14は、処理対象概念と関係する語を予め記憶した処理対象概念関連語データを参照することにより共起単語が処理対象単語ペアの関係を表わすクラスに属すると判別できる前記入力テキストデータ中の文の情報と、処理対象単語ペアの出現頻度特徴と、共起単語の出現頻度特徴と、構文構造の出現頻度特徴とに基づいて、文が処理対象単語ペアの関係を表わすクラスに属することを前提としたとき処理対象単語ペアが出現する条件付き確率、および文が処理対象単語ペアの関係を表わすクラスに属することを前提としたとき共起単語が出現する条件付き確率、および文が処理対象単語ペアの関係を表わすクラスに属することを前提としたとき構文構造が出現する条件付き確率とを、学習結果データとして学習結果データ記憶部に書き込む処理を行なう。
学習結果データ記憶部3は、機械学習処理の結果得られるデータ(確率値のデータ)を記憶するためのものである。
確率値計算処理部15は、機械学習処理部14の結果である学習結果データを学習結果データ記憶部3から読み出し、処理対象名詞ペアが相互に関係を持つ確率と、処理対象名詞ペアと共起した名詞が関係を表す単語である確率と、処理対象名詞ペアと共起した名詞との間の構文構造が関係を示す構造である確率を計算して出力する。言い換えれば、確率値計算処理部15は、学習結果データを用いて、文に処理対象単語ペアが出現することを前提として当該文がクラスに属する条件付き確率と、文に共起単語が出現することを前提として当該文がクラスに属する条件付き確率と、文に構文構造が出現することを前提として当該文が前記クラスに属する条件付き確率とを算出する。
出力データ4は、確率値計算処理部15によって出力されるデータである。
図2は、言語処理装置1の全体の処理の手順を示すフローチャートである。以下では、このフローチャートを参照しながら、言語処理装置1全体の処理の流れについて、説明する。
本装置では、まずステップS01において、処理対象単語ペア特徴抽出部11が、処理対象属性を決め、その属性に属する名詞ペアを入力テキスト記憶部2から読み出したテキスト中から抽出する。処理対象属性の例としては、「動物」、「人」、「国」、「団体」などといった属性が挙げられる。処理対象単語ペア特徴抽出部11は、与えられた処理対象属性に属する名詞ペアを決定し、入力テキストに対する、その名詞ペアの出現頻度特徴を計算する。
次にステップS02において、共起名詞特徴抽出部12が、上で決定した処理対象属性に属する名詞ペアと同じ文中に出現する他の名詞(これが関係候補となる名詞であるが、処理対象単語ペアと共起する名詞であるので、以後、便宜的に「共起名詞」と呼ぶ)を、その関係の候補として一つ選択し、当該共起名詞の入力テキストに対する出現頻度特徴を計算する。
そしてステップS03において、構文構造特徴抽出部13は、処理対象単語ペア特徴抽出部11が決定した処理対象属性に属する名詞ペアと、共起名詞特徴抽出部12が決定した共起名詞との間の構文構造を抽出し、その出現回数を計算する。ここで、構文特徴とは、文中の文節間の係り受け構造である。構文構造特徴抽出部13は、既存技術を用いて該当する文の構文解析処理を行ない、得られた構文木のデータを基に、当該文の係り受け構造を表わす3つのリストを生成する。
まず、対象としている名詞ペアと共起名詞特徴抽出部12が決定した共起名詞との共通係り先の文節(共通係り先文節)を抽出する。そして、上記の3つのリストとは、まず第1に、対象としている名詞ペア中の一つ目の名詞から、上記の共通係り先の文節への係り受け構造を表わすリストである。そして第2に、対象としている名詞ペア中の二つ目の名詞から、上記の共通係り先の文節への係り受け構造を表わすリストである。そして第3に、これら以外の部分で、上記の共通係り先の文節を修飾する構造を表わすリストである。なおこのとき、係り先の文節として、係り元の文節自体も含めて処理を行う。
このとき、構文構造特徴抽出部13は、各文節を、名詞や動詞などの自立語部分と、助詞などの付属語部分とに分割する。例えば、「プレーリードッグにとってイヌワシは 恐ろしい天敵です。」という文を処理する場合であって、「プレーリードッグ」と「イヌワシ」が処理対象単語ペア特徴抽出部11によって決定された名詞ペアであり、また「天敵」が共起名詞特徴抽出部12によって決定された共起名詞である場合、下記の3つのリストが構文構造として取り出される。
第1のリスト=「プレーリードッグ」から共通係り先の文節「天敵です」までの構文構造: 「名詞1」,にとって
第2のリスト=「イヌワシ」から共通係り先の文節「天敵です」までの構文構造: 「名詞2」,は
第3のリスト=「天敵です」を修飾する構文構造: 恐ろしい,NULL,「名詞3」
この例では、「名詞1」は「プレーリードッグ」であり、「名詞2」は「イヌワシ」であり、「名詞3」は「天敵」である。なお、上の3つのリストを抽出する元になる係り受け構造は、「イヌワシ−は−天敵−です」,「プレーリードッグ−にとって−天敵−です」,「恐ろしい−天敵」などであり、この係り受け構造は、構文解析処理によって取得可能である。
そして、構文構造特徴抽出部13は、これら3つのリストの組が全く同一であるものの出現頻度をカウントする。
但し、3つのリストの組が全く同一であるものの出現頻度をカウントする代わりに、互いの類似度が所定値以上となる組の出現頻度をカウントするようにしても良い。ここで用いる類似度としては、例えば、上記の3つのリストに出現する名詞1〜3以外の共通単語の割合で判断することができる。例えば、上に示した第1の文「プレーリードッグにとってイヌワシは 恐ろしい天敵です。」と、別の第2の文「プレーリードッグにとってイヌワシは 天敵です。」という文から取り出した構造との共通単語の割合は、次のように計算できる。即ち、第2の文から得られる3つのリストは、次の通りである。
第1のリスト=「プレーリードッグ」から「天敵です」までの構文構造: 「名詞1」,にとって
第2のリスト=「イヌワシ」から「天敵です」までの構文構造: 「名詞2」,は
第3のリスト=「天敵です」を修飾する構文構造: 「名詞3」
そして、第1の文の3つのリストと第2の文の3つのリストとの間の共通単語は、「にとって」と「は」であり、これらが第1の文と第2の文に出現しているので、共通単語数は4である。また、共通でない単語は「恐ろしい」と「NULL」であり、共通でない単語数は2である。よって、これらの文の類似度は4/(4+2)であり、即ち4/6と計算できる。
上述したように、構文構造特徴抽出部13は、名詞1(処理対象単語ペアに含まれる第1の単語)と名詞2(当該処理対象単語ペアに含まれる第2の単語)と共起単語との共通係り先の文節を取り出し、第1の単語から共通係り先の文節までの構文構造と、第2の単語から共通係り先の文節までの構文構造と、これら以外の部分で、その共通係り先文節を修飾する構文構造との組み合わせにより当該文の構文構造を同定している。
また、構文構造特徴抽出部13が、全く同一の構文構造の出現頻度をカウントする代わりに、互いの類似度が所定値以上となる組の出現頻度をカウントするような場合には、構文構造特徴抽出部13は、構文構造を表わす単語のリストに出現する単語であって、名詞1でも名詞2でも共起名詞でもない単語が共通である割合が所定の閾値以上であるような複数の構文構造を類似の構文構造を有する構文構造グループとし、この構文構造グループの出現頻度特徴を前記構文構造の出現頻度特徴として抽出しているといえる。
ここで、処理対象単語ペア特徴抽出部11と共起名詞特徴抽出部12と構文構造特徴抽出部13とがそれぞれ計算する出現頻度特徴について説明する。これらの出現頻度特徴の情報は、後の機械学習処理部14による機械学習の処理において用いられる。
一文中に出現する与えられた処理対象属性に属する名詞ペアと、当該文に出現する他の名詞と、これら3つの名詞間の構文構造の3項組をtと表現する。また、この3項組に含まれる名詞ペアをCPtとし、同一文に出現する他の名詞であって関係候補となる名詞をRPtとし、これら3つの名詞間の構文構造をSPtとする。
処理対象単語ペア特徴抽出部11は、上記の抽出結果を基に、名詞ペアの種類の出現総数をカウントする。また、処理対象単語ペア特徴抽出部11は、ある3項組tに含まれる名詞ペアCPtが3項組tに含まれるか否かの情報を取得する。
共起名詞特徴抽出部12は、上記の抽出結果を基に、共起名詞の種類の出現総数をカウントする。また、共起名詞特徴抽出部12は、ある3項組tに含まれる共起名詞RPtが3項組tに含まれるか否かの情報を取得する。
構文構造特徴抽出部13は、上記の分析の結果を基に、構文構造の種類の出現総数をカウントする。また、構文構造特徴抽出部13は、ある3項組tに含まれる構文構造SPtが3項組tに含まれるか否かの情報を取得する。
機械学習処理部14は、上述した処理対象単語ペア特徴抽出部11と共起名詞特徴抽出部12と構文構造特徴抽出部13からの出力を入力データとして用いて学習処理を行なう。
機械学習処理部14は、まずステップS04において、それらの入力データから、明らかに関係を表すと判断できる文を抽出する。例えば、動物を処理対象概念とした場合、共起名詞特徴抽出部12で得られた共起名詞(この共起名詞は、単語ペアの関係を表わす候補である)が、「弱い」、「大好物」、「好物」、「天敵」、「敵」、「仲間」、「大敵」、「得意」、「種類」、「獲物」、「食べる」などやその同義語や類義語である文を抽出する。これらは、動物という処理対象概念について関係を表すと明らかに判断できる名詞であるためである。なお、処理対象概念とここで抽出対象となる名詞(単語)との関係は、予め定義した処理対象概念関連語データとして記憶部(図示せず)に記憶しておく。例えば、概念辞書のデータをその目的のデータとして使用することができる。機械学習処理部14は、この処理対象概念関連語データを記憶部から読み出して(参照して)比較することにより、共起名詞特徴抽出部12で得られた共起名詞がその処理対象概念についての関係を表わすか否かを判断し、その判断に基づき、入力データの中から関係を表すと判別できる文を抽出する。
3項組tにおいて、その3項組を構成するCPt,RPt,SPtが、関係を表現する場合(クラス)をcとし、関係を表現しない場合(クラス)をcとする。それらの確率は、下の式(1)によって定義できる。
Figure 0005184195
式(1)において、P(CPt|c)は、クラスcのときにtに含まれる2つの名詞ペアCPtが出現する確率である。また、P(RPt|c)は、クラスcのときにtに含まれる関係候補の名詞(同一文に出現する共起名詞)RPtが出現する確率である。また、P(SPt|c)は、クラスcのときにtに含まれる3つの名詞間の構文構造SPtが出現する確率である。
この式を利用して、次に機械学習処理部14は、ステップS05において、EMアルゴリズム(Expectation-maximization algorithm)を利用した機械学習を行なう。なお、EMアルゴリズムを用いた学習処理の手順は次に示すが、下記参考文献にも記載されている。
参考文献: Kamel Nigam et al.,“Text Classification from Labeled and Unlabeled Document using EM.”,Machine Learning,Vol.39,No.2/3,pp.103-134 (2000).
この機械学習処理(ステップS05内の処理)については別のフローチャートを参照して説明する。
図3は、機械学習処理部14がEMアルゴリズムを用いて行なう機械学習処理の手順を示すフローチャートである。
まずステップS21において、機械学習処理部14は、入力テキスト記憶部2から処理対象のテキストデータを読み込み、このテキストデータから得られるtが属するクラスcの初期確率P(c|t)を、下の式(2)により計算する。なお、クラスcは、cまたはcのいずれかであり、それらの定義は前述の通りである。
Figure 0005184195
この初期確率の計算においては、機械学習処理部14によって、明らかに関係を表すと判断された文(上述)から抽出された3項組tについて、関係を表現する場合のクラスcに属する回数を1とカウントする。また、それ以外の文から抽出された3項組tについて、関係を表現する場合のクラスcに属する回数を0以上且つ1未満の所定値(例えば0.5)とカウントする。この所定値は0.5に限らず適宜変更できる。また、ある文のあるtについて、上記によってcが決まると、その文のそのtについてのcは、c=1−cによって決定する。そして、そのtが出現するすべての文についてのカウントの総和をとり、得られたcおよびcカウントの結果を用いて、式(2)の分子を算出する。
なお、ステップS21の初期確率を計算する処理は、EMアルゴリズムのEステップである。
次にステップS22において、機械学習処理部14は、クラスcのもとで名詞ペアCPtが発生する確率P(CPt|c)を式(3)により、クラスcのもとで共起名詞RPtが発生する確率P(RPt|c)を式(4)により、クラスcのもとで3つの名詞間の構文構造SPtが発生する確率P(SPt|c)を式(5)により、それぞれ算出する。
つまり、式(3)はクラスcのときの処理対象単語ペアの条件付き確率を算出するための式であり、式(4)はクラスcのときの共起単語の条件付き確率を算出するための式であり、式(5)はクラスcのときの前記構文構造の条件付き確率を算出するための式である。
なお、ステップS22の各確率を計算する処理は、EMアルゴリズムのMステップである。
Figure 0005184195
Figure 0005184195
Figure 0005184195
上の式(3),(4),(5)において、|CP|は名詞ペアの出現総数を表わし、|RP|は関係候補となる名詞の出現総数を表わし、|SP|は3名詞の構文構造の出現総数を表わし、|T|は3項組の出現総数を表す。N(CPt|t)は、3項組tに含まれる名詞ペアが3項組tに含まれるか否かを表す関数である。N(RPt|t)は、3項組tに含まれる関係候補となる名詞(共起名詞)が3項組tに含まれるか否かを表す関数である。N(SPt|t)は、3項組tに含まれる3名詞の構文構造が3項組tに含まれるか否かを表す関数である。これらの、含まれるか否かを表わす関数は、それぞれ、含まれる場合は1を値として返し、含まれない場合は0を値として返す。
なお、式(3)が表わすように、確率P(CPt|c)の分母の第1項は名詞ペアの出現総数である。分母の第2項は、3項組tに名詞ペアCPtが含まれる場合のtを前提としたcの条件付き確率(便宜的にXcと呼ぶ)の、全ての3項組且つ全ての名詞ペアについての総和である。また、分子の第1項は定数項(1)である。分子の第2項は、上記Xcの、当該名詞ペアCPtについての全ての3項組についての総和である。
また、式(4)が表わすように、確率P(RPt|c)の分母の第1項は共起名詞の出現総数である。分母の第2項は、3項組tに共起名詞RPtが含まれる場合のtを前提としたcの条件付き確率(便宜的にXrと呼ぶ)の、全ての3項組且つ全ての共起名詞についての総和である。また、分子の第1項は定数項(1)である。分子の第2項は、上記Xrの、当該共起名詞RPtについての全ての3項組についての総和である。
また、式(5)が表わすように、確率P(SPt|c)の分母の第1項は構文構造の出現総数である。分母の第2項は、3項組tに構文構造SPtが含まれる場合のtを前提としたcの条件付き確率(便宜的にXsと呼ぶ)の、全ての3項組且つ全ての構文構造についての総和である。また、分子の第1項は定数項(1)である。分子の第2項は、上記Xsの、当該構文構造SPtについての全ての3項組についての総和である。
次にステップS23において、機械学習処理部14は、上で式(3),(4),(5)によりそれぞれ計算された確率P(CPt|c)とP(RPt|c)とP(SPt|c)の値を用いて、下の式(6)により、P(c|t)の期待値を計算する。
Figure 0005184195
そして、ステップS24において、機械学習処理部14は、式(6)の結果を用いて、下の式(7)により、P(c)の値を計算する。
Figure 0005184195
式(7)において、|c|は分類すべきクラスの数を指すものであり、ここではクラスはcとcの2種類であるので、|c|は2である。
そして、ステップS25において、機械学習処理部14は、収束条件の判断を行い、収束していなければステップS22に戻り(ステップS25:NO)、収束していればこのフローチャートで示した学習処理全体を終了する(ステップS25:YES)。
この収束条件の判断は、具体的には、ステップS24で算出されたP(c)の値の前回算出時からの変化量ΔP(c)が、所定の閾値(例えば、1.0×10−3)未満であるか否かにより行なう。つまり、変化量ΔP(c)がその閾値以上であれば(ステップS25:NO)、ステップS22に戻り、再度このフローチャートの手順に従って、新たなP(c)およびP(c|t)の値を利用して、P(CPt|c)とP(RPt|c)とP(SPt|c)の値を計算し(ステップS22)、ステップS25において変化量ΔP(c)がその閾値より小さい値となるまで、ステップS22〜S25の処理を繰り返す。ステップS25において、P(c)の変化量ΔP(c)がその閾値より小さい場合には(ステップS25:YES)、このフローチャートで示した学習処理全体を終了する。
図2のフローチャートに戻って、ステップS06において、機械学習処理部14は、上の処理手順において最後に計算された確率値P(c|t),P(CPt|c),P(RPt|c),P(SPt|c)を学習結果データ記憶部3に書き込む。
そしてステップS07において、確率値計算処理部15は、機械学習処理部14によって出力され学習結果データ記憶部3に書き込まれたP(c|t),P(CPt|c),P(RPt|c),P(SPt|c)を読み出し、これらの値を基に、確率値の計算を行なう。確率値計算処理部15が算出するのは、処理対象名詞ペアが関係を持つ確率P(c|CPt)と、処理対象名詞ペアと共起した名詞が関係を持つ確率P(c|RPt)と、処理対象名詞ペアと共起した名詞との間の構文構造が関係を示す構造である確率P(c|SPt)であり、これらはそれぞれ、式(8),(9),(10)により計算される。
Figure 0005184195
Figure 0005184195
Figure 0005184195
確率値計算処理部15は、計算されたこれらの値を出力データ4として出力する。確率値P(c|CPt)は、名詞ペアCPtが関係を持つか否かの度合いを示す。確率値P(c|RPt)は、名詞ペアと共起した名詞RPtが関係を表すか否かの度合いを示す。確率値P(c|SPt)は、処理対象名詞ペアと共起した名詞との間の構文構造SPtが関係を示す構造であるか否かの度合いを示す。これらの出力データにより判定を行なえる。
なお、確率値計算処理部15が、確率値P(c|CPt)やP(c|RPt)やP(c|SPt)について、それぞれ所定の閾値以上かどうかによる判定を行い、その判定結果を出力するようにしても良い。
<処理結果例>
テキストから関係を抽出するという上記一連の処理を、実データに対象として行なった結果について、次に説明する。ここでは、処理対象属性(対象概念)を「動物」とし、処理対象データは日本放送協会(NHK)によって制作・放送された動物に関するテレビ番組のクローズドキャプションデータを用いている。
図4は、抽出された名詞ペアCPtとそれに関する確率値P(c|CPt)の値を列挙して示す概略図である。この図のデータは、確率値計算処理部15によって出力されたデータをP(c|CPt)の昇順にソートして示しているものである。P(c|CPt)=1−P(c|CPt)であるため、この図では、上に挙げられている名詞ペアほど関係を持つ可能性(度合い)が高いものである。例えば、「名詞1」が「イルカ」で「名詞2」が「ボラ」である名詞ペアについてのP(c|CPt)は0.031である。また、例えば、「名詞1」が「サケ」で「名詞2」が「ヒグマ」である名詞ペアについてのP(c|CPt)は0.044である。また、例えば、「名詞1」が「シロフクロウ」で「名詞2」が「レミング」である名詞ペアについてのP(c|CPt)は0.044である。そして、以下同様である。
図5は、抽出された共起名詞RPtとそれに関する確率値P(c|RPt)の値を列挙して示す概略図である。この図のデータは、確率値計算処理部15によって出力されたデータをP(c|RPt)の昇順にソートして示しているものである。P(c|RPt)=1−P(c|RPt)であるため、この図では、上に挙げられている共起名詞ほど、関係を表わす名詞である可能性(度合い)が高いものである。例えば、「名詞3」が「仲間」であるときP(c|RPt)は0.011である。また、例えば、「名詞3」が「食べる」であるときP(c|RPt)は0.012である。そして、以下同様である。
図6は、処理対象名詞ペアと共起した名詞との間の構文構造SPtとそれに関する確率値P(c|SPt)の値を列挙して示す概略図である。この図のデータは、確率値計算処理部15によって出力されたデータをP(c|SPt)の昇順にソートして示しているものである。P(c|SPt)=1−P(c|SPt)であるため、この図では、上に挙げられている構文構造ほど、その構文が関係を表わす構造である可能性(度合い)が高いものである。
この図における構文構造の表記について説明する。表記に現れる記号として、「NP1」は名詞1を表わし、「NP2」は名詞2を表わし、「REL」は関係候補名詞を表わす。構文構造の表記のパターンは次の通りである。即ち、名詞1と名詞2と共起単語との共通係り先の文節を取り出し、名詞1から共通係り先の文節までの構文構造と、名詞2から共通係り先の文節までの構文構造と、共通係り先の文節を修飾する構文構造の3つの構造を、セパレータ文字「=」で区切って表記している。この第1のパターンで表記するのは、名詞1と名詞2の後に関係候補名詞が出現する場合である。
例えば、この図の第1行目のデータは、名詞1から関係候補名詞までの構文構造が「NP1,は」であり、名詞2から関係候補名詞までの構文構造が「NP2,を」であり、関係候補名詞を修飾する構文構造が「REL」であるような構文構造に対応しており、そのときのP(c|SPt)は0.034である。他の行のデータも同様である。
なお、本実施形態による言語処理装置1は、当該文において名詞1と名詞2の共通係り先を抽出し、名詞1から共通係り先までの構文構造、もしくは名詞2から共通係り先までの構文構造に関係候補名詞を含む場合のみを処理対象としている。名詞1から共通係り先までの構文構造もしくは名詞2から共通係り先までの構文構造に関係候補名詞を含まない場合や、関係候補名詞が名詞1の前にある場合は処理対象から除いている。
これらの図に示した処理結果の例のデータは、適切な結果であると判断できる。つまり、単語ペアや、関係名を表わす共起名詞や、関係を表わす構文構造などとして、妥当なものが処理結果の上位に挙げられている。つまり、本実施形態による言語処理装置1が有効であることが確認できた。
なお、上述した実施形態における言語処理装置の全部又は一部の機能をコンピュータで実現するようにしても良い。その場合、これらの機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時刻の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時刻プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
以上、複数の実施形態を説明したが、本発明はさらに次のような変形例でも実施することが可能である。
前記の実施形態では、入力テキスト記憶部2と、学習結果データ記憶部3と、出力データ4と、処理対象単語ペア特徴抽出部11と、共起名詞特徴抽出部12と、構文構造特徴抽出部13と、機械学習処理部14と、確率値計算処理部15とをすべて一体として含んだ言語処理装置の構成としたが、例えば、処理対象単語ペア特徴抽出部11と、共起名詞特徴抽出部12と、構文構造特徴抽出部13と、機械学習処理部14とを含んで機械学習処理までを行なう装置と、確率値計算処理部15を含んで与えられた学習結果データを用いて確率値計算処理(判定処理)の部分を行なう装置に分けて構成しても良い。このとき、学習結果データは、両装置によって共有される記憶手段を介して渡したり、通信線を介して渡したりするように構成する。このように装置を分けた場合、機械学習処理までの部分と確率値計算処理の部分とを別に行なうことができる。また、予め機械学習処理を行なっておき、その結果得られる学習結果データを用いて繰り返し確率値計算処理を行なうこともできる。また、入力テキストと類似分野の文(学習結果データが有効であるような文)であれば、元の入力テキストに含まれていない文を対象として確率値計算処理を行なうこともできる。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
本発明は、大量のテキストからの情報自動抽出、知識獲得などに利用できる。
本発明の実施形態による言語処理装置の機能構成を示したブロック図である。 同実施形態による言語処理装置の全体の処理手順を示したフローチャートである。 同実施形態による言語処理装置の処理のうちEMアルゴリズムを用いた機械学習処理の手順を示したフローチャートである。 同実施形態による処理結果のデータであり、処理対象名詞ペアが関係を持つ確率の上位を、P(c|CPt)の昇順で示す概略図である。 同実施形態による処理結果のデータであり、名詞ペアと共起した名詞が関係を表す確率の上位を、P(c|RPt)の昇順で示す概略図である。 同実施形態による処理結果のデータであり、処理対象名詞ペアと共起した名詞との間の構文構造が関係を示す構造である確率の上位を、P(c|SPt)の昇順で示す概略図である。
符号の説明
1 言語処理装置
2 入力テキスト記憶部
3 学習結果データ記憶部
4 出力データ
11 処理対象単語ペア特徴抽出部
12 共起名詞特徴抽出部(共起単語特徴抽出部)
13 構文構造特徴抽出部
14 機械学習処理部
15 確率値計算処理部

Claims (7)

  1. 複数の文を含む入力テキストデータに基づき、一つの文に含まれる単語のペアである処理対象単語ペアと当該文の中に出現する他の単語である共起単語と当該文の構文構造とからなる3項組に関して、前記3項組に含まれる前記処理対象単語ペアが他の3項組に含まれるか否かを表わす、前記処理対象単語ペアの出現頻度特徴を抽出する処理対象単語ペア特徴抽出部と、
    前記入力テキストデータに基づき、前記3項組に含まれる前記共起単語が他の3項組に含まれるか否かを表わす、前記共起単語の出現頻度特徴を抽出する共起単語特徴抽出部と、
    前記入力テキストデータに基づき、前記3項組に含まれる前記構文構造が他の3項組に含まれるか否かを表わす、前記構文構造の出現頻度特徴を抽出する構文構造特徴抽出部と、
    記共起単語が前記処理対象単語ペアの関係を表わすクラスに属すると判別できる前記入力テキストデータ中の文を正解サンプルとして、前記処理対象単語ペアの出現頻度特徴と、前記共起単語の出現頻度特徴と、前記構文構造の出現頻度特徴とに基づいて、機械学習処理を行い、前記3項組が前記処理対象単語ペアの関係を表わすクラスに属することを前提としたとき前記処理対象単語ペアが出現する条件付き確率、および前記3項組が前記処理対象単語ペアの関係を表わすクラスに属することを前提としたとき前記共起単語が出現する条件付き確率、および前記3項組が前記処理対象単語ペアの関係を表わすクラスに属することを前提としたとき前記構文構造が出現する条件付き確率を、学習結果データとして学習結果データ記憶部に書き込む処理を行なう機械学習処理部と、
    を備えることを特徴とする言語処理装置。
  2. 請求項1に記載の言語処理装置において、
    前記構文構造特徴抽出部は、前記文の構文解析結果に基づき、前記処理対象単語ペアに含まれる第1の単語と当該処理対象単語ペアに含まれる第2の単語と前記共起単語との共通係り先文節を取り出し、前記第1の単語から前記共通係り先文節までの構文構造と、前記第2の単語から前記共通係り先文節までの構文構造と、前記共通係り先文節を修飾する構文構造との組み合わせにより当該文の構文構造を同定する、
    ことを特徴とする言語処理装置。
  3. 請求項2に記載の言語処理装置において、
    前記構文構造特徴抽出部は、前記構文構造を表わす単語のリストに出現する単語であって、前記第1の単語でも前記第2の単語でも前記共起単語でもない単語が共通である割合が所定の閾値以上であるような複数の構文構造を類似の構文構造を有する構文構造グループとし、この構文構造グループの出現頻度特徴を前記構文構造の出現頻度特徴として抽出する、
    ことを特徴とする言語処理装置。
  4. 前記機械学習処理部は、処理対象概念関連語を予め記憶した処理対象概念関連語データを参照し、前記共起単語が前記処理対象概念関連語データに含まれているか否かにより、前記共起単語を含む文が、前記共起単語が前記処理対象単語ペアの関係を表わすクラスに属するか否かを判別する、
    ことを特徴とする請求項1から3までのいずれか一項に記載の言語処理装置。
  5. 請求項1からまでのいずれか一項に記載の言語処理装置において、
    前記学習結果データ記憶部から読み出した前記学習結果データを用いて、文に前記処理対象単語ペアが出現することを前提として当該文が前記クラスに属する条件付き確率と、文に前記共起単語が出現することを前提として当該文が前記クラスに属する条件付き確率と、文に前記構文構造が出現することを前提として当該文が前記クラスに属する条件付き確率とを算出する確率値計算処理部と、
    をさらに具備することを特徴とする言語処理装置。
  6. 請求項1からまでのいずれか一項に記載の言語処理装置によって前記学習結果データ記憶部に書き込まれた前記学習結果データを用いて、文に前記処理対象単語ペアが出現することを前提として当該文が前記クラスに属する条件付き確率と、文に前記共起単語が出現することを前提として当該文が前記クラスに属する条件付き確率と、文に前記構文構造が出現することを前提として当該文が前記クラスに属する条件付き確率とを算出する確率値計算処理部を具備することを特徴とする言語処理装置。
  7. 複数の文を含む入力テキストデータに基づき、一つの文に含まれる単語のペアである処理対象単語ペアと当該文の中に出現する他の単語である共起単語と当該文の構文構造とからなる3項組に関して、前記3項組に含まれる前記処理対象単語ペアが他の3項組に含まれるか否かを表わす、前記処理対象単語ペアの出現頻度特徴を抽出する処理対象単語ペア特徴抽出過程と、
    前記入力テキストデータに基づき、前記3項組に含まれる前記共起単語が他の3項組に含まれるか否かを表わす、前記共起単語の出現頻度特徴を抽出する共起単語特徴抽出過程と、
    前記入力テキストデータに基づき、前記3項組に含まれる前記構文構造が他の3項組に含まれるか否かを表わす、前記構文構造の出現頻度特徴を抽出する構文構造特徴抽出過程と、
    記共起単語が前記処理対象単語ペアの関係を表わすクラスに属すると判別できる前記入力テキストデータ中の文を正解サンプルとして、前記処理対象単語ペアの出現頻度特徴と、前記共起単語の出現頻度特徴と、前記構文構造の出現頻度特徴とに基づいて、機械学習処理を行い、前記3項組が前記処理対象単語ペアの関係を表わすクラスに属することを前提としたとき前記処理対象単語ペアが出現する条件付き確率、および前記3項組が前記処理対象単語ペアの関係を表わすクラスに属することを前提としたとき前記共起単語が出現する条件付き確率、および前記3項組が前記処理対象単語ペアの関係を表わすクラスに属することを前提としたとき前記構文構造が出現する条件付き確率を、学習結果データとして学習結果データ記憶部に書き込む処理を行なう機械学習処理過程と、
    の処理をコンピュータに実行させるプログラム。
JP2008113908A 2008-04-24 2008-04-24 言語処理装置およびプログラム Active JP5184195B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008113908A JP5184195B2 (ja) 2008-04-24 2008-04-24 言語処理装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008113908A JP5184195B2 (ja) 2008-04-24 2008-04-24 言語処理装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2009265889A JP2009265889A (ja) 2009-11-12
JP5184195B2 true JP5184195B2 (ja) 2013-04-17

Family

ID=41391679

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008113908A Active JP5184195B2 (ja) 2008-04-24 2008-04-24 言語処理装置およびプログラム

Country Status (1)

Country Link
JP (1) JP5184195B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5382651B2 (ja) * 2009-09-09 2014-01-08 独立行政法人情報通信研究機構 単語対取得装置、単語対取得方法、およびプログラム
JP5291645B2 (ja) * 2010-02-25 2013-09-18 日本電信電話株式会社 データ抽出装置、データ抽出方法、及びプログラム
JP5622310B2 (ja) * 2010-08-19 2014-11-12 独立行政法人情報通信研究機構 相互機械学習装置、相互機械学習方法、及びプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007219947A (ja) * 2006-02-17 2007-08-30 Nippon Hoso Kyokai <Nhk> 因果関係知識抽出装置及びプログラム

Also Published As

Publication number Publication date
JP2009265889A (ja) 2009-11-12

Similar Documents

Publication Publication Date Title
KR102431549B1 (ko) 인과 관계 인식 장치 및 그것을 위한 컴퓨터 프로그램
US10725836B2 (en) Intent-based organisation of APIs
US20160140109A1 (en) Generation of a semantic model from textual listings
RU2679988C1 (ru) Извлечение информационных объектов с помощью комбинации классификаторов
CN103646112B (zh) 利用了网络搜索的依存句法的领域自适应方法
US11113470B2 (en) Preserving and processing ambiguity in natural language
CN103593412B (zh) 一种基于树形结构问题的应答方法及系统
JP2011118689A (ja) 検索方法及びシステム
JP2011227758A (ja) 情報処理装置、情報処理方法及びプログラム
CN109471889B (zh) 报表加速方法、系统、计算机设备和存储介质
CN111190873B (zh) 一种用于云原生系统日志训练的日志模式提取方法及系统
JP2006065387A (ja) テキスト文検索装置、テキスト文検索方法、及びテキスト文検索プログラム
CN108399265A (zh) 基于搜索的实时热点新闻提供方法及装置
TW201335776A (zh) 辭典產生裝置、辭典產生方法、辭典產生程式、及記憶該程式之電腦可讀取記錄媒體
Olariu Hierarchical clustering in improving microblog stream summarization
JP5184195B2 (ja) 言語処理装置およびプログラム
JP6867963B2 (ja) 要約評価装置、方法、プログラム、及び記憶媒体
CN113392305A (zh) 关键词的提取方法及装置、电子设备、计算机存储介质
Ledeneva et al. Graph ranking on maximal frequent sequences for single extractive text summarization
JP2010102521A (ja) 辞書作成装置、辞書作成方法および辞書作成プログラム並びに辞書作成プログラムを記録した記録媒体
US20110106849A1 (en) New case generation device, new case generation method, and new case generation program
CN112087473A (zh) 文档下载方法、装置、计算机可读存储介质和计算机设备
JP2017027106A (ja) 類似度算出装置、類似検索装置、および類似度算出プログラム
JP5100203B2 (ja) テキスト分析装置およびテキスト分析プログラム
Colmenares et al. Headline generation as a sequence prediction with conditional random fields

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101201

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121018

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121030

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121129

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121218

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130116

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5184195

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160125

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250