JP2008217529A - テキスト分析装置およびテキスト分析プログラム - Google Patents
テキスト分析装置およびテキスト分析プログラム Download PDFInfo
- Publication number
- JP2008217529A JP2008217529A JP2007055419A JP2007055419A JP2008217529A JP 2008217529 A JP2008217529 A JP 2008217529A JP 2007055419 A JP2007055419 A JP 2007055419A JP 2007055419 A JP2007055419 A JP 2007055419A JP 2008217529 A JP2008217529 A JP 2008217529A
- Authority
- JP
- Japan
- Prior art keywords
- occurrence information
- word
- text data
- features
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
【解決手段】テキスト分析装置が、入力されるテキストデータに含まれる2語のペアそれぞれについての語義特徴および構文特徴を抽出する特徴抽出部と、複数の前記ペアについての特定の関係における共起情報を記憶する共起情報記憶部と、前記特徴抽出部が抽出した前記ペアの前記語義特徴および前記構文特徴と、前記共起情報記憶部から読み出した当該ペアの前記共起情報とに基づき、当該ペアが前記特定の関係を有するか否かを判断する処理を行なう判断処理部を備える。
【選択図】図1
Description
阿辺川武,奥村学,「形容詞を用いた対象・属性名詞対の収集および分析」,言語処理学会第12回年次大会,日本,2006年3月,p.73−76
本発明は、上記の課題認識に基づいて行なわれたものであり、テンプレートを利用する方法に比べて幅広いデータを対象とすることができ、且つ所望の特定の関係を有する複数の語の組みを網羅的に抽出することのできるテキスト分析装置およびテキスト分析プログラムを提供することを目的とする。
この発明によれば、予めテンプレートを作成することなく、特定の関係を有する可能性のある2語のペア(候補)の語義特徴あるいは構文特徴に基づくとともに、当該ペアの特徴と関連付けられた共起情報に基づき、当該ペアが特定の関係を有するか否かを判断することができる。
本発明の一態様においては、前記構文特徴は、入力テキストデータを構文解析処理し、構文解析の結果得られる構文木のうちのペアの2語を連結する部分木のデータを表わすリストである。つまり、ペアである2語についての構文上での共通係り先までのリスト構造である。
本発明の一態様においては、前記語義特徴は、2語の上位概念を表わす語である。
これによれば、例えば比較的少量の教師有りテキストデータと比較的多量の教師無しテキストデータに基づき、共起情報を算出することが出来、算出された共起情報は、語のペアが特定の関係にあるか否かの判定に用いることが出来る。
本発明の一態様においては、前記機械学習処理は、EMアルゴリズムを用いて語のペアが特定の関係にある確率(または、ない確率)を算出する。
これによれば、テキスト分析装置が、テキストデータ中に含まれる対象語とその対象語の属性名のペアを自動的に抽出できる。
これによれば、テキスト分析装置が、テキストデータ中に含まれる対象語とその対象語の属性値のペアを自動的に抽出できる。
これによれば、予めテンプレートを作成することなく、特定の関係を有する可能性のある3項の語の組み(候補)の語義特徴あるいは構文特徴に基づくとともに、当該組みの特徴と関連付けられた共起情報に基づき、当該組みが特定の関係を有するか否かを判断することができる。
これによれば、例えば比較的少量の教師有りテキストデータと比較的多量の教師無しテキストデータに基づき、共起情報を算出することが出来、算出された共起情報は、3項の語の組みが特定の関係にあるか否かの判定に用いることが出来る。
これによれば、テキスト分析装置が、テキストデータ中に含まれる対象語とその対象語の属性名とその属性名に対応する属性値の3項からなる語の組みを自動的に抽出できる。
このような3項の語の組みは、コンピュータによる処理のための知識表現に向いているため、つまり、テキスト分析装置がテキストデータ中に含まれる知識を自動的に抽出できる。
これによれば、予めテンプレートを作成することなく、特定の関係を有する可能性のあるN項の語の組み(候補)の語義特徴あるいは構文特徴に基づくとともに、当該組みの特徴と関連付けられた共起情報に基づき、当該組みが特定の関係を有するか否かを判断することができる。
第1の実施形態は、入力テキストデータから、対象語と属性名とのペアを自動的に抽出するためのテキスト分析装置に関するものである。
図1は、本実施形態によるテキスト分析装置の機能構成を示すブロック図である。図1において、符号1aはテキスト分析装置である。テキスト分析装置1aは、対象語及び属性名候補単語抽出部10aと、特徴抽出部20と、機械学習部30と、共起情報記憶部40と、判断処理部50と、出力部60とを内部に有している。
そして、テキスト分析装置1aは、入力テキストデータ100および教師有りテキストデータ110aを読み込み、分析処理の結果を出力部60から出力データ150として出力する。
特徴抽出部20は、上の処理で抽出された語のペアを基に、そのペアの語義特徴と構文特徴とを抽出する。語義特徴とはこれらの語の上位概念であり、構文特徴とはこれらの語の構文上での共通係り先までのリスト構造である。特徴抽出部20の詳細な構成と動作は別の図を参照しながら後述する。
共起情報記憶部40は、機械学習部30による機械学習処理の結果として得られた共起情報を記憶するものであり、半導体メモリや磁気ハードディスクドライブなどを用いて構成される。共起情報は、語のペアに関する確率値を含む情報である。つまり、共起情報記憶部40は、語のペアについての特定の関係における共起情報を記憶するものである。
判断処理部50は、共起情報記憶部40から共起情報を読み出し、この共起情報を用いて、上の処理で抽出された対象語と属性名候補単語のペアが対象語と属性名の関係にあるか否かを判定する。更に言うと、判断処理部50は、特徴抽出部20が抽出した語義特徴および構文特徴と、共起情報記憶部40から読み出した当該ペアの共起情報とに基づき、当該ペアが特定の関係を有するか否かを判断する処理を行なうものである。
出力部60は、判断処理部50による判断の結果に基づき、入力テキストデータ100から抽出された、対象語と属性名のペアを出力する。入力テキストデータが十分に大量であれば、通常の場合は複数のペアが出力される。
まず、対象語及び属性名候補単語抽出部10aが、入力テキストデータ100から対象語と属性名候補単語を抽出する。対象語としては、例えば同じ意味のカテゴリーに属するような単語を選択する。例えば、操作者による操作または入力されるパラメータデータによって「動物」と指定された場合、入力テキストデータ100中の「ライオン」,「キリン」,「ゾウ」などが処理の対象語となる。特定のカテゴリーに属する対象語を選択するための判定には、既存のシソーラス(例えば、国立国語研究所・編,「分類語彙表 増補改訂版」,大日本図書,2004年)を電子化し、コンピュータ読み出し可能としたものを利用する。
また、属性名候補単語は、入力テキスト中の全ての名詞とする。但し、属性名とはなり得ない単語をこの段階で候補から除外するようにしても良い。属性名とはなり得ない単語とは、例えば数詞(数値表現)や対象語と同一のカテゴリーに属する単語などである。このような除外を行なうことにより後の段階の機械学習処理の時間を短縮することもできる。
抽出された対象語の個数がL個、属性名候補単語の個数がM個のとき、単純にすべての組合せをペアとして出力すると(L×M)個のペアが抽出されることになる。
対象語及び属性名候補単語抽出部10aは、また、教師有りデータ110aのテキストについても同様の方法で対象語と属性名候補単語を抽出する。
語義特徴抽出部25は、シソーラス29(前述の「分類語彙表 増補改訂版」などを電子化しコンピュータ読み出し可能としたもの)などから語のペアの上位概念を語義特徴として抽出する。
図3は、入力される複数の文と、対象語と属性名候補単語のペアの例である。図示する例では、「ダチョウの仲間レアです。背丈は1m50cmもあります。」という入力文が処理対象となっている。また、対象語と属性名候補単語のペアとして、「レア」と「背丈」が抽出されている。
図4は、図3の入力文を構文解析した結果の構文木である。第1の文「ダチョウの仲間レアです。」を構文解析した結果として、ルートから順に「です」−「レア」−「仲間」−「の」−「ダチョウ」というノードが連結された構文木が得られている。第2の文「背丈は1m50cmもあります。」を構文解析した結果として、ルートから順に「ます」−「ある」−「は」−「背丈」というノードが連結するとともにこの途中のノード「ある」から枝分かれして「ある」−「も」−「1m50cm」というノードが連結されている。そしてこれら2つの構文木のそれぞれのルート「です」および「ます」をより上位のルート(最上位ノード)で連結して一つの構文木としている。
図5は、図4で得られた構文木から、対象語「レア」と属性名候補単語「背丈」とを連結する共通係り先までの部分木を示す。この共通係り先までの部分木をリストで表わすと「対象語(=『レア』),『です』,最上位ノード,『ます』,『ある』,『は』,属性名候補単語(=『背丈』)」となる。構文特徴抽出部23は、このリストを当該ペアの構文特徴として出力する。
P(ti|cj)は、クラスcjのときに特徴tiが出現する確率であり、次の式(2)により与えられる。
図7は、対象語「レア」と属性名候補単語「背丈」を持つもうひとつのペアの構文特徴を表わす構文木(部分構文木)の概略図である。この構文特徴に関して、対象語と属性名候補単語を除いたリストは「『は』,『ある』,『が』」である。これについてwc(p2)を計算すると、「ある」には重み1が与えられ、「は」,「が」には重み0.5が与えられるので、wc(p2)=2.0となる。
つまり図5に示した構文特徴と図7に示した構文特徴との間の類似度は、式(6)により、sim(p1,p2)=(1×2)/(2.5+2.0)であり、約0.44と計算される。
図8は、共起情報の一例として確率値P(cj|SPti)を用いて、入力テキストデータからこの確率値の高い名詞ペア(つまり対象語と属性名とのペア)をリストアップしたテーブルである。元となったテキストデータは、日本放送協会が制作し放送した実際のテレビ番組「地球ふしぎ大自然」のクローズドキャプションに相当するテキストであり、対象語としては「動物」を選択した。図8に示している確率値P(cj|SPti)は前記の式(10)により計算したものである。「仲間」,「祖先」,「群れ」,・・・など、動物の属性名として相応しい語が高い確率値により抽出されている。この実例は、本実施形態が属性名の抽出、ひいては知識抽出に有効であることを示している。
つまり、本実施形態のテキスト分析装置1aを用いることにより、少量の教師有りテキストデータを基に学習処理を行ない、大量の教師無しテキストデータを分析処理して、自動的に対象語と属性名のペアを抽出することが可能となる。
次に、本発明の第2の実施形態について説明する。前記の実施形態が入力テキストデータから対象語と属性名のペアを抽出するものであったのに対して、この第2の実施形態によるテキスト分析装置は、入力テキストデータから、対象語と属性値とのペアを自動的に抽出する。
図9は、本実施形態によるテキスト分析装置の機能構成を示すブロック図である。なお、前記実施形態と同様な構成の部分については同じ符号を用いて表して説明を省略し、特徴点のみを詳細に説明する。
第1に、テキスト分析装置1bが対象語及び属性値候補単語抽出部10bを有する点。これは、第1の実施形態における対象語及び属性名候補単語抽出部10aと同様の構成・機能・作用を有しているが抽出するのが対象語と属性値候補単語のペアである点が異なっている。例えば数詞が属性名となり得ないという前提の下、第1の実施形態における対象語及び属性名候補単語抽出部10aは数詞を属性名候補から除外するようにしても良いことを第1の実施形態において記載したが、本実施形態においては数詞を属性値候補から除外することは適切ではない場合が多いため、そのような除外は行なわない。
第2には、入力として取り込む教師有りテキストデータ110bが、第1の実施形態における教師有りテキストデータ110aとは異なる正解データを有している点である。
つまり、本実施形態のテキスト分析装置1bを用いることにより、少量の教師有りテキストデータを基に学習処理を行ない、大量の教師無しテキストデータを分析処理して、自動的に対象語と属性値のペアを抽出することが可能となる。
次に、本発明の第3の実施形態について説明する。前記の各実施形態が入力テキストデータから、ペア(対象語と属性名、または対象語と属性値)を抽出するものであったのに対して、この第3の実施形態によるテキスト分析装置は、入力テキストデータから、3項の語の組みを抽出する。
図10に示すように、テキスト分析装置1cは、対象語及び属性名候補単語抽出部10aとそれに対応した特徴抽出部20a、対象語及び属性値候補単語抽出部10bとそれに対応した特徴抽出部20b、属性名候補単語及び属性値候補単語抽出部10cとそれに対応した特徴抽出部20cとを備えている。更にテキスト分析装置は、機械学習部31、共起情報記憶部41、判断処理部51、出力部61を備えている。
入力テキストデータ100は、前記の実施形態と同様に、比較的大量の教師無しデータである。また、教師有りテキストデータ110は、比較的少量のテキストデータと、正解データとを含んでいる。本実施形態における教師ありテキストデータ110は、3項の語の組みが「対象語−属性名−属性値」の関係にあるか否かの情報を正解データとして持っている。
対象語及び属性名候補単語抽出部10aは、第1の実施形態におけるものと同様の動作をする。そして、特徴抽出部20aは、第1の実施形態における特徴抽出部20と同様の構成を有し同様の動作をする。これらの処理により、対象語と属性名候補単語のペアと、各ペアの語義特徴及び構文特徴が抽出される。
対象語及び属性値候補単語抽出部10bは、第2の実施形態におけるものと同様の動作をする。そして、特徴抽出部20bは、第2の実施形態における特徴抽出部20と同様の構成を有し同様の動作をする。これらの処理により、対象語と属性値候補単語のペアと、各ペアの語義特徴及び構文特徴が抽出される。
属性名候補単語及び属性値候補単語抽出部10cは、属性名と属性値のペアの候補を抽出する。例えば、属性名候補単語として、対象語及び属性名候補単語抽出部10aによって抽出された属性名候補単語の集合と同じものを抽出するようにする。また、例えば、属性値候補単語として、対象語及び属性値候補単語抽出部10bによって抽出された属性値候補単語の集合と同じものを抽出するようにする。そして、それらの組合せにより、属性名候補と属性値候補のペアを抽出する。特徴抽出部20cは、属性名候補単語及び属性値候補単語抽出部10cによって抽出されたペアそれぞれについて、前記の実施形態と同様の方法で語義特徴及び構文特徴を抽出する処理を行なう。
つまり、特徴抽出部20a〜20cは、入力されるテキストデータに含まれる3項の語の組みそれぞれについての語義特徴および構文特徴を抽出するものである。
機械学習部31は、まずステップS6−1(Eステップ)において、教師有りテキストデータ110を用いて特徴tiが属するクラスcjの初期確率P(cj|ti)を前記の式(3)で計算する。ここで、P(c1)は、対象語、属性名候補単語、属性値候補単語が「対象語−属性名−属性値」の関係にある確率であり、P(c0)はそれらが「対象語−属性名−属性値」の関係に無い確率である。P(ti)は特徴tiが出現する確率である。この値が大きいクラスcj(c0またはc1)を、「対象語−属性名−属性値」の関係にあるか否かの判定結果とする。
P(ti|cj)は、クラスcjのときに特徴tiが出現する確率であり、次の式(11)により与えられる。
次に機械学習部31はステップS6−3(Eステップ)において、式(12)により、P(cj|ti)の期待値を計算する。
そして、ステップS6−5においては、前記の実施形態における手順と同様に、ステップS6−4で計算したP(cj)の値が収束したかどうかを判定するために、前回計算したP(cj)の値と今回計算したP(cj)の値の変化量を閾値(例えば1.0×10−3)と比較する。この変化量が閾値以上の場合には、ステップS6−2に戻って計算を繰り返す。この変化量が閾値より小さい場合には、最後に計算された確率値P(cj|ti),P(CPati|cj),P(SPati|cj),P(CPbti|cj),P(SPbti|cj)の値を共起情報として共起情報記憶部41に書き込み、処理を終了する。通常、「対象語−属性項目−属性値」の関係を判定するためにはこの共起情報で十分であるが、P(CPcti|cj),P(SPcti|cj)の値を共起情報に含めて、共起情報記憶部41に書き込むようにしても良い。
つまり、共起情報記憶部41は、3項の語の複数の組みについての特定の関係における共起情報を記憶する。
そして前記の式(10)を用いると、P(c1|SPati),P(c1|SPbti)を計算することができる。判断処理部51は、「対象語−属性名−属性値」の3項の組みの候補について、共起情報記憶部41から読み出した共起情報に基づくP(c1|SPati),P(c1|SPbti)の値により判定処理を行ない、これにより「対象語−属性名−属性値」の組みを抽出する。つまり、判断処理部51は、特徴抽出部20a〜20cが抽出した3項の語の組みの語義特徴および構文特徴と、共起情報記憶部41から読み出した当該3項の語の組みの共起情報とに基づき、当該3項の語の組みが特定の関係を有するか否かを判断する処理を行なう。出力部61は、判断処理部51による抽出結果に基づき、出力データ151を出力する。
例えば、「対象語−属性名」のペアや、「対象語−属性値」のペアや、「対象語−属性名−属性値」の語の組みなどだけではなく、一般的に、入力テキストデータから特定の関係を有する語の組み(2項、3項など)を抽出するテキスト分析装置とする形態が可能である。そのためには、装置としては特に前記の実施形態を変える必要はなく、目的に応じた適切な教師有りテキストデータを入力するようにすれば良い。
なお、この場合、N項の語の組みの特徴としては、当該N項の語の組みから選んだ2語のペア(ペアの数はNC2通り)それぞれについての前記実施形態と同様の語義特徴および構文特徴の総集合を用いる。
なお、第1〜第3の実施形態は、このN項の語の組みを抽出するテキスト分析装置の特殊形態である。
10a 対象語及び属性名候補単語抽出部
10b 対象語及び属性値候補単語抽出部
10c 属性名候補単語及び属性値候補単語抽出部
20,20a,20b,20c 特徴抽出部
21 構文解析部
23 構文特徴抽出部
25 語義特徴抽出部
29 シソーラス
30,31 機械学習部
40,41 共起情報記憶部
50,51 判断処理部
60,61 出力部
100 入力テキストデータ
110,110a,110b 教師有りテキストデータ
Claims (9)
- 入力されるテキストデータに含まれる2語のペアそれぞれについての語義特徴および構文特徴を抽出する特徴抽出部と、
複数の前記ペアについての特定の関係における共起情報を記憶する共起情報記憶部と、
前記特徴抽出部が抽出した前記ペアの前記語義特徴および前記構文特徴と、前記共起情報記憶部から読み出した当該ペアの前記共起情報とに基づき、当該ペアが前記特定の関係を有するか否かを判断する処理を行なう判断処理部と、
を備えることを特徴とするテキスト分析装置。 - 請求項1に記載のテキスト分析装置において、
前記テキストデータ中の2語のペアが前記特定の関係を有するか否かを表わす正解データを含む教師有りテキストデータに基づき、前記特徴抽出部によって抽出される前記2語のペアの語義特徴および構文特徴を用いて機械学習処理した結果を前記共起情報として前記共起情報記憶部に書き込む機械学習処理部を更に備えることを特徴とするテキスト分析装置。 - 請求項1または請求項2に記載のテキスト分析装置であって、
前記特定の関係は、前記テキストデータ中に含まれる対象語と、前記対象語の属性名である
ことを特徴とするテキスト分析装置。 - 請求項1または請求項2に記載のテキスト分析装置であって、
前記特定の関係は、前記テキストデータ中に含まれる対象語と、前記対象語の属性値である
ことを特徴とするテキスト分析装置。 - 入力されるテキストデータに含まれる3項の語の組みそれぞれについての語義特徴および構文特徴を抽出する特徴抽出部と、
複数の前記3項の語の組みについての特定の関係における共起情報を記憶する共起情報記憶部と、
前記特徴抽出部が抽出した前記3項の語の組みの前記語義特徴および前記構文特徴と、前記共起情報記憶部から読み出した当該3項の語の組みの前記共起情報とに基づき、当該3項の語の組みが前記特定の関係を有するか否かを判断する処理を行なう判断処理部と、
を備えることを特徴とするテキスト分析装置。 - 請求項5に記載のテキスト分析装置において、
前記テキストデータ中の3項の語の組みが前記特定の関係を有するか否かを表わす正解データを含む教師有りテキストデータに基づき、前記特徴抽出部によって抽出される前記3項の語の組みの語義特徴および構文特徴を用いて機械学習処理した結果を前記共起情報として前記共起情報記憶部に書き込む機械学習処理部を更に備えることを特徴とするテキスト分析装置。 - 請求項5または請求項6に記載のテキスト分析装置であって、
前記特定の関係は、前記テキストデータ中に含まれる対象語と、当該対象語の属性名と、当該対象語の属性値の組みである
ことを特徴とするテキスト分析装置。 - 入力されるテキストデータに含まれるN項(Nは2以上の整数)の語の組みそれぞれについての語義特徴および構文特徴を抽出する特徴抽出部と、
複数の前記N項の語の組みについての特定の関係における共起情報を記憶する共起情報記憶部と、
前記特徴抽出部が抽出した前記N項の語の組みの前記語義特徴および前記構文特徴と、前記共起情報記憶部から読み出した当該N項の語の組み前記共起情報とに基づき、当該N項の語の組みが前記特定の関係を有するか否かを判断する処理を行なう判断処理部と、
を備えることを特徴とするテキスト分析装置。 - 入力されるテキストデータに含まれるN項(Nは2以上の整数)の語の組みそれぞれについての語義特徴および構文特徴を抽出する特徴抽出処理過程と、
複数の前記N項の語の組みについての特定の関係における共起情報を記憶する共起情報記憶部から前記共起情報を読み出す読み出し過程と、
前記特徴抽出処理過程において抽出した前記N項の語の組みの前記語義特徴および前記構文特徴と、前記共起情報記憶部から読み出した当該N項の語の組みの前記共起情報とに基づき、当該N項の語の組みが前記特定の関係を有するか否かを判断する処理を行なう判断処理過程と、
の処理をコンピュータに実行させるテキスト分析プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007055419A JP2008217529A (ja) | 2007-03-06 | 2007-03-06 | テキスト分析装置およびテキスト分析プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007055419A JP2008217529A (ja) | 2007-03-06 | 2007-03-06 | テキスト分析装置およびテキスト分析プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008217529A true JP2008217529A (ja) | 2008-09-18 |
Family
ID=39837482
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007055419A Pending JP2008217529A (ja) | 2007-03-06 | 2007-03-06 | テキスト分析装置およびテキスト分析プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008217529A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011204225A (ja) * | 2010-03-25 | 2011-10-13 | Nec (China) Co Ltd | 属性抽出装置および方法 |
JP2012527058A (ja) * | 2009-05-14 | 2012-11-01 | コレクシス・ホールディングス・インコーポレーテッド | 知識発見のための方法およびシステム |
-
2007
- 2007-03-06 JP JP2007055419A patent/JP2008217529A/ja active Pending
Non-Patent Citations (6)
Title |
---|
CSNG200600808004; 山田一郎 他5名: 'AdaBoostを利用した字幕テキストからの定型表現文章区間抽出' 電子情報通信学会技術研究報告 Vol.106,No.190, 20060720, 25-30頁, 社団法人電子情報通信学会 * |
CSNG200600984020; 山田一郎 他4名: 'アナウンサーと解説者のコメントを利用したサッカー番組セグメントメタデータ自動生成' 電子情報通信学会論文誌 Vol.J89-D NO.10, 20061001, 2328-2337頁, 社団法人電子情報通信学会 * |
CSNJ200610036045; 山田一郎 他5名: 'クローズドキャプションを対象とした因果関係知識抽出の検討' FIT2005 第4回情報科学技術フォーラム 一般講演論文集 第2分冊 , 20050822, 113-114頁, 社団法人情報処理学会・社団法人電子情報通信学会 * |
JPN6012012016; 山田一郎 他5名: 'クローズドキャプションを対象とした因果関係知識抽出の検討' FIT2005 第4回情報科学技術フォーラム 一般講演論文集 第2分冊 , 20050822, 113-114頁, 社団法人情報処理学会・社団法人電子情報通信学会 * |
JPN6012047548; 山田一郎 他5名: 'AdaBoostを利用した字幕テキストからの定型表現文章区間抽出' 電子情報通信学会技術研究報告 Vol.106,No.190, 20060720, 25-30頁, 社団法人電子情報通信学会 * |
JPN6012047549; 山田一郎 他4名: 'アナウンサーと解説者のコメントを利用したサッカー番組セグメントメタデータ自動生成' 電子情報通信学会論文誌 Vol.J89-D NO.10, 20061001, 2328-2337頁, 社団法人電子情報通信学会 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012527058A (ja) * | 2009-05-14 | 2012-11-01 | コレクシス・ホールディングス・インコーポレーテッド | 知識発見のための方法およびシステム |
JP2011204225A (ja) * | 2010-03-25 | 2011-10-13 | Nec (China) Co Ltd | 属性抽出装置および方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4580885B2 (ja) | シーン情報抽出方法、シーン抽出方法および抽出装置 | |
JP3973549B2 (ja) | 対訳依存構造対応付け装置、方法及びプログラム、並びに、対訳依存構造対応付けプログラムを記録した記録媒体 | |
US7636657B2 (en) | Method and apparatus for automatic grammar generation from data entries | |
US20100023318A1 (en) | Method and device for retrieving data and transforming same into qualitative data of a text-based document | |
CN110245349B (zh) | 一种句法依存分析方法、装置及一种电子设备 | |
CN110096599B (zh) | 知识图谱的生成方法及装置 | |
JP6551968B2 (ja) | 含意ペア拡張装置、そのためのコンピュータプログラム、及び質問応答システム | |
US20100228538A1 (en) | Computational linguistic systems and methods | |
CN114266256A (zh) | 一种领域新词的提取方法及系统 | |
JP2008217529A (ja) | テキスト分析装置およびテキスト分析プログラム | |
JP4005477B2 (ja) | 固有表現抽出装置及び方法並びに固有表現抽出プログラム | |
JP4361299B2 (ja) | 評価表現抽出装置、プログラム、及び記憶媒体 | |
CN114302227B (zh) | 基于容器采集的网络视频采集与解析的方法和系统 | |
JP5184195B2 (ja) | 言語処理装置およびプログラム | |
JP5100203B2 (ja) | テキスト分析装置およびテキスト分析プログラム | |
JPWO2009113289A1 (ja) | 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム | |
CN113761919A (zh) | 一种口语化短文本的实体属性提取方法及电子装置 | |
KR100574887B1 (ko) | 기계번역 시스템에서의 어휘 중의성 해소 장치 및 그 방법 | |
JP4933118B2 (ja) | 文章区間抽出装置及びプログラム | |
JP4059501B2 (ja) | 自然語辞書更新装置 | |
JP5178357B2 (ja) | 単語スコア算出装置、文書ラベル判定システム、および単語スコア算出プログラム | |
CN115796194A (zh) | 一种基于机器学习的英语翻译系统 | |
Tukeyev | A NEW COMPUTATIONAL MODEL FOR TURKIC LANGUAGES MORPHOLOGY AND PROCESSING | |
Chebanyuk | Multilingual Question-Driven Approach and Software System to Obtaining Information from Texts | |
KR101450795B1 (ko) | 대용어 복원 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090319 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120229 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120306 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120420 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120911 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20121120 |