JP5128328B2 - 曖昧性評価装置およびプログラム - Google Patents

曖昧性評価装置およびプログラム Download PDF

Info

Publication number
JP5128328B2
JP5128328B2 JP2008064107A JP2008064107A JP5128328B2 JP 5128328 B2 JP5128328 B2 JP 5128328B2 JP 2008064107 A JP2008064107 A JP 2008064107A JP 2008064107 A JP2008064107 A JP 2008064107A JP 5128328 B2 JP5128328 B2 JP 5128328B2
Authority
JP
Japan
Prior art keywords
expression
ambiguity
unit
independent word
independent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008064107A
Other languages
English (en)
Other versions
JP2009223373A (ja
Inventor
一郎 山田
勝 宮崎
菊佳 三浦
英樹 住吉
正啓 柴田
伸行 八木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2008064107A priority Critical patent/JP5128328B2/ja
Publication of JP2009223373A publication Critical patent/JP2009223373A/ja
Application granted granted Critical
Publication of JP5128328B2 publication Critical patent/JP5128328B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、電子化されたテキスト情報を対象とした自然言語処理に関する。特に、文の曖昧性を評価する曖昧性評価装置およびそのプログラムに関する。
テキスト中の単語や節には、対象とする事柄を的確に表現している曖昧性の低いものから、対象とする事柄を特定することが困難な曖昧性の高いものまで、様々な種類が存在する。曖昧性が高いものは、テキストを機械が解析する際の問題となる。
従来、テキスト中の節や単語などの表現の曖昧性を評価する手法として、動詞に対する必須格を利用する手法があった。非特許文献1には、コーパスから動詞に対する必須格を自動的に獲得する方法が記載されている。動詞の必須格が存在する節は曖昧性が低く、動詞の必須格が存在しない節は曖昧性が高いと判断できる。よって、従来技術によって自動的に必須格を獲得するための処理を行なえば、必須格の有無によって曖昧性の度合いを判断できる。
河原大輔,黒橋禎夫,「用言と直前の格要素の組を単位とする格フレームの自動構築」,自然言語処理,2002年,Vol.9,No.1,pp.3-19.
上に記載した従来技術の方法で、曖昧性の判断をある程度行なうことはできるが、しかしながら、動詞に対する必須格のみでは曖昧性が高いか否かを判断できない場合も存在する。
例えば、「出る」という動詞には必須格の「が格」がある場合でも、その「が格」を埋める名詞によっては曖昧な場合が生じる。具体的には、「潜血が出る」という節は曖昧性が低いが、「症状が出る」という節は、その節だけではどのような症状が出ているのか不明であるため、曖昧性が高いと言える。つまり、必須格が存在するか否かだけでは定まらない曖昧性の度合いがある。
また、動詞の多義性によって曖昧性が変わる場合があるという問題もある。例えば、動詞の意味に応じて必須格が変わり、その結果として曖昧性も変わる。具体的には、上で例とした「出る」という動詞は、場所の移動を表わす意味で用いられる場合もあり、その場合には「を格」が必須格となる。つまり、「出る」のように多義的な動詞については、使われている意味や文脈を理解しなければ、必須格の有無を判定することができない若しくは困難である。
本発明は、上記の課題認識に基づいて行なわれたものであり、動詞の必須格による判断とは異なる方法を用いて文の曖昧性を評価することのできる曖昧性評価装置およびプログラムを提供することを目的とする。また、多義的な動詞が含まれている文についても、より正しく、その曖昧性を評価することのできる曖昧性評価装置およびプログラムを提供することを目的とする。
上記の課題を解決するため、本発明では、コーパスと呼ばれる大規模な量のテキストを利用して、節や単語などの表現が出現するテキストを抽出し、節や単語などの表現の直前に来る言葉の特徴から、節や単語などの表現の曖昧性を数値的に評価する。
[1]本発明の一態様による曖昧性評価装置は、複数のテキストを記憶する記憶手段に含まれるテキストの中から、評価対象の表現を含む前記テキストを抽出する表現抽出部と、前記表現抽出部によって抽出された前記テキスト内において前記表現を修飾する文節を抽出する修飾文節抽出部と、前記表現抽出部によって抽出された前記テキストに関する統計量と、前記修飾文節抽出部によって抽出された前記文節に関する統計量とを基に、前記表現の曖昧性を表わす評価値を算出する曖昧性評価処理部とを具備することを特徴とする。
ここで、テキストとは、文、文章、Nグラムなどのデータである。また、評価対象の表現とは、単語や節である。節とは、名詞節、形容詞節、副詞節などである。
上記の構成によれば、記憶手段は、例えばウェブコンテンツや放送字幕テキストなどから収集された、大量のテキストの実例をコーパスとして保持する。表現抽出部は、そのようなコーパスから評価対象の表現を含むテキストのみを抽出する。元のコーパスが膨大な量のテキストである場合、表現抽出部によって抽出されるテキストも、充分な量を有するとともに、当該表現に関する多様な用例を含んでおり、それら用例を統計的に分析するのに適している。修飾文節抽出部は、上記のテキスト中で当該表現を修飾する文節を抽出する。そして、これらの統計量を基に算出される評価値は、当該表現の用例の種類数やその頻度分布を反映した値となり、当該表現の曖昧性の評価値として用いることができる。つまり、曖昧性に関しては、単に必須格の有無に基づくよりも、正確で安定的な結果を得ることができる。
[2]また、本発明の一態様は、上記の曖昧性評価装置において、前記曖昧性評価処理部は、前記表現抽出部によって抽出された前記テキスト中における前記表現の出現回数をカウントする対象表現出現回数カウント部と、前記修飾文節抽出部によって抽出された文節に含まれる自立語ごとの出現回数をカウントする自立語出現回数カウント部と、前記対象表現出現回数カウント部によってカウントされた前記表現の出現回数と、前記自立語出現回数カウント部によってカウントされた自立語ごとの出現回数とに基づいて、前記評価値を算出する評価値算出部とを含むことを特徴とする。
この構成によると、自立語出現回数カウント部が修飾文節抽出部によって抽出された文節に含まれる自立語ごとの出現回数をカウントする。自立語ごとの出現回数は、評価対象の表現を抽出する文節の種類ごとの出現回数を近似的に表わし、かつ統計的に安定している。これにより、評価対象の表現を抽出する文節の種類ごとの出現頻度に応じた評価値を算出できる。
[3]また、本発明の一態様は、上記の曖昧性評価装置において、前記評価値算出部は、前記自立語の種類数が多いほど前記評価値が高くなり、また前記自立語ごとの出現頻度を前記表現の出現回数で除して得られる自立語出現確率が一様である度合いが高いほど前記評価値が高くなり、前記表現の直前に区切れ目の出現が少ないほど前記評価値が高くなるように、前記評価値を算出することを特徴とする。
[4]また、本発明の一態様によるコンピュータプログラムは、複数のテキストを記憶する記憶手段に含まれるテキストの中から、評価対象の表現を含む前記テキストを抽出する表現抽出過程と、前記表現抽出過程によって抽出された前記テキスト内において前記表現を修飾する文節を抽出する修飾文節抽出過程と、前記表現抽出過程によって抽出された前記テキストに関する統計量と、前記修飾文節抽出過程によって抽出された前記文節に関する統計量とを基に、前記表現の曖昧性を表わす評価値を算出する曖昧性評価処理過程との処理をコンピュータに実行させる。
本発明によれば、文中に出現する節や単語などの表現が、どの程度、対象とする事柄を特定できているかを判断する基準となる曖昧性を数値的に評価することが可能となる。この技術は、自然言語を利用したマンマシンインタフェースの改善に大きく貢献する。例えば、Webなどで検索を行う場合、検索キーとして入力した文や節に曖昧性があれば、それを的確に指摘することができる。また、この技術は、機械によるテキスト理解の分野にも貢献する。
以下、図面を参照しながら本発明の実施形態について説明する。
図1は、本実施形態による曖昧性評価装置の機能構成を示すブロック図である。図示するように、本実施形態による曖昧性評価装置100は、節や単語などといった表現を表わすデータ(文字による)を入力とし、入力された表現に対する曖昧性評価値を出力する。そして、曖昧性評価装置100は、表現抽出部1と、修飾文節抽出部2と、曖昧性評価処理部3と、大規模コーパス記憶部4(記憶手段)とを含んで構成される。
大規模コーパス記憶部4は、大規模なコーパス(Corpus)を記憶するものであり、ハードディスク装置などの記憶装置やCD−ROMおよびその読取装置などを用いて実現される。コーパスとは、自然言語による文のテキストを大量に蓄積した一種のデータベースである。ここでは、大規模コーパス記憶部4は。例えば、テレビ放送用字幕テキストや、テレビやラジオのニュース原稿や、新聞記事や、ウェブサーバを巡回して得たテキストなどといった大量のテキスト情報を保持している。大規模コーパス記憶部4は、これらのテキストを、文毎に区切って取り出せる状態で保持している。コーパスとして、具体的には、例えば、毎日新聞の記事が収録された「毎日新聞1991〜2006データファイル」(日外アソシエーツ株式会社)などを利用することができる。
また、大規模コーパス記憶部4が、文のテキストの代わりに、例えばNグラム(N−gram)と言われるN個の形態素の並びの出現数情報を収録したNグラムコーパスを記憶するようにしても良い。Nグラムとは、自然言語を処理するためのモデルの一つであり、N個連続(Nは2以上の整数)の言語単位(文字や音素などでも良いが、本実施形態では形態素を言語単位とする)をマルコフモデルで表わし、それら言語単位間の接続確率(言語単位間の条件付確率)を統計情報として合わせて記憶している。Nグラムとして、具体的には、例えば、「Web日本語Nグラム第1版」(工藤拓,賀沢秀人 著,言語資源協会)などを用いることができる。
表現抽出部1は、入力として与えられる表現に基づき、大規模コーパス記憶部4を検索することにより、当該表現を含む文をコーパスから全て抽出する処理を行なう。この抽出は、単純に大規模コーパス記憶部4に記憶されているテキストを全文検索する方法で行なっても良いし、予め単語あるいは節の表現によってインデックス化しておき、このインデックスを参照することによって高速に抽出できるようにしても良い。
修飾文節抽出部2は、表現抽出部1によって抽出された文をそれぞれ構文解析処理し、その解析結果を利用して、入力として与えられた表現を修飾する文節を全て抽出する処理を行なう。なお、予め構文解析済みの状態でコーパスが保持されている場合には、改めてここで構文解析処理を行なう必要はない。
曖昧性評価処理部3は、修飾文節抽出部2によって抽出された文節の情報を用いて、入力として与えられた表現の曖昧性を評価する処理を行い、曖昧性評価値を出力する。
次に、曖昧性評価装置100による処理の手順について説明する。
図2は、曖昧性評価装置100による全体の処理手順を示すフローチャートである。
曖昧性評価装置100の表現抽出部1は、まずステップS1において、曖昧性評価の対象となる、節や単語などの表現の入力を受け付ける。入力された表現は、曖昧性評価装置100内のメモリに一時的に蓄積される。
上記の入力を受けた表現抽出部1は、次にステップS2において、大規模コーパス記憶部4を検索することにより、入力された表現を含む文(テキスト)を全て抽出する処理を行なう。なお、コーパスとしてNグラムを使用する場合には、文を抽出する代わりに、入力された表現を含む全てのNグラム(テキスト)を抽出する処理を行なう。
次にステップS3において、修飾文節抽出部2は、表現抽出部1によって抽出された文(またはNグラム)に対して、入力された表現を修飾する文節を全て抽出する処理を行なう。具体的には、表現抽出部1によって抽出された文(またはNグラム)を既存技術により構文解析し、その結果に基づき文節間の係り受け関係を抽出し、それによって入力された表現を修飾する文節を全て抽出する。
但し、このとき、入力された表現を修飾する文節であっても、時間表現による文節や人物表現に関する文節を除外するようにしても良い。具体的には、語のカテゴリーとして、時間表現に関する語や人物表現に関する語については、その旨を予め辞書データに登録しておき、評価対象の表現を修飾する文節に含まれる主要な自立語がそれらに該当するか否かを判断することにより、時間表現による文節や人物表現に関する文節を除外することができる。
なお、抽出されたNグラムを構文解析した結果は、そのNグラムが含まれる文全体を構文解析した結果と異なる場合はあるが、本実施形態はその結果を統計的に利用するものであるため、元のNグラムコーパスが充分に大規模なものであれば、それらの構文解析結果の差は、許容される誤差の範囲内に収まることがわかっている。
次にステップS4において、曖昧性評価処理部3が、入力された表現の曖昧性を評価する処理を行なう。具体的には、次の3つの統計的特徴を用いて評価を行なう。その統計的特徴とは、(1)入力された表現(節や単語)を修飾する文節(但し、時間表現による文節と人物表現による文節を除外する)の種類数が多い場合には、曖昧性が高い。(2)入力された表現(節や単語)を修飾する文節(但し、時間表現による文節と人物表現による文節を除外する)の出現頻度が一様に高い場合には、曖昧性が高い。(3)入力された表現(節や単語)の直前に区切れ目(句点、読点、接続詞など)の出現が少ない場合には、曖昧性が高い。
次に、曖昧性評価処理部3による評価処理の詳細について説明する。
図3は、曖昧性評価処理部3の内部の詳細機能構成を示すブロック図である。図示するように、曖昧性評価処理部3は、自立語抽出部31と、対象表現出現回数カウント部32と、自立語出現回数カウント部33と、評価値算出部34とを備えて構成されている。
曖昧性評価処理部3は、修飾文節抽出部2によって抽出された、評価対象の表現を修飾する文節群を入力として受け取る。また、曖昧性評価処理部3は、表現抽出部1によって抽出された、評価対象の表現を含む文群(またはNグラム群)を入力として受け取る。
曖昧性評価処理部3を構成する各部の概略は次の通りである。
自立語抽出部31は、評価対象の表現を修飾する文節群の中から、自立語を抽出する。自立語については後で説明する。
対象表現出現回数カウント部32は、評価対象の表現を含む文群(またはNグラム群)に含まれる対象表現の出現回数(またはNグラムの数)をカウントする。
自立語出現回数カウント部33は、自立語抽出部31によって抽出された自立語のそれぞれについて、評価対象の表現を抽出する文節群の中における出現回数をカウントする。
評価値算出部34は、対象表現出現回数カウント部32によってカウントされた対象表現の出現回数と、自立語出現回数カウント部33によってカウントされた自立語ごとの出現回数とに基づいて、評価値を算出する。
曖昧性評価処理部3の処理手順は次の通りである。
曖昧性評価処理部3の処理としては、まず、自立語抽出部31が、評価対象の表現を修飾する文節群から、そこに含まれる自立語を抽出する処理を行なう。自立語とはその単語単独で意味をもつ単語である。ある単語が自立語であるか否かは、その品詞によって決まる。日本語においては、自立語に含まれる品詞は一般的には、動詞、形容詞、形容動詞、名詞(代名詞、数詞を含む)、連体詞、副詞、接続詞、感動詞である。自立語に含まれない(つまり付属語である)品詞は一般的には助詞、助動詞である。自立語の抽出の際には、適宜辞書データ等を参照する。但し、コーパスに予め品詞情報が付加されている場合などには、その品詞情報を参照する。
次に、自立語出現回数カウント部33が、自立語抽出部31によって抽出された自立語ごとの出現回数をカウントする。つまり、ある自立語が、その表現を修飾する複数の別の文節内に出現する場合があるが、その自立語についてそれらの出現回数をカウントする。
自立語出現回数カウント部33によってカウントされた自立語の種類数は、評価対象の表現を修飾する文節の種類数を近似する値として扱うことができる。また、自立語出現回数カウント部33によってカウントされた自立語の出現頻度は、評価対象の表現を修飾する文節の出現頻度を近似する値として扱うことができる。文節の種類や出現頻度を直接使おうとすると、自立語以外の部分の表現のばらつきが出てしまうが、自立語出現回数カウント部33が行なう処理のように文節に含まれる自立語の統計量を算出して用いることにより、そのようなばらつきを吸収して曖昧性を評価することができる。
また、対象表現出現回数カウント部32が、評価対象とする表現を含む文群(またはNグラム群)の入力を受けて、それらの文の数(Nグラムの数)をカウントする。
そして、自立語出現回数カウント部33によってカウントされた自立語の出現回数と、対象表現出現回数カウント部32によってカウントされた対象表現の出現回数を用いて、評価値算出部34が、評価対象の表現の曖昧性を評価するための値を計算する。具体的には、コーパス中で表現(節や単語)pを修飾する文節中の自立語x(iは自然数)の出現頻度(自立語出現回数カウント部33によるカウント結果の値)をN(x;p)、表現pのコーパス中での全出現頻度(対象表現出現回数カウント部32によってカウントされた出現回数)をC(p)としたとき、評価値算出部34は、節pの曖昧性を評価する値H(p)を以下の式(1)により算出する。
Figure 0005128328
つまり、評価値算出部34は、表現pを修飾する節内に出現するそれぞれの自立語xの出現頻度を表現pの出現回数で除した値(N(x;p)/C(p)、これを自立語出現確率と呼ぶ)を算出し、この自立語出現確率とそれ自身の対数との積の、すべての自立語についての総和に、負符号を付けた値をH(p)として算出している。上記の式によれば、節を修飾する文節の種類が多いほど(つまり節を修飾する文節に含まれる自立語の種類が多いほど)H(p)の値は大きくなる(つまり曖昧性は高くなる)。また同様に、節を修飾する文節の頻度が一様であるほど(つまり節を修飾する文節に含まれる自立語の種類ごとの出現頻度が一様であるほど)、そしてその頻度が一様に高いほどH(p)の値は大きくなる(つまり曖昧性は高くなる)。また、節の直前に区切れ目の出現が多いほど、各自立語の出現確率(N(x;p)/C(p))が小さくなるため、H(p)の値は小さくなる(つまり曖昧性は低くなる)。
そして、評価値算出部34は、上記の式によって算出した曖昧性評価値H(p)を算出する。
次に、実際のコーパスを用いて曖昧性評価装置100が曖昧性評価値を算出した結果について説明する。
大規模コーパス記憶部4に記憶させるコーパスとしては、前記の「Web日本語Nグラム第1版」を利用した。この「Web日本語Nグラム第1版」には、ウェブクローリング装置がインターネットを介して日本語のウェブコンテンツから獲得した約200億文について、出現頻度が20回以上の1グラム〜7グラムの形態素列の情報が含まれている。
例えば、表現抽出部1に入力される表現(節)「症状が出る」に対して曖昧性評価値を計算する場合、この表現は「症状」・「が」・「出る」の3形態素から成るため、当該コーパス中の3グラムのデータ中から「症状」・「が」・「出る」(活用する品詞である「出る」については他の活用形を含む)の頻度をカウントすることにより、当該表現のコーパス中での全出現頻度C(p)を算出する。また、コーパス中の3グラム、4グラム、5グラムのデータから、当該表現を修飾する文節に含まれる自立語を抽出し、それら自立語の種類ごとの出現頻度を算出する。
図4は、上記の方法によって、健康に関する表現に対して実際に曖昧性評価値を算出した結果を列挙したものである。この図では、算出された曖昧性評価値H(p)の降順にソート済みの結果を示している。この図に示すように、例えば、「機能が低下する」という表現に対してはH(p)が「4.79」、「状態が続く」という表現に対してはH(p)が「3.55」、「反応が起こる」という表現に対してはH(p)が「3.03」と、曖昧性評価値が比較的高い。逆に、「脳出血を起こす」という表現に対してはH(p)が「0.13」、「血糖値が上がる」という表現に対してはH(p)が「0.18」、「血圧が高い」という表現に対してはH(p)が「0.28」と、曖昧性評価値が比較的低い。このように、コーパス内の統計的な特徴に基づいて算出した評価値H(p)が、各表現の実際の意味的な曖昧性に合っているという事実から、本実施形態による曖昧性評価装置が有効であると言える。
なお、図に示した曖昧性評価値の算出結果は、節に対するものであるが、名詞に対する曖昧性評価値も同様の処理手順により算出することができる。
なお、上述した実施形態における曖昧性評価装置の一部又は全部の機能をコンピュータで実現するようにしても良い。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時刻の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時刻プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
以上、複数の実施形態を説明したが、本発明はさらに次のような変形例でも実施することが可能である。
曖昧性評価値H(p)を計算するための式(1)を上で示したが、評価値の算出方法はこの式に限定されず、評価対象の表現を修飾する文節内の自立語の種類数が多いほど評価値が高くなり、また自立語ごとの出現頻度を対象表現の出現回数で除して得られる自立語出現確率が一様である度合いが高いほど評価値が高くなり、前記表現の直前に区切れ目の出現が少ないほど前記評価値が高くなるような他の計算式を適宜用いるようにしても良い。さらに、評価対象の表現を修飾する文節の種類数が多いほど評価値が高くなり、また文節の種類ごとの出現頻度が一様である度合いが高いほど評価値が高くなるような他の計算式を適宜用いるようにしても良い。
本発明の実施形態による曖昧性評価装置の機能構成を示すブロック図である。 同実施形態による曖昧性評価装置の全体的な処理手順を示すフローチャートである。 同実施形態による曖昧性評価装置の曖昧性評価値処理部3の詳細な機能構成を示すブロック図である。 同実施形態による曖昧性評価装置が算出した曖昧性評価値H(p)の例を、その値の降順にソートして示した概略図である。
符号の説明
1 表現抽出部
2 修飾文節抽出部
3 曖昧性評価処理部
4 大規模コーパス記憶部(記憶手段)
31 自立語抽出部
32 対象表現出現回数カウント部
33 自立語出現回数カウント部
34 評価値算出部
100 曖昧性評価装置

Claims (3)

  1. 複数のテキストを記憶する記憶手段に含まれるテキストの中から、評価対象の表現を含む前記テキストを抽出する表現抽出部と、
    前記表現抽出部によって抽出された前記テキスト内において前記表現を修飾する文節を抽出する修飾文節抽出部と、
    前記表現抽出部によって抽出された前記テキスト、前記修飾文節抽出部によって抽出された前記文節を基に、前記表現の曖昧性を表わす評価値を算出する曖昧性評価処理部と
    を具備し、
    前記曖昧性評価処理部は、
    前記表現抽出部によって抽出された前記テキスト中における前記表現の出現回数をカウントする対象表現出現回数カウント部と、
    前記修飾文節抽出部によって抽出された文節に含まれる自立語ごとの出現回数をカウントする自立語出現回数カウント部と、
    前記対象表現出現回数カウント部によってカウントされた前記表現の出現回数と、前記自立語出現回数カウント部によってカウントされた自立語ごとの出現回数とに基づいて、前記自立語の種類数が多いほど前記評価値が高くなり、また前記自立語ごとの出現頻度を前記表現の出現回数で除して得られる自立語出現確率が一様である度合いが高いほど前記評価値が高くなるように、前記評価値を算出する評価値算出部と、
    を含む
    ことを特徴とする曖昧性評価装置。
  2. 前記曖昧性評価処理部は、前記表現を修飾する文節内に出現するそれぞれの前記自立語の出現頻度を前記表現の出現回数で除した値を自立語出現確率とし、前記自立語出現確率と当該自立語出現確率の対数との積の、すべての自立語についての総和に、負符号を付けた値を、前記評価値として算出する、
    ことを特徴とする請求項1に記載の曖昧性評価装置。
  3. 複数のテキストを記憶する記憶手段に含まれるテキストの中から、評価対象の表現を含む前記テキストを抽出する表現抽出過程と、
    前記表現抽出過程によって抽出された前記テキスト内において前記表現を修飾する文節を抽出する修飾文節抽出過程と、
    前記表現抽出過程によって抽出された前記テキスト、前記修飾文節抽出過程によって抽出された前記文節を基に、前記表現の曖昧性を表わす評価値を算出する曖昧性評価処理過程と、
    の処理をコンピュータに実行させるプログラムであって、
    前記曖昧性評価処理過程は、
    前記表現抽出過程によって抽出された前記テキスト中における前記表現の出現回数をカウントする対象表現出現回数カウント過程と、
    前記修飾文節抽出過程によって抽出された文節に含まれる自立語ごとの出現回数をカウントする自立語出現回数カウント過程と、
    前記対象表現出現回数カウント過程によってカウントされた前記表現の出現回数と、前記自立語出現回数カウント過程によってカウントされた自立語ごとの出現回数とに基づいて、前記自立語の種類数が多いほど前記評価値が高くなり、また前記自立語ごとの出現頻度を前記表現の出現回数で除して得られる自立語出現確率が一様である度合いが高いほど前記評価値が高くなるように、前記評価値を算出する評価値算出過程と、
    を含むプログラム。
JP2008064107A 2008-03-13 2008-03-13 曖昧性評価装置およびプログラム Expired - Fee Related JP5128328B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008064107A JP5128328B2 (ja) 2008-03-13 2008-03-13 曖昧性評価装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008064107A JP5128328B2 (ja) 2008-03-13 2008-03-13 曖昧性評価装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2009223373A JP2009223373A (ja) 2009-10-01
JP5128328B2 true JP5128328B2 (ja) 2013-01-23

Family

ID=41240121

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008064107A Expired - Fee Related JP5128328B2 (ja) 2008-03-13 2008-03-13 曖昧性評価装置およびプログラム

Country Status (1)

Country Link
JP (1) JP5128328B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103119585B (zh) * 2010-12-17 2015-12-02 北京交通大学 知识获取装置及方法
WO2014083835A1 (ja) * 2012-11-27 2014-06-05 日本電気株式会社 文書分析装置、文書分析方法及び記憶媒体

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3366253B2 (ja) * 1998-05-21 2003-01-14 三菱電機株式会社 音声合成装置
JP3946115B2 (ja) * 2002-09-19 2007-07-18 日本電信電話株式会社 応答対話文生成方法、応答対話文作成装置、応答対話文作成プログラム、このプログラムを記録した記録媒体
AR056123A1 (es) * 2005-10-04 2007-09-19 Thomson Global Resources Sistemas, metodos y software para determinar la ambiguedad de terminos medicos

Also Published As

Publication number Publication date
JP2009223373A (ja) 2009-10-01

Similar Documents

Publication Publication Date Title
US11687727B2 (en) Robust natural language parser
US9575955B2 (en) Method of detecting grammatical error, error detecting apparatus for the method, and computer-readable recording medium storing the method
Evert The statistics of word cooccurrences: word pairs and collocations
US8185377B2 (en) Diagnostic evaluation of machine translators
US8285541B2 (en) System and method for handling multiple languages in text
KR101498331B1 (ko) 텍스트 세그먼트를 가진 문서로부터 용어를 추출하기 위한 시스템
EP3016002A1 (en) Non-factoid question-and-answer system and method
US20060235689A1 (en) Question answering system, data search method, and computer program
US20070073745A1 (en) Similarity metric for semantic profiling
US20070073678A1 (en) Semantic document profiling
US8375033B2 (en) Information retrieval through identification of prominent notions
US9600469B2 (en) Method for detecting grammatical errors, error detection device for same and computer-readable recording medium having method recorded thereon
US8443008B2 (en) Cooccurrence dictionary creating system, scoring system, cooccurrence dictionary creating method, scoring method, and program thereof
Erdmann et al. Improving the extraction of bilingual terminology from Wikipedia
JP2011118689A (ja) 検索方法及びシステム
Bella et al. Domain-based sense disambiguation in multilingual structured data
CN111651559A (zh) 一种基于事件抽取的社交网络用户关系抽取方法
CN114970516A (zh) 数据增强方法及装置、存储介质、电子设备
Bölücü et al. Unsupervised joint PoS tagging and stemming for agglutinative languages
CN113743090A (zh) 一种关键词提取方法及装置
CN113360004A (zh) 输入法候选词推荐方法及装置
JP5128328B2 (ja) 曖昧性評価装置およびプログラム
Channell et al. Automated grammatical tagging of child language samples
JP2003167898A (ja) 情報検索システム
Al-Arfaj et al. Arabic NLP tools for ontology construction from Arabic text: An overview

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100310

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120508

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120704

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121002

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121031

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5128328

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151109

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees