JP2010033142A - 未来表現判別装置、未来表現判別方法およびプログラム - Google Patents

未来表現判別装置、未来表現判別方法およびプログラム Download PDF

Info

Publication number
JP2010033142A
JP2010033142A JP2008191994A JP2008191994A JP2010033142A JP 2010033142 A JP2010033142 A JP 2010033142A JP 2008191994 A JP2008191994 A JP 2008191994A JP 2008191994 A JP2008191994 A JP 2008191994A JP 2010033142 A JP2010033142 A JP 2010033142A
Authority
JP
Japan
Prior art keywords
sentence
expression
future
feature
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008191994A
Other languages
English (en)
Other versions
JP5041547B2 (ja
Inventor
Toshiyuki Sakai
俊之 坂井
Yoshihide Sato
吉秀 佐藤
Harumi Kawashima
晴美 川島
Hidenori Okuda
英範 奥田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2008191994A priority Critical patent/JP5041547B2/ja
Publication of JP2010033142A publication Critical patent/JP2010033142A/ja
Application granted granted Critical
Publication of JP5041547B2 publication Critical patent/JP5041547B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】「どうか雨が降りますように」のように、時間が明示的に示されていないが、内容が未来である文を判別する未来表現判別装置を提供することを目的とする。
【解決手段】素性辞書に登録されている素性表現が、文章データベースに登録してある文章の各処理対象文に出現する出現回数を数え上げ、文章に固有な文章番号と、文章内において何番目であるかを示す文番号とを用い、上記出現回数と、上記素性表現の出現の有無を表す0か1の数値とに対して、文章番号が等しい処理対象文の各素性の値を、文間距離(文番号の差)に応じて変化する重みを付けて加算し、上記学習情報合成手段が出力した各素性の値のうちで、内容が未来であることが既知である文の値に基づいて機械学習を行い、判定対象文の内容が未来であるかどうかを判別する関数を作成する。
【選択図】図1

Description

本発明は、電子化されたテキストから、未来に関する表現を判別する装置に関する。
しかし、時制が「過去」や「現在」であっても、「明日は晴れます」のように、文が示す内容は未来であることも多く、特許文献1の方式では、このような、内容が未来である文の抽出は不可能である。
また、特許文献1記載の方式は、新聞記事のような正しい文法で記述された文章を対象とし、CGM(Consumer Generated Media)のような、くだけた文法で記述されている文章には対応できないという問題がある。
本発明は、文が指し示す内容が未来である文を判別することを目的とする。
本発明は、「明日は雨が降るだろう」のように、単に明示的に時間が示されているだけでなく、「どうか雨が降りますように」のように、時間が明示的に示されていないが、内容が未来である文についても、文が指し示す内容が未来である文を判別する未来表現判別装置を提供することを目的とする。
テキスト中の文が指し示す時間を特定する従来技術として、時制を推定する技術が知られている(たとえば、特許文献1参照)。
特許文献1記載の発明は、新聞記事によく見られるように、体言止め文で省略されている時制を推定する。体言止め文とは、「北の湖が引退したのは、本人の決断」のように、文末の「です、である」等の表現が省略された文である。特許文献1記載の発明は、このような体言止め文の時制について、「過去」であるか「現在」であるかを推定する。
特開平08−044741号公報
本発明は、素性辞書に登録されている素性表現が、文章データベースに登録してある文章の各処理対象文に出現する出現回数を数え上げる判定対象文解析手段と、文章に固有な文章番号と、文章内において何番目であるかを示す文番号とを用い、上記判定対象文解析手段が出力した上記出現回数と、上記素性表現の出現の有無を表す0か1の数値とに対して、文章番号が等しい処理対象文の各素性の値を、文間距離(文番号の差)に応じて変化する重みを付けて加算する学習情報合成手段と、上記学習情報合成手段が出力した各素性の値のうちで、内容が未来であることが既知である文の値に基づいて機械学習を行い、判定対象文の内容が未来であるかどうかを判別する関数を作成する未来表現学習手段とを有することを特徴とする未来表現判別装置である。
本発明によれば、時間表現、可能性表現、文末表現、疑問・願望表現を、素性表現として抜き出し、日付以外の時間表現の頻度や時間表現以外の素性表現の存在の有無を表す値を、重み付け加算することによって、文中に明示的な時間表現が記述されていなくても、その文が未来表現であれば、未来表現として判別することができるという効果を奏する。
発明を実施するための最良の形態は、以下の実施例である。
図1は、本発明の実施例1である未来表現判別装置100を示す図である。
未来表現判別装置100は、判定対象文解析手段A1と、学習情報合成手段A2と、未来表現学習手段A3と、未来表現抽出手段A4と、素性辞書B1と、文章データベースB2と、文素性情報保持手段B3と、学習情報保持手段B4と、判別関数保持手段B5とによって構成されている。
素性辞書B1は、時間を表す時間表現や、仮定や可能性を表す可能性表現を登録する。また、時制、予定、推量を表す文末表現や、疑問・願望表現を登録する。ただし、素性表現を、形態素単位で登録する。
文章データベースB2は、未来表現であるか否かの判別関数を学習するための文章と、判別対象である文章とを保存する。なお、未来表現であるか否かの判別関数を学習するための文章は、未来表現、非未来表現が分かっている文章であり、判別対象である文章は、未来表現、非未来表現が分かっていない文章である。文章が作成された日付が、更新日時として、年月日別に数字で、文章に付いており、更新曜日も、月曜〜日曜のように付いている。同時に、固有の番号も、文章に付いている。また、文章中の各文には、先頭を1とし、順番に連続した番号が付いている。さらに、学習用の文章の各文には、未来ラベルまたは非未来ラベルも付いている。
判定対象文解析手段A1は、文章データベースB2が保持する文章と、素性辞書B1に登録されている素性表現とを受け取る。なお、上記素性表現は、機械学習で判断の元になるデータである。
文章には、学習用の文章と、判別対象の文章とがあり、その両者に対して、文章が作成された日付が、更新日付として、年月日別に数字で付与されている。更新曜日も、月曜〜日曜のように付いている。同時に、文章には、固有の番号も付いている。なお、上記学習用の文章は、未来表現であるか否かが既知であり、機械学習において、未来表現であることを判別するための関数を作成する元になる文章(判別関数を作成するための文章)である。上記判別対象の文章は、未来表現であるか否かが未知であり、作成した判別関数を用いて、未来表現であるか否かを判別する対象となる文章(未来表現であるか否かを判別したい文章)である。
また、文章中の各文には、先頭を1として、順番に連続した文番号が付いている。さらに、学習用の文章中の各文には、未来ラベルまたは非未来ラベルも付いている。上記未来ラベルは、当該文が未来を示す文であることを示すラベルであり、上記非未来ラベルは、当該文が未来を示す文ではないことを示すラベルである。
文章を受け取った後に、文章中の文毎に、以下の処理を行う。まず、各文に現れている素性表現を抜き出す。素性辞書B1が保持している素性表現のうちで、日付以外の時間表現について、文中の出現頻度を数え、素性表現に付加する。日付について、年月日別に、抜き出した値が更新日付よりも大きい値の頻度と、小さい値の頻度と、更新日付と同じ値の頻度とを数え上げる。
時間表現以外の素性表現が出現すれば、1を素性表現に付加し、時間表現以外の素性表現が出現しなければ、0を素性表現に付加する。
素性表現に付加されている頻度(時間表現の頻度)、存在(時間表現以外の素性表現の存在)の有無を表す値は、文毎に、文章番号と、文番号と、未来ラベルまたは非未来ラベルと、更新日付と、更新曜日とを付加した上で、文素性情報保持手段B3に保持する。
つまり、判定対象文解析手段A1は、素性辞書に登録されている素性表現が、文章データベースに登録してある文章の各処理対象文に出現する出現回数を数え上げる判定対象文解析手段の例である。
文素性情報保持手段B3は、文中に存在する素性表現の頻度や、時間表現以外の素性表現の存在の有無を文毎に保存している。また、文素性情報保持手段B3は、文番号と、文が属する文章番号と、更新日時と、更新曜日と、未来ラベルまたは非未来ラベルとを保存する。
学習情報合成手段A2は、文素性情報保持手段B3に保存されている文毎の素性表現と、時間表現の頻度と、時間表現以外の素性表現の存在の有無を表す値と、文章番号と、文番号と、未来ラベルまたは非未来ラベルと、更新日付と、更新曜日とを受け取る。
その後に、文毎に以下の処理を行う。
各文の素性表現に付加されている値に、同じ文章番号における他の文の素性表現に付加されている値を、重みを付けて加え合わせる。この重み付け加算を、全ての文について実行し、重み付け加算された値と、文素性情報保持手段B3から受け取った、文章番号と、文番号と、未来ラベルまたは非未来ラベルと、更新日付と、更新曜日との情報を、文毎に、学習情報保持手段B4に保存する。
つまり、学習情報合成手段A2は、文章に固有な文章番号と、文章内において何番目であるかを示す文番号とを用い、上記判定対象文解析手段が出力した上記出現回数と、上記素性表現の出現の有無を表す0か1の数値とである素性の値に対して、文章番号が等しい処理対象文の上記各素性の値を、文間距離(文番号の差)に応じて変化する重みを付けて加算する学習情報合成手段の例である。
未来表現学習手段A3は、学習情報保持手段B4に保存されている情報を受け取り、その中から、未来ラベルまたは非未来ラベルが付加されている文の情報のみを用い、未来表現であるか否かの判別関数を学習する。学習した判別関数は、判別関数保持手段B5に保存する。
つまり、未来表現学習手段A3は、上記学習情報合成手段が出力した各素性の値のうちで、内容が未来であることが既知である文の値に基づいて機械学習を行い、判定対象文の内容が未来であるかどうかを判別する関数を作成する未来表現学習手段の例である。
未来表現抽出手段A4は、文章データベースB2、学習情報保持手段B4、判別関数保持手段B5に保存されている情報を受け取り、上記未来ラベルまたは非未来ラベル(未来であるか否かを示すラベル)が付加されていない文について、未来ラベルまたは非未来ラベルを付加する。そして、付加したラベルのうちで、未来ラベルが付いている文を、文章番号と文番号とによって、文章データベースB2の情報から検索し、出力する。
つまり、未来表現抽出手段A4は、内容が未来であることが未知である文に対して、上記未来表現学習手段が出力した判別関数を用いて、内容が未来であるかどうかを判別し、未来であると判別されると、該当文を出力する未来表現抽出手段の例である。
学習情報保持手段B4は、重み付け加算された素性表現の頻度(時間表現の頻度)や存在(時間表現以外の素性表現の存在)の有無であって、文中に存在する素性表現の頻度や存在の有無を、文毎に保存し、文番号と、文が属する文章番号と、更新日付と、更新曜日と、未来ラベルまたは非未来ラベルとを保存する。
判別関数保持手段B5は、未来表現学習手段A3で学習した未来であるか否かの判別関数を保存する。
次に、上記実施例の動作について説明する。
未来表現を判別する場合、まず、未来表現であるか否かを判定する判別関数を学習し、次に、この学習した関数を用いて、未来表現を判別する。
学習と判別とを行う際に、まず、素性辞書B1を用意する。この素性辞書B1は、時間を表す時間表現や、仮定や可能性を表す可能性表現を登録している。また、時制、予定、推量等を表す文末表現や、疑問・願望表現も登録している。ただし、素性表現は、形態素の単位で登録されている。
また、文章データベースB2として、学習用の文章と判別対象の文章とを用意する。文章が作成された日付が、更新日付として、年月日別に数字で付けられ、更新曜日も月曜〜日曜のように付いている。また、文章には、固有の番号が付いている。さらに、文章中の各文には、先頭を1とし、順番に連続する文番号が付いている。しかも、学習用の文章中の各文には、未来ラベルまたは非未来ラベルも付いている。
素性辞書B1と文章データベースB2とを用意した後に、判定対象文解析手段A1は、文章データベースB2が保持している文章と、素性辞書B1が保持している素性表現とを受け取る。
上記文章と上記素性表現とを受け取った後に、判定対象文解析手段A1は、文章中の文毎に以下の処理を行う。
まず、素性辞書B1が保持している素性表現とのマッチングによって、素性表現を文章中の各文から抜き出す。素性辞書B1が保持している素性表現のうちで、日付以外の時間表現について、出現頻度を数え、素性表現に付加する。日付について、年月日別に、抜き出した値が更新日付よりも大きい値の頻度と、小さい値の頻度と、更新日付と同じ値の頻度とを数え上げる。時間表現以外の素性表現が出現すれば、1を素性表現に付加し、時間表現以外の素性表現が出現しなければ、0を素性表現に付加する。
素性表現に付加された時間表現の頻度、時間表現以外の素性表現の存在の有無を表す値は、文毎に、文章番号と文番号、未来ラベルまたは非未来ラベルと更新日付、更新曜日を付加した後に、文素性情報保持手段B3に保存する。
判定対象文解析手段A1において、素性表現を抜き出した後に、学習情報合成手段A2は、文素性情報保持手段B3から、文毎の素性表現と、頻度(時間表現の頻度)、存在(時間表現以外の素性表現の存在)の有無を表す値と、文章番号と、文番号と、未来ラベルまたは非未来ラベルと、更新日付と、更新曜日との情報を受け取る。
その後に、文毎に以下の処理を行う。
各文の素性表現に付加された値に、同じ文章番号の文章における他の文の素性表現に付加されている値を、重みを付けて加え合わせる。この重み付け加算を、全ての文について実行し、重み更け加算された値と、文素性情報保持手段B3から受け取った文章番号、文番号と未来ラベルまたは非未来ラベル、更新日付と更新曜日の情報とを、学習情報保持手段B4に、文毎に保存する。
学習情報合成手段A2で重み付けした後に、未来表現学習手段A3は、学習情報保持手段B4に保持した情報を受け取る。未来表現学習手段A3は、受け取った情報のうちで、未来ラベルまたは非未来ラベルが付加されている文の情報を用いて、判別する判別関数を学習する。学習した判別関数は、判別関数保持手段が保持する。
判別関数を学習した後に、未来表現抽出手段A4は、文章データベースB2、学習情報合成手段A2、判別関数保持手段B5に保持されている情報を受け取る。受け取った情報を用い、未来ラベルまたは非未来ラベルが付加されていない文に、ラベルを付加する。そして、付加したラベルのうちで、未来ラベルが付いている文を、文章番号と文番号とによって、文章データベースB2の情報から検索し、出力する。
[具体例1]
たとえば、Web上に存在している大量の文章の中から、未来表現を文単位で判別することを考える。この場合、まず、未来表現の判別関数を学習するための学習用文章と判別対象の文章とを用意する。
図2は、文書データベースB2に保存されている文章の例を示す図である。
文章の形式は、図2に示すように、文章が作成された日付が、更新日付として年月日別に数字で付けられ、更新曜日も、月曜〜日曜のように付いている。また、文章には、固有の番号も付いている。また、文章中の各文には、先頭を1とし、順番に連続する文番号が付いている。さらに、学習用の文章中の各文には、未来ラベルまたは非未来ラベルも付いている。この文章は、文章データベースB2に保存する。
次に、判定対象文解析手段A1は、学習用文章から、文毎に素性を抜き出す。ただし、素性は、形態素単位で素性辞書B1に登録し、素性を抜き出す場合、登録した形態素とマッチングすることによって抜き出す。
ここで、素性辞書B1に登録されている素性表現について述べる。素性辞書B1には、素性を形態素単位で登録している。登録の形態として、時間表現について、表記が登録され、時間表現以外については、表記と品詞との組として登録されている。
図3は、素性辞書B1に登録されている素性表現の例を示す図である。
図3に示すように、登録されている素性の種類は、時間表現、可能性表現、文末表現、疑問・願望表現である。
そして、判別対象文書と学習用文章とから、上記素性を抜き出した後に、まず、日付以外の時間表現について、出現頻度を数え上げ、素性表現に付加する。また、日付について、年月日別に、抜き出した値が更新日付よりも大きい値の頻度と、小さい値の頻度と、更新日付と同じ値の頻度とを数え上げる。
たとえば、文中に、2007年7月2日という表現があり、更新日付が、2008年6月2日である場合、年については、2007−2008=−1であるので、更新日付よりも大きい値の頻度が、0であり、小さい値の頻度が1であり、同じ値の頻度は、0である。
そして、月について、それぞれ1、0、0であり、日について、それぞれ0、0、1である。時間情報以外の素性表現が出現すれば、1を素性表現に付加し、時間情報以外の素性表現が出現しなければ、0を素性表現に付加する。
この素性表現に付加された頻度(時間表現の頻度)、存在(時間表現以外の素性表現の存在)の有無を表す値を、文毎に、文章番号と、文番号と、未来ラベルまたは非未来ラベルと、更新日付と、更新曜日とを付加した上で、文素性情報保持手段B3に保存する。
図4は、文素性情報保持手段B3に保存されているデータの例を示す図である。
判定対象文解析手段A1が素性表現を抜き出した後に、学習情報合成手段A2は、文素性情報保持手段B3から、文毎の素性表現と、頻度(時間表現の頻度)、存在(時間表現以外の素性表現の存在)の有無を表す値、文章番号、文番号と未来ラベルまたは非未来ラベル、更新日付と更新曜日の情報とを受け取る。その後に、文毎に以下の処理を行う。
まず、各文の素性表現に付加されている値に、同じ文章番号における他の文の素性表現に付加されている値を、重み付け加算する。たとえば、文章内の文の数を、nとすると、周囲の文との距離、つまり、文番号の差に応じて、次の式(1)で重み付けする。つまり、文間距離が離れている程、重み付け対象文への影響を小さくする。なお、nは、文章内の文番号であり、αは、任意に決定する定数である。また、k番目の文の付加値は、k番目の文の素性の出現頻度と、時間表現以外の素性表現の存在の有無を示す値とである。
Figure 2010033142
図5は、重み付け加算の例を示す図である。
図5に示す1〜3番目の文おける「今日」という形態素について、上記式(1)に従って、重み付け加算すると、次のようになる。なお、定数αを1/2とする。
図5に示す1番目の文における「今日」の重み付加算は、次のように演算し、「1」になる。
1×(1/2)^|1−1|+0×(1/2)^|1−2|+0×(1/2)^|1−3|=1
図5に示す2番目の文における「今日」の重み付加算は、次のように演算し、「0.5」になる。
1×(1/2)^|2−1|+0×(1/2)^|2−2|+0×(1/2)^|2−3|=0.5
図5に示す3番目の文における「今日」の重み付加算は、次のように演算し、「0.25」になる。
1×(1/2)^|3−1|+0×(1/2)^|3−2|+0×(1/2)^|3−3|=0.25
図5に示す1〜3番目の文おける「明日」という形態素について、上記と同様に、上記式(1)に従って、重み付け加算すると、次のようになる。なお、定数αを1/2とする。
図5に示す1番目の文における「明日」の重み付加算は、次のように演算し、「0.5」になる。
0×(1/2)^|1−1|+1×(1/2)^|1−2|+0×(1/2)^|1−3|=0.5
図5に示す2番目の文における「明日」の重み付加算は、次のように演算し、「1」になる。
0×(1/2)^|2−1|+1×(1/2)^|2−2|+0×(1/2)^|2−3|=1
図5に示す3番目の文における「明日」の重み付加算は、次のように演算し、「0.5」になる。
0×(1/2)^|3−1|+1×(1/2)^|3−2|+0×(1/2)^|3−3|=0.5
である。
上記重み付け加算を、全ての文について実行し、重み付け加算された値と、文素性情報保持手段B3から受け取った文章番号と、文番号と、未来ラベルまたは非未来ラベルと、更新日付と、更新曜日の情報とを、学習情報として、学習情報保持手段B4に、文毎に保存する。
学習情報合成手段A2が重み付けした後に、未来表現学習手段A3は、学習情報保持手段B4に保持されている情報を受け取る。受け取った情報のうちで、未来ラベルまたは非未来ラベルが付加されている文の情報を用い、未来表現学習手段A3は、SVM(サポートベクトルマシン)によって、未来表現であるか否かを判別する判別関数を学習する。学習したモデル(未来表現であるか否かを判別する判別関数)を、判別関数保持手段B5に保持する。
判別関数を学習した後に、未来表現抽出手段A4は、文章データベースB2、学習情報保持手段B4、判別関数保持手段B5に保持されている情報を受け取る。受け取った情報を用い、未来ラベルまたは非未来ラベルが付加されていない文について、未来ラベルまたは非未来ラベルを付加する。そして、付加した未来ラベルまたは非未来ラベルのうちで、未来ラベルが付いている文を、文章番号と文番号とともに、文章データベースB2の情報から検索し、出力する。
[具体例2]
具体例1では、学習情報合成手段A2は、同じ文章番号における他の文の素性表現に付加されている値を、重みを付けて加え合わせ、この重み付け加算に用いる文として、文章中の文全体を使用している。このようにする代わりに、重み付け加算の対象文の文番号よりも小さい文番号の文を、重み付け加算に用いる文として使用するようにしてもよい。また、重み付け加算の対象文の文番号よりも大きい文番号の文を、重み付け加算に用いる文として使用するようにしてもよい。さらに、文番号の大小だけでなく、重み付け加算の対象文との文番号の差が、n以内の文だけを、重み付け加算に用いる文として使用するようにしてもよい。
[具体例3]
学習情報合成手段A2が重み付け加算の対象とする素性表現として、素性辞書B1に登録されている素性表現全体を用いてもよい。また、学習情報合成手段A2が重み付け加算する対象として、時間表現、可能性表現、文末表現、疑問・願望表現のいずれかの素性表現のみを限定するようにしてもよい。または、学習情報合成手段A2が重み付け加算する対象として、時間表現、可能性表現、文末表現、疑問・願望表現のうちの、特定の素性表現のみを限定するようにしてもよい。
[具体例4]
判定対象解析手段A1が抜き出す文末表現として、文全体から抜き出すようにしてもよい。また、判定対象解析手段A1が抜き出す文末表現として、文末からn形態素以内等の特定部分を限定するようにしてもよい。
上記実施例によれば、時間表現、可能性表現、文末表現、疑問・願望表現を、素性表現として抜き出し、その頻度(時間表現の頻度)や存在(時間表現以外の素性表現の存在)の有無を表す値を、重み付け加算するので、明示的な時間表現が記述されている未来表現を、抜き出すことができる。
なお、機械学習では、どのような判別関数を作成するかが重要であり、言い換えれば、どのような素性を与えれば、精度良く判別ができるかを明らかにすることが重要である。判別関数さえ作成すれば、後は素性を入力するだけで、判別することができる。また、本発明では、機械学習の学習器(アルゴリズム)として、既存のものを利用することを考えているので、判別関数と素性さえ与えられれば、既存の機械学習のフリーソフト(一般には、学習する機能と、学習した関数を用いた判別結果を出力する機能がセットになっている)を用いることによって、未来表現判別結果を出力することができる。
したがって、未来表現抽出手段A4を必ずしも設ける必要はなく、判定対象文解析手段A1と、学習情報合成手段A2と、未来表現学習手段A3とを設けるだけでもよい。
また、上記実施例によれば、文中に明示的な時間表現が記述されていなくても、その文が未来表現であれば、未来表現として判別することができる。
さらに、上記実施例によれば、日付の素性に関して、年月日別に素性として抜き出すので、年月日の全てが記述されていない文を判別することができる。つまり、年月のみが記載されている文、日のみが記載されている文等を、未来文として判別することができる。
上記実施例では、明示的に時間表現が記述されていない文に対しても、未来表現であるか否かを判定するので、他の文の素性表現を利用した重み付け加算を用いる。つまり、明示的な時間表現が記述されていない文の場合、その文のみからでは未来表現であるか否かを判断することが困難であるので、周囲の文脈から判断する。たとえば、前の文に「明日」という素性表現があれば、次の文も明日についての事柄が記述されている可能性があるので、前の文の「明日」の出現頻度を重み付けし(前の文の「明日」という素性の影響力を考慮し)、時間表現が記述されていない文の素性(未来であるか否かの判断の根拠)として加算する。
なお、上記実施例において、上記素性表現は、時間を表す表現、文末表現であり、仮定を表す表現、可能性を表す表現、疑問を表す表現、願望を表す表現のうちの少なくとも1つを有することがある。つまり、上記素性表現として、時間を表す表現と文末表現とは必須であるが、仮定を表す表現、可能性を表す表現、疑問を表す表現、願望を表す表現は、必須ではなく、判別精度を向上させるために必要な表現である。
なお、上記実施例における手段を工程に置き換えれば、上記実施例を、未来表現判別方法として把握することができる。
つまり、上記実施例は、素性辞書に登録されている素性表現が、文章データベースに登録してある文章の各処理対象文に出現する出現回数を数え上げ、記憶装置に記憶する判定対象文解析工程と、文章に固有な文章番号と、文章内において何番目であるかを示す文番号とを用い、上記判定対象文解析工程で出力された上記出現回数と、上記素性表現の出現の有無を表す0か1の数値とに対して、文章番号が等しい処理対象文の各素性の値を、文間距離に応じて変化する重みを付けて加算し、記憶装置に記憶する学習情報合成工程と、上記学習情報合成工程で出力された各素性の値のうちで、内容が未来であることが既知である文の値に基づいて機械学習を行い、判定対象文の内容が未来であるかどうかを判別する関数を作成し、記憶装置に記憶する未来表現学習工程とを有する未来表現判別方法の例である。
また、上記実施例をプログラムの発明として把握することができる。
つまり、上記実施例は、素性辞書に登録されている素性表現が、文章データベースに登録してある文章の各処理対象文に出現する出現回数を数え上げる判定対象文解析手順と、文章に固有な文章番号と、文章内において何番目であるかを示す文番号とを用い、上記判定対象文解析手順が出力した上記出現回数と、上記素性表現の出現の有無を表す0か1の数値とに対して、文章番号が等しい処理対象文の各素性の値を、文間距離に応じて変化する重みを付けて加算する学習情報合成手順と、上記学習情報合成手順が出力した各素性の値のうちで、内容が未来であることが既知である文の値に基づいて機械学習を行い、判定対象文の内容が未来であるかどうかを判別する関数を作成する未来表現学習手順とをコンピュータに実行させるプログラムの例である。
換言すれば、上記実施例は、請求項1〜請求項4のいずれか1項に記載の未来表現判別装置を構成する各手段としてコンピュータを機能させるプログラムの例である。
本発明の実施例1である未来表現判別装置100を示す図である。 文書データベースB2に保存されている文章の例を示す図である。 素性辞書B1に登録されている素性表現の例を示す図である。 文素性情報保持手段B3に保存されているデータの例を示す図である。 重み付け加算の例を示す図である。
符号の説明
100…未来表現判別装置、
A1…判定対象文解析手段、
A2…学習情報合成手段、
A3…未来表現学習手段、
A4…未来表現抽出手段、
B1…素性辞書、
B2…文章データベース、
B3…文素性情報保持手段、
B4…学習情報保持手段、
B5…判別関数保持手段。

Claims (6)

  1. 素性辞書に登録されている素性表現が、文章データベースに登録してある文章の各処理対象文に出現する出現回数を数え上げる判定対象文解析手段と;
    文章に固有な文章番号と、文章内において何番目であるかを示す文番号とを用い、上記判定対象文解析手段が出力した上記出現回数と、上記素性表現の出現の有無を表す0か1の数値とである素性の値に対して、文章番号が等しい処理対象文の上記各素性の値を、文間距離に応じて変化する重みを付けて加算する学習情報合成手段と;
    上記学習情報合成手段が出力した各素性の値のうちで、内容が未来であることが既知である文の値に基づいて機械学習を行い、判定対象文の内容が未来であるかどうかを判別する関数を作成する未来表現学習手段と;
    を有することを特徴とする未来表現判別装置。
  2. 請求項1において、
    内容が未来であることが未知である文に対して、上記未来表現学習手段が出力した判別関数を用いて、内容が未来であるかどうかを判別し、未来であると判別されると、該当文を出力する未来表現抽出手段を有することを特徴とする未来表現判別装置。
  3. 請求項1において、
    上記素性表現は、時間を表す表現、文末表現であり、仮定を表す表現、可能性を表す表現、疑問を表す表現、願望を表す表現のうちの少なくとも1つを有することがあることを特徴とする未来表現判別装置。
  4. 請求項1において、
    上記判定対象文解析手段は、上記素性表現が時間を表す表現である場合、上記時間を表す表現のうちで、日付に関する表現は、年月日別に素性表現の出現回数を数え上げる手段であることを特徴とする未来表現判別装置。
  5. 素性辞書に登録されている素性表現が、文章データベースに登録してある文章の各処理対象文に出現する出現回数を数え上げ、記憶装置に記憶する判定対象文解析工程と;
    文章に固有な文章番号と、文章内において何番目であるかを示す文番号とを用い、上記判定対象文解析工程で出力された上記出現回数と、上記素性表現の出現の有無を表す0か1の数値とに対して、文章番号が等しい処理対象文の各素性の値を、文間距離に応じて変化する重みを付けて加算し、記憶装置に記憶する学習情報合成工程と;
    上記学習情報合成工程で出力された各素性の値のうちで、内容が未来であることが既知である文の値に基づいて機械学習を行い、判定対象文の内容が未来であるかどうかを判別する関数を作成し、記憶装置に記憶する未来表現学習工程と;
    を有することを特徴とする未来表現判別方法。
  6. 請求項1〜請求項4のいずれか1項に記載の未来表現判別装置を構成する各手段としてコンピュータを機能させるプログラム。
JP2008191994A 2008-07-25 2008-07-25 未来表現判別装置及びプログラム Expired - Fee Related JP5041547B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008191994A JP5041547B2 (ja) 2008-07-25 2008-07-25 未来表現判別装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008191994A JP5041547B2 (ja) 2008-07-25 2008-07-25 未来表現判別装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2010033142A true JP2010033142A (ja) 2010-02-12
JP5041547B2 JP5041547B2 (ja) 2012-10-03

Family

ID=41737579

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008191994A Expired - Fee Related JP5041547B2 (ja) 2008-07-25 2008-07-25 未来表現判別装置及びプログラム

Country Status (1)

Country Link
JP (1) JP5041547B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013254420A (ja) * 2012-06-08 2013-12-19 Nippon Telegr & Teleph Corp <Ntt> 質問応答装置、モデル学習装置、方法、及びプログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6615392B1 (ja) * 2019-01-09 2019-12-04 日興リサーチセンター株式会社 情報処理装置、情報処理方法、およびプログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0844741A (ja) * 1994-05-25 1996-02-16 Nippon Telegr & Teleph Corp <Ntt> 日本語文時制解析装置及び日本語文時制解析方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0844741A (ja) * 1994-05-25 1996-02-16 Nippon Telegr & Teleph Corp <Ntt> 日本語文時制解析装置及び日本語文時制解析方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013254420A (ja) * 2012-06-08 2013-12-19 Nippon Telegr & Teleph Corp <Ntt> 質問応答装置、モデル学習装置、方法、及びプログラム

Also Published As

Publication number Publication date
JP5041547B2 (ja) 2012-10-03

Similar Documents

Publication Publication Date Title
Khan et al. A survey on the state-of-the-art machine learning models in the context of NLP
US20200073996A1 (en) Methods and Systems for Domain-Specific Disambiguation of Acronyms or Homonyms
JP5389273B1 (ja) 文脈解析装置および文脈解析方法
JP5945062B2 (ja) データ処理装置および物語モデル構築方法
KR20160097352A (ko) 전자 디바이스로 이미지 또는 라벨을 입력하기 위한 시스템 및 방법
RU2666277C1 (ru) Сегментация текста
CN108320734A (zh) 语音信号处理方法及装置、存储介质、电子设备
CN105183717A (zh) 一种基于随机森林和用户关系的osn用户情感分析方法
CN111209373A (zh) 基于自然语义的敏感文本识别方法和装置
Weld et al. Adjusting for confounders with text: Challenges and an empirical evaluation framework for causal inference
Talbot et al. Swash: A naive bayes classifier for tweet sentiment identification
JP5041547B2 (ja) 未来表現判別装置及びプログラム
Nirmal et al. Towards Interpretable Hate Speech Detection using Large Language Model-extracted Rationales
JP7216627B2 (ja) 入力支援方法、入力支援システム、及びプログラム
US9940319B2 (en) Information analysis system, information analysis method, and information analysis program
Jia et al. An ensemble machine learning approach to understanding the effect of a global pandemic on Twitter users’ attitudes
Pasha Multilingual sexism detection in memes, a CLIP-enhanced machine learning approach
JP5609292B2 (ja) 意見分析装置、意見分析方法、および意見分析用プログラム
Sun et al. Hybrid model based influenza detection with sentiment analysis from social networks
JP2009230173A (ja) 同義語変換システム、同義語変換方法および同義語変換用プログラム
WO2015151268A1 (ja) 反論生成方法,反論生成システム
Palakodety et al. Low resource social media text mining
JP3996886B2 (ja) 対訳対抽出装置及びそのためのコンピュータプログラム
Bai et al. Ensemble Deep Learning (EDL) for Cyber-bullying on Social Media
JP7198492B2 (ja) パーソナリティ出力装置、パーソナリティ出力方法、パーソナリティ出力プログラム、単語評価値生成装置、単語評価値生成方法および単語評価値生成プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100714

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120525

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120615

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120706

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120706

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150720

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees