JP2012173808A - 具体主題分類モデル学習装置、方法、プログラム、具体主題抽出装置、方法、及びプログラム - Google Patents

具体主題分類モデル学習装置、方法、プログラム、具体主題抽出装置、方法、及びプログラム Download PDF

Info

Publication number
JP2012173808A
JP2012173808A JP2011032543A JP2011032543A JP2012173808A JP 2012173808 A JP2012173808 A JP 2012173808A JP 2011032543 A JP2011032543 A JP 2011032543A JP 2011032543 A JP2011032543 A JP 2011032543A JP 2012173808 A JP2012173808 A JP 2012173808A
Authority
JP
Japan
Prior art keywords
noun phrase
feature
learning
specific subject
classification model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011032543A
Other languages
English (en)
Other versions
JP5486525B2 (ja
Inventor
Mariko Kawaba
真理子 川場
Toru Hirano
徹 平野
Yoshihiro Matsuo
義博 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2011032543A priority Critical patent/JP5486525B2/ja
Publication of JP2012173808A publication Critical patent/JP2012173808A/ja
Application granted granted Critical
Publication of JP5486525B2 publication Critical patent/JP5486525B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】文書中の任意の数の具体主題を抽出する。
【解決手段】学習用名詞句抽出部14で、具体主題が既知の学習用文書から学習用名詞句を抽出し、学習用素性抽出部16で、各名詞句の学習用素性を抽出し、閾値生成部18で、正例の素性の平均と負例の素性の平均の平均を、具体主題を示す名詞句か否かを判定するための閾値として生成する。正例の素性を1位、閾値を2位、負例の素性を3位とする学習データでランキング型の分類モデルを学習する。具体主題が未知の文書が入力されると、分類用名詞句抽出部34で、分類用名詞句が抽出され、分類用素性抽出部36で、各名詞句の分類用素性が抽出され、分類モデルに、閾値及び各名詞句の分類用素性を入力し、閾値とのランキング比較で1位となる分類用素性に対応する名詞句を、具体主題を示す名詞句として抽出する。
【選択図】図1

Description

本発明は、具体主題分類モデル学習装置、方法、プログラム、具体主題抽出装置、方法、及びプログラムに係り、特に、テキストデータとして入力された文書から、固有表現または具体的な物を示す主題である具体主題を任意の数抽出するための具体主題分類モデル学習装置、方法、プログラム、具体主題抽出装置、方法、及びプログラムに関する。
従来、文書から重要語を抽出する技術として、主にテキスト内に出現する語の頻度などを利用し、テキストからN個の重要語を抽出するシステムが提案されている(例えば、非特許文献1参照)。従来のシステムでは、文書中で出現頻度が高く、かつ特定の文書にのみ多く現れるような文字列にスコアを付与し、スコアの高い物からN個を重要語として抽出している。
従来のシステムでは、例えば、「今日商品Zを買いました。マンガビューアとして買ったので、それ以外のことにはほとんど利用していません。ですが、商品Z独特の綺麗な液晶はマンガを見るのにとても見やすく、ビューアとして利用する点においては現時点で最強のマシンだと思います。」という文書から、「商品Z」、「マンガビューア」、「液晶」、「マンガ」、「マシン」等のキーワードが抽出される。
若木裕美、正田備也、高須淳宏、安達淳、「検索語の曖昧性解消のためのトピック指向単語抽出および単語クラスタリング」、情報処理学会論文誌データベース(TOD)、Vo.l49、No.SIG19(TOD32)、pp.72−85、2006
ここで、文書がXについて書かれている場合、Xを文書の「主題」と呼び、特に、主題が「固有表現」または「具体的な物」である場合、これを「具体主題」と呼ぶ。また、具体主題は、文書内において名詞句で表記される。例えば、「今日商品Zを買いました。マンガビューアとして買ったので、それ以外のことにはほとんど利用していません。ですが、マンガビューアとして利用する点においては現時点で最強のマシンだと思います。」という文書の場合、この文書の主題は「商品Z」という具体主題である。具体主題は1つの文書に対し1つとは限らず、2つ以上存在する場合もあれば、0個の場合もある。
しかしながら、文書毎に0〜N個のように具体主題の個数が変わる場合には、文書毎に何個の具体主題が存在するかを特定しなければならず、従来のシステムのように、スコアの高い物からX個を重要語として抽出する場合のように、一律X個抽出する方法では、適切な具体主題を抽出することはできない。
本発明は、上記問題点に鑑みてなされたものであり、文書中の任意の数の具体主題を抽出することができる具体主題分類モデル学習装置、方法、プログラム、具体主題抽出装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために本発明の具体主題分類モデル学習装置は、学習用文書に含まれる名詞句であって、固有表現または具体的な物を示す主題である具体主題を示す名詞句であるか否かの情報が付与された名詞句各々について、該名詞句の出現頻度及び係り受け関係の少なくとも一方を含む特徴を示す学習用素性を算出する学習用素性算出手段と、前記具体主題を示す名詞句について算出された学習用素性を正例の素性とし、前記具体主題を示さない名詞句について算出された学習用素性を負例の素性として、具体主題を示す名詞句か否かを判定するための閾値を生成する閾値生成手段と、前記正例の素性及び前記負例の素性が、前記閾値生成手段により生成された閾値を挟むランキングとなるように、該正例の素性を第1の順位、該閾値を第2の順位、及び該負例の素性を第3の順位とし、入力された素性に対応する名詞句が具体主題を示すか否かを、前記閾値とのランク比較により分類するための分類モデルを学習する学習手段と、を含んで構成されている。
本発明の具体主題分類モデル学習装置によれば、学習用素性算出手段が、学習用文書に含まれる名詞句であって、固有表現または具体的な物を示す主題である具体主題を示す名詞句であるか否かの情報が付与された名詞句各々について、該名詞句の出現頻度及び係り受け関係の少なくとも一方を含む特徴を示す学習用素性を算出する。文書の主題は名詞句であり、固有表現または具体的な物を示す主題が具体主題であるので、このような名詞句毎に学習用素性を算出する。
そして、閾値生成手段が、具体主題を示す名詞句について算出された学習用素性を正例の素性とし、具体主題を示さない名詞句について算出された学習用素性を負例の素性として、具体主題を示す名詞句か否かを判定するための閾値を生成する。学習手段は、正例の素性及び負例の素性が、閾値生成手段により生成された閾値を挟むランキングとなるように、該正例の素性を第1の順位、該閾値を第2の順位、及び該負例の素性を第3の順位とし、入力された素性に対応する名詞句が具体主題を示すか否かを、閾値とのランク比較により分類するための分類モデルを学習する。
このように、具体主題を示す名詞句か否かを、閾値とのランク比較で分類する分類モデルを学習するため、この分類モデルを用いて、文書中の任意の数の具体主題を抽出することができる。
また、前記閾値生成手段は、前記正例の素性の平均と、前記負例の素性の平均との平均を前記閾値として生成することができる。これにより、具体主題を示す名詞句か否かを判定するための閾値をより適切に生成することができる。
また、前記学習用素性算出手段は、前記学習用文書における前記名詞句の出現頻度、名詞句毎に予め定めた重み、前記学習用文書において前記名詞句が係り受け関係の係り先になった回数、前記学習用文書において前記名詞句が指示語により指示された回数、及び前記学習用文書がタイトルを有する場合に、該タイトルに前記名詞句を含むか否かを示す情報の少なくとも1つを含む素性を、前記学習用素性として算出することができる。
また、本発明の具体主題抽出装置は、入力された文書から、固有表現を含む名詞句、及び1つ以上の名詞が連続して具体的な物を示す名詞句を抽出する名詞句抽出手段と、前記名詞句抽出手段により抽出された名詞句各々について、上記具体主題分類モデル学習装置で学習された分類モデルに応じた分類用素性を算出する分類用素性算出手段と、前記具体主題分類モデル学習装置の閾値生成手段により生成された閾値と、前記分類用素性と、前記分類モデルとに基づいて、前記第1の順位となる分類用素性に対応する名詞句を、前記入力された文書の具体主題となる名詞句として抽出する具体主題抽出手段と、を含んで構成されている。
本発明の具体主題抽出装置によれば、名詞句抽出手段が、入力された文書から、固有表現を含む名詞句、及び1つ以上の名詞が連続して具体的な物を示す名詞句を抽出する。文書の主題は名詞句であり、固有表現または具体的な物を示す主題が具体主題であるので、名詞句抽出手段により抽出された名詞句が、具体主題の候補となる。
そして、分類用素性算出手段が、名詞句抽出手段により抽出された名詞句各々について、上記具体主題分類モデル学習装置で学習された分類モデルに応じた分類用素性を算出し、具体主題抽出手段が、具体主題分類モデル学習装置の閾値生成手段により生成された閾値、分類用素性、及び分類モデルに基づいて、第1の順位となる分類用素性に対応する名詞句を、入力された文書の具体主題となる名詞句として抽出する。
このように、具体主題を示す名詞句か否かを判定するための閾値、各名詞句の分類用素性、及び分類モデルに基づいて、閾値と名詞句の分類用素性とをランキングで比較して、第1の順位となる分類用素性に対応する名詞句を、具体主題を示す名詞句として抽出するため、文書中の任意の数の具体主題を抽出することができる。
また、本発明の具体主題分類モデル学習方法は、学習用文書に含まれる名詞句であって、固有表現または具体的な物を示す主題である具体主題を示す名詞句であるか否かの情報が付与された名詞句各々について、該名詞句の出現頻度及び係り受け関係の少なくとも一方を含む特徴を示す学習用素性を算出し、前記具体主題を示す名詞句について算出された学習用素性を正例の素性とし、前記具体主題を示さない名詞句について算出された学習用素性を負例の素性として、具体主題を示す名詞句か否かを判定するための閾値を生成し、前記正例の素性及び前記負例の素性が、生成された閾値を挟むランキングとなるように、該正例の素性を第1の順位、該閾値を第2の順位、及び該負例の素性を第3の順位とし、入力された素性に対応する名詞句が具体主題を示すか否かを、前記閾値とのランク比較により分類するための分類モデルを学習する方法である。
また、本発明の具体主題抽出方法は、入力された文書から、固有表現を含む名詞句、及び1つ以上の名詞が連続して具体的な物を示す名詞句を抽出し、抽出された名詞句各々について、上記具体主題分類モデル学習方法で学習された分類モデルに応じた分類用素性を算出し、前記具体主題分類モデル学習方法により生成された閾値、前記分類用素性、及び前記分類モデルに基づいて、前記第1の順位となる分類用素性に対応する名詞句を、前記入力された文書の具体主題となる名詞句として抽出する方法である。
また、本発明の具体主題分類モデル学習プログラムは、コンピュータを、上記具体主題分類モデル学習装置を構成する各手段として機能させるためのプログラムである。
また、本発明の具体主題抽出プログラムは、コンピュータを、上記具体主題抽出装置を構成する各手段として機能させるためのプログラムである。
以上説明したように、本発明の具体主題分類モデル学習装置、方法、プログラム、具体主題抽出装置、方法、及びプログラムによれば、具体主題を示す名詞句か否かを、閾値とのランク比較で分類する分類モデルを学習し、具体主題を示す名詞句か否かを判定するための閾値、各名詞句の分類用素性、及び分類モデルに基づいて、閾値と名詞句の分類用素性とをランキングで比較して、第1の順位となる分類用素性に対応する名詞句を、具体主題を示す名詞句として抽出するため、文書中の任意の数の具体主題を抽出することができる、という効果が得られる。
本実施の形態の具体主題分類モデル学習抽出装置の概略構成を示すブロック図である。 入力文書の一例を示す図である。 学習用名詞句抽出部により抽出された名詞句の一例を示す図である。 学習用素性抽出部で抽出された学習用素性の一例を示す図である。 閾値生成部で生成された閾値の一例を示す図である。 分類モデル学習部で用いられる学習データの一例を示す図である。 本実施の形態の具体主題分類モデル学習抽出装置における具体主題分類モデル学習処理ルーチンの内容を示すフローチャートである。 本実施の形態の具体主題分類モデル学習抽出装置における具体主題抽出処理ルーチンの内容を示すフローチャートである。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
図1に示すように、本実施の形態の具体主題分類モデル学習抽出装置10は、具体主題を抽出するための分類モデルを学習する具体主題分類モデル学習装置12と、分類モデルを用いて入力された文書から具体主題を抽出する具体主題抽出装置30とが一体となって構成されている。
具体主題分類モデル学習抽出装置10は、CPUと、RAMと、後述する具体主題分類モデル学習処理ルーチン及び具体主題抽出処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することができる。このコンピュータは、機能的には、具体主題分類モデル学習装置12について、入力された学習用文書(テキストデータ)から名詞句を抽出する学習用名詞句抽出部14と、名詞句各々の特徴である学習用素性を抽出する学習用素性抽出部16と、具体主題を示す名詞句か否かを判定するために用いる閾値を生成する閾値生成部18と、閾値及び学習用素性を用いて分類モデルを学習する分類モデル学習部20と、を含んだ構成で表すことができる。また、閾値生成部18で生成された閾値を記憶する閾値記憶部22と、分類モデル学習部20で生成された分類モデルを記憶する分類モデル記憶部24と、を含んで構成されている。
また、具体主題抽出装置30について、入力された文書(テキストデータ)から具体主題の候補となる名詞句を抽出する分類用名詞句抽出部34と、名詞句各々の特徴である分類用素性を抽出する分類用素性抽出部36と、閾値記憶部22から閾値を読み込む閾値読込部38と、読み込んだ閾値、分類用素性、及び分類モデルを用いて具体主題を示す名詞句を抽出する具体主題抽出部40と、を含んだ構成で表すことができる。
まず、具体主題分類モデル学習装置12の各部について説明する。
学習用名詞句抽出部14は、入力された学習用文書に対して形態素解析を行った上で、所定の名詞句を抽出する。学習用文書は、例えば、人手で具体主題となる名詞句にラベルを付与するなどした、具体主題を示す名詞句が既知のテキストである。学習用テキストとして複数のテキストが与えられてもよい。主題は名詞句であるため、入力された文書に含まれる全ての名詞句が、抽出すべき主題の候補となる。ここでは、固有表現を含む名詞句、及び1つ以上の名詞が連続して具体的な物を示す名詞句を、学習に用いるための名詞句として抽出する。
固有表現を含む名詞句は、例えば、人名、地名、組織名などの固有物を表す表現であって、既存の固有表現抽出技術により抽出することができる。固有表現抽出技術としては、例えば、「今村賢治、斎藤邦子、浅野久子、「テキストからの知識抽出の基盤となる日本語基本解析技術」、NTT技術ジャーナル、社団法人電気通信協会、pp.20−23 (2008)」等に記載の技術を用いることができる。また、サ変名詞、動作名詞など、名詞の形態素情報も合わせて取得してもよい。
また、1つ以上の名詞が連続して具体的な物を示す名詞句としては、例えば、「マンガ」及び「ビューア」という名詞が連続して、1つの具体的な物を示す名詞句「マンガビューア」等がある。「マンガ」及び「ビューア」も各々具体的な物を示す名詞であるため、この場合、1つ以上の名詞が連続して具体的な物を示す名詞句として、「マンガ」、「ビューア」及び「マンガビューア」が各々抽出される。
図2に示すように、入力された学習用文書(テキストA)が「A社の商品Zを買ってしまいました。月曜日に表参道に行ったらA社前がすごい人だかりで、ついふらふらと・・・。早速今日から使っていますが、使い勝手は上々。電車内でインターネットをしたり、マンガを見たりするのに使ってます。」であった場合には、学習用名詞句抽出部14において、図3に示すように、「A社」、「商品Z」、「月曜日」、「表参道」、「今日」、「電車内」、「インターネット」及び「マンガ」が抽出される。ここでは、具体主題となる名詞句として「商品Z」にラベルが付与されているものとする(図3中の(*)で表記)。
学習用素性抽出部16は、学習用名詞句抽出部14で抽出した名詞句について、頻度や係り受けの情報など、具体主題を抽出する手掛かりとなる情報を素性として抽出する。また頻度や係り受けの情報に加えて、名詞句の重みやタイトルに含まれるか否かの情報を素性として用いてもよい。具体的には、
(1)各名詞句の入力テキスト中の出現頻度(単語頻度)
(2)各名詞句の重み
(3)入力テキスト中で係り先になった回数
(4)入力テキスト中で指示語(「この」、「その」など)により指示された回数
(5)名詞句が入力テキストのタイトルに含まれるか否か
等の情報を素性として抽出することができる。(2)の重みは、予めリスト等により設定しておくことができる。また、(5)の素性は、名詞句がタイトルに含まれる場合は「1」、含まれない場合は「0」とすればよい。なお、上記(3)及び(4)は、係り受けの情報であるが、係り受けの情報としては、(3)及び(4)のように回数を用いる場合に限定されず、周知の係り受け解析の結果から得られる情報を用いることができる。図4に、学習用素性抽出部16で抽出された学習用素性の一例を示す。
閾値生成部18は、後述の分類モデル学習部20で、具体主題となる名詞句とそうでない名詞句を区別するため閾値(λ)を生成する。具体的には、学習用素性抽出部16で抽出された学習用素性のうち、具体主題を示すラベルが付与された名詞句から抽出された素性(以下、「正例の素性」という)の平均(X)と、具体主題を示すラベルが付与されていない名詞句から抽出された素性(以下、「負例の素性」という)の平均(Y)との平均を閾値λとする。
例えば、図3の例では、ラベル(*)が付与されている「商品Z」が具体主題となる名詞句であるので、「商品Z」について抽出された素性がXとなり、他の「A社」、「月曜日」、・・・、「マンガ」等の名詞句について算出された素性の平均がYとなる。そして、XとYとの各素性の平均値を、閾値λの素性の値として、閾値記憶部22に記憶する。図5に、閾値生成部18で生成された閾値λの一例を示す。
分類モデル学習部20は、学習用素性抽出部16で抽出した学習用素性(正例の素性及び負例の素性)と閾値生成部18で生成した閾値λとを入力とし、正例の素性及び負例の素性が、閾値を挟むランキングとなるように、正例の素性を第1の順位、閾値を第2の順位、及び負例の素性を第3の順位とし、入力された素性に対応する名詞句が具体主題を示すか否かを、閾値とのランク比較により分類するための分類モデル(ランキングモデル)を学習する。
ランキング型の分類モデルの学習は、参考文献「Aiwen Jiang, Chunheng Wang, and Yuanping Zhu, “Calibrated rank-SVM for multi-label image categorization,” Proc. The IEEE International Joint Conference on Neural Networks, pp. 1450-1455, 2008.」等に記載の技術を用いることができる。ここでは、参考文献のCalibrated Rank−SVMを用いる。学習用文書から抽出された名詞句に対して、学習用素性抽出部16で抽出した学習用素性、閾値生成部18で生成した閾値λ、及び各名詞句の正解ランキングが付与されたデータを学習データとして用いる。正解ランキングは、例えば、正例の素性に対応する名詞句(ここでは、「商品Z」)は1位、閾値λは2位、負例の素性に対応する名詞句は3位とすることができる。この学習データを用いて、具体主題が未知の名詞句が入力された場合に、具体主題を示す名詞句が1位、具体主題を示さない名詞句が3位と出力されるように分類モデルを構成するパラメタを学習する。学習された分類モデルは、分類モデル記憶部24に記憶する。図6に、分類モデル学習部20で用いられる学習データの一例を示す。
次に、具体主題抽出装置30の各部について説明する。
分類用名詞句抽出部34は、学習用名詞句抽出部14と同様の処理により、入力された具体主題が未知の文書から所定の名詞句を抽出する。
分類用素性抽出部36は、学習用素性抽出部16と同様の処理により、分類用名詞句抽出部34で抽出された名詞句各々の分類用素性を抽出する。
閾値読込部38は、具体主題分類モデル学習装置12における分類モデルの学習時に利用した閾値λ、すなわち学習用文書から抽出された名詞句の素性(正例の素性及び負例の素性)から生成された閾値λを、閾値記憶部22から読み込む。
具体主題抽出部40は、分類モデル記憶部24に記憶された分類モデルを読み込み、閾値読込部38で読み込んだ閾値λ、及び分類用素性抽出部36で抽出された分類用素性を入力し、分類用素性に対応する名詞句が具体主題か否かを、閾値とのランキング比較により判定し、閾値より上位(1位)となった名詞句を、具体主題として抽出する。
次に、図7を参照して、本実施の形態の具体主題分類モデル学習抽出装置10において実行される具体主題分類モデル学習処理ルーチンについて説明する。本ルーチンは、具体主題分類モデル学習装置12側で実行される。
ステップ100で、学習用文書(テキストデータ)が入力されると、次に、ステップ102で、入力された学習用文書に対して形態素解析を行った上で、固有表現を含む名詞句、及び1つ以上の名詞が連続して具体的な物を示す名詞句を抽出する。なお、学習用文書の具体主題を示す名詞句には、予めラベルが付与されている。
次に、ステップ104で、上記ステップ102で抽出した名詞句各々について、頻度や係り受けの情報など、具体主題を抽出する手掛かりとなる情報を学習用素性として抽出する。
次に、ステップ106で、上記ステップ104で抽出された学習用素性のうち、正例の素性の平均と負例の素性の平均との平均を、閾値λとして生成し、生成した閾値λを後段の処理へ受け渡すと共に、閾値記憶部22に記憶する。
次に、ステップ108で、上記ステップ104で抽出された学習用素性、上記ステップ106で生成した閾値λ、及び各名詞句の正解ランキング(正例の素性に対応する名詞句は1位、閾値λは2位、負例の素性に対応する名詞句は3位)が付与された学習データを用いて、具体主題が未知の名詞句が入力された場合に、具体主題を示す名詞句が1位、具体主題を示さない名詞句が3位と出力されるように分類モデルを構成するパラメタを学習する。学習された分類モデルは、分類モデル記憶部24に記憶して、処理を終了する。
次に、図8を参照して、本実施の形態の具体主題分類モデル学習抽出装置10において実行される具体主題抽出処理ルーチンについて説明する。本ルーチンは、具体主題抽出装置30側で実行される。
ステップ150で、具体主題が未知の文書(テキストデータ)が入力されると、次に、ステップ152で、入力された文書に対して形態素解析を行った上で、固有表現を含む名詞句、及び1つ以上の名詞が連続して具体的な物を示す名詞句を抽出する。
次に、ステップ154で、上記ステップ152で抽出した名詞句各々について、頻度や係り受けの情報など、具体主題を抽出する手掛かりとなる情報を分類用素性として抽出する。ここで抽出される分類用素性は、具体主題分類モデル学習装置12で学習された分類モデルに対応した素性である。すなわち、分類用素性は、具体主題分類モデル学習処理のステップ104と同様の処理により抽出される。
次に、ステップ156で、閾値記憶部22から、具体主題分類モデル学習装置12における分類モデルの学習時に利用した閾値λを読み込み、分類モデル記憶部24から、具体主題分類モデル学習装置12において学習された分類モデルを読み込む。
次に、ステップ158で、上記ステップ156で読み込んだ分類モデルに、読み込んだ閾値λ、及び上記ステップ154で抽出した各名詞句の分類用素性を入力し、分類用素性に対応する名詞句が具体主題か否かを、閾値とのランキング比較により判定し、閾値より上位(1位)となった名詞句を具体主題として抽出し、抽出結果を出力して、処理を終了する。
以上説明したように、本実施の形態の具体主題分類モデル学習抽出装置によれば、具体主題を示す名詞句か否かをランキングで出力する分類モデルを学習し、具体主題を示す名詞句か否かを判定するための閾値と共に、各名詞句の分類用素性を分類モデルに入力して、閾値と名詞句の分類用素性とをランキングで比較して閾値より上位の名詞句を、具体主題を示す名詞句として抽出するため、文書中の任意の数の具体主題を抽出することができる。
また、閾値として、正例の素性の平均と負例の素性の平均との平均を用いることで、精度良く具体主題を示す名詞句か否かを分類することができる。
なお、上記実施の形態では、正例の素性を1位、閾値を2位、負例の素性を3位として学習する場合について説明したが、これに限定されるものではなく、正例の素性及び負例の素性の順位が閾値の順位を挟むものであればよい。例えば、負例の素性を1位、閾値を2位、正例の素性を3位としてもよい。この場合、具体主題か否か未知の名詞句の素性を分類モデルに入力した際に、3位の出力が得られた素性に対応する名詞句を具体主題を示す名詞句として抽出したり、1位の出力が得られた素性に対応する名詞句を除外した結果を出力したりすることができる。
また、上記実施の形態では、具体主題分類モデル学習装置と具体主題抽出装置とが一体となった構成について説明したが、具体主題分類モデル学習装置と具体主題抽出装置とを別々に構成してもよい。この場合、具体主題分類モデル学習装置側に閾値記憶部及び分類モデル記憶部を設け、具体主題抽出装置は、ネットワーク等の送受信手段を介して、閾値及び分類モデルを読み込むようにするとよい。また、具体主題抽出装置側に閾値記憶部及び分類モデル記憶部を設けた場合には、具体主題分類モデル学習装置において閾値及び分類モデルを記憶する際に、ネットワーク等の送受信手段を介して記憶するようにするとよい。また、閾値記憶部及び分類モデル記憶部を、他の外部装置に記憶するようにしてもよい。この場合、具体主題分類モデル学習抽出装置、または具体主題分類モデル学習装置及び具体主題抽出装置から、ネットワーク等の送受信手段を介して、閾値及び分類モデルの記憶及び読み込みを行うようにするとよい。
また、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
また、本願明細書中において、プログラムが予めインストールされている実施の形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
10 具体主題分類モデル学習抽出装置
12 具体主題分類モデル学習装置
14 学習用名詞句抽出部
16 学習用素性抽出部
18 閾値生成部
20 分類モデル学習部
22 閾値記憶部
24 分類モデル記憶部
30 具体主題抽出装置
34 分類用名詞句抽出部
36 分類用素性抽出部
38 閾値読込部
40 具体主題抽出部

Claims (8)

  1. 学習用文書に含まれる名詞句であって、固有表現または具体的な物を示す主題である具体主題を示す名詞句であるか否かの情報が付与された名詞句各々について、該名詞句の出現頻度及び係り受け関係の少なくとも一方を含む特徴を示す学習用素性を算出する学習用素性算出手段と、
    前記具体主題を示す名詞句について算出された学習用素性を正例の素性とし、前記具体主題を示さない名詞句について算出された学習用素性を負例の素性として、具体主題を示す名詞句か否かを判定するための閾値を生成する閾値生成手段と、
    前記正例の素性及び前記負例の素性が、前記閾値生成手段により生成された閾値を挟むランキングとなるように、該正例の素性を第1の順位、該閾値を第2の順位、及び該負例の素性を第3の順位とし、入力された素性に対応する名詞句が具体主題を示すか否かを、前記閾値とのランク比較により分類するための分類モデルを学習する学習手段と、
    を含む具体主題分類モデル学習装置。
  2. 前記閾値生成手段は、前記正例の素性の平均と、前記負例の素性の平均との平均を前記閾値として生成する請求項1記載の具体主題分類モデル学習装置。
  3. 前記学習用素性算出手段は、前記学習用文書における前記名詞句の出現頻度、名詞句毎に予め定めた重み、前記学習用文書において前記名詞句が係り受け関係の係り先になった回数、前記学習用文書において前記名詞句が指示語により指示された回数、及び前記学習用文書がタイトルを有する場合に、該タイトルに前記名詞句を含むか否かを示す情報の少なくとも1つを含む素性を、前記学習用素性として算出する請求項1または請求項2記載の具体主題分類モデル学習装置。
  4. 入力された文書から、固有表現を含む名詞句、及び1つ以上の名詞が連続して具体的な物を示す名詞句を抽出する名詞句抽出手段と、
    前記名詞句抽出手段により抽出された名詞句各々について、請求項1〜請求項3のいずれか1項記載の具体主題分類モデル学習装置で学習された分類モデルに応じた分類用素性を算出する分類用素性算出手段と、
    前記具体主題分類モデル学習装置の閾値生成手段により生成された閾値、前記分類用素性、及び前記分類モデルに基づいて、前記第1の順位となる分類用素性に対応する名詞句を、前記入力された文書の具体主題となる名詞句として抽出する具体主題抽出手段と、
    を含む具体主題抽出装置。
  5. 学習用文書に含まれる名詞句であって、固有表現または具体的な物を示す主題である具体主題を示す名詞句であるか否かの情報が付与された名詞句各々について、該名詞句の出現頻度及び係り受け関係の少なくとも一方を含む特徴を示す学習用素性を算出し、
    前記具体主題を示す名詞句について算出された学習用素性を正例の素性とし、前記具体主題を示さない名詞句について算出された学習用素性を負例の素性として、具体主題を示す名詞句か否かを判定するための閾値を生成し、
    前記正例の素性及び前記負例の素性が、生成された閾値を挟むランキングとなるように、該正例の素性を第1の順位、該閾値を第2の順位、及び該負例の素性を第3の順位とし、入力された素性に対応する名詞句が具体主題を示すか否かを、前記閾値とのランク比較により分類するための分類モデルを学習する
    具体主題分類モデル学習方法。
  6. 入力された文書から、固有表現を含む名詞句、及び1つ以上の名詞が連続して具体的な物を示す名詞句を抽出し、
    抽出された名詞句各々について、請求項5記載の具体主題分類モデル学習方法で学習された分類モデルに応じた分類用素性を算出し、
    前記具体主題分類モデル学習方法により生成された閾値、前記分類用素性、及び前記分類モデルに基づいて、前記第1の順位となる分類用素性に対応する名詞句を、前記入力された文書の具体主題となる名詞句として抽出する
    具体主題抽出方法。
  7. コンピュータを、請求項1〜請求項3のいずれか1項記載の具体主題分類モデル学習装置を構成する各手段として機能させるための具体主題分類モデル学習プログラム。
  8. コンピュータを、請求項4記載の具体主題抽出装置を構成する各手段として機能させるための具体主題抽出プログラム。
JP2011032543A 2011-02-17 2011-02-17 具体主題分類モデル学習装置、方法、プログラム、具体主題抽出装置、方法、及びプログラム Active JP5486525B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011032543A JP5486525B2 (ja) 2011-02-17 2011-02-17 具体主題分類モデル学習装置、方法、プログラム、具体主題抽出装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011032543A JP5486525B2 (ja) 2011-02-17 2011-02-17 具体主題分類モデル学習装置、方法、プログラム、具体主題抽出装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2012173808A true JP2012173808A (ja) 2012-09-10
JP5486525B2 JP5486525B2 (ja) 2014-05-07

Family

ID=46976691

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011032543A Active JP5486525B2 (ja) 2011-02-17 2011-02-17 具体主題分類モデル学習装置、方法、プログラム、具体主題抽出装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP5486525B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021111415A (ja) * 2020-01-14 2021-08-02 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド テキストテーマ生成方法、テキストテーマ生成装置、電子機器、記憶媒体およびコンピュータプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003122750A (ja) * 2001-10-09 2003-04-25 Communication Research Laboratory 機械学習法を用いた言語解析処理システム、教師データ生成処理方法、機械学習法を用いた言語解析処理方法、機械学習法を用いた言語省略解析処理システム
JP2003263441A (ja) * 2002-03-08 2003-09-19 Nippon Telegr & Teleph Corp <Ntt> キーワード決定データベース作成方法、キーワード決定方法、装置、プログラム、および記録媒体
JP2004046621A (ja) * 2002-07-12 2004-02-12 Nippon Telegr & Teleph Corp <Ntt> テキストの多重トピックス抽出方法および装置、テキストの多重トピックス抽出プログラム、ならびに該プログラムを記録した記録媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003122750A (ja) * 2001-10-09 2003-04-25 Communication Research Laboratory 機械学習法を用いた言語解析処理システム、教師データ生成処理方法、機械学習法を用いた言語解析処理方法、機械学習法を用いた言語省略解析処理システム
JP2003263441A (ja) * 2002-03-08 2003-09-19 Nippon Telegr & Teleph Corp <Ntt> キーワード決定データベース作成方法、キーワード決定方法、装置、プログラム、および記録媒体
JP2004046621A (ja) * 2002-07-12 2004-02-12 Nippon Telegr & Teleph Corp <Ntt> テキストの多重トピックス抽出方法および装置、テキストの多重トピックス抽出プログラム、ならびに該プログラムを記録した記録媒体

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNG200401042003; 賀沢 秀人 他 2名: '順序づけ学習問題:順位つきサンプルを用いた順序関係推定' 電子情報通信学会技術研究報告 Vol.102 No.317 , 20020912, P12,P13,P14,P16, 社団法人電子情報通信学会 *
JPN6013051815; 賀沢 秀人 他 2名: '順序づけ学習問題:順位つきサンプルを用いた順序関係推定' 電子情報通信学会技術研究報告 Vol.102 No.317 , 20020912, P12,P13,P14,P16, 社団法人電子情報通信学会 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021111415A (ja) * 2020-01-14 2021-08-02 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド テキストテーマ生成方法、テキストテーマ生成装置、電子機器、記憶媒体およびコンピュータプログラム
JP7118184B2 (ja) 2020-01-14 2022-08-15 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド テキストテーマ生成方法、テキストテーマ生成装置、電子機器、記憶媒体およびコンピュータプログラム

Also Published As

Publication number Publication date
JP5486525B2 (ja) 2014-05-07

Similar Documents

Publication Publication Date Title
RU2678716C1 (ru) Использование автоэнкодеров для обучения классификаторов текстов на естественном языке
Jin et al. A novel lexicalized HMM-based learning framework for web opinion mining
TWI512507B (zh) A method and apparatus for providing multi-granularity word segmentation results
WO2018049960A1 (zh) 一种为文本信息匹配资源的方法及装置
Pane et al. A multi-lable classification on topics of quranic verses in english translation using multinomial naive bayes
CN108874937B (zh) 一种基于词性结合和特征选择的情感分类方法
CN108255813B (zh) 一种基于词频-逆文档与crf的文本匹配方法
CN107590177B (zh) 一种结合监督学习的中文文本分类方法
CN111104526A (zh) 一种基于关键词语义的金融标签提取方法及系统
CN110134792B (zh) 文本识别方法、装置、电子设备以及存储介质
US9262400B2 (en) Non-transitory computer readable medium and information processing apparatus and method for classifying multilingual documents
US11669740B2 (en) Graph-based labeling rule augmentation for weakly supervised training of machine-learning-based named entity recognition
CN112632226A (zh) 基于法律知识图谱的语义搜索方法、装置和电子设备
Loharja et al. Negation cues detection using CRF on Spanish product review texts
Muflikhah et al. High performance of polynomial kernel at SVM Algorithm for sentiment analysis
Smitha et al. Meme classification using textual and visual features
Umar et al. Application of Naïve Bayes Algorithm Variations On Indonesian General Analysis Dataset for Sentiment Analysis
Yahya et al. Feature Expansion with FastText on Topic Classification Using the Gradient Boosted Decision Tree on Twitter
Bhatia et al. Analysing cyberbullying using natural language processing by understanding jargon in social media
Fu et al. Domain ontology based automatic question answering
JP4054046B2 (ja) 意見性判定データベース作成方法及び装置及びプログラム及び意見性判定方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
Swamy et al. Nit-agartala-nlp-team at semeval-2020 task 8: Building multimodal classifiers to tackle internet humor
JP5486525B2 (ja) 具体主題分類モデル学習装置、方法、プログラム、具体主題抽出装置、方法、及びプログラム
CN107729509B (zh) 基于隐性高维分布式特征表示的篇章相似度判定方法

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20120611

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120629

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121211

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131003

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131022

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131210

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140218

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140221

R150 Certificate of patent or registration of utility model

Ref document number: 5486525

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150