JP2012173808A - 具体主題分類モデル学習装置、方法、プログラム、具体主題抽出装置、方法、及びプログラム - Google Patents
具体主題分類モデル学習装置、方法、プログラム、具体主題抽出装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP2012173808A JP2012173808A JP2011032543A JP2011032543A JP2012173808A JP 2012173808 A JP2012173808 A JP 2012173808A JP 2011032543 A JP2011032543 A JP 2011032543A JP 2011032543 A JP2011032543 A JP 2011032543A JP 2012173808 A JP2012173808 A JP 2012173808A
- Authority
- JP
- Japan
- Prior art keywords
- noun phrase
- feature
- learning
- specific subject
- classification model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】学習用名詞句抽出部14で、具体主題が既知の学習用文書から学習用名詞句を抽出し、学習用素性抽出部16で、各名詞句の学習用素性を抽出し、閾値生成部18で、正例の素性の平均と負例の素性の平均の平均を、具体主題を示す名詞句か否かを判定するための閾値として生成する。正例の素性を1位、閾値を2位、負例の素性を3位とする学習データでランキング型の分類モデルを学習する。具体主題が未知の文書が入力されると、分類用名詞句抽出部34で、分類用名詞句が抽出され、分類用素性抽出部36で、各名詞句の分類用素性が抽出され、分類モデルに、閾値及び各名詞句の分類用素性を入力し、閾値とのランキング比較で1位となる分類用素性に対応する名詞句を、具体主題を示す名詞句として抽出する。
【選択図】図1
Description
(1)各名詞句の入力テキスト中の出現頻度(単語頻度)
(2)各名詞句の重み
(3)入力テキスト中で係り先になった回数
(4)入力テキスト中で指示語(「この」、「その」など)により指示された回数
(5)名詞句が入力テキストのタイトルに含まれるか否か
等の情報を素性として抽出することができる。(2)の重みは、予めリスト等により設定しておくことができる。また、(5)の素性は、名詞句がタイトルに含まれる場合は「1」、含まれない場合は「0」とすればよい。なお、上記(3)及び(4)は、係り受けの情報であるが、係り受けの情報としては、(3)及び(4)のように回数を用いる場合に限定されず、周知の係り受け解析の結果から得られる情報を用いることができる。図4に、学習用素性抽出部16で抽出された学習用素性の一例を示す。
12 具体主題分類モデル学習装置
14 学習用名詞句抽出部
16 学習用素性抽出部
18 閾値生成部
20 分類モデル学習部
22 閾値記憶部
24 分類モデル記憶部
30 具体主題抽出装置
34 分類用名詞句抽出部
36 分類用素性抽出部
38 閾値読込部
40 具体主題抽出部
Claims (8)
- 学習用文書に含まれる名詞句であって、固有表現または具体的な物を示す主題である具体主題を示す名詞句であるか否かの情報が付与された名詞句各々について、該名詞句の出現頻度及び係り受け関係の少なくとも一方を含む特徴を示す学習用素性を算出する学習用素性算出手段と、
前記具体主題を示す名詞句について算出された学習用素性を正例の素性とし、前記具体主題を示さない名詞句について算出された学習用素性を負例の素性として、具体主題を示す名詞句か否かを判定するための閾値を生成する閾値生成手段と、
前記正例の素性及び前記負例の素性が、前記閾値生成手段により生成された閾値を挟むランキングとなるように、該正例の素性を第1の順位、該閾値を第2の順位、及び該負例の素性を第3の順位とし、入力された素性に対応する名詞句が具体主題を示すか否かを、前記閾値とのランク比較により分類するための分類モデルを学習する学習手段と、
を含む具体主題分類モデル学習装置。 - 前記閾値生成手段は、前記正例の素性の平均と、前記負例の素性の平均との平均を前記閾値として生成する請求項1記載の具体主題分類モデル学習装置。
- 前記学習用素性算出手段は、前記学習用文書における前記名詞句の出現頻度、名詞句毎に予め定めた重み、前記学習用文書において前記名詞句が係り受け関係の係り先になった回数、前記学習用文書において前記名詞句が指示語により指示された回数、及び前記学習用文書がタイトルを有する場合に、該タイトルに前記名詞句を含むか否かを示す情報の少なくとも1つを含む素性を、前記学習用素性として算出する請求項1または請求項2記載の具体主題分類モデル学習装置。
- 入力された文書から、固有表現を含む名詞句、及び1つ以上の名詞が連続して具体的な物を示す名詞句を抽出する名詞句抽出手段と、
前記名詞句抽出手段により抽出された名詞句各々について、請求項1〜請求項3のいずれか1項記載の具体主題分類モデル学習装置で学習された分類モデルに応じた分類用素性を算出する分類用素性算出手段と、
前記具体主題分類モデル学習装置の閾値生成手段により生成された閾値、前記分類用素性、及び前記分類モデルに基づいて、前記第1の順位となる分類用素性に対応する名詞句を、前記入力された文書の具体主題となる名詞句として抽出する具体主題抽出手段と、
を含む具体主題抽出装置。 - 学習用文書に含まれる名詞句であって、固有表現または具体的な物を示す主題である具体主題を示す名詞句であるか否かの情報が付与された名詞句各々について、該名詞句の出現頻度及び係り受け関係の少なくとも一方を含む特徴を示す学習用素性を算出し、
前記具体主題を示す名詞句について算出された学習用素性を正例の素性とし、前記具体主題を示さない名詞句について算出された学習用素性を負例の素性として、具体主題を示す名詞句か否かを判定するための閾値を生成し、
前記正例の素性及び前記負例の素性が、生成された閾値を挟むランキングとなるように、該正例の素性を第1の順位、該閾値を第2の順位、及び該負例の素性を第3の順位とし、入力された素性に対応する名詞句が具体主題を示すか否かを、前記閾値とのランク比較により分類するための分類モデルを学習する
具体主題分類モデル学習方法。 - 入力された文書から、固有表現を含む名詞句、及び1つ以上の名詞が連続して具体的な物を示す名詞句を抽出し、
抽出された名詞句各々について、請求項5記載の具体主題分類モデル学習方法で学習された分類モデルに応じた分類用素性を算出し、
前記具体主題分類モデル学習方法により生成された閾値、前記分類用素性、及び前記分類モデルに基づいて、前記第1の順位となる分類用素性に対応する名詞句を、前記入力された文書の具体主題となる名詞句として抽出する
具体主題抽出方法。 - コンピュータを、請求項1〜請求項3のいずれか1項記載の具体主題分類モデル学習装置を構成する各手段として機能させるための具体主題分類モデル学習プログラム。
- コンピュータを、請求項4記載の具体主題抽出装置を構成する各手段として機能させるための具体主題抽出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011032543A JP5486525B2 (ja) | 2011-02-17 | 2011-02-17 | 具体主題分類モデル学習装置、方法、プログラム、具体主題抽出装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011032543A JP5486525B2 (ja) | 2011-02-17 | 2011-02-17 | 具体主題分類モデル学習装置、方法、プログラム、具体主題抽出装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012173808A true JP2012173808A (ja) | 2012-09-10 |
JP5486525B2 JP5486525B2 (ja) | 2014-05-07 |
Family
ID=46976691
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011032543A Active JP5486525B2 (ja) | 2011-02-17 | 2011-02-17 | 具体主題分類モデル学習装置、方法、プログラム、具体主題抽出装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5486525B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021111415A (ja) * | 2020-01-14 | 2021-08-02 | ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド | テキストテーマ生成方法、テキストテーマ生成装置、電子機器、記憶媒体およびコンピュータプログラム |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003122750A (ja) * | 2001-10-09 | 2003-04-25 | Communication Research Laboratory | 機械学習法を用いた言語解析処理システム、教師データ生成処理方法、機械学習法を用いた言語解析処理方法、機械学習法を用いた言語省略解析処理システム |
JP2003263441A (ja) * | 2002-03-08 | 2003-09-19 | Nippon Telegr & Teleph Corp <Ntt> | キーワード決定データベース作成方法、キーワード決定方法、装置、プログラム、および記録媒体 |
JP2004046621A (ja) * | 2002-07-12 | 2004-02-12 | Nippon Telegr & Teleph Corp <Ntt> | テキストの多重トピックス抽出方法および装置、テキストの多重トピックス抽出プログラム、ならびに該プログラムを記録した記録媒体 |
-
2011
- 2011-02-17 JP JP2011032543A patent/JP5486525B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003122750A (ja) * | 2001-10-09 | 2003-04-25 | Communication Research Laboratory | 機械学習法を用いた言語解析処理システム、教師データ生成処理方法、機械学習法を用いた言語解析処理方法、機械学習法を用いた言語省略解析処理システム |
JP2003263441A (ja) * | 2002-03-08 | 2003-09-19 | Nippon Telegr & Teleph Corp <Ntt> | キーワード決定データベース作成方法、キーワード決定方法、装置、プログラム、および記録媒体 |
JP2004046621A (ja) * | 2002-07-12 | 2004-02-12 | Nippon Telegr & Teleph Corp <Ntt> | テキストの多重トピックス抽出方法および装置、テキストの多重トピックス抽出プログラム、ならびに該プログラムを記録した記録媒体 |
Non-Patent Citations (2)
Title |
---|
CSNG200401042003; 賀沢 秀人 他 2名: '順序づけ学習問題:順位つきサンプルを用いた順序関係推定' 電子情報通信学会技術研究報告 Vol.102 No.317 , 20020912, P12,P13,P14,P16, 社団法人電子情報通信学会 * |
JPN6013051815; 賀沢 秀人 他 2名: '順序づけ学習問題:順位つきサンプルを用いた順序関係推定' 電子情報通信学会技術研究報告 Vol.102 No.317 , 20020912, P12,P13,P14,P16, 社団法人電子情報通信学会 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021111415A (ja) * | 2020-01-14 | 2021-08-02 | ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド | テキストテーマ生成方法、テキストテーマ生成装置、電子機器、記憶媒体およびコンピュータプログラム |
JP7118184B2 (ja) | 2020-01-14 | 2022-08-15 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | テキストテーマ生成方法、テキストテーマ生成装置、電子機器、記憶媒体およびコンピュータプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP5486525B2 (ja) | 2014-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2678716C1 (ru) | Использование автоэнкодеров для обучения классификаторов текстов на естественном языке | |
Jin et al. | A novel lexicalized HMM-based learning framework for web opinion mining | |
TWI512507B (zh) | A method and apparatus for providing multi-granularity word segmentation results | |
WO2018049960A1 (zh) | 一种为文本信息匹配资源的方法及装置 | |
Pane et al. | A multi-lable classification on topics of quranic verses in english translation using multinomial naive bayes | |
CN108874937B (zh) | 一种基于词性结合和特征选择的情感分类方法 | |
CN108255813B (zh) | 一种基于词频-逆文档与crf的文本匹配方法 | |
CN107590177B (zh) | 一种结合监督学习的中文文本分类方法 | |
CN111104526A (zh) | 一种基于关键词语义的金融标签提取方法及系统 | |
CN110134792B (zh) | 文本识别方法、装置、电子设备以及存储介质 | |
US9262400B2 (en) | Non-transitory computer readable medium and information processing apparatus and method for classifying multilingual documents | |
US11669740B2 (en) | Graph-based labeling rule augmentation for weakly supervised training of machine-learning-based named entity recognition | |
CN112632226A (zh) | 基于法律知识图谱的语义搜索方法、装置和电子设备 | |
Loharja et al. | Negation cues detection using CRF on Spanish product review texts | |
Muflikhah et al. | High performance of polynomial kernel at SVM Algorithm for sentiment analysis | |
Smitha et al. | Meme classification using textual and visual features | |
Umar et al. | Application of Naïve Bayes Algorithm Variations On Indonesian General Analysis Dataset for Sentiment Analysis | |
Yahya et al. | Feature Expansion with FastText on Topic Classification Using the Gradient Boosted Decision Tree on Twitter | |
Bhatia et al. | Analysing cyberbullying using natural language processing by understanding jargon in social media | |
Fu et al. | Domain ontology based automatic question answering | |
JP4054046B2 (ja) | 意見性判定データベース作成方法及び装置及びプログラム及び意見性判定方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
CN113486143A (zh) | 一种基于多层级文本表示及模型融合的用户画像生成方法 | |
Swamy et al. | Nit-agartala-nlp-team at semeval-2020 task 8: Building multimodal classifiers to tackle internet humor | |
JP5486525B2 (ja) | 具体主題分類モデル学習装置、方法、プログラム、具体主題抽出装置、方法、及びプログラム | |
CN107729509B (zh) | 基于隐性高维分布式特征表示的篇章相似度判定方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20120611 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20120629 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20121211 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131003 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131022 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131210 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140218 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140221 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5486525 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |