JP5419906B2 - 主題抽出装置、方法、及びプログラム - Google Patents
主題抽出装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP5419906B2 JP5419906B2 JP2011032545A JP2011032545A JP5419906B2 JP 5419906 B2 JP5419906 B2 JP 5419906B2 JP 2011032545 A JP2011032545 A JP 2011032545A JP 2011032545 A JP2011032545 A JP 2011032545A JP 5419906 B2 JP5419906 B2 JP 5419906B2
- Authority
- JP
- Japan
- Prior art keywords
- noun phrase
- noun
- feature
- subject
- phrases
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
f(α(m))=score(m)
となる。
12 名詞句抽出部
14 名詞句ペア作成部
16 素性抽出部
18 名詞句頻度抽出部
20 出現確率勝敗算出部
22 係り受け構造抽出部
24 係り受け関係勝敗算出部
26 素性ベクトル生成部
28 分類器
Claims (7)
- 入力された文書から名詞句を抽出する名詞句抽出手段と、
多数の文書を含む大規模なテキストデータ中における、前記名詞句抽出手段により抽出された名詞句各々の出現頻度、及び前記抽出された名詞句各々より選択された2つの名詞句からなる名詞句ペア各々の共起頻度を求め、該名詞句各々の出現頻度及び該共起頻度から求まる前記名詞句各々の出現確率に基づいて、前記名詞句ペアを構成する名詞句のいずれの出現確率が高いかを示す第1の素性を算出する第1の素性算出手段と、
多数の文書を含む大規模なテキストデータ中における、前記名詞句ペアの係り受け構造毎の出現頻度に基づいて、該名詞句ペアを構成する名詞句のいずれが係り先になり易いかを示す第2の素性を算出する第2の素性算出手段と、
前記名詞句各々の前記第1の素性及び前記第2の素性を並べた素性列と、主題が既知の学習用文書に含まれる名詞句の素性列を用いて学習された分類器とに基づいて、前記抽出された名詞句各々から、前記入力された文書の主題となる名詞句を抽出する主題抽出手段と、
を含む主題抽出装置。 - 前記名詞句抽出手段は、固有表現を含む名詞句、及び1つ以上の名詞が連続して具体的な物を示す名詞句を抽出し、
前記分類器は、固有表現または具体的な物を示す主題である具体主題が既知の学習用文書を用いて学習された
請求項1記載の主題抽出装置。 - 前記第1の素性算出手段は、前記名詞句ペアを構成する一方の名詞句と他方の名詞句との共起頻度を該一方の名詞句の出現頻度で除して、該一方の名詞句の出現確率を求める請求項1または請求項2記載の主題抽出装置。
- 前記第1の素性算出手段は、前記名詞句ペアを構成する一方の名詞句について、該名詞句ペアを構成する他方の名詞句より出現確率が高い場合には勝ちを示す値、低い場合には負けを示す値、同じ場合には引き分けを示す値を前記第1の素性として算出する請求項1〜請求項3のいずれか1項記載の主題抽出装置。
- 前記第2の素性算出手段は、前記名詞句ペアを構成する一方の名詞句について、該名詞句ペアを構成する他方の名詞句より係り先となる頻度が高い場合には、勝ちを示す値、低い場合には負けを示す値、同じ場合または係り受け関係がない場合には引き分けを示す値を前記第2の素性として算出する請求項1〜請求項4のいずれか1項記載の主題抽出装置。
- 入力された文書から名詞句を抽出し、
多数の文書を含む大規模なテキストデータ中における、抽出された名詞句各々の出現頻度、及び前記抽出された名詞句各々より選択された2つの名詞句を組み合わせた名詞句ペア各々の共起頻度を求め、該名詞句各々の出現頻度及び該共起頻度から求まる前記名詞句各々の出現確率に基づいて、前記名詞句ペアを構成する名詞句のいずれの出現確率が高いかを示す第1の素性を算出し、
多数の文書を含む大規模なテキストデータ中における、前記名詞句ペアの係り受け構造毎の出現頻度に基づいて、該名詞句ペアを構成する名詞句のいずれが係り先になり易いかを示す第2の素性を算出し、
前記名詞句各々の前記第1の素性及び前記第2の素性を並べた素性列と、主題が既知の学習用文書に含まれる名詞句の素性列を用いて学習された分類器とに基づいて、前記抽出された名詞句各々から、前記入力された文書の主題となる名詞句を抽出する
主題抽出方法。 - コンピュータを、請求項1〜請求項5のいずれか1項記載の主題抽出装置を構成する各手段として機能させるための主題抽出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011032545A JP5419906B2 (ja) | 2011-02-17 | 2011-02-17 | 主題抽出装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011032545A JP5419906B2 (ja) | 2011-02-17 | 2011-02-17 | 主題抽出装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012173810A JP2012173810A (ja) | 2012-09-10 |
JP5419906B2 true JP5419906B2 (ja) | 2014-02-19 |
Family
ID=46976693
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011032545A Active JP5419906B2 (ja) | 2011-02-17 | 2011-02-17 | 主題抽出装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5419906B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102018819B1 (ko) * | 2019-01-14 | 2019-09-04 | 주식회사 크라우드웍스 | 특정 주제에 관한 질문-답변 데이터 셋 자동 생성 방법 및 장치 |
JP7229887B2 (ja) * | 2019-09-11 | 2023-02-28 | 株式会社日立製作所 | 文書情報抽出装置、および文書情報抽出方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3787310B2 (ja) * | 2002-03-08 | 2006-06-21 | 日本電信電話株式会社 | キーワード決定方法、装置、プログラム、および記録媒体 |
JP2005182696A (ja) * | 2003-12-24 | 2005-07-07 | Fuji Xerox Co Ltd | 機械学習システム及び機械学習方法、並びにコンピュータ・プログラム |
JP2006031511A (ja) * | 2004-07-20 | 2006-02-02 | Nippon Telegr & Teleph Corp <Ntt> | 翻訳モデル生成装置および方法 |
JP2008225565A (ja) * | 2007-03-08 | 2008-09-25 | Nippon Telegr & Teleph Corp <Ntt> | 相互に関係する固有表現の組抽出装置及びその方法 |
JP5245291B2 (ja) * | 2007-05-24 | 2013-07-24 | 富士ゼロックス株式会社 | 文書解析装置、および文書解析方法、並びにコンピュータ・プログラム |
JP5137567B2 (ja) * | 2007-12-28 | 2013-02-06 | 三菱電機株式会社 | 検索フィルタリング装置及び検索フィルタリングプログラム |
JP5447862B2 (ja) * | 2008-04-03 | 2014-03-19 | 日本電気株式会社 | 単語分類システム、方法およびプログラム |
-
2011
- 2011-02-17 JP JP2011032545A patent/JP5419906B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2012173810A (ja) | 2012-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107239481B (zh) | 一种面向多源网络百科的知识库构建方法 | |
Sidorov et al. | Syntactic n-grams as machine learning features for natural language processing | |
JP6466952B2 (ja) | 文章生成システム | |
JP6462970B1 (ja) | 分類装置、分類方法、生成方法、分類プログラム及び生成プログラム | |
JP5273735B2 (ja) | テキスト要約方法、その装置およびプログラム | |
Ljubešić et al. | Standardizing tweets with character-level machine translation | |
Zvonarev et al. | A Comparison of Machine Learning Methods of Sentiment Analysis Based on Russian Language Twitter Data. | |
Nebhi | A Rule-Based Relation Extraction System using DBpedia and Syntactic Parsing. | |
CN115017903A (zh) | 文档层次结构联合全局局部信息抽取关键短语方法及系统 | |
JP5331023B2 (ja) | 重要語抽出装置、重要語抽出方法及び重要語抽出プログラム | |
Dehkharghani et al. | Automatically identifying a software product's quality attributes through sentiment analysis of tweets | |
US20190019094A1 (en) | Determining suitability for presentation as a testimonial about an entity | |
JP5462546B2 (ja) | コンテンツ検出支援装置、コンテンツ検出支援方法およびコンテンツ検出支援プログラム | |
CN104484437A (zh) | 一种网络短评情感挖掘方法 | |
JP5419906B2 (ja) | 主題抽出装置、方法、及びプログラム | |
Lee et al. | Splitting complex English sentences | |
Neelima et al. | Extractive text summarization using deep natural language fuzzy processing | |
CN110222181B (zh) | 一种基于Python的影评情感分析方法 | |
Ali et al. | Detection of plagiarism in Urdu text documents | |
Dumitrescu et al. | Racai’s natural language processing pipeline for universal dependencies | |
Hou et al. | A token-wise CNN-based method for sentence compression | |
JP3889010B2 (ja) | 語句分類システム、語句分類方法、および語句分類プログラム | |
JP2018077604A (ja) | 機能記述からの実現手段・方法の侵害候補を自動特定する人工知能装置 | |
JP5506482B2 (ja) | 固有表現抽出装置、文字列−固有表現クラス対データベース作成装置、固有表現抽出方法、文字列−固有表現クラス対データベース作成方法、プログラム | |
Banerjee et al. | A Novel Approach for Emotion Detection from Text Data using Natural Language Processing and Machine Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20120611 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20120629 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20121211 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131010 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131112 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131119 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5419906 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |