JP5436356B2 - 期間別主題語句抽出装置及び方法及びプログラム - Google Patents
期間別主題語句抽出装置及び方法及びプログラム Download PDFInfo
- Publication number
- JP5436356B2 JP5436356B2 JP2010153246A JP2010153246A JP5436356B2 JP 5436356 B2 JP5436356 B2 JP 5436356B2 JP 2010153246 A JP2010153246 A JP 2010153246A JP 2010153246 A JP2010153246 A JP 2010153246A JP 5436356 B2 JP5436356 B2 JP 5436356B2
- Authority
- JP
- Japan
- Prior art keywords
- period
- phrase
- subject
- document
- statistical information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
文書集合を期間別に分割する期間別文書分割手段と、
文書を語句の集合に分解する形態素解析手段と、
各期間の文書のタイトル中に出現する語句の統計情報を集計し、第1の記憶手段に格納するタイトル中語句統計情報集計手段と、
各期間の文書の全文中に出現する語句の統計情報を集計し、第2の記憶手段に格納する全文中語句統計情報集計手段と、
前記第1の記憶手段に格納されている前記タイトル中語句統計情報集計手段の集計結果と前記第2の記憶手段に格納されている全文中語句統計情報手段の集計結果を入力として、「期間cに属する文書のタイトル中に語句wが出現する比率と、前記期間cを除く期間に属する文書の全文中に語句wが出現する比率が等しい」という帰無仮説の下でフィッシャーの正確確率検定の片側検定を行った結果、有意確率が有意水準αよりも小さな値となる語句を、当該期間cの主題を表す語句として複数抽出する主題語句抽出手段と、を有する。
前記主題語句文書収集手段の収集結果を基に、2つの主題語句間の関連度を計算する主題語句関連度算出手段を更に有する。
前記期間別文書分割手段が、前記文書集合を期間別に分割する期間別文書分割ステップと、
前記形態素解析手段が、文書を語句の集合に分解する形態素解析ステップと、
前記タイトル中語句統計情報集計手段が、各期間の文書のタイトル中に出現する語句の統計情報を集計し、第1の記憶手段に格納するタイトル中語句統計情報集計ステップと、
全文中語句統計情報集計手段が、各期間の文書の全文中に出現する語句の統計情報を集計し、第2の記憶手段に格納する全文中語句統計情報集計ステップと、
前記主題語句抽出手段が、前記第1の記憶手段に格納されている前記タイトル中語句統計情報集計ステップでの集計結果と前記第2の記憶手段に格納されている全文中語句統計情報ステップでの集計結果を入力として、「期間cに属する文書のタイトル中に語句wが出現する比率と、前記期間cを除く期間に属する文書の全文中に語句wが出現する比率が等しい」という帰無仮説の下でフィッシャーの正確確率検定の片側検定を行った結果、有意確率が有意水準αよりも小さな値となる語句を、当該期間cの主題を表す語句として複数抽出する主題語句抽出ステップと、を行う。
前記主題語句文書収集手段が、各主題語句が含まれる文書を収集する主題語句文書収集ステップと、
前記主題語句関連度算出手段が、前記主題語句文書収集ステップにおける収集結果を基に、2つの主題語句間の関連度を計算する主題語句関連度算出ステップと、を更に行う。
図1は、本発明の第1の実施の形態における期間別主題語句抽出装置の構成を示す。
[第2の実施の形態]
図5は、本発明の第2の実施の形態における主題語句抽出装置の構成を示す。
11,21 期間別文書分割部
12,22 形態素解析部
13,23 タイトル中語句統計情報集計部
14,24 全文中語句統計情報集計部
15,25 主題語句抽出部
20 主題語句抽出装置
26 主題語句文書収集部
27 主題語句関連度算出部
Claims (5)
- 文書集合から各期間の主題を表す語句を抽出する期間別主題語句抽出装置であって、
文書集合を期間別に分割する期間別文書分割手段と、
文書を語句の集合に分解する形態素解析手段と、
各期間の文書のタイトル中に出現する語句の統計情報を集計し、第1の記憶手段に格納するタイトル中語句統計情報集計手段と、
各期間の文書の全文中に出現する語句の統計情報を集計し、第2の記憶手段に格納する全文中語句統計情報集計手段と、
前記第1の記憶手段に格納されている前記タイトル中語句統計情報集計手段の集計結果と前記第2の記憶手段に格納されている全文中語句統計情報手段の集計結果を入力として、「期間cに属する文書のタイトル中に語句wが出現する比率と、前記期間cを除く期間に属する文書の全文中に語句wが出現する比率が等しい」という帰無仮説の下でフィッシャーの正確確率検定の片側検定を行った結果、有意確率が有意水準αよりも小さな値となる語句を、当該期間cの主題を表す語句として複数抽出する主題語句抽出手段と、
を有することを特徴とする期間別主題語句抽出装置。 - 各主題語句が含まれる文書を収集する主題語句文書収集手段と、
前記主題語句文書収集手段の収集結果を基に、2つの主題語句間の関連度を計算する主題語句関連度算出手段を
更に有する請求項1記載の期間別主題語句抽出装置。 - 期間別文書分割手段、形態素解析手段、タイトル中統計情報集計手段、全文中語句統計情報集計手段、主題語句抽出手段、記憶手段を有する装置において、文書集合から各期間の主題を表す語句を抽出する期間別主題語句抽出方法であって、
前記期間別文書分割手段が、前記文書集合を期間別に分割する期間別文書分割ステップと、
前記形態素解析手段が、文書を語句の集合に分解する形態素解析ステップと、
前記タイトル中語句統計情報集計手段が、各期間の文書のタイトル中に出現する語句の統計情報を集計し、第1の記憶手段に格納するタイトル中語句統計情報集計ステップと、
全文中語句統計情報集計手段が、各期間の文書の全文中に出現する語句の統計情報を集計し、第2の記憶手段に格納する全文中語句統計情報集計ステップと、
前記主題語句抽出手段が、前記第1の記憶手段に格納されている前記タイトル中語句統計情報集計ステップでの集計結果と前記第2の記憶手段に格納されている全文中語句統計情報ステップでの集計結果を入力として、「期間cに属する文書のタイトル中に語句wが出現する比率と、前記期間cを除く期間に属する文書の全文中に語句wが出現する比率が等しい」という帰無仮説の下でフィッシャーの正確確率検定の片側検定を行った結果、有意確率が有意水準αよりも小さな値となる語句を、当該期間cの主題を表す語句として複数抽出する主題語句抽出ステップと、
を行うことを特徴とする期間別主題語句抽出方法。 - 主題語句文書収集手段と主題語句関連度算出手段を更に有する装置において、
前記主題語句文書収集手段が、各主題語句が含まれる文書を収集する主題語句文書収集ステップと、
前記主題語句関連度算出手段が、前記主題語句文書収集ステップにおける収集結果を基に、2つの主題語句間の関連度を計算する主題語句関連度算出ステップと、
を更に行う請求項3記載の期間別主題語句抽出方法。 - 請求項1または2に記載の期間別主題語句抽出装置を構成する各手段としてコンピュータを機能させるための期間別主題語句抽出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010153246A JP5436356B2 (ja) | 2010-07-05 | 2010-07-05 | 期間別主題語句抽出装置及び方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010153246A JP5436356B2 (ja) | 2010-07-05 | 2010-07-05 | 期間別主題語句抽出装置及び方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012014643A JP2012014643A (ja) | 2012-01-19 |
JP5436356B2 true JP5436356B2 (ja) | 2014-03-05 |
Family
ID=45600953
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010153246A Expired - Fee Related JP5436356B2 (ja) | 2010-07-05 | 2010-07-05 | 期間別主題語句抽出装置及び方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5436356B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101758555B1 (ko) * | 2016-03-08 | 2017-07-17 | 아주대학교산학협력단 | 토픽 표현 추출 방법 및 그 시스템 |
KR101782465B1 (ko) | 2016-06-03 | 2017-09-29 | 조선대학교산학협력단 | 설화 데이터 내 서사정보 추출 시스템 및 방법 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3525948B2 (ja) * | 1994-05-31 | 2004-05-10 | 富士通株式会社 | 情報検索装置 |
US6405188B1 (en) * | 1998-07-31 | 2002-06-11 | Genuity Inc. | Information retrieval system |
JP2004145753A (ja) * | 2002-10-25 | 2004-05-20 | Nippon Telegr & Teleph Corp <Ntt> | 文書検索方法及び装置及び文書検索プログラム |
JP2006139716A (ja) * | 2004-11-15 | 2006-06-01 | Nippon Telegr & Teleph Corp <Ntt> | 話題語抽出方法及び装置及びプログラム及びプログラムを格納した記憶媒体 |
JP4451354B2 (ja) * | 2005-06-30 | 2010-04-14 | 株式会社野村総合研究所 | 話題規模管理装置 |
JP4504878B2 (ja) * | 2005-06-30 | 2010-07-14 | 株式会社野村総合研究所 | 文書処理装置 |
JP4969209B2 (ja) * | 2006-11-08 | 2012-07-04 | 株式会社野村総合研究所 | 検索システム |
JP5112027B2 (ja) * | 2007-11-29 | 2013-01-09 | 株式会社日立ソリューションズ | 文書群提示装置および文書群提示プログラム |
JP2011070291A (ja) * | 2009-09-24 | 2011-04-07 | Nec Biglobe Ltd | トピックワード抽出装置、トピックワード抽出システム、トピックワード抽出方法、及びプログラム |
-
2010
- 2010-07-05 JP JP2010153246A patent/JP5436356B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2012014643A (ja) | 2012-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI653542B (zh) | 一種基於網路媒體資料流程發現並跟蹤熱點話題的方法、系統和裝置 | |
US9558264B2 (en) | Identifying and displaying relationships between candidate answers | |
US7461056B2 (en) | Text mining apparatus and associated methods | |
US7783476B2 (en) | Word extraction method and system for use in word-breaking using statistical information | |
KR100544514B1 (ko) | 검색 쿼리 연관성 판단 방법 및 시스템 | |
US9251248B2 (en) | Using context to extract entities from a document collection | |
Zhang et al. | Narrative text classification for automatic key phrase extraction in web document corpora | |
He et al. | Twitter summarization with social-temporal context | |
JP5436356B2 (ja) | 期間別主題語句抽出装置及び方法及びプログラム | |
Angrosh et al. | Context identification of sentences in research articles: Towards developing intelligent tools for the research community | |
Kashefi et al. | Optimizing Document Similarity Detection in Persian Information Retrieval. | |
JP5679400B2 (ja) | カテゴリ主題語句抽出装置及び階層的タグ付与装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
CN103034657A (zh) | 文档摘要生成方法和装置 | |
CN115329173A (zh) | 一种基于舆情监控的企业信用确定方法及装置 | |
CN111899832B (zh) | 基于上下文语义分析的医疗主题管理系统与方法 | |
JP3925418B2 (ja) | トピック境界決定装置及びプログラム | |
Graf-Vlachy et al. | Text and team: what article metadata characteristics drive citations in software engineering? | |
JP5642229B2 (ja) | 重要性判定システム、重要性判定方法及びコンピュータプログラム | |
JP4592566B2 (ja) | 話題抽出方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
Ghorai | An Information Retrieval System for FIRE 2016 Microblog Track. | |
CN112700830B (zh) | 从电子病历中提取结构化信息的方法、装置及存储介质 | |
Nguyen et al. | Event detection from social data stream based on time-frequency analysis | |
JP6410455B2 (ja) | 意味関係抽出装置およびプログラム | |
Hennig et al. | Efficient event detection for the blogosphere | |
JP2008518345A (ja) | データ処理システム及びデータ処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120830 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130830 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130910 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20131004 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131111 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131203 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131210 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5436356 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |