JP2012014643A - 期間別主題語句抽出装置及び方法及びプログラム - Google Patents
期間別主題語句抽出装置及び方法及びプログラム Download PDFInfo
- Publication number
- JP2012014643A JP2012014643A JP2010153246A JP2010153246A JP2012014643A JP 2012014643 A JP2012014643 A JP 2012014643A JP 2010153246 A JP2010153246 A JP 2010153246A JP 2010153246 A JP2010153246 A JP 2010153246A JP 2012014643 A JP2012014643 A JP 2012014643A
- Authority
- JP
- Japan
- Prior art keywords
- period
- phrase
- subject
- document
- statistical information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】方法は、文書集合を期間別に分割し、文書を語句の集合に分解し、各期間の文書のタイトル中に出現する語句の統計情報を集計し、各期間の文書の全文中に出現する語句の統計情報を集計し、タイトル中語句統計情報の集計結果と全文中語句統計情報の集計結果を基に、期間毎に主題を表す語句を複数抽出する。また、各主題語句が含まれる文書を収集し、収集結果を基に、2つの主題語句間の関連度を計算する。
【選択図】図1
Description
文書集合を期間別に分割する期間別文書分割手段と、
文書を語句の集合に分解する形態素解析手段と、
各期間の文書のタイトル中に出現する語句の統計情報を集計し、第1の記憶手段に格納するタイトル中語句統計情報集計手段と、
各期間の文書の全文中に出現する語句の統計情報を集計し、第2の記憶手段に格納する全文中語句統計情報集計手段と、
前記第1の記憶手段に格納されている前記タイトル中語句統計情報集計手段の集計結果と前記第2の記憶手段に格納されている全文中語句統計情報手段の集計結果を基に、期間毎に主題を表す語句を複数抽出する主題語句抽出手段と、を有する。
前記主題語句文書収集手段の収集結果を基に、2つの主題語句間の関連度を計算する主題語句関連度算出手段を更に有する。
前記期間別文書分割手段が、前記文書集合を期間別に分割する期間別文書分割ステップと、
前記形態素解析手段が、文書を語句の集合に分解する形態素解析ステップと、
前記タイトル中語句統計情報集計手段が、各期間の文書のタイトル中に出現する語句の統計情報を集計し、第1の記憶手段に格納するタイトル中語句統計情報集計ステップと、
全文中語句統計情報集計手段が、各期間の文書の全文中に出現する語句の統計情報を集計し、第2の記憶手段に格納する全文中語句統計情報集計ステップと、
前記主題語句抽出手段が、前記第1の記憶手段に格納されている前記タイトル中語句統計情報集計ステップでの集計結果と前記第2の記憶手段に格納されている全文中語句統計情報ステップでの集計結果を基に、期間毎に主題を表す語句を複数抽出する主題語句抽出ステップと、を行う。
前記主題語句文書収集手段が、各主題語句が含まれる文書を収集する主題語句文書収集ステップと、
前記主題語句関連度算出手段が、前記主題語句文書収集ステップにおける収集結果を基に、2つの主題語句間の関連度を計算する主題語句関連度算出ステップと、を更に行う。
図1は、本発明の第1の実施の形態における期間別主題語句抽出装置の構成を示す。
[第2の実施の形態]
図5は、本発明の第2の実施の形態における主題語句抽出装置の構成を示す。
11,21 期間別文書分割部
12,22 形態素解析部
13,23 タイトル中語句統計情報集計部
14,24 全文中語句統計情報集計部
15,25 主題語句抽出部
20 主題語句抽出装置
26 主題語句文書収集部
27 主題語句関連度算出部
Claims (5)
- 文書集合から各期間の主題を表す語句を抽出する期間別主題語句抽出装置であって、
文書集合を期間別に分割する期間別文書分割手段と、
文書を語句の集合に分解する形態素解析手段と、
各期間の文書のタイトル中に出現する語句の統計情報を集計し、第1の記憶手段に格納するタイトル中語句統計情報集計手段と、
各期間の文書の全文中に出現する語句の統計情報を集計し、第2の記憶手段に格納する全文中語句統計情報集計手段と、
前記第1の記憶手段に格納されている前記タイトル中語句統計情報集計手段の集計結果と前記第2の記憶手段に格納されている全文中語句統計情報手段の集計結果を基に、期間毎に主題を表す語句を複数抽出する主題語句抽出手段と、
を有することを特徴とする期間別主題語句抽出装置。 - 各主題語句が含まれる文書を収集する主題語句文書収集手段と、
前記主題語句文書収集手段の収集結果を基に、2つの主題語句間の関連度を計算する主題語句関連度算出手段を
更に有する請求項1記載の期間別主題語句抽出装置。 - 期間別文書分割手段、形態素解析手段、タイトル中統計情報集計手段、全文中語句統計情報集計手段、主題語句抽出手段、記憶手段を有する装置において、文書集合から各期間の主題を表す語句を抽出する期間別主題語句抽出方法であって、
前記期間別文書分割手段が、前記文書集合を期間別に分割する期間別文書分割ステップと、
前記形態素解析手段が、文書を語句の集合に分解する形態素解析ステップと、
前記タイトル中語句統計情報集計手段が、各期間の文書のタイトル中に出現する語句の統計情報を集計し、第1の記憶手段に格納するタイトル中語句統計情報集計ステップと、
全文中語句統計情報集計手段が、各期間の文書の全文中に出現する語句の統計情報を集計し、第2の記憶手段に格納する全文中語句統計情報集計ステップと、
前記主題語句抽出手段が、前記第1の記憶手段に格納されている前記タイトル中語句統計情報集計ステップでの集計結果と前記第2の記憶手段に格納されている全文中語句統計情報ステップでの集計結果を基に、期間毎に主題を表す語句を複数抽出する主題語句抽出ステップと、
を行うことを特徴とする期間別主題語句抽出方法。 - 主題語句文書収集手段と主題語句関連度算出手段を更に有する装置において、
前記主題語句文書収集手段が、各主題語句が含まれる文書を収集する主題語句文書収集ステップと、
前記主題語句関連度算出手段が、前記主題語句文書収集ステップにおける収集結果を基に、2つの主題語句間の関連度を計算する主題語句関連度算出ステップと、
を更に行う請求項3記載の期間別主題語句抽出方法。 - 請求項1または2に記載の期間別主題語句抽出装置を構成する各手段としてコンピュータを機能させるための期間別主題語句抽出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010153246A JP5436356B2 (ja) | 2010-07-05 | 2010-07-05 | 期間別主題語句抽出装置及び方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010153246A JP5436356B2 (ja) | 2010-07-05 | 2010-07-05 | 期間別主題語句抽出装置及び方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012014643A true JP2012014643A (ja) | 2012-01-19 |
JP5436356B2 JP5436356B2 (ja) | 2014-03-05 |
Family
ID=45600953
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010153246A Expired - Fee Related JP5436356B2 (ja) | 2010-07-05 | 2010-07-05 | 期間別主題語句抽出装置及び方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5436356B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101758555B1 (ko) * | 2016-03-08 | 2017-07-17 | 아주대학교산학협력단 | 토픽 표현 추출 방법 및 그 시스템 |
KR101782465B1 (ko) | 2016-06-03 | 2017-09-29 | 조선대학교산학협력단 | 설화 데이터 내 서사정보 추출 시스템 및 방법 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07325832A (ja) * | 1994-05-31 | 1995-12-12 | Fujitsu Ltd | 単語使用パターンの時間的変化を利用した検索方法および情報検索装置 |
JP2002521767A (ja) * | 1998-07-31 | 2002-07-16 | ジーティーイー サービス コーポレイション | 確率を利用した情報検索装置 |
JP2004145753A (ja) * | 2002-10-25 | 2004-05-20 | Nippon Telegr & Teleph Corp <Ntt> | 文書検索方法及び装置及び文書検索プログラム |
JP2006139716A (ja) * | 2004-11-15 | 2006-06-01 | Nippon Telegr & Teleph Corp <Ntt> | 話題語抽出方法及び装置及びプログラム及びプログラムを格納した記憶媒体 |
JP2007011662A (ja) * | 2005-06-30 | 2007-01-18 | Nomura Research Institute Ltd | 話題規模管理装置 |
JP2007011651A (ja) * | 2005-06-30 | 2007-01-18 | Nomura Research Institute Ltd | 文書処理装置 |
JP2008117351A (ja) * | 2006-11-08 | 2008-05-22 | Nomura Research Institute Ltd | 検索システム |
JP2009134378A (ja) * | 2007-11-29 | 2009-06-18 | Hitachi Systems & Services Ltd | 文書群提示装置および文書群提示プログラム |
JP2011070291A (ja) * | 2009-09-24 | 2011-04-07 | Nec Biglobe Ltd | トピックワード抽出装置、トピックワード抽出システム、トピックワード抽出方法、及びプログラム |
-
2010
- 2010-07-05 JP JP2010153246A patent/JP5436356B2/ja not_active Expired - Fee Related
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07325832A (ja) * | 1994-05-31 | 1995-12-12 | Fujitsu Ltd | 単語使用パターンの時間的変化を利用した検索方法および情報検索装置 |
JP2002521767A (ja) * | 1998-07-31 | 2002-07-16 | ジーティーイー サービス コーポレイション | 確率を利用した情報検索装置 |
JP2004145753A (ja) * | 2002-10-25 | 2004-05-20 | Nippon Telegr & Teleph Corp <Ntt> | 文書検索方法及び装置及び文書検索プログラム |
JP2006139716A (ja) * | 2004-11-15 | 2006-06-01 | Nippon Telegr & Teleph Corp <Ntt> | 話題語抽出方法及び装置及びプログラム及びプログラムを格納した記憶媒体 |
JP2007011662A (ja) * | 2005-06-30 | 2007-01-18 | Nomura Research Institute Ltd | 話題規模管理装置 |
JP2007011651A (ja) * | 2005-06-30 | 2007-01-18 | Nomura Research Institute Ltd | 文書処理装置 |
JP2008117351A (ja) * | 2006-11-08 | 2008-05-22 | Nomura Research Institute Ltd | 検索システム |
JP2009134378A (ja) * | 2007-11-29 | 2009-06-18 | Hitachi Systems & Services Ltd | 文書群提示装置および文書群提示プログラム |
JP2011070291A (ja) * | 2009-09-24 | 2011-04-07 | Nec Biglobe Ltd | トピックワード抽出装置、トピックワード抽出システム、トピックワード抽出方法、及びプログラム |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101758555B1 (ko) * | 2016-03-08 | 2017-07-17 | 아주대학교산학협력단 | 토픽 표현 추출 방법 및 그 시스템 |
KR101782465B1 (ko) | 2016-06-03 | 2017-09-29 | 조선대학교산학협력단 | 설화 데이터 내 서사정보 추출 시스템 및 방법 |
Also Published As
Publication number | Publication date |
---|---|
JP5436356B2 (ja) | 2014-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI653542B (zh) | 一種基於網路媒體資料流程發現並跟蹤熱點話題的方法、系統和裝置 | |
Stamatatos et al. | Clustering by authorship within and across documents | |
US9558263B2 (en) | Identifying and displaying relationships between candidate answers | |
US9336485B2 (en) | Determining answers in a question/answer system when answer is not contained in corpus | |
US7461056B2 (en) | Text mining apparatus and associated methods | |
US7783476B2 (en) | Word extraction method and system for use in word-breaking using statistical information | |
US7895205B2 (en) | Using core words to extract key phrases from documents | |
Gambette et al. | Visualising a text with a tree cloud | |
Olariu | Efficient online summarization of microblogging streams | |
US9251248B2 (en) | Using context to extract entities from a document collection | |
Stede et al. | The climate change debate and natural language processing | |
CN106202034B (zh) | 一种基于依存约束和知识的形容词词义消歧方法和装置 | |
He et al. | Twitter summarization with social-temporal context | |
Hofmann et al. | Predicting the growth of morphological families from social and linguistic factors | |
JP5436356B2 (ja) | 期間別主題語句抽出装置及び方法及びプログラム | |
Angrosh et al. | Context identification of sentences in research articles: Towards developing intelligent tools for the research community | |
CN106126501B (zh) | 一种基于依存约束和知识的名词词义消歧方法和装置 | |
CN106202033B (zh) | 一种基于依存约束和知识的副词词义消歧方法和装置 | |
EP3040932A1 (en) | A method for tracking discussion in social media | |
Graf-Vlachy et al. | Text and team: what article metadata characteristics drive citations in software engineering? | |
Ghorai | An Information Retrieval System for FIRE 2016 Microblog Track. | |
Kubek et al. | Automatic taxonomy extraction through mining social networks | |
Nguyen et al. | Event detection from social data stream based on time-frequency analysis | |
CN112700830B (zh) | 从电子病历中提取结构化信息的方法、装置及存储介质 | |
Hennig et al. | Efficient event detection for the blogosphere |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120830 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130830 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130910 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20131004 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131111 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131203 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131210 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5436356 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |