JP2009015796A - テキストの多重トピック抽出装置、テキストの多重トピック抽出方法、プログラム及び記録媒体 - Google Patents
テキストの多重トピック抽出装置、テキストの多重トピック抽出方法、プログラム及び記録媒体 Download PDFInfo
- Publication number
- JP2009015796A JP2009015796A JP2007180312A JP2007180312A JP2009015796A JP 2009015796 A JP2009015796 A JP 2009015796A JP 2007180312 A JP2007180312 A JP 2007180312A JP 2007180312 A JP2007180312 A JP 2007180312A JP 2009015796 A JP2009015796 A JP 2009015796A
- Authority
- JP
- Japan
- Prior art keywords
- search
- text
- word
- topic
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】入力したテキストを、文単位に分解するテキスト分解部と、上記テキスト分解部が分解した文を形態素解析し、解析された形態素のうちで、名詞を検索語として抽出する検索語抽出部と、上記検索語抽出部が抽出した検索語によってウェブ検索し、検索されたテキストを形態素解析し、この解析された形態素のうちで、名詞を関連語として取得する関連語取得部と、検索語と関連語とを組み合わせてキーワード集合を生成し、複数のキーワード集合に共通して現われる単語であるトピックを、キーワード集合を用いて抽出するトピック抽出部とを有するテキストの多重トピック抽出装置である。
【選択図】図2
Description
1…テキスト分解部、
2…検索語抽出部、
3…関連語取得部、
4…トピック抽出部、
M1…分解文章記憶部、
M2…検索語記憶部、
M3…関連語記憶部、
M4…抽出トピック記憶部、
5…入力部、
6…制御部、
7…出力部、
NW1…ネットワーク、
W1…ウェブ、
T1…入力部から入力されるテキスト、
T2…ウェブ検索して得たテキスト、
L1…不要語リスト、
T…予め与えられている数、
S…検索語の数。
Claims (10)
- 入力したテキストを、文単位に分解するテキスト分解部と;
上記テキスト分解部が分解した文を形態素解析し、解析された形態素のうちで、名詞を検索語として抽出する検索語抽出部と;
上記検索語抽出部が抽出した検索語によってウェブ検索し、検索されたテキストを形態素解析し、この解析された形態素のうちで、名詞を関連語として取得する関連語取得部と;
検索語と関連語とを組み合わせてキーワード集合を生成し、複数のキーワード集合に共通して現われる単語であるトピックを、キーワード集合を用いて抽出するトピック抽出部と;
を有することを特徴とするテキストの多重トピック抽出装置。 - 請求項1において、
入力したテキストの作成時期との差が少ない順に、テキストを収集することを特徴とするテキストの多重トピック抽出装置。 - 請求項1において、
検索語がS個である場合、S−1個の検索語の組み合わせを作り、各組み合わせの検索語によって検索し、検索件数が最も多い検索語の組み合わせによって、テキストを検索し、収集することを特徴とするテキストの多重トピック抽出装置。 - 請求項1において、
検索不要語リストと;
上記検索不要語リストに含まれている用語と同じ検索語候補を、検索語から除外し、また、上記検索不要語リストに含まれている用語と同じ関連語候補を、関連語から除外することを特徴とするテキストの多重トピック抽出装置。 - 入力したテキストに関してウェブ検索し、このウェブ検索の結果に応じて、上記入力したテキストを分割するテキストの多重トピック抽出方法であって、
上記入力したテキストを、テキスト分解部が、文単位に分解し、記憶装置に記憶するテキスト分解工程と;
上記テキスト分解工程で分解された文を、検索語抽出部が、形態素解析し、解析された形態素のうちで、名詞を検索語として抽出し、記憶装置に記憶する検索語抽出工程と;
上記検索語抽出工程で抽出された検索語に応じて、関連語取得部が、ウェブ検索し、検索されたテキストを形態素解析し、この解析された形態素のうちで、名詞を関連語として取得し、記憶装置に記憶する関連語取得工程と;
検索語と関連語とを組み合わせてキーワード集合を生成し、複数のキーワード集合に共通して現われる単語であるトピックを、キーワード集合を用いて抽出し、記憶装置に記憶するトピック抽出工程と;
を有することを特徴とするテキストの多重トピック抽出方法。 - 請求項5において、
入力したテキストの作成時期との差が少ない順に、テキストを収集することを特徴とするテキストの多重トピック抽出方法。 - 請求項5において、
検索語がS個である場合、S−1個の検索語の組み合わせを作り、各組み合わせの検索語によって検索し、検索件数が最も多い検索語の組み合わせによって、テキストを検索し、収集することを特徴とするテキストの多重トピック抽出方法。 - 請求項5において、
検索不要語リストと;
上記検索不要語リストに含まれている用語と同じ検索語候補を、検索語から除外し、また、上記検索不要語リストに含まれている用語と同じ関連語候補を、関連語から除外することを特徴とするテキストの多重トピック抽出方法。 - 請求項5〜請求項7記載のいずれか1つの方法をコンピュータに実行させるプログラム。
- 請求項8記載のプログラムを記録したコンピュータ読取可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007180312A JP4873739B2 (ja) | 2007-07-09 | 2007-07-09 | テキストの多重トピック抽出装置、テキストの多重トピック抽出方法、プログラム及び記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007180312A JP4873739B2 (ja) | 2007-07-09 | 2007-07-09 | テキストの多重トピック抽出装置、テキストの多重トピック抽出方法、プログラム及び記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009015796A true JP2009015796A (ja) | 2009-01-22 |
JP4873739B2 JP4873739B2 (ja) | 2012-02-08 |
Family
ID=40356593
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007180312A Expired - Fee Related JP4873739B2 (ja) | 2007-07-09 | 2007-07-09 | テキストの多重トピック抽出装置、テキストの多重トピック抽出方法、プログラム及び記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4873739B2 (ja) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011076264A (ja) * | 2009-09-29 | 2011-04-14 | Ntt Communications Kk | 検索制御装置、検索制御方法、及びプログラム |
JP2011134334A (ja) * | 2009-12-23 | 2011-07-07 | Palo Alto Research Center Inc | ショートテキスト通信のトピックを識別するためのシステムおよび方法 |
CN103123624A (zh) * | 2011-11-18 | 2013-05-29 | 阿里巴巴集团控股有限公司 | 确定中心词的方法及装置、搜索方法及装置 |
JP2014106550A (ja) * | 2012-11-22 | 2014-06-09 | Nippon Telegr & Teleph Corp <Ntt> | デイリーワード学習装置、デイリーワード抽出装置、方法、及びプログラム |
JP2014197300A (ja) * | 2013-03-29 | 2014-10-16 | 株式会社Jvcケンウッド | テキスト情報処理装置、テキスト情報処理方法、及びテキスト情報処理プログラム |
CN110852068A (zh) * | 2019-10-15 | 2020-02-28 | 武汉工程大学 | 一种基于BiLSTM-CRF的体育新闻主题词提取方法 |
CN113535940A (zh) * | 2020-04-17 | 2021-10-22 | 阿里巴巴集团控股有限公司 | 事件摘要生成方法、装置及电子设备 |
CN113850077A (zh) * | 2021-09-27 | 2021-12-28 | 未鲲(上海)科技服务有限公司 | 基于人工智能的话题识别方法、装置、服务器及介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002334106A (ja) * | 2001-05-11 | 2002-11-22 | Fujitsu Ltd | 話題抽出装置、方法、プログラム及びそのプログラムを記録する記録媒体 |
JP2006350656A (ja) * | 2005-06-15 | 2006-12-28 | Nippon Telegr & Teleph Corp <Ntt> | 時系列文書集約方法及び装置及びプログラム及びプログラムを格納した記憶媒体 |
-
2007
- 2007-07-09 JP JP2007180312A patent/JP4873739B2/ja not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002334106A (ja) * | 2001-05-11 | 2002-11-22 | Fujitsu Ltd | 話題抽出装置、方法、プログラム及びそのプログラムを記録する記録媒体 |
JP2006350656A (ja) * | 2005-06-15 | 2006-12-28 | Nippon Telegr & Teleph Corp <Ntt> | 時系列文書集約方法及び装置及びプログラム及びプログラムを格納した記憶媒体 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011076264A (ja) * | 2009-09-29 | 2011-04-14 | Ntt Communications Kk | 検索制御装置、検索制御方法、及びプログラム |
JP2011134334A (ja) * | 2009-12-23 | 2011-07-07 | Palo Alto Research Center Inc | ショートテキスト通信のトピックを識別するためのシステムおよび方法 |
CN103123624A (zh) * | 2011-11-18 | 2013-05-29 | 阿里巴巴集团控股有限公司 | 确定中心词的方法及装置、搜索方法及装置 |
CN103123624B (zh) * | 2011-11-18 | 2015-12-02 | 阿里巴巴集团控股有限公司 | 确定中心词的方法及装置、搜索方法及装置 |
JP2014106550A (ja) * | 2012-11-22 | 2014-06-09 | Nippon Telegr & Teleph Corp <Ntt> | デイリーワード学習装置、デイリーワード抽出装置、方法、及びプログラム |
JP2014197300A (ja) * | 2013-03-29 | 2014-10-16 | 株式会社Jvcケンウッド | テキスト情報処理装置、テキスト情報処理方法、及びテキスト情報処理プログラム |
CN110852068A (zh) * | 2019-10-15 | 2020-02-28 | 武汉工程大学 | 一种基于BiLSTM-CRF的体育新闻主题词提取方法 |
CN113535940A (zh) * | 2020-04-17 | 2021-10-22 | 阿里巴巴集团控股有限公司 | 事件摘要生成方法、装置及电子设备 |
CN113850077A (zh) * | 2021-09-27 | 2021-12-28 | 未鲲(上海)科技服务有限公司 | 基于人工智能的话题识别方法、装置、服务器及介质 |
Also Published As
Publication number | Publication date |
---|---|
JP4873739B2 (ja) | 2012-02-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9009134B2 (en) | Named entity recognition in query | |
El-Beltagy et al. | KP-Miner: A keyphrase extraction system for English and Arabic documents | |
US8027977B2 (en) | Recommending content using discriminatively trained document similarity | |
CN107180045B (zh) | 一种互联网文本蕴含地理实体关系的抽取方法 | |
JP4873739B2 (ja) | テキストの多重トピック抽出装置、テキストの多重トピック抽出方法、プログラム及び記録媒体 | |
US20100205198A1 (en) | Search query disambiguation | |
KR101136007B1 (ko) | 문서 감성 분석 시스템 및 그 방법 | |
CN109213925B (zh) | 法律文本搜索方法 | |
CN1916889B (zh) | 语料库制作装置及其方法 | |
US20180341686A1 (en) | System and method for data search based on top-to-bottom similarity analysis | |
JP2009093649A (ja) | オントロジー空間を規定するタームの推奨 | |
CN106126619A (zh) | 一种基于视频内容的视频检索方法及系统 | |
JP2005122295A (ja) | 関係図作成プログラム、関係図作成方法、および関係図作成装置 | |
US8812504B2 (en) | Keyword presentation apparatus and method | |
KR20130056207A (ko) | 관계 정보 확장 장치, 관계 정보 확장 방법, 및 프로그램 | |
KR101377114B1 (ko) | 뉴스 요약문 생성 시스템 및 방법 | |
Nualart et al. | How we draw texts: a review of approaches to text visualization and exploration | |
JP4873738B2 (ja) | テキストセグメンテーション装置、テキストセグメンテーション方法、プログラム及び記録媒体 | |
Gentile et al. | Explore and exploit. Dictionary expansion with human-in-the-loop | |
JP5215051B2 (ja) | テキストセグメンテーション装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体 | |
Najadat et al. | Automatic keyphrase extractor from arabic documents | |
JP5427694B2 (ja) | 関連コンテンツ提示装置及びプログラム | |
KR101429621B1 (ko) | 중복 뉴스 결합 시스템 및 중복 뉴스 결합 방법 | |
JP2013101679A (ja) | テキストセグメンテーション装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体 | |
Jha et al. | Hsas: Hindi subjectivity analysis system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090710 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110526 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110603 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110701 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111118 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111121 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141202 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |