JP2012243129A - 話題語獲得装置、方法、及びプログラム - Google Patents
話題語獲得装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP2012243129A JP2012243129A JP2011113487A JP2011113487A JP2012243129A JP 2012243129 A JP2012243129 A JP 2012243129A JP 2011113487 A JP2011113487 A JP 2011113487A JP 2011113487 A JP2011113487 A JP 2011113487A JP 2012243129 A JP2012243129 A JP 2012243129A
- Authority
- JP
- Japan
- Prior art keywords
- topic word
- documents
- document
- topic
- date
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】文書取得部12で、入力されたキーワード及び日時に関連する文書を文書インデックス20から検索して取得し、話題語候補抽出部14で、検索結果の文書を字句で分割し、各字句を先頭とし、かつ文書の最後尾を末尾とする分割成分を生成し、生成された分割成分を字句の順に並び替えて配列し、配列した分割成分の隣り合う分割成分の先頭から一致する字句の数に基づいて話題語候補を抽出する。日時関連話題語獲得部16で、文書インデックス20を検索して、話題語候補及び日時の両方を含む文書の数、話題語候補のみを含む文書の数、日時のみを含む文書の数、話題語候補及び日時の両方を含まない文書の数を求め、これらを用いて算出されたカイ2乗値が閾値以上となる話題語候補を、日時との関連度が高い話題語として獲得する。
【選択図】図1
Description
このカイ2乗値が閾値T2以上である話題語候補を入力された日時に関連があると判定し、話題語として獲得する。それぞれの文書の数は検索インデックス20を参照して検索を行うことにより取得する。なお、日時関連性判定の方法は、話題語候補及び日時の両方を含む文書の数、話題語候補のみを含む文書の数、日時のみを含む文書の数、話題語候補及び日時の両方とも含まない文書の数を用いるものであれば、これに限定されるものではなく、例えば、イエーツの修正を行ったり、フィッシャーの正確確率検定を用いたりしてもよい。
12 文書取得部
14 話題語候補抽出部
16 日時関連話題語獲得部
20 検索インデックス
Claims (5)
- 予め記憶された文書から、入力されたキーワードと日時及び場所の少なくとも一方で表される特定情報とに関連した複数の文書を検索して取得する取得手段と、
前記取得手段により取得された複数の文書から文字、単語、または句のいずれかの字句を話題語候補として抽出する抽出手段と、
前記話題語候補及び前記特定情報の両方を含む前記予め記憶された文書内の文書の数、前記話題語候補のみを含む前記予め記憶された文書内の文書の数、前記特定情報のみを含む前記予め記憶された文書内の文書の数、並びに前記話題語候補及び前記特定情報の両方を含まない前記予め記憶された文書内の文書の数に基づいて、前記話題語候補毎に前記特定情報との関連度を算出し、前記抽出手段により抽出された話題語候補から、前記特定情報との関連度が高い話題語候補を話題語として獲得する獲得手段と、
を含む話題語獲得装置。 - 前記抽出手段は、前記取得手段により取得された複数の文書各々を前記字句で分割し、各字句を先頭とし、かつ各文書の最後尾を末尾とする分割成分を生成し、生成された各分割成分を字句の順に並び替えて配列し、配列した分割成分の隣り合う分割成分の先頭から一致する字句の数を求め、求めた字句の数、及び話題語候補を構成する字句の数に基づいて、前記話題語候補を抽出する請求項1記載の話題語獲得装置。
- 取得手段と、抽出手段と、獲得手段とを含む話題語獲得装置における話題語獲得方法であって、
前記取得手段は、予め記憶された文書から、入力されたキーワードと日時及び場所の少なくとも一方で表される特定情報とに関連した複数の文書を検索して取得し、
前記抽出手段は、前記取得手段により取得された複数の文書から文字、単語、または句のいずれかの字句を話題語候補として抽出し、
前記獲得手段は、前記話題語候補及び前記特定情報の両方を含む前記予め記憶された文書内の文書の数、前記話題語候補のみを含む前記予め記憶された文書内の文書の数、前記特定情報のみを含む前記予め記憶された文書内の文書の数、並びに前記話題語候補及び前記特定情報の両方を含まない前記予め記憶された文書内の文書の数に基づいて、前記話題語候補毎に前記特定情報との関連度を算出し、前記抽出手段により抽出された話題語候補から、前記特定情報との関連度が高い話題語候補を話題語として獲得する
話題語獲得方法。 - 前記抽出手段は、前記取得手段により取得された複数の文書各々を前記字句で分割し、各字句を先頭とし、かつ各文書の最後尾を末尾とする分割成分を生成し、生成された各分割成分を字句の順に並び替えて配列し、配列した分割成分の隣り合う分割成分の先頭から一致する字句の数を求め、求めた字句の数、及び話題語候補を構成する字句の数に基づいて、前記話題語候補を抽出する請求項3記載の話題語獲得方法。
- コンピュータを、請求項1または請求項2記載の話題語獲得装置を構成する各手段として機能させるための話題語獲得プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011113487A JP5491446B2 (ja) | 2011-05-20 | 2011-05-20 | 話題語獲得装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011113487A JP5491446B2 (ja) | 2011-05-20 | 2011-05-20 | 話題語獲得装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012243129A true JP2012243129A (ja) | 2012-12-10 |
JP5491446B2 JP5491446B2 (ja) | 2014-05-14 |
Family
ID=47464762
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011113487A Active JP5491446B2 (ja) | 2011-05-20 | 2011-05-20 | 話題語獲得装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5491446B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014119977A (ja) * | 2012-12-17 | 2014-06-30 | Nippon Telegr & Teleph Corp <Ntt> | デイリーワード抽出装置、方法、及びプログラム |
JP2015225492A (ja) * | 2014-05-28 | 2015-12-14 | 日本電信電話株式会社 | ローカル話題語抽出装置、ローカル話題語抽出方法及びローカル話題語抽出プログラム |
US20210326535A1 (en) * | 2020-04-15 | 2021-10-21 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method, Device, Equipment, and Storage Medium for Mining Topic Concept |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002288215A (ja) * | 2001-03-26 | 2002-10-04 | Ricoh Co Ltd | 文書検索装置、文書検索方法、プログラムおよび記録媒体 |
JP2005258678A (ja) * | 2004-03-10 | 2005-09-22 | Nippon Telegr & Teleph Corp <Ntt> | 単語抽出方法、装置、およびプログラム |
JP2006134183A (ja) * | 2004-11-08 | 2006-05-25 | Nippon Telegr & Teleph Corp <Ntt> | 情報分類方法及び装置及びプログラム及びプログラムを格納した記憶媒体 |
JP2006139484A (ja) * | 2004-11-11 | 2006-06-01 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索方法及びそのシステム並びにコンピュータプログラム |
JP2010186370A (ja) * | 2009-02-13 | 2010-08-26 | Nippon Telegr & Teleph Corp <Ntt> | テキスト検索結果ランキング装置、テキスト検索結果ランキング方法、テキスト検索結果ランキングプログラムおよびそのプログラムを記録した記録媒体 |
JP2012128600A (ja) * | 2010-12-14 | 2012-07-05 | Hitachi Ltd | 文書検索装置、文書検索方法及び文書検索プログラム |
-
2011
- 2011-05-20 JP JP2011113487A patent/JP5491446B2/ja active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002288215A (ja) * | 2001-03-26 | 2002-10-04 | Ricoh Co Ltd | 文書検索装置、文書検索方法、プログラムおよび記録媒体 |
JP2005258678A (ja) * | 2004-03-10 | 2005-09-22 | Nippon Telegr & Teleph Corp <Ntt> | 単語抽出方法、装置、およびプログラム |
JP2006134183A (ja) * | 2004-11-08 | 2006-05-25 | Nippon Telegr & Teleph Corp <Ntt> | 情報分類方法及び装置及びプログラム及びプログラムを格納した記憶媒体 |
JP2006139484A (ja) * | 2004-11-11 | 2006-06-01 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索方法及びそのシステム並びにコンピュータプログラム |
JP2010186370A (ja) * | 2009-02-13 | 2010-08-26 | Nippon Telegr & Teleph Corp <Ntt> | テキスト検索結果ランキング装置、テキスト検索結果ランキング方法、テキスト検索結果ランキングプログラムおよびそのプログラムを記録した記録媒体 |
JP2012128600A (ja) * | 2010-12-14 | 2012-07-05 | Hitachi Ltd | 文書検索装置、文書検索方法及び文書検索プログラム |
Non-Patent Citations (2)
Title |
---|
CSNG200900269137; 吉田 大我、外3名: 'Web検索結果におけるキーワード出現相関の可視化と対話的な質問変換' 電子情報通信学会 第18回データ工学ワークショップ論文集 , 20090709, p.1-8, 電子情報通信学会データ工学研究専門委員会 * |
JPN6014007225; 吉田 大我、外3名: 'Web検索結果におけるキーワード出現相関の可視化と対話的な質問変換' 電子情報通信学会 第18回データ工学ワークショップ論文集 , 20090709, p.1-8, 電子情報通信学会データ工学研究専門委員会 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014119977A (ja) * | 2012-12-17 | 2014-06-30 | Nippon Telegr & Teleph Corp <Ntt> | デイリーワード抽出装置、方法、及びプログラム |
JP2015225492A (ja) * | 2014-05-28 | 2015-12-14 | 日本電信電話株式会社 | ローカル話題語抽出装置、ローカル話題語抽出方法及びローカル話題語抽出プログラム |
US20210326535A1 (en) * | 2020-04-15 | 2021-10-21 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method, Device, Equipment, and Storage Medium for Mining Topic Concept |
KR20210128317A (ko) * | 2020-04-15 | 2021-10-26 | 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. | 토픽 컨셉 마이닝 방법, 장치, 기기 및 저장 매체 |
US11651164B2 (en) * | 2020-04-15 | 2023-05-16 | Beijing Baidu Netcom Science Technology Co., Ltd. | Method, device, equipment, and storage medium for mining topic concept |
KR102557782B1 (ko) * | 2020-04-15 | 2023-07-20 | 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. | 토픽 컨셉 마이닝 방법, 장치, 기기 및 저장 매체 |
Also Published As
Publication number | Publication date |
---|---|
JP5491446B2 (ja) | 2014-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR20160060253A (ko) | 자연어 질의 응답 시스템 및 방법 | |
Imam et al. | An ontology-based summarization system for arabic documents (ossad) | |
EP2831764A1 (en) | Named entity extraction from a block of text | |
WO2016121048A1 (ja) | 文章生成装置及び方法 | |
KR100847376B1 (ko) | 질의어 자동 추출을 이용한 검색 방법 및 장치 | |
Bahassine et al. | Arabic text classification using new stemmer for feature selection and decision trees | |
JP2005301856A (ja) | 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置 | |
JP5491446B2 (ja) | 話題語獲得装置、方法、及びプログラム | |
Shah et al. | DOM-based keyword extraction from web pages | |
Paul et al. | An affix removal stemmer for natural language text in nepali | |
Pouliquen et al. | Automatic construction of multilingual name dictionaries | |
Ullah et al. | Pattern and semantic analysis to improve unsupervised techniques for opinion target identification | |
WO2016024261A1 (en) | Method and system for searching phrase concepts in documents | |
JP4428703B2 (ja) | 情報検索方法及びそのシステム並びにコンピュータプログラム | |
JP5285491B2 (ja) | 情報検索システム、方法及びプログラム、索引作成システム、方法及びプログラム、 | |
JP2008197952A (ja) | テキストセグメンテーション方法,その装置,そのプログラムおよびコンピュータ読み取り可能な記録媒体 | |
Ung et al. | Combination of features for vietnamese news multi-document summarization | |
JP2014191777A (ja) | 語義解析装置、及びプログラム | |
JP2012104051A (ja) | 文書インデックス作成装置 | |
El-Shishtawy et al. | A lemma based evaluator for semitic language text summarization systems | |
Thanadechteemapat et al. | Thai word segmentation for visualization of thai web sites | |
Shah et al. | WebRank: Language-Independent Extraction of Keywords from Webpages | |
JP2018097606A (ja) | 検索プログラム、検索装置、および検索方法 | |
Malumba et al. | AfriWeb: a web search engine for a marginalized language | |
JP2007233724A (ja) | 文書検索システム、その方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130902 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140212 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140225 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140227 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5491446 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |