JP5491446B2 - 話題語獲得装置、方法、及びプログラム - Google Patents
話題語獲得装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP5491446B2 JP5491446B2 JP2011113487A JP2011113487A JP5491446B2 JP 5491446 B2 JP5491446 B2 JP 5491446B2 JP 2011113487 A JP2011113487 A JP 2011113487A JP 2011113487 A JP2011113487 A JP 2011113487A JP 5491446 B2 JP5491446 B2 JP 5491446B2
- Authority
- JP
- Japan
- Prior art keywords
- topic word
- documents
- document
- specific information
- topic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
このカイ2乗値が閾値T2以上である話題語候補を入力された日時に関連があると判定し、話題語として獲得する。それぞれの文書の数は検索インデックス20を参照して検索を行うことにより取得する。なお、日時関連性判定の方法は、話題語候補及び日時の両方を含む文書の数、話題語候補のみを含む文書の数、日時のみを含む文書の数、話題語候補及び日時の両方とも含まない文書の数を用いるものであれば、これに限定されるものではなく、例えば、イエーツの修正を行ったり、フィッシャーの正確確率検定を用いたりしてもよい。
12 文書取得部
14 話題語候補抽出部
16 日時関連話題語獲得部
20 検索インデックス
Claims (5)
- 予め記憶された文書から、入力されたキーワードと日時及び場所の少なくとも一方で表される特定情報とに関連した複数の文書を検索して取得する取得手段と、
前記取得手段により取得された複数の文書から文字、単語、または句のいずれかの字句を話題語候補として抽出する抽出手段と、
前記話題語候補及び前記特定情報の両方を含む前記予め記憶された文書内の文書の数、前記話題語候補のみを含む前記予め記憶された文書内の文書の数、前記特定情報のみを含む前記予め記憶された文書内の文書の数、並びに前記話題語候補及び前記特定情報の両方を含まない前記予め記憶された文書内の文書の数に基づいて、前記話題語候補毎に前記特定情報との関連度を算出し、前記抽出手段により抽出された話題語候補から、前記特定情報との関連度が高い話題語候補を話題語として獲得する獲得手段と、
を含む話題語獲得装置。 - 前記抽出手段は、前記取得手段により取得された複数の文書各々を前記字句で分割し、各字句を先頭とし、かつ各文書の最後尾を末尾とする分割成分を生成し、生成された各分割成分を字句の順に並び替えて配列し、配列した分割成分の隣り合う分割成分の先頭から一致する字句の数を求め、求めた字句の数、及び話題語候補を構成する字句の数に基づいて、前記話題語候補を抽出する請求項1記載の話題語獲得装置。
- 取得手段と、抽出手段と、獲得手段とを含む話題語獲得装置における話題語獲得方法であって、
前記取得手段は、予め記憶された文書から、入力されたキーワードと日時及び場所の少なくとも一方で表される特定情報とに関連した複数の文書を検索して取得し、
前記抽出手段は、前記取得手段により取得された複数の文書から文字、単語、または句のいずれかの字句を話題語候補として抽出し、
前記獲得手段は、前記話題語候補及び前記特定情報の両方を含む前記予め記憶された文書内の文書の数、前記話題語候補のみを含む前記予め記憶された文書内の文書の数、前記特定情報のみを含む前記予め記憶された文書内の文書の数、並びに前記話題語候補及び前記特定情報の両方を含まない前記予め記憶された文書内の文書の数に基づいて、前記話題語候補毎に前記特定情報との関連度を算出し、前記抽出手段により抽出された話題語候補から、前記特定情報との関連度が高い話題語候補を話題語として獲得する
話題語獲得方法。 - 前記抽出手段は、前記取得手段により取得された複数の文書各々を前記字句で分割し、各字句を先頭とし、かつ各文書の最後尾を末尾とする分割成分を生成し、生成された各分割成分を字句の順に並び替えて配列し、配列した分割成分の隣り合う分割成分の先頭から一致する字句の数を求め、求めた字句の数、及び話題語候補を構成する字句の数に基づいて、前記話題語候補を抽出する請求項3記載の話題語獲得方法。
- コンピュータを、請求項1または請求項2記載の話題語獲得装置を構成する各手段として機能させるための話題語獲得プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011113487A JP5491446B2 (ja) | 2011-05-20 | 2011-05-20 | 話題語獲得装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011113487A JP5491446B2 (ja) | 2011-05-20 | 2011-05-20 | 話題語獲得装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012243129A JP2012243129A (ja) | 2012-12-10 |
JP5491446B2 true JP5491446B2 (ja) | 2014-05-14 |
Family
ID=47464762
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011113487A Active JP5491446B2 (ja) | 2011-05-20 | 2011-05-20 | 話題語獲得装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5491446B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5676552B2 (ja) * | 2012-12-17 | 2015-02-25 | 日本電信電話株式会社 | デイリーワード抽出装置、方法、及びプログラム |
JP6059683B2 (ja) * | 2014-05-28 | 2017-01-11 | 日本電信電話株式会社 | ローカル話題語抽出装置、ローカル話題語抽出方法及びローカル話題語抽出プログラム |
CN111522863B (zh) * | 2020-04-15 | 2023-07-25 | 北京百度网讯科技有限公司 | 一种主题概念挖掘方法、装置、设备以及存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4671212B2 (ja) * | 2001-03-26 | 2011-04-13 | 株式会社リコー | 文書検索装置、文書検索方法、プログラムおよび記録媒体 |
JP4298550B2 (ja) * | 2004-03-10 | 2009-07-22 | 日本電信電話株式会社 | 単語抽出方法、装置、およびプログラム |
JP4466334B2 (ja) * | 2004-11-08 | 2010-05-26 | 日本電信電話株式会社 | 情報分類方法及び装置及びプログラム及びプログラムを格納した記憶媒体 |
JP4428703B2 (ja) * | 2004-11-11 | 2010-03-10 | 日本電信電話株式会社 | 情報検索方法及びそのシステム並びにコンピュータプログラム |
JP4921500B2 (ja) * | 2009-02-13 | 2012-04-25 | 日本電信電話株式会社 | テキスト検索結果ランキング装置、テキスト検索結果ランキング方法、テキスト検索結果ランキングプログラムおよびそのプログラムを記録した記録媒体 |
JP5472929B2 (ja) * | 2010-12-14 | 2014-04-16 | 株式会社日立製作所 | 文書検索装置、文書検索方法及び文書検索プログラム |
-
2011
- 2011-05-20 JP JP2011113487A patent/JP5491446B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2012243129A (ja) | 2012-12-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR20160060253A (ko) | 자연어 질의 응답 시스템 및 방법 | |
Imam et al. | An ontology-based summarization system for arabic documents (ossad) | |
EP2831764A1 (en) | Named entity extraction from a block of text | |
KR100847376B1 (ko) | 질의어 자동 추출을 이용한 검색 방법 및 장치 | |
Généreux et al. | Introducing the reference corpus of contemporary portuguese on-line | |
JP2008152522A (ja) | データマイニングシステム、データマイニング方法及びデータ検索システム | |
Bahassine et al. | Arabic text classification using new stemmer for feature selection and decision trees | |
JP2005301856A (ja) | 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置 | |
JP5491446B2 (ja) | 話題語獲得装置、方法、及びプログラム | |
Shah et al. | DOM-based keyword extraction from web pages | |
Paul et al. | An affix removal stemmer for natural language text in nepali | |
Pouliquen et al. | Automatic construction of multilingual name dictionaries | |
JP2009086903A (ja) | 検索サービス装置 | |
JP6106489B2 (ja) | 語義解析装置、及びプログラム | |
WO2016024261A1 (en) | Method and system for searching phrase concepts in documents | |
JP4428703B2 (ja) | 情報検索方法及びそのシステム並びにコンピュータプログラム | |
JP5285491B2 (ja) | 情報検索システム、方法及びプログラム、索引作成システム、方法及びプログラム、 | |
JP2008197952A (ja) | テキストセグメンテーション方法,その装置,そのプログラムおよびコンピュータ読み取り可能な記録媒体 | |
EP3203384A1 (en) | Method, device, and computer program for providing a definition or a translation of a word belonging to a sentence as a function of neighbouring words and of databases | |
JP2012104051A (ja) | 文書インデックス作成装置 | |
El-Shishtawy et al. | A lemma based evaluator for semitic language text summarization systems | |
Thanadechteemapat et al. | Thai word segmentation for visualization of thai web sites | |
KR20190009061A (ko) | 문자 상표 검색 시스템 및 검색 서비스 제공 방법 | |
Shah et al. | WebRank: Language-Independent Extraction of Keywords from Webpages | |
Malumba et al. | AfriWeb: a web search engine for a marginalized language |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130902 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140212 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140225 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140227 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5491446 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |