JP2013225244A - 話題抽出装置及び話題抽出方法 - Google Patents
話題抽出装置及び話題抽出方法 Download PDFInfo
- Publication number
- JP2013225244A JP2013225244A JP2012097703A JP2012097703A JP2013225244A JP 2013225244 A JP2013225244 A JP 2013225244A JP 2012097703 A JP2012097703 A JP 2012097703A JP 2012097703 A JP2012097703 A JP 2012097703A JP 2013225244 A JP2013225244 A JP 2013225244A
- Authority
- JP
- Japan
- Prior art keywords
- character string
- topic
- word
- determined
- indicating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】 話題抽出装置10は、複数の文書から話題を示す単語を抽出する構文解析部13と、単語が盛り上がりを判定する対象期間から遡った判断期間に新規に盛り上がった話題を示す単語として判定されたか否かを判断して、当該判断に応じた基準期間を設定して、対象期間及び基準期間での単語の出現頻度をカウントする盛り上がり値生成部16と、当該出現頻度に基づいて単語が盛り上がった話題を示す単語であるか否かを判定するグルーピング部18とを備える。
【選択図】 図1
Description
ここで、wは判定対象の単語、tgt(w)は当該単語の対象期間における出現頻度、c(w)は当該単語の基準期間における出現頻度、kは盛り上がり値生成部16に予め記憶された正の値であるスムージングパラメータである。算出の都合上対数を取っているが、logは単調増加関数であり、対数を取っても盛り上がり値の順序(ランキング)には影響しない。スムージングパラメータは、比で盛り上がり値を算出している関係上、出現頻度の極端に少ない単語が盛り上がっていると判定されるのを防ぐために用いる。但し、必ずしもスムージングパラメータを導入する必要はない。図7(a)に対数尤度比を計算する際に用いる値を概念的に示す。
ここで、tgtn(w)は当該単語の、新規に盛り上がっていると判定されてからn回目の対象期間における出現頻度、tgt1(w)は当該単語の、新規に盛り上がっていると判定された際の対象期間における出現頻度、c(w)は新規に盛り上がっていると判定された際の当該単語の基準期間における出現頻度である。図7(b)にこの場合の対数尤度比を計算する際に用いる値を概念的に示す。
この式(3)は2つの単語wとw´との共起度を算出するものである。wの出現する文書の数をa、w´の出現する文書の数をb、wとw´とが両方(同時に)出現する文書の数をcとしている。
Claims (10)
- 時刻に対応付けられた複数のテキストデータを取得するテキスト取得手段と、
前記テキスト取得手段によって取得されたテキストデータから、話題を示す文字列を抽出する文字列抽出手段と、
前記文字列抽出手段によって抽出された文字列が、盛り上がりを判定する時間枠から予め設定された時間遡った時刻までの判断期間に新規に盛り上がった話題を示す文字列として判定されたか否かを判断する判断手段と、
前記判断手段によって、前記文字列が新規に盛り上がった話題を示す文字列として判定されなかったものと判断された場合には、前記テキストデータに対応付けられた時刻を参照して、前記時間枠での前記複数のテキストデータにおける当該文字列の出現頻度と前記時間枠から予め設定された時間遡った時刻までの参照期間での当該文字列の出現頻度とに基づいて、当該時間枠において当該文字列が新規に盛り上がった話題を示す文字列であるか否かを判定すると共に、前記判断手段によって、当該文字列が新規に盛り上がった話題を示す文字列として判定されたものと判断された場合には、前記テキストデータに対応付けられた時刻を参照して、前記時間枠での前記複数のテキストデータにおける当該文字列の出現頻度と当該文字列が新規に盛り上がった話題を示す文字列として判定された際の前記参照期間での当該文字列の出現頻度とに基づいて、当該時間枠において当該文字列が新規ではなく盛り上がった話題を示す文字列であるか否かを判定する盛り上がり判定手段と、
を備える話題抽出装置。 - 前記盛り上がり判定手段は、前記時間枠での前記出現頻度と前記時間枠及び前記参照期間での前記出現頻度との比から盛り上がり値を算出して、盛り上がり値に基づいて前記文字列が盛り上がった話題を示す文字列であるか否かを判定する請求項1に記載の話題抽出装置。
- 前記盛り上がり判定手段は、前記盛り上がり値の順に予め設定された数の文字列を盛り上がった話題を示す文字列と判定する請求項2に記載の話題抽出装置。
- 前記盛り上がり判定手段は、前記時間枠において前記新規ではなく盛り上がった話題を示す文字列と判定する文字列の数を制限する請求項1〜3の何れか一項に記載の話題抽出装置。
- 前記盛り上がり判定手段は、前記文字列をグルーピングして、グルーピングされた文字列に対して盛り上がった話題を示す文字列であるか否かを判定する請求項1〜4の何れか一項に記載の話題抽出装置。
- 前記盛り上がり判定手段は、2つの文字列又は文字列の読みについて、一方が他方に少なくとも部分一致しているか否かを判断することによってグルーピングを行う請求項5に記載の話題抽出装置。
- 前記盛り上がり判定手段は、一方の文字列を含むテキストデータの数、他方の文字列を含むテキストデータの数、及び両方の文字列を含むテキストデータの数から2つの文字列同士の共起度を算出して、共起度に基づいてグルーピングを行う請求項5又は6に記載の話題抽出装置。
- 前記文字列抽出手段によって抽出された文字列と抽出元のテキストデータとの対応関係を示す情報を格納するテキストインデックス格納手段と、
検索クエリを入力して、当該検索クエリに合致する文字列を検索して、前記テキストインデックス格納手段に格納された情報を参照して、当該検索クエリに合致する文字列を含むテキストデータを示す情報を出力する検索手段と、
を更に備える請求項1〜7の何れか一項に記載の話題抽出装置。 - 前記テキスト取得手段によって取得されたテキストデータをフィルタリングして、前記文字列抽出手段によって文字列が抽出されるテキストデータから除外するフィルタリング手段を更に備える請求項1〜8の何れか一項に記載の話題抽出装置。
- 時刻に対応付けられた複数のテキストデータを取得するテキスト取得ステップと、
前記テキスト取得ステップにおいて取得されたテキストデータから、話題を示す文字列を抽出する文字列抽出ステップと、
前記文字列抽出ステップにおいて抽出された文字列が、盛り上がりを判定する時間枠から予め設定された時間遡った時刻までの判断期間に新規に盛り上がった話題を示す文字列として判定されたか否かを判断する判断ステップと、
前記判断ステップにおいて、前記文字列が新規に盛り上がった話題を示す文字列として判定されなかったものと判断された場合には、前記テキストデータに対応付けられた時刻を参照して、前記時間枠での前記複数のテキストデータにおける当該文字列の出現頻度と前記時間枠から予め設定された時間遡った時刻までの参照期間での当該文字列の出現頻度とに基づいて、当該時間枠において当該文字列が新規に盛り上がった話題を示す文字列であるか否かを判定すると共に、前記判断ステップにおいて、当該文字列が新規に盛り上がった話題を示す文字列として判定されたものと判断された場合には、前記テキストデータに対応付けられた時刻を参照して、前記時間枠での前記複数のテキストデータにおける当該文字列の出現頻度と当該文字列が新規に盛り上がった話題を示す文字列として判定された際の前記参照期間での当該文字列の出現頻度とに基づいて、当該時間枠において当該文字列が新規ではなく盛り上がった話題を示す文字列であるか否かを判定する盛り上がり判定ステップと、
を含む話題抽出方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012097703A JP5512737B2 (ja) | 2012-04-23 | 2012-04-23 | 話題抽出装置及び話題抽出方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012097703A JP5512737B2 (ja) | 2012-04-23 | 2012-04-23 | 話題抽出装置及び話題抽出方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013225244A true JP2013225244A (ja) | 2013-10-31 |
JP5512737B2 JP5512737B2 (ja) | 2014-06-04 |
Family
ID=49595257
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012097703A Active JP5512737B2 (ja) | 2012-04-23 | 2012-04-23 | 話題抽出装置及び話題抽出方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5512737B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015102959A (ja) * | 2013-11-22 | 2015-06-04 | 株式会社ユニバーサルエンターテインメント | 情報更新装置、情報更新方法、プログラム |
KR101702559B1 (ko) * | 2015-08-04 | 2017-02-03 | 연세대학교 산학협력단 | 실시간 이슈 탐지를 위한 일반 및 단기간 단어 사전 생성 및 단어 매칭 기법 및 그 장치 |
CN107273346A (zh) * | 2016-03-30 | 2017-10-20 | 邻客音公司 | 从文本中对热门见解的可扩展挖掘 |
CN112069394A (zh) * | 2020-08-14 | 2020-12-11 | 上海风秩科技有限公司 | 文本信息的挖掘方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006072840A (ja) * | 2004-09-03 | 2006-03-16 | Nippon Telegr & Teleph Corp <Ntt> | 予測型話題性評価方法及び装置及びプログラム |
JP2009116440A (ja) * | 2007-11-02 | 2009-05-28 | Yahoo Japan Corp | 情報伝播抽出装置および情報伝播抽出方法 |
-
2012
- 2012-04-23 JP JP2012097703A patent/JP5512737B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006072840A (ja) * | 2004-09-03 | 2006-03-16 | Nippon Telegr & Teleph Corp <Ntt> | 予測型話題性評価方法及び装置及びプログラム |
JP2009116440A (ja) * | 2007-11-02 | 2009-05-28 | Yahoo Japan Corp | 情報伝播抽出装置および情報伝播抽出方法 |
Non-Patent Citations (2)
Title |
---|
CSNH201100126002; 鳥居 大祐 他: 'Twitter連携によるリアルタイム検索システムの開発' NTT DOCOMOテクニカル・ジャーナル 第19巻 第4号, 20120101, pp.16-20, 社団法人電気通信協会 * |
JPN6013033744; 鳥居 大祐 他: 'Twitter連携によるリアルタイム検索システムの開発' NTT DOCOMOテクニカル・ジャーナル 第19巻 第4号, 20120101, pp.16-20, 社団法人電気通信協会 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015102959A (ja) * | 2013-11-22 | 2015-06-04 | 株式会社ユニバーサルエンターテインメント | 情報更新装置、情報更新方法、プログラム |
KR101702559B1 (ko) * | 2015-08-04 | 2017-02-03 | 연세대학교 산학협력단 | 실시간 이슈 탐지를 위한 일반 및 단기간 단어 사전 생성 및 단어 매칭 기법 및 그 장치 |
CN107273346A (zh) * | 2016-03-30 | 2017-10-20 | 邻客音公司 | 从文本中对热门见解的可扩展挖掘 |
CN107273346B (zh) * | 2016-03-30 | 2024-06-11 | 微软技术许可有限责任公司 | 从文本中对热门见解的可扩展挖掘 |
CN112069394A (zh) * | 2020-08-14 | 2020-12-11 | 上海风秩科技有限公司 | 文本信息的挖掘方法及装置 |
CN112069394B (zh) * | 2020-08-14 | 2023-09-29 | 上海风秩科技有限公司 | 文本信息的挖掘方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
JP5512737B2 (ja) | 2014-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10776424B2 (en) | System and method for identifying and ranking trending named entities in digital content objects | |
US10394864B2 (en) | Method and server for extracting topic and evaluating suitability of the extracted topic | |
CN103886034B (zh) | 一种建立索引及匹配用户的查询输入信息的方法和设备 | |
US9286619B2 (en) | System and method for generating social summaries | |
KR101702020B1 (ko) | 온라인 소셜 네트워크용 클라이언트-측 검색 템플릿 | |
US9063983B1 (en) | Detecting name-triggering queries | |
CN106570144A (zh) | 推荐信息的方法和装置 | |
CN103546446B (zh) | 一种钓鱼网站的检测方法、装置和终端 | |
US20120066195A1 (en) | Search assist powered by session analysis | |
US20190261863A1 (en) | System and method for providing an indication of the well-being of an individual | |
KR101491628B1 (ko) | 블로그에서 대중의 감성 변화에 영향을 미치는 키워드 추출 방법, 장치 및 시스템 | |
CN103927297A (zh) | 基于证据理论的中文微博可信度评估方法 | |
JP5512737B2 (ja) | 話題抽出装置及び話題抽出方法 | |
US20130066894A1 (en) | Information processing system, information processing method, program, and non-transitory information storage medium | |
KR20190122334A (ko) | 소셜 네트워크 시스템 기반의 질의 응답 서비스 제공을 위한 전문가 추천 방법 및 전문가 추천 시스템 | |
KR20180011261A (ko) | 검색 처리 방법 및 장치 | |
JP5731940B2 (ja) | テキスト位置判定装置及びテキスト位置判定方法 | |
CN108959364B (zh) | 一种社交媒体事件级新闻中新闻媒体影响力评估方法 | |
CN106844466A (zh) | 事件脉络生成方法和装置 | |
JP2013054606A (ja) | 文書検索装置及び方法及びプログラム | |
Iserman et al. | Dictionaries and decision trees for the 2019 CLPsych shared task | |
JP6279354B2 (ja) | 話題特定装置、および話題特定方法 | |
TWI534640B (zh) | Chinese network information monitoring and analysis system and its method | |
KR101271171B1 (ko) | 사용자가 선정한 키워드에 기반한 콘텐츠 관련정보 제공장치 및 방법 | |
JP5548243B2 (ja) | イベント発生地点抽出装置、方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130902 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140225 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140326 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5512737 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |