JP2010224823A - 共起表現抽出装置及び共起表現抽出方法 - Google Patents
共起表現抽出装置及び共起表現抽出方法 Download PDFInfo
- Publication number
- JP2010224823A JP2010224823A JP2009070819A JP2009070819A JP2010224823A JP 2010224823 A JP2010224823 A JP 2010224823A JP 2009070819 A JP2009070819 A JP 2009070819A JP 2009070819 A JP2009070819 A JP 2009070819A JP 2010224823 A JP2010224823 A JP 2010224823A
- Authority
- JP
- Japan
- Prior art keywords
- section
- word
- time
- unit
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
【解決手段】本発明では、ウェブ掲示板の書き込みのように時系列情報を持つテキストデータから抽出される候補語に対して時間変化を基準に特徴区間を付与し、特徴区間と非特徴区間のテキストで差分解析を行うことで、冗長な組合せを大きく削減した共起抽出を実現する装置を提案する。
【選択図】 図1
Description
実際に、従来技術によって得られた図14や図15の結果と本発明によって得られた図12の結果を比較すると、本発明によって、数万にも及ぶ組合せの中から、有効な12組の共起表現が抽出できていることが分かる。
11…時系列テキストデータ格納部
12…頻出候補語抽出部
13…頻出候補単語リスト格納部
14…対象品詞格納部
15…特徴区間付与部
16…特徴区間付き単語リスト格納部
17…特徴区間フィルタ格納部
18…区間差分解析部
19…結果表示部
151…候補単語読込部
152…ヒストグラム生成部
153…フィルタ作用部
Claims (5)
- 記事IDと記事内容と記事が生成された時間情報を含む時系列テキストデータを格納する時系列テキストデータ格納部と、
抽出対象となる単語の品詞情報を格納した対象品詞格納部と、
前記時系列テキストデータ格納部の記事内容から、前記対象品詞格納部に格納された前記品詞情報に該当する単語であって、かつ出現頻度が高い候補語を抽出する頻出候補語抽出部と、
前記頻出候補語抽出部にて抽出された候補語を含むリストを格納する頻出候補単語リスト格納部と、
特徴区間を定義するフィルタを格納した特徴区間フィルタ格納部と、
前記候補語ごとに、前記時間情報に対応する複数の区間において前記時系列テキストデータ中の記事内容中に前記候補語が出現する出現率の変化を示す時系列ヒストグラムを求めるともに、前記時系列ヒストグラム及び前記フィルタを用いて時間的に特徴のある区間を示す区間情報を付与する特徴区間付与部と、
前記特徴区間付与部にて区間情報を付与された各単語を格納する特徴区間付き単語リスト格納部と、
前記特徴区間付き単語リスト格納部にて格納された前記単語および区間情報に基づき、前記時系列テキストデータの区間の間で差分解析を行って、頻出する単語と共に共起する単語を抽出する共起表現と前記共起表現が特徴的に出現している特徴区間を示す共起表現リストを抽出する区間差分解析部と、
前記共起表現リストを表示する結果表示部と、
を具備することを特徴とする共起表現抽出装置。 - 前記区間差分解析部は、選択された単語に付与された特徴区間に含まれるテキストとその他の区間に含まれるテキストを用いて差分解析を行うことを特徴とする請求項1記載の共起表現抽出装置。
- 前記特徴区間付与部は、選択された単語に対して前記フィルタにより決定される基準を満たした区間の時間情報を付与することを特徴とする請求項1の共起表現抽出装置。
- 前記特徴区間付与部は、
前記頻出候補単語リスト格納部の候補語を順番に選択する候補語読込部と、
前記候補語読込部にて選択された各候補語の一定区間ごとの出現率を計算し、前記時系列テキストデータに基づいて、時間情報と出現率からなる時系列ヒストグラムを各候補語に付与するヒストグラム生成部と、
前記フィルタに基づき、前記ヒストグラム生成部にて候補語に付与された時系列ヒストグラムの時間情報と出現率を用いて、前記時系列ヒストグラムから特徴区間を抽出して前記候補語に付与するフィルタ作用部と、
を具備することを特徴とする請求項1記載の共起表現抽出装置。 - 記事IDと記事内容と記事が生成された時間情報を含む時系列テキストデータの記事内容から、抽出対象となる単語の品詞情報に該当する単語であって、かつ出現頻度が高い候補語を抽出する工程と、
前記抽出された候補語ごとに、前記時間情報に対応する複数の区間において、前記時系列テキストデータ中の記事内容中に前記候補語が出現する出現率の変化を示す時系列ヒストグラムを求める工程と、
前記候補語ごとに、前記時系列ヒストグラム及び特徴区間を定義するフィルタを用いて時間的に特徴のある区間を示す区間情報を付与する工程と、
前記区間情報を付与された候補語および区間情報に基づき、前記時系列テキストデータの区間の間で差分解析を行って、頻出する単語と共に共起する単語を抽出する共起表現と前記共起表現が特徴的に出現している特徴区間を示す共起表現リストを抽出する工程と、
前記共起表現リストを表示する工程と、
を具備することを特徴とする共起表現抽出方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009070819A JP5330046B2 (ja) | 2009-03-23 | 2009-03-23 | 共起表現抽出装置及び共起表現抽出方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009070819A JP5330046B2 (ja) | 2009-03-23 | 2009-03-23 | 共起表現抽出装置及び共起表現抽出方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010224823A true JP2010224823A (ja) | 2010-10-07 |
JP5330046B2 JP5330046B2 (ja) | 2013-10-30 |
Family
ID=43041951
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009070819A Active JP5330046B2 (ja) | 2009-03-23 | 2009-03-23 | 共起表現抽出装置及び共起表現抽出方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5330046B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012247923A (ja) * | 2011-05-26 | 2012-12-13 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索方法、情報検索装置及び情報検索プログラム |
JP2014002653A (ja) * | 2012-06-20 | 2014-01-09 | Ntt Docomo Inc | 共起語を特定する装置およびプログラム |
CN107273346A (zh) * | 2016-03-30 | 2017-10-20 | 邻客音公司 | 从文本中对热门见解的可扩展挖掘 |
CN110309260A (zh) * | 2018-03-20 | 2019-10-08 | 株式会社斯库林集团 | 文本挖掘方法、文本挖掘存储介质及文本挖掘装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002245070A (ja) * | 2001-02-20 | 2002-08-30 | Hitachi Ltd | データ表示方法及び装置並びにその処理プログラムを記憶した媒体 |
JP2005352817A (ja) * | 2004-06-11 | 2005-12-22 | Fuji Xerox Co Ltd | 情報処理システム及び情報処理方法、並びにコンピュータ・プログラム |
JP2006119895A (ja) * | 2004-10-21 | 2006-05-11 | Nippon Telegr & Teleph Corp <Ntt> | 情報表示方法及び装置及びプログラム |
JP2008262301A (ja) * | 2007-04-10 | 2008-10-30 | Dainippon Printing Co Ltd | 検索キーワードの流行時期を提示する方法及び検索サーバ |
-
2009
- 2009-03-23 JP JP2009070819A patent/JP5330046B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002245070A (ja) * | 2001-02-20 | 2002-08-30 | Hitachi Ltd | データ表示方法及び装置並びにその処理プログラムを記憶した媒体 |
JP2005352817A (ja) * | 2004-06-11 | 2005-12-22 | Fuji Xerox Co Ltd | 情報処理システム及び情報処理方法、並びにコンピュータ・プログラム |
JP2006119895A (ja) * | 2004-10-21 | 2006-05-11 | Nippon Telegr & Teleph Corp <Ntt> | 情報表示方法及び装置及びプログラム |
JP2008262301A (ja) * | 2007-04-10 | 2008-10-30 | Dainippon Printing Co Ltd | 検索キーワードの流行時期を提示する方法及び検索サーバ |
Non-Patent Citations (4)
Title |
---|
CSNG200500311012; 藤木 稔明: 'document streamにおけるburstの発見' 情報処理学会研究報告 Vol.2004 No.23, 20040305, 85-92ページ, 社団法人情報処理学会 * |
CSNG200700231031; 高見 真也: 'ブログコミュニティにおける話題間共起特性を利用した社会的知識の獲得' データベースとWeb情報システムに関するシンポジウム論文集 Vol.2006 No.16, 20061130, 329-335ページ, 社団法人情報処理学会 * |
JPN6013010944; 藤木 稔明: 'document streamにおけるburstの発見' 情報処理学会研究報告 Vol.2004 No.23, 20040305, 85-92ページ, 社団法人情報処理学会 * |
JPN6013010945; 高見 真也: 'ブログコミュニティにおける話題間共起特性を利用した社会的知識の獲得' データベースとWeb情報システムに関するシンポジウム論文集 Vol.2006 No.16, 20061130, 329-335ページ, 社団法人情報処理学会 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012247923A (ja) * | 2011-05-26 | 2012-12-13 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索方法、情報検索装置及び情報検索プログラム |
JP2014002653A (ja) * | 2012-06-20 | 2014-01-09 | Ntt Docomo Inc | 共起語を特定する装置およびプログラム |
CN107273346A (zh) * | 2016-03-30 | 2017-10-20 | 邻客音公司 | 从文本中对热门见解的可扩展挖掘 |
CN107273346B (zh) * | 2016-03-30 | 2024-06-11 | 微软技术许可有限责任公司 | 从文本中对热门见解的可扩展挖掘 |
CN110309260A (zh) * | 2018-03-20 | 2019-10-08 | 株式会社斯库林集团 | 文本挖掘方法、文本挖掘存储介质及文本挖掘装置 |
Also Published As
Publication number | Publication date |
---|---|
JP5330046B2 (ja) | 2013-10-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7788087B2 (en) | System for processing sentiment-bearing text | |
US9015168B2 (en) | Device and method for generating opinion pairs having sentiment orientation based impact relations | |
US8412650B2 (en) | Device and method and program of text analysis based on change points of time-series signals | |
JP2010009307A (ja) | 特徴語自動学習システム、コンテンツ連動型広告配信コンピュータシステム、検索連動型広告配信コンピュータシステム、およびテキスト分類コンピュータシステム、並びにこれらのコンピュータプログラムおよび方法 | |
JP5442401B2 (ja) | 行動情報抽出システム及び抽出方法 | |
US9015172B2 (en) | Method and subsystem for searching media content within a content-search service system | |
JP2015106340A (ja) | 情報処理装置及び情報処理プログラム | |
JP5330046B2 (ja) | 共起表現抽出装置及び共起表現抽出方法 | |
Baowaly et al. | Predicting the helpfulness of game reviews: A case study on the steam store | |
Nirmala et al. | Twitter data analysis for unemployment crisis | |
JP5942052B1 (ja) | データ分析システム、データ分析方法、およびデータ分析プログラム | |
JP2011118759A (ja) | 購買ステージ判定装置及び購買ステージ判定方法 | |
JP5224532B2 (ja) | 評判情報分類装置及びプログラム | |
JP2006004098A (ja) | 評価情報生成装置、評価情報生成方法、及びプログラム | |
US20090216739A1 (en) | Boosting extraction accuracy by handling training data bias | |
JP2009199341A (ja) | スパム・イベント検出装置及び方法並びにプログラム | |
JP5317638B2 (ja) | Web文書主要コンテンツ抽出装置及びプログラム | |
JP2016162357A (ja) | 商品に対するユーザの感情分析装置及びプログラム | |
JP7427510B2 (ja) | 情報処理装置、情報処理方法およびプログラム | |
JP2008197952A (ja) | テキストセグメンテーション方法,その装置,そのプログラムおよびコンピュータ読み取り可能な記録媒体 | |
JP2007172179A (ja) | 意見抽出装置、意見抽出方法、および意見抽出プログラム | |
Schmidt et al. | Towards the analysis of fan fictions in German language: Exploration of a corpus from the platform Archive of Our Own | |
JP5419906B2 (ja) | 主題抽出装置、方法、及びプログラム | |
JP4538758B2 (ja) | 情報処理装置および方法、プログラム、並びに記録媒体 | |
JP2017182363A (ja) | 情報処理装置、情報処理方法および情報処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110928 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110928 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20110928 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20111125 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20111205 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20120106 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130228 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130308 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130501 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130702 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130725 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5330046 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313114 Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |