JP2004086534A - 時系列情報からの固有情報抽出方法および装置,並びに時系列情報からの固有情報抽出プログラムおよびそのプログラムを記録した記録媒体 - Google Patents

時系列情報からの固有情報抽出方法および装置,並びに時系列情報からの固有情報抽出プログラムおよびそのプログラムを記録した記録媒体 Download PDF

Info

Publication number
JP2004086534A
JP2004086534A JP2002246328A JP2002246328A JP2004086534A JP 2004086534 A JP2004086534 A JP 2004086534A JP 2002246328 A JP2002246328 A JP 2002246328A JP 2002246328 A JP2002246328 A JP 2002246328A JP 2004086534 A JP2004086534 A JP 2004086534A
Authority
JP
Japan
Prior art keywords
information
time
topic
documents
extracting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002246328A
Other languages
English (en)
Other versions
JP4130754B2 (ja
Inventor
Hiroharu Kokuryo
國領 弘治
Yutaka Sasaki
佐々木 裕
Eisaku Maeda
前田 英作
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2002246328A priority Critical patent/JP4130754B2/ja
Publication of JP2004086534A publication Critical patent/JP2004086534A/ja
Application granted granted Critical
Publication of JP4130754B2 publication Critical patent/JP4130754B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】話題発生時の正確な時間情報を得て,時間情報毎に特徴語を提示することで,大量文書の効率的な時系列閲覧を可能とする。
【解決手段】本発明は,話題語を受け取ると,話題語で文書集合を検索し話題語を含む文書を得る。続いて,予定情報や過去情報が記述された文書を排除し,残った文書の作成日などから話題発生時の時間情報を得る。同時に,文書中から人名や場所などの固有表現を得る。そして,時間情報から得た月や日を1単位とし,話題の規模を示す単位毎の文書数を得て,単位毎の出現文書数や単位毎の出現数から話題を特徴付ける固有表現とそのタイプを得る。これら文書数や固有表現・タイプを可視化し時系列表示する。
【選択図】  図1

Description

【0001】
【発明の属する技術分野】
本発明は,時系列情報からの固有情報抽出方法および装置,並びに固有情報抽出プログラムおよびそのプログラムを記録した記録媒体であって,大量文書から得た特定の話題に関する情報の可視化に関するものであり,情報検索の検索結果表示などでユーザ支援に用いられる。
【0002】
【従来の技術】
大量文書から特定の話題に関する情報を集める情報検索が盛んに行われている。大量文書から得た大量の検索結果を効率よく閲覧するために,検索結果を特徴毎に分類して提示する技術がある。
【0003】
従来提案されてきた検索結果を分類提示する技術は,次のような手順で行われている。まず,文書中に最も多く現れる固有表現などを,その文書を特徴付ける特徴語として抽出する。さらに,同じ特徴語を持つ文書を1グループとし,特徴語毎に数個のグループを作る。ユーザは大量に提供される検索結果のうち,特定の特徴語のグループだけを閲覧すればよく,効率の良い閲覧が可能になる。
【0004】
しかしながら従来技術では,時間情報による分類を行っていないため,検索結果を時系列で閲覧できない。仮に作成日などの時間情報で分類したとしても,予定情報や過去情報など時差を持った文書があると,正確な時系列にならず混乱を招く。また,時間の経過と共に特徴語が変化していくことから,複数の特徴語のグループを閲覧することになる。
【0005】
【発明が解決しようとする課題】
本発明の目的は,上記従来技術の問題点を解決し,話題発生時の正確な時間情報を得て,時間情報毎に特徴語を提示することで,大量文書の効率的な時系列閲覧を可能とすることにある。
【0006】
【課題を解決するための手段】
上記課題を解決するために,本発明は,話題語を含む文書を検索し,話題発生時の時間情報を抽出し,文書集合中の固有表現を抽出し,話題の規模や話題を特徴付ける固有表現などの情報を時間情報毎に生成し,話題の規模や固有表現を可視化して時系列表示するように構成する。
【0007】
このように構成される本発明では,話題語を受け取ると,話題語で文書集合を検索し話題語を含む文書を得る。続いて,予定情報や過去情報が記述された文書を排除し,残った文書の作成日などから話題発生時の時間情報を得る。同時に,文書中から人名や場所などの固有表現を得る。
【0008】
時間情報から得た月や日を1単位とし,話題の規模を示す単位毎の文書数を得て,単位毎の出現文書数や単位毎の出現数から話題を特徴付ける固有表現とそのタイプを得る。これら文書数や固有表現・タイプを可視化し時系列表示することで,大量の文書をより効率的に閲覧することが可能となる。
【0009】
本発明を用いることにより,予定情報や過去情報が記述された文書を除くことで話題発生時のより正確な時間情報を得て,話題の規模と特徴語である固有表現を時間情報毎に提示することで,話題の集中する時期や特徴語の変化が容易に確認でき,大量文書の効率的な時系列閲覧が可能となる。
【0010】
【発明の実施の形態】
以下,本発明の実施の形態を図を用いて説明する。図1は,本発明の固有情報抽出方法を適用した時系列ブラウジング装置の構成の一例を示す図である。図1において,時系列ブラウジング装置1は,利用者が入力した話題語を受け取る話題語入力手段11と,話題語を含む文書を検索する関連文書検索手段12と,話題発生時の時間情報を抽出する話題発生時間抽出手段13と,文書集合中の固有表現を抽出する固有表現抽出手段14と,話題の規模や話題を特徴付ける固有表現などの情報を時間情報毎に生成する時系列情報生成手段15と,話題の規模や固有表現を可視化し時系列表示する情報可視化手段16と,文書集合が格納される文書集合格納手段17とを有する。
【0011】
上記構成からなる実施形態の処理内容を図2のフローチャートを用いて説明する。まず,話題語入力手段11は話題語を受け取ると,それを関連文書検索手段12に渡す。関連文書検索手段12では,話題語で文書集合格納手段17に格納されている文書集合を検索し話題語を含む文書を得る(ステップS1)。そして,これらの文書を話題発生時間抽出手段13へ渡す。話題発生時間抽出手段13では,速報情報が記述された文書を抽出し,文書の作成日などから話題発生時の時間情報を得る(ステップS2)。これら時間情報と文書を固有表現抽出手段14へ渡す。
【0012】
固有表現抽出手段14では,文書集合中から人名や場所などの固有表現を抽出する(ステップS3)。固有表現とそのタイプ(人名や場所など)および時間情報を時系列情報生成手段15へ渡す。時系列情報生成手段15では,時間情報から得た月や日を1単位とし,話題の規模を示す単位毎の文書数を得る。また,単位毎の出現文書数や単位毎の出現数から話題を特徴付ける固有表現とそのタイプを得る(ステップS4)。これら出現文書数や固有表現・タイプを情報可視化手段16へ渡す。情報可視化手段16では,グラフ化した文書数及びタイプ毎に分類した固有表現を可視化し時系列表示する(ステップS5)。
【0013】
以上の処理は,コンピュータとソフトウェアプログラムとによって実現することができ,そのプログラムは,コンピュータが読み取り可能な可搬媒体メモリ,半導体メモリ,ハードディスク等の適当な記録媒体に格納して,そこから読み出すことによりコンピュータに実行させることができる。
【0014】
次に,本実施形態の具体的動作について説明する。以下では,図3に示す話題語「スペースシャトル」から,図8に示す出力を得る例を説明する。本実施例では説明を容易にするため,1つの話題語を記述しているが,文書集合の検索時にAND検索やOR検索を指定することで,複数の話題語に対しても時系列ブラウジングを行うことができる。
【0015】
話題語入力手段11は,図3に示す話題語「スペースシャトル」を受け取り,それを関連文書検索手段12に渡す。関連文書検索手段12では,文書集合格納手段17に格納されている文書の中から,話題語「スペースシャトル」を含む文書を検索し,話題発生時間抽出手段13に渡す。本実施例では,新聞記事数年分の文書が文書集合格納手段17に格納されている。これを検索した結果,図4の関連文書検索結果に示す話題語「スペースシャトル」を文書中に含む5文書(記事番号920828AAA〜940714EEE)が,関連文書として話題発生時間抽出手段13に渡される。
【0016】
話題発生時間抽出手段13では,関連文書を速報記事とその他に分類し速報記事の作成日から話題発生時の時間情報を得る。速報記事とは,話題発生後すぐに書かれたもので,数日の誤差はあるが発行日を時間情報として使える記事をいう。ここでは速報記事とその他の判断基準として文書の1文目の文末表現を用いる。本実施例では,「分かった」「行った」「決定」など話題が発生してすぐに書かれたと判断できるものを速報記事として用い,「行われる」など数日から数ヶ月先の予定を書いたもの,及び「だった」「から1年」など過去の話題を取上げたものは排除する。
【0017】
本実施例では,図4の関連文書から図5のような時間情報が得られ,図6のような速報記事が得られたとする。時間情報として作成日のみを用いているが,記事中の時間情報を用いて正式な話題発生時の時間情報に修正しても良い。これらの結果は,固有表現抽出手段14へと渡される。
【0018】
固有表現抽出手段14では,単語や単語の品詞情報および固有表現抽出ルールから文書中の固有表現とそのタイプを得る。固有表現とは,周期的に現れる話題を特徴付けるキーワードであり,そのタイプには,人名,人工物名,地名,日時,組織などがある。ここで固有表現抽出ルールについては,磯崎秀樹氏が提唱するルール(固有表現抽出のための可読性の高い規則の自動生成,情報処理学会,自然言語処理研究会,2000)などを用いることができる。
【0019】
本実施例では,図6の文書から図7のような固有表現とそのタイプが得られたとする。これらの結果は,時系列情報生成手段15へと渡される。時系列情報生成手段15では,時間情報から得た年月を1単位とし,話題の規模を示す単位毎の文書数を得る。また,単位毎の出現文書数や単位毎の出現数から話題を特徴付ける固有表現とそのタイプを得る。ここでは単位毎の出現文書数が多い固有表現ほど特徴が強いとし,単位毎の出現文書数が同じ場合は単位毎の出現数が多いほど特徴が強いとする。この際,速報記事全体に平均的に現れる固有表現は特徴とならないため排除する。
【0020】
本実施例では,図7の時間情報および固有表現の出現文書数・出現数から図8のような年月毎の文書数と固有表現・タイプが得られ,速報記事全体に現れる「米」は排除されたとする。また,出現数=1の固有表現についても特徴とならないことから排除し,図8に示す時系列情報から図9に示すような情報が得られたとする。固有表現の排除に関する閾値は特に定めるものでなく,文書数やユーザ希望を考慮した他の値でもよい。これらの結果は,情報可視化手段16へと渡される。情報可視化手段16では,グラフ化した文書数及び補助情報としてタイプ毎に分類した固有表現を可視化し時系列表示する。
【0021】
本実施例では,図9の時系列情報から図10のような表示画面が得られたとする。グラフの種類は図10のような縦棒のグラフである必要はなく,横棒や折れ線など他のグラフでもよい。固有表現とそのタイプについても図10のような表示方法である必要はなく,別画面に表示するなど他の表示方法でもよい。
【0022】
図11は,本発明を日本語質問応答システムに適用した例であって,時系列ブラウジングによって回答候補を表示した例を示している。
【0023】
この例から明らかなように,新聞記事が持つ時間情報に沿って,「APEC首脳会議」という特定のトピックに関する情報を可視化し,PER(人名),ART(人工物名),LOC(地名,場所),ORG(組織),DAT(日時)などの固有表現を用いて記事のエッセンスが提示されている。これによって,開催地と開催国および出席した各国首脳の名前等が特徴キーワードとして明示され,効率的な時系列閲覧が可能になっている。また,記事数が「*」を用いた棒グラフによって示されている。これから,毎年11月にピークが現れることがわかる。
【0024】
【発明の効果】
以上説明したように本発明では,話題の規模と特徴語である固有表現を時間情報毎に提示することで,話題の集中する時期や特徴語の変化が容易に確認でき,大量文書の効率的な時系列閲覧が可能である。また,例えば予定情報や過去情報が記述された文書を除くことで話題発生時のより正確な時間情報を得ることが可能である。
【図面の簡単な説明】
【図1】本発明を適用した時系列ブラウジング装置の構成の一例を示す図である。
【図2】本発明の時系列ブラウジング処理フローの一例を示す図である。
【図3】話題語の一例を示す図である。
【図4】関連文書検索結果の一例を示す図である。
【図5】話題発生時の時間情報の一例を示す図である。
【図6】速報記事の一例を示す図である。
【図7】固有表現とタイプの一例を示す図である。
【図8】時系列情報の一例を示す図である。
【図9】時系列情報の一例を示す図である。
【図10】時系列表示の一例を示す図である。
【図11】日本語質問応答システムに適用した時系列ブラウジングの出力の一例を示す図である。
【符号の説明】
1 時系列ブラウジング装置
11 話題語入力手段
12 関連文書検索手段
13 話題発生時間抽出手段
14 固有表現抽出手段
15 時系列情報生成手段
16 情報可視化手段
17 文書集合格納手段

Claims (6)

  1. 大量文書から得た特定の話題に関する情報を時間情報に沿って抽出し出力する固有情報抽出方法であって,
    話題語を含む文書を検索する過程と,
    前記文書の検索結果から話題発生時の時間情報を抽出する過程と,
    前記文書の検索結果から固有表現を抽出する過程と,
    話題の規模および話題を特徴付ける固有表現に関する情報を時間情報毎に生成する過程とを有する
    ことを特徴とする時系列情報からの固有情報抽出方法。
  2. 請求項1記載の時系列情報からの固有情報抽出方法において,
    前記話題の規模および話題を特徴付ける固有表現に関する情報を可視化し時系列表示する過程を有する
    ことを特徴とする時系列情報からの固有情報抽出方法。
  3. 大量文書から得た特定の話題に関する情報を時間情報に沿って抽出し出力する固有情報抽出装置であって,
    話題語を含む文書を検索する手段と,
    前記文書の検索結果から話題発生時の時間情報を抽出する手段と,
    前記文書の検索結果から固有表現を抽出する手段と,
    話題の規模および話題を特徴付ける固有表現に関する情報を時間情報毎に生成する手段とを有する
    ことを特徴とする時系列情報からの固有情報抽出装置。
  4. 請求項3記載の時系列情報からの固有情報抽出装置において,
    前記話題の規模および話題を特徴付ける固有表現に関する情報を可視化し時系列表示する手段を備える
    ことを特徴とする時系列情報からの固有情報抽出装置。
  5. 請求項3または請求項4記載の時系列情報からの固有情報抽出装置をコンピュータによって実現するための時系列情報からの固有情報抽出プログラム。
  6. 請求項3または請求項4記載の時系列情報からの固有情報抽出装置をコンピュータによって実現するための時系列情報からの固有情報抽出プログラムを記録した記録媒体。
JP2002246328A 2002-08-27 2002-08-27 時系列情報からの固有情報抽出装置,並びに時系列情報からの固有情報抽出プログラムおよびそのプログラムを記録した記録媒体 Expired - Fee Related JP4130754B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002246328A JP4130754B2 (ja) 2002-08-27 2002-08-27 時系列情報からの固有情報抽出装置,並びに時系列情報からの固有情報抽出プログラムおよびそのプログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002246328A JP4130754B2 (ja) 2002-08-27 2002-08-27 時系列情報からの固有情報抽出装置,並びに時系列情報からの固有情報抽出プログラムおよびそのプログラムを記録した記録媒体

Publications (2)

Publication Number Publication Date
JP2004086534A true JP2004086534A (ja) 2004-03-18
JP4130754B2 JP4130754B2 (ja) 2008-08-06

Family

ID=32054252

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002246328A Expired - Fee Related JP4130754B2 (ja) 2002-08-27 2002-08-27 時系列情報からの固有情報抽出装置,並びに時系列情報からの固有情報抽出プログラムおよびそのプログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP4130754B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006134682A1 (ja) * 2005-06-15 2006-12-21 Matsushita Electric Industrial Co., Ltd. 固有表現抽出装置、方法、及びプログラム
JP2010231634A (ja) * 2009-03-27 2010-10-14 Fujitsu Ltd 順序決定プログラム、順序決定方法、および情報処理装置
JP2012247923A (ja) * 2011-05-26 2012-12-13 Nippon Telegr & Teleph Corp <Ntt> 情報検索方法、情報検索装置及び情報検索プログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006134682A1 (ja) * 2005-06-15 2006-12-21 Matsushita Electric Industrial Co., Ltd. 固有表現抽出装置、方法、及びプログラム
US7761437B2 (en) 2005-06-15 2010-07-20 Panasonic Corporation Named entity extracting apparatus, method, and program
JP2010231634A (ja) * 2009-03-27 2010-10-14 Fujitsu Ltd 順序決定プログラム、順序決定方法、および情報処理装置
JP2012247923A (ja) * 2011-05-26 2012-12-13 Nippon Telegr & Teleph Corp <Ntt> 情報検索方法、情報検索装置及び情報検索プログラム

Also Published As

Publication number Publication date
JP4130754B2 (ja) 2008-08-06

Similar Documents

Publication Publication Date Title
US9015153B1 (en) Topic discovery, summary generation, automatic tagging, and search indexing for segments of a document
US7331517B2 (en) Article reader program, article management method and article reader
JP5238418B2 (ja) 情報推薦装置および情報推薦方法
US8868609B2 (en) Tagging method and apparatus based on structured data set
US9489370B2 (en) Synonym relation determination device, synonym relation determination method, and program thereof
EP2159715A2 (en) System and method for providing a topic-directed search
US20060190435A1 (en) Document retrieval using behavioral attributes
US20120124029A1 (en) Cross media knowledge storage, management and information discovery and retrieval
JP2011048821A (ja) 相対頻度に基づくフレーズマイニングのためのシステム、方法、及び装置
JP2008033687A (ja) 検索クエリー作成装置
Jatowt et al. Digital history meets Wikipedia: Analyzing historical persons in Wikipedia
KR20120130196A (ko) 정보 엔터티들의 자동 연관
JP4130754B2 (ja) 時系列情報からの固有情報抽出装置,並びに時系列情報からの固有情報抽出プログラムおよびそのプログラムを記録した記録媒体
JP2004151855A (ja) 電子文書検索システム
JP5291351B2 (ja) 評価表現抽出方法、評価表現抽出装置、および、評価表現抽出プログラム
JP2006302024A (ja) 関連文書表示方法及びプログラム
JP4719921B2 (ja) データ表示装置およびデータ表示プログラム
Liang et al. Detecting novel business blogs
US20130124531A1 (en) Systems for extracting relevant and frequent key words from texts and their presentation in an auto-complete function of a search service
JP2006065366A (ja) キーワード分類装置およびその方法、端末装置ならびにプログラム
JP2008065468A (ja) テキスト多重分類装置、テキストを多重分類する方法、プログラムおよび記憶媒体
US20130304720A1 (en) Methods and Apparatus for Presenting Search Results with Indication of Relative Position of Search Terms
Sariki et al. A book recommendation system based on named entities
EP3040932A1 (en) A method for tracking discussion in social media
CN107679154B (zh) 一种基于时间轴的历史题解题方法、系统及介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040728

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070717

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070914

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20070914

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071009

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071127

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080520

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080523

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110530

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110530

Year of fee payment: 3

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D02

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120530

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees