JP4130754B2 - 時系列情報からの固有情報抽出装置,並びに時系列情報からの固有情報抽出プログラムおよびそのプログラムを記録した記録媒体 - Google Patents
時系列情報からの固有情報抽出装置,並びに時系列情報からの固有情報抽出プログラムおよびそのプログラムを記録した記録媒体 Download PDFInfo
- Publication number
- JP4130754B2 JP4130754B2 JP2002246328A JP2002246328A JP4130754B2 JP 4130754 B2 JP4130754 B2 JP 4130754B2 JP 2002246328 A JP2002246328 A JP 2002246328A JP 2002246328 A JP2002246328 A JP 2002246328A JP 4130754 B2 JP4130754 B2 JP 4130754B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- time
- topic
- extracting
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【発明の属する技術分野】
本発明は,時系列情報からの固有情報抽出装置,並びに固有情報抽出プログラムおよびそのプログラムを記録した記録媒体であって,大量文書から得た特定の話題に関する情報の可視化に関するものであり,情報検索の検索結果表示などでユーザ支援に用いられる。
【0002】
【従来の技術】
大量文書から特定の話題に関する情報を集める情報検索が盛んに行われている。大量文書から得た大量の検索結果を効率よく閲覧するために,検索結果を特徴毎に分類して提示する技術がある。
【0003】
従来提案されてきた検索結果を分類提示する技術は,次のような手順で行われている。まず,文書中に最も多く現れる固有表現などを,その文書を特徴付ける特徴語として抽出する。さらに,同じ特徴語を持つ文書を1グループとし,特徴語毎に数個のグループを作る。ユーザは大量に提供される検索結果のうち,特定の特徴語のグループだけを閲覧すればよく,効率の良い閲覧が可能になる。
【0004】
しかしながら従来技術では,時間情報による分類を行っていないため,検索結果を時系列で閲覧できない。仮に作成日などの時間情報で分類したとしても,予定情報や過去情報など時差を持った文書があると,正確な時系列にならず混乱を招く。また,時間の経過と共に特徴語が変化していくことから,複数の特徴語のグループを閲覧することになる。
【0005】
【発明が解決しようとする課題】
本発明の目的は,上記従来技術の問題点を解決し,話題発生時の正確な時間情報を得て,時間情報毎に特徴語を提示することで,大量文書の効率的な時系列閲覧を可能とすることにある。
【0006】
【課題を解決するための手段】
上記課題を解決するために,本発明は,話題語を含む文書を検索し,検索結果中の速報記事から話題発生時の時間情報を抽出し,文書集合中の固有表現を抽出し,話題の規模や話題を特徴付ける固有表現などの情報を,時間情報に従って所定期間の単位毎に生成し,話題の規模や固有表現を可視化して時系列表示するように構成する。
【0007】
このように構成される本発明では,話題語を受け取ると,話題語で文書集合を検索し話題語を含む文書を得る。続いて,予定情報や過去情報が記述された文書を排除し,残った文書の作成日などから話題発生時の時間情報を得る。同時に,文書中から人名や場所などの固有表現を得る。
【0008】
時間情報から得た月や日を1単位とし,話題の規模を示す単位毎の文書数を得て,単位毎の出現文書数や単位毎の出現数から話題を特徴付ける固有表現とそのタイプを得る。これら文書数や固有表現・タイプを可視化し時系列表示することで,大量の文書をより効率的に閲覧することが可能となる。
【0009】
本発明を用いることにより,予定情報や過去情報が記述された文書を除くことで話題発生時のより正確な時間情報を得て,話題の規模と特徴語である固有表現を時間情報毎に提示することで,話題の集中する時期や特徴語の変化が容易に確認でき,大量文書の効率的な時系列閲覧が可能となる。
【0010】
【発明の実施の形態】
以下,本発明の実施の形態を図を用いて説明する。図1は,本発明の固有情報抽出方法を適用した時系列ブラウジング装置の構成の一例を示す図である。図1において,時系列ブラウジング装置1は,利用者が入力した話題語を受け取る話題語入力手段11と,話題語を含む文書を検索する関連文書検索手段12と,話題発生時の時間情報を抽出する話題発生時間抽出手段13と,文書集合中の固有表現を抽出する固有表現抽出手段14と,話題の規模や話題を特徴付ける固有表現などの情報を時間情報毎に生成する時系列情報生成手段15と,話題の規模や固有表現を可視化し時系列表示する情報可視化手段16と,文書集合が格納される文書集合格納手段17とを有する。
【0011】
上記構成からなる実施形態の処理内容を図2のフローチャートを用いて説明する。まず,話題語入力手段11は話題語を受け取ると,それを関連文書検索手段12に渡す。関連文書検索手段12では,話題語で文書集合格納手段17に格納されている文書集合を検索し話題語を含む文書を得る(ステップS1)。そして,これらの文書を話題発生時間抽出手段13へ渡す。話題発生時間抽出手段13では,速報情報が記述された文書を抽出し,文書の作成日などから話題発生時の時間情報を得る(ステップS2)。これら時間情報と文書を固有表現抽出手段14へ渡す。
【0012】
固有表現抽出手段14では,文書集合中から人名や場所などの固有表現を抽出する(ステップS3)。固有表現とそのタイプ(人名や場所など)および時間情報を時系列情報生成手段15へ渡す。時系列情報生成手段15では,時間情報から得た月や日を1単位とし,話題の規模を示す単位毎の文書数を得る。また,単位毎の出現文書数や単位毎の出現数から話題を特徴付ける固有表現とそのタイプを得る(ステップS4)。これら出現文書数や固有表現・タイプを情報可視化手段16へ渡す。情報可視化手段16では,グラフ化した文書数及びタイプ毎に分類した固有表現を可視化し時系列表示する(ステップS5)。
【0013】
以上の処理は,コンピュータとソフトウェアプログラムとによって実現することができ,そのプログラムは,コンピュータが読み取り可能な可搬媒体メモリ,半導体メモリ,ハードディスク等の適当な記録媒体に格納して,そこから読み出すことによりコンピュータに実行させることができる。
【0014】
次に,本実施形態の具体的動作について説明する。以下では,図3に示す話題語「スペースシャトル」から,図8に示す出力を得る例を説明する。本実施例では説明を容易にするため,1つの話題語を記述しているが,文書集合の検索時にAND検索やOR検索を指定することで,複数の話題語に対しても時系列ブラウジングを行うことができる。
【0015】
話題語入力手段11は,図3に示す話題語「スペースシャトル」を受け取り,それを関連文書検索手段12に渡す。関連文書検索手段12では,文書集合格納手段17に格納されている文書の中から,話題語「スペースシャトル」を含む文書を検索し,話題発生時間抽出手段13に渡す。本実施例では,新聞記事数年分の文書が文書集合格納手段17に格納されている。これを検索した結果,図4の関連文書検索結果に示す話題語「スペースシャトル」を文書中に含む5文書(記事番号920828AAA〜940714EEE)が,関連文書として話題発生時間抽出手段13に渡される。
【0016】
話題発生時間抽出手段13では,関連文書を速報記事とその他に分類し速報記事の作成日から話題発生時の時間情報を得る。速報記事とは,話題発生後すぐに書かれたもので,数日の誤差はあるが発行日を時間情報として使える記事をいう。ここでは速報記事とその他の判断基準として文書の1文目の文末表現を用いる。本実施例では,「分かった」「行った」「決定」など話題が発生してすぐに書かれたと判断できるものを速報記事として用い,「行われる」など数日から数ヶ月先の予定を書いたもの,及び「だった」「から1年」など過去の話題を取上げたものは排除する。
【0017】
本実施例では,図4の関連文書から図5のような時間情報が得られ,図6のような速報記事が得られたとする。時間情報として作成日のみを用いているが,記事中の時間情報を用いて正式な話題発生時の時間情報に修正しても良い。これらの結果は,固有表現抽出手段14へと渡される。
【0018】
固有表現抽出手段14では,単語や単語の品詞情報および固有表現抽出ルールから文書中の固有表現とそのタイプを得る。固有表現とは,周期的に現れる話題を特徴付けるキーワードであり,そのタイプには,人名,人工物名,地名,日時,組織などがある。ここで固有表現抽出ルールについては,磯崎秀樹氏が提唱するルール(固有表現抽出のための可読性の高い規則の自動生成,情報処理学会,自然言語処理研究会,2000)などを用いることができる。
【0019】
本実施例では,図6の文書から図7のような固有表現とそのタイプが得られたとする。これらの結果は,時系列情報生成手段15へと渡される。時系列情報生成手段15では,時間情報から得た年月を1単位とし,話題の規模を示す単位毎の文書数を得る。また,単位毎の出現文書数や単位毎の出現数から話題を特徴付ける固有表現とそのタイプを得る。ここでは単位毎の出現文書数が多い固有表現ほど特徴が強いとし,単位毎の出現文書数が同じ場合は単位毎の出現数が多いほど特徴が強いとする。この際,速報記事全体に平均的に現れる固有表現は特徴とならないため排除する。
【0020】
本実施例では,図7の時間情報および固有表現の出現文書数・出現数から図8のような年月毎の文書数と固有表現・タイプが得られ,速報記事全体に現れる「米」は排除されたとする。また,出現数=1の固有表現についても特徴とならないことから排除し,図8に示す時系列情報から図9に示すような情報が得られたとする。固有表現の排除に関する閾値は特に定めるものでなく,文書数やユーザ希望を考慮した他の値でもよい。これらの結果は,情報可視化手段16へと渡される。情報可視化手段16では,グラフ化した文書数及び補助情報としてタイプ毎に分類した固有表現を可視化し時系列表示する。
【0021】
本実施例では,図9の時系列情報から図10のような表示画面が得られたとする。グラフの種類は図10のような縦棒のグラフである必要はなく,横棒や折れ線など他のグラフでもよい。固有表現とそのタイプについても図10のような表示方法である必要はなく,別画面に表示するなど他の表示方法でもよい。
【0022】
図11は,本発明を日本語質問応答システムに適用した例であって,時系列ブラウジングによって回答候補を表示した例を示している。
【0023】
この例から明らかなように,新聞記事が持つ時間情報に沿って,「APEC首脳会議」という特定のトピックに関する情報を可視化し,PER(人名),ART(人工物名),LOC(地名,場所),ORG(組織),DAT(日時)などの固有表現を用いて記事のエッセンスが提示されている。これによって,開催地と開催国および出席した各国首脳の名前等が特徴キーワードとして明示され,効率的な時系列閲覧が可能になっている。また,記事数が「*」を用いた棒グラフによって示されている。これから,毎年11月にピークが現れることがわかる。
【0024】
【発明の効果】
以上説明したように本発明では,話題の規模と特徴語である固有表現を時間情報毎に提示することで,話題の集中する時期や特徴語の変化が容易に確認でき,大量文書の効率的な時系列閲覧が可能である。また,例えば予定情報や過去情報が記述された文書を除くことで話題発生時のより正確な時間情報を得ることが可能である。
【図面の簡単な説明】
【図1】本発明を適用した時系列ブラウジング装置の構成の一例を示す図である。
【図2】本発明の時系列ブラウジング処理フローの一例を示す図である。
【図3】話題語の一例を示す図である。
【図4】関連文書検索結果の一例を示す図である。
【図5】話題発生時の時間情報の一例を示す図である。
【図6】速報記事の一例を示す図である。
【図7】固有表現とタイプの一例を示す図である。
【図8】時系列情報の一例を示す図である。
【図9】時系列情報の一例を示す図である。
【図10】時系列表示の一例を示す図である。
【図11】日本語質問応答システムに適用した時系列ブラウジングの出力の一例を示す図である。
【符号の説明】
1 時系列ブラウジング装置
11 話題語入力手段
12 関連文書検索手段
13 話題発生時間抽出手段
14 固有表現抽出手段
15 時系列情報生成手段
16 情報可視化手段
17 文書集合格納手段
Claims (6)
- 大量文書から得た特定の話題に関する情報を時間情報に沿って抽出し出力する固有情報抽出装置であって,
利用者が入力した話題語を受け取る話題語入力手段と,
前記受け取った話題語で,その話題語を含む文書を検索する関連文書検索手段と,
前記検索された文書を文末表現に基づいて速報記事か否かに分類し,分類した速報記事の作成日から話題発生時の時間情報を得る話題発生時間抽出手段と,
前記速報記事と分類された文書から固有表現を抽出する固有表現抽出手段と,
所定期間を1単位とし,単位毎に,前記話題発生時間抽出手段によって得た時間情報に従って,速報記事の文書数と出現頻度が高い固有表現を含む情報を生成する時系列情報生成手段とを有する
ことを特徴とする時系列情報からの固有情報抽出装置。 - 大量文書から得た特定の話題に関する情報を時間情報に沿って抽出し出力する固有情報抽出装置であって,
利用者が入力した話題語を受け取る話題語入力手段と,
前記受け取った話題語で,その話題語を含む文書を検索する関連文書検索手段と,
前記検索された文書を文末表現に基づいて速報記事か否かに分類し,分類した速報記事の作成日から話題発生時の時間情報を得る話題発生時間抽出手段と,
前記速報記事と分類された文書から所定の固有表現抽出ルールに従って話題を特徴付けるキーワードである固有表現とその固有表現のタイプとを抽出する固有表現抽出手段と,
前記時間情報から得た年月を1単位として,前記固有表現の単位毎の出現文書数および単位毎の出現数から話題の規模および話題を特徴付ける固有表現およびそのタイプに関する情報を生成する時系列情報生成手段と,
前記時系列情報生成手段が生成した時系列情報に基づき,グラフ化した文書数およびその補助情報として前記タイプ毎に分類した固有表現を可視化し時系列表示する情報可視化手段とを有する
ことを特徴とする時系列情報からの固有情報抽出装置。 - 大量文書から得た特定の話題に関する情報を時間情報に沿って抽出し出力する固有情報抽出装置をコンピュータによって実現するための時系列情報からの固有情報抽出プログラムであって,
前記コンピュータを,
利用者が入力した話題語を受け取る話題語入力手段と,
前記受け取った話題語で,その話題語を含む文書を検索する関連文書検索手段と,
前記検索された文書を文末表現に基づいて速報記事か否かに分類し,分類した速報記事の作成日から話題発生時の時間情報を得る話題発生時間抽出手段と,
前記速報記事と分類された文書から固有表現を抽出する固有表現抽出手段と,
所定期間を1単位とし,単位毎に,前記話題発生時間抽出手段によって得た時間情報に従って,速報記事の文書数と出現頻度が高い固有表現を含む情報を生成する時系列情報生成手段として,
機能させるための時系列情報からの固有情報抽出プログラム。 - 大量文書から得た特定の話題に関する情報を時間情報に沿って抽出し出力する固有情報抽出装置をコンピュータによって実現するための時系列情報からの固有情報抽出プログラムであって,
前記コンピュータを,
利用者が入力した話題語を受け取る話題語入力手段と,
前記受け取った話題語で,その話題語を含む文書を検索する関連文書検索手段と,
前記検索された文書を文末表現に基づいて速報記事か否かに分類し,分類した速報記事の作成日から話題発生時の時間情報を得る話題発生時間抽出手段と,
前記速報記事と分類された文書から所定の固有表現抽出ルールに従って話題を特徴付けるキーワードである固有表現とその固有表現のタイプとを抽出する固有表現抽出手段と,
前記時間情報から得た年月を1単位として,前記固有表現の単位毎の出現文書数および単位毎の出現数から話題の規模および話題を特徴付ける固有表現およびそのタイプに関する情報を生成する時系列情報生成手段と,
前記時系列情報生成手段が生成した時系列情報に基づき,グラフ化した文書数およびその補助情報として前記タイプ毎に分類した固有表現を可視化し時系列表示する情報可視化手段として,
機能させるための時系列情報からの固有情報抽出プログラム。 - 大量文書から得た特定の話題に関する情報を時間情報に沿って抽出し出力する固有情報抽出装置をコンピュータによって実現するための時系列情報からの固有情報抽出プログラムを記録したコンピュータ読み取り可能な記録媒体であって,
前記コンピュータを,
利用者が入力した話題語を受け取る話題語入力手段と,
前記受け取った話題語で,その話題語を含む文書を検索する関連文書検索手段と,
前記検索された文書を文末表現に基づいて速報記事か否かに分類し,分類した速報記事の作成日から話題発生時の時間情報を得る話題発生時間抽出手段と,
前記速報記事と分類された文書から固有表現を抽出する固有表現抽出手段と,
所定期間を1単位とし,単位毎に,前記話題発生時間抽出手段によって得た時間情報に従って,速報記事の文書数と出現頻度が高い固有表現を含む情報を生成する時系列情報生成手段として,
機能させるための時系列情報からの固有情報抽出プログラムを記録した記録媒体。 - 大量文書から得た特定の話題に関する情報を時間情報に沿って抽出し出力する固有情報抽出装置をコンピュータによって実現するための時系列情報からの固有情報抽出プログラムを記録したコンピュータ読み取り可能な記録媒体であって,
前記コンピュータを,
利用者が入力した話題語を受け取る話題語入力手段と,
前記受け取った話題語で,その話題語を含む文書を検索する関連文書検索手段と,
前記検索された文書を文末表現に基づいて速報記事か否かに分類し,分類した速報記事の作成日から話題発生時の時間情報を得る話題発生時間抽出手段と,
前記速報記事と分類された文書から所定の固有表現抽出ルールに従って話題を特徴付けるキーワードである固有表現とその固有表現のタイプとを抽出する固有表現抽出手段と,
前記時間情報から得た年月を1単位として,前記固有表現の単位毎の出現文書数および単位毎の出現数から話題の規模および話題を特徴付ける固有表現およびそのタイプに関する情報を生成する時系列情報生成手段と,
前記時系列情報生成手段が生成した時系列情報に基づき,グラフ化した文書数およびその補助情報として前記タイプ毎に分類した固有表現を可視化し時系列表示する情報可視化手段として,
機能させるための時系列情報からの固有情報抽出プログラムを記録した記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002246328A JP4130754B2 (ja) | 2002-08-27 | 2002-08-27 | 時系列情報からの固有情報抽出装置,並びに時系列情報からの固有情報抽出プログラムおよびそのプログラムを記録した記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002246328A JP4130754B2 (ja) | 2002-08-27 | 2002-08-27 | 時系列情報からの固有情報抽出装置,並びに時系列情報からの固有情報抽出プログラムおよびそのプログラムを記録した記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004086534A JP2004086534A (ja) | 2004-03-18 |
JP4130754B2 true JP4130754B2 (ja) | 2008-08-06 |
Family
ID=32054252
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002246328A Expired - Fee Related JP4130754B2 (ja) | 2002-08-27 | 2002-08-27 | 時系列情報からの固有情報抽出装置,並びに時系列情報からの固有情報抽出プログラムおよびそのプログラムを記録した記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4130754B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7761437B2 (en) | 2005-06-15 | 2010-07-20 | Panasonic Corporation | Named entity extracting apparatus, method, and program |
JP5293339B2 (ja) * | 2009-03-27 | 2013-09-18 | 富士通株式会社 | 順序決定プログラム、順序決定方法、および情報処理装置 |
JP5461475B2 (ja) * | 2011-05-26 | 2014-04-02 | 日本電信電話株式会社 | 情報検索方法、情報検索装置及び情報検索プログラム |
-
2002
- 2002-08-27 JP JP2002246328A patent/JP4130754B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2004086534A (ja) | 2004-03-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108255857B (zh) | 一种语句检测方法及装置 | |
US7331517B2 (en) | Article reader program, article management method and article reader | |
US9015153B1 (en) | Topic discovery, summary generation, automatic tagging, and search indexing for segments of a document | |
US20110078206A1 (en) | Tagging method and apparatus based on structured data set | |
US8412704B1 (en) | Providing blog posts relevant to search results | |
US9489370B2 (en) | Synonym relation determination device, synonym relation determination method, and program thereof | |
US20080040321A1 (en) | Techniques for searching future events | |
EP2478431A2 (en) | Automatically finding contextually related items of a task | |
KR101502671B1 (ko) | 상관된 정보의 온라인 분석 및 디스플레이 | |
JP2010055618A (ja) | トピックを基にした検索を提供する方法及びシステム | |
WO2021068932A1 (zh) | 基于电子书的实体关联信息的展示方法及电子设备 | |
JP2008033687A (ja) | 検索クエリー作成装置 | |
US20130046785A1 (en) | Automatic Association of Informational Entities | |
JP4130754B2 (ja) | 時系列情報からの固有情報抽出装置,並びに時系列情報からの固有情報抽出プログラムおよびそのプログラムを記録した記録媒体 | |
JP2006302024A (ja) | 関連文書表示方法及びプログラム | |
Khurdiya et al. | Extraction and Compilation of Events and Sub-events from Twitter | |
JP2004151855A (ja) | 電子文書検索システム | |
Liang et al. | Detecting novel business blogs | |
JP2007140639A (ja) | データ表示装置、データ表示方法およびデータ表示プログラム | |
US20130304720A1 (en) | Methods and Apparatus for Presenting Search Results with Indication of Relative Position of Search Terms | |
CN107729518A (zh) | 一种关系型数据库的全文检索方法及装置 | |
JP4767389B2 (ja) | ロギング装置および記録媒体 | |
CN107679154B (zh) | 一种基于时间轴的历史题解题方法、系统及介质 | |
CN117112598A (zh) | 处理文本数据的方法和系统、非暂时性计算机可读介质 | |
JP2006285499A (ja) | データマイニング装置、データマイニング方法およびそのプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040728 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070717 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070914 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20070914 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20071009 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071127 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080520 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080523 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110530 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110530 Year of fee payment: 3 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: R3D02 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120530 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |