JP3525948B2 - 情報検索装置 - Google Patents

情報検索装置

Info

Publication number
JP3525948B2
JP3525948B2 JP11831594A JP11831594A JP3525948B2 JP 3525948 B2 JP3525948 B2 JP 3525948B2 JP 11831594 A JP11831594 A JP 11831594A JP 11831594 A JP11831594 A JP 11831594A JP 3525948 B2 JP3525948 B2 JP 3525948B2
Authority
JP
Japan
Prior art keywords
word
feature data
text information
search
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP11831594A
Other languages
English (en)
Other versions
JPH07325832A (ja
Inventor
勇 渡部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP11831594A priority Critical patent/JP3525948B2/ja
Publication of JPH07325832A publication Critical patent/JPH07325832A/ja
Application granted granted Critical
Publication of JP3525948B2 publication Critical patent/JP3525948B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】 【0001】 【産業上の利用分野】本発明は時系列テキスト情報から
自動抽出した単語使用パターンの時間的変化の特徴デー
タを利用した情報検索装置に関する。新製品開発やマー
ケッティング戦略などの企画においては、いま世の中で
何が話題になっているのか、流行がどのように移りかわ
ってきたのか、といったことを正しく捉えておくことが
重要である。 【0002】また、研究開発の場面においても、最新の
研究動向や技術動向を調べておくことが重要になってい
る。これらの調査・分析作業は素早く正確に行う必要が
あり、大量の情報の中から、特定の分野・期間に話題と
なった単語・情報を検索したり、特定の単語と同時に話
題となった単語を検索したり、特定の単語が話題になっ
た分野・期間を検索したりすることができる方法および
装置が作業の大きな助けとなる。 【0003】 【従来の技術】最新の流行語を調べるための「現代用語
の基礎知識」「イミダス」「知恵蔵」といった専門の事
典が刊行されており、CDROM装置などを用いて計算
機上で検索することが可能となっている。ところが、こ
れらは、近年になってから刊行されるようになったもの
であるため、流行の移り変わりを調べようとしても、過
去の情報を得ることができない。 【0004】また、事典を作成するために時間がかかる
こと、事典が刊行される時期が決まっていることもあ
り、必要な時点での最新情報を得ることができるとは限
らない。さらに、作成者の判断にしたがって画一的にま
とめられており、扱われる分野の限られたものになって
いる。一方、新聞記事、学術論文誌、技術雑誌、一般雑
誌、書籍などのテキスト情報が、計算機可読な形で提供
され、検索装置により検索することが可能となってきて
いる。これらのテキスト情報では、一般的な話題から専
門的な話題まで、幅広い分野の情報が網羅されている。 【0005】また、情報の更新も、一日あるいは一月程
度の頻度で行われており、いつでもその時点での最新情
報を得ることができる。また、かなり古い情報も利用可
能になっている。ところが、テキスト情報を時系列デー
タとして扱えて検索を行うための手段が用意されていな
い。 【0006】特定の期間に生成された情報のみを検索す
ることができるようになっている場合もあるが、その結
果から直接流行や動向を判断することはできない。トレ
ンド分析、動向分析は、異なる時期に生成された情報を
比較検討することによって始めて可能になるものであ
り、その作業を別途行う必要がある。 【0007】 【発明が解決しようとする課題】上記したように、流行
・動向に関する情報が用意されている場合には、情報が
加工されたものであるが故に、使用者の多様な要求を満
たさない可能性があり、また逆に、加工されていない生
のテキスト情報を利用する場合には、流行・動向を的確
に捉えるための検索手段が用意されていないため、別途
分析作業を行う必要があった。 【0008】本発明は上記した従来技術の問題点を考慮
してなされたものであって、本発明の目的は、時系列テ
キスト情報から、単語使用パターンの時間的な変化を表
す特徴データを自動的に抽出し、その特徴データを利用
することにより、特定の分野・期間において話題となっ
た単語および情報を検索したり、特定の単語と同時に話
題となった単語を検索したり、さらに、特定の単語が話
題となった分野・期間を検索するための手段を提供し、
質の高いトレンド分析・動向分析を容易に行えるように
することである。 【0009】 【課題を解決するための手段】図1は本発明の原理説明
図である。同図において、1は検索装置、2は時系列テ
キスト情報、3は時系列テキスト情報2から単語使用パ
ターンの時間的変化を表す特徴データを抽出する特徴デ
ータ抽出部、4は抽出された特徴データ、5は使用者8
が入力する検索入力を処理する入力処理部、6は時系列
テキスト情報と特徴データ4を利用して検索処理を行う
検索処理部、7は検索結果を出力する出力処理部であ
る。 【0010】上記図1の装置が行う処理として、図2の
フローチャートに示すように、大きく分けて、(イ)特
徴データの抽出処理と、(ロ)質問応答処理があり、使
用者の質問応答処理の前に、あらかじめ特徴データの抽
出を行っておく。図2の特徴データ抽出処理において
は、ステップ14において、テキスト情報から単語使用
パターンの時間的変化を表す特徴データを抽出する。 【0011】質問応答処理においては、まず、ステップ
15において、質問処理を図1に示した入力処理部5で
行い、これにより、使用者8の検索入力が検索処理部6
で解釈できる表現形式に変換され、検索処理部6に送ら
れる。ついで、ステップ16において、検索処理部6が
検索処理を行う。この際、テキスト情報2および特徴デ
ータ4を利用して検索が行われ、検索結果は出力処理部
7に送られる。 【0012】最後にステップ17において、出力処理部
7は出力表示処理を行う。すなわち、出力処理部7は検
索結果を使用者8が解釈できる表現形式に変換し、使用
者8に表示する。 【0013】前記課題を解決するため、本発明の請求項
1の発明は、上記のように、検索装置1を、記憶装置に
記憶された時系列テキスト情報2を分野別に分類し、
野別に、該時系列テキスト情報から全てのテキスト情報
における単語の出現確率Aと、ある期間のテキスト情報
における単語の出現確率Bを計算して、該出現確率Bを
該出現確率Aで割った値である相対出現確率を特徴デー
タとして抽出し、記憶装置に格納する特徴データ抽出部
3と、入力装置から指定された分野・期間について、抽
出された特徴データである前記相対出現確率を調べ、上
記記憶装置に格納された時系列テキスト情報を用いて、
入力装置から指定された単語の前記相対出現確率が大き
い期間における、前記相対出現確率が大きい単語を検索
する検索処理部6と、上記検索結果を出力する出力処理
部7とから構成したものである。 【0014】 【0015】 【作用】本発明の請求項の発明においては、上記した
ように、入力装置から指定された分野・期間について、
抽出された特徴データである前記相対出現確率を調べ、
上記記憶装置に格納された時系列テキスト情報を用い
て、入力装置から指定された単語の前記相対出現確率が
大きい期間における、前記相対出現確率が大きい単語を
検索するようにしているので、特定の単語と同時に話題
になった単語を検索することが可能となる。 【0016】特に、テキスト情報を適当に選択すること
により、一般的な話題から専門的な話題まで幅広い分野
を扱うことができ、また、最新の情報が得られるごとに
特徴データ抽出処理を行うことにより、最新情報を反映
した検索を行うことができ、質の高いトレンド分析・動
向分析を行うことができるようになる。 【0017】 【実施例】図3は本発明の実施例のシステム構成の一例
を示す図であり、同図において、9はCPUとメモリか
ら構成されるデータ処理装置であり、データ処理装置9
はテキスト情報から特徴データを抽出する特徴データ抽
出部3と、使用者が与える検索入力等の入力情報を処理
する入力処理部5と、検索入力に基づきテキスト情報と
特徴データを利用して検索処理を行う検索処理部6と、
検索処理部6における検索結果を出力する出力処理部7
とを備えている。 【0018】10は特徴データ抽出部3および検索処理
部6で使用するテキスト情報を格納するための外部記憶
装置、11は上記特徴データ抽出部3で抽出された特徴
データを格納する外部記憶装置、12はキーボード等か
ら構成される入力装置であり、入力装置12は使用者か
らの入力を上記入力処理部5に伝える。13はディスプ
レイ装置等から構成される出力装置であり、上記出力処
理部7から得られる出力を使用者に表示する。 【0019】次に本発明の実施例の動作を説明する。な
お、特徴データ抽出部3と検索処理部6以外の、入力処
理部5、出力処理部7等は周知な既存のものでよいの
で、ここでは、上記特徴データ抽出部3と検索処理部6
を中心に説明する。図4は本発明の特徴データ抽出部3
における処理を説明する図であり、同図を参照して、本
実施例における特徴データの抽出処理について説明す
る。 【0020】特徴データ抽出部3は外部記憶装置10に
記憶されたテキスト情報を分野別に分割し、情報が生成
された日時の順に整列する。例えば、テキスト情報が新
聞記事の場合には、経済面、政治面、産業面などで分割
し、記事の日付にしたがって整列する。なお、上記のよ
うに分割された一連のテキスト情報を、以後、テキスト
グループと呼ぶ。 【0021】すなわち、図4(a)に示す、Ta1,Ta
2,…、Tb1,Tb2等のテキスト情報を同図(b)に示
すように、テキストグループ別に〔同図においては、T
ai,Tbi,Tci(i=1,2,…)はそれぞれ異なったテキス
トグループを示している〕分割し、記事の日付にしたが
って整列する(同図においては、横軸が日付を示してい
る)。 【0022】ついで、各テキストグループに対して特徴
データを抽出する。特徴データの抽出としては、各種統
計量を利用することができるが、ここでは、出現確率を
用いた特徴データの抽出について説明する。出現確率を
用いた特徴データを抽出するには、図4(c)に示すよ
うに、テキストグループ内の全テキスト情報における
単語の出現確率を計算する。すなわち、単語W1,W
2,W3,…について、それぞれの出現確率P01,P
02,P03,…を求める。 【0023】次に、期間を徐々にずらしながらテキス
トグループ内のテキスト情報における単語の出現確率を
計算する。すなわち、図4(d)に示すように、あるテ
キストグループTa について、各期間(同図では、例え
ば、Ta1, …,Ta3等の3つの期間)における、単語W
1,W2,W3,…について、それぞれの出現確率P1
1,P12,P13,…、P21,P22,…、P3
1,P32,…を求める。 【0024】さらに、上記特定期間における出現確率
を全テキスト情報における出現確率で割った値を算出す
る。例えば、図4の場合においては、ある単語W1につ
いて、全テキストグループにおける出現確率P01によ
り、ある特定期間の出現確率P11,P21,…を割り
P11/P01,P21/P01,…を求める。以上の
計算により得られる相対出現確率は、各単語が特定の分
野・特定の期間において、通常より、どの程度頻繁に用
いられているかを表す特徴データとなり、この値が大き
いものほど話題になった単語であるといえる。 【0025】特徴データの抽出としては、上記のような
出現確率による外、例えば、次のような手法を用いるこ
ともできる。 A.出現頻度を利用して、特徴データを抽出する。出現
確率を用いる変わりに、テキスト情報の中で、特定の単
語がどの程度の頻度で現れるかを示す出現頻度を用いて
特徴データを抽出する。 B.単語の同時出現確率を用いる。 【0026】同一のテキスト中に特定の単語が同時に現
れる確率を利用して特徴データを抽出する。なお、特徴
データの抽出は、上記した手法の外、各種の統計量を利
用して特徴データを抽出したり、分野別の特徴データを
統合したり、あるいは、分野別に分割を行わずに特徴デ
ータを抽出することもできる。 【0027】上記のようにして特徴データが抽出される
と、特徴データ抽出部3は抽出した特徴データを外部記
憶装置11に格納する。検索処理部6は、入力装置12
から使用者が入力する検索入力に応じて、特徴データと
テキスト情報を用いて検索処理を行い、その検索結果は
出力処理部7を介して出力装置13から出力される。 【0028】検索方法としては、特徴データの性質に応
じて種々の手法を用いることができるが、出現確率を用
いて特徴データを抽出した場合には、検索方法として以
下の方法が考えられる。 A.分野・期間を指定し、流行語を検索 指定された分野・期間の特徴データを調べ、相対出現確
率が大きい単語を検索結果とする。 B.分野・期間を指定し、特定の単語が流行した期間を
検索 指定された分野の特徴データを調べ、指定された単語の
相対出現確率が大きい期間を検索結果とする。 C.分野・期間を指定し、その単語と同時に流行してい
た単語を検索 指定された分野の特徴データを調べ、指定された単語の
相対出現確率が大きい期間において、相対出現確率が大
きい単語を検索結果とする。 【0029】上記検索により、指定された分野におい
て、例えば、ある単語が流行した期間におけるその他の
単語の流行程度を知ることができる。 D.単語・期間を指定し、その単語が流行した分野・期
間を検索 全特徴データを調べ、指定された単語の相対出現確率が
大きい分野・期間を検索結果とする。 E.単語を指定し、その単語が流行した分野・期間を検
索 全特徴データを調べ、指定された単語の相対出現確率が
大きい分野・期間を検索結果とする。 F.単語を指定し、その単語と同時に流行していた単語
を検索 全特徴データを調べ、指定された単語の相対出現確立が
大きい分野・期間において、相対出現確立が大きい単語
を検索結果とする。 【0030】また、上記各検索に際し、それぞれ関連す
るテキスト情報を同時に出力することも可能である。な
お、上記では出現確率を用いて特徴データを抽出した場
合における検索方法について示したが、抽出された特徴
データに応じて、種々の検索を行うことができ、例え
ば、複数種類の特徴データを抽出しておき、これらを適
宜組み合わせ利用して検索を行うこともできる。 【0031】 【発明の効果】以上説明したように、本発明において
は、時系列テキスト情報から、単語使用パターンの時間
的変化を表す特徴データを抽出し、抽出された特徴デー
タを用いて情報検索を行うようにしているので、未加工
のテキスト情報から特定の単語と同時に話題となった
単語を検索したりすることができる。このため、トレン
ド分析、動向分析における質の向上・手間の軽減に寄与
するところが大きい。
【図面の簡単な説明】 【図1】本発明の原理説明図である。 【図2】本発明における処理のフローチャートである。 【図3】本発明の実施例のシステム構成を示す図であ
る。 【図4】特徴データ抽出の一例を説明する図である。 【符号の説明】 1 検索装置 2 テキスト情報 3 特徴データ抽出部 4 特徴データ 5 入力処理部 6 検索処理部 7 出力処理部 8 使用者 9 データ処理装置 10,11 外部記憶装置 12 入力装置 13 出力装置

Claims (1)

  1. (57)【特許請求の範囲】 【請求項1】 記憶装置に記憶された時系列テキスト情
    報を分野別に分類し、分野別に、該時系列テキスト情報
    から全てのテキスト情報における単語の出現確率Aと、
    ある期間のテキスト情報における単語の出現確率Bを計
    算して、該出現確率Bを該出現確率Aで割った値である
    相対出現確率を特徴データとして抽出し、記憶装置に格
    納する特徴データ抽出部と、 入力装置から指定された分野・期間について、抽出され
    特徴データである前記相対出現確率を調べ、上記記憶
    装置に格納された時系列テキスト情報を用いて、入力装
    置から指定された単語の前記相対出現確率大きい期間
    における、前記相対出現確率が大きい単語を検索する検
    索処理部と、 上記検索結果を出力する出力処理部とを備えたことを
    特徴とする情報検索装置。
JP11831594A 1994-05-31 1994-05-31 情報検索装置 Expired - Fee Related JP3525948B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11831594A JP3525948B2 (ja) 1994-05-31 1994-05-31 情報検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11831594A JP3525948B2 (ja) 1994-05-31 1994-05-31 情報検索装置

Publications (2)

Publication Number Publication Date
JPH07325832A JPH07325832A (ja) 1995-12-12
JP3525948B2 true JP3525948B2 (ja) 2004-05-10

Family

ID=14733640

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11831594A Expired - Fee Related JP3525948B2 (ja) 1994-05-31 1994-05-31 情報検索装置

Country Status (1)

Country Link
JP (1) JP3525948B2 (ja)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10154150A (ja) * 1996-11-25 1998-06-09 Nippon Telegr & Teleph Corp <Ntt> 情報潮流提示方法及びその装置
JP3547069B2 (ja) * 1997-05-22 2004-07-28 日本電信電話株式会社 情報関連づけ装置およびその方法
JP3572904B2 (ja) * 1997-11-10 2004-10-06 日本電信電話株式会社 メーリングリストサービスシステム
JP3553795B2 (ja) * 1998-04-28 2004-08-11 日本電信電話株式会社 同義語計算装置及びその方法並びに同義語計算プログラムを記録した媒体
JP3641363B2 (ja) * 1998-06-03 2005-04-20 富士通株式会社 テキスト情報分析装置及び記録媒体
JP2000194745A (ja) * 1998-12-25 2000-07-14 Nec Corp トレンド評価装置及びトレンド評価方法
JP2001027993A (ja) * 1999-07-14 2001-01-30 Nippon Telegr & Teleph Corp <Ntt> 流行予測支援方法及び装置及び流行予測支援プログラムを格納した記憶媒体
JP4605415B2 (ja) * 2000-02-21 2011-01-05 ソニー株式会社 情報処理装置および方法、並びに記録媒体
JP2002215647A (ja) * 2001-01-24 2002-08-02 Nec Corp テキストマイニング装置及びそれに用いるテキストマイニング方法並びにそれらに用いるプログラム
JP4175001B2 (ja) 2002-03-04 2008-11-05 セイコーエプソン株式会社 文書データ検索装置
JP2004326476A (ja) * 2003-04-25 2004-11-18 Hitachi Ltd データとテキストを統合させた文書分析システム
JP4567581B2 (ja) * 2005-11-25 2010-10-20 日本電信電話株式会社 操作検索方法及び装置及びコンピュータ読み取り可能な記録媒体
JP4807881B2 (ja) * 2006-12-19 2011-11-02 日本電信電話株式会社 潜在話題語抽出装置、潜在話題語抽出方法、プログラムおよび記録媒体
JP5045194B2 (ja) * 2007-04-10 2012-10-10 大日本印刷株式会社 検索キーワードの流行時期を提示する方法及び検索サーバ
JP4546989B2 (ja) * 2007-05-14 2010-09-22 富士通株式会社 文書データ提供装置、文書データ提供システム、文書データ提供方法及び文書データを提供するプログラムを記録した記録媒体
WO2009096523A1 (ja) * 2008-01-30 2009-08-06 Nec Corporation 情報分析装置、検索システム、情報分析方法及び情報分析用プログラム
JP5271863B2 (ja) * 2009-10-13 2013-08-21 日本電信電話株式会社 情報分析装置、情報分析方法および情報分析プログラム
JP5393392B2 (ja) * 2009-10-16 2014-01-22 日本電信電話株式会社 時間表現抽出装置、時間表現抽出方法および時間表現抽出プログラム
JP5436356B2 (ja) * 2010-07-05 2014-03-05 日本電信電話株式会社 期間別主題語句抽出装置及び方法及びプログラム
JP5269938B2 (ja) * 2011-03-31 2013-08-21 ヤフー株式会社 急上昇ワード関連付け装置及び方法
JP5461475B2 (ja) * 2011-05-26 2014-04-02 日本電信電話株式会社 情報検索方法、情報検索装置及び情報検索プログラム
JP5223018B1 (ja) 2012-05-30 2013-06-26 楽天株式会社 情報処理装置、情報処理方法、情報処理プログラム及び記録媒体
KR102016545B1 (ko) 2013-10-25 2019-10-21 한화테크윈 주식회사 검색 시스템 및 그의 동작 방법

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2572308B2 (ja) * 1991-01-25 1997-01-16 株式会社テレマティーク国際研究所 レビュー処理装置
JP3168479B2 (ja) * 1992-05-01 2001-05-21 日本電信電話株式会社 時間変動する情報に対応する情報の蓄積及び検索方法

Also Published As

Publication number Publication date
JPH07325832A (ja) 1995-12-12

Similar Documents

Publication Publication Date Title
JP3525948B2 (ja) 情報検索装置
US20060106767A1 (en) System and method for identifying query-relevant keywords in documents with latent semantic analysis
JP2002197096A (ja) 文書の一般テキストサマリを作成する方法およびシステム
JPH10134075A (ja) 文書処理装置、単語抽出装置、単語抽出方法、及び単語抽出プログラムを記録した記録媒体
DE69633595T2 (de) Verfahren und Gerät zur Erweiterung und Wiedergewinnung von ähnlichen Zeichenfolgen.
JP3584848B2 (ja) 文書処理装置、項目検索装置及び項目検索方法
JPH021059A (ja) 連想検索システム
JPH0934909A (ja) 情報検索装置
JPH06124308A (ja) 情報整理処理装置
JPH11219365A (ja) 画像検索装置
JPH09185632A (ja) 情報検索・編集方法及び装置
JP3065151B2 (ja) 標準名付与システム
JPH11259518A (ja) データベース検索方法
JPH07210565A (ja) 情報検索方法及び装置
JP3061486B2 (ja) データソート処理システム
JP3257517B2 (ja) 部品検索方法及びその装置
JP2519245B2 (ja) 情報検索装置
JP2595714B2 (ja) トレースデータ出力編集処理装置
JPS59178539A (ja) デ−タ演算装置の制御方法
JPS63140335A (ja) 手続き自動生成処理方式
JPH04242840A (ja) 実行ステップ分布計算方式
JPS5999476A (ja) 電子学習機
JPS63204434A (ja) 電子化文書検索装置
JPH0612454A (ja) 文書検索方法及び装置
JPH06230915A (ja) 対話支援方式

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20031028

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20031126

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20040113

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040210

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040210

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080227

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090227

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090227

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100227

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110227

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110227

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120227

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees