JP2000200278A

JP2000200278A - テキストフィルタリングシステム及びテキストフィルタリング方法

Info

Publication number: JP2000200278A
Application number: JP10377417A
Authority: JP
Inventors: Tetsuo Watanabe; 哲夫渡辺; Masahiko Kurata; 正彦藏田; Kunio Sato; 邦雄佐藤
Original assignee: KUIKKU KK
Current assignee: KUIKKU KK
Priority date: 1998-12-28
Filing date: 1998-12-28
Publication date: 2000-07-18
Anticipated expiration: 2018-12-28
Also published as: JP3465815B2

Abstract

(57)【要約】【課題】リアルタイムでテキストデータをフィルタリ
ングすることができるテキストデータフィルタリングシ
ステムを提供する。【解決手段】所定の文字列とその文字列に対応する識
別コードを記述した辞書をオートマトンに展開してお
き、入力されるテキストデータに対してフィルタリング
を実行し、該当する文字列が前記テキストデータにあれ
ば、対応する識別コードを前記テキストデータに付与す
る銘柄コード付与部１２３と、銘柄コードを付与された
テキストデータに対して、前記文字列の前後に付く文字
を検索し、予め定めた文字が付いていたときには、前記
付与された識別コードを削除することにより識別コード
を確定するノイズ除去部１２４とを具備する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、通信社や新聞社等
から送られてくる電子テキストデータを複数のユーザに
配信するテキストフィルタリングシステムに関する。

【０００２】

【従来の技術】従来から、大量の電子ニュース等の電子
テキストデータをフィルタリングしてして複数のユーザ
へ配信するシステムがある。これらのシステムにおける
全文テキストデータの監視は、定時でのバッチ処理によ
る検索であり、クリッピングと呼ぶべきものである。一
方、従来のリアルタイム監視と呼ばれていたものは文の
一部分、例えば新聞等の見出しのみの監視であり、全文
の監視ではなかった。すなわち、従来のシステムでは、
時間的に遅れをともなった全文ベースのテキスト監視
か、リアルタイムであってもテキストの一部しか監視の
対象としていなかった。

【０００３】

【発明が解決しようとする課題】しかしながら、資産運
用にかかわる機関投資家、金融機関等のユーザ（運用担
当者）は、１秒でも早くデータを取得して、売りか買い
かの判断を下す必要ある。現在でも、英文のテキストデ
ータについては、所定の条件設定を行っておけば、リア
ルタイムで必要とするテキストデータを取得できる。こ
れに対して、日本語のように、単語と単語との間に区切
りのない言語のテキストデータの場合、時々刻々送られ
てくるテキストデータのうち必要とするテキストデータ
のみを全文検索してリアルタイムで配信するのは、処理
時間がかかり、困難であった。ここで、全文検索とはテ
キストデータの始めから終わりまでの全ての文字列を検
索したり、フィルタリングしたりすることをいう。

【０００４】また、多数のユーザのフィルタリング条件
式に含まれる全ての検索データで一つの有限オートマト
ンを作成することにより、テキストデータの一度の走査
で全ての検索タームを照合することは従来から可能であ
る。しかしながら、従来のオートマトンを用いたフィル
タリング方法では、ノイズが多く実用にならなかった。
ノイズの多いデータは、取得したテキストデータに対し
て瞬時に判断を下さなければならいなユーザにとって、
大きな負担となる。また、ユーザの数が多くなり、フィ
ルタリングのためのキーワードが多くなると、オートマ
トンのサイズが大きくなり、処理に時間がかかる。この
ため、リアルタイム処理といっても従来の方法では、数
十分かかる場合もある。オートマトンはモメリに展開す
るので、サイズが大きくなると、メモリの使用量が多く
なり、メモリを圧迫するので全体の処理速度が落ちる。
このようにオートマトンを用いたフィルタリング処理は
テキストデータを高速で処理できるが、オートマトンの
サイズが大きくなると、処理速度が遅くなり、しかもオ
ートマトンを用いたフィルタリングはノイズが多いとい
う問題もある。

【０００５】本発明は上記事情に基づいてなされたもの
であり、日本語等のように単語と単語の区切りのない言
語のテキストデータについてリアルタイムでテキストデ
ータをフィルタリングすることができるテキストデータ
フィルタリングシステム及びテキストフィルタリング方
法を提供することを目的とする。

【０００６】

【課題を解決するための手段】上記目的を達成するため
に本発明に係るテキストフィルタリングシステムは、所
定の文字列とその文字列に対応する識別コードを記述し
た辞書をオートマトンに展開しておき、入力されるテキ
ストデータに対してフィルタリングを実行し、該当する
文字列が前記テキストデータにあれば、対応する識別コ
ードを前記テキストデータに付与する識別コード付与手
段と、前記識別コードを付与されたテキストデータに対
して、前記文字列の前後に付く文字を検索し、予め定め
た文字が付いていたときには、前記付与された識別コー
ドを削除することにより識別コードを確定するノイズ除
去手段と、を具備することを特徴とするものである。

【０００７】予め各ユーザ毎にフリーキーワードと前記
識別コードと論理演算子を用いて作成して登録したフィ
ルタリング条件をオートマトンに展開し、前記識別コー
ドが付与されたテキストデータを走査して、フィルタリ
ングした結果を出力するフィルタリング手段を備えるこ
とが望ましい。上記目的を達成するために本発明に係る
テキストフィルタリング方法は、一次処理として、プレ
フィルタリングにより識別コードを付与する工程と、付
与された識別コードについてノイズを除去する工程とを
備え、二次処理として、ユーザが設定したフィルタリン
グ条件によりフィルタリング処理を行う工程と識別コー
ドについてのノイズを除去する工程とを備えることを特
徴とするものである。

【０００８】本発明は共通で絞り込みできるものについ
ては、オートマトンのフィルタリングを使用し、これに
より対象となるプロファイルを絞り込んだ上で、更に各
プロファイル毎の個別の検索を行うようにすることによ
り、テキストデータのノイズの少ないリアルタイム処理
が可能となった。ここで、プロファイルとは、ユーザが
設定したフィルタリング条件であると共に、検索条件で
ある。

【０００９】

【発明の実施の形態】［実施形態の構成］図１は、本発
明の一実施形態であるテキストフィルタリングシステム
のブロック図である。図１に示すテキストデータシステ
ムは、各種の電子情報源１０からの電子テキストデータ
の入力を管理するデータ受信サーバ１２と、データ受信
サーバから送られてきたテキストデータに対して銘柄コ
ードを付与する一次フィルタリングサーバ１６と、銘柄
コードが付与されたテキストデータのバックアップを取
るための記憶部１８と、銘柄コードが付与されたテキス
トデータをデータベース２２に登録したり、全文検索し
たりする検索サーバ２０と、ユーザが設定したフィルタ
リング条件でテキストデータをフィルタリングする二次
フィルタリングサーバ２４と、二次フィルタリングサー
バがフィルタリングした結果等を格納する記録部２６
と、端末とのデータの授受を制御するウエブサーバ２８
とを備える。各サーバは、他のサーバとデータを送受す
るための図示しない送受信部を有する。尚、本実施形態
のテキストデータは、企業情報や新聞ニース等の金融証
券業務で用いるデータであるとする。また、本システム
全体は、日に一回、例えば夜中の１２時に、システムの
管理者が設定するユーザに関するデータ等を取り込んで
更新する。さらに、各電子情報源から送られるテキスト
データは、数ｋバイトのものであり、本実施形態のシス
テムは、かかる大きさのテキストデータをリアルタイム
で配信するものである。本実施形態のシステムは、各サ
ーバのＯＳにＷｉｎｄｏｗｓＮＴを使用している。

【００１０】［データ受信サーバ］データ受信サーバ１
２は、電子情報源１０から送られくるテキストデータを
一旦ニュースキューファイル記憶部１４に記録してか
ら、一次フィルタリングサーバに送る。時々刻々に送ら
れてくるテキストデータを一次フィルタリングサーバに
送る際に、送るタイミングを合わせたり、一次フィルタ
リングサーバの処理に合わせて送るために、一時的にテ
キストデータをキューファイル記録部に溜めて置く必要
があるからである。また、何らかの事情で一次フィルタ
リングサーバの処理が遅れたときに、電子情報源１０か
らのテキストデータの取りこぼしが無いように、受けた
テキストデータは一旦ニュースキューファイル記憶部１
４に記憶する。

【００１１】［一次フィルタリングサーバ］一次フィル
タリングサーバでは、前処理としてテキストパターンマ
ッチング処理を用いて分類コードを付与し、オートマト
ンのフィルタリングにより銘柄コードを付与し、更にノ
イズ除去辞書（テーブル）を参照して、ノイズを除去す
る処理を行う。かかる処理を行う一次フィルタリングサ
ーバ１２は、テキストデータから余分な空白を削除した
りして整形するテキスト編集部１２１と、テキストデー
タに対して分類コードを付与する分類コード付与部１２
２と、テキストデータに対して識別コードである銘柄コ
ードを付与する銘柄コード付与部１２３と、銘柄コード
が付与されたテキストデータからノイズを除去するため
のノイズ除去部１２４と、テキストデータを一回走査す
るだけで、多くのフィルタリング条件を照合することが
できるテキストサーチエンジン１２５とを備える。一次
フィルタリングサーバは、この他に、検索サーバや二次
フィルタリングサーバに送るデータを１レコードとした
テキストデータをバックアップデータとしてバックアッ
プ記録部１８に記録する。システムがクラッシュした
り、或はバックアップデータを他で活用したいときに、
このバックアップデータを使用する。テキスト編集部１
２１は、受信したテキストデータを整形する。すなわ
ち、通常、ニューステキストの中には、画面に表示する
ときに見やすくするために、テキストの両側にスペース
が挿入されている場合がある。このような独自整形がス
ペースでされていると、検索時やフィルタリング時にお
ける単語の泣き別れが生じたり、クライアント端末でHT
LM表示を行うときに不便である。このため、テキストデ
ータの整形が必要となる。また、テキスト編集部は、ニ
ュース本文から、センテンスの切れ目以外の改行を取り
除いたり、半角カタカナを全角カタカナに変換する処理
を行う。更に、テキスト編集部は、検索エンジンが扱う
データの形式が項目毎にカンマで区切られたＣＳＶ形式
であるので、テキストデータとコードとをＣＳＶ形式に
変換して出力する。

【００１２】［分類コード付与部］次に、分類コード付
与部１２２における処理について説明する。分類コード
には、例えば、投資家の立場に立った場合、情報源のコ
ード、情報のカテゴリーのコード、人事情報のコード、
格付情報のコード等が必要となる。分類コードは、分類
変換テーブルの指示に従って、ジャンル・コードとニュ
ース・タイトル（見出し）からソース（情報源）番号、
ジャンル番号、（ジャンル）詳細番号、日英種別へ変換
する。分類コードを付与する分類変換テーブルは、図２
（Ａ）に示すルールにしたがって、項目間をカンマで区
切ったＣＳＶ（図２（Ｂ）参照）とする。項目名のジャ
ンル・コードは、送られてくるニュースに予め付けられ
ているコードである。対象フィールドは、検索する対象
が「設定なし」、「タイトル」、「本文」の３つに区分
される。演算子としては、完全一致、前方一致、後方一
致、中間一致、囲み文字内中間一致を設けている。囲み
文字１は、演算子で「囲み文字内中間」を使うときに、
囲み開始の文字を定義するものであり、囲み文字２は、
その終了文字を定義するものである。ソース番号は、ジ
ャンル・コードに対応する番号を入れる。情報源がどこ
であるのかは、このコード番号を見て判断する。ジャン
ル番号は、ＮＡＡ（ Nikkei Asahi All ）の中で演算子
の条件によって割り当てられる番号である。詳細番号
は、ジャンル番号を更に細分化して使用する場合に用い
る。ジャンル番号と詳細番号を見ることにより、当該テ
キストデータが人事情報であるのか、格付情報であるの
か等の判断を行うことができる。日英番号は、日本語ニ
ュースのときは、「０」を英語ニュースのときは「１」
を付ける。有効日数は、ニュースを検索可能とする期間
を発行日からの日数によって示すものである。次に、図
２（Ｂ）を参照してＣＳＶの具体例について説明する。
同図（Ｂ）の一行目は、ＮＡＡというジャンルで、タイ
トルに前方一致で＜朝日＞があったら、ソース（情報
源）番号として「１」、ジャンル番号として「２」、日
英番号として「０」、有効日数として「０」を付与する
ことを意味する。尚、この例では、詳細番号は省略され
ている。また、同図（Ｂ）の最終行は、ＮＡＡというジ
ャンルで、墨付き括弧で囲まれた文字内にＮＱＮの文字
列があれば、ソース番号として「１」、ジャンル番号と
して「８」、詳細番号として「５」、日英番号として
「０」、有効日数として「０」を付与することを意味す
る。

【００１３】このような分類変換テーブルを使って、送
られてきたテキストデータに対してテキストパターンマ
ッチングを行って、分類コードを付与する。また、でき
るだけ処理時間を短縮するため及び処理手順を単純化す
るために、分類変換テーブルの上から順にマッチングを
行い、ヒットしたら、その分類番号を付与し、それ以後
の検索は行わないことにする。したがって、優先させた
い分類番号はこのテーブルの上の方に置くように配慮す
る必要がある。この処理では、使用する演算子の殆どは
前方一致か後方一致であるので、タイトルや本文の先頭
か最後尾の文字列だけを照合するだけであるので、この
処理時間は極めて短い。

【００１４】［銘柄コード付与部］次に、銘柄コードの
付与について説明する。図３は銘柄コードを付与すると
きに用いる銘柄辞書の一部を示す図である。銘柄辞書４
２ａは、図３に示すように、銘柄コード、例えば６６０
１と、銘柄名、例えば日本、日本製作所、Nihon を記述
したテーブル形式の辞書である。銘柄辞書は予め各銘柄
コード毎に作成して記録しておく。銘柄辞書は、システ
ムを立ち上げたときに、オートマトンに展開しておき、
新たに上場された銘柄や廃止された銘柄の情報を取り込
むために、一日に一回、例えば夜中の１２時にシステム
を立ち上げ直すことにより書きかえる。かかるシステム
の立ち上げは瞬時に行われるので、配信サービスに影響
を及ぼすことはない。

【００１５】また、タイトル中に「人事」という文字列
が有れば、本文の検索は行わないこととすることによ
り、銘柄コードを付与する際のノイズを低減することが
できる。人事に関するニュースには、本田、武田、松下
等の人名が記述されていることが多く、これらの人名
が、本田技研自動車、武田薬品工業、松下電器産業等の
企業名と同じであることから、人事に関するニュースに
銘柄コードを付与してしまうことが多い。このように人
名は、銘柄名と同じものが多いので、予め、テキストデ
ータのタイトルに「人事」の文字列があるときには、分
類コードを付与するときに、人事に関するデータである
旨のコードを付与する。このコードが付与されたテキス
トデータをオートマトンのフィルタリングの対象テキス
トデータとしないことにより、銘柄コード付与の処理速
度の向上と、ノイズの低減を図ることができる。

【００１６】銘柄コード付与部１２３は、銘柄辞書をオ
ートマトンに展開しておき、受信したテキストデータを
リアルタイムでテキストサーチエンジンに入力して、走
査する。テキストデータの中に該当する文字列があれ
ば、その文字列に対応する銘柄コードを出力する。出力
された銘柄コードは、半角の数値でテキストデータの予
め定めた、所定の位置に記述される。例えば、日本製作
所の場合は、６６０１のコード番号をテキストデータと
区分して付与する。テキストデータは、タブコードによ
り配信元の情報、タイトル、本文、日付、時間等の幾つ
かの項目に分けられている。そこに銘柄コードの項目を
作り込んで、対応する銘柄コードを数値で付与する。こ
のようにして、銘柄コードを付与したテキストデータを
もとに次のノイズ除去の処理が行われる。

【００１７】［ノイズ除去部］次に、ノイズ除去につい
て説明する。オートマトンのフィルタリング処理はリア
ルタイムで処理できるが、ノイズが多いので、そのノイ
ズを低減する工夫が必要となる。ノイズの除去を、各ユ
ーザ毎に行うことも可能ではある。しかしながら、ユー
ザが確実なノイズ除去の条件式を作成することは容易な
ことではなく、またオートマトンのサイズが大きくなり
すぎるので、現実的でない。そこで、本実施形態では、
オートマトンのフィルタリング処理による銘柄コードを
付与した後で、ノイズ除去部によりノイズを除去してい
る。図４（Ａ）はノイズ除去辞書の記述方法を示す図で
あり、同図（Ｂ）は（Ａ）の記述方法により記述したノ
イズ除去辞書の一部を示す図である。ノイズ除去辞書４
２ｂは、図４（Ａ）に示すルールに基づき、ＣＳＶ（Co
mma Separated Value ）テキストにより作成される。す
なわち、各銘柄コード毎に第１カラムには、銘柄コード
として数値、例えば日本製作所の場合は６６０１を記述
する。第２カラムには、チェックの対象となる銘柄名、
例えば日本を、第３カラムには、オペレーションコード
と文字列を必要な個数分記述する。例えば、＠１化，＠
１電，＠１情，＠１市と記述する。以後、この３つのカ
ラムを１のセット、すなわち銘柄コードと、チェックの
必要のある銘柄名と、オペレーションと文字列を組みに
したものと、を１のセットにし、かかるセットの記述を
繰り返すことによりノイズ辞書を作成する。作成した
ら、ノイズ除去辞書も登録しておく。

【００１８】本実施形態の銘柄辞書を使用すると、例え
ば銘柄コード６６０１は、テキストデータのなかに対象
文字列として「日本」、「日本製作所」、「Nihon 」の
何れかの文字列が有れば、そのテキストデータに銘柄コ
ード６０５１が付与される。したがって、このテキスト
データの中に、「日本化成」、「日本情報エンジニヤリ
ング」、「日本電線」、「日本市」の文字列がある場合
にも、銘柄コード６６０１が付与される。このように、
図４に示す銘柄辞書を使用して銘柄コードを付与する
と、ノイズを含むようになる。もちろん対象文字列を
「日本製作所」だけにすれば、ノイズのない銘柄コード
付与ができる。しかしながら、銘柄辞書をこのように作
成すると、テキストデータの中で、日本製作所のこと
が、略称で「日本」と記述されているものを検索するこ
とができない。すなわち、フィルタリング結果が信頼性
の低いものとなってしまう。そこで、本実施形態では、
第１段階では、オートマトンのフィルタリングを用いて
この様な略称をも含めた文字列の検索を行って、銘柄コ
ードの付与を行い。第２段階で、ノイズ除去部を用いて
ノイズを除去することとしている。

【００１９】ノイズ除去部１２４は、銘柄コード付与部
１２３で暫定的に付与された銘柄コードを確定する処理
を行う。すなわち、暫定的に付与された銘柄コード毎
に、ノイズ除去辞書を参照して当該銘柄コードを除去す
るか否かを判断する。例えば、銘柄コード６６０１につ
いては、テキストデータ中の文字列「日本」の後方に
「化」や「電」や「市」が有れば、このテキストデータ
に付与した銘柄コード６６１０を除去する。このように
図４に示すルールに基づき作成した辞書を参照すること
により、ノイズを除去して銘柄コードを確定する。

【００２０】このノイズ除去辞書を育てることにより、
ノイズ除去の精度を向上させることができる。このノイ
ズ辞書は、サイズが大きくなっても、処理時間に影響を
及ぼすことはない。付与された銘柄コードについての
み、必要な参照をすれば足りるので、このノイズ処理に
より処理時間がかかり、リアルタイム処理ができなくな
ることはない。

【００２１】また、ある特定の分類コードが付与された
もの、例えば人事に関するニュースの場合は、通常、タ
イトル（見出し）が「○×会社の人事」となっているの
で、タイトルだけを検索して、銘柄コードを付与する。
これにより、銘柄コードを付与するにあたり、生ずるノ
イズを低減して、迅速なフィルタリング処理を行うこと
ができる。

【００２２】［二次フィルタリングサーバ］二次フィル
タリングサーバ２４は、ユーザが設定したフィルタリン
グ条件でオートマトンのフィルタリングを行うフィルタ
リング部２４１と、オートマトンのフィルタリングによ
ってヒットしたプロファイルについてコードを確認する
コード確認部２４２と、テキストデータを一回走査する
だけで多くのフィルタリング条件を照合することができ
るテキストサーチエンジン２４３とを備える。また二次
フィルタリングサーバは、ユーザが設定したフィルタリ
ング条件をプロファイル情報記録部２６３に記憶し、ま
たユーザからのヒットデータがあるか否かの問い合わせ
に対して、フィルタ結果記録部２６２を参照して応答す
る。更に、新たなユーザが加わったり、ユーザのオプシ
ョンが変更になったりするので、一日に一回、管理者が
設定したユーザテーブル４１を参照して、更新されたユ
ーザ情報をユーザ情報記録部２６１に記録する。プロフ
ァイル情報記憶部２６３は、各ユーザ毎のフィルタリン
グ条件を記録するものである。フィルタリング結果記録
部２６２は、二次フィルタリングした結果であるテキス
トデータの見出しを記録しておくものである。このフィ
ルタリング結果である見出しは、クライアントからの指
示により、ウエブサーバのフィルタリング部を介して、
クライアントの表示装置に表示される。尚、本文は、デ
ータベース２２に記録され、ウエブサーバの検索部を介
して、クライアントの表示装置に表示される。各プロフ
ァイル毎に３０件分のフィルタリング結果を記録する。
本実施形態では、プロファイルは予め一のユーザ毎に９
件の登録を行うことができる。このようにフィルタリン
グ結果を記録しておくことにより、フィルタリング結果
を再利用することができる。すなわち、このフィルタリ
ング結果をリアルタイムで表示するだけでなく、ユーザ
が必要とするときに何時でもフィルタリング結果を表示
することができる。フィルタリング結果を記録していな
い従来のシステムに比べて本実施形態のシステムは使い
勝手が良くなる。

【００２３】確定した銘柄コードが付与されたテキスト
データは、二次フィルタリングサーバで、フィルタリン
グ処理される。プロファイル情報記録部２６３には、予
め各ユーザ毎がフリーキーワードと銘柄コードと論理演
算子とを用いて作成したフィルタリング条件が登録され
ている。フィルタリング部２４１は、このフィルタリン
グ条件をオートマトンに展開しておき、受信した銘柄コ
ード付テキストデータをリアルタイムでテキストサーチ
エンジンに入力して走査する。フィルタリング条件に合
致するものがあれば、ウエブサーバを介してその旨を該
当するユーザに通知する。これによりテキストデータを
リアルタイムでユーザに配信することができる。

【００２４】ところで、ユーザが銘柄コードとして例え
ば、１９９８を設定した場合、フィルタリング対象とな
ったテキストデータ中に年号の１９９８がある場合に
も、このテキストデータがヒットされてしまう。このた
め、銘柄コードについては、テキストデータがヒットさ
れた後に、その銘柄コード、この場合１９９８がテキス
トデータの銘柄の項目にあるか否かを確認する。タブで
区切られた銘柄の項目を見て、そこに無ければ、ノイズ
であると判断する。検索するときに、銘柄項目の個所だ
けを見て、銘柄コードの検索を行えば、この様なノイズ
は生じない。しかしながら、この方法は、全ての銘柄コ
ードについて調べなければならないので、時間がかか
る。したがって、オートマトンで他のフリーキーワード
と一緒に一回の走査で照合して、後でヒットした銘柄コ
ードだけを個別にチェックする方が処理速度の点で優れ
ている。

【００２５】二次フィルタリングサーバのオートマトン
はユーザがフィルタリング条件を変更する都度、変更後
のフィルタリング条件をオートマトンに展開し直す。し
かしながら、このオートマトンのサイズは、銘柄辞書の
文だけ従来のものよりサイズが小さいので、従来のシス
テムに比べてオートマトンへ再展開するときの処理時間
を短縮することができる。

【００２６】また、ユーザテーブルには、ユーザ毎に検
索できるニュース源が個別に設定されている。オートマ
トンのフィルタリング処理によりヒットしたものについ
て、更に、このユーザテーブルを参照して、このニュー
ス源が有料であれば、これを買っているか否かも判断す
る。このようにして徐々に絞り込みを行ってノイズの無
いデータをユーザに配信する。

【００２７】本実施形態のように、オートマトンを用い
てフィルタリングした結果から、銘柄コードの確認処
理、テーブル参照処理、というふうに徐々に絞り込むよ
うにして検索処理を行うことにより、効率良く且つ正確
な検索を行うことができる。言い換えれば、リアルタイ
ムでノイズの少ないフィルタリング処理を行うことがで
きる。

【００２８】なお、本実施形態の一次フィルタリングサ
ーバ及び二次フィルタリングサーバで使用するテキスト
サーチエンジンは、市販されているものを使用してい
る。このテキストサーチエンジンは、実体は数個の関数
として提供されている。ここでは、これらの関数につい
ての詳細な説明は省略する。［検索サーバ］検索サーバ２０は、全文検索エンジン２
０１や図示しないシソーラス機能を備える。全文検索エ
ンジンは、リアルタイムでテキストデータを登録した
り、検索したりすることができるエンジンである。全文
検索には、ｎグラムインデックス法やビットマップイン
デックス法等の種々の手法があるが、本全文検索エンジ
ンには、テキストデータ登録時の処理速度をできる限り
速めたエンジン、すなわちフィルタリング処理と同等以
上の処理速度を有する全文検索エンジンを使用してい
る。これにより、フィルタリングだけでなく、リアルタ
イムの登録・検索も可能となる。また、本全文検索エン
ジンは、テキストデータの検索以外にも、データベース
に必要な基本性能を有する。例えば、日付、数値及び文
字列の項目を定義することができる。本実施形態では、
この全文検索エンジンは市販のものを用いている。した
がって、この全文検索エンジンについての詳細な説明は
省略する。

【００２９】［ウエブサーバ］ウエブサーバ２８は、検
索部２８１と、フィルタリング部２８２と、メイン部２
８３とを有し、クライアントとのテキストデータ等の送
受を制御するサーバである。検索部２８１は、クライア
ントの表示装置に検索画面を表示し、リアルタイムでフ
ィルタリングした結果を含む過去分のテキストデータに
対してユーザが行う検索を制御する。フィルタリング部
は、フィルタリング画面をクライアントの表示装置に表
示し、フィルタリング結果をリアルタイムでクライアン
トに知らせたり、クライアントが設定したフィルタリン
グ条件を二次フィルタリングサーバに送ったりする。メ
イン部２８３は、アクセスするユーザの名前、ＩＤ番
号、ユーザが買っているオプションを確認してアクセス
を認めるか否か等の制御を行う。クライアント側ではブ
ラウザを使用している。尚、本実施形態では、ウエブサ
ーバとブラウザで本システムとクライアントと間の情報
の送受を行っているが、本発明はこれに限られるもので
はなく、他のクライアント・サーバ型やメールサーバ等
を用いるようにしても良い。

【００３０】また、ユーザテーブル４１や辞書テーブル
４２は、システムの管理者がその内容を設定する。［実施形態の動作］図５は一次フィルタリングサーバに
おいて銘柄コードを付与するときのフローチャートであ
る。本フローはシステムを立ち上げたときに実行され
る。ステップ１では、辞書テーブル４２から銘柄辞書を
読み込んで、オートマトンに展開しておく。ステップ２
では、同じく辞書テーブル４２からノイズ除去辞書を読
み出してメモリ上に展開する。この状態でデータ受信サ
ーバからのテキストデータの送信を待つ（ステップ
３）。データ受信サーバからテキストデータが送信され
れば、ステップ４に移行して、そのテキストデータに対
して、テキストパターンマッチングにより前述した情報
源等を示す分類コードを付与する。テキストデータが無
ければ、ステップ９に移行して、システムを終了するか
否かを判断する。次に、銘柄辞書を参照してフィルタリ
ングを行い、そのテキストデータに該当する銘柄コード
を暫定的に付与する。この銘柄コードは１つに限られる
ものではなく、該当するものが複数あれば、その全ての
銘柄コードを付与する。

【００３１】ステップ６では、暫定的に付与された各銘
柄コードについて、ノイズ辞書を参照し、ノイズ辞書に
記述されたノイズであれば、その銘柄コードを削除す
る。このようにして、暫定的に付与された銘柄コードを
確定する。確定した銘柄コードが付与されたテキストデ
ータは、検索サーバに送られるとともに（ステップ
７）、二次フィルタリングサーバに送られる（ステップ
８）。次に、ステップ９でシステムを終了するか否かを
判断し、終了でなければ、ステップ３に移行してテキス
トデータの受信を待ち。終了であれば、一次フィルタリ
ングサーバにおける処理を終了する。

【００３２】図６は二次フィルタリングサーバにおい
て、ユーザが設定したフィルタリング条件でフィルタリ
ングを行うときのフローチャートである。本フローはシ
ステムを立ち上げたときに実行される。ステップ１で
は、ユーザ名やユーザＩＤ情報を含むユーザ情報をデー
タベース及びメモリ上に展開する。ステップ２では、ユ
ーザが設定したプロファイル情報をオートマトンに展開
し、一次フィルタリングサーバからの分類コード及び銘
柄コードが付与されたテキストデータの受信を待つ。テ
キストデータが無ければ、ステップ１０に移行して終了
か否かを判断する。終了でなければ、ステップ３に戻っ
てテキストデータの受信を待つ。一次フィルタリングサ
ーバからテキストデータが送られてきたら、ステップ４
でオートマトンによるフィルタリングを行う。フィルタ
リングによりヒットしたプロファイルがあれば、そのプ
ロファイルについてのみ、銘柄コードのノイズがないか
確認する。例えば、あるプロファイルの中に、銘柄コー
ドとして１９９８があると、テキストデータの本文中に
１９９８という年号標記があっても、銘柄コードの１９
９８と誤って検出してしまう。このため、ヒットしたプ
ロファイル中の銘柄コードについて、テキストデータ中
の銘柄コードの項目に記述されているものであるか否か
を確認する。１９９８が銘柄コードの項目ではなく、本
文中に記述されたものであれば、ノイズであると判断す
る。ステップ６でプロファイルのヒット数分、例えばヒ
ットしたプロファイルが１０個あれば、その１０個分の
処理をしたか否かを判断し、終了していれば、次のニュ
ースの受信を待つ。終了していなければ、ステップ７に
移行して、その他のコード条件と一致しているか否かを
判断する。すなわち、ユーザが指定した分類コードに該
当するか、例えば指定した分野や、指定した言語（日本
語か英語）かを判断する。オートマトンのフィルタリン
グでは、分類コードの情報を判断することはできないの
で、分類コードの判断は、フィルタリングとは別個に調
べる必要がある。ステップ８では、更にそのユーザが、
ヒットした情報源のアクセス権があるか否か、すなわち
ユーザがその情報源を買っているか否かをユーザテーブ
ルの情報を参照して判断する。ステップ７及びステップ
８での処理は、ヒットしたプロファイルのみについて行
えばよいので、リアルタイム処理が可能である。ステッ
プ８の判断でアクセス権があると判断すれば、ステップ
９でフィルタリング結果をフィルタリング結果記録部に
記録するとともに、ウエブサーバのフィルタリング部を
介して、ヒットしたことをユーザに通知する。また、ス
テップ７及びステップ８でＮＯと判断された場合、この
テキストデータは、そのプロファイルを登録したユーザ
へは配信されない。

【００３３】［検索画面］次に、図７を用いて検索条件
を設定する場合について説明する。クライアントの端末
を立ち上げ、ウエブサーバとの通信を確立した上で、図
７の画面を用いて検索条件を設定する。図７に示す検索
画面のウィンドウ５１内に配置されている検索語の欄に
は、検索したい文字（フリーキーワード）と論理演算子
を入力する。銘柄コード欄には、銘柄コードを数値で入
力する。複数の銘柄コードを所定の記号で区切って入力
することにより、検索語と銘柄コードのＡＮＤ条件を指
定することができる。保存条件の欄には、作成した検索
条件を保存するときの名前を入力する。この欄に名前を
入力して保存釦をクリックすると、保存検索条件のプル
ダウンメニーに入力した名前で登録される。本実施形態
では、検索条件を合計１０個まで登録することができ
る。登録した検索条件は、検索サーバに保存される。期
間指定の欄では、検索する期間を入力する。表示オプシ
ョンの欄では、表示の順序や表示の本数を設定する。ソ
ースの欄では、検索対象とする情報源をクリックして指
定する。尚、ここで表示される情報源数はユーザとの契
約により、その内容が決まる。

【００３４】図７の画面を用いて検索条件を設定とする
と、例えば、日本、首相等の文字を入力して真下の検索
釦をクリックすると、検索が実行され、データベースの
中から日本と首相の文字を含むテキストデータが検索さ
れ、その見出しのリストがウィンドウ５３に表示され
る。ここで、ユーザがある見出しをクリックすると、そ
の見出しに対応する本文がウィンドウ５４に表示され
る。これにより、過去分のテキストデータの中から、必
要なテキストデータを検索することができる。尚、過去
分といっても、本実施形態におけるテキストデータのデ
ータベースへの登録はリアルタイムで処理されるので、
リアルタイム入力される新しいテキストデータも検索対
象とされる。また、検索条件は保存釦を押して登録する
ことにより、再利用することもできるし、登録した検索
条件は呼び出して変更することも可能である。

【００３５】［フィルタリング画面］次に、図８を用い
てフィルタリング条件を設定する場合について説明す
る。図７の画面で最上段のウィンドウ５１内のフィルタ
リング釦をクリックすると、画面の表示が図８のものに
変わる。ウィンドウ５２、ウィンドウ５３及びウィンド
ウ５４の機能は基本的に図７に示すものと同様である。
ウィンドウ５４内の保存プロファイルの欄は、設定した
フィルタリング条件を登録する欄である。ここに名前を
入れて、保存釦をクリックすると、この画面で設定した
フィルタリング条件が二次フィルタリングサーバに登録
される。また、登録したプロファイルの名前は、最上段
のウィンドウ５２内の下部にある通知エリアに表示され
る。本実施形態では、合計９個まで、プロファイルを登
録することができる。

【００３６】図８の画面を用いてフィルタリング条件を
設定とする。例えば、検索語の欄に提携と入力し、検索
画面の場合と同様にして銘柄コードを入力し、ソース欄
で情報源を指定して保存プロファイルの欄にプロファイ
ル名を入力し、保存釦をクリックする。すると、ウィン
ドウ５２の下部にある通知エリアの数値「１」の後にそ
のプロファイル名が表示され、リアルタイムで本実施形
態のシステムが受信するテキストデータに対してフィル
タリングが実行される。システムが受信したテキストデ
ータがその登録したフィルタリング条件に該当すれば、
ウィンドウ５２の通知エリアに登録したプロファイル名
にマークを付け点滅表示して、そのプロファイル名に該
当するニュースがヒットしたことをユーザに知らせる。
ユーザがその点滅表示されているプロファイル名をクリ
ックすると、ヒットしたテキストデータの見出しがウィ
ンドウ５３に表示される。また、表示された見出しをク
リックすると、ウィンドウ５４にその見出しに対応する
テキストデータの本体が表示される。このようにしてフ
ィルタリング条件を予め登録しておくことにより、時々
刻々発生するニュースをリアルタイムで取り込んで、読
むことができる。尚、登録したフィルタリング条件は呼
び出して、変更することも可能である。また、設定した
フィルタリング条件を登録する前に、確認検索釦をクリ
ックすることにより、この条件で検索を行って検証する
ことができる。

【００３７】尚、図７及び図８に示す画面では、ヒット
した場合に、見出しのみ表示する場合ついて説明した
が、ヒットしたときに最新のテキストデータの本文を自
動で、ウィンドウ５４に表示するようにしてもよい。ま
た、図７及び図８では、図を簡略化するために、分類コ
ードの設定欄を省略したが、銘柄コードと同様にして、
分類コードの設定を行うことができる。

【００３８】［実施形態の効果］上記の本実施形態で
は、銘柄コードを用いることにより、多数の銘柄コード
を指定して高速でフィルタリングすることが可能となっ
た。従来のオートマトンを用いる方法では、一つの銘柄
のフィルタリング条件を作成する際に、正式名称の他
に、複数の変形名称、例えば略称、アルファベットの大
文字、小文字、カタカナ、ひらがな等を考慮するので、
フィルタリング条件式が長くなる。したがって、複数の
ユーザの各々が約３０００の銘柄の中から１００乃至２
００近い銘柄を指定してフィルタリング条件を登録する
と、従来のオートマトンを用いる方法では、処理時間が
かかり、リアルタイムでテキストデータを処理すること
はできなかった。これに対して本実施形態では、予めテ
キストデータに銘柄コードを付与することにより、以後
のフィルタリング処理等を高速化することができるの
で、全体としてフィルタリング処理の高速化、リアルタ
イム処理が可能になった。

【００３９】また、従来のオートマトンを用いる方法で
は、ユーザが銘柄コードを追加、削除、変更等するたび
に、大きなオートマトンを作り直す必要があり、これも
リアルタイム処理の障害となっている。これに対して、
本実施形態では、各ユーザが銘柄を変更しても、銘柄コ
ードを付与する側のオートマトンは組み替える必要がな
い。頻繁に組み替えられる可能性があるユーザが設定す
るプロファイルは、サイズの小さい二次側のオートマト
ンに展開することにより、ユーザによる銘柄の変更に対
して、リアルタイムに応答することが可能となる。

【００４０】上記の本実施形態では、約３０００ある銘
柄コードの付与を一次側で行っておくことにより、ユー
ザの銘柄変更に対しても、二次側の小さなサイズのオー
トマトンを組み替えるだけで良いので、リアルタイム処
理が可能となった。従来のシステムでは、ノイズを除去
する場合、各ユーザ毎に行わなければならなかった。し
たがって、従来のシステムでは、ノイズを除去する処理
を各ユーザが設定し、システムのオートマトンは、重複
したノイズ除去を行わざるを得なかった。このため、オ
ートマトンのサイズが大きくなり、リアルタイム処理が
困難となっていた。これに対して本実施形態では、一次
フィルタリングの後、ノイズを除去するが、このノイズ
除去の処理をユーザ全員が共有できる。これによりノイ
ズを確実に除去することができるとともに、処理速度の
向上を図ることができる。

【００４１】上記の本実施形態によれば、キーワードに
よる全文検索の他、銘柄コード（最大２２５銘柄／プロ
ファイルまで）や分類コードによる検索も行うことがで
きる。また、ユーザが予めキーワードによる自動監視条
件を設定しておくと、システムが受信するニュースをリ
アルタイムで監視し、該当するニュースが発生すると、
自動的にユーザに通知し、ユーザはその内容を見ること
ができる。

【００４２】［他の実施形態］なお、本発明は、上記の
実施形態に限定されるものではなく、その要旨の範囲内
において種々の変形が可能である。例えば、上記の実施
形態では、検索画面とフィルタリング画面とを切り換え
て表示する場合について説明したが、この両画面を一つ
の画面に表示するようにしてもよい。また、上記の実施
形態では、各機能ごとに別個のサーバを用いる場合につ
いて説明したが、１台のサーバで処理するようにしても
よい。更に、上記の実施形態では、テキストデータが金
融証券情報に関するものである場合について説明した
が、テキストデータはスポーツや芸能に関するデータ或
は企業の社内情報であってもよい。

【００４３】

【発明の効果】以上説明したように本発明によれば、リ
アルタイムで入力される日本語テキストデータをオート
マトンを用いたフィルタリングによりリアルタイムで走
査して銘柄コードを自動付与し、これよりリアルタイム
で入力される日本語テキストデータを銘柄コードにより
検索したりフィルタリングすることができるテキストフ
ィルタリングシステム及びテキストフィルタリング方法
を提供することができる。

【図面の簡単な説明】

【図１】本発明の一実施形態であるテキストフィルタリ
ングシステムのブロック図である。

【図２】分類変換テーブルを説明するための図である。

【図３】銘柄辞書を示すである。

【図４】ノイズ除去辞書を説明するための図である。

【図５】一次フィルタリングサーバにおいて銘柄コード
を付与するときのフローチャートである。

【図６】二次フィルタリングサーバにおいて、ユーザが
設定したフィルタリング条件でフィルタリングを行うと
きのフローチャートである。

【図７】検索画面を示す図である。

【図８】フィルタリング画面を示す図である。

【符号の説明】

１０電子情報源１２データ受信サーバ１４ニュースキューファイル記憶部１６一次フィルタリングサーバ１８記録部２０検索サーバ２２データベース２４二次フィルタリングサーバ２６記録部２８ウエブサーバ

───────────────────────────────────────────────────── フロントページの続き (72)発明者佐藤邦雄東京都渋谷区南平台町15−15 南平台今井ビル５階株式会社キューズ・クリエイティブ内Ｆターム(参考） 5B075 ND03 NK02 PR08 QM01 QS01 5B089 GA11 HA10 JA33 JB01 KA05 KA11 KC54 KH00 KH02

Claims

【特許請求の範囲】

【請求項１】所定の文字列とその文字列に対応する識
別コードを記述した辞書をオートマトンに展開してお
き、入力されるテキストデータに対してフィルタリング
を実行し、該当する文字列が前記テキストデータにあれ
ば、対応する識別コードを前記テキストデータに付与す
る識別コード付与手段と、前記識別コードを付与されたテキストデータに対して、
前記文字列の前後に付く文字を検索し、予め定めた文字
が付いていたときには、前記付与された識別コードを削
除することにより識別コードを確定するノイズ除去手段
と、を具備することを特徴とするテキストフィルタリングシ
ステム。
【請求項２】予め各ユーザ毎にフリーキーワードと前
記識別コードと論理演算子を用いて作成して登録したフ
ィルタリング条件をオートマトンに展開し、前記識別コ
ードが付与されたテキストデータを走査して、フィルタ
リングした結果を出力するフィルタリング手段を備える
ことを特徴とする請求項１記載のテキストフィルタリン
グシステム。
【請求項３】請求項２で出力されたテキストデータに
付与された識別コードについて、前記テキストデータ中
の予め定めた所定の位置に記述されていないないとき
に、その識別コードはノイズであるとして、除去するノ
イズ除去手段を備えることを特徴とするテキストフィル
タリングシステム。
【請求項４】前記識別コードを付与されたテキストデ
ータをリアルタイムで、データベースに登録し、管理す
る機能を有する全文検索エンジンを備えることを特徴と
する請求項１，２又は３記載のテキストフィルタリング
システム。
【請求項５】前記識別コードは、銘柄コードであるこ
とを特徴とする請求項１，２，３又は４テキストフィル
タリングシステム。
【請求項６】入力されるテキストデータに対して、前
記テキストデータのタイトル及び本文のうち少なくとも
一方について、前方一致、後方一致、完全一致及び中間
一致の各演算子のうち少なくとも一つの演算子を用いて
検索することにより前記テキストデータに情報源を示す
コード、情報カテゴリー等を示すコード及び日本語か英
語かを示すコードのうち少なくとも一つの分類コードを
付与する分類コード付与手段を備えることを特徴とする
請求項１，２，３，４又は５テキストフィルタリングシ
ステム。
【請求項７】一次処理として、プレフィルタリングに
より識別コードを付与する工程と、付与された識別コー
ドについてノイズを除去する工程とを備え、二次処理として、ユーザが設定したフィルタリング条件
によりフィルタリング処理を行う工程と識別コードにつ
いてのノイズを除去する工程とを備えることを特徴とす
るテキストフィルタリング方法。