JP2005018344A - キーワードベクトル辞書生成装置とシステムおよびプログラム - Google Patents
キーワードベクトル辞書生成装置とシステムおよびプログラム Download PDFInfo
- Publication number
- JP2005018344A JP2005018344A JP2003181218A JP2003181218A JP2005018344A JP 2005018344 A JP2005018344 A JP 2005018344A JP 2003181218 A JP2003181218 A JP 2003181218A JP 2003181218 A JP2003181218 A JP 2003181218A JP 2005018344 A JP2005018344 A JP 2005018344A
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- time
- vector dictionary
- weight value
- keyword vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】コンピュータ処理による文書の特徴の判別に用いるキーワードベクトル辞書を生成する際、キーワードベクトル辞書記憶部109において、キーワードと当該キーワードの重み値を記憶し、演算実行部103において、キーワードベクトル辞書記憶部109で記憶したキーワードの、記憶してからの経過時間に応じて当該キーワードの重み値を減衰する。
【選択図】 図1
Description
【発明の属する技術分野】
この発明は、コンピュータが文書を判別するため基準となる辞書(キーワードベクトル辞書)を生成する技術に係わり、特に、キーワードベクトル辞書の精度を向上させるのに好適な技術に関するものである。
【0002】
【従来の技術】
コンピュータ処理により文書を判別するための基準となる辞書を生成する従来の技術としては、例えば、学習データとして入力される文書中のキーワードの出現頻度を加算して、その加算値で重みを付与する技術がある。この技術によれば、同じような回数でキーワードが出現する点が類似した文書を判別することが可能となる。
【0003】
例えば、特許文献1においても、その実施例における重み付けの例としてこの技術が用いられている。
【0004】
しかし、この技術では、過去に用いた学習データのキーワードであっても、最近用いた学習データのキーワードであっても、同じ重みが付与されるため、刻々と内容が変化する文書を学習データとして用いる場合に、過去のキーワードの重みが影響する問題点がある。
【0005】
また、例えば、特許文献2に記載のように、コンピュータにより文書を判別するための基準となる辞書に相当するデータベースを生成する技術として、文書送信者のアドレスを用いる技術がある。
【0006】
この技術では、受信したメールが不要メールであると利用者が判断した際に、ネットワーク上の発信者評価パラメータ記憶装置に、発信者の評価ポイントを下げて登録する。そして、メール受信時に該メールの発信者のアドレスをキーにして、発信者評価パラメータ記憶装置の発信者の評価ポイントを検索し、メール発信者のアドレスの評価ポイントが下げられて登録されている場合は、不要メールである、といった文書の判別を実施している。
【0007】
しかし、この技術では、送信者が毎回異なる架空のアドレスを用いている場合は、送信者のアドレスで判別できないという問題が発生する。
【0008】
また、文書中のキーワードの条件で分類する技術も、古くから用いられている。しかし、この技術では、既知のパターンに則った文書は分類可能であるが、未知の文書の分類は困難であるという問題点がある。
【0009】
そして、これらの技術を含め、従来の技術では、学習データが入力されてから、判別するまでの経過時間が考慮されていない。そのため、刻々と内容が変化するような文書を学習データとして用いた場合、分類することが困難であった。
【0010】
【特許文献1】
特許第2978044号
【特許文献2】
特開2003−18324号公報
【0011】
【発明が解決しようとする課題】
解決しようとする問題点は、従来の技術では、学習データが入力されてから、判別するまでの経過時間が考慮されていない点である。
【0012】
本発明の目的は、これら従来技術の課題を解決し、刻々と内容が変化するような文書を学習データとして用いることを可能とすることである。
【0013】
【課題を解決するための手段】
上記目的を達成するため、本発明では、学習データとして入力される文書中のキーワードの出現した時刻の新旧によって、キーワードの重みを変えてキーワードベクトル辞書を生成することを特徴とする。例えば、キーワードの学習データとして入力されてから現在までの経過時間を、辞書を構成する要素の重みに反映することで、学習データの内容の変化が大きい場合においても、対応できるような辞書を生成する。
【0014】
【発明の実施の形態】
以下、本発明の実施の形態を、図面により詳細に説明する。
【0015】
図1は、本発明に係わるキーワードベクトル辞書生成装置の第1の構成例を示すブロック図である。
【0016】
図1におけるキーワードベクトル辞書生成装置は、CPU(Central Processing Unit)や主メモリ、表示装置、入力装置、外部記憶装置等を具備したコンピュータ構成からなり、光ディスク駆動装置等を介してCD−ROM等の記憶媒体に記録されたプログラムやデータを外部記憶装置内にインストールした後、この外部記憶装置から主メモリに読み込みCPUで処理することにより、各実行処理部の処理を行う。
【0017】
図1において、101は本例のキーワードベクトル辞書生成装置であり、キーワードベクトル辞書生成装置101は、減衰率算出実行部102、演算実行部103、時刻記憶実行部104、追加記録実行部105等の処理機能と、時間減衰関数記憶部107、時刻記憶部108、キーワードベクトル辞書記憶部109の記憶機能、および、現在時刻情報を読み取るタイマ106、例えば操作者の入力操作に基づきあるいは記憶媒体やネットワークからキーワードとその重み値を入力する入力部110を有する。
【0018】
このような構成からなる本例のキーワードベクトル辞書生成装置101では、コンピュータ処理による文書の特徴の判別に用いるキーワードベクトル辞書を生成する際、キーワードベクトル辞書記憶部109において、キーワードと当該キーワードの重み値を記憶し、演算実行部103において、キーワードベクトル辞書記憶部109で記憶したキーワードの、記憶してからの経過時間に応じて当該キーワードの重み値を減衰する。
【0019】
すなわち、キーワードベクトル辞書記憶部109においては、1以上のキーワードと当該キーワードの重み値を記憶する。これらのキーワードは、入力部110で入力され、追加記録実行部105を介してキーワードベクトル辞書記憶部109に格納される。
【0020】
このキーワードベクトル辞書記憶部109で当該キーワードを記憶した時刻を時刻記憶部108において記憶する。また、時間減衰関数記憶部107においては、予め、経過時間に対応した重み値の減衰率の算出に用いる時間減衰関数を記憶する。
【0021】
そして、減衰率算出実行部102においては、所定の契機に、時刻記憶部108で記憶した時刻とタイマ106で読み出される現在の時刻から経過時間を取得し、取得した経過時間に対応する重み値の減衰率を、時間減衰関数記憶部107から読み出した時間減衰関数に基づき算出する。
【0022】
このようにして減衰率算出実行部102で算出した重み値の減衰率に応じて、演算実行部103において、キーワードベクトル辞書記憶部109に記憶した当該キーワードの重み値を減衰して更新する。
【0023】
さらに、この演算実行部103によりキーワードの重み値を減衰した時刻に基づき、時刻記憶実行部104において、時刻記憶部108で記憶した当該キーワードの記憶時刻を更新する。
【0024】
以降、所定の契機で、時刻記憶実行部104で更新された時刻記憶部108の時刻に基づく減衰率算出実行部102による重み値の減衰率の算出と、演算実行部103による当該キーワードの重み値の減衰、ならびに、時刻記憶実行部104による時刻記憶b108における当該キーワードの記憶時刻の更新を行う。
【0025】
以下、その処理動作を更に詳しく説明する。尚、結果に違いが無い場合、以下に説明する処理順序が前後しても問題ない。
【0026】
図1のキーワードベクトル辞書生成装置101は、まず、減衰率算出実行部102において、タイマ106から現在時刻を、時間減衰関数記憶部107から時間減衰関数を、そして時刻記憶部108から前回実行時刻を取得する。
【0027】
例えば、現在時刻として「2003/05/28 17:00:00」、時間減衰関数として「t>1000:p(t)=0,t<=1000:p(t)=1−0.01×t」(ただし、tは1時間単位)、前回実行時刻として「2003/05/28 16:00:00」を取得する。
【0028】
そして、減衰率算出実行部102において、減衰率を算出する。前記の例の場合、現在時刻と前回実行時刻の差は、1時間であるため、時間減衰関数から減衰率を求めると、減衰率は「0.990」となる。
【0029】
次いで、演算実行部103」において、キーワードベクトル辞書記憶部109に格納されている全てのキーワードの重み値を減衰させる演算を行う。
【0030】
例えば、減衰演算として、以下のキーワードそれぞれの重み値に減衰率で積算を行った場合を考える。
【0031】
(キーワード) (重み値)
「.net」 「0.950」
「☆」 「1.000」
「未承諾」 「0.900」
「拒否」 「0.750」
【0032】
この場合、演算によって、下記の結果となる。
【0033】
(キーワード) (重み値)
「.net」 「0.941」
「☆」 「0.990」
「未承諾」 「0.891」
「拒否」 「0.743」
【0034】
このようにして、キーワードベクトル辞書記憶部109に格納されている全てのキーワードの重み値が減衰する。
【0035】
その後、時刻記憶実行部104において、現在時刻を時刻記憶部106に記憶させる。
【0036】
追加記録実行部105では、入力部110から入力されたキーワードに予め定めておいた重みを付与して、キーワードベクトル辞書記憶部109に追加記録を行う。
【0037】
例えば、入力キーワードが、「絶対儲かる」の場合で、予め定めておく重みが「1」の場合、以下のようにキーワードベクトル辞書記憶部109に追加記録する。
【0038】
(キーワード) (重み値)
「絶対儲かる」 「1」
【0039】
このようにして。キーワードベクトル辞書を生成することが可能となる。
【0040】
尚、初回実行の場合などで、前回実行時刻が格納されていない場合は、減衰率算出実行部102と、演算実行部103は実行しないものとする。
【0041】
図2は、本発明に係わるキーワードベクトル辞書生成装置の第2の構成例を示すブロック図である。
【0042】
図2におけるキーワードベクトル辞書生成装置201も図1におけるキーワードベクトル辞書生成装置101と同様のコンピュータ構成からなり、本例のキーワードベクトル辞書生成装置201は、追加記録実行部202、時刻付与部203、辞書初期化実行部207、経過時間算出実行部208、重み値算出実行部209、追加格納実行部211等の処理機能と、キーワード記憶部(図中「一時記憶部」と記載)206、時間重み関数記憶部210、キーワードベクトル辞書記憶部212の記憶機能、および、現在時刻情報を読み取るタイマ205、例えば操作者の入力操作に基づきあるいは記憶媒体やネットワークからキーワードとその重み値を入力する入力部204を有する。
【0043】
このような構成からなる本例のキーワードベクトル辞書生成装置201では、コンピュータ処理による文書の特徴の判別に用いるキーワードベクトル辞書を生成するために、キーワード記憶部206において、1以上のキーワードを記憶すると共に当該キーワードを記憶した時刻を記憶し、時間重み関数記憶部210においては、予め、経過時間に対応した重み値の算出に用いる時間重み関数を記憶しておく。
【0044】
尚、キーワード記憶部206に記憶されるキーワードは、入力部204で入力され、時刻付与部203において、タイマ205からの現在時刻(記憶時刻)が付与され、追加記録実行部202によりキーワード記憶部206に格納される。
【0045】
そして、経過時間算出実行部208において、所定の契機で、キーワード蓄積部206で記憶したキーワードと当該キーワードの記憶時刻を読み出し、この記憶時刻と現在時刻とから経過時間を取得する。
【0046】
この経過時間算出実行部208で取得した経過時間に対応する重み値を、重み値算出実行部209において、時間重み関数記憶部210から読み出した時間重み関数に基づき算出する。
【0047】
さらに、この重み値算出実行部209で算出した重み値を、追加格納実行部211により、当該キーワードと共にキーワードベクトル辞書記憶部212に記憶する。
【0048】
尚、辞書初期化実行部207において、所定の契機でキーワードベクトル辞書記憶部212におけるキーワードと重み値の記憶内容を初期化し、この辞書初期化実行部207によるキーワードベクトル辞書記憶部212に対する初期化後に、経過時間算出実行部208によるキーワード蓄積部206からのキーワードと重み値の読み出しと経過時間の取得、および重み値算出実行部209による重み値の算出、ならびに追加格納実行部211によるキーワードベクトル辞書記憶部212におけるキーワードと重み値の記憶を行うこととする。
【0049】
以下、本例のキーワードベクトル辞書生成装置201の処理動作を更に詳しく説明する。
【0050】
図2のキーワードベクトル辞書生成装置201では、例えば、入力部204でキーワードの入力があった際などを契機として、追加記録実行部202において、入力部204で入力したキーワードと、時刻付与部203で付与した時刻情報とを、キーワード蓄積部206に追加格納する。
【0051】
例えば、「高収入」というキーワードが「2003/05/29 10:00:00」に入力された場合、キーワード蓄積部206には、以下の内容が、れまで記録されているキーワード時刻に、追加して格納される。
【0052】
(キーワード) (時刻)
「高収入」 「2003/05/29 10:00:00」
【0053】
次に、予め指定された周期等の、追加記録実行部の実行契機とは別の契機、もしくは、追加記録実行部202が実行した契機を基に、辞書初期化実行部207により、キーワードベクトル辞書記憶部212を初期化する。
【0054】
その後、経過時間算出実行部208において、キーワード蓄積部206のキーワードと時刻(記憶時刻)とを取得し、タイマ205での現在時刻とから、そのキーワードの経過時間を算出する。
【0055】
例えば、キーワード蓄積部206に下記のキーワードと記憶時刻が記憶されているとする。
【0056】
(キーワード) (時刻)
「高収入」 「2003/05/29 10:00:00」
「絶対儲かる」 「2003/05/28 17:00:00」
「広告」 「2003/05/28 15:00:00」
【0057】
ここで、現在時刻が「2003/05/29 10:00:00」の場合、「絶対儲かる」の経過時間は17時間となる。
【0058】
このようにして経過時間算出実行部208で算出した経過時間から、重み値算出実行部209において、時間重み関数記憶部210から読み出した時間重み関数に基づき重み値を算出する。
【0059】
例えば、重み算出関数が「p(t)=0.99^t」(ただし、tは1時間単位、「^」べき乗・累乗)の場合、キーワード「絶対儲かる」の重み値は、「0.99^17=0.843」となる、
【0060】
そして、追加格納実行部211において、重み値算出実行部209で算出した重み値と、キーワードとを、キーワードベクトル辞書記憶部212に追加格納する。
【0061】
例えば、「絶対儲かる」とのキーワードの場合は下記のように追加格納する。
【0062】
(キーワード) (重み値)
「絶対儲かる」 「0.843」
【0063】
尚、本例では、繰返し実行部213を設け、この繰返し実行部213によりキーワード蓄積部206において、他の重み付けをするキーワードがあるか否かを判断・管理しており、キーワード蓄積部206に格納されているキーワードと時刻データからキーワードベクトル辞書を生成する場合は、経過時間算出実行部208、重み値算出実行部209、追加格納実行部211での処理を繰り返す。
【0064】
例えば、キーワード蓄積部206のキーワードと時刻データから、全ての重み値を生成してキーワードベクトル辞書記憶部212に格納した場合には下記のようになる。
【0065】
(キーワード) (重み値)
「高収入」 「1.000」
「絶対儲かる」 「0.843」
「広告」 「0.826」
【0066】
図3は、本発明に係わるキーワードベクトル辞書生成装置の第3の構成例を示すブロック図である。
【0067】
図3におけるキーワードベクトル辞書生成装置301も図1および図2におけるキーワードベクトル辞書生成装置101,201と同様のコンピュータ構成からなり、本例のキーワードベクトル辞書生成装置301は、形態素解析実行部302、キーワード送出実行部304等の処理機能と、一時記憶部305の記憶機能、例えば操作者の入力操作に基づきあるいは記憶媒体やネットワークから文書を入力する文書入力部303を有する。
【0068】
そして、本例のキーワードベクトル辞書生成装置301では、図1および図2におけるキーワードベクトル辞書生成装置101,201の機構を有しており、キーワード送出実行部304からのキーワードを入力部306を介してキーワードベクトル辞書生成装置101,201に入力することで、キーワードベクトル辞書307を生成する。
【0069】
すなわち、本例のキーワードベクトル辞書生成装置301では、文書入力部303で入力された文書を、形態素解析実行部302において形態素解析し、1以上のキーワードを生成して一時記憶部305に格納した後、キーワード送出実行部304により、キーワードを読み出して入力部306を介してキーワードベクトル辞書生成装置101,201に入力し、このキーワードベクトル辞書生成装置101,201においてキーワードに対して重み値の演算を行う。
【0070】
以下、本例のキーワードベクトル辞書生成装置301の処理動作を更に詳しく説明する。
【0071】
図3のキーワードベクトル辞書生成装置301では、例えば、文書入力部303により、キーワードになっていない文書データを入力し、形態素解析実行部302においてキーワードに分割して、そのキーワードを、キーワード送出実行部304により、図1,2のキーワードベクトル辞書生成装置101,201の入力部に順次送出する。
【0072】
例えば、文書入力部303から「未承諾広告 激安商品はこちら」という文書データが入力された場合、形態素解析実行部302においては、「未/承諾/広告/激安/商品/は/こちら」のような単語に分割する。そして、この生成した単語の集合を、一旦、一時記憶部305に記憶させる。
【0073】
ここで、形態素解析実行部302における形態素解析を行うエンジンとして、例えば「茶せん(http://chasen.aist−nara.ac.jp/)」といった形態素解析ツール等を用いることが考えられる。
【0074】
また、形態素解析された結果を、連続語辞書に基づき形態素を結合して単語にすることが考えられる。また、不要語辞書に基づき、不要な単語は削除することも考えられる。
【0075】
次に、キーワード送出実行部304において、一時記憶部305に格納された単語集合を取得して、キーワードベクトル辞書生成装置101,201の入力部306に順次送出する。
【0076】
図4は、本発明に係わるキーワードベクトル辞書生成システムの構成例を示すブロック図である。
【0077】
図4におけるキーワードベクトル辞書生成システム(図中「キーワードベクトル辞書生成装置」と記載)401も図1〜図3におけるキーワードベクトル辞書生成装置101,201,301と同様のコンピュータ構成からなり、本例のキーワードベクトル辞書生成システム401は、属性分類実行部402と属性情報入力部403等の処理機能と、分類定義情報記憶部404の記憶機能を有する。
【0078】
そして、本例のキーワードベクトル辞書生成システム401では、図1から図3におけるキーワードベクトル辞書生成装置101,201,301の少なくともいずれか1つを含む複数のキーワードベクトル辞書生成装置405〜407を具備している。
【0079】
このような構成において、本例のキーワードベクトル辞書生成装置401では、分類定義情報記憶部404において、予め、属性情報と、具備したキーワードベクトル辞書生成装置405〜407との対応付け情報を登録しておき、属性情報入力部403において、キーワードとこのキーワードに関連した属性情報を入力すると、属性分類実行部402において、入力したキーワードを、このキーワードと共に入力した属性情報が分類定義情報記憶部404において対応付けられたキーワードベクトル辞書生成装置405〜407に送出する。
【0080】
各キーワードベクトル辞書生成装置405〜407では、入力部405a〜407aにより、属性分類実行部402からのキーワードを入力し、図1〜図3の例で説明した処理を行い、キーワードベクトル辞書A405b〜C407bの生成を行う。
【0081】
以下、本例のキーワードベクトル辞書生成システム401の処理動作を更に詳しく説明する。
【0082】
図4のキーワードベクトル辞書生成システム401では、属性分類実行部402において、属性情報人力部403で入力したキーワードと属性情報を基に、分類定義情報記憶部404を参照して、その分類定義情報に従って、当該キーワードを分類し、分類された先のキーワードベクトル辞書生成装置405〜407の入力部405a〜407aに送出する。
【0083】
例えば、属性情報入力部403において、下記のキーワードベクトルと属性情報が入力されたとする。
【0084】
(キーワード) (属性情報)
「未承諾広告」 「spam@aaa.com」
【0085】
また、分類定義情報記憶部404において、分類定義情報が次のようになっているものとする。
【0086】
(属性情報) (分類)
「spam@aaa.com」 「キーワードベクトル辞書生成装置A」
「virus@spam.com」 「キーワードベクトル辞書生成装置A」
「dos@a.ocn.ne.jp」 「キーワードベクトル辞書生成装置B」
「dos@b.ocn.ne.jp」 「キーワードベクトル辞書生成装置B」
「ok@okn.ne.jp」 「キーワードベクトル辞書生成装置C」
【0087】
このような条件に基づき、属性分類実行部402は、キーワード「未承諾広告」を、キーワードベクトル辞書生成装置A405の入力部405aに送出する。
【0088】
このようにして、本例のキーワードベクトル辞書生成システム401によれば、キーワードに関連した属性情報毎に、キーワードベクトル辞書405b〜407bを生成することが可能となる。
【0089】
尚、属性情報分類定義情報としては、本例以外にも、「メールアドレスの一部」、「氏名」、「年齢」、「性別」、「住所」、「職業」、「時間帯」「趣味・嗜好」、「電話番号やその一部」などの利用、それらを組み合わせたものが考えられる。
【0090】
また、本図4の仕組みを用いずとも、予め複数のキーワードベクトル辞書生成装置を用意しておき、利用者の指定や、設定によって、複数あるキーワードベクトル辞書生成装置から任意のキーワードベクトル辞書生成装置を指定するといった利用もできる。
【0091】
例えば、メールを入力文書データとする場合、(1)不要なメールのキーワードベクトルを生成するために特化するために「不要メール」のみを受け付けるキーワードベクトル辞書生成装置、(2)必要なメールのキーワードベクトルを生成するために特化するために「必要メール」のみを受け付けるキーワードベクトル辞書生成装置、(3)プライベートな必要なメールのキーワードベクトルを生成するために特化するために「プライベートな必要メール」のみを受け付けるキーワードベクトル辞書生成装置、(4)プライベートな不要なメールのキーワードベクトルを生成するために特化するために「プライベートな不要メール」のみを受け付けるキーワードベクトル辞書生成装置といった、複数のキーワードベクトル辞書生成装置から、目的に応じて選択して利用することが考えられる。
【0092】
さらに、複数の利用者がキーワードベクトル辞書生成装置を共有して辞書を生成する利用も考えられる。例えば、複数の人が「迷惑」と感じた文書データを学習データとしてキーワードベクトル辞書生成装置に送信することで、多くの人が「迷惑」と感じる文書の特徴ベクトルが生成される。
【0093】
以上、図1〜図4を用いて説明したように、本例では、コンピュータにより文書を判別するための基準となる辞書を生成する際、学習データとして入力される文書中のキーワードの出現した時刻の新旧によって、キーワードの重みを変えて辞書を生成する。すなわち、学習データとして入力された時刻と、その超過時間を、辞書を構成する要素の重みに反映する。このことにより、学習データの内容の変化が大きい場合においても、対応できるような辞書を生成することができ、辞書の精度を向上させることができる。
【0094】
例えば、図1のキーワードベクトル辞書生成装置101では、減衰率算出実行部102にて、時刻記憶部108に記憶されている時刻と、現在の時刻から、経過時間を取得し、時間減衰関数記憶部107に格納されている、予め経過時間に対応した重みの減衰率を定義している時間減衰関数に前記経過時間を入力して、減衰率を取得し、複数もしくは単数のキーワードとその重み値とを格納しているキーワードベクトル辞書記憶部109に格納されている一部もしくは全てのキーワードの重み値を、前記減衰率で減衰演算を演算実行部103にて行い、また、学習データである単数もしくは複数のキーワードを入力部110にて入力し、追加記録実行部105において、この入力キーワードに予め定めた重みを付与して、キーワードとその重み値を、ベクトル辞書記憶部109に追加記録し、それらの時刻を時刻記憶実行部104により時刻記録部108において記憶する。
【0095】
このように、図1のキーワードベクトル辞書生成装置101では、入力部110において入力が発生した時等のしかるべき契機において、キーワードベクトル辞書記憶部109に格納されているキーワードの重み値に対して、前回、演算実行部103が減衰演算を実行してからの経過時刻を用いて、一括して減衰演算を行うため、古くに入力されたキーワードの重みが小さくなっていくような辞書を生成することが可能となる。特に、しかるべき契機に一括して減衰演算を実施するので、重みの減衰演算処理の負担を軽減することが可能となる。
【0096】
また、図2のキーワードベクトル辞書生成装置201では、単数もしくは複数のキーワードを入力部204において入力し、時刻付与部203において入力キーワードに時刻を付与し、追加記録実行部202において、入力キーワードとその時刻情報とを蓄積記録するキーワード蓄積部206に、前記キーワードとその時刻を追加記録し、追加記録実行部202とは異なる、もしくは同じ等のしかるべき契機で、辞書初期化実行部207が、キーワードベクトル辞書記憶部212を初期化して空にし、経過時間算出実行部208において、キーワード蓄積部206から、記録されたキーワードとその時刻と、現在の時刻から経過時間を取得して、重み値算出実行部209において時間重み関数記憶部210の時間重み関数に、経過時間を入力して重み値を取得し、この重み値と対応するキーワードとを追加格納実行部211において、キーワードベクトル辞書記憶部212に追加記録し、キーワード蓄積部206に格納された全てのキーワードに対して、経過時間算出実行部208で重み値を取得し、追加格納実行部211にて前記重み値と対応するキーワードとを追加格納することで、キーワードベクトル辞書を生成する。
【0097】
このように、図2のキーワードベクトル辞書生成装置201では、入力部204において入力されたキーワードと時刻とを関連付けて、キーワード蓄積部206に追記し、しかるべき契機において、キーワード蓄積部206に蓄積されたキーワードそれぞれと、その時刻から算出した経過時間から、キーワードそれぞれに重み付けを行うことで、古くに入力されたキーワードの重みが小さくなっていくような辞書を生成することが可能となる。特に、しかるべき契機に、キーワードそれぞれに対して重み値の算出を毎回行っているため、より精度の高い辞書の生成が可能となる。
【0098】
また、図3のキーワードベクトル辞書生成装置301では、文書データを文書入力部303にて入力し、形態素解析実行部302において、前記文書データを単語に形態素解析し、それぞれの単語を一時記憶部305で一時記憶させ、キーワード送出実行部304において、図1,2のキーワードベクトル辞書生成措置101,201等の入力部306へ入力させる。
【0099】
このように、図3のキーワードベクトル辞書生成装置301では、キーワード化されていない、文書データを入力データとして用いることが可能となる。
【0100】
また、図4のキーワードベクトル辞書生成システム401では、属性情報入力部403において入力キーワードに関連した属性情報を入力し、属性分類実行部402において、予め分類条件を定義した分類定義情報記憶部404の分類定義情報に基づいて、前記入力した属性情報を分類し、分類結果に対応した、複数もしくは単数の、図1〜図3におけるキーワードベクトル辞書生成装置101,201,301を含む複数のキーワードベクトル辞書生成装置405〜407の入力部405a〜407aへ入力させる。
【0101】
このように、図4のキーワードベクトル辞書生成システム401では、属性分類実行部402において、入力キーワードに関連した属性情報を、分類条件を定義した分類定義情報に基づいて分類し、図1〜図3の各キーワードベクトル辞書生成装置101,201,301を含む複数のキーワードベクトル辞書生成装置405〜407に処理を継続することで、属性情報に応じた複数の辞書を生成することが可能となる。
【0102】
尚、本発明は、上記各図の説明でも記載したように、図1〜図4を用いて説明した例に限定されるものではなく、その要旨を逸脱しない範囲において種々変更可能である。例えば、本例のコンピュータ構成例としても、キーボードや光ディスクの駆動装置の無いコンピュータ構成としても良い。また、本例では、光ディスクを記録媒体として用いているが、FD(Flexible Disk)等を記録媒体として用いることでも良い。また、プログラムのインストールに関しても、通信装置を介してネットワーク経由でプログラムをダウンロードしてインストールすることでも良い。
【0103】
【発明の効果】
本発明によれば、コンピュータにより文書を自動判別するための基準となる辞書を生成する際、学習データが入力される際の時刻情報を用いて、学習データが入力されてからの経過時間に応じて重み付けを行うことで、刻々と内容が変化するような文書を学習データとして用いた場合でも、新しい学習データの影響を大きくし、また、古い学習データの影響を少なくすることを可能とした辞書を生成することができる。すなわち、(1)入力された学習データの新旧によって重みを変えた特徴ベクトル辞書を生成でき、刻々と内容が変化する学習データを用いた場合でも、新しい内容の重みを大きくすることができる。また、(2)複数のキーワードベクトル辞書生成装置を目的に応じて使い分けることで、目的に応じたキーワードベクトル辞書を生成することができる。さらに、(3)複数の利用者でキーワードベクトル辞書生成装置を共有することで、「迷惑」と感じるメールのように、同じように感じる文書データをもとにして、単純な条件では判別できない「迷惑」と感じるメールの特徴的なキーワードベクトル辞書をリアルタイムに生成することが可能となり、そのような文書を判別することが可能となる。
【図面の簡単な説明】
【図1】本発明に係わるキーワードベクトル辞書生成装置の第1の構成例を示すブロック図である。
【図2】本発明に係わるキーワードベクトル辞書生成装置の第2の構成例を示すブロック図である。
【図3】本発明に係わるキーワードベクトル辞書生成装置の第3の構成例を示すブロック図である。
【図4】本発明に係わるキーワードベクトル辞書生成システムの構成例を示すブロック図である。
【符号の説明】
101,201,301:キーワードベクトル辞書生成装置、102:減衰率算出実行部、103:演算実行部、104:時刻記憶実行部、105:追加記録実行部、106:タイマ、107:時間減衰関数記憶部、108:時刻記憶部、109:キーワードベクトル辞書記憶部、110:入力部、202:追加記録実行部、203:時刻付与部、204:入力部、205:タイマ、206:キーワード記憶部(「一時記憶部」)、207:辞書初期化実行部、208:経過時間算出実行部、209:重み値算出実行部、210:時間重み関数記憶部、211:追加格納実行部、212:キーワードベクトル辞書記憶部、213:繰返し実行部、302:形態素解析実行部、303:文書入力部、304:キーワード送出実行部、305:一時記憶部、306:入力部、307:キーワードベクトル辞書、401:キーワードベクトル辞書生成システム、402:属性分類実行部、403:属性情報入力部、404:分類定義情報記憶部、405,406,407:キーワードベクトル辞書生成装置A,B,C、405a〜407a:入力部、405b〜407b:キーワードベクトル辞書。
Claims (8)
- コンピュータ処理による文書の特徴の判別に用いるキーワードベクトル辞書を生成する装置であって、
キーワードと当該キーワードの重み値を記憶するキーワードベクトル辞書記憶手段と、
該キーワードベクトル辞書記憶手段に記憶したキーワードの、記憶してからの経過時間に応じて当該キーワードの重み値を減衰する演算手段と
を有することを特徴とするキーワードベクトル辞書生成装置。 - コンピュータ処理による文書の特徴の判別に用いるキーワードベクトル辞書を生成する装置であって、
1以上のキーワードと当該キーワードの重み値を記憶するキーワードベクトル辞書記憶手段と、
該キーワードベクトル辞書記憶手段で当該キーワードを記憶した時刻を記憶する時刻記憶手段と、
予め、経過時間に対応した重み値の減衰率の算出に用いる時間減衰関数を記憶する時間減衰関数記憶手段と、
上記時刻記憶手段で記憶した時刻と現在の時刻から経過時間を取得し、取得した経過時間に対応する重み値の減衰率を上記時間減衰関数記憶手段から読み出した時間減衰関数に基づき算出する減衰率算出手段と、
該減衰率算出手段で算出した重み値の減衰率に応じて、上記キーワードベクトル辞書記憶手段に記憶した当該キーワードの重み値を減衰する演算実行手段と
を有することを特徴とするキーワードベクトル辞書生成装置。 - 請求項2に記載のキーワードベクトル辞書生成装置であって、
上記演算実行手段により上記キーワードの重み値を減衰した時刻で上記時刻記憶手段で記憶した当該キーワードの記憶時刻を更新する時刻記憶実行手段を有し、所定の契機で、上記時刻記憶実行手段で更新された上記時刻記憶手段の時刻に基づく上記減衰率算出手段による重み値の減衰率の算出と上記演算実行手段による当該キーワードの重み値の減衰、ならびに上記時刻記憶実行手段による上記時刻記憶手段における当該キーワードの記憶時刻の更新を行うことを特徴とするキーワードベクトル辞書生成装置。 - コンピュータ処理による文書の特徴の判別に用いるキーワードベクトル辞書を生成する装置であって、
1以上のキーワードを記憶すると共に当該キーワードを記憶した時刻を記憶するキーワード蓄積手段と、
予め、経過時間に対応した重み値の算出に用いる時間重み関数を記憶する時間重み関数記憶手段と、
所定の契機で上記キーワード蓄積手段で記憶した上記キーワードと当該キーワードの記憶時刻を読み出し、該記憶時刻と現在時刻とから経過時間を取得する経過時間算出手段と、
該経過時間算出手段で取得した経過時間に対応する重み値を、上記時間重み関数記憶手段から読み出した時間重み関数に基づき算出する重み値算出手段と、
該重み値算出手段で算出した重み値を当該キーワードと共に記憶するキーワードベクトル辞書記憶手段と
を有することを特徴とするキーワードベクトル辞書生成装置。 - 請求項4に記載のキーワードベクトル辞書生成装置であって、
上記所定の契機で上記キーワードベクトル辞書記憶手段におけるキーワードと重み値の記憶内容を初期化する辞書初期化手段を有し、
該辞書初期化手段による上記キーワードベクトル辞書記憶手段に対する初期化後に、上記経過時間算出手段による上記キーワード蓄積手段からのキーワードと重み値の読み出しと経過時間の取得および上記重み値算出手段による重み値の算出ならびに上記キーワードベクトル辞書記憶手段によるキーワードと重み値の記憶を行うことを特徴とするキーワードベクトル辞書生成装置。 - 請求項1から請求項5のいずれかに記載のキーワードベクトル辞書生成装置であって、
入力された文書を形態素解析して1以上のキーワードを生成する形態素解析手段を有し、
該形態素解析手段で生成したキーワードに対して重み値の演算を行うことを特徴とするキーワードベクトル辞書生成装置。 - 請求項1から請求項6に記載のキーワードベクトル辞書生成装置の少なくともいずれか1つを含む複数のキーワードベクトル辞書生成装置を具備し、
キーワードと該キーワードに関連した属性情報を入力する属性情報入力手段と、予め、上記属性情報と上記具備したキーワードベクトル辞書生成装置との対応付け情報を登録した分類定義情報記憶手段と、
上記属性情報入力手段で入力したキーワードを、該キーワードと共に入力した属性情報が上記分類定義情報記憶手段において対応付けられたキーワードベクトル辞書生成装置に送出する属性分類手段と
を有することを特徴とするキーワードベクトル辞書生成システム。 - コンピュータを、請求項1から請求項6のいずれかに記載のキーワードベクトル辞書生成装置における各手段もしくは請求項7に記載のキーワードベクトル辞書生成システムにおける各手段として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003181218A JP4225542B2 (ja) | 2003-06-25 | 2003-06-25 | キーワードベクトル辞書生成装置とシステムおよびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003181218A JP4225542B2 (ja) | 2003-06-25 | 2003-06-25 | キーワードベクトル辞書生成装置とシステムおよびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005018344A true JP2005018344A (ja) | 2005-01-20 |
JP4225542B2 JP4225542B2 (ja) | 2009-02-18 |
Family
ID=34181982
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003181218A Expired - Fee Related JP4225542B2 (ja) | 2003-06-25 | 2003-06-25 | キーワードベクトル辞書生成装置とシステムおよびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4225542B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007172249A (ja) * | 2005-12-21 | 2007-07-05 | Fujitsu Ltd | 文書分類プログラム、文書分類装置、および文書分類方法 |
JP2010128970A (ja) * | 2008-11-28 | 2010-06-10 | Toshiba Corp | コンテンツ検索装置、およびコンテンツ検索装置のコンテンツ検索方法 |
JP2014513826A (ja) * | 2011-02-28 | 2014-06-05 | エイチエスビーシー ホールディングス ピーエルシー | コンピュータシステム、データベース及びそれらの使用 |
JP2019091290A (ja) * | 2017-11-15 | 2019-06-13 | 富士ゼロックス株式会社 | 情報処理システム、情報処理装置およびプログラム |
-
2003
- 2003-06-25 JP JP2003181218A patent/JP4225542B2/ja not_active Expired - Fee Related
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007172249A (ja) * | 2005-12-21 | 2007-07-05 | Fujitsu Ltd | 文書分類プログラム、文書分類装置、および文書分類方法 |
JP2010128970A (ja) * | 2008-11-28 | 2010-06-10 | Toshiba Corp | コンテンツ検索装置、およびコンテンツ検索装置のコンテンツ検索方法 |
JP2014513826A (ja) * | 2011-02-28 | 2014-06-05 | エイチエスビーシー ホールディングス ピーエルシー | コンピュータシステム、データベース及びそれらの使用 |
JP2019091290A (ja) * | 2017-11-15 | 2019-06-13 | 富士ゼロックス株式会社 | 情報処理システム、情報処理装置およびプログラム |
JP7077585B2 (ja) | 2017-11-15 | 2022-05-31 | 富士フイルムビジネスイノベーション株式会社 | 情報処理システム、情報処理装置およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP4225542B2 (ja) | 2009-02-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8055078B2 (en) | Filter for blocking image-based spam | |
US7827165B2 (en) | Providing a social network aware input dictionary | |
Egele et al. | Removing web spam links from search engine results | |
US8489593B2 (en) | Compiling information obtained by combinatorial searching | |
JP4742618B2 (ja) | 情報処理システム、プログラム及び情報処理方法 | |
US20030074409A1 (en) | Method and apparatus for generating a user interest profile | |
US20090292696A1 (en) | Computer-implemented search using result matching | |
JP2007503660A (ja) | 類似性測度に基づいて電子メール・スパムをフィルタ処理するための方法および装置 | |
WO2009131469A1 (en) | Fraudulent page detection | |
RU2011148231A (ru) | Объединение результатов поиска | |
Sanz et al. | Email spam filtering | |
CN109977300A (zh) | 企业舆情获取方法、装置、终端及计算机存储介质 | |
CN110020430B (zh) | 一种恶意信息识别方法、装置、设备及存储介质 | |
Mohammed et al. | Classifying unsolicited bulk email (UBE) using python machine learning techniques | |
JP2019191975A (ja) | 人材選定装置、人材選定システム、人材選定方法及びプログラム | |
WO2012156971A1 (en) | Real-time single-sweep detection of key words and content analysis | |
EP3699796A1 (en) | Message report processing and threat prioritization | |
JP4225542B2 (ja) | キーワードベクトル辞書生成装置とシステムおよびプログラム | |
US10530889B2 (en) | Identifying member profiles containing disallowed content in an online social network | |
US11556819B2 (en) | Collection apparatus, collection method, and collection program | |
JP2020135673A (ja) | 投稿評価システム及び方法 | |
JP7068587B2 (ja) | 情報処理装置、情報処理方法、プログラム | |
JP6034584B2 (ja) | 特許調査支援装置、特許調査支援方法、およびプログラム | |
JP4484957B1 (ja) | 検索式生成装置、検索式生成方法、およびプログラム | |
JP4821328B2 (ja) | 補完単語語句提案方法、プログラムおよび補完単語語句提案装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050708 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080822 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080826 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081017 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20081121 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20081121 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111205 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111205 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121205 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121205 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131205 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |