JP4225542B2 - キーワードベクトル辞書生成装置とシステムおよびプログラム - Google Patents

キーワードベクトル辞書生成装置とシステムおよびプログラム Download PDF

Info

Publication number
JP4225542B2
JP4225542B2 JP2003181218A JP2003181218A JP4225542B2 JP 4225542 B2 JP4225542 B2 JP 4225542B2 JP 2003181218 A JP2003181218 A JP 2003181218A JP 2003181218 A JP2003181218 A JP 2003181218A JP 4225542 B2 JP4225542 B2 JP 4225542B2
Authority
JP
Japan
Prior art keywords
keyword
time
vector dictionary
keyword vector
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003181218A
Other languages
English (en)
Other versions
JP2005018344A (ja
Inventor
俊介 土井
由紀 吉田
豪 東野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2003181218A priority Critical patent/JP4225542B2/ja
Publication of JP2005018344A publication Critical patent/JP2005018344A/ja
Application granted granted Critical
Publication of JP4225542B2 publication Critical patent/JP4225542B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
この発明は、コンピュータが文書を判別するため基準となる辞書(キーワードベクトル辞書)を生成する技術に係わり、特に、キーワードベクトル辞書の精度を向上させるのに好適な技術に関するものである。
【0002】
【従来の技術】
コンピュータ処理により文書を判別するための基準となる辞書を生成する従来の技術としては、例えば、学習データとして入力される文書中のキーワードの出現頻度を加算して、その加算値で重みを付与する技術がある。この技術によれば、同じような回数でキーワードが出現する点が類似した文書を判別することが可能となる。
【0003】
例えば、特許文献1においても、その実施例における重み付けの例としてこの技術が用いられている。
【0004】
しかし、この技術では、過去に用いた学習データのキーワードであっても、最近用いた学習データのキーワードであっても、同じ重みが付与されるため、刻々と内容が変化する文書を学習データとして用いる場合に、過去のキーワードの重みが影響する問題点がある。
【0005】
また、例えば、特許文献2に記載のように、コンピュータにより文書を判別するための基準となる辞書に相当するデータベースを生成する技術として、文書送信者のアドレスを用いる技術がある。
【0006】
この技術では、受信したメールが不要メールであると利用者が判断した際に、ネットワーク上の発信者評価パラメータ記憶装置に、発信者の評価ポイントを下げて登録する。そして、メール受信時に該メールの発信者のアドレスをキーにして、発信者評価パラメータ記憶装置の発信者の評価ポイントを検索し、メール発信者のアドレスの評価ポイントが下げられて登録されている場合は、不要メールである、といった文書の判別を実施している。
【0007】
しかし、この技術では、送信者が毎回異なる架空のアドレスを用いている場合は、送信者のアドレスで判別できないという問題が発生する。
【0008】
また、文書中のキーワードの条件で分類する技術も、古くから用いられている。しかし、この技術では、既知のパターンに則った文書は分類可能であるが、未知の文書の分類は困難であるという問題点がある。
【0009】
そして、これらの技術を含め、従来の技術では、学習データが入力されてから、判別するまでの経過時間が考慮されていない。そのため、刻々と内容が変化するような文書を学習データとして用いた場合、分類することが困難であった。
【0010】
【特許文献1】
特許第2978044号
【特許文献2】
特開2003−18324号公報
【0011】
【発明が解決しようとする課題】
解決しようとする問題点は、従来の技術では、学習データが入力されてから、判別するまでの経過時間が考慮されていない点である。
【0012】
本発明の目的は、これら従来技術の課題を解決し、刻々と内容が変化するような文書を学習データとして用いることを可能とすることである。
【0013】
【課題を解決するための手段】
上記目的を達成するため、本発明では、学習データとして入力される文書中のキーワードの出現した時刻の新旧によって、キーワードの重みを変えてキーワードベクトル辞書を生成することを特徴とする。例えば、キーワードの学習データとして入力されてから現在までの経過時間を、辞書を構成する要素の重みに反映することで、学習データの内容の変化が大きい場合においても、対応できるような辞書を生成する。
【0014】
【発明の実施の形態】
以下、本発明の実施の形態を、図面により詳細に説明する。
【0015】
図1は、本発明に係わるキーワードベクトル辞書生成装置の第1の構成例を示すブロック図である。
【0016】
図1におけるキーワードベクトル辞書生成装置は、CPU(Central Processing Unit)や主メモリ、表示装置、入力装置、外部記憶装置等を具備したコンピュータ構成からなり、光ディスク駆動装置等を介してCD−ROM等の記憶媒体に記録されたプログラムやデータを外部記憶装置内にインストールした後、この外部記憶装置から主メモリに読み込みCPUで処理することにより、各実行処理部の処理を行う。
【0017】
図1において、101は本例のキーワードベクトル辞書生成装置であり、キーワードベクトル辞書生成装置101は、減衰率算出実行部102、演算実行部103、時刻記憶実行部104、追加記録実行部105等の処理機能と、時間減衰関数記憶部107、時刻記憶部108、キーワードベクトル辞書記憶部109の記憶機能、および、現在時刻情報を読み取るタイマ106、例えば操作者の入力操作に基づきあるいは記憶媒体やネットワークからキーワードとその重み値を入力する入力部110を有する。
【0018】
このような構成からなる本例のキーワードベクトル辞書生成装置101では、コンピュータ処理による文書の特徴の判別に用いるキーワードベクトル辞書を生成する際、キーワードベクトル辞書記憶部109において、キーワードと当該キーワードの重み値を記憶し、演算実行部103において、キーワードベクトル辞書記憶部109で記憶したキーワードの、記憶してからの経過時間に応じて当該キーワードの重み値を減衰する。
【0019】
すなわち、キーワードベクトル辞書記憶部109においては、1以上のキーワードと当該キーワードの重み値を記憶する。これらのキーワードは、入力部110で入力され、追加記録実行部105を介してキーワードベクトル辞書記憶部109に格納される。
【0020】
このキーワードベクトル辞書記憶部109で当該キーワードを記憶した時刻を時刻記憶部108において記憶する。また、時間減衰関数記憶部107においては、予め、経過時間に対応した重み値の減衰率の算出に用いる時間減衰関数を記憶する。
【0021】
そして、減衰率算出実行部102においては、所定の契機に、時刻記憶部108で記憶した時刻とタイマ106で読み出される現在の時刻から経過時間を取得し、取得した経過時間に対応する重み値の減衰率を、時間減衰関数記憶部107から読み出した時間減衰関数に基づき算出する。
【0022】
このようにして減衰率算出実行部102で算出した重み値の減衰率に応じて、演算実行部103において、キーワードベクトル辞書記憶部109に記憶した当該キーワードの重み値を減衰して更新する。
【0023】
さらに、この演算実行部103によりキーワードの重み値を減衰した時刻に基づき、時刻記憶実行部104において、時刻記憶部108で記憶した当該キーワードの記憶時刻を更新する。
【0024】
以降、所定の契機で、時刻記憶実行部104で更新された時刻記憶部108の時刻に基づく減衰率算出実行部102による重み値の減衰率の算出と、演算実行部103による当該キーワードの重み値の減衰、ならびに、時刻記憶実行部104による時刻記憶b108における当該キーワードの記憶時刻の更新を行う。
【0025】
以下、その処理動作を更に詳しく説明する。尚、結果に違いが無い場合、以下に説明する処理順序が前後しても問題ない。
【0026】
図1のキーワードベクトル辞書生成装置101は、まず、減衰率算出実行部102において、タイマ106から現在時刻を、時間減衰関数記憶部107から時間減衰関数を、そして時刻記憶部108から前回実行時刻を取得する。
【0027】
例えば、現在時刻として「2003/05/28 17:00:00」、時間減衰関数として「t>1000:p(t)=0,t<=1000:p(t)=1−0.01×t」(ただし、tは1時間単位)、前回実行時刻として「2003/05/28 16:00:00」を取得する。
【0028】
そして、減衰率算出実行部102において、減衰率を算出する。前記の例の場合、現在時刻と前回実行時刻の差は、1時間であるため、時間減衰関数から減衰率を求めると、減衰率は「0.990」となる。
【0029】
次いで、演算実行部103」において、キーワードベクトル辞書記憶部109に格納されている全てのキーワードの重み値を減衰させる演算を行う。
【0030】
例えば、減衰演算として、以下のキーワードそれぞれの重み値に減衰率で積算を行った場合を考える。
【0031】
(キーワード) (重み値)
「.net」 「0.950」
「☆」 「1.000」
「未承諾」 「0.900」
「拒否」 「0.750」
【0032】
この場合、演算によって、下記の結果となる。
【0033】
(キーワード) (重み値)
「.net」 「0.941」
「☆」 「0.990」
「未承諾」 「0.891」
「拒否」 「0.743」
【0034】
このようにして、キーワードベクトル辞書記憶部109に格納されている全てのキーワードの重み値が減衰する。
【0035】
その後、時刻記憶実行部104において、現在時刻を時刻記憶部106に記憶させる。
【0036】
追加記録実行部105では、入力部110から入力されたキーワードに予め定めておいた重みを付与して、キーワードベクトル辞書記憶部109に追加記録を行う。
【0037】
例えば、入力キーワードが、「絶対儲かる」の場合で、予め定めておく重みが「1」の場合、以下のようにキーワードベクトル辞書記憶部109に追加記録する。
【0038】
(キーワード) (重み値)
「絶対儲かる」 「1」
【0039】
このようにして、キーワードベクトル辞書を生成することが可能となる。
【0040】
尚、初回実行の場合などで、前回実行時刻が格納されていない場合は、減衰率算出実行部102と、演算実行部103は実行しないものとする。
【0041】
図2は、本発明に係わるキーワードベクトル辞書生成装置の第2の構成例を示すブロック図である。
【0042】
図2におけるキーワードベクトル辞書生成装置201も図1におけるキーワードベクトル辞書生成装置101と同様のコンピュータ構成からなり、本例のキーワードベクトル辞書生成装置201は、追加記録実行部202、時刻付与部203、辞書初期化実行部207、経過時間算出実行部208、重み値算出実行部209、追加格納実行部211等の処理機能と、キーワード記憶部(図中「一時記憶部」と記載)206、時間重み関数記憶部210、キーワードベクトル辞書記憶部212の記憶機能、および、現在時刻情報を読み取るタイマ205、例えば操作者の入力操作に基づきあるいは記憶媒体やネットワークからキーワードとその重み値を入力する入力部204を有する。
【0043】
このような構成からなる本例のキーワードベクトル辞書生成装置201では、コンピュータ処理による文書の特徴の判別に用いるキーワードベクトル辞書を生成するために、キーワード記憶部206において、1以上のキーワードを記憶すると共に当該キーワードを記憶した時刻を記憶し、時間重み関数記憶部210においては、予め、経過時間に対応した重み値の算出に用いる時間重み関数を記憶しておく。
【0044】
尚、キーワード記憶部206に記憶されるキーワードは、入力部204で入力され、時刻付与部203において、タイマ205からの現在時刻(記憶時刻)が付与され、追加記録実行部202によりキーワード記憶部206に格納される。
【0045】
そして、経過時間算出実行部208において、所定の契機で、キーワード蓄積部206で記憶したキーワードと当該キーワードの記憶時刻を読み出し、この記憶時刻と現在時刻とから経過時間を取得する。
【0046】
この経過時間算出実行部208で取得した経過時間に対応する重み値を、重み値算出実行部209において、時間重み関数記憶部210から読み出した時間重み関数に基づき算出する。
【0047】
さらに、この重み値算出実行部209で算出した重み値を、追加格納実行部211により、当該キーワードと共にキーワードベクトル辞書記憶部212に記憶する。
【0048】
尚、辞書初期化実行部207において、所定の契機でキーワードベクトル辞書記憶部212におけるキーワードと重み値の記憶内容を初期化し、この辞書初期化実行部207によるキーワードベクトル辞書記憶部212に対する初期化後に、経過時間算出実行部208によるキーワード蓄積部206からのキーワードと重み値の読み出しと経過時間の取得、および重み値算出実行部209による重み値の算出、ならびに追加格納実行部211によるキーワードベクトル辞書記憶部212におけるキーワードと重み値の記憶を行うこととする。
【0049】
以下、本例のキーワードベクトル辞書生成装置201の処理動作を更に詳しく説明する。
【0050】
図2のキーワードベクトル辞書生成装置201では、例えば、入力部204でキーワードの入力があった際などを契機として、追加記録実行部202において、入力部204で入力したキーワードと、時刻付与部203で付与した時刻情報とを、キーワード蓄積部206に追加格納する。
【0051】
例えば、「高収入」というキーワードが「2003/05/29 10:00:00」に入力された場合、キーワード蓄積部206には、以下の内容が、それまで記録されているキーワード時刻に、追加して格納される。
【0052】
(キーワード) (時刻)
「高収入」 「2003/05/29 10:00:00」
【0053】
次に、予め指定された周期等の、追加記録実行部の実行契機とは別の契機、もしくは、追加記録実行部202が実行した契機を基に、辞書初期化実行部207により、キーワードベクトル辞書記憶部212を初期化する。
【0054】
その後、経過時間算出実行部208において、キーワード蓄積部206のキーワードと時刻(記憶時刻)とを取得し、タイマ205での現在時刻とから、そのキーワードの経過時間を算出する。
【0055】
例えば、キーワード蓄積部206に下記のキーワードと記憶時刻が記憶されているとする。
【0056】
(キーワード) (時刻)
「高収入」 「2003/05/29 10:00:00」
「絶対儲かる」 「2003/05/28 17:00:00」
「広告」 「2003/05/28 15:00:00」
【0057】
ここで、現在時刻が「2003/05/29 10:00:00」の場合、「絶対儲かる」の経過時間は17時間となる。
【0058】
このようにして経過時間算出実行部208で算出した経過時間から、重み値算出実行部209において、時間重み関数記憶部210から読み出した時間重み関数に基づき重み値を算出する。
【0059】
例えば、重み算出関数が「p(t)=0.99^t」(ただし、tは1時間単位、「^」べき乗・累乗)の場合、キーワード「絶対儲かる」の重み値は、「0.99^17=0.843」となる、
【0060】
そして、追加格納実行部211において、重み値算出実行部209で算出した重み値と、キーワードとを、キーワードベクトル辞書記憶部212に追加格納する。
【0061】
例えば、「絶対儲かる」とのキーワードの場合は下記のように追加格納する。
【0062】
(キーワード) (重み値)
「絶対儲かる」 「0.843」
【0063】
尚、本例では、繰返し実行部213を設け、この繰返し実行部213によりキーワード蓄積部206において、他の重み付けをするキーワードがあるか否かを判断・管理しており、キーワード蓄積部206に格納されているキーワードと時刻データからキーワードベクトル辞書を生成する場合は、経過時間算出実行部208、重み値算出実行部209、追加格納実行部211での処理を繰り返す。
【0064】
例えば、キーワード蓄積部206のキーワードと時刻データから、全ての重み値を生成してキーワードベクトル辞書記憶部212に格納した場合には下記のようになる。
【0065】
(キーワード) (重み値)
「高収入」 「1.000」
「絶対儲かる」 「0.843」
「広告」 「0.826」
【0066】
図3は、本発明に係わるキーワードベクトル辞書生成装置の第3の構成例を示すブロック図である。
【0067】
図3におけるキーワードベクトル辞書生成装置301も図1および図2におけるキーワードベクトル辞書生成装置101,201と同様のコンピュータ構成からなり、本例のキーワードベクトル辞書生成装置301は、形態素解析実行部302、キーワード送出実行部304等の処理機能と、一時記憶部305の記憶機能、例えば操作者の入力操作に基づきあるいは記憶媒体やネットワークから文書を入力する文書入力部303を有する。
【0068】
そして、本例のキーワードベクトル辞書生成装置301では、図1および図2におけるキーワードベクトル辞書生成装置101,201の機構を有しており、キーワード送出実行部304からのキーワードを入力部306を介してキーワードベクトル辞書生成装置101,201に入力することで、キーワードベクトル辞書307を生成する。
【0069】
すなわち、本例のキーワードベクトル辞書生成装置301では、文書入力部303で入力された文書を、形態素解析実行部302において形態素解析し、1以上のキーワードを生成して一時記憶部305に格納した後、キーワード送出実行部304により、キーワードを読み出して入力部306を介してキーワードベクトル辞書生成装置101,201に入力し、このキーワードベクトル辞書生成装置101,201においてキーワードに対して重み値の演算を行う。
【0070】
以下、本例のキーワードベクトル辞書生成装置301の処理動作を更に詳しく説明する。
【0071】
図3のキーワードベクトル辞書生成装置301では、例えば、文書入力部303により、キーワードになっていない文書データを入力し、形態素解析実行部302においてキーワードに分割して、そのキーワードを、キーワード送出実行部304により、図1,2のキーワードベクトル辞書生成装置101,201の入力部に順次送出する。
【0072】
例えば、文書入力部303から「未承諾広告 激安商品はこちら」という文書データが入力された場合、形態素解析実行部302においては、「未/承諾/広告/激安/商品/は/こちら」のような単語に分割する。そして、この生成した単語の集合を、一旦、一時記憶部305に記憶させる。
【0073】
ここで、形態素解析実行部302における形態素解析を行うエンジンとして、例えば「茶せん(http://chasen.aist−nara.ac.jp/)」といった形態素解析ツール等を用いることが考えられる。
【0074】
また、形態素解析された結果を、連続語辞書に基づき形態素を結合して単語にすることが考えられる。また、不要語辞書に基づき、不要な単語は削除することも考えられる。
【0075】
次に、キーワード送出実行部304において、一時記憶部305に格納された単語集合を取得して、キーワードベクトル辞書生成装置101,201の入力部306に順次送出する。
【0076】
図4は、本発明に係わるキーワードベクトル辞書生成システムの構成例を示すブロック図である。
【0077】
図4におけるキーワードベクトル辞書生成システム(図中「キーワードベクトル辞書生成装置」と記載)401も図1〜図3におけるキーワードベクトル辞書生成装置101,201,301と同様のコンピュータ構成からなり、本例のキーワードベクトル辞書生成システム401は、属性分類実行部402と属性情報入力部403等の処理機能と、分類定義情報記憶部404の記憶機能を有する。
【0078】
そして、本例のキーワードベクトル辞書生成システム401では、図1から図3におけるキーワードベクトル辞書生成装置101,201,301の少なくともいずれか1つを含む複数のキーワードベクトル辞書生成装置405〜407を具備している。
【0079】
このような構成において、本例のキーワードベクトル辞書生成装置401では、分類定義情報記憶部404において、予め、属性情報と、具備したキーワードベクトル辞書生成装置405〜407との対応付け情報を登録しておき、属性情報入力部403において、キーワードとこのキーワードに関連した属性情報を入力すると、属性分類実行部402において、入力したキーワードを、このキーワードと共に入力した属性情報が分類定義情報記憶部404において対応付けられたキーワードベクトル辞書生成装置405〜407に送出する。
【0080】
各キーワードベクトル辞書生成装置405〜407では、入力部405a〜407aにより、属性分類実行部402からのキーワードを入力し、図1〜図3の例で説明した処理を行い、キーワードベクトル辞書A405b〜C407bの生成を行う。
【0081】
以下、本例のキーワードベクトル辞書生成システム401の処理動作を更に詳しく説明する。
【0082】
図4のキーワードベクトル辞書生成システム401では、属性分類実行部402において、属性情報人力部403で入力したキーワードと属性情報を基に、分類定義情報記憶部404を参照して、その分類定義情報に従って、当該キーワードを分類し、分類された先のキーワードベクトル辞書生成装置405〜407の入力部405a〜407aに送出する。
【0083】
例えば、属性情報入力部403において、下記のキーワードベクトルと属性情報が入力されたとする。
【0084】
(キーワード) (属性情報)
「未承諾広告」 「spam@aaa.com」
【0085】
また、分類定義情報記憶部404において、分類定義情報が次のようになっているものとする。
【0086】
(属性情報) (分類)
「spam@aaa.com」 「キーワードベクトル辞書生成装置A」
「virus@spam.com」 「キーワードベクトル辞書生成装置A」
「dos@a.ocn.ne.jp」 「キーワードベクトル辞書生成装置B」
「dos@b.ocn.ne.jp」 「キーワードベクトル辞書生成装置B」
「ok@okn.ne.jp」 「キーワードベクトル辞書生成装置C」
【0087】
このような条件に基づき、属性分類実行部402は、キーワード「未承諾広告」を、キーワードベクトル辞書生成装置A405の入力部405aに送出する。
【0088】
このようにして、本例のキーワードベクトル辞書生成システム401によれば、キーワードに関連した属性情報毎に、キーワードベクトル辞書405b〜407bを生成することが可能となる。
【0089】
尚、属性情報分類定義情報としては、本例以外にも、「メールアドレスの一部」、「氏名」、「年齢」、「性別」、「住所」、「職業」、「時間帯」「趣味・嗜好」、「電話番号やその一部」などの利用、それらを組み合わせたものが考えられる。
【0090】
また、本図4の仕組みを用いずとも、予め複数のキーワードベクトル辞書生成装置を用意しておき、利用者の指定や、設定によって、複数あるキーワードベクトル辞書生成装置から任意のキーワードベクトル辞書生成装置を指定するといった利用もできる。
【0091】
例えば、メールを入力文書データとする場合、(1)不要なメールのキーワードベクトルを生成するために特化するために「不要メール」のみを受け付けるキーワードベクトル辞書生成装置、(2)必要なメールのキーワードベクトルを生成するために特化するために「必要メール」のみを受け付けるキーワードベクトル辞書生成装置、(3)プライベートな必要なメールのキーワードベクトルを生成するために特化するために「プライベートな必要メール」のみを受け付けるキーワードベクトル辞書生成装置、(4)プライベートな不要なメールのキーワードベクトルを生成するために特化するために「プライベートな不要メール」のみを受け付けるキーワードベクトル辞書生成装置といった、複数のキーワードベクトル辞書生成装置から、目的に応じて選択して利用することが考えられる。
【0092】
さらに、複数の利用者がキーワードベクトル辞書生成装置を共有して辞書を生成する利用も考えられる。例えば、複数の人が「迷惑」と感じた文書データを学習データとしてキーワードベクトル辞書生成装置に送信することで、多くの人が「迷惑」と感じる文書の特徴ベクトルが生成される。
【0093】
以上、図1〜図4を用いて説明したように、本例では、コンピュータにより文書を判別するための基準となる辞書を生成する際、学習データとして入力される文書中のキーワードの出現した時刻の新旧によって、キーワードの重みを変えて辞書を生成する。すなわち、学習データとして入力された時刻と、その超過時間を、辞書を構成する要素の重みに反映する。このことにより、学習データの内容の変化が大きい場合においても、対応できるような辞書を生成することができ、辞書の精度を向上させることができる。
【0094】
例えば、図1のキーワードベクトル辞書生成装置101では、減衰率算出実行部102にて、時刻記憶部108に記憶されている時刻と、現在の時刻から、経過時間を取得し、時間減衰関数記憶部107に格納されている、予め経過時間に対応した重みの減衰率を定義している時間減衰関数に前記経過時間を入力して、減衰率を取得し、複数もしくは単数のキーワードとその重み値とを格納しているキーワードベクトル辞書記憶部109に格納されている一部もしくは全てのキーワードの重み値を、前記減衰率で減衰演算を演算実行部103にて行い、また、学習データである単数もしくは複数のキーワードを入力部110にて入力し、追加記録実行部105において、この入力キーワードに予め定めた重みを付与して、キーワードとその重み値を、ベクトル辞書記憶部109に追加記録し、それらの時刻を時刻記憶実行部104により時刻記録部108において記憶する。
【0095】
このように、図1のキーワードベクトル辞書生成装置101では、入力部110において入力が発生した時等のしかるべき契機において、キーワードベクトル辞書記憶部109に格納されているキーワードの重み値に対して、前回、演算実行部103が減衰演算を実行してからの経過時刻を用いて、一括して減衰演算を行うため、古くに入力されたキーワードの重みが小さくなっていくような辞書を生成することが可能となる。特に、しかるべき契機に一括して減衰演算を実施するので、重みの減衰演算処理の負担を軽減することが可能となる。
【0096】
また、図2のキーワードベクトル辞書生成装置201では、単数もしくは複数のキーワードを入力部204において入力し、時刻付与部203において入力キーワードに時刻を付与し、追加記録実行部202において、入力キーワードとその時刻情報とを蓄積記録するキーワード蓄積部206に、前記キーワードとその時刻を追加記録し、追加記録実行部202とは異なる、もしくは同じ等のしかるべき契機で、辞書初期化実行部207が、キーワードベクトル辞書記憶部212を初期化して空にし、経過時間算出実行部208において、キーワード蓄積部206から、記録されたキーワードとその時刻と、現在の時刻から経過時間を取得して、重み値算出実行部209において時間重み関数記憶部210の時間重み関数に、経過時間を入力して重み値を取得し、この重み値と対応するキーワードとを追加格納実行部211において、キーワードベクトル辞書記憶部212に追加記録し、キーワード蓄積部206に格納された全てのキーワードに対して、経過時間算出実行部208で重み値を取得し、追加格納実行部211にて前記重み値と対応するキーワードとを追加格納することで、キーワードベクトル辞書を生成する。
【0097】
このように、図2のキーワードベクトル辞書生成装置201では、入力部204において入力されたキーワードと時刻とを関連付けて、キーワード蓄積部206に追記し、しかるべき契機において、キーワード蓄積部206に蓄積されたキーワードそれぞれと、その時刻から算出した経過時間から、キーワードそれぞれに重み付けを行うことで、古くに入力されたキーワードの重みが小さくなっていくような辞書を生成することが可能となる。特に、しかるべき契機に、キーワードそれぞれに対して重み値の算出を毎回行っているため、より精度の高い辞書の生成が可能となる。
【0098】
また、図3のキーワードベクトル辞書生成装置301では、文書データを文書入力部303にて入力し、形態素解析実行部302において、前記文書データを単語に形態素解析し、それぞれの単語を一時記憶部305で一時記憶させ、キーワード送出実行部304において、図1,2のキーワードベクトル辞書生成措置101,201等の入力部306へ入力させる。
【0099】
このように、図3のキーワードベクトル辞書生成装置301では、キーワード化されていない、文書データを入力データとして用いることが可能となる。
【0100】
また、図4のキーワードベクトル辞書生成システム401では、属性情報入力部403において入力キーワードに関連した属性情報を入力し、属性分類実行部402において、予め分類条件を定義した分類定義情報記憶部404の分類定義情報に基づいて、前記入力した属性情報を分類し、分類結果に対応した、複数もしくは単数の、図1〜図3におけるキーワードベクトル辞書生成装置101,201,301を含む複数のキーワードベクトル辞書生成装置405〜407の入力部405a〜407aへ入力させる。
【0101】
このように、図4のキーワードベクトル辞書生成システム401では、属性分類実行部402において、入力キーワードに関連した属性情報を、分類条件を定義した分類定義情報に基づいて分類し、図1〜図3の各キーワードベクトル辞書生成装置101,201,301を含む複数のキーワードベクトル辞書生成装置405〜407に処理を継続することで、属性情報に応じた複数の辞書を生成することが可能となる。
【0102】
尚、本発明は、上記各図の説明でも記載したように、図1〜図4を用いて説明した例に限定されるものではなく、その要旨を逸脱しない範囲において種々変更可能である。例えば、本例のコンピュータ構成例としても、キーボードや光ディスクの駆動装置の無いコンピュータ構成としても良い。また、本例では、光ディスクを記録媒体として用いているが、FD(Flexible Disk)等を記録媒体として用いることでも良い。また、プログラムのインストールに関しても、通信装置を介してネットワーク経由でプログラムをダウンロードしてインストールすることでも良い。
【0103】
【発明の効果】
本発明によれば、コンピュータにより文書を自動判別するための基準となる辞書を生成する際、学習データが入力される際の時刻情報を用いて、学習データが入力されてからの経過時間に応じて重み付けを行うことで、刻々と内容が変化するような文書を学習データとして用いた場合でも、新しい学習データの影響を大きくし、また、古い学習データの影響を少なくすることを可能とした辞書を生成することができる。すなわち、(1)入力された学習データの新旧によって重みを変えた特徴ベクトル辞書を生成でき、刻々と内容が変化する学習データを用いた場合でも、新しい内容の重みを大きくすることができる。また、(2)複数のキーワードベクトル辞書生成装置を目的に応じて使い分けることで、目的に応じたキーワードベクトル辞書を生成することができる。さらに、(3)複数の利用者でキーワードベクトル辞書生成装置を共有することで、「迷惑」と感じるメールのように、同じように感じる文書データをもとにして、単純な条件では判別できない「迷惑」と感じるメールの特徴的なキーワードベクトル辞書をリアルタイムに生成することが可能となり、そのような文書を判別することが可能となる。
【図面の簡単な説明】
【図1】本発明に係わるキーワードベクトル辞書生成装置の第1の構成例を示すブロック図である。
【図2】本発明に係わるキーワードベクトル辞書生成装置の第2の構成例を示すブロック図である。
【図3】本発明に係わるキーワードベクトル辞書生成装置の第3の構成例を示すブロック図である。
【図4】本発明に係わるキーワードベクトル辞書生成システムの構成例を示すブロック図である。
【符号の説明】
101,201,301:キーワードベクトル辞書生成装置、102:減衰率算出実行部、103:演算実行部、104:時刻記憶実行部、105:追加記録実行部、106:タイマ、107:時間減衰関数記憶部、108:時刻記憶部、109:キーワードベクトル辞書記憶部、110:入力部、202:追加記録実行部、203:時刻付与部、204:入力部、205:タイマ、206:キーワード記憶部(「一時記憶部」)、207:辞書初期化実行部、208:経過時間算出実行部、209:重み値算出実行部、210:時間重み関数記憶部、211:追加格納実行部、212:キーワードベクトル辞書記憶部、213:繰返し実行部、302:形態素解析実行部、303:文書入力部、304:キーワード送出実行部、305:一時記憶部、306:入力部、307:キーワードベクトル辞書、401:キーワードベクトル辞書生成システム、402:属性分類実行部、403:属性情報入力部、404:分類定義情報記憶部、405,406,407:キーワードベクトル辞書生成装置A,B,C、405a〜407a:入力部、405b〜407b:キーワードベクトル辞書。

Claims (4)

  1. コンピュータ処理による文書の特徴の判別に用いるキーワードベクトル辞書を生成する装置であって、
    1以上のキーワードと当該キーワードの重み値を記憶するキーワードベクトル辞書記憶手段と、
    該キーワードベクトル辞書記憶手段で当該キーワードを記憶した時刻を記憶する時刻記憶手段と、
    予め、経過時間に対応した重み値の減衰率の算出に用いる時間減衰関数を記憶する時間減衰関数記憶手段と、
    上記時刻記憶手段で記憶した時刻と現在の時刻から経過時間を取得し、取得した経過時間に対応する重み値の減衰率を上記時間減衰関数記憶手段から読み出した時間減衰関数に基づき算出する減衰率算出手段と、
    該減衰率算出手段で算出した重み値の減衰率に応じて、上記キーワードベクトル辞書記憶手段に記憶した全てのキーワードの重み値を減衰して更新する演算実行手段と
    該演算実行手段により上記キーワードの重み値を減衰した時刻で上記時刻記憶手段で記憶した記憶時刻を更新する時刻記憶実行手段と
    を有することを特徴とするキーワードベクトル辞書生成装置。
  2. 請求項1に記載のキーワードベクトル辞書生成装置であって、
    入力されたキーワードに予め定めておいた重みを付与して、上記キーワードベクトル辞書記憶手段に追加記録する追加記録実行手段を
    有することを特徴とするキーワードベクトル辞書生成装置。
  3. 請求項1もしくは請求項2のいずれかに記載のキーワードベクトル辞書生成装置を、目的に応じて別々に複数具備し、
    キーワードと上記キーワードベクトル辞書生成装置の特定に用いる属性情報を入力する属性情報入力手段と、
    予め、上記属性情報と上記具備したキーワードベクトル辞書生成装置との対応付け情報を登録した分類定義情報記憶手段と、
    上記属性情報入力手段で入力したキーワードを、該キーワードと共に入力した属性情報が上記分類定義情報記憶手段において対応付けられたキーワードベクトル辞書生成装置に送出する属性分類手段と
    を有することを特徴とするキーワードベクトル辞書生成システム。
  4. コンピュータを、請求項1もしくは請求項のいずれかに記載のキーワードベクトル辞書生成装置における各手段もしくは請求項に記載のキーワードベクトル辞書生成システムにおける各手段として機能させるためのプログラム。
JP2003181218A 2003-06-25 2003-06-25 キーワードベクトル辞書生成装置とシステムおよびプログラム Expired - Fee Related JP4225542B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003181218A JP4225542B2 (ja) 2003-06-25 2003-06-25 キーワードベクトル辞書生成装置とシステムおよびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003181218A JP4225542B2 (ja) 2003-06-25 2003-06-25 キーワードベクトル辞書生成装置とシステムおよびプログラム

Publications (2)

Publication Number Publication Date
JP2005018344A JP2005018344A (ja) 2005-01-20
JP4225542B2 true JP4225542B2 (ja) 2009-02-18

Family

ID=34181982

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003181218A Expired - Fee Related JP4225542B2 (ja) 2003-06-25 2003-06-25 キーワードベクトル辞書生成装置とシステムおよびプログラム

Country Status (1)

Country Link
JP (1) JP4225542B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4757016B2 (ja) * 2005-12-21 2011-08-24 富士通株式会社 文書分類プログラム、文書分類装置、および文書分類方法
JP2010128970A (ja) * 2008-11-28 2010-06-10 Toshiba Corp コンテンツ検索装置、およびコンテンツ検索装置のコンテンツ検索方法
GB2488373A (en) * 2011-02-28 2012-08-29 Hsbc Holdings Plc Database ranks results based on reputational scores
JP7077585B2 (ja) * 2017-11-15 2022-05-31 富士フイルムビジネスイノベーション株式会社 情報処理システム、情報処理装置およびプログラム

Also Published As

Publication number Publication date
JP2005018344A (ja) 2005-01-20

Similar Documents

Publication Publication Date Title
US8055078B2 (en) Filter for blocking image-based spam
US7827165B2 (en) Providing a social network aware input dictionary
US8489593B2 (en) Compiling information obtained by combinatorial searching
JP5420243B2 (ja) 所望リポジトリの判定
US20030074409A1 (en) Method and apparatus for generating a user interest profile
JP2007503660A (ja) 類似性測度に基づいて電子メール・スパムをフィルタ処理するための方法および装置
Sanz et al. Email spam filtering
Mohammed et al. Classifying unsolicited bulk email (UBE) using python machine learning techniques
JP5551025B2 (ja) 特許検索式生成装置、特許検索式生成方法、およびプログラム
JP2019191975A (ja) 人材選定装置、人材選定システム、人材選定方法及びプログラム
EP1556788A2 (en) Intelligent classification system
JP2012003589A (ja) コンテンツ収集装置、コンテンツ収集方法およびコンテンツ収集プログラム
JP4225542B2 (ja) キーワードベクトル辞書生成装置とシステムおよびプログラム
US8356076B1 (en) Apparatus and method for performing spam detection and filtering using an image history table
US10530889B2 (en) Identifying member profiles containing disallowed content in an online social network
JP2003067304A (ja) 電子メールフィルタリングシステム、電子メールフィルタリング方法、電子メールフィルタリングプログラム及びそれを記録した記録媒体
JP4379365B2 (ja) コンテンツ提供装置,コンテンツ提供システムおよびプログラム
US20200364589A1 (en) Collection apparatus, collection method, and collection program
Phomkeona et al. Zero-day malicious email investigation and detection using features with deep-learning approach
JP2020135673A (ja) 投稿評価システム及び方法
JP7068587B2 (ja) 情報処理装置、情報処理方法、プログラム
JP6298583B2 (ja) 個人情報の保護方法、電子機器、およびコンピュータ・プログラム
JP4484957B1 (ja) 検索式生成装置、検索式生成方法、およびプログラム
JP4821328B2 (ja) 補完単語語句提案方法、プログラムおよび補完単語語句提案装置
JP7287992B2 (ja) 情報処理装置、情報処理システム、情報処理方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050708

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080822

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080826

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081017

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20081121

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081121

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111205

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111205

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121205

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121205

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131205

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees