JP2004348523A - System for filtering document, and program - Google Patents

System for filtering document, and program Download PDF

Info

Publication number
JP2004348523A
JP2004348523A JP2003145930A JP2003145930A JP2004348523A JP 2004348523 A JP2004348523 A JP 2004348523A JP 2003145930 A JP2003145930 A JP 2003145930A JP 2003145930 A JP2003145930 A JP 2003145930A JP 2004348523 A JP2004348523 A JP 2004348523A
Authority
JP
Japan
Prior art keywords
keyword vector
document
mail
similarity
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003145930A
Other languages
Japanese (ja)
Inventor
Shunsuke Doi
俊介 土井
Yuki Yoshida
由紀 吉田
Takeshi Tono
豪 東野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2003145930A priority Critical patent/JP2004348523A/en
Publication of JP2004348523A publication Critical patent/JP2004348523A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To select a document with high precision by discriminating unnecessary mails and necessary mails, etc. <P>SOLUTION: When an inputted mail document is selected in a mail-filtering device 1, a morpheme-analyzing part 1b morphologically analyzes the inputted mail document, so as to make the aggregation of keywords; a keyword vector generating part 1c generates an input keyword vector S, expressing the feature of the mail document from the aggregation of the keywords; a keyword vector similarity degree calculating part 1d reads a keyword vector B for reference which is previously generated in a keyword vector generating part 5 and stored in a storage device as a dictionary, so as to calculate the similarity degree p1 of the reference keyword vector B and the input keyword vector S; and a determining part 1e discriminates whether the mail document is necessary or desired, based on the similarity degree p1 by referring to a discrimination condition 13, and selects. Consequently, determination becomes possible as to the need/unnecessary state of an unknown mail which is not discriminated by the designation of a mail condition, when an E-mail is the object, for example. Even when the unnecessary mail with a similar content is transmitted to an unspecified number of people by masquerading as the sender, the unnecessary mail can be discriminated. <P>COPYRIGHT: (C)2005,JPO&NCIPI

Description

【0001】
【発明の属する技術分野】
本発明は、インターネットから受信した電子メールが不要メールか必要メールか等、文書の選別を行う技術に係わり、特に、高精度な選別を行うのに好適な文書フィルタリング技術に関するものである。
【0002】
【従来の技術】
近年、インターネット等のネットワークにおける電子メールの普及とブロードバンド化に伴い、受信者が不要と感じる迷惑メールや広告メールが無差別に送られてくることが多くなっている。
【0003】
このような不要メールは、電子メールの送信者のアドレスや件名、本文に指定した文字列を含む・含まないといった条件を指定することで、メールソフトやプロバイダのメールサーバにて、メール受信時に不要メールと必要メールを判別し、不要メールを自動で削除したり、分別するといった処理が行われている。
【0004】
しかし、これらの技術では、予め不要メールと考えられるメールアドレスや、受信条件を指定していても、その指定した条件に当てはまらない不要メールは処理されない問題点がある。
【0005】
また、特許文献1に記載の「通信サービスにおけるユーザフィルタリングシステム及び方法」では、受信したメールが不要メールであると、ネットワーク上の発信者評価パラメータ記憶装置に発信者の評価ポイントを下げて登録する。
【0006】
そして、別途、メール受信時に、このメールの発信者のアドレスをキーにして、ネットワーク上の発信者評価パラメータ記憶装置の発信者の評価ポイントを検索し、メールの発信者のアドレスの評価ポイントが下げられて登録されている場合は、不要メールであると判別して、受信しないなどの処理を行っている。
【0007】
しかし、この技術では、送信者が毎回異なる架空のアドレスを用いている場合は、送信者のアドレスで判別できないという問題が発生する。
【0008】
また、特許文献2に記載の「文書分類装置」では、文書データの解析を行い、特徴ベクトルを自動的に抽出して、類似した文書を自動的に分類することを行っており、メール受信時に前記装置を用いることで、メールの自動分類は可能となる。
【0009】
しかし、この技術では、類似した特徴をもった文章が分類されるだけで、その分類が不要メールであるかは人間が判断をしなければいけない。また、必要メールと似た単語を用いて記述されたメールは、誤分類される可能性が大きいといった問題点がある。
【0010】
【特許文献1】
特開2003−18324号公報
【特許文献2】
特許第2978044号
【0011】
【発明が解決しようとする課題】
解決しようとする問題点は、従来の技術では、例えば電子メールに関して、不要メールを判別するために、メールの送信者のアドレスや件名、本文に指定した文字列を含む/含まないといった条件を指定することで、不要メールと必要メールを判別していたが、未知の不要メールは上記条件指定で判別できない場合があるとの間題点と、他者の評価ポイント情報によって不要メールの送信者を判別できるようになっても、送信者を偽ることで不要メールが判別できないという問題点と、メール本文の特徴ベクトルで分類する場合、必要メールと似た単語を用いて記述がされたメールは、誤分類される可能性が大きいという問題点である。
【0012】
本発明の目的は、これら従来技術の課題を解決し、不要メールと必要メールとの判別等、文書の選別を高精度に行うことを可能とすることである。
【0013】
【課題を解決するための手段】
上記目的を達成するため、本発明は、電子メールを例とすると、受信メールから生成したキーワードベクトルSと、例えば予め不要メールの文面を形態素解析をして重み付けして生成したキーワードベクトルBとの類似度や、必要メールの文面を形態素解析をして重み付けして生成したキーワードベクトルWとの類似度を用いて不要メールか必要メールかを判別することで、不要メールの文面が未知であっても、キーワードベクトルの類似度によって不要メールか否かを判別することを特徴とする。詳細には、▲1▼電子メールを受信して当該メールが不要メールか否かを判別するメールフィルタリング装置において、予めキーワードベクトルBが記憶されているキーワードベクトル辞書Bをネットワーク上もしくはローカルに具備し、電子メールを受信する受信部と、受信メールの文面を形態素解析し、キーワードの集合にする形態素解析部と、形態素解析後のキーワード集合からキーワードベクトルSを生成するキーワードベクトル生成部と、生成したキーワードベクトルSと、キーワードベクトル辞書から取得したキーワードベクトルBとで内積や余弦等の類似度を算出する演算を行い、類似度p1を算出するキーワードベクトル類似度算出部と、必要メール、不要メールを判別する為の類似度の大きさの条件を記述した判別条件を参照し、類似度p1の大きさによって、必要メール、不要メールかを判別する判別部と、判別部において不要メールであると判別された場合、当該メールを削除するなどのしかるべき処理を行う不要メール処理部と、判別部において必要メールであると判別された場合、当該メールをメールソフトで受信するなどのしかるべき処理を行う必要メール処理部とを具備する。▲2▼または、電子メールを受信して当該メールが不要メールか否かを判別するメールフィルタリング装置において、予めキーワードベクトルBが記憶されているキーワードベクトル辞書、および、予めキーワードベクトルWが記憶されているキーワードベクトル辞書をネットワーク上もしくはローカルに具備し、電子メールを受信する受信部と、メールの文面を形態素解析し、キーワードの集合にする形態素解析部と、形態素解析後のキーワード集合からキーワードベクトルSを生成するキーワードベクトル生成部と、生成したキーワードベクトルSと、キーワードベクトル辞書Bから取得したキーワードベクトルBとで内積や余弦等の類似度を算出する演算を行い、類似度p1を算出するキーワードベクトル類似度算出部と、生成したキーワードベクトルSと、キーワードベクトル辞書Wから取得したキーワードベクトルWとで内積や余弦等の類似度を算出する演算を行い、類似度p2を算出するキーワードベクトル類似度算出部と、必要メール、不要メールを判別する為の類似度の大きさの条件を記述した判別条件を参照し、類似度p1とp2の大きさによって、必要メール、不要メールかを判別する判別部と、判別部において不要メールであると判別された場合、当該メールを削除するなどのしかるべき処理を行う不要メール処理部と、判別部において必要メールであると判別された場合、当該メールをメールソフトで受信するなどのしかるべき処理を行う必要メール処理部とを具備する。▲3▼また、▲1▼のメールフィルタリング装置であって、キーワードベクトル生成部の次段において、キーワードベクトルSとキーワードベクトル辞書Wから取得したキーワードベクトルWとで積集合演算(S∩W)を行い、キーワードベクトルSからキーワードベクトル(S∩W)を除いたキーワードベクトルSb(=S−(S∩W))を生成するキーワードベクトルフィルタリング部を具備し、生成したキーワードベクトルSbと、キーワードベクトル辞書Bから取得したキーワードベクトルBとで内積や余弦等の類似度を算出する演算を行い、類似度p1を算出するキーワードベクトル類似度算出部と、生成した類似度p1を判別部への入力として処理を継続する。▲4▼また、▲2▼のメールフィルタリング装置であって、キーワードベクトル生成部の次段において、キーワードベクトルSとキーワードベクトル辞書Wから取得したキーワードベクトルWとで積集合演算(S∩W)を行い、キーワードベクトルSからキーワードベクトル(S∩W)を除いたキーワードベクトルSb(=S−(S∩W))を生成するキーワードベクトルフィルタリング部を具備し、キーワードベクトル生成部の次段において、キーワードベクトルSとキーワードベクトル辞書Bから取得したキーワードベクトルBとで積集合演算(S∩B)を行い、キーワードベクトルSからキーワードベクトル(S∩B)を除いたキーワードベクトルSw(=S−(S∩B))を生成するキーワードベクトルフィルタリング部を具備し、生成したキーワードベクトルSbと、キーワードベクトル辞書Bから取得したキーワードベクトルBとで内積や余弦等の類似度を算出する演算を行い、類似度p1を算出するキーワードベクトル類似度算出部と、生成したキーワードベクトルSwと、キーワードベクトル辞書Wから取得したキーワードベクトルWとで内積や余弦等の類似度を算出する演算を行い、類似度p2を算出するキーワードベクトル類似度算出部と、生成した類似度p1、p2を判別部への入力として処理を継続する。▲5▼また、▲1▼〜▲4▼におけるメールフィルタリング装置であって、必要メール、不要メールを判別する為の類似度の大きさの条件を記述した判別条件を参照し、類似度p1(とp2)の大きさによって、必要メール、不要メール、それ以外の3つに判別する判別部と、「それ以外」と判別された場合、演算部。算出部の処理を継続して処理を繰り返し、最終段階では、必要メール、不要メールを判別する為の類似度の大きさの条件を記述した判別条件を参照し、類似度p1(とp2)の大きさによって、必要メール、不要メールのいずれか2つに判別する判別部と、判別部において不要メールであると判別された場合、当該メールを削除するなどのしかるべき処理を行う不要メール処理部と、判別部において必要メールであると判別された場合、当該メールをメールソフトで受信するなどのしかるべき処理を行う必要メール処理部とを具備する。尚、▲5▼では、演算部。算出部の処理を多段構成で用いるが、各演算部。算出部で用いる、キーワードベクトルB、キーワードベクトルWは、各段によって、置き換えても良い。また、キーワードベクトルBを複数用いる場合であっても、内容が同一のキーワードベクトルBであっても、それぞれ内容が異なるキーワードベクトルBであっても良い。
【0014】
【発明の実施の形態】
以下、本発明の実施の形態を、図面により詳細に説明する。
【0015】
図1は、本発明に係わる文書フィルタリングシステムの第1の構成例を示すブロック図であり、図2は、図1における文書フィルタリングシステムを用いたメール配信サービスシステムの構成例を示すブロック図である。
【0016】
図2において、1は本発明の文書フィルタリングシステムとしてのメールフィルタリング装置、2はメールサーバ装置(図中「メールサーバ」と記載)、3はメールクライアント装置(図中「メールクライアント」と記載)、4はメールクライアント装置の利用者、5は本発明に係わるキーワードベクトル辞書を生成するキーワードベクトル生成装置、6a〜6dはインターネットやイントラネット等からなるIPネットワークであり、本例では、選別対象の文書として電子メールを例に説明する。
【0017】
メールフィルタリング装置1、メールサーバ装置2、メールクライアント装置3、キーワードベクトル生成装置5のそれぞれは、CPU(Central Processing Unit)や主メモリ、表示装置、入力装置、外部記憶装置からなるコンピュータ構成からなり、光ディスク駆動装置等を介してCD−ROM等の記憶媒体に記録されたプログラムやデータを外部記憶装置内にインストールした後、この外部記憶装置から主メモリに読み込みCPUで処理することにより、各処理機能を実行する。
【0018】
メールフィルタリング装置1は、メールサーバ装置2や図示していないメール記憶ディスク等からメールを受信する。また、メールフィルタリング装置1は、キーワードベクトル生成装置5からキーワードベクトルを取得し、不要メールであるか必要メールであるかを判別し、不要メールであると判断した場合、メールサーバ装置2からの当該メールを削除したり、当該メールの内容を書き換えたり、メールクライアント装置3に渡さない、等の処理を行う。
【0019】
また、必要メールであると判断した場合、メールサーバ装置2からの当該メールを削除せず、当該メールをメールクライアント装置3に渡す等の処理を実施する。
【0020】
尚、本例では、キーワードベクトル生成装置5は、メールクライアント装置3からメールを受信し、この受信メールを用いてキーワードベクトルを生成して、キーワードベクトル辞書に格納し、メールフィルタリング装置1に提供する。
【0021】
尚、このキーワードベクトル生成装置5は、複数あってもよく、例えば、不要なメールのキーワードベクトルを生成してキーワードベクトル辞書に格納するよう特化するために「不要メール」のみを受け付けるキーワードベクトル生成装置であったり、必要なメールのキーワードベクトルを生成してキーワードベクトル辞書に格納するよう特化するために「必要メール」のみを受け付けるキーワードベクトル生成装置であったり、プライベートに必要なメールのキーワードベクトルを生成してキーワードベクトル辞書に格納するよう特化するために「プライベートな必要メール」のみを受け付けるキーワードベクトル生成装置であったり、プライベートに不要なメールのキーワードベクトルを生成してキーワードベクトル辞書に格納するよう特化するために「プライベートな不要メール」のみを受け付けるキーワードベクトル生成装置であっても良い。
【0022】
あるいは、キーワードベクトル生成装置5は1つとし、1つのキーワードベクトル生成装置5で、上述の「不要メール」、「必要メール」、「プライベートな必要メール」、「プライベートな不要メール」を基に、各キーワードベクトルを生成して個別のキーワードベクトル辞書に分けて格納する構成としても良い。
【0023】
また、キーワードベクトル生成装置5にむけて送信されるメールは、メールフィルタリング装置1を経由して取得したメールであっても、通常のメールであっても良い。
【0024】
以下、図1に示すメールフィルタリング装置の詳細を説明する。
【0025】
図1に示すようにメールフィルタリング装置1は、コンピュータのプログラムに基づく実行機能として処理を行う受信部1a、形態素解析部1b、キーワードベクトル生成部1c、キーワードベクトル類似度算出部1d、判定部1e、必要メール処理部1f、不要メール処理部1gを具備する。
【0026】
本例では、受信部1a、形態素解析部1b、キーワードベクトル生成部1cからなる機能ブロックをキーワードベクトル生成ブロック10、キーワードベクトル類似度算出部1dからなる機能ブロックを演算処理ブロック11とする。
【0027】
このような構成において、メールフィルタリング装置1は、その受信部1aにおいて、メール12を受信し、受信したメールに対して、形態素解析部1bによって、キーワードの集合に分ける。この際、形態素解析部1bでは、例えば「茶せん」(http://chasen.asit−nara.ac.jp/で入手可能)といった形態素解析ツールを用いることができる。
【0028】
キーワードベクトル生成部1cにおいては、形態素解析部1bで生成されたキーワード集合から、それに重みを付与したキーワードベクトルSを生成する。尚、この重みの付与については、キーワード集合の同一のキーワードの出現回数の値で重みを付与したり、出現の有無で「0」または「1」を付与したり、出現回数に変換式をかけた値であっても良い。
【0029】
例えば、「From okakko@jp こんにちわ お元気ですか? 今日はもう退社ですか?」とのメールを形態素解析した場合、「From/okakko/@/jp/こんにちわ/お/元気/です/か/?/今日/は/もう/退社/です/か/?」と17個のキーワードに分割され、これらを出現の有無で「0」または「1」の重みを付与して同じキーワードが出現した場合は重複しないようにして、キーワードベクトルを生成した場合、下記のようになる。
【0030】
(キーワード) (重み)
From 「1」
okakko 「1」
@ 「1」
jp 「1」
こんにちわ 「1」
お 「1」
元気 「1」
です 「1」
か 「1」
? 「1」
今日 「1」
は 「1」
もう 「1」
退社 「1」
【0031】
このように、14のキーワード要素からなるキーワードベクトルSが生成される。尚、この分割結果例は、形態素解析ツールの種別によって異なる。
【0032】
キーワードベクトル類似度算出部1dにおいては、図2のキーワードベクトル生成装置5から提供されるキーワードベクトル辞書BからキーワードベクトルBを取得し、このキーワードベクトルBと、キーワードベクトル生成部1cで生成したキーワードベクトルSとの類似度の算出演算を行う。
【0033】
例えば、不要メールを元にして生成されたキーワードベクトルBは下記の通りとする。
【0034】
(キーワード) (重み)
From 「1」
Spam 「1」
@ 「1」
jp 「1」
net 「1」
未 「1」
承諾 「1」
販売 「1」
限定 「1」
アダルト 「1」
激安 「1」
必見 「1」
お 「1」
は 「1」
! 「1」
【0035】
この場合、キーワードベクトルSとキーワードベクトルBとの類似度をキーワードベクトル同士の内積で算出し、形態素解析で分割されたキーワード数で正規化した場合、以下のように類似度p1が得られる。
【0036】
p1={(S・B)/(キーワード数)}=4/17=0.235
【0037】
尚、ここで、キーワード数で正規化を行わずに、類似度p1=(S・B)で導出しても良い。
【0038】
判別部1eでは、キーワードベクトル類似度算出部1dで算出した類似度p1と、予め設定された判別条件13を用いて、当該受信メールが不要メールか必要メールかを判別して選別する。
【0039】
判別条件13の一例としては、例えば、「予めしきい値n1を定めておき、類似度p1がしきい値n1を越えれば不要メール、類似度p1がしきい値n1を越えなければ必要メール」といったものが用いられる。
【0040】
上述の例で、しきい値n1として「0.700」が設定されていた場合、類似度p1は「0.235」であり、「p1<n1」となり、必要メールであると判断される。
【0041】
このように必要メールと判断された場合には、必要メール処理部1fにおいて、メールサーバ装置(2)からの当該メールを取得して削除せず、メールクライアント装置(3)に渡す等の処理を行う。
【0042】
また、不要メールであると判断された場合には、不要メール処理部1gにおいて、メールサーバ装置(2)からの当該メールを削除したり、当該メールの内容を書き換えたり、メールクライアント装置(3)に渡さない等の処理を行う。
【0043】
このように本例のメールフィルタリング装置1では、入力されたメール文書の選別を行う際、形態素解析部1bにより、入力されたメール文書を形態素解析してキーワードの集合にし、キーワードベクトル生成部1cにより、このキーワードの集合から当該メール文書の特徴を表す入力キーワードベクトルSを生成し、キーワードベクトル類似度算出部1dにより、予めキーワードベクトル生成装置5で生成され辞書として記憶装置に記憶された参照用のキーワードベクトルBを読み出し、この参照キーワードベクトルBと入力キーワードベクトルSとの類似度p1を算出し、判別部1eにより、この類似度p1に基づき当該メール文書を不要か必要かを判定条件13を参照して判定して選別する。
【0044】
特に、本例では、参照キーワードベクトルBは、不要とされる文書の特徴を表しており、判別部1eでは、類似度p1が予め定められた条件値より大きければ、参照キーワードベクトルBの特徴と類似しており、当該メール文書を不要メール文書として選別する。このようにして、本例では、不要メールと同様の特徴をもったメールを不要メールであると判別することが可能となる。
【0045】
図3は、本発明に係わる文書フィルタリングシステムの第2の構成例を示すブロック図である。
【0046】
図3に示す本発明のメールフィルタリングシステムとしてのメールフィルタリング装置31も、図1におけるメールフィルタリング装置1と同様に、図2に示すメール配信サービスシステムを構成するものであり、コンピュータのプログラムに基づく実行機能として処理を行うキーワードベクトル生成ブロック10(図示していない受信部1a、形態素解析部1b、キーワードベクトル生成部1cからなる)、キーワードベクトル類似度算出部1dとキーワードベクトル類似度算出部1hからなる演算処理ブロック11a、判定部31e、必要メール処理部1f、不要メール処理部1gを具備する。
【0047】
このような構成において、メールフィルタリング装置31は、キーワードベクトル生成ブロック10において、メールの受信と、受信したメールの形態素解析および入力キーワードベクトルSの生成を行う。
【0048】
そして、本例の演算処理ブロック11aでは、キーワードベクトル類似度算出部1dにおいて、キーワードベクトル辞書Bを用いて参照キーワードベクトルBと入力キーワードベクトルSの類似度を算出すると共に、キーワードベクトル類似度算出部1hにおいては、キーワードベクトル辞書Wを用いて参照キーワードベクトルWと入力キーワードベクトルSの類似度を算出する。
【0049】
そして、判別部31eでは、キーワードベクトル類似度算出部1dにおいて算出した類似度p1とキーワードベクトル類似度算出部1hにおいて算出した類似度p2との2つを用いて、判別条件33に基づく受信メール文書の要否を判別・選別を行う。
【0050】
判別条件33の一例をあげると、「予めαを定めておき、p1+α>p2ならば不要メール、そうで無いならば必要メール」といった条件が挙げられる。例えば、「類似度p1=0.235」、「類似度p2=0.500」の場合で、α値を「−0.100」と予め設定している場合、「0.235−0.100<0.500」となり、必要メールであると判断する。
【0051】
あるいは、判別条件33として、他に一例をあげると、「(p1/β)>p2ならば不要メール、そうで無いならば必要メール」と言った具合に、倍率βで条件を設定することもできる。この場合、前述のように「類似度p1=0.235」、「類似度p2=0.500」、β値を「0.5」と予め設定していれば、「0.235/0.5<0.500」となり、必要メールであると判断する。
【0052】
ここで、必要メールと判断すると必要メール処理部1fが、また、不要メールと判断すると不要メール処理部1gが実行される。
【0053】
このように本例のメールフィルタリング装置31では、入力されたメール文書の選別を行う際、キーワードベクトル類似度算出部1dにより参照キーワードベクトルBと入力キーワードベクトルSとの類似度p1を算出すると共に、キーワードベクトル類似度算出部1hにより参照キーワードベクトルWと入力キーワードベクトルSとの類似度p2を算出し、判別部31eにおいては、類似度p1および類似度p2に基づき、当該メール文書の要否を判定して選別する。
【0054】
また、一例として、参照キーワードベクトルBは不要とされる文書の特徴を表し、参照キーワードベクトルWは必要とされる文書の特徴を表すものとすると、判別部31eは、類似度p1が予め定められた条件値T1より大きく且つ類似度p2が予め定められた条件値T2より小さければ当該メール文書を不要文書として選別し、類似度p1が条件値T1より小さく且つ類似度p2が条件値T2より大きければ当該メール文書を必要文書として選別する。
【0055】
このことにより、本図3の例のメールフィルタリングシステムによれば、図1の構成例のメールフィルタリングシステムの有する問題点を解決できる。すなわち、図1の例では、判断部1eは、キーワードベクトルSとキーワードベクトルBとの類似度p1単独で、不要メールか必要メールかを判断しているため、本当は、キーワードベクトルSとキーワードベクトルWとの類似度の方が大きい場合であっても、類似度p1が不要メールの条件に合致すれば、不要メールとされてしまう問題があった。しかし、本図3の構成では、判断部31eは、類似度p1と類似度p2の2つの値の関係から不要メール、必要メールを判断しており、このような問題は解決する。
【0056】
図4は、本発明に係わる文書フィルタリングシステムの第3の構成例を示すブロック図である。
【0057】
図4に示す本発明のメールフィルタリングシステムとしてのメールフィルタリング装置41も、図1および図3におけるメールフィルタリング装置1,31と同様に、図2に示すメール配信サービスシステムを構成するものであり、コンピュータのプログラムに基づく実行機能として処理を行うキーワードベクトル生成ブロック10(図示していない受信部1a、形態素解析部1b、キーワードベクトル生成部1cからなる)、キーワードベクトルフィルタリング部1iとキーワードベクトル類似度算出部1jからなる演算処理ブロック11b、判定部41e、必要メール処理部1f、不要メール処理部1gを具備する。
【0058】
このような構成において、メールフィルタリング装置41は、キーワードベクトル生成ブロック10において、メールの受信と、受信したメールの形態素解析および入力キーワードベクトルSの生成を行う。
【0059】
そして、本例の演算処理ブロック11bでは、まず、キーワードベクトルフィルタリング部1iにおいて、入力キーワードベクトルSからキーワードベクトル辞書W45に格納された参照キーワードベクトルWの成分を除く処理を行う。
【0060】
例えば、受信メールのキーワードベクトルSとキーワードベクトルWとの積集合(S∩W)を、キーワードベクトルSから引くことで、キーワードベクトルWの成分を除いたキーワードベクトルSb(=S−S∩W)を生成する。
【0061】
そして、キーワードベクトル類似度算出部1jにおいて、キーワードベクトルフィルタリング部1iで生成したキーワードベクトルSbと、キーワードベクトル辞書B44に格納されたキーワードベクトルBとの類似度p1を算出し、判別部41eにおいて、判別条件43に基づき不要メールか必要メールかを判別して選別を行う。
【0062】
例えば、図1の説明で例示した入力キーワードベクトルSの場合、このキーワードベクトルSと参照キーワードベクトルWとの積集合「S∩W」は、下記の通りとなる。
【0063】
(キーワード) 重み
From 「1」
Okakko 「1」
@ 「1」
jp 「1」
こんにちわ 「1」
お 「1」
元気 「1」
つ 「1」
は 「1」
【0064】
そして、「S−(S∩W)」は下記の通りとなる。
【0065】
(キーワード) (重み)
です 「1」
か 「1」
今日 「1」
もう 「1」
退社 「1」
【0066】
これがキーワードベクトルSbとなる。
【0067】
そして、このキーワードベクトルSbとキーワードベクトル辞書Bとの類似度を、図1の説明の例と同様にして計算した場合、「p1={(Sb・B)/(キーワード数)}=0/17=0.000」が得られる。
【0068】
このように本例のメールフィルタリング装置41では、入力されたメール文書の選別を行う際、キーワードベクトル生成ブロック10で生成された入力キーワードベクトルSに対して、キーワードベクトルフィルタリング部1iにおいて、予めキーワードベクトル辞書W45として記憶装置に記憶された参照キーワードベクトルWを読み出し、この参照キーワードベクトルWと入力キーワードベクトルSとの積集合演算(S∩W)を行い、この積集合演算(S∩W)結果を入力キーワードベクトルSから除いたキーワードベクトルSb(=S−S∩W)を生成し、キーワードベクトル類似度算出部1jにおいて、予めキーワードベクトル辞書B44として記憶装置に記憶された参照キーワードベクトルBを読み出し、この参照キーワードベクトルBと、キーワードベクトルフィルタリング部1iで生成したキーワードベクトルSbとの類似度p1を算出し、判別部41eにより、この類似度p1に基づき当該メール文書の要否を判断して選別する。
【0069】
例えば、参照キーワードベクトルBは不要とされる文書の特徴を表し、参照キーワードベクトルWは必要とされる文書の特徴を表すものとすると、キーワードベクトルベクトルフィルタリング部1iでは、受信メールから生成したキーワードベクトルSから、必要メールから生成されたキーワードベクトルW成分を除き、必要メールと不要メールともに含まれるキーワード集合は排除される。
【0070】
これにより、キーワードベクトル類似度算出部1jでは、(1)特徴的な要素だけで類似度を算出するので、類似度の値がより特徴的となり、判別部41eで用いる判別条件43の設定が容易となり、設定負荷を低減できる。また、(2)判別に必要なキーワードベクトル(Sb)だけで類似度演算をさせることで、キーワードベクトル類似度算出部1jにおける類似度演算の処理数を低減させることが可能となる。
【0071】
図5は、本発明に係わる文書フィルタリングシステムの第4の構成例を示すブロック図である。
【0072】
図5に示す本発明のメールフィルタリングシステムとしてのメールフィルタリング装置51も、図1,3,4おけるメールフィルタリング装置1,31,41と同様に、図2に示すメール配信サービスシステムを構成するものであり、コンピュータのプログラムに基づく実行機能として処理を行うキーワードベクトル生成ブロック10(図示していない受信部1a、形態素解析部1b、キーワードベクトル生成部1cからなる)、キーワードベクトルフィルタリング部1iとキーワードベクトル類似度算出部1jおよびキーワードベクトルフィルタリング部1kとキーワードベクトル類似度算出部1mからなる演算処理ブロック11c、判定部51e、必要メール処理部1f、不要メール処理部1gを具備する。
【0073】
このような構成において、メールフィルタリング装置51は、キーワードベクトル生成ブロック10において、メールの受信と、受信したメールの形態素解析および入力キーワードベクトルSの生成を行う。
【0074】
本例のメールフィルタリング装置51の特徴は、図4に示すメールフィルタリング装置41の演算処理ブロック11bにおいて、キーワードベクトルフィルタリング部1kとキーワードベクトル類似度算出部1mの2つを追加した点であり、キーワードベクトルフィルタリング部1kは、キーワードベクトルSから、予めキーワードベクトル辞書Bにおいて決めておいたキーワードベクトルBの成分を除く処理を行い、キーワードベクトル類似度算出部1mは、キーワードベクトルフィルタリング部1kから出力されるキーワードベクトルに対して、予めキーワードベクトル辞書Wにおいて決めておいたキーワードベクトルWとの類似度を算出する。以下、このような構成の演算処理ブロック11cの動作の詳細を説明する。
【0075】
キーワードベクトルフィルタリング部1iは、キーワードベクトル生成ブロック10で生成された受信メールのキーワードベクトルSと、キーワードベクトル辞書W55に格納されたキーワードベクトルWとの積集合(S∩W)を、キーワードベクトルSから除いた、キーワードベクトルSb(=「S―(S∩W)」)を生成する。
【0076】
キーワードベクトル類似度算出部1jは、キーワードベクトルフィルタリング部1iで生成したキーワードベクトルSbと、キーワードベクトル辞書Bから取得したキーワードベクトルBとの類似度p1を算出する。
【0077】
例えば、図1の説明で示したキーワードベクトルの例を用いた場合、「S∩W」は、以下の通りとなる。
【0078】
(キーワード) (重み)
From 「1」
okakko 「1」
@ 「1」
jp 「1」
こんにちわ 「1」
お 「1」
元気 「1」
? 「1」
は 「1」
【0079】
そして、「S−(S∩W)」は、以下の通りとなる。
【0080】
(キーワード) (重み)
です 「1」
か 「1」
今日 「1」
もう 「1」
退社 「1」
【0081】
これがキーワードベクトルSbとなる。このキーワードベクトルSbとキーワードベクトルBとの類似度p1を図1の説明と同様にして計算した場合、「p1={(Sb・B)/(キーワード数)}=0/17=0.000」が得られる。
【0082】
また、キーワードベクトルフィルタリング部1kは、キーワードベクトル生成ブロック10で生成された受信メールのキーワードベクトルSから、キーワードベクトル辞書B54に格納されたキーワードベクトルBとの積集合(S∩B)を除いた、キーワードベクトルSw(=「S―(S∩B)」)を生成し、キーワードベクトル類似度算出部1mは、キーワードベクトルフィルタリング部1kで生成したキーワードベクトルSwと、キーワードベクトル辞書Wから取得したキーワードベクトルWとの類似度p2を算出する。
【0083】
これにより、例えば、図1の説明で示したキーワードベクトルの例を用いた場合、キーワードベクトルSとキーワードベクトルBとの積集合「S∩B」は、以下の通りとなる。
【0084】
(キーワード) (重み)
From 「1」
@ 「1」
お 「1」
は 「1」
【0085】
そして、「Sw=S−(S∩B)」は、下記の通りとなる。
【0086】
(キーワード) (重み)
okakko 「1」
jp 「1」
こんにちわ 「1」
元気 「1」
です 「1」
か 「1」
? 「1」
今日 「1」
もう 「1」
退社 「1」
【0087】
このキーワードベクトルSwとキーワードベクトルWとの類似度p2を図1の説明と同様にして計算した場合、「p2={(Sw・W)/(キーワード数)}=5/17=0.294」が得られる。
【0088】
そして、判別部51eにおいては、判別条件53に従って、類似度p1と類似度p2とを比較して不要メールか必要メールかを判別して選別する。
【0089】
このように本例のメールフィルタリング装置51では、入力されたメール文書の選別を行う際、キーワードベクトル生成ブロック10で生成された入力キーワードベクトルSに対して、キーワードベクトルフィルタリング部1iにおいて、予めキーワードベクトル辞書W45として記憶装置に記憶された参照キーワードベクトルWを読み出し、この参照キーワードベクトルWと入力キーワードベクトルSとの積集合演算(S∩W)を行い、この積集合演算(S∩W)結果を入力キーワードベクトルSから除いたキーワードベクトルSb(=S−S∩W)を生成し、キーワードベクトル類似度算出部1jにおいて、予めキーワードベクトル辞書B44として記憶装置に記憶された参照キーワードベクトルBを読み出し、この参照キーワードベクトルBと、キーワードベクトルフィルタリング部1iで生成したキーワードベクトルSbとの類似度p1を算出し、さらに、キーワードベクトルフィルタリング部1kにおいて、予めキーワードベクトル辞書B54として記憶装置に記憶された参照キーワードベクトルBを読み出し、この参照キーワードベクトルBと入力キーワードベクトルSとの積集合演算(S∩B)を行い、この積集合演算(S∩B)結果を入力キーワードベクトルSから除いたキーワードベクトルSw(=S−S∩B)を生成し、キーワードベクトル類似度算出部1mにおいて、予めキーワードベクトル辞書W55として記憶装置に記憶された参照キーワードベクトルWを読み出し、この参照キーワードベクトルWと、キーワードベクトルフィルタリング部1kで生成したキーワードベクトルSwとの類似度p2を算出し、判別部51eにより、この類似度p1と類似度p2に基づき当該メール文書の要否を判断して選別する。
【0090】
また、一例として、参照キーワードベクトルBは不要とされる文書の特徴を表し、参照キーワードベクトルWは必要とされる文書の特徴を表すものとすると、判別部51eは、類似度p1が予め定められた条件値T1より大きく且つ類似度p2が予め定められた条件値T2より小さければ当該メール文書を不要文書として選別し、また、類似度p1が条件値T1より小さく且つ類似度p2が条件値T2より大きければ当該メール文書を必要文書として選別する。
【0091】
このように本例では、キーワードベクトルベクトルフィルタリング部1iにおいては、受信メールから生成したキーワードベクトルSから、必要メールから生成されたキーワードベクトルW成分が除かれており、また、キーワードベクトルベクトルフィルタリング部1kにおいては、受信メールから生成したキーワードベクトルSから、不要メールから生成されたキーワードベクトルB成分が除かれており、必要メールと不要メールともに含まれるキーワード集合は排除されている。
【0092】
これにより、キーワードベクトル類似度算出部1jでは、キーワードベクトルSbとキーワードベクトルBとの類似度p1と、キーワードベクトルSwとキーワードベクトルWとの類似度p2とを用いて不要メールか必要メールかを判別することで、必要メールと不要メールともに含まれるキーワード集合は排除して評価することができる。
【0093】
この結果、キーワードベクトル類似度算出部1jでは、(1)特徴的な要素だけで類似度を算出するので、類似度の値がより特徴的となり、判別部51eで用いる判別条件43の設定が容易となり、設定負荷を低減できる。また、(2)判別に必要なキーワードベクトル(Sb,Sw)だけで類似度演算をさせることで、キーワードベクトル類似度算出部1j,1kにおける類似度演算の処理数を低減させることが可能となる。
【0094】
図6は、本発明に係わる文書フィルタリングシステムの第5の構成例を示すブロック図である。
【0095】
図6に示す本発明のメールフィルタリングシステムとしてのメールフィルタリング装置61も、図1,3〜5おけるメールフィルタリング装置1,31〜51と同様に、図2に示すメール配信サービスシステムを構成するものであり、コンピュータのプログラムに基づく実行機能として処理を行うキーワードベクトル生成ブロック10(図示していない受信部1a、形態素解析部1b、キーワードベクトル生成部1cからなる)と図1,3〜5のそれぞれで示される各処理部から構成された演算処理ブロック11d、判定部61e,61ee、必要メール処理部1f、不要メール処理部1gを具備する。
【0096】
このような構成において、メールフィルタリング装置61は、キーワードベクトル生成ブロック10において、メールの受信と、受信したメールの形態素解析および入力キーワードベクトルSの生成を行い、そして、演算処理ブロック11dでは、入力キーワードベクトルSと各種参照キーワードベクトルとの類似度p1,p2の算出を行い、判別部61eにおいて、判別条件63aに従って、類似度p1,p2に基づく当該入力メール文書の要否の判別・選別を行う。
【0097】
本例のメールフィルタリング装置61の特徴は、この判別部61eにおける当該入力メール文書の判別において、必要メールと不要メールのいずれにも選別できない「それ以外」の判別結果にも対応した仕組みを設けた点である。
【0098】
すなわち、本例では、例えば、図1および図3〜図5のそれぞれのメールフィルタリング装置1,31,41,51の判別部1e、31e、41e、51eにおいて「それ以外」と判別された場合に適用されるものであり、演算処理ブロック61dに類似度算出の処理を繰り返させる仕組みを有する。
【0099】
尚、図6の例では、演算処理ブロック11dからは類似度p1と類似度p2が出力される構成としているが、図1および図4に示したメールフィルタリング装置1,41に適用した場合は、類似度p1のみが出力され、図3および図5に示したメールフィルタリング装置31,51に適用した場合に、本図6に示すように類似度p1と類似度p2が出力される。
【0100】
以下、図1のメールフィルタリング装置1に対して、本図6に示すように、演算処理ブロックを二段構成にした場合の適用例として説明する。
【0101】
1段目の演算処理ブロック11dでは、例えば個人的に不要とされたメールから生成されたキーワードベクトルB1を元に受信メールの類似度を算出して判別部61eでその要否を判別し、2段目の演算処理ブロック61dでは、一般的に不要とされるメールから生成されたキーワードベクトルB2を元に受信メールの類似度を算出して判別部61eeでその要否を判別するものとする。
【0102】
まず、1段目の演算処理ブロック11dにおいて、キーワードベクトルSと個人的に不要とされたメールから生成されたキーワードベクトルB1との類似度p1が、判別部61eの判別条件63aに従っての判別で「それ以外」と選別されたとする。
【0103】
その場合、2段目の演算処理ブロック61eeでの処理を継続し、この2段目の演算処理ブロック61eeでは、キーワードベクトルSを入力として、1段目と同様に処理を行う。
【0104】
本例では、2段目が最終段となっているため、最終段の判別部61eeでは、「不要メール」、「必要メール」のいづれかに判別する。
【0105】
尚、1段目の演算処理ブロック11eの後の判別部61eで「不要メール」と「必要メール」のいづれかに判別された場合は、2段目の演算処理ブロック61eeに処理は継続されず、直ちに必要メール処理部1f、不要メール処理部1gのそれぞれの処理に移る。
【0106】
このようにして本例では、1段目の判別部61eが不要メール文書もしくは必要メール文書のいずれにも判別できないメール文書に対しても、キーワードベクトルに基づく類似度の算出と、この類似度に基づく選別処理を繰り返し、当該メール文書を不要メール文書もしくは必要メール文書のいずれか一方に選別することができる。
【0107】
尚、類似度の算出の繰り返しにおいて、類似度の算出に用いる参照キーワードベクトルは任意に置き換えることができる。
【0108】
例えば、1段目の演算処理ブロック11dと判別部61eで、個人的に生成した、個人的な不要メールキーワードベクトルB1に基づき受信メールを判別し、この1段目の演算処理ブロック11dと判別部61eで不要メールか否かを判別できなかった場合には、2段目の演算処理ブロック61dと判別部61eeで、ネット上にある一般的な不要メールキーワードベクトルB2に基づき受信メールを判別することで、より精度高く、メールの要否を判別することができる。
【0109】
また、1段目の演算処理ブロック11dと判別部61eで、個人的に生成した、個人的に必要となさたメールから生成されたキーワードベクトルW1に基づき受信メールを判別し、1段目の演算処理ブロックで必要メールか否かを判別できなかった場合、2段目の演算処理ブロック61dと判別部61eeで、ネット上で一般的に必要とされるメールから生成されたキーワードベクトルW2に基づき受信メールの要否を判別することで、より精度高く、メールの要否を判別することができる。
【0110】
また、1段目の演算処理ブロック11dと判別部61eで、個人的に生成した、個人的に必要とされるメールから生成されたキーワードベクトルW1で受信メールを判別し、1段目の判別部61eで必要メールか否かを判別できなかった場合、2段目の演算処理ブロック61dと判別部61eeで、一般的に不要とされるメールから生成されたキーワードベクトルB2に基づき受信メールの要否を判別することで、より精度高く、メールの要否を判別することができる。
【0111】
このように、本例では類似度の算出に用いる参照キーワードベクトルの内容を、目的に応じて組み合わせることが可能であり、精度の高い判別を可能とすることができる。
【0112】
以上、図1〜図6を用いて説明したように、本例のメールフィルタリング装置では、電子メールを選別対象の文書とし、受信メールから生成したキーワードベクトルSと、例えば予め不要メールの文面を形態素解析をして重み付けして生成したキーワードベクトルBとの類似度や、必要メールの文面を形態素解析をして重み付けして生成したキーワードベクトルWとの類似度を用いて不要メールか必要メールかを判別することで、不要メールの文面が未知であっても、キーワードベクトルの類似度によって不要メールか否かを判別することができる。
【0113】
例えば、図1に示すメールフィルタリング装置1の例では、受信メールの文面(ヘッダ情報や署名も含む)を形態素解析し、受信メールのキーワードベクトルSを生成し、キーワードベクトル辞書生成装置(5)が不要メールから生成したキーワードベクトル辞書Bから取得したキーワードベクトルBと受信メールのキーワードベクトルSとの類似度p1を算出し、類似度p1の大きさと予め登録された判別条件とによって必要メールか不要メールかを判断する。このことにより、不要メールと同様の特徴をもったメールを不要メールであると判別することが可能となる。
【0114】
また、図3に示すメールフィルタリング装置31の例では、キーワードベクトル辞書生成装置(5)が不要メールから生成したキーワードベクトル辞書Bから取得したキーワードベクトルBと、受信メールのキーワードベクトルSとの類似度p1と、キーワードベクトル辞書生成装置(5)が必要メールから生成したキーワードベクトル辞書Wから取得したキーワードベクトルWと、受信メールのキーワードベクトルSとの類似度p2とを比較して、類似度p1、p2の大きさと判別条件によって必要メールか不要メールかを判断する。この図3の構成例によれば、図1の例の問題点を解決できる。
【0115】
すなわち、図1の構成のメールフィルタリング装置1では、判別部1eにおいて、キーワードベクトルSと、不要メールから生成されたキーワードベクトルBとの類似度p1のみで、不要メール、必要メールかを判断しているため、本当は、キーワードベクトルSと必要メールから生成されたキーワードベクトルWとの類似度の方が大きい場合であっても、類似度p1が不要メールの条件に合致すれば、不要メールとされてしまう問題があった。しかし、図3の構成のメールフィルタリング装置31では、判別部31eにおいて、類似度p1とp2の2つの値の関係から不要メール、必要メールを判断するので、前述の問題は解決する。
【0116】
また、図4に示すメールフィルタリング装置41の例は、図1に示すメールフィルタリング装置1にキーワードベクトルフィルタリング部を追加したものであり、受信メールのキーワードベクトルSから、キーワードベクトルSと(例えば必要メールから生成された)キーワードベクトル辞書から取得したキーワードベクトルWとの積集合(S∩W)を除いたSbを用い、このキーワードベクトルSbと(例えば必要メールから生成された)キーワードベクトル辞書から取得したキーワードベクトルBとの類似度p1を算出し、類似度p1の大きさと判別条件によって必要メールか不要メールかを判断する。
【0117】
このように、図4に示すメールフィルタリング装置41では、キーワードベクトルフィルタリング部1iによって生成されたキーワードベクトルSbは、受信メールから生成したキーワードベクトルSから、必要メールから生成したキーワードベクトルW成分を除かれており、必要メールと不要メールともに含まれるキーワード集合は排除して評価することができる。これにより、(1)特徴的な要素だけで類似度を算出するため、類似度の値がより特徴的となり、判別部の判別条件設定の困難さを低減させることができ、また、(2)判別に必要なキーワードベクトルだけで類似度演算をさせることで、類似度演算の処理数を低減させることが可能となる。
【0118】
また、図5に示すメールフィルタリング装置51の例では、図3に示すメールフィルタリング装置31に、キーワードベクトルフィルタリング部を追加したものであり、受信メールのキーワードベクトルSから、キーワードベクトルSと(必要メールから生成された)キーワードベクトル辞書から取得したキーワードベクトルWとの積集合(S∩W)を除いたSbを用い、このキーワードベクトルSbと(必要メールから生成された)キーワードベクトル辞書から取得したキーワードベクトルBとの類似度p1を算出し、また、受信メールのキーワードベクトルSから、キーワードベクトルSと(不要メールから生成された)キーワードベクトル辞書から取得したキーワードベクトルBとの積集合(S∩B)を除いたSwを用い、このキーワードベクトルSwと(必要メールから生成された)キーワードベクトル辞書から取得したキーワードベクトルWとの類似度p2を算出し、これらの類似度p1とp2とを比較して判別部によって不要メールか必要メールかを判別する。
【0119】
本例によれば、追加した第1のキーワードベクトルフィルタリング部によって生成されたキーワードベクトルSbは、受信メールから生成したキーワードベクトルSから、必要メールから生成したキーワードベクトルW成分を除かれており、また、第2のキーワードベクトルフィルタリング部によって生成されたキーワードベクトルSwは、受信メールから生成したキーワードベクトルSから、不要メールから生成したキーワードベクトルB成分を除かれており、そのキーワードベクトルSbとキーワードベクトルBとの類似度p1と、そのキーワードベクトルSwとキーワードベクトルWとの類似度p2とを用いて不要メールか必要メールかを判別することで、必要メールと不要メールともに含まれるキーワード集合は排除して評価することができる。
【0120】
これにより、本例では、(1)特徴的な要素だけで類似度を算出するため、類似度の値がより特徴的となり、判別部の判別条件設定の困難さを低減させることができ、また、(2)判別に必要なキーワードベクトルだけで類似度演算をさせることで、類似度演算の処理数を低減させることが可能となる。
【0121】
また、図6に示すメールフィルタリング装置61の例では、図1、および図3〜5の各メールフィルタリング装置1,31〜51の判定部において、必要メールと不要メール以外のメールと判別し、「それ以外」と判別されたメールに対して、演算処理ブロックと判別部の処理を継続して繰り返し、その最終段階の判別部において、必要メールと不要メールのいずれか一方に選別する為の類似度の大きさの条件を記述した判別条件を参照し、類似度p1と類似度p2の大きさ、もしくは類似度p1のみの大きさによって、必要、不要、の2つに受信メールを判別する。
【0122】
例えば、図1のメールフィルタリング装置1に適用して、演算処理ブロックと判別部を2段とした場合、1段目の演算処理ブロックで類似度を演算して判別部において「それ以外」と判別した場合、2段目の演算処理ブロックと判別部に処理と移す。このようにすることで、1段目で、確実に「不要メール」であることを示すキーワードベクトルB1で判別し、この1段目では判別できなかった場合、2段目で、一般的な「不要メール」であることを示すキーワードベクトルB2で判別するといった、精度の高い判別が可能となる。
【0123】
同様に、このようにすることで、1段目で、確実に「必要メール」であることを示すキーワードベクトルWで判別し、1段目では判別できなかった場合、2段目で、「不要メール」であることを示すキーワードベクトルBで判別するといった処理動作も可能となる。
【0124】
尚、本発明は、図1〜図6を用いて説明した例に限定されるものではなく、その要旨を逸脱しない範囲において種々変更可能である。例えば、図2で示したメールフィルタリング装置、キーワードベクトル生成装置、メールサーバ装置、メールクライアント装置等における、それぞれの通信は、インターネットやLANと言ったネットワークを介した通信であっても、コンピュータ内のローカルな通信であっても構わない。
【0125】
例えば、図2の例では、メールフィルタリング装置は、キーワードベクトル生成装置で生成したキーワードベクトルをネットワークを介して参照する構成としているが、キーワードベクトル生成装置で生成したキーワードベクトルを予めメールフィルタリング装置内に取り込んでおく構成でも、キーワードベクトル生成装置内に、キーワードベクトル生成装置を設けた構成としても良い。
【0126】
また、図5の例では、キーワードフィルタリング部1iとキーワードベクトル類似度算出部1mでは、同じでキーワードベクトル辞書W55を参照し、キーワードフィルタリング部1kとキーワードベクトル類似度算出部1jでは、同じでキーワードベクトル辞書B54を参照する構成としているが、キーワードフィルタリング部1iとキーワードベクトル類似度算出部1mで、それぞれ異なるキーワードベクトル辞書(W,Wa)を参照し、また、キーワードフィルタリング部1kとキーワードベクトル類似度算出部1jにおいても、それぞれ異なるキーワードベクトル辞書(B,Ba)を参照する構成としても良い。
【0127】
また、本例では、要・不要の判別の対象として電子メールを例に説明しているが、文字列で構成されたテキストデータであれば良く、電子メールに限定するものではない。
【0128】
また、本例でのコンピュータ構成例としては、キーボードや光ディスクの駆動装置の無いコンピュータ構成としても良い。また、本例では、光ディスクを記録媒体として用いているが、FD(Flexible Disk)等を記録媒体として用いることでも良い。また、プログラムのインストールに関しても、通信装置を介してネットワーク経由でプログラムをダウンロードしてインストールすることでも良い。
【0129】
【発明の効果】
本発明によれば、例えば電子メールを対象とした場合、メール条件指定で判別できない未知のメールの要・不要を判別することが可能となり、また、類似内容の不要メールを送信者を偽って不特定多数に送りつける場合であっても、不要メールを判別することが可能となり、また、類似内容の不要メールを送信者を偽って不特定多数に送りつける場合、必要メールと似た単語を用いて記述がされたメールであっても、他者が不要と判断した不要メールのキーワードベクトルを用いることにより、メール本文の特徴ベクトルで判別しても誤分類される可能性が少なくなり、不要メールと必要メールとの判別等、文書の選別を高精度に行うことが可能となる。
【図面の簡単な説明】
【図1】本発明に係わる文書フィルタリングシステムの第1の構成例を示すブロック図である。
【図2】図1における文書フィルタリングシステムを用いたメール配信サービスシステムの構成例を示すブロック図である。
【図3】本発明に係わる文書フィルタリングシステムの第2の構成例を示すブロック図である。
【図4】本発明に係わる文書フィルタリングシステムの第3の構成例を示すブロック図である。
【図5】本発明に係わる文書フィルタリングシステムの第4の構成例を示すブロック図である。
【図6】本発明に係わる文書フィルタリングシステムの第5の構成例を示すブロック図である。
【符号の説明】
1,31,41,51,61:メールフィルタリング装置、1a:受信部、1b:形態素解析部、1c:キーワードベクトル生成部、1d,1h,1j,1m:キーワードベクトル類似度算出部、1e,31e,41e,51e,61e,61ee:判別部、1f:必要メール処理部、1g:不要メール処理部、1i,1k:キーワードベクトルフィルタリング部、2:メールサーバ装置(「メールサーバ」)、3:メールクライアント装置(「メールクライアント」)、4:利用者、5:キーワードベクトル生成装置、6a〜6d:IPネットワーク、10:キーワードベクトル生成ブロック、11,11a,11b,11c,11d,61d:演算処理ブロック、12:メール、13,33,43,53,63a,63b:判別条件、14,34,44,54:キーワードベクトル辞書B、35,45,55:キーワードベクトル辞書W。
[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a technique for selecting documents such as whether an e-mail received from the Internet is unnecessary or necessary, and more particularly to a document filtering technique suitable for performing high-precision sorting.
[0002]
[Prior art]
In recent years, with the spread of electronic mail in networks such as the Internet and the spread of broadband, unsolicited spam mails and advertisement mails that a recipient feels unnecessary are often sent indiscriminately.
[0003]
By specifying conditions such as including or not including the specified character string in the e-mail sender's address, subject, and body, such unnecessary e-mails are unnecessary when receiving e-mails with mail software or the mail server of the provider Processing such as discriminating mail from necessary mail and automatically deleting unnecessary mail or separating the mail is performed.
[0004]
However, these techniques have a problem in that even if a mail address considered to be unnecessary mail or a reception condition is specified in advance, unnecessary mail that does not satisfy the specified condition is not processed.
[0005]
Further, in the “user filtering system and method in communication service” described in Patent Document 1, if the received mail is unnecessary mail, the sender's evaluation point is lowered and registered in a sender evaluation parameter storage device on the network. .
[0006]
Then, separately, when receiving the mail, the sender's address of this mail is searched for using the sender's address of the mail as a key, and the sender's evaluation point of the mail sender's address is lowered. If it has been registered, it is determined that it is unnecessary mail, and processing such as not receiving it is performed.
[0007]
However, in this technique, when a sender uses a different imaginary address every time, there is a problem that it is not possible to determine the sender's address.
[0008]
Further, the “document classification device” described in Patent Document 2 analyzes document data, automatically extracts a feature vector, and automatically classifies similar documents. By using the above-mentioned device, automatic classification of mail becomes possible.
[0009]
However, in this technique, only texts having similar characteristics are classified, and a human must determine whether the classification is unnecessary mail. In addition, there is a problem that a mail described using a word similar to a necessary mail is likely to be misclassified.
[0010]
[Patent Document 1]
JP 2003-18324 A
[Patent Document 2]
Patent No. 2978044
[0011]
[Problems to be solved by the invention]
The problem to be solved is that, in the conventional technology, for example, regarding an e-mail, in order to determine an unnecessary mail, a condition such as including / not including a character string specified in an address, a subject, and a body of the mail sender is specified. In this way, unnecessary emails are distinguished from unnecessary emails.However, unknown unnecessary emails may not be distinguished by specifying the above conditions. Even if it becomes possible to judge, the problem that unnecessary mail cannot be judged by falsifying the sender, and when classifying by the feature vector of the mail body, the mail described using words similar to the necessary mail is The problem is that the possibility of misclassification is high.
[0012]
SUMMARY OF THE INVENTION An object of the present invention is to solve these problems of the prior art and to enable high-accuracy document selection such as discrimination between unnecessary mail and necessary mail.
[0013]
[Means for Solving the Problems]
In order to achieve the above object, in the present invention, when an e-mail is taken as an example, a keyword vector S generated from a received e-mail and a keyword vector B generated by weighting the text of an unnecessary e-mail by performing morphological analysis in advance, for example, It is possible to determine whether the text of the unnecessary mail is unknown by using the similarity or the similarity with the keyword vector W generated by performing morphological analysis and weighting the text of the necessary mail to determine whether the text of the unnecessary mail is unknown. Also, it is characterized in that whether or not it is unnecessary mail is determined based on the similarity of the keyword vectors. More specifically, (1) a mail filtering apparatus that receives an electronic mail and determines whether the mail is unnecessary mail includes a keyword vector dictionary B in which a keyword vector B is stored in advance on a network or locally. A receiving unit that receives an e-mail, a morphological analysis unit that morphologically analyzes the text of the received mail to generate a set of keywords, and a keyword vector generating unit that generates a keyword vector S from the keyword set after the morphological analysis. A keyword vector similarity calculation unit for calculating a similarity such as an inner product or a cosine of the keyword vector S and a keyword vector B obtained from the keyword vector dictionary to calculate a similarity p1 is provided. The discriminant condition describing the condition of the magnitude of similarity for discriminating And a determining unit for determining whether the mail is necessary or unnecessary according to the magnitude of the similarity p1, and when the determining unit determines that the mail is unnecessary, it is unnecessary to perform an appropriate process such as deleting the mail. An e-mail processing unit and a necessary e-mail processing unit that performs an appropriate process such as receiving the e-mail by e-mail software when the e-mail is determined to be necessary by the determining unit. {Circle around (2)} In a mail filtering device that receives an electronic mail and determines whether the mail is unnecessary mail, a keyword vector dictionary in which a keyword vector B is stored in advance and a keyword vector W is stored in advance. Receiving a keyword vector dictionary on a network or locally and receiving an e-mail; a morphological analysis unit for morphologically analyzing the text of the mail to make a set of keywords; and a keyword vector S from the keyword set after the morphological analysis. And a keyword vector for calculating a similarity such as an inner product or a cosine of the generated keyword vector S and the keyword vector B obtained from the keyword vector dictionary B, and calculating a similarity p1. The similarity calculation unit and the generated key A keyword vector similarity calculator for calculating a similarity such as an inner product or a cosine of the word vector S and the keyword vector W obtained from the keyword vector dictionary W to calculate a similarity p2; A discriminating unit for discriminating whether the mail is a necessary mail or an unnecessary mail based on the size of the similarities p1 and p2 with reference to a discriminating condition describing a condition of the magnitude of the similarity for discriminating the unnecessary mail. If it is determined that there is a mail, an unnecessary mail processing unit that performs appropriate processing such as deleting the mail, and if the determination unit determines that the mail is necessary, the mail should be received by mail software. A necessary mail processing unit for performing processing; {Circle around (3)} In the mail filtering device of (1), the intersection of the keyword vector S and the keyword vector W obtained from the keyword vector dictionary W is performed at the next stage of the keyword vector generation unit. And a keyword vector filtering unit for generating a keyword vector Sb (= S− (S∩W)) by removing the keyword vector (S∩W) from the keyword vector S. The generated keyword vector Sb and the keyword vector dictionary A keyword vector similarity calculating unit that calculates a similarity such as an inner product or a cosine with the keyword vector B obtained from the keyword B and calculates the similarity p1 and processes the generated similarity p1 as an input to the determination unit To continue. {Circle around (4)} The mail filtering device according to {circle around (2)}, in the next stage of the keyword vector generation unit, performs an intersection set operation (S∩W) with the keyword vector S and the keyword vector W obtained from the keyword vector dictionary W. A keyword vector filtering unit that generates a keyword vector Sb (= S− (S∩W)) by removing the keyword vector (S∩W) from the keyword vector S. An intersection set operation (S∩B) is performed on the vector S and the keyword vector B obtained from the keyword vector dictionary B, and the keyword vector Sw (= S− (S∩) is obtained by removing the keyword vector (S∩B) from the keyword vector S. B)) comprising a keyword vector filtering unit for generating A keyword vector similarity calculation unit that calculates a similarity such as an inner product or a cosine of the generated keyword vector Sb and a keyword vector B obtained from the keyword vector dictionary B, and calculates a similarity p1; A keyword vector similarity calculating unit that calculates a similarity such as an inner product or a cosine of the vector Sw and the keyword vector W obtained from the keyword vector dictionary W, and calculates a similarity p2; Processing is continued with p2 as an input to the determination unit. (5) The mail filtering apparatus according to (1) to (4), wherein the similarity p1 ( And a discriminating unit for discriminating between the required mail, the unnecessary mail, and the other three depending on the size of p2), and a calculating unit when it is discriminated as “other”. The processing of the calculation unit is continued and the processing is repeated. In the final stage, the similarity p1 (and p2) is determined by referring to the determination condition describing the condition of the magnitude of the similarity for determining the required mail and the unnecessary mail. A discriminating unit for discriminating between two of necessary mail and unnecessary mail according to the size, and an unnecessary mail processing unit for performing an appropriate process such as deleting the mail when the discriminating unit determines that the mail is unnecessary. And a necessary mail processing unit that performs an appropriate process such as receiving the mail by mail software when the determination unit determines that the mail is necessary mail. In (5), the calculation unit. Although the processing of the calculation unit is used in a multi-stage configuration, each calculation unit is used. The keyword vector B and the keyword vector W used in the calculation unit may be replaced by each stage. Also, a plurality of keyword vectors B may be used, a keyword vector B having the same contents, or a keyword vector B having different contents.
[0014]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
[0015]
FIG. 1 is a block diagram showing a first configuration example of a document filtering system according to the present invention, and FIG. 2 is a block diagram showing a configuration example of a mail distribution service system using the document filtering system in FIG. .
[0016]
In FIG. 2, 1 is a mail filtering device as a document filtering system of the present invention, 2 is a mail server device (described as “mail server” in the drawing), 3 is a mail client device (described as “mail client” in the drawing), Reference numeral 4 denotes a user of the mail client device, 5 denotes a keyword vector generation device for generating a keyword vector dictionary according to the present invention, and 6a to 6d denote IP networks such as the Internet and an intranet. This will be described using e-mail as an example.
[0017]
Each of the mail filtering device 1, the mail server device 2, the mail client device 3, and the keyword vector generation device 5 has a computer configuration including a CPU (Central Processing Unit), a main memory, a display device, an input device, and an external storage device. After installing programs and data recorded on a storage medium such as a CD-ROM via an optical disk drive or the like in an external storage device, the programs and data are read from the external storage device into a main memory and processed by the CPU, thereby achieving various processing functions. Execute
[0018]
The mail filtering device 1 receives mail from the mail server device 2 or a mail storage disk (not shown). Further, the mail filtering device 1 obtains a keyword vector from the keyword vector generation device 5, determines whether the mail is unnecessary mail or not, and determines that the mail is unnecessary mail. Processing such as deleting the mail, rewriting the contents of the mail, and not passing the mail to the mail client device 3 is performed.
[0019]
If it is determined that the mail is a necessary mail, a process such as passing the mail to the mail client device 3 without deleting the mail from the mail server device 2 is performed.
[0020]
In this example, the keyword vector generation device 5 receives a mail from the mail client device 3, generates a keyword vector using the received mail, stores the keyword vector in the keyword vector dictionary, and provides it to the mail filtering device 1. .
[0021]
The keyword vector generation device 5 may include a plurality of keyword vector generation units, for example, a keyword vector generation unit that receives only an “unnecessary mail” in order to generate a keyword vector of an unnecessary mail and store it in a keyword vector dictionary. A keyword vector generator that accepts only "necessary emails" to specialize in generating keyword vectors of necessary emails and storing them in the keyword vector dictionary, or keyword vectors of emails required for private use Is a keyword vector generator that accepts only "private necessary mail" to specialize to generate and store it in the keyword vector dictionary, or generate a keyword vector of private unnecessary mail and store it in the keyword vector dictionary To do It may be a keyword vector generation device that accepts a "private unwanted mail" only in order to reduction.
[0022]
Alternatively, one keyword vector generation device 5 is provided, and one keyword vector generation device 5 uses the above-described “unnecessary mail”, “necessary mail”, “private necessary mail”, and “private unnecessary mail” based on the above. A configuration in which each keyword vector is generated and divided and stored in an individual keyword vector dictionary may be adopted.
[0023]
Further, the mail transmitted to the keyword vector generating device 5 may be a mail obtained via the mail filtering device 1 or a normal mail.
[0024]
Hereinafter, details of the mail filtering device shown in FIG. 1 will be described.
[0025]
As shown in FIG. 1, the mail filtering device 1 includes a receiving unit 1a, a morphological analysis unit 1b, a keyword vector generation unit 1c, a keyword vector similarity calculation unit 1d, a determination unit 1e, which performs processing as an execution function based on a computer program. It includes a necessary mail processing unit 1f and an unnecessary mail processing unit 1g.
[0026]
In this example, a functional block including a receiving unit 1a, a morphological analysis unit 1b, and a keyword vector generating unit 1c is referred to as a keyword vector generating block 10, and a functional block including a keyword vector similarity calculating unit 1d is referred to as an arithmetic processing block 11.
[0027]
In such a configuration, the mail filtering device 1 receives the mail 12 in the receiving unit 1a, and divides the received mail into a set of keywords by the morphological analysis unit 1b. At this time, the morphological analysis unit 1b can use a morphological analysis tool such as “chasen” (available at http://chasen.asit-nara.ac.jp/).
[0028]
The keyword vector generation unit 1c generates a keyword vector S weighted from the keyword set generated by the morphological analysis unit 1b. The weight is assigned by the value of the number of occurrences of the same keyword in the keyword set, “0” or “1” is assigned depending on the presence or absence of the keyword, or a conversion formula is applied to the number of occurrences. Value may be used.
[0029]
For example, if you morphologically analyze the email "From Okakoko @ jp, how are you? Are you out of the office today?", "From / okakoko / @ / jp / Hello / Genki / Is / Is /? /?" / Today / is / already / leaving / is / is / ?? ", which is divided into 17 keywords. If the same keyword appears with a weight of" 0 "or" 1 "depending on whether it appears or not, When a keyword vector is generated without duplication, the result is as follows.
[0030]
(Keyword) (weight)
From "1"
Okakako "1"
@ "1"
jp "1"
Hello "1"
Contact "1"
Fine "1"
"1"
Or "1"
? "1"
Today "1"
Is "1"
Another "1"
Leaves "1"
[0031]
As described above, the keyword vector S including the 14 keyword elements is generated. Note that the example of the division result differs depending on the type of the morphological analysis tool.
[0032]
The keyword vector similarity calculation unit 1d acquires the keyword vector B from the keyword vector dictionary B provided from the keyword vector generation device 5 in FIG. 2, and stores the keyword vector B and the keyword vector generated by the keyword vector generation unit 1c. The calculation of the similarity with S is performed.
[0033]
For example, the keyword vector B generated based on the unnecessary mail is as follows.
[0034]
(Keyword) (weight)
From "1"
Spam "1"
@ "1"
jp "1"
net "1"
Not "1"
Consent "1"
Sales "1"
Limited "1"
Adult "1"
Cheap "1"
Must see "1"
Contact "1"
Is "1"
! "1"
[0035]
In this case, when the similarity between the keyword vector S and the keyword vector B is calculated by the inner product of the keyword vectors and normalized by the number of keywords divided by the morphological analysis, the similarity p1 is obtained as follows.
[0036]
p1 = {(SB) / (number of keywords)} = 4/17 = 0.235
[0037]
Here, it is also possible to derive the similarity p1 = (S · B) without normalizing with the number of keywords.
[0038]
Using the similarity p1 calculated by the keyword vector similarity calculator 1d and the preset determination condition 13, the determination unit 1e determines whether the received mail is an unnecessary mail or a necessary mail, and selects the received mail.
[0039]
An example of the determination condition 13 is, for example, “a threshold value n1 is determined in advance, and an unnecessary mail if the similarity p1 exceeds the threshold value n1, and a necessary mail if the similarity p1 does not exceed the threshold value n1”. Is used.
[0040]
In the above example, when “0.700” is set as the threshold value n1, the similarity p1 is “0.235”, “p1 <n1”, and it is determined that the mail is necessary.
[0041]
When it is determined that the mail is necessary, the necessary mail processing unit 1f performs processing such as acquiring the mail from the mail server device (2), not deleting the mail, and passing it to the mail client device (3). Do.
[0042]
When it is determined that the mail is unnecessary mail, the unnecessary mail processing unit 1g deletes the mail from the mail server device (2), rewrites the contents of the mail, or sends the mail client device (3). Perform processing such as not passing it to
[0043]
As described above, in the mail filtering device 1 of the present embodiment, when selecting an input mail document, the morphological analysis unit 1b morphologically analyzes the input mail document to form a set of keywords, and the keyword vector generation unit 1c performs the morphological analysis. An input keyword vector S representing the feature of the mail document is generated from the set of keywords, and the keyword vector similarity calculation unit 1d generates a reference keyword vector S generated by the keyword vector generation device 5 and stored in the storage device as a dictionary in advance. The keyword vector B is read out, the similarity p1 between the reference keyword vector B and the input keyword vector S is calculated, and the determining unit 1e determines whether the mail document is unnecessary or necessary based on the similarity p1 with reference to the determination condition 13. Judge and sort.
[0044]
In particular, in this example, the reference keyword vector B represents the feature of the document that is not required. If the similarity p1 is larger than a predetermined condition value, the determination unit 1e determines the feature of the reference keyword vector B as It is similar, and the mail document is selected as an unnecessary mail document. In this way, in the present example, it is possible to determine that an email having the same characteristics as an unnecessary email is an unnecessary email.
[0045]
FIG. 3 is a block diagram showing a second configuration example of the document filtering system according to the present invention.
[0046]
The mail filtering device 31 as the mail filtering system of the present invention shown in FIG. 3 also constitutes the mail distribution service system shown in FIG. 2, similarly to the mail filtering device 1 in FIG. A keyword vector generation block 10 (which includes a receiving unit 1a, a morphological analysis unit 1b, and a keyword vector generation unit 1c, not shown) that performs processing as a function, a keyword vector similarity calculation unit 1d, and a keyword vector similarity calculation unit 1h. It includes an arithmetic processing block 11a, a determination unit 31e, a necessary mail processing unit 1f, and an unnecessary mail processing unit 1g.
[0047]
In such a configuration, the mail filtering device 31 receives the mail, performs morphological analysis of the received mail, and generates the input keyword vector S in the keyword vector generation block 10.
[0048]
Then, in the arithmetic processing block 11a of this example, the keyword vector similarity calculating unit 1d calculates the similarity between the reference keyword vector B and the input keyword vector S using the keyword vector dictionary B, and also calculates the keyword vector similarity calculating unit. In 1h, the similarity between the reference keyword vector W and the input keyword vector S is calculated using the keyword vector dictionary W.
[0049]
Then, the discrimination unit 31e uses the two similarities p1 calculated by the keyword vector similarity calculation unit 1d and the similarity p2 calculated by the keyword vector similarity calculation unit 1h to determine the received mail document based on the discrimination condition 33. The necessity / unnecessity is determined / sorted.
[0050]
As an example of the determination condition 33, there is a condition such as “predetermined α, unnecessary mail if p1 + α> p2, otherwise necessary mail”. For example, when “similarity p1 = 0.235” and “similarity p2 = 0.500” and the α value is set to “−0.100” in advance, “0.235−0.100” <0.500 ”, and is determined to be necessary mail.
[0051]
Alternatively, as another example of the discrimination condition 33, a condition may be set with a magnification β, such as “unnecessary mail if (p1 / β)> p2, otherwise necessary mail”. it can. In this case, as described above, if “similarity p1 = 0.235”, “similarity p2 = 0.500”, and the β value are set to “0.5” in advance, “0.235 / 0. 5 <0.500 ”, and it is determined that the mail is necessary.
[0052]
Here, if it is determined that the mail is necessary, the necessary mail processing unit 1f is executed, and if it is determined that the mail is unnecessary, the unnecessary mail processing unit 1g is executed.
[0053]
As described above, in the mail filtering device 31 of the present example, when selecting the input mail document, the keyword vector similarity calculation unit 1d calculates the similarity p1 between the reference keyword vector B and the input keyword vector S, The keyword vector similarity calculator 1h calculates the similarity p2 between the reference keyword vector W and the input keyword vector S, and the determiner 31e determines whether the mail document is necessary based on the similarities p1 and p2. And sort.
[0054]
Further, as an example, assuming that the reference keyword vector B represents the feature of the document that is not required and the reference keyword vector W represents the feature of the document that is required, the determination unit 31e determines the similarity p1 in advance. If the condition value T1 is larger than the condition value T1 and the similarity p2 is smaller than a predetermined condition value T2, the mail document is selected as an unnecessary document, and the similarity p1 is smaller than the condition value T1 and the similarity p2 is larger than the condition value T2. If so, the e-mail document is selected as a necessary document.
[0055]
Thus, according to the mail filtering system of the example of FIG. 3, the problems of the mail filtering system of the configuration example of FIG. 1 can be solved. That is, in the example of FIG. 1, the determination unit 1e determines whether an unnecessary mail or a necessary mail is based on the similarity p1 between the keyword vector S and the keyword vector B alone. There is a problem that even if the degree of similarity is larger, if the similarity p1 satisfies the condition of the unnecessary mail, the mail is regarded as unnecessary mail. However, in the configuration of FIG. 3, the determination unit 31e determines the unnecessary mail and the necessary mail from the relationship between the two values of the similarity p1 and the similarity p2, and such a problem is solved.
[0056]
FIG. 4 is a block diagram showing a third configuration example of the document filtering system according to the present invention.
[0057]
The mail filtering device 41 as the mail filtering system of the present invention shown in FIG. 4 also constitutes the mail distribution service system shown in FIG. 2 like the mail filtering devices 1 and 31 in FIGS. A keyword vector generation block 10 (consisting of a receiving unit 1a, a morphological analysis unit 1b, and a keyword vector generation unit 1c, not shown), a keyword vector filtering unit 1i, and a keyword vector similarity calculation unit 1j, an arithmetic processing block 11b, a determination unit 41e, a necessary mail processing unit 1f, and an unnecessary mail processing unit 1g.
[0058]
In such a configuration, the mail filtering device 41 receives the mail, performs morphological analysis of the received mail, and generates the input keyword vector S in the keyword vector generation block 10.
[0059]
Then, in the arithmetic processing block 11b of this example, first, the keyword vector filtering unit 1i performs a process of removing the components of the reference keyword vector W stored in the keyword vector dictionary W45 from the input keyword vector S.
[0060]
For example, by subtracting the product set (S の W) of the keyword vector S and the keyword vector W of the received mail from the keyword vector S, the keyword vector Sb (= S−S∩W) excluding the component of the keyword vector W is obtained. Generate
[0061]
Then, in the keyword vector similarity calculation unit 1j, the similarity p1 between the keyword vector Sb generated by the keyword vector filtering unit 1i and the keyword vector B stored in the keyword vector dictionary B44 is calculated. Based on the condition 43, it is determined whether the mail is unnecessary mail or necessary mail, and the sorting is performed.
[0062]
For example, in the case of the input keyword vector S illustrated in the description of FIG. 1, a product set “S∩W” of the keyword vector S and the reference keyword vector W is as follows.
[0063]
(Keyword) Weight
From "1"
Okakko "1"
@ "1"
jp "1"
Hello "1"
Contact "1"
Fine "1"
One "1"
Is "1"
[0064]
“S− (S∩W)” is as follows.
[0065]
(Keyword) (weight)
"1"
Or "1"
Today "1"
Another "1"
Leaves "1"
[0066]
This becomes the keyword vector Sb.
[0067]
Then, when the similarity between the keyword vector Sb and the keyword vector dictionary B is calculated in the same manner as in the example of FIG. 1, "p1 = {(Sb.B) / (number of keywords)} = 0/17. = 0.000 "is obtained.
[0068]
As described above, in the mail filtering device 41 of the present embodiment, when selecting the input mail document, the keyword vector filtering unit 1i determines in advance the keyword vector for the input keyword vector S generated by the keyword vector generation block 10. The reference keyword vector W stored in the storage device as the dictionary W45 is read, a product set operation (S∩W) of the reference keyword vector W and the input keyword vector S is performed, and the result of the product set operation (S∩W) is obtained. A keyword vector Sb (= S−S∩W) that is removed from the input keyword vector S is generated, and the keyword vector similarity calculation unit 1j reads out the reference keyword vector B stored in advance in the storage device as the keyword vector dictionary B44, This reference keyword vector And Le B, calculates the similarity p1 the keyword vector Sb generated by the keyword vector filtering unit 1i, the discrimination unit 41e, screened to determine the necessity of the mail document on the basis of the similarity p1.
[0069]
For example, assuming that the reference keyword vector B represents the feature of the document that is not required, and the reference keyword vector W represents the feature of the document that is required, the keyword vector vector filtering unit 1i determines the keyword vector generated from the received mail. Except for the keyword vector W component generated from the required mail, the keyword set included in both the required mail and the unnecessary mail is excluded from S.
[0070]
As a result, the keyword vector similarity calculation unit 1j (1) calculates the similarity using only characteristic elements, so that the value of the similarity becomes more characteristic and the setting of the determination condition 43 used by the determination unit 41e is easy. And the set load can be reduced. (2) By performing the similarity calculation only with the keyword vector (Sb) necessary for the determination, it is possible to reduce the number of processes of the similarity calculation in the keyword vector similarity calculation unit 1j.
[0071]
FIG. 5 is a block diagram showing a fourth configuration example of the document filtering system according to the present invention.
[0072]
The mail filtering device 51 as the mail filtering system of the present invention shown in FIG. 5 also constitutes the mail distribution service system shown in FIG. 2, like the mail filtering devices 1, 31, and 41 in FIGS. Yes, a keyword vector generation block 10 (consisting of a receiving unit 1a, a morphological analysis unit 1b, and a keyword vector generation unit 1c, not shown) that performs processing as an execution function based on a computer program, a keyword vector filtering unit 1i, and a keyword vector similarity It has an arithmetic processing block 11c composed of a degree calculating unit 1j, a keyword vector filtering unit 1k, and a keyword vector similarity calculating unit 1m, a determining unit 51e, a necessary mail processing unit 1f, and an unnecessary mail processing unit 1g.
[0073]
In such a configuration, the mail filtering device 51 receives the mail, performs morphological analysis of the received mail, and generates the input keyword vector S in the keyword vector generation block 10.
[0074]
A feature of the mail filtering device 51 of this example is that a keyword vector filtering unit 1k and a keyword vector similarity calculation unit 1m are added to the arithmetic processing block 11b of the mail filtering device 41 shown in FIG. The vector filtering unit 1k performs a process of removing, from the keyword vector S, a component of the keyword vector B previously determined in the keyword vector dictionary B, and the keyword vector similarity calculation unit 1m is output from the keyword vector filtering unit 1k. The similarity between the keyword vector and the keyword vector W determined in the keyword vector dictionary W in advance is calculated. Hereinafter, the operation of the arithmetic processing block 11c having such a configuration will be described in detail.
[0075]
The keyword vector filtering unit 1i calculates a product set (S∩W) of the keyword vector S of the received mail generated in the keyword vector generation block 10 and the keyword vector W stored in the keyword vector dictionary W55 from the keyword vector S. A removed keyword vector Sb (= “S− (S∩W)”) is generated.
[0076]
The keyword vector similarity calculation unit 1j calculates a similarity p1 between the keyword vector Sb generated by the keyword vector filtering unit 1i and the keyword vector B acquired from the keyword vector dictionary B.
[0077]
For example, when the example of the keyword vector shown in the description of FIG. 1 is used, “S∩W” is as follows.
[0078]
(Keyword) (weight)
From "1"
Okakako "1"
@ "1"
jp "1"
Hello "1"
Contact "1"
Fine "1"
? "1"
Is "1"
[0079]
“S− (S∩W)” is as follows.
[0080]
(Keyword) (weight)
"1"
Or "1"
Today "1"
Another "1"
Leaves "1"
[0081]
This becomes the keyword vector Sb. When the similarity p1 between the keyword vector Sb and the keyword vector B is calculated in the same manner as described with reference to FIG. 1, "p1 = {(Sb.B) / (number of keywords)} = 0/17 = 0.000" Is obtained.
[0082]
Also, the keyword vector filtering unit 1k removes the intersection (S∩B) of the keyword vector S of the received mail generated by the keyword vector generation block 10 with the keyword vector B stored in the keyword vector dictionary B54. The keyword vector Sw (= “S− (S∩B)”) is generated, and the keyword vector similarity calculation unit 1m calculates the keyword vector Sw generated by the keyword vector filtering unit 1k and the keyword vector acquired from the keyword vector dictionary W. The similarity p2 with W is calculated.
[0083]
Thus, for example, when the example of the keyword vector shown in the description of FIG. 1 is used, the intersection set “S∩B” of the keyword vector S and the keyword vector B is as follows.
[0084]
(Keyword) (weight)
From "1"
@ "1"
Contact "1"
Is "1"
[0085]
“Sw = S− (S∩B)” is as follows.
[0086]
(Keyword) (weight)
Okakako "1"
jp "1"
Hello "1"
Fine "1"
"1"
Or "1"
? "1"
Today "1"
Another "1"
Leaves "1"
[0087]
When the similarity p2 between the keyword vector Sw and the keyword vector W is calculated in the same manner as described with reference to FIG. 1, “p2 = {(Sw · W) / (number of keywords)} = 5/17 = 0.294” Is obtained.
[0088]
Then, the discrimination unit 51e compares the similarity p1 and the similarity p2 according to the discrimination condition 53, discriminates whether it is unnecessary mail or necessary mail, and selects the mail.
[0089]
As described above, in the mail filtering device 51 of the present example, when selecting an input mail document, the keyword vector filtering unit 1i determines in advance a keyword vector for the input keyword vector S generated by the keyword vector generation block 10. The reference keyword vector W stored in the storage device as the dictionary W45 is read, a product set operation (S∩W) of the reference keyword vector W and the input keyword vector S is performed, and the result of the product set operation (S∩W) is obtained. A keyword vector Sb (= S−S∩W) that is removed from the input keyword vector S is generated, and the keyword vector similarity calculation unit 1j reads out the reference keyword vector B stored in advance in the storage device as the keyword vector dictionary B44, This reference keyword vector And a similarity p1 between the keyword B and the keyword vector Sb generated by the keyword vector filtering unit 1i. Further, in the keyword vector filtering unit 1k, the reference keyword vector B previously stored in the storage device as the keyword vector dictionary B54 is calculated. The keyword set Sw (= S−S) is obtained by performing a product set operation (S∩B) of the reference keyword vector B and the input keyword vector S, and removing the result of the product set operation (S∩B) from the input keyword vector S. S∩B), the keyword vector similarity calculation unit 1m reads out the reference keyword vector W stored in advance in the storage device as the keyword vector dictionary W55, and generates the reference keyword vector W and the keyword vector filtering unit 1k. Keywords calculates similarity p2 between the vector Sw was, the discrimination unit 51e, screened to determine the necessity of the mail document on the basis of the similarity p1 and similarity p2.
[0090]
Further, as an example, assuming that the reference keyword vector B represents the feature of the document that is not required and the reference keyword vector W represents the feature of the document that is required, the determination unit 51e determines the similarity p1 in advance. If the similarity value p1 is larger than the condition value T1 and the similarity p2 is smaller than the predetermined condition value T2, the mail document is selected as an unnecessary document, and the similarity p1 is smaller than the condition value T1 and the similarity p2 is the condition value T2. If it is larger, the mail document is selected as a necessary document.
[0091]
As described above, in the present example, the keyword vector vector filtering unit 1i removes the keyword vector W component generated from the necessary mail from the keyword vector S generated from the received mail, and furthermore, the keyword vector vector filtering unit 1k In, the keyword vector B component generated from the unnecessary mail is removed from the keyword vector S generated from the received mail, and a keyword set included in both the required mail and the unnecessary mail is excluded.
[0092]
As a result, the keyword vector similarity calculation unit 1j determines whether the mail is unnecessary or necessary using the similarity p1 between the keyword vector Sb and the keyword vector B and the similarity p2 between the keyword vector Sw and the keyword vector W. By doing so, the keyword set included in both the necessary mail and the unnecessary mail can be excluded and evaluated.
[0093]
As a result, the keyword vector similarity calculation unit 1j (1) calculates the similarity using only the characteristic elements, so that the value of the similarity becomes more characteristic, and the determination condition 43 used by the determination unit 51e can be easily set. And the set load can be reduced. (2) By performing the similarity calculation using only the keyword vectors (Sb, Sw) necessary for the determination, the number of processes of the similarity calculation in the keyword vector similarity calculation units 1j and 1k can be reduced. .
[0094]
FIG. 6 is a block diagram showing a fifth configuration example of the document filtering system according to the present invention.
[0095]
The mail filtering device 61 as the mail filtering system of the present invention shown in FIG. 6 also constitutes the mail distribution service system shown in FIG. 2, similarly to the mail filtering devices 1 and 31 to 51 in FIGS. There is a keyword vector generation block 10 (comprising a receiving unit 1a, a morphological analysis unit 1b, and a keyword vector generation unit 1c, not shown) that performs processing as an execution function based on a computer program, and FIGS. It has an arithmetic processing block 11d composed of the processing units shown, determination units 61e and 61ee, a necessary mail processing unit 1f, and an unnecessary mail processing unit 1g.
[0096]
In such a configuration, the mail filtering device 61 performs the reception of the mail, the morphological analysis of the received mail and the generation of the input keyword vector S in the keyword vector generation block 10, and the input keyword vector S in the arithmetic processing block 11d. The similarities p1 and p2 between the vector S and the various reference keyword vectors are calculated, and the determination unit 61e determines and sorts the necessity of the input mail document based on the similarities p1 and p2 according to the determination conditions 63a.
[0097]
The feature of the mail filtering device 61 of the present example is that in the discrimination of the input mail document in the discriminating unit 61e, a mechanism is provided that also corresponds to a discrimination result of “other” that cannot be selected as either a necessary mail or an unnecessary mail. Is a point.
[0098]
That is, in the present example, for example, when the determination units 1e, 31e, 41e, and 51e of the mail filtering devices 1, 31, 41, and 51 in FIGS. This is applied, and has a mechanism for causing the arithmetic processing block 61d to repeat the process of calculating the similarity.
[0099]
In the example of FIG. 6, the similarity p1 and the similarity p2 are output from the arithmetic processing block 11d. However, when applied to the mail filtering devices 1 and 41 shown in FIGS. 1 and 4, Only the similarity p1 is output, and when applied to the mail filtering devices 31 and 51 shown in FIGS. 3 and 5, the similarity p1 and the similarity p2 are output as shown in FIG.
[0100]
In the following, an example in which the arithmetic processing block has a two-stage configuration as shown in FIG. 6 will be described with respect to the mail filtering device 1 of FIG.
[0101]
In the first processing block 11d, for example, the similarity of the received mail is calculated based on the keyword vector B1 generated from the personally unnecessary mail, and the necessity is determined by the determining unit 61e. In the calculation processing block 61d at the lower stage, the similarity of the received mail is calculated based on the keyword vector B2 generated from the mail that is generally unnecessary, and the determination unit 61ee determines the necessity.
[0102]
First, in the first-stage arithmetic processing block 11d, the similarity p1 between the keyword vector S and the keyword vector B1 generated from the personally unnecessary mail is determined by the determination unit 61e according to the determination condition 63a. Other than that ".
[0103]
In this case, the processing in the second-stage operation processing block 61ee is continued, and the second-stage operation processing block 61ee receives the keyword vector S and performs the same processing as the first stage.
[0104]
In this example, since the second stage is the final stage, the final stage discriminating unit 61ee determines either “unnecessary mail” or “necessary mail”.
[0105]
If the discrimination section 61e after the first-stage arithmetic processing block 11e determines that the message is "unnecessary mail" or "necessary mail", the processing is not continued to the second-stage arithmetic processing block 61ee. The process immediately proceeds to the necessary mail processing unit 1f and the unnecessary mail processing unit 1g.
[0106]
As described above, in this example, the similarity calculation based on the keyword vector and the similarity calculation are performed on the mail document that cannot be determined as either the unnecessary mail document or the necessary mail document by the first-stage determination unit 61e. The e-mail document can be selected as either an unnecessary e-mail document or a necessary e-mail document by repeating the selection process based on the e-mail document.
[0107]
In the repetition of the calculation of the similarity, the reference keyword vector used for calculating the similarity can be arbitrarily replaced.
[0108]
For example, the first-stage arithmetic processing block 11d and the determination unit 61e determine the received mail based on the personally generated unnecessary email keyword vector B1, and the first-stage arithmetic processing block 11d and the determination unit 61e. If it is not possible to determine whether or not the received mail is the unnecessary mail in 61e, the second-stage arithmetic processing block 61d and the determination unit 61ee determine the received mail based on a general unnecessary mail keyword vector B2 on the net. Thus, the necessity of mail can be determined with higher accuracy.
[0109]
Further, the first-stage arithmetic processing block 11d and the determination unit 61e determine the received mail based on the keyword vector W1 generated from the personally generated mail that has been personally necessary, and If the processing block fails to determine whether the mail is necessary, the second-stage arithmetic processing block 61d and the determination unit 61ee receive the mail based on the keyword vector W2 generated from the mail generally required on the net. By determining the necessity of the mail, the necessity of the mail can be more accurately determined.
[0110]
The first-stage arithmetic processing block 11d and the determination unit 61e determine the received mail using the keyword vector W1 generated from the personally generated mail that is required personally. If it is not possible to determine whether the received mail is necessary or not at 61e, the second-stage arithmetic processing block 61d and the determination unit 61ee determine whether the received mail is necessary or not based on the keyword vector B2 generated from the generally unnecessary mail. , The necessity of mail can be determined with higher accuracy.
[0111]
As described above, in this example, the contents of the reference keyword vector used for calculating the similarity can be combined according to the purpose, and highly accurate discrimination can be performed.
[0112]
As described above with reference to FIGS. 1 to 6, in the mail filtering apparatus of the present embodiment, an electronic mail is used as a document to be sorted, and a keyword vector S generated from a received mail and, for example, the Using the similarity with the keyword vector B generated by performing analysis and weighting, or the similarity with the keyword vector W generated by performing weighting by performing morphological analysis on the text of the required email, it is determined whether the email is unnecessary or required. By determining, even if the text of the unnecessary mail is unknown, it can be determined whether or not the mail is unnecessary mail based on the similarity of the keyword vectors.
[0113]
For example, in the example of the mail filtering device 1 shown in FIG. 1, the text (including header information and signature) of the received mail is morphologically analyzed to generate a keyword vector S of the received mail, and the keyword vector dictionary generating device (5) The similarity p1 between the keyword vector B obtained from the keyword vector dictionary B generated from the unnecessary mail and the keyword vector S of the received mail is calculated, and the required mail or the unnecessary mail is determined based on the magnitude of the similarity p1 and the pre-registered determination condition. Judge. This makes it possible to determine that an email having the same characteristics as an unnecessary email is an unnecessary email.
[0114]
In the example of the mail filtering device 31 shown in FIG. 3, the similarity between the keyword vector B obtained from the keyword vector dictionary B generated from the unnecessary mail by the keyword vector dictionary generation device (5) and the keyword vector S of the received mail is shown. p1 and the keyword vector W obtained from the keyword vector dictionary W generated from the required mail by the keyword vector dictionary generation device (5) and the similarity p2 between the keyword vector S of the received mail and the similarity p1, It is determined whether it is necessary mail or unnecessary mail based on the size of p2 and the determination condition. According to the configuration example of FIG. 3, the problem of the example of FIG. 1 can be solved.
[0115]
That is, in the mail filtering device 1 having the configuration shown in FIG. 1, the determination unit 1e determines whether the mail is an unnecessary mail or a necessary mail only based on the similarity p1 between the keyword vector S and the keyword vector B generated from the unnecessary mail. Therefore, even if the similarity between the keyword vector S and the keyword vector W generated from the necessary mail is larger, if the similarity p1 matches the condition of the unnecessary mail, the mail is regarded as unnecessary mail. There was a problem. However, in the mail filtering device 31 having the configuration shown in FIG. 3, the above-described problem is solved because the determination unit 31e determines the unnecessary mail and the necessary mail from the relationship between the two values of the similarities p1 and p2.
[0116]
Further, the example of the mail filtering device 41 shown in FIG. 4 is obtained by adding a keyword vector filtering unit to the mail filtering device 1 shown in FIG. The keyword vector Sb obtained from the keyword vector dictionary (generated, for example, from a required mail) is obtained by using Sb excluding the intersection (S∩W) of the keyword vector W obtained from the keyword vector dictionary obtained from the keyword vector S. The similarity p1 with the keyword vector B is calculated, and it is determined whether the mail is necessary or unnecessary according to the magnitude of the similarity p1 and the determination condition.
[0117]
As described above, in the mail filtering device 41 shown in FIG. 4, the keyword vector Sb generated by the keyword vector filtering unit 1i is obtained by removing the keyword vector W component generated from the necessary mail from the keyword vector S generated from the received mail. Therefore, the keyword set included in both the necessary mail and the unnecessary mail can be excluded and evaluated. Thereby, (1) the similarity is calculated using only the characteristic elements, so that the value of the similarity becomes more characteristic, and it is possible to reduce the difficulty of setting the determination condition of the determination unit, and (2) By performing the similarity calculation using only the keyword vector necessary for the determination, the number of processes of the similarity calculation can be reduced.
[0118]
In addition, in the example of the mail filtering device 51 shown in FIG. 5, a keyword vector filtering unit is added to the mail filtering device 31 shown in FIG. The keyword vector Sb and the keyword acquired from the keyword vector dictionary (generated from the necessary mail) are obtained using Sb excluding the intersection (S∩W) of the keyword vector W acquired from the keyword vector dictionary acquired from the keyword vector W. A similarity p1 with the vector B is calculated, and a product set (S∩B) of the keyword vector S of the received mail and the keyword vector B obtained from the keyword vector dictionary (generated from the unnecessary mail) is obtained. ) Except for this key The similarity p2 between the keyword Sw and the keyword vector W obtained from the keyword vector dictionary (generated from the necessary mail) is calculated, and these similarities p1 and p2 are compared. Is determined.
[0119]
According to this example, the keyword vector Sb generated by the added first keyword vector filtering unit is obtained by removing the keyword vector W component generated from the necessary mail from the keyword vector S generated from the received mail, and , The keyword vector Sw generated by the second keyword vector filtering unit is obtained by removing the keyword vector B component generated from the unnecessary mail from the keyword vector S generated from the received mail, and the keyword vector Sb and the keyword vector B Is determined by using the similarity p1 between the keyword and the similarity p2 between the keyword vector Sw and the keyword vector W, thereby eliminating a keyword set included in both the required email and the unnecessary email. To be evaluated Can.
[0120]
Thereby, in this example, since (1) similarity is calculated only with characteristic elements, the value of similarity becomes more characteristic, and it is possible to reduce the difficulty of setting the determination conditions of the determination unit. (2) By performing the similarity calculation using only the keyword vector necessary for the determination, the number of processes of the similarity calculation can be reduced.
[0121]
In the example of the mail filtering device 61 shown in FIG. 6, the determination units of the mail filtering devices 1 and 31 to 51 of FIG. 1 and FIGS. The processing of the arithmetic processing block and the discriminating unit is continuously repeated for the mail determined to be "other", and the similarity for selecting the required mail or the unnecessary mail in the final stage of the determining unit. The received mail is determined to be necessary or unnecessary according to the size of the similarity p1 and the similarity p2 or only the size of the similarity p1 with reference to the determination condition describing the size condition.
[0122]
For example, when the present invention is applied to the mail filtering device 1 of FIG. 1 and the arithmetic processing block and the discriminating unit are provided in two stages, the similarity is calculated in the first-stage arithmetic processing block, and the discriminating unit determines “other”. If so, the process proceeds to the second-stage arithmetic processing block and determination unit. In this way, in the first stage, the determination is made with the keyword vector B1 indicating that the mail is "unnecessary mail". It is possible to perform highly accurate determination, such as determination using the keyword vector B2 indicating that the mail is unnecessary mail.
[0123]
Similarly, in this manner, in the first row, the keyword is determined using the keyword vector W indicating that the mail is "necessary mail". It is also possible to perform a processing operation such as discriminating using a keyword vector B indicating "mail".
[0124]
It should be noted that the present invention is not limited to the examples described with reference to FIGS. For example, each communication in the mail filtering device, the keyword vector generation device, the mail server device, the mail client device, and the like illustrated in FIG. 2 may be communication via a network such as the Internet or a LAN. Local communication may be used.
[0125]
For example, in the example of FIG. 2, the mail filtering device is configured to refer to the keyword vector generated by the keyword vector generation device via a network, but the keyword vector generated by the keyword vector generation device is previously stored in the mail filtering device. A configuration in which the keyword vector generation device is provided may be provided in the keyword vector generation device.
[0126]
In the example of FIG. 5, the keyword filtering unit 1i and the keyword vector similarity calculating unit 1m refer to the same keyword vector dictionary W55, and the keyword filtering unit 1k and the keyword vector similarity calculating unit 1j use the same keyword vector. Although the dictionary B54 is referred to, the keyword filtering unit 1i and the keyword vector similarity calculating unit 1m refer to different keyword vector dictionaries (W, Wa), respectively. The unit 1j may be configured to refer to different keyword vector dictionaries (B, Ba).
[0127]
Further, in the present example, an e-mail is described as an example of the target of the necessity / unnecessity determination, but text data composed of a character string may be used, and the present invention is not limited to the e-mail.
[0128]
Further, as an example of a computer configuration in this example, a computer configuration without a keyboard or a drive device for an optical disk may be used. In this example, the optical disk is used as the recording medium, but an FD (Flexible Disk) or the like may be used as the recording medium. As for the installation of the program, the program may be downloaded and installed via a network via a communication device.
[0129]
【The invention's effect】
According to the present invention, for example, in the case of an electronic mail, it is possible to determine whether or not an unknown mail that cannot be determined by specifying the mail conditions is required, and to disguise an unnecessary mail having similar contents by falsely impersonating a sender. Unwanted emails can be identified even when sent to a specific majority, and when sending unwanted emails with similar contents to the unspecified majority by falsely sending the sender, words similar to the required emails are used. Even if the e-mail is described in an email, it is possible to reduce the possibility of misclassification by using the keyword vector of the unnecessary e-mail determined by others to be unnecessary even if the e-mail is judged by the feature vector of the e-mail body. It is possible to perform document selection with high accuracy, such as discrimination between a document and a required mail.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a first configuration example of a document filtering system according to the present invention.
FIG. 2 is a block diagram showing a configuration example of a mail distribution service system using the document filtering system in FIG. 1;
FIG. 3 is a block diagram showing a second configuration example of the document filtering system according to the present invention.
FIG. 4 is a block diagram showing a third configuration example of the document filtering system according to the present invention.
FIG. 5 is a block diagram showing a fourth configuration example of the document filtering system according to the present invention.
FIG. 6 is a block diagram showing a fifth configuration example of the document filtering system according to the present invention.
[Explanation of symbols]
1, 31, 41, 51, 61: mail filtering device, 1a: receiving unit, 1b: morphological analysis unit, 1c: keyword vector generation unit, 1d, 1h, 1j, 1m: keyword vector similarity calculation unit, 1e, 31e , 41e, 51e, 61e, 61ee: discriminating unit, 1f: necessary mail processing unit, 1g: unnecessary mail processing unit, 1i, 1k: keyword vector filtering unit, 2: mail server device ("mail server"), 3: mail Client device (“mail client”), 4: user, 5: keyword vector generation device, 6a to 6d: IP network, 10: keyword vector generation block, 11, 11a, 11b, 11c, 11d, 61d: arithmetic processing block , 12: mail, 13, 33, 43, 53, 63a, 63b: determination condition, 1 , 34, 44, and 54: keyword vector dictionary B, 35,45,55: keyword vector dictionary W.

Claims (13)

入力された文書の選別を行う文書フィルタリングシステムであって、
入力された文書を形態素解析してキーワードの集合にする形態素解析手段と、
上記キーワードの集合から当該文書の特徴を表す入力キーワードベクトルSを生成するキーワードベクトル生成手段と、
予め記憶装置に記憶された参照キーワードベクトルBを読み出し、該参照キーワードベクトルBと上記入力キーワードベクトルSとの類似度p1を算出するキーワードベクトル類似度算出手段と、
上記類似度p1に基づき当該文書を選別する判別手段とを有することを特徴とする文書フィルタリングシステム。
A document filtering system for sorting input documents,
A morphological analysis means for morphologically analyzing the input document into a set of keywords,
Keyword vector generation means for generating an input keyword vector S representing the characteristics of the document from the set of keywords,
Keyword vector similarity calculating means for reading a reference keyword vector B stored in advance in a storage device and calculating a similarity p1 between the reference keyword vector B and the input keyword vector S;
A document filtering system for selecting the document based on the similarity p1.
請求項1に記載の文書フィルタリングシステムであって、
上記参照キーワードベクトルBは、不要とされる文書の特徴を表し、
上記判別手段は、上記類似度p1が予め定められた条件値より大きければ、当該文書を不要文書として選別することを特徴とする文書フィルタリングシステム。
The document filtering system according to claim 1, wherein
The reference keyword vector B represents a feature of a document that is not required,
If the similarity p1 is larger than a predetermined condition value, the determination unit selects the document as an unnecessary document.
入力された文書の選別を行う文書フィルタリングシステムであって、
入力された文書を形態素解析してキーワードの集合にする形態素解析手段と、
上記キーワードの集合から当該文書の特徴を表す入力キーワードベクトルSを生成するキーワードベクトル生成手段と、
予め記憶装置に記憶された参照キーワードベクトルBを読み出し、該参照キーワードベクトルBと上記入力キーワードベクトルSとの類似度p1を算出する第1のキーワードベクトル類似度算出手段と、
予め記憶装置に記憶された参照キーワードベクトルWを読み出し、該参照キーワードベクトルWと上記入力キーワードベクトルSとの類似度p2を算出する第2のキーワードベクトル類似度算出手段と、
上記類似度p1および上記類似度p2に基づき、当該文書を選別する判別手段とを有することを特徴とする文書フィルタリングシステム。
A document filtering system for sorting input documents,
A morphological analysis means for morphologically analyzing the input document into a set of keywords,
Keyword vector generation means for generating an input keyword vector S representing the characteristics of the document from the set of keywords,
First keyword vector similarity calculating means for reading a reference keyword vector B previously stored in a storage device and calculating a similarity p1 between the reference keyword vector B and the input keyword vector S;
A second keyword vector similarity calculating means for reading a reference keyword vector W stored in a storage device in advance and calculating a similarity p2 between the reference keyword vector W and the input keyword vector S;
A document filtering system comprising: a discriminating unit for selecting the document based on the similarity p1 and the similarity p2.
請求項3に記載の文書フィルタリングシステムであって、
上記参照キーワードベクトルBは、不要とされる文書の特徴を表し、
上記参照キーワードベクトルWは、必要とされる文書の特徴を表し、
上記判別手段は、上記類似度p1が予め定められた条件値T1より大きく且つ上記類似度p2が予め定められた条件値T2より小さければ当該文書を不要文書として選別し、上記類似度p1が上記条件値T1より小さく且つ上記類似度p2が上記条件値T2より大きければ当該文書を必要文書として選別することを特徴とする文書フィルタリングシステム。
The document filtering system according to claim 3, wherein
The reference keyword vector B represents a feature of a document that is not required,
The reference keyword vector W represents a required document feature,
If the similarity p1 is larger than a predetermined condition value T1 and the similarity p2 is smaller than a predetermined condition value T2, the discriminating unit selects the document as an unnecessary document, and the similarity p1 becomes the unnecessary document. If the similarity p2 is smaller than the condition value T1 and the similarity p2 is larger than the condition value T2, the document is selected as a necessary document.
入力された文書の選別を行う文書フィルタリングシステムであって、
入力された文書を形態素解析してキーワードの集合にする形態素解析手段と、
上記キーワードの集合から当該文書の特徴を表す入力キーワードベクトルSを生成するキーワードベクトル生成手段と、
予め記憶装置に記憶された参照キーワードベクトルWを読み出し、該参照キーワードベクトルWと上記入力キーワードベクトルSとの積集合演算(S∩W)を行い、該積集合演算(S∩W)結果を上記入力キーワードベクトルSから除いたキーワードベクトルSb(=S−S∩W)を生成するキーワードベクトルフィルタリング手段と、
予め記憶装置に記憶された参照キーワードベクトルBを読み出し、該参照キーワードベクトルBと上記キーワードベクトルSbとの類似度p1を算出するキーワードベクトル類似度算出手段と、
上記類似度p1に基づき当該文書を選別する判別手段とを有することを特徴とする文書フィルタリングシステム。
A document filtering system for sorting input documents,
A morphological analysis means for morphologically analyzing the input document into a set of keywords,
Keyword vector generation means for generating an input keyword vector S representing the characteristics of the document from the set of keywords,
The reference keyword vector W stored in advance in the storage device is read out, a product set operation (S∩W) of the reference keyword vector W and the input keyword vector S is performed, and the result of the product set operation (S∩W) is obtained as described above. A keyword vector filtering means for generating a keyword vector Sb (= S−S∩W) removed from the input keyword vector S;
Keyword vector similarity calculating means for reading a reference keyword vector B stored in advance in a storage device and calculating a similarity p1 between the reference keyword vector B and the keyword vector Sb;
A document filtering system for selecting the document based on the similarity p1.
請求項5に記載の文書フィルタリングシステムであって、
上記参照キーワードベクトルBは、不要とされる文書の特徴を表し、
上記参照キーワードベクトルWは、必要とされる文書の特徴を表し、
上記判別手段は、上記類似度p1が予め定められた条件値より大きければ、当該文書を不要文書として選別することを特徴とする文書フィルタリングシステム。
The document filtering system according to claim 5, wherein
The reference keyword vector B represents a feature of a document that is not required,
The reference keyword vector W represents a required document feature,
If the similarity p1 is larger than a predetermined condition value, the determination unit selects the document as an unnecessary document.
入力された文書の選別を行う文書フィルタリングシステムであって、
入力された文書を形態素解析してキーワードの集合にする形態素解析手段と、
上記キーワードの集合から当該文書の特徴を表す入力キーワードベクトルSを生成するキーワードベクトル生成手段と、
予め記憶装置に記憶された参照キーワードベクトルWを読み出し、該参照キーワードベクトルWと上記入力キーワードベクトルSとの積集合演算(S∩W)を行い、該積集合演算(S∩W)結果を上記入力キーワードベクトルSから除いたキーワードベクトルSb(=S−S∩W)を生成する第1のキーワードベクトルフィルタリング手段と、
予め記憶装置に記憶された参照キーワードベクトルBを読み出し、該参照キーワードベクトルBと上記入力キーワードベクトルSとの積集合演算(S∩B)を行い、該積集合演算(S∩B)結果を上記入力キーワードベクトルSから除いたキーワードベクトルSw(=S−S∩B)を生成する第2のキーワードベクトルフィルタリング手段と、
予め記憶装置に記憶された参照キーワードベクトルBaを読み出し、該参照キーワードベクトルBaと上記入力キーワードベクトルSbとの類似度p1を算出する第1のキーワードベクトル類似度算出手段と、
予め記憶装置に記憶された参照キーワードベクトルWaを読み出し、該参照キーワードベクトルWaと上記キーワードベクトルSwとの類似度p2を算出する第2のキーワードベクトル類似度算出手段と、
上記類似度p1および上記類似度p2に基づき当該文書を選別する判別手段とを有することを特徴とする文書フィルタリングシステム。
A document filtering system for sorting input documents,
A morphological analysis means for morphologically analyzing the input document into a set of keywords,
Keyword vector generation means for generating an input keyword vector S representing the characteristics of the document from the set of keywords,
The reference keyword vector W stored in advance in the storage device is read out, a product set operation (S∩W) of the reference keyword vector W and the input keyword vector S is performed, and the result of the product set operation (S∩W) is obtained as described above. First keyword vector filtering means for generating a keyword vector Sb (= S−S∩W) removed from the input keyword vector S;
The reference keyword vector B previously stored in the storage device is read out, a product set operation (S∩B) of the reference keyword vector B and the input keyword vector S is performed, and the result of the product set operation (S∩B) is obtained as described above. Second keyword vector filtering means for generating a keyword vector Sw (= S−S∩B) removed from the input keyword vector S;
First keyword vector similarity calculating means for reading a reference keyword vector Ba previously stored in a storage device and calculating a similarity p1 between the reference keyword vector Ba and the input keyword vector Sb;
A second keyword vector similarity calculating means for reading a reference keyword vector Wa stored in advance in a storage device and calculating a similarity p2 between the reference keyword vector Wa and the keyword vector Sw;
A document filtering system comprising: a determination unit configured to select the document based on the similarity p1 and the similarity p2.
請求項7に記載の文書フィルタリングシステムであって、
上記参照キーワードベクトルBとBaは、不要とされる文書の特徴を表し、
上記参照キーワードベクトルWとWaは、必要とされる文書の特徴を表し、
上記判別手段は、上記類似度p1が予め定められた条件値T1より大きく且つ上記類似度p2が予め定められた条件値T2より小さければ当該文書を不要文書として選別し、上記類似度p1が上記条件値T1より小さく且つ上記類似度p2が上記条件値T2より大きければ当該文書を必要文書として選別することを特徴とする文書フィルタリングシステム。
The document filtering system according to claim 7, wherein:
The above-mentioned reference keyword vectors B and Ba represent the characteristics of a document that is not required,
The reference keyword vectors W and Wa represent the required document features,
If the similarity p1 is larger than a predetermined condition value T1 and the similarity p2 is smaller than a predetermined condition value T2, the discriminating unit selects the document as an unnecessary document, and the similarity p1 becomes the unnecessary document. If the similarity p2 is smaller than the condition value T1 and the similarity p2 is larger than the condition value T2, the document is selected as a necessary document.
請求項7もしくは請求項8のいずれかに記載の文書フィルタリングシステムであって、
上記参照キーワードベクトルBと上記参照キーワードベクトルBaとを同じものとし、上記参照キーワードベクトルWと上記参照キーワードベクトルWaを同じものとすることを特徴とする文書フィルタリングシステム。
A document filtering system according to claim 7 or claim 8, wherein:
A document filtering system, wherein the reference keyword vector B and the reference keyword vector Ba are the same, and the reference keyword vector W and the reference keyword vector Wa are the same.
請求項1から請求項9のいずれかに記載の文書フィルタリングシステムであって、
上記判別手段が不要文書もしくは必要文書のいずれにも判別できない文書に対して、上記キーワードベクトルに基づく類似度の算出と、該類似度に基づく選別を繰り返し、当該文書を不要文書もしくは必要文書のいずれか一方に選別する手段を有することを特徴とする文書フィルタリングシステム。
The document filtering system according to any one of claims 1 to 9, wherein
For a document that cannot be determined as an unnecessary document or a necessary document by the determination unit, the calculation of the similarity based on the keyword vector and the selection based on the similarity are repeated to determine whether the document is an unnecessary document or a required document. A document filtering system comprising means for selecting one of them.
請求項10に記載の文書フィルタリングシステムであって、
上記類似度の算出の繰り返しにおいて、算出に用いる参照キーワードベクトルを任意に置き換えることを特徴とする文書フィルタリングシステム。
The document filtering system according to claim 10, wherein
A document filtering system characterized by arbitrarily replacing a reference keyword vector used for calculation in repeating the calculation of similarity.
請求項1から請求項11のいずれかに記載の文書フィルタリングシステムであって、上記入力された文書は電子メールからなり、電子メールの選別を行うことを特徴とする文書フィルタリングシステム。The document filtering system according to any one of claims 1 to 11, wherein the input document comprises an electronic mail, and the electronic mail is selected. コンピュータを、請求項1から請求項12のいずれかに記載の文書フィルタリングシステムにおける各手段として機能させるためのプログラム。A program for causing a computer to function as each unit in the document filtering system according to claim 1.
JP2003145930A 2003-05-23 2003-05-23 System for filtering document, and program Pending JP2004348523A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003145930A JP2004348523A (en) 2003-05-23 2003-05-23 System for filtering document, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003145930A JP2004348523A (en) 2003-05-23 2003-05-23 System for filtering document, and program

Publications (1)

Publication Number Publication Date
JP2004348523A true JP2004348523A (en) 2004-12-09

Family

ID=33532937

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003145930A Pending JP2004348523A (en) 2003-05-23 2003-05-23 System for filtering document, and program

Country Status (1)

Country Link
JP (1) JP2004348523A (en)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006268303A (en) * 2005-03-23 2006-10-05 Nomura Research Institute Ltd Contributed data evaluation system
JP2006268304A (en) * 2005-03-23 2006-10-05 Nomura Research Institute Ltd Contributed data evaluation device
JP2006324817A (en) * 2005-05-17 2006-11-30 Ntt Docomo Inc Data communication system and data communication method
JP2007122148A (en) * 2005-10-25 2007-05-17 Just Syst Corp Electronic mail sorting device and electronic mail sorting method
JP2008135926A (en) * 2006-11-28 2008-06-12 Yamaguchi Univ E-mail system with unwanted e-mail filtering function
JP2009104400A (en) * 2007-10-23 2009-05-14 Kddi Corp Email filtering device, method for filtering email, and program
JP2009140437A (en) * 2007-12-10 2009-06-25 Just Syst Corp Filtering processing method, filtering processing program, and filtering device
JP2017111479A (en) * 2015-12-14 2017-06-22 日本放送協会 Advertisement text selection device and program
JP2020004220A (en) * 2018-06-29 2020-01-09 キヤノンマーケティングジャパン株式会社 Information processing apparatus, client terminal, control method, and program
JP2020035272A (en) * 2018-08-31 2020-03-05 株式会社日立ソリューションズ東日本 Summary generation device and summary generation method

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006268304A (en) * 2005-03-23 2006-10-05 Nomura Research Institute Ltd Contributed data evaluation device
JP2006268303A (en) * 2005-03-23 2006-10-05 Nomura Research Institute Ltd Contributed data evaluation system
JP4559295B2 (en) * 2005-05-17 2010-10-06 株式会社エヌ・ティ・ティ・ドコモ Data communication system and data communication method
JP2006324817A (en) * 2005-05-17 2006-11-30 Ntt Docomo Inc Data communication system and data communication method
US8001193B2 (en) 2005-05-17 2011-08-16 Ntt Docomo, Inc. Data communications system and data communications method for detecting unsolicited communications
JP2007122148A (en) * 2005-10-25 2007-05-17 Just Syst Corp Electronic mail sorting device and electronic mail sorting method
JP4688630B2 (en) * 2005-10-25 2011-05-25 株式会社ジャストシステム E-mail classification device and e-mail classification method
JP4686724B2 (en) * 2006-11-28 2011-05-25 国立大学法人山口大学 E-mail system with spam filter function
JP2008135926A (en) * 2006-11-28 2008-06-12 Yamaguchi Univ E-mail system with unwanted e-mail filtering function
JP2009104400A (en) * 2007-10-23 2009-05-14 Kddi Corp Email filtering device, method for filtering email, and program
JP2009140437A (en) * 2007-12-10 2009-06-25 Just Syst Corp Filtering processing method, filtering processing program, and filtering device
JP2017111479A (en) * 2015-12-14 2017-06-22 日本放送協会 Advertisement text selection device and program
JP2020004220A (en) * 2018-06-29 2020-01-09 キヤノンマーケティングジャパン株式会社 Information processing apparatus, client terminal, control method, and program
JP2020035272A (en) * 2018-08-31 2020-03-05 株式会社日立ソリューションズ東日本 Summary generation device and summary generation method
JP7288293B2 (en) 2018-08-31 2023-06-07 株式会社日立ソリューションズ東日本 Summary generation device and summary generation method

Similar Documents

Publication Publication Date Title
JP4742618B2 (en) Information processing system, program, and information processing method
Kumar et al. Comparative study on email spam classifier using data mining techniques
Renuka et al. Spam classification based on supervised learning using machine learning techniques
Secker et al. AISEC: an artificial immune system for e-mail classification
US8335383B1 (en) Image filtering systems and methods
Smadi et al. Detection of phishing emails using data mining algorithms
US8010614B1 (en) Systems and methods for generating signatures for electronic communication classification
JP2008538023A (en) Method and system for processing email
CN107729520B (en) File classification method and device, computer equipment and computer readable medium
JP2006243803A (en) Information processing system, program, and information processing method
Trivedi et al. Effect of feature selection methods on machine learning classifiers for detecting email spams
Govil et al. A machine learning based spam detection mechanism
Bhat et al. Classification of email using BeaKS: Behavior and keyword stemming
JP2004348523A (en) System for filtering document, and program
Trivedi et al. A combining classifiers approach for detecting email spams
US9177260B2 (en) Information classification device, information classification method, and computer readable recording medium
Krause et al. Recognizing email spam from meta data only
Hosseinpour et al. An ensemble learning approach for sms spam detection
Reddy et al. Classification of Spam Messages using Random Forest Algorithm
Watcharenwong et al. Spam detection for closed Facebook groups
KR102005420B1 (en) Method and apparatus for providing e-mail authorship classification
Ankam et al. Compositional data analysis with pls-da and security applications
Şimşek et al. Classification of Unwanted E-Mails (Spam) with Turkish Text by Different Algorithms in Weka Program
alias Balamurugan et al. Data mining techniques for suspicious email detection: A comparative study
Balakumar et al. A data mining approach on various classifiers in email spam filtering

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050719

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080711

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20081111