JP6784975B2 - 評価装置、評価方法、評価プログラムおよび評価システム - Google Patents

評価装置、評価方法、評価プログラムおよび評価システム Download PDF

Info

Publication number
JP6784975B2
JP6784975B2 JP2018552368A JP2018552368A JP6784975B2 JP 6784975 B2 JP6784975 B2 JP 6784975B2 JP 2018552368 A JP2018552368 A JP 2018552368A JP 2018552368 A JP2018552368 A JP 2018552368A JP 6784975 B2 JP6784975 B2 JP 6784975B2
Authority
JP
Japan
Prior art keywords
data
evaluation
columns
rows
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018552368A
Other languages
English (en)
Other versions
JPWO2018096672A1 (ja
Inventor
美津夫 小島
美津夫 小島
響 岡
響 岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
IMATRIX HOLDINGS CORP.
Original Assignee
IMATRIX HOLDINGS CORP.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by IMATRIX HOLDINGS CORP. filed Critical IMATRIX HOLDINGS CORP.
Publication of JPWO2018096672A1 publication Critical patent/JPWO2018096672A1/ja
Application granted granted Critical
Publication of JP6784975B2 publication Critical patent/JP6784975B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/107Computer-aided management of electronic mailing [e-mailing]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/02Standardisation; Integration
    • H04L41/0246Exchanging or transporting network management information using the Internet; Embedding network management web servers in network elements; Web-services-based protocols
    • H04L41/026Exchanging or transporting network management information using the Internet; Embedding network management web servers in network elements; Web-services-based protocols using e-messaging for transporting management information, e.g. email, instant messaging or chat
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/21Monitoring or handling of messages
    • H04L51/212Monitoring or handling of messages using filtering or selective blocking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/42Mailbox-related aspects, e.g. synchronisation of mailboxes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Computer Hardware Design (AREA)
  • Marketing (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Transfer Between Computers (AREA)

Description

本発明は、種々のテキストデータを機械的に評価する評価装置に関し、特に、電子メール等の文書データがスパムメール(迷惑メール)に該当するか否か等を識別する方法に関する。
スパムメールを排除する方法として、電子メールを受信者に配信するメールサーバ側で、スパムメールか否かを判定するための判定情報、例えば、キーワード、送信者のアドレス、URLなどを予め登録しておき、受信した電子メールに判定情報が含まれる場合には、受信した電子メールをスパムメールに分類し、これを破棄したり、ユーザへの配信を停止している。また、ユーザ側の端末において、ユーザ自身が設定したフィルタルールにより、特定のアドレスやキーワードを含む電子メールをスパムメールとしてフィルタリングしている。
例えば、特許文献1では、電子メールの本文、送信者および送信アドレス、受信者および受信アドレスを除く外観情報(例えば、電子メールの行数、添付ファイル、電子メールの形式、および電子メールの言語等)を電子メールの外観的特徴を示すアウトライン情報として抽出し、抽出したアウトライン情報に基づきスパムメールを検出するためのスパム検出情報の送信を外部の管理センタに要求し、電子メールの内容が対応するスパム検出情報に該当するとき、当該電子メールをスパムメールであると判定し、電子メールがスパムメールでないと判定されたとき、外部の管理センタに対しアウトライン情報を送信することにより更新されたスパム検出情報を要求する電子メール処理装置を開示している。
また、特許文献2では、スパムメールを排除するための処理負荷を軽減し、かつユーザの操作負荷を軽減する電子メール分類装置を開示している。具体的には、電子メールのヘッダ情報に基づいて電子メールの特徴を示す特徴ベクトルを取得し、特徴ベクトルを学習データとして、スパムメールか否かを分類する分類ルールを作成するものである。
特許第5121828号公報 特開2011−90442号公報
従来、スパムメールの検出や分類をする方法が検討されている。例えば、スパムメールに自然言語解析を応用してテキストデータの解析を行い、入力されたテキストデータがスパムメールであるか否かを判断する方法が考えられている。
まず第1に、評価単語を予め定義し、それらの出現有無をデータとする「Bag of Words」という自然言語のデータ構造を用いてテキストデータを解析する方法がある。この方法では、予め定義された単語の出現有無を判断するため、定義されていない単語は扱えず、また、語順などの順序情報を考慮できないという課題がある。第2に、テキストデータをN文字毎に区切り、それらの出現有無をデータとする「N-gram」という自然言語のデータ構造を用いてテキストデータを解析する方法がある。この方法では、一定の文字数Nで区切りを行うため、単語の意味を考慮しないデータ構造となり、また、「Bag of Words」と同様に、語順などの順序情報を考慮できないという課題がある。第3に、機械学習技術を用いて単語をベクトル化する「分散表現」という自然言語のデータ構造を用いてテキストデータを解析する方法がある。この方法では、テキストデータの意味を解析しやすくなる一方で、定義されていない単語を扱うことは困難である。
これらのデータ構造をスパムメールの検出に用いると、「Bag of Words」、「分散表現」においては、スパムメールの文字列の自由度が高い場合に解析が難しく、また、「N-gram」においては、スパムメールがランダムな文字列を含むことにより検出の精度が減少してしまうという問題があった。例えば、前者の場合、メールのヘッダーには"dws8m7rf.com"といったランダムなドメインを表す文字列、"dr*g"といった正しい単語(drug)を変えた文字列、あるいは"_NextPart_000_0016_465EED20"といった本文と添付ファイルなどを分離する区切り文字列などが使用されているが、これらの文字列はランダム性や自由度が高く、これらの文字列含む辞書を予め用意することは大よそ不可能なことに依る。
本発明は、このような従来の課題を解決するものであり、メール文書等のテキストデータを文字種毎に2値化したデータ構造を用いて入力したテキストデータを評価する評価装置、評価方法、評価プログラムおよび評価システムを提供することを目的とする。
本発明に係る評価装置は、m行×n列のサンプルデータを取得する取得手段と、前記サンプルデータから文字種Iを抽出し、前記サンプルデータをm行×n列×文字種Iの3次元データに変換する変換手段と、前記変換手段により変換された3次元データの特徴を学習する学習手段と、前記学習手段により学習された特徴に基づき入力データを評価する評価手段とを有する評価装置。好ましくは前記入力データは、m行×n列のテキストデータである。
さらに本発明に係る評価装置は、複数の文字種で表された2次元データを取得する取得手段と、前記取得された2次元データを複数の文字種の次元に分類することで、前記2次元データを3次元データに変換する変換手段と、3次元データの特徴を分析する分析手段と、前記分析手段により分析された特徴に基づき、複数の文字種で記載された入力データを評価する評価手段とを有する。
好ましくは評価装置はさらに、入力データを複数の文字種の次元に分類することで、前記入力データを3次元入力データに変換する変換手段を含み、前記評価手段は、3次元入力データの特徴と前記分析手段により分析された特徴とを比較することで入力データを評価する。好ましくは前記評価手段は、入力データがスパムメールか否かを評価する。
本発明に係る評価システムは、テキストデータの特徴を学習する学習部とテキストデータを評価する評価部を含むものであって、前記学習部は、データベースから複数の文字種で表された2次元データを取得する取得手段と、前記取得された2次元データを複数の文字種の次元に分類することで、前記2次元データを3次元データに変換する変換手段と、3次元データの特徴を分析し、当該特徴を学習する学習手段とを有し、前記評価部は、評価対象の入力データを複数の文字種の次元に分類することで、前記入力データを3次元入力データに変換する変換手段と、前記変換手段により変換された3次元入力データの特徴と前記学習手段により学習された特徴とを比較することで入力データを評価する評価手段とを有する。好ましくは前記評価部は、メールサーバに設けられる。
本発明によれば、メール文書等のテキストデータを文字種の次元をもつ3次元データに変換し、3次元データの特徴を分析、学習することで、従来扱えなかったランダム性の高い文字列を扱えるようになり、構造情報も持つことができるようになる。また、画像と同様の構造を持つようになるため、ディープラーニングや従来の画像処理方法の多くを応用することができる。さらに、テキストデータを当該構造に変換することにより、ランダム性の高いスパムメールを適格に区別することができるようになる。
本発明の実施例に係るメール処理装置の機能的な構成を示すブロック図である。 本発明の実施例に係るデータ変換部によるテキストデータの変換を説明する図である。 本発明の実施例に係る3次元データ構造を示す図である。 本発明の実施例に係るテキスト入力部およびデータ変換部の動作を示すフロー図である。 文字と次元の対応を示す図である。 図4の処理フローの具体例を示す図である。 学習システムにより特定された特徴的なデータ構造を例示する図である。 本発明の実施例に係るメール処理装置を一般化したテキストデータ評価装置を示す図である。
次に、本発明の実施の形態について、図面を参照して詳細に説明する。本発明の評価装置は、1つの好ましい形態ではテキストデータ評価装置として実施される。さらに好ましい形態ではメール処理装置として実施される。メール処理装置は、インターネットまたはイントラネット等のネットワークに接続可能であり、ネットワークを介して電子メールを受信し、受信した電子メールを解析することによりスパムメールか否かの判定を行う。メール処理装置は、少なくともメールを処理する機能を備えていれば良く、ハードウエアまたはソフトウエアによって実行される他の機能を備えることもできる。メール処理装置は、例えば、サーバ、コンピュータ、電子装置、端末装置、メール配信サーバ、その他電子装置であることができる。
図1は、本発明の実施例に係るメール処理装置の機能的な構成を示すブロック図である。メール処理装置1は、学習システム2、評価システム3を含み、学習システム2は、テキスト入力部4、データ変換部5、学習部6を含み、評価システム3は、テキスト入力部8、データ変換部9、評価部10を含む。学習システム2は、スパムメールや正常メール等のテキストデータが収集され、かつ記憶されたデータベース11からテキストデータを取得し、学習モデル7を構築する。評価システム3は、評価対象のメール12を、学習モデル7に基づいて評価をし、スパムメール13または正常メール14に判別する。なお、スパムメールとは、無差別に送信された迷惑メール等のメールであり、正常メールとは、知り合い同士で行うメールのやり取りやビジネスで使用するメールなど、社会一般的に通常やり取りされるメールを指す。また、学習システム2と評価システム3とは、物理的に離間するコンピュータ、サーバまたはホストでそれぞれ実施されてもよいし、同一のコンピュータ、サーバ、またはホストで実施されてもよい。
また、メール処理装置1は、例えば、1つまたは複数のコンピュータ装置、あるいは1つまたは複数のサーバから構成されてもよく、メール処理装置1に含まれる各機能は、それぞれ個別のコンピュータ装置またはサーバから構成されてもよく、その場合、コンピュータ装置とサーバとの間は、ネットワークにより接続されてもよい。例えば、メール12を入力する評価システム3は、メールサーバ内に配置され、学習システム2は、ネットワークを介して評価システムに接続され、学習モデル13による学習結果を提供することができる。
学習システム2は、データベース11からサンプルとなるテキストデータを取得し、一定の規則に従ってデータ変換を行い、学習モデルを構築する。データベース11には、ハニーポットの技術を用いて取得されたスパムメールや、正常なメール、その他、学習システム2に学習させたいテキストデータが記憶されている。テキスト入力部4は、データベース11からテキストデータを取得し、データ変換部5は、テキスト入力部4で取得したテキストデータを変換する。
図2は、本発明の実施例に係るデータ変換部5のテキストデータの変換を説明する図である。ここでは、メールヘッダーの例として、9行×62列からなるサイズのテキストデータをデータ変換する例を示している。データ変換部5は、概念的に、テキストデータを予め決められた文字種の次元で分類する。1つの例では、文字種は、アルファベットa〜zまでの26種、0〜9までの10種、複数の記号33種の合計69の文字種に規定される。データ変換部5は、各次元の文字が存在する行・列の位置をデータ「1」とし、存在しない行・列の位置をデータ「0」に変換する。例えば、図の例では、1行×3列目には、「Received」の「c」が存在するため、「c」の次元の1行×3列目に「1」がセットされる。1行×4列目には、「e」が存在するため、「e」の次元の1行×4列目には、「1」がセットされる。
このようにして、データ変換部5は、テキストデータを文字種の次元毎に、それぞれ対応する行列の位置にデータ「1」を作成する。1つのテキストデータが、m行×n列のサイズを有し、そこに含まれる文字種がIであるならば、データ変換部5は、図3に示すように、m行×n列、奥行きがIの3次元データフォーマットに、テキストデータを変換することになる。なお、文字種の決め方は任意であり、例えば、漢字、ひらがな、片仮名、ロシア語、フランス語などを含めることも可能である。さらに文字種は、大文字と小文字の区別が成されても良い。
さらに、データ変換部5は、文字種の次元Iを圧縮するようにしても良い。例えば、上述の記号33種を1種の同じ記号として扱っても良いし、あるいはa〜zまでの26種をa〜d、e〜h、i〜l、m〜p、q〜t、u〜x、y〜zなどと7種に分離し、次元Iを7種に圧縮してもよい。圧縮は、必ずしも連続する文字種を1つのグループにせず、離散した文字種を1つのグループにするようにしてもよいし、複数のグループの各々に含まれる文字種の数は異なるものであってもよい。例えば、使用頻度の少ない文字種を1つのグループにして圧縮したり、予め決められたルールまたは重要度等に応じて文字種Iの次元Iを圧縮することができる。また、主成分分析、あるいは自己符号化器といった次元圧縮方法により次元Iを圧縮してもよい。
図4は、本発明の実施例に係るテキスト入力部およびデータ変換部の動作を示すフロー図である。学習システム2は、まず、テキスト入力部4によって変換対象のテキストデータ(複数のテキストデータを有するテキストファイルを含む)を入力する(S100)。データ変換部5は、メール処理装置1の記憶領域上に、A[テキストの行数][テキストの列数][文字種数]を展開するための領域を確保する(S102)。ここで、A[テキストの行数][テキストの列数][文字種数]は、「テキストの行数」、「テキストの列数」、「文字種数」の3要素によって特定されるデータAを示しており、図3に示す3次元データがデータAとなる。「テキストの行数」、「テキストの列数」は数字で表され、また、「文字種数」は、図5に示すように、各文字種の次元毎に予め割り当てられた数字が用いられる。データAの記憶領域の確保後、データAが初期化される(S104)。
次に、データ変換部5は、m行×n列のテキストデータを、例えば1文字ずつスキャンするようにデータ変換を行う。本実施例では、m行目(m=1、2、3・・・、テキストの行数)の文字を列順に取得し、n列(n=1、2、3・・・、テキストの列数)の文字を全て取得し終えたら次の行に移り、再度、列順に文字を取得するループ処理を行う。
データ変換部5は、まず、m行×n列の文字を取得し(S106)、取得した文字をコンピュータが認識できるデータまたはコードに変換する(S108)。次に、図5に示す表に従い、S106で取得した文字種の次元Iを取得する(S110)。そして、次元Iのm行×n列に、フラグ「1」を立てる(S112)。S106からS112の処理を上記したループ処理により繰り返す。
図6は、図4の処理フローの具体例を示す図である。同図では、簡単のために、テキストデータが3行×3列から構成され、文字種は、a、b、c、d、eの5種とし、このテキストデータがデータ変換部5により変換されるものとする。データ変換部5は、1行目をスキャンし、すなわち、1行目×1列目の「a」、1行目×2列目の「c」、1行目×3列目の「d」を変換し、次に2行目をスキャンし、2行目×1列目の「d」、2行目×2列目の「e」、2行目×3列目の「e」を変換し、最後に3行目をスキャンし、3行目×1列目の「a」、3行目×2列目の「e」、3行目×3列目の「b」を変換することで、S106からS112の処理が繰り返され、最終的にデータAが出力される。
学習部6は、データ変換部5によって変換された3次元データを取り込み、学習する。ここで学習とは、従来から用いられているディープラーニング等の機械学習であり、データ変換部5によって変換されたテキストデータを幾つも取得し、その特徴を抽出し、スパムメールと正常メールの分析、分類を行うことができる。図7は、メールヘッダーのテキストデータを変換したときに得られた特徴的なデータ構造の例を示している。変換されたデータを学習させていくと、ランダムなテキストデータの中に特徴的な部分、例えば、同じ文字列が使用されている部分が抽出されていき、特徴的なデータ構造が現れる。学習部6は、スパムメールおよび正常メールを取得していく毎に、この特徴的なデータ構造を学習してく。学習部6が学習した特徴的なデータは、学習モデル7として評価システム3に提供される。
評価システム3は、評価対象のメール12(テキストデータ)を入力し、当該メールを学習システム2と同様のアルゴリズムでデータ変換を行い、学習モデルを用いて、入力されたメールがスパムメールなのか正常メールなのかを評価する。
テキスト入力部8は、評価対象のメール12を入力する。テキスト入力部8が評価対象のメールを入力するタイミングは、特に限定されないが、例えば、評価対象のメールを蓄積しておき、メールが一定数蓄積されたタイミングでテキスト入力部8が実行されるようにしても良いし、蓄積されたメールを日毎、週毎、月毎等のタイミングで入力するようにしても良い。また、メール処理装置1の利用者が外部から指示したタイミングで入力するようにしても良い。データ変換部9は、上記したデータ変換部5と同様のアルゴリズムでテキストデータを変換する。
評価部10は、学習システム2から提供された学習モデルに基づき、データ変換部9によって変換されたテキストデータを評価する。本実施例においては、入力されたメール12がスパムメールであるか正常メールであるかを評価する。学習モデル7には、学習システム2で学習させたスパムメールの特徴、正常メールとの違い等、スパムメールを判断するための特徴がモデル化されており、評価部10は、評価対象のメールを学習システム2と同様のアルゴリズムで変換されたメール12の特徴と学習モデル7が提供する特徴とを比較し、両者が一致するかまたは近似するかを評価し、その評価結果に基づき、メール12をスパムメールか正常メール14に分類する。
上記実施例では、メールヘッダーを例にスパムメールまたは正常メールの評価を行ったが、これは一例であり、メールヘッダー以外のテキストデータを評価対象とするものであってもよい。さらに、本発明は、データヘッダー、通信コマンド、通信パケット、あるいはプログラム自体といった、ランダム性や自由度の高いテキスト解析にも応用可能である。
図8は、本発明の他の実施例に係るテキストデータ評価装置の構成を示す図である。このテキストデータ評価装置は、上記したメールの評価のみならず、あらゆるテキストデータまたは文書データを評価する。すなわち、図1に示すメール処理装置1は、スパムメールと正常メールについて学習し、入力されたメールがスパムメールか正常メールかを評価するものであったが、テキストデータ評価装置20は、同様の手法により、他のテキストデータや文書データの様々な要素および/または観点で評価することができる。例えば、記憶部11に特定の人物が書いたテキストデータ(作家が書いた本等)を入力し、データ変換部5によるデータ変換を行い、特定の人物が書いたテキストの特徴を学習モデル7として構築する。このような学習を行わせれば、任意の評価テキストを評価システム3に入力すると、学習モデル7との比較により当該任意の評価テキストが特定の人物が書いたテキストか否かを評価することができる。また、学習システム2に様々な人が書いたテキストデータを複数入力しておけば、評価テキスト12について、誰が書いたテキストかを評価することができ、メールを自動的にグルーピングすることも可能になる。
本発明の実施例に係るメール処理装置1は、従来のスパムメール除去方法では扱いづらかったランダム性の高い文字列を扱うことが可能になり、スパムメールの一部が改変されて再送されても適切にスパムメールを除去することが可能になる。また、1つのテキストデータの構造を、図2や図3に示すような構造情報として保持することができる。さらに、本発明の実施例に係るデータ構造は、画像と同様の構造を持つため、画像を扱うディープラーニングと併用でき、従来型の画像処理方法の多くを応用することができる。
以上、本発明の好ましい実施の形態について詳述したが、本発明は、特定の実施形態に限定されるものではなく、特許請求の範囲に記載された発明の要旨の範囲において、種々の変形、変更が可能である。
1:メール処理装置 2:学習システム
3:評価システム 4:テキスト入力部
5:データ変換部 6:学習部
7:学習モデル 8:テキスト入力部
9:データ変換部 10:評価部
11:記憶部 12:メール
13:スパムメール 14:正常メール
20:テキストデータ評価装置

Claims (7)

  1. m行×n列のサンプルデータを取得する取得手段と、
    前記サンプルデータを、m行×n列×奥行I(Iは、文字種の数)のデータフォーマットを有する3次元データに変換する変換手段であって、前記変換手段は、m行×n列のそれぞれの位置のサンプルデータの文字種を識別し、識別された文字種に対応する奥行の位置に識別情報をセットする、前記変換手段と、
    前記変換手段により変換された多数の3次元データに基づき3次元データの識別情報が現れる特徴を学習することで特定のテキストデータの特徴的データ構造を生成する学習手段と、
    前記学習手段により学習された前記特徴的データ構造と入力データの特徴的データ構造とが一致するかまたは近似する場合に、前記入力データが前記特定のテキストデータであると評価する評価手段と、
    を有する評価装置。
  2. 前記入力データは、m行×n列のテキストデータであり、前記評価手段は、前記変換手段と同様にm行×n列のテキストデータを3次元データに変換し、変換された3次元データと前記特徴的データ構造とを比較する、請求項1に記載の評価装置。
  3. 文字種の数Iは、複数の文字種を複数の次元に分類したときの数である、請求項1に記載の評価装置。
  4. 前記評価手段は、入力データがスパムメールか否かを評価する、請求項1ないし3いずれか1つに記載の評価装置。
  5. テキストデータの特徴を学習する学習装置とテキストデータを評価する評価装置とを含む評価システムであって、
    前記学習装置は、
    m行×n列のサンプルデータを取得する取得手段と、
    前記サンプルデータを、m行×n列×奥行I(Iは、文字種の数)のデータフォーマットを有する3次元データに変換する変換手段であって、前記変換手段は、m行×n列のそれぞれの位置のサンプルデータの文字種を識別し、識別された文字種に対応する奥行の位置に識別情報をセットする、前記変換手段と、
    前記変換手段により変換された多数の3次元データに基づき3次元データの識別情報が現れる特徴を学習することで特定のテキストデータの特徴的データ構造を生成する学習手段とを有し、
    前記評価装置は、
    評価対象のm行×n列の入力データを、m行×n列×奥行I(Iは、文字種の数)のデータフォーマットを有する3次元データに変換する変換手段であって、前記変換手段は、m行×n列のそれぞれの位置のサンプルデータの文字種を識別し、識別された文字種に対応する奥行の位置に識別情報をセットする、前記変換手段と、
    前記特徴的データ構造と前記変換された3次元の入力データの特徴的データ構造とが一致するかまたは近似する場合に、前記入力データが前記特定のテキストデータであると評価する評価手段と、
    を有する評価システム。
  6. 前記評価装置は、メールサーバに設けられる、請求項5に記載の評価システム。
  7. コンピュータが実行する入力テキストデータの評価方法であって、
    m行×n列のサンプルデータを取得するステップと、
    前記サンプルデータを、m行×n列×奥行I(Iは、文字種の数)のデータフォーマットを有する3次元データに変換するステップであって、当該変換するステップは、m行×n列のそれぞれの位置のサンプルデータの文字種を識別し、識別された文字種に対応する奥行の位置に識別情報をセットする、前記変換するステップと、
    前記変換された多数の3次元データに基づき3次元データの識別情報が現れる特徴を学習することで特定のテキストデータの特徴的データ構造を生成するステップと、
    前記特徴的データ構造と入力データの特徴的データ構造とが一致するかまたは近似する場合に、前記入力データが前記特定のテキストデータであると評価するステップと、
    を含む評価方法。
JP2018552368A 2016-11-28 2016-11-28 評価装置、評価方法、評価プログラムおよび評価システム Active JP6784975B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2016/085144 WO2018096672A1 (ja) 2016-11-28 2016-11-28 評価装置、評価方法、評価プログラムおよび評価システム

Publications (2)

Publication Number Publication Date
JPWO2018096672A1 JPWO2018096672A1 (ja) 2019-10-17
JP6784975B2 true JP6784975B2 (ja) 2020-11-18

Family

ID=62194832

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018552368A Active JP6784975B2 (ja) 2016-11-28 2016-11-28 評価装置、評価方法、評価プログラムおよび評価システム

Country Status (5)

Country Link
US (1) US11282040B2 (ja)
EP (1) EP3547148A4 (ja)
JP (1) JP6784975B2 (ja)
CN (1) CN109983447B (ja)
WO (1) WO2018096672A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020009151A (ja) * 2018-07-09 2020-01-16 富士通株式会社 システム、プログラム、及び方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5121828B2 (ja) 1973-04-11 1976-07-05
US8533270B2 (en) * 2003-06-23 2013-09-10 Microsoft Corporation Advanced spam detection techniques
US8214438B2 (en) * 2004-03-01 2012-07-03 Microsoft Corporation (More) advanced spam detection features
US7555523B1 (en) * 2004-05-06 2009-06-30 Symantec Corporation Spam discrimination by generalized Ngram analysis of small header fields
EP2169560A4 (en) 2007-07-04 2012-05-30 Imatrix Corp ELECTRONIC MAIL PROCESSING APPARATUS, ELECTRONIC MAIL PROCESSING METHOD, ELECTRONIC MAIL PROCESSING PROGRAM, AND ELECTRONIC MAIL PROCESSING SYSTEM
JP5400301B2 (ja) * 2008-01-23 2014-01-29 インターナショナル・ビジネス・マシーンズ・コーポレーション 認証サーバ装置、認証方法、及び認証プログラム
JP2011090442A (ja) 2009-10-21 2011-05-06 Kddi Corp 電子メール分類装置、電子メール分類方法及び電子メール分類プログラム
US8775341B1 (en) * 2010-10-26 2014-07-08 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US20120249535A1 (en) * 2011-03-01 2012-10-04 Castineiras George A System for transformation and animation of images
US9448636B2 (en) * 2012-04-18 2016-09-20 Arb Labs Inc. Identifying gestures using gesture data compressed by PCA, principal joint variable analysis, and compressed feature matrices
EP3076366A4 (en) * 2014-02-03 2017-05-24 Prosper Creative Co., Ltd. Image inspecting device and image inspecting program

Also Published As

Publication number Publication date
CN109983447B (zh) 2023-07-04
CN109983447A (zh) 2019-07-05
WO2018096672A1 (ja) 2018-05-31
US20190378091A1 (en) 2019-12-12
EP3547148A1 (en) 2019-10-02
JPWO2018096672A1 (ja) 2019-10-17
US11282040B2 (en) 2022-03-22
EP3547148A4 (en) 2020-08-26

Similar Documents

Publication Publication Date Title
US7930351B2 (en) Identifying undesired email messages having attachments
US8112484B1 (en) Apparatus and method for auxiliary classification for generating features for a spam filtering model
US8489689B1 (en) Apparatus and method for obfuscation detection within a spam filtering model
CN1573782B (zh) 先进的垃圾邮件侦测技术
US7949718B2 (en) Phonetic filtering of undesired email messages
CN110149266B (zh) 垃圾邮件识别方法及装置
CN103441924A (zh) 一种基于短文本的垃圾邮件过滤方法及装置
CN109039875B (zh) 一种基于链接特征分析的钓鱼邮件检测方法及系统
CN103136266A (zh) 邮件分类的方法及装置
WO2017173093A1 (en) Method and device for identifying spam mail
CN110647895B (zh) 一种基于登录框图像的钓鱼页面识别方法及相关设备
US8699796B1 (en) Identifying sensitive expressions in images for languages with large alphabets
JP2006293573A (ja) 電子メール処理装置および電子メールフィルタリング方法および電子メールフィルタリングプログラム
Das et al. Analysis of an image spam in email based on content analysis
CN110650108A (zh) 一种基于icon图标的钓鱼页面识别方法及相关设备
JP6784975B2 (ja) 評価装置、評価方法、評価プログラムおよび評価システム
CN107992508B (zh) 一种基于机器学习的中文邮件签名提取方法及系统
Ergin et al. Turkish anti-spam filtering using binary and probabilistic models
US10163005B2 (en) Document structure analysis device with image processing
CN110955796B (zh) 一种基于笔录信息的案件特征信息提取方法及装置
CN114036264A (zh) 一种基于小样本学习的电子邮件作者身份归属识别方法
CN113746814A (zh) 邮件处理方法、装置、电子设备及存储介质
Murugavel et al. K-Nearest neighbor classification of E-Mail messages for spam detection
Manek et al. ReP-ETD: A Repetitive Preprocessing technique for Embedded Text Detection from images in spam emails
CN104038391A (zh) 一种垃圾邮件检测的方法和设备

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190508

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190510

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200729

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200916

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201013

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201015

R150 Certificate of patent or registration of utility model

Ref document number: 6784975

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150