JP7069220B2 - 電子メッセージのフィルタリング - Google Patents

電子メッセージのフィルタリング Download PDF

Info

Publication number
JP7069220B2
JP7069220B2 JP2019563534A JP2019563534A JP7069220B2 JP 7069220 B2 JP7069220 B2 JP 7069220B2 JP 2019563534 A JP2019563534 A JP 2019563534A JP 2019563534 A JP2019563534 A JP 2019563534A JP 7069220 B2 JP7069220 B2 JP 7069220B2
Authority
JP
Japan
Prior art keywords
cluster
message
headers
header
electronic message
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019563534A
Other languages
English (en)
Other versions
JP2020520609A5 (ja
JP2020520609A (ja
Inventor
サティ,コーナル
タラソフ,アレクサンダー
ミハイロフ,ディミトロ
コフリキャン,ナリーネ
イフチェンコ,ロマン
Original Assignee
ミロ・アクイジション・サブ・リミテッド・ライアビリティ・カンパニー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ミロ・アクイジション・サブ・リミテッド・ライアビリティ・カンパニー filed Critical ミロ・アクイジション・サブ・リミテッド・ライアビリティ・カンパニー
Publication of JP2020520609A publication Critical patent/JP2020520609A/ja
Publication of JP2020520609A5 publication Critical patent/JP2020520609A5/ja
Priority to JP2022076161A priority Critical patent/JP7440565B2/ja
Application granted granted Critical
Publication of JP7069220B2 publication Critical patent/JP7069220B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/21Monitoring or handling of messages
    • H04L51/212Monitoring or handling of messages using filtering or selective blocking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/107Computer-aided management of electronic mailing [e-mailing]

Description

人々は、多くの販売業者から様々な支払いオプションを使って商品を購入する。このような購入の取引は、通常、店舗での物理的なレシート又は購入者のメッセージアカウント(例えば、購入者の電子メールアカウント)宛ての電子的確認メッセージによって確認される。確認メッセージが大量、多様であることにより、人々が自身の購入を確認し、購入履歴を全体的に把握することが困難となっている。加えて、人々が商品を購入する販売業者の多様性が大きいことにより、販売業者が正確な顧客プロファイルを作るための十分な購入履歴データを得ることが難しくなっている。ある人が、その人の全ての購入について共通の識別子(例えば、ポイントカード又はクレジットカード)を用いたとしても、これらの購入は、通常、その識別子をその顧客に発行した販売業者によってしか追跡されない。このように顧客情報が不足することで、販売業者をまたいだ顧客の購入取引情報を効率的に見いだす能力には限りがある。
このような問題を改善するために、購入確認メッセージ及び配送確認メッセージ等の、販売業者から直接、消費者に対して発行されるデータソースから購入関連情報を抽出するレポートシステムが開発されている。
本発明は、ネットワークノード間で送信され、1以上のメッセージサーバによって管理される1以上のネットワークデータストレージシステムにおいて各ユーザアカウントに関連付けられて記憶される電子メッセージの集合を処理する、コンピュータ装置によって実行される方法を特徴とする。各電子メッセージは、送信者、ヘッダ、及び本文に関連付けられる。この方法によれば、ネットワークデータストレージシステムのうちの1つ以上に記憶された集合内のヘッダは、メッセージサーバのうちの1つ以上から、複数のユーザアカウントにわたって、ネットワークノードによってフェッチされる。1以上の送信者の各々に関して、クラスタを、クラスタリングデータ空間内のそれぞれの密な領域と関連付ける密度ベースのクラスタリングプロセスに基づいて、送信者に関連付けられてフェッチされたヘッダは、クラスタにグループ化される。クラスタリングデータ空間内では、フェッチされたヘッダは、フェッチされたヘッダの各ペア間の類似度に基づいて互いに離れている。複数のクラスタのうちの1つ以上の各々につき、ネットワークノードによって、メッセージサーバのうちの1つ以上から、クラスタ内のフェッチされたヘッダに関連付けられ、ネットワークデータストレージシステムのうちの1つ以上に記憶された集合内の電子メッセージのそれぞれのサンプルが取得される。取得されたサンプル内の各電子メッセージは、クラスタに関する各分類データセットを生成するために、1つ以上の購入関連ラベルと、関連する信頼度とを含む所定のラベルセットの各ラベルを用いて、機械学習分類器によって分類される。クラスタは、それぞれの分類データセットをそれぞれのクラスタラベルにマッピングする少なくとも1つのクラスタ分類ルールに基づいて、所定のラベルセットから選択された各クラスタラベルを割り当てられる。購入関連ラベルのうちの1つが割り当てられた1以上のクラスタの各々に関して、購入関連電子メッセージをフィルタリングするフィルタが自動的に生成される。
また、本発明は、ネットワークノード間で送信され、1以上のメッセージサーバによって管理される1以上のネットワークデータストレージシステムにおいて各ユーザアカウントに関連付けられて記憶されている電子メッセージの集合を処理する、コンピュータ装置によって実行される方法を特徴とする。各電子メッセージは、送信者、ヘッダ、及び本文に関連付けられる。この方法によれば、集合内のヘッダは、1人以上の送信者の各々に関して、ネットワークデータストレージシステムのうちの1つ以上からフェッチされる。1人以上の送信者の各々に関して、フェッチされたヘッダは、クラスタにグループ化される。フェッチされたヘッダをグループ化するプロセスは、メッセージ本文の内容に関係なくクラスタ内のヘッダ間の類似度に基づいて、フェッチされたヘッダを複数のクラスタのうちのそれぞれのクラスタに割り当てることを含む。複数のクラスタのうちの各々につき、ネットワークデータストレージシステムのうちの1つ以上から、フェッチされクラスタに割り当てられたヘッダに関連付けられた電子メッセージのうちの1通以上のサンプルが取得される。クラスタは、サンプル内の1通以上の取得された電子メッセージのヘッダ及び本文の内容に基づいて、受取りに関係するもの又は受取りに関係しないものとして、機械学習分類器によって指定される。それぞれの電子メッセージフィルタは、受取りに関係するものとして指定された複数のクラスタのうちの1つ以上の各々に関して自動的に生成され、各電子メッセージフィルタは、電子メッセージのヘッダ内の件名フィールド文字列のそれぞれのパターンを照合するそれぞれのルールを定める。
いくつかの例では、フィルタのうちの1つ以上は、1つ以上のメッセージサーバによって管理される1つ以上のネットワークデータストレージシステムにおいて各ユーザアカウントに関連付けられて記憶された電子メッセージのセットから購入関連電子メッセージを選択するために、少なくとも1つのネットワーク通信チャネルにプロセッサによって設けられる。
また、本発明は、上述した方法を実施するように動作可能なコンピュータ装置及び上述した方法をコンピュータ装置に実施させるコンピュータ可読命令を記憶するコンピュータ可読媒体を特徴とする。
ネットワーク通信環境の一例を示す説明図である。 購入取引データ検索システムの一例によって行われる電子メッセージ処理ステージの全体説明図である。 電子メッセージの一例を示す説明図である。 電子メッセージフィルタを生成するプロセスの一例を示すフロー図である。 図4の電子メッセージフィルタ生成プロセスの複数のステージに関係するデータの説明図である。 電子メッセージフィルタを生成するプロセスの一例を示すフロー図である。 電子メッセージフィルタを生成するシステムの一例を示す説明図である。 クラスタリングデータ空間におけるヘッダのクラスタの一例を示す説明図である。 電子メッセージのヘッダをクラスタへとグループ化するプロセスの一例を示すフロー図である。 電子メッセージフィルタを生成するシステムの一例を示す説明図である。 電子メッセージフィルタを生成するプロセスの一例を示すフロー図である。 コンピュータ装置の一例を示すブロック図である。
以下の説明において、同じ要素を識別するために同じ符号を用いる。さらに、図面は、例示的な実施形態の主要な特徴を図示するためのものである。図面は、実際の実施形態のあらゆる特徴を示すことを目的としているわけではなく、描かれている要素の相対的な寸法を示すためのものでもなく、一定の縮尺で描かれているわけでもない。
[I.用語の定義]
「商品(product)」は、購入又は利用の対象となり得る任意の有形又は無形の物品又はサービスである。
「電子メッセージ」は、物理的なネットワークノード間で送信者から受信者へと送られ、非一時的なコンピュータ可読型メモリに記憶される永続的なテキストベースの情報記録である。電子メッセージは、構造化されたもの(例えば、構造化タグ要素を含むハイパーテキストマークアップ言語(HTML)メッセージ)又は構造化されていないもの(例えば、プレーンテキストメッセージ)とすることができる。
「購入関連電子メッセージ」は、商品の購入に関連する電子メッセージである。購入関連電子メッセージの例には、注文確認、配送確認、払戻し、キャンセル、取寄せ注文、クーポン、及び販売促進が含まれる。
電子メッセージにおける「送信者ドメイン」は、電子メッセージの送信元であるメッセージアドレスの管理範囲を指す。例えば、電子メッセージアドレスが「local-part@domain」というフォーマットを有する場合、「local-part」はメッセージアドレスを特定し、「domain」はメッセージアドレスの管理範囲を特定する。複数のメッセージアドレスが同じ送信者ドメインを共有する場合がある。
「受領(受取り、receipt)」は、1つ以上の商品の購入ステータスを確認する電子メッセージである。受領の例には、注文確認電子メッセージと配送確認電子メッセージとが含まれる。
「購入取引情報」(「購入取引データ」とも呼ぶ)は、商品の購入に関連する情報である。購入取引データは、例えば、インボイスデータと、購入確認データと、商品注文情報(例えば、販売者名、注文番号、注文日、商品説明、商品名、商品数量、商品価格、消費税、送料、及び注文金額)と、商品出荷情報(例えば、請求先住所、配送会社、送付先住所、出荷予定日、配送予定日、及び追跡番号)とを含む。
「コンピュータ」は、コンピュータ可読型媒体に一時的又は恒久的に記憶されているコンピュータ可読型命令に従ってデータを処理する任意の機械、デバイス、又は装置である。「コンピュータ装置」は、1つ以上の独立したコンピュータを指す。「コンピュータオペレーティングシステム」は、タスクの動作と、コンピューティングリソース及びハードウェアリソースの共有とを管理及び調整するコンピュータのソフトウェア構成要素である。「ソフトウェアアプリケーション」(ソフトウェア、アプリケーション、コンピュータソフトウェア、コンピュータアプリケーション、プログラム、及びコンピュータプログラムともいう)は、コンピュータが解釈及び実行して1つ以上の特定のタスクを実行することができる一組の命令である。「データファイル」は、ソフトウェアアプリケーションによって用いられるデータを永続的に記憶する情報のブロックである。
「コンピュータ可読型媒体」(「メモリ」ともいう)という用語は、機械(例えば、コンピュータ)によって読み出すことができる情報(例えば、命令及びデータ)を記憶することが可能な任意の有形で非一時的なデバイスを指す。このような情報を有形なものとして具現化するのに適した記憶デバイスには、例えば、ランダムアクセスメモリ(RAM)、EPROM、EEPROM、及びフラッシュメモリデバイス等の半導体メモリデバイス、内部ハードディスク及びリムーバブルハードディスク等の磁気ディスク、光磁気ディスク、DVD-ROM/RAM、並びにCD-ROM/RAMを含むあらゆる形態の物理的で非一時的なコンピュータ可読型メモリが含まれるが、これらに限定されるわけではない。
「ネットワークノード」は、通信ネットワーク内の物理的な接合点又は接続点である。ネットワークノードの例には、端末、コンピュータ、及びネットワークスイッチが含まれるが、これらに限定されない。「サーバシステム」は、1つ以上のネットワークノードを備え、情報又はサービスの要求に応じるものである。「クライアントノード」は、情報又はサービスをサーバシステムに要求するネットワークノードである。
本明細書において、「含む(備える)」という用語は、その対象を含む(備える)が、それらに限定されないことを意味し、「含んでいる(備えている)」という用語は、その対象を含んでいる(備えている)が、それらに限定されないことを意味する。「基づく」は、その対象に少なくとも部分的に基づくことを意味する。
[II.購入関連電子メッセージのフィルタリング]
A.序論
人々は、世界中で毎日、2000億通近くの電子メールを送受信している。しかし、これらの電子メールのうち、購入に関するものはごく少数にすぎない。結果として、ユーザのメッセージアカウントを取捨選択し、目下実用的な情報を定期的に得るのに十分な量の購入関連電子メールを特定し、取得するのに、相当量の時間及びリソースが必要である。
本明細書において説明する例によれば、購入関連情報を指定された受信者に伝えるために物理的なネットワークノード間で送信される購入関連電子メッセージを発見してフィルタリングする改良されたシステム及び方法が提供される。これらのシステム及び方法は、各販売業者によって使用され、販売業者間で異なる様々な電子メッセージフォーマットが急増した結果として生じている実際的な問題を解決するものである。この点につき、これらの例は、機械生成の電子メッセージヘッダの構造及びセマンティックを自動的に学習でき、これにより、新しいメッセージソース、新しいマーケット、及び種々の言語をサポートする能力が促進される。これらの例は、多種多様な電子メッセージフォーマットにわたる購入関連電子メッセージを高精度で識別しフィルタリングすることができる、購入関連電子メッセージの発見及びフィルタリングのサービスを提供する。
本明細書において説明する例は、機械により生成された購入関連電子メッセージに特有の構造的特徴に関する知見を利用して、購入関連電子メッセージを自動的に発見しフィルタリングするプロセスを実施するものである。このプロセスは、コンピュータ装置の処理を改良し、従来の手法に比べて、処理リソース、データストレージリソース、ネットワークリソース、及びフィルタ生成回数を大幅に削減する。いくつかの例では、この改良は、ネットワーク通信環境における特定の電子メッセージ処理ルールの独自のシーケンスが実行されるようにコンピュータ装置を構成することによる。いくつかの例では、複数の販売業者によって送られる、複数の機械生成による購入関連電子メッセージの個別の特性を自動的に学習し、処理がそれらの特性に自動的に合うようにコンピュータ装置を構成することによって、従来の手法を上回る更なる利点が得られる。いくつかの例は、例えば、機械生成の購入関連電子メッセージのテンプレートの各セットを生成するために、複数の販売業者によって用いられるそれぞれのテンプレートにおける種々のレベルの違いに合わせてコンピュータ装置の処理を自動的に調整することによって、メッセージ発見プロセスの精度及び効率を実質的に向上させる。
特定の例において、これらのシステム及び方法は、一組の電子メッセージから、購入関連電子メッセージの本文の構造的要素を定める各メッセージテンプレートに従って、機械により生成される購入関連電子メッセージのヘッダを照合する電子メッセージフィルタを自動的に学習できるようにプログラミングされる改良された特定用途のコンピュータ装置を含む。また、これらのシステム及び方法は、1つ以上のメッセージサーバによって管理される1つ以上のネットワークデータストレージシステムにおいて各ユーザアカウントに関連付けられて記憶された一組の電子メッセージから購入関連電子メッセージを選択できるように、少なくとも1つのネットワーク通信チャネルに学習済み電子メッセージフィルタを設ける(インストールする)ようプログラミングされる改良された特定用途のコンピュータ装置を含む。
これらの改良されたシステム及び方法によれば、商品購入情報を多種多様な電子メッセージのタイプから識別、抽出し、集約することで、個人の購入履歴を可視化及び整理する強化ツールを個人に提供できるとともに、的を絞った、あまり押し付けがましくない広告戦略及び他のマーケティング戦略を可能にする様々な消費者層にわたる改良された販売業者間の購入情報を販売業者及び他の組織へ提供することができる。これらの改良されたシステム及び方法を展開して、消費者の購入を経時的にモニタし、個別の消費者について又は多くの消費者にわたって集約することができる更新された購入履歴情報を取得し、消費者の行動及び組織的マーケティング戦略を導く実用的な情報を提供することができる。例えば、これらの改良されたシステム及び方法は、個別の電子メッセージから抽出された異なる商品購入情報を、消費者が自身の以前の購入を整理し、自身の購入行動の理解を高めるために用いることができるとともに、販売業者及び他の組織が自身のマーケティングキャンペーンの精度及び投資利益率を改善するために用いることができる実用的なデータへと編成することができる。
B.動作環境の例
図1に、ネットワーク11を有するネットワーク通信環境10の例を示す。ネットワーク11は、購入取引データ検索システム12と、商品を販売する1以上の商品販売業者14と、購入商品を購入者に配送する1以上の商品配送業者16と、メッセージ処理サービスを提供する1以上のメッセージプロバイダ18と、商品情報及びマーケット情報並びにサービスを購入取引データ検索システム12から購入する1以上の購入取引情報利用者20とを相互に接続する。
ネットワーク11は、ローカルエリアネットワーク(LAN)、メトロポリタンエリアネットワーク(MAN)、及びワイドエリアネットワーク(WAN)(例えば、インターネット)のうちの任意のものを含むことができる。ネットワーク11は、通常、購入取引データ検索システム12と、1以上の商品販売業者14と、商品配送業者16と、メッセージプロバイダ18と、購入取引情報利用者20との各ネットワークノード間での多種多様な異なるメディアタイプ(例えば、テキスト、音声、オーディオ、及びビデオ)の伝送をサポートする複数のコンピューティングプラットフォーム及び配信設備を有する。購入取引データ検索システム12と、商品販売業者14と、商品配送業者16と、メッセージプロバイダ18と、購入取引情報利用者20との各々は、通常、ネットワークノード(例えば、クライアントコンピュータ又はサーバシステム)を介してネットワーク11に接続する。このネットワークノードは、有形のコンピュータ可読型メモリと、プロセッサと、入出力(I/O)ハードウェア(ディスプレイを含みうる)とを備える。
商品販売業者14のうちの1以上は、通常、個人及び会社が、ウェブブラウザ等のネットワーク対応ソフトウェアアプリケーションを使用しネットワーク11を通じて商品を直接購入することを可能とする。商品販売業者14のうちの1以上は、個人及び会社が物理的な小売店舗において商品を購入することも可能とすることができる。いずれの場合も、購入取引が完了した後、商品販売業者14は、商品購入者に関連付けられているメッセージアドレスに商品購入確認電子メッセージを送信することができる。この商品購入確認メッセージは、例えば、販売業者名、注文番号、注文日、配送予定日、商品説明、商品名、商品数量、商品価格、消費税、送料、及び注文金額等の商品注文情報を含むことができる。商品販売業者14は、商品を商品配送業者16のうちの一者によって配送してもらうように手配することもできる。購入された商品のタイプに応じて、商品配送業者16は、商品を購入者へ物理的又は電子的に送ることができる。いずれの場合も、商品配送業者16又は商品販売業者14は、購入者に関連付けられているメッセージアドレスに配送通知電子メッセージを送信することができる。この配送通知電子メッセージは、例えば、商品注文情報、請求先住所、配送会社、送付先住所、出荷予定日、配送予定日、及び追跡番号等の商品出荷情報を含むことができる。
一般に、購入者のメッセージアドレスは、電子メッセージを送信することができる任意のタイプのネットワークアドレスとすることができる。そのようなメッセージアドレスの例には、電子メール(eメール)アドレス、テキストメッセージアドレス(例えば、電話番号又はテキストメッセージサービスのユーザ識別子などの送信者識別子)、ソーシャルネットワーキングサービスのユーザ識別子、及びファクシミリ電話番号が含まれる。購入に関連した電子メッセージは、通常、購入者のメッセージアドレスに関連付けられているメッセージプロバイダ18の各々を経て購入者へとルーティングされる。メッセージプロバイダ18は、通常、1つ以上のメッセージサーバによって管理される1つ以上のネットワークデータストレージシステムにおいて購入者のメッセージアドレスに関連付けられた各メッセージフォルダに購入者の電子メッセージを保存する。
購入取引データ検索システム12は、商品購入者の電子メッセージから購入取引情報を抽出する。いくつかの例では、購入取引データ検索システムは、メッセージプロバイダ18によって管理される商品購入者の各メッセージフォルダにアクセスする許可を商品購入者から得る。別の例では、商品購入者は、購入取引データ検索システム12が、商品購入者のローカル通信デバイス(例えば、パーソナルコンピュータ又はモバイルフォン)に記憶された電子メッセージにアクセスすることを許可する。
図2に示すように、購入取引データ検索システム12は、購入者の電子メッセージ22にアクセスする許可を得たのち、複数のステージを通じて電子メッセージ22を処理し、購入取引情報利用者20に提供されることになる処理済みデータ24を生成する。これらのステージには、メッセージ発見ステージ26と、フィールド抽出ステージ28と、データ処理ステージ30とが含まれる。
メッセージ発見ステージ26では、購入取引データ検索システム12は、商品購入に関係する電子メッセージ22を特定する。いくつかの例では、ルールベースのフィルタ及び機械学習分類器を用いて、購入関連電子メッセージを特定する。
フィールド抽出ステージ28では、購入取引データ検索システム12は、電子メッセージ22のうち、特定されたものから商品購入情報を抽出する。このような商品購入情報の例には、販売業者名、注文番号、注文日、商品説明、商品名、商品数量、商品価格、消費税、送料、注文金額、請求先住所、配送会社、送付先住所、出荷予定日、配送予定日、及び追跡番号が含まれる。
データ処理ステージ30では、購入取引データ検索システム12は、種々のタイプの購入取引情報利用者20に従って、抽出された商品購入情報を処理する。例えば、個人ユーザの場合、抽出された商品購入情報は、例えば、そのユーザの購入についての情報が示されるように処理される。この情報は、配送中の注文を追跡するための情報と、購入の詳細にアクセスするための情報と、集約された購入サマリ情報とを含む。広告主の場合、抽出された商品購入情報は、例えば、消費者の購入履歴に基づいて消費者への的を絞った広告を支援できるように処理される。マーケットアナリストの場合、抽出された商品購入情報は、例えば、小売業者、カテゴリ、及びデバイスにわたる匿名の品目レベルの購入詳細を提供できるように処理される。
C.購入関連電子メッセージの発見及びフィルタリング
以下で詳細に説明する例では、購入取引情報データ検索システム12は、フィルタ学習システムを有する。このフィルタ学習システムは、購入関連電子メッセージの構造的要素をそれぞれ定める各メッセージテンプレートに従って機械により生成される電子メッセージの組などの、類似した購入関連電子メッセージの各組のヘッダを照合する電子メッセージフィルタを自動的に学習する。
図3に、商品注文の確認電子メッセージ32の一例を示す。確認電子メッセージ32は、ヘッダ34及び本文35を含む。ヘッダ34は、以下の標準の構造的要素、すなわち、「From:」と、「To:」と、「Date:」と、「Subject:」とを含む。また、ヘッダは、図3には示されていない以下の構造的要素、すなわち、「Cc:」と、「Content-Type」と、「Precedence:」と、「Message-ID:」と、「In-Reply-To:」と、「References:」と、「Reply-To:」と、「Archived-At:」と、「Received:」と、「Return-Path:」とのうちの1つ以上を含む。本文36は、以下の、販売業者ごとの機械生成による構造的要素、すなわち冒頭の「Dear」36と、情報を有する標準的なテキスト37(すなわち、「Thank you for placing your order ... once your item has been shipped.」)と、「Order Number:」38と、「Order Summary」40と、「Product Subtotal:」42と、「Discounts:」と、「Shipping Charges:」46と、「Tax:」48と、「Total:」50と、「Part No」52と、「Product Price」54と、「Discount」56と、「Part No」58と、「Product Price」60と、「Discount」62とを含む。構造的要素34~50は、固定要素であり、構造的要素52~56の組及び58~62の組は、それぞれ反復する要素において繰り返される同じ固定要素を含む。電子メッセージの非構造的要素(例えば、価格、注文番号、及び品番)は、商品購入情報プロバイダ12のパーサ部によって抽出及び分類されるデータフィールドである。
図4に、一例として、1以上の電子メッセージフィルタを自動的に作る方法66を示す。この方法により、コンピュータ装置は、ネットワークノード間で送信され、1以上のメッセージサーバによって管理される1以上のネットワークデータストレージシステムにおいて各ユーザアカウントに関連付けられて記憶されている電子メッセージの集合を処理する。この集合における電子メッセージの各々は、送信者とヘッダと本文とに関連付けられている。
図示の例では、コンピュータ装置は、1以上の電子メッセージ送信者の各々に関して図4の方法を実行するようプログラムが組まれている(図4、ブロック68)。送信者は、単一の電子メッセージアドレス(例えば、sales@store.com)又は複数の電子メッセージアドレスに関連付けることができる送信者ドメイン(例えば、@store.com)に対応しているものとすることができる。
コンピュータ装置は、ネットワークデータストレージシステムのうちの1つ以上からヘッダをフェッチする(図4、ブロック70)。フェッチされたヘッダは、特定の送信者ドメインに関連付けられる場合もあれば、送信者ドメインとは無関係にフェッチされる場合もある。コンピュータ装置は、フェッチされたヘッダをクラスタへとグループ化する(図4、ブロック72)。このプロセスでは、各送信者につき、フェッチされた各ヘッダは、メッセージ本文の内容とは無関係に、クラスタ内のヘッダ同士の類似度に基づいてクラスタに割り当てられる。1以上のクラスタの各々につき(図4、ブロック74、80)、コンピュータ装置は、1つ以上のネットワークデータストレージシステムから、フェッチされてクラスタに割り当てられたヘッダに関連付けられている電子メッセージのうちの1つ以上の各サンプルを取得する(図4、ブロック76)。また、コンピュータ装置は、機械学習分類器を用いて、サンプル内の検索された1つ以上の電子メッセージのヘッダ及び本文の内容に基づいて、クラスタを受取りに関係するもの又は受取りに関係しないものとして指定する(図4、ブロック78)。コンピュータ装置は、受取りに関係するものとして指定された1以上のクラスタの各々につき、各電子メッセージフィルタを自動的に生成する。各電子メッセージフィルタは、電子メッセージのヘッダ内の件名フィールド文字列の各パターンを照合するそれぞれのルールを定めるとともに、1つ以上のネットワークデータストレージシステムによって管理される1つ以上のデータストレージシステムにおいて各ユーザアカウントに関連して記憶されている電子メッセージのクロールを行う(図4、ブロック82)。
図4に示す手法は、3つの主要なステージ、すなわち、(i)ヘッダを、類似した構造的要素を有する電子メッセージのクラスタにグループ化するヘッダ構造学習ステージと、(ii)どのヘッダクラスタが1つ以上の購入関連電子メッセージタイプに対応しているかを正確に特定するサンプルベースの分類ステージと、(iii)フィルタ生成ステージとを有する。(例えば、ヘッダ及び本文を含む)完全な電子メッセージの処理は、ヘッダのみの処理よりも実質的に多くのリソースを消費する。検索され、分類ステージにおいて処理される完全な電子メッセージの数を、サンプリングにより大幅に減らすことができる。このように、図4の方法によれば、従来の手法に比べて、処理リソース、データストレージリソース、ネットワークリソース、及び電子メッセージフィルタを作るのに必要なフィルタ生成回数を大幅に減らすことができる。加えて、本システムは、ヘッダと、ヘッダクラスタに対応する(通常、受領等の機械生成の電子メッセージに対応する)完全な電子メッセージの少数のサンプルとのみを取得するため、ユーザの個人的な電子メッセージを不注意で取得してしまう可能性が低く、したがってユーザプライバシは本質的に守られる。
この手法は、各クラスタに関連付けられる完全な電子メッセージのサンプルのみに基づいてヘッダが分類されているものの、高精度なフィルタを生成するために機械生成の電子メッセージの本質的な構造的性質を利用するものである。特に、ヘッダ構造学習ステージでは、機械生成の電子メッセージに適用されると、同じメッセージテンプレートによって生成されている可能性のある電子メッセージヘッダの密なクラスタを生成することができる。結果として、分類ステージにおいて各クラスタを表すのに必要なのは、ほんのわずか又はたった1つの、サンプルとなる完全な電子メッセージのみである。
図5に、図4のフィルタ構築方法の複数のステージにおいて処理されるデータの一例を示す。この例では、フェッチするステージ84は、特定の送信者ドメインに対応する電子メッセージの例としての集合内の1000万個のヘッダ全てをフェッチすることを含む。クラスタリングステージ86は、1000万個のヘッダを200個のヘッダクラスタに分けることを含む。クラスタ分類ステージ88は、200個のクラスタの各々につき10通の電子メッセージからなる所定の固定的なサイズのサンプルに対応する2000通の完全な電子メッセージを取得することと、機械学習分類器を用いてそれぞれの電子メッセージサンプルを分類することとを含む。フィルタ生成ステージ90は、購入に関連するものとして分類される各クラスタのフィルタを構築することを含む。したがって、この仮定的な例では、電子メッセージフィルタを生成するために処理される完全な電子メッセージの数(すなわち、2000通)は、この集合における電子メッセージの総数のたった0.02%に過ぎない。結果として、従来の手法に比べて、処理リソース、データストレージリソース、ネットワークリソース、及びフィルタ生成回数が大幅に削減される。
いくつかの例では、これらの実質的な利点は、少なくとも部分的に、コンピュータ装置が購入関連電子メッセージのヘッダを特定する方法を改良する特定のコンピュータ可読型命令をコンピュータ装置にプログラミングすることから得られる。場合によっては、コンピュータ装置の購入関連ヘッダの識別能力は、コンピュータ装置に、電子メッセージヘッダを密なクラスタに分類させ、次いで、機械学習分類器を用いて、各ヘッダクラスタに関連付けられる完全な電子メッセージの少数のサンプルに基づいて購入関連ヘッダクラスタを識別させる特定の命令をコンピュータ装置に設定することによるものである。
図6は、図4の電子メッセージフィルタ構築プロセスの一例98のフロー図である。この方法によれば、コンピュータ装置は、ネットワークノード間で送信され、1つ以上のメッセージサーバによって管理される1つ以上のネットワークデータストレージシステムにおいて各ユーザアカウントに関連付けられて記憶されている電子メッセージの集合を処理する。この集合における電子メッセージの各々は、送信者とヘッダと本文とに関連付けられている。
この例では、コンピュータ装置は、1以上の電子メッセージ送信者からの電子メッセージに基づいて、図6の方法の1つ以上の要素を実行できるようにプログラミングされている(図6、ブロック100)。前述のとおり、送信者は、単一の電子メッセージアドレス(例えば、sales@store.com)又は複数の電子メッセージアドレスに関連付けることができる送信者ドメイン(例えば、@store.com)に対応したものとすることができる。
図6の方法によれば、コンピュータ装置(例えば、クライアントネットワークノード)は、1以上のメッセージサーバから、送信者に関連付けられ、複数のユーザアカウントにわたってネットワークデータストレージシステムのうちの1つ以上に記憶されている集合内のヘッダをフェッチする(図6、ブロック102)。ある例では、コンピュータ装置は、電子メッセージの集合内の全ての電子メッセージヘッダをフェッチする。別の例では、コンピュータ装置は、この集合内の電子メッセージヘッダの1つ以上のサンプルをフェッチする。
ヘッダをフェッチする前に、コンピュータ装置は、通常、ユーザから直接、又は、アクセス許可サービス等の第三者サービスにより間接的にユーザのメッセージアカウントにアクセスする許可を取得する。コンピュータ装置は、その後、アクセス許可により、ユーザのメッセージアカウントから送信者に関連付けられたヘッダをフェッチする。いくつかの例では、コンピュータ装置は、(例えば、電子メッセージAPIを呼び出すことによって)ユーザのメッセージアカウントのクロールを行い、電子メッセージヘッダの内容を解析し評価する電子メッセージクローリングエンジンを実装する。いくつかの例では、電子メッセージクローリングエンジンは、「From:」フィールド及び「Subject:」フィールドの一方又は両方を解析し、1つ以上のフィルタ(例えば、正規表現フィルタ)を解析された結果に適用して、対象の送信者に対応するヘッダを特定する。
コンピュータ装置は、クラスタを、クラスタリングデータ空間内のそれぞれの密な領域と関連付ける密度ベースのクラスタリングプロセスに基づいて、フェッチされたヘッダをクラスタにグループ化する(図6、ブロック104)。クラスタリングデータ空間において、フェッチされたヘッダは、フェッチされたヘッダの各ペア間の類似度に基づいて互いに離れている。一般的に、任意の密度ベースのクラスタリングプロセスを用いることができる。いくつかの例では、図8及び図9に関連して後述する反復型クラスタリングプロセスを用いて、フェッチされたヘッダをクラスタに分ける。別の例では、コンピュータ装置は、ノイズを認める密度ベースの空間クラスタリング(DBSCAN:Density-Based Spatial Clustering of Applications with Noise)というクラスタリングプロセスを用いて、フェッチされたヘッダをクラスタに分ける。
いくつかの例では、コンピュータ装置は、ヘッダをクラスタに分ける前に、電子メッセージヘッダ内の件名フィールドの前処理を行う。いくつかの例では、コンピュータ装置は、空白スペースによって隔てられた、記号(例えば、英数字を表す記号)の連続する文字列を抽出することによってヘッダ内の件名フィールドのテキストベースの内容をトークン化する。連続する記号文字列は、通常、単語及び数字に対応する。いくつかの例では、コンピュータ装置は、大文字を小文字に置き換えることと、句読点を削除することと、電子メッセージヘッダ内の整数及び実数のパターンに合うトークンをワイルドカードトークンに置き換えることとによって、件名フィールドの内容を正規化する。いくつかの例では、整数は「INT」というワイルドカードトークンに置き換えられ、実数は「FLOAT」というワイルドカードトークンに置き換えられる。件名フィールドの正規化により、コンピュータ装置が購入関連電子メッセージを見いだす能力が向上する。
いくつかの例では、フェッチされたヘッダの各ペア間の類似度は、電子メッセージのヘッダ内の文字列のペアの内容の類似度及び相違の度合いを比較する内容類似度の基準に基づいて求められる。これらの例のうちのいくつかでは、各ヘッダの件名フィールドは、バイグラム(すなわち、2文字の語句)の組に分解される。これらの例のうちのいくつかでは、類似度の基準は、ジャッカード(Jaccard)類似度係数に対応する。ジャッカード類似度係数は、2つのヘッダ間の類似度を、両ヘッダのバイグラムの共通集合のサイズを和集合のサイズで割った結果に基づいて測るものである。
ヘッダがクラスタに分けられたのち、コンピュータ装置は、1つ以上のクラスタの各々につき、以下のプロセスを実行する(図6、ブロック108)。
コンピュータ装置(例えば、クライアントネットワークノード)は、メッセージサーバのうちの1つ以上から、クラスタ内のフェッチされたヘッダに関連付けられ、ネットワークデータストレージシステムのうちの1つ以上に記憶されている集合内の電子メッセージのそれぞれのサンプルを取得する(図6、ブロック108)。いくつかの例では、コンピュータ装置は、各クラスタにつき、所定の数(例えば、10通、5通、又は1通)の電子メッセージを取得する。他の例では、コンピュータ装置は、例えば、クラスタ内のヘッダを特徴付ける統計的な基準に応じた、各クラスタについて変えられる数の電子メッセージを取得する。
コンピュータ装置は、機械学習分類器により、1以上の購入関連ラベルと、関連する信頼度とを含むラベルの所定の組の各ラベルを用いて、検索されたサンプル内の各電子メッセージを分類し、当該クラスタのそれぞれの分類データセットを生成する(図6、ブロック110)。
いくつかの例では、機械学習分類器は、教師あり機械学習モデル(例えば、ロジスティック回帰モデル又は単純ベイズモデル)により、購入関連電子メッセージのバッグオブワーズ(bag-of-words)表現についての学習がなされている。これらの例のうちのいくつかでは、バッグオブワーズ表現は、特定の購入関連電子メッセージを記述する記述的特徴を含む。いくつかの例では、各特徴は、文字列(例えば、単語)及びその文字列が所定の辞書に現れる回数を表す。いくつかの例では、その辞書は、件名フィールド内の単語又はnグラムと、送信者アドレスの態様(例えば、「@」記号の前のテキスト)と、メッセージ本文内の単語と、メッセージ本文内の画像の数とを含む。
いくつかの例では、ラベルの所定の組は、電子メッセージが受取りに関係するものか、又は受取りに関係しないものであるかを示すラベルからなる。このタイプの一例としてのラベルセットは、{「受取り」、「不明」}である。他の例では、機械学習分類器は、電子メッセージを複数の購入関連電子メッセージのカテゴリに分類する。このタイプの一例としてのラベルセットは、以下のラベルすなわち{「注文通知」、「配送通知」、「払戻し」、「キャンセル」、「取寄せ注文」、「クーポン」、「販売促進」、「不明」}のうちのいくつか又は全てを含む。
いくつかの例では、機械学習分類器は、各クラスタにつき、サンプリングされた電子メッセージの各々に、所定のラベルセットから選択されたそれぞれの予測されるラベル、及び、予測されたラベルに関連付けられる信頼度を割り当てる。各クラスタのそれぞれの分類データセットは、電子メッセージの対応するサンプルに関する予測されたラベル及びそれらの関連付けられたラベルの信頼度のセットを含む。
コンピュータ装置は、それぞれの分類データセットをそれぞれのクラスタラベルにマッピングする少なくとも1つのクラスタ分類ルールに基づいて、各クラスタに、所定のラベルセットから選択されたそれぞれのクラスタラベルを割り当てる(図6、ブロック112)。いくつかの例では、クラスタ分類ルールは、コンピュータ装置に対し、1つ以上の信頼因子に基づく特定のラベルを使ってクラスタのラベル付けをするように命令する。信頼因子は、同じラベルが割り当てられた対応するサンプル内の電子メッセージの数、及び、割り当てられたラベルに関連付けられた信頼度などである。このようなクラスタ分類ルールの一例に従って、特定のラベルが、信頼度閾値(例えば、98%以上)を満たすそれぞれの信頼度を持ってサンプル内の全ての電子メッセージに割り当てられた場合、クラスタは、その特定のラベルでラベル付けされる。いくつかの例では、特定のクラスタの信頼因子が信頼閾値を満たさない場合、クラスタ内の電子メッセージは手動分類用としてのフラグが付けられる。
いくつかの例では、特定の電子メッセージの予測されたラベルが、信頼度閾値未満であると判断されると、コンピュータ装置は、手動分類用としてその特定の電子メッセージにフラグを付ける。いくつかの例では、手動でラベルが付けられた電子メッセージを用いて、機械学習分類器の学習用セットを拡張する。
コンピュータ装置は、購入関連ラベルが割り当てられた各クラスタにつき、購入関連電子メッセージをフィルタリングするそれぞれのフィルタを自動的に生成する(図6、ブロック116)。いくつかの例では、フィルタを生成するプロセスは、それぞれのクラスタにおけるヘッダ内の共通の部分文字列を特定することと、特定された部分文字列に基づいて、それぞれのフィルタ(例えば、正規表現フィルタ)を生成することとを含む。各フィルタは、通常、電子メッセージ内の件名フィールド文字列のそれぞれのセットの一致パターンを定める。いくつかの例では、シーケンスマイニングを用いて、ヘッダ内のnグラム(すなわち、テキストの所与のシーケンスに関するn個のアイテムが連続するシーケンス)の解析に基づいてフィルタを生成する。これらの例は、各クラスタ内のヘッダの件名フィールドに現れるnグラムのそれぞれの個数を求めることと、それぞれのフィルタに、顕著な個数(例えば、そのnグラムは、高い割合でこのヘッダ内に現れる)に関連付けられるnグラムのうちの1つ以上を組み込むこととを含む。これらの例のうちのいくつかでは、シーケンスマイニングは、ヘッダの件名フィールド内のバイグラムを解析することを含む。各クラスタからそれぞれのフィルタを自動的に生成する方法の一例は、図11に関連して以下に説明する。
各購入関連クラスタのそれぞれのフィルタを生成した後、プロセッサは、1つ以上のメッセージサーバによって管理される1つ以上のネットワークデータストレージシステムにおいて各ユーザアカウントに関連付けられて記憶されている電子メッセージのセットから購入関連電子メッセージを選択するために、少なくとも1つのネットワーク通信チャネル内にフィルタのうちの1つ以上を設ける(インストールする)ことができる。いくつかの例では、コンピュータ装置は、ユーザのメッセージアカウントのクロールを行い、電子メッセージヘッダの内容を解析し評価する電子メッセージクローリングエンジンを実装する。いくつかの例では、電子メッセージクローリングエンジンは、ユーザの電子メッセージの「From:」というヘッダフィールド及び「Subject:」というヘッダフィールドを解析し、生成されたフィルタ(例えば、正規表現フィルタ)のうちの1つ以上を解析された結果に適用して、対象の送信者に対応する購入関連ヘッダを識別する。その後、電子メッセージクローリングエンジンは、識別された購入関連ヘッダに対応する完全な電子メッセージを検索する。いくつかの例では、各フィルタは、1つ以上の電子メッセージ本文抽出パーサのそれぞれのセットに関連付けられる。これらの例では、そのセット内の電子メッセージのうちのそれぞれ1つに一致する各フィルタに関して、コンピュータ装置は、一致したフィルタに関連付けられた1つ以上の電子メッセージ本文抽出パーサを用いて電子メッセージ本文を解析することを試みる。メッセージ本文抽出パーサの例は、米国特許第8,844,010号、米国特許第9,563,915号及び米国特許第9,563,904号に記載されている。
図7は、メッセージフィルタを構築するシステム118の例の説明図である。システム118は、ネットワークノード間で送信され、それぞれのメッセージサーバ(例えば、メッセージプロバイダ1、メッセージプロバイダ2、...、メッセージプロバイダM)によって管理される1つ以上のネットワークデータストレージシステム122、124、126において各ユーザアカウント(例えば、alice、bob、clark、dan、eric、peter、及びrob)に関連付けられて記憶されている電子メッセージの集合を処理する。
システム118は、1人以上の送信者の各々につき、送信者に関連付けられ、複数のユーザアカウントにわたってネットワークデータストレージシステム122~126のうちの1つ以上に記憶されている電子メッセージの集合内のヘッダのそれぞれのサンプルをフェッチするヘッダサンプラ120を有する。送信者に関連付けられている全てのヘッダをフェッチするのではなく、利用可能なヘッダのサンプルのみをフェッチすることにより、ヘッダサンプラ120は、処理リソース、データストレージリソース、ネットワークリソース、及び、電子メッセージフィルタを作るのに必要な生成回数を削減することでコンピュータ装置の動作を向上させる。他の例では、ヘッダサンプラ120は、送信者ドメインにわたるヘッダのサンプルをフェッチする。
プリプロセッサ128は、ヘッダをクラスタに分ける前に電子メッセージヘッダのフェッチされたサンプル内の件名フィールドの前処理を行う。いくつかの例では、プリプロセッサ128は、図6の方法について上述のフェッチプロセスに関して上述した前処理ステップのうちの1つ以上を実行する。いくつかの例では、プリプロセッサ122はまた、同一の件名フィールドコンテンツを有する全てのヘッダを単一のインスタンスとして扱うことによりヘッダデータの重複を取り除く。このようにして、プリプロセッサ128は、処理リソース、データストレージリソース、ネットワークリソース、及び電子メッセージフィルタを構築するのに必要な生成回数を更に削減する。
クラスタエンジン130は、送信者ドメインによりサンプル内の前処理されたヘッダをクラスタに分ける。いくつかの例では、グループ分けは、クラスタを、クラスタリングデータ空間内のそれぞれの密な領域と関連付ける密度ベースのクラスタリングプロセスに基づく。クラスタリングデータ空間内では、前処理されたヘッダは、前処理されたヘッダのそれぞれのペア間の類似度に基づいて互いに離れている。いくつかの例では、フェッチされたヘッダのそれぞれのペア間の類似度は、電子メッセージのヘッダ内の内容の類似度及び相違度を比較する内容類似度の基準に基づいて求められる。比較される一例としてのヘッダ内容は、件名フィールド及び送信者メッセージアドレス内のテキスト(例えば、文字列、nグラム、及び/又は語)を含む。これらの例のうちのいくつかでは、2つのヘッダの件名フィールドの類似度は、ジャッカード類似度係数を用いて測定される。ジャッカード類似度係数は、両ヘッダの類似度を、件名フィールド内のバイグラムの共通部分のサイズを和集合のサイズで割った結果に基づいて測るものである。
図8に示すように、前処理されたヘッダの各ペア間で計算される類似度スコアは、ヘッダが、クラスタリングデータ空間132内で互いにどれほど近接しているかを定めるものである。いくつかの例では、クラスタリングプロセスは、グラフ内で接続される要素を特定することを含む。それらの接続類似度スコアが類似度閾値レベルよりも大きい場合、(ヘッダを表す)円形ノード間には関連性がある。図8は、前処理された20個のヘッダのサンプルを、(破線で囲まれて示されている)12個のクラスタに分けた例を示している。
図9に、変えられる類似度閾値を用いた代替的なクラスタリングプロセスを示す。これは、複数の送信者によって生成される機械生成の電子メッセージ内のそれぞれの可変性を本質的に表す、ヘッダ間の関連性の最適なセットを反復的に求めるためのものである。
クラスタリングプロセスは、現在の類似度閾値レベルを類似度閾値の初期値Tに設定することで開始する(図9、ブロック140)。いくつかの例では、類似度閾値は、ジャッカード類似度基準に対応する。いくつかの例では、類似度閾値の初期値Tは、0から1の類似度尺度に関して初期レベルに設定される。いくつかのこれらの例では、類似度閾値の初期値Tは、0.6≦T≦0.8の範囲である。
次に、サンプル内のヘッダは、現在の閾値レベルTに基づいてセットC内のクラスタに分けられ(図9、ブロック142)、セットC内の分けられたクラスタのセット内のクラスタの数Nが記憶される(図9、ブロック144)。いくつかの例では、ヘッダを分類するプロセスは、それぞれのメッセージヘッダの件名フィールド内のテキスト(例えば、文字列、nグラム、及び/又は単語)の比較に基づいて、フェッチされたメッセージヘッダのそれぞれのペア間の類似度スコアを計算することと、計算された類似度スコアと現在の閾値レベルとの比較に基づいて、フェッチされたヘッダをクラスタに分けることとを含む。
プロセスの第2回目の反復は、別の閾値Tを用いて繰り返される(図9、ブロック146、148、142、144)。いくつかの例では、各反復につき、現在の閾値は、それまでの閾値よりも小さい。閾値のセット{T}は、(例えば、数式又はアルゴリズムに基づいて)動的に定めることができるか、前もって定めておくことができる。いくつかの例では、所定の値(例えば、0から1の類似度尺度において0.1)だけ、それまでの閾値をデクリメントすることによって、一連の閾値の各々が求められる。
クラスタリングプロセスの第2回目の反復において、サンプル内のヘッダは、現在の閾値レベルTに基づいてクラスタのセットCに再び分けられ(図9、ブロック142)、分けられたクラスタCのセット内のクラスタ数Nが記憶される(図9、ブロック144)。独自の件名のヘッダからなるC内のクラスタが識別され、独自の件名のヘッダからなるC内の全ての識別されたヘッダ数Mが求められる(図9、ブロック150)。いくつかの例では、件名がクラスタ内の他のヘッダの件名と共通する単語を一切含まない場合、ヘッダは、独自の件名を有していると判断される。他の例では、独自の件名フィールドラインは、クラスタ内のヘッダの件名フィールドライン内の文字列又はnグラムの間の比較等、件名フィールドコンテンツの他のテキストベースの比較に基づいて識別される。
独自の件名を有するヘッダからなるクラスタ内のヘッダ数Mが、閾値MTHよりも大きい場合(図9、ブロック152)、独自の件名の数が多すぎると見なされ、複数のクラスタのうちの先行するセット内のクラスタ(すなわち、Ci-1)が、ヘッダの現在のサンプルの出力クラスタセット160として、クラスタエンジン130から返される(図9、ブロック156)。また、現在の反復におけるクラスタ数N及び先行する反復におけるクラスタ数Ni-1が、類似度基準を満たす場合(図9、ブロック152)、クラスタの数は収束したと見なされ、複数のクラスタのうち、前回のセット内のクラスタ(すなわち、Ci-1)が、ヘッダの現在のサンプルの出力クラスタセット160として、クラスタエンジン130により返される(図9、ブロック156)。
いくつかの例では、類似度の基準は、現在のクラスタ数及び先行するクラスタ数の間の差の比を、先行する反復におけるクラスタの数と比較する。いくつかのこれらの例では、類似度基準は、以下の式に対応する。
Figure 0007069220000001
ブロック152及びブロック154におけるテストがいずれも満たされない場合、クラスタリングプロセスの別の反復が、次のクラスタリング閾値を用いて繰り返される(図9、ブロック148)。
図7を再び参照すると、クラスタエンジン130が、ヘッダのサンプルをクラスタ160に分類した後、電子メッセージサンプラ162は、各ヘッダクラスタ160内のヘッダのそれぞれのサンプルを選択し、メッセージプロバイダから、選択されたヘッダに関連付けられている完全な電子メッセージ164を取得する。その結果は、ヘッダ160の各クラスタiに関する電子メッセージ164のそれぞれのサンプルiである。
電子メッセージ164の各サンプルiに関して、電子メッセージ分類器166は、サンプル内の要素の電子メッセージの各々を分類する。いくつかの例では、電子メッセージ分類器166は、図4及び図6に関して上述したタイプの機械学習分類器である。機械学習分類器は、ラベル及び関連付けられた信頼度のそれぞれのセット168を、各サンプル内の電子メッセージ164に割り当てる。いくつかの例では、特定の電子メッセージの予測されたラベルが、信頼度閾値未満であるとの判断に応じて、コンピュータ装置は、手動の分類用として特定の電子メッセージにフラグを付ける(図7、ブロック170)。いくつかの例では、手動でラベル付けがされた電子メッセージを用いて、電子メッセージ分類器166に学習させる。
いくつかの例では、クラスタ分類ルールは、コンピュータ装置に対し、同じラベルを割り当てられた対応するサンプル内の電子メッセージの数、及び、割り当てられたラベルに関連付けられた信頼度などの1つ以上の信頼因子に基づく特定のラベルを用いてクラスタにラベル付けするように命令する。いくつかの例では、信頼因子が、1つ以上の信頼閾値を満たさない場合(図7、ブロック172)、クラスタ内の電子メッセージは、手動分類用としてのフラグが付けられる(図7、ブロック170)。
それぞれの購入関連ラベルが割り当てられた各クラスタに関して(図7、ブロック174)、コンピュータ装置は、購入関連電子メッセージをフィルタリングするそれぞれのフィルタ175を自動的に生成する(図7、ブロック176)。
図示の例では、あるクラスタに各購入関連ラベルが割り当てられない場合(図7、ブロック174)、コンピュータ装置は、ヘッダ160の次のクラスタに関する電子メッセージ164の次のサンプルi=i+1を処理することに直接進む(図7、ブロック177)。このプロセスでは、コンピュータ装置は、次のサンプルi=i+1内の構成要素の電子メッセージの分類に基づいてクラスタラベリングプロセスを繰り返す(図7、ブロック166~172)。
代替的な例では、電子メッセージ164の次のサンプルi=i+1を処理することに直接進む(図7、ブロック177)のではなく、コンピュータ装置は、購入関連ラベルが割り当てられていない各クラスタに関して、非商品購入関連電子メッセージをフィルタリングするそれぞれのフィルタ179を自動的に生成する(図7、ブロック178)。これらの例のうちのいくつかでは、非商品購入関連電子メッセージフィルタ179は、ヘッダサンプラ120の構成要素(図7に示されている)又は別個のプリフィルタの部分として、メッセージフィルタ構築システム118のフロントエンドに設けられる(インストールされる)。非商品購入関連電子メッセージフィルタ179を用いて、ヘッダサンプラ120によってフェッチされた非商品購入関連電子メッセージのヘッダを取り除く。このようにして、それまでに識別された非商品購入関連電子メッセージに対応するヘッダを有する電子メッセージを取り除き、処理リソース、データストレージリソース、ネットワークリソース、及び、購入関連電子メッセージフィルタを構築するのに必要な生成回数を更に削減することができる。
図10に、図7のメッセージフィルタ構築システム118の要素が組み込まれ、さらに、フェッチされたヘッダデータのサンプルからフィルタを構築する反復プロセスを実装したメッセージフィルタ構築システム180の一例を示す。
この例では、ヘッダサンプラ120は、1人以上の送信者の各々につき、送信者に関連付けられ、複数のユーザアカウントにわたってネットワークデータストレージシステム122~126のうちの1つ以上において記憶されている電子メッセージの集合内のヘッダの各サンプルをフェッチする。他の例では、ヘッダサンプラ120は、送信者ドメインにわたってヘッダのサンプルをフェッチする。プリプロセッサ128は、ヘッダをクラスタに分ける前に、電子メッセージヘッダのフェッチされたサンプル内の件名フィールドの前処理をする。クラスタエンジン130は、クラスタを、クラスタリングデータ空間内のそれぞれの密な領域と関連付ける密度ベースのクラスタリングプロセスに基づいて、前処理されたヘッダをクラスタ160に分ける。クラスタリングデータ空間内では、前処理されたヘッダは、前処理されたヘッダのそれぞれのペア間の類似度に基づいて互いに離れている。購入関連ラベルが割り当てられたヘッダクラスタ160の各セットiに関して、コンピュータ装置は、図7に関して上述した方法に従って、購入関連電子メッセージをフィルタリングするフィルタのそれぞれのセットiを自動的に生成する(例えば、図7、ブロック176を参照)。
フィルタ構築プロセスの第1回目の反復において、メッセージフィルタ構築システム180は、送信者に関連付けられたヘッダのそれぞれの第1のサンプルから、各送信者に関するフィルタのそれぞれの第1のセット(すなわち、{フィルタセットi})を構築する。
このプロセスは、各送信者に関する電子メッセージ集合内のヘッダのそれぞれの第2のサンプルに関して繰り返される。フィルタ構築プロセスのこの第2の反復では、メッセージフィルタ構築システム180は、送信者に関連付けられたヘッダのそれぞれの第2のサンプルから、各送信者に関するフィルタのそれぞれの第2のセット(すなわち、{フィルタセットi+1})を構築する。
フィルタ結果は、送信者ごとに比較される(図10、ブロック182)。このプロセスにおいて、コンピュータ装置は、各送信者に関して、当該送信者に対応する集合内の全てのヘッダのそれぞれのセットを検索する(図10、ブロック183)。送信者に関するフィルタのそれぞれの第1のセット及び第2のセット(すなわち、{フィルタセットi}及び{フィルタセットi+1})は、その後、{フィルタ結果i}及び{フィルタ結果i+1}を生成するために、送信者に対応する集合内の全てのヘッダのそれぞれのセットに適用される。
フィルタリング結果が似ている場合(図10、ブロック184)、フィルタ構築プロセスは終了する(図10、ブロック186)。いくつかの例では、フィルタの第1のセット及び第2のセット内のどのフィルタにも一致しない、ヘッダの完全なセット内で検索されたヘッダの数の比較に基づいて、第1のフィルタリング結果と第2のフィルタリング結果との類似度が求められる。フィルタの第1のセット及び第2のセットに一致しないヘッダの数が類似している場合、フィルタのセットは十分類似であると見なされ、フィルタ構築プロセスは終了する(図10、ブロック186)。
フィルタ結果が似ていない場合(図10、ブロック184)、フィルタ構築プロセスは、以下のように続く。いくつかの例では、比較されたフィルタセット間で共有されるフィルタが、電子メッセージのフィルタリングで用いるためにメモリ188内に保存される(図10、ブロック190)。前のヘッダサンプルサイズを増やし(図10、ブロック192)、各送信者に関するヘッダのより大きいそれぞれのサンプルを用いて、フィルタ構築プロセスの別の反復が実行される(図10、ブロック194)。
図11に、ヘッダクラスタ198のためのフィルタを生成するプロセスを示す。いくつかの例では、コンピュータ装置は、各購入関連クラスタ(例えば、購入関連ラベルによりラベル付けされた各クラスタ)について本プロセスを実行する(図11、ブロック200)。コンピュータ装置は、クラスタ198内の全てのヘッダの件名内に各バイグラムが合計何回現れるかを数える(図11、ブロック202)。コンピュータ装置は、クラスタ198からヘッダを選択する(図11、ブロック204)。選択されたヘッダの件名フィールド内の各バイグラムに関して、コンピュータ装置は、バイグラムがヘッダの件名フィールド内に現れる頻度についてのそれぞれの基準を求める(図11、ブロック206)。そのような頻度基準の例として、バイグラムを含む件名フィールドの数を、バイグラムを含まない件名フィールドの数で割った比と、バイグラムを含む件名フィールドの数を件名フィールドの合計数で割ることによる割合と、バイグラムを含む件名フィールドが件名フィールド内に現れる頻度の比とを含む。コンピュータ装置は、閾値(例えば、80%)を満たすそれぞれの頻度基準に関連付けられた選択されたヘッダ内のバイグラムの各々を組み込むことによって、クラスタのフィルタを構築する(図11、ブロック208)。コンピュータ装置は、クラスタのフィルタに組み込まれたバイグラムのセットが収束したか否かを判断する(図11、ブロック210)。いくつかの例では、バイグラムのセットは、最後の反復において変化しなかった場合に、収束したと見なされる。バイグラムのセットが収束した場合(図11、ブロック210)、セット内のバイグラムは、クラスタのフィルタに変換される(図11、ブロック212)。いくつかの例では、バイグラムは、フィルタを定める1つ以上の正規表現に変換される。バイグラムのセットが収束していない場合(図11、ブロック210)、このプロセスは、クラスタ198から選択された別のヘッダに関して繰り返される(図11、ブロック204~210)。
図11のフィルタ構築プロセスの他の例では、バイグラムを使う代わりに、ヘッダ件名フィールドの解析が、件名フィールド内に現れる文字列、nグラム、及び単語を含む、他のテキストの特徴に対して行われる。
[III.コンピュータ装置の例]
コンピュータ装置は、本明細書において説明したプロセスの機能を実行する改良された処理システムを提供できるようにプログラミングされる。いくつかの例では、電子メッセージフィルタを構築するプロセス及び1つ以上の電子メッセージフィルタで電子メッセージをフィルタリングするプロセスは、別個のかつ異なるコンピュータ装置によって実行される。他の例では、同じコンピュータ装置が、これらのプロセスを実行する。
図12に、コンピュータシステム320によって実装されるコンピュータ装置の一例示の実施形態を示す。コンピュータシステム320は、処理ユニット322と、システムメモリ324と、処理ユニット322をコンピュータシステム320の様々な要素に接続するシステムバス326とを備えている。処理ユニット322は、1つ以上のデータプロセッサを含むことができ、それらのデータプロセッサの各々は、様々な市販のコンピュータプロセッサのうちの任意の1つの形態とすることができる。システムメモリ324は、通常、ソフトウェアアプリケーションに利用可能なアドレスを規定するソフトウェアアプリケーションアドレス指定空間に関連付けられた1つ以上のコンピュータ可読媒体を含む。システムメモリ324は、コンピュータシステム320の起動ルーチンを含む基本入出力システム(BIOS)を記憶する読み出し専用メモリ(ROM)と、ランダムアクセスメモリ(RAM)とを備えることができる。システムバス326は、メモリバス、周辺バス又はローカルバスとすることができ、PCI、VESA、Microchannel(マイクロチャネル)、ISA、及びEISAを含む様々なバスプロトコルのうちの任意のものと互換性を有することができる。コンピュータシステム320は、永続的記憶メモリ328(例えば、ハードドライブ、フロッピードライブ、CD-ROMドライブ、磁気テープドライブ、フラッシュメモリデバイス、及びデジタルビデオディスク)も備える。この永続的記憶メモリは、システムバス326に接続され、データ、データ構造体及びコンピュータ実行可能命令の不揮発性記憶装置又は永続的記憶装置を提供する1つ以上のコンピュータ可読媒体ディスクを含む。
ユーザは、1つ以上の入力デバイス330(例えば、1つ以上のキーボード、コンピュータマウス、マイクロフォン、カメラ、ジョイスティック、物理運動センサ、及びタッチパッド)を用いて、コンピュータシステム320と対話する(例えば、コマンド又はデータを入力する)ことができる。情報は、表示コントローラ334によって制御される表示モニタ332上でユーザに提示されるグラフィカルユーザインタフェース(GUI)を通じて提示することができる。コンピュータシステム320は、他の入出力ハードウェア(例えば、スピーカ及びプリンタ等の周辺出力デバイス)も備えることができる。コンピュータシステム320は、ネットワークアダプタ336(「ネットワークインタフェースカード」又はNICともいう)を通じて他のネットワークノードに接続する。
複数のプログラムモジュールは、システムメモリ324内に記憶することができ、これらのモジュールは、アプリケーションプログラミングインタフェース338(API)、オペレーティングシステム(OS)340(例えば、Microsoft Corporation社(米国ワシントン州レドモンド所在)から入手できるWindows(登録商標)オペレーティングシステム)、電子メッセージフィルタを構築するプロセス及び電子メッセージフィルタで電子メッセージをフィルタリングするプロセスのうちの1つ以上を実行するようにコンピュータシステム320をプログラミングする1つ以上のソフトウェアアプリケーションを含むソフトウェアアプリケーション341、ドライバ342(例えば、GUIドライバ)、ネットワークトランスポートプロトコル344、及びデータ346(例えば、入力データ、出力データ、プログラムデータ、レジストリ、及び構成設定)を含む。
開示対象のシステム、方法、プロセス、機能的動作、及び論理フローを含む本明細書において説明された主題の例は、入力を操作し、出力を生成することによって機能を実行するように動作可能なデータ処理装置(例えば、コンピュータハードウェア及びデジタル電子回路)に実装することができる。また、本明細書において説明された主題の例は、データ処理装置による実行のために、1つ以上の有形で非一時的な搬送媒体(例えば、機械可読型記憶デバイス、基板、又はシーケンシャルアクセスメモリデバイス)上で符号化されるコンピュータ命令のうちの1つ以上のセットとして、ソフトウェア又はファームウェアに有形なものとして具現化することができる。
本明細書において説明された特定の実施態様の詳細は、特定の発明の特定の実施形態に特有のものである場合があり、特許請求される任意の発明の範囲を限定するものとみなされるべきではない。例えば、別々の実施形態に関して説明された特徴は、単一の実施形態にも組み込むことができ、単一の実施形態に関して説明された特徴は、複数の別個の実施形態内でも実施することができる。さらに、特定の順序で実行されるステップ、タスク、動作、又はプロセスの開示は、必ずしも、ステップ、タスク、動作、又はプロセスがその特定の順序で実行されることを必要とはせず、むしろ、いくつかの場合では、開示されているステップ、タスク、動作、及びプロセスのうちの1つ以上は、異なる順序で、又は複数のタスクスケジュールに従って、又は並行して実行することができる。
[IV.結論]
本明細書において説明された実施形態によれば、購入関連電子メッセージフィルタを構築し、購入関連電子メッセージをフィルタリングする改良されたシステム、方法、及びコンピュータ可読媒体が提供される。
他の実施形態も、特許請求の範囲に含まれる。

Claims (20)

  1. ネットワークノード間で送信され、1以上のメッセージサーバによって管理される1以上のネットワークデータストレージシステムにおいて各ユーザアカウントに関連付けられて記憶される電子メッセージの集合をクライアントネットワークノードがフィルタリングする方法であって、
    各電子メッセージは、送信者とヘッダと本文とに関連付けられており、
    前記クライアントネットワークノードが、1以上の前記メッセージサーバから、複数の前記ユーザアカウントにわたって、1以上の前記ネットワークデータストレージシステムに記憶されている前記集合内のヘッダをフェッチするステップと、
    前記クライアントネットワークノードが、1以上の送信者の各々につき、当該送信者に関連付けられているフェッチされたヘッダを、クラスタをクラスタリングデータ空間内の密な各領域と関連付ける密度ベースのクラスタリングプロセスに基づいて、前記クラスタにグループ化するステップであって、前記クラスタリングデータ空間において、フェッチされた複数の前記ヘッダは、フェッチされた前記ヘッダの各ペア間の類似度に基づいて互いに離れている、ステップと、
    1以上の前記クラスタの各々につき、
    前記クライアントネットワークノードが、1以上の前記メッセージサーバから、当該クラスタ内のフェッチされたヘッダに関連付けられ、1以上の前記ネットワークデータストレージシステムに記憶されている前記集合内の前記電子メッセージの各サンプルを取得し、
    機械学習分類器により、1以上の購入関連ラベルと、関連する信頼度とを含む所定のラベルセット内の各ラベルを用いて、取得された前記サンプル内の各電子メッセージを分類し、当該クラスタについての各分類データセットを生成し、
    各分類データセットを各クラスタラベルにマッピングする少なくとも1つのクラスタ分類ルールに基づいて、前記所定のラベルセットから選択される各クラスタラベルを当該クラスタに割り当てるステップと、
    前記クライアントネットワークノードが、購入関連ラベルの1つが割り当てられた1以上のクラスタの各々につき、購入関連電子メッセージをフィルタリングする各フィルタを自動的に生成するステップと、
    前記クライアントネットワークノードが、1以上のメッセージサーバによって管理される1以上のネットワークデータストレージシステムにおいて各ユーザアカウントに関連付けられて記憶されている電子メッセージの集合から購入関連の電子メッセージを選択するために、少なくとも1つのネットワーク通信チャネルに1以上の前記フィルタを設けるステップと
    を含む方法。
  2. 前記グループ化は、
    各メッセージヘッダの件名フィールド内の文字列の比較に基づいて、フェッチされたメッセージヘッダの各ペア間の類似度スコアを計算するステップと、
    計算された前記類似度スコアに基づいて、フェッチされたヘッダをクラスタにグループ化するステップと
    を含む、請求項1に記載の方法。
  3. 前記グループ化は、フェッチされた前記メッセージヘッダのクラスタを生成するために、計算された前記類似度スコアに類似度閾値を適用するステップを含む、請求項2に記載の方法。
  4. 前記グループ化は、
    前記類似度閾値を反復的に調整するステップと、
    前記クラスタの数が収束したと判定されるまで、調整された前記類似度閾値に基づいて、フェッチされた前記メッセージヘッダをクラスタにグループ化するステップと
    を含む、請求項3に記載の方法。
  5. 前記調整は、初期の類似度閾値の値から徐々に小さくなるように前記類似度閾値を調整するステップを含む、請求項4に記載の方法。
  6. 前記調整の少なくとも1回の反復につき、前記グループ化は、各クラスタ内のヘッダが共通した語を有することを要件とするステップを含む、請求項4に記載の方法。
  7. 前記グループ化は、前記サンプル内のヘッダに関連付けられている本文とは無関係に行われる、請求項1に記載の方法。
  8. 取得される電子メッセージの各サンプルは、所定数の電子メッセージから構成される、請求項1に記載の方法。
  9. 各電子メッセージの分類は、前記電子メッセージにそれぞれ関連付けられているヘッダ及び本文の内容に基づくものである、請求項1に記載の方法。
  10. 前記所定のラベルセットは、
    電子メッセージを受取りとして分類する第1のラベルと、
    電子メッセージを受取りではないものとして分類する第2のラベルと
    を含むものである、請求項1に記載の方法。
  11. 各フィルタの生成は、
    各クラスタ内のヘッダに共通する部分文字列を特定するステップと、
    特定された前記部分文字列に基づいて各フィルタを生成するステップと
    を含む、請求項1に記載の方法。
  12. 各フィルタの生成は、
    各クラスタ内のヘッダに現れる各バイグラムの数を求めるステップと、
    顕著な数に関連する1以上のバイグラムを各フィルタルールに組み込むステップと
    を含む、請求項11に記載の方法。
  13. 各フィルタルールは、電子メッセージ内の件名フィールド文字列の各セットについての照合パターンを定めるものである、請求項11に記載の方法。
  14. 前記設けるステップは、前記クライアントネットワークノードと、1以上の前記メッセージサーバとの間に1以上の前記フィルタを設けるステップを含む、請求項1に記載の方法。
  15. 各フィルタは、1以上の抽出パーサの各セットに関連付けられ、
    前記クライアントネットワークノードが、前記セット内の各電子メッセージと照合される各フィルタにつき、前記電子メッセージを、照合されたフィルタに関連付けられている1つ以上の前記抽出パーサを用いて解析しようとするステップを更に含む請求項1に記載の方法。
  16. ネットワークノード間で送信され、1以上のメッセージサーバによって管理される1以上のネットワークデータストレージシステムにおいて各ユーザアカウントに関連付けられて記憶されている電子メッセージの集合をフィルタリングするフィルタを生成する装置であって、
    各電子メッセージは、送信者とヘッダと本文とに関連付けられており、
    前記装置は、プロセッサ可読型命令を記憶するメモリと、前記メモリに接続され、前記命令を実行し、前記命令の実行に少なくとも部分的に基づいて処理を行うプロセッサとを有し、
    前記処理は、
    1以上の前記ネットワークデータストレージシステムから前記集合内のヘッダをフェッチするステップと、
    1以上の送信者の各々につき、フェッチされたヘッダをクラスタにグループ化するステップであって、前記グループ化は、いずれのメッセージ本文の内容とは無関係に、前記クラスタ内のヘッダ間の類似度に基づいて、フェッチされた各ヘッダを前記クラスタに割り当てるステップを含む、ステップと、
    1以上の前記クラスタの各々につき、
    1以上の前記ネットワークデータストレージシステムから、フェッチされ前記クラスタに割り当てられたヘッダに関連付けられている1以上の電子メッセージのサンプルを取得し、
    機械学習分類器により、前記サンプル内の1以上の取得された電子メッセージのヘッダ及び本文の内容に基づいて、受取りに関係するもの又は受取りに関係しないものとして前記クラスタを指定するステップと、
    受取りに関係するものとして指定された1以上の前記クラスタの各々につき電子メッセージフィルタを自動的に生成するステップであって、各電子メッセージフィルタは、電子メッセージのヘッダの件名フィールド文字列の各パターンを照合する各ルールを定めるものである、ステップと
    を含むものである、装置。
  17. 前記グループ化は、
    類似度閾値を反復的に調整するステップと、
    前記クラスタの数が収束したと判定されるまで、調整された前記類似度閾値に基づいて、フェッチされた前記ヘッダをクラスタにグループ化するステップと
    を含む、請求項16に記載の装置。
  18. 前記プロセッサは、前記命令の実行に少なくとも部分的に基づき、
    1以上のメッセージサーバによって管理される1以上のネットワークデータストレージシステムにおいて各ユーザアカウントに関連付けられて記憶されている電子メッセージのセットから購入関連の電子メッセージを選択するために、少なくとも1つのネットワーク通信チャネルに1以上の前記フィルタを設けるステップを更に含む処理を実行する、請求項16に記載の装置。
  19. 前記フェッチは、前記送信者に関連付けられ、複数の前記ユーザアカウントにわたって、1以上の前記ネットワークデータストレージシステムに記憶されている前記集合内のヘッダのサンプルのフェッチを含む、請求項16に記載の装置。
  20. ネットワークノード間で送信され、1以上のメッセージサーバによって管理される1以上のネットワークデータストレージシステムにおいて各ユーザアカウントに関連付けられて記憶されている電子メッセージの集合を処理する方法を実施するためにクライアントネットワークノードによって実行されるプログラムであって、
    各電子メッセージは、送信者とヘッダと本文とに関連付けられており、
    前記方法は、
    クライアントネットワークノードが、1以上の前記メッセージサーバから、複数の前記ユーザアカウントにわたって、1以上の前記ネットワークデータストレージシステムに記憶されている前記集合内のヘッダをフェッチするステップと、
    1以上の送信者の各々につき、当該送信者に関連付けられているフェッチされたヘッダを、クラスタをクラスタリングデータ空間内の密な各領域と関連付ける密度ベースのクラスタリングプロセスに基づいて、前記クラスタにグループ化するステップであって、前記クラスタリングデータ空間において、フェッチされた複数の前記ヘッダは、フェッチされた前記ヘッダの各ペア間の類似度に基づいて互いに離れている、ステップと、
    1以上の前記クラスタの各々につき、
    クライアントネットワークノードが、1以上の前記メッセージサーバから、当該クラスタ内のフェッチされたヘッダに関連付けられ、1以上の前記ネットワークデータストレージシステムに記憶されている前記集合内の前記電子メッセージの各サンプルを取得し、
    機械学習分類器により、1以上の購入関連ラベルと、関連する信頼度とを含む所定のラベルセット内の各ラベルを用いて、取得された前記サンプル内の各電子メッセージを分類し、当該クラスタについての各分類データセットを生成し、
    各分類データセットを各クラスタラベルにマッピングする少なくとも1つのクラスタ分類ルールに基づいて、前記所定のラベルセットから選択される各クラスタラベルを当該クラスタに割り当てるステップと、
    購入関連ラベルの1つが割り当てられた1以上のクラスタの各々につき、購入関連電子メッセージをフィルタリングする各フィルタを自動的に生成するステップと
    を含むものである、プログラム。
JP2019563534A 2017-05-17 2018-05-01 電子メッセージのフィルタリング Active JP7069220B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022076161A JP7440565B2 (ja) 2017-05-17 2022-05-02 電子メッセージのフィルタリング

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/597,404 US10447635B2 (en) 2017-05-17 2017-05-17 Filtering electronic messages
US15/597,404 2017-05-17
PCT/US2018/030496 WO2018212989A1 (en) 2017-05-17 2018-05-01 Filtering electronic messages

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2022076161A Division JP7440565B2 (ja) 2017-05-17 2022-05-02 電子メッセージのフィルタリング

Publications (3)

Publication Number Publication Date
JP2020520609A JP2020520609A (ja) 2020-07-09
JP2020520609A5 JP2020520609A5 (ja) 2021-07-26
JP7069220B2 true JP7069220B2 (ja) 2022-05-17

Family

ID=64272662

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2019563534A Active JP7069220B2 (ja) 2017-05-17 2018-05-01 電子メッセージのフィルタリング
JP2022076161A Active JP7440565B2 (ja) 2017-05-17 2022-05-02 電子メッセージのフィルタリング

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2022076161A Active JP7440565B2 (ja) 2017-05-17 2022-05-02 電子メッセージのフィルタリング

Country Status (4)

Country Link
US (2) US10447635B2 (ja)
EP (1) EP3625934B1 (ja)
JP (2) JP7069220B2 (ja)
WO (1) WO2018212989A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11574287B2 (en) * 2017-10-10 2023-02-07 Text IQ, Inc. Automatic document classification
US10083441B1 (en) 2017-12-20 2018-09-25 Capital One Services, Llc Processing messages for attribute-value pair extraction
US20200265379A1 (en) * 2019-01-18 2020-08-20 Route App Llc Systems, methods, and interfaces for transaction aggregation, management, and visualization
US11568169B2 (en) * 2019-04-28 2023-01-31 International Business Machines Corporation Identifying data drifts that have an adverse effect on predictors
US11108710B2 (en) 2020-01-28 2021-08-31 Verizon Media Inc. Computerized system and method for multi-factor message classification and delivery
US20220036298A1 (en) * 2020-07-30 2022-02-03 Shopify Inc. Systems and methods for obtaining information from a digital message
US20220215345A1 (en) * 2021-01-07 2022-07-07 Verizon Media Inc. Computerized system and method for multi-class, multi-label classification of electronic messages
US20220382723A1 (en) * 2021-05-26 2022-12-01 Vmware, Inc. System and method for deduplicating data using a machine learning model trained based on transfer learning
US11611527B1 (en) 2021-11-09 2023-03-21 State Farm Mutual Automobile Insurance Company Systems and methods for multiple channel message handling and routing

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006252242A (ja) 2005-03-11 2006-09-21 Fuji Xerox Co Ltd 電子メッセージ分析装置および方法
JP2011507092A (ja) 2007-12-13 2011-03-03 サムスン エレクトロニクス カンパニー リミテッド マルチメディア電子メール合成装置及びその方法
WO2011048672A1 (ja) 2009-10-21 2011-04-28 三菱電機株式会社 データ処理装置及びデータ処理方法及びプログラム
US20120047014A1 (en) 2010-08-23 2012-02-23 Yahoo! Inc. Method and system for using email receipts for targeted advertising
JP2013519165A (ja) 2010-02-03 2013-05-23 アルコード コーポレーション 電子メッセージシステムと方法
US20130268839A1 (en) 2012-04-06 2013-10-10 Connexive, Inc. Method and Apparatus for Inbound Message Summarization
US20150235166A1 (en) 2011-07-19 2015-08-20 Slice Technologies, Inc. Extracting purchase-related information from electronic messages
US20150269242A1 (en) 2014-03-20 2015-09-24 Tata Consultancy Services Limited Email analytics
US20160110763A1 (en) 2014-10-21 2016-04-21 Slice Technologies, Inc. Extracting product purchase information from electronic messages
US20160328097A1 (en) 2014-05-22 2016-11-10 Yandex Europe Ag E-mail interface and method for processing e-mail messages

Family Cites Families (177)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7082426B2 (en) 1993-06-18 2006-07-25 Cnet Networks, Inc. Content aggregation method and apparatus for an on-line product catalog
US5664109A (en) 1995-06-07 1997-09-02 E-Systems, Inc. Method for extracting pre-defined data items from medical service records generated by health care providers
US5897622A (en) 1996-10-16 1999-04-27 Microsoft Corporation Electronic shopping and merchandising system
US7904333B1 (en) 1996-10-25 2011-03-08 Ipf, Inc. Web-based electronic commerce (EC) enabled shopping network configured to allow members of a consumer product management team and authorized parties to communicate directly with consumers shopping at EC-enabled websites along the world wide web (WWW), using multi-mode virtual kiosks (MMVKS) driven by server-side components and managed by product team members
US5864848A (en) 1997-01-31 1999-01-26 Microsoft Corporation Goal-driven information interpretation and extraction system
US6604086B1 (en) 1998-07-20 2003-08-05 Usa Technologies, Inc. Electronic commerce terminal connected to a vending machine operable as a telephone
US7197534B2 (en) 1998-09-01 2007-03-27 Big Fix, Inc. Method and apparatus for inspecting the properties of a computer
US6453347B1 (en) 1999-10-29 2002-09-17 Mcafee.Com, Inc. Active marketing based on client computer configurations
US6981040B1 (en) 1999-12-28 2005-12-27 Utopy, Inc. Automatic, personalized online information and product services
US20040220926A1 (en) 2000-01-03 2004-11-04 Interactual Technologies, Inc., A California Cpr[P Personalization services for entities from multiple sources
WO2001063486A2 (en) 2000-02-24 2001-08-30 Findbase, L.L.C. Method and system for extracting, analyzing, storing, comparing and reporting on data stored in web and/or other network repositories and apparatus to detect, prevent and obfuscate information removal from information servers
EP1139264A3 (en) 2000-03-29 2002-08-21 Ford Motor Company Order status inquiry and tracking
US20050177785A1 (en) 2000-05-25 2005-08-11 Shrader Theodore J.L. Client-side pricing agent for collecting and managing product price information over the internet
JP2002014681A (ja) 2000-06-28 2002-01-18 Pioneer Electronic Corp 情報提供システム
US20020046248A1 (en) 2000-10-13 2002-04-18 Honeywell International Inc. Email to database import utility
EP1199652A1 (en) 2000-10-16 2002-04-24 Mail Morph Limited Email processing
US6772130B1 (en) 2000-11-22 2004-08-03 Pitney Bowes Inc. Method for parcel tracking on the internet with e-mail notification
US8230323B2 (en) 2000-12-06 2012-07-24 Sra International, Inc. Content distribution system and method
ES2261527T3 (es) 2001-01-09 2006-11-16 Metabyte Networks, Inc. Sistema, procedimiento y aplicacion de software para publicidad dirigida mediante una agrupacion de modelos de comportamiento, y preferencias de programacion basadas en grupos de modelos de comportamiento.
WO2002082318A2 (en) 2001-02-22 2002-10-17 Volantia Holdings Limited System and method for extracting information
US7546527B2 (en) 2001-03-06 2009-06-09 International Business Machines Corporation Method and apparatus for repurposing formatted content
IL142421A0 (en) 2001-04-03 2002-03-10 Linguistic Agents Ltd Linguistic agent system
US8095597B2 (en) 2001-05-01 2012-01-10 Aol Inc. Method and system of automating data capture from electronic correspondence
US7222090B2 (en) 2001-08-29 2007-05-22 Sedna Patent Services, Llc Method and system for parsing purchase information from web pages
US7197449B2 (en) 2001-10-30 2007-03-27 Intel Corporation Method for extracting name entities and jargon terms using a suffix tree data structure
US8689096B2 (en) 2001-11-19 2014-04-01 Hewlett-Packard Development Company, L.P. Computer-based method, software module and computer program product for processing information in transaction-tax related applications
AU2003241505A1 (en) 2002-05-17 2003-12-12 Synchrologic A system and method for parsing itinerary data
US7321887B2 (en) 2002-09-30 2008-01-22 Sap Aktiengesellschaft Enriching information streams with contextual content
US7319981B2 (en) 2002-08-27 2008-01-15 Michael Schwartzman Multi-picture online commerce feature
US20040064373A1 (en) 2002-09-30 2004-04-01 Shannon Robert W. J. Point of sale receipt service
US7024689B2 (en) 2002-12-13 2006-04-04 Intuit, Inc. Granting access rights to unattended software
US7219131B2 (en) 2003-01-16 2007-05-15 Ironport Systems, Inc. Electronic message delivery using an alternate source approach
US20040177120A1 (en) 2003-03-07 2004-09-09 Kirsch Steven T. Method for filtering e-mail messages
US7885963B2 (en) 2003-03-24 2011-02-08 Microsoft Corporation Free text and attribute searching of electronic program guide (EPG) data
US7281029B2 (en) 2003-05-13 2007-10-09 Aol Llc, A Delaware Limited Liability Company Method and system of capturing data for automating internet interactions
US20050050099A1 (en) 2003-08-22 2005-03-03 Ge Information Systems System and method for extracting customer-specific data from an information network
US7819317B2 (en) 2003-10-07 2010-10-26 United States Postal Service Bulk proof of delivery
US7917548B2 (en) 2003-11-14 2011-03-29 Bottelle Memorial Institute Universal parsing agent system and method
US7836038B2 (en) 2003-12-10 2010-11-16 Google Inc. Methods and systems for information extraction
US7805344B2 (en) 2004-03-12 2010-09-28 Sybase, Inc. System providing methodology for consolidation of financial information
US20050210016A1 (en) 2004-03-18 2005-09-22 Zenodata Corporation Confidence-based conversion of language to data systems and methods
WO2005110280A2 (en) 2004-05-07 2005-11-24 Valentx, Inc. Devices and methods for attaching an endolumenal gastrointestinal implant
US20080147525A1 (en) 2004-06-18 2008-06-19 Gene Allen CPU Banking Approach for Transactions Involving Educational Entities
US7617176B2 (en) 2004-07-13 2009-11-10 Microsoft Corporation Query-based snippet clustering for search result grouping
GB0416857D0 (en) 2004-07-29 2004-09-01 Ingenico Uk Ltd Electronic financial transactions
US20070294127A1 (en) 2004-08-05 2007-12-20 Viewscore Ltd System and method for ranking and recommending products or services by parsing natural-language text and converting it into numerical scores
WO2006042086A2 (en) 2004-10-08 2006-04-20 Advanced Commerce Strategies, Inc. Comprehensive online shopping management system
US7689037B2 (en) 2004-10-22 2010-03-30 Xerox Corporation System and method for identifying and labeling fields of text associated with scanned business documents
US20060095372A1 (en) 2004-11-01 2006-05-04 Sap Aktiengesellschaft System and method for management and verification of invoices
US20060143158A1 (en) 2004-12-14 2006-06-29 Ruhl Jan M Method, system and graphical user interface for providing reviews for a product
US7461056B2 (en) 2005-02-09 2008-12-02 Microsoft Corporation Text mining apparatus and associated methods
AU2005201758B2 (en) 2005-04-27 2008-12-18 Canon Kabushiki Kaisha Method of learning associations between documents and data sets
US20060259551A1 (en) * 2005-05-12 2006-11-16 Idalis Software Detection of unsolicited electronic messages
US20060265396A1 (en) 2005-05-19 2006-11-23 Trimergent Personalizable information networks
US7590647B2 (en) 2005-05-27 2009-09-15 Rage Frameworks, Inc Method for extracting, interpreting and standardizing tabular data from unstructured documents
US7739337B1 (en) 2005-06-20 2010-06-15 Symantec Corporation Method and apparatus for grouping spam email messages
US7546290B2 (en) 2005-08-11 2009-06-09 Marc Colando Systems and methods for extracting and adapting data
US8527504B1 (en) 2005-09-01 2013-09-03 At&T Intellectual Property Ii, L.P. Data network content filtering using categorized filtering parameters
US20070073580A1 (en) 2005-09-23 2007-03-29 Redcarpet, Inc. Method and system for delivering online sales promotions
US20070073592A1 (en) 2005-09-28 2007-03-29 Redcarpet, Inc. Method and system for network-based comparision shopping
US7487912B2 (en) 2005-09-28 2009-02-10 First Data Corporation Electronic receipting
CN100442283C (zh) 2005-10-20 2008-12-10 关涛 面向领域基于样本的互联网结构化数据抽取方法及其系统
US20070168464A1 (en) 2005-12-13 2007-07-19 Siemens Medical Solutions Health Services Corporation System for Configuring a Data Exchange and Format Conversion System
US7765212B2 (en) 2005-12-29 2010-07-27 Microsoft Corporation Automatic organization of documents through email clustering
US7899871B1 (en) 2006-01-23 2011-03-01 Clearwell Systems, Inc. Methods and systems for e-mail topic classification
US7627565B2 (en) 2006-01-31 2009-12-01 Northwestern University Organizing context-sensitive search results
US7627641B2 (en) 2006-03-09 2009-12-01 Watchguard Technologies, Inc. Method and system for recognizing desired email
US8233751B2 (en) 2006-04-10 2012-07-31 Patel Nilesh V Method and system for simplified recordkeeping including transcription and voting based verification
US20070250390A1 (en) 2006-04-24 2007-10-25 Advanced Commerce Strategies, Inc. Internet advertising method and system
US8489689B1 (en) 2006-05-31 2013-07-16 Proofpoint, Inc. Apparatus and method for obfuscation detection within a spam filtering model
US7676465B2 (en) 2006-07-05 2010-03-09 Yahoo! Inc. Techniques for clustering structurally similar web pages based on page features
US7653576B2 (en) 2006-08-01 2010-01-26 International Business Machines Corporation Method for pricing items
US7788262B1 (en) 2006-08-04 2010-08-31 Sanika Shirwadkar Method and system for creating context based summary
US20090300482A1 (en) 2006-08-30 2009-12-03 Compsci Resources, Llc Interactive User Interface for Converting Unstructured Documents
US20080073429A1 (en) 2006-09-26 2008-03-27 Oesterling Christopher L Method and system for post purchase monitoring
US20080098300A1 (en) 2006-10-24 2008-04-24 Brilliant Shopper, Inc. Method and system for extracting information from web pages
US7689610B2 (en) 2006-12-01 2010-03-30 Computer Associates Think, Inc. Automated grouping of messages provided to an application using string similarity analysis
US8468244B2 (en) 2007-01-05 2013-06-18 Digital Doors, Inc. Digital information infrastructure and method for security designated data and with granular data stores
US7949670B2 (en) 2007-03-16 2011-05-24 Microsoft Corporation Language neutral text verification
US20080262940A1 (en) 2007-03-29 2008-10-23 Tsc Group Purchase Order and Invoice Aggregator System for Sales Environment
CA2687479A1 (en) 2007-05-17 2008-11-27 Fat Free Mobile Inc. Method and system for generating an aggregate website search database using smart indexes for searching
US20080306831A1 (en) 2007-06-05 2008-12-11 Jack Phillip Abraham Systems and methods for facilitating purchase transactions in a network
KR20090003397A (ko) 2007-06-08 2009-01-12 엔에이치엔(주) 정보 영역 지시에 의한 전자메일의 부가 정보 서비스 제공방법 및 그 시스템
US8725637B2 (en) 2007-09-28 2014-05-13 The Western Union Company Methods and systems for generating invoices
US8589366B1 (en) 2007-11-01 2013-11-19 Google Inc. Data extraction using templates
US20090171906A1 (en) 2008-01-02 2009-07-02 Research In Motion Limited System and method for providing information relating to an email being provided to an electronic device
US8676815B2 (en) 2008-05-07 2014-03-18 City University Of Hong Kong Suffix tree similarity measure for document clustering
US20090299887A1 (en) 2008-06-03 2009-12-03 Maya Shiran System and method for detecting savings opportunities based on the price protection and return policies of retailers
US8788350B2 (en) 2008-06-13 2014-07-22 Microsoft Corporation Handling payment receipts with a receipt store
US20090313101A1 (en) 2008-06-13 2009-12-17 Microsoft Corporation Processing receipt received in set of communications
US20090327268A1 (en) 2008-06-27 2009-12-31 Microsoft Corporation Providing targeted information for entertainment-oriented searches
US20100037177A1 (en) 2008-08-08 2010-02-11 Golsorkhi Andre O Tool for capturing data across web domains
US7809824B2 (en) 2008-09-29 2010-10-05 Yahoo! Inc. Classification and cluster analysis spam detection and reduction
US20100083095A1 (en) 2008-09-29 2010-04-01 Nikovski Daniel N Method for Extracting Data from Web Pages
US8065373B2 (en) 2008-09-30 2011-11-22 Pivot Solutions, Inc. System and method for processing instant messages
US8606649B2 (en) 2008-10-31 2013-12-10 Ellis Barlow Keener, JR. Display of anomymous purchase information over the internet
RU2686295C2 (ru) 2008-12-17 2019-04-24 Конинклейке Филипс Электроникс, Н.В. Распределенные реестры пациентов для объединенных федеративных pacs
US20100161527A1 (en) 2008-12-23 2010-06-24 Yahoo! Inc. Efficiently building compact models for large taxonomy text classification
US7783515B1 (en) 2009-03-27 2010-08-24 Bank Of America Corporation Itemized receipt tracking system
US20100257066A1 (en) 2009-04-06 2010-10-07 Bank Of America Corporation Electronic receipts collection and management system
WO2011002456A1 (en) 2009-06-30 2011-01-06 Hewlett-Packard Development Company, L.P. Selective content extraction
JP2011034417A (ja) 2009-08-04 2011-02-17 Kddi Corp 迷惑メール判定装置及び迷惑メール判定方法及び迷惑メール判定プログラム
CA2774615A1 (en) 2009-09-25 2011-03-31 Origene Technologies, Inc. Protein arrays and uses thereof
US20110078724A1 (en) 2009-09-30 2011-03-31 Verizon Patent And Licensing, Inc. Transactional advertising for television
US8838485B2 (en) 2009-10-26 2014-09-16 Bay Photo, Inc. Automated processing of digital media collections for distributed e-commerce
US8666812B1 (en) 2009-11-10 2014-03-04 Google Inc. Distributing content based on transaction information
WO2011063561A1 (en) 2009-11-25 2011-06-03 Hewlett-Packard Development Company, L. P. Data extraction method, computer program product and system
US20110208787A1 (en) 2010-01-11 2011-08-25 Sidy Adam L Method and device for continuously aggregating and redistributing personalized electronic information for display on multiple internet-enabled devices
US20110282734A1 (en) 2010-04-07 2011-11-17 Mark Zurada Systems and methods used for publishing and aggregating real world and online purchases via standardized product information
US9305263B2 (en) 2010-06-30 2016-04-05 Microsoft Technology Licensing, Llc Combining human and machine intelligence to solve tasks with crowd sourcing
US20120029963A1 (en) 2010-07-31 2012-02-02 Txteagle Inc. Automated Management of Tasks and Workers in a Distributed Workforce
WO2012022044A1 (en) 2010-08-20 2012-02-23 Hewlett-Packard Development Company, L. P. Systems and methods for filtering web page contents
US8527436B2 (en) 2010-08-30 2013-09-03 Stratify, Inc. Automated parsing of e-mail messages
WO2012054788A1 (en) 2010-10-21 2012-04-26 Rillip Inc. Method and system for performing a comparison
US10115154B2 (en) 2011-01-20 2018-10-30 Martin Claude Lefebvre Method and apparatus for inbound message management
US20120203632A1 (en) 2011-02-07 2012-08-09 Marc Blum Tracking and summarizing purchase information
US20120203733A1 (en) 2011-02-09 2012-08-09 Zhang Amy H Method and system for personal cloud engine
US8666984B2 (en) 2011-03-18 2014-03-04 Microsoft Corporation Unsupervised message clustering
US9171088B2 (en) 2011-04-06 2015-10-27 Google Inc. Mining for product classification structures for internet-based product searching
US20120284081A1 (en) 2011-05-02 2012-11-08 Fang Cheng Methods and Apparatus for Gathering Intelligence from Itemized Receipts
US20120284150A1 (en) 2011-05-02 2012-11-08 Bradford Stanley Inventory management system and method
CA2777056A1 (en) 2011-05-08 2012-11-08 Anton Sabeta Reminder method & system for merchandise returns
US9646291B2 (en) 2011-05-11 2017-05-09 Visa International Service Association Electronic receipt manager apparatuses, methods and systems
US8458054B1 (en) 2011-05-13 2013-06-04 Amazon Technologies, Inc. Method, medium, and system for suggesting images for items without images in listings data
US8661095B2 (en) 2011-05-25 2014-02-25 Juniper Networks, Inc. Identifying scripting form of text commands for a network device
US8386285B2 (en) 2011-05-25 2013-02-26 International Business Machines Corporation Demand modeling and prediction in a retail category
CN102831121B (zh) 2011-06-15 2015-07-08 阿里巴巴集团控股有限公司 一种网页信息抽取的方法和系统
US20120330971A1 (en) 2011-06-26 2012-12-27 Itemize Llc Itemized receipt extraction using machine learning
US9311599B1 (en) 2011-07-08 2016-04-12 Integral Ad Science, Inc. Methods, systems, and media for identifying errors in predictive models using annotators
US8844010B2 (en) 2011-07-19 2014-09-23 Project Slice Aggregation of emailed product order and shipping information
US9563904B2 (en) 2014-10-21 2017-02-07 Slice Technologies, Inc. Extracting product purchase information from electronic messages
US20130024282A1 (en) 2011-07-23 2013-01-24 Microsoft Corporation Automatic purchase history tracking
US9916538B2 (en) * 2012-09-15 2018-03-13 Z Advanced Computing, Inc. Method and system for feature detection
US8738477B2 (en) 2011-11-10 2014-05-27 Connexive, Inc. Method and apparatus for automated bill timeline
US8903924B2 (en) 2011-12-09 2014-12-02 International Business Machines Corporation Aggregating data in electronic communications
US9606970B2 (en) 2012-01-05 2017-03-28 Data Record Science Web browser device for structured data extraction and sharing via a social network
US8744948B1 (en) 2012-01-11 2014-06-03 Intuit Inc. Mobile data import for a financial return
JP6100559B2 (ja) 2012-03-05 2017-03-22 株式会社半導体エネルギー研究所 半導体記憶装置
US9092749B2 (en) 2012-04-13 2015-07-28 International Business Machines Corporation Information governance crowd sourcing
US9436738B2 (en) 2012-04-19 2016-09-06 Nant Holdings Ip, Llc Mechanical Turk integrated IDE, systems and method
US8812417B2 (en) 2012-08-20 2014-08-19 InsideSales.com, Inc. Hierarchical based sequencing machine learning model
US9461876B2 (en) 2012-08-29 2016-10-04 Loci System and method for fuzzy concept mapping, voting ontology crowd sourcing, and technology prediction
US9336193B2 (en) 2012-08-30 2016-05-10 Arria Data2Text Limited Method and apparatus for updating a previously generated text
US20140105508A1 (en) 2012-10-12 2014-04-17 Aditya Arora Systems and Methods for Intelligent Purchase Crawling and Retail Exploration
JP6039378B2 (ja) 2012-11-20 2016-12-07 エヌ・ティ・ティ・ソフトウェア株式会社 不正メール判定装置、不正メール判定方法、及びプログラム
US9268860B2 (en) 2012-12-02 2016-02-23 At&T Intellectual Property I, L.P. Methods, systems, and products for personalized monitoring of data
US20140172767A1 (en) 2012-12-14 2014-06-19 Microsoft Corporation Budget optimal crowdsourcing
US9374369B2 (en) 2012-12-28 2016-06-21 Lookout, Inc. Multi-factor authentication and comprehensive login system for client-server networks
US9183193B2 (en) 2013-02-12 2015-11-10 Xerox Corporation Bag-of-repeats representation of documents
US20140236577A1 (en) 2013-02-15 2014-08-21 Nec Laboratories America, Inc. Semantic Representations of Rare Words in a Neural Probabilistic Language Model
US9483741B2 (en) 2013-03-28 2016-11-01 Wal-Mart Stores, Inc. Rule-based item classification
KR20140138512A (ko) 2013-05-24 2014-12-04 대한민국(농촌진흥청장) 구매정보 분석 장치 및 방법
US20150095017A1 (en) 2013-09-27 2015-04-02 Google Inc. System and method for learning word embeddings using neural language models
US9767419B2 (en) 2014-01-24 2017-09-19 Microsoft Technology Licensing, Llc Crowdsourcing system with community learning
US20150295869A1 (en) 2014-04-14 2015-10-15 Microsoft Corporation Filtering Electronic Messages
US9275418B2 (en) 2014-05-16 2016-03-01 Bank Of America Corporation Providing e-receipts to customers
US20160104188A1 (en) 2014-10-08 2016-04-14 Paribus Co. Consumer price protection service
WO2016064679A1 (en) 2014-10-21 2016-04-28 Slice Technologies, Inc. Extracting product purchase information from electronic messages
WO2016065327A1 (en) 2014-10-24 2016-04-28 Google Inc. Neural machine translation systems with rare word processing
US10409908B2 (en) 2014-12-19 2019-09-10 Google Llc Generating parse trees of text segments using neural networks
US11080587B2 (en) 2015-02-06 2021-08-03 Deepmind Technologies Limited Recurrent neural networks for data item generation
US10339440B2 (en) 2015-02-19 2019-07-02 Digital Reasoning Systems, Inc. Systems and methods for neural language modeling
US9313166B1 (en) 2015-04-29 2016-04-12 InsideSales.com, Inc. Enhancement of machine learning techniques for an electronic message system
US10515307B2 (en) 2015-06-05 2019-12-24 Google Llc Compressed recurrent neural network models
US10606946B2 (en) 2015-07-06 2020-03-31 Microsoft Technology Licensing, Llc Learning word embedding using morphological knowledge
WO2017015231A1 (en) 2015-07-17 2017-01-26 Fido Labs, Inc. Natural language processing system and method
US10089576B2 (en) 2015-07-28 2018-10-02 Microsoft Technology Licensing, Llc Representation learning using multi-task deep neural networks
KR102271262B1 (ko) 2015-11-12 2021-06-30 구글 엘엘씨 Cgr 신경망들
WO2017083695A1 (en) 2015-11-12 2017-05-18 Google Inc. Generating target sequences from input sequences using partial conditioning
WO2017090051A1 (en) 2015-11-27 2017-06-01 Giridhari Devanathan A method for text classification and feature selection using class vectors and the system thereof
US10984365B2 (en) 2015-11-30 2021-04-20 Microsoft Technology Licensing, Llc Industry classification
US20170154258A1 (en) 2015-11-30 2017-06-01 National Institute Of Information And Communications Technology Joint estimation method and method of training sequence-to-sequence model therefor
US10268671B2 (en) 2015-12-31 2019-04-23 Google Llc Generating parse trees of text segments using neural networks
US11263514B2 (en) 2016-01-13 2022-03-01 Google Llc Processing and generating sets using recurrent neural networks
US9799327B1 (en) 2016-02-26 2017-10-24 Google Inc. Speech recognition with attention-based recurrent neural networks
US10691999B2 (en) 2016-03-16 2020-06-23 Maluuba Inc. Parallel-hierarchical model for machine comprehension on small data
US10019438B2 (en) 2016-03-18 2018-07-10 International Business Machines Corporation External word embedding neural network language models

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006252242A (ja) 2005-03-11 2006-09-21 Fuji Xerox Co Ltd 電子メッセージ分析装置および方法
JP2011507092A (ja) 2007-12-13 2011-03-03 サムスン エレクトロニクス カンパニー リミテッド マルチメディア電子メール合成装置及びその方法
WO2011048672A1 (ja) 2009-10-21 2011-04-28 三菱電機株式会社 データ処理装置及びデータ処理方法及びプログラム
JP2013519165A (ja) 2010-02-03 2013-05-23 アルコード コーポレーション 電子メッセージシステムと方法
US20120047014A1 (en) 2010-08-23 2012-02-23 Yahoo! Inc. Method and system for using email receipts for targeted advertising
US20150235166A1 (en) 2011-07-19 2015-08-20 Slice Technologies, Inc. Extracting purchase-related information from electronic messages
US20130268839A1 (en) 2012-04-06 2013-10-10 Connexive, Inc. Method and Apparatus for Inbound Message Summarization
US20150269242A1 (en) 2014-03-20 2015-09-24 Tata Consultancy Services Limited Email analytics
US20160328097A1 (en) 2014-05-22 2016-11-10 Yandex Europe Ag E-mail interface and method for processing e-mail messages
US20160110763A1 (en) 2014-10-21 2016-04-21 Slice Technologies, Inc. Extracting product purchase information from electronic messages

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
獅々堀 正幹、外3名,多属性項目の履歴情報に基づく電子メイル文書のフィルタリング手法,情報処理学会論文誌,日本,社団法人情報処理学会,2000年08月15日,第41巻,第8号,p.2299-2308

Also Published As

Publication number Publication date
EP3625934A1 (en) 2020-03-25
US10447635B2 (en) 2019-10-15
JP2022133264A (ja) 2022-09-13
WO2018212989A1 (en) 2018-11-22
US20180337878A1 (en) 2018-11-22
EP3625934B1 (en) 2021-12-22
JP7440565B2 (ja) 2024-02-28
US20200036666A1 (en) 2020-01-30
US11032223B2 (en) 2021-06-08
EP3625934A4 (en) 2021-04-14
JP2020520609A (ja) 2020-07-09

Similar Documents

Publication Publication Date Title
JP7069220B2 (ja) 電子メッセージのフィルタリング
US9892384B2 (en) Extracting product purchase information from electronic messages
US9875486B2 (en) Extracting product purchase information from electronic messages
US20220012768A1 (en) Iteratively improving an advertisement response model
US11695713B2 (en) Computerized system and method for multi-factor message classification and delivery
US11861693B2 (en) User interface for recurring transaction management
CN112925973A (zh) 数据处理方法和装置
CN111429214B (zh) 一种基于交易数据的买卖双方匹配方法及装置
WO2016064679A1 (en) Extracting product purchase information from electronic messages
CN111095328A (zh) 用于检测和响应于交易模式的系统和方法
JP2021197089A (ja) 出力装置、出力方法及び出力プログラム
KR20220015322A (ko) 디지털 메시지로부터 정보를 획득하는 시스템 및 방법
US11561963B1 (en) Method and system for using time-location transaction signatures to enrich user profiles
US10616161B1 (en) Computerized system and method for digital content extraction and propagation in HTML messages
CN113378043A (zh) 用户筛选的方法和装置
CN112784021A (zh) 用于使用从评论提取的关键字的系统和方法
US10445787B2 (en) Predicting merchant behavior using merchant website terms
US11727422B2 (en) Audience recommendation using node similarity in combined contextual graph embeddings
CN116562279A (zh) 客户属性识别方法、装置、设备和介质
CN113361555A (zh) 用户标签生成的方法和装置
CN115293273A (zh) 用户画像的生成方法、用户画像模型的训练方法及装置
CN117273858A (zh) 产品推荐方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210430

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210430

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20210430

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210908

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211019

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20211022

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20211105

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20211215

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20220217

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220317

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220401

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220502

R150 Certificate of patent or registration of utility model

Ref document number: 7069220

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150