JP2013502000A - ウェブページコンテンツフィルタリングのための方法およびシステム - Google Patents

ウェブページコンテンツフィルタリングのための方法およびシステム Download PDF

Info

Publication number
JP2013502000A
JP2013502000A JP2012524719A JP2012524719A JP2013502000A JP 2013502000 A JP2013502000 A JP 2013502000A JP 2012524719 A JP2012524719 A JP 2012524719A JP 2012524719 A JP2012524719 A JP 2012524719A JP 2013502000 A JP2013502000 A JP 2013502000A
Authority
JP
Japan
Prior art keywords
web page
page content
characteristic
high risk
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012524719A
Other languages
English (en)
Other versions
JP5600168B2 (ja
Inventor
シャオジュン リー
コンジー ワン
Original Assignee
アリババ グループ ホールディング リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アリババ グループ ホールディング リミテッド filed Critical アリババ グループ ホールディング リミテッド
Publication of JP2013502000A publication Critical patent/JP2013502000A/ja
Application granted granted Critical
Publication of JP5600168B2 publication Critical patent/JP5600168B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/604Tools and structures for managing or administering access control systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1483Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2149Restricted operating environment

Abstract

本開示は、ウェブページコンテンツをフィルタリングするための方法およびシステムを提供する。方法は、ユーザーによって提供されたウェブページコンテンツを検査することと、ウェブページコンテンツの検査が高リスク特性語を検出した場合に、高リスク特性語に対応する少なくとも1つの高リスク規則を高リスク特性ライブラリから取得することと、少なくとも1つの高リスク規則のウェブページコンテンツに対する照合に基づきウェブページコンテンツの特性スコアを取得することと、その特性スコアに基づきウェブページコンテンツをフィルタリングすることとを含む。本開示と先行技術との相違は、本開示された実施形態は、eコマースの取引のより良いリアルタイムの安全性および信頼性を達成するために、より的確にウェブページコンテンツのフィルタリングを実行することができることである。

Description

〔関連する特許出願の相互参照〕
本出願は、2009年8月13日に出願された「Method and System of Web Page Content Filtering」という名称の中国特許出願第200910165227.0号からの優先権を主張し、その全体が参照により本明細書に組み込まれる。
本開示は、インターネット技術分野に関し、具体的には、eコマースのウェブページコンテンツをフィルタリングするための方法およびシステムに関する。
「eコマース」としても知られる電子商取引は、一般に、コンピューターブラウザ/サーバー技術を適用することにより、買い手と売り手が、直接会う必要なく、商業活動および取引活動を、オープンなインターネット環境で実行するタイプの企業活動を指す。例としては、オンラインショッピング、オンライン取引、インターネット決済および他の商業活動、取引活動、ならびに金融活動が挙げられる。電子商取引ウェブサイトは、一般に、大規模な顧客グループおよび取引市場を含み、両方が膨大な量の情報によって特徴付けられる。
オンライン取引の普及により、情報の安全性および信憑性が、ウェブサイトで強く要求されている。それと同時に、取引情報の信頼性もインターネットユーザーによる深刻な懸念であった。それ故、電子商取引活動における膨大な量の取引情報に関して、安全性、信頼性および信憑性の即座の検証を実行する必要性が生じた。
現在は、情報の安全性および信憑性を確実にするため、現在の電子メールシステムにおける情報フィルタリングに対する確率理論のような、何らかの特性スクリーニング手法が採用されている。既存のフィルタリング方法の原則は、第一に明確な標本空間の設定、および情報フィルタリングを実行するためのその標本空間の使用を含む。標本空間は、所定の特性情報、すなわち、潜在的な危険性を持つ語を含む。スパム特性情報のフィルタリングおよび計算は、一般的な電子メールシステム用のベイズ法などの、特定の算定式を用いることによって行われる。
電子メールシステムおよびスパム防止システムにおける実際の適用では、情報のベイズスコアが特性のサンプルライブラリに基づいて計算され、その後、計算されたスコアに基づき、その情報がスパムであるか否かが判定される。この方法は、しかし、検査されている情報に出現するサンプルライブラリ内の特性情報の確率のみを考慮する。しかしながら、eコマースウェブサイトのウェブページでは、情報は通常、商品パラメータ特性を含む。例えば、mp3ファイルがパブリッシュされる場合、パラメータ特性は記憶容量およびスクリーンカラーなどを含む場合がある。また、単価、初回発注量または総供給量などの、市場取引におけるビジネス特性のパラメータもある。このように、特性の確率は単一の確率スコアのみに基づいて決定できないことがわかる。その確率計算の結果としての除外のせいで、安全でないウェブページのコンテンツがパブリッシュされる場合があり、従って、大量の虚偽または危険な商品情報が、全オンライン取引市場を妨げるeコマースウェブサイトから生成される場合がある。
つまり、この分野で解決すべき最も緊急性の高い技術的問題は、特性情報が出現する確率のみを用いることによる不適切な情報フィルタリングの問題を取り除くために、eコマースウェブサイトのコンテンツをフィルタリングするための方法をどのように作成するかである。
本開示の目的は、大量の情報を通して検索する際のウェブページコンテンツのフィルタリング効率の悪さの問題を解決するために、ウェブページコンテンツをフィルタリングするための方法を提供することである。
本開示は、実際的応用における方法を実施するために、eコマース情報をフィルタリングするためのシステムも提供する。
ウェブページコンテンツをフィルタリングする方法は、
・ユーザー端末からアップロードされたウェブページコンテンツを検査すること
・検査中に、ウェブページコンテンツで検出された所定の高リスク特性語がある場合に、照合により、その高リスク語に対応した少なくとも1つの高リスク規則が高リスク特性ライブラリから取得されてもよいこと
・少なくとも1つの高リスク規則のウェブページコンテンツに対する照合結果に基づき、そのウェブページコンテンツの特性スコアが取得されてもよいこと
・その特性スコアに従った、ウェブページコンテンツをフィルタリングすること
を含む。
本開示によって提供されるウェブページコンテンツのフィルタリングシステムは、
・ユーザー端末からアップロードされたウェブページコンテンツを検査する検査ユニット
・検査ユニットによってウェブページコンテンツで検出された所定の高リスク特性語に対応する少なくとも1つの高リスク規則を所定の高リスク特性ライブラリから取得する、照合および規則取得ユニット
・少なくとも1つの高リスク規則とウェブページコンテンツとの間の照合結果に基づき、そのウェブページコンテンツの特性スコアを取得する、特性スコア取得ユニット
・特性スコアに従ってウェブページコンテンツをフィルタリングするフィルタリングユニット
を含む。
本開示は、後述のとおり、先行技術の技法に比べていくつかの利点を有する。
本開示の一実施形態では、所定の1つまたは複数の所定の高リスク特性語が既存のウェブページコンテンツから検出された場合、特性スコアが、その高リスク特性語に対応した高リスク規則に基づいて計算され、その特性スコアの値に応じて、そのウェブページコンテンツのフィルタリングが実行されることになる。従って、本開示の実施形態を採用することにより、検査されているウェブページコンテンツに出現する標本空間の内容の確率にのみ基づいてフィルタリングの判定を行う先行技術の技法と比較して、より的確なウェブページコンテンツのフィルタリングを達成することができる。それ故、安全で信頼できるリアルタイムのオンライン取引が保証されて、処理における高効率を得ることができる。言うまでもなく、本開示の一実施形態が、必ずしも前述の利点の全てを有するとは限らない。
以下は、開示される実施形態および先行技術の技法を説明するための図の簡単な紹介である。しかし、後述する図は、本開示の実施形態の例にすぎない。当業者には、本開示の精神から逸脱することなく、本開示の変更および/または代替が明らかであると考えられる。
本開示の第1実施形態に従った、ウェブページコンテンツのフィルタリング方法の流れ図である。 本開示の第2実施形態に従った、ウェブページコンテンツのフィルタリング方法の流れ図である。 本開示の第3実施形態に従った、ウェブページコンテンツのフィルタリング方法の流れ図である。 本開示の第3実施形態に従って、高リスク規則を設定するためのインタフェース例を示す図である。 本開示の第3実施形態に従って、高リスク規則を設定するためのインタフェース例を示す図である。 本開示の第3実施形態に従った、ウェブページコンテンツのインタフェース例を示す図である。 本開示の第3実施形態に従った、ウェブページコンテンツのインタフェース例を示す図である。 本開示の第3実施形態に従った、ウェブページコンテンツのインタフェース例を示す図である。 本開示の第3実施形態に従った、ウェブページコンテンツのインタフェース例を示す図である。 本開示の第1実施形態に従った、ウェブページコンテンツのフィルタリングシステムの構造を示すブロック図である。 本開示の第2実施形態に従った、ウェブページコンテンツのフィルタリングシステムの構造を示すブロック図である。 本開示の第3実施形態に従った、ウェブページコンテンツのフィルタリングシステムの構造を示すブロック図である。
以下は、図を参照した本開示のより詳細で完全な説明である。言うまでもなく、本明細書で説明される実施形態は、本開示の例にすぎない。開示された実施形態のいかなる変更および/または代替も、本開示の精神から逸脱することなく、当業者には明らかであるはずであり、本開示の添付の特許請求の範囲によって、さらに包含されるべきである。
本開示は、多数の汎用もしくは専用コンピューティングシステム環境、またはパーソナルコンピュータ、サーバーコンピュータ、ハンドヘルド装置、携帯機器、平型装置(flat type equipment)などの装置、前述のシステムおよび/または装置のいずれかを含むマルチプロセッサベースのコンピューティングシステムまたは分散コンピューティング環境に適用することができる。
本開示は、プログラミングモジュールなどの、コンピュータの実行可能コマンドの一般的なコンテキストで説明することができる。一般に、プログラミングモジュールは、特定の任務または抽出タイプデータを実行するためのルーチン、プログラム、物体、コンポーネントおよびデータ構造を含むもので、リモート処理装置により通信ネットワークを通してコンピューティング任務が実行される分散コンピューティング環境に適用することができる。分散コンピューティング環境では、プログラミングモジュールは、記憶装置を含めて、ローカルおよびリモートコンピュータの記憶媒体に配置することができる。
本開示の主要な考えは、既存のウェブページコンテンツのフィルタリングが、所定の高リスク特性語の出現の確率のみによって決まらないということである。本開示のフィルタリングプロセスは、懸念のあるウェブページコンテンツの特性スコアにも依存し、その特性スコアは、所定の高リスク特性語に対応する少なくとも1つの高リスク規則を用いることによって計算される。ウェブページコンテンツのフィルタリングは、そのウェブページコンテンツの特性スコアの値に従って実行されてもよい。本開示の実施形態で説明される方法は、eコマース取引のためのウェブサイトまたはシステムに適用することができる。本開示の実施形態によって説明されるシステムは、ソフトウェアまたはハードウェアの形式で実装することができる。ハードウェアが採用される場合、そのハードウェアはeコマース取引のためのサーバーに接続されることになる。しかし、ソフトウェアが採用される場合、そのソフトウェアは、追加機能としてeコマースのためのサーバーと統合されてもよい。フィルタリング判定が、検査されている情報で標本空間の内容が出現する確率のみに基づいて行われる既存の技術と比較すると、本開示の実施形態は、安全で信頼できるリアルタイムのオンライン取引を保証するために、より的確にウェブページコンテンツをフィルタリングすることができる。
図1は、本開示の第1実施形態に従った、ウェブページコンテンツのフィルタリング方法の流れ図を示す。その方法は、以下で説明する通り、いくつかのステップを含む。
ステップ101:ユーザー端末からアップロードされたウェブページコンテンツが検査される。
この実施形態では、ユーザーは、ユーザーの端末を介してeコマースのウェブサイトのウェブサーバーにeコマース情報を送信する。eコマース情報は、ウェブサーバーによって提供されているウェブページに、ユーザーによって入力される。完成したウェブページは、その後、デジタル情報に変換されて、ウェブサーバーに送信される。ウェブサーバーは次に、受信したウェブページコンテンツを検査する。検査中、ウェブサーバーは、そのウェブページコンテンツが所定の高リスク特性語のいずれかを含むか否かを判定するために、検査されている情報の全ての内容を走査する。高リスク特性語は、所定の語または文であって、一般的に使用される禁忌語、製品に関する語、またはネットワーク管理者によって指定された語を含む。一実施形態では、高リスク特性語に対してONおよびOFF機能がさらに用意されている可能性があり、その機能が特定の高リスク特性語に対してON状態に設定されていれば、この特定の高リスク特性語は、eコマース情報のフィルタリングに使用されることになる。
また、その高リスク特性語が、大文字、小文字、間隔、中央文字(middle character)または、例えば、「Falun−Gong(法輪功)」および「Falun g」などのように任意の文字の制限を無視するように、高リスク特性語の特殊機能も設定することができる。特殊機能が設定されると、高リスク特性語の特殊機能に対応する語も、eコマース情報をフィルタリングするための条件と見なされるであろう。
セップ102:所定の高リスク特性語がウェブページコンテンツから検出されると、その検出された高リスク特性語に対応する少なくとも1つの高リスク規則が、所定の高リスク特性ライブラリから取得される。
高リスク特性ライブラリは、各高リスク特性語に対応する少なくとも1つの高リスク規則と共に、高リスク特性語を記憶するために設計されている。このように、各高リスク特性語は、1つまたは2つ以上の高リスク規則に対応する場合がある。高リスク特性ライブラリは、高リスク特性ライブラリが使用されるたびに、高リスク特性語とそれぞれの高リスク規則との間の相関関係を高リスク特性ライブラリから直接取得することができるように、事前に配置することができる。ステップ101での検査が、ウェブページコンテンツが高リスク特性語を含むことを示している場合、その高リスク特性語に対応する少なくとも1つの高リスク規則が、高リスク特性ライブラリから取得される。高リスク規則の内容は、高リスク特性語に対応する制約または追加の内容であり得る。ユーザー端末からパブリッシュされたウェブページコンテンツが、高リスク規則によって設定された制約または追加の内容と合致していると判定された場合、それは、そのウェブページコンテンツが虚偽であるか、またはパブリッシュに適していないということを意味することになる。高リスク規則は、ウェブページコンテンツ内の情報のタイプ、1つもしくは複数のパブリッシュ元の名前、または所定の高リスク特性語の出現に関連する要素などを含む場合がある。少なくとも1つの高リスク規則と高リスク特性語の間の相関関係は、ウェブページコンテンツのフィルタリング実行のための必要条件として見なされることになる。例えば、高リスク特性語が「Nike(ナイキ)」である場合、その高リスク規則は、例えば、価格に関する制約またはサイズの記述などを含む場合がある。
本開示では、高リスク特性語は、「Falun Gong」などのパブリッシュに適していない語だけでなく、「Nike」などの製品名も含む。ウェブページコンテンツが高リスク特性語の「Nike」を含む場合、および対応する高リスク規則が「価格<150」(市場価格より低い価格のNikeの情報は、虚偽情報を見なされるであろう)という要素を含む場合、現在のeコマース情報は、偽情報と見なされることになる。それぞれのウェブページコンテンツは、その後、ユーザーがその特定のウェブページコンテンツを見たときに騙されないようにするために、計算された特性スコアに基づいてフィルタリングして除去される。
高リスク特性語は、ウェブサイトの情報ライブラリのコンテンツに従って、事前設定することができる。ウェブサイトのeコマース情報は、かなり長い期間、ウェブサイトの情報ライブラリに保持することができる。eコマース取引情報の履歴に基づき、虚偽情報またはパブリッシュされるのに適していない情報が含まれている可能性が高い高リスク特性語を、容易に摘出することができる。
ステップ103:少なくとも1つの高リスク規則に基づき、ウェブページコンテンツの特性スコアを取得するために、ウェブページコンテンツで照合が実行される。
高リスク特性語に基づき少なくとも1つの高リスク規則が取得された後、高リスク特性語が各高リスク規則と順次照合された順番で各高リスク特性語に対して照合が実行される、ウェブページコンテンツでの照合が継続される。一旦、高リスク特性語の照合が終了すると、少なくとも1つの対応する高リスク規則に対して照合が続くべきである(すなわち、高リスク規則に一致するいずれかの情報があるか否かを判定するため)。全ての高リスク規則の照合が終了すると、高リスク規則の照合が順調に終了したと見なされて、その高リスク規則に対応するスコアが取得される。全ての高リスク規則に対応するスコアが取得されると、計算用に全確率の公式(total probability formula)が用いられる。一実施形態では、ウェブページコンテンツの特性スコアを取得するための全確率計算を操作するために、Java言語の数値計算機能が用いられる。特性スコアの範囲は、0〜1の任意の小数の数とすることができる。
本開示では、異なる高リスク規則に対して異なるスコアが事前設定されてもよい。サンプルの高リスク特性語「Nike」を参照すると、50未満の価格に対して0.8の事前設定されたスコア、150未満の価格に対して0.6の事前設定されたスコア、150より大きく300未満の価格に対して0.3のスコアを設定することができる。このようにして、より的確なスコアを取得することができる。
以下は全確率の簡潔な紹介である。通常、複雑な事象の確率を取得するために、事象はいくつかの独立した単純な事象に分解される。その後、条件付き確率および乗法公式を用いることによりこれらの単純な事象の確率を取得し、次に、確率の特性の重ね合わせを用いることにより結果の確率を取得する。この方法の一般化は、全確率計算と呼ばれる。その原理が以下で説明される。
AおよびBが2つの事象であると仮定すると、Aは次のように表すことができる:
Figure 2013502000
言うまでもなく、
Figure 2013502000
であり、
Figure 2013502000
の場合、
Figure 2013502000
である。
例えば、3つの高リスク規則が照合を通して取得されて、対応する事前設定されたスコアが0.4、0.6および0.9であるとすると、全確率公式による計算は:
特性スコア=(0.4×0.6×0.9)/((0.4×0.6×0.9)+((1−0.4)×(1−0.6)×(1−0.9)))
となる。
ステップ104:特性スコアに基づき、ウェブページコンテンツをフィルタリングする。
フィルタリングは、特性スコアの値を事前設定された閾値と比較することによって行うことができる。例えば、特性スコアが0.6より大きい場合、そのウェブページコンテンツは、パブリッシュに適していない危険な情報を含むと見なされる。従って、そのウェブページコンテンツは、バックグラウンドに移動されるか、または隠蔽されることになる。特性スコアが0.6より小さい場合、そのウェブページコンテンツは安全であるか、または本物であると見なされて、そのウェブページコンテンツはパブリッシュすることができる。この技術は、パブリッシュするのに適していない危険な情報や虚偽の情報を除去する。
本開示は、eコマース取引の実行に使用される任意のウェブサイトおよびシステムに適用することができる。本開示の実施形態では、高リスク規則が、ウェブページコンテンツに出現する高リスク特性語に対応して高リスク特性ライブラリから取得され、その高リスク規則に対して事前設定されたスコアが、そのウェブページコンテンツがいくつかの高リスク特性語を含む場合にのみ取得されて、その後、全ての事前設定されたスコアに基づき、ウェブページの特性スコアが全確率公式を用いることによって計算される。取引情報内での標本空間の出現確率だけを使用してフィルタリングを行う既存の技術と比較して、本開示の実施形態は、ウェブページコンテンツのフィルタリングをより的確に行うことができて、オンライン取引のリアルタイムの安全性および信頼性を確実にする。
図2に示すのは、本開示のウェブページコンテンツのフィルタリング方法の第2実施形態の流れ図である。この方法は、以下で説明するいくつかのステップを含む。
ステップ201:高リスク特性語および高リスク特性語の各々に対応する少なくとも1つの高リスク規則を事前設定する。
一実施形態では、高リスク特性語は特殊なシステムにより管理することができる。具体的には、ウェブページコンテンツは、いくつかの部分を含んでもよく、その各々が高リスク特性語に一致することになる。高リスク特性語は、ウェブページのタイトル、キーワード、カテゴリ、ウェブページコンテンツの詳細な説明、取引パラメータおよびウェブコンテンツの専門的な説明などのような、多くの異なる主題を含む場合がある。
各高リスク特性語は、高リスク特性語をオンおよびオフにする機能の手段により、スイッチにより管理することができる。具体的には、これは、データベース内で1組の切り替え文字を変更することにより実現することができる。一実施形態では、ウェブページコンテンツのフィルタリングを実行するためのシステムと高リスク特性語の管理を実行するためのシステムとは異なる。高リスク特性語を管理するためのシステムは、フィルタリングシステムの通常の操作を妨げないように、高リスク特性ライブラリを定期的に更新することができる。具体的には、高リスク特性語の特定目的使用に設定する必要がある場合は、この目的を達成するために、Java言語の正規表現を使用することができる。
それと同時に、所定の高リスク特性語に関しては、対応する高リスク規則が、情報保守システムの入口で設定される。高リスク特性語に対応して、少なくとも1つの対応する高リスク規則が設定されることになる。高リスク規則の内容としては、ウェブページコンテンツの1つまたは複数のタイプ、ウェブページコンテンツの1つまたは複数のパブリッシュ元、ウェブページコンテンツの高リスク特性語の出現の要素、ウェブページコンテンツの高リスク特性の属性語、ウェブページコンテンツによって指定される事業認証マーク、ウェブページコンテンツの明白なパラメータ特性、ウェブページコンテンツの指定されたスコアなどを含んでもよい。以下で説明される事前設定されたスコアは、このステップで事前に指定されるスコアである。スコアは、2もしくは1の数、または0と1との間の任意の小数の数であってもよい。
高リスク規則はON状態にも設定することができる。高リスク規則がON状態であれば、それは、フィルタリング中に有効であると見なされる。それらのON状態の高リスク規則は、高リスク特性ライブラリ内の高リスク規則に照合する場合に、各々が対応する高リスク特性語に対する照合に利用可能である。
ステップ202:少なくとも1つの高リスク規則および高リスク特性ライブラリ内の対応する1つまたは複数の高リスク特性語との相関関係を格納する。
高リスク特性ライブラリは、高リスク特性語または高リスク規則の反復使用を容易にするため、および高リスク特性ライブラリの連続的な更新ならびに変更を容易にするために、永続的なタイプのデータ構造の手段によって実装することができる。
ステップ203:高リスク特性語に基づき、ユーザー端末から提供されたウェブページコンテンツの検査を実行する。
ステップ204:検査が、ウェブページコンテンツが1つまたは複数の所定の高リスク特性語を含むことを検出した場合に、高リスク特性ライブラリから、検査で検出された高リスク特性語の各々に対応する、少なくとも1つの高リスク規則を取得する。
ステップ205:ウェブページコンテンツを照合するために、少なくとも1つの高リスク規則を使用する。検査が、ウェブページコンテンツが1つまたは複数の所定の高リスク特性語を含むことを検出し、各高リスク規則とそれぞれ1つまたは複数の高リスク特性語との間の相関関係に基づき高リスク特性ライブラリから、その1つまたは複数の高リスク特性語に対応する、少なくとも1つの高リスク規則が取得された場合、ウェブページコンテンツと少なくとも1つの高リスク規則との間の照合が、ウェブページコンテンツの内容が、少なくとも1つの高リスク規則に記述された要素を含むか否かを確認するために実行される。
照合を実行する場合、高リスク規則は、いくつかの下位高リスク規則に分解することができる。それ故、このステップでは、1つの高リスク規則の照合を、全ての下位高リスク規則の照合により、ウェブページコンテンツと置換することができる。
ステップ206:高リスク規則の全ての下位高リスク規則が照合されると、その高リスク規則の事前設定されたスコアが取得される。
高リスク規則は、いくつかの下位規則を含むことができる。高リスク規則の全ての下位規則がウェブページコンテンツと順調に照合することができると、高リスク規則の事前設定されたスコアを高リスク特性ライブラリから取得することができる。このステップは、高リスク規則が有効な高リスク規則であることを確実にし、それは高リスク特性語と順調に照合されて、次のステップで説明される全確率の計算に使用されるべきである。
高リスク規則に対してスコアを事前設定する際に、スコアを特定の値に設定することができる場合、この特定の高リスク規則に合致するコンテンツを有するウェブページは、パブリッシュに適していないと見なされる場合がある。例えば、事前設定されたスコアが2または1の高リスク特性語は、その高リスク特性語を含むウェブページコンテンツが安全でないかまたは信頼できないことを表し、フィルタリングプロセスは、ステップ209にそのまま進むことができる。高リスク規則の事前設定されたスコアを取得する場合、スコアは、スコアの値に従い、逆の順序で配列することができる。これは、最高の事前設定されたスコアに対応するウェブページコンテンツを、初めから見つける便宜を提供することになる。
ウェブページコンテンツが、高リスク特性語と合致することが検出され、その高リスク特性語が、5つの高リスク規則と合致すると仮定する。前ステップで、4つの高リスク規則の内容のみがウェブページコンテンツに含まれている場合には、ステップ207で、それら4つの高リスク規則の事前設定されたスコアに対してのみ全確率の計算が行われてもよい。
ステップ208:特性スコアが、事前設定された閾値より大きいか否かを判定し、大きい場合にはステップ209に進み、大きくない場合にはステップ210に進む。
特性スコアが、0.6などの事前設定された閾値より大きいか否かを判定する場合、実際の適用で必要な精度に従って、閾値の値を設定することができる。
ステップ209:ウェブページコンテンツのフィルタリングを実行する。
特性スコアが0.8の場合は、ウェブページコンテンツが、パブリッシュに適していない1つまたは複数の高リスク特性語を含むことを意味する。不適切な情報がフィルタリングして除去された後、ウェブページコンテンツの残りの部分がネットワーク管理者に対して表示されてもよい。ネットワーク管理者は、ネットワーク環境の質を向上させるため、ウェブページコンテンツに関する手動介入を実行し得る。
ステップ210:ウェブページコンテンツをそのままパブリッシュする。
特性スコアが、0.6などの事前設定された閾値よりも小さい場合は、ウェブページコンテンツの安全性が、ネットワーク環境の要件に適合するものと見なされて、そのウェブページコンテンツはそのままパブリッシュすることができる可能性がある。
一実施形態では、ウェブページコンテンツのフィルタリングが、所定の高リスク特性ライブラリの手段により実行される。高リスク特性ライブラリは、所定の高リスク特性語、高リスク特性語に対応する高リスク規則、および高リスク特性語と高リスク規則との間の相関関係を含む。高リスク特性ライブラリは、特別な保守システムによって管理され、それは、本開示のフィルタリングシステムから独立して、その外側に位置することができる。このタイプの配置は、フィルタリングシステムの操作に影響を及ぼすことなく、高リスク特性語および高リスク規則ならびにそれらの間の相関関係の増加および更新の便宜を図ることができる。
図3に示すのは、本開示のウェブページのフィルタリング方法の第3実施形態の流れ図を示す。この実施形態は、本開示の実際の適用のもう1つの例である。本方法は、以下で説明されるように、いくつかのステップを含む。
ステップ301:高リスク特性語および少なくとも1つの対応する高リスク規則を識別する。
いくつかの実施形態では、全ての禁忌語、製品名、またはネットワーク要件に従って高リスク語として判定される語が、高リスク特性語として設定される。しかし、対応する高リスク規則に基づき、情報の質を判定するための、さらなる検出および判定がなお要求されるため、高リスク特性語を含むウェブページコンテンツは、虚偽または危険な情報と見なされない可能性がある。高リスク規則と高リスク特性語との間の相関関係は、高リスク特性語と高リスク規則名との間の相関関係であり得る。高リスク規則名は、特定の高リスク規則にのみ対応することができる。
一例として、高リスク特性語が「Nike」の場合、対応する高リスク規則がNike|Nike^shoes^price<150として設定されてもよく、これは、高リスク規則によって記述される範囲が「shoes」であり、その内容が「price<150」を含むことを意味する。ウェブページコンテンツがその規則の内容を含む場合、その事前設定されたスコアを取得する。ウェブページコンテンツが150より低いNikeの靴価格情報を含む場合、そのウェブページコンテンツは虚偽または信頼できない情報であると見なされるであろう。
ステップ302:ウェブページコンテンツに対応する特性クラスを、高リスク規則に設定する。
一実施形態では、高リスク規則の定義は特性クラスも含むことができ、従って、ウェブページコンテンツの特性クラスも高リスク規則に設定することができる。特性クラスは、例えば、クラスA、B、C、およびDを含んでもよい。クラスAおよびクラスBのウェブページコンテンツはそのままパブリッシュされてもよく、クラスCおよびクラスDのウェブページコンテンツは危険または虚偽と見なされてそのままバックグラウンドに移動されるか、または削除もしくは変更されてもよい(例えば、危険な情報は、ウェブページのパブリッシュの前に、そのウェブページコンテンツから除外され得る)などのような方法で設定することができる。
図4aおよび図4bは、一実施形態において、高リスク規則を設定するためのインタフェースの配置図を示す。ここで、規則名「Teenmix−2」は、高リスク特性語に対応する高リスク規則の名前である。第1ステップの「規則の範囲を入力する」および第5ステップの「追加処理」は、事前設定する必要のある高リスク規則の必須要素である。第1ステップの「規則の範囲を入力する」は、高リスク規則に対応する高リスク特性語の分野または産業を定義するため、すなわち、どの分野または産業において、ウェブページコンテンツ上で合致する高リスク規則が、有効な高リスク規則および有効な照合と見なされるべきか、である。例えば、高リスク特性語「Nike」がウェブページコンテンツに出現する場合、異なる種類の商品が異なる価格レベルを持つため、第1ステップはウェブページコンテンツが、ファッション用品またはスポーツ用品に関連するかどうかを検出することである。従って、ウェブページコンテンツを検査して、その中に含まれている情報が高リスク規則に事前設定された範囲またはカテゴリ内であることを確認することは要件であり、そのため、より正確な結果を追加の価格照合で取得することができる。第2ステップの「規則の記述を入力する」は、高リスク規則の照合がウェブページコンテンツのどの部分に対して実行されるべきかを示す。
例えば、照合は、ウェブページコンテンツのタイトル、またはウェブページの内容、または価格情報の属性に関して実行することができる。ステップ3およびステップ4の内容は、選択可能な設定項目である。高リスク規則のより詳細な分類が必要な場合は、ステップ3およびステップ4の内容を選択して設定することができる。ステップ5の内容の「追加処理」は、ウェブページコンテンツで高リスク規則が合致しなかった場合に、追加処理を実行する方法を示す。図4bの入力フレーム「スコアの保存」に示されている数は、高リスク規則の事前設定されたスコアである。スコアの範囲は0〜1または2である。ドロップダウンフレーム内の文字である「バイパス」は、例えば、クラスA、クラスB、クラスCおよびクラスDなどの異なるクラスレベルに配置することができる高リスク規則の特性クラスである。
特性クラスを設定する場合、クラスは、ステップ1の規則の範囲に従って調整することができる。例えば、クラスは、パブリッシュ元のパラメータ、パブリッシュされた情報の分野、製品の特長およびパブリッシュ元の電子メールアドレスに基づいて設定することができる。要点を説明するため、デジタル製品が高リスククラスであると仮定すると、特定の地理的地域のeコマース情報も高リスククラスである。ステップ1で、「規則の範囲を入力する」のフレームに示されている情報がデジタル製品であり、次いで「バイパス」のドロップダウンフレームで特性クラス「F」が選択されるべきである。一般に、特性クラスはA〜Fの6つのクラスに配置することができ、その中で、A、BおよびCは、高リスクレベルでないが、D、E、およびFは、高リスクレベルのクラスである。当然ながら、特性クラスも、リアルタイムの条件に従って調整または変更することができる。
高リスク規則のあらゆるステップは、高リスク規則の下位規則と見なすことができ、ステップ1およびステップ5に対応する下位規則が高リスク規則の必要な記述を提供し、ステップ2、ステップ3およびステップ4に対応する下位規則が優先記述を提供する。実際的要求に従って、より多くの下位規則をシステムに追加することは、当業者によって容易に達成することができることが明らかである。
ステップ303:高リスク特性語、少なくとも1つの対応する高リスク規則、および高リスク特性語と少なくとも1つの対応する高リスク規則との間の相関関係を、高リスク特性ライブラリに格納する。
高リスク特性ライブラリは、反復使用および後の問い合わせの便宜を図るためにデータ構造の形式に配置することができる。
ステップ304:高リスク特性ライブラリをメモリシステムに保持する。
一実施形態では、高リスク特性ライブラリはメモリに保持することができる。実際には、高リスク特性語は、高リスク特性ライブラリからメモリ内にロードすることができる。高リスク特性語は、バイナリデータにコンパイルされてメモリに保持することができる。これは、システムが高リスク特性語をウェブページコンテンツからフィルタリングして除去し、高リスク規則を高リスク特性ライブラリからメモリにロードするのを容易にする。
一実施形態では、高リスク特性語および高リスク規則との相関関係が取り出されて、ハッシュテーブルに格納することができる。これは、高リスク特性語を考慮して、しかし極めて効果的なフィルタリングプロセスを必要とせずに、対応する高リスク規則を見つける便宜を図るであろう。
ステップ305:ユーザー端末によって提供された、またはユーザー端末から受信したウェブページコンテンツを検査する。
このステップでは、一実施形態におけるウェブページコンテンツを図5a、5b、5cおよび5dに示し、これは、ウェブページのインタフェースを示す。図5cは、ウェブページコンテンツの取引パラメータを示し、図5dは、ウェブページコンテンツの専門的パラメータを示す。
MP3製品を提供するウェブページコンテンツのキーワードは、デジタルであり、かつコンピュータ>デジタル製品>MP3というカスケーディング順で分類されたカテゴリと共に、MP3という語を含む。詳細な説明は、例えば、「今日、お客様にご紹介したいのは、韓国の有名ブランドのサムスンです。このブランドの製品は、消耗電子製品の幅広い分野をカバーしており、中国で非常に好評を博しています!その上、サムスンのMP3製品は、現地市場で相当な売上げを達成しています。多くの代表的な製品が世間で良く知られています。今日、新世代のサムスン製品が、適正かつ手頃な価格で市場に登場します。サムスンのこの製品が、間もなくお客様の目を捕えることは間違いないでしょう。」である。
ステップ306:検査が、ウェブページコンテンツが1つまたは複数の所定の高リスク特性語を含むことを検出すると、1つのまたは複数の高リスク特性語の各々に対応する少なくとも1つの高リスク規則が、メモリに格納されている高リスク特性ライブラリから取得される。
ステップ307:少なくとも1つの高リスク規則のウェブページコンテンツに対する照合を実行する。
ステップ308:少なくとも1つの高リスク規則の全ての下位規則がウェブページコンテンツに対して順調に照合することができると、高リスク規則の事前設定されたスコアを取得する。
例えば、高リスク規則の下位規則に対応する正規表現は「Rees|Smith|just cold」であり、ここで「|」は「または」を表す。この下位規則に従った高リスク特性語は、「Rees」、「Smith」および「just cold」である。その後、ウェブページコンテンツは、これらの高リスク特性語に基づいて検査されるであろう。高リスク規則内の下位規則要素は、これら3つの高リスク特性語の各々がウェブページコンテンツで検出されるか否かに基づき、「true(真)」または「false(偽)」として印を付けられる。例えば、「true|false|true」の結果は、ブール論理形式である。計算結果は「true」であり、それ故、下位規則の照合は成功と見なされて、対応する高リスク規則の事前設定されたスコアが取得されるであろう。
ステップ309:事前設定されたスコアの全確率が計算されて、その計算結果がウェブページコンテンツの特性スコアとして設定される。
以下の説明に対して、計算結果が0.5であると仮定する。
ステップ310:特性スコアが事前設定された閾値より大きいか否かを判定し、大きくない場合はステップ311に進み、大きい場合はステップ312に進む。
0.6の事前設定された閾値は、より正確な結果を取得することができるようにする、すなわち、最も好ましい閾値が0.6である。
ステップ311:ウェブページコンテンツの特性クラスが事前設定された条件に合致するか否かを判定し、合致する場合はステップ313に進み、合致しない場合はステップ312に進む。
本実施形態では、特性スコアが事前設定された閾値より小さい場合は、その特性クラスが事前設定された条件に合致するか否かの判定を継続する必要がある。例えば、クラスA、BまたはCのウェブページコンテンツは安全または信頼することができると考えられ、他方、クラスD、EまたはFのウェブページコンテンツは危険または信頼できないと考えられる。ウェブページコンテンツがクラスBの場合には、ステップ313が実行されるが、ウェブページコンテンツがクラスFの場合は、ステップ312が実行されることになる。
本実施形態では、特性スコアが事前設定された閾値より小さい場合には、対応する特性が事前設定された条件に合致しているか否かに関して判定が行われる。例えば、クラスA、BまたはCのコンテンツを有するウェブページは安全で信頼することができると考えられるが、クラスD、EまたはFのコンテンツを有するウェブページは、危険または信頼できず、そのままパブリッシュするには適していないと考えられる。ウェブページコンテンツがクラスBの場合は、ステップ313が実行されるが、ウェブページコンテンツがクラスFの場合は、ステップ312が実行されることになる。
このステップでは、ウェブページコンテンツに2つ以上の対応する高リスク規則が存在し、2つ以上の事前設定された特性クラスが取得される場合、最高の特性クラスが、そのウェブページコンテンツの特性クラスとして選択される。
ステップ312:ウェブページコンテンツをフィルタリングする。
ウェブページコンテンツのフィルタリングに加えて、ウェブページコンテンツをパブリッシュする前に、その安全性および信頼性を確実にするために、技術者によってコンテンツの特別な処理が行われてもよい。
ステップ313:ウェブページコンテンツをパブリッシュする。
310〜313での特性クラスを使用する動作は、特性スコアに基づくウェブページコンテンツの判定に対する調整を提供する。従って、特性スコアが、ウェブページコンテンツに含まれる情報が虚偽であるか否かの判定に使用されるような場合には、ウェブページコンテンツの特性クラスが特定の特性クラスであるか、またはウェブページコンテンツの特性クラスが特定の特性クラスであって、その上特性スコアが事前設定された閾値に近ければ、その情報は虚偽であって、パブリッシュに適していないと考えられる。他方、フィルタリングプロセスでは、特性スコアが、ウェブページコンテンツに含まれている情報が虚偽であるか否かの判定に使用される場合、判定は、特性クラスに部分的に基づいてもよい。特性クラスが特定の特性クラスである場合は、たとえ特性スコアが事前設定された閾値より大きくても、ウェブページコンテンツは、安全で信頼でき、そのままパブリッシュするのに適していると、なお考えられる場合がある。
この実施形態では、高リスク特性ライブラリはメモリ内に保持することができる。これは、処理操作の高い効率を確実にするため、高リスク特性語のおよび高リスク規則の検索において便宜を図ることができ、それにより、先行技術の技法と比較して、ウェブページコンテンツのより的確なフィルタリングを達成する。
簡略にするため、前述の実施形態は、一連の動作の組み合わせとして表現される。しかし、当業者には、本開示の同じステップを異なる順序で、または並行して実行することができるため、本開示は、前述の通りの動作の順序に制限されてはならないことが明らかであろう。さらに、本明細書で説明される実施形態は、動作およびモジュールが本開示によって必ずしも必要とされる動作およびモジュールではない好ましい実施形態であることが当業者には理解されるであろう。
図6に示すとおり、本開示のウェブページコンテンツのフィルタリング方法の第1実施形態で提供される方法に対応して、ウェブページコンテンツのフィルタリングシステムの第1実施形態も提供される。本フィルタリングシステムは、後述するいくつかの構成要素を含む。
検査ユニット601は、ユーザー端末によって提供された、またはユーザー端末から受信したウェブページコンテンツを検査する。
この実施形態では、ユーザーの端末を介して、ユーザーがeコマース関連情報をeコマースサーバーのウェブサイトに提供する。ユーザーは、eコマース関連情報を、ウェブサーバーによって提供されるウェブページに入力する。完了したウェブページコンテンツは、その後デジタル情報に変換されて、ウェブサーバーに配信され、次に、ウェブサーバーが受信したウェブページコンテンツの検査を実行する。検査ユニット601は、ウェブページのコンテンツが所定の高リスク特性語のいずれかを含んでいるか否かを判定するために、受信した情報の内容全体に対する走査を実行する必要がある。高リスク特性語は、一般的な禁忌語、製品関連語、またはネットワーク管理者によって指定された語を含む、所定の語または語の組み合わせである。
照合および規則取得ユニット602は、高リスク特性語の各々に対応する少なくとも1つの高リスク規則を所定の高リスク特性ライブラリから取得する。
高リスク特性ライブラリは、高リスク特性語、高リスク特性語の各々に対応する少なくとも1つの高リスク規則、および高リスク特性語と高リスク規則と間の相関関係を保持するためのものである。高リスク特性ライブラリは、対応する情報を高リスク特性ライブラリから直接取得することができるように、事前に決定することができる。高リスク規則の内容は、1つもしくは複数のウェブページのタイプ、1つもしくは複数のパブリッシュ元、または高リスク特性語の出現に関連する1つもしくは複数の要素など、高リスク特性語に関連する制限または追加内容を含むことになる。高リスク規則および高リスク特性語は、相互に対応する。それらの組み合わせは、ウェブページコンテンツのフィルタリングを実行するための必要な条件と考えられる。
特性スコア取得ユニット603は、少なくとも1つの高リスク規則のウェブページコンテンツに対する照合に基づき、そのウェブページコンテンツの特性スコアを取得する。
ウェブページコンテンツは、そのウェブページコンテンツで検出された高リスク特性語に対応する高リスク規則と照合される。その照合は、ウェブページコンテンツにその高リスク特性語が出現した順に実行されてもよく、高リスク特性語の照合は、高リスク規則の順序に従って1つずつ行われてもよい。高リスク特性語の照合が完了すると、対応する少なくとも1つの高リスク規則の照合が行われるであろう。全ての高リスク規則がウェブページコンテンツと照合されると、高リスク規則の照合は完了したと見なされて、対応する事前設定されたスコアが取得される場合がある。全ての高リスク規則に基づく事前設定されたスコアが取得されると、全確率公式を使用して、最終的なスコアが計算される。計算結果は、ウェブページコンテンツの特性スコアとして使用されてもよく、特性スコアの範囲は0と1の間の任意の数である。
フィルタリングユニット604は、特性スコアに基づいてウェブページコンテンツをフィルタリングする。
フィルタリングは、特性スコアが事前設定された閾値よりも大きいか否かを調べるために、特性スコアをその閾値と比較することによって行われてもよい。例えば、特性スコアが0.6より大きい場合、ウェブコンテンツは、パブリッシュに適していない危険な情報を含むと見なされ、その情報は、ネットワーク管理者による手動の介入のために、バックグラウンドに移動される場合がある。特性スコアが0.6より小さい場合、ウェブページのコンテンツは安全または本物であり、パブリッシュすることができる。このようにして、パブリッシュに適していない危険または虚偽の情報を除去することができる。
本開示のシステムは、eコマース取引のウェブサイトで実施されてもよく、eコマースに関連する情報のフィルタリングを果たすために、eコマースシステムのサーバーに統合されてもよい。一実施形態では、高リスク規則の事前設定されたスコアは、ウェブページコンテンツ内の高リスク特性語と高リスク特性ライブラリからの高リスク規則が照合された後にのみ、取得される。ウェブページコンテンツの特性スコアは、全ての事前設定されたスコアについて全確率計算を実行することによって取得される。従って、ウェブページコンテンツのフィルタリングは、ウェブページコンテンツでの標本空間の出現確率を計算することによってのみフィルタリングを実行する既存の技術と比較して、より安全でより信頼できるオンライン取引を達成するためには、より的確である。
ウェブページコンテンツをフィルタリングするための方法の第2実施形態に対応するシステムが図7に示される。
本システムは、以下で説明されるいくつかの構成要素を含む。
第1設定ユニット701は高リスク特性語および少なくとも1つの対応する高リスク規則を設定する。
この実施形態では、高リスク特性語は、特別保守システムによって管理することができる。実際には、eコマース情報は通常、高リスク特性語に対して照合される場合がある多数の部分を含む。高リスク特性語は、例えば、eコマース情報のタイトル、キーワード、カテゴリ、内容の詳細記述、取引パラメータ、および専門的説明パラメータなど、様々な態様に関連する場合がある。
記憶ユニット702は、高リスク特性語、少なくとも1つの対応する高リスク規則、および高リスク特性語と少なくとも1つの対応する高リスク規則との間の相関関係を高リスク特性ライブラリに格納する。
検査ユニット601は、ユーザー端末からアップロードされたウェブページコンテンツを検査する。
照合および規則取得ユニット602は、高リスク特性ライブラリから、ウェブページコンテンツで検出された高リスク特性語に対応する少なくとも1つの高リスク規則を取得する。
下位照合ユニット703は、高リスク規則をウェブページコンテンツに対して照合する。
下位取得ユニット704は、高リスク規則の全ての下位規則が順調に照合された場合に、高リスク規則の事前設定されたスコアを取得する。
高リスク規則はいくつかの下位規則を含んでもよい。高リスク規則の全ての下位規則がウェブページコンテンツと順調に照合されると、高リスク規則の事前設定されたスコアを高リスク特性ライブラリから取得することができる。従って、高リスク特性語が照合されて、全確率計算を実行するために効率的な高リスク規則が決定される。
下位計算ユニット705は、全ての適格な事前設定されたスコアの全確率計算を実行し、計算結果がそのウェブページコンテンツの特性スコアとして使用される。
高リスク特性語がウェブページコンテンツと照合され、その高リスク特性語が5つの対応する高リスク規則を持つと仮定する。例えば、前述の高リスク規則のうちの4つだけの内容がウェブページコンテンツに含まれている場合、その4つの高リスク規則に基づく全確率計算が、eコマース情報の特性スコアとして使用されることになる。
第1下位判定ユニット706は、特性スコアが事前設定された閾値より大きいか否かを判定する。
下位フィルタリングユニット707は、第1下位判定ユニットによる判定結果が肯定の場合、ウェブページコンテンツをフィルタリングする。
第1パブリッシュユニット708は、第1下位判定ユニットによる判定結果が否定の場合、ウェブページコンテンツをそのままパブリッシュする。
一実施形態では、高リスク特性ライブラリは、所定の高リスク特性語、高リスク特性語に対応する高リスク規則、およびそれらの間の相関関係を含む。高リスク特性ライブラリは、高リスク特性語、高リスク規則、およびそれらの間の相関関係の更新または追加が容易にできて、その更新または追加がフィルタリングシステムの操作を妨げないように、フィルタリングシステムの外側にある独立したシステムに配置することができる特別システムによって管理されてもよい。
第3実施形態に対応するウェブページコンテンツのフィルタリングシステムを図8に示す。本システムは、以下で説明されるいくつかの構成要素を含む。
第1設定ユニット701は、高リスク特性語、および高リスク特性語の各々に対応する、少なくとも1つの対応する高リスク規則を設定する。
第2設定ユニット801は、ウェブページコンテンツの特性クラスを高リスク規則に設定する。
一実施形態では、特性クラスは、高リスク規則がウェブページコンテンツの特性クラスを含んでもよいように、高リスク規則の定義に設定されてもよい。特性クラスは、クラスA、B、CおよびDの1つとすることができ、例えば、クラスAまたはクラスBの情報はそのままパブリッシュすることができ、他方、クラスCまたはクラスDのウェブページコンテンツは危険または虚偽である場合があり、その情報をパブリッシュするためには、危険な情報の削除を含め、手動介入が完了される場合がある。
記憶ユニット702は、高リスク特性語、高リスク特性語の各々に対応する少なくとも1つの高リスク規則、およびそれらの間の相関関係を高リスク特性ライブラリに格納する。
メモリ記憶ユニット802は、高リスク特性ライブラリをメモリに直接格納する。
この実施形態では、高リスク特性ライブラリは、ライブラリ内の高リスク特性語がバイナリデータにコンパイルされ、その後メモリに格納されるような方法で、メモリに直接格納することができる。これは、ウェブページコンテンツから高リスク特性語をフィルタリングして除去して、高リスク特性ライブラリをメモリにロードする。
実際には、高リスク特性語、高リスク規則、およびそれらの間の相関関係をハッシュテーブルに格納することができる。これは、フィルタリングシステムの性能をさらに向上させる必要なく、高リスク特性語に対応する対応する高リスク規則の識別を容易にする。
検査ユニット601は、ユーザー端末からアップロードされたウェブページコンテンツを検査する。
照合および規則取得ユニット602は、ウェブページコンテンツが高リスク特性語を含むことを検査が検出した場合、高リスク特性ライブラリから、高リスク特性語の各々に対応する少なくとも1つの高リスク規則を取得する。
下位照合ユニット703は、高リスク規則をウェブページコンテンツと照合する。
下位取得ユニット704は、高リスク規則の全ての下位規則がうまく照合された場合、高リスク規則の事前設定されたスコアを取得する。
下位計算ユニット705は、全ての適格な事前設定されたスコアの全確率計算を実行し、その計算結果は、ウェブページコンテンツの特性スコアとして使用される。
フィルタリングユニット604は、特性スコアおよび特性クラスに基づいて、ウェブページコンテンツをフィルタリングする。
一実施形態では、フィルタリングユニット604は、第1下位判定ユニット706、第2下位判定ユニット803、第2下位パブリッシュユニット804、および下位フィルタリング下位ユニット707をさらに含む。
第1下位判定ユニット706は、特性スコアが事前設定された閾値より大きいか否かを判定する。
第2下位判定ユニット803は、第1下位判定ユニット706の判定結果が肯定の場合、ウェブページコンテンツの特性クラスが事前設定された条件に合致するか否かを判定する。
第2下位パブリッシュユニット804は、第2下位判定ユニット803による判定結果が肯定の場合、そのウェブページコンテンツをパブリッシュする。
下位フィルタリング下位ユニット707は、第1下位判定ユニット706による判定結果が肯定の場合、または第2下位判定ユニット803による判定結果が肯定の場合、ウェブページコンテンツをフィルタリングする。
前述した全ての実施形態は、進歩的な方法で説明されている。各実施形態の焦点となる説明は、他の実施形態との相違であり、各実施形態の類似または同一な部分は各説明の後に言及される可能性がある。システムの実施形態に関しては、原理は方法の実施形態と同じであるため、簡潔な説明のみを与えた。
本開示の説明において、第1および第2などの用語は、ある物体または操作の、他の物体または操作との区別のみを目的とし、それらの間の順序または連続関係を意味するものではない。用語の「含む(including)」および「備える(comprising)」または同様の語は、包含のためであり、排他を目的とするものでない。従って、プロセス、方法、物体もしくは機器は、明示的に説明された要素だけでなく、明示的に説明されていない要素も含むか、またはプロセス、方法、物体もしくは機器の固有の要素をも含むべきである。制限がない場合に、制限的な用語の「〜を含めて(including a ...)」は、その要素を含むプロセス、方法、物体または機器が他の同様の要素も含む可能性を除外するものではない。
前述は、eコマース情報のフィルタリングのための方法およびシステムの説明である。例は、本開示の実施形態の原理および手法を説明するために採用されている。各実施形態の説明は、本開示の方法および核となる概念の理解を助けるためである。従って、本開示の精神から逸脱することのない、実施の適用および手法の変更は、当業者には明らかであり、それ故、それらも本開示の添付の特許請求の範囲によってさらに包含されるであろう。

Claims (16)

  1. ウェブページコンテンツをフィルタリングする方法であって、
    ユーザーによって提供された前記ウェブページコンテンツを検査することと、
    前記ウェブページコンテンツの前記検査が高リスク特性語を検出した場合に、少なくとも1つの高リスク規則を高リスク特性ライブラリから取得することであって、前記少なくとも1つの高リスク規則は前記高リスク特性語に対応する、取得することと、
    前記少なくとも1つの高リスク規則の前記ウェブページコンテンツに対する照合に基づき前記ウェブページコンテンツの特性スコアを取得することと、
    前記特性スコアに基づき前記ウェブページコンテンツをフィルタリングすることと
    を含むことを特徴とする方法。
  2. 前記少なくとも1つの高リスク規則の前記ウェブページコンテンツに対する照合に基づき前記ウェブページコンテンツの特性スコアを取得することが、
    前記少なくとも1つの高リスク規則を前記ウェブページコンテンツに対して照合することと、
    前記少なくとも1つの高リスク規則を前記ウェブページコンテンツと照合した時に前記少なくとも1つの高リスク規則の事前設定されたスコアを取得することと、
    前記事前設定されたスコアに基づき全確率計算を実行して、結果を前記ウェブページコンテンツの特性スコアとして提供することと
    を含むことを特徴とする請求項1に記載の方法。
  3. 前記少なくとも1つの高リスク規則の前記ウェブページコンテンツに対する照合に基づき前記ウェブページコンテンツの特性スコアを取得することが、
    前記少なくとも1つの高リスク規則を前記ウェブページコンテンツに対して照合することと、
    前記少なくとも1つの高リスク規則の下位規則を前記ウェブページコンテンツと照合した時に前記少なくとも1つの高リスク規則の事前設定されたスコアを取得することと、
    前記事前設定されたスコアに基づき全確率計算を実行して、結果を前記ウェブページコンテンツの特性スコアとして提供することと
    を含むことを特徴とする請求項1に記載の方法。
  4. 前記特性スコアに基づき前記ウェブページコンテンツをフィルタリングすることが、
    前記特性スコアが事前設定された閾値より大きいか否かを判定することと、
    前記特性スコアが前記事前設定された閾値より大きい場合に前記ウェブページコンテンツをフィルタリングすることと、
    前記特性スコアが前記事前設定された閾値より小さい場合に、フィルタリングすることなく、前記ウェブページコンテンツをパブリッシュすることと
    を含むことを特徴とする請求項1に記載の方法。
  5. ユーザーによって提供された前記ウェブページコンテンツを検査する前に、
    前記高リスク特性語および前記高リスク特性語に対応する前記少なくとも1つの高リスク規則を設定することと、
    前記高リスク特性語、前記少なくとも1つの高リスク規則、および前記高リスク特性語と前記少なくとも1つの高リスク規則との間の相関関係を前記高リスク特性ライブラリに格納することと
    をさらに含むことを特徴とする請求項1に記載の方法。
  6. 前記高リスク特性ライブラリをメモリに格納することをさらに含むことを特徴とする請求項5に記載の方法。
  7. 前記ウェブページコンテンツの特性クラスを前記少なくとも1つの高リスク規則に設定することをさらに含み、前記特性スコアに基づいて前記ウェブページコンテンツをフィルタリングすることが、前記特性スコアおよび前記特性クラスに基づいて前記ウェブページコンテンツをフィルタリングすることを含むことを特徴とする請求項5に記載の方法。
  8. 前記特性スコアおよび前記特性クラスに基づいて前記ウェブページコンテンツをフィルタリングすることが、
    前記特性スコアが事前設定された閾値より大きいか否かを判定することと、
    前記特性スコアが前記事前設定された閾値より大きい場合に、前記ウェブページコンテンツをフィルタリングすることと、
    前記特性スコアが前記事前設定された閾値より小さい場合に、前記特性クラスが事前設定された条件に合致するか否かを判定することと、
    前記特性クラスが前記事前設定された条件に合致する場合に、前記ウェブページコンテンツをパブリッシュすることと、
    前記特性クラスが前記事前設定された条件に合致しない場合に、前記ウェブページコンテンツをフィルタリングすることと
    を含むことを特徴とする請求項7に記載の方法。
  9. 前記特性スコアおよび前記特性クラスに基づいて前記ウェブページコンテンツをフィルタリングすることが、
    前記特性スコアが事前設定された閾値より大きいか否かを判定することと、
    前記特性クラスが前記事前設定された条件に合致する場合に、前記ウェブページコンテンツをパブリッシュすることと、
    前記特性クラスが前記事前設定された条件に合致しない場合に、前記ウェブページコンテンツをフィルタリングすることと
    を含むことを特徴とする請求項7に記載の方法。
  10. ウェブページコンテンツのフィルタリングシステムであって、
    ユーザーから受信したウェブページコンテンツを検査する検査ユニットと、
    前記検査ユニットが前記ウェブページコンテンツで所定の高リスク特性語を検出した場合に、対応する少なくとも1つの高リスク規則を高リスク特性ライブラリから取得する照合および規則取得ユニットであって、前記少なくとも1つの高リスク規則は前記高リスク特性語に対応する、照合および規則取得ユニットと、
    前記少なくとも1つの高リスク規則の前記ウェブページコンテンツに対する照合に基づき、前記ウェブページコンテンツの特性スコアを取得する特性スコア取得ユニットと、
    前記特性スコアに基づき前記ウェブページコンテンツをフィルタリングするフィルタリングユニットと
    を備えることを特徴とするシステム。
  11. 前記特性スコア取得ユニットが、
    前記少なくとも1つの高リスク規則を前記ウェブページコンテンツに対して照合する下位照合ユニットと、
    前記高リスク規則の下位規則が前記ウェブページコンテンツに対して照合されている場合に、高リスク規則の事前設定されたスコアを取得する下位取得ユニットと、
    適格な事前設定されたスコアに基づき全確率を計算して、結果を前記ウェブページコンテンツの特性スコアとして提供する下位計算ユニットと
    を備えることを特徴とする請求項10に記載のシステム。
  12. 前記フィルタリングユニットが、
    前記特性スコアが事前設定された閾値より大きいか否かを判定する第1下位判定ユニットと、
    前記特性スコアが事前設定された閾値より大きい場合に、前記ウェブページコンテンツをフィルタリングする下位フィルタリングユニットと、
    前記特性スコアが事前設定された閾値より小さい場合に、前記ウェブページコンテンツをパブリッシュする第1パブリッシュユニットと
    を備えることを特徴とする請求項10に記載のシステム。
  13. 前記高リスク特性語および前記高リスク特性語に対応する前記少なくとも1つの高リスク規則を設定する第1設定ユニットと、
    前記高リスク特性語、前記少なくとも1つの高リスク規則、および前記高リスク特性語と前記少なくとも1つの高リスク規則との間の相関関係を、前記高リスク特性ライブラリに格納する記憶ユニットと
    をさらに備えることを特徴とする請求項10に記載のシステム。
  14. 前記高リスク特性ライブラリをメモリに格納するメモリ記憶ユニットをさらに備えることを特徴とする請求項13に記載のシステム。
  15. 前記ウェブページコンテンツの特性クラスを前記少なくとも1つの高リスク規則に設定する第2設定ユニットをさらに含み、前記フィルタリングユニットが、前記特性スコアおよび前記特性クラスに基づき前記ウェブページコンテンツをフィルタリングすることを特徴とする請求項13に記載のシステム。
  16. 前記フィルタリングユニットが、
    前記特性スコアが事前設定された閾値より大きいか否かを判定する第1下位判定ユニットと、
    前記第1下位判定ユニットによる判定結果が肯定である場合に、前記特性クラスが事前設定された条件に合致するか否かを判定する第2下位判定ユニットと、
    前記第1下位判定ユニットによる判定結果が否定でない場合に、前記ウェブページコンテンツをパブリッシュする第2パブリッシュユニットと、
    前記第1下位判定ユニットによる判定結果が肯定であるか、または前記第2下位判定ユニットによる判定結果が肯定である場合に、前記ウェブページコンテンツをフィルタリングする下位フィルタリングユニットと
    を含むことを特徴とする請求項15に記載のシステム。
JP2012524719A 2009-08-13 2010-07-20 ウェブページコンテンツフィルタリングのための方法およびシステム Expired - Fee Related JP5600168B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN2009101652270A CN101996203A (zh) 2009-08-13 2009-08-13 一种过滤网页信息的方法和系统
CN200910165227.0 2009-08-13
PCT/US2010/042536 WO2011019485A1 (en) 2009-08-13 2010-07-20 Method and system of web page content filtering

Publications (2)

Publication Number Publication Date
JP2013502000A true JP2013502000A (ja) 2013-01-17
JP5600168B2 JP5600168B2 (ja) 2014-10-01

Family

ID=43586384

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012524719A Expired - Fee Related JP5600168B2 (ja) 2009-08-13 2010-07-20 ウェブページコンテンツフィルタリングのための方法およびシステム

Country Status (5)

Country Link
US (1) US20120131438A1 (ja)
EP (1) EP2465041A4 (ja)
JP (1) JP5600168B2 (ja)
CN (1) CN101996203A (ja)
WO (1) WO2011019485A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014063393A (ja) * 2012-09-21 2014-04-10 Yahoo Japan Corp 情報処理装置及び方法
KR101873339B1 (ko) * 2016-06-22 2018-07-03 네이버 주식회사 관심사 및 콘텐츠를 제공하는 방법 및 시스템

Families Citing this family (155)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102170640A (zh) * 2011-06-01 2011-08-31 南通海韵信息技术服务有限公司 基于模式库的智能手机端不良内容网站鉴别方法
CN102982048B (zh) * 2011-09-07 2017-08-01 百度在线网络技术(北京)有限公司 一种用于评估垃圾信息挖掘规则的方法与设备
TW201312369A (zh) * 2011-09-13 2013-03-16 Univ Nat Central 網頁內容過濾方法以及具網頁內容過濾功能之網路設備
US8813239B2 (en) * 2012-01-17 2014-08-19 Bitdefender IPR Management Ltd. Online fraud detection dynamic scoring aggregation systems and methods
CN103324615A (zh) * 2012-03-19 2013-09-25 哈尔滨安天科技股份有限公司 基于搜索引擎优化的钓鱼网站探测方法及系统
CN103379024B (zh) * 2012-04-26 2018-07-10 腾讯科技(深圳)有限公司 微博信息发布方法和服务器
US8893281B1 (en) * 2012-06-12 2014-11-18 VivoSecurity, Inc. Method and apparatus for predicting the impact of security incidents in computer systems
CN103906066B (zh) * 2012-12-27 2016-03-23 腾讯科技(北京)有限公司 一种用户生成内容提及的骚扰屏蔽方法和装置
US9201954B1 (en) * 2013-03-01 2015-12-01 Amazon Technologies, Inc. Machine-assisted publisher classification
CN103345530B (zh) * 2013-07-25 2017-07-14 南京邮电大学 一种基于语义网的社交网络黑名单自动过滤模型
CN103473299B (zh) * 2013-09-06 2017-02-08 北京锐安科技有限公司 一种网站不良似然度获取方法和装置
CN105446968B (zh) * 2014-06-04 2018-12-25 广州市动景计算机科技有限公司 一种检测网页特征区域的方法和装置
US9729583B1 (en) 2016-06-10 2017-08-08 OneTrust, LLC Data processing systems and methods for performing privacy assessments and monitoring of new versions of computer code for privacy compliance
AU2016102425A4 (en) * 2015-04-28 2019-10-24 Red Marker Pty Ltd Device, process and system for risk mitigation
US20170229146A1 (en) * 2016-02-10 2017-08-10 Justin Garak Real-time content editing with limited interactivity
US11244367B2 (en) 2016-04-01 2022-02-08 OneTrust, LLC Data processing systems and methods for integrating privacy information management systems with data loss prevention tools or other tools for privacy design
US20220164840A1 (en) 2016-04-01 2022-05-26 OneTrust, LLC Data processing systems and methods for integrating privacy information management systems with data loss prevention tools or other tools for privacy design
US10706447B2 (en) 2016-04-01 2020-07-07 OneTrust, LLC Data processing systems and communication systems and methods for the efficient generation of privacy risk assessments
US11004125B2 (en) 2016-04-01 2021-05-11 OneTrust, LLC Data processing systems and methods for integrating privacy information management systems with data loss prevention tools or other tools for privacy design
US11188862B2 (en) 2016-06-10 2021-11-30 OneTrust, LLC Privacy management systems and methods
US10803200B2 (en) 2016-06-10 2020-10-13 OneTrust, LLC Data processing systems for processing and managing data subject access in a distributed environment
US10572686B2 (en) 2016-06-10 2020-02-25 OneTrust, LLC Consent receipt management systems and related methods
US10896394B2 (en) 2016-06-10 2021-01-19 OneTrust, LLC Privacy management systems and methods
US10708305B2 (en) 2016-06-10 2020-07-07 OneTrust, LLC Automated data processing systems and methods for automatically processing requests for privacy-related information
US11100444B2 (en) 2016-06-10 2021-08-24 OneTrust, LLC Data processing systems and methods for providing training in a vendor procurement process
US11200341B2 (en) 2016-06-10 2021-12-14 OneTrust, LLC Consent receipt management systems and related methods
US11544667B2 (en) 2016-06-10 2023-01-03 OneTrust, LLC Data processing systems for generating and populating a data inventory
US11227247B2 (en) 2016-06-10 2022-01-18 OneTrust, LLC Data processing systems and methods for bundled privacy policies
US10282700B2 (en) 2016-06-10 2019-05-07 OneTrust, LLC Data processing systems for generating and populating a data inventory
US10585968B2 (en) 2016-06-10 2020-03-10 OneTrust, LLC Data processing systems for fulfilling data subject access requests and related methods
US10839102B2 (en) 2016-06-10 2020-11-17 OneTrust, LLC Data processing systems for identifying and modifying processes that are subject to data subject access requests
US10713387B2 (en) 2016-06-10 2020-07-14 OneTrust, LLC Consent conversion optimization systems and related methods
US11366786B2 (en) 2016-06-10 2022-06-21 OneTrust, LLC Data processing systems for processing data subject access requests
US11277448B2 (en) 2016-06-10 2022-03-15 OneTrust, LLC Data processing systems for data-transfer risk identification, cross-border visualization generation, and related methods
US11138299B2 (en) 2016-06-10 2021-10-05 OneTrust, LLC Data processing and scanning systems for assessing vendor risk
US11416798B2 (en) 2016-06-10 2022-08-16 OneTrust, LLC Data processing systems and methods for providing training in a vendor procurement process
US10592648B2 (en) 2016-06-10 2020-03-17 OneTrust, LLC Consent receipt management systems and related methods
US10510031B2 (en) 2016-06-10 2019-12-17 OneTrust, LLC Data processing systems for identifying, assessing, and remediating data processing risks using data modeling techniques
US10678945B2 (en) 2016-06-10 2020-06-09 OneTrust, LLC Consent receipt management systems and related methods
US10796260B2 (en) 2016-06-10 2020-10-06 OneTrust, LLC Privacy management systems and methods
US11562097B2 (en) 2016-06-10 2023-01-24 OneTrust, LLC Data processing systems for central consent repository and related methods
US10607028B2 (en) 2016-06-10 2020-03-31 OneTrust, LLC Data processing systems for data testing to confirm data deletion and related methods
US11328092B2 (en) 2016-06-10 2022-05-10 OneTrust, LLC Data processing systems for processing and managing data subject access in a distributed environment
US11138242B2 (en) 2016-06-10 2021-10-05 OneTrust, LLC Data processing systems and methods for automatically detecting and documenting privacy-related aspects of computer software
US11727141B2 (en) 2016-06-10 2023-08-15 OneTrust, LLC Data processing systems and methods for synching privacy-related user consent across multiple computing devices
US10997318B2 (en) 2016-06-10 2021-05-04 OneTrust, LLC Data processing systems for generating and populating a data inventory for processing data access requests
US10762236B2 (en) 2016-06-10 2020-09-01 OneTrust, LLC Data processing user interface monitoring systems and related methods
US10284604B2 (en) 2016-06-10 2019-05-07 OneTrust, LLC Data processing and scanning systems for generating and populating a data inventory
US11403377B2 (en) 2016-06-10 2022-08-02 OneTrust, LLC Privacy management systems and methods
US11210420B2 (en) 2016-06-10 2021-12-28 OneTrust, LLC Data subject access request processing systems and related methods
US10776517B2 (en) 2016-06-10 2020-09-15 OneTrust, LLC Data processing systems for calculating and communicating cost of fulfilling data subject access requests and related methods
US10706379B2 (en) 2016-06-10 2020-07-07 OneTrust, LLC Data processing systems for automatic preparation for remediation and related methods
US10353673B2 (en) 2016-06-10 2019-07-16 OneTrust, LLC Data processing systems for integration of consumer feedback with data subject access requests and related methods
US10878127B2 (en) 2016-06-10 2020-12-29 OneTrust, LLC Data subject access request processing systems and related methods
US11636171B2 (en) 2016-06-10 2023-04-25 OneTrust, LLC Data processing user interface monitoring systems and related methods
US10769301B2 (en) 2016-06-10 2020-09-08 OneTrust, LLC Data processing systems for webform crawling to map processing activities and related methods
US10242228B2 (en) 2016-06-10 2019-03-26 OneTrust, LLC Data processing systems for measuring privacy maturity within an organization
US11057356B2 (en) 2016-06-10 2021-07-06 OneTrust, LLC Automated data processing systems and methods for automatically processing data subject access requests using a chatbot
US10873606B2 (en) 2016-06-10 2020-12-22 OneTrust, LLC Data processing systems for data-transfer risk identification, cross-border visualization generation, and related methods
US11366909B2 (en) 2016-06-10 2022-06-21 OneTrust, LLC Data processing and scanning systems for assessing vendor risk
US10503926B2 (en) 2016-06-10 2019-12-10 OneTrust, LLC Consent receipt management systems and related methods
US10565397B1 (en) 2016-06-10 2020-02-18 OneTrust, LLC Data processing systems for fulfilling data subject access requests and related methods
US11343284B2 (en) 2016-06-10 2022-05-24 OneTrust, LLC Data processing systems and methods for performing privacy assessments and monitoring of new versions of computer code for privacy compliance
US11336697B2 (en) 2016-06-10 2022-05-17 OneTrust, LLC Data processing systems for data-transfer risk identification, cross-border visualization generation, and related methods
US10642870B2 (en) 2016-06-10 2020-05-05 OneTrust, LLC Data processing systems and methods for automatically detecting and documenting privacy-related aspects of computer software
US11144622B2 (en) 2016-06-10 2021-10-12 OneTrust, LLC Privacy management systems and methods
US10169609B1 (en) 2016-06-10 2019-01-01 OneTrust, LLC Data processing systems for fulfilling data subject access requests and related methods
US10454973B2 (en) 2016-06-10 2019-10-22 OneTrust, LLC Data processing systems for data-transfer risk identification, cross-border visualization generation, and related methods
US10726158B2 (en) 2016-06-10 2020-07-28 OneTrust, LLC Consent receipt management and automated process blocking systems and related methods
US10776514B2 (en) 2016-06-10 2020-09-15 OneTrust, LLC Data processing systems for the identification and deletion of personal data in computer systems
US11341447B2 (en) 2016-06-10 2022-05-24 OneTrust, LLC Privacy management systems and methods
US11301796B2 (en) 2016-06-10 2022-04-12 OneTrust, LLC Data processing systems and methods for customizing privacy training
US10706176B2 (en) 2016-06-10 2020-07-07 OneTrust, LLC Data-processing consent refresh, re-prompt, and recapture systems and related methods
US11222309B2 (en) 2016-06-10 2022-01-11 OneTrust, LLC Data processing systems for generating and populating a data inventory
US11025675B2 (en) 2016-06-10 2021-06-01 OneTrust, LLC Data processing systems and methods for performing privacy assessments and monitoring of new versions of computer code for privacy compliance
US11222139B2 (en) 2016-06-10 2022-01-11 OneTrust, LLC Data processing systems and methods for automatic discovery and assessment of mobile software development kits
US11157600B2 (en) 2016-06-10 2021-10-26 OneTrust, LLC Data processing and scanning systems for assessing vendor risk
US10776518B2 (en) 2016-06-10 2020-09-15 OneTrust, LLC Consent receipt management systems and related methods
US11087260B2 (en) 2016-06-10 2021-08-10 OneTrust, LLC Data processing systems and methods for customizing privacy training
US11354435B2 (en) 2016-06-10 2022-06-07 OneTrust, LLC Data processing systems for data testing to confirm data deletion and related methods
US10706131B2 (en) 2016-06-10 2020-07-07 OneTrust, LLC Data processing systems and methods for efficiently assessing the risk of privacy campaigns
US11675929B2 (en) 2016-06-10 2023-06-13 OneTrust, LLC Data processing consent sharing systems and related methods
US10949565B2 (en) 2016-06-10 2021-03-16 OneTrust, LLC Data processing systems for generating and populating a data inventory
US10565161B2 (en) 2016-06-10 2020-02-18 OneTrust, LLC Data processing systems for processing data subject access requests
US10685140B2 (en) 2016-06-10 2020-06-16 OneTrust, LLC Consent receipt management systems and related methods
US10496846B1 (en) 2016-06-10 2019-12-03 OneTrust, LLC Data processing and communications systems and methods for the efficient implementation of privacy by design
US10318761B2 (en) 2016-06-10 2019-06-11 OneTrust, LLC Data processing systems and methods for auditing data request compliance
US10706174B2 (en) 2016-06-10 2020-07-07 OneTrust, LLC Data processing systems for prioritizing data subject access requests for fulfillment and related methods
US11023842B2 (en) 2016-06-10 2021-06-01 OneTrust, LLC Data processing systems and methods for bundled privacy policies
US11146566B2 (en) 2016-06-10 2021-10-12 OneTrust, LLC Data processing systems for fulfilling data subject access requests and related methods
US10853501B2 (en) 2016-06-10 2020-12-01 OneTrust, LLC Data processing and scanning systems for assessing vendor risk
US10606916B2 (en) 2016-06-10 2020-03-31 OneTrust, LLC Data processing user interface monitoring systems and related methods
US10909488B2 (en) 2016-06-10 2021-02-02 OneTrust, LLC Data processing systems for assessing readiness for responding to privacy-related incidents
US10467432B2 (en) 2016-06-10 2019-11-05 OneTrust, LLC Data processing systems for use in automatically generating, populating, and submitting data subject access requests
US11438386B2 (en) 2016-06-10 2022-09-06 OneTrust, LLC Data processing systems for data-transfer risk identification, cross-border visualization generation, and related methods
US11354434B2 (en) 2016-06-10 2022-06-07 OneTrust, LLC Data processing systems for verification of consent and notice processing and related methods
US11134086B2 (en) 2016-06-10 2021-09-28 OneTrust, LLC Consent conversion optimization systems and related methods
US11295316B2 (en) 2016-06-10 2022-04-05 OneTrust, LLC Data processing systems for identity validation for consumer rights requests and related methods
US10848523B2 (en) 2016-06-10 2020-11-24 OneTrust, LLC Data processing systems for data-transfer risk identification, cross-border visualization generation, and related methods
US11416589B2 (en) 2016-06-10 2022-08-16 OneTrust, LLC Data processing and scanning systems for assessing vendor risk
US11228620B2 (en) 2016-06-10 2022-01-18 OneTrust, LLC Data processing systems for data-transfer risk identification, cross-border visualization generation, and related methods
US10565236B1 (en) 2016-06-10 2020-02-18 OneTrust, LLC Data processing systems for generating and populating a data inventory
US11475136B2 (en) 2016-06-10 2022-10-18 OneTrust, LLC Data processing systems for data transfer risk identification and related methods
US11238390B2 (en) 2016-06-10 2022-02-01 OneTrust, LLC Privacy management systems and methods
US11392720B2 (en) 2016-06-10 2022-07-19 OneTrust, LLC Data processing systems for verification of consent and notice processing and related methods
US11625502B2 (en) 2016-06-10 2023-04-11 OneTrust, LLC Data processing systems for identifying and modifying processes that are subject to data subject access requests
US11151233B2 (en) 2016-06-10 2021-10-19 OneTrust, LLC Data processing and scanning systems for assessing vendor risk
US10740487B2 (en) 2016-06-10 2020-08-11 OneTrust, LLC Data processing systems and methods for populating and maintaining a centralized database of personal data
US10592692B2 (en) 2016-06-10 2020-03-17 OneTrust, LLC Data processing systems for central consent repository and related methods
US11038925B2 (en) 2016-06-10 2021-06-15 OneTrust, LLC Data processing systems for data-transfer risk identification, cross-border visualization generation, and related methods
US10846433B2 (en) 2016-06-10 2020-11-24 OneTrust, LLC Data processing consent management systems and related methods
US10416966B2 (en) 2016-06-10 2019-09-17 OneTrust, LLC Data processing systems for identity validation of data subject access requests and related methods
US10949170B2 (en) 2016-06-10 2021-03-16 OneTrust, LLC Data processing systems for integration of consumer feedback with data subject access requests and related methods
US10944725B2 (en) 2016-06-10 2021-03-09 OneTrust, LLC Data processing systems and methods for using a data model to select a target data asset in a data migration
US10798133B2 (en) 2016-06-10 2020-10-06 OneTrust, LLC Data processing systems for data-transfer risk identification, cross-border visualization generation, and related methods
US10282559B2 (en) 2016-06-10 2019-05-07 OneTrust, LLC Data processing systems for identifying, assessing, and remediating data processing risks using data modeling techniques
US10783256B2 (en) 2016-06-10 2020-09-22 OneTrust, LLC Data processing systems for data transfer risk identification and related methods
US11461500B2 (en) 2016-06-10 2022-10-04 OneTrust, LLC Data processing systems for cookie compliance testing with website scanning and related methods
US11418492B2 (en) 2016-06-10 2022-08-16 OneTrust, LLC Data processing systems and methods for using a data model to select a target data asset in a data migration
US11651104B2 (en) 2016-06-10 2023-05-16 OneTrust, LLC Consent receipt management systems and related methods
US11651106B2 (en) 2016-06-10 2023-05-16 OneTrust, LLC Data processing systems for fulfilling data subject access requests and related methods
US10614247B2 (en) * 2016-06-10 2020-04-07 OneTrust, LLC Data processing systems for automated classification of personal information from documents and related methods
US11188615B2 (en) 2016-06-10 2021-11-30 OneTrust, LLC Data processing consent capture systems and related methods
US11520928B2 (en) 2016-06-10 2022-12-06 OneTrust, LLC Data processing systems for generating personal data receipts and related methods
US11074367B2 (en) 2016-06-10 2021-07-27 OneTrust, LLC Data processing systems for identity validation for consumer rights requests and related methods
US10885485B2 (en) 2016-06-10 2021-01-05 OneTrust, LLC Privacy management systems and methods
US11294939B2 (en) 2016-06-10 2022-04-05 OneTrust, LLC Data processing systems and methods for automatically detecting and documenting privacy-related aspects of computer software
US11586700B2 (en) 2016-06-10 2023-02-21 OneTrust, LLC Data processing systems and methods for automatically blocking the use of tracking tools
US11222142B2 (en) 2016-06-10 2022-01-11 OneTrust, LLC Data processing systems for validating authorization for personal data collection, storage, and processing
US10997315B2 (en) 2016-06-10 2021-05-04 OneTrust, LLC Data processing systems for fulfilling data subject access requests and related methods
US11416109B2 (en) 2016-06-10 2022-08-16 OneTrust, LLC Automated data processing systems and methods for automatically processing data subject access requests using a chatbot
US11416590B2 (en) 2016-06-10 2022-08-16 OneTrust, LLC Data processing and scanning systems for assessing vendor risk
US10586075B2 (en) 2016-06-10 2020-03-10 OneTrust, LLC Data processing systems for orphaned data identification and deletion and related methods
US10909265B2 (en) 2016-06-10 2021-02-02 OneTrust, LLC Application privacy scanning systems and related methods
US11481710B2 (en) 2016-06-10 2022-10-25 OneTrust, LLC Privacy management systems and methods
US10013577B1 (en) 2017-06-16 2018-07-03 OneTrust, LLC Data processing systems for identifying whether cookies contain personally identifying information
US11544409B2 (en) 2018-09-07 2023-01-03 OneTrust, LLC Data processing systems and methods for automatically protecting sensitive data within privacy management systems
US10803202B2 (en) 2018-09-07 2020-10-13 OneTrust, LLC Data processing systems for orphaned data identification and deletion and related methods
US11144675B2 (en) 2018-09-07 2021-10-12 OneTrust, LLC Data processing systems and methods for automatically protecting sensitive data within privacy management systems
WO2022011142A1 (en) 2020-07-08 2022-01-13 OneTrust, LLC Systems and methods for targeted data discovery
WO2022026564A1 (en) 2020-07-28 2022-02-03 OneTrust, LLC Systems and methods for automatically blocking the use of tracking tools
WO2022032072A1 (en) 2020-08-06 2022-02-10 OneTrust, LLC Data processing systems and methods for automatically redacting unstructured data from a data subject access request
WO2022060860A1 (en) 2020-09-15 2022-03-24 OneTrust, LLC Data processing systems and methods for detecting tools for the automatic blocking of consent requests
US11526624B2 (en) 2020-09-21 2022-12-13 OneTrust, LLC Data processing systems and methods for automatically detecting target data transfers and target data processing
EP4241173A1 (en) 2020-11-06 2023-09-13 OneTrust LLC Systems and methods for identifying data processing activities based on data discovery results
US11824878B2 (en) * 2021-01-05 2023-11-21 Bank Of America Corporation Malware detection at endpoint devices
US11687528B2 (en) 2021-01-25 2023-06-27 OneTrust, LLC Systems and methods for discovery, classification, and indexing of data in a native computing system
WO2022170047A1 (en) 2021-02-04 2022-08-11 OneTrust, LLC Managing custom attributes for domain objects defined within microservices
US11494515B2 (en) 2021-02-08 2022-11-08 OneTrust, LLC Data processing systems and methods for anonymizing data samples in classification analysis
US20240098109A1 (en) 2021-02-10 2024-03-21 OneTrust, LLC Systems and methods for mitigating risks of third-party computing system functionality integration into a first-party computing system
US11775348B2 (en) 2021-02-17 2023-10-03 OneTrust, LLC Managing custom workflows for domain objects defined within microservices
WO2022178219A1 (en) 2021-02-18 2022-08-25 OneTrust, LLC Selective redaction of media content
US11533315B2 (en) 2021-03-08 2022-12-20 OneTrust, LLC Data transfer discovery and analysis systems and related methods
US11562078B2 (en) 2021-04-16 2023-01-24 OneTrust, LLC Assessing and managing computational risk involved with integrating third party computing functionality within a computing system
US11620142B1 (en) 2022-06-03 2023-04-04 OneTrust, LLC Generating and customizing user interfaces for demonstrating functions of interactive user environments

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001028006A (ja) * 1999-07-15 2001-01-30 Kdd Corp 情報自動フィルタリング方法および装置
US20030140152A1 (en) * 1997-03-25 2003-07-24 Donald Creig Humes System and method for filtering data received by a computer system
JP2004145695A (ja) * 2002-10-25 2004-05-20 Matsushita Electric Ind Co Ltd フィルタリング情報処理システム
JP2007139864A (ja) * 2005-11-15 2007-06-07 Nec Corp 不審会話検出装置、方法及びそれを用いた通信装置
JP2008533596A (ja) * 2005-03-10 2008-08-21 ヤフー! インコーポレイテッド 検索結果の関連性の再ランク付けおよびその増強

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5576954A (en) * 1993-11-05 1996-11-19 University Of Central Florida Process for determination of text relevancy
US20010044818A1 (en) * 2000-02-21 2001-11-22 Yufeng Liang System and method for identifying and blocking pornogarphic and other web content on the internet
US20020169854A1 (en) * 2001-01-22 2002-11-14 Tarnoff Harry L. Systems and methods for managing and promoting network content
US20020116629A1 (en) * 2001-02-16 2002-08-22 International Business Machines Corporation Apparatus and methods for active avoidance of objectionable content
US20030009495A1 (en) * 2001-06-29 2003-01-09 Akli Adjaoute Systems and methods for filtering electronic content
US7549119B2 (en) * 2004-11-18 2009-06-16 Neopets, Inc. Method and system for filtering website content
US20060173792A1 (en) * 2005-01-13 2006-08-03 Glass Paul H System and method for verifying the age and identity of individuals and limiting their access to appropriate material
EP1785895A3 (en) * 2005-11-01 2007-06-20 Lycos, Inc. Method and system for performing a search limited to trusted web sites
KR100670826B1 (ko) * 2005-12-10 2007-01-19 한국전자통신연구원 인터넷 개인 정보 보호 방법 및 그 장치
US20070204033A1 (en) * 2006-02-24 2007-08-30 James Bookbinder Methods and systems to detect abuse of network services
JP2007249657A (ja) * 2006-03-16 2007-09-27 Fujitsu Ltd アクセス制限プログラム、アクセス制限方法およびプロキシサーバ装置
GB2442286A (en) * 2006-09-07 2008-04-02 Fujin Technology Plc Categorisation of data e.g. web pages using a model
US8024280B2 (en) * 2006-12-21 2011-09-20 Yahoo! Inc. Academic filter
US9514228B2 (en) * 2007-11-27 2016-12-06 Red Hat, Inc. Banning tags
US20100058467A1 (en) * 2008-08-28 2010-03-04 International Business Machines Corporation Efficiency of active content filtering using cached ruleset metadata

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030140152A1 (en) * 1997-03-25 2003-07-24 Donald Creig Humes System and method for filtering data received by a computer system
JP2001028006A (ja) * 1999-07-15 2001-01-30 Kdd Corp 情報自動フィルタリング方法および装置
JP2004145695A (ja) * 2002-10-25 2004-05-20 Matsushita Electric Ind Co Ltd フィルタリング情報処理システム
JP2008533596A (ja) * 2005-03-10 2008-08-21 ヤフー! インコーポレイテッド 検索結果の関連性の再ランク付けおよびその増強
JP2007139864A (ja) * 2005-11-15 2007-06-07 Nec Corp 不審会話検出装置、方法及びそれを用いた通信装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014063393A (ja) * 2012-09-21 2014-04-10 Yahoo Japan Corp 情報処理装置及び方法
KR101873339B1 (ko) * 2016-06-22 2018-07-03 네이버 주식회사 관심사 및 콘텐츠를 제공하는 방법 및 시스템

Also Published As

Publication number Publication date
WO2011019485A1 (en) 2011-02-17
EP2465041A1 (en) 2012-06-20
JP5600168B2 (ja) 2014-10-01
US20120131438A1 (en) 2012-05-24
CN101996203A (zh) 2011-03-30
EP2465041A4 (en) 2016-01-13

Similar Documents

Publication Publication Date Title
JP5600168B2 (ja) ウェブページコンテンツフィルタリングのための方法およびシステム
US9589299B2 (en) Systems and user interfaces for dynamic and interactive investigation of bad actor behavior based on automatic clustering of related data in various data structures
US20200118311A1 (en) Systems and interactive user interfaces for dynamic retrieval, analysis, and triage of data items
US9202249B1 (en) Data item clustering and analysis
US8412712B2 (en) Grouping methods for best-value determination from values for an attribute type of specific entity
US8615516B2 (en) Grouping similar values for a specific attribute type of an entity to determine relevance and best values
US8712990B2 (en) Methods and systems for providing a business repository
US9910875B2 (en) Best-value determination rules for an entity resolution system
TW201812689A (zh) 惡意地址/惡意訂單的識別系統、方法及裝置
WO2019061994A1 (zh) 电子装置、保险产品推荐方法、系统及计算机可读存储介质
CN114207648A (zh) 在计算环境中自动更新支付信息的技术
US20130332385A1 (en) Methods and systems for detecting and extracting product reviews
US8533198B2 (en) Mapping descriptions
US11294915B2 (en) Focused probabilistic entity resolution from multiple data sources
US11184313B1 (en) Message content cleansing
US8452748B1 (en) Method and system for search engine optimization of a website
CN107330079B (zh) 基于人工智能呈现辟谣信息的方法和装置
CN114363019B (zh) 钓鱼网站检测模型的训练方法、装置、设备及存储介质
US20160092960A1 (en) Product recommendations over multiple stores
WO2016177646A1 (en) Computer-implemented methods of website analysis
CN116015842A (zh) 一种基于用户访问行为的网络攻击检测方法
US11962612B2 (en) Holistic assessment, monitoring, and management of digital presence
US20220182346A1 (en) Systems and methods for review and response to social media postings
US20150170067A1 (en) Determining analysis recommendations based on data analysis context
CN111026981B (zh) 热点话题的可视化展示方法、装置和设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130626

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140114

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140414

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140715

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140814

R150 Certificate of patent or registration of utility model

Ref document number: 5600168

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees