JP2013510368A - テキストフィルタリングの方法およびシステム - Google Patents

テキストフィルタリングの方法およびシステム Download PDF

Info

Publication number
JP2013510368A
JP2013510368A JP2012537879A JP2012537879A JP2013510368A JP 2013510368 A JP2013510368 A JP 2013510368A JP 2012537879 A JP2012537879 A JP 2012537879A JP 2012537879 A JP2012537879 A JP 2012537879A JP 2013510368 A JP2013510368 A JP 2013510368A
Authority
JP
Japan
Prior art keywords
character
keyword
matching
node
current
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012537879A
Other languages
English (en)
Other versions
JP5744892B2 (ja
Inventor
ジンチ ウェン
チャンチェン イエ
Original Assignee
アリババ グループ ホールディング リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アリババ グループ ホールディング リミテッド filed Critical アリババ グループ ホールディング リミテッド
Publication of JP2013510368A publication Critical patent/JP2013510368A/ja
Application granted granted Critical
Publication of JP5744892B2 publication Critical patent/JP5744892B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本開示は、テキストフィルタリングの方法およびシステムを開示する。テキストフィルタリング方法は、少なくとも1つの基本キーワードおよび1つの論理演算子を有する意味キーワードをテキストフィルタリングシステム内に予め定義するステップと、入力テキストを取得した後、テキストフィルタリングシステムが、予め定義された意味キーワードにより、入力テキスト内の意味キーワードを構成する基本キーワードを見つけるステップと、テキストコンテンツと入力テキスト内の少なくとも1つの基本キーワードの合致が見つかった場合、意味キーワードを構成する論理演算子による見つかったテキストコンテンツと意味キーワードのマッチングをさらに含む、見つかったテキストコンテンツ内の意味マッチングを実行するステップと、意味マッチングが成功した場合、合致したテキストコンテキストをフィルタリングするステップとを含む。

Description

本出願は、2009年11月10日出願の中国特許出願第200910211715.0号、表題「テキストフィルタリングの方法およびシステム」から優先権を主張し、その全体を参照によって本出願に組み込んだものとする。
本開示は、インターネット技術に関し、特に、テキストフィルタリングの方法およびシステムに関する。
インターネットの発展とともに、インターネット上で伝達される情報量は常に増加してきた。インターネットの開放性は、多量の有害な情報をインターネットに氾濫させることも可能にする。よって、インターネット上の情報を監視しフィルタリングする全般的なニーズが存在する。
コンテンツフィルタリング技術の適用は、インターネット上の有害な情報のフィルタリングを実現でき、それによって安全なネットワーク環境を提供する。インターネット上で可能な、複数の表現形式がある。テキストは、最も一般的な情報の表現形式である。テキストフィルタリングは、大量のテキスト情報から特定のテキストを見つけるプロセスをいう。現在、一般的なテキストフィルタリング方法は、通常、有害な情報に関する予めセットされた複数のキーワードにより入力テキストをサーチするシステムのような基本キーワードマッチング技術に基づく。入力テキスト内にキーワードに合致するコンテンツがあれば、そのようなコンテンツまたは入力テキスト全体がフィルタリングされるか置換される。
そのようなテキストフィルタリング方法は、キーワードと完全に合致するテキストのみフィルタリングができるが、テキスト内に反映された作者の立場または姿勢の判断はできない。例えば、電子商取引ウェブサイトは「電話盗聴器」をフィルタリングキーワードとして定義するかもしれない。現行のテキストフィルタリング方法は、しかしこの例で、「電話盗聴器の販売禁止」のようなもっともなテキストをフィルタリングする有害な情報としてみなすことが起こりえるだろう。よって、基本キーワードマッチング技術に基づいた現行のテキストフィルタリング方法は、識別の精度が低く、情報フィルタリングの実務の適用の必要条件を満たすことができない。
前述の問題を解決するため、本開示はテキストフィルタリングの精度を向上するテキストフィルタリングの方法およびシステムを提供する。この技術は、以下に要約される。
1つの態様では、テキストフィルタリング方法は、少なくとも基本キーワードおよび論理演算子を有する予め定義された意味キーワードを、テキストフィルタリングシステム内に格納するステップと、テキストフィルタリングシステムが、予め定義された意味キーワードにより、入力テキスト内の意味キーワードの基本キーワードを見つけるステップと、テキストコンテンツと入力テキスト内の基本キーワードの合致が見つかった場合、意味キーワードの論理演算子による見つかったテキストコンテンツと意味キーワードのマッチングを含む、見つかったテキストコンテンツ内の意味マッチングを実行するステップと、意味マッチングが成功した場合、合致したテキストコンテキストをフィルタリングするステップとを含む。
基本キーワードは文字を単位として使用してもよく、ツリー型構造によりテキストフィルタリングシステム内に格納されてもよい。基本キーワードの第1の文字はツリー型構造内のルートノードであってもよく、基本キーワードの最後の文字がリーフノードであってもよい。同一の第1の文字を持つ基本キーワードは、共通のルートノードを共有してもよい。
予め定義された意味キーワードにより入力テキスト内の意味キーワードの基本キーワードを見つけるステップは、入力テキスト内の文字c1を取得するステップと、c1を現在の文字として使用し、かつツリー型構造のルートノードを現在のノードとして使用して、現在の文字を現在のノードとマッチングするステップと、現在の文字が現在のノードに合致し、かつ現在のノードが子ノードを持つ場合、現在の文字につづく次の文字と現在のノードの子ノードをマッチングするステップと、現在の文字が現在のノードに合致せず、かつ現在のノードが兄弟ノードを持つ場合、現在のノードと現在のノードの兄弟ノードをマッチングするステップと、現在のノードをルートノードと結合してマッチングルートを取得するステップと、マッチングルートで正常な合致結果があるリーフノードにより、基本キーワードを確立するステップとを含んでもよい。
方法は、さらに、現在の文字を現在のノードとマッチングする前に、現在の文字が対応するプロトタイプ文字を辞書内に有するかどうか判断するステップと、肯定の場合、現在の文字を対応するプロトタイプ文字に変換し、対応するプロトタイプ文字を現在の文字として用いて現在のノードとマッチングするステップとを含んでもよい。
意味キーワードは、さらにフィルタリング条件を有してもよい。意味マッチングは、さらに入力テキストの特性とフィルタリング条件のマッチングを含んでもよい。
代わりに、意味キーワードは、さらにフィルタリングアクションを有してもよい。合致したテキストコンテキストのフィルタリングは、フィルタリングアクションによる合致したテキストコンテンツのフィルタリングを含んでもよい。
別の態様では、テキストフィルタリングシステムは、キーワード記憶ユニット、基本発見ユニット、意味マッチングユニット、およびフィルタ処理ユニットを有してもよい。キーワード記憶ユニットは、少なくとも基本キーワードおよび論理演算子を有する予め定義された意味キーワードを格納してもよい。基本発見ユニットは、予め定義された意味キーワードにより、入力テキスト内の意味キーワードの基本キーワードを見つけてもよい。テキストコンテンツと入力テキスト内の基本キーワードとの合致が見つかった場合、見つかったテキストコンテンツ内の意味マッチングを実行してもよい、意味マッチングは、意味キーワードの論理演算子による、見つかったテキストコンテンツと意味キーワードのマッチングを含む、意味マッチングユニット。意味マッチングが成功した場合、合致したテキストコンテキストをフィルタリングするフィルタ処理ユニット。
キーワード記憶ユニットは、文字を単位として使用し、ツリー型構造により基本キーワードを格納してもよい。基本キーワードの第1の文字がルートノードであってもよく、基本キーワードの最後の文字がリーフノードであってもよく、同一の第1の文字を持つ基本キーワードが共通ルートノードを共有する。
基本発見ユニットは、入力テキスト内の文字c1を取得するテキスト取得サブユニット、文字マッチングサブユニット、および判断サブユニットを有してもよい。
文字マッチングサブユニットは、c1を現在の文字として使用し、ツリー型構造のルートノードを現在のノードとして使用して、現在の文字と現在のノードをマッチングしてもよい。現在の文字が現在のノードに合致し、かつ現在のノードが子ノードを持つ場合、文字マッチングサブユニットは、現在につづく次の文字と現在のノードの子ノードをマッチングしてもよい。現在の文字が現在のノードに合致せず、かつ現在のノードが兄弟ノードを持つ場合、文字マッチングサブユニットは、現在のノードと現在のノードの兄弟ノードをマッチングしてもよい。
判断サブユニットは、現在のノードとルートノードを結合してマッチングルートを取得し、マッチングルートで正常な合致があるリーフノードにより、基本キーワードを確立してもよい。
基本発見ユニットは、さらに、文字マッチングサブユニットがマッチングを実行する前に、現在の文字が対応するプロトタイプ文字を辞書内に有するかどうか判断し、肯定の場合、現在の文字を対応するプロトタイプ文字に変換する、文字変換サブユニットを有してもよい。
文字マッチングサブユニットは、対応するプロトタイプ文字を現在の文字として使用し、現在のノードとマッチングしてもよい。
意味キーワードは、フィルタリング条件を有してもよい。意味マッチングユニットは、入力テキストの特性とフィルタリング条件をマッチングするカテゴリマッチングサブユニットを有してもよい。
代わりに、意味キーワードは、フィルタリングアクションを有してもよい。フィルタ処理ユニットは、フィルタリングアクションにより合致したテキストコンテンツをフィルタリングしてもよい。
本開示により開示されたテキストフィルタリングの方法およびシステムは、基本キーワードと局所演算子の組み合わせを使用し、テキストコンテンツをフィルタリングする。既存の技術と比較して、これは基本キーワードを効果的に組み合わせて全体のテキスト内の意味をフィルタリングでき、それによってフィルタリング精度を上げる。
本開示または現在の技術のテクニックをよりよく示すための実施形態または既存の技術の記載に用いる図を、以下に簡潔に紹介する。以下の図は本開示のいくつかの実施形態にのみ関する。当業者は、図によって、創作的に努力することなく他の図も得ることが可能である。
本開示によるテキストフィルタリングのプロセスを示す図である。 本開示による基本キーワードのツリー型格納構造を示す図である。 本開示による基本キーワードのサーチ方法のプロセスを示す図である。 本開示によるテキストフィルタリングシステムの例示的なダイアグラムを示す図である。 本開示による基本発見ユニットの例示的なダイアグラムを示す図である。 本開示による他の基本発見ユニットの例示的なダイアグラムを示す図である。 本開示による意味マッチングユニットの例示的なダイアグラムを示す図である。
既存のテキストフィルタリング方法は、概して単に基本キーワードに基づいていたし、論理分析機能を持たない。よって、誤報の状況が多くある。例えば、前述の「電話盗聴器の販売禁止」のテキストは、否定語「禁止」と組み合わさったキーワード「電話盗聴器」を含むにもかかわらず、有効な情報として扱うべきであり、取り除くべきではない。この問題に対して、本開示はテキストフィルタリングの技法を提供する。
1つの実施形態では、テキストフィルタリング方法は、少なくとも1つの基本キーワードおよび1つの論理演算子を有する意味キーワードをテキストフィルタリングシステム内に予め定義し格納するステップと、入力テキストを取得した後、テキストフィルタリングシステムが、予め定義された意味キーワードにより、入力テキスト内の意味キーワードを構成する基本キーワードを見つけるステップと、テキストコンテンツと入力テキスト内の少なくとも1つの基本キーワードの合致が見つかった場合、意味キーワードを構成された論理演算子による見つかったテキストコンテンツと意味キーワードのマッチングをさらに含む、見つかったテキストコンテンツ内の意味マッチングをさらに実行するステップと、意味マッチングが成功した場合、合致したテキストコンテキストをフィルタリングするステップとを含む。
前述のテキストフィルタリング方法は、テキストコンテンツをフィルタリングするために、基本キーワードと論理演算子の組み合わせを使用する。既存の技術と比較すると、提案された技術は、全体のテキスト内の基本キーワードの意味を検討することにより効果的にテキストをフィルタリングすることが可能で、誤報を減らしフィルタリングの精度を上げる。
本開示の技法を当業者によりよく理解してもらう助けとするため、本開示の技法を図を参照して明らかにおよび完全に記載する。本明細書に記載された実施形態は、本開示の実施形態のいくつかのみに関し、全てには関しない。当業者は、本開示内で開示された実施形態に基づき他の実施形態を創作的に努力することなく得ることが可能である。そのような実施形態も、本開示の保護範囲内に入る。
本開示では、テキストコンテンツは意味キーワードに基づきフィルタリングされる。意味キーワードは、2つの基本構成要素である基本キーワードと論理演算子で構成される。基本キーワードは独立した単語または句であり、既存の技術で受け入れられた単純なキーワードと同等のものであってもよい。論理演算子は、論理関係を表現するのに用いられる。基本論理関係は論理積、論理和、および否定を有し、それぞれ記号“&”、“│”、および“〜”で表わすことが可能である。以下は、電子商取引ウェブサイトのテキストフィルタリングの意味キーワードのいくつかの簡単な例である。
(a)携帯電話盗聴〜対
前述の意味キーワードで表わされる意味は、製品情報が「携帯電話盗聴」を含み、「対」を含まない場合、そのような製品情報がフィルタリングされる必要があることを意味すると解釈してもよい。
(b)監視カメラ│無線監視カメラ
前述の意味キーワードで表わされる意味は、製品情報が「監視カメラ」または「無線監視カメラ」を含む場合、そのような製品情報がフィルタリングされる必要があることを意味すると解釈してもよい。
(c)軍&縛る
前述の意味キーワードで表わされる意味は、製品情報が「軍」および「縛る」を含む場合、そのような製品情報がフィルタリングされる必要があることを意味すると解釈してもよい。
1つの意味キーワードに対し、最も単純な型は論理演算子を加えた2つの基本キーワードであってもよい。前述の3つの例は、全てそのような状態である。意味キーワードが基本キーワードにのみ載せられるとき、テキストフィルタリングは実際は既存の技術と同一である。本開示は、そのような状態の詳細は記載しない。1つの意味キーワードがより多くの基本キーワードおよび論理演算子を有し、より複雑な意味を表現することが可能であることが理解される。1つの例を以下に示す。
(d)携帯電話盗聴〜(対│防ぐ)
前述の意味キーワードで表わされる意味は、製品情報が「携帯電話盗聴」を含み、「対」または「防ぐ」を含まない場合、そのような製品情報がフィルタリングされる必要があることを意味すると解釈してもよい。
本開示の望ましい実施形態において、意味キーワードのコンテンツは、後述するようにさらに拡張が可能である。
意味キーワードは、フィルタリング条件を含むことができる。実際に、前述の基本キーワードおよび論理演算子と異なり、フィルタリング条件はテキストのコンテンツ内の詳細と無関係である。フィルタリング条件の機能は、テキストまたはテキストのカテゴリのソースへの制限のような、テキストの他の特性に基づいたフィルタリングへのさらなる制限を行い、より正確なフィルタリングを実施することである。
意味キーワードはさらに、フィルタリングアクションを有して、意味キーワードと合致するテキストコンテンツのコンテンツフィルタ、コンテンツ置換などのような詳細な処理を提供できる。
以下の3つの例は、前述の(a)、(b)、および(c)の例にそれぞれフィルタリング条件およびフィルタリングアクションを追加し、意味キーワードの拡張した型を説明する。セミコロンの前の部分は、基本キーワードおよび論理演算子である。セミコロンの後の部分は、拡張したコンテンツである。種々の拡張したコンテンツは、コンマで分離される。本開示の実施形態は、意味の特定のフォーマットを制限しない。
(a1)携帯電話盗聴〜対;製品カテゴリ:1002,フィルタリングアクション:在庫有り
前述の意味キーワードで表わされる意味は、製品情報が「携帯電話盗聴」を含み、「対」を含まず、製品カテゴリが1002である場合、そのような製品情報が在庫有りである必要があることを意味すると解釈してもよい。
(b1)監視カメラ│無線監視カメラ;製品カテゴリ:101,フィルタリングアクション:在庫有り
前述の意味キーワードで表わされる意味は、製品情報が「監視カメラ」または「無線監視カメラ」を含み、製品カテゴリが101である場合、そのような製品情報が在庫有りである必要があることを意味すると解釈してもよい。
(c1)軍&縛る;製品カテゴリ:50001,フィルタリングアクション:在庫有り
前述の意味キーワードで表わされる意味は、製品情報が「軍」および「縛る」を含み、製品カテゴリが50001である場合、そのような製品情報が在庫有りである必要があることを意味すると解釈してもよい。
以下の記載で、詳細なプロセスを参照して実施形態を説明する。図1は、後述するようないくつかのステップを有するテキストフィルタリング方法を示す。
S101:入力テキストの取得後、テキストフィルタリングシステムは、予め定義された意味キーワードにより、入力テキスト内の意味キーワードを構成する基本キーワードを見つける。
このステップで、テキストフィルタリングシステムは、入力テキストの部分の取得後、入力テキスト内の基本キーワードをサーチし、サーチの結果を記録する。例えば、前述の例(b)または(b1)に対し、テキストフィルタリングシステムは最初に「監視カメラ」および「無線監視カメラ」をサーチする。このステップの詳細な実施は既存の技術による単純なキーワードに基づくマッチング方法と同様であり、簡潔にするため、本明細書には詳細に記載しない。
S102:入力テキスト内のテキストコンテンツの少なくとも1つの基本キーワードとの合致が見つかった場合、プロセスは見つかったテキストコンテンツ内の意味マッチングを実行する。
ステップS101で、サーチは基本キーワードにのみ基づく。コンテンツマッチングでいずれの基本キーワードも見つからない場合、入力テキストのフィルタリング処理を実行する必要はない。テキストコンテンツの少なくとも1つの基本キーワードとの合致が見つかった場合、テキストフィルタリングシステムは、さらに見つかったテキストコンテンツを完全な意味キーワードと比較する。このステップは、意味マッチングと呼ばれる。
意味キーワードが基本キーワードおよび論理演算子のみを有する場合、意味マッチングの詳細な内容は以下のようになる。予め定義された意味キーワード内の論理演算子により、見つかったテキストコンテンツが意味キーワードとマッチングされる。例を以下に述べる。
前述の例(a)に対し、テキストフィルタリングシステムは、入力テキストに基本キーワード「携帯電話盗聴」を見つけ、基本キーワード「対」を見つけない。言い換えれば、2つの基本キーワードの実際のサーチ結果は、意味キーワード(a)内の2つの基本キーワードの定義された論理関係「否定」に合致する。よって、見つかったテキストコンテンツは、意味キーワード(a)に合致する。
前述の例(c)に対し、テキストフィルタリングシステムは、基本キーワード「縛る」を見つけ、基本キーワード「軍」を見つけない。言い換えれば、2つの基本キーワードの実際のサーチ結果は、意味キーワード(c)内の2つの基本キーワードの論理関係「論理積」に合致しない。よって、見つかったテキストコンテンツは、意味キーワード(c)に合致しない。
意味キーワードが拡張したコンテンツ「フィルタリング条件」も有する場合、入力テキストの特性とフィルタリング条件の間のマッチング結果は、意味マッチングが実行されるときさらに検討される。
S103:意味マッチングが成功した場合、プロセスは合致したテキストコンテキストをフィルタリングする。
ステップS102で、意味キーワードに正常に合致するテキストに対し、テキストフィルタリングシステムは、フィルタリングプロセスを実行する。意味キーワードが「フィルタリングアクション」を含む場合、テキストフィルタリングシステムは、「フィルタリングアクション」の詳細な内容によりテキストのフィルタリング処理を実行する。意味キーワードが「フィルタリングアクション」を含まない場合、テキストフィルタリングシステムは、予め定義された既定の方法によりフィルタリングプロセスを実行する。
既存の技術は、通常入力テキスト内の全ての単語の1つずつのサーチを必要とする。ステップS101に対し、本開示は、キーワードサーチの処理効率を上げるための基本キーワードをサーチする改善された方法を提供する。
実際のテキストフィルタリングの適用において、フィルタリングされる多くの単語は、「盗聴」、「盗聴装置」、「盗聴ソフトウェア」などのような同一の部分を有する。そのような単語に対し、ツリー型サーチ方法をサーチ効率の改善に使用できる。
最初に、テキストフィルタリングシステムは、文字を単位として使用し、ツリー型構造によりそれぞれの基本キーワードを格納する。基本キーワードの第1の文字はルートノードであり、基本キーワードの最後の文字はリーフノードである。第1の文字が同一の基本キーワードは、同一のルートノードを共有する。例えば、“ab”、“abc”および“ade”に対し、これらを図2に示された構造を用いて格納できる。
図2では、円形がルートノードまたは一般ノードを表す。菱形がリーフノードを表す。3つの単語“ab”、“abc”および“ade”は同一の第1の文字“a”で始まるので、これらは同一のルートノード1を共有する。この3つの単語の最後の文字は、それぞれ“b”、“c”および“e”である。よってこれらの3文字は、それぞれリーフノード2、3、および5である。文字“b”に対し、これはキーワード“abc”の最後の文字ではないが、キーワード“ab”の最後の文字であることが分かる。よって文字“b”は、なおリーフノードになる。言い換えれば、リーフノードは必ずしもツリー型構造の終了ノードではない。しかし、ツリー型構造の終了ノードはリーフノードである。
図3は、本開示による基本キーワードのサーチ方法を示す。方法は、後述のように、いくつかのステップを有する。
S301:プロセスは入力テキスト内の文字を取得し、文字を現在の文字に、またツリー型構造のルートノードを現在のノードに設定する。実際のフィルタリング適用の要求によって、取得された文字が入力テキストの第1の文字であってもよいし、または入力テキストのいずれの位置の文字であってもよい。
S302:プロセスは、現在の文字を現在のノードとマッチングする。合致する場合、プロセスはS303へ進む。そうでなければ、プロセスはS304へ進む。
S303:プロセスは、現在のノードが子ノードを持つかどうか判断する。結果が否定であれば、サーチは終了する。結果が肯定であれば、サーチは現在のノードの子ノードである入力テキスト内の現在の文字の次の文字に続き、ステップS302が実行される。
S304:プロセスは、現在のノードが兄弟ノードを有するかどうか判断する。結果が否定であれば、サーチは終了する。結果が肯定であれば、現在の文字は保持されて変更されず、サーチは現在のノードの兄弟ノードに続き、ステップS302が実行される。
サーチが完了した後、テキストフィルタリングシステムは現在のノードをルートノードと結合してマッチングルートを取得し、リーフノードによって見つかった基本キーワードがマッチングルートで正常な合致があるかどうか判断する。
2つの特定の例で、ツリー型構造に基づく基本キーワードのサーチ方法を後述する。
(1)入力テキストを“adf”と仮定する。文字“a”を取得した後、テキストフィルタリングシステムはキーワードデータベースのルートノードをスキャンし、それがノード1に合致するのを見つける。ノード1は子ノードも有する。テキストフィルタリングシステムは、さらに文字“d”をノード1の子ノード2および4とマッチングする。
文字“d”はノード4と正常に合致し、ノード4は子ノードを有する。テキストフィルタリングシステムは、さらに文字“f”をノード4の子ノード5とマッチングする。
文字“f”とノード5の間のマッチングが失敗し、ノード5は他の兄弟ノードを持たない。この時点でサーチは終了する。現在のマッチングルートは1−4−5であり、マッチングルートは正常に合致したリーフノードを有さない。従って、入力テキスト内に基本キーワードが存在しないと判断することができる。
(2)入力テキストを“abc”と仮定する。文字“a”を取得した後、テキストフィルタリングシステムはキーワードデータベースのルートノードを横断し、それがノード1に合致するのを見つける。ノード1は子ノードも有する。テキストフィルタリングシステムは、さらに文字“b”をノード1の子ノード2および4とマッチングする。
文字“b”はノード2と正常に合致し、ノード2は子ノードを有する。テキストフィルタリングシステムは、さらに文字“c”をノード2の子ノード3とマッチングする。
文字“c”とノード4の間のマッチングが成功し、ノード3は他の兄弟ノードを持たない。この時点でサーチは終了する。現在のマッチングルートは1−2−3である。ノード2およびノード3の両方が、正常に合致したリーフノードである。従って、ノード2およびノード3の内容によって、入力テキスト内で基本キーワード“ab”および“abc”が見つかったと判断できる。
ツリー型構造に基づく基本キーワードのサーチ方法の適用において、それぞれのレベルのマッチング動作は、最後のマッチングで正常に合致するノードのみを対象とする。よって、入力テキストのそれぞれの文字を全てのキーワード文字とマッチングする必要がなく、それによって効果的にキーワードサーチの処理効率を上げる。
前述の例は、第1の文字をルートノードとして用いることで説明される。そのような方法は、複数の基本キーワードが同一の接頭辞、例えば同一の第1の文字を有するときの状況に適用可能である。複数の基本キーワードが「電話盗聴」、「携帯電話盗聴」、「装置盗聴」のような同一の接尾辞を有するとき、基本キーワードを、基本キーワードの最後の文字がルートノードで第1の文字がリーフノードであるツリー型構造で基本キーワードを格納することもできることが理解される。マッチングプロセスに応じて、プロセスはキーワードの終わりから始めへの順番に従い、入力テキストの文字マッチングをしてもよい。そのようなプロセスの詳細な実施は前述と同様であり、よって、簡潔にするためここでは重掲しない。
また、テキストフィルタリングを防ぐため、発表されたテキスト内に「盗−聴−装−置」などのような特殊文字を使用する多くの人がいる。そのような状況に対し、テキストフィルタリングシステムはさらに辞書機能を組み合わせてキーワードをサーチすることができる。
辞書は文字のセットを定義し、文字のプロトタイプを定義する。プロトタイプは、文字そのものでありうる。例えば、文字“a”のプロトタイプは“a”自身である。プロトタイプは、他の文字でもありうる。例えば、中国語繁体字のプロトタイプは、それに対応する中国語簡体字である。中国語の適用において、頻繁に使用される辞書は、中国語簡体字辞書、中国語繁体字辞書、英語辞書、および数字辞書を含む。また、管理担当者は、実際の必要により自分で定義する辞書も使用できる。例えば、文字“−”のプロトタイプは、空文字として定義される。
前述のステップS302によれば、テキストフィルタリングシステムは、現在の文字を現在のノードとマッチングする前に、現在の文字がプロトタイプ文字を含むかどうかサーチが可能である。肯定の場合、テキストフィルタリングシステムは現在の文字を対応するプロトタイプ文字に変換し、プロトタイプ文字を現在の文字として使用し、現在のノードとマッチングする。
前述の例(2)の1つの例として、入力テキストを“aBc”と仮定すると、テキストフィルタリングシステムは、文字“B”をノード2とマッチングする前に、全ての辞書を横断して文字“B”がプロトタイプ“b”を有することを見つけ、オリジナルの入力テキスト内の“B”をプロトタイプ“b”に変換し、“b”を現在の文字として使用してノード2をマッチングする。
「盗−聴」のようなテキストに対し、テキストフィルタリングシステムは辞書の問い合わせをし、文字“−“を空文字に変換する。マッチングプロセスの間、テキストフィルタリングシステムが”盗“の後の文字をマッチングするとき、システムは空文字を飛ばして直接文字”聴“をマッチングする。
従って、1つまたは複数の辞書を使用して文字を変換することにより、テキストフィルタリングシステムはより不適切な情報を識別でき、それによってよりよいテキストフィルタリング結果を実現する。
前述の方法の実施形態に対応して、本開示は図4を参照してテキストフィルタリングシステムも提供する。テキストフィルタリングシステムは、後述のように、いくつかの構成要素を有する。
キーワード記憶ユニット410は予め定義された意味キーワードを格納し、意味キーワードは少なくとも1つの基本キーワードおよび1つの論理演算子を有する。
基本発見ユニット420は、システムが入力テキストを取得した後、予め定義された意味キーワードにより、入力テキスト内の意味キーワードを構成する基本キーワードを見つける。
意味マッチングユニット430は、入力テキスト内のテキストコンテンツと少なくとも1つの基本キーワードとの合致が見つかった場合、見つかったテキストコンテンツ内の意味マッチングを実行する。意味マッチングユニット430は、さらに、意味キーワードを構成する論理演算子により、見つかったテキストコンテンツと意味キーワードをマッチングする論理マッチングサブユニット431も有する。
フィルタリング処理ユニット440は、意味マッチングユニット430が正常に合致する場合、合致したテキストコンテキストをフィルタリングする。
キーワード記憶ユニット410は、文字を単位として使用し、ツリー型構造により基本キーワードを格納する。基本キーワードの第1の文字はルートノードであり、最後の文字はリーフノードである。同一の第1の文字を持つ基本キーワードは、同一のルートノードを共有する。
図5に示されたように、基本発見ユニット420は、後述のようにいくつかのサブ構成要素を有してもよい。
テキスト取得サブユニット421は、入力テキスト内の文字c1を取得する。
文字マッチングサブユニット422は、c1を現在の文字として、およびツリー型構造のルートノードを現在のノードとして使用し、現在の文字と現在のノードをマッチングする。現在の文字が現在のノードに合致し、現在のノードが子ノードを持つ場合、文字マッチングサブユニット422は、現在につづく次の文字と現在のノードの子ノードをマッチングする。現在の文字が現在のノードに合致せず、現在のノードが兄弟ノードを持つ場合、文字マッチングサブユニット422は、現在のノードと現在のノードの兄弟ノードをマッチングする。このプロセスは、繰り返すことができる。
判断サブユニット423は、現在のノードとルートノードを結合してマッチングルートを取得し、リーフノードにより見つかった基本キーワードがマッチングルートで正常に合致する結果を判断する。
図6に示されたように、基本発見ユニット420は、さらに、文字マッチングサブユニット422がマッチングを実行する前に、現在の文字がプロトタイプ文字を辞書内に有するかどうかを判断する、文字変換サブユニット424を有する。肯定の場合、文字変換サブユニット424は、現在の文字を対応するプロトタイプ文字に変換する。
文字マッチングサブユニット422は、現在の文字としてプロトタイプ文字を使用し、これを現在のノードとマッチングする。
意味キーワードは、さらにフィルタリング条件を有してもよい。
図7に示されたように、意味マッチングユニット430は、さらに、入力テキストの特性をフィルタリング条件とマッチングする、カテゴリマッチングサブユニット432を有してもよい。
意味キーワードは、さらにフィルタリングアクションを有してもよい。
フィルタ処理ユニット440は、さらに、フィルタリングアクションにより見つかったテキストコンテンツをフィルタリングするように構成してもよい。
記述の都合で、前述のシステムは分けて記載した種々のユニットに機能的に分けられる。開示されたシステムを実行するとき、種々のユニットの機能は、ソフトウェアおよび/またはハードウェアの1つまたは複数の例で実行してもよい。
前述の例示的な実施形態から、当業者は、開示された方法およびシステムをソフトウェアおよび汎用ハードウェアプラットフォームを用いて実行してもよいことを明らかに理解できる。この理解に基づき、本開示の技術的スキームを、ROM/RAM、フラッシュメモリ、EEPROM、USBドライブ、ハードドライブおよび光ディスクのような1つまたは複数の非一過性コンピュータ可読な記憶媒体内に格納される、コンピュータに実行される指示の形態で実行してもよい。コンピュータ実行可能な指示は、本開示に記載された方法の実施形態を実行する計算装置(例えば、パーソナルコンピュータ、サーバまたはネットワーク接続された装置)で実行してもよい。
種々の例示的な実施形態が、本開示に漸次記載される。例示的な実施形態の同一のまたは類似の部分を、互いに参照することが可能である。それぞれの例示的な実施形態は、他の例示的な実施形態と異なる焦点を持つ。特に、例示的なシステムの実施形態は、例示的な方法との基本的な対応のため、比較的単純な方法で記載した。その詳細は、例示的な方法の関連する部分を参照できる。前述の例示的なシステムの記載は、実例の目的のみを意味する。その中の分離した構成要素として記載されたユニットは、物理的に分離されていてもいなくてもよい。ユニットに関して説明された構成要素は、物理ユニットであってもなくてもよく、例えば、1箇所に設置されても、または複数のネットワークユニットの中に分散してもよい。実際のニーズにより、例示的な実施形態の目標を、選択する部分または全てのモジュールにより達成してもよい。当業者は、開示された実施形態を、革新的な効果なしに理解および実行が可能である。
本開示は、汎用または専用コンピュータシステムの環境または構成内で使用してもよい。例は、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルド装置または持ち運び可能な装置、タブレット装置、マルチプロセッサシステム、マイクロプロセッサベースシステム、セットアップボックス、プログラム可能な顧客電子装置、ネットワークPC、小規模コンピュータ、大規模コンピュータ、および前記のあらゆるシステムまたは装置を含む分散コンピューティング環境を含む。
本開示は、プログラムモジュールのような、コンピュータにより実行されるコンピュータ実行可能な指示の一般的なコンテキスト内に記載してもよい。通常、プログラムモジュールは、特定のタスクの実行または特定の抽象データ型の実施のため、ルーチン、プログラム、オブジェクト、モジュール、およびデータ構造などを有する。開示された方法及びサーバはまた、分散コンピューティング環境で実行されてもよい。分散コンピューティング環境では、通信ネットワークを介して接続された遠隔処理装置により、タスクが実行される。分散コンピューティング環境では、プログラムモジュールが局所的または遠隔のコンピュータの記憶媒体(記憶装置を含む)内に配置される。
本開示の望ましい例示的な実施形態のみを前述した。しかし、本開示はこれらに限定されない。当業者が、この開示の趣旨および範囲から逸脱することなく多くの異なる方法で本開示を変更または修正可能であることが理解される。これらの修正および変形は、従って、本開示の請求項およびそれらの均等物の範囲内に入ると考えるべきである。

Claims (18)

  1. 少なくとも基本キーワードおよび論理演算子を有する予め定義された意味キーワードを、テキストフィルタリングシステム内に格納するステップと、
    テキストフィルタリングシステムが、予め定義された意味キーワードにより、入力テキスト内の前記意味キーワードの前記基本キーワードを見つけるステップと、
    テキストコンテンツと前記入力テキスト内の前記基本キーワードの合致が見つかった場合、前記意味キーワードの前記論理演算子による見つかった前記テキストコンテンツと前記意味キーワードのマッチングを含む、見つかった前記テキストコンテンツ内の意味マッチングを実行するステップと、
    前記意味マッチングが成功した場合、合致したテキストコンテキストをフィルタリングするステップと、を含む、
    テキストフィルタリング方法。
  2. 前記基本キーワードが文字を単位として使用し、かつツリー型構造によりテキストフィルタリングシステム内に格納され、
    前記基本キーワードの第1の文字がツリー型構造内のルートノードであり、かつ前記基本キーワードの最後の文字がリーフノードであり、同一の第1の文字を持つ基本キーワードが共通のルートノードを共有する、請求項1に記載の方法。
  3. 前記予め定義された意味キーワードにより、前記入力テキスト内の前記意味キーワードの前記基本キーワードを見つけるステップが、
    前記入力テキスト内の文字c1を取得するステップと、
    c1を現在の文字として使用し、かつツリー型構造の前記ルートノードを現在のノードとして使用して、前記現在の文字を前記現在のノードとマッチングするステップと、
    前記現在の文字が前記現在のノードに合致し、かつ前記現在のノードが子ノードを持つ場合、前記現在の文字につづく次の文字と前記現在のノードの前記子ノードをマッチングするステップと、
    前記現在の文字が前記現在のノードに合致せず、かつ前記現在のノードが兄弟ノードを持つ場合、前記現在のノードと前記現在のノードの前記兄弟ノードをマッチングするステップと、
    前記現在のノードを前記ルートノードと結合してマッチングルートを取得するステップと、
    前記マッチングルートで正常な合致結果がある前記リーフノードにより、前記基本キーワードを確立するステップと、を含む、
    請求項2に記載の方法。
  4. 前記現在の文字を前記現在のノードとマッチングする前に、前記現在の文字が対応するプロトタイプ文字を辞書内に有するかかどうか判断するステップと、
    肯定の場合、前記現在の文字を前記対応するプロトタイプ文字に変換し、前記対応するプロトタイプ文字を前記現在の文字として用いて前記現在のノードとマッチングするステップと、を含む、請求項3に記載の方法。
  5. 前記意味キーワードがさらにフィルタリング条件を有し、
    前記意味マッチングが、さらに前記入力テキストの特性と前記フィルタリング条件のマッチングを含む、請求項1に記載の方法。
  6. 前記意味キーワードがさらにフィルタリングアクションを有し、
    合致したテキストコンテキストのフィルタリングが、前記フィルタリングアクションによる合致した前記テキストコンテンツのフィルタリングを含む、
    請求項1に記載の方法。
  7. 少なくとも基本キーワードおよび論理演算子を有する予め定義された意味キーワードを格納するキーワード記憶ユニットと、
    前記予め定義された意味キーワードにより、入力テキスト内の前記意味キーワードの前記基本キーワードを見つける基本発見ユニットと、
    テキストコンテンツと前記入力テキスト内の前記基本キーワードとの合致が見つかった場合、見つかった前記テキストコンテンツ内の意味マッチングを実行し、前記意味マッチングは、前記意味キーワードの前記論理演算子による見つかった前記テキストコンテンツと前記意味キーワードのマッチングを含む、意味マッチングユニットと、
    前記意味マッチングが成功した場合、合致したテキストコンテキストをフィルタリングするフィルタ処理ユニットと、を備える、
    テキストフィルタリングシステム。
  8. 前記キーワード記憶ユニットが文字を単位として使用し、かつツリー型構造により前記基本キーワードを格納し、
    前記基本キーワードの第1の文字がルートノードであり、かつ前記基本キーワードの最後の文字がリーフノードであり、同一の第1の文字を持つ基本キーワードが共通のルートノードを共有する、
    請求項7に記載のシステム。
  9. 基本発見ユニットが、
    前記入力テキスト内の文字c1を取得するテキスト取得サブユニットと、
    c1を現在の文字として使用し、かつツリー型構造の前記ルートノードを現在のノードとして使用して、前記現在の文字と前記現在のノードをマッチングする文字マッチングサブユニットであって、
    前記現在の文字が前記現在のノードに合致し、かつ前記現在のノードが子ノードを持つ場合、文字マッチングサブユニットは、現在につづく次の文字と前記現在のノードの前記子ノードをマッチングし、
    前記現在の文字が前記現在のノードに合致せず、かつ前記現在のノードが兄弟ノードを持つ場合、文字マッチングサブユニットは、前記現在のノードと前記現在のノードの前記兄弟ノードをマッチングする、文字マッチングサブユニットと、
    前記現在のノードと前記ルートノードを結合してマッチングルートを取得し、前記マッチングルートで正常な合致結果がある前記リーフノードにより、前記基本キーワードを確立する判断サブユニットと、を備える、
    請求項7に記載のシステム。
  10. 前記基本発見ユニットが、さらに、
    前記文字マッチングサブユニットがマッチングを実行する前に、前記現在の文字が対応するプロトタイプ文字を辞書内に有するかどうか判断し、肯定の場合、前記現在の文字を前記対応するプロトタイプ文字に変換する、文字変換サブユニットを備え、
    前記文字マッチングサブユニットは、前記対応するプロトタイプ文字を前記現在の文字として使用し、前記現在のノードとマッチングする、
    請求項9に記載のシステム。
  11. 前記意味キーワードがフィルタリング条件を有し、
    前記意味マッチングユニットが、前記入力テキストの特性と前記フィルタリング条件をマッチングするカテゴリマッチングサブユニットを有する、
    請求項7に記載のシステム。
  12. 前記意味キーワードがフィルタリングアクションを有し、
    前記フィルタ処理ユニットが、前記フィルタリングアクションにより合致した前記テキストコンテンツをフィルタリングする、
    請求項7に記載のシステム。
  13. コンピュータにより実行されるとき前記コンピュータにプロセスを実行させる、格納されたコンピュータ実行可能な指示を有する1つまたは複数のコンピュータ可読な記憶媒体であって、前記プロセスは、
    少なくとも基本キーワードおよび論理演算子を有する予め定義された意味キーワードをテキストフィルタリングシステム内に格納するステップと、
    前記テキストフィルタリングシステムが、前記予め定義された意味キーワードにより、入力テキスト内の前記意味キーワードの前記基本キーワードを見つけるステップと、
    テキストコンテンツと前記入力テキスト内の前記基本キーワードの合致が見つかった場合、前記意味キーワードの前記論理演算子による見つかった前記テキストコンテンツと前記意味キーワードのマッチングを含む、見つかったテキストコンテンツ内の意味マッチングを実行するステップと、
    前記意味マッチングが成功した場合、合致したテキストコンテキストをフィルタリングするステップと、を含む、記憶媒体。
  14. 前記基本キーワードが文字を単位として使用し、かつツリー型構造によりテキストフィルタリングシステム内に格納され、
    前記基本キーワードの第1の文字がツリー型構造内のルートノードであり、かつ前記基本キーワードの最後の文字がリーフノードであり、同一の第1の文字を持つ基本キーワードが共通のルートノードを共有する、
    請求項13に記載の1つまたは複数のコンピュータ可読な記憶媒体。
  15. 前記予め定義された意味キーワードにより、前記入力テキスト内の意味キーワードの前記基本キーワードを見つけるステップが、
    前記入力テキスト内の文字c1を取得するステップと、
    c1を現在の文字として使用し、かつツリー型構造の前記ルートノードを現在のノードとして使用して、前記現在の文字を前記現在のノードとマッチングするステップと、
    前記現在の文字が前記現在のノードに合致し、かつ前記現在のノードが子ノードを持つ場合、前記現在の文字につづく次の文字と前記現在のノードの前記子ノードをマッチングするステップと、
    前記現在の文字が前記現在のノードに合致せず、かつ前記現在のノードが兄弟ノードを持つ場合、前記現在のノードと前記現在のノードの前記兄弟ノードをマッチングするステップと、
    前記現在のノードを前記ルートノードと結合してマッチングルートを取得するステップと、
    前記マッチングルートで正常な合致結果がある前記リーフノードにより、前記基本キーワードを確立するステップと、を含む、
    請求項14に記載の1つまたは複数のコンピュータ可読な記憶媒体。
  16. 前記現在の文字を前記現在のノードとマッチングする前に、前記現在の文字が対応するプロトタイプ文字を辞書内に有するかかどうか判断するステップと、
    肯定の場合、前記現在の文字を前記対応するプロトタイプ文字に変換し、前記対応するプロトタイプ文字を前記現在の文字として用いて前記現在のノードとマッチングするステップと、を含む、
    請求項15に記載の1つまたは複数のコンピュータ可読な記憶媒体。
  17. 前記意味キーワードがさらにフィルタリング条件を有し、
    前記意味マッチングが、さらに前記入力テキストの特性と前記フィルタリング条件のマッチングを含む、
    請求項13に記載の1つまたは複数のコンピュータ可読な記憶媒体。
  18. 前記意味キーワードがさらにフィルタリングアクションを有し、
    合致したテキストコンテキストのフィルタリングが、前記フィルタリングアクションによる合致した前記テキストコンテンツのフィルタリングを含む、
    請求項13に記載の1つまたは複数のコンピュータ可読な記憶媒体。
JP2012537879A 2009-11-10 2010-09-03 テキストフィルタリングの方法およびシステム Active JP5744892B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN200910211715.0A CN102053993B (zh) 2009-11-10 2009-11-10 一种文本过滤方法及文本过滤系统
CN200910211715.0 2009-11-10
PCT/US2010/047795 WO2011059551A1 (en) 2009-11-10 2010-09-03 Method and system for text filtering

Publications (2)

Publication Number Publication Date
JP2013510368A true JP2013510368A (ja) 2013-03-21
JP5744892B2 JP5744892B2 (ja) 2015-07-08

Family

ID=43958327

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012537879A Active JP5744892B2 (ja) 2009-11-10 2010-09-03 テキストフィルタリングの方法およびシステム

Country Status (6)

Country Link
US (2) US8874597B2 (ja)
EP (1) EP2499563A4 (ja)
JP (1) JP5744892B2 (ja)
CN (1) CN102053993B (ja)
HK (1) HK1152123A1 (ja)
WO (1) WO2011059551A1 (ja)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102779176A (zh) * 2012-06-27 2012-11-14 北京奇虎科技有限公司 关键词过滤系统及方法
CN102880632B (zh) * 2012-07-24 2016-02-24 刘莎 一种语用关键词检索方法与装置
CN102880636A (zh) * 2012-08-03 2013-01-16 深圳证券信息有限公司 不良信息检测方法及服务端
CN102945230B (zh) * 2012-10-17 2015-03-25 刘运通 一种基于语义匹配驱动的自然语言知识获取方法
JP5727991B2 (ja) * 2012-11-12 2015-06-03 株式会社オプティム ユーザ端末、不正サイト情報管理サーバ、不正リクエスト遮断方法、及び不正リクエスト遮断プログラム
CN104317883B (zh) * 2014-10-21 2017-11-21 北京国双科技有限公司 网络文本处理方法及装置
CN104331475B (zh) * 2014-11-04 2018-03-23 郑州悉知信息科技股份有限公司 一种信息检测方法及装置
US10585869B2 (en) * 2015-05-22 2020-03-10 Open Text Holdings, Inc. System and method for generating, maintaining, and querying a database for computer investigations
CN105608201A (zh) * 2015-12-28 2016-05-25 湖南蚁坊软件有限公司 一种支持多关键词表达式的文本匹配方法
CN105760445A (zh) * 2016-02-03 2016-07-13 北京光年无限科技有限公司 用于过滤垃圾词的方法及系统
CN105893503B (zh) * 2016-03-30 2019-05-14 浙江传媒学院 一种内容无关的文本快速过滤方法
CN107038193B (zh) * 2016-11-17 2020-11-27 创新先进技术有限公司 一种文本信息的处理方法和装置
CN106897422A (zh) * 2017-02-23 2017-06-27 百度在线网络技术(北京)有限公司 文本处理方法、装置及服务器
CN110349572B (zh) * 2017-05-27 2021-10-22 腾讯科技(深圳)有限公司 一种语音关键词识别方法、装置、终端及服务器
CN108334491B (zh) * 2017-09-08 2020-07-31 腾讯科技(深圳)有限公司 文本分析方法、装置、计算设备及存储介质
CN109670163B (zh) * 2017-10-17 2023-03-28 阿里巴巴集团控股有限公司 信息识别方法、信息推荐方法、模板构建方法及计算设备
CN108491518B (zh) * 2018-03-26 2021-02-26 广州虎牙信息科技有限公司 审核文本的方法、装置、电子设备和存储介质
CN109614463B (zh) * 2018-10-24 2023-02-03 创新先进技术有限公司 文本匹配处理方法及装置
CN109582768B (zh) * 2018-11-23 2021-08-24 北京搜狗科技发展有限公司 一种文本输入方法和装置
US11074407B2 (en) * 2019-03-21 2021-07-27 International Business Machines Corporation Cognitive analysis and dictionary management
US11036936B2 (en) * 2019-03-21 2021-06-15 International Business Machines Corporation Cognitive analysis and content filtering
CN110298020B (zh) * 2019-05-30 2023-05-16 北京百度网讯科技有限公司 文本反作弊变体还原方法及设备、文本反作弊方法及设备
CN110442704A (zh) * 2019-08-13 2019-11-12 重庆誉存大数据科技有限公司 一种企业新闻筛选方法及系统
CN111476037B (zh) * 2020-04-14 2023-03-31 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机设备和存储介质
CN112131462A (zh) * 2020-09-10 2020-12-25 中数通信息有限公司 一种基于信息监测的关键词发现方法、系统和电子设备
CN112364153A (zh) * 2020-11-10 2021-02-12 中数通信息有限公司 一种基于干扰特征的关键词识别方法及装置
CN113377921B (zh) * 2021-06-25 2023-07-21 北京百度网讯科技有限公司 用于匹配信息的方法、装置、电子设备以及介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08305729A (ja) * 1995-05-10 1996-11-22 Oki Electric Ind Co Ltd ネットワーク情報フィルタリングシステム
JP2000200278A (ja) * 1998-12-28 2000-07-18 Kuikku:Kk テキストフィルタリングシステム及びテキストフィルタリング方法
JP2000268039A (ja) * 1999-03-19 2000-09-29 Denso Corp 検索装置及び記録媒体
JP2006293573A (ja) * 2005-04-08 2006-10-26 Yaskawa Information Systems Co Ltd 電子メール処理装置および電子メールフィルタリング方法および電子メールフィルタリングプログラム
JP2007172571A (ja) * 2006-04-20 2007-07-05 Shoji Kodama 情報検索システム及び方法
JP2008197929A (ja) * 2007-02-13 2008-08-28 Tsukuba Multimedia:Kk サイト発信住所登録型地図情報システム連動サーチエンジンサーバーシステム。
WO2009059420A1 (en) * 2007-11-09 2009-05-14 Vantrix Corporation System and method for rule based content filtering

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6341280B1 (en) * 1998-10-30 2002-01-22 Netscape Communications Corporation Inline tree filters
JP4115048B2 (ja) 1999-08-17 2008-07-09 株式会社リコー 文書検索システム
EP3367268A1 (en) * 2000-02-22 2018-08-29 Nokia Technologies Oy Spatially coding and displaying information
US7581170B2 (en) * 2001-05-31 2009-08-25 Lixto Software Gmbh Visual and interactive wrapper generation, automated information extraction from Web pages, and translation into XML
US7543015B2 (en) * 2002-01-16 2009-06-02 Xerox Corporation Symmetrical structural pattern matching
GB0413743D0 (en) * 2004-06-19 2004-07-21 Ibm Method and system for approximate string matching
US7991767B2 (en) * 2005-04-29 2011-08-02 International Business Machines Corporation Method for providing a shared search index in a peer to peer network
CA2509496A1 (en) 2005-06-06 2006-12-06 3618633 Canada Inc. Search-enhanced trie-based syntactic pattern recognition of sequences
US7809551B2 (en) 2005-07-01 2010-10-05 Xerox Corporation Concept matching system
WO2008024917A2 (en) * 2006-08-23 2008-02-28 Innovative Solution, Inc. Efficient search result update mechanism
JP5141560B2 (ja) 2007-01-24 2013-02-13 富士通株式会社 情報検索プログラム、該プログラムを記録した記録媒体、情報検索装置、および情報検索方法
US8122006B2 (en) 2007-05-29 2012-02-21 Oracle International Corporation Event processing query language including retain clause
US20090024718A1 (en) * 2007-07-20 2009-01-22 Aris Anagnostopoulos Just-In-Time Contextual Advertising Techniques
CN201066901Y (zh) * 2007-08-01 2008-05-28 浙江大学 短信息监控中心
US8442928B2 (en) 2007-11-09 2013-05-14 Vantrix Corporation Method and apparatus for employing rules to filter streaming data
US8364470B2 (en) * 2008-01-15 2013-01-29 International Business Machines Corporation Text analysis method for finding acronyms
JP2009187414A (ja) 2008-02-08 2009-08-20 Fujitsu Ltd 分析用属性項目抽出プログラム、分析用属性項目抽出方法、及び情報分析装置
US7895205B2 (en) 2008-03-04 2011-02-22 Microsoft Corporation Using core words to extract key phrases from documents
US20100169243A1 (en) 2008-12-27 2010-07-01 Kibboko, Inc. Method and system for hybrid text classification
US20100191724A1 (en) 2009-01-23 2010-07-29 Mehmet Kivanc Ozonat Method and system to identify providers in web documents

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08305729A (ja) * 1995-05-10 1996-11-22 Oki Electric Ind Co Ltd ネットワーク情報フィルタリングシステム
JP2000200278A (ja) * 1998-12-28 2000-07-18 Kuikku:Kk テキストフィルタリングシステム及びテキストフィルタリング方法
JP2000268039A (ja) * 1999-03-19 2000-09-29 Denso Corp 検索装置及び記録媒体
JP2006293573A (ja) * 2005-04-08 2006-10-26 Yaskawa Information Systems Co Ltd 電子メール処理装置および電子メールフィルタリング方法および電子メールフィルタリングプログラム
JP2007172571A (ja) * 2006-04-20 2007-07-05 Shoji Kodama 情報検索システム及び方法
JP2008197929A (ja) * 2007-02-13 2008-08-28 Tsukuba Multimedia:Kk サイト発信住所登録型地図情報システム連動サーチエンジンサーバーシステム。
WO2009059420A1 (en) * 2007-11-09 2009-05-14 Vantrix Corporation System and method for rule based content filtering

Also Published As

Publication number Publication date
US20120221588A1 (en) 2012-08-30
US8874597B2 (en) 2014-10-28
EP2499563A4 (en) 2016-03-16
US20150120764A1 (en) 2015-04-30
HK1152123A1 (en) 2012-02-17
CN102053993B (zh) 2014-04-09
US9600570B2 (en) 2017-03-21
EP2499563A1 (en) 2012-09-19
WO2011059551A1 (en) 2011-05-19
CN102053993A (zh) 2011-05-11
JP5744892B2 (ja) 2015-07-08

Similar Documents

Publication Publication Date Title
JP5744892B2 (ja) テキストフィルタリングの方法およびシステム
Jiang et al. A deep learning based online malicious URL and DNS detection scheme
Schmidt et al. Static analysis of executables for collaborative malware detection on android
US20150234927A1 (en) Application search method, apparatus, and terminal
WO2015101337A1 (en) Malicious website address prompt method and router
CN108737423B (zh) 基于网页关键内容相似性分析的钓鱼网站发现方法及系统
US10216848B2 (en) Method and system for recommending cloud websites based on terminal access statistics
US9565209B1 (en) Detecting electronic messaging threats by using metric trees and similarity hashes
US20130304742A1 (en) Hardware-accelerated context-sensitive filtering
WO2017097075A1 (zh) 一种关键词模糊匹配的方法及装置
CN111400504A (zh) 企业关键人的识别方法和装置
AU2017216520A1 (en) Common data repository for improving transactional efficiencies of user interactions with a computing device
CN108027820A (zh) 用于产生短语黑名单以响应于搜索查询来防止某些内容出现在搜索结果中的方法和系统
CN112925954A (zh) 用于在图数据库中查询数据的方法和装置
JPWO2016194909A1 (ja) アクセス分類装置、アクセス分類方法、及びアクセス分類プログラム
CN103744883A (zh) 一种快速选取信息碎片的方法及系统
JP2022089132A (ja) 情報セキュリティ装置及びその方法
CN112016934B (zh) 用于检测异常数据的方法、设备和计算机可读存储介质
Rajaraman et al. Mining semantic networks for knowledge discovery
CN115470489A (zh) 检测模型训练方法、检测方法、设备以及计算机可读介质
US11496489B1 (en) Knowledge-aware detection of attacks on a client device conducted with dual-use tools
US9426173B2 (en) System and method for elimination of spam in a data stream according to information density
US20210064662A1 (en) Data collection system for effectively processing big data
RU2614561C1 (ru) Система и способ определения похожих файлов
Lu et al. Optimized Aho-Corasick string matching algorithm for smart phones

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130813

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140311

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140610

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141118

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150331

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150430

R150 Certificate of patent or registration of utility model

Ref document number: 5744892

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250