JP5744228B2 - インターネットにおける有害情報の遮断方法と装置 - Google Patents

インターネットにおける有害情報の遮断方法と装置 Download PDF

Info

Publication number
JP5744228B2
JP5744228B2 JP2013545039A JP2013545039A JP5744228B2 JP 5744228 B2 JP5744228 B2 JP 5744228B2 JP 2013545039 A JP2013545039 A JP 2013545039A JP 2013545039 A JP2013545039 A JP 2013545039A JP 5744228 B2 JP5744228 B2 JP 5744228B2
Authority
JP
Japan
Prior art keywords
information
corpus
matching
user feedback
model information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013545039A
Other languages
English (en)
Other versions
JP2014502754A (ja
Inventor
チェン、イェン
ユー、シャオミン
ヤン、チエンウー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Peking University Founder Research and Development Center
Original Assignee
Peking University
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Peking University Founder Research and Development Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University, Peking University Founder Group Co Ltd, Beijing Founder Electronics Co Ltd, Peking University Founder Research and Development Center filed Critical Peking University
Publication of JP2014502754A publication Critical patent/JP2014502754A/ja
Application granted granted Critical
Publication of JP5744228B2 publication Critical patent/JP5744228B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)
  • Machine Translation (AREA)

Description

本発明は、コンピューター情報処理及び情報遮断の技術に関し、特に、統計と規則に基づくインターネットにおける有害情報の遮断方法と装置に関する。
インターネットが迅速に発展するにつれて、情報を伝播するスピードも速くなる。インターネットにおいて、様々なコンテンツが混在しているため、広告、色情、暴力などの有害情報を禁止することが難しい。そして、このような有害情報はますますもっと隠蔽の形で拡散されているため、有害情報の拡散を抑制し、インターネット空間を浄化することが非常に重要である。インターネットにおける膨大なデータ情報は、人工的にはインターネットにおける有害情報を遮断する場合、極めて大量の労力と財力を必要とする。そのため、近年、インターネットにおける有害情報を自動的に遮断する技術の研究が注目されている。
現在、一般的には、インターネットにおける有害情報を自動的に遮断する技術としては、下記の二つの方法が取り上げられる。
(1)キーワードマッチングに基づく遮断方法
判定プロセスにおいて、この方法は精確なマッチング法でキーワードがあるテキストを遮断する。当該方法が採用される場合に、インターネットにおける有害情報を速く遮断でき、簡単で使いやすい。
(2)統計のテキスト分類モデルに基づく遮断方法
この方法において、本質的には、統計に基づく有害テキストの遮断モデルはテキストを二種類に分類する。テキスト分類は自然言語の処理領域における重要な研究方向であり、大量のモデルが参考にできる。理論上、統計のテキスト分類モデルは、効果的であるはずであるが、実際の適用時には性能が望ましくない。誤判断の場合がよくあり、主な原因が下記で示され、
(1)順方向コーパス(corpus)と逆方向コーパスはバランスが取れていない。その中、順方向コーパスに少量の種類しか含まれていなく、例えば、広告、色情、暴力など、ユーザーが関心を持っている有害情報はメインである。一方、逆方向コーパスには、大量の種類が含まれており、テキスト内容によって分類すると、経済、体育、政治、医薬、アート、歴史、政治、文化、環境、交通、コンピューター、教育、軍事などが分けられている。
(2)有害情報の内容の表現は非常に隠蔽で変わりやすい。伝播者は常に通常の言語をわざと避け、代わりに、同音字、漢字分解、略字、造語などが使用されている。
(3)ユーザー辞書にキーワードを精確にマッチングする方法しか提供されないため、判定方法は機械的で融通性がなくなる。しかも、単一のキーワードの単語感情極性は代表的なものではなく、誤判断率が高い。例えば、「免費(無料)」と「発票(インボイス)」が同時にコンテキストに現れる場合は、単一の「発票(インボイス)」より説得力がある。
(4)従来の中国語情報処理方法はテキスト分類に基づく有害情報の遮断には適用できない。例えば、一定規模の禁止用語の使用や、特徴項に二文字以上の語彙しか含まれないなど。
(5)広告、色情、暴力などの有害情報を総合的に遮断するための統一的モデルがない。
上記したインターネットにおける有害情報の自動的遮断を実現するプロセスにおいて、従来の技術では、現在のインターネットからの要請を満足できなく、そして、自動的な更新も実現できない。
本発明は、インターネットにおける有害情報の遮断方法と装置を提供することを目的とする。
本発明は、このような目的を達成するために、インターネットにおける有害情報の遮断方法であって、遮断待ちテキスト情報、システムプレリサーチ(pre-research)モデル情報及びユーザーフィードバックモデル情報を取得するステップと、 前記遮断待ちテキスト情報を前処理するステップと、 前記前処理された遮断待ちテキスト情報と前記システムプレリサーチモデル情報とに対して特徴情報マッチングし、第一マッチング結果を取得するステップと、前記前処理された遮断待ちテキスト情報と前記ユーザーフィードバックモデル情報とに対して特徴情報マッチングし、第二マッチング結果を取得するステップと、第一マッチング結果と第二マッチング結果に基いて、前記遮断待ちテキスト情報を遮断するステップと、を備えることを特徴とする。
また、本発明は、このような目的を達成するために、インターネットにおける有害情報の遮断装置であって、遮断待ちテキスト情報、システムプレリサーチモデル情報及びユーザーフィードバックモデル情報を取得する情報取得モジュールと、 前記遮断待ちテキスト情報を前処理する前処理モジュールと、 前記前処理された遮断待ちテキスト情報と前記システムプレリサーチモデル情報とに対して特徴情報マッチングし、第一マッチング結果を取得する第一マッチングモジュールと、前記前処理された遮断待ちテキスト情報と前記ユーザーフィードバックモデル情報とに対して特徴情報マッチングし、第二マッチング結果を取得する第二マッチングモジュールと、第一マッチング結果と第二マッチング結果に基いて、前記遮断待ちテキスト情報を遮断する遮断モジュールと、を備えることを特徴とする。
以上のように、本発明は、遮断待ちテキスト情報、システムプレリサーチモデル情報及びユーザーフィードバックモデル情報を取得し、前記遮断待ちテキスト情報を前処理し、前記前処理された遮断待ちテキスト情報と前記システムプレリサーチモデル情報とに対して特徴情報マッチングし、第一マッチング結果を取得し、前記前処理された遮断待ちテキスト情報と前記ユーザーフィードバックモデル情報とに対して特徴情報マッチングし、第二マッチング結果を取得し、第一マッチング結果と第二マッチング結果に基いて、前記遮断待ちテキスト情報を遮断する。二回のマッチングによって遮断処理が行われるため、システムにおいて有害情報を自動的に遮断する正確性が高く、システムの性能を向上することができる。また、本発明はユーザーフィードバックモデル情報を利用して有害情報を遮断するため、ユーザーフィードバック情報を適時に有害情報の自動的遮断プロセスに適用することが出来、システムモデル情報の自動的更新機能を実現できる。
本発明の実施例で、インターネットにおける有害情報の遮断方法を示すフローチャートである。 本発明の更なる実施例で、インターネットにおける有害情報の遮断方法を示すフローチャートである。 本発明の実施例で、インターネットにおける有害情報の遮断装置の構成を示す模式図である。 本発明の更なる実施例で、インターネットにおける有害情報の遮断装置の構成を示す模式図である。
以下、図面を参照しながら、実施例を使って本発明に係るインターネットにおける有害情報の遮断方法と装置を詳細に説明する。
図1で示されるように、本発明の一実施例はインターネットにおける有害情報の遮断方法であって、遮断待ちテキスト情報、システムプレリサーチモデル情報及びユーザーフィードバックモデル情報を取得するステップ101と、 前記遮断待ちテキスト情報を前処理するステップ102と、 前記前処理された遮断待ちテキスト情報と前記システムプレリサーチモデル情報とに対して特徴情報マッチングし、第一マッチング結果を取得するステップ103と、 前記前処理された遮断待ちテキスト情報と前記ユーザーフィードバックモデル情報とに対して特徴情報マッチングし、第二マッチング結果を取得するステップ104と、第一マッチング結果と第二マッチング結果に基いて、前記遮断待ちテキスト情報を遮断するステップ105と、を備える。
図2で示されるように、本発明の更なる実施例はインターネットにおける有害情報の遮断方法であって、下記の各ステップを備える。すなわち、
ステップ201:前記システムプレリサーチモデル情報のコーパス及びユーザーフィードバックモデル情報のコーパスを取得する。ここで、前記ユーザーフィードバックモデル情報のコーパスには、ユーザーフィードバックコーパス及び/または被遮断コーパスが含まれる。通常、前記システムプレリサーチモデル情報及びユーザーフィードバックモデル情報の学習コーパスには、順方向コーパスと逆方向コーパスとが含まれる。順方向コーパスとしては、例えば、広告、色情、暴力などの有害情報を含むテキストが10000件用意される。一方、逆方向コーパスとしては、例えば、経済、政治、体育、文化、医薬、交通、環境、軍事、アート、歴史、コンピューター、教育、法律、不動産、科学技術、自動車、人材、娯楽などの非有害情報を含むテキストが30000件用意される。
ここで、前記学習コーパスの収集において、順方向コーパスと逆方向コーパスはバランスが取れていない場合がよくあり、一方は範囲が広すぎるが、もう一方は範囲が狭すぎる。本発明において、このようなバランスが取れていないコーパスの分布が許容される。コーパス範囲が広い場合は、量ではなく、できるだけ多くの種類を確保しながら用意する。
ステップ202:遮断待ちテキスト情報、システムプレリサーチモデル情報及びユーザーフィードバックモデル情報を取得する。
ステップ203:前記遮断待ちテキスト情報を前処理する。
このステップにおいては、前記遮断待ちテキスト情報に対してセグメント処理をする。例えば、句読点と常用語に基づいて、コーパスを区切る。常用語とは、よく使用され判定には無意味な語彙であり、例えば「的」、「了」など。しかし、「
Figure 0005744228
(貴方)」はよく順方向コーパスに、「我(私)」はよく逆方向コーパスに使用されるが、いずれも常用語に使用されない。
ここで、自然言語処理においては、よく用いられる禁止用語リストが常用語リストとして適用されない。通常、「方正智思分詞4.0(ペキンファンダー社が開発ソフトウェア)」によって、コーパスに対してセグメントや品詞分類をすることができる。前記セグメント処理されたセグメントユニットは後工程における最小の処理単位である。
前記セグメント処理された特徴項候補量を統計する。例えば、前記セグメント処理されたセグメントユニットにおける非漢字部分を統計し、前記セグメントユニットの合計をN1、非漢字部分の合計をN2とする場合、N2/N1が閾値より大きければ、当該特徴項候補に対応する遮断待ちテキスト情報は有害情報と判断される。判断の理由としては、大量のノイズ文字がこの情報に含まれ、広告などのスパムテキストであるかもしれない。もしくは、前記セグメントユニットにおける、広告によく用いられるURL、電話番号、電子メールアドレス、QQ等の連絡方法の数量num(ad)を統計し、デフォルトウェートscoreadを与える。
ステップ204:前記前処理された遮断待ちテキスト情報と前記システムプレリサーチモデル情報とに対して特徴情報マッチングし、第一マッチング結果を取得する。このステップにおいては、
ステップ2041:前記前処理された遮断待ちテキスト情報及び前記システムプレリサーチモデル情報を取得する。前記システムプレリサーチモデル情報に規則索引データベースと前記システムリサーチモデルの特徴項情報とが含まれる。具体的には、前記規則索引データベースにおけるユーザー規則索引データベースとユーザーキーワード索引データベースが生成されるプロセスは以下のようである。すなわち、
ステップS1:キーワード解析。まず、常用漢字のピンインの索引を作成し、キーワードにおける各字のピンインの索引に基づいてキーワード全体の索引を生成する。それから、キーワードにおける各字に対して構造的に分解し、分解された結果に基いて、キーワードを再帰し再組合せする。最後、キーワードの索引と、分解の集合によってキーバリューペア(key value pair)を形成させ、全ての解析結果を保存し、ユーザーキーワードの索引データベースを生成する。例えば「法輪功」は、キーワード解析後に、一つの索引値が生成され、しかも幾つかの分解結果がある。具体的には、「三去車侖工力」、「法車侖功」などが含まれる。
ステップS2:文法解析。コンピューターによって規則文法を、処理できる形に解析する。前記規則文法には、ANDと、ORと、NEARと、NOTとが含まれる。例えば、「A AND B」の場合、AとBは解析待ちのキーワードであり、AND文法とはAとBが同時にコンテキストに現れる場合に、当該規則はマッチングに成功である。キーワードと規則文法に対してキーバリューペアを形成し、全ての解析結果を保存しユーザー規則索引データベースを生成する。
ここで、上記した規則索引データベースにおいては、ユーザーが設定した規則でも良いし、システムのプリセット規則でもよい。上記したステップはユーザー設定規則を解析し相応する索引データベースを生成するプロセスであり、当該索引データベースは以下のマッチングプロセスを最適化できる。
ステップ2042:前記前処理された遮断待ちテキスト情報と前記システムプレリサーチモデル情報とをマッチングし、特徴項を取得する。ここで、前記システムプレリサーチモデル情報には、規則索引データベースと前記システムプレリサーチモデル特徴項の情報とが含まれ、具体的には、システムプレリサーチモデル特徴項の情報を取得するプロセスは、以下のようである。すなわち、
ステップS1:前記セグメントユニットを文字列に組合せし、特徴項候補とする。
(例1):連続的なセグメントユニットを文字列に組合せする場合。
各文のセグメントユニットに対して、一番目のセグメントユニットから、組合せウィンドウの最大値をNとして組合せする。順序があるセグメントユニット「ABCD」を例として挙げると、組合せウィンドウの最大値が3である場合に、文字列の組合せはABC、BCD、AB、BC、CD、A、B、C、Dとの九つがある。
(例2):
非連続のセグメントユニットを文字列に組合せする場合。
例1で組合せの文字列に対してピンインの索引を計算し、前記ステップ2041におけるステップS1で生成されたユーザーキーワードの索引データベースに基づいてマッチングする。マッチング成功の集合があれば、マッチング成功の数量num(user)を統計する。それから、前記ステップ2041におけるステップS2で生成されたユーザー規則索引データベースに基づいてマッチングし、マッチング成功すれば、非連続のセグメントユニットに対して一つの文字列が生成される。例えば、例1における九つの文字列。ユーザーキーワードの索引データベースにおいて、二つの文字列A、Dがマッチング成功する。ユーザー規則索引データベースに規則「A NEAR2 D」がある場合に、特徴項ADが新たに生成される。ここに、2はAとDの距離は2以下の意味とする。マッチング成功の数量num(user)を累計し、デフォルトウェートscoreuserを与える。
ステップS2:前記特徴項候補を頻度によって遮断する。具体的には、学習コーパスに特徴項候補が現れる回数を統計し、頻度に従って遮断し、頻度が閾値以上の特徴項候補を残しておき、頻度が閾値未満の特徴項候補を削除し、閾値を調整することによって、残す範囲を制御する。
ステップS3:前記特徴項候補を頻度によって再遮断する。具体的な遮断プロセスは、
まず、改めて不適切の頻度を評価し、例えば、全てのBが現れる時に、Aも同時に現れ、ABになる場合であれば、Bの頻度が0になる。頻度再評価式は:
Figure 0005744228
ここで、aは特徴項であり、f(a)はaのワード頻度であり、bはaが含まれる長い文字列の特徴項であり、Tはbの集合であり、P(T)は集合のサイズである。
それから、再評価された頻度に従って再遮断を行い、頻度が閾値未満の特徴項候補を削除し、閾値を調整することによって、残す範囲を制御する。
ステップS4:前記特徴項候補が自動的に選択されて、特徴項が抽出される。具体的には、当該ステップにおいて、前記ステップ3で順方向コーパスから取得される特徴項候補と前記ステップ3で逆方向コーパスから取得される特徴項候補とを組合せ、組合せによる特徴項候補は二つのワード頻度があり、それぞれ順方向頻度と逆方向頻度に対応する。統計学上のカイ2乗統計量によって特徴項を自動的に選択し、カイ2乗値が最大である前からのN個の特徴項候補を残して最終の特徴項情報として、X統計量の式は:
Figure 0005744228
その中、A、B、C、Dの意味はそれぞれ下記で示され、
Figure 0005744228
表におけるkは「0」または「1」で、順方向タイプと逆方向タイプの二タイプを代表する。
ここで、前記特徴項は一文字単語(単一の文字からなる単語)と複数文字単語(複数の文字からなる単語)とを含む。一文字単語は逆方向テキストの判定に影響が大きい。特に、フォーラムテキスト情報の内容において、一文字単語に基づくセグメントユニットがよく用いられ、一文字単語を考えなければ、逆方向テキストが誤判断しやすくなる。
ステップ2043:前記特徴項のコーパス情報の得点を計算する。ステップS4で前記特徴項の頻度が既に保存され、特徴項ごとに順方向頻度と逆方向頻度をそれぞれ代表する二つの頻度を有する。例えば、「発票(インボイス)」の順方向頻度は逆方向頻度よりずっと大きく、「発票(インボイス)」は広告の有害情報によく用いられるからである。各特徴項の順方向頻度を特徴項の順方向ウェートとして、各特徴項の逆方向頻度を特徴項の逆方向ウェートとする。全ての特徴項の順方向/逆方向ウェートに対して正規化を行い、これによってこそ、ウェート値は比較する意味がある。正規化の式は:
Figure 0005744228
生成された特徴項とそのウェートがシステムより準備しておく標準的二種類のコーパスに基づいて学習することによって取得されるため、生成された結果を保存しシステムプレリサーチモデル特徴項情報とする。
前記前処理された遮断待ちテキスト情報と前記システムプレリサーチモデル特徴項情報とに対して特徴情報マッチングし、遮断待ちテキスト特徴項情報を取得し、前記特徴項情報の順方向得点を計算し、その計算式は:
Figure 0005744228
前記特徴項情報の逆方向得点を計算し、その計算式は:
Figure 0005744228
なお、num(ad)とnum(user)も考慮すると、上記計算式の右側が下記のようになる:
Figure 0005744228
ステップ2044:コーパス情報の得点に基づいて、前記特徴項に対応する遮断待ちテキスト情報が有害情報であるかどうかを判断する。scorepos(doc) > scoreneg(doc)の場合に、システムプレリサーチモデルはこの遮断待ちテキスト情報が有害テキストと判断する。また、scorepos(doc) == scoreneg(doc)の場合に、このモデルが無効となり、判定が無効される。また、scorepos(doc) < scoreneg(doc)の場合に、システムプレリサーチモデルはこの遮断待ちテキスト情報が通常テキストと判断する。
ステップ2045:判断結果に基いて、第一マッチング結果を取得する。
ステップ205:前記前処理された遮断待ちテキスト情報と前記ユーザーフィードバックモデル情報とに対して特徴情報マッチングし、第二マッチング結果を取得する。当該ステップに含まれるプロセスとステップ204におけるプロセスが大体同じである。
ここで、前記ユーザーフィードバックモデル情報を取得するプロセスとシステムプレリサーチモデル情報を取得するプロセスについて、主な相違点はステップ201で学習コーパスの選択である。前記ユーザーフィードバックモデル情報の学習コーパスが下記の二つの方面から取得できる:
(1)ユーザーフィードバックメカニズム
実際の使用するプロセスにおいて、判定には問題があると発見され、主に有害情報が通常情報と誤判断される場合に、ユーザーはシステムにエラーを報告し、システムはユーザーからの標準回答を受けフィードバックコーパスとする。
(2)判断モデルメカニズム
処理待ちのテキストがステップ206での有害情報判定を受け、当該テキストの判定結果が出力される。結果は有害情報テキストか通常テキストである。信頼性を判定する状況に基づいて、処理待ちのテキストはフィードバック学習に用いられるかどうかを判断する。
ステップ206:前記第一マッチング結果と第二マッチング結果に基いて、前記遮断待ちテキスト情報に対して遮断処理を行う。具体的には、前記第一マッチング結果と第二マッチング結果、つまり、システムプレリサーチモデル情報とユーザーフィードバックモデル情報が一致するかどうかを判断する。一致と判定され、いずれも有害情報テキストまたは通常情報テキストであれば、判定結果の信頼性が高く、フィードバック学習に使用できる。一方、不一致と判定されれば、判定結果の信頼性がより低くなる。比較的厳しい遮断方針が採用される場合に、このテキストが遮断されるが、フィードバック学習に使用できない。その中には一つのモデルが無効である場合に、結果は残りのモデルの判定結果次第であり、ある程度の信頼性があり、フィードバック学習に使用できる。二つのモデルが両方とも無効である場合に、無効標識をリターンさせ、フィードバック学習に使用できない。
ここで、前記方法において、遮断待ちテキスト情報の判定プロセスの完成後に、
前記ユーザーフィードバックモデル情報のコーパス量及びそれに対応する閾値を取得する。具体的には、フィードバック学習に使用できるコーパス量を統計し、前記コーパス量はそれに対応する閾値を越えているかどうかを判断する。
前記ユーザーフィードバックモデル情報のコーパス量及びそれに対応する閾値に基づいて、前記ユーザーフィードバックモデル情報を更新する。コーパス量は閾値より大きい場合に、改めてフィードバックコーパスを学習し、ユーザーフィードバックモデル情報を更新する。閾値を調整することによって、更新の周期が調整される。
図3で示されるように、本発明の一実施例のインターネットにおける有害情報の遮断装置は、
遮断待ちテキスト情報、システムプレリサーチモデル情報及びユーザーフィードバックモデル情報を取得する情報取得モジュール301と、前記遮断待ちテキスト情報を前処理する前処理モジュール302と、前記前処理された遮断待ちテキスト情報と前記システムプレリサーチモデル情報とに対して特徴情報マッチングし、第一マッチング結果を取得する第一マッチングモジュール303と、前記前処理された遮断待ちテキスト情報と前記ユーザーフィードバックモデル情報とに対して特徴情報マッチングし、第二マッチング結果を取得する第二マッチングモジュール304と、第一マッチング結果と第二マッチング結果に基いて、前記遮断待ちテキスト情報を遮断する遮断モジュール305と、を備える。
図4で示されるように、本発明の一実施例のインターネットにおける有害情報の遮断装置は、下記のモジュールを備える。すなわち、
情報取得モジュール401:遮断待ちテキスト情報、システムプレリサーチモデル情報及びユーザーフィードバックモデル情報を取得し、ユーザーフィードバックモデル情報の学習コーパスを取得する。ここで、前記ユーザーフィードバックモデル情報のコーパスには、ユーザーフィードバックコーパス及び/または被遮断コーパスが含まれる。
前処理モジュール402:前記遮断待ちテキスト情報を前処理する。このモジュールは、前記遮断待ちテキスト情報に対してセグメント化処理をするセグメントサブモジュール4021と、前記セグメント処理された特徴項候補量を統計する統計サブモジュール4022と、を備える。
第一マッチングモジュール403:前記前処理された遮断待ちテキスト情報と前記システムプレリサーチモデル情報とに対して特徴情報マッチングし、第一マッチング結果を取得する。このモジュールは、前記前処理された遮断待ちテキスト情報及び前記システムプレリサーチモデル情報を取得する情報取得サブモジュール4031と、前記前処理された遮断待ちテキスト情報と前記システムプレリサーチモデル情報とをマッチングし、特徴項を取得するマッチングサブモジュール4032と、前記特徴項のコーパス情報の得点を計算する統計サブモジュール4033と、コーパス情報の得点に基づいて、前記特徴項に対応する遮断待ちテキスト情報が有害情報であるかどうかを判断する判断サブモジュール4034と、判断結果に基いて、第一マッチング結果を取得する結果出力サブモジュール4035と、を備える。
第二マッチングモジュール404:前記前処理された遮断待ちテキスト情報と前記ユーザーフィードバックモデル情報とに対して特徴情報マッチングし、第二マッチング結果を取得する。このモジュールは、前記前処理された遮断待ちテキスト情報及び前記システムプレリサーチモデル情報を取得する情報取得サブモジュール4041と、前記前処理された遮断待ちテキスト情報と前記ユーザーフィードバックモデル情報とをマッチングし、特徴項を取得するマッチングサブモジュール4042と、前記特徴項のコーパス情報の得点を統計する統計サブモジュール4043と、コーパス情報の得点に基づいて、前記特徴項に対応する遮断待ちテキスト情報が有害情報であるかどうかを判断する判断サブモジュール4044と、判断結果に基づいて、第二マッチング結果を取得する結果出力サブモジュール4045と、を備える。
遮断モジュール405:前記第一マッチング結果と第二マッチング結果に基づいて、前記遮断待ちテキスト情報に対して遮断処理を行う。
閾値取得モジュール406:前記ユーザーフィードバックモデル情報のコーパス量及びそれに対応する閾値を取得する。
更新モジュール407:前記ユーザーフィードバックモデル情報のコーパス量及びそれに対応する閾値に基づいて、前記ユーザーフィードバックモデル情報を更新する。前記閾値取得モジュールが取得したユーザーフィードバックモデル情報のコーパス量はそれに対応する閾値に達する場合に、前記更新モジュールが前記ユーザーフィードバックモデル情報のコーパス量及びそれに対応する閾値に基づいて、前記ユーザーフィードバックモデル情報を更新する。
以上のように、本発明の実施例に提供されるインターネットにおける有害情報の遮断方法と装置は、遮断待ちテキスト情報、システムプレリサーチモデル情報及びユーザーフィードバックモデル情報を取得し、前記遮断待ちテキスト情報を前処理し、前記前処理された遮断待ちテキスト情報と前記システムプレリサーチモデル情報とに対して特徴情報マッチングし、第一マッチング結果を取得し、前記前処理された遮断待ちテキスト情報と前記ユーザーフィードバックモデル情報とに対して特徴情報マッチングし、第二マッチング結果を取得し、第一マッチング結果と第二マッチング結果に基いて、前記遮断待ちテキスト情報を遮断する。二回のマッチングによって遮断処理が行われるため、システムにおいて有害情報を自動的に遮断する正確性が高く、システムの性能を向上することができる。また、本発明はユーザーフィードバックモデル情報を利用して有害情報を遮断するため、ユーザーフィードバック情報を適時に有害情報の自動的遮断プロセスに適用することが出来、システムモデル情報の自動的更新機能を実現できる。
上記した説明から、当業者であれば分かるように、前記した実施例における全部または一部のステップは、プログラムによって関連するハードウェアで実行することができる。前記プログラムは例えば、ROM/RAM、磁気ディスク、光ディスクなどの記憶装置に記憶されてもよい。
以上で説明した内容はただ本発明の各実施形態であり、本発明が保護しようとする範囲はここに限定されるものではなく、いかなる当業者は本発明より開示された技術範囲で容易に想到できる適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。

Claims (16)

  1. インターネットにおける有害情報の遮断方法であって、
    遮断待ちテキスト情報、システムプレリサーチモデル情報及びユーザーフィードバックモデル情報を取得するステップと、
    前記遮断待ちテキスト情報を前処理するステップと、
    前記前処理された遮断待ちテキスト情報と前記システムプレリサーチモデル情報とに対して特徴情報マッチングし、第一マッチング結果を取得するステップと、
    前記前処理された遮断待ちテキスト情報と前記ユーザーフィードバックモデル情報とに対して特徴情報マッチングし、前記第一マッチング結果から独立した第二マッチング結果を取得するステップと、
    第一マッチング結果と第二マッチング結果とが一致しているか否かに基いて、前記遮断待ちテキスト情報を遮断するステップと、
    を備えることを特徴とする方法。
  2. 更に、
    前記システムプレリサーチモデル情報のコーパス及び前記ユーザーフィードバックモデル情報のコーパスを取得するステップを備えることを特徴とする請求項1に記載の方法。
  3. 前記ユーザーフィードバックモデル情報のコーパスには、ユーザーフィードバックコーパス及び/または被遮断コーパスが含まれることを特徴とする請求項2に記載の方法。
  4. 更に、
    前記ユーザーフィードバックモデル情報のコーパス量及びそれに対応する閾値を取得するステップと、
    前記ユーザーフィードバックモデル情報のコーパス量及びそれに対応する閾値に基づいて、前記ユーザーフィードバックモデル情報を更新するステップと、
    を備えることを特徴とする請求項3に記載の方法。
  5. 前記遮断待ちテキスト情報を前処理するステップにおいては、
    前記遮断待ちテキスト情報に対してセグメント処理をし、
    前記セグメント処理がされた特徴項候補量を統計することを特徴とする請求項2、3または4に記載の方法。
  6. 前記前処理された遮断待ちテキスト情報と前記システムプレリサーチモデル情報とに対して特徴情報マッチングし、第一マッチング結果を取得するステップにおいては、
    前記前処理された遮断待ちテキスト情報及び前記システムプレリサーチモデル情報を取得し、
    前記前処理された遮断待ちテキスト情報と前記システムプレリサーチモデル情報とをマッチングし、特徴項を取得し、
    前記特徴項のコーパス情報の得点を計算し、
    コーパス情報の得点に基づいて、前記特徴項に対応する遮断待ちテキスト情報が有害情報であるかどうかを判断し、
    判断結果に基づいて、第一マッチング結果を取得することを特徴とする請求項5に記載の方法。
  7. 前記前処理された遮断待ちテキスト情報と前記ユーザーフィードバックモデル情報とに対して特徴情報マッチングし、第二マッチング結果を取得するステップにおいては、
    前記前処理された遮断待ちテキスト情報及び前記ユーザーフィードバックモデル情報を取得し、
    前記前処理された遮断待ちテキスト情報と前記ユーザーフィードバックモデル情報とをマッチングし、特徴項を取得し、
    前記特徴項のコーパス情報の得点を計算し、
    コーパス情報の得点に基づいて、前記特徴項に対応する遮断待ちテキスト情報が有害情報であるかどうかを判断し、
    判断結果に基づいて、第二マッチング結果を取得することを特徴とする請求項6に記載の方法。
  8. 前記システムプレリサーチモデル情報は規則索引データベースとシステムリサーチモデルの特徴項情報とを含んでおり、
    前記ユーザーフィードバックモデル情報は規則索引データベースとユーザーフィードバックモデルの特徴項情報とを含むことを特徴とする請求項6または7に記載の方法。
  9. 前記システムプレリサーチモデル情報の規則索引データベースは、システムプリセット規則を含んでおり、
    前記ユーザーフィードバックモデル情報の規則索引データベースは、ユーザー設定規則を含むことを特徴とする請求項8に記載のインターネットにおける有害情報の遮断方法。
  10. インターネットにおける有害情報の遮断装置であって
    遮断待ちテキスト情報、システムプレリサーチモデル情報及びユーザーフィードバックモデル情報を取得する情報取得モジュールと、
    前記遮断待ちテキスト情報を前処理する前処理モジュールと、
    前記前処理された遮断待ちテキスト情報と前記システムプレリサーチモデル情報とに対して特徴情報マッチングし、第一マッチング結果を取得する第一マッチングモジュールと、
    前記前処理された遮断待ちテキスト情報と前記ユーザーフィードバックモデル情報とに対して特徴情報マッチングし、前記第一マッチング結果から独立した第二マッチング結果を取得する第二マッチングモジュールと、
    第一マッチング結果と第二マッチング結果とが一致しているか否かに基いて、前記遮断待ちテキスト情報を遮断する遮断モジュールと、
    を備えることを特徴とする装置。
  11. 前記情報取得モジュールは、更に、前記ユーザーフィードバックモデル情報のコーパスを取得することを特徴とする請求項10に記載の装置。
  12. 前記ユーザーフィードバックモデル情報のコーパスには、ユーザーフィードバックコーパス及び/または被遮断コーパスが含まれることを特徴とする請求項11に記載の装置。
  13. 更に、
    前記ユーザーフィードバックモデル情報のコーパス量及びそれに対応する閾値を取得する閾値取得モジュールと、
    前記ユーザーフィードバックモデル情報のコーパス量及びそれに対応する閾値に基づいて、前記ユーザーフィードバックモデル情報を更新する更新モジュールと、
    を備えることを特徴とする請求項12に記載の装置。
  14. 前記前処理モジュールは、
    前記遮断待ちテキスト情報に対してセグメント処理をするセグメントサブモジュールと、
    前記セグメント処理された特徴項候補量を統計する統計サブモジュールと、
    を備えることを特徴とする請求項11、12または13に記載の装置。
  15. 前記第一マッチングモジュールは、
    前記前処理された遮断待ちテキスト情報及び前記システムプレリサーチモデル情報を取得する情報取得サブモジュールと、
    前記前処理された遮断待ちテキスト情報と前記システムプレリサーチモデル情報とをマッチングし、特徴項を取得するマッチングサブモジュールと、
    前記特徴項のコーパス情報の得点を計算する統計サブモジュールと、
    コーパス情報の得点に基づいて、前記特徴項に対応する遮断待ちテキスト情報が有害情報であるかどうかを判断する判断サブモジュールと、
    判断結果に基いて、第一マッチング結果を取得する結果出力サブモジュールと、
    を備えることを特徴とする請求項14に記載の装置。
  16. 前記第二マッチングモジュールは、
    前記前処理された遮断待ちテキスト情報及び前記システムプレリサーチモデル情報を取得する情報取得サブモジュールと、
    前記前処理された遮断待ちテキスト情報と前記ユーザーフィードバックモデル情報とをマッチングし、特徴項を取得するマッチングサブモジュールと、
    前記特徴項のコーパス情報の得点を統計する統計サブモジュールと、
    コーパス情報の得点に基づいて、前記特徴項に対応する遮断待ちテキスト情報が有害情報であるかどうかを判断する判断サブモジュールと、
    判断結果に基づいて、第二マッチング結果を取得する結果出力サブモジュールと、
    を備えることを特徴とする請求項15に記載の装置。
JP2013545039A 2010-12-24 2011-12-26 インターネットにおける有害情報の遮断方法と装置 Expired - Fee Related JP5744228B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201010621142.1 2010-12-24
CN201010621142.1A CN102567304B (zh) 2010-12-24 2010-12-24 一种网络不良信息的过滤方法及装置
PCT/CN2011/084699 WO2012083892A1 (zh) 2010-12-24 2011-12-26 一种网络不良信息的过滤方法及装置

Publications (2)

Publication Number Publication Date
JP2014502754A JP2014502754A (ja) 2014-02-03
JP5744228B2 true JP5744228B2 (ja) 2015-07-08

Family

ID=46313198

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013545039A Expired - Fee Related JP5744228B2 (ja) 2010-12-24 2011-12-26 インターネットにおける有害情報の遮断方法と装置

Country Status (5)

Country Link
US (1) US20140013221A1 (ja)
EP (1) EP2657852A4 (ja)
JP (1) JP5744228B2 (ja)
CN (1) CN102567304B (ja)
WO (1) WO2012083892A1 (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103514227B (zh) * 2012-06-29 2016-12-21 阿里巴巴集团控股有限公司 一种更新数据库的方法及装置
KR20140025113A (ko) * 2012-08-21 2014-03-04 한국전자통신연구원 유해 컨텐츠 고속 판단 장치 및 방법
US9773182B1 (en) * 2012-09-13 2017-09-26 Amazon Technologies, Inc. Document data classification using a noise-to-content ratio
CN103729384B (zh) * 2012-10-16 2017-02-22 中国移动通信集团公司 信息过滤方法、系统与装置
CN103246641A (zh) * 2013-05-16 2013-08-14 李营 一种文本语义信息分析系统和方法
WO2015062377A1 (zh) * 2013-11-04 2015-05-07 北京奇虎科技有限公司 一种相似文本检测装置、方法以及应用
CN103886026B (zh) * 2014-02-25 2017-09-05 厦门客来点信息科技有限公司 基于个体特征的服装匹配方法
CN104281696B (zh) * 2014-10-16 2017-09-15 江西师范大学 一种主动的空间信息个性化分发方法
CN105183894B (zh) * 2015-09-29 2020-03-10 百度在线网络技术(北京)有限公司 过滤网站内链的方法及装置
CN105528404A (zh) * 2015-12-03 2016-04-27 北京锐安科技有限公司 种子关键字字典建立方法和装置及关键词提取方法和装置
CN106874253A (zh) * 2015-12-11 2017-06-20 腾讯科技(深圳)有限公司 识别敏感信息的方法及装置
CN105653649B (zh) * 2015-12-28 2019-05-21 福建亿榕信息技术有限公司 海量文本中低占比信息识别方法及装置
US10469511B2 (en) 2016-03-28 2019-11-05 Cisco Technology, Inc. User assistance coordination in anomaly detection
CN106339429A (zh) * 2016-08-17 2017-01-18 浪潮电子信息产业股份有限公司 一种实现智能客服的方法、装置和系统
CN107239447B (zh) * 2017-06-05 2020-12-18 厦门美柚股份有限公司 垃圾信息识别方法及装置、系统
CN108038245A (zh) * 2017-12-28 2018-05-15 中译语通科技(青岛)有限公司 一种基于多语言的数据挖掘方法
CN109597987A (zh) * 2018-10-25 2019-04-09 阿里巴巴集团控股有限公司 一种文本还原方法、装置及电子设备
CN110633466B (zh) * 2019-08-26 2021-01-19 深圳安巽科技有限公司 基于语义分析的短信犯罪识别方法、系统和可读存储介质
CN112749565A (zh) * 2019-10-31 2021-05-04 华为终端有限公司 基于人工智能的语义识别方法、装置和语义识别设备

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5867799A (en) * 1996-04-04 1999-02-02 Lang; Andrew K. Information system and method for filtering a massive flow of information entities to meet user information classification needs
US5987457A (en) * 1997-11-25 1999-11-16 Acceleration Software International Corporation Query refinement method for searching documents
AU2000233633A1 (en) * 2000-02-15 2001-08-27 Thinalike, Inc. Neural network system and method for controlling information output based on user feedback
US7249162B2 (en) * 2003-02-25 2007-07-24 Microsoft Corporation Adaptive junk message filtering system
US7543053B2 (en) * 2003-03-03 2009-06-02 Microsoft Corporation Intelligent quarantining for spam prevention
US7813482B2 (en) * 2005-12-12 2010-10-12 International Business Machines Corporation Internet telephone voice mail management
US8024329B1 (en) * 2006-06-01 2011-09-20 Monster Worldwide, Inc. Using inverted indexes for contextual personalized information retrieval
US8020206B2 (en) * 2006-07-10 2011-09-13 Websense, Inc. System and method of analyzing web content
US20100205123A1 (en) * 2006-08-10 2010-08-12 Trustees Of Tufts College Systems and methods for identifying unwanted or harmful electronic text
CN101166159B (zh) * 2006-10-18 2010-07-28 阿里巴巴集团控股有限公司 一种确定垃圾信息的方法及系统
KR100815530B1 (ko) * 2007-07-20 2008-04-15 (주)올라웍스 유해성 컨텐츠 필터링 방법 및 시스템
US8965888B2 (en) * 2007-10-08 2015-02-24 Sony Computer Entertainment America Llc Evaluating appropriateness of content
JP5032286B2 (ja) * 2007-12-10 2012-09-26 株式会社ジャストシステム フィルタリング処理方法、フィルタリング処理プログラムおよびフィルタリング装置
EP2071339A3 (en) * 2007-12-12 2015-05-20 Sysmex Corporation System for providing animal test information and method of providing animal test information
US8850571B2 (en) * 2008-11-03 2014-09-30 Fireeye, Inc. Systems and methods for detecting malicious network content
CN101477544B (zh) * 2009-01-12 2011-09-21 腾讯科技(深圳)有限公司 一种识别垃圾文本的方法和系统
US20140108156A1 (en) * 2009-04-02 2014-04-17 Talk3, Inc. Methods and systems for extracting and managing latent social networks for use in commercial activities
US8849725B2 (en) * 2009-08-10 2014-09-30 Yahoo! Inc. Automatic classification of segmented portions of web pages
CN101639824A (zh) * 2009-08-27 2010-02-03 北京理工大学 一种针对不良信息的基于情感倾向性分析的文本过滤方法
CN101702167A (zh) * 2009-11-03 2010-05-05 上海第二工业大学 一种基于互联网的模板抽取属性和评论词的方法
CN101794303A (zh) * 2010-02-11 2010-08-04 重庆邮电大学 采用特征扩展分类文本及构造文本分类器的方法和装置
CN101908055B (zh) * 2010-03-05 2013-02-13 黑龙江工程学院 一种信息过滤系统
CN101877704B (zh) * 2010-06-02 2016-02-10 中兴通讯股份有限公司 一种进行网络访问控制的方法及服务网关
CN101894102A (zh) * 2010-07-16 2010-11-24 浙江工商大学 一种主观性文本情感倾向性分析方法和装置

Also Published As

Publication number Publication date
EP2657852A4 (en) 2014-08-20
EP2657852A1 (en) 2013-10-30
WO2012083892A1 (zh) 2012-06-28
CN102567304A (zh) 2012-07-11
JP2014502754A (ja) 2014-02-03
US20140013221A1 (en) 2014-01-09
CN102567304B (zh) 2014-02-26

Similar Documents

Publication Publication Date Title
JP5744228B2 (ja) インターネットにおける有害情報の遮断方法と装置
TWI732271B (zh) 人機對話方法、裝置、電子設備及電腦可讀媒體
CN108804512B (zh) 文本分类模型的生成装置、方法及计算机可读存储介质
US10068008B2 (en) Spelling correction of email queries
WO2021174919A1 (zh) 简历数据信息解析及匹配方法、装置、电子设备及介质
US11144581B2 (en) Verifying and correcting training data for text classification
KR101465770B1 (ko) 단어 확률 결정
US8386240B2 (en) Domain dictionary creation by detection of new topic words using divergence value comparison
US10102191B2 (en) Propagation of changes in master content to variant content
JP5379138B2 (ja) 領域辞書の作成
CN110597994A (zh) 事件元素识别方法和装置
US9633008B1 (en) Cognitive presentation advisor
US11847423B2 (en) Dynamic intent classification based on environment variables
US11593557B2 (en) Domain-specific grammar correction system, server and method for academic text
CN110287314B (zh) 基于无监督聚类的长文本可信度评估方法及系统
WO2021169423A1 (zh) 客服录音的质检方法、装置、设备及存储介质
CN110162771A (zh) 事件触发词的识别方法、装置、电子设备
CN111753082A (zh) 基于评论数据的文本分类方法及装置、设备和介质
Wint et al. Deep learning based sentiment classification in social network services datasets
CN112559747A (zh) 事件分类处理方法、装置、电子设备和存储介质
CN112380847A (zh) 兴趣点处理方法、装置、电子设备及存储介质
CN108268443B (zh) 确定话题点转移以及获取回复文本的方法、装置
CN112597768B (zh) 文本审核方法、装置、电子设备、存储介质及程序产品
CN115248890A (zh) 用户兴趣画像的生成方法、装置、电子设备以及存储介质
CN110347806B (zh) 原创文本甄别方法、装置、设备与计算机可读存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140328

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20140410

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20140507

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140620

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140916

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141128

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150224

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150407

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150428

R150 Certificate of patent or registration of utility model

Ref document number: 5744228

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees