JP2009277156A - Filtering device and filtering method - Google Patents

Filtering device and filtering method Download PDF

Info

Publication number
JP2009277156A
JP2009277156A JP2008130112A JP2008130112A JP2009277156A JP 2009277156 A JP2009277156 A JP 2009277156A JP 2008130112 A JP2008130112 A JP 2008130112A JP 2008130112 A JP2008130112 A JP 2008130112A JP 2009277156 A JP2009277156 A JP 2009277156A
Authority
JP
Japan
Prior art keywords
sentence
result
identification information
analysis target
filtering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008130112A
Other languages
Japanese (ja)
Other versions
JP5070124B2 (en
Inventor
Mikihiro Ohashi
実貴浩 大橋
Masayuki Imamura
雅幸 今村
Junya Sasamoto
純也 笹本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2008130112A priority Critical patent/JP5070124B2/en
Publication of JP2009277156A publication Critical patent/JP2009277156A/en
Application granted granted Critical
Publication of JP5070124B2 publication Critical patent/JP5070124B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Storage Device Security (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To solve a problem of a conventional filtering technology of using a registered NG word and URL wherein "Omission in filtering" arises as a result and a sound Web site may also be filtered as a result. <P>SOLUTION: A harmful Web site used as a model of comparison is previously prepared, and the similarity between the content of the Web site and the content of the Web site collected by a crawler is determined synthetically using "load result of appearance frequency of a word resulting from morpheme analysis of both Web documents". This filtering device has a function of automatically creating a reference database for harmful/harmless determination of the Web site according to the determination result. <P>COPYRIGHT: (C)2010,JPO&INPIT

Description

本発明は、有害なWebサイトへのアクセスなどを禁止する、いわゆる「フィルタリング」技術を実効的に行うための技術に関する。   The present invention relates to a technique for effectively performing a so-called “filtering” technique for prohibiting access to harmful websites and the like.

現在、インターネット上ではさまざまなWebサイトが公開されており、ユーザーは端末からそれらWebサイトにアクセスすることで、所望の情報を簡単に知ることができる。しかしその一方で、Webサイトにはアダルトコンテンツや暴力的なコンテンツなどを含むものも数多く存在し、そのような有害なWebサイトに若年者などが簡単にアクセスすることができてしまうことが、近年、大きな問題として議論されている。   Currently, various websites are open on the Internet, and a user can easily know desired information by accessing these websites from a terminal. However, on the other hand, there are many websites that contain adult content, violent content, etc., and in recent years it has been easy for young people to access such harmful websites. Has been discussed as a big problem.

そして、このような有害なWebサイトへのアクセスをコントロールするため、いわゆる「フィルタリング」と呼ばれる技術が提供されている。この「フィルタリング」では、例えば予めNGワードやURLをフィルタリングソフトに登録しておき、端末がアクセスするWebサイトが当該NGワードを含んでいたり、当該URLのドメインを含んでいたりする場合には、有害なWebサイトであると判断して表示を行わない、といった処理を行う。   In order to control access to such harmful Web sites, a technique called “filtering” is provided. In this “filtering”, for example, if an NG word or URL is registered in the filtering software in advance and the Web site accessed by the terminal contains the NG word or the domain of the URL, it is harmful. A process is performed in which it is determined that the web site is not displayed and no display is performed.

また検索サーバ装置においても同様の機能が実装され、特許文献1には、検索にヒットしたWebサイトについて同様の登録NGワードやURLなどとの一致判断処理を行い、有害なWebサイトと判断されたものは検索結果に含めないといった処理を行っている。
特開2007−128119号公報
A similar function is also implemented in the search server device, and in Patent Document 1, a matching process for matching a registered NG word, URL, or the like is performed on a website that has been hit by a search, and the website is determined to be a harmful website. Things are not included in the search results.
JP 2007-128119 A

しかし上記登録NGワードやURLを利用するフィルタリング技術では、NGワードやURLの登録を適宜行う必要がある。とくにURLの登録に関して、Webサイトの数が一日単位で爆発的に増えているネットワークの現状を考えると、そのサイト増加スピードにフィルタリング用のURL登録件数が追いついていないのは明白である。したがって、結果的に「フィルタリング漏れ」が生じている、という課題がある。   However, in the filtering technique using the registered NG word or URL, it is necessary to register the NG word or URL as appropriate. In particular, regarding the registration of URLs, considering the current state of networks where the number of Web sites has increased explosively on a daily basis, it is clear that the number of URL registrations for filtering has not caught up with the speed of the increase in sites. Therefore, there is a problem that “filtering omission” occurs as a result.

またNGワードを利用した一致判断処理の場合、NGワードさえ一致していれば未知の新規開設Webサイトであってもそのフィルタリングの対象とすることができる。しかし、例えば登録単語(ワード)レベルでの一致である場合、例えば「たばこ」というワードを含むWebサイトであっても、実は未成年の喫煙による悪影響を啓発するサイトである可能性もある。したがって結果的に健全なWebサイトもフィルタリングしてしまっている可能性がある、という課題がある。   Further, in the case of matching determination processing using NG words, even if an NG word matches, an unknown newly opened website can be targeted for filtering. However, for example, in the case of matching at the registered word (word) level, even a Web site including the word “tobacco”, for example, may actually be a site for enlightening the adverse effects of underage smoking. Therefore, there is a problem that a sound website may be filtered as a result.

また上記フィルタリング技術の実効性を疑問視する総務省によって、2008年のはじめには、SNS(ソーシャル・ネットワーキング・サービス)やブログなどを備える携帯電話用サイトを有害サイトの危険性があるとして一括してアクセス禁止とする旨の通達が携帯電話キャリア各社に対して出されている。しかしこのような一括禁止処置では、当然、健全なサイトも含めて数多くのサイトを一律アクセス禁止としてしまうこととなり、ネットワーク関連市場の発展を阻害する結果を招く可能性がある。   In addition, by the Ministry of Internal Affairs and Communications that questioned the effectiveness of the above filtering technology, at the beginning of 2008, mobile phone sites equipped with SNS (Social Networking Service), blogs, etc. were collectively classified as dangerous sites. A notice to prohibit access has been issued to mobile phone carrier companies. However, such a collective prohibition process, as a matter of course, uniformly prohibits many sites including healthy sites, which may result in hindering the development of the network-related market.

以上の課題を解決するために、以下の特徴を有することで、フィルタリング漏れのないよう、自動的に登録ワードやURLの更新登録を行う機能を備え、また、未知のWebサイトであっても、単純なNGワードの比較によるフィルタリングよりもさらに実効性の高いフィルタリングを行うことのできるフィルタリング装置を提供する。   In order to solve the above problems, it has the following features, so that it has a function of automatically registering and updating registration words and URLs so that there is no filtering omission, and even if it is an unknown website, Provided is a filtering device capable of performing filtering that is more effective than filtering based on simple NG word comparison.

すなわち、比較対照のモデルとなる有害Webサイトを予め用意しておき、そのWebサイトの内容と、クローラが収集するWebサイトの内容との類似度を、「両Web文書の形態素解析の結果得られる単語の出現頻度の加重結果」を利用して総合的に判断する。そしてその判断結果に従って、自動的にWebサイトの有害/無害の判断用の参照データベースを生成する機能を有することを特徴とするフィルタリング装置を提供する。   That is, a harmful website serving as a comparison model is prepared in advance, and the similarity between the contents of the website and the contents of the website collected by the crawler is obtained as a result of morphological analysis of both web documents. A comprehensive determination is made using the “weighted result of word appearance frequency”. A filtering device is provided that has a function of automatically generating a reference database for determining whether a website is harmful or harmless according to the determination result.

そして上記特徴的な機能を実現するため、本発明のフィルタリング装置は、具体的に以下の構成、すなわち解析対象文章を取得するクローラ部と、クローラ部にて得られる解析対象文章を形態素解析処理する形態素解析処理部と、形態素解析処理により得られたキーワードを解析対象文章での出現頻度に基づいて加重した結果である解析対象加重結果を取得する解析対象加重結果取得部と、サンプル文章の形態素解析により得られたキーワードをそのサンプルとなる文章中での出現頻度に基づいて加重した結果であるサンプル加重結果を取得するサンプル加重結果取得部と、解析対象加重結果とサンプル加重結果とを代入値とする所定の演算式を格納する演算式格納部と、解析対象加重結果とサンプル加重結果と、演算式とに従って演算することで解析対象文章とサンプル文章との類似度を求める類似度演算部と、類似度演算部での演算結果が所定の条件を満たす演算結果である場合には解析対象文章の識別情報をサンプル文章に類似する文章であるとして蓄積する類似文章蓄積部と、を有する。   And in order to implement | achieve the said characteristic function, the filtering apparatus of this invention specifically performs the morphological analysis process of the analysis object sentence obtained by the crawler part which acquires the analysis object sentence, and the crawler part in the following structures. A morpheme analysis processing unit, an analysis target weighted result acquisition unit that obtains an analysis target weighted result that is a result of weighting a keyword obtained by morpheme analysis processing based on an appearance frequency in the analysis target sentence, and a morphological analysis of a sample sentence A sample weighted result acquisition unit that acquires a sample weighted result that is a result of weighting the keyword obtained by the above based on the appearance frequency in the sample sentence, and the analysis target weighted result and the sample weighted result are assigned values. An arithmetic expression storage unit for storing a predetermined arithmetic expression to be calculated, an analysis target weight result, a sample weight result, and an arithmetic expression And the similarity calculation unit for obtaining the similarity between the analysis target sentence and the sample sentence, and if the calculation result in the similarity calculation part satisfies the predetermined condition, the identification information of the analysis target sentence is used as the sample sentence. And a similar sentence accumulating unit for accumulating that the sentence is similar to.

また検索サーバや端末などで検索を行う際に、検索結果のWebサイトなどに対して上記処理を行うことで、検索結果に対する実効的なフィルタリングを行う機能をさらに備えたフィルタリング装置も提供する。具体的に、そのフィルタリング装置は、上記構成に加えて、検索結果を示す検索文章識別情報を取得する検索文章識別情報取得部と、検索文章識別情報取得部にて取得された検索文章識別情報を類似文章蓄積部に蓄積されている識別情報と比較する比較部と、をさらに有する。   In addition, when performing a search using a search server or a terminal, a filtering device further provided with a function of performing effective filtering on the search result by performing the above-described processing on the Web site of the search result is provided. Specifically, the filtering device includes, in addition to the above configuration, a search sentence identification information acquisition unit that acquires search sentence identification information indicating a search result, and search sentence identification information acquired by the search sentence identification information acquisition unit. And a comparison unit for comparing with the identification information stored in the similar text storage unit.

また、端末でのアクセス先のURLを取得し、そのアクセス予定のURLで示されるWebサイトが有害サイトであるかの判断を、上記類似度の判断によって行う機能をさらに備えたフィルタリング装置も提供する。具体的に、そのフィルタリング装置は、URLを受信するURL受信部と、受信したURLで識別されるウエッブページの文章を解析対象文章として取得する解析対象文章取得部と、類似度演算部での演算結果が所定の条件を満たす演算結果である場合にはその旨をURLの送信元に対して出力する識別情報出力部と、を有する。   Also provided is a filtering device that further has a function of acquiring the URL of the access destination at the terminal and determining whether the Web site indicated by the URL to be accessed is a harmful site by determining the similarity. . Specifically, the filtering device includes: a URL receiving unit that receives a URL; an analysis target sentence acquiring unit that acquires a sentence of a web page identified by the received URL as an analysis target sentence; And an identification information output unit that outputs the fact to the URL transmission source when the result is a calculation result that satisfies a predetermined condition.

以上のような構成を備える本発明によって、予め比較対象のモデルとなる有害なWebページを用意しておけば有害なWebサイトのURLの更新登録を自動的に行うことができる。したがって、新規開設された未知のWebサイトにもフィルタリング漏れなく対応できる。また単純な登録ワードの比較ではなく、両Web文書の形態素解析の結果得られる単語の出現頻度の加重結果を利用して、モデルとなる有害Webサイトとの類似度を総合的に判断するため、より実効性の高いフィルタリングを実現することができる。   According to the present invention having the above-described configuration, if a harmful Web page that is a model to be compared is prepared in advance, the URL of the harmful Web site can be automatically updated and registered. Therefore, it is possible to deal with newly opened unknown websites without omission of filtering. Moreover, in order to comprehensively determine the similarity to the harmful website as a model, using a weighted result of the appearance frequency of words obtained as a result of morphological analysis of both Web documents, rather than simply comparing registered words, More effective filtering can be realized.

以下に、図を用いて本発明の実施の形態を説明する。なお、本発明はこれら実施の形態に何ら限定されるものではなく、その要旨を逸脱しない範囲において、種々なる態様で実施しうる。   Hereinafter, embodiments of the present invention will be described with reference to the drawings. Note that the present invention is not limited to these embodiments, and can be implemented in various modes without departing from the spirit of the present invention.

なお、実施例1は、主に請求項1、5、7、11について説明する。また、実施例2は、主に請求項2、3、8、9について説明する。また、実施例3は、主に請求項4、6、10、12について説明する。   The first embodiment will mainly describe claims 1, 5, 7, and 11. In the second embodiment, claims 2, 3, 8, and 9 will be mainly described. In the third embodiment, claims 4, 6, 10, and 12 will be mainly described.

≪実施例1≫   Example 1

<概要>     <Overview>

図1は、本実施例のフィルタリング装置によるフィルタリング対象Webサイトの判断処理の一例を説明するための概念図である。この図1(a)あるように、本実施例のフィルタリング装置が、予め登録されている有害Webサイトのモデルサイト「海外タバコの購入代行」の文書データ(サンプル文章)に対して形態素解析処理を行う。そして形態素解析の結果、出現数の上位100個のキーワードを、「たばこ」、「円」、・・・という具合に抽出する。そして、各キーワードのWeb文章中の出現頻度に応じて、例えば「たばこ 64」、「円 31」、・・・という具合に加重点数を付与する。   FIG. 1 is a conceptual diagram for explaining an example of determination processing of a filtering target website by the filtering device of the present embodiment. As shown in FIG. 1 (a), the filtering device of the present embodiment performs morphological analysis processing on document data (sample text) of a model site “Purchasing agent for overseas cigarettes” of a harmful website registered in advance. Do. As a result of the morphological analysis, the top 100 keywords having the highest number of appearances are extracted in the form of “cigarette”, “circle”,. Then, according to the appearance frequency of each keyword in the Web text, for example, “cigarette 64”, “circle 31”,.

また、図1(b)に示すように、クローラプログラムなどによって自動的に取得され、有害サイトであるか否か不明である「たばこの危険性」サイトについても、同様に形態素解析処理を行う。そして「たばこ 72」、「ニコチン 28」、・・・という具合に、そのWeb文書中の出現キーワードを、加重点数を付与して抽出する。   Further, as shown in FIG. 1B, the morphological analysis process is similarly performed on a “cigarette risk” site that is automatically acquired by a crawler program or the like and is unclear as to whether it is a harmful site or not. Then, the appearance keywords in the Web document, such as “tobacco 72”, “nicotine 28”,.

そして本実施例のフィルタリング装置では、単純に抽出キーワードが一致するかを判断するのではなく、キーワードに付与された加重点数を一致キーワードごとに掛け合わせ、その加重点積の合計値を利用して両文書データの類似度を判断することを特徴とする。上記例では、両Webサイトは例えばタバコなど同じ単語を含む一方、その他の単語が異なっている。そのため両文書データは加重点積の合計値が(所定値より)低くなり、したがって両文書が内容的に類似していないとして、この「たばこの危険性」というサイトは安全なサイトであると判断される。   In the filtering device of this embodiment, instead of simply determining whether the extracted keywords match, the weighted points given to the keywords are multiplied for each matching keyword, and the total value of the weighted point products is used. The similarity between both document data is judged. In the above example, both websites contain the same word, such as cigarettes, while other words are different. For this reason, the total weighted point product of both document data is lower (than the predetermined value), and therefore the two documents are not similar in content, and it is determined that this “cigarette risk” site is a safe site. Is done.

その一方、加重点数の合計値が高く、その文書内容がサンプル文章と類似していると判断されたWebサイトに関しては、有害WebサイトとしてそのURLをデータベース化する、という具合である。このように、本実施例のフィルタリング装置では、有害なWebサイトのURLの更新登録(データベース化)を自動的に行うことができる。また、そのデータベースへの登録可否の判断処理に関しては、単純な登録ワードの比較ではなく、両Web文書の形態素解析の結果得られる単語の出現頻度の加重結果を利用して、モデルとなる有害Webサイトとの類似度を総合的に判断するため、より実効性の高いフィルタリングを実現することができる。   On the other hand, for a website that has a high weighted score and whose document content is determined to be similar to the sample text, the URL is databased as a harmful website. As described above, the filtering device of this embodiment can automatically perform update registration (database creation) of URLs of harmful websites. In addition, regarding the process for determining whether or not to register in the database, a harmful Web that serves as a model is used by using a weighted result of the appearance frequency of words obtained as a result of morphological analysis of both Web documents, rather than simply comparing registered words. Since the similarity to the site is comprehensively determined, more effective filtering can be realized.

<機能的構成>     <Functional configuration>

図2は、本実施例のフィルタリング装置における機能ブロックの一例を表す図である。この図にあるように、本実施例の「フィルタリング装置」(0200)は、「クローラ部」(0201)と、「形態素解析処理部」(0202)と、「解析対象加重結果取得部」(0203)と、「サンプル加重結果取得部」(0204)と、「演算式格納部」(0205)と、「類似度演算部」(0206)と、「類似文章蓄積部」(0207)と、からなる。   FIG. 2 is a diagram illustrating an example of functional blocks in the filtering device of the present embodiment. As shown in this figure, the “filtering device” (0200) of this embodiment includes a “crawler unit” (0201), a “morpheme analysis processing unit” (0202), and an “analysis target weighted result acquisition unit” (0203). ), “Sample weighted result acquisition unit” (0204), “arithmetic expression storage unit” (0205), “similarity calculation unit” (0206), and “similar sentence storage unit” (0207). .

なお、以下に記載する本装置の機能ブロックは、ハードウェア、ソフトウェア、又はハードウェア及びソフトウェアの両方として実現され得る。具体的には、コンピュータを利用するものであれば、CPUや主メモリ、バス、あるいは二次記憶装置(ハードディスクや不揮発性メモリ、CDやDVDなどの記憶メディアとそれらメディアの読取ドライブなど)、情報入力に利用される入力デバイス、印刷機器や表示装置、その他の外部周辺装置などのハードウェア構成部、またその外部周辺装置用のインターフェース、通信用インターフェース、それらハードウェアを制御するためのドライバプログラムやその他アプリケーションプログラム、ユーザーインターフェース用アプリケーションなどが挙げられる。   Note that the functional blocks of the apparatus described below can be realized as hardware, software, or both hardware and software. Specifically, if a computer is used, a CPU, a main memory, a bus, or a secondary storage device (a hard disk, a non-volatile memory, a storage medium such as a CD or a DVD, a read drive for the medium, etc.), information Input devices used for input, printing equipment, display devices, other hardware components such as external peripheral devices, interfaces for external peripheral devices, communication interfaces, driver programs for controlling these hardware, Other examples include application programs and user interface applications.

そして主メモリ上に展開したプログラムに従ったCPUの演算処理によって、入力デバイスやその他インターフェースなどから入力されメモリやハードディスク上に保持されているデータなどが加工、蓄積されたり、上記各ハードウェアやソフトウェアを制御するための命令が生成されたりする。また、この発明は装置やシステムとして実現できるのみでなく、方法としても実現可能である。また、このような発明の一部をソフトウェアとして構成することができる。さらに、そのようなソフトウェアをコンピュータに実行させるために用いるソフトウェア製品、及び同製品を記録媒体に固定した記録媒体も、当然にこの発明の技術的な範囲に含まれる(本明細書の全体を通じて同様である)。   Then, through the arithmetic processing of the CPU according to the program developed on the main memory, the data input from the input device or other interface etc. and stored in the memory or hard disk is processed and stored, or each of the above hardware and software An instruction for controlling the above is generated. In addition, the present invention can be realized not only as an apparatus or a system but also as a method. A part of the invention can be configured as software. Furthermore, a software product used for causing a computer to execute such software and a recording medium in which the product is fixed to a recording medium are naturally included in the technical scope of the present invention (the same applies throughout the present specification). Is).

「クローラ部」(0201)は、解析対象文章を取得する機能を有し、例えば一般的なクローラプログラムなどによって、ネットワーク上の新規Webサイトの文書データを解析対象文章として取得することで実現できる。もちろん、クローラ部の機能は、クローラプログラムによる解析対象文章の取得に限定されず、例えば、ユーザー用の入力デバイスやGUIなどによって実現され、具体的にはGUIなどを介してユーザーがキーボード入力などで入力した文章を取得するよう構成しても良い。   The “crawler unit” (0201) has a function of acquiring an analysis target sentence, and can be realized by acquiring document data of a new website on the network as an analysis target sentence by a general crawler program, for example. Of course, the function of the crawler unit is not limited to the acquisition of the analysis target text by the crawler program. For example, the crawler unit is realized by a user input device, a GUI, and the like. You may comprise so that the input sentence may be acquired.

そして本実施例のフィルタリング装置では、このように取得された新規Webサイトの文書内容を、以下の構成により有害Webサイトなどのモデルケースを示すサンプル文章の内容と比較する。   In the filtering apparatus according to the present embodiment, the document content of the new website acquired in this way is compared with the content of sample text indicating a model case such as a harmful website with the following configuration.

「形態素解析処理部」(0202)は、クローラ部にて得られる解析対象文章を形態素解析処理する機能を有し、例えば、CPUなどの演算装置や形態素解析プログラムなどによって実現することができる。なお、この形態素解析処理部における具体的な処理例については、従来同様に例えば単語辞書や構文ルール辞書などを利用したパターンマッチングなどによる文章の単語分解処理や、隠れマルコフモデルなどの確率的言語モデルを利用したスコアリングによる単語分解処理によって行うと良い。また、もちろん抽出される単語は、形態素解析の解析ルールの設定次第で複数の単語からなる慣用句などであっても良い。   The “morpheme analysis processing unit” (0202) has a function of performing a morpheme analysis process on the analysis target text obtained by the crawler unit, and can be realized by an arithmetic device such as a CPU or a morpheme analysis program. As for specific processing examples in this morphological analysis processing unit, as in the past, for example, word decomposition processing of sentences by pattern matching using a word dictionary, a syntax rule dictionary, etc., or a probabilistic language model such as a hidden Markov model It is good to carry out by word decomposition processing by scoring using. Of course, the extracted word may be an idiomatic phrase composed of a plurality of words depending on the setting of analysis rules for morphological analysis.

そして、このように抽出された単語に関して、本実施例のフィルタリング装置ではサンプル文章との比較のため以下の構成によって加重点数を付与することを特徴とする。   And about the word extracted in this way, the filtering apparatus of a present Example assign | provides a weighted score with the following structures for the comparison with a sample sentence, It is characterized by the above-mentioned.

「解析対象加重結果取得部」(0203)は、解析対象加重結果を取得する機能を有し、例えばCPUなどの演算装置や解析対象加重結果取得プログラムなどによって実現することができる。「解析対象加重結果」とは、形態素解析処理により得られたキーワードを解析対象文章での出現頻度に基づいて加重した結果をいう。また、「出現頻度に基づいて加重」とは、文章中の出現頻度に応じて単語ごとに異なった値を付与する処理をいう。例えば文章中の全単語の出現数(例えば名詞格のみとしても良い。また助詞や助動詞などは除いても良い。)を母数とし、単語A、B、C、・・・のそれぞれの出現回数を示す割合をその加重値とする、という具合である。そのほか、出現回数そのものを加重値としても良い。   The “analysis target weighted result acquisition unit” (0203) has a function of acquiring the analysis target weighted result, and can be realized by an arithmetic unit such as a CPU or an analysis target weighted result acquisition program, for example. “Analysis target weighted result” refers to a result obtained by weighting a keyword obtained by morphological analysis processing based on the appearance frequency in the analysis target sentence. Further, “weighting based on the appearance frequency” means a process of assigning a different value for each word according to the appearance frequency in the sentence. For example, the number of occurrences of all words in a sentence (for example, only a noun case may be used, and particles and auxiliary verbs may be excluded) is used as a parameter, and the number of occurrences of each of words A, B, C,. It is a condition that the ratio which shows is made into the weight value. In addition, the number of appearances may be used as a weight value.

また、抽出した単語は同義語(類義語)辞典などを参照して、複数の同義語(類義語)を一の単語としてまとめてその出現頻度に応じた加重処理を行うよう構成しても良い。また、例えば品詞やその文字内容に応じて、補正テーブルなどを参照し単語ごとの加重値に補正をするよう構成しても良い。具体的に、いわゆる有害と思われる単語や組み合わせ、例えば「アダルト」、「ドラッグ」と「購入」などの単語や単語の組み合わせがある場合についてはその加重値が高くなるよう補正する、という具合である。   The extracted words may be configured such that a plurality of synonyms (synonyms) are collected as one word by referring to a synonym (synonyms) dictionary and the like and weighted according to the appearance frequency. Further, for example, according to the part of speech or the content of the character, a correction table or the like may be referred to correct the weight value for each word. Specifically, if there is a word or combination that seems to be harmful, such as “adult”, “drug” and “purchase” or a combination of words, the weight is corrected to be higher, etc. is there.

「サンプル加重結果取得部」(0204)は、サンプル加重結果を取得する機能を有し、例えばCPUなどの演算装置やフラッシュメモリなどの蓄積装置、またサンプル加重結果取得プログラムなどによって実現することができる。「サンプル加重結果」とは、サンプル文章の形態素解析により得られたキーワードを、そのサンプルとなる文章中での出現頻度に基づいて加重した結果をいう。また、「サンプル文章」とは、フィルタリングの対象となりうるモデルサイトを示す文章をいい、もちろん、実際のWebサイトの文章データであっても良いし、架空のWebサイトの文章データであっても良い。また、このサンプル文章に関しては、管理者などの手によって予め入力登録される必要がある。また、サンプル文章はこのようにすでに登録されているものであるので、予め加重結果のみ算出しておきデータベース化しておいたものを取得する構成としても良い。あるいは、サンプル文章が実際の有害Webサイトで、その文章内容が頻繁に更新などされていれば、解析対象文章との比較を行うつどサンプル文章の新規取得、およびサンプル加重結果の算出取得処理を行うよう構成しても良い。   The “sample weighted result acquisition unit” (0204) has a function of acquiring a sample weighted result, and can be realized by an arithmetic unit such as a CPU, a storage device such as a flash memory, a sample weighted result acquisition program, or the like. . The “sample weighted result” refers to a result obtained by weighting a keyword obtained by morphological analysis of a sample sentence based on the appearance frequency in the sample sentence. “Sample text” refers to text indicating a model site that can be filtered, and of course may be text data of an actual website or text data of a fictitious website. . Further, the sample text needs to be input and registered in advance by a manager or the like. Further, since the sample sentences are already registered in this way, only the weighted result may be calculated in advance to acquire a database. Alternatively, if the sample sentence is an actual harmful website and the contents of the sentence are frequently updated, a new acquisition of the sample sentence and a calculation acquisition process of the sample weighted result are performed each time the comparison with the analysis target sentence is performed. You may comprise as follows.

なお、このサンプル加重結果取得部で取得するサンプル加重結果は、文章がサンプル文章か解析対象文章かの違いのみで、その加重結果自体の算出方法は前述の解析対象加重結果のものと同様であるので、その説明は省略する。   Note that the sample weighted result obtained by the sample weighted result obtaining unit is only the difference between the sentence being the sample sentence and the sentence to be analyzed, and the calculation method of the weighted result itself is the same as that of the above-mentioned analysis object weighted result. Therefore, the description is omitted.

そして本実施例のフィルタリング装置では、このように算出、取得した解析対象加重結果およびサンプル加重結果を、それぞれの文章IDと関連付けてテーブルデータなどを生成し、両文章データの比較のためフラッシュメモリなどにて保持する。   In the filtering apparatus of the present embodiment, the analysis target weighted result and the sample weighted result calculated and acquired in this way are associated with each sentence ID to generate table data and the like, and a flash memory or the like for comparing both sentence data Hold at.

図3は、このようにフラッシュメモリなどに蓄積されている、解析対象加重結果及びサンプル加重結果のデータテーブルの一例を表す図である。この図3にあるように、例えばそれぞれの「文章ID」と関連付けて、その文章のソースアドレス(URLなど)と出現キーワードおよびその加重値が示されている。すなわち、図3(a)に示すテーブルデータ中の一番上のレコードでは、「文章ID:A001」で示される解析対象文章中の抽出単語として「たばこ(加重値72)」や「禁断症状(加重値4)」などが示されている。   FIG. 3 is a diagram illustrating an example of the data table of the analysis target weighted result and the sample weighted result stored in the flash memory or the like as described above. As shown in FIG. 3, for example, the source address (URL, etc.) of the sentence, the appearance keyword, and the weight value thereof are shown in association with each “sentence ID”. That is, in the top record in the table data shown in FIG. 3A, “tobacco (weight 72)” or “forbidden symptom” (extracted word) is used as the extracted word in the analysis target sentence indicated by “sentence ID: A001”. The weight value 4) ”is shown.

また、図3(b)に示すように、「文章ID:S001」で示されるサンプル文章中の抽出単語として「たばこ(加重値64)」や「オススメ(加重値2)」などが示されている、という具合である。   Further, as shown in FIG. 3B, “tobacco (weight 64)”, “recommendation (weight 2)”, and the like are shown as extracted words in the sample sentence indicated by “sentence ID: S001”. That is.

そして本実施例のフィルタリング装置では、このように保持されている解析対象加重結果とサンプル加重結果とを利用して、以下の構成によって両文章データの類似度を判断することで、解析対象文章に係るWebサイトをフィルタリング対象とするべきか否かを判断する。   In the filtering device of the present embodiment, the analysis target sentence is determined by using the analysis target weighted result and the sample weighted result held in this manner and determining the similarity between the two sentence data with the following configuration. It is determined whether or not such a website should be subject to filtering.

「演算式格納部」(0205)は、解析対象加重結果とサンプル加重結果とを代入値とする所定の演算式を格納する機能を有し、例えばフラッシュメモリやHDD(ハードディスクドライブ)、光学ディスクやその読取ドライブなどによって実現することができる。また、「演算式」とは、例えば解析対象文章とサンプル文章との間での同一単語の加重値の積を算出し、全単語の算出値を全て加算する式を基本として、その基本式の各パラメータに補正値を乗じたり補正値を加えたりする式などが挙げられる。すると、両文章データのそれぞれにおいて同一単語が頻出している場合には、上記演算式の演算結果は同一単語が頻出しない場合に比べて大きな値をとることになる。したがって、このような演算式による演算結果を比較することで、2つの文章間における出現単語の類似度を判断することができる。そしてその出現単語の類似度から2つの文章間における内容の類似度を推測することができる、という具合である。   The “arithmetic expression storage unit” (0205) has a function of storing a predetermined arithmetic expression that uses the analysis target weighted result and the sample weighted result as substitution values. For example, a flash memory, an HDD (hard disk drive), an optical disk, It can be realized by the reading drive or the like. In addition, the “arithmetic expression” is, for example, based on an expression that calculates the product of weighted values of the same word between the analysis target sentence and the sample sentence, and adds all the calculated values of all words. Examples include a formula for multiplying each parameter by a correction value or adding a correction value. Then, when the same word frequently appears in each of the sentence data, the calculation result of the above-described arithmetic expression takes a larger value than when the same word does not frequently appear. Therefore, by comparing the calculation results based on such calculation expressions, it is possible to determine the similarity of appearing words between two sentences. Then, the similarity of contents between two sentences can be estimated from the similarity of the appearing words.

また、演算式格納部に格納されている演算式の具体的な例としては、以下のような式が挙げられる。

Figure 2009277156
In addition, specific examples of the arithmetic expressions stored in the arithmetic expression storage unit include the following expressions.
Figure 2009277156

なお、上記演算式は以下のような演算処理を示している。すなわち、まず図3に示すようにフラッシュメモリなどに保持されている解析対象文章αから抽出された単語について、識別番号n(1からk)を付し、その単語の加重値をPとする。また同様に、比較対象となるサンプル文章βから抽出された単語について識別番号m(1からl)を付し、その単語の加重値をCとする。そして文章αのキーワードn(1からk)と、文章βのキーワードm(1からl)について一致するか(同義か)などを総当りで判断する。 In addition, the said arithmetic formula has shown the following arithmetic processes. Specifically, as shown in FIG. 3, first, an identification number n (1 to k) is assigned to a word extracted from the analysis target sentence α held in a flash memory or the like, and the weight value of the word is set to P n . . Similarly, an identification number m (1 to 1) is assigned to a word extracted from the sample sentence β to be compared, and the weight value of the word is set to C m . Then, whether or not the keyword n (1 to k) of the sentence α and the keyword m (1 to l) of the sentence β coincide (synonymous with each other) is determined brute-force.

そしてその判断処理の結果、一致する場合についてはf(n,m)=(P×(C×U)としてその加重値の積を計算し、一致しない場合には、f(n,m)=0とする。このようにして2つの文章間でキーワードが一致などする単語の加重値の積を求め、その加重値の積を積算していく、という具合である。 As a result of the determination process, when the values match, the product of the weight values is calculated as f (n, m) = (P n × (C m × U), and when they do not match, f (n, m ) = 0 In this way, the product of the weighted values of the words whose keywords match between the two sentences is obtained, and the products of the weighted values are integrated.

「類似度演算部」(0206)は、解析対象加重結果とサンプル加重結果と、演算式とに従って演算することで解析対象文章とサンプル文章との類似度を求める機能を有し、例えばCPUなどの演算装置や類似度演算プログラムによって実現することができる。具体的に、上記のようにフラッシュメモリなどに格納されている演算式と、図3に示すようなデータテーブルから単語ごとの加重値を主メモリに格納する。そしてCPUによって加重値を変数とする演算式の演算処理を実行し、演算結果を算出する。そしてその演算結果値が、例えば所定値より大きいか否かの判断処理をCPUの論理演算処理によって行い、所定値より大きければ文章同士の類似度が高いと判断する、という具合である。   The “similarity calculation unit” (0206) has a function of calculating the similarity between the analysis target sentence and the sample sentence by calculating according to the analysis target weighting result, the sample weighting result, and the arithmetic expression. It can be realized by a calculation device or a similarity calculation program. Specifically, the weighting value for each word is stored in the main memory from the arithmetic expression stored in the flash memory as described above and the data table as shown in FIG. Then, the CPU executes the arithmetic processing of the arithmetic expression using the weight value as a variable, and calculates the arithmetic result. Then, for example, the CPU determines whether the calculation result value is larger than a predetermined value by a logical calculation process of the CPU. If the calculation result value is larger than the predetermined value, it is determined that the similarity between sentences is high.

あるいはこの類似度の判断は、判断基準として予め定められた所定値を利用する絶対的な類似度判断のみならず、例えば一のサンプル文書に対して複数の解析対象文章との間でそれぞれの演算結果値を算出し、その中で最大値をとる解析対象文章を最もサンプル文章に類似すると判断する相対的な類似度判断を行っても良い。   Alternatively, the determination of the similarity is not limited to an absolute similarity determination using a predetermined value as a determination criterion. For example, each calculation is performed between a plurality of analysis target sentences for one sample document. A result value may be calculated, and a relative similarity determination may be performed in which the analysis target sentence having the maximum value is determined to be most similar to the sample sentence.

図5は、この類似度判断部における類似度判断のための演算処理の一例を表す概念図である。この図にあるように、解析対象文章(A001)とサンプル文章(S001)とに出現する単語「たばこ」について、例えば図3に示すようなテーブルデータを参照し、それぞれ加重値「72」と「64」が取得される。そして、演算式にしたがいその値を掛け合わせ、加重結果積「4608」を算出する。また、その他の出現単語「円」、「ニコチン」、・・・などについてもそれぞれ加重結果積「0」、「0」、・・・を算出し、それら値を全て加算した合計値α「5024」を算出する。   FIG. 5 is a conceptual diagram showing an example of calculation processing for similarity determination in the similarity determination unit. As shown in this figure, the word “cigarette” appearing in the analysis target sentence (A001) and the sample sentence (S001) is referred to, for example, table data as shown in FIG. 64 "is acquired. Then, the weighted result product “4608” is calculated by multiplying the values according to the arithmetic expression. In addition, the weighted result products “0”, “0”,... Are calculated for other appearance words “yen”, “nicotine”,. Is calculated.

つづいて、別の解析対象文章(A004)についても同様に単語ごと加重値と演算式を用いて、その合計値β「7829」を算出する。そして、それぞれの合計値に対して、類似度判断の基準となる所定値「6000」との大小比較を行う。その結果、解析対象文章A001は、合計値αが所定値以下であるので類似していない、すなわち有害サイトではないことが判断される。一方、解析対象文章A004は、合計値βが所定値以上であるので類似している、すなわち有害サイトである可能性が高いことが判断される、という具合である。   Subsequently, also for another analysis target sentence (A004), the total value β “7829” is calculated using the weighted value and the arithmetic expression for each word. Then, each of the total values is compared with a predetermined value “6000” which is a criterion for similarity determination. As a result, it is determined that the analysis target sentence A001 is not similar because the total value α is equal to or less than the predetermined value, that is, is not a harmful site. On the other hand, the analysis target sentence A004 is similar because the total value β is equal to or greater than a predetermined value, that is, it is determined that there is a high possibility of being a harmful site.

「類似文章蓄積部」(0207)は、類似度演算部での演算結果が所定の条件を満たす演算結果である場合には解析対象文章の識別情報をサンプル文章に類似する文章であるとして蓄積する機能を有し、例えば、前述の各種記憶装置や類似文章蓄積プログラムなどによって実現することができる。   The “similar sentence accumulating unit” (0207) accumulates the identification information of the analysis target sentence as a sentence similar to the sample sentence when the calculation result in the similarity calculation unit satisfies the predetermined condition. It has a function, and can be realized by, for example, the above-described various storage devices or similar sentence storage programs.

そして、このようにサンプル文章との加重結果積の合計値によって、サンプル文章との類似度が高い、すなわち有害Webサイトである可能性が高いと判断された解析対象文章に係るWebサイトについては、そのURLなどの識別情報が自動的に蓄積されていく。したがってフィルタリング処理のためのデータベース更新を、実効性のあるレベルで自動的に更新することができる。   For the website related to the analysis target sentence that is determined to have a high similarity to the sample sentence, that is, the possibility of being a harmful website, based on the total weighted result product with the sample sentence as described above. Identification information such as the URL is automatically accumulated. Therefore, the database update for the filtering process can be automatically updated at an effective level.

なお、上記構成をとる本実施例のフィルタリング装置は、例えば実施例2にて後述するように、ネットワーク上の検索サーバ装置に組み込まれ、クライアント端末からの検索リクエストに応じて上記判断結果に応じたフィルタリング処理を行うよう構成しても良い。あるいは、クライアント端末装置に組み込まれ、ブラウザなどでアクセスしようとするWebページに関して上記判断処理を行い、その判断結果にしたがってフィルタリング処理を行うよう構成しても良い。   The filtering device of the present embodiment having the above-described configuration is incorporated in a search server device on the network and responds to the determination result according to a search request from a client terminal, as will be described later in a second embodiment. You may comprise so that a filtering process may be performed. Alternatively, a configuration may be adopted in which the above-described determination processing is performed on a Web page that is incorporated in a client terminal device and is to be accessed by a browser or the like, and filtering processing is performed according to the determination result.

<ハードウェア構成>     <Hardware configuration>

図6は、上記機能的な各構成要件をハードウェアとして実現した際の、フィルタリング装置における構成の一例を表す概略図である。この図を利用して文章の類似度判断処理におけるそれぞれのハードウェア構成部の働きについて説明する。   FIG. 6 is a schematic diagram illustrating an example of the configuration of the filtering device when the functional components described above are realized as hardware. The operation of each hardware component in the sentence similarity determination process will be described with reference to FIG.

この図にあるように、フィルタリング装置は、形態素解析処理部、解析対象加重結果取得部、サンプル加重結果取得部、及び類似度演算部であり、またその他の各種演算処理を実行する「CPU」(0601)と、「主メモリ」(0602)と、を備えている。また演算式格納部である「フラッシュメモリ」(0603)や、クローラ部である「I/O」(0604)、類似文章蓄積部である「HDD」(0605)なども備えている。そしてそれらが「システムバス」などのデータ通信経路によって相互に接続され、情報の送受信や処理を行う。   As shown in this figure, the filtering device is a morpheme analysis processing unit, an analysis target weighted result acquisition unit, a sample weighted result acquisition unit, and a similarity calculation unit, and a “CPU” ( 0601) and “main memory” (0602). In addition, a “flash memory” (0603) that is an arithmetic expression storage unit, an “I / O” (0604) that is a crawler unit, an “HDD” (0605) that is a similar sentence storage unit, and the like are also provided. They are connected to each other via a data communication path such as a “system bus” to transmit / receive information and process information.

また、「主メモリ」にはプログラムが読み出され、「CPU」は読み出された当該プログラムを参照、解釈することで各種演算処理を実行する。また、この「主メモリ」や「フラッシュメモリ」にはそれぞれ複数のアドレスが割り当てられており、「CPU」の演算処理においては、そのアドレスを特定し格納されているデータにアクセスすることで、データを用いた演算処理を行うことが可能になっている。   A program is read into the “main memory”, and the “CPU” executes various arithmetic processes by referring to and interpreting the read program. In addition, a plurality of addresses are assigned to each of the “main memory” and “flash memory”, and in the calculation processing of the “CPU”, the addresses are specified and accessed to store the data. It is possible to perform arithmetic processing using.

ここで、「主メモリ」に読み出されているクローラプログラムを「CPU」が解釈し、そのプログラムに従って、本実施例のフィルタリング装置は「I/O」から、図示しないURLリストなどを参照して既知のWebサイトを取得する。そして当該Webサイトのリンク先を次々と辿っていくことで、未知のWebサイトの文書データを取得する。そして、このようにして取得した文章データを、解析対象文章として「主メモリ」のアドレス1に格納する。   Here, the “CPU” interprets the crawler program read to the “main memory”, and the filtering device of the present embodiment refers to the URL list (not shown) from “I / O” according to the program. Get a known website. Then, the document data of the unknown website is acquired by following the link destinations of the website one after another. Then, the sentence data acquired in this way is stored at address 1 of the “main memory” as an analysis target sentence.

つづいて、「CPU」は形態素解析処理プログラムを解釈し、その解釈結果に従い、「主メモリ」のアドレス1に格納されている解析対象文章から単語を抽出する処理を実行する。具体的には、例えば「CPU」は「フラッシュメモリ」のアドレスBに格納されている単語辞書を参照し、最長一致法を利用して「辞書中の単語」と「文章中の単語」とのパターンマッチング処理を行う。そして抽出された単語について「CPU」は「フラッシュメモリ」の文法辞書を参照し、文法辞書で示される単語品詞の活用や接続関係から単語が正しく抽出されているか否かの判断処理を実行する。その判断の結果、正しくないと判断された抽出単語については、別の区切り箇所を再パターンマッチング処理によって見つけ出し、文法的に正しい形で文章中の単語を抽出する。またここで「CPU」は、抽出プログラムに従い「フラッシュメモリ」に格納されている類義語辞書を参照し、抽出した単語のうち類義語をまとめて一の単語としてまとめる処理を行っても良い。そして、このように抽出された単語を、キーワードとして「主メモリ」のアドレス2、・・・などに格納する。   Subsequently, the “CPU” interprets the morphological analysis processing program, and executes processing for extracting words from the analysis target sentence stored in the address 1 of the “main memory” according to the interpretation result. Specifically, for example, the “CPU” refers to the word dictionary stored at the address B of the “flash memory”, and uses the longest match method to search for “words in the dictionary” and “words in the sentence”. Perform pattern matching processing. For the extracted word, the “CPU” refers to the grammar dictionary in the “flash memory” and executes a process of determining whether the word is correctly extracted from the word part-of-speech used in the grammar dictionary and the connection relationship. As for the extracted word determined to be incorrect as a result of the determination, another delimiter is found by the re-pattern matching process, and the word in the sentence is extracted in a grammatically correct form. Here, the “CPU” may refer to a synonym dictionary stored in the “flash memory” in accordance with the extraction program and perform a process of collecting synonyms out of the extracted words into one word. Then, the extracted words are stored as keywords at addresses 2,... Of “main memory”.

つづいて「CPU」は解析対象加重結果取得プログラムを解釈し、その解釈結果に従い「主メモリ」のアドレス2、・・・に格納されている単語に対する加重処理を実行する。具体的には、例えば一の文章から抽出された全ての単語の出現数をカウントする。つづいて、加重対象となる単語(キーワード1)の出現数をカウントし、「CPU」の演算処理によってキーワード1の文章中の出現割合(%)を算出する。そして、その算出値をキーワード1に対する加重値として「主メモリ」のアドレス3に格納する、という具合である。そして、文章に出現するその他の単語(キーワード2、キーワード3、・・・)についても同様の演算処理を実行し、単語ごとの加重値を算出する。なお、ここで算出された加重値は、図3(a)に示すように文章IDと関連付けてデータテーブル化されフラッシュメモリなどに記録、保持されると良い。   Subsequently, the “CPU” interprets the analysis target weighted result acquisition program, and executes the weighting process for the word stored at the addresses 2... Of the “main memory” according to the interpretation result. Specifically, for example, the number of appearances of all words extracted from one sentence is counted. Subsequently, the number of occurrences of the word (keyword 1) to be weighted is counted, and the appearance ratio (%) in the sentence of the keyword 1 is calculated by the calculation process of “CPU”. The calculated value is stored as a weighted value for keyword 1 at address 3 of “main memory”. And the same calculation process is performed also about the other word (keyword 2, keyword 3, ...) which appears in a sentence, and the weight value for every word is calculated. The weight values calculated here are preferably stored in a flash memory or the like as a data table in association with the sentence ID as shown in FIG.

つづいて「CPU」はサンプル加重結果取得プログラムにしたがって、上記同様に算出された予め登録されているサンプル文章に関するサンプル加重結果を取得する。なお、前述のように、このサンプル加重結果は、その加重結果のみが図3(b)に示すようにテーブルデータとしてフラッシュメモリなどに保持されており、そこから取得するようプログラムされていても良い。あるいは、類似度の比較判断処理のつど、サンプルURLリストなどを参照してサンプル文章を「I/O」から取得し、形態素解析や加重結果の算出などの処理を行うようプログラムされていても良い。   Subsequently, the “CPU” acquires a sample weighted result relating to a sample sentence registered in advance as described above according to the sample weighted result acquisition program. As described above, this sample weighted result may be programmed so that only the weighted result is held in the flash memory or the like as table data as shown in FIG. 3B. . Alternatively, each time the similarity comparison determination process is performed, a sample sentence may be acquired from “I / O” with reference to a sample URL list or the like, and processing such as morphological analysis or calculation of a weighted result may be performed. .

つづいて「CPU」は類似度演算プログラムを解釈しその解釈結果に従い、上記のようにして「フラッシュメモリ」や「主メモリ」に格納されている解析対象加重結果と、サンプル加重結果と、をフラッシュメモリのアドレスDに格納されている演算式に代入し演算する処理を実行する。具体的に例えば、図4に示すように出現単語ごとの加重値の積を「CPU」の演算処理によって算出し、さらに各積を加算した値を算出する。そして、算出した加重結果積の合計値を解析対象文章とサンプル文章の内容的な類似度を示す比較指標値として、「主メモリ」のアドレス4に格納する。   Subsequently, the “CPU” interprets the similarity calculation program and, according to the interpretation result, flashes the analysis target weighted result and the sample weighted result stored in the “flash memory” and “main memory” as described above. A process of substituting into the arithmetic expression stored at the address D of the memory and performing the calculation is executed. Specifically, for example, as shown in FIG. 4, a product of weight values for each appearance word is calculated by a calculation process of “CPU”, and a value obtained by adding the products is calculated. Then, the total value of the calculated weighted result products is stored in the address 4 of the “main memory” as a comparison index value indicating the content similarity between the analysis target sentence and the sample sentence.

そして、例えばその比較指標値と、フラッシュメモリに格納されている図示しない所定値との大小比較処理を「CPU」の演算処理によって実行する。その結果、指標値が所定値を下回っていれば、解析対象文章はサンプル文章との類似度が低い、すなわち解析対象文章に係るWebサイトは有害サイトでは無い、と判断する。   Then, for example, a magnitude comparison process between the comparison index value and a predetermined value (not shown) stored in the flash memory is executed by a calculation process of the “CPU”. As a result, if the index value is lower than the predetermined value, it is determined that the analysis target sentence has a low similarity with the sample sentence, that is, the Web site related to the analysis target sentence is not a harmful site.

一方、比較指標値と所定値との大小比較処理の結果、指標値が所定値を下回っていれば、解析対象文章はサンプル文章との類似度が高い、すなわち解析対象文章に係るWebサイトは有害サイトではある可能性が高い、と判断する。すると、「CPU」は類似文章記録プログラムにしたがって、上記サンプル文章に類似していると判断されたWebサイトの識別情報(URLなど)をHDDなどに記録し、その記録された識別情報をフィルタリング処理用のリストとして利用する、という具合である。   On the other hand, if the index value is less than the predetermined value as a result of the comparison processing between the comparison index value and the predetermined value, the analysis target sentence has a high similarity to the sample sentence, that is, the website related to the analysis target sentence is harmful. Judge that the site is likely to be. Then, according to the similar sentence recording program, the “CPU” records the identification information (URL, etc.) of the website determined to be similar to the sample sentence in the HDD, and performs filtering processing on the recorded identification information. It is used as a list for use.

また、上記サンプル文章に類似している判断されたWebサイトそのものをHDDなどに記録し、次回以降のサンプル文章として利用するよう構成しても良い。   Further, the website itself determined to be similar to the sample text may be recorded in an HDD or the like and used as a sample text for the next time or later.

<処理の流れ>     <Process flow>

図7は、本実施例のフィルタリング装置における処理の流れの一例を表すフローチャートである。なお、以下に示すステップは、上記のような計算機の各ハードウェア構成によって実行されるステップであっても良いし、媒体に記録され計算機を制御するためのプログラムを構成する処理ステップであっても構わない。   FIG. 7 is a flowchart illustrating an example of a processing flow in the filtering device of the present embodiment. The steps shown below may be steps executed by each hardware configuration of the computer as described above, or may be processing steps that constitute a program for controlling the computer recorded on a medium. I do not care.

この図にあるように、まず、クローラを利用して解析対象文章を取得し(ステップS0701)、その取得した解析対象文章を形態素解析する(ステップS0702)。そして形態素解析により得られたキーワードに基づいて得られる解析対象加重結果を取得する(ステップS0703)。つづいて、サンプル文章の形態素解析により得られたキーワードに基づいて得られるサンプル加重結果を取得する(ステップS0704)。   As shown in this figure, first, an analysis target sentence is acquired using a crawler (step S0701), and the acquired analysis target sentence is subjected to morphological analysis (step S0702). Then, an analysis target weighting result obtained based on the keyword obtained by the morphological analysis is acquired (step S0703). Subsequently, a sample weighting result obtained based on the keyword obtained by the morphological analysis of the sample sentence is acquired (step S0704).

そして、解析対象加重結果とサンプル加重結果とを代入値とする図4に示すような所定の演算式を記憶装置から取得し(ステップS0705)、解析対象加重結果とサンプル加重結果とを演算式に入力し演算を実行する(ステップS0706)。そして、その演算結果が所定の条件(例えば演算結果値と類似度の判断基準となる所定値との大小条件)を満たすかによって解析対象文章とサンプル文章との類似度を判断する(ステップS0707)。そして演算結果が所定の条件を満たす場合、すなわち解析対象文章がサンプル文章に類似しているとの判断がなされた場合、解析対象文章の識別情報を類似文章蓄積部に記録する(ステップS0708)。   Then, a predetermined arithmetic expression as shown in FIG. 4 using the analysis target weighted result and the sample weighted result as substitution values is acquired from the storage device (step S0705), and the analysis target weighted result and the sample weighted result are used as the arithmetic expressions. Input and execute the calculation (step S0706). Then, the degree of similarity between the analysis target sentence and the sample sentence is determined based on whether the calculation result satisfies a predetermined condition (for example, a magnitude condition between the calculation result value and a predetermined value that is a criterion for determining the similarity) (step S0707). . When the calculation result satisfies a predetermined condition, that is, when it is determined that the analysis target sentence is similar to the sample sentence, identification information of the analysis target sentence is recorded in the similar sentence storage unit (step S0708).

そして、その記録された識別情報を利用して次回以降のフィルタリング処理を実行することができる。また、ステップS0708において、類似と判断された解析対象文章そのものを蓄積する処理を実行しても良い。その場合、蓄積した解析対象文章は次回以降のサンプル文章として利用する、という具合である。   Then, the subsequent filtering process can be executed using the recorded identification information. Further, in step S0708, a process of accumulating the analysis target sentence itself determined to be similar may be executed. In this case, the accumulated analysis target sentences are used as sample sentences for the next and subsequent times.

<効果の簡単な説明>     <Brief description of effect>

以上のように本実施例のフィルタリング装置によって、形態素解析処理によって抽出された単語に応じて文章の類似度を判断することができる。そして、その判断結果にしたがって文章内容そのものの類似度をもとにしたフィルタリングのためのリストを自動的に生成することができる。   As described above, the filtering device of this embodiment can determine the similarity of sentences according to the words extracted by the morphological analysis process. Then, a list for filtering based on the similarity of the text content itself can be automatically generated according to the determination result.

≪実施例2≫   << Example 2 >>

<概要>     <Overview>

図8は、本実施例のフィルタリング装置におけるフィルタリング処理の一例を表す概念図である。この図8(a)にあるように、例えばクライアント端末装置からの「たばこ」という検索リクエストに対し、検索サーバ装置は「たばこ購入用ICカード」サイトや、「私の禁煙方法」サイト、「たばこの危険性」サイトなどに加えて、図中αで示すように「海外たばこの代行輸入」サイトも検索結果に含めてクライアント端末装置に対して返信する。   FIG. 8 is a conceptual diagram illustrating an example of filtering processing in the filtering device of this embodiment. As shown in FIG. 8 (a), for example, in response to a search request “tobacco” from a client terminal device, the search server device performs “cigarette purchase IC card” site, “my smoking cessation method” site, “cigarette” In addition to the “hazardous” site, the “overseas tobacco import” site is also included in the search results and returned to the client terminal device, as indicated by α in the figure.

一方、本実施例のフィルタリング装置が組み込まれた検索サーバ装置では、図8(b)に示すように、有害サイトであると判断される「海外たばこの代行輸入」サイトはフィルタリング処理によって検索結果に反映されないよう処理される、という具合である。   On the other hand, in the search server device in which the filtering device of this embodiment is incorporated, as shown in FIG. 8B, an “overseas tobacco agency import” site determined to be a harmful site is converted into a search result by filtering processing. It is processed so that it is not reflected.

このように、本実施例のフィルタリング装置は、検索サーバ装置などの検索システムに組み込まれ、その検索結果に対して、上記実施例1で自動的に蓄積されているデータを利用したフィルタリング処理を実行することを特徴とするフィルタリング装置である。   As described above, the filtering device of this embodiment is incorporated in a search system such as a search server device, and executes a filtering process using the data automatically stored in the first embodiment on the search result. It is the filtering device characterized by doing.

<機能的構成>     <Functional configuration>

図9は、本実施例のフィルタリング装置における機能ブロックの一例を表す図である。この図にあるように、本実施例の「フィルタリング装置」(0900)は、上記実施例1を基本として、「クローラ部」(0901)と、「形態素解析処理部」(0902)と、「解析対象加重結果取得部」(0903)と、「サンプル加重結果取得部」(0904)と、「演算式格納部」(0905)と、「類似度演算部」(0906)と、「類似文章蓄積部」(0907)と、を有する。なお、これら構成要件については実施例1にてすでに記載済みであるので、その説明は省略する。   FIG. 9 is a diagram illustrating an example of functional blocks in the filtering device of the present embodiment. As shown in this figure, the “filtering device” (0900) of the present embodiment is based on the first embodiment, and “crawler unit” (0901), “morpheme analysis processing unit” (0902), and “analysis” “Target weighted result acquisition unit” (0903), “Sample weighted result acquisition unit” (0904), “Calculation expression storage unit” (0905), “Similarity calculation unit” (0906), “Similar sentence storage unit” (0907). Since these structural requirements have already been described in the first embodiment, description thereof will be omitted.

そして、本実施例のフィルタリング装置の特徴点は、さらに「検索文章識別情報取得部」(0908)と、「比較部」(0909)と、を有する点である。   And the feature point of the filtering apparatus of a present Example is a point which further has a "search text identification information acquisition part" (0908) and a "comparison part" (0909).

「検索文章識別情報取得部」(0908)は、検索結果を示す検索文章識別情報を取得する機能を有し、例えば「I/O」や検索文章識別情報取得プログラムなどによって実現できる。具体的に、例えば検索サーバなどにおいて検索クエリに応じた検索処理が実行される。そしてその検索処理によって、検索クエリを含む文章が特定され、その識別情報を検索文章識別情報として取得する、という具合である。なお、このような検索文章識別情報の取得は、例えばフィルタリング装置が検索サーバと別体の装置に組み込まれている場合、ネットワークを介して検索サーバから取得する構成とすると良い。また、フィルタリング装置が検索サーバに組み込まれているのであれば、装置自身から内部的に取得する構成とすると良い。   The “search text identification information acquisition unit” (0908) has a function of acquiring search text identification information indicating a search result, and can be realized by, for example, “I / O” or a search text identification information acquisition program. Specifically, for example, a search process corresponding to the search query is executed in a search server or the like. And the sentence containing a search query is specified by the search process, and the identification information is acquired as search sentence identification information. In addition, such acquisition of search sentence identification information is good to set it as the structure acquired from a search server via a network, for example, when a filtering apparatus is integrated in the apparatus separate from a search server. In addition, if the filtering device is incorporated in the search server, it may be configured to obtain it internally from the device itself.

「比較部」(0909)は、検索文章識別情報取得部にて取得された検索文章識別情報を類似文章蓄積部に蓄積されている識別情報と比較する機能を有し、例えばCPUなどの演算装置や主メモリ、また比較プログラムなどによって実現することができる。具体的に、この比較部では、例えば図10に示すような類似文章蓄積部に蓄積されている有害WebサイトのURL(識別情報)リストを参照する。そして、CPUの論理演算処理によって、検索文章識別情報で示される検索結果中のURLと一致するURLが、その有害WebサイトのURL(識別情報)リスト中にあるか比較判断する、という具合である。   The “comparison unit” (0909) has a function of comparing the search text identification information acquired by the search text identification information acquisition unit with the identification information stored in the similar text storage unit. Or a main memory, a comparison program, or the like. Specifically, the comparison unit refers to a URL (identification information) list of harmful Web sites stored in a similar text storage unit as shown in FIG. 10, for example. Then, by a logical operation process of the CPU, it is determined whether or not a URL that matches the URL in the search result indicated by the search sentence identification information is in the URL (identification information) list of the harmful website. .

そして、一致する識別情報があるとの比較結果が出力された場合、当該URLで示されるWebサイトが検索結果中に表示されないよう、例えば図示しないフィルタリング処理部にてフィルタリング処理を実行する、という具合である。   When a comparison result indicating that there is matching identification information is output, for example, filtering processing is performed by a filtering processing unit (not shown) so that the Web site indicated by the URL is not displayed in the search result. It is.

<処理の流れ>     <Process flow>

図11は、本実施例のフィルタリング装置における処理の流れの一例を表すフローチャートである。なお、以下に示すステップは、上記のような計算機の各ハードウェア構成によって実行されるステップであっても良いし、媒体に記録され計算機を制御するためのプログラムを構成する処理ステップであっても構わない。   FIG. 11 is a flowchart illustrating an example of a processing flow in the filtering device of the present embodiment. The steps shown below may be steps executed by each hardware configuration of the computer as described above, or may be processing steps that constitute a program for controlling the computer recorded on a medium. I do not care.

なお、この図で示す処理の前に、実施例1で説明した処理が実行され、類似文章の識別情報が蓄積部に蓄積され、有害WebサイトのURLなどのリストが生成されている。そして、この図にあるように、まず検索クエリの入力を受けて文章に対する検索処理が実行され(ステップS1101)、その検索結果を示す検索文章識別情報を取得する(ステップS1102)。そして、検索文章識別情報を、類似文章蓄積部に蓄積されている識別情報と比較し(ステップS1103)、一致する識別情報がある場合、例えば検索結果に含めないなどのフィルタリング処理を実行する。   Prior to the processing shown in this figure, the processing described in the first embodiment is executed, the identification information of similar sentences is stored in the storage section, and a list of URLs of harmful Web sites and the like is generated. Then, as shown in this figure, first, a search process for a sentence is executed in response to an input of a search query (step S1101), and search sentence identification information indicating the search result is acquired (step S1102). Then, the search text identification information is compared with the identification information stored in the similar text storage unit (step S1103), and if there is matching identification information, a filtering process such as not including it in the search result is executed.

<効果の簡単な説明>     <Brief description of effect>

以上のように本実施例のフィルタリング装置では、検索サーバや端末などで検索を行う際に、検索結果に対する実効的なフィルタリングを行うことができる。   As described above, the filtering device according to the present embodiment can perform effective filtering on search results when performing a search using a search server or a terminal.

≪実施例3≫   Example 3

<概要>     <Overview>

図12は、本実施例のフィルタリング装置によるフィルタリング画面の一例を表す図である。この図12(a)にあるように、ネットワーク上の端末装置から、ブラウザアプリケーションを介してあるWebサイトへのアクセスが実行されようとしている。ここで、例えば当該端末装置に本実施例のフィルタリング装置が組み込まれており、その処理によってリアルタイムでアクセス先Webサイトとサンプル文章との類似度判断処理が実行される。   FIG. 12 is a diagram illustrating an example of a filtering screen by the filtering device of the present embodiment. As shown in FIG. 12A, a terminal device on the network is about to access a Web site via a browser application. Here, for example, the filtering device of the present embodiment is incorporated in the terminal device, and the processing for determining the similarity between the access destination website and the sample text is executed in real time.

そして類似しているとの判断結果である場合には、図12(b)にあるように、「このWebサイトの閲覧は禁止されています」などの表示を行い、当該Webサイトの表示を行わない、という具合である。   If it is determined that they are similar to each other, as shown in FIG. 12 (b), a message such as “Browsing this website is prohibited” is displayed, and the website is displayed. It is not.

<機能的構成>     <Functional configuration>

図13は、本実施例のフィルタリング装置における機能ブロックの一例を表す図である。この図にあるように、本実施例の「フィルタリング装置」(1300)は、上記実施例1を基本として、「クローラ部」(1301)と、「形態素解析処理部」(1302)と、「解析対象加重結果取得部」(1303)と、「サンプル加重結果取得部」(1304)と、「演算式格納部」(1305)と、「類似度演算部」(1306)と、「類似文章蓄積部」(1307)と、を有する。また、実施例2を基本として、図示しない「検索文章識別情報取得部」や「比較部」などを有していても良い。なお、これら構成要件については実施例1や2にてすでに記載済みであるので、その説明は省略する。   FIG. 13 is a diagram illustrating an example of functional blocks in the filtering device of the present embodiment. As shown in this figure, the “filtering device” (1300) of the present embodiment is based on the first embodiment, and includes a “crawler section” (1301), a “morpheme analysis processing section” (1302), and an “analysis”. “Target weighted result acquisition unit” (1303), “Sample weighted result acquisition unit” (1304), “Calculation expression storage unit” (1305), “Similarity calculation unit” (1306), “Similar sentence storage unit” (1307). Further, on the basis of the second embodiment, a “search text identification information acquisition unit” or a “comparison unit” (not shown) may be included. Since these configuration requirements have already been described in the first and second embodiments, description thereof will be omitted.

そして、本実施例のフィルタリング装置の特徴点は、さらに「URL受信部」(1308)と、「解析対象文章取得部」(1309)と、「識別情報出力部」(1310)と、を有する点である。   And the feature point of the filtering apparatus of a present Example has further a "URL receiving part" (1308), an "analysis object sentence acquisition part" (1309), and an "identification information output part" (1310). It is.

「URL受信部」(1308)は、URLを受信する機能を有し、例えば、「I/O」やURL受信プログラムなどによって実現することができる。具体的に、例えばクライアント端末装置のブラウザアプリケーションなどに組み込まれるプラグイン(ツールバー等)にて、ブラウザに入力されたURLを取得し、フィルタリング装置に対して出力/送信などするよう構成することでURLを受信する、という具合である。なお、上記URLの受信は、例えばフィルタリング装置がクライアント端末装置と別体の装置に組み込まれている場合の受信例である。一方、フィルタリング装置がクライアント端末装置に組み込まれているのであれば、装置自身から内部的にURLを受信する構成としても良い。   The “URL receiving unit” (1308) has a function of receiving a URL, and can be realized by, for example, “I / O” or a URL receiving program. Specifically, for example, a plug-in (toolbar or the like) incorporated in the browser application of the client terminal device acquires the URL input to the browser and outputs / transmits the URL to the filtering device. Is received. The reception of the URL is an example of reception when the filtering device is incorporated in a device separate from the client terminal device, for example. On the other hand, if the filtering device is incorporated in the client terminal device, the URL may be received internally from the device itself.

「解析対象文章取得部」(1309)は、受信したURLで識別されるウエッブページの文章を解析対象文章として取得する機能を有し、例えば「I/O」や解析対象文章取得プログラムによって実現することができる。具体的に、前記受信したURLを宛先とする通常のHTTPリクエストを送信し、そのレスポンスによってWebページの文章を取得する、という具合である。なおフィルタリング処理の性格上、前記サンプル文章との類似度判断処理が終了しないうちは、取得したWebページがディスプレイ上に表示されないよう構成することが好ましい。   The “analysis target sentence acquisition unit” (1309) has a function of acquiring the text of the web page identified by the received URL as the analysis target sentence, and is realized by “I / O” or an analysis target sentence acquisition program, for example. be able to. Specifically, a normal HTTP request destined for the received URL is transmitted, and the text of the Web page is acquired by the response. In addition, it is preferable that the acquired Web page is not displayed on the display until the similarity determination process with the sample sentence is completed because of the nature of the filtering process.

「識別情報出力部」(1310)は、類似度演算部での演算結果が所定の条件を満たす演算結果である場合にはその旨をURLの送信元に対して出力する機能を有し、例えばCPUなどの演算装置やI/O、識別情報出力プログラムなどによって実現できる。なお「所定の条件」は、類似度を示す前述の指標値が閾値以下であるという条件、すなわち両文章(サンプル文章と受信したURLで示されるWebページ文章)が類似していないとの条件としても良い。そして、その条件を満たしている場合には、受信したURLで示されるWebページは例えば健全なサイトであるとしてそのままURLを送信元に返信する。また、類似度演算部での演算結果がその条件を満たしていない場合には、そのURLで示されるWebページは例えば有害サイトであるとしてそのURLを送信元に返信せずに、送信元からのアクセスが出来ないようにする、という具合である。   The “identification information output unit” (1310) has a function of outputting the fact to the URL transmission source when the calculation result in the similarity calculation unit satisfies the predetermined condition, for example, It can be realized by an arithmetic unit such as a CPU, an I / O, an identification information output program, or the like. The “predetermined condition” is a condition that the above-described index value indicating the degree of similarity is equal to or less than a threshold value, that is, a condition that both sentences (the sample sentence and the Web page sentence indicated by the received URL) are not similar. Also good. If the condition is satisfied, the Web page indicated by the received URL is returned to the transmission source as it is, for example, as a healthy site. Further, when the calculation result in the similarity calculation unit does not satisfy the condition, the Web page indicated by the URL is assumed to be a harmful site, for example, and the URL from the transmission source is not returned to the transmission source. For example, to prevent access.

また、逆に類似度を示す前述の指標値が閾値を越えているという条件、すなわち両文章が類似しているとの条件である場合には、その演算結果を送信元に返信する。そして、送信元であるクライアント端末装置での処理によって、演算結果に従って当該URLで示されるWebサイトへのアクセス許可/遮断処理を行うと良い。また、アクセス遮断処理の前に、遮断警告のポップアップ表示などを行うよう構成しても良い。   On the other hand, if the condition is that the index value indicating the degree of similarity exceeds a threshold value, that is, the condition that both sentences are similar, the calculation result is returned to the transmission source. Then, it is preferable to perform access permission / blocking processing to the Web site indicated by the URL according to the calculation result by processing at the client terminal device that is the transmission source. Further, a pop-up display of a block warning may be performed before the access block process.

また、この識別情報出力部からURLの送信元に対して出力される「その旨」を示す情報とは、類似度演算部での演算結果が所定の条件を満たす演算結果を示す情報であればどのような情報であっても良い。例えば、プログラムにてURLなどの解析対象文章の識別情報そのものの返信が「その旨」を示す情報として処理されるよう設定されていれば、この識別情報出力部は、解析対象文章の識別情報をURLの送信元に対して出力すると良い。   The information indicating “to that effect” output from the identification information output unit to the URL transmission source is information indicating that the calculation result in the similarity calculation unit satisfies a predetermined condition. Any information may be used. For example, if the program is set so that the reply of the identification information itself of the analysis target sentence such as the URL is processed as information indicating “to that effect”, the identification information output unit displays the identification information of the analysis target sentence. It may be output to the URL sender.

また、この識別情報出力部の機能は、本実施例フィルタリング装置がクライアント端末装置に組み込まれている場合、システムバスなどを介して自身が組み込まれたクライアント装置のブラウザなどに対して出力する構成とすると良い。   In addition, the function of the identification information output unit is configured such that when the filtering device of the present embodiment is incorporated in the client terminal device, it outputs to the browser of the client device in which it is incorporated via the system bus or the like. Good.

また、本実施例のフィルタリング装置がネットワーク上のサーバ装置に組み込まれている場合、HTTPリクエストなどで示されるURLの送信元のIPアドレスを宛先として、ネットワーク網を介して出力する構成とすると良い。   In addition, when the filtering device of this embodiment is incorporated in a server device on a network, it may be configured to output via the network network with the destination IP address of the URL indicated by the HTTP request or the like as the destination.

なお、このようにクライアント端末装置をそのURLの送信元とし、アクセスの許可/遮断などを当該クライアント端末装置で実行する場合、そのクライアント端末装置は以下のような構成を備えると良い。すなわち、クライアント端末装置は、URLをフィルタリング装置に対して送信するURL送信部と、フィルタリング装置の識別情報出力部での所定の条件を満たす演算結果である旨を示す情報を受信する所定情報受信部と、受信した演算結果を示す情報に応じて、そのURLへのアクセスを制御するアクセス制御部と、を有する構成とすると良い。   When the client terminal device is used as the transmission source of the URL and access permission / blocking is executed by the client terminal device, the client terminal device may have the following configuration. That is, the client terminal device includes a URL transmission unit that transmits a URL to the filtering device, and a predetermined information reception unit that receives information indicating that the calculation result satisfies a predetermined condition in the identification information output unit of the filtering device. And an access control unit that controls access to the URL according to the received information indicating the calculation result.

このように本実施例のフィルタリング装置を利用して、クライアント端末装置にてアクセスしようとするWebサイトに関してリアルタイムでフィルタリング処理を実行することができる。   In this way, using the filtering device of this embodiment, it is possible to execute filtering processing in real time for a Web site to be accessed by a client terminal device.

<処理の流れ>     <Process flow>

図14は、本実施例のフィルタリング装置における処理の流れの一例を表すフローチャートである。なお、以下に示すステップは、上記のような計算機の各ハードウェア構成によって実行されるステップであっても良いし、媒体に記録され計算機を制御するためのプログラムを構成する処理ステップであっても構わない。   FIG. 14 is a flowchart illustrating an example of a process flow in the filtering device of the present embodiment. The steps shown below may be steps executed by each hardware configuration of the computer as described above, or may be processing steps that constitute a program for controlling the computer recorded on a medium. I do not care.

この図にあるように、まず、例えばHTTPリクエストなどに含まれるURLを受信する(ステップS1401)と、受信したURLで識別されるWebページの文章を解析対象文章として取得する(ステップS1402)。そして、解析対象文章を形態素解析する(ステップS1403)。つづいて、実施例1にて図7を用いて説明したような処理が実行され、その結果、演算結果に基づいて解析対象文章とサンプル文章との類似度を判断する(ステップS1404)。そして、判断結果が所定の条件を満たす場合、すなわち解析対象文章がサンプル文章に類似しているとの判断がなされた場合、その判断結果をURLの送信元に対して出力する(ステップS1405Y)。また、判断結果が所定の条件を満たさない場合、すなわち解析対象文章がサンプル文章に類似していないとの判断がなされた場合、その類似していない旨の判断結果をURLの送信元に対して出力する(ステップS1405N)。   As shown in this figure, first, for example, when a URL included in an HTTP request or the like is received (step S1401), the text of the Web page identified by the received URL is acquired as an analysis target text (step S1402). Then, the analysis target sentence is subjected to morphological analysis (step S1403). Subsequently, the processing described in the first embodiment with reference to FIG. 7 is executed, and as a result, the similarity between the analysis target sentence and the sample sentence is determined based on the calculation result (step S1404). If the determination result satisfies a predetermined condition, that is, if it is determined that the analysis target sentence is similar to the sample sentence, the determination result is output to the URL transmission source (step S1405Y). Further, when the determination result does not satisfy the predetermined condition, that is, when it is determined that the analysis target sentence is not similar to the sample sentence, the determination result that the similarity is not similar is sent to the URL transmission source. Output (step S1405N).

そして、その出力された判断結果を受信するURLの送信元である例えばクライアント端末装置では、以下の図15に示すような処理を実行する。すなわちステップS1501にてURLを送信し、上記図14で説明した処理によりフィルタリング装置から返信されたそのURLに関する所定の条件を満たす演算結果である旨を示す情報を受信する(ステップS1502)。するとクライアント端末装置側(送信元)では、例えば受信した情報が、その演算結果が類似している旨を示す情報である場合に、当該URLで示されるWebサイトへのアクセスを遮断する。一方、その演算結果が類似していない旨を示す情報である場合には、クライアント端末装置は当該URLで示されるWebサイトへのアクセスを許可し、そのWebサイトの表示を実行する、と言った具合に受信した演算結果に応じてそのURLのアクセスを制御する処理を実行する(ステップS1503)。   Then, for example, a client terminal device that is a transmission source of the URL that receives the output determination result executes processing as shown in FIG. That is, a URL is transmitted in step S1501, and information indicating that the calculation result satisfying a predetermined condition regarding the URL is returned from the filtering device by the processing described in FIG. 14 is received (step S1502). Then, on the client terminal device side (transmission source), for example, when the received information is information indicating that the calculation results are similar, access to the Web site indicated by the URL is blocked. On the other hand, when the calculation result is information indicating that the results are not similar, the client terminal device is allowed to access the Web site indicated by the URL and execute the display of the Web site. A process for controlling access to the URL is executed in accordance with the calculation result received (step S1503).

<効果の簡単な説明>     <Brief description of effect>

以上のように本実施例のフィルタリング装置によって、クライアント端末装置にてアクセスしようとするWebサイトに関してリアルタイムでフィルタリング処理を実行することができる。   As described above, the filtering apparatus according to the present embodiment can execute the filtering process in real time for the Web site to be accessed by the client terminal apparatus.

実施例1のフィルタリング装置によるフィルタリング対象Webサイトの判断処理の一例を説明するための概念図Conceptual diagram for describing an example of filtering target Web site determination processing by the filtering device according to the first embodiment. 実施例1のフィルタリング装置における機能ブロックの一例を表す図The figure showing an example of the functional block in the filtering apparatus of Example 1. 実施例1のフィルタリング装置において蓄積される解析対象加重結果及びサンプル加重結果のデータテーブルの一例を表す図The figure showing an example of the data table of the analysis object weighting result and sample weighting result which are accumulate | stored in the filtering apparatus of Example 1. FIG. 実施例1のフィルタリング装置における比較指標値テーブルの一例を表す図The figure showing an example of the comparison index value table in the filtering apparatus of Example 1. 実施例1のフィルタリング装置の類似度判断部における類似度判断のための演算処理の一例を表す概念図FIG. 5 is a conceptual diagram illustrating an example of calculation processing for similarity determination in the similarity determination unit of the filtering device according to the first embodiment. 実施例1のフィルタリング装置におけるハードウェア構成の一例を表す図1 is a diagram illustrating an example of a hardware configuration in a filtering device according to a first embodiment. 実施例1のフィルタリング装置における処理の流れの一例を表すフローチャートThe flowchart showing an example of the flow of a process in the filtering apparatus of Example 1. 実施例2のフィルタリング装置におけるフィルタリング処理の一例を表す概念図Conceptual diagram illustrating an example of filtering processing in the filtering device according to the second embodiment. 実施例2のフィルタリング装置における機能ブロックの一例を表す図The figure showing an example of the functional block in the filtering apparatus of Example 2. 実施例2のフィルタリング装置の類似文章蓄積部に蓄積されている有害Webサイトの識別情報リストの一例を表す図The figure showing an example of the identification information list | wrist of the harmful website accumulate | stored in the similar text storage part of the filtering apparatus of Example 2. FIG. 実施例2のフィルタリング装置における処理の流れの一例を表すフローチャートThe flowchart showing an example of the flow of the process in the filtering apparatus of Example 2. 実施例2のフィルタリング装置によるフィルタリング画面の一例を表す図The figure showing an example of the filtering screen by the filtering apparatus of Example 2. 実施例3のフィルタリング装置における機能ブロックの一例を表す図The figure showing an example of the functional block in the filtering apparatus of Example 3. 実施例3のフィルタリング装置における処理の流れの一例を表すフローチャートA flowchart showing an example of the flow of processing in a filtering device of Example 3. 実施例3におけるクライアント端末装置での処理の流れの一例を表すフローチャート10 is a flowchart illustrating an example of a process flow in a client terminal device according to the third embodiment.

符号の説明Explanation of symbols

0200 フィルタリング装置
0201 クローラ部
0202 形態素解析処理部
0203 解析対象加重結果取得部
0204 サンプル加重結果取得部
0205 演算式格納部
0206 類似度判断部
0207 類似文章蓄積部
0200 Filtering device 0201 Crawler unit 0202 Morphological analysis processing unit 0203 Analysis target weighted result acquisition unit 0204 Sample weighted result acquisition unit 0205 Calculation expression storage unit 0206 Similarity determination unit 0207 Similar sentence accumulation unit

Claims (12)

解析対象文章を取得するクローラ部と、
クローラ部にて得られる解析対象文章を形態素解析処理する形態素解析処理部と、
形態素解析処理により得られたキーワードを解析対象文章での出現頻度に基づいて加重した結果である解析対象加重結果を取得する解析対象加重結果取得部と、
サンプル文章の形態素解析により得られたキーワードをそのサンプルとなる文章中での出現頻度に基づいて加重した結果であるサンプル加重結果を取得するサンプル加重結果取得部と、
解析対象加重結果とサンプル加重結果とを代入値とする所定の演算式を格納する演算式格納部と、
解析対象加重結果とサンプル加重結果と、演算式とに従って演算することで解析対象文章とサンプル文章との類似度を求める類似度演算部と、
類似度演算部での演算結果が所定の条件を満たす演算結果である場合には解析対象文章の識別情報をサンプル文章に類似する文章であるとして蓄積する類似文章蓄積部と、
を有するフィルタリング装置。
A crawler unit for obtaining the analysis target sentence;
A morphological analysis processing unit that performs a morphological analysis process on the analysis target sentence obtained in the crawler unit;
An analysis target weighted result acquisition unit for acquiring an analysis target weighted result that is a result of weighting a keyword obtained by morphological analysis processing based on an appearance frequency in an analysis target sentence;
A sample weighted result acquisition unit for acquiring a sample weighted result that is a result of weighting a keyword obtained by morphological analysis of a sample sentence based on an appearance frequency in the sample sentence;
An arithmetic expression storage unit for storing a predetermined arithmetic expression using the analysis target weighted result and the sample weighted result as substitution values;
A similarity calculation unit that calculates the similarity between the analysis target sentence and the sample sentence by calculating according to the analysis target weighted result, the sample weighted result, and the calculation formula;
When the calculation result in the similarity calculation unit is a calculation result that satisfies a predetermined condition, a similar sentence storage unit that stores the identification information of the analysis target sentence as a sentence similar to the sample sentence;
A filtering device.
検索結果を示す検索文章識別情報を取得する検索文章識別情報取得部と、
検索文章識別情報取得部にて取得された検索文章識別情報を類似文章蓄積部に蓄積されている識別情報と比較する比較部と、をさらに有する請求項1に記載のフィルタリング装置。
A search sentence identification information acquisition unit for acquiring search sentence identification information indicating a search result;
The filtering device according to claim 1, further comprising: a comparison unit that compares the search text identification information acquired by the search text identification information acquisition unit with the identification information stored in the similar text storage unit.
前記比較部での比較結果が、類似文章蓄積部に蓄積されている識別情報の中に検索文章識別情報と一致するものがあるとの比較結果である場合に、その検索文章識別情報で識別される検索文章が検索結果に含まれないようにフィルタリング処理を実行するフィルタリング処理部を有する請求項2に記載のフィルタリング装置。   When the comparison result in the comparison unit is a comparison result that the identification information stored in the similar text storage unit matches the search text identification information, it is identified by the search text identification information. The filtering device according to claim 2, further comprising a filtering processing unit that executes a filtering process so that the search text is not included in the search result. URLを受信するURL受信部と、
受信したURLで識別されるウエッブページの文章を解析対象文章として取得する解析対象文章取得部と、
類似度演算部での演算結果が所定の条件を満たす演算結果である場合には、その旨をURLの送信元に対して出力する識別情報出力部と、
を有する請求項1から3のいずれか一に記載のフィルタリング装置。
A URL receiver for receiving a URL;
An analysis target sentence acquisition unit that acquires a sentence of a web page identified by the received URL as an analysis target sentence;
When the calculation result in the similarity calculation unit is a calculation result that satisfies a predetermined condition, an identification information output unit that outputs the fact to the URL transmission source;
The filtering device according to claim 1, comprising:
演算式格納部に格納されている式が下記数1の式である請求項1から4のいずれか一に記載のフィルタリング装置。
Figure 2009277156
The filtering apparatus according to any one of claims 1 to 4, wherein the expression stored in the arithmetic expression storage unit is an expression of the following formula (1).
Figure 2009277156
前記請求項4または請求項4に従属する請求項5に記載のフィルタリング装置と、クライアント端末装置と、からなるフィルタリングシステムであって、
前記クライアント端末装置は、
URLをフィルタリング装置に対して送信するURL送信部と、
フィルタリング装置の識別情報出力部での所定の条件を満たす演算結果である旨を示す情報を受信する所定情報受信部と、
受信した演算結果を示す情報に応じて、そのURLへのアクセスを制御するアクセス制御部と、を有する
フィルタリングシステム。
A filtering system comprising: the filtering device according to claim 4 dependent on claim 4 or claim 4; and a client terminal device,
The client terminal device
A URL transmission unit that transmits the URL to the filtering device;
A predetermined information receiving unit that receives information indicating that the calculation result satisfies a predetermined condition in the identification information output unit of the filtering device;
A filtering system comprising: an access control unit that controls access to the URL according to information indicating a received calculation result.
解析対象文章を取得するクローラステップと、
クローラステップにて得られる解析対象文章を形態素解析処理する形態素解析処理ステップと、
形態素解析処理により得られたキーワードを解析対象文章での出現頻度に基づいて加重した結果である解析対象加重結果を取得する解析対象加重結果取得ステップと、
サンプル文章の形態素解析により得られたキーワードをそのサンプルとなる文章中での出現頻度に基づいて加重した結果であるサンプル加重結果を取得するサンプル加重結果取得ステップと、
解析対象加重結果とサンプル加重結果とを代入値とする所定の演算式を演算式格納部から取得する演算式取得ステップと、
解析対象加重結果とサンプル加重結果と、演算式とに従って演算することで解析対象文章とサンプル文章との類似度を求める類似度演算ステップと、
類似度演算ステップでの演算結果が所定の条件を満たす演算結果である場合には解析対象文章の識別情報をサンプル文章に類似する文章であるとして類似文章蓄積部に蓄積するため記録する類似文章記録ステップと、
を計算機に実行させるフィルタリング方法。
A crawler step to obtain the sentence to be analyzed;
A morphological analysis processing step for performing a morphological analysis process on the analysis target sentence obtained in the crawler step;
An analysis target weighted result acquisition step for acquiring an analysis target weighted result that is a result of weighting the keyword obtained by the morphological analysis processing based on the appearance frequency in the analysis target sentence;
A sample weighted result acquisition step of acquiring a sample weighted result that is a result of weighting a keyword obtained by morphological analysis of a sample sentence based on an appearance frequency in the sample sentence;
An arithmetic expression acquisition step for acquiring a predetermined arithmetic expression using the analysis target weighted result and the sample weighted result as substitution values from the arithmetic expression storage unit;
A similarity calculation step for calculating the similarity between the analysis target sentence and the sample sentence by calculating according to the analysis target weighted result, the sample weighted result, and the calculation formula;
Similar sentence recording for recording the identification information of the analysis target sentence as a sentence similar to the sample sentence in the similar sentence storage unit when the calculation result in the similarity calculation step satisfies the predetermined condition Steps,
Filtering method that causes a computer to execute.
検索結果を示す検索文章識別情報を取得する検索文章識別情報取得ステップと、
検索文章識別情報取得ステップにて取得された検索文章識別情報を類似文章蓄積部に蓄積されている識別情報と比較する比較ステップと、をさらに計算機に実行させる請求項7に記載のフィルタリング方法。
A search sentence identification information acquisition step for acquiring search sentence identification information indicating a search result;
The filtering method according to claim 7, further causing the computer to execute a comparison step of comparing the search text identification information acquired in the search text identification information acquisition step with the identification information stored in the similar text storage unit.
前記比較ステップでの比較結果が、類似文章蓄積部に蓄積されている識別情報の中に検索文章識別情報と一致するものがあるとの比較結果である場合に、その検索文章識別情報で識別される検索文章が検索結果に含まれないようにフィルタリング処理を実行するフィルタリング処理ステップをさらに計算機に実行させる請求項8に記載のフィルタリング方法。   If the comparison result in the comparison step is a comparison result indicating that there is a match with the search text identification information in the identification information stored in the similar text storage unit, the search text identification information is identified. The filtering method according to claim 8, further causing a computer to execute a filtering process step of executing a filtering process so that a search sentence is not included in a search result. URLを受信するURL受信ステップと、
受信したURLで識別されるウエッブページの文章を解析対象文章として取得する解析対象文章取得ステップと、
類似度演算ステップでの演算結果が所定の条件を満たす演算結果である場合にはその旨をURLの送信元に対して出力する識別情報出力ステップと、
を計算機に実行させる請求項7から9のいずれか一に記載のフィルタリング方法。
A URL receiving step for receiving a URL;
An analysis target sentence acquisition step of acquiring the sentence of the web page identified by the received URL as the analysis target sentence;
If the calculation result in the similarity calculation step is a calculation result that satisfies a predetermined condition, an identification information output step that outputs the fact to the URL transmission source;
The filtering method according to any one of claims 7 to 9, which causes a computer to execute.
演算式取得ステップにて取得される式が下記数1の式である請求項7から10のいずれか一に記載のフィルタリング方法。
Figure 2009277156
The filtering method according to any one of claims 7 to 10, wherein the expression acquired in the operation expression acquiring step is an expression of the following equation (1).
Figure 2009277156
さらに、
URL受信ステップに対応してURLを送信するURL送信ステップと、
識別情報出力ステップでの所定の条件を満たす演算結果である旨を示す情報を受信する所定情報受信ステップと、
受信した演算結果を示す情報に応じて、そのURLへのアクセスを制御するアクセス制御ステップと、
を計算機に実行させる請求項10または請求項10に従属する請求項11に記載のフィルタリング方法。
further,
A URL transmission step for transmitting a URL corresponding to the URL reception step;
A predetermined information receiving step for receiving information indicating that the calculation result satisfies a predetermined condition in the identification information output step;
An access control step for controlling access to the URL according to information indicating the received calculation result;
The filtering method according to claim 10, which is dependent on claim 10 or 11.
JP2008130112A 2008-05-16 2008-05-16 Filtering device and filtering method Active JP5070124B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008130112A JP5070124B2 (en) 2008-05-16 2008-05-16 Filtering device and filtering method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008130112A JP5070124B2 (en) 2008-05-16 2008-05-16 Filtering device and filtering method

Publications (2)

Publication Number Publication Date
JP2009277156A true JP2009277156A (en) 2009-11-26
JP5070124B2 JP5070124B2 (en) 2012-11-07

Family

ID=41442498

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008130112A Active JP5070124B2 (en) 2008-05-16 2008-05-16 Filtering device and filtering method

Country Status (1)

Country Link
JP (1) JP5070124B2 (en)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011154675A (en) * 2009-12-28 2011-08-11 Canon It Solutions Inc Information processor, information processing method, and computer program
JP2013537986A (en) * 2010-09-09 2013-10-07 北京神州▲緑▼盟信息安全科技股▲分▼有限公司 Website scanning apparatus and method
JP2014134847A (en) * 2013-01-08 2014-07-24 Fuji Xerox Co Ltd Information processing device and program
JP2017102737A (en) * 2015-12-02 2017-06-08 日本電信電話株式会社 Browsing management system and browsing management method
KR101778090B1 (en) 2016-08-10 2017-09-13 대구대학교 산학협력단 Method and system for intelligent blocking noxious information using input search words
JP2018530046A (en) * 2015-08-17 2018-10-11 エヌエスフォーカス インフォメーション テクノロジー カンパニー,リミテッドNsfocus Information Technology Co.,Ltd Cyber attack detection method and detection apparatus
CN110598211A (en) * 2019-09-02 2019-12-20 腾讯科技(深圳)有限公司 Article identification method and device, storage medium and electronic device

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003157281A (en) * 2001-11-22 2003-05-30 Nippon Telegr & Teleph Corp <Ntt> Method, device and program for expanding url list for information filter and recording medium with the program recorded thereon
JP2007334502A (en) * 2006-06-13 2007-12-27 Fujifilm Corp Retrieving device, method, and program

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003157281A (en) * 2001-11-22 2003-05-30 Nippon Telegr & Teleph Corp <Ntt> Method, device and program for expanding url list for information filter and recording medium with the program recorded thereon
JP2007334502A (en) * 2006-06-13 2007-12-27 Fujifilm Corp Retrieving device, method, and program

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011154675A (en) * 2009-12-28 2011-08-11 Canon It Solutions Inc Information processor, information processing method, and computer program
JP2013537986A (en) * 2010-09-09 2013-10-07 北京神州▲緑▼盟信息安全科技股▲分▼有限公司 Website scanning apparatus and method
US10491618B2 (en) 2010-09-09 2019-11-26 NSFOCUS Information Technology Co., Ltd. Method and apparatus for website scanning
JP2014134847A (en) * 2013-01-08 2014-07-24 Fuji Xerox Co Ltd Information processing device and program
JP2018530046A (en) * 2015-08-17 2018-10-11 エヌエスフォーカス インフォメーション テクノロジー カンパニー,リミテッドNsfocus Information Technology Co.,Ltd Cyber attack detection method and detection apparatus
JP2017102737A (en) * 2015-12-02 2017-06-08 日本電信電話株式会社 Browsing management system and browsing management method
KR101778090B1 (en) 2016-08-10 2017-09-13 대구대학교 산학협력단 Method and system for intelligent blocking noxious information using input search words
CN110598211A (en) * 2019-09-02 2019-12-20 腾讯科技(深圳)有限公司 Article identification method and device, storage medium and electronic device
CN110598211B (en) * 2019-09-02 2023-09-26 腾讯科技(深圳)有限公司 Article identification method and device, storage medium and electronic device

Also Published As

Publication number Publication date
JP5070124B2 (en) 2012-11-07

Similar Documents

Publication Publication Date Title
JP5070124B2 (en) Filtering device and filtering method
US10198491B1 (en) Computerized systems and methods for extracting and storing information regarding entities
US9984067B2 (en) Automated comprehension of natural language via constraint-based processing
US8554540B2 (en) Topic map based indexing and searching apparatus
KR100996311B1 (en) Method and system for detecting spam user created contentucc
CN103279516B (en) Web spider identification method
US20070174270A1 (en) Knowledge management system, program product and method
CN110309393A (en) Data processing method, device, equipment and readable storage medium storing program for executing
US20110137919A1 (en) Apparatus and method for knowledge graph stabilization
CN102279875A (en) Method and device for identifying phishing website
CN109684483A (en) Construction method, device, computer equipment and the storage medium of knowledge mapping
CN109815386B (en) User portrait-based construction method and device and storage medium
CN110263248A (en) A kind of information-pushing method, device, storage medium and server
US8326833B2 (en) Implementing metadata extraction of artifacts from associated collaborative discussions
US9519704B2 (en) Real time single-sweep detection of key words and content analysis
Costante et al. What websites know about you: Privacy policy analysis using information extraction
WO2015085805A1 (en) Method and apparatus for determining core word of image cluster description text
JP5435249B2 (en) Event analysis apparatus, event analysis method, and program
CN110060154A (en) Works based on block chain deposit card method, system, device and equipment
CN108280102B (en) Internet surfing behavior recording method and device and user terminal
CN108182173A (en) A kind of method, apparatus and electronic equipment for extracting keyword
US8572081B1 (en) Identifying non-compositional compounds
JP2007233584A (en) Impression determination system, advertisement article generation system, impression determination method, advertisement article generation method, impression determination program, and advertisement article generation program
Hazen et al. On the social and technical challenges of web search autosuggestion moderation
CN111177518A (en) Webpage purification method, system and computer readable storage medium

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110620

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110819

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110914

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120731

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120820

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150824

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5070124

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350