JP5320007B2 - Information filter device - Google Patents

Information filter device Download PDF

Info

Publication number
JP5320007B2
JP5320007B2 JP2008259802A JP2008259802A JP5320007B2 JP 5320007 B2 JP5320007 B2 JP 5320007B2 JP 2008259802 A JP2008259802 A JP 2008259802A JP 2008259802 A JP2008259802 A JP 2008259802A JP 5320007 B2 JP5320007 B2 JP 5320007B2
Authority
JP
Japan
Prior art keywords
information
content
data
harmful information
harmful
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008259802A
Other languages
Japanese (ja)
Other versions
JP2010092163A (en
Inventor
賢吉 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2008259802A priority Critical patent/JP5320007B2/en
Publication of JP2010092163A publication Critical patent/JP2010092163A/en
Application granted granted Critical
Publication of JP5320007B2 publication Critical patent/JP5320007B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、情報フィルタ装置に係り、特にWebページの有害な情報の表示を規制する情報フィルタ装置に関する。   The present invention relates to an information filter device, and more particularly to an information filter device that regulates the display of harmful information on a Web page.

現在、携帯電話やコンピュータにおいて、未成年等に対して特定のWebページの閲覧を禁止するサービスが行われている。このようなサービスの処理を、有害情報のフィルタリング(以下、単にフィルタリングと記す)という。このフィルタリングには、ホワイトリスト方式、ブラックリスト方式の2種類が知られている。
ホワイトリスト方式は、閲覧可能なWebサイトのリストを挙げ、リストに挙がったWebサイトに含まれるページに対して一律に閲覧を許可するものである。ブラックリスト方式は、閲覧が禁止されるWebサイトのリストを挙げ、リストに挙がったWebサイトに含まれるページに対して一律に閲覧を規制するものである。
「ブラックリスト?ホワイトリスト?「ケータイフィルタリング原則化」に備える基礎知識」、日経トレンディネット、2007年、12月26日、[平成20年9月26日検索]、インターネット、<URL:http://trendy.nikkeibp.co.jp/article/special/20071226/1005687/>
Currently, services that prohibit browsing of specific Web pages for minors and the like are being performed on mobile phones and computers. Such service processing is called harmful information filtering (hereinafter simply referred to as filtering). Two types of filtering, a white list method and a black list method, are known.
In the white list method, a list of websites that can be browsed is listed, and browsing is uniformly permitted for pages included in the websites listed. In the black list method, a list of Web sites that are prohibited from browsing is listed, and browsing is uniformly restricted for pages included in the Web sites listed.
"Blacklist? Whitelist? Basic knowledge for" Keitai filtering principle "", Nikkei Trendy Net, 2007, December 26, [Search September 26, 2008], Internet, <URL: http: / /trendy.nikkeibp.co.jp/article/special/20071226/1005687/>

しかしながら、上記のホワイトリスト方式、ブラックリスト方式では、WebサイトのWebページの一部が有害情報を含むだけでWebサイト全体の閲覧が規制される。このため、ユーザは、一部に有害情報を含むWebサイト内にあって、かつ閲覧を規制する必要がない情報を得ることができなくなる。
また、Webサイトの運営者にとっては、閲覧者の減少や、自己のWebサイトにおける有害情報の監視にコストがかかる点が問題となる。
本発明は、上記した点に鑑みてなされたものであって、Webサイト内のWebページに含まれる情報ごとに閲覧を規制し、有害情報を含むWebサイトであっても規制する必要がない情報については閲覧を可能にするフィルタ装置を提供することを目的とする。
However, in the above-described white list method and black list method, browsing of the entire website is restricted only by a part of the web page of the website containing harmful information. For this reason, the user cannot obtain information that is in a Web site partially including harmful information and does not need to be restricted in browsing.
In addition, there is a problem for Web site operators in that it is costly to reduce the number of viewers and to monitor harmful information on their Web site.
The present invention has been made in view of the above points, and restricts browsing for each piece of information contained in a web page in a website, and information that does not need to be regulated even for a website that contains harmful information. An object of the present invention is to provide a filter device that enables browsing.

以上の課題を解決するため、本発明の請求項1の情報フィルタ装置は、テキスト及び画像の少なくとも一方を表すコンテンツデータと、当該コンテンツデータを表示するための制御情報とを含む表示データを取得する表示データ取得手段と、前記表示データからコンテンツデータだけを抽出するコンテンツ抽出手段と、画像を表すコンテンツデータに対し、コンテンツデータにおいて線が占める割合を検出する輪郭線検出手段と、前記コンテンツ抽出手段によって抽出されたコンテンツデータと、予め設定されている有害情報とを照合し、コンテンツデータと有害情報との一致、不一致を判断する有害情報照合手段と、前記有害情報照合手段による照合の結果、有害情報と一致すると判断されたコンテンツデータを、有害情報では無い他の情報に置換するコンテンツ置換手段と、を備え、前記コンテンツ抽出手段は、抽出されたコンテンツデータを、テキストまたは画像の属性ごとに分類し、前記有害情報照合手段は、分類されたコンテンツデータを、属性が一致する有害情報とのみ照合し、前記輪郭線検出手段によって検出された、画像を表すコンテンツデータにおいて線が占める割合が所定のしきい値より大きい場合、当該画像を表すコンテンツデータと有害情報とを照合する処理を省き、前記コンテンツ置換手段によって置換されたコンテンツデータを前記表示データに統合し、前記表示データに含まれるコンテンツデータのうち有害情報だけが有害情報では無い他の情報に置換された表示データを生成することを特徴とする。このような発明によれば、Webページに含まれるコンテンツのうち、有害情報の表示だけを規制し、同じWebページに含まれる有害情報にはあたらないコンテンツを表示することができる。このため、ユーザは、一部に有害情報を含むWebページであっても閲覧を規制する必要がない情報については得ることができる。また、Webページの一部に有害情報が書き込まれる等した場合であっても、Webサイト全体の閲覧が規制されることがなくなるので、Webサイトの運営者にかかる有害情報の監視の負荷を軽減することができる。また、このような発明によれば、コンテンツデータと一致する可能性が高い有害情報だけを照合の対象とすることができるので、照合にかかる時間や処理の負荷を軽減することができる。さらに、このような発明によれば、線が多く、識別し難いコンテンツデータを有害情報との照合を行う処理の対象から省くことができるので、有害情報の閲覧を阻止しながらも照合にかかる時間や処理の負荷を軽減することができる。 In order to solve the above problems, an information filter device according to claim 1 of the present invention acquires display data including content data representing at least one of text and an image and control information for displaying the content data. Display data acquisition means, content extraction means for extracting only content data from the display data, outline detection means for detecting the proportion of lines in content data with respect to content data representing an image, and the content extraction means The extracted content data is collated with preset harmful information, the harmful information collating means for judging whether the content data and the harmful information match, and the harm information as a result of the collation by the harmful information collating means. Content data that is determined to be consistent with other information that is not harmful information And a content replacement means for replacing the, the content extraction means, the extracted content data, classified according to attributes of the text or images, the harmful information collating means, the categorized content data, the attribute When the proportion of the line in the content data representing the image detected by the contour detection means is larger than a predetermined threshold, the content data representing the image and the harmful information are matched. A display in which the content data replaced by the content replacement unit is integrated into the display data, and only harmful information is replaced with other information that is not harmful information, out of the content data included in the display data, by omitting the verification process It is characterized by generating data. According to such an invention, among the contents included in the Web page, only the display of harmful information can be restricted, and the content that does not correspond to the harmful information included in the same Web page can be displayed. For this reason, the user can obtain information that does not require browsing even if the web page partially includes harmful information. Moreover, even if harmful information is written on a part of the Web page, browsing of the entire Web site is not restricted, so the burden of monitoring harmful information on the Web site operator is reduced. can do. In addition, according to such an invention, since only harmful information that is highly likely to match content data can be targeted for verification, the time required for verification and the processing load can be reduced. Furthermore, according to such an invention, content data that has a lot of lines and is difficult to identify can be omitted from the processing target for matching with harmful information, so the time required for matching while preventing browsing of harmful information. And the processing load can be reduced.

以下、図を参照して本発明に係るフィルタ装置の一実施形態を説明する。
(装置構成)
図1は、本実施形態のフィルタ装置を説明するための機能ブロック図である。本実施形態では、フィルタ装置を移動機装置102のフィルタ処理部109として構成した。図示したフィルタ処理部109は、移動機装置102に搭載され、NW(Net Work)装置101と通信している。図示したNW装置101は、Webページが格納されているサーバを含むNWに関連する装置全体を指す。移動機装置102は、携帯電話等、移動可能な通信端末装置である。
Hereinafter, an embodiment of a filter device according to the present invention will be described with reference to the drawings.
(Device configuration)
FIG. 1 is a functional block diagram for explaining the filter device of the present embodiment. In the present embodiment, the filter device is configured as the filter processing unit 109 of the mobile device 102. The illustrated filter processing unit 109 is mounted on the mobile device 102 and communicates with an NW (Net Work) device 101. The illustrated NW device 101 indicates the entire device related to the NW including the server in which the Web page is stored. The mobile device 102 is a mobile communication terminal device such as a mobile phone.

移動機装置102は、NW装置101からデータを受信する信号送受信部110を備えている。信号送受信部110は、NW装置101からダウンロード(以降、DLと記す)されたHTML(Hyper Text Markup Language:Webページを表示させるための記述言語)データ(本実施形態でいう表示データ)をも受信する。また、移動機装置102は、DLされたデータを表示する表示装置部111及び、表示装置部111に表示される情報を規制するためのフィルタ処理部109を備えている。   The mobile device 102 includes a signal transmission / reception unit 110 that receives data from the NW device 101. The signal transmission / reception unit 110 also receives HTML (Hyper Text Markup Language: description language for displaying a Web page) data (display data in this embodiment) downloaded from the NW device 101 (hereinafter referred to as DL). To do. In addition, the mobile device 102 includes a display device unit 111 that displays DL data, and a filter processing unit 109 that regulates information displayed on the display device unit 111.

フィルタ処理部109は、信号送受信部110によって受信されたHTMLデータからコンテンツデータ(以降、コンテンツと記す)を抽出する情報抽出部103、有害であると規定される情報(以降、有害情報と記す)を格納しておくための情報記憶部107、抽出されたコンテンツと情報記憶部107に記憶されている有害情報とを照合してコンテンツから有害情報を検出する情報照合部104、抽出された有害情報部を有害情報では無い別の情報に置換する情報置換部106、有害情報を置換した情報(以降、置換情報と記す)を含むコンテンツを受信されたHTMLデータに埋め込み、表示される表示データを作成する情報統合部105を備えている。情報統合部105によって作成された表示データは、表示装置部111に送られて表示される。   The filter processing unit 109 includes an information extraction unit 103 that extracts content data (hereinafter referred to as “content”) from HTML data received by the signal transmission / reception unit 110, and information that is defined as harmful (hereinafter referred to as “harmful information”). Information storage unit 107 for storing information, information collation unit 104 for collating the extracted content with harmful information stored in information storage unit 107 to detect harmful information from the content, extracted harmful information Information replacement unit 106 that replaces the part with other information that is not harmful information, and creates display data that is displayed by embedding content including information obtained by replacing harmful information (hereinafter referred to as replacement information) in the received HTML data The information integration unit 105 is provided. The display data created by the information integration unit 105 is sent to the display device unit 111 and displayed.

以上の構成において、情報抽出部103は、HTMLデータをHTMLタグ部とコンテンツとに分ける。HTMLタグ部とは、Webブラウザ等の表示ソフトに対して文書構造や書式、文字飾り等を指示する、あるいは画像や他の文書へのリンクを埋め込むことができる制御情報である。
また、移動機装置102は、NW装置101から予め有害情報のデータベース(DB)をDLしておき、信号送受信部110によって受信する。受信された有害情報のDBは、情報記憶部107に格納される。
In the above configuration, the information extraction unit 103 divides HTML data into an HTML tag unit and content. The HTML tag portion is control information that can instruct the display software such as a Web browser on the document structure, format, character decoration, etc., or embed an image or a link to another document.
Also, the mobile device 102 DLs a database (DB) of harmful information from the NW device 101 in advance and receives it by the signal transmission / reception unit 110. The received DB of harmful information is stored in the information storage unit 107.

本明細書では、「コンテンツ」の語句を、画像を表す画像データまたはテキストを表すテキストデータであって、データの所定の1単位を指すものとする。テキストを表すコンテンツは、さらに単語データ、文書データに分類される。画像データ、単語データ、文書データの種別を、本実施形態では、以降「属性」とも記す。
所定の1単位とは、例えば、単語データにあっては1単語、文書データにあっては複数の文書からなる段落、画像データにあっては1画像のように設定できる。
なお、本実施形態はコンテンツをこのような単位に限定するものではなく、任意に設定することができることは言うまでもない。
In this specification, the term “content” refers to image data representing an image or text data representing a text, and refers to a predetermined unit of data. Content representing text is further classified into word data and document data. In the present embodiment, the types of image data, word data, and document data are hereinafter also referred to as “attributes”.
The predetermined unit can be set, for example, as one word for word data, a paragraph composed of a plurality of documents for document data, and one image for image data.
Needless to say, the present embodiment does not limit the content to such a unit, but can arbitrarily set the content.

(有害情報DB)
図2は、情報記憶部107が有害情報のDBを格納する具体的な方法を説明するための図である。図示されているように、有害情報は、単語データ、文書データ、画像データの属性にしたがって分類され、管理番号が付されて格納される。
情報照合部104は、情報抽出部103によって抽出されたコンテンツのみを情報記憶部107に記憶されている有害情報と照合する。この結果、有害情報と一致すると判断されたコンテンツを表示装置部111において表示できないコンテンツであると判断する。また、情報照合部104は、有害情報と一致しないと判断されたコンテンツを表示装置部111において表示できるコンテンツであると判断する。
(Harmful information DB)
FIG. 2 is a diagram for explaining a specific method in which the information storage unit 107 stores a DB of harmful information. As shown in the figure, harmful information is classified according to the attributes of word data, document data, and image data, and stored with a management number.
The information collation unit 104 collates only the content extracted by the information extraction unit 103 with harmful information stored in the information storage unit 107. As a result, it is determined that the content determined to match the harmful information cannot be displayed on the display device unit 111. Further, the information matching unit 104 determines that the content determined not to match the harmful information is content that can be displayed on the display device unit 111.

また、後述するように、情報照合部104は、画像のコンテンツにおいて線が占める割合を検出する機能をも有している。
以上述べた構成のうち、信号送受信部110が表示データ取得手段として機能する。また、情報抽出部103がコンテンツ抽出手段として機能し、情報照合部104が有害情報照合手段及び輪郭線検出手段、情報置換部106がコンテンツ置換手段にそれぞれ機能する。
As will be described later, the information matching unit 104 also has a function of detecting the proportion of lines in the image content.
Among the configurations described above, the signal transmission / reception unit 110 functions as a display data acquisition unit. The information extracting unit 103 functions as a content extracting unit, the information matching unit 104 functions as a harmful information matching unit and an outline detecting unit, and the information replacing unit 106 functions as a content replacing unit.

(コンテンツと有害情報との照合)
図3は、図1に示した情報照合部104におけるコンテンツと有害情報との照合の方法を説明するための図である。以下、コンテンツの単語データ、文書データ、画像データのカテゴリごとにコンテンツと有害情報との照合の方法を具体的に説明する。
・単語データ、文書データ
単語データや文書データの照合処理としては、抽出された単語データや文書データのコンテンツを、単語データや文書データの有害情報と1文字ずつ比較する。比較の結果、情報照合部104は、コンテンツと有害情報との文字の全てが完全に一致する場合のみでなく、コンテンツが有害情報の特徴的な文字を含んでいる場合にもコンテンツが有害情報であると判断する。
(Verification of content and harmful information)
FIG. 3 is a diagram for explaining a method of collating content with harmful information in the information collating unit 104 shown in FIG. Hereinafter, a method for collating content with harmful information will be described in detail for each category of content word data, document data, and image data.
-Word data and document data As the collation processing of word data and document data, the extracted word data and document data contents are compared character by word with harmful information in word data and document data. As a result of the comparison, the information matching unit 104 determines that the content is harmful information not only when the characters of the content and harmful information completely match, but also when the content includes characteristic characters of the harmful information. Judge that there is.

すなわち、例えば、図3(a)のように、単語データの有害情報が「ABCDE」であるとする。また、有害情報と照合されるコンテンツを、図3(b)に示すコンテンツ1「ABCDE」、図3(c)に示すコンテンツ2「A○B×C△D□E」、図3(d)に示すコンテンツ3「ACDA」とする。
このような場合、コンテンツ1やコンテンツ2のように、有害情報の全てと共に他の情報を含むコンテンツは有害情報であると判断される。また、コンテンツ3のように、有害情報を構成する文字の一部が含まれていないコンテンツは有害情報であると判断されない。
That is, for example, as shown in FIG. 3A, it is assumed that harmful information of word data is “ABCDE”. Further, the contents collated with the harmful information are the contents 1 “ABCDE” shown in FIG. 3B, the contents 2 “AB × CΔD □ E” shown in FIG. 3C, and FIG. Content 3 “ACDA” shown in FIG.
In such a case, contents including other information as well as all harmful information, such as content 1 and content 2, are determined to be harmful information. In addition, content that does not include a part of characters that constitute harmful information, such as content 3, is not determined to be harmful information.

また、画像データのコンテンツの場合、パターンマッチングによって情報記憶部107に記憶されている画像データの有害情報と照合される。パターンマッチングでは、例えば、両者の画像の相関をとり、相関の高さを予め設定されているしきい値と比較し、相関性がしきい値を超えている場合にコンテンツが有害情報と一致すると判断される。このようなパターンマッチングの方法は、例えば、特許庁ホームページ、画像認識技術、平成20年9月26日検索、インターネット、
<URL:http://www.jpo.go.jp/shiryou/s_sonota/tokumapf.htm>
にも記載されているように、公知であるからこれ以上の説明を行わない。なお、本実施形態は、以上のようにしてコンテンツが有害情報であるか否か判断するものに限定されるものでなく、どのような方法によって判断するものであってもよい。
In addition, in the case of image data content, pattern information is collated with harmful information of image data stored in the information storage unit 107. In pattern matching, for example, the correlation between the two images is taken, the height of the correlation is compared with a preset threshold value, and the content matches the harmful information when the correlation exceeds the threshold value. To be judged. Such pattern matching methods include, for example, the JPO homepage, image recognition technology, search on September 26, 2008, the Internet,
<URL: http://www.jpo.go.jp/shiryou/s_sonota/tokumapf.htm>
Since it is well known, no further explanation will be given. Note that the present embodiment is not limited to determining whether or not the content is harmful information as described above, and may be determined by any method.

また、本実施形態では、コンテンツを属性にしたがって分類すると共に、図2に示したように、有害情報が単語データ、文書データ、画像データの属性ごとに分類されて格納されている。このため、コンテンツの照合をする場合、コンテンツの属性と一致する有害情報だけを照合の対象とすることができ、照合の処理にかかる時間を短縮することが可能になる。   In the present embodiment, contents are classified according to attributes, and harmful information is classified and stored for each attribute of word data, document data, and image data as shown in FIG. For this reason, when content is collated, only harmful information that matches content attributes can be targeted for collation, and the time required for collation processing can be shortened.

また、本実施形態は、コンテンツと有害情報とを縮小化してからパターンマッチングすることにより、パターンマッチングにかかる時間を短縮することが可能である。なお、このような方法は、例えば、中島浩嗣、「FPGAを用いたパターンマッチングの高速化手法」、平成20年9月26日検索、インターネット、
<URL:http://www.hfl.hiroshima-u.ac.jp/COE/programs/pdf/nakano.pdf>にも記載されているように、公知であるからこれ以上の説明を行わない。
さらに、本実施形態では、パターンマッチングに先立って、情報照合部104が、画像データのコンテンツに占める線の割合を検出するようにしてもよい。このようにすれば、線の割合がしきい値を超えた場合、識別困難なコンテンツであるとしてパターンマッチングを省いて処理時間を短縮することができる。
In the present embodiment, the time required for pattern matching can be shortened by performing pattern matching after reducing the content and harmful information. In addition, such a method is, for example, Hiroshi Nakajima, “Faster pattern matching method using FPGA”, search on September 26, 2008, the Internet,
As described in <URL: http: //www.hfl.hiroshima-u.ac.jp/COE/programs/pdf/nakano.pdf>, since it is publicly known, no further explanation will be given.
Furthermore, in this embodiment, prior to pattern matching, the information matching unit 104 may detect the proportion of lines in the content of image data. In this way, when the line ratio exceeds the threshold value, it is possible to reduce the processing time by omitting pattern matching because the content is difficult to identify.

以上のようにして有害情報と照合されたコンテンツは、表示できるコンテンツ、表示できないコンテンツの両方が、情報置換部106に送られる。つまり、情報照合部104において有害情報であると判断されたコンテンツも、有害情報ではないと判断されたコンテンツも情報置換部106へ入力される。情報置換部106は、有害情報であると判断されたコンテンツのみを有害情報では無い別の情報に置換する。別の情報が例えば「表示できません」といった文字列である場合、有害情報であると判断されたコンテンツの部分に「表示できません」の文字列が表示されるように設定される。また、別の情報がいわゆる「塗りつぶし」である場合、有害情報であると判断されたコンテンツの部分は黒く表示されるように設定される。   The content collated with the harmful information as described above is sent to the information replacement unit 106 as both content that can be displayed and content that cannot be displayed. That is, the content that is determined to be harmful information by the information matching unit 104 and the content that is determined not to be harmful information are input to the information replacing unit 106. The information replacement unit 106 replaces only the content determined to be harmful information with other information that is not harmful information. When the other information is a character string such as “cannot be displayed”, for example, the character string “cannot be displayed” is set to be displayed in the content portion determined to be harmful information. When the other information is so-called “painting”, the content portion determined to be harmful information is set to be displayed in black.

情報統合部105は、信号送受信部110によって受信されたHTMLデータと、情報置換部106において置換された、または置換されなかったコンテンツとを使って統合処理を行う。統合処理は、置換されたコンテンツをHTMLデータ中の置換前のコンテンツと置き換え、HTMLデータに埋め込む。そして、置換後のコンテンツが埋め込まれたHTMLデータを再度再生する。再生されたHTMLデータは、表示装置部111に入力されて表示される。この結果、表示装置部111には、有害情報の部分だけが閲覧禁止の状態のHTMLデータが表示される。   The information integration unit 105 performs integration processing using the HTML data received by the signal transmission / reception unit 110 and the content replaced or not replaced by the information replacement unit 106. In the integration process, the replaced content is replaced with the content before replacement in the HTML data, and is embedded in the HTML data. Then, the HTML data in which the replaced content is embedded is reproduced again. The reproduced HTML data is input to the display unit 111 and displayed. As a result, the display unit 111 displays HTML data in which only the harmful information portion is prohibited from being viewed.

(動作)
次に、以上述べた構成の本実施形態のフィルタ装置の動作を説明する。
図4は、NW装置101と移動機装置102との間で行われる、Webページを閲覧する際の通信の手順を説明するためのタイミングチャートである。移動機装置102において、Webページの閲覧開始や終了は、閲覧制御部401によって実行される。また、Webページの閲覧開始や終了は、閲覧制御部401からフィルタ処理部109に伝えられる。
(Operation)
Next, the operation of the filter device of the present embodiment having the above-described configuration will be described.
FIG. 4 is a timing chart for explaining a communication procedure performed between the NW device 101 and the mobile device 102 when browsing a Web page. In the mobile device 102, the browsing control unit 401 starts and ends browsing of the Web page. In addition, the start and end of browsing of the Web page are transmitted from the browsing control unit 401 to the filter processing unit 109.

移動機装置102の信号送受信部110は、NW装置101に対してWebページへのアクセスを要求する(S1)。このとき、図4に示した例では、移動機装置102がNW装置101から随時有害情報のDBをDLしている(S2、S3)。このような例では、移動機装置102がNW装置101よりWebページをDLするたびに、有害情報等の最新DBをDLする。受信された有害情報等は一時的に移動機装置102内の情報記憶部107に格納される(S4)。
NW装置101よりWebページがDLされると(S5)、移動機装置102においてWebページの閲覧が開始される(S6)。Webページの閲覧終了と共に(S8)、Webページと情報記憶部107に格納されている有害情報等が解放される(S7、S9)。
The signal transmission / reception unit 110 of the mobile device 102 requests the NW device 101 to access the Web page (S1). At this time, in the example shown in FIG. 4, the mobile device 102 DLs the DB of harmful information from the NW device 101 as needed (S2, S3). In such an example, every time the mobile device 102 DLs a Web page from the NW device 101, the latest DB such as harmful information is DL. The received harmful information and the like are temporarily stored in the information storage unit 107 in the mobile device 102 (S4).
When the Web page is downloaded from the NW device 101 (S5), browsing of the Web page is started in the mobile device 102 (S6). When the browsing of the web page is completed (S8), the harmful information stored in the web page and the information storage unit 107 is released (S7, S9).

なお、有害情報のDBのDLは、このような例に限定されるものでなく、フィルタ処理の以前にDLするものであれば、どのようなタイミングで行ってもよい。そして、DLされた有害情報を情報記憶部107部に不揮発的に格納してもよい。このような場合、移動機装置102の出荷時に情報記憶部107に一定の有害情報等を格納する。その後、有害情報のDBがNW装置101においてアップデートされるたびに、ADL(エア・ダウン・ロード:無線インタフェースによるソフトウェア等のアップデート方法)等を用いて情報記憶部107を更新するものでもよい。
Webページへのアクセス要求を受けたNW装置101は、移動機装置102へ要求されたWebページをDLする(S5)。移動機装置102において、DLされたWebページのデータは、HTMLのデータ形式で取り扱われる。
The DL of the harmful information DB is not limited to such an example, and may be performed at any timing as long as the DL is performed before the filtering process. Then, the harmful information that has been DL may be stored in the information storage unit 107 in a nonvolatile manner. In such a case, certain harmful information or the like is stored in the information storage unit 107 when the mobile device 102 is shipped. Thereafter, each time the harmful information DB is updated in the NW device 101, the information storage unit 107 may be updated using ADL (air down load: a method of updating software or the like through a wireless interface) or the like.
The NW device 101 that has received the access request to the Web page DLs the requested Web page to the mobile device 102 (S5). In the mobile device 102, DL Web page data is handled in the HTML data format.

図5は、本発明の一実施形態のフィルタ処理部109においてDLされたWebページに対して行われる処理を説明するためのフローチャートである。信号送受信部110でHTMLデータを受信すると(ステップS501)、フィルタ処理部109では、図1に示した情報抽出部103がHTMLデータからコンテンツだけを抽出する。すなわち、HTMLデータは、コンテンツとHTMLタグ部を含んでいる。フィルタ処理部109では、HTMLデータをコンテンツとHTMLタグ部とを分けてコンテンツだけを抽出する(ステップS502)。そして、抽出されたコンテンツを属性ごとに分類する。   FIG. 5 is a flowchart for explaining processing performed on a Web page that is downloaded by the filter processing unit 109 according to the embodiment of this invention. When the HTML data is received by the signal transmission / reception unit 110 (step S501), in the filter processing unit 109, the information extraction unit 103 shown in FIG. 1 extracts only the content from the HTML data. That is, the HTML data includes content and an HTML tag part. The filter processing unit 109 extracts only the content by dividing the HTML data into the content and the HTML tag unit (step S502). Then, the extracted content is classified for each attribute.

次に、フィルタ処理部109では、図1に示した情報照合部104が分類されたコンテンツと情報記憶部107部に格納されている有害情報とを照合し、コンテンツが有害情報であるか否か判断する(ステップS503)。判断の結果、コンテンツが有害情報である場合(ステップS503:有害情報である)、図1に示した情報置換部106が、有害情報であると判断されたコンテンツを「表示できません」等のテキストに置換する(ステップS504)。図1に示した情報統合部105は、置換後のコンテンツをHTMLデータ中の置換前のコンテンツと置き換えて埋め込み、統合する(ステップS505)。   Next, in the filter processing unit 109, the information collation unit 104 shown in FIG. 1 collates the classified content with the harmful information stored in the information storage unit 107, and determines whether or not the content is harmful information. Judgment is made (step S503). As a result of the determination, if the content is harmful information (step S503: harmful information), the information replacement unit 106 shown in FIG. 1 converts the content determined to be harmful information into a text such as “cannot be displayed”. Replace (step S504). The information integration unit 105 shown in FIG. 1 embeds and integrates the replaced content by replacing it with the content before replacement in the HTML data (step S505).

また、ステップS503において、コンテンツが有害情報ではないと判断された場合(ステップS503:有害情報ではない)、コンテンツの置換を行うことなくコンテンツとHTMLデータとの統合が行われる。統合後のデータは、表示データとして表示装置部111に入力される(ステップS506)。図1に示した表示装置部111は、表示データを図示しないディスプレイ画面に表示させる。
表示データの閲覧が終了すると、ユーザは、Webページを閉じて解放する。解放を示す情報は、信号送受信部110へ送られて(S8)、移動機装置102からはWebページの解放要求がNW装置101に対して行われる(S9)。なお、解放を示す情報は、図1に示したフィルタ処理部109にも伝えられる(S7)。
If it is determined in step S503 that the content is not harmful information (step S503: not harmful information), the content and HTML data are integrated without replacing the content. The integrated data is input to the display device unit 111 as display data (step S506). The display device unit 111 shown in FIG. 1 displays display data on a display screen (not shown).
When browsing of the display data is completed, the user closes and releases the Web page. Information indicating the release is sent to the signal transmission / reception unit 110 (S8), and the mobile device 102 issues a Web page release request to the NW device 101 (S9). Information indicating the release is also transmitted to the filter processing unit 109 shown in FIG. 1 (S7).

(システム)
図6は、本実施形態のフィルタ装置が適用される移動機装置102とNW装置101によって構築されるシステムを説明するための図である。図6のシステムでは、移動機装置102にフィルタ処理部109が備えてあって、移動機装置102からユーザがNW装置101に対してWebサイトの閲覧を要求すると(図中:Web page request)、NW装置101が移動機装置102に対して要求されたWebサイトのWebページをダウンロードする(図中:Web page DL)。
(system)
FIG. 6 is a diagram for explaining a system constructed by the mobile device 102 and the NW device 101 to which the filter device of this embodiment is applied. In the system of FIG. 6, when the mobile device 102 includes the filter processing unit 109 and the user requests the NW device 101 to browse the website from the mobile device 102 (in the figure: Web page request), The NW device 101 downloads the web page of the web site requested to the mobile device 102 (in the figure: Web page DL).

移動機装置102は、前記したように、DLされたWebページのHTMLデータからコンテンツを抽出し、情報記憶部107に予め格納されている有害情報と抽出されたコンテンツとを照合し、両者が一致したか否か判断する。そして、有害情報と一致するコンテンツだけを「表示できません」等の有害情報では無い別のデータに置換する。この結果、表示装置部111には、HTMLデータのうち、有害情報と一致すると判断された単語や文書、あるいは画像だけが表示されない状態のWebページが表示される。   As described above, the mobile device 102 extracts the content from the HTML data of the DL Web page, compares the harmful information stored in the information storage unit 107 in advance with the extracted content, and the two match. Judge whether or not. Then, only content that matches the harmful information is replaced with other data that is not harmful information such as “cannot be displayed”. As a result, the display unit 111 displays a Web page in which only words, documents, or images determined to match the harmful information in the HTML data are not displayed.

(他のシステムの例)
図7は、本実施形態のシステムの他の例を説明するための図である。図7に示したシステムでは、フィルタ処理部109をNW装置101に備えている。このような場合、移動機装置102がNW装置101にWebページの閲覧を要求するたびに、NW装置101において閲覧を要求されたWebページがフィルタ処理部109に取得されてフィルタ処理され、有害情報が排除されたWebページが移動機装置102へ送信される。
なお、図7に示した構成の場合、フィルタ処理部109は図1に示した信号送受信部110ではなく、NW装置101から情報抽出部103が直接WebページのHTMLデータを取得する。このため、図7の構成で表示データ取得手段は情報抽出部103となる。
(Examples of other systems)
FIG. 7 is a diagram for explaining another example of the system of the present embodiment. In the system illustrated in FIG. 7, the NW device 101 includes the filter processing unit 109. In such a case, whenever the mobile device 102 requests the NW device 101 to browse the web page, the web page requested to be browsed in the NW device 101 is acquired by the filter processing unit 109 and filtered, and harmful information is obtained. The Web page from which the message is excluded is transmitted to the mobile device 102.
In the configuration illustrated in FIG. 7, the filter processing unit 109 acquires the HTML data of the Web page directly from the NW device 101 instead of the signal transmission / reception unit 110 illustrated in FIG. 1. For this reason, the display data acquisition means in the configuration of FIG.

さらに、本実施形態は、テキスト及び画像の少なくとも一方を表すコンテンツと、このコンテンツを表示するための制御情報とを含む表示データを取得する表示データ取得機能と、表示データからコンテンツだけを抽出するコンテンツ抽出機能と、抽出されたコンテンツ機能と有害情報とを照合し、コンテンツと有害情報との一致、不一致を判断する有害情報照合機能と、照合の結果、有害情報と一致すると判断されたコンテンツを、有害情報では無い他の情報に置換するコンテンツ置換機能とをコンピュータに実行させるプログラムを汎用的なコンピュータにDLすることにより、以上述べた実施形態と同様の構成を実現することができる。DLされたプログラムの使用に際しては、パスワード等の認証を用いることで、特定のユーザのみが設定及び解除の権限を持つようにすることも可能である。さらに、上記のプログラムをUIM(User Interface Module)カードと関連させることにより、同一の端末でもUIMにより設定及び解除の区別が可能である。
このようなシステムによれば、通信端末装置、ネットワーク装置のいずれにおいてもフィルタ処理を実行することができる。このため、システムの用途や適用の対象に応じて好ましい側でフィルタ処理を実行することができる。
Furthermore, the present embodiment provides a display data acquisition function for acquiring display data including content representing at least one of text and images and control information for displaying the content, and content for extracting only the content from the display data. The extraction function, the extracted content function and harmful information are collated, the harmful information matching function that determines whether the content and harmful information match or not, and the content that is determined to match the harmful information as a result of matching, The configuration similar to that of the above-described embodiment can be realized by DL, on a general-purpose computer, a program that causes a computer to execute a content replacement function that replaces other information that is not harmful information. When using a DL program, it is possible to allow only a specific user to have the authority to set and cancel by using authentication such as a password. Further, by associating the above program with a UIM (User Interface Module) card, it is possible to distinguish between setting and canceling by the UIM even in the same terminal.
According to such a system, the filtering process can be executed in any of the communication terminal device and the network device. For this reason, it is possible to execute the filter processing on a preferable side according to the use of the system and the target of application.

本発明の一実施形態のフィルタ装置を説明するための機能ブロック図である。It is a functional block diagram for demonstrating the filter apparatus of one Embodiment of this invention. 図1に示した情報記憶部が有害情報のDBを格納する具体的な方法を説明するための図である。It is a figure for demonstrating the specific method in which the information storage part shown in FIG. 1 stores DB of harmful information. 図2に示した情報照合部におけるコンテンツと有害情報との照合の方法を説明するための図である。It is a figure for demonstrating the method of collation with the content and harmful information in the information collation part shown in FIG. 本発明の一実施形態のNW装置と移動機装置との間で行われる通信の手順を説明するためのタイミングチャートである。It is a timing chart for demonstrating the procedure of the communication performed between the NW apparatus of one Embodiment of this invention, and a mobile apparatus. 本発明の一実施形態のフィルタ処理部においてDLされたWebページに対して行われる処理を説明するためのフローチャートである。It is a flowchart for demonstrating the process performed with respect to the Web page DLd in the filter process part of one Embodiment of this invention. 本発明の一実施形態のフィルタ装置が適用される移動機装置とNW装置によって構築されるシステムを説明するための図である。It is a figure for demonstrating the system constructed | assembled by the mobile apparatus and NW apparatus with which the filter apparatus of one Embodiment of this invention is applied. 本発明の一実施形態のシステムの他の例を説明するための図である。It is a figure for demonstrating the other example of the system of one Embodiment of this invention.

符号の説明Explanation of symbols

101 NW装置
102 移動機装置
103 情報抽出部
104 情報照合部
105 情報統合部
106 情報置換部
107 情報記憶部
109 フィルタ処理部
110 信号送受信部
111 表示装置部
401 閲覧制御部
101 NW device 102 Mobile device 103 Information extraction unit 104 Information collation unit 105 Information integration unit 106 Information replacement unit 107 Information storage unit 109 Filter processing unit 110 Signal transmission / reception unit 111 Display device unit 401 View control unit

Claims (1)

テキスト及び画像の少なくとも一方を表すコンテンツデータと、当該コンテンツデータを表示するための制御情報とを含む表示データを取得する表示データ取得手段と、
前記表示データからコンテンツデータだけを抽出するコンテンツ抽出手段と、
画像を表すコンテンツデータに対し、コンテンツデータにおいて線が占める割合を検出する輪郭線検出手段と、
前記コンテンツ抽出手段によって抽出されたコンテンツデータと、予め設定されている有害情報とを照合し、コンテンツデータと有害情報との一致、不一致を判断する有害情報照合手段と、
前記有害情報照合手段による照合の結果、有害情報と一致すると判断されたコンテンツデータを、有害情報では無い他の情報に置換するコンテンツ置換手段と、
を備え、
前記コンテンツ抽出手段は、抽出されたコンテンツデータを、テキストまたは画像の属性ごとに分類し、
前記有害情報照合手段は、分類されたコンテンツデータを、属性が一致する有害情報とのみ照合し、
前記輪郭線検出手段によって検出された、画像を表すコンテンツデータにおいて線が占める割合が所定のしきい値より大きい場合、当該画像を表すコンテンツデータと有害情報とを照合する処理を省き、
前記コンテンツ置換手段によって置換されたコンテンツデータを前記表示データに統合し、前記表示データに含まれるコンテンツデータのうち有害情報だけが有害情報では無い他の情報に置換された表示データを生成することを特徴とする情報フィルタ装置。
Display data acquisition means for acquiring display data including content data representing at least one of text and image and control information for displaying the content data;
Content extraction means for extracting only content data from the display data;
Contour line detecting means for detecting a ratio of the line in the content data to the content data representing the image;
Harmful information collating means for collating the content data extracted by the content extracting means with preset harmful information and determining whether the content data and harmful information match or not;
Content replacement means for replacing content data determined to match the harmful information as a result of matching by the harmful information matching means with other information that is not harmful information;
With
The content extraction means classifies the extracted content data for each attribute of text or image,
The harmful information collating means collates the classified content data only with harmful information having matching attributes,
When the proportion of the line data in the content data representing the image detected by the contour detection means is greater than a predetermined threshold, the process of matching the content data representing the image and harmful information is omitted,
Integrating the content data replaced by the content replacement means into the display data, and generating display data in which only harmful information of the content data included in the display data is replaced with other information that is not harmful information. A characteristic information filter device.
JP2008259802A 2008-10-06 2008-10-06 Information filter device Expired - Fee Related JP5320007B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008259802A JP5320007B2 (en) 2008-10-06 2008-10-06 Information filter device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008259802A JP5320007B2 (en) 2008-10-06 2008-10-06 Information filter device

Publications (2)

Publication Number Publication Date
JP2010092163A JP2010092163A (en) 2010-04-22
JP5320007B2 true JP5320007B2 (en) 2013-10-23

Family

ID=42254830

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008259802A Expired - Fee Related JP5320007B2 (en) 2008-10-06 2008-10-06 Information filter device

Country Status (1)

Country Link
JP (1) JP5320007B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102125402B1 (en) * 2018-06-20 2020-06-23 라인플러스 주식회사 Method, system, and non-transitory computer readable record medium for filtering image using keyword extracted form image

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005056339A (en) * 2003-08-07 2005-03-03 Mitsubishi Electric Corp Information filtering device and system
JP4498907B2 (en) * 2004-12-06 2010-07-07 株式会社日立製作所 Feature video detection and removal method, apparatus and program
JP2007128119A (en) * 2004-12-17 2007-05-24 Pcsafe Inc Method and system for carrying out filter processing of url, web page, and content

Also Published As

Publication number Publication date
JP2010092163A (en) 2010-04-22

Similar Documents

Publication Publication Date Title
US11128662B2 (en) Method, client, and server for preventing web page hijacking
JP5505671B2 (en) Update notification method and browser
US9471714B2 (en) Method for increasing the security level of a user device that is searching and browsing web pages on the internet
WO2015143956A1 (en) Method and apparatus for blocking advertisement in web page
KR101219228B1 (en) System and method for delivering informaiton using image code
CN108366058B (en) Method, device, equipment and storage medium for preventing traffic hijacking of advertisement operator
CN106708496B (en) Processing method and device for label page in graphical interface
US20110142344A1 (en) Browsing system, server, and text extracting method
CN106033450B (en) Advertisement blocking method and device and browser
CN111737692B (en) Application program risk detection method and device, equipment and storage medium
US10169477B2 (en) Method and system for rendering a web page free of inappropriate URLs
US20120079365A1 (en) Image forming control program, method of image forming control and image processing apparatus
EP3232335A1 (en) Method and device for providing authentication information on web page
CN108646988B (en) Document printing method and system
CN107070873B (en) Webpage illegal data screening method and system, data screening server and browser
CN105631312A (en) Method and system for processing rogue programs
JP2008004008A (en) Character content providing method and character content providing system
CN114417226A (en) Page generation method, display method, device, electronic equipment and storage medium
JP5355345B2 (en) Document browsing system and control method thereof
JP5320007B2 (en) Information filter device
CN110334301B (en) Page restoration method and device
US9218083B2 (en) Methods for parsing content of document, handheld electronic apparatus and computer-readable medium thereof
KR101377385B1 (en) Information processing device
US20120072492A1 (en) Browsing information gathering system, browsing information gathering method, server, and recording medium
CN113987472B (en) Webpage browsing security detection method, device and system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111003

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120926

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121009

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121205

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20130131

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130702

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130712

R150 Certificate of patent or registration of utility model

Ref document number: 5320007

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees