JP5082917B2 - Illegal information detection device, illegal information detection method, and illegal information detection program - Google Patents

Illegal information detection device, illegal information detection method, and illegal information detection program Download PDF

Info

Publication number
JP5082917B2
JP5082917B2 JP2008042766A JP2008042766A JP5082917B2 JP 5082917 B2 JP5082917 B2 JP 5082917B2 JP 2008042766 A JP2008042766 A JP 2008042766A JP 2008042766 A JP2008042766 A JP 2008042766A JP 5082917 B2 JP5082917 B2 JP 5082917B2
Authority
JP
Japan
Prior art keywords
search result
information
result information
search
illegal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008042766A
Other languages
Japanese (ja)
Other versions
JP2009199513A (en
Inventor
健 花沢
恭二 平田
正宏 岩垂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2008042766A priority Critical patent/JP5082917B2/en
Publication of JP2009199513A publication Critical patent/JP2009199513A/en
Application granted granted Critical
Publication of JP5082917B2 publication Critical patent/JP5082917B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、違法情報検出装置、違法情報検出方法、及び違法情報検出プログラムに関し、特にネットワーク上に公開された情報について検索条件に基づき検索された検索結果情報の中から違法性の高い情報を検出する違法情報検出装置、違法情報検出方法、及び違法情報検出プログラムに関する。   The present invention relates to an illegal information detection apparatus, an illegal information detection method, and an illegal information detection program, and in particular, detects information with high illegality from search result information searched based on search conditions for information published on a network. The present invention relates to an illegal information detection apparatus, an illegal information detection method, and an illegal information detection program.

近年、インターネット上で検索システム、又は検索サービスを利用して求める情報を得ることは、一般的となっている。さらに、インターネット上に自分が作成したコンテンツ等のデータを自由に掲載(アップロード)し、公開することも一般的になりつつある。   In recent years, it has become common to obtain information to be obtained using a search system or a search service on the Internet. Furthermore, it is becoming common to freely post (upload) and publish data such as content created on the Internet.

このとき、アップロードされるデータによっては著作権やプライバシーの侵害になることがあり、特に、悪意のあるユーザが違法な公開を行うような場合に問題となる。このような違法な公開を防ぐ方法として、テキスト、音声、画像、及び動画等の照合技術を利用し、アップロードされたデータと正規のデータとの照合を行い、一致度が高ければ違法であると検出する方法が考えられる。例えば、非特許文献1に動画照合の技術が記載されている。   At this time, depending on the uploaded data, copyright and privacy may be infringed, which is particularly problematic when a malicious user makes an illegal disclosure. As a method of preventing such illegal disclosure, it is illegal if the uploaded data and the legitimate data are collated using collation technology such as text, sound, image, and video, and the degree of coincidence is high. A method of detection is conceivable. For example, Non-Patent Document 1 describes a moving image matching technique.

また、違法なデータ公開が行われた場合には、侵害されるデータは検索などにより頻繁にアクセスされる可能性が高いことから、アクセスが集中しているデータを検出する技術を用いて違法な公開を検出する方法が考えられる。このようなアクセス集中を検出し防ぐ技術は、例えば特許文献1に記載されている。   In addition, if illegal data disclosure is performed, the infringing data is likely to be accessed frequently by searching, etc., so it is illegal to use technology that detects data with concentrated access. A possible method is to detect disclosure. A technique for detecting and preventing such access concentration is described in Patent Document 1, for example.

また、特許文献2に開示されるコンテンツ利用許諾管理方法は、コンテンツの特徴を抽出し、予め登録されているコンテンツの特徴と比較して著作権侵害の可能性有りと判断された場合、あらかじめ規定された原作コンテンツの利用許諾範囲と比較して利用者に対する利用許諾を管理するものである。   In addition, the content usage permission management method disclosed in Patent Document 2 extracts a feature of the content, and if it is determined that there is a possibility of copyright infringement compared with the feature of the content registered in advance, it is specified in advance. Compared with the use permission range of the original content, the use permission for the user is managed.

また、特許文献3に開示されるマルチメディア情報配信方法は、配布業者によるマルチメディア情報の不正操作を防止して、マルチメディア情報保持者が有する著作権を保護することを目的としたものである。特許文献3では、ネットワークに接続された視聴者端末からの操作により、配布業者に設置されたネットワーク上の配布装置から、用意されたマルチメディアコンテンツに含まれる複数のマルチメディア情報の各ファイル名及びその再生様式を記述してなる編集情報を受信する。一方、マルチメディア情報保持者の管理下にあるネットワーク上のマルチメディア情報保持装置から、先に受信した編集情報に記述されている各ファイル名により特定される複数のマルチメディア情報の本体を直接読み出して受信する。それにより、当該視聴者端末において、そのマルチメディア情報保持装置から受信した複数のマルチメディア情報を、配布装置から受信した編集情報に記述されている再生様式に従って再生する。   In addition, the multimedia information distribution method disclosed in Patent Document 3 is intended to protect the copyright of the multimedia information holder by preventing unauthorized operation of the multimedia information by a distributor. . In Patent Document 3, each file name of a plurality of pieces of multimedia information included in prepared multimedia contents is obtained from a distribution device installed on a distributor by an operation from a viewer terminal connected to the network. Edit information describing the playback format is received. On the other hand, from the multimedia information holding device on the network under the management of the multimedia information holder, the body of a plurality of multimedia information specified by each file name described in the previously received editing information is directly read. Receive. Accordingly, the viewer terminal reproduces the plurality of multimedia information received from the multimedia information holding device according to the reproduction format described in the editing information received from the distribution device.

また、特許文献4に開示される著作物データ交換仲介システムは、ユーザ間の著作物交換時において著作権侵害の発生を抑制することを目的とするものである。特許文献4では、著作物登録サーバに所定のユーザ端末からの著作物データの著作物リストが登録され、著作物登録サーバが当該著作物リストの各著作物について著作権の有無を照会し、著作権のある著作物については、他のユーザ端末からの当該著作物リストへのアクセス時に、当該著作権のある著作物を伏せて公開する。   The copyrighted material exchange mediation system disclosed in Patent Document 4 is intended to suppress the occurrence of copyright infringement when exchanging copyrighted works between users. In Patent Document 4, a work list of work data from a predetermined user terminal is registered in a work registration server, and the work registration server inquires whether or not there is a copyright for each work in the work list. With respect to the copyrighted work, the copyrighted work is made public when it is accessed from another user terminal.

また、特許文献5に開示される時系列データ検索システムは、時系列データの波形的特徴を損なうことなく検索ができるものである。特許文献5では、時系列データからウェーブレット変換と閾値により波形を抽出し、過去のデータと比較し、類似する波形を検出し、今後の波形の予測をする。   In addition, the time-series data search system disclosed in Patent Document 5 can perform a search without impairing the waveform characteristics of the time-series data. In Patent Document 5, a waveform is extracted from time-series data by wavelet transformation and a threshold value, compared with past data, a similar waveform is detected, and a future waveform is predicted.

また、特許文献6に開示される分散型サービス不能攻撃を防ぐネットワークシステムは、アクセス要求中の特徴を抽出し、抽出された特徴値に基づきDDoS(Distributed Denial of Service)攻撃を検知し、攻撃遮断指示を行うことで、DDoS攻撃を高速に検知するものである。   Further, the network system disclosed in Patent Document 6 for preventing a distributed denial-of-service attack extracts features in an access request, detects a DDoS (Distributed Denial of Service) attack based on the extracted feature values, and blocks the attack. By giving an instruction, a DDoS attack is detected at high speed.

また、特許文献7に開示されるコンテンツ情報公開サーバは、ネットワーク上のコンテンツの検索と公開を容易にすることを目的とするものである。特許文献7では、登録されるコンテンツにおける、登録者情報、使用許諾等の属性情報、及び、登録されるコンテンツから抽出される特徴量を記録し、記録された情報に対して検索することで、コンテンツにおける登録者情報、属性情報、及び、特徴量を対応付けた検索、管理をすることができる。
井上昇、佐藤敦、"擬似マハラノビス相互距離法を用いた動画像顔照合"、情報科学技術フォーラム2002、LI-20、p.163-164 特開2002−158660号公報 特開2001−136363号公報 特開2002−099285号公報 特開2002−358374号公報 特開2003−132088号公報 特開2004−318742号公報 特開2005−135146号公報
In addition, the content information disclosure server disclosed in Patent Document 7 is intended to facilitate the search and publication of content on a network. In Patent Document 7, by registering attribute information such as registrant information, usage permission, etc., and feature quantities extracted from the registered content in the registered content, and searching the recorded information, It is possible to search and manage registrant information, attribute information, and feature quantities in content.
Izoe, Satoshi Sato, "Video Face Matching Using Pseudo Mahalanobis Mutual Distance Method", Information Science and Technology Forum 2002, LI-20, p.163-164 JP 2002-158660 A JP 2001-136363 A JP 2002-099285 A JP 2002-358374 A JP 2003-13088 A JP 2004-318742 A JP-A-2005-135146

しかしながら、上述した非特許文献1、特許文献1乃至7では、分散して公開される違法性の高いデータを検出することができないという問題点がある。それは、違法なデータが公開された場合には、次のような特徴があるからである。まず、違法なデータが公開されたサイトへアクセスが集中する傾向がある。それは、違法なデータを求める多くのユーザは、検索エンジンを利用し、違法なデータを見つけ出すために様々な検索条件により検索を行い、検索結果に基づき、当該違法なデータが公開されたサイトへアクセスを行うからである。また、違法なデータは、一箇所に公開されるとは限らない。つまり、複数の悪意のあるユーザにより様々なサイトへ公開される傾向がある。さらに、違法なデータは、公開、削除、そして再公開が繰り返され、その際、少しずつ異なるが類似するデータ内容、又はデータ形式となる可能性がある。そのため、違法なデータを求めるユーザにより検索された検索結果には、様々なサイトで公開された、類似するデータに関する情報が含まれる。   However, the above-mentioned Non-Patent Document 1 and Patent Documents 1 to 7 have a problem in that it is impossible to detect highly illegal data that is distributed and disclosed. This is because when illegal data is disclosed, it has the following characteristics. First, there is a tendency to concentrate access to sites where illegal data is published. Many users seeking illegal data use a search engine to search for illegal data using various search conditions, and based on the search results, access the site where the illegal data is published. It is because it performs. In addition, illegal data is not always disclosed in one place. In other words, there is a tendency to be disclosed to various sites by a plurality of malicious users. Furthermore, illegal data is repeatedly disclosed, deleted, and re-published, and at that time, there is a possibility that the data content or data format is slightly different but similar. Therefore, the search result searched by the user who seeks illegal data includes information related to similar data published on various sites.

ここで、非特許文献1の技術を用いた方法では、不特定多数のユーザにより任意にデータをアップロードされる場合、いつ、どのデータを照合対象とするかの判断が難しい。   Here, in the method using the technique of Non-Patent Document 1, when data is arbitrarily uploaded by an unspecified number of users, it is difficult to determine when and which data is to be collated.

また、特許文献1は、単一のアクセス集中を検出するものであるため、例えば、不特定多数のユーザが、違法性のあるデータ、又はその一部をそれぞれアップロードして公開するような場合、又は、公開したデータが削除され、別のサイトで再公開されるような場合には、アクセスが分散されるために検出の精度が落ちる可能性がある。   In addition, since Patent Document 1 detects a single access concentration, for example, when an unspecified number of users upload and publish illegal data, or a part thereof, respectively, Alternatively, when the published data is deleted and republished at another site, the access may be distributed and the detection accuracy may be reduced.

また、特許文献2は、予め原作コンテンツを登録しておく必要があるが、一旦、取得されたコンテンツを違法にコピーされて公開される場合には、対応できない。また、特許文献3は、視聴者端末側が、配信されるマルチメディア情報の再生様式を記述してなる編集情報に基づいた処理を行う機能を備える必要がある。   Further, Patent Document 2 needs to register the original content in advance, but cannot cope with the case where the acquired content is illegally copied and published once. Further, Patent Document 3 requires that the viewer terminal side has a function of performing processing based on editing information that describes a reproduction format of multimedia information to be distributed.

また、特許文献4は、著作物登録サーバに予め著作物リストを登録しておく必要がある。また、特許文献5は、そもそも違法性の検出を目的としていない。また、特許文献6は、DDoS攻撃を検知するものであり、アクセスされているコンテンツが違法性を有するかを検知することはできない。また、特許文献7は、予めコンテンツを登録しておく必要があり、当該コンテンツが違法に公開されたことを検知することはできない。   In Patent Document 4, it is necessary to register a work list in advance in a work registration server. Patent Document 5 does not aim at detecting illegality in the first place. Patent Document 6 detects a DDoS attack, and cannot detect whether the accessed content is illegal. Further, Patent Document 7 needs to register content in advance, and cannot detect that the content has been illegally disclosed.

本発明は、このような問題点を解決するためになされたものであり、分散して公開される違法性の高いデータを検出することができる違法情報検出装置、違法情報検出方法、及び違法情報検出プログラムを提供することを目的とする。   The present invention has been made to solve such a problem, and an illegal information detection device, an illegal information detection method, and illegal information that can detect highly illegal data that is distributed and disclosed. An object is to provide a detection program.

本発明にかかる違法情報検出装置は、ネットワーク上に公開された情報について検索条件に基づき検索された検索結果情報の中から違法性の高い情報を検出するものである。前記検索結果情報が格納される検索結果情報記憶部と、前記検索結果情報記憶部に格納された検索結果情報から特徴量を抽出し、当該特徴量と前記検索結果情報とを対応付けて特徴量記憶部へ格納する特徴抽出手段と、前記特徴量記憶部に格納された複数の特徴量からそれぞれの前記検索結果情報の間の類似度を計算し、当該類似度に基づき前記検索結果情報の間が類似するか否かを判定する類似度計算手段と、前記類似度計算手段により類似すると判定された検索結果情報の数が所定値を超える場合、当該検索結果情報を違法性の高い情報として検出する違法性検出手段と、を備える。   The illegal information detection apparatus according to the present invention detects highly illegal information from search result information searched based on search conditions for information published on a network. A feature value is extracted from the search result information storage unit in which the search result information is stored, and the search result information stored in the search result information storage unit, and the feature amount and the search result information are associated with each other. A similarity between the search result information is calculated from the feature extraction unit stored in the storage unit and the plurality of feature amounts stored in the feature amount storage unit, and the search result information is calculated based on the similarity. If the number of search result information determined to be similar by the similarity calculation means exceeds a predetermined value, the search result information is detected as highly illegal information. And illegality detecting means.

本発明にかかる違法情報検出方法は、ネットワーク上に公開された情報について検索条件に基づき検索された検索結果情報の中から違法性の高い情報を検出するものである。前記検索結果情報から特徴量を抽出する特徴量抽出ステップと、前記特徴抽出ステップにより抽出された複数の特徴量からそれぞれの前記検索結果情報の間の類似度を計算し、当該類似度に基づき前記検索結果情報の間が類似するか否かを判定する類似度計算ステップと、前記類似度計算ステップにより類似すると判定された検索結果情報の数が所定値を超える場合、当該検索結果情報を違法性の高い情報として検出する違法性検出ステップと、を備える。   The illegal information detection method according to the present invention detects highly illegal information from search result information searched based on search conditions for information published on a network. A feature amount extraction step for extracting a feature amount from the search result information, a similarity between each of the search result information is calculated from a plurality of feature amounts extracted by the feature extraction step, and based on the similarity A similarity calculation step for determining whether or not search result information is similar, and if the number of search result information determined to be similar by the similarity calculation step exceeds a predetermined value, the search result information is illegal An illegality detecting step for detecting as high information.

本発明にかかる違法情報検出プログラムは、ネットワーク上に公開された情報について検索条件に基づき検索された検索結果情報の中から違法性の高い情報を検出する処理をコンピュータに実行させるものである。前記検索結果情報が格納される検索結果情報記憶部と、前記検索結果情報記憶部に格納された検索結果情報から特徴量を抽出し、当該特徴量と前記検索結果情報とを対応付けて特徴量記憶部へ格納する特徴抽出手段と、前記特徴量記憶部に格納された複数の特徴量からそれぞれの前記検索結果情報の間の類似度を計算し、当該類似度に基づき前記検索結果情報の間が類似するか否かを判定する類似度計算手段と、前記類似度計算手段により類似すると判定された検索結果情報の数が所定値を超える場合、当該検索結果情報を違法性の高い情報として検出する違法性検出手段と、を備える。   The illegal information detection program according to the present invention causes a computer to execute a process of detecting information with high illegality from search result information searched based on a search condition for information published on a network. A feature value is extracted from the search result information storage unit in which the search result information is stored, and the search result information stored in the search result information storage unit, and the feature amount and the search result information are associated with each other. A similarity between the search result information is calculated from the feature extraction unit stored in the storage unit and the plurality of feature amounts stored in the feature amount storage unit, and the search result information is calculated based on the similarity. If the number of search result information determined to be similar by the similarity calculation means exceeds a predetermined value, the search result information is detected as highly illegal information. And illegality detecting means.

本発明により、分散して公開される違法性の高いデータを検出することができる違法情報検出装置、違法情報検出方法、及び違法情報検出プログラムを提供することができる。   According to the present invention, it is possible to provide an illegal information detection device, an illegal information detection method, and an illegal information detection program that can detect highly illegal data that is distributed and disclosed.

以下では、本発明を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。各図面において、同一要素には同一の符号が付されており、説明の明確化のため、必要に応じて重複説明は省略する。   Hereinafter, specific embodiments to which the present invention is applied will be described in detail with reference to the drawings. In the drawings, the same elements are denoted by the same reference numerals, and redundant description will be omitted as necessary for the sake of clarity.

図1は、本発明の実施の形態にかかる違法情報検出装置の構成を示すブロック図である。図1の違法情報検出装置1は、ネットワーク上に公開された情報について任意の検索条件に基づき検索された複数の検索結果情報が予め蓄積されており、当該検索結果情報の中から違法性の高い情報を検出するものである。ここで、検索結果情報とは、例えば、インターネット上に公開されたコンテンツを検索する検索エンジンに対して、複数のユーザが異なる検索条件により実行した検索処理における検索結果のコンテンツ、又は当該コンテンツを示すURL(Uniform Resource Locator)などのコンテンツを示す情報である。   FIG. 1 is a block diagram showing a configuration of an illegal information detection apparatus according to an embodiment of the present invention. The illegal information detection apparatus 1 in FIG. 1 stores in advance a plurality of search result information searched based on an arbitrary search condition for information published on the network, and is highly illegal from the search result information. Information is detected. Here, the search result information indicates, for example, a search result content in search processing executed by a plurality of users according to different search conditions for a search engine that searches content published on the Internet, or the content. Information indicating content such as a URL (Uniform Resource Locator).

本発明の違法情報検出装置1は、汎用的なコンピュータシステムであり、図示しない構成として、CPU(Central Processing Unit)、RAM(Random Access Memory)、ROM(Read Only Memory)、及び不揮発性記憶装置を備える。違法情報検出装置1は、CPUがRAM、ROM,又は不揮発性記憶装置に格納されたOS(Operating System)、違法情報検出プログラムを読み込み、違法情報検出処理を実行する。これにより、複数の検索結果情報の中から違法性の高い情報を検出することができる。   The illegal information detection apparatus 1 of the present invention is a general-purpose computer system, and includes a CPU (Central Processing Unit), a RAM (Random Access Memory), a ROM (Read Only Memory), and a non-volatile storage device as not shown. Prepare. In the illegal information detection apparatus 1, the CPU reads an OS (Operating System) and an illegal information detection program stored in a RAM, ROM, or a nonvolatile storage device, and executes illegal information detection processing. Thereby, highly illegal information can be detected from a plurality of search result information.

尚、違法情報検出装置1は、1台のコンピュータシステムである必要はなく、複数台のコンピュータシステムで構成されていてもよい。さらに、情報サービス検索システム100は、負荷分散のため、同機能を有するコンピュータシステムを並列に稼働させてもよい。   The illegal information detection apparatus 1 does not have to be a single computer system, and may be configured by a plurality of computer systems. Furthermore, the information service search system 100 may operate computer systems having the same function in parallel for load distribution.

また、図1に示すように、本発明の違法情報検出装置1は、検索結果情報記憶部11と、特徴抽出手段12と、特徴量記憶部13と、類似度計算手段14と、違法性検出手段15とを備える。   As shown in FIG. 1, the illegal information detection apparatus 1 of the present invention includes a search result information storage unit 11, a feature extraction unit 12, a feature amount storage unit 13, a similarity calculation unit 14, and illegality detection. Means 15.

検索結果情報記憶部11は、上述した検索結果情報を記憶する。また、検索結果情報記憶部11には、違法情報検出装置1により本発明にかかる違法情報検出処理が実行される際に、予め検索結果情報が格納されていればよい。ここで、検索結果情報は、例えば、インターネット上で不特定多数のユーザに公開されたSNS(Social Networking Service)やブログの記載内容であるテキストデータ、閲覧を可能とした画像データ、又は、視聴を可能とした音声データ、若しくは動画データ等である。尚、検索結果情報記憶部11には、少なくとも2以上の検索結果情報が記憶されているものとする。   The search result information storage unit 11 stores the search result information described above. The search result information storage unit 11 may store the search result information in advance when the illegal information detection apparatus 1 executes the illegal information detection process according to the present invention. Here, the search result information is, for example, SNS (Social Networking Service) or text data that is a description content of a blog that is disclosed to an unspecified number of users on the Internet, image data that can be viewed, or viewing / listening. Audio data or video data that can be made available. The search result information storage unit 11 stores at least two pieces of search result information.

特徴抽出手段12は、検索結果情報記憶部11に格納された検索結果情報のそれぞれについて、特徴量を抽出し、当該特徴量と抽出元の検索結果情報とを対応付けて特徴量記憶部13に格納する。ここで、特徴量は、検索結果情報Rに対する特徴量ベクトルF=(r1、r2、…、rn)で表される。特徴量は、例えば、テキストデータであれば文字ベクトル、又は単語ベクトル等、音声データであればケプストラム等、そして、動画データであれば形状情報等であればよい。尚、特徴量ベクトルの表現は、上述したものに限定されない。また、特徴量の抽出に関する技術は、公知技術としてよく知られているものであるから、ここでは詳細な説明を省略する。   The feature extraction unit 12 extracts a feature amount for each of the search result information stored in the search result information storage unit 11 and associates the feature amount with the search result information of the extraction source in the feature amount storage unit 13. Store. Here, the feature amount is represented by a feature amount vector F = (r1, r2,..., Rn) for the search result information R. The feature amount may be, for example, a character vector or a word vector for text data, a cepstrum for speech data, and shape information for moving image data. Note that the expression of the feature vector is not limited to that described above. Further, since the technique related to feature quantity extraction is well known as a known technique, detailed description thereof is omitted here.

ここで、特徴抽出手段12は、検索結果情報記憶部11に格納された全ての検索結果情報に対して、特徴量を抽出する必要はない。その場合、特徴抽出手段12は、検索結果情報記憶部11に格納された検索結果情報の内、任意に定められた所定の条件を満たすもの、例えば、一定時間内の検索結果情報や、あるグループに属する複数のユーザにより検索された検索結果情報などを対象としてもよい。   Here, the feature extraction unit 12 does not need to extract feature amounts for all the search result information stored in the search result information storage unit 11. In this case, the feature extraction unit 12 satisfies a predetermined condition that is arbitrarily determined among the search result information stored in the search result information storage unit 11, for example, search result information within a certain time, a certain group The search result information searched by a plurality of users belonging to may be targeted.

特徴量記憶部13は、特徴抽出手段12により検索結果情報から抽出された特徴量を記憶する。   The feature amount storage unit 13 stores the feature amount extracted from the search result information by the feature extraction unit 12.

類似度計算手段14は、特徴量記憶部13に格納された複数の特徴量に対し、類似度計算を行い、当該類似度に基づき複数の検索結果情報の間が類似するか否かを判定する。例えば、類似度計算手段14は、特徴量ベクトル間の距離を求めることで、類似度を求めることができる。その場合、ベクトルXとベクトルYとの類似度をD(X,Y)と表現する。尚、類似度計算手段14による類似度計算は、特徴量ベクトル間の距離に限定されない。また、特徴量から類似度を算出する技術は、公知技術としてよく知られているものであるから、ここでは詳細な説明を省略する。   The similarity calculation means 14 performs similarity calculation on a plurality of feature amounts stored in the feature amount storage unit 13, and determines whether or not the plurality of search result information are similar based on the similarity. . For example, the similarity calculation unit 14 can obtain the similarity by obtaining the distance between the feature amount vectors. In that case, the similarity between the vector X and the vector Y is expressed as D (X, Y). The similarity calculation by the similarity calculation unit 14 is not limited to the distance between feature quantity vectors. Further, since the technique for calculating the similarity from the feature amount is well known as a known technique, detailed description thereof is omitted here.

違法性検出手段15は、類似度計算手段14により類似すると判定された検索結果情報の種類数を集計し、集計された検索結果情報の種類数が所定値を超える場合、当該検索結果情報を違法性の高い情報として検出する。   The illegality detection unit 15 aggregates the number of types of search result information determined to be similar by the similarity calculation unit 14, and if the number of types of the collected search result information exceeds a predetermined value, the search result information is illegal. Detect as highly specific information.

尚、違法情報検出装置1は、検索結果情報記憶部11に検索結果情報の入力を受け付けられればよく、ネットワーク、例えば、インターネット等に接続されていればよい。又は、違法情報検出装置1は、ネットワークに接続されていなくとも、ネットワーク上で取得された検索結果情報を、別途、検索結果情報記憶部11に格納するようにしてもよい。   The illegal information detection device 1 only needs to accept input of search result information in the search result information storage unit 11 and may be connected to a network such as the Internet. Alternatively, the illegal information detection device 1 may separately store the search result information acquired on the network in the search result information storage unit 11 even if it is not connected to the network.

尚、検索結果情報記憶部11、及び特徴量記憶部13は、ハードディスクドライブ、光磁気ディスクドライブ、フラッシュメモリ等の不揮発性の記憶装置でもよいし、DRAM(Dynamic Random Access Memory)等の揮発性の記憶装置であってもよい。また、検索結果情報記憶部11、及び特徴量記憶部13は、違法情報検出装置1に外付けされる記憶装置であってもよい。   The search result information storage unit 11 and the feature amount storage unit 13 may be a non-volatile storage device such as a hard disk drive, a magneto-optical disk drive, or a flash memory, or a volatile memory such as a DRAM (Dynamic Random Access Memory). It may be a storage device. Further, the search result information storage unit 11 and the feature amount storage unit 13 may be storage devices externally attached to the illegal information detection device 1.

次に、本発明の実施の形態にかかる違法情報検出処理を図2に示すフローチャート図により説明する。まず、違法情報検出装置1は、検索結果情報から特徴量を抽出する(S11)。具体的には、違法情報検出装置1の特徴抽出手段12は、検索結果情報記憶部11に格納された検索結果情報を読み出し、1件の検索情報に対して1件の特徴量を抽出する。その後、抽出された特徴量と抽出元の検索結果情報とを対応付けて特徴量記憶部13に格納する。例えば、検索結果情報R1に対して、特徴量ベクトルF1=(r11、r12、…、r1n)を抽出し、検索結果情報R1と特徴量ベクトルF1とを対応付けて、すなわち、特徴量ベクトルF1から検索結果情報R1が特定できるようにして、特徴量記憶部13に格納する。   Next, illegal information detection processing according to the embodiment of the present invention will be described with reference to the flowchart shown in FIG. First, the illegal information detection apparatus 1 extracts a feature amount from the search result information (S11). Specifically, the feature extraction unit 12 of the illegal information detection apparatus 1 reads the search result information stored in the search result information storage unit 11 and extracts one feature amount for one search information. Thereafter, the extracted feature quantity and the search result information of the extraction source are stored in the feature quantity storage unit 13 in association with each other. For example, the feature vector F1 = (r11, r12,..., R1n) is extracted from the search result information R1, and the search result information R1 and the feature vector F1 are associated with each other, that is, from the feature vector F1. The search result information R1 is stored in the feature amount storage unit 13 so as to be specified.

次に、違法情報検出装置1は、複数の特徴量について、各検索結果情報の間の類似度を計算する(S12)。具体的には、違法情報検出装置1の類似度計算手段14は、特徴量記憶部13に格納された特徴量を取得し、各特徴量の全ての組み合わせについて、類似度の計算を行う。そして、類似度計算手段14は、計算された類似度が予め定めた閾値以下である場合、当該組み合わせの特徴量に対応する検索結果情報を類似すると判定する。   Next, the illegal information detection apparatus 1 calculates the similarity between the search result information for a plurality of feature amounts (S12). Specifically, the similarity calculation unit 14 of the illegal information detection apparatus 1 acquires the feature amount stored in the feature amount storage unit 13 and calculates the similarity for all combinations of the feature amounts. And the similarity calculation means 14 determines with the search result information corresponding to the feature-value of the said combination being similar, when the calculated similarity is below a predetermined threshold value.

例えば、類似度計算手段14は、検索結果情報R1から抽出された特徴量F1、及び検索結果情報R2から抽出された特徴量F2における類似度D(F1、F2)が閾値Dthreに対して、(1)式を満たすか否かにより類似するか否かを判定する。
D(F1、F2) < Dthre ・・・(1)
そして、類似度D(F1、F2)が(1)式を満たす場合、類似度計算手段14は、特徴量記憶部13を参照し、F1、及びF2に対応するR1、及びR2を類似する検索結果情報として判定する。
For example, the similarity calculation unit 14 determines that the similarity D (F1, F2) in the feature amount F1 extracted from the search result information R1 and the feature amount F2 extracted from the search result information R2 is ( 1) It is determined whether or not they are similar depending on whether or not the expression is satisfied.
D (F1, F2) <Dthre (1)
When the similarity D (F1, F2) satisfies the expression (1), the similarity calculation unit 14 refers to the feature amount storage unit 13 and searches for similarity between R1 and R2 corresponding to F1 and F2. It is determined as result information.

その後、違法情報検出装置1は、計算された各類似度の内、類似度の閾値以下である検索結果情報の種類数を集計する(S13)。具体的には、違法情報検出装置1の違法性検出手段15は、類似度計算手段14により類似すると判定された全ての検索結果情報の種類数を集計する。その際、重複する検索結果情報は、集計する種類数から除外する。例えば、検索結果情報R1、及びR2が類似すると判定された場合、検索結果情報の種類数は、「2」となる。さらに、検索結果情報R2、及びR3が類似すると判定された場合、すでに検索結果情報R2は集計済みであるため、種類数から除外され、検索結果情報の種類数は、「3」となる。   Thereafter, the illegal information detection apparatus 1 counts the number of types of search result information that is equal to or less than the threshold value of the similarity among the calculated similarities (S13). Specifically, the illegality detection unit 15 of the illegal information detection device 1 totals the number of types of all the search result information determined to be similar by the similarity calculation unit 14. At that time, duplicate search result information is excluded from the number of types to be tabulated. For example, when it is determined that the search result information R1 and R2 are similar, the number of types of the search result information is “2”. Further, if it is determined that the search result information R2 and R3 are similar, the search result information R2 has already been tabulated, and thus is excluded from the number of types, and the number of types of the search result information is “3”.

そして、違法情報検出装置1は、集計された検索結果情報の種類数が所定値以上であるか否かを判定する(S14)。具体的には、違法情報検出装置1の違法性検出手段15は、ステップS13により集計された検索結果情報の種類数が所定値、例えば、「3」以上であるか否かを判定する。ここで、所定値以上であれば、ステップS15へ進み、所定値未満であれば、当該違法情報検出処理を終了する。   Then, the illegal information detection apparatus 1 determines whether or not the total number of types of search result information is equal to or greater than a predetermined value (S14). Specifically, the illegality detection unit 15 of the illegal information detection device 1 determines whether or not the number of types of search result information collected in step S13 is a predetermined value, for example, “3” or more. If the value is equal to or greater than the predetermined value, the process proceeds to step S15. If the value is less than the predetermined value, the illegal information detection process is terminated.

その後、ステップS14にて、検索結果情報の種類数が所定値以上であると判定された場合、違法情報検出装置1は、該当する検索結果情報を違法性の高い情報として検出する(S15)。具体的には、例えば、違法情報検出装置1の違法性検出手段15は、違法性の高い情報ありである旨のアラームとして検出し、ステップS12にて類似度の閾値以下であると判定された検索結果情報のリストを出力する。   Thereafter, when it is determined in step S14 that the number of types of search result information is greater than or equal to a predetermined value, the illegal information detection device 1 detects the corresponding search result information as highly illegal information (S15). Specifically, for example, the illegality detection unit 15 of the illegal information detection device 1 detects an alarm indicating that there is information with high illegality, and is determined to be equal to or less than the similarity threshold in step S12. Outputs a list of search result information.

尚、ステップS14にて、検索結果情報の種類数が所定値未満であると判定された場合、違法性検出手段15は、違法性の高い情報なしである旨の情報を出力してもよい。   When it is determined in step S14 that the number of types of search result information is less than a predetermined value, the illegality detection unit 15 may output information indicating that there is no information with high illegality.

このように、本発明にかかる違法情報検出装置1は、当該違法情報検出処理の対象となった検索結果情報記憶部11に格納済みの検索結果情報の中から、特徴量における類似性が高い検索結果情報の種類数が所定値以上であるかを判定する。   As described above, the illegal information detection apparatus 1 according to the present invention performs a search with a high similarity in feature amount from the search result information stored in the search result information storage unit 11 that is the target of the illegal information detection process. It is determined whether the number of types of result information is a predetermined value or more.

単に、同一の検索結果情報が多い場合は、公式なコンテンツに対してアクセスが集中している可能性があるため、違法性が高いとは判断できない。しかし、同一に限らず、類似している検索結果情報の種類数が多いということは、当該検索結果情報の中に、オリジナルでないコンテンツが多数あることを意味する。また、違法なデータが様々なサイトへ公開されている可能性が高く、データの公開を制限する緊急性が高い情報であると言える。   Simply, when there are many pieces of the same search result information, there is a possibility that accesses are concentrated on the official content, so it cannot be determined that the illegality is high. However, the fact that there are many types of similar search result information, not limited to the same, means that there are many non-original contents in the search result information. Moreover, there is a high possibility that illegal data is disclosed to various sites, and it can be said that the information is highly urgent to restrict the disclosure of data.

そのため、このような場合を違法性が高い状態としてアラームを検出することで、例えば、サイトの管理者が類似している検索結果情報を確認し、違法性を判定することを支援することができる。または、当該検索結果情報に該当するサイトの公開者へ違法性の確認や警告を通知することを支援できる。   Therefore, by detecting an alarm in such a case where the illegality is high, for example, it is possible to assist a site administrator to confirm similar search result information and determine illegality. . Alternatively, it is possible to support the notification of illegality or notification of warning to the publisher of the site corresponding to the search result information.

また、本発明にかかる違法情報検出装置1では、予め、違法性を判定するコンテンツを登録しておく必要がない。現時点ですでに著作権やプライバシーを保護すべきコンテンツは、無数にあり、保護すべきコンテンツを予測し、これらを保護するために、予め何らかの保護機構、例えば、上述した特許文献2、特許文献4、又は特許文献7に登録しておくことは、困難である。   Moreover, in the illegal information detection apparatus 1 according to the present invention, it is not necessary to register contents for determining illegality in advance. There are innumerable contents that should be protected for copyright and privacy at the present time, and in order to predict the contents to be protected and to protect them, some protection mechanism, for example, Patent Document 2 and Patent Document 4 described above are used in advance. Or it is difficult to register in Patent Document 7.

以上のことから、ネットワーク上に分散して公開される情報から様々な検索条件により検索された検索結果情報を用いることにより、複数のユーザの様々な観点による検索結果情報を対象とすることができ、その中にある同一なデータ、又は、類似しているデータを見つけ出し、類似しているデータの種類の数が多いほど、原データからコピーされた違法なデータである可能性が高いとして検出することができる。そのため、本発明により分散して公開される著作権やプライバシーを侵害するような違法性の高いデータを検出することができる。   From the above, it is possible to target search result information from various viewpoints of multiple users by using search result information searched according to various search conditions from information distributed and published on the network. , Find the same or similar data in it, and detect that the more similar data types, the more likely it is illegal data copied from the original data be able to. Therefore, it is possible to detect highly illegal data that infringes copyrights and privacy that are distributed and disclosed by the present invention.

<実施例1>
本実施の形態にかかる違法情報検出装置の実施例1として、以下に検索サーバの例を説明する。図3は、本発明の実施例1にかかる違法情報検出システムの全体構成を示すブロック図である。図3に示す違法情報検出システムは、検索サーバ100と、クライアント400とを備える。検索サーバ100と、クライアント400とは、インターネット等のネットワークに接続されている。
<Example 1>
An example of a search server will be described below as Example 1 of the illegal information detection apparatus according to the present embodiment. FIG. 3 is a block diagram illustrating the entire configuration of the illegal information detection system according to the first embodiment of the present invention. The illegal information detection system shown in FIG. 3 includes a search server 100 and a client 400. The search server 100 and the client 400 are connected to a network such as the Internet.

検索サーバ100は、ネットワーク上に公開されたコンテンツを収集し、収集したコンテンツに対して検索サービスを当該ネットワークに接続されたクライアント400等に提供するものである。また、検索サーバ100は、検索要求に応じて、検索処理と共に、違法情報検出処理を行うものである。当該違法情報検出処理において、違法情報である可能性が検出された場合、検索結果に対して、検出された結果を反映する。例えば、検索結果に違法情報である旨を付加する、又は、違法情報として検出された検索結果を除くなどである。   The search server 100 collects content published on the network and provides a search service for the collected content to the client 400 and the like connected to the network. The search server 100 performs illegal information detection processing together with search processing in response to a search request. In the illegal information detection process, when the possibility of illegal information is detected, the detected result is reflected in the search result. For example, the fact that it is illegal information is added to the search result, or the search result detected as illegal information is excluded.

検索サーバ100は、インターネット等のネットワークに接続された汎用的なコンピュータシステムであり、図示しない構成として、CPU、RAM、ROM、及び不揮発性記憶装置を備える。検索サーバ100は、CPUがRAM、ROM,又は不揮発性記憶装置に格納されたOS、Webサーバプログラム、検索プログラム、及び、違法情報検出プログラムを読み込み、実行する。また、図3に示すように、検索サーバ100は、違法情報検出部1aと、検索エンジン部2と、検索対象データベース3とを備える。   The search server 100 is a general-purpose computer system connected to a network such as the Internet, and includes a CPU, a RAM, a ROM, and a nonvolatile storage device as components not shown. In the search server 100, the CPU reads and executes the OS, the Web server program, the search program, and the illegal information detection program stored in the RAM, ROM, or nonvolatile storage device. As shown in FIG. 3, the search server 100 includes an illegal information detection unit 1 a, a search engine unit 2, and a search target database 3.

検索エンジン部2は、検索処理を行うものであり、入力受付手段21と、検索手段22と、出力手段23とを備える。   The search engine unit 2 performs search processing, and includes an input receiving unit 21, a search unit 22, and an output unit 23.

入力受付手段21は、クライアント400等からの検索条件が含む検索要求の入力を受け付ける。そして、入力受付手段21は、検索手段22へ当該検索条件を通知する。   The input receiving unit 21 receives an input of a search request included in a search condition from the client 400 or the like. Then, the input receiving unit 21 notifies the search unit 22 of the search condition.

検索手段22は、入力受付手段21から通知された検索条件に基づき、検索対象データベース3へ検索処理を実行する。また、検索手段22は、検索対象データベース3からの検索結果を取得し、出力手段23へ通知する。   The search unit 22 executes a search process on the search target database 3 based on the search condition notified from the input receiving unit 21. In addition, the search unit 22 acquires a search result from the search target database 3 and notifies the output unit 23 of the result.

出力手段23は、検索手段22から通知された検索結果と、違法性検出手段15から通知された検出結果とから、検索結果を生成し、当該検索処理の要求元へ出力する。   The output unit 23 generates a search result from the search result notified from the search unit 22 and the detection result notified from the illegality detection unit 15, and outputs the search result to the request source of the search process.

尚、検索エンジンに関する技術は、公知技術としてよく知られているものであるから、ここでは詳細な説明を省略する。   Since the technology related to the search engine is well known as a publicly known technology, a detailed description is omitted here.

検索対象データベース3は、検索手段22による検索処理の検索対象となるデータ、すなわち、当該ネットワーク上に公開されたコンテンツ等が格納されたデータベースである。   The search target database 3 is a database in which data to be searched for search processing by the search means 22, that is, contents published on the network are stored.

尚、検索サーバ100には、図示しない構成として、ネットワーク上を巡回して、検索対象となるコンテンツを収集し、検索対象データベース3へ格納する手段を有するものとする。または、検索サーバ100は、別途、収集された検索対象データの入力を受け付け、検索対象データベース3へ格納するものであってもよい。   Note that the search server 100 includes a unit that travels on the network, collects content to be searched, and stores it in the search target database 3 as a configuration (not shown). Alternatively, the search server 100 may separately receive input of collected search target data and store it in the search target database 3.

違法情報検出部1aは、図1の違法情報検出装置1に対応するものであり、違法情報検出装置1の機能に加え、検索結果情報格納手段16をさらに備えたものである。そのため、以下では、図1との違いを中心に説明し、図1と対応し同様の機能を有する構成については、説明を省略する。   The illegal information detection unit 1 a corresponds to the illegal information detection device 1 of FIG. 1, and further includes a search result information storage unit 16 in addition to the function of the illegal information detection device 1. Therefore, in the following, the difference from FIG. 1 will be mainly described, and the description of the configuration corresponding to FIG. 1 and having the same function will be omitted.

検索結果情報格納手段16は、検索手段22により取得された検索結果を取得し、検索結果情報記憶部11に格納するものである。   The search result information storage unit 16 acquires the search result acquired by the search unit 22 and stores it in the search result information storage unit 11.

また、違法性検出手段15は、違法情報検出部1aにおける違法情報検出処理の結果を出力手段23へ通知する。   Further, the illegality detection unit 15 notifies the output unit 23 of the result of the illegal information detection process in the illegal information detection unit 1a.

尚、検索サーバ100においては、違法情報検出部1aと、検索エンジン部2と、検索対象データベース3とは、1台のコンピュータシステム内に存在する必要はなく、複数台のコンピュータシステムで構成されていてもよい。さらに、検索サーバ100は、負荷分散のため、同機能を有するコンピュータシステムを並列に稼働させてもよい。   In the search server 100, the illegal information detection unit 1a, the search engine unit 2, and the search target database 3 do not need to exist in one computer system, and are configured by a plurality of computer systems. May be. Further, the search server 100 may operate computer systems having the same function in parallel for load distribution.

クライアント400は、インターネット等のネットワークに接続された汎用的なコンピュータシステムであり、図示しない構成として、CPU、RAM、ROM、及び不揮発性記憶装置を備える。クライアント400は、CPUがRAM、ROM,又は不揮発性記憶装置に格納されたOS、及び、Webクライアントプログラムを読み込み、実行する。これにより、クライアント400は、検索サーバ100に対して、検索条件を含む検索要求を送信し、当該検索要求の応答である検索結果等を受信することができる。   The client 400 is a general-purpose computer system connected to a network such as the Internet, and includes a CPU, a RAM, a ROM, and a nonvolatile storage device as components not shown. In the client 400, the CPU reads and executes the OS and the Web client program stored in the RAM, ROM, or nonvolatile storage device. Thereby, the client 400 can transmit a search request including a search condition to the search server 100 and receive a search result that is a response to the search request.

次に、本発明の実施例1にかかる違法公開検出処理の全体の流れを図4に示すシーケンス図により説明する。まず、クライアント400は、検索サーバ100へ検索条件の入力を行う(S101)。具体的には、クライアント400は、検索サーバ100の検索エンジン部2に対して、検索条件を含む検索要求を送信する。   Next, the overall flow of the illegal disclosure detection process according to the first embodiment of the present invention will be described with reference to the sequence diagram shown in FIG. First, the client 400 inputs search conditions to the search server 100 (S101). Specifically, the client 400 transmits a search request including a search condition to the search engine unit 2 of the search server 100.

次に、検索サーバ100は、検索条件に基づき、検索処理を行う(S102)。具体的には、検索サーバ100の入力受付手段21は、クライアント400からの検索要求を受信し、当該検索要求に含まれる検索条件を抽出し、検索手段22へ通知する。そして、検索手段22は、入力受付手段21から通知された検索条件を検索対象データベース3へ入力し、検索処理を実行する。   Next, the search server 100 performs a search process based on the search condition (S102). Specifically, the input receiving unit 21 of the search server 100 receives a search request from the client 400, extracts a search condition included in the search request, and notifies the search unit 22 of the search condition. And the search means 22 inputs the search condition notified from the input reception means 21 to the search object database 3, and performs a search process.

そして、検索サーバ100は、検索結果を取得する(S103)。具体的には、検索サーバ100の検索手段22は、検索対象データベース3からの検索結果を取得し、出力手段23へ通知する。   Then, the search server 100 acquires a search result (S103). Specifically, the search unit 22 of the search server 100 acquires a search result from the search target database 3 and notifies the output unit 23 of the search result.

このとき、検索サーバ100は、検索結果を格納する(S104)。具体的には、検索サーバ100の検索結果情報格納手段16は、検索手段22から出力手段23へ通知される検索結果を取得し、検索結果情報記憶部11に格納する。   At this time, the search server 100 stores the search result (S104). Specifically, the search result information storage unit 16 of the search server 100 acquires the search result notified from the search unit 22 to the output unit 23 and stores it in the search result information storage unit 11.

その後、検索サーバ100は、違法情報検出処理を実行する(S105)。具体的には、検索サーバ100の特徴抽出手段12、類似度計算手段14、及び違法性検出手段15により、図2に示すような違法情報検出処理が行われる。   Thereafter, the search server 100 executes illegal information detection processing (S105). Specifically, illegal information detection processing as shown in FIG. 2 is performed by the feature extraction unit 12, similarity calculation unit 14, and illegality detection unit 15 of the search server 100.

そして、検索サーバ100は、違法情報検出処理の検出結果を取得する(S106)。具体的には、検索サーバ100の違法性検出手段15は、当該違法情報検出処理の検出結果を出力手段23へ通知する。例えば、当該違法情報検出処理により、アラームが検出された場合、違法性検出手段15は、該当する検索結果情報のリストをアラームと共に、出力手段23へ通知する。また、当該違法情報検出処理により、アラームが検出されない場合、違法性検出手段15は、違法性の高い情報なしである旨の情報を出力手段23へ通知する。   Then, the search server 100 acquires the detection result of the illegal information detection process (S106). Specifically, the illegality detection unit 15 of the search server 100 notifies the output unit 23 of the detection result of the illegal information detection process. For example, when an alarm is detected by the illegal information detection process, the illegality detection unit 15 notifies the output unit 23 of a list of corresponding search result information together with the alarm. If no alarm is detected by the illegal information detection process, the illegality detection unit 15 notifies the output unit 23 of information indicating that there is no information with high illegality.

その後、検索サーバ100は、クライアント400へ検索結果、及び検出結果を出力する(S107)。具体的には、検索サーバ100の出力手段23は、検索手段22から通知された検索結果と、違法性検出手段15から通知された検出結果とを取得する。そして、当該検出結果がアラームを含む場合、検索結果に違法情報である旨を付加するように検索結果を修正して、クライアント400へ返信する。例えば、出力手段23は、当該検出結果に含まれる検索結果情報に対応する検索結果に、違法情報であることを示すフラグを付加する。または、出力手段23は、当該検出結果に含まれる検索結果情報に対応する検索結果を除外した検索結果を生成する。その後、出力手段23は、生成した検索結果を、当該検索処理の要求元であるクライアント400へ送信する。   Thereafter, the search server 100 outputs the search result and the detection result to the client 400 (S107). Specifically, the output unit 23 of the search server 100 acquires the search result notified from the search unit 22 and the detection result notified from the illegality detection unit 15. If the detection result includes an alarm, the search result is corrected so as to add illegal information to the search result, and the result is returned to the client 400. For example, the output unit 23 adds a flag indicating illegal information to the search result corresponding to the search result information included in the detection result. Alternatively, the output unit 23 generates a search result excluding the search result corresponding to the search result information included in the detection result. Thereafter, the output unit 23 transmits the generated search result to the client 400 that is a request source of the search process.

このように、本発明の実施例1では、検索処理の都度、違法情報検出処理を行われるため、違法情報が広がり始めた段階で検出し、クライアント400へ通知することができる。又は、検索結果から除外することで、違法性の高い情報にフィルタをかけて、違法性の高い情報の流出を未然に防ぐことができる。   As described above, in the first embodiment of the present invention, the illegal information detection process is performed every time the search process is performed. Therefore, the illegal information can be detected and notified to the client 400 when the illegal information starts to spread. Alternatively, by excluding from the search result, it is possible to filter out information with high illegality and prevent outflow of information with high illegality.

また、本発明では、単純にあるデータ(検索結果)の検索回数をカウントするだけでなく、同じデータを異なるユーザが公開しているような場合でも、それらの種類数をカウントすることで、例えば、複数のユーザが類似した情報を別々にアップロードし、公開する状況や、著作権違反を指摘されて当該データを一旦削除した後、同一、又は別のユーザが再度公開するような状況にも対応できる。   In addition, in the present invention, not only simply counting the number of searches of certain data (search results), but also when different users are publishing the same data, by counting the number of types, for example, , Also supports situations where multiple users upload similar information separately and disclose them, or situations where the same or another user republishes after deleting the data once the copyright violation has been pointed out it can.

<実施例2>
続いて、本実施の形態にかかる違法情報検出装置の実施例2として、以下に検索サーバの例を説明する。本発明の実施例2では、実施例1に比べ、検索条件をさらに用いて違法情報の検出を行い、検出の精度を高めるものである。
<Example 2>
Subsequently, an example of a search server will be described below as Example 2 of the illegal information detection apparatus according to the present embodiment. In the second embodiment of the present invention, compared to the first embodiment, illegal information is detected by further using a search condition, and the detection accuracy is improved.

ここで、検索条件とは、任意の文字列データであり、一つの検索条件には、複数の単語が含まれるものとする。例えば、ある人物Aの個人的な情報、例えば、経歴や個人的な交際関係の情報が本人の知らないところで(許可無く)インターネット上に公開された場合を考える。すなわち、人物Aの個人情報を含む例えばテキスト文書が別の人物によってアップロードされたとする。このとき、人物Aの個人情報に何らかの話題性、例えば、犯罪歴や有名人との交際履歴などがあれば、当該文書は様々な別文書に引用され、また高頻度で検索されることが考えられる。その場合、検索条件は、例えば、検索システムに対して行われる検索要求に含まれるクエリD「A氏、過去、交際」、クエリE「過去、破局、俳優B」、クエリF「交際、俳優B、2000年」などである。   Here, the search condition is arbitrary character string data, and one search condition includes a plurality of words. For example, let us consider a case where personal information of a person A, for example, personal history and personal relationship information, is disclosed on the Internet without permission (without permission). In other words, for example, a text document including personal information of the person A is uploaded by another person. At this time, if there is some topicality in the personal information of the person A, for example, a criminal record or a dating history with a celebrity, the document may be cited in various other documents and searched frequently. . In this case, the search conditions include, for example, query D “Mr. A, past, dating”, query E “past, catastrophe, actor B”, query F “dating, actor B” included in the search request made to the search system. , 2000 ".

図5は、本発明の実施例2にかかる違法公開検出システムの全体構成を示すブロック図である。図5に示す違法情報検出システムは、検索サーバ101と、クライアント400とを備える。検索サーバ101と、クライアント400とは、インターネット等のネットワークに接続されている。ここで、クライアント400と、検索サーバ101における検索エンジン部2、及び検索対象データベース3とは、図3と同様のため、説明を省略する。以下では、図3との違いについてのみ説明する。   FIG. 5 is a block diagram illustrating the entire configuration of the illegal disclosure detection system according to the second embodiment of the present invention. The illegal information detection system shown in FIG. 5 includes a search server 101 and a client 400. The search server 101 and the client 400 are connected to a network such as the Internet. Here, the client 400, the search engine unit 2 and the search target database 3 in the search server 101 are the same as those in FIG. Only the differences from FIG. 3 will be described below.

検索サーバ101は、図3の違法情報検出部1aが違法情報検出部1bに置き換わったものである。違法情報検出部1bは、違法情報検出部1aと比べ、検索条件格納手段17と、検索条件記憶部18とがさらに追加され、特徴抽出手段12が特徴抽出手段12aに置き換わったものである。   The search server 101 is obtained by replacing the illegal information detection unit 1a in FIG. 3 with an illegal information detection unit 1b. Compared to the illegal information detection unit 1a, the illegal information detection unit 1b includes a search condition storage unit 17 and a search condition storage unit 18, and the feature extraction unit 12 is replaced with the feature extraction unit 12a.

検索条件格納手段17は、入力受付手段21により受け付けられた検索条件を取得し、検索条件記憶部18に格納するものである。   The search condition storage unit 17 acquires the search condition received by the input reception unit 21 and stores it in the search condition storage unit 18.

検索条件記憶部18は、上述した検索条件を記憶する。尚、検索条件記憶部18は、ハードディスクドライブ、光磁気ディスクドライブ、フラッシュメモリ等の不揮発性の記憶装置でもよいし、DRAM(Dynamic Random Access Memory)等の揮発性の記憶装置であってもよい。また、検索条件記憶部18は、違法情報検出装置1に外付けされる記憶装置であってもよい。   The search condition storage unit 18 stores the search conditions described above. The search condition storage unit 18 may be a nonvolatile storage device such as a hard disk drive, a magneto-optical disk drive, or a flash memory, or may be a volatile storage device such as a DRAM (Dynamic Random Access Memory). Further, the search condition storage unit 18 may be a storage device externally attached to the illegal information detection device 1.

特徴抽出手段12aは、検索条件記憶部18に格納された検索条件と、当該検索条件に対応する検索結果情報記憶部11に格納された検索結果情報との組から特徴量を抽出し、当該特徴量と抽出元の検索結果情報とを対応付けて特徴量記憶部13に格納する。ここで、特徴量は、検索条件C、及び検索結果情報Rに対する特徴量ベクトルF=(c1、c2、…、cm、r1、r2、…、rn)で表される。尚、特徴量ベクトルの表現は、上述したものに限定されない。   The feature extraction unit 12a extracts a feature amount from a set of the search condition stored in the search condition storage unit 18 and the search result information stored in the search result information storage unit 11 corresponding to the search condition, and the feature The amount and the search result information of the extraction source are stored in the feature amount storage unit 13 in association with each other. Here, the feature quantity is represented by the search condition C and the feature quantity vector F = (c1, c2,..., Cm, r1, r2,..., Rn) for the search result information R. Note that the expression of the feature vector is not limited to that described above.

図6は、本発明の実施例2にかかる違法公開検出処理の全体の流れを示すシーケンス図である。以下では、図4との違いを中心に説明し、図4と同様の処理については、詳細な説明を省略する。   FIG. 6 is a sequence diagram illustrating the entire flow of the illegal disclosure detection process according to the second embodiment of the present invention. Hereinafter, the difference from FIG. 4 will be mainly described, and detailed description of the same processing as in FIG. 4 will be omitted.

まず、クライアント400は、ステップS101と同様に、検索サーバ100へ検索条件の入力を行う(S201)。次に、検索サーバ100は、ステップS102と同様に、検索条件に基づき、検索処理を行う(S202)。   First, the client 400 inputs search conditions to the search server 100 as in step S101 (S201). Next, similarly to step S102, the search server 100 performs a search process based on the search condition (S202).

ここで、検索サーバ100は、検索条件を格納する(S203)。具体的には、検索サーバ100の検索条件格納手段17は、入力受付手段21から検索手段22へ通知される検索条件を取得し、検索条件記憶部18に格納する。   Here, the search server 100 stores the search conditions (S203). Specifically, the search condition storage unit 17 of the search server 100 acquires the search condition notified from the input receiving unit 21 to the search unit 22 and stores it in the search condition storage unit 18.

そして、検索サーバ100は、ステップS103と同様に、検索結果を取得する(S204)。続いて、検索サーバ100は、ステップS104と同様に、検索結果を格納する(S205)。   And the search server 100 acquires a search result similarly to step S103 (S204). Subsequently, the search server 100 stores the search result as in step S104 (S205).

尚、ステップS203は、ステップS202で入力受付手段21により検索要求に含まれる検索条件を抽出された後であれば、検索手段22による検索処理の実行前に行われても構わない。または、ステップS203は、ステップS205の後に実行されても構わない。つまり、ステップS203は、後述するステップS206の違法情報検出処理の前に実行されていればよい。   Note that step S203 may be performed before execution of the search process by the search unit 22 as long as the search condition included in the search request is extracted by the input receiving unit 21 in step S202. Alternatively, step S203 may be executed after step S205. That is, step S203 should just be performed before the illegal information detection process of step S206 mentioned later.

その後、検索サーバ100は、違法情報検出処理を実行する(S206)。具体的には、検索サーバ100の特徴抽出手段12a、類似度計算手段14、及び違法性検出手段15により、違法情報検出処理が行われる。ここでは、図2のステップS11との違いとして、特徴抽出手段12aは、検索条件記憶部18から検索条件、及び、検索結果情報記憶部11から当該検索条件に対応する検索結果情報の組から特徴量を抽出する。以後、ステップS12乃至S15は、図2と同様の処理となる。   Thereafter, the search server 100 executes illegal information detection processing (S206). Specifically, illegal information detection processing is performed by the feature extraction unit 12a, the similarity calculation unit 14, and the illegality detection unit 15 of the search server 100. Here, as a difference from step S11 in FIG. 2, the feature extraction unit 12a is characterized by a search condition from the search condition storage unit 18 and a set of search result information corresponding to the search condition from the search result information storage unit 11. Extract the amount. Thereafter, steps S12 to S15 are the same processing as in FIG.

そして、検索サーバ100は、ステップS106と同様に、違法情報検出処理の検出結果を取得する(S207)。その後、検索サーバ100は、ステップS107と同様に、クライアント400へ検索結果、及び検出結果を出力する(S208)。   And the search server 100 acquires the detection result of illegal information detection processing similarly to step S106 (S207). Thereafter, the search server 100 outputs the search result and the detection result to the client 400 as in step S107 (S208).

このように、本発明の実施例2では、検索要求と検索結果の双方を特徴量として類似度計算することにより、検索結果のみを特徴量とした場合と比較して、より精度の高い検出が可能となる。   As described above, in the second embodiment of the present invention, by calculating the similarity using both the search request and the search result as the feature amount, the detection can be performed with higher accuracy than the case where only the search result is used as the feature amount. It becomes possible.

<その他の実施例>
尚、本実施例1、及び2では、違法性検出手段15により類似とされた検索結果情報の種類数が一定量を超えた場合にアラームを検出するとしたが、検索結果情報の種類数とその検索結果情報の出現頻度、すなわち、検索のヒット件数がともに一定量を超える場合にもアラームを検出するようにしてもよい。つまり、検索結果のバリエーションが多岐に渡る場合だけでなく、同じ検索結果が繰り返し得られる場合にもアラームを検出することで、より高精度な検出が可能となる。例えば、類似のコンテンツが3箇所で公開され、1コンテンツあたり10件の検索結果情報が得られている場合には、種類数は3となるが総検索結果の件数は、30となり、より検出しやすくなると言える。
<Other examples>
In the first and second embodiments, an alarm is detected when the number of types of search result information made similar by the illegality detection means 15 exceeds a certain amount. An alarm may be detected even when the appearance frequency of search result information, that is, the number of search hits both exceeds a certain amount. In other words, not only when there are a wide variety of search results, but also when the same search results are obtained repeatedly, detecting an alarm enables detection with higher accuracy. For example, if similar content is published in three places and 10 search result information is obtained per content, the number of types is 3, but the total number of search results is 30, which is more detected. It can be said that it becomes easy.

同様に、検索結果情報の時間情報を用い、ある一定時間内に行われた検索、又は、ある時刻に行われた検索を対象として検出を行うようにしてもよい。その場合、検索結果情報記憶部11には、検索結果情報と共に、当該検索結果情報が検索された時刻情報を対応付けて格納されればよい。そして、特徴抽出手段12、又は特徴抽出手段12aは、一定時間内、又は、ある時刻に該当する検索結果情報を処理対象とすることで実現可能である。これにより、より高精度な検出が可能となる。また、過去の検索結果情報の蓄積を再利用することで検出を行うようにしても良い。   Similarly, using time information of search result information, a search performed within a certain time period or a search performed at a certain time may be detected. In that case, the search result information storage unit 11 may store the search result information in association with the time information when the search result information is searched. The feature extraction unit 12 or the feature extraction unit 12a can be realized by setting search result information corresponding to a certain time or a certain time as a processing target. Thereby, detection with higher accuracy becomes possible. Further, the detection may be performed by reusing the accumulation of past search result information.

また、本発明の実施例は、検索サーバに限定されない。例えば、図1の違法情報検出装置1は、サイトの管理者が違法情報検出のために用いてもよい。その場合、当該違法情報検出処理は、定期的、例えば、1日に1回実行され、当該1日の検索結果情報を対象として検出を行うようにすればよい。そして、緊急時に、任意のタイミングで当該違法情報検出処理を実行できるものであればよい。   Further, the embodiment of the present invention is not limited to the search server. For example, the illegal information detection apparatus 1 in FIG. 1 may be used by a site administrator for detecting illegal information. In this case, the illegal information detection process may be performed periodically, for example, once a day, and detection may be performed on the search result information of the day. And what is necessary is just to be able to perform the illegal information detection process at an arbitrary timing in an emergency.

近年、違法に公開された情報は、その伝搬が早く、より広範であり、違法に公開される情報を事前に予測することは困難である。そのため、本発明は、このような状況に適用可能である。   In recent years, information that has been illegally disclosed is propagated quickly and more widely, and it is difficult to predict information that is illegally disclosed in advance. Therefore, the present invention is applicable to such a situation.

また、本発明は、コンテンツとしてのデータベースを持ち、インターネット等を利用して当該データベースを公開、及び共有するサービスといった用途に適用できる。   In addition, the present invention can be applied to uses such as a service that has a database as content and publishes and shares the database using the Internet or the like.

本発明により、インターネット上における違法なデータ公開から、著作権やプライバシーを保護することが可能となる。すなわち、不特定多数のユーザによって分散してアップロードされ公開されるような違法なデータを、当該データに対するアクセス集中ではなく、検索して得られる検索結果の種類数をカウントすることにより検出することで、違法なデータ公開を検出することが可能となる。その理由は、違法なデータであるために公開、削除、そして再公開が繰り返されるということは、同じデータ、又は少しずつ異なったデータが複数の場所に存在していると言える。そのため、同一、又は類似のデータの種類数(URLなど)が多いことが違法性判定の重要な要素となるためである。   According to the present invention, it is possible to protect copyright and privacy from illegal data disclosure on the Internet. In other words, illegal data that is distributed and uploaded by a large number of unspecified users can be detected by counting the number of types of search results obtained by searching instead of concentration of access to the data. It becomes possible to detect illegal data disclosure. The reason for this is that since it is illegal data, the disclosure, deletion, and re-publication are repeated, it can be said that the same data or slightly different data exists in a plurality of locations. For this reason, a large number of types of data that are the same or similar (such as URLs) is an important factor in determining illegality.

さらに、本発明は上述した実施の形態のみに限定されるものではなく、既に述べた本発明の要旨を逸脱しない範囲において種々の変更が可能であることは勿論である。   Furthermore, the present invention is not limited to the above-described embodiments, and various modifications can be made without departing from the gist of the present invention described above.

本発明の実施の形態にかかる違法情報検出装置の構成を示すブロック図である。It is a block diagram which shows the structure of the illegal information detection apparatus concerning embodiment of this invention. 本発明の実施の形態にかかる違法情報検出処理を示すフローチャート図である。It is a flowchart figure which shows the illegal information detection process concerning embodiment of this invention. 本発明の実施例1にかかる違法情報検索システムの全体構成を示すブロック図である。It is a block diagram which shows the whole structure of the illegal information search system concerning Example 1 of this invention. 本発明の実施例1にかかる違法公開検出処理の全体の流れを示すシーケンス図である。It is a sequence diagram which shows the whole flow of the illegal disclosure detection process concerning Example 1 of this invention. 本発明の実施例2にかかる違法公開検出システムの全体構成を示すブロック図である。It is a block diagram which shows the whole structure of the illegal disclosure detection system concerning Example 2 of this invention. 本発明の実施例2にかかる違法公開検出処理の全体の流れを示すシーケンス図である。It is a sequence diagram which shows the whole flow of the illegal disclosure detection process concerning Example 2 of this invention.

符号の説明Explanation of symbols

1 違法情報検出装置
1a 違法情報検出部
1b 違法情報検出部
11 検索結果情報記憶部
12 特徴抽出手段
12a 特徴抽出手段
13 特徴量記憶部
14 類似度計算手段
15 違法性検出手段
16 検索結果情報格納手段
17 検索条件格納手段
18 検索条件記憶部
100 検索サーバ
101 検索サーバ
2 検索エンジン部
21 入力受付手段
22 検索手段
23 出力手段
3 検索対象データベース
400 クライアント
DESCRIPTION OF SYMBOLS 1 Illegal information detection apparatus 1a Illegal information detection unit 1b Illegal information detection unit 11 Search result information storage unit 12 Feature extraction unit 12a Feature extraction unit 13 Feature quantity storage unit 14 Similarity calculation unit 15 Illegal detection unit 16 Search result information storage unit DESCRIPTION OF SYMBOLS 17 Search condition storage means 18 Search condition memory | storage part 100 Search server 101 Search server 2 Search engine part 21 Input reception means 22 Search means 23 Output means 3 Search object database 400 Client

Claims (21)

ネットワーク上に公開された情報について検索条件に基づき検索された検索結果情報の中から違法性の高い情報を検出する違法情報検出装置であって、
前記検索結果情報が格納される検索結果情報記憶部と、
前記検索結果情報記憶部に格納された検索結果情報から特徴量を抽出し、当該特徴量と前記検索結果情報とを対応付けて特徴量記憶部へ格納する特徴抽出手段と、
前記特徴量記憶部に格納された複数の特徴量からそれぞれの前記検索結果情報の間の類似度を計算し、当該類似度に基づき前記検索結果情報の間が類似するか否かを判定する類似度計算手段と、
前記類似度計算手段により類似すると判定された検索結果情報の数が所定値を超える場合、当該検索結果情報を違法性の高い情報として検出する違法性検出手段と、を備える違法情報検出装置。
An illegal information detection device for detecting highly illegal information from search result information searched based on search conditions for information published on a network,
A search result information storage unit for storing the search result information;
Feature extraction means for extracting a feature quantity from the search result information stored in the search result information storage section, and storing the feature quantity and the search result information in association with each other in the feature quantity storage section;
Similarity that calculates similarity between each of the search result information from a plurality of feature values stored in the feature value storage unit, and determines whether the search result information is similar based on the similarity Degree calculation means,
An illegal information detection apparatus comprising: illegality detection means that detects, when the number of search result information determined to be similar by the similarity calculation means exceeds a predetermined value, the search result information as highly illegal information.
前記違法情報検出装置は、前記検索条件に基づき検索された検索結果情報を取得し、前記検索結果情報記憶部へ格納する検索結果情報格納手段をさらに備える、請求項1に記載の違法情報検出装置。   The illegal information detection device according to claim 1, further comprising a search result information storage unit that acquires search result information searched based on the search condition and stores the search result information in the search result information storage unit. . 前記違法情報検出装置は、
前記検索条件が格納される検索条件記憶部と、
前記検索条件を取得し、前記検索条件記憶部へ格納する検索条件格納手段とをさらに備え、
前記特徴抽出手段は、前記検索条件記憶部に格納された検索条件と、当該検索条件に対応する前記検索結果情報記憶部に格納された検索結果情報とから特徴量を抽出する、請求項2に記載の違法情報検出装置。
The illegal information detection device includes:
A search condition storage unit for storing the search conditions;
Search condition storage means for acquiring the search condition and storing it in the search condition storage unit;
The feature extraction unit extracts a feature amount from a search condition stored in the search condition storage unit and search result information stored in the search result information storage unit corresponding to the search condition. The illegal information detection device described.
前記検索結果情報記憶部は、前記検索結果情報の検索回数が前記検索結果情報と対応付けて格納され、
前記違法性検出手段は、前記類似度計算手段により類似すると判定された検索結果情報の内、前記検索回数が所定値を超える検索結果情報の数が所定値を超える場合、当該検索結果情報を違法性の高い情報として検出する、請求項2又は3に記載の違法情報検出装置。
The search result information storage unit stores the number of searches of the search result information in association with the search result information,
When the number of search result information in which the number of searches exceeds a predetermined value among search result information determined to be similar by the similarity calculation unit exceeds the predetermined value, the illegality detection unit may illegally search the search result information. The illegal information detection device according to claim 2, wherein the illegal information detection device detects the information as highly specific information.
前記検索結果情報記憶部は、前記検索結果情報の時刻情報が前記検索結果情報と対応付けて格納され、
前記特徴抽出手段は、前記検索結果情報記憶部に格納された所定の時刻情報の範囲の検索結果情報から特徴量を抽出する、請求項2乃至4のいずれか1項に記載の違法情報検出装置。
The search result information storage unit stores time information of the search result information in association with the search result information,
5. The illegal information detection device according to claim 2, wherein the feature extraction unit extracts a feature amount from search result information in a predetermined time information range stored in the search result information storage unit. 6. .
前記検索結果情報は、前記ネットワーク上に公開された情報であるコンテンツ、又は当該コンテンツに関する情報であることを特徴とする、請求項1乃至5のいずれか1項に記載の違法情報検出装置。   The illegal information detection device according to claim 1, wherein the search result information is content that is information disclosed on the network or information related to the content. 前記特徴抽出手段は、前記検索結果情報の特徴量として文字ベクトル、単語ベクトル、ケプストラム、又は形状情報の少なくとも一つ以上を抽出することを特徴とする、請求項1乃至6のいずれか1項に記載の違法情報検出装置。   The feature extraction unit extracts at least one of a character vector, a word vector, a cepstrum, or shape information as a feature amount of the search result information, according to any one of claims 1 to 6. The illegal information detection device described. ネットワーク上に公開された情報について検索条件に基づき検索された検索結果情報の中から違法性の高い情報を検出する違法情報検出方法であって、
前記検索結果情報から特徴量を抽出する特徴量抽出ステップと、
前記特徴抽出ステップにより抽出された複数の特徴量からそれぞれの前記検索結果情報の間の類似度を計算し、当該類似度に基づき前記検索結果情報の間が類似するか否かを判定する類似度計算ステップと、
前記類似度計算ステップにより類似すると判定された検索結果情報の数が所定値を超える場合、当該検索結果情報を違法性の高い情報として検出する違法性検出ステップと、を備える違法情報検出方法。
An illegal information detection method for detecting highly illegal information from search result information searched based on search conditions for information published on a network,
A feature amount extraction step of extracting a feature amount from the search result information;
Similarity between each of the search result information is calculated from the plurality of feature amounts extracted by the feature extraction step, and the similarity is determined based on the similarity. A calculation step;
An illegal information detection method comprising: an illegality detection step of detecting, when the number of search result information determined to be similar in the similarity calculation step exceeds a predetermined value, the search result information as highly illegal information.
前記検索条件に基づき検索された検索結果情報を取得し、検索結果情報記憶部へ格納する検索結果情報格納ステップをさらに備え、
前記特徴抽出ステップは、前記検索結果情報記憶部に格納された検索結果情報から特徴量を抽出する、請求項8に記載の違法情報検出方法。
A search result information storing step of acquiring search result information searched based on the search condition and storing the search result information in a search result information storage unit is further provided,
The illegal information detection method according to claim 8, wherein the feature extraction step extracts a feature amount from search result information stored in the search result information storage unit.
前記検索条件を取得し、検索条件記憶部へ格納する検索条件格納ステップをさらに備え、
前記特徴抽出ステップは、前記検索条件記憶部に格納された検索条件と、当該検索条件に対応する前記検索結果情報記憶部に格納された検索結果情報から特徴量を抽出する、請求項9に記載の違法情報検出方法。
A search condition storage step of acquiring the search condition and storing it in the search condition storage unit;
The feature extraction step extracts a feature amount from a search condition stored in the search condition storage unit and search result information stored in the search result information storage unit corresponding to the search condition. Illegal information detection method.
前記違法性検出ステップは、前記類似度計算ステップにより類似すると判定された検索結果情報の内、前記検索結果情報の検索回数が所定値を超える検索結果情報の数が所定値を超える場合、当該検索結果情報を違法性の高い情報として検出する、請求項9又は10に記載の違法情報検出方法。   If the number of search result information in which the number of searches of the search result information exceeds a predetermined value among the search result information determined to be similar in the similarity calculation step exceeds the predetermined value, the illegality detection step The illegal information detection method according to claim 9 or 10, wherein the result information is detected as highly illegal information. 前記特徴抽出ステップは、所定の時刻情報の範囲の前記検索結果情報から特徴量を抽出する、請求項9乃至11のいずれか1項に記載の違法情報検出方法。   The illegal information detection method according to claim 9, wherein the feature extraction step extracts a feature amount from the search result information in a predetermined time information range. 前記検索結果情報は、前記ネットワーク上に公開された情報であるコンテンツ、又は当該コンテンツに関する情報であることを特徴とする、請求項8乃至12のいずれか1項に記載の違法情報検出方法。   The illegal information detection method according to any one of claims 8 to 12, wherein the search result information is content that is information disclosed on the network or information related to the content. 前記特徴抽出ステップは、前記検索結果情報の特徴量として文字ベクトル、単語ベクトル、ケプストラム、又は形状情報の少なくとも一つ以上を抽出することを特徴とする、請求項8乃至13のいずれか1項に記載の違法情報検出方法。   14. The feature extraction step according to claim 8, wherein at least one of a character vector, a word vector, a cepstrum, or shape information is extracted as a feature amount of the search result information. The illegal information detection method described. ネットワーク上に公開された情報について検索条件に基づき検索された検索結果情報の中から違法性の高い情報を検出する処理をコンピュータに実行させる違法情報検出プログラムであって、
前記検索結果情報が格納される検索結果情報記憶部と、
前記検索結果情報記憶部に格納された検索結果情報から特徴量を抽出し、当該特徴量と前記検索結果情報とを対応付けて特徴量記憶部へ格納する特徴抽出手段と、
前記特徴量記憶部に格納された複数の特徴量からそれぞれの前記検索結果情報の間の類似度を計算し、当該類似度に基づき前記検索結果情報の間が類似するか否かを判定する類似度計算手段と、
前記類似度計算手段により類似すると判定された検索結果情報の数が所定値を超える場合、当該検索結果情報を違法性の高い情報として検出する違法性検出手段と、を備える違法情報検出プログラム。
An illegal information detection program for causing a computer to execute processing for detecting highly illegal information from search result information searched based on a search condition for information published on a network,
A search result information storage unit for storing the search result information;
Feature extraction means for extracting a feature quantity from the search result information stored in the search result information storage section, and storing the feature quantity and the search result information in association with each other in the feature quantity storage section;
Similarity that calculates similarity between each of the search result information from a plurality of feature values stored in the feature value storage unit, and determines whether the search result information is similar based on the similarity Degree calculation means,
An illegal information detection program comprising: illegality detection means for detecting search result information as highly illegal information when the number of search result information determined to be similar by the similarity calculation means exceeds a predetermined value.
前記違法情報検出プログラムは、前記検索条件に基づき検索された検索結果情報を取得し、前記検索結果情報記憶部へ格納する検索結果情報格納手段をさらに備える、請求項15に記載の違法情報検出プログラム。   The illegal information detection program according to claim 15, further comprising search result information storage means for acquiring search result information searched based on the search condition and storing the search result information in the search result information storage unit. . 前記違法情報検出プログラムは、
前記検索条件が格納される検索条件記憶部と、
前記検索条件を取得し、前記検索条件記憶部へ格納する検索条件格納手段とをさらに備え、
前記特徴抽出手段は、前記検索条件記憶部に格納された検索条件と、当該検索条件に対応する前記検索結果情報記憶部に格納された検索結果情報から特徴量を抽出する、請求項16に記載の違法情報検出プログラム。
The illegal information detection program is:
A search condition storage unit for storing the search conditions;
Search condition storage means for acquiring the search condition and storing it in the search condition storage unit;
The feature extraction unit extracts a feature amount from a search condition stored in the search condition storage unit and search result information stored in the search result information storage unit corresponding to the search condition. Illegal information detection program.
前記検索結果情報記憶部は、前記検索結果情報の検索回数が前記検索結果情報と対応付けて格納され、
前記違法性検出手段は、前記類似度計算手段により類似すると判定された検索結果情報の内、前記検索回数が所定値を超える検索結果情報の数が所定値を超える場合、当該検索結果情報を違法性の高い情報として検出する、請求項16又は17に記載の違法情報検出プログラム。
The search result information storage unit stores the number of searches of the search result information in association with the search result information,
When the number of search result information in which the number of searches exceeds a predetermined value among search result information determined to be similar by the similarity calculation unit exceeds the predetermined value, the illegality detection unit may illegally search the search result information. The illegal information detection program according to claim 16 or 17, wherein the illegal information detection program detects the information as highly specific information.
前記検索結果情報記憶部は、前記検索結果情報の時刻情報が前記検索結果情報と対応付けて格納され、
前記特徴抽出手段は、前記検索結果情報記憶部に格納された所定の時刻情報の範囲の検索結果情報から特徴量を抽出する、請求項16乃至18のいずれか1項に記載の違法情報検出プログラム。
The search result information storage unit stores time information of the search result information in association with the search result information,
The illegal information detection program according to any one of claims 16 to 18, wherein the feature extraction unit extracts a feature amount from search result information in a predetermined time information range stored in the search result information storage unit. .
前記検索結果情報は、前記ネットワーク上に公開された情報であるコンテンツ、又は当該コンテンツに関する情報であることを特徴とする、請求項15乃至19のいずれか1項に記載の違法情報検出プログラム。   The illegal information detection program according to any one of claims 15 to 19, wherein the search result information is content that is information disclosed on the network or information related to the content. 前記特徴抽出手段は、前記検索結果情報の特徴量として文字ベクトル、単語ベクトル、ケプストラム、又は形状情報の少なくとも一つ以上を抽出することを特徴とする、請求項15乃至20のいずれか1項に記載の違法情報検出プログラム。   The feature extraction unit extracts at least one of a character vector, a word vector, a cepstrum, or shape information as a feature amount of the search result information, according to any one of claims 15 to 20. The illegal information detection program described.
JP2008042766A 2008-02-25 2008-02-25 Illegal information detection device, illegal information detection method, and illegal information detection program Active JP5082917B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008042766A JP5082917B2 (en) 2008-02-25 2008-02-25 Illegal information detection device, illegal information detection method, and illegal information detection program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008042766A JP5082917B2 (en) 2008-02-25 2008-02-25 Illegal information detection device, illegal information detection method, and illegal information detection program

Publications (2)

Publication Number Publication Date
JP2009199513A JP2009199513A (en) 2009-09-03
JP5082917B2 true JP5082917B2 (en) 2012-11-28

Family

ID=41142913

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008042766A Active JP5082917B2 (en) 2008-02-25 2008-02-25 Illegal information detection device, illegal information detection method, and illegal information detection program

Country Status (1)

Country Link
JP (1) JP5082917B2 (en)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5462591B2 (en) * 2009-10-30 2014-04-02 楽天株式会社 Specific content determination device, specific content determination method, specific content determination program, and related content insertion device
JP5462590B2 (en) * 2009-10-30 2014-04-02 楽天株式会社 Specific content determination apparatus, specific content determination method, specific content determination program, and content generation apparatus
KR101640051B1 (en) * 2009-10-30 2016-07-15 라쿠텐 인코포레이티드 Characteristic content determination device, characteristic content determination method, recording medium, content generation device, and related content insertion device
US10614134B2 (en) 2009-10-30 2020-04-07 Rakuten, Inc. Characteristic content determination device, characteristic content determination method, and recording medium
WO2012166937A2 (en) * 2011-05-31 2012-12-06 Robert Steele System to identify multiple copyright infringements and collecting royalties
JP5588074B2 (en) 2011-12-05 2014-09-10 インターナショナル・ビジネス・マシーンズ・コーポレーション Privacy information management apparatus, method and program
JP5880089B2 (en) * 2012-01-31 2016-03-08 凸版印刷株式会社 Comic image data detection apparatus and comic image data detection program
CN105828189B (en) * 2015-01-05 2018-10-23 任子行网络技术股份有限公司 A kind of method of various dimensions detection violation audio/video program
JP6260678B2 (en) * 2016-12-06 2018-01-17 株式会社Jvcケンウッド Information processing apparatus, information processing method, and information processing program
CN115767144B (en) * 2022-10-26 2024-07-23 杭州迪普科技股份有限公司 Method and device for determining uploading object of target video

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11345239A (en) * 1998-06-02 1999-12-14 Nippon Telegr & Teleph Corp <Ntt> Method and device for extracting document information, and storage medium stored with document information extraction program
JP4489994B2 (en) * 2001-05-11 2010-06-23 富士通株式会社 Topic extraction apparatus, method, program, and recording medium for recording the program
JP2003030240A (en) * 2001-07-13 2003-01-31 Ntt Data Corp Device, method and program for retrieving data

Also Published As

Publication number Publication date
JP2009199513A (en) 2009-09-03

Similar Documents

Publication Publication Date Title
JP5082917B2 (en) Illegal information detection device, illegal information detection method, and illegal information detection program
JP6833302B2 (en) Information authentication method and system
US7610382B1 (en) System and method for marking content
WO2021143497A1 (en) Infringement evidence storage method, apparatus, and device based on evidence storage blockchain
Panchenko et al. Analysis of fingerprinting techniques for Tor hidden services
CN106101113B (en) A kind of cloud computing data security annotation management method and system
Taylor et al. Securank: Starving permission-hungry apps using contextual permission analysis
WO2014103115A1 (en) Illicit intrusion sensing device, illicit intrusion sensing method, illicit intrusion sensing program, and recording medium
US9805216B2 (en) Privacy compliance event analysis system
US20190317968A1 (en) Method, system and computer program products for recognising, validating and correlating entities in a communications darknet
CN112019519B (en) Method and device for detecting threat degree of network security information and electronic device
WO2010024184A1 (en) Rumor information detecting system, rumor information detecting method, and program
KR20080039324A (en) Tracing system for management of digital rights
Nieto et al. Privacy-aware digital forensics.
JP2014026651A5 (en)
JP4783407B2 (en) Information resource collaborative tagging system and method
CN111382394B (en) Infringement monitoring method and device for pictures
JP4807364B2 (en) Information management device
Horsman Web content management systems: An analysis of forensic investigatory challenges
JP4990823B2 (en) Illegal content determination support system and control program for illegal content determination support system
US20220335154A1 (en) Predictive response-generation systems to facilitate timely compliance with information-disclosure laws
CN111782914B (en) Web server protection method, device and network equipment
Salama et al. Metadata based forensic analysis of digital information in the web
US20130198621A1 (en) Document Tracking System and Method
Sykosch et al. Hunting observable objects for indication of compromise

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110107

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120719

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120807

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120820

R150 Certificate of patent or registration of utility model

Ref document number: 5082917

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150914

Year of fee payment: 3