JP2011159321A - Data conversion method, device and program - Google Patents

Data conversion method, device and program Download PDF

Info

Publication number
JP2011159321A
JP2011159321A JP2011093856A JP2011093856A JP2011159321A JP 2011159321 A JP2011159321 A JP 2011159321A JP 2011093856 A JP2011093856 A JP 2011093856A JP 2011093856 A JP2011093856 A JP 2011093856A JP 2011159321 A JP2011159321 A JP 2011159321A
Authority
JP
Japan
Prior art keywords
data
content
content data
character string
replacement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011093856A
Other languages
Japanese (ja)
Other versions
JP2011159321A5 (en
JP4804591B2 (en
Inventor
Tomoya Iwakura
友哉 岩倉
Junko Furukawa
淳子 古川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2011093856A priority Critical patent/JP4804591B2/en
Publication of JP2011159321A publication Critical patent/JP2011159321A/en
Publication of JP2011159321A5 publication Critical patent/JP2011159321A5/ja
Application granted granted Critical
Publication of JP4804591B2 publication Critical patent/JP4804591B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To prevent information collection by a machine for a part not desired by an information provider or the like while correctly transmitting a content to persons. <P>SOLUTION: The data conversion method includes steps of: identifying a character string the output as text data of which should be avoided from content data to be processed; converting the identified character string into substitution data other than test data while maintaining the content of the character string; and creating disclosure content data for maintaining a disclosure content of the content data by use of the data other than the character string in the content data and the substitution data. A mail address, telephone number, address, name or the like, the output as text data of which should be avoided, is converted to image data other than text data; thereby the character sting can be made secrete to the machine without changing the disclosure content to persons. <P>COPYRIGHT: (C)2011,JPO&INPIT

Description

本発明は、公開されるコンテンツ・データの一部を機械に対して秘匿するための技術に関する。   The present invention relates to a technique for concealing a part of published content data from a machine.

インターネットの普及によりウェブ(Web)ページを通して様々な情報へ簡単にアクセスできるようになった。この情報へのアクセスには、検索エンジンの役割は非常に大きい。検索エンジンでは、インターネット中に分散して保持されている情報を自動収集(クローリング)して、インデックスを作成し、情報検索者の利用に供している。情報提供者側も、Webページ上で情報を公開するのは、情報伝達及び配信が目的であるから、検索エンジンにクローリングされてインデックスが作成されることは、基本的には好ましいことである。商業的には、特定のキーワードにつき、検索エンジンにおいてより上位にランクされることを競う場合もある。   With the spread of the Internet, various information can be easily accessed through a web page. The search engine plays a huge role in accessing this information. Search engines automatically collect (crawling) information that is distributed and stored in the Internet, create an index, and use it for information searchers. Since the information provider also discloses information on the Web page for the purpose of information transmission and distribution, it is basically preferable that an index is created by crawling with a search engine. Commercially, certain keywords may compete for being ranked higher in search engines.

しかし、Webページには、本来公開目的で提供しているコンテンツと当該コンテンツの出所又は連絡先の情報など付随的に公開する情報とが含まれている。本来公開目的で提供している情報については、検索エンジンにおいてクローリングされることは特に問題はないが、情報の出所又は連絡先の情報がクローリングされると、問題が生ずる場合がある。例えば、連絡先の情報としてメールアドレスが公開されている場合があるが、当該メールアドレスがクローリングされてスパムメールの対象となったりする場合がある。また、コンテンツの出所の情報についても、名前や住所などがクローリングされると、様々な犯罪に用いられかねない。その他の情報についても、検索エンジン等の機械にクローリングされて2次利用されることが好ましくないものもある。   However, the Web page includes content originally provided for the purpose of disclosure and information to be disclosed incidentally such as information on the origin of the content or contact information. For information originally provided for the purpose of disclosure, there is no particular problem with crawling in a search engine, but there may be a problem if the information source or contact information is crawled. For example, an e-mail address may be disclosed as contact information, but the e-mail address may be crawled and become a target of spam mail. In addition, if the name or address is crawled, the content source information can be used for various crimes. As for other information, there are some cases where it is not preferable that the information is crawled by a search engine or the like and secondarily used.

このため、メールアドレスに対する対策として、hoge@hoge.com というメールアドレスであれば、hoge at hoge dot com という文字列に変換したり、空白を挿入するといった方法が採用されている場合がある。しかし、メールアドレスや電話番号についてはこのような方法を採用することができるが、名前や住所といった情報では、変換のしようがなく、間違った情報を伝えることになりかねない。   For this reason, as a countermeasure against an email address, if the email address is hoge@hoge.com, there are cases where a method of converting the character string to hoge at hoge dot com or inserting a blank space may be employed. However, this method can be used for e-mail addresses and telephone numbers, but information such as names and addresses cannot be converted and may lead to incorrect information.

また、例えば特開平6−348808号公報には、インデックスシート上に秘密文書や重要文書等のインデックス情報も含めて、全てのインデックス情報をわかり易く出力でき、且つ機密性を保てるようにするための技術が開示されている。具体的には、記憶媒体からインデックス情報と文書の画像データを読み込み、その画像情報中に特定の文字列があるか特殊なファイル属性を持つかを調べ、そのいずれかに該当すれば、インデックス画像に特殊パターン(「秘」又は「重要」の文字パターン等)を合成するか、その特殊パターンのみをインデックス画像に替えて出力用バッファに展開して配置し、そのデータをプリンタ部へ送って用紙に画像形成させて、インデックスシートを出力する。この技術は、機密を保持すべきデータについて特殊パターンを出力するものであるが、機密を保持すべきデータを人間には分かるが、機械には分からないデータにするものではない。   For example, Japanese Patent Laid-Open No. 6-348808 discloses a technique for easily outputting all index information including index information such as secret documents and important documents on an index sheet and maintaining confidentiality. Is disclosed. Specifically, the index information and the image data of the document are read from the storage medium, and it is checked whether there is a specific character string or a special file attribute in the image information. A special pattern (such as a “secret” or “important” character pattern) is synthesized with the image, or only the special pattern is replaced with an index image and deployed in an output buffer, and the data is sent to the printer unit to form paper Then, an image is formed and an index sheet is output. This technique outputs a special pattern for data that should be kept secret, but it does not turn data that should be kept secret into data that can be understood by humans but cannot be understood by machines.

特開平6−348808号公報JP-A-6-348808

上で述べたように、従来技術では、人間にはコンテンツの内容を正しく伝える一方で、情報提供者が希望しない部分についてのクローリング及び二次利用を阻止することは不可能である。   As described above, in the prior art, it is impossible to correctly convey the contents of content to human beings while preventing crawling and secondary use for a portion that is not desired by the information provider.

よって、本発明の目的は、人間にはコンテンツの内容を正しく伝える一方で情報提供者が希望しない部分についての機械による情報収集などを阻止するための技術を提供することである。   Therefore, an object of the present invention is to provide a technique for correctly transmitting the contents of a content to a human being while preventing information collection by a machine about a portion not desired by an information provider.

本発明に係るデータ変換方法は、テキストデータを含む公開すべきコンテンツデータを格納するコンテンツデータ格納部から処理すべきコンテンツデータを読み出し、当該コンテンツデータからテキストデータとしての出力を回避すべき文字列を特定する特定ステップと、特定された文字列を、当該文字列の内容を維持し、テキストデータ以外の置換データに変換する変換ステップと、コンテンツデータにおける上記文字列以外のデータと置換データとを用いて、コンテンツデータの公開内容を維持するための公開コンテンツデータを生成し、記憶装置に格納する生成ステップとを含む。   In the data conversion method according to the present invention, content data to be processed is read from a content data storage unit that stores content data to be disclosed including text data, and a character string that should be avoided from being output as text data from the content data. Using a specifying step for specifying, a conversion step for converting the specified character string into replacement data other than text data while maintaining the content of the character string, and data other than the character string in the content data and replacement data A generation step of generating public content data for maintaining the public content of the content data and storing it in a storage device.

このように、テキストデータとしての出力を回避すべき文字列(上で述べた例ではメールアドレス、電話番号、住所、氏名など)をテキストデータ以外の置換データ(例えば上記文字列を表す画像データ又は音声データなど)に変換することによって、人間に対する公開内容を変更することなく、上記文字列を機械に対して秘匿することができるようになる。   In this way, a character string (email address, telephone number, address, name, etc. in the above example) that should be prevented from being output as text data is replaced with replacement data other than text data (for example, image data representing the above character string or By converting the data into voice data, the character string can be kept secret from the machine without changing the contents disclosed to humans.

なお、上で述べた特定ステップは、所定の種類の個人情報を抽出するステップを含むようにしてもよい。上で述べたように個人情報の無用な拡布を防止することができるようになる。なお、個人情報だけではなく、価格その他の情報を抽出するようにする場合もある。   Note that the specific step described above may include a step of extracting a predetermined type of personal information. As described above, it is possible to prevent unnecessary distribution of personal information. In addition, not only personal information but also price and other information may be extracted.

同様に、上で述べた特定ステップは、所定の種類の文字列の少なくとも一部を抽出するステップを含むようにしても良い。例えば、名前の全文字を置換データに変換せずとも、その一部のみを置換データとすることによっても同様の効果を得られる場合もある。   Similarly, the specific step described above may include a step of extracting at least a part of a predetermined type of character string. For example, the same effect may be obtained even if not all characters of the name are converted into replacement data, but only a part of the characters is used as replacement data.

また、置換データが、特定された文字列を表す画像データである場合、当該画像データが、上記文字列に含まれる文字に対応するフォントを崩した画像を含むようにしてもよい。例えば検索エンジン等がOCR(Optical Character Recognition)技術を使用した場合においても、このようなフォントを崩した画像にすれば読み取りが困難となる。   Further, when the replacement data is image data representing a specified character string, the image data may include an image in which a font corresponding to the character included in the character string is broken. For example, even when a search engine or the like uses OCR (Optical Character Recognition) technology, it is difficult to read such an image with a broken font.

さらに、上で述べた公開コンテンツデータは、上記置換データへの参照データを含むようにしてもよい。例えば、HTML(Hyper Text Markup Language)ファイルの場合には、画像ファイル又は音声ファイルへのリンクが含まれるようにするものである。なお、画像ファイルは、同じWebページ上で表示させる場合もあれば、別ウインドウで表示させるような場合もある。   Furthermore, the public content data described above may include reference data for the replacement data. For example, in the case of an HTML (Hyper Text Markup Language) file, a link to an image file or an audio file is included. The image file may be displayed on the same Web page or may be displayed in a separate window.

さらに、上で述べた公開コンテンツデータが、コンテンツデータにおける文字列以外のデータと置換データとを組み合わせて表示させるためのデータである場合もある。HTMLファイルにおいて例えばIMGタグにて同じWebページ上で表示させるようにしても良いし、PDF(Portable Document Format)の部分的なデータを画像で置き換えるようにしてもよい。このような場合にも画像データ部分については機械が簡単に文字列を把握することはできない。   Furthermore, the public content data described above may be data for displaying data other than character strings in the content data in combination with replacement data. In an HTML file, for example, an IMG tag may be displayed on the same Web page, or partial data of PDF (Portable Document Format) may be replaced with an image. Even in such a case, the machine cannot easily grasp the character string of the image data portion.

また、コンテンツデータ要求を受信した場合、当該コンテンツデータ要求の送信元が、公開拒否リストに登録されているか、又は公開許可リストに登録されていないか判断するステップと、コンテンツデータ要求の送信元が公開拒否リストに登録されている又は公開許可リストに登録されていないと判断された場合には、記憶装置に格納されている公開コンテンツデータを、コンテンツデータ要求の送信元に送信するステップと、コンテンツデータ要求の送信元が公開拒否リストに登録されていない又は公開許可リストに登録されていると判断された場合には、コンテンツデータ格納部に格納されているコンテンツデータを、コンテンツデータ要求の送信元に送信するステップとをさらに含むようにしてもよい。このようにすれば、情報提供者が特定の文字列の公開を希望しないアクセス元については、公開コンテンツデータを出力することができるようになる。   Further, when the content data request is received, a step of determining whether the transmission source of the content data request is registered in the disclosure rejection list or the disclosure permission list, and the transmission source of the content data request is A step of transmitting the public content data stored in the storage device to the transmission source of the content data request when it is determined that it is registered in the public rejection list or not registered in the public permission list; When it is determined that the transmission source of the data request is not registered in the disclosure rejection list or registered in the disclosure permission list, the content data stored in the content data storage unit is converted to the transmission source of the content data request. May be further included. In this way, public content data can be output for an access source that the information provider does not wish to disclose a specific character string.

本発明にかかる方法をコンピュータに実行させるためのプログラムを作成することができ、当該プログラムは、例えばフレキシブル・ディスク、CD−ROM、光磁気ディスク、半導体メモリ、ハードディスク等の記憶媒体又は記憶装置に格納される。また、ネットワークを介してディジタル信号にて頒布される場合もある。なお、処理途中のデータについては、コンピュータのメモリ等の記憶装置に一時保管される。   A program for causing a computer to execute the method according to the present invention can be created, and the program is stored in a storage medium or storage device such as a flexible disk, a CD-ROM, a magneto-optical disk, a semiconductor memory, or a hard disk. Is done. In some cases, digital signals are distributed over a network. Note that data being processed is temporarily stored in a storage device such as a computer memory.

本発明によれば、人間にはコンテンツの内容を正しく伝える一方で情報提供者が希望しない部分テキストについての機械による情報収集などを阻止することができるようになる。   According to the present invention, it is possible to correctly convey the contents of content to human beings while preventing information gathering by a machine about partial texts that are not desired by the information provider.

本発明の第1の実施の形態に係るシステム概要を説明するための図である。It is a figure for demonstrating the system outline | summary which concerns on the 1st Embodiment of this invention. 本発明の第1の実施の形態に係る情報提供者端末における処理フローを示す図である。It is a figure which shows the processing flow in the information provider terminal which concerns on the 1st Embodiment of this invention. (a)は通常のコンテンツの表示例を示す図であり、(b)乃至(d)は置換コンテンツの表示例を示す図である。(A) is a figure which shows the example of a normal content display, (b) thru | or (d) is a figure which shows the example of a display of replacement content. 置換コンテンツの他の表示例を示す図である。It is a figure which shows the other example of a display of replacement content. (a)は通常のコンテンツのHTMLファイルの一例を示し、(b)乃至(d)は置換コンテンツの場合におけるHTMLファイルの一例を示す。(A) shows an example of an HTML file of normal content, and (b) to (d) show an example of an HTML file in the case of replacement content. 本発明の第1の実施の形態に係る配信処理時の処理フローを示す図である。It is a figure which shows the processing flow at the time of the delivery process which concerns on the 1st Embodiment of this invention. 本発明の第2の実施の形態に係るシステム概要を説明するための図である。It is a figure for demonstrating the system outline | summary which concerns on the 2nd Embodiment of this invention. 本発明の第2の実施の形態に係るサーバの処理フローを示す図である。It is a figure which shows the processing flow of the server which concerns on the 2nd Embodiment of this invention. コンピュータの機能ブロック図である。It is a functional block diagram of a computer.

[実施の形態1]
図1に本発明の第1の実施の形態に係るシステムの概要図を示す。ネットワーク1には、サーバ5と、検索エンジン7と、例えばパーソナルコンピュータであってWebブラウザ91を実行する1又は複数の情報利用者端末9と、情報提供者端末3とが接続されている。
[Embodiment 1]
FIG. 1 shows a schematic diagram of a system according to the first embodiment of the present invention. Connected to the network 1 are a server 5, a search engine 7, for example, one or a plurality of information user terminals 9 that are personal computers and execute a Web browser 91, and an information provider terminal 3.

情報提供者端末3は、情報提供者がHTML(Hyper Text Markup Language)ファイル作成プログラムなどのコンテンツ作成プログラムによって作成したコンテンツを格納する入力コンテンツ格納部31と、コンテンツにおいてテキストデータとしての出力を回避すべき文字列を別データに置換して提示するためのデータである置換コンテンツを格納する置換コンテンツ格納部32と、本実施の形態における主要な処理を実施するコンテンツ変換プログラム33とを有する。コンテンツ変換プログラム33は、入力コンテンツ格納部31に格納されているコンテンツに対して置換対象文字列を抽出する処理を実施する置換対象文字列抽出部333と、置換対象文字列抽出部333により特定された置換対象文字列を格納する置換対象文字列格納部336と、置換対象文字列格納部336に格納された置換文字列から置換データを生成する置換データ生成部337と、置換データ生成部337によって生成された置換データを格納する置換データ格納部335と、入力コンテンツ格納部31に格納されているコンテンツ及び置換データ格納部335に格納された置換データとを用いて検索エンジン7などの機械によるアクセスに対して置換対象文字列を秘匿するために提供される置換コンテンツを生成する置換コンテンツ生成部332と、例えば情報提供者からの指示に応じて置換コンテンツ格納部32に格納された置換コンテンツと入力コンテンツ格納部31に格納されたコンテンツとの試験表示処理を実施する試験表示部331と、例えば情報提供者からの指示に応じて置換コンテンツ格納部32に格納された置換コンテンツと入力コンテンツ格納部31に格納されたコンテンツとをサーバ5にアップロードするアップロード部334とを有する。   The information provider terminal 3 includes an input content storage unit 31 for storing content created by a content creation program such as an HTML (Hyper Text Markup Language) file creation program by the information provider, and avoiding output as text data in the content It has a replacement content storage unit 32 that stores replacement content that is data for replacing and presenting a character string to be replaced with another data, and a content conversion program 33 that performs main processing in the present embodiment. The content conversion program 33 is specified by the replacement target character string extraction unit 333 and the replacement target character string extraction unit 333 that perform processing for extracting the replacement target character string from the content stored in the input content storage unit 31. A replacement target character string storage unit 336 that stores the replacement target character string, a replacement data generation unit 337 that generates replacement data from the replacement character string stored in the replacement target character string storage unit 336, and a replacement data generation unit 337. Access by a machine such as the search engine 7 using the replacement data storage unit 335 that stores the generated replacement data and the content stored in the input content storage unit 31 and the replacement data stored in the replacement data storage unit 335 A replacement container that generates replacement content provided to conceal the replacement target character string. The test generation unit 332 and a test display unit 331 that performs a test display process of the replacement content stored in the replacement content storage unit 32 and the content stored in the input content storage unit 31 according to an instruction from the information provider, for example. And an upload unit 334 for uploading the replacement content stored in the replacement content storage unit 32 and the content stored in the input content storage unit 31 to the server 5 according to an instruction from the information provider, for example.

また、サーバ5は、認証処理などを実施し、当該認証処理などが成功した場合に情報提供者端末3からアップロードされたコンテンツを受信する登録インターフェース部51と、登録インターフェース部51によって情報提供者端末3から受信したコンテンツのデータを格納する入力コンテンツ格納部52と、登録インターフェース部51によって情報提供者端末3から受信した置換コンテンツのデータを格納する置換コンテンツ格納部53と、ネットワーク1を介したアクセスに応じて通常のコンテンツ・データを配信すべきか又はその対応する置換コンテンツを送信すべきかを判断するためのルールとなるデータを格納する配信ルール格納部55と、ネットワーク1を介したアクセスに応じて配信ルール格納部55に格納された配信ルールに従って通常のコンテンツ・データ又は置換コンテンツ・データを要求元に配信する配信処理部54とを有する。   Further, the server 5 performs an authentication process and the like, and when the authentication process or the like succeeds, the registration interface unit 51 that receives the content uploaded from the information provider terminal 3, and the information provider terminal by the registration interface unit 51 3, an input content storage unit 52 that stores data of content received from 3, a replacement content storage unit 53 that stores data of replacement content received from the information provider terminal 3 by the registration interface unit 51, and access via the network 1 A distribution rule storage unit 55 for storing data serving as a rule for determining whether normal content data should be distributed or a corresponding replacement content should be transmitted, and according to access via the network 1 The distribution route stored in the distribution rule storage unit 55 And a distribution processing unit 54 for delivering the normal content data or replacement content data to the requester according to.

配信ルール格納部55は、要求された場合に置換コンテンツを配信すべき機器のIPアドレスのリストが格納されている。逆に、コンテンツを配信すべき機器のIPアドレスのリスト、又はコンテンツを配信すべき機器の要求元の属性(例えばブラウザの種別など)が規定されている場合もある。   The distribution rule storage unit 55 stores a list of IP addresses of devices to which replacement content is to be distributed when requested. Conversely, a list of IP addresses of devices to which content is to be distributed or a request source attribute (for example, browser type) of the device to which content is to be distributed may be defined.

次に、図2乃至図6を用いて図1に示したシステムの処理内容を説明する。まず、情報提供者端末3のコンテンツ変換プログラム33における置換対象文字列抽出部333は、入力コンテンツ格納部31からコンテンツのデータを読み込む(ステップS1)。そして、例えば固有名詞その他の置換対象文字列の候補をコンテンツから抽出する(ステップS3)。抽出すべき置換対象文字列は、基本的には機械に対して秘匿すべき情報であって、名前、住所、電話番号、メールアドレスなどの個人情報である。その他の種別のデータを抽出するようにしてもよい。図示していないが、例えば固有名詞など抽出すべき文字列についての辞書を参照することもある。また、固有名詞抽出技術(例えばMasayuki Asahara and Yuji Matsumoto , "Japanese named entity extraction with redundant morphological analysis", In Proc. Human Language Technology and North American Chapter of Association for Computational Linguistics (HLT-NAACL), pp.8-15, May 2003など)を用いるようにしてもよい。また、電話番号については、PerlやRubyなどの言語における正規表現による文字列処理機能を使って規則を実装して抽出するようにしてもよい。例えば「0\d{2}-\d{3}-\d{4}」というルールを作成しておく。この場合、\dは数字にマッチするという意味を表し、{}の中の数字は繰り返す数を示す。よって、このような規則によれば、012-345-6789のような番号を抽出することができるようになる。   Next, processing contents of the system shown in FIG. 1 will be described with reference to FIGS. First, the replacement target character string extraction unit 333 in the content conversion program 33 of the information provider terminal 3 reads content data from the input content storage unit 31 (step S1). Then, for example, proper nouns and other candidate replacement character strings are extracted from the content (step S3). The replacement target character string to be extracted is basically information to be kept secret from the machine, and is personal information such as a name, address, telephone number, and mail address. Other types of data may be extracted. Although not shown, a dictionary for character strings to be extracted such as proper nouns may be referred to. Also, proper noun extraction technology (for example, Masayuki Asahara and Yuji Matsumoto, "Japanese named entity extraction with redundant morphological analysis", In Proc. Human Language Technology and North American Chapter of Association for Computational Linguistics (HLT-NAACL), pp.8- 15, May 2003). The telephone number may be extracted by implementing a rule using a character string processing function using a regular expression in a language such as Perl or Ruby. For example, a rule “0 \ d {2}-\ d {3}-\ d {4}” is created. In this case, \ d means that it matches the number, and the number in {} indicates the number of repetitions. Therefore, according to such a rule, a number such as 012-345-6789 can be extracted.

そして、置換対象文字列抽出部333は、置換対象文字列の候補を表示装置に表示し、情報提供者による候補の選択又は具体的な文字列の指定を受け付け、置換対象文字列格納部336に格納する(ステップS5)。情報提供者は、表示された候補の中から適切な置換対象文字列を選択するか、表示された候補に代わって又は追加して置換対象文字列を具体的に指定するようにしてもよい。例えば、図3(a)に示したようなコンテンツの場合、「山田太郎」と「hoge@hoge.com」とが置換対象文字列として特定され、置換対象文字列格納部336に格納されたものとする。   Then, the replacement target character string extraction unit 333 displays the replacement target character string candidates on the display device, accepts selection of candidates or specific character string designation by the information provider, and stores them in the replacement target character string storage unit 336. Store (step S5). The information provider may select an appropriate replacement target character string from the displayed candidates, or may specify the replacement target character string specifically instead of or in addition to the displayed candidate. For example, in the case of the content as shown in FIG. 3A, “Taro Yamada” and “hoge@hoge.com” are specified as the replacement target character strings and stored in the replacement target character string storage unit 336. And

次に、置換データ生成部337は、例えば(a)置換対象文字列の全体を画像化する、(b)置換文字列の一部(1文字おき、2文字おき、指定部分のみなど)を画像化する、(c)音声化するといった置換データ生成の方式などを情報提供者に提示して、情報提供者から当該置換データ生成の方式などの指定を受け付ける(ステップS7)。例えば図3(a)の例において、「山田太郎」及び「hoge@hoge.com」の全体を画像化する場合には、例えば図3(b)に示すような表示が行われるようになる。なお、図3(b)は単純な画像化であって、このような場合にはOCR機能を有する検索エンジン7の場合には、OCR機能を用いて画像中の文字列を特定する場合もある。そのような場合に対抗するため、図3(c)に示すように、画像化する際に、フォントをイタリックにしたり、フォントのサイズを文字列中で異なるようにしたり、フォントをボールドにしたり、フォントの色を文字列中で異なるようにしたり、フォントの種類を変更したり、さらに崩し文字を使用するようにしても良い。このような単純な画像化でなければ、OCR機能を有するような検索エンジン7であっても、文字を正確に読み取ることができなくなり、上で述べたような機械に対して秘匿するという目的をより確実にすることができるようになる。   Next, the replacement data generation unit 337, for example, (a) images the entire replacement target character string, (b) images a part of the replacement character string (every other character, every second character, only the specified portion, etc.) (C) The replacement data generation method such as voice conversion is presented to the information provider, and designation of the replacement data generation method is accepted from the information provider (step S7). For example, in the example of FIG. 3A, when the whole image of “Taro Yamada” and “hoge@hoge.com” is imaged, for example, the display as shown in FIG. 3B is performed. FIG. 3B is a simple image. In such a case, in the case of the search engine 7 having the OCR function, the character string in the image may be specified using the OCR function. . To counter such a case, as shown in FIG. 3C, when making an image, the font is italicized, the font size is made different in the character string, the font is bolded, The font color may be made different in the character string, the font type may be changed, or broken characters may be used. Without such simple imaging, even a search engine 7 having an OCR function cannot accurately read characters, and has the purpose of concealing it from the machine described above. It will be possible to be more certain.

さらに、置換文字列の一部を画像化する場合には、例えば図3(d)に示すような画像が表示される。すなわち、「山」の文字と、「郎」の文字と、「hoge」の文字とが画像化されている。このようにすれば、これらの文字を簡単には特定することができず、「山田太郎」及び「hoge@hoge.com」という文字列を機械によっては特定できない。このような一部の文字のみを画像化する場合には、画像化するための文字を情報提供者が指定するようにしてもよいし、1文字おき、2文字おきなどの方式を情報提供者が指定するようにしても良い。さらに、1文字おきという設定にしておき、自動的にこのようなルールに従って処理するようにしても良い。   Furthermore, when a part of the replacement character string is imaged, for example, an image as shown in FIG. 3D is displayed. That is, the characters “mountain”, “ro”, and “hoge” are imaged. In this way, these characters cannot be easily specified, and the character strings “Taro Yamada” and “hoge@hoge.com” cannot be specified by a machine. When only some of these characters are imaged, the information provider may specify the characters to be imaged, or the information provider may use a method such as every other character. May be specified. Further, every other character may be set, and processing may be automatically performed according to such rules.

音声化する場合には、音声合成機能を用いて音声データを生成する。なお、音声データの場合には、表示させることはできないので、例えば図4に示すような表示を行って、「山田太郎」の音声を再生させるためのリンク1と、「hoge@hoge.com」の音声を再生させるためのリンク2とのうち、再生したい部分を情報利用者にクリックさせる。通常のWebブラウザの機能によれば、必要なプログラムを起動して音声データを再生させることができる。   In the case of voice conversion, voice data is generated using a voice synthesis function. In the case of audio data, since it cannot be displayed, for example, display as shown in FIG. 4 is performed, and link 1 for reproducing the voice of “Taro Yamada” and “hoge@hoge.com” Of the link 2 for reproducing the voice of, the information user is caused to click on the part to be reproduced. According to the function of a normal web browser, a necessary program can be activated to reproduce audio data.

次に、置換データ生成部337は、情報提供者から指定された置換データ生成方式に従って、指定の置換対象文字列について置換データを生成し、置換データ格納部335に格納する(ステップS9)。上で述べたように画像データ又は音声データを生成する。なお、画像データ又は音声データについては、元の文字列を特定できるように置換データ格納部335に格納する。例えば、フォルダ名を元の文字列とし、ファイル名は日時などとする。   Next, the replacement data generation unit 337 generates replacement data for the specified replacement target character string according to the replacement data generation method specified by the information provider, and stores the replacement data in the replacement data storage unit 335 (step S9). As described above, image data or audio data is generated. Note that image data or audio data is stored in the replacement data storage unit 335 so that the original character string can be specified. For example, the folder name is the original character string, and the file name is the date and time.

そして、置換コンテンツ生成部332は、入力コンテンツ格納部31に格納されたコンテンツと、置換データ格納部335に格納された置換データとを用いて、置換データを参照するように入力コンテンツを変換して置換コンテンツを生成し、置換コンテンツ格納部32に格納する(ステップS11)。例えば、入力コンテンツ格納部31に格納されたコンテンツが図5(a)のようなHTMLファイルである場合に、図3(b)及び(c)のような表示を行わせるためには、図5(b)に示すようなHTMLファイルに変換する。すなわち、画像データを表示させる場合には、「山田太郎」という文字列を「山田太郎」用の画像ファイルを読み込むためのIMGタグに変換し、「hoge@hoge.com」という文字列を「hoge@hoge.com」用の画像ファイルを読み込むためのIMGタグに変換する。このように置換対象文字列以外の部分については同じであり、置換対象文字列の部分はIMGタグで置換データを参照している。なお、画像データについてはHTMLファイルと同じフォルダに配置する例である。このようにすれば、ファイル名から文字列を特定されない。   Then, the replacement content generation unit 332 uses the content stored in the input content storage unit 31 and the replacement data stored in the replacement data storage unit 335 to convert the input content so as to refer to the replacement data. A replacement content is generated and stored in the replacement content storage unit 32 (step S11). For example, in the case where the content stored in the input content storage unit 31 is an HTML file as shown in FIG. 5A, in order to perform the display as shown in FIGS. 3B and 3C, FIG. Convert to an HTML file as shown in (b). That is, when displaying image data, the character string “Taro Yamada” is converted into an IMG tag for reading an image file for “Taro Yamada”, and the character string “hoge@hoge.com” is converted to “hoge The image file for “@ hoge.com” is converted into an IMG tag for reading. Thus, the portions other than the replacement target character string are the same, and the replacement target character string portion refers to the replacement data by the IMG tag. In this example, the image data is arranged in the same folder as the HTML file. In this way, the character string is not specified from the file name.

また、図3(d)のような表示を行わせるためには、図5(c)のようなHTMLファイルに変換する。すなわち、一部の文字列について画像データを表示させる場合には、「山」という文字を「山」用の画像ファイルを読み込むためのIMGタグに変換し、「郎」という文字を「郎」用の画像ファイルを読み込むためのIMGタグに変換し、さらに「hoge」という文字列を「hoge」文字列用のIMGタグに変換する。   In addition, in order to display as shown in FIG. 3D, the file is converted into an HTML file as shown in FIG. That is, when displaying image data for a part of the character string, the character “mountain” is converted to an IMG tag for reading an image file for “mountain”, and the character “ro” is used for “ro”. Is converted into an IMG tag for reading the image file, and the character string “hoge” is converted into an IMG tag for the “hoge” character string.

さらに、図4のような表示を行わせるためには、図5(d)のようなHTMLファイルに変換する。すなわち、「山田太郎」という文字列を「山田太郎」用の音声ファイルを参照するためのAタグ及び「リンク1」という文字列に置換し、さらに「hoge」という文字列を「hoge」用の音声ファイルを参照するためのAタグ及び「リンク2」という文字列に置換する。この場合、音声ファイルはHTMLファイル内に提示することはできないので、ハイパーリンクが含められる形になっている。   Furthermore, in order to perform the display as shown in FIG. 4, it is converted into an HTML file as shown in FIG. That is, the character string “Taro Yamada” is replaced with the A tag for referring to the sound file for “Taro Yamada” and the character string “Link 1”, and the character string “hoge” is used for “hoge”. Replace with the A tag for referring to the audio file and the character string “link 2”. In this case, since the audio file cannot be presented in the HTML file, a hyperlink is included.

置換コンテンツ生成部332は、生成したHTMLファイルと画像ファイル又は音声ファイルを置換コンテンツ格納部32に格納する。   The replacement content generation unit 332 stores the generated HTML file and image file or audio file in the replacement content storage unit 32.

次に、試験表示部331は、入力コンテンツ格納部31に格納されたコンテンツと置換コンテンツ格納部32に格納された置換コンテンツとを例えば並べて表示するといった表示試験を実施する(ステップS13)。例えば、図3(a)のような表示と、図3(b)のような表示とを並べて表示し、情報提供者に対比させて、意図した表示がなされたか確認させる。   Next, the test display unit 331 performs a display test in which, for example, the content stored in the input content storage unit 31 and the replacement content stored in the replacement content storage unit 32 are displayed side by side (step S13). For example, the display as shown in FIG. 3 (a) and the display as shown in FIG. 3 (b) are displayed side by side, and the information provider is compared to confirm whether the intended display has been made.

ここでコンテンツ変換プログラム33は、情報提供者からアップロード指示がなされたか判断し(ステップS15)、アップロード指示がなされた場合、すなわち意図した表示が置換コンテンツによって実現されると判断された場合には、アップロード部334は、入力コンテンツ格納部31に格納されたコンテンツ及び置換コンテンツ格納部32に格納された置換コンテンツをサーバ5にアップロードする(ステップS21)。そして、情報提供者端末3側の処理を終了する。なお、サーバ5の登録インターフェース部51は、情報提供者端末3に対して認証処理などを実施し、認証に成功した場合には情報提供者端末3から受信したコンテンツを入力コンテンツ格納部52に格納し、情報提供者端末3から受信した置換コンテンツを置換コンテンツ格納部53に格納する。   Here, the content conversion program 33 determines whether or not an upload instruction has been made by the information provider (step S15). If the upload instruction is made, that is, if it is determined that the intended display is realized by the replacement content, The upload unit 334 uploads the content stored in the input content storage unit 31 and the replacement content stored in the replacement content storage unit 32 to the server 5 (step S21). Then, the process on the information provider terminal 3 side ends. The registration interface unit 51 of the server 5 performs an authentication process on the information provider terminal 3 and stores the content received from the information provider terminal 3 in the input content storage unit 52 when the authentication is successful. Then, the replacement content received from the information provider terminal 3 is stored in the replacement content storage unit 53.

一方、意図した表示が置換コンテンツによって実現されていない場合には、(a)置換データ生成方式などの設定をし直す、(b)置換対象文字列を設定し直す、(c)処理を中止するかを情報提供者に指定させる。そして、置換データ生成方式を設定し直す場合(ステップS17:Yesルート)、ステップS7に戻る。一方、置換データ生成方式を設定し直すわけではなく(ステップS17:Noルート)、置換対象文字列を設定し直す場合には(ステップS19:Yesルート)、ステップS5に戻る。一方、処理を中止するという指示の場合には(ステップS19:Noルート)、情報提供者端末3における処理を終了させる。   On the other hand, when the intended display is not realized by the replacement content, (a) the replacement data generation method is reset, (b) the replacement target character string is reset, and (c) the process is stopped. Let the information provider specify. When the replacement data generation method is reset (step S17: Yes route), the process returns to step S7. On the other hand, the replacement data generation method is not reset (step S17: No route). When the replacement target character string is reset (step S19: Yes route), the process returns to step S5. On the other hand, in the case of an instruction to stop the process (step S19: No route), the process in the information provider terminal 3 is terminated.

以上のような処理を実施すれば、情報提供者の意図した形で個人情報など機械に対して秘匿すべき文字列を画像化又は音声化することができるようになる。   By performing the processing as described above, a character string to be concealed from the machine such as personal information can be imaged or voiced in a form intended by the information provider.

次に、サーバ5がコンテンツを要求するアクセスを受けた場合の処理について図6を用いて説明する。例えば、情報利用者端末9のWebブラウザ91は、情報利用者の指示に従って特定のコンテンツ・データ(特定のURL(Uniform Resource Locator)のコンテンツ・データ)の要求をサーバ5に送信する(ステップS31)。サーバ5の配信処理部54は、特定のコンテンツ・データの要求を受信すると(ステップS33)、配信ルール格納部55を参照して要求元が公開拒否先に設定されているか確認する(ステップS35)。例えば、配信ルール格納部55には、URL毎、又は情報提供者毎に、公開拒否先IPアドレス等を定義しておく。IPアドレスではなく、例えば端末属性(ブラウザの種別など)を規定する場合もある。例えば、検索エンジン7のIPアドレスを公開拒否先のIPアドレスとして登録しておく。なお、配信ルール格納部55には、公開許可先のIPアドレスなどが格納されている場合もある。   Next, processing when the server 5 receives an access requesting content will be described with reference to FIG. For example, the Web browser 91 of the information user terminal 9 transmits a request for specific content data (content data of a specific URL (Uniform Resource Locator)) to the server 5 in accordance with an instruction from the information user (step S31). . Upon receiving a request for specific content data (step S33), the distribution processing unit 54 of the server 5 refers to the distribution rule storage unit 55 to check whether the request source is set as a disclosure rejection destination (step S35). . For example, in the distribution rule storage unit 55, a disclosure rejection destination IP address or the like is defined for each URL or each information provider. In some cases, for example, terminal attributes (such as browser type) are specified instead of the IP address. For example, the IP address of the search engine 7 is registered as the IP address of the disclosure rejection destination. Note that the distribution rule storage unit 55 may store an IP address of a public permission destination.

もし、要求元が公開拒否先であれば、要求された特定のコンテンツ・データに対応し且つ置換コンテンツ格納部53に格納された置換コンテンツのデータを読み出し、公開拒否先である要求元の情報利用者端末9に送信する(ステップS37)。   If the request source is the disclosure rejection destination, the replacement content data corresponding to the requested specific content data and stored in the replacement content storage unit 53 is read, and the request source information that is the disclosure rejection destination is used. To the user terminal 9 (step S37).

公開拒否先である情報利用者端末9のWebブラウザ91は、サーバ5から置換コンテンツを受信し、表示装置に表示する(ステップS39)。このような場合には、図3(b)乃至(d)若しくは図4のような表示がなされる。これでも、人間が見れば、コンテンツの内容については理解することができる。但し、機械では置換対象文字列を認識することはできない。   The Web browser 91 of the information user terminal 9 that is the disclosure refusal destination receives the replacement content from the server 5 and displays it on the display device (step S39). In such a case, the display as shown in FIGS. 3B to 3D or FIG. 4 is made. Even if this is seen by humans, the contents can be understood. However, the machine cannot recognize the replacement target character string.

一方、要求元が公開拒否先でなければ、要求された特定のコンテンツ・データ、すなわち通常のコンテンツ・データを入力コンテンツ格納部52から読み出し、要求元の情報利用者端末9に送信する(ステップS41)。情報利用者端末9のWebブラウザ91は、通常のコンテンツ・データを受信し、表示装置に表示する(ステップS43)。例えば図3(a)のような表示がなされる。この場合には、置換対象文字列の二次利用も可能となる。   On the other hand, if the request source is not the disclosure refusal destination, the requested specific content data, that is, normal content data is read from the input content storage unit 52 and transmitted to the requesting information user terminal 9 (step S41). ). The Web browser 91 of the information user terminal 9 receives normal content data and displays it on the display device (step S43). For example, the display as shown in FIG. In this case, secondary use of the replacement target character string is also possible.

なお、図4のような場合には、情報利用者は、Webブラウザ91のウインドウに表示されたリンク1という文字列又はリンク2という文字列若しくはその両方をクリックし、音声再生プログラムを起動すると共に音声ファイルをサーバ5からダウンロードし、再生出力する必要がある。   In the case of FIG. 4, the information user clicks the character string “link 1” and / or the character string “link 2” displayed in the window of the Web browser 91 to start the audio reproduction program. It is necessary to download the audio file from the server 5 and reproduce and output it.

このような実施の形態によれば、情報提供者端末の意図に従って、適切な置換コンテンツが生成され、さらにサーバ5側で公開拒否先か否かを判断するため、適切ではない情報利用者には置換コンテンツを、適切な情報利用者には通常のコンテンツを配信することも可能となる。   According to such an embodiment, an appropriate replacement content is generated according to the intention of the information provider terminal, and further, it is determined whether the server 5 side is a disclosure refusal destination. It is also possible to distribute replacement content and normal content to appropriate information users.

なお、複数の置換データ生成方式に従って置換コンテンツを生成しておき、サーバ5においても複数の種類の置換コンテンツを蓄積し、要求元の属性に応じて異なる種類の置換コンテンツを配信するようにしても良い。   It should be noted that replacement content is generated in accordance with a plurality of replacement data generation methods, a plurality of types of replacement content are accumulated also in the server 5, and different types of replacement content are distributed according to the attribute of the request source. good.

[実施の形態2]
上で述べた例では、情報提供者側が事前に置換コンテンツの生成を行ってサーバ5側にアップロードしておくものであるが、情報提供者側では通常のコンテンツの生成のみを行って、サーバ側で置換コンテンツの生成を事前に又は動的に実施するようにしても良い。
[Embodiment 2]
In the example described above, the information provider side generates the replacement content in advance and uploads it to the server 5 side. However, the information provider side only generates the normal content, and the server side The replacement content may be generated in advance or dynamically.

以下、サーバ側で置換コンテンツを生成する場合の実施の形態を図7及び図8を用いて説明する。インターネットなどのネットワーク1には、Webブラウザ91を実行する1又は複数の情報利用者端末9と、検索エンジン7と、本実施の形態における主要な処理を実施するサーバ501と、HTMLファイル作成プログラムなどを実行する情報提供者端末301とが接続されている。   Hereinafter, an embodiment in which replacement content is generated on the server side will be described with reference to FIGS. In a network 1 such as the Internet, one or a plurality of information user terminals 9 that execute a Web browser 91, a search engine 7, a server 501 that performs the main processing in the present embodiment, an HTML file creation program, and the like Is connected to an information provider terminal 301 that executes

本実施の形態におけるサーバ501は、情報提供者端末301に対する認証処理を実施し、認証処理が成功した場合には当該情報提供者端末301からアップロードされた通常のコンテンツ・データを受信する登録インターフェース部551と、登録インターフェース部551が情報提供者端末301から受信した通常のコンテンツ・データを格納する入力コンテンツ格納部552と、置換対象文字列を抽出するための抽出ルールを格納する抽出ルール格納部554と、入力コンテンツ格納部552に格納されたコンテンツから抽出ルール格納部554に格納されたデータに従って置換対象文字列を抽出する置換対象文字列抽出部553と、置換対象文字列抽出部553によって抽出された置換対象文字列を格納する置換対象文字列格納部555と、置換対象文字列格納部555に格納された置換対象文字列から所定の方式の置換データを生成する置換データ生成部556と、置換データ生成部556によって生成された置換データを格納する置換データ格納部557と、置換データ格納部557に格納された置換データと入力コンテンツ格納部552に格納された通常のコンテンツのデータを用いて検索エンジン7等の機械によるアクセスに対して置換対象文字列を秘匿するために提供される置換コンテンツを生成する置換コンテンツ生成部558と、置換コンテンツ生成部558によって生成された置換コンテンツを格納する置換コンテンツ格納部559と、公開拒否先又は公開許可先のIPアドレスなどを格納する配信ルール格納部561と、入力コンテンツ格納部552に格納された通常のコンテンツと置換コンテンツ格納部559に格納された置換コンテンツのうち配信ルール格納部561に格納されている公開拒否先又は公開許可先のデータに基づきいずれかを要求元に配信する配信処理部560とを含む。   The server 501 in the present embodiment performs an authentication process on the information provider terminal 301, and if the authentication process is successful, a registration interface unit that receives normal content data uploaded from the information provider terminal 301 551, an input content storage unit 552 that stores normal content data received by the registration interface unit 551 from the information provider terminal 301, and an extraction rule storage unit 554 that stores an extraction rule for extracting a replacement target character string. And a replacement target character string extraction unit 553 that extracts a replacement target character string from content stored in the input content storage unit 552 according to data stored in the extraction rule storage unit 554, and a replacement target character string extraction unit 553. Replacement target character string storage 5 for storing the replacement target character string 5, a replacement data generation unit 556 that generates replacement data of a predetermined method from the replacement target character string stored in the replacement target character string storage unit 555, and a replacement that stores the replacement data generated by the replacement data generation unit 556 A replacement target character string for access by a machine such as the search engine 7 using the data storage unit 557, replacement data stored in the replacement data storage unit 557, and normal content data stored in the input content storage unit 552 A replacement content generation unit 558 that generates replacement content provided to conceal the content, a replacement content storage unit 559 that stores replacement content generated by the replacement content generation unit 558, and an IP address that is a refusal destination or a public permission destination A distribution rule storage unit 561 for storing addresses and the like and an input content storage unit 552 Distribution that distributes to the request source based on the data of the refusal destination or permission destination stored in the distribution rule storage unit 561 among the stored normal content and the replacement content stored in the replacement content storage unit 559 And a processing unit 560.

情報提供者は、情報提供者端末301を操作して、作成したコンテンツのデータをサーバ501にアップロードする。サーバ501の登録インターフェース部551は、情報提供者端末301に対する認証処理を実施し、認証に成功すれば、アップロードされたコンテンツ・データを入力コンテンツ格納部552に格納する。以下の処理については図8に従って説明する。なお、図8の処理は、事前に実施される場合もあり、その場合には第1の実施の形態における図6の処理フローは、そのままである。一方、図8の処理は、特定のコンテンツ・データの要求を受信した場合にも実施される場合があり、その場合には例えば図6のステップS35とステップS37の間に動的に実施される場合もある。この場合、置換データの生成方式については、要求元の属性によって変更される場合もある。   The information provider operates the information provider terminal 301 to upload the created content data to the server 501. The registration interface unit 551 of the server 501 performs an authentication process on the information provider terminal 301. If the authentication is successful, the registered content data is stored in the input content storage unit 552. The following processing will be described with reference to FIG. Note that the process of FIG. 8 may be performed in advance, and in this case, the process flow of FIG. 6 in the first embodiment remains unchanged. On the other hand, the process of FIG. 8 may also be performed when a request for specific content data is received. In this case, for example, the process is dynamically performed between step S35 and step S37 of FIG. In some cases. In this case, the replacement data generation method may be changed depending on the attribute of the request source.

まず、置換対象文字列抽出部553は、入力コンテンツ格納部552からコンテンツのデータを読み込む(ステップS51)。そして、抽出ルール格納部554に予め格納されている情報提供者毎又はコンテンツ毎の抽出ルールに従って、例えば固有名詞その他の置換対象文字列をコンテンツから抽出し、置換対象文字列格納部555に格納する(ステップS53)。基本的にはステップS3と同様であるが、ここでは情報提供者に対して候補として提示するわけではない。   First, the replacement target character string extraction unit 553 reads content data from the input content storage unit 552 (step S51). Then, according to the extraction rules for each information provider or each content stored in advance in the extraction rule storage unit 554, for example, proper nouns and other replacement target character strings are extracted from the content and stored in the replacement target character string storage unit 555. (Step S53). Basically, it is the same as step S3, but here it is not presented as a candidate to the information provider.

次に、置換データ生成部556は、例えば(a)置換対象文字列の全体を画像化する、(b)置換文字列の一部(1文字おき、2文字おき、指定部分のみなど)を画像化する、(c)音声化するといった置換データ生成の方式のうち所定の方式に従って、置換対象文字列格納部555に格納された置換対象文字列について置換データを生成し、置換データ格納部557に格納する(ステップS55)。置換対象文字列について画像データ又は音声データを生成する。基本的にはステップS9と同じであるが、置換データ生成方式については予め設定されているものを使用する。置換データ生成方式については、情報提供者によって予め設定されている場合もあれば、サーバ501の管理者によって設定される場合もある。   Next, the replacement data generation unit 556 images, for example, (a) the entire replacement target character string, (b) part of the replacement character string (every other character, every second character, only the designated portion, etc.) The replacement data is generated for the replacement target character string stored in the replacement target character string storage unit 555 in accordance with a predetermined method among the replacement data generation methods such as (c) voice conversion, and the replacement data storage unit 557 stores the replacement data. Store (step S55). Image data or audio data is generated for the replacement target character string. Basically, it is the same as step S9, but a preset data generation method is used. The replacement data generation method may be set in advance by the information provider, or may be set by the administrator of the server 501.

そして、置換コンテンツ生成部558は、入力コンテンツ格納部552に格納されたコンテンツと、置換データ格納部557に格納された置換データとを用いて、置換データを参照するように入力コンテンツを変換して、置換コンテンツを生成し、置換コンテンツ格納部559に格納する(ステップS57)。基本的にはステップS11と同じ処理である。   Then, the replacement content generation unit 558 converts the input content to refer to the replacement data by using the content stored in the input content storage unit 552 and the replacement data stored in the replacement data storage unit 557. Then, the replacement content is generated and stored in the replacement content storage unit 559 (step S57). This is basically the same process as step S11.

以上のような処理を実施すれば、サーバ側で個人情報など機械に対して秘匿すべき文字列を画像化又は音声化することができるようになる。すなわち、情報提供者が意図しない個人情報などの二次利用を防ぐことができるようになる。公開拒否先であっても、人間であれば、視覚又は聴覚によって秘匿すべき文字列の内容を認識することができる。   If the processing as described above is performed, a character string to be concealed from the machine, such as personal information, can be imaged or voiced on the server side. That is, secondary use of personal information unintended by the information provider can be prevented. Even if it is a public refusal destination, if it is a human being, it can recognize the content of the character string which should be concealed visually or auditorily.

特に、検索エンジンなどによって自動抽出されたメールアドレスがスパムメールの送信先に用いられるなどといったことを防止できる。さらに、氏名や住所といった他の表現を行うと間違った情報として伝えられるおそれのある情報についても、機械に対しては秘匿し、人間に対しては公開するといった両面性を保持させることができるようになる。   In particular, it is possible to prevent a mail address automatically extracted by a search engine or the like from being used as a spam mail destination. In addition, it is possible to maintain the duality of information that may be conveyed as incorrect information if other expressions such as name and address are used, such as concealing it from machines and making it public to humans. become.

以上本発明の実施の形態を説明したが、本発明はこれに限定されるものではない。すなわち、個人情報だけが検索エンジンなどの機械に対する秘匿すべき情報ではないので、他の種類の文字列を秘匿対象として特定するようにしても良い。   Although the embodiment of the present invention has been described above, the present invention is not limited to this. That is, since only personal information is not information that should be kept secret from machines such as search engines, other types of character strings may be specified as secret objects.

上で述べた例では、情報提供者端末又はサーバにおいて置換コンテンツを作成することとしていたが、置換コンテンツ作成はネットワーク上の他のコンピュータ(プロキシ、端末など)によって実施するようにしても良い。また、置換データが音声ファイルの場合にも、同一ファイルに音声データを埋め込むことができる場合もある。   In the example described above, the replacement content is created in the information provider terminal or server. However, the replacement content creation may be performed by another computer (proxy, terminal, etc.) on the network. Even when the replacement data is an audio file, the audio data may be embedded in the same file.

また、図1及び図7に示した機能ブロックは一例であって、必ずしも実際のプログラムモジュールと対応するわけではない。   The functional blocks shown in FIGS. 1 and 7 are examples, and do not necessarily correspond to actual program modules.

なお、サーバ、情報提供者端末、情報利用者端末、プロキシは、図9のようなコンピュータ装置であって、メモリ2501(記憶装置)とCPU2503(処理装置)とハードディスク・ドライブ(HDD)2505と表示装置2509に接続される表示制御部2507とリムーバブル・ディスク2511用のドライブ装置2513と入力装置2515とネットワークに接続するための通信制御部2517とがバス2519で接続されている。オペレーティング・システム(OS:Operating System)及び本実施の形態における処理を実施するためのアプリケーション・プログラムは、HDD2505に格納されており、CPU2503により実行される際にはHDD2505からメモリ2501に読み出される。必要に応じてCPU2503は、表示制御部2507、通信制御部2517、ドライブ装置2513を制御して、必要な動作を行わせる。また、処理途中のデータについては、メモリ2501に格納され、必要があればHDD2505に格納される。本発明の実施の形態では、上で述べた処理を実施するためのアプリケーション・プログラムはリムーバブル・ディスク2511に格納されて頒布され、ドライブ装置2513からHDD2505にインストールされる。インターネットなどのネットワーク及び通信制御部2517を経由して、HDD2505にインストールされる場合もある。このようなコンピュータ装置は、上で述べたCPU2503、メモリ2501などのハードウエアとOS及び必要なアプリケーション・プログラムとが有機的に協働することにより、上で述べたような各種機能を実現する。   The server, the information provider terminal, the information user terminal, and the proxy are computer devices as shown in FIG. 9, and display a memory 2501 (storage device), a CPU 2503 (processing device), and a hard disk drive (HDD) 2505. A display control unit 2507 connected to the device 2509, a drive device 2513 for the removable disk 2511, an input device 2515, and a communication control unit 2517 for connecting to a network are connected by a bus 2519. An operating system (OS: Operating System) and an application program for performing processing in the present embodiment are stored in the HDD 2505, and are read from the HDD 2505 to the memory 2501 when executed by the CPU 2503. If necessary, the CPU 2503 controls the display control unit 2507, the communication control unit 2517, and the drive device 2513 to perform necessary operations. Further, data in the middle of processing is stored in the memory 2501 and stored in the HDD 2505 if necessary. In the embodiment of the present invention, an application program for performing the processing described above is stored in the removable disk 2511 and distributed, and is installed in the HDD 2505 from the drive device 2513. In some cases, the HDD 2505 may be installed via a network such as the Internet and the communication control unit 2517. Such a computer apparatus realizes various functions as described above by organically cooperating hardware such as the CPU 2503 and the memory 2501 described above, the OS, and necessary application programs.

(付記1)
テキストデータを含む公開すべきコンテンツデータを格納するコンテンツデータ格納部から処理すべきコンテンツデータを読み出し、当該コンテンツデータからテキストデータとしての出力を回避すべき文字列を特定する特定ステップと、
特定された前記文字列を、当該文字列の内容を維持し、前記テキストデータ以外の置換データに変換する変換ステップと、
前記コンテンツデータにおける前記文字列以外のデータと前記置換データとを用いて、前記コンテンツデータの公開内容を維持するための公開コンテンツデータを生成し、記憶装置に格納する生成ステップと、
を含み、コンピュータにより実行されるデータ変換方法。
(Appendix 1)
A specific step of reading content data to be processed from a content data storage unit that stores content data to be disclosed including text data, and specifying a character string that should be prevented from being output as text data from the content data;
A conversion step of maintaining the content of the character string and converting the identified character string into replacement data other than the text data;
Using the data other than the character string in the content data and the replacement data to generate public content data for maintaining the public content of the content data, and storing it in a storage device;
A data conversion method executed by a computer.

(付記2)
前記特定ステップが、
所定の種類の個人情報を抽出するステップ
を含む付記1記載のデータ変換方法。
(Appendix 2)
The specific step includes
The data conversion method according to appendix 1, including a step of extracting a predetermined type of personal information.

(付記3)
前記特定ステップが、
所定の種類の文字列の少なくとも一部を抽出するステップ
を含む付記1記載のデータ変換方法。
(Appendix 3)
The specific step includes
The data conversion method according to appendix 1, including a step of extracting at least a part of a predetermined type of character string.

(付記4)
前記テキストデータ以外の置換データが、前記文字列を表す画像データ又は音声データである
付記1記載のデータ変換方法。
(Appendix 4)
The data conversion method according to claim 1, wherein the replacement data other than the text data is image data or audio data representing the character string.

(付記5)
前記画像データが、前記文字列に含まれる文字に対応するフォントを崩した画像を含む
付記1記載のデータ変換方法。
(Appendix 5)
The data conversion method according to claim 1, wherein the image data includes an image in which a font corresponding to a character included in the character string is broken.

(付記6)
前記公開コンテンツデータが、前記置換データへの参照データを含む
付記1記載のデータ変換方法。
(Appendix 6)
The data conversion method according to claim 1, wherein the public content data includes reference data for the replacement data.

(付記7)
前記公開コンテンツデータが、前記置換データを別ウインドウで表示させるためのデータを含む
付記1記載のデータ変換方法。
(Appendix 7)
The data conversion method according to claim 1, wherein the public content data includes data for displaying the replacement data in a separate window.

(付記8)
前記公開コンテンツデータが、前記コンテンツデータにおける前記文字列以外のデータと前記置換データとを組み合わせて表示させるためのデータである
付記1記載のデータ変換方法。
(Appendix 8)
The data conversion method according to claim 1, wherein the public content data is data for displaying data other than the character string in the content data in combination with the replacement data.

(付記9)
コンテンツデータ要求を受信した場合、当該コンテンツデータ要求の送信元が、公開拒否リストに登録されているか、又は公開許可リストに登録されていないか判断するステップと、
前記コンテンツデータ要求の送信元が前記公開拒否リストに登録されている又は前記公開許可リストに登録されていないと判断された場合には、前記記憶装置に格納されている前記公開コンテンツデータを、前記コンテンツデータ要求の送信元に送信するステップと、
前記コンテンツデータ要求の送信元が前記公開拒否リストに登録されていない又は前記公開許可リストに登録されていると判断された場合には、前記コンテンツデータ格納部に格納されている前記コンテンツデータを、前記コンテンツデータ要求の送信元に送信するステップと、
をさらに含む付記1記載のデータ変換方法。
(Appendix 9)
When receiving a content data request, determining whether the transmission source of the content data request is registered in the disclosure denial list or registered in the disclosure permission list;
When it is determined that the transmission source of the content data request is registered in the disclosure rejection list or not registered in the disclosure permission list, the published content data stored in the storage device is Sending to the sender of the content data request;
If it is determined that the transmission source of the content data request is not registered in the disclosure rejection list or registered in the disclosure permission list, the content data stored in the content data storage unit is Transmitting to the source of the content data request;
The data conversion method according to appendix 1, further comprising:

(付記10)
付記1乃至9のいずれか1つ記載のデータ変換方法をコンピュータに実行させるためのプログラム。
(Appendix 10)
A program for causing a computer to execute the data conversion method according to any one of appendices 1 to 9.

(付記11)
テキストデータを含む公開すべきコンテンツデータを格納するコンテンツデータ格納部から処理すべきコンテンツデータを読み出し、当該コンテンツデータからテキストデータとしての出力を回避すべき文字列を特定する特定手段と、
特定された前記文字列を、当該文字列の内容を維持し、前記テキストデータ以外の置換データに変換する変換手段と、
前記コンテンツデータにおける前記文字列以外のデータと前記置換データとを用いて、前記コンテンツデータの公開内容を維持するための公開コンテンツデータを生成し、記憶装置に格納する生成手段と、
を有するデータ変換装置。
(Appendix 11)
A means for reading content data to be processed from a content data storage unit that stores content data to be disclosed including text data, and specifying a character string that should be prevented from being output as text data from the content data;
Conversion means for maintaining the content of the character string and converting the specified character string into replacement data other than the text data;
Generating means for generating public content data for maintaining the public content of the content data using data other than the character string in the content data and the replacement data, and storing the public content data in a storage device;
A data conversion device.

1 ネットワーク
3,301 情報提供者端末
5,501 サーバ
7 検索エンジン
9 情報利用者端末
31 入力コンテンツ格納部
32 置換コンテンツ格納部
33 コンテンツ変換プログラム
51,551 登録インターフェース部
52,552 入力コンテンツ格納部
53,559 置換コンテンツ格納部
54,560 配信処理部
55,561 配信ルール格納部
91 Webブラウザ
331 試験表示部
332,558 置換コンテンツ生成部
333,553 置換対象文字列抽出部
334 アップロード部
335,557 置換データ格納部
336,555 置換対象文字列格納部
337,556 置換データ生成部
554 抽出ルール格納部
DESCRIPTION OF SYMBOLS 1 Network 3,301 Information provider terminal 5,501 Server 7 Search engine 9 Information user terminal 31 Input content storage part 32 Replacement content storage part 33 Content conversion program 51,551 Registration interface part 52,552 Input content storage part 53, 559 Replacement content storage unit 54, 560 Distribution processing unit 55, 561 Distribution rule storage unit 91 Web browser 331 Test display unit 332, 558 Replacement content generation unit 333, 553 Replacement target character string extraction unit 334 Upload unit 335, 557 Replacement data storage Sections 336 and 555 Replacement target character string storage sections 337 and 556 Replacement data generation section 554 Extraction rule storage section

Claims (9)

テキストデータを含む公開すべきコンテンツデータを格納するコンテンツデータ格納部から処理すべきコンテンツデータを読み出し、当該コンテンツデータからテキストデータとしての出力を回避すべき文字列を特定する特定ステップと、
特定された前記文字列を、当該文字列の内容を維持し、前記テキストデータ以外の置換データに変換する変換ステップと、
前記コンテンツデータにおける前記文字列以外のデータと前記置換データとを用いて、前記コンテンツデータの公開内容を維持するための公開コンテンツデータを生成し、記憶装置に格納する生成ステップと、
コンテンツデータ要求を受信した場合、当該コンテンツデータ要求の送信元が、公開拒否リストに登録されているか、又は公開許可リストに登録されていないか判断するステップと、
前記コンテンツデータ要求の送信元が前記公開拒否リストに登録されている又は前記公開許可リストに登録されていないと判断された場合には、前記記憶装置に格納されている前記公開コンテンツデータを、前記コンテンツデータ要求の送信元に送信するステップと、
前記コンテンツデータ要求の送信元が前記公開拒否リストに登録されていない又は前記公開許可リストに登録されていると判断された場合には、前記コンテンツデータ格納部に格納されている前記コンテンツデータを、前記コンテンツデータ要求の送信元に送信するステップと、
を含み、コンピュータにより実行されるデータ変換方法。
A specific step of reading content data to be processed from a content data storage unit that stores content data to be disclosed including text data, and specifying a character string that should be prevented from being output as text data from the content data;
A conversion step of maintaining the content of the character string and converting the identified character string into replacement data other than the text data;
Using the data other than the character string in the content data and the replacement data to generate public content data for maintaining the public content of the content data, and storing it in a storage device;
When receiving a content data request, determining whether the transmission source of the content data request is registered in the disclosure denial list or registered in the disclosure permission list;
When it is determined that the transmission source of the content data request is registered in the disclosure rejection list or not registered in the disclosure permission list, the published content data stored in the storage device is Sending to the sender of the content data request;
If it is determined that the transmission source of the content data request is not registered in the disclosure rejection list or registered in the disclosure permission list, the content data stored in the content data storage unit is Transmitting to the source of the content data request;
A data conversion method executed by a computer.
前記特定ステップが、
所定の種類の個人情報を抽出するステップ
を含む請求項1記載のデータ変換方法。
The specific step includes
The data conversion method according to claim 1, further comprising: extracting a predetermined type of personal information.
前記特定ステップが、
所定の種類の文字列の少なくとも一部を抽出するステップ
を含む請求項1記載のデータ変換方法。
The specific step includes
The data conversion method according to claim 1, further comprising: extracting at least a part of a predetermined type of character string.
前記テキストデータ以外の置換データが、前記文字列を表す画像データ又は音声データである
請求項1記載のデータ変換方法。
The data conversion method according to claim 1, wherein the replacement data other than the text data is image data or audio data representing the character string.
前記画像データが、前記文字列に含まれる文字に対応するフォントを崩した画像を含む
請求項4記載のデータ変換方法。
The data conversion method according to claim 4, wherein the image data includes an image in which a font corresponding to a character included in the character string is broken.
前記公開コンテンツデータが、前記置換データへの参照データを含む
請求項1記載のデータ変換方法。
The data conversion method according to claim 1, wherein the public content data includes reference data to the replacement data.
前記公開コンテンツデータが、前記コンテンツデータにおける前記文字列以外のデータと前記置換データとを組み合わせて表示させるためのデータである
請求項1記載のデータ変換方法。
The data conversion method according to claim 1, wherein the public content data is data for displaying a combination of data other than the character string in the content data and the replacement data.
請求項1乃至7のいずれか1つ記載のデータ変換方法をコンピュータに実行させるためのプログラム。   A program for causing a computer to execute the data conversion method according to any one of claims 1 to 7. テキストデータを含む公開すべきコンテンツデータを格納するコンテンツデータ格納部から処理すべきコンテンツデータを読み出し、当該コンテンツデータからテキストデータとしての出力を回避すべき文字列を特定する特定手段と、
特定された前記文字列を、当該文字列の内容を維持し、前記テキストデータ以外の置換データに変換する変換手段と、
前記コンテンツデータにおける前記文字列以外のデータと前記置換データとを用いて、前記コンテンツデータの公開内容を維持するための公開コンテンツデータを生成し、記憶装置に格納する生成手段と、
コンテンツデータ要求を受信した場合、当該コンテンツデータ要求の送信元が、公開拒否リストに登録されているか、又は公開許可リストに登録されていないか判断し、前記コンテンツデータ要求の送信元が前記公開拒否リストに登録されている又は前記公開許可リストに登録されていないと判断された場合には、前記記憶装置に格納されている前記公開コンテンツデータを、前記コンテンツデータ要求の送信元に送信し、前記コンテンツデータ要求の送信元が前記公開拒否リストに登録されていない又は前記公開許可リストに登録されていると判断された場合には、前記コンテンツデータ格納部に格納されている前記コンテンツデータを、前記コンテンツデータ要求の送信元に送信する配信手段と、
を有するデータ変換装置。
A means for reading content data to be processed from a content data storage unit that stores content data to be disclosed including text data, and specifying a character string that should be prevented from being output as text data from the content data;
Conversion means for maintaining the content of the character string and converting the specified character string into replacement data other than the text data;
Generating means for generating public content data for maintaining the public content of the content data using data other than the character string in the content data and the replacement data, and storing the public content data in a storage device;
When the content data request is received, it is determined whether the transmission source of the content data request is registered in the disclosure rejection list or the disclosure permission list, and the transmission source of the content data request is the disclosure rejection If it is determined that it is registered in the list or not registered in the publishing permission list, the public content data stored in the storage device is transmitted to the transmission source of the content data request, and When it is determined that the transmission source of the content data request is not registered in the disclosure rejection list or registered in the disclosure permission list, the content data stored in the content data storage unit is A delivery means for sending to the sender of the content data request;
A data conversion device.
JP2011093856A 2011-04-20 2011-04-20 Data conversion method, apparatus and program Expired - Fee Related JP4804591B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011093856A JP4804591B2 (en) 2011-04-20 2011-04-20 Data conversion method, apparatus and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011093856A JP4804591B2 (en) 2011-04-20 2011-04-20 Data conversion method, apparatus and program

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2006069048A Division JP4753755B2 (en) 2006-03-14 2006-03-14 Data conversion method, apparatus and program

Publications (3)

Publication Number Publication Date
JP2011159321A true JP2011159321A (en) 2011-08-18
JP2011159321A5 JP2011159321A5 (en) 2011-09-29
JP4804591B2 JP4804591B2 (en) 2011-11-02

Family

ID=44591156

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011093856A Expired - Fee Related JP4804591B2 (en) 2011-04-20 2011-04-20 Data conversion method, apparatus and program

Country Status (1)

Country Link
JP (1) JP4804591B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018087921A1 (en) * 2016-11-14 2018-05-17 株式会社Pfu Editing apparatus, editing method, and program
KR102192235B1 (en) * 2020-05-11 2020-12-17 지엔소프트(주) Device for providing digital document de-identification service based on visual studio tools for office

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06243121A (en) * 1993-02-15 1994-09-02 Sharp Corp Document processor
JP2002312362A (en) * 2001-04-18 2002-10-25 Nippon Telegr & Teleph Corp <Ntt> Document disclosure method, document browsing system, and program and recording medium therefor
JP2004334851A (en) * 2003-04-16 2004-11-25 Matsushita Electric Ind Co Ltd Access controller
JP2005135256A (en) * 2003-10-31 2005-05-26 Dowango:Kk Program, method and system for communication using password

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06243121A (en) * 1993-02-15 1994-09-02 Sharp Corp Document processor
JP2002312362A (en) * 2001-04-18 2002-10-25 Nippon Telegr & Teleph Corp <Ntt> Document disclosure method, document browsing system, and program and recording medium therefor
JP2004334851A (en) * 2003-04-16 2004-11-25 Matsushita Electric Ind Co Ltd Access controller
JP2005135256A (en) * 2003-10-31 2005-05-26 Dowango:Kk Program, method and system for communication using password

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018087921A1 (en) * 2016-11-14 2018-05-17 株式会社Pfu Editing apparatus, editing method, and program
KR102192235B1 (en) * 2020-05-11 2020-12-17 지엔소프트(주) Device for providing digital document de-identification service based on visual studio tools for office

Also Published As

Publication number Publication date
JP4804591B2 (en) 2011-11-02

Similar Documents

Publication Publication Date Title
JP4753755B2 (en) Data conversion method, apparatus and program
US11294968B2 (en) Combining website characteristics in an automatically generated website
CN102349087B (en) Automatically providing content associated with captured information, such as information captured in real-time
JP4602769B2 (en) Navigate the content space of a document set
KR101443404B1 (en) Capture and display of annotations in paper and electronic documents
JP5353148B2 (en) Image information retrieving apparatus, image information retrieving method and computer program therefor
US9971841B2 (en) Integration of web information architecture taxonomy and web metrics taxonomy
US7899808B2 (en) Text enhancement mechanism
US8924251B2 (en) Systems and methods for providing one or more pages from an electronic document
JP2005293239A (en) Information sharing device, and information sharing method
KR20080014797A (en) Integrated native language translation
JP2010073114A6 (en) Image information retrieving apparatus, image information retrieving method and computer program therefor
JP2009295153A (en) Web based text detection method and web based system
US20090144158A1 (en) System And Method For Enabling Viewing Of Documents Not In HTML Format
US8411956B2 (en) Associating optical character recognition text data with source images
JP5676167B2 (en) System and method for generating search results
US20090300481A1 (en) Server apparatus, information processing apparatus, data processing method, and storage medium including program
JP2001265753A (en) Method and system for applying notes to document and computer readable recording medium
JP2020005309A (en) Moving image editing server and program
US8195762B2 (en) Locating a portion of data on a computer network
WO2019245033A1 (en) Moving image editing server and program
JP4804591B2 (en) Data conversion method, apparatus and program
JP4885678B2 (en) Content creation apparatus and content creation method
JP2009026013A (en) Content registration/provision device, content registration/provision control method, and content registration/provision control program
KR20190088437A (en) Complete text conversion of scanned book images and text file utilization system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110420

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110627

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110712

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110809

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110809

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140819

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees