JP5158379B2

JP5158379B2 - コンテンツ処理装置、コンテンツ処理方法、並びに、コンテンツ処理プログラム

Info

Publication number: JP5158379B2
Application number: JP2009512962A
Authority: JP
Inventors: 健花沢; 正宏岩垂; 恭二平田
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2007-04-27
Filing date: 2008-04-25
Publication date: 2013-03-06
Anticipated expiration: 2028-04-25
Also published as: CN101669119A; US20100063965A1; CN101669119B; WO2008136381A1; JPWO2008136381A1

Description

本発明は、コンテンツの特定の部分を隠蔽化するコンテンツ処理技術に関連し、特に、隠蔽化している事実及び隠蔽した内容が容易に読み手に推測されず、隠蔽化前の元内容に近い自然な内容のコンテンツを得ることの出来るコンテンツ処理技術に関する。

業務効率化・生産性向上の観点から、企業では、取引先や関連会社といった外部の会社に業務を委託する、所謂、外注を行うことがある。このような場合、例えば、取引先に開発業務を依頼する場合などにおいて、要件定義書や仕様書といった機密文書を外注先に提示して開発の協力を要請する局面が多々ある。

このような場合、外注する側の企業にとっては、マンパワーを確保し開発納期の短縮化が図れる一方、文書や写真といった機密性の高い情報（以下、機密コンテンツとも記載）を社外に提示することによる情報漏洩のリスクが生じる。この為、企業では、重要な開発情報を含む機密コンテンツを社外に提示するにあたり、秘密保持契約の締結をはじめとする各種対策が採られる。

例えば、機密コンテンツとして機密文書を社外に提示する際の一般的なケースとして、社外に開示したくないキーワードを他の文字列に置き換えて隠蔽化する方法がある。

或いは、外注先に企業秘密の情報を含む仕様書を提示する替わりに、その仕様書の内容に近い類似文書を取得し、取得した類似文書と本来の仕様書との差異を開示するような方法がとられる場合もある。尚、この場合、ある文書と同質あるいは似た内容の文書を検索する類似文書検索の技術としては、例えば特許文献１が知られている。

特許文献１の発明には、テキスト情報の類似性を着目した類似検索技術が開示されている。具体的には、特許文献１には、検索条件としてコンテンツの文書が例示されると、例示された文書に含まれるテキスト情報などの特徴情報と蓄積された文書に含まれるテキスト情報などの特徴情報とをそれぞれ比較し、それらに重みの値を掛け合わせ、総合的な評価値を計算したものを文書レベルでの類似度とし、類似度が高い順に文書を検索結果として出力する技術が提案されている。

特開２０００−１４８７９３号公報

ところで、例えば、機密コンテンツとして機密文書を社外に開示するにあたり、上述した従来の方法では次のような問題があった。

第１の問題は、文字列の置換によって文書全体の意味が不明瞭になり、開発のポイントが読み手にうまく伝わらない場合があるということである。

また、第２の問題は、機密文書を隠蔽化していること自体が容易に判読されてしまうことである。このことは、委託側・受託側相互の信頼関係に影響を与える程ではないにせよ、開発業務を遂行するうえでの円滑なコミュニケーションを考えた場合には好ましいとは言えない。

第３の問題は、前後の文脈から、隠蔽化したキーワードが推測されてしまうことである。

しかしながら、特許文献１の技術は、単に類似した文書を検索するだけであり、文書の特定部分を隠蔽するという課題には対応していなかった。この為、前述の問題を解決することはできなかった。

更に、その他の従来技術を見ても、特定部分を隠蔽しつつ読み手にとって自然な文書を提供できるような技術は無く、上述した問題を克服することはできなかった。結局の所、機密文書を外注先に提供するにあたっては、ドキュメントを手作業で新たに作り直さなければならないケースが殆どであり、手間がかかった。

そこで、本発明が解決しようとする課題は、隠蔽化している事実及び隠蔽した内容が容易に読み手に推測されず、その一方で、隠蔽化前の元コンテンツの内容に近い自然な内容のコンテンツを得ることの出来るコンテンツ処理技術を提供することである。

上記課題を解決する本発明は、コンテンツ処理装置であって、原コンテンツのうち隠蔽する部分を除く部分と内容が類似するコンテンツを検索する検索手段と、前記検索手段により得られたコンテンツのそれぞれと、前記原コンテンツの隠蔽する部分との非類似の度合いを示す非類似度を算出する演算手段と前記検索手段により検索されたコンテンツの中から、前記演算手段により算出された非類似度に基づいて、前記隠蔽するコンテンツの部分との非類似の度合いが大きいコンテンツを選択する選択手段とを有することを特徴とする。

また、上記課題を解決する本発明は、コンテンツ処理方法であって、検索部が原コンテンツのうち隠蔽する部分を除く部分と内容が類似するコンテンツを検索する検索ステップと、演算部が前記検索ステップにより得られたコンテンツのそれぞれと、前記原コンテンツの隠蔽する部分との非類似の度合いを示す非類似度を算出する演算ステップと、選択部が前記検索ステップにより検索されたコンテンツの中から、前記演算ステップにより算出された非類似度に基づいて、前記隠蔽するコンテンツの部分との非類似の度合いが大きいコンテンツを選択する選択ステップとを有することを特徴とする。

また、上記課題を解決する本発明は、情報処理装置のプログラムであって、前記プログラムは情報処理装置を、原コンテンツのうち隠蔽する部分を除く部分と内容が類似するコンテンツを検索する検索処理と、前記検索処理により得られたコンテンツのそれぞれと、前記コンテンツの隠蔽する部分との非類似の度合いを示す非類似度を算出する演算処理と、前記検索処理により検索されたコンテンツの中から、前記演算処理により算出された非類似度に基づいて、前記隠蔽するコンテンツの部分との非類似の度合いが大きいコンテンツを選択する選択処理として機能させることを特徴とする。

本発明によれば、隠蔽化している事実及び隠蔽した内容が容易に読み手に推測されず、隠蔽化前の元コンテンツの内容に近い自然な内容の文書を得ることの出来るコンテンツ処理技術を提供できる。

その理由は、原コンテンツの隠蔽する部分を除く部分と内容が類似するコンテンツを検索し、この検索により得られたコンテンツと、コンテンツの隠蔽する部分との非類似の度合いを示す非類似度を算出し、この算出結果に基づいて、隠蔽する部分を含むコンテンツの替わりのコンテンツを選択できるように本発明が構成されているからである。

本発明の第１の実施の形態の構成を示すブロック図。本発明の第１の実施の形態における処理のフローチャートを示す図。本発明の第２の実施の形態の構成を示すブロック図。本発明の第１の実施の形態における文書処理の例を示す図。本発明の第２の実施の形態における文書処理の例を示す図。

符号の説明

１文書処理装置
１０文書データベース
１１入力部
１２指定部
１３検索部
１４非類似度演算部
１５選択部
１６出力部
２０距離計算用データベース
２４非類似度演算部

本発明の第１の実施の形態を説明する。

尚、以下では、コンテンツとして文書を例にとり、また、本発明のコンテンツ処理装置は文書処理装置であるとして説明する。

図１は、第１の実施の形態に係る文書処理装置の全体の構成を示した図である。

１は文書処理装置であり、文書を蓄積している文書データベース１０と接続されている。

文書処理装置１は、入力部１１と、指定部１２と、検索部１３と、非類似度演算部１４と、選択部１５と、出力部１６とを有する。

入力部１１は、文書を入力する箇所であり、スキャナ等である。

指定部１２は、入力された文書中において隠蔽したい部分を指定するためのマウス等の指示デバイスである。

検索部１３は、原コンテンツである文書のうち隠蔽する部分（隠蔽したい部分）を除く部分と内容が類似する文書を検索する。具体的には、入力された文書のうち、隠蔽する部分を除く部分と内容が類似する一つまたは複数の類似文書を文書データベース１０から検索する。尚、文書のうち隠蔽する部分を除く部分と内容が類似する文書とは、隠蔽する部分を除く部分と内容が実質的に同一の文書をいう。具体的には、許容される類似度を予め決定しておき、この類似度を超える文書のみを検索するようにする。

非類似度演算部１４は、検索部１３による検索の結果得られた類似文書と、指定部１２により指定された部分（隠蔽する部分）の文書との非類似の度合いを示す非類似度を算出する。具体的には、非類似度演算部１４は、非類似度として文書間のユークリッド距離を計算する。

選択部１５は、非類似度演算部１４によって算出された非類似度に基づいて、隠蔽する部分と最も類似しない文書を出力対象の文書として選択する。具体的には、検索された複数の類似文書の中から、非類似度が最も大きい文書を選択する。

出力部１６は、選択部１５で選択された文書を出力する。

文書データベース１０は、検索部１３が検索対象とする文書データベースである。出力対象となる文書が記憶されている。この文書データベース１０は、予め用意された社内データベースであるが、インターネット上に公開されたＷＥＢ上の文書を検索するように構成させたものであってもよい。

次に、上記のように構成させた文書処理装置の動作について、図１のブロック図及び図２のフローチャートを用いて説明する。

尚、以下では、具体的な事例として、ある自動車メーカーで新車開発プロジェクトのメンバーであるＡ氏（文書処理装置のユーザ）がエンジン部品の調達先を選定するにあたり、極秘プロジェクトであるため調達先には新車開発を行っていることを公表できないケースを想定する。

また、Ａ氏によって入力部１１から入力される文書は、調達先選定のための「新車開発のために必要な高耐性エンジン部品の仕様」というタイトルを付した仕様書であり、さらに隠蔽する部分として「新車開発」が指定部１２によって指定されたとして説明する。

まず、図４に示されるように、「新車開発のために必要な高耐性エンジン部品の仕様」をタイトルとする文書が入力部１１を介して入力され（ステップＳ１）、隠蔽する部分として「新車開発」が指定部１２によって指定される（ステップＳ２）。

このとき、検索部１３によって、類似文書検索が行われる。すなわち、文書データベース１０が参照され、入力された文書の指定された部分「新車開発」を除く部分と内容が類似する複数の文書が検索される（ステップＳ３）。具体的には、例えば、入力された文書に対して「新車開発」を除く残りの部分に対して形態素解析を行い、形態素解析結果の自立語を中心に「高耐性」「エンジン部品」「カムシャフト」「バルブ」などの単語あるいはフレーズを要素として持つ単語ベクトルを作成し、検索対象となる複数の文書それぞれがあらかじめ持っている単語ベクトルとの内積をとった値を類似度として計算し、予め設定した許容される類似度を超える文書のみを検索結果として出力する。尚、類似度の高い文書から順に検索結果として出力するようにしても構わない。

この検索部１３による検索の結果、複数の類似文書が得られる。例えばここでは、検索の結果、類似文書（１）：「Ｆ１参戦のために必要な高耐性エンジン部品の仕様」、類似文書（２）：「トラック開発のために必要な高耐性バルブの仕様」、類似文書（３）：「寒冷地走行車のために必要な中空カムシャフト」をタイトルとする類似文書（１），（２），（３）が得られる。

尚、ここでは、検索の結果得られた類似文書（入力された文書のうち隠蔽する部分を除く部分と内容が類似する文書）が複数得られたものとして説明しているが、検索の結果得られる文書は一つであってもよい。

続いて、非類似度演算部１４によって、入力された文書の指定された部分の文字列「新車開発」と、ステップＳ３による検索処理を経て検索された文書に含まれる各文字列との距離値が非類似度として算出される（ステップＳ４）。ここで、この距離値は、文字列レベルのＤＰマッチングの手法を用いてユークリッド距離を計算することで算出される。この場合、「新車開発」という文字列が類似文書（１）中には存在しないので「距離値＝４」が得られる。尚、類似文書（２），類似文書（３）には「開発」「車」の文字がそれぞれ含まれるので、算出される距離値は４より小さくなる。

次に、非類似度演算部１４による非類似度の算出計算結果に基づいて、選択部１５により隠蔽する部分と最も類似しない文書、すなわち、距離値の最も大きい文書が選択される。ここでは、距離値＝４の類似文書（１）の距離値が最も大きいので、類似文書（１）が入力された文書の代替の文書として選択される（ステップＳ５）。そして、出力部１６による出力処理を経て「Ｆ１参戦のために必要な高耐性エンジン部品の仕様」をタイトルとする文書が得られる（ステップＳ６）。すなわち、このとき得られる類似文書は、入力文書に近い内容でありながら指定された部分とは関係の浅い、指定部分が隠蔽された文書となる。

上記第１の実施の形態では、コンテンツが文書である場合を例にとって説明したが、コンテンツは、静止画像や動画像、音声、或いは映像であってもよい。例えば、データベースには文書の替わりに画像を蓄積しておき、非類似度演算部には、検索の結果得られた類似画像の部分と隠蔽したい画像部分とのデータの差分を距離値として算出させ、選択部には、距離値が大きい画像を選択させることで指定画像部分を隠蔽することもできる。また、例えば、ある映像に含まれる特定の人物を隠蔽したい場合に、隠蔽する人物の部分を除く部分と内容が類似する映像を検索し、この検索した映像の中から、隠蔽する人物とは離れた特徴を持つ（非類似度の大きい）別の人物を有する映像を選択することで、元の人物を隠蔽した映像を得るようにしてもよい。

上記実施の形態では、隠蔽対象部分がＡ氏によって指定部１２で直接指定されるケースを例にとったが、これに限る必要はない。文書フォーマットが決まっている場合に、例えば、「タイトル部分を指定部分とする」「目的部分を指定部分とする」などの指定方法をあらかじめ定義しておくことで、入力文書中の隠蔽する部分を自動的に指定するように指定部を構成させることもできる。具体的には、例えば上記第１の実施の形態において、「タイトル部分を隠蔽対象部分に指定する」という指定方法を予め定義しておくことで、入力文書のタイトルである「新車開発のために・・・」を隠蔽する部分に指定することができる。

また、上記実施の形態では、隠蔽する部分（指定部分）が文字列「新車開発」である場合を例にとったが、指定部分は単語であってもよいし、文書または文書の一部であっても構わない。

また、上記実施の形態では、非類似度演算部が、検索の結果出力された類似文書に含まれる文字列と指定部分との距離を算出する構成をとったが、類似文書の全体と指定部分との距離を距離計算の対象としてもよい。

また、上記実施の形態では、検索部と非類似度演算部とを別々の独立した構成部としたが、これに限る必要はない。類似文書を検索する検索部と、類似文書と隠蔽する部分の文書との非類似度を算出する非類似度演算部とを、同一の構成部として設けるようにしてもよい。

また、上記実施の形態では、指定部分との距離の計算対象を、類似文書の「タイトル」部分としたが、これに限る必要はない。例えば、フォーマットが決まっている場合等で、「タイトル」部分に限らず「目的」部分や「仕様の概要」部分を距離計算対象とするように指定部、非類似度演算部を構成させてもよいし、上述した複数の部分を距離計算対象とするように構成させることもできる。

更に、上記実施の形態では、非類似度として文書間のユークリッド距離を算出したが、これに限る必要はない。非類似の度合いが定量的に測れるのであれば、例えば、単語同士の共起頻度の総和又は相互情報量の総和として非類似度を算出してもよい。

次に、第２の実施の形態について図３を用いて説明する。図３は、第２の実施の形態に係るコンテンツ処理装置の全体のブロック図である。

尚、ここでも、コンテンツは文書であり、本発明のコンテンツ処理装置は文書処理装置であるものとして説明する。

図３を見ると、第２の実施の形態では、第１の実施の形態における非類似度演算部１４に替えて非類似度演算部２４を有する他、距離計算用ＤＢ２０を更に有する。

距離計算用データベース２０は、単語共起頻度・単語相互情報量などの単語の統計情報が記憶されているデータベースである。

距離計算手段２４は、距離計算用データベース２０に含まれる単語の統計情報に基づいて、指定された部分と検索された文書との非類似度を計算する。具体的には、非類似度として、検索部１３による検索の結果得られた文書に含まれる単語（又は文字列）と、隠蔽する部分の文書に含まれる単語（又は文字単語列）との各共起頻度の総和を算出する。ここで、共起頻度とは、特定の単語等が文書間で同時に出現する頻度である。

その他構成部分の機能は第１の実施の形態と同じであるため、同じ構成部分については第１の実施の形態の場合と同一の符号番号を付し、詳細な説明は省略する。

次に、第２の実施の形態における動作について、図５を用いて説明する。

尚、ここでは、あるメーカーで、音声認識ソフト開発プロジェクトのメンバーであるＢ氏（文書処理装置のユーザ）が、入力音声のノイズサプレッサを外注する場合を想定して説明する。この場合において、音声認識の特許出願が間に合っていないため、外注先には音声認識ソフト開発を行っていることを公表できないケースを想定して説明する。

さて、音声認識ソフトを外注する為の「ノイズサプレッサ仕様書」が入力手段１１を介してＢ氏によって入力される。そして、隠蔽する部分として「音声認識の認識精度」が指定部１２を介して指定される。これにより、隠蔽する部分である指定部分は、「音声認識の認識精度」となる。

次に、この指定部分を除く部分と内容が類似する文書が、検索部１３によって文書データベース１０を対象に検索される。具体的には、入力された文書のうち「音声認識の認識精度」以外の「ノイズサプレッサ」「低減」「ＡＤＰＣＭ音声」「８ｋＨｚ」などを用いた類似の文書が、検索部１３によって文書データベース１０を対象に検索される。この検索部１３による検索の結果、図５に示されるように、複数の類似文書が得られる。

続いて、非類似度演算部２４では、指定部分「音声認識の認識精度」と検索部１３による検索の結果得られた複数の類似文書のそれぞれとの非類似度を、距離計算用データベース２０に含まれる単語の統計情報を参照して算出する。

この非類似度演算部２４による非類似度の算出は、具体的には以下の如く行われる。まず、指定部分「音声認識の認識精度」を構成する単語「音声認識」「認識精度」と、複数の類似文書のうち距離計算の対象となる文書（例えば、「携帯電話向けノイズサプレッサ仕様書」）に含まれる単語「携帯電話」「受話音声」「品質」との単語間で共起頻度が計算される。そして、この単語の組み合わせ毎に計算された共起頻度の対数値の総和が非類似度として算出される。

非類似度Distの具体的な計算式は、式（１）の例で示される。

式（１）

（但し、Wiは指定部分に含まれる単語、Wjは類似文書に含まれる単語）
式（１）による計算の結果、例えば「距離値＝３．８６３２」が得られる。

次に、この算出された非類似度に基づいて、選択部１５では、非類似度が最も大きい文書（隠蔽する部分と最も類似しない文書）が選択される。これにより、例えば「携帯電話向けノイズサプレッサ仕様書」という文書が得られる。

こうして、入力文書に近い内容でありながら、指定された部分とは関係の浅い、指定部分が隠蔽された文書が得られる。

上記第２の実施の形態では、距離計算用データベースとして単語の統計情報を使用し、非類似度演算部を、単語間の共起頻度を元に非類似度を算出するように構成させたが、これに限る必要はない。例えば、単語相互情報量に基づいて非類似度を算出させてもよい。更には、距離計算用データベースとしてシソーラス（同義語辞書）を使用し、非類似度を単語同士のシソーラス上の距離の総和として算出しても構わない。

具体的には、指定部分に含まれる単語（「音声認識」，「認識精度」）と、検索された文書に含まれる単語（「携帯電話」，「受話音声」，「品質」等）とのシソーラス上の距離、すなわち、単語同士の関連性を示す階層上における階層間の距離の総和として非類似度を計算し、該非類似度の大きい文書を選択することで、指定部分を隠蔽するのに適した類似文書を得ることができる。この場合の非類似度Ｄｉｓｔの具体的な計算式は式（２）の例で示される。

式（２）

（但し、Wiは指定部分に含まれる単語、Wjは類似文書に含まれる単語、D(Wi,Wj)はWiとWjのシソーラス上の距離）
また、距離計算を行う際に公開されているＷＥＢ上の情報を参照することで、検索された類似文書の出現頻度・出現時刻を計算し、高頻度あるいは最近出現している文書に対して重み付けを与えるように非類似度を補正してもよい。

或いは、非類似度の算出にあたり、検索された類似文書のＷＥＢ上における出現頻度を非類似度に更に加算するような構成をとっても構わない。このように補正により、出現頻度・周知度の高い文書が優先的に選択される為、外注先に正しく仕様を伝えるのに好都合となる。また、出現頻度の代わりに出現時刻のより新しい文書を選択するように補正をしても良く、両者の組み合わせであっても構わない。

更に、非類似度の算出にあたり、例えば指定部分に含まれる「音声認識」「認識精度」などの単語が検索された類似文書中にも存在しているような場合、検索された類似文書中でこれら単語が出現する頻度を非類似度から減算するような補正をしてもよい。このようにすることで、指定部分との距離が遠い文書、すなわち、隠蔽する部分（指定部分）が推測され難い文書を優先的に選択することができ、外注先への情報漏洩をより効果的に防ぐことができる。

本出願は、２００７年４月２７日に出願された日本出願特願２００７−１１９３９３号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

本発明によれば、複数の企業・部門・個人が協業して業務を遂行する形態のプロジェクト等において、外注・調達のための文書作成、動画像作成といった用途に適用できる。

Claims

原コンテンツのうち隠蔽する部分を除く部分と内容が類似するコンテンツを検索する検索手段と、
前記検索手段により得られたコンテンツのそれぞれと、前記原コンテンツの隠蔽する部分との非類似の度合いを示す非類似度を算出する演算手段と
前記検索手段により検索されたコンテンツの中から、前記演算手段により算出された非類似度に基づいて、前記隠蔽するコンテンツの部分との非類似の度合いが大きいコンテンツを選択する選択手段と
を有することを特徴とするコンテンツ処理装置。
前記検索手段は、予め設定された許容される類似度に基づいて、前記類似度を超えるコンテンツを検索することで、隠蔽する部分を除く部分と内容が実質的に同一のコンテンツを検索することを特徴とする請求項１に記載のコンテンツ処理装置。
前記選択手段は、非類似の度合いが大きいコンテンツとして、最も類似しないコンテンツを選択することを特徴とする請求項１または請求項２に記載のコンテンツ処理装置。
前記コンテンツは文書であって、
前記演算手段は、前記非類似度を、前記検索手段による検索の結果得られた文書と、前記隠蔽する部分に含まれる文書とのユークリッド距離として算出することを特徴とする請求項１から請求項３のいずれかに記載のコンテンツ処理装置。
前記コンテンツ処理装置は、単語の統計情報を含む距離計算用のデータベースを備え、
前記演算手段は、前記距離計算用のデータベースを参照し、前記検索手段による検索の結果得られたコンテンツの文書に含まれる単語と、前記隠蔽する部分の文書に含まれる単語との各共起頻度の総和又は相互情報量の総和として非類似度を算出することを特徴とする請求項１から請求項３のいずれかに記載のコンテンツ処理装置。
前記コンテンツ処理装置は、単語の統計情報を含む距離計算用のデータベースとしてシソーラスを備え、
前記演算手段は、前記シソーラスを参照し、前記検索手段による検索の結果得られた類似文書に含まれる単語と、前記入力された文書の指定された範囲に含まれる単語との単語間におけるシソーラス上の距離の総和として前記非類似度を算出することを特徴とする請求項１から請求項３のいずれかに記載のコンテンツ処理装置。
前記演算手段は、前記検索手段による検索の結果で得られた文書に含まれる単語又は文字列の出現頻度、又は前記検索の結果で得られた文書の出現時刻の少なくともいずれかを算出し、この算出した結果に基づいて前記非類似度を補正するように構成されていることを特徴とする請求項１から請求項６のいずれかに記載のコンテンツ処理装置。
前記演算手段における非類似度の補正は、算出した出現頻度を前記非類似度に加算する補正であることを特徴とする請求項７に記載のコンテンツ処理装置。
前記演算手段における非類似度の補正は、算出した出現時刻と現在時刻との差分値を算出し、この差分値に応じた重み付け値を前記非類似度に加算する補正であることを特徴とする請求項７または請求項８に記載のコンテンツ処理装置。
入力された文書中の隠蔽する部分を指定するための指定手段を有することを特徴とする請求項１から請求項９のいずれかに記載のコンテンツ処理装置。
前記指定手段は、文書フォーマットが予め定義されている場合に、この文書フォーマットの所定の箇所に入力された文書、単語、又は単語列を指定するように構成されていることを特徴とする請求項１０に記載のコンテンツ処理装置。
前記コンテンツは画像であって、
前記演算手段は、前記非類似度を、前記検索手段による検索の結果得られた画像のデータと、前記隠蔽する部分に含まれる画像データとの差分として算出することを特徴とする請求項１から請求項３のいずれかに記載のコンテンツ処理装置。
検索部が原コンテンツのうち隠蔽する部分を除く部分と内容が類似するコンテンツを検索する検索ステップと、
演算部が前記検索ステップにより得られたコンテンツのそれぞれと、前記原コンテンツの隠蔽する部分との非類似の度合いを示す非類似度を算出する演算ステップと、
選択部が前記検索ステップにより検索されたコンテンツの中から、前記演算ステップにより算出された非類似度に基づいて、前記隠蔽するコンテンツの部分との非類似の度合いが大きいコンテンツを選択する選択ステップと
を有することを特徴とするコンテンツ処理方法。
前記検索ステップは、許容される類似度を予め設定しておき、この設定された類似度を超えるコンテンツを検索することで、隠蔽する部分を除く部分と内容が実質的に同一のコンテンツを検索することを特徴とする請求項１３に記載のコンテンツ処理方法。
前記選択ステップは、前記演算ステップにより算出された非類似度に基づいて、前記検索ステップにより検索されたコンテンツの中から、前記隠蔽する部分と最も類似しないコンテンツを選択することを有することを特徴とする請求項１３または請求項１４に記載のコンテンツ処理方法。
前記コンテンツは文書であって、
前記演算ステップは、前記非類似度を、前記検索手段による検索の結果得られた文書と、前記隠蔽する部分に含まれる文書とのユークリッド距離として算出することを特徴とする請求項１３から請求項１５のいずれかに記載のコンテンツ処理方法。
前記演算ステップは、単語の統計情報を含む距離計算用のデータベースを参照し、前記検索ステップによる検索の結果得られたコンテンツの文書に含まれる単語と、前記隠蔽する部分の文書に含まれる単語との各共起頻度の総和又は相互情報量の総和として非類似度を算出することを特徴とする請求項１３から請求項１５のいずれかに記載のコンテンツ処理方法。
前記演算ステップは、単語の統計情報を含む距離計算用のデータベースであるシソーラスを参照し、前記非類似度を、前記検索手段による検索の結果得られた類似文書に含まれる単語と、前記入力された文書の指定された範囲に含まれる単語との単語間におけるシソーラス上の距離の総和として算出することを特徴とする請求項１３から請求項１５のいずれかに記載のコンテンツ処理方法。
前記演算ステップは、前記検索ステップによる検索の結果得られた文書に含まれる単語又は文字列の出現頻度、又は前記検索の結果で得られた文書の出現時刻の少なくともいずれかを算出し、この算出した結果に基づいて前記非類似度を補正することを特徴とする請求項１３から請求項１８のいずれかに記載のコンテンツ処理方法。
前記演算ステップにおける非類似度の補正は、算出した出現頻度を前記非類似度に加算する補正であることを特徴とする請求項１９に記載のコンテンツ処理方法。
前記演算ステップにおける非類似度の補正は、算出した出現時刻と現在時刻との差分値を算出し、この差分値に応じた重み付け値を前記非類似度に加算する補正であることを特徴とする請求項１９または請求項２０に記載のコンテンツ処理方法。
前記コンテンツ処理方法は、入力された文書中の隠蔽する部分を指定部が指定する指定ステップを有することを特徴とする請求項１３から請求項２１のいずれかに記載のコンテンツ処理方法。
前記指定ステップは、文書フォーマットが予め定義されている場合に、この文書フォーマットの所定の箇所に入力された文書、単語、又は文字列を指定することを特徴とする請求項２２に記載のコンテンツ処理装置方法。
前記コンテンツは画像であって、
前記演算ステップは、前記非類似度を、前記検索手段による検索の結果得られた画像のデータと、前記隠蔽する部分に含まれる画像データとの差分として算出することを特徴とする請求項１３から請求項１５のいずれかに記載のコンテンツ処理方法。
情報処理装置のプログラムであって、前記プログラムは情報処理装置を、
原コンテンツのうち隠蔽する部分を除く部分と内容が類似するコンテンツを検索する検索処理と、
前記検索処理により得られたコンテンツのそれぞれと、前記コンテンツの隠蔽する部分との非類似の度合いを示す非類似度を算出する演算処理と、
前記検索処理により検索されたコンテンツの中から、前記演算処理により算出された非類似度に基づいて、前記隠蔽するコンテンツの部分との非類似の度合いが大きいコンテンツを選択する選択処理と
して機能させることを特徴とするプログラム。
前記検索処理は、許容される類似度を予め設定しておき、この設定された類似度を超えるコンテンツを検索することで、隠蔽する部分を除く部分と内容が実質的に同一のコンテンツを検索する処理であることを特徴とする請求項２５に記載のプログラム。
前記選択処理は、前記演算処理により算出された非類似度に基づいて、前記検索ステップにより検索されたコンテンツの中から、前記隠蔽する部分と最も類似しないコンテンツを選択する処理であることを特徴とする請求項２５または請求項２６に記載のプログラム。