JP5158379B2 - コンテンツ処理装置、コンテンツ処理方法、並びに、コンテンツ処理プログラム - Google Patents

コンテンツ処理装置、コンテンツ処理方法、並びに、コンテンツ処理プログラム Download PDF

Info

Publication number
JP5158379B2
JP5158379B2 JP2009512962A JP2009512962A JP5158379B2 JP 5158379 B2 JP5158379 B2 JP 5158379B2 JP 2009512962 A JP2009512962 A JP 2009512962A JP 2009512962 A JP2009512962 A JP 2009512962A JP 5158379 B2 JP5158379 B2 JP 5158379B2
Authority
JP
Japan
Prior art keywords
content
dissimilarity
search
document
concealed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009512962A
Other languages
English (en)
Other versions
JPWO2008136381A1 (ja
Inventor
健 花沢
正宏 岩垂
恭二 平田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2009512962A priority Critical patent/JP5158379B2/ja
Publication of JPWO2008136381A1 publication Critical patent/JPWO2008136381A1/ja
Application granted granted Critical
Publication of JP5158379B2 publication Critical patent/JP5158379B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、コンテンツの特定の部分を隠蔽化するコンテンツ処理技術に関連し、特に、隠蔽化している事実及び隠蔽した内容が容易に読み手に推測されず、隠蔽化前の元内容に近い自然な内容のコンテンツを得ることの出来るコンテンツ処理技術に関する。
業務効率化・生産性向上の観点から、企業では、取引先や関連会社といった外部の会社に業務を委託する、所謂、外注を行うことがある。このような場合、例えば、取引先に開発業務を依頼する場合などにおいて、要件定義書や仕様書といった機密文書を外注先に提示して開発の協力を要請する局面が多々ある。
このような場合、外注する側の企業にとっては、マンパワーを確保し開発納期の短縮化が図れる一方、文書や写真といった機密性の高い情報(以下、機密コンテンツとも記載)を社外に提示することによる情報漏洩のリスクが生じる。この為、企業では、重要な開発情報を含む機密コンテンツを社外に提示するにあたり、秘密保持契約の締結をはじめとする各種対策が採られる。
例えば、機密コンテンツとして機密文書を社外に提示する際の一般的なケースとして、社外に開示したくないキーワードを他の文字列に置き換えて隠蔽化する方法がある。
或いは、外注先に企業秘密の情報を含む仕様書を提示する替わりに、その仕様書の内容に近い類似文書を取得し、取得した類似文書と本来の仕様書との差異を開示するような方法がとられる場合もある。尚、この場合、ある文書と同質あるいは似た内容の文書を検索する類似文書検索の技術としては、例えば特許文献1が知られている。
特許文献1の発明には、テキスト情報の類似性を着目した類似検索技術が開示されている。具体的には、特許文献1には、検索条件としてコンテンツの文書が例示されると、例示された文書に含まれるテキスト情報などの特徴情報と蓄積された文書に含まれるテキスト情報などの特徴情報とをそれぞれ比較し、それらに重みの値を掛け合わせ、総合的な評価値を計算したものを文書レベルでの類似度とし、類似度が高い順に文書を検索結果として出力する技術が提案されている。
特開2000−148793号公報
ところで、例えば、機密コンテンツとして機密文書を社外に開示するにあたり、上述した従来の方法では次のような問題があった。
第1の問題は、文字列の置換によって文書全体の意味が不明瞭になり、開発のポイントが読み手にうまく伝わらない場合があるということである。
また、第2の問題は、機密文書を隠蔽化していること自体が容易に判読されてしまうことである。このことは、委託側・受託側相互の信頼関係に影響を与える程ではないにせよ、開発業務を遂行するうえでの円滑なコミュニケーションを考えた場合には好ましいとは言えない。
第3の問題は、前後の文脈から、隠蔽化したキーワードが推測されてしまうことである。
しかしながら、特許文献1の技術は、単に類似した文書を検索するだけであり、文書の特定部分を隠蔽するという課題には対応していなかった。この為、前述の問題を解決することはできなかった。
更に、その他の従来技術を見ても、特定部分を隠蔽しつつ読み手にとって自然な文書を提供できるような技術は無く、上述した問題を克服することはできなかった。結局の所、機密文書を外注先に提供するにあたっては、ドキュメントを手作業で新たに作り直さなければならないケースが殆どであり、手間がかかった。
そこで、本発明が解決しようとする課題は、隠蔽化している事実及び隠蔽した内容が容易に読み手に推測されず、その一方で、隠蔽化前の元コンテンツの内容に近い自然な内容のコンテンツを得ることの出来るコンテンツ処理技術を提供することである。
上記課題を解決する本発明は、コンテンツ処理装置であって、原コンテンツのうち隠蔽する部分を除く部分と内容が類似するコンテンツを検索する検索手段と、前記検索手段により得られたコンテンツのそれぞれと、前記原コンテンツの隠蔽する部分との非類似の度合いを示す非類似度を算出する演算手段と前記検索手段により検索されたコンテンツの中から、前記演算手段により算出された非類似度に基づいて、前記隠蔽するコンテンツの部分との非類似の度合いが大きいコンテンツを選択する選択手段とを有することを特徴とする。
また、上記課題を解決する本発明は、コンテンツ処理方法であって、検索部が原コンテンツのうち隠蔽する部分を除く部分と内容が類似するコンテンツを検索する検索ステップと、演算部が前記検索ステップにより得られたコンテンツのそれぞれと、前記原コンテンツの隠蔽する部分との非類似の度合いを示す非類似度を算出する演算ステップと、選択部が前記検索ステップにより検索されたコンテンツの中から、前記演算ステップにより算出された非類似度に基づいて、前記隠蔽するコンテンツの部分との非類似の度合いが大きいコンテンツを選択する選択ステップとを有することを特徴とする。
また、上記課題を解決する本発明は、情報処理装置のプログラムであって、前記プログラムは情報処理装置を、原コンテンツのうち隠蔽する部分を除く部分と内容が類似するコンテンツを検索する検索処理と、前記検索処理により得られたコンテンツのそれぞれと、前記コンテンツの隠蔽する部分との非類似の度合いを示す非類似度を算出する演算処理と、前記検索処理により検索されたコンテンツの中から、前記演算処理により算出された非類似度に基づいて、前記隠蔽するコンテンツの部分との非類似の度合いが大きいコンテンツを選択する選択処理として機能させることを特徴とする。
本発明によれば、隠蔽化している事実及び隠蔽した内容が容易に読み手に推測されず、隠蔽化前の元コンテンツの内容に近い自然な内容の文書を得ることの出来るコンテンツ処理技術を提供できる。
その理由は、原コンテンツの隠蔽する部分を除く部分と内容が類似するコンテンツを検索し、この検索により得られたコンテンツと、コンテンツの隠蔽する部分との非類似の度合いを示す非類似度を算出し、この算出結果に基づいて、隠蔽する部分を含むコンテンツの替わりのコンテンツを選択できるように本発明が構成されているからである。
本発明の第1の実施の形態の構成を示すブロック図。 本発明の第1の実施の形態における処理のフローチャートを示す図。 本発明の第2の実施の形態の構成を示すブロック図。 本発明の第1の実施の形態における文書処理の例を示す図。 本発明の第2の実施の形態における文書処理の例を示す図。
符号の説明
1 文書処理装置
10 文書データベース
11 入力部
12 指定部
13 検索部
14 非類似度演算部
15 選択部
16 出力部
20 距離計算用データベース
24 非類似度演算部
本発明の第1の実施の形態を説明する。
尚、以下では、コンテンツとして文書を例にとり、また、本発明のコンテンツ処理装置は文書処理装置であるとして説明する。
図1は、第1の実施の形態に係る文書処理装置の全体の構成を示した図である。
1は文書処理装置であり、文書を蓄積している文書データベース10と接続されている。
文書処理装置1は、入力部11と、指定部12と、検索部13と、非類似度演算部14と、選択部15と、出力部16とを有する。
入力部11は、文書を入力する箇所であり、スキャナ等である。
指定部12は、入力された文書中において隠蔽したい部分を指定するためのマウス等の指示デバイスである。
検索部13は、原コンテンツである文書のうち隠蔽する部分(隠蔽したい部分)を除く部分と内容が類似する文書を検索する。具体的には、入力された文書のうち、隠蔽する部分を除く部分と内容が類似する一つまたは複数の類似文書を文書データベース10から検索する。尚、文書のうち隠蔽する部分を除く部分と内容が類似する文書とは、隠蔽する部分を除く部分と内容が実質的に同一の文書をいう。具体的には、許容される類似度を予め決定しておき、この類似度を超える文書のみを検索するようにする。
非類似度演算部14は、検索部13による検索の結果得られた類似文書と、指定部12により指定された部分(隠蔽する部分)の文書との非類似の度合いを示す非類似度を算出する。具体的には、非類似度演算部14は、非類似度として文書間のユークリッド距離を計算する。
選択部15は、非類似度演算部14によって算出された非類似度に基づいて、隠蔽する部分と最も類似しない文書を出力対象の文書として選択する。具体的には、検索された複数の類似文書の中から、非類似度が最も大きい文書を選択する。
出力部16は、選択部15で選択された文書を出力する。
文書データベース10は、検索部13が検索対象とする文書データベースである。出力対象となる文書が記憶されている。この文書データベース10は、予め用意された社内データベースであるが、インターネット上に公開されたWEB上の文書を検索するように構成させたものであってもよい。
次に、上記のように構成させた文書処理装置の動作について、図1のブロック図及び図2のフローチャートを用いて説明する。
尚、以下では、具体的な事例として、ある自動車メーカーで新車開発プロジェクトのメンバーであるA氏(文書処理装置のユーザ)がエンジン部品の調達先を選定するにあたり、極秘プロジェクトであるため調達先には新車開発を行っていることを公表できないケースを想定する。
また、A氏によって入力部11から入力される文書は、調達先選定のための「新車開発のために必要な高耐性エンジン部品の仕様」というタイトルを付した仕様書であり、さらに隠蔽する部分として「新車開発」が指定部12によって指定されたとして説明する。
まず、図4に示されるように、「新車開発のために必要な高耐性エンジン部品の仕様」をタイトルとする文書が入力部11を介して入力され(ステップS1)、隠蔽する部分として「新車開発」が指定部12によって指定される(ステップS2)。
このとき、検索部13によって、類似文書検索が行われる。すなわち、文書データベース10が参照され、入力された文書の指定された部分「新車開発」を除く部分と内容が類似する複数の文書が検索される(ステップS3)。具体的には、例えば、入力された文書に対して「新車開発」を除く残りの部分に対して形態素解析を行い、形態素解析結果の自立語を中心に「高耐性」「エンジン部品」「カムシャフト」「バルブ」などの単語あるいはフレーズを要素として持つ単語ベクトルを作成し、検索対象となる複数の文書それぞれがあらかじめ持っている単語ベクトルとの内積をとった値を類似度として計算し、予め設定した許容される類似度を超える文書のみを検索結果として出力する。尚、類似度の高い文書から順に検索結果として出力するようにしても構わない。
この検索部13による検索の結果、複数の類似文書が得られる。例えばここでは、検索の結果、類似文書(1):「F1参戦のために必要な高耐性エンジン部品の仕様」、類似文書(2):「トラック開発のために必要な高耐性バルブの仕様」、類似文書(3):「寒冷地走行車のために必要な中空カムシャフト」をタイトルとする類似文書(1),(2),(3)が得られる。
尚、ここでは、検索の結果得られた類似文書(入力された文書のうち隠蔽する部分を除く部分と内容が類似する文書)が複数得られたものとして説明しているが、検索の結果得られる文書は一つであってもよい。
続いて、非類似度演算部14によって、入力された文書の指定された部分の文字列「新車開発」と、ステップS3による検索処理を経て検索された文書に含まれる各文字列との距離値が非類似度として算出される(ステップS4)。ここで、この距離値は、文字列レベルのDPマッチングの手法を用いてユークリッド距離を計算することで算出される。この場合、「新車開発」という文字列が類似文書(1)中には存在しないので「距離値=4」が得られる。尚、類似文書(2),類似文書(3)には「開発」「車」の文字がそれぞれ含まれるので、算出される距離値は4より小さくなる。
次に、非類似度演算部14による非類似度の算出計算結果に基づいて、選択部15により隠蔽する部分と最も類似しない文書、すなわち、距離値の最も大きい文書が選択される。ここでは、距離値=4の類似文書(1)の距離値が最も大きいので、類似文書(1)が入力された文書の代替の文書として選択される(ステップS5)。そして、出力部16による出力処理を経て「F1参戦のために必要な高耐性エンジン部品の仕様」をタイトルとする文書が得られる(ステップS6)。すなわち、このとき得られる類似文書は、入力文書に近い内容でありながら指定された部分とは関係の浅い、指定部分が隠蔽された文書となる。
上記第1の実施の形態では、コンテンツが文書である場合を例にとって説明したが、コンテンツは、静止画像や動画像、音声、或いは映像であってもよい。例えば、データベースには文書の替わりに画像を蓄積しておき、非類似度演算部には、検索の結果得られた類似画像の部分と隠蔽したい画像部分とのデータの差分を距離値として算出させ、選択部には、距離値が大きい画像を選択させることで指定画像部分を隠蔽することもできる。また、例えば、ある映像に含まれる特定の人物を隠蔽したい場合に、隠蔽する人物の部分を除く部分と内容が類似する映像を検索し、この検索した映像の中から、隠蔽する人物とは離れた特徴を持つ(非類似度の大きい)別の人物を有する映像を選択することで、元の人物を隠蔽した映像を得るようにしてもよい。
上記実施の形態では、隠蔽対象部分がA氏によって指定部12で直接指定されるケースを例にとったが、これに限る必要はない。文書フォーマットが決まっている場合に、例えば、「タイトル部分を指定部分とする」「目的部分を指定部分とする」などの指定方法をあらかじめ定義しておくことで、入力文書中の隠蔽する部分を自動的に指定するように指定部を構成させることもできる。具体的には、例えば上記第1の実施の形態において、「タイトル部分を隠蔽対象部分に指定する」という指定方法を予め定義しておくことで、入力文書のタイトルである「新車開発のために・・・」を隠蔽する部分に指定することができる。
また、上記実施の形態では、隠蔽する部分(指定部分)が文字列「新車開発」である場合を例にとったが、指定部分は単語であってもよいし、文書または文書の一部であっても構わない。
また、上記実施の形態では、非類似度演算部が、検索の結果出力された類似文書に含まれる文字列と指定部分との距離を算出する構成をとったが、類似文書の全体と指定部分との距離を距離計算の対象としてもよい。
また、上記実施の形態では、検索部と非類似度演算部とを別々の独立した構成部としたが、これに限る必要はない。類似文書を検索する検索部と、類似文書と隠蔽する部分の文書との非類似度を算出する非類似度演算部とを、同一の構成部として設けるようにしてもよい。
また、上記実施の形態では、指定部分との距離の計算対象を、類似文書の「タイトル」部分としたが、これに限る必要はない。例えば、フォーマットが決まっている場合等で、「タイトル」部分に限らず「目的」部分や「仕様の概要」部分を距離計算対象とするように指定部、非類似度演算部を構成させてもよいし、上述した複数の部分を距離計算対象とするように構成させることもできる。
更に、上記実施の形態では、非類似度として文書間のユークリッド距離を算出したが、これに限る必要はない。非類似の度合いが定量的に測れるのであれば、例えば、単語同士の共起頻度の総和又は相互情報量の総和として非類似度を算出してもよい。
次に、第2の実施の形態について図3を用いて説明する。図3は、第2の実施の形態に係るコンテンツ処理装置の全体のブロック図である。
尚、ここでも、コンテンツは文書であり、本発明のコンテンツ処理装置は文書処理装置であるものとして説明する。
図3を見ると、第2の実施の形態では、第1の実施の形態における非類似度演算部14に替えて非類似度演算部24を有する他、距離計算用DB20を更に有する。
距離計算用データベース20は、単語共起頻度・単語相互情報量などの単語の統計情報が記憶されているデータベースである。
距離計算手段24は、距離計算用データベース20に含まれる単語の統計情報に基づいて、指定された部分と検索された文書との非類似度を計算する。具体的には、非類似度として、検索部13による検索の結果得られた文書に含まれる単語(又は文字列)と、隠蔽する部分の文書に含まれる単語(又は文字単語列)との各共起頻度の総和を算出する。ここで、共起頻度とは、特定の単語等が文書間で同時に出現する頻度である。
その他構成部分の機能は第1の実施の形態と同じであるため、同じ構成部分については第1の実施の形態の場合と同一の符号番号を付し、詳細な説明は省略する。
次に、第2の実施の形態における動作について、図5を用いて説明する。
尚、ここでは、あるメーカーで、音声認識ソフト開発プロジェクトのメンバーであるB氏(文書処理装置のユーザ)が、入力音声のノイズサプレッサを外注する場合を想定して説明する。この場合において、音声認識の特許出願が間に合っていないため、外注先には音声認識ソフト開発を行っていることを公表できないケースを想定して説明する。
さて、音声認識ソフトを外注する為の「ノイズサプレッサ仕様書」が入力手段11を介してB氏によって入力される。そして、隠蔽する部分として「音声認識の認識精度」が指定部12を介して指定される。これにより、隠蔽する部分である指定部分は、「音声認識の認識精度」となる。
次に、この指定部分を除く部分と内容が類似する文書が、検索部13によって文書データベース10を対象に検索される。具体的には、入力された文書のうち「音声認識の認識精度」以外の「ノイズサプレッサ」「低減」「ADPCM音声」「8kHz」などを用いた類似の文書が、検索部13によって文書データベース10を対象に検索される。この検索部13による検索の結果、図5に示されるように、複数の類似文書が得られる。
続いて、非類似度演算部24では、指定部分「音声認識の認識精度」と検索部13による検索の結果得られた複数の類似文書のそれぞれとの非類似度を、距離計算用データベース20に含まれる単語の統計情報を参照して算出する。
この非類似度演算部24による非類似度の算出は、具体的には以下の如く行われる。まず、指定部分「音声認識の認識精度」を構成する単語「音声認識」「認識精度」と、複数の類似文書のうち距離計算の対象となる文書(例えば、「携帯電話向けノイズサプレッサ仕様書」)に含まれる単語「携帯電話」「受話音声」「品質」との単語間で共起頻度が計算される。そして、この単語の組み合わせ毎に計算された共起頻度の対数値の総和が非類似度として算出される。
非類似度Distの具体的な計算式は、式(1)の例で示される。
式(1)
Figure 0005158379
(但し、Wiは指定部分に含まれる単語、Wjは類似文書に含まれる単語)
式(1)による計算の結果、例えば「距離値=3.8632」が得られる。
次に、この算出された非類似度に基づいて、選択部15では、非類似度が最も大きい文書(隠蔽する部分と最も類似しない文書)が選択される。これにより、例えば「携帯電話向けノイズサプレッサ仕様書」という文書が得られる。
こうして、入力文書に近い内容でありながら、指定された部分とは関係の浅い、指定部分が隠蔽された文書が得られる。
上記第2の実施の形態では、距離計算用データベースとして単語の統計情報を使用し、非類似度演算部を、単語間の共起頻度を元に非類似度を算出するように構成させたが、これに限る必要はない。例えば、単語相互情報量に基づいて非類似度を算出させてもよい。更には、距離計算用データベースとしてシソーラス(同義語辞書)を使用し、非類似度を単語同士のシソーラス上の距離の総和として算出しても構わない。
具体的には、指定部分に含まれる単語(「音声認識」,「認識精度」)と、検索された文書に含まれる単語(「携帯電話」,「受話音声」,「品質」等)とのシソーラス上の距離、すなわち、単語同士の関連性を示す階層上における階層間の距離の総和として非類似度を計算し、該非類似度の大きい文書を選択することで、指定部分を隠蔽するのに適した類似文書を得ることができる。この場合の非類似度Distの具体的な計算式は式(2)の例で示される。
式(2)
Figure 0005158379
(但し、Wiは指定部分に含まれる単語、Wjは類似文書に含まれる単語、D(Wi,Wj)はWiとWjの シソーラス上の距離)
また、距離計算を行う際に公開されているWEB上の情報を参照することで、検索された類似文書の出現頻度・出現時刻を計算し、高頻度あるいは最近出現している文書に対して重み付けを与えるように非類似度を補正してもよい。
或いは、非類似度の算出にあたり、検索された類似文書のWEB上における出現頻度を非類似度に更に加算するような構成をとっても構わない。このように補正により、出現頻度・周知度の高い文書が優先的に選択される為、外注先に正しく仕様を伝えるのに好都合となる。また、出現頻度の代わりに出現時刻のより新しい文書を選択するように補正をしても良く、両者の組み合わせであっても構わない。
更に、非類似度の算出にあたり、例えば指定部分に含まれる「音声認識」「認識精度」などの単語が検索された類似文書中にも存在しているような場合、検索された類似文書中でこれら単語が出現する頻度を非類似度から減算するような補正をしてもよい。このようにすることで、指定部分との距離が遠い文書、すなわち、隠蔽する部分(指定部分)が推測され難い文書を優先的に選択することができ、外注先への情報漏洩をより効果的に防ぐことができる。
本出願は、2007年4月27日に出願された日本出願特願2007−119393号を基礎とする優先権を主張し、その開示の全てをここに取り込む。
本発明によれば、複数の企業・部門・個人が協業して業務を遂行する形態のプロジェクト等において、外注・調達のための文書作成、動画像作成といった用途に適用できる。

Claims (27)

  1. 原コンテンツのうち隠蔽する部分を除く部分と内容が類似するコンテンツを検索する検索手段と、
    前記検索手段により得られたコンテンツのそれぞれと、前記原コンテンツの隠蔽する部分との非類似の度合いを示す非類似度を算出する演算手段と
    前記検索手段により検索されたコンテンツの中から、前記演算手段により算出された非類似度に基づいて、前記隠蔽するコンテンツの部分との非類似の度合いが大きいコンテンツを選択する選択手段と
    を有することを特徴とするコンテンツ処理装置。
  2. 前記検索手段は、予め設定された許容される類似度に基づいて、前記類似度を超えるコンテンツを検索することで、隠蔽する部分を除く部分と内容が実質的に同一のコンテンツを検索することを特徴とする請求項1に記載のコンテンツ処理装置。
  3. 前記選択手段は、非類似の度合いが大きいコンテンツとして、最も類似しないコンテンツを選択することを特徴とする請求項1または請求項2に記載のコンテンツ処理装置。
  4. 前記コンテンツは文書であって、
    前記演算手段は、前記非類似度を、前記検索手段による検索の結果得られた文書と、前記隠蔽する部分に含まれる文書とのユークリッド距離として算出することを特徴とする請求項1から請求項3のいずれかに記載のコンテンツ処理装置。
  5. 前記コンテンツ処理装置は、単語の統計情報を含む距離計算用のデータベースを備え、
    前記演算手段は、前記距離計算用のデータベースを参照し、前記検索手段による検索の結果得られたコンテンツの文書に含まれる単語と、前記隠蔽する部分の文書に含まれる単語との各共起頻度の総和又は相互情報量の総和として非類似度を算出することを特徴とする請求項1から請求項3のいずれかに記載のコンテンツ処理装置。
  6. 前記コンテンツ処理装置は、単語の統計情報を含む距離計算用のデータベースとしてシソーラスを備え、
    前記演算手段は、前記シソーラスを参照し、前記検索手段による検索の結果得られた類似文書に含まれる単語と、前記入力された文書の指定された範囲に含まれる単語との単語間におけるシソーラス上の距離の総和として前記非類似度を算出することを特徴とする請求項1から請求項3のいずれかに記載のコンテンツ処理装置。
  7. 前記演算手段は、前記検索手段による検索の結果で得られた文書に含まれる単語又は文字列の出現頻度、又は前記検索の結果で得られた文書の出現時刻の少なくともいずれかを算出し、この算出した結果に基づいて前記非類似度を補正するように構成されていることを特徴とする請求項1から請求項6のいずれかに記載のコンテンツ処理装置。
  8. 前記演算手段における非類似度の補正は、算出した出現頻度を前記非類似度に加算する補正であることを特徴とする請求項7に記載のコンテンツ処理装置。
  9. 前記演算手段における非類似度の補正は、算出した出現時刻と現在時刻との差分値を算出し、この差分値に応じた重み付け値を前記非類似度に加算する補正であることを特徴とする請求項7または請求項8に記載のコンテンツ処理装置。
  10. 入力された文書中の隠蔽する部分を指定するための指定手段を有することを特徴とする請求項1から請求項9のいずれかに記載のコンテンツ処理装置。
  11. 前記指定手段は、文書フォーマットが予め定義されている場合に、この文書フォーマットの所定の箇所に入力された文書、単語、又は単語列を指定するように構成されていることを特徴とする請求項10に記載のコンテンツ処理装置。
  12. 前記コンテンツは画像であって、
    前記演算手段は、前記非類似度を、前記検索手段による検索の結果得られた画像のデータと、前記隠蔽する部分に含まれる画像データとの差分として算出することを特徴とする請求項1から請求項3のいずれかに記載のコンテンツ処理装置。
  13. 検索部が原コンテンツのうち隠蔽する部分を除く部分と内容が類似するコンテンツを検索する検索ステップと、
    演算部が前記検索ステップにより得られたコンテンツのそれぞれと、前記原コンテンツの隠蔽する部分との非類似の度合いを示す非類似度を算出する演算ステップと、
    選択部が前記検索ステップにより検索されたコンテンツの中から、前記演算ステップにより算出された非類似度に基づいて、前記隠蔽するコンテンツの部分との非類似の度合いが大きいコンテンツを選択する選択ステップと
    を有することを特徴とするコンテンツ処理方法。
  14. 前記検索ステップは、許容される類似度を予め設定しておき、この設定された類似度を超えるコンテンツを検索することで、隠蔽する部分を除く部分と内容が実質的に同一のコンテンツを検索することを特徴とする請求項13に記載のコンテンツ処理方法。
  15. 前記選択ステップは、前記演算ステップにより算出された非類似度に基づいて、前記検索ステップにより検索されたコンテンツの中から、前記隠蔽する部分と最も類似しないコンテンツを選択することを有することを特徴とする請求項13または請求項14に記載のコンテンツ処理方法。
  16. 前記コンテンツは文書であって、
    前記演算ステップは、前記非類似度を、前記検索手段による検索の結果得られた文書と、前記隠蔽する部分に含まれる文書とのユークリッド距離として算出することを特徴とする請求項13から請求項15のいずれかに記載のコンテンツ処理方法。
  17. 前記演算ステップは、単語の統計情報を含む距離計算用のデータベースを参照し、前記検索ステップによる検索の結果得られたコンテンツの文書に含まれる単語と、前記隠蔽する部分の文書に含まれる単語との各共起頻度の総和又は相互情報量の総和として非類似度を算出することを特徴とする請求項13から請求項15のいずれかに記載のコンテンツ処理方法。
  18. 前記演算ステップは、単語の統計情報を含む距離計算用のデータベースであるシソーラスを参照し、前記非類似度を、前記検索手段による検索の結果得られた類似文書に含まれる単語と、前記入力された文書の指定された範囲に含まれる単語との単語間におけるシソーラス上の距離の総和として算出することを特徴とする請求項13から請求項15のいずれかに記載のコンテンツ処理方法。
  19. 前記演算ステップは、前記検索ステップによる検索の結果得られた文書に含まれる単語又は文字列の出現頻度、又は前記検索の結果で得られた文書の出現時刻の少なくともいずれかを算出し、この算出した結果に基づいて前記非類似度を補正することを特徴とする請求項13から請求項18のいずれかに記載のコンテンツ処理方法。
  20. 前記演算ステップにおける非類似度の補正は、算出した出現頻度を前記非類似度に加算する補正であることを特徴とする請求項19に記載のコンテンツ処理方法。
  21. 前記演算ステップにおける非類似度の補正は、算出した出現時刻と現在時刻との差分値を算出し、この差分値に応じた重み付け値を前記非類似度に加算する補正であることを特徴とする請求項19または請求項20に記載のコンテンツ処理方法。
  22. 前記コンテンツ処理方法は、入力された文書中の隠蔽する部分を指定部が指定する指定ステップを有することを特徴とする請求項13から請求項21のいずれかに記載のコンテンツ処理方法。
  23. 前記指定ステップは、文書フォーマットが予め定義されている場合に、この文書フォーマットの所定の箇所に入力された文書、単語、又は文字列を指定することを特徴とする請求項22に記載のコンテンツ処理装置方法。
  24. 前記コンテンツは画像であって、
    前記演算ステップは、前記非類似度を、前記検索手段による検索の結果得られた画像のデータと、前記隠蔽する部分に含まれる画像データとの差分として算出することを特徴とする請求項13から請求項15のいずれかに記載のコンテンツ処理方法。
  25. 情報処理装置のプログラムであって、前記プログラムは情報処理装置を、
    原コンテンツのうち隠蔽する部分を除く部分と内容が類似するコンテンツを検索する検索処理と、
    前記検索処理により得られたコンテンツのそれぞれと、前記コンテンツの隠蔽する部分との非類似の度合いを示す非類似度を算出する演算処理と、
    前記検索処理により検索されたコンテンツの中から、前記演算処理により算出された非類似度に基づいて、前記隠蔽するコンテンツの部分との非類似の度合いが大きいコンテンツを選択する選択処理と
    して機能させることを特徴とするプログラム。
  26. 前記検索処理は、許容される類似度を予め設定しておき、この設定された類似度を超えるコンテンツを検索することで、隠蔽する部分を除く部分と内容が実質的に同一のコンテンツを検索する処理であることを特徴とする請求項25に記載のプログラム。
  27. 前記選択処理は、前記演算処理により算出された非類似度に基づいて、前記検索ステップにより検索されたコンテンツの中から、前記隠蔽する部分と最も類似しないコンテンツを選択する処理であることを特徴とする請求項25または請求項26に記載のプログラム。
JP2009512962A 2007-04-27 2008-04-25 コンテンツ処理装置、コンテンツ処理方法、並びに、コンテンツ処理プログラム Active JP5158379B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009512962A JP5158379B2 (ja) 2007-04-27 2008-04-25 コンテンツ処理装置、コンテンツ処理方法、並びに、コンテンツ処理プログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2007119393 2007-04-27
JP2007119393 2007-04-27
JP2009512962A JP5158379B2 (ja) 2007-04-27 2008-04-25 コンテンツ処理装置、コンテンツ処理方法、並びに、コンテンツ処理プログラム
PCT/JP2008/058019 WO2008136381A1 (ja) 2007-04-27 2008-04-25 コンテンツ処理装置、コンテンツ処理方法、並びに、コンテンツ処理プログラム

Publications (2)

Publication Number Publication Date
JPWO2008136381A1 JPWO2008136381A1 (ja) 2010-07-29
JP5158379B2 true JP5158379B2 (ja) 2013-03-06

Family

ID=39943490

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009512962A Active JP5158379B2 (ja) 2007-04-27 2008-04-25 コンテンツ処理装置、コンテンツ処理方法、並びに、コンテンツ処理プログラム

Country Status (4)

Country Link
US (1) US20100063965A1 (ja)
JP (1) JP5158379B2 (ja)
CN (1) CN101669119B (ja)
WO (1) WO2008136381A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016031733A (ja) * 2014-07-30 2016-03-07 富士通株式会社 推論容易性算出プログラム、装置、及び方法
JP2019153056A (ja) * 2018-03-02 2019-09-12 富士ゼロックス株式会社 情報処理装置、及び情報処理プログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006235880A (ja) * 2005-02-23 2006-09-07 Sharp Corp 情報処理装置、情報処理方法、情報処理プログラム及びこれを記録したコンピュータ読み取り可能な記録媒体
JP2007074169A (ja) * 2005-09-05 2007-03-22 Sharp Corp 番組抽出装置

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5933823A (en) * 1996-03-01 1999-08-03 Ricoh Company Limited Image database browsing and query using texture analysis
EP0849723A3 (en) * 1996-12-20 1998-12-30 ATR Interpreting Telecommunications Research Laboratories Speech recognition apparatus equipped with means for removing erroneous candidate of speech recognition
GB9701866D0 (en) * 1997-01-30 1997-03-19 British Telecomm Information retrieval
JP2000148793A (ja) * 1998-09-11 2000-05-30 Nippon Telegr & Teleph Corp <Ntt> 複合メディア文書の類似検索方法及び装置及び複合メディア文書の類似検索プログラムを格納した記憶媒体
AU2003243533A1 (en) * 2002-06-12 2003-12-31 Jena Jordahl Data storage, retrieval, manipulation and display tools enabling multiple hierarchical points of view
US8868405B2 (en) * 2004-01-27 2014-10-21 Hewlett-Packard Development Company, L. P. System and method for comparative analysis of textual documents
US20050004922A1 (en) * 2004-09-10 2005-01-06 Opensource, Inc. Device, System and Method for Converting Specific-Case Information to General-Case Information
US7844566B2 (en) * 2005-04-26 2010-11-30 Content Analyst Company, Llc Latent semantic clustering
US7770220B2 (en) * 2005-08-16 2010-08-03 Xerox Corp System and method for securing documents using an attached electronic data storage device
JP4918776B2 (ja) * 2005-10-24 2012-04-18 富士通株式会社 電子文書比較プログラム、電子文書比較装置および電子文書比較方法
JP2007150724A (ja) * 2005-11-28 2007-06-14 Toshiba Corp 映像視聴支援システムおよび方法
US7739279B2 (en) * 2005-12-12 2010-06-15 Fuji Xerox Co., Ltd. Systems and methods for determining relevant information based on document structure
US7724918B2 (en) * 2006-11-22 2010-05-25 International Business Machines Corporation Data obfuscation of text data using entity detection and replacement

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006235880A (ja) * 2005-02-23 2006-09-07 Sharp Corp 情報処理装置、情報処理方法、情報処理プログラム及びこれを記録したコンピュータ読み取り可能な記録媒体
JP2007074169A (ja) * 2005-09-05 2007-03-22 Sharp Corp 番組抽出装置

Also Published As

Publication number Publication date
CN101669119A (zh) 2010-03-10
US20100063965A1 (en) 2010-03-11
CN101669119B (zh) 2012-08-08
WO2008136381A1 (ja) 2008-11-13
JPWO2008136381A1 (ja) 2010-07-29

Similar Documents

Publication Publication Date Title
US9633063B2 (en) Methods and apparatus for automated redaction of content in a document
KR100974906B1 (ko) 위치와 관련하여 신뢰성 있는 문서를 식별하는 시스템 및 방법
US8433704B2 (en) Local item extraction
US20070288308A1 (en) Method and system for providing job listing affinity
US20070273909A1 (en) Method and system for providing job listing affinity utilizing jobseeker selection patterns
US8924852B2 (en) Apparatus, method, and program for supporting processing of character string in document
JP2009503739A (ja) 定義の抽出
CN105874427A (zh) 基于应用上下文识别帮助信息
CN112912873A (zh) 动态地抑制搜索中的查询答复
TW202301081A (zh) 輔助系統之基於真實世界文字偵測的任務執行
JP5158379B2 (ja) コンテンツ処理装置、コンテンツ処理方法、並びに、コンテンツ処理プログラム
JP3903993B2 (ja) 文章の感情認識装置及び文章の感情認識方法ならびにそのプログラム
US20140279991A1 (en) Conducting search sessions utilizing navigation patterns
JP6107003B2 (ja) 辞書更新装置、音声認識システム、辞書更新方法、音声認識方法、および、コンピュータ・プログラム
KR101099154B1 (ko) 검색 서비스 제공 방법 및 시스템
JP2000105768A (ja) 問合わせ文書の特徴量計算装置および方法
JP5148583B2 (ja) 機械翻訳装置、方法及びプログラム
JP4283038B2 (ja) 文書登録装置、文書検索装置、プログラム及び記憶媒体
US20220165076A1 (en) Processing apparatus, processing method, and non-strategy medium
JP2020060981A (ja) ノード探索方法及びノード探索プログラム
JPWO2008114316A1 (ja) 電子文書管理装置及び電子文書管理プログラム
JP5915841B2 (ja) 整合性判定システム、方法およびプログラム
JP3875510B2 (ja) 情報検索装置、その方法、そのプログラム及びそのプログラムが記録された記録媒体
JP4945646B2 (ja) コミュニケーションシステム、プログラム及び方法
JP4519867B2 (ja) コミュニケーションシステム及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110311

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120829

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121015

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121114

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121127

R150 Certificate of patent or registration of utility model

Ref document number: 5158379

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151221

Year of fee payment: 3