JP2014186641A - オリジナル性検証装置、システム、オリジナル性検証方法及びプログラム - Google Patents

オリジナル性検証装置、システム、オリジナル性検証方法及びプログラム Download PDF

Info

Publication number
JP2014186641A
JP2014186641A JP2013062272A JP2013062272A JP2014186641A JP 2014186641 A JP2014186641 A JP 2014186641A JP 2013062272 A JP2013062272 A JP 2013062272A JP 2013062272 A JP2013062272 A JP 2013062272A JP 2014186641 A JP2014186641 A JP 2014186641A
Authority
JP
Japan
Prior art keywords
document
history information
citation
operation history
verification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013062272A
Other languages
English (en)
Other versions
JP6084087B2 (ja
Inventor
Kazuya Kishi
一也 岸
Kitahiro Kaneda
北洋 金田
Hiroaki Ikeda
裕章 池田
Shigeo Fukuoka
茂雄 福岡
Koji Harada
耕二 原田
Nobuhiro Tagashira
信博 田頭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2013062272A priority Critical patent/JP6084087B2/ja
Publication of JP2014186641A publication Critical patent/JP2014186641A/ja
Application granted granted Critical
Publication of JP6084087B2 publication Critical patent/JP6084087B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】同じ内容の文書についても引用したものか独自に作成したオリジナル文書であるかを特定しつつ、かつ、高速に処理することを目的とする。
【解決手段】検証対象文書の操作履歴情報を抽出する抽出手段と、抽出手段により抽出された操作履歴情報に基づいて、検証対象文書に対する操作に対応した引用量を算出する引用量算出手段と、引用量算出手段で算出された引用量を操作毎に加算する加算手段と、加算手段で加算された引用量に基づいて引用率を算出する引用率算出手段と、引用率算出手段で算出された引用率が閾値以上か否かに基づいて、検証対象文書がオリジナル文書か否かを検証する検証手段と、を有することによって課題を解決する。
【選択図】図4

Description

本発明は、オリジナル性検証装置、システム、オリジナル性検証方法及びプログラムに関する。
近年、コンピュータ技術の発達、インターネットの普及によりWebページ等を利用して目的の情報や他人の文書を検索し、検索した情報や文書を引用して文書を作成することが容易になってきている。このため、学生や研究者等が作成したレポートや論文において、他人の著作物を引用することが深刻化してきている。このような文書は、引用箇所や引用率を算出し、オリジナル性を判断することが必要となるが、このような作業を人手によって行うことは煩雑である。このため、他人の著作物が引用されているかどうかを自動的に判断し、オリジナル性を検証するための仕組みが提案されている。
特許文献1は類似性判定アルゴリズムを用いて文書間の類似度を判定し、両文書の関係を視覚的に表示する手法を提案している。
また、特許文献2は公知の類似性判定アルゴリズムを用いて判定の精度、検索速度を向上させることを目的とした引用判定支援装置を提案している。より具体的には、公知の検索プログラムや検索エンジンによる指示を実行し、記述内容を構文解析して各単語や文節の一致度を数値化することで類似度を算出している。これらの類似度が所定の閾値以上であるか否かを判断して引用判定を実現している。また、判定精度、及び検索速度の向上に関する手法として、比較範囲を特定、制限、単語を類似語に変換する曖昧検索、過去を含めた提出された論文間での類似度算出といった仕組みが提案されている。
特開2002−163275号公報 特開2009−205674号公報
しかしながら、特許文献1、特許文献2に記載の方式は、類似性判定アルゴリズムを利用しているため、比較対象が膨大になった場合に処理に時間がかかってしまうという問題があった。更に、文書間の類似度は検証することが可能であるが、文書間でどちらの文書がオリジナルであるかどうかを検証することができないという問題があった。
本発明はこのような問題点に鑑みなされたもので、同じ内容の文書についても引用したものか独自に作成したオリジナル文書であるかを特定しつつ、かつ、高速に処理することを目的とする。
そこで、本発明のオリジナル性検証装置は、検証対象文書の操作履歴情報を抽出する抽出手段と、前記抽出手段により抽出された操作履歴情報に基づいて、前記検証対象文書に対する操作に対応した引用量を算出する引用量算出手段と、前記引用量算出手段で算出された引用量を操作毎に加算する加算手段と、前記加算手段で加算された引用量に基づいて引用率を算出する引用率算出手段と、前記引用率算出手段で算出された引用率が閾値以上か否かに基づいて、前記検証対象文書がオリジナル文書か否かを検証する検証手段と、を有する。
本発明によれば、同じ内容の文書についても引用したものか独自に作成したオリジナル文書であるかを特定しつつ、かつ、高速に処理することができる。
システム構成及びシステムを構成する装置等のハードウェア構成の一例を示す図である。 実施形態1の文書作成装置のソフトウェア構成の一例を示す図である。 操作履歴情報等の一例を示す図である。 実施形態1のオリジナル性検証装置のソフトウェア構成の一例を示す図である。 文書関係情報の一例を示した図である。 文書作成装置における操作履歴情報の取得の処理の一例を示すフローチャートである。 実施形態1のオリジナル性検証装置におけるオリジナル性検証の処理の一例を示すフローチャートである。 実施形態2の文書作成装置のソフトウェア構成の一例を示す図である。 文書1を作成中に文書2を常に開いていることを操作履歴情報として取得していることを表している図である。 実施形態2のオリジナル性検証装置のソフトウェア構成の一例を示す図である。 実施形態2のオリジナル性検証装置におけるオリジナル性検証の処理の一例を示すフローチャートである。
以下、本発明の実施形態について図面に基づいて説明する。
(第1の実施形態)
<システム全体構成>
はじめに、本実施形態におけるシステム構成の一例を図1の(A)に示す。本実施形態におけるシステムは、文書作成装置11、及びオリジナル性検証装置12から構成される。
文書作成装置11は、文書を作成し、作成した文書を出力する。特に、本実施形態においては、文書作成装置11は、文書に加え、文書がオリジナル文書か否かを検証可能な操作履歴情報を生成し、文書と共に出力する。
オリジナル性検証装置12は、文書作成装置11から文書が入力され、同じく入力された操作履歴情報を解析することによって入力された文書がオリジナル文書か否かを検証し、検証結果を出力する。
文書作成装置11、オリジナル性検証装置12はインターネット等のネットワークによって接続されていてもよい。そして、文書作成装置11は、出力した文書等を、ネットワークを介してオリジナル性検証装置12に送信するようにしてもよい。また、文書作成装置11が出力した各種データをリムーバブルメディア等の記憶媒体に記録する。そして、オリジナル性検証装置12が記憶媒体から各種データを読み取り、文書がオリジナル文書か否か検証するようにしてもよい。
<文書作成装置、及びオリジナル性検証装置のハードウェア構成>
次に図1の(B)を用いて、本実施形態に適応可能なホストコンピュータについて説明する。図1の(B)は本実施形態に係る文書作成装置11やオリジナル性検証装置12として機能可能なホストコンピュータの基本構成を示すと共に、その周辺機器との関係を示す図である。
ホストコンピュータ21は、例えば、一般に普及しているパーソナルコンピュータであり、HD26、CD、及びDVD等に文書データを蓄積したり、或いは蓄積されている文書データ等をモニタ22に表示したりすることが可能である。更に、ホストコンピュータ21は、これらの文書データを、NIC29等を用いることによってインターネット等を介して配布することが可能である。また、ユーザからの各種指示等は、ポインティングデバイス211、及びキーボード212からの入力により行われる。ホストコンピュータ21の内部では、バス214により後述する各ブロックが接続され、種々のデータの受け渡しが可能となっている。
モニタ22は、ホストコンピュータ21からの種々の情報を表示する。
CPU23は、ホストコンピュータ21内の各部の動作を制御、或いはRAM25にロードされたプログラムを実行する。
ROM24は、BIOSやブートプログラムを記憶している。
RAM25は、CPU23にて処理を行うために一時的にプログラムや処理対象の文書データを格納しておく一時記憶領域であり、ここにOSのプログラムやCPU23が後述の各種処理に係るプログラムがロードされることになる。
ハードディスク(HD)26は、RAM等に転送されるプログラムを格納したり、文書データを格納したりする。
CD−ROMドライブ27は、外部記憶媒体の一つであるCD−ROM(CD−R、CD−R/W等)に記憶されたデータを読み込み或いは書き出すことができる。
DVD−ROM(DVD−RAM)ドライブ28も、CD−ROMドライブ27と同様にDVD−ROMからの読み込み、DVD−RAMへの書き出しができる。尚、CD−ROM、DVD−ROM等にプログラムが記憶されている場合には、CPU23は、これらプログラムをHD26にインストールし、必要に応じてRAM25に転送する。
I/F210は、NIC29にホストコンピュータ21を接続するためのインターフェースである。I/F210を介してホストコンピュータ21は、インターネットへデータを送信したり、インターネットからデータを受信したりする。I/F213は、ホストコンピュータ21にポインティングデバイス211やキーボード212を接続するためのインターフェースである。I/F213を介してポインティングデバイス211やキーボード212から入力された各種の指示がCPU23に入力される。
文書作成装置11のCPU23が、文書作成装置11のHD26等に記憶されているプログラムに基づき処理を実行することによって、後述する文書作成装置11のソフトウェア構成及び文書作成装置11のフローチャートの処理が実現される。同様に、オリジナル性検証装置12のCPU23が、オリジナル性検証装置12のHD26等に記憶されているプログラムに基づき処理を実行する。このことによって、後述するオリジナル性検証装置12のソフトウェア構成及びオリジナル性検証装置12のフローチャートの処理が実現される。
<文書作成装置のソフトウェア構成>
以下、文書作成装置11のソフトウェア構成を説明する。
図2に示すように、本実施形態における文書作成装置11は、ソフトウェア構成として、文書生成部31、操作者特定部32、操作履歴情報取得部33、文書出力部34を含む。
文書生成部31は、文書の作成者からのキーボード212やポインティングデバイス211から操作に係る操作情報に基づき、文書を作成する。
操作者特定部32は、文書生成部31を利用して文書を作成している操作者を特定する。操作者特定部32により特定された操作者が文書生成部31の操作者となる。操作者特定部32は、OSのログインシステムと連携して、ログインユーザを特定し、ユーザがログイン中はそのユーザが文書を作成しているものとして、ログインユーザを操作者と決定する。尚、本実施形態では、操作者特定部32がOSのログインシステムと連携する手法について説明したが、文書の作成者が特定可能であれば、例えば、文書の作成時に後述の操作履歴情報取得部33において操作者を指定するようにしてもよい。
操作履歴情報取得部33は、文書生成部31において文書が作成される際の操作履歴情報51を取得する。ここで、本実施形態において操作履歴情報取得部33が取得する操作履歴情報51について、図3の(A)を用いて説明する。
図3の(A)は本実施形態における、操作履歴情報51の一例を示した図である。図3の(A)に示すように、本実施形態における操作履歴情報51は、日時、操作、対象文書、操作情報、操作者が記録される。ここで、操作とは文書を作成する際に行う操作を表しており、例えば、コピー、ペースト、複製、削除といった操作である。複製は、文書をファイルごとコピーすることを示す。操作者が文書を作成する際に、これらの操作を行った場合、文書生成部31を介してこれらの操作情報を取得した操作履歴情報取得部33が、操作を行った日時、操作対象である対象文書、操作情報を記録する。ここで操作情報とは、操作に付随する情報であって、例えば、操作がコピーの場合はコピーした容量、コピー元の文書名、コピー元文書の作成者といった情報である。ここで、図3の(A)の1行目を例に説明すると、この操作履歴情報は、2012年6月25日の11:00にA氏はB氏が作成した文書2を複製して文書1を作成し、複製時の容量が10M(メガバイト)であることを表している。本実施形態では、操作を複製、削除、コピー、ペースト、操作情報を容量、コピー元文書名、コピー元文書の作者、操作者として説明するが、文書に関連する操作であれば例えば図3の(B)に示す操作及び操作情報の組合せを利用してもよい。
操作履歴情報取得部33で操作履歴情報51が取得されると、文書出力部34によって生成された文書が出力される。このとき、文書出力部34は、文書生成部31で生成された文書に操作履歴情報取得部33で取得された操作履歴情報51を関連付ける。本実施形態では、生成された文書に操作履歴情報51を付与する手法を適用する。しかしながら、例えば、システム内に操作履歴管理サーバを準備し、文書作成装置11は、データベースとして対象文書の識別情報と共に操作履歴情報51を操作履歴管理サーバに保存するようにしてもよい。
<オリジナル性検証装置のソフトウェア構成>
以下、図4を用いて本実施形態に適用されるオリジナル性検証装置12のソフトウェア構成を説明する。
図4に示すように、本実施形態におけるオリジナル性検証装置12は、ソフトウェア構成として、文書入力部41、操作履歴情報抽出部42、文書関係情報作成部43、引用元文書判定部44、引用量算出部45、引用率算出部46、オリジナル性検証部47を含む。
文書入力部41は、文書作成装置11で生成された文書が入力される。
操作履歴情報抽出部42は、例えば、文書入力部41で入力された文書に関連付けられた操作履歴情報を抽出する。操作履歴情報抽出部42は、操作履歴情報が文書に付与されている場合は、文書に付与された操作履歴情報を取得する。一方、操作履歴情報抽出部42は、操作履歴情報が操作履歴管理サーバにおいて保存されている場合は、文書入力部41入力された文書の識別情報に対応する操作履歴情報を操作履歴管理サーバに問い合わせて、操作履歴情報を操作履歴管理サーバから取得する。
文書関係情報作成部43は、文書入力部41で入力された文書及び操作履歴情報から文書間の関連を視覚的に表現するための文書関係情報を作成する。ここで、本実施形態における文書関係情報作成部43が作成する文書関係情報について図5を用いて説明する。
図5は、文書関係情報71の一例を示した図である。図5に示すように本実施形態における文書関係情報71は、文書の操作と操作に関連する文書の関係とを時系列で表現したものである。尚、図5に示す文書関係情報71は、図3の(A)の文書関係情報が付与された文書1がオリジナル性検証装置12に入力された場合の例を示している。文書関係情報作成部43が図5に示すような文書関係情報71を作成することによって、文書間の関係を直感的に理解することが可能である。尚、本実施形態では図3の(A)に示す操作について説明したが、文書関係情報において例えば図3の(B)に示すような文書のオープン、クローズやコピーの位置情報を表現してもよい。本実施形態では、操作を明記するようにしているが、操作履歴情報を用いて文書間の関係を表現可能であれば、例えば記号を利用して文書間の関係を表現するようにしてもよい。文書関係情報作成部43は、文書関係情報71を、視覚的にオリジナル性を検証するために作成しているが、操作履歴情報を用いて文書間の関係を表現可能であれば、例えば内部的に保持するためのみに作成してもよい。
引用元文書判定部44は、操作履歴情報抽出部42で抽出された操作履歴情報から引用に関連する操作とその操作の引用元文書とを特定する。引用元文書判定部44は、引用元文書判定部44で特定された引用元文書の操作者が文書入力部41で入力された検証対象文書の操作者と一致しているかどうかを検証する。また、引用元文書判定部44は、引用元文書と検証対象文書との操作者が一致した場合、引用元文書に関するオリジナル性を検証する。
引用量算出部45は、引用元文書判定部44の引用元文書の判定結果に応じて、引用量を算出する。例えば、引用元文書が他人の文書である、つまりオリジナルではないと判断された場合、引用量算出部45は、引用と判断して操作履歴情報に記録されている引用量を算出する。引用元文書が他人の文書であるということは、検証対象文書の操作者と引用元文書の操作者とが一致しない場合や、検証対象文書の操作者と引用元文書の操作者とが一致するが引用元文書自体が引用されている文書である場合が挙げられる。引用量算出部45は、引用量を、操作ごとに加算していく。
引用率算出部46は、最終的に文書全体に対する引用部分の割合を算出する。例えば、図3の(A)に示した操作履歴情報である場合、仮に検証対象文書の全体の容量が30Mであって、文書4がA氏のオリジナル文書であると仮定すると、引用率は次のようになる。図3の(A)に示す操作における引用量は、複製時に10M、文書3からコピー、ペーストで10Mとなり合計20Mとなる。ここで、複製直後に削除操作を行っており、引用部分から5Mが削除さているので、引用量の合計が15Mであると算出される。このとき図3の(B)に示すような操作履歴情報から、オリジナル性検証装置12は、削除領域の位置情報を検証することによって、引用部分を削除したのかオリジナル部分を削除したのかを検証することもできる。この例では、文書4からコピー、ペーストをしているが、A氏のオリジナル文書からのコピーであるため、引用とはみなさない。以上のことから文書全体の容量は30Mであるので、文書全体の容量に対する、引用率は50%であると算出される。
引用率算出部46において引用率が算出されると、オリジナル性検証部47によってオリジナルか否かの最終判定がなされる。オリジナル性検証部47は、引用率算出部46において算出された引用率が、所定の閾値を超えているか否かを判断する。所定の閾値とは予め設定された引用率のパーセンテージであって、例えば50%、40%といった値を指す。本実施形態においては、予め設定された40%を閾値として説明するが、例えば閾値設定部を設けて検証者が自由に閾値を設定可能にしてもよい。本実施形態の場合、引用率が50%で閾値が40%であるため、引用率が閾値を超えている。したがって、オリジナル性検証部47は、検証対象文書がオリジナル文書ではなく、コピー文書であると判断する。
<操作履歴情報の取得処理>
以下、図6を用いて文書作成装置11における操作履歴情報の取得の処理について説明する。尚、以下、説明の簡略化のため、文書作成装置11のCPU23がプログラムに基づき処理を実行するものとして説明を行う。
CPU23は、OSと連携し、OSにログインしたユーザから文書を作成するユーザを特定する(S801)。
CPU23は、ユーザを特定すると、ユーザの操作に応じて、文書を作成する(S802)。
CPU23は、文書を作成する際のユーザの操作情報等を操作履歴情報として取得する(S803)。
CPU23は、文書作成が終了したか否かを判定し(S804)、文書作成が終了した(S804においてYes)と判定するまで、S802からS804までの処理を繰り返す。CPU23は、文書の作成が終了すると(S804においてYes)、操作履歴情報を文書に付与して(S805)、文書を出力し(S806)、図6に示す処理を終了する。
<オリジナル性検証処理>
以下、図7を用いてオリジナル性検証装置12におけるオリジナル性検証の処理について説明する。尚、以下、説明の簡略化のため、オリジナル性検証装置12のCPU23がプログラムに基づき処理を実行するものとして説明を行う。
CPU23は、まず、入力された検証対象の文書を特定する(S901)。
CPU23は、検証対象の文書を特定すると、操作履歴情報が付与された文書であるか否かを検証する(S902)。操作履歴情報が付与されていない場合、CPU23は、検証ができないため、コピー文書、つまりオリジナル文書ではないと判断し(S912)、結果を出力して(S913)、図7に示す処理を終了する。操作履歴情報が付与されている場合、CPU23は、操作履歴情報に記載されている最も古い操作を取得する(S903)。操作履歴情報には、操作ごとに日時情報が付与されているため、CPU23は、最も古い操作を容易に判断可能である。
CPU23は、操作を抽出すると、引用元文書が自分のドキュメントであること、つまり検証対象文書の操作者と引用元文書の操作者とが一致しているかどうかを判断する(S904)。操作が引用に関連しないような場合(S904においてNo)、CPU23は、S907に進む。引用元文書が自分の文書である場合(S904においてYes)、CPU23は、引用元文書がオリジナルであるかどうかを判定する(S905)。つまり、CPU23は、検証対象文書を引用元文書に置き換えて、引用元文書のオリジナル性検証を実施する。
したがって、引用元文書で更に文書を引用している場合は、その引用元文書のオリジナル性を検証するといったように、階層的なオリジナル性検証が必要となる。S906でオリジナル性を検証した結果、引用元文書がオリジナルであると判定した場合(S906においてYes)、CPU23は、自分の文書であるため引用とはならず、S909に進む。引用元文書がオリジナル文書ではないと判断した場合(S906においてNo)、CPU23は、操作に対応した引用量を抽出し(S907)、引用量の合計を算出する(S908)。引用量の合計とは、古い操作から順に引用量を加算していった合計の引用量のことである。つまり、引用量は操作履歴毎(操作毎)に加算される。
S905及び/又はS906の処理はオリジナル性判定の処理の一例である。
引用量を算出すると、CPU23は、引用率が閾値以上であるかどうかを検証する(S909)。引用率が閾値以上である場合(S909においてYes)、CPU23は、コピー文書であると判断し(S912)、結果を出力して(S913)、図7に示す処理を終了する。引用率が閾値を超えていない場合、CPU23は、全ての操作について引用の可否を判断したかどうかを判定し(S910)、操作履歴情報に操作が残っている場合(S910においてNo)、残っている操作を抽出して処理を繰り返す。全ての操作について処理が終わっている場合(S910においてYes)、CPU23は、オリジナル文書と判断し(S911)、結果を出力して(S913)、処理を終了する。
以上説明したように、本実施形態によれば、CPU23は、操作履歴情報を取得し、その操作履歴情報を検証することによって、同じ内容の文書についても引用したものか独自に作成したオリジナル文書であるかを検証可能としている。また、CPU23は、操作履歴情報を取得し、その内容を検証することに限定しているため、従来の文書の内容を比較する手法に比べて高速に処理することを可能としている。
(第2の実施形態)
第1の実施形態では、CPU23は、主にコピー、ペースト、複製に関する操作を検証して、文書のオリジナル性を検証した。本実施形態では、電子文書を閲覧することによる書き写しによる引用に関するオリジナル性の検証を可能としている。
<文書作成装置のソフトウェア構成>
以下、図8を用いて本実施形態に適用される文書作成装置101のソフトウェア構成を説明する。図8に示すように本実施形態における文書作成装置101は、ソフトウェア構成として、文書生成部31、操作履歴情報取得部102、文書出力部34を含む。文書作成装置101を構成する文書生成部31、文書出力部34は、第1の実施形態と同様であるため、説明は省略する。また、本実施形態に係るシステム構成や文書作成装置101のハードウェア構成についても、第1の実施形態において説明した図1の(A)及び図1の(B)と同様であるため説明は省略する。
操作履歴情報取得部102は、文書生成部31において文書が作成されている際の操作履歴情報を取得する。このとき操作履歴情報取得部102は、文書生成部31において文書が作成されている際に、オープンされている文書についても履歴を残す。操作履歴情報取得部102が取得する操作履歴情報121について図9を用いて説明する。
図9は、文書1を作成中に文書2を常に開いていることを操作履歴情報として取得していることを表している図である。本実施形態では図9に示すような操作履歴情報を用いてオリジナル性の検証を可能にしている。
<オリジナル性検証装置の構成>
以下、図10を用いて本実施形態に適用されるオリジナル性検証装置111のソフトウェア構成を説明する。本実施形態におけるオリジナル性検証装置111は、ソフトウェア構成として、文書入力部41、操作履歴情報抽出部42、文書関係情報作成部43、同時オープン文書特定部112、同時オープン時間算出部113、オリジナル性検証部114を含む。文書入力部41、操作履歴情報抽出部42、文書関係情報作成部43は、第1の実施形態と同様であるため説明は省略する。また、本実施形態に係るオリジナル性検証装置111のハードウェア構成についても、第1の実施形態において説明した図1の(B)と同様であるため説明は省略する。
同時オープン文書特定部112は、操作履歴情報抽出部42から抽出した操作履歴情報から同時にオープンしている文書を特定する。例えば図9に示す操作履歴情報121の場合、同時オープン文書特定部112は、文書2が同時にオープンしている文書であることを特定する。
同時オープン時間算出部113は、同時にオープンしている時間を算出する。例えば図9に示す操作履歴情報121の場合、同時オープン文書特定部112で特定された文書2に対して、同時オープン時間算出部113は、オープン時刻とクローズ時刻との差分から同時にオープンしている時間を1時間と算出する。
同時オープン時間算出部113により同時にオープンしている時間が算出されるとオリジナル性検証部114は、同時にオープンしている時間が閾値以上であるかどうかを検証する。オリジナル性検証部114は、閾値以下であった場合、オリジナル文書であると判断し、閾値以上であった場合は、検証対象文書がオリジナル文書ではなく、コピー文書であると判断する。閾値は第1の実施形態と同様に、予め設定しておいてもよいし、例えば閾値設定部を設けて検証者が自由に閾値を設定可能にしてもよい。
<操作履歴情報の取得処理>
以下、本実施形態における操作履歴情報の取得処理は第1の実施形態において説明した図6の処理と同様であるため説明は省略する。
<オリジナル性検証処理>
以下、図11を用いて本実施形態に適用されるオリジナル性検証処理について説明する。尚、以下、説明の簡略化のため、オリジナル性検証装置12のCPU23がプログラムに基づき処理を実行するものとして説明を行う。
まず、CPU23は、検証対象文書と同時に抽出済みの操作履歴情報から同時オープン文書を特定する(S131)。
CPU23は、同時オープン文書を特定すると、同時オープン文書に付与されている操作履歴情報から同時オープン文書の操作者を抽出する(S132)。
続いて、CPU23は、検証対象文書に付与されている操作履歴情報から操作者を抽出する(S133)。
それぞれの操作者が抽出されると、CPU23は、検証対象文書と同時オープン文書との操作者を比較する(S134)。CPU23は、比較した結果、検証対象文書と同時オープン文書との操作者が一致した場合(S134においてYes)、オリジナル文書として判断し(S137)、一致しない場合(S134においてNo)、S135に進む。
CPU23は、操作者が一致しない場合、同時オープンしている時間を抽出し(S135)、同時オープン時間が閾値を超えているかどうかを検証する(S136)。
CPU23は、同時オープン時間が閾値以下である場合(S136においてNo)、オリジナル文書と判断し(S137)、結果を出力する(S139)。
CPU23は、同時オープン時間が閾値を超えている場合(S136においてYes)、コピー文書である疑いがあると判断し(S138)、結果を出力する(S139)。つまり、CPU23は、書き写しによるコピーがなされた可能性があると判断する。
以上説明したように、本実施形態によれば、CPU23は、同時刻にオープンしている文書を特定することによって、電子文書の閲覧による書き写しに関するオリジナル性の検証も可能にしている。本実施形態では、コピー文書の疑いがあることまでを特定できるため、本検証後に類似性判定を行ってオリジナル性を検証するようにしてもよい。このように本実施形態を利用することによって、類似性判定アルゴリズムの利用前に検証対象を絞り込むことが可能となり、全体的な処理時間の短縮を可能としている。
(その他の実施形態)
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(又はCPUやMPU等)がプログラムを読み出して実行する処理である。
以上、上述した各実施形態によれば、同じ内容の文書についても引用したものか独自に作成したオリジナル文書であるかを特定しつつ、かつ、高速に処理することができる。
以上、本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
11 文書作成装置、12 オリジナル性検証装置

Claims (13)

  1. 検証対象文書の操作履歴情報を抽出する抽出手段と、
    前記抽出手段により抽出された操作履歴情報に基づいて、前記検証対象文書に対する操作に対応した引用量を算出する引用量算出手段と、
    前記引用量算出手段で算出された引用量を操作毎に加算する加算手段と、
    前記加算手段で加算された引用量に基づいて引用率を算出する引用率算出手段と、
    前記引用率算出手段で算出された引用率が閾値以上か否かに基づいて、前記検証対象文書がオリジナル文書か否かを検証する検証手段と、
    を有するオリジナル性検証装置。
  2. 前記抽出手段により抽出された操作履歴情報に基づいて、前記検証対象文書の操作者と引用元文書の操作者とが一致するか否かを判定する判定手段を更に有し、
    前記引用量算出手段は、前記判定手段により操作者が一致しないと判定された場合に、前記検証対象文書に対する操作に対応した引用量を算出する請求項1記載のオリジナル性検証装置。
  3. 前記判定手段により操作者が一致すると判定された場合、前記引用元文書のオリジナル性を判定するオリジナル性判定手段を更に有し、
    前記引用量算出手段は、前記オリジナル性判定手段により前記引用元文書がオリジナルではないと判定された場合に、前記検証対象文書に対する操作に対応した引用量を算出する請求項2記載のオリジナル性検証装置。
  4. 前記引用量算出手段は、前記検証対象文書に対する操作として、コピー、又はペースト、又は複製に関する操作に対応した引用量を算出する請求項1又は2記載のオリジナル性検証装置。
  5. 検証対象文書の操作履歴情報を抽出する抽出手段と、
    前記抽出手段により抽出された操作履歴情報に基づいて、前記検証対象文書の操作者と、前記検証対象文書と同時にオープンされていた文書の操作者と、が一致するか否かを判定する判定手段と、
    前記判定手段により一致しないと判定された場合、前記操作履歴情報に基づいて、同時にオープンされていた時間が閾値以上か否かに基づいて、前記検証対象文書がオリジナル文書か否かを検証する検証手段と、
    を有するオリジナル性検証装置。
  6. 文書を生成する文書生成手段と、
    前記文書の操作に関する操作履歴情報を取得する取得手段と、
    前記文書と前記操作履歴情報とを関連付けて出力する出力手段と、
    前記出力手段により出力された文書と関連付けられている操作履歴情報を抽出する抽出手段と、
    前記抽出手段により抽出された操作履歴情報に基づいて、前記文書に対する操作に対応した引用量を算出する引用量算出手段と、
    前記引用量算出手段で算出された引用量を操作毎に加算する加算手段と、
    前記加算手段で加算された引用量に基づいて引用率を算出する引用率算出手段と、
    前記引用率算出手段で算出された引用率が閾値以上か否かに基づいて、前記文書がオリジナル文書か否かを検証する検証手段と、
    を有するシステム。
  7. 文書を生成する文書生成手段と、
    前記文書生成手段で生成された文書の操作者の情報と、前記文書と同時にオープンされていた同時オープン文書の操作者の情報と、同時にオープンされていた時間に係る情報と、を操作履歴情報として取得する取得手段と、
    前記文書と前記操作履歴情報とを関連付けて出力する出力手段と、
    前記出力手段により出力された文書と関連付けられている操作履歴情報を抽出する抽出手段と、
    前記抽出手段により抽出された操作履歴情報に基づいて、前記文書の操作者と、前記文書と同時にオープンされていた同時オープン文書の操作者と、が一致するか否かを判定する判定手段と、
    前記判定手段により一致しないと判定された場合、前記操作履歴情報に基づいて、同時にオープンされていた時間が閾値以上か否かに基づいて、前記文書がオリジナル文書か否かを検証する検証手段と、
    を有するシステム。
  8. オリジナル性検証装置が実行するオリジナル性検証方法であって、
    検証対象文書の操作履歴情報を抽出する抽出ステップと、
    前記抽出ステップにより抽出された操作履歴情報に基づいて、前記検証対象文書に対する操作に対応した引用量を算出する引用量算出ステップと、
    前記引用量算出ステップで算出された引用量を操作毎に加算する加算ステップと、
    前記加算ステップで加算された引用量に基づいて引用率を算出する引用率算出ステップと、
    前記引用率算出ステップで算出された引用率が閾値以上か否かに基づいて、前記検証対象文書がオリジナル文書か否かを検証する検証ステップと、
    を含むオリジナル性検証方法。
  9. オリジナル性検証装置が実行するオリジナル性検証方法であって、
    検証対象文書の操作履歴情報を抽出する抽出ステップと、
    前記抽出ステップにより抽出された操作履歴情報に基づいて、前記検証対象文書の操作者と、前記検証対象文書と同時にオープンされていた文書の操作者と、が一致するか否かを判定する判定ステップと、
    前記判定ステップにより一致しないと判定された場合、前記操作履歴情報に基づいて、同時にオープンされていた時間が閾値以上か否かに基づいて、前記検証対象文書がオリジナル文書か否かを検証する検証ステップと、
    を含むオリジナル性検証方法。
  10. システムが実行するオリジナル性検証方法であって、
    文書を生成する文書生成ステップと、
    前記文書の操作に関する操作履歴情報を取得する取得ステップと、
    前記文書と前記操作履歴情報とを関連付けて出力する出力ステップと、
    前記出力ステップにより出力された文書と関連付けられている操作履歴情報を抽出する抽出ステップと、
    前記抽出ステップにより抽出された操作履歴情報に基づいて、前記文書に対する操作に対応した引用量を算出する引用量算出ステップと、
    前記引用量算出ステップで算出された引用量を操作毎に加算する加算ステップと、
    前記加算ステップで加算された引用量に基づいて引用率を算出する引用率算出ステップと、
    前記引用率算出ステップで算出された引用率が閾値以上か否かに基づいて、前記文書がオリジナル文書か否かを検証する検証ステップと、
    を含むオリジナル性検証方法。
  11. システムが実行するオリジナル性検証方法であって、
    文書を生成する文書生成ステップと、
    前記文書生成ステップで生成された文書の操作者の情報と、前記文書と同時にオープンされていた同時オープン文書の操作者の情報と、同時にオープンされていた時間に係る情報と、を操作履歴情報として取得する取得ステップと、
    前記文書と前記操作履歴情報とを関連付けて出力する出力ステップと、
    前記出力ステップにより出力された文書と関連付けられている操作履歴情報を抽出する抽出ステップと、
    前記抽出ステップにより抽出された操作履歴情報に基づいて、前記文書の操作者と、前記文書と同時にオープンされていた同時オープン文書の操作者と、が一致するか否かを判定する判定ステップと、
    前記判定ステップにより一致しないと判定された場合、前記操作履歴情報に基づいて、同時にオープンされていた時間が閾値以上か否かに基づいて、前記文書がオリジナル文書か否かを検証する検証ステップと、
    を含むオリジナル性検証方法。
  12. コンピュータに、
    検証対象文書の操作履歴情報を抽出する抽出ステップと、
    前記抽出ステップにより抽出された操作履歴情報に基づいて、前記検証対象文書に対する操作に対応した引用量を算出する引用量算出ステップと、
    前記引用量算出ステップで算出された引用量を操作毎に加算する加算ステップと、
    前記加算ステップで加算された引用量に基づいて引用率を算出する引用率算出ステップと、
    前記引用率算出ステップで算出された引用率が閾値以上か否かに基づいて、前記検証対象文書がオリジナル文書か否かを検証する検証ステップと、
    を実行させるためのプログラム。
  13. コンピュータに、
    検証対象文書の操作履歴情報を抽出する抽出ステップと、
    前記抽出ステップにより抽出された操作履歴情報に基づいて、前記検証対象文書の操作者と、前記検証対象文書と同時にオープンされていた文書の操作者と、が一致するか否かを判定する判定ステップと、
    前記判定ステップにより一致しないと判定された場合、前記操作履歴情報に基づいて、同時にオープンされていた時間が閾値以上か否かに基づいて、前記検証対象文書がオリジナル文書か否かを検証する検証ステップと、
    を実行させるためのプログラム。
JP2013062272A 2013-03-25 2013-03-25 オリジナル性検証装置、システム、オリジナル性検証方法及びプログラム Expired - Fee Related JP6084087B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013062272A JP6084087B2 (ja) 2013-03-25 2013-03-25 オリジナル性検証装置、システム、オリジナル性検証方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013062272A JP6084087B2 (ja) 2013-03-25 2013-03-25 オリジナル性検証装置、システム、オリジナル性検証方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2014186641A true JP2014186641A (ja) 2014-10-02
JP6084087B2 JP6084087B2 (ja) 2017-02-22

Family

ID=51834127

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013062272A Expired - Fee Related JP6084087B2 (ja) 2013-03-25 2013-03-25 オリジナル性検証装置、システム、オリジナル性検証方法及びプログラム

Country Status (1)

Country Link
JP (1) JP6084087B2 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001306732A (ja) * 2000-04-27 2001-11-02 Toshiba Corp 原本性保証文書管理方法及び記憶媒体
JP2006099421A (ja) * 2004-09-29 2006-04-13 Fujitsu Ltd 電子文書保管装置、プログラム及び電子文書参照装置
JP2010086531A (ja) * 2008-10-02 2010-04-15 Nhn Corp ウェブ文書原本判別方法およびウェブ文書原本判別システム、並びにウェブ文書履歴情報提供方法およびウェブ文書履歴情報提供方法システム
JP2011076479A (ja) * 2009-09-30 2011-04-14 Canon It Solutions Inc 情報処理装置、情報処理方法及びプログラム
JP2013038515A (ja) * 2011-08-04 2013-02-21 Canon Inc 情報処理装置、情報処理方法及びプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001306732A (ja) * 2000-04-27 2001-11-02 Toshiba Corp 原本性保証文書管理方法及び記憶媒体
JP2006099421A (ja) * 2004-09-29 2006-04-13 Fujitsu Ltd 電子文書保管装置、プログラム及び電子文書参照装置
JP2010086531A (ja) * 2008-10-02 2010-04-15 Nhn Corp ウェブ文書原本判別方法およびウェブ文書原本判別システム、並びにウェブ文書履歴情報提供方法およびウェブ文書履歴情報提供方法システム
JP2011076479A (ja) * 2009-09-30 2011-04-14 Canon It Solutions Inc 情報処理装置、情報処理方法及びプログラム
JP2013038515A (ja) * 2011-08-04 2013-02-21 Canon Inc 情報処理装置、情報処理方法及びプログラム

Also Published As

Publication number Publication date
JP6084087B2 (ja) 2017-02-22

Similar Documents

Publication Publication Date Title
US20160042298A1 (en) Content discovery and ingestion
WO2019137444A1 (zh) 用于执行机器学习的特征工程的方法及系统
KR102187127B1 (ko) 데이터 연관정보를 이용한 중복제거 방법 및 시스템
JP5886447B2 (ja) ロケーション非依存のファイル
US11170021B2 (en) Digital content management platform
US20180341701A1 (en) Data provenance system
CN105431838A (zh) 串流内容和占位符
EP3839785A1 (en) Characterizing malware files for similarity searching
US10452781B2 (en) Data provenance system
US10249068B2 (en) User experience for multiple uploads of documents based on similar source material
US20130311474A1 (en) Generating Mappings Between a Plurality of Taxonomies
JP2011191862A (ja) ファイル管理装置、ファイル管理システム、およびファイル管理プログラム
US9134963B1 (en) Method of unifying information and tool from a plurality of information sources
CN116108826A (zh) 用于设计者的智能改变总结
EP2957088A1 (en) Serialization for delta encoding
KR102034668B1 (ko) 이종 컨텐츠 추천 모델 제공 장치 및 방법
JP6084087B2 (ja) オリジナル性検証装置、システム、オリジナル性検証方法及びプログラム
US9256644B1 (en) System for identifying and investigating shared and derived content
US20220391356A1 (en) Duplicate file management for content management systems and for migration to such systems
CN110019056A (zh) 用于云层的容器元数据分离
US10380167B1 (en) Multi-volume content mapping
EP3163474A1 (en) A similarity module, a local computer, a server of a data hosting service and associated methods
JP2015162170A (ja) 情報処理装置、及び制御方法
WO2021131456A1 (ja) データ管理計算機及びデータ管理方法
TWI427494B (zh) 雲端架構的專利文件檢索平台、處理方法及其檢索方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160310

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161221

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161227

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170124

R151 Written notification of patent or utility model registration

Ref document number: 6084087

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees