JP5301862B2 - 著作物比較システム - Google Patents

著作物比較システム Download PDF

Info

Publication number
JP5301862B2
JP5301862B2 JP2008086374A JP2008086374A JP5301862B2 JP 5301862 B2 JP5301862 B2 JP 5301862B2 JP 2008086374 A JP2008086374 A JP 2008086374A JP 2008086374 A JP2008086374 A JP 2008086374A JP 5301862 B2 JP5301862 B2 JP 5301862B2
Authority
JP
Japan
Prior art keywords
document
character string
test
reprint
basic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008086374A
Other languages
English (en)
Other versions
JP2009238131A (ja
Inventor
純一 井上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nomura Research Institute Ltd
Original Assignee
Nomura Research Institute Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nomura Research Institute Ltd filed Critical Nomura Research Institute Ltd
Priority to JP2008086374A priority Critical patent/JP5301862B2/ja
Publication of JP2009238131A publication Critical patent/JP2009238131A/ja
Application granted granted Critical
Publication of JP5301862B2 publication Critical patent/JP5301862B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Storage Device Security (AREA)

Description

この発明は、データ処理技術に関し、特に、文書ファイルの文字データを処理する著作物比較システムに関する。
ITの発展により、人間の知的作業は、過去と比べて格段に効率化されている。例えば、文書作成者は、インターネットを介してウェブサイト等の様々な情報リソースにアクセスし、多種多様な既存文書を容易に取得できる。文書作成者は、また、検索サービス等を利用して、所望する内容の既存文書を容易に発見できる(例えば、特許文献1参照)。
文書作成者は、様々な情報リソースから取得した既存文書を参考にして、自身の作成文書、例えば報告書や研究論文等の質を高めることができる。さらに文書の電子化により、既存文書の記載内容を作成文書に取り込むことも容易にできる。
特開2004−295712号公報
このように、文書作成者が作成文書の中に既存文書の記載内容を容易に取り込める現在、他人の権利を侵害しうる文書が作成されることがある。一方で、企業にはコンプライアンス経営が要求されており、作成された文書の記載内容を検査して、他人の権利を侵害しうる文書に対しては適切な対処を施すことが喫緊の課題である。
本発明は、本発明者の上記着目に基づいて完成された発明であり、その主たる目的は、文書の記載内容に対する検査を支援する技術を提供することである。
上記課題を解決するために、本発明のある態様の著作物比較システムは、被験文書と基礎文書とを取得する文書取得部と、被験文書の文字列と基礎文書の文字列とを比較して、両文書間で合致する文字列を特定する文字列比較部と、両文書間で合致する文字列の属性に応じて、基礎文書から被験文書への情報の転載有無を判定する転載判定部と、転載判定部における判定結果に応じて、所定の後処理を実行する後処理部と、を備える。
この被験文書および基礎文書は、文字データが記録された様々なデータファイルを意味する。例えば、様々な自然言語やデータ記述言語の文字列を格納する文書ファイル、プログラミング言語の文字列を格納するプログラムファイル等が含まれる。文書ファイルは、プレーンテキストファイル、様々な文書編集ソフト用のデータファイル、HTMLファイルであってもよい。また、プログラムファイルは、JAVA(登録商標)ソースファイル、C言語ソースファイル、JAVA(登録商標)スクリプトファイルであってもよい。
また、両文書間で合致する文字列の属性は、文字列の特徴や性質を示す情報を意味する。例えば、文字列長、文書上の位置、文字列の出現頻度、表示態様等であってもよい。また、所定の後処理は、例えば、判定結果の記録、ユーザへの通知、文書の編集等であってもよい。
なお、以上の構成要素の任意の組合せ、本発明の表現を装置、方法、システム、プログラム、プログラムを格納した記録媒体などの間で変換したものもまた、本発明の態様として有効である。
本発明によれば、文書の記載内容に対する検査を支援できる。
様々な文書を社外に発信する企業においては、発信対象となる文書が他人の権利を侵害しうるか否かを発信前に検査する必要がある。他人の権利を侵害しうる文書とは、典型的には、他人が作成した既存文書(以下、「基礎文書」と呼ぶ。)の記載内容が転載された文書であり、特に、他人が有する著作権との関係で問題となりうる。
従来、基礎文書の記載内容が転載されたか否かを検査すべき文書(以下、「被験文書」と呼ぶ。)に対する検査として、文書作成者に対する転載有無の確認や、人手による基礎文書との比較が実施されてきた。しかし、文書作成者自身が意識しない転載もあり、問題ある被験文書が見逃されることもあった。また、基礎文書の量は膨大であるため、人手による比較には限界があり、その比較作業では多くのコストが発生していた。なお、ここにいう転載とは、表現または情報を採用して取り込むことをいい、著作物性のない数字や事実、著作権法上の引用として適法な転記・転載を含むこととする。また、以下、特に意味を限定する場合を除いて、情報という場合には、事実、数字等の情報と、表現の双方を含むものとする。
本実施の形態では、基礎文書から被験文書への表現または情報の転載有無を判定する文書処理装置(以下、「転載検査装置」と呼ぶ。)を含む文書処理システム(以下、「転載検査システム」と呼ぶ。)を提案する。この転載検査システムによれば、被験文書の記載内容に対する検査を支援できる。ユーザは、転載検査システムを使用することで、著作権侵害等、表現または情報の転載による企業のリスクを低減させることができる。
図1は、本発明の実施の形態における転載検査システムの構成図である。
転載検査システム1000においては、転載検査装置100と、文書提供装置200と、ユーザ端末300とが通信網400を介して接続されている。通信網400には、LAN(Local Area Network)、WAN(Wide Area Network)、インターネット等、様々な通信手段が含まれる。
文書提供装置200は、様々な内容およびフォーマットの文書ファイル(以下、単に「文書」と呼ぶ。)を提供するウェブサーバである。ユーザ端末300は、ウェブブラウザを搭載した一般的なPCである。以下、ユーザ端末300を操作するユーザが文書作成者でもあることとする。
転載検査装置100もウェブサーバであり、ユーザ端末300に対して転載検査サービスを提供する。この転載検査サービスは、ユーザ端末300から指定された被験文書の中に、文書提供装置200が提供する文書に記載された情報の転載があるか否かを検査して、検査結果をユーザ端末300に通知するサービスである。
図2は、図1の転載検査装置100の機能構成を示すブロック図である。本明細書のブロック図において示される各ブロックは、ハードウェア的には、コンピュータのCPUをはじめとする素子や機械装置で実現でき、ソフトウェア的にはコンピュータプログラム等によって実現されるが、ここでは、それらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックはハードウェア、ソフトウェアの組合せによっていろいろなかたちで実現できることは、当業者には理解されるところであり、これらのいずれかに限定されるものではない。
また、本明細書の各装置においては、当該装置を効率よく利用するための機能および環境を提供して当該装置の全体を統括的に制御するオペレーションシステム(以下、「OS」と呼ぶ。)が実行されている。かかるOSによってブロック図の各機能ブロックが動作させられることにより、複数のソフトウェアが実行される。
転載検査装置100は、データ保持部10と、ユーザ支援部20と、データ処理部30とを備える。なお、ウェブサーバ機能については既知の技術であるため以下省略する。
データ保持部10は、各種データを保持するための記憶領域である。ユーザ支援部20は、ユーザ端末300に対してユーザインタフェースを提供して、ユーザ端末300とのデータ交換を実行する。データ処理部30は、データ保持部10、ユーザ支援部20および文書提供装置200からデータを取得して、各種のデータ処理を実行する。
データ保持部10は、文書保持部12と比較結果保持部14とを有する。
文書保持部12は、後述する文書収集部32において文書提供装置200から収集された文書と、その文書を特定するためのキーワードとを対応づけて保持する。比較結果保持部14は、基礎文書と被験文書間で合致する文字列の属性情報を記録する。記録される属性情報の例は後述する。
ユーザ支援部20は、検査要求受信部22と、検査結果送信部24とを有する。
検査要求受信部22は、転載検査サービスを要求する検査要求データをユーザ端末300から受信する。この検査要求データには、被験文書と、被験文書の内容を示すキーワード文字列とが含まれる。
検査結果送信部24は、後述する転載判定部40における判定結果を取得して、転載の有無を示す検査結果データをユーザ端末300に送信する。具体的には、検査結果送信部24は、ユーザ端末300から検査結果要求データを受信したとき、検査結果データをユーザ端末300に送信してもよい。また、転載判定部40から判定結果が通知されたとき、検査結果データをユーザ端末300に対して電子メールで送信してもよい。
データ処理部30は、文書収集部32と、基礎文書取得部34と、文字列抽出部36と、文字列比較部38と、転載判定部40とを有する。
文書収集部32は、定期的に文書提供装置200にアクセスし、文書提供装置200が提供している複数の文書を取得する。文書収集部32は、取得した複数の文書それぞれからキーワード文字列を抽出し、文書とそのキーワード文字列とを対応づけて文書保持部12に記録する。キーワード文字列の抽出には、既知の方法であるNグラム、形態素解析等が使用されてよい。
基礎文書取得部34は、文書保持部12に保持された複数の文書のうち、検査要求データにて指定されたキーワード文字列に対応づけられた文書を基礎文書として取得する。ここでは、第1の基礎文書および第2の基礎文書が取得されることとする。
文字列抽出部36は、基礎文書および被験文書から文字列を抽出する。具体的には、基礎文書の場合、文字列抽出部36は、基礎文書取得部34において取得された基礎文書から文字列データ(以下、「基礎文字列」と呼ぶ。)を抽出してメモリにロードする。図3は、基礎文字列を示す。同図では、基礎文字列50で総称される文字列であって、第1の基礎文書に含まれる基礎文字列50aと、第2の基礎文書に含まれる基礎文字列50bとを示している。
また被験文書の場合、文字列抽出部36は、検査要求データに含まれる被験文書から複数の文字列データ(以下、「被験文字列」と呼ぶ。)を抽出してメモリにロードする。例えば、文字列抽出部36は、まず、被験文書の先頭文字から所定長の文字列を第1の被験文書として抽出し、次に被験文書の2番目の文字から所定長の文字列を第2の被験文書として抽出する。文字列抽出部36は、さらに、被験文書の3番目の文字から・・・と繰り返して、複数の被験文字列を抽出する。
文字列抽出部36において複数の被験文字列を抽出する際の文字列長には、この長さの文字列が基礎文書と合致すれば情報が転載された可能性が高いと考えられる長さが設定される。具体的な値は、企業の経験、社会通念や裁判例、または本システムによる実験に基づき決定されればよく、例えば50字でもよく25字でもよい。
図4は、被験文字列を示す。ここでは、被験文書が「この法律は、著作物並びに実演、レコード、放送及び有線放送に関し・・・」という書き出しであるとする。文字列抽出部36は、ここでは、被験文書の先頭文字から25字を抽出、2番目の文字から25字を抽出、・・・を繰り返して、複数の被験文字列を抽出することとする。図4の被験文字列60で総称される被験文字列60a、60b、・・・、60gは、このように抽出された複数の被験文字列を示している。
以下、被験文書上i番目の文字から長さjの文字列、すなわち、被験文書上「i,i+1,i+2,・・・,i+j−1」の文字列を被験文字列(i,j)と表記することとする。図4の被験文字列60a、60b、・・・、60gは、被験文字列(1,25)、(2,25)、・・・、(7,25)で表される。図2に戻る。
文字列比較部38は、基礎文字列50と被験文字列60とを比較して、合致する文字列(以下、「合致文字列」と呼ぶ。)を特定し、その文字列長(以下、「合致文字列長」と呼ぶ。)を比較結果保持部14に記録する。なお、1つの基礎文字列50に被験文字列60に対する合致文字列が複数存在するとき、文字列比較部38は、複数の合致文字列のうち最長の合致文字列長を比較結果保持部14に記録する。
例えば、図3および図4において、文字列比較部38は、被験文字列60aすなわち被験文字列(1,25)を、基礎文字列50a「著作権という法律は、著作物並びに実演、レコード、放送塔における」からサーチする。しかし、被験文字列60aすなわち被験文字列(1,25)の先頭文字「こ」が基礎文字列50aに存在しないため、合致文字列長「0」を記録する。
一方で、文字列比較部38は、被験文字列60cすなわち被験文字列(3,25)を基礎文字列50aからサーチする。この場合、基礎文字列50aの中に「法律は、著作物並びに実演、レコード、放送」という20字の文字列が存在するため、合致文字列長「20」を記録する。文字列比較部38は、基礎文字列50および被験文字列60の組み合わせだけこの処理を繰り返す。
図5は、文字列比較部38による基礎文字列50と被験文字列60との比較結果を示す。同図は、文字列比較部38において抽出された合致文字列の長さを示しており、また、文字列比較部38はこの比較結果を比較結果保持部14に記録する。同図の基礎文書欄は、基礎文書の識別情報を示し、ここでは「第1の基礎文書」および「第2の基礎文書」が設定されている。同図の被験文字列欄は、被験文字列の識別情報を示し、ここでは上述の1文字列ずつずれた被験文字列(i,j)が設定されている。
図5において、例えば、行「第1の基礎文書」および列「1,25」の領域には、上述した被験文字列60aについての計算結果である「0」が記録されている。また、行「第1の基礎文書」および列「3,25」の領域には、上述した被験文字列60cについての計算結果である「20」が記録されている。図2に戻る。
転載判定部40は、比較結果保持部14を参照し、各被験文字列についての合致文字列長に応じて、基礎文書から被験文書への情報の転載有無を判定し、判定結果を検査結果送信部24に通知する。転載判定部40は、基礎文書と被験文書との組み合わせ毎、すなわち図5で示した比較結果の行毎に、以下に示す3種類の判定を実施する。
1.第1の判定
第1の判定は、基礎文字列がそのまま被験文書に転載された場合の検出を主な目的とする。転載判定部40は、各被験文字列についての合致文字列長のうち、いずれかの合致文字列長が所定の確定閾値以上であるとき、基礎文書から被験文書への情報の転載があったと判定する。
確定閾値とは、これ以上の合致文字列長が存在すれば情報が転載された可能性が高いと判定すべき閾値である。また、確定閾値は、被験文字列の長さ以下の値が設定される。なお、確定閾値は、企業の経験、社会通念や裁判例、または本システムによる実験に基づき、適切な値が決定されればよい。後述するその他の閾値についても同様である。
図6は、各被験文字列についての合致文字列長を示す。同図における確定閾値は「20」である。転載判定部40は、少なくとも被験文字列(n,25)が確定閾値以上であるため、基礎文書から被験文書への情報の転載があったと判定する。
2.第2の判定
第2の判定は、基礎文字列が被験文書に転載されているが、転載された基礎文字列の途中にユーザ作成の文字列が挿入された場合の検出を主な目的とする。転載判定部40は、各被験文字列についての合致文字列長のうち、所定個以上の合致文字列長が所定の警戒閾値以上であり、かつ、それらの被験文字列が被験文書上の所定距離内にあるとき、基礎文書から被験文書へ情報の転載があったと判定する。
警戒閾値は、確定閾値よりも小さい閾値であるが、これ以上の合致文字列長が所定個以上存在し、かつ、合致文字列が被験文書上で所定距離内にあれば情報が転載された可能性が高いと判定すべき閾値である。所定距離とは、被験文書上での被験文字列間の隔たりを指定する閾値であり、例えば、被験文字列間の段落数、改行数、文字数等である。
図7は、各被験文字列についての合致文字列長を示す。同図における警戒閾値は「10」である。ここでの判定条件は、「3」個以上の合致文字列長が警戒閾値以上であり、かつ、それらの被験文字列が「100」字以内にあることとする。
転載判定部40は、複数の被験文字列のうち、合致文字列長が警戒閾値未満から警戒閾値以上に変わったときの被験文字列を特定する。すなわち図7の場合、被験文字列(m,25)、(n,25)、および(i,25)を特定する。なお、各被験文字列は1文字ずつずれているため、合致文字列長が警戒閾値未満から警戒閾値以上に変わったときが、被験文字列の長さを上限とする値であって、合致文字列長の最大値となる。
転載判定部40は、ここで特定した被験文字列の個数が閾値「3」個以上であるため判定処理を継続する。転載判定部40は、各合致文字列間の文字数として、(m−n)、(m−i)、(n−i)をそれぞれ計算し、いずれの絶対値も閾値「100」以下であるとき、基礎文書から被験文書への情報の転載があったと判定する。
3.第3の判定
第3の判定は、被験文書の比較的広範囲に亘って、基礎文字列が少しずつ転載されている場合、および、基礎文書がアイデアレベルで被験文書に転載されている場合の検出を主な目的とする。転載判定部40は、合致文字列長が所定の足きり閾値以上の被験文字列を特定して、特定した被験文字列のうち、被験文書上の所定距離内にある被験文字列についての合致文字列長を合算する。転載判定部40は、この合算値が所定の合算閾値以上であるとき、基礎文書から被験文書への情報の転載があったと判定する。
足切り閾値は、警戒閾値より小さい閾値であり、合致文字列長がこれ未満であれば情報の転載はないと判定すべき閾値である。例えば、日本語において「である。」等の一般的な合致文字列を排除するために、足切り閾値が「5」以上に設定されてもよい。合算閾値は、基礎文書と被験文書とが比較的広範囲に亘って少しずつ合致することを検出するための閾値である。なお、第3の判定における所定距離は、第2の判定における所定距離よりも大きく設定される。第2の判定が、被験文書の比較的狭い範囲で、比較的大きな合致文字列を検出することを目的とするのに対し、第3の判定は、被験文字列の比較的広い範囲で、比較的小さな合致文字列を検出することを目的とするからである。
図8は、各被験文字列についての合致文字列長を示す。同図における足切り閾値は「5」である。ここでの判定条件は、足切り閾値以上の合致文字列長を有する被験文字列のうち、「300」字以内にある被験文字列について、その合致文字列長の合算値が「35」以上であることとする。
転載判定部40は、複数の被験文字列のうち、合致文字列長が足切り閾値未満から足切り閾値以上に変わったときの被験文字列を特定する。図8では、被験文字列(100,25)、(300,25)、(500,25)および(700,25)を特定する。転載判定部40は、特定した被験文字列それぞれの合致文字列長と、各被験文字列の前後それぞれ「150」字の範囲にある特定した他の被験文字列の合致文字列長を合算する。
具体的には、被験文字列(100,25)について、その合致文字列長と被験文字列(200,25)の合致文字列長とを合算して、合算値「23」を算出する。また、被験文字列(200,25)について、その合致文字列長と被験文字列(100,25)および(300,25)の合致文字列長とを合算して、合算値「31」を算出する。また、被験文字列(300,25)について、その合致文字列長と被験文字列(200,25)および(400,25)の合致文字列長とを合算して、合算値「35」を算出する。ここで、合算閾値以上の合算値が算出されたため、転載判定部40は、基礎文書から被験文書への情報の転載があったと判定する。
以上の構成による動作を以下説明する。
図9(a)は、転載検査装置における転載検査サービスの処理を説明するためのフローチャートである。検査要求受信部22は、ユーザからの検査要求を受け付ける(S10)。基礎文書取得部34は、文書提供装置200の提供文書が保持されている文書保持部12を参照して、ユーザが指定したキーワードに対応づけられた文書を基礎文書として取得する(S12)。
文字列抽出部36は、基礎文書に含まれる基礎文字列と、検査要求において指定された被験文書に含まれる複数の被験文字列とを取得してメモリにロードする(S14)。文字列比較部38は、基礎文字列と複数の被験文字列とを比較して、各被験文字列についての合致文字列長を比較結果保持部14に記録する(S16)。転載判定部40は、後述する転載判定処理を実行する(S18)。検査結果送信部24は、転載判定処理における判定結果をユーザに通知する(S20)。
図9(b)は、図9(a)の転載判定処理を説明するためのフローチャートである。転載判定部40は、比較結果保持部14を参照して、各被験文字列についての合致文字列長のいずれかが確定閾値以上であるとき(S30のY)、基礎文書から被験文書への情報の転載があると判定する(S32)。いずれの合致文字列長も確定閾値未満であるとき(S30のN)、転載判定部40は、警戒閾値以上の合致文字列長を有する被験文字列を特定する。
所定個以上の被験文字列が警戒閾値以上であるとき(S34のY)、転載判定部40は、それらの被験文字列について被験文書上での距離を算出する。それらの被験文字列が被験文書上で所定距離内にあるとき(S36のY)、転載判定部40はS32の処理を実行する。それらの被験文字列が被験文書上で所定距離内にないとき(S36のN)、または、所定個以上の被験文字列が警戒閾値以上でないとき(S34のN)、転載判定部40は、足切り閾値以上の合致文字列長を有する被験文字列を特定する(S38)。
転載判定部40は、S38で特定した被験文字列のうち、被験文書上で所定距離内にある被験文字列の合致文字列長を合算する(S40)。いずれかの合算値が合算閾値以上であるとき(S42のY)、転載判定部40はS32の処理を実行する。いずれの合算値も合算閾値未満であるとき(S42のN)、転載判定部40は、基礎文書から被験文書への情報の転載がないと判定する(S44)。
以上説明した図1の転載検査システム1000において、ユーザは、文書提供装置200から取得した様々な文書を参考にして、自身の文書を作成する。ユーザは作成した文書を社外等に発表する前に、その文書をユーザ端末300から転載検査装置100に送信して転載検査サービスを要求する。転載検査装置100は、図9(a)および図9(b)の処理を経て、検査結果をユーザに通知する。
転載検査システム1000によれば、ユーザにより作成された被験文書について、その記載内容に対する検査を支援できる。具体的には、ユーザが意識せずに著作物を転載していた場合でも、ユーザに負担を強いることなく、ユーザが作成した文書が他文書から転載された情報を含んでいる可能性が高いこと、言い換えれば、他人の著作権を侵害する可能性が高いことを通知できる。これにより、ユーザや企業は、その文書の発表前に適切な対処を実施できる。すなわち、ユーザや企業が文書の発表する際に抱えるリスクを低減できる。
また、転載検査装置100においては、第1の判定として、各被験文字列についての合致文字列長のうち、いずれかの合致文字列長が確定閾値以上であれば転載有りと判定する。これにより、被験文書の1箇所でも比較的長い基礎文字列をそのまま転載したものがあれば効率よく検出できる。
さらに、転載検査装置100においては、第2の判定として、警戒閾値以上の合致文字列長を有する被験文字列が所定個以上存在し、かつ、それらの被験文字列が被験文書上で所定距離内にあれば転載有りと判定する。これにより、基礎文書から情報が転載された可能性が高い被験文書を精度よく検出できる。すなわち、基礎文字列が転載され、その中に基礎文字列とは異なるユーザ作成の文字列が挿入されている被験文書であっても検出しやすくなる。また、距離の制限を設けることで、基礎文字列と合致する文字列が複数あっても、企業の経験上や社会通念上、それらの文字列が転載とは考えにくいほど離れている場合を排除しやすくなる。
さらにまた、転載検査装置100においては、第3の判定として、所定距離内の被験文字列について、足切り閾値以上の合致文字列長を合算して、その合算値が合算閾値以上であれば転載有りと判定する。これにより、基礎文書から情報が転載された可能性が高い被験文書を精度よく検出できる。すなわち、比較的広範囲に亘って、基礎文字列が少しずつ転載されている被験文書であっても検出しやすくなる。
また、基礎文書のアイデアが被験文書に記載された場合には、基礎文字列と同じ文字列が被験文書内に少しずつ記載されると考えられる。第3の判定では、文字列レベルの転載ではなく、このようなアイデアレベルの転載についても検出しやすくなる。さらにまた、足切り閾値の制限を設けることで、各言語における定型の文字列など、同一の文字列となってしまうが情報の転載とは関係がない合致文字列を排除しやすくなる。さらにまた、距離の制限を設けることで、上述した効果を得られる。
以上、本発明を実施の形態をもとに説明した。この実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
請求項に記載の各構成要件が果たすべき機能は、実施の形態および変形例において示された各機能ブロックの単体もしくはそれらの連係によって実現されることも当業者には理解されるところである。
第1の変形例として、基礎文書取得部34は、検査要求受信部22において判定要求データが受信されたときに、判定要求データにて指定されたキーワード文字列に関連する文書を基礎文書として文書提供装置200から取得してもよい。この場合、文書収集部32による定期的な文書収集や、文書保持部12による文書の保持は不要となる。なお、外部装置に対して提供する文書からキーワードを抽出し、外部装置からのキーワード指定に応じて文書を提供する機能は、文書提供装置200側で実行される。
また、第1の変形例において、ユーザから指定されるキーワードには、ユーザが文書作成において参照した情報の存在位置を示す情報であるURI(Uniform Resource Identifier)が指定されてもよい。このURIには、例えば、URL(Uniform Resource Locator)文字列や、ディレクトリサーバまたはファイルシステム上の位置を指定するパス文字列が含まれる。この場合、基礎文書取得部34は、このURIで指定されたネットワーク上の情報リソースにアクセスして基礎文書を取得する。これにより、適切な基礎文書を取得しやすくなる。
第2の変形例として、基礎文書取得部34は、判定要求データにて指定された被験文書に対して既知のNグラムや形態素解析等の方法を用いて、キーワード文字列を自動で抽出してもよい。この場合、基礎文書取得部34は、抽出したキーワード文字列をもとに、文書保持部12から基礎文書を取得する。これにより、ユーザによる被験文書のキーワード指定が不要になり、または、ユーザ指定のキーワードに自動抽出したキーワードを加えることでより適切な基礎文書を取得しやすくなる。
第3の変形例として、転載判定部40は、第1の判定、第2の判定、および第3の判定を並行して実行してもよい。この場合、いずれかの判定で閾値以上が検出された場合、転載判定部40は基礎文書から被験文書への情報の転載有りと判定する。判定処理を並行実行することで、転載検査サービスのスループットを向上できる。
第4の変形例として、転載検査装置100は、図示しない文書編集部を備えてもよい。この文書編集部は、転載判定部40により転載があると判定された被験文書を編集する。例えば、比較結果保持部14を参照して、合致文字列長が大きい被験文字列について、下線を記し、強調表示させ、または削除してもよい。検査結果送信部24は、文書編集部により編集された被験文書を検査結果データに含めてユーザ端末300に送信してもよい。
第5の変形例として、検査結果送信部24は、判定結果データを送信する際に、比較結果保持部14を参照して、基礎文字列と被験文字列との比較結果、例えば図5のようなユーザインタフェースを提供する画面データをユーザ端末300に送信してもよい。これにより、ユーザに対して判定結果だけでなく、その根拠である比較結果も通知できる。
また、比較結果の中で、第1の判定、第2の判定、および第3の判定において転載有りと判定された被験文字列の領域について強調表示されるように、検査結果送信部24は画面データを編集してもよい。さらにまた、検査結果送信部24は、強調表示の設定をした被験文字列領域の画面データと、被験文書の該当箇所および基礎文書の該当箇所とにハイパーリンクを設定してもよい。これにより、ユーザが強調表示された領域をクリックしたときに、被験文書及び基礎文書の対応箇所を表示でき、確認が容易になる。
第6の変形例として、転載検査システム1000を別の用途に適用する例を示す。すなわち、実施の形態では、主に、文書をこれから発信する企業において、発信対象の文書に他人の著作物が転載されていないかを検査する観点で記載した。転載検査システム1000は、以下に示す用途にも適用できる。
転載検査システム1000は、他社が発信した情報に自社の著作物が転載されたか否かについての検査も支援できる。この場合、文書提供装置200は自社で作成した文書を保持し、転載検査装置100はその文書を取得して基礎文書とする。ユーザは、他社から発信された文書を被験文書として転載検査サービスを要求し、転載検査装置100から検査結果を取得する。ユーザは検査結果に応じて、文書発信元の企業に対して適切な対応を取ることができる。
転載検査システム1000は、コンピュータプログラムにおける転載有無の検査も支援できる。この場合、文書提供装置200は自社で作成したコンピュータプログラムを保持し、転載検査装置100はそのコンピュータプログラムを取得して基礎文書とする。ユーザは、他社の作成したコンピュータプログラムを被験文書として転載検査サービスを要求し、転載検査装置100から検査結果を取得する。ユーザは検査結果に応じて、他社に対して適切な対応を取ることができる。
また逆に、文書提供装置200は他社が公開し、著作権を留保しているコンピュータプログラムを保持し、転載検査装置100はそのコンピュータプログラムを取得して基礎文書とする。ユーザは、自社の作成したコンピュータプログラムを被験文書として転載検査サービスを要求し、転載検査装置100から検査結果を取得する。ユーザは検査結果に応じて、他社に対して適切な対応を取ることができ、または、自社の作成したコンピュータプログラム上の問題箇所を改修できる。
転載検査システム1000は、大学や企業において作成された研究論文に他の文献からの転載があるか否かについての検査も支援できる。この場合、文書提供装置200は様々な研究論文やオンライン辞書に記載された辞書情報を保持するデータベースであり、転載検査装置100はその研究論文や辞書情報を取得して基礎文書とする。ユーザ、例えば大学の教授や論文の審査員は、これから発表または審査しようとする研究論文を被験文書として転載検査サービスを要求し、転載検査装置100から検査結果を取得する。ユーザは検査結果に応じて、研究論文を発表または審査する際の意思決定ができる。
転載検査システム1000は、楽曲の類似有無の検査も支援できる。この場合、文書提供装置200は様々な既存楽曲のデータ、例えば歌詞データやABC記譜法等の音楽記述言語で記載された楽曲データを保持するデータベースであり、転載検査装置100はその楽曲データを取得して基礎文書とする。ユーザ、例えば作詞家や作曲家は、これから発表しようとする楽曲や盗作の被疑楽曲のデータを被験文書として転載検査サービスを要求し、転載検査装置100から検査結果を取得する。ユーザは楽曲の類似有無に応じて、楽曲発表の意思決定や、盗作の被疑楽曲への対応を意思決定できる。
第7の変形例として、転載検査装置100は、ウェブサーバの機能を有さず、外部の図示しないウェブサーバと接続されてもよい。すなわち、転載検査装置100は、ユーザに対するプレゼンテーション機能を備えるウェブサーバから検査要求データを受信して、検査結果を当該ウェブサーバに送信してもよい。文書提供装置200についても同様に、ウェブサーバの機能を有さず、外部の図示しないウェブサーバと接続されて、当該ウェブサーバを介して、文書ファイルの取得要求を受信し、蓄積している文書ファイルを送信してもよい。このように、転載検査システム1000の構成に制限はなく、本発明の思想を逸脱しない範囲において様々な態様を取り得ることは当業者には理解されるところである。
本発明の実施の形態における転載検査システムの構成図である。 図1の転載検査装置の機能構成を示すブロック図である。 基礎文字列を示す図である。 被験文字列を示す図である。 文字列比較部による基礎文字列と被験文字列との比較結果を示す図である。 各被験文字列についての合致文字列長を示す図である。 各被験文字列についての合致文字列長を示す図である。 各被験文字列についての合致文字列長を示す図である。 転載検査装置における転載検査サービスの処理を説明するためのフローチャートである。 図9(a)の転載判定処理を説明するためのフローチャートである。
符号の説明
10 データ保持部、 12 文書保持部、 14 比較結果保持部、 20 ユーザ支援部、 22 検査要求受信部、 24 検査結果送信部、 30 データ処理部、 32 文書収集部、 34 基礎文書取得部、 36 文字列抽出部、 38 文字列比較部、 40 転載判定部、 50 基礎文字列、 60 被験文字列、 100 転載検査装置、 200 文書提供装置、 300 ユーザ端末、 400 通信網、 1000 転載検査システム。

Claims (4)

  1. 被験文書と基礎文書とを取得する文書取得部と、
    前記被験文書の文字列と前記基礎文書の文字列とを比較して、両文書間で合致する複数の文字列を特定する文字列比較部と、
    (A)前記複数の文字列のうち、いずれかの長さが所定の閾値以上であるとき、または、(B)前記複数の文字列のうち、所定個以上の文字列の長さが前記閾値より小さい別の閾値以上で、かつ、別の閾値以上である文字列が、前記被験文書上、所定の距離内にあるとき、前記基礎文書から前記被験文書への情報の転載があると判定する転載判定部と、
    前記転載判定部における判定結果に応じて、所定の後処理を実行する後処理部と、
    を備えることを特徴とする著作物比較システム。
  2. 被験文書と基礎文書とを取得する文書取得部と、
    前記被験文書の文字列と前記基礎文書の文字列とを比較して、両文書間で合致する複数の文字列を特定する文字列比較部と、
    前記複数の文字列のうち、前記被験文書上、所定の距離内にある文字列の長さを合算し、その合算値が所定の閾値以上であるとき、前記基礎文書から前記被験文書への情報の転載があると判定する転載判定部と、
    前記転載判定部における判定結果に応じて、所定の後処理を実行する後処理部と、
    を備えることを特徴とする著作物比較システム。
  3. 被験文書と基礎文書とを取得する文書取得部と、
    前記被験文書の文字列と前記基礎文書の文字列とを比較して、両文書間で合致する複数の文字列を特定する文字列比較部と、
    (a)前記複数の文字列のうち、所定個以上の文字列の長さが警戒閾値以上で、かつ、警戒閾値以上である文字列が、前記被験文書上、第1の距離内にあるとき、または、(b)前記複数の文字列のうち、その長さが、前記警戒閾値より小さい足切り閾値以上の文字列で、かつ、前記被験文書上、前記第1の距離より大きい第2の距離内にある文字列の長さを合算し、その合算値が前記足切り閾値より大きい合算閾値以上であるとき、前記基礎文書から前記被験文書への情報の転載があると判定する転載判定部と、
    前記転載判定部における判定結果に応じて、所定の後処理を実行する後処理部と、
    を備えることを特徴とする著作物比較システム。
  4. 前記転載判定部は、(c)前記複数の文字列のうち、いずれかの長さが確定閾値以上であるときにも、前記基礎文書から前記被験文書への情報の転載があると判定することを特徴とする請求項3に記載の著作物比較システム。
JP2008086374A 2008-03-28 2008-03-28 著作物比較システム Active JP5301862B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008086374A JP5301862B2 (ja) 2008-03-28 2008-03-28 著作物比較システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008086374A JP5301862B2 (ja) 2008-03-28 2008-03-28 著作物比較システム

Publications (2)

Publication Number Publication Date
JP2009238131A JP2009238131A (ja) 2009-10-15
JP5301862B2 true JP5301862B2 (ja) 2013-09-25

Family

ID=41251947

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008086374A Active JP5301862B2 (ja) 2008-03-28 2008-03-28 著作物比較システム

Country Status (1)

Country Link
JP (1) JP5301862B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6271482B2 (ja) * 2015-08-31 2018-01-31 ヤフー株式会社 審査システム、審査方法、及び審査プログラム
JP2018077604A (ja) * 2016-11-08 2018-05-17 株式会社Personal AI 機能記述からの実現手段・方法の侵害候補を自動特定する人工知能装置
CN107316239A (zh) * 2017-07-14 2017-11-03 众安信息技术服务有限公司 一种基于区块链的信息认证和溯源方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2786380B2 (ja) * 1992-08-10 1998-08-13 富士通エフ・アイ・ピー株式会社 キーワード照合検索処理方法
JPH09198409A (ja) * 1996-01-19 1997-07-31 Hitachi Ltd 酷似文書抽出方法
WO2004034282A1 (ja) * 2002-10-10 2004-04-22 Fujitsu Limited コンテンツ再利用管理装置およびコンテンツ再利用支援装置

Also Published As

Publication number Publication date
JP2009238131A (ja) 2009-10-15

Similar Documents

Publication Publication Date Title
JP4936028B2 (ja) 情報提供支援装置および情報提供支援方法
US10628411B2 (en) Repairing a link based on an issue
KR100723867B1 (ko) 피싱웹페이지 차단 장치 및 방법
US9361317B2 (en) Method for entity enrichment of digital content to enable advanced search functionality in content management systems
US10417267B2 (en) Information processing terminal and method, and information management apparatus and method
US8572118B2 (en) Computer method and apparatus of information management and navigation
US20150178476A1 (en) System and method of monitoring font usage
US20140281877A1 (en) Website Excerpt Validation and Management System
US9665543B2 (en) System and method for reference validation in word processor documents
Vaidya et al. DBpedia commons: structured multimedia metadata from the wikimedia commons
JP2010044462A (ja) コンテンツ評価サーバ、コンテンツ評価方法及びコンテンツ評価プログラム
TWI444838B (zh) 中文數位反抄襲偵測比對系統與方法
JP2004086851A (ja) 電子文書有意更新検知装置、方法及びプログラム、並びに、電子文書有意更新検知プログラムを記録した記録媒体
JP5301862B2 (ja) 著作物比較システム
Nogales et al. Linking from Schema. org microdata to the Web of Linked Data: An empirical assessment
Király et al. Evaluating data quality in europeana: Metrics for multilinguality
JP5687312B2 (ja) デジタル情報分析システム、デジタル情報分析方法、及びデジタル情報分析プログラム
KR20130093230A (ko) 웹상에서의 저작권 침해 컨텐츠에 대한 검출 및 관리 시스템
US7711648B2 (en) Method and apparatus for obtaining content license rights via a document link resolver
JP3648101B2 (ja) コンテンツ不正利用探索装置およびコンテンツ不正利用探索方法
JP2011086156A (ja) 漏洩情報追跡システムおよび漏洩情報追跡プログラム
JP5373439B2 (ja) 著作物比較システム
JP2011209886A (ja) アノテーション方法、アノテーションプログラム及びアノテーション装置
Sun Investigating the effectiveness of android privacy policies
KR101487356B1 (ko) 검색논문의 참고문헌정보를 제공하는 서버 및 제공방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110105

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121005

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121030

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121129

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130611

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130620

R150 Certificate of patent or registration of utility model

Ref document number: 5301862

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250