JP5301862B2

JP5301862B2 - 著作物比較システム

Info

Publication number: JP5301862B2
Application number: JP2008086374A
Authority: JP
Inventors: 純一井上
Original assignee: Nomura Research Institute Ltd
Current assignee: Nomura Research Institute Ltd
Priority date: 2008-03-28
Filing date: 2008-03-28
Publication date: 2013-09-25
Anticipated expiration: 2028-03-28
Also published as: JP2009238131A

Description

この発明は、データ処理技術に関し、特に、文書ファイルの文字データを処理する著作物比較システムに関する。

ＩＴの発展により、人間の知的作業は、過去と比べて格段に効率化されている。例えば、文書作成者は、インターネットを介してウェブサイト等の様々な情報リソースにアクセスし、多種多様な既存文書を容易に取得できる。文書作成者は、また、検索サービス等を利用して、所望する内容の既存文書を容易に発見できる（例えば、特許文献１参照）。

文書作成者は、様々な情報リソースから取得した既存文書を参考にして、自身の作成文書、例えば報告書や研究論文等の質を高めることができる。さらに文書の電子化により、既存文書の記載内容を作成文書に取り込むことも容易にできる。
特開２００４−２９５７１２号公報

このように、文書作成者が作成文書の中に既存文書の記載内容を容易に取り込める現在、他人の権利を侵害しうる文書が作成されることがある。一方で、企業にはコンプライアンス経営が要求されており、作成された文書の記載内容を検査して、他人の権利を侵害しうる文書に対しては適切な対処を施すことが喫緊の課題である。

本発明は、本発明者の上記着目に基づいて完成された発明であり、その主たる目的は、文書の記載内容に対する検査を支援する技術を提供することである。

上記課題を解決するために、本発明のある態様の著作物比較システムは、被験文書と基礎文書とを取得する文書取得部と、被験文書の文字列と基礎文書の文字列とを比較して、両文書間で合致する文字列を特定する文字列比較部と、両文書間で合致する文字列の属性に応じて、基礎文書から被験文書への情報の転載有無を判定する転載判定部と、転載判定部における判定結果に応じて、所定の後処理を実行する後処理部と、を備える。

この被験文書および基礎文書は、文字データが記録された様々なデータファイルを意味する。例えば、様々な自然言語やデータ記述言語の文字列を格納する文書ファイル、プログラミング言語の文字列を格納するプログラムファイル等が含まれる。文書ファイルは、プレーンテキストファイル、様々な文書編集ソフト用のデータファイル、ＨＴＭＬファイルであってもよい。また、プログラムファイルは、ＪＡＶＡ（登録商標）ソースファイル、Ｃ言語ソースファイル、ＪＡＶＡ（登録商標）スクリプトファイルであってもよい。

また、両文書間で合致する文字列の属性は、文字列の特徴や性質を示す情報を意味する。例えば、文字列長、文書上の位置、文字列の出現頻度、表示態様等であってもよい。また、所定の後処理は、例えば、判定結果の記録、ユーザへの通知、文書の編集等であってもよい。

なお、以上の構成要素の任意の組合せ、本発明の表現を装置、方法、システム、プログラム、プログラムを格納した記録媒体などの間で変換したものもまた、本発明の態様として有効である。

本発明によれば、文書の記載内容に対する検査を支援できる。

様々な文書を社外に発信する企業においては、発信対象となる文書が他人の権利を侵害しうるか否かを発信前に検査する必要がある。他人の権利を侵害しうる文書とは、典型的には、他人が作成した既存文書（以下、「基礎文書」と呼ぶ。）の記載内容が転載された文書であり、特に、他人が有する著作権との関係で問題となりうる。

従来、基礎文書の記載内容が転載されたか否かを検査すべき文書（以下、「被験文書」と呼ぶ。）に対する検査として、文書作成者に対する転載有無の確認や、人手による基礎文書との比較が実施されてきた。しかし、文書作成者自身が意識しない転載もあり、問題ある被験文書が見逃されることもあった。また、基礎文書の量は膨大であるため、人手による比較には限界があり、その比較作業では多くのコストが発生していた。なお、ここにいう転載とは、表現または情報を採用して取り込むことをいい、著作物性のない数字や事実、著作権法上の引用として適法な転記・転載を含むこととする。また、以下、特に意味を限定する場合を除いて、情報という場合には、事実、数字等の情報と、表現の双方を含むものとする。

本実施の形態では、基礎文書から被験文書への表現または情報の転載有無を判定する文書処理装置（以下、「転載検査装置」と呼ぶ。）を含む文書処理システム（以下、「転載検査システム」と呼ぶ。）を提案する。この転載検査システムによれば、被験文書の記載内容に対する検査を支援できる。ユーザは、転載検査システムを使用することで、著作権侵害等、表現または情報の転載による企業のリスクを低減させることができる。

図１は、本発明の実施の形態における転載検査システムの構成図である。
転載検査システム１０００においては、転載検査装置１００と、文書提供装置２００と、ユーザ端末３００とが通信網４００を介して接続されている。通信網４００には、ＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）、インターネット等、様々な通信手段が含まれる。

文書提供装置２００は、様々な内容およびフォーマットの文書ファイル（以下、単に「文書」と呼ぶ。）を提供するウェブサーバである。ユーザ端末３００は、ウェブブラウザを搭載した一般的なＰＣである。以下、ユーザ端末３００を操作するユーザが文書作成者でもあることとする。

転載検査装置１００もウェブサーバであり、ユーザ端末３００に対して転載検査サービスを提供する。この転載検査サービスは、ユーザ端末３００から指定された被験文書の中に、文書提供装置２００が提供する文書に記載された情報の転載があるか否かを検査して、検査結果をユーザ端末３００に通知するサービスである。

図２は、図１の転載検査装置１００の機能構成を示すブロック図である。本明細書のブロック図において示される各ブロックは、ハードウェア的には、コンピュータのＣＰＵをはじめとする素子や機械装置で実現でき、ソフトウェア的にはコンピュータプログラム等によって実現されるが、ここでは、それらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックはハードウェア、ソフトウェアの組合せによっていろいろなかたちで実現できることは、当業者には理解されるところであり、これらのいずれかに限定されるものではない。

また、本明細書の各装置においては、当該装置を効率よく利用するための機能および環境を提供して当該装置の全体を統括的に制御するオペレーションシステム（以下、「ＯＳ」と呼ぶ。）が実行されている。かかるＯＳによってブロック図の各機能ブロックが動作させられることにより、複数のソフトウェアが実行される。

転載検査装置１００は、データ保持部１０と、ユーザ支援部２０と、データ処理部３０とを備える。なお、ウェブサーバ機能については既知の技術であるため以下省略する。
データ保持部１０は、各種データを保持するための記憶領域である。ユーザ支援部２０は、ユーザ端末３００に対してユーザインタフェースを提供して、ユーザ端末３００とのデータ交換を実行する。データ処理部３０は、データ保持部１０、ユーザ支援部２０および文書提供装置２００からデータを取得して、各種のデータ処理を実行する。

データ保持部１０は、文書保持部１２と比較結果保持部１４とを有する。
文書保持部１２は、後述する文書収集部３２において文書提供装置２００から収集された文書と、その文書を特定するためのキーワードとを対応づけて保持する。比較結果保持部１４は、基礎文書と被験文書間で合致する文字列の属性情報を記録する。記録される属性情報の例は後述する。

ユーザ支援部２０は、検査要求受信部２２と、検査結果送信部２４とを有する。
検査要求受信部２２は、転載検査サービスを要求する検査要求データをユーザ端末３００から受信する。この検査要求データには、被験文書と、被験文書の内容を示すキーワード文字列とが含まれる。

検査結果送信部２４は、後述する転載判定部４０における判定結果を取得して、転載の有無を示す検査結果データをユーザ端末３００に送信する。具体的には、検査結果送信部２４は、ユーザ端末３００から検査結果要求データを受信したとき、検査結果データをユーザ端末３００に送信してもよい。また、転載判定部４０から判定結果が通知されたとき、検査結果データをユーザ端末３００に対して電子メールで送信してもよい。

データ処理部３０は、文書収集部３２と、基礎文書取得部３４と、文字列抽出部３６と、文字列比較部３８と、転載判定部４０とを有する。

文書収集部３２は、定期的に文書提供装置２００にアクセスし、文書提供装置２００が提供している複数の文書を取得する。文書収集部３２は、取得した複数の文書それぞれからキーワード文字列を抽出し、文書とそのキーワード文字列とを対応づけて文書保持部１２に記録する。キーワード文字列の抽出には、既知の方法であるＮグラム、形態素解析等が使用されてよい。

基礎文書取得部３４は、文書保持部１２に保持された複数の文書のうち、検査要求データにて指定されたキーワード文字列に対応づけられた文書を基礎文書として取得する。ここでは、第１の基礎文書および第２の基礎文書が取得されることとする。

文字列抽出部３６は、基礎文書および被験文書から文字列を抽出する。具体的には、基礎文書の場合、文字列抽出部３６は、基礎文書取得部３４において取得された基礎文書から文字列データ（以下、「基礎文字列」と呼ぶ。）を抽出してメモリにロードする。図３は、基礎文字列を示す。同図では、基礎文字列５０で総称される文字列であって、第１の基礎文書に含まれる基礎文字列５０ａと、第２の基礎文書に含まれる基礎文字列５０ｂとを示している。

また被験文書の場合、文字列抽出部３６は、検査要求データに含まれる被験文書から複数の文字列データ（以下、「被験文字列」と呼ぶ。）を抽出してメモリにロードする。例えば、文字列抽出部３６は、まず、被験文書の先頭文字から所定長の文字列を第１の被験文書として抽出し、次に被験文書の２番目の文字から所定長の文字列を第２の被験文書として抽出する。文字列抽出部３６は、さらに、被験文書の３番目の文字から・・・と繰り返して、複数の被験文字列を抽出する。

文字列抽出部３６において複数の被験文字列を抽出する際の文字列長には、この長さの文字列が基礎文書と合致すれば情報が転載された可能性が高いと考えられる長さが設定される。具体的な値は、企業の経験、社会通念や裁判例、または本システムによる実験に基づき決定されればよく、例えば５０字でもよく２５字でもよい。

図４は、被験文字列を示す。ここでは、被験文書が「この法律は、著作物並びに実演、レコード、放送及び有線放送に関し・・・」という書き出しであるとする。文字列抽出部３６は、ここでは、被験文書の先頭文字から２５字を抽出、２番目の文字から２５字を抽出、・・・を繰り返して、複数の被験文字列を抽出することとする。図４の被験文字列６０で総称される被験文字列６０ａ、６０ｂ、・・・、６０ｇは、このように抽出された複数の被験文字列を示している。

以下、被験文書上ｉ番目の文字から長さｊの文字列、すなわち、被験文書上「ｉ,ｉ＋１，ｉ＋２，・・・，ｉ＋ｊ−１」の文字列を被験文字列（ｉ，ｊ）と表記することとする。図４の被験文字列６０ａ、６０ｂ、・・・、６０ｇは、被験文字列（１，２５）、（２，２５）、・・・、（７，２５）で表される。図２に戻る。

文字列比較部３８は、基礎文字列５０と被験文字列６０とを比較して、合致する文字列（以下、「合致文字列」と呼ぶ。）を特定し、その文字列長（以下、「合致文字列長」と呼ぶ。）を比較結果保持部１４に記録する。なお、１つの基礎文字列５０に被験文字列６０に対する合致文字列が複数存在するとき、文字列比較部３８は、複数の合致文字列のうち最長の合致文字列長を比較結果保持部１４に記録する。

例えば、図３および図４において、文字列比較部３８は、被験文字列６０ａすなわち被験文字列（１，２５）を、基礎文字列５０ａ「著作権という法律は、著作物並びに実演、レコード、放送塔における」からサーチする。しかし、被験文字列６０ａすなわち被験文字列（１，２５）の先頭文字「こ」が基礎文字列５０ａに存在しないため、合致文字列長「０」を記録する。

一方で、文字列比較部３８は、被験文字列６０ｃすなわち被験文字列（３，２５）を基礎文字列５０ａからサーチする。この場合、基礎文字列５０ａの中に「法律は、著作物並びに実演、レコード、放送」という２０字の文字列が存在するため、合致文字列長「２０」を記録する。文字列比較部３８は、基礎文字列５０および被験文字列６０の組み合わせだけこの処理を繰り返す。

図５は、文字列比較部３８による基礎文字列５０と被験文字列６０との比較結果を示す。同図は、文字列比較部３８において抽出された合致文字列の長さを示しており、また、文字列比較部３８はこの比較結果を比較結果保持部１４に記録する。同図の基礎文書欄は、基礎文書の識別情報を示し、ここでは「第１の基礎文書」および「第２の基礎文書」が設定されている。同図の被験文字列欄は、被験文字列の識別情報を示し、ここでは上述の１文字列ずつずれた被験文字列（ｉ，ｊ）が設定されている。

図５において、例えば、行「第１の基礎文書」および列「１，２５」の領域には、上述した被験文字列６０ａについての計算結果である「０」が記録されている。また、行「第１の基礎文書」および列「３，２５」の領域には、上述した被験文字列６０ｃについての計算結果である「２０」が記録されている。図２に戻る。

転載判定部４０は、比較結果保持部１４を参照し、各被験文字列についての合致文字列長に応じて、基礎文書から被験文書への情報の転載有無を判定し、判定結果を検査結果送信部２４に通知する。転載判定部４０は、基礎文書と被験文書との組み合わせ毎、すなわち図５で示した比較結果の行毎に、以下に示す３種類の判定を実施する。

１．第１の判定
第１の判定は、基礎文字列がそのまま被験文書に転載された場合の検出を主な目的とする。転載判定部４０は、各被験文字列についての合致文字列長のうち、いずれかの合致文字列長が所定の確定閾値以上であるとき、基礎文書から被験文書への情報の転載があったと判定する。

確定閾値とは、これ以上の合致文字列長が存在すれば情報が転載された可能性が高いと判定すべき閾値である。また、確定閾値は、被験文字列の長さ以下の値が設定される。なお、確定閾値は、企業の経験、社会通念や裁判例、または本システムによる実験に基づき、適切な値が決定されればよい。後述するその他の閾値についても同様である。

図６は、各被験文字列についての合致文字列長を示す。同図における確定閾値は「２０」である。転載判定部４０は、少なくとも被験文字列（ｎ，２５）が確定閾値以上であるため、基礎文書から被験文書への情報の転載があったと判定する。

２．第２の判定
第２の判定は、基礎文字列が被験文書に転載されているが、転載された基礎文字列の途中にユーザ作成の文字列が挿入された場合の検出を主な目的とする。転載判定部４０は、各被験文字列についての合致文字列長のうち、所定個以上の合致文字列長が所定の警戒閾値以上であり、かつ、それらの被験文字列が被験文書上の所定距離内にあるとき、基礎文書から被験文書へ情報の転載があったと判定する。

警戒閾値は、確定閾値よりも小さい閾値であるが、これ以上の合致文字列長が所定個以上存在し、かつ、合致文字列が被験文書上で所定距離内にあれば情報が転載された可能性が高いと判定すべき閾値である。所定距離とは、被験文書上での被験文字列間の隔たりを指定する閾値であり、例えば、被験文字列間の段落数、改行数、文字数等である。

図７は、各被験文字列についての合致文字列長を示す。同図における警戒閾値は「１０」である。ここでの判定条件は、「３」個以上の合致文字列長が警戒閾値以上であり、かつ、それらの被験文字列が「１００」字以内にあることとする。

転載判定部４０は、複数の被験文字列のうち、合致文字列長が警戒閾値未満から警戒閾値以上に変わったときの被験文字列を特定する。すなわち図７の場合、被験文字列（ｍ，２５）、（ｎ，２５）、および（ｉ，２５）を特定する。なお、各被験文字列は１文字ずつずれているため、合致文字列長が警戒閾値未満から警戒閾値以上に変わったときが、被験文字列の長さを上限とする値であって、合致文字列長の最大値となる。

転載判定部４０は、ここで特定した被験文字列の個数が閾値「３」個以上であるため判定処理を継続する。転載判定部４０は、各合致文字列間の文字数として、（ｍ−ｎ）、（ｍ−ｉ）、（ｎ−ｉ）をそれぞれ計算し、いずれの絶対値も閾値「１００」以下であるとき、基礎文書から被験文書への情報の転載があったと判定する。

３．第３の判定
第３の判定は、被験文書の比較的広範囲に亘って、基礎文字列が少しずつ転載されている場合、および、基礎文書がアイデアレベルで被験文書に転載されている場合の検出を主な目的とする。転載判定部４０は、合致文字列長が所定の足きり閾値以上の被験文字列を特定して、特定した被験文字列のうち、被験文書上の所定距離内にある被験文字列についての合致文字列長を合算する。転載判定部４０は、この合算値が所定の合算閾値以上であるとき、基礎文書から被験文書への情報の転載があったと判定する。

足切り閾値は、警戒閾値より小さい閾値であり、合致文字列長がこれ未満であれば情報の転載はないと判定すべき閾値である。例えば、日本語において「である。」等の一般的な合致文字列を排除するために、足切り閾値が「５」以上に設定されてもよい。合算閾値は、基礎文書と被験文書とが比較的広範囲に亘って少しずつ合致することを検出するための閾値である。なお、第３の判定における所定距離は、第２の判定における所定距離よりも大きく設定される。第２の判定が、被験文書の比較的狭い範囲で、比較的大きな合致文字列を検出することを目的とするのに対し、第３の判定は、被験文字列の比較的広い範囲で、比較的小さな合致文字列を検出することを目的とするからである。

図８は、各被験文字列についての合致文字列長を示す。同図における足切り閾値は「５」である。ここでの判定条件は、足切り閾値以上の合致文字列長を有する被験文字列のうち、「３００」字以内にある被験文字列について、その合致文字列長の合算値が「３５」以上であることとする。

転載判定部４０は、複数の被験文字列のうち、合致文字列長が足切り閾値未満から足切り閾値以上に変わったときの被験文字列を特定する。図８では、被験文字列（１００，２５）、（３００，２５）、（５００，２５）および（７００，２５）を特定する。転載判定部４０は、特定した被験文字列それぞれの合致文字列長と、各被験文字列の前後それぞれ「１５０」字の範囲にある特定した他の被験文字列の合致文字列長を合算する。

具体的には、被験文字列（１００，２５）について、その合致文字列長と被験文字列（２００，２５）の合致文字列長とを合算して、合算値「２３」を算出する。また、被験文字列（２００，２５）について、その合致文字列長と被験文字列（１００，２５）および（３００，２５）の合致文字列長とを合算して、合算値「３１」を算出する。また、被験文字列（３００，２５）について、その合致文字列長と被験文字列（２００，２５）および（４００，２５）の合致文字列長とを合算して、合算値「３５」を算出する。ここで、合算閾値以上の合算値が算出されたため、転載判定部４０は、基礎文書から被験文書への情報の転載があったと判定する。

以上の構成による動作を以下説明する。
図９（ａ）は、転載検査装置における転載検査サービスの処理を説明するためのフローチャートである。検査要求受信部２２は、ユーザからの検査要求を受け付ける（Ｓ１０）。基礎文書取得部３４は、文書提供装置２００の提供文書が保持されている文書保持部１２を参照して、ユーザが指定したキーワードに対応づけられた文書を基礎文書として取得する（Ｓ１２）。

文字列抽出部３６は、基礎文書に含まれる基礎文字列と、検査要求において指定された被験文書に含まれる複数の被験文字列とを取得してメモリにロードする（Ｓ１４）。文字列比較部３８は、基礎文字列と複数の被験文字列とを比較して、各被験文字列についての合致文字列長を比較結果保持部１４に記録する（Ｓ１６）。転載判定部４０は、後述する転載判定処理を実行する（Ｓ１８）。検査結果送信部２４は、転載判定処理における判定結果をユーザに通知する（Ｓ２０）。

図９（ｂ）は、図９（ａ）の転載判定処理を説明するためのフローチャートである。転載判定部４０は、比較結果保持部１４を参照して、各被験文字列についての合致文字列長のいずれかが確定閾値以上であるとき（Ｓ３０のＹ）、基礎文書から被験文書への情報の転載があると判定する（Ｓ３２）。いずれの合致文字列長も確定閾値未満であるとき（Ｓ３０のＮ）、転載判定部４０は、警戒閾値以上の合致文字列長を有する被験文字列を特定する。

所定個以上の被験文字列が警戒閾値以上であるとき（Ｓ３４のＹ）、転載判定部４０は、それらの被験文字列について被験文書上での距離を算出する。それらの被験文字列が被験文書上で所定距離内にあるとき（Ｓ３６のＹ）、転載判定部４０はＳ３２の処理を実行する。それらの被験文字列が被験文書上で所定距離内にないとき（Ｓ３６のＮ）、または、所定個以上の被験文字列が警戒閾値以上でないとき（Ｓ３４のＮ）、転載判定部４０は、足切り閾値以上の合致文字列長を有する被験文字列を特定する（Ｓ３８）。

転載判定部４０は、Ｓ３８で特定した被験文字列のうち、被験文書上で所定距離内にある被験文字列の合致文字列長を合算する（Ｓ４０）。いずれかの合算値が合算閾値以上であるとき（Ｓ４２のＹ）、転載判定部４０はＳ３２の処理を実行する。いずれの合算値も合算閾値未満であるとき（Ｓ４２のＮ）、転載判定部４０は、基礎文書から被験文書への情報の転載がないと判定する（Ｓ４４）。

以上説明した図１の転載検査システム１０００において、ユーザは、文書提供装置２００から取得した様々な文書を参考にして、自身の文書を作成する。ユーザは作成した文書を社外等に発表する前に、その文書をユーザ端末３００から転載検査装置１００に送信して転載検査サービスを要求する。転載検査装置１００は、図９（ａ）および図９（ｂ）の処理を経て、検査結果をユーザに通知する。

転載検査システム１０００によれば、ユーザにより作成された被験文書について、その記載内容に対する検査を支援できる。具体的には、ユーザが意識せずに著作物を転載していた場合でも、ユーザに負担を強いることなく、ユーザが作成した文書が他文書から転載された情報を含んでいる可能性が高いこと、言い換えれば、他人の著作権を侵害する可能性が高いことを通知できる。これにより、ユーザや企業は、その文書の発表前に適切な対処を実施できる。すなわち、ユーザや企業が文書の発表する際に抱えるリスクを低減できる。

また、転載検査装置１００においては、第１の判定として、各被験文字列についての合致文字列長のうち、いずれかの合致文字列長が確定閾値以上であれば転載有りと判定する。これにより、被験文書の１箇所でも比較的長い基礎文字列をそのまま転載したものがあれば効率よく検出できる。

さらに、転載検査装置１００においては、第２の判定として、警戒閾値以上の合致文字列長を有する被験文字列が所定個以上存在し、かつ、それらの被験文字列が被験文書上で所定距離内にあれば転載有りと判定する。これにより、基礎文書から情報が転載された可能性が高い被験文書を精度よく検出できる。すなわち、基礎文字列が転載され、その中に基礎文字列とは異なるユーザ作成の文字列が挿入されている被験文書であっても検出しやすくなる。また、距離の制限を設けることで、基礎文字列と合致する文字列が複数あっても、企業の経験上や社会通念上、それらの文字列が転載とは考えにくいほど離れている場合を排除しやすくなる。

さらにまた、転載検査装置１００においては、第３の判定として、所定距離内の被験文字列について、足切り閾値以上の合致文字列長を合算して、その合算値が合算閾値以上であれば転載有りと判定する。これにより、基礎文書から情報が転載された可能性が高い被験文書を精度よく検出できる。すなわち、比較的広範囲に亘って、基礎文字列が少しずつ転載されている被験文書であっても検出しやすくなる。

また、基礎文書のアイデアが被験文書に記載された場合には、基礎文字列と同じ文字列が被験文書内に少しずつ記載されると考えられる。第３の判定では、文字列レベルの転載ではなく、このようなアイデアレベルの転載についても検出しやすくなる。さらにまた、足切り閾値の制限を設けることで、各言語における定型の文字列など、同一の文字列となってしまうが情報の転載とは関係がない合致文字列を排除しやすくなる。さらにまた、距離の制限を設けることで、上述した効果を得られる。

以上、本発明を実施の形態をもとに説明した。この実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。

請求項に記載の各構成要件が果たすべき機能は、実施の形態および変形例において示された各機能ブロックの単体もしくはそれらの連係によって実現されることも当業者には理解されるところである。

第１の変形例として、基礎文書取得部３４は、検査要求受信部２２において判定要求データが受信されたときに、判定要求データにて指定されたキーワード文字列に関連する文書を基礎文書として文書提供装置２００から取得してもよい。この場合、文書収集部３２による定期的な文書収集や、文書保持部１２による文書の保持は不要となる。なお、外部装置に対して提供する文書からキーワードを抽出し、外部装置からのキーワード指定に応じて文書を提供する機能は、文書提供装置２００側で実行される。

また、第１の変形例において、ユーザから指定されるキーワードには、ユーザが文書作成において参照した情報の存在位置を示す情報であるＵＲＩ（Uniform Resource Identifier）が指定されてもよい。このＵＲＩには、例えば、ＵＲＬ（Uniform Resource Locator）文字列や、ディレクトリサーバまたはファイルシステム上の位置を指定するパス文字列が含まれる。この場合、基礎文書取得部３４は、このＵＲＩで指定されたネットワーク上の情報リソースにアクセスして基礎文書を取得する。これにより、適切な基礎文書を取得しやすくなる。

第２の変形例として、基礎文書取得部３４は、判定要求データにて指定された被験文書に対して既知のＮグラムや形態素解析等の方法を用いて、キーワード文字列を自動で抽出してもよい。この場合、基礎文書取得部３４は、抽出したキーワード文字列をもとに、文書保持部１２から基礎文書を取得する。これにより、ユーザによる被験文書のキーワード指定が不要になり、または、ユーザ指定のキーワードに自動抽出したキーワードを加えることでより適切な基礎文書を取得しやすくなる。

第３の変形例として、転載判定部４０は、第１の判定、第２の判定、および第３の判定を並行して実行してもよい。この場合、いずれかの判定で閾値以上が検出された場合、転載判定部４０は基礎文書から被験文書への情報の転載有りと判定する。判定処理を並行実行することで、転載検査サービスのスループットを向上できる。

第４の変形例として、転載検査装置１００は、図示しない文書編集部を備えてもよい。この文書編集部は、転載判定部４０により転載があると判定された被験文書を編集する。例えば、比較結果保持部１４を参照して、合致文字列長が大きい被験文字列について、下線を記し、強調表示させ、または削除してもよい。検査結果送信部２４は、文書編集部により編集された被験文書を検査結果データに含めてユーザ端末３００に送信してもよい。

第５の変形例として、検査結果送信部２４は、判定結果データを送信する際に、比較結果保持部１４を参照して、基礎文字列と被験文字列との比較結果、例えば図５のようなユーザインタフェースを提供する画面データをユーザ端末３００に送信してもよい。これにより、ユーザに対して判定結果だけでなく、その根拠である比較結果も通知できる。

また、比較結果の中で、第１の判定、第２の判定、および第３の判定において転載有りと判定された被験文字列の領域について強調表示されるように、検査結果送信部２４は画面データを編集してもよい。さらにまた、検査結果送信部２４は、強調表示の設定をした被験文字列領域の画面データと、被験文書の該当箇所および基礎文書の該当箇所とにハイパーリンクを設定してもよい。これにより、ユーザが強調表示された領域をクリックしたときに、被験文書及び基礎文書の対応箇所を表示でき、確認が容易になる。

第６の変形例として、転載検査システム１０００を別の用途に適用する例を示す。すなわち、実施の形態では、主に、文書をこれから発信する企業において、発信対象の文書に他人の著作物が転載されていないかを検査する観点で記載した。転載検査システム１０００は、以下に示す用途にも適用できる。

転載検査システム１０００は、他社が発信した情報に自社の著作物が転載されたか否かについての検査も支援できる。この場合、文書提供装置２００は自社で作成した文書を保持し、転載検査装置１００はその文書を取得して基礎文書とする。ユーザは、他社から発信された文書を被験文書として転載検査サービスを要求し、転載検査装置１００から検査結果を取得する。ユーザは検査結果に応じて、文書発信元の企業に対して適切な対応を取ることができる。

転載検査システム１０００は、コンピュータプログラムにおける転載有無の検査も支援できる。この場合、文書提供装置２００は自社で作成したコンピュータプログラムを保持し、転載検査装置１００はそのコンピュータプログラムを取得して基礎文書とする。ユーザは、他社の作成したコンピュータプログラムを被験文書として転載検査サービスを要求し、転載検査装置１００から検査結果を取得する。ユーザは検査結果に応じて、他社に対して適切な対応を取ることができる。

また逆に、文書提供装置２００は他社が公開し、著作権を留保しているコンピュータプログラムを保持し、転載検査装置１００はそのコンピュータプログラムを取得して基礎文書とする。ユーザは、自社の作成したコンピュータプログラムを被験文書として転載検査サービスを要求し、転載検査装置１００から検査結果を取得する。ユーザは検査結果に応じて、他社に対して適切な対応を取ることができ、または、自社の作成したコンピュータプログラム上の問題箇所を改修できる。

転載検査システム１０００は、大学や企業において作成された研究論文に他の文献からの転載があるか否かについての検査も支援できる。この場合、文書提供装置２００は様々な研究論文やオンライン辞書に記載された辞書情報を保持するデータベースであり、転載検査装置１００はその研究論文や辞書情報を取得して基礎文書とする。ユーザ、例えば大学の教授や論文の審査員は、これから発表または審査しようとする研究論文を被験文書として転載検査サービスを要求し、転載検査装置１００から検査結果を取得する。ユーザは検査結果に応じて、研究論文を発表または審査する際の意思決定ができる。

転載検査システム１０００は、楽曲の類似有無の検査も支援できる。この場合、文書提供装置２００は様々な既存楽曲のデータ、例えば歌詞データやＡＢＣ記譜法等の音楽記述言語で記載された楽曲データを保持するデータベースであり、転載検査装置１００はその楽曲データを取得して基礎文書とする。ユーザ、例えば作詞家や作曲家は、これから発表しようとする楽曲や盗作の被疑楽曲のデータを被験文書として転載検査サービスを要求し、転載検査装置１００から検査結果を取得する。ユーザは楽曲の類似有無に応じて、楽曲発表の意思決定や、盗作の被疑楽曲への対応を意思決定できる。

第７の変形例として、転載検査装置１００は、ウェブサーバの機能を有さず、外部の図示しないウェブサーバと接続されてもよい。すなわち、転載検査装置１００は、ユーザに対するプレゼンテーション機能を備えるウェブサーバから検査要求データを受信して、検査結果を当該ウェブサーバに送信してもよい。文書提供装置２００についても同様に、ウェブサーバの機能を有さず、外部の図示しないウェブサーバと接続されて、当該ウェブサーバを介して、文書ファイルの取得要求を受信し、蓄積している文書ファイルを送信してもよい。このように、転載検査システム１０００の構成に制限はなく、本発明の思想を逸脱しない範囲において様々な態様を取り得ることは当業者には理解されるところである。

本発明の実施の形態における転載検査システムの構成図である。図１の転載検査装置の機能構成を示すブロック図である。基礎文字列を示す図である。被験文字列を示す図である。文字列比較部による基礎文字列と被験文字列との比較結果を示す図である。各被験文字列についての合致文字列長を示す図である。各被験文字列についての合致文字列長を示す図である。各被験文字列についての合致文字列長を示す図である。転載検査装置における転載検査サービスの処理を説明するためのフローチャートである。図９（ａ）の転載判定処理を説明するためのフローチャートである。

符号の説明

１０データ保持部、１２文書保持部、１４比較結果保持部、２０ユーザ支援部、２２検査要求受信部、２４検査結果送信部、３０データ処理部、３２文書収集部、３４基礎文書取得部、３６文字列抽出部、３８文字列比較部、４０転載判定部、５０基礎文字列、６０被験文字列、１００転載検査装置、２００文書提供装置、３００ユーザ端末、４００通信網、１０００転載検査システム。

Claims

被験文書と基礎文書とを取得する文書取得部と、
前記被験文書の文字列と前記基礎文書の文字列とを比較して、両文書間で合致する複数の文字列を特定する文字列比較部と、
（Ａ）前記複数の文字列のうち、いずれかの長さが所定の閾値以上であるとき、または、（Ｂ）前記複数の文字列のうち、所定個以上の文字列の長さが前記閾値より小さい別の閾値以上で、かつ、別の閾値以上である文字列が、前記被験文書上、所定の距離内にあるとき、前記基礎文書から前記被験文書への情報の転載があると判定する転載判定部と、
前記転載判定部における判定結果に応じて、所定の後処理を実行する後処理部と、
を備えることを特徴とする著作物比較システム。
被験文書と基礎文書とを取得する文書取得部と、
前記被験文書の文字列と前記基礎文書の文字列とを比較して、両文書間で合致する複数の文字列を特定する文字列比較部と、
前記複数の文字列のうち、前記被験文書上、所定の距離内にある文字列の長さを合算し、その合算値が所定の閾値以上であるとき、前記基礎文書から前記被験文書への情報の転載があると判定する転載判定部と、
前記転載判定部における判定結果に応じて、所定の後処理を実行する後処理部と、
を備えることを特徴とする著作物比較システム。
被験文書と基礎文書とを取得する文書取得部と、
前記被験文書の文字列と前記基礎文書の文字列とを比較して、両文書間で合致する複数の文字列を特定する文字列比較部と、
（ａ）前記複数の文字列のうち、所定個以上の文字列の長さが警戒閾値以上で、かつ、警戒閾値以上である文字列が、前記被験文書上、第１の距離内にあるとき、または、（ｂ）前記複数の文字列のうち、その長さが、前記警戒閾値より小さい足切り閾値以上の文字列で、かつ、前記被験文書上、前記第１の距離より大きい第２の距離内にある文字列の長さを合算し、その合算値が前記足切り閾値より大きい合算閾値以上であるとき、前記基礎文書から前記被験文書への情報の転載があると判定する転載判定部と、
前記転載判定部における判定結果に応じて、所定の後処理を実行する後処理部と、
を備えることを特徴とする著作物比較システム。
前記転載判定部は、（ｃ）前記複数の文字列のうち、いずれかの長さが確定閾値以上であるときにも、前記基礎文書から前記被験文書への情報の転載があると判定することを特徴とする請求項３に記載の著作物比較システム。