JP5373439B2 - 著作物比較システム - Google Patents

著作物比較システム Download PDF

Info

Publication number
JP5373439B2
JP5373439B2 JP2009054513A JP2009054513A JP5373439B2 JP 5373439 B2 JP5373439 B2 JP 5373439B2 JP 2009054513 A JP2009054513 A JP 2009054513A JP 2009054513 A JP2009054513 A JP 2009054513A JP 5373439 B2 JP5373439 B2 JP 5373439B2
Authority
JP
Japan
Prior art keywords
document
test
character string
basic
characteristic character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009054513A
Other languages
English (en)
Other versions
JP2010211354A (ja
Inventor
純一 井上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nomura Research Institute Ltd
Original Assignee
Nomura Research Institute Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nomura Research Institute Ltd filed Critical Nomura Research Institute Ltd
Priority to JP2009054513A priority Critical patent/JP5373439B2/ja
Publication of JP2010211354A publication Critical patent/JP2010211354A/ja
Application granted granted Critical
Publication of JP5373439B2 publication Critical patent/JP5373439B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

この発明は、データ処理技術に関し、特に、複数の文書を比較する技術に関する。
ITの発展により、人間の知的作業は、過去と比べて格段に効率化されている。例えば、文書作成者は、インターネットを介してウェブサイト等の様々な情報リソースにアクセスし、多種多様な既存文書を容易に取得できる。文書作成者は、また、検索サービス等を利用して、所望する内容の既存文書を容易に発見できる(例えば、特許文献1参照)。
文書作成者は、様々な情報リソースから取得した既存文書を参考にして、自身の作成文書、例えば報告書や研究論文等の質を高めることができる。さらに文書の電子化により、既存文書の記載内容を作成文書に取り込むことも容易にできる。
特開2004−295712号公報
このように、文書作成者が様々な既存文書を参照できる現在、既存文書と類似していると人が判断しやすい文書が作成されることがある。文書作成者は、自身の作成文書が既存文書と類似する場合、また、自身の作成文書と類似する文書を他者が作成した場合のそれぞれにおいて、適切な対処が必要になることがある。
本発明は、本発明者の上記課題認識に基づき完成された発明であり、その主たる目的は、複数の文書間における類似状況の確認を支援する技術を提供することである。
上記課題を解決するために、本発明のある態様の著作物比較システムは、被験文書と、その被験文書と関連する基礎文書とを取得する文書取得部と、被験文書から、その被験文書のテーマとの関係において特徴的な文字列を特徴文字列として取得する文字列取得部と、特徴文字列を基礎文書の中で検出する文字列検出部と、特徴文字列の検出結果に応じて、被験文書と基礎文書とが類似するか否かを判定する類似判定部と、類似判定部における判定結果に応じて、所定の後処理を実行する後処理部と、を備える。
本発明の別の態様もまた、著作物比較システムである。この著作物比較システムは、被験文書と、その被験文書と関連する基礎文書とを取得する文書取得部と、被験文書から、その被験文書のテーマとの関係において特徴的な文字列であって、互いに異なる複数の特徴文字列を取得する文字列取得部と、複数の特徴文字列のそれぞれを基礎文書の中で検出するとともに、検出した特徴文字列について基礎文書の中での位置を検出する文字列検出部と、複数の特徴文字列のそれぞれが基礎文書の中で検出された累計数を示す軸と、当該累計数が増加した基礎文書の中での位置を示す軸とからなる2次元平面上に、複数の特徴文字列の検出状況が描画されたグラフのデータを所定の出力装置に出力する検出状況出力部と、を備える。
なお、以上の構成要素の任意の組合せ、本発明の表現を装置、方法、システム、プログラム、プログラムを格納した記録媒体などの間で変換したものもまた、本発明の態様として有効である。
本発明によれば、複数の文書間における類似状況の確認を支援できる。
本発明の実施の形態である宅配システムの構成を示す図である。 図1の文書比較装置の機能構成を示すブロック図である。 ユーザ端末で表示された検査情報設定画面の画面図である。 基礎文書からの特徴文字列および重要文字列の検出状況を示す図である。 文書比較装置の動作を示すフローチャートである。 第1の変形例における類似判定において使用される閾値を示す図である。 第2の変形例における検出状況グラフを示す図である。 第2の変形例における文書比較装置の機能構成を示すブロック図である。
本発明の実施の形態について、その構成を説明する前に概要を説明する。
様々な文書を作成する企業においては、自社で作成された文書(以下、適宜「自社作成文書」とも呼ぶ。)と類似する社外で作成された文書(以下、適宜「社外作成文書」とも呼ぶ。)を発見することのニーズは高い。このニーズの例を以下に示す。
1.著作権侵害または社外作成文書の作成者とのトラブルを防止する:
著作物の作成、公表に際して著作者(自社作成文書の作成者)は、著作権侵害がないよう細心の注意を払う必要があるのはもちろんである。しかし、著作権法上の問題がないとしても、社外作成文書の作成者が後に公表された自社作成文書を参照して、そこに含まれる一部の表現を手がかりに、当該社外作成文書と類似していると判断して著作権侵害であるとの苦情を提起することもあり得る。こうしたリスクを事前に予測できれば、自社作成文書を修正等して無用なトラブルを回避することも可能となる。
2.自社作成文書を参考にして作成された社外作成文書を特定する:
自社作成文書が社外作成文書と類似する場合、社外作成文書の作成において自社作成文書の内容が転載もしくは参考にされた可能性もある。自社作成文書と類似する社外作成文書を特定することにより、社外作成文書における参考文献の記載に自社作成文書を明記させる等、社外作成文書の作成者への適切な対応を実施しやすくなる。
ところで、複数の文書が相互に類似すると人が判断しやすいのは、典型的には、ある程度の長さの文字列が両文書に共通して記載されている場合である。本発明者は、両文書で合致する文字列長は短くても、文書内における特徴的な表現や言葉遣い、言い換えれば、文書作成者の思い入れの強い表現が両文書に共通して記載された場合には、両文書が類似すると判断されやすいと考えた。例えば、特許制度をテーマとする文書において、「鮮度」という言葉遣いが特徴的であると文書作成者が考える場合、同じく特許制度をテーマとする他文書において「鮮度」の表現が使用されていると、文書作成者はこれらの両文書が類似すると考えやすいことに想到した。
以下では、本発明者の上記着想を具現化した、複数の文書を比較するシステムを提案する。このシステムは、自社作成文書を検査対象の文書(以下、適宜「被験文書」とも呼ぶ。)として、社外作成文書を被験文書と比較する文書(以下、適宜「基礎文書」とも呼ぶ。)として、被験文書と基礎文書との類似有無の確認を支援する。なお、自社作成文書を被験文書、社外作成文書を基礎文書とするのは、説明の簡明化のため便宜的に対応づけたものであり、この対応関係は適宜逆にされてもよい。
なお、本実施の形態において、被験文書および基礎文書は、文字データが記録された文書ファイルを意味する。この文書ファイルの形式に制限はなく、例えば、プレーンテキストファイル、様々な文書編集ソフト用のデータファイル、HTMLやXML形式で記載されたテキストファイルであってもよい。
図1は、本発明の実施の形態である著作物比較システムの構成を示す。著作物比較システム100は、ユーザ端末10と、基礎文書DB20と、文書比較装置30とを備える。これらの各装置は、LAN・WAN・インターネット等の公知の通信手段を含む通信網を介して、適宜、相互に接続されている。
ユーザ端末10は、被験文書の作成者により操作される一般的なPC端末である。基礎文書DB20は、複数の基礎文書のデータそれぞれと、各基礎文書のテーマを示す文字列とが対応づけられた基礎文書情報を記憶するデータベースサーバである。基礎文書のテーマは基礎文書に何が書いてあるかを簡潔に示したキーワードであり、その文字列は単語、フレーズ、自然文であってもよい。
文書比較装置30は、被験文書と基礎文書とを比較して、被験文書と基礎文書とが類似するか否かを判定する。具体的には、被験文書のテーマとの関係において被験文書の中での使用が特徴的な文字列(以下、適宜「特徴文字列」とも呼ぶ。)を基礎文書から検出し、その検出状況に応じて類似判定を行う。
図2は、図1の文書比較装置30の機能構成を示すブロック図である。文書比較装置30は、被験文書取得部32と、基礎文書取得部34と、被験文書表示部35と、被験部分取得部36と、検出対象取得部38と、特徴文字列取得部40と、特徴文字列検出部42と、類似判定部44と、判定結果通知部46とを有する。
本明細書のブロック図において示される各ブロックは、ハードウェア的には、コンピュータのCPUをはじめとする素子や機械装置で実現でき、ソフトウェア的にはコンピュータプログラム等によって実現されるが、ここでは、それらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックはハードウェア、ソフトウェアの組合せによっていろいろなかたちで実現できることは、当業者には理解されるところである。
被験文書取得部32は、ユーザ端末10からアップロードされた被験文書のデータと、文書作成者により指定された被験文書のテーマを示す文字列とを受信する。基礎文書取得部34は、被験文書のテーマと関連するテーマが記載された基礎文書を取得する。具体的には、基礎文書DB20に記憶された基礎文書情報を参照して、被験文書のテーマと対応づけられた基礎文書のデータを基礎文書DB20から取得する。被験文書表示部35は、被験文書と基礎文書との比較検査において必要となる各種情報を文書作成者に設定させるための画面(以下、適宜「検査情報設定画面」)60のデータに被験文書のデータを設定し、ユーザ端末10に送信して表示させる。
図3は、ユーザ端末10で表示された検査情報設定画面60の画面図である。検査情報設定画面60は、被験文書を表示する被験文書表示領域62と、被験部分指定ボタン64と、特徴文字列指定ボタン66と、重要文字列指定ボタン68とを含む。
文書作成者は、被験文書表示領域62に表示された被験文書の中から、被験文書において特徴文字列を抽出する部分、言い換えれば、単位検査当たり基礎文書と比較される部分(以下、適宜「被験部分」とも呼ぶ。)を選択して被験部分指定ボタン64を押下する。これにより、図3の被験部分70が決定される。この被験部分は、被験文書の構成上単一の部分を構成する文字列であり、言い換えれば、被験文書の構成上ひとかたまりとして把握できる部分である。より望ましくは、被験文書の意味上単一の部分を構成する文字列であり、言い換えれば、被験文書の意味上ひとかたまりとして把握できる部分、例えば背景部分・展開部分・結論部分等である。
また、文書作成者は、被験部分70の中から、被験文書のテーマとの関係、または、被験文書における被験部分の意味との関係で特徴的な、互いに異なる複数の特徴文字列を選択して特徴文字列指定ボタン66を押下する。これにより、図3の特徴文字列72が決定される。なお、特徴文字列は、単語、数詞、文節、文章等、任意の単位で選択されてよい。
被験文書のテーマとの関係で特徴的な文字列とは、文書作成者の思い入れの強い文字列を意味し、例えば、独創性が高いと文書作成者が考える文字列であってもよく、また、被験文書のテーマとの関係では通常使用されない文字列であってもよい。具体例として「特許制度」というテーマにおいては、通常使用されないと想定される文字列「鮮度」・「難行」であってもよい。また、被験文書における被験部分の意味との関係で特徴的な文字列とは、やはり文書作成者の思い入れの強い文字列を意味し、例えば、被験文書における被験部分の意味との関係では通常使用されない文字列であってもよい。具体例として、被験文書の背景部分を構成する被験部分においては、通常結論部分で使われる慣用語句であってもよい。
さらにまた、文書作成者は、特徴文字列の中でも特に特徴的であると想定される文字列、言い換えれば、この文字列を含む基礎文書は被験文書と類似する可能性が比較的高いと想定される文字列(以下、適宜「重要文字列」とも呼ぶ。)を選択して重要文字列指定ボタン68を押下する。これにより、図3の重要文字列74が決定される。
なお、文書作成者は、被験文書から複数の被験部分70を決定してもよく、この場合、複数の被験部分70のそれぞれについて特徴文字列72および重要文字列74を決定する。後述する特徴文字列検出部42および類似判定部44の処理は、文書作成者により決定された被験部分70ごとに実行される。図2に戻る。
被験部分取得部36は、検査情報設定画面60において文書作成者により決定された被験部分70のデータをユーザ端末10から取得する。特徴文字列取得部40は、検査情報設定画面60において文書作成者により決定された特徴文字列72および重要文字列74のデータをユーザ端末10から取得する。
検出対象取得部38は、基礎文書の一部分を構成する文字列であり、特徴文字列72および重要文字列74を検出する対象となる基礎文書の部分(以下、適宜「検出対象部分」とも呼ぶ。)を基礎文書のデータから抽出する。
具体的には、検出対象取得部38は、被験部分70の文字列長に応じて検出対象部分の文字列長を決定する。典型的には、検出対象部分の文字列長は被験部分70の文字列長よりも大きく、例えば、その5倍程度の文字列長を決定する。そして、基礎文書の先頭から検出対象部分のデータを取得し、さらに基礎文書の先頭から1〜10文字ずらして検出対象部分のデータを取得し、これを繰り返して、複数の検出対象部分のデータを取得する。変形例として、基礎文書に設定されたパラグラフやセクションにしたがって基礎文書を一旦分割後、それぞれのパラグラフやセクション内において複数の検出対象部分のデータを取得してもよい。
特徴文字列検出部42は、基礎文書から抽出された複数の検出対象部分それぞれについて、被験部分70における特徴文字列72および重要文字列74の存在有無を検出する。図4は、基礎文書からの特徴文字列72および重要文字列74の検出状況を示す。例えば、第1の基礎文書における第1の検出対象部分については、重要文字列74の検出数は「1」であり、重要文字列74を含む特徴文字列72の検出数は「3」であることを示している。
類似判定部44は、検出対象部分のデータから検出された特徴文字列72および重要文字列74の数(以下、適宜「検出文字列数」とも呼ぶ。)が所定の閾値以上であるとき、被験文書と基礎文書とが類似すると判定する。ここでは、検出対象部分のデータに重要文字列74が含まれないときの検出文字列数の閾値は「7」、重要文字列74が含まれるときの検出文字列数の閾値は「4」であることとする。この場合、第2の基礎文書における第10の検出対象部分がその閾値以上となるため、類似判定部44は、被験文書と第2の基礎文書とが類似すると判定する。
検出文字列数に対する閾値は、これ以上の特徴文字列が基礎文書から検出されると、被験文書と基礎文書とが類似すると判定されやすいと想定される検出文字列数であり、企業の知見や、著作物比較システム100を用いた実験等により適宜決定されてよい。例えば、重要文字列74が1つでも含まれるときの検出文字列数の閾値は「1」であってもよく、すなわち重要文字列74が基礎文書において検出されれば、それをもって被験文書と基礎文書とが類似すると判定されてもよい。
判定結果通知部46は、類似判定部44の判定結果を示すデータをユーザ端末10に送信する。例えば図4の例では、被験文書が第1の基礎文書とは非類似で、第2の基礎文書とは類似する旨を示すデータを送信してもよい。また、類似すると判定された基礎文書のデータまたは検出対象部分のデータをあわせて送信してもよい。また、被験文書の内容と、それと類似すると判定された基礎文書の内容または検出対象部分の内容とを並べて表示する画面のデータをユーザ端末10に送信して表示させてもよい。
なお、判定結果通知部46は、基礎文書のデータにおいて検出対象部分を強調表示させ、また、基礎文書または検出対象部分のデータにおいて特徴文字列を強調表示させる等、検出状況を文書作成者から視認しやすい態様で表示させるよう送信データを設定されてもよいのはもちろんである。なお、本実施の形態における強調表示とは、対象の文字列を大文字で表示させ、または、文書作成者の注意を喚起させるための所定色で表示させ、または、対象の文字列の近傍に所定のマークを付して表示させること等を含む。
以上の構成による動作を以下説明する。
図5は、文書比較装置30の動作を示すフローチャートである。文書比較装置30の被験文書取得部32は、被験文書のデータと、被験文書のテーマを示すデータとをユーザ端末10から取得する(S10)。基礎文書取得部34は、被験文書のテーマに対応づけられた基礎文書のデータを基礎文書DB20から取得する(S12)。被験文書表示部35は、被験文書のデータを検査情報設定画面60のデータに設定し、その検査情報設定画面60のデータをユーザ端末10に送信して表示させる(S14)。被験部分取得部36は、検査情報設定画面60において文書作成者により決定された被験部分70をユーザ端末10から取得する(S16)。特徴文字列取得部40は、検査情報設定画面60において文書作成者により決定された特徴文字列72および重要文字列74をユーザ端末10から取得する(S18)。検出対象取得部38は、被験部分70の長さに応じてその文字列長が決定された検出対象部分のデータを基礎文書のデータから抽出する(S20)。
特徴文字列検出部42は、検出対象部分のデータから特徴文字列72および重要文字列74の存在有無を検出する(S22)。検出対象部分からの検出文字列数が所定の閾値以上であるとき(S24のY)、類似判定部44は被験文書と基礎文書とが類似すると判定し(S26)、判定結果通知部46はその判定結果をユーザ端末10に通知する(S28)。検出対象部分からの検出文字列数が所定の閾値未満であるとき(S24のN)、類似判定部44は被験文書と基礎文書とが非類似であると判定し(S30)、判定結果通知部46はその判定結果をユーザ端末10に通知する(S32)。
以上説明した著作物比較システム100によれば、特徴文字列、つまり被験文書において文書作成者の思い入れが強い文字列について基礎文書からの検出結果に応じて、被験文書と基礎文書との類似判定がなされる。この類似判定は、文書作成者の思い入れが強い文字列が共通する文書は、類似すると判断されやすいという本発明者の着想が具現化されたものである。すなわち、著作物比較システム100によれば、被験文書と類似すると人が判断しやすい基礎文書を特定できるため、社外作成文書の作成者とのトラブルを予見しやすくなる。また、自社作成文書を参考にして作成された可能性が高い社外作成文書を発見しやすくなる。さらにまた、被験文書の文書作成者は、被験文書と類似するとされた基礎文書を参考にして、一旦作成した被験文書の内容を修正し、またその質を向上させることができる。
また、著作物比較システム100によれば、文書作成者の思い入れが特に強い重要文字列が基礎文書に存在する場合には、重要文字列が基礎文書に存在しない場合よりも小さい閾値を使用して、被験文書と類似文書との比較判定を実施する。これにより、基礎文書に存在する特徴文字列の数が比較的少なくても、重要文字列が存在すれば、被験文書と基礎文書とが類似すると判定されやすくなる。
さらにまた、著作物比較システム100によれば、被験文書において意味上または構成上ひとかたまりとして把握できる部分が被験部分70として抽出され、被験部分70から特徴文字列72および重要文字列74が抽出される。そして、被験部分70の長さに応じた文字列長の検出対象部分が基礎文字列から抽出され、検出対象部分の中から特徴文字列72および重要文字列74が検出されて類似判定がなされる。複数の特徴文字列72が基礎文書に存在しても、被験文書においてこれらの特徴文字列72が長い間隔を隔てて存在する場合、または、複数の特徴文字列72が基礎文書に存在しても、基礎文書においてこれらの特徴文字列72が長い間隔を隔てて存在する場合、人は被験文書と基礎文書とが類似するとは判定しにくい。著作物比較システム100によれば、ある程度大きさが制限される被験部分と検出対象部分とを比較することで、人が被験文書と類似すると判断しやすい基礎文書を特定できる。また、被験文書における被験部分の意味上、特徴を有する特徴文字列に基づく類似判定も実現される。
以上、本発明を実施の形態をもとに説明した。この実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。以下変形例を示す。
第1の変形例を説明する。上述の実施の形態においては、被験部分の特徴文字列および重要文字列について検出対象部分からの検出状況に応じて被験文書と基礎文書との類似判定がなされた。変形例においては、被験文書と基礎文書とが複数の態様にて比較されてもよく、各態様の比較ごとに検出文字列数に対する異なる閾値が設定されてもよい。
本変形例においては、特徴文字列検出部42における特徴文字列の検出処理として、被験文書全体における特徴文字列および重要文字列を基礎文書全体から検出する第1の検出処理が実行される。また、被験文書全体における特徴文字列および重要文字列を基礎文書の特定部分から検出する第2の検出処理と、被験文書の特定部分における特徴文字列および重要文字列を基礎文書の特定部分から検出する第3の検出処理とがさらに実行される。第1から第3の検出処理は、直列実行されてもよく、並行実行されてもよいが、いずれかの検出処理の結果である検出文字列数が検出処理態様に対応する閾値以上となった場合、類似判定部44は被験文書と基礎文書とが類似すると判定する。
上記の第2および第3の検出処理における基礎文書の特定部分は、基礎文書の読み手にとってひとかたまりとして把握されやすいと想定される文字列長であることが望ましい。例えば、基礎文書において意味上もしくは構成上ひとかたまりとして把握できる部分であり、その文字列長は1000文字程度であることが望ましい。第3の検出処理における被験文書の特定部分の特定部分も同様に、被験文書の読み手にとってひとかたまりとして把握されやすいと想定される文字列長であることが望ましい。なお、被験文書の特定部分は実施の形態の被験部分が設定されてもよく、基礎文書の特定部分は実施の形態の検出対象部分が設定されてもよい。
図6は、第1の変形例における類似判定において使用される閾値を示す。同図の第1の判定閾値80は、第1の検出処理の結果をもとに類似判定部44において類似判定をする際に使用される。同様に、第2の判定閾値82および第3の判定閾値84については、第2の検出処理および第3の検出処理のそれぞれに対応して使用される。図6で示すように、文書全体を比較する場合の判定閾値が最も大きく、基礎文書における特徴文字列の検出範囲が制限された場合、それに加えて被験文書における特徴文字列の取得範囲が制限された場合の順に判定閾値は小さくなるよう設定される。すなわち、被験文書と基礎文書との比較対象領域が小さくなるほど、小さな検出文字列数であっても、被験文書と基礎文書とが類似すると判定されやすくなる。
第1の変形例における別の態様では、特徴文字列検出部42における特徴文字列の検出処理としては、第1の検出処理のみ実行される。この場合、特徴文字列取得部40は、特徴文字列を取得する際に、被験文書における特徴文字列の位置を示すデータをさらに取得する。また、特徴文字列検出部42は、第1の検出処理の際に、基礎文書における特徴文字列の位置を示すデータをさらに取得する。
この別の態様において、類似判定部44は、第1の検出処理の結果と第1の判定閾値80とに基づく類似判定後、基礎文書における所定距離内で検出された特徴文字列の数と第2の判定閾値82とを比較する。その結果、第2の判定閾値82以上の特徴文字列が検出されていれば、被験文書と基礎文書とが類似すると判定する。
続いて、被験文書において第3の判定閾値84以上の特徴文字列が所定距離内に存在するか否かを判定する。存在する場合にはさらに、それらの特徴文字列のうち第3の判定閾値84以上の特徴文字列が基礎文書における所定距離内で検出されたか否かを判定する。その結果、第3の判定閾値84以上の特徴文字列が検出されていれば、被験文書と基礎文書とが類似すると判定する。この所定距離は、上述した特定部分の文字列長と同様に、文書の読み手にとってひとかたまりとして把握されやすいと想定される文字列長であることが望ましい。
第1の変形例によれば、被験文書および基礎文書における特徴文字列の存在密度に応じた類似判定が実現される。すなわち、文書全体を比較する場合、特徴文字列の存在密度は小さくなるため、多くの特徴文字列が合致しなければ人は文書が類似すると判断しにくいため、大きい判定閾値が使用される。逆に、文書の一部分を比較する場合、特徴文字列の存在密度は大きくなるため、少ない特徴文字列の合致であっても人は文書が類似すると判断しやすいため、小さい判定閾値が使用される。これにより、被験文書と基礎文書とが類似すると人が判断するかという観点において、適切な類似判定を実現できる。
第2の変形例を説明する。本変形例では、基礎文書における特徴文字列の検出状況を示す検出状況グラフをユーザ端末10に提示する。図7は、第2の変形例における検出状況グラフを示す。同図の検出状況グラフ90では、複数の特徴文字列のそれぞれが基礎文書の中で検出された累計数である検出累積数を示す軸と、基礎文書において検出累計数が増加した位置である基礎文書内位置を示す軸とからなる2次元平面上に、基礎文書の中での特徴文字列の検出状況が描画される。同図の第1比較結果92、第2比較結果94、第3比較結果96は、第1の基礎文書、第2の基礎文書、第3の基礎文書それぞれにおける特徴文字列の検出状況を示している。
図7の検出状況グラフ90においては、その傾きが小さいほど基礎文書における近傍の位置において特徴文字列が検出されたことを意味し、傾きが小さい部分が長いほど多くの特徴文字列が近傍の位置で検出されたことを意味する。したがって、検出累積数は第3比較結果96が最も大きいものの、傾きが小さい部分が最も長い第2比較結果94に対応する第2の基礎文書が、被験文書と類似すると判断されやすい文書であると考えられる。このように、本変形例によれば、被験文書の作成者は検出状況グラフ90を確認することで、類似すると判断される可能性が高い基礎文書を視覚的に特定できる。
図8は、第2の変形例における文書比較装置30の機能構成を示すブロック図である。本変形例の文書比較装置30は、類似判定部44と判定結果通知部46とに代えて、検出状況描画部48と検出状況出力部50とを有する。特徴文字列検出部42は、基礎文書において特徴文字列の存在を検出した際に、その特徴文字列の基礎文書における存在位置も検出する。検出状況描画部48は、基礎文書において検出された複数の特徴文字列を、その存在位置の昇順に整列させて、検出累積数と、その検出累積数を増加させた特徴文字列の存在位置とを対応づけて検出状況グラフ90上に順次プロットする。検出状況出力部50は、複数の基礎文書それぞれについて特徴文字列の検出状況が描画された検出状況グラフ90のデータをユーザ端末10に送信して表示させる。
なお、基礎文書において同一の特徴文字列が複数回検出された場合、検出状況描画部48は、いずれの検出についても検出累積数を増加させてもよい。また、一の特徴文字列については、基礎文書において初めて検出された場合に限って検出累積数を増加させてもよい。また、特定の特徴文字列が基礎文書において検出後、異なる所定数の特徴文字列が検出された後、上記特定の特徴文字列が再度検出された際には検出累積数を増加させてもよい。また、検出状況描画部48は、特徴文字列の存在位置として、基礎文書全体の文字列長に対する、基礎文書の先頭から特徴文字列の存在位置までの文字列長の割合を設定してもよい。また、基礎文書の先頭から特徴文字列の存在位置までの文字列長そのものを設定してもよい。
第2の変形例に関する別の態様として、文書比較装置30は基礎文書提供部をさらに有してもよい。基礎文書提供部は、検出状況グラフ90において特徴文字列の検出状況を示す複数のプロットデータのうち、特定のプロットデータが文書作成者により選択されたことを示すデータをユーザ端末10から受け付ける。そして、そのプロットデータが対応づけられた基礎文書内位置に対応する部分を強調表示させる等、文書作成者から視認されやすいように設定した基礎文書のデータをユーザ端末10に送信して表示させる。例えば、図7の第2比較結果94におけるプロットデータ98がユーザ端末10において選択されると、プロットデータ98に対応づけられた基礎文書内位置、すなわち基礎文書の文字列のうち概ね中央部分を構成する文字列がユーザ端末10において表示される。
第2の変形例のさらに別の態様として、文書比較装置30は類似判定部44をさらに有してもよい。本変形例の類似判定部44は、検出状況グラフ90の形状に応じて、被験文書と基礎文書との類似判定を実行する。例えば、類似判定部44は、検出状況グラフ90の傾きが所定値以下の状態となり、かつ、その状態が所定の検出累積数の間において継続することを条件として、被験文書と基礎文書とが類似すると判定してもよい。また、検出状況描画部48は、上記判定結果に応じて検出状況グラフ90の表示態様を変更してもよい。例えば、被験文書と類似すると判定された基礎文書のグラフについては、文書作成者から視認されやすいようにそのグラフの線を太くし、または特別な色を付してもよい。
第3の変形例を説明する。実施の形態においては、著作物比較システム100の基礎文書DB20内に基礎文書が予め保持され、基礎文書取得部34はその基礎文書DB20から基礎文書のデータを取得した。変形例において、基礎文書取得部34は、社外のデータベースサーバやウェブサーバ等の基礎文書提供装置に対して、ネットワークを介してアクセスし、基礎文書のデータを取得してもよい。例えば、基礎文書取得部34は、被験文書のテーマと、外部の基礎文書提供装置にアクセスするためのURI(Uniform Resource Identifier)とを対応づけて記憶したテーブルを保持してもよい。そして、ユーザ端末10から指定された被験文書のテーマと対応づけられたURIを使用して基礎文書提供装置にアクセスし、そのテーマと関連する基礎文書を取得してもよい。別の態様としては、基礎文書取得部34は、被験文書のテーマを指定して外部の検索サーバへ検索要求することにより、基礎文書提供装置のURIを取得してもよい。本変形例によれば、社外に存在する最新の基礎文書を取得しやすくなる。
第4の変形例を説明する。実施の形態において、特徴文字列および重要文字列は被験文書の作成者により指定された。変形例において、文書比較装置30は、特徴文字列および重要文字列の指定の少なくとも一部を自動化してもよい。本変形例によれば、特徴文字列および重要文字列を指定する際の、文書作成者の負担を軽減できるとともに、特徴文字列および重要文字列の指定漏れの可能性を低減できる。
本変形例において、文書比較装置30は、被験文書における特徴文字列および重要文字列を推定する特徴文字列推定部をさらに備える。特徴文字列推定部は、所定の形態素解析手法にしたがって被験文書の形態素、典型的には名詞句(以下、適宜「形態素文字列」と呼ぶ。)を抽出する。そして、基礎文書取得部34において取得された基礎文書を参照して、形態素文字列のうち被験文書で使用されている頻度が所定値以上で、かつ、基礎文書で使用されている頻度が所定値以下の形態素文字列を特徴文字列の候補として決定する。この傾向が特に大きい形態素文字列は重要文字列の候補として決定してもよい。なお、TF(Term Frequency)・IDF(Inverse Document Frequency)法にしたがって、特徴文字列の候補を決定してもよい。
本変形例における被験文書表示部35は、被験文書表示領域62に被験文書のデータを設定する際、特徴文字列の候補については予め定められた態様で表示されるように設定する。特徴文字列として予め選択された状態で表示されるように設定してもよい。検査情報設定画面60を確認した文書作成者は、特徴文字列として予め選択された特徴文字列について、適宜その選択を解除し、また、新たな特徴文字列を選択して、最終的な特徴文字列および重要文字列を決定する。
第5の変形例を説明する。実施の形態において、被験部分は被験文書の作成者により指定された。変形例において、文書比較装置30は、被験部分の指定の少なくとも一部を自動化してもよい。本変形例によれば、被験部分を指定する際の、文書作成者の負担を軽減できる。さらに、第4の変形例と組み合わせることにより、被験部分・特徴文字列・重要文字列の指定が自動化され、検査情報設定画面60におけるこれらの指定は不要となる。これにより、文書作成者は、被験文書とそのテーマを指定するだけで、基礎文書との類似判定結果を得ることができる。
本変形例において、文書比較装置30は、被験文書における被験部分を設定する被験部分設定部をさらに備える。被験部分設定部は、被験文書のデータを参照して、被験文書の先頭から1000文字等の所定の文字列長ごとに被験部分を仮設定する。被験文書表示部35は、被験文書表示領域62に被験文書のデータを設定する際、仮設定された被験部分については予め定められた態様で表示されるように設定する。被験部分として予め選択された状態で表示されるように設定してもよい。第4の変形例と同様、予め設定された被験部分は文書作成者によって適宜調整されてよい。
また、被験部分設定部は、被験文書に含まれる段落記号や改行記号、スペースの有無等を検出することにより、被験文書に設定された段落を検出して被験部分としてもよい。また、複数のキーワードと、各キーワードを含む段落の文書構成上の典型的な位置づけ、言い換えれば、その段落が被験文書のストーリ展開において果たす役割とが対応づけて記憶されたデータベースを参照して、段落内に存在するキーワードに応じて、その段落の被験文書上での位置づけを識別してもよい。例えば、背景部分、展開部分、結論部分のいずれに該当する段落であるかを識別してもよい。別の方法としては、被験文書全体における段落の存在位置に応じて、その段落の被験文書上での位置づけを識別してもよい。さらにまた、被験部分として検出した段落の被験文書上での位置づけに応じて、類似判定において使用される判定閾値、例えば検出文字列数と比較する閾値が変更されてもよい。一例として、背景部分<展開部分<結論部分の順に文書内での重要性や、著作者の思い入れが強いと想定される場合には、各部分の判定閾値が、背景部分>展開部分>結論部分となるように設定されてもよい。すなわち、文書内での重要性や、著作者の思い入れが強いと想定される領域ほど、検出文字列数が小さくても類似と判定されやすく設定されてもよい。
なお、被験文書における被験部分の位置づけの自動検出処理や、判定閾値の調整処理は、段落の検出を自動で行う場合に限られず、被験文書の作成者が被験部分を指定する場合に実行されてもよい。
第6の変形例を説明する。文書比較装置30は、文書の作成日時または更新日時(以下、単に「更新日時」と呼ぶ)に応じて、ユーザ端末10へ通知する類似判定結果の表示態様を変更してもよい。この場合、被験文書取得部32は、ユーザ端末10から指定された、もしくは、被験文書のプロパティ情報としてそのデータに付加された被験文書の更新日時をさらに取得する。基礎文書取得部34は、基礎文書のプロパティ情報としてそのデータに付加された基礎文書の更新日時をさらに取得する。
判定結果通知部46は、被験文書と類似すると判定された基礎文書のデータをユーザ端末10に通知する際、被験文書の更新日時が基礎文書の更新日時より後の場合には、基礎文書が第1の態様で表示されるように基礎文書のデータを設定する。また、被験文書の更新日時が基礎文書の更新日時より先の場合には、基礎文書が第1の態様とは異なる第2の態様で表示されるように基礎文書のデータを設定する。この第1および第2の態様は、基礎文書を表示する色や形状が異なってもよく、更新日時の関係を識別するための異なる所定のマークがそれぞれの基礎文書に付されてもよい。
被験文書の更新日時が基礎文書の更新日時より後の場合には、被験文書すなわち自社作成文書が基礎文書すなわち社外作成文書を参考・模倣等した可能性があり、基礎文書の作成者からの苦情に対する準備が必要となる。一方で、被験文書の更新日時が基礎文書の更新日時より先の場合には、基礎文書が被験文書を参考・模倣した可能性があり、自社から基礎文書の作成側へのアクションが必要となる。つまり、更新日時の関係によって実施すべきアクションが異なる。本変形例によれば、文書間における更新日時の関係に応じて、被験文書の作成側で適切なアクションが実施しやすくなる。
第7の変形例を説明する。被験文書取得部32は、被験文書のデータを取得する際に、取得不要の基礎文書を示す文書名をユーザ端末10からさらに受け付けてもよい。取得不要の基礎文書とは、被験文書との類似が問題とならない文書であり、典型的には被験文書の参考文献として明示された文書である。別の態様として、被験文書取得部32は、被験文書のデータを参照して、所定の参考文献欄に記載された文書名を、取得不要の基礎文書の文書名として自動的に取得してもよい。基礎文書取得部34は、取得不要とされた文書名を参照して、それ以外の基礎文書のデータを取得する。これにより、文書比較装置30において不要な処理を省き、効率的かつ迅速に類似判定を実行できる。
上述した実施の形態および変形例の任意の組み合わせもまた本発明の実施の形態として有用である。組み合わせによって生じる新たな実施の形態は、組み合わされる実施の形態および変形例それぞれの効果をあわせもつ。
請求項に記載の各構成要件が果たすべき機能は、実施の形態および変形例において示された各構成要素の単体もしくはそれらの連係によって実現されることも当業者には理解されるところである。
請求項に記載した「後処理部」は、所定の後処理として、被験文書と基礎文書との類似判定結果の記録処理、その類似判定結果の印刷処理、その類似判定結果の画面表示やメール送信等による所定のユーザへの通知処理、被験文書と基礎文書とを並べて画面表示させる処理等を実行してもよい。
30 文書比較装置、 32 被験文書取得部、 34 基礎文書取得部、 35 被験文書表示部、 36 被験部分取得部、 38 検出対象取得部、 40 特徴文字列取得部、 42 特徴文字列検出部、 44 類似判定部、 46 判定結果通知部、 48 検出状況描画部、 50 検出状況出力部、 100 著作物比較システム。

Claims (4)

  1. 被験文書と、その被験文書と関連する基礎文書とを取得する文書取得部と、
    前記被験文書において意味上または構成上ひとかたまりとして把握できる部分を被験部分として取得する被験部分取得部と、
    前記被験文書の前記被験部分から、前記被験文書のテーマとの関係において特徴的な文字列を特徴文字列として取得する文字列取得部と、
    前記基礎文書において前記特徴文字列が検出される対象となる部分であって、前記被験部分の分量に応じてその分量が決定された検出対象部分を取得する検出対象取得部と、
    前記被験部分の特徴文字列を前記基礎文書の前記検出対象部分の中で検出する文字列検出部と、
    前記被験部分の特徴文字列の検出結果に応じて、前記被験文書と前記基礎文書とが類似するか否かを判定する類似判定部と、
    前記類似判定部における判定結果に応じて、所定の後処理を実行する後処理部と、
    を備えることを特徴とする著作物比較システム。
  2. 被験文書と、その被験文書と関連する基礎文書とを取得する文書取得部と、
    前記被験文書から、その被験文書のテーマとの関係において特徴的な文字列を特徴文字列として取得する文字列取得部と、
    前記特徴文字列を前記基礎文書の中で検出する文字列検出部と、
    前記特徴文字列の検出結果に応じて、前記被験文書と前記基礎文書とが類似するか否かを判定する類似判定部と、
    前記類似判定部における判定結果に応じて、所定の後処理を実行する後処理部と、
    を備え
    前記文字列取得部は、前記被験文書から互いに異なる複数の特徴文字列を取得し、
    前記文字列検出部は、前記複数の特徴文字列のそれぞれを前記基礎文書の中で検出し、
    前記類似判定部は、(1)前記複数の特徴文字列のうち所定数以上の特徴文字列が前記基礎文書の中で検出されたこと、(2)前記複数の特徴文字列のうち前記所定数よりも小さい別の所定数以上の特徴文字列が、前記基礎文書において所定距離内に位置すること、(3)前記被験文書において所定距離内に位置する複数の特徴文字列であって、前記別の所定数よりも小さいさらに別の所定数以上の特徴文字列が、前記基礎文書において所定距離内に位置すること、の少なくとも1つが満たされたとき、前記被験文書と前記基礎文書とが類似すると判定することを特徴とする著作物比較システム。
  3. 前記文字列取得部は、前記複数の特徴文字列のうち指定された特徴文字列を重要文字列として取得し、
    前記類似判定部は、前記重要文字列が前記基礎文書の中で検出され、かつ、前記複数の特徴文字列のうち前記所定数よりも小さい別の所定数以上の特徴文字列が前記基礎文書の中で検出されたとき、前記被験文書と前記基礎文書とが類似すると判定することを特徴とする請求項2に記載の著作物比較システム。
  4. 被験文書と、その被験文書と関連する基礎文書とを取得する文書取得部と、
    前記被験文書から、その被験文書のテーマとの関係において特徴的な文字列であって、互いに異なる複数の特徴文字列を取得する文字列取得部と、
    前記複数の特徴文字列のそれぞれを前記基礎文書の中で検出するとともに、検出した特徴文字列について前記基礎文書の中での位置を検出する文字列検出部と、
    前記複数の特徴文字列のそれぞれが前記基礎文書の中で検出された累計数を示す軸と、当該累計数が増加した前記基礎文書の中での位置を示す軸とからなる2次元平面上に、前記複数の特徴文字列の検出状況が描画されたグラフのデータを所定の出力装置に出力する検出状況出力部と、
    を備えることを特徴とする著作物比較システム。
JP2009054513A 2009-03-09 2009-03-09 著作物比較システム Active JP5373439B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009054513A JP5373439B2 (ja) 2009-03-09 2009-03-09 著作物比較システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009054513A JP5373439B2 (ja) 2009-03-09 2009-03-09 著作物比較システム

Publications (2)

Publication Number Publication Date
JP2010211354A JP2010211354A (ja) 2010-09-24
JP5373439B2 true JP5373439B2 (ja) 2013-12-18

Family

ID=42971478

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009054513A Active JP5373439B2 (ja) 2009-03-09 2009-03-09 著作物比較システム

Country Status (1)

Country Link
JP (1) JP5373439B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019190294A1 (ko) * 2018-03-30 2019-10-03 조영화 전자문서의 관계기반 저작관리방법 및 저작관리시스템
KR102322786B1 (ko) * 2018-03-30 2021-11-09 조영화 전자문서의 관계기반 저작관리방법 및 저작관리시스템

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09198409A (ja) * 1996-01-19 1997-07-31 Hitachi Ltd 酷似文書抽出方法
JP4344207B2 (ja) * 2003-09-19 2009-10-14 株式会社リコー 文書検索装置、文書検索方法、文書検索プログラム、および記録媒体
JP2006201926A (ja) * 2005-01-19 2006-08-03 Konica Minolta Holdings Inc 類似文書検索システム、類似文書検索方法、およびプログラム
JP4845575B2 (ja) * 2006-04-13 2011-12-28 日本放送協会 類似性評価装置及びプログラム

Also Published As

Publication number Publication date
JP2010211354A (ja) 2010-09-24

Similar Documents

Publication Publication Date Title
JP4926004B2 (ja) 文書処理装置、文書処理方法及び文書処理プログラム
JP4290011B2 (ja) ビューワ装置及びその制御方法、プログラム
CN101178725B (zh) 用于信息检索的设备和方法
JP4935658B2 (ja) ブラウザプログラムおよび情報処理装置
US20070185832A1 (en) Managing tasks for multiple file types
JP4666996B2 (ja) 電子ファイリングシステム、電子ファイリング方法
JP6262708B2 (ja) 深い検索性を有するオブジェクト化及びハードコピーからオリジナルの電子ファイルを検出するドキュメント検出方法
JP2008041003A (ja) 文書表示処理装置および文書表示処理プログラム
JP5373439B2 (ja) 著作物比較システム
JP2015018290A (ja) デジタル情報分析システム、デジタル情報分析方法、及びデジタル情報分析プログラム
JP2007011973A (ja) 情報検索装置及び情報検索プログラム
JP2009037604A (ja) 情報処理装置、情報処理方法およびプログラム
JP2007279978A (ja) 文書検索装置及び文書検索方法
JP5301862B2 (ja) 著作物比較システム
JP2007281673A (ja) 情報処理装置および情報処理プログラム
US20100188674A1 (en) Added image processing system, image processing apparatus, and added image getting-in method
JP2009087037A (ja) 文書管理装置、画像処理装置、文書登録方法およびプログラム並びに記録媒体
JP5223293B2 (ja) 位置表現抽出装置、方法及びプログラム
JP2004318766A (ja) 情報検索装置及びプログラム並びに記憶媒体
JP2009128929A (ja) 情報出力方法、情報出力装置、及び情報出力プログラム
JP2007028582A (ja) 文書管理システム、文書管理方法、文書管理プログラム
JP2011070453A (ja) 調達情報検索システム
JP2006039938A (ja) 選択項目表示装置、選択項目表示方法、および選択項目表示プログラム
JP2008059317A (ja) 文書管理装置、方法、コンピュータプログラムおよびプログラムを記録した記録媒体
JP5288569B2 (ja) 電子出版処理装置、電子出版処理方法、およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111213

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130528

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130708

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130910

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130919

R150 Certificate of patent or registration of utility model

Ref document number: 5373439

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250