JP2013543178A

JP2013543178A - 出版物のフィンガープリント抽出方法、出版物のフィンガープリント抽出装置、フィンガープリントを利用した出版物識別システム及びフィンガープリントを利用した出版物識別方法

Info

Publication number: JP2013543178A
Application number: JP2013533773A
Authority: JP
Inventors: ユン、ヤン、スク; パク、ジェ、ヒュン; リー、サン、クワン; キム、ジュン、ヒュン; スー、ヤン、ホ; ソ、ヨン、ソク; リー、スン、ジェ; キム、スン、ミン; リー、ジュン、ホ; ヨー、ウォン、ヤン
Original assignee: Electronics and Telecommunications Research Institute ETRI
Current assignee: Electronics and Telecommunications Research Institute ETRI
Priority date: 2010-10-14
Filing date: 2011-10-13
Publication date: 2013-11-28
Also published as: US20130290330A1; CN103154957A; KR101491446B1; KR20120038880A

Abstract

著作権侵害有無を容易に識別することができ、著作権を効果的に保護することができる出版物のフィンガープリント抽出方法、出版物のフィンガープリント抽出装置、フィンガープリントを利用した出版物識別システム及びフィンガープリントを利用した出版物識別方法が開示される。フィンガープリントを利用した出版物識別システムは、著作権侵害を識別するために収集された質疑出版物に対するフィンガープリントを抽出するフィンガープリント抽出装置と、フィンガープリント抽出装置から提供された質疑出版物に対するフィンガープリントに該当する原本出版物のフィンガープリントを質疑するフィンガープリント質疑装置と、原本出版物から抽出されたフィンガープリント及び原本出版物の付加情報が格納され、フィンガープリント質疑装置の質疑に相当して少なくとも１つの原本出版物のフィンガープリントで構成された検索結果候補群を提供するＤＢＭＳと、ＤＢＭＳから提供された検索結果候補群を検証し、質疑出版物の著作権侵害有無を判断する候補群検証装置とを含む。したがって、出版物の著作権侵害有無を容易に識別することができ、これにより、著作権侵害を予防することができる。

Description

本発明は、コンテンツ識別に関し、より詳細には、出版物のフィンガープリント抽出方法、出版物のフィンガープリント抽出装置、フィンガープリントを利用した出版物識別システム及びフィンガープリントを利用した出版物識別方法に関する。

テキスト及びイメージを含むコンテンツまたはデジタル化された出版物は、容易に複製され、インターネットやＰ２Ｐなどの多様な経路を通じて不法的に流布されている。このように不法流布されたコンテンツは、著作者に直接的に経済的損失を加えるだけでなく、間接的には著作者の創作意欲を低下させる主要原因になっている。

コンテンツの不法流通を防止し、著作権を保護するために、従来、コンテンツの販売または購買時に、認証された環境下でコンテンツ購買行為が行われるようにコンテンツをパッケージング及び暗号化するＤＲＭ（ＤｉｇｉｔａｌＲｉｇｈｔｓＭａｎａｇｅｍｅｎｔ）技術、コンテンツがハードディスクに格納されないようにするかまたはプリントされないように制限を設けるＤＰＰ（ＤｉｇｉｔａｌＰｒｏｐｅｒｔｙＰｒｏｔｅｃｔｉｏｎ）技術、コンテンツ内に販売者またはコンテンツ著作権者の情報を目立たないように挿入するウォーターマーキング（ｗａｔｅｒｍａｒｋｉｎｇ）技術などが使用されてきた。

図１は、ＤＲＭなどの保護装置が適用された一般的なコンテンツ保護方法を概略的に示す図である。
図１を参照すれば、コンテンツ提供者（ＣｏｎｔｅｎｔｓＰｒｏｖｉｄｅｒｓ）は、原本コンテンツと暗号化キーを利用してコンテンツを暗号化及びパッケージングした後、これを提供し、ユーザは、当該ＤＲＭサーバーに接続して購買認証手続を行うことによって、当該コンテンツを適法に購買する場合にのみ暗号を解読することができるキーと当該コンテンツを使用することができる使用許可（ｌｉｃｅｎｓｅ）を受けることができ、これにより、当該コンテンツを再生することができるようになる。

図１に示されたように、従来、コンテンツ提供者がＤＲＭなどの暗号化及びパッケージング方式の保護方法を適用してコンテンツ製作者の権利を保護して来、従来の著作権保護方法は、前述した方法の変形された形態で発展及び継勝されて来た。

従来の著作権保護方法は、暗号化あるいはパッケージング方式を利用してコンテンツの著作権を保護するようになる。しかし、暗号化されたコンテンツの暗号を解読するか、またはパッケージングされたコンテンツのパッケージングを解く場合には、コンテンツが不法で流布されることができる。例えば、特定電子本リーダー装置に適用されたＤＲＭがハッキングされ、前記電子本リーダー装置用電子出版物が無断で不法流布された事例がある。

また、最近、デジタルカメラ、スキャナ、コンピュータなどの技術発展及びイメージ処理技術の発展に伴い、アナログまたはデジタル出版物の複製がさらに容易で、精巧になっており、これにより、ユーザがアナログ出版物またはデジタル化された出版物から不法流出を目的にデジタルファイルを生成し、これを配布する場合、不法流通可否または著作権侵害有無を判断することがさらに難しくなっている。

したがって、従来のコンテンツ保護技術によって保護機能が適用されたコンテンツまたは出版物が悪意的なユーザによって保護機能が解除された場合にも、コンテンツ識別技術を利用して出版物の著作権侵害有無及び不法流通可否を判断することができ、著作権を効果的に保護することができる方法が必要である。

前述したような短所を克服するための本発明の目的は、著作権侵害有無を判別し、著作権を効果的に保護することができるように出版物を容易に識別することができる出版物のフィンガープリント抽出方法を提供することにある。

また、本発明の他の目的は、前記出版物のフィンガープリント抽出方法を行うフィンガープリント抽出装置を提供することにある。

また、本発明のさらに他の目的は、出版物を容易に識別することができ、著作権を効果的に保護することができるフィンガープリントを利用した出版物識別システムを提供することにある。

また、本発明のさらに他の目的は、前記フィンガープリントを利用した出版物識別システムの動作方法を提供することにある。

前述した本発明の目的を達成するために、本発明の一態様によるフィンガープリント抽出方法は、入力されたテキスト形式の電子文書からテキストを抽出する段階と、前記抽出されたテキストからテキストフィンガープリントを抽出する段階とを含む。

前記入力されたテキスト形式の電子文書からテキストを抽出する段階は、前記入力されたテキスト形式の電子文書に対して前処理を行った後、前記入力されたテキスト形式の電子文書からテキストを抽出することができる。

前記入力されたテキスト形式の電子文書に対する前処理は、誤打訂正または文字復元を含むことができる。

また、本発明の目的を達成するために、本発明の他の態様によるフィンガープリント抽出方法は、イメージ形態の電子文書が入力される段階と、入力された前記イメージ形態の電子文書がテキスト基盤電子文書である場合、前記入力されたイメージ形態の電子文書をテキスト形態の電子文書に変換する段階と、前記変換されたテキスト形態の電子文書からテキストを抽出する段階と、前記抽出されたテキストからテキストフィンガープリントを抽出する段階とを含む。

前記イメージ形態の電子文書が入力される段階は、前記イメージ形態の電子文書が入力された後、前記イメージ形態の電子文書に対する前処理を行う段階を含むことができる。

前記イメージ形態の電子文書に対する前処理を行う段階は、前記イメージ形態の電子文書に含まれた雑音除去、ページ分離、イメージ回転及びイメージの勾配調整のうち少なくとも１つの処理を行うことができる。

前記出版物のフィンガープリント抽出方法は、前記入力された前記イメージ形態の電子文書がイメージ基盤電子文書である場合には、前記入力されたイメージ形態の電子文書に対する前処理を行う段階と、前記前処理が行われたイメージ形態の電子文書からイメージフィンガープリントを抽出する段階とをさらに含むことができる。

また、本発明の他の目的を達成するために、本発明の一態様によるフィンガープリント抽出装置は、入力されたイメージ形態の電子文書をテキスト形態の電子文書に変換するイメージテキスト変換部と、前記テキスト形態の電子文書からテキストを抽出するテキスト抽出部と、前記抽出されたテキストからテキストフィンガープリントを抽出するフィンガープリント抽出部とを含む。

前記出版物のフィンガープリント抽出装置は、前記入力されたイメージ形態の電子文書に含まれた雑音除去、ページ分離、イメージ回転及びイメージの勾配調整のうち少なくとも１つの処理を行うイメージ前処理部をさらに含むことができる。

前記フィンガープリント抽出部は、前記イメージ前処理部から提供された前処理されたイメージからイメージフィンガープリントを抽出することができる。

前記出版物のフィンガープリント抽出装置は、前記イメージテキスト変換部から提供された前記テキスト形態の電子文書または入力されたテキスト形態の電子文書に対して前処理を行った後、前記テキスト抽出部に提供するテキスト前処理部をさらに含むことができる。

また、本発明のさらに他の目的を達成するために、本発明の一態様によるフィンガープリントを利用した出版物識別システムは、原本出版物のフィンガープリントを抽出するフィンガープリント抽出装置と、前記フィンガープリント抽出装置から提供された原本出版物のフィンガープリントと前記原本出版物の付加情報を連携して格納する出版物情報構築装置と、前記原本出版物から抽出されたフィンガープリント及び前記原本出版物の付加情報が格納されるＤＢＭＳ（ＤａｔａＢａｓｅＭａｎａｇｅｍｅｎｔＳｙｓｔｅｍ）とを含む。

前記フィンガープリント抽出装置は、前記原本出版物または質疑出版物がテキスト形式の電子文書である場合には、前記テキスト形式の電子文書からテキストを抽出した後、抽出されたテキストからテキストフィンガープリントを抽出し、前記原本出版物または前記質疑出版物がイメージ形態の電子文書である場合には、イメージ形態の電子文書をテキスト形態の電子文書に変換した後、変換されたテキスト形態の電子文書からテキストを抽出し、抽出されたテキストからテキストフィンガープリントを抽出することができる。

前記フィンガープリント抽出装置は、前記原本出版物または前記質疑出版物がイメージ形態の電子文書である場合には、前記イメージ形態の電子文書に対する前処理を行った後、前処理が行われたイメージ形態の電子文書からイメージフィンガープリントを抽出することができる。

前記原本出版物の付加情報は、原本出版物の製作者、出版社、題目、要約、発行日、ＩＳＢＮ、住所、電話番号及びファックス番号のうち少なくとも１つの情報を含むことができる。

また、本発明のさらに他の目的を達成するために、本発明の他の態様によるフィンガープリントを利用した出版物識別システムは、識別するために収集された質疑出版物に対するフィンガープリントを抽出するフィンガープリント抽出装置と、前記フィンガープリント抽出装置から提供された前記質疑出版物に対するフィンガープリントに該当する原本出版物のフィンガープリントを質疑するフィンガープリント質疑装置と、原本出版物から抽出されたフィンガープリント及び前記原本出版物の付加情報が格納され、前記フィンガープリント質疑装置の質疑に相当して少なくとも１つの原本出版物のフィンガープリントで構成された検索結果候補群を提供するＤＢＭＳ（ＤａｔａＢａｓｅＭａｎａｇｅｍｅｎｔＳｙｓｔｅｍ）と、前記ＤＢＭＳから提供された検索結果候補群を検証し、前記質疑出版物の著作権侵害有無を判断する候補群検証装置とを含む。

前記候補群検証装置は、前記検索結果候補群と前記質疑出版物のフィンガープリントを比較し、比較結果に基づいて前記質疑出版物を識別することができる。

前記候補群検証装置は、前記質疑出版物がＤＢＭＳ内部に存在する出版物として判断される場合、前記質疑出版物に該当する付加情報を前記ＤＢＭＳから獲得して提供することができる。

また、本発明のさらに他の目的を達成するために、本発明の一態様によるフィンガープリントを利用した出版物識別方法は、収集された質疑出版物に対するフィンガープリントを抽出する段階と、前記収集された質疑出版物から抽出されたフィンガープリントと対応する原本出版物のフィンガープリントをＤＢＭＳから検索する段階と、少なくとも１つの検索結果に基づいて前記収集された質疑出版物の著作権侵害有無を識別する段階とを含む。

前記少なくとも１つの検索結果に基づいて前記収集された質疑出版物を識別する段階は、前記少なくとも１つの検索結果を前記質疑出版物のフィンガープリントと比較した比較結果に基づいて前記質疑出版物を識別することができる。

前記フィンガープリントを利用した出版物識別方法は、前記収集された質疑出版物を識別した結果、前記質疑出版物が原本出版物と同一であると判別される場合、前記ＤＢＭＳから前記質疑出版物に対応する付加情報を獲得する段階をさらに含むことができる。

前述したような出版物のフィンガープリント抽出方法、出版物のフィンガープリント抽出装置、フィンガープリントを利用した出版物識別システム及びフィンガープリントを利用した出版物識別方法によれば、原本出版物を利用してフィンガープリントを抽出し、出版物のメタデータ情報と連携して管理し、質疑出版物のフィンガープリントを抽出し、未知の出版物の情報を識別することができる。また、識別された出版物の情報を活用して出版物の不法流布可否または著作権侵害有無を判断する。

したがって、出版物を直接タイピングするかスキャンするか、またはカメラでキャップチャしてデジタル化された出版物に変形された場合またはＤＲＭなどの各種保護装置が解除されるかシステム管理者が接近権限を利用して原本に準するデジタル出版物に変形して不法流布する場合にも、これを容易に識別することができ、これにより、出版物の不法流布や流通を減少させ、著作権の侵害を予防することができる。

また、本発明の一実施例によるフィンガープリントを利用した出版物識別システムは、出版物の一部情報（例えば、数ページ程度の出版物）を入力し、本来出版物の情報を検索する用途に活用されることもできる。

図１は、ＤＲＭなどの保護装置が適用された一般的なコンテンツ保護方法を概略的に示す図である。図２は、出版物の著作権保護のための技術の例を示す図である。図３は、電子文書形態でテキストフィンガープリントを抽出する方法を示す流れ図である。図４は、イメージ形態の出版物でテキストフィンガープリントを抽出する方法を示す流れ図である。図５は、イメージ形態の出版物でイメージフィンガープリントを抽出する方法を示す流れ図である。図６は、本発明の一実施例による出版物のフィンガープリンティング抽出方法を示す流れ図である。図７は、本発明の一実施例による出版物のフィンガープリント抽出装置の構成を示すブロック図である。図８は、本発明の一実施例による出版物識別システムの構成を示すブロック図である。図９は、本発明の他の実施例による出版物識別システムの構成を示すブロック図である。図１０は、本発明の一実施例による出版物識別システムの出版物識別方法を示す流れ図である。

本発明は、多様な変更を行うことができ、さまざまな実施例を有することができるところ、特定の実施例を図面に例示し、詳細に説明する。

しかし、これは、本発明を特定の実施形態に限定しようとするものではなく、本発明の思想及び技術範囲に含まれるすべての変更、均等物ないし代替物を含むものと理解しなければならない。

本出願において使用した用語は、ただ特定の実施例を説明するために使用されたもので、本発明を限定しようとする意図ではない。単数の表現は、文脈上明白に異なって意味しない限り、複数の表現を含む。本出願において、“含む”または“有する”などの用語は、明細書上に記載した特徴、数字、段階、動作、構成要素、部品またはこれらを組み合わせたものが存在することを指定しようとするものであって、１つまたはそれ以上の他の特徴や数字、段階、動作、構成要素、部品またはこれらを組み合わせたものなどの存在または付加可能性をあらかじめ排除しないものと理解しなければならない。

異なって定義されない限り、技術的または科学的な用語を含んでここで使用されるすべての用語は、本発明の属する技術分野における通常の知識を有する者によって一般的に理解されるものと同一の意味を有している。一般的に使用される辞書に定義されているもののような用語は、関連技術の文脈上有する意味と一致する意味を有するものと解釈しなければならないし、本出願において明白に定義しない限り、理想的または過度に形式的な意味に解釈されない。

以下、添付の図面を参照して、本発明の好ましい実施例をさらに詳細に説明する。本発明を説明するにあたって、全体的な理解を容易にするために、図面上の同一の構成要素については、同一の参照符号を使用し、同一の構成要素について重複説明を省略する。

出版物を不法配布するためのデジタル化方法は、大きく４つに区分することができる。
第一に、出版物製作者が出版物を格納した格納媒体を紛失するか、または管理をおろそかにした場合、出版社にデジタルファイル形態で提供された出版物ファイルが流出された場合またはＤＲＭが解除されてファイルが流出された場合などにより原本コンテンツ自体が流出される場合である。

第二に、本などの形態で印刷した出版物をユーザが直接タイピングしてデジタル化した場合である。このような場合には、印刷した出版物が電子文書形態に変換されるので、大量印刷などを通じて良い品質の海賊版出版物が量産されることができる。

第三に、小説、雑誌またはマンガ本などの形態で印刷した出版物をユーザがスキャナにスキャンしてデジタル化した場合である。ここで、ユーザは、印刷した出版物を分解し、スキャナの自動入力装置を使用するか、自動で出版物をめくる装置を使用するか、手で直接出版物をめくりながら印刷した出版物をスキャンしてイメージ形態で格納することによって、出版物をデジタル化することができる。

第四に、印刷された出版物をユーザがカメラを利用してキャップチャしてデジタル化する場合である。このような場合、デジタル化されたファイルはイメージ形態で格納され、キャップチャするユーザの熟練度によって品質の差異が発生することができる。

したがって、前述したような出版物を不法配布するための４つのデジタル化方法に対応する著作権保護技術が要求される。

図２は、出版物の著作権保護のための技術の例を示すものである。
図２に示されたように、出版物の著作権を保護するための技術は、大きく３つに分類することができる。

まず、出版物で読者に情報を提供する手段は、大きく、テキストとイメージがある。テキストは、小説冊などの出版物において情報を伝達する主要手段であり、イメージは、雑誌やマンガ本などの出版物において情報を伝達する主要手段になる。

前述した出版物を不法配布するためのデジタル化方法のうち第一及び第二の方法は、テキスト基盤の電子文書形態でデジタル化する方法なので、電子文書形態でテキストフィンガープリント基盤の出版物識別技術が必要である。

また、前述した出版物を不法配布するためのデジタル方法のうち第三及び第四方法は、イメージ形態で出版物がデジタル化される。ここで、イメージ形態でデジタル化された出版物が小説冊などのようにテキスト基盤出版物である場合には、イメージファイル形態でテキストフィンガープリント基盤の出版物識別技術が必要であり、イメージ形態でデジタル化された出版物が雑誌やマンガ本などのようにイメージ基盤出版物である場合には、イメージファイル形態でイメージフィンガープリント基盤の出版物識別技術が必要である。ここで、フィンガープリントというのは、当該コンテンツあるいは出版物の固有な特徴情報を示すもので、特徴点あるいはＤＮＡと呼ばれたりする。

図３は、電子文書形態でテキストフィンガープリントを抽出する方法を示す流れ図である。
以下、本発明の実施例において電子文書形態というのは、コンピュータなどを含む情報処理装置で多様な文書作成プログラムを利用して作成されてテキスト形式で格納された文書ファイル（例えば、ＴＸＴ、ハングルファイル、ワードファイル、テキスト形式で格納されたＰＤＦファイル）を指称する。

まず、フィンガープリント抽出装置にテキスト文書が入力されれば（段階３１０）、フィンガープリント抽出装置は、入力されたテキスト文書からテキスト抽出が円滑に行われるようにするために、テキスト前処理を行う（段階３２０）。ここで、入力されるテキスト文書は、前述したように、多様な文書作成プログラムを利用して作成された電子文書になることができる。また、前記テキスト前処理過程は、誤打訂正やエラーに起因して非正常的な形態を有する文字を復元する処理過程などを含むことができ、必ず行われる必要はなく、必要な場合にのみ選択的に行われることができる。

その後、フィンガープリント抽出装置は、フィンガープリント抽出のためにテキスト前処理を経たテキスト文書に対して出版物の情報伝達手段であるテキストのみを抽出する（段階３３０）。
フィンガープリント抽出装置は、段階３３０の実行を通じて抽出されたテキストに対してフィンガープリントを抽出することによって、テキスト基盤電子文書形態の出版物に対するフィンガープリントを抽出する（段階３４０）。

図４は、イメージ形態の出版物でテキストフィンガープリントを抽出する方法を示す流れ図である。
まず、フィンガープリント抽出装置にスキャナでスキャンされるか、またはカメラでキャップチャされたイメージファイル形態の文書が入力されれば（段階４１０）、フィンガープリント抽出装置は、入力されたイメージファイル形態の文書に対してＯＣＲ（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ）性能を向上させることができるようにイメージ前処理を行う（段階４２０）。ここで、イメージファイル形態は、商用イメージビューアーを通じて表示されることができる形態のイメージファイルを意味し、イメージ前処理は、イメージ形態の文書に対してＯＣＲを適用する場合、テキスト認識性能を低下させることができる要素を処理する過程であって、雑音除去、ページ分離、回転、勾配調整などの処理過程を含むことができる。

その後、フィンガープリント抽出装置は、前処理が行われたイメージファイル形態の文書に対してＯＣＲを行い、イメージファイル形態の文書をテキスト形態の電子文書形態に変換する（段階４３０）。ここで、ＯＣＲを通じてテキストに変換された電子文書には、ＯＣＲ性能の限界として誤認識された非正常的な形態の文字（または雑音）が含まれることができるので、これを除去するための処理過程が必要である。

したがって、フィンガープリント抽出装置は、段階４３０の実行を通じて変換されたテキスト形態の電子文書に対して前述したような非正常的な形態の文字または雑音を除去するための前処理過程を行う（段階４４０）。

その後、フィンガープリント抽出装置は、前処理されたテキスト形態の電子文書でテキストを抽出し（段階４５０）、抽出したテキストに対してテキストフィンガープリントを抽出する（段階４６０）。

段階４４０〜段階４６０のテキスト前処理過程、テキスト抽出過程及びテキストフィンガープリント抽出過程は、段階４３０で行われたＯＣＲの認識アルゴリズム及び性能に相当して行われることが好ましい。

すなわち、図３に示した段階３２０〜段階３４０は、図４に示した段階４４０〜段階４６０とそれぞれ同一の機能を行うが、図３に示したフィンガープリント抽出過程は、比較的雑音が少ないテキスト形態の電子文書に対してフィンガープリントを抽出するのに対し、図４に示したフィンガープリント抽出過程では、入力されたイメージファイル形態の文書をＯＣＲを経てテキスト形態の電子文書に変換した後、フィンガープリントを抽出するので、ＯＣＲの認識性能によって変換された電子文書に雑音が含まれる確率が大きくなる。

したがって、図４に示されたフィンガープリント抽出方法を行うフィンガープリント抽出装置は、図３に示されたフィンガープリント抽出方法を行うフィンガープリント抽出装置より雑音にさらに強靭なフィンガープリント抽出装置が使用されることが好ましく、図４に示されたフィンガープリント抽出方法を行うフィンガープリント抽出装置が雑音に強靭な装置が使用される場合、図３に示されたフィンガープリント抽出過程は、図４に含まれることができる。

図５は、イメージ形態の出版物でイメージフィンガープリントを抽出する方法を示す流れ図である。
前述したように、雑誌やマンガ本などの出版物では、イメージが情報を伝達する主要手段になる。したがって、前述したように情報を伝達する手段としてイメージが使用される出版物に対しては、著作権保護のためにイメージフィンガープリントを抽出する。

図５を参照すれば、まず、フィンガープリント抽出装置は、スキャナを通じてスキャンされるかまたはカメラを通じてキャップチャされたイメージ形態の文書が入力されれば（段階５１０）、入力されたイメージ形態の文書でフィンガープリントを効果的に抽出することができるように前処理を行う（段階５２０）。ここで、前処理過程は、イメージフィンガープリント抽出を邪魔することができる要素を除去する過程を含み、例えば、雑音除去、ページ分離、回転、勾配調整などの処理を含むことができる。

その後、フィンガープリント抽出装置は、前処理されたイメージからイメージフィンガープリントを抽出する（段階５３０）。

図６は、本発明の一実施例による出版物のフィンガープリンティング抽出方法を示す流れ図であって、前述した図２〜図５の内容を総合したものである。

図６を参照すれば、まず、フィンガープリント抽出のためのデジタル化された出版物がフィンガープリント抽出装置に入力されれば、フィンガープリント抽出装置は、入力されたデジタル化された出版物がイメージファイルであるかまたはテキストファイルであるかを判断し（段階６１０）、イメージファイルである場合には、イメージに対する前処理を行う（段階６２０）。ここで、イメージ前処理は、イメージ形態の文書に対してＯＣＲを適用する場合、テキスト認識性能を低下させることができる要素またはイメージフィンガープリント抽出を邪魔することができる要素を除去する過程であって、雑音除去、ページ分離、回転、勾配調整などの処理過程を含むことができる。

その後、フィンガープリント抽出装置は、前処理されたイメージがイメージ形態のテキストであるかを判断し（段階６３０）、イメージ形態のテキストとして判断される場合には、ＯＣＲを行い、イメージ形態のテキストをテキスト形態の電子文書に変換する（段階６４０）。ここで、ＯＣＲを通じてテキストに変換された電子文書には、ＯＣＲ過程で認識性能の限界として誤認識された非正常的な形態の文字（または雑音）が含まれることができるので、これを除去するための処理過程が必要である。

フィンガープリント抽出装置は、段階６４０の実行を通じて変換されたテキスト形態の電子文書に対して前述したような非正常的な形態の文字または雑音を除去するためのテキスト前処理過程を行う（段階６５０）。

その後、フィンガープリント抽出装置は、前処理されたテキスト形態の電子文書でテキストを抽出し（段階６６０）、抽出したテキストに対してテキストフィンガープリントを抽出する（段階６７０）。

または、図６の段階６１０で、判断結果入力されたデジタル化された出版物がテキスト文書であると判断されれば、フィンガープリント抽出装置は、段階６２０〜６４０を行うことなく、段階６５０に進行し、段階６５０〜段階６７０を順次に行う。

また、図６の段階６３０で前処理されたイメージがイメージ形態のテキストではなく、雑誌やマンガなどのようなイメージである場合、フィンガープリント抽出装置は、段階６４０〜６７０を行うことなく、段階６８０に進行し、前処理されたイメージからイメージフィンガープリントを抽出する（段階６８０）。

図７は、本発明の一実施例による出版物のフィンガープリント抽出装置の構成を示すブロック図である。

図７を参照すれば、本発明の一実施例によるフィンガープリント抽出装置７００は、制御部７１０、イメージ前処理部７２０、イメージ−テキスト変換部７３０、テキスト前処理部７４０、テキスト抽出部７５０及びフィンガープリント抽出部７６０を含むことができる。

制御部７１０は、入力されたデジタル化された出版物の種類を判断し、判断結果によって入力されたデジタル化された出版物をイメージ前処理部７２０またはテキスト前処理部７４０に提供する。

例えば、制御部７１０は、入力された出版物がスキャナでスキャンされるか、またはカメラでキャップチャされたイメージ形態の電子文書である場合には、イメージ前処理部に提供し、入力された出版物がテキスト形態の電子文書である場合には、テキスト前処理部７４０に提供する。

また、制御部７１０は、前述した機能以外にも、フィンガープリント抽出装置を構成する他の構成要素の動作を制御することができる。

イメージ前処理部７２０は、制御部７１０から提供されたイメージ形態の電子文書に対してＯＣＲの認識性能を向上させることができるように、雑音除去、ページ分離、回転、勾配調整などの前処理を行った後、前処理が行われたイメージの種類を判断し、前処理が行われたイメージがテキストで構成されたイメージ形態の電子文書である場合には、イメージ−テキスト変換部７３０に提供し、前処理が行われたイメージが雑誌またはマンガなどのようにイメージで構成された場合には、フィンガープリント抽出部７６０に提供する。

イメージ−テキスト変換部７３０は、ＯＣＲで構成されることができ、イメージ前処理部７２０から提供された前処理されたイメージをテキスト形態の電子文書に変換した後、変換されたテキスト形態の電子文書をテキスト抽出部７５０に提供する。

テキスト前処理部７４０は、テキスト前処理部７４０または制御部７１０から提供されたテキスト形態の電子文書に対して非正常的な形態の文字または雑音を除去するための前処理過程を行った後、前処理されたテキスト形態の電子文書をテキスト抽出部７５０に提供する。

テキスト抽出部７５０は、テキスト前処理部７４０から前処理されたテキスト形態の電子文書を提供され、提供された電子文書から出版物の情報伝達手段であるテキストを抽出した後、フィンガープリント抽出部７６０に提供する。

フィンガープリント抽出部７６０は、イメージ前処理部７２０から提供された前処理されたイメージでイメージフィンガープリントを抽出するか、またはテキスト抽出部７５０から提供されたテキストでテキストフィンガープリントを抽出する。ここで、フィンガープリント抽出部７２０は、公知されたフィンガープリント抽出技術を利用してイメージまたはテキストからフィンガープリントを抽出することができる。

具体的に、フィンガープリント抽出部７６０は、イメージフィンガープリント抽出モジュール７６１及びテキストフィンガープリント抽出モジュール７６３を含むことができ、イメージフィンガープリント抽出モジュール７６１は、イメージ前処理部７２０から提供された前処理されたイメージでイメージフィンガープリントを抽出し、テキストフィンガープリント抽出モジュール７６３は、テキスト抽出部７５０から提供されたテキストでフィンガープリントを抽出する。

図６及び図７に示された本発明の一実施例による出版物のフィンガープリント抽出方法及び装置は、原本出版物のフィンガープリントを抽出するために使用されることもでき、インターネットを通じて検索されるか、または収集された不法流布された出版物のフィンガープリントを抽出するために使用されることもでき、情報を知りたい任意の出版物のフィンガープリントを抽出するために使用されることもできる。また、本発明の一実施例による出版物のフィンガープリント抽出方法及び装置は、質疑出版物のフィンガープリントを抽出する用途に使用されることもできる。

図８は、本発明の一実施例による出版物識別システムの構成を示すブロック図であって、出版物著作権者または出版物提供者から著作権の保護のために出版物の原本が提供された場合、出版物のフィンガープリントを利用してデータベースを構築するシステムを例示して図示した。

図８を参照すれば、本発明の一実施例による出版物識別システムは、フィンガープリント抽出装置７００、出版物情報構築装置８１０及びＤＢＭＳ（ＤａｔａＢａｓｅＭａｎａｇｅｍｅｎｔＳｙｓｔｅｍ）８３０を含むことができる。

フィンガープリント抽出装置７００は、図７に示されたものと同一の構成を有し、図６に示されたフィンガープリント抽出方法を実行し、原本出版物のフィンガープリントを抽出した後、抽出された原本出版物のフィンガープリントを出版物情報構築装置８１０に提供する。

出版物情報構築装置８１０は、フィンガープリント抽出装置７００から原本出版物のフィンガープリントを提供され、出版物著作権者または出版物提供者から原本出版物の情報を提供された後、原本出版物のフィンガープリントと原本出版物の情報を連携させてＤＢＭＳ８３０に提供し、これを管理する。ここで、原本出版物の情報は、原本出版物の製作者、出版社、題目、要約、発行日、ＩＳＢＮ（ＩｎｔｅｒｎａｔｉｏｎａｌＳｔａｎｄａｒｄＢｏｏｋＮｕｍｂｅｒ）、住所、電話番号、ファックス番号などの原本出版物と関連した多様な情報を含むことができる。

また、出版物情報構築装置８１０は、出版物の管理のために原本出版物をＤＢＭＳ８３０に格納することもでき、保安が要求される場合、出版物の全体または一部を暗号化し、ＤＢＭＳ８３０に格納することもできる。

ＤＢＭＳ８３０は、出版物情報構築装置８１０から提供された原本出版物のフィンガープリント及びこれと連携された出版物情報を格納する。また、ＤＢＭＳ８３０は、出版物情報構築装置８１０の提供によって原本出版物を格納することもできる。

図９は、本発明の他の実施例による出版物識別システムの構成を示すブロック図である。
デジタル出版物のファイルまたはデジタル化された出版物ファイルは、インターネットなどを通じて容易に流布することができる。例えば、出版物ファイルは、Ｐ２Ｐ、トレント、ウェブハード、カフェー、ブログなどのように多様なインターネット経路を通じて流布されることができる。また、デジタルファイルの特性によってデジタル出版物またはデジタル化された出版物は、コピー及び移動が容易なので、携帯用格納装置や携帯用端末などを通じて流布されることができる。

図９に示された本発明の他の実施例による出版物識別システムは、前述したように、多様な経路を通じて不法流布された出版物または著作権侵害出版物を識別するか、または知りたい出版物を識別するために使用される。

図９を参照すれば、本発明の一実施例による出版物識別システムは、フィンガープリント抽出装置７００、フィンガープリント質疑装置８２０、ＤＢＭＳ８３０及び候補群検証装置８４０を含むことができる。

フィンガープリント抽出装置７００は、図７に示されたものと同一の構成を有し、図６に示されたフィンガープリント抽出方法を行う。フィンガープリント抽出装置７００は、出版物の不法流通または著作権侵害有無を識別するために多様な経路を通じて検索及び収集された質疑出版物のフィンガープリントを抽出した後、抽出されたフィンガープリントをフィンガープリント質疑装置８２０に提供する。

フィンガープリント質疑装置８２０は、フィンガープリント抽出装置７００から提供された質疑出版物のフィンガープリントをＤＢＭＳ８３０に質疑する。また、フィンガープリント質疑装置８２０は、フィンガープリント抽出装置７００から提供された質疑出版物のフィンガープリントを候補群検証装置８４０に提供する。

ＤＢＭＳ８３０は、フィンガープリント質疑装置８２０から質疑出版物のフィンガープリントを提供され、これに対応するフィンガープリントをデータベースで検索した後、検索された少なくとも１つの検索結果候補群を候補群検証装置８４０に提供する。ここで、前記検索結果候補群は、前記質疑出版物のフィンガープリントと類似する少なくとも１つの原本出版物のフィンガープリント及び当該出版物の情報を含むことができる。

候補群検証装置８４０は、ＤＢＭＳ８３０から提供された検索結果候補群を検証し、質疑出版物の不法流布または著作権侵害有無を判別する。

例えば、候補群検証装置８４０は、ＤＢＭＳ８３０から提供された検索結果候補群とフィンガープリント質疑装置８２０から提供された質疑出版物のフィンガープリントを比較し、質疑出版物の不法流布または著作権侵害有無を判別することができる。また、候補群検証装置８４０は、不法流布または著作権が侵害された出版物の情報をＤＢＭＳ８３０から獲得し、当該機関または管理者に提供することもできる。

図８及び図９に示された出版物識別システムにおいてフィンガープリント抽出装置は、出版物のフィンガープリントを抽出するために多い処理時間を要求するので、システムの負荷を減少させるためにクラウドコンピューティング概念を利用してフィンガープリント抽出装置を分散させて構成することができる。また、出版物識別システムの性能を向上させ、全体的な負荷を減少させるために、ハッシュなどの技術を利用して一度検索されたファイルは別に処理し、さらに検索する過程を防止する技術を利用することもできる。

図１０は、本発明の一実施例による出版物識別システムの出版物識別方法を示す流れ図である。
図１０を参照すれば、まず、出版物識別システムは、不法流通されるか、または著作権を侵害するものと疑心される出版物を質疑出版物として検索及び収集し（段階１０１０）、収集された質疑出版物のフィンガープリントを抽出する（段階１０２０）。

その後、出版物識別システムは、抽出されたフィンガープリントに対応する出版物をＤＢＭＳに質疑し（段階１０３０）、ＤＢＭＳから当該検索結果候補群を獲得する（段階１０４０）。ここで、ＤＢＭＳから獲得した検索結果候補群は、質疑出版物のフィンガープリントに対応する少なくとも１つの出版物のフィンガープリントを含むことができる。

その後、出版物識別システムは、獲得した検索結果候補群に対する検証を行い、不法流布（または流通）されるか、著作権が侵害されたものと判断される当該出版物を識別する（段階１０５０）。ここで、出版物識別システムは、段階１０２０の実行を通じて抽出されたフィンガープリントとＤＢＭＳから提供されたフィンガープリントを比較した結果に基づいて当該出版物を識別することができる。

その後、出版物識別システムは、不法流布または著作権が侵害された出版物の情報をＤＢＭＳから獲得し、獲得した情報を提供する（段階１０６０）。

前述したように、本発明の一実施例による出版物識別システムは、あらかじめ著作権保護を要請した出版物に対して原本出版物を利用してフィンガープリントを抽出し、出版物のメタデータ情報と連携して管理することによって、出版物の識別及び著作権保護のためのシステムを構築し、出版物のフィンガープリントを利用して不法流布されるかまたは著作権が侵害された出版物を識別することによって、著作権を保護することができる。

また、本発明はフィンガープリントを利用して暗号化及びパッケージング方法が解除された状況で不法流通を遮断し、以後に当該出版物がオンライン上に無断で流布された場合に、適切な保護措置を取ることができるようにする。

また、本発明の一実施例によるフィンガープリントを利用した出版物識別システムは、出版物の一部情報（例えば、数ページ程度の出版物）を入力し、本来出版物の情報を検索する目的にも活用されることもできる。これは、本発明の一実施例による出版物識別システムがコンテンツ固有の情報を示す特徴点を利用したフィンガープリントを利用することによって可能になる。

以上実施例を参照して説明したが、当該技術分野の熟練された当業者は、下記の特許請求の範囲に記載された本発明の思想及び領域から逸脱しない範囲内で本発明を多様に修正及び変更させることができることを理解することができる。

Claims

入力されたテキスト形式の電子文書からテキストを抽出する段階と、
前記抽出されたテキストからテキストフィンガープリントを抽出する段階と、を含む出版物のフィンガープリント抽出方法。
前記入力されたテキスト形式の電子文書からテキストを抽出する段階は、
前記入力されたテキスト形式の電子文書に対して前処理を行った後、前記入力されたテキスト形式の電子文書からテキストを抽出することを特徴とする請求項１に記載の出版物のフィンガープリント抽出方法。
前記入力されたテキスト形式の電子文書に対する前処理は、誤打訂正または文字復元を含むことを特徴とする請求項２に記載の出版物のフィンガープリント抽出方法。
イメージ形態の電子文書が入力される段階と、
入力された前記イメージ形態の電子文書がテキスト基盤電子文書である場合、前記入力されたイメージ形態の電子文書をテキスト形態の電子文書に変換する段階と、
前記変換されたテキスト形態の電子文書からテキストを抽出する段階と、
前記抽出されたテキストからテキストフィンガープリントを抽出する段階と、を含む出版物のフィンガープリント抽出方法。
前記イメージ形態の電子文書が入力される段階は、
前記イメージ形態の電子文書が入力された後、前記イメージ形態の電子文書に対する前処理を行う段階を含むことを特徴とする請求項４に記載の出版物のフィンガープリント抽出方法。
前記イメージ形態の電子文書に対する前処理を行う段階は、
前記イメージ形態の電子文書に含まれた雑音除去、ページ分離、イメージ回転及びイメージの勾配調整のうち少なくとも１つの処理を行うことを特徴とする請求項５に記載の出版物のフィンガープリント抽出方法。
前記出版物のフィンガープリント抽出方法は、
前記入力された前記イメージ形態の電子文書がイメージ基盤電子文書である場合には、
前記入力されたイメージ形態の電子文書に対する前処理を行う段階と、
前記前処理が行われたイメージ形態の電子文書からイメージフィンガープリントを抽出する段階と、をさらに含むことを特徴とする請求項４に記載の出版物のフィンガープリント抽出方法。
前記変換されたテキスト形態の電子文書からテキストを抽出する段階は、
前記変換されたテキスト形式の電子文書に対して前処理を行った後、前記変換されたテキスト形式の電子文書からテキストを抽出することを特徴とする請求項４に記載の出版物のフィンガープリント抽出方法。
入力されたイメージ形態の電子文書をテキスト形態の電子文書に変換するイメージテキスト変換部と、
前記テキスト形態の電子文書からテキストを抽出するテキスト抽出部と、
前記抽出されたテキストからテキストフィンガープリントを抽出するフィンガープリント抽出部と、を含む出版物のフィンガープリント抽出装置。
前記出版物のフィンガープリント抽出装置は、
前記入力されたイメージ形態の電子文書に含まれた雑音除去、ページ分離、イメージ回転及びイメージの勾配調整のうち少なくとも１つの処理を行うイメージ前処理部をさらに含むことを特徴とする請求項９に記載の出版物のフィンガープリント抽出装置。
前記フィンガープリント抽出部は、
前記イメージ前処理部から提供された前処理されたイメージからイメージフィンガープリントを抽出することを特徴とする請求項１０に記載の出版物のフィンガープリント抽出装置。
前記出版物のフィンガープリント抽出装置は、
前記イメージテキスト変換部から提供された前記テキスト形態の電子文書または入力されたテキスト形態の電子文書に対して前処理を行った後、前記テキスト抽出部に提供するテキスト前処理部をさらに含むことを特徴とする請求項９に記載の出版物のフィンガープリント抽出装置。
原本出版物のフィンガープリントを抽出するフィンガープリント抽出装置と、
前記フィンガープリント抽出装置から提供された原本出版物のフィンガープリントと前記原本出版物の付加情報を連携して格納する出版物情報構築装置と、
前記原本出版物から抽出されたフィンガープリント及び前記原本出版物の付加情報が格納されるＤＢＭＳ（ＤａｔａＢａｓｅＭａｎａｇｅｍｅｎｔＳｙｓｔｅｍ）と、を含むフィンガープリントを利用した出版物識別システム。
前記フィンガープリント抽出装置は、
前記原本出版物または質疑出版物がテキスト形式の電子文書である場合には、前記テキスト形式の電子文書からテキストを抽出した後、抽出されたテキストからテキストフィンガープリントを抽出し、前記原本出版物または前記質疑出版物がイメージ形態の電子文書である場合には、イメージ形態の電子文書をテキスト形態の電子文書に変換した後、変換されたテキスト形態の電子文書からテキストを抽出し、抽出されたテキストからテキストフィンガープリントを抽出することを特徴とする請求項１３に記載のフィンガープリントを利用した出版物識別システム。
前記フィンガープリント抽出装置は、
前記原本出版物または前記質疑出版物がイメージ形態の電子文書である場合には、前記イメージ形態の電子文書に対する前処理を行った後、前処理が行われたイメージ形態の電子文書からイメージフィンガープリントを抽出することを特徴とする請求項１４に記載のフィンガープリントを利用した出版物識別システム。
前記原本出版物の付加情報は、
原本出版物の製作者、出版社、題目、要約、発行日、ＩＳＢＮ、住所、電話番号及びファックス番号のうち少なくとも１つの情報を含むことを特徴とする請求項１３に記載のフィンガープリントを利用した出版物識別システム。
著作権侵害を識別するために収集された質疑出版物に対するフィンガープリントを抽出するフィンガープリント抽出装置と、
前記フィンガープリント抽出装置から提供された前記質疑出版物に対するフィンガープリントに該当する原本出版物のフィンガープリントを質疑するフィンガープリント質疑装置と、
原本出版物から抽出されたフィンガープリント及び前記原本出版物の付加情報が格納され、前記フィンガープリント質疑装置の質疑に相当して少なくとも１つの原本出版物のフィンガープリントで構成された検索結果候補群を提供するＤＢＭＳ（ＤａｔａＢａｓｅＭａｎａｇｅｍｅｎｔＳｙｓｔｅｍ）と、
前記ＤＢＭＳから提供された検索結果候補群を検証し、前記質疑出版物の著作権侵害有無を判断する候補群検証装置と、を含むフィンガープリントを利用した出版物識別システム。
前記候補群検証装置は、
前記検索結果候補群と前記質疑出版物のフィンガープリントを比較し、比較結果に基づいて前記質疑出版物を識別し、前記質疑出版物が前記ＤＢＭＳ内部に存在する出版物として判断される場合、前記質疑出版物に該当する付加情報を前記ＤＢＭＳから獲得して提供することを特徴とする請求項１７に記載のフィンガープリントを利用した出版物識別システム。
収集された質疑出版物に対するフィンガープリントを抽出する段階と、
前記収集された質疑出版物から抽出されたフィンガープリントと対応する原本出版物のフィンガープリントをＤＢＭＳから検索する段階と、
少なくとも１つの検索結果に基づいて前記収集された質疑出版物を識別する段階と、を含むフィンガープリントを利用した出版物識別方法。
前記少なくとも１つの検索結果に基づいて前記収集された質疑出版物を識別する段階は、
前記少なくとも１つの検索結果を前記質疑出版物のフィンガープリントと比較した比較結果に基づいて前記質疑出版物を識別し、前記収集された質疑出版物を識別した結果、前記質疑出版物が原本出版物と同一であると判別される場合、前記ＤＢＭＳから前記質疑出版物に対応する付加情報を獲得する段階をさらに含むことを特徴とする請求項１９に記載のフィンガープリントを利用した出版物識別方法。