CN103154957A - 出版物的指纹提取方法、出版物的指纹提取装置、利用指纹的出版物识别系统及利用指纹的出版物识别方法 - Google Patents
出版物的指纹提取方法、出版物的指纹提取装置、利用指纹的出版物识别系统及利用指纹的出版物识别方法 Download PDFInfo
- Publication number
- CN103154957A CN103154957A CN2011800494631A CN201180049463A CN103154957A CN 103154957 A CN103154957 A CN 103154957A CN 2011800494631 A CN2011800494631 A CN 2011800494631A CN 201180049463 A CN201180049463 A CN 201180049463A CN 103154957 A CN103154957 A CN 103154957A
- Authority
- CN
- China
- Prior art keywords
- publication
- mentioned
- fingerprint
- electronic document
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 238000000605 extraction Methods 0.000 claims abstract description 121
- 239000000284 extract Substances 0.000 claims description 69
- 238000012545 processing Methods 0.000 claims description 11
- 238000012360 testing method Methods 0.000 claims description 11
- 238000012217 deletion Methods 0.000 claims description 9
- 230000037430 deletion Effects 0.000 claims description 9
- 238000000926 separation method Methods 0.000 claims description 8
- 238000012937 correction Methods 0.000 claims description 3
- 230000000052 comparative effect Effects 0.000 claims description 2
- 238000012795 verification Methods 0.000 abstract 1
- 230000008569 process Effects 0.000 description 23
- 238000005516 engineering process Methods 0.000 description 22
- 230000000875 corresponding effect Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 16
- 230000003287 optical effect Effects 0.000 description 13
- 230000015572 biosynthetic process Effects 0.000 description 6
- 238000012856 packing Methods 0.000 description 6
- 238000007781 pre-processing Methods 0.000 description 6
- 230000001902 propagating effect Effects 0.000 description 6
- 230000000644 propagated effect Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000007639 printing Methods 0.000 description 3
- 230000001681 protective effect Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000002386 leaching Methods 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 230000002633 protecting effect Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 230000003750 conditioning effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5846—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
- G06F21/32—User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/10—Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Computer Hardware Design (AREA)
- Multimedia (AREA)
- Technology Law (AREA)
- Storage Device Security (AREA)
- Collating Specific Patterns (AREA)
- Editing Of Facsimile Originals (AREA)
Abstract
本发明涉及出版物的指纹提取方法、出版物的指纹提取装置、利用指纹的出版物识别系统及利用指纹的出版物识别方法,其能够易于识别是否侵害著作权,并且能够有效地保护著作权。利用指纹的出版物识别系统包括:指纹提取装置,其提取用于识别著作权侵害所收集的质疑出版物的指纹;指纹质疑装置,其对所属于从指纹提取装置中所提供的质疑出版物的指纹的原版出版物的指纹进行质疑;数据库管理系统,其将从原版出版物中所提取的指纹及原版出版物的附加信息进行存储,并且呼应上述指纹质疑装置的质疑,从而提供由至少一个原版出版物的指纹所构成的检索结果候补群;以及候补群检查装置,其对数据库管理系统所提供的检索结果候补群进行检查,从而判断质疑出版物是否侵害著作权。由此,可易于识别是否侵害出版物的著作权,并且通过此刻预防著作权的侵害。
Description
技术领域
本发明涉及内容识别,更具体的涉及出版物的指纹提取方法,出版物的指纹提取装置,利用指纹的出版物识别系统及利用指纹的出版物识别方法。
背景技术
包含有文本及图像的内容或者数字化的出版物很容易被复制,从而通过互联网或者P2P等各种方式进行非法传播。上述非法传播的内容对作者不仅造成了直接的经济损失,而且是间接降低作者创作积极性的主要原因。
为防止内容的非法传播,并且保护著作权,使用了现有的如下技术:将内容包装及加密化的数字版权保护技术(Digital Rights Management),以便在贩卖或者购买内容时,购买行为发生在所认证的环境下;数字产权保护技术(Digital Property Protection),以便限制内容被存储于硬盘或者拷贝;水印技术(watermarking),其在内容中插入不显眼的贩卖者或者著作权人的信息。
图1是表示适用内容数字版权加密保护技术等的保护装置的一般内容保护方法的简略图。
参照图1,内容提供者(Contents Providers)利用原版内容和密钥,从而将内容进行加密化及包装后,对此进行提供,并且使用者通过访问相应的数字版权加密保护技术服务器,执行购买认证步骤,从而必须合法购买相应内容才能获得解开加密的钥匙和能够使用相应内容的使用许可(license),由此可播放相应内容。
如图1所示,在现有的情况下,内容提供者通过使用数字版权加密保护技术等的加密化及包装方式的保护方法,从而对著作权人的权利进行保护,现有的著作权保护方法以变形的形态发展并继承了上述方法。
现有的著作权保护方法使用加密化或包装的方式对内容的著作权进行保护。但是对加密化的内容进行解读或者将包装的内容解开包装时,内容可能会被非法传播。例如,适用于特定电子书读取装置的数字版权加密保护技术被黑客攻击后,用于上述电子书读取装置的电子出版物被无故非法传播。
此外,近来随着数码相机,扫描设备,计算机等技术的发展以及图像处理技术的发展,模拟或者数字出版物的复制更加简便精巧,并且由此使用者以非法泄露模拟出版物或者数字化出版物为目的,从而生成数字化文件,并且进行传播,在此情形之下,很难判断其是否为非法传播或者是否侵害了著作权。
因此,根据现有的内容保护技术,适用保护功能的内容或出版物,即使由于使用者的恶意行为,导致保护功能解除的情况下,使用内容识别技术,从而能够判断是否侵害出版物的著作权,以及是否为非法传播,需要能够有效保护著作权的方法。
发明内容
为克服上述缺点,本发明的目的在于,提供一种可轻易识别出版物的出版物的指纹提取方法,以便判断是否侵害著作权,并且能够有效地保护著作权。
此外,本发明的另一个目的在于,提供一种执行上述出版物的指纹提取方法的指纹提取装置。
此外,本发明的又另一个目的在于,提供一种利用指纹的出版物识别系统,以便可易于识别出版物并且有效保护著作权。
此外,本发明的又另一个目的在于,提供一种利用上述指纹的出版物识别系统的操作方法。
根据用于实现上述本发明的目的的本发明的一个侧面的指纹提取方法包括如下步骤:从所输入的文本形式的电子文档中提取文本;从上述提取的文本中提取文本指纹。
从上述所输入的文本形式的电子文档中提取文本的步骤中,在对上述所输入的文本形式的电子文档执行预处理后,从上述所输入的文本形式的电子文档中提取文本。
对于上述所输入的文本形式的电子文档的预处理可包括修正错字或者还原文字。
另外,根据用于实现本发明的目的的本发明的另一个侧面的指纹提取方法包含如下步骤:输入图像形态的电子文档;当所输入的上述图像形态的电子文档为文本基础的电子文档时,将上述所输入的图像形态的电子文档转换为文本形态的电子文档;从上述转换的文本形态的电子文档中提取文本;以及从上述所提取的文本中提取文本指纹。
对上述图像形态的电子文档进行输入的步骤可包括如下步骤:在输入上述图像形态的电子文档后,对上述图像形态的电子文档执行预处理。
执行对上述图像形态的电子文档的预处理的步骤中,可执行包括于上述图像形态的电子文档的杂音删除、页面分离、图像旋转及图像的倾斜调整中至少一个处理。
当上述所输入的上述图像形态的电子文档是图像基础的电子文档时,上述出版物的指纹提取方法还可包括如下步骤:执行对上述所输入的图像形态的电子文档的预处理;以及从上述预处理所执行的图像形态的电子文档中提取图像指纹的步骤。
此外,根据用于实现本发明的另一目的的本发明的一个侧面的指纹提取装置包括:图像文本转换部,其将所输入的图像形态的电子文档转换为文本形态的电子文档;文本提取部,其从上述文本形态的电子文档中提取文本;以及指纹提取部,其从上述所提取的文本中提取文本指纹。
上述出版物的指纹提取装置还可包括有图像预处理部,其对上述所输入的图像形态的文档中所包含的杂音删除、页面分离、图像旋转及图像的倾斜调整中执行至少一个处理。
上述指纹提取装置可从上述图像预处理所提供的预处理图像中提取图像指纹。
上述出版物的指纹提取装置还可包括文本预处理部,其对从上述图像文本转换部所提供的上述文本形态的电子文档或者所输入的文本形态的电子文档执行预处理后,提供至上述文本提取部。
此外,根据用于实现本发明的又另一个目的的本发明的一个侧面的利用指纹的出版物识别系统包括:指纹提取装置,其用于提取原版出版物的指纹;出版物信息建立装置,其将上述指纹提取装置所提供的原版出版物的指纹与上述原版出版物的附加信息进行相关联并存储;以及数据库管理系统(DataBase Management System),其用于存储从上述原版出版物中所提取的指纹及上述原版出版物的附加信息。
当上述原版出版物或者质疑出版物为文本形式的电子文档时,上述指纹提取装置在从上述文本形式的电子文档中提取文本后,从所提取的文本中提取文本指纹,并且当上述原版出版物或者上述质疑出版物为图像形态的电子文档时,上述指纹提取装置在将图像形态的电子文档转换为文本形态的电子文档后,从所转换的文本形态的电子文档中提取文本,并从所提取的文本中提取文本指纹。
当上述原版出版物或者上述质疑出版物为图像形态的电子文档时,上述指纹提取装置执行对上述图像形态的电子文档的预处理后,可从预处理所执行的图像形态的电子文档中提取图像指纹。
上述原版出版物的附加信息可包含有原版出版物的制作者、出版社、题目、摘要、发行日、国际标准书号、地址、电话号码、传真号码中至少一个信息。
此外,根据用于实现本发明的又另一个目的的本发明的另一个侧面的利用指纹的出版物识别系统包括:指纹提取装置,其提取对用于识别所收集的质疑出版物的指纹;指纹质疑装置,其对与从上述指纹提取装置所提供的上述质疑出版物的指纹相应的原版出版物的指纹进行质疑;数据库管理系统(DataBase Management System),其将从原版出版物中所提取的指纹及上述原版出版物的附加信息进行存储,并且对应于上述指纹质疑装置的质疑,从而提供至少由一个原版出版物的指纹所构成的检索结果候补群;以及候补群检查装置,其对上述数据库管理系统所提供的检索结果候补群进行检查,从而判断上述质疑出版物是否侵害著作权。
上述候补群检查装置中,将上述检索结果候补群与上述质疑出版物的指纹进行比较,并且以比较结果为基础,可识别上述质疑出版物。
当上述质疑出版物被判断为数据库管理系统中所存在的出版物时,上述候补群检查装置可从上述数据库管理系统获取并提供所属于上述质疑出版物的附加信息。
此外,根据用于实现本发明的又另一个目的的本发明的一个侧面的利用指纹的出版物识别方法包含如下步骤:提取所收集的质疑出版物的指纹;与从上述所收集的质疑出版物中所提取的指纹相对应的原版出版物的指纹在数据库管理系统中进行检索;以及以至少一个检索结果为基础,识别上述所收集的质疑出版物是否侵害著作权。
以上述至少一个检索结果为基础,识别上述所收集的质疑出版物的步骤中,将上述至少一个的检索结果与上述质疑出版物的指纹进行比较的结果为基础,可识别上述质疑出版物。
当上述所收集的识别质疑出版物的结果被判断为上述质疑出版物与原版出版物相同的情况下,上述利用指纹的出版物识别方法还可包含从上述数据库管理系统中获取与上述质疑出版物所相应的附加信息的步骤。
根据如上所述的出版物的指纹提取方法、出版物的指纹提取装置、利用指纹的出版物识别系统以利用指纹的出版物识别方法,利用原版出版物提取指纹,从而与出版物元数据信息进行联系并管理,并提取质疑出版物的指纹,从而可识别未知的出版物的信息。此外,利用所识别的出版物的信息,从而可判断出版物是否为非法传播或是否侵害著作权。
因此,将出版物直接键入或扫描,或者用数码相机拍下,从而转换为数字化出版物的情况下,或者即使在数字版权保护等各种保护装置解除,或系统管理者利用权限变形为与原版一致的数字出版物,从而进行非法传播的情况下,也能便于进行识别,由此可减少出版物的非法散布或传播,并可预防著作权侵害。
此外,根据本发明的一个实施例的利用指纹的出版物识别系统中,将出版物的部分信息(例如,大概几页的出版物)输入,可用于检索原出版物的信息。
附图说明
图1是表示适用数字版权加密保护技术等的保护装置的一般内容保护方法的简略图。
图2是表示用于保护出版物著作权的技术例。
图3是表示从电子文档形态提取文本指纹的方法的流程图。
图4是表示从图像形态的出版物提取文本指纹的方法的流程图。
图5是表示从图像形态的出版物提取图像指纹的方法的流程图。
图6是表示根据本发明的一个实施例的出版物的指纹提取方法的流程图。
图7是表示根据本发明的一个实施例的出版物的指纹提取装置的结构的框图。
图8是表示根据本发明的一个实施例的出版物识别系统的构成的框图。
图9是表示根据本发明的另一个实施例的出版物识别系统的构成的框图。
图10是表示根据本发明的一个实施例的出版物识别系统的出版物识别方法的流程图。
具体实施方式
本发明可进行各种变更,并且可具有各种实施例,将特定实施例在图中例示,并且进行详细说明。
但是务必理解为,这并不是将本发明限定于特定的实施例,而是包括于本发明的思想及技术范围内的所有变更,均等物及代替物都包含在内。
在本申请中所使用的用语仅为说明特定实施例而使用,并不是限定本发明。单数的表达如未在文章中明确表示其他意思,则也包括复数的表达。在本申请中,“包括”或者“具有”等用语是指定说明书中所记载的特征、数字、步骤、操作、构成要素、配件或上述的组合的存在,不排除一个或一个以上的其他特征、数字、步骤、操作、构成要素、配件,或以上的组合的存在,或者附加可能性。
如未进行其他定义,包含技术上的或者科学上的用语,此处所使用的全部用语,在本发明所属的技术领域内,与具备一般知识的人员的通常理解的意义相同。与一般所使用的,字典中所定义的相同的用语,务必理解为与相关技术文脉上所具有的的意义一致,并且在本申请中,如未明确定义,则不解释为理想的或者过度形态的意义。
以下参照附图,对本发明的优选实施例进行详细说明。在对本发明的说明中,为便于整体理解,对图面中的同一构成要素使用同一参照标号,并且省略对同一构成要素的重复说明。
用于非法传播出版物的数字化方法大致可分为四种。
第一:出版物制作者遗失了存储出版物的存储媒体,或者管理疏忽的情况,以数字文件形态提供给出版社的出版物文件被泄露的情况,或者数字版权加密保护技术被解除,从而文件泄露的情况等,通过上述造成原版内容泄露的情况。
第二:使用者直接将书等形态的印刷出版物键入并数字化的情况。在此情况下,印刷出版物变为电子文档形态,因此通过大量的印刷等可大量生产高品质的盗版出版物。
第三:使用者将小说、杂志或者漫画书等形态的印刷出版物用扫描设备进行扫描并数字化的情况。此时,使用者将印刷的出版物拆分,使用扫描设备的自动输入装置,或者使用自动传递出版物的装置,或者直接用手传递出版物,并且对印刷的出版物进行扫描后存储为图像形态,从而可完成出版物的数字化。
第四:使用者利用数码相机将印刷的出版物拍照并数字化的情况。在此情况下,数字化的文件以图像的形态存储,根据拍照者的熟练程度可产生品质的差异。
所以,需要应对如上所述的出版物非法传播的四种数字化方法的著作权保护技术。
图2是表示用于保护出版物著作权的技术例。
如图2所示,用于保护出版物的著作权的技术可大致分为三种。
首先,出版物中向读者提供信息的方法大致有文本和图像。文本是小说书等出版物传达信息的主要方法,并且图像是杂志或者漫画书等出版物传达信息的主要方法。
上述用于非法传播出版物的数字化方法中的第一种及第二种方法是数字化为文本基础上的电子文档形态,因此电子文档形态中需要以文本指纹为基础的出版物识别技术。
此外,上述用于非法传播出版物的数字化方法中的第三种及第四种方法将出版物数字化为图像形态。此时,数字化为图像形态的出版物为类似于小说书等的文本基础上的出版物时,图像文件形态中需要以文本指纹为基础的出版物识别技术,并且数字化为图像形态的出版物为类似于杂志或漫画书等的图像基础上的出版物的情况下,图像文件形态中需要以图像指纹为基础的出版物识别技术。此处,指纹作为表示有关内容或出版物的固有特征信息,也被称作特征或DNA。
图3是表示从电子文档形态中提取文本指纹的方法的流程图。
以下,在本发明的实施例中电子文档形态是指,包含计算机等的信息处理装置中利用各种文档编制程序来编制,从而存储为文本形态的文档文件(例如,TXT、韩文文件、word文件、存储为文本形态的PDF文件)。
首先,如果在指纹提取装置中输入文本文档(步骤310),则指纹提取装置执行文本预处理(步骤320),以便能够从所输入的文本文档中顺利地提取文本。此处,如上述所述,所输入的文本文档可以是利用各种文档编制程序来编制的电子文档。此外,上述文本预处理过程中可包含有错字修正,或者对误差造成的非正常形态的文字进行复原的处理过程,并且不用必须执行,只在有需要的情况下选择性地执行。
此后,指纹提取装置从为了提取指纹而通过文本预处理的文本文档中只提取作为出版物的信息传递方法的文本(步骤330)。
指纹提取装置对通过步骤330的执行所提取的文本进行指纹提取,从而对文本基础的电子文档形态的出版物的指纹进行提取(步骤340)。
图4是表示从图像形态的出版物中提取文本指纹的方法的流程图。
首先,在指纹输出装置中输入用扫描设备扫描或者用数码相机拍下的图像文件形态的文档(步骤410),指纹提取装置对所输入的图像文件形态的文档执行图像预处理,以便能够提高光学字符识别(Optical CharacterRecognition)性能。此处,图像文件形态是指通过商用图像浏览器所能够显示的形态,并且在对图像形态的文档适用光学字符识别的情况下,图像预处理是对可能降低文本识别性能的要素进行处理的过程,可包括有删除杂音、页面分离、旋转、倾斜调整等处理过程。
此后,指纹提取装置对预处理所执行的图像文件形态的文档进行光学字符识别,从而将图像文件形态的文档转换为文本形态的电子文档形态(步骤430)。此处,通过光学字符识别转换为文本的电子文档中,由于光学字符识别性能的局限性,可能包含有误识别的非正常形态的文字(或杂音),因此需要用于除去上述非正常形态的文字(或杂音)的处理过程。
因此,指纹提取装置对通过步骤430的执行转换的文本形态的电子文档执行预处理过程(440),以便对如上所述的非正常形态的文字或杂音进行删除。
此后,指纹提取装置从预处理的文本形态的电子文档中提取文本(步骤450),并且对提取的文本进行文本指纹提取(步骤460)。
优选地,步骤440至步骤460的文本预处理过程、文本提取过程以及文本指纹提取过程适应于步骤430中执行的光学字符识别的识别算法及性能而执行。
换句话说,图3所示的步骤320至步骤340分别与图4所示的步骤440至步骤460执行相同的功能,图3所示的指纹提取过程是对杂音较少的文本形态的电子文档进行指纹提取,反之在图4所知的指纹提取过程中,在将所输入的图像文件形态的文档通过光学字符识别变换为文本形态的电子文档后,进行指纹提取,所以根据光学字符识别的识别性能变换的电子文档中包含杂音的概率会变高。
因此,与执行图3所示的指纹提取方法的指纹提取装置相比,执行图4所示的指纹提取方法的指纹提取装置优选地使用更加抗杂音的指纹提取装置,并且执行图4所示的指纹提取方法的指纹提取装置在使用抗杂音装置的情况下,图3所示的指纹提取过程可包含于图4。
图5是表示从图像形态的出版物中提取图像指纹的方法的流程图。
如上所述,杂志书或者漫画书等出版物中,图像是传达信息的主要方法。所以,如上所述,的信息传达方法,对于使用作为传达信息的方法的图像的出版物,为保护著作权而提取图像指纹。
参照图5,首先,如果指纹提取装置输入通过扫描装置扫描或者通过数码相机拍下的图像形态文档(步骤510),则执行预处理(步骤520),以便能够从所输入的图像文档中有效地提取指纹。此处,预处理过程包含将可能妨碍图像指纹提取的要素进行删除的过程,例如,可包含有杂音删除、页面分离、旋转、倾斜调整等处理。
此后,指纹提取装置从预处理的图像中提取图像指纹(步骤530)。
图6是表示根据本发明的一个实施例的出版物的指纹提取方法的流程图,其综合上述图2至图5的内容。
参照图6,首先,如果在指纹提取装置中输入用于提取指纹的数字化的出版物,则指纹输入装置对所输入的数字化出版物进行判断(步骤610),判断其为图像文件或者是文本文件,图像文件的情况下,执行对图像的预处理(步骤620)。此处,图像预处理在对图像形态的文档适用光学字符识别的情况下,作为将可能降低文本识别性能的要素,或者可能妨碍图像指纹提取的要素删除的过程,可包括有杂音删除、页面分离、旋转、倾斜调整等处理过程。
此后,指纹提取装置判断预处理的图像是否为图像形态的文本(步骤630),当判断为图像形态的情况下,执行光学字符识别,从而将图像形态的文本转化为文本形态的电子文档(步骤640)。此处,通过光学字符识别转化为文本的电子文档中,由于光学字符识别过程中识别性能的局限性,可能包含有误识别的非正常形态的文字(或杂音),所以需要用于除去上述非正常形态的文字(或杂音)的处理过程。
指纹提取装置对通过步骤640的执行而转换为文本形态的电子文档执行文本预处理过程(步骤650),上述文本预处理过程用于删除如上所述的非正常形态的文字或杂音。
之后,指纹提取装置从预处理的文本形态的电子文档中提取文本(步骤660),对提取的文本进行文本指纹提取(步骤670)。
此外,在图6所示的步骤610中,将输入有判断结果的数字化出版物被判断为文本文档时,指纹提取装置不执行步骤620至640,而进行步骤650,从而按顺序执行步骤650至步骤670。
此外,在图6的步骤630中预处理的图像不是图像形态的文本,而是类似于杂志或者漫画等的图像的情况下,指纹提取装置不执行步骤640至670,而进行步骤680,并且从预处理的图像中提取图像指纹(步骤680)。
图7是表示根据本发明的一个实施例的出版物的指纹提取装置的结构的框图。
参照图7,根据本发明的一个实施例的指纹提取装置(700)可包括有控制部(710)、图像预处理部720、图像-文本转换部730、文本预处理部740、文本提取部750以及指纹提取部760。
控制部710对所输入的数字化出版物的种类进行判断,根据判断结果将所输入的数字化出版物提供至图像预处理部720,或者文本预处理部740。
例如,控制部710当所输入的出版物是通过扫描装置扫描或者通过数码相机拍下的图像形态的电子文档时,提供至图像预处理部,并且当所输入的出版物是文本形态的电子文档时,提供至文本预处理部740。
此外,除上述功能外,控制部710还可控制构成指纹提取装置的其他要素的操作。
图像预处理部720为能够提高光学字符识别的识别性能,对控制部710所提供的图像形态的电子文档执行删除杂音、页面分离、旋转、倾斜调整等处理后,对执行预处理的图像种类进行判断,在执行预处理的图像是由文本构成的图像形态的电子文档的情况下,提供至图像-文本转换部730,在执行预处理的图像是由类似于杂志或漫画等图像构成的情况下,提供至指纹提取部760。
图像-文本转换部730可由光学字符识别构成,从预处理部720中所提供的预处理的图像转换为文本形态的电子文档后,将变换的文本形态的电子文档提供至文本提取部750。
文本预处理部740对从文本预处理部740或者控制部710中所提供的文本形态的电子文档进行预处理,以便删除非正常形态的文字或杂音后,将预处理的文本形态的电子文档提供至文本提取部750。
文本提取部750接收到从文本预处理部740中预处理的文本形态的电子文档,在所接收的电子文档中提取作为出版物的信息传达方法的文本后,提供至指纹提取部760。
指纹提取部760从图像预处理部720所提供的预处理的图像中提取图像指纹,或者从文本提取部750所提供的文本中提取文本指纹。此处,指纹提取部720利用周所周知的指纹提取技术,可从图像或文本中提取指纹。
具体说来,指纹提取部760可包括有图像指纹提取模块761,以及文本指纹提取模块763,图像指纹提取模块761从图像预处理部720所提供的预处理图像中提取图像指纹,并且文本指纹提取模块763从文本提取部750所提供的文本中提取指纹。
图6及图7所图示的根据本发明的一个实施例的出版物的指纹提取方法及装置可用于提取原版出版物的指纹,并且可用于提取通过互联网检索或收集的非法传播出版物的指纹,并且还可以用于提取任意想要了解的出版物的指纹。此外,根据本发明的一个实施例的出版物的指纹提取方法及装置也可以用于提取质疑出版物的指纹。
图8是表示根据本发明的一个实施例的出版物识别系统的构成的框图,对如下系统进行举例并示出:在为保护著作权从出版物著作权人或者出版物提供者接收出版物原版的情况下,利用出版物的指纹来建立数据库。
参照图8,根据本发明的一个实施例的出版物识别系统可包括有指纹提取装置700、出版物信息建立装置810以及数据库管理系统(DataBaseManagement System)830。
指纹提取装置700具备如图7所示的相同构成,并且执行图6所示的指纹提取方法,从而提取原版出版物的指纹后,将所提取的原版出版物的指纹提供至出版物信息建立装置810。
出版物信息建立装置810从指纹提取装置700接收原版出版物的指纹,并且在从出版物著作权人或者出版物提供者接收原版出版物的信息后,将原版出版物的指纹和原版出版物的信息进行相关联,从而提供至数据库管理系统830,并进行管理。此处,原版出版物的信息可包含有原版出版物的制作者、出版社、题目、摘要、发行日、国际标准书号(International Standard BookNumber)、地址、电话号码、传真号码等与原版出版物相关的各种信息。
此外,出版物信息建立装置810可将原版出版物存储于数据库管理系统830中以便出版物的管理,并且在需要保密的情况下也可将出版物的整体或部分进行加密,从而存储于数据库管理系统830中。
数据库管理系统830将从出版物信息建立装置810中所提供的原版出版物的指纹及与此相关的出版物信息进行存储。此外,数据库管理系统830根据出版物信息建立装置810的提供,可将原版出版物存储。
图9是表示根据本发明的另一个实施例的出版物识别系统的构成的框图。
数字出版物的文件或数字化的出版物文件能够通过互联网等轻易传播。例如,出版物文件可通过类似于P2P、torrent、web hard、café、博客等各种互联网途径传播。此外,由于数字文件的特性,数字出版物或数字化的出版物易于复制及移动,所以可通过便携存储装置或便携终端等进行传播。
图9所示的根据本发明的另一个实施例的出版物识别系统用于对通过上述各种途径非法传播的出版物或侵害著作权的出版物进行识别,或者对想要了解的出版物进行识别。
参照图9,根据本发明的一个实施例的出版物识别系统可包括有指纹提取装置700、指纹质疑装置820、数据库管理系统830、以及候补群检查装置840。
指纹提取装置700具备如图7所示的相同构成,并且执行图6所示的指纹提取方法。指纹提取装置700为识别出版物的非法传播或侵害著作权与否,对通过各种途径检索及收集的质疑出版物的指纹进行提取后,将所提取的指纹提供至指纹质疑装置820。
指纹质疑装置820将从指纹提取装置700所提供的质疑出版物的指纹向数据库管理系统830进行质疑。此外,指纹质疑装置820将从指纹提取装置700所提供的质疑出版物的指纹提供至候补群检查装置840。
数据库管理系统830从指纹质疑装置820中接收质疑出版物的指纹后,并在数据库中检索与此相对应的指纹后,将所检索到的至少一个检索结果候补群提供至候补群检查装置840。此处,上述检索结果候补群可包含有至少一个与上述质疑出版物的指纹相类似的原版出版物的指纹,以及相应出版物的信息。
候补群检查装置840对从数据库管理系统830所提供的检索结果候补群进行检查,从而辨别质疑出版物的非法传播或是否侵害著作权。
例如,候补群检查装置840将从数据库管理系统830所提供的检索结果候补群与从指纹质疑装置820所提供的质疑出版物指纹进行比较,从而可辨别质疑出版物的非法传播或是否侵害著作权。此外,候补群检查装置840可从数据库管理系统830获取非法传播或侵害著作权的出版物的信息,从而提供至相应机关或管理者。
图8及图9所示的出版物识别系统中,指纹提取装置在提取出版物的指纹时需要很多时间,因此可利用云计算概念,将指纹提取装置分散而构成,以便减少系统的负荷。此外,可利用散列(hash)等技术,将一次检索的文件分别处理,从而可利用防止重新检索的过程的技术,以便提高出版物识别系统的性能,并且较少整体负荷。
图10是表示根据本发明的一个实施例的出版物识别系统的出版物识别方法的流程图。
参照图10,首先,出版物识别系统将怀疑为非法传播或侵害著作权的出版物作为质疑出版物进行检索及收集(步骤1010),并提取所收集的质疑出版物的指纹(步骤1020)。
此后,出版物识别系统将对应于所提取的指纹的出版物向数据库管理系统进行质疑(步骤1030),从而从数据库管理系统中获取相应检索结果候补群(步骤1040)。此处,从数据库管理系统中所获取的检索结果候补群可包含至少一个与质疑出版物的指纹相对应的出版物的指纹。
此后,执行对出版物识别系统所获取的检索结果候补群的检查,从而识别判断为非法散布(或传播)或者侵害制作权的相应的出版物(步骤1050)。此处,出版物识别系统以将通过步骤1020的执行所提取的指纹与从数据库管理系统所提供的指纹进行比较的结果作为基础,从而可识别相应出版物。
此后,出版物识别系统从数据库管理系统中获取非法传播或著作权侵害的出版物的信息,从而提供所获取的信息(步骤1060)。
如上所述,根据本发明的一个实施例的出版物识别系统,对预先要求著作权保护的出版物,利用原版出版物提取指纹,从而与出版物元数据信息进行相关联并管理,从而构筑用于保护出版物的识别及著作权的系统,并且可利用出版物的指纹,对非法传播或侵害著作权的出版物进行识别,从而保护著作权。
此外,本发明在利用指纹来解除加密及包装方法的情况下,切断非法传播,并且事后相应出版物在网上无故传播的情况下,能够采取切实的保护措施。
此外,根据本发明的一个实施例的利用指纹的出版物识别系统,输入出版物的部分信息(例如,大概几页的出版物),也可使用为检索原出版物的信息的目的。其可通过根据本发明的一个实施例的出版物识别系统利用指纹而实现,上述指纹利用表示有内容固有的信息的特点。
虽为参照上述实施例进行的说明,相关技术领域的熟练从业者不脱离以下权利要求范围所记载的本发明的思想及领域,可对本发明进行多种修正及变更。
Claims (20)
1.一种出版物的指纹提取方法包括如下步骤:
从所输入的文本形式的电子文档中提取文本;以及
从上述所提取的文本中提取文本指纹。
2.根据权利要求1所述的出版物的指纹提取方法,其特征在于:
从上述所输入的文本形式的电子文档中提取文本的步骤中,在对上述所输入的文本形式的电子文档执行预处理后,从上述所输入的文本形式的电子文档中提取文本。
3.根据权利要求2所述的出版物的指纹提取方法,其特征在于:
对上述所输入的文本形式的电子文档的预处理包括错字修正或文字复原。
4.一种出版物的指纹提取方法包括如下步骤:
输入图像形态的电子文档;
在所输入的上述图像形态的电子文档为文本基础的电子文档的情况下,将上述所输入的图像形态的电子文档转换为文本形态的电子文档;
从上述所转换的文本形态的电子文档中提取文本;以及
从上述所提取的文本中提取文本指纹。
5.根据权利要求4所述的出版物的指纹提取方法,其特征在于,输入上述图像形态的电子文档的步骤还包括如下步骤:
在输入上述图像形态的电子文档后,执行对上述图像形态的电子文档的预处理。
6.根据权利要求5所述的出版物的指纹提取方法,其特征在于:
执行对上述图像形态的电子文档的预处理的步骤中,执行上述图像形态的电子文档中所包含的删除杂音、页面分离、图像旋转、倾斜调整中至少一个处理。
7.根据权利要求4所述的出版物的指纹提取方法,其特征在于,当上述所输入的上述图像形态的电子文档为图像基础的电子文档的情况下,上述出版物的指纹提取方法还包括如下步骤:
执行对上述所输入的图像形态的电子文档的预处理;以及
从上述执行预处理的图像形态的电子文档中提取图像指纹。
8.根据权利要求4所述的出版物的指纹提取方法,其特征在于:
从上述所转换的文本形态的电子文档中提取文本的步骤中,在执行对上述所转换的文本形式的电子文档的预处理后,从上述所转换的文本形式的电子文档中提取文本。
9.一种出版物的指纹提取装置,其包括:
图像文本转换部,其将所输入的图像形态的电子文档转换为文本形态的电子文档;
文本提取部,其从上述文本形态的电子文档中提取文本;以及
指纹提取部,其从上述所提取的文本中提取文本指纹。
10.根据权利要求9所述的出版物的指纹提取装置,其特征在于,上述出版物的指纹提取装置还包括:
图像预处理部,其对上述所输入的图像形态的文档中所包含的杂音删除、页面分离、图像旋转及图像的倾斜调整中执行至少一个的处理。
11.根据权利要求10所述的出版物的指纹提取装置,其特征在于:
上述指纹提取部中,从上述图像预处理所提供的预处理图像中提取图像指纹。
12.根据权利要求9所述的出版物的指纹提取装置,其特征在于,上述出版物的指纹提取装置还包括:
文本预处理部,其对上述图像文本转换部所提供的上述文本形态的电子文档或者所输入的文本形态的电子文档执行预处理后,提供至上述文本提取部。
13.一种利用指纹的出版物识别系统,包括:
指纹提取装置,其用于提取原版出版物的指纹;
出版物信息建立装置,其将上述指纹提取装置所提供的原版出版物的指纹与上述原版出版物的附加信息进行相关联并存储;以及
数据库管理系统(DataBase Management System),其用于存储从上述原版出版物中所提取的指纹及上述原版出版物的附加情报。
14.根据权利要求13所述的利用指纹的出版物识别系统,其特征在于:
当上述原版出版物或者质疑出版物为文本形式的电子文档时,上述指纹提取装置在从上述文本形式的电子文档提取文本后,从所提取的文本中提取文本指纹,并且当上述原版出版物或者上述质疑出版物为图像形态的电子文档时,上述指纹提取装置在将图像形态的电子文档转换为文本形态的电子文档后,从所转换的文本形态的电子文档中提取文本,并从所提取的文本中提取文本指纹。
15.根据权利要求14所述的利用指纹的出版物识别系统,其特征在于:
当上述原版出版物或者上述质疑出版物为图像形态的电子文档时,上述指纹提取装置执行对上述图像形态的电子文档的预处理后,可从预处理所执行的图像形态的电子文档中提取图像指纹。
16.根据权利要求13所述的利用指纹的出版物识别系统,其特征在于:
上述原版出版物的附加信息可包括有原版出版物的制作者、出版社、题目、摘要、发行日、国际标准书号、地址、电话号码、传真号码中至少一个信息。
17.一种利用指纹的出版物识别系统,其包括:
指纹提取装置,其从用于识别著作权侵害而所收集的质疑出版物中提取指纹;
指纹质疑装置,其将所属于从上述指纹提取装置所提供的上述质疑出版物的指纹的原版出版物的指纹进行质疑;
数据库管理系统(DataBase Management System),其将从原版出版物中所提取的指纹及上述原版出版物的附加信息进行存储,并且对应于上述指纹质疑装置的质疑,从而提供由至少一个原版出版物的指纹所构成的检索结果候补群;以及
候补群检查装置,其对上述数据库管理系统所提供的检索结果候补群进行检查,从而判断上述质疑出版物是否侵害著作权。
18.根据权利要求17所述的利用指纹的出版物识别系统,其特征在于:
上述候补群检查装置中,将上述检索结果候补群与上述质疑出版物的指纹进行比较,以比较结果为基础,识别上述质疑出版物,当上述质疑出版物被判定为数据库管理系统中所存在的出版物时,可从上述数据库管理系统中获取所属于上述质疑出版物的附加信息而提供。
19.一种利用指纹的出版物识别方法,包括如下步骤:
提取所收集的质疑出版物的指纹;
与从上述收集的质疑出版物中所提取的指纹相对应的原版出版物的指纹在数据库管理系统中进行检索;以及
以至少一个检索结果为基础,识别上述所收集的质疑出版物。
20.根据权利要求19所述的利用指纹的出版物识别方法,其特征在于,以上述至少一个检索结果为基础,识别上述所收集的质疑出版物的步骤还包括如下步骤:
以将上述至少一个检索结果与上述质疑出版物的指纹进行比较的结果为基础,可识别上述质疑出版物,当上述所收集的识别质疑出版物的结果被判断为上述质疑出版物与原版出版物相同的情况下,从上述数据库管理系统中获取对应于上述质疑出版物的附加信息。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2010-0100508 | 2010-10-14 | ||
KR20100100508 | 2010-10-14 | ||
KR20110023069A KR101491446B1 (ko) | 2010-10-14 | 2011-03-15 | 출판물의 핑거프린트 추출 방법, 출판물의 핑거프린트 추출 장치, 핑거프린트를 이용한 출판물 식별 시스템 및 핑거프린트를 이용한 출판물 식별 방법 |
KR10-2011-0023069 | 2011-03-15 | ||
PCT/KR2011/007633 WO2012050379A2 (ko) | 2010-10-14 | 2011-10-13 | 출판물의 핑거프린트 추출 방법, 출판물의 핑거프린트 추출 장치, 핑거프린트를 이용한 출판물 식별 시스템 및 핑거프린트를 이용한 출판물 식별 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103154957A true CN103154957A (zh) | 2013-06-12 |
Family
ID=46139476
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011800494631A Pending CN103154957A (zh) | 2010-10-14 | 2011-10-13 | 出版物的指纹提取方法、出版物的指纹提取装置、利用指纹的出版物识别系统及利用指纹的出版物识别方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20130290330A1 (zh) |
JP (1) | JP2013543178A (zh) |
KR (1) | KR101491446B1 (zh) |
CN (1) | CN103154957A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106055539A (zh) * | 2016-05-27 | 2016-10-26 | 中国科学技术信息研究所 | 姓名消歧的方法和装置 |
CN111177666A (zh) * | 2019-12-30 | 2020-05-19 | 北京天威诚信电子商务服务有限公司 | 基于脆弱水印的司法文书防伪防篡改方法及系统 |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101479412B1 (ko) * | 2013-07-08 | 2015-01-05 | 연세대학교 산학협력단 | 디지털 컨텐츠 식별 방법 및 장치 |
KR101577376B1 (ko) * | 2014-01-21 | 2015-12-14 | (주) 아워텍 | 텍스트 기준점 기반의 저작권 침해 판단 시스템 및 그 방법 |
KR101558260B1 (ko) | 2014-09-15 | 2015-10-12 | 주식회사 디알엠인사이드 | 고속 복제물 검출 시스템 및 방법 |
US10108883B2 (en) * | 2016-10-28 | 2018-10-23 | Intuit Inc. | Image quality assessment and improvement for performing optical character recognition |
SE1750530A1 (en) * | 2017-05-02 | 2018-11-03 | Fingerprint Cards Ab | Extracting fingerprint feature data from a fingerprint image |
KR102026956B1 (ko) | 2017-10-17 | 2019-09-30 | (주)아이와즈 | 디지털 저작물 유통 모니터링 시스템 |
KR102126839B1 (ko) | 2019-03-28 | 2020-06-25 | (주)아이와즈 | 딥러닝 기반 국가별 저작물 검색 시스템 |
CN110390352A (zh) * | 2019-06-26 | 2019-10-29 | 华中科技大学 | 一种基于相似性哈希的图像暗数据价值评估方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001097128A1 (en) * | 2000-06-10 | 2001-12-20 | Markany Inc. | System and method of providing and authenticating works of authorship based on watermark technique |
US20030105739A1 (en) * | 2001-10-12 | 2003-06-05 | Hassane Essafi | Method and a system for identifying and verifying the content of multimedia documents |
JP3952958B2 (ja) * | 2003-01-22 | 2007-08-01 | キヤノン株式会社 | 画像処理装置、画像処理方法 |
JP2006301835A (ja) * | 2005-04-19 | 2006-11-02 | Fuji Xerox Co Ltd | 取引書類管理方法及びシステム |
US7769772B2 (en) * | 2005-08-23 | 2010-08-03 | Ricoh Co., Ltd. | Mixed media reality brokerage network with layout-independent recognition |
JP4510092B2 (ja) * | 2005-10-25 | 2010-07-21 | 富士通株式会社 | 電子透かしの埋め込み及び検出 |
KR20070106475A (ko) * | 2007-08-27 | 2007-11-01 | (주)코인미디어 랩 | 텍스트 복제 탐지 방법 |
EP2204979A1 (en) * | 2008-12-30 | 2010-07-07 | Irdeto Access B.V. | Fingerprinting a data object with multiple watermarks |
-
2011
- 2011-03-15 KR KR20110023069A patent/KR101491446B1/ko active IP Right Grant
- 2011-10-13 JP JP2013533773A patent/JP2013543178A/ja active Pending
- 2011-10-13 US US13/879,398 patent/US20130290330A1/en not_active Abandoned
- 2011-10-13 CN CN2011800494631A patent/CN103154957A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106055539A (zh) * | 2016-05-27 | 2016-10-26 | 中国科学技术信息研究所 | 姓名消歧的方法和装置 |
CN106055539B (zh) * | 2016-05-27 | 2018-12-28 | 中国科学技术信息研究所 | 姓名消歧的方法和装置 |
CN111177666A (zh) * | 2019-12-30 | 2020-05-19 | 北京天威诚信电子商务服务有限公司 | 基于脆弱水印的司法文书防伪防篡改方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
KR101491446B1 (ko) | 2015-02-23 |
KR20120038880A (ko) | 2012-04-24 |
JP2013543178A (ja) | 2013-11-28 |
US20130290330A1 (en) | 2013-10-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103154957A (zh) | 出版物的指纹提取方法、出版物的指纹提取装置、利用指纹的出版物识别系统及利用指纹的出版物识别方法 | |
JP4949269B2 (ja) | 電子文書に署名情報を追加するための方法および装置 | |
JP3542678B2 (ja) | 電子文書の単語間の空白部分の長さを利用した符号化および復号化方法、電子文書への署名情報の埋め込み方法、機密文書の暗号化方法 | |
Rizzo et al. | Fine-grain watermarking for intellectual property protection | |
US8873863B2 (en) | System and method for fingerprinting for comics | |
US8695061B2 (en) | Document process system, image formation device, document process method and recording medium storing program | |
CN101702150A (zh) | 一种pdf文档页内容的保护、验证及撤销方法 | |
CN102959558A (zh) | 用于文档策略实施的系统和方法 | |
CN106557707B (zh) | 一种处理文档数据的方法及系统 | |
CN104517045B (zh) | 数字文档保护方法及系统 | |
CN112132710B (zh) | 法律要素处理方法、装置、电子设备及存储介质 | |
CN113032735B (zh) | 基于区块链技术的数字资产存证及侵权监测系统和方法 | |
Alkawaz et al. | Concise analysis of current text automation and watermarking approaches | |
Kaur et al. | An existential review on text watermarking techniques | |
US20100171986A1 (en) | Enforcing Reproduction Rights for Hard Copies of Documents | |
KR100841274B1 (ko) | 스캐닝 원본문서의 위·변조 방지를 위한 보안 관리 시스템및 진본 유지를 위한 보안 관리 방법 | |
JP5890804B2 (ja) | プリント・オン・デマンド文書管理用多層構造バーコード | |
JP2014026651A5 (zh) | ||
JP2012182737A (ja) | 秘密資料流出防止システム、判定装置、秘密資料流出防止方法およびプログラム | |
JP2007011560A (ja) | 帳票データ管理システム | |
JP2004185312A (ja) | 文書管理装置 | |
Fenu et al. | Computer forensics investigation an approach to evidence in cyberspace | |
KR20160059001A (ko) | 문서관리모듈을 기반으로 한 영업비밀 전자문서 관리 시스템 및 방법 | |
US20080307228A1 (en) | Wedi: an encryption-based method and system for the identification and protection of printed documents or those being transmitted by electronic means | |
WO2012050379A2 (ko) | 출판물의 핑거프린트 추출 방법, 출판물의 핑거프린트 추출 장치, 핑거프린트를 이용한 출판물 식별 시스템 및 핑거프린트를 이용한 출판물 식별 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20130612 |