CN105608205A - 结构化数据的指纹校验方法及装置 - Google Patents

结构化数据的指纹校验方法及装置 Download PDF

Info

Publication number
CN105608205A
CN105608205A CN201510997620.1A CN201510997620A CN105608205A CN 105608205 A CN105608205 A CN 105608205A CN 201510997620 A CN201510997620 A CN 201510997620A CN 105608205 A CN105608205 A CN 105608205A
Authority
CN
China
Prior art keywords
print information
preset
data
finger print
dimensional data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510997620.1A
Other languages
English (en)
Other versions
CN105608205B (zh
Inventor
朱细智
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qax Technology Group Inc
Beijing Qihoo Technology Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Beijing Qianxin Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Beijing Qianxin Technology Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201510997620.1A priority Critical patent/CN105608205B/zh
Publication of CN105608205A publication Critical patent/CN105608205A/zh
Application granted granted Critical
Publication of CN105608205B publication Critical patent/CN105608205B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2255Hash tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Collating Specific Patterns (AREA)

Abstract

本发明公开了一种结构化数据的指纹校验方法及装置,涉及信息技术领域,可以实现对结构化数据进行相似性分析。所述方法包括:首选提取待校验结构化数据中的指纹信息;然后检测所述指纹信息与预置二维数据表中的指纹信息之间是否符合预设指纹相似条件;若符合,则确定所述待校验结构化数据为内容相似数据。本发明适用于对结构化数据的指纹校验。

Description

结构化数据的指纹校验方法及装置
技术领域
本发明涉及一种信息技术领域,特别是涉及一种结构化数据的指纹校验方法及装置。
背景技术
随着信息技术的不断发展,对于结构化数据的使用量越来越大。其中,所谓结构化数据即行数据,可以使用数据库二维表结构来逻辑表达实现的数据。例如,在企业ERP(EnterpriseResourcePlanning,企业资源计划)系统、财务系统、医疗HIS数据库、教育一卡通系统、政府行政审批系统、及其他核心数据库等场景中存储的通常为结构化数据,可以满足高速存储应用需求、数据备份需求、数据共享需求以及数据容灾需求等。
目前,在对结构化数据处理的过程中,有时由于存在内容相似的结构化数据,因此有需要对结构化数据进行相似性分析的需求。
发明内容
有鉴于此,本发明提供了一种结构化数据的指纹校验方法及装置,主要目的在于可以实现对结构化数据进行相似性分析。
依据本发明一个方面,提供了一种结构化数据的指纹校验方法,该方法包括:
提取待校验结构化数据中的指纹信息;
检测所述指纹信息与预置二维数据表中的指纹信息之间是否符合预设指纹相似条件;
若符合,则确定所述待校验结构化数据为内容相似数据。
依据本发明另一个方面,提供了一种结构化数据的指纹校验装置,该装置包括:
提取单元,用于提取待校验结构化数据中的指纹信息;
检测单元,用于检测所述提取单元提取的指纹信息与预置二维数据表中的指纹信息之间是否符合预设指纹相似条件;
确定单元,用于若所述检测单元检测出所述指纹信息与预置二维数据表中的指纹信息之间符合预设指纹相似条件,则确定所述待校验结构化数据为内容相似数据。
借由上述技术方案,本发明实施例提供的技术方案至少具有下列优点:
本发明提供的一种结构化数据的指纹校验方法及装置,首先提取待校验结构化数据中的指纹信息;然后检测所述指纹信息与预置二维数据表中的指纹信息之间是否符合预设指纹相似条件;若符合,则确定所述待校验结构化数据为内容相似数据。本发明通过对待校验结构化数据进行指纹信息提取并检测其与预置二维数据表中的指纹信息之间是否符合预设指纹相似条件,提供了对结构化数据进行指纹校验的方式,可以实现对结构化数据进行相似性分析。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种结构化数据的指纹校验方法流程示意图;
图2示出了本发明实施例提供的另一种结构化数据的指纹校验方法流程示意图;
图3示出了本发明实施例提供的一种结构化数据的指纹校验装置结构示意图;
图4示出了本发明实施例提供的另一种结构化数据的指纹校验装置结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例提供了一种结构化数据的指纹校验方法,如图1所示,所述方法包括:
101、提取待校验结构化数据中的指纹信息。
其中,所述指纹信息可以唯一标识结构化数据的特征,每一个结构化数据文件都会有唯一的指纹信息。所谓指纹,实际上就是将数据内容映射成一个数字,每一段不同内容所映射的数字都不会相同,就好比人的指纹一样。指纹在保护数据完整性,身份识别等诸多方面有着举足轻重的作用。
102、检测指纹信息与预置二维数据表中的指纹信息之间是否符合预设指纹相似条件。
其中,所述预设指纹相似条件可以根据实际需求进行配置。所述预置二维数据表保存有用于鉴别数据内容相似性的指纹信息。
例如,可以将待校验结构化数据转换为二维数据表A,并将表A中每个单元格数据对应的哈希值作为提取的指纹信息。根据每个单元格数据在二维数据表中的所在位置,将每个单元格数据对应的哈希值与预置二维数据表B中每个单元格数据对应的哈希值分别进行匹配;预设指纹相似条件可以配置为表A中存在与表B中任意3行的任意4列的哈希值匹配的单元格数据。此时当表A与表B之间的匹配结果如下表所示,其中,下表为表B中的部分列表,“匹配”字样的标识说明该单元格数据的哈希值与表A中相对应单元格数据的哈希值匹配,可以确定表A中存在与表B中任意3行的任意4列的哈希值匹配的单元格数据,进而可以确定指纹信息与预置二维数据表中的指纹信息之间符合预设指纹相似条件。
匹配 匹配 匹配 匹配
匹配 匹配 匹配 匹配
匹配 匹配 匹配 匹配
103、若指纹信息与预置二维数据表中的指纹信息之间符合预设指纹相似条件,则确定待校验结构化数据为内容相似数据。
本发明实施例提供的一种结构化数据的指纹校验方法,首先提取待校验结构化数据中的指纹信息;然后检测所述指纹信息与预置二维数据表中的指纹信息之间是否符合预设指纹相似条件;若符合,则确定所述待校验结构化数据为内容相似数据。本发明通过对待校验结构化数据进行指纹信息提取并检测其与预置二维数据表中的指纹信息之间是否符合预设指纹相似条件,提供了对结构化数据进行指纹校验的方式,可以实现对结构化数据进行相似性分析。
本发明实施例提供了另一种结构化数据的指纹校验方法,如图2所示,所述方法包括:
201、将待校验结构化数据转换为二维数据表。
202、计算二维数据表中每个单元格数据对应的哈希值,作为提取的指纹信息。
其中,所述指纹信息的概念解释可以参考步骤101中相应描述,在此不再赘述。
203、检测指纹信息与预置二维数据表中的指纹信息之间是否符合预设指纹相似条件。
其中,所述预设指纹相似条件可以根据实际需求进行配置。所述预置二维数据表保存有用于鉴别数据内容相似性的指纹信息。
对于本发明实施例,所述步骤203具体可以包括:根据所述每个单元格数据在所述二维数据表中的所在位置,将所述每个单元格数据对应的哈希值与预置二维数据表中每个单元格数据对应的哈希值分别进行匹配;当所述二维数据表中存在与所述预置二维数据表中任意预设行数的任意预设列数的所述哈希值匹配的单元格数据时,确定所述指纹信息与所述预置二维数据表中的指纹信息之间符合所述预设指纹相似条件。其中,所述预设行数和预设列数可以根据实际需求进行配置,例如,预设行数可以为4行,预设列数可以为6列等。
对于本发明实施例,所述步骤203具体还可以包括:检测所述二维数据表中是否存在与预置二维数据表中的一个单元格数据相同哈希值的单元格数据;若存在相同哈希值的单元格数据,则获取所述单元格数据在所述二维数据表中所在行的每个单元格数据的哈希值;根据所述预置二维数据表中相同哈希值的单元格数据的所在位置,按照所述每个单元格数据相应的排列顺序,将所述每个单元格数据对应的哈希值与所述预置二维数据表中相对应行位置的每个单元格数据对应的哈希值分别进行匹配;根据所述行对应的匹配结果,确定所述指纹信息与所述预置二维数据表中的指纹信息之间是否符合所述预设指纹相似条件。
具体地,所述根据所述行对应的匹配结果,确定所述检测所述指纹信息与所述预置二维数据表中的指纹信息之间是否符合所述预设指纹相似条件包括:当所述哈希值匹配的列个数大于或等于预设列个数阈值时,记录所述二维数据表中的所述行对应的标识信息;检测记录的标识信息的个数是否大于或等于预置行数阈值;若所述个数大于或等于所述预置行数阈值,则确定所述指纹信息与所述预置二维数据表中的指纹信息之间符合所述预设指纹相似条件。其中,所述预设列个数阈值以及预置行数阈值可以根据实际需求进行配置。
例如,可以将待校验结构化数据转换为二维数据表A,当表A中存在与预置二维数据表B中的一个单元格数据相同哈希值的单元格数据M时,获取M在表A中所在行a的每个单元格数据,确定了表B中与M相同哈希值的单元格数据的所在行b,按照每个单元格数据的排列顺序,将行a中每个单元格数据的哈希值与行b中每个单元格数据的哈希值分别进行匹配,如果匹配的个数大于或等于预设列个数阈值,则记录行a的标识,以相同方式继续遍历处理,当对于表A记录的标识个数大于或等于预置行数阈值时,确定待校验结构化数据的指纹信息与预置二维数据表中的指纹信息之间是否符合预设指纹相似条件。
进一步地,所述检测所述二维数据表中是否存在与预置二维数据表中的一个单元格数据相同哈希值的单元格数据之后,还可以包括:若存在相同哈希值的单元格数据,则获取所述单元格数据在所述二维数据表中所在列的每个单元格数据的哈希值;根据所述预置二维数据表中相同哈希值的单元格数据的所在位置,按照所述每个单元格数据相应的排列顺序,将所述每个单元格数据对应的哈希值与所述预置二维数据表中相对应列位置的每个单元格数据对应的哈希值分别进行匹配;根据所述列对应的匹配结果,确定所述指纹信息与所述预置二维数据表中的指纹信息之间是否符合所述预设指纹相似条件。
具体地,所述根据所述列对应的匹配结果,确定所述检测所述指纹信息与所述预置二维数据表中的指纹信息之间是否符合所述预设指纹相似条件包括:当所述哈希值匹配的行个数大于或等于预设行个数阈值时,记录所述二维数据表中的所述列对应的标识信息;检测记录的标识信息的个数是否大于或等于预置列数阈值;若所述个数大于或等于所述预置列数阈值,则确定所述指纹信息与所述预置二维数据表中的指纹信息之间符合所述预设指纹相似条件。
需要说明的是,通过上述两种利用行或列的方式确定待校验结构化数据的指纹信息与预置二维数据表中的指纹信息之间是否符合预设指纹相似条件,可以提高检测效率。
204、若指纹信息与预置二维数据表中的指纹信息之间符合预设指纹相似条件,则确定待校验结构化数据为内容相似数据。
本发明实施例提供的另一种结构化数据的指纹校验方法,首先提取待校验结构化数据中的指纹信息;然后检测所述指纹信息与预置二维数据表中的指纹信息之间是否符合预设指纹相似条件;若符合,则确定所述待校验结构化数据为内容相似数据。本发明通过对待校验结构化数据进行指纹信息提取并检测其与预置二维数据表中的指纹信息之间是否符合预设指纹相似条件,提供了对结构化数据进行指纹校验的方式,可以实现对结构化数据进行相似性分析。
进一步地,作为图1所述方法的具体实现,本发明实施例提供了一种结构化数据的指纹校验装置,如图3所示,所述装置包括:提取单元31、检测单元32、确定单元33。
所述提取单元31,可以用于提取待校验结构化数据中的指纹信息。
所述检测单元32,可以用于检测所述提取单元31提取的指纹信息与预置二维数据表中的指纹信息之间是否符合预设指纹相似条件。
所述确定单元33,可以用于若所述检测单元32检测出所述指纹信息与预置二维数据表中的指纹信息之间符合预设指纹相似条件,则确定所述待校验结构化数据为内容相似数据。
需要说明的是,本发明实施例提供的一种结构化数据的指纹校验装置所涉及各功能单元的其他相应描述,可以参考图1中的对应描述,在此不再赘述。
本发明实施例提供的一种结构化数据的指纹校验装置,首先提取待校验结构化数据中的指纹信息;然后检测所述指纹信息与预置二维数据表中的指纹信息之间是否符合预设指纹相似条件;若符合,则确定所述待校验结构化数据为内容相似数据。本发明通过对待校验结构化数据进行指纹信息提取并检测其与预置二维数据表中的指纹信息之间是否符合预设指纹相似条件,提供了对结构化数据进行指纹校验的方式,可以实现对结构化数据进行相似性分析。
进一步地,作为图2所述方法的具体实现,本发明实施例提供了另一种结构化数据的指纹校验装置,如图4所示,所述装置包括:提取单元41、检测单元42、确定单元43。
所述提取单元41,可以用于提取待校验结构化数据中的指纹信息。
所述检测单元42,可以用于检测所述提取单元41提取的指纹信息与预置二维数据表中的指纹信息之间是否符合预设指纹相似条件。
所述确定单元43,可以用于若所述检测单元42检测出所述指纹信息与预置二维数据表中的指纹信息之间符合预设指纹相似条件,则确定所述待校验结构化数据为内容相似数据。
进一步地,所述提取单元41包括:转换模块411、计算模块412。
所述转换模块411,可以用于将所述待校验结构化数据转换为二维数据表。
所述计算模块412,可以用于计算所述转换模块转换的二维数据表中每个单元格数据对应的哈希值,作为提取的指纹信息。
进一步地,所述检测单元42包括:检测模块421、获取模块422、匹配模块423、确定模块424。
所述检测模块421,可以用于检测所述二维数据表中是否存在与预置二维数据表中的一个单元格数据相同哈希值的单元格数据。
所述获取模块422,可以用于若所述检测模块421检测出所述二维数据表中存在与预置二维数据表中的一个单元格数据相同哈希值的单元格数据,则获取所述单元格数据在所述二维数据表中所在行的每个单元格数据的哈希值。
所述匹配模块423,可以用于根据所述预置二维数据表中相同哈希值的单元格数据的所在位置,按照所述每个单元格数据相应的排列顺序,将所述每个单元格数据的哈希值与所述预置二维数据表中相对应行位置的每个单元格数据的哈希值分别进行匹配。
所述确定模块424,可以用于根据所述行对应的匹配结果,确定所述指纹信息与所述预置二维数据表中的指纹信息之间是否符合所述预设指纹相似条件。
所述确定模块424,具体可以用于当所述哈希值匹配的列个数大于或等于预设列个数阈值时,记录所述二维数据表中的所述行对应的标识信息。
所述确定模块424,具体还可以用于检测记录的标识信息的个数是否大于或等于预置行数阈值。
所述确定模块424,具体还可以用于若所述个数大于或等于所述预置行数阈值,则确定所述指纹信息与所述预置二维数据表中的指纹信息之间符合所述预设指纹相似条件。
所述获取模块422,还可以用于若存在相同哈希值的单元格数据,则获取所述单元格数据在所述二维数据表中所在列的每个单元格数据的哈希值。
所述匹配模块423,还可以用于根据所述预置二维数据表中相同哈希值的单元格数据的所在位置,按照所述每个单元格数据相应的排列顺序,将所述每个单元格数据的哈希值与所述预置二维数据表中相对应列位置的每个单元格数据的哈希值分别进行匹配。
所述确定模块424,还可以用于根据所述列对应的匹配结果,确定所述指纹信息与所述预置二维数据表中的指纹信息之间是否符合所述预设指纹相似条件。
所述确定模块424,具体可以用于当所述哈希值匹配的行个数大于或等于预设行个数阈值时,记录所述二维数据表中的所述列对应的标识信息。
所述确定模块424,具体还可以用于检测记录的标识信息的个数是否大于或等于预置列数阈值。
所述确定模块424,具体还可以用于若所述个数大于或等于所述预置列数阈值,则确定所述指纹信息与所述预置二维数据表中的指纹信息之间符合所述预设指纹相似条件。
所述匹配模块423,还可以用于根据所述每个单元格数据在所述二维数据表中的所在位置,将所述每个单元格数据对应的哈希值与预置二维数据表中每个单元格数据对应的哈希值分别进行匹配。
所述确定模块424,还可以用于当所述二维数据表中存在与所述预置二维数据表中任意预设行数的任意预设列数的所述哈希值匹配的单元格数据时,确定所述指纹信息与所述预置二维数据表中的指纹信息之间符合所述预设指纹相似条件。
需要说明的是,本发明实施例提供的另一种结构化数据的指纹校验装置所涉及各功能单元的其他相应描述,可以参考图2中的对应描述,在此不再赘述。
本发明实施例提供的另一种结构化数据的指纹校验装置,首先提取待校验结构化数据中的指纹信息;然后检测所述指纹信息与预置二维数据表中的指纹信息之间是否符合预设指纹相似条件;若符合,则确定所述待校验结构化数据为内容相似数据。本发明通过对待校验结构化数据进行指纹信息提取并检测其与预置二维数据表中的指纹信息之间是否符合预设指纹相似条件,提供了对结构化数据进行指纹校验的方式,可以实现对结构化数据进行相似性分析。
本发明的实施例公开了:
A1、一种结构化数据的指纹校验方法,其特征在于,包括:
提取待校验结构化数据中的指纹信息;
检测所述指纹信息与预置二维数据表中的指纹信息之间是否符合预设指纹相似条件;
若符合,则确定所述待校验结构化数据为内容相似数据。
A2、根据A1所述的结构化数据的指纹校验方法,其特征在于,所述提取待校验结构化数据中的指纹信息包括:
将所述待校验结构化数据转换为二维数据表;
计算所述二维数据表中每个单元格数据对应的哈希值,作为提取的指纹信息。
A3、根据A2所述的结构化数据的指纹校验方法,其特征在于,所述检测所述指纹信息与预置二维数据表中的指纹信息之间是否符合预设指纹相似条件包括:
检测所述二维数据表中是否存在与预置二维数据表中的一个单元格数据相同哈希值的单元格数据;
若存在所述相同哈希值的单元格数据,则获取所述单元格数据在所述二维数据表中所在行的每个单元格数据的哈希值;
根据所述预置二维数据表中相同哈希值的单元格数据的所在位置,按照所述每个单元格数据相应的排列顺序,将所述每个单元格数据的哈希值与所述预置二维数据表中相对应行位置的每个单元格数据的哈希值分别进行匹配;
根据所述行对应的匹配结果,确定所述指纹信息与所述预置二维数据表中的指纹信息之间是否符合所述预设指纹相似条件。
A4、根据A3所述的结构化数据的指纹校验方法,其特征在于,所述根据所述行对应的匹配结果,确定所述检测所述指纹信息与所述预置二维数据表中的指纹信息之间是否符合所述预设指纹相似条件包括:
当所述哈希值匹配的列个数大于或等于预设列个数阈值时,记录所述二维数据表中的所述行对应的标识信息;
检测记录的标识信息的个数是否大于或等于预置行数阈值;
若所述个数大于或等于所述预置行数阈值,则确定所述指纹信息与所述预置二维数据表中的指纹信息之间符合所述预设指纹相似条件。
A5、根据A3所述的结构化数据的指纹校验方法,其特征在于,所述检测所述二维数据表中是否存在与预置二维数据表中的一个单元格数据相同哈希值的单元格数据之后,所述方法还包括:
若存在所述相同哈希值的单元格数据,则获取所述单元格数据在所述二维数据表中所在列的每个单元格数据的哈希值;
根据所述预置二维数据表中相同哈希值的单元格数据的所在位置,按照所述每个单元格数据相应的排列顺序,将所述每个单元格数据的哈希值与所述预置二维数据表中相对应列位置的每个单元格数据的哈希值分别进行匹配;
根据所述列对应的匹配结果,确定所述指纹信息与所述预置二维数据表中的指纹信息之间是否符合所述预设指纹相似条件。
A6、根据A5所述的结构化数据的指纹校验方法,其特征在于,所述根据所述列对应的匹配结果,确定所述检测所述指纹信息与所述预置二维数据表中的指纹信息之间是否符合所述预设指纹相似条件包括:
当所述哈希值匹配的行个数大于或等于预设行个数阈值时,记录所述二维数据表中的所述列对应的标识信息;
检测记录的标识信息的个数是否大于或等于预置列数阈值;
若所述个数大于或等于所述预置列数阈值,则确定所述指纹信息与所述预置二维数据表中的指纹信息之间符合所述预设指纹相似条件。
A7、根据A2所述的结构化数据的指纹校验方法,其特征在于,所述检测所述指纹信息与预置二维数据表中的指纹信息之间是否符合预设指纹相似条件包括:
根据所述每个单元格数据在所述二维数据表中的所在位置,将所述每个单元格数据对应的哈希值与预置二维数据表中每个单元格数据对应的哈希值分别进行匹配;
当所述二维数据表中存在与所述预置二维数据表中任意预设行数的任意预设列数的所述哈希值匹配的单元格数据时,确定所述指纹信息与所述预置二维数据表中的指纹信息之间符合所述预设指纹相似条件。
B8、一种结构化数据的指纹校验装置,其特征在于,包括:
提取单元,用于提取待校验结构化数据中的指纹信息;
检测单元,用于检测所述提取单元提取的指纹信息与预置二维数据表中的指纹信息之间是否符合预设指纹相似条件;
确定单元,用于若所述检测单元检测出所述指纹信息与预置二维数据表中的指纹信息之间符合预设指纹相似条件,则确定所述待校验结构化数据为内容相似数据。
B9、根据B8所述的结构化数据的指纹校验装置,其特征在于,所述提取单元包括:
转换模块,用于将所述待校验结构化数据转换为二维数据表;
计算模块,用于计算所述转换模块转换的二维数据表中每个单元格数据对应的哈希值,作为提取的指纹信息。
B10、根据B9所述的结构化数据的指纹校验装置,其特征在于,所述检测单元包括:
检测模块,用于检测所述二维数据表中是否存在与预置二维数据表中的一个单元格数据相同哈希值的单元格数据;
获取模块,用于若所述检测模块检测出所述二维数据表中存在与预置二维数据表中的一个单元格数据相同哈希值的单元格数据,则获取所述单元格数据在所述二维数据表中所在行的每个单元格数据的哈希值;
匹配模块,用于根据所述预置二维数据表中相同哈希值的单元格数据的所在位置,按照所述每个单元格数据相应的排列顺序,将所述每个单元格数据的哈希值与所述预置二维数据表中相对应行位置的每个单元格数据的哈希值分别进行匹配;
确定模块,用于根据所述行对应的匹配结果,确定所述指纹信息与所述预置二维数据表中的指纹信息之间是否符合所述预设指纹相似条件。
B11、根据B10所述的结构化数据的指纹校验装置,其特征在于,
所述确定模块,具体用于当所述哈希值匹配的列个数大于或等于预设列个数阈值时,记录所述二维数据表中的所述行对应的标识信息;
所述确定模块,具体还用于检测记录的标识信息的个数是否大于或等于预置行数阈值;
所述确定模块,具体还用于若所述个数大于或等于所述预置行数阈值,则确定所述指纹信息与所述预置二维数据表中的指纹信息之间符合所述预设指纹相似条件。
B12、根据B10所述的结构化数据的指纹校验装置,其特征在于,
所述获取模块,还用于若存在相同哈希值的单元格数据,则获取所述单元格数据在所述二维数据表中所在列的每个单元格数据的哈希值;
所述匹配模块,还用于根据所述预置二维数据表中相同哈希值的单元格数据的所在位置,按照所述每个单元格数据相应的排列顺序,将所述每个单元格数据的哈希值与所述预置二维数据表中相对应列位置的每个单元格数据的哈希值分别进行匹配;
所述确定模块,还用于根据所述列对应的匹配结果,确定所述指纹信息与所述预置二维数据表中的指纹信息之间是否符合所述预设指纹相似条件。
B13、根据B12所述的结构化数据的指纹校验装置,其特征在于,所述根据所述列对应的匹配结果,确定所述检测所述指纹信息与所述预置二维数据表中的指纹信息之间是否符合所述预设指纹相似条件包括:
所述确定模块,具体用于当所述哈希值匹配的行个数大于或等于预设行个数阈值时,记录所述二维数据表中的所述列对应的标识信息;
所述确定模块,具体还用于检测记录的标识信息的个数是否大于或等于预置列数阈值;
所述确定模块,具体还用于若所述个数大于或等于所述预置列数阈值,则确定所述指纹信息与所述预置二维数据表中的指纹信息之间符合所述预设指纹相似条件。
B14、根据B10所述的结构化数据的指纹校验装置,其特征在于,
所述匹配模块,还用于根据所述每个单元格数据在所述二维数据表中的所在位置,将所述每个单元格数据对应的哈希值与预置二维数据表中每个单元格数据对应的哈希值分别进行匹配;
所述确定模块,还用于当所述二维数据表中存在与所述预置二维数据表中任意预设行数的任意预设列数的所述哈希值匹配的单元格数据时,确定所述指纹信息与所述预置二维数据表中的指纹信息之间符合所述预设指纹相似条件。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
可以理解的是,上述方法及装置中的相关特征可以相互参考。另外,上述实施例中的“第一”、“第二”等是用于区分各实施例,而并不代表各实施例的优劣。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一种结构化数据的指纹校验方法及装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (10)

1.一种结构化数据的指纹校验方法,其特征在于,包括:
提取待校验结构化数据中的指纹信息;
检测所述指纹信息与预置二维数据表中的指纹信息之间是否符合预设指纹相似条件;
若符合,则确定所述待校验结构化数据为内容相似数据。
2.根据权利要求1所述的结构化数据的指纹校验方法,其特征在于,所述提取待校验结构化数据中的指纹信息包括:
将所述待校验结构化数据转换为二维数据表;
计算所述二维数据表中每个单元格数据对应的哈希值,作为提取的指纹信息。
3.根据权利要求2所述的结构化数据的指纹校验方法,其特征在于,所述检测所述指纹信息与预置二维数据表中的指纹信息之间是否符合预设指纹相似条件包括:
检测所述二维数据表中是否存在与预置二维数据表中的一个单元格数据相同哈希值的单元格数据;
若存在所述相同哈希值的单元格数据,则获取所述单元格数据在所述二维数据表中所在行的每个单元格数据的哈希值;
根据所述预置二维数据表中相同哈希值的单元格数据的所在位置,按照所述每个单元格数据相应的排列顺序,将所述每个单元格数据的哈希值与所述预置二维数据表中相对应行位置的每个单元格数据的哈希值分别进行匹配;
根据所述行对应的匹配结果,确定所述指纹信息与所述预置二维数据表中的指纹信息之间是否符合所述预设指纹相似条件。
4.根据权利要求3所述的结构化数据的指纹校验方法,其特征在于,所述根据所述行对应的匹配结果,确定所述检测所述指纹信息与所述预置二维数据表中的指纹信息之间是否符合所述预设指纹相似条件包括:
当所述哈希值匹配的列个数大于或等于预设列个数阈值时,记录所述二维数据表中的所述行对应的标识信息;
检测记录的标识信息的个数是否大于或等于预置行数阈值;
若所述个数大于或等于所述预置行数阈值,则确定所述指纹信息与所述预置二维数据表中的指纹信息之间符合所述预设指纹相似条件。
5.根据权利要求3所述的结构化数据的指纹校验方法,其特征在于,所述检测所述二维数据表中是否存在与预置二维数据表中的一个单元格数据相同哈希值的单元格数据之后,所述方法还包括:
若存在所述相同哈希值的单元格数据,则获取所述单元格数据在所述二维数据表中所在列的每个单元格数据的哈希值;
根据所述预置二维数据表中相同哈希值的单元格数据的所在位置,按照所述每个单元格数据相应的排列顺序,将所述每个单元格数据的哈希值与所述预置二维数据表中相对应列位置的每个单元格数据的哈希值分别进行匹配;
根据所述列对应的匹配结果,确定所述指纹信息与所述预置二维数据表中的指纹信息之间是否符合所述预设指纹相似条件。
6.根据权利要求5所述的结构化数据的指纹校验方法,其特征在于,所述根据所述列对应的匹配结果,确定所述检测所述指纹信息与所述预置二维数据表中的指纹信息之间是否符合所述预设指纹相似条件包括:
当所述哈希值匹配的行个数大于或等于预设行个数阈值时,记录所述二维数据表中的所述列对应的标识信息;
检测记录的标识信息的个数是否大于或等于预置列数阈值;
若所述个数大于或等于所述预置列数阈值,则确定所述指纹信息与所述预置二维数据表中的指纹信息之间符合所述预设指纹相似条件。
7.根据权利要求2所述的结构化数据的指纹校验方法,其特征在于,所述检测所述指纹信息与预置二维数据表中的指纹信息之间是否符合预设指纹相似条件包括:
根据所述每个单元格数据在所述二维数据表中的所在位置,将所述每个单元格数据对应的哈希值与预置二维数据表中每个单元格数据对应的哈希值分别进行匹配;
当所述二维数据表中存在与所述预置二维数据表中任意预设行数的任意预设列数的所述哈希值匹配的单元格数据时,确定所述指纹信息与所述预置二维数据表中的指纹信息之间符合所述预设指纹相似条件。
8.一种结构化数据的指纹校验装置,其特征在于,包括:
提取单元,用于提取待校验结构化数据中的指纹信息;
检测单元,用于检测所述提取单元提取的指纹信息与预置二维数据表中的指纹信息之间是否符合预设指纹相似条件;
确定单元,用于若所述检测单元检测出所述指纹信息与预置二维数据表中的指纹信息之间符合预设指纹相似条件,则确定所述待校验结构化数据为内容相似数据。
9.根据权利要求8所述的结构化数据的指纹校验装置,其特征在于,所述提取单元包括:
转换模块,用于将所述待校验结构化数据转换为二维数据表;
计算模块,用于计算所述转换模块转换的二维数据表中每个单元格数据对应的哈希值,作为提取的指纹信息。
10.根据权利要求9所述的结构化数据的指纹校验装置,其特征在于,所述检测单元包括:
检测模块,用于检测所述二维数据表中是否存在与预置二维数据表中的一个单元格数据相同哈希值的单元格数据;
获取模块,用于若所述检测模块检测出所述二维数据表中存在与预置二维数据表中的一个单元格数据相同哈希值的单元格数据,则获取所述单元格数据在所述二维数据表中所在行的每个单元格数据的哈希值;
匹配模块,用于根据所述预置二维数据表中相同哈希值的单元格数据的所在位置,按照所述每个单元格数据相应的排列顺序,将所述每个单元格数据的哈希值与所述预置二维数据表中相对应行位置的每个单元格数据的哈希值分别进行匹配;
确定模块,用于根据所述行对应的匹配结果,确定所述指纹信息与所述预置二维数据表中的指纹信息之间是否符合所述预设指纹相似条件。
CN201510997620.1A 2015-12-25 2015-12-25 结构化数据的指纹校验方法及装置 Active CN105608205B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510997620.1A CN105608205B (zh) 2015-12-25 2015-12-25 结构化数据的指纹校验方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510997620.1A CN105608205B (zh) 2015-12-25 2015-12-25 结构化数据的指纹校验方法及装置

Publications (2)

Publication Number Publication Date
CN105608205A true CN105608205A (zh) 2016-05-25
CN105608205B CN105608205B (zh) 2019-05-14

Family

ID=55988144

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510997620.1A Active CN105608205B (zh) 2015-12-25 2015-12-25 结构化数据的指纹校验方法及装置

Country Status (1)

Country Link
CN (1) CN105608205B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110046180A (zh) * 2019-01-10 2019-07-23 阿里巴巴集团控股有限公司 一种用于定位相似实例的方法、装置和电子设备
CN110704645A (zh) * 2019-08-22 2020-01-17 中国人民解放军军事科学院评估论证研究中心 一种基于指纹的语料库全文检索方法及系统
CN112667144A (zh) * 2019-10-16 2021-04-16 北京白山耘科技有限公司 数据块构建及比较方法、装置、介质及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103023796A (zh) * 2012-12-25 2013-04-03 中国科学院深圳先进技术研究院 网络数据压缩方法和系统
CN104317823A (zh) * 2014-09-30 2015-01-28 北京合力思腾科技股份有限公司 一种利用数据指纹进行数据检测的方法
US20170337418A1 (en) * 2015-08-28 2017-11-23 Boe Technology Group Co., Ltd. Fingerprint identification element, fingerprint identification method, display device and display apparatus

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103023796A (zh) * 2012-12-25 2013-04-03 中国科学院深圳先进技术研究院 网络数据压缩方法和系统
CN104317823A (zh) * 2014-09-30 2015-01-28 北京合力思腾科技股份有限公司 一种利用数据指纹进行数据检测的方法
US20170337418A1 (en) * 2015-08-28 2017-11-23 Boe Technology Group Co., Ltd. Fingerprint identification element, fingerprint identification method, display device and display apparatus

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110046180A (zh) * 2019-01-10 2019-07-23 阿里巴巴集团控股有限公司 一种用于定位相似实例的方法、装置和电子设备
CN110046180B (zh) * 2019-01-10 2023-10-27 创新先进技术有限公司 一种用于定位相似实例的方法、装置和电子设备
CN110704645A (zh) * 2019-08-22 2020-01-17 中国人民解放军军事科学院评估论证研究中心 一种基于指纹的语料库全文检索方法及系统
CN112667144A (zh) * 2019-10-16 2021-04-16 北京白山耘科技有限公司 数据块构建及比较方法、装置、介质及设备

Also Published As

Publication number Publication date
CN105608205B (zh) 2019-05-14

Similar Documents

Publication Publication Date Title
CN109918560B (zh) 一种基于搜索引擎的问答方法和装置
CN111737499B (zh) 基于自然语言处理的数据搜索方法及相关设备
CN110795482B (zh) 数据对标方法、装置、及存储装置
CN105653984A (zh) 文件指纹校验方法及装置
Ji et al. A source code linearization technique for detecting plagiarized programs
CN109543663A (zh) 一种犬只身份识别方法、装置、系统及存储介质
CN109189888B (zh) 电子装置、侵权分析的方法及存储介质
CA2610208A1 (en) Learning facts from semi-structured text
CN103823896A (zh) 一种学科特征值算法及基于其的项目评审专家推荐算法
JP6987209B2 (ja) ディープラーニングに基づく文書類似度測定モデルを利用した重複文書探知方法およびシステム
CN110110325B (zh) 一种重复案件查找方法和装置、计算机可读存储介质
CN104714950A (zh) 用于对数据库中的信息进行修正及补充的方法及系统
CN106095972B (zh) 一种信息分类方法及装置
CN113139387A (zh) 语义纠错方法、电子设备及存储介质
CN104091164A (zh) 人脸图片人名识别方法和系统
CN103605691A (zh) 用于处理社交网络中发布内容的装置和方法
CN111475700A (zh) 一种数据提取方法及相关设备
CN105608205A (zh) 结构化数据的指纹校验方法及装置
CN105302626A (zh) Xps结构化数据的解析方法
CN103617192A (zh) 一种数据对象的聚类方法和装置
CN112015806A (zh) 区块链存储数据的方法及装置
Hakak et al. Diacritical digital Quran authentication model
Huo et al. Logvm: Variable semantics miner for log messages
CN110929519B (zh) 实体属性抽取方法及装置
CN116226391A (zh) 一种特定领域人名纠错方法及系统、存储介质及终端

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 100088 room 112, block D, 28 new street, new street, Xicheng District, Beijing (Desheng Park)

Co-patentee after: QAX Technology Group Inc.

Patentee after: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Address before: 100088 room 112, block D, 28 new street, new street, Xicheng District, Beijing (Desheng Park)

Co-patentee before: BEIJING QIANXIN TECHNOLOGY Co.,Ltd.

Patentee before: BEIJING QIHOO TECHNOLOGY Co.,Ltd.