CN110196834A - 一种用于数据项、文件、数据库的对标方法和系统 - Google Patents
一种用于数据项、文件、数据库的对标方法和系统 Download PDFInfo
- Publication number
- CN110196834A CN110196834A CN201910424014.9A CN201910424014A CN110196834A CN 110196834 A CN110196834 A CN 110196834A CN 201910424014 A CN201910424014 A CN 201910424014A CN 110196834 A CN110196834 A CN 110196834A
- Authority
- CN
- China
- Prior art keywords
- data
- data item
- mark
- item
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/11—File system administration, e.g. details of archiving or snapshots
- G06F16/116—Details of conversion of file system types or formats
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/14—Details of searching files based on file metadata
- G06F16/156—Query results presentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/16—File or folder operations, e.g. details of user interfaces specifically adapted to file systems
- G06F16/164—File meta data generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Library & Information Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明给出了一种用于数据项、文件、数据库的对标方法和系统,包括利用数据项与标准数据元进行完全匹配,直接获取与数据项对标的标准数据元;对无法完全匹配的数据项进行语义分析,选择语义相似度最高的标准数据元作为与数据项对标的标准数据元;对于语义分析无法匹配的数据项,基于数据项的数值特征规则将数据项的数值聚合为数据集,同时将标准数据元的数值聚合形成标准数据元数值特征库;利用余弦相似度算法对符合同一数值特征规则数据集和标准数据元数值特征库进行相似度分析,获得与数据集的数据项对标的标准数据元。通过多角度的分析比对,可以有效的提升数据项对标的速度和准确性。
Description
技术领域
本发明涉及计算机技术领域,尤其是一种用于数据项、文件、数据库的对标方法和系统。
背景技术
在信息化时代,数据已经成为重要的生产要素和社会财富甚至国家间竞争的关键资源。我国十分重视大数据发展,并在各级政府机关中实施国家大数据战略。大数据技术保障各级政府机关数据的全面性和准确性,加速不同部门之间的数据共享,推动各级政府机关的信息化水平发展。如在公安行业,由于信息化建设迅速发展,各部门都建立了相应的管理系统,有效地提高了工作效率和管理水平,人口信息、出入境信息、交通管理信息等大量基础数据为公安信息化建设步入高速发展通道奠定了坚实的基础。
目前公安各级部门拥有大量数据资源,但各部门使用数据元标准规范来设计数据表的程度不一,数据项描述也不统一,直接影响到数据质量,导致各部门数据资源共享程度较差。为此依据标准数据元与数据项对标的方式来规范数据项信息,实现所有数据项使用统一的标准数据元来描述,从而提高数据资源质量,为各部门提供更广泛的共享支持。
数据项对标方式主要分为两类,一是采用人工对标,这种方式比较费时费力;二是采用自动匹配算法方式对标,它可有效提高工作效率。目前标准数据元与数据项的匹配算法主要是利用数据项字面相似度实现对标,这种算法对数据项命名结构规范有较强依赖,且大多业务数据的数据项命名不规范,所以数据项对标率比较低。
发明内容
本发明提出了一种用于数据项、文件、数据库的对标方法和系统。
在一个方面,本发明提出了一种用于数据项的对标方法,包括以下步骤:
S1:利用数据项与标准数据元进行完全匹配,直接获取与数据项对标的标准数据元;
S2:对无法完全匹配的数据项进行语义分析,选择语义相似度最高的标准数据元作为与数据项对标的标准数据元;
S3:对于语义分析无法匹配的数据项,基于数据项的数值特征规则将数据项的数值聚合为数据集,同时将标准数据元的数值聚合形成标准数据元数值特征库;
S4:利用余弦相似度算法对符合同一数值特征规则数据集和标准数据元数值特征库进行相似度分析,获得与数据集的数据项对标的标准数据元。
在具体的实施例中,数据项完全匹配的内容包括数据项的名称、标识符、数据类型和长度。通过从数据项的名称、标识符、数据类型和长度多个角度进行分析比对,可以有效的匹配实现对标。
在具体的实施例中,数据项的语义分析的内容包括数据项的名称、同义词、描述内容、对象词类、特性词和表示词。通过语义分析可以有效的处理数据项名称使用缩略语或数据项名称为说明性描述的情况。
在具体的实施例中,数值特征规则具体为:
日期类型:格式参照是YYYYMMDD;
日期时间类型:格式参照是YYYYMMDDhhmmss;
地址类型:格式是XX省XX市XX区XX街道X号XX楼X单元X号;
电话号码类型:正则表达式规则是(\(\d{3,4}\)|\d{3,4}-|\s)?\d{7,14};
网络链接类型:正则表达式规则是(h|H)(r|R)(e|E)(f|F)*=*('|")?(\w|\\|\/|\.)+('|"|*|>)?;
邮箱类型:正则表达式规则是\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*;
图片链接类型:正则表达式规则是(s|S)(r|R)(c|C)*=*('|")?(\w|\\|\/|\.)+('|"|*|>)?;
IP地址类型:正则表达式规则是(\d+)\.(\d+)\.(\d+)\.(\d+);
身份证号码类型:正则表达式规则是\d{18}|\d{15};
指示符类型:两个且只有两个表明条件的值。
在优选的实施例中,步骤S4中数据项与标准数据元对标的条件为相似度大于相似度阈值且满足值域规则。利用值域规格进行验证进一步保证了对标结果的准确性。
在优选的实施例中,相似度阈值大于等于50%。相似度阈值的设定便于减少验证的数据量,可根据实际应用需求调整至较佳的值,提高对标的效率。
根据本发明的第二方面,提出了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被计算机处理器执行时上述方法。
根据本发明的第三方面,提出了一种用于文件的对标方法,包括利用文件格式上传需要对标的数据;利用上述方法中任一项的方法进行数据项对标,并将对标结果以文件格式输出。
在优选的实施例中,文件格式包括Word、Excel和PDF。多种文件格式的可选择性提高了对标系统的使用性能。
根据本发明的第四方面,提出一种用于数据库的对标方法,该方法包括:
枚举数据库的数据资源表,利用权利要求上述方法中任一项的方法执行数据资源表的数据项对标任务;
利用数据资源表的数据项对标的结果计算数据库的对标率值和标准化率值。
凭借数据库的对标方法获得对标率值和标准率值可以反映数据库中数据资源表和数据项的对标情况,可作为数据库对标情况的评估参考。
根据本发明的第五方面,提出了一种用于数据项的对标系统,该系统包括:
完全匹配单元,配置用于利用数据项与标准数据元进行完全匹配,直接获取与所述数据项对标的所述标准数据元;
语义分析单元,配置用于对无法完全匹配的数据项进行语义分析,选择语义相似度最高的标准数据元作为与所述数据项对标的所述标准数据元;
聚合单元,配置用于对于语义分析无法匹配的数据项,基于所述数据项的数值特征规则将所述数据项的数值聚合为数据集,同时将所述标准数据元的数值聚合形成标准数据元数值特征库;
数据集对标单元,配置用于利用余弦相似度算法对符合同一数值特征规则所述数据集和所述标准数据元数值特征库进行相似度分析,获得与所述数据集的数据项对标的所述标准数据元。
在优选的实施例中,还包括对标结果库,配置用于保存对标生成的数据结果。保存地标结果可作为后续服务的数据支持。
在优选的实施例中,系统通过WebService服务接口方式对外提供服务。通过服务接口可以对外提供查询服务和下载服务,提升了系统的实际使用能力。
根据本发明的第六方面,提出了一种用于文件的对标系统,该系统包括:
如上述系统中的任一个用于数据项的对标系统;
数据上传单元,配置用于利用文件格式上传需要对标的数据;
结果输出单元,配置用于将对标结果以文件格式输出。
根据本发明的第七方面,提出了一种用于数据库的对标系统,该系统包括:
数据库对标单元,配置用于枚举数据库的数据资源表,利用上述系统中的任一个用于数据项对标的系统执行数据资源表的数据项对标任务;
计算单元,配置用于利用数据资源表的数据项对标的结果计算数据库的对标率值和标准化率值。
本发明通过对数据项的名称、标识符、数据类型和长度进行完全匹配,对无法完全匹配的数据项进行语义分析后选择相似度最高的标准数据元作为对标的结果,针对语义分析无法匹配的数据项,基于数据项的数值特征规则进行数值聚合后,结合相似度和值域进行数据项的对标和验证。通过上述方法逐步缩小的数据的范围,解决了数据项命名不规则所引起的无法对标的问题,从而实现数据项与标准数据元的有效匹配,另外还提供了文件和数据库的对标方法来适应不同业务场景的使用需求。
附图说明
包括附图以提供对实施例的进一步理解并且附图被并入本说明书中并且构成本说明书的一部分。附图图示了实施例并且与描述一起用于解释本发明的原理。将容易认识到其它实施例和实施例的很多预期优点,因为通过引用以下详细描述,它们变得被更好地理解。通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本发明的一个实施例的用于数据项的对标方法的流程图;
图2是本发明的一个具体的实施例的数据项对标方法的流程图;
图3是本发明的一个实施例的用于文件的对标方法流程图;
图4是本发明的一个实施例的用于数据库的对标方法流程图;
图5是本发明的一个实施例的用于数据项的对标系统的框架图;
图6是本发明的一个具体的实施例的数据项对标系统中的对标服务接口框架图;
图7是本发明的一个实施例的用于文件的对标系统的框架图;
图8是本发明的一个实施例的用于数据库的对标系统的框架图;
图9是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
根据本发明的一个实施例的用于数据项的对标方法,图1示出了根据本发明的实施例的用于数据项的对标方法的流程图。如图1所示,该方法包括以下步骤:
S101:利用数据项与标准数据元进行完全匹配,直接获取与数据项对标的标准数据元。完全匹配可以直接将数据项与标准数据元进行匹配,直接获得与数据项完全匹配的标准数据元。
在具体的实施例中,根据数据项名称、数据项标识符、数据类型、长度与标准数据元的数据元名称、数据元标识符、数据类型、长度进行匹配,如果每一个维度都能匹配成功则在该数据项标上“通过”标记并统一存储起来,对于“不通过”数据项则提供下一阶段处理。通过这阶段把成功匹配的标准数据元的数据项与匹配不成功的数据项进行筛选,能够减少下一阶段的处理工作,提高处理速度。
S102:对无法完全匹配的数据项进行语义分析,选择语义相似度最高的标准数据元作为与数据项对标的标准数据元。通过语义分析可以有效处理数据项名称为缩略语或数据项名称为说明性描述的情况。
在具体的实施例中,根据那些不能完全匹配成功的数据项再进一步分析,在数据项名称信息完整情况下,系统将按照数据项名称进行语义分析,再与标准数据元的名称、同义词、描述内容、对象类词、特性词、表示词等多个维度进行综合分析,选择相似度最高的标准数据元为所对标的标准数据元。通过这阶段能够有效处理数据项名称使用缩略语或数据项名称为说明性描述的情况。仍未能匹配的数据项将在下一阶段进行分析。
S103:对于语义分析无法匹配的数据项,基于数据项的数值特征规则将数据项的数值聚合为数据集,同时将标准数据元的数值聚合形成标准数据元数值特征库。
在优选的实施例中,数值特征规则总结如下:
日期类型,它是指年月日,格式参照是YYYYMMDD,需要数据项数值按照此格式转换;
日期时间类型,它是指年月日中的特定时间点,格式参照是YYYYMMDDhhmmss,需要数据项数值按照此格式转换;
地址类型,它的格式是XX省XX市(县)XX区(乡镇)XX街道X号XX楼X单元X号;
电话号码类型,它包括移动和固定电话,正则表达式规则是(\(\d{3,4}\)|\d{3,4}-|\s)?\d{7,14};
网络链接类型,它的正则表达式规则是(h|H)(r|R)(e|E)(f|F)*=*('|")?(\w|\\|\/|\.)+('|"|*|>)?;
网络邮件地址类型,它的正则表达式规则是\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*;
图片链接类型,它的正则表达式规则是(s|S)(r|R)(c|C)*=*('|")?(\w|\\|\/|\.)+('|"|*|>)?;
IP地址类型,它的正则表达式规则是(\d+)\.(\d+)\.(\d+)\.(\d+);
身份证号码类型,它的正则表达式规则是\d{18}|\d{15};
指示符类型,它是两个且只有两个表明条件的值,如on/off、true/false、是/否等。
应当认识到,数值特征规则除了上述规则之外,还可以具有其他类型规则,例如代码类型:一组值中的一个值的字符串(字母、数字、符号),这些数据相对标准,如果内容相似基本上是可以确认其标准数据元,如机关代码、行政区划代码、性别代码等等。同样可以作为数值特征规则进行聚合,实现本发明的技术效果。
在优选的实施例中,对于数据量在千万级别以上的数据资源,按照随机抽样方式抽取10份每份1万条的数据集合再进行聚合。合理设置数据集的大小可提升对标的效率。
S104:利用余弦相似度算法对符合同一数值特征规则数据集和标准数据元数值特征库进行相似度分析,获得与数据集的数据项对标的标准数据元。
在优选的实施例中,数据项与数据元对标的条件为同时满足相似度大于相似度阈值且满足标准数据元的值域规则。相似度阈值一般设置为大于等于50%的值,但应当认识到,在一些特定的应用场景例如模糊搜索匹配的情况下,相似度阈值可以根据需要进行调整至低于50%的值。
图2示出了本发明的一个具体的实施例的数据项对标方法的流程图。该方法具体包括以下步骤:
S201:输入数据项信息。数据项信息包括数据项名称、数据项标识符、数据类型、长度与标准数据元的数据元名称、数据元标识符、数据类型、长度等信息。
S202:完全匹配。将输入的数据项信息与标准数据元进行完全匹配,匹配的信息包括数据项名称、数据项标识符、数据类型、长度与标准数据元的数据元名称、数据元标识符、数据类型、长度等信息。完全匹配可以直接获得与数据项完全一致的标准数据元。
S203:判断是否匹配。如果每一个维度都能匹配成功的就会在该数据项标上“通过”标记并统一存储起来,输出对标结果。对于“不通过”数据项则提供下一阶段处理。通过这阶段把成功匹配的标准数据元的数据项与匹配不成功的数据项进行筛选,目的是能够减少下一阶段的处理工作,提高处理速度。
S204:语义分析。按照数据项名称进行语义分析,再与标准数据元的名称、同义词、描述内容、对象类词、特性词、表示词等多个维度进行综合分析,通过相似度判断与数据项对标的标准数据元。
S205:判断是否匹配。选择相似度高的标准数据元为所对标的标准数据元,输出对标结果。通过这阶段能够有效处理数据项名称使用缩略语或数据项名称为说明性描述的情况。仍未能匹配的数据项进入下一阶段进行分析。
S206:统计分析。对于语义分析无法匹配的数据项,根据数据项的数值进行聚合,同时,依据标准数据元的数值进行整合形成标准数据元数值特征库。把数据项的数值聚合后的数据集与标准数据元数值特征库进行余弦相似性算法进行相似度分析,当相似度大于0.5再使用标准数据元的值域规则进行验证,通过验证则可实现数据项与标准数据元对标。
S207:输出结果。通过完全匹配、语义分析和统计分析三个阶段逐步对数据项进行匹配,输出与数据项对标的标准数据元的信息。提高数据项与标准数据元对标效率。
图3示出了根据本发明的一个实施例的用于文件的对标方法流程图。该方法具体包括以下步骤:
S301:利用文件格式上传需要对标的数据。基于Excel格式将所需对标的数据上传至系统中。可替代的,上传的格式可以为处除了Excel格式之外其他格式,例如Word、PDF等,同样可以实现本发明的技术效果。
S302:数据项对标。利用图1中的数据项对标方法对文件中的数据项进行数据项对标处理,获得与该数据项对标的标准数据元信息。
S303:将对标结果以文件格式输出。将步骤S302中符合标准数据元情况的信息生成对标报告以相应的文件格式输出。
图4示出了根据本发明的一个实施例的用于数据库的对标方法流程图。该方法具体包括以下步骤:
S401:枚举数据库的数据资源表,执行数据资源表的数据项对标任务。利用如图1中的数据项对标方法执行数据项的对标任务。
在具体的实施例中,对后台数据资源表进行枚举,或根据指定的数据表进行数据项对标处理。检查数据资源表的数据结构,分析其数据项名称、数据项标识符、数据类型、长度等属性信息与标准数据元进行匹配。
S402:利用数据资源表的数据项对标的结果计算数据库的对标率值和标准化率值。
在优选的实施例中,按照百分比对数据项的符合程度进行统计展现。评估方式有对标率评估和标准化率评估,主要公式如下:
对标率计算公式:已完成对标数据资源表数量/总数据资源表数量*100%;
标准化率计算公式:匹配标准数据元的数据项数量/总数据项数量*100%。
通过对标率计算公式可以反映业务数据库中开展标准数据元对标情况,通过标准化率计算公式可以反映数据资源表中符合标准数据元的数据项情况。
针对以数据库形式(如:Oracle、MySQL、Greenplum)存储的数据资源,提供在线自动对标能力,系统依据数据项对标方法,对数据库的数据资源表进行数据项对标,确认其符合标准数据元要求,并生成对标报告。
图5示出了根据本发明的另一实施例的用于数据项的对标系统。该系统具体包括完全匹配单元501、语义分析单元502、聚合单元503和数据集对标单元504。
在具体的实施例中,完全匹配单元501,配置用于利用数据项与标准数据元进行完全匹配,直接获取与所述数据项对标的所述标准数据元;
语义分析单元502,配置用于对无法完全匹配的数据项进行语义分析,选择语义相似度最高的所述标准数据元作为与所述数据项的对标的所述标准数据元;
聚合单元503,配置用于将无中文名数据项的数值聚合为数据集,同时将所述标准数据元的数值整合形成标准数据元数值特征库;
数据集对标单元504,配置用于利用所述数据集与所述标准数据元数值特征库的相似度分析,获得与所述数据集对标的所述标准数据元数值特征。
在优选的实施例中,该系统还可以通过对标服务接口提供数据项对标功能,图6所示的数据项对标系统中的对标服务接口框架图。该服务接口包括作业调度计划602、对标结果库603、WebService服务601、数据项对标主程序604、标准数据元特征库605和标准数据元库606。系统通过服务接口方式提供数据项对标功能,满足其它应用程序调用。
计划作业调度602:根据服务请求时间,生成作业计划,作业调度程序将调用数据项对标程序生成对标结果,并把结果保存到对标结果库603。
对标结果库603:保存作业调度计划生成的结果,为WebService服务作支撑。
WebService服务601:对对标结果库数据以WebService服务接口方式对外提供查询服务与下载服务。系统支持SOAP WebService和RESTful WebService两种服务方式。
在具体的实施例中,需要使用数据项对标服务的应用调用系统发布的WebService服务601,并按照规定格式提供需要对标的数据资源;作业调度计划将每个服务请求按照时间生成作业计划,通过作业调度计划602调用数据项对标主程序604在标准数据源特征库605和标准数据元库606中匹配生成对标结果,并按原路返回应用,同时把结果保存到对标结果库603。
根据本发明的实施例的用于文件的对标系统。图7示出了根据本发明的实施例的用于文件的对标系统。如图7所示,该系统包括数据上传单元701、对标系统702和结果输出单元703。
数据上传单元701,配置用于利用文件格式上传需要对标的数据。基于Excel格式将所需对标的数据上传至系统中。可替代的,上传的格式可以为处除了Excel格式之外其他格式,例如Word、PDF等,同样可以实现本发明的技术效果。
对标系统702,配置用于利用图1中的数据项对标方法对文件中的数据项进行数据项对标处理,获得与该数据项对标的标准数据元信息。
结果输出单元703,配置用于将符合标准数据元情况的数据项信息生成对标报告以相应的文件格式输出。
图8示出了根据本发明的另一实施例的用于数据库的对标系统。该系统具体包括数据库对标单元801和计算单元802。
数据库对标单元801,配置用于枚举数据库的数据资源表,执行数据资源表的数据项对标任务。利用如图1中的数据项对标方法执行数据项的对标任务。
在具体的实施例中,对后台数据资源表进行枚举,或根据指定的数据表进行数据项对标处理。检查数据资源表的数据结构,分析其数据项名称、数据项标识符、数据类型、长度等属性信息与标准数据元进行匹配。
计算单元802,配置用于利用数据资源表的数据项对标的结果计算数据库的对标率值和标准化率值。主要公式如下:
对标率计算公式:已完成对标数据资源表数量/总数据资源表数量*100%;
标准化率计算公式:匹配标准数据元的数据项数量/总数据项数量*100%。
该系统的各个单元可以在专用硬件上实施,也可以在通用的可编程逻辑器件中实施,或者由软硬件组合体来实施。
本发明的实施例还涉及一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被计算机处理器执行时实施上文中的方法。该计算机程序包含用于执行流程图所示的方法的程序代码。需要说明的是,本申请的计算机可读介质可以是计算机可读信号介质或者计算机可读介质或者是上述两者的任意组合。
下面参考图9,其示出了适于用来实现本申请实施例的电子设备(例如图1所示的低密级主机、高密级主机、第一警告设备、第二警告设备)的计算机系统900的结构示意图。图9示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图9所示,计算机系统900包括中央处理单元(CPU)901,其可以根据存储在只读存储器(ROM)902中的程序或者从存储部分908加载到随机访问存储器(RAM)903中的程序而执行各种适当的动作和处理。在RAM 903中,还存储有系统900操作所需的各种程序和数据。CPU 901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。
以下部件连接至I/O接口905:包括键盘、鼠标等的输入部分906;包括诸如液晶显示器(LCD)等以及扬声器等的输出部分907;包括硬盘等的存储部分908;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器910上,以便于从其上读出的计算机程序根据需要被安装入存储部分908。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部909从网络上被下载和安装,和/或从可拆卸介质911被安装。在该计算机程序被中央处理单元(CPU)901执行时,执行本申请的方法中限定的上述功能。
需要说明的是,本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读介质或者是上述两者的任意组合。计算机可读介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
根据本发明的一种人脸识别算法引擎的评测、调用方法和系统,通过将算法引擎的调用方式和输出内容转换为统一的调用方式和内容格式,进而对算法引擎的准确性、性能进行综合评测,准确性评测具体包括对重点库、常住人口库、人证一致的准确性评测,加权叠加生成准确性评分结果,并结合性能评分获得算法引擎的综合评分数据并生成包括各项数据和综合数据评测报告。解决了现有算法引擎提供的调度方式和定义数据内容格式不统一,比对结果准确性没有长期和在线动态的评估方式,无法实现集成对各算法引擎进行获取达到归一化输出的缺点。进行合理评测,充分发挥了各引擎的优势特点,一方面可以为作为人脸识别算法引擎调用的基础,另一方面也可为人脸识别平台的综合比对能力进行备选引擎的储备。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (15)
1.一种用于数据项的对标方法,其特征在于,包括以下步骤:
S1:利用数据项与标准数据元进行完全匹配,直接获取与所述数据项对标的所述标准数据元;
S2:对无法完全匹配的数据项进行语义分析,选择语义相似度最高的标准数据元作为与所述数据项对标的所述标准数据元;
S3:对于语义分析无法匹配的数据项,基于所述数据项的数值特征规则将所述数据项的数值聚合为数据集,同时将所述标准数据元的数值聚合形成标准数据元数值特征库;
S4:利用余弦相似度算法对符合同一数值特征规则所述数据集和所述标准数据元数值特征库进行相似度分析,获得与所述数据集的数据项对标的所述标准数据元。
2.根据权利要求1所述的用于数据项的对标方法,其特征在于,所述数据项完全匹配的内容包括所述数据项的名称、标识符、数据类型和长度。
3.根据权利要求1所述的一种用于数据项的对标方法,其特征在于,所述数据项的语义分析的内容包括数据项的名称、同义词、描述内容、对象词类、特性词和表示词。
4.根据权利要求1所述的用于数据项的对标方法,其特征在于,所述数值特征规则具体为:
日期类型:格式参照是YYYYMMDD;
日期时间类型:格式参照是YYYYMMDDhhmmss;
地址类型:格式是XX省XX市XX区XX街道X号XX楼X单元X号;
电话号码类型:正则表达式规则是:(\(\d{3,4}\)|\d{3,4}-|\s)?\d{7,14};
网络链接类型:正则表达式规则是(h|H)(r|R)(e|E)(f|F)*=*('|")?(\w|\\|\/|\.)+('|"|*|>)?;
网络邮件类型:正则表达式规则是\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*;
图片链接类型:正则表达式规则是(s|S)(r|R)(c|C)*=*('|")?(\w|\\|\/|\.)+('|"|*|>)?;
IP地址类型:正则表达式规则是:(\d+)\.(\d+)\.(\d+)\.(\d+);
身份证号码类型:正则表达式规则是:\d{18}|\d{15};
指示符类型:两个且只有两个表明条件的值。
5.根据权利要求1所述的用于数据项的对标方法,其特征在于,所述步骤S4中所述数据项与所述标准数据元对标的条件为所述相似度大于相似度阈值且满足值域规则。
6.根据权利要求5所述的用于数据项的对标方法,其特征在于,所述相似度阈值大于等于50%。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被计算机处理器执行时实施权利要求1至6中任一项所述的方法。
8.一种用于文件的对标方法,其特征在于,所述方法包括:利用文件格式上传需要对标的数据;利用权利要求1至6中任一项所述的方法进行数据项对标,并将对标结果以文件格式输出。
9.根据权利要求8所述的用于文件的对标方法,其特征在于,所述文件格式包括Word、Excel和PDF。
10.一种用于数据库的对标方法,其特征在于,所述方法包括:
枚举所述数据库的数据资源表,利用权利要求1至6中任一项所述的方法执行所述数据资源表的数据项对标任务;
利用所述数据资源表的数据项对标的结果计算所述数据库的对标率值和标准化率值。
11.一种用于数据项的对标系统,其特征在于,所述系统包括:
完全匹配单元,配置用于利用数据项与标准数据元进行完全匹配,直接获取与所述数据项对标的所述标准数据元;
语义分析单元,配置用于对无法完全匹配的数据项进行语义分析,选择语义相似度最高的所述标准数据元作为与所述数据项的对标的所述标准数据元;
聚合单元,配置用于将无中文名数据项的数值聚合为数据集,同时将所述标准数据元的数值整合形成标准数据元数值特征库;
数据集对标单元,配置用于利用所述数据集与所述标准数据元数值特征库的相似度分析,获得与所述数据集对标的所述标准数据元数值特征。
12.根据权利要求11所述的用于数据项的对标系统,其特征在于,还包括对标结果库,配置用于保存对标生成的数据结果。
13.根据权利要求11所述的用于数据项的对标系统,其特征在于,所述系统通过WebService服务接口方式对外提供服务。
14.一种用于文件的对标系统,其特征在于,所述系统包括:
如权利要求11至13中的任一个用于数据项的对标系统;
数据上传单元,配置用于利用文件格式上传需要对标的数据;
结果输出单元,配置用于将对标结果以文件格式输出。
15.一种用于数据库的对标系统,其特征在于,所述系统包括:
数据库对标单元,配置用于枚举所述数据库的数据资源表,利用权利要求11至13中的任一个用于数据项对标的系统执行所述数据资源表的数据项对标任务;
计算单元,配置用于利用所述数据资源表的数据项对标的结果计算所述数据库的对标率值和标准化率值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910424014.9A CN110196834B (zh) | 2019-05-21 | 2019-05-21 | 一种用于数据项、文件、数据库的对标方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910424014.9A CN110196834B (zh) | 2019-05-21 | 2019-05-21 | 一种用于数据项、文件、数据库的对标方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110196834A true CN110196834A (zh) | 2019-09-03 |
CN110196834B CN110196834B (zh) | 2022-04-29 |
Family
ID=67753012
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910424014.9A Active CN110196834B (zh) | 2019-05-21 | 2019-05-21 | 一种用于数据项、文件、数据库的对标方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110196834B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110737689A (zh) * | 2019-10-10 | 2020-01-31 | 广东省科技基础条件平台中心 | 数据标准符合性检测方法、装置、系统及存储介质 |
CN111291225A (zh) * | 2020-05-08 | 2020-06-16 | 成都金盘电子科大多媒体技术有限公司 | 一种医疗健康信息数据标准快速校验的方法及系统 |
CN111339174A (zh) * | 2020-02-24 | 2020-06-26 | 京东方科技集团股份有限公司 | 数据交换的方法、装置、可读性存储介质及数据交换系统 |
CN112181949A (zh) * | 2020-10-10 | 2021-01-05 | 浪潮云信息技术股份公司 | 一种在线数据建模的方法及装置 |
CN112380831A (zh) * | 2020-11-11 | 2021-02-19 | 锐捷网络股份有限公司 | 一种配置手册的对标方法及装置 |
CN113836144A (zh) * | 2021-09-28 | 2021-12-24 | 厦门市美亚柏科信息股份有限公司 | 一种基于字段推荐数据库标准表的方法及装置 |
CN116644151A (zh) * | 2023-05-15 | 2023-08-25 | 绵阳市商业银行股份有限公司 | 一种应用nlp和ml于数据标准对标的智能化系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104156415A (zh) * | 2014-07-31 | 2014-11-19 | 沈阳锐易特软件技术有限公司 | 解决医疗数据标准编码对照问题的映射处理系统及方法 |
US20150213063A1 (en) * | 2014-01-27 | 2015-07-30 | Linkedin Corporation | Data standardization |
CN106096024A (zh) * | 2016-06-24 | 2016-11-09 | 北京京东尚科信息技术有限公司 | 地址相似度的评估方法和评估装置 |
CN109766436A (zh) * | 2018-12-04 | 2019-05-17 | 北京明略软件系统有限公司 | 一种数据表的字段与知识库的数据元匹配的方法和装置 |
-
2019
- 2019-05-21 CN CN201910424014.9A patent/CN110196834B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150213063A1 (en) * | 2014-01-27 | 2015-07-30 | Linkedin Corporation | Data standardization |
CN104156415A (zh) * | 2014-07-31 | 2014-11-19 | 沈阳锐易特软件技术有限公司 | 解决医疗数据标准编码对照问题的映射处理系统及方法 |
CN106096024A (zh) * | 2016-06-24 | 2016-11-09 | 北京京东尚科信息技术有限公司 | 地址相似度的评估方法和评估装置 |
CN109766436A (zh) * | 2018-12-04 | 2019-05-17 | 北京明略软件系统有限公司 | 一种数据表的字段与知识库的数据元匹配的方法和装置 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110737689A (zh) * | 2019-10-10 | 2020-01-31 | 广东省科技基础条件平台中心 | 数据标准符合性检测方法、装置、系统及存储介质 |
CN111339174A (zh) * | 2020-02-24 | 2020-06-26 | 京东方科技集团股份有限公司 | 数据交换的方法、装置、可读性存储介质及数据交换系统 |
CN111291225A (zh) * | 2020-05-08 | 2020-06-16 | 成都金盘电子科大多媒体技术有限公司 | 一种医疗健康信息数据标准快速校验的方法及系统 |
CN112181949A (zh) * | 2020-10-10 | 2021-01-05 | 浪潮云信息技术股份公司 | 一种在线数据建模的方法及装置 |
CN112380831A (zh) * | 2020-11-11 | 2021-02-19 | 锐捷网络股份有限公司 | 一种配置手册的对标方法及装置 |
CN113836144A (zh) * | 2021-09-28 | 2021-12-24 | 厦门市美亚柏科信息股份有限公司 | 一种基于字段推荐数据库标准表的方法及装置 |
CN116644151A (zh) * | 2023-05-15 | 2023-08-25 | 绵阳市商业银行股份有限公司 | 一种应用nlp和ml于数据标准对标的智能化系统 |
CN116644151B (zh) * | 2023-05-15 | 2024-03-22 | 绵阳市商业银行股份有限公司 | 一种应用nlp和ml于数据标准对标的智能化系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110196834B (zh) | 2022-04-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110196834A (zh) | 一种用于数据项、文件、数据库的对标方法和系统 | |
CN110275965B (zh) | 假新闻检测方法、电子装置及计算机可读存储介质 | |
CN111125343A (zh) | 适用于人岗匹配推荐系统的文本解析方法及装置 | |
CN105302810A (zh) | 一种信息搜索方法和装置 | |
CN112163072B (zh) | 基于多数据源的数据处理方法以及装置 | |
CN110674360B (zh) | 一种用于数据的溯源方法和系统 | |
CN111325022B (zh) | 识别层级地址的方法和装置 | |
CN112084448B (zh) | 相似信息处理方法以及装置 | |
CN111522838A (zh) | 地址相似度计算方法及相关装置 | |
CN115936895A (zh) | 基于人工智能的风险评估方法、装置、设备及存储介质 | |
CN116245670A (zh) | 基于双标签模型处理财税数据的方法、装置、介质和设备 | |
CN110879808B (zh) | 一种信息处理方法和装置 | |
CN110532229B (zh) | 证据文件检索方法、装置、计算机设备和存储介质 | |
CN110895587B (zh) | 用于确定目标用户的方法和装置 | |
CN112434009A (zh) | 端到端的数据探查方法、装置、计算机设备和存储介质 | |
CN116450723A (zh) | 数据提取方法、装置、计算机设备及存储介质 | |
KR20230103025A (ko) | 기업 신용 분석 및 평가 정보 제공 방법, 장치 및 시스템 | |
CN112100165A (zh) | 基于质量评估的交通数据处理方法、系统、设备和介质 | |
CN111859985A (zh) | Ai客服模型测试方法、装置、电子设备及存储介质 | |
CN117851608B (zh) | 案件图谱生成方法、装置、设备和介质 | |
CN108520334A (zh) | 一种职业征信方法和装置 | |
CN110765118B (zh) | 一种数据的修订方法、修订装置及可读存储介质 | |
CN117349388B (zh) | 数据时效性确定方法、电子设备 | |
CN117035557B (zh) | 针对业务场景的公路基础设施数字化程度测评方法 | |
CN107918672B (zh) | 信息处理方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |