CN108629046B - 一种字段匹配方法及终端设备 - Google Patents

一种字段匹配方法及终端设备 Download PDF

Info

Publication number
CN108629046B
CN108629046B CN201810456458.6A CN201810456458A CN108629046B CN 108629046 B CN108629046 B CN 108629046B CN 201810456458 A CN201810456458 A CN 201810456458A CN 108629046 B CN108629046 B CN 108629046B
Authority
CN
China
Prior art keywords
field
attribute
target
target field
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810456458.6A
Other languages
English (en)
Other versions
CN108629046A (zh
Inventor
尹珍枝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201810456458.6A priority Critical patent/CN108629046B/zh
Priority to PCT/CN2018/097451 priority patent/WO2019218473A1/zh
Publication of CN108629046A publication Critical patent/CN108629046A/zh
Application granted granted Critical
Publication of CN108629046B publication Critical patent/CN108629046B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种字段匹配方法及终端设备,适用于数据处理技术领域,该方法包括:若目标字段名中仅包含中文字符,根据预设的汉字编码规则,对目标字段名中每个中文字符的拼音数据、字形结构、汉字部件数以及笔画数分别进行分析编码,确定出目标字段名对应的汉字综合码串;基于目标字段名对应的汉字综合码串,对待匹配字段数据中所有仅包含中文字符的待匹配字段名对应的汉字综合码串分别进行字符相似度计算,并从待匹配字段数据中筛选出字符相似度大于预设字符相似阈值的字段名对应的字段数据。基于编码得到的字段名的汉字综合码串,来进行待匹配字段名与用户输入的目标字段名的自动匹配筛选,从而使得对待匹配字段数据的匹配筛选准确高效。

Description

一种字段匹配方法及终端设备
技术领域
本发明属于数据处理技术领域,尤其涉及字段匹配方法及终端设备。
背景技术
当前市面上的抓包工具在进行数据抓取时,如fiddler、charles等抓包工具进行数据抓取时,都只能将接口的所有字段数据内容进行抓取显示,当需要查看一些其中特定字段数据时,只能由用户手动进行字段数据的匹配筛选确定出所需的字段数据,这样耗时较长效率低,同时当所需匹配的字段数据量较大时,人工筛选还极其容易出错,因此,现有技术中难以对字段数据进行准确高效的匹配筛选。
发明内容
有鉴于此,本发明实施例提供了一种字段匹配方法及终端设备,以解决现有技术中难以对字段数据进行准确高效的匹配筛选的问题。
本发明实施例的第一方面提供了一种字段匹配方法,包括:
获取待查询的目标字段名;
若所述目标字段名中仅包含中文字符,根据预设的汉字编码规则,对所述目标字段名中每个中文字符的拼音数据、字形结构、汉字部件数以及笔画数分别进行分析编码,得到所述目标字段名中每个中文字符分别对应的汉字综合码,以确定出所述目标字段名对应的汉字综合码串;
基于所述目标字段名对应的汉字综合码串,对待匹配字段数据中,所有仅包含中文字符的待匹配字段名对应的汉字综合码串,分别进行字符相似度计算,并从所述待匹配字段数据中筛选出字符相似度大于预设字符相似阈值的字段名对应的字段数据。
本发明实施例的第二方面提供了一种字段匹配终端设备,所述字段匹配终端设备包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如下步骤。
获取待查询的目标字段名;
若所述目标字段名中仅包含中文字符,根据预设的汉字编码规则,对所述目标字段名中每个中文字符的拼音数据、字形结构、汉字部件数以及笔画数分别进行分析编码,得到所述目标字段名中每个中文字符分别对应的汉字综合码,以确定出所述目标字段名对应的汉字综合码串;
基于所述目标字段名对应的汉字综合码串,对待匹配字段数据中,所有仅包含中文字符的待匹配字段名对应的汉字综合码串,分别进行字符相似度计算,并从所述待匹配字段数据中筛选出字符相似度大于预设字符相似阈值的字段名对应的字段数据。
本发明实施例的第三方面提供了一种计算机可读存储介质,包括:存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上所述的字段匹配方法的步骤。
本发明实施例与现有技术相比存在的有益效果是:通过对中文字段名中每个汉字的拼音数据、字形结构、汉字部件数以及笔画数进行分析编码,得到每个汉字对应的汉字综合码,实现了对不同汉字的多方面属性区分保证了对中文字符编码的准确有效,从而使得后续的汉字匹配也更为准确有效。同时基于编码得到的字段名的汉字综合码串,来进行待匹配字段名与用户输入的目标字段名的自动匹配筛选,从而使得对待匹配字段数据的匹配筛选准确高效。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的字段匹配方法的实现流程示意图;
图2是本发明实施例二提供的字段匹配方法的实现流程示意图;
图3是本发明实施例三提供的字段匹配方法的实现流程示意图;
图4是本发明实施例四提供的字段匹配方法的实现流程示意图;
图5是本发明实施例五提供的字段匹配方法的实现流程示意图;
图6是本发明实施例六提供的字段匹配装置的结构示意图;
图7是本发明实施例七提供的字段匹配终端设备的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
图1示出了本发明实施例一提供的字段匹配方法的实现流程图,详述如下:
S101,获取待查询的目标字段名。
S102,若目标字段名中仅包含中文字符,根据预设的汉字编码规则,对目标字段名中每个中文字符的拼音数据、字形结构、汉字部件数以及笔画数分别进行分析编码,得到目标字段名中每个中文字符分别对应的汉字综合码,以确定出目标字段名对应的汉字综合码串。
在本发明实施例中,当用户需要进行接口的字段数据筛选时,可以直接输入所需查询的目标字段名称,即可实现对目标字段名的自动匹配以及数据筛选。
其中,当目标字段名称中均为中文字符时,由于中文属于象形意义文字,考虑到其文字的特殊性,若像常见的中文字符匹配算法单纯的根据发音或者字形的相似度来进行匹配的话,由于同音/谐音字以及形近字较多,其匹配的准确率相对较低,如“盯”和“叮”,发音相同且字形基本相同,仅根据发音和字形难以进行区分,因此常见的字符串匹配算法基本都难以保证中文字符的准确识别匹配,更难以保证对包含多个中文字符的中文词组或者句子的匹配准确率。因此,为了提升对中文字符的匹配效果,保证对中文字符的目标字段名的匹配准确率,本发明实施例中采用了同时从中文字符的发音、字形结构、汉字部件数以及笔画数四个不同的维度来对中文字符进行编码,并将得到的四个维度的编码进行组合,得到每个中文字符分别对应的汉字综合码,详述如下:
1、对于中文字符的发音,本发明实施例中会预先设置中文字符拼音数据中每个韵母声母对应的代码,并得到拼音数据的韵母声母编码对照表。在对拼音数据进行编码时,只需根据中文字符发音的拼音数据来依次查询中文字符拼音中每个韵母声母对应的代码,得到中文字符拼音数据对应的完整代码,从而完成对中文字符拼音数据的编码。其中,韵母声母编码对照表中具体每个韵母声母对应的代码设置此处不予限定,具体可有技术人员自行设定。
以一实例说明,假设将发音分为韵母声母编码对照表设置为如下表1:
表1
此时,在对中文字符进行拼音数据的编码时,只需将中文字符的拼音查询上述表1,即可得到对应的编码代码,如中文字符“张”,拼音数据“zhang”对应的编码代码经查询表1可得到其编码代码为“EF”。
2、由于对中文字符的字形结构分类属于公知规范,此处不予详述,在本发明实施例中,同样会对每种类型的字形结构设置一个对应的代码,在对中文字符进行编码时,只需要查询得到对应的代码即可。
以一实例说明,假设字形结构与对应的代码设置如下表2:
表2
此时只要根据中文字符的字形结构查询表2即可得到对应的代码。
3、对于汉字部件数,汉字部件是由笔画组成的具有组配汉字功能的构字单位,根据国家颁发的汉字部件标准中,共有560个汉字部件,所有的汉字都是由这些汉字部件组合而成的,如常见的“王”“丶”“匚”“冖”“夕”等。由于具体的汉字部件知识属于现有技术,此处不予详述。在本发明实施例中,会对不同的汉字部件数分别设置对应的代码,从而使得在对中文字符进行汉字部件数编码时,只需要统计中文字符中包含的具体的汉字部件数,再查询对应的代码即可。
4、对于笔画数,如上述汉字部件数一样,本发明实施例中会对不同的笔画数分别设置对应的代码,从而使得在对中文字符进行笔画数编码时,只需要统计中文字符中包含的具体的笔画数,再查询对应的代码即可。
其中,在对汉字部件数和笔画数进行对应代码设置时,考虑到实际情况中常用汉字的汉字部件数和笔画数都较少,如常用字的笔画数一般都在23划以内,而汉字部件数和笔画数较多的中文字符,在实际使用中较为少见,因此,若为每个汉字部件数和笔画数均设置一个对应的代码,会使得对中文字符汉字部件数和笔画数的编码变得较为复杂。因此,为了简化对中文字符汉字部件数和笔画数的编码,提升编码效率,本发明实施例中会将较大的汉字部件数和笔画数,直接统一设置一个对应的编码,如将大于23划的笔画数对应的代码均设置为Z,而不去一个个设置单独的代码了。
在得到中文字符的四个维度的代码后,将四个代码进行组合,即可得到中文字符的汉字综合码,其中具体的组合顺序可由技术人员自行设定,如可以直接按照发音、字形结构、汉字部件数以及笔画数的顺序,将对应的代码组合,得到中文字符的汉字综合码。而将目标字段名中所有的中文字符的汉字综合码依次排序组合,即可得到目标字段名对应的汉字综合码串。
S103,基于目标字段名对应的汉字综合码串,对待匹配字段数据中,所有仅包含中文字符的待匹配字段名对应的汉字综合码串,分别进行字符相似度计算,并从待匹配字段数据中筛选出字符相似度大于预设字符相似阈值的字段名对应的字段数据。
在得到目标字段名的汉字综合码串之后,利用汉字综合码串来对接收到的字段数据进行匹配,以查找出所需的字段数据。其中,由于接收到的目标字段名是仅包含中文字符的字段名,因此,为了提高匹配效率,本发明实施例中会先对待匹配字段名进行一次初步筛选,查找出其中仅包含中文字符的待匹配字段名,再进行基于汉字综合码串的匹配筛选。其中,对字符相似度的计算方法此处不予限定,包括但不限于如直接将字段名的汉字综合码串进行匹配,并将得到的代码相似度作为所需的字符匹配度经常出来,以筛选字段数据,或者也可以参考本发明实施例五的方法进行处理。字符相似阈值的具体数值大小,可由技术人员根据需求进行设定。
本发明实施例通过对中文字段名中每个中文字符的拼音数据、字形结构、汉字部件数以及笔画数进行分析编码,得到每个汉字对应的包含多维度信息的汉字综合码,实现了对不同汉字的多方面属性区分保证了对中文字符编码的准确有效,从而使得后续的汉字匹配也更为准确有效。同时基于编码得到的字段名的汉字综合码串,来进行待匹配字段名与用户输入的目标字段名的自动匹配筛选,从而使得对待匹配字段数据的匹配筛选准确高效。
作为本发明实施例二,如图2所示,考虑到实际应用中,可能存在用户对字段数据的筛选需求不同的情况,如用户可能不一定需要通过字段名进行筛选,而是想通过字段数据的字段属性数据来进行筛选等,如想通过字段数据的字段长度、最大字段值等字段属性数据来进行字段数据的筛选,因此,本发明实施例中,在获取待查询的目标字段名之前,还包括:
S201,接收用户输入的查询条件。
在本发明实施例中,用户可自由输入对字段数据的查询条件,如可以仅输入目标字段名作为查询条件,此时即可使用本发明实施例一中的方法进行字段数据匹配查询,也可以仅输入所需查询的字段数据的目标字段属性数据进行查询,如上述的仅输入所需查询的字段数据的字段长度、最大字段值等目标字段属性数据进行查询。
S202,若查询条件中仅包含N个目标字段属性数据,对目标字段属性数据中的N个目标属性值进行归一化处理,得到对应的N个目标属性分数,目标字段属性数据中记录有N个目标字段属性以及对应的N个目标属性值,其中,N为正整数。
S203,对待匹配字段数据的N个目标字段属性的属性值进行归一化处理,得到每个待匹配字段数据分别对应的N个真实属性分数。
其中目标字段属性数据,包括所需查询的目标字段属性,以及对应的目标属性值,而其中具体包含的目标字段属性种类及数量,可由用户根据自己需求自行选定输入,包括但不限于如:字段数据的字段长度、最大字段值以及差异系数等字段属性。在确定出用户输入的查询条件中仅包含目标字段属性数据后,本发明实施例会基于这些目标字段属性数据中的目标属性值来进行字段数据的匹配。其中,由于不同属性数据的数值以及参考单位都有所不同,无法直接进行统一的计算,因此本发明实施例中需要对所有的目标属性值进行归一化处理,以保证后续的正常处理。其中,由于现有的属性数据归一化处理的方法较多,此处不予限定,可由技术人员根据需求自行设定名,包括但不限于如:对每一个目标字段属性数据设置一个最大标准值,并基于设定的最大标准值将用户输入的每个目标属性值进行归一化处理,得到对应的目标属性分数。同样的,对于待匹配字段数据的相同的目标字段属性的属性值,也采用相同的归一化处理的方法,以得到所需的真实属性分数。
S204,利用以下公式(1)计算每个待匹配字段数据的N个真实属性分数与N个目标属性分数的属性相似度,并从待匹配字段数据中筛选出属性相似度大于预设属性相似阈值的字段数据:
其中,X为属性相似度,N为目标字段属性的数量,Ai为待匹配字段数据的第i个目标字段属性的真实属性分数,ai为目标字段属性数据中第i个目标字段属性的目标属性分数,ki为第i个目标字段属性的预设属性权重值,i∈[1,N]。
在得到目标属性分数以及每个待匹配字段数据的真实属性分数后,对每个待匹配字段数据分别使用上述公式(1)进行处理,以得到对应的属性相似度,并以此进行待匹配字段数据的筛选。其中,属性相似阈值的具体大小,可由技术人员自行设定,此处不予限定。
在本发明实施例中,为用户提供可选的仅根据字段属性数据来进行查询的功能,使得用户可以自由根据自己的需求进行字段查询,极大地提升了用户对字段查询的效率。同时,针对用户输入目标字段属性数据,进行统一的归一化处理,使得其可以统一用户量化计算,再基于得到的目标字段属性数据的目标属性分数以及待匹配字段数据的真实属性分数进行属性相似度计算,以筛选出满足用户属性要求的待匹配字段数据,使得对待匹配字段数据的匹配筛选变得准确高效。
作为本发明实施例三,如图3所示,考虑到实际应用中,可能存在用户对字段数据的筛选需求不同的情况,如用户可能不一定希望仅仅通过字段名进行筛选,而是想通过字段名以及字段数据的字段属性数据来进行综合筛选,如想通过字段名,以及字段数据的字段长度、最大字段值等字段属性数据来进行字段数据的筛选,因此,本发明实施例中,在获取待查询的目标字段名之前,还包括:
S301,接收用户输入的查询条件。
S302,若查询条件中同时包含目标字段名以及N个目标字段属性数据,识别目标字段名中字符的类型,并对目标字段属性数据中的N个目标属性值进行归一化处理,得到对应的N个目标属性分数,目标字段属性数据中记录有N个目标字段属性以及对应的N个目标属性值,其中,N为正整数。
S303,若目标字段名中仅包含中文字符,获取目标字段名对应的汉字综合码串,并对待匹配字段数据中仅包含中文字符的待匹配字段名对应的汉字综合码串分别进行字符相似度计算,筛选出待匹配字段数据中字符相似度大于字符相似阈值的字段数据集。
S304,对字段数据集中字段数据的N个目标字段属性的属性值进行归一化处理,得到字段数据集中每个字段数据分别对应的N个真实属性分数。
S305,利用以下公式(1)计算字段数据集中每个字段数据的N个真实属性分数与N个目标属性分数的属性相似度,并从字段数据集中筛选出属性相似度大于预设属性相似阈值的字段数据。
其中,X为属性相似度,N为目标字段属性的数量,Ai为字段数据集中字段数据的第i个目标字段属性的真实属性分数,ai为目标字段属性数据中第i个目标字段属性的目标属性分数,ki为第i个目标字段属性的预设属性权重值,i∈[1,N]。
在本发明实施例中,具体的筛选匹配方法可参考上述本发明实施例一以及本发明实施例二的相关说明,但与本发明实施例一以及本发明实施例二不同的地方在于,由于本发明实施例是同时综合两种查询条件来进行查询,因此本发明实施例实际上是两级查询的,即先根据用户输入的目标字段名筛选出满足要求的所有字段数据,得到对应的字段数据集,再根据用户输入的目标字段属性数据从字段数据集中筛选出最终满足要求的字段数据。
可以理解地,本发明实施例三只是对用户两种查询条件进行综合匹配的一种可选匹配方法,而非对两种查询条件匹配方法的限定,同样,也可以先基于用户输入的目标字段属性数据,从待匹配字段数据中筛选出满足目标字段属性数据要求的字段数据集,再基于目标字段名对字段数据集进行二次筛选,以得到最终所需的满足两种查询条件要求的字段数据。
在本发明实施例中,为用户提供可选的根据字段名和字段属性数据来进行综合查询的功能,使得用户可以自由根据自己的需求进行字段查询,极大地提升了用户对字段查询的效率,使得对待匹配字段数据的匹配筛选变得准确高效。
基于上述本发明实施例一、本发明实施例二以及本发明实施例三,本发明实施例为用户提供了多种查询模式的选择,用户只需要根据自己实际的需求,或者根据自己已知的字段信息,来选择性的输入一种或多种查询条件,即可实现对待匹配字段数据的精准查询,即最大化地满足了用户的实际需求,又实现了根据用户实际需求,自适应定选取最适宜的处理方法进行匹配查询,从而保证了对待匹配字段数据匹配筛选的准确高效。
作为本发明实施例四,如图4所示,考虑到实际情况中,并非所有的字段名都仅包含中文字符,也有可能是由中文字符和非中文字符组合而成的字段名,如中英文命名的字段名,因此,为了进一步满足用户的实际需求,提高对待匹配字段数据的匹配筛选效率,在获取待查询的目标字段名之后,还包括:
S401,识别目标字段名中字符的类型。
S402,若目标字段名中同时包含中文字符以及非中文字符,确定出目标字段名中每个中文字符分别对应的汉字综合码,并根据预设的非汉字编码规则,对目标字段名中的每个非中文字符分别进行编码,得到对应的非中文字符码。
其中,非中文字符,包括但不限于英文字符、数字字符、ASCⅡ字符以及时间、货币、符号。当目标字段名中既包含中文字符又包含非中文字符时,需要同时对两者进行编码处理,以得到目标字段名对应的混合字符码,实现后续的匹配。其中对中文字符部分的编码具体可参考本发明实施例一中的相关说明,此处不予赘述。对于非中文字符编码的具体编码方法本发明实施例中不予限定,包括但不限于如直接采用非中文字符本身作为其对应的代码以完成编码,具体可由技术人员根据实际情况设定。
S403,根据目标字段名中字符的位置先后顺序,将目标字段名中中文字符的汉字综合码和非中文字符的非中文字符码进行排序组合,得到目标字段名对应的混合字符码串。
在得到每个字符对应的编码代码之后,按照字符在目标字段名中的顺序先后,依次将这些代码进行排列组合,即可得到目标字段名对应的混合字符码串。
S404,基于目标字段名对应的混合字符码串,对待匹配字段数据中,所有同时包含中文字符以及非中文字符的待匹配字段名对应的混合字符码串,分别进行字符相似度计算,并从待匹配字段数据中筛选出字符相似度大于预设字符相似阈值的字段名对应的字段数据。
在得到目标字段名的混合字符码串之后,对待匹配字段数据进行筛选,确定出其中也是同时包含中文字符以及非中文字符的待匹配字段数据,再基于混合字符码串进行字符相似度计算,以匹配筛选出最终满足用户要求的字段数据。其中具体的字符相似度计算方法,也可由技术人员自行设定,包含但不限于如直接将混合字符码串代码逐一进行匹配,以作为字符相似度。
在本发明实施例中,为了进一步满足用户的实际可能需求,针对同时存在中文字符和非中文字符的目标字段名进行了针对性的编码以及匹配,使得对待匹配字段数据的匹配筛选变得准确高效。
作为本发明的又一个实施例,当目标字段名中仅包含非中文字符时,可以对目标字段名进行编码后,采用一些常见的字符串相似度算法来进行相似度计算和匹配筛选,如常见的编辑距离算法、n-gram算法以及JaroWinkler算法等。
作为基于汉字综合码进行字符相似度计算的一种具体实现方式,考虑到实际情况中,当目标字段名长度大于1时,即包含多个中文字符时,若仅根据汉字综合码串来进行字段名匹配,由于汉字综合码串中记录的中文字符的代码,都是按照其中文字符在字段名中的位置顺序进行排序的,因此,在利用汉字综合码串进行匹配时,其实都是基于中文字符在字段名中的绝对位置来进行匹配的,而实际情况中,中文字符在字段名中的绝对位置,受到的外界因素影响的可能性往往非常大,如用户可能只记得字段名中的几个字而已,此时极大可能性存在绝对位置错误的情况,因此为了提升对长目标字段名的准确匹配,如图5所示,本发明实施例五,包括:
S501,若目标字段名中包含的中文字符数M1大于1,计算仅包含中文字符的待匹配字段名的汉字综合码串与目标字段名的汉字综合码串的代码相似度。
其中,代码相似度计算,即将两个汉字综合码串中相同的代码数,除以目标字段名的汉字综合码串中总代码数,如假设目标字段名“大灰狼”中,每个中文字符对应的汉字综合码分别为510013、980236以及F7012A,此时目标字段名对应的汉字综合码串为“510013980236F7012A”,假设待匹配字段名“大红狼”的汉字综合码串为“5100139K0126F7012A”,此时计算两者的代码相似度时,先计算两个汉字综合码串中对应位置对应相同的代码数=15,再除以目标字段名“大灰狼”汉字综合码串的代码数18,得到代码相似度=15/18=83%。
S502,按照目标字段名中M1个中文字符的位置先后顺序,依次判断仅包含中文字符的待匹配字段名的H个中文字符中,是否存在与M1个中文字符的汉字综合码相同的中文字符,并得到汉字综合码相同的中文字符数M2,其中,若确定出H个中文字符中第h个中文字符,与M1个中文字符中第m1个中文字符的汉字综合码相同,则从H个中文字符的第h+1个中文字符至第H中文字符中,检测是否存在与M1个中文字符中第m1+1个中文字符的汉字综合码相同的中文字符,M1、M2和H均为正整数,h∈[1,H-1],m1∈[1,M1-1],且M1大于或等于M2。
由于代码相似度是基于中文字符在字段名中的绝对位置来进行处理计算的,其受到外界因素影响的可能性往往非常大,因此,为了提升对字段名匹配的可靠性,以保证对待匹配数据的准确可靠,本发明实施例中在相似度的基础之上,还会对字段名本身以文本的形式进行处理,以得到目标字段名与待匹配字段名的文本相似度,详述如下:
在得到目标字段名的M1个中文字符中每个中文字符的汉字综合码,以及待匹配字段名的H个中文字符中每个中文字符的汉字综合码之后:
1、先将目标字段名中第一个中文字符与待匹配字段名中的中文字符逐一进行匹配,查找出与目标字段名中第一个中文字符汉字综合码相同的第h个中文字符。
2、从待匹配字段名中第h+1个中文字符至第H个中文字符中,查找与目标字段名中第二个中文字符汉字综合码相同的第h1中文字符。
3、将目标字段名中每一个中文字符依次像上述步骤一样,在待匹配字段名中进行综合码相同的中文字符的查找,以确定出M2的值。其中,若假设目标字段名的第m1个中文字符与待匹配字段名的第h个中文字符的汉字综合码相同,则目标字段名的第m1+1个中文字符在待匹配字段名中的匹配查找范围,为待匹配字段名的第h+1个中文字符至第H个中文字符。
在本发明实施例的匹配查找过程中,若目标字段名的某个中文字符在待匹配字段名中没有与之汉字综合码相同的中文字符,则跳过该中文字符,从目标字段名中该中文字符的下一个中文字符开始继续进行上述的中文字符匹配查找,直至目标字段名中所有的中文字符均匹配完成为止。
实例说明如下,假设目标字段名为“大灰狼”,待匹配字段名为“大红狼”,此时,先确定出目标字段名的“大”在待匹配字段名中对应相同的中文字符的位置为第一位中文字符,再对“灰”进行匹配,发现待匹配字段名中不存在与之相同的中文字符,此时跳过该中文字符,继续从下一个“狼”开始进行匹配,确定出待匹配字段名中第三个中文字符与之相同,因此,此时得到的目标字段名中中文字符与待匹配字段名中中文字符汉字综合码相同的中文字符数M2=2,此时文本相似度=M2/M1=2/3=67%。
S503,计算仅包含中文字符的待匹配字段名与目标字段名的文本相似度M2/M1,并根据预设的权重系数对代码相似度及文本相似度进行权重计算,得到仅包含中文字符的待匹配字段名与目标字段名的字符相似度。
在得到代码相似度以及文本相似度之后,通过权重计算的方法,将两个相似度进行处理得到最终所需的字符相似度。其中,每个相似度的具体权重系数,可以由技术人员根据实际需求自行设定。
仍以假设目标字段名为“大灰狼”,待匹配字段名为“大红狼”进行说明,并设置代码相似度和文本相似度的权重系数均为0.5,此时字符相似度=代码相似度83%*0.5+文本相似度67%*0.5=75%。
在本发明实施例中,为用户提供了多种可选查询条件的输入,用户既可以输入目标字段名或者目标字段属性数据来进行待匹配字段数据的模糊匹配查询,也可以同时输入两者来进行待匹配字段数据的精确匹配查询,从而使得用户可以根据自己实际需求或者根据自己实际已知的字段信息,来选择性地输入一种或多种查询条件进行待匹配字段数据的匹配查询,极大地满足了用户的实际需求,为用户提供了简单高效准确字段数据匹配方法。同时,本发明实施例对根据每种查询条件的特点,针对性地设置了个性化的匹配算法,如当查询条件为仅包含中文字符的目标字段名时,针对中文字符进行汉字综合码串的编码处理,同时还针对长中文字符串进行多相似度计算处理,从而使得本发明实施例可以适应于各种不同查询条件下,仍能有效保障对字段数据的匹配准确率与效率,从而使得本发明实施例对待匹配字段数据的匹配筛选准确高效。
对应于上文实施例的方法,图6示出了本发明实施例提供的字段匹配装置的结构框图,为了便于说明,仅示出了与本发明实施例相关的部分。图6示例的字段匹配装置可以是前述实施例一提供的字段匹配方法的执行主体。
参照图6,该字段匹配装置包括:
字段名获取模块61,用于获取待查询的目标字段名。
第一综合码计算模块62,用于若所述目标字段名中仅包含中文字符,根据预设的汉字编码规则,对所述目标字段名中每个中文字符的拼音数据、字形结构、汉字部件数以及笔画数分别进行分析编码,得到所述目标字段名中每个中文字符分别对应的汉字综合码,以确定出所述目标字段名对应的汉字综合码串。
第一字段匹配模块63,用于基于所述目标字段名对应的汉字综合码串,对待匹配字段数据中,所有仅包含中文字符的待匹配字段名对应的汉字综合码串,分别进行字符相似度计算,并从所述待匹配字段数据中筛选出字符相似度大于预设字符相似阈值的字段名对应的字段数据。
进一步地,该字段匹配装置,还包括:
查询条件接收模块,用于接收用户输入的查询条件。
第一归一化模块,用于若所述查询条件中仅包含N个目标字段属性数据,对所述目标字段属性数据中的N个目标属性值进行归一化处理,得到对应的N个目标属性分数,所述目标字段属性数据中记录有N个目标字段属性以及对应的所述N个目标属性值,其中,N为正整数。
第二归一化模块,用于对所述待匹配字段数据的所述N个目标字段属性的属性值进行归一化处理,得到每个所述待匹配字段数据分别对应的N个真实属性分数。
第二字段匹配模块,用于利用以下公式计算每个所述待匹配字段数据的所述N个真实属性分数与所述N个目标属性分数的属性相似度,并从所述待匹配字段数据中筛选出所述属性相似度大于预设属性相似阈值的字段数据:
其中,X为所述属性相似度,N为所述目标字段属性的数量,Ai为所述待匹配字段数据的第i个所述目标字段属性的所述真实属性分数,ai为所述目标字段属性数据中第i个所述目标字段属性的所述目标属性分数,ki为第i个所述目标字段属性的预设属性权重值,i∈[1,N]。
进一步地,该字段匹配装置,还包括:
查询条件接收模块,用于接收用户输入的查询条件。
第三归一化模块,用于若所述查询条件中同时包含所述目标字段名以及N个目标字段属性数据,识别所述目标字段名中字符的类型,并对所述目标字段属性数据中的N个目标属性值进行归一化处理,得到对应的N个目标属性分数,所述目标字段属性数据中记录有N个目标字段属性以及对应的所述N个目标属性值,其中,N为正整数。
第二综合码计算模块,用于若所述目标字段名中仅包含中文字符,获取所述目标字段名对应的汉字综合码串,并对所述待匹配字段数据中仅包含中文字符的待匹配字段名对应的汉字综合码串分别进行字符相似度计算,筛选出所述待匹配字段数据中所述字符相似度大于所述字符相似阈值的字段数据集。
第四归一化模块,用于对所述字段数据集中字段数据的所述N个目标字段属性的属性值进行归一化处理,得到所述字段数据集中每个字段数据分别对应的N个真实属性分数。
第三字段匹配模块,用于利用以下公式计算所述字段数据集中每个字段数据的所述N个真实属性分数与所述N个目标属性分数的属性相似度,并从所述字段数据集中筛选出所述属性相似度大于预设属性相似阈值的字段数据:
其中,X为所述属性相似度,N为所述目标字段属性的数量,Ai为所述字段数据集中字段数据的第i个所述目标字段属性的所述真实属性分数,ai为所述目标字段属性数据中第i个所述目标字段属性的所述目标属性分数,ki为第i个所述目标字段属性的预设属性权重值,i∈[1,N]。
进一步地,该字段匹配装置,还包括:
字符类型识别模块,用于识别所述目标字段名中字符的类型。
字符编码模块,用于若所述目标字段名中同时包含中文字符以及非中文字符,确定出所述目标字段名中每个中文字符分别对应的汉字综合码,并根据预设的非汉字编码规则,对所述目标字段名中的每个非中文字符分别进行编码,得到对应的非中文字符码。
混合码处理模块,用于根据所述目标字段名中字符的位置先后顺序,将所述目标字段名中中文字符的汉字综合码和非中文字符的非中文字符码进行排序组合,得到所述目标字段名对应的混合字符码串。
第四字段匹配模块,用于基于所述目标字段名对应的混合字符码串,对待匹配字段数据中,所有同时包含中文字符以及非中文字符的待匹配字段名对应的混合字符码串,分别进行字符相似度计算,并从所述待匹配字段数据中筛选出字符相似度大于预设字符相似阈值的字段名对应的字段数据。
进一步地,所述第一字段匹配模块63,包括:
代码相似度计算模块,用于若所述目标字段名中包含的中文字符数M1大于1,计算所述仅包含中文字符的待匹配字段名的汉字综合码串与所述目标字段名的汉字综合码串的代码相似度。
文本相似度计算模块,用于按照所述目标字段名中M1个中文字符的位置先后顺序,依次判断所述仅包含中文字符的待匹配字段名的H个中文字符中,是否存在与所述M1个中文字符的汉字综合码相同的中文字符,并得到汉字综合码相同的中文字符数M2,其中,若确定出所述H个中文字符中第h个中文字符,与所述M1个中文字符中第m1个中文字符的汉字综合码相同,则从所述H个中文字符的第h+1个中文字符至第H中文字符中,检测是否存在与所述M1个中文字符中第m1+1个中文字符的汉字综合码相同的中文字符,M1、M2和H均为正整数,h∈[1,H-1],m1∈[1,M1-1],且M1大于或等于M2。
字符相似度计算模块,用于计算所述仅包含中文字符的待匹配字段名与所述目标字段名的文本相似度M2/M1,并根据预设的权重系数对所述代码相似度及所述文本相似度进行权重计算,得到所述仅包含中文字符的待匹配字段名与所述目标字段名的所述字符相似度。
本发明实施例提供的字段匹配装置中各模块实现各自功能的过程,具体可参考前述图1所示实施例一的描述,此处不再赘述。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
还应理解的是,虽然术语“第一”、“第二”等在文本中在一些本发明实施例中用来描述各种元素,但是这些元素不应该受到这些术语的限制。这些术语只是用来将一个元素与另一元素区分开。例如,第一接触可以被命名为第二接触,并且类似地,第二接触可以被命名为第一接触,而不背离各种所描述的实施例的范围。第一接触和第二接触都是接触,但是它们不是同一接触。
图7是本发明一实施例提供的字段匹配终端设备的示意图。如图7所示,该实施例的字段匹配终端设备7包括:处理器70、存储器71,所述存储器71中存储有可在所述处理器70上运行的计算机程序72。所述处理器70执行所述计算机程序72时实现上述各个字段匹配方法实施例中的步骤,例如图1所示的步骤101至103。或者,所述处理器70执行所述计算机程序72时实现上述各装置实施例中各模块/单元的功能,例如图6所示模块61至63的功能。
所述字段匹配终端设备7可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述字段匹配终端设备可包括,但不仅限于,处理器70、存储器71。本领域技术人员可以理解,图7仅仅是字段匹配终端设备7的示例,并不构成对字段匹配终端设备7的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述字段匹配终端设备还可以包括输入发送设备、网络接入设备、总线等。
所称处理器70可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器71可以是所述字段匹配终端设备7的内部存储单元,例如字段匹配终端设备7的硬盘或内存。所述存储器71也可以是所述字段匹配终端设备7的外部存储设备,例如所述字段匹配终端设备7上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器71还可以既包括所述字段匹配终端设备7的内部存储单元也包括外部存储设备。所述存储器71用于存储所述计算机程序以及所述字段匹配终端设备所需的其他程序和数据。所述存储器71还可以用于暂时地存储已经发送或者将要发送的数据。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使对应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (8)

1.一种字段匹配方法,其特征在于,包括:
获取待查询的目标字段名;
若所述目标字段名中仅包含中文字符,根据预设的汉字编码规则,对所述目标字段名中每个中文字符的拼音数据、字形结构、汉字部件数以及笔画数分别进行分析编码,得到所述目标字段名中每个中文字符分别对应的汉字综合码,以确定出所述目标字段名对应的汉字综合码串;
基于所述目标字段名对应的汉字综合码串,对待匹配字段数据中,所有仅包含中文字符的待匹配字段名对应的汉字综合码串,分别进行字符相似度计算,并从所述待匹配字段数据中筛选出字符相似度大于预设字符相似阈值的字段名对应的字段数据;
其中,所述基于所述目标字段名对应的汉字综合码串,对待匹配字段数据中,所有仅包含中文字符的待匹配字段名对应的汉字综合码串,分别进行字符相似度计算,包括:
若所述目标字段名中包含的中文字符数M1大于1,计算所述仅包含中文字符的待匹配字段名的汉字综合码串与所述目标字段名的汉字综合码串的代码相似度;
按照所述目标字段名中M1个中文字符的位置先后顺序,依次判断所述仅包含中文字符的待匹配字段名的H个中文字符中,是否存在与所述M1个中文字符的汉字综合码相同的中文字符,并得到汉字综合码相同的中文字符数M2,其中,若确定出所述H个中文字符中第h个中文字符,与所述M1个中文字符中第m1个中文字符的汉字综合码相同,则从所述H个中文字符的第h+1个中文字符至第H中文字符中,检测是否存在与所述M1个中文字符中第m1+1个中文字符的汉字综合码相同的中文字符,M1、M2和H均为正整数,h∈[1,H-1],m1∈[1,M1-1],且M1大于或等于M2;
计算所述仅包含中文字符的待匹配字段名与所述目标字段名的文本相似度M2/M1,并根据预设的权重系数对所述代码相似度及所述文本相似度进行权重计算,得到所述仅包含中文字符的待匹配字段名与所述目标字段名的所述字符相似度。
2.如权利要求1所述的字段匹配方法,其特征在于,在所述获取待查询的目标字段名之前,还包括:接收用户输入的查询条件;
若所述查询条件中仅包含N个目标字段属性数据,对所述目标字段属性数据中的N个目标属性值进行归一化处理,得到对应的N个目标属性分数,所述目标字段属性数据中记录有N个目标字段属性以及对应的所述N个目标属性值,其中,N为正整数;
对所述待匹配字段数据的所述N个目标字段属性的属性值进行归一化处理,得到每个所述待匹配字段数据分别对应的N个真实属性分数;
利用以下公式计算每个所述待匹配字段数据的所述N个真实属性分数与所述N个目标属性分数的属性相似度,并从所述待匹配字段数据中筛选出所述属性相似度大于预设属性相似阈值的字段数据:
其中,X为所述属性相似度,N为所述目标字段属性的数量,Ai为所述待匹配字段数据的第i个所述目标字段属性的所述真实属性分数,ai为所述目标字段属性数据中第i个所述目标字段属性的所述目标属性分数,ki为第i个所述目标字段属性的预设属性权重值,i∈[1,N]。
3.如权利要求1所述的字段匹配方法,其特征在于,在所述获取待查询的目标字段名之前,还包括:接收用户输入的查询条件;
若所述查询条件中同时包含所述目标字段名以及N个目标字段属性数据,识别所述目标字段名中字符的类型,并对所述目标字段属性数据中的N个目标属性值进行归一化处理,得到对应的N个目标属性分数,所述目标字段属性数据中记录有N个目标字段属性以及对应的所述N个目标属性值,其中,N为正整数;
若所述目标字段名中仅包含中文字符,获取所述目标字段名对应的汉字综合码串,并对所述待匹配字段数据中仅包含中文字符的待匹配字段名对应的汉字综合码串分别进行字符相似度计算,筛选出所述待匹配字段数据中所述字符相似度大于所述字符相似阈值的字段数据集;
对所述字段数据集中字段数据的所述N个目标字段属性的属性值进行归一化处理,得到所述字段数据集中每个字段数据分别对应的N个真实属性分数;
利用以下公式计算所述字段数据集中每个字段数据的所述N个真实属性分数与所述N个目标属性分数的属性相似度,并从所述字段数据集中筛选出所述属性相似度大于预设属性相似阈值的字段数据:
其中,X为所述属性相似度,N为所述目标字段属性的数量,Ai为所述字段数据集中字段数据的第i个所述目标字段属性的所述真实属性分数,ai为所述目标字段属性数据中第i个所述目标字段属性的所述目标属性分数,ki为第i个所述目标字段属性的预设属性权重值,i∈[1,N]。
4.如权利要求1或3所述的字段匹配方法,其特征在于,在所述获取待查询的目标字段名之后,还包括:识别所述目标字段名中字符的类型;
若所述目标字段名中同时包含中文字符以及非中文字符,确定出所述目标字段名中每个中文字符分别对应的汉字综合码,并根据预设的非汉字编码规则,对所述目标字段名中的每个非中文字符分别进行编码,得到对应的非中文字符码;
根据所述目标字段名中字符的位置先后顺序,将所述目标字段名中中文字符的汉字综合码和非中文字符的非中文字符码进行排序组合,得到所述目标字段名对应的混合字符码串;
基于所述目标字段名对应的混合字符码串,对待匹配字段数据中,所有同时包含中文字符以及非中文字符的待匹配字段名对应的混合字符码串,分别进行字符相似度计算,并从所述待匹配字段数据中筛选出字符相似度大于预设字符相似阈值的字段名对应的字段数据。
5.一种字段匹配终端设备,其特征在于,所述字段匹配处理终端设备包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如下步骤:
获取待查询的目标字段名;
若所述目标字段名中仅包含中文字符,根据预设的汉字编码规则,对所述目标字段名中每个中文字符的拼音数据、字形结构、汉字部件数以及笔画数分别进行分析编码,得到所述目标字段名中每个中文字符分别对应的汉字综合码,以确定出所述目标字段名对应的汉字综合码串;
基于所述目标字段名对应的汉字综合码串,对待匹配字段数据中,所有仅包含中文字符的待匹配字段名对应的汉字综合码串,分别进行字符相似度计算,并从所述待匹配字段数据中筛选出字符相似度大于预设字符相似阈值的字段名对应的字段数据;
其中,其中,所述基于所述目标字段名对应的汉字综合码串,对待匹配字段数据中,所有仅包含中文字符的待匹配字段名对应的汉字综合码串,分别进行字符相似度计算,包括:
若所述目标字段名中包含的中文字符数M1大于1,计算所述仅包含中文字符的待匹配字段名的汉字综合码串与所述目标字段名的汉字综合码串的代码相似度;
按照所述目标字段名中M1个中文字符的位置先后顺序,依次判断所述仅包含中文字符的待匹配字段名的H个中文字符中,是否存在与所述M1个中文字符的汉字综合码相同的中文字符,并得到汉字综合码相同的中文字符数M2,其中,若确定出所述H个中文字符中第h个中文字符,与所述M1个中文字符中第m1个中文字符的汉字综合码相同,则从所述H个中文字符的第h+1个中文字符至第H中文字符中,检测是否存在与所述M1个中文字符中第m1+1个中文字符的汉字综合码相同的中文字符,M1、M2和H均为正整数,h∈[1,H-1],m1∈[1,M1-1],且M1大于或等于M2;
计算所述仅包含中文字符的待匹配字段名与所述目标字段名的文本相似度M2/M1,并根据预设的权重系数对所述代码相似度及所述文本相似度进行权重计算,得到所述仅包含中文字符的待匹配字段名与所述目标字段名的所述字符相似度。
6.如权利要求5所述字段匹配终端设备,其特征在于,在所述获取待查询的目标字段名之前,还包括:接收用户输入的查询条件;
若所述查询条件中仅包含N个目标字段属性数据,对所述目标字段属性数据中的N个目标属性值进行归一化处理,得到对应的N个目标属性分数,所述目标字段属性数据中记录有N个目标字段属性以及对应的所述N个目标属性值,其中,N为正整数;
对所述待匹配字段数据的所述N个目标字段属性的属性值进行归一化处理,得到每个所述待匹配字段数据分别对应的N个真实属性分数;
利用以下公式计算每个所述待匹配字段数据的所述N个真实属性分数与所述N个目标属性分数的属性相似度,并从所述待匹配字段数据中筛选出所述属性相似度大于预设属性相似阈值的字段数据:
其中,X为所述属性相似度,N为所述目标字段属性的数量,Ai为所述待匹配字段数据的第i个所述目标字段属性的所述真实属性分数,ai为所述目标字段属性数据中第i个所述目标字段属性的所述目标属性分数,ki为第i个所述目标字段属性的预设属性权重值,i∈[1,N]。
7.如权利要求5所述字段匹配终端设备,其特征在于,在所述获取待查询的目标字段名之前,还包括:接收用户输入的查询条件;
若所述查询条件中同时包含所述目标字段名以及N个目标字段属性数据,识别所述目标字段名中字符的类型,并对所述目标字段属性数据中的N个目标属性值进行归一化处理,得到对应的N个目标属性分数,所述目标字段属性数据中记录有N个目标字段属性以及对应的所述N个目标属性值,其中,N为正整数;
若所述目标字段名中仅包含中文字符,获取所述目标字段名对应的汉字综合码串,并对所述待匹配字段数据中仅包含中文字符的待匹配字段名对应的汉字综合码串分别进行字符相似度计算,筛选出所述待匹配字段数据中所述字符相似度大于所述字符相似阈值的字段数据集;
对所述字段数据集中字段数据的所述N个目标字段属性的属性值进行归一化处理,得到所述字段数据集中每个字段数据分别对应的N个真实属性分数;
利用以下公式计算所述字段数据集中每个字段数据的所述N个真实属性分数与所述N个目标属性分数的属性相似度,并从所述字段数据集中筛选出所述属性相似度大于预设属性相似阈值的字段数据:
其中,X为所述属性相似度,N为所述目标字段属性的数量,Ai为所述字段数据集中字段数据的第i个所述目标字段属性的所述真实属性分数,ai为所述目标字段属性数据中第i个所述目标字段属性的所述目标属性分数,ki为第i个所述目标字段属性的预设属性权重值,i∈[1,N]。
8.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述方法的步骤。
CN201810456458.6A 2018-05-14 2018-05-14 一种字段匹配方法及终端设备 Active CN108629046B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201810456458.6A CN108629046B (zh) 2018-05-14 2018-05-14 一种字段匹配方法及终端设备
PCT/CN2018/097451 WO2019218473A1 (zh) 2018-05-14 2018-07-27 一种字段匹配方法、装置、终端设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810456458.6A CN108629046B (zh) 2018-05-14 2018-05-14 一种字段匹配方法及终端设备

Publications (2)

Publication Number Publication Date
CN108629046A CN108629046A (zh) 2018-10-09
CN108629046B true CN108629046B (zh) 2023-08-18

Family

ID=63693260

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810456458.6A Active CN108629046B (zh) 2018-05-14 2018-05-14 一种字段匹配方法及终端设备

Country Status (2)

Country Link
CN (1) CN108629046B (zh)
WO (1) WO2019218473A1 (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109189809B (zh) * 2018-10-17 2020-01-03 北京金堤科技有限公司 一种股东名称关联匹配的方法和装置
CN109936624B (zh) * 2019-01-31 2022-03-18 平安科技(深圳)有限公司 Http请求报文头的适配方法、装置和计算机设备
CN109902090B (zh) * 2019-02-19 2022-06-07 北京明略软件系统有限公司 字段名称获取方法和装置
CN109977412B (zh) * 2019-03-29 2022-12-27 北京林业大学 语音识别文本的字段值纠错方法、装置及存储控制器
CN110209892A (zh) * 2019-04-17 2019-09-06 深圳壹账通智能科技有限公司 敏感信息识别方法、装置、电子设备及存储介质
CN110287286B (zh) * 2019-06-13 2022-03-08 北京百度网讯科技有限公司 短文本相似度的确定方法、装置及存储介质
CN110852041A (zh) * 2019-10-12 2020-02-28 重庆金融资产交易所有限责任公司 一种字段处理方法及相关设备
CN111046631A (zh) * 2019-10-16 2020-04-21 平安科技(深圳)有限公司 基于字符转换的姓名存储方法、装置、计算机设备
CN110837526A (zh) * 2019-11-14 2020-02-25 陕西航空电气有限责任公司 一种基于物料信息管理平台的电子元器件选型方法及系统
CN111104481B (zh) * 2019-12-17 2023-10-10 东软集团股份有限公司 一种识别匹配字段的方法、装置及设备
CN111400444A (zh) * 2020-03-03 2020-07-10 中国建设银行股份有限公司 一种文档选择的方法及装置
CN111737533B (zh) * 2020-06-19 2024-02-09 东软集团股份有限公司 一种检验项目的处理方法、装置、存储介质及设备
CN112767925B (zh) * 2020-12-24 2023-02-17 贝壳技术有限公司 语音信息识别方法及装置
CN113535976A (zh) * 2021-07-09 2021-10-22 泰康保险集团股份有限公司 一种路径的向量化表征方法、装置、计算设备及存储介质
CN115510328A (zh) * 2022-10-11 2022-12-23 江苏云机汇软件科技有限公司 一种基于大数据的商品品牌营销数据分析方法
CN117724859A (zh) * 2023-02-15 2024-03-19 书行科技(北京)有限公司 数据拼接方法、装置、电子设备和可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1598813A (zh) * 2004-09-16 2005-03-23 徐祖华 一种含汉字部件构字信息查询的汉语易通电脑词典编纂法
CN103399907A (zh) * 2013-07-31 2013-11-20 深圳市华傲数据技术有限公司 一种基于编辑距离计算中文字符串相似度的方法及装置
CN103428307A (zh) * 2013-08-09 2013-12-04 中国科学院计算机网络信息中心 仿冒域名检测方法及设备
WO2015139497A1 (zh) * 2014-03-19 2015-09-24 北京奇虎科技有限公司 一种在搜索引擎中确定形近字的方法和装置
CN108009253A (zh) * 2017-12-05 2018-05-08 昆明理工大学 一种改进的字符串相似对比方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102830809B (zh) * 2011-06-15 2016-05-11 高静敏 汉字编码输入法
EP3252620A1 (en) * 2016-05-31 2017-12-06 Fujitsu Limited A method and system to align two coding standards
CN107491423B (zh) * 2016-06-12 2021-03-30 北京云量数盟科技有限公司 一种基于数值-字符串混合编码的中文文档基因量化与表征方法
CN107704625B (zh) * 2017-10-30 2021-01-15 锐捷网络股份有限公司 字段匹配方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1598813A (zh) * 2004-09-16 2005-03-23 徐祖华 一种含汉字部件构字信息查询的汉语易通电脑词典编纂法
CN103399907A (zh) * 2013-07-31 2013-11-20 深圳市华傲数据技术有限公司 一种基于编辑距离计算中文字符串相似度的方法及装置
CN103428307A (zh) * 2013-08-09 2013-12-04 中国科学院计算机网络信息中心 仿冒域名检测方法及设备
WO2015139497A1 (zh) * 2014-03-19 2015-09-24 北京奇虎科技有限公司 一种在搜索引擎中确定形近字的方法和装置
CN108009253A (zh) * 2017-12-05 2018-05-08 昆明理工大学 一种改进的字符串相似对比方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
一种基于编码规则的中文地址清洗方法;郭文龙;卓琳;;闽江学院学报(第05期);全文 *

Also Published As

Publication number Publication date
WO2019218473A1 (zh) 2019-11-21
CN108629046A (zh) 2018-10-09

Similar Documents

Publication Publication Date Title
CN108629046B (zh) 一种字段匹配方法及终端设备
US11544459B2 (en) Method and apparatus for determining feature words and server
US9471644B2 (en) Method and system for scoring texts
CN113312461A (zh) 基于自然语言处理的智能问答方法、装置、设备及介质
CN110134777B (zh) 问题去重方法、装置、电子设备和计算机可读存储介质
CN110895559A (zh) 模型训练、文本处理方法、装置以及设备
CN110096572B (zh) 一种样本生成方法、装置及计算机可读介质
CN108052500A (zh) 一种基于语义分析的文本关键信息提取方法及装置
CN109993216B (zh) 一种基于k最近邻knn的文本分类方法及其设备
CN113836314B (zh) 知识图谱构建方法、装置、设备以及存储介质
WO2018213783A1 (en) Computerized methods of data compression and analysis
EP4191544A1 (en) Method and apparatus for recognizing token, electronic device and storage medium
CN112182337B (zh) 从海量短新闻中识别相似新闻的方法及相关设备
CN113408280A (zh) 负例构造方法、装置、设备和存储介质
CN112417101A (zh) 一种关键词提取的方法及相关装置
CN112199958A (zh) 概念词序列生成方法、装置、计算机设备及存储介质
CN108763258B (zh) 文档主题参数提取方法、产品推荐方法、设备及存储介质
CN112182448A (zh) 页面信息处理方法、装置及设备
CN115712715A (zh) 问答方法、装置、电子设备以及存储介质进行介绍
CN113553410B (zh) 长文档处理方法、处理装置、电子设备和存储介质
CN114328855A (zh) 文档查询方法、装置、电子设备和可读存储介质
US11651246B2 (en) Question inference device
CN111859901A (zh) 一种英文重复文本检测方法、系统、终端及存储介质
CN106598936B (zh) 字母词的提取方法及装置
CN114238663B (zh) 一种材料数据用知识图谱分析方法、系统、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant