CN111667923B - 数据匹配方法、装置、计算机可读介质及电子设备 - Google Patents

数据匹配方法、装置、计算机可读介质及电子设备 Download PDF

Info

Publication number
CN111667923B
CN111667923B CN202010504406.9A CN202010504406A CN111667923B CN 111667923 B CN111667923 B CN 111667923B CN 202010504406 A CN202010504406 A CN 202010504406A CN 111667923 B CN111667923 B CN 111667923B
Authority
CN
China
Prior art keywords
data
matching
rule
field
matched
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010504406.9A
Other languages
English (en)
Other versions
CN111667923A (zh
Inventor
高磊
何刚
窦玥莹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yidu Cloud Beijing Technology Co Ltd
Original Assignee
Yidu Cloud Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yidu Cloud Beijing Technology Co Ltd filed Critical Yidu Cloud Beijing Technology Co Ltd
Priority to CN202010504406.9A priority Critical patent/CN111667923B/zh
Publication of CN111667923A publication Critical patent/CN111667923A/zh
Application granted granted Critical
Publication of CN111667923B publication Critical patent/CN111667923B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Primary Health Care (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Epidemiology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种数据匹配方法、数据匹配装置、计算机可读介质及电子设备,涉及数据匹配技术领域。该方法包括:当接收到待处理文件时,读取待处理文件中的第一待匹配数据和预设标准数据;获取匹配规则以及第一待匹配数据和预设标准数据之间的字段对应关系;其中,匹配规则包括精准匹配子规则、模糊匹配子规则以及分词匹配子规则中至少一个子规则;根据字段对应关系和匹配规则对第一待匹配数据和预设标准数据进行匹配,得到数据匹配关系。本公开通过相对应的匹配规则以及字段之间的对应关系进行数据匹配,因地制宜地实现对于不同字段数据之间的匹配,能够提升数据匹配的效率,无需人工进行大量的数据比对,可以降低人工成本。

Description

数据匹配方法、装置、计算机可读介质及电子设备
技术领域
本公开涉及数据匹配技术领域,具体而言,涉及一种数据匹配方法、数据匹配装置、计算机可读介质及电子设备。
背景技术
随着大数据时代的来临,数据和信息爆炸式增长,如何处理海量数据成为了较为重要的问题。尤其是在医疗领域,不同的医疗机构存储了不同的医疗数据(如,患者数据、业务数据、药品数据),而这些医疗数据之间可能并不互通,例如,药品“阿司匹林”在甲医疗机构和乙医疗机构中所记录的名称不同,这样就容易造成医疗结构归一化管理较为就困难的问题。一般来说,人们为了解决这一问题,会通过对同一药品进行编号以使得该药品不论在哪个医疗机构、记录为什么名称都应用的是这一编号。但是,解决这一问题需要相关人员进行大量的数据比对,容易造成人工成本较高的问题。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种数据匹配方法、数据匹配装置、计算机可读介质及电子设备,通过相对应的匹配规则以及字段之间的对应关系进行数据匹配,因地制宜地实现对于不同字段数据之间的匹配,能够提升数据匹配的效率,无需人工进行大量的数据比对,可以降低人工成本。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
本公开的第一方面提供了一种数据匹配方法,包括:
当接收到待处理文件时,读取待处理文件中的第一待匹配数据和预设标准数据;
获取匹配规则以及第一待匹配数据和预设标准数据之间的字段对应关系;其中,匹配规则包括精准匹配子规则、模糊匹配子规则以及分词匹配子规则中至少一个子规则;
根据字段对应关系和匹配规则对第一待匹配数据和预设标准数据进行匹配,得到数据匹配关系。
在本公开的一种示例性实施例中,读取待处理文件中的第一待匹配数据和预设标准数据,包括:
解析待处理文件,得到待处理文件对应的字段信息;其中,字段信息包括第一待匹配数据对应的第一字段信息和预设标准数据对应的第二字段信息,第一字段信息和第二字段信息分别包含多个字段;
读取第一字段信息中多个字段分别对应的第一待匹配数据,以及获取第二字段信息中多个字段分别对应的预设标准数据。
在本公开的一种示例性实施例中,根据字段对应关系和匹配规则对第一待匹配数据和预设标准数据进行匹配,得到数据匹配关系,包括:
根据字段对应关系确定第一字段信息中的第一目标字段和第二字段信息中的第二目标字段,第一目标字段与第二目标字段之间存在对应关系;
根据匹配规则对第一目标字段对应的第一待匹配数据和第二目标字段对应的预设标准数据进行匹配;
若匹配成功,则将匹配结果对应的第一待匹配数据和预设标准数据进行绑定,得到数据匹配关系。
在本公开的一种示例性实施例中,将匹配结果对应的第一待匹配数据和预设标准数据进行绑定,得到数据匹配关系,包括:
将匹配结果对应的第一待匹配数据和预设标准数据分别对应的编码进行绑定,得到数据匹配关系。
在本公开的一种示例性实施例中,当匹配规则包括的子规则为精准匹配子规则,根据匹配规则对第一目标字段对应的第一待匹配数据和第二目标字段对应的预设标准数据进行匹配,包括:
比对第一目标字段对应的第一待匹配数据和第二目标字段对应的预设标准数据是否完全一致,若完全一致,则判定为匹配成功。
在本公开的一种示例性实施例中,当匹配规则包括的子规则为模糊匹配子规则,根据所述匹配规则对所述第一目标字段对应的第一待匹配数据和所述第二目标字段对应的预设标准数据进行匹配,包括:
检测第二目标字段对应的预设标准数据与第一目标字段对应的第一待匹配数据是否为包含关系,如果是,则判定为匹配成功。
在本公开的一种示例性实施例中,上述方法还包括:
对第二目标字段对应的预设标准数据进行分词处理,得到第一分词处理结果;
当检测到白名单标注操作时,将白名单标注操作对应的第一目标分词写入预标注词库的白名单;
当检测到黑名单标注操作时,将黑名单标注操作对应的第二目标分词写入预标注词库的黑名单;
当检测到同义词标注操作时,将同义词标注操作对应的与预标注词库中的分词具有相同意义的第三目标分词写入预标注词库;
其中,第一分词处理结果中包括第一目标分词、第二目标分词以及第三目标分词。
在本公开的一种示例性实施例中,当匹配规则包括的子规则为分词匹配子规则,根据匹配规则对第一目标字段对应的第一待匹配数据和第二目标字段对应的预设标准数据进行匹配,包括:
对第一目标字段对应的第一待匹配数据进行分词处理,得到第二分词处理结果;
根据预标注词库对第二分词处理结果进行包括合并、过滤以及替换中至少一种的数据处理,得到数据处理结果;
将数据处理结果与预标注词库进行匹配。
在本公开的一种示例性实施例中,根据字段对应关系和匹配规则对第一待匹配数据和预设标准数据进行匹配之后,上述方法还包括:
若第一待匹配数据对应多个匹配结果,则根据检测到的词库更新操作对预标注词库进行更新并根据更新后的预标注词库对第一待匹配数据进行重新匹配,直到第一待匹配数据对应唯一匹配结果。
在本公开的一种示例性实施例中,当第一待匹配数据对应唯一匹配结果时,上述方法还包括:
读取输出配置信息,根据输出配置信息限定的输出方式输出唯一匹配结果;其中,输出方式包括通过表格方式输出。
根据本公开的第二方面,提供一种数据匹配装置,包括数据读取单元、信息获取单元以及数据匹配单元,其中:
数据读取单元,用于当接收到待处理文件时,读取待处理文件中的第一待匹配数据和预设标准数据;
信息获取单元,用于获取匹配规则以及第一待匹配数据和预设标准数据之间的字段对应关系;其中,匹配规则包括精准匹配子规则、模糊匹配子规则以及分词匹配子规则中至少一个子规则;
数据匹配单元,用于根据字段对应关系和匹配规则对第一待匹配数据和预设标准数据进行匹配,得到数据匹配关系。
在本公开的一种示例性实施例中,数据读取单元读取待处理文件中的第一待匹配数据和预设标准数据,包括:
数据读取单元解析待处理文件,得到待处理文件对应的字段信息;其中,字段信息包括第一待匹配数据对应的第一字段信息和预设标准数据对应的第二字段信息,第一字段信息和第二字段信息分别包含多个字段;
数据读取单元读取第一字段信息中多个字段分别对应的第一待匹配数据,以及获取第二字段信息中多个字段分别对应的预设标准数据。
在本公开的一种示例性实施例中,数据匹配单元根据字段对应关系和匹配规则对第一待匹配数据和预设标准数据进行匹配,得到数据匹配关系,包括:
数据匹配单元根据字段对应关系确定第一字段信息中的第一目标字段和第二字段信息中的第二目标字段,第一目标字段与第二目标字段之间存在对应关系;
数据匹配单元根据匹配规则对第一目标字段对应的第一待匹配数据和第二目标字段对应的预设标准数据进行匹配;
若匹配成功,数据匹配单元将匹配结果对应的第一待匹配数据和预设标准数据进行绑定,得到数据匹配关系。
在本公开的一种示例性实施例中,数据匹配单元将匹配结果对应的第一待匹配数据和预设标准数据进行绑定,得到数据匹配关系,包括:
数据匹配单元将匹配结果对应的第一待匹配数据和预设标准数据分别对应的编码进行绑定,得到数据匹配关系。
在本公开的一种示例性实施例中,当匹配规则包括的子规则为精准匹配子规则,数据匹配单元根据匹配规则对第一目标字段对应的第一待匹配数据和第二目标字段对应的预设标准数据进行匹配,包括:
数据匹配单元比对第一目标字段对应的第一待匹配数据和第二目标字段对应的预设标准数据是否完全一致,若完全一致,则判定为匹配成功。
在本公开的一种示例性实施例中,当所述匹配规则包括的子规则为模糊匹配子规则,数据匹配单元根据所述匹配规则对所述第一目标字段对应的第一待匹配数据和所述第二目标字段对应的预设标准数据进行匹配,包括:
数据匹配单元检测第二目标字段对应的预设标准数据与第一目标字段对应的第一待匹配数据是否为包含关系,如果是,则判定为匹配成功。
在本公开的一种示例性实施例中,上述装置还包括分词处理单元和分词标注单元,其中:
分词处理单元,用于对第二目标字段对应的预设标准数据进行分词处理,得到第一分词处理结果;
分词标注单元,用于当检测到白名单标注操作时,将白名单标注操作对应的第一目标分词写入预标注词库的白名单;
分词标注单元,还用于当检测到黑名单标注操作时,将黑名单标注操作对应的第二目标分词写入预标注词库的黑名单;
分词标注单元,还用于当检测到同义词标注操作时,将同义词标注操作对应的与预标注词库中的分词具有相同意义的第三目标分词写入预标注词库;
其中,第一分词处理结果中包括第一目标分词、第二目标分词以及第三目标分词。
在本公开的一种示例性实施例中,当匹配规则包括的子规则为分词匹配子规则,数据匹配单元根据匹配规则对第一目标字段对应的第一待匹配数据和第二目标字段对应的预设标准数据进行匹配,包括:
数据匹配单元对第一目标字段对应的第一待匹配数据进行分词处理,得到第二分词处理结果;
数据匹配单元根据预标注词库对第二分词处理结果进行包括合并、过滤以及替换中至少一种的数据处理,得到数据处理结果;
数据匹配单元将数据处理结果与预标注词库进行匹配。
在本公开的一种示例性实施例中,数据匹配单元,还用于在根据字段对应关系和匹配规则对第一待匹配数据和预设标准数据进行匹配之后,若第一待匹配数据对应多个匹配结果,则根据检测到的词库更新操作对预标注词库进行更新并根据更新后的预标注词库对第一待匹配数据进行重新匹配,直到第一待匹配数据对应唯一匹配结果。
在本公开的一种示例性实施例中,当第一待匹配数据对应唯一匹配结果时,上述装置还包括匹配结果输出单元,其中:
匹配结果输出单元,用于读取输出配置信息,根据输出配置信息限定的输出方式输出唯一匹配结果;其中,输出方式包括通过表格方式输出。
根据本公开的第三方面,提供了一种计算机可读介质,其上存储有计算机程序,程序被处理器执行时实现如上述实施例中第一方面所述的数据匹配方法。
根据本公开的第四方面,提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器实现如上述实施例中第一方面所述的数据匹配方法。
本公开提供的技术方案可以包括以下有益效果:
依据上述方案描述,本公开一方面通过相对应的匹配规则以及字段之间的对应关系进行数据匹配,因地制宜地实现对于不同字段数据之间的匹配,能够提升数据匹配的效率,无需人工进行大量的数据比对,可以降低人工成本;另一方面,通过对不同字段的数据应用不同的匹配规则,相较于现有技术通过统一方式进行数据匹配,能够提升对于数据的匹配准确率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示出了根据本公开一示例性实施例的一种数据匹配方法的流程示意图;
图2示出了根据本公开一示例性实施例的根据配置操作得到待处理文件中字段信息对应的字段列表的界面示意图;
图3示出了根据本公开一示例性实施例的根据配置操作得到匹配规则的界面示意图;
图4示出了根据本公开一示例性实施例的另一种数据匹配方法的流程示意图;
图5示出了根据本公开一示例性实施例的数据匹配装置的结构框图;
图6示出了适于用来实现本公开一示例性实施例的电子设备的计算机系统的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的命名实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
请参阅图1,图1示出了根据本公开一示例性实施例的一种数据匹配方法的流程示意图,该数据匹配方法可以由服务器或终端设备来实现。
如图1所示,根据本公开的一个实施例的数据匹配方法,包括:步骤S110~步骤S130,其中:
步骤S110:当接收到待处理文件时,读取待处理文件中的第一待匹配数据和预设标准数据。
步骤S120:获取匹配规则以及第一待匹配数据和预设标准数据之间的字段对应关系;其中,匹配规则包括精准匹配子规则、模糊匹配子规则以及分词匹配子规则中至少一个子规则。
步骤S130:根据字段对应关系和匹配规则对第一待匹配数据和预设标准数据进行匹配,得到数据匹配关系。
实施图1所示的数据匹配方法,能够通过相对应的匹配规则以及字段之间的对应关系进行数据匹配,因地制宜地实现对于不同字段数据之间的匹配,能够提升数据匹配的效率,无需人工进行大量的数据比对,可以降低人工成本。此外,通过对不同字段的数据应用不同的匹配规则,相较于现有技术通过统一方式进行数据匹配,能够提升对于数据的匹配准确率。
以下对各步骤进行详细说明:
在步骤S110中,当接收到待处理文件时,读取待处理文件中的第一待匹配数据和预设标准数据。
其中,待处理文件可以为用户上传的文件,该文件中可以包括两种数据,即,第一待匹配数据和预设标准数据;其中,预设标准数据用于作为数据比对的标准。当本申请应用于医疗领域时,第一待匹配数据可以为业务数据,如,药品业务数据、医疗项目销售业务数据等。第一待匹配数据和预设标准数据的数量均可以为一个或多个,本申请实施例不作限定。另外,需要说明的是,上述的第一待匹配数据和第二待匹配数据不同。此外,在接收到待处理文件之前,上述方法还可以包括以下步骤:创建至少一个匹配任务,其中,若匹配任务存在多个,那么,多个匹配任务可以并行执行,不同的匹配任务对应于不同的第一待匹配数据(如,业务数据)、预设标准数据(如,字典数据)、匹配规则、预标注词库以及匹配结果。
本申请实施例中,可选的,读取待处理文件中的第一待匹配数据和预设标准数据,包括:
解析待处理文件,得到待处理文件对应的字段信息;其中,字段信息包括第一待匹配数据对应的第一字段信息和预设标准数据对应的第二字段信息,第一字段信息和第二字段信息分别包含多个字段;
读取第一字段信息中多个字段分别对应的第一待匹配数据,以及获取第二字段信息中多个字段分别对应的预设标准数据。
其中,所述待处理文件对应的格式可以为电子表格(excel)格式,其中,excel可以包括表头部分和数据部分,表头部分包括字段信息,数据部分包括第一待匹配数据和预设标准数据,第一字段信息中包括的多个字段各不相同,第二字段信息中包括的多个字段同理。在第一字段信息或第二字段信息中,不同的字段对应的第一待匹配数据不同,第一个字段(如,药品名称)可以对应一个或多个第一待匹配数据(如,布洛芬、阿司匹林、青霉素)。
可见,实施该可选的实施例,能够根据字段信息分别获取第一待匹配数据和预设标准数据,进而可以便于根据字段信息将针对同一字段的第一匹配数据和预设标准数据进行比对,以提升根据数据匹配的准确率。
在步骤S120中,获取匹配规则以及第一待匹配数据和预设标准数据之间的字段对应关系;其中,匹配规则包括精准匹配子规则、模糊匹配子规则以及分词匹配子规则中至少一个子规则。
其中,字段对应关系用于表示第一待匹配数据对应的字段与预设标准数据对应的字段之间的对应关系。举例来说,第一待匹配数据对应的字段包括“品种名”、“产品名称”、“规格”以及“生产厂家”,预设标准数据对应的字段包括“品种通用名”、“药品通用名称”、“规格包装”以及“生产企业”,其中,字段“品种名”与字段“品种通用名”相对应,字段“产品名称”与字段“药品通用名称”相对应,字段“规格”与字段“规格包装”相对应,字段“生产厂家”与字段“生产企业”相对应。此外,子规则可以为:精准匹配子规则、模糊匹配子规则、分词匹配子规则或字段组合匹配子规则等,本申请实施例不作限定。同理,可以理解的是,匹配规则中可以包括精准匹配子规则、模糊匹配子规则、分词匹配子规则以及字段组合匹配子规则中至少一个子规则,本申请实施例不做限定。另外,匹配规则中还可以包括自定义匹配规则,用于通过插件方式实现。此外,配置操作可以为用户点击操作,用户点击操作可以用于选取匹配规则,也可以用于选取需显示的字段,也可以用于构建字段对应关系。
请参阅图2,图2示出了根据本公开一示例性实施例的根据配置操作得到待处理文件中字段信息对应的字段列表的界面示意图。本申请可以应用于医疗领域,根据对用于选取需显示的字段的配置操作的检测,可以在“是否显示”区域进行对应显示。用于选取需显示的字段的配置操作可以为触屏操作、语音操作、手势操作等,本申请实施例不作限定。另外,需显示的字段可以为业务表字段和/或字典表字段;其中,业务表字段包括:品种名、产品名称、规格、转换比、剂型以及生产厂家,字典表字段包括:品种通用名、药品通用名称、剂型分类、规格包装、生产企业以及转换系数。如图2所示,用于选取需显示的字段的配置操作选取了所有业务表字段和所有字典表字段,在图2中通过标识“是否显示”区域进行标识。需要说明的是,图2所示的业务表字段和字典表字段可以为示意性示出,在实际应用中,业务表字段和/或字典表字段中可以包括一个或多个字段,本申请实施例不作限定。
若用于选取需显示的字段的配置操作所选取的字段包括:品种名、产品名称、规格、生产厂家、品种通用名、药品通用名称、规格包装以及生产企业。那么,当检测到用于构建字段对应关系的配置操作时,可以生成第一待匹配数据和预设标准数据之间的字段对应关系。请参见下表:
序号 业务表字段 字典表字段 操作
1 品种名 品种通用名 删除
2 产品名称 药品通用名称 删除
3 规格 规格包装 删除
4 生产厂家 生产企业 删除
由上表可见,在序号1中,业务表字段“品种名”与字典表字段“品种通用名”之间存在字段对应关系;业务表字段“产品名称”与字典表字段“药品通用名称”之间存在字段对应关系;业务表字段“规格”与字典表字段“规格包装”之间存在字段对应关系;业务表字段“生产厂家”与字典表字段“生产企业”之间存在字段对应关系。另外,针对生成的用于表示第一待匹配数据和预设标准数据之间字段对应关系的表格,还提供删除功能,若检测到用于触发删除功能的用户操作时,可以删除对应序号中的字段对应关系,以使得用户可以根据生成结果进行适应性调整字段对应关系,以便提升字段对应关系的正确性,进而提升后续的字段匹配准确率。
进一步地,请参阅图3,图3示出了根据本公开一示例性实施例的根据配置操作得到匹配规则的界面示意图。若检测到用于选取匹配规则的配置操作选取了完全匹配子规则、模糊匹配子规则以及分词匹配子规则,可以通过在用户界面中输出用于选定完全匹配子规则、模糊匹配子规则以及分词匹配子规则的“对勾”标识,以表示对上述子规则的勾选。进而,可以根据配置操作选取的匹配规则进行数据匹配。
在步骤S130中,根据字段对应关系和匹配规则对第一待匹配数据和预设标准数据进行匹配,得到数据匹配关系。
其中,数据匹配关系用于表示相对应的字段对应的数据之间的对应关系。例如,第一字段信息中包括第一目标字段“产品名称”,第二字段信息中包括第二目标字段“药品通用名称”,第一目标字段“产品名称”对应的第一待匹配数据为阿莫西林和XXXX,第二目标字段“药品通用名称”对应的预设标准数据为阿莫西林胶囊和YYYYY,可以根据匹配规则确定出阿莫西林和阿莫西林胶囊属于同一种类的药品,进而生成数据匹配关系,其中,数据匹配关系用于表征阿莫西林和阿莫西林胶囊之间的相对应关系。
本申请实施例中,可选的,根据字段对应关系和匹配规则对第一待匹配数据和预设标准数据进行匹配,得到数据匹配关系,包括:
根据字段对应关系确定第一字段信息中的第一目标字段和第二字段信息中的第二目标字段,第一目标字段与第二目标字段之间存在对应关系;
根据匹配规则对第一目标字段对应的第一待匹配数据和第二目标字段对应的预设标准数据进行匹配;
若匹配成功,则将匹配结果对应的第一待匹配数据和预设标准数据进行绑定,得到数据匹配关系。
其中,第一字段信息可以对应一个或多个字段,多个字段中包括上述的第一目标字段;同理,第二字段信息对应一个或多个字段,多个字段中包括上述的第二目标字段。第一目标字段和第二目标字段均可以为一个或多个,本申请实施例不作限定。另外,第一目标字段中可以包括一个或多个第一待匹配数据,第二目标字段中可以包括一个或多个预设标准数据。另外,在第一字段信息和第二字段信息中,不同的字段可以对应不同的子规则,存在对应关系的目标字段对应同一子规则。
可见,实施该可选的实施例,能够通过将相对应的字段中的数据进行关系绑定,进而,可以得到不同的字段表中数据的关联关系,可以便于进行数据管理,提升数据管理效率。
进一步地,将匹配结果对应的第一待匹配数据和预设标准数据进行绑定,得到数据匹配关系,包括:
将匹配结果对应的第一待匹配数据和预设标准数据分别对应的编码进行绑定,得到数据匹配关系。
其中,第一待匹配数据和预设标准数据分别对应的编码可以通过字符串的形式进行表示(如,Hsja324JKsdha)。举例来说,若匹配结果对应的第一待匹配数据和预设标准数据分别对应的编码为123和456,得到的数据匹配关系中则包括123和456。另外,对于第一待匹配数据和预设标准数据分别对应的编码可以通过键值形式进行存储。
可见,实施该可选的实施例,能够通过将相对应的数据进行编码绑定,这样可以根据绑定关系提升数据调用效率。
具体地,当匹配规则包括的子规则为精准匹配子规则,根据匹配规则对第一目标字段对应的第一待匹配数据和第二目标字段对应的预设标准数据进行匹配,包括:
比对第一目标字段对应的第一待匹配数据和第二目标字段对应的预设标准数据是否完全一致,若完全一致,则判定为匹配成功。
其中,若比对结果表示不完全一致,则结束流程。
另外,具体地,比对第一目标字段对应的第一待匹配数据和第二目标字段对应的预设标准数据是否完全一致之前,还可以包括:从匹配规则中确定出与第一目标字段和第二目标字段对应的子规则(如,精准匹配子规则)。进一步地,比对第一目标字段对应的第一待匹配数据和第二目标字段对应的预设标准数据是否完全一致的方式具体可以为:将第一目标字段对应的第一待匹配数据分别与第二目标字段对应的预设标准数据一一进行精准匹配,以从第二目标字段中确定出第一目标字段对应的第一待匹配数据分别对应的预设标准数据,将完全一致的第一待匹配数据和预设标准数据确定为匹配成功的数据对。举例来说,若第一目标字段为“产品名称”,第二目标字段为“药品通用名称”,“产品名称”对应的第一待匹配数据为“阿莫西林”、“罗红霉素”、“甲硝锉”,“药品通用名称”对应的预设标准数据为“阿莫西林”、“罗红霉素”、“甲硝锉”;进而,可以将第一待匹配数据和预设标准数据进行精准匹配,其中,第一待匹配数据“阿莫西林”与预设标准数据“阿莫西林”完全一致,因此,可以判定第一待匹配数据“阿莫西林”与预设标准数据“阿莫西林”匹配成功。同理,第一待匹配数据“罗红霉素”与预设标准数据“罗红霉素”匹配成功;第一待匹配数据“甲硝锉”与预设标准数据“甲硝锉”匹配成功。
另外,需要说明的是,比对第一目标字段对应的第一待匹配数据和第二目标字段对应的预设标准数据是否完全一致的方式可以为:基于计算式(业务表.A==字典表.A&&业务表.B==字典表.B)比对第一目标字段对应的第一待匹配数据和第二目标字段对应的预设标准数据是否完全一致。其中,业务表用于表示第一字段信息对应的表,字典表用于表示第二字段信息对应的表,业务表.A用于表示第一目标字段中的第一待匹配数据,字典表.A用于表示第二目标字段中的预设标准数据,业务表.B和字典表.B同理。
可见,实施该可选的实施例,能够根据字段所对应的匹配规则对字段中的数据进行匹配,以得到数据之间的对应关系,有利于提升数据调用效率,以及可以根据数据之间的对应关系提升数据更新效率。
具体地,当所述匹配规则包括的子规则为模糊匹配子规则,根据所述匹配规则对所述第一目标字段对应的第一待匹配数据和所述第二目标字段对应的预设标准数据进行匹配,包括:
检测第二目标字段对应的预设标准数据与第一目标字段对应的第一待匹配数据是否为包含关系,如果是,则判定为匹配成功。
其中,包含关系可以为单向包含关系,也可以为双向包含关系;若为单向包含关系,则第二目标字段对应的预设标准数据包含第一目标字段对应的第一待匹配数据为匹配成功的条件/第一目标字段对应的第一待匹配数据包含第二目标字段对应的预设标准数据为匹配成功的条件;若为双向包含关系,则第二目标字段对应的预设标准数据第一目标字段对应的第一待匹配数据之间互相包含为匹配成功的条件。可以理解的是,若第二目标字段对应的预设标准数据与第一目标字段对应的第一待匹配数据非包含关系,则结束流程。
另外,检测第二目标字段对应的预设标准数据与第一目标字段对应的第一待匹配数据是否为包含关系的方式可以为:基于计算式(业务表.A IN(字典表.A)&&业务表.B IN(字典表.B))检测第二目标字段对应的预设标准数据与第一目标字段对应的第一待匹配数据是否为包含关系。
可见,实施该可选的实施例,能够通过模糊匹配确定出数据之间的对应关系,有利于提升数据的调用效率。
本申请实施例中,可选的,上述方法还包括:
对第二目标字段对应的预设标准数据进行分词处理,得到第一分词处理结果;
当检测到白名单标注操作时,将白名单标注操作对应的第一目标分词写入预标注词库的白名单;
当检测到黑名单标注操作时,将黑名单标注操作对应的第二目标分词写入预标注词库的黑名单;
当检测到同义词标注操作时,将同义词标注操作对应的与预标注词库中的分词具有相同意义的第三目标分词写入预标注词库;
其中,第一分词处理结果中包括第一目标分词、第二目标分词以及第三目标分词。
其中,白名单标注操作、黑名单标注操作以及同义词标注操作均可以为用户操作,该用户操作可以为触控操作、语音操作、手势操作等。预标注词库中包括具有对应的标注信息的预设标准数据。另外,白名单中的第一目标分词可以为具有实质性意义的词汇,黑名单中的第二目标分词可以为无实质性意义的词汇,如,状态副词。
另外,对第二目标字段对应的预设标准数据进行分词处理,得到第一分词处理结果的方式具体可以为:通过隐马尔科夫模型以及维特比算法对第二目标字段对应的预设标准数据进行分词,得到第一分词处理结果;具体包括:确定第二目标子弹对应的预设标准数据的B(词首)、M(词中)、E(词尾)、S(单独成词);计算发射概率P(λk|ok)和转移概率P(ok|ok-1),通过等式P(ok|ok-1)=0筛除预设标准数据中的错误字符组合,其中,o用于标记B(词首)、M(词中)、E(词尾)、S(单独成词),λ用于表示预设标准数据中的字符;进而,通过维特比算法计算maxP(λ|o)P(o),以确定出最优路径对应的节点oi,根据确定出的多个oi确定由字符构成的最优路径,进而依据最优路径得到第一分词处理结果。其中,隐马尔可夫模型(hidden Markov model,HMM)是可用于标注问题的统计学模型,描述由隐藏的马尔可夫链随机生成观测序列的过程,属于生成模型,可以应用于语音识别,自然语言处理,生物信息,模式识别等领域。维特比算法是一种动态规划算法用于寻找最有可能产生观测事件序列的-维特比路径-隐含状态序列,特别可以应用于马尔可夫信息源上下文和隐马尔可夫模型中。
此外,在将同义词标注操作对应的与预标注词库中的分词具有相同意义的第三目标分词写入预标注词库之后,上述方法还可以包括以下步骤:通过标识符分隔具有相同意义的预标注词库中的分词和第三目标分词。
可见,实施该可选的实施例,能够通过对数据进行分词处理,以提升数据匹配效率以及数据匹配的准确率。
进一步地,当匹配规则包括的子规则为分词匹配子规则,根据匹配规则对第一目标字段对应的第一待匹配数据和第二目标字段对应的预设标准数据进行匹配,包括:
对第一目标字段对应的第一待匹配数据进行分词处理,得到第二分词处理结果;
根据预标注词库对第二分词处理结果进行包括合并、过滤以及替换中至少一种的数据处理,得到数据处理结果;
将数据处理结果与预标注词库进行匹配。
其中,第二分词处理结果中包括合并处理、过滤处理以及替换处理;其中,合并处理用于对数据中的字符进行合并,过滤处理用于对数据中的字符进行过滤,替换处理用于将数据中的字符替换为其他字符。
具体地,将数据处理结果与预标注词库进行匹配的方式可以为:基于计算式(业务表.A分词loop match字典表.A分词&&业务表.B分词loop match字典表.B分词)将数据处理结果与预标注词库进行匹配。其中,上述的数据处理结果中包括业务表.A分词,预标注词库中包括字典表.A分词,业务表.B分词和字典表.B分词同理。
可见,实施该可选的实施例,能够根据对预设标注数据以及第一待匹配数据的分词处理,提升数据匹配的准确率。
另外,可选的,根据匹配规则对第一目标字段对应的第一待匹配数据和第二目标字段对应的预设标准数据进行匹配的方式还可以为:通过多种子规则进行组合的方式(如,业务表.A==字典表.A&&业务表.B分词loop match字典表.B分词)对第一目标字段对应的第一待匹配数据和第二目标字段对应的预设标准数据进行匹配。
本申请实施例中,可选的,根据字段对应关系和匹配规则对第一待匹配数据和预设标准数据进行匹配之后,上述方法还包括:
若第一待匹配数据对应多个匹配结果,则根据检测到的词库更新操作对预标注词库进行更新并根据更新后的预标注词库对第一待匹配数据进行重新匹配,直到第一待匹配数据对应唯一匹配结果。
举例来说,当第一待匹配数据为“阿司匹林”时,若匹配结果中包括“阿莫西林”、“阿司匹林”、“阿司匹林胶囊”等,则表示该第一匹配数据对应多个匹配结果。词库更新操作可以为用户上传数据操作,根据检测到的词库更新操作对预标注词库进行更新的方式具体可以为:根据用户上传数据操作对应的上传数据更新预标注词库。
可见,实施该可选的实施例,能够通过一定程度上避免一个数据对应多个匹配结果的问题,进而提升数据匹配的精确度。
进一步地,当第一待匹配数据对应唯一匹配结果时,上述方法还包括:
读取输出配置信息,根据输出配置信息限定的输出方式输出唯一匹配结果;其中,输出方式包括通过表格方式输出。
其中,输出配置信息用于限定数据输出方式,如,通过文本形式输出、通过表格方式输出、通过语音方式输出、通过投影方式输出等,本申请实施例不作限定。具体地,根据输出配置信息限定的输出方式输出唯一匹配结果的方式可以为:将各个第一待匹配数据分别对应的唯一匹配结果生成excel(表格)文件并输出。
可见,实施该可选的实施例,能够通过相应的输出方式输出匹配结果,提升了匹配结果的可读性,进而可以改善用户的使用体验。
请参阅图4,图4示出了根据本公开一示例性实施例的另一种数据匹配方法的流程示意图。如图4所示,另一种数据匹配方法包括:步骤S400~步骤S480,其中:
步骤S400:当接收到待处理文件时,解析待处理文件,得到待处理文件对应的字段信息;其中,字段信息包括第一待匹配数据对应的第一字段信息和预设标准数据对应的第二字段信息,第一字段信息和第二字段信息分别包含多个字段;读取第一字段信息中多个字段分别对应的第一待匹配数据,以及获取第二字段信息中多个字段分别对应的预设标准数据。
步骤S410:根据字段对应关系确定第一字段信息中的第一目标字段和第二字段信息中的第二目标字段,第一目标字段与第二目标字段之间存在对应关系。
步骤S420:对第二目标字段对应的预设标准数据进行分词处理,得到第一分词处理结果;当检测到白名单标注操作时,将白名单标注操作对应的第一目标分词写入预标注词库的白名单;当检测到黑名单标注操作时,将黑名单标注操作对应的第二目标分词写入预标注词库的黑名单;当检测到同义词标注操作时,将同义词标注操作对应的与预标注词库中的分词具有相同意义的第三目标分词写入预标注词库;其中,第一分词处理结果中包括第一目标分词、第二目标分词以及第三目标分词。
步骤S430:若匹配规则包括的子规则为精准匹配子规则,则比对第一目标字段对应的第一待匹配数据和第二目标字段对应的预设标准数据是否完全一致;若完全一致,则执行步骤S460;若非完全一致,则结束本次流程。
步骤S440:若匹配规则包括的子规则为模糊匹配子规则,则检测第二目标字段对应的预设标准数据与第一目标字段对应的第一待匹配数据是否为包含关系;若为包含关系,则执行步骤S460;若非包含关系,则结束本次流程。
步骤S450:若匹配规则包括的子规则为分词匹配子规则,则对第一目标字段对应的第一待匹配数据进行分词处理,得到第二分词处理结果;根据预标注词库对第二分词处理结果进行包括合并、过滤以及替换中至少一种的数据处理,得到数据处理结果;将数据处理结果与预标注词库进行匹配。
步骤S460:若第一待匹配数据对应多个匹配结果,则根据检测到的词库更新操作对预标注词库进行更新并根据更新后的预标注词库对第一待匹配数据进行重新匹配,直到第一待匹配数据对应唯一匹配结果。
步骤S470:将唯一匹配结果对应的第一待匹配数据和预设标准数据分别对应的编码进行绑定,得到数据匹配关系。
步骤S480:读取输出配置信息,根据输出配置信息限定的输出方式输出唯一匹配结果;其中,输出方式包括通过表格方式输出。
需要说明的是,步骤S400~步骤S480与图1所示的步骤及其实施例相对应,针对步骤S400~步骤S480的具体实施方式,请参阅图1所示的步骤及其实施例,此处不再赘述。
可见,实施图4所示的数据匹配方法,能够通过相对应的匹配规则以及字段之间的对应关系进行数据匹配,因地制宜地实现对于不同字段数据之间的匹配,能够提升数据匹配的效率,无需人工进行大量的数据比对,可以降低人工成本。此外,通过对不同字段的数据应用不同的匹配规则,相较于现有技术通过统一方式进行数据匹配,能够提升对于数据的匹配准确率。
请参阅图5,图5示出了根据本公开一示例性实施例的数据匹配装置的结构框图。该数据匹配装置包括数据读取单元501、信息获取单元502以及数据匹配单元503,其中:
数据读取单元501,用于当接收到待处理文件时,读取待处理文件中的第一待匹配数据和预设标准数据;
信息获取单元502,用于获取匹配规则以及第一待匹配数据和预设标准数据之间的字段对应关系;其中,匹配规则包括精准匹配子规则、模糊匹配子规则以及分词匹配子规则中至少一个子规则;
数据匹配单元503,用于根据字段对应关系和匹配规则对第一待匹配数据和预设标准数据进行匹配,得到数据匹配关系。
可见,实施图5所示的数据匹配装置,能够通过相对应的匹配规则以及字段之间的对应关系进行数据匹配,因地制宜地实现对于不同字段数据之间的匹配,能够提升数据匹配的效率,无需人工进行大量的数据比对,可以降低人工成本。此外,通过对不同字段的数据应用不同的匹配规则,相较于现有技术通过统一方式进行数据匹配,能够提升对于数据的匹配准确率。
在本公开的一种示例性实施例中,数据读取单元501读取待处理文件中的第一待匹配数据和预设标准数据,包括:
数据读取单元501解析待处理文件,得到待处理文件对应的字段信息;其中,字段信息包括第一待匹配数据对应的第一字段信息和预设标准数据对应的第二字段信息,第一字段信息和第二字段信息分别包含多个字段;
数据读取单元501读取第一字段信息中多个字段分别对应的第一待匹配数据,以及获取第二字段信息中多个字段分别对应的预设标准数据。
可见,实施该可选的实施例,能够根据字段信息分别获取第一待匹配数据和预设标准数据,进而可以便于根据字段信息将针对同一字段的第一匹配数据和预设标准数据进行比对,以提升根据数据匹配的准确率。
在本公开的一种示例性实施例中,数据匹配单元503根据字段对应关系和匹配规则对第一待匹配数据和预设标准数据进行匹配,得到数据匹配关系,包括:
数据匹配单元503根据字段对应关系确定第一字段信息中的第一目标字段和第二字段信息中的第二目标字段,第一目标字段与第二目标字段之间存在对应关系;
数据匹配单元503根据匹配规则对第一目标字段对应的第一待匹配数据和第二目标字段对应的预设标准数据进行匹配;
若匹配成功,数据匹配单元503将匹配结果对应的第一待匹配数据和预设标准数据进行绑定,得到数据匹配关系。
可见,实施该可选的实施例,能够通过将相对应的字段中的数据进行关系绑定,进而,可以得到不同的字段表中数据的关联关系,可以便于进行数据管理,提升数据管理效率。
在本公开的一种示例性实施例中,数据匹配单元503将匹配结果对应的第一待匹配数据和预设标准数据进行绑定,得到数据匹配关系,包括:
数据匹配单元503将匹配结果对应的第一待匹配数据和预设标准数据分别对应的编码进行绑定,得到数据匹配关系。
可见,实施该可选的实施例,能够通过将相对应的数据进行编码绑定,这样可以根据绑定关系提升数据调用效率。
在本公开的一种示例性实施例中,当匹配规则包括的子规则为精准匹配子规则,数据匹配单元503根据匹配规则对第一目标字段对应的第一待匹配数据和第二目标字段对应的预设标准数据进行匹配,包括:
数据匹配单元503比对第一目标字段对应的第一待匹配数据和第二目标字段对应的预设标准数据是否完全一致,若完全一致,则判定为匹配成功。
可见,实施该可选的实施例,能够根据字段所对应的匹配规则对字段中的数据进行匹配,以得到数据之间的对应关系,有利于提升数据调用效率,以及可以根据数据之间的对应关系提升数据更新效率。
在本公开的一种示例性实施例中,当所述匹配规则包括的子规则为模糊匹配子规则,数据匹配单元503根据所述匹配规则对所述第一目标字段对应的第一待匹配数据和所述第二目标字段对应的预设标准数据进行匹配,包括:
数据匹配单元503检测第二目标字段对应的预设标准数据与第一目标字段对应的第一待匹配数据是否为包含关系,如果是,则判定为匹配成功。
可见,实施该可选的实施例,能够通过模糊匹配确定出数据之间的对应关系,有利于提升数据的调用效率。
在本公开的一种示例性实施例中,上述装置还包括分词处理单元(未图示)和分词标注单元(未图示),其中:
分词处理单元,用于对第二目标字段对应的预设标准数据进行分词处理,得到第一分词处理结果;
分词标注单元,用于当检测到白名单标注操作时,将白名单标注操作对应的第一目标分词写入预标注词库的白名单;
分词标注单元,还用于当检测到黑名单标注操作时,将黑名单标注操作对应的第二目标分词写入预标注词库的黑名单;
分词标注单元,还用于当检测到同义词标注操作时,将同义词标注操作对应的与预标注词库中的分词具有相同意义的第三目标分词写入预标注词库;
其中,第一分词处理结果中包括第一目标分词、第二目标分词以及第三目标分词。
可见,实施该可选的实施例,能够通过对数据进行分词处理,以提升数据匹配效率以及数据匹配的准确率。
在本公开的一种示例性实施例中,当匹配规则包括的子规则为分词匹配子规则,数据匹配单元503根据匹配规则对第一目标字段对应的第一待匹配数据和第二目标字段对应的预设标准数据进行匹配,包括:
数据匹配单元503对第一目标字段对应的第一待匹配数据进行分词处理,得到第二分词处理结果;
数据匹配单元503根据预标注词库对第二分词处理结果进行包括合并、过滤以及替换中至少一种的数据处理,得到数据处理结果;
数据匹配单元503将数据处理结果与预标注词库进行匹配。
可见,实施该可选的实施例,能够根据对预设标注数据以及第一待匹配数据的分词处理,提升数据匹配的准确率。
在本公开的一种示例性实施例中,数据匹配单元503,还用于在根据字段对应关系和匹配规则对第一待匹配数据和预设标准数据进行匹配之后,若第一待匹配数据对应多个匹配结果,则根据检测到的词库更新操作对预标注词库进行更新并根据更新后的预标注词库对第一待匹配数据进行重新匹配,直到第一待匹配数据对应唯一匹配结果。
可见,实施该可选的实施例,能够通过一定程度上避免一个数据对应多个匹配结果的问题,进而提升数据匹配的精确度。
在本公开的一种示例性实施例中,当第一待匹配数据对应唯一匹配结果时,上述装置还包括匹配结果输出单元(未图示),其中:
匹配结果输出单元,用于读取输出配置信息,根据输出配置信息限定的输出方式输出唯一匹配结果;其中,输出方式包括通过表格方式输出。
可见,实施该可选的实施例,能够通过相应的输出方式输出匹配结果,提升了匹配结果的可读性,进而可以改善用户的使用体验。
由于本公开的示例实施例的数据匹配装置的各个功能模块与上述数据匹配方法的示例实施例的步骤对应,因此对于本公开装置实施例中未披露的细节,请参照本公开上述的数据匹配方法的实施例。
请参阅图6,图6示出了适于用来实现本公开一示例性实施例的电子设备的计算机系统600的结构示意图。图6示出的电子设备的计算机系统600仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图6所示,计算机系统600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有系统操作所需的各种程序和数据。CPU601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时,执行本申请的系统中限定的上述功能。
需要说明的是,本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现如上述实施例中所述的数据匹配方法。
例如,所述的电子设备可以实现如图1中所示的:步骤S110:当接收到待处理文件时,读取待处理文件中的第一待匹配数据和预设标准数据;步骤S120:获取匹配规则以及第一待匹配数据和预设标准数据之间的字段对应关系;其中,匹配规则包括精准匹配子规则、模糊匹配子规则以及分词匹配子规则中至少一个子规则;步骤S130:根据字段对应关系和匹配规则对第一待匹配数据和预设标准数据进行匹配,得到数据匹配关系;步骤S140:当检测到匹配需求时,根据数据匹配关系对匹配需求对应的第二待匹配数据进行匹配。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开的实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本公开的实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (10)

1.一种数据匹配方法,其特征在于,包括:
当接收到待处理文件时,解析所述待处理文件对应的字段信息,得到第一待匹配数据和预设标准数据,其中所述字段信息包括所述第一待匹配数据对应的第一字段信息和所述预设标准数据对应的第二字段信息;
获取匹配规则以及所述第一待匹配数据和所述预设标准数据之间的字段对应关系;其中,所述匹配规则包括精准匹配子规则、模糊匹配子规则以及分词匹配子规则中至少一个子规则;
根据所述字段对应关系和所述匹配规则对所述第一待匹配数据和所述预设标准数据进行匹配,得到数据匹配关系,包括:
根据所述字段对应关系确定所述第一字段信息中的第一目标字段和所述第二字段信息中的第二目标字段;
根据所述匹配规则对所述第一目标字段对应的第一待匹配数据和所述第二目标字段对应的预设标准数据进行匹配;
若匹配成功,则将匹配结果对应的第一待匹配数据和预设标准数据进行绑定,得到数据匹配关系。
2.根据权利要求1所述的方法,其特征在于,解析所述待处理文件对应的字段信息,得到第一待匹配数据和预设标准数据,包括:
解析所述待处理文件,得到所述待处理文件对应的字段信息;其中,所述第一字段信息和所述第二字段信息分别包含多个字段;
读取所述第一字段信息中多个字段分别对应的所述第一待匹配数据,以及获取所述第二字段信息中多个字段分别对应的所述预设标准数据。
3.根据权利要求2所述的方法,其特征在于,所述第一目标字段与所述第二目标字段之间存在对应关系。
4.根据权利要求3所述的方法,其特征在于,将匹配结果对应的第一待匹配数据和预设标准数据进行绑定,得到数据匹配关系,包括:
将匹配结果对应的第一待匹配数据和预设标准数据分别对应的编码进行绑定,得到数据匹配关系。
5.根据权利要求3所述的方法,其特征在于,其中:
当所述匹配规则包括的子规则为所述精准匹配子规则,根据所述匹配规则对所述第一目标字段对应的第一待匹配数据和所述第二目标字段对应的预设标准数据进行匹配,包括:
比对所述第一目标字段对应的第一待匹配数据和所述第二目标字段对应的预设标准数据是否完全一致,若完全一致,则判定为匹配成功;
当所述匹配规则包括的子规则为所述模糊匹配子规则,根据所述匹配规则对所述第一目标字段对应的第一待匹配数据和所述第二目标字段对应的预设标准数据进行匹配,包括:
检测所述第二目标字段对应的预设标准数据与所述第一目标字段对应的第一待匹配数据是否为包含关系,如果是,则判定为匹配成功。
6.根据权利要求3所述的方法,其特征在于,所述方法还包括:
对所述第二目标字段对应的预设标准数据进行分词处理,得到第一分词处理结果;
当检测到白名单标注操作时,将所述白名单标注操作对应的第一目标分词写入预标注词库的白名单;
当检测到黑名单标注操作时,将所述黑名单标注操作对应的第二目标分词写入所述预标注词库的黑名单;
当检测到同义词标注操作时,将所述同义词标注操作对应的与所述预标注词库中的分词具有相同意义的第三目标分词写入所述预标注词库;
其中,所述第一分词处理结果中包括所述第一目标分词、所述第二目标分词以及所述第三目标分词。
7.根据权利要求6所述的方法,其特征在于,当所述匹配规则包括的子规则为所述分词匹配子规则,根据所述匹配规则对所述第一目标字段对应的第一待匹配数据和所述第二目标字段对应的预设标准数据进行匹配,包括:
对所述第一目标字段对应的第一待匹配数据进行分词处理,得到第二分词处理结果;
根据所述预标注词库对第二分词处理结果进行包括合并、过滤以及替换中至少一种的数据处理,得到数据处理结果;
将所述数据处理结果与所述预标注词库进行匹配。
8.一种数据匹配装置,其特征在于,包括:
数据读取单元,用于当接收到待处理文件时,解析所述待处理文件对应的字段信息,得到第一待匹配数据和预设标准数据,其中所述字段信息包括所述第一待匹配数据对应的第一字段信息和所述预设标准数据对应的第二字段信息;
信息获取单元,用于获取匹配规则以及所述第一待匹配数据和所述预设标准数据之间的字段对应关系;其中,所述匹配规则包括精准匹配子规则、模糊匹配子规则以及分词匹配子规则中至少一个子规则;
数据匹配单元,用于根据所述字段对应关系和所述匹配规则对所述第一待匹配数据和所述预设标准数据进行匹配,得到数据匹配关系,包括:
根据所述字段对应关系确定所述第一字段信息中的第一目标字段和所述第二字段信息中的第二目标字段;
根据所述匹配规则对所述第一目标字段对应的第一待匹配数据和所述第二目标字段对应的预设标准数据进行匹配;
若匹配成功,则将匹配结果对应的第一待匹配数据和预设标准数据进行绑定,得到数据匹配关系。
9.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1~7中任一项所述的数据匹配方法。
10.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1~7中任一项所述的数据匹配方法。
CN202010504406.9A 2020-06-05 2020-06-05 数据匹配方法、装置、计算机可读介质及电子设备 Active CN111667923B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010504406.9A CN111667923B (zh) 2020-06-05 2020-06-05 数据匹配方法、装置、计算机可读介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010504406.9A CN111667923B (zh) 2020-06-05 2020-06-05 数据匹配方法、装置、计算机可读介质及电子设备

Publications (2)

Publication Number Publication Date
CN111667923A CN111667923A (zh) 2020-09-15
CN111667923B true CN111667923B (zh) 2022-11-18

Family

ID=72386329

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010504406.9A Active CN111667923B (zh) 2020-06-05 2020-06-05 数据匹配方法、装置、计算机可读介质及电子设备

Country Status (1)

Country Link
CN (1) CN111667923B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112597927A (zh) * 2020-12-28 2021-04-02 电子科技大学 二维表格识别方法、装置、设备及系统
CN115458103B (zh) * 2022-09-05 2024-03-22 北京百度网讯科技有限公司 医疗数据处理方法、装置、电子设备及可读存储介质
CN115712691A (zh) * 2022-11-17 2023-02-24 创新奇智(重庆)科技有限公司 一种数据关系处理方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107844560A (zh) * 2017-10-30 2018-03-27 北京锐安科技有限公司 一种数据接入的方法、装置、计算机设备和可读存储介质
CN110019486A (zh) * 2018-07-19 2019-07-16 平安科技(深圳)有限公司 数据采集方法、装置、设备及存储介质
CN110633318A (zh) * 2019-09-23 2019-12-31 北京锐安科技有限公司 一种数据提取的处理方法、装置、设备和存储介质
CN111090641A (zh) * 2019-11-25 2020-05-01 南京医渡云医学技术有限公司 数据处理方法及装置、电子设备、存储介质
CN111104481A (zh) * 2019-12-17 2020-05-05 东软集团股份有限公司 一种识别匹配字段的方法、装置及设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102684827B (zh) * 2012-03-02 2015-07-29 华为技术有限公司 数据处理方法及数据处理设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107844560A (zh) * 2017-10-30 2018-03-27 北京锐安科技有限公司 一种数据接入的方法、装置、计算机设备和可读存储介质
CN110019486A (zh) * 2018-07-19 2019-07-16 平安科技(深圳)有限公司 数据采集方法、装置、设备及存储介质
CN110633318A (zh) * 2019-09-23 2019-12-31 北京锐安科技有限公司 一种数据提取的处理方法、装置、设备和存储介质
CN111090641A (zh) * 2019-11-25 2020-05-01 南京医渡云医学技术有限公司 数据处理方法及装置、电子设备、存储介质
CN111104481A (zh) * 2019-12-17 2020-05-05 东软集团股份有限公司 一种识别匹配字段的方法、装置及设备

Also Published As

Publication number Publication date
CN111667923A (zh) 2020-09-15

Similar Documents

Publication Publication Date Title
CN111667923B (zh) 数据匹配方法、装置、计算机可读介质及电子设备
US10095780B2 (en) Automatically mining patterns for rule based data standardization systems
CN111061833B (zh) 数据处理方法、装置、电子设备和计算机可读存储介质
CN111581976A (zh) 医学术语的标准化方法、装置、计算机设备及存储介质
US11055327B2 (en) Unstructured data parsing for structured information
US20180068221A1 (en) System and Method of Advising Human Verification of Machine-Annotated Ground Truth - High Entropy Focus
CN111143505B (zh) 文档处理方法、装置、介质及电子设备
WO2021129074A1 (zh) 用于处理程序代码中的变量的引用的方法和系统
CN111143556A (zh) 软件功能点自动计数方法、装置、介质及电子设备
CN110807311A (zh) 用于生成信息的方法和装置
CN109034199B (zh) 数据处理方法及装置、存储介质和电子设备
US20220391598A1 (en) Text checking method based on knowledge graph, electronic device, and medium
CN115099233A (zh) 一种语义解析模型的构建方法、装置、电子设备及存储介质
CN113434542B (zh) 数据关系识别方法、装置、电子设备及存储介质
CN110826327A (zh) 情感分析方法、装置、计算机可读介质及电子设备
US9002772B2 (en) Scalable rule-based processing system with trigger rules and rule evaluator
CN107943881B (zh) 题库生成方法、服务器及计算机可读存储介质
CN111753062A (zh) 一种会话应答方案确定方法、装置、设备及介质
CN116501846A (zh) 开放式对话方法、装置、电子设备及介质
CN115640378A (zh) 工单检索方法、服务器、介质及产品
CN111507109A (zh) 电子病历的命名实体识别方法及装置
CN115762704A (zh) 一种处方审核方法、装置、设备和存储介质
CN113360672B (zh) 用于生成知识图谱的方法、装置、设备、介质和产品
CN113239273B (zh) 用于生成文本的方法、装置、设备以及存储介质
US11687574B2 (en) Record matching in a database system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant