CN107679544A - 数据自动匹配方法、电子设备及计算机可读存储介质 - Google Patents
数据自动匹配方法、电子设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN107679544A CN107679544A CN201710660957.2A CN201710660957A CN107679544A CN 107679544 A CN107679544 A CN 107679544A CN 201710660957 A CN201710660957 A CN 201710660957A CN 107679544 A CN107679544 A CN 107679544A
- Authority
- CN
- China
- Prior art keywords
- field
- type
- characteristic
- division
- dynamic listing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Abstract
本发明公开了一种数据自动匹配方法,该方法包括步骤:获取特征提取操作得到的分类特征;根据预设的动态列表对所述特征提取操作得到的分类特征进行归一化处理,得到归一化后的分类特征;从所述归一化后的分类特征中提取包含可拆分字符的特殊字段,根据该可拆分字符在所述特殊字段中的位置,将所述特殊字段拆分成若干字段片段,并将所述拆分成的字段片段与目标分类进行匹配;通过预设的字段逻辑包含关系,将匹配不成功的字段与目标分类进行匹配。本发明还提供一种电子设备及计算机可读存储介质。利用本发明,可以提升分类特征与目标分类的匹配成功率和准确率。
Description
技术领域
本发明涉及计算机信息技术领域,尤其涉及一种数据自动匹配方法、电子设备及计算机可读存储介质。
背景技术
特征提取是各类数据挖掘预测模型的重要步骤,其中对分类特征按照已有的目标分类进行归一化划分在数据预处理阶段有着十分重要的作用。但是,未经清洗的分类特征与目标分类的直接的完全匹配存在着数据匹配成功率及准确率极低等问题,不能满足模型需求。并且,由于海量数据不断迁入,数据量级已远远超出手动匹配的掌控范围。故,现有技术中的数据匹配算法设计不够合理,亟需改进。
发明内容
有鉴于此,本发明提出一种数据自动匹配方法、电子设备及计算机可读存储介质,通过特殊字段结构化拆分处理和字段逻辑包含关系,有效提升了分类特征与目标分类的匹配成功率和准确率。
首先,为实现上述目的,本发明提出一种电子设备,所述电子设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据自动匹配系统,所述数据自动匹配系统被所述处理器执行时实现如下步骤:
获取特征提取操作得到的分类特征;
根据预设的动态列表对所述特征提取操作得到的分类特征进行归一化处理,得到归一化后的分类特征;
从所述归一化后的分类特征中提取包含可拆分字符的特殊字段,根据该可拆分字符在所述特殊字段中的位置,将所述特殊字段拆分成若干字段片段,并将所述拆分成的字段片段与目标分类进行匹配;及
通过预设的字段逻辑包含关系,将匹配不成功的字段与目标分类进行匹配。
优选地,所述根据预设的动态列表对所述特征提取操作得到的分类特征进行归一化处理包括:
若所述预设的动态列表为第一类型动态列表,则提取该第一类型动态列表中存储的第一类型特殊字符,根据所述提取的第一类型特殊字符对所述特征提取操作得到的分类特征进行删除或替换,得到归一化后的第一类型分类特征;
若所述预设的动态列表为第二类型动态列表,则提取该第二类型动态列表中存储的第二类型特殊字符,根据所述提取的第二类型特殊字符对所述特征提取操作得到的分类特征进行删除或替换,得到归一化后的第二类型分类特征;及
若所述预设的动态列表为第三类型动态列表,则提取该第三类型动态列表中存储的第三类型特殊字符,根据所述提取的第三类型特殊字符对所述特征提取操作得到的分类特征进行删除或替换,得到归一化后的第三类型分类特征。
优选地,将所述特殊字段拆分成若干字段片段包括:
将该可拆分字符在所述特殊字段中的位置记录为拆分点;及
分别提取该拆分点之前的字段片段和该拆分点之后的字段片段。
优选地,将所述特殊字段拆分成若干字段片段包括:
若所述预设的动态列表为第一类型动态列表,则从所述归一化后的第一类型分类特征中提取包含可拆分字符的第一类型特殊字段,根据该可拆分字符在所述第一类型特殊字段中的位置,将所述第一类型特殊字段拆分成若干字段片段;
若所述预设的动态列表为第二类型动态列表,则从所述归一化后的第二类型分类特征中提取包含可拆分字符的第二类型特殊字段,根据该可拆分字符在所述第二类型特殊字段中的位置,将所述第二类型特殊字段拆分成若干字段片段;及
若所述预设的动态列表为第三类型动态列表,则从所述归一化后的第三类型分类特征中提取包含可拆分字符的第三类型特殊字段,根据该可拆分字符在所述第三类型特殊字段中的位置,将所述第三类型特殊字段拆分成若干字段片段。
优选地,所述通过预设的字段逻辑包含关系,将匹配不成功的字段与目标分类进行匹配包括:
根据语义逻辑相似度计算算法,计算匹配不成功的字段与目标分类的语义相似度值;及
若该语义相似度值大于预设阀值,则判定该匹配不成功的字段与该目标分类存在逻辑包含关系,将该匹配不成功的字段标记为与该目标分类存在匹配关系。
此外,为实现上述目的,本发明还提供一种数据自动匹配方法,该方法应用于电子设备,所述方法包括:
获取特征提取操作得到的分类特征;
根据预设的动态列表对所述特征提取操作得到的分类特征进行归一化处理,得到归一化后的分类特征;
从所述归一化后的分类特征中提取包含可拆分字符的特殊字段,根据该可拆分字符在所述特殊字段中的位置,将所述特殊字段拆分成若干字段片段,并将所述拆分成的字段片段与目标分类进行匹配;及
通过预设的字段逻辑包含关系,将匹配不成功的字段与目标分类进行匹配。
优选地,所述根据预设的动态列表对所述特征提取操作得到的分类特征进行归一化处理包括:
若所述预设的动态列表为第一类型动态列表,则提取该第一类型动态列表中存储的第一类型特殊字符,根据所述提取的第一类型特殊字符对所述特征提取操作得到的分类特征进行删除或替换,得到归一化后的第一类型分类特征;
若所述预设的动态列表为第二类型动态列表,则提取该第二类型动态列表中存储的第二类型特殊字符,根据所述提取的第二类型特殊字符对所述特征提取操作得到的分类特征进行删除或替换,得到归一化后的第二类型分类特征;及
若所述预设的动态列表为第三类型动态列表,则提取该第三类型动态列表中存储的第三类型特殊字符,根据所述提取的第三类型特殊字符对所述特征提取操作得到的分类特征进行删除或替换,得到归一化后的第三类型分类特征。
优选地,将所述特殊字段拆分成若干字段片段包括:
将该可拆分字符在所述特殊字段中的位置记录为拆分点;及
分别提取该拆分点之前的字段片段和该拆分点之后的字段片段。
优选地,所述通过预设的字段逻辑包含关系,将匹配不成功的字段与目标分类进行匹配包括:
根据语义逻辑相似度计算算法,计算匹配不成功的字段与目标分类的语义相似度值;及
若该语义相似度值大于预设阀值,则判定该匹配不成功的字段与该目标分类存在逻辑包含关系,将该匹配不成功的字段标记为与该目标分类存在匹配关系。
进一步地,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有数据自动匹配系统,所述数据自动匹配系统可被至少一个处理器执行,以使所述至少一个处理器执行如上述的数据自动匹配方法的步骤。
相较于现有技术,本发明所提出的电子设备、数据自动匹配方法及计算机可读存储介质,通过特殊字段结构化拆分处理,有效提升了分类特征与目标分类的匹配成功率和准确率,进一步地,通过字段逻辑包含关系(或字段语义包含关系)解决了不规则性缺失字段的匹配问题,从而进一步地提升了分类特征与目标分类的匹配成功率和准确率。
附图说明
图1是本发明电子设备一可选的硬件架构的示意图;
图2是本发明电子设备中数据自动匹配系统一实施例的程序模块示意图;
图3为本发明数据自动匹配方法一实施例的实施流程示意图。
附图标记:
电子设备 | 2 |
存储器 | 21 |
处理器 | 22 |
网络接口 | 23 |
数据自动匹配系统 | 20 |
获取模块 | 201 |
处理模块 | 202 |
第一匹配模块 | 203 |
第二匹配模块 | 204 |
流程步骤 | S31-S34 |
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
进一步需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
首先,本发明提出一种电子设备2。
参阅图1所示,是本发明电子设备2一可选的硬件架构的示意图。本实施例中,所述电子设备2可包括,但不限于,可通过系统总线相互通信连接存储器21、处理器22、网络接口23。需要指出的是,图1仅示出了具有组件21-23的电子设备2,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
其中,所述电子设备2可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器等计算设备,该电子设备2可以是独立的服务器,也可以是多个服务器所组成的服务器集群。
所述存储器21至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器21可以是所述电子设备2的内部存储单元,例如该电子设备2的硬盘或内存。在另一些实施例中,所述存储器21也可以是所述电子设备2的外部存储设备,例如该电子设备2上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器21还可以既包括所述电子设备2的内部存储单元也包括其外部存储设备。本实施例中,所述存储器21通常用于存储安装于所述电子设备2的操作系统和各类应用软件,例如所述数据自动匹配系统20的程序代码等。此外,所述存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器22在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制所述电子设备2的总体操作,例如执行与所述电子设备2进行数据交互或者通信相关的控制和处理等。本实施例中,所述处理器22用于运行所述存储器21中存储的程序代码或者处理数据,例如运行所述的数据自动匹配系统20等。
所述网络接口23可包括无线网络接口或有线网络接口,该网络接口23通常用于在所述电子设备2与其他电子设备之间建立通信连接。例如,所述网络接口23用于通过网络将所述电子设备2与外部数据平台相连,在所述电子设备2与外部数据平台之间的建立数据传输通道和通信连接。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication,GSM)、宽带码分多址(WidebandCode Division Multiple Access,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。
至此,己经详细介绍了本发明各个实施例的应用环境和相关设备的硬件结构和功能。下面,将基于上述应用环境和相关设备,提出本发明的各个实施例。
参阅图2所示,是本发明电子设备2中数据自动匹配系统20一实施例的程序模块图。本实施例中,所述的数据自动匹配系统20可以被分割成一个或多个程序模块,所述一个或者多个程序模块被存储于所述存储器21中,并由一个或多个处理器(本实施例中为所述处理器22)所执行,以完成本发明。例如,在图2中,所述的数据自动匹配系统20可以被分割成获取模块201、处理模块202、第一匹配模块203、以及第二匹配模块204。本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序更适合于描述所述数据自动匹配系统20在所述电子设备2中的执行过程。以下将就各程序模块201-204的功能进行详细描述。
所述获取模块201,用于获取特征提取操作得到的分类特征。其中,所述特征提取操作为各类数据挖掘预测模型的预处理步骤。优选地,在本实施例中,所述分类特征包括,但不限于,药品名称、诊断信息、医嘱信息、医疗器材、手术类型、家族史等文本数据。
所述处理模块202,用于根据预设的动态列表对所述特征提取操作得到的分类特征进行归一化处理,得到归一化后的分类特征。
优选地,在本实施例中,所述预设的动态列表包括不同类型数据源对应的动态列表,如第一类型数据源对应的动态列表(如MS SQL Server数据源对应的动态列表,以下简称为“第一类型动态列表”)、第二类型数据源对应的动态列表(如Oracle数据源对应的动态列表,以下简称为“第二类型动态列表”)、及第三类型数据源对应的动态列表(如MySQL数据源对应的动态列表,以下简称为“第三类型动态列表”)等。本领域技术人员应当可以理解,在其它实施例中,所述动态列表的数量,也可以根据数据源类型的数量增加或减少。
优选地,在本实施例中,不同类型数据源对应的动态列表中存储有不同的特殊字符,用于针对不同类型的数据源进行分类特征归一化处理。例如,所述第一类型动态列表中存储有第一类型特殊字符,用于针对第一类型数据源进行分类特征归一化处理;所述第二类型动态列表中存储有第二类型特殊字符,用于针对第二类型数据源进行分类特征归一化处理;所述第三类型动态列表中存储有第三类型特殊字符,用于针对第三类型数据源进行分类特征归一化处理。
优选地,在本实施例中,所述预设的动态列表根据数据源的数据变化进行动态调整,如增加新的特殊字符等。例如,所述第一类型动态列表根据第一类型数据源的数据变化进行动态调整,所述第二类型动态列表根据第二类型数据源的数据变化进行动态调整,所述第三类型动态列表根据第三类型数据源的数据变化进行动态调整等。
优选地,在本实施例中,所述根据预设的动态列表对所述特征提取得到的分类特征进行归一化处理包括:提取预设的动态列表中存储的特殊字符,根据所述提取的特殊字符对所述特征提取操作得到的分类特征进行删除或替换等归一化处理。
具体而言,若所述预设的动态列表为第一类型动态列表,则提取该第一类型动态列表中存储的第一类型特殊字符(如“/”和“\”等),根据所述提取的第一类型特殊字符对所述特征提取操作得到的分类特征进行删除或替换,得到归一化后的第一类型分类特征。
若所述预设的动态列表为第二类型动态列表,则提取该第二类型动态列表中存储的第二类型特殊字符,根据所述提取的第二类型特殊字符对所述特征提取操作得到的分类特征进行删除或替换,得到归一化后的第二类型分类特征。
若所述预设的动态列表为第三类型动态列表,则提取该第三类型动态列表中存储的第三类型特殊字符,根据所述提取的第三类型特殊字符对所述特征提取操作得到的分类特征进行删除或替换,得到归一化后的第三类型分类特征。
所述第一匹配模块203,用于从所述归一化后的分类特征中提取包含可拆分字符的特殊字段,根据该可拆分字符在所述特殊字段中的位置,将所述特殊字段拆分成若干字段片段,并将所述拆分成的字段片段与目标分类进行匹配。其中,所述目标分类可以是内部数据平台(如Hadoop数据平台)中预设的规则数据。
优选地,在本实施例中,将所述特殊字段拆分成若干字段片段包括:将该可拆分字符在所述特殊字段中的位置记录为拆分点;分别提取该拆分点之前的字段片段和该拆分点之后的字段片段。
举例而言,若所述归一化后的分类特征中包含特殊字段“a+b”或“a//b”,其中,“+”和“//”为可拆分字符,则将所述特殊字段拆分成字段片段“a”和“b”,然后将拆分成的字段片段“a”和“b”分别与目标分类进行匹配。
由于直接将特殊字段(如“a+b”或“a//b”)与目标分类进行匹配时,很可能会导致匹配失败。但是,如果将上述特殊字段拆分成字段片段“a”和“b”后,再将拆分成的字段片段“a”和“b”分别与目标分类进行匹配时,匹配成功率将会大大提升。因此,本发明通过第一匹配模块203中所述的特殊字段结构化拆分处理,能有效提升分类特征与目标分类的匹配成功率和准确率。
优选地,在本实施例中,若所述预设的动态列表为第一类型动态列表,则从所述归一化后的第一类型分类特征中提取包含可拆分字符的第一类型特殊字段,根据该可拆分字符在所述第一类型特殊字段中的位置,将所述第一类型特殊字段拆分成若干字段片段,并将所述拆分成的字段片段与目标分类进行匹配。
若所述预设的动态列表为第二类型动态列表,则从所述归一化后的第二类型分类特征中提取包含可拆分字符的第二类型特殊字段,根据该可拆分字符在所述第二类型特殊字段中的位置,将所述第二类型特殊字段拆分成若干字段片段,并将所述拆分成的字段片段与目标分类进行匹配。
若所述预设的动态列表为第三类型动态列表,则从所述归一化后的第三类型分类特征中提取包含可拆分字符的第三类型特殊字段,根据该可拆分字符在所述第三类型特殊字段中的位置,将所述第三类型特殊字段拆分成若干字段片段,并将所述拆分成的字段片段与目标分类进行匹配。
所述第二匹配模块204,用于通过预设的字段逻辑包含关系(或字段语义包含关系),将匹配不成功的字段与目标分类进行匹配。
优选地,在本实施例中,第一匹配模块203中的数据匹配可以记为第一次匹配,所述第一次匹配包括:特殊字段的匹配(即将所述特殊字段拆分成字段片段与目标分类进行匹配)与非特殊字段的匹配(即将所述归一化后的分类特征中的非特殊字段与目标分类进行匹配)。进一步地,第二匹配模块204中的数据匹配可以记为第二次匹配,所述第二次匹配包括:将所述第一次匹配不成功的字段与目标分类进行匹配。
优选地,在本实施例中,所述通过预设的字段逻辑包含关系,将匹配不成功的字段与目标分类进行匹配包括:
根据语义逻辑相似度计算算法(如基于树状层次计算语义相似度的算法),计算匹配不成功的字段(即第一次匹配不成功的字段)与目标分类的语义相似度值;
若该语义相似度值大于预设阀值(如80%),则判定该匹配不成功的字段与该目标分类存在逻辑包含关系,将该匹配不成功的字段标记为与该目标分类存在匹配关系,即将该匹配不成功的字段修改为匹配成功的字段。
举例而言,若第一次匹配不成功的字段包含“阿司匹林片”,而目标分类包含字段“阿司匹林”,由于“阿司匹林片”与“阿司匹林”存在语义逻辑包含关系,则将该匹配不成功的字段“阿司匹林片”修改为匹配成功的字段。
由于第二匹配模块204将第一匹配模块203中第一次匹配不成功的字段进一步进行匹配,若发现第一次匹配不成功的字段与目标分类存在逻辑包含关系(或语义包含关系),则将第一次匹配不成功的字段修改为匹配成功的字段。因此,本发明通过第二匹配模块204中所述的字段逻辑包含关系(或字段语义包含关系)解决了不规则性缺失字段的匹配问题,从而进一步地提升了分类特征与目标分类的匹配成功率和准确率,且匹配效率与手动匹配相比有显著性优势,大大降低了人工匹配的工作量。
需要说明的是,在其它实施例中,在某些情况下,例如,所述第一次匹配成功率已经较高(如大于90%)的情形下,所述第二匹配模块204也可以去除。
通过上述程序模块201-204,本发明所提出的数据自动匹配系统20,通过特殊字段结构化拆分处理,有效提升了分类特征与目标分类的匹配成功率和准确率,进一步地,通过字段逻辑包含关系(或字段语义包含关系)解决了不规则性缺失字段的匹配问题,从而进一步地提升了分类特征与目标分类的匹配成功率和准确率。
此外,本发明还提出一种数据自动匹配方法。
参阅图3所示,是本发明数据自动匹配方法一实施例的实施流程示意图。在本实施例中,根据不同的需求,图3所示的流程图中的步骤的执行顺序可以改变,某些步骤可以省略。
步骤S31,获取特征提取操作得到的分类特征。其中,所述特征提取操作为各类数据挖掘预测模型的预处理步骤。优选地,在本实施例中,所述分类特征包括,但不限于,药品名称、诊断信息、医嘱信息、医疗器材、手术类型、家族史等文本数据。
步骤S32,根据预设的动态列表对所述特征提取操作得到的分类特征进行归一化处理,得到归一化后的分类特征。
优选地,在本实施例中,所述预设的动态列表包括不同类型数据源对应的动态列表,如第一类型数据源对应的动态列表(如MS SQL Server数据源对应的动态列表,以下简称为“第一类型动态列表”)、第二类型数据源对应的动态列表(如Oracle数据源对应的动态列表,以下简称为“第二类型动态列表”)、及第三类型数据源对应的动态列表(如MySQL数据源对应的动态列表,以下简称为“第三类型动态列表”)等。本领域技术人员应当可以理解,在其它实施例中,所述动态列表的数量,也可以根据数据源类型的数量增加或减少。
优选地,在本实施例中,不同类型数据源对应的动态列表中存储有不同的特殊字符,用于针对不同类型的数据源进行分类特征归一化处理。例如,所述第一类型动态列表中存储有第一类型特殊字符,用于针对第一类型数据源进行分类特征归一化处理;所述第二类型动态列表中存储有第二类型特殊字符,用于针对第二类型数据源进行分类特征归一化处理;所述第三类型动态列表中存储有第三类型特殊字符,用于针对第三类型数据源进行分类特征归一化处理。
优选地,在本实施例中,所述预设的动态列表根据数据源的数据变化进行动态调整,如增加新的特殊字符等。例如,所述第一类型动态列表根据第一类型数据源的数据变化进行动态调整,所述第二类型动态列表根据第二类型数据源的数据变化进行动态调整,所述第三类型动态列表根据第三类型数据源的数据变化进行动态调整等。
优选地,在本实施例中,所述根据预设的动态列表对所述特征提取得到的分类特征进行归一化处理包括:提取预设的动态列表中存储的特殊字符,根据所述提取的特殊字符对所述特征提取操作得到的分类特征进行删除或替换等归一化处理。
具体而言,若所述预设的动态列表为第一类型动态列表,则提取该第一类型动态列表中存储的第一类型特殊字符(如“/”和“\”等),根据所述提取的第一类型特殊字符对所述特征提取操作得到的分类特征进行删除或替换,得到归一化后的第一类型分类特征。
若所述预设的动态列表为第二类型动态列表,则提取该第二类型动态列表中存储的第二类型特殊字符,根据所述提取的第二类型特殊字符对所述特征提取操作得到的分类特征进行删除或替换,得到归一化后的第二类型分类特征。
若所述预设的动态列表为第三类型动态列表,则提取该第三类型动态列表中存储的第三类型特殊字符,根据所述提取的第三类型特殊字符对所述特征提取操作得到的分类特征进行删除或替换,得到归一化后的第三类型分类特征。
步骤S33,从所述归一化后的分类特征中提取包含可拆分字符的特殊字段,根据该可拆分字符在所述特殊字段中的位置,将所述特殊字段拆分成若干字段片段,并将所述拆分成的字段片段与目标分类进行匹配。其中,所述目标分类可以是内部数据平台(如Hadoop数据平台)中预设的规则数据。
优选地,在本实施例中,将所述特殊字段拆分成若干字段片段包括:将该可拆分字符在所述特殊字段中的位置记录为拆分点;分别提取该拆分点之前的字段片段和该拆分点之后的字段片段。
举例而言,若所述归一化后的分类特征中包含特殊字段“a+b”或“a//b”,其中,“+”和“//”为可拆分字符,则将所述特殊字段拆分成字段片段“a”和“b”,然后将拆分成的字段片段“a”和“b”分别与目标分类进行匹配。
由于直接将特殊字段(如“a+b”或“a//b”)与目标分类进行匹配时,很可能会导致匹配失败。但是,如果将上述特殊字段拆分成字段片段“a”和“b”后,再将拆分成的字段片段“a”和“b”分别与目标分类进行匹配时,匹配成功率将会大大提升。因此,本发明通过步骤S33中所述的特殊字段结构化拆分处理,能有效提升分类特征与目标分类的匹配成功率和准确率。
优选地,在本实施例中,若所述预设的动态列表为第一类型动态列表,则从所述归一化后的第一类型分类特征中提取包含可拆分字符的第一类型特殊字段,根据该可拆分字符在所述第一类型特殊字段中的位置,将所述第一类型特殊字段拆分成若干字段片段,并将所述拆分成的字段片段与目标分类进行匹配。
若所述预设的动态列表为第二类型动态列表,则从所述归一化后的第二类型分类特征中提取包含可拆分字符的第二类型特殊字段,根据该可拆分字符在所述第二类型特殊字段中的位置,将所述第二类型特殊字段拆分成若干字段片段,并将所述拆分成的字段片段与目标分类进行匹配。
若所述预设的动态列表为第三类型动态列表,则从所述归一化后的第三类型分类特征中提取包含可拆分字符的第三类型特殊字段,根据该可拆分字符在所述第三类型特殊字段中的位置,将所述第三类型特殊字段拆分成若干字段片段,并将所述拆分成的字段片段与目标分类进行匹配。
步骤S34,通过预设的字段逻辑包含关系(或字段语义包含关系),将匹配不成功的字段与目标分类进行匹配。
优选地,在本实施例中,步骤S33中的数据匹配可以记为第一次匹配,所述第一次匹配包括:特殊字段的匹配(即将所述特殊字段拆分成字段片段与目标分类进行匹配)与非特殊字段的匹配(即将所述归一化后的分类特征中的非特殊字段与目标分类进行匹配)。进一步地,步骤S34中的数据匹配可以记为第二次匹配,所述第二次匹配包括:将所述第一次匹配不成功的字段与目标分类进行匹配。
优选地,在本实施例中,所述通过预设的字段逻辑包含关系,将匹配不成功的字段与目标分类进行匹配的步骤包括:
根据语义逻辑相似度计算算法(如基于树状层次计算语义相似度的算法),计算匹配不成功的字段(即第一次匹配不成功的字段)与目标分类的语义相似度值;
若该语义相似度值大于预设阀值(如80%),则判定该匹配不成功的字段与该目标分类存在逻辑包含关系,将该匹配不成功的字段标记为与该目标分类存在匹配关系,即将该匹配不成功的字段修改为匹配成功的字段。
举例而言,若第一次匹配不成功的字段包含“阿司匹林片”,而目标分类包含字段“阿司匹林”,由于“阿司匹林片”与“阿司匹林”存在语义逻辑包含关系,则将该匹配不成功的字段“阿司匹林片”修改为匹配成功的字段。
由于步骤S34将步骤S33中第一次匹配不成功的字段进一步进行匹配,若发现第一次匹配不成功的字段与目标分类存在逻辑包含关系(或语义包含关系),则将第一次匹配不成功的字段修改为匹配成功的字段。因此,本发明通过步骤S34中所述的字段逻辑包含关系(或字段语义包含关系)解决了不规则性缺失字段的匹配问题,从而进一步地提升了分类特征与目标分类的匹配成功率和准确率,且匹配效率与手动匹配相比有显著性优势,大大降低了人工匹配的工作量。
需要说明的是,在其它实施例中,在某些情况下,例如,所述第一次匹配成功率已经较高(如大于90%)的情形下,所述步骤S34也可以去除。
通过上述步骤S31-S34,本发明所提出的数据自动匹配方法,通过特殊字段结构化拆分处理,有效提升了分类特征与目标分类的匹配成功率和准确率,进一步地,通过字段逻辑包含关系(或字段语义包含关系)解决了不规则性缺失字段的匹配问题,从而进一步地提升了分类特征与目标分类的匹配成功率和准确率。
进一步地,为实现上述目的,本发明还提供一种计算机可读存储介质(如ROM/RAM、磁碟、光盘),所述计算机可读存储介质存储有数据自动匹配系统20,所述数据自动匹配系统20可被至少一个处理器22执行,以使所述至少一个处理器22执行如上所述的数据自动匹配方法的步骤。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件来实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上参照附图说明了本发明的优选实施例,并非因此局限本发明的权利范围。上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。另外,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本领域技术人员不脱离本发明的范围和实质,可以有多种变型方案实现本发明,比如作为一个实施例的特征可用于另一实施例而得到又一实施例。凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种电子设备,其特征在于,所述电子设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据自动匹配系统,所述数据自动匹配系统被所述处理器执行时实现如下步骤:
获取特征提取操作得到的分类特征;
根据预设的动态列表对所述特征提取操作得到的分类特征进行归一化处理,得到归一化后的分类特征;
从所述归一化后的分类特征中提取包含可拆分字符的特殊字段,根据该可拆分字符在所述特殊字段中的位置,将所述特殊字段拆分成若干字段片段,并将所述拆分成的字段片段与目标分类进行匹配;及
通过预设的字段逻辑包含关系,将匹配不成功的字段与目标分类进行匹配。
2.如权利要求1所述的电子设备,其特征在于,所述根据预设的动态列表对所述特征提取操作得到的分类特征进行归一化处理包括:
若所述预设的动态列表为第一类型动态列表,则提取该第一类型动态列表中存储的第一类型特殊字符,根据所述提取的第一类型特殊字符对所述特征提取操作得到的分类特征进行删除或替换,得到归一化后的第一类型分类特征;
若所述预设的动态列表为第二类型动态列表,则提取该第二类型动态列表中存储的第二类型特殊字符,根据所述提取的第二类型特殊字符对所述特征提取操作得到的分类特征进行删除或替换,得到归一化后的第二类型分类特征;及
若所述预设的动态列表为第三类型动态列表,则提取该第三类型动态列表中存储的第三类型特殊字符,根据所述提取的第三类型特殊字符对所述特征提取操作得到的分类特征进行删除或替换,得到归一化后的第三类型分类特征。
3.如权利要求2所述的电子设备,其特征在于,将所述特殊字段拆分成若干字段片段包括:
将该可拆分字符在所述特殊字段中的位置记录为拆分点;及
分别提取该拆分点之前的字段片段和该拆分点之后的字段片段。
4.如权利要求3所述的电子设备,其特征在于,将所述特殊字段拆分成若干字段片段包括:
若所述预设的动态列表为第一类型动态列表,则从所述归一化后的第一类型分类特征中提取包含可拆分字符的第一类型特殊字段,根据该可拆分字符在所述第一类型特殊字段中的位置,将所述第一类型特殊字段拆分成若干字段片段;
若所述预设的动态列表为第二类型动态列表,则从所述归一化后的第二类型分类特征中提取包含可拆分字符的第二类型特殊字段,根据该可拆分字符在所述第二类型特殊字段中的位置,将所述第二类型特殊字段拆分成若干字段片段;及
若所述预设的动态列表为第三类型动态列表,则从所述归一化后的第三类型分类特征中提取包含可拆分字符的第三类型特殊字段,根据该可拆分字符在所述第三类型特殊字段中的位置,将所述第三类型特殊字段拆分成若干字段片段。
5.如权利要求1所述的电子设备,其特征在于,所述通过预设的字段逻辑包含关系,将匹配不成功的字段与目标分类进行匹配包括:
根据语义逻辑相似度计算算法,计算匹配不成功的字段与目标分类的语义相似度值;及
若该语义相似度值大于预设阀值,则判定该匹配不成功的字段与该目标分类存在逻辑包含关系,将该匹配不成功的字段标记为与该目标分类存在匹配关系。
6.一种数据自动匹配方法,应用于电子设备,其特征在于,所述方法包括:
获取特征提取操作得到的分类特征;
根据预设的动态列表对所述特征提取操作得到的分类特征进行归一化处理,得到归一化后的分类特征;
从所述归一化后的分类特征中提取包含可拆分字符的特殊字段,根据该可拆分字符在所述特殊字段中的位置,将所述特殊字段拆分成若干字段片段,并将所述拆分成的字段片段与目标分类进行匹配;及
通过预设的字段逻辑包含关系,将匹配不成功的字段与目标分类进行匹配。
7.如权利要求6所述的数据自动匹配方法,其特征在于,所述根据预设的动态列表对所述特征提取操作得到的分类特征进行归一化处理包括:
若所述预设的动态列表为第一类型动态列表,则提取该第一类型动态列表中存储的第一类型特殊字符,根据所述提取的第一类型特殊字符对所述特征提取操作得到的分类特征进行删除或替换,得到归一化后的第一类型分类特征;
若所述预设的动态列表为第二类型动态列表,则提取该第二类型动态列表中存储的第二类型特殊字符,根据所述提取的第二类型特殊字符对所述特征提取操作得到的分类特征进行删除或替换,得到归一化后的第二类型分类特征;及
若所述预设的动态列表为第三类型动态列表,则提取该第三类型动态列表中存储的第三类型特殊字符,根据所述提取的第三类型特殊字符对所述特征提取操作得到的分类特征进行删除或替换,得到归一化后的第三类型分类特征。
8.如权利要求7所述的数据自动匹配方法,其特征在于,将所述特殊字段拆分成若干字段片段包括:
将该可拆分字符在所述特殊字段中的位置记录为拆分点;及
分别提取该拆分点之前的字段片段和该拆分点之后的字段片段。
9.如权利要求6所述的数据自动匹配方法,其特征在于,所述通过预设的字段逻辑包含关系,将匹配不成功的字段与目标分类进行匹配包括:
根据语义逻辑相似度计算算法,计算匹配不成功的字段与目标分类的语义相似度值;及
若该语义相似度值大于预设阀值,则判定该匹配不成功的字段与该目标分类存在逻辑包含关系,将该匹配不成功的字段标记为与该目标分类存在匹配关系。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有数据自动匹配系统,所述数据自动匹配系统可被至少一个处理器执行,以使所述至少一个处理器执行如权利要求6-9中任一项所述的数据自动匹配方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710660957.2A CN107679544A (zh) | 2017-08-04 | 2017-08-04 | 数据自动匹配方法、电子设备及计算机可读存储介质 |
PCT/CN2017/104820 WO2019024231A1 (zh) | 2017-08-04 | 2017-09-30 | 数据自动匹配方法、电子设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710660957.2A CN107679544A (zh) | 2017-08-04 | 2017-08-04 | 数据自动匹配方法、电子设备及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107679544A true CN107679544A (zh) | 2018-02-09 |
Family
ID=61135325
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710660957.2A Pending CN107679544A (zh) | 2017-08-04 | 2017-08-04 | 数据自动匹配方法、电子设备及计算机可读存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN107679544A (zh) |
WO (1) | WO2019024231A1 (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019024231A1 (zh) * | 2017-08-04 | 2019-02-07 | 平安科技(深圳)有限公司 | 数据自动匹配方法、电子设备及计算机可读存储介质 |
CN110222103A (zh) * | 2019-04-19 | 2019-09-10 | 平安科技(深圳)有限公司 | 提取excel数据的方法及装置、计算机设备、存储介质 |
CN111209924A (zh) * | 2018-11-19 | 2020-05-29 | 零氪科技(北京)有限公司 | 一种用于对医嘱进行自动提取的系统及应用 |
CN111950974A (zh) * | 2020-07-02 | 2020-11-17 | 广州仓实信息科技有限公司 | 进度信息处理方法、装置、计算机设备和存储介质 |
CN111950974B (zh) * | 2020-07-02 | 2024-05-14 | 广州仓实信息科技有限公司 | 进度信息处理方法、装置、计算机设备和存储介质 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111090641B (zh) * | 2019-11-25 | 2024-04-02 | 医渡云(北京)技术有限公司 | 数据处理方法及装置、电子设备、存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103731298A (zh) * | 2013-11-15 | 2014-04-16 | 中国航天科工集团第二研究院七〇六所 | 一种大规模分布式网络安全数据采集方法与系统 |
CN103761341A (zh) * | 2014-02-21 | 2014-04-30 | 北京嘉和美康信息技术有限公司 | 一种信息匹配方法及装置 |
CN103914570A (zh) * | 2014-04-25 | 2014-07-09 | 北京中讯爱乐科技有限公司 | 基于字符串相似度算法的智能客服搜索方法与系统 |
CN105138829A (zh) * | 2015-08-13 | 2015-12-09 | 易保互联医疗信息科技(北京)有限公司 | 一种中文诊疗信息的自然语言处理方法及系统 |
CN106326422A (zh) * | 2016-08-24 | 2017-01-11 | 北京大学 | 一种基于知识本体的食品安全数据信息检索的方法及系统 |
CN106934220A (zh) * | 2017-02-24 | 2017-07-07 | 黑龙江特士信息技术有限公司 | 面向多数据源的疾病类实体识别方法及装置 |
CN106934409A (zh) * | 2015-12-29 | 2017-07-07 | 优信拍(北京)信息科技有限公司 | 一种数据匹配方法及装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102436475B (zh) * | 2011-09-29 | 2013-12-25 | 用友软件股份有限公司 | 数据表汇总装置和数据表汇总方法 |
CN104731976B (zh) * | 2015-04-14 | 2018-03-30 | 海量云图(北京)数据技术有限公司 | 数据表中隐私数据的发现与分类方法 |
CN106649890B (zh) * | 2017-02-07 | 2020-07-14 | 税云网络科技服务有限公司 | 数据存储方法和装置 |
CN107679544A (zh) * | 2017-08-04 | 2018-02-09 | 平安科技(深圳)有限公司 | 数据自动匹配方法、电子设备及计算机可读存储介质 |
-
2017
- 2017-08-04 CN CN201710660957.2A patent/CN107679544A/zh active Pending
- 2017-09-30 WO PCT/CN2017/104820 patent/WO2019024231A1/zh active Application Filing
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103731298A (zh) * | 2013-11-15 | 2014-04-16 | 中国航天科工集团第二研究院七〇六所 | 一种大规模分布式网络安全数据采集方法与系统 |
CN103761341A (zh) * | 2014-02-21 | 2014-04-30 | 北京嘉和美康信息技术有限公司 | 一种信息匹配方法及装置 |
CN103914570A (zh) * | 2014-04-25 | 2014-07-09 | 北京中讯爱乐科技有限公司 | 基于字符串相似度算法的智能客服搜索方法与系统 |
CN105138829A (zh) * | 2015-08-13 | 2015-12-09 | 易保互联医疗信息科技(北京)有限公司 | 一种中文诊疗信息的自然语言处理方法及系统 |
CN106934409A (zh) * | 2015-12-29 | 2017-07-07 | 优信拍(北京)信息科技有限公司 | 一种数据匹配方法及装置 |
CN106326422A (zh) * | 2016-08-24 | 2017-01-11 | 北京大学 | 一种基于知识本体的食品安全数据信息检索的方法及系统 |
CN106934220A (zh) * | 2017-02-24 | 2017-07-07 | 黑龙江特士信息技术有限公司 | 面向多数据源的疾病类实体识别方法及装置 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019024231A1 (zh) * | 2017-08-04 | 2019-02-07 | 平安科技(深圳)有限公司 | 数据自动匹配方法、电子设备及计算机可读存储介质 |
CN111209924A (zh) * | 2018-11-19 | 2020-05-29 | 零氪科技(北京)有限公司 | 一种用于对医嘱进行自动提取的系统及应用 |
CN111209924B (zh) * | 2018-11-19 | 2023-04-18 | 零氪科技(北京)有限公司 | 一种用于对医嘱进行自动提取的系统及应用 |
CN110222103A (zh) * | 2019-04-19 | 2019-09-10 | 平安科技(深圳)有限公司 | 提取excel数据的方法及装置、计算机设备、存储介质 |
CN111950974A (zh) * | 2020-07-02 | 2020-11-17 | 广州仓实信息科技有限公司 | 进度信息处理方法、装置、计算机设备和存储介质 |
CN111950974B (zh) * | 2020-07-02 | 2024-05-14 | 广州仓实信息科技有限公司 | 进度信息处理方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2019024231A1 (zh) | 2019-02-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107679544A (zh) | 数据自动匹配方法、电子设备及计算机可读存储介质 | |
CN107688667A (zh) | 智能机器人客服方法、电子装置及计算机可读存储介质 | |
CN108629043A (zh) | 网页目标信息的提取方法、装置及存储介质 | |
CN107818075A (zh) | 表格信息结构化提取方法、电子设备及计算机可读存储介质 | |
CN107679084A (zh) | 聚类标签生成方法、电子设备及计算机可读存储介质 | |
CN107204184A (zh) | 语音识别方法及系统 | |
CN107797989A (zh) | 企业名称识别方法、电子设备及计算机可读存储介质 | |
CN104331446A (zh) | 一种基于内存映射的海量数据预处理方法 | |
CN107767259A (zh) | 贷款风险控制方法、电子装置及可读存储介质 | |
CN106874256A (zh) | 识别领域命名实体的方法及装置 | |
CN107680689A (zh) | 医疗文本的潜在疾病推断方法、系统及可读存储介质 | |
CN101650742B (zh) | 一种对英文检索的检索条件进行提示的系统及方法 | |
CN108509477A (zh) | 语义识别方法、电子装置及计算机可读存储介质 | |
CN107784105A (zh) | 基于海量问题的知识库构建方法、电子装置及存储介质 | |
CN112632278A (zh) | 一种基于多标签分类的标注方法、装置、设备及存储介质 | |
CN107766322A (zh) | 同名实体识别方法、电子设备及计算机可读存储介质 | |
CN109033220B (zh) | 标注数据的自动选取方法、系统、设备和存储介质 | |
CN107832676A (zh) | 表格信息换行识别方法、电子设备及计算机可读存储介质 | |
CN108038120A (zh) | 协同过滤推荐方法、电子设备及计算机可读存储介质 | |
CN107807967A (zh) | 实时推荐方法、电子设备及计算机可读存储介质 | |
CN113111162A (zh) | 科室推荐方法、装置、电子设备及存储介质 | |
CN111859093A (zh) | 敏感词处理方法、装置及可读存储介质 | |
CN112446209A (zh) | 一种意图标签的设置方法、设备、装置及存储介质 | |
CN111143571A (zh) | 实体标注模型的训练方法、实体标注方法以及装置 | |
CN115391439A (zh) | 文档数据导出方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180209 |
|
RJ01 | Rejection of invention patent application after publication |