CN111666274A - 数据融合方法、装置、电子设备及计算机可读存储介质 - Google Patents

数据融合方法、装置、电子设备及计算机可读存储介质 Download PDF

Info

Publication number
CN111666274A
CN111666274A CN202010509500.3A CN202010509500A CN111666274A CN 111666274 A CN111666274 A CN 111666274A CN 202010509500 A CN202010509500 A CN 202010509500A CN 111666274 A CN111666274 A CN 111666274A
Authority
CN
China
Prior art keywords
data
subcategory
similarity
category
similar
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010509500.3A
Other languages
English (en)
Other versions
CN111666274B (zh
Inventor
赵进
孔飞
闫广庆
刘邦长
谷书锋
赵红文
王燕华
常德杰
刘朝振
张一坤
武云召
庄博然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Miaoyijia Health Technology Group Co ltd
Original Assignee
Beijing Miaoyijia Health Technology Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Miaoyijia Health Technology Group Co ltd filed Critical Beijing Miaoyijia Health Technology Group Co ltd
Priority to CN202010509500.3A priority Critical patent/CN111666274B/zh
Publication of CN111666274A publication Critical patent/CN111666274A/zh
Application granted granted Critical
Publication of CN111666274B publication Critical patent/CN111666274B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2365Ensuring data consistency and integrity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Quality & Reliability (AREA)
  • Computer Security & Cryptography (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种数据融合方法、装置、电子设备及计算机可读存储介质,包括:将不同来源的待融合数据进行分类,得到多个子类别数据;在预先建立的标准数据库中查找每个子类别数据的相似数据,并确定相似数据与子类别数据之间的相似度;根据相似度将子类别数据与标准数据库进行融合。本发明可以降低分类错误率,减少融合数据库中的无效数据,提升了数据库数据的质量。

Description

数据融合方法、装置、电子设备及计算机可读存储介质
技术领域
本发明涉及人工智能技术领域,尤其是涉及一种数据融合方法、装置、电子设备及计算机可读存储介质。
背景技术
当今社会中存在众多数据融合的场景,传统的数据融合方法通常是根据一列字段的具体描述,查找到待融合数据中的具体字段进行对齐合并后融合成一个新的数据库,在数据不对齐的情况下,需要会对原始数据库添加更多列从而达到数据融合的效果。由于现有技术中仅通过人工判断每一列字段是否一致,从而导致融合数据库中存在错误的分类信息;此外,由于不同来源的待融合数据中可能包含大量重复的信息,而现有的融合技术中不会对待融合数据进行识别,因此会导致数据冗余问题。综上所述,现有的数据融合方法的得到的融合数据库中可能会存在重复和错误的分类信息,从而导致融合数据库中的数据量大且质量差。
发明内容
有鉴于此,本发明的目的在于提供一种数据融合方法、装置、电子设备及计算机可读存储介质,以降低了分类错误率,减少了融合数据库中的无效数据,提升了数据库数据的质量。
第一方面,本发明实施例提供了一种数据融合方法,包括:将不同来源的待融合数据进行分类,得到多个子类别数据;在预先建立的标准数据库中查找每个子类别数据的相似数据,并确定相似数据与子类别数据之间的相似度;根据相似度将子类别数据与标准数据库进行融合。
在一种实施方式中,将不同来源的待融合数据进行分类,得到多个子类别数据的步骤,包括:按照指定标点符号将不同来源的待融合数据划分为多个句子;基于预先训练的语言模型将每个句子进行矢量化表示;基于预先训练的神经网络模型对矢量化的每个句子进行加权;基于标准数据库中的分类类别将加权后的每个句子进行分类,确定每个句子对应的分类类别。
在一种实施方式中,按照指定标点符号将不同来源的待融合数据划分为多个句子的步骤之前,还包括:将不同来源的原始非结构数据进行预分类得到待融合数据。
在一种实施方式中,在预先建立的标准数据库中查找每个子类别数据的相似数据,并确定相似数据与子类别数据之间的相似度的步骤,包括:在预先建立的标准数据库中查找与每个子类别数据分类类别相同的数据,并将查找到的数据作为相似数据;根据子类别数据与相似数据中的关键词和关键实体确定子类别数据与相似数据之间的句子相似度;和/或,根据子类别数据与相似数据中的数值信息确定子类别数据与相似数据之间的数值相似度;和/或,基于神经网络的有监督学习算法确定子类别数据与相似数据之间的语义相似度。
在一种实施方式中,根据子类别数据与相似数据中的数值信息确定子类别数据与相似数据之间的数值相似度的步骤,包括:获取子类别数据和相似数据中的数值信息;其中,数值信息包括数值和单位;当单位不一致时,通过单位转换方式将子类别数据和相似数据中的数值信息进行归一化处理;根据归一化的数值信息确定子类别数据与相似数据之间的数值相似度。
在一种实施方式中,根据相似度将子类别数据与标准数据库进行融合的步骤,包括:根据相似度判断子类别数据中是否有与相似数据表述不一致的信息字段;如果有,将子类别数据中与相似数据表述不一致的信息字段更新至标准数据库中。
在一种实施方式中,将子类别数据中与相似数据表述不一致的信息字段更新至标准数据库中的步骤,包括:通过深度学习文本二分类算法验证子类别数据中与相似数据表述不一致的信息字段是否实质一致;如果否,将子类别数据中与相似数据表述不一致的信息字段更新至标准数据库中。
第二方面,本发明实施例提供了一种数据融合装置,包括:分类模块,用于将不同来源的待融合数据进行分类,得到多个子类别数据;查找模块,用于在预先建立的标准数据库中查找每个子类别数据的相似数据,并确定相似数据与子类别数据之间的相似度;数据融合模块,用于根据相似度将子类别数据与标准数据库进行融合。
第三方面,本发明实施例提供了一种电子设备,包括处理器和存储器,存储器存储有能够被处理器执行的计算机可执行指令,处理器执行计算机可执行指令以实现上述第一方面提供的任一项的方法的步骤。
第四方面,本发明实施例提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述第一方面提供的任一项的方法的步骤。
本发明实施例提供了一种数据融合方法、装置、电子设备及计算机可读存储介质,首先能够将不同来源的待融合数据进行分类,得到多个子类别数据;然后在预先建立的标准数据库中查找每个子类别数据的相似数据,并确定相似数据与子类别数据之间的相似度;最后根据相似度将子类别数据与标准数据库进行融合。上述方法在进行数据融合的过程中,能够对不同来源的待融合数据进行分类,从而降低分类错误率;同时上述方法充分考虑了待融合数据与标准数据库中数据的相似度,根据相似度进行数据融合,能够减少融合数据库中的无效数据,在保证数据最全的情况下减少数据库中的数据数量,提升数据库数据的质量。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种数据融合方法的流程示意图;
图2为本发明实施例提供的另一种数据融合方法的流程示意图;
图3为本发明实施例提供的一种数据融合装置的结构示意图;
图4为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前传统数据融合方案仅仅是简单的人工判断一列和另外一列是否一致,而不会根据其中的具体内容进行类别判定;另外现有技术对于数据库中的结构化数据没有很好地识别功能,仅仅是简单的字段对齐和字段新增,在一些非id编号的表示特征中可能会由于数据中的一些非常见符号或者是停用词导致数据多次录入,使得融合数据库中可能会存在重复的信息,从而导致了大数据量下的数据冗余问题。基于此,本发明实施例提供的一种数据融合方法、装置、电子设备及计算机可读存储介质,可以降低分类错误率,减了融合数据库中的无效数据,提升数据库数据的质量。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种数据融合方法进行详细介绍,参见图1所示的一种数据融合方法的流程示意图,该方法可以由电子设备执行,诸如智能手机、电脑、iPad等,主要包括以下步骤S102至步骤S106:
步骤S102:将不同来源的待融合数据进行分类,得到多个子类别数据。
在一种实施方式中,待融合数据通常为非结构化数据,而且对于不用来源的待融合数据通常包含的内容也不相同,因此在进行数据融合之前需要将非结构化的数据进行结构化处理,按照标准的分类字段识别出非结构化数据中对应的具体内容,使得不同来源的待融合数据得到标准化的分类结果,也即对待融合数据进行分类,得到多个子类别数据,在具体应用中可以通过孪生网络以及深度学习文本分类模型对带融合数据进行分类。诸如药品说明书就是一个典型的较为规范的非结构化文本数据,在实际应用中,可以通过结构化处理识别出药物说明书中对应的疾病实体、成分实体(药品主要组成成分、药物相互作用成分、药物过敏成分)等信息;而对于来自不同生产厂家的同一种药品的药品说明书的具体内容也不完全相同,因此可以根据同一个分类标准将不同的药品说明书进行分类,得到标准化的多个子类别数据,诸如将不用来源的药片说明书数据按照药品名称、成分、形状、规格、用法用量等字段进行分类。
步骤S104:在预先建立的标准数据库中查找每个子类别数据的相似数据,并确定相似数据与子类别数据之间的相似度。
在一种实施方式中,预先建立的标准数据中包含了多种分类类别,每个类别下都对应有大量数据,由于待融合数据中可能会包含与标准数据库中重复的信息,如果将重复的信息融合到标准数据库中会导致数据库中数据量太大,数据质量较差。因此,在进行数据融合之前可以先判断标准数据库中是否存在于待融合数据完全一致或者部分一致的数据,在本实施例中,可以通过在标准数据库中查找每个子类别数据的相似数据,然后计算相似数据与子类数据之间的相似度。
步骤S106:根据相似度将子类别数据与标准数据库进行融合。
在一种实施方式中,相似度可以表征子类别数据与标准数据库中的数据的相似程度(也即一致程度),根据相似度可以确定标准数据库中是否包含待融合的子类别数据,如果相似度为100%,则可以说明待融合的子类别数据与标准数据库中的相似数据完全一致,那么则不需要将该子类别数据与标准数据库进行融合;如果相似度不是100%,则可以说明待融合的子类别数据与标准数据库中的相似数据不完全一致,那么则可以将该子类别数据与标准数据库进行融合。
本发明实施例提供了一种数据融合方法,在进行数据融合的过程中,能够对不同来源的待融合数据进行分类,从而降低分类错误率;同时上述方法充分考虑了待融合数据与标准数据库中数据的相似度,根据相似度进行数据融合,能够减少融合数据库中的无效数据,在保证数据最全的情况下减少数据库中的数据数量,提升数据库数据的质量。
为了便于理解,为便于理解,本实施例提供了一种将不同来源的待融合数据进行分类,得到多个子类别数据的具体实施方式,也即上述步骤S102可以参照如下步骤(1)至步骤(4)执行:
步骤(1):按照指定标点符号将不同来源的待融合数据划分为多个句子。
考虑到待融合数据中存在着大量较长的文本,在分类的过程中可能会出现错误的分类结果,因此,在本实施例中,可以首先按照最大标点符号(指定标点符号)将较长的文本切分成一句一句的形式,也即按照指定的标点符号将较长的文本划分为多个句子,指定的标点可以是句号、感叹号等。
步骤(2):基于预先训练的语言模型将每个句子进行矢量化表示。
在一种实施方式中,可以通过预先训练的语言模型对每一句话进行矢量化表示,其中,语言模型可以是Word2vec模型、GloVe模型、BERT模型等。
步骤(3):基于预先训练的神经网络模型对矢量化的每个句子进行加权。
在一种实施方式中,可以通过预先训练的神经网络模型的编码层对矢量化后的文本信息进行表示,通过神经网络策略,诸如:CNN策略、LSTM策略、BILSTM策略、BIGRU策略以及Self-Attention策略对矢量化的文本信息进行加权。
步骤(4):基于标准数据库中的分类类别将加权后的每个句子进行分类,确定每个句子对应的分类类别。
在一种实施方式中,可以基于标准数据库中的分类类别通过softmax分类器对加权后的每个句子进行分类,确定每个句子对应的分类类别,也即通过softmax分类器对加权后的矢量化文本信息进行多分类,并输出当前文本所对应原始数据库中最大可能的数据列(也就是输出加权后的每个句子对应的标准数据库中的分类类别)。
进一步,本发明实施提供的上述方法,在按照指定标点符号将不同来源的待融合数据划分为多个句子的步骤之前,还包括:将不同来源的原始非结构数据进行预分类得到待融合数据。以常见的药品说明书为例,药品说明书即为一种原始非结构数据,对于不同来源的药品说明书,在数据融合之前可以通过人工对其进行预分类,得到待融合数据,如表1所示的经过人工分类的药品说明书数据,基于表1所示的数据可以按照上述步骤(1)至步骤(4)对待融合数据进行分类。
表1经过人工分类的药品说明书数据
Figure BDA0002525516350000081
Figure BDA0002525516350000091
本发明实施例提供的上述将不同来源的待融合数据进行分类的方法,能够通过预先训练的神经网络模型对待融合数据中的每一个单元的每一句话进行分类预测,使得数据的融合过程具有一定的自动化,减少了人工对数据的审核过程,降低了数据融合的代价。
为便于理解,本实施例提供了一种在预先建立的标准数据库中查找每个子类别数据的相似数据,并确定相似数据与子类别数据之间的相似度的具体实施方式,也即上述步骤S104可以参照如下步骤a至步骤d执行:
步骤a:在预先建立的标准数据库中查找与每个子类别数据分类类别相同的数据,并将查找到的数据作为相似数据。
在进行文本分类后,还需要对文本相似度进行判定,以避免将那个重复的信息多次录入。基于此,本实施例可以根据分类后的各子类别数据对应的分类类别在预先建立的标准数据库中进行查找,并将查找到的相同类别的数据作为相似数据。
步骤b:根据子类别数据与相似数据中的关键词和关键实体确定子类别数据与相似数据之间的句子相似度。
在实际应用中,句子相似也可以理解为关键词相似,可以通过子类别数据与相似数据中的关键词和关键实体的相似来判断子类别数据与相似数据表达的意思是否一致。以药品说明书为例,关键实体可以包括药品的具体成分、适用疾病等。
步骤c:根据子类别数据与相似数据中的数值信息确定子类别数据与相似数据之间的数值相似度。
在一种实施方式中,可以对文本信息中的数值信息进行分析,判断数值信息是否对齐,也即确定数值相似度,由于不同来源的待融合数据中的数值信息的表示方式和单位可能不同,因此不能直接比较,需要先将其进行处理后才可以判断相似度,具体的,本发明实施例还提供了一种根据子类别数据与相似数据中的数值信息确定子类别数据与相似数据之间的数值相似度的具体实施方式,也即上述步骤c可以参照如下步骤c1至步骤c3执行:
步骤c1:获取子类别数据和相似数据中的数值信息;其中,数值信息包括数值和单位。
在一种实施方式中,可以采用命名实体识别的方式对文本信息中的数值信息进行识别,根据被识别文本的上下文环境确定识别出的数值数据代表的具体意义。其中,识别出的数值信息包括数值和单位两部分,例如:1g/天代表1片每天,可以将该数据处理成两个字段,一个字段是用量(即数值),一个字段是用量单位(即单位)。
步骤c2:当单位不一致时,通过单位转换方式将子类别数据和相似数据中的数值信息进行归一化处理。
当识别出的子类别数据与相似数据中数值信息的单位不一致时,需要将单位对齐,也就是需要进行单位转换,单位转换可以包括时间单位转换、计量单位转换和成分计量转换等,时间单位转换有可以包括用药频次时间和用药年龄时间等。例如:0.01g和10mg,可以将单位全部转换为g,则这两个数据全部为0.01g,或者将单位全部转换为mg,两个数据全部为10mg。
步骤c3:根据归一化的数值信息确定子类别数据与相似数据之间的数值相似度。
在一种实施方式中,将数值信息经过单位转换以及归一化处理后,可以直接将处理后的子类别数据与相似数据的数值信息进行对比,判断两者之间的相似度。
步骤d:基于神经网络的有监督学习算法确定子类别数据与相似数据之间的语义相似度。
在一种实施方式中,可以通过神经网络的有监督学习算法识别子类别数据与相似数据的语义是否一致,也即确定语义相似度,从而能够进一步提高数据的质量。
为便于理解,本实施例还提供了一种根据相似度将子类别数据与标准数据库进行融合的具体实施方式,也即上述步骤S106可以参照如下步骤执行:根据相似度判断子类别数据中是否有与相似数据表述不一致的信息字段;如果有,将子类别数据中与相似数据表述不一致的信息字段更新至标准数据库中。
具体的,不同来源的待融合数据经过分类后的子类别数据中可能存在与在标准数据库中查找到的相似数据一致的表述,也可能存在不一致的表述,因此可以根据子类别数据与相似数据之间的相似度可以判断子类别数据中是否有与相似数据表述不一致的信息字段,如果有,可以将子类别数据中与相似数据表述不一致的信息字段更新至标准数据库中,也就是子类别数据与相似数据不完全匹配,需要对相似数据进行补全,将表述不一致的信息字段更新至标准数据库中(也即进行数据融合);如果子类别数据中没有与相似数据表述不一致的信息字段,也就是子类别数据与相似数据完全匹配,相似度为100%,那么为了避免数据重复,提高数据质量,则不需要将该子类别数据进行融合。
进一步,为了避免在相似度判断过程中出现错误,对于上述将子类别数据中与相似数据表述不一致的信息字段更新至标准数据库中的步骤还包括:通过深度学习文本二分类算法验证子类别数据中与相似数据表述不一致的信息字段是否实质一致;如果否,将子类别数据中与相似数据表述不一致的信息字段更新至标准数据库中。也即进一步通过深度学习文本二分类算法对表述不一致的信息字段进行验证,判断表述不一致的信息字段实质上是不是一致的,如果否,可以将不一致的信息字段作为一条有效的新信息更新至标准数据库中。
本发明实施例提供的上述方法,在将待融合数据中的每一句文本进行分类后,可以获取到一个当前待融合数据的属性分类知识图谱(或者是一个一对多的信息),然后可以将待融合数据中的所有信息带上字段(也即对应的分类类别)去已有的数据库(标准数据库)中进行查询,按照匹配度(也即相似度)返回相似的数据信息(召回信息),具体可以采用tfidf算法和/或bm25算法获取匹配度。在召回信息中可能存在与当前信息一致的表示,或者是当前信息的部分信息是完全匹配与召回信息的,对于这种情况的信息,可以进行召回信息的补全,并更新到数据库;如果召回信息中存在完全包含待匹配信息的信息,则不足要将该待匹配信息进行入库。而如果待匹配信息和召回信息中最相似的问题有一部分匹配,但是仍然存在不匹配的信息字段,可以通过深度学习文本二分类算法进行验证,如果验证的结果是两个字段不匹配,可以将不匹配的信息字段作为有效的新信息更新到数据库。
本发明实施例提供的上述方法,在进行数据融合的过程中,能够对不同来源的待融合数据进行分类,从而降低分类错误率;同时上述方法充分考虑了待融合数据与标准数据库中数据的相似度,根据相似度进行数据融合,能够减少融合数据库中的无效数据,在保证数据最全的情况下减少数据库中的数据数量,提升数据库数据的质量。
在前述实施例的基础上,本实施例提供了一种数据融合方法的具体示例,参见图2所示的另一种数据融合方法的流程示意图,该方法主要包括如下步骤S202至步骤S210:
步骤S202:基于文本分类模型预测待融合数据库中数据的标签。
在一种实施方式中,在进行标签预测之前,可以预先对深度学习文本分类模型进行训练得到文本分类模型,具体的,可以将标准数据库中的数据通过人工进行标记,使每句话对应一个分类标签,然后基于标记后的数据对深度学习文本分类模型进行训练得到文本分类模型,后续用于对待融合数据进行标签预测。
步骤S204:判断标签预测是否成功,如果失败,继续执行步骤S206,否则执行步骤S210。
步骤S206:通过人工进行审核,判断待融合数据库中数据的标签是否与标准数据库中的标签匹配,如果不匹配,继续执行步骤S208,否则执行步骤S210。
步骤S208:在标准数据库中添加新的标签,并将新的标签对应的待融合数据库中的数据添加到标准数据库中。
当待融合数据库中数据的标签与标准数据库中的标签不匹配时,则说明待融合数据库中包含新的有效信息,可以通过在标准数据库中添加新的标签的方式,将待融合数据库中的数据添加到标准数据库中。
步骤S210:将待融合数据库中的数据添加到标准数据库中。
本发明实施例提供的数据融合方法,可以通过人工的初次标记后实现增量数据的半自动化辅助数据对齐的效果;同时可以通过信息对齐后的语义相似度判断以及语义判断是否新增数据,从而可以减少无效数据,在保证数据最全的情况下减少数据库中的数据数量,提升数据库数据的质量。
对于前述实施例提供的数据融合方法,本发明实施例还提供了一种数据融合装置,参见图3所示的一种数据融合装置的结构示意图,该装置可以包括以下部分:
分类模块301,用于将不同来源的待融合数据进行分类,得到多个子类别数据。
查找模块302,用于在预先建立的标准数据库中查找每个子类别数据的相似数据,并确定相似数据与子类别数据之间的相似度。
数据融合模块303,用于根据相似度将子类别数据与标准数据库进行融合。
本发明实施例提供了一种数据融合装置,在进行数据融合的过程中,能够对不同来源的待融合数据进行分类,从而降低分类错误率;同时上述装置充分考虑了待融合数据与标准数据库中数据的相似度,根据相似度进行数据融合,能够减少融合数据库中的无效数据,在保证数据最全的情况下减少数据库中的数据数量,提升数据库数据的质量。
在一种实施方式中,上述分类模块301还用于按照指定标点符号将不同来源的待融合数据划分为多个句子;基于预先训练的语言模型将每个句子进行矢量化表示;基于预先训练的神经网络模型对矢量化的每个句子进行加权;基于标准数据库中的分类类别将加权后的每个句子进行分类,确定每个句子对应的分类类别。
在一种实施方式中,上述分类模块301进一步用于将不同来源的原始非结构数据进行预分类得到待融合数据。
在一种实施方式中,上述查找模块302还用于在预先建立的标准数据库中查找与每个子类别数据分类类别相同的数据,并将查找到的数据作为相似数据;根据子类别数据与相似数据中的关键词和关键实体确定子类别数据与相似数据之间的句子相似度;和/或,根据子类别数据与相似数据中的数值信息确定子类别数据与相似数据之间的数值相似度;和/或,基于神经网络的有监督学习算法确定子类别数据与相似数据之间的语义相似度。
在一种实施方式中,上述查找模块302还用于获取子类别数据和相似数据中的数值信息;其中,数值信息包括数值和单位;当单位不一致时,通过单位转换方式将子类别数据和相似数据中的数值信息进行归一化处理;根据归一化的数值信息确定子类别数据与相似数据之间的数值相似度。
在一种实施方式中,上述数据融合模块303还用于根据相似度判断子类别数据中是否有与相似数据表述不一致的信息字段;如果有,将子类别数据中与相似数据表述不一致的信息字段更新至标准数据库中。
在一种实施方式中,上述数据融合模块303还用于通过深度学习文本二分类算法验证子类别数据中与相似数据表述不一致的信息字段是否实质一致;如果否,将子类别数据中与相似数据表述不一致的信息字段更新至标准数据库中。
本发明实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
本发明实施例还提供了一种电子设备,具体的,该电子设备包括处理器和存储装置;存储装置上存储有计算机程序,计算机程序在被处理器运行时执行如上实施方式的任一项所述的方法。
图4为本发明实施例提供的一种电子设备的结构示意图,该电子设备100包括:处理器40,存储器41,总线42和通信接口43,所述处理器40、通信接口43和存储器41通过总线42连接;处理器40用于执行存储器41中存储的可执行模块,例如计算机程序。
其中,存储器41可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口43(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。
总线42可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器41用于存储程序,所述处理器40在接收到执行指令后,执行所述程序,前述本发明实施例任一实施例揭示的流程定义的装置所执行的方法可以应用于处理器40中,或者由处理器40实现。
处理器40可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器40中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器40可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital SignalProcessing,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器41,处理器40读取存储器41中的信息,结合其硬件完成上述方法的步骤。
本发明实施例所提供的可读存储介质的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见前述方法实施例,在此不再赘述。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种数据融合方法,其特征在于,包括:
将不同来源的待融合数据进行分类,得到多个子类别数据;
在预先建立的标准数据库中查找每个所述子类别数据的相似数据,并确定所述相似数据与所述子类别数据之间的相似度;
根据所述相似度将所述子类别数据与所述标准数据库进行融合。
2.根据权利要求1所述的方法,其特征在于,所述将不同来源的待融合数据进行分类,得到多个子类别数据的步骤,包括:
按照指定标点符号将不同来源的待融合数据划分为多个句子;
基于预先训练的语言模型将每个所述句子进行矢量化表示;
基于预先训练的神经网络模型对矢量化的每个所述句子进行加权;
基于所述标准数据库中的分类类别将加权后的每个所述句子进行分类,确定每个所述句子对应的分类类别。
3.根据权利要求2所述的方法,其特征在于,所述按照指定标点符号将不同来源的待融合数据划分为多个句子的步骤之前,还包括:
将不同来源的原始非结构数据进行预分类得到待融合数据。
4.根据权利要求1所述的方法,其特征在于,所述在预先建立的标准数据库中查找每个所述子类别数据的相似数据,并确定所述相似数据与所述子类别数据之间的相似度的步骤,包括:
在预先建立的标准数据库中查找与每个所述子类别数据分类类别相同的数据,并将查找到的数据作为相似数据;
根据所述子类别数据与所述相似数据中的关键词和关键实体确定所述子类别数据与所述相似数据之间的句子相似度;
和/或,根据所述子类别数据与所述相似数据中的数值信息确定所述子类别数据与所述相似数据之间的数值相似度;
和/或,基于神经网络的有监督学习算法确定所述子类别数据与所述相似数据之间的语义相似度。
5.根据权利要求4所述的方法,其特征在于,所述根据所述子类别数据与所述相似数据中的数值信息确定所述子类别数据与所述相似数据之间的数值相似度的步骤,包括:
获取所述子类别数据和所述相似数据中的数值信息;其中,所述数值信息包括数值和单位;
当所述单位不一致时,通过单位转换方式将所述子类别数据和所述相似数据中的数值信息进行归一化处理;
根据归一化的所述数值信息确定所述子类别数据与所述相似数据之间的数值相似度。
6.根据权利要求1所述的方法,其特征在于,所述根据所述相似度将所述子类别数据与所述标准数据库进行融合的步骤,包括:
根据所述相似度判断所述子类别数据中是否有与所述相似数据表述不一致的信息字段;
如果有,将所述子类别数据中与所述相似数据表述不一致的信息字段更新至所述标准数据库中。
7.根据权利要求6所述的方法,其特征在于,所述将所述子类别数据中与所述相似数据表述不一致的信息字段更新至所述标准数据库中的步骤,包括:
通过深度学习文本二分类算法验证所述子类别数据中与所述相似数据表述不一致的信息字段是否实质一致;
如果否,将所述子类别数据中与所述相似数据表述不一致的信息字段更新至所述标准数据库中。
8.一种数据融合装置,其特征在于,包括:
分类模块,用于将不同来源的待融合数据进行分类,得到多个子类别数据;
查找模块,用于在预先建立的标准数据库中查找每个所述子类别数据的相似数据,并确定所述相似数据与所述子类别数据之间的相似度;
数据融合模块,用于根据所述相似度将所述子类别数据与所述标准数据库进行融合。
9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机可执行指令,所述处理器执行所述计算机可执行指令以实现权利要求1至7任一项所述的方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行上述权利要求1至7任一项所述的方法的步骤。
CN202010509500.3A 2020-06-05 2020-06-05 数据融合方法、装置、电子设备及计算机可读存储介质 Active CN111666274B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010509500.3A CN111666274B (zh) 2020-06-05 2020-06-05 数据融合方法、装置、电子设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010509500.3A CN111666274B (zh) 2020-06-05 2020-06-05 数据融合方法、装置、电子设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN111666274A true CN111666274A (zh) 2020-09-15
CN111666274B CN111666274B (zh) 2023-08-25

Family

ID=72386868

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010509500.3A Active CN111666274B (zh) 2020-06-05 2020-06-05 数据融合方法、装置、电子设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN111666274B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112347113A (zh) * 2020-09-16 2021-02-09 北京中兵数字科技集团有限公司 航空数据融合方法、航空数据融合装置和存储介质

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007038292A2 (en) * 2005-09-22 2007-04-05 Fair Isaac Corporation Method and apparatus for automatic entity disambiguation
US20070214133A1 (en) * 2004-06-23 2007-09-13 Edo Liberty Methods for filtering data and filling in missing data using nonlinear inference
US20110231510A1 (en) * 2000-09-25 2011-09-22 Yevgeny Korsunsky Processing data flows with a data flow processor
CN103810482A (zh) * 2014-03-12 2014-05-21 中国矿业大学(北京) 一种多信息融合分类及识别方法
CN105391694A (zh) * 2015-10-20 2016-03-09 中国人民解放军信息工程大学 一种多源态势信息融合方法
WO2016096226A1 (en) * 2014-12-18 2016-06-23 Be-Mobile Nv A traffic data fusion system and the related method for providing a traffic state for a network of roads
JP6159908B1 (ja) * 2016-03-31 2017-07-05 スマートインサイト株式会社 異種データソース混在環境におけるフィールド間の関係性の自動的発見のための方法、プログラム、および、システム
EP3242239A1 (en) * 2016-05-02 2017-11-08 Scantrust SA Optimized authentication of graphic authentication code
CA3052113A1 (en) * 2017-01-31 2018-08-09 Mocsy Inc. Information extraction from documents
CN108846050A (zh) * 2018-05-30 2018-11-20 重庆望江工业有限公司 基于多模型融合的核心工艺知识智能推送方法及系统
US20190012595A1 (en) * 2017-07-07 2019-01-10 Pointr Data, Inc. Neural network consensus using blockchain
US20190026840A1 (en) * 2017-07-19 2019-01-24 Zhouyi TANG Method and System for Providing Real-Time Visual Information Based on Financial Flow Data
CN109542966A (zh) * 2018-11-09 2019-03-29 金色熊猫有限公司 数据融合方法、装置、电子设备及计算机可读介质
CN110245234A (zh) * 2019-03-27 2019-09-17 中国海洋大学 一种基于本体和语义相似度的多源数据样本关联方法
CN110503204A (zh) * 2018-05-17 2019-11-26 国际商业机器公司 识别用于机器学习任务的迁移模型
CN111090630A (zh) * 2019-12-16 2020-05-01 中科宇图科技股份有限公司 基于多源空间点数据的数据融合处理方法
CN111159152A (zh) * 2019-12-28 2020-05-15 国网安徽省电力有限公司 基于大数据处理技术的二次运维数据融合方法

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110231510A1 (en) * 2000-09-25 2011-09-22 Yevgeny Korsunsky Processing data flows with a data flow processor
US20070214133A1 (en) * 2004-06-23 2007-09-13 Edo Liberty Methods for filtering data and filling in missing data using nonlinear inference
WO2007038292A2 (en) * 2005-09-22 2007-04-05 Fair Isaac Corporation Method and apparatus for automatic entity disambiguation
CN103810482A (zh) * 2014-03-12 2014-05-21 中国矿业大学(北京) 一种多信息融合分类及识别方法
WO2016096226A1 (en) * 2014-12-18 2016-06-23 Be-Mobile Nv A traffic data fusion system and the related method for providing a traffic state for a network of roads
CN105391694A (zh) * 2015-10-20 2016-03-09 中国人民解放军信息工程大学 一种多源态势信息融合方法
JP6159908B1 (ja) * 2016-03-31 2017-07-05 スマートインサイト株式会社 異種データソース混在環境におけるフィールド間の関係性の自動的発見のための方法、プログラム、および、システム
EP3242239A1 (en) * 2016-05-02 2017-11-08 Scantrust SA Optimized authentication of graphic authentication code
CA3052113A1 (en) * 2017-01-31 2018-08-09 Mocsy Inc. Information extraction from documents
US20190012595A1 (en) * 2017-07-07 2019-01-10 Pointr Data, Inc. Neural network consensus using blockchain
US20190026840A1 (en) * 2017-07-19 2019-01-24 Zhouyi TANG Method and System for Providing Real-Time Visual Information Based on Financial Flow Data
CN110503204A (zh) * 2018-05-17 2019-11-26 国际商业机器公司 识别用于机器学习任务的迁移模型
CN108846050A (zh) * 2018-05-30 2018-11-20 重庆望江工业有限公司 基于多模型融合的核心工艺知识智能推送方法及系统
CN109542966A (zh) * 2018-11-09 2019-03-29 金色熊猫有限公司 数据融合方法、装置、电子设备及计算机可读介质
CN110245234A (zh) * 2019-03-27 2019-09-17 中国海洋大学 一种基于本体和语义相似度的多源数据样本关联方法
CN111090630A (zh) * 2019-12-16 2020-05-01 中科宇图科技股份有限公司 基于多源空间点数据的数据融合处理方法
CN111159152A (zh) * 2019-12-28 2020-05-15 国网安徽省电力有限公司 基于大数据处理技术的二次运维数据融合方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
XIN LONG: "Task Merging and Scheduling for Parallel Deep Learning Applications in Mobile Edge Computing", 2019 20TH INTERNATIONAL CONFERENCE ON PARALLEL AND DISTRIBUTED COMPUTING, APPLICATIONS AND TECHNOLOGIES *
樊梦丹: "基于多特征融合和机器学习的摔倒检测", 中国优秀硕士毕业论文 *
陈荣: ""基于多源数据融合方法的期刊评价及实证研究"", 《中国科技期刊研究》 *
陈荣: ""基于多源数据融合方法的期刊评价及实证研究"", 《中国科技期刊研究》, 15 June 2019 (2019-06-15) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112347113A (zh) * 2020-09-16 2021-02-09 北京中兵数字科技集团有限公司 航空数据融合方法、航空数据融合装置和存储介质

Also Published As

Publication number Publication date
CN111666274B (zh) 2023-08-25

Similar Documents

Publication Publication Date Title
CN109145153B (zh) 意图类别的识别方法和装置
US9875319B2 (en) Automated data parsing
US11321671B2 (en) Job skill taxonomy
CN112800201B (zh) 自然语言的处理方法、装置及电子设备
WO2021146831A1 (zh) 实体识别的方法和装置、建立词典的方法、设备、介质
US20190392035A1 (en) Information object extraction using combination of classifiers analyzing local and non-local features
CN105378731A (zh) 从被回答问题关联语料库/语料值
US10042880B1 (en) Automated identification of start-of-reading location for ebooks
WO2022222300A1 (zh) 开放关系抽取方法、装置、电子设备及存储介质
CN110309301B (zh) 企业类别的分类方法、装置及智能终端
WO2023029513A1 (zh) 基于人工智能的搜索意图识别方法、装置、设备及介质
CN114817553A (zh) 知识图谱构建方法、知识图谱构建系统和计算设备
CN111401065A (zh) 实体识别方法、装置、设备及存储介质
CN114661861A (zh) 文本匹配方法及装置、存储介质、终端
CN114218392A (zh) 面向期货问答的用户意图识别方法和系统
CN111666274B (zh) 数据融合方法、装置、电子设备及计算机可读存储介质
CN110888983B (zh) 一种正负面情感分析方法、终端设备及存储介质
US10296585B2 (en) Assisted free form decision definition using rules vocabulary
CN111274483A (zh) 关联推荐方法及关联推荐交互方法
CN116127013A (zh) 一种个人敏感信息知识图谱查询方法和装置
CN114997167A (zh) 简历内容提取方法及装置
AU2019290658B2 (en) Systems and methods for identifying and linking events in structured proceedings
CN115935195B (zh) 文本匹配方法及装置、计算机可读存储介质、终端
US20230394235A1 (en) Domain-specific document validation
CN116244496B (zh) 一种基于产业链的资源推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant