CN109002528B - 一种数据导入的方法、装置和存储介质 - Google Patents

一种数据导入的方法、装置和存储介质 Download PDF

Info

Publication number
CN109002528B
CN109002528B CN201810776632.5A CN201810776632A CN109002528B CN 109002528 B CN109002528 B CN 109002528B CN 201810776632 A CN201810776632 A CN 201810776632A CN 109002528 B CN109002528 B CN 109002528B
Authority
CN
China
Prior art keywords
imported
entry
attribute
matching
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810776632.5A
Other languages
English (en)
Other versions
CN109002528A (zh
Inventor
秦成鹏
张蒙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Cat Eyes Culture Media Co ltd
Original Assignee
Beijing Cat Eyes Culture Media Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Cat Eyes Culture Media Co ltd filed Critical Beijing Cat Eyes Culture Media Co ltd
Priority to CN201810776632.5A priority Critical patent/CN109002528B/zh
Publication of CN109002528A publication Critical patent/CN109002528A/zh
Application granted granted Critical
Publication of CN109002528B publication Critical patent/CN109002528B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种数据导入的方法、装置和存储介质,所述方法包括:接收待导入的数据,所述待导入的数据包括待导入条目;根据所述待导入条目,获取本地数据库中的候选条目;对所述待导入条目与所述候选条目进行比对,获得比对结果,所述比对结果包括属性匹配结果及其置信度;识别所述属性匹配结果及其置信度,以确定匹配条目;将所述匹配条目导入所述本地数据库,方便了在将外部数据源中的数据导入本地数据库时的处理过程,增加了能够获取确切匹配结果的条目数量并保证了数据之间的匹配性,有利于实现对本地数据库的扩充。

Description

一种数据导入的方法、装置和存储介质
技术领域
本发明涉及数据处理技术领域,特别是涉及一种数据导入的方法、一种数据导入的装置和一种存储介质。
背景技术
互联网票务平台集媒体内容、在线购票、用户互动社交、衍生品销售等功能于一体,能够为用户提供一站式的服务。例如,用户可以在该平台上查阅电影信息、购买电影票及文化产品、撰写影评等等。
互联网票务平台的数据库中收录有电影或电视剧的大量信息,为了实现对该数据库的扩充,经常需要导入外部数据源,以对数据库中的信息作进一步的完善。以电影影人数据库为例,在扩充该数据库时需要抓取其他网站的电影影人条目,再导入本地的影人数据库中。在导入过程中,需要判断待导入条目是否已经存在于本地数据库中。如果已经存在,则可以将该条目与匹配到的本地条目的属性值进行合并,如果不存在,则可以将该条目作为新增条目加入到本地数据库中。
在将待导入条目和本地条目的属性进行合并时,现有技术中主要是针对待导入条目与本地条目之间的各个属性进行简单的语义判断,并产生两种结果,一种是相同,另一种则是不同。只有当各个属性完全相同时,才认为待导入条目与本地条目匹配。
但是,在现实的数据中,存在很多缺失值和模糊值,根本无法准确地用相同或不同两种结果来衡量。此外,对于某些脏数据,按照现有技术中的匹配或导入方法也无法解决。例如,在某些数据源中,电影的上映日期条目可能是错误的,但该电影的影片名、导演、简介,以及演员等条目的内容都相同,按照现有技术的处理方式,则无法将上述影片名、导演、简介,以及演员等条目的正确内容导入到本地数据库中。由于存在上述种种无法处理的情况,就会导致能够得到确切匹配结果的条目较少,不利于对本地数据库的扩充。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种数据导入的方法、一种数据导入的装置和相应的一种存储介质。
为了解决上述问题,本发明实施例公开了一种数据导入的方法,包括:
接收待导入的数据,所述待导入的数据包括待导入条目;
根据所述待导入条目,获取本地数据库中的候选条目;
对所述待导入条目与所述候选条目进行比对,获得比对结果,所述比对结果包括属性匹配结果及其置信度;
识别所述属性匹配结果及其置信度,以确定匹配条目;
将所述匹配条目导入所述本地数据库。
可选地,所述根据所述待导入条目,获取本地数据库中的候选条目的步骤包括:
确定所述待导入条目的多个基本属性;
提取本地数据库中包含所述待导入条目的至少一个基本属性的候选条目。
可选地,所述对所述待导入条目与所述候选条目进行比对,获得比对结果的步骤包括:
确定所述候选条目的多个基本属性;
逐个比对所述待导入条目和所述候选条目的多个基本属性,生成属性匹配结果及其置信度。
可选地,所述属性匹配结果的置信度通过如下方式确定:
确定所述属性匹配结果是否冲突;
若是,则统计所述基本属性中冲突的属性值的个数,根据所述冲突的属性值的个数确定置信度;
若否,则统计所述基本属性中未冲突的属性值的个数,根据所述未冲突的属性值的个数确定置信度。
可选地,所述确定所述属性匹配结果是否冲突的步骤包括:
若所述待导入条目或所述候选条目之一包含所述基本属性,或者,所述待导入条目和所述候选条目均包含所述基本属性且所述基本属性的属性值相同,则确定所述属性匹配结果不冲突;
若所述待导入条目和所述候选条目均包含所述基本属性且所述基本属性的属性值不同,则确定所述属性匹配结果冲突。
可选地,所述识别所述属性匹配结果及其置信度,以确定匹配条目的步骤包括:
识别所述属性匹配结果及其置信度是否满足预设规则;
若是,则确定所述属性匹配结果对应的待导入条目为匹配条目;
若否,则采用预设模型对所述属性匹配结果及其置信度进行识别,获得模型识别结果,根据所述模型识别结果确定匹配条目。
可选地,所述获得模型识别结果包括匹配符合结果或匹配存疑结果,所述根据所述模型识别结果确定匹配条目的步骤包括:
将所述匹配符合结果对应的待导入条目确定为匹配条目;
将所述匹配存疑结果对应的待导入条目存储至存疑数据库。
为了解决上述问题,本发明实施例公开了一种数据导入的装置,包括:
接收模块,用于接收待导入的数据,所述待导入的数据包括待导入条目;
获取模块,用于根据所述待导入条目,获取本地数据库中的候选条目;
比对模块,用于对所述待导入条目与所述候选条目进行比对,获得比对结果,所述比对结果包括属性匹配结果及其置信度;
识别模块,用于识别所述属性匹配结果及其置信度,以确定匹配条目;
导入模块,用于将所述匹配条目导入所述本地数据库。
可选地,所述获取模块包括:
第一基本属性确定子模块,用于确定所述待导入条目的多个基本属性;
候选条目提取子模块,用于提取本地数据库中包含所述待导入条目的至少一个基本属性的候选条目。
可选地,所述比对模块包括:
第二基本属性确定子模块,用于确定所述候选条目的多个基本属性;
基本属性比对子模块,用于逐个比对所述待导入条目和所述候选条目的多个基本属性,生成属性匹配结果及其置信度。
可选地,所述属性匹配结果的置信度通过调用如下模块确定:
冲突确定模块,用于确定所述属性匹配结果是否冲突;
第一置信度确定模块,用于若是,则统计所述基本属性中冲突的属性值的个数,根据所述冲突的属性值的个数确定置信度;
第二置信度确定模块,用于若否,则统计所述基本属性中未冲突的属性值的个数,根据所述未冲突的属性值的个数确定置信度。
可选地,所述冲突确定模块包括:
第一冲突确定子模块,用于若所述待导入条目或所述候选条目之一包含所述基本属性,或者,所述待导入条目和所述候选条目均包含所述基本属性且所述基本属性的属性值相同,则确定所述属性匹配结果不冲突;
第二冲突确定子模块,用于若所述待导入条目和所述候选条目均包含所述基本属性且所述基本属性的属性值不同,则确定所述属性匹配结果冲突。
可选地,所述识别模块包括:
预设规则识别子模块,用于识别所述属性匹配结果及其置信度是否满足预设规则;
匹配条目确定子模块,用于若是,则确定所述属性匹配结果对应的待导入条目为匹配条目;
模型识别子模块,用于若否,则采用预设模型对所述属性匹配结果及其置信度进行识别,获得模型识别结果,根据所述模型识别结果确定匹配条目。
可选地,所述获得模型识别结果包括匹配符合结果或匹配存疑结果,所述模型识别子模块包括:
匹配条目确定单元,用于将所述匹配符合结果对应的待导入条目确定为匹配条目;
待导入条目存储单元,用于将所述匹配存疑结果对应的待导入条目存储至存疑数据库。
为了解决上述问题,本发明实施例公开了一种数据导入的装置,包括:
处理器;以及,
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行上述的数据导入的方法。
为了解决上述问题,本发明实施例公开了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的数据导入的方法。
与背景技术相比,本发明实施例包括以下优点:
本发明实施例,通接收包括待导入条目的待导入的数据,可以根据待导入条目获取本地数据库中的候选条目,然后对待导入条目与候选条目进行比对,获得包括属性匹配结果及其置信度的比对结果,从而在对上述属性匹配结果及其置信度进行识别后,可以确定出匹配条目,并将该匹配条目导入本地数据库,方便了在将外部数据源中的数据导入本地数据库时的处理过程,增加了能够获取确切匹配结果的条目数量并保证了数据之间的匹配性,有利于实现对本地数据库的扩充。
附图说明
图1是本发明一个实施例的一种数据导入的方法的步骤流程示意图;
图2是本发明一个实施例的另一种数据导入的方法的步骤流程示意图;
图3是本发明一个实施例的一种数据导入的方法的处理流程示意图;
图4是本发明一个实施例的一种数据导入的装置的示意性结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
参照图1,示出了本发明一个实施例的一种数据导入的方法的步骤流程示意图,具体可以包括如下步骤:
步骤101,接收待导入的数据,所述待导入的数据包括待导入条目;
在本发明实施例中,待导入的数据可以是从其他数据库中获取到的数据。例如,通过爬虫或其他技术从其他的相关数据库中抓取到的数据。
待导入的数据可以包括多个待导入条目,各个条目可以是包括多种不同属性及属性值的数据集合。例如,对于电影数据,其待导入条目可以是指某部电影,该电影条目又可以包括影片名称、影片简介、导演列表等属性;对于影人数据,待导入条目可以是指某位电影演员,该影人条目又可以包括影人姓名、出生日期、出生地、性别等属性。对于不同的待导入数据,其包含的待导入条目可能不同,本实施例对待导入条目的具体类型不作限定。
步骤102,根据所述待导入条目,获取本地数据库中的候选条目;
在本发明实施例中,本地数据库即是指待导入数据被导入的目标数据库,通过将待导入数据导入本地数据库可以实现对本地数据库的扩充。例如,通过将其他外部数据源的电影数据导入本地的电影数据库,可以丰富本地电影数据库所包含的数据内容。
在本发明实施例中,在获取到待导入条目后,可以根据待导入条目所包含的基本属性,从本地数据库中提取出多条候选条目。上述候选条目可以是与待导入条目具有至少一个相同的基本属性的数据条目。
例如,对于某条电影条目,其包含的一个基本属性为影片名称,则可以在本地数据库中提取出同样包含该影片名称这一基本属性的条目作为候选条目。
通常,候选条目可以包括多条。因此,在提取出候选条目后,将上述候选条目组合成候选条目集合。
步骤103,对所述待导入条目与所述候选条目进行比对,获得比对结果,所述比对结果包括属性匹配结果及其置信度;
在本发明实施例中,对待导入条目与候选条目进行比对可以是指对待导入条目与候选条目之间的所有属性进行比对。
例如,若待导入条目包括影片名称,影片简介,导演列表,影人列表,上映时间,影片国家来源,影片类型,影片时长等属性,则可以将上述各个属性分别与候选条目的各个属性进行比对。
在具体实现中,可以首先确定候选条目是否具有上述属性。例如,可以首先确定候选条目是否具有影片国家来源这一属性。若候选条目具有该属性,则可以进一步对上述属性的属性值进行比较,以获得二者之间的比对结果。例如,若待导入条目的影片国家来源为英国,则可以通过确认候选条目的影片国家来源是否同样为英国,来获得二者之间的比对结果。上述比对结果可以包括属性匹配结果及其置信度。
属性匹配结果可以是指相应的属性值是否匹配。例如,在上述示例中,若候选条目的影片国家来源同样为英国,则上述属性匹配结果可以认为是匹配;若候选条目的影片国家来源为美国,与待导入条目的影片国家来源不同,则可以认为上述属性匹配结果为不匹配。
在统计学中,一个概率样本的置信区间(Confidence interval)是对这个样本的某个总体参数的区间估计。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度。置信区间给出的是被测量参数的测量值的可信程度,即前面所要求的“一定概率”。这个概率被称为置信水平。因此,属性匹配结果的置信度可以用于说明该匹配结果的可信程度。通常,置信度越高,该属性匹配结果的可信度也越高;反之,置信度越低,则说明该属性匹配结果的可信度也越低。
步骤104,识别所述属性匹配结果及其置信度,以确定匹配条目;
在本发明实施例中,在获得每个属性的属性匹配结果及其置信度后,可以再次对每个属性的属性匹配结果及其置信度进行识别,并根据识别结果得到最终的匹配条目。
在具体实现中,可以基于人工经验,设置多个不同的识别规则,通过判断每个属性的属性匹配结果是否满足上述识别规则,来确定最终的匹配条目。
或者,也可以通过机器学习算法,对已有的数据进行模型训练,从而构建出一个识别模型,由该识别模型对上述的属性匹配结果进行识别,以此确定最终的匹配条目。
当然,以上只是识别属性匹配结果及其置信度的示例,本领域技术人员可以根据实际需要,采用合适的手段对属性匹配结果进行识别,以得到最终的匹配条目,本实施例对此不作限定。
步骤105,将所述匹配条目导入所述本地数据库。
在本发明实施例中,在得到最终的匹配条目后,可以将该匹配条目导入本地数据库。
在具体实现中,可以按照匹配条目与候选条目之间对应的属性来导入上述匹配条目。例如,将待导入条目的导演列表属性中的属性值导入对应的候选条目的导演列表属性中,将待导入条目的演员列表属性中的属性值导入对应的候选条目的演员列表属性中。
需要说明的是,在得到最终的匹配条目时,如果匹配条目包括多条,则可以根据置信度的高低来确定究竟应该导入哪一条匹配条目。一般地,可以将置信度最高的条目作为匹配条目导入本地数据库中。
在本发明实施例中,通接收包括待导入条目的待导入的数据,可以根据待导入条目获取本地数据库中的候选条目,然后对待导入条目与候选条目进行比对,获得包括属性匹配结果及其置信度的比对结果,从而在对上述属性匹配结果及其置信度进行识别后,可以确定出匹配条目,并将该匹配条目导入本地数据库,方便了在将外部数据源中的数据导入本地数据库时的处理过程,增加了能够获取确切匹配结果的条目数量并保证了数据之间的匹配性,有利于实现对本地数据库的扩充。
参照图2,示出了本发明一个实施例的另一种数据导入的方法的步骤流程示意图,具体可以包括如下步骤:
步骤201,接收待导入的数据,所述待导入的数据包括待导入条目;
在本发明实施例中,待导入的数据可以是从其他数据库中获取到的数据。例如,通过爬虫或其他技术从其他的相关数据库中抓取到的数据。
待导入的数据可以包括多个待导入条目,各个条目可以是包括多种不同属性及属性值的数据集合。例如,对于电影数据,其待导入条目可以是指某部电影;对于影人数据,待导入条目可以是指某位电影演员。对于不同的待导入数据,其包含的待导入条目可能不同,本实施例对待导入条目的具体类型不作限定。
在本发明实施例中,接收到待导入条目后,可以对各个条目作归一化处理,得到归一化处理后的待导入条目。例如,将全角数据转换为半角数据,将大写字母转换为小写字母,删除标点或其他符号等等。本实施例对归一化处理的具体方式不作限定。
步骤202,确定所述待导入条目的多个基本属性;
通常,不同的条目所包含的基本属性不同。
例如,对于电影条目,其包含的基本属性可以包括影片名称、影片简介、导演列表、影人列表、上映时间、影片国家来源、影片类型、影片时长等等。
对于电视剧条目,其包含的基本属性可以包括电视剧名称、电视剧简介、导演列表、演员列表、上映时间、电视剧国家来源、电视剧类型、电视剧集数、时长、第几季等等。
对于影人或演员条目,其包含的基本属性可以包括姓名、出生日期、出生地、性别、曾出演电影或电视剧等等。
当然,以上只是一种示例,本领域技术人员可以根据实际需要确定不同条目的基本属性,本实施例对基本属性的类型不作限定。
步骤203,提取本地数据库中包含所述待导入条目的至少一个基本属性的候选条目;
在本发明实施例中,本地数据库即是指待导入数据被导入的目标数据库,通过将待导入数据导入本地数据库可以实现对本地数据库的扩充。例如,通过将其他外部数据源的电影数据导入本地的电影数据库,可以丰富本地电影数据库所包含的数据内容。
在本发明实施例中,候选条目可以是指该条目的基本属性中至少有一个属性的属性值与待导入条目对应的基本属性的属性值相同。
例如,对于某条电影条目,其包含的一个基本属性为影片名称,则候选条目可以是从本地数据库中提取出的同样包含该影片名称这一基本属性的条目。
当然,对于同一条待导入条目,在本地数据库中提取出的候选条目可以包括多条,本实施例对候选条目的数量不作限定。
需要说明的是,候选条目与待导入条目的类型可以是不同的。例如,若待导入条目为电影条目,则候选条目可以包括电影条目、电视剧条目,或者,影人条目等等。
步骤204,确定所述候选条目的多个基本属性;
与待导入条目类似,候选条目也包括多个基本属性。例如,某条候选条目为电影条目,其包含的基本属性也可以包括影片名称、影片简介、导演列表、影人列表、上映时间、影片国家来源、影片类型、影片时长等等。
步骤205,逐个比对所述待导入条目和所述候选条目的多个基本属性,生成属性匹配结果及其置信度;
在本发明实施例中,对待导入条目与候选条目进行比对可以是指对待导入条目与候选条目之间的所有属性进行逐个比对。
例如,若待导入条目包括影片名称,影片简介,导演列表,影人列表,上映时间,影片国家来源,影片类型,影片时长等属性,则可以将上述各个属性分别与候选条目的属性逐个进行比对。
在具体实现中,可以首先确定候选条目是否具有上述属性。例如,可以首先确定候选条目是否具有影片国家来源这一属性。若候选条目具有该属性,则可以进一步对上述属性的属性值进行比较,以获得二者之间的比对结果。例如,若待导入条目的影片国家来源为英国,则可以通过确认候选条目的影片国家来源是否同样为英国,来获得二者之间的属性匹配结果及其置信度,并重复上述步骤,直到将所有属性均比对完。
在本发明实施例中,属性匹配结果的置信度可以用于说明该匹配结果的可信程度。通常,置信度越高,该属性匹配结果的可信度也越高;反之,置信度越低,则说明该属性匹配结果的可信度也越低。
在确定属性匹配结果的置信度时,可以首先确定确定该属性匹配结果是否冲突。
在本发明实施例中,对于某一基本属性,若待导入条目或候选条目之一包含该基本属性,或者,待导入条目和候选条目均包含上述基本属性且该基本属性的属性值相同,则可以确定该属性匹配结果不冲突;若待导入条目和候选条目均包含上述基本属性且该基本属性的属性值不同,则可以确定该属性匹配结果冲突。
对于冲突的属性匹配结果,可以统计该基本属性中冲突的属性值的个数,然后根据冲突的属性值的个数确定置信度;而对于不冲突的属性匹配结果,则可以统计基本属性中未冲突的属性值的个数,然后根据未冲突的属性值的个数确定置信度。
例如,对于影人列表属性,若属性匹配结果冲突,则可以以冲突的影人数量占全体影人数量的比值来确定置信度;若属性结果不冲突,则可以以不冲突(即相同)的影人数量占全体影人数量的比值来确定置信度。
当然,以上确定属性匹配结果的置信度的方式只是一种示例,本领域技术人员还可以采用其他方式来确定属性匹配结果的置信度,本实施例对此不作限定。
步骤206,识别所述属性匹配结果及其置信度,以确定匹配条目;
在本发明实施例中,在获得每个属性的属性匹配结果及其置信度后,可以再次对每个属性的属性匹配结果及其置信度进行识别,并根据识别结果得到最终的匹配条目。
在具体实现中,可以首先基于人工经验,设置多个不同的识别规则,通过判断每个属性的属性匹配结果是否满足上述识别规则,来确定最终的匹配条目。即,通过识别属性匹配结果及其置信度是否满足预设规则,若是,则可以确定该属性匹配结果对应的待导入条目为匹配条目。
如果通过上述识别规则进行识别后,该条目是否属于匹配条目存疑,则可以采用预设模型对上述属性匹配结果及其置信度进行识别,获得模型识别结果,然后根据模型识别结果确定匹配条目。
在本发明实施例中,可以通过机器学习算法,如决策树及其衍生算法(随机森林,梯度提升决策树GBDT等等)对已有的数据进行模型训练,从而构建出一个识别模型,由该识别模型对上述的属性匹配结果进行匹配判断,并输出一个带有置信度的匹配结果,然后以此确定最终的匹配条目。
在本发明实施例中,上述获得模型识别结果可以包括匹配符合结果或匹配存疑结果,对于匹配符合结果,可以将该匹配符合结果对应的待导入条目确定为匹配条目;而对于匹配存疑结果,则可以将该匹配存疑结果对应的待导入条目存储至存疑数据库,后续由人工对该条目进行审核处理。
需要说明的是,在得到最终的匹配条目时,如果匹配条目包括多条,则可以根据置信度的高低来确定究竟应该导入哪一条匹配条目。一般地,可以将置信度最高的条目作为匹配条目导入本地数据库中。
步骤207,将所述匹配条目导入所述本地数据库。
在本发明实施例中,在得到最终的匹配条目后,可以将该匹配条目导入本地数据库。
在具体实现中,可以按照匹配条目与候选条目之间对应的属性来导入上述匹配条目。例如,将待导入条目的导演列表属性中的属性值导入对应的候选条目的导演列表属性中,将待导入条目的演员列表属性中的属性值导入对应的候选条目的演员列表属性中。
在本发明实施例中,通过接收待导入条目并根据上述待导入条目从本地数据库中获取候选条目,可以对待导入条目和候选条目的基本属性进行逐个比对,并得到包括属性匹配结果及其置信度的比对结果,在对属性匹配结果及其置信度进行识别后,可以获得最终的匹配条目并导入本地数据库,解决了现有技术中导入外部数据源时无法对存在缺失值和脏数据的数据进行处理的问题,简化了数据处理的过程,增加了能够获取确切匹配结果的条目数量,提高了数据导入的覆盖面。
为了便于理解,下面以一个完整的示例,对本发明的数据导入的方法作一介绍。
如图3所示,是本发明一个实施例的一种数据导入的方法的处理流程示意图。在图3中,当接收到待导入条目后,可以首先对该待导入条目做归一化处理,得到归一化处理后的条目。然后,根据待导入条目的基本属性,可以从本地数据库中提取出候选条目,并组合成候选条目集合。
对于候选条目集合中的任意一条候选条目,可以通过将待导入条目的全部基本属性与该候选条目的全部基本属性进行逐个比对,得到属性比对结果及其置信度,再对属性比对结果及其置信度进行识别。
在识别属性比对结果及其置信度时,可以首先基于人工经验,设置多个不同的识别规则,判断上述属性比对结果是否满足该规则。如果满足,则可以认为属性比对结果对应的待导入条目与候选条目匹配,从而可以加入匹配条目集合中;如果在识别属性比对结果是否满足该规则时存疑,则可以利用预设的识别模型再次进行识别,并得到一个带有置信度的模型识别结果。如果该模型识别结果为匹配符合结果,则可以将对应的待导入条目加入匹配条目集合中;如果该模型识别结果为匹配不符合结果,则可以将对应的待导入条目加入存疑数据库,后续由人工对该条目进行审核处理。
在完成对上述候选条目的处理后,可以再次对候选条目集合中的下一条候选条目进行处理,直到完成对全部候选条目的处理。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图4,示出了本发明一个实施例的一种数据导入的装置的示意性结构框图,具体可以包括如下模块:
接收模块401,用于接收待导入的数据,所述待导入的数据包括待导入条目;
获取模块402,用于根据所述待导入条目,获取本地数据库中的候选条目;
比对模块403,用于对所述待导入条目与所述候选条目进行比对,获得比对结果,所述比对结果可以包括属性匹配结果及其置信度;
识别模块404,用于识别所述属性匹配结果及其置信度,以确定匹配条目;
导入模块405,用于将所述匹配条目导入所述本地数据库。
在本发明实施例中,所述获取模块402具体可以包括如下子模块:
第一基本属性确定子模块,用于确定所述待导入条目的多个基本属性;
候选条目提取子模块,用于提取本地数据库中包含所述待导入条目的至少一个基本属性的候选条目。
在本发明实施例中,所述比对模块403具体可以包括如下子模块:
第二基本属性确定子模块,用于确定所述候选条目的多个基本属性;
基本属性比对子模块,用于逐个比对所述待导入条目和所述候选条目的多个基本属性,生成属性匹配结果及其置信度。
在本发明实施例中,所述属性匹配结果的置信度通过调用如下模块确定:
冲突确定模块,用于确定所述属性匹配结果是否冲突;
第一置信度确定模块,用于若是,则统计所述基本属性中冲突的属性值的个数,根据所述冲突的属性值的个数确定置信度;
第二置信度确定模块,用于若否,则统计所述基本属性中未冲突的属性值的个数,根据所述未冲突的属性值的个数确定置信度。
在本发明实施例中,所述冲突确定模块具体可以包括如下子模块:
第一冲突确定子模块,用于若所述待导入条目或所述候选条目之一包含所述基本属性,或者,所述待导入条目和所述候选条目均包含所述基本属性且所述基本属性的属性值相同,则确定所述属性匹配结果不冲突;
第二冲突确定子模块,用于若所述待导入条目和所述候选条目均包含所述基本属性且所述基本属性的属性值不同,则确定所述属性匹配结果冲突。
在本发明实施例中,所述识别模块404具体可以包括如下子模块:
预设规则识别子模块,用于识别所述属性匹配结果及其置信度是否满足预设规则;
匹配条目确定子模块,用于若是,则确定所述属性匹配结果对应的待导入条目为匹配条目;
模型识别子模块,用于若否,则采用预设模型对所述属性匹配结果及其置信度进行识别,获得模型识别结果,根据所述模型识别结果确定匹配条目。
在本发明实施例中,所述获得模型识别结果可以包括匹配符合结果或匹配存疑结果,所述模型识别子模块具体可以包括如下单元:
匹配条目确定单元,用于将所述匹配符合结果对应的待导入条目确定为匹配条目;
待导入条目存储单元,用于将所述匹配存疑结果对应的待导入条目存储至存疑数据库。
本发明实施例公开了一种数据导入的装置,包括:
处理器;以及,
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行上述的数据导入的方法。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本发明实施例公开了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述的数据导入的方法。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种数据导入的方法、一种数据导入的装置和一种存储介质,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种数据导入的方法,其特征在于,包括:
接收待导入的数据,所述待导入的数据包括待导入条目;
根据所述待导入条目,获取本地数据库中的候选条目;所述候选条目的类型与所述待导入条目的类型为相同类型或不相同类型;
对所述待导入条目与所述候选条目进行比对,获得比对结果,所述比对结果包括属性匹配结果及其置信度;
识别所述属性匹配结果及其置信度,以确定匹配条目;
将所述匹配条目导入所述本地数据库;
所述根据所述待导入条目,获取本地数据库中的候选条目的步骤包括:
确定所述待导入条目的多个基本属性;
提取本地数据库中包含所述待导入条目的至少一个基本属性的候选条目;
所述识别所述属性匹配结果及其置信度,以确定匹配条目的步骤包括:
识别所述属性匹配结果及其置信度是否满足预设规则;
若是,则确定所述属性匹配结果对应的待导入条目为匹配条目;
若否,则采用预设模型对所述属性匹配结果及其置信度进行识别,获得模型识别结果,根据所述模型识别结果确定匹配条目。
2.根据权利要求1所述的方法,其特征在于,所述对所述待导入条目与所述候选条目进行比对,获得比对结果的步骤包括:
确定所述候选条目的多个基本属性;
逐个比对所述待导入条目和所述候选条目的多个基本属性,生成属性匹配结果及其置信度。
3.根据权利要求2所述的方法,其特征在于,所述属性匹配结果的置信度通过如下方式确定:
确定所述属性匹配结果是否冲突;
若是,则统计所述基本属性中冲突的属性值的个数,根据所述冲突的属性值的个数确定置信度;
若否,则统计所述基本属性中未冲突的属性值的个数,根据所述未冲突的属性值的个数确定置信度。
4.根据权利要求3所述的方法,其特征在于,所述确定所述属性匹配结果是否冲突的步骤包括:
若所述待导入条目或所述候选条目之一包含所述基本属性,或者,所述待导入条目和所述候选条目均包含所述基本属性且所述基本属性的属性值相同,则确定所述属性匹配结果不冲突;
若所述待导入条目和所述候选条目均包含所述基本属性且所述基本属性的属性值不同,则确定所述属性匹配结果冲突。
5.根据权利要求1所述的方法,其特征在于,所述获得模型识别结果包括匹配符合结果或匹配存疑结果,所述根据所述模型识别结果确定匹配条目的步骤包括:
将所述匹配符合结果对应的待导入条目确定为匹配条目;
将所述匹配存疑结果对应的待导入条目存储至存疑数据库。
6.一种数据导入的装置,其特征在于,包括:
接收模块,用于接收待导入的数据,所述待导入的数据包括待导入条目;
获取模块,用于根据所述待导入条目,获取本地数据库中的候选条目;所述候选条目的类型与所述待导入条目的类型为相同类型或不相同类型;
比对模块,用于对所述待导入条目与所述候选条目进行比对,获得比对结果,所述比对结果包括属性匹配结果及其置信度;
识别模块,用于识别所述属性匹配结果及其置信度,以确定匹配条目;
导入模块,用于将所述匹配条目导入所述本地数据库;
所述获取模块还包括:
第一基本属性确定子模块,用于确定所述待导入条目的多个基本属性;
候选条目提取子模块,用于提取本地数据库中包含所述待导入条目的至少一个基本属性的候选条目;
所述识别模块还包括:
预设规则识别子模块,用于识别所述属性匹配结果及其置信度是否满足预设规则;
匹配条目确定子模块,用于若是,则确定所述属性匹配结果对应的待导入条目为匹配条目;
模型识别子模块,用于若否,则采用预设模型对所述属性匹配结果及其置信度进行识别,获得模型识别结果,根据所述模型识别结果确定匹配条目。
7.一种数据导入的装置,其特征在于,包括:
处理器;以及,
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行如权利要求1-5中任一项所述的数据导入的方法。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-5中任一项所述的数据导入的方法。
CN201810776632.5A 2018-07-12 2018-07-12 一种数据导入的方法、装置和存储介质 Active CN109002528B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810776632.5A CN109002528B (zh) 2018-07-12 2018-07-12 一种数据导入的方法、装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810776632.5A CN109002528B (zh) 2018-07-12 2018-07-12 一种数据导入的方法、装置和存储介质

Publications (2)

Publication Number Publication Date
CN109002528A CN109002528A (zh) 2018-12-14
CN109002528B true CN109002528B (zh) 2021-03-26

Family

ID=64599081

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810776632.5A Active CN109002528B (zh) 2018-07-12 2018-07-12 一种数据导入的方法、装置和存储介质

Country Status (1)

Country Link
CN (1) CN109002528B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111444170B (zh) * 2018-12-28 2023-10-03 第四范式(北京)技术有限公司 基于预测业务场景的自动机器学习方法和设备
CN112328633A (zh) * 2020-10-16 2021-02-05 安徽精益测绘有限公司 一种数据库建设用测量数据属性智能化匹配与识别模块

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105989080A (zh) * 2015-02-11 2016-10-05 富士通株式会社 确定实体属性值的装置和方法
CN107748799A (zh) * 2017-11-08 2018-03-02 四川长虹电器股份有限公司 一种多数据源影视数据实体对齐的方法
CN108038183A (zh) * 2017-12-08 2018-05-15 北京百度网讯科技有限公司 结构化实体收录方法、装置、服务器和存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10218654B2 (en) * 2015-09-29 2019-02-26 International Business Machines Corporation Confidence score-based smart email attachment saver

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105989080A (zh) * 2015-02-11 2016-10-05 富士通株式会社 确定实体属性值的装置和方法
CN107748799A (zh) * 2017-11-08 2018-03-02 四川长虹电器股份有限公司 一种多数据源影视数据实体对齐的方法
CN108038183A (zh) * 2017-12-08 2018-05-15 北京百度网讯科技有限公司 结构化实体收录方法、装置、服务器和存储介质

Also Published As

Publication number Publication date
CN109002528A (zh) 2018-12-14

Similar Documents

Publication Publication Date Title
US10824874B2 (en) Method and apparatus for processing video
CN108268619B (zh) 内容推荐方法及装置
US9230218B2 (en) Systems and methods for recognizing ambiguity in metadata
US10198442B2 (en) Media consumption history
US8352455B2 (en) Processing a content item with regard to an event and a location
CN108280114B (zh) 一种基于深度学习的用户文献阅读兴趣分析方法
US8577938B2 (en) Data mapping acceleration
CN107180093B (zh) 信息搜索方法及装置和时效性查询词识别方法及装置
CN110019943B (zh) 视频推荐方法、装置、电子设备和存储介质
WO2023273686A1 (zh) 一种信息搜索方法、装置、计算机设备及存储介质
CN110309251B (zh) 文本数据的处理方法、装置和计算机可读存储介质
CN109325146B (zh) 一种视频推荐方法、装置、存储介质和服务器
CN110110325B (zh) 一种重复案件查找方法和装置、计算机可读存储介质
US11562262B2 (en) Model variable candidate generation device and method
CN109299235B (zh) 知识库搜索方法、装置及计算机可读存储介质
CN107368489B (zh) 一种资讯数据处理方法及装置
CN113256383B (zh) 保险产品的推荐方法、装置、电子设备及存储介质
CN109002528B (zh) 一种数据导入的方法、装置和存储介质
CN111010592A (zh) 一种视频推荐方法、装置、电子设备及存储介质
CN110990523A (zh) 一种法律文书的确定方法及系统
CN116739626A (zh) 商品数据挖掘处理方法、装置、电子设备及可读介质
WO2015074493A1 (zh) 一种低频点击的过滤方法、装置、计算机程序以及计算机可读介质
US20220321963A1 (en) Method and apparatus for video recommendation, and refrigerator with screen
CN113254665A (zh) 一种知识图谱扩充方法、装置、电子设备及存储介质
CN114139547B (zh) 知识融合方法、装置、设备、系统及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant