CN104714950A - 用于对数据库中的信息进行修正及补充的方法及系统 - Google Patents

用于对数据库中的信息进行修正及补充的方法及系统 Download PDF

Info

Publication number
CN104714950A
CN104714950A CN201310677222.2A CN201310677222A CN104714950A CN 104714950 A CN104714950 A CN 104714950A CN 201310677222 A CN201310677222 A CN 201310677222A CN 104714950 A CN104714950 A CN 104714950A
Authority
CN
China
Prior art keywords
database
information
information entry
field
internet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310677222.2A
Other languages
English (en)
Other versions
CN104714950B (zh
Inventor
冯兴
周继恩
刘军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Unionpay Co Ltd
Original Assignee
China Unionpay Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Unionpay Co Ltd filed Critical China Unionpay Co Ltd
Priority to CN201310677222.2A priority Critical patent/CN104714950B/zh
Publication of CN104714950A publication Critical patent/CN104714950A/zh
Application granted granted Critical
Publication of CN104714950B publication Critical patent/CN104714950B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种用于对数据库中的信息进行修正及补充的方法,每个数据库信息条目与一个对象相关,所述方法包括:从预先选定的目标网站将与所述数据库中的信息相关的网页页面爬取到本地;从所述网页页面中提取与所述对象相关的互联网信息;将所述数据库中的信息与所述互联网信息进行匹配;以及根据所述匹配的结果对所述数据库中的信息进行修正及补充。另一方面,本发明还提供了一种能够执行上述方法的系统。

Description

用于对数据库中的信息进行修正及补充的方法及系统
技术领域
本发明一般地涉及信息处理技术领域,并且具体地涉及一种用于对数据库中的信息进行修正及补充的方法及系统。
背景技术
随着计算机技术的日益普及,各式各样的信息越来越多地以数据库的形式被电子化地进行存储或归档。对于一些数据库而言,其信息通常唯一地来源于与信息关联的主体对象,例如由主体对象向系统输入信息,或者由第三方向系统输入采集自主体对象的信息。在这种情况下,往往会存在各种缺陷,例如信息不完整或不准确,最终导致当数据库信息被使用时产生错误或无法得到所希望的结果。
在银行系统中,交易收单结构一般地可以通过银行卡联合组织的商户管理系统进行商户信息注册。因为在注册过程中的疏忽或信息过期等原因,该管理系统中登记的商户信息经常会出现缺失和不准确。例如商户固定电话号码或地址缺失,或者由于商户搬迁而导致原先注册的固定电话或地址信息失效。另一方面,原始提交的商户信息本身也可能是不准确的,例如地址信息中存在错别字或者固定电话号码格式不对或是无效的号码。另外,在目前的商户管理系统中登记的都是工商注册名,有时从工商注册名上很难确定商户分类。对于一些异地收单的商户或临时商户,就更难确定其信息的准确性和有效性。同样地,对于一些产品管理数据库也存在类似的问题。
传统的信息完善集中在信息校对方法上,通常利用规则对数据库中的数据格式进行限定。这能在数据格式上保证数据的完整性,但在智能识别数据的准确性等方面无能为力。例如,对固定电话号码设定规则,必须为7-8位的数字。但是在信息管理系统进行输入时,随便输入7个9就可以绕过规则。或者在输入的过程中不小心将某一位由3输成了4,这都是规则方式无法检测出来的。若需要对数据库中的对象进行类别检查,规则式的方法可能根据对象名称中是否有特征词来检查。这种方法错误率较高,因为特征词通常是人为总结出来,容易有遗漏或者导致错误归类。
总的来说,现有方法大多局限于被检查的信息本身,无法有效地解决类似商户管理系统的数据库所面临的问题。
发明内容
鉴于上述情况,本发明旨在提供有效准确的数据库信息完善方法以及系统。
具体地,本发明提供了一种用于对数据库中的信息进行修正及补充的方法,在所述数据库中每个数据库信息条目与一个对象相关,所述方法包括:所述方法包括:从预先选定的目标网站将与所述数据库中的信息相关的网页页面爬取到本地;从所述网页页面中提取与所述对象相关的互联网信息;将所述数据库中的信息与所述互联网信息进行匹配;以及根据所述匹配的结果对所述数据库中的信息进行修正及补充。
根据本发明的一些实施例,每个所述数据库信息条目包括至少一个精确标识字段和至少一个模糊标识字段;并且从网页页面提取互联网信息包括:从所述网页页面提取与所述对象相关的特征字段并且按对象将所述特征字段存储为互联网信息条目,其中所述特征字段包括所述至少一个精确标识字段和所述至少一个模糊标识字段。
根据本发明的一些实施例,所述匹配包括:将每个数据库信息条目中的所述至少一个精确标识字段与所有所述互联网信息条目中的所述至少一个精确标识字段进行匹配;当对于该数据库信息条目存在精确标识字段相同的互联网信息条目时,计算该数据库信息条目中的所述至少一个模糊标识字段与所有精确标识字段相同的互联网信息条目中的所述至少一个模糊标识字段的相似度;以及将所述相似度最高并且超过相似度预定阈值的互联网信息条目确定为与该数据库信息条目匹配的互联网信息条目;并且所述方法还包括根据该匹配的互联网信息条目对该数据库信息条目进行修正及补充。
根据本发明的一些实施例,所述匹配还包括:当对于所述数据库信息条目不存在精确标识字段相同的互联网信息条目时,将该数据库信息条目中的两个或更多个模糊标识字段合并为第一匹配字段;计算该第一匹配字段与由每个互联网信息条目中对应的模糊标识字段同样地构成的第二匹配字段的相似度;以及将相似度最高并且超过相似度预定阈值的互联网信息条目确定为与所述数据库信息条目匹配的互联网信息条目;并且所述方法还包括根据该匹配的互联网信息条目对所述对象的数据库信息条目进行修正及补充。
根据本发明的一些实施例,对所述数据库中的信息进行修正及补充包括在数据库信息条目中的所述至少一个精确标识字段为空时将所述与其匹配的互联网信息条目中的所述至少一个精确标识字段信息填入该数据库信息条目中。
根据本发明的一些实施例,对所述数据库中的信息进行修正及补充包括从未匹配的互联网信息条目中选择数据库中尚未包含的对象,并且根据所选定对象的互联网信息条目为该对象在所述数据库中创建相应的数据库信息条目。
根据本发明的一些实施例,所述互联网信息条目还包括数据库信息条目所没有的其他信息字段,并且对所述数据库中的信息进行修改及补充包括将与数据库信息条目匹配的互联网信息条目中的所述其他信息字段添加到该数据库信息条目中。
根据本发明的一些实施例,每个对象在数据库中被标识为一种数据库类别,所述方法还包括:在匹配完成之后,确定每种数据库类别的对象在匹配的互联网信息中被标识的互联网类别;计算该数据库类别的对象被标识为每种互联网类别的概率;以及对于所述概率小于预定阈值的、数据库类别与互联网类别的匹配,将相应的数据库信息条目判断为分类错误。
根据本发明的一些实施例,所述对象为商户,并且所述至少一个精确标识字段包括商户的通信号码,而所述至少一个模糊标识字段包括商户名称以及商户地址。
根据本发明的一些实施例,所述对象为产品,并且所述至少一个精确标识字段包括产品的型号,而所述至少一个模糊标识字段包括产品名称以及产品描述。
根据本发明的一些实施例,从预先选定的目标网站爬取网页页面包括使用针对不同的目标网站定制的网页爬取器。
另一方面,本发明还提供了一种用于对数据库中的信息进行修正及补充的系统,在所述数据库中每个数据库信息条目与一个主体对象相关联,所述系统包括:页面爬取模块,其被配置用于从预先选定的目标网站将与所述数据库中的信息相关的网页页面爬取到本地;信息提取模块,其被配置用于从所述网页页面中提取与所述对象相关的互联网信息;信息匹配模块,其被配置用于将所述数据库中的信息与所述互联网信息进行匹配;以及修正补充模块,其被配置用于根据所述匹配的结果对所述数据库中的信息进行修正及补充。
根据本发明的一些实施例,所述页面爬取模块包括针对不同的目标网站定制的网页爬取器。
本发明给出了一种利用互联网对数据库中的信息进行完善的方法,既能够发现已有信息的错误也可以利用外部数据来进行修复和补充。借助于来自互联网的信息,可以更为准确且及时地对本地维护的相对封闭的数据库进行更新。本发明所提供的方法及系统具有显著降低人力成本、易于实现以及准确高效的特点。
附图说明
本发明的前述和其他目标、特征和优点根据下面对本发明的实施例的更具体的说明将是显而易见的,这些实施例在附图中被示意。
图1示意性地示出了根据本发明的第一实施例的方法的流程图。
图2示意性地示出了根据本发明的第二实施例的方法的流程图。
图3示意性地示出了根据本发明的一个实施例的系统的框图。
具体实施方式
以下结合附图和具体实施方式进一步详细说明本发明。需要说明的是,附图中的各结构只是示意性说明,用以使本领域普通技术人员最佳地理解本发明的原理,其不一定按比例绘制。
图1示意性地示出了根据本发明的第一实施例的方法的流程图。本发明所提供的用于对数据库中的信息进行修正及补充的方法或系统一般地适用于其中每个数据库信息条目与一个对象相关地存储的数据库。进一步地,每个数据库信息条目可以包括至少一个精确标识字段以及至少一个模糊标识字段,其中精确标识字段一般可以广泛地具有统一的构造并且通常由数字和字符构成。相对地,模糊标识字段的组成通常没有一定的规范并且内容也较为随机。
以银行卡联合组织的商户管理系统为例,在其数据库中为每个注册商户构建一个商户信息条目,每个商户信息条目至少可以包括精确标识字段和模糊标识字段两类字段,其中精确标识字段可以例如包括商户的通信号码字段,而模糊标识字段可以例如包括商户名称、商户地址等字段。商户的通信号码字段可以例如是用于存储固定电话的字段、用于存储手机号的字段、用于存储传真号的字段等等。这些信息通常由各个商户在向该系统进行注册时提供,而后续很难再对其中的信息进行有效地更新和补充。在实践中,可能可以通过人工查找及添加的方式来对数据库中的信息进行修正,然而这一般来说都费时费力。
以一些产品管理数据库为例,在其数据库中为每个登记的产品构建一个产品信息条目,每个产品信息条目也可以至少包括精确标识字段和模糊标识字段两类字段,其中精确标识字段可以例如包括产品型号字段,而模糊标识字段可以例如包括产品名称、产品描述等字段。
如图1所示,为了对上述数据库中的信息进行修正及补充,首先在步骤S101中从预先选定的目标网站将与所述数据库中的信息相关的网页页面爬取到本地。不同数据库中的信息通常侧重点各不相同,并且互联网上的网站也各式各样。因此,可以预先从众多网站中选定与需要修正及补充的数据库中所包含的信息最为相关的网站。对于记录商户信息或产品信息的数据库,所述目标网站例如可以是活跃度较高的网络交易平台,例如天猫、大众点评等。在这样的网络交易平台上,商户一般会较准确地登记其信息并且会较及时地进行更新。
一般地,可以利用网页爬取器从选定的目标网站提取具有相关信息的网页页面。目前的网页爬取器通常根据网站的统一资源定位符URL来进行爬取。本领域的技术人员应理解的是,在本发明的实施例中可以应用已有的或待开发的任何种类的网页爬取器。在本发明的优选实施例中,可以使用针对不同的目标网站定制的网页爬取器,例如根据各个目标网站的导航页的特征进行爬取。网页爬取器爬取回的网页可以包括各种格式,例如,抓取下来网页包括各种格式,包括html、图片、doc、pdf、多媒体、动态网页及其它格式等,需要进一步把这些文件中的文本信息提取出来。
因此,接着在步骤S102中从所述网页页面中提取与所述对象相关的互联网信息。这样的互联网信息所涵盖的信息范围可以大于数据库所覆盖的信息范围,也就是说可以包括数据库中已有的对象的信息,同时也可以包括数据库中还没有的对象的信息。
如前所述,数据库中的每个数据库信息条目可以包括至少一个精确标识字段和至少一个模糊标识字段。相应地,从网页页面提取互联网信息可以包括:从各个网页页面提取与数据库的对象相关的特征字段并且按对象将所述特征字段存储为互联网信息条目。例如,对于html格式的网页页面,可以根据所关心的字段所处的HTML页面的标签结构提取相对应的字段文本,从其中提取出与数据库信息条目中的对应的至少一个精确标识字段和至少一个模糊标识字段,由此可以对数据库中已有的信息进行匹配及修正。另一方面,还可以从网页页面中提取其他信息字段,这些其他信息字段是数据库信息条目所没有的,可以被用来对数据库中的内容进行补充。在这个实施例中,这些互联网信息条目可以被统称为互联网信息。
举例来说,所爬取的网页页面是来自某个网络交易平台的商户页面,该商户页面以html格式被爬取并且在该页面上包含商户名称、商户固定电话、商户地址以及其他一些信息,诸如商户的服务态度、商品销量、发货速度。可以将这些字段组合在一起形成一个商户的互联网信息条目。同样地,对于产品页面,可以从中爬取产品型号、产品名称、产品描述等信息,并且将这些特征字段组合成一个产品的互联网信息条目。
进而,在步骤S103处,将数据库中的信息与互联网信息进行匹配。在互联网信息被存储为各个互联网信息条目并且在该互联网信息条目中包含与数据库信息条目相应的字段,例如上面所描述的至少一个精确标识字段和至少一个模糊标识字段时,这种匹配可以包括:将每个数据库信息条目中的至少一个精确标识字段与所有提取的互联网信息条目中对应的至少一个精确标识字段进行比较。当对于该数据库信息条目存在精确标识字段相同的互联网信息条目时,进一步计算该数据库信息条目中的至少一个模糊标识字段与所有精确标识字段相同的互联网信息条目中对应的精确标识字段的相似度,并且将该相似度最高并且超过相似度预定阈值的互联网信息条目确定为匹配的互联网信息条目。
以商户信息数据库为例,在所述至少一个精确标识字段为商户固定电话时,将数据库信息条目中存储的商户固定电话字段与所提取的所有互联网信息条目中存储商户固定电话的字段一一比对。对于同一数据库信息条目,可能存在若干个商户固定电话字段与其相同的互联网信息条目。因此,还需要对进一步比对两者的模糊标识字段,例如商户名称字段或商户地址字段。如上所述,可以计算数据库信息条目中的商户名称字段与固定电话相同的每个互联网信息条目中的商户名称字段的相似度。最后,从其中排除相似度小于预定阈值的互联网信息条目,并且将剩下的互联网信息条目中商户名称相似度最高的一个确定为与该数据库信息条目匹配的互联网信息条目。
就模糊标识字段的相似度计算而言,可以例如利用向量空间模型方法,将待匹配字段中所包含的文本内容转化为数值向量,并且计算两个向量的夹角,该夹角即为相似度的度量。本领域的技术人员应容易地理解,字段文本的相似度可以使用本领域已知及待开发的任何模型来计算。
进一步地,当对于一个数据库信息条目不存在精确标识字段相同的互联网信息条目时,将该数据库信息条目中的两个或更多个模糊标识字段合并为第一匹配字段,并且计算该第一匹配字段与由每个互联网信息条目中对应的模糊标识字段同样地构成的第二匹配字段的相似度。从其中排除相似度小于预定阈值的互联网信息条目,并且将剩下的互联网信息条目中与来自数据库信息条目的第一匹配字段的相似度最高的一个确定为与该数据库信息条目匹配的互联网信息条目。应容易地理解,在这种情况下,数据库信息条目可以至少包括两个或两个以上的模糊标识字段。
以商户信息为例,数据库信息条目中的模糊标识字段可以包括商户名称字段和商户地址字段两者。可以将商户名称字段与商户地址字段组合成一个匹配字段,在此可以为称为第一匹配字段。相应地,可以将每个互联网信息条目中的商户名称与商户地址两个字段组合成一个结构相同的字段,在此可以被称为第二匹配字段。由此,通过计算来自一个数据库信息条目的该第一匹配字段与来自每个互联网信息条目的该第二匹配字段的相似度来确定匹配的互联网信息条目。第一匹配字段与第二匹配字段之间的相似度也可以应用上文所描述的向量空间模型方法或本领域已知及待开发的任何模型来计算。
在从互联网信息中找到与数据库中的信息相匹配的内容之后,可以在步骤S104处根据匹配结果对数据库中的信息进行修正及补充。
在如上所述的那样将互联网信息条目与数据库信息条目进行匹配的情况下,可以在数据库信息条目中的所述至少一个精确标识字段为空时将与其匹配的互联网信息条目中的对应的精确标识字段信息填入该数据库信息条目中。例如,当数据库中的商户信息条目中不包含商户的固定电话时可以将相匹配的互联网信息条目中包含的商户固定电话填充到商户数据库中。对于诸如固定电话、传真号等通信号码信息,当数据库信息条目中的和预期匹配的互联网信息条目中的不同时,还可以通过人工的方式进行核实。
如在上文中所描述的那样,互联网信息中还可以包含一些数据库中所没有的内容。在本发明的另一些实施例中,可以将这些数据库中所没有的内容从所匹配的互联网信息补充到数据库中。例如,所述互联网信息条目还可以包括数据库信息条目所没有的其他信息字段。因此,可以将这些其他信息字段添加到数据库信息条目中。例如对于商户而言,可以将互联网信息条目中的与“商品销量”、“服务态度”等信息对应的字段添加到数据库信息条目中。对于产品而言,可以将互联网信息条目中的与“价格”、“欢迎度”、“销量”等信息对应的字段添加到数据库信息条目中。
另外,还可以从未匹配的互联网信息条目中选择数据库中尚未包含的对象,并且根据所选定对象的互联网信息条目为该对象在所述数据库中创建相应的数据库信息条目。例如有些商户尚未注册,因此在数据库中没有相关的信息。因此,可以通过从互联网获取的商户信息对数据库进行补充。例如可以根据互联网信息条目中用于描述对象特征的字段来判断该对象是否适合被添加到数据库。
图2示意性地示出了根据本发明的第二实施例的方法的流程图,其中步骤S201-S203与图1中的步骤S101-S103一致。如图2所示,当匹配完成之后,将在步骤S204中根据匹配结果判断数据库中的对象分类是否正确。如上所述,本发明所提供的用于对数据库中的信息进行修正及补充的方法或系统一般地适用于其中每个数据库信息条目与一个对象相关地存储的数据库。进一步地,在数据库中可以对每个对象进行分类。以商户信息为例,商户可以被分为餐饮类、超市类等等。这种分类可能是在构建数据库时通过人工判别的或者可能是根据商户名称进行机器识别的,其准确性无法保证。因此,在本发明的一些实施例中,可以根据从互联网提取的信息来判断数据库中的对象分类是否准确。
在该实施例中,每个对象在数据库中被标识为一种数据库类别,并且在匹配的互联网信息中被标识为一种互联网类别。例如,在数据库信息条目中设置类别字段,并且在匹配的互联网信息条目中也存在相应的类别字段。进而,确定每种数据库类别的对象在匹配的互联网信息中被标识的互联网类别。如表1所示,其中第一行表示互联网类别,第一列表示数据库类别,N11表示在数据库中被标识为类别a的对象在互联网信息中被标识为类别A的数量,N12表示在数据库中被标识为类别a的对象在互联网信息中被标识为类别B的数量,依次类推。因此,数据库类别a的对象被标识为互联网类别A的概率                                               可以被计算为         。
在本发明的一些实施例中,可以设定概率阈值,并且对于概率小于阈值的、数据库类别与互联网类别的匹配,将相应的数据库信息条目判断为分类错误。例如,如果数据库类别a的对象在互联网信息中被标识为类别B的概率小于阈值,则将该对象的数据库信息条目判断为分类错误。
图3示意性地示出了根据本发明的一个实施例的、用于对数据库中的信息进行修正及补充的系统300的结构框图。如上所述,本发明所提供的用于对数据库中的信息进行修正及补充的方法或系统一般地适用于其中每个数据库信息条目与一个对象相关地存储的数据库。
如图3所示,该系统可以包括:页面爬取模块301,其被配置用于从预先选定的目标网站将与数据库中的信息相关的网页页面爬取到本地。在本发明的优选实施例中,该页面爬取模块可以包括针对不同的目标网站定制的网页爬取器。信息提取模块302,其被配置用于从所述网页页面中提取与所述对象相关的互联网信息。信息匹配模块303,其被配置用于将所述数据库中的信息与所述互联网信息进行匹配。修正补充模块304,其被配置用于根据所述匹配的结果对所述数据库中的信息进行修正及补充。
根据本发明的各个实施例所提供的用于对数据库中的信息进行修正及补充的系统能够对应地被用于实现根据本发明的各个实施例所提供的用于对数据库中的信息进行修正及补充的方法。本领域的技术人员应理解的是,所述系统可以按任意方式来划分其装置组成,只要其作为整体能够执行本发明的实施例所提供的方法。进一步地,本领域的技术人员还应理解,所述系统能够作为单独的部件被实现,也能够被并入已有的数据库管理系统中。
本发明的一些实施方式可以用软件、硬件或者任何软件和/或硬件的组合来实现。本发明的实施例可以包括单元和/或子单元,所述单元和/或子单元可以是相互分开的或者全部或部分地组合在一起的、并且可以使用特定的、多目的的或通用的处理器或者控制器、或者现有技术中已知的设备实现。本发明的一些实施方式可以包括用于数据暂时或长期存储或者为了便于特定实施方式的操作的缓冲器、寄存器、堆栈、存储单元和/或存储器单元。并且,本发明的各个实施例可以任意方式合并、组合及替换。
应当说明的是,以上具体实施方式仅用以说明本发明的技术方案而非对其进行限制。尽管参照上述具体实施方式对本发明进行了详细的说明,本领域的普通技术人员应当理解,依然可以对本发明的具体实施方式进行修改或对部分技术特征进行等同替换而不脱离本发明的实质,其均涵盖在本发明请求保护的范围中。

Claims (16)

1.一种用于对数据库中的信息进行修正及补充的方法,每个数据库信息条目与一个对象相关,其特征在于,所述方法包括:
从预先选定的目标网站将与所述数据库中的信息相关的网页页面爬取到本地;
从所述网页页面中提取与所述对象相关的互联网信息;
将所述数据库中的信息与所述互联网信息进行匹配;以及
根据所述匹配的结果对所述数据库中的信息进行修正及补充。
2.如权利要求1所述的方法,其特征在于,每个所述数据库信息条目包括至少一个精确标识字段和至少一个模糊标识字段;并且
从网页页面提取互联网信息包括:
从所述网页页面提取与所述对象相关的特征字段并且按对象将所述特征字段存储为互联网信息条目,其中所述特征字段包括所述至少一个精确标识字段和所述至少一个模糊标识字段。
3.如权利要求2所述的方法,其特征在于,所述匹配包括:
将每个数据库信息条目中的所述至少一个精确标识字段与所有所述互联网信息条目中的所述至少一个精确标识字段进行匹配;
当对于该数据库信息条目存在精确标识字段相同的互联网信息条目时,计算该数据库信息条目中的所述至少一个模糊标识字段与所有精确标识字段相同的互联网信息条目中的所述至少一个模糊标识字段的相似度;以及
将所述相似度最高并且超过相似度预定阈值的互联网信息条目确定为与该数据库信息条目匹配的互联网信息条目;并且
所述方法还包括根据该匹配的互联网信息条目对该数据库信息条目进行修正及补充。
4.如权利要求3所述的方法,其特征在于,所述匹配还包括:
当对于所述数据库信息条目不存在精确标识字段相同的互联网信息条目时,将该数据库信息条目中的两个或更多个模糊标识字段合并为第一匹配字段;
计算该第一匹配字段与由每个互联网信息条目中对应的模糊标识字段同样地构成的第二匹配字段的相似度;以及
将相似度最高并且超过相似度预定阈值的互联网信息条目确定为与所述数据库信息条目匹配的互联网信息条目;并且
所述方法还包括根据该匹配的互联网信息条目对所述对象的数据库信息条目进行修正及补充。
5.如权利要求4所述的方法,其特征在于,对所述数据库中的信息进行修正及补充包括在数据库信息条目中的所述至少一个精确标识字段为空时将所述与其匹配的互联网信息条目中的所述至少一个精确标识字段信息填入该数据库信息条目中。
6.如权利要求4所述的方法,其特征在于,对所述数据库中的信息进行修正及补充包括从未匹配的互联网信息条目中选择数据库中尚未包含的对象,并且根据所选定对象的互联网信息条目为该对象在所述数据库中创建相应的数据库信息条目。
7.如权利要求4所述的方法,其特征在于,所述互联网信息条目还包括数据库信息条目所没有的其他信息字段,并且对所述数据库中的信息进行修改及补充包括将与数据库信息条目匹配的互联网信息条目中的所述其他信息字段添加到该数据库信息条目中。
8.如权利要求1所述的方法,其特征在于,每个对象在数据库中被标识为一种数据库类别,所述方法还包括:在匹配完成之后,确定每种数据库类别的对象在匹配的互联网信息中被标识的互联网类别;
计算该数据库类别的对象被标识为每种互联网类别的概率;以及
对于所述概率小于预定阈值的、数据库类别与互联网类别的匹配,将相应的数据库信息条目判断为分类错误。
9.如权利要求2所述的方法,其特征在于,所述对象为商户,并且所述至少一个精确标识字段包括商户的通信号码,而所述至少一个模糊标识字段包括商户名称以及商户地址。
10.如权利要求2所述的方法,其特征在于,所述对象为产品,并且所述至少一个精确标识字段包括产品的型号,而所述至少一个模糊标识字段包括产品名称以及产品描述。
11.如权利要求1所述的方法,其特征在于,从预先选定的目标网站爬取网页页面包括使用针对不同的目标网站定制的网页爬取器。
12.一种用于对数据库中的信息进行修正及补充的系统,每个数据库信息条目与一个主体对象相关联,其特征在于,所述系统包括:
页面爬取模块,其被配置用于从预先选定的目标网站将与所述数据库中的信息相关的网页页面爬取到本地;
信息提取模块,其被配置用于从所述网页页面中提取与所述对象相关的互联网信息;
信息匹配模块,其被配置用于将所述数据库中的信息与所述互联网信息进行匹配;以及
修正补充模块,其被配置用于根据所述匹配的结果对所述数据库中的信息进行修正及补充。
13.如权利要求12所述的系统,其特征在于,所述页面爬取模块包括针对不同的目标网站定制的网页爬取器。
14.如权利要求12所述的系统,其特征在于,每个所述数据库信息条目包括至少一个精确标识字段和至少一个模糊标识字段;并且
从网页页面提取互联网信息包括:
从所述网页页面提取与所述对象相关的特征字段并且按对象将所述特征字段存储为互联网信息条目,其中所述特征字段包括所述至少一个精确标识字段和所述至少一个模糊标识字段。
15.如权利要求14所述的系统,其特征在于,所述对象为商户,并且所述至少一个精确标识字段包括商户的通信号码,而所述至少一个模糊标识字段包括商户名称以及商户地址。
16.如权利要求14所述的系统,其特征在于,所述对象为产品,并且所述至少一个精确标识字段包括产品的型号,而所述至少一个模糊标识字段包括产品名称以及产品描述。
CN201310677222.2A 2013-12-13 2013-12-13 用于对数据库中的信息进行修正及补充的方法及系统 Active CN104714950B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310677222.2A CN104714950B (zh) 2013-12-13 2013-12-13 用于对数据库中的信息进行修正及补充的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310677222.2A CN104714950B (zh) 2013-12-13 2013-12-13 用于对数据库中的信息进行修正及补充的方法及系统

Publications (2)

Publication Number Publication Date
CN104714950A true CN104714950A (zh) 2015-06-17
CN104714950B CN104714950B (zh) 2018-03-27

Family

ID=53414294

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310677222.2A Active CN104714950B (zh) 2013-12-13 2013-12-13 用于对数据库中的信息进行修正及补充的方法及系统

Country Status (1)

Country Link
CN (1) CN104714950B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105931068A (zh) * 2015-12-30 2016-09-07 中国银联股份有限公司 一种持卡人消费画像的生成方法及装置
CN106846166A (zh) * 2016-12-08 2017-06-13 北京中电普华信息技术有限公司 一种基于地址大数据分析的电力营销客户档案完善方法
CN109684533A (zh) * 2018-12-29 2019-04-26 中国银联股份有限公司 一种信息管理方法及装置
CN110807066A (zh) * 2019-10-30 2020-02-18 北京禹数技术有限公司 一种数据与模型关联的方法、装置、终端或者服务器
CN111310448A (zh) * 2020-02-10 2020-06-19 江苏满运软件科技有限公司 数据增补方法、系统、设备和存储介质
WO2020134410A1 (zh) * 2018-12-27 2020-07-02 深圳光启空间技术有限公司 一种人脸识别方法及系统
CN111506802A (zh) * 2020-03-16 2020-08-07 中国平安人寿保险股份有限公司 一种用户信息修正方法、装置、计算机设备及存储介质
CN112184164A (zh) * 2020-09-27 2021-01-05 中国建设银行股份有限公司 租赁物信息的管理方法、装置、电子设备及存储介质
CN112445862A (zh) * 2020-11-27 2021-03-05 中国科学院信息工程研究所 物联网设备数据集构建方法、装置、电子设备和存储介质
CN113672702A (zh) * 2021-08-26 2021-11-19 国家电网有限公司大数据中心 用户档案信息的完善方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1193307C (zh) * 1999-11-26 2005-03-16 计算机联合思想公司 修改数据库内容的方法
US20060173754A1 (en) * 2000-03-22 2006-08-03 Burton Peter A Methods and apparatus for on-line ordering
US20090055354A1 (en) * 2005-05-11 2009-02-26 Saeed Arad Method and Apparatus for Searching
CN103218738A (zh) * 2012-01-20 2013-07-24 北京富基融通科技有限公司 用于网络交易平台的信息处理方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1193307C (zh) * 1999-11-26 2005-03-16 计算机联合思想公司 修改数据库内容的方法
US20060173754A1 (en) * 2000-03-22 2006-08-03 Burton Peter A Methods and apparatus for on-line ordering
US20090055354A1 (en) * 2005-05-11 2009-02-26 Saeed Arad Method and Apparatus for Searching
CN103218738A (zh) * 2012-01-20 2013-07-24 北京富基融通科技有限公司 用于网络交易平台的信息处理方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
应申 等: "版本数据库中基于目标匹配的变化信息提取与数据更新", 《武汉大学学报 信息科学版》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105931068A (zh) * 2015-12-30 2016-09-07 中国银联股份有限公司 一种持卡人消费画像的生成方法及装置
CN106846166A (zh) * 2016-12-08 2017-06-13 北京中电普华信息技术有限公司 一种基于地址大数据分析的电力营销客户档案完善方法
WO2020134410A1 (zh) * 2018-12-27 2020-07-02 深圳光启空间技术有限公司 一种人脸识别方法及系统
CN109684533A (zh) * 2018-12-29 2019-04-26 中国银联股份有限公司 一种信息管理方法及装置
CN110807066B (zh) * 2019-10-30 2023-09-05 北京禹数技术有限公司 一种数据与模型关联的方法、装置、终端或者服务器
CN110807066A (zh) * 2019-10-30 2020-02-18 北京禹数技术有限公司 一种数据与模型关联的方法、装置、终端或者服务器
CN111310448A (zh) * 2020-02-10 2020-06-19 江苏满运软件科技有限公司 数据增补方法、系统、设备和存储介质
CN111310448B (zh) * 2020-02-10 2023-10-31 江苏满运软件科技有限公司 数据增补方法、系统、设备和存储介质
CN111506802A (zh) * 2020-03-16 2020-08-07 中国平安人寿保险股份有限公司 一种用户信息修正方法、装置、计算机设备及存储介质
CN112184164A (zh) * 2020-09-27 2021-01-05 中国建设银行股份有限公司 租赁物信息的管理方法、装置、电子设备及存储介质
CN112445862A (zh) * 2020-11-27 2021-03-05 中国科学院信息工程研究所 物联网设备数据集构建方法、装置、电子设备和存储介质
CN112445862B (zh) * 2020-11-27 2024-01-26 中国科学院信息工程研究所 物联网设备数据集构建方法、装置、电子设备和存储介质
CN113672702A (zh) * 2021-08-26 2021-11-19 国家电网有限公司大数据中心 用户档案信息的完善方法、装置、设备及存储介质
CN113672702B (zh) * 2021-08-26 2024-07-02 国家电网有限公司大数据中心 用户档案信息的完善方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN104714950B (zh) 2018-03-27

Similar Documents

Publication Publication Date Title
CN104714950A (zh) 用于对数据库中的信息进行修正及补充的方法及系统
CN110795482B (zh) 数据对标方法、装置、及存储装置
US10650192B2 (en) Method and device for recognizing domain named entity
CN109918560B (zh) 一种基于搜索引擎的问答方法和装置
US9318102B2 (en) Method and apparatus for correcting speech recognition error
US8639036B1 (en) Product image information extraction
US20220343062A1 (en) Table detection in spreadsheet
CN111459977B (zh) 自然语言查询的转换
US9977995B2 (en) Image clustering method, image clustering system, and image clustering server
CN112052682A (zh) 事件实体联合抽取方法、装置、计算机设备及存储介质
EP2790111A1 (en) Method and device for acquiring structured information in layout file
CN106815265B (zh) 裁判文书的搜索方法及装置
CN110502740B (zh) 问句实体识别与链接方法、装置、计算机设备及存储介质
CN105302626B (zh) Xps结构化数据的解析方法
CN112395418B (zh) 网页中的目标对象提取方法、装置、电子设备
CN111209396A (zh) 实体识别模型的训练方法及实体识别方法、相关装置
CN112633001A (zh) 文本命名实体识别方法、装置、电子设备及存储介质
US20180096021A1 (en) Methods and systems for improved search for data loss prevention
US11080808B2 (en) Automatically attaching optical character recognition data to images
CN113836272A (zh) 关键信息的展示方法、系统、计算机设备及可读存储介质
CN111597336B (zh) 训练文本的处理方法、装置、电子设备及可读存储介质
CN105608205A (zh) 结构化数据的指纹校验方法及装置
CN111310452A (zh) 一种分词方法和装置
CN114067343A (zh) 一种数据集的构建方法、模型训练方法和对应装置
CN113590792A (zh) 用户问题的处理方法、装置和服务器

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant