CN110659919A - 数据匹配方法、装置、介质及电子设备 - Google Patents

数据匹配方法、装置、介质及电子设备 Download PDF

Info

Publication number
CN110659919A
CN110659919A CN201810690040.1A CN201810690040A CN110659919A CN 110659919 A CN110659919 A CN 110659919A CN 201810690040 A CN201810690040 A CN 201810690040A CN 110659919 A CN110659919 A CN 110659919A
Authority
CN
China
Prior art keywords
data
matched
engagement
vector
vectors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810690040.1A
Other languages
English (en)
Inventor
莫迪
段益萌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201810690040.1A priority Critical patent/CN110659919A/zh
Publication of CN110659919A publication Critical patent/CN110659919A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0207Discounts or incentives, e.g. coupons or rebates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0623Item investigation

Landscapes

  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种数据匹配方法,该数据匹配方法包括:将原始数据转化成多个向量,并将所述向量存入第一集合;计算所述第一集合中每个向量与其他向量的契合度,并将所述契合度分别保存在所述每个向量对应的第二集合中;对所述第二集合中的契合度进行排序,根据排序后的结果确定待匹配数据的数据匹配结果。本发明可以解决大量数据之间数据匹配效率低下的问题,提高用户搜索的实效性。

Description

数据匹配方法、装置、介质及电子设备
技术领域
本发明涉及数据技术领域,具体而言,涉及一种数据匹配方法、装 置、介质及电子设备。
背景技术
随着互联网的普及和网络技术的发展,电子商务成为人们主要的交 易方式。
通常,借助开放平台来开展电子商务的商家在做营销活动时,只能 在自己的店铺开展,或者由平台组织。但是只有自己一家店铺的营销活 动很难对消费者产生影响,而由平台组织的营销活动时间过于局限,导 致达不到营销目的。因此,商家跨店铺自主营销的需求日益增加。目 前,商家跨店铺组织营销活动只能通过人工筛选去匹配与自己店铺契合度高的商家,无法自动化,由于平台上的商家数量非常大,人工筛选和 匹配造成了匹配效率非常低,匹配准确性不够的问题。
如何使商家自主发现与自己店铺契合度高的其他商家,达到一起组 织营销活动的目的,同时还能保证合理的信息隔离成为现在亟待解决的 问题。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本发 明的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现 有技术的信息。
发明内容
本发明实施例的目的在于提供一种数据匹配方法,进而至少在一定 程度上克服数据匹配效率低的问题。
本发明的其他特性和优点将通过下面的详细描述变得显然,或部分 地通过本发明的实践而习得。
根据本发明实施例的第一方面,提供了一种数据匹配方法,包括: 将原始数据转化成多个向量,并将所述向量存入第一集合;
计算所述第一集合中每个向量与其他向量的契合度,并将所述契合 度分别保存在所述每个向量对应的第二集合中;
对所述第二集合中的契合度进行排序,根据排序后的结果确定待匹 配数据的数据匹配结果。
在本发明的一种示例实施例中,所述计算所述第一集合中每个向量 与其他向量的契合度包括:
根据所述第一集合中向量的顺序,依次计算每个向量与其他向量的 契合度,并且每个向量只与其后向量进行计算。
在本发明的一种示例实施例中,所述将所述契合度分别保存在所述 每个向量对应的第二集合中包括:
使用分布式多任务处理,每个任务进行预设数量次计算,并保存计 算出的契合度;
在所有任务计算完成后,汇总所述计算出的契合度,生成所述第二 集合。
在本发明的一种示例实施例中,所述将所述契合度分别保存在所述 每个向量对应的第二集合中包括:
所述契合度是由第M个向量和第N个向量计算得出时,将所述契 合度依次存入第M个向量的第二集合和第N个向量的第二集合。
在本发明的一种示例实施例中,所述根据排序后的结果确定待匹配 数据的数据匹配结果包括:
获取所述待匹配数据对应的待匹配向量的所述第二集合;按顺序提 取所述待匹配向量的第二集合中的N个契合度,查询所述N个契合度 对应的N个向量,并向所述待匹配数据推荐所述N个向量对应的N条 数据。
在本发明的一种示例实施例中,所述方法还包括:
获取所述N个向量对应的N条数据作为候选匹配数据;
设置定时任务,定时向所述待匹配数据推荐所述候选匹配数据。
在本发明的一种示例实施例中,所述定时向所述待匹配数据推荐所 述候选匹配数据包括:
在所述候选匹配数据中随机选取预设数量的数据向所述待匹配数据 推荐。
在本发明的一种示例实施例中,所述根据排序后的结果确定待匹配 数据的数据匹配结果还包括:
检测待匹配数据是否包含匹配条件;
在待匹配数据包含匹配条件时,根据所述匹配条件过滤所述原始数 据,获取候选数据;
计算所述待匹配数据对应的待匹配向量与每一所述候选数据对应的 向量的契合度,并将所述契合度保存在所述待匹配数据的第二集合中;
对所述第二集合中的契合度进行排序,根据排序后的契合度的顺序 向待匹配数据推荐所述候选数据。
在本发明的一种示例实施例中,所述根据排序后的契合度的顺序向 待匹配数据推荐所述候选数据包括:
将所述候选数据根据预设数量分批推荐。
在本发明的一种示例实施例中,所述方法还包括:
每隔预设时间段更新所述原始数据,并根据更新后的所述原始数据 更新所述第一集合。
在本发明的一种示例实施例中,所述对所述第二集合中的契合度进 行排序包括:
对所述第二集合中的契合度从大到小进行排序。
在本发明的一种示例实施例中,所述将原始数据转化成多个向量包 括:
利用线性回归算法将原始数据转化成多个向量。
根据本发明实施例的第二方面,提供一种数据匹配装置,所述装置 包括:
数据转化单元,用于将原始数据转化成多个向量,并将所述向量存 入第一集合;
契合度计算单元,用于计算所述第一集合中每个向量与其他向量的 契合度,并将所述契合度分别保存在所述每个向量对应的第二集合中;
排序单元,用于对所述第二集合中的契合度进行排序,根据排序后 的结果确定待匹配数据的数据匹配结果。
根据本发明实施例的第三方面,提供了一种计算机可读介质,其上 存储有计算机程序,所述程序被处理器执行时实现如上述实施例中第一 方面所述的数据匹配方法。
根据本发明实施例的第四方面,提供了一种电子设备,包括:一个 或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多 个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实 现如上述实施例中第一方面所述的数据匹配方法。
本发明实施例提供的技术方案可以包括以下有益效果:
在本发明的一些实施例所提供的技术方案中,通过将原始数据转化 成向量,并将向量存入第一集合,计算第一集合中每个向量与其他向量 的契合度,从而可以根据契合度来衡量两个数据之间的匹配度,并且将 人工筛选的过程转化为机器计算,不仅可以节省人力和时间,提高了数 据匹配效率,还可以减少人工筛选时的误差,提高匹配的精度;同时,通过对第二集合中的契合度进行排序,根据排序后的结果确定待匹配数 据的数据匹配结果,可以在提供多个匹配结果的同时明确多条结果的匹 配程度,以便于需要再次匹配时,快速得到匹配结果,进一步提高数据 匹配效率;此外,还可以节约运算资源,提高用户搜索的实效性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解 释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合 本发明的实施例,并与说明书一起用于解释本发明的原理。显而易见 地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技 术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得 其他的附图。在附图中:
图1示意性示出了根据本发明的实施例中用于实现数据匹配方法的 系统架构示意图;
图2示意性示出了根据本发明的实施例的数据匹配方法的流程图;
图3示意性示出了根据本发明的另一实施例的数据匹配方法的流程 图;
图4示意性示出了根据本发明的又一实施例的数据匹配方法的流程 图;
图5示意性示出了根据本发明的再一实施例的数据匹配方法的流程 图;
图6示意性示出了根据本发明又一实施例中用于实现数据匹配方法 的系统架构示意图;
图7示意性示出了根据本发明的实施例的数据匹配装置的框图;
图8示意性示出了适于用来实现本发明实施例的电子设备的计算机 系统的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式 能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提 供这些实施方式使得本发明将更加全面和完整,并将示例实施方式的构 思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一 个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本 发明的实施例的充分理解。然而,本领域技术人员将意识到,可以实践 本发明的技术方案而没有特定细节中的一个或更多,或者可以采用其它 的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知 方法、装置、实现或者操作以避免模糊本发明的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的 实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或 多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处 理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和 操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还 可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺 序有可能根据实际情况改变。
本示例实施方式中首先提供了一种用于实现数据匹配方法的系统架 构,可以应用于各种识别场景,例如图像识别、行为识别等等。参考图 1所示,该系统架构100可以包括终端设备101、102、103,网络104 和服务器105。网络104用以在终端设备101、102、103和服务器105 之间提供通信链路的介质。网络104可以包括各种连接类型,例如有 线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105 交互,以接收或发送请求指令等。终端设备101、102、103上可以安装 有各种通讯客户端应用,例如图片处理应用、购物类应用、网页浏览器 应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各 种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和 台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设 备101、102、103所浏览的购物类网站提供支持的后台管理服务器(仅 为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进 行分析等处理,并将处理结果(例如目标推送信息、产品信息--仅为示 例)反馈给终端设备。
需要说明的是,本申请实施例所提供的数据匹配方法一般由服务器 105执行,相应地,数据匹配装置一般设置于终端设备101中。
基于上述系统架构100,本示例中提供一种数据匹配方法。如图2 所示,该方法可以包括步骤S210、S220、S230。其中:
步骤S210,将原始数据转化成多个向量,并将所述向量存入第一 集合;
步骤S220,计算所述第一集合中每个向量与其他向量的契合度, 并将所述契合度分别保存在所述每个向量对应的第二集合中;
步骤S230,对所述第二集合中的契合度进行排序,根据排序后的 结果确定待匹配数据的数据匹配结果。
根据本示例实施例中的数据匹配方法,通过将原始数据转化成向 量,并将向量存入第一集合,计算第一集合中每个向量与其他向量的契 合度,从而可以根据契合度来衡量两个数据之间的匹配度,并且将人工 筛选的过程转化为机器计算,节省了人力和时间,提高了数据匹配效 率;同时通过对第二集合中的契合度进行排序,根据排序后的结果确定待匹配数据的数据匹配结果,可以在提供多个匹配结果的同时明确多条 结果的匹配程度,以便于需要再次匹配时,快速得到匹配结果,进一步 提高数据匹配效率,节约运算资源,并且还可以提高用户体验。
下面,将结合图2至图6对本示例实施例中的数据匹配方法的各个 步骤进行更加详细的说明。
步骤S210,将原始数据转化成多个向量,并将所述向量存入第一 集合。
原始数据可以是从数据库中获取的数据,或者根据用户在平台上注 册、使用等行为而保存的数据。平台可以是为用户提供网上服务的网络 络平台。例如,商家可以在电商平台上注册自己的商铺信息等。原始数 据可以包括用户的用户名、密码、类型信息、注册信息等,也可以包括 商品名称、商品类别、价格、销量等。本示例实施例中,对原始数据不 做特殊限定。
向量是有大小和方向的量。原始数据可以通过线性回归算法转化成 向量,或者利用R语言工具转化成向量。当然,原始数据还可以通过 其他方式转化成向量,比如,机器学习模型、Python工具等。向量根据 时间需要可以是浮点数向量、整数向量、位向量等。将转化的向量可以 保存为第一集合,第一集合可以通过Java集合类存储,比如,set、list 等,也可以通过数据库存储,比如,HBase等。当然,根据实际需求也 可以通过其他方式保存,比如,表格、数组等。
进一步地,为了保证原始数据的准确性,还可以每隔预设时间段对 原始数据进行一次更新,并根据更新后的原始数据更新第一集合。可以 每隔一段时间,更新原始数据,产生新的第一集合覆盖之前的第一集 合。或者,每隔一段时间,可以对新的原始数据与之前的原始数据进行 对比,找出变动的数据,根据变动的数据在第一集合的基础上进行修 改,更新第一集合。预设时间可以根据实际需求设置,比如,一周、一 个月、一个季度等,本示例实施例对此不做特殊限定。
步骤S220,计算所述第一集合中每个向量与其他向量的契合度, 并将所述契合度分别保存在所述每个向量对应的第二集合中。
契合度可以用来表示向量之间匹配程度,契合度越大,向量之间的 匹配程度越高。可以通过计算两个向量相乘来获取契合度,也可以通过 计算两个向量相加或者相减来获取契合度,或者用向量相乘、相加、相 减之后求模的方式来计算。当然,在实际情况中,也可以自定义算法得 到向量之间的契合度。
此外,还可以为第一集合中每个向量创建一个第二集合,用来保存 第一集合中每个向量与其他向量的契合度计算结果,也就是说,第一集 合中的每一个向量都可以对应一个第二集合。比如,为第一集合中第 M向量创建一个第二集合,第M个向量与第一集合中其他向量的契合 度计算结果可以保存在第M个向量的第二集合中。
同时,为了避免数据量过大,导致的计算次数过多,计算结果量级 过大,还可以将计算结果同时存入参与计算的两个向量分别对应的第二 集合中。例如,第M个向量与第N个向量进行计算时,计算结果同时 存入第M个向量的第二集合和第N个向量的第二集合。此外,存储计 算结果时,可以根据结果产生的顺序依次存入对应的集合。例如,第 M个向量与第N个向量计算契合度,计算结果为a,第M个向量与第 M+1个向量契合度计算结果为b,那么第M个向量的第二集合为: (a,b,……)。
进一步地,为了避免再次对相同的两个向量进行计算,还可以根据 第一集合中向量的顺序,依次从1到N进行计算,并且每个向量只与 其后向量进行计算。例如,第M个向量只与第M+1个向量至最后一个 向量进行计算。
更进一步地,为了在数据量级过大时,提高计算效率,还可以使用 分布式多任务处理,每个任务可以进行预设数量次计算,并保存计算出 的契合度,并且可以在所有任务计算完成后,汇总计算出的契合度,生 成第二集合。例如,每个任务只处理百次或者千次计算,并保存计算结 果,所有任务处理完成后,汇总所有的计算结果,生成第二集合。
步骤S230,对所述第二集合中的契合度进行排序,根据排序后的 结果确定待匹配数据的数据匹配结果。
对第二集合中的契合度进行排序,可以通过希尔排序、冒泡排序、 选择排序等排序算法来进行。优选地,还可以根据契合度从大到小的顺 序进行排序。
排序后的契合度可以呈递减或者递加的趋势,根据排序后的结果可 以确定待匹配数据的数据匹配结果。通过契合度可以获得契合度对应的 向量,从而可以根据向量对应的数据,确定数据匹配结果。例如,根据 第M个向量对应的第二集合,查询第二集合中每一契合度对应的其他 向量,根据其他向量获取其他向量对应的数据,可以确定获取的数据为待匹配数据的匹配结果。为了更详细的说明匹配结果的确定过程,本示 例实施例还包括了:步骤S311和步骤S312,如图3所示。
步骤S311中,获取所述待匹配数据对应的待匹配向量的所述第二 集合。
在本发明的示例实施例中,待匹配数据可以转化成向量。查询待匹 配数据对应的向量是否在第一集合中,如果待匹配数据对应的向量在第 一集合中,获取待匹配数据的第二集合;如果待匹配数据对应的向量不 在第一集合中,可以根据本发明上述的步骤S220所述的方法,计算待 匹配数据对应的向量与第一集合中的向量的契合度,获取待匹配数据的第二集合。
步骤S312,按顺序提取所述待匹配向量的第二集合中的N个契合 度,查询所述N个契合度对应的N个向量,并向所述待匹配数据推荐 所述N个向量对应的N条数据。
在本发明的示例实施例中,可以提取第二集合中的预设数量个契合 度,查询契合度对应的向量,然后将向量对应的数据推荐给待匹配数 据。预设数量可以根据实际需求设置,例如,20、30等。还可以将第 二集合中契合度对应的数据进行分批推荐,例如,每批推荐20条数 据,在用户选择下一批时,可以推荐下一批数据,或者每隔预设时间可 以自动更换到一批数据。此外,推荐时还可以按照契合度的排列顺序来 进行,契合度高的数据可以先推荐。
优选地,还可以根据第二集合中契合度的顺序,获取前N个契合 度对应的N条数据,将这N条数据作为候选数据。设置定时任务,定 时向待匹配数据推荐候选数据。例如,2小时推荐一次,或者8小时推 荐一次等。当然,向待匹配数据推荐候选数据时,也可以按其他预设规 则推荐,比如,按契合度的由高到低的顺序推荐候选数据的前Q条数 据推荐等。优选地,还可以每次随机在候选数据中选取预设数量的数据 向待匹配数据推荐。
此外,还可以将第二集合中的契合度对应的数据按照契合度由高到 低的顺序存储在缓存中,以便下一次推荐时,可以直接从缓存中获取, 从而使得数据匹配的速度更快。因此,本示例实施例还可以包括:查询 缓存中是否有候选数据;当缓存中有候选数据时,读取缓存中的候选数 据推荐给待匹配数据。在本实施例中,如果缓存中没有候选数据时,可以根据上述方案计算待匹配数据的第二集合,从而获取待匹配数据的第 二集合中契合度对应的数据,还可以将获取的数据作为候选数据存入缓 存,如图4所示。
进一步地,为了更灵活的进行数据匹配,本实施例还包括了步骤 S511、S512、S513和S514,如图5所示。其中:
步骤S511,检测待匹配数据是否包含匹配条件。
在本示例实施例中,待匹配数据可以包含匹配条件,匹配条件可以 用户输入的条件,也可以是平台提供的条件。匹配条件还可以表示数据 的属性,或者数据类型等,例如,匹配条件可以表示用户名、用户类 型,或者商品类别等。判断待匹配数据是否包含匹配条件,如果判断用 户输入了匹配条件,或者用户选择了平台提供的某一条件时,可以确定 待匹配数据包含匹配条件。如果用户没有输入匹配条件,并且也没有选 择平台提供的条件时,可以确定待匹配数据不包含匹配条件。
步骤S512,在待匹配数据包含匹配条件时,根据所述匹配条件过 滤所述原始数据,获取候选数据。
在本示例实施例中,如果判断用户输入了匹配条件,或者用户选择 了平台提供的某一条件时,可以确定待匹配数据包含匹配条件。可以根 据匹配条件,从原始数据中筛选出符合匹配条件的数据,作为候选数 据。例如,匹配条件是女士服装时,可以在原始数据中筛选出包含女士 服装的数据。
步骤S513,计算所述待匹配数据对应的待匹配向量与每一所述候 选数据对应的向量的契合度,并将所述契合度保存在所述待匹配数据的 第二集合中。
在本示例实施例中,待匹配数据可以根据第一集合,查询到待匹配 数据对应的待匹配向量,也可以通过上述步骤S210中所述的方法,转 化成待匹配向量。如果待匹配数据可以根据第一集合,查询到待匹配数 据对应的待匹配向量,那么可以获取待匹配向量的第二集合,可以在待 匹配向量的第二集合中删去已经根据匹配条件过滤掉的数据对应的契合 度,重新生成待匹配数据的第二集合。或者,也可以通过计算待匹配数 据对应的向量与候选数据对应的向量的契合度,生成待匹配数据的第二 集合。
步骤S514,对所述第二集合中的契合度进行排序,根据排序后的 契合度的顺序向待匹配数据推荐所述候选数据。
在本示例实施例中,对步骤S513中产生的集合,可以对集合中的 契合度进行排序,例如,根据契合度从大到小的顺序进行排序。可以根 据排序后的契合度的顺序确定候选数据的推荐顺序,契合度高的数据先 推荐,契合度低的数据后推荐。另外,还可以只对候选数据中契合度高 于预设阈值的数据进行推荐,或者推荐预设数量条数据。优选地,还可以对候选数据进行分批推荐,例如,每30条数据为一批,进行推荐, 在预设时间后自动切换推荐下一批数据,或者在用户进行选择时,推荐 下一批数据。
在本实施例中,还提供了一种用于实现数据匹配方法的系统架构, 可以应用于各种识别场景,例如电子商务商家识别、行为数据识别等 等。如图6所示。该系统架构600可以包括搜索模块601,推荐模块 602,缓存区603,计算引擎604,数据库605,周期性同步任务606。 在搜索模块601可以接收待匹配数据的匹配条件,还可以执行图5中所 示的步骤。推荐模块602可以在获取待匹配数据的第二集合后向待匹配 数据推荐匹配结果,如步骤S312中所述的向待匹配数据推荐N条数 据。推荐模块602还可以跟计算引擎604进行交互执行图4和图5中所 示的步骤。缓存区603,可以保存待匹配数据的第二集合,还可以保存 第二集合中契合度对应的向量和候选数据。并且在搜索模块601或者推 荐模块602需要向待匹配数据推荐数据时,还可以提供候选数据。计算 引擎604可以执行步骤S210、步骤S220中的数据转化为向量,还可以 计算每个向量与其他向量之间的契合度。数据库605,可以存储候选数 据,也可以存储原始数据或者由原始数据转化的向量,并且还可以在其 他模块需要进行数据匹配时,提供存储的数据。周期性同步任务606 可以周期性同步数据库605中存储的所有数据和向量,并且还可以将更 新的数据和向量对应的第二集合同步至缓存区603中。
以下介绍本发明的装置实施例,可以用于执行本发明上述的数据匹 配方法。如图7所示,该数据匹配装置700可以包括:
数据转化单元710,用于将原始数据转化成多个向量,并将所述向 量存入第一集合;
契合度计算单元720,用于计算所述第一集合中每个向量与其他向 量的契合度,并将所述契合度分别保存在所述每个向量对应的第二集合 中;
排序单元730,用于对所述第二集合中的契合度进行排序,根据排 序后的结果确定待匹配数据的数据匹配结果。
由于本发明的示例实施例的数据匹配装置的各个功能模块与上述数 据匹配方法的示例实施例的步骤对应,因此对于本发明装置实施例中未 披露的细节,请参照本发明上述的数据匹配方法的实施例。
下面参考图8,其示出了适于用来实现本发明实施例的电子设备的 计算机系统800的结构示意图。图8示出的电子设备的计算机系统800 仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图8所示,计算机系统800包括中央处理单元(CPU)801,其 可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808 加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和 处理。在RAM 803中,还存储有系统操作所需的各种程序和数据。CPU 801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出 (I/O)接口805也连接至总线804。
以下部件连接至I/O接口805:包括键盘、鼠标等的输入部分 806;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器 等的输出部分807;包括硬盘等的存储部分808;以及包括诸如LAN 卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸 如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口 805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等 等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根 据需要被安装入存储部分808。
特别地,根据本发明的实施例,上文参考流程图描述的过程可以被 实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产 品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含 用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机 程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(CPU)801执行时, 执行本申请的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信 号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可 读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、 或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储 介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器 (ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式 紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上 述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包 含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件 使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包 括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可 读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于 电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还 可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读 介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用 或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任 何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或 者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方 法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上, 流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部 分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定 的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两 个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相 反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图 中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的 功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计 算机指令的组合来实现。
描述于本发明实施例中所涉及到的单元可以通过软件的方式实现, 也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。 其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可 读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独 存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者 多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该 电子设备实现如上述实施例中所述的数据匹配方法。
例如,所述的电子设备可以实现如图2中所示的:步骤S210,将 原始数据转化成多个向量,并将所述向量存入第一集合;步骤S220, 计算所述第一集合中每个向量与其他向量的契合度,并将所述契合度分 别保存在所述每个向量对应的第二集合中;步骤S230,将对所述第二 集合中的契合度进行排序,根据排序后的结果确定待匹配数据的数据匹 配结果。
又如,所述的电子设备可以实现如图3所示的各个步骤。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若 干模块或者单元,但是这种划分并非强制性的。实际上,根据本发明的 实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一 个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征 和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描 述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件 的方式来实现。因此,根据本发明实施方式的技术方案可以以软件产品 的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以 是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得 一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备 等)执行根据本发明实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想 到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或 者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原 理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说 明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权 利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的 精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范 围仅由所附的权利要求来限制。

Claims (15)

1.一种数据匹配方法,其特征在于,包括:
将原始数据转化成多个向量,并将所述向量存入第一集合;
计算所述第一集合中每个向量与其他向量的契合度,并将所述契合度分别保存在所述每个向量对应的第二集合中;
对所述第二集合中的契合度进行排序,根据排序后的结果确定待匹配数据的数据匹配结果。
2.根据权利要求1所述的数据匹配方法,其特征在于,所述计算所述第一集合中每个向量与其他向量的契合度包括:
根据所述第一集合中向量的顺序,依次计算每个向量与其他向量的契合度,并且每个向量只与其后向量进行计算。
3.根据权利要求2所述的数据匹配方法,其特征在于,所述将所述契合度分别保存在所述每个向量对应的第二集合中包括:
使用分布式多任务处理,每个任务进行预设数量次计算,并保存计算出的契合度;
在所有任务计算完成后,汇总所述计算出的契合度,生成所述第二集合。
4.根据权利要求1所述的数据匹配方法,其特征在于,所述将所述契合度分别保存在所述每个向量对应的第二集合中包括:
所述契合度是由第M个向量和第N个向量计算得出时,将所述契合度依次存入第M个向量的第二集合和第N个向量的第二集合。
5.根据权利要求1所述数据匹配方法,其特征在于,所述根据排序后的结果确定待匹配数据的数据匹配结果包括:
获取所述待匹配数据对应的待匹配向量的所述第二集合;
按顺序提取所述待匹配向量的第二集合中的N个契合度,查询所述N个契合度对应的N个向量,并向所述待匹配数据推荐所述N个向量对应的N条数据。
6.根据权利要求5所述的数据匹配方法,其特征在于,还包括:
获取所述N个向量对应的N条数据作为候选匹配数据;
设置定时任务,定时向所述待匹配数据推荐所述候选匹配数据。
7.根据权利要求6所述的数据匹配方法,其特征在于,所述定时向所述待匹配数据推荐所述候选匹配数据包括:
在所述候选匹配数据中随机选取预设数量的数据向所述待匹配数据推荐。
8.根据权利要求1所述的数据匹配方法,其特征在于,所述根据排序后的结果确定待匹配数据的数据匹配结果还包括:
检测待匹配数据是否包含匹配条件;
在待匹配数据包含匹配条件时,根据所述匹配条件过滤所述原始数据,获取候选数据;
计算所述待匹配数据对应的待匹配向量与每一所述候选数据对应的向量的契合度,并将所述契合度保存在所述待匹配数据的第二集合中;
对所述第二集合中的契合度进行排序,根据排序后的契合度的顺序向待匹配数据推荐所述候选数据。
9.根据权利要求8所述的数据匹配方法,其特征在于,所述根据排序后的契合度的顺序向待匹配数据推荐所述候选数据包括:
将所述候选数据根据预设数量分批推荐。
10.跟据权利要求1所述的数据匹配方法,其特征在于,还包括:
每隔预设时间段更新所述原始数据,并根据更新后的所述原始数据更新所述第一集合。
11.根据权利要求1-10任一项所述的数据匹配方法,其特征在于,所述对所述第二集合中的契合度进行排序包括:
对所述第二集合中的契合度从大到小进行排序。
12.根据权利要求1-10任一项所述的数据匹配方法,其特征在于,所述将原始数据转化成多个向量包括:
利用线性回归算法将原始数据转化成多个向量。
13.一种数据匹配系统,其特征在于,包括:
数据转化单元,用于将原始数据转化成多个向量,并将所述向量存入第一集合;
契合度计算单元,用于计算所述第一集合中每个向量与其他向量的契合度,并将所述契合度分别保存在所述每个向量对应的第二集合中;
排序单元,用于对所述第二集合中的契合度进行排序,根据排序后的结果确定待匹配数据的数据匹配结果。
14.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1至12中任一项所述的数据匹配方法。
15.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至12中任一项所述的数据匹配方法。
CN201810690040.1A 2018-06-28 2018-06-28 数据匹配方法、装置、介质及电子设备 Pending CN110659919A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810690040.1A CN110659919A (zh) 2018-06-28 2018-06-28 数据匹配方法、装置、介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810690040.1A CN110659919A (zh) 2018-06-28 2018-06-28 数据匹配方法、装置、介质及电子设备

Publications (1)

Publication Number Publication Date
CN110659919A true CN110659919A (zh) 2020-01-07

Family

ID=69026447

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810690040.1A Pending CN110659919A (zh) 2018-06-28 2018-06-28 数据匹配方法、装置、介质及电子设备

Country Status (1)

Country Link
CN (1) CN110659919A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111652312A (zh) * 2020-06-03 2020-09-11 上海维外科技有限公司 一种有选择特性的样本或集合间契合程度的度量方法、系统以及存储介质
CN112131375A (zh) * 2020-09-18 2020-12-25 泰康保险集团股份有限公司 医疗数据匹配方法及装置、存储介质、电子设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111652312A (zh) * 2020-06-03 2020-09-11 上海维外科技有限公司 一种有选择特性的样本或集合间契合程度的度量方法、系统以及存储介质
CN111652312B (zh) * 2020-06-03 2023-02-07 上海维外科技有限公司 一种有选择特性的集合间契合程度的度量方法、系统以及存储介质
CN112131375A (zh) * 2020-09-18 2020-12-25 泰康保险集团股份有限公司 医疗数据匹配方法及装置、存储介质、电子设备
CN112131375B (zh) * 2020-09-18 2023-06-27 泰康保险集团股份有限公司 医疗数据匹配方法及装置、存储介质、电子设备

Similar Documents

Publication Publication Date Title
CN111125574B (zh) 用于生成信息的方法和装置
CN108664513B (zh) 用于推送关键词的方法、装置以及设备
CN110363604B (zh) 页面生成方法和装置
CN109241403B (zh) 项目推荐方法、装置、机器设备和计算机可读存储介质
CN109685537B (zh) 用户行为的分析方法、装置、介质和电子设备
CN107918658B (zh) 一种商机生成方法及系统
CN112016796B (zh) 综合风险评分请求处理方法、装置及电子设备
CN108932625B (zh) 用户行为数据的分析方法、装置、介质和电子设备
CN110111167A (zh) 一种确定推荐对象的方法和装置
CN111311294A (zh) 数据处理方法、装置、介质及电子设备
CN109727047A (zh) 一种确定数据关联度的方法和装置、数据推荐方法和装置
CN110059172B (zh) 基于自然语言理解的推荐答案的方法和装置
CN113760488A (zh) 调度任务的方法、装置、设备和计算机可读介质
CN110659919A (zh) 数据匹配方法、装置、介质及电子设备
CN110197317B (zh) 目标用户确定方法及装置、电子设备及存储介质
CN108985805B (zh) 一种选择性执行推送任务的方法和装置
CN113077321A (zh) 物品推荐方法、装置、电子设备和存储介质
JP2014074961A (ja) 商品推薦装置及び方法及びプログラム
CN108537570B (zh) 一种信息曝光方法及装置
CN116955817A (zh) 内容推荐方法、装置、电子设备以及存储介质
US11087045B1 (en) Apparatus and method for option data object performance prediction and modeling
CN111125185A (zh) 数据处理方法、装置、介质及电子设备
CN111666481A (zh) 数据挖掘方法、装置、计算机可读介质及电子设备
CN115907926A (zh) 商品的推荐方法、装置、电子设备及存储介质
EP3923164A2 (en) Method and apparatus of presenting information, electronic device and storage medium

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination