CN112783963B

CN112783963B - 基于商圈划分的企业线下与线上多源数据整合方法及装置

Info

Publication number: CN112783963B
Application number: CN202110287069.7A
Authority: CN
Inventors: 谭继军; 李阳; 谢蓬莲
Original assignee: Shanghai Digital Data Technology Co ltd
Current assignee: Shanghai Shuzhe Data Technology Co ltd
Priority date: 2021-03-17
Filing date: 2021-03-17
Publication date: 2023-04-28
Anticipated expiration: 2041-03-17
Also published as: CN112783963A

Abstract

本发明公开了一种基于商圈划分的企业线下与线上多源数据整合方法，包括下述几个阶段：第一阶段：对线上的百万级样本数据进行商圈匹配，主要完成将大量的抓取样本放入特定商圈的工作，以便降低下一步匹配样本所在商场的计算量，提高匹配效率和精度；第二阶段：对各个1级商圈进行操作，将每个样本在某些商圈的可能性做出预测，并对可能的1.5级商圈进行排序匹配；第三阶段：分别就地址、商户名和门牌号综合计算相似性得分匹配。本发明将线上的企业数据与线下的经营实体对应，拓宽了企业信息的维度，通过程序化的方法，减轻了人工匹配的工作量；另外，本发明还提供一种基于商圈划分的企业线下与线上多源数据整合装置，便于实现多源数据的整合。

Description

基于商圈划分的企业线下与线上多源数据整合方法及装置

技术领域

本发明涉及商圈数据整合技术领域，具体涉及一种基于商圈划分的企业线下与线上多源数据整合方法；另外，本发明还涉及基于商圈划分的企业线下与线上多源数据整合装置。

背景技术

小微企业存在注册名称和实际经营的招牌名称不一致、注册地址和实际经营地址的不一致等情况，导致一个企业尤其是小微企业的线下数据和工商注册数据难以匹配，在仅了解企业线下信息的基础上，很难获取企业更多的线上数据。企业线下数据与线上数据难以匹配的原因主要有以下几点：

1.数据的异构性和不同源性，企业线上数据和线下数据的生产者不同，数据结构差异较大；同时，同类数据的质量也存在较大差异，传统的字符匹配算法难以发挥作用。

2.数据量大和多层次性，基于商圈划分的企业数据具有多层次性，为匹配带来较大难度。

发明内容

本发明的目的在于提供基于商圈划分的企业线下与线上多源数据整合方法，本发明将线上的企业数据与线下的经营实体对应，拓宽了企业信息的维度，通过程序化的方法，减轻了人工匹配的工作量，提高了工作效率；

另外，本发明还提供一种基于商圈划分的企业线下与线上多源数据整合装置，便于实现多源数据的整合。

为解决上述技术问题，本发明所采用的技术方案是：

一种基于商圈划分的企业线下与线上多源数据整合方法，其特征在于，包括下述几个阶段：

第一阶段：对线上的百万级样本数据进行商圈匹配，主要完成将大量的抓取样本放入特定商圈的工作，以便降低下一步匹配样本所在商场的计算量，提高匹配效率和精度；

第二阶段：对各个1级商圈进行操作，将每个样本在某些商圈的可能性做出预测，并对可能的1.5级商圈进行排序匹配；

第三阶段：分别就地址、商户名和门牌号综合计算相似性得分匹配；

其中，第一阶段的具体过程如下：

采用地址分词的方法，先根据特定的几个商圈的地址信息特征创建词典，根据词典将地址信息进行切词处理，从而将地址字符串转换为分词向量；在此，我使用Jaccard算法，计算绘图样本的词向量和抓取样本的词向量的相似系数；

Jaccard系数，度量方式如下：

通过阈值的设定，将分词结果的相似系数大于0.4(经过人工多次校验，Jaccard相似系数<0.4，匹配的精度会有一个断崖式地下跌。因此选择0.4作为进入下一轮匹配的阈值)的样本纳入下一轮匹配工作的样本池。

进一步优化,第二阶段的具体过程如下，

在第二阶段的匹配中，首先需要创建以2级商圈为基础的目标变量y，定义其为1.5级商圈，由此，将第二阶段的匹配问题转化为一个典型的有监督分类问题；

为了提高匹配的效率，并尽可能地充分利用特征集X的信息，将特征集和地址分词分拆开进行建模；一方面以GPS定位的经纬度信息纳入支持向量机(Support VectorMachine,SVM)学习过程。另一方面，为提高中文地址信息模型的泛化能力，采用半监督的随机森林(Semi-RandomForest)模型；

通过Platt扩展，利用Logistic回归，计算得到SVM和Semi-RandomForest的预测结果的条件概率，并依据概率值对预测结果进行排序，结果供第三阶段的匹配使用。

进一步优化，第三阶段的具体过程如下，

在现实的人工匹配过程中，地址信息、商户名、门牌号都是定序的；因此，在第三阶段为了实现更好的模拟人工匹配过程，采用考虑了字符串顺序的最长公共子序列(LongestCommon Substirng，LCS)动态规划算法；

LCS动态规划算法的目的在于，对address1＝cnblogs和address2＝belong两个样本地址，其长度分别为7和6，找出两个地址中的最长为4的公共blog；

依据上述算法，分别对样本的地址、门牌、商户名进行LCS计算相似度得分，再根据预先设定好的权重向量对该组结果进行加权，得到最终的相似度得分；计算过程，将在第二阶段的1.5级商圈排序结果上进行迭代：即，一条抓取样本在各个可能性较高的1.5级商圈中迭代找出最匹配的样本(加权后的LCS得分最高的样本)即为最优解。

另外，本发明还公开了一种基于商圈划分的企业线下与线上多源数据整合装置，包括数据读取模块、线上数据处理模块、线下数据处理模块和匹配模块，其中，数据读取模块，用于读取待匹配的数据表；线上数据处理模块，用于规范线上数据结构，做数据的匹配预处理；线下数据处理模块，用于规范线下数据结构，做数据的匹配预处理；匹配模块，用于线上数据与线下数据的匹配。

与现有技术相比，本发明具有以下有益效果：

本发明将线上的企业数据与线下的经营实体对应，拓宽了企业信息的维度，通过程序化的方法，减轻了人工匹配的工作量，提高了工作效率；并且能够实现企业的经营实体数据与线上互联网公开数据的精准匹配；目前，市面上基本上没有基于小微的线下门店数据和线上工商数据的匹配算法、程序等(均是在商业场景下要求小微商户主动提供工商信息)。

本发明中所提到的线下数据与线上数据匹配的算法不仅仅适用于本公司自身数据库的匹配，对于在百度地图上爬取的小微商户门店信息和工商信息的匹配也同样适用。

本发明填补了市场上的空白。通过商圈划分、提取商圈关键特征集和机器学习的方法提高匹配率，通过本发明，为涉及小微商户/企业的各类商业和非商业场景提供一种主动发现商户工商信息的方式，在服务效率、服务质量和反欺诈等方面发挥积极作用。

附图说明

为了更清楚地说明本发明实施方式的技术方案，下面将对实施方式中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明第一阶段的具体流程示意图。

图2为本发明第二阶段的具体流程示意图。

图3为本发明第三阶段的具体流程示意图。

图4为本发明所述数据采集装置整体结构是示意图。

附图标记：1-手持支架，2-壳体，3-高清摄像机，4-无线信号发送装置。

具体实施方式

下面结合实施例对本发明作进一步的描述，所描述的实施例仅仅是本发明一部分实施例，并不是全部的实施例。基于本发明中的实施例，本领域的普通技术人员在没有做出创造性劳动前提下所获得的其他所用实施例，都属于本发明的保护范围。

实施例一

本实施例公开了一种基于商圈划分的企业线下与线上多源数据整合方法，包括下述几个阶段：

其中，第一阶段的具体过程如下，如说明书附图1所示：

采用地址分词的方法，先根据特定的几个商圈的地址信息特征创建词典，根据词典将地址信息进行切词处理，从而将地址字符串转换为分词向量；在此，我使用Jaccard算法(另外，我们还采用了余弦相似度量、LCS相似度量等方法。经比较发现，Jaccard算法在运算效率和精度上可以较好协调)，计算绘图样本的词向量和抓取样本的词向量的相似系数；

Jaccard系数，度量方式如下：

通过阈值的设定，将分词结果的相似系数大于0.4(经过人工校验，Jaccard相似系数<0.4，匹配的精度会有一个断崖式地下跌。因此选择0.4作为进入下一轮匹配的阈值)的样本纳入下一轮匹配工作的样本池。

其中，已知绘图样本的词向量A和抓取样本的词向量B，A和B每个集合都含有n个二元的属性，即每个属性都是0或1，此处的属性来自即特征字典，如“成都”，指标为0表示词向量中没有“成都”一词，指标为1，表示词向量中有“成都”一词；

f₁₁表示A和B对应位都是1的属性的数量；

f₁₀表示A中为1，B中对应位为0的总数量；

f₀₁表示A中为0，B中对应位为1的总数量；

本阶段通过计算相似度系数对样本进行一级商圈划分。

其中，第二阶段的具体过程如下，如说明书附图2所示，

进一步细化，第三阶段的具体过程如下，如说明书附图3所示：

具体实施方式如下：

具体实施步骤如下：

L[7,6]＝matrix(0,7,6)(定义L为7行6列，值为0的矩阵)

for m in 1to 7

for n in 1to 6

if address1[m]＝＝address2[n]

L[m,n]＝L[m-1,n-1]+1

else

L[m,n]＝max{L[m,n-1]，L[m-1,n]}

lcs_score＝L[m,n]/min(m,n)

最后从L[7,6]中的数字一定是该矩阵中最大的，且这个数字就是最长公共子序列的长度。

下面结合具体的实施方式对本发明做进一步说明：

在实际匹配时，第一步的目的是将零散二庞大的线上数据分别匹配到相应的一级商圈中

读取线下数据库和线上数据库数据，分别对所有样本地址按照省、市、县、门牌号等特征进行切分进行地址切分，然后计算线上和线下的样本数据相似度系数，相似度系数大于0.4的，视作同一商圈(匹配成功)，即将线上样本划分到线下样本的所在一级商圈

1级商圈信息匹配完成后，在每个一级商圈中还有若干个1.5级商圈(所属街道、商场等)，为了进一步识别样本所属的1.5级商圈，采用主动学习算法，一方面将样本的经纬度信息(线上样本来自绘图时的GPS定位、线上数据来自地图爬取信息)纳入支持向量机(Support Vector Machine,SVM)学习过程，另一方面，对地址分词采用半监督的随机森林(Semi-RandomForest)模型；通过Platt扩展，利用Logistic回归，计算得到SVM和Semi-RandomForest的预测结果的条件概率，并依据概率值对预测结果进行排序，获得每个样本可能的1.5级商圈名单及概率排名。

最后根据1.5级商圈的概率排名从高到底依次迭代，分别计算线上数据的地址、门牌号、商户名与1.5级商圈内的所有线下绘图数据的最长公共子序列(LCS)，最终LCS根据权重得到综合LCS得分，最终LCS得分最高的样本即为线上数据的匹配样本。

本发明将线上的企业数据与线下的经营实体对应，拓宽了企业信息的维度，通过程序化的方法，减轻了人工匹配的工作量，提高了工作效率；并且能够实现企业的经营实体数据与线上互联网公开数据的精准匹配；目前，市面上基本上没有基于小微的线下门店数据和线上工商数据的匹配算法、程序等(均是在商业场景下要求小微商户主动提供工商信息)。本发明中所提到的线下数据与线上数据匹配的算法不仅仅适用于本公司自身数据库的匹配，对于在百度地图上爬取的小微商户门店信息和工商信息的匹配也同样适用。本发明填补了市场上的空白。通过商圈划分、提取商圈关键特征集和机器学习的方法提高匹配率，通过本发明，为涉及小微商户/企业的各类商业和非商业场景提供一种主动发现商户工商信息的方式，在服务效率、服务质量和反欺诈等方面发挥积极作用。

另外，在本实施例中，还公开了一种基于商圈划分的企业线下与线上多源数据整合装置，包括数据读取模块、线上数据处理模块、线下数据处理模块和匹配模块，其中，

数据读取模块，用于读取待匹配的数据表；

线上数据处理模块，用于规范线上数据结构，做数据的匹配预处理；

线下数据处理模块，用于规范线下数据结构，做数据的匹配预处理；

匹配模块，用于线上数据与线下数据的匹配。

在实际的使用中，通过一数据采集装置来实现第三阶段中的地址、商户名和门牌号进行采集。

其中，为了实现数据的快速采集，采用专门的数据采集装置进行数据的采集；其结构如下：

包括手持支架1，手持支架1上设置有壳体2，壳体2上安装有高清摄像机3和无线信号发送装置4，在壳体2内设置有存储器、数据处理器、GPS定位装置；高清摄像机3与存储器及数据处理器连接，数据处理器与无线发送装置连接；

在实际的使用中，通过设置的GPS定位装置来进行实时的定位，工作人员通过高清摄像机3来对商户的门牌号信息进行获取，同时将获取的图像信息进行实时存储，然后将图像信息发送至数据处理器处，通过数据处理器来对数据进行分析处理，将图片信息中的门牌号信息、商户名信息进行提取,然后将门牌号信息、商户名信息以及定位装置获取的位置信息打包后统一通过无线发射装置发送至服务器中进行存储。

进一步优化，在实际的使用中，手持支架1上设置有显示终端，显示终端与数据处理器连接；这样，在实际的使用中，数据处理器将图片数据分析处理后，通过设置的显示终端能够实现数据的再次核对，以保证上传服务器的数据的准确性。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，应当指出的是，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.基于商圈划分的企业线下与线上多源数据整合方法，其特征在于，包括下述几个阶段：

第一阶段：对线上的百万级样本数据进行商圈匹配，完成将大量的抓取样本放入特定商圈的工作，以便降低下一步匹配样本所在商场的计算量，提高匹配效率和精度；

第二阶段的具体过程如下，

在第二阶段的匹配中，首先需要创建以2级商圈为基础的目标变量y，定义其为1.5级商圈；

为了提高匹配的效率，并尽可能地充分利用特征集X的信息，将特征集和地址分词分拆开进行建模；一方面以GPS定位的经纬度信息纳入支持向量机学习过程；另一方面，为提高中文地址信息模型的泛化能力，采用半监督的随机森林模型；通过Platt扩展，利用Logistic回归，计算得到SVM和Semi-RandomForest的预测结果的条件概率，并依据概率值对预测结果进行排序，结果供第三阶段的匹配使用；

第三阶段的具体过程如下，

在现实的人工匹配过程中，地址信息、商户名、门牌号都是定序的；因此，在第三阶段为了实现更好的模拟人工匹配过程，采用考虑了字符串顺序的最长公共子序列动态规划算法；

LCS动态规划算法的目的在于，对address1=cnblogs和address2=belong两个样本地址，其长度分别为7和6，找出两个地址中的最长为4的公共blog；

具体实施步骤如下：

L[7,6] = matrix(0,7,6) ,定义L为7行6列，值为0的矩阵;

for m in 1 to 7

for n in 1 to 6

if address1[m] == address2[n]

L[m,n] = L[m - 1, n -1] + 1

else

L[m,n] = max{L[m,n - 1]，L[m - 1, n]}

lcs_score = L[m,n]/min(m,n)

最后L[7,6]中的数字一定是该矩阵中最大的，且这个数字就是最长公共子序列的长度;

依据上述算法，分别对样本的地址、门牌、商户名进行LCS计算相似度得分，再根据预先设定好的权重向量对该组结果进行加权，得到最终的相似度得分；计算过程将在第二阶段的1.5级商圈排序结果上进行迭代：即，一条抓取样本在各个可能性较高的1.5级商圈中迭代找出最匹配的样本即为最优解；

其中，第一阶段的具体过程如下：

采用地址分词的方法，先根据特定的几个商圈的地址信息特征创建词典，根据词典将地址信息进行切词处理，从而将地址字符串转换为分词向量；在此，使用Jaccard算法，计算绘图样本的词向量和抓取样本的词向量的相似系数；

Jaccard系数，度量方式如下：

f₁₁表示A和B对应位都是1的属性的数量；

f₁₀表示A中为1，B中对应位为0的总数量；

f₀₁表示A中为0，B中对应位为1的总数量；

通过阈值的设定，将分词结果的相似系数大于0.4的样本纳入下一轮匹配工作的样本池。