CN112783963B - 基于商圈划分的企业线下与线上多源数据整合方法及装置 - Google Patents

基于商圈划分的企业线下与线上多源数据整合方法及装置 Download PDF

Info

Publication number
CN112783963B
CN112783963B CN202110287069.7A CN202110287069A CN112783963B CN 112783963 B CN112783963 B CN 112783963B CN 202110287069 A CN202110287069 A CN 202110287069A CN 112783963 B CN112783963 B CN 112783963B
Authority
CN
China
Prior art keywords
business
matching
stage
sample
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110287069.7A
Other languages
English (en)
Other versions
CN112783963A (zh
Inventor
谭继军
李阳
谢蓬莲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Shuzhe Data Technology Co ltd
Original Assignee
Shanghai Digital Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Digital Data Technology Co ltd filed Critical Shanghai Digital Data Technology Co ltd
Priority to CN202110287069.7A priority Critical patent/CN112783963B/zh
Publication of CN112783963A publication Critical patent/CN112783963A/zh
Application granted granted Critical
Publication of CN112783963B publication Critical patent/CN112783963B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于商圈划分的企业线下与线上多源数据整合方法,包括下述几个阶段:第一阶段:对线上的百万级样本数据进行商圈匹配,主要完成将大量的抓取样本放入特定商圈的工作,以便降低下一步匹配样本所在商场的计算量,提高匹配效率和精度;第二阶段:对各个1级商圈进行操作,将每个样本在某些商圈的可能性做出预测,并对可能的1.5级商圈进行排序匹配;第三阶段:分别就地址、商户名和门牌号综合计算相似性得分匹配。本发明将线上的企业数据与线下的经营实体对应,拓宽了企业信息的维度,通过程序化的方法,减轻了人工匹配的工作量;另外,本发明还提供一种基于商圈划分的企业线下与线上多源数据整合装置,便于实现多源数据的整合。

Description

基于商圈划分的企业线下与线上多源数据整合方法及装置
技术领域
本发明涉及商圈数据整合技术领域,具体涉及一种基于商圈划分的企业线下与线上多源数据整合方法;另外,本发明还涉及基于商圈划分的企业线下与线上多源数据整合装置。
背景技术
小微企业存在注册名称和实际经营的招牌名称不一致、注册地址和实际经营地址的不一致等情况,导致一个企业尤其是小微企业的线下数据和工商注册数据难以匹配,在仅了解企业线下信息的基础上,很难获取企业更多的线上数据。企业线下数据与线上数据难以匹配的原因主要有以下几点:
1.数据的异构性和不同源性,企业线上数据和线下数据的生产者不同,数据结构差异较大;同时,同类数据的质量也存在较大差异,传统的字符匹配算法难以发挥作用。
2.数据量大和多层次性,基于商圈划分的企业数据具有多层次性,为匹配带来较大难度。
发明内容
本发明的目的在于提供基于商圈划分的企业线下与线上多源数据整合方法,本发明将线上的企业数据与线下的经营实体对应,拓宽了企业信息的维度,通过程序化的方法,减轻了人工匹配的工作量,提高了工作效率;
另外,本发明还提供一种基于商圈划分的企业线下与线上多源数据整合装置,便于实现多源数据的整合。
为解决上述技术问题,本发明所采用的技术方案是:
一种基于商圈划分的企业线下与线上多源数据整合方法,其特征在于,包括下述几个阶段:
第一阶段:对线上的百万级样本数据进行商圈匹配,主要完成将大量的抓取样本放入特定商圈的工作,以便降低下一步匹配样本所在商场的计算量,提高匹配效率和精度;
第二阶段:对各个1级商圈进行操作,将每个样本在某些商圈的可能性做出预测,并对可能的1.5级商圈进行排序匹配;
第三阶段:分别就地址、商户名和门牌号综合计算相似性得分匹配;
其中,第一阶段的具体过程如下:
采用地址分词的方法,先根据特定的几个商圈的地址信息特征创建词典,根据词典将地址信息进行切词处理,从而将地址字符串转换为分词向量;在此,我使用Jaccard算法,计算绘图样本的词向量和抓取样本的词向量的相似系数;
Jaccard系数,度量方式如下:
Figure BDA0002980909440000021
通过阈值的设定,将分词结果的相似系数大于0.4(经过人工多次校验,Jaccard相似系数<0.4,匹配的精度会有一个断崖式地下跌。因此选择0.4作为进入下一轮匹配的阈值)的样本纳入下一轮匹配工作的样本池。
进一步优化,第二阶段的具体过程如下,
在第二阶段的匹配中,首先需要创建以2级商圈为基础的目标变量y,定义其为1.5级商圈,由此,将第二阶段的匹配问题转化为一个典型的有监督分类问题;
为了提高匹配的效率,并尽可能地充分利用特征集X的信息,将特征集和地址分词分拆开进行建模;一方面以GPS定位的经纬度信息纳入支持向量机(Support VectorMachine,SVM)学习过程。另一方面,为提高中文地址信息模型的泛化能力,采用半监督的随机森林(Semi-RandomForest)模型;
通过Platt扩展,利用Logistic回归,计算得到SVM和Semi-RandomForest的预测结果的条件概率,并依据概率值对预测结果进行排序,结果供第三阶段的匹配使用。
进一步优化,第三阶段的具体过程如下,
在现实的人工匹配过程中,地址信息、商户名、门牌号都是定序的;因此,在第三阶段为了实现更好的模拟人工匹配过程,采用考虑了字符串顺序的最长公共子序列(LongestCommon Substirng,LCS)动态规划算法;
LCS动态规划算法的目的在于,对address1=cnblogs和address2=belong两个样本地址,其长度分别为7和6,找出两个地址中的最长为4的公共blog;
依据上述算法,分别对样本的地址、门牌、商户名进行LCS计算相似度得分,再根据预先设定好的权重向量对该组结果进行加权,得到最终的相似度得分;计算过程,将在第二阶段的1.5级商圈排序结果上进行迭代:即,一条抓取样本在各个可能性较高的1.5级商圈中迭代找出最匹配的样本(加权后的LCS得分最高的样本)即为最优解。
另外,本发明还公开了一种基于商圈划分的企业线下与线上多源数据整合装置,包括数据读取模块、线上数据处理模块、线下数据处理模块和匹配模块,其中,数据读取模块,用于读取待匹配的数据表;线上数据处理模块,用于规范线上数据结构,做数据的匹配预处理;线下数据处理模块,用于规范线下数据结构,做数据的匹配预处理;匹配模块,用于线上数据与线下数据的匹配。
与现有技术相比,本发明具有以下有益效果:
本发明将线上的企业数据与线下的经营实体对应,拓宽了企业信息的维度,通过程序化的方法,减轻了人工匹配的工作量,提高了工作效率;并且能够实现企业的经营实体数据与线上互联网公开数据的精准匹配;目前,市面上基本上没有基于小微的线下门店数据和线上工商数据的匹配算法、程序等(均是在商业场景下要求小微商户主动提供工商信息)。
本发明中所提到的线下数据与线上数据匹配的算法不仅仅适用于本公司自身数据库的匹配,对于在百度地图上爬取的小微商户门店信息和工商信息的匹配也同样适用。
本发明填补了市场上的空白。通过商圈划分、提取商圈关键特征集和机器学习的方法提高匹配率,通过本发明,为涉及小微商户/企业的各类商业和非商业场景提供一种主动发现商户工商信息的方式,在服务效率、服务质量和反欺诈等方面发挥积极作用。
附图说明
为了更清楚地说明本发明实施方式的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明第一阶段的具体流程示意图。
图2为本发明第二阶段的具体流程示意图。
图3为本发明第三阶段的具体流程示意图。
图4为本发明所述数据采集装置整体结构是示意图。
附图标记:1-手持支架,2-壳体,3-高清摄像机,4-无线信号发送装置。
具体实施方式
下面结合实施例对本发明作进一步的描述,所描述的实施例仅仅是本发明一部分实施例,并不是全部的实施例。基于本发明中的实施例,本领域的普通技术人员在没有做出创造性劳动前提下所获得的其他所用实施例,都属于本发明的保护范围。
实施例一
本实施例公开了一种基于商圈划分的企业线下与线上多源数据整合方法,包括下述几个阶段:
第一阶段:对线上的百万级样本数据进行商圈匹配,主要完成将大量的抓取样本放入特定商圈的工作,以便降低下一步匹配样本所在商场的计算量,提高匹配效率和精度;
第二阶段:对各个1级商圈进行操作,将每个样本在某些商圈的可能性做出预测,并对可能的1.5级商圈进行排序匹配;
第三阶段:分别就地址、商户名和门牌号综合计算相似性得分匹配;
其中,第一阶段的具体过程如下,如说明书附图1所示:
采用地址分词的方法,先根据特定的几个商圈的地址信息特征创建词典,根据词典将地址信息进行切词处理,从而将地址字符串转换为分词向量;在此,我使用Jaccard算法(另外,我们还采用了余弦相似度量、LCS相似度量等方法。经比较发现,Jaccard算法在运算效率和精度上可以较好协调),计算绘图样本的词向量和抓取样本的词向量的相似系数;
Jaccard系数,度量方式如下:
Figure BDA0002980909440000061
通过阈值的设定,将分词结果的相似系数大于0.4(经过人工校验,Jaccard相似系数<0.4,匹配的精度会有一个断崖式地下跌。因此选择0.4作为进入下一轮匹配的阈值)的样本纳入下一轮匹配工作的样本池。
其中,已知绘图样本的词向量A和抓取样本的词向量B,A和B每个集合都含有n个二元的属性,即每个属性都是0或1,此处的属性来自即特征字典,如“成都”,指标为0表示词向量中没有“成都”一词,指标为1,表示词向量中有“成都”一词;
f11表示A和B对应位都是1的属性的数量;
f10表示A中为1,B中对应位为0的总数量;
f01表示A中为0,B中对应位为1的总数量;
本阶段通过计算相似度系数对样本进行一级商圈划分。
其中,第二阶段的具体过程如下,如说明书附图2所示,
在第二阶段的匹配中,首先需要创建以2级商圈为基础的目标变量y,定义其为1.5级商圈,由此,将第二阶段的匹配问题转化为一个典型的有监督分类问题;
为了提高匹配的效率,并尽可能地充分利用特征集X的信息,将特征集和地址分词分拆开进行建模;一方面以GPS定位的经纬度信息纳入支持向量机(Support VectorMachine,SVM)学习过程。另一方面,为提高中文地址信息模型的泛化能力,采用半监督的随机森林(Semi-RandomForest)模型;
通过Platt扩展,利用Logistic回归,计算得到SVM和Semi-RandomForest的预测结果的条件概率,并依据概率值对预测结果进行排序,结果供第三阶段的匹配使用。
进一步细化,第三阶段的具体过程如下,如说明书附图3所示:
在现实的人工匹配过程中,地址信息、商户名、门牌号都是定序的;因此,在第三阶段为了实现更好的模拟人工匹配过程,采用考虑了字符串顺序的最长公共子序列(LongestCommon Substirng,LCS)动态规划算法;
LCS动态规划算法的目的在于,对address1=cnblogs和address2=belong两个样本地址,其长度分别为7和6,找出两个地址中的最长为4的公共blog;
具体实施方式如下:
Figure BDA0002980909440000071
具体实施步骤如下:
L[7,6]=matrix(0,7,6)(定义L为7行6列,值为0的矩阵)
for m in 1to 7
for n in 1to 6
if address1[m]==address2[n]
L[m,n]=L[m-1,n-1]+1
else
L[m,n]=max{L[m,n-1],L[m-1,n]}
lcs_score=L[m,n]/min(m,n)
最后从L[7,6]中的数字一定是该矩阵中最大的,且这个数字就是最长公共子序列的长度。
依据上述算法,分别对样本的地址、门牌、商户名进行LCS计算相似度得分,再根据预先设定好的权重向量对该组结果进行加权,得到最终的相似度得分;计算过程,将在第二阶段的1.5级商圈排序结果上进行迭代:即,一条抓取样本在各个可能性较高的1.5级商圈中迭代找出最匹配的样本(加权后的LCS得分最高的样本)即为最优解。
下面结合具体的实施方式对本发明做进一步说明:
在实际匹配时,第一步的目的是将零散二庞大的线上数据分别匹配到相应的一级商圈中
读取线下数据库和线上数据库数据,分别对所有样本地址按照省、市、县、门牌号等特征进行切分进行地址切分,然后计算线上和线下的样本数据相似度系数,相似度系数大于0.4的,视作同一商圈(匹配成功),即将线上样本划分到线下样本的所在一级商圈
1级商圈信息匹配完成后,在每个一级商圈中还有若干个1.5级商圈(所属街道、商场等),为了进一步识别样本所属的1.5级商圈,采用主动学习算法,一方面将样本的经纬度信息(线上样本来自绘图时的GPS定位、线上数据来自地图爬取信息)纳入支持向量机(Support Vector Machine,SVM)学习过程,另一方面,对地址分词采用半监督的随机森林(Semi-RandomForest)模型;通过Platt扩展,利用Logistic回归,计算得到SVM和Semi-RandomForest的预测结果的条件概率,并依据概率值对预测结果进行排序,获得每个样本可能的1.5级商圈名单及概率排名。
最后根据1.5级商圈的概率排名从高到底依次迭代,分别计算线上数据的地址、门牌号、商户名与1.5级商圈内的所有线下绘图数据的最长公共子序列(LCS),最终LCS根据权重得到综合LCS得分,最终LCS得分最高的样本即为线上数据的匹配样本。
本发明将线上的企业数据与线下的经营实体对应,拓宽了企业信息的维度,通过程序化的方法,减轻了人工匹配的工作量,提高了工作效率;并且能够实现企业的经营实体数据与线上互联网公开数据的精准匹配;目前,市面上基本上没有基于小微的线下门店数据和线上工商数据的匹配算法、程序等(均是在商业场景下要求小微商户主动提供工商信息)。本发明中所提到的线下数据与线上数据匹配的算法不仅仅适用于本公司自身数据库的匹配,对于在百度地图上爬取的小微商户门店信息和工商信息的匹配也同样适用。本发明填补了市场上的空白。通过商圈划分、提取商圈关键特征集和机器学习的方法提高匹配率,通过本发明,为涉及小微商户/企业的各类商业和非商业场景提供一种主动发现商户工商信息的方式,在服务效率、服务质量和反欺诈等方面发挥积极作用。
另外,在本实施例中,还公开了一种基于商圈划分的企业线下与线上多源数据整合装置,包括数据读取模块、线上数据处理模块、线下数据处理模块和匹配模块,其中,
数据读取模块,用于读取待匹配的数据表;
线上数据处理模块,用于规范线上数据结构,做数据的匹配预处理;
线下数据处理模块,用于规范线下数据结构,做数据的匹配预处理;
匹配模块,用于线上数据与线下数据的匹配。
在实际的使用中,通过一数据采集装置来实现第三阶段中的地址、商户名和门牌号进行采集。
其中,为了实现数据的快速采集,采用专门的数据采集装置进行数据的采集;其结构如下:
包括手持支架1,手持支架1上设置有壳体2,壳体2上安装有高清摄像机3和无线信号发送装置4,在壳体2内设置有存储器、数据处理器、GPS定位装置;高清摄像机3与存储器及数据处理器连接,数据处理器与无线发送装置连接;
在实际的使用中,通过设置的GPS定位装置来进行实时的定位,工作人员通过高清摄像机3来对商户的门牌号信息进行获取,同时将获取的图像信息进行实时存储,然后将图像信息发送至数据处理器处,通过数据处理器来对数据进行分析处理,将图片信息中的门牌号信息、商户名信息进行提取,然后将门牌号信息、商户名信息以及定位装置获取的位置信息打包后统一通过无线发射装置发送至服务器中进行存储。
进一步优化,在实际的使用中,手持支架1上设置有显示终端,显示终端与数据处理器连接;这样,在实际的使用中,数据处理器将图片数据分析处理后,通过设置的显示终端能够实现数据的再次核对,以保证上传服务器的数据的准确性。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,应当指出的是,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (1)

1.基于商圈划分的企业线下与线上多源数据整合方法,其特征在于,包括下述几个阶段:
第一阶段:对线上的百万级样本数据进行商圈匹配,完成将大量的抓取样本放入特定商圈的工作,以便降低下一步匹配样本所在商场的计算量,提高匹配效率和精度;
第二阶段:对各个1级商圈进行操作,将每个样本在某些商圈的可能性做出预测,并对可能的1.5级商圈进行排序匹配;
第二阶段的具体过程如下,
在第二阶段的匹配中,首先需要创建以2级商圈为基础的目标变量y,定义其为1.5级商圈;
为了提高匹配的效率,并尽可能地充分利用特征集X的信息,将特征集和地址分词分拆开进行建模;一方面以GPS定位的经纬度信息纳入支持向量机学习过程;另一方面,为提高中文地址信息模型的泛化能力,采用半监督的随机森林模型;通过Platt扩展,利用Logistic回归,计算得到SVM和Semi-RandomForest的预测结果的条件概率,并依据概率值对预测结果进行排序,结果供第三阶段的匹配使用;
第三阶段:分别就地址、商户名和门牌号综合计算相似性得分匹配;
第三阶段的具体过程如下,
在现实的人工匹配过程中,地址信息、商户名、门牌号都是定序的;因此,在第三阶段为了实现更好的模拟人工匹配过程,采用考虑了字符串顺序的最长公共子序列动态规划算法;
LCS动态规划算法的目的在于,对address1=cnblogs和address2=belong两个样本地址,其长度分别为7和6,找出两个地址中的最长为4的公共blog;
具体实施步骤如下:
L[7,6] = matrix(0,7,6) ,定义L为7行6列,值为0的矩阵;
for m in 1 to 7
for n in 1 to 6
if address1[m] == address2[n]
L[m,n] = L[m - 1, n -1] + 1
else
L[m,n] = max{L[m,n - 1],L[m - 1, n]}
lcs_score = L[m,n]/min(m,n)
最后L[7,6]中的数字一定是该矩阵中最大的,且这个数字就是最长公共子序列的长度;
依据上述算法,分别对样本的地址、门牌、商户名进行LCS计算相似度得分,再根据预先设定好的权重向量对该组结果进行加权,得到最终的相似度得分;计算过程将在第二阶段的1.5级商圈排序结果上进行迭代:即,一条抓取样本在各个可能性较高的1.5级商圈中迭代找出最匹配的样本即为最优解;
其中,第一阶段的具体过程如下:
采用地址分词的方法,先根据特定的几个商圈的地址信息特征创建词典,根据词典将地址信息进行切词处理,从而将地址字符串转换为分词向量;在此, 使用Jaccard算法,计算绘图样本的词向量和抓取样本的词向量的相似系数;
Jaccard系数,度量方式如下:
f11表示A和B对应位都是1的属性的数量;
f10表示A中为1,B中对应位为0的总数量;
f01表示A中为0,B中对应位为1的总数量;
通过阈值的设定,将分词结果的相似系数大于0.4的样本纳入下一轮匹配工作的样本池。
CN202110287069.7A 2021-03-17 2021-03-17 基于商圈划分的企业线下与线上多源数据整合方法及装置 Active CN112783963B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110287069.7A CN112783963B (zh) 2021-03-17 2021-03-17 基于商圈划分的企业线下与线上多源数据整合方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110287069.7A CN112783963B (zh) 2021-03-17 2021-03-17 基于商圈划分的企业线下与线上多源数据整合方法及装置

Publications (2)

Publication Number Publication Date
CN112783963A CN112783963A (zh) 2021-05-11
CN112783963B true CN112783963B (zh) 2023-04-28

Family

ID=75762730

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110287069.7A Active CN112783963B (zh) 2021-03-17 2021-03-17 基于商圈划分的企业线下与线上多源数据整合方法及装置

Country Status (1)

Country Link
CN (1) CN112783963B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105574014A (zh) * 2014-10-13 2016-05-11 北京明略软件系统有限公司 一种商圈划分方法及系统
WO2019179173A1 (zh) * 2018-03-20 2019-09-26 阿里巴巴集团控股有限公司 一种商圈判定方法和装置
CN111080377A (zh) * 2019-12-31 2020-04-28 苏宁云计算有限公司 一种商圈数据的生成方法、系统及装置
CN111178975A (zh) * 2019-12-31 2020-05-19 北京顺达同行科技有限公司 一种商圈的划分方法、装置、电子设备及存储介质

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7392240B2 (en) * 2002-11-08 2008-06-24 Dun & Bradstreet, Inc. System and method for searching and matching databases
CN101350012B (zh) * 2007-07-18 2013-01-16 北京灵图软件技术有限公司 一种地址匹配的方法和系统
US8738486B2 (en) * 2007-12-31 2014-05-27 Mastercard International Incorporated Methods and apparatus for implementing an ensemble merchant prediction system
CN104462059B (zh) * 2014-12-01 2017-06-30 银联智惠信息服务(上海)有限公司 商户地址信息识别方法和装置
CN108427710B (zh) * 2018-01-26 2020-05-08 金蝶软件(中国)有限公司 企业数据可视化处理方法、服务器和存储介质
CN108846422B (zh) * 2018-05-28 2021-08-31 中国人民公安大学 跨社交网络的账号关联方法及系统
CN110796470B (zh) * 2019-08-13 2023-09-01 广州中国科学院软件应用技术研究所 一种面向市场主体监管和服务的数据分析系统
CN111241153A (zh) * 2019-12-31 2020-06-05 成都数联铭品科技有限公司 企业自然人实体综合判断对齐方法及系统
CN111489254A (zh) * 2020-04-14 2020-08-04 上海数喆数据科技有限公司 基于历史信用大数据的信贷风险评估智能引擎系统
CN112184290A (zh) * 2020-09-11 2021-01-05 北京三快在线科技有限公司 一种信息推荐方法、装置、电子设备及存储介质
CN112330342A (zh) * 2020-11-11 2021-02-05 佰聆数据股份有限公司 企业名称与系统用户名称优化匹配的方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105574014A (zh) * 2014-10-13 2016-05-11 北京明略软件系统有限公司 一种商圈划分方法及系统
WO2019179173A1 (zh) * 2018-03-20 2019-09-26 阿里巴巴集团控股有限公司 一种商圈判定方法和装置
CN111080377A (zh) * 2019-12-31 2020-04-28 苏宁云计算有限公司 一种商圈数据的生成方法、系统及装置
CN111178975A (zh) * 2019-12-31 2020-05-19 北京顺达同行科技有限公司 一种商圈的划分方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN112783963A (zh) 2021-05-11

Similar Documents

Publication Publication Date Title
CN111724083B (zh) 金融风险识别模型的训练方法、装置、计算机设备及介质
CN108288067A (zh) 图像文本匹配模型的训练方法、双向搜索方法及相关装置
US20150161529A1 (en) Identifying Related Events for Event Ticket Network Systems
CN108388559A (zh) 地理空间应用下的命名实体识别方法及系统、计算机程序
CN110781413B (zh) 兴趣点确定方法及装置、存储介质、电子设备
WO2020224220A1 (zh) 基于知识图谱的问答方法、电子装置、设备及存储介质
CN110147494A (zh) 信息搜索方法、装置,存储介质及电子设备
CN114168841A (zh) 内容推荐方法及其装置
CN115186197A (zh) 一种基于端到端双曲空间的用户推荐方法
CN116311323A (zh) 基于对比学习的预训练文档模型对齐优化方法
CN116701734B (zh) 地址文本的处理方法、设备及计算机可读存储介质
CN112783963B (zh) 基于商圈划分的企业线下与线上多源数据整合方法及装置
CN116756281A (zh) 知识问答方法、装置、设备和介质
CN114821248B (zh) 面向点云理解的数据主动筛选标注方法和装置
Kim et al. Towards a fairer landmark recognition dataset
Zhang et al. Wild plant data collection system based on distributed location
CN112633381B (zh) 音频识别的方法及音频识别模型的训练方法
CN112330387B (zh) 一种应用于看房软件的虚拟经纪人
CN114647785A (zh) 基于情感分析的短视频获赞数量预测方法
CN113469752A (zh) 内容推荐方法、装置、存储介质及电子设备
CN114329236A (zh) 一种数据处理方法及装置
US11921806B2 (en) Rearranging tags on a graphical user interface (GUI) based on known and unknown levels of web traffic
CN117456312B (zh) 一种面向无监督图像检索的模拟抗污伪标签增强方法
US20240184840A1 (en) Rearranging tags on a graphical user interface (gui) based on known and unknown levels of web traffic
Wang et al. The application of deep learning algorithm in marketing intelligence

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: No.60 Guohe Road, Yangpu District, Shanghai

Patentee after: Shanghai Shuzhe Data Technology Co.,Ltd.

Country or region after: China

Address before: No.60 Guohe Road, Yangpu District, Shanghai

Patentee before: Shanghai Digital Data Technology Co.,Ltd.

Country or region before: China

CP03 Change of name, title or address