CN110648043A - 基于地址信息的分析方法、装置、电子设备及存储介质 - Google Patents
基于地址信息的分析方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN110648043A CN110648043A CN201910684522.0A CN201910684522A CN110648043A CN 110648043 A CN110648043 A CN 110648043A CN 201910684522 A CN201910684522 A CN 201910684522A CN 110648043 A CN110648043 A CN 110648043A
- Authority
- CN
- China
- Prior art keywords
- seller
- information
- longitude
- address information
- buyer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Educational Administration (AREA)
- Operations Research (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于地址信息的分析方法,包括:获取发票中的销售方与购买方的地址信息;将所述销售方与购买方的地址信息解析成经纬度信息;结构化处理所述经纬度信息;对所述销售方对应的经纬度信息进行聚类,得到每类经纬度信息的聚类中心;确定与所述购买方的地址信息匹配的聚类中心;及根据匹配的聚类中心对应的销售方进行风险提示。本发明还提供一种基于地址信息的分析装置、电子设备及存储介质。通过本发明可以能够有效地利用发票上的地址对企业进行分析。
Description
技术领域
本发明涉及计算机技术领域,具体涉及一种基于地址信息的分析方法、装置、电子设备及存储介质。
背景技术
随着互联网技术的不断发展,根据业务需要,可以对已存在合作关系的企业重新进行风险评估,并作出相关风险提示,以免造成不必要的损失。目前已经出现由人工收集企业相关的信息转换为利用互联网技术收集数据,将用户根据经验判断企业风险改为分析收集数据结果来进行企业风险评估。目前进行企业风险评估时需采集的数据包括发票、税务等。虽然发票可以作为企业采集数据中重要组成部分,但是一般企业仅用发票进行财务统计和对账,并没有对发票上的相关信息进行合理利用。例如,发票上的购买方与销售方的地址作为非结构化数据较少得到有效利用。
发明内容
鉴于以上内容,有必要提出一种基于地址信息的分析方法、装置、电子设备及存储介质,能够有效地利用发票上的地址对企业进行分析。
本发明的第一方面提供一种基于地址信息的分析方法,所述方法包括:
获取发票中的销售方与购买方的地址信息;
将所述销售方与购买方的地址信息解析成经纬度信息;
结构化处理所述经纬度信息;
对所述销售方对应的经纬度信息进行聚类,得到每类经纬度信息的聚类中心;
确定与所述购买方的地址信息匹配的聚类中心;及
根据匹配的聚类中心对应的销售方进行风险提示。
优选地,在获取发票中的销售方与购买方的地址信息之前,所述方法还包括:
利用OCR技术识别所述发票中的销售方与购买方的地址信息。
优选地,所述结构化处理所述经纬度信息包括:
将包含所述经纬度信息的非结构化数据通过统一的接口转换为标准结构文件;
提取所述标准结构文件中的内容,并将其转换为XML文档;
提取所述标准结构文件中的结构生成文件模板;
根据生成的文件模板创建仿真结果表结构;
将提取的数据内容插入到已经创建好的结果表中。
优选地,所述统一的接口为将不同结构文件转换成标准结构文件的接口;所述标准结构文件是指将所述非结构化数据包含的不同结构的文件进行统一格式后得到的文件。
优选地,所述根据匹配的聚类中心对应的销售方信息进行风险提示包括:
根据所述经纬度信息计算所述销售方所在地理位置与所述购买方所在地理位置之间的距离;
判断所述距离是否小于预设距离;
当所述距离小于预设距离时,确认在所述预设距离内的购买方企业的数量是否大于预设数量;及
当所述预设距离内的购买方企业的数量大于所述预设数量时,发送业务单一风险提示信息至所述预设距离内的销售方企业。
优选地,所述根据匹配的聚类中心对应的销售方信息进行风险提示包括:
根据所述经纬度信息计算所述销售方所在地理位置与所述购买方所在地理位置之间的距离;
判断所述距离是否小于预设距离;
当所述距离小于预设距离时,将在所述预设距离内的销售方对应的企业聚集成第一类企业;
确认所述第一类企业中是否有企业出现过欺诈行为;
发送欺诈风险提示信息至所述第一类企业中与所述出现过欺诈行为的企业有业务往来的其他企业。
优选地,所述结构化处理所述经纬度信息之前,所述方法还包括:
以不同的文件形式存储所述经纬度信息。
本发明的第二方面提供一种基于地址信息的分析装置,所述装置包括:
获取模块,用于获取发票中的销售方与购买方的地址信息;
解析模块,用于将所述销售方与购买方的地址信息解析成经纬度信息;
处理模块,用于结构化处理所述经纬度信息;及
聚类模块,用于对所述销售方对应的经纬度信息进行聚类,得到每类经纬度信息的聚类中心;
确定模块,用于确定与所述购买方的地址信息匹配的聚类中心;及
提示模块,用于根据匹配的聚类中心对应的销售方进行风险提示。
本发明的第三方面提供一种电子设备,所述电子设备包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现所述基于地址信息的分析方法。
本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述基于地址信息的分析方法。
本发明所述的基于地址信息的分析方法、装置、电子设备及存储介质。本发明通过获取发票中的销售方与购买方的地址信息;将所述销售方与购买方的地址信息解析成经纬度信息,结构化处理所述经纬度信息并对所述销售方与购买方的地址对应的经纬度信息进行聚类分析。实现将非结构化数据进行结构化转换,方便用户根据发票上的地址信息进行企业聚类分析,并发送风险提示信息至聚类分析结果中对应的销售方企业。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1是本发明实施例一提供的基于地址信息的分析方法的流程图。
图2是本发明实施例二提供的本发明基于地址信息的分析装置较佳实施例中的功能模块图。
图3是本发明实施例三提供的电子设备的示意图。
如下具体实施方式将结合上述附图进一步说明本发明。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”和“第三”等是用于区别不同对象,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例的基于地址信息的分析应用在电子设备中。所述对于需要进分析的电子设备,可以直接在电子设备上集成本发明的方法所提供的分析功能,或者安装用于实现本发明的方法的客户端。再如,本发明所提供的方法还可以以软件开发工具包(SoftwareDevelopment Kit,SDK)的形式运行在服务器等设备上,以SDK的形式提供分析功能的接口,电子设备或其他设备通过提供的接口即可实现分析功能。
实施例一
图1是本发明实施例一提供的基于地址信息的分析方法的流程图。根据不同的需求,该流程图中的执行顺序可以改变,某些步骤可以省略。
步骤S1、获取发票中的销售方与购买方的地址信息。
在本实施方式中,所述发票的票面至少包括销售方与购买方名称、地址和电话等信息。
在本实施方式中,所述发票可以是纸质发票,也可以是电子发票。所述电子发票是信息时代的产物,其实质内容及作用与所述纸质发票一致。
优选地,在获取发票中的销售方与购买方的地址信息之前,所述基于地址信息的分析方法还包括:
利用OCR技术识别所述发票中的销售方与购买方的地址信息的步骤。
具体地,通过利用OCR技术识别发票的文字信息,从而获取销售方与购买方的地址信息。
当所述发票为纸质发票时,需要先扫描所述纸质发票,以获取所述纸质发票上的信息,再利用所述OCR技术识别所述纸质发票上的文字信息,从而获取销售方与购买方的地址信息;当所述发票为电子发票时,直接利用所述OCR技术识别所述电子发票上的文字信息,从而获取销售方与购买方的地址信息。
所述利用OCR技术识别纸质发票中的销售方与购买方的地址信息的步骤包括:
a)对扫描后的纸质发票进行预处理。所述预处理过程通常包含:灰度化、二值化、降噪、倾斜矫正、文字切分等子步骤,以便后续的特征提取和学习。
b)识别预处理后的纸质发票中的销售方与购买方的地址信息。所述过程包括特征提取和降维、分类器设计、训练以及优化处理。
所述特征提取用于识别文字的关键信息,每个不同的文字都能通过特征来和其他文字进行区分。在确定了特征之后再进行特征降维,以降低数据处理难度,提升识别速度。
通过分类器对降维后的特征进行分类,以根据所述特征识别成对应的文字。分类器的设计方法一般有:模板匹配法、判别函数法、神经网络分类法、基于规则推理法等。在进行文字识别前,往往还要对分类器进行训练,这是一个监督学习的过程,在此不赘述。
最后对分类器的分类结果进行优化而获取所述销售方与购买方的地址信息。所述优化过程一般包括形近字的处理和文字排版的处理。
步骤S2、将所述销售方与购买方的地址信息解析成经纬度信息。
在本实施例中,由于销售方与购买方的地址信息是真实的地理地址,因此可以通过地理信息系统(Geographic Information System,GIS)将用户的地址信息转换成经纬度数据。例如,将北京市昌平区北葛路转换成经度116.091426,纬度50.16966。
优选地,所述基于地址信息的分析方法还包括以不同的文件形式存储所述经纬度信息的步骤。
可以理解的是,所述经纬度信息可以以word文件形式或excel表形式进行存储。
步骤S3、结构化处理所述经纬度信息。
在本实施方式中,为了便于数据管理,可以将包含所述经纬度信息的非结构化数据转换成结构化数据。具体地,可以通过先将所述非结构化数据转换为半结构化数据,再将所述半结构化数据转换为结构化数据的方式,来实现将所述非结构化数据转化为结构化数据的目的。
所述将包含所述经纬度信息的非结构化数据转换成结构化数据包括:
(1)将包含所述经纬度信息的非结构化数据通过统一的接口转换为标准结构文件。
在本实施方式中,所述接口为将不同结构文件转换成标准结构文件的接口。所述标准结构文件是指将所述非结构化数据包含的不同结构的文件进行统一格式后得到的文件。
具体地,所述非结构化数据包括不同结构文件,将所述不同结构文件转换为XML文档的读写方法又不同。例如当包含有经纬度信息的文件为word文档时,可以通过使用Jacob技术对word文档内容进行读取,再按照XML的语法要求将转换后的数据写入到XML文档中,从而完成word文档到XML文档的转换;当包含有经纬度信息的文件excel文档时,可以通过使用Java EXCEL API读取excel文档中所有单元格的内容及格式,并按照XML的语法要求将转换后的数据写入到XML文档中,从而完成excel文档到XML文档的转换。因此,需要一个统一的转换接口,将文件加以区分,分别用不同的程序对文件的结构进行转换,使其成为标准结构文件。
(2)提取所述标准结构文件中的内容,并将其转换为XML文档。
在本实施方式中,所述标准结构文件中的内容包括经纬度信息。
(3)提取所述标准结构文件中的结构生成文件模板。
例如,在本实施方式中,所述标准结构文件中的结构包括文件的字段名、字段类型、索引等创建数据库表的基本信息。所述基本信息主要用于Oracle数据库中仿真结果表结构的创建,并存储在Oracle数据库的文件模板表中,以便后续的操作与管理。
(4)根据生成的文件模板创建仿真结果表结构。
在本实施方式中,通过结构映射和语义映射,将生成的文件目标在数据库中创建仿真结果表结构。其中,表的信息主要包括表名、字段名、数据类型、字段长度、值约束、主外键约束等。根据生成的文件模板中的信息读取相应的XML文档,并解析所述XML文档以提取其中的数据内容。可以理解的是,在这里可以使用解析工具将XML文档进行解析。
(5)将提取的数据内容插入到已经创建好的结果表中,完成半结构化到结构化的数据转换。
步骤S4、对所述销售方对应的经纬度信息进行聚类,得到每类经纬度信息的聚类中心。
在本实施方式中,对所述销售方与购买方的地址对应的经纬度信息进行聚类分析。通过聚类分析算法对所述销售方与购买方的地址对应的经纬度信息进行聚类分析,以分析购买方的购货需求。
所述聚类分析算法可以为以下算法中的一种或多种组合:基于划分的聚类算法、基于层次的聚类算法、基于密度的聚类算法、基于网格的聚类算法和基于模型的聚类方法。
例如,采用K均值算法,以所述多个销售方的地址对应的经纬度信息作为样本,从所述样本中随机选取预设数目个经纬度信息作为初始的聚类中心进行聚类,得到每类地理位置的聚类中心。
步骤S5、确定与所述购买方的地址信息匹配的聚类中心。
在本实施方式中,根据购买方的地址确定与所述购买方的地址匹配的聚类中心,提取与所述匹配的聚类中心对应的销售方信息,并将匹配的聚类中心对应的销售方地址,作为所述购买方的常用的购买方地址。从而,方便用户分析购买方的购物行为。
步骤S6、根据匹配的聚类中心对应的销售方进行风险提示。
在本实施方式中,所述根据匹配的聚类中心对应的销售方进行风险提示包括:
(a)根据所述经纬度信息计算所述销售方与所述购买方对应企业之间的距离。
(b)根据所述销售方与所述购买方对应企业之间的距离进行聚类分析后,发送风险提示信息至所述匹配的聚类中心对应的销售方。
在本实施方式中,我们假设地球是一个完美的球体,其半径就是地球的平均半径,记为R。如果以0度经线为基准,那么根据地球表面任意两点的经纬度就可以计算出这两点间的地表距离(这里忽略地球表面地形对计算带来的误差,仅仅是理论上的估算值)。那么根据所述销售方与所述购买方的经纬度就可以计算出所述销售方与所述购买方之间的地表距离(这里忽略地球表面地形对计算带来的误差,仅仅是理论上的估算值)。设所述销售方A的经纬度为(LonA,LatA),所述购买方B的经纬度为(LonB,LatB),按照0度经线的基准,东经取经度的正值(Longitude),西经取经度负值(-Longitude),北纬取90-纬度值(90-Latitude),南纬取90+纬度值(90+Latitude),则经过上述处理过后的两点被计为(MLonA,MLatA)和(MLonB,MLatB)。那么根据三角推导,可以得到计算两点距离的如下公式:
C=sin(MLatA)*sin(MLatB)*cos(MLonA-MLonB)+cos(MLatA)*cos(MLatB),
Distance=R*Arccos(C)*Pi/180,即销售方与所述购买方对应企业之间的距离。
在一实施方式中,所述销售方与所述购买方对应企业之间的距离进行位置聚类,将在预设距离内的销售方对应的企业聚集成第一类企业,并查询所述第一类企业中是否有企业出现过欺诈行为。若所述第一类企业中有企业出现过欺诈行为,则对所述第一类企业中其他具有与出现过欺诈行为的企业相似业务的企业进行风险提示,避免所述购买方对应的企业与所述第一类企业中其他具有与出现过欺诈行为的企业相似业务的企业进行业务往来造成损失。
例如,将所述销售方与所述购买方对应企业之间的距离小于50公里的企业作为第一类企业;再通过查询工商行政管理总局或企业信用信息公示系统确认所述第一类企业中是否有企业出现过欺诈行为;若所述第一类企业中有企业出现过欺诈行为,发送风险提示信息至所述第一类企业中与所述出现过欺诈行为的企业有业务往来的其他企业。例如所述第一类企业中A企业出现售卖假货的欺诈行为,发送风险提示信息至所述第一类企业中与A企业有业务往来的其他企业。或者对所述第一类企业中其他具有与A企业相似业务的企业进行风险提示,即发送A企业有售卖假货行为的提示信息至所述第一类企业中其他具有与A企业相似业务的企业。
在一实施方式中,通过计算所述销售方与所述购买方对应企业之间的距离,分析是否存在大于预设数量或预设比例的购买方企业所在位置与销售方企业所在位置之间的距离小于预设距离,即出现大部分购买方企业在销售方企业位置的附近,则所述销售方企业可能存在业务较单一的风险问题。
例如,通过计算所述销售方与所述购买方对应企业之间的距离,分析是否存在至少10家购买方企业所在位置与销售方企业所在位置之间的距离小于50公里的情况,或者50%所述购买方企业所在位置与销售方企业所在位置之间的距离小于50公里的情况。
若出现上述情况,则可认为销售方企业可能存在业务较单一的风险问题,发送提示信息至所述销售方企业。
在一实施方式中,通过所述销售方与所述购买方对应企业之间位置进行聚类,发现对应企业的购/销货渠道分布。若出现大量位置聚集且其中有欺诈购买方,应对该群体所有企业进行重点关注,防止团体欺诈的可能。
例如,通过分析购买方企业对应的销售方企业所在位置得到所述购买方企业的购货渠道分布;当存在超过预设数量的所述购买方企业对应的销售方企业所在位置聚集在50平方公里内时,查询所述销售方企业是否存在欺诈行为;若存在欺诈行为,则对所述50平方公里内的所有销售方企业进行重点关注,防止团体欺诈。
在一实施方式中,针对经纬度非常接近的企业之间的业务往来情况进行观察分析,即对于根据所述销售方与所述购买方对应企业之间的距离小于预设值的企业之间的业务往来情况进行分析,例如,查询所述销售方与所述购买方对应企业的发票信息,将循环相互有开票业务关系的企业视为疑似欺诈企业。
通过上述分析可以将在表面业务交易往来中看不到的欺诈风险点暴露出来,丰富了企业信贷风控体系,对于潜在基于位置服务(Location-Based Services,LBS)风险点进行预警,避免数据造假。
综上所述,本发明提供的基于地址信息的分析方法,所述方法包括获取发票中的销售方与购买方的地址信息;将所述销售方与购买方的地址信息解析成经纬度信息;根据所述经纬度信息计算所述销售方与所述购买方对应企业之间的距离;根据所述销售方与所述购买方对应企业之间的距离进行聚类分析企业欺诈行为。从而可以通过将地址信息解析为经纬度信息,实现将非结构化数据进行结构化转换,丰富了企业反欺诈数据及标签;再通过计算销售方与购买方对应企业的距离,从位置信息中识别出企业风险及欺诈可能。方便用户根据发票上的地址信息进行企业聚类分析,并发送风险提示信息至聚类分析结果中对应的销售方企业。
实施例二
图2为本发明基于地址信息的分析装置较佳实施例中的功能模块图。
在一些实施例中,所述基于地址信息的分析装置20(下文简称“分析装置20”)运行于服务器中。所述分析装置20可以包括多个由程序代码段所组成的功能模块。所述分析装置20中的各个程序段的程序代码可以存储于存储器中,并由至少一个处理器所执行,以执行(详见图1及其相关描述)基于地址信息的分析功能。
本实施例中,所述分析装置20根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:获取模块201、解析模块202、处理模块203、聚类模块204、确定模块205及提示模块206。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。在一些实施例中,关于各模块的功能将在后续的实施例中详述。
所述获取模块201用于获取发票中的销售方与购买方的地址信息。
在本实施方式中,所述发票的票面至少包括销售方与购买方名称、地址和电话等信息。
在本实施方式中,所述发票可以是纸质发票,也可以是电子发票。所述电子发票是信息时代的产物,其实质内容及作用与所述纸质发票一致。
优选地,在获取发票中的销售方与购买方的地址信息之前,所述基于地址信息的分析方法还包括:
利用OCR技术识别所述发票中的销售方与购买方的地址信息的步骤。
具体地,通过利用OCR技术识别发票的文字信息,从而获取销售方与购买方的地址信息。当所述发票为纸质发票时,需要先扫描所述纸质发票,以获取所述纸质发票上的信息,再利用所述OCR技术识别所述纸质发票上的文字信息,从而获取销售方与购买方的地址信息;当所述发票为电子发票时,直接利用所述OCR技术识别所述电子发票上的文字信息,从而获取销售方与购买方的地址信息。
所述利用OCR技术识别纸质发票中的销售方与购买方的地址信息的方法包括:
a)对扫描后的纸质发票进行预处理。所述预处理过程通常包含:灰度化、二值化、降噪、倾斜矫正、文字切分等子步骤,以便后续的特征提取和学习。
b)识别预处理后的纸质发票中的销售方与购买方的地址信息。所述过程包括特征提取和降维、分类器设计、训练以及优化处理。
所述特征提取用于识别文字的关键信息,每个不同的文字都能通过特征来和其他文字进行区分。在确定了特征之后再进行特征降维,以降低数据处理难度,提升识别速度。
通过分类器对降维后的特征进行分类,以根据所述特征识别成对应的文字。分类器的设计方法一般有:模板匹配法、判别函数法、神经网络分类法、基于规则推理法等。在进行文字识别前,往往还要对分类器进行训练,这是一个监督学习的过程,在此不赘述。
最后对分类器的分类结果进行优化而获取所述销售方与购买方的地址信息。所述优化过程一般包括形近字的处理和文字排版的处理。
所述解析模块202用于将所述销售方与购买方的地址信息解析成经纬度信息。
在本实施例中,由于销售方与购买方的地址信息是真实的地理地址,因此可以通过地理信息系统(Geographic Information System,GIS)将用户的地址信息转换成经纬度数据。例如,将北京市昌平区北葛路转换成经度116.091426,纬度50.16966。
优选地,所述分析装置20还可以以不同的文件形式存储所述经纬度信息。
可以理解的是,所述经纬度信息可以以word文件形式或excel表形式进行存储。
所述处理模块203用于结构化处理所述经纬度信息。
在本实施方式中,为了便于数据管理,可以将包含所述经纬度信息的非结构化数据转换成结构化数据。具体地,可以通过先将所述非结构化数据转换为半结构化数据,再将所述半结构化数据转换为结构化数据的方式,来实现将所述非结构化数据转化为结构化数据的目的。
所述将包含所述经纬度信息的非结构化数据转换成结构化数据包括:
(1)将包含所述经纬度信息的非结构化数据通过统一的接口转换为标准结构文件。
在本实施方式中,所述接口为将不同结构文件转换成标准结构文件的接口。所述标准结构文件是指将所述非结构化数据包含的不同结构的文件进行统一格式后得到的文件。
具体地,所述非结构化数据包括不同结构文件,将所述不同结构文件转换为XML文档的读写方法又不同。例如当包含有经纬度信息的文件为word文档时,可以通过使用Jacob技术对word文档内容进行读取,再按照XML的语法要求将转换后的数据写入到XML文档中,从而完成word文档到XML文档的转换;当包含有经纬度信息的文件excel文档时,可以通过使用Java EXCEL API读取excel文档中所有单元格的内容及格式,并按照XML的语法要求将转换后的数据写入到XML文档中,从而完成excel文档到XML文档的转换。因此,需要一个统一的转换接口,将文件加以区分,分别用不同的程序对文件的结构进行转换,使其成为标准结构文件。
(2)提取所述标准结构文件中的内容,并将其转换为XML文档。
在本实施方式中,所述标准结构文件中的内容包括经纬度信息。
(3)提取所述标准结构文件中的结构生成文件模板。
例如,在本实施方式中,所述标准结构文件中的结构包括文件的字段名、字段类型、索引等创建数据库表的基本信息。所述基本信息主要用于Oracle数据库中仿真结果表结构的创建,并存储在Oracle数据库的文件模板表中,以便后续的操作与管理。
(4)根据生成的文件模板创建仿真结果表结构。
在本实施方式中,通过结构映射和语义映射,将生成的文件目标在数据库中创建仿真结果表结构。其中,表的信息主要包括表名、字段名、数据类型、字段长度、值约束、主外键约束等。根据生成的文件模板中的信息读取相应的XML文档,并解析所述XML文档以提取其中的数据内容。可以理解的是,在这里可以使用解析工具将XML文档进行解析。
(5)将提取的数据内容插入到已经创建好的结果表中,完成半结构化到结构化的数据转换。
聚类模块204用于对所述销售方对应的经纬度信息进行聚类,得到每类经纬度信息的聚类中心。
在本实施方式中,对所述销售方与购买方的地址对应的经纬度信息进行聚类分析。通过聚类分析算法对所述销售方与购买方的地址对应的经纬度信息进行聚类分析,以分析购买方的购货需求。
所述聚类分析算法可以为以下算法中的一种或多种组合:基于划分的聚类算法、基于层次的聚类算法、基于密度的聚类算法、基于网格的聚类算法和基于模型的聚类方法。
例如,采用K均值算法,以所述多个销售方的地址对应的经纬度信息作为样本,从所述样本中随机选取预设数目个经纬度信息作为初始的聚类中心进行聚类,得到每类地理位置的聚类中心。
确定模块205用于确定与所述购买方的地址信息匹配的聚类中心。
在本实施方式中,根据购买方的地址确定与所述购买方的地址匹配的聚类中心,提取与所述匹配的聚类中心对应的销售方信息,并将匹配的聚类中心对应的销售方地址,作为所述购买方的常用的购买方地址。从而,方便用户分析购买方的购物行为。
提示模块206用于根据匹配的聚类中心对应的销售方进行风险提示。
在本实施方式中,所述根据匹配的聚类中心对应的销售方进行风险提示包括:
(a)根据所述经纬度信息计算所述销售方与所述购买方对应企业之间的距离。
(b)根据所述销售方与所述购买方对应企业之间的距离进行聚类分析后,发送风险提示信息至所述匹配的聚类中心对应的销售方。
在本实施方式中,我们假设地球是一个完美的球体,其半径就是地球的平均半径,记为R。如果以0度经线为基准,那么根据地球表面任意两点的经纬度就可以计算出这两点间的地表距离(这里忽略地球表面地形对计算带来的误差,仅仅是理论上的估算值)。那么根据所述销售方与所述购买方的经纬度就可以计算出所述销售方与所述购买方之间的地表距离(这里忽略地球表面地形对计算带来的误差,仅仅是理论上的估算值)。设所述销售方A的经纬度为(LonA,LatA),所述购买方B的经纬度为(LonB,LatB),按照0度经线的基准,东经取经度的正值(Longitude),西经取经度负值(-Longitude),北纬取90-纬度值(90-Latitude),南纬取90+纬度值(90+Latitude),则经过上述处理过后的两点被计为(MLonA,MLatA)和(MLonB,MLatB)。那么根据三角推导,可以得到计算两点距离的如下公式:
C=sin(MLatA)*sin(MLatB)*cos(MLonA-MLonB)+cos(MLatA)*cos(MLatB),
Distance=R*Arccos(C)*Pi/180,即销售方与所述购买方对应企业之间的距离。
在一实施方式中,所述销售方与所述购买方对应企业之间的距离进行位置聚类,将在预设距离内的销售方对应的企业聚集成第一类企业,并查询所述第一类企业中是否有企业出现过欺诈行为。若所述第一类企业中有企业出现过欺诈行为,则对所述第一类企业中其他具有与出现过欺诈行为的企业相似业务的企业进行风险提示,避免所述购买方对应的企业与所述第一类企业中其他具有与出现过欺诈行为的企业相似业务的企业进行业务往来造成损失。
例如,将所述销售方与所述购买方对应企业之间的距离小于50公里的企业作为第一类企业;再通过查询工商行政管理总局或企业信用信息公示系统确认所述第一类企业中是否有企业出现过欺诈行为;若所述第一类企业中有企业出现过欺诈行为,发送风险提示信息至所述第一类企业中与所述出现过欺诈行为的企业有业务往来的其他企业。例如所述第一类企业中A企业出现售卖假货的欺诈行为,发送风险提示信息至所述第一类企业中与A企业有业务往来的其他企业。或者对所述第一类企业中其他具有与A企业相似业务的企业进行风险提示,即发送A企业有售卖假货行为的提示信息至所述第一类企业中其他具有与A企业相似业务的企业。
在一实施方式中,通过计算所述销售方与所述购买方对应企业之间的距离,分析是否存在大于预设数量或预设比例的购买方企业所在位置与销售方企业所在位置之间的距离小于预设距离,即出现大部分购买方企业在销售方企业位置的附近,则所述销售方企业可能存在业务较单一的风险问题。
例如,通过计算所述销售方与所述购买方对应企业之间的距离,分析是否存在至少10家购买方企业所在位置与销售方企业所在位置之间的距离小于50公里的情况,或者50%所述购买方企业所在位置与销售方企业所在位置之间的距离小于50公里的情况。
若出现上述情况,则可认为销售方企业可能存在业务较单一的风险问题,发送提示信息至所述销售方企业。
在一实施方式中,通过所述销售方与所述购买方对应企业之间位置进行聚类,发现对应企业的购/销货渠道分布。若出现大量位置聚集且其中有欺诈购买方,应对该群体所有企业进行重点关注,防止团体欺诈的可能。
例如,通过分析购买方企业对应的销售方企业所在位置得到所述购买方企业的购货渠道分布;当存在超过预设数量的所述购买方企业对应的销售方企业所在位置聚集在50平方公里内时,查询所述销售方企业是否存在欺诈行为;若存在欺诈行为,则对所述50平方公里内的所有销售方企业进行重点关注,防止团体欺诈。
在一实施方式中,针对经纬度非常接近的企业之间的业务往来情况进行观察分析,即对于根据所述销售方与所述购买方对应企业之间的距离小于预设值的企业之间的业务往来情况进行分析,例如,查询所述销售方与所述购买方对应企业的发票信息,将循环相互有开票业务关系的企业视为疑似欺诈企业。
通过上述分析可以将在表面业务交易往来中看不到的欺诈风险点暴露出来,丰富了企业信贷风控体系,对于潜在基于位置服务(Location-Based Services,LBS)风险点进行预警,避免数据造假。
综上所述,本发明提供的基于地址信息的分析方法,所述方法包括获取发票中的销售方与购买方的地址信息;将所述销售方与购买方的地址信息解析成经纬度信息;根据所述经纬度信息计算所述销售方与所述购买方对应企业之间的距离;根据所述销售方与所述购买方对应企业之间的距离进行聚类分析企业欺诈行为。从而可以通过将地址信息解析为经纬度信息,实现将非结构化数据进行结构化转换,丰富了企业反欺诈数据及标签;再通过计算销售方与购买方对应企业的距离,从位置信息中识别出企业风险及欺诈可能。方便用户根据发票上的地址信息进行企业聚类分析,并发送风险提示信息至聚类分析结果中对应的销售方企业。
上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,双屏设备,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分。
实施例三
图3为本发明实施例三提供的电子设备的示意图。
所述电子设备3包括:数据库31、存储器32、至少一个处理器33、存储在所述存储器32中并可在所述至少一个处理器33上运行的计算机程序34及至少一条通讯总线35。
所述至少一个处理器33执行所述计算机程序34时实现上述基于地址信息的分析方法实施例中的步骤。
示例性的,所述计算机程序34可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器32中,并由所述至少一个处理器33执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序34在所述电子设备3中的执行过程。
所述电子设备3是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(应用程序licationSpecific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable GateArray,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。本领域技术人员可以理解,所述示意图3仅仅是电子设备3的示例,并不构成对电子设备3的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述电子设备3还可以包括输入输出设备、网络接入设备、总线等。
在本实施方式中,所述电子设备3可以是,但并不限于,智能手机、平板电脑、台式机或一体机等电子设备。
所述数据库(Database)31是按照数据结构来组织、存储和管理数据的建立在所述电子设备3上的仓库。数据库通常分为层次式数据库、网络式数据库和关系式数据库三种。在本实施方式中,所述数据库31用于存储所述销售方与购买方的地址信息。
所述至少一个处理器33可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。该处理器33可以是微处理器或者该处理器33也可以是任何常规的处理器等,所述处理器33是所述电子设备3的控制中心,利用各种接口和线路连接整个电子设备3的各个部分。
所述存储器32可用于存储所述计算机程序34和/或模块/单元,所述处理器33通过运行或执行存储在所述存储器32内的计算机程序和/或模块/单元,以及调用存储在存储器32内的数据,实现所述电子设备3的各种功能。所述存储器32可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备3的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器32可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
所述存储器32中存储有程序代码,且所述至少一个处理器33可调用所述存储器32中存储的程序代码以执行相关的功能。例如,图2中所述的各个模块(获取模块201、解析模块202、处理模块203、聚类模块204、确定模块205及提示模块206)是存储在所述存储器32中的程序代码,并由所述至少一个处理器33所执行,从而实现所述各个模块的功能以达到基于地址信息的分析目的。
所述获取模块201用于获取发票中的销售方与购买方的地址信息;
所述解析模块202用于将所述销售方与购买方的地址信息解析成经纬度信息;
所述处理模块203用于结构化处理所述经纬度信息;
聚类模块204用于对所述销售方对应的经纬度信息进行聚类,得到每类经纬度信息的聚类中心;
确定模块205用于确定与所述购买方的地址信息匹配的聚类中心;及
提示模块206用于根据匹配的聚类中心对应的销售方进行风险提示。
优选地,在获取发票中的销售方与购买方的地址信息之前,所述方法还包括:
利用OCR技术识别所述发票中的销售方与购买方的地址信息。
优选地,所述结构化处理所述经纬度信息包括:
将包含所述经纬度信息的非结构化数据通过统一的接口转换为标准结构文件;
提取所述标准结构文件中的内容,并将其转换为XML文档;
提取所述标准结构文件中的结构生成文件模板;
根据生成的文件模板创建仿真结果表结构;
将提取的数据内容插入到已经创建好的结果表中。
优选地,所述统一的接口为将不同结构文件转换成标准结构文件的接口;所述标准结构文件是指将所述非结构化数据包含的不同结构的文件进行统一格式后得到的文件。
优选地,所述根据匹配的聚类中心对应的销售方信息进行风险提示包括:
根据所述经纬度信息计算所述销售方所在地理位置与所述购买方所在地理位置之间的距离;
判断所述距离是否小于预设距离;
当所述距离小于预设距离时,确认在所述预设距离内的购买方企业的数量是否大于预设数量;及
当所述预设距离内的购买方企业的数量大于所述预设数量时,发送业务单一风险提示信息至所述预设距离内的销售方企业。
优选地,所述根据匹配的聚类中心对应的销售方信息进行风险提示包括:
根据所述经纬度信息计算所述销售方所在地理位置与所述购买方所在地理位置之间的距离;
判断所述距离是否小于预设距离;
当所述距离小于预设距离时,将在所述预设距离内的销售方对应的企业聚集成第一类企业;
确认所述第一类企业中是否有企业出现过欺诈行为;
发送欺诈风险提示信息至所述第一类企业中与所述出现过欺诈行为的企业有业务往来的其他企业。
优选地,所述结构化处理所述经纬度信息之前,所述处理器33还可以:
以不同的文件形式存储所述经纬度信息。
所述电子设备3集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
尽管未示出,所述电子设备3还可以包括给各个部件供电的电源(比如电池),优选的,电源可以通过电源管理系统与所述至少一个处理器33逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备3还可以包括蓝牙模块、Wi-Fi模块等,在此不再赘述。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
在本发明所提供的几个实施例中,应该理解到,所揭露的电子设备和方法,可以通过其它的方式实现。例如,以上所描述的电子设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
另外,在本发明各个实施例中的各功能单元可以集成在相同处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在相同单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神范围。
Claims (10)
1.一种基于地址信息的分析方法,其特征在于,所述方法包括:
获取发票中的销售方与购买方的地址信息;
将所述销售方与购买方的地址信息解析成经纬度信息;
结构化处理所述经纬度信息;
对所述销售方对应的经纬度信息进行聚类,得到每类经纬度信息的聚类中心;
确定与所述购买方的地址信息匹配的聚类中心;及
根据匹配的聚类中心对应的销售方进行风险提示。
2.如权利要求1所述的基于地址信息的分析方法,其特征在于,在获取发票中的销售方与购买方的地址信息之前,所述方法还包括:
利用OCR技术识别所述发票中的销售方与购买方的地址信息。
3.如权利要求1所述的基于地址信息的分析方法,其特征在于:所述结构化处理所述经纬度信息包括:
将包含所述经纬度信息的非结构化数据通过统一的接口转换为标准结构文件;
提取所述标准结构文件中的内容,并将其转换为XML文档;
提取所述标准结构文件中的结构生成文件模板;
根据生成的文件模板创建仿真结果表结构;及
将提取的数据内容插入到已经创建好的结果表中。
4.如权利要求3所述的基于地址信息的分析方法,其特征在于,所述统一的接口为将不同结构文件转换成标准结构文件的接口;所述标准结构文件是指将所述非结构化数据包含的不同结构的文件进行统一格式后得到的文件。
5.如权利要求1所述的基于地址信息的分析方法,其特征在于,所述根据匹配的聚类中心对应的销售方信息进行风险提示包括:
根据所述经纬度信息计算所述销售方所在地理位置与所述购买方所在地理位置之间的距离;
判断所述距离是否小于预设距离;
当所述距离小于预设距离时,确认在所述预设距离内的购买方企业的数量是否大于预设数量;及
当所述预设距离内的购买方企业的数量大于所述预设数量时,发送业务单一风险提示信息至所述预设距离内的销售方企业。
6.如权利要求1所述的基于地址信息的分析方法,其特征在于,所述根据匹配的聚类中心对应的销售方信息进行风险提示包括:
根据所述经纬度信息计算所述销售方所在地理位置与所述购买方所在地理位置之间的距离;
判断所述距离是否小于预设距离;
当所述距离小于预设距离时,将在所述预设距离内的销售方对应的企业聚集成第一类企业;
确认所述第一类企业中是否有企业出现过欺诈行为;及
发送欺诈风险提示信息至所述第一类企业中与所述出现过欺诈行为的企业有业务往来的其他企业。
7.如权利要求1所述的基于地址信息的分析方法,其特征在于,所述结构化处理所述经纬度信息之前,所述方法还包括:
以不同的文件形式存储所述经纬度信息。
8.一种基于地址信息的分析装置,其特征在于,所述装置包括:
获取模块,用于获取发票中的销售方与购买方的地址信息;
解析模块,用于将所述销售方与购买方的地址信息解析成经纬度信息;
处理模块,用于结构化处理所述经纬度信息;
聚类模块,用于对所述销售方对应的经纬度信息进行聚类,得到每类经纬度信息的聚类中心;
确定模块,用于确定与所述购买方的地址信息匹配的聚类中心;及
提示模块,用于根据匹配的聚类中心对应的销售方进行风险提示。
9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现如权利要求1至7中任意一项所述的基于地址信息的分析方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的基于地址信息的分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910684522.0A CN110648043A (zh) | 2019-07-26 | 2019-07-26 | 基于地址信息的分析方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910684522.0A CN110648043A (zh) | 2019-07-26 | 2019-07-26 | 基于地址信息的分析方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110648043A true CN110648043A (zh) | 2020-01-03 |
Family
ID=68990044
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910684522.0A Pending CN110648043A (zh) | 2019-07-26 | 2019-07-26 | 基于地址信息的分析方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110648043A (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140006236A1 (en) * | 2012-06-28 | 2014-01-02 | Sap Ag | Consistent interface for invoice schedule and invoice schedule processing log |
US20140279311A1 (en) * | 2013-03-15 | 2014-09-18 | Capital One Financial Corporation | System and method for determining transaction locations based on geocoded information |
US20160328610A1 (en) * | 2009-02-10 | 2016-11-10 | Kofax, Inc. | Global geographic information retrieval, validation, and normalization |
US20170109373A1 (en) * | 2015-10-15 | 2017-04-20 | Telogis, Inc. | Systems and methods for database geocoding |
CN108140166A (zh) * | 2015-08-24 | 2018-06-08 | 万事达卡国际股份有限公司 | 用于处理和产生订单的方法和设备 |
CN108460046A (zh) * | 2017-02-21 | 2018-08-28 | 菜鸟智能物流控股有限公司 | 一种地址聚合的方法以及设备 |
CN109300003A (zh) * | 2018-09-17 | 2019-02-01 | 平安科技(深圳)有限公司 | 企业推荐方法、装置、计算机设备和存储介质 |
CN109376761A (zh) * | 2018-09-12 | 2019-02-22 | 北京三快在线科技有限公司 | 一种地址标识及其经纬度的挖掘方法及装置 |
CN109992638A (zh) * | 2019-03-29 | 2019-07-09 | 北京三快在线科技有限公司 | 地理位置poi的生成方法、装置、电子设备和存储介质 |
-
2019
- 2019-07-26 CN CN201910684522.0A patent/CN110648043A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160328610A1 (en) * | 2009-02-10 | 2016-11-10 | Kofax, Inc. | Global geographic information retrieval, validation, and normalization |
US20140006236A1 (en) * | 2012-06-28 | 2014-01-02 | Sap Ag | Consistent interface for invoice schedule and invoice schedule processing log |
US20140279311A1 (en) * | 2013-03-15 | 2014-09-18 | Capital One Financial Corporation | System and method for determining transaction locations based on geocoded information |
CN108140166A (zh) * | 2015-08-24 | 2018-06-08 | 万事达卡国际股份有限公司 | 用于处理和产生订单的方法和设备 |
US20170109373A1 (en) * | 2015-10-15 | 2017-04-20 | Telogis, Inc. | Systems and methods for database geocoding |
CN108460046A (zh) * | 2017-02-21 | 2018-08-28 | 菜鸟智能物流控股有限公司 | 一种地址聚合的方法以及设备 |
CN109376761A (zh) * | 2018-09-12 | 2019-02-22 | 北京三快在线科技有限公司 | 一种地址标识及其经纬度的挖掘方法及装置 |
CN109300003A (zh) * | 2018-09-17 | 2019-02-01 | 平安科技(深圳)有限公司 | 企业推荐方法、装置、计算机设备和存储介质 |
CN109992638A (zh) * | 2019-03-29 | 2019-07-09 | 北京三快在线科技有限公司 | 地理位置poi的生成方法、装置、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109887153B (zh) | 一种财税处理方法和处理系统 | |
US10614528B2 (en) | System and method for automatic generation of reports based on electronic documents | |
CN112182246B (zh) | 通过大数据分析建立企业画像的方法、系统、介质及应用 | |
CN112507936B (zh) | 图像信息审核方法、装置、电子设备及可读存储介质 | |
CN108062674B (zh) | 基于gps的订单欺诈识别方法、系统、存储介质和电子设备 | |
CN110458675B (zh) | 一种基于大数据的票据生成凭证方法 | |
CN112528616B (zh) | 业务表单生成方法、装置、电子设备及计算机存储介质 | |
CN113011959A (zh) | 一种“七项费用”智慧审计系统及其使用方法 | |
CN111782900A (zh) | 异常业务检测方法、装置、电子设备及存储介质 | |
CN112785404A (zh) | 发票开具管理系统 | |
CN113360768A (zh) | 基于用户画像的产品推荐方法、装置、设备及存储介质 | |
CN114693420A (zh) | 一种智慧报账系统 | |
CN113704474A (zh) | 银行网点设备操作指引生成方法、装置、设备及存储介质 | |
CN114817518B (zh) | 基于大数据档案识别的证照办理方法、系统及介质 | |
CN116757812A (zh) | 检测异常数据的方法、装置、电子设备及存储介质 | |
CN110717732A (zh) | 一种信息认证方法及系统 | |
CN110648043A (zh) | 基于地址信息的分析方法、装置、电子设备及存储介质 | |
CN109933704A (zh) | 车辆咨询信息处理方法及装置 | |
CN113221888B (zh) | 车牌号管理系统测试方法、装置、电子设备及存储介质 | |
CN115081447A (zh) | 软件开发的需求文档构建方法、装置、设备及存储介质 | |
CN114996386A (zh) | 业务角色识别方法、装置、设备及存储介质 | |
CN113626605A (zh) | 信息分类方法、装置、电子设备及可读存储介质 | |
CN113449002A (zh) | 车辆推荐方法、装置、电子设备及存储介质 | |
CN113850331B (zh) | 报销单异常检测方法、使用方法、装置、设备及存储介质 | |
CN115983956B (zh) | 一种投标文件检测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |