CN110348732A - 基于哈希算法的企业画像数据预处理方法和系统 - Google Patents
基于哈希算法的企业画像数据预处理方法和系统 Download PDFInfo
- Publication number
- CN110348732A CN110348732A CN201910611817.5A CN201910611817A CN110348732A CN 110348732 A CN110348732 A CN 110348732A CN 201910611817 A CN201910611817 A CN 201910611817A CN 110348732 A CN110348732 A CN 110348732A
- Authority
- CN
- China
- Prior art keywords
- enterprise
- index item
- data index
- data
- cryptographic hash
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Operations Research (AREA)
- Marketing (AREA)
- General Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Game Theory and Decision Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种基于哈希算法的企业画像数据预处理方法和系统,方法包括:计算企业数据库内存储的企业旧数据指标项的权重;设定权重阈值;设定企业主要旧数据指标项和企业次要旧数据指标项;计算MainData和SecondaryData的哈希值;将MainResult和SecondaryResult存入企业数据库内;采集企业新数据指标项;设定企业主要新数据指标项和企业次要新数据指标项;计算MainDataNew和SecondaryDataNew的哈希值;比较新旧哈希值。本发明将企业数据指标项变换成两个哈希值,简化了哈希值对比次数。通过不同的哈希算法计算哈希值,降低了计算资源的浪费,提高了数据处理效率。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于哈希算法的企业画像数据预处理方法和系统。
背景技术
随着网络技术不断发展,用户在网上留存的痕迹越来越多,我们可以对用户在不同网络环境中留下的大量个人痕迹等碎片化数据进行充分的挖掘,发现其中潜在的价值,这就是用户画像技术。受此影响,将企业作为一个个体同样可以进行画像刻画,通过搜集企业的一系列相关数据进行处理分析,抽取出可以描述企业特征的标签体系,满足政府对企业的监管引导、企业实体合作、金融机构评估等各类日益增长的需求。
企业画像的刻画是在企业各类相关数据的汇聚融合基础上进行的,很大程度上依赖于互联网数据的采集,如企业公布的财务报告、企业招聘信息、企业涉诉情况、各类舆情信息等,均需通过互联网获取。互联网数据具有更新频率高、数据量大、内容繁杂、结构不统一等特点,这给互联网数据的汇聚融合带来很大障碍。一个企业的数据指标项有几十甚至上百项,考虑到数据存储的冗余限制,不可能所有新采集的数据均存入数据库中,只有必要的已发生更新的指标项数据才会执行更新操作。而逐一对比各项指标内容将耗费大量计算资源,在企业基数达到几十万甚至上百万时,这个问题也将呈指数级放大。因此,有必要通过技术革新来缓解或解决这个数据比对过程中耗费资源巨大的问题。
发明内容
本发明公开了一种基于哈希算法的企业画像数据预处理方法,包括步骤:
计算企业数据库内存储的企业旧数据指标项的权重;
设定权重阈值;
将权重大于或等于所述权重阈值的企业旧数据指标项设定为企业主要旧数据指标项,将权重小于所述权重阈值的企业旧数据指标项设定为企业次要旧数据指标项;
将所述企业主要旧数据指标项按设定顺序整合形成统一的数据串,定义为MainData;将所述企业次要旧数据指标项按设定顺序整合形成统一的数据串,定义为SecondaryData;
计算所述MainData和所述SecondaryData的哈希值,包括步骤:
采用SHA1算法计算所述MainData的哈希值,计算结果为MainResult;
采用MD5算法计算所述SecondaryData的哈希值,计算结果为SecondaryResult;
将所述MainResult和所述SecondaryResult存入所述企业数据库内;
通过互联网采集与所述企业旧数据指标项对应的企业新数据指标项;
将与所述企业主要旧数据指标项对应的企业新数据指标项设定为企业主要新数据指标项,将与所述企业次要旧数据指标项对应的企业新数据指标项设定为企业次要新数据指标项;
将所述企业主要新数据指标项按设定顺序整合形成统一的数据串,定义为MainDataNew;将所述企业次要新数据指标项按设定顺序整合形成统一的数据串,定义为SecondaryDataNew;
计算所述MainDataNew和所述SecondaryDataNew的哈希值,包括步骤:
采用SHA1算法计算所述MainDataNew的哈希值,计算结果为MainResultNew;
采用MD5算法计算所述SecondaryDataNew的哈希值,计算结果为SecondaryResultNew;
比较新旧哈希值,包括步骤:
当MainResultNew=MainResult,SecondaryResultNew=SecondaryResult时,所述企业数据库中数据指标不更新;
当MainResultNew=MainResult,SecondaryResultNew≠SecondaryResult时,将企业次要新数据指标项更新进所述企业数据库中,同步将SecondaryResultNew值赋予SecondaryResult;
当MainResultNew≠MainResult,SecondaryResultNew=SecondaryResult时,将企业主要新数据指标项更新进所述企业数据库中,同步将MainResultNew值赋予MainResult;
当MainResultNew≠MainResult,SecondaryResultNew≠SecondaryResult时,将企业主要新数据指标项和企业次要新数据指标项都更新进所述企业数据库中,同步将MainResultNew值赋予MainResult,SecondaryResultNew值赋予SecondaryResult。
优选地,所述企业主要旧数据指标项的设定顺序与所述企业主要新数据指标项的设定顺序相同;所述企业次要旧数据指标项的设定顺序与所述企业次要新数据指标项的设定顺序相同。
优选地,所述企业旧数据指标项包括注册资本、出口规模、对外投资、专利数量、涉诉案件数量、股权变更、招聘人员数、招聘评论、社交舆论和员工评价。
优选地,还包括步骤:重复比较新旧哈希值过程。
本发明还公开了一种基于哈希算法的企业画像数据预处理系统,包括:企业数据库管理模块、哈希值计算模块、数据采集模块、权重计算模块、数据指标项划分模块、以及哈希值比较模块,其中,
所述企业数据库管理模块分别与所述权重计算模块、所述哈希值计算模块、以及所述哈希值比较模块相耦接,用于存储企业数据指标;提供企业数据库内存储的企业旧数据指标项给所述权重计算模块,接收所述哈希值计算模块发送的MainResult和SecondaryResult;接收所述哈希值比较模块发送的MainResultNew、SecondaryResultNew、企业主要新数据指标项、以及企业次要新数据指标项;
权重计算模块分别与所述企业数据库管理模块和所述数据指标项划分模块相耦接,用于接收所述企业数据库管理模块提供的所述企业数据库内存储的企业旧数据指标项,计算企业数据库内存储的企业旧数据指标项的权重,并将所述企业旧数据指标项的权重发送到所述数据指标项划分模块;
所述数据指标项划分模块分别与所述权重计算模块和所述哈希值计算模块相耦接,用于接收所述权重计算模块发送的所述企业旧数据指标项的权重和设定权重阈值;将权重大于或等于所述权重阈值的企业旧数据指标项设定为企业主要旧数据指标项,将权重小于所述权重阈值的企业旧数据指标项设定为企业次要旧数据指标项,并将所述企业主要旧数据指标项和所述企业次要旧数据指标项发送到所述哈希值计算模块;
所述数据采集模块与所述哈希值计算模块相耦接,用于通过互联网采集与所述企业旧数据指标项对应的企业新数据指标项,将与所述企业主要旧数据指标项对应的企业新数据指标项设定为企业主要新数据指标项,将与所述企业次要旧数据指标项对应的企业新数据指标项设定为企业次要新数据指标项;将所述企业主要新数据指标项和所述企业次要新数据指标项发送到所述哈希值计算模块;
所述哈希值计算模块分别与所述企业数据库管理模块、所述数据指标项划分模块、所述数据采集模块、以及所述哈希值比较模块相耦接,用于接收所述数据指标项划分模块发送的所述企业主要旧数据指标项和所述企业次要旧数据指标项,接收所述数据采集模块发送的所述企业主要新数据指标项和所述企业次要新数据指标项;将所述企业主要旧数据指标项按设定顺序整合形成统一的数据串,定义为MainData,将所述企业次要旧数据指标项按设定顺序整合形成统一的数据串,定义为SecondaryData,采用SHA1算法计算所述MainData的哈希值,计算结果为所述MainResult,采用MD5算法计算所述SecondaryData的哈希值,计算结果为所述SecondaryResult;将所述企业主要新数据指标项按设定顺序整合形成统一的数据串,定义为MainDataNew,将所述企业次要新数据指标项按设定顺序整合形成统一的数据串,定义为SecondaryDataNew,采用SHA1算法计算所述MainDataNew的哈希值,计算结果为MainResultNew,采用MD5算法计算所述SecondaryDataNew的哈希值,计算结果为SecondaryResultNew;将所述MainResult和所述SecondaryResult发送到所述企业数据库管理模块和所述哈希值比较模块;将所述MainResultNew和所述SecondaryResultNew发送到所述哈希值比较模块;
所述哈希值比较模块分别与所述企业数据库管理模块和所述哈希值计算模块相耦接,用于接收所述哈希值计算模块发送的所述MainResult、所述SecondaryResult、所述MainResultNew和所述SecondaryResultNew,并进行比较;当MainResultNew=MainResult,SecondaryResultNew=SecondaryResult时,所述企业数据库管理模块中数据指标不更新;当MainResultNew=MainResult,SecondaryResultNew≠SecondaryResult时,将所述企业次要新数据指标项更新进所述企业数据库管理模块中,同步将SecondaryResultNew值赋予SecondaryResult;当MainResultNew≠MainResult,SecondaryResultNew=SecondaryResult时,将所述企业主要新数据指标项更新进所述企业数据库管理模块中,同步将MainResultNew值赋予MainResult;当MainResultNew≠MainResult,SecondaryResultNew≠SecondaryResult时,将所述企业主要新数据指标项和所述企业次要新数据指标项都更新进所述企业数据库管理模块中,同步将MainResultNew值赋予MainResult,SecondaryResultNew值赋予SecondaryResult。
优选地,所述企业主要旧数据指标项的设定顺序与所述企业主要新数据指标项的设定顺序相同;所述企业次要旧数据指标项的设定顺序与所述企业次要新数据指标项的设定顺序相同。
优选地,所述企业旧数据指标项包括注册资本、出口规模、对外投资、专利数量、涉诉案件数量、股权变更、招聘人员数、招聘评论、社交舆论和员工评价。
优选地,所述哈希值比较模块还用于重复比较新旧哈希值。
与现有技术相比,本发明提供的基于哈希算法的企业画像数据预处理方法和系统,达到如下有益效果:
第一,本发明将企业新旧数据指标项换算成哈希值来进行对比,可有效提高比对效率,大大降低了比对耗费的计算资源与时间成本。
第二,本发明将企业数据指标项分为企业主要数据指标项和企业次要数据指标项,并将企业主、次要数据指标项整合形成统一的数据串,通过该数据串计算出哈希值,将一个企业繁多的企业数据指标项变换成两个哈希值,减少了哈希值个数,简化了哈希值对比次数,降低了计算资源与时间成本。
第三,本发明分别将企业主要数据指标和企业次要数据指标通过不同的哈希算法计算哈希值,更好的平衡了运算速度与数据损失风险两者的关系,降低了计算资源的浪费,提高了数据处理效率。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本发明实施例1中基于哈希算法的企业画像数据预处理方法的流程图;
图2为本发明实施例2中基于哈希算法的企业画像数据预处理系统的结构示意图;
图3为本发明实施例3中基于哈希算法的企业画像数据预处理方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。应注意到,所描述的实施例实际上仅仅是本发明一部分实施例,而不是全部的实施例,且实际上仅是说明性的,决不作为对本发明及其应用或使用的任何限制。本申请的保护范围当视所附权利要求所界定者为准。
实施例1:
参见图1所示为本申请所述基于哈希算法的企业画像数据预处理方法的具体实施例,该方法包括步骤:
步骤101、计算企业数据库内存储的企业旧数据指标项的权重;所述企业旧数据指标项包括注册资本、出口规模、对外投资、专利数量、涉诉案件数量、股权变更、招聘人员数、招聘评论、社交舆论和员工评价;所述企业旧数据指标项不限于这几项,有可能有上百个以上的指标项,根据实际需要设定和选取;权重的确定方法由采用的企业画像刻画模型进行定义;
步骤102、设定权重阈值;该权重阈值根据实际情况具体设定,无硬性要求;
步骤103、将权重大于或等于所述权重阈值的企业旧数据指标项设定为企业主要旧数据指标项,将权重小于所述权重阈值的企业旧数据指标项设定为企业次要旧数据指标项;
步骤104、将所述企业主要旧数据指标项按设定顺序整合形成统一的数据串,定义为MainData;将所述企业次要旧数据指标项按设定顺序整合形成统一的数据串,定义为SecondaryData;设定顺序可根据实际情况进行设定;
步骤105、计算所述MainData和所述SecondaryData的哈希值,包括步骤:
采用SHA1算法计算所述MainData的哈希值,计算结果为MainResult;
采用MD5算法计算所述SecondaryData的哈希值,计算结果为SecondaryResult;
步骤106、将所述MainResult和所述SecondaryResult存入所述企业数据库内;
步骤107、通过互联网采集与所述企业旧数据指标项对应的企业新数据指标项;
步骤108、将与所述企业主要旧数据指标项对应的企业新数据指标项设定为企业主要新数据指标项,将与所述企业次要旧数据指标项对应的企业新数据指标项设定为企业次要新数据指标项;
步骤109、将所述企业主要新数据指标项按设定顺序整合形成统一的数据串,定义为MainDataNew;将所述企业次要新数据指标项按设定顺序整合形成统一的数据串,定义为SecondaryDataNew;所述企业主要旧数据指标项的设定顺序与所述企业主要新数据指标项的设定顺序相同;所述企业次要旧数据指标项的设定顺序与所述企业次要新数据指标项的设定顺序相同;
步骤110、计算所述MainDataNew和所述SecondaryDataNew的哈希值,包括步骤:
采用SHA1算法计算所述MainDataNew的哈希值,计算结果为MainResultNew;
采用MD5算法计算所述SecondaryDataNew的哈希值,计算结果为SecondaryResultNew;
步骤111、比较新旧哈希值,包括步骤:
当MainResultNew=MainResult,SecondaryResultNew=SecondaryResult时,所述企业数据库中数据指标不更新;
当MainResultNew=MainResult,SecondaryResultNew≠SecondaryResult时,将企业次要新数据指标项更新进所述企业数据库中,同步将SecondaryResultNew值赋予SecondaryResult;
当MainResultNew≠MainResult,SecondaryResultNew=SecondaryResult时,将企业主要新数据指标项更新进所述企业数据库中,同步将MainResultNew值赋予MainResult;
当MainResultNew≠MainResult,SecondaryResultNew≠SecondaryResult时,将企业主要新数据指标项和企业次要新数据指标项都更新进所述企业数据库中,同步将MainResultNew值赋予MainResult,SecondaryResultNew值赋予SecondaryResult。
还包括步骤112、重复比较新旧哈希值过程;即不停的通过互联网采集企业新数据指标项,重复以上步骤,重复进行新旧哈希值的比较过程;
步骤113、进行下一个企业的企业数据指标项的比对和更新操作。
本实施例属于算法应用,可应用于各主流数据库管理系统以及hdfs等新式数据存储管理技术,不受数据库产品选型、开发工具选型等的限制,具有普适性。
本实施例将企业新旧数据指标项换算成哈希值来进行对比,有效提高比对效率,大大降低了比对耗费的计算资源与时间成本。将企业数据指标项分为企业主要数据指标项和企业次要数据指标项,并将企业主、次要数据指标项整合形成统一的数据串,通过该数据串计算出哈希值,将一个企业繁多的企业数据指标项变换成两个哈希值,减少了哈希值个数,简化了哈希值对比次数,降低了计算资源与时间成本。
企业画像的数据采集过程中为了减少冗余,防止重复数据存储情况发生,需要对新采集数据与原有数据进行比对,确定是否为新增数据。了解哈希算法的特性后,我们可以通过哈希算法将数据库中存储的各类数据都生成为统一长度的数据指纹(哈希值),通过比较新旧数据的数据指纹(哈希值),来达到新旧数据内容一致性比对的目的。哈希算法中包括多种具体的实现算法,常用的哈希算法包括MD5、SHA1、SHA-256、RabinHash等。不同的算法根据其计算规则不同,生成的哈希值长度不同,计算的复杂程度不同,计算时间成本不同,抗冲突性(指不同的数据生成的哈希值相同的情况发生的概率)也不尽相同。MD5运算速度比SHA1要快,但SHA1采用了160bit哈希值,比MD5多了32bit,存储内容更多,抗冲突性更好。本实施例分别将企业主要数据指标和企业次要数据指标通过SHA1和MD5计算哈希值,更好的平衡了运算速度与数据损失风险两者的关系,降低了计算资源的浪费,提高了数据处理效率。
实施例2:
参见图2所示为本申请所述基于哈希算法的企业画像数据预处理系统的具体实施例,系统包括:企业数据库管理模块201、哈希值计算模块202、数据采集模块203、权重计算模块204、数据指标项划分模块205、以及哈希值比较模块206,其中,
所述企业数据库管理模块201分别与所述权重计算模块204、所述哈希值计算模块202、以及所述哈希值比较模块206相耦接,用于存储企业数据指标;提供企业数据库内存储的企业旧数据指标项给所述权重计算模块204,接收所述哈希值计算模块202发送的MainResult和SecondaryResult;接收所述哈希值比较模块206发送的MainResultNew、SecondaryResultNew、企业主要新数据指标项、以及企业次要新数据指标项;
权重计算模块204分别与所述企业数据库管理模块201和所述数据指标项划分模块205相耦接,用于接收所述企业数据库管理模块201提供的所述企业数据库内存储的企业旧数据指标项,计算企业数据库内存储的企业旧数据指标项的权重,并将所述企业旧数据指标项的权重发送到所述数据指标项划分模块205;
所述数据指标项划分模块205分别与所述权重计算模块204和所述哈希值计算模块202相耦接,用于接收所述权重计算模块204发送的所述企业旧数据指标项的权重和设定权重阈值;将权重大于或等于所述权重阈值的企业旧数据指标项设定为企业主要旧数据指标项,将权重小于所述权重阈值的企业旧数据指标项设定为企业次要旧数据指标项,并将所述企业主要旧数据指标项和所述企业次要旧数据指标项发送到所述哈希值计算模块202;
所述数据采集模块203与所述哈希值计算模块202相耦接,用于通过互联网采集与所述企业旧数据指标项对应的企业新数据指标项,将与所述企业主要旧数据指标项对应的企业新数据指标项设定为企业主要新数据指标项,将与所述企业次要旧数据指标项对应的企业新数据指标项设定为企业次要新数据指标项;将所述企业主要新数据指标项和所述企业次要新数据指标项发送到所述哈希值计算模块202;
所述哈希值计算模块202分别与所述企业数据库管理模块201、所述数据指标项划分模块205、所述数据采集模块203、以及所述哈希值比较模块206相耦接,用于接收所述数据指标项划分模块205发送的所述企业主要旧数据指标项和所述企业次要旧数据指标项,接收所述数据采集模块203发送的所述企业主要新数据指标项和所述企业次要新数据指标项;将所述企业主要旧数据指标项按设定顺序整合形成统一的数据串,定义为MainData,将所述企业次要旧数据指标项按设定顺序整合形成统一的数据串,定义为SecondaryData,采用SHA1算法计算所述MainData的哈希值,计算结果为所述MainResult,采用MD5算法计算所述SecondaryData的哈希值,计算结果为所述SecondaryResult;将所述企业主要新数据指标项按设定顺序整合形成统一的数据串,定义为MainDataNew,将所述企业次要新数据指标项按设定顺序整合形成统一的数据串,定义为SecondaryDataNew,采用SHA1算法计算所述MainDataNew的哈希值,计算结果为MainResultNew,采用MD5算法计算所述SecondaryDataNew的哈希值,计算结果为SecondaryResultNew;将所述MainResult和所述SecondaryResult发送到所述企业数据库管理模块201和所述哈希值比较模块206;将所述MainResultNew和所述SecondaryResultNew发送到所述哈希值比较模块206;
所述哈希值比较模块206分别与所述企业数据库管理模块201和所述哈希值计算模块202相耦接,用于接收所述哈希值计算模块202发送的所述MainResult、所述SecondaryResult、所述MainResultNew和所述SecondaryResultNew,并进行比较;当MainResultNew=MainResult,SecondaryResultNew=SecondaryResult时,所述企业数据库管理模块201中数据指标不更新;当MainResultNew=MainResult,SecondaryResultNew≠SecondaryResult时,将所述企业次要新数据指标项更新进所述企业数据库管理模块201中,同步将SecondaryResultNew值赋予SecondaryResult;当MainResultNew≠MainResult,SecondaryResultNew=SecondaryResult时,将所述企业主要新数据指标项更新进所述企业数据库管理模块201中,同步将MainResultNew值赋予MainResult;当MainResultNew≠MainResult,SecondaryResultNew≠SecondaryResult时,将所述企业主要新数据指标项和所述企业次要新数据指标项都更新进所述企业数据库管理模块201中,同步将MainResultNew值赋予MainResult,SecondaryResultNew值赋予SecondaryResult。
其中,所述企业主要旧数据指标项的设定顺序与所述企业主要新数据指标项的设定顺序相同;所述企业次要旧数据指标项的设定顺序与所述企业次要新数据指标项的设定顺序相同。所述企业旧数据指标项包括注册资本、出口规模、对外投资、专利数量、涉诉案件数量、股权变更、招聘人员数、招聘评论、社交舆论和员工评价等。
所述哈希值比较模块206还用于重复比较新旧哈希值。
实施例3:
在实施例1的基础上,参见图3所示为本申请所述基于哈希算法的企业画像数据预处理方法的一个应用实施例。
为了便于理解,本实施例选取企业数据库中10个企业数据指标项进行说明,参见下表1所示,表1中所列权重值为模拟值,权重的确定方法由采用的企业画像刻画模型进行定义。
表1企业旧数据指标项和权重值
企业旧数据指标项 | 权重值 |
注册资本 | 0.20 |
出口规模 | 0.17 |
对外投资 | 0.15 |
专利数量 | 0.13 |
涉诉案件数量 | 0.10 |
股权变更 | 0.09 |
招聘人员数 | 0.07 |
招聘评论 | 0.05 |
社交舆论 | 0.03 |
员工评价 | 0.01 |
设定权重阈值为0.09,因为表1是按权重值从大到小的顺序排列的,则将权重值大于或等于0.09的前6项企业旧数据指标项作为企业主要旧数据指标项(即注册资本、出口规模、对外投资、专利数量、涉诉案件数量、股权变更),后4项企业旧数据指标项作为企业次要旧数据指标项(招聘人员数、招聘评论、社交舆论、员工评价)。
将6项企业主要旧数据指标项按其权重值从大到小的顺序串联形成统一数据串,作为一个MainData;将4项企业次要旧数据指标项按其权重值从大到小的顺序串联形成统一数据串,作为一个SecondaryData。
采用SHA1算法计算MainData的哈希值为MainResult,即为企业主要旧数据指纹;采用MD5算法计算SecondaryData的哈希值为SecondaryResult,即为企业次要旧数据指纹。
通过互联网采集注册资本、出口规模、对外投资、专利数量、涉诉案件数量、股权变更、招聘人员数、招聘评论、社交舆论和员工评价在互联网络中更新的新数据,相应的作为企业新数据指标项。
将新收集的注册资本、出口规模、对外投资、专利数量、涉诉案件数量和股权变更作为企业主要新数据指标项,将新收集的招聘人员数、招聘评论、社交舆论和员工评价作为企业次要新数据指标项。根据上述相同的方法得到MainDataNew和SecondaryDataNew,并计算出MainResultNew,即为企业主要新数据指纹,计算出SecondaryResultNew,即为企业次要新数据指纹。
分别将MainResultNew和MainResult、SecondaryResultNew和SecondaryResult进行比对,当MainResultNew=MainResult,SecondaryResultNew=SecondaryResult时,所述企业数据库不执行更新操作;当MainResultNew=MainResult,SecondaryResultNew≠SecondaryResult时,将企业次要新数据指标项更新进所述企业数据库中,同步将SecondaryResultNew值赋予SecondaryResult;当MainResultNew≠MainResult,SecondaryResultNew=SecondaryResult时,将企业主要新数据指标项更新进所述企业数据库中,同步将MainResultNew值赋予MainResult;当MainResultNew≠MainResult,SecondaryResultNew≠SecondaryResult时,将企业主要新数据指标项和企业次要新数据指标项都更新进所述企业数据库中,同步将MainResultNew值赋予MainResult,SecondaryResultNew值赋予SecondaryResult。
所有操作执行完毕后,继续进行下一个企业的企业数据指标项的比对和更新操作。
通过以上各实施例可知,本申请存在的有益效果是:
第一,本发明将企业新旧数据指标项换算成哈希值来进行对比,可有效提高比对效率,大大降低了比对耗费的计算资源与时间成本。
第二,本发明将企业数据指标项分为企业主要数据指标项和企业次要数据指标项,并将企业主、次要数据指标项整合形成统一的数据串,通过该数据串计算出哈希值,将一个企业繁多的企业数据指标项变换成两个哈希值,减少了哈希值个数,简化了哈希值对比次数,降低了计算资源与时间成本。
第三,本发明分别将企业主要数据指标和企业次要数据指标通过不同的哈希算法计算哈希值,更好的平衡了运算速度与数据损失风险两者的关系,降低了计算资源的浪费,提高了数据处理效率。
上面通过附图和实施例,对本发明的技术方案做虽然已经通过例子对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上例子仅是为了进行说明,而不是为了限制本发明的范围。尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。本发明的范围由所附权利要求来限定。
Claims (8)
1.一种基于哈希算法的企业画像数据预处理方法,其特征在于,包括步骤:
计算企业数据库内存储的企业旧数据指标项的权重;
设定权重阈值;
将权重大于或等于所述权重阈值的企业旧数据指标项设定为企业主要旧数据指标项,将权重小于所述权重阈值的企业旧数据指标项设定为企业次要旧数据指标项;
将所述企业主要旧数据指标项按设定顺序整合形成统一的数据串,定义为MainData;将所述企业次要旧数据指标项按设定顺序整合形成统一的数据串,定义为SecondaryData;
计算所述MainData和所述SecondaryData的哈希值,包括步骤:
采用SHA1算法计算所述MainData的哈希值,计算结果为MainResult;
采用MD5算法计算所述SecondaryData的哈希值,计算结果为SecondaryResult;
将所述MainResult和所述SecondaryResult存入所述企业数据库内;
通过互联网采集与所述企业旧数据指标项对应的企业新数据指标项;
将与所述企业主要旧数据指标项对应的企业新数据指标项设定为企业主要新数据指标项,将与所述企业次要旧数据指标项对应的企业新数据指标项设定为企业次要新数据指标项;
将所述企业主要新数据指标项按设定顺序整合形成统一的数据串,定义为MainDataNew;将所述企业次要新数据指标项按设定顺序整合形成统一的数据串,定义为SecondaryDataNew;
计算所述MainDataNew和所述SecondaryDataNew的哈希值,包括步骤:
采用SHA1算法计算所述MainDataNew的哈希值,计算结果为MainResultNew;
采用MD5算法计算所述SecondaryDataNew的哈希值,计算结果为SecondaryResultNew;
比较新旧哈希值,包括步骤:
当MainResultNew=MainResult,SecondaryResultNew=SecondaryResult时,所述企业数据库中数据指标不更新;
当MainResultNew=MainResult,SecondaryResultNew≠SecondaryResult时,将企业次要新数据指标项更新进所述企业数据库中,同步将SecondaryResultNew值赋予SecondaryResult;
当MainResultNew≠MainResult,SecondaryResultNew=SecondaryResult时,将企业主要新数据指标项更新进所述企业数据库中,同步将MainResultNew值赋予MainResult;
当MainResultNew≠MainResult,SecondaryResultNew≠SecondaryResult时,将企业主要新数据指标项和企业次要新数据指标项都更新进所述企业数据库中,同步将MainResultNew值赋予MainResult,SecondaryResultNew值赋予SecondaryResult。
2.根据权利要求1所述的基于哈希算法的企业画像数据预处理方法,其特征在于,所述企业主要旧数据指标项的设定顺序与所述企业主要新数据指标项的设定顺序相同;所述企业次要旧数据指标项的设定顺序与所述企业次要新数据指标项的设定顺序相同。
3.根据权利要求1所述的基于哈希算法的企业画像数据预处理方法,其特征在于,所述企业旧数据指标项包括注册资本、出口规模、对外投资、专利数量、涉诉案件数量、股权变更、招聘人员数、招聘评论、社交舆论和员工评价。
4.根据权利要求1所述的基于哈希算法的企业画像数据预处理方法,其特征在于,还包括步骤:重复比较新旧哈希值过程。
5.一种基于哈希算法的企业画像数据预处理系统,其特征在于,包括:企业数据库管理模块、哈希值计算模块、数据采集模块、权重计算模块、数据指标项划分模块、以及哈希值比较模块,其中,
所述企业数据库管理模块分别与所述权重计算模块、所述哈希值计算模块、以及所述哈希值比较模块相耦接,用于存储企业数据指标;提供企业数据库内存储的企业旧数据指标项给所述权重计算模块,接收所述哈希值计算模块发送的MainResult和SecondaryResult;接收所述哈希值比较模块发送的MainResultNew、SecondaryResultNew、企业主要新数据指标项、以及企业次要新数据指标项;
权重计算模块分别与所述企业数据库管理模块和所述数据指标项划分模块相耦接,用于接收所述企业数据库管理模块提供的所述企业数据库内存储的企业旧数据指标项,计算企业数据库内存储的企业旧数据指标项的权重,并将所述企业旧数据指标项的权重发送到所述数据指标项划分模块;
所述数据指标项划分模块分别与所述权重计算模块和所述哈希值计算模块相耦接,用于接收所述权重计算模块发送的所述企业旧数据指标项的权重和设定权重阈值;将权重大于或等于所述权重阈值的企业旧数据指标项设定为企业主要旧数据指标项,将权重小于所述权重阈值的企业旧数据指标项设定为企业次要旧数据指标项,并将所述企业主要旧数据指标项和所述企业次要旧数据指标项发送到所述哈希值计算模块;
所述数据采集模块与所述哈希值计算模块相耦接,用于通过互联网采集与所述企业旧数据指标项对应的企业新数据指标项,将与所述企业主要旧数据指标项对应的企业新数据指标项设定为企业主要新数据指标项,将与所述企业次要旧数据指标项对应的企业新数据指标项设定为企业次要新数据指标项;将所述企业主要新数据指标项和所述企业次要新数据指标项发送到所述哈希值计算模块;
所述哈希值计算模块分别与所述企业数据库管理模块、所述数据指标项划分模块、所述数据采集模块、以及所述哈希值比较模块相耦接,用于接收所述数据指标项划分模块发送的所述企业主要旧数据指标项和所述企业次要旧数据指标项,接收所述数据采集模块发送的所述企业主要新数据指标项和所述企业次要新数据指标项;将所述企业主要旧数据指标项按设定顺序整合形成统一的数据串,定义为MainData,将所述企业次要旧数据指标项按设定顺序整合形成统一的数据串,定义为SecondaryData,采用SHA1算法计算所述MainData的哈希值,计算结果为所述MainResult,采用MD5算法计算所述SecondaryData的哈希值,计算结果为所述SecondaryResult;将所述企业主要新数据指标项按设定顺序整合形成统一的数据串,定义为MainDataNew,将所述企业次要新数据指标项按设定顺序整合形成统一的数据串,定义为SecondaryDataNew,采用SHA1算法计算所述MainDataNew的哈希值,计算结果为MainResultNew,采用MD5算法计算所述SecondaryDataNew的哈希值,计算结果为SecondaryResultNew;将所述MainResult和所述SecondaryResult发送到所述企业数据库管理模块和所述哈希值比较模块;将所述MainResultNew和所述SecondaryResultNew发送到所述哈希值比较模块;
所述哈希值比较模块分别与所述企业数据库管理模块和所述哈希值计算模块相耦接,用于接收所述哈希值计算模块发送的所述MainResult、所述SecondaryResult、所述MainResultNew和所述SecondaryResultNew,并进行比较;当MainResultNew=MainResult,SecondaryResultNew=SecondaryResult时,所述企业数据库管理模块中数据指标不更新;当MainResultNew=MainResult,SecondaryResultNew≠SecondaryResult时,将所述企业次要新数据指标项更新进所述企业数据库管理模块中,同步将SecondaryResultNew值赋予SecondaryResult;当MainResultNew≠MainResult,SecondaryResultNew=SecondaryResult时,将所述企业主要新数据指标项更新进所述企业数据库管理模块中,同步将MainResultNew值赋予MainResult;当MainResultNew≠MainResult,SecondaryResultNew≠SecondaryResult时,将所述企业主要新数据指标项和所述企业次要新数据指标项都更新进所述企业数据库管理模块中,同步将MainResultNew值赋予MainResult,SecondaryResultNew值赋予SecondaryResult。
6.根据权利要求5所述的基于哈希算法的企业画像数据预处理系统,其特征在于,所述企业主要旧数据指标项的设定顺序与所述企业主要新数据指标项的设定顺序相同;所述企业次要旧数据指标项的设定顺序与所述企业次要新数据指标项的设定顺序相同。
7.根据权利要求5所述的基于哈希算法的企业画像数据预处理系统,其特征在于,所述企业旧数据指标项包括注册资本、出口规模、对外投资、专利数量、涉诉案件数量、股权变更、招聘人员数、招聘评论、社交舆论和员工评价。
8.根据权利要求5所述的基于哈希算法的企业画像数据预处理系统,其特征在于,所述哈希值比较模块还用于重复比较新旧哈希值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910611817.5A CN110348732A (zh) | 2019-07-08 | 2019-07-08 | 基于哈希算法的企业画像数据预处理方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910611817.5A CN110348732A (zh) | 2019-07-08 | 2019-07-08 | 基于哈希算法的企业画像数据预处理方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110348732A true CN110348732A (zh) | 2019-10-18 |
Family
ID=68178427
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910611817.5A Pending CN110348732A (zh) | 2019-07-08 | 2019-07-08 | 基于哈希算法的企业画像数据预处理方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110348732A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111581226A (zh) * | 2020-05-17 | 2020-08-25 | 广州博士信息技术研究院有限公司 | 基于大数据平台的数据共享方法、装置及政企云平台 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105138635A (zh) * | 2015-08-21 | 2015-12-09 | 中国人民解放军装备学院 | 一种利用哈希值比对进行数据增量复制的方法 |
CN105162855A (zh) * | 2015-08-18 | 2015-12-16 | 浪潮(北京)电子信息产业有限公司 | 增量数据同步方法和装置 |
CN105302803A (zh) * | 2014-05-28 | 2016-02-03 | 中国科学院沈阳自动化研究所 | 一种产品bom差异分析与同步更新方法 |
CN107464037A (zh) * | 2017-07-05 | 2017-12-12 | 九次方大数据信息集团有限公司 | 基于多指标维度模型的企业画像方法及系统 |
CN107527151A (zh) * | 2017-08-31 | 2017-12-29 | 郑州云海信息技术有限公司 | 一种构建企业画像的方法及系统 |
CN107563630A (zh) * | 2017-08-25 | 2018-01-09 | 前海梧桐(深圳)数据有限公司 | 基于多维度的企业评分方法及其系统 |
CN108572967A (zh) * | 2017-03-09 | 2018-09-25 | 神州数码系统集成服务有限公司 | 一种创建企业画像的方法及装置 |
CN109658478A (zh) * | 2017-10-10 | 2019-04-19 | 爱信诺征信有限公司 | 一种提供企业画像的方法及系统 |
-
2019
- 2019-07-08 CN CN201910611817.5A patent/CN110348732A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105302803A (zh) * | 2014-05-28 | 2016-02-03 | 中国科学院沈阳自动化研究所 | 一种产品bom差异分析与同步更新方法 |
CN105162855A (zh) * | 2015-08-18 | 2015-12-16 | 浪潮(北京)电子信息产业有限公司 | 增量数据同步方法和装置 |
CN105138635A (zh) * | 2015-08-21 | 2015-12-09 | 中国人民解放军装备学院 | 一种利用哈希值比对进行数据增量复制的方法 |
CN108572967A (zh) * | 2017-03-09 | 2018-09-25 | 神州数码系统集成服务有限公司 | 一种创建企业画像的方法及装置 |
CN107464037A (zh) * | 2017-07-05 | 2017-12-12 | 九次方大数据信息集团有限公司 | 基于多指标维度模型的企业画像方法及系统 |
CN107563630A (zh) * | 2017-08-25 | 2018-01-09 | 前海梧桐(深圳)数据有限公司 | 基于多维度的企业评分方法及其系统 |
CN107527151A (zh) * | 2017-08-31 | 2017-12-29 | 郑州云海信息技术有限公司 | 一种构建企业画像的方法及系统 |
CN109658478A (zh) * | 2017-10-10 | 2019-04-19 | 爱信诺征信有限公司 | 一种提供企业画像的方法及系统 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111581226A (zh) * | 2020-05-17 | 2020-08-25 | 广州博士信息技术研究院有限公司 | 基于大数据平台的数据共享方法、装置及政企云平台 |
CN111581226B (zh) * | 2020-05-17 | 2020-12-08 | 广州博士信息技术研究院有限公司 | 基于大数据平台的数据共享方法、装置及政企云平台 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bröcheler et al. | COSI: Cloud oriented subgraph identification in massive social networks | |
CN106126828A (zh) | 一种基于单向游走的高可扩展性SimRank计算方法 | |
CN106227799B (zh) | 一种基于分布式数据库的sql语句处理方法 | |
CN105204920B (zh) | 一种基于映射聚合的分布式计算作业的实现方法及装置 | |
CN111159483A (zh) | 一种基于增量计算的社交网络图摘要的生成方法 | |
Singh et al. | Performance Measure of Similis and FPGrowth Algo rithm | |
Ma et al. | A comparative study of subgraph matching isomorphic methods in social networks | |
Chen et al. | MiniChain: A lightweight protocol to combat the UTXO growth in public blockchain | |
Gan et al. | CoUPM: Correlated utility-based pattern mining | |
Yui et al. | A database-hadoop hybrid approach to scalable machine learning | |
CN110348732A (zh) | 基于哈希算法的企业画像数据预处理方法和系统 | |
Lin et al. | Mining high-utility sequential patterns from big datasets | |
Barger et al. | k-means for streaming and distributed big sparse data | |
Agarwal et al. | Method for mining frequent item sets considering average utility | |
CN103763302A (zh) | 一种web服务组合生成方法 | |
CN110413647B (zh) | 一种高维向量不等长序列相似度快速计算系统 | |
Gandhi et al. | Hybrid recommendation system with collaborative filtering and association rule mining using big data | |
Soltvedt et al. | A cost model for data discovery in large-scale IoT networks of smart cities | |
Meisburger et al. | BOLT: An Automated Deep Learning Framework for Training and Deploying Large-Scale Neural Networks on Commodity CPU Hardware | |
Singh et al. | RSTDB a new candidate generation and test algorithm for frequent pattern mining | |
CN104965923B (zh) | 一种用于生成现金流量表的云计算应用平台构建方法 | |
CN104572880B (zh) | 基于用户的协同过滤的并行实现方法及系统 | |
Mitheran et al. | Improved representation learning for session-based recommendation | |
McConville et al. | Accelerating large scale centroid-based clustering with locality sensitive hashing | |
Lin et al. | Stochastic second-order-cone complementarity problems: expected residual minimization formulation and its applications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191018 |