发明内容
为解决上述技术问题,本发明提供了一种创建企业画像的方法及装置。
第一方面,本发明提供了一种创建企业画像的方法,该方法包括:
获取与企业画像相关的数据;
对与企业画像相关的数据进行预处理,获取预处理后的数据;
对预处理后的数据进行分类;
对分类后的数据与企业信息进行匹配,并将匹配成功后的数据存储至与企业信息对应的企业信息数据库;
利用企业信息数据库中存储的数据,创建与企业对应的企业画像。
本发明的有益效果是:获取与企业画像相关的数据后,进行相应的预处理。可以去除一些无用的数据或者重复的数据等等。然后对数据进行分类后,再和企业信息进行匹配,以便于匹配后的数据同样是分类存储的。根据分类后的数据创建企业画像,完整地刻画了企业的全面方位信息,使创建的企业画像更加全面,更加客观。
进一步,对与企业画像相关的数据进行预处理,获取预处理后的数据,具体包括:
对与企业画像相关的数据进行去重处理;
分别提取经过去重处理后的与企业画像相关的数据中每一条数据对应的至少两个关键词;
分别将至少两个关键词中的每一个关键词与关键词典中的关键词进行比对,当确定第一数据的至少两个关键词均不属于关键词典中的关键词时,去除第一数据,其中第一数据为经过去重处理后的与企业画像相关的数据中的任一条数据;
将去除第一数据后的与企业画像相关的数据进行格式转换。
采用上述进一步的方案的有益技术效果在于,将收集到的数据进行去重、去除无用数据,以及将数据进行格式转换等预处理,可以提高最终数据质量,统一数据标准。
进一步,与企业画像相关的数据包括:政务数据和互联网数据。
采用上述进一步的技术方案的有益技术效果在于,数据源来自于政务大数据和互联网大数据,数据来源更加广泛,拓展数据获取渠道,由此可以避免数据的单一性,数据形式偏重结构化,以及应用场景局限化等问题。
进一步的,对预处理后的数据进行分类,具体包括:
将预处理后的政务数据分为:企业登记类、行政处罚类、创新意识类、信贷信息类、信用情况类以及社会责任类;
将预处理后的互联网数据分为:企业相关介绍类、企业招聘信息类以及企业相关新闻类。
采用上述进一步的技术方案的有益技术效果在于:采用两大数据源,将数据分别分为九类。根据这九大类数据可以实现全方位的构建企业画像。
进一步的,对分类后的数据与企业信息进行匹配,并将匹配成功后的数据存储至对应的企业信息数据库,具体包括:
当分类后的数据所属数据源中包含企业法人代码时,利用企业法人代码与企业信息进行匹配;
当分类后的数据所属数据源中不包含企业法人代码时,采用模糊匹配算法,将分类后的数据与企业信息进行匹配,并将匹配成功后的数据存储至对应的企业信息数据库。
采用上述进一步的技术方案的有益技术效果在于:在进行数据分类后,将每一条数据和企业信息进行匹配。当数据源含有国家统一规定的企业法人代码时,直接与企业信息进行匹配。当不包含时,则利用模糊匹配的方法,进行匹配。最终获取一个高纬度、不同属性的大数据。
第二方面,本发明提供了一种创建企业画像的装置,该装置包括:获取单元,用于获取与企业画像相关的数据;
处理单元,用于对与企业画像相关的数据进行预处理,获取预处理后的数据;
分类单元,用于对预处理后的数据进行分类;
匹配单元,对分类后的数据与企业信息进行匹配,并将匹配成功后的数据存储至与企业信息对应的企业信息数据库;
创建单元,用于利用企业信息数据库中存储的数据,创建与企业对应的企业画像。
上述方案的有益技术效果在于,获取与企业画像相关的数据后,进行相应的预处理。可以去除一些无用的数据或者重复的数据等等。然后对数据进行分类后,再和企业信息进行匹配,以便于匹配后的数据同样是分类存储的。根据分类后的数据创建企业画像,完整地刻画了企业的全面方位信息,使创建的企业画像更加全面,更加客观。
进一步的,处理单元具体用于:
对与企业画像相关的数据进行去重处理;
分别提取经过去重处理后的与企业画像相关的数据中每一条数据对应的至少两个关键词;
分别将至少两个关键词中的每一个关键词与关键词典中的关键词进行比对,当确定第一数据的至少两个关键词均不属于关键词典中的关键词时,去除第一数据,其中第一数据为经过去重处理后的与企业画像相关的数据中的任一条数据;
将去除第一数据后的与企业画像相关的数据进行格式转换。
采用上述进一步的方案的有益技术效果在于,将收集到的数据进行去重、去除无用数据,以及将数据进行格式转换等预处理,可以提高最终数据质量,统一数据标准。
进一步的,与企业画像相关的数据包括:政务数据和互联网数据。
采用上述进一步的技术方案的有益技术效果在于,数据源来自于政务大数据和互联网大数据,数据来源更加广泛,拓展数据获取渠道,由此可以避免数据的单一性,数据形式偏重结构化,以及应用场景局限化等问题。
进一步的,分类单元具体用于:
将预处理后的政务数据分为:企业登记类、行政处罚类、创新意识类、信贷信息类、信用情况类以及社会责任类;
将预处理后的互联网数据分为:企业相关介绍类、企业招聘信息类以及企业相关新闻类。
采用上述进一步的技术方案的有益技术效果在于,采用两大数据源,将数据分别分为九类。根据这九大类数据可以实现全方位的构建企业画像。
进一步的,匹配单元具体用于:当分类后的数据所属数据源中包含企业法人代码时,利用企业法人代码与企业信息进行匹配;
当分类后的数据所属数据源中不包含企业法人代码时,采用模糊匹配算法,将分类后的数据与企业信息进行匹配,并将匹配成功后的数据存储至对应的企业信息数据库。
采用上述进一步的技术方案的有益技术效果在于,在进行数据分类后,将每一条数据和企业进行匹配。当数据源含有国家统一规定的企业法人代码时,直接匹配至企业。当不包含时,则利用模糊匹配的方法,进行匹配。最终获取一个高纬度不同属性的大数据。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透切理解本发明。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
图1为本发明实施例提供的一种创建企业画像的方法流程示意图。具体如图1所示,该方法包括:
步骤110,获取与企业画像相关的数据。
优选的,与企业画像相关的数据可以为政务数据和互联网数据。政务大数据是指政府通过行政手段依法获取、并用于政务活动的大数据。目前各级政府都掌握着大量的政务数据,有的政府如北京市政府、上海市政府等建设了政务数据服务网,以城市统一的地理空间架构和人口、法人等信息资源为基础,叠加各部门、各行业相关业务信息在网站上公开供老百姓查询。对于这一些在网上公开政务大数据的政府,可以使用Python语言编写网络数据爬虫获取关于企业的政务数据。对于其它未在网上公开政务大数据,或者公开数据不全面的数据,可以采取与政府信息中心合作的方式获取到关于企业的政务数据。
互联网大数据是指在网络上展现的各种信息集合的大数据,通过Python语言编写的网络数据爬虫,可以获取到大量关于各个企业的互联网大数据,数据来源为各大网站和搜索引擎。
但是,在获取到这两类数据后,可能并不能够直接运用。因为获取的原始数据可能存在重复、对于实际运用毫无用处、数据格式非法和存在不规范的编码等。因此需要对原始数据进行数据预处理,提高数据质量,统一数据标准。具体如步骤120中。
步骤120,对与企业画像相关的数据进行预处理,获取预处理后的数据。
具体的,如果数据是由网络数据爬虫获取的,则数据预处理部分在其获取到数据后即进行,并在预处理后存入数据库。具体可以包括以下4个步骤:
第一步,对与企业画像相关的数据进行去重处理。
原始数据的重复问题主要是获取的网页的重复,解决这个问题可以将任意长度的页面链接用MD5算法变换成固定32位长度的字符串,通过比对数据库中所获取的MD5字符串来排除重复网页。
第二步,分别提取经过去重处理后的与企业画像相关的数据中每一条数据对应的至少两个关键词。
具体的,在判断原始数据对于实际运用是否有用处时,则可以利用关键词字典,关键词字典包含一些较宽泛的词语,如“公司”,“信息”等。那么,就需要提经过去重处理后的与企业画像相关的数据中的每一条数据对应的至少两个关键词。
第三步,分别将至少两个关键词中的每一个关键词与关键词典中的关键词进行比对,当确定第一数据的至少两个关键词均不属于关键词典中的关键词时,去除第一数据,其中第一数据为经过去重处理后的与企业画像相关的数据中的任一条数据。
具体的,将每一条数据的至少两个关键词中的每一个关键词分别与关键词典中的关键词进行比对。当确定第一数据中的至少两个关键词均不属于关键词典中的关键词时,则将这项数据排除。其中,第一数据可以是经过去重后的数据中的任一条数据。也即是,这里仅仅是介绍去除无用数据方法,而并非针对某一条数据。
第四步,将去除第一数据后的与企业画像相关的数据进行格式转换。
具体的,数据格式非法和存在不规范编码可以通过一系列标准化操作来处理,比如将所有获取到的数据都统一转换成UTF-8格式,在数据入库时对双引号等特殊符号进行处理等。
而如果数据是由政府相关部门直接提供的,则数据预处理部分则较为简单。主要是通过Excel命令或者数据库SQL命令进行上述处理,操作更为简便。在对数据进行预处理后,则可以执行步骤130了。
步骤130,对预处理后的数据进行分类。
具体的,合理的数据分类是对企业进行多方位画像、向用户呈现画像结果的重要前提。从数据来源进行划分,企业相关的数据信息可以分为政务数据和互联网数据。
针对政务数据集样本的具体情况,以及相关政务工作过程和目标,又可以将政务大数据分为:企业登记类、行政处罚类、创新意识类、信贷信息类、信用情况类、社会责任类等六个子类来对企业进行画像。
企业登记的数据来源于企业在工商登记或相关资质申请时填写的信息,包括法人、注册资本、员工数量、地址等等;行政处罚的数据来源于各个委、办、局对企业进行行政处罚时备案的信息,记录了企业受过处罚的时间、原因、处罚内容等;创新意识则体现在企业获得的科技创新奖项、引进的人才数量等;信贷信息来源于企业在银行进行信贷活动的记录;信用情况反映企业是否有过违约、失信的历史,如欠缴水电费、欠税、欠薪、失信被执行等;社会责任体现在企业在环境保护上的行动以及企业的慈善捐助等。
互联网大数据可以分为企业相关介绍类、企业招聘信息类和企业相关新闻类等三个子类来对企业进行画像。
企业相关介绍是用户了解企业最直观的信息,政务大数据中企业登记的信息往往比较简要,而互联网大数据中对企业的介绍则丰富得多,企业相关介绍信息来源于企业主页、招聘网站上对企业的介绍以及搜索引擎结果中关于企业的介绍;企业招聘信息从各大招聘网站上获取,包括对招聘职位的描述、发布时间、工资、学历要求、年龄要求、工作经验要求等等;企业相关新闻来源于互联网各大新闻网站。
在进行完数据分类后,需要确定每一条数据属于哪个企业。因此,还需要执行步骤140。
步骤140,对分类后的数据与企业信息进行匹配,并将匹配成功后的数据存储至与企业信息对应的企业信息数据库。
具体的,如果数据源中含有国家统一规定的企业法人代码,即可匹配到该企业信息。如果数据源中不含企业法人代码,则需要通过企业名称进行匹配。但是如果要求企业名称准确匹配的话会使许多数据无法得到匹配,比如“**市甲有限公司”和“**甲有限公司”在实际中很可能是同一家,但却无法匹配上。为了解决这个问题,我们采取模糊匹配的方法,统一去除“市”、“区”、“县”、“公司”、“有限公司”等辅助词,抽取出企业名称的主干进行匹配。数据得到匹配后即与相应的企业关联起来,存储在企业相关信息数据库中。由于每个企业存在的相关信息类型、种类、样式不统一,因此传统的关系型数据库无法存储这样高纬度不同属性的大数据。针对企业画像大数据的特点,优选的,可以利用无模式文档型数据库,如MongoDB来对相关数据进行存储。
步骤150,利用企业信息数据库中存储的数据,创建与企业对应的企业画像。
具体的,在步骤140完成后,即可利用数据库中企业相关的九类数据进行企业画像,全方位展现企业相关的信息,包括静态信息如企业登记信息和企业相关介绍,以及动态更新信息如行政处罚情况、创新意识、信贷信息、信用情况、社会责任情况、企业招聘信息和企业相关新闻等。基于政务大数据和互联网大数据的企业画像,将为有关政府部门制定宏观经济政策、地方法规提供重要的参考依据,为各个企业的管理层进行规范引导、科学管理提供有力的数据支撑,为企业建设、提升、成就品牌、学习行业标杆提供可参照的对象,为消费者和投资者等利益相关者进行购买、投资、合作提供重要参考。
本发明实施例提供的一种创建企业画像的方法,采用政务大数据和互联网大数据,作为创建企业画像的数据来源,而且获取渠道进行了扩展。避免了数据的单一性,数据形式偏重结构化,以及应用场景局限性的问题。两类大数据分别进行分类,并进行预处理,去除重复数据、无用数据后,对数据统一标准格式。可以保证数据经过预处理后直接运用。利用分类后的数据创建企业画像,可以保证创建的企业画像更加全面化。
具体的,丰富数据源体现在对数据获取渠道的拓展,包括政务大数据与互联网大数据。其中政务大数据的获取建立在同相关政府部门以及委办局合作的基础上,包括各部门、委办局长期积累的个人、企业信息以及定期更新的业务数据。这部分数据包括政府官方网站上公布的社会公开信息以及政府部门内部使用的非公开信息。互联网大数据则全部来自于互联网在线信息的收集,这一部分信息将渠道丰富这一特点体现的更为明显。通过广泛的对比与定量的分析,对可行、可用的数据源网站进行筛选并应用数据获取方法,对获取的网络信息(主要为非结构化文本信息)应用相应的分析技术(如文本关键词提取等),从而实现企业画像网络数据源部分的补充与丰富。
结构化与非结构化数据并重同样依托的政务大数据与互联网大数据是这两个不同渠道的数据。来源与政府部门与不同委办局的数据多为二维表结构,即结构化数据,这也同政府通过信息系统进行日常业务办理有着直接的关联。结构化数据易处理、易保存、逻辑清晰等属性也是政务流程广泛采用这一类型数据的原因。相反,互联网大数据多呈现非结构化的特点,“阅读”属性是非结构化数据的最大特征,新闻、研究报告、招聘信息说明等文本信息,都是非结构化数据的一种体现。借助如文本分析等技术方法,可以实现非结构化数据的信息提取,从而将文本转化为后续应用模型易用的特征形式,提升企业画像的应用性。
相比当前主流的“应用导向型”企业画像,本发明的企业画像更偏重数据导向,而这一特点也更符合当前时代的发展趋势,其所带来的多场景应用性也极具价值。本发明所分析的政务数据来源于数量众多,涵盖面极广的政府部门及委办局,设计的政府业务极为丰富,因此其所囊括的信息涉及企业的方方面面,包括企业社保,企业纳税,企业信贷等基础情况,也涉及高新企业,节能企业以及科技创新企业等信息。因此,从企业基本的经营业务,至企业的最新发展情况,都反映在政务大数据之中。同时,互联网大数据中提炼的信息同政务信息相辅相成,完整地刻画了企业的全方位信息,实现了全面客观的企业画像。
而且,本发明实施例提供的企业画像方法,可以对政府部门的不同业务提供辅助与决策支持,例如:海关,可以用于对企业进出口进行监管,评估企业走私、逃税风险等方面。国税、地税,主要用于评估企业欠税风险等方面。银行,在企业申请开据银行承兑汇票时,了解企业信用情况,又或者贷款发放违约风险评估等方面。审计局,对各国有企业上报财政情况是否属实进行评估与潜在风险发现,避免企业“做假账”等情况引发财政风险。环保局,对可能存在违规排污行为的企业进行判断,并定期对企业环境友好级别进行更新,对部分高危企业进行重点监控等。教育局、安监局、住建局、食药监等,主要用于对企业上报资质情况进行评估,甄别部分企业为达到一定资质要求“买证”、“租证”的行为等。发改委、财政局等,主要用于在招投标中对投标企业进行审核时,需要了解企业信用情况等。质检局,主要应用于对商品进行检验检疫工作时,需要利用企业信用评级,深化信用等级差异化管理,为守信企业提供更多便利,对失信企业实施严格监管等方面。商务局、工商局、发改委等,主要应用于在招商引资时,需要了解相关企业的信用情况等。
相应地,本发明实施例还提供了一种创建企业画像的装置。图2为本发明实施例提供的一种创建企业画像的装置结构示意图。如图2所示,该装置包括以下单元:获取单元201、处理单元202、分类单元203、匹配单元204以及创建单元205。
获取单元201,用于获取与企业画像相关的数据。
具体的,与企业画像相关的数据可以包括政务数据和互联网数据。
处理单元202,用于对与企业画像相关的数据进行预处理,获取预处理后的数据。
具体的,处理单元202具体用于:对与企业画像相关的数据进行去重处理。分别提取经过去重处理后的与企业画像相关的数据中每一条数据对应的至少两个关键词。分别将至少两个关键词中的每一个关键词与关键词典中的关键词进行比对,当确定第一数据的至少两个关键词均不属于关键词典中的关键词时,去除第一数据,其中第一数据为经过去重处理后的与企业画像相关的数据中的任一条数据。将去除第一数据后的与企业画像相关的数据进行格式转换。
分类单元203,用于对预处理后的数据进行分类。
具体的,分类单元203具体用于:将预处理后的政务数据分为:企业登记类、行政处罚类、创新意识类、信贷信息类、信用情况类以及社会责任类。
将预处理后的互联网数据分为:企业相关介绍类、企业招聘信息类以及企业相关新闻类。
匹配单元204,对分类后的数据与企业信息进行匹配,并将匹配成功后的数据存储至与企业信息对应的企业信息数据库。
具体的,匹配单元具体用于:当分类后的数据所属数据源中包含企业法人代码时,利用企业法人代码与企业信息进行匹配。当分类后的数据所属数据源中不包含企业法人代码时,采用模糊匹配算法,将分类后的数据与企业信息进行匹配,并将匹配成功后的数据存储至对应的企业信息数据库。
创建单元205,用于利用企业信息数据库中存储的数据,创建与企业对应的企业画像。
该创建企业画像的装置的各部件所执行的功能已经在上述实施例一种创建企业画像的方法中做了详细的介绍,这里不再赘述。
本发明实施例提供的一种创建企业画像的装置,采用政务大数据和互联网大数据,作为创建企业画像的数据来源,而且获取渠道进行了扩展。避免了数据的单一性,数据形式偏重结构化,以及应用场景局限性的问题。两类大数据分别进行分类,并进行预处理,去除重复数据、无用数据后,对数据统一标准格式。可以保证数据经过预处理后直接运用。利用分类后的数据创建企业画像,可以保证创建的企业画像更加全面化。
读者应理解,在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。