CN108572967A - 一种创建企业画像的方法及装置 - Google Patents

一种创建企业画像的方法及装置 Download PDF

Info

Publication number
CN108572967A
CN108572967A CN201710137619.0A CN201710137619A CN108572967A CN 108572967 A CN108572967 A CN 108572967A CN 201710137619 A CN201710137619 A CN 201710137619A CN 108572967 A CN108572967 A CN 108572967A
Authority
CN
China
Prior art keywords
data
enterprise
portrait
class
company information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710137619.0A
Other languages
English (en)
Other versions
CN108572967B (zh
Inventor
许青圆
王启力
邰莉梅
黄昕庭
于莹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DIGITAL CHINA ADVANCED SYSTEMS SERVICES CO LTD
Original Assignee
DIGITAL CHINA ADVANCED SYSTEMS SERVICES CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DIGITAL CHINA ADVANCED SYSTEMS SERVICES CO LTD filed Critical DIGITAL CHINA ADVANCED SYSTEMS SERVICES CO LTD
Priority to CN201710137619.0A priority Critical patent/CN108572967B/zh
Publication of CN108572967A publication Critical patent/CN108572967A/zh
Application granted granted Critical
Publication of CN108572967B publication Critical patent/CN108572967B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种创建企业画像的方法及装置。该方法包括:获取与企业画像相关的数据;对与企业画像相关的数据进行预处理,获取预处理后的数据;对预处理后的数据进行分类;对分类后的数据与企业进行匹配,并将匹配成功后的数据存储至与企业对应的企业信息数据库;利用企业信息数据库中存储的数据,创建与企业对应的企业画像。获取与企业画像相关的数据后,进行相应的预处理。可以去除一些无用的数据或者重复的数据等等。然后对数据进行分类后,再和企业信息进行匹配,以便于匹配后的数据同样是分类存储的。根据分类后的数据创建企业画像,完整地刻画了企业的全面方位信息,使创建的企业画像更加全面,更加客观。

Description

一种创建企业画像的方法及装置
技术领域
本发明涉及数据处理领域,尤其涉及一种创建企业画像的方法及装置。
背景技术
企业画像具体是指通过分析一个或多个来源的数据,对同企业相关的信息进行提炼与整理,从而得到刻画、描述企业经营业务、发展情况等多个方面的“画像”,即数据集。现阶段,在许多针对企业的业务或应用中,都是基于企业画像所确定的企业相关信息而开展。伴随着互联网信息的海量扩张,以及社会信息化程度的提高,同企业本身相关的信息、数据也在飞速的增加,这也导致企业画像这一技术方法的应用更加丰富,分析成果更具说服力。例如,在社交、电商领域普遍的商家评分系统,就可以理解为企业画像的一种应用形式,这类应用中,系统(或移动端App)会分析来自用户的反馈以及商家自身提供的信息,通过分析模型提炼关键的指标或特征,完成商家的“画像”,并最终形成对商家质量的统一标准评分,为消费者的消费选择提供参考。企业征信同样也是企业画像应用较广的领域,许多征信模型基于传统的企业风险评估5C模型,将企业报表中的信息同5C模型中的不同模块进行对应,实现企业的多角度“画像”,并基于画像应用打分模型评估企业信用。
综上,企业画像方法通过一段时间的发展,在现阶段有着较广的应用。与此同时,通过广泛了解、分析已有的企业画像应用情况,发现目前企业画像在设计、应用过程中主要存在着三个方面的缺点,包括数据源单一,数据形式偏重结构化数据以及应用场景局限。不同的企业画像在这三个方面都有着不同程度的体现,但是这三个方面无论哪一者的出现,都会对企业画像的应用效果造成显著的负面影响。以下便是对这三个方面的详细阐述。
数据源单一是现有企业画像方法应用中最为广泛的问题,对企业画像的应用效果造成了直接的限制,同样也是企业画像丰富最难以突破的瓶颈。诸多分析认为,数据是21世纪信息化发展的源动力,当前的时代是数据时代,这个特点在企业画像中体现的尤为明显。企业画像的目的在于对企业的多个层面进行数据支持的刻画,而实现这一过程需要丰富数据源的驱动。现有的企业画像多数仅采用单一渠道的源数据,或为企业报表,或为网络信息,较少能够将多方面数据源整合利用。
数据形式偏重结构化这一缺点在部分企业画像应用中体现的尤为明显。其中就包括针对企业报表分析的企业信用,企业影响力评估等场景。结构化数据即“行数据”,指可以在数据库中用二维表结构来进行描述的数据,在上述这部分应用中,所有的分析都基于报表中的数值型或分类型数据,这一特点会导致企业画像的丰富程度存在不足,包含在互联网非结构化信息(如新闻、研究报告等)中的海量信息被忽略,这对旨在对企业进行全面刻画的企业画像有着较严重的不利影响。
应用场景局限在一定程度上是目前大部分企业画像方法的通病,这指的是目前的企业画像往往是为某一特定的应用目标(如商家推荐,企业征信等)而开展,因此导致收集的目标数据源存在单一围绕分析目标的特点。在互联网大数据时代,在注重“直接影响”的同时,“间接影响”同样不能被忽视。建立在感性认知前提上所筛选的“相关”数据源,毫无疑问会造成遗漏部分看似“不相关”实则有着显著影响的数据项,这会导致企业画像的应用效果大打折扣。
发明内容
为解决上述技术问题,本发明提供了一种创建企业画像的方法及装置。
第一方面,本发明提供了一种创建企业画像的方法,该方法包括:
获取与企业画像相关的数据;
对与企业画像相关的数据进行预处理,获取预处理后的数据;
对预处理后的数据进行分类;
对分类后的数据与企业信息进行匹配,并将匹配成功后的数据存储至与企业信息对应的企业信息数据库;
利用企业信息数据库中存储的数据,创建与企业对应的企业画像。
本发明的有益效果是:获取与企业画像相关的数据后,进行相应的预处理。可以去除一些无用的数据或者重复的数据等等。然后对数据进行分类后,再和企业信息进行匹配,以便于匹配后的数据同样是分类存储的。根据分类后的数据创建企业画像,完整地刻画了企业的全面方位信息,使创建的企业画像更加全面,更加客观。
进一步,对与企业画像相关的数据进行预处理,获取预处理后的数据,具体包括:
对与企业画像相关的数据进行去重处理;
分别提取经过去重处理后的与企业画像相关的数据中每一条数据对应的至少两个关键词;
分别将至少两个关键词中的每一个关键词与关键词典中的关键词进行比对,当确定第一数据的至少两个关键词均不属于关键词典中的关键词时,去除第一数据,其中第一数据为经过去重处理后的与企业画像相关的数据中的任一条数据;
将去除第一数据后的与企业画像相关的数据进行格式转换。
采用上述进一步的方案的有益技术效果在于,将收集到的数据进行去重、去除无用数据,以及将数据进行格式转换等预处理,可以提高最终数据质量,统一数据标准。
进一步,与企业画像相关的数据包括:政务数据和互联网数据。
采用上述进一步的技术方案的有益技术效果在于,数据源来自于政务大数据和互联网大数据,数据来源更加广泛,拓展数据获取渠道,由此可以避免数据的单一性,数据形式偏重结构化,以及应用场景局限化等问题。
进一步的,对预处理后的数据进行分类,具体包括:
将预处理后的政务数据分为:企业登记类、行政处罚类、创新意识类、信贷信息类、信用情况类以及社会责任类;
将预处理后的互联网数据分为:企业相关介绍类、企业招聘信息类以及企业相关新闻类。
采用上述进一步的技术方案的有益技术效果在于:采用两大数据源,将数据分别分为九类。根据这九大类数据可以实现全方位的构建企业画像。
进一步的,对分类后的数据与企业信息进行匹配,并将匹配成功后的数据存储至对应的企业信息数据库,具体包括:
当分类后的数据所属数据源中包含企业法人代码时,利用企业法人代码与企业信息进行匹配;
当分类后的数据所属数据源中不包含企业法人代码时,采用模糊匹配算法,将分类后的数据与企业信息进行匹配,并将匹配成功后的数据存储至对应的企业信息数据库。
采用上述进一步的技术方案的有益技术效果在于:在进行数据分类后,将每一条数据和企业信息进行匹配。当数据源含有国家统一规定的企业法人代码时,直接与企业信息进行匹配。当不包含时,则利用模糊匹配的方法,进行匹配。最终获取一个高纬度、不同属性的大数据。
第二方面,本发明提供了一种创建企业画像的装置,该装置包括:获取单元,用于获取与企业画像相关的数据;
处理单元,用于对与企业画像相关的数据进行预处理,获取预处理后的数据;
分类单元,用于对预处理后的数据进行分类;
匹配单元,对分类后的数据与企业信息进行匹配,并将匹配成功后的数据存储至与企业信息对应的企业信息数据库;
创建单元,用于利用企业信息数据库中存储的数据,创建与企业对应的企业画像。
上述方案的有益技术效果在于,获取与企业画像相关的数据后,进行相应的预处理。可以去除一些无用的数据或者重复的数据等等。然后对数据进行分类后,再和企业信息进行匹配,以便于匹配后的数据同样是分类存储的。根据分类后的数据创建企业画像,完整地刻画了企业的全面方位信息,使创建的企业画像更加全面,更加客观。
进一步的,处理单元具体用于:
对与企业画像相关的数据进行去重处理;
分别提取经过去重处理后的与企业画像相关的数据中每一条数据对应的至少两个关键词;
分别将至少两个关键词中的每一个关键词与关键词典中的关键词进行比对,当确定第一数据的至少两个关键词均不属于关键词典中的关键词时,去除第一数据,其中第一数据为经过去重处理后的与企业画像相关的数据中的任一条数据;
将去除第一数据后的与企业画像相关的数据进行格式转换。
采用上述进一步的方案的有益技术效果在于,将收集到的数据进行去重、去除无用数据,以及将数据进行格式转换等预处理,可以提高最终数据质量,统一数据标准。
进一步的,与企业画像相关的数据包括:政务数据和互联网数据。
采用上述进一步的技术方案的有益技术效果在于,数据源来自于政务大数据和互联网大数据,数据来源更加广泛,拓展数据获取渠道,由此可以避免数据的单一性,数据形式偏重结构化,以及应用场景局限化等问题。
进一步的,分类单元具体用于:
将预处理后的政务数据分为:企业登记类、行政处罚类、创新意识类、信贷信息类、信用情况类以及社会责任类;
将预处理后的互联网数据分为:企业相关介绍类、企业招聘信息类以及企业相关新闻类。
采用上述进一步的技术方案的有益技术效果在于,采用两大数据源,将数据分别分为九类。根据这九大类数据可以实现全方位的构建企业画像。
进一步的,匹配单元具体用于:当分类后的数据所属数据源中包含企业法人代码时,利用企业法人代码与企业信息进行匹配;
当分类后的数据所属数据源中不包含企业法人代码时,采用模糊匹配算法,将分类后的数据与企业信息进行匹配,并将匹配成功后的数据存储至对应的企业信息数据库。
采用上述进一步的技术方案的有益技术效果在于,在进行数据分类后,将每一条数据和企业进行匹配。当数据源含有国家统一规定的企业法人代码时,直接匹配至企业。当不包含时,则利用模糊匹配的方法,进行匹配。最终获取一个高纬度不同属性的大数据。
附图说明
图1为本发明实施例提供的一种创建企业画像的方法流程示意图;
图2为本发明实施例提供的一种创建企业画像的装置结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透切理解本发明。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
图1为本发明实施例提供的一种创建企业画像的方法流程示意图。具体如图1所示,该方法包括:
步骤110,获取与企业画像相关的数据。
优选的,与企业画像相关的数据可以为政务数据和互联网数据。政务大数据是指政府通过行政手段依法获取、并用于政务活动的大数据。目前各级政府都掌握着大量的政务数据,有的政府如北京市政府、上海市政府等建设了政务数据服务网,以城市统一的地理空间架构和人口、法人等信息资源为基础,叠加各部门、各行业相关业务信息在网站上公开供老百姓查询。对于这一些在网上公开政务大数据的政府,可以使用Python语言编写网络数据爬虫获取关于企业的政务数据。对于其它未在网上公开政务大数据,或者公开数据不全面的数据,可以采取与政府信息中心合作的方式获取到关于企业的政务数据。
互联网大数据是指在网络上展现的各种信息集合的大数据,通过Python语言编写的网络数据爬虫,可以获取到大量关于各个企业的互联网大数据,数据来源为各大网站和搜索引擎。
但是,在获取到这两类数据后,可能并不能够直接运用。因为获取的原始数据可能存在重复、对于实际运用毫无用处、数据格式非法和存在不规范的编码等。因此需要对原始数据进行数据预处理,提高数据质量,统一数据标准。具体如步骤120中。
步骤120,对与企业画像相关的数据进行预处理,获取预处理后的数据。
具体的,如果数据是由网络数据爬虫获取的,则数据预处理部分在其获取到数据后即进行,并在预处理后存入数据库。具体可以包括以下4个步骤:
第一步,对与企业画像相关的数据进行去重处理。
原始数据的重复问题主要是获取的网页的重复,解决这个问题可以将任意长度的页面链接用MD5算法变换成固定32位长度的字符串,通过比对数据库中所获取的MD5字符串来排除重复网页。
第二步,分别提取经过去重处理后的与企业画像相关的数据中每一条数据对应的至少两个关键词。
具体的,在判断原始数据对于实际运用是否有用处时,则可以利用关键词字典,关键词字典包含一些较宽泛的词语,如“公司”,“信息”等。那么,就需要提经过去重处理后的与企业画像相关的数据中的每一条数据对应的至少两个关键词。
第三步,分别将至少两个关键词中的每一个关键词与关键词典中的关键词进行比对,当确定第一数据的至少两个关键词均不属于关键词典中的关键词时,去除第一数据,其中第一数据为经过去重处理后的与企业画像相关的数据中的任一条数据。
具体的,将每一条数据的至少两个关键词中的每一个关键词分别与关键词典中的关键词进行比对。当确定第一数据中的至少两个关键词均不属于关键词典中的关键词时,则将这项数据排除。其中,第一数据可以是经过去重后的数据中的任一条数据。也即是,这里仅仅是介绍去除无用数据方法,而并非针对某一条数据。
第四步,将去除第一数据后的与企业画像相关的数据进行格式转换。
具体的,数据格式非法和存在不规范编码可以通过一系列标准化操作来处理,比如将所有获取到的数据都统一转换成UTF-8格式,在数据入库时对双引号等特殊符号进行处理等。
而如果数据是由政府相关部门直接提供的,则数据预处理部分则较为简单。主要是通过Excel命令或者数据库SQL命令进行上述处理,操作更为简便。在对数据进行预处理后,则可以执行步骤130了。
步骤130,对预处理后的数据进行分类。
具体的,合理的数据分类是对企业进行多方位画像、向用户呈现画像结果的重要前提。从数据来源进行划分,企业相关的数据信息可以分为政务数据和互联网数据。
针对政务数据集样本的具体情况,以及相关政务工作过程和目标,又可以将政务大数据分为:企业登记类、行政处罚类、创新意识类、信贷信息类、信用情况类、社会责任类等六个子类来对企业进行画像。
企业登记的数据来源于企业在工商登记或相关资质申请时填写的信息,包括法人、注册资本、员工数量、地址等等;行政处罚的数据来源于各个委、办、局对企业进行行政处罚时备案的信息,记录了企业受过处罚的时间、原因、处罚内容等;创新意识则体现在企业获得的科技创新奖项、引进的人才数量等;信贷信息来源于企业在银行进行信贷活动的记录;信用情况反映企业是否有过违约、失信的历史,如欠缴水电费、欠税、欠薪、失信被执行等;社会责任体现在企业在环境保护上的行动以及企业的慈善捐助等。
互联网大数据可以分为企业相关介绍类、企业招聘信息类和企业相关新闻类等三个子类来对企业进行画像。
企业相关介绍是用户了解企业最直观的信息,政务大数据中企业登记的信息往往比较简要,而互联网大数据中对企业的介绍则丰富得多,企业相关介绍信息来源于企业主页、招聘网站上对企业的介绍以及搜索引擎结果中关于企业的介绍;企业招聘信息从各大招聘网站上获取,包括对招聘职位的描述、发布时间、工资、学历要求、年龄要求、工作经验要求等等;企业相关新闻来源于互联网各大新闻网站。
在进行完数据分类后,需要确定每一条数据属于哪个企业。因此,还需要执行步骤140。
步骤140,对分类后的数据与企业信息进行匹配,并将匹配成功后的数据存储至与企业信息对应的企业信息数据库。
具体的,如果数据源中含有国家统一规定的企业法人代码,即可匹配到该企业信息。如果数据源中不含企业法人代码,则需要通过企业名称进行匹配。但是如果要求企业名称准确匹配的话会使许多数据无法得到匹配,比如“**市甲有限公司”和“**甲有限公司”在实际中很可能是同一家,但却无法匹配上。为了解决这个问题,我们采取模糊匹配的方法,统一去除“市”、“区”、“县”、“公司”、“有限公司”等辅助词,抽取出企业名称的主干进行匹配。数据得到匹配后即与相应的企业关联起来,存储在企业相关信息数据库中。由于每个企业存在的相关信息类型、种类、样式不统一,因此传统的关系型数据库无法存储这样高纬度不同属性的大数据。针对企业画像大数据的特点,优选的,可以利用无模式文档型数据库,如MongoDB来对相关数据进行存储。
步骤150,利用企业信息数据库中存储的数据,创建与企业对应的企业画像。
具体的,在步骤140完成后,即可利用数据库中企业相关的九类数据进行企业画像,全方位展现企业相关的信息,包括静态信息如企业登记信息和企业相关介绍,以及动态更新信息如行政处罚情况、创新意识、信贷信息、信用情况、社会责任情况、企业招聘信息和企业相关新闻等。基于政务大数据和互联网大数据的企业画像,将为有关政府部门制定宏观经济政策、地方法规提供重要的参考依据,为各个企业的管理层进行规范引导、科学管理提供有力的数据支撑,为企业建设、提升、成就品牌、学习行业标杆提供可参照的对象,为消费者和投资者等利益相关者进行购买、投资、合作提供重要参考。
本发明实施例提供的一种创建企业画像的方法,采用政务大数据和互联网大数据,作为创建企业画像的数据来源,而且获取渠道进行了扩展。避免了数据的单一性,数据形式偏重结构化,以及应用场景局限性的问题。两类大数据分别进行分类,并进行预处理,去除重复数据、无用数据后,对数据统一标准格式。可以保证数据经过预处理后直接运用。利用分类后的数据创建企业画像,可以保证创建的企业画像更加全面化。
具体的,丰富数据源体现在对数据获取渠道的拓展,包括政务大数据与互联网大数据。其中政务大数据的获取建立在同相关政府部门以及委办局合作的基础上,包括各部门、委办局长期积累的个人、企业信息以及定期更新的业务数据。这部分数据包括政府官方网站上公布的社会公开信息以及政府部门内部使用的非公开信息。互联网大数据则全部来自于互联网在线信息的收集,这一部分信息将渠道丰富这一特点体现的更为明显。通过广泛的对比与定量的分析,对可行、可用的数据源网站进行筛选并应用数据获取方法,对获取的网络信息(主要为非结构化文本信息)应用相应的分析技术(如文本关键词提取等),从而实现企业画像网络数据源部分的补充与丰富。
结构化与非结构化数据并重同样依托的政务大数据与互联网大数据是这两个不同渠道的数据。来源与政府部门与不同委办局的数据多为二维表结构,即结构化数据,这也同政府通过信息系统进行日常业务办理有着直接的关联。结构化数据易处理、易保存、逻辑清晰等属性也是政务流程广泛采用这一类型数据的原因。相反,互联网大数据多呈现非结构化的特点,“阅读”属性是非结构化数据的最大特征,新闻、研究报告、招聘信息说明等文本信息,都是非结构化数据的一种体现。借助如文本分析等技术方法,可以实现非结构化数据的信息提取,从而将文本转化为后续应用模型易用的特征形式,提升企业画像的应用性。
相比当前主流的“应用导向型”企业画像,本发明的企业画像更偏重数据导向,而这一特点也更符合当前时代的发展趋势,其所带来的多场景应用性也极具价值。本发明所分析的政务数据来源于数量众多,涵盖面极广的政府部门及委办局,设计的政府业务极为丰富,因此其所囊括的信息涉及企业的方方面面,包括企业社保,企业纳税,企业信贷等基础情况,也涉及高新企业,节能企业以及科技创新企业等信息。因此,从企业基本的经营业务,至企业的最新发展情况,都反映在政务大数据之中。同时,互联网大数据中提炼的信息同政务信息相辅相成,完整地刻画了企业的全方位信息,实现了全面客观的企业画像。
而且,本发明实施例提供的企业画像方法,可以对政府部门的不同业务提供辅助与决策支持,例如:海关,可以用于对企业进出口进行监管,评估企业走私、逃税风险等方面。国税、地税,主要用于评估企业欠税风险等方面。银行,在企业申请开据银行承兑汇票时,了解企业信用情况,又或者贷款发放违约风险评估等方面。审计局,对各国有企业上报财政情况是否属实进行评估与潜在风险发现,避免企业“做假账”等情况引发财政风险。环保局,对可能存在违规排污行为的企业进行判断,并定期对企业环境友好级别进行更新,对部分高危企业进行重点监控等。教育局、安监局、住建局、食药监等,主要用于对企业上报资质情况进行评估,甄别部分企业为达到一定资质要求“买证”、“租证”的行为等。发改委、财政局等,主要用于在招投标中对投标企业进行审核时,需要了解企业信用情况等。质检局,主要应用于对商品进行检验检疫工作时,需要利用企业信用评级,深化信用等级差异化管理,为守信企业提供更多便利,对失信企业实施严格监管等方面。商务局、工商局、发改委等,主要应用于在招商引资时,需要了解相关企业的信用情况等。
相应地,本发明实施例还提供了一种创建企业画像的装置。图2为本发明实施例提供的一种创建企业画像的装置结构示意图。如图2所示,该装置包括以下单元:获取单元201、处理单元202、分类单元203、匹配单元204以及创建单元205。
获取单元201,用于获取与企业画像相关的数据。
具体的,与企业画像相关的数据可以包括政务数据和互联网数据。
处理单元202,用于对与企业画像相关的数据进行预处理,获取预处理后的数据。
具体的,处理单元202具体用于:对与企业画像相关的数据进行去重处理。分别提取经过去重处理后的与企业画像相关的数据中每一条数据对应的至少两个关键词。分别将至少两个关键词中的每一个关键词与关键词典中的关键词进行比对,当确定第一数据的至少两个关键词均不属于关键词典中的关键词时,去除第一数据,其中第一数据为经过去重处理后的与企业画像相关的数据中的任一条数据。将去除第一数据后的与企业画像相关的数据进行格式转换。
分类单元203,用于对预处理后的数据进行分类。
具体的,分类单元203具体用于:将预处理后的政务数据分为:企业登记类、行政处罚类、创新意识类、信贷信息类、信用情况类以及社会责任类。
将预处理后的互联网数据分为:企业相关介绍类、企业招聘信息类以及企业相关新闻类。
匹配单元204,对分类后的数据与企业信息进行匹配,并将匹配成功后的数据存储至与企业信息对应的企业信息数据库。
具体的,匹配单元具体用于:当分类后的数据所属数据源中包含企业法人代码时,利用企业法人代码与企业信息进行匹配。当分类后的数据所属数据源中不包含企业法人代码时,采用模糊匹配算法,将分类后的数据与企业信息进行匹配,并将匹配成功后的数据存储至对应的企业信息数据库。
创建单元205,用于利用企业信息数据库中存储的数据,创建与企业对应的企业画像。
该创建企业画像的装置的各部件所执行的功能已经在上述实施例一种创建企业画像的方法中做了详细的介绍,这里不再赘述。
本发明实施例提供的一种创建企业画像的装置,采用政务大数据和互联网大数据,作为创建企业画像的数据来源,而且获取渠道进行了扩展。避免了数据的单一性,数据形式偏重结构化,以及应用场景局限性的问题。两类大数据分别进行分类,并进行预处理,去除重复数据、无用数据后,对数据统一标准格式。可以保证数据经过预处理后直接运用。利用分类后的数据创建企业画像,可以保证创建的企业画像更加全面化。
读者应理解,在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种创建企业画像的方法,其特征在于,所述方法包括:
获取与企业画像相关的数据;
对所述与企业画像相关的数据进行预处理,获取预处理后的数据;
对所述预处理后的数据进行分类;
对所述分类后的数据与企业信息进行匹配,并将匹配成功后的数据存储至与企业信息对应的企业信息数据库;
利用所述企业信息数据库中存储的数据,创建与企业对应的企业画像。
2.根据权利要求1所述的方法,其特征在于,所述对所述与企业画像相关的数据进行预处理,获取预处理后的数据,具体包括:
对所述与企业画像相关的数据进行去重处理;
分别提取经过去重处理后的与企业画像相关的数据中每一条数据对应的至少两个关键词;
分别将所述至少两个关键词中的每一个关键词与关键词典中的关键词进行比对,当确定第一数据的至少两个关键词均不属于关键词典中的关键词时,去除所述第一数据,其中所述第一数据为所述经过去重处理后的与企业画像相关的数据中的任一条数据;
将去除所述第一数据后的与企业画像相关的数据进行格式转换。
3.根据权利要求1所述的方法,其特征在于,所述与企业画像相关的数据包括:政务数据和互联网数据。
4.根据权利要求3所述的方法,其特征在于,对所述预处理后的数据进行分类,具体包括:
将预处理后的政务数据分为:企业登记类、行政处罚类、创新意识类、信贷信息类、信用情况类以及社会责任类;
将预处理后的互联网数据分为:企业相关介绍类、企业招聘信息类以及企业相关新闻类。
5.根据权利要求1-4任一项所述的法,其特征在于,所述对所述分类后的数据与企业信息进行匹配,并将匹配成功后的数据存储至与企业信息对应的企业信息数据库,具体包括:
当所述分类后的数据所属数据源中包含企业法人代码时,利用所述企业法人代码与所述企业信息进行匹配;
当所述分类后的数据所属数据源中不包含所述企业法人代码时,采用模糊匹配算法,将所述分类后的数据与所述企业信息进行匹配,并将匹配成功后的数据存储至对应的企业信息数据库。
6.一种创建企业画像的装置,其特征在于,所述装置包括:
获取单元,用于获取与企业画像相关的数据;
处理单元,用于对所述与企业画像相关的数据进行预处理,获取预处理后的数据;
分类单元,用于对所述预处理后的数据进行分类;
匹配单元,企业信息数据库对所述分类后的数据与企业信息进行匹配,并将匹配成功后的数据存储至与企业信息对应的企业信息数据库;
创建单元,用于利用所述企业信息数据库中存储的数据,创建与企业对应的企业画像。
7.根据权利要求6所述的装置,其特征在于,所述处理单元具体用于:
对所述与企业画像相关的数据进行去重处理;
分别提取经过去重处理后的与企业画像相关的数据中每一条数据对应的至少两个关键词;
分别将所述至少两个关键词中的每一个关键词与关键词典中的关键词进行比对,当确定第一数据的至少两个关键词均不属于关键词典中的关键词时,去除所述第一数据,其中所述第一数据为所述经过去重处理后的与企业画像相关的数据中的任一条数据;
将去除所述第一数据后的与企业画像相关的数据进行格式转换。
8.根据权利要求6所述的装置,其特征在于,所述与企业画像相关的数据包括:政务数据和互联网数据。
9.根据权利要求8所述的装置,其特征在于,所述分类单元具体用于:
将预处理后的政务数据分为:企业登记类、行政处罚类、创新意识类、信贷信息类、信用情况类以及社会责任类;
将预处理后的互联网数据分为:企业相关介绍类、企业招聘信息类以及企业相关新闻类。
10.根据权利要求6-9任一项所述的装置,其特征在于,所述匹配单元具体用于:
当所述分类后的数据所属数据源中包含企业法人代码时,利用所述企业法人代码与所述企业信息进行匹配;
当所述分类后的数据所属数据源中不包含所述企业法人代码时,采用模糊匹配算法,将所述分类后的数据与所述企业信息进行匹配,并将匹配成功后的数据存储至对应的企业信息数据库。
CN201710137619.0A 2017-03-09 2017-03-09 一种创建企业画像的方法及装置 Active CN108572967B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710137619.0A CN108572967B (zh) 2017-03-09 2017-03-09 一种创建企业画像的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710137619.0A CN108572967B (zh) 2017-03-09 2017-03-09 一种创建企业画像的方法及装置

Publications (2)

Publication Number Publication Date
CN108572967A true CN108572967A (zh) 2018-09-25
CN108572967B CN108572967B (zh) 2022-03-15

Family

ID=63577831

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710137619.0A Active CN108572967B (zh) 2017-03-09 2017-03-09 一种创建企业画像的方法及装置

Country Status (1)

Country Link
CN (1) CN108572967B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109460895A (zh) * 2018-09-28 2019-03-12 龙马智芯(珠海横琴)科技有限公司 构建社会单位画像的方法及系统
CN109754177A (zh) * 2018-12-29 2019-05-14 广州明动软件股份有限公司 污染源画像标签体系、污染源画像的构造方法及其应用
CN110147813A (zh) * 2019-04-04 2019-08-20 深圳价值在线信息科技股份有限公司 一种用户画像构建方法、装置、存储介质和服务器
CN110348732A (zh) * 2019-07-08 2019-10-18 泰华智慧产业集团股份有限公司 基于哈希算法的企业画像数据预处理方法和系统
CN110472680A (zh) * 2019-08-08 2019-11-19 京东城市(北京)数字科技有限公司 目标分类方法、装置和计算机可读存储介质
CN110544023A (zh) * 2019-08-16 2019-12-06 北京慧辰资道资讯股份有限公司 一种企业区域性贡献力的数据化评估系统及其评估方法
CN110991922A (zh) * 2019-12-12 2020-04-10 山西云海智化大数据科技有限公司 基于企业画像的企业精准分析方法
CN111027854A (zh) * 2019-12-10 2020-04-17 重庆撼地大数据有限公司 一种基于企业大数据的综合画像指数生成方法及相关设备
CN111062744A (zh) * 2019-12-05 2020-04-24 武汉国贸通大数据有限公司 一种基于国际贸易的企业画像数据系统
CN111489105A (zh) * 2020-05-06 2020-08-04 支付宝(杭州)信息技术有限公司 一种企业风险识别方法、装置及设备
CN111539605A (zh) * 2020-04-14 2020-08-14 鼎富智能科技有限公司 企业画像的构建方法及装置
CN111815173A (zh) * 2020-07-10 2020-10-23 东软集团(上海)有限公司 一种基于关联规则的企业画像评估方法
CN112052271A (zh) * 2020-09-29 2020-12-08 中国银行股份有限公司 一种数据处理方法及装置
CN112396550A (zh) * 2020-11-26 2021-02-23 深圳市中博科创信息技术有限公司 一种智慧招商平台的构建管理方法
CN112818203A (zh) * 2021-01-07 2021-05-18 合肥新青罗数字技术有限公司 企业画像大数据分析的方法与系统
CN113240509A (zh) * 2021-05-18 2021-08-10 重庆邮电大学 一种基于多源数据联邦学习的贷款风险评估方法
CN115001856A (zh) * 2022-07-18 2022-09-02 国网浙江省电力有限公司杭州供电公司 基于数据处理的网络安全画像及攻击预测方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101621823A (zh) * 2008-06-30 2010-01-06 上海全成通信技术有限公司 一种对移动通信数据业务客户画像的精确构建方法
US20150058821A1 (en) * 2010-06-02 2015-02-26 Oracle International Corporation Mobile design patterns
US20150212659A1 (en) * 2014-01-24 2015-07-30 Tresys Technology, Llc Multi-Persona Launcher
CN105138637A (zh) * 2015-08-24 2015-12-09 浪潮软件股份有限公司 一种数据处理的方法及装置
CN105512245A (zh) * 2015-11-30 2016-04-20 青岛智能产业技术研究院 一种基于回归模型建立企业画像的方法
CN105893406A (zh) * 2015-11-12 2016-08-24 乐视云计算有限公司 群体用户画像方法及系统
CN105913195A (zh) * 2016-04-29 2016-08-31 浙江汇信科技有限公司 基于全行业数据的企业金融风险评分方法
CN105931068A (zh) * 2015-12-30 2016-09-07 中国银联股份有限公司 一种持卡人消费画像的生成方法及装置
CN106339806A (zh) * 2016-08-24 2017-01-18 北京创业公社征信服务有限公司 一种面向企业信息的行业全息画像构建方法及系统
CN106447490A (zh) * 2016-09-26 2017-02-22 广州速鸿信息科技有限公司 一种基于用户画像的征信应用方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101621823A (zh) * 2008-06-30 2010-01-06 上海全成通信技术有限公司 一种对移动通信数据业务客户画像的精确构建方法
US20150058821A1 (en) * 2010-06-02 2015-02-26 Oracle International Corporation Mobile design patterns
US20150212659A1 (en) * 2014-01-24 2015-07-30 Tresys Technology, Llc Multi-Persona Launcher
CN105138637A (zh) * 2015-08-24 2015-12-09 浪潮软件股份有限公司 一种数据处理的方法及装置
CN105893406A (zh) * 2015-11-12 2016-08-24 乐视云计算有限公司 群体用户画像方法及系统
CN105512245A (zh) * 2015-11-30 2016-04-20 青岛智能产业技术研究院 一种基于回归模型建立企业画像的方法
CN105931068A (zh) * 2015-12-30 2016-09-07 中国银联股份有限公司 一种持卡人消费画像的生成方法及装置
CN105913195A (zh) * 2016-04-29 2016-08-31 浙江汇信科技有限公司 基于全行业数据的企业金融风险评分方法
CN106339806A (zh) * 2016-08-24 2017-01-18 北京创业公社征信服务有限公司 一种面向企业信息的行业全息画像构建方法及系统
CN106447490A (zh) * 2016-09-26 2017-02-22 广州速鸿信息科技有限公司 一种基于用户画像的征信应用方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
田丰: "城市智能服务发展趋势", 《中国建设信息化》 *

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109460895A (zh) * 2018-09-28 2019-03-12 龙马智芯(珠海横琴)科技有限公司 构建社会单位画像的方法及系统
CN109754177A (zh) * 2018-12-29 2019-05-14 广州明动软件股份有限公司 污染源画像标签体系、污染源画像的构造方法及其应用
CN110147813B (zh) * 2019-04-04 2021-06-15 深圳价值在线信息科技股份有限公司 一种用户画像构建方法、装置、存储介质和服务器
CN110147813A (zh) * 2019-04-04 2019-08-20 深圳价值在线信息科技股份有限公司 一种用户画像构建方法、装置、存储介质和服务器
CN110348732A (zh) * 2019-07-08 2019-10-18 泰华智慧产业集团股份有限公司 基于哈希算法的企业画像数据预处理方法和系统
CN110472680A (zh) * 2019-08-08 2019-11-19 京东城市(北京)数字科技有限公司 目标分类方法、装置和计算机可读存储介质
CN110544023A (zh) * 2019-08-16 2019-12-06 北京慧辰资道资讯股份有限公司 一种企业区域性贡献力的数据化评估系统及其评估方法
CN111062744A (zh) * 2019-12-05 2020-04-24 武汉国贸通大数据有限公司 一种基于国际贸易的企业画像数据系统
CN111027854A (zh) * 2019-12-10 2020-04-17 重庆撼地大数据有限公司 一种基于企业大数据的综合画像指数生成方法及相关设备
CN110991922A (zh) * 2019-12-12 2020-04-10 山西云海智化大数据科技有限公司 基于企业画像的企业精准分析方法
CN111539605B (zh) * 2020-04-14 2023-12-29 鼎富智能科技有限公司 企业画像的构建方法及装置
CN111539605A (zh) * 2020-04-14 2020-08-14 鼎富智能科技有限公司 企业画像的构建方法及装置
CN113435762A (zh) * 2020-05-06 2021-09-24 支付宝(杭州)信息技术有限公司 一种企业风险识别方法、装置及设备
CN111489105B (zh) * 2020-05-06 2021-05-25 支付宝(杭州)信息技术有限公司 一种企业风险识别方法、装置及设备
CN113435762B (zh) * 2020-05-06 2023-08-08 支付宝(杭州)信息技术有限公司 一种企业风险识别方法、装置及设备
CN111489105A (zh) * 2020-05-06 2020-08-04 支付宝(杭州)信息技术有限公司 一种企业风险识别方法、装置及设备
CN111815173A (zh) * 2020-07-10 2020-10-23 东软集团(上海)有限公司 一种基于关联规则的企业画像评估方法
CN112052271A (zh) * 2020-09-29 2020-12-08 中国银行股份有限公司 一种数据处理方法及装置
CN112052271B (zh) * 2020-09-29 2023-11-17 中国银行股份有限公司 一种数据处理方法及装置
CN112396550A (zh) * 2020-11-26 2021-02-23 深圳市中博科创信息技术有限公司 一种智慧招商平台的构建管理方法
CN112818203A (zh) * 2021-01-07 2021-05-18 合肥新青罗数字技术有限公司 企业画像大数据分析的方法与系统
CN113240509A (zh) * 2021-05-18 2021-08-10 重庆邮电大学 一种基于多源数据联邦学习的贷款风险评估方法
CN113240509B (zh) * 2021-05-18 2022-04-22 重庆邮电大学 一种基于多源数据联邦学习的贷款风险评估方法
CN115001856A (zh) * 2022-07-18 2022-09-02 国网浙江省电力有限公司杭州供电公司 基于数据处理的网络安全画像及攻击预测方法

Also Published As

Publication number Publication date
CN108572967B (zh) 2022-03-15

Similar Documents

Publication Publication Date Title
CN108572967A (zh) 一种创建企业画像的方法及装置
CN111428053B (zh) 一种面向税务领域知识图谱的构建方法
CN110223168B (zh) 一种基于企业关系图谱的标签传播反欺诈检测方法及系统
CN110704572A (zh) 疑似非法集资风险的预警方法、装置、设备和存储介质
CN113297283A (zh) 用于企业风险预警的舆情分析方法及系统
CN111967761A (zh) 一种基于知识图谱的监控预警方法、装置及电子设备
CN112182246A (zh) 通过大数据分析建立企业画像的方法、系统、介质及应用
CN107122432A (zh) 企业社会责任分析方法、装置和系统
KR102121901B1 (ko) 정책자금 온라인 심사평가 시스템
Nagar et al. Using text and data mining techniques to extract stock market sentiment from live news streams
CN111737421A (zh) 一种知识产权大数据情报检索系统及存储介质
CN109710930A (zh) 一种基于深度神经网络的中文简历解析方法
Matthies et al. Computer-aided text analysis of corporate disclosures-demonstration and evaluation of two approaches
Fu et al. A sentiment-aware trading volume prediction model for P2P market using LSTM
CN114860882A (zh) 一种基于文本分类模型的公平竞争审查辅助方法
CN106934054A (zh) 基于大数据的企业细分行业精准分析方法及其系统
CN110880142A (zh) 一种风险实体获取方法及装置
CN113723737A (zh) 一种基于企业画像的政策匹配方法、装置、设备及介质
Faccia et al. Unstructured over structured, big data analytics and applications in accounting and management
Putera et al. How indonesia uses big data “indonesian one data” for the future of policy making
Canello et al. Investigating space‐time patterns of regional industrial resilience through a micro‐level approach: An application to the Italian wine industry
CN110069558A (zh) 基于深度学习的数据分析方法及终端设备
Szabó et al. Exploring the dynamic changes of key concepts of the Hungarian socialist era with natural language processing methods
Feng Data Analysis and Prediction Modeling Based on Deep Learning in E‐Commerce
Modrušan et al. Intelligent Public Procurement Monitoring System Powered by Text Mining and Balanced Indicators

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230116

Address after: Shenzhou Information Building, Building 18, East Zone, Phase II, Zhongguancun Software Park, No. 10, Northwest Wangdong Road, Haidian District, Beijing, 100081

Patentee after: DIGITAL CHINA ADVANCED SYSTEMS SERVICES Co.,Ltd.

Address before: 100000 Shenzhou information building, building 18, phase II, Zhongguancun Software Park, yard 10, northwest Wangdong Road, Haidian District, Beijing

Patentee before: DIGITAL CHINA ADVANCED SYSTEMS SERVICES Co.,Ltd.

Patentee before: Xu Qingyuan

TR01 Transfer of patent right