CN112131275A

CN112131275A - 全息城市大数据模型和知识图谱的企业画像构建方法

Info

Publication number: CN112131275A
Application number: CN202011008544.4A
Authority: CN
Inventors: 连德富; 陈钢
Original assignee: Institute Of Smart City University Of Science And Technology Of China Wuhu
Current assignee: Institute Of Smart City University Of Science And Technology Of China Wuhu
Priority date: 2020-09-23
Filing date: 2020-09-23
Publication date: 2020-12-25
Anticipated expiration: 2040-09-23
Also published as: CN112131275B

Abstract

本发明公开了一种全息城市大数据模型和知识图谱的企业画像构建方法，包括企业全息数据模型构建、企业知识图谱构建和企业标签自动化提取；通过全息画像能精细化地定位企业特征，挖掘潜在的企业关系，通过构建企业画像描述任意一个现存企业，为企业信息需求方提供充分认知和全面了解企业的途径。企业全息画像建立了企业全部信息数据库，使用自然人语言处理和数据挖掘技术从企业全息数据和知识图谱中提取标签绘制企业画像，不但能够缓解企业数据分散、缺失的问题，还能够展示企业全维度信息。

Description

全息城市大数据模型和知识图谱的企业画像构建方法

技术领域

本发明涉及一种全息城市大数据模型和知识图谱的企业画像构建方法。

背景技术

近年来，中小企业数量也不断飙升，产生了海量的政务大数据和互联网大数据，信息不对称的现象越来越明显，需要加强对中小企业数据的价值挖掘，对企业进行全息画像十分必要。在现有的企业信息查询商业化产品中，对标签的重要性程度缺乏考虑。企查查、天眼查等推出的产品能够对企业公开信息进行全面的查询，但缺少对用户自定义的支持。基于不同的维度，每个标签对政府涉企业务部门所体现的价值是不同的，因此企业信息查询商业化产品无法从根本上促进政府部门数据治理模式的转变。

因此，急需要提供一种新的企业画像构建方法来解决上述技术难题。

发明内容

本发明的目的是提供一种全息城市大数据模型和知识图谱的企业画像构建方法，企业全息画像能精细化地定位企业特征，挖掘潜在的企业关系，通过构建企业画像描述任意一个现存企业，为企业信息需求方提供充分认知和全面了解企业的途径。企业全息画像建立了企业全部信息数据库，使用自然人语言处理和数据挖掘技术从企业全息数据和知识图谱中提取标签绘制企业画像，不但能够缓解企业数据分散、缺失的问题，还能够展示企业全维度信息。

为了实现上述目的，本发明提供了一种全息城市大数据模型和知识图谱的企业画像构建方法，包括企业全息数据模型构建、企业知识图谱构建和企业标签自动化提取；其中，

企业全息数据模型包括企业背景模型、企业风险模型、企业经营模型和知识产权模型，具体的：

企业背景模型包括企业的基本信息、股东信息、主要人员、分支机构和对外投资信息；

企业风险模型包括企业的工商变更、法院裁判文书、法院公告信息、法院失信信息、法院被执行人信息、行政处罚、清算信息、股权出质、动产抵押、经营异常、政府严重采购违法、税务违法信息和工商的经营异常信息；

企业经营模型包括企业的招投标信息、抽查检查信息、资质证书、行政许可和招聘信息；

知识产权模型包括商标信息、专利信息、软著信息和网站备案。

优选地，构建企业全息数据模型包括对政务大数据和互联网大数据加以融合，包括：

步骤a1、利用数据采集工具自动获取全国企业信用信息公示系统企业基本属性数据和事项数据、多个省份及其下属地市的政务服务网涉企业务事项数据、中国裁判文书网企业涉诉事项数据、中国执行信息公开网企业被执行事项数据、各地市公共资源交易网事项数据、信用中国红黑榜事项数据和国家知识产权局事项数据；

步骤a2、自动化获取步骤a1中的数据到本地，使用xpath和BeautifulSoup以及JSON数据解析方法对网页进行数据清洗和数据提取；

步骤a3、采用Bert模型训练生成词向量，计算对应文本词向量的相似度，将步骤a2中的数据匹配到企业背景、企业风险、企业经营模型和知识产权全息数据模型中；

步骤a4、将步骤a2中提取的数据进行规整，通过pymysql技术连接到本地MySQL数据库，将规整后的数据存入数据库中；

步骤a5、对步骤a4存储的数据，运用词向量计算文本相似度，运用Bert模型训练生成词向量，计算基本属性和事项词向量的相似度，设定指定阈值，对政务大数据和互联网大数据的基本属性数据和事项数据进行融合；

步骤a6、将步骤a5中融合后的数据构造成字典形式(key:企业全息数据模型名称，value：[企业事项1,企业事项2,……,企业事项n])，形成企业全息数据模型。

优选地，构建企业知识图谱包括：

步骤b1、知识获取，即从企业全息数据中采集和处理构建企业知识图谱构所需要的数据集合；首先，定义企业实体、法人股东高管、产品和知识产权、司法风险、经营风险、企业变更事件、企业关系；其次，针对企业全息数据中已经获取的结构化、半结构化或非结构化数据，利用信息抽取技术，结合领域知识优化中文分词工具，进行初始的分词及词性标注；同时，选取自然语言处理算法模型，利用人工训练的训练数据进行模型训练及优化，使用表现较好的模型作为分类器，将处理后的数据进行关系抽取；

步骤b2、知识融合，即将构建企业知识图谱需要的数据分成基础数据和扩展数据两大类别；其中，基础数据包括企业基本信息、法人、高管信息、投资信息以及它们之间已经存在的静态关系数据；扩展数据包括企业专利数据、企业招投标数据、企业招聘数据、企业诉讼数据、企业失信数据和企业新闻数据；

步骤b3、知识存储，采用MongoDB数据库和Neo4j数据库联合存储；其中，Neo4j主要作为企业知识图谱知识库的存储，图谱的一些扩展数据存储在MongoDB数据库中；最后，构建一个数据监听增量式更新流程，用以实现企业知识图谱的更新和维护。

优选地，步骤b2包括：

步骤b21、对于基础数据，首先，构建企业知识图谱的模式图，包含企业、法人、高管、投资这些顶层概念本体以及它们之间的关系；然后，将数据库中的企业信息转换为企业实体，法人和高管转换为人物实体，并存入Neo4j图数据库构成图节点；最后，抽取和分类实体之间的关系并存入图数据库构成关系边，此时完成一个基本企业知识图谱；

步骤b22、对于扩展数据，对步骤b1中所形成的关系进行实体链接、实体歧义消除、属性决策处理，最终生成知识三元组表示；对于已经处理完成的数据，以图的模型将其组织起来，也即形成一个三元组元关系(实体1，关系，实体2)、(实体，属性，属性值)和(关系，属性，属性值)数据集，并构建关系图谱；并且，从非结构化文本数据中提取实体关联关系的事件摘要说明，作为关联图谱的具体关联描述。

优选地，企业标签自动化提取包括：

步骤c1、将企业知识图谱中事件文本摘要进行预处理，包括分词和过滤掉停用词；每个事件文本摘要T被分割成m个句子S，即T＝[S1,S2,…,Sm]。每个句子Si再被分词成一个个词语t，即Si＝[ti1,ti2,…tin]，其中tij∈Si是保留后的候选关键词；

步骤c2、构建候选关键词图G＝(V,E)，其中V为节点集，是由步骤c1生成的候选关键词组成，使用一个大小为5的窗口依次滑过这些关键词，当任意两个节点在这个窗口中共同出现的时候，在这两点间连接一条边；

步骤c3、迭代传播各节点的权重，直至收敛；将得到的各节点权重值进行从从高到低排序，取Top5词语作为企业标签；

步骤c4、从企业全息数据模型中的原始指标出发，借助企业知识图谱，引入步骤c3中所获取的Top5标签，在原始指标的基础上扩展出新的标签；借助企业知识图谱挖掘出多个原始指标的共同属性，并利用Apriori关联规则挖掘算法将其泛化成一个共性标签；

步骤c5、根据企业全息数据模型和标签集合构建企业全息画像，包括：基本属性标签、经营范围标签、行业标签、司龄标签、地域标签、规模标签、创新力标签、竞争力标签、发展潜力标签、发展动力标签、自身风险标签、周边风险标签、预警提醒标签和经营风险标签。

根据上述技术方案，本发明融合多源异构大数据并采用自然人语言处理技术构建企业全息数据模型；基于知识获取、知识融合和知识存储技术在全息数据模型的基础上构建企业知识图谱；基于企业知识图谱的基础数据和扩展数据采用自然语言处理技术和数据挖掘技术自动提取标签并在此基础上构建企业画像，创造了一个企业全息画像体系，即全息数据模型、知识图谱、标签到全息画像。

本发明的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本发明的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明，但并不构成对本发明的限制。在附图中：

图1是本发明中提供的企业全息画像体系。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

在本发明中，在未作相反说明的情况下，包含在术语中的方位词仅代表该术语在常规使用状态下的方位，或为本领域技术人员理解的俗称，而不应视为对该术语的限制。

参见图1，本发明提供一种全息城市大数据模型和知识图谱的企业画像构建方法，包括企业全息数据模型构建、企业知识图谱构建和企业标签自动化提取；其中，

其中，构建企业全息数据模型包括对政务大数据和互联网大数据加以融合，包括：

步骤a1、利用数据采集工具自动获取全国企业信用信息公示系统企业基本属性数据和事项数据、多个省份及其下属地市的政务服务网涉企业务事项数据、中国裁判文书网企业涉诉事项数据、中国执行信息公开网企业被执行事项数据、各地市公共资源交易网事项数据、信用中国红黑榜事项数据和国家知识产权局事项数据等等(上述数据均包含表结构和字段值)；

构建企业知识图谱包括：

步骤b2、知识融合，即将构建企业知识图谱需要的数据分成基础数据和扩展数据两大类别；其中，基础数据包括企业基本信息、法人、高管信息、投资信息以及它们之间已经存在的静态关系数据；扩展数据包括企业专利数据、企业招投标数据、企业招聘数据、企业诉讼数据、企业失信数据和企业新闻数据；这些数据都是文本化的非结构化数据，而且更新变化比较频繁，必须经过自然语言处理和知识融合后才能加入构建好的知识图谱中。

进一步的，上述步骤b2包括：

步骤b3、知识存储，采用MongoDB数据库和Neo4j数据库联合存储；其中，Neo4j主要作为企业知识图谱知识库的存储，图谱的一些扩展数据存储在MongoDB数据库中；采用Java语言实现图谱构造程序，能够同时连接MongoDB和Neo4j数据库，最终完成企业知识图谱的构建。最后在该步骤中构建一个数据监听增量式更新流程，用以实现企业知识图谱的更新和维护。

此外，企业标签自动化提取包括：

步骤c5、根据企业全息数据模型和标签集合构建企业全息画像，包括：基本属性标签、经营范围标签、行业标签、司龄标签、地域标签、规模标签、创新力标签、竞争力标签、发展潜力标签、发展动力标签、自身风险标签、周边风险标签、预警提醒标签和经营风险标签等。

由此可见，本发明提供的企业全息画像能精细化地定位企业特征，挖掘潜在的企业关系，通过构建企业画像描述任意一个现存企业，为企业信息需求方提供充分认知和全面了解企业的途径。企业全息画像建立了企业全部信息数据库，使用自然人语言处理和数据挖掘技术从企业全息数据和知识图谱中提取标签绘制企业画像，不但能够缓解企业数据分散、缺失的问题，还能够展示企业全维度信息。

以上结合附图详细描述了本发明的优选实施方式，但是，本发明并不限于上述实施方式中的具体细节，在本发明的技术构思范围内，可以对本发明的技术方案进行多种简单变型，这些简单变型均属于本发明的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本发明对各种可能的组合方式不再另行说明。

此外，本发明的各种不同的实施方式之间也可以进行任意组合，只要其不违背本发明的思想，其同样应当视为本发明所公开的内容。

Claims

1.一种全息城市大数据模型和知识图谱的企业画像构建方法，其特征在于，包括企业全息数据模型构建、企业知识图谱构建和企业标签自动化提取；其中，

2.根据权利要求1所述的全息城市大数据模型和知识图谱的企业画像构建方法，其特征在于，构建企业全息数据模型包括对政务大数据和互联网大数据加以融合，包括：

3.根据权利要求1所述的全息城市大数据模型和知识图谱的企业画像构建方法，其特征在于，构建企业知识图谱包括：

4.根据权利要求3所述的全息城市大数据模型和知识图谱的企业画像构建方法，其特征在于，步骤b2包括：

5.根据权利要求1所述的全息城市大数据模型和知识图谱的企业画像构建方法，其特征在于，企业标签自动化提取包括：