CN112131275A - 全息城市大数据模型和知识图谱的企业画像构建方法 - Google Patents
全息城市大数据模型和知识图谱的企业画像构建方法 Download PDFInfo
- Publication number
- CN112131275A CN112131275A CN202011008544.4A CN202011008544A CN112131275A CN 112131275 A CN112131275 A CN 112131275A CN 202011008544 A CN202011008544 A CN 202011008544A CN 112131275 A CN112131275 A CN 112131275A
- Authority
- CN
- China
- Prior art keywords
- enterprise
- data
- information
- holographic
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013499 data model Methods 0.000 title claims abstract description 40
- 238000010276 construction Methods 0.000 title claims abstract description 18
- 238000000034 method Methods 0.000 claims abstract description 15
- 238000000605 extraction Methods 0.000 claims abstract description 13
- 238000005516 engineering process Methods 0.000 claims abstract description 10
- 238000012545 processing Methods 0.000 claims abstract description 10
- 238000007726 management method Methods 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 15
- 239000013598 vector Substances 0.000 claims description 15
- 230000007115 recruitment Effects 0.000 claims description 9
- 230000011218 segmentation Effects 0.000 claims description 9
- 238000011161 development Methods 0.000 claims description 6
- 230000018109 developmental process Effects 0.000 claims description 6
- 238000010586 diagram Methods 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 5
- 238000003058 natural language processing Methods 0.000 claims description 5
- 238000005065 mining Methods 0.000 claims description 4
- 230000002159 abnormal effect Effects 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 claims description 3
- 238000007405 data analysis Methods 0.000 claims description 3
- 238000013075 data extraction Methods 0.000 claims description 3
- 230000008030 elimination Effects 0.000 claims description 3
- 238000003379 elimination reaction Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000007689 inspection Methods 0.000 claims description 3
- 238000012423 maintenance Methods 0.000 claims description 3
- 238000012544 monitoring process Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 230000002093 peripheral effect Effects 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000001902 propagating effect Effects 0.000 claims description 3
- 238000012797 qualification Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 235000014347 soups Nutrition 0.000 claims description 3
- 230000003068 static effect Effects 0.000 claims description 3
- 238000007418 data mining Methods 0.000 abstract description 4
- 239000006185 dispersion Substances 0.000 abstract description 3
- 239000000047 product Substances 0.000 description 4
- 238000011835 investigation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000013065 commercial product Substances 0.000 description 1
- 230000001681 protective effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/256—Integrating or interfacing systems involving database management systems in federated or virtual databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Fuzzy Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种全息城市大数据模型和知识图谱的企业画像构建方法,包括企业全息数据模型构建、企业知识图谱构建和企业标签自动化提取;通过全息画像能精细化地定位企业特征,挖掘潜在的企业关系,通过构建企业画像描述任意一个现存企业,为企业信息需求方提供充分认知和全面了解企业的途径。企业全息画像建立了企业全部信息数据库,使用自然人语言处理和数据挖掘技术从企业全息数据和知识图谱中提取标签绘制企业画像,不但能够缓解企业数据分散、缺失的问题,还能够展示企业全维度信息。
Description
技术领域
本发明涉及一种全息城市大数据模型和知识图谱的企业画像构建方法。
背景技术
近年来,中小企业数量也不断飙升,产生了海量的政务大数据和互联网大数据,信息不对称的现象越来越明显,需要加强对中小企业数据的价值挖掘,对企业进行全息画像十分必要。在现有的企业信息查询商业化产品中,对标签的重要性程度缺乏考虑。企查查、天眼查等推出的产品能够对企业公开信息进行全面的查询,但缺少对用户自定义的支持。基于不同的维度,每个标签对政府涉企业务部门所体现的价值是不同的,因此企业信息查询商业化产品无法从根本上促进政府部门数据治理模式的转变。
因此,急需要提供一种新的企业画像构建方法来解决上述技术难题。
发明内容
本发明的目的是提供一种全息城市大数据模型和知识图谱的企业画像构建方法,企业全息画像能精细化地定位企业特征,挖掘潜在的企业关系,通过构建企业画像描述任意一个现存企业,为企业信息需求方提供充分认知和全面了解企业的途径。企业全息画像建立了企业全部信息数据库,使用自然人语言处理和数据挖掘技术从企业全息数据和知识图谱中提取标签绘制企业画像,不但能够缓解企业数据分散、缺失的问题,还能够展示企业全维度信息。
为了实现上述目的,本发明提供了一种全息城市大数据模型和知识图谱的企业画像构建方法,包括企业全息数据模型构建、企业知识图谱构建和企业标签自动化提取;其中,
企业全息数据模型包括企业背景模型、企业风险模型、企业经营模型和知识产权模型,具体的:
企业背景模型包括企业的基本信息、股东信息、主要人员、分支机构和对外投资信息;
企业风险模型包括企业的工商变更、法院裁判文书、法院公告信息、法院失信信息、法院被执行人信息、行政处罚、清算信息、股权出质、动产抵押、经营异常、政府严重采购违法、税务违法信息和工商的经营异常信息;
企业经营模型包括企业的招投标信息、抽查检查信息、资质证书、行政许可和招聘信息;
知识产权模型包括商标信息、专利信息、软著信息和网站备案。
优选地,构建企业全息数据模型包括对政务大数据和互联网大数据加以融合,包括:
步骤a1、利用数据采集工具自动获取全国企业信用信息公示系统企业基本属性数据和事项数据、多个省份及其下属地市的政务服务网涉企业务事项数据、中国裁判文书网企业涉诉事项数据、中国执行信息公开网企业被执行事项数据、各地市公共资源交易网事项数据、信用中国红黑榜事项数据和国家知识产权局事项数据;
步骤a2、自动化获取步骤a1中的数据到本地,使用xpath和BeautifulSoup以及JSON数据解析方法对网页进行数据清洗和数据提取;
步骤a3、采用Bert模型训练生成词向量,计算对应文本词向量的相似度,将步骤a2中的数据匹配到企业背景、企业风险、企业经营模型和知识产权全息数据模型中;
步骤a4、将步骤a2中提取的数据进行规整,通过pymysql技术连接到本地MySQL数据库,将规整后的数据存入数据库中;
步骤a5、对步骤a4存储的数据,运用词向量计算文本相似度,运用Bert模型训练生成词向量,计算基本属性和事项词向量的相似度,设定指定阈值,对政务大数据和互联网大数据的基本属性数据和事项数据进行融合;
步骤a6、将步骤a5中融合后的数据构造成字典形式(key:企业全息数据模型名称,value:[企业事项1,企业事项2,……,企业事项n]),形成企业全息数据模型。
优选地,构建企业知识图谱包括:
步骤b1、知识获取,即从企业全息数据中采集和处理构建企业知识图谱构所需要的数据集合;首先,定义企业实体、法人股东高管、产品和知识产权、司法风险、经营风险、企业变更事件、企业关系;其次,针对企业全息数据中已经获取的结构化、半结构化或非结构化数据,利用信息抽取技术,结合领域知识优化中文分词工具,进行初始的分词及词性标注;同时,选取自然语言处理算法模型,利用人工训练的训练数据进行模型训练及优化,使用表现较好的模型作为分类器,将处理后的数据进行关系抽取;
步骤b2、知识融合,即将构建企业知识图谱需要的数据分成基础数据和扩展数据两大类别;其中,基础数据包括企业基本信息、法人、高管信息、投资信息以及它们之间已经存在的静态关系数据;扩展数据包括企业专利数据、企业招投标数据、企业招聘数据、企业诉讼数据、企业失信数据和企业新闻数据;
步骤b3、知识存储,采用MongoDB数据库和Neo4j数据库联合存储;其中,Neo4j主要作为企业知识图谱知识库的存储,图谱的一些扩展数据存储在MongoDB数据库中;最后,构建一个数据监听增量式更新流程,用以实现企业知识图谱的更新和维护。
优选地,步骤b2包括:
步骤b21、对于基础数据,首先,构建企业知识图谱的模式图,包含企业、法人、高管、投资这些顶层概念本体以及它们之间的关系;然后,将数据库中的企业信息转换为企业实体,法人和高管转换为人物实体,并存入Neo4j图数据库构成图节点;最后,抽取和分类实体之间的关系并存入图数据库构成关系边,此时完成一个基本企业知识图谱;
步骤b22、对于扩展数据,对步骤b1中所形成的关系进行实体链接、实体歧义消除、属性决策处理,最终生成知识三元组表示;对于已经处理完成的数据,以图的模型将其组织起来,也即形成一个三元组元关系(实体1,关系,实体2)、(实体,属性,属性值)和(关系,属性,属性值)数据集,并构建关系图谱;并且,从非结构化文本数据中提取实体关联关系的事件摘要说明,作为关联图谱的具体关联描述。
优选地,企业标签自动化提取包括:
步骤c1、将企业知识图谱中事件文本摘要进行预处理,包括分词和过滤掉停用词;每个事件文本摘要T被分割成m个句子S,即T=[S1,S2,…,Sm]。每个句子Si再被分词成一个个词语t,即Si=[ti1,ti2,…tin],其中tij∈Si是保留后的候选关键词;
步骤c2、构建候选关键词图G=(V,E),其中V为节点集,是由步骤c1生成的候选关键词组成,使用一个大小为5的窗口依次滑过这些关键词,当任意两个节点在这个窗口中共同出现的时候,在这两点间连接一条边;
步骤c3、迭代传播各节点的权重,直至收敛;将得到的各节点权重值进行从从高到低排序,取Top5词语作为企业标签;
步骤c4、从企业全息数据模型中的原始指标出发,借助企业知识图谱,引入步骤c3中所获取的Top5标签,在原始指标的基础上扩展出新的标签;借助企业知识图谱挖掘出多个原始指标的共同属性,并利用Apriori关联规则挖掘算法将其泛化成一个共性标签;
步骤c5、根据企业全息数据模型和标签集合构建企业全息画像,包括:基本属性标签、经营范围标签、行业标签、司龄标签、地域标签、规模标签、创新力标签、竞争力标签、发展潜力标签、发展动力标签、自身风险标签、周边风险标签、预警提醒标签和经营风险标签。
根据上述技术方案,本发明融合多源异构大数据并采用自然人语言处理技术构建企业全息数据模型;基于知识获取、知识融合和知识存储技术在全息数据模型的基础上构建企业知识图谱;基于企业知识图谱的基础数据和扩展数据采用自然语言处理技术和数据挖掘技术自动提取标签并在此基础上构建企业画像,创造了一个企业全息画像体系,即全息数据模型、知识图谱、标签到全息画像。
本发明的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本发明的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明,但并不构成对本发明的限制。在附图中:
图1是本发明中提供的企业全息画像体系。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
在本发明中,在未作相反说明的情况下,包含在术语中的方位词仅代表该术语在常规使用状态下的方位,或为本领域技术人员理解的俗称,而不应视为对该术语的限制。
参见图1,本发明提供一种全息城市大数据模型和知识图谱的企业画像构建方法,包括企业全息数据模型构建、企业知识图谱构建和企业标签自动化提取;其中,
企业全息数据模型包括企业背景模型、企业风险模型、企业经营模型和知识产权模型,具体的:
企业背景模型包括企业的基本信息、股东信息、主要人员、分支机构和对外投资信息;
企业风险模型包括企业的工商变更、法院裁判文书、法院公告信息、法院失信信息、法院被执行人信息、行政处罚、清算信息、股权出质、动产抵押、经营异常、政府严重采购违法、税务违法信息和工商的经营异常信息;
企业经营模型包括企业的招投标信息、抽查检查信息、资质证书、行政许可和招聘信息;
知识产权模型包括商标信息、专利信息、软著信息和网站备案。
其中,构建企业全息数据模型包括对政务大数据和互联网大数据加以融合,包括:
步骤a1、利用数据采集工具自动获取全国企业信用信息公示系统企业基本属性数据和事项数据、多个省份及其下属地市的政务服务网涉企业务事项数据、中国裁判文书网企业涉诉事项数据、中国执行信息公开网企业被执行事项数据、各地市公共资源交易网事项数据、信用中国红黑榜事项数据和国家知识产权局事项数据等等(上述数据均包含表结构和字段值);
步骤a2、自动化获取步骤a1中的数据到本地,使用xpath和BeautifulSoup以及JSON数据解析方法对网页进行数据清洗和数据提取;
步骤a3、采用Bert模型训练生成词向量,计算对应文本词向量的相似度,将步骤a2中的数据匹配到企业背景、企业风险、企业经营模型和知识产权全息数据模型中;
步骤a4、将步骤a2中提取的数据进行规整,通过pymysql技术连接到本地MySQL数据库,将规整后的数据存入数据库中;
步骤a5、对步骤a4存储的数据,运用词向量计算文本相似度,运用Bert模型训练生成词向量,计算基本属性和事项词向量的相似度,设定指定阈值,对政务大数据和互联网大数据的基本属性数据和事项数据进行融合;
步骤a6、将步骤a5中融合后的数据构造成字典形式(key:企业全息数据模型名称,value:[企业事项1,企业事项2,……,企业事项n]),形成企业全息数据模型。
构建企业知识图谱包括:
步骤b1、知识获取,即从企业全息数据中采集和处理构建企业知识图谱构所需要的数据集合;首先,定义企业实体、法人股东高管、产品和知识产权、司法风险、经营风险、企业变更事件、企业关系;其次,针对企业全息数据中已经获取的结构化、半结构化或非结构化数据,利用信息抽取技术,结合领域知识优化中文分词工具,进行初始的分词及词性标注;同时,选取自然语言处理算法模型,利用人工训练的训练数据进行模型训练及优化,使用表现较好的模型作为分类器,将处理后的数据进行关系抽取;
步骤b2、知识融合,即将构建企业知识图谱需要的数据分成基础数据和扩展数据两大类别;其中,基础数据包括企业基本信息、法人、高管信息、投资信息以及它们之间已经存在的静态关系数据;扩展数据包括企业专利数据、企业招投标数据、企业招聘数据、企业诉讼数据、企业失信数据和企业新闻数据;这些数据都是文本化的非结构化数据,而且更新变化比较频繁,必须经过自然语言处理和知识融合后才能加入构建好的知识图谱中。
进一步的,上述步骤b2包括:
步骤b21、对于基础数据,首先,构建企业知识图谱的模式图,包含企业、法人、高管、投资这些顶层概念本体以及它们之间的关系;然后,将数据库中的企业信息转换为企业实体,法人和高管转换为人物实体,并存入Neo4j图数据库构成图节点;最后,抽取和分类实体之间的关系并存入图数据库构成关系边,此时完成一个基本企业知识图谱;
步骤b22、对于扩展数据,对步骤b1中所形成的关系进行实体链接、实体歧义消除、属性决策处理,最终生成知识三元组表示;对于已经处理完成的数据,以图的模型将其组织起来,也即形成一个三元组元关系(实体1,关系,实体2)、(实体,属性,属性值)和(关系,属性,属性值)数据集,并构建关系图谱;并且,从非结构化文本数据中提取实体关联关系的事件摘要说明,作为关联图谱的具体关联描述。
步骤b3、知识存储,采用MongoDB数据库和Neo4j数据库联合存储;其中,Neo4j主要作为企业知识图谱知识库的存储,图谱的一些扩展数据存储在MongoDB数据库中;采用Java语言实现图谱构造程序,能够同时连接MongoDB和Neo4j数据库,最终完成企业知识图谱的构建。最后在该步骤中构建一个数据监听增量式更新流程,用以实现企业知识图谱的更新和维护。
此外,企业标签自动化提取包括:
步骤c1、将企业知识图谱中事件文本摘要进行预处理,包括分词和过滤掉停用词;每个事件文本摘要T被分割成m个句子S,即T=[S1,S2,…,Sm]。每个句子Si再被分词成一个个词语t,即Si=[ti1,ti2,…tin],其中tij∈Si是保留后的候选关键词;
步骤c2、构建候选关键词图G=(V,E),其中V为节点集,是由步骤c1生成的候选关键词组成,使用一个大小为5的窗口依次滑过这些关键词,当任意两个节点在这个窗口中共同出现的时候,在这两点间连接一条边;
步骤c3、迭代传播各节点的权重,直至收敛;将得到的各节点权重值进行从从高到低排序,取Top5词语作为企业标签;
步骤c4、从企业全息数据模型中的原始指标出发,借助企业知识图谱,引入步骤c3中所获取的Top5标签,在原始指标的基础上扩展出新的标签;借助企业知识图谱挖掘出多个原始指标的共同属性,并利用Apriori关联规则挖掘算法将其泛化成一个共性标签;
步骤c5、根据企业全息数据模型和标签集合构建企业全息画像,包括:基本属性标签、经营范围标签、行业标签、司龄标签、地域标签、规模标签、创新力标签、竞争力标签、发展潜力标签、发展动力标签、自身风险标签、周边风险标签、预警提醒标签和经营风险标签等。
由此可见,本发明提供的企业全息画像能精细化地定位企业特征,挖掘潜在的企业关系,通过构建企业画像描述任意一个现存企业,为企业信息需求方提供充分认知和全面了解企业的途径。企业全息画像建立了企业全部信息数据库,使用自然人语言处理和数据挖掘技术从企业全息数据和知识图谱中提取标签绘制企业画像,不但能够缓解企业数据分散、缺失的问题,还能够展示企业全维度信息。
以上结合附图详细描述了本发明的优选实施方式,但是,本发明并不限于上述实施方式中的具体细节,在本发明的技术构思范围内,可以对本发明的技术方案进行多种简单变型,这些简单变型均属于本发明的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本发明对各种可能的组合方式不再另行说明。
此外,本发明的各种不同的实施方式之间也可以进行任意组合,只要其不违背本发明的思想,其同样应当视为本发明所公开的内容。
Claims (5)
1.一种全息城市大数据模型和知识图谱的企业画像构建方法,其特征在于,包括企业全息数据模型构建、企业知识图谱构建和企业标签自动化提取;其中,
企业全息数据模型包括企业背景模型、企业风险模型、企业经营模型和知识产权模型,具体的:
企业背景模型包括企业的基本信息、股东信息、主要人员、分支机构和对外投资信息;
企业风险模型包括企业的工商变更、法院裁判文书、法院公告信息、法院失信信息、法院被执行人信息、行政处罚、清算信息、股权出质、动产抵押、经营异常、政府严重采购违法、税务违法信息和工商的经营异常信息;
企业经营模型包括企业的招投标信息、抽查检查信息、资质证书、行政许可和招聘信息;
知识产权模型包括商标信息、专利信息、软著信息和网站备案。
2.根据权利要求1所述的全息城市大数据模型和知识图谱的企业画像构建方法,其特征在于,构建企业全息数据模型包括对政务大数据和互联网大数据加以融合,包括:
步骤a1、利用数据采集工具自动获取全国企业信用信息公示系统企业基本属性数据和事项数据、多个省份及其下属地市的政务服务网涉企业务事项数据、中国裁判文书网企业涉诉事项数据、中国执行信息公开网企业被执行事项数据、各地市公共资源交易网事项数据、信用中国红黑榜事项数据和国家知识产权局事项数据;
步骤a2、自动化获取步骤a1中的数据到本地,使用xpath和BeautifulSoup以及JSON数据解析方法对网页进行数据清洗和数据提取;
步骤a3、采用Bert模型训练生成词向量,计算对应文本词向量的相似度,将步骤a2中的数据匹配到企业背景、企业风险、企业经营模型和知识产权全息数据模型中;
步骤a4、将步骤a2中提取的数据进行规整,通过pymysql技术连接到本地MySQL数据库,将规整后的数据存入数据库中;
步骤a5、对步骤a4存储的数据,运用词向量计算文本相似度,运用Bert模型训练生成词向量,计算基本属性和事项词向量的相似度,设定指定阈值,对政务大数据和互联网大数据的基本属性数据和事项数据进行融合;
步骤a6、将步骤a5中融合后的数据构造成字典形式(key:企业全息数据模型名称,value:[企业事项1,企业事项2,……,企业事项n]),形成企业全息数据模型。
3.根据权利要求1所述的全息城市大数据模型和知识图谱的企业画像构建方法,其特征在于,构建企业知识图谱包括:
步骤b1、知识获取,即从企业全息数据中采集和处理构建企业知识图谱构所需要的数据集合;首先,定义企业实体、法人股东高管、产品和知识产权、司法风险、经营风险、企业变更事件、企业关系;其次,针对企业全息数据中已经获取的结构化、半结构化或非结构化数据,利用信息抽取技术,结合领域知识优化中文分词工具,进行初始的分词及词性标注;同时,选取自然语言处理算法模型,利用人工训练的训练数据进行模型训练及优化,使用表现较好的模型作为分类器,将处理后的数据进行关系抽取;
步骤b2、知识融合,即将构建企业知识图谱需要的数据分成基础数据和扩展数据两大类别;其中,基础数据包括企业基本信息、法人、高管信息、投资信息以及它们之间已经存在的静态关系数据;扩展数据包括企业专利数据、企业招投标数据、企业招聘数据、企业诉讼数据、企业失信数据和企业新闻数据;
步骤b3、知识存储,采用MongoDB数据库和Neo4j数据库联合存储;其中,Neo4j主要作为企业知识图谱知识库的存储,图谱的一些扩展数据存储在MongoDB数据库中;最后,构建一个数据监听增量式更新流程,用以实现企业知识图谱的更新和维护。
4.根据权利要求3所述的全息城市大数据模型和知识图谱的企业画像构建方法,其特征在于,步骤b2包括:
步骤b21、对于基础数据,首先,构建企业知识图谱的模式图,包含企业、法人、高管、投资这些顶层概念本体以及它们之间的关系;然后,将数据库中的企业信息转换为企业实体,法人和高管转换为人物实体,并存入Neo4j图数据库构成图节点;最后,抽取和分类实体之间的关系并存入图数据库构成关系边,此时完成一个基本企业知识图谱;
步骤b22、对于扩展数据,对步骤b1中所形成的关系进行实体链接、实体歧义消除、属性决策处理,最终生成知识三元组表示;对于已经处理完成的数据,以图的模型将其组织起来,也即形成一个三元组元关系(实体1,关系,实体2)、(实体,属性,属性值)和(关系,属性,属性值)数据集,并构建关系图谱;并且,从非结构化文本数据中提取实体关联关系的事件摘要说明,作为关联图谱的具体关联描述。
5.根据权利要求1所述的全息城市大数据模型和知识图谱的企业画像构建方法,其特征在于,企业标签自动化提取包括:
步骤c1、将企业知识图谱中事件文本摘要进行预处理,包括分词和过滤掉停用词;每个事件文本摘要T被分割成m个句子S,即T=[S1,S2,…,Sm]。每个句子Si再被分词成一个个词语t,即Si=[ti1,ti2,…tin],其中tij∈Si是保留后的候选关键词;
步骤c2、构建候选关键词图G=(V,E),其中V为节点集,是由步骤c1生成的候选关键词组成,使用一个大小为5的窗口依次滑过这些关键词,当任意两个节点在这个窗口中共同出现的时候,在这两点间连接一条边;
步骤c3、迭代传播各节点的权重,直至收敛;将得到的各节点权重值进行从从高到低排序,取Top5词语作为企业标签;
步骤c4、从企业全息数据模型中的原始指标出发,借助企业知识图谱,引入步骤c3中所获取的Top5标签,在原始指标的基础上扩展出新的标签;借助企业知识图谱挖掘出多个原始指标的共同属性,并利用Apriori关联规则挖掘算法将其泛化成一个共性标签;
步骤c5、根据企业全息数据模型和标签集合构建企业全息画像,包括:基本属性标签、经营范围标签、行业标签、司龄标签、地域标签、规模标签、创新力标签、竞争力标签、发展潜力标签、发展动力标签、自身风险标签、周边风险标签、预警提醒标签和经营风险标签。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011008544.4A CN112131275B (zh) | 2020-09-23 | 2020-09-23 | 全息城市大数据模型和知识图谱的企业画像构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011008544.4A CN112131275B (zh) | 2020-09-23 | 2020-09-23 | 全息城市大数据模型和知识图谱的企业画像构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112131275A true CN112131275A (zh) | 2020-12-25 |
CN112131275B CN112131275B (zh) | 2023-07-25 |
Family
ID=73842840
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011008544.4A Active CN112131275B (zh) | 2020-09-23 | 2020-09-23 | 全息城市大数据模型和知识图谱的企业画像构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112131275B (zh) |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112800113A (zh) * | 2021-02-04 | 2021-05-14 | 天津德尔塔科技有限公司 | 一种基于数据挖掘分析技术的招投标审计方法及系统 |
CN112818031A (zh) * | 2021-01-26 | 2021-05-18 | 国网江苏省电力有限公司营销服务中心 | 基于nlp中文分词技术的潜在高耗能企业挖掘方法、系统及存储介质 |
CN112818261A (zh) * | 2021-01-27 | 2021-05-18 | 沈阳美行科技有限公司 | 基于poi知识图谱的导航方法、装置及电子设备 |
CN112837199A (zh) * | 2021-02-25 | 2021-05-25 | 重庆数联铭信科技有限公司 | 一种建立中小微企业大数据服务平台的方法 |
CN112948595A (zh) * | 2021-03-30 | 2021-06-11 | 中国科学院自动化研究所 | 城市群运行状态知识图谱构建方法、系统及设备 |
CN113065943A (zh) * | 2021-03-02 | 2021-07-02 | 苏宁金融科技(南京)有限公司 | 反欺诈黑产实体识别方法及系统 |
CN113076307A (zh) * | 2021-02-09 | 2021-07-06 | 江苏省联合征信有限公司 | 一种基于知识图谱的企业政策推荐构建方法及装置 |
CN113079148A (zh) * | 2021-03-25 | 2021-07-06 | 恒安嘉新(北京)科技股份公司 | 一种工业互联网安全监测方法、装置、设备及储存介质 |
CN113220899A (zh) * | 2021-05-10 | 2021-08-06 | 上海博亦信息科技有限公司 | 基于学术人才信息知识图谱的知识产权同一性认定方法 |
CN113254594A (zh) * | 2021-06-21 | 2021-08-13 | 国能信控互联技术有限公司 | 一种面向智慧电厂的安全知识图谱构建方法及系统 |
CN113449114A (zh) * | 2020-12-31 | 2021-09-28 | 中国科学技术大学智慧城市研究院(芜湖) | 基于知识图谱的构建自然人生命周期全息画像方法 |
CN113515644A (zh) * | 2021-05-26 | 2021-10-19 | 中国医学科学院医学信息研究所 | 一种基于知识图谱的医院科技画像方法和系统 |
CN113674081A (zh) * | 2021-07-30 | 2021-11-19 | 浙江创邻科技有限公司 | 一种基于图数据库的中小企业风控管理系统及方法 |
CN113674079A (zh) * | 2021-07-30 | 2021-11-19 | 湖南三湘银行股份有限公司 | 一种基于关系图谱和客户画像的金融风险控制系统及方法 |
CN113849732A (zh) * | 2021-09-23 | 2021-12-28 | 北京思博知网科技有限公司 | 一种企业画像建立方法及系统 |
CN114064939A (zh) * | 2022-01-17 | 2022-02-18 | 中证信息技术服务有限责任公司 | 一种知识图谱生成方法、装置、电子设备及存储介质 |
CN114429398A (zh) * | 2022-04-06 | 2022-05-03 | 北京市农林科学院信息技术研究中心 | 数据驱动的新型农业经营主体信用等级生成方法及装置 |
CN114896423A (zh) * | 2022-06-17 | 2022-08-12 | 哈尔滨工业大学 | 一种企业基本信息知识图谱的构建方法及系统 |
CN115640335A (zh) * | 2022-12-06 | 2023-01-24 | 烟台广兴云涛文化传媒有限公司 | 基于企业画像的企业分析方法、系统及云平台 |
CN116091241A (zh) * | 2023-02-10 | 2023-05-09 | 广州市城市规划勘测设计研究院 | 一种基于复杂异构图的投资预测方法 |
CN116307757A (zh) * | 2023-01-18 | 2023-06-23 | 辽宁荣科智维云科技有限公司 | 一种数据智能交互方法、交互系统、计算机设备及应用 |
CN116541537A (zh) * | 2023-06-06 | 2023-08-04 | 简单汇信息科技(广州)有限公司 | 一种基于知识图谱的企业贸易信息可视化展示方法 |
WO2023178767A1 (zh) * | 2022-03-24 | 2023-09-28 | 北京邮电大学 | 基于企业征信大数据知识图谱的企业风险检测方法和装置 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108596439A (zh) * | 2018-03-29 | 2018-09-28 | 北京中兴通网络科技股份有限公司 | 一种基于知识图谱的企业风险预测方法及系统 |
CN108932340A (zh) * | 2018-07-13 | 2018-12-04 | 华融融通(北京)科技有限公司 | 一种不良资产经营领域下金融知识图谱的构建方法 |
CN109598623A (zh) * | 2018-12-11 | 2019-04-09 | 国家电网有限公司 | 一种金融产品未来收益数据预测方法、装置及系统 |
CN109785144A (zh) * | 2019-01-18 | 2019-05-21 | 国家电网有限公司 | 一种资产分类方法、装置、设备及介质 |
CN110223168A (zh) * | 2019-06-24 | 2019-09-10 | 浪潮卓数大数据产业发展有限公司 | 一种基于企业关系图谱的标签传播反欺诈检测方法及系统 |
CN110390023A (zh) * | 2019-07-02 | 2019-10-29 | 安徽继远软件有限公司 | 一种基于改进bert模型的知识图谱构建方法 |
CN110489560A (zh) * | 2019-06-19 | 2019-11-22 | 民生科技有限责任公司 | 基于知识图谱技术的小微企业画像生成方法及装置 |
CN110503295A (zh) * | 2019-07-05 | 2019-11-26 | 深圳壹账通智能科技有限公司 | 供应链金融的风险分析方法、装置、计算终端及存储介质 |
CN110516077A (zh) * | 2019-08-20 | 2019-11-29 | 北京中亦安图科技股份有限公司 | 面向企业商情的知识图谱构建方法及装置 |
CN110750650A (zh) * | 2019-09-30 | 2020-02-04 | 中盈优创资讯科技有限公司 | 企业知识图谱的构建方法及装置 |
CN111460167A (zh) * | 2020-03-19 | 2020-07-28 | 平安国际智慧城市科技股份有限公司 | 基于知识图谱定位排污对象的方法及相关设备 |
CN111666313A (zh) * | 2020-05-25 | 2020-09-15 | 中科星图股份有限公司 | 基于多源异构遥感数据关联构建及多用户数据匹配方法 |
-
2020
- 2020-09-23 CN CN202011008544.4A patent/CN112131275B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108596439A (zh) * | 2018-03-29 | 2018-09-28 | 北京中兴通网络科技股份有限公司 | 一种基于知识图谱的企业风险预测方法及系统 |
CN108932340A (zh) * | 2018-07-13 | 2018-12-04 | 华融融通(北京)科技有限公司 | 一种不良资产经营领域下金融知识图谱的构建方法 |
CN109598623A (zh) * | 2018-12-11 | 2019-04-09 | 国家电网有限公司 | 一种金融产品未来收益数据预测方法、装置及系统 |
CN109785144A (zh) * | 2019-01-18 | 2019-05-21 | 国家电网有限公司 | 一种资产分类方法、装置、设备及介质 |
CN110489560A (zh) * | 2019-06-19 | 2019-11-22 | 民生科技有限责任公司 | 基于知识图谱技术的小微企业画像生成方法及装置 |
CN110223168A (zh) * | 2019-06-24 | 2019-09-10 | 浪潮卓数大数据产业发展有限公司 | 一种基于企业关系图谱的标签传播反欺诈检测方法及系统 |
CN110390023A (zh) * | 2019-07-02 | 2019-10-29 | 安徽继远软件有限公司 | 一种基于改进bert模型的知识图谱构建方法 |
CN110503295A (zh) * | 2019-07-05 | 2019-11-26 | 深圳壹账通智能科技有限公司 | 供应链金融的风险分析方法、装置、计算终端及存储介质 |
CN110516077A (zh) * | 2019-08-20 | 2019-11-29 | 北京中亦安图科技股份有限公司 | 面向企业商情的知识图谱构建方法及装置 |
CN110750650A (zh) * | 2019-09-30 | 2020-02-04 | 中盈优创资讯科技有限公司 | 企业知识图谱的构建方法及装置 |
CN111460167A (zh) * | 2020-03-19 | 2020-07-28 | 平安国际智慧城市科技股份有限公司 | 基于知识图谱定位排污对象的方法及相关设备 |
CN111666313A (zh) * | 2020-05-25 | 2020-09-15 | 中科星图股份有限公司 | 基于多源异构遥感数据关联构建及多用户数据匹配方法 |
Non-Patent Citations (3)
Title |
---|
LU LIU ET AL.: "a method for enterprise knowledge map construction based on social classification", 《SYSTEMS RESEARCH BEHAVIORAL SCIENCE》, vol. 26, no. 2, pages 143 - 153 * |
马刚 等: "基于企业质量问题知识图谱的构建及应用", 《仪器仪表用户》, vol. 27, no. 6, pages 82 - 84 * |
马海波: "面向风控的企业关联信息知识图谱构建与应用研究", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》, no. 4, pages 138 - 517 * |
Cited By (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113449114A (zh) * | 2020-12-31 | 2021-09-28 | 中国科学技术大学智慧城市研究院(芜湖) | 基于知识图谱的构建自然人生命周期全息画像方法 |
CN112818031A (zh) * | 2021-01-26 | 2021-05-18 | 国网江苏省电力有限公司营销服务中心 | 基于nlp中文分词技术的潜在高耗能企业挖掘方法、系统及存储介质 |
CN112818031B (zh) * | 2021-01-26 | 2023-10-27 | 国网江苏省电力有限公司营销服务中心 | 基于nlp中文分词技术的潜在高耗能企业挖掘方法、系统及存储介质 |
CN112818261A (zh) * | 2021-01-27 | 2021-05-18 | 沈阳美行科技有限公司 | 基于poi知识图谱的导航方法、装置及电子设备 |
CN112800113B (zh) * | 2021-02-04 | 2023-01-10 | 天津德尔塔科技有限公司 | 一种基于数据挖掘分析技术的招投标审计方法及系统 |
CN112800113A (zh) * | 2021-02-04 | 2021-05-14 | 天津德尔塔科技有限公司 | 一种基于数据挖掘分析技术的招投标审计方法及系统 |
CN113076307A (zh) * | 2021-02-09 | 2021-07-06 | 江苏省联合征信有限公司 | 一种基于知识图谱的企业政策推荐构建方法及装置 |
CN112837199A (zh) * | 2021-02-25 | 2021-05-25 | 重庆数联铭信科技有限公司 | 一种建立中小微企业大数据服务平台的方法 |
CN113065943A (zh) * | 2021-03-02 | 2021-07-02 | 苏宁金融科技(南京)有限公司 | 反欺诈黑产实体识别方法及系统 |
CN113079148A (zh) * | 2021-03-25 | 2021-07-06 | 恒安嘉新(北京)科技股份公司 | 一种工业互联网安全监测方法、装置、设备及储存介质 |
CN112948595A (zh) * | 2021-03-30 | 2021-06-11 | 中国科学院自动化研究所 | 城市群运行状态知识图谱构建方法、系统及设备 |
CN113220899A (zh) * | 2021-05-10 | 2021-08-06 | 上海博亦信息科技有限公司 | 基于学术人才信息知识图谱的知识产权同一性认定方法 |
CN113515644B (zh) * | 2021-05-26 | 2023-05-26 | 中国医学科学院医学信息研究所 | 一种基于知识图谱的医院科技画像方法和系统 |
CN113515644A (zh) * | 2021-05-26 | 2021-10-19 | 中国医学科学院医学信息研究所 | 一种基于知识图谱的医院科技画像方法和系统 |
CN113254594A (zh) * | 2021-06-21 | 2021-08-13 | 国能信控互联技术有限公司 | 一种面向智慧电厂的安全知识图谱构建方法及系统 |
CN113674081B (zh) * | 2021-07-30 | 2023-12-19 | 浙江创邻科技有限公司 | 一种基于图数据库的中小企业风控管理系统及方法 |
CN113674081A (zh) * | 2021-07-30 | 2021-11-19 | 浙江创邻科技有限公司 | 一种基于图数据库的中小企业风控管理系统及方法 |
CN113674079A (zh) * | 2021-07-30 | 2021-11-19 | 湖南三湘银行股份有限公司 | 一种基于关系图谱和客户画像的金融风险控制系统及方法 |
CN113849732A (zh) * | 2021-09-23 | 2021-12-28 | 北京思博知网科技有限公司 | 一种企业画像建立方法及系统 |
CN114064939A (zh) * | 2022-01-17 | 2022-02-18 | 中证信息技术服务有限责任公司 | 一种知识图谱生成方法、装置、电子设备及存储介质 |
WO2023178767A1 (zh) * | 2022-03-24 | 2023-09-28 | 北京邮电大学 | 基于企业征信大数据知识图谱的企业风险检测方法和装置 |
CN114429398A (zh) * | 2022-04-06 | 2022-05-03 | 北京市农林科学院信息技术研究中心 | 数据驱动的新型农业经营主体信用等级生成方法及装置 |
CN114429398B (zh) * | 2022-04-06 | 2023-12-22 | 北京市农林科学院信息技术研究中心 | 数据驱动的新型农业经营主体可信等级生成方法及装置 |
CN114896423A (zh) * | 2022-06-17 | 2022-08-12 | 哈尔滨工业大学 | 一种企业基本信息知识图谱的构建方法及系统 |
CN115640335B (zh) * | 2022-12-06 | 2023-08-11 | 上海创飞纵横科技集团有限公司 | 基于企业画像的企业分析方法、系统及云平台 |
CN115640335A (zh) * | 2022-12-06 | 2023-01-24 | 烟台广兴云涛文化传媒有限公司 | 基于企业画像的企业分析方法、系统及云平台 |
CN116307757A (zh) * | 2023-01-18 | 2023-06-23 | 辽宁荣科智维云科技有限公司 | 一种数据智能交互方法、交互系统、计算机设备及应用 |
CN116307757B (zh) * | 2023-01-18 | 2024-02-20 | 辽宁荣科智维云科技有限公司 | 一种数据智能交互方法、交互系统、计算机设备及应用 |
CN116091241A (zh) * | 2023-02-10 | 2023-05-09 | 广州市城市规划勘测设计研究院 | 一种基于复杂异构图的投资预测方法 |
CN116541537A (zh) * | 2023-06-06 | 2023-08-04 | 简单汇信息科技(广州)有限公司 | 一种基于知识图谱的企业贸易信息可视化展示方法 |
CN116541537B (zh) * | 2023-06-06 | 2023-11-03 | 简单汇信息科技(广州)有限公司 | 一种基于知识图谱的企业贸易信息可视化展示方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112131275B (zh) | 2023-07-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112131275B (zh) | 全息城市大数据模型和知识图谱的企业画像构建方法 | |
CN111708773B (zh) | 一种多源科创资源数据融合方法 | |
CN110825882B (zh) | 一种基于知识图谱的信息系统管理方法 | |
CN111428053B (zh) | 一种面向税务领域知识图谱的构建方法 | |
CN111723215B (zh) | 基于文本挖掘的生物技术信息知识图谱构建装置与方法 | |
CN104699766B (zh) | 一种融合词语关联关系和上下文语境推断的隐式属性挖掘方法 | |
CN109885698A (zh) | 一种知识图谱构建方法及装置、电子设备 | |
CN111753099A (zh) | 一种基于知识图谱增强档案实体关联度的方法及系统 | |
Gull et al. | Pre processing of twitter's data for opinion mining in political context | |
CN101079024B (zh) | 一种专业词表动态生成系统和方法 | |
US11263523B1 (en) | System and method for organizational health analysis | |
CN109947921B (zh) | 一种基于自然语言处理的智能问答系统 | |
CN110597870A (zh) | 一种企业关系挖掘方法 | |
CN112231494B (zh) | 信息抽取方法、装置、电子设备及存储介质 | |
US11609959B2 (en) | System and methods for generating an enhanced output of relevant content to facilitate content analysis | |
CN111737421A (zh) | 一种知识产权大数据情报检索系统及存储介质 | |
CN111259160A (zh) | 知识图谱构建方法、装置、设备及存储介质 | |
Baigang et al. | A review: development of named entity recognition (NER) technology for aeronautical information intelligence | |
CN110880142A (zh) | 一种风险实体获取方法及装置 | |
CN112559747A (zh) | 事件分类处理方法、装置、电子设备和存储介质 | |
CN110795932A (zh) | 基于地质本体的地质报告文本信息提取方法 | |
CN112257442A (zh) | 一种基于扩充语料库神经网络的政策文件信息提取方法 | |
CN104346382A (zh) | 使用语言查询的文本分析系统和方法 | |
CN111241299A (zh) | 一种法律咨询的知识图谱自动构建方法及其检索系统 | |
CN110334188A (zh) | 一种多文档摘要生成方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: Building 5, Wuhu Science and Technology Industrial Park, Wuhu City, Anhui Province, 241000 Applicant after: Yangtze River delta information intelligence Innovation Research Institute Address before: 241000 Wuhu Intelligent Collaborative Innovation Center Applicant before: Institute of smart city University of science and technology of China (Wuhu) |
|
GR01 | Patent grant | ||
GR01 | Patent grant |