CN115934968A - 一种产业链信息构建方法、装置以及存储介质 - Google Patents
一种产业链信息构建方法、装置以及存储介质 Download PDFInfo
- Publication number
- CN115934968A CN115934968A CN202310014937.3A CN202310014937A CN115934968A CN 115934968 A CN115934968 A CN 115934968A CN 202310014937 A CN202310014937 A CN 202310014937A CN 115934968 A CN115934968 A CN 115934968A
- Authority
- CN
- China
- Prior art keywords
- industrial
- industry
- enterprises
- matching
- knowledge graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010276 construction Methods 0.000 title claims abstract description 18
- 238000000034 method Methods 0.000 claims abstract description 17
- 238000012937 correction Methods 0.000 claims abstract description 4
- 238000007689 inspection Methods 0.000 claims abstract description 4
- 238000005457 optimization Methods 0.000 claims abstract description 4
- 238000004590 computer program Methods 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 2
- 230000001186 cumulative effect Effects 0.000 claims description 2
- 230000010354 integration Effects 0.000 claims description 2
- 238000012552 review Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000002620 method output Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000013049 sediment Substances 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提出了一种产业链信息构建方法,包括以下步骤:构建产业知识图谱,设定所述产业知识图谱的框架;基于所述产业知识图谱的框架,在最小颗粒度的层级下属环节下填入变量参数;结合大规模企业知识图谱,对企业的数据字段进行关键词匹配,以得到符合产业要求的企业,获取企业在关键词匹配中所获得的累计分值;设定匹配阈值分数,将累计分值大于所述匹配阈值分数的企业计入产业名单中,否则将所述企业剔除;对所述产业名单进行抽检标志,生成badcase进行优化校正,输出产业数据结果。本发明解决了传统方法中企业数据处理量级和精度导致的问题,为产业链搭建提供了更加准确可靠的数据。
Description
技术领域
本发明涉及智能数据库技术领域,具体涉及一种产业链信息构建方法、装置以及存储介质。
背景技术
在各种场景下,都需要产业链的企业数据信息作为支持,市面上通常使用以下方法进行产业链数据库的完善,一是通过国标行业进行企业分类,并根据企业其实际业务与产品进行产业分类,从而达到产业链构建的目的;二是通过收集企业年报,行业研报,上市企业名单等方式,进行数据的归类整理,生成产业龙头名单,但无法全量提供产业下的企业名单。
然而,上述问题同样存在着许多问题,如方法一通过国标行业进行企业分类的方式,存在精确层度低下的问题,因为行业与产业属于两个参数维度,同时后续结合实际业务和产品进行二次匹配的的效率比较低下;方法二输出产业龙头的方式,则存在数量级的差距,在需要调用全局产业数据进行产业分析或者全量产业名单进行招商的场景下无法满足。
发明内容
针对现有技术的不足,本发明提出一种产业链信息构建方法,解决了传统方法中企业数据处理量级和精度导致的问题,为产业链搭建提供了更加准确可靠的数据。
本发明的技术方案是这样实现的:
一种产业链信息构建方法,包括以下步骤:
构建产业知识图谱,设定所述产业知识图谱的框架;基于所述产业知识图谱的框架,在最小颗粒度的层级下属环节下填入变量参数;结合大规模企业知识图谱,对企业的数据字段进行关键词匹配,以得到符合产业要求的企业,获取企业在关键词匹配中所获得的累计分值;设定匹配阈值分数,将累计分值大于所述匹配阈值分数的企业计入产业名单中,否则将所述企业剔除;对所述产业名单进行数据复核。
根据产业全貌设定产业知识图谱的框架,包括产业层级以及层级下属环节。
进一步地,在对企业的数据字段进行关键词匹配时,还包括:基于层级下属环节填入的关键词进行知识图谱的匹配积分,若关键词在不同图谱维度中分别出现,则根据不同图谱维度的权重进行累计分值计算,若总得分超过匹配阈值,则判定为该企业符合产业要求。
进一步地,所述变量参数还包括产业关键词,关键词属性,匹配项分值,匹配阈值。
进一步地,所述企业的数据字段包括企业简介、企业新闻、企业全称、主营业务。
进一步地,在数据复核时,可行则生成产业报告,否则对所述产业名单抽检标注,生成badcase进行优化校正,输出产业数据结果。
本发明第二方面提出了一种产业链信息构建装置,包括:框架构建模块,用于设定所述产业知识图谱的框架并设置其中的变量参数;关键词匹配模块,用于基于大规模企业知识图谱,对企业的数据字段进行关键词匹配,并获取企业在关键词匹配中所获得的累计分值;筛选模块,用于根据将累计分值大于预设的匹配阈值分数的企业计入产业名单中;名单生成模块,用于生产产业名单;复核模块,用于对所述产业名单进行数据复核。
本发明第三方面提出了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如本发明第一方面所述的产业链信息构建方法。
与现有技术相比,本发明具有以下优点。
本发明通过将大规模企业知识图谱加入产业图谱构建的环节中,解决了数据量级的问题,为调用全局产业数据作分析及全量产业名单进行招商的场景提供了数据支持;通过数据匹配、累计分数筛选等方法,提高企业和产业链之间的匹配的正确率,提升了产业链中数据量级边界的同时,不牺牲数据精度,提高用于后续结合实际业务和产品进行二次匹配的效率。
附图说明
为了更清楚地说明本发明实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种产业链信息构建方法的流程示意图。
具体实施方式
下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”、“第四”等仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
实施方式一
本申请的实施方式需要首先构建大规模企业知识图谱,通过构建全量的企业信息图谱,基于大而全的企业数据沉淀满足产业链构建过程中底层的数据需求。
参见图1,本发明实施方式公开了一种产业链信息构建方法,包括以下步骤:
S01 构建产业知识图谱,设定所述产业知识图谱的框架;包括产业层级以及层级下属环节。如原料、加工、销售等产业环节。
S02 基于所述产业知识图谱的框架,在最小颗粒度的层级下属环节下填入变量参数;所述变量参数还包括产业关键词,关键词属性,匹配项分值,匹配阈值,以便在步骤S03中进行匹配筛选;
S03 结合大规模企业知识图谱,对企业的数据字段进行关键词匹配,以得到符合产业要求的企业,获取企业在关键词匹配中所获得的累计分值;所述企业的数据字段包括但不限于企业简介、企业新闻、企业全称、主营业务。
S04 设定匹配阈值分数,将累计分值大于所述匹配阈值分数的企业计入产业名单中,以进行二次筛选,从而提高产业链中企业精准性,否则将所述企业剔除;
S05 对所述产业名单进行数据复核,可行则生成产业报告,否则对所述产业名单抽检标注,生成badcase进行优化校正,输出产业数据结果。
本发明的有益在于:
① 基于大规模企业知识图谱,保证了数据的全面性;
② 基于算法实现全方位匹配,保证了数据的有效性;
实施方式二
本发明还提出了提出了一种产业链信息构建装置,包括:框架构建模块,用于设定所述产业知识图谱的框架并设置其中的变量参数;关键词匹配模块,用于基于大规模企业知识图谱,对企业的数据字段进行关键词匹配,并获取企业在关键词匹配中所获得的累计分值;筛选模块,用于根据将累计分值大于预设的匹配阈值分数的企业计入产业名单中;名单生成模块,用于生产产业名单;复核模块,用于对所述产业名单进行数据复核。
该装置有益效果如实施方式一所记载,在此不再赘述。
实施方式三
本发明还提出了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如本发明第一方面所述的产业链信息构建方法。
以上所描述的装置实施例仅是示意性的,其中作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施例的具体描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,存储介质包括只读存储器(Read-OnlyMemory,ROM)、随机存储器(RandomAccessMemory,RAM)、可编程只读存储器(ProgrammableRead-onlyMemory,PROM)、可擦除可编程只读存储器(ErasableProgrammableReadOnlyMemory,EPROM)、一次可编程只读存储器(One-timeProgrammableRead-OnlyMemory,OTPROM)、电子抹除式可复写只读存储器(Electrically-ErasableProgrammableRead-OnlyMemory,EEPROM)、只读光盘(CompactDiscRead-OnlyMemory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
以上所述仅为本发明的较佳实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种产业链信息构建方法,其特征在于,包括以下步骤:
构建产业知识图谱,设定所述产业知识图谱的框架;
基于所述产业知识图谱的框架,在最小颗粒度的层级下属环节下填入变量参数;
基于大规模企业知识图谱,对企业的数据字段进行关键词匹配,以得到符合产业要求的企业,获取企业在关键词匹配中所获得的累计分值;
设定匹配阈值分数,将累计分值大于所述匹配阈值分数的企业计入产业名单中,否则将所述企业剔除;
对所述产业名单进行数据复核。
2.根据权利要求1所述的产业链信息构建方法,其特征在于:根据产业全貌设定产业知识图谱的框架,包括产业层级以及层级下属环节。
3.根据权利要求2所述的产业链信息构建方法,其特征在于:在对企业的数据字段进行关键词匹配时,包括:
基于层级下属环节填入的关键词进行知识图谱的匹配积分,若关键词在不同图谱维度中分别出现,则根据不同图谱维度的权重进行累计分值计算,若总得分超过匹配阈值,则判定为该企业符合产业要求。
4.根据权利要求1所述的产业链信息构建方法,其特征在于:所述变量参数还包括产业关键词,关键词属性,匹配项分值,匹配阈值。
5.根据权利要求1所述的产业链信息构建方法,其特征在于:所述企业的数据字段包括企业简介、企业新闻、企业全称、主营业务。
6.根据权利要求1所述的产业链信息构建方法,其特征在于:在数据复核时,可行则生成产业报告,否则对所述产业名单抽检标注,生成badcase进行优化校正,输出产业数据结果。
7.一种产业链信息构建装置,其特征在于,包括:
框架构建模块,用于设定所述产业知识图谱的框架并设置其中的变量参数;
关键词匹配模块,用于基于大规模企业知识图谱,对企业的数据字段进行关键词匹配,并获取企业在关键词匹配中所获得的累计分值;
筛选模块,用于根据将累计分值大于预设的匹配阈值分数的企业计入产业名单中;
名单生成模块,用于生产产业名单;
复核模块,用于对所述产业名单进行数据复核。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-6任一项所述的产业链信息构建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310014937.3A CN115934968A (zh) | 2023-01-06 | 2023-01-06 | 一种产业链信息构建方法、装置以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310014937.3A CN115934968A (zh) | 2023-01-06 | 2023-01-06 | 一种产业链信息构建方法、装置以及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115934968A true CN115934968A (zh) | 2023-04-07 |
Family
ID=86655935
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310014937.3A Pending CN115934968A (zh) | 2023-01-06 | 2023-01-06 | 一种产业链信息构建方法、装置以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115934968A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107341142A (zh) * | 2017-05-18 | 2017-11-10 | 辛柯俊 | 一种基于关键词提取分析的企业关系计算方法及系统 |
CN109255034A (zh) * | 2018-08-08 | 2019-01-22 | 数据地平线(广州)科技有限公司 | 一种基于产业链的行业知识图谱构建方法 |
CN114579764A (zh) * | 2022-03-09 | 2022-06-03 | 上海淇玥信息技术有限公司 | 一种基于企业知识图谱的企业识别方法及装置 |
CN114880486A (zh) * | 2022-05-13 | 2022-08-09 | 江苏省联合征信有限公司 | 基于nlp和知识图谱的产业链识别方法及系统 |
CN115374170A (zh) * | 2022-05-27 | 2022-11-22 | 杭州航启科技产业发展有限公司 | 目标企业筛选方法、装置、设备与计算机可读存储介质 |
-
2023
- 2023-01-06 CN CN202310014937.3A patent/CN115934968A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107341142A (zh) * | 2017-05-18 | 2017-11-10 | 辛柯俊 | 一种基于关键词提取分析的企业关系计算方法及系统 |
CN109255034A (zh) * | 2018-08-08 | 2019-01-22 | 数据地平线(广州)科技有限公司 | 一种基于产业链的行业知识图谱构建方法 |
CN114579764A (zh) * | 2022-03-09 | 2022-06-03 | 上海淇玥信息技术有限公司 | 一种基于企业知识图谱的企业识别方法及装置 |
CN114880486A (zh) * | 2022-05-13 | 2022-08-09 | 江苏省联合征信有限公司 | 基于nlp和知识图谱的产业链识别方法及系统 |
CN115374170A (zh) * | 2022-05-27 | 2022-11-22 | 杭州航启科技产业发展有限公司 | 目标企业筛选方法、装置、设备与计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108876034B (zh) | 一种改进的Lasso+RBF神经网络组合预测方法 | |
CN105894183B (zh) | 项目评价方法及装置 | |
CN113537807B (zh) | 一种企业智慧风控方法及设备 | |
CN112418691A (zh) | 一种用于企业服务的政策智能匹配系统的构建方法 | |
CN112905580A (zh) | 一种基于工业大数据的多源异构数据融合系统及方法 | |
CN107194815B (zh) | 客户分类方法及系统 | |
CN115577152B (zh) | 基于数据分析的在线图书借阅管理系统 | |
CN107239964A (zh) | 用户价值评分方法和系统 | |
CN115309815A (zh) | 一种基于大数据的网络舆情监测系统及方法 | |
CN102385632A (zh) | 一种日志自动分类通知方法及系统 | |
CN110659810A (zh) | 一种计算分析员可信程度的方法 | |
Giacobbe et al. | Evaluating information quality in delivering IoT-as-a-service | |
CN112950359B (zh) | 一种用户识别方法和装置 | |
CN114139065A (zh) | 基于大数据的人才筛选推荐方法、系统及可读存储介质 | |
CN113095680A (zh) | 电力大数据模型的评价指标体系与构建方法 | |
CN110502529B (zh) | 数据处理方法、装置、服务器及存储介质 | |
CN115934968A (zh) | 一种产业链信息构建方法、装置以及存储介质 | |
US20120271789A1 (en) | Apparatus and method for prediction development speed of technology | |
CN115617743A (zh) | 一种基于数据采集的科技项目档案管理系统 | |
CN109446263A (zh) | 一种数据关系关联方法及装置 | |
CN108711074A (zh) | 业务分类方法、装置、服务器及可读存储介质 | |
CN115660730A (zh) | 基于分类算法的流失用户分析方法及系统 | |
CN115858598A (zh) | 基于企业大数据的目标信息筛选匹配方法及相关设备 | |
CN114692954A (zh) | 一种基于用户体验知识图谱数据库的服务优化方法及平台 | |
CN114817468A (zh) | 基于知识库的数据处理方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20230407 |
|
RJ01 | Rejection of invention patent application after publication |