CN114492308B

CN114492308B - 一种结合知识发现与文本挖掘的产业信息标引方法和系统

Info

Publication number: CN114492308B
Application number: CN202111637062.XA
Authority: CN
Inventors: 刘�东; 曹丽霄; 羌薇; 孙睿; 刘爱军; 杨灵运; 陈冀华; 曹琳; 贾永芳; 陈冬; 秦伟林; 霍瞳; 殷广丽; 刘烨; 孙雪; 黄本慧; 金林珠
Original assignee: Beijing Aerospace Intelligent Technology Development Co ltd
Current assignee: Beijing Aerospace Intelligent Technology Development Co ltd
Priority date: 2021-12-29
Filing date: 2021-12-29
Publication date: 2023-11-24
Anticipated expiration: 2041-12-29
Also published as: CN114492308A

Abstract

本发明涉及一种结合知识发现与文本挖掘的产业信息标引方法和系统。该方法的步骤包括：定义基础产业版块分类体系，并赋予基础产业版块分类体系中各个领域的产业版块词汇；通过知识发现对所述基础产业版块分类体系中的各个领域补充新兴产业词汇；将产业信息和企业信息汇总成文本，通过文本挖掘对文本标注分类词，进而将产业信息和企业信息划分到所述基础科技分类体系中，将企业和产业版块进行关联，从而实现产业信息标引。本发明结合知识发现与文本挖掘实现了产业信息标引，利于进一步实现面向产业链图谱、产业地图绘制等各应用板块所涉及的业务数据的采集、预处理、分析和可视化展示。

Description

一种结合知识发现与文本挖掘的产业信息标引方法和系统

技术领域

本发明属于信息技术领域，具体涉及一种结合知识发现与文本挖掘的产业信息标引方法和系统。

背景技术

目前，我国加快发展数字经济，推动实体经济和数字经济融合发展，推进互联网技术、产业、应用以及跨界融合发展。我国在大数据、云计算、人工智能、智能芯片等产业版块实施了一系列重大科技研发项目，新兴产业版块如智能网联汽车、无人驾驶、新能源汽车等蓬勃发展，使用一成不变的产业版块分类方法已经不适合这些新兴产业版块。

产业信息标引是将企业划分到对应的产业分类体系，实现企业和产业版块关联，从而利于实现产业链图谱、产业地图、产业发展评价等。目前，产业信息标引尚没有很好的实现方法。

发明内容

在战略新兴领域蓬勃发展的大背景下，本发明提出一种结合知识发现与文本挖掘的产业信息标引方法和系统。

本发明的一种结合知识发现与文本挖掘的产业信息标引方法，其步骤包括：

定义基础产业版块分类体系，并赋予基础产业版块分类体系中对应产业版块的搜索词汇(关键词)；

通过知识发现对基础产业版块分类体系中的各个产业版块补充新兴产业名称；

通过对互联网信息进行挖掘，精准识别产业信息和企业信息，将产业信息和企业信息汇总成文本，通过文本挖掘对文本标注分类词，进而将产业信息和企业信息划分到所述基础产业版块分类体系中，将企业和产业版块进行关联，从而实现产业信息标引。

进一步地，所述通过知识发现对基础产业版块分类体系补充新兴产业名称，包括：对所有论文数据进行分析，根据新兴产业名称的定义和筛选规则得到关键词走势图，对在这个产业版块分类体系上补充新兴产业名称。

进一步地，在上述步骤基础上，可以实现产业链图谱、产业地图、产业发展评价等各应用板块所涉及的业务数据的采集、预处理、分析和可视化展示等。

进一步地，所述定义基础产业版块分类体系，包括：根据当前科技发展现状人为定义基础产业版块分类体系，包括基础大类，并按照树状结构拓展其它小类，赋予对应的关键词以对每个类别进行简介；所述基础大类包括智能网联汽车、无人驾驶、新能源汽车、氢能等新兴产业版块。

进一步地，所述通过知识发现对基础产业版块分类体系中的各个产业版块补充新兴产业名称，包括：

计算论文中所有关键字的增长率；

根据论文发表时间、关键字出现频次和关键字的增长率，筛选新兴产业名称；

对筛选出的新兴产业名称进行二次验证，以确定最终的新兴产业名称。

进一步地，所述计算论文中所有关键字的增长率，包括：将一年拆分为多个时间段，根据论文发表时间，统计每个时间段每个关键字出现的频次，即有多少篇论文中涉及该关键字，再计算每个关键字相较于上一个半年的增长率(同比增长率)。

进一步地，所述根据论文发表时间、关键字出现频次和关键字的增长率，筛选新兴产业名称，包括：按照论文发表时间、关键字出现频次和增长率对关键字进行降序排列，首先剔除掉非技术类的关键字，之后再对留下的技术类关键字进行分析；若留下的技术类关键字在最近几年的增长率未出现大的下降趋势，且之前年份出现频率较低，则说明该技术正在经历从开始受到关注到受关注的程度逐渐增长的趋势，将该技术关键字作为筛选出的新兴产业名称。

进一步地，所述对筛选出的新兴产业名称进行二次验证，以确定最终的新兴产业名称，包括：对筛选出的新兴产业名称，获取新兴产业名称的历史论文数，计算逐年的论文发表数量走势情况，若呈现逐年上升的趋势，则确定其为某一时间段的新兴产业名称。

进一步地，所述文本挖掘包括：

文本实体识别：采用BERT模型对包括新闻、政策在内的文本类型进行实体识别、关系和属性抽取；

多级产业补齐：对报告、新闻在内的文本进行节点及各级父节点的提取，先获取产业版块字典和父产业版块字典，利用产业版块字典通过正则匹配方法得到文本中的关键词及文本所属产业版块，然后对文本所属产业版块做进一步迭代处理得到文本产业版块和所属各级父产业版块；

产业知识抽取：基于正则表达式和规则对产业信息进行解析和抽取，首先从产业信息中提取关键信息字典，然后从字典中获取所需产业知识，包括企业、人名、地名等产业相关知识。

进一步地，所述将企业和产业版块进行关联，包括进行企业经营产业版块判别；所述企业经营产业版块判别分为两步：首先进行定性判别，得到某产业版块的企业名录，然后进行定量判别，得到该产业版块在企业所有经营范围中占据的比例。

一种采用上述方法的结合知识发现与文本挖掘的产业信息标引系统，其包括：

产业版块分类体系定义模块，用于定义基础产业版块分类体系，并赋予基础产业版块分类体系中各个产业版块的关键词；

新兴产业名称补充模块，用于通过知识发现对所述基础产业版块分类体系中的各个产业版块补充新兴产业名称；

产业信息标引模块，用于将产业信息和企业信息汇总成文本，通过文本挖掘对文本标注分类词，进而将产业信息和企业信息划分到所述基础产业版块分类体系中，将企业和产业版块进行关联，从而实现产业信息标引。

本发明的技术关键点和有益效果包括：

1、定义了基础产业版块分类体系，用知识发现在这个产业版块分类体系上补充新兴产业名称。

2、将企业、产业信息汇总成文本，通过文本挖掘对文本标注分类词，实现企业和产业版块关联，即实现了产业信息标引，从而利于进一步实现产业链图谱绘制、产业地图绘制等各应用板块所涉及的业务数据的采集、预处理、分析和可视化展示。

附图说明

图1是基础产业版块分类体系定义工具示意图。

图2是基于产业版块分类体系形成的产业链图谱。

图3是定性的将企业标引到各个产业版块的示意图。

图4是半定量的将企业标引到各个产业版块的示意图。

具体实施方式

下面通过具体实施例和附图，对本发明做进一步详细说明。

本发明的主要内容包括：

1、定义基础产业版块分类体系，提供一种利用关键词获取新兴产业名称的方法，用知识发现，在这个产业版块分类体系上补充新兴产业名称。

2、将多种数据格式的企业和产业信息汇总成文本，通过文本挖掘将文本中词汇与产业版块分类体系中的词汇对应，进而将企业划分到对应的产业版块分类体系，实现企业和产业版块关联。

3、实现可视化分析展示，为用户评估数字经济提供辅助决策，同时为其他应用服务提供数据支撑。

本发明一个实施例的结合知识发现与文本挖掘的产业信息标引方法，包括以下步骤：

1、定义基础产业版块分类体系

根据当前科技发展现状人为定义基础产业版块分类体系，例如：智能网联汽车、无人驾驶、新能源汽车等基础大类，按照树状结构拓展其它小类，赋予对应关键词对每个类别进行简介。图1是基础产业版块分类体系定义工具示意图。图2是基于产业版块分类体系形成的产业链图谱。

2、知识发现获取新兴产业名称

人为定义的基础产业版块分类体系和类别简介并不完善，因此，采用知识发现获取基础产业版块分类体系中各个产业版块的新兴产业名称对上述内容进行补充。新兴产业名称指前期受关注程度较低，最近一段时间(几个月或几年)受关注的程度(即在核心论文关键字中出现的频次)大体呈现逐年上升趋势的技术。新兴产业名称具体获取方式如下：

(1)计算论文中所有关键字的增长率

将一年拆分为上半年和下半年，以半年为最小时间段，计算自1997年(论文数据库中最早年份)至今，根据论文发表时间，统计每半年每个关键字出现的频次，即有多少篇论文中涉及了该关键字，再计算每个关键字相较于上一个半年的增长率，公式为：

其中R_i为关键字i的增长率，N_m为关键字i第m个半年的出现频次，N_m-1为关键字i第m-1个半年的出现频次。

(2)新兴产业名称的筛选

将计算出的结果按照论文发表时间、关键字出现频次和增长率对关键字进行降序排列，首先剔除掉非技术类的关键字，之后再对留下的技术类关键字进行分析。若留下的技术类关键字在最近几年的增长率未出现大的下降趋势，且之前年份出现频率较低，则说明该技术正在经历从开始受到关注到受关注的程度逐渐增长的趋势，将该技术关键字作为筛选出的新兴产业名称。同时，考虑到新兴产业之所以为“新”，其区别于热词的一个关键点是出现的频率相对于成熟产业版块名称较低。

(3)新兴产业名称锁定

对筛选出的新词进行二次验证，即获取新词的历史论文数，计算逐年的论文发表数量走势情况，若呈现逐年上升的趋势，则可确定其为某一时间段的新词。

根据上述方法筛选出20个人工智能新兴产业名称。实际筛选过程中，由于严格满足筛选条件的新词较少，被筛选出的TOP20新词是相较于其他关键字最为接近筛选规则的一部分。用知识发现获取的新兴产业名称，在产业版块分类体系上进行补充。

3、文本挖掘和产业信息标引

将企业的产业信息汇总成文本，通过文本挖掘对文本标注分类词，实现企业和产业版块之间的关联和匹配，即实现产业信息标引。文本挖掘和企业匹配算法模型如下：

3.1文本实体识别算法

文本实体识别算法采用BERT模型对新闻、政策等文本类型进行实体识别、关系和属性抽取。该算法采用分布抽取的方式，利用BERT模型先抽取主体，然后通过主体抽取关系、属性和客体。模型支持抽取企业、地点、业务、机构、人物、学校、日期、产品、书籍、出版社、国家、政策、项目、数字等多种实体类型，支持抽取注册资本、融资金额、营业收入、股票代码、经营、成立日期、简称、毕业院校、出生日期、国籍、发布、负责人等多种关系和属性。

3.2多级产业版块补齐算法

多级产业版块补齐算法支持对报告、新闻等进行邻域及各级父产业版块的提取。该算法先获取产业版块字典和父产业版块字典，利用产业版块字典通过正则匹配方法得到文本中的关键词及文本所属产业版块，然后对文本产业版块做进一步迭代处理得到文本产业版块和所属各级父产业版块。

3.3产业知识抽取算法

基于正则表达式和规则对产业信息进行解析和抽取，首先从产业信息中提取关键信息字典，然后从字典中获取所需产业知识，包括企业、人名、地名等产业相关知识。

3.4企业经营产业版块判别

该算法解决的问题是：针对某一技术产业版块(例如智能网联汽车产业版块、氢能产业版块等)，识别出经营范围与该产业版块有关的企业。针对企业经营产业版块的判别分析分为两步：首先进行定性判别(初筛)，得到某产业版块(例如智能网联汽车产业版块、氢能产业版块等)的企业名录，然后进行定量判别(相似度计算)，得到该产业版块在该企业所有经营范围中占据的比例。

1)定性判别：以汽车产业版块的企业为例，汽车产业版块企业名单的识别规则是使用汽车产业专家提供的汽车产业关键词语料库，匹配企业品牌标签得出的，具体方法如下：

1.1)梳理汽车产业关键词语料库

语料库将汽车产业按照多个细分产业版块进行了划分，每个细分类别中又进一步展开，包含了多个层级的细分产业版块，且各产业版块下有相应的产业版块关键词。

可信度分析：各细分产业版块下的关键词存在差异，如网络基础设施的关键词包括“5G增强技术”、“导航定位网络”、“物联网”、“工业互联网”、“车联网”、“网络安全”等，这些关键词均为技术、实物或产业版块名称，且具有确定性，可作为网络基础设施的下一级细分产业版块和该细分产业版块企业识别的关键字。而比如量子计算机包括“量子加速”、“量子信息”、“量子纠错”、“量子认知”、“量子隧穿效应”、“Bell不等式”、“GROVER算法”、“GROVER迭代”、“不确定性原理”等关键词，这些关键词涉及到的产业版块较为广泛，并不是量子计算机专属的技术，故无法作为识别量子计算机细分产业版块企业名单的关键字。

精度提高方案：随着科技发展，需不断征集产业版块专家意见，完善产业版块分类体系(可参考新兴产业名称算法推荐的新兴产业名词)，补充语料库，避免新兴产业版块漏掉筛选范围。任何分类体系都不是一蹴而就，需在使用过程中不断发现漏选企业，不断补充完善分类体系。

1.2)根据梳理出的关键词来匹配企业品牌标签

以天眼查软件为例，天眼查为各企业品牌均打上了产业版块标签，且准确性较高，用梳理出的关键词与天眼查的企业品牌标签进行匹配，进而识别出所有细分产业版块的企业名单，汇总出总的人工智能产业版块企业名单。

可信度分析：该方法基于专家分类体系和语料库，进行自然语言处理，自动识别相关企业，弥补了“标注员不懂产业版块知识、专家无暇开展数据标注”的困境，缩短了从企业初创或经营范围变化到被发现的进程。同时可注意到，未来该方法有较大的优化空间，例如，若目标数据源的关键字范围过于广泛，企业数将会进一步增加，将会偏离外界认可的数量。

2)定量判别：产业版块标签和榜单标签对于划分企业品牌的产业版块具有重要价值。产业版块标签可以将企业品牌对应的细分产业版块对应上，对细分产业版块的划分有价值。榜单标签则是通过专家和大众的评选被划分到某一个大产业版块，对大产业版块的划分有指导价值。

图3是定性的将企业标引到各个产业版块的示意图。图4是半定量的将企业标引到各个产业版块的示意图。通过打标签的形式给企业创立的每个企业品牌打了标签，标签的覆盖面非常广。给定某产业版块的语料库中，大多数是能够在通过标签匹配找到的，相比企业简介等简短的过时的信息，根据标签判断企业所从事的产业版块准确性会非常高。根据品牌标签在产业版块语料库中的覆盖情况，可以将企业分为四种情形：全覆盖(品牌A)、高度覆盖(品牌B)、少量覆盖(品牌C)、无覆盖(品牌D)。这种覆盖的标签比例是可以量化的。

以天眼查软件为例，遍历天眼查与语料库的重叠词汇，可以爬取到所有产业版块相关的全量品牌信息，进而根据所属企业得到全量的相关企业信息，综合考虑企业所具有的多个品牌在产业版块上的覆盖情况，可以判断企业的产业版块相似度。

全量的相关企业数量非常多，一些少量品牌标签命中的企业很可能不符合评估专家的认知。对此可以调整两处数据处理方式来做优化：一是优化从品牌标签到企业相似度的计算方法，二是调整相似度的阈值。二者配合能够将企业名录控制在专家期望的数据量之内。将来数据的更新方式为：某产业版块语料库→某产业版块天眼查相关标签库→爬虫增量爬取全量品牌、企业→调控相似度计算模型→控制相似度过滤阈值→更新相关企业名单。

可信度分析：该定量判别方法对先行企业工商信息平台上已有的人工分类标签进行了充分利用，并借助自然语言处理方法进行了自动计算，体现了客观、公正、及时、全覆盖的效果。未来可从更多维度(例如该企业的专利、论文等)开展更多定量判别方法，可进一步优化识别效果。

4、在步骤3)基础上，实现产业链图谱、产业地图等各应用板块所涉及的业务数据的采集、预处理、分析和可视化展示等。通过对互联网信息进行挖掘，精准识别产业信息和企业信息，并保证信息实时采集和更新。对包括Excel、pdf、word、txt、HTML等多种数据格式的数据进行识别、清洗，形成结构化数据。采集的数据导入数据库进行统一管理，并对其进行关联、挖掘，按技术集的应用场景或行业产业版块划分形成产业发展知识图谱，并实现可视化分析展示、产业规模测算，为用户评估数字经济提供辅助决策，同时为其他应用服务提供数据支撑。

本发明的另一实施例提供一种采用上述方法的结合知识发现与文本挖掘的产业信息标引系统，其包括：

本发明未详细阐述的部分属于本产业版块技术人员的公知技术。

以上公开的本发明的具体实施例，其目的在于帮助理解本发明的内容并据以实施，本产业版块的普通技术人员可以理解，在不脱离本发明的精神和范围内，各种替换、变化和修改都是可能的。本发明不应局限于本说明书的实施例所公开的内容，本发明的保护范围以权利要求书界定的范围为准。

Claims

1.一种结合知识发现与文本挖掘的产业信息标引方法，其特征在于，包括以下步骤：

定义基础产业版块分类体系，并赋予基础产业版块分类体系中各个产业版块的搜索词汇；

通过知识发现对所述基础产业版块分类体系中的各个产业版块补充新兴产业名称；

将产业信息和企业信息汇总成文本，通过文本挖掘对文本标注分类词，进而将产业信息和企业信息划分到所述基础产业版块分类体系中，将企业和产业版块进行关联，从而实现产业信息标引；

所述通过知识发现对所述基础产业版块分类体系中的各个产业版块补充新兴产业名称，包括：

计算论文中所有关键字的增长率；

根据产业相关论文发表时间、关键字出现频次和关键字的增长率，筛选新兴产业名称；

对筛选出的新兴产业名称进行二次验证，以确定最终的新兴产业名称；

所述对筛选出的新兴产业名称进行二次验证，以确定最终的新兴产业名称，包括：对筛选出的新兴产业名称，获取新兴产业名称的历史论文数，计算逐年的论文发表数量走势情况，若呈现逐年上升的趋势，则确定其为某一时间段的新兴产业名称；

所述文本挖掘包括：

产业知识抽取：基于正则表达式和规则对产业信息进行解析和抽取，首先从产业信息中提取关键信息字典，然后从字典中获取所需产业知识，包括企业、人名、地名。

2.根据权利要求1所述的方法，其特征在于，所述定义基础产业版块分类体系，包括：根据当前科技发展现状人为定义基础产业版块分类体系，包括基础大类，并按照树状结构拓展其它小类，赋予对应的关键词以对每个类别进行简介；所述基础大类包括新能源汽车、智能网联汽车、氢能。

3.根据权利要求1所述的方法，其特征在于，所述计算论文中所有关键字的增长率，包括：

将一年拆分为若干个时间段，根据论文发表时间，统计每个时间段关键字出现的频次，即有多少篇论文中涉及该关键字，再计算每个关键字相较于上一个半年的增长率，公式为：

其中，R_i为关键字i的增长率，N_m为关键字i第m个半年的出现频次，N_m-1为关键字i第m-1个半年的出现频次。

4.根据权利要求1所述的方法，其特征在于，所述根据产业相关论文发表时间、关键字出现频次和关键字的增长率，筛选新兴产业名称，包括：

按照论文发表时间、关键字出现频次和增长率对关键字进行降序排列，排名靠前的关键字作为筛选出的新兴产业名称作为产业专家判断其是否为新兴产业的重要依据。

5.根据权利要求1所述的方法，其特征在于，所述将企业和产业版块进行关联，包括进行企业经营产业版块判别；所述企业经营产业版块判别分为两步：首先进行定性判别，得到某产业版块的企业名录，然后进行定量判别，得到该产业版块在企业所有经营范围中占据的比例。

6.根据权利要求1所述的方法，其特征在于，在实现产业信息标引的基础上，实现产业链图谱绘制、产业地图绘制所涉及的业务数据的采集、预处理、分析和可视化展示。

7.一种采用权利要求1～6中任一权利要求所述方法的结合知识发现与文本挖掘的产业信息标引系统，其特征在于，包括：

产业分类体系定义模块，用于定义基础产业版块分类体系，并赋予基础产业版块分类体系中各个产业版块的关键词；