CN113377957A

CN113377957A - 基于知识图谱的国民经济行业分类方法和系统

Info

Publication number: CN113377957A
Application number: CN202110747752.4A
Authority: CN
Inventors: 季白杨; 唐光忍
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-07-01
Filing date: 2021-07-01
Publication date: 2021-09-10
Anticipated expiration: 2041-07-01
Also published as: CN113377957B

Abstract

本发明公开了基于知识图谱的国民经济行业分类方法及系统，其中涉及的基于知识图谱的国民经济行业分类方法，包括：S1.获取与各个行业产品相对应的原始数据，并利用识别算法将获取的原始数据转换为文本信息；S2.利用hanLP工具转换后的文本信息分词、标注处理，对分词、标注后的文本信息中的产品进行识别，得到产品的文本信息；S3.利用hanLP工具、TF‑IDF工具对产品文本信息中的关键词进行识别提取；S4.利用BERT方法将提取的关键词转换为词向量，并采用余弦函数基于预制定行业规则计算词向量与行业的相似度，并将产品与行业进行匹配；S5.构建产品与行业匹配后的知识图谱。

Description

基于知识图谱的国民经济行业分类方法和系统

技术领域

本发明涉及行业分类的技术领域，尤其涉及基于知识图谱的国民经济行业分类方法和系统。

背景技术

最新的中华人民共和国国家标准-国民经济行业分类按照门、大类、中类、小类共分为1381种，但是现实社会中创造的产品，涉及的经济活动，关联的行业有上百千万种，如果想要将一件具体产品，或经济活动划分到某一行业是存在一定的困难。知识图谱这项技术能够将搜索结果进行结构化的展示，旨在提高用户的搜索质量改善用户的搜索体验。领域知识图谱聚焦于某一特定领域,对该领域知识的深度和精度都有很高的要求。

因此，为了解决社会上具体产品，涉及的经济活动无法与国标行业一一对应问题，结合知识图谱结构化展示知识的特点，在调研行业分类的基础上构建了国民经济行业知识图谱(KG)。国民经济行业知识图谱构建结果显示能够对产品进行较为准确分类，实现了对社会上产品的结构结构化展现。从现实应用的视角看待国民经济行业分类知识图谱可以简单的认为它就是一个多关系图。

发明内容

本发明的目的是针对现有技术的缺陷，提供了基于知识图谱的国民经济行业分类方法和系统，可以将一个个具体产品匹配到最合适的行业，然后构建图谱并进行结构化的展示。

为了实现以上目的，本发明采用以下技术方案：

基于知识图谱的国民经济行业分类方法，包括：

S1.获取与各个行业产品相对应的原始数据，并利用识别算法将获取的原始数据转换为文本信息；

S2.利用hanLP工具转换后的文本信息分词、标注处理，对分词、标注后的文本信息中的产品进行识别，得到产品的文本信息；

S3.利用hanLP工具、TF-IDF工具对产品文本信息中的关键词进行识别提取；

S4.利用BERT方法将提取的关键词转换为词向量，并采用余弦函数基于预制定行业规则计算词向量与行业的相似度，并将产品与行业进行匹配；

S5.构建产品与行业匹配后的知识图谱。

进一步的，所述步骤S3具体为：

S31.利用hanLP工具对产品文本信息中的关键字进行初步提取；

S32.利用TF-IDF工具对提取的关键字进行过滤，得到过滤后的关键词。

进一步的，所述步骤S32中利用TF-IDF对关键字过滤，表示为：

其中，count(w)表示关键词w出现的次数；|D_i|表示文档D_i中所有词的数量；N表示所有文档总数；I(w,D_i)表示文档D_i中是否存在关键字。

进一步的，所述步骤S4具体为：

S41.制定行业匹配规则，利用Bert方法将提取的关键词转换为词向量，并采用余弦函数计算词向量与行业的相似度；其中，行业匹配规则包括基于行业分类架构的评估、关键字的权重规则；

S42.对产品与行业进行精准匹配；其中，精准匹配是存在产品与行业完全匹配的情况；

S43.对产品与行业进行模糊匹配；其中，模糊匹配是不存在产品与行业完全匹配的情况。

进一步的，所述步骤S41中基于行业分类架构的评估、关键字的权重规则的匹配，表示为：

其中，INDUSTRY_i和INDUSTRY_j分别表示同一关键字匹配到的不同门类的行业；K_i+ ₁Num表示INDUSTRY_i行业的次级行业中包含这一关键字的行业的数量；K_j+1Num代表INDUSTRY_j行业的次级行业中包含这一关键字的行业的数量；W_i表示INDUSTRY_i与INDUSTRY_j的权重之差。

进一步的，所述步骤S41中采用余弦函数计算词向量与行业的相似度，表示为：

其中，cos(θ)表示相似度；A表示产品的关键字的词向量；B表示行业的关键字的词向量；X_i表示产品关键字词向量的分量；Y_i表示行业关键字词向量的分量；n表示词向量的维度。

进一步的，所述步骤S43中的产品包括单关键字类型的产品和双关键字类型的产品，其中双关键字类型的产品进行行业匹配，表示为：

其中，match(Ki)表示根据关键字Ki进行行业匹配；S_i表示进行行业匹配后得到的结果集；

T_i[match(K_i),K_j]，i,j＝1,2&&i！＝j

其中，T_i表示将两个行业进行交叉匹配，得到两个行业中包含对方关键字的行业集合；K_j表示关键字；K_j表示关键字；i,j＝1,2&&i！＝j表示约束条件i,j等于1或者2并且i不等于j；

Target＝match(K1+K2,T_i),i＝1,2

其中，Target表示将两个相关度最高的行业与产品进行匹配后得到的相关度最高的结果。

进一步的，所述步骤S43中进行模糊匹配还包括语义理解问题，对语义理解问题的匹配，表示为：

Target＝S1∪S2-T1∪T2

进一步的，所述步骤S5中构建知识图谱具体为：

S51.构建知识图谱的模式层；

S52.构建是指图谱的数据层。

相应的，还提供基于知识图谱的国民经济行业分类系统，包括：

获取模块，用于获取与各个行业产品相对应的原始数据，并利用识别算法将获取的原始数据转换为文本信息；

处理模块，用于利用hanLP工具转换后的文本信息分词、标注处理，对分词、标注后的文本信息中的产品进行识别，得到产品的文本信息；

提取模块，用于利用hanLP工具、TF-IDF工具对产品文本信息中的关键词进行识别提取；

匹配模块，用于利用BERT方法将提取的关键词转换为词向量，并采用余弦函数基于预制定行业规则计算词向量与行业的相似度，并将产品与行业进行匹配；

构建模块，用于构建产品与行业匹配后的知识图谱。

与现有技术相比，本发明的有益效果为：

1.解决了社会上百千万中产品难以与国标行业分类一一对应的难题，避免人工将产品分类耗时耗力问题。

2.借助知识图谱结构化呈现知识的特点，将具体产品与行业对应并展示出来，理清产品与行业的联系。

附图说明

图1是本实施例一提供的基于知识图谱的国民经济行业分类方法流程图；

图2是本实施例一提供的基于知识图谱的国民经济行业分类示意图

图3是本实施例一提供的行业分类知识图谱模式层图；

图4是本实施例一提供的行业分类知识图谱数据层实例示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

本发明的目的是针对现有技术的缺陷，提供了基于知识图谱的国民经济行业分类方法和系统。

本实施例提供基于知识图谱的国民经济行业分类方法，如图1-2所示，包括：

S5.构建产品与行业匹配后的知识图谱。

本实施例是针对当前社会上存在的千百万种产品与国标行业无法一一对应，分工划分费时费力这个问题，提供了一种基于知识图谱的国民经济行业分类方法，将一个个具体产品匹配到最合适的行业，然后构建图谱并进行结构化的展示。

在步骤S1中，获取与各个行业产品相对应的原始数据，并利用识别算法将获取的原始数据转换为文本信息。

本实施例从东方财富网、上海证券交易所、工商局等网站收集主营产品信息，从营业执照等文件中采集社会上的具体产品，利用爬虫技术从网页上爬取产品信息，其中包括网页、图片、PDF等，结合已有的数据库。结构化数据、半结构化数据、非结构化数据三种数据类型相结合，构成图谱的底层数据支持。

其中，对于已有的数据库中的内容可以直接使用，对半结构化数据和非结构化数据需要进行处理，包括将图片信息，PDF文件信息通过识别算法OCR转化为文本信息，为hanLP工具做前期准备工作，并结合数据库中已有数据，构成知识图谱原始数据集合。

在步骤S2中，利用hanLP工具转换后的文本信息分词、标注处理，对分词、标注后的文本信息中的产品进行识别，得到产品的文本信息。具体包括：

S21.中文分词，对文本信息需要将它们分为细粒度的词语，为词性标注做准备。

分词是知识图谱构建的基础工作，分词的准确率直接影响下一阶段词性判断的准确性。本实施例选择基于语料库对文信息进行分词。

S22.分词后词性标注，词性标注完成后，就可以去除对实体识别和关键字提取会产生干扰的词语，保留需要的动词和名词。

词类是以语言中的词汇为对象，按照语法作用的不同，将词分为不同的类。词性则是以个别词为对象，根据其语法作用，兼顾其意义，将其归类得到的结果。举例来说，汉语中有名词、动词、形容词等词类。词性标注完成后，就可以去除对实体识别和关键字提取会产生干扰的词语，保留需要得动词和名词。

构建图谱过程主要关注名词与动词，如：汽车制造这个短语，汽车术语名词，制造属于动词。在进行行业匹配时可以根据制造，将汽车制造划分为制造业，再结合汽车，最后确定行业为汽柴油车整车制造。

S23.命名实体识别，将具体产品识别出来。

在本实施例中，实体就是具体产品或者经济活动的名称；如汽车制造中，所需要的就是将“汽车制造”这个经济活动识别出来。

在步骤S3中，利用hanLP工具、TF-IDF工具对产品文本信息中的关键词进行识别提取。具体包括：

S31.利用hanLP工具对产品文本信息中的关键字进行初步提取；

准确的关键字提取对能否将一个具体产品或某一经济活动准确划分到适合的行业至关重要，准确的分词是关键字提取准确的前提。采用词频-逆文档频率(TermFrequency-Inverse Document Frequency，TF-IDF)来衡量关键字的重要程度。词频(TermFrequency，TF)代表关键词w在文档D_i中出现的频率。

本实施例中，利用TF-IDF进行关键字计算公式表示为：

其中，count(w)表示关键词w出现的次数；|D_i|表示文档D_i中所有词的数量；N表示所有文档总数；I(w,D_i)表示文档D_i中是否存在关键字，若存在则为1，否则为0。

在步骤S4中，利用BERT方法将提取的关键词转换为词向量，并采用余弦函数基于预制定行业规则计算词向量与行业的相似度，并将产品与行业进行匹配；具体为：

S411.基于行业分类架构的评估；用连接到一个高级行业的低级行业的数量来衡量行业的相关性和重要性，在四级行业中我们引用连接到这个行业的产品的数量来衡量四级行业的重要性，我们评价行业重要性的灵感借助了科研论文中引用评价体系，一篇文章被他人引用的次数越多，能够客观的反应这篇文章的评价就越高，同时我们参考了2017国民经济行业分类标准，其中A门类-农林牧渔业中包含五个大类，B门类-采矿业中包含七个大类，C门类业制造业中包含31个大类，结合现实生活，我们可以认为制造业在行业分类中占据了重要的地位，这也符合连接到一个行业产品越多则这个行业就越重要的假设。

S412.关键字的权重规则；知识图谱一共分为五层，其中前四层参照国家行业分类标准进行划分，由此本文认为前四层的数据具有一定的权威性，在本文中我们将这种权威性体现在行业关键字的不同权重上，我们认为，一级到四级每个行业的关键字的权重是不同的，前四层中一级行业关键字的权重最高，四级行业关键字的权重最低。

基于行业分类架构的评估、关键字的权重规则的匹配，表示为：

行业分类的准则是按照同一种经济活动的性质的划分，总共分为1381个小类，以“汽车零部件及配件制造为例”，对这个行业下的内容进行了扩展，对此行业细分为“点火系统”，“驱动系统”，“车身附件”等，同时为它们各自连接了专业的词库，其中“车身附件”就包含了“汽车扶手”，“汽车后护板”，“汽车遮阳板”等产品。具体产品和经济活动进行行业匹配时，存在产品与行业完全匹配的情况，以汽车中的“离合器”为例，直接与四级行业“齿轮及齿轮减，变速箱制造”下的离合器完全匹配。

本实施例将这类产品分为两大类：一类为“单关键字”类型，另外一类为双关键字类型。

S431.单关键字类型；以“汽车”为例，一共匹配到了10个包含“汽车”关键字的四级行业，其中涉及13个三级行业，七个二级行业和六个一级行业，在这里就涉及了如何对查询到的结果进行排序问题，本实施例发现只有二级行业“汽车制造业”包含汽车这个关键字，那么按照关键字权重规则，选择“汽车制造业”进行下一步的匹配，这时发现六个三级行业，这时候根据权重规则选择“汽柴油车整车制造”进行匹配，由于它是存在的唯一的一个四级行业，因此我们进行最后的验证，通过余弦相似度计算，产品与行业的匹配度高于设定的阈值，匹配成功。

S432.针对“双关键字”类型提出了“双特征交叉匹配算法”，算法公式表示为：

T_i[match(K_i),K_j]，i,j＝1,2&&i！＝j

Target＝match(K1+K2,T_i),i＝1,2

以“汽车玻璃为例”，经过处理得到两个特征值“K1＝汽车”，“K2＝玻璃”。此时，首先根据“K1＝汽车”进行行业匹配得到一个有关汽车的行业候选集“S1”，如表1所示，类似的，同样可以得到一个有关玻璃的行业候选集“S2”如表2所示，接着进行交叉特征匹配，即根据“K1＝汽车”这个特征在“K2＝玻璃”的候选集“S2”中匹配到“玻璃”中包含关键字“汽车”的行业集合“T1”，类似的得到关键字“玻璃”，在“k1＝汽车”的行业集合中得到“汽车”中包含关键字“玻璃”的行业集合“T2”，最后将“T1”与“T2”这两个行业与“汽车玻璃”进行最后的行业匹配度计算，将其中匹配的最高的作为最后匹配的结果。

表示1关键字“汽车”匹配的结果集

表2关键字“玻璃”匹配的结果集

S433.模糊匹配中涉及语义理解问题，针对此类问题匹配公式表示为：

Target＝S1∪S2-T1∪T2

其中，Target表示将两个相关度最高的行业与产品进行匹配后得到的相关度最高的结果；集合S1和S2可以由步骤S432中的公式获得，集合T1和T2可以由步骤S432中的公式获得，Target是集合T在集合S中的补集。观察到这类产品中关键字K1往往是K2的定语，公式可简写为：

Target＝S2-T1∪T2

以“非汽车用发动机”为例，在进行行业匹配时，将其理解为一个特征向量X＝(K0，K1，K2)，其中K0代表“非”，“其他”这类的否定词，K1与K2代表具体产品或者经济活动的关键词。若不存在“非”这个特征，就可以利用交叉匹配算法得到“K1＝汽车”的行业候选集S1和“K2＝发动机”的行业候选集S2，根据“K1＝汽车”这个特征在“K2＝发动机”的候选集S2中找出包含汽车的候选集T1，类似的根据“K2＝发动机”这个特征在“K1＝汽车”候选集S1中找出包含发动机的候选集T2，与正常进行行业匹配工作相反的是本实施例不是要将其中相似度最高的与K1+K2进行最后的匹配，而是将T1与T2从候选集S1与S2中去除，将剩下的集合作为结果集。

在步骤S5中构建产品与行业匹配后的知识图谱。具体为：

S51.构建知识图谱的模式层；

模式层是对整个知识图谱结构框架的定义，模式层的构建如图3所示：根据经济行业分类标准的树形结构的特点，采取自上而下与自下而上相结合的方式构建，将整个模式层分为五个层次，定义低层次与高层次之间的关系为“属于关系”，即低层次属于高层次，是高层次的细分。其中前四个层次，参考中华人民共和国国家标准-国民经济行业分类，采取自上而下的方式构建，这四个层次自上而下分别为门类，大类，中类，小类。第五层可以将其总结为具体经济活动，在这层中我们这也是我们工作的重点，同时，也是工作的难点，这层构建的核心方法是采取自下而上的方式，经过模块的工作后，将其与前四层进行连接。

S52.构建是指图谱的数据层。

知识图谱的构建结果如图4所示：经过步骤1-4处理以后，此时得到的就是一个个具体的产品或者是一个具体的经济活动，以“汽车”为例，“汽车”就是社会中一个具体的产品，“汽车制造”和“汽车销售”就属于一个具体的经济活动，我们的目标就是能够准确的将“汽车”连接到“汽柴油车整车制造”这个四级行业中，而在这个过程中存在一个具体产品或者行业是没有四级行业这个特殊情况，例如：“电车”。基于此，我们做出以下调整：对目标产品或者行业，尽可能的将其连接到四级行业，其中匹配的底线是三级行业，对于只能连接到二级甚至是一级的情况，认为这种匹配时没有实用价值的，则会将它排除，认为是前期的数据处理错误，例如：纺织，这个具体的经济活动只能匹配到二级行业-制造业。

与现有技术相比，本实施例的有益效果为：

实施例二

本实施例提供基于知识图谱的国民经济行业分类系统，包括：

构建模块，用于构建产品与行业匹配后的知识图谱。

需要说明的是，本实施例提供的基于知识图谱的国民经济行业分类系统与实施例一类似，在此不多做赘述。

与现有技术相比，本实施例的有益效果为：

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.基于知识图谱的国民经济行业分类方法，其特征在于，包括：

S5.构建产品与行业匹配后的知识图谱。

2.根据权利要求1所述的基于知识图谱的国民经济行业分类方法，其特征在于，所述步骤S3具体为：

S31.利用hanLP工具对产品文本信息中的关键字进行初步提取；

3.根据权利要求2所述的基于知识图谱的国民经济行业分类方法，其特征在于，所述步骤S32中利用TF-IDF对关键字过滤，表示为：

4.根据权利要求1所述的基于知识图谱的国民经济行业分类方法，其特征在于，所述步骤S4具体为：

5.根据权利要求4所述的基于知识图谱的国民经济行业分类方法，其特征在于，所述步骤S41中基于行业分类架构的评估、关键字的权重规则的匹配，表示为：

其中，INDUSTRY_i和INDUSTRY_j分别表示同一关键字匹配到的不同门类的行业；K_i+1Num表示INDUSTRY_i行业的次级行业中包含这一关键字的行业的数量；K_j+1Num代表INDUSTRY_j行业的次级行业中包含这一关键字的行业的数量；W_i表示INDUSTRY_i与INDUSTRY_j的权重之差。

6.根据权利要求4所述的基于知识图谱的国民经济行业分类方法，其特征在于，所述步骤S41中采用余弦函数计算词向量与行业的相似度，表示为：

7.根据权利要求4所述的基于知识图谱的国民经济行业分类方法，其特征在于，所述步骤S43中的产品包括单关键字类型的产品和双关键字类型的产品，其中双关键字类型的产品进行行业匹配，表示为：

T_i[match(K_i),K_j]，i,j＝1,2&&i！＝j

其中，T_i表示将两个行业进行交叉匹配，得到两个行业中包含对方关键字的行业集合；K_j表示关键字；i,j＝1,2&&i！＝j表示约束条件i,j等于1或者2并且i不等于j；

Target＝match(K1+K2,T_i),i＝1,2

8.根据权利要求7所述的基于知识图谱的国民经济行业分类方法，其特征在于，所述步骤S43中进行模糊匹配还包括语义理解问题，对语义理解问题的匹配，表示为：

Target＝S1∪P2-T1∪T2

9.根据权利要求1所述的基于知识图谱的国民经济行业分类方法，其特征在于，所述步骤S5中构建知识图谱具体为：

S51.构建知识图谱的模式层；

S52.构建是指图谱的数据层。

10.基于知识图谱的国民经济行业分类系统，其特征在于，包括：

构建模块，用于构建产品与行业匹配后的知识图谱。