CN114492425B

CN114492425B - 采用一套领域标签体系将多维度数据打通的方法

Info

Publication number: CN114492425B
Application number: CN202111645228.2A
Authority: CN
Inventors: 彭亮; 冯凯; 王元卓; 贾士杨; 康锐文; 刘冰冰
Original assignee: China Science And Technology Big Data Research Institute
Current assignee: China Science And Technology Big Data Research Institute
Priority date: 2021-12-30
Filing date: 2021-12-30
Publication date: 2023-04-07
Anticipated expiration: 2041-12-30
Also published as: CN114492425A

Abstract

本发明属于数据处理技术领域，具体涉及一种采用一套领域标签体系将多维度数据打通的方法。该方法通过采用一套权威领域标签分类体系。构建领域主题集字典库，并基于字典库对不同维度的数据进行领域标签分类，并从文本数据中抽取技术名词、人物和机构，根据技术、人物、机构相关的已打通领域标签的论文、专利、标准、项目、报告、新闻等维度文本数据，对技术、人物、机构打领域标签，从而将多维度数据打通，能够攻克多维数据领域壁垒，只采用一套领域体系就能完成数据打通，使得对海量多维数据进行检索、推荐、分析、挖掘时更加精准、便捷和高效，为多维数据融合提供有力支撑。

Description

采用一套领域标签体系将多维度数据打通的方法

技术领域

本发明属于数据处理技术领域，具体涉及一种采用一套领域标签体系将多维度数据打通的方法。

背景技术

随着科技的迅猛发展，海量论文、专利、标准、项目、报告、新闻等数据不断涌现，并且从海量数据中能够挖掘出的技术实体、人物实体、机构实体等有价值的信息越来越多。面对海量相关数据的应用市面上涌现出现了一批成熟的网站与平台对于我们的工作与学习提供了很大的帮助。但是目前还存在如下问题：

1、论文、专利、标准、项目、报告、新闻、技术、人才、机构等不同维度的数据缺少一套权威的领域标签分类体系。

2、不同维度数据的领域分类体系不一致，导致无法采用一套领域标签进行检索与推荐以便高效获得该标签下多维的、全面的结果。

3、不同维度数据的领域分类体系不一致，导致综合多维数据进行融合并进行分析与挖掘时难度大，效率低，效果差。

针对以上问题，我们提出了一种采用一套领域标签体系将多维度数据打通的方法，使得对多维海量数据进检索、推荐、分析、挖掘时更加精准、便捷、高效。

发明内容

针对目前不同维度数据所用领域标签不同导致无法统一以及多维数据融合时进行分析与挖掘时难度大、效率低、效果差的缺陷和问题，本发明提供一种采用一套领域标签将多维度数据打通的方法。

本发明解决其技术问题所采用的方案是：一种采用一套领域标签体系将多维度数据打通的方法，包括以下步骤：

步骤一、引入一套权威的领域标签分类体系，并构建领域主题集字典库；

步骤二、基于构建的领域主题集字典库，分别对中文文本数据和英文文本数据打领域标签；

步骤三、从文本数据中抽取技术、人物、机构实体，分别构建机构库、人才库和技术库；

步骤四、根据技术、人物、机构相关的已打通领域标签的文本数据，对技术、人物、机构打领域标签。

上述的采用一套领域标签体系将多维度数据打通的方法，步骤一包括以下步骤：

S1、引入《中华人民共和国学科分类与代码国家标准》作为权威的领域标签分类体系，记为FOS_ZH；

S2、将领域标签分类体系FOS_ZH翻译为英文FOS_EN；

S3、从文本数据中抽取特征词，确定领域主题集，生成中文领域主题集字典库；所述领域主题集为领域及其特征词的集合；所述文本数据包括论文、专利、项目、标准、报告、新闻；

S4、从文本数据中抽取特征词，生成英文领域主题集字典库。

上述的采用一套领域标签体系将多维度数据打通的方法，步骤S3生成中文领域主题集字典库包括以下步骤：

（1）从海量文本数据中抽取出中文数据；

（2）提取每篇中文文本数据的标题、摘要、关键词，将其合并为一个字符串S，对S进行清洗去除特殊符号并将多个空格合并为一个空格；然后使用jieba分词对S进行分词，将分词结果写入文件F_ZH的一行；形成最终所有中文文本的分词结果文件F_ZH；

（3）以文件F_ZH作为输入，使用gensim中的word2vec API 训练word2vec的200维词向量模型，记为M_ZH；

（4）利用M_ZH，使用word2vec分别计算FOS_ZH中每一个研究领域最近似的20个词，作为该研究领域的特征词集合，最终生成中文领域主题集字典库。

上述的采用一套领域标签体系将多维度数据打通的方法，步骤S4生成英文领域主题集字典库包括以下步骤：

（1）从海量文本数据中抽取出英文数据；

（2）提取每篇英文文本的标题、摘要、关键词，将其合并为一个字符串P，对P进行清洗，去除特殊符号，将多个空格合并为一个空格；然后使用NLTK分词对P进行分词，分词结果写入文件F_EN的一行；形成最终所有英文文献的分词结果文件F_EN；

（3）以文件F_EN作为输入，使用gensim中的word2vec API 训练word2vec的200维词向量模型，记为M_EN；

（4）利用M_EN，使用word2vec分别计算FOS_EN中每一个研究领域最近似的20个词，作为该研究领域的特征词集合，最终生成英文领域主题集字典库。

上述的采用一套领域标签体系将多维度数据打通的方法，步骤二中对中文文本数据打领域标签包括以下步骤：

（1）使用jieba分词对中文文本数据进行分词，并计算每一个分词的词频，取词频最高的8个词作为该文本数据的特征词集合V；

（2）V中每一个特征词与中文领域主题集字典库中每一个领域、每一个领域对应的特征词集合内元素一一比对，使用word2vec基于M_ZH模型，分别获取比对的两个词的词向量Vec1、Vec2，计算Vec1、Vec2的相似度；

（3）根据相似度计算结果判断是否属于该研究领域，判断标准为：若V中有3个词在某一个领域中存在余弦相似度计算结果大于0.8的，则认为该文献属于该研究领域；反之则不属于；

（4）对属于该领域的文献打上对应的研究领域标签。

上述的采用一套领域标签体系将多维度数据打通的方法，步骤二中对英文文本数据打领域标签包括以下步骤：

（1）使用NLTK分词对英文文本数据进行分词，并计算每一个分词的词频，取词频最高的8个词作为该文本数据的特征词集合Y；

（2）Y中每一个特征词与英文领域主题集字典库中每一个领域、每一个领域对应的特征词集合内元素一一比对，使用word2vec基于M_EN模型，分别获取比对的两个词的词向量Vec1、Vec2，计算Vec1、Vec2的相似度；

（3）根据相似度计算结果判断是否属于该研究领域，判断标准为：若Y中有3个词在某一个领域中存在余弦相似度计算结果大于0.8的，则认为该文献属于该研究领域；反之则不属于；

（4）对属于该领域的文献打上对应的研究领域标签。

上述的采用一套领域标签体系将多维度数据打通的方法，步骤三包括以下步骤：

S1、从海量文本数据中提取所对应的机构列表，然后将机构的全称、简称、英文名等进行规整，得到机构库；

S2、从海量文本数据中提取人物列表，然后根据人物相关的机构信息、合作网络、研究领域进行人物消歧，得到人才库；

S3、从海量文本数据中抽取技术名词以及技术名词之间的关系，并构建技术库。

上述的采用一套领域标签体系将多维度数据打通的方法，步骤S2中人物消歧方法包括以下步骤：

（1）从中文文本中抽取中文名称的人物列表，然后根据人物的名称、所属机构、合作网络、成果关键词四个维度的相似度进行判断是否为同一个作者，得到中文人名人才库；

（2）从英文文本中抽取英文名称的人物列表，然后根据人物的名称、所属机构、合作网络、成果关键词四个维度的相似度进行判断是否为同一个作者，得到英文人名人才库；

（3）将中文人名人才库中的人名、机构名、合作网络、成果关键词进行英文翻译，从英文人名人才库中匹配相似的数据，若判定为同一人则将中英文的人物进行合并，得到中英融合的人才库。

上述的采用一套领域标准体系将多维度数据打通的方法，步骤S3中采用多头选择机制+sigmoid联合抽取模型从海量文本数据中抽取技术名词以及技术名词之间的关系，并构建技术库；其中联合抽取顺序为先采用BILOU标注，CRF解码抽取技术名词实体，再利用实体边界信息进行关系抽取。

上述的采用一套领域标签体系将多维度数据打通的方法，步骤四包括以下步骤：

S1、根据构建的人才库、机构库、技术库以及海量的不同维度的文本数据，过滤出每个技术、人物、机构相关的数据；

S2、从每个技术、人物、机构相关的数据中，提取根据步骤二已打统一标准体系的领域标签，并进行统计与排序；

S3、根据每个技术、人物、机构所统计的标签结果中，根据数据量设置技术、人物、机构不同的标签个数阈值N，根据标签统计排序结果取topN个标签为技术、人物、机构打领域标签，完成领域标签处理。

本发明的有益效果：本发明通过采用一套权威领域标签分类体系。构建领域主题集字典库，并基于字典库对不同维度的数据进行领域标签分类，并从文本数据中抽取技术名词、人物和机构，根据技术、人物、机构相关的已打通领域标签的论文、专利、标准、项目、报告、新闻等维度文本数据，对技术、人物、机构打领域标签，从而将多维度数据打通，能够攻克多维数据领域壁垒，只采用一套领域体系就能完成数据打通，使得对海量多维数据进行检索、推荐、分析、挖掘时更加精准、便捷和高效，为多维数据融合提供有力支撑。

附图说明

图1为本发明整体流程图。

图2为本发明中文领域主题集字典库生成流程图。

图3为本发明英文领域主题集字典库生成流程图。

图4为本发明中文文本领域打领域标签流程图。

图5为本发明英文文本数据打领域标签流程图。

图6为本发明从不同文本数据中抽取人物、机构、技术名词流程图。

图7为本发明对技术、人物、机构打领域标签流程图。

具体实施方式

针对目前不同维度数据所用领域标签不同导致无法统一以及多维数据融合时进行分析与挖掘时难度大、效率低、效果差的缺陷和问题，本发明提供一种采用一套领域标签将多维度数据打通的方法，该方法首先引入一套权威的领域标签分类体系并构建领域主题集字典库，基于字典库对不同维度的数据进行领域标签分类，打通领域壁垒。下面结合附图和实施例对本发明进一步说明。

实施例1：本实施例提供一种采用一套领域标签体系将多维度数据打通的方法，该方法包括以下步骤：

步骤一、引入一套权威的领域标签分类体系，并构建领域主题集字典库；具体步骤为：

S1、引入《中华人民共和国学科分类与代码国家标准》，简称《学科分类与代码》作为权威的领域标签分类体系，后续的所有领域分类全基于此标准，记为“FOS_ZH”。

S2、本专利针对的论文、专利、项目、标准、新闻、报告以及其他包含中文与英文两种类别的数据，所以在一套领域分类标准下管理中英文数据需要将中文标准翻译为英文。本实施例采用谷歌翻译 + 维基百科的方式将“FOS_ZH”翻译为英文，记为“FOS_EN”。

S3、从文本数据中抽取特征词，确定领域主题集，生成中文领域主题集字典库：其中领域主题集为领域及其特征词的集合，如：“人工智能”领域，其特征词集合为：{“深度学习”，“机器学习”，“神经网络”...}；其特征词需要从论文、专利、标准、项目、新闻等文本数据中抽取；如图2所示，具体步骤如下：

（1）从海量文本数据中抽取出中文数据；

（2）提取每篇中文文本数据的标题、摘要、关键词，并合并为一个字符串，记为S；对S进行清洗，去除特殊符号，多个空格合并为一个空格；然后使用jieba 分词对S进行分词，分词结果写入文件F_ZH的一行，形成最终所有中文文本的分词结果文件F_ZH；

（4）利用M_ZH，使用word2vec分别计算FOS_ZH中每一个研究领域最近似的20个词，即为该研究领域的特征词集合，最终生成中文领域主题集字典库。

S4、生成英文领域主题集字典库，如图3所示，包括以下步骤：

（1）从海量文本数据中抽取出英文文本数据；

（2）提取每篇英文文本的标题、摘要、关键词，并合并为一个字符串，记为P；对P进行清洗，去除特殊符号，多个空格合并为一个空格；然后使用使用NLTK分词对P进行分词，分词结果写入文件F_EN的一行；形成最终所有英文文献的分词结果文件F_EN；

（4）利用M_EN，使用word2vec分别计算FOS_EN中每一个研究领域最近似的20个词，即为该研究领域的特征词集合，最终生成英文领域主题集字典库。

步骤二、基于构建的领域主题集字典库，对论文、专利、标准、项目、报告、新闻等中文文本数据和英文文本数据打领域标签；如图4所示，对中文文本数据打领域标签具体包括以下步骤：

（1）使用jieba分词对中文文本数据进行分词，并计算每一个分词的词频，取词频最高的8个词作为该文本数据的特征词集合，记为V；

（2）V中每一个特征词与中文领域主题集字典库中每一个领域、每一个领域对应的特征词集合内元素一一比对，使用word2vec基于M_ZH模型，分别获取比对的两个词的词向量，记为Vec1、Vec2，利用余弦相似度算法计算Vec1、Vec2两个向量的相似度；

如：V为{A, B}，中文领域主题集字典库中的某一个领域及其特征词集合为：（FOS1，{D, E, F}），则分别计算 A与FOS1，A与D，A与E，A与F，B与FOS1，B与D，B与E，B与F的词向量余弦相似度。余弦相似度范围为[-1, 1]，值越接近1则两个向量越相似，对应的两个词越相似。

余弦相似度公式如下：

（3）根据（2）计算结果判断所属领域，若V中有3个词在某一个领域中存在余弦相似度计算结果大于0.8的，则认为该文献属于该研究领域；

（4）根据所属领域为文献打上研究领域标签，一篇文献可能打上多个领域标签。

对英文文本数据打领域标签，如图5所示，包括以下步骤：

（4）对属于该领域的文献打上对应的研究领域标签。

步骤三、从不同文本数据中抽取机构列表、人物列表以及技术名词分别构建机构库、人才库和技术库；如图6所示，具体步骤如下：

S1、根据论文的作者单位、专利的专利权人、项目的牵头单位、标准的起草单位等信息从海量文本数据中提取机构列表，然后将机构的全称、简称、英文名等进行规整，得到机构库。

S2、根据论文的作者、专利的发明人、项目的负责人以及参与人、标准的主要起草人等信息从海量文本数据中提取人物列表，然后根据人物相关的机构信息、合作网络、研究领域等信息进行人物消歧，得到人才库。其中人物消歧步骤如下：

（1）从中文文本中抽取中文名称的人物列表，然后根据人物的名称、所属机构、合作网络、成果关键词四个维度的相似度进行判断是否为同一个作者，得到中文人名人才库。

（2）从英文文本中抽取英文名称的人物列表，然后采用中文人名消歧相同模型进行消歧，得到英文人名人才库。

S3、采用多头选择机制+sigmoid联合抽取模型从海量文本数据中抽取技术名词以及技术名词之间的关系，并构建技术库；

其中联合抽取顺序为先抽取技术名词实体，再利用实体边界信息进行关系抽取。技术名词实体抽采用BILOU标注，CRF解码；技术名词关系抽取采用sigmoid进行多头选择。对于含n个token的句子，可能构成的关系组合共有 n*r*n个，其中r为关系总数，即当前token会有多个头的关系组合：

该方法直接通过token的编码表示进入sigmoid layer直接构建多头选择。引入实体识别后的entity label embedding进行关系抽取，训练时采用gold label，推断时采用predict label。在三元组统一解码时，利用实体边界信息组建三元组。

步骤四、根据技术、人物、机构相关的已打通领域标签的论文、专利、标准、项目、报告、新闻等维度文本数据，对技术、人物、机构打领域标签；如图7所示，具体包括以下步骤：

S1、根据构建的人才库、机构库、技术库以及海量的不同维度的文本数据，过滤出每个技术、人物、机构相关的数据。例如过滤出张三的相关数据论文a篇，专利b篇，项目c项，新闻d篇。

S2、从每个技术、人物、机构相关的数据中，提取根据步骤二已打统一标准体系的领域标签，并进行统计与排序。例如，从已经进行消歧的人物张三相关的论文、专利、项目、标准等数据中统计的标签情况如{“人工智能”：25，“计算机软件”:19，“计算数学”:16，.......，“生物化学”:1，“园艺学”：1}。

S3、根据每个技术、人物、机构所统计的标签结果中，根据数据量设置技术、人物、机构不同的标签个数阈值N，根据标签统计排序结果取topN个标签为技术、人物、机构打领域标签，完成领域标签处理。按照步骤S2的例子，若取top3的话，则给张三打的标签为人工智能、计算机软件、计算数学。

本发明通过上述过程能够将多维度数据打通，使得对海量多维数据进行检索、推荐、分析、挖掘时精准、便捷、高效。

Claims

1.一种采用一套领域标签体系将多维度数据打通的方法，其特征在于：包括以下步骤：

步骤一、引入一套权威的领域标签分类体系，并构建领域主题集字典库；包括以下步骤：

S2、将领域标签分类体系FOS_ZH翻译为英文FOS_EN；

其中：生成中文领域主题集字典库包括以下步骤：

（1）从海量文本数据中抽取出中文数据；

（4）利用M_ZH，使用word2vec分别计算FOS_ZH中每一个研究领域最近似的20个词，作为该研究领域的特征词集合，最终生成中文领域主题集字典库；

S4、从文本数据中抽取特征词，生成英文领域主题集字典库，具体包括以下步骤：

（1）从海量文本数据中抽取出英文数据；

（4）利用M_EN，使用word2vec分别计算FOS_EN中每一个研究领域最近似的20个词，作为该研究领域的特征词集合，最终生成英文领域主题集字典库；

步骤二、基于构建的领域主题集字典库，分别对中文文本数据和英文文本数据打领域标签；其中对中文文本数据打领域标签包括以下步骤：

（4）对属于该领域的文献打上对应的研究领域标签；

对英文文本数据打领域标签包括以下步骤：

（4）对属于该领域的文献打上对应的研究领域标签；

步骤三、从文本数据中抽取技术、人物、机构实体，分别构建机构库、人才库和技术库；具体包括以下步骤：

S2、从海量文本数据中提取人物列表，然后根据人物相关的机构信息、合作网络、研究领域进行人物消歧，得到人才库；其中人物消歧方法包括以下步骤：

（3）将中文人名人才库中的人名、机构名、合作网络、成果关键词进行英文翻译，从英文人名人才库中匹配相似的数据，若判定为同一人则将中英文的人物进行合并，得到中英融合的人才库；

S3、从海量文本数据中抽取技术名词以及技术名词之间的关系，并构建技术库；

步骤四、根据技术、人物、机构相关的已打通领域标签的文本数据，对技术、人物、机构打领域标签；具体包括以下步骤：

S3、根据每个技术、人物、机构所统计的标签结果中，根据数据量设置技术、人物、机构不同的标签个数阈值N，根据标签统计排序结果取topN个标签为技术、人物、机构打领域标签。

2.根据权利要求1所述的采用一套领域标签体系将多维度数据打通的方法，其特征在于：步骤三中步骤S3中采用多头选择机制+sigmoid联合抽取模型从海量文本数据中抽取技术名词以及技术名词之间的关系，并构建技术库；其中联合抽取顺序为先采用BILOU标注，CRF解码抽取技术名词实体，再利用实体边界信息进行关系抽取。