CN114492425B - 采用一套领域标签体系将多维度数据打通的方法 - Google Patents
采用一套领域标签体系将多维度数据打通的方法 Download PDFInfo
- Publication number
- CN114492425B CN114492425B CN202111645228.2A CN202111645228A CN114492425B CN 114492425 B CN114492425 B CN 114492425B CN 202111645228 A CN202111645228 A CN 202111645228A CN 114492425 B CN114492425 B CN 114492425B
- Authority
- CN
- China
- Prior art keywords
- field
- text data
- english
- data
- library
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000007246 mechanism Effects 0.000 claims abstract description 48
- 238000005516 engineering process Methods 0.000 claims abstract description 33
- 230000011218 segmentation Effects 0.000 claims description 35
- 238000011160 research Methods 0.000 claims description 32
- 239000013598 vector Substances 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 11
- 230000008520 organization Effects 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 7
- 238000004140 cleaning Methods 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 6
- 238000013519 translation Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 abstract description 5
- 238000005065 mining Methods 0.000 abstract description 4
- 238000012545 processing Methods 0.000 abstract description 4
- 230000004927 fusion Effects 0.000 abstract description 3
- 230000004888 barrier function Effects 0.000 abstract description 2
- 238000004080 punching Methods 0.000 abstract description 2
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 101150108706 FOS1 gene Proteins 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 101100174180 Caenorhabditis elegans fos-1 gene Proteins 0.000 description 1
- 101100261006 Salmonella typhi topB gene Proteins 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 238000003898 horticulture Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 101150032437 top-3 gene Proteins 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于数据处理技术领域,具体涉及一种采用一套领域标签体系将多维度数据打通的方法。该方法通过采用一套权威领域标签分类体系。构建领域主题集字典库,并基于字典库对不同维度的数据进行领域标签分类,并从文本数据中抽取技术名词、人物和机构,根据技术、人物、机构相关的已打通领域标签的论文、专利、标准、项目、报告、新闻等维度文本数据,对技术、人物、机构打领域标签,从而将多维度数据打通,能够攻克多维数据领域壁垒,只采用一套领域体系就能完成数据打通,使得对海量多维数据进行检索、推荐、分析、挖掘时更加精准、便捷和高效,为多维数据融合提供有力支撑。
Description
技术领域
本发明属于数据处理技术领域,具体涉及一种采用一套领域标签体系将多维度数据打通的方法。
背景技术
随着科技的迅猛发展,海量论文、专利、标准、项目、报告、新闻等数据不断涌现,并且从海量数据中能够挖掘出的技术实体、人物实体、机构实体等有价值的信息越来越多。面对海量相关数据的应用市面上涌现出现了一批成熟的网站与平台对于我们的工作与学习提供了很大的帮助。但是目前还存在如下问题:
1、论文、专利、标准、项目、报告、新闻、技术、人才、机构等不同维度的数据缺少一套权威的领域标签分类体系。
2、不同维度数据的领域分类体系不一致,导致无法采用一套领域标签进行检索与推荐以便高效获得该标签下多维的、全面的结果。
3、不同维度数据的领域分类体系不一致,导致综合多维数据进行融合并进行分析与挖掘时难度大,效率低,效果差。
针对以上问题,我们提出了一种采用一套领域标签体系将多维度数据打通的方法,使得对多维海量数据进检索、推荐、分析、挖掘时更加精准、便捷、高效。
发明内容
针对目前不同维度数据所用领域标签不同导致无法统一以及多维数据融合时进行分析与挖掘时难度大、效率低、效果差的缺陷和问题,本发明提供一种采用一套领域标签将多维度数据打通的方法。
本发明解决其技术问题所采用的方案是:一种采用一套领域标签体系将多维度数据打通的方法,包括以下步骤:
步骤一、引入一套权威的领域标签分类体系,并构建领域主题集字典库;
步骤二、基于构建的领域主题集字典库,分别对中文文本数据和英文文本数据打领域标签;
步骤三、从文本数据中抽取技术、人物、机构实体,分别构建机构库、人才库和技术库;
步骤四、根据技术、人物、机构相关的已打通领域标签的文本数据,对技术、人物、机构打领域标签。
上述的采用一套领域标签体系将多维度数据打通的方法,步骤一包括以下步骤:
S1、引入《中华人民共和国学科分类与代码国家标准》作为权威的领域标签分类体系,记为FOS_ZH;
S2、将领域标签分类体系FOS_ZH翻译为英文FOS_EN;
S3、从文本数据中抽取特征词,确定领域主题集,生成中文领域主题集字典库;所述领域主题集为领域及其特征词的集合;所述文本数据包括论文、专利、项目、标准、报告、新闻;
S4、从文本数据中抽取特征词,生成英文领域主题集字典库。
上述的采用一套领域标签体系将多维度数据打通的方法,步骤S3生成中文领域主题集字典库包括以下步骤:
(1)从海量文本数据中抽取出中文数据;
(2)提取每篇中文文本数据的标题、摘要、关键词,将其合并为一个字符串S,对S进行清洗去除特殊符号并将多个空格合并为一个空格;然后使用jieba分词对S进行分词,将分词结果写入文件F_ZH的一行;形成最终所有中文文本的分词结果文件F_ZH;
(3)以文件F_ZH作为输入,使用gensim中的word2vec API 训练word2vec的200维词向量模型,记为M_ZH;
(4)利用M_ZH,使用word2vec分别计算FOS_ZH中每一个研究领域最近似的20个词,作为该研究领域的特征词集合,最终生成中文领域主题集字典库。
上述的采用一套领域标签体系将多维度数据打通的方法,步骤S4生成英文领域主题集字典库包括以下步骤:
(1)从海量文本数据中抽取出英文数据;
(2)提取每篇英文文本的标题、摘要、关键词,将其合并为一个字符串P,对P进行清洗,去除特殊符号,将多个空格合并为一个空格;然后使用NLTK分词对P进行分词,分词结果写入文件F_EN的一行;形成最终所有英文文献的分词结果文件F_EN;
(3)以文件F_EN作为输入,使用gensim中的word2vec API 训练word2vec的200维词向量模型,记为M_EN;
(4)利用M_EN,使用word2vec分别计算FOS_EN中每一个研究领域最近似的20个词,作为该研究领域的特征词集合,最终生成英文领域主题集字典库。
上述的采用一套领域标签体系将多维度数据打通的方法,步骤二中对中文文本数据打领域标签包括以下步骤:
(1)使用jieba分词对中文文本数据进行分词,并计算每一个分词的词频,取词频最高的8个词作为该文本数据的特征词集合V;
(2)V中每一个特征词与中文领域主题集字典库中每一个领域、每一个领域对应的特征词集合内元素一一比对,使用word2vec基于M_ZH模型,分别获取比对的两个词的词向量Vec1、Vec2,计算Vec1、Vec2的相似度;
(3)根据相似度计算结果判断是否属于该研究领域,判断标准为:若V中有3个词在某一个领域中存在余弦相似度计算结果大于0.8的,则认为该文献属于该研究领域;反之则不属于;
(4)对属于该领域的文献打上对应的研究领域标签。
上述的采用一套领域标签体系将多维度数据打通的方法,步骤二中对英文文本数据打领域标签包括以下步骤:
(1)使用NLTK分词对英文文本数据进行分词,并计算每一个分词的词频,取词频最高的8个词作为该文本数据的特征词集合Y;
(2)Y中每一个特征词与英文领域主题集字典库中每一个领域、每一个领域对应的特征词集合内元素一一比对,使用word2vec基于M_EN模型,分别获取比对的两个词的词向量Vec1、Vec2,计算Vec1、Vec2的相似度;
(3)根据相似度计算结果判断是否属于该研究领域,判断标准为:若Y中有3个词在某一个领域中存在余弦相似度计算结果大于0.8的,则认为该文献属于该研究领域;反之则不属于;
(4) 对属于该领域的文献打上对应的研究领域标签。
上述的采用一套领域标签体系将多维度数据打通的方法,步骤三包括以下步骤:
S1、从海量文本数据中提取所对应的机构列表,然后将机构的全称、简称、英文名等进行规整,得到机构库;
S2、从海量文本数据中提取人物列表,然后根据人物相关的机构信息、合作网络、研究领域进行人物消歧,得到人才库;
S3、从海量文本数据中抽取技术名词以及技术名词之间的关系,并构建技术库。
上述的采用一套领域标签体系将多维度数据打通的方法,步骤S2中人物消歧方法包括以下步骤:
(1)从中文文本中抽取中文名称的人物列表,然后根据人物的名称、所属机构、合作网络、成果关键词四个维度的相似度进行判断是否为同一个作者,得到中文人名人才库;
(2)从英文文本中抽取英文名称的人物列表,然后根据人物的名称、所属机构、合作网络、成果关键词四个维度的相似度进行判断是否为同一个作者,得到英文人名人才库;
(3)将中文人名人才库中的人名、机构名、合作网络、成果关键词进行英文翻译,从英文人名人才库中匹配相似的数据,若判定为同一人则将中英文的人物进行合并,得到中英融合的人才库。
上述的采用一套领域标准体系将多维度数据打通的方法,步骤S3中采用多头选择机制+sigmoid联合抽取模型从海量文本数据中抽取技术名词以及技术名词之间的关系,并构建技术库;其中联合抽取顺序为先采用BILOU标注,CRF解码抽取技术名词实体,再利用实体边界信息进行关系抽取。
上述的采用一套领域标签体系将多维度数据打通的方法,步骤四包括以下步骤:
S1、根据构建的人才库、机构库、技术库以及海量的不同维度的文本数据,过滤出每个技术、人物、机构相关的数据;
S2、从每个技术、人物、机构相关的数据中,提取根据步骤二已打统一标准体系的领域标签,并进行统计与排序;
S3、根据每个技术、人物、机构所统计的标签结果中,根据数据量设置技术、人物、机构不同的标签个数阈值N,根据标签统计排序结果取topN个标签为技术、人物、机构打领域标签,完成领域标签处理。
本发明的有益效果:本发明通过采用一套权威领域标签分类体系。构建领域主题集字典库,并基于字典库对不同维度的数据进行领域标签分类,并从文本数据中抽取技术名词、人物和机构,根据技术、人物、机构相关的已打通领域标签的论文、专利、标准、项目、报告、新闻等维度文本数据,对技术、人物、机构打领域标签,从而将多维度数据打通,能够攻克多维数据领域壁垒,只采用一套领域体系就能完成数据打通,使得对海量多维数据进行检索、推荐、分析、挖掘时更加精准、便捷和高效,为多维数据融合提供有力支撑。
附图说明
图1为本发明整体流程图。
图2为本发明中文领域主题集字典库生成流程图。
图3为本发明英文领域主题集字典库生成流程图。
图4为本发明中文文本领域打领域标签流程图。
图5为本发明英文文本数据打领域标签流程图。
图6为本发明从不同文本数据中抽取人物、机构、技术名词流程图。
图7为本发明对技术、人物、机构打领域标签流程图。
具体实施方式
针对目前不同维度数据所用领域标签不同导致无法统一以及多维数据融合时进行分析与挖掘时难度大、效率低、效果差的缺陷和问题,本发明提供一种采用一套领域标签将多维度数据打通的方法,该方法首先引入一套权威的领域标签分类体系并构建领域主题集字典库,基于字典库对不同维度的数据进行领域标签分类,打通领域壁垒。下面结合附图和实施例对本发明进一步说明。
实施例1:本实施例提供一种采用一套领域标签体系将多维度数据打通的方法,该方法包括以下步骤:
步骤一、引入一套权威的领域标签分类体系,并构建领域主题集字典库;具体步骤为:
S1、引入《中华人民共和国学科分类与代码国家标准》,简称《学科分类与代码》作为权威的领域标签分类体系,后续的所有领域分类全基于此标准,记为“FOS_ZH”。
S2、本专利针对的论文、专利、项目、标准、新闻、报告以及其他包含中文与英文两种类别的数据,所以在一套领域分类标准下管理中英文数据需要将中文标准翻译为英文。本实施例采用谷歌翻译 + 维基百科的方式将“FOS_ZH”翻译为英文,记为“FOS_EN”。
S3、从文本数据中抽取特征词,确定领域主题集,生成中文领域主题集字典库:其中领域主题集为领域及其特征词的集合,如:“人工智能”领域,其特征词集合为:{“深度学习”,“机器学习”,“神经网络”...};其特征词需要从论文、专利、标准、项目、新闻等文本数据中抽取;如图2所示,具体步骤如下:
(1)从海量文本数据中抽取出中文数据;
(2)提取每篇中文文本数据的标题、摘要、关键词,并合并为一个字符串,记为S;对S进行清洗,去除特殊符号,多个空格合并为一个空格;然后使用jieba 分词对S进行分词,分词结果写入文件F_ZH的一行,形成最终所有中文文本的分词结果文件F_ZH;
(3)以文件F_ZH作为输入,使用gensim中的word2vec API 训练word2vec的200维词向量模型,记为M_ZH;
(4)利用M_ZH,使用word2vec分别计算FOS_ZH中每一个研究领域最近似的20个词,即为该研究领域的特征词集合,最终生成中文领域主题集字典库。
S4、生成英文领域主题集字典库,如图3所示,包括以下步骤:
(1)从海量文本数据中抽取出英文文本数据;
(2)提取每篇英文文本的标题、摘要、关键词,并合并为一个字符串,记为P;对P进行清洗,去除特殊符号,多个空格合并为一个空格;然后使用使用NLTK分词对P进行分词,分词结果写入文件F_EN的一行;形成最终所有英文文献的分词结果文件F_EN;
(3)以文件F_EN作为输入,使用gensim中的word2vec API 训练word2vec的200维词向量模型,记为M_EN;
(4)利用M_EN,使用word2vec分别计算FOS_EN中每一个研究领域最近似的20个词,即为该研究领域的特征词集合,最终生成英文领域主题集字典库。
步骤二、基于构建的领域主题集字典库,对论文、专利、标准、项目、报告、新闻等中文文本数据和英文文本数据打领域标签;如图4所示,对中文文本数据打领域标签具体包括以下步骤:
(1)使用jieba分词对中文文本数据进行分词,并计算每一个分词的词频,取词频最高的8个词作为该文本数据的特征词集合,记为V;
(2)V中每一个特征词与中文领域主题集字典库中每一个领域、每一个领域对应的特征词集合内元素一一比对,使用word2vec基于M_ZH模型,分别获取比对的两个词的词向量,记为Vec1、Vec2,利用余弦相似度算法计算Vec1、Vec2两个向量的相似度;
如:V为{A, B},中文领域主题集字典库中的某一个领域及其特征词集合为:(FOS1,{D, E, F}),则分别计算 A与FOS1,A与D,A与E,A与F,B与FOS1,B与D,B与E,B与F的词向量余弦相似度。余弦相似度范围为[-1, 1],值越接近1则两个向量越相似,对应的两个词越相似。
余弦相似度公式如下:
(3)根据(2)计算结果判断所属领域,若V中有3个词在某一个领域中存在余弦相似度计算结果大于0.8的,则认为该文献属于该研究领域;
(4)根据所属领域为文献打上研究领域标签,一篇文献可能打上多个领域标签。
对英文文本数据打领域标签,如图5所示,包括以下步骤:
(1)使用NLTK分词对英文文本数据进行分词,并计算每一个分词的词频,取词频最高的8个词作为该文本数据的特征词集合Y;
(2)Y中每一个特征词与英文领域主题集字典库中每一个领域、每一个领域对应的特征词集合内元素一一比对,使用word2vec基于M_EN模型,分别获取比对的两个词的词向量Vec1、Vec2,计算Vec1、Vec2的相似度;
(3)根据相似度计算结果判断是否属于该研究领域,判断标准为:若Y中有3个词在某一个领域中存在余弦相似度计算结果大于0.8的,则认为该文献属于该研究领域;反之则不属于;
(4)对属于该领域的文献打上对应的研究领域标签。
步骤三、从不同文本数据中抽取机构列表、人物列表以及技术名词分别构建机构库、人才库和技术库;如图6所示,具体步骤如下:
S1、根据论文的作者单位、专利的专利权人、项目的牵头单位、标准的起草单位等信息从海量文本数据中提取机构列表,然后将机构的全称、简称、英文名等进行规整,得到机构库。
S2、根据论文的作者、专利的发明人、项目的负责人以及参与人、标准的主要起草人等信息从海量文本数据中提取人物列表,然后根据人物相关的机构信息、合作网络、研究领域等信息进行人物消歧,得到人才库。其中人物消歧步骤如下:
(1)从中文文本中抽取中文名称的人物列表,然后根据人物的名称、所属机构、合作网络、成果关键词四个维度的相似度进行判断是否为同一个作者,得到中文人名人才库。
(2)从英文文本中抽取英文名称的人物列表,然后采用中文人名消歧相同模型进行消歧,得到英文人名人才库。
(3)将中文人名人才库中的人名、机构名、合作网络、成果关键词进行英文翻译,从英文人名人才库中匹配相似的数据,若判定为同一人则将中英文的人物进行合并,得到中英融合的人才库。
S3、采用多头选择机制+sigmoid联合抽取模型从海量文本数据中抽取技术名词以及技术名词之间的关系,并构建技术库;
其中联合抽取顺序为先抽取技术名词实体,再利用实体边界信息进行关系抽取。技术名词实体抽采用BILOU标注,CRF解码;技术名词关系抽取采用sigmoid进行多头选择。对于含n个token的句子,可能构成的关系组合共有 n*r*n个,其中r为关系总数,即当前token会有多个头的关系组合:
该方法直接通过token的编码表示进入sigmoid layer直接构建多头选择。引入实体识别后的entity label embedding进行关系抽取,训练时采用gold label,推断时采用predict label。在三元组统一解码时,利用实体边界信息组建三元组。
步骤四、根据技术、人物、机构相关的已打通领域标签的论文、专利、标准、项目、报告、新闻等维度文本数据,对技术、人物、机构打领域标签;如图7所示,具体包括以下步骤:
S1、根据构建的人才库、机构库、技术库以及海量的不同维度的文本数据,过滤出每个技术、人物、机构相关的数据。例如过滤出张三的相关数据论文a篇,专利b篇,项目c项,新闻d篇。
S2、从每个技术、人物、机构相关的数据中,提取根据步骤二已打统一标准体系的领域标签,并进行统计与排序。例如,从已经进行消歧的人物张三相关的论文、专利、项目、标准等数据中统计的标签情况如{“人工智能”:25,“计算机软件”:19,“计算数学”:16,.......,“生物化学”:1,“园艺学”:1}。
S3、根据每个技术、人物、机构所统计的标签结果中,根据数据量设置技术、人物、机构不同的标签个数阈值N,根据标签统计排序结果取topN个标签为技术、人物、机构打领域标签,完成领域标签处理。按照步骤S2的例子,若取top3的话,则给张三打的标签为人工智能、计算机软件、计算数学。
本发明通过上述过程能够将多维度数据打通,使得对海量多维数据进行检索、推荐、分析、挖掘时精准、便捷、高效。
Claims (2)
1.一种采用一套领域标签体系将多维度数据打通的方法,其特征在于:包括以下步骤:
步骤一、引入一套权威的领域标签分类体系,并构建领域主题集字典库;包括以下步骤:
S1、引入《中华人民共和国学科分类与代码国家标准》作为权威的领域标签分类体系,记为FOS_ZH;
S2、将领域标签分类体系FOS_ZH翻译为英文FOS_EN;
S3、从文本数据中抽取特征词,确定领域主题集,生成中文领域主题集字典库;所述领域主题集为领域及其特征词的集合;所述文本数据包括论文、专利、项目、标准、报告、新闻;
其中:生成中文领域主题集字典库包括以下步骤:
(1)从海量文本数据中抽取出中文数据;
(2)提取每篇中文文本数据的标题、摘要、关键词,将其合并为一个字符串S,对S进行清洗去除特殊符号并将多个空格合并为一个空格;然后使用jieba分词对S进行分词,将分词结果写入文件F_ZH的一行;形成最终所有中文文本的分词结果文件F_ZH;
(3)以文件F_ZH作为输入,使用gensim中的word2vec API 训练word2vec的200维词向量模型,记为M_ZH;
(4)利用M_ZH,使用word2vec分别计算FOS_ZH中每一个研究领域最近似的20个词,作为该研究领域的特征词集合,最终生成中文领域主题集字典库;
S4、从文本数据中抽取特征词,生成英文领域主题集字典库,具体包括以下步骤:
(1)从海量文本数据中抽取出英文数据;
(2)提取每篇英文文本的标题、摘要、关键词,将其合并为一个字符串P,对P进行清洗,去除特殊符号,将多个空格合并为一个空格;然后使用NLTK分词对P进行分词,分词结果写入文件F_EN的一行;形成最终所有英文文献的分词结果文件F_EN;
(3)以文件F_EN作为输入,使用gensim中的word2vec API 训练word2vec的200维词向量模型,记为M_EN;
(4)利用M_EN,使用word2vec分别计算FOS_EN中每一个研究领域最近似的20个词,作为该研究领域的特征词集合,最终生成英文领域主题集字典库;
步骤二、基于构建的领域主题集字典库,分别对中文文本数据和英文文本数据打领域标签;其中对中文文本数据打领域标签包括以下步骤:
(1)使用jieba分词对中文文本数据进行分词,并计算每一个分词的词频,取词频最高的8个词作为该文本数据的特征词集合V;
(2)V中每一个特征词与中文领域主题集字典库中每一个领域、每一个领域对应的特征词集合内元素一一比对,使用word2vec基于M_ZH模型,分别获取比对的两个词的词向量Vec1、Vec2,计算Vec1、Vec2的相似度;
(3)根据相似度计算结果判断是否属于该研究领域,判断标准为:若V中有3个词在某一个领域中存在余弦相似度计算结果大于0.8的,则认为该文献属于该研究领域;反之则不属于;
(4)对属于该领域的文献打上对应的研究领域标签;
对英文文本数据打领域标签包括以下步骤:
(1)使用NLTK分词对英文文本数据进行分词,并计算每一个分词的词频,取词频最高的8个词作为该文本数据的特征词集合Y;
(2)Y中每一个特征词与英文领域主题集字典库中每一个领域、每一个领域对应的特征词集合内元素一一比对,使用word2vec基于M_EN模型,分别获取比对的两个词的词向量Vec1、Vec2,计算Vec1、Vec2的相似度;
(3)根据相似度计算结果判断是否属于该研究领域,判断标准为:若Y中有3个词在某一个领域中存在余弦相似度计算结果大于0.8的,则认为该文献属于该研究领域;反之则不属于;
(4)对属于该领域的文献打上对应的研究领域标签;
步骤三、从文本数据中抽取技术、人物、机构实体,分别构建机构库、人才库和技术库;具体包括以下步骤:
S1、从海量文本数据中提取所对应的机构列表,然后将机构的全称、简称、英文名等进行规整,得到机构库;
S2、从海量文本数据中提取人物列表,然后根据人物相关的机构信息、合作网络、研究领域进行人物消歧,得到人才库;其中人物消歧方法包括以下步骤:
(1)从中文文本中抽取中文名称的人物列表,然后根据人物的名称、所属机构、合作网络、成果关键词四个维度的相似度进行判断是否为同一个作者,得到中文人名人才库;
(2)从英文文本中抽取英文名称的人物列表,然后根据人物的名称、所属机构、合作网络、成果关键词四个维度的相似度进行判断是否为同一个作者,得到英文人名人才库;
(3)将中文人名人才库中的人名、机构名、合作网络、成果关键词进行英文翻译,从英文人名人才库中匹配相似的数据,若判定为同一人则将中英文的人物进行合并,得到中英融合的人才库;
S3、从海量文本数据中抽取技术名词以及技术名词之间的关系,并构建技术库;
步骤四、根据技术、人物、机构相关的已打通领域标签的文本数据,对技术、人物、机构打领域标签;具体包括以下步骤:
S1、根据构建的人才库、机构库、技术库以及海量的不同维度的文本数据,过滤出每个技术、人物、机构相关的数据;
S2、从每个技术、人物、机构相关的数据中,提取根据步骤二已打统一标准体系的领域标签,并进行统计与排序;
S3、根据每个技术、人物、机构所统计的标签结果中,根据数据量设置技术、人物、机构不同的标签个数阈值N,根据标签统计排序结果取topN个标签为技术、人物、机构打领域标签。
2.根据权利要求1所述的采用一套领域标签体系将多维度数据打通的方法,其特征在于:步骤三中步骤S3中采用多头选择机制+sigmoid联合抽取模型从海量文本数据中抽取技术名词以及技术名词之间的关系,并构建技术库;其中联合抽取顺序为先采用BILOU标注,CRF解码抽取技术名词实体,再利用实体边界信息进行关系抽取。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111645228.2A CN114492425B (zh) | 2021-12-30 | 2021-12-30 | 采用一套领域标签体系将多维度数据打通的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111645228.2A CN114492425B (zh) | 2021-12-30 | 2021-12-30 | 采用一套领域标签体系将多维度数据打通的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114492425A CN114492425A (zh) | 2022-05-13 |
CN114492425B true CN114492425B (zh) | 2023-04-07 |
Family
ID=81507580
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111645228.2A Active CN114492425B (zh) | 2021-12-30 | 2021-12-30 | 采用一套领域标签体系将多维度数据打通的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114492425B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114840677B (zh) * | 2022-07-04 | 2022-10-11 | 南京华飞数据技术有限公司 | 面向多粒度需求的短文本分类与智能分析方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111737495A (zh) * | 2020-06-28 | 2020-10-02 | 福州数据技术研究院有限公司 | 基于领域自分类的中高端人才智能推荐系统及其方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105677640A (zh) * | 2016-01-08 | 2016-06-15 | 中国科学院计算技术研究所 | 一种面向开放文本的领域概念抽取方法 |
CN107391485A (zh) * | 2017-07-18 | 2017-11-24 | 中译语通科技(北京)有限公司 | 基于最大熵和神经网络模型的韩语命名实体识别方法 |
CN108399228B (zh) * | 2018-02-12 | 2020-11-13 | 平安科技(深圳)有限公司 | 文章分类方法、装置、计算机设备及存储介质 |
CN110543564B (zh) * | 2019-08-23 | 2023-06-20 | 北京信息科技大学 | 基于主题模型的领域标签获取方法 |
CN112632282B (zh) * | 2020-12-30 | 2021-11-19 | 中科院计算技术研究所大数据研究院 | 一种中英文论文数据分类与查询方法 |
CN113553429B (zh) * | 2021-07-07 | 2023-09-29 | 北京计算机技术及应用研究所 | 一种规范化标签体系构建及文本自动标注方法 |
-
2021
- 2021-12-30 CN CN202111645228.2A patent/CN114492425B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111737495A (zh) * | 2020-06-28 | 2020-10-02 | 福州数据技术研究院有限公司 | 基于领域自分类的中高端人才智能推荐系统及其方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114492425A (zh) | 2022-05-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mathur et al. | Detecting offensive tweets in hindi-english code-switched language | |
CN110362674B (zh) | 一种基于卷积神经网络的微博新闻摘要抽取式生成方法 | |
CN112818093B (zh) | 基于语义匹配的证据文档检索方法、系统及存储介质 | |
CN111291188B (zh) | 一种智能信息抽取方法及系统 | |
Bisandu et al. | Clustering news articles using efficient similarity measure and N-grams | |
CN105893485B (zh) | 一种基于图书目录的专题自动生成方法 | |
CN113569050B (zh) | 基于深度学习的政务领域知识图谱自动化构建方法和装置 | |
CN110489745B (zh) | 基于引文网络的论文文本相似性的检测方法 | |
Paaß et al. | Machine learning for document structure recognition | |
CN113282729B (zh) | 基于知识图谱的问答方法及装置 | |
CN111061939A (zh) | 基于深度学习的科研学术新闻关键字匹配推荐方法 | |
CN112926340A (zh) | 一种用于知识点定位的语义匹配模型 | |
CN114861082A (zh) | 一种基于多维度语义表示的攻击性评论检测方法 | |
Meddeb et al. | Using topic modeling and word embedding for topic extraction in Twitter | |
CN114492425B (zh) | 采用一套领域标签体系将多维度数据打通的方法 | |
CN115618014A (zh) | 一种应用大数据技术的标准文献分析管理系统及方法 | |
Du et al. | A convolutional attentional neural network for sentiment classification | |
CN114491033A (zh) | 一种基于词向量和主题模型的用户兴趣模型构建的方法 | |
Sari et al. | A search engine for Arabic documents | |
Ye et al. | Syntactic word embedding based on dependency syntax and polysemous analysis | |
CN112749566B (zh) | 一种面向英文写作辅助的语义匹配方法及装置 | |
Al-Sultany et al. | Enriching tweets for topic modeling via linking to the wikipedia | |
CN114328488B (zh) | 一种中英文文献作者姓名融合消歧方法 | |
CN116166792A (zh) | 一种基于模板的中文隐私政策摘要生成方法和装置 | |
CN114996455A (zh) | 一种基于双知识图谱的新闻标题短文本分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
OL01 | Intention to license declared | ||
OL01 | Intention to license declared |