CN111079419A

CN111079419A - 一种基于大数据的国防科技热词发现方法及系统

Info

Publication number: CN111079419A
Application number: CN201911189154.9A
Authority: CN
Inventors: 田昌海; 罗威; 赵超阳; 谭玉珊; 罗准辰; 武帅; 毛彬; 叶宇铭; 宋宇
Original assignee: Military Science Information Research Center Of Military Academy Of Chinese Pla
Current assignee: Military Science Information Research Center Of Military Academy Of Chinese Pla
Priority date: 2019-11-28
Filing date: 2019-11-28
Publication date: 2020-04-28
Anticipated expiration: 2039-11-28
Also published as: CN111079419B

Abstract

本发明公开了一种基于大数据的国防科技热词发现方法及系统，所述方法包括：将特定时间段内的新闻动态文本，输入预先建立的基于CRF的中文国防科技术语抽取模型，输出国防科技热词候选集合；通过牛顿冷切法对所述国防科技热词候选集合中的国防科技术语进行热度排序，输出国防科技热词集合；将国防科技热词集合输入预先建立的国防科技热词分类模型，输出国防科技热词类别信息。本发明综合运用术语抽取、热词排序、实体分类等技术，首次提出了一种面向国防科技领域的热词发现方法，结果表明，该方法可以有效地挖掘出中文动态新闻出现的国防科技热词，有助于研究人员及时跟踪把握国防科技领域最新的热点和重点知识线索。

Description

一种基于大数据的国防科技热词发现方法及系统

技术领域

本发明涉及自然语言处理技术领域，尤其涉及信息抽取技术领域，具体涉及一种基于大数据的国防科技热词发现方法及系统。

背景技术

传统的术语抽取方法大体上可以概况为三类：(1)基于规则的方法。主要基于一些语言学知识归纳总结出术语的匹配规则模式，如FASTR系统、Terms系统等，该方法的优点是实现起来简单而且识别的准确率较高，但是术语的匹配规则需要人工归纳总结，费时费力，而且很容易存在规则覆盖不全造成漏识问题；(2)基于统计学的方法。一种是无监督的统计方法，完全依靠词频、似然比、互信息、信息熵等统计量进行计算从而过滤出满足规定阈值的术语，该方法的的缺点是对统计语料的规模和质量要求较高，而且对低频和高频术语的领域性识别效果不好。另一种是有监督的统计机器学习方法，该方法是利用已标注的语料通过机器学习的方法训练术语抽取模型，常见的模型包括隐马尔科夫模型、条件随机场模型等，该方法总体识别效果优于无监督的方法，但是依赖于大量的语料标注，对标注的质量要求较高。(3)规则和统计相结合的方法，将两者结合起来，希望达到取长补短的效果。条件随机场(CRF)是一种基于统计的序列标注识别模型，由John Laferty等人在2001年首次提出。CRF模型的优点是较好地解决了最大熵马尔科夫模型和其他“生成”模型所存在的标注偏置问题，同事它具有表达元素长距离依赖性和交叠性特征的能力，是目前较为主流的术语抽取工具。

随着国防科技信息的大规模快速增长，各种特定应用、特定群体下涉及到的新概念、新技术、新装备等词条不断被创造出来。快速、全面、有效地发现和识别国防科技信息中的这些热度较高的词条，有助于研究人员及时跟踪把握当前国防科技领域的最新的热点和重点知识线索，为国防科技领域的知识挖掘提供有力支撑。国防科技热词关注的是领域相关的、有一定意义的名词性短语，而术语(terminology)是指在特定科学领域中使用的、相对固定的词或短语，它可以用来正确标记各个专门领域中的事物、现象、特性、关系和过程，是科学研究和知识交流的有力工具。可以看出国防科技热词和国防科技术语有着极大的交叉范畴，因此可以借助术语抽取的手段从海量国防科技信息中识别出研究人员关注的重点知识。但是，国防科技热词有着自己的领域特性，将传统的术语抽取方法应用到国防科技热词候选集的识别上存在着许多障碍和困难。目前较为主流的CRF模型用于国防科技术语识别需要投入大量的人力和时间成本用于标注训练语料，而且针对国防科技术语的特性，模型利用哪些特征能有效识别国防科技术语也行亟待研究解决的问题。

发明内容

本发明的目的在于克服传统术语抽取方法无法直接有效适用于国防科技术语识别的问题，同时面向快速把握国防科技领域重点热点知识的需求，综合运用改进术语抽取、热词排序、实体分类等技术，提出了一种基于大数据的国防科技热词发现方法。

为实现上述目的，本发明提出了一种基于大数据的国防科技热词发现方法，所述方法包括：

将特定时间段内的新闻动态文本，输入预先建立的基于CRF的中文国防科技术语抽取模型，输出国防科技热词候选集合；

通过牛顿冷切法对所述国防科技热词候选集合中的国防科技术语进行热度排序，输出国防科技热词集合；

将国防科技热词集合输入预先建立的国防科技热词分类模型，输出国防科技热词类别信息。

作为上述方法的一种改进，所述方法还包括：对基于CRF的中文国防科技术语抽取模型进行训练的步骤，具体包括：

以中文国防科技词表为种子术语，以种子术语为检索词在国防科技动态新闻库检索得到包含种子术语的句子，通过这些语句构建国防科技术语语料库；

对国防科技术语语料库中的句子进行预处理；

对国防科技术语语料库中的句子中按照BIO标记法进行序列标注，形成国防科技术语抽取模型的训练样本；其中，B表示一个术语的开始词，I表示术语除开始词以外的其他词汇，O表示其余的非术语词；B和I标注的是属于已有的国防科技词表的词，O表示不属于已有的国防科技词表的词；

提取每个训练样本的国防科技术语的特征，作为所述中文国防科技术语抽取模型的输入，以序列标注为期望的模型输出，训练中文国防科技术语抽取模型。

作为上述方法的一种改进，所述对语料库中的句子进行预处理，具体包括：

导入预先定义的领域用户字典，所述用户字典包括国防科技词表、国防科技相关维基词条和国防科技领域文献关键词；

使用ICTCLAS工具进行分词及词性标注；分词时基于用户字典将专有名词或名词短语当作一个词语，进行分词处理；其余词语按照ICTCLAS的默认规则，进行通用的分词处理。

作为上述方法的一种改进，所述国防科技术语的特征包括：当前词本身、当前词与前一个词的组合、当前词与后一词的组合、当前词词性、当前词和前一个词的词性组合、当前词和后一个词的词性组合、当前词的长度、当前词前后窗口内是否出现特殊符号和当前词是否在国防科技词表中出现。

作为上述方法的一种改进，所述通过牛顿冷切法对所述国防科技热词候选集合中的国防科技术语进行热度排序，输出国防科技热词集合；具体包括：

将热词排名模拟成一个自然冷却的过程，利用物理学定律，建立“温度”与“时间”之间的函数关系，构建一个“指数式衰减”的过程，即：

当前时期词频＝历史词频*exp(-(冷却系数)*时间差)，

定义冷却系数

为：

其中，w为一条术语；

计算国防科技热词候选集合中的每个术语的冷却系数，按照降序排列根据冷却系数对国防科技热词候选集合中的术语进行热度排序；

取排序后的前N个术语或者冷切系数大于某个阈值的所有术语，组成国防科技热词集合。

作为上述方法的一种改进，所述方法还包括：所述基于混合神经网络的国防科技热词分类模型包括：三个并行的神经网络、串联单元和softmax函数；

所述三个并行的神经网络包括：上文多层感知器、递归神经网络和下文多层感知器，用于对上文中的词、当前词和下文中的词分别进行向量表示；

所述串联单元，用于将上述的上文、热词本身、下文的向量化表示进行串联；

所述softmax函数，用于计算在各个实体类别的概率分布，得到该词的实体类别预测。

作为上述方法的一种改进，所述方法还包括：基于混合神经网络的国防科技热词分类模型的训练步骤，具体包括：

利用国防科技词表及其类别信息，在国防科技动态新闻库检索并自动标注，形成训练语料库；

对训练语料库的每个语料进行分词预处理；

通过词嵌入向量词典，将上文中的词、当前词和下文中的词分别表示为向量[c_-s...c_-1]、[w₁...w_n]和[c₁...c_s]；其中s表示窗口大小，n表示热词的长度；

将向量[c_-s...c_-1]、[w₁...w_n]和[c₁...c_s]分别输入多层感知器、递归神经网络、多层感知器进行特征学习，从而获取上文向量化表示、热词本身向量化表示和下文的向量化表示；

将上述的上文向量化表示、热词本身向量化表示和下文向量化表示通过串联单元进行串联，输入softmax函数，输出各个实体类别的概率分布，得到该词的实体类别预测；

根据该词的标注的类别信息和实体类别预测，利用梯度下降法对模型的参数进行调整，经过反复迭代，参数收敛，模型训练完毕。

作为上述方法的一种改进，所述词嵌入向量词典是利用Word2Vec的词嵌入方法，对多个中文国防科技动态新闻进行预先训练得到的。

作为上述方法的一种改进，热词类别包括：概念、技术、方法/模型、产品/装备、项目和重要文件。

本发明还提供了一种基于大数据的国防科技热词发现系统，所述系统包括：基于CRF的中文国防科技术语抽取模型、国防科技热词分类模型、国防科技热词候选集合生成模块、热度排序模块和分类模块；

所述国防科技热词候选集合生成模块，用于将特定时间段内的新闻动态文本，输入所述基于CRF的中文国防科技术语抽取模型，输出国防科技热词候选集合；

所述热度排序模块，用于通过牛顿冷切法对所述国防科技热词候选集合中的国防科技术语进行热度排序，输出国防科技热词集合；

所述分类模块，用于将国防科技热词集合输入所述国防科技热词分类模型，输出国防科技热词类别信息。

本发明的优势在于：

1、本发明综合运用术语抽取、热词排序、实体分类等技术，首次提出了一种面向国防科技领域的热词发现方法，结果表明，该方法可以有效地挖掘出中文动态新闻出现的国防科技热词，有助于研究人员及时跟踪把握国防科技领域最新的热点和重点知识线索；

2、本发明的方法提出通过利用本单位长期建立的国防科技词表及其类别来自动构建国防科技术语抽取以及热词分类所需的训练语料，解决了训练语料标注费时费力的问题，以及因为标注成本高致使数据规模不够限制模型训练效果的问题；

3、通过对标注语料进行五折交叉验证表明：通过自定义的特征模板，本发明提出的基于CRF的远程监督的国防科技术语抽取模型的平均F1值可达75％；本发明提出的基于组合神经网络模型的远程监督的中文国防科技热词分类模型平均F1值可达80％。

附图说明

图1为本发明的基于大数据的中文国防科技热词发现方法流程图；

图2为基于组合神经网络的热词分类模型的示意图。

具体实施方式

下面结合附图对本发明的技术方案进行详细说明。

如图1所示，本发明提出了一种基于大数据的中文国防科技热词发现方法，本发明所用的国防科技动态新闻库是对梳理的国防科技相关信息源跟踪采集积累而成。国防科技词表是长期积累的跟国防科技紧密相关的重要词汇，通过对其特征进行学习可以帮助机器有效地识别国防科技术语。

步骤1、通过积累的国防科技词表构建训练语料，并通过观察总结国防科技术语在语料中出现的模式特征，从而训练基于CRF的中文国防科技术语抽取模型；具体包括：

以长期积累的中文国防科技词表为种子术语，以种子术语为检索词在国防科技动态新闻库检索得到包含种子术语的句子，通过这些语句构建国防科技术语语料库。对语料库中的句子，根据已有的国防科技词表自动按照BIO方式进行序列标注，形成国防科技术语识别器的训练样本。

根据上述特征制定特征模板，作为输入训练CRF模型，从而得到中文国防科技术语抽取模型。

(1)语料预处理包括分词、去停用词、词性标注的步骤，该过程采用中科院ICTCLAS工具实施，具体流程为：首先导入预先定义的领域用户字典，用户字典包括国防科技词表、国防科技相关维基词条、50万篇国防科技领域文献关键词等；然后使用ICTCLAS工具进行分词及词性标注。分词时基于用户自定义字典将专有名词或名词短语当作一个词语，进行分词处理；其余词语按照ICTCLAS的默认规则，进行通用的分词处理。

(2)国防科技术语语料标注采用常见的BIO标记法表示序列标注结果，其中B表示一个术语的开始词，I表示术语除开始词以外的其他词汇，O表示其余的非术语词。；B和I标注的是属于已有的国防科技词表的词，O表示不属于已有的国防科技词表的词。

(3)对于抽取特征，CRF术语识别器所用的特征包括：分词信息(当前词本身、当前词与前一个词的组合、当前词与后一个词的组合)、词性标注的结果(当前词词性、当前词和前一个词词性的组合、当前词和后一个词词性的组合)、当前词的长度、当前词前后窗口是否出现特殊符号、当前词是否在国防科技词表中出现。其中，对于当前词前后窗口是否出现特殊符号主要是判断是否存在双引号、连线符号(-)、括号以及字母数字组合这四种特殊符号，如“苏-27”战斗机、“CH-53K直升机”、“F-35B战机”等，如果存在之一则标记为Y，否则标记为N；对于当前词是否在国防科技词表中出现这一特征：直接是国防科技词表中的词标记为YA；出现在国防科技词表中复合术语的开始标记为YB；出现在国防科技词表中复合术语的尾部标记为YE；出现在国防科技词表中复合术语的中间位置标记为YM；出现在国防科技词表中复合术语中，但是位置不固定则标记为YO；未在国防科技词表中出现的词标记为O。

步骤2、基于CRF的中文国防科技术语抽取模型，获取国防科技热词候选集合。

利用该识别器识别输入特定时间段内的新闻动态文本中的国防科技术语，得到国防科技热词候选集合。

步骤3、通过牛顿冷切法对比国防科技术语在动态新闻数据库中的当前词频和历史词频，对步骤2)的国防科技热词候选集合的国防科技术语进行热度排序，从而输出排序后的当前时期国防科技热词集合；

热词跟时间具有很强的相关性，因此研究热词的排序算法必须有时间序列上的考虑。本发明采用基于牛顿冷却法的热词排序方法，将热词排名模拟成一个即自然冷却的过程，可以利用物理学定律，建立“温度”与“时间”之间的函数关系，构建一个“指数式衰减”的过程，即：当前时期词频＝历史词频*exp(-(冷却系数)*时间差)，考虑到频次可能为0的情况，定义冷却系数为：

由于冷却系数值越小代表冷却的越慢，因此冷却系数越低则说明热度就越大。根据计算的冷却系数对候选集合中的术语进行热度排序。选取topN输出国防科技热词集合。

对于术语热度排序算法，冷切系数的具体操作方法为：基于国防科技动态新闻库，当前时期词频为该术语在近三个月的动态新闻库中出现的次数，历史词频为术语在近三个月再之前的三个月的动态新闻库中出现的次数。时间差为90(天)。根据冷切系数排序，取topN或者冷切系数大于某个阈值的集合作为国防科技热词集合输出。

步骤4、利用国防科技词表的分类信息自动构建训练语料，构建并训练基于混合神经网络的远程监督的国防科技热词分类模型。

对于基于组合神经网络的国防科技热词分类模型，其训练语料通过利用国防科技词表及其类别信息，在国防科技动态新闻库检索自动标注而来。本发明中涉及的热词类别分为：概念、技术、方法/模型、产品/装备、项目、重要文件等类别。采用中科院ICTCLAS工具对语料进行分词等预处理；然后基于词嵌入的表示方法，对上文、当前词词和下文中的词分别进行向量表示；分别输入多层感知器(MLP)、递归神经网络(RNN)、多层感知器(MLP)进行特征学习，从而获取对上文、热词本身、下文的向量化表示；最后将上文、热词本身、下文的向量化表示进行串联，通过softmax函数计算在各个实体类别的概率分布，得到该词的实体类别预测。所述词嵌入向量词典是利用Word2Vec的词嵌入方法，对已有现有约100万篇国防科技动态新闻(中文)进行预先训练得到的。

模型将出现热词的句子分成三部分：上文(Left Context)、热词本身(entitymention)、下文(Right Context)，可形式化表示为：

[c_-s...c_-1][w₁...w_n][c₁...c_s]

其中s表示窗口大小，n表示热词的长度。本发明基于词嵌入模型分别采用多层感知器(MLP)和递归神经网络(RNN)对上下文和热词本身进行向量化表示。将学习到的上文、热词、下文的表示向量串联起来作为特征，然后通过一个计算类别概率分布的softmax函数来判定热词的类别，如图2所示。

国防科技词表中包含技术、产品、项目、文件、概念等词类别，因此以国防科技词表为检索词，检索采集的新闻动态数据库即可通过程序自动构建模型所需的训练数据。

步骤5、将热度排序后的国防科技热词集合输入国防科技热词分类模型，输出国防科技热词类别信息。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于大数据的国防科技热词发现方法，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：对基于CRF的中文国防科技术语抽取模型进行训练的步骤，具体包括：

对国防科技术语语料库中的句子进行预处理；

3.根据权利要求2所述的方法，其特征在于，所述对语料库中的句子进行预处理，具体包括：

4.根据权利要求3所述的方法，其特征在于，所述国防科技术语的特征包括：当前词本身、当前词与前一个词的组合、当前词与后一词的组合、当前词词性、当前词和前一个词的词性组合、当前词和后一个词的词性组合、当前词的长度、当前词前后窗口内是否出现特殊符号和当前词是否在国防科技词表中出现。

5.根据权利要求1所述的方法，其特征在于，所述通过牛顿冷切法对所述国防科技热词候选集合中的国防科技术语进行热度排序，输出国防科技热词集合；具体包括：

当前时期词频＝历史词频*exp(-(冷却系数)*时间差)，

定义冷却系数

为：

其中，w为一条术语；

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：所述基于混合神经网络的国防科技热词分类模型包括：三个并行的神经网络、串联单元和softmax函数；

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：基于混合神经网络的国防科技热词分类模型的训练步骤，具体包括：

对训练语料库的每个语料进行分词预处理；

通过词嵌入向量词典，将上文中的词、当前词和下文中的词分别表示为向量[c_- _s...c_-1]、[w₁...w_n]和[c₁...c_s]；其中s表示窗口大小，n表示热词的长度；

8.根据权利要求7所述的方法，其特征在于，所述词嵌入向量词典是利用Word2Vec的词嵌入方法，对多个中文国防科技动态新闻进行预先训练得到的。

9.根据权利要求7所述的方法，其特征在于，热词类别包括：概念、技术、方法/模型、产品/装备、项目和重要文件。

10.一种基于大数据的国防科技热词发现系统，其特征在于，所述系统包括：基于CRF的中文国防科技术语抽取模型、国防科技热词分类模型、国防科技热词候选集合生成模块、热度排序模块和分类模块；