CN105677873A

CN105677873A - 基于领域知识模型的文本情报关联聚类汇集处理方法

Info

Publication number: CN105677873A
Application number: CN201610015796.7A
Authority: CN
Inventors: 陈怀新; 袁伟; 张宇; 俞鸿波; 谢卫
Original assignee: CETC 10 Research Institute
Current assignee: CETC 10 Research Institute
Priority date: 2016-01-11
Filing date: 2016-01-11
Publication date: 2016-06-15
Anticipated expiration: 2036-01-11
Also published as: CN105677873B

Abstract

本发明提出的一种基于领域知识模型的文本情报关联聚类汇集处理方法，包括如下步骤：搜集文本情报训练集进行提取词干预处理，通过中文命名实体识别与领域字典查询的方式提取情报训练集文本分词序列的特征词汇向量；采用主题图模型学习训练提取目标事件的代表性特征词汇，并计算主题关联归属的权重值；然后根据训练计算的特征词汇的主题关联归属权重值，构建特征词汇集合，建立事件主题词汇模板；再通过中文命名实体识别与领域字典查询的方式提取实时接入文本的分词序列的特征词汇向量；然后计算特征词汇向量与所有目标事件知识模板的相似度距离；根据相似度阈值确定多个文本对同一主题目标事件的关联关系，利用相似度距离排序规则进行分类整编。

Description

基于领域知识模型的文本情报关联聚类汇集处理方法

技术领域

本发明涉及主题内容的文本关联与分类领域，即采用计算机处理技术实现自动的文本关联分析与聚类汇集处理。

背景技术

文本情报信息分析是综合信息平台的重要组成部分，随着当前情报文本信息获取的方式众多，文本情报来源日趋多样化、信息数据量逐渐庞大，给文本情报分析带来的难度也越来越大，实现文本情报的高效分析和有效分析的途径之一就是要首先进行文本情报关联与分类，将相关性高、关系紧密的文本情报聚合在一起分析。当前，文本情报分析的一般步骤有：(1)多源异构文本情报转化为半结构化的文本。(2)针对文本格式的情报进行关联聚类。(3)针对聚类后的情报文本进行统计归纳分析。其中，文本情报信息关联聚类过程面临的新问题有：

(1)传统情报文本关联方法通常把情报文本作为普通文本，按照普通领域的文本挖掘技术来处理，并没有考虑情报分析领域中存在的非常重要的经验和先验知识，导致情报文本关联结果与实际联系有较大偏差。情报领域知识通常具有重要的指导作用，情报领域中的专有名词在情报文本关联聚类/分类任务中具有非常大的权重，特殊领域专有名词之间的联系通常是特殊的，不具有普遍性，因此传统方法也无法关联出这种联系。

(2)传统文本关联方法通常以统计特征为基础，需要文本中包含有大量词汇，适合处理长文本数据，因为所含的词汇量越大，一方面统计才具有意义，另一方面统计特征较多，特征维数与样本维数不会相差太大，避免出现NP难问题。但情报文本通常属于短文本，例如报道、动向报、简讯等，短文本包含的词汇量较少，词汇的统计特征便没有意义，情报文本中有限的关键词/主题词/领域专有名词才具有重要价值。因此传统基于词汇统计特征的方法并不适合处理文本情报。

(3)传统文本关联方法利用文本词汇特征进行关联计算通常没有考虑文档主题概念层次上的关联关系，而情报分析中通常比较关心情报所描述的事件主题，需要依据情报主题对情报文本进行聚类整编，因此传统方法并没有满足情报分析整编的需求。

基于以上问题，通过引入情报领域知识和先验信息的指导，克服传统情报文本关联方法关联结果偏差大，针对性弱的问题；通过有限的领域专有名词/关键词/主题词建立模板进行主题匹配聚类的方法解决传统基于统计特征的方法需要大量词汇的问题；通过主题图模型提取情报事件主题满足情报分析整编需求。

发明内容

本发明的目的在于解决文本情报关联过程中传统方法未考虑领域知识的指导作用导致关联出的情报偏差较大、针对性较弱的问题；提供一种引入情报领域知识与先验信息下的文本情报内容关联分析，实现情报按目标事件主题类型的关联整合，提高文本情报主题归属类别的正确关联率。

为了取得上述技术效果，本发明采用的技术方案是：一种基于领域知识模型的文本情报关联聚类汇集处理方法，其特征在于包括如下步骤：步骤S1文本情报预处理：搜集文本情报训练集进行分词、词性标注，去停用词，保留名词与动词，提取词干预处理，得到文本情报训练集规范化的文本分词序列；步骤S2特征词汇向量提取：通过中文命名实体识别与领域字典查询的方式提取情报训练集文本分词序列的特征词汇向量；步骤S3事件主题词汇学习：采用主题图模型学习训练提取目标事件的代表性特征词汇，并计算其主题关联归属的权重值；步骤S4事件主题词汇模板建立：根据训练计算的特征词汇的主题关联归属权重值，构建以人物、地点、装备、行为、组织和事件名称代号类概念词汇组成的特征词汇集合，作为表达目标事件知识模板，以及与主题类别归属的索引关系，建立事件主题词汇模板；步骤S5文本情报预处理：对新接入文本情报进行步骤S1中的预处理，得到接入文本情报规范化的文本分词序列；步骤S6特征词汇向量提取：通过中文命名实体识别与领域字典查询的方式提取步骤S5中实时接入文本的分词序列的特征词汇向量；步骤S7主题相似度距离计算比对：计算特征词汇向量与所有目标事件知识模板的相似度距离，并比对上述相似度距离；步骤S8情报主题分类整编：根据相似度阈值确定多个文本对同一主题目标事件的关联关系，利用相似度距离排序规则进行文本情报的分类整编。

本发明相比与现有技术具有如下有益效果。

本发明针对情报领域关注分析目标事件的特点，建立以目标要素(人物、地点、装备、行为、组织和事件名称代号)为核心的领域词典和基于领域词典的文本情报描述方法，解决的情报领域中情报文本表征不准确的问题和传统针对普通文本的表征方法描述的情报难以有效应用于目标事件分析的问题。引入情报领域中的专家知识，训练典型主题事件的主题模板，用于关联整合主题事件的情报信息，提高了针对性主题事件的关联准确度，达到了90％的正确率。

附图说明

为了更清楚地理解本发明，现将通过本发明实施方式，同时参照附图，来描述本发明，其中：

图1是本发明基于领域知识模型的文本情报关联聚类汇集处理流程图。

图2是图1中事件主题词汇模板结构图。

图3是1中主题图模型示意图。

图4是具体实施案例中实例化的几类典型事件的主题模板结构示意图。

图5是具体实施案例流程图。

具体实施方式

为了更好地理解本发明，首先介绍基于领域知识的主题模板和用于学习训练主题模板的主题图模型。

参阅图1。根据本发明，利用情报领域知识建模和主题图技术指导文本情报的关联分析，步骤S1文本情报预处理：搜集文本情报训练集进行分词、词性标注，去停用词，保留名词与动词，提取词干预处理，得到文本情报训练集规范化的文本分词序列；步骤S2特征词汇向量提取：通过中文命名实体识别与领域字典查询的方式提取情报训练集文本分词序列的特征词汇向量；步骤S3事件主题词汇学习：采用主题图模型学习训练提取目标事件的代表性特征词汇，并计算其主题关联归属的权重值；步骤S4事件主题词汇模板建立：根据训练计算的特征词汇的主题关联归属权重值，构建以人物、地点、装备、行为、组织和事件名称代号类概念词汇组成的特征词汇集合，作为表达目标事件知识模板，以及与主题类别归属的索引关系，建立事件主题词汇模板；步骤S5文本情报预处理：对新接入文本情报进行步骤S1中的预处理，得到接入文本情报规范化的文本分词序列；步骤S6特征词汇向量提取：通过中文命名实体识别与领域字典查询的方式提取步骤S5中实时接入文本的分词序列的特征词汇向量；步骤S7主题相似度距离计算比对：计算特征词汇向量与所有目标事件知识模板的相似度距离，并比对上述相似度距离；步骤S8情报主题分类整编：根据相似度阈值确定多个文本对同一主题目标事件的关联关系，利用相似度距离排序规则进行文本情报的分类整编。

具体包括如下步骤：

(1)S1:文本情报预处理。搜集文本情报训练集进行预处理，得到的情报训练集规范化的文本分词序列。首先搜集开源文本情报文本作为情报文本训练集D，对训练集中每个文本情报文本进行文本分词、词性标注、去停用词，提取词干等预处理，保留名词和动词，形成训练集情报文本的文本词汇序列。

(2)S2：特征词汇向量提取。通过中文命名实体识别与领域字典查询的方式提取训练集情报文本的文本分词序列特征词汇向量：

基于情报文本事件的描述特点，对文本词汇序列d_m∈D使用中文命名实体识别与领域字典查询的方式提取时间、地点、人物、装备、组织、行为、名称代号共6类概念的特征词汇，并与领域字典进行语义相似度计算来归一化特征词汇向量W_m＝(W_m1,W_m2,…,W_mV)，即针对S1中预处理的每个文本词汇序列d_m∈D做如下处理：

S21对文本词汇序列d_m进行中文命名实体识别，将词汇序列进行实体分类，分别有地名、人名、时间、日期、机构名、专有名实体。对于实体类别与词汇概念类别已对应好的，直接将其作为该概念类词汇。例如人名实体直接作为人物概念词汇W_m1，地名实体直接作为地理概念词汇W_m2。

S22对于情报领域专有概念类词汇，例如装备类词汇、行为动向类词汇、组织机构类词汇，通过领域字典进行匹配提取，具体步骤如下：

S221建立基于情报文本领域知识的V类概念领域字典，以V类概念词词汇集合，例如人物概念词汇集，地理概念词汇集，装备概念词汇集，行为概念词汇集、组织概念词汇集、名称代号概念词汇集等，建立领域字典Dict＝{Dict₁,Dict₂,…,Dict_V}，其中Duct_v＝Num_v表示第v类概念字典Dict_v中的词汇个数，字典中的词汇不能重复。

S222利用情报领域字典Dict，将文本词汇序列d_m的词汇分别与第v类概念字典进行匹配。匹配方法是计算d_m中的词汇w_i与领域字典中的第v类概念字典Dict_v中第j个词汇t_j的语义相似度，语义相似度计算公式为：

S i m (w_{i}, t_{j}) = \frac{p_{i j}}{p_{i j} + a}

其中a为常数，p_ij为两个词w_i,t_j在语义树种的语义距离。

当d_m的词汇w_i与第v类概念领域字典Dict_v中的词汇t_j的语义相似度满足阈值要求时，认为该词汇w_i属于第v类概念特征词汇；按归一化要求，使用领域字典Dict_v中的词汇t_j代替专有名词实体w_i，组成了文本情报文本d_m的第v类概念特征词汇向量W_mv。

针对每类概念的领域字典，重复步骤S222，提取文本情报文本d_m的特征词汇向量W_m＝(W_m1,W_m2,…,W_mV)。

(3)S3:事件主题词汇学习。通过主题图模型训练学习主题的特征词汇权重。利用训练集样本，通过主题图模型学习各类主题事件下字典中各词汇对应的权重向量其实现步骤如下：

S31学习各类主题事件对应第v类概念领域字典Dict_v的词汇权重分布使用GibbsSampling算法学习训练步骤如下：

S311记训练集D包含目前周边热点目标事件涉及的相关主题类别为C＝(C₁,C₂,…,C_K)。取训练样本d_m的第v类概念特征词汇向量m＝1,2,…,M，训练样本大小为M，n_v表示样本d_m中v类概念词汇个数，文档中的词汇可以重复，并给定主题图模型中主题分布和词分布的超参数α和β。

S312初始时给每个文档d_m的特征词汇向量W_mv中的每个词汇随机分配主题z⁽⁰⁾，然后统计训练集中每个主题k下出现词汇t的数量以及每个文档d_m下出现主题k中的词汇数量

S313针对每个文档d_m中的每个词汇计算其主题更新概率根据这个概率分布为该词采样一个新的主题；其中词汇主题的更新概率计算公式为：

表示排除当前词i＝(m,n)的主题分配，由其他词的主题分配和观察到的单词来计算当前词的主题的概率。其中下表i＝(m,n)，表示去除i的词，表示文档d_m中主题k出现的次数，表示主题k下出现词汇t的数量，但词_i除外，表示文档d_m中出现主题k中的词汇数量，但词i除外。

S314重复S312、S313，不断更新下一个词汇的主题，直到每个文档的主题分布和每个主题的词分布保持不变，算法即收敛停止，计算收敛时的文档-主题分布θ_m,k和主题-词分布其计算公式如下：

θ_{m, k} = \frac{n_{m}^{(k)} + α_{k}}{Σ_{k = 1}^{K} n_{m}^{(k)} + α_{k}}

其中，表示主题k包含词汇t的个数；表示文档d_m中分配给主k的词汇数。最后算法停止时输出训练出所有K类主题的主题-词分布其中第k类主题的主题-词分布为式中表示字典Dict_v中的第j个词汇t_j属于主题k的权重。

S32利用训练集样本，针对每类概念领域字典Dict_v(v＝1,2,…,V),重复S31的步骤进行训练，得到每类主题下每类概念领域字典中的词汇对应的权重向量将其按主题分量写为其中

(4)S4:事件主题词汇模板建立。具体实现步骤如下：

S41利用学习到的第k类主题事件的主题-词汇分布其中对应第v类概念领域字典Dict_v中的词汇权重分布为分量进行排序，取权重向量中权重最大的前N_v个权重分量对应字典Dict_v中的N_v个词汇，其中N_v的取值依据是：前N_v个权重分量和占整个权重能量和的90％以上,即满足公式：

组成第k类主题事件的主题词汇模板为:

\begin{matrix} T_{k} = (T_{k 1}, T_{k 2}, ..., T_{k V}) \\ = ({(t_{k 11}, t_{k 12}, ..., t_{k 1 N_{1}})}^{T}, {(t_{k 21}, t_{k 22}, ..., t_{k 2 N_{2}})}^{T}, ..., {(t_{k V 1}, t_{k V 2}, ..., t_{{kVN}_{V}})}^{T}) \end{matrix},

词汇对应的权重为:

式中表示对S32中的进行排序后取前N_v个分量，排序后的权重分量为

S42、分别针对所有K类主题事件，重复S41过程，建立每类主题事件的主题词汇模板,组成各类典型事件的主题词汇模板T＝{T₁,T₂,…,T_K}。

(5)S5:文本情报预处理。对接入的文本情报文本进行文本分词、词性标注、去停用词，提取词干等预处理，保留名词和动词，得到新接入情报文本的文本词汇序列d_m。

(6)S6:特征词汇向量提取。通过中文命名实体识别与领域字典查询的方式提取接入情报文本分词序列的特征词汇向量。即对S5中新接入情报文本的文本词汇序列做与S2相同的处理：

S61对接入的文本词汇序列d_m进行中文命名实体识别，将词汇序列进行实体分类，分别有地名、人名、时间、日期、机构名、专有名实体。对于实体类别与词汇概念类别已对应好的，直接将其作为该概念类词汇。例如人名实体直接作为人物概念词汇W₁，地名实体直接作为地理概念词汇W₂。

S62对于领域专有概念类词汇，例如武器装备类词汇、行为动向类词汇、组织机构类词汇，利用领域字典Dict，将接入的文本词汇序列d_m的词汇分别与第v类概念字典进行匹配。匹配方法是计算d_m中的词汇w_i与领域字典中的第v类概念字典Dict_v中第j个词汇t_j的语义相似度，语义相似度计算公式为：

S i m (w_{i}, t_{j}) = \frac{p_{i j}}{p_{i j} + a}

其中a为常数，p_ij为两个词w_i,t_j在语义树种的语义距离。

当d_m的词汇w_i与第v类概念领域字典Dict_v中的词汇t_j的语义相似度满足阈值要求时，认为该词汇w_i属于第v类概念特征词汇。按归一化要求，使用领域字典Dict_v中的词汇t_j代替专有名词实体w_i，组成了接入文本情报文本d_m的第v类概念特征词汇向量W_v。

针对每类概念的领域字典，重复步骤S62，提取接入的文本情报的文本词汇序列d_m的特征词汇向量W＝(W₁,W₂,…,W_V)。

(7)S7：主题相似度距离计算比对。计算情报文本特征词汇向量与主题词汇模板的相似度距离，根据主题的分类阈值，进行比对得到情报文本的主题归属类别。

计算情报文本特征词汇向量与主题模板词汇之间的相似度距离，并根据主题模型类别阈值，进行比对分类，得到情报文本的主题归属分类。

比对文本情报文本的特征词汇向量W的各概念词汇W_v与第k类主题词汇模板T_k的对应概念词汇模板T_kv，得到基于该模板的情报文本文本表征向量X_kv，比对方法为：

得到比对第k类主题词汇模板的文本表征向量X_k＝(X_k1，X_k2,…,X_kV)，其中使用S4中训练的第k类主题模板词汇的权重向量计算该文本与C_k类主题的相似度距离：

如果dis_k>threshold，则认为该文本情报文本属于第k类主题事件。

使用上述方法计算该文本情报文本与所有C_k,k＝1,2,…,K类主题事件的模板之间的相似度距离，根据各类主题事件确定的阈值判断该文本情报文本是否属于该主题类别，这里允许一个文本情报文本属于多个主题类别。

(8)S8:情报主题分类整编：将所有情报文本按主题类别进行聚类，利用相似度距离进行排序整编。根据每篇文本情报文本的主题归属分类，将相同主题的文档进行聚类，并根据计算出的文档与主题模板相似度距离进行排序，实现所有文本情报文本的主题归属聚类整编。

参阅图2所示主题词汇模板设计为三层，顶层为情报文本数据层，第二层为情报文本的主题层，将顶层的情报文本数据划分为多个主题类别，第三层为主题的词汇模板层，每个主题的词汇模板由多种概念类的词汇来组成，这些词汇将这样来生成：通过训练数据学习领域字典中各类概念词汇的权重，选取权重较高的词汇作为此类概念的模板词汇。

参阅图3。在所示主题图模型中，每个结点表示一个随机变量，箭头表示变量之间的依赖关系，矩形表示变量的重复，矩形中数字表示重复次数。隐藏变量对应的结点是单环，观测变量w_m,n对应的结点是双环。LDA是一种生成模型，它表示生成文档中的一个词汇的过程，认为某篇文档d_m中的第n个词w_m,n是这样生成的：首先从狄利克雷分布α中取样生成文档d_m的文档-主题分布然后从文档-主题分布中取样生成文档d_m的第n个词的主题z_m,n，然后再在这个主题z_m,n下，从狄利克雷分布β中取样生成主题z_m,n对应的主题-词汇分布中采样生成一个词语即为w_m,n，不断重复这个随机生成过程，直到生成整篇文章d_m以及整个训练集的文章。基于这个思想，反过来可以利用观察到的词汇w_m，n和超参数(根据经验给定的先验参数)α和β，估计学习其他未知变量z_m,n，和

参阅图4。在具体实施案例实例化的几类典型事件的主题模板结构中，顶层是文本情报文本数据索引，第二层是依据军事情报领域知识以及特定区域发生的事件或特定活动平台目标事件抽象出的五类主题，分别某主题1事件、某主题2事件、某区域主题3事件、某主题4事件、某平台活动事件5。第三层是依据军事情报文本分析领域中通常从事件发生的时间、发生的地点、参与的人物、使用的武器装备、发生的军事行为、所属的组织机构、事件的名称代号等概念描述每类主题事件，建立了地点、人物、装备、行为、组织、名称代号共六类概念的词汇模板组成每个主题的词汇模板。

本发明具体实施方式分为两步：(一)离线数据准备：包括用于训练和测试的情报文本素材数据整理、领域字典建立和主题模板建立。

搜集网上开源军事新闻报道，整理形成文本情报文本素材。如主题模板示例：主题包括某主题1事件852篇、某主题2事件600篇、某区域主题3事件420篇、某主题4事件432篇、某平台5活动事件524篇。将文本情报文本分成两个集合，分别作为训练集D和测试集T。其中训练集D中包含552篇主题1事件、400篇主题2事件、220篇主题3事件、232篇主题4事件、324篇平台5活动事件，剩下的作为测试集T。对训练集和测试集情报文本均进行类别标注C＝{C₁,C₂,C₃,C₄，C₅}，其中C₁表示主题1事件，C₂表示主题2事件，C₃表示主题3事件，C₄表示主题4事件，C₅表示平台5活动事件。

针对情报文本采用以下几类概念描述事件，建立领域字典Dict：Dict₁＝{人物概念词汇字典}表示描述事件中相关的人物，Dict₂＝{地理概念词汇字典}表示描述事件发生地点，Dict₃＝{装备概念词汇字典}表示描述事件涉及的相关军事装备，Dict₄＝{行为概念词汇字典}表示描述事件中目标的行为动向，Dict₅＝{组织概念词汇字典}表示描述事件中目标所属部队、国家机构组织等，Dict₆＝{名称代号概念词汇字典}表示事件的名称代号、简称等。

使用领域字典和训练集D学习训练出各个主题事件的主题词汇模板及词汇权重向量。

参阅图5所示为在线实施步骤的具体实施案例流程图，首先从测试集T中依次读取文本情报文本，对原始文本情报文本进行预处理，包括分词、去停用词，词干提取，词性标注和保留名字与动词，最后得到文本的词汇序列；对词汇序列进行中文命名实体识别，提取人物、地理概念类的特征词汇，并利用领域字典查询比对，提取装备、行为、组织、名称代号概念类的特征词汇；然后将提取的特征词汇向量与主题模板中的词汇进行相似度距离计算和阈值比对，得到文本情报文本的主题归属类别。按照上述步骤处理测试集中的每篇文本情报文本，得到所有情报文本的主题归属类别；最后根据所有文本情报文本的归属类别，将情报文本进行主题聚类，将相同主题聚类的情报文本按相似度距离进行排序整编索引，实现情报文本的主题聚类整合。

实施结果表明对测试的文本情报文本进行主题聚类整编，实现相同主题情报文本的关联，根据聚类结果和人工标注进行关联正确率统计计算，其关联正确率达到90％。

Claims

1.一种基于领域知识模型的文本情报关联聚类汇集处理方法，其特征在于包括如下步骤：步骤S1文本情报预处理：搜集文本情报训练集进行分词、词性标注，去停用词，保留名词与动词，提取词干预处理，得到文本情报训练集规范化的文本分词序列；步骤S2特征词汇向量提取：通过中文命名实体识别与领域字典查询的方式提取情报训练集文本分词序列的特征词汇向量；步骤S3事件主题词汇学习：采用主题图模型学习训练提取目标事件的代表性特征词汇，并计算其主题关联归属的权重值；步骤S4事件主题词汇模板建立：根据训练计算的特征词汇的主题关联归属权重值，构建以人物、地点、装备、行为、组织和事件名称代号类概念词汇组成的特征词汇集合，作为表达目标事件知识模板，以及与主题类别归属的索引关系，建立事件主题词汇模板；步骤S5文本情报预处理：对新接入文本情报进行步骤S1中的预处理，得到接入文本情报规范化的文本分词序列；步骤S6特征词汇向量提取：通过中文命名实体识别与领域字典查询的方式提取步骤S5中实时接入文本的分词序列的特征词汇向量；步骤S7主题相似度距离计算比对：计算特征词汇向量与所有目标事件知识模板的相似度距离，并比对上述相似度距离；步骤S8情报主题分类整编：根据相似度阈值确定多个文本对同一主题目标事件的关联关系，利用相似度距离排序规则进行文本情报的分类整编。

2.如权利要求1所述的基于领域知识模型的文本情报关联聚类汇集处理方法，其特征在于：首先搜集开源文本情报文本作为情报文本训练集D，对训练集中每个文本情报文本进行文本分词、词性标注、去停用词，保留名词和动词，形成训练集情报文本的文本词汇序列。

3.如权利要求1所述的基于领域知识模型的文本情报关联聚类汇集处理方法，其特征在于:基于情报文本事件的描述特点，对文本词汇序列d_m∈D使用中文命名实体识别与领域字典查询的方式提取时间、地点、人物、装备、组织、行为、名称代号共6类概念的特征词汇，并与领域字典进行语义相似度计算来归一化特征词汇向量W_m＝(W_m1,W_m2,…,W_mV)。

4.如权利要求1所述的基于领域知识模型的文本情报关联聚类汇集处理方法，其特征在于：建立基于情报文本领域知识的V类概念领域字典，以V类概念词：人物概念词汇集，地理概念词汇集，装备概念词汇集，行为概念词汇集、组织概念词汇集、名称代号概念词汇集词汇集合，建立领域字典Dict＝{Dict₁,Dict₂,…,Dict_V}，其中Num_v表示第v类概念字典Dict_v中的词汇个数，字典中的词汇不能重复。

5.如权利要求1所述的基于领域知识模型的文本情报关联聚类汇集处理方法，其特征在于：利用情报领域字典Dict，将文本词汇序列d_m的词汇分别与第v类概念字典进行匹配，匹配时，计算d_m中的词汇w_i与领域字典中的第v类概念字典Dict_v中第j个词汇t_j的语义相似度，语义相似度计算公式为：

S i m (w_{i}, t_{j}) = \frac{p_{i j}}{p_{i j} + a}

其中a为常数，p_ij为两个词w_i,t_j在语义树种的语义距离。当d_m的词汇w_i与第v类概念领域字典Dict_v中的词汇t_j的语义相似度满足阈值要求时，该词汇w_i属于第v类概念特征词汇，按归一化要求，使用领域字典Dict_v中的词汇t_j代替专有名词实体w_i，组成文本情报文本d_m的第v类概念特征词汇向量W_mv。

6.如权利要求1所述的基于领域知识模型的文本情报关联聚类汇集处理方法，其特征在于：取训练样本d_m的第v类概念特征词汇向量m＝1,2,…,M，训练样本大小为M，n_v表示样本d_m中v类概念词汇个数，给定主题图模型中主题分布和词分布的超参数α和β。

7.如权利要求1所述的基于领域知识模型的文本情报关联聚类汇集处理方法，其特征在于：初始时，给每个文档d_m的特征词汇向量W_mv中的每个词汇随机分配主题z⁽⁰⁾，然后统计训练集中每个主题k下出现词汇t的数量以及每个文档d_m下出现主题k中的词汇数量针对每个文档d_m中的每个词汇计算其主题更新概率根据这个概率分布为该词采样一个新的主题；其中词汇主题的更新概率计算公式为：

表示排除当前词i＝(m,n)的主题分配，由其它词的主题分配和观察到的单词来计算当前词的主题的概率，其中下表i＝(m,n)，表示去除i的词，表示文档d_m中主题k出现的次数，表示主题k下出现词汇t的数量，表示文档d_m中出现主题k中的词汇数量，但词i除外；并不断更新下一个词汇的主题，直到每个文档的主题分布θ和每个主题的词分布保持不变，算法即收敛停止。

8.如权利要求1所述的基于领域知识模型的文本情报关联聚类汇集处理方法，其特征在于：针对每类概念领域字典Dict_v(v＝1,2,…,V)进行训练，得到每类主题下每类概念领域字典中的词汇对应的权重向量按主题分量将权重向量写为其中，

9.如权利要求1所述的基于领域知识模型的文本情报关联聚类汇集处理方法，其特征在于：事件主题词汇模板建立，利用学习到的第k类主题事件的主题-词汇分布对应第v类概念领域字典Dict_v中的词汇权重分布为分量进行排序，取权重向量中权重最大的前N_v个权重分量对应字典Dict_v中的N_v个词汇，其中，N_v的取值依据是：前N_v个权重分量和占整个权重能量和的90％以上；前N_v个权重分量满足公式：

组成第k类主题事件的主题词汇模板为:

\begin{matrix} T_{k} = (T_{k 1}, T_{k 2}, ..., T_{k V}) \\ = ({(t_{k 11}, t_{k 12}, ..., t_{k 1 N_{1}})}^{T}, {(t_{k 21}, t_{k 22}, ..., t_{k 2 N_{2}})}^{T}, ..., {(t_{k V 1}, t_{k V 2}, ..., t_{{kVN}_{V}})}^{T}), \end{matrix}

词汇对应的权重为:

式中v＝1,2,…,V表示对S32中的进行排序后取前N_v个分量，排序后的权重分量为

10.如权利要求1所述的基于领域知识模型的文本情报关联聚类汇集处理方法，其特征在于：主题相似度距离计算比对时，计算情报文本特征词汇向量与主题词汇模板的相似度距离，根据主题的分类阈值，进行比对得到情报文本的主题归属类别。首先比对文本情报文本的特征词汇向量W的各概念词汇W_v与第k类主题词汇模板T_k的对应概念词汇模板T_kv，得到基于该模板的情报文本文本表征向量x_kv，比对方法为：

得到比对第k类主题词汇模板的文本表征向量X_k＝(X_k1,X_k2,…,X_kV)，其中使用步骤S4中训练的第k类主题模板词汇的权重向量计算该文本与C_k类主题的相似度距离：

如果dis_k>threshold，则认为该文本情报文本属于第k类主题事件。计算该文本情报文本与所有C_k,k＝1,2,…,K类主题事件的模板之间的相似度距离，根据各类主题事件确定的阈值判断该文本情报文本是否属于该主题类别，这里允许一个文本情报文本属于多个主题类别。