CN103914445A

CN103914445A - 数据语义处理方法

Info

Publication number: CN103914445A
Application number: CN201410079684.9A
Authority: CN
Inventors: 李颖; 张全; 孙岩; 袁毅; 王青海; 何国良; 吴迪; 韦向峰
Original assignee: Academy of Armored Forces Engineering of PLA
Current assignee: Academy of Armored Forces Engineering of PLA
Priority date: 2014-03-05
Filing date: 2014-03-05
Publication date: 2014-07-09

Abstract

本发明提供一种数据语义处理方法，能够自动获取语义分类信息，形成动态分析处理模式，实现基于语义信息的面向自由文本转换格式命令的语句自动分类处理。该方法包括：将获取的文本分割为语句，并对分割得到的语句进行编号；根据分割得到的语建立LDA模型；应用Gibbs算法求解获得LDA模型中语句的主题分布和主题的词汇分布；计算语句的主题隶属度值；根据语句的主题隶属度值确定语句所属的类别，并将类别结果按照对应的语句序号输出。

Description

数据语义处理方法

技术领域

本发明涉及语句处理领域，尤其涉及一种数据语义处理方法。

背景技术

军事模拟训练具有多方面的特殊优势,是军事现代化的重要标志之一，各国军方已经重点研究和发展。随着军事模拟训练技术的发展，各种装备的智能化水平不断提升。语义的表达、分析和处理作为军事模拟训练智能化处理的基础也越来越受到重视。如何对于军事模拟训练涉及的语义进行提取、表达、分析和处理则是各种军事模拟训练智能化的基础。鉴于人在各种军事模拟训练中的重要作用，这里特别需要侧重人机交互的语义分析理解处理。特别是在模拟训练中的虚拟部分需要对文本语义内容作出智能化的反映，从而提升军事模拟训练的效能。

在传统的实兵训练中，参加训练的人员根据训练命令进行组织和实施。通过各级指挥员和参训人员对于命令的理解，利用各种高效的传输模式进行通讯交流指挥实施。而在军事模拟训练中需要利用计算形成模拟虚兵，为了使虚兵在军事模拟训练中能够智能化模拟实兵对于各种训练任务的理解，并作出适当的反应，完成人机虚实交互，需要将相应的作战文书转换成对应的命令结构格式，进行通讯交流。这里需要将自然语言文本文字内容中包含的作战指挥关键信息进行抽取和重组。实现这一抽取和重组最准确的方法是组织人类专家进行手工转换，完成这一信息处理过程。

显然这种模式无法适应虚实结合的训练演习需要，因此如何自动获取语义分类信息，形成动态分析处理模式，实现基于语义信息的面向自由文本转换格式命令的语句自动分类处理，是当前需要解决的技术问题。

发明内容

（一）要解决的技术问题

本发明提供一种数据语义处理方法，能够自动获取语义分类信息，形成动态分析处理模式，实现基于语义信息的面向自由文本转换格式命令的语句自动分类处理。

（二）技术方案

一种数据语义处理方法，包括：

将获取的文本分割为语句，并对分割得到的语句进行编号；

根据分割得到的语建立LDA模型；

应用Gibbs算法求解获得LDA模型中语句的主题分布和主题的词汇分布；

计算语句的主题隶属度值；

根据语句的主题隶属度值确定语句所属的类别，并将类别结果按照对应的语句序号输出。

可选的，所述根据分割得到的语建立LDA模型之前还包括：输入潜在狄利克雷分配LDA模型的数据；具体地：

对语句进行词语切分，应用军语词典和通用词典对分词进行处理，如果遇到军语词典和通用词典的切分歧义，军语词典优先；两类词典中都包括非汉语词汇；

对于切分结果过滤掉固定停用词，固定停用词为汉语单字词；

对于完成上述切分处理和过滤处理的整个文本集合进行词语频度和词语出现语句的文档频次统计；

过滤掉文本集合中的动态停用词，将文档频次低于预设次数的词语设定为动态停用词。

可选的，所述计算语句的主题隶属度值之前还包括：LDA模型参数设置；具体地：

对超参数α和β的各个分量统一取值，采用对称的Dirichlet参数，并根据主题数目取α＝5/K，所有的β取固定的经验值β＝0.01；

确定混乱度，混乱度的计算方法是计算文档集中所包含的各句群的似然值，似然值的几何均值的倒数作为混乱度；

LDA处理模型混乱度随着句群似然值的增加而单调递减；具体计算公式如下：

Perplexity (D) = \exp {- \frac{Σ_{s = 1}^{N} \log p (S)}{Σ_{s = 1}^{N} N_{s}}}

上式中N为文档集中句群的个数，N_s为句群S中词项的个数，p(S)为句群S中的似然值；

句群的似然值由句群的主题分布和主题的词汇分布得出，具体计算如下：

\log p (S) = Σ_{n = 1}^{N} n (w, S) \cdot {\hat{φ}}_{w}^{(z = j)} \cdot {\hat{θ}}_{z = j}^{(s)}

式中n(w，S)为句群S中词w出现的次数；

利用待处理的真实语料进行实验和人工分析，选择生成的主题对应的主题数。

可选的，所述将获取的文本分割为语句包括：

获取预存的文本；

去掉文本内容中的非连续语句后，进行文本分割，并控制切分得到的语句的字数。

可选的，所述根据分割得到的语建立LDA模型包括：

在LDA模型中，将语句集合表示为由M个语句构成，记作D＝{d₁,…,d_M}，其中语句d_m是长度为（N）的词语序列，可以写成w＝(w₁,…,w_(N))，其中w_n表示序列中的第n个词语。

可选的，所述应用Gibbs算法求解获得LDA模型中语句的主题分布和主题的词汇分布包括：

在任一语句m中，对于给定的词语w_n，利用Gibbs抽样取得词语在主题z上的后验概率P(w_n|z)估计值；在其他词语上的主题分配(z_‐n)确定的情况下，估计该当前词语w_n分配主题j的概率p(z_n=j)；边缘化φ_k和θ_m，间接求得φ_k和θ_m的值。

可选的，还包括：

利用Gibbs抽样方法估计LDA模型中的参数，为词语特征在[1…K]主题中随机分配一个主题，构成初始的Markov链，对于文本中的所有词语特征根据上面的公式分配主题，获取Markov链的下一个状态，经过多次迭代，Markov链就可以达到稳定状态；

抽样算法估计每个词语与主题z的φ和θ的值，公式如下：

{\hat{φ}}_{w_{n}}^{(z = j)} = \frac{C_{w_{- n}, j}^{VK} + β_{w_{n}, j}}{Σ_{v = 1}^{V} (C_{v_{- n}, j}^{VK} + β_{v, j})}

{\hat{θ}}_{z = j}^{(m)} = \frac{C_{m_{- n}, j}^{MK} + α_{m, j}}{Σ_{k = 1}^{K} (C_{m_{- n}, j}^{MK} + α_{m, k})}

式中值为从主题j中抽取新词记号w_n的概率估计，而为在文档w_m从主题j抽取新词的概率估计。

可选的，所述计算语句的主题隶属度值包括：

利用Gibbs抽样算法进行参数估计，得到语句在主题上的分布以及主题在词汇上的分布用这两个分布，可以形成计算语句类别属性的计算方法；

对于任一类别集C中任一语句S的隶属度表示为P(S|C)，根据贝叶斯公式，P(S|C)示为：

P (S | C) = \frac{P (C | S) \cdot P (S)}{P (C)}

其中P(C|S)为语句的生成概率，即类别集C由句子S生成的似然概率；P(S)为句子S隶属度的先验概率；P(C)为类别集C的先验概率，将类别集C对应的语句集中的词语作为输入观察序列，则语句由预测类别集的分布构成，将句子看作类别集的生成模型，类别集的概率P(C)对所有语句都一样，不影响语句的排序，在计算语句分值时将其忽略；同时如果假设语句的先验概率相同，则语句对于类别的隶属度排序分值，只与所属的语句生成概率相关。

基于上述技术方案，本发明实施例将采用潜在狄利克雷分配（LDA）模型进行语义分析，给出实现自由文本转换格式命令的数据语义处理方法，这一方法将具有基于数据驱动的特征，能够自动获取语义分类信息，形成动态分析处理模式，实现基于语义信息的面向自由文本转换格式命令的语句自动分类处理模式

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种数据语义处理方法的流程示意图；

图2为本发明实施例提供的一种LDA模型结构示意图。

具体实施方式

为使本发明的目的、内容和优点更加清楚，下面结合附图对本发明的具体实施方式作进一步详细描述。以下用于说明本发明，但不用来限制本发明的范围。

本发明提供一种基于语义信息的面向自由文本转换格式命令的语句自动分类处理模式方法，提高自由文本转换格式命令数据处理的效率，时避免关键词激活方式所带来的困扰，是实现高智能化的关键信息抽取和重组方法的关键和基础。

本发明实施例的流程示意图如图1所示，本发明实施例的数据语义处理方法包括如下步骤：

1.文档的规整化处理。

对于以电子文本格式保存的文本，如果具有版式信息，首先提取文档内容，去掉标题、时间等结构化信息和版式信息；如果是不具有版式信息的纯文本文件，则直接进入下面的步骤。

去掉文本内容中的非连续语句内容，如表格，注释等内容。将文档集合中的文本，按照自然分隔符号，如标点符号，分割为语句。

控制切分得到的语句字数：如果切分得到的语句字数少于5字，则进行归并。如果是自然段中间的句子，既可以和前面的句子合并，也可以和后面的句子合并；对于自然段首的句子只能与后面的句子合并，自然段尾的句子只能和前面的句子合并。如果不能按上述方式合并，或者最终合并结果仍然少于5个字，则直接去掉这个自然段。语句字数不设上限。

为语句设置相应的统一的标识编号。

2.准备输入潜在狄利克雷分配（LDA）模型的数据。

以1形成的语句集合中的每个语句为数据准备的单元。

对语句进行词语切分。在分词处理过程中使用的词典由两个部分组成，即军语词典和通用词典。通用词典的规模不小于4万词，词语选择以词频为依据；军语词典的规模不小于5千。在实际切分处理中，如果遇到军语词典和通用词典的切分歧义，军语词典优先。两类词典中都可以包括字母词和英文词汇等非汉语词汇。

对于切分结果过滤掉固定停用词。本发明中选择所有的汉语单字词为固定停用词。

对于完成上述切分处理和过滤处理的整个文本集合进行词语频度和词语出现语句的文档频次统计。

过滤掉文本集合中的动态停用词。本发明中将文档频次低于3的词语设定为动态停用词。

3.为语句集合建立一个LDA模型。

图2给出了LDA模型的构成，这里外层的框表示一个文本，内层的框表示主题和词语的混合选择：α和β是模型的先验参数；K表示形成的主题个数。

LDA模型的出发点是将各文档表示为K个潜在主题的混合。主题本身是在文本中显式出现，用词汇上的概率分布来捕捉，它的生成过程如下：

1）从Dirichlet分布先验β中为每个主题抽取多项式分布φ_k，共抽取K个分布。

2）从Dirichlet分布先验α中为每个文档抽取多项式分布θ_m，共抽取M个分布。

3）对语句集合中的每个文本和文本中的词汇：

a)从多项式分布θ_m中抽取主题z_m;

b)从多项式分布φ_k中抽取词语w_n;

Dirichlet分布为一族连续的多元概率分布，以数学家LejeuneDirichlet的名字命名，表示为：

Dir (μ | α) = \frac{Γ (Σ_{k = 1}^{K} α_{k})}{Π_{k = 1}^{K} Γ (α_{k})} Π_{k = 1}^{K} μ_{k}^{α_{k} - 1}

其中α＝(α₁…α_K)^T为Dirichlet的分布参数。Γ(x)为伽玛函数，定义为

Γ (x) = {&Integral;}_{0}^{\infty} u^{x - 1} e^{- u} du .

模型中最重要的变量是主题‐词语分布φ_k和文档‐主题分布θ_m。对于这两个参数可以直接使用极大似然法估计，但是这样存在局部极值问题。因此采用Gibbs方法求取。

4.使用Gibbs算法求解获得语句的主题分布和主题的词汇分布。

具体为在语句m中，对于给定的词语w_n，首先利用Gibbs抽样取得词语在主题z上的后验概率P(w_n|z)估计值；在其他词语上的主题分配(z_‐n)确定的情况下，估计该当前词语w_n分配主题j的概率p(z_n=j)；然后边缘化φ_k和θ_m，间接求得φ_k和θ_m的值。下式是具体的说明。

P (z_{n} = j | z_{- n}, w_{m, n}, α, β) = \frac{\frac{C_{w_{- n}, j}^{VK} + β_{w_{n}, j}}{Σ_{v = 1}^{V} (C_{v_{- n}, j}^{VK} + β_{v, j})} \times \frac{C_{m_{- n}, j}^{MK} + α_{m, j}}{Σ_{k = 1}^{K} (C_{m_{- n}, k}^{MK} + α_{m, k})}}{Σ_{j = 1}^{T} \frac{C_{w_{- n}, j}^{VK} + β_{w_{n}, j}}{Σ_{v = 1}^{V} (C_{v_{- n}, j}^{VK} + β_{v, j})} \times \frac{C_{m_{- n}, j}^{MK} + α_{m, j}}{Σ_{v = 1}^{V} (C_{m_{- n}, j}^{MK} + α_{m, k})}}

其中C^VK和C^MK分别为维数为V×K和M×K的数量矩阵，V为词语个数。为词语w分配给主题j的频次，其中不包含当前记号实例n；为语句d_m中分配给主题j的词语个数，其中不包含当前实例n。w_n表示一个特征词语。一旦词语特征分配给了主题j，就增加了给任何特定的特征分配主题j的概率；同样，若主题j在一个文本中使用了多次，则该文本的任意词语分配主题j的概率也将增加。

利用Gibbs抽样方法估计LDA模型中的参数，首先为词语特征在[1…K]主题中随机分配一个主题，构成初始的Markov链，然后对于文本中的所有词语特征根据上面的公式分配主题，获取Markov链的下一个状态，经过多次迭代，Markov链就可以达到稳定状态。

抽样算法估计每个词语与主题z的φ和θ的值，公式如下：

{\hat{φ}}_{w_{n}}^{(z = j)} = \frac{C_{w_{- n}, j}^{VK} + β_{w_{n}, j}}{Σ_{v = 1}^{V} (C_{v_{- n}, j}^{VK} + β_{v, j})}

{\hat{θ}}_{z = j}^{(m)} = \frac{C_{m_{- n}, j}^{MK} + α_{m, j}}{Σ_{k = 1}^{K} (C_{m_{- n}, j}^{MK} + α_{m, k})}

5.LDA模型参数设置

主题数K的设置对LDA模型处理性能影响较大，需要根据语料合理设置。

超参数α和β分别是随机变量θ和参数φ在Dirichlet分布上的先验概率假设，因此在对K值进行设置之前，首先需要选择相应的超参数α和β。本发明对超参数α和β的各个分量统一取值，即采用对称的Dirichlet参数，并根据主题数目取α＝5/K，所有的β取固定的经验值β＝0.01。

分类主题数K采用模型混乱度分析方法进行估计，在一定意义上保证K值具有优越性。

混乱度的计算方法是计算文档集中所包含的各句群的似然值(Likelihood)，进而取它的几何均值的倒数。LDA处理模型混乱度随着句群似然值的增加而单调递减。具体计算公式如下：

Perplexity (D) = \exp {- \frac{Σ_{s = 1}^{N} \log p (S)}{Σ_{s = 1}^{N} N_{s}}}

上式中N为文档集中句群的个数，N_s为句群S中词项的个数，p(S)为句群S中的似然值。这里采用的LDA模型，因而句群的似然值由句群的主题分布和主题的词汇分布给出，具体计算如下：

\log p (S) = Σ_{n = 1}^{N} n (w, S) \cdot {\hat{φ}}_{w}^{(z = j)} \cdot {\hat{θ}}_{z = j}^{(s)}

式中n(w，S)为句群S中词w出现的次数。

可以得到混乱度随主题数变化的曲线，选择混乱度较低的主题数作为候选，进一步利用待处理的真实语料进行实验和人工分析，选择生成的主题具有比较好解释对应的主题数。

6.计算语句的主题隶属度。

利用Gibbs抽样算法进行参数估计，得到语句在主题上的分布以及主题在词汇上的分布再利用这两个分布，可以形成计算语句类别属性的计算方法。

对于类别集C，语句S的隶属度可以表示成P(S|C)，即给定类别集C时语句S的后验概率。根据贝叶斯公式，P(S|C)可表示为：

P (S | C) = \frac{P (C | S) \cdot P (S)}{P (C)}

其中P(C|S)为语句的生成概率，即类别集C由句子S生成的似然概率；P(S)为句子S隶属度的先验概率；P(C)为类别集C的先验概率。将类别集C对应的语句集中的词语作为输入观察序列，则语句由预测类别集的分布构成，因此可以将句子看作类别集的生成模型。类别集的概率P(C)对所有语句都一样，不影响语句的排序，在计算语句分值时将其忽略。同时如果假设语句的先验概率相同，则语句对于类别的隶属度排序分值，只与所属的语句生成概率相关。因此可以根据语句的生成概率P(C|S)对文档中的语句类别进行判定。

7.根据语句的最终的隶属度值确定语句所属的类别，并将类别结果按照对应的语句序号输出，提供后继处理使用。

本发明使用LDA主题模型作为分类处理的语义分析模型，对语句进行建模处理，语句在模型中表示为主题上的概率分布。而LDA模型最终形成的类别是按照数据驱动、根据数据的情况形成的、具有统计学意义的类别，因此语句经过潜在主题的混合之后选取一个或少数几个类别输出，完成语句自动分类处理。

本发明实施例将采用潜在狄利克雷分配（LDA）模型进行语义分析，给出实现自由文本转换格式命令的数据语义处理方法，这一方法将具有基于数据驱动的特征，能够自动获取语义分类信息，形成动态分析处理模式，实现基于语义信息的面向自由文本转换格式命令的语句自动分类处理。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种数据语义处理方法，其特征在于，包括：

将获取的文本分割为语句，并对分割得到的语句进行编号；

根据分割得到的语建立LDA模型；

计算语句的主题隶属度值；

2.根据权利要求1所述的方法，其特征在于，所述根据分割得到的语建立LDA模型之前还包括：输入潜在狄利克雷分配LDA模型的数据；具体地：

3.根据权利要求1所述的方法，其特征在于，所述计算语句的主题隶属度值之前还包括：LDA模型参数设置；具体地：

Perplexity (D) = \exp {- \frac{Σ_{s = 1}^{N} \log p (S)}{Σ_{s = 1}^{N} N_{s}}}

\log p (S) = Σ_{n = 1}^{N} n (w, S) \cdot {\hat{φ}}_{w}^{(z = j)} \cdot {\hat{θ}}_{z = j}^{(s)}

式中n(w，S)为句群S中词w出现的次数；

4.根据权利要求1所述的方法，其特征在于，所述将获取的文本分割为语句包括：

获取预存的文本；

5.根据权利要求1所述的方法，其特征在于，所述根据分割得到的语建立LDA模型包括：

6.根据权利要求1所述的方法，其特征在于，所述应用Gibbs算法求解获得LDA模型中语句的主题分布和主题的词汇分布包括：

7.根据权利要求6所述的方法，其特征在于，还包括：

抽样算法估计每个词语与主题z的φ和θ的值，公式如下：

{\hat{φ}}_{w_{n}}^{(z = j)} = \frac{C_{w_{- n}, j}^{VK} + β_{w_{n}, j}}{Σ_{v = 1}^{V} (C_{v_{- n}, j}^{VK} + β_{v, j})}

{\hat{θ}}_{z = j}^{(m)} = \frac{C_{m_{- n}, j}^{MK} + α_{m, j}}{Σ_{k = 1}^{K} (C_{m_{- n}, j}^{MK} + α_{m, k})}

8.根据权利要求1所述的方法，其特征在于，所述计算语句的主题隶属度值包括：

P (S | C) = \frac{P (C | S) \cdot P (S)}{P (C)}