CN109684644A

CN109684644A - 基于语境的依存句法树的构建方法

Info

Publication number: CN109684644A
Application number: CN201811617009.1A
Authority: CN
Inventors: 石进; 韩进; 金鹏
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2018-12-27
Filing date: 2018-12-27
Publication date: 2019-04-26

Abstract

本发明涉及语境核心词提取领域，具体为一种基于语境的依存句法树的构建方法，其包括：步骤S100，获取句子；步骤S200，通过核心词判断将句子切分形成片段序列；步骤S300，判断片段序列之间的中间词的归属语境；步骤S400，去除单个词的语境，获得最小语境集合；以及步骤S500，基于最小语境集合构建依存句法树。实现了基于核心词进行依存句法树的构建。

Description

基于语境的依存句法树的构建方法

技术领域

本发明涉及语境核心词提取领域，具体为一种基于语境的依存句法树的构建方法。

背景技术

当前国内外对于语境核心词提取算法的研究较少，更多的是对于关键词提取算法的研究。基于核心词构建依存句法树对于文本特征提取具有良好的性能。

基于上述技术问题，需要设计一种新的基于语境的依存句法树的构建方法。

发明内容

本发明的目的是提供一种基于语境的依存句法树的构建方法。

为了解决上述技术问题，本发明提供了一种基于语境的依存句法树的构建方法，包括：

步骤S100，获取句子；

步骤S200，通过核心词判断将句子切分形成片段序列；

步骤S300，判断片段序列之间的中间词的归属语境；

步骤S400，去除单个词的语境，获得最小语境集合；以及

步骤S500，基于最小语境集合构建依存句法树。

进一步，所述步骤S100中获取句子的方法包括：

初始化词字典，针对训练文本集中每个文本D，将文本D拆分成句子集合S。

进一步，所述步骤S200中通过核心词判断将句子切分形成片段序列的方法包括：

基于熵对比的语境核心词判断算法将句子切分形成片段序列，即

步骤S201，遍历句子集合S，将其中每一个句子拆分成n个词形成词集合W_S；

步骤S202，针对词集合W_S中每个词w_i，i∈n计算其与词集合中任一词的共现次数；

步骤S203，查找词字典中词w_i，将词w_i与词集合W_S中的其它词w_j，j∈n按<w_j，count>累加；

步骤S204，针对词字典，进行遍历，求出每个词w_i的语境共现频率向量V_i，即将所有与词w_i具有共现关系的词，基于公式：其中w_j∈W_S且w_j≠w_i，m∈n，m＝n-1，获得语境共现频率向量V_i；

式中：为其他词w_j的共现频率；为其他词w_j和词w_i的共现次数；

步骤S205，基于公式计算出每个词的语境共现熵值H(V_i)，完成整个文本的训练；

步骤S206，针对文本集进行文本分类处理后得到的文本分类集中任一句子集合S，将其拆分成词集合W_S，遍历其中每个词w_i，根据词字典中词w_i对应的熵，逐一比较各词的语境共现熵值，具有最大语境共现熵值的词即为核心词；

步骤S207，基于各词的语境共现熵值按照各词在句中的位置生成折线图，在折线图中的拐点处的相邻词的语境共现熵值均大于拐点处的词的语境共现熵值，则按拐点将折线图切分成各个片段，形成片段序列。

进一步，所述步骤S300中判断片段序列之间的中间词的归属语境的方法包括：

相邻二个片段序列之间的中间词归属于语境共现熵值较大的核心词所在的片段序列对应的语境。

进一步，所述步骤S200中通过核心词判断将句子切分形成片段序列的方法还包括：基于入度和比较的语境核心词判断算法将句子切分形成片段序列为；即

步骤S201，将一个句子S′拆分成n′个词形成词集合W_S′′；

步骤S202，遍历词集合W_S′′中每一个词w_i′′，求出每个词w_i′′的语境共现频率向量V_i′′，即将所有与词w_i′′具有共现关系的词，基于公式：

其中w_i′′，w_j′′∈W_S′′且w_j′′≠w_i′′，m′＝n′-1，i′，j′，m′∈n′，获得语境共现频率向量V_i′′；式中：为其他词w_j′′的共现频率，为其他词w_j′′和词w_i′′的共现次数；

步骤S203，将语境共现频率向量V_i′′对应词集合W_S′′中所有词的入度V_i′j′′，组成来源词为w_i′′的入度向量；V_i′j′′为来源词为w_i′′时，词w_i′′与词w_j′′共现的次数占词w_i′′与所有词共现次数的比例；

步骤S204，将各词的入度向量按序号排列成矩阵，形成对应句子S′的入度矩阵，序号中列序号为j′，行序号为i′，i′为来源词为w_i′′的入度向量，j′为对应词w_j′′的入度；

步骤S205，针对入度矩阵中的每一列j′求和，则为对应词w_j′′的入度和；

步骤S206，取入度和最大的词为句子S′的语境核心词；

步骤S207，基于各词的入度和按照各词在句中的位置生成折线图，在折线图中的拐点处的相邻词的入度和均大于拐点处的词的入度和，则按拐点将折线图切分成各个片段，形成片段序列。

进一步，所述步骤S300中判断片段序列之间的中间词的归属语境的方法还包括：

假设二个片段序列之间的词为w_x′′，相邻二个片段序列的核心词分别为w_y′′与w_z′′，则判断V_z′x′′与V_y′x′′的大小，词w_x′′归属入度较大的核心词对应的片段序列语境中，w_x′′，w_z′′，w_y′′∈W_S′′，x′，z′，y′∈n′；

当V_z′x′′与V_y′x′′大小相同时，则比较V_x′z′′与V_x′y′′的大小，词w_x′′归属入度较小的核心词对应的片段序列语境中；

其中，V_z′x′′与V_y′x′′为来源词w_x′′分别相对核心词w_z′′与核心词w_y′′的入度；V_x′z′′与V_x′y′′为来源词分别为核心词w_z′′与w_y′′相对于词w_x′′的入度。

进一步，所述步骤S400中去除单个词的语境，获得最小语境集合的方法包括：将只包含单个词的语境进行判断中间词的归属语境，直至不存在单个词的语境，所剩余的各语境即为最小语境集合。

进一步，所述步骤S500中基于最小语境集合构建依存句法树的方法包括：将最小语境集合中每个语境的核心词按句子中的位置排序组成一个新句子，重复步骤S100到步骤S400，求出新的最小语境，然后进行循环迭代，直到仅有一个最小语境为止，最后再按最小语境的生成层次组合成一个句子的依存句法树。

本发明的有益效果是，本发明通过步骤S100，获取句子；步骤S200，通过核心词判断将句子切分形成片段序列；步骤S300，判断片段序列之间的中间词的归属语境；步骤S400，去除单个词的语境，获得最小语境集合；以及步骤S500，基于最小语境集合构建依存句法树；实现了基于核心词进行依存句法树的构建。

附图说明

下面结合附图和实施例对本发明进一步说明。

图1是本发明所涉及的基于语境的依存句法树的构建方法的流程图。

具体实施方式

现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图，仅以示意方式说明本发明的基本结构，因此其仅显示与本发明有关的构成。

实施例1

如图1所示，本实施例提供了一种基于语境的依存句法树的构建方法，包括：步骤S100，获取句子；步骤S200，通过核心词判断将句子切分形成片段序列；步骤S300，判断片段序列之间的中间词的归属语境；步骤S400，去除单个词的语境，获得最小语境集合；以及步骤S500，基于最小语境集合构建依存句法树，实现了基于核心词进行依存句法树的构建。

在本实施例中，所述步骤S100，获取句子的方法包括：初始化词字典，针对训练文本集中每个文本D，将文本D拆分成句子集合S。

在本实施例中，所述步骤S200中通过核心词判断将句子切分形成片段序列的方法包括：基于熵对比的语境核心词判断算法将句子切分形成片段序列，即步骤S201，遍历句子集合S，将其中每一个句子拆分成n个词形成词集合W_S；步骤S202，针对词集合W_S中每个词w_i，i∈n计算其与词集合中任一词的共现次数；步骤S203，查找词字典中词w_i，将词w_i与词集合W_S中的其它词w_j，j∈n按<w_j，count>累加；步骤S204，针对词字典，进行遍历，求出每个词w_i的语境共现频率向量V_i，即将所有与词w_i具有共现关系的词，基于公式：其中w_j∈W_S且w_j≠w_i，m∈n，m＝n-1，获得语境共现频率向量V_i；式中：为其他词w_j的共现频率；为其他词w_j和词w_i的共现次数；步骤S205，基于公式计算出每个词的语境共现熵值H(V_i)，完成整个文本的训练；步骤S206，针对文本集进行文本分类处理后得到的文本分类集中任一句子集合S，将其拆分成词集合W_S，遍历其中每个词w_i，根据词字典中词w_i对应的熵，逐一比较各词的语境共现熵值，具有最大语境共现熵值的词即为核心词；步骤S207，基于各词的语境共现熵值按照各词在句中的位置生成折线图，在折线图中的拐点处的相邻词的语境共现熵值均大于拐点处的词的语境共现熵值，则按拐点将折线图切分成各个片段，形成片段序列；

语境中的核心词都是以同一背景知识与语境中其它词相连接，即背景知识应具有高可相容性，否则核心词无法与其所在语境中的其它词都产生背景知识链接；因此，核心词的语境共现频率向量中会出现很多与之链接的词；并且词的语境共现频率向量的频率会在文本集词典Vocabulary分布的相对均匀；因此核心词对应的语境共现熵值会相对较大；而非核心词虽然可能具有多个背景知识，由于其为非核心词，背景知识只能附接到语境的核心词中，因为一个文本集中语境的个数是有限的，同时与非核心词相连接的核心词个数也是有限的，所以非核心词对应的语境共现熵值会相对较小。

在本实施例中，所述步骤S300中判断片段序列之间的中间词的归属语境的方法包括：相邻二个片段序列之间的中间词归属于语境共现熵值较大的核心词所在的片段序列对应的语境；因为语境共现熵值代表核心词的背景知识相容能力的强弱，语境共现熵值越高，核心词背景知识的相容能力越强，也即片段之间的词修饰该核心词的概率越大。

在本实施例中，所述步骤S200中通过核心词判断将句子切分形成片段序列的方法还包括：基于入度和比较的语境核心词判断算法将句子切分形成片段序列为；即步骤S201，将一个句子S′拆分成n′个词形成词集合W_S′′；步骤S202，遍历词集合W_S′′中每一个词w_i′′，求出每个词w_i′′的语境共现频率向量V_i′′，即将所有与词w_i′′具有共现关系的词，基于公式：其中w_i′′，w_j′′∈W_S′′且w_j′′≠w_i′′，m′＝n′-1，i′，j′，m′∈n′，获得语境共现频率向量V_i′′；式中：为其他词w_j′′的共现频率；为其他词w_j′′和词w_i′′的共现次数；步骤S203，将语境共现频率向量V_i′′对应词集合W_S′′中所有词的入度V_i′j′′，组成来源词为w_i′′的入度向量；V_i′j′′为来源词为w_i′′时，词w_i′′与词w_j′′共现的次数占词w_i′′与所有词共现次数的比例；步骤S204，将各词的入度向量按序号排列成矩阵，形成对应句子S′的入度矩阵，序号中列序号为j′，行序号为i′，i′为来源词为w_i′′的入度向量，j′为对应词w_j′′的入度；步骤S205，针对入度矩阵中的每一列j′求和，则为对应词w_j′′的入度和；步骤S206，取入度和最大的词为句子S′的语境核心词；步骤S207，基于各词的入度和按照各词在句中的位置生成折线图，在折线图中的拐点处的相邻词的入度和均大于拐点处的词的入度和，则按拐点将折线图切分成各个片段，形成片段序列；

由于词w_i′′与词w_j′′在一个文本集中共现的次数是一定的，也即公式中相同，所不同的在于分母；分母越大越小，则入度越小，表示入度的来源词在文本集中与其它所有词的总共现次数越多；核心词由于背景知识的逻辑相容性越高，所以与其它词逻辑相容连接的概率越大，因此核心词相对于非核心词在概率上词的语境共现次数总和越大。

在本实施例中，所述步骤S300中判断片段序列之间的中间词的归属语境的方法还包括：假设二个片段序列之间的词为w_x′′，相邻二个片段序列的核心词分别为w_y′′与w_z′′，则判断V_z′x′′与V_y′z′′的大小，词w_x′′归属入度较大的核心词对应的片段序列语境中，w_x′′，w_z′′，w_y′′∈W_S′′，x′，z′，y′∈n′；当V_z′x′′与V_y′x′′大小相同时(一般情况下同时为0)，则比较V_x′z′′与V_x′y′′的大小，词w_x′′归属入度较小的核心词对应的片段序列语境中；其中，V_z′x′′与V_y′x′′为来源词w_x′′分别相对核心词w_z′′与核心词w_y′′的入度；V_x′z′′与V_x′y′′为来源词分别为核心词w_z′′与w_y′′相对于词w_x′′的入度。

在本实施例中，所述步骤S400中去除单个词的语境，获得最小语境集合的方法包括：将只包含单个词的语境进行判断中间词的归属语境，直至不存在单个词的语境，所剩余的各语境即为最小语境集合；由于最小语境作为底层的语境单位，它相对于其它大尺度的语境而言，更接近于文本的语义；因为语境用来表述文本的背景知识，语境越小代表该语境与其它语境的区分越细，因此，也越接近于文本的语义。

在本实施例中，所述步骤S500中基于最小语境集合构建依存句法树的方法包括：将最小语境集合中每个语境的核心词按句子中的位置排序组成一个新句子，重复步骤S100到步骤S400，求出新的最小语境，然后进行循环迭代，直到仅有一个最小语境为止，最后再按最小语境的生成层次组合成一个句子的依存句法树；通过依存句法树的构建，可以更好的提取核心词。

本实施例给出了文本分析与信息提取研究中很常用的概念N-Gram中的N值的判断依据，最小语境树对应的文本片段为N-Gram中的用以分析词上下文的片段，显然最小语境树中包含的词大小是不断变化的，因此，N-Gram采用固定值来设定一个词的上下文会造成上层算法训练和学习一定的偏差，故本实施例可以通过最小语境树求解解决了这个问题。

综上所述，本发明通过步骤S100，获取句子；步骤S200，通过核心词判断将句子切分形成片段序列；步骤S300，判断片段序列之间的中间词的归属语境；步骤S400，去除单个词的语境，获得最小语境集合；以及步骤S500，基于最小语境集合构建依存句法树，实现了基于核心词进行依存句法树的构建。

通过依存句法树构建过程中对于最小语境的求解，获取了最接近文本语义的语境。

以上述依据本发明的理想实施例为启示，通过上述的说明内容，相关工作人员完全可以在不偏离本项发明技术思想的范围内，进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容，必须要根据权利要求范围来确定其技术性范围。

Claims

1.一种基于语境的依存句法树的构建方法，其特征在于，包括：

步骤S100，获取句子；

步骤S200，通过核心词判断将句子切分形成片段序列；

步骤S300，判断片段序列之间的中间词的归属语境；

步骤S400，去除单个词的语境，获得最小语境集合；以及

步骤S500，基于最小语境集合构建依存句法树。

2.如权利要求1所述的基于语境的依存句法树的构建方法，其特征在于，

所述步骤S100中获取句子的方法包括：

3.如权利要求2所述的基于语境的依存句法树的构建方法，其特征在于，

所述步骤S200中通过核心词判断将句子切分形成片段序列的方法包括：

式中为其它词w_j的共现频率，为其它词w_j和词w_i的共现次数；

步骤S205，基于公式计算出每个词w_i的语境共现熵值H(V_i)，完成整个文本的训练；

4.如权利要求3所述的基于语境的依存句法树的构建方法，其特征在于，

所述步骤S300中判断片段序列之间的中间词的归属语境的方法包括：

5.如权利要求2所述的基于语境的依存句法树的构建方法，其特征在于，

所述步骤S200中通过核心词判断将句子切分形成片段序列的方法还包括：基于入度和比较的语境核心词判断算法将句子切分形成片段序列为；即

步骤S201，将一个句子S′拆分成n′个词形成词集合W_S′′；

步骤S205，针对入度矩阵中的每一列j′求和，则为对应词w_i′′的入度和；

步骤S206，取入度和最大的词为句子S′的语境核心词；

6.如权利要求5所述的基于语境的依存句法树的构建方法，其特征在于，

所述步骤S300中判断片段序列之间的中间词的归属语境的方法还包括：

7.如权利要求4或权利要求6所述的基于语境的依存句法树的构建方法，其特征在于，

所述步骤S400中去除单个词的语境，获得最小语境集合的方法包括：

将只包含单个词的语境进行判断中间词的归属语境，直至不存在单个词的语境，所剩余的各语境即为最小语境集合。

8.如权利要求7所述的基于语境的依存句法树的构建方法，其特征在于，

所述步骤S500中基于最小语境集合构建依存句法树的方法包括：

将最小语境集合中每个语境的核心词按句子中的位置排序组成一个新句子，重复步骤S100到步骤S400，求出新的最小语境，然后进行循环迭代，直到仅有一个最小语境为止，最后再按最小语境的生成层次组合成一个句子的依存句法树。