CN109710937A

CN109710937A - 依存句法树构建系统

Info

Publication number: CN109710937A
Application number: CN201811617007.2A
Authority: CN
Inventors: 石进; 韩进; 金鹏
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2018-12-27
Filing date: 2018-12-27
Publication date: 2019-05-03

Abstract

本发明涉及语境核心词提取领域，具体为一种基于语境的依存句法树构建系统，其包括：获取模块，获取句子；切分模块，通过核心词判断将句子切分形成片段序列；语境归属模块，判断片段序列之间的中间词的归属语境；最小语境集合模块，去除单个词的语境，以获得最小语境集合；以及构建依存句法树模块，基于最小语境集合构建依存句法树。实现了基于最小语境进行依存句法树的构建。

Description

依存句法树构建系统

技术领域

本发明涉及语境核心词提取领域，具体为一种基于语境的依存句法树构建系统。

背景技术

关键词提取领域有很多的研究成果，主要可以分为基于统计的方法、基于机器学习的方法与基于语义的方法。在基于语义相关性的关键词提取算法，通过词共现信息计算短语之间的语义相关度，将文件描绘成一个相关度图。基于语义分析的关键词提取方法虽然比前两种方法提取的关键词质量更高，但还存在着词义消歧的问题，难以获得最小语境。

基于上述技术问题，需要设计一种新的基于语境的依存句法树构建系统。

发明内容

本发明的目的是提供一种基于语境的依存句法树构建系统。

为了解决上述技术问题，本发明提供了一种基于语境的依存句法树构建系统，包括：

获取模块，获取句子；

切分模块，通过核心词判断将句子切分形成片段序列；

语境归属模块，判断片段序列之间的中间词的归属语境；

最小语境集合模块，去除单个词的语境，以获得最小语境集合；以及

构建依存句法树模块，基于最小语境集合构建依存句法树。

进一步，所述获取模块适于获取句子，即

初始化词字典，针对训练文本集中每个文本D，将文本D拆分成句子集合S。

进一步，所述切分模块适于通过核心词判断将句子切分形成片段序列，即基于熵对比的语境核心词判断算法将句子切分形成片段序列，即

遍历句子集合S，将其中每一个句子拆分成n个词形成词集合W_S；

针对词集合W_S中每个词w_i，i∈n计算其与词集合中任一词的共现次数；

查找词字典中词w_i，将词w_i与词集合W_S中的其它词w_j，j∈n按<w_j，count>累加；

针对词字典，进行遍历，求出每个词w_i的语境共现频率向量V_i，即将所有与词w_i具有共现关系的词，基于公式：其中w_j∈W_S且w_j≠w_i，m∈n，m＝n-1，获得语境共现频率向量V_i；

式中为其它词w_j的共现频率，为其它词w_j和词w_i的共现次数；

基于公式计算出每个词w_i的语境共现熵值H(V_i)，完成整个文本的训练；

针对文本集进行文本分类处理后得到的文本分类集中任一句子集合S，将其拆分成词集合W_S，遍历其中每个词w_i，根据词字典中词w_i对应的熵，逐一比较各词的语境共现熵值，具有最大语境共现熵值的词即为核心词；

基于各词的语境共现熵值按照各词在句中的位置生成折线图，在折线图中的拐点处的相邻词的语境共现熵值均大于拐点处的词的语境共现熵值，则按拐点将折线图切分成各个片段，形成片段序列。

进一步，所述语境归属模块适于判断片段序列之间的中间词的归属语境，即

相邻二个片段序列之间的中间词归属于语境共现熵值较大的核心词所在的片段序列对应的语境。

进一步，所述切分模块适于通过核心词判断将句子切分形成片段序列，即基于入度和比较的语境核心词判断算法将句子切分形成片段序列，即将一个句子S′拆分成n′个词形成词集合W_S′′；

遍历词集合W_S′′中每一个词w_i′′，求出每个词w_i′′的语境共现频率向量V_i′′，即将所有与词w_i′′具有共现关系的词，基于公式：其中w_i′′，w_j′′∈W_S′′且w_j′′≠w_i′′，m′＝n′-1，i′，j′，m′∈n′，获得语境共现频率向量V_i′′；式中：为其他词w_j′′的共现频率，为其他词w_j′′和词ω_i′′的共现次数；

将语境共现频率向量V_i′′对应词集合W_S′′中所有词的入度V_i′j′′，组成来源词为ω_i′′的入度向量；V_i′j′′为来源词为ω_i′′时，词ω_i′′与词w_j′′共现的次数占词w_i′′与所有词共现次数的比例；

将各词的入度向量按序号排列成矩阵，形成对应句子S′的入度矩阵，序号中列序号为j′，行序号为i′，i′为来源词为ω_i′′的入度向量，j′为对应词w_j′′的入度；

针对入度矩阵中的每一列j′求和，则为对应词w_j′′的入度和；

取入度和最大的词为句子S′的语境核心词；

基于各词的入度和按照各词在句中的位置生成折线图，在折线图中的拐点处的相邻词的入度和均大于拐点处的词的入度和，则按拐点将折线图切分成各个片段，形成片段序列。

假设二个片段序列之间的词为w_x′′，相邻二个片段序列的核心词分别为w_y′′与w_z′′，则判断V_z′x′′与V_y′x′′的大小，词w_x′′归属入度较大的核心词对应的片段序列语境中，w_x′′，w_z′′，w_y′′∈W_S′′，x′，z′，y′∈n′；

当V_z′x′′与V_y′x′′大小相同时，则比较V_x′z′′与V_x′y′′的大小，词w_x′′归属入度较小的核心词对应的片段序列语境中；

其中，V_z′x′′与V_y′x′′为来源词w_x′′分别相对核心词w_z′′与核心词w_y′′的入度；V_x′z′′与V_x′y′′为来源词分别为核心词w_z′′与w_y′′相对于词w_x′′的入度。

进一步，所述最小语境集合模块适于去除单个词的语境，以获得最小语境集合，即

将只包含单个词的语境进行判断中间词的归属语境，直至不存在单个词的语境，所剩余的各语境即为最小语境集合。

进一步，所述构建依存句法树模块适于基于最小语境集合构建依存句法树，即

将最小语境集合中每个语境的核心词按句子中的位置排序组成一个新句子，再进过获取模块适于获取句子、切分模块适于通过核心词判断将句子切分形成片段序列、语境归属模块适于判断片段序列之间的中间词的归属语境、最小语境集合模块适于去除单个词的语境以获得最小语境集合后，求出新的最小语境，然后进行循环迭代，直到仅有一个最小语境为止，最后再按最小语境的生成层次组合成一个句子的依存句法树。

本发明的有益效果是，本发明通过获取模块，获取句子；切分模块，通过核心词判断将句子切分形成片段序列；语境归属模块，判断片段序列之间的中间词的归属语境；最小语境集合模块，去除单个词的语境，以获得最小语境集合；以及构建依存句法树模块，基于最小语境集合构建依存句法树，实现了基于最小语境进行依存句法树的构建。

附图说明

下面结合附图和实施例对本发明进一步说明。

图1是本发明所涉及的基于语境的依存句法树构建系统的原理框图；

图2是本发明所涉及的基于语境的依存句法树构建系统的工作流程图。

具体实施方式

现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图，仅以示意方式说明本发明的基本结构，因此其仅显示与本发明有关的构成。

实施例1

图1是本发明所涉及的基于语境的依存句法树构建系统的原理框图。

如图1所示，本实施例提供了一种基于语境的依存句法树构建系统，包括：获取模块，获取句子；切分模块，通过核心词判断将句子切分形成片段序列；语境归属模块，判断片段序列之间的中间词的归属语境；最小语境集合模块，去除单个词的语境，以获得最小语境集合；以及构建依存句法树模块，基于最小语境集合构建依存句法树，实现了基于最小语境进行依存句法树的构建。

在本实施例中，基于语境的依存句法树的构建可以通过终端辅助完成；所述终端可以但不限于采用计算机，以对基于语境的依存句法树的构建进行辅助；终端可以包括存储器、存储控制器、处理器、外设接口、显示触摸屏。

存储器、存储控制器、处理器、外设接口、显示触摸屏各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可以通过一条或多条通讯总线或信号线实现电性连接。获取模块、切分模块、语境归属模块、最小语境集合模块以及构建依存句法树模块可以包括至少一个可以软件或固件的形式存储于存储器中或固化在终端的操作系统中的软件模块。

其中，存储器可以是，但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-OnlyMemory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。其中，存储器用于存储程序，处理器在接收到执行指令后，执行所述程序。处理器以及其他可能的组件对存储器的访问可以在存储控制器的控制下进行。

处理器可能是一种集成电路芯片，具有信号的处理能力。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(NetworkProcessor，NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

外设接口将各种输入/输出装置耦合至处理器以及存储器。在一些实施例中，外设接口、处理器以及存储控制器可以在单个芯片中实现，在其他一些实施例中，他们可以分别由独立的芯片实现。

显示触摸屏用于接收外部的触摸操作，并将外部操作发送给处理器处理，从而将外部表示的操作转化为相应控制指令；例如在本实施例中，研究人员可以通过显示触摸屏输入所需训练的文本集。

可以理解，图1所示的结构仅为示意，终端还可以包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或者其组合实现。

如图2所示，在本实施例中，所述获取模块适于获取句子，即初始化词字典，针对训练文本集中每个文本D，将文本D拆分成句子集合S。

在本实施例中，通过核心词判断将句子切分形成片段序列可以通过两种优选的实施方式实现，即基于熵对比的语境核心词判断算法将句子切分形成片段序列和基于入度和比较的语境核心词判断算法将句子切分形成片段序列，同时对应两种不同的通过核心词判断将句子切分形成片段序列得实施方式，还有两种判断片段序列之间的中间词的归属语境的优选实施方式。

在本实施例中，所述切分模块适于通过核心词判断将句子切分形成片段序列，即基于熵对比的语境核心词判断算法将句子切分形成片段序列，即遍历句子集合S，将其中每一个句子拆分成n个词形成词集合W_S；针对词集合W_S中每个词w_i，i∈n计算其与词集合中任一词的共现次数；查找词字典中词w_i，将词w_i与词集合W_S中的其它词w_j，j∈n按<w_j，count>累加；针对词字典，进行遍历，求出每个词w_i的语境共现频率向量V_i，即将所有与词w_i具有共现关系的词，基于公式：其中w_j∈W_S且w_j≠w_i，m∈n，m＝n-1，获得语境共现频率向量V_i；式中：为其他词w_j的共现频率；为其他词w_j和词w_i的共现次数；基于公式计算出每个词的语境共现熵值H(V_i)，完成整个文本的训练；针对文本集进行文本分类处理后得到的文本分类集中任一句子集合S，将其拆分成词集合W_S，遍历其中每个词w_i，根据词字典中词w_i对应的熵，逐一比较各词的语境共现熵值，具有最大语境共现熵值的词即为核心词；基于各词的语境共现熵值按照各词在句中的位置生成折线图，在折线图中的拐点处的相邻词的语境共现熵值均大于拐点处的词的语境共现熵值，则按拐点将折线图切分成各个片段，形成片段序列；

语境中的核心词都是以同一背景知识与语境中其它词相连接，即背景知识应具有高可相容性，否则核心词无法与其所在语境中的其它词都产生背景知识链接；因此，核心词的语境共现频率向量中会出现很多与之链接的词；并且词的语境共现频率向量的频率会在文本集词典Vocabulary分布的相对均匀；因此核心词对应的语境共现熵值会相对较大；而非核心词虽然可能具有多个背景知识，由于其为非核心词，背景知识只能附接到语境的核心词中，因为一个文本集中语境的个数是有限的，同时与非核心词相连接的核心词个数也是有限的，所以非核心词对应的语境共现熵值会相对较小。

在本实施例中，所述语境归属模块适于判断片段序列之间的中间词的归属语境，即相邻二个片段序列之间的中间词归属于语境共现熵值较大的核心词所在的片段序列对应的语境；因为语境共现熵值代表核心词的背景知识相容能力的强弱，语境共现熵值越高，核心词背景知识的相容能力越强，也即片段之间的词修饰该核心词的概率越大。

在本实施例中，所述切分模块适于通过核心词判断将句子切分形成片段序列，即基于入度和比较的语境核心词判断算法将句子切分形成片段序列；即将一个句子S′拆分成n′个词形成词集合W_S′′；遍历词集合W_S′′中每一个词w_i′′，求出每个词w_i′′的语境共现频率向量V_i′′，即将所有与词w_i′′具有共现关系的词，基于公式：其中w_i′′，w_j′′∈W_S′′且w_j′′≠w_i′′，m′＝n′-1，i′，j′，m′∈n′，获得语境共现频率向量V_i′′；式中：为其他词w_j′′的共现频率；为其他词w_j′′和词w_i′′的共现次数；将语境共现频率向量V_i′′对应词集合W_S′′中所有词的入度V_i′j′′，组成来源词为w_i′′的入度向量；V_i′j′′为来源词为w_i′′时，词w_i′′与词w_j′′共现的次数占词w_i′′与所有词共现次数的比例；将各词的入度向量按序号排列成矩阵，形成对应句子S′的入度矩阵，序号中列序号为j′，行序号为i′，i′为来源词为w_i′′的入度向量，j′为对应词w_j′′的入度；针对入度矩阵中的每一列j′求和，则为对应词w_j′′的入度和；取入度和最大的词为句子S′的语境核心词；基于各词的入度和按照各词在句中的位置生成折线图，在折线图中的拐点处的相邻词的入度和均大于拐点处的词的入度和，则按拐点将折线图切分成各个片段，形成片段序列；

由于词w_i′′与词w_i′′在一个文本集中共现的次数是一定的，也即公式中相同，所不同的在于分母；分母越大越小，则入度越小，表示入度的来源词在文本集中与其它所有词的总共现次数越多；核心词由于背景知识的逻辑相容性越高，所以与其它词逻辑相容连接的概率越大，因此核心词相对于非核心词在概率上词的语境共现次数总和越大。

在本实施例中，所述语境归属模块适于判断片段序列之间的中间词的归属语境，即假设二个片段序列之间的词为w_x′′，相邻二个片段序列的核心词分别为w_y′′与w_z′′，则判断V_z′x′′与V_i′x′′的大小，词w_x′′归属入度较大的核心词对应的片段序列语境中，w_x′′，w_z′′，w_y′′∈W_S′′，x′，z′，y′∈n′；当V_z′x′′与V_y′x′′大小相同时(一般情况下同时为0)，则比较V_x′z′′与V_x′y′′的大小，词w_x′′归属入度较小的核心词对应的片段序列语境中；其中，V_z′x′′与V_y′x′′为来源词w_x′′分别相对核心词w_z′′与核心词w_y′′的入度；V_x′z′′与V_x′y′′为来源词分别为核心词w_z′′与w_y′′相对于词w_x′′的入度。

在本实施例中，所述最小语境集合模块适于去除单个词的语境，以获得最小语境集合，即将只包含单个词的语境进行判断中间词的归属语境，直至不存在单个词的语境，所剩余的各语境即为最小语境集合；由于最小语境作为底层的语境单位，它相对于其它大尺度的语境而言，更接近于文本的语义；因为语境用来表述文本的背景知识，语境越小代表该语境与其它语境的区分越细，因此，也越接近于文本的语义。

在本实施例中，所述构建依存句法树模块适于基于最小语境集合构建依存句法树，即将最小语境集合中每个语境的核心词按句子中的位置排序组成一个新句子，再进过获取模块适于获取句子、切分模块适于通过核心词判断将句子切分形成片段序列、语境归属模块适于判断片段序列之间的中间词的归属语境、最小语境集合模块适于去除单个词的语境以获得最小语境集合后，求出新的最小语境，然后进行循环迭代，直到仅有一个最小语境为止，最后再按最小语境的生成层次组合成一个句子的依存句法树。

本实施例给出了文本分析与信息提取研究中很常用的概念N-Gram中的N值的判断依据，最小语境树对应的文本片段为N-Gram中的用以分析词上下文的片段，显然最小语境树中包含的词大小是不断变化的，因此，N-Gram采用固定值来设定一个词的上下文会造成上层算法训练和学习一定的偏差，故本实施例可以通过最小语境树求解解决了这个问题。

综上所述，获取模块，获取句子；切分模块，通过核心词判断将句子切分形成片段序列；语境归属模块，判断片段序列之间的中间词的归属语境；最小语境集合模块，去除单个词的语境，以获得最小语境集合；以及构建依存句法树模块，基于最小语境集合构建依存句法树，实现了基于最小语境进行依存句法树的构建。

通过依存句法树构建过程中对于最小语境的求解，获取了最接近文本语义的语境。

以上述依据本发明的理想实施例为启示，通过上述的说明内容，相关工作人员完全可以在不偏离本项发明技术思想的范围内，进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容，必须要根据权利要求范围来确定其技术性范围。

Claims

1.一种依存句法树构建系统，其特征在于，包括：

获取模块，获取句子；

切分模块，通过核心词判断将句子切分形成片段序列；

语境归属模块，判断片段序列之间的中间词的归属语境；

构建依存句法树模块，基于最小语境集合构建依存句法树。

2.如权利要求1所述的基于语境的依存句法树构建系统，其特征在于，

所述获取模块适于获取句子，即

3.如权利要求2所述的基于语境的依存句法树构建系统，其特征在于，

所述切分模块适于通过核心词判断将句子切分形成片段序列，即

查找词字典中词w_i，将词w_i与词集合W_S中的其它词w_j，j∈n按<w_j，couni>累加；

针对词字典，进行遍历，求出每个词w_i的语境共现频率向量V_i，即将所有与词w_i具有共现关系的词，基于公式：其中w_j∈W_S且w_j≠w_i，m∈n.m＝n-1，获得语境共现频率向量V_i；

4.如权利要求3所述的基于语境的依存句法树构建系统，其特征在于，

所述语境归属模块适于判断片段序列之间的中间词的归属语境，即

5.如权利要求2所述的基于语境的依存句法树构建系统，其特征在于，

基于入度和比较的语境核心词判断算法将句子切分形成片段序列，即

将一个句子S′拆分成n′个词形成词集合W_S′′；

取入度和最大的词为句子S′的语境核心词；

6.如权利要求5所述的基于语境的依存句法树构建系统，其特征在于，

7.如权利要求4或权利要求6所述的基于语境的依存句法树构建系统，其特征在于，

所述最小语境集合模块适于去除单个词的语境，以获得最小语境集合，即

8.如权利要求7所述的基于语境的依存句法树构建系统，其特征在于，

所述构建依存句法树模块适于基于最小语境集合构建依存句法树，即