CN110245349A - 一种句法依存分析方法、装置及一种电子设备 - Google Patents

一种句法依存分析方法、装置及一种电子设备 Download PDF

Info

Publication number
CN110245349A
CN110245349A CN201910424467.1A CN201910424467A CN110245349A CN 110245349 A CN110245349 A CN 110245349A CN 201910424467 A CN201910424467 A CN 201910424467A CN 110245349 A CN110245349 A CN 110245349A
Authority
CN
China
Prior art keywords
node
label
text information
dependence
leaf
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910424467.1A
Other languages
English (en)
Other versions
CN110245349B (zh
Inventor
刘健博
王忠璐
文卫东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Shubo Technology Co ltd
Wuhan University WHU
Original Assignee
Wuhan Digital Science And Technology LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Digital Science And Technology LLC filed Critical Wuhan Digital Science And Technology LLC
Priority to CN201910424467.1A priority Critical patent/CN110245349B/zh
Publication of CN110245349A publication Critical patent/CN110245349A/zh
Application granted granted Critical
Publication of CN110245349B publication Critical patent/CN110245349B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars

Abstract

本发明公开了一种句法依存分析方法,本方法按预设规则生成与文本信息的每个节点对应的用于表示该节点与相邻节点依存关系的标签;根据文本信息及所述各节点的标签信息按预设规则生成相邻节点的依存关系,输出依存关系,并将该依存关系中的叶子节点删除,最终只剩一个根节点。本分析方法自底向上寻找与父节点相邻的叶子节点,并循环删除叶子节点,时间复杂度不高,并且每次删除叶子节点后,都把剩余节点作为新的待分析文本信息进行分析,能获取整个句子状态,克服了特征局限性的问题,提高了句法分析的准确性。本发明还公开了一种句法依存分析及一种电子设备。

Description

一种句法依存分析方法、装置及一种电子设备
技术领域
本发明涉及自然语言理解技术领域,主要涉及句法依存分析方法、装置及一种电子设备。
背景技术
句法依存是自然语言处理中的关键技术之一,是通过分析语言单位内成分之间的依存关系,来揭示其句法结构,主张句子中核心动词是支配其它成分的核心成分(root),而它本身却不受其它任何成分的支配,所有受支配成分都以某种依存关系从属于支配者。句法依存可以为其他自然语言处理任务提供帮助,例如指代消解、语义分析、机器翻译、信息提取等。
近年来句法依存方法主要分为两类,基于图的方法和基于转移的方法。基于图的方法假设任意两个元素都以一定的概率存在依存关系,使用深度学习训练一个评价子树得分的函数,在动态规划过程中寻找最优的生成树,这种方法由于能考虑到依存树的所有可能性,准确率较高,但是也存在时间复杂度过高的问题,通常是O(n3)。基于转移的方法从左至右依次读取句子,设置Stack作为工作区,不同的动作在Stack顶部元素生成不同的依存关系,然后从缓冲区buffer中依次选择元素插入到Stack,一个句子经过多次变换生成完整的依存关系。这种方法的时间复杂度是线性的,为O(n),但是只考虑了在Stack和Buffer的局部特征,不能获取到整个句子的状态,准确度不高。
发明内容
有鉴于此,实有必要提出一种句法依存分析方法及装置,能解决现有句法依存分析方法中存在的时间复杂度过高、具有特征局限性的问题。
本发明包括以下内容:
一种句法依存分析方法,包括以下步骤:
S01,为输入的文本信息添加虚拟根节点生成待分析文本信息;
S02,确定待分析文本信息中的节点,按预设规则为每个节点添加用于表示该节点与相邻节点依存关系的标签;
S03,根据待分析文本信息及所述各节点的标签,删除依存关系为根叶关系中的叶子节点,并输出依存关系;
S04,判断步骤S03中剩余节点中是否只包含虚拟根节点,若是则输出虚拟根节点;否则,将剩余节点作为新的待分析文本信息,重复执行步骤S02-S04。
进一步的,按预设规则生成与文本信息的每个节点对应的用于表示该节点与相邻节点依存关系的标签,具体包括:利用神经模型对文本信息进行训练,生成与每个节点对应的标签,所述标签包括三种,分别为:(1)当前节点左边相邻节点是叶子节点,且是当前节点的叶子节点;(2)当前节点右边相邻节点是叶子节点,且是当前节点的叶子节点;(3)当前节点的相邻节点均不是当前节点的叶子节点。
进一步的,利用神经模型对文本信息进行训练的具体方法包括:
按预设规则得到文本信息中各节点的词向量W和词性向量P;
将获得的各节点的词向量W、词性向量P输入到预设的循环神经网络,以得到每个节点的隐含信息向量;
将得到的各节点的隐含信息向量输入到全连接网络,进行特征融合后,输出每个节点在不同标签上分类的得分。
进一步的,将获得的各节点的词向量W、词性向量P输入到预设的循环神经网络前结合预设的Attention机制为删掉的不同的叶子节点赋予不同的权重;并将删掉的叶子节点的向量以求和的方式连同获得的各节点的词向量W、词性向量P一并输入到预设的循环神经网络。
另一方发面,本发明还公开了一种句法依存分析装置,包括文本获取模块、节点标签生成模块、依存关系输出模块、判断模块,其中:
文本获取模块,为输入的文本信息添加虚拟根节点生成待分析文本信息;
节点标签生成模块,确定待分析文本信息中的节点,按预设规则为每个节点添加用于表示该节点与相邻节点依存关系的标签;
依存关系输出模块,根据待分析文本信息及所述各节点的标签,删除依存关系为根叶关系中的叶子节点,并输出依存关系。
判断模块,判断依存关系输出模块中待分析文本是否只包含虚拟根节点,若是则输出虚拟根节点;否则,将剩余节点作为新的待分析文本信息,重复输入至节点标签生成模块、依存关系输出模块、判断模块。
第三方面,本发明还公开了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中:
处理器、通信接口、存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述句法依存分析方法的各步骤。
本发明相较于现有技术的有益效果:本发明提出了一种新的句法依存分析方法,本方法按预设规则生成与文本信息的每个节点对应的用于表示该节点与相邻节点依存关系的标签;根据文本信息及所述各节点的标签信息按预设规则生成相邻节点的依存关系,输出依存关系,并将该依存关系中的叶子节点删除,最终只剩一个根节点。本分析方法自底向上寻找与父节点相邻的叶子节点,并循环删除叶子节点,时间复杂度不高,并且每次删除叶子节点后,都把剩余节点作为新的待分析文本信息进行分析,能获取整个句子状态,克服了特征局限性的问题,提高了句法分析的准确性。
附图说明
图1是实施例一中,一种句法依存分析方法的流程图。
图2是在实施例一中,神经网络模型对文本信息进行训练的示意图。
图3是在实施例二中,在神经网络模型中添加Attention机制的示意图。
图4是在实施例二中,神经网络模型对文本信息进行训练的示意图。
图5是在实施例三中,一种句法依存分析装置的结构示意图。
图6是在实施例三中,节点标签生成模块的结构示意图
图7是在一些实施例中,一种电子设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例一
为了同时兼顾执行效率和准确率的问题,本发明实施例提出一种新的句法依存方法,以外部输入文本信息为“The collateral is being sold by a thriftinstitution.”为例进行说明。结合图1所示,本实施例的句法依存分析方法包括以下步骤:
S01,为输入的文本信息添加虚拟根节点生成待分析文本信息。
虚拟根节点可以由ROOT表示,待分析的文本可以为英文、中文等常见语音文本信息。
在本实施例中,步骤S01输出的内容为“ROOT The collateral is being sold bya thrift institution.”。
S02,确定待分析文本信息中的节点,按预设规则为每个节点添加用于表示该节点与相邻节点依存关系的标签。
判断文本信息各节点方法很多,比如以英文为代表的拉丁语系语言以空格作为天然的分隔符,因此“ROOT The collateral is being sold by a thrift institution.”中每个词就是一个节点。
中文的分词算法就较为复杂,一般包括:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法等。本发明实施例对采用的具体分词算法不做要求。以输入的文本信息为“他把一张红色的纸撕成了碎片。”为例,采用合适的算法进行分词后,生成的节点可能为“ROOT”、“他”、“把”、“一张”、“红色”、“的”、“纸”、“撕”、“成”、“了”、“碎片”、“。”他把一张红色的纸撕成了碎片。
按预设规则生成与文本信息的每个节点对应的用于表示该节点与相邻节点依存关系的标签,具体包括:利用神经模型对文本信息进行训练,生成与每个节点对应的标签。结合图2所示,利用神经网络模型对文本信息进行训练的方法可以包括:
(1)按预设规则得到文本信息中各节点的词向量W和词性向量P。
由于神经模型不能对非结构化的文本进行直接处理,而文本的节点都包括词向量W和词性向量P,其中词向量的个数为|W|,词性向量个数为|P|,dw,、dp分别表示词向量和词性向量的维度,则可以利用比如gensim训练各节点的word2vec向量等方法,参见公式(1),得到每个节点wi的词向量W和词性向量P,其中R表示向量空间。
(2)将获得的各节点的词向量W、词性向量P输入到预设的循环神经网络,以得到每个节点的隐含信息向量。
可以利用RNN、LSTM等,优选双向LSTM(Long Short-Term Memory),由两个普通的RNN所组成,一个正向的RNN,利用过去的信息,一个逆序的RNN,利用未来的信息,这样在时刻t,既能够使用t-1时刻的信息,又能够利用到t+1时刻的信息。一般来说,由于双向LSTM能够同时利用过去时刻和未来时刻的信息,会比单向LSTM最终的预测更加准确。具体的,使用一个标准的双向LSTM编码句子的特征属性和上下文信息。通过双向LSTM网络学习与特定树形相关的隐藏语义信息后,分别生成了前向和后向的特征向量如公式(2)(3)。经过公式(4)的组合,hi不仅具有句子第i个单词的信息,而且具有第i个单词在上下文的隐含信息。
(3)将得到的各节点的隐含信息向量输入到全连接网络(用FC表示),进行特征融合后,输出每个节点在不同标签上分类的得分。如公式(5),计算每个节点分别与预设的标签规则对应的得分,输出得分最高的标签,ωh、bh为机器学习参数。
yi=softmax(tanh(ωhhi+bh)) (5)
在本实施例中,标签可以包括三种,分别为:
(1)当前节点左边相邻节点是叶子节点,且是当前节点的叶子节点。可记做:LEFT-ARC:wi左边的相邻的节点是一个叶节点,且是wi的叶子节点。
(2)当前节点右边相邻节点是叶子节点,且是当前节点的叶子节点,可记做:RIGHT-ARC:wi右边的相邻的节点是一个叶节点,且是wi的叶子节点。
(3)当前节点的相邻节点均不是当前节点的叶子节点,可记做SHIFT:wi的相邻节点均不是wi的叶子节点。
利用神经模型对“ROOT The collateral is being sold by a thriftinstitution.”训练后,可能生成的标签情况如表1所示:
表1
Sentence: ROOT The collateral is being sold by a thrift institution .
Labels: S S L S S L S S S L S
S03,根据待分析文本信息及所述各节点的标签,输出依存关系,并删除依存关系为根叶关系中的叶子节点。
从左到右扫描文本每个节点的标签,并在每个节点处生成依存关系,依存关系为根叶关系。如果在节点wi处标签是LEFT-ARC,则记录wi→wi-1的依存关系,并删除wi-1;wi处标签是RIGHT-ARC,则记录wi→wi+1的依存关系,并删除wi+1;如果标签是SHIFT,即不存在依存关系,则不做任何操作。
根据步骤S02的结果,可以得到三组相邻节点的依存关系,输出的关系集合Relation为:Relation:(collateral,The)(sold,being)(instituion,thrift)
删掉的三个叶子节点分别为:The,being,thrift。
S04,判断步骤S03中剩余节点中是否只包含虚拟根节点,若是则输出虚拟根节点;否则,将剩余节点作为新的待分析文本信息,重复执行步骤S02-S04。
在本实施例中,经过步骤S03后,新的待分析文本为:“ROOT collateral is soldby a institution.”,重复步骤S02得到的各节点标签情况可以如表2所示:
表2
重复步骤S03,以得到两组相邻节点的依存关系,输出的关系集合Relation为:Relation:(sold,is)(instituion,a)
删掉的两个叶子节点分别为:is,a。
本实施例中整个过程如表3所示,具体工作流程不再赘述。最后只剩下ROOT这个根节点,并将其输出。
表3
本发明实施例提出了一种新的句法依存分析方法,该方法按预设规则生成与文本信息的每个节点对应的用于表示该节点与相邻节点依存关系的标签;根据文本信息及所述各节点的标签信息按预设规则生成相邻节点的依存关系,输出依存关系,并将该依存关系中的叶子节点删除,最终只剩一个根节点。本分析方法自底向上寻找与父节点相邻的叶子节点,并循环删除叶子节点,时间复杂度不高,并且每次删除叶子节点后,都把剩余节点作为新的待分析文本信息进行分析,能获取整个句子状态,克服了特征局限性的问题,提高了句法分析的准确性。
实施例二
在一些实施例中,不断删除叶子节点,必然会导致信息的丢失,从而影响准确度。例如在表3中第4行,sold与institution相邻,需要判断它们之间是否具有依存关系。因为“sold institution”,“sold by institution”和“sold in institution”在语法上都是通顺的,所以仅通过sold和institution很难判断它们之间的关系。
为减少这种信息丢失带来的影响,可以将删掉的叶子节点的向量以求和的方式加入到神将网络的训练中,以保证如实施例一所述的步骤S02中结果的准确度。当删除步骤重复比较多时,往往需要求和的叶子节点也会非常多,各叶子节点相加后信息将会被平均。但是事实上,从叶子节点中获取到的信息可能仅来自于少数重要叶子节点,比如名词、介词,大部分叶子节点都是不重要的。为了让重要的叶子节点更加突出,可以使用Attention机制为不同的叶子节点赋予不同的权重,如公式(6)所示。
具体的,可以将获得的各节点的词向量W、词性向量P输入到预设的循环神经网络前,结合预设的Attention机制为删掉的不同的叶子节点赋予不同的权重。并将删掉的叶子节点的向量以求和的方式连同获得的各节点的词向量W、词性向量P一并输入到预设的循环神经网络。
结合图3所示的Attention机制示意图,在本实施例中,可以规定,第i个词向量由4部分组成,分别是(1)叶子词向量加权求和(2)叶子词性向量加权求和(3)当前词的向量Wi,(4)当前词的词性向量Pi
其中,是wi的k个叶子的向量加权求和,生成叶子加权求和向量可参见公式(7),生成叶子词性向量加权求和向量可参加公式(8),而后生成叶子节点向量,如公式(9)所示。
各项权重αi,j由Attention求出,参见公式(10)、(11)。ωa、μa机器学习参数。
将组成wi向量的四个组成部分输入预设的循环神经网络,如果循环神经网络为双向LSTM,则
最终的神经模型如图4所示。
相比于实施例一,本实施例加入了Attention机制,不同的权重加入到被删掉的叶节点信息中,进一步提高了各节点标签的准确性,保证了句子分析的准确性。
实施例三
一种句法依存分析装置,如图5所示,包括文本获取模块10、节点标签生成模块20、依存关系输出模块30、判断模块40,其中:
文本获取模块10,为输入的文本信息添加虚拟根节点生成待分析文本信息。
节点标签生成模块20,确定待分析文本信息中的节点,按预设规则为每个节点添加用于表示该节点与相邻节点依存关系的标签。
结合图6所示,节点标签生成模块20包括输入子模块21、循环神经网络子模块22、特征融合子模块23,其中:
输入子模块21,按预设规则得到文本信息中各节点的词向量W和词性向量P。
由于神经模型不能对非结构化的文本进行直接处理,而文本的节点都包括词向量W和词性向量P,则可以利用比如gensim训练各节点的word2vec向量等方法,参见公式(1),得到每个节点wi的词向量W和词性向量P。
循环神经网络子模块22,将获得的各节点的词向量W、词性向量P输入到预设的循环神经网络,以得到每个节点的隐含信息向量。
可以利用RNN、LSTM等,优选双向LSTM(Long Short-Term Memory),由两个普通的RNN所组成,一个正向的RNN,利用过去的信息,一个逆序的RNN,利用未来的信息,这样在时刻t,既能够使用t-1时刻的信息,又能够利用到t+1时刻的信息。一般来说,由于双向LSTM能够同时利用过去时刻和未来时刻的信息,会比单向LSTM最终的预测更加准确。具体的,使用一个标准的双向LSTM编码句子的特征属性和上下文信息。通过双向LSTM网络学习与特定树形相关的隐藏语义信息后,分别生成了前向和后向的特征向量如公式(2)(3)。经过公式(4)的组合,hi不仅具有句子第i个单词的信息,而且具有第i个单词在上下文的隐含信息。
特征融合子模块23,将得到的各节点的隐含信息向量输入到全连接网络,进行特征融合后,输出每个节点在不同标签上分类的得分。
将得到的各节点的隐含信息向量输入到全连接网络,进行特征融合后,输出每个节点在不同标签上分类的得分。如公式(5),计算每个节点分别与预设的标签规则对应的得分,输出得分最高的标签。
yi=softmax(tanh(Whhi+bh)) (5)
在本实施例中,节点标签生成模块20生成的标签包括三种,分别为:(1)当前节点左边相邻节点是叶子节点,且是当前节点的叶子节点;(2)当前节点右边相邻节点是叶子节点,且是当前节点的叶子节点;(3)当前节点的相邻节点均不是当前节点的叶子节点。
另一些实施例中节点标签生成模块20还包括Attention机制子模块24,为删掉的不同的叶子节点赋予不同的权重;并将删掉的叶子节点的向量以求和的方式输入到循环神经网络子模22。
依存关系输出模块30,根据待分析文本信息及所述各节点的标签,输出依存关系,并删除依存关系为根叶节点中的叶子节点。
从左到右扫描文本每个节点的标签,并在每个节点处生成依存关系,依存关系为根叶关系,如果在节点wi处标签是LEFT-ARC,则记录wi→wi-1的依存关系,并删除wi-1;wi处标签是RIGHT-ARC,则记录wi→wi+1的依存关系,并删除wi+1;如果标签是SHIFT,即不存在依存关系,则不做任何操作。
判断模块40,判断依存关系输出模块30中待分析文本是否只包含虚拟根节点,若是则输出虚拟根节点;否则,将剩余节点作为新的待分析文本信息,重复输入至节点标签生成模块20、依存关系输出模块30、判断模块40。
本句法依存分析装置的具体工作方法可以参考实施例一、实施例二中说明的句法依存分析方法,在此不再赘述。
本发明实施例提出了一种句法依存分析装置,包括文本获取模块10、节点标签生成模块20、依存关系输出模块30、判断模块40,节点标签生成模块20按预设规则生成与文本信息的每个节点对应的用于表示该节点与相邻节点依存关系的标签;依存关系输出模块30根据文本信息及所述各节点的标签信息按预设规则生成相邻节点的依存关系,输出依存关系,并将该依存关系中的叶子节点删除,结合判断模块40的工作,循环删除叶子节点,最终只剩一个根节点。本句法依存分析装置自底向上寻找与父节点相邻的叶子节点,并循环删除叶子节点,时间复杂度不高,并且每次删除叶子节点后,都把剩余节点作为新的待分析文本信息进行分析,能获取整个句子状态,克服了特征局限性的问题,提高了句法分析的准确性。
实施例四
与上述方法实施例相对应的,本发明实施例还提供了一种电子设备。图7为本发明实施例提供的电子设备的结构示意图,所述电子设备包括:处理器410、通信接口420、存储器430和通信总线440,其中:
处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信,存储器430,用于存放计算机程序;
处理器410,用于执行存储器430上所存放的程序时,实现本发明实施提供的文本自动摘要方法的生成。具体地,所述句法依存分析方法,包括:
S01,为输入的文本信息添加虚拟根节点生成待分析文本信息;
S02,确定待分析文本信息中的节点,按预设规则为每个节点添加用于表示该节点与相邻节点依存关系的标签;
S03,根据待分析文本信息及所述各节点的标签,输出依存关系,并删除依存关系为根叶关系中的叶子节点;
S04,判断步骤S03中剩余节点是否只包含虚拟根节点,若是则输出虚拟根节点;否则,将剩余节点作为新的待分析文本信息,重复执行步骤S02-S04。
上述句法依存分析方法的实现方式与前述方法实施例部分提供的句法依存分析方法相同,这里不再赘述。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种句法依存分析方法,其特征在于,包括以下步骤:
S01,为输入的文本信息添加虚拟根节点生成待分析文本信息;
S02,确定待分析文本信息中的节点,按预设规则为每个节点添加用于表示该节点与相邻节点依存关系的标签;
S03,根据待分析文本信息及所述各节点的标签,输出依存关系,并删除依存关系为根叶关系中的叶子节点;
S04,判断步骤S03中剩余节点是否只包含虚拟根节点,若是则输出虚拟根节点;否则,将剩余节点作为新的待分析文本信息,重复执行步骤S02-S04。
2.如权利要求1所述的句法依存分析方法,其特征在于,所述按预设规则为每个节点添加用于表示该节点与相邻节点依存关系的标签,具体包括:
利用神经模型对文本信息进行训练,生成与每个节点对应的标签,所述标签分别为:当前节点与左边相邻节点是叶子节点;或当前节点与右边相邻节点是叶子节点;或当前节点与相邻节点均不具有根叶关系。
3.如权利要求2所述的句法依存分析方法,其特征在于,利用神经模型对文本信息进行训练的具体方法包括:
按预设规则得到文本信息中各节点的词向量W和词性向量P;
将获得的各节点的词向量W、词性向量P输入到预设的循环神经网络,以得到每个节点的隐含信息向量;
将得到的各节点的隐含信息向量输入到全连接网络,进行特征融合后,输出每个节点在不同标签上分类的得分,根据得分确定标签。
4.如权利要求3所述的句法依存分析方法,其特征在于,当文本信息存在已删除的叶子节点时,将获得的各节点的词向量W、词性向量P输入到预设的循环神经网络前结合预设的Attention机制为删掉的不同的叶子节点赋予不同的权重;并将删掉的叶子节点的向量以求和的方式连同获得的各节点的词向量W、词性向量P一并输入到预设的循环神经网络。
5.如权利要求3所述的句法依存分析方法,其特征在于,预设的循环神经网络为RNN、LSTM、双向LSTM中的至少一种。
6.一种句法依存分析装置,其特征在于,包括文本获取模块、节点标签生成模块、依存关系输出模块、判断模块,其中:
文本获取模块,为输入的文本信息添加虚拟根节点生成待分析文本信息;
节点标签生成模块,确定待分析文本信息中的节点,按预设规则为每个节点添加用于表示该节点与相邻节点依存关系的标签;
依存关系输出模块,根据待分析文本信息及所述各节点的标签,输出依存关系,并删除依存关系为根叶关系中的叶子节点。
判断模块,判断依存关系输出模块中待分析文本是否只包含虚拟根节点,若是则输出虚拟根节点;否则,将剩余节点作为新的待分析文本信息,重复输入至节点标签生成模块、依存关系输出模块、判断模块。
7.如权利要求6所述的句法依存分析装置,其特征在于,所述节点标签生成模块具体用于按预设规则为每个节点添加用于表示该节点与相邻节点依存关系的标签,具体包括:利用神经模型对文本信息进行训练,生成与每个节点对应的标签,所述标签分别为:当前节点与左边相邻节点是叶子节点;或当前节点与右边相邻节点是叶子节点;或当前节点与相邻节点均不具有根叶关系。
8.如权利要求7所述的句法依存分析装置,其特征在于,所述节点标签生成模块包括输入子模块、循环神经网络子模块、特征融合子模块,其中:
输入子模块,按预设规则得到文本信息中各节点的词向量W和词性向量P;
循环神经网络子模块,将获得的各节点的词向量W、词性向量P输入到预设的循环神经网络,以得到每个节点的隐含信息向量;
特征融合子模块,将得到的各节点的隐含信息向量输入到全连接网络,进行特征融合后,输出每个节点在不同标签上分类的得分,根据得分确定标签。
9.如权利要求8所述的句法依存分析装置,其特征在于,所述节点标签生成模块还包括Attention机制子模块,为删掉的不同的叶子节点赋予不同的权重;并将删掉的叶子节点的向量以求和的方式输入到循环神经网络子模块。
10.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中:
处理器、通信接口、存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-5任一所述的方法步骤。
CN201910424467.1A 2019-05-21 2019-05-21 一种句法依存分析方法、装置及一种电子设备 Active CN110245349B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910424467.1A CN110245349B (zh) 2019-05-21 2019-05-21 一种句法依存分析方法、装置及一种电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910424467.1A CN110245349B (zh) 2019-05-21 2019-05-21 一种句法依存分析方法、装置及一种电子设备

Publications (2)

Publication Number Publication Date
CN110245349A true CN110245349A (zh) 2019-09-17
CN110245349B CN110245349B (zh) 2023-02-07

Family

ID=67884709

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910424467.1A Active CN110245349B (zh) 2019-05-21 2019-05-21 一种句法依存分析方法、装置及一种电子设备

Country Status (1)

Country Link
CN (1) CN110245349B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110826313A (zh) * 2019-10-31 2020-02-21 北京声智科技有限公司 一种信息提取方法、电子设备及计算机可读存储介质
CN111325016A (zh) * 2020-02-04 2020-06-23 深圳证券信息有限公司 一种文本处理方法、系统、设备、介质
CN111767733A (zh) * 2020-06-11 2020-10-13 安徽旅贲科技有限公司 一种基于统计分词的文献密级甄别方法
CN112784575A (zh) * 2019-10-22 2021-05-11 北京四维图新科技股份有限公司 语句的处理方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103577164A (zh) * 2012-07-20 2014-02-12 腾讯科技(深圳)有限公司 流程图的生成方法和装置
CN104978328A (zh) * 2014-04-03 2015-10-14 北京奇虎科技有限公司 一种获取层级分类器以及文本分类的方法及装置
CN105630941A (zh) * 2015-12-23 2016-06-01 成都电科心通捷信科技有限公司 基于统计和网页结构的Web正文内容抽取方法
CN108628834A (zh) * 2018-05-14 2018-10-09 国家计算机网络与信息安全管理中心 一种基于句法依存关系的词语表示学习方法
CN109033075A (zh) * 2018-06-29 2018-12-18 北京百度网讯科技有限公司 意图匹配的方法、装置、存储介质和终端设备
US20190073352A1 (en) * 2017-09-07 2019-03-07 NarrativeDX Inc. Technologies for valid dependency parsing in casual text

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103577164A (zh) * 2012-07-20 2014-02-12 腾讯科技(深圳)有限公司 流程图的生成方法和装置
CN104978328A (zh) * 2014-04-03 2015-10-14 北京奇虎科技有限公司 一种获取层级分类器以及文本分类的方法及装置
CN105630941A (zh) * 2015-12-23 2016-06-01 成都电科心通捷信科技有限公司 基于统计和网页结构的Web正文内容抽取方法
US20190073352A1 (en) * 2017-09-07 2019-03-07 NarrativeDX Inc. Technologies for valid dependency parsing in casual text
CN108628834A (zh) * 2018-05-14 2018-10-09 国家计算机网络与信息安全管理中心 一种基于句法依存关系的词语表示学习方法
CN109033075A (zh) * 2018-06-29 2018-12-18 北京百度网讯科技有限公司 意图匹配的方法、装置、存储介质和终端设备

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112784575A (zh) * 2019-10-22 2021-05-11 北京四维图新科技股份有限公司 语句的处理方法及装置
CN112784575B (zh) * 2019-10-22 2023-06-30 北京四维图新科技股份有限公司 语句的处理方法及装置
CN110826313A (zh) * 2019-10-31 2020-02-21 北京声智科技有限公司 一种信息提取方法、电子设备及计算机可读存储介质
CN111325016A (zh) * 2020-02-04 2020-06-23 深圳证券信息有限公司 一种文本处理方法、系统、设备、介质
CN111325016B (zh) * 2020-02-04 2024-02-02 深圳证券信息有限公司 一种文本处理方法、系统、设备、介质
CN111767733A (zh) * 2020-06-11 2020-10-13 安徽旅贲科技有限公司 一种基于统计分词的文献密级甄别方法

Also Published As

Publication number Publication date
CN110245349B (zh) 2023-02-07

Similar Documents

Publication Publication Date Title
CN110633409B (zh) 一种融合规则与深度学习的汽车新闻事件抽取方法
Wu et al. Fonduer: Knowledge base construction from richly formatted data
CN108984683B (zh) 结构化数据的提取方法、系统、设备及存储介质
CN110825881B (zh) 一种建立电力知识图谱的方法
CN107330032B (zh) 一种基于递归神经网络的隐式篇章关系分析方法
CN112241481B (zh) 基于图神经网络的跨模态新闻事件分类方法及系统
CN110727779A (zh) 基于多模型融合的问答方法及系统
CN107943784B (zh) 基于生成对抗网络的关系抽取方法
CN110245349A (zh) 一种句法依存分析方法、装置及一种电子设备
CN109783666A (zh) 一种基于迭代精细化的图像场景图谱生成方法
CN110457689B (zh) 语义处理方法及相关装置
CN111767732B (zh) 基于图注意力模型的文档内容理解方法及系统
CN111274804A (zh) 基于命名实体识别的案件信息提取方法
CN113051914A (zh) 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
CN114419304A (zh) 一种基于图神经网络的多模态文档信息抽取方法
CN113157859A (zh) 一种基于上位概念信息的事件检测方法
CN112989208A (zh) 一种信息推荐方法、装置、电子设备及存储介质
CN115600605A (zh) 一种中文实体关系联合抽取方法、系统、设备及存储介质
CN113360654B (zh) 文本分类方法、装置、电子设备及可读存储介质
Yang et al. Semantic-preserving adversarial text attacks
CN114373554A (zh) 利用药物知识和句法依存关系的药物相互作用关系抽取方法
CN113901224A (zh) 基于知识蒸馏的涉密文本识别模型训练方法、系统及装置
US11494431B2 (en) Generating accurate and natural captions for figures
CN111950281B (zh) 一种基于深度学习和上下文语义的需求实体共指检测方法和装置
CN116127013A (zh) 一种个人敏感信息知识图谱查询方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230407

Address after: 430074 Room 01, Floor 6, Building A4, Financial Port, 77 Guanggu Avenue, Donghu New Technology Development Zone, Wuhan, Hubei Province

Patentee after: WUHAN SHUBO TECHNOLOGY Co.,Ltd.

Patentee after: WUHAN University

Address before: 430072 Fenghuo innovation Valley, No. 88, YouKeYuan Road, Hongshan District, Wuhan City, Hubei Province

Patentee before: WUHAN SHUBO TECHNOLOGY Co.,Ltd.