CN111859910B - 一种用于语义角色识别的融合位置信息的词特征表示方法 - Google Patents
一种用于语义角色识别的融合位置信息的词特征表示方法 Download PDFInfo
- Publication number
- CN111859910B CN111859910B CN202010682847.8A CN202010682847A CN111859910B CN 111859910 B CN111859910 B CN 111859910B CN 202010682847 A CN202010682847 A CN 202010682847A CN 111859910 B CN111859910 B CN 111859910B
- Authority
- CN
- China
- Prior art keywords
- word
- matrix
- window
- vector
- context
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
Description
技术领域
本发明属于自然语言处理领域,具体涉及一种用于语义角色识别的融合位置信息的词特征表示方法。
背景技术
随着深度学习的兴起,自然语言处理的研究受到了越来越多研究者的关注。目前,自然语言处理的难点在于语义分析,语义分析可分为词汇级、句子级以及篇章级三个层次。词汇级的语义分析主要包括词义的消歧和词的表示学习两个方面。词义消歧是根据多义词在文本中的上下文环境来确定它的一个义项,词的表示和学习是近几年才开展的热门研究领域,目前主流的词表示方式是采用词向量的方法,其基本思想是将词映射成低维实值的向量,这样词与词之间的语义计算可通过计算向量空间中对应向量之间的距离来实现。句子级的语义分析重点是在句子的句法结构和句中实词词义的基础上,推导出能反映该条句子意义的某种形式化的表示。篇章语义分析研究篇章中的子句、句子或语段之间的层次结构和语义关系。近年来,研究者关注更多的是句子级的语义分析,重点是分析句子中的目标词(谓词)和相关论元(语义角色)之间的语义关系,如施事(发出动作的人或事物)、受事(受动作支配的人或事物)等。语义角色标注是句子级语义分析的一种具体实现方式,它指的是标注出句中受目标词所支配的语义角色。
语义角色标注这一任务通常的做法是分为语义角色识别和语义角色分类两个步骤进行,其中,语义角色识别确定句子中的哪些成分可以构成目标词所支配的语义角色,即对一条句子,在给定目标词的前提下,从句子中自动识别出目标词所支配的语义角色。语义角色分类则对识别出的角色进行分类并标注类别。目前语义角色标注的难点在于语义角色识别。而语义角色识别这一问题的解决方法一般是转换为序列标注问题来处理,即为语义角色包含的每一个词赋予一个标签用以标记该词在一个语义角色中的位置。例如采用IOB2标记集合,该标记集合用B表示一个语义角色中的第一个词;I表示一个语义角色的中间词或结束词;O表示不属于任何一个语义角色的其它词。以例句“公司购买大量工业原料。”为例进行说明,句中的目标词是“购买”,语义角色为“公司”和“大量工业原料”,通过IOB2标注后的形式为:
公司/B购买/O大量/B工业/I原料/I。/O
基于上述标注,可以重构并识别出句中的语义角色。因此,引入序列标记集合,语义角色识别问题可转化为序列标注问题,进而可以形式化描述如下:对于一条句子S=W1W2...Wm,Wi表示句子S中的第i个词,给定句子中的目标词Wt,使用序列标记集合IOB2对句子中的每个词标记一个合适的标签ti,ti∈{B,I,O}表示句子S中第i个词对应的语义角色的边界标签。这样可以得到一个标记序列T=t1t2...tm,从而将语义角色识别任务转化为如式(3)所示的一个序列优化问题:
T*=argmaxP(T|S,Wt) (3)
T*是一个可以还原出语义角色信息的最优序列。对于该优化问题,目前主流的做法是使用神经网络的方法,例如图1所示的即为一种常见的基于神经网络的语义角色识别模型。该模型结构包含三部分,输入层,网络层和输出层。在输入层,将一条句子看做以词为基本单位的一个序列送入模型,经过BiLSTM(双向长短期记忆)神经网络层的训练学习,在输出层使用CRF(条件随机场)输出一个带有B、I、O标记的标记序列。基于输出的标记序列,重构句子中的语义角色进而完成语义角色的自动识别。
神经网络在处理序列问题时,一般以词为单位进行输入。由于词都是离散的符号标记,在使用神经网络时,需要将每一个词映射为一个低维实值向量(也称为词向量)输入,用这种低维实值向量表示词这一特征,因此称作词特征的表示。通常,词向量这种词特征的表示,可以采用随机向量,也可以是由某种表示学习方法,如SGNS(SGNS是目前一种常用的词向量学习方法,详细描述见文献:Tomas Mikolov,Kai Chen,and JeffreyDean.Effificient estimation of word representation in vector space.CoRR,abs/1301.3781,2013)经过训练学习得到。此外,为了在输入时能够丰富输入的词的信息,除该词的词特征外,还会设置一些其它的特征和词特征一起输入,例如,该词的词性特征、句子中的目标词的词特征、该词相对目标词的位置特征(该词在目标词的左边还是右边)等。将这些特征也映射为低维实值向量,然后将所有特征的词向量首尾拼接起来作为该词最终的表示。
词向量的学习的基本思路是利用大规模文本语料中词与其上下文词(即某个词周围的一些其它词)的某种关联度量(如词和上下文词二者的共同出现次数)的统计信息学习得到,这种方法得到的词向量在一定程度上蕴含了词的句法和语义信息,非常适合作为词的特征表示。在语义角色识别中,词的位置特征,指的是该词在目标词的左边还是右边,这一特征对语义角色识别模型的性能有很大的影响。但是这种位置信息无法利用通用的词向量的方法直接学习得到,目前主要是用随机向量来表示。例如,对于例句
“公司购买大量工业原料。”
句中的目标词是“购买”,语义角色识别任务需要为句中每一个词标注一个BIO标签,当对“公司”进行标注时,首先将该词映射为一个低维向量,作为该词的词特征。由于该词在目标词的左边,再将这一位置信息映射为一个低维的随机向量,然后再将这两个向量拼接起来(也可以继续拼接该词的词性映射后的低维向量等)输入模型。但是,使用随机向量的表示方法去表示词的位置信息这一特征,会导致语义角色识别结果的方差较大,使得最终得到的语义角色识别模型并不稳定。因此,如何在语义角色识别模型的输入端更好的表示位置特征就是本发明所要解决的一个问题。
本发明首先得到一种可以蕴含词与词之间相对位置信息的词向量,使用这一词向量作为词特征的表示。具体方法为:选取一个合适的语料,以词为单位遍历该语料,分别基于当前遍历到的词的左窗口(左边的若干个词)和右窗口(右边的若干个词)统计出当前词和左右不同窗口内上下文词的共同出现(共现)次数,然后使用当前词和上下文词对应的词向量的內积去拟合它们的共现次数,通过随机梯度下降的方法学习得到当前词的词向量、左窗口内上下文词的词向量和右窗口内上下文词的词向量。由于上述方法统计得到的共现次数一定程度上可以体现词与词之间相对位置搭配的分布,因此通过左、右窗口内不同的上下文信息学习到的上下文词的词向量蕴含了词与词之间相对的位置关系,从而实现了将位置信息融入到词的向量表示中,也就是使用该方法学习到的上下文词的词向量作为词特征时可以融合词与词之间相对的位置信息。
当对一个句子进行语义角色识别时,如果当前要标注的词出现在句子中给定目标词的左边,将其看作目标词左侧窗口内的上下文词,此时使用基于左窗口学习到的上下文词的词向量作为该词的词特征;如果当前要标注的词出现在句子中给定目标词的右边,将其看作目标词右侧窗口内的上下文词,此时使用基于右窗口学习到的上下文词的词向量作为该词的词特征。本发明使用这种词特征的表示方式可以将位置信息融入到当前要标注的词的词向量中,即将位置特征融入到了词特征中,一方面简化了语义角色识别模型的输入信息(即不再需要单独的位置特征),另一方面也可以提升语义角色识别模型的性能。
发明内容
本发明提供了一种适用于语义角色识别的可以融入位置信息的词特征的表示方法,主要解决的技术问题是在进行语义角色识别时,如何将当前词与目标词的相对位置信息融入当前词的词特征表示中。
在介绍具体的方案前,先引入本发明涉及到的一些概念:
语料:以自然语言文本形式收集到的语言实例集,用符号C表示。一般可以形式化为:C=S1,S2,...,Sm,Si=W1W2...Wn表示语料中的第i条句子,Wj表示句子Si中的第j个词。
词表:在语料中出现的不同词的全部集合,记为V={W1,W2,...,Wk}。本发明所提到的词表中的词按照其在语料中出现的次数由大到小排序。|V|表示词表的大小,即词表中所有词的个数。
窗口:对于语料中的某个词Wi,将Wi-LWi-L+1...Wi+L-1Wi+L构成的序列(不包含Wi)定义为词Wi的大小为2L的对称窗口,Wi-LWi-L+1...Wi-1构成的序列定义为词Wi的大小为L的左窗口,Wi+1...Wi+L-1Wi+L构成的序列定义为词Wi的大小为L的右窗口。
上下文词:出现在词W窗口内的其它词定义为词W的上下文词。
共现:在语料中,如果词Wj出现在词Wi的窗口内,即定义这两个词共现。
共现矩阵:一个|V|*|V|大小的矩阵,记为X。矩阵X中的元素Xij表示词Wi和词Wj在语料中的共现次数,本发明中的共现次数的计算采用一种加权的方式,即如果词Wi和窗口内的上下文词Wj的距离为5,则它们的共现次数为1/5,这种加权的处理方式一定程度上也可以捕获词与词之间的相对距离的远近关系,进而更好的描述它们的相对位置信息。|X|表示矩阵X中所有非零的元素的个数。
词向量:词Wi的d(d可以取50、100、200等)维实值向量。词表V中所有词的词向量构成|V|*d大小的矩阵,矩阵中的第i行的d维向量对应词表中第i个词的词向量。
基于上述概念,本发明的技术方案如下:
一种用于语义角色识别的融合位置信息的词特征表示方法,包括以下步骤:
步骤1,根据给定的语料C,生成词表V,其中,词表V是语料C中出现的不同词的全部集合;
步骤2,设定一个固定的上下文窗口大小,以词为单位依次遍历语料C,统计当前遍历到的词与其左侧窗口内上下文词共现的次数,得到基于左窗口的词-词共现矩阵X(L);统计当前遍历到的词与其右窗口内上下文词共现的次数,得到基于右窗口的词-词共现矩阵X(R);
步骤3,最小化式(1)和式(2)所示的目标函数分别学习当前词与其左窗口内上下文词、右窗口内上下文词的词向量:
在式(1)中,表示基于左窗口统计到的词-词共现矩阵X(L)中当前词i和上下文词j的共现次数,U(L)和分别表示基于左窗口学习到的当前词和左窗口内上下文词的词向量构成的矩阵,表示U(L)矩阵的第i行,即当前词i的词向量,表示矩阵的第j行,即左窗口内上下文词j的词向量;在式(2)中,表示基于右窗口统计到的词-词共现矩阵X(R)中当前词i和上下文词j的共现次数,U(R)和分别表示基于右窗口学习到的当前词和右窗口内上下文词的词向量构成的矩阵,表示U(R)矩阵的第i行,即当前词i的词向量,表示矩阵的第j行,即右窗口内上下文词j的词向量;
式(1)和式(2)本质上是使用语料中统计得到的当前词和上下文词的共现次数的对数去拟合它们二者词向量的內积,换句话说,是将共现矩阵分解为当前词的词向量矩阵和上下文词的词向量矩阵,分解的具体方法可采用随机梯度下降算法。由于当前词和上下文词都来自于同一个词表V,因此,上述方法实际上是将词表中的每个词映射到两个不同的向量空间,对于式(1),当某个词作为当前词来使用时对应的词向量矩阵为U(L),当某个词作为左窗口内的上下文词来使用时对应的词向量矩阵为类似的,对于式(2),当某个词作为当前词来使用时对应的词向量矩阵为U(R),当某个词作为右窗口内的上下文词来使用时对应的词向量矩阵为
步骤5,当对一条句子进行语义角色识别时,如果当前要标注的词Wi出现在句子中目标词Wt的左边,将当前要标注的词Wi看作目标词Wt左侧窗口内的上下文词,此时用矩阵中的第i行的词向量作为当前要标注的词Wi的词特征;如果当前要标注的词Wj出现在句子中目标词Wt的右边时,将当前要标注的词Wj看作目标词Wt右侧窗口内的上下文词,此时用矩阵的第j行的词向量作为当前要标注的词Wj的词特征;对句子中的目标词Wt,使用U(T)中第t行的词向量作为Wt的词特征;
步骤6,将步骤5得到的词特征拼接其它特征作为当前要标注的词的最终表示,送入基于神经网络的语义角色识别模型(如图1所示)进行语义角色识别,其它特征为该词的词性特征、句子中的目标词的词特征、该词相对目标词的位置特征。
基于上述描述可知,本技术方案主要包括两个关键步骤:
语义角色识别正确指的是在测试集上语义角色的边界识别正确,通常采用F1值来评价模型的性能。F1值的定义如下:
其中,P是精确率(Precision),R是召回率(Recall),它们的定义分别是:
P=正确标注为语义角色的个数/自动标注为语义角色总数
R=正确标注为语义角色的个数/测试集中语义角色总数
与现有技术相比本发明具有以下优点:
本发明给出的技术方案的优点是在进行语义角色识别时,可以得到更高的F1值,且F1值的方差更小,即语义角色识别的结果更加稳定。具体的对比参见下面的实例。
附图说明
图1为基于神经网络的语义角色识别模型。
具体实施方式
一种用于语义角色识别的融合位置信息的词特征表示方法,包括以下步骤:
步骤1,使用公开的中文维基百科语料(以下简称语料C),统计出语料C中出现的词并生成词表V;
步骤2,设置一个固定的上下文窗口值L=5,以词为单位依次遍历语料C,统计当前遍历到的词与其左侧窗口内5个词共现的次数,得到基于左窗口的词-词共现矩阵X(L);统计当前遍历到的词与其右窗口内5个词共现的次数,得到基于右窗口的词-词共现矩阵X(R);
步骤4,基于同一个语料C和词表V,使用SGNS方法学习到词表V中所有词的词向量矩阵U(SGNS),矩阵中每个词向量为100维;
步骤5,使用汉语框架语义知识库作为语义角色标注任务的语料,选取其中6692条例句,进行3×2交叉验证实验。3×2交叉验证的具体做法是先将实验语料(6692条例句)切分成大小相同的4份,然后任取其中的两份作为训练集,剩下的两份作为测试集,这样不同的组合共有3组,共可以进行3组2折交叉验证,得到6个实验结果。以6个实验的F1值的平均值作为最终的实验结果。
步骤6,使用图1所示的模型进行语义角色识别实验,在输入端为每个词配置4个特征,分别是当前词、当前词的位置信息、目标词和当前词的词性。即最终每个词输入模型时,需将这四个特征的对应向量拼接,再送入模型。实验设置如下:
表1:实验设置
表1中的第一个配置,即实验1是通常的处理方式。采用一个词向量学习方法,如SGNS学习到所有词的词向量,当进行语义角色标注时,句子中的任一个词,都是从一个统一的词向量矩阵U(SGNS)中查找该词对应的词向量。位置信息为左和右两种取值,映射为两个随机10维的向量,根据要标注的例句中的词相对目标词的位置选择一个随机向量。当前词词性特征表示该词是名词还是动词等,实验中定义了21中不同词性,每种词性都映射为一个20维的随机向量。
“公司购买大量工业原料。”
在进行语义角色标注时,当要处理的词是“公司”时,由于该词在目标词“购买”的左边,从中查找该词的词向量作为该词特征;当要处理的词是“大量”、“工业”或“原料”时,由于该词在目标词的右边,从中查找该词的词向量作为该词特征;当要处理的词是“购买”时,从U(T)中查找该词的词向量作为该词特征,此种方案下不再需要单独设置位置特征。
步骤7,对上述两种设置分别进行语义角色标注实验,采用3×2交叉验证方式并计算每种设置下6个实验结果的均值和方差,结果见表2:
表2:实验结果
F<sub>1</sub>值的均值 | F<sub>1</sub>值的方差 | |
实验1 | 77.72% | 0.0008 |
实验2 | 78.63% | 0.0001 |
实验结果显示,采用本发明的技术方案实施的实验2,其F1值的均值提高了0.91个百分点,并且方差更小,说明采用本发明的技术方案不仅可以提高模型性能,而且结果更稳定。
此外,我们也计算了两种实验设置下F1值的置信区间,见表3:
表3:显著性水平0.05下的置信区间
实验1 | 实验2 | |
F<sub>1</sub>值 | [77.3%,78.2%] | [78.2%,79.1%] |
表3结果显示两种配置下的F1在置信区间上没有重叠,说明了本发明的技术方案得到的F1值相较通常的方法有显著性的提升。
Claims (1)
1.一种用于语义角色识别的融合位置信息的词特征表示方法,其特征在于,包括以下步骤:
步骤1,根据给定的语料C,生成词表V,其中,词表V是语料C中出现的不同词的全部集合;
步骤2,设定一个固定的上下文窗口大小,以词为单位依次遍历语料C,统计当前遍历到的词与其左侧窗口内上下文词共现的次数,得到基于左窗口的词-词共现矩阵X(L);统计当前遍历到的词与其右窗口内上下文词共现的次数,得到基于右窗口的词-词共现矩阵X(R);
步骤3,最小化式(1)和式(2)所示的目标函数分别学习当前词与其左窗口内上下文词、右窗口内上下文词的词向量:
在式(1)中,表示基于左窗口统计到的词-词共现矩阵X(L)中当前词i和上下文词j的共现次数,U(L)和分别表示基于左窗口学习到的当前词和左窗口内上下文词的词向量构成的矩阵,表示U(L)矩阵的第i行,即当前词i的词向量,表示矩阵的第j行,即左窗口内上下文词j的词向量;在式(2)中,表示基于右窗口统计到的词-词共现矩阵X(R)中当前词i和上下文词j的共现次数,U(R)和分别表示基于右窗口学习到的当前词和右窗口内上下文词的词向量构成的矩阵,表示U(R)矩阵的第i行,即当前词i的词向量,表示矩阵的第j行,即右窗口内上下文词j的词向量;
步骤5,当对一条句子进行语义角色识别时,如果当前要标注的词Wi出现在句子中目标词Wt的左边,将当前要标注的词Wi看作目标词Wt左侧窗口内的上下文词,此时用矩阵中的第i行的词向量作为当前要标注的词Wi的词特征;如果当前要标注的词Wj出现在句子中目标词Wt的右边时,将当前要标注的词Wj看作目标词Wt右侧窗口内的上下文词,此时用矩阵的第j行的词向量作为当前要标注的词Wj的词特征;对句子中的目标词Wt,使用U(T)中第t行的词向量作为Wt的词特征;
步骤6,将步骤5得到的词特征拼接其它特征作为当前要标注的词的最终表示,送入基于神经网络的语义角色识别模型进行语义角色识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010682847.8A CN111859910B (zh) | 2020-07-15 | 2020-07-15 | 一种用于语义角色识别的融合位置信息的词特征表示方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010682847.8A CN111859910B (zh) | 2020-07-15 | 2020-07-15 | 一种用于语义角色识别的融合位置信息的词特征表示方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111859910A CN111859910A (zh) | 2020-10-30 |
CN111859910B true CN111859910B (zh) | 2022-03-18 |
Family
ID=72983148
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010682847.8A Active CN111859910B (zh) | 2020-07-15 | 2020-07-15 | 一种用于语义角色识别的融合位置信息的词特征表示方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111859910B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115034226A (zh) * | 2022-06-17 | 2022-09-09 | 北京有竹居网络技术有限公司 | 用于确定文本中说话者的方法、装置、设备和存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106610952A (zh) * | 2016-09-30 | 2017-05-03 | 四川用联信息技术有限公司 | 一种混合的文本特征词汇提取方法 |
CN107239444A (zh) * | 2017-05-26 | 2017-10-10 | 华中科技大学 | 一种融合词性与位置信息的词向量训练方法及系统 |
CN107562717A (zh) * | 2017-07-24 | 2018-01-09 | 南京邮电大学 | 一种基于Word2Vec与词共现相结合的文本关键词抽取方法 |
CN108038492A (zh) * | 2017-11-23 | 2018-05-15 | 西安理工大学 | 一种基于深度学习的感性词向量及情感分类方法 |
CN108733647A (zh) * | 2018-04-13 | 2018-11-02 | 中山大学 | 一种基于高斯分布的词向量生成方法 |
CN109325231A (zh) * | 2018-09-21 | 2019-02-12 | 中山大学 | 一种多任务模型生成词向量的方法 |
CN109543191A (zh) * | 2018-11-30 | 2019-03-29 | 重庆邮电大学 | 一种基于词语关系能量最大化的词向量学习方法 |
CN109670171A (zh) * | 2018-11-23 | 2019-04-23 | 山西大学 | 一种基于词对非对称共现的词向量表示学习方法 |
CN110162749A (zh) * | 2018-10-22 | 2019-08-23 | 哈尔滨工业大学(深圳) | 信息提取方法、装置、计算机设备及计算机可读存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9672207B2 (en) * | 2015-10-19 | 2017-06-06 | International Business Machines Corporation | System, method, and recording medium for determining and discerning items with multiple meanings |
US11068658B2 (en) * | 2016-12-07 | 2021-07-20 | Disney Enterprises, Inc. | Dynamic word embeddings |
-
2020
- 2020-07-15 CN CN202010682847.8A patent/CN111859910B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106610952A (zh) * | 2016-09-30 | 2017-05-03 | 四川用联信息技术有限公司 | 一种混合的文本特征词汇提取方法 |
CN107239444A (zh) * | 2017-05-26 | 2017-10-10 | 华中科技大学 | 一种融合词性与位置信息的词向量训练方法及系统 |
CN107562717A (zh) * | 2017-07-24 | 2018-01-09 | 南京邮电大学 | 一种基于Word2Vec与词共现相结合的文本关键词抽取方法 |
CN108038492A (zh) * | 2017-11-23 | 2018-05-15 | 西安理工大学 | 一种基于深度学习的感性词向量及情感分类方法 |
CN108733647A (zh) * | 2018-04-13 | 2018-11-02 | 中山大学 | 一种基于高斯分布的词向量生成方法 |
CN109325231A (zh) * | 2018-09-21 | 2019-02-12 | 中山大学 | 一种多任务模型生成词向量的方法 |
CN110162749A (zh) * | 2018-10-22 | 2019-08-23 | 哈尔滨工业大学(深圳) | 信息提取方法、装置、计算机设备及计算机可读存储介质 |
CN109670171A (zh) * | 2018-11-23 | 2019-04-23 | 山西大学 | 一种基于词对非对称共现的词向量表示学习方法 |
CN109543191A (zh) * | 2018-11-30 | 2019-03-29 | 重庆邮电大学 | 一种基于词语关系能量最大化的词向量学习方法 |
Non-Patent Citations (7)
Title |
---|
Dependency-based word embedding;Levy O et al;《Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics》;20141231;302-308 * |
Selectively Connected Self-Attentions for Semantic Role Labeling;Jaehui Park;《Appl. Sci.》;20190425;1-15 * |
基于Dropout正则化的汉语框架语义角色识别;王瑞波 等;《中文信息学报》;20170115;第31卷(第1期);147-154 * |
基于分层输出神经网络的汉语语义角色标注;王臻 等;《中文信息学报》;20141115;第28卷(第6期);56-61,78 * |
基于神经网络模型的汉语框架语义角色识别;杨耀文;《中国优秀博硕士学位论文全文数据库(硕士)哲学与人文科学辑》;20170515(第5期);F084-15 * |
基于词性与词序的相关因子训练的word2vec改进模型;潘博 等;《电子学报》;20180815;第46卷(第8期);1976-1982 * |
融合词性和位置信息的增强词向量学习模型研究;刘其磊;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20190315(第3期);I138-1054 * |
Also Published As
Publication number | Publication date |
---|---|
CN111859910A (zh) | 2020-10-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN112001185B (zh) | 一种结合中文句法和图卷积神经网络的情感分类方法 | |
CN107992597B (zh) | 一种面向电网故障案例的文本结构化方法 | |
CN112001187B (zh) | 一种基于中文句法和图卷积神经网络的情感分类系统 | |
CN111931506B (zh) | 一种基于图信息增强的实体关系抽取方法 | |
CN112001186A (zh) | 一种利用图卷积神经网络和中文句法的情感分类方法 | |
CN115269857A (zh) | 一种基于文档关系抽取的知识图谱构建方法和装置 | |
CN112905739B (zh) | 虚假评论检测模型训练方法、检测方法及电子设备 | |
CN115048447B (zh) | 一种基于智能语义补全的数据库自然语言接口系统 | |
CN113168499A (zh) | 检索专利文档的方法 | |
CN111400449B (zh) | 一种正则表达式抽取方法及装置 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN115481219A (zh) | 一种基于语法序列嵌入模型的售电公司评价情感分类方法 | |
CN116842194A (zh) | 一种电力语义知识图谱系统及方法 | |
CN112686025A (zh) | 一种基于自由文本的中文选择题干扰项生成方法 | |
CN115659947A (zh) | 基于机器阅读理解及文本摘要的多项选择答题方法及系统 | |
CN114841353A (zh) | 一种融合句法信息的量子语言模型建模系统及其应用 | |
CN114036246A (zh) | 商品图谱向量化方法、装置、电子设备及存储介质 | |
CN112862569B (zh) | 基于图像和文本多模态数据的产品外观风格评价方法和系统 | |
CN111859910B (zh) | 一种用于语义角色识别的融合位置信息的词特征表示方法 | |
CN112084312A (zh) | 一种基于知识图构建的智能客服系统 | |
CN114626367A (zh) | 基于新闻文章内容的情感分析方法、系统、设备及介质 | |
CN114595324A (zh) | 电网业务数据分域的方法、装置、终端和非暂时性存储介质 | |
Lee | Natural Language Processing: A Textbook with Python Implementation | |
Demilie | Comparative analysis of automated text summarization techniques: The case of Ethiopian languages |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |