CN115081436B - 一种否定焦点的识别方法及系统 - Google Patents

一种否定焦点的识别方法及系统 Download PDF

Info

Publication number
CN115081436B
CN115081436B CN202210831553.6A CN202210831553A CN115081436B CN 115081436 B CN115081436 B CN 115081436B CN 202210831553 A CN202210831553 A CN 202210831553A CN 115081436 B CN115081436 B CN 115081436B
Authority
CN
China
Prior art keywords
negative
negative focus
text
recognized
focus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210831553.6A
Other languages
English (en)
Other versions
CN115081436A (zh
Inventor
李寿山
李雅梦
周国栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN202210831553.6A priority Critical patent/CN115081436B/zh
Publication of CN115081436A publication Critical patent/CN115081436A/zh
Application granted granted Critical
Publication of CN115081436B publication Critical patent/CN115081436B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种否定焦点的识别方法及系统,将待识别文本转换成词序列输入已经训练好的模型中,将词序列生成编码向量和特征向量,再基于给定的否定条件利用编码向量、特征向量及之前生成的所有否定焦点的起始标记和结束标记,计算生成下一个否定焦点的起始标记或结束标记;相比于现有的序列标注模型,对待识别文本中每个词进行标注,本发明生成标记为每个否定焦点的起始和结束,最终得到的是否定焦点范围,在计算下一个否定焦点时不需要根据词序列中每个词再计算,一定程度上减少了计算量,提高了计算效率,同时也能满足在单一否定条件下的否定焦点识别,计算量减少了,计算效率也提高了。

Description

一种否定焦点的识别方法及系统
技术领域
本发明涉及自然语言处理技术领域,特别是涉及一种否定焦点的识别方法及系统。
背景技术
否定表达在自然语言文本中很常见,否定信息识别应用在很多任务中也占据了重要地位,比如信息检索、情感分析、机器翻译、信息提取以及自然语言推理等。否定表达通常与句子中某些特殊的部分相互作用,语言学称之为否定焦点。否定识别一般可以分为3个子任务:否定线索词识别、否定焦点识别和否定范围识别。否定焦点为句子中最突出或最显著被否定的部分。
最先的否定焦点的识别中采用一种监督学习方法来识别否定焦点,后又有考虑副词、被动语态下的名词性主语、否定动词本身作为动词性否定焦点的情况,对动词否定性焦点进行识别获得了正确率为66%和F值为58.4%的结果。后又有人提出“词-主题”模型,该模型为双层结构图模型,获取了4种与上下文信息有关的特征作为句子间的特征,结合句子内语义、句法等特征,利用SVM分类器在*SEM2012语料上进行否定焦点识别获得了67.14%的正确率。
之后又提出了根据上下文语义相似度进行判断的无监督学习方法,其识别语义角色得分最高的为否定焦点,达到了69.39%的正确率。近两年还提出了新的否定识别方法,将否定焦点范围作为神经网络新的输入,再加上句内语义信息、句法特征等进行否定焦点,最好的情况下获得了正确率为75.7%的结果。
现有技术实现否定焦点识别主要分为以下几个步骤:
(1)专业人员标注大量带有详细否定相关标签的文本,每段文本作为一个样本,获得多个带有标注样本的标注语料;
(2)基于神经网络对标注样本进行训练,得到标注模型;
(3)使用序列标注模型对某个位置标签的上下文文本进行测试,获得该文本段的序列标注标签序列。
其中在模型训练过程中,神经网络包含嵌入层、神经网络层、FC全连接层和CRF层。嵌入层是负责编码提取文本的特征信息;FC全连接层负责将文本特征映射到文本的标签类别;CRF层为最后预测的标签添加一些约束来保证预测的标签是合法的。
由于某些文本的否定信息难以识别,简单使用神经网络(LSTM、BERT等)无法很好的理解并判断,所以大部分工作都额外添加了文本的语义信息和其他信息,例如句法特征、语义角色信息和上下文或主题信息等。
然而,由于要添加很多的额外信息,往往系统会变得十分复杂,训练过程繁琐、训练时间长,现有技术也是在通过不断地添加新的条件来捕捉更多的信息来进行否定焦点识别,导致计算量增大,使得计算时间长,且现有技术大多数都是通过序列标注或是图模型的方式来进行。现有的序列标注模型例如RNN,这种模型处理的输入和输出的序列长度相等,即在计算过程需要对输入序列中的每个词进行计算,生成每个词的标注,而在否定焦点的识别中不需要输出序列中每个词的标记,导致数据计算量增大和计算时间过长。
发明内容
本发明的目的是提供一种否定焦点的识别方法及系统,以解决现有技术中利用序列标注模型实现否定焦点识别计算量大和计算时间长的问题。
为解决上述技术问题,本发明提供一种否定焦点的识别方法,包括:
将待识别文本转换成词序列;
将所述词序列输入到已训练好的否定焦点识别模型的编码器中,
生成编码向量和所述待识别文本的特征向量;
将所述编码向量、所述待识别文本的特征向量、所述待识别文本的否定条件、已经识别出的否定焦点的起始标记和结束标记输入到已训练好的否定焦点识别模型的解码器中,生成待识别否定焦点的起始标记;
将已经识别出的否定焦点的起始标记和结束标记和待识别否定焦点的起始标记输入到已训练好的否定焦点识别模型的解码器中,生成待识别否定焦点的结束标记,直至待识别否定焦点的结束标记为所述词序列中最后一个词或结束符号,输出所有否定焦点的起始标记和结束标记,得到待识别文本的否定焦点预测标记序列;
将所述待识别文本的否定焦点预测标记序列转换成否定焦点范围,根据否定焦点范围生成对应的否定焦点序列,完成对所述待识别文本的否定焦点识别。
优选地,所述待识别文本的特征向量包括:
对所述词序列进行词嵌入处理生成第一特征向量
Figure 694791DEST_PATH_IMAGE001
对所述编码向量进行分类处理生成第二特征向量
Figure 378713DEST_PATH_IMAGE002
利用所述第一特征向量和所述第二特征向量加权计算生成所述待识别文本的特征向量:
Figure 77679DEST_PATH_IMAGE003
式中,
Figure 465935DEST_PATH_IMAGE004
为特征向量,
Figure 68211DEST_PATH_IMAGE001
为第一特征向量,
Figure 985351DEST_PATH_IMAGE002
为第二特征向量,
Figure 437192DEST_PATH_IMAGE005
Figure 363560DEST_PATH_IMAGE006
为分别控制第一特征向量和第二特征向量在所述待识别文本的特征向量中的占比系数。
优选地,所述对所述编码向量进行分类处理采用MLP多层感知器组成的分类器进行处理。
优选地,所述待识别文本的特征向量包括:对所述词序列进行词嵌入处理生成待识别文本的特征向量。
优选地,所述生成待识别否定焦点的起始标记包括:
基于所述待识别文本的否定条件,利用所述编码向量和已经识别出的否定焦点的起始标记和结束标记确定待识别否定焦点识别时解码器的第一隐层状态;
将所述第一隐层状态与所述待识别文本的特征向量相乘,得到所述词序列中每个词为待识别否定焦点的起始标记的概率,选择概率最大的词作为待识别否定焦点的起始标记;
所述生成待识别否定焦点的结束标记包括:
基于所述待识别文本的否定条件,利用所述编码向量、已经识别出的否定焦点的起始标记和结束标记和所述待识别否定焦点的起始标记,确定待识别否定焦点识别时解码器的第二隐层状态;
将所述第二隐层状态与所述待识别文本的特征向量相乘,得到所述词序列中每个词为待识别否定焦点的结束标记的概率,选择概率最大的词作为待识别否定焦点的结束标记。
优选地,对所述词序列中每个词为待识别否定焦点的起始标记的概率进行归一化处理,选择归一化后所述词序列中出现概率最大的词作为待识别否定焦点的起始标记;
对所述词序列中每个词为待识别否定焦点的结束标记的概率进行归一化处理,选择归一化后所述词序列中出现概率最大的词作为待识别否定焦点的结束标记。
优选地,所述将待识别文本转换成词序列包括:
将所述待识别文本拆分为多个词,生成纯文本词序列
Figure 318878DEST_PATH_IMAGE007
=
Figure 938078DEST_PATH_IMAGE008
在所述纯文本词序列的开始位置之前添加一个起始符号,在所述纯文本词序列的结束位置之后添加一个结束符号,生成词序列X=
Figure 611636DEST_PATH_IMAGE009
,其中,
Figure 76115DEST_PATH_IMAGE010
代表起始符号,
Figure 446791DEST_PATH_IMAGE011
代表结束符号。
优选地,所述待识别文本的否定条件为所述待识别文本中的否定动词。
优选地,所述否定焦点识别模型的训练过程包括:
根据已知文本、已知文本中的否定条件和已知文本的否定焦点结果构建训练数据集;
将所述已知文本输入否定焦点识别模型的编码器中生成编码向量和特征向量;
将编码向量、特征向量、已知文本中的否定条件和已知文本的否定焦点结果输入否定焦点识别模型的解码器中,输出预测的否定焦点,利用所述预测的否定焦点和所述已知文本的否定焦点结果的对比结果对所述否定焦点识别模型进行训练,得到已训练好的否定焦点识别模型。
本发明还提供了一种否定焦点的识别系统,利用如上所述的否定焦点的识别方法的步骤实现待识别文本的否定焦点的识别,包括:
输入模块:用于输入待识别文本转换的词序列;
编码模块:用于对输入的待识别文本进行编码处理和特征映射,生成编码向量和特征向量;
解码模块:用于生成每个否定焦点的起始标记和结束标记,得到所述待识别文本的否定焦点预测标记序列;
序列转换模块:用于将所述待识别文本的否定焦点预测标记序列转换成否定焦点范围,根据否定焦点范围生成对应的否定焦点序列。
本发明所提供的否定焦点的识别方法,将待识别文本转换成词序列输入已经训练好的模型中,先是将词序列生成编码向量和特征向量,这属于编码过程;然后基于否定条件,利用编码向量、特征向量和之前已生成的否定焦点的起始标记和结束标记生成下一个否定焦点的起始标记或结束标记,这属于解码过程;相比于现有的序列标注模型对待识别文本中每个词进行标注,本发明在解码过程中,生成的标记为每个否定焦点的起始位置或者结束位置,在计算每个否定焦点的起始标记或结束标记时,只需要利用之前所有已生成的否定焦点的起始标记和结束标记来计算,不需要利用已经确定的否定焦点中所有的词来计算,这样使得计算量减少了,计算效率也提高了;同时,也可以满足在仅输入单一否定条件时实现否定焦点的识别,进一步可以提高识别效率。
附图说明
为了更清楚的说明本发明实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明所提供的否定焦点的识别方法的第一种具体实施例的流程图;
图2为本发明所提供的基于BART模型的否定焦点的识别方法的框架图。
具体实施方式
本发明的核心是提供一种否定焦点的识别方法及系统。相比较于现有的序列标注模型生成否定焦点,本发明直接生成否定焦点范围,不需要对输入序列的每个词进行标注,明显提高了否定焦点的识别效率,同时仅使用单一的否定条件,减少了系统的复杂程度,进一步减少了计算过程和训练过程。
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种基于序列生成的否定焦点识别方法,通过已经训练好的模型实现文本的否定焦点识别。请参考图1,图1展示了本发明否定焦点的识别方法的一种具体实施例的流程图,包括:
将待识别文本转换成词序列;
将词序列输入到已训练好的否定焦点识别模型的编码器中,生成编码向量和所述待识别文本的特征向量;
将编码向量、待识别文本的特征向量、待识别文本的否定条件、已经识别出的否定焦点的起始标记和结束标记输入到已训练好的否定焦点识别模型的解码器中,生成待识别否定焦点的起始标记;
将已经识别出的否定焦点的起始标记和结束标记和待识别否定焦点的起始标记输入到已训练好的否定焦点识别模型的解码器中,生成待识别否定焦点的结束标记,直至待识别否定焦点的结束标记为词序列中最后一个词或结束符号,输出所有否定焦点的起始标记和结束标记,得到待识别文本的否定焦点预测标记序列;
将待识别文本的否定焦点预测标记序列转换成否定焦点范围,根据否定焦点范围生成对应的否定焦点序列,完成对待识别文本的否定焦点识别。
本实施例中采用的模型结构图可参考图2,图2中首先将待识别文本转换的词序列,在编码中生成编码向量,并生成特征向量,将编码向量输入解码器中,在解码器中给定否定动词(给定的否定条件),进行否定焦点的识别。本实施例中采用的模型为BART模型,该模型由一个编码器和一个解码器组成,在训练时,将已知文本输入到编码器中进行处理生成编码向量和特征向量,然后将编码向量和特征向量输入解码器中,同时输入已知文本中的否定动词和对应的否定焦点结果进行学习,可以得到在已知文本的否定动词下预测的否定焦点的结果,根据预测的否定焦点与已知的否定焦点的对比结果对模型进行训练优化,以此得到一个训练好的识别模型。
作为其他实施方式,该模型也可以是任意其他序列到序列预训练模型。其他的序列到序列预训练模型也可以通过在训练的时候利用MASK机制屏蔽掉一些次的操作方法来达到类似BART的训练机制,然后拥有跟BART相似的功能,就也可以作为主干模型。本实施例中,已训练好的模型为利用已知文本及已知文本对应的否定焦点结果在给定的否定条件下进行训练生成,给定的否定条件为已知文本的否定动词;作为其他实施方式,也可以额外添加一些其他信息进行训练,以进一步提高模型精度,例如可额外添加句法特征、语义角色信息、主题信息等。
在利用已经训练好的模型进行否定焦点识别时,首先将待识别文本转换成词序列输入到模型的编码器中,经过编码器处理得到一个编码向量和一个特征向量;
一个待识别文本(待识别句子),可以拆分得到纯文本词序列
Figure 112259DEST_PATH_IMAGE012
,其中,m为待识别文本中的token个数,在纯文本词序列的开始位置之前添加一个起始符号,在纯文本词序列的结束位置之后添加一个结束符号,生成词序列
Figure 866588DEST_PATH_IMAGE013
,其中,
Figure 275704DEST_PATH_IMAGE010
代表起始符号,
Figure 330248DEST_PATH_IMAGE011
代表结束符号。
编码器将词序列编码成一个向量:
Figure 594046DEST_PATH_IMAGE014
其中,在公式中,忽略了句子的起始符号<S>和结束符号</S>,但在编码时将这两个符号添加到样本句子词序列的开始和结束位置。
如图2中所展示的,待识别文本(样本句子)为“Most dealers can not continueto absorb this supply”,则拆分得到词序列为
Figure 366830DEST_PATH_IMAGE015
,在编码时需要将起始符号和结束符号添加到词序列的开始位置和结束位置处,则编码时对应的词序列为
Figure 48478DEST_PATH_IMAGE016
,其中,
Figure 957528DEST_PATH_IMAGE010
为起始符号,
Figure 964799DEST_PATH_IMAGE017
为结束符号。
通过编码器中已有的词嵌入编码部分,将词序列中的每一个词都映射到预训练的特征向量空间中得到一个特征向量,表示为:
Figure 631403DEST_PATH_IMAGE018
此外,作为其他实施方式,可以通过编码器中已有的词嵌入编码部分,将词序列中的每一个词都映射到预训练的特征向量空间中得到第一特征向量
Figure 241376DEST_PATH_IMAGE001
表示为:
Figure 644413DEST_PATH_IMAGE018
其中,预训练的特征空间向量为编码器中自有的词嵌入编码模型。
对编码器生成的向量
Figure 681640DEST_PATH_IMAGE019
进行分类,为将输入的词序列X中的每个词映射到单独的特征向量空间中,本实施例中,将编码器输出的
Figure 304382DEST_PATH_IMAGE019
输入到MLP多层感知器组成的分类器中进行分类,得到第二特征向量
Figure 718046DEST_PATH_IMAGE002
为:
Figure 273792DEST_PATH_IMAGE020
然后通过对
Figure 357286DEST_PATH_IMAGE001
Figure 326379DEST_PATH_IMAGE002
加权求和得到待识别文本的特征向量,通过设置系数
Figure 920564DEST_PATH_IMAGE005
来控制
Figure 658713DEST_PATH_IMAGE001
Figure 913108DEST_PATH_IMAGE002
在待识别文本的特征向量的表示中占的比重,则最终的特征向量表示为
Figure 369497DEST_PATH_IMAGE004
Figure 330DEST_PATH_IMAGE003
在本实施例中,
Figure 530668DEST_PATH_IMAGE005
取值为0.5,即两个特征表示的权比为1:1,作为其他实施方式,系数
Figure 346178DEST_PATH_IMAGE005
取值也可根据具体输入模型的实际情况确定,通过第一特征向量和第二特征向量表示待识别文本的特征向量目的就是为得到更好的特征表示效果,更有利于后续否定焦点的识别,通过实际训练过程中针对不同情况训练确定
Figure 398185DEST_PATH_IMAGE005
将编码器生成的编码向量和特征向量输入到已训练好的否定焦点识别模型中,给定待识别文本的否定条件,进行待识别文本的否定和焦点的识别,其中,每生成一个否定焦点的标记(其实标记或结束标记)均会输入到解码器中, 计算t时刻的标记
Figure 957342DEST_PATH_IMAGE021
,每个时刻仅生成一个标记,在进行t时刻的标记生成之前,已经有t-1个标记,按照生成时刻顺序将这t-1个标记生成一个标记序列
Figure 545450DEST_PATH_IMAGE022
,在生成t时刻的标记时需要输入编码器输出的编码向量和特征向量以及t-1时刻的标记序列。其中t时刻指代生成某一个否定焦点的起始标记或结束标记的时刻。
可理解为如果输入的词序列为
Figure 531860DEST_PATH_IMAGE023
,最终输出的为生成的否定焦点的标记序列
Figure 572629DEST_PATH_IMAGE024
,t时刻生成的标记
Figure 669898DEST_PATH_IMAGE021
需要编码器输出的向量,还需要t-1时刻生成的标记序列(即
Figure 909249DEST_PATH_IMAGE025
),其中
Figure 177813DEST_PATH_IMAGE026
表示第一个否定焦点的起始标记,
Figure 830511DEST_PATH_IMAGE027
表示第一个否定焦点的结束标记,以此类推,
Figure 606837DEST_PATH_IMAGE028
为第n/2个否定焦点的起始标记,
Figure 294170DEST_PATH_IMAGE029
为第n/2个否定焦点的结束标记;
可以理解为解码器根据编码器生成的向量
Figure 294487DEST_PATH_IMAGE019
生成第一时刻标记
Figure 44269DEST_PATH_IMAGE026
,则为第一个否定焦点的起始标记;此时标记序列
Figure 483340DEST_PATH_IMAGE030
;
根据编码器生成的向量
Figure 602344DEST_PATH_IMAGE019
和标记序列
Figure 101458DEST_PATH_IMAGE030
,生成第二时刻标记
Figure 135273DEST_PATH_IMAGE027
,则为第一个否定焦点的结束标记;得到标记序列
Figure 987823DEST_PATH_IMAGE031
;
再根据编码器生成的向量
Figure 649748DEST_PATH_IMAGE019
和标记序列
Figure 493333DEST_PATH_IMAGE031
,生成第三时刻标记
Figure 545602DEST_PATH_IMAGE032
,则为第二个否定焦点的起始标记;得到标记序列
Figure 264160DEST_PATH_IMAGE033
;
依次类推,根据编码器生成的向量
Figure 655958DEST_PATH_IMAGE019
和标记序列
Figure 496875DEST_PATH_IMAGE034
,生成第t时刻的标记
Figure 442965DEST_PATH_IMAGE021
所以,每个时刻生成的标记都会加入到之前生成的标记序列中,作为下一时刻的输入,可以将
Figure 27530DEST_PATH_IMAGE022
看做一个索引,其中每个标记都为输入样本句子中某个词的索引。
具体生成过程如下:
基于给定的否定条件(本实施例给定的是否定动词),根据编码器输出的编码向量
Figure 772370DEST_PATH_IMAGE019
计算第一时刻解码器的隐层状态,也就是生成第一个否定焦点的起始标记时的解码器的隐层状态
Figure 784189DEST_PATH_IMAGE035
;将解码器的隐层状态
Figure 545471DEST_PATH_IMAGE035
与特征向量相乘,得到词序列中每个词为第一个否定焦点的起始标记的概率,选择其中概率最大的词作为第一时刻的否定焦点的标记
Figure 543514DEST_PATH_IMAGE026
,则为第一个否定焦点的起始标记;此时标记序列
Figure 34538DEST_PATH_IMAGE030
;其中,也可对概率进行归一化处理,选择归一化处理后的概率最大的词作为第一时刻的否定焦点的标记
Figure 92624DEST_PATH_IMAGE026
基于给定的否定条件,根据编码向量和标记序列
Figure 403520DEST_PATH_IMAGE030
计算第二时刻解码器的隐层状态,也就是计算第一个否定焦点的结束标记时解码器的隐层状态
Figure 265358DEST_PATH_IMAGE036
;将解码器的隐层状态
Figure 610889DEST_PATH_IMAGE036
与特征向量相乘,得到词序列中每个词为第一个否定焦点的结束标记的概率,选择其中概率最大的词作为第二时刻的否定焦点的标记,则为第一个否定焦点的结束标记
Figure 839876DEST_PATH_IMAGE027
;此时标记序列
Figure 638068DEST_PATH_IMAGE031
以此类推,根据编码向量和标记序列
Figure 40230DEST_PATH_IMAGE034
计算第t时刻解码器的隐层状态
Figure 850054DEST_PATH_IMAGE037
;将解码器的隐层状态
Figure 374577DEST_PATH_IMAGE037
与特征向量相乘,得到词序列中每个词为t时刻否定焦点的标记的概率,选择概率最大的词作为第t时刻的标记
Figure 33966DEST_PATH_IMAGE021
直至生成的
Figure 567715DEST_PATH_IMAGE021
为词序列中的最后一个词或者是结束符号时,输出所有否定焦点的开始标记和结束标记,得到预测标记序列。其中,给定的否定条件,在编码向量和特征向量中均有对其的表示。
其中,在解码器中,利用编码器输出的
Figure 294363DEST_PATH_IMAGE019
和已生成的标记序列使用BART解码器可以得到最后一层的隐层状态
Figure 865153DEST_PATH_IMAGE037
,即通过神经网络得到最终的特征层,可以表示为:
Figure 637937DEST_PATH_IMAGE038
将解码器隐层状态
Figure 319585DEST_PATH_IMAGE037
和特征表示
Figure 228635DEST_PATH_IMAGE004
相乘,获得最终每个词对应的表示输出,得到当前t时刻解码器预测的输入词序列中每个词出现的概率,继而通过softmax函数进性归一化,得到当前t时刻预测的标记概率分布序列
Figure 534108DEST_PATH_IMAGE039
Figure 935133DEST_PATH_IMAGE040
最后,选择标记概率分布序列
Figure 951631DEST_PATH_IMAGE039
中的概率最大者为当前t时刻生成的标记
Figure 387291DEST_PATH_IMAGE021
Figure 798419DEST_PATH_IMAGE041
即采用下述公式计算输入样本句子
Figure 280216DEST_PATH_IMAGE042
的情况下,最终输出的标记序列
Figure 365983DEST_PATH_IMAGE043
的概率:
Figure 859413DEST_PATH_IMAGE044
本发明中,输入的词序列为
Figure 333120DEST_PATH_IMAGE023
,输出的标记序列为
Figure 177579DEST_PATH_IMAGE045
,其中
Figure 394933DEST_PATH_IMAGE046
Figure 41072DEST_PATH_IMAGE046
的原因:因为本发明是基于生成的序列,最终得到的是否定焦点的范围(开始和结束两个标记位置)。
在实际模型的运算中,当t时刻的预测标记是词序列的最后两位中任一位的索引时,计算停止,其中词序列的最后一位是结束符号,词序列的倒数第二位是词序列的最后一个词,参考图2,最后一位为结束符号</s>,倒数第二位为supply。
不同于现有的技术中,一一生成每个词的标注,本发明只需要输出最终的否定焦点的范围。
最后将生成的待识别文本的否定焦点预测标记序列转换成否定焦点范围,根据否定焦点范围生成对应的否定焦点序列,完成对所述待识别文本的否定焦点识别。也就是说在得到标签概率分布序列之后,还需要使用解码算法将预测的标签概率分布序列转换为对应的否定范围,解码算法过程如下述算法所示:
解码算法:
输入:输入样本句子
Figure 357784DEST_PATH_IMAGE042
拆分得到的词序列
Figure 689539DEST_PATH_IMAGE023
中的token个数m,生成的标记序列
Figure 445005DEST_PATH_IMAGE045
Figure 913027DEST_PATH_IMAGE047
输出:预测的否定焦点范围集合
Figure 462957DEST_PATH_IMAGE048
过程:
Figure 780544DEST_PATH_IMAGE049
,
Figure 339701DEST_PATH_IMAGE050
,
Figure 724546DEST_PATH_IMAGE051
(去除生成的开始符、结束符和提前给出的提示)
Figure 320743DEST_PATH_IMAGE052
:
Figure 486146DEST_PATH_IMAGE053
Figure 989939DEST_PATH_IMAGE054
Figure 996335DEST_PATH_IMAGE055
L.add(e)
return L
其中,
Figure 29013DEST_PATH_IMAGE056
Figure 681711DEST_PATH_IMAGE057
分别对应一个否定焦点范围的开始和结束,根据否定焦点范围集合L生成对应的否定焦点序列。
本实施例中给定的否定条件为否定动词(否定的是动词),在向编码器输入否定动词时需要输入否定动词的起始标记和结束标记,即输入的是[否定动词的起始标记,否定动词的结束标记];如图2中所示,给定的否定动词为位置编码为5的词(continue),由于在输入过程中,需要输入开始标记和结束标记来使得可以在词序列中找到对应的否定动词,所以在本实施例中要给定否定动词continue时,输入的是[5,5],第一个5是否定动词的开始标记,第二个5是否定动词的结束标记,可理解为在词序列中找否定动词时,位置编码5的词是否定动词;若输入的是[5,6],则位置编码为5和6的词是否定动词。
本实施例中,给定的否定条件是否定动词,利用在模型训练中学习到的规则,根据待识别文本中得到的特征向量,基于每个词的特征确定否定动词和序列中其他词的关系以此识别否定焦点,例如在识别过程中可以依据不同词的词性,例如给定的是动词,动词前的词是副词,后面的词是名词等,根据模型训练中学习到的规则,例如副词不会是否定焦点,则判断出某个词为副词时,则这个词不会作为否定焦点的标记。作为其他实施方式,也可添加其他额外信息,例如句法特征、主题信息等。
在要生成否定焦点范围的开始的时候,输入上一个(这个时候是否定动词的结束标记)生成的标记表示编码器的输出,生成否定焦点范围的开始标记1,可以理解为当解码器输入否定动词后才能开始进行否定焦点的识别。
否定焦点标注的是最明显被否定的语义角色。简单来说否定焦点是包括在否定范围内的,是否定范围中最明显被否定的部分。现有其他方法添加的信息比如语义角色信息、上下句子的信息等都是有助于进行否定焦点识别的。本发明中没有添加这些信息,更能体现本方法本身对否定焦点识别性能的提升效果,若添加其他信息,的确可以再次提升性能,只是参数过多会导致系统变得更复杂,本发明通过生成的方式进行了否定焦点的识别,且不需要过多的额外参数信息,仅使用必要的否定动词即可对否定和焦点进行识别,有效地解决了目前否定焦点识别方法存在的需要过多额外参数的问题,且生成方式简洁明了,更容易理解,简化了现有否定焦点识别的过程。当然本发明也可以添加其他信息,这样可以进一步提升否定焦点识别的准确率。
为了进一步说明本发明在否定焦点识别中的可靠性和实用性,通过本发明方法和现有的两种序列标注的方法(BERT、BERT+CRF)进行否定焦点识别,实验中采用的数据集为2012*SEM共享数据集中用于否定焦点识别的数据集,该数据集在唯一的针对否定焦点标注的数据集PB-FOC上进行了进一步修改标注。该数据集包含的否定信息有多种,包括否定焦点、否定动词、语义角色、语法依赖树、命名实体信息等,实验中所使用的否定信息为否定焦点、否定动词。本发明从2012 *SEM共享数据集中一共提取出含有否定焦点的句子3547条,其中训练集2268条,验证集567条,测试集712条。
最终得到三种方法的对比结果如表1所示:
表1:
Figure 458037DEST_PATH_IMAGE058
表中Precision为分类的准确率,Recall为分类的召回率,F1-Score为准确率和召回率的调和平均,表示分类的整体性能,正确率就表示分类的正确率。
从表中可以看出:本发明提供的否定焦点识别方法相比于其他两种序列标注方法,各个测评指标均有所提升,Precision提升了6.1%-7.8%,充分证明了本发明能有效的提供否定焦点识别的查准率; Recall提升了2.2%-4.1%,F1-Score提升了4.1%-5.9%,正确率提升了2.2%-4.1%,证明本发明能有效地提升否定加点识别的性能。
上述三种方法在进行否定焦点识别时都是仅仅使用了数据的否定动词(必要元素),均没有使用额外的信息(否定上下文、语义角色等),因此从表1的结果中更能充分验证本发明提出的否定焦点识别的性能。
采用序列标注模型进行识别时,序列标注的输入是一个序列,其输出也一个序列,输出序列个数与输入序列个数相等,需要对每个词进行标注,而本发明只需要生成否定焦点的范围,不需要对每个词进行标注,在一定程度上减少了计算量。
本发明还提供了一种否定焦点的识别系统利用如上所述的否定焦点的识别方法的步骤实现对待识别文本的否定焦点的识别,包括:
输入模块:用于输入待识别文本转换的词序列;
编码模块:用于对输入的待识别文本进行编码处理和特征映射,生成编码向量和特征向量;
解码模块:用于生成每个否定焦点的起始标记和结束标记,得到所述待识别文本的否定焦点预测标记序列;
序列转换模块:用于将所述待识别文本的否定焦点预测标记序列转换成否定焦点范围,根据否定焦点范围生成对应的否定焦点序列。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本发明所提供的否定焦点的识别方法及系统进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (8)

1.一种否定焦点的识别方法,其特征在于,包括:
将待识别文本转换成词序列;
将所述词序列输入到已训练好的否定焦点识别模型的编码器中,生成编码向量和所述待识别文本的特征向量;
将所述编码向量、所述待识别文本的特征向量、所述待识别文本的否定条件、已经识别出的否定焦点的起始标记和结束标记输入到已训练好的否定焦点识别模型的解码器中,生成待识别否定焦点的起始标记;
将已经识别出的否定焦点的起始标记和结束标记和待识别否定焦点的起始标记输入到已训练好的否定焦点识别模型的解码器中,生成待识别否定焦点的结束标记,直至待识别否定焦点的结束标记为所述词序列中最后一个词或结束符号,输出所有否定焦点的起始标记和结束标记,得到待识别文本的否定焦点预测标记序列;
将所述待识别文本的否定焦点预测标记序列转换成否定焦点范围,根据否定焦点范围生成对应的否定焦点序列,完成对所述待识别文本的否定焦点识别;
其中,所述否定焦点识别模型的训练过程包括:
根据已知文本、已知文本中的否定条件和已知文本的否定焦点结果构建训练数据集;
将所述已知文本输入否定焦点识别模型的编码器中生成编码向量和特征向量;
将编码向量、特征向量、已知文本中的否定条件和已知文本的否定焦点结果输入否定焦点识别模型的解码器中,输出预测的否定焦点,利用所述预测的否定焦点和所述已知文本的否定焦点结果的对比结果对所述否定焦点识别模型进行训练,得到已训练好的否定焦点识别模型;
所述生成待识别否定焦点的起始标记包括:
基于所述待识别文本的否定条件,利用所述编码向量和已经识别出的否定焦点的起始标记和结束标记确定待识别否定焦点识别时解码器的第一隐层状态;
将所述第一隐层状态与所述待识别文本的特征向量相乘,得到所述词序列中每个词为待识别否定焦点的起始标记的概率,选择概率最大的词作为待识别否定焦点的起始标记;
所述生成待识别否定焦点的结束标记包括:
基于所述待识别文本的否定条件,利用所述编码向量、已经识别出的否定焦点的起始标记和结束标记和所述待识别否定焦点的起始标记,确定待识别否定焦点识别时解码器的第二隐层状态;
将所述第二隐层状态与所述待识别文本的特征向量相乘,得到所述词序列中每个词为待识别否定焦点的结束标记的概率,选择概率最大的词作为待识别否定焦点的结束标记。
2.根据权利要求1所述的否定焦点的识别方法,其特征在于,生成待识别文本的特征向量包括:
对所述词序列进行词嵌入处理生成第一特征向量XTE
对所述编码向量进行分类处理生成第二特征向量
Figure FDA0003882725860000021
利用所述第一特征向量和所述第二特征向量加权计算生成所述待识别文本的特征向量:
Figure FDA0003882725860000022
式中,X′为特征向量,XTE为第一特征向量,
Figure FDA0003882725860000023
为第二特征向量,α和(1-α)为分别控制第一特征向量和第二特征向量在所述待识别文本的特征向量中的占比系数。
3.根据权利要求2所述的否定焦点的识别方法,其特征在于,所述对所述编码向量进行分类处理采用MLP多层感知器组成的分类器进行处理。
4.根据权利要求1所述的否定焦点的识别方法,其特征在于,所述待识别文本的特征向量包括:对所述词序列进行词嵌入处理生成待识别文本的特征向量。
5.根据权利要求1所述的否定焦点的识别方法,其特征在于,对所述词序列中每个词为待识别否定焦点的起始标记的概率进行归一化处理,选择归一化后所述词序列中出现概率最大的词作为待识别否定焦点的起始标记;
对所述词序列中每个词为待识别否定焦点的结束标记的概率进行归一化处理,选择归一化后所述词序列中出现概率最大的词作为待识别否定焦点的结束标记。
6.根据权利要求1所述的否定焦点的识别方法,其特征在于,所述将待识别文本转换成词序列包括:
将所述待识别文本拆分为多个词,生成纯文本词序列Xm=[x1,x2,…,xm];
在所述纯文本词序列的开始位置之前添加一个起始符号,在所述纯文本词序列的结束位置之后添加一个结束符号,生成词序列X=[x0,x1,x2,…,xm,xm+1],其中,x0代表起始符号,xm+1代表结束符号。
7.根据权利要求1所述的否定焦点的识别方法,其特征在于,所述待识别文本的否定条件为所述待识别文本中的否定动词。
8.一种否定焦点的识别系统,其特征在于,利用如上述权利要求1-7任一项所述的否定焦点的识别方法的步骤实现对待识别文本的否定焦点的识别,包括:
输入模块:用于将待识别文本转换成词序列;
编码模块:用于将所述词序列输入到已训练好的否定焦点识别模型的编码器中,生成编码向量和所述待识别文本的特征向量;
解码模块:用于将所述编码向量、所述待识别文本的特征向量、所述待识别文本的否定条件、已经识别出的否定焦点的起始标记和结束标记输入到已训练好的否定焦点识别模型的解码器中,生成待识别否定焦点的起始标记;
将已经识别出的否定焦点的起始标记和结束标记和待识别否定焦点的起始标记输入到已训练好的否定焦点识别模型的解码器中,生成待识别否定焦点的结束标记,直至待识别否定焦点的结束标记为所述词序列中最后一个词或结束符号,输出所有否定焦点的起始标记和结束标记,得到待识别文本的否定焦点预测标记序列;
序列转换模块:用于将所述待识别文本的否定焦点预测标记序列转换成否定焦点范围,根据否定焦点范围生成对应的否定焦点序列,完成对所述待识别文本的否定焦点识别;
其中,所述否定焦点识别模型的训练过程包括:
根据已知文本、已知文本中的否定条件和已知文本的否定焦点结果构建训练数据集;
将所述已知文本输入否定焦点识别模型的编码器中生成编码向量和特征向量;
将编码向量、特征向量、已知文本中的否定条件和已知文本的否定焦点结果输入否定焦点识别模型的解码器中,输出预测的否定焦点,利用所述预测的否定焦点和所述已知文本的否定焦点结果的对比结果对所述否定焦点识别模型进行训练,得到已训练好的否定焦点识别模型;
所述生成待识别否定焦点的起始标记包括:
基于所述待识别文本的否定条件,利用所述编码向量和已经识别出的否定焦点的起始标记和结束标记确定待识别否定焦点识别时解码器的第一隐层状态;
将所述第一隐层状态与所述待识别文本的特征向量相乘,得到所述词序列中每个词为待识别否定焦点的起始标记的概率,选择概率最大的词作为待识别否定焦点的起始标记;
所述生成待识别否定焦点的结束标记包括:
基于所述待识别文本的否定条件,利用所述编码向量、已经识别出的否定焦点的起始标记和结束标记和所述待识别否定焦点的起始标记,确定待识别否定焦点识别时解码器的第二隐层状态;
将所述第二隐层状态与所述待识别文本的特征向量相乘,得到所述词序列中每个词为待识别否定焦点的结束标记的概率,选择概率最大的词作为待识别否定焦点的结束标记。
CN202210831553.6A 2022-07-15 2022-07-15 一种否定焦点的识别方法及系统 Active CN115081436B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210831553.6A CN115081436B (zh) 2022-07-15 2022-07-15 一种否定焦点的识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210831553.6A CN115081436B (zh) 2022-07-15 2022-07-15 一种否定焦点的识别方法及系统

Publications (2)

Publication Number Publication Date
CN115081436A CN115081436A (zh) 2022-09-20
CN115081436B true CN115081436B (zh) 2022-12-30

Family

ID=83259214

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210831553.6A Active CN115081436B (zh) 2022-07-15 2022-07-15 一种否定焦点的识别方法及系统

Country Status (1)

Country Link
CN (1) CN115081436B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107025284A (zh) * 2017-04-06 2017-08-08 中南大学 网络评论文本情感倾向的识别方法及卷积神经网络模型
CN111143550A (zh) * 2019-11-27 2020-05-12 浙江大学 一种基于层次注意力神经网络模型的争议焦点自动识别方法
CN112989055A (zh) * 2021-04-29 2021-06-18 腾讯科技(深圳)有限公司 文本识别方法、装置、计算机设备和存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107025284A (zh) * 2017-04-06 2017-08-08 中南大学 网络评论文本情感倾向的识别方法及卷积神经网络模型
CN111143550A (zh) * 2019-11-27 2020-05-12 浙江大学 一种基于层次注意力神经网络模型的争议焦点自动识别方法
CN112989055A (zh) * 2021-04-29 2021-06-18 腾讯科技(深圳)有限公司 文本识别方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN115081436A (zh) 2022-09-20

Similar Documents

Publication Publication Date Title
CN110489555B (zh) 一种结合类词信息的语言模型预训练方法
CN111312245B (zh) 一种语音应答方法、装置和存储介质
CN111883115B (zh) 语音流程质检的方法及装置
CN111640418B (zh) 一种韵律短语识别方法、装置及电子设备
CN111666758B (zh) 中文分词方法、训练设备以及计算机可读存储介质
CN111563144A (zh) 基于语句前后关系预测的用户意图识别方法及装置
CN112818698B (zh) 一种基于双通道模型的细粒度的用户评论情感分析方法
CN113282714B (zh) 一种基于区分性词向量表示的事件检测方法
CN112200664A (zh) 基于ernie模型和dcnn模型的还款预测方法
CN111984780A (zh) 多意图识别模型训练方法和多意图识别方法及相关装置
CN112612871A (zh) 一种基于序列生成模型的多事件检测方法
CN115238693A (zh) 一种基于多分词和多层双向长短期记忆的中文命名实体识别方法
CN115098673A (zh) 基于变体注意力及层次结构的业务文书信息抽取方法
CN112488111B (zh) 一种基于多层级表达引导注意力网络的指示表达理解方法
CN115081436B (zh) 一种否定焦点的识别方法及系统
CN116362242A (zh) 一种小样本槽值提取方法、装置、设备及存储介质
CN112802451B (zh) 韵律边界预测方法及计算机存储介质
CN115510230A (zh) 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法
CN113012685A (zh) 音频识别方法、装置、电子设备及存储介质
CN113096646A (zh) 音频识别方法、装置、电子设备及存储介质
CN114818644B (zh) 文本模板生成方法、装置、设备及存储介质
CN113555006B (zh) 一种语音信息识别方法、装置、电子设备及存储介质
CN115631746B (zh) 热词识别方法、装置、计算机设备及存储介质
US20240037337A1 (en) Method of training pos tagging model, computer-readable recording medium and pos tagging method
CN111949768A (zh) 一种文件分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant