CN110941705B - 干扰信息去除方法、去干扰模型组件及垃圾文本识别系统 - Google Patents

干扰信息去除方法、去干扰模型组件及垃圾文本识别系统 Download PDF

Info

Publication number
CN110941705B
CN110941705B CN201811099134.8A CN201811099134A CN110941705B CN 110941705 B CN110941705 B CN 110941705B CN 201811099134 A CN201811099134 A CN 201811099134A CN 110941705 B CN110941705 B CN 110941705B
Authority
CN
China
Prior art keywords
word
decoder
text
hidden state
processed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811099134.8A
Other languages
English (en)
Other versions
CN110941705A (zh
Inventor
康杨杨
高喆
陶秀莉
孙常龙
刘晓钟
司罗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201811099134.8A priority Critical patent/CN110941705B/zh
Publication of CN110941705A publication Critical patent/CN110941705A/zh
Application granted granted Critical
Publication of CN110941705B publication Critical patent/CN110941705B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本申请公开了一种干扰信息去除方法、去干扰模型组件及垃圾文本识别系统,涉及信息识别技术领域。方法包括:获取包括多个词的待处理文本;将待处理文本输入预先训练的去干扰模型组件,以便去干扰模型组件输出为待处理文本去除干扰信息后的目标文本,该目标文本包括去干扰模型组件逐步输出的多个目标词。本申请能够将待处理文本中的干扰信息去除,特别是在文本反垃圾过程中,可有效识别和去除干扰信息,为后续的信息处理提供了更为干净的语料。

Description

干扰信息去除方法、去干扰模型组件及垃圾文本识别系统
技术领域
本申请涉及信息识别技术领域,尤其涉及一种干扰信息去除方法、去干扰模型组件及垃圾文本识别系统。
背景技术
目前,在互联网中存在大量的文本信息,而在文本信息中有很多是垃圾信息(例如,涉及广告、涉黄以及辱骂等信息)。如何有效的识别这些垃圾信息是内容安全领域所面临的重要挑战之一。而目前,文本反垃圾的方式是采用常规的机器学习算法,机器学习算法从一定程度上缓解了人力不足导致无法及时处理垃圾信息的缺陷,大大提升了处置垃圾信息的效率。然而网络黑产为了规避系统算法的拦截,不断的通过人工学习,制造各种干扰信息来迷惑系统算法,从而使得垃圾信息难以被识别,例如在正常文本中插入各种无意义(比如各种符号和标点),或者语义不相关的文字信息等。
因此,如何识别和去除干扰信息,成为目前文本反垃圾亟需解决的一个问题。
发明内容
本申请的实施例提供一种干扰信息去除方法、去干扰模型组件及垃圾文本识别系统,以实现在文本反垃圾过程中有效识别和去除干扰信息。
为达到上述目的,本申请采用如下技术方案:
一方面,本申请提供了一种干扰信息的去除方法,包括:
获取包括多个词的待处理文本;
将所述待处理文本输入预先训练的去干扰模型组件,以便所述去干扰模型组件输出为所述待处理文本去除干扰信息后的目标文本,所述目标文本包括所述去干扰模型组件逐步输出的多个目标词;
其中,所述去干扰模型组件包括第一编码器、第一解码器、第二编码器和第二解码器,所述去干扰模型组件在每一步输出的目标词基于所述第二编码器为各个词生成的第二编码隐藏状态、第二解码器在当前步生成的第二解码隐藏状态和所述去干扰模型组件在上一步输出的目标词来确定,所述各个词的第二编码隐藏状态由第二编码器基于所述第一编码器为各个词生成的第一编码隐藏状态而生成,所述第二解码器在当前步生成的第二解码隐藏状态由第二解码器至少基于所述第一解码器在当前步的第一解码隐藏状态而生成。
另一方面,本申请提供了一种去干扰模型组件,包括输入单元、第一编码器、第一解码器、第二编码器、第二解码器以及输出单元;
所述输入单元,用于接收待处理文本,并生成所述待处理文本所包含的各个词的词向量;
所述第一编码器,用于逐步接收各个词的词向量,并逐步为各个词生成第一编码隐藏状态;
所述第一解码器,用于接收第一解码器在上一步生成的第一解码隐藏状态和输出单元在上一步输出的目标词,并生成在当前步的第一解码隐藏状态;
所述第二编码器,用于逐步接收各个词的第一编码隐藏状态,并逐步为各个词生成第二编码隐藏状态;
所述第二解码器,用于接收第二解码器在上一步生成的第二解码隐藏状态和第一解码器在当前步生成的第一解码隐藏状态,并生成在当前步的第二解码隐藏状态;
所述输出单元,用于选择最终概率分布中概率最大的词作为当前步输出的目标词;
其中,所述最终概率分布是对待处理文本中各个词和预设词汇表中各个候选词,根据各个词的注意力权重、候选词的概率分布、生成概率进行计算得到;所述注意力权重是基于注意力机制,根据各个词的第一编码隐藏状态和第一解码器在当前步的第一解码隐藏状态来计算得到;所述候选词的概率分布是根据预设词汇表中的候选词、上下文向量和第一解码器在当前步的第一解码隐藏状态计算得到;所述上下文向量是基于注意力权重,对各个词的第一编码隐藏状态进行加权求和得到;所述生成概率是根据各个词的第二编码隐藏状态、第二解码器在当前步的第二解码隐藏状态、第一解码器在当前步的第一解码隐藏状态和上下文向量计算得到。
又一方面,本申请提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述的干扰信息的去除方法。
又一方面,本申请提供了一种计算机设备,包括存储器、处理器及存储在存储上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述的干扰信息的去除方法。
又一方面,本申请提供了一种垃圾文本的识别系统,包括:
接收单元,用于接收用户输入的文本;
上述的去干扰模型组件,用于去除文本中的干扰信息,输出去除干扰信息后的目标文本;
垃圾识别单元,用于判断去除干扰信息后的目标文本是否为垃圾文本;
显示组件,用于在去除干扰信息后的目标文本不为垃圾文本的情况下,显示所述目标文本。
本申请实施例提供的一种干扰信息去除方法、去干扰模型组件及垃圾文本识别系统,能够获取包括多个词的待处理文本;之后将待处理文本输入预先训练的去干扰模型组件,以便去干扰模型组件输出为待处理文本去除干扰信息后的目标文本,该目标文本包括去干扰模型组件逐步输出的多个目标词。这样,本申请实施例能够将待处理文本中的干扰信息去除,特别是在文本反垃圾过程中,可有效识别和去除干扰信息,为后续的信息处理提供了更为干净的语料。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例中提供了一种文本的处理系统的结构示意图;
图2为文本携带大量干扰信息的界面示意图;
图3为本申请实施例中的去干扰模型组件以及指针网络的结构示意图;
图4为本申请实施例中的显示界面的显示示意图;
图5为本申请实施例提供的一种干扰信息的去除方法的流程图;
图6为本申请实施例提供的一种去干扰模型组件的结构示意图;
图7为本申请实施例提供的一种垃圾文本的识别系统的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
考虑到现有技术识别干扰信息,并解决信息干扰的方式,通常是对输入文本进行复原,然后再通过机器学习算法判断该段文本是否是垃圾信息,然而现有技术的方式存在诸多不足。例如,对输入文本进行复原常见的方法是规则匹配或序列标注的方法:
1)规则匹配的方法,是通过预先人工定义的规则,比如将文本中出现的标点、表情、字母去除,从而得到处理后的文本。此种方法存在的问题是会错误删除正常的标点,导致文本语义上不通顺。另外,任何信息都可以被用来形成干扰信息,而规则匹配的方法无法穷举所有干扰类型,使得无法准确和全面的识别干扰信息。
2)序列标注的方法,是通过人工标注文本片段中的每一个干扰信息片段,然后训练序列标注模型,如条件随机场算法模型(Conditional Random Field Algorithm,简称CRF模型)或长短期记忆网络模型(Long Short-Term Memory,简称LSTM模型)。LSTM模型能够捕获长远的上下文信息,还具备神经网络拟合非线性的能力,但是无法建模不同时刻标签之间的约束关系。而CRF模型更多考虑的是整个句子的局部特征的线性加权组合,但是无法建模远距离的依赖关系。
基于上述现有技术的问题,如果能够应用人工智能技术来提供一种干扰信息的去除方法,能够将文本中的干扰信息有效识别和去除,这样就可以为文本反垃圾过程提供更为干净的语料,从而可以提高后续文本反垃圾处理的效率。
为此,在本例中提供了一种文本的处理系统,如图1所示,该系统包括:客户端设备11和服务端设备12,客户端设备11和服务端设备12可通过互联网或局域网等方式通信连接。客户端设备11可以为能够输入待处理文本的手机、个人计算机、平板电脑、一体机等设备,用于提供待处理文本的输入界面,以及显示目标文本。另外,该客户端设备11也可以直接完成垃圾文本的识别。此外,该服务端设备12可以为与待处理文本相关的网站或应用的后台服务器设备,例如各种需输入文本的网站或应用的服务器(如网络评论、邮件文本及社交聊天软件等场景的服务器),用于完成垃圾文本的识别。
用户可在客户端设备11上的界面中输入待处理文本,其可能包含大量的干扰信息。该干扰信息是指一段正常文本中,陷入各种无意义(例如各种符号或标点),或者语义不相关的文字信息(例如:“加我微信吧”这条正常文本中插入不相关的文字信息后,可能为“加我哈哈哈哈微信哈哈哈吧”)或者其它各种与正常文本主题内容不相关的信息载体,例如图2所示,在某社交网站的一些分享内容的评论中,存在大量的带有干扰信息的垃圾信息。客户端设备11本身可接收到用户输入的文本,或者将用户输入的文本发送至服务端设备12,由服务端设备12来接收用户输入的文本。之后,需要先对用户输入的文本根据预先设置的人工规则进行去干扰预处理,获得去干扰预处理后的待处理文本。例如一待处理的文本中包含了干扰信息,例如“加^-^我&分隔符%微信”,其实际所要表达的语义为“加我微信”,但是其中包含了表情、标点符号、无意义的文字符号等干扰信息。则此时需要先根据预先设置的人工规则进行去干扰预处理,该预先设置的人工规则可以有多种,此处仅列举两种方式:
例如,将连续且相同的标点和表情信息合并为一个标点和表情信息,如将待处理文本“加我,,,,微信。。。吧。”进行处理得到去干扰预处理后的待处理文本为“加我,微信。吧。”
又例如,将标点和表情信息均删除,如将待处理文本“加我^-^哈哈哈哈,微信嘻嘻嘻,吧”进行处理得到预处理后的待处理文本为“加我哈哈哈哈微信嘻嘻嘻吧”。
可见,上述两种方式中得到的去干扰预处理后的待处理文本依然存在文本语义不通顺,以及存在干扰信息的情况。
为了进一步的对去干扰预处理后的待处理文本进行去干扰处理,相应的在客户端设备11或服务端设备12中可以设置有预先训练的去干扰模型组件,经过该去干扰模型组件可以输出为待处理文本去除干扰信息后的目标文本,该目标文本包括去干扰模型组件逐步输出的多个目标词。例如,如图3所示,待处理文本为“加^-^我&分隔符%微信”,最终得到的目标文本为“加我微信”。这样,服务端设备12或客户端设备11得到的目标文本相对于原始的待处理文本就较为干净,在后续对目标文本继续处理时,就可提高后续文本反垃圾处理的效率。
该预先训练的去干扰模型组件能够输出为待处理文本去除干扰信息后的目标文本,因此为了实现这一目的,如图3所示,该干扰模型组件20可以包括输入单元21、第一编码器22、第一解码器23、第二编码器24、第二解码器25和输出单元26。其中,去干扰模型组件20在每一步输出的目标词基于该第二编码器24为各个词生成的第二编码隐藏状态、第二解码器25在当前步生成的第二解码隐藏状态和去干扰模型组件20在上一步输出的目标词来确定,而各个词的第二编码隐藏状态由第二编码器24基于第一编码器22为各个词生成的第一编码隐藏状态而生成,第二解码器25在当前步生成的第二解码隐藏状态由第二解码器25至少基于第一解码器25在当前步的第一解码隐藏状态而生成。而该输入单元21用于接收待处理文本,输出单元26用于输出目标词。
上述的第一编码器22和第一解码器23,以及第二编码器24和第二解码器25可采用循环神经网络,特别是长短期记忆网络或者门控循环单元神经网络,但不仅局限于此。该第一编码器22和第一解码器23,以及第二编码器24和第二解码器25需要预先经过训练,训练过程可以采用如下方式:获得第一训练样本集;该第一训练样本集包括各个词的词向量和对应的目标文本中的目标词。将各个词的词向量作为训练特征,将各个词的词向量对应的目标文本中的目标词作为训练目标,对第一编码器22和第一解码器23进行训练。获得第二训练样本集;该第二训练样本集包括各个词的第一编码隐藏状态和用于指示各个词的类型的词类型向量。将各个词的第一编码隐藏状态作为训练特征,将各个词的词类型向量作为训练目标,对第二编码器24和第二解码器25进行训练。经过上述方式训练好后,第一编码器22和第一解码器23,以及第二编码器24和第二解码器25则可在去干扰模型组件20中工作。
经过去干扰模型组件20的处理,可以输出待处理文本去除干扰信息后的目标文本,其具体可以采用以下方式:
将待处理文本输入输入单元21,以便输入单元21生成待处理文本所包含的各个词的词向量。此处输入单元21可以基于词嵌入的算法(例如word2vec)来生成待处理文本所包含的各个词的词向量。例如在图3中,待处理文本“加^-^我&分隔符%微信”被输入到了输入单元21,相应的分别生成各个词的词向量。
将各个词的词向量逐步输入第一编码器22,以便第一编码器22逐步为各个词生成第一编码隐藏状态。
将第一解码器23在上一步生成的第一解码隐藏状态和输出单元26在上一步输出的目标词输入第一解码器23,以便第一解码器23生成在当前步的第一解码隐藏状态。此处在当前步为第一解码器23的初始步时,将第一编码器22的最后一词的第一编码隐藏状态和一开始符号(如图3中的<start>)输入第一解码器23,以便第一解码器23生成在初始步的第一解码隐藏状态。
将各个词的第一编码隐藏状态逐步输入第二编码器24,以便第二编码器24逐步为各个词生成第二编码隐藏状态。
将第二解码器25在上一步生成的第二解码隐藏状态和第一解码器23在当前步生成的第一解码隐藏状态输入第二解码器25,以便第二解码器25生成在当前步的第二解码隐藏状态。此处在当前步为第二解码器25的初始步时,将第二编码器24的最后一词的第二编码隐藏状态和初始步的第一解码隐藏状态输入第二解码器25,以便第二解码器25生成在初始步的第二解码隐藏状态。此处的第二编码器24和第二解码器25是为了完成各个词的泛化,以到达泛化的功能。例如,如图3所示,各个词在第二编码器进行编码阶段,中文可以表示为AC、表情符号表示为AE,标点表示为AP,英文表示为AEg等。相应的第二解码器进行解码阶段,中文可以表示为BC、表情符号表示为BE,标点表示为BP,英文表示为BEg等。经过泛化后能够将各个词泛化为相应的词类型,即中文、英文、表情符号、标点等。
基于注意力机制,根据第一编码器22生成的各个词的第一编码隐藏状态和第一解码器23在当前步的第一解码隐藏状态来计算各个词的注意力权重。
基于注意力权重,对各个词的第一编码隐藏状态进行加权求和,以得到上下文向量。此处,首先可以通过第一编码隐藏状态确定各个词的权重,其方式为:
Figure BDA0001806216640000071
ai t=softmax(ei t);
其中,
Figure BDA0001806216640000072
表示当前第i个词的注意力权重;v、Wh、Wx和battn表示预先学习的参数;hi表示当前第i个词的第一编码隐藏状态;xt表示第一解码器在当前步的第一解码隐藏状态;softmax表示对所有词的注意力权重进行平均归一;ai t表示权重分布。之后,可对各个词的第一编码隐藏状态进行加权求和,以得到上下文向量:
Figure BDA0001806216640000073
获得上下文向量。其中,
Figure BDA0001806216640000074
表示上下文向量。
根据预设词汇表中的候选词、所述上下文向量和第一解码器23在当前步的第一解码隐藏状态,计算候选词的概率分布。此处具体可以采用公式:
Figure BDA0001806216640000081
来计算得到候选词的概率分布Pvocab。其中,xt表示第一解码器在当前步的第一解码隐藏状态;
Figure BDA0001806216640000082
表示上下文向量;V′、V、b和b′表示预先学习的参数。通过该公式可计算得到候选词的概率分布,即得到候选词的每个词被预测的概率。
根据各个词的第二编码隐藏状态、第二解码器25在当前步的第二解码隐藏状态、第一解码器23在当前步的第一解码隐藏状态和上下文向量,计算以候选词为目标词的生成概率。此处可通过公式:
Figure BDA0001806216640000083
计算以候选词为目标词的生成概率Pgen;其中,Wph、Wps
Figure BDA0001806216640000084
Wx和b为预先学习的参数;hpt为各个词的第二编码隐藏状态;hps为第二解码器在当前步的第二解码隐藏状态;
Figure BDA0001806216640000085
为上下文向量;xt为第一解码器在当前步的第一解码隐藏状态。
根据各个词的注意力权重、候选词的概率分布、生成概率,计算待处理文本中各个词和预设词汇表中各个候选词的最终概率分布。
经由所述输出单元26选择最终概率分布中概率最大的词作为当前步输出的目标词。例如,如图3所示,待处理文本“加^-^我&分隔符%微信”在输出目标词“我”之后,根据该去干扰模型组件20的处理,可得到当前步输出的目标词“微信”而去除了干扰信息“&分隔符%”。该图3中的例子仅为一具体实例,本领域技术人员还可以根据本申请所提出的去干扰模型组件列举更多的处理实例,此处不再一一赘述。
在采用预先训练的去干扰模型组件输出为待处理文本去除干扰信息后的目标文本之后,可以继续判断去除干扰信息后的目标文本是否为垃圾文本(如采用反垃圾识别算法等进行反垃圾识别)。此处的垃圾文本可以是指涉及广告、涉黄、涉及辱骂信息、涉及赌博等信息的文本。若在去除干扰信息后的目标文本不为垃圾文本的情况下,可正常显示目标文本;而若在去除干扰信息后的目标文本为垃圾文本的情况下,可隐藏该目标文本,不进行显示,或者将去除干扰信息后的目标文本在原文本(带有干扰信息的文本)中采用高亮的方式进行显示,“加*,我-分隔符)微。。信吧,有更v便宜的店&&铺可以推荐给你”,其中的“加我微信吧,有更便宜的店铺可以推荐给你”可以采用高亮(如标黄字)的方式显示出来。另外,还可以将去除干扰信息的垃圾文本存在的问题进行显示,例如对于“加*,我-分隔符)微。。信吧,有更v便宜的店&&铺可以推荐给你”,可显示“该评价涉嫌广告,已被屏蔽,请遵守平台规则”,例如在一显示界面,其具体显示情况可以如图4所示。
在本例中,提供了一种干扰信息的去除方法,如图5所示,可以包括如下步骤:
步骤101、获取包括多个词的待处理文本。
步骤102、根据预先设置的人工规则对获取到的待处理文本进行去干扰预处理,获得去干扰预处理后的待处理文本。
步骤103、将待处理文本输入预先训练的去干扰模型组件,以便去干扰模型组件输出为待处理文本去除干扰信息后的目标文本。
该目标文本包括去干扰模型组件逐步输出的多个目标词。
其中,去干扰模型组件包括第一编码器、第一解码器、第二编码器和第二解码器,去干扰模型组件在每一步输出的目标词基于第二编码器为各个词生成的第二编码隐藏状态、第二解码器在当前步生成的第二解码隐藏状态和去干扰模型组件在上一步输出的目标词来确定,各个词的第二编码隐藏状态由第二编码器基于第一编码器为各个词生成的第一编码隐藏状态而生成,第二解码器在当前步生成的第二解码隐藏状态由第二解码器至少基于第一解码器在当前步的第一解码隐藏状态而生成。
另外,该去干扰模型组件还包括用于接收待处理文本的输入单元和用于输出目标词的输出单元。
此处的第一编码器和第一解码器,以及第二编码器和第二解码器可采用循环神经网络,特别是长短期记忆网络或者门控循环单元神经网络,但不仅局限于此。该第一编码器和第一解码器,以及第二编码器和第二解码器需要预先经过训练,训练过程可以采用如下方式:获得第一训练样本集;该第一训练样本集包括各个词的词向量和对应的目标文本中的目标词。将各个词的词向量作为训练特征,将各个词的词向量对应的目标文本中的目标词作为训练目标,对第一编码器和第一解码器进行训练。获得第二训练样本集;该第二训练样本集包括各个词的第一编码隐藏状态和用于指示各个词的类型的词类型向量。将各个词的第一编码隐藏状态作为训练特征,将各个词的词类型向量作为训练目标,对第二编码器和第二解码器进行训练。经过上述方式训练好后,第一编码器和第一解码器,以及第二编码器和第二解码器则可在去干扰模型组件中工作。
此处,步骤103中,将待处理文本输入预先训练的去干扰模型组件,以便去干扰模型组件输出为待处理文本去除干扰信息后的目标文本的步骤可以采用如下方式:
S1:将待处理文本输入输入单元,以便输入单元生成待处理文本所包含的各个词的词向量。
此处该输入单元可以基于词嵌入的算法生成待处理文本所包含的各个词的词向量。
S2:将各个词的词向量逐步输入第一编码器,以便第一编码器逐步为各个词生成第一编码隐藏状态。
S3:将第一解码器在上一步生成的第一解码隐藏状态和输出单元在上一步输出的目标词输入第一解码器,以便第一解码器生成在当前步的第一解码隐藏状态。
S4:将各个词的第一编码隐藏状态逐步输入第二编码器,以便第二编码器逐步为各个词生成第二编码隐藏状态。
S5:将第二解码器在上一步生成的第二解码隐藏状态和第一解码器在当前步生成的第一解码隐藏状态输入第二解码器,以便第二解码器生成在当前步的第二解码隐藏状态。
S6:基于注意力机制,根据各个词的第一编码隐藏状态和第一解码器在当前步的第一解码隐藏状态来计算各个词的注意力权重。
S7:基于注意力权重,对各个词的第一编码隐藏状态进行加权求和,以得到上下文向量。
S8:根据预设词汇表中的候选词、上下文向量和第一解码器在当前步的第一解码隐藏状态,计算候选词的概率分布。
S9:根据各个词的第二编码隐藏状态、第二解码器在当前步的第二解码隐藏状态、第一解码器在当前步的第一解码隐藏状态和上下文向量,计算以候选词为目标词的生成概率。
S10:根据各个词的注意力权重、候选词的概率分布、生成概率,计算待处理文本中各个词和预设词汇表中各个候选词的最终概率分布。
S11:经由输出单元选择最终概率分布中概率最大的词作为当前步输出的目标词。
此处,上述步骤S9中,根据各个词的第二编码隐藏状态、第二解码器在当前步的第二解码隐藏状态、第一解码器在当前步的第一解码隐藏状态和上下文向量,计算以候选词为目标词的生成概率,可以采用如下方式:
通过公式:
Figure BDA0001806216640000111
计算以候选词为目标词的生成概率Pgen。
其中,Wph、Wps
Figure BDA0001806216640000112
Wx和b为预先学习的参数;hpt为各个词的第二编码隐藏状态;hps为第二解码器在当前步的第二解码隐藏状态;
Figure BDA0001806216640000113
为上下文向量;xt为第一解码器在当前步的第一解码隐藏状态。
此处,在上述步骤S3中,若当前步为第一解码器的初始步时,则对于初始步的处理采用如下方式:
将第一编码器的最后一词的第一编码隐藏状态和一开始符号输入第一解码器,以便第一解码器生成在初始步的第一解码隐藏状态。
此处,在上述步骤S5中,若当前步为第二解码器的初始步时,则对于初始步的处理采用如下方式:
将第二编码器的最后一词的第二编码隐藏状态和初始步的第一解码隐藏状态输入第二解码器,以便第二解码器生成在初始步的第二解码隐藏状态。
另外,在本例中,还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述图5对应的干扰信息的去除方法。
另外,在本例中,还提供一种计算机设备,包括存储器、处理器及存储在存储上并可在处理器上运行的计算机程序,处理器执行程序时实现上述图5对应的干扰信息的去除方法。
另外,在本例中,还提供一种去干扰模型组件20,如图3和图6所示,包括输入单元21、第一编码器22、第一解码器23、第二编码器24、第二解码器25以及输出单元26。
输入单元21,用于接收待处理文本,并生成待处理文本所包含的各个词的词向量。
第一编码器22,用于逐步接收各个词的词向量,并逐步为各个词生成第一编码隐藏状态。
第一解码器23,用于接收第一解码器23在上一步生成的第一解码隐藏状态和输出单元26在上一步输出的目标词,并生成在当前步的第一解码隐藏状态。
第二编码器24,用于逐步接收各个词的第一编码隐藏状态,并逐步为各个词生成第二编码隐藏状态。
第二解码器25,用于接收第二解码器25在上一步生成的第二解码隐藏状态和第一解码器23在当前步生成的第一解码隐藏状态,并生成在当前步的第二解码隐藏状态。
输出单元26,用于选择最终概率分布中概率最大的词作为当前步输出的目标词。
其中,最终概率分布是对待处理文本中各个词和预设词汇表中各个候选词,根据各个词的注意力权重、候选词的概率分布、生成概率进行计算得到;注意力权重是基于注意力机制,根据各个词的第一编码隐藏状态和第一解码器在当前步的第一解码隐藏状态来计算得到;候选词的概率分布是根据预设词汇表中的候选词、上下文向量和第一解码器在当前步的第一解码隐藏状态计算得到;上下文向量是基于注意力权重,对各个词的第一编码隐藏状态进行加权求和得到;生成概率是根据各个词的第二编码隐藏状态、第二解码器在当前步的第二解码隐藏状态、第一解码器在当前步的第一解码隐藏状态和上下文向量计算得到。
另外,在本例中,还提供一种垃圾文本的识别系统,如图7所示,包括:
接收单元31,用于接收用户输入的文本。
去干扰模型组件32(其具体实现可以参见上述图3和图6所示出的内容),用于去除文本中的干扰信息,输出去除干扰信息后的目标文本。
垃圾识别单元33,用于判断去除干扰信息后的目标文本是否为垃圾文本。
显示组件34,用于在去除干扰信息后的目标文本不为垃圾文本的情况下,显示目标文本。
在上述实施例中,提供的干扰信息去除方法、去干扰模型组件及垃圾文本识别系统,能够获取包括多个词的待处理文本;之后将待处理文本输入预先训练的去干扰模型组件,以便去干扰模型组件输出为待处理文本去除干扰信息后的目标文本,该目标文本包括去干扰模型组件逐步输出的多个目标词。这样,本申请实施例能够将待处理文本中的干扰信息去除,特别是在文本反垃圾过程中,可有效识别和去除干扰信息,为后续的信息处理提供了更为干净的语料。
虽然本申请提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或客户端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。
上述实施例阐明的装置或模块,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。为了描述的方便,描述以上装置时以功能分为各种模块分别描述。在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现。当然,也可以将实现某功能的模块由多个子模块或子单元组合实现。
本申请中所述的方法、装置或模块可以以计算机可读程序代码方式实现控制器按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
本申请所述装置中的部分模块可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的硬件的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,也可以通过数据迁移的实施过程中体现出来。该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,移动终端,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例采用递进的方式描述,各个实施例之间相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。本申请的全部或者部分可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、移动通信终端、多处理器系统、基于微处理器的系统、可编程的电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
虽然通过实施例描绘了本申请,本领域普通技术人员知道,本申请有许多变形和变化而不脱离本申请的精神,希望所附的权利要求包括这些变形和变化而不脱离本申请的精神。

Claims (16)

1.一种干扰信息的去除方法,包括:
获取包括多个词的待处理文本;
将所述待处理文本输入预先训练的去干扰模型组件,以便所述去干扰模型组件输出为所述待处理文本去除干扰信息后的目标文本,所述目标文本包括所述去干扰模型组件逐步输出的多个目标词;
其中,所述去干扰模型组件包括第一编码器、第一解码器、第二编码器和第二解码器,所述去干扰模型组件在每一步输出的目标词基于所述第二编码器为各个词生成的第二编码隐藏状态、第二解码器在当前步生成的第二解码隐藏状态和所述去干扰模型组件在上一步输出的目标词来确定,所述各个词的第二编码隐藏状态由第二编码器基于所述第一编码器为各个词生成的第一编码隐藏状态而生成,所述第二解码器在当前步生成的第二解码隐藏状态由第二解码器至少基于所述第一解码器在当前步的第一解码隐藏状态而生成。
2.根据权利要求1所述的干扰信息的去除方法,其中,所述去干扰模型组件还包括用于接收待处理文本的输入单元和用于输出目标词的输出单元;所述将所述待处理文本输入预先训练的去干扰模型组件,以便所述去干扰模型组件输出为所述待处理文本去除干扰信息后的目标文本的步骤包括:
将所述待处理文本输入所述输入单元,以便所述输入单元生成所述待处理文本所包含的各个词的词向量;
将各个词的词向量逐步输入第一编码器,以便第一编码器逐步为各个词生成第一编码隐藏状态;
将第一解码器在上一步生成的第一解码隐藏状态和输出单元在上一步输出的目标词输入第一解码器,以便第一解码器生成在当前步的第一解码隐藏状态;
将各个词的第一编码隐藏状态逐步输入第二编码器,以便第二编码器逐步为各个词生成第二编码隐藏状态;
将第二解码器在上一步生成的第二解码隐藏状态和第一解码器在当前步生成的第一解码隐藏状态输入第二解码器,以便第二解码器生成在当前步的第二解码隐藏状态。
3.根据权利要求2所述的干扰信息的去除方法,其中,所述将所述待处理文本输入预先训练的去干扰模型组件,以便所述去干扰模型组件输出为所述待处理文本去除干扰信息后的目标文本的步骤还包括:
基于注意力机制,根据各个词的第一编码隐藏状态和第一解码器在当前步的第一解码隐藏状态来计算各个词的注意力权重;
基于注意力权重,对各个词的第一编码隐藏状态进行加权求和,以得到上下文向量;
根据预设词汇表中的候选词、所述上下文向量和第一解码器在当前步的第一解码隐藏状态,计算候选词的概率分布;
根据各个词的第二编码隐藏状态、第二解码器在当前步的第二解码隐藏状态、第一解码器在当前步的第一解码隐藏状态和上下文向量,计算以候选词为目标词的生成概率;
根据各个词的注意力权重、候选词的概率分布、生成概率,计算待处理文本中各个词和预设词汇表中各个候选词的最终概率分布;
经由所述输出单元选择最终概率分布中概率最大的词作为当前步输出的目标词。
4.根据权利要求3所述的干扰信息的去除方法,其中,所述根据各个词的第二编码隐藏状态、第二解码器在当前步的第二解码隐藏状态、第一解码器在当前步的第一解码隐藏状态和上下文向量,计算以候选词为目标词的生成概率,包括:
通过公式:
Figure FDA0001806216630000021
计算以候选词为目标词的生成概率Pgen;
其中,Wph、Wps
Figure FDA0001806216630000022
Wx和b为预先学习的参数;hpt为各个词的第二编码隐藏状态;hps为第二解码器在当前步的第二解码隐藏状态;
Figure FDA0001806216630000023
为上下文向量;xt为第一解码器在当前步的第一解码隐藏状态。
5.根据权利要求2所述的干扰信息的去除方法,其中,在当前步为第一解码器的初始步时,将第一编码器的最后一词的第一编码隐藏状态和一开始符号输入第一解码器,以便第一解码器生成在初始步的第一解码隐藏状态。
6.根据权利要求2所述的干扰信息的去除方法,其中,在当前步为第二解码器的初始步时,将第二编码器的最后一词的第二编码隐藏状态和初始步的第一解码隐藏状态输入第二解码器,以便第二解码器生成在初始步的第二解码隐藏状态。
7.根据权利要求1所述的干扰信息的去除方法,其中,还包括:
获得第一训练样本集;所述第一训练样本集包括各个词的词向量和对应的目标文本中的目标词;
将各个词的词向量作为训练特征,将各个词的词向量对应的目标文本中的目标词作为训练目标,对第一编码器和第一解码器进行训练。
8.根据权利要求1所述的干扰信息的去除方法,其中,还包括:
获得第二训练样本集;所述第二训练样本集包括各个词的第一编码隐藏状态和用于指示各个词的类型的词类型向量;
将各个词的第一编码隐藏状态作为训练特征,将各个词的词类型向量作为训练目标,对第二编码器和第二解码器进行训练。
9.根据权利要求1所述的干扰信息的去除方法,其中,还包括:
根据预先设置的人工规则对获取到的待处理文本进行去干扰预处理,获得去干扰预处理后的待处理文本。
10.根据权利要求2所述的干扰信息的去除方法,其中,将所述待处理文本输入所述输入单元,以便所述输入单元生成所述待处理文本所包含的各个词的词向量,包括:
将所述待处理文本输入所述输入单元,以便所述输入单元基于词嵌入的算法生成所述待处理文本所包含的各个词的词向量。
11.根据权利要求1所述的干扰信息的去除方法,其中,所述第一编码器、第一解码器、第二编码器和第二解码器采用循环神经网络。
12.根据权利要求11所述的干扰信息的去除方法,其中,所述第一编码器、第一解码器、第二编码器和第二解码器采用长短期记忆网络或者门控循环单元神经网络。
13.一种去干扰模型组件,包括输入单元、第一编码器、第一解码器、第二编码器、第二解码器以及输出单元;
所述输入单元,用于接收待处理文本,并生成所述待处理文本所包含的各个词的词向量;
所述第一编码器,用于逐步接收各个词的词向量,并逐步为各个词生成第一编码隐藏状态;
所述第一解码器,用于接收第一解码器在上一步生成的第一解码隐藏状态和输出单元在上一步输出的目标词,并生成在当前步的第一解码隐藏状态;
所述第二编码器,用于逐步接收各个词的第一编码隐藏状态,并逐步为各个词生成第二编码隐藏状态;
所述第二解码器,用于接收第二解码器在上一步生成的第二解码隐藏状态和第一解码器在当前步生成的第一解码隐藏状态,并生成在当前步的第二解码隐藏状态;
所述输出单元,用于选择最终概率分布中概率最大的词作为当前步输出的目标词;
其中,所述最终概率分布是对待处理文本中各个词和预设词汇表中各个候选词,根据各个词的注意力权重、候选词的概率分布、生成概率进行计算得到;所述注意力权重是基于注意力机制,根据各个词的第一编码隐藏状态和第一解码器在当前步的第一解码隐藏状态来计算得到;所述候选词的概率分布是根据预设词汇表中的候选词、上下文向量和第一解码器在当前步的第一解码隐藏状态计算得到;所述上下文向量是基于注意力权重,对各个词的第一编码隐藏状态进行加权求和得到;所述生成概率是根据各个词的第二编码隐藏状态、第二解码器在当前步的第二解码隐藏状态、第一解码器在当前步的第一解码隐藏状态和上下文向量计算得到。
14.一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现根据权利要求1-12中任一项所述的干扰信息的去除方法。
15.一种计算机设备,包括存储器、处理器及存储在存储上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现根据权利要求1-12中任一项所述的干扰信息的去除方法。
16.一种垃圾文本的识别系统,包括:
接收单元,用于接收用户输入的文本;
如权利要求13所述的去干扰模型组件,用于去除文本中的干扰信息,输出去除干扰信息后的目标文本;
垃圾识别单元,用于判断去除干扰信息后的目标文本是否为垃圾文本;
显示组件,用于在去除干扰信息后的目标文本不为垃圾文本的情况下,显示所述目标文本。
CN201811099134.8A 2018-09-20 2018-09-20 干扰信息去除方法、去干扰模型组件及垃圾文本识别系统 Active CN110941705B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811099134.8A CN110941705B (zh) 2018-09-20 2018-09-20 干扰信息去除方法、去干扰模型组件及垃圾文本识别系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811099134.8A CN110941705B (zh) 2018-09-20 2018-09-20 干扰信息去除方法、去干扰模型组件及垃圾文本识别系统

Publications (2)

Publication Number Publication Date
CN110941705A CN110941705A (zh) 2020-03-31
CN110941705B true CN110941705B (zh) 2023-04-07

Family

ID=69904258

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811099134.8A Active CN110941705B (zh) 2018-09-20 2018-09-20 干扰信息去除方法、去干扰模型组件及垃圾文本识别系统

Country Status (1)

Country Link
CN (1) CN110941705B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6223155B1 (en) * 1998-08-14 2001-04-24 Conexant Systems, Inc. Method of independently creating and using a garbage model for improved rejection in a limited-training speaker-dependent speech recognition system
CN101069175A (zh) * 2003-10-03 2007-11-07 考维枸有限公司 动态消息过滤
CN102214320A (zh) * 2010-04-12 2011-10-12 宋威 神经网络训练方法及采用该方法的垃圾邮件过滤方法
US8112484B1 (en) * 2006-05-31 2012-02-07 Proofpoint, Inc. Apparatus and method for auxiliary classification for generating features for a spam filtering model
US8489689B1 (en) * 2006-05-31 2013-07-16 Proofpoint, Inc. Apparatus and method for obfuscation detection within a spam filtering model
CN107590138A (zh) * 2017-08-18 2018-01-16 浙江大学 一种基于词性注意力机制的神经机器翻译方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6223155B1 (en) * 1998-08-14 2001-04-24 Conexant Systems, Inc. Method of independently creating and using a garbage model for improved rejection in a limited-training speaker-dependent speech recognition system
CN101069175A (zh) * 2003-10-03 2007-11-07 考维枸有限公司 动态消息过滤
US8112484B1 (en) * 2006-05-31 2012-02-07 Proofpoint, Inc. Apparatus and method for auxiliary classification for generating features for a spam filtering model
US8489689B1 (en) * 2006-05-31 2013-07-16 Proofpoint, Inc. Apparatus and method for obfuscation detection within a spam filtering model
CN102214320A (zh) * 2010-04-12 2011-10-12 宋威 神经网络训练方法及采用该方法的垃圾邮件过滤方法
CN107590138A (zh) * 2017-08-18 2018-01-16 浙江大学 一种基于词性注意力机制的神经机器翻译方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
HU B."LCSTS:a large scale Chinese short text summarization dataset".《Proceedings of the 2015 Conference on Empirical Methods in Natural Language》.2015,第1967-1972页. *
刘雄.基于QMAIL-LDAP的反垃圾邮件系统.计算机工程与应用.2005,(10),第 144-147页. *
贾忠涛 ; 吴颖川 ; 刘志勤 ; .一种协同过滤算法在网络干扰过滤中的应用.计算机仿真.2016,(01),第 290-293页. *
赖文辉 ; 乔宇鹏 ; .基于词向量和卷积神经网络的垃圾短信识别方法.计算机应用.2018,(09),第27-34页. *

Also Published As

Publication number Publication date
CN110941705A (zh) 2020-03-31

Similar Documents

Publication Publication Date Title
CN108984530B (zh) 一种网络敏感内容的检测方法及检测系统
CN111339305B (zh) 文本分类方法、装置、电子设备及存储介质
CN103336766B (zh) 短文本垃圾识别以及建模方法和装置
CN110717325B (zh) 文本的情感分析方法、装置、电子设备及存储介质
CN111538809B (zh) 一种语音服务质量检测方法、模型训练方法及装置
CN112396049A (zh) 文本纠错方法、装置、计算机设备及存储介质
CN111274372A (zh) 用于人机交互的方法、电子设备和计算机可读存储介质
US20180307677A1 (en) Sentiment Analysis of Product Reviews From Social Media
CN107357824B (zh) 信息处理方法、服务平台及计算机存储介质
CN110532381A (zh) 一种文本向量获取方法、装置、计算机设备及存储介质
CN111401063B (zh) 一种基于多池化网络的文本处理方法、装置和相关设备
CN113255331B (zh) 文本纠错方法、装置及存储介质
CN111193657A (zh) 聊天表情回复方法、装置及存储介质
CN112131368B (zh) 对话生成方法、装置、电子设备及存储介质
CN111444349A (zh) 信息抽取方法、装置、计算机设备和存储介质
CN107832300A (zh) 面向微创医疗领域文本摘要生成方法及装置
CN110955750A (zh) 评论区域和情感极性的联合识别方法、装置、电子设备
CN110674370A (zh) 域名识别方法及装置、存储介质及电子设备
CN112199606A (zh) 一种基于层次用户表示的面向社交媒体的谣言检测系统
CN111221942B (zh) 智能化文本对话生成方法、装置及计算机可读存储介质
CN114756675A (zh) 文本分类方法、相关设备及可读存储介质
CN113221553A (zh) 一种文本处理方法、装置、设备以及可读存储介质
CN113486174B (zh) 模型训练、阅读理解方法、装置、电子设备及存储介质
CN108090044B (zh) 联系方式的识别方法和装置
CN112784573A (zh) 文本情感内容分析方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant