CN112541350A - 一种变种文本还原方法、装置以及设备 - Google Patents
一种变种文本还原方法、装置以及设备 Download PDFInfo
- Publication number
- CN112541350A CN112541350A CN202011402808.4A CN202011402808A CN112541350A CN 112541350 A CN112541350 A CN 112541350A CN 202011402808 A CN202011402808 A CN 202011402808A CN 112541350 A CN112541350 A CN 112541350A
- Authority
- CN
- China
- Prior art keywords
- source text
- text
- attention distribution
- pointer
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000009826 distribution Methods 0.000 claims abstract description 72
- 239000013598 vector Substances 0.000 claims abstract description 61
- 238000012545 processing Methods 0.000 claims abstract description 38
- 230000007246 mechanism Effects 0.000 claims abstract description 29
- 238000010801 machine learning Methods 0.000 claims abstract description 24
- 230000008569 process Effects 0.000 claims description 27
- 230000015654 memory Effects 0.000 claims description 24
- 230000009467 reduction Effects 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 14
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 230000000306 recurrent effect Effects 0.000 claims description 7
- 230000002457 bidirectional effect Effects 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 14
- 238000003860 storage Methods 0.000 description 14
- 230000006872 improvement Effects 0.000 description 9
- 238000004590 computer program Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000007123 defense Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 238000012954 risk control Methods 0.000 description 2
- 241001522296 Erithacus rubecula Species 0.000 description 1
- 238000003619 Marshal aromatic alkylation reaction Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 229920001296 polysiloxane Polymers 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Machine Translation (AREA)
Abstract
本说明书实施例公开了一种变种文本还原方法、装置以及设备。方案包括:获取包含变种内容的源文本;通过基于注意力机制的机器学习模型,对源文本进行处理,得到源文本对应的上下文向量和注意力分布;对上下文向量进行解析,得到中间结果;确定针对注意力分布的指针生成网络的拷贝指针;通过拷贝指针,根据源文本中的至少部分内容或者注意力分布对中间结果进行调整,得到源文本对应的还原文本。
Description
技术领域
本说明书涉及风险控制技术领域,尤其涉及一种变种文本还原方法、装置以及设备。
背景技术
近年来,随着移动互联网的兴起,用户产生大量的文章和评论。但是,随之而来的是大量不良内容从各种渠道流入到各个平台评论区,如果不能有效地识别并拦截这些不良内容,会给用户带来较差的体验和深远的影响。比如,用户时常会看到不良广告,其中包含了黄暴内容和诈骗内容等,这些内容尤其对未成年人和老年人等弱势群体带来了不可磨灭的影响和深深的危害,严重损害了个人利益和社会效益。因此,各大互联网公司都需要部署识别不良内容的安全防御系统,识别并拦截这些不良内容,为用户提供良好的体验,保护用户和整个社会。
在实际应用中,一些恶意方为了绕开安全防御系统,会采用变异的方法来产生变种文本,绕过安全防御体系,变种文本对原来的文本的语义改变甚微,通常不会影响人对原来的文本所表达含义的理解。
基于此,需要能够有效防御变种文本的方案。
发明内容
本说明书一个或多个实施例提供变种文本还原方法、装置、设备以及存储介质,用以解决如下技术问题:需要能够有效防御变种文本的方案。
为解决上述技术问题,本说明书一个或多个实施例是这样实现的:
本说明书一个或多个实施例提供的一种变种文本还原方法,包括:
获取包含变种内容的源文本;
通过基于注意力机制的机器学习模型,对所述源文本进行处理,得到所述源文本对应的上下文向量和注意力分布;
对所述上下文向量进行解析,得到中间结果;
确定针对所述注意力分布的指针生成网络的拷贝指针;
通过所述拷贝指针,根据所述源文本中的至少部分内容或者所述注意力分布对所述中间结果进行调整,得到所述源文本对应的还原文本。
本说明书一个或多个实施例提供的一种变种文本还原装置,包括:
获取模块,获取包含变种内容的源文本;
处理模块,通过基于注意力机制的机器学习模型,对所述源文本进行处理,得到所述源文本对应的上下文向量和注意力分布;
解析模块,对所述上下文向量进行解析,得到中间结果;
确定模块,确定针对所述注意力分布的指针生成网络的拷贝指针;
调整模块,通过所述拷贝指针,根据所述源文本中的至少部分内容或者所述注意力分布对所述中间结果进行调整,得到所述源文本对应的还原文本。
本说明书一个或多个实施例提供的一种变种文本还原设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
获取包含变种内容的源文本;
通过基于注意力机制的机器学习模型,对所述源文本进行处理,得到所述源文本对应的上下文向量和注意力分布;
对所述上下文向量进行解析,得到中间结果;
确定针对所述注意力分布的指针生成网络的拷贝指针;
通过所述拷贝指针,根据所述源文本中的至少部分内容或者所述注意力分布对所述中间结果进行调整,得到所述源文本对应的还原文本。
本说明书一个或多个实施例提供的一种非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:
获取包含变种内容的源文本;
通过基于注意力机制的机器学习模型,对所述源文本进行处理,得到所述源文本对应的上下文向量和注意力分布;
对所述上下文向量进行解析,得到中间结果;
确定针对所述注意力分布的指针生成网络的拷贝指针;
通过所述拷贝指针,根据所述源文本中的至少部分内容或者所述注意力分布对所述中间结果进行调整,得到所述源文本对应的还原文本。
本说明书一个或多个实施例采用的上述至少一个技术方案能够达到以下有益效果:能够智能化地将包含变种内容的源文本进行还原,不仅如此,基于注意力机制有助于模型能更专注于找到与当前输出显著相关的输入数据,提高还原文本的质量和连贯性,基于注意力机制和拷贝指针还能够对训练过程中的未登录词进行感知,有助于还原文本保留相应的有效信息。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书一个或多个实施例提供的一种变种文本还原方法的流程示意图;
图2为本说明书一个或多个实施例提供的一种应用场景下,图1中方法的一种实施方案示意图;
图3为本说明书一个或多个实施例提供的图2对应的一种详细处理流程示意图;
图4为本说明书一个或多个实施例提供的一种变种文本还原装置的结构示意图;
图5为本说明书一个或多个实施例提供的一种变种文本还原设备的结构示意图。
具体实施方式
本说明书实施例提供变种文本还原方法、装置、设备以及存储介质。
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本说明书实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
在本说明书一个或多个实施例中,采用序列到序列生成模型生成还原文本,该模型可以基于循环神经网络,通过一个循环神经网络对输入进行编码,得到固定长度的向量表示,然后,通过另一个循环神经网络根据该固定长度的向量表示解码生成相应的输出,在解码过程中引入注意力机制来改变不同时刻关注的焦点,使得模型能更专注于找到与当前输出显著相关的输入数据,提高生成文本的质量和连贯性。
进一步地,在内容安全场景,变种文本往往会遇到很多诸如专有名词等较专业的词,这些词很可能是未登录词(这些词不在训练数据集合的词表范围内),未登录词不被感知,从而影响还原结果的准确性和易用性(比如,可能生成“<UNK>”字符,丢失关键信息等),针对这种情况,在方案中引入了指针生成网络,针对这类难以生成或者无需改变的词,可以通过指针生成网络所实现的拷贝指针,直接从源文本中拷贝这些词作为还原文本的内容,提高了未登录词的准确性和处理能力,并且同时也保留了产生新词的能力,使得还原文本更可靠地保留有效信息。
下面基于这样的思路,具体进行说明。
图1为本说明书一个或多个实施例提供的一种变种文本还原方法的流程示意图。该流程可以服务器执行,比如,内容风险管控服务器,适用的业务领域是多样的,比如,电商领域、即时通讯领域、电子游戏领域、新闻门户网站领域等,在这些领域中,风控对象主要针对用户发出的内容,包括商品介绍、聊天、广播、评论、回复、主题贴等。
图1中的流程可以包括以下步骤:
S102:获取包含变种内容的源文本。
在本说明书一个或多个实施例中,风控对象包括文本,文本为内容提供方原始发出的,或者从原始发出内容中二次提取得到的。对于后一种情况,比如,用户发出一张显示有文字的图片,则从图片中识别出文字到文本,再对文本进行风险控制。
在实际应用中,一些恶意方会故意对其真实想发出的文本内容进行变种处理,之后再发出,以图规避监管。变种处理包括:替换部分词(比如,用黑话替换、用缩写替换、用火星文替换、用错别字词替换、用图像替换等)、调整语序(比如,颠倒因果、藏头、藏尾等)、增加冗余内容(比如,增加空格、增加无关语句等)、去除部分内容(比如,去掉能够根据上下文推测的主语、去掉大部分列举内容保留关键动词等)、部分加密处理等。变种处理后得到的包含变种内容的文本视为上述的源文本。
在本说明书一个或多个实施例中,由于开始时未必知晓源文本中是否包含有变种内容,因此,在步骤S102执行时可以无需区分,无论是否包含变种内容的源文本,都继续进行后续处理。如果有单独的能够识别变种内容的模型,可以先由该模型对风控对象预处理,被判定为包含变种内容的源文本再进入图1中的流程中处理,如此,有助于提高还原效率,减少对正常文本无谓的资源浪费。
S104:通过基于注意力机制的机器学习模型,对所述源文本进行处理,得到所述源文本对应的上下文向量和注意力分布。
在本说明书一个或多个实施例中,机器学习模型包括序列到序列模型,模型采用深度神经网络算法,由深度神经网络实现编码-解码的网络结构,在输入输出序列长度不同的情况下,实现一个序列到另一个序列之间的转换。
将源文本中的内容进行划分(比如,逐词划分、逐句划分等),根据划分出的内容生成对应的上下文向量,这里的上下文可以是源文本全局的,其取值受到整个文本内容的影响。
上下文向量是其对应的源文本内容的高维特征表示,不仅反映了该对应的源文本内容,还反映了该对应的源文本内容与其上下文之间的关系。为了提高上下文向量的生成效率,还可以预定义上下文的步长,假定步长为5,可以将当前词的前两个词和后两个词作为当前词的上下文。
注意力分布反映了源文本中划分出的各部分内容及其隐藏层中对应内容的重要程度,一般地,也能够决定源文本实际语义的内容越重要。可以通过计算源文本内容之间的相似度或者关联度,确定应当给予哪些内容更高程度的注意力。
S106:对所述上下文向量进行解析,得到中间结果。
在本说明书一个或多个实施例中,通过将源文本内容转换为上下文向量,将至少部分变种内容的真实语义,以高维特征的形式提取了出来,这种形式是人难以理解的,因此,需要通过解析处理,以尝试转换得到便于人理解的,形式上接近或者相同于源文本的结果。
解析过程也采用机器学习模型实现,预先利用选定的训练数据集合,对机器学习模型进行有监督训练,训练数据集合包括变种内容及其对应的正常内容。基于这种方式,机器学习模型在生成还原文本时,有能力生成训练数据集合所对应的词表(对训练样本内容分词得到)中的词(上述的已登录词),从而机器学习模型对已登录词具有感知能力。
在本说明书一个或多个实施例中,解析得到的中间结果实现了对已登录词的感知。中间结果比如是利用上述词表中的词还原出的文本,之后可以利用拷贝指针对该文本进行调整,进一步地感知未登录词,以还原得到更准确的文本。
更高效地,可以将对已登录词和未登录词的感知过程进行融合,调整文本之前的中间结果(比如,词的生成概率、模型中指定隐藏层的高维特征向量等),而无需先生成一次文本后再基于未登录词自动调整文本,从而节省了处理资源,生成的文本可以直接作为还原结果。
S108:确定针对所述注意力分布的指针生成网络的拷贝指针。
在本说明书一个或多个实施例中,拷贝指针指向注意力分布,以注意力分布为依据,结合对已登录词的感知结果,确定是要生成已登录词,还是沿用源文本中的词。若是后一种情况,则通过操纵词生成概率或者直接操纵词,实现拷贝操作。
S110:通过所述拷贝指针,根据所述源文本中的至少部分内容或者所述注意力分布对所述中间结果进行调整,得到所述源文本对应的还原文本。
在本说明书一个或多个实施例中,若中间结果是还原文本,则可以通过拷贝指针,根据源文本中的至少部分内容对还原文本中的相应内容进行替换,得到调整后的还原文本,作为还原结果。这种方式便于更直观地检测机器学习模型的解析效果,据此还便于人工干预机器学习模型的再训练过程。
在本说明书一个或多个实施例中,若中间结果是词的生成概率,则可以通过拷贝指针,根据注意力分布对词的生成概率进行调整,按照调整后的概率生成还原文本,作为还原结果,而无需先生成还原文本再对其调整,模型的一体化程度高,有助于提高模型的工作效率。注意力分布是对应于源文本中的内容的,通过基于注意力分布的概率调整,使得源文本中的部分内容可能作为还原文本的一部分被直接生成。
通过图1的方法,能够智能化地将包含变种内容的源文本进行还原,不仅如此,基于注意力机制有助于模型能更专注于找到与当前输出显著相关的输入数据,提高还原文本的质量和连贯性,基于注意力机制和拷贝指针还能够对训练过程中的未登录词进行感知,有助于还原文本保留相应的有效信息。
基于图1的方法,本说明书还提供了该方法的一些具体实施方案和扩展方案,下面继续进行说明。
在本说明书一个或多个实施例中,采用基于编码器-解码器结构和注意力机制的机器学习模型,实现将源文本转换为上下文向量,以及对上下文向量再解析。
从结构上来说,可以在编码器之后单独设置注意力机制层用于计算注意力分布,在这种情况下,源文本输入编码器,通过编码器对源文本进行编码,得到编码结果,再通过注意力机制层,对编码结果进行处理,得到源文本对应的上下文向量和注意力分布,其中,上下文向量可以根据注意力分布确定,以便使得上下文向量中融入了反映词的语义重要性的特征。
需要说明的是,用于计算注意力分布的网络结构也可以一体化地融合在编码器的隐藏层中。
在本说明书一个或多个实施例中,对源文本的处理是划分内容后逐词逐步处理的,考虑到循环神经网络(Recurrent Neural Network,RNN)有能力融合不同时刻的状态,能够更充分地提取或者解析上下文的特征。基于此,比如,通过基于双向RNN的编码器对源文本进行编码,通过基于单向RNN的解码器进行解码。再比如,通过基于双向长短期记忆网络(Long Short-Term Memory,LSTM)或者双向门控循环单元(Gated Recurrent Unit,GRU)的编码器对源文本进行编码。
在本说明书一个或多个实施例中,假定针对编码器的编码结果,按照源文本中相应词的顺序,逐词进行解码。对于当前词对应的上下文向量,在解码器中的多个隐藏层的节点之间,逐步进行解码。基于隐藏层的结构,能够确定对上下文向量进行逐步解码的顺序,按照顺序,根据上下文向量中属于当前步的内容,以及当前步之前至少一步的解码结果(将节点的上次或者之前多次的输出结果反馈到该节点的输入,通过循环神经网络的结构实现),确定当前步的解码结果,根据逐步解码的过程,确定中间结果。当前步的解码结果,比如通过上面列举的基于单向RNN的解码器解码得到。
进一步地,根据上下文向量、当前步之前至少一步的解码结果、所述当前步的解码输入(从上一层节点传入的数据),确定针对注意力分布的指针生成网络的拷贝指针。拷贝指针通过选定的激活函数,使得其有非线性的概率调整能力,激活函数比如选择sigmoid函数。
在本说明书一个或多个实施例中,假定中间结果包括用于构建还原文本的特定词的生成概率。则通过拷贝指针,根据源文本中的至少部分内容或者所述注意力分布对该生成概率进行调整,具体地,通过拷贝指针,对用构建指定词集合中的词的生成概率进行调整,指定词集合由通过训练阶段确定的可生成的词(即已登录词)构成;通过拷贝指针,根据所述注意力分布,对源文本中的至少部分内容(可以是未登录词)的生成概率进行调整。
在本说明书一个或多个实施例中,实际应用中,变种内容往往有些不好的企图,对其还原是一种处理方案,除此之外,还有其他合理的处理方案。比如,根据变种内容本身或者其对应的还原内容,进行语义解析和语义匹配,匹配出能够较好地接下这些内容的上下文的新的文本内容,之后,利用新的文本内容,代替源文本中相应内容,再直接继续原本的业务流程(比如,源文本是用户将要发出或者已经发出的一句评论,里面包含了以变种内容形式存在的脏话,处理后,自动生成了一句文明用语的评论,而原来的脏话已经被替换掉),而未必要进入进一步的审核乃至惩罚阶段,在这种情况下,该用户也能够很及时地看到自己的评论(虽然该评论已经被修改未必符合该用户初衷,但这对于公众是有益的,而且若这是该用户的无心之过则可能也不会介意),而不是很久地等待审核。基于这样的方案,能够提高其他用户的体验,而且又有助于降低后端风控压力。
根据上面的说明,本说明书一个或多个实施例提供了一种应用场景下,图1中方法的一种实施方案,如图2所示。在该应用场景下,采用双向RNN编码器和单向RNN解码器,结合图3进行说明,图3为本说明书一个或多个实施例提供的图2对应的一种详细处理流程示意图。
在图2中,注意力机制层构建于编码器之后,根据编码结果ht计算注意力分布,在模型的训练阶段,以目标正常文本作为训练标签,训练完毕实际使用时,理想的输入数据是包含变种内容的源文本,输入数据是对变种内容进行还原后得到的还原文本。词表指已登录词的集合,源文本中若存在未登录词,在对词表的概率分布调整后,可能能够正确地拷贝生成未登录词,将未登录词加入词表中,方便以后使用。图2涉及的详细流程参照图3继续说明。
图3中的流程可以包括以下步骤:
S302:获取待还原的源文本。
S304:通过双向RNN编码器对源文本进行编码,得到编码结果。
编码结果记作ht。
S306:将编码结果通过注意力机制层处理,得到编码部分对应的上下文向量和注意力分布。
上下文向量记作Ch,注意力分布记作at,比如,以at作为权重,按照如下公式计算Ch:
S308:通过单向RNN解码器,开始逐词逐步解码,计算已登录词的生成概率,每一步的解码过程综合了上一步的解码结果,编码部分的上下文向量解码生成下一个词。
上一步的解码结果记作st,已登录词的生成概率记作Pvocab,比如,采用如下公式计算Pvocab:
Pvocab=softmax(V'(V[st,Ch]+b)+b'),其中,选择了softmax作为激活函数,V、V'比如为指定的线性变换函数,b、b'为偏置系数。
S310:根据上下文向量、上一步的解码结果和当前步的解码输入,计算拷贝指针。
拷贝指针记作pgen,比如,按照如下公式计算pgen:
S312:根据拷贝指针调整已登录词的生成概率,以及源文本中部分内容的生成概率,按照调整好的概率,生成还原文本。
调整好的概率记作Pfinal_vocab,比如,按照如下公式计算Pfinal_vocab:
基于同样的思路,本说明书一个或多个实施例还提供了上述方法对应的装置和设备,如图4、图5所示。
图4为本说明书一个或多个实施例提供的一种变种文本还原装置的结构示意图,所述装置包括:
获取模块402,获取包含变种内容的源文本;
处理模块404,通过基于注意力机制的机器学习模型,对所述源文本进行处理,得到所述源文本对应的上下文向量和注意力分布;
解析模块406,对所述上下文向量进行解析,得到中间结果;
确定模块408,确定针对所述注意力分布的指针生成网络的拷贝指针;
调整模块410,通过所述拷贝指针,根据所述源文本中的至少部分内容或者所述注意力分布对所述中间结果进行调整,得到所述源文本对应的还原文本。
可选地,所述机器学习模型包含编码器和注意力机制层;
所述处理模块404,通过所述编码器对所述源文本进行编码,得到编码结果;
通过所述注意力机制层,对所述编码结果进行处理,得到所述源文本对应的上下文向量和注意力分布,其中,所述上下文向量根据所述注意力分布确定。
可选地,所述处理模块404,通过基于双向RNN的所述编码器对所述源文本进行编码。
可选地,所述解析模块406,确定对所述上下文向量进行逐步解码的顺序;
按照所述顺序,根据所述上下文向量中属于当前步的内容,以及所述当前步之前至少一步的解码结果,确定当前步的解码结果;
根据所述逐步解码的过程,确定中间结果。
可选地,所述解析模块406,通过基于单向RNN的解码器,解码得到当前步的解码结果。
可选地,所述确定模块408,根据所述上下文向量、所述当前步之前至少一步的解码结果、所述当前步的解码输入,确定针对所述注意力分布的指针生成网络的拷贝指针。
可选地,所述中间结果包括用于构建所述还原文本的特定词的生成概率;
所述调整模块410,通过所述拷贝指针,根据所述源文本中的至少部分内容或者所述注意力分布对所述生成概率进行调整。
可选地,所述调整模块410,通过所述拷贝指针,对用构建指定词集合中的词的生成概率进行调整,所述指定词集合由通过训练阶段确定的可生成的词构成;
通过所述拷贝指针,根据所述注意力分布,对所述源文本中的至少部分内容的生成概率进行调整。
图5为本说明书一个或多个实施例提供的一种变种文本还原设备的结构示意图,所述设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
获取包含变种内容的源文本;
通过基于注意力机制的机器学习模型,对所述源文本进行处理,得到所述源文本对应的上下文向量和注意力分布;
对所述上下文向量进行解析,得到中间结果;
确定针对所述注意力分布的指针生成网络的拷贝指针;
通过所述拷贝指针,根据所述源文本中的至少部分内容或者所述注意力分布对所述中间结果进行调整,得到所述源文本对应的还原文本。
处理器与存储器之间可以通过总线通信,设备还可以包括与其他设备通信的输入/输出接口。
基于同样的思路,本说明书一个或多个实施例提供了一种非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:
获取包含变种内容的源文本;
通过基于注意力机制的机器学习模型,对所述源文本进行处理,得到所述源文本对应的上下文向量和注意力分布;
对所述上下文向量进行解析,得到中间结果;
确定针对所述注意力分布的指针生成网络的拷贝指针;
通过所述拷贝指针,根据所述源文本中的至少部分内容或者所述注意力分布对所述中间结果进行调整,得到所述源文本对应的还原文本。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书实施例可提供为方法、系统、或计算机程序产品。因此,本说明书实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、设备、非易失性计算机存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
以上所述仅为本说明书的一个或多个实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书的一个或多个实施例可以有各种更改和变化。凡在本说明书的一个或多个实施例的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。
Claims (17)
1.一种变种文本还原方法,包括:
获取包含变种内容的源文本;
通过基于注意力机制的机器学习模型,对所述源文本进行处理,得到所述源文本对应的上下文向量和注意力分布;
对所述上下文向量进行解析,得到中间结果;
确定针对所述注意力分布的指针生成网络的拷贝指针;
通过所述拷贝指针,根据所述源文本中的至少部分内容或者所述注意力分布对所述中间结果进行调整,得到所述源文本对应的还原文本。
2.如权利要求1所述的方法,所述机器学习模型包含编码器和注意力机制层;
所述通过基于注意力机制的机器学习模型,对所述源文本进行处理,得到所述源文本对应的上下文向量和注意力分布,具体包括:
通过所述编码器对所述源文本进行编码,得到编码结果;
通过所述注意力机制层,对所述编码结果进行处理,得到所述源文本对应的上下文向量和注意力分布,其中,所述上下文向量根据所述注意力分布确定。
3.如权利要求2所述的方法,所述通过所述编码器对所述源文本进行编码,具体包括:
通过基于双向循环神经网络RNN的所述编码器对所述源文本进行编码。
4.如权利要求2所述的方法,所述对所述上下文向量进行解析,得到中间结果,具体包括:
确定对所述上下文向量进行逐步解码的顺序;
按照所述顺序,根据所述上下文向量中属于当前步的内容,以及所述当前步之前至少一步的解码结果,确定当前步的解码结果;
根据所述逐步解码的过程,确定中间结果。
5.如权利要求4所述的方法,所述确定当前步的解码结果,具体包括:
通过基于单向RNN的解码器,解码得到当前步的解码结果。
6.如权利要求4所述的方法,所述确定针对所述注意力分布的指针生成网络的拷贝指针,具体包括:
根据所述上下文向量、所述当前步之前至少一步的解码结果、所述当前步的解码输入,确定针对所述注意力分布的指针生成网络的拷贝指针。
7.如权利要求1所述的方法,所述中间结果包括用于构建所述还原文本的特定词的生成概率;
所述通过所述拷贝指针,根据所述源文本中的至少部分内容或者所述注意力分布对所述中间结果进行调整,具体包括:
通过所述拷贝指针,根据所述源文本中的至少部分内容或者所述注意力分布对所述生成概率进行调整。
8.如权利要求1所述的方法,所述通过所述拷贝指针,根据所述注意力分布,对所述生成概率进行调整,具体包括:
通过所述拷贝指针,对用构建指定词集合中的词的生成概率进行调整,所述指定词集合由通过训练阶段确定的可生成的词构成;
通过所述拷贝指针,根据所述注意力分布,对所述源文本中的至少部分内容的生成概率进行调整。
9.一种变种文本还原装置,包括:
获取模块,获取包含变种内容的源文本;
处理模块,通过基于注意力机制的机器学习模型,对所述源文本进行处理,得到所述源文本对应的上下文向量和注意力分布;
解析模块,对所述上下文向量进行解析,得到中间结果;
确定模块,确定针对所述注意力分布的指针生成网络的拷贝指针;
调整模块,通过所述拷贝指针,根据所述源文本中的至少部分内容或者所述注意力分布对所述中间结果进行调整,得到所述源文本对应的还原文本。
10.如权利要求9所述的装置,所述机器学习模型包含编码器和注意力机制层;
所述处理模块,通过所述编码器对所述源文本进行编码,得到编码结果;
通过所述注意力机制层,对所述编码结果进行处理,得到所述源文本对应的上下文向量和注意力分布,其中,所述上下文向量根据所述注意力分布确定。
11.如权利要求10所述的装置,所述处理模块,通过基于双向循环神经网络RNN的所述编码器对所述源文本进行编码。
12.如权利要求10所述的装置,所述解析模块,确定对所述上下文向量进行逐步解码的顺序;
按照所述顺序,根据所述上下文向量中属于当前步的内容,以及所述当前步之前至少一步的解码结果,确定当前步的解码结果;
根据所述逐步解码的过程,确定中间结果。
13.如权利要求12所述的装置,所述解析模块,通过基于单向RNN的解码器,解码得到当前步的解码结果。
14.如权利要求12所述的装置,所述确定模块,根据所述上下文向量、所述当前步之前至少一步的解码结果、所述当前步的解码输入,确定针对所述注意力分布的指针生成网络的拷贝指针。
15.如权利要求9所述的装置,所述中间结果包括用于构建所述还原文本的特定词的生成概率;
所述调整模块,通过所述拷贝指针,根据所述源文本中的至少部分内容或者所述注意力分布对所述生成概率进行调整。
16.如权利要求9所述的装置,所述调整模块,通过所述拷贝指针,对用构建指定词集合中的词的生成概率进行调整,所述指定词集合由通过训练阶段确定的可生成的词构成;
通过所述拷贝指针,根据所述注意力分布,对所述源文本中的至少部分内容的生成概率进行调整。
17.一种变种文本还原设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
获取包含变种内容的源文本;
通过基于注意力机制的机器学习模型,对所述源文本进行处理,得到所述源文本对应的上下文向量和注意力分布;
对所述上下文向量进行解析,得到中间结果;
确定针对所述注意力分布的指针生成网络的拷贝指针;
通过所述拷贝指针,根据所述源文本中的至少部分内容或者所述注意力分布对所述中间结果进行调整,得到所述源文本对应的还原文本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011402808.4A CN112541350B (zh) | 2020-12-04 | 2020-12-04 | 一种变种文本还原方法、装置以及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011402808.4A CN112541350B (zh) | 2020-12-04 | 2020-12-04 | 一种变种文本还原方法、装置以及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112541350A true CN112541350A (zh) | 2021-03-23 |
CN112541350B CN112541350B (zh) | 2024-06-14 |
Family
ID=75015949
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011402808.4A Active CN112541350B (zh) | 2020-12-04 | 2020-12-04 | 一种变种文本还原方法、装置以及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112541350B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108846130A (zh) * | 2018-06-29 | 2018-11-20 | 北京百度网讯科技有限公司 | 一种问题文本生成方法、装置、设备和介质 |
CN109241536A (zh) * | 2018-09-21 | 2019-01-18 | 浙江大学 | 一种基于深度学习自注意力机制的句子排序方法 |
CN110298436A (zh) * | 2019-06-28 | 2019-10-01 | 乐山金蜜工业卫士服务股份有限公司 | 基于指针生成网络的数据到文本的生成模型 |
CN110795556A (zh) * | 2019-11-01 | 2020-02-14 | 中山大学 | 一种基于细粒度插入式解码的摘要生成方法 |
WO2020192307A1 (zh) * | 2019-03-22 | 2020-10-01 | 深圳追一科技有限公司 | 基于深度学习的答案抽取方法、装置、计算机设备和存储介质 |
-
2020
- 2020-12-04 CN CN202011402808.4A patent/CN112541350B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108846130A (zh) * | 2018-06-29 | 2018-11-20 | 北京百度网讯科技有限公司 | 一种问题文本生成方法、装置、设备和介质 |
CN109241536A (zh) * | 2018-09-21 | 2019-01-18 | 浙江大学 | 一种基于深度学习自注意力机制的句子排序方法 |
WO2020192307A1 (zh) * | 2019-03-22 | 2020-10-01 | 深圳追一科技有限公司 | 基于深度学习的答案抽取方法、装置、计算机设备和存储介质 |
CN110298436A (zh) * | 2019-06-28 | 2019-10-01 | 乐山金蜜工业卫士服务股份有限公司 | 基于指针生成网络的数据到文本的生成模型 |
CN110795556A (zh) * | 2019-11-01 | 2020-02-14 | 中山大学 | 一种基于细粒度插入式解码的摘要生成方法 |
Non-Patent Citations (2)
Title |
---|
CHEONEUM PARK等: "Coreference Resolution with Hierarchical Pointer Networks Based on Pointing Methods", 《2020 IEEE INTERNATIONAL CONFERENCE ON BIG DATA AND SMART COMPUTING (BIGCOMP)》, 20 April 2020 (2020-04-20) * |
郑杰;孔芳;周国栋;: "面向短文本理解的省略恢复研究", 中文信息学报, no. 04, 15 April 2020 (2020-04-15) * |
Also Published As
Publication number | Publication date |
---|---|
CN112541350B (zh) | 2024-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gu et al. | Insertion-based decoding with automatically inferred generation order | |
US11468239B2 (en) | Joint intent and entity recognition using transformer models | |
CN110263158B (zh) | 一种数据的处理方法、装置及设备 | |
JP5128629B2 (ja) | 品詞タグ付けシステム、品詞タグ付けモデルのトレーニング装置および方法 | |
CN109992771B (zh) | 一种文本生成的方法及装置 | |
CN113590761B (zh) | 文本处理模型的训练方法、文本处理方法及相关设备 | |
Goodwin et al. | Towards zero-shot conditional summarization with adaptive multi-task fine-tuning | |
CN110738562B (zh) | 一种风险提醒信息的生成方法、装置及设备 | |
CN111507726B (zh) | 一种报文生成方法、装置及设备 | |
US20230252139A1 (en) | Efficient transformer for content-aware anomaly detection in event sequences | |
Qu et al. | Novel multi‐domain attention for abstractive summarisation | |
CN117369783A (zh) | 一种安全代码生成模型的训练方法及装置 | |
CN116860959A (zh) | 结合局部主题和层次结构信息的抽取式摘要方法及系统 | |
CN112541350B (zh) | 一种变种文本还原方法、装置以及设备 | |
CN113887234B (zh) | 一种模型训练以及推荐方法及装置 | |
Qi et al. | Video captioning via a symmetric bidirectional decoder | |
Wang et al. | A study of extractive summarization of long documents incorporating local topic and hierarchical information | |
KR20230014036A (ko) | 다중 레이블 분류의 정확도 향상을 위한 레이블 임베딩 방법 및 장치 | |
CN113344590A (zh) | 一种模型训练以及投诉率预估的方法及装置 | |
CN112836526A (zh) | 一种基于门控机制的多语言神经机器翻译方法及装置 | |
CN114330242A (zh) | 关键信息生成和直播内容处理方法、装置及设备 | |
Jin et al. | Intention-aware neural networks for question paraphrase identification | |
CN112784571A (zh) | 一种自然语言语料的数据增强方法、装置、设备及介质 | |
Harichandana et al. | Adaptive Beam Search to Enhance On-device Abstractive Summarization | |
Li et al. | Rewriting-Stego: generating natural and controllable steganographic text with pre-trained language model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |