CN116842932A - 文本特征的解码方法和装置、存储介质及电子设备 - Google Patents

文本特征的解码方法和装置、存储介质及电子设备 Download PDF

Info

Publication number
CN116842932A
CN116842932A CN202311103289.5A CN202311103289A CN116842932A CN 116842932 A CN116842932 A CN 116842932A CN 202311103289 A CN202311103289 A CN 202311103289A CN 116842932 A CN116842932 A CN 116842932A
Authority
CN
China
Prior art keywords
vector
character
feature
vectors
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311103289.5A
Other languages
English (en)
Other versions
CN116842932B (zh
Inventor
杨韬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202311103289.5A priority Critical patent/CN116842932B/zh
Publication of CN116842932A publication Critical patent/CN116842932A/zh
Application granted granted Critical
Publication of CN116842932B publication Critical patent/CN116842932B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0499Feedforward networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种文本特征的解码方法和装置、存储介质及电子设备。其中,该方法包括:获取文本特征解码模型中第i‑1层特征解码层输出的文本特征;获取与第i层特征解码层对应的k个全局特征向量,k个全局特征向量用于表征文本特征中的字符向量之间关联关系;依次获取文本特征中的每一个字符向量与k个全局特征向量中的每一个全局特征向量的向量相似度,并基于对应于同一个字符向量的k个向量相似度将每一个字符向量依次更新为参考字符向量;将参考字符向量拼接得到的参考字符向量序列确定为解码得到的目标文本特征。本公开解决了文本特征解码效率低的技术问题。

Description

文本特征的解码方法和装置、存储介质及电子设备
技术领域
本发明涉及计算机领域,具体而言,涉及一种文本特征的解码方法和装置、存储介质及电子设备。
背景技术
在NLP (Natural Language Processing,自然语言处理)领域,存在非常多的丰富的任务。常见的NLP任务包括文本分类、实体识别、文本匹配、文本翻译等各类任务。虽然NLP任务很多,而且目标各不相同,但是都可以通过Transformer模型进行文本特征解码。
现有的Transformer模型通常采用自注意力机制。自注意力机制在每个位置上对 所有其他位置都要进行计算,导致其计算复杂度为O(),其中n是输入序列的长度。这在 处理较长序列时可能会导致昂贵的计算成本和较高的内存消耗。不仅是在训练过程中的复 杂度高,在使用时也存在复杂度高的问题。随着解码的文本越长,速度就会越慢,而且由于 显存的限制没法解码很长的文本。也就是说,现有的文本特征的解码方法存在特征解码效 率较低的技术问题。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种文本特征的解码方法和装置、存储介质及电子设备,以至少解决现有的文本特征的解码方法存在解码效率效果较低的技术问题。
根据本发明实施例的一个方面,提供了一种文本特征的解码方法,包括:获取文本特征解码模型中第i-1层特征解码层输出的文本特征,其中,上述文本特征解码模型中包括N层依次连接的特征解码层,上述文本特征为对待处理的文本序列进行特征解码后得到的字符向量序列,上述字符向量序列中包括与上述文本序列中每一个字符分别对应的字符向量,上述N为大于1的整数,上述i为大于1且小于或等于N的整数;获取与第i层特征解码层对应的k个全局特征向量,其中,上述k个全局特征向量用于表征上述文本特征中的上述字符向量之间关联关系,上述k为大于1的整数;依次获取上述文本特征中的每一个上述字符向量与上述k个全局特征向量中的每一个上述全局特征向量的向量相似度,并基于对应于同一个上述字符向量的k个上述向量相似度将每一个上述字符向量依次更新为参考字符向量;将上述参考字符向量拼接得到的参考字符向量序列确定为解码得到的目标文本特征。
根据本发明实施例的另一方面,还提供了一种文本特征的解码装置,包括:第一获取单元,用于获取文本特征解码模型中第i-1层特征解码层输出的文本特征,其中,上述文本特征解码模型中包括N层依次连接的特征解码层,上述文本特征为对待处理的文本序列进行特征解码后得到的字符向量序列,上述字符向量序列中包括与上述文本序列中每一个字符分别对应的字符向量,上述N为大于1的整数,上述i为大于1且小于或等于N的整数;第二获取单元,用于获取与第i层特征解码层对应的k个全局特征向量,其中,上述k个全局特征向量用于表征上述文本特征中的上述字符向量之间关联关系,上述k为大于1的整数;第三获取单元,用于依次获取上述文本特征中的每一个上述字符向量与上述k个全局特征向量中的每一个上述全局特征向量的向量相似度,并基于对应于同一个上述字符向量的k个上述向量相似度将每一个上述字符向量依次更新为参考字符向量;更新单元,用于将上述参考字符向量拼接得到的参考字符向量序列确定为解码得到的目标文本特征。
根据本发明实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述文本特征的解码方法。
根据本申请实施例的又一个方面,提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行如以上文本特征的解码方法。
根据本发明实施例的又一方面,还提供了一种电子设备,包括存储器和处理器,上述存储器中存储有计算机程序,上述处理器被设置为通过上述计算机程序执行上述的文本特征的解码方法。
在本发明实施例中,采用获取文本特征解码模型中第i-1层特征解码层输出的文本特征,其中,文本特征解码模型中包括N层依次连接的特征解码层,文本特征为对待处理的文本序列进行特征解码后得到的字符向量序列,字符向量序列中包括与文本序列中每一个字符分别对应的字符向量,N为大于1的整数,i为大于1且小于或等于N的整数;获取与第i层特征解码层对应的k个全局特征向量,其中,k个全局特征向量用于表征文本特征中的字符向量之间关联关系,k为大于1的整数;依次获取文本特征中的每一个字符向量与k个全局特征向量中的每一个全局特征向量的向量相似度,并基于对应于同一个字符向量的k个向量相似度将每一个字符向量依次更新为参考字符向量;将参考字符向量拼接得到的参考字符向量序列确定为解码得到的目标文本特征,从而在第i层特征解码层完成对文本特征的解码。
在上述文本特征的解码方法中,在当前特征解码层待解码的文本特征的情况下, 可以获取用于表征上述文本特征中包括的字符向量之间的关联关系的k个全局特征向量, 并通过k个全局特征向量分别与每一个字符向量之间的向量相似度分别对各个字符向量进 行更新,最后将更新后的各个字符向量拼接得到特征解码结果。进而通过若干个全局特征 向量完成各个字符向量的更新解码,避免了原自注意力机制中每个字符向量与每个字符向 量之间的计算以完成各个字符向量的更新解码的方法,进而将单个字符向量的解码复杂度 从O()调整为O(),进而降低了特征解码的复杂度,提升了特征解码的解码效率,解决了 现有的文本特征的解码方法效率低的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的文本特征的解码方法的硬件环境的示意图;
图2是根据本发明实施例的一种可选的文本特征的解码方法的流程图;
图3是根据本发明实施例的一种可选的文本特征的解码模型的结构示意图;
图4是根据本发明实施例的一种可选的文本特征的解码方法的示意图;
图5是根据本发明实施例的另一种可选的文本特征的解码方法的示意图;
图6是根据本发明实施例的又一种可选的文本特征的解码方法的示意图;
图7是根据本发明实施例的另一种可选的文本特征的解码模型的结构示意图;
图8是根据本发明实施例的又一种可选的文本特征的解码方法的示意图;
图9是根据本发明实施例的又一种可选的文本特征的解码方法的示意图;
图10根据本发明实施例的一种可选的文本特征的解码装置的结构示意图;
图11是根据本发明实施例的一种可选的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例的一个方面,提供了一种文本特征的解码方法,作为一种可选的实施方式,上述文本特征的解码方法可以但不限于应用于如图1所示的由终端设备102、服务104以及网络110所构成的文本特征的解码系统中。如图1所示,终端设备102通过网络110与服务器104进行连接通讯,上述网络可以包括但不限于:有线网络,无线网络,其中,该有线网络包括:局域网、城域网和广域网,该无线网络包括:蓝牙、WIFI及其他实现无线通信的网络。上述终端设备可以包括但不限于以下至少之一:手机(如Android手机、iOS手机等)、笔记本电脑、平板电脑、掌上电脑、MID(Mobile Internet Devices,移动互联网设备)、PAD、台式电脑、智能电视、车载设备等。上述终端设备102上可以安装有用于提供文本处理功能的客户端,例如一种即时通讯客户端(可以提供即使会话过程中的文本处理功能)、翻译客户端等。
上述终端设备102上还设置有显示器、处理器和存储器,显示器可以用于显示上述文本处理程序的程序界面,上述处理器可以将待处理的文本序列进行预处理;存储器用于对通过服务器104训练得到的目标文本特征的解码模型进行存储。可以理解的是,在上述服务器104在对目标文本特征的解码模型完成训练的情况下,终端设备102中通过网络110接收服务器104发送的目标文本特征的解码模型,终端设备102接收到用户发送的文本特征的解码请求的情况下,通过接收的目标文本特征的解码模型对处理请求中携带的文本序列进行识别和转换。
上述服务器104可以是单一服务器,也可以是由多个服务器组成的服务器集群,或者是云服务器。上述服务器包括数据库和处理引擎。其中,上述处理引擎用于对文本处理请求进行响应;上述数据库中可用于存储用于训练文本特征的解码模型的样本文本库以及训练好的文本特征解码模型。
根据本发明实施例的一个方面,上述文本特征的解码系统还可以执行以下步骤:首先,终端设备102执行步骤S102,接收文本处理请求;接着执行步骤S104,通过网络110向服务器104发送文本处理请求;
接着,在服务器104中,执行步骤S106至步骤S114,获取文本特征解码模型中第i-1层特征解码层输出的文本特征,其中,文本特征解码模型中包括N层依次连接的特征解码层,文本特征为对待处理的文本序列进行特征解码后得到的字符向量序列,字符向量序列中包括与文本序列中每一个字符分别对应的字符向量,N为大于1的整数,i为大于1且小于或等于N的整数;获取与第i层特征解码层对应的k个全局特征向量,其中,k个全局特征向量用于表征文本特征中的字符向量之间关联关系,k为大于1的整数;依次获取文本特征中的每一个字符向量与k个全局特征向量中的每一个全局特征向量的向量相似度,并基于对应于同一个字符向量的k个向量相似度将每一个字符向量依次更新为参考字符向量;将参考字符向量拼接得到的参考字符向量序列确定为解码得到的目标文本特征;基于目标文本特征进行文本处理,得到文本处理结果。
接着,服务器104执行步骤S116,通过网络110向终端设备102发送文本处理结果;终端设备102中执行步骤S118,显示文本处理结果。
在本发明实施例中,采用获取文本特征解码模型中第i-1层特征解码层输出的文本特征,其中,文本特征解码模型中包括N层依次连接的特征解码层,文本特征为对待处理的文本序列进行特征解码后得到的字符向量序列,字符向量序列中包括与文本序列中每一个字符分别对应的字符向量,N为大于1的整数,i为大于1且小于或等于N的整数;获取与第i层特征解码层对应的k个全局特征向量,其中,k个全局特征向量用于表征文本特征中的字符向量之间关联关系,k为大于1的整数;依次获取文本特征中的每一个字符向量与k个全局特征向量中的每一个全局特征向量的向量相似度,并基于对应于同一个字符向量的k个向量相似度将每一个字符向量依次更新为参考字符向量;将参考字符向量拼接得到的参考字符向量序列确定为解码得到的目标文本特征,从而在第i层特征解码层完成对文本特征的解码。
在上述文本特征的解码方法中,在当前特征解码层待解码的文本特征的情况下, 可以获取用于表征上述文本特征中包括的字符向量之间的关联关系的k个全局特征向量, 并通过k个全局特征向量分别与每一个字符向量之间的向量相似度分别对各个字符向量进 行更新,最后将更新后的各个字符向量拼接得到特征解码结果。进而通过若干个全局特征 向量完成各个字符向量的更新解码,避免了原自注意力机制中每个字符向量与每个字符向 量之间的计算以完成各个字符向量的更新解码的方法,进而将单个字符向量的解码复杂度 从O()调整为O(),进而降低了特征解码的复杂度,提升了特征解码的解码效率,解决了 现有的文本特征的解码方法效率低的技术问题。
上述仅是一种示例,本实施例中对此不作任何限定。
作为一种可选的实施方式,如图2所示,上述文本特征的解码方法可以包括以下步骤:
S202,获取文本特征解码模型中第i-1层特征解码层输出的文本特征,其中,文本特征解码模型中包括N层依次连接的特征解码层,文本特征为对待处理的文本序列进行特征解码后得到的字符向量序列,字符向量序列中包括与文本序列中每一个字符分别对应的字符向量,N为大于1的整数,i为大于1且小于或等于N的整数;
S204,获取与第i层特征解码层对应的k个全局特征向量,其中,k个全局特征向量用于表征文本特征中的字符向量之间关联关系,k为大于1的整数;
S206,依次获取文本特征中的每一个字符向量与k个全局特征向量中的每一个全局特征向量的向量相似度,并基于对应于同一个字符向量的k个向量相似度将每一个字符向量依次更新为参考字符向量;
S208,将参考字符向量拼接得到的参考字符向量序列确定为解码得到的目标文本特征。
需要说明的是,在本申请上述实施方式可以用于一种NLP任务中的文本特征解码流程中,上述NLP任务可以包括但不限于是一种文本翻译任务,文本实体识别任务,文本标签提取任务,文本分类任务等。在本实施方式中不对上述NLP任务的具体类型进行限定。
进一步地,上述步骤S202中的文本特征解码模型可以具体为一种与Transformer模型结构相同的解码模型。上述文本特征解码模型可以由多个特征解码层叠加组成,如图3所示为上述一个特征解码层的示意图,其中,一个特征解码层中可以包括字符特征更新模块和前馈神经网络模块。可以理解的是,上述文本特征解码模型中可以包括N层如图3所示的特征解码层,每层特征解码层对文本特征进行处理后即可将处理结果作为下一层特征解码层的输入。
以下结合图4对上述文本特征进行说明。如图4所示,在待处理的文本序列为“今天天气真好阳光明媚”的情况下,可以通过文本特征提取网络BERT Encoder将文本序列中的每一个字符转换为各自对应的字符向量,并通过在文本序列开始的位置添加开始分割字符“[CLS]”,并在文本序列结束的位置添加中止分割字符“[SEP]”,以组成与文本序列“今天天气真好阳光明媚”对应的字符向量序列“[CLS]”、“[E1]”、“[E2]”、“[E3]”、“[E4]”、“[E5]”、“[E6]”、“[E7]”、“[E8]”、“[E9]”、“[E10]”、“[SEP]”。
需要说明的是,在通过特征提取网络BERT Encoder获取到由上述字符向量序列确定的文本特征之后,即可将上述文本特征输入图3所示的第一层特征解码层,并将上述第一层特征解码层输出的结果作为第二层特征解码层的输入值。
进一步地,在上述步骤S204和步骤S206中,可以获取与当前层特征解码层对应的用于表征第i-1层特征解码层输出的文本特征中包括的各个字符向量之间的关联关系的k个全局特征向量,接着获取上述k个全局特征向量与上述各个字符向量之间进行向量相似度,并基于获取的向量相似度依次对每一个字符向量进行向量更新,从而使得更新后的字符向量中可以携带有文本特征中的其他字符向量的相关信息。
如图5所示,在获取到第i层特征解码层对应的k个全局特征向量的情况下,可以先获取字符向量“[E1]”与每一个全局特征向量之间的向量相似度,再基于获取的多个向量相似度对字符向量“[E1]”进行更新。由于k个全局特征向量可以用于指示文本特征中的字符向量之间的关联关系,进而可以通过多个向量相似度更新字符向量“[E1]”,以在更新后的参考字符向量“[E1]”中携带有其他字符之间的关联特征。接着对上述字符向量序列中的每一个字符向量按照上述方式进行向量更新,使得每一个向量均可以携带有其他字符向量之间的关联特征。
最后如上述步骤S208,将更新后得到的参考字符向量拼接得到的参考字符向量序列确定为解码得到的目标文本特征。
需要说明的是,在一种优选的方式中,上述全局特征向量的数量可以小于上述文 本特征中的字符向量特征的数量,进而可以将解码复杂度从O()降低为O(),进而提升 特征解码效率。
在本发明实施例中,采用获取文本特征解码模型中第i-1层特征解码层输出的文本特征,其中,文本特征解码模型中包括N层依次连接的特征解码层,文本特征为对待处理的文本序列进行特征解码后得到的字符向量序列,字符向量序列中包括与文本序列中每一个字符分别对应的字符向量,N为大于1的整数,i为大于1且小于或等于N的整数;获取与第i层特征解码层对应的k个全局特征向量,其中,k个全局特征向量用于表征文本特征中的字符向量之间关联关系,k为大于1的整数;依次获取文本特征中的每一个字符向量与k个全局特征向量中的每一个全局特征向量的向量相似度,并基于对应于同一个字符向量的k个向量相似度将每一个字符向量依次更新为参考字符向量;将参考字符向量拼接得到的参考字符向量序列确定为解码得到的目标文本特征,从而在第i层特征解码层完成对文本特征的解码。
在上述文本特征的解码方法中,在当前特征解码层待解码的文本特征的情况下, 可以获取用于表征上述文本特征中包括的字符向量之间的关联关系的k个全局特征向量, 并通过k个全局特征向量分别与每一个字符向量之间的向量相似度分别对各个字符向量进 行更新,最后将更新后的各个字符向量拼接得到特征解码结果。进而通过若干个全局特征 向量完成各个字符向量的更新解码,避免了原自注意力机制中每个字符向量与每个字符向 量之间的计算以完成各个字符向量的更新解码的方法,进而将单个字符向量的解码复杂度 从O()调整为O(),进而降低了特征解码的复杂度,提升了特征解码的解码效率,解决了 现有的文本特征的解码方法效率低的技术问题。
在一种可选的实施方式中,上述依次获取文本特征中的每一个字符向量与k个全局特征向量中的每一个全局特征向量的向量相似度,并基于对应于同一个字符向量的k个向量相似度将每一个字符向量依次更新为参考字符向量包括:
重复如下步骤,直至遍历文本特征中的每一个字符向量:
S1,从文本特征中获取一个字符向量作为当前字符向量,并获取当前字符向量对应的k个第一向量相似度;
S2,分别获取与当前字符向量相邻的M个相邻字符向量,和当前字符向量之间的第二向量相似度,其中,相邻字符向量在字符向量序列中的第一序号与当前字符向量的第二序号之间的序号差值满足相邻条件;
S3,根据k个第一向量相似度和M个第二向量相似度将当前字符向量更新为参考字符向量。
可以理解的是,在本实施方式中,在对字符向量进行向量更新的过程中,除了可以使用k个全局特征向量间接感知全局特征,还可以通过与当前字符向量相邻的相邻字符向量的直接连接以直接感知上下文字符特征。
可选地,上述相邻条件可以具体是:相邻字符向量在字符向量序列中的第一序号与当前字符向量的第二序号之间的序号差值的绝对值小于或等于目标阈值。例如,在上述目标阈值确定为3的情况下,即可确定在上述字符向量序列中位于当前字符向量之前的3个向量为相邻字符向量,在上述字符向量序列中位于当前字符向量之后的3个向量也为相邻字符向量。可选地,上述相邻字符向量可以包括上述当前字符向量本身,也可以不包括上述当前字符向量本身,在此不对上述相邻字符向量和上述当前字符向量之间的关系进行限定。
假设上述当前字符向量为字符向量序列“[CLS]”、“[E1]”、“[E2]”、“[E3]”、“[E4]”、“[E5]”、“[E6]”、“[E7]”、“[E8]”、“[E9]”、“[E10]”、“[SEP]”中的字符向量“[E5]”,在确定相邻窗口为3(即目标阈值确定为3)的情况下,上述字符向量“[E5]”的相邻字符向量可以是[E2]”、“[E3]”、“[E4]”、“[E6]”、“[E7]”、“[E8]”。
需要说明的是,上述数值M的取值可以针对与不同字符向量而变化。例如,在确定相邻窗口为3(即目标阈值确定为3)的情况下,上述字符向量的相邻字符向量的数量为6个,而针对字符向量“[E1]”而言,其向量字符向量包括“[CLS]”、“[E2]”、“[E3]”、“[E4]”,即为4个。
在上述实施方式中,在确定出当前字符向量的相邻字符向量的情况下,即可根据相邻字符向量确定的多个第二向量相似度,和基于全局特征向量确定的多个第一向量相似度对各个字符向量进行更新。
通过本申请的上述实施方式,以重复如下步骤,直至遍历文本特征中的每一个字符向量:从文本特征中获取一个字符向量作为当前字符向量,并获取当前字符向量对应的k个第一向量相似度;分别获取与当前字符向量相邻的M个相邻字符向量,和当前字符向量之间的第二向量相似度,其中,相邻字符向量在字符向量序列中的第一序号与当前字符向量的第二序号之间的序号差值满足相邻条件;根据k个第一向量相似度和M个第二向量相似度将当前字符向量更新为参考字符向量,从而在对文本特征中的各个字符向量进行更新的过程中,通过全局特征向量间接感知全局视野,并通过相邻字符向量感知上下文信息,进而在提升特征解码的结果效果的同时,降低解码复杂度,提升解码效率。
在一种可选的实施方式中,上述根据k个第一向量相似度和M个第二向量相似度将当前字符向量更新为参考字符向量包括:
S1,根据k个第一向量相似度分别确定对应于各个全局特征向量的第一权重系数;
S2,根据M个第二向量相似度分别确定对应于各个相邻字符向量的第二权重系数;
S3,根据k个全局特征向量与各自对应的第一权重系数确定第一加权求和结果,并根据M个相邻字符向量与各自对应的第二权重系数确定第二加权求和结果;
S4,将第一加权求和结果和第二加权求和结果的结果和确定为参考字符向量。
可以理解的是,在本实施方式中,可以通过上述第一向量相似度确定出对应于各个全局特征向量的第一权重系数,以及通过上述第二向量相似度分别确定对应于各个相邻字符向量的第二权重系数,最后通过上述第一权重系数以及对应的全局特征向量和第二权重系数以及对应的相邻字符向量的加权求和结果对各个字符向量进行更新。
可选地,上述根据k个第一向量相似度和M个第二向量相似度将当前字符向量更新为参考字符向量包括:
S1,根据k个第一向量相似度和M个第二向量相似度确定第一参数;
S2,根据k个第一向量相似度确定分别对应于k个全局特征向量的k个第二参数,并分别获取k个第二参数与第一参数的第一比值,将k个第一比值确定为分别对应于k个全局特征向量的第一权重系数;
S3,根据M个第二向量相似度分别确定对应于M个相邻字符向量的M个第三参数,并分别获取M个第三参数分别与第一参数的第二比值,将M个第二比值确定为分别对应于M个相邻字符向量的第二权重系数。
可以理解的是,在确定出k个第一向量相似度和M个第二向量相似度之后,可以根据上述参数对进行概率化处理,得到分别对应于每个向量的权重系数。
在一种可选的方式中,根据k个第一向量相似度和M个第二向量相似度确定第一参数的方式可以是将上述k个第一向量相似度和M个第二向量相似度进行求和,以直接得到上述第一参数;上述根据k个第一向量相似度确定分别对应于k个全局特征向量的k个第二参数的方式可以是将上述k个第一向量相似度直接确定为k个第二参数,上述根据M个第二向量相似度分别确定对应于M个相邻字符向量的M个第三参数的方式可以是将上述M个第二向量相似度确定为M个第三参数。
在另一种可选的方式中,上述根据k个第一向量相似度和M个第二向量相似度确定第一参数的方式可以是:根据上述k个第一向量相似度分别确定出k个以e为底数,第一向量相似度为指数的第一参考值,并根据上述M个第二向量相似度分别确定出M个以e为底数,第二向量相似度为指数的第二参考值,以上述各个第一参考值和各个第二参考值的和确定为第一参数;上述根据k个第一向量相似度确定分别对应于k个全局特征向量的k个第二参数的方式可以是将k个以e为底数,第一向量相似度为指数的第一参考值分别确定为上述第二参数,上述根据M个第二向量相似度分别确定对应于M个相邻字符向量的M个第三参数的方式可以是将M个以e为底数,第二向量相似度为指数的第二参考值分别确定为上述第三参数。
可选地,上述获取当前字符向量对应的k个第一向量相似度包括:将当前字符向量和k个全局特征向量分别进行向量内积计算,将k个第一内积结果确定为k个第一向量相似度;
可选地,上述分别获取与当前字符向量相邻的M个相邻字符向量,和当前字符向量之间的第二向量相似度包括:将当前字符向量和M个相邻字符向量分别进行向量内积计算,将M个第二内积结果确定为M个第二向量相似度。
以下对字符向量的一种具体更新方法进行说明:
对于每个字符向量,除了和窗口内(相邻窗口)的字符向量计算相似度,也会和k个全局特征向量计算相似度。从而利用全局特征向量使得当前token“间接”的感知到了全局视野。
确定出与当前字符向量关联的各个第二向量相似度的方式如下:
其中,为当前字符向量(即字符向量序列中的第i个字符向量),为相邻 字符向量,指示相邻字符向量和当前字符向量的序号差值的绝对值小 于或等于窗口阈值,为当前字符向量与相邻字符向量之间的向量内积计 算,即第二向量相似度为当前字符向量与各个相邻字符向量之间内积结果;
确定出与当前字符向量关联的各个第一向量相似度的方式如下:
其中,为第t个全局特征向量,即第一向量相似度为当前字符向量与各 个全局特征向量之间内积结果;
获取分别对应于k个全局特征向量的第一权重系数,以及分别对应于M个相邻字符向量的第二权重系数的方式如下:
其中:
可以理解的是,上述为上述全局特征向量和相邻字符向量的数量和,上述即 为对应于各个向量的权重系数,即为注意力分布。
最后,确定出更新后的参考字符向量的方式如下:
通过本申请的上述实施方式,以重复如下步骤,直至遍历文本特征中的每一个字符向量:从文本特征中获取一个字符向量作为当前字符向量,并获取当前字符向量对应的k个第一向量相似度;分别获取与当前字符向量相邻的M个相邻字符向量,和当前字符向量之间的第二向量相似度,其中,相邻字符向量在字符向量序列中的第一序号与当前字符向量的第二序号之间的序号差值满足相邻条件;根据k个第一向量相似度和M个第二向量相似度将当前字符向量更新为参考字符向量,从而在对文本特征中的各个字符向量进行更新的过程中,通过全局特征向量间接感知全局视野,并通过相邻字符向量感知上下文信息,进而在提升特征解码的结果效果的同时,降低解码复杂度,提升解码效率。
在一种可选的实施方式中,上述获取与第i层特征解码层对应的k个全局特征向量之前,还包括:
S1,获取与第i层特征解码层对应的k个待更新的全局特征向量;
S2,重复如下步骤,直至遍历k个待更新的全局特征向量:
S2-1,从k个待更新的全局特征向量中获取一个待更新的全局特征向量作为当前全局特征向量;
S2-2,分别获取当前全局特征向量与其他待更新的全局特征向量之间的第三向量相似度;
S2-3,分别获取当前全局特征向量与文本特征中的每一个字符向量之间的第四向量相似度;
S2-4,利用第三向量相似度和第四向量相似度更新当前全局特征向量。
可以理解的是,在本实施方式中,在获取与第i层特征解码层对应的k个全局特征向量之前,可以先对各个全局特征向量进行更新,以使得全局特征向量中可以包括各个字符向量之间的关联关系特征。
在一种可选的实施方式中,上述利用第三向量相似度和第四向量相似度更新当前全局特征向量包括:
S1,根据k-1个第三向量相似度分别确定对应于各个待更新的全局特征向量的第三权重系数;
S2,根据L个第四向量相似度分别确定对应于各个字符向量的第四权重系数,其中,文本特征中包括L个字符向量,L为大于1的整数;
S3,根据k-1个待更新的全局特征向量与各自对应的第三权重系数确定第三加权求和结果,并根据L个字符向量与各自对应的第四权重系数确定第四加权求和结果;
S4,根据第三加权求和结果和第四加权求和结果确定更新后的全局特征向量。
以下结合图6对全局特征向量的一种具体更新方式进行说明。
如图6所示,针对全局特征向量_0,对其进行更新的方式可以是依次获取全局特征向量_0与其他各个全局特征向量之间的第三向量相似度,以及全局特征向量_0与各个字符向量之间的第四向量相似度,进而基于第三向量相似度和第四向量相似度对其进行向量更新,以使得更新后的全局特征向量_0可以用于感知各个字符向量的向量特征。
具体地,获取当前全局特征向量与其他各个全局特征向量之间的第三向量相似度的方式为:
其中,为当前全局特征向量,为其他全局特征向量中的任意一个 全局特征向量,为当前全局特征向量和任意一个全局特征向量之 间的向量内积;
获取当前全局特征向量与各个字符向量之间的第四向量相似度的方式为:
其中,为第t个字符向量,为当前全局特征向量和 任意一个字符向量之间的向量内积;
获取分别对应于全局特征向量的第三权重系数,以及分别对应于各个字符向量的第四权重系数的方式如下:
其中:
可以理解的是,上述为上述全局特征向量和字符向量的数量和,上述即为对 应于各个向量的权重系数,即为在全局特征向量的更新过程中的注意力分布。
接着,确定出更新后的参考全局特征向量的方式如下:
接着将参考全局特征向量和当前全局特征向量进行拼接:
最后,利用激活函数对上述拼接向量进行更新:
其中,为激活函数,为第i层特征解析层携带的变换矩阵,b为偏移参数。
通过本申请上述实施方式,通过获取与第i层特征解码层对应的k个待更新的全局特征向量;重复如下步骤,直至遍历k个待更新的全局特征向量:从k个待更新的全局特征向量中获取一个待更新的全局特征向量作为当前全局特征向量;分别获取当前全局特征向量与其他待更新的全局特征向量之间的第三向量相似度;分别获取当前全局特征向量与文本特征中的每一个字符向量之间的第四向量相似度;利用第三向量相似度和第四向量相似度更新当前全局特征向量。从而在获取与第i层特征解码层对应的k个全局特征向量之前,可以先对各个全局特征向量进行更新,以使得全局特征向量中可以包括各个字符向量之间的关联关系特征。
在一种可选的实施方式中,上述获取与第i层特征解码层对应的k个待更新的全局特征向量,包括以下之一:
方式一、获取与第i层特征解码层对应的k个待更新的全局特征向量,其中,k个待更新的全局特征向量为文本特征解码模型在训练过程中确定的全局特征向量;
方式二、将与第i-1层特征解码层对应的k个全局特征向量,作为与第i层特征解码层对应的k个待更新的全局特征向量。
可以理解的是,获取待更新的全局特征向量的方式可以有两种。在第一种方式中,在特征解析模型中的每一层中可以预先携带有用于感知全局特征的全局特征向量,接着通过上述更新方式对文本特征中的全局特征进行感知,接着用更新后的全局特征向量用于特征更新。
在第二种方式中,在特征解析模型中的第一层中可以预先携带有用于感知全局特征的全局特征向量,接着在通过上述更新方式对文本特征中的全局特征进行感知之后,将更新后的全局特征传递至第二层,作为第二层中待更新的全局特征向量。也就会说,在本实施方式中,可以将全局特征向量随着解析操作在不同解析层的传递而不断传递,进而提升特征感知效果。
在一种可选的实施方式中,上述将参考字符向量拼接得到的参考字符向量序列确定为解码得到的目标文本特征之后,还包括:
S1,对目标文本特征和第i-1层特征解码层输出的文本特征进行归一化处理,得到参考文本特征;
S2,在i与N相等的情况下,根据参考文本特征确定文本特征解码模型输出的特征解码结果;
S3,在i小于N的情况下,将参考文本特征的前馈处理结果输入第i+1层特征解码层。
以下结合图7对上述实施方式进行说明。如图7所示,一层特征解码层中可以包括互相连接的规范化模块、多头自注意力模块、规范化模块和前馈全连接模块。其中,多头自注意力模块中可以用于通过上述实施方式中所述的方法进行文本特征的更新。接着通过如下方法进行归一化处理:
上述即为解码后得到的目标文本特征,即为第i-1层特征 解码层输出的文本特征,即为上述目标文本特 征和文本特征的归一化处理结果。
如图7所示,在当前特征解码层不是最后一层解码层的情况下,可以进一步输入前馈全连接模块进行前馈处理;在当前特征解码层为最后一层解码层的情况下,在进一步输入前馈全连接模块进行前馈处理之后,将处理结果作为特征解码模型的输出结果。
在一种可选的实施方式中,上述在i与N相等的情况下,将参考文本特征确定为文本特征解码模型输出的特征解码结果之后,还包括以下之一:
方式一、对特征解码结果进行第一解析处理,得到与待处理的文本序列匹配的目标文本序列;
方式二、对特征解码结果进行第二解析处理,确定出待处理的文本序列中包括的实体字符对象;
方式三、对特征解码结果进行第三解析处理,得到与待处理的文本序列匹配的文本分类结果。
可以理解的是,通过上述解码操作得到的解码结果之后,可以进一步基于上述解码结果进行后续文本处理操作。
在一种可选的方式中,上述解码结果可以进一步用于文本翻译。可选地,上述文本特征的解码方法可以应用于包括但不限于是一种文本翻译场景、语音翻译场景中。上述翻译场景可以包括但不限于是不同语种之间的翻译操作,还可以是地方语言与官方语言之间的翻译操作。
例如,上述文本特征的解码方法可以是在一种翻译软件提供的翻译场景中,响应于终端接收的翻译请求,将翻译请求中携带的第一文本序列转换为语言不同的第二文本序列;又如,上述文本特征的解码方法还可以是在一种即时通讯软件提供的翻译场景中,响应于对上述即时通讯应用界面中显示的第一文本序列的触发操作,触发第一文本序列的翻译请求,进而将翻译请求中携带的第一文本序列转换为语言不同的第二文本序列;又如,在通过导航软件进行导航的过程中,在接收到用户的方言语音的情况下,可以通过导航软件的语音识别功能将方言语音转换为方言文本,接着利用上述文本特征的解码方法将方言文本特征的解码为标准文本(例如普通话文本)。以上应用场景仅为示例性说明,不对上述文本特征的解码方法的实际可以应用的技术场景进行限定。
在另一种可选的方式中,可以将解码的结果用于实体识别,即将文本序列中包括的目标实体对象进行标注,得到实体标注结果;在又一种可选的实施方式中,可以将解码结果用于文本分类,例如,通过对解码结果的进一步解析操作,得到与文本序列匹配的多个标签。
以下对本申请的一个完整实施方式进行说明。在本实施方式中,主要有包括两个方面,首先是采局部的local window的注意力机制;其次还引入了global attention向量(全局特征向量),以线性复杂度的计算复杂度来改进全局attention(注意力)。
如图8所示,在采用local window的注意力机制的情况下,每个字符token只会 “attend”局部窗口内的token。因此每个token只会和window内的token计算相似度,相当于 超过这个window的token的相似度为-inf(负无穷)。这样通过将attention计算“local”化, 计算复杂度从O()减小到了O(),一个线性复杂度。由于local attention会导致模 型对全局视野的关注变弱,因此优选地,进一步引入一种线性global机制。
如图9所示,引入了k个global向量。这k个向量的特点是它们互相是可以计算相似度的,而且每个global向量可以“attend”所有的输入文本token向量。具体更新方式如下:
其中,为当前全局特征向量,为其他全局特征向量中的任意一个 全局特征向量,为当前全局特征向量和任意一个全局特征向量之 间的向量内积;
为第t个字符向量,为当前全局特征向量和任意一 个字符向量之间的向量内积;
上述为上述全局特征向量和字符向量的数量和,上述即为对应于各个向量 的权重系数,即为在全局特征向量的更新过程中的注意力分布;
为激活函数,为第i层特征解析层携带的变换矩阵,b为偏移参数。
通过上述公式,即可通过对全局特征向量的更新使其感知全局特征。
进一步地,对各个字符向量进行更新的方式如下:
确定出与当前字符向量关联的各个第二向量相似度的方式如下:
其中,为当前字符向量(即字符向量序列中的第i个字符向量),为相邻 字符向量,指示相邻字符向量和当前字符向量的序号差值的绝对值小 于或等于窗口阈值,为当前字符向量与相邻字符向量之间的向量内积计 算,即第二向量相似度为当前字符向量与各个相邻字符向量之间内积结果;
确定出与当前字符向量关联的各个第一向量相似度的方式如下:
其中,为第t个全局特征向量,即第一向量相似度为当前字符向量与各 个全局特征向量之间内积结果;
获取分别对应于k个全局特征向量的第一权重系数,以及分别对应于M个相邻字符向量的第二权重系数的方式如下:
其中:
可以理解的是,上述为上述全局特征向量和相邻字符向量的数量和,上述即 为对应于各个向量的权重系数,即为注意力分布。
接着,确定出更新后的参考字符向量的方式如下:
最后,可以利用如下公式得到目标字符向量了:
在本发明实施例中,采用获取文本特征解码模型中第i-1层特征解码层输出的文本特征,其中,文本特征解码模型中包括N层依次连接的特征解码层,文本特征为对待处理的文本序列进行特征解码后得到的字符向量序列,字符向量序列中包括与文本序列中每一个字符分别对应的字符向量,N为大于1的整数,i为大于1且小于或等于N的整数;获取与第i层特征解码层对应的k个全局特征向量,其中,k个全局特征向量用于表征文本特征中的字符向量之间关联关系,k为大于1的整数;依次获取文本特征中的每一个字符向量与k个全局特征向量中的每一个全局特征向量的向量相似度,并基于对应于同一个字符向量的k个向量相似度将每一个字符向量依次更新为参考字符向量;将参考字符向量拼接得到的参考字符向量序列确定为解码得到的目标文本特征,从而在第i层特征解码层完成对文本特征的解码。
在上述文本特征的解码方法中,在当前特征解码层待解码的文本特征的情况下, 可以获取用于表征上述文本特征中包括的字符向量之间的关联关系的k个全局特征向量, 并通过k个全局特征向量分别与每一个字符向量之间的向量相似度分别对各个字符向量进 行更新,最后将更新后的各个字符向量拼接得到特征解码结果。进而通过若干个全局特征 向量完成各个字符向量的更新解码,避免了原自注意力机制中每个字符向量与每个字符向 量之间的计算以完成各个字符向量的更新解码的方法,进而将单个字符向量的解码复杂度 从O()调整为O(),进而降低了特征解码的复杂度,提升了特征解码的解码效率,解决了 现有的文本特征的解码方法效率低的技术问题。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
根据本发明实施例的另一个方面,还提供了一种用于实施上述文本特征的解码方法的文本特征的解码装置。如图10所示,该装置包括:
第一获取单元1002,用于获取文本特征解码模型中第i-1层特征解码层输出的文本特征,其中,文本特征解码模型中包括N层依次连接的特征解码层,文本特征为对待处理的文本序列进行特征解码后得到的字符向量序列,字符向量序列中包括与文本序列中每一个字符分别对应的字符向量,N为大于1的整数,i为大于1且小于或等于N的整数;
第二获取单元1004,用于获取与第i层特征解码层对应的k个全局特征向量,其中,k个全局特征向量用于表征文本特征中的字符向量之间关联关系,k为大于1的整数;
第三获取单元1006,用于依次获取文本特征中的每一个字符向量与k个全局特征向量中的每一个全局特征向量的向量相似度,并基于对应于同一个字符向量的k个向量相似度将每一个字符向量依次更新为参考字符向量;
更新单元1008,用于将参考字符向量拼接得到的参考字符向量序列确定为解码得到的目标文本特征。
可选地,上述第三获取单元1006包括:
遍历模块,用于重复如下步骤,直至遍历文本特征中的每一个字符向量:从文本特征中获取一个字符向量作为当前字符向量,并获取当前字符向量对应的k个第一向量相似度;分别获取与当前字符向量相邻的M个相邻字符向量,和当前字符向量之间的第二向量相似度,其中,相邻字符向量在字符向量序列中的第一序号与当前字符向量的第二序号之间的序号差值满足相邻条件;根据k个第一向量相似度和M个第二向量相似度将当前字符向量更新为参考字符向量。
可选地,上述遍历模块用于:根据k个第一向量相似度分别确定对应于各个全局特征向量的第一权重系数;根据M个第二向量相似度分别确定对应于各个相邻字符向量的第二权重系数;根据k个全局特征向量与各自对应的第一权重系数确定第一加权求和结果,并根据M个相邻字符向量与各自对应的第二权重系数确定第二加权求和结果;将第一加权求和结果和第二加权求和结果的结果和确定为参考字符向量。
可选地,上述遍历模块用于:获取当前字符向量对应的k个第一向量相似度包括:将当前字符向量和k个全局特征向量分别进行向量内积计算,将k个第一内积结果确定为k个第一向量相似度;分别获取与当前字符向量相邻的M个相邻字符向量,和当前字符向量之间的第二向量相似度包括:将当前字符向量和M个相邻字符向量分别进行向量内积计算,将M个第二内积结果确定为M个第二向量相似度。
可选地,上述遍历模块用于:根据k个第一向量相似度和M个第二向量相似度确定第一参数;根据k个第一向量相似度确定分别对应于k个全局特征向量的k个第二参数,并分别获取k个第二参数与第一参数的第一比值,将k个第一比值确定为分别对应于k个全局特征向量的第一权重系数;根据M个第二向量相似度分别确定对应于M个相邻字符向量的M个第三参数,并分别获取M个第三参数分别与第一参数的第二比值,将M个第二比值确定为分别对应于M个相邻字符向量的第二权重系数。
可选地,上述第二获取单元1004,包括:
获取模块,用于获取与第i层特征解码层对应的k个待更新的全局特征向量;
更新模块,用于重复如下步骤,直至遍历k个待更新的全局特征向量:从k个待更新的全局特征向量中获取一个待更新的全局特征向量作为当前全局特征向量;分别获取当前全局特征向量与其他待更新的全局特征向量之间的第三向量相似度;分别获取当前全局特征向量与文本特征中的每一个字符向量之间的第四向量相似度;利用第三向量相似度和第四向量相似度更新当前全局特征向量。
可选地,上述更新模块用于:根据k-1个第三向量相似度分别确定对应于各个待更新的全局特征向量的第三权重系数;根据L个第四向量相似度分别确定对应于各个字符向量的第四权重系数,其中,文本特征中包括L个字符向量,L为大于1的整数;根据k-1个待更新的全局特征向量与各自对应的第三权重系数确定第三加权求和结果,并根据L个字符向量与各自对应的第四权重系数确定第四加权求和结果;根据第三加权求和结果和第四加权求和结果确定更新后的全局特征向量。
可选地,上述更新模块用于以下之一:获取与第i层特征解码层对应的k个待更新的全局特征向量,其中,k个待更新的全局特征向量为文本特征解码模型在训练过程中确定的全局特征向量;将与第i-1层特征解码层对应的k个全局特征向量,作为与第i层特征解码层对应的k个待更新的全局特征向量。
可选地,上述文本特征的解码装置还用于:对目标文本特征和i-1层特征解码层输出的文本特征进行归一化处理,得到参考文本特征;在i与N相等的情况下,根据参考文本特征确定文本特征解码模型输出的特征解码结果;在i小于N的情况下,将参考文本特征的前馈处理结果输入第i+1层特征解码层。
可选地,上述文本特征的解码装置还用于以下之一:对特征解码结果进行第一解析处理,得到与待处理的文本序列匹配的目标文本序列;对特征解码结果进行第二解析处理,确定出待处理的文本序列中包括的实体字符对象;对特征解码结果进行第三解析处理,得到与待处理的文本序列匹配的文本分类结果。
可选地,在本实施例中,上述各个单元模块所要实现的实施例,可以参考上述各个方法实施例,这里不再赘述。
根据本发明实施例的又一个方面,还提供了一种用于实施上述文本特征的解码方法的电子设备,该电子设备可以是图11所示的终端设备或服务器。本实施例以该电子设备为终端设备为例来说明。如图11所示,该电子设备包括存储器1102和处理器1104,该存储器1102中存储有计算机程序,该处理器1104被设置为通过计算机程序执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述电子设备可以位于计算机网络的多个网络设备中的至少一个网络设备。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,获取文本特征解码模型中第i-1层特征解码层输出的文本特征,其中,文本特征解码模型中包括N层依次连接的特征解码层,文本特征为对待处理的文本序列进行特征解码后得到的字符向量序列,字符向量序列中包括与文本序列中每一个字符分别对应的字符向量,N为大于1的整数,i为大于1且小于或等于N的整数;
S2,获取与第i层特征解码层对应的k个全局特征向量,其中,k个全局特征向量用于表征文本特征中的字符向量之间关联关系,k为大于1的整数;
S3,依次获取文本特征中的每一个字符向量与k个全局特征向量中的每一个全局特征向量的向量相似度,并基于对应于同一个字符向量的k个向量相似度将每一个字符向量依次更新为参考字符向量;
S4,将参考字符向量拼接得到的参考字符向量序列确定为解码得到的目标文本特征。
可选地,本领域普通技术人员可以理解,图11所示的结构仅为示意,电子设备也可以是车载终端、智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图11其并不对上述电子设备的结构造成限定。例如,电子设备还可包括比图11中所示更多或者更少的组件(如网络接口等),或者具有与图11所示不同的配置。
其中,存储器1102可用于存储软件程序以及模块,如本发明实施例中的文本特征的解码方法和装置对应的程序指令/模块,处理器1104通过运行存储在存储器1102内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的文本特征的解码方法。存储器1102可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器1102可进一步包括相对于处理器1104远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中,存储器1102具体可以但不限于用于存储目标逻辑文件等文件信息。作为一种示例,如图11所示,上述存储器1102中可以但不限于包括上述文本特征的解码装置中的第一获取单元1002、第二获取单元1004、第三获取单元1006以及更新单元1008。此外,还可以包括但不限于上述文本特征的解码装置中的其他模块单元,本示例中不再赘述。
可选地,上述的传输装置1106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置1106包括一个网络适配器(Network Interface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置1106为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
此外,上述电子设备还包括:显示器1108,和连接总线1110,用于连接上述电子设备中的各个模块部件。
在其他实施例中,上述终端设备或者服务器可以是一个分布式系统中的一个节点,其中,该分布式系统可以为区块链系统,该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中,节点之间可以组成点对点(Peer To Peer)网络,任意形式的计算设备,比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。
根据本申请的一个方面,提供了一种计算机程序产品,该计算机程序产品包括计算机程序/指令,该计算机程序/指令包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。在该计算机程序被中央处理器执行时,执行本申请实施例提供的各种功能。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
根据本申请的一个方面,提供了一种计算机可读存储介质,计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述文本特征的解码方法。
可选地,在本实施例中,上述计算机可读存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,获取文本特征解码模型中第i-1层特征解码层输出的文本特征,其中,文本特征解码模型中包括N层依次连接的特征解码层,文本特征为对待处理的文本序列进行特征解码后得到的字符向量序列,字符向量序列中包括与文本序列中每一个字符分别对应的字符向量,N为大于1的整数,i为大于1且小于或等于N的整数;
S2,获取与第i层特征解码层对应的k个全局特征向量,其中,k个全局特征向量用于表征文本特征中的字符向量之间关联关系,k为大于1的整数;
S3,依次获取文本特征中的每一个字符向量与k个全局特征向量中的每一个全局特征向量的向量相似度,并基于对应于同一个字符向量的k个向量相似度将每一个字符向量依次更新为参考字符向量;
S4,将参考字符向量拼接得到的参考字符向量序列确定为解码得到的目标文本特征。
可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例上述方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (14)

1.一种文本特征的解码方法,其特征在于,包括:
获取文本特征解码模型中第i-1层特征解码层输出的文本特征,其中,所述文本特征解码模型中包括N层依次连接的特征解码层,所述文本特征为对待处理的文本序列进行特征解码后得到的字符向量序列,所述字符向量序列中包括与所述文本序列中每一个字符分别对应的字符向量,所述N为大于1的整数,所述i为大于1且小于或等于N的整数;
获取与第i层特征解码层对应的k个全局特征向量,其中,所述k个全局特征向量用于表征所述文本特征中的所述字符向量之间关联关系,所述k为大于1的整数;
依次获取所述文本特征中的每一个所述字符向量与所述k个全局特征向量中的每一个所述全局特征向量的向量相似度,并基于对应于同一个所述字符向量的k个所述向量相似度将每一个所述字符向量依次更新为参考字符向量;
将所述参考字符向量拼接得到的参考字符向量序列确定为解码得到的目标文本特征。
2.根据权利要求1所述的方法,其特征在于,所述依次获取所述文本特征中的每一个所述字符向量与所述k个全局特征向量中的每一个所述全局特征向量的向量相似度,并基于对应于同一个所述字符向量的k个所述向量相似度将每一个所述字符向量依次更新为参考字符向量包括:
重复如下步骤,直至遍历所述文本特征中的每一个所述字符向量:
从所述文本特征中获取一个字符向量作为当前字符向量,并获取所述当前字符向量对应的k个第一向量相似度;
分别获取与所述当前字符向量相邻的M个相邻字符向量,和所述当前字符向量之间的第二向量相似度,其中,所述相邻字符向量在所述字符向量序列中的第一序号与所述当前字符向量的第二序号之间的序号差值满足相邻条件,所述M为大于1的整数;
根据所述k个第一向量相似度和M个第二向量相似度将所述当前字符向量更新为所述参考字符向量。
3.根据权利要求2所述的方法,其特征在于,所述根据所述k个第一向量相似度和M个第二向量相似度将所述当前字符向量更新为所述参考字符向量包括:
根据所述k个第一向量相似度分别确定对应于各个所述全局特征向量的第一权重系数;
根据所述M个第二向量相似度分别确定对应于各个所述相邻字符向量的第二权重系数;
根据k个所述全局特征向量与各自对应的所述第一权重系数确定第一加权求和结果,并根据M个所述相邻字符向量与各自对应的所述第二权重系数确定第二加权求和结果;
将所述第一加权求和结果和所述第二加权求和结果的结果和确定为所述参考字符向量。
4.根据权利要求2所述的方法,其特征在于,
所述获取所述当前字符向量对应的k个第一向量相似度包括:将所述当前字符向量和所述k个全局特征向量分别进行向量内积计算,将k个第一内积结果确定为所述k个所述第一向量相似度;
所述分别获取与所述当前字符向量相邻的M个相邻字符向量,和所述当前字符向量之间的第二向量相似度包括:将所述当前字符向量和所述M个相邻字符向量分别进行向量内积计算,将M个第二内积结果确定为所述M个第二向量相似度。
5.根据权利要求3所述的方法,其特征在于,包括:
根据所述k个所述第一向量相似度和所述M个所述第二向量相似度确定第一参数;
根据所述k个所述第一向量相似度确定分别对应于所述k个所述全局特征向量的k个第二参数,并分别获取所述k个所述第二参数与所述第一参数的第一比值,将k个所述第一比值确定为分别对应于所述k个所述全局特征向量的所述第一权重系数;
根据所述M个所述第二向量相似度分别确定对应于所述M个所述相邻字符向量的M个第三参数,并分别获取所述M个所述第三参数分别与所述第一参数的第二比值,将M个所述第二比值确定为分别对应于所述M个所述相邻字符向量的所述第二权重系数。
6.根据权利要求1所述的方法,其特征在于,所述获取与第i层特征解码层对应的k个全局特征向量之前,还包括:
获取与所述第i层特征解码层对应的k个待更新的全局特征向量;
重复如下步骤,直至遍历所述k个待更新的全局特征向量:
从所述k个待更新的全局特征向量中获取一个所述待更新的全局特征向量作为当前全局特征向量;
分别获取所述当前全局特征向量与其他待更新的全局特征向量之间的第三向量相似度;
分别获取所述当前全局特征向量与所述文本特征中的每一个所述字符向量之间的第四向量相似度;
利用所述第三向量相似度和所述第四向量相似度更新所述当前全局特征向量。
7.根据权利要求6所述的方法,其特征在于,所述利用所述第三向量相似度和所述第四向量相似度更新所述当前全局特征向量包括:
根据k-1个所述第三向量相似度分别确定对应于各个所述待更新的全局特征向量的第三权重系数;
根据L个所述第四向量相似度分别确定对应于各个所述字符向量的第四权重系数,其中,所述文本特征中包括L个所述字符向量,所述L为大于1的整数;
根据所述k-1个所述待更新的全局特征向量与各自对应的所述第三权重系数确定第三加权求和结果,并根据所述L个所述字符向量与各自对应的所述第四权重系数确定第四加权求和结果;
根据所述第三加权求和结果和所述第四加权求和结果确定更新后的所述全局特征向量。
8.根据权利要求6所述的方法,其特征在于,所述获取与所述第i层特征解码层对应的k个待更新的全局特征向量,包括以下之一:
获取与所述第i层特征解码层对应的k个待更新的全局特征向量,其中,所述k个待更新的全局特征向量为所述文本特征解码模型在训练过程中确定的全局特征向量;
将与所述第i-1层特征解码层对应的k个所述全局特征向量,作为与所述第i层特征解码层对应的所述k个待更新的全局特征向量。
9.根据权利要求1所述的方法,其特征在于,所述将所述参考字符向量拼接得到的参考字符向量序列确定为解码得到的目标文本特征之后,还包括:
对所述目标文本特征和所述i-1层特征解码层输出的所述文本特征进行归一化处理,得到参考文本特征;
在所述i与所述N相等的情况下,根据所述参考文本特征确定所述文本特征解码模型输出的特征解码结果;
在所述i小于所述N的情况下,将所述参考文本特征的前馈处理结果输入第i+1层特征解码层。
10.根据权利要求9所述的方法,其特征在于,所述在所述i与所述N相等的情况下,将所述参考文本特征确定为所述文本特征解码模型输出的特征解码结果之后,还包括以下之一:
对所述特征解码结果进行第一解析处理,得到与所述待处理的文本序列匹配的目标文本序列;
对所述特征解码结果进行第二解析处理,确定出所述待处理的文本序列中包括的实体字符对象;
对所述特征解码结果进行第三解析处理,得到与所述待处理的文本序列匹配的文本分类结果。
11.一种文本特征的解码装置,其特征在于,包括
第一获取单元,用于获取文本特征解码模型中第i-1层特征解码层输出的文本特征,其中,所述文本特征解码模型中包括N层依次连接的特征解码层,所述文本特征为对待处理的文本序列进行特征解码后得到的字符向量序列,所述字符向量序列中包括与所述文本序列中每一个字符分别对应的字符向量,所述N为大于1的整数,所述i为大于1且小于或等于N的整数;
第二获取单元,用于获取与第i层特征解码层对应的k个全局特征向量,其中,所述k个全局特征向量用于表征所述文本特征中的所述字符向量之间关联关系,所述k为大于1的整数;
第三获取单元,用于依次获取所述文本特征中的每一个所述字符向量与所述k个全局特征向量中的每一个所述全局特征向量的向量相似度,并基于对应于同一个所述字符向量的k个所述向量相似度将每一个所述字符向量依次更新为参考字符向量;
更新单元,用于将所述参考字符向量拼接得到的参考字符向量序列确定为解码得到的目标文本特征。
12.一种计算机可读的存储介质,其特征在于,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行所述权利要求1至10任一项中所述的方法。
13.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1至10中任一项所述方法的步骤。
14.一种电子设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至10任一项中所述的方法。
CN202311103289.5A 2023-08-30 2023-08-30 文本特征的解码方法和装置、存储介质及电子设备 Active CN116842932B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311103289.5A CN116842932B (zh) 2023-08-30 2023-08-30 文本特征的解码方法和装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311103289.5A CN116842932B (zh) 2023-08-30 2023-08-30 文本特征的解码方法和装置、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN116842932A true CN116842932A (zh) 2023-10-03
CN116842932B CN116842932B (zh) 2023-11-14

Family

ID=88174618

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311103289.5A Active CN116842932B (zh) 2023-08-30 2023-08-30 文本特征的解码方法和装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN116842932B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090140892A1 (en) * 2007-11-30 2009-06-04 Ali Zandifar String Reconstruction Using Multiple Strings
CN111611346A (zh) * 2020-05-09 2020-09-01 迟殿委 一种基于动态语义编码和双注意力的文本匹配方法及装置
CN111914097A (zh) * 2020-07-13 2020-11-10 吉林大学 基于注意力机制和多层级特征融合的实体抽取方法与装置
CN113139468A (zh) * 2021-04-24 2021-07-20 西安交通大学 融合局部目标特征与全局特征的视频摘要生成方法
CN113449081A (zh) * 2021-07-08 2021-09-28 平安国际智慧城市科技股份有限公司 文本特征的提取方法、装置、计算机设备及存储介质
CN115168590A (zh) * 2022-08-02 2022-10-11 北京极智感科技有限公司 文本特征提取方法、模型训练方法、装置、设备及介质
CN115603964A (zh) * 2022-09-29 2023-01-13 中国电信股份有限公司(Cn) 邮件检测方法和装置、计算机可读存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090140892A1 (en) * 2007-11-30 2009-06-04 Ali Zandifar String Reconstruction Using Multiple Strings
CN111611346A (zh) * 2020-05-09 2020-09-01 迟殿委 一种基于动态语义编码和双注意力的文本匹配方法及装置
CN111914097A (zh) * 2020-07-13 2020-11-10 吉林大学 基于注意力机制和多层级特征融合的实体抽取方法与装置
CN113139468A (zh) * 2021-04-24 2021-07-20 西安交通大学 融合局部目标特征与全局特征的视频摘要生成方法
CN113449081A (zh) * 2021-07-08 2021-09-28 平安国际智慧城市科技股份有限公司 文本特征的提取方法、装置、计算机设备及存储介质
CN115168590A (zh) * 2022-08-02 2022-10-11 北京极智感科技有限公司 文本特征提取方法、模型训练方法、装置、设备及介质
CN115603964A (zh) * 2022-09-29 2023-01-13 中国电信股份有限公司(Cn) 邮件检测方法和装置、计算机可读存储介质

Also Published As

Publication number Publication date
CN116842932B (zh) 2023-11-14

Similar Documents

Publication Publication Date Title
CN111950638B (zh) 基于模型蒸馏的图像分类方法、装置和电子设备
US11361188B2 (en) Method and apparatus for optimizing tag of point of interest
CN111461301A (zh) 序列化数据处理方法和装置、文本处理方法和装置
CN109214543B (zh) 数据处理方法及装置
CN115129883B (zh) 实体链接方法和装置、存储介质及电子设备
CN113627536A (zh) 模型训练、视频分类方法,装置,设备以及存储介质
CN113407851A (zh) 基于双塔模型的确定推荐信息的方法、装置、设备和介质
CN114020950B (zh) 图像检索模型的训练方法、装置、设备以及存储介质
CN109858031B (zh) 神经网络模型训练、上下文预测方法及装置
CN112966140B (zh) 字段识别方法、装置、电子设备、存储介质和程序产品
CN112069412B (zh) 信息推荐方法、装置、计算机设备及存储介质
CN111597401B (zh) 基于图关系网络的数据处理方法、装置、设备及介质
AU2023266376A1 (en) Method and apparatus for cosmetic product recommendation
CN116842932B (zh) 文本特征的解码方法和装置、存储介质及电子设备
CN111782774B (zh) 一种问题推荐的方法及装置
CN116629375A (zh) 模型处理方法以及系统
CN115827878A (zh) 语句情感分析方法、装置以及设备
CN114186039A (zh) 一种视觉问答方法、装置及电子设备
CN113591570A (zh) 视频处理方法、装置、电子设备和存储介质
CN114861057B (zh) 资源发送方法、推荐模型的训练及装置
CN111526054B (zh) 用于获取网络的方法及装置
CN117216567A (zh) 对象特征表示方法、装置、设备和介质
CN115018009B (zh) 对象描述方法、网络模型的训练方法及装置
CN116994018A (zh) 模型训练方法、分类预测方法以及装置
CN117078354A (zh) 序列生成模型的训练方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant