CN111767697B - 文本处理方法、装置、计算机设备以及存储介质 - Google Patents

文本处理方法、装置、计算机设备以及存储介质 Download PDF

Info

Publication number
CN111767697B
CN111767697B CN202010722468.7A CN202010722468A CN111767697B CN 111767697 B CN111767697 B CN 111767697B CN 202010722468 A CN202010722468 A CN 202010722468A CN 111767697 B CN111767697 B CN 111767697B
Authority
CN
China
Prior art keywords
phrase
redundant
text
sentence
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010722468.7A
Other languages
English (en)
Other versions
CN111767697A (zh
Inventor
刘志煌
谢智贤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010722468.7A priority Critical patent/CN111767697B/zh
Publication of CN111767697A publication Critical patent/CN111767697A/zh
Application granted granted Critical
Publication of CN111767697B publication Critical patent/CN111767697B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例公开了一种文本处理方法、装置、计算机设备以及存储介质,文本处理方法可以应用于人工智能领域,文本处理方法包括:获取待处理的文本,文本包括N个词组,N是正整数;对N个词组进行编码,得到N个词组特征;对N个词组特征分别进行冗余识别处理,确定每个词组特征的第一聚合权重;第一聚合权重表示词组特征对应的词组属于非冗余词组的概率;根据每个词组特征的第一聚合权重,将N个词组特征聚合为文本的非冗余文本特征,输出非冗余文本特征。采用本申请,可以提高提取文本的非冗余文本特征的效率。

Description

文本处理方法、装置、计算机设备以及存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种文本处理方法、装置、计算机设备以及存储介质。
背景技术
语义冗余现象广泛地存在于各种文本数据中,例如新闻资讯、直播评论、口语对话等文本,冗余信息会对文本理解、语义转化等造成干扰和噪音,甚至扭曲原意,因此对语义冗余进行识别和过滤,能够提升人工智能领域下的自然语言理解任务的效果,也是许多文本处理领域改进下游任务效果的关键环节。
目前,为了提取文本数据的非冗余特征,由人工识别出文本中的冗余词组,再提取剩余非冗余词组所构成的文本的文本特征,该文本特征作为非冗余文本特征可以用于下游文本处理任务,提高文本处理效果。由于人工识别冗余词组会耗费大量的时间,造成提取文本数据的非冗余特征的效率低下。
发明内容
本申请实施例提供一种文本处理方法、装置、计算设备以及存储介质,可以提高提取文本的非冗余文本特征的效率。
本申请实施例一方面提供了一种文本处理方法,包括:
获取待处理的文本,所述文本包括N个词组,N是正整数;
对所述N个词组进行编码,得到N个词组特征;
对所述N个词组特征分别进行冗余识别处理,确定每个词组特征的第一聚合权重;所述第一聚合权重表示词组特征对应的词组属于非冗余词组的概率;
根据每个词组特征的第一聚合权重,将所述N个词组特征聚合为所述文本的非冗余文本特征,输出所述非冗余文本特征。
本申请实施例一方面提供了一种文本处理装置,包括:
获取模块,用于获取待处理的文本,所述文本包括N个词组,N是正整数;
编码模块,用于对所述N个词组进行编码,得到N个词组特征;
识别模块,用于对所述N个词组特征分别进行冗余识别处理,确定每个词组特征的第一聚合权重;所述第一聚合权重表示词组特征对应的词组属于非冗余词组的概率;
聚合模块,用于根据每个词组特征的第一聚合权重,将所述N个词组特征聚合为所述文本的非冗余文本特征;
输出模块,用于输出所述非冗余文本特征。
本申请实施例一方面提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述各实施例中的方法。
本申请实施例一方面提供了一种计算机存储介质,计算机存储介质存储有计算机程序,计算机程序包括程序指令,程序指令当被处理器执行时,执行上述各实施例中的方法。
本申请实施例一方面提供了一种计算机程序产品或计算机程序,计算机程序产品或计算机程序包括计算机指令,计算机指令存储在计算机可读存储介质中,计算机指令被计算机设备的处理器执行时,执行上述各实施例中的方法。
本申请不要人工参与,由终端设备自动识别文本中的每个词组属于非冗余词组的概率,将概率作为聚合权重,进而根据聚合权重将所有词组的词组特征聚合为文本的非冗余特征,由于在特征聚合时会依赖聚合权重,可以降低冗余词组对聚合特征的贡献程度,以达到去冗余的效果。避免由人工识别冗余词组再提取非冗余特征所带来的效率低下的情况,提高提取非冗余文本特征的效率,丰富提取非冗余文本特征的方式。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种文本处理的系统架构图;
图2a-图2d其是本申请实施例提供的一种文本处理的场景示意图;
图3是本申请实施例提供的一种文本处理的流程示意图;
图4是本申请实施例提供的一种词组语义提取模型的示意图;
图5是本申请实施例提供的一种文本处理的流程示意图;
图6是本申请实施例提供的一种GhostVLAD模型的示意图;
图7是本申请实施例提供的一种文本处理的流程示意图;
图8是本申请实施例提供的一种文本编码网络的结构示意图;
图9是本申请实施例提供的一种文本处理装置的结构示意图;
图10是本发明实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
云技术(Cloud technology)是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。目前,技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
目前,云技术主要分为云基础技术类以及云应用类;云基础技术类可以进一步细分为:云计算、云储存、数据库以及大数据等;云应用类可以进一步细分为:医疗云、云物联、云安全、云呼叫、私有云、公有云、混合云、云游戏、云教育、云会议、云社交以及人工智能云服务等。
从基础技术角度来说,本申请的文本处理方法涉及云技术下属的云计算;从应用角度来说,本申请的文本处理方法涉及云技术下属的人工智能云服务:
云计算(cloud computing)是一种计算模式,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展,按使用付费。
在本申请中,提取文本的非冗余文本特征涉及大规模计算,需要巨大的算力和存储空间,因此在本申请中,可以由终端设备通过云计算技术获取足够算力和存储空间,进而执行本申请中所涉及的提取词组特征,以及将词组特征聚合为文本的非冗余文本特征。
所谓人工智能云服务,一般也被称作是AIaaS(AI as a Service,中文为“AI即服务”)。这是目前主流的一种人工智能平台的服务方式,具体来说AIaaS平台会把几类常见的AI服务进行拆分,并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城:所有的开发者都可以通过API接口的方式来接入使用平台提供的一种或者是多种人工智能服务,部分资深的开发者还可以使用平台提供的AI框架和AI基础设施来部署和运维自已专属的云人工智能服务。
可以将本申请涉及的文本处理方法封装为一个人工智能服务,且仅对外暴露一个接口。当在某一个业务场景下需要使用本申请所涉及的提取非冗余文本特征功能时,通过调用该接口,即可完成对当前文本的非冗余文本特征的提取。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请实施例提供的方案属于人工智能领域下属的自然语言处理技术。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。
在本申请中,主要涉及识别出文本中的每个词组属于非冗余词的概率,进而根据概率将每个词组的词组特征聚合为文本的非冗余文本特征,提取出来的非冗余文本特征可以用于文本翻译,文本分类等具体的应用场景。
本申请可以应用于如下场景:当获取到文本,且欲提取文本的非冗余文本特征时,采用本申请提取文本中每个词组的词组特征,对词组特征进行冗余识别处理,以确定每个词组属于非冗余词的概率,根据该概率将所有的词组特征聚合为非冗余文本特征。后续,可以输出非冗余文本特征,也可以基于非冗余文本特征进行文本分类,文本翻译等。
请参见图1,是本申请实施例提供的一种文本处理的系统架构图。本申请涉及服务器10d以及终端设备集群,终端设备集群可以包括:终端设备10a、终端设备10b、...、终端设备10c等。
以终端设备10a为例,终端设备10a获取待处理的文本,将文本发送至服务器10d。服务器10d将文本所包含的N个词组进行编码,得到每个词组对应的词组特征。服务器10d对每个词组进行冗余识别处理,确定每个词组的第一聚合权重,其中第一聚合权重表示词组特征对应的词组属于非冗余词组的概率。根据每个词组特征的第一聚合权重,将N个词组特征聚合为文本的非冗余文本特征。服务器10d可以将识别到的非冗余文本特征反馈至终端设备10a,终端设备10a可以输出文本的非冗余文本特征;或者,终端设备10a可以基于非冗余文本特征进行后处理(例如,文本翻译,文本分类等),再输出后处理结果。
当然,提取词组特征以及提取文本的非冗余文本特征也可以由终端设备集群中的任意终端设备来执行。
图1所示的服务器10d可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。
图1所示的终端设备10a、终端设备10b、终端设备10c等可以是手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(MID,mobile internet device)、可穿戴设备等具有文本处理功能的智能设备。终端设备集群与服务器10d可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
下述以终端设备10a如何确定非冗余文本特征进行详细说明:
请参见图2a-图2d,其是本申请实施例提供的一种文本处理的场景示意图。如图2a所示,终端设备10a获取待处理的文本20a:“回顾一下本人的部分点评,唯一感觉比较欣慰的是可以不用再蹲着或者弯腰收拾行李了。可是这次预定的豪华间,居然又找不到行李架了,一时无语。”文本20a包括语句20b和语句20c,终端设备10a将语句20b划分为多个词组:“回顾/一下/本人/的/部分/点评/,唯一/感觉/比较/欣慰/的/是/可以/不用/再/蹲着/或者/弯腰/收拾/行李/了/。”,以及将语句20c也划分为多个词组:“可是/这次/预/定的/豪华间/,居然/又找/不到/行李架/了,一时/无语/。”
终端设备10a可以首先处理语句20b:终端设备10a从词袋中查找语句20b的每个词组分别对应的词向量,按照顺序将所有词组的词向量组合为编码向量序列。将编码向量序列的第一个词向量输入长短期记忆网络(LonG1 Short-Term Memory,LSTM),以对第一个词向量进行编码,得到t1时刻的词组特征X1;终端设备10a将编码向量序列的第二个词向量以及词组特征X1输入长短期记忆网络,以对第二个词向量进行编码,得到t2时刻的词组特征X2;终端设备10a将编码向量序列的第三个词向量以及词组特征X2输入长短期记忆网络,以对第三个词向量进行编码,得到t3时刻的词组特征X3...不断地对编码向量序列中的词向量进行编码,得到每个词组分别对应的词组特征。
如图2b所示,语句20b中的每个词组都存在与之对应的词组特征Xi。终端设备10a将词组特征X1,X2,...,Xn输入第一GhostVLAD(虚幻聚合描述子向量)模型,第一GhostVLAD模型会根据K1个非冗余词组特征中心和G1个冗余词组特征中心,预测每个词组特征Xi与K1类非冗余词组之间的待归一化概率以及与G1类冗余词组之间的待归一化概率。将K1个待归一化概率和G1个待归一化概率进行归一化,得到每个词组特征Xi的K1个非冗余概率和G1个冗余概率,每个非冗余概率表示对应词组属于某一类非冗余词组的概率,每个冗余概率表示对应词组属于某一类冗余词组的概率。
确定词组特征X1,X2,...,Xn与K1个非冗余词组特征中心之间的残差,将每个词组特征Xi的K1个非冗余概率和残差进行加权聚合,得到语句20b的语句特征V1。
终端设备10a可以再处理语句20c:终端设备10a从词袋中查找语句20c中的每个词组分别对应的词向量,按照顺序将所有词组的词向量组合的编码向量序列。将编码向量序列输入长短期记忆网络,以对每个词向量分别进行编码,得到每个词组分别对应的词组特征。其中,确定语句20c中每个词组的词组特征和前述确定语句20b中每个词组的词组特征的过程相同,只是处理对象不同。
如图2c所示,语句20c中的每个词组都存在与之对应的词组特征Yi。终端设备10a将词组特征Y1,Y2,...,Yn输入第一GhostVLAD模型,第一GhostVLAD模型会预测每个词组特征Yi的K1个非冗余概率和G1个冗余概率,每个非冗余概率表示对应词组属于某一类非冗余词组的概率,每个冗余概率表示对应词组属于某一类冗余词组的概率。确定词组特征Y1,Y2,...,Yn与K1个非冗余词组特征中心之间的残差,将每个词组特征Yi的K1个非冗余概率和残差进行加权聚合,得到语句20c的语句特征V2。其中,确定语句20c的语句特征V2和前述确定语句20b的语句特征V1的过程相同,只是处理对象不同。
至此,终端设备10a通过语句20b的所有词组聚合了语句20b的语句特征V1,以及通过语句20c的所有词组聚合了语句20c的语句特征V2。
终端设备10a确定语句特征V1和确定语句特征V2的顺序没有限定。
如图2d所示,采用相似的方式,再将语句特征V1和语句特征V2进行聚合:终端设备10a将语句特征V1,V2输入第二GhostVLAD模型,第二GhostVLAD模型会根据K2个非冗余语句特征中心和G2个冗余语句特征中心,预测每个语句特征Vi与K2类非冗余语句之间的待归一化概率以及与G2类冗余语句之间的待归一化概率。将K2个待归一化概率和G2个待归一化概率进行归一化,得到每个语句特征Vi的K2个非冗余概率和G2个冗余概率,每个非冗余概率表示对应语句属于某一类非冗余语句的概率,每个冗余概率表示对应语句属于某一类冗余语句的概率。确定语句特征V1,V2与K2个非冗余语句特征中心之间的残差,将每个语句特征Vi的K2个非冗余概率和残差进行加权聚合,得到文本20a的非冗余文本特征Z。
至此,终端设备10a就提取出了文本20a的非冗余文本特征Z。
可以知道,确定非冗余文本特征Z和前述中确定语句20c的语句特征V2和前述确定语句20b的语句特征V1的过程相同,只是处理对象不同。
下面说明如何基于非冗余文本特征Z进行文本分类:
如图2d所示,终端设备10a将文本20a的非冗余文本特征Z输入分类器,该分类器是用于识别文本的情感标签,其中情感标签可以包括:褒义或贬义。通过分类器中的隐藏层的权重矩阵和输出层的权重矩阵,识别到文本20a的情感标签为:贬义。
终端设备10a可以输出文本20a的情感标签:“贬义”。
可选的,提取出文本20a的非冗余文本特征Z后,除了可以用于识别文本的情感标签外,还可以用于文本翻译,生成文本摘要等。可以根据当前的业务需求,在应用场景上作出对应的调整。
由于在特征聚合时,冗余词组特征对非冗余文本特征贡献小,非冗余词组特征对非冗余文本特征贡献大,在特征聚合过程中可以达到去冗余的效果。可以更好地提取文本中有用的信息进行编码表示,对各种利用文本编码进行下游任务的应用起到更好地语义表示作用,从而可以提升各个下游任务的处理效果。
其中,获取待处理的文本(如上述对应实施例中的文本20a),确定N个词组的词组特征(如上述实施例中的语句20b和语句20c中各词组的词组特征),以及确定非冗余文本特征(如上述实施例中的非冗余文本特征Z)的具体过程可以参见下述图3-图8对应的实施例。
请参见图3,是本申请实施例提供的一种文本处理的流程示意图,下述实施例以终端设备为执行主体描述如何对提取文本的非冗余文本特征,文本处理方法可以包括如下步骤:
步骤S101,获取待处理的文本,所述文本包括N个词组,N是正整数。
具体的,终端设备(如上述图2a-图2d对应实施例中的终端设备10a)获取原始文本,其中原始文本是经过了预处理后的文本,预处理可以是指字符简繁转换,英文字符大小写转换,符号全半角转换,重复语句过滤等。
终端设备根据指定符号(指定符号可以是句号,感叹号等)将原始文本切分为多个句子(称为原始语句)。统计每个原始语句的字符数量,将字符数量不小于数量阈值的多个原始语句均作为第一语句。
其中,数量阈值可以是5。通俗来说,只有字符数量大于或等于5的原始语句才可以成为第一语句。
终端设备分别对每个第一语句进行词组数量调整,将词组数量调整后的第一语句都作为第二语句,每个第二语句所包含的词组的词组数量均等于m,m是正整数。
终端设备再对多个第二语句进行语句数量调整,得到当前待处理的文本(如上述图2a-图2d对应实施例中的文本20a),其中待处理的文本包括M个语句,且每个语句包括m个词组,因此,待处理的文本包括N个词组,且N=M×m,其中,M、m和N均是正整数。
下面以目标第一语句为例,说明如何对目标第一语句进行词组数量调整,以得到目标第二语句,目标第一语句是多个第一语句中的任意一个第一语句,目标第二语句是多个第二语句中与目标第一语句对应的第二语句:
终端设备对目标第一语句进行切词处理,确定目标第一语句所包含的词组数量,若该词组数量大于m,则从目标第一语句中删除部分词组,使得词组删除后的目标第一语句包含m个词组。终端设备将词组删除后的目标第一语句作为目标第二语句,当然目标第二语句包括m个词组。
其中,终端设备可以从目标第一语句中随机删除词组,也可以按照从左至右(或者从右至左)的顺序删除词组。
若目标第一语句所包含的词组数量小于m,则获取预设的标记词组[UNK],将标记词组和目标第一语句组合为目标第二语句,当然目标第二语句包括m个词组。
举例来说,假设目标第一语句为:“好好学习,天天向上”,目标第一语句被切分为4个词组,分别为:“好好”,“学习”,“天天”,“向上”。若m=6,因此需要为目标第一语句添加2个标记词组,将2个标记词组和目标第一语句组合为目标第二语句:“[UNK]/[UNK]/好好/学习/,/天天/向上/”。
若目标第一语句所包含的词组数量等于m,终端设备可以不必作任何处理,直接将目标第一语句作为目标第二语句即可。
对多个第二语句进行语句数量调整的具体过程为:
终端设备统计多个第二语句的语句数量,若语句数量大于M,则从多个第二语句中删除部分第二语句,将语句删除后的第二语句组合为待处理的文本。若语句语句数量小于M,则获取标记语句[PAD],将标记语句和多个第二语句组合为文本,其中,标记语句[PAD]可以包括m个标记词组[UNK]。若语句数量等于M,终端设备可以不用作任何处理,直接将多个第二语句作为待处理的文本即可。
举例来说,现有4个第二语句,分别为第二语句1,第二语句2,第二语句3和第二语句4,若M=5,因此,获取1个标记语句[PAD],将标记语句和4个第二语句组合为待处理的文本:“[PAD]//第二语句1//第二语句2//第二语句3//第二语句4//”
步骤S102,对所述N个词组进行编码,得到N个词组特征。
具体的,从前述可知,待处理的文本包括N=M×m个词组,M表示文本的语句数量,m表示每个语句所包含的词组数量。终端设备对这N个词组进行编码,得到每个词组对应的词组特征,即可以得到N个词组特征(如上述图2a-图2d对应实施例中的语句20b和语句20c中各词组的词组特征)。
其中,每个词组特征是一个向量,且向量的维度可以是256维。
对N个词组进行编码的具体过程为:
终端设备获取词袋,词袋包括词组(称为词袋词组)以及每个词袋词组的编码向量。终端设备在词袋中查找每个词组分别对应的编码向量,将查询到的N个编码向量组合为编码向量序列,其中,编码向量序列包括M个单位编码向量序列,每个单位编码向量序列包括m个编码向量。
若文本中的词组是标记词组[UNK],此时标记词组对应的编码向量可以是全0或者全1向量。
换句话说,每个语句的m个编码向量可以被组合为单位编码向量序列,M个单位编码向量序列可以组合为编码向量序列。
其中,词袋中的每个词袋词组对应的编码向量是通过word2vec模型确定的,word2vec模型可以具体是fasttext模型,也可以是cbow模型。
对1个单位编码向量序列来说,终端设备调用词组语义提取模型,对该单位编码向量序列进行编码,得到m个词组特征。对其余单位编码向量采用相同的方式进行编码,即可得到N=M×m个词组特征。
也就是说,词组语义提取模型是通过对每个语句(或者说每个单位编码向量序列)分别进行编码,以得到文本中N个词组的N个词组特征。
词组语义提取模型可以具体是RNN(循环神经网络,Recurrent Neural Network)模型,LSTM(长短期记忆网络,Long Short-Term Memory)模型,Bi-LSTM(双向长短期记忆网络,Bi-directional Long Short-Term Memory)模型,GRU(门控循环神经网络,GatedRecurrent Neural network)模型等。
目标单位编码向量序列是M个单位编码向量序列中的任一单位编码向量序列,当词组语义提取模型为LSTM模型时,词组语义提取模型对目标单位编码向量序列的编码过程为:
目标单位编码向量序列包括第一编码向量和第二编码向量,且第一编码向量和第二编码向量在目标单位编码向量序列中的相邻。
终端设备将第一编码向量xt输入词组语义提取模型,基于词组语义提取模型对第一编码向量xt进行编码,得到t时刻的第一隐藏状态向量ht
词组语义提取模型是采用如下公式(1)进行编码:
Figure BDA0002600515110000111
其中,ht-1表示第t-1时刻输出的隐藏状态向量,ft表示第t时刻的遗忘门输出值,ct表示第t时刻记忆门输出值,ot表示第t时刻输出门输出值,it表示第t时刻输入门输出值。所有的w表示两门之间的权重矩阵。在编码过程中,词组语义提取模型中的参数是共享的,即是在计算每一个时刻的隐藏状态向量h时,上述参数都不变。
终端设备将第二编码向量xt+1和t时刻的第一隐藏状态向量ht输入词组语义提取模型,基于词组语义提取模型(即公式(1))对第二编码向量xt+1进行编码,得到t+1时刻的第二隐藏状态向量ht+1
终端设备将t时刻的第一隐藏状态向量ht作为第一编码向量对应的词组特征,将t+1时刻的第二隐藏状态向量ht+1作为第二编码向量对应的词组特征。
终端设备可以按照相同的编码方式对M个单位编码向量序列分别进行编码,以获取N个256维的词组特征。
请参见图4,其是本申请实施例提供的一种词组语义提取模型的示意图,当前处理的单位编码向量序列包括编码向量x1,编码向量x2,编码向量x3以及编码向量x4。首先将初始隐藏状态向量h0和编码向量x1输入长短期记忆网络,根据公式(1)计算隐藏状态向量h1;将隐藏状态向量h1和编码向量x2输入长短期记忆网络,根据公式(1)计算隐藏状态向量h2;将隐藏状态向量h2和编码向量x3输入长短期记忆网络,根据公式(1)计算隐藏状态向量h3;将隐藏状态向量h3和编码向量x4输入长短期记忆网络,根据公式(1)计算隐藏状态向量h4。其中,隐藏状态向量h1即是编码向量x1对应的词组特征,隐藏状态向量h2即是编码向量x2对应的词组特征,隐藏状态向量h3即是编码向量x3对应的词组特征,隐藏状态向量h4即是编码向量x4对应的词组特征。
步骤S103,对所述N个词组特征分别进行冗余识别处理,确定每个词组特征的第一聚合权重;所述第一聚合权重表示词组特征对应的词组属于非冗余词组的概率。
具体的,设i是不大于N的正整数,终端设备通过调用第一GhostVLAD模型,确定第i个词组特征xi的第一聚合权重。确定第i个词组特征xi的第一聚合权重的具体过程为:
终端设备获取第一GhostVLAD模型的p个非冗余词组特征中心和q个冗余词组特征中心,其中,p和q均是正整数。
根据p个非冗余词组特征中心和第i个词组特征xi,确定第i个词组特征的第一待归一化权重,根据q个冗余词组特征中心和第i个词组特征xi,确定第i个词组特征的第二待归一化权重。
将第一待归一化权重和第二待归一化权重进行归一化处理,将归一化处理后的第一待归一化权重作为第i个词组特征xi的第一聚合权重,将归一化处理后的第二待归一化权重作为第i个词组特征xi的第二聚合权重。
确定第一聚合权重的方式可以用下述公式(2)表示:
Figure BDA0002600515110000121
其中,0<j≤p+q,cj表示第j个词组特征中心,||·||2表示向量模的平方,α是超参数,a(xi,cj)表示第i个词组特征xi对应于第j个词组特征中心的单位聚合权重,前p个单位聚合权重(称为单位第一聚合权重)可以组合为本申请中的第一聚合权重,后q个单位聚合权重(称为单位第二聚合权重)可以组合为本申请中的第二聚合权重。
分析公式(2)可以知道,由于单位第一聚合权重计算的是词组特征和任一非冗余词组特征中心之间的距离,且任一非冗余词组特征中心是由属于同一类的非冗余词组的词组特征聚类训练得到,因此任一单位第一聚合权重可以表示词组特征对应的词组属于某一类非冗余词组的概率,包含p个单位第一聚合权重的第一聚合权重可以表示词组特征对应的词组属于非冗余词组的概率。
再有,由于单位第二聚合权重计算的是词组特征和任一冗余词组特征中心之间的距离,且任一冗余词组特征中心是由属于同一类的冗余词组的词组特征聚类训练得到,因此任一单位第二聚合权重可以表示词组特征对应的词组属于某一类冗余词组的概率,包含q个单位第二聚合权重的第二聚合权重可以表示词组特征对应的词组属于冗余词组的概率。
终端设备可以按照上述方法,确定每个词组特征的第一聚合权重,且每个词组特征的第一聚合权重都包括p个单位第一聚合权重,每个词组特征的任一单位第一聚合权重表示对应的词组属于某一类非冗余词组的概率。
步骤S104,根据每个词组特征的第一聚合权重,将所述N个词组特征聚合为所述文本的非冗余文本特征,输出所述非冗余文本特征。
具体的,从前述可知,N=M×m,因此终端设备可以将N个256维的词组特征看作是M个尺寸为(m,256)的矩阵,且每个矩阵是文本中的一个语句对应的语句特征矩阵。终端设备可以基于第一GhostVLAD模型分别对M个语句特征矩阵进行聚合同时过滤语句中的冗余词,得到M个非冗余语句特征(如上述图2a-图2d对应实施例中的语句特征V1和语句特征V2),每个非冗余语句特征可以是维度为256×p的向量。终端设备可以再基于第二GhostVLAD模型对M个256×p维的非冗余语句特征进行聚合,同时过滤文本中的冗余语句,得到非冗余文本特征(如上述图2a-图2d对应实施例中的非冗余文本特征Z),非冗余文本特征可以是维度为256×p×s的向量。
其中,p是第一GhostVLAD模型中的非冗余词组特征中心的数量,s是第二GhostVLAD模型中的非冗余语义特征中心的数量。
可选的,终端设备可以基于GhostVLAD模型直接对N个语句特征进行聚合同时过滤语句中的冗余词,得到维度为256×p的非冗余文本特征,即是直接对尺寸为(N,256)的矩阵进行聚合,得到维度为256×p的非冗余文本特征。
终端设备聚合得到非冗余文本特征后,可以输出非冗余文本特征。
本申请不要人工参与,由终端设备自动识别文本中的每个词组属于非冗余词组的概率,将概率作为聚合权重,进而根据聚合权重将所有词组的词组特征聚合为文本的非冗余特征,由于在特征聚合时,冗余词组特征对非冗余文本特征贡献小,非冗余词组特征对非冗余文本特征贡献大,在特征聚合过程中可以达到去冗余的效果。避免由人工识别冗余词组所带来的效率低下的情况,提高提取非冗余文本特征的效率。
请参见图5,图5是本申请实施例提供的一种文本处理的流程示意图,文本处理包括步骤S201-步骤S204,且步骤S201-步骤S204是上述图3对应实施例中的步骤S104的具体实施例:
步骤S201,根据每个语句的m个词组特征的第一聚合权重,将每个语句的m个词组特征分别聚合为非冗余语句特征。
具体的,从前述可知,N=M×m,因此终端设备可以将N个256维的词组特征看作是M个尺寸为(m,256)的矩阵,且每个矩阵是文本中的一个语句对应的语句特征矩阵。终端设备可以基于第一GhostVLAD模型分别对M个语句特征矩阵进行聚合同时过滤语句中的冗余词,得到M个非冗余语句特征,每个非冗余语句特征可以是维度为256×p的向量。
下面以目标语句的语句特征矩阵(即是(m,256)的矩阵)为例,说明如何将目标语句的m个词组特征聚合为非冗余语句特征(称为目标非冗余语句特征),其中目标语句是M个语句中的任一语句:
终端设备根据目标语句的语句特征矩阵(即是m个256维的词组特征)和p个非冗余词组特征中心,确定词组残差,将词组残差和目标语句的m个词组特征的第一聚合权重进行加权聚合,得到非冗余语句特征矩阵,其中非冗余语句特征矩阵的尺寸可以为(256,p),将非冗余语句特征矩阵转换为目标非冗余语句特征,且目标非冗余语句特征是维度为256×p的向量。
确定非冗余语句特征矩阵的方式可以用下述公式(3)表示:
Figure BDA0002600515110000141
其中,V(f,p)表示非冗余语句特征矩阵,xi(f)表示语句的第i个词组特征xi的第f维,cp(f)表示第p个非冗余词组特征中心的第f维,a(xi,cp)表示语句的第i个词组特征xi的第一聚合权重中第p个单位第一聚合权重。(xi(f)-cp(f))表示词组残差。
在此处再次强调,语句特征矩阵的尺寸为(m,256),非冗余语句特征是256×p维的向量,可以认为从m个词组特征到非冗余语句特征完成了一个数据降维处理,只是在降维过程中,还过滤了冗余词组。
分析公式(3)和公式(2)可以知道,q个冗余词组特征中心的作用是让冗余词组可以归类在这类中心上,从而在确定非冗余词组概率的时候,对实际的p类非冗余词组的得分都降低。比如说,x在原有p类非冗余词组上的得分分别为0.3,0.3,0.4,加入了q类冗余词组之后,x在p类非冗余词组上的得分表示为0.2,0.2,0.3,所以减弱了这个影响,因此冗余词组的词组特征对聚合得到的非冗余语句特征的贡献较小,可以达到去冗余的目的。
终端设备可以采用相同的方式确定每个语句的语句特征矩阵(即是m个词组特征)对应的非冗余语句特征,可以得到M个256×p维的非冗余语句特征。
请参见图6,其是本申请实施例提供的一种GhostVLAD模型示意图,向模型输入的X1,X2,...Xm可以对应本申请中的词组特征或者语义特征,下面以X1,X2,...Xm表示一个语句的m个词组特征为例进行说明:经过概率预测模块Wx+b以及归一化模块softmax()预测每个词组特征对应的p个单位第一聚合权重和q个单位第二聚合权重。任一单位第一聚合权重表示词组特征对应的词组属于某一类非冗余词组的概率,任一单位第二聚合权重表示词组特征对应的词组属于某一冗余词组的概率。提取出p个单位第一聚合权重而过滤q个单位第二聚合权重,也就是说,只有p个单位第一聚合权重会参与后续的特征聚合,q个单位第二聚合权重不会参与后续的特征聚合,过滤q个单位第二聚合权重即对应图5中的Ghost去除模块。残差计算模块用于计算每个词组特征和p个非冗余词组特征中心之间的残差,将计算到的残差和每个词组特征对应的p个单位第一聚合权重进行加权聚合,得到特征矩阵,将特征矩阵转换为一维向量,并经过L2正则,得到m个词组特征聚合而成的语句特征V。
步骤S202,调用语句语义提取模型,对所述M个非冗余语句特征进行编码,得到M个语义特征。
具体的,终端设备通过调用语句语义提取模型,对M个非冗余语句特征分别进行编码,以得到M个语句的M个语义特征。语句语义提取模型可以具体是RNN模型,LSTM模型,Bi-LSTM模型,GRU模型。终端设备将第一个语句的非冗余语句特征输入语句语义提取模型,基于语句语义提取模型对第一个语句的非冗余语句特征进行编码,得到第一个语句的语义特征;终端设备将第二个语句的非冗余语句特征和第一个语句的语义特征输入语句语义提取模型,基于语句语义提取模型对第二个语句的非冗余语句特征进行编码,得到第二个语句的语义特征,不断循环,直至对M个非冗余语句特征都编码完毕,得到M个语义特征,每个语义特征是维度为256×p的向量。换句话说,通过语句语义提取模型所提取的语义特征并没有改变数据的维度。
步骤S203,对所述M个语义特征分别进行冗余识别处理,确定每个语义特征的第三聚合权重;所述第三聚合权重表示语义特征对应的语句属于非冗余语句的概率。
具体的,设k是不大于M的正整数,终端设备通过调用第二GhostVLAD模型,以确定第k个语义特征yk的第三聚合权重,确定第k个语义特征yk的第三聚合权重的具体过程为:
终端设备获取第二GhostVLAD模型的s个非冗余语义特征中心和t个冗余语义特征中心,其中,s和t均是正整数。
根据s个非冗余语义特征中心和第k个语义特征yk,确定第k个语义特征的第三待归一化权重,根据t个冗余语义特征中心和第k个语义特征yk,确定第k个语义特征的第四待归一化权重。
将第三待归一化权重和第四待归一化权重进行归一化处理,将归一化处理后的第三待归一化权重作为k个语义特征yk的第三聚合权重,将归一化处理后的第四待归一化权重作为第k个语义特征yk的第四聚合权重。
确定第三聚合权重的方式可以用下述公式(4)表示:
Figure BDA0002600515110000161
其中,0<d≤t+s,cd表示第d个语义特征中心,||·||2表示向量模的平方,α是超参数,a(yk,cd)表示第k个语义特征yk对应于第d个语义特征中心的单位聚合权重,前s个单位聚合权重(称为单位第三聚合权重)可以组合为本申请中的第三聚合权重,后t个单位聚合权重(称为单位第四聚合权重)可以组合为本申请中的第四聚合权重。
分析公式(4)可以知道,由于单位第三聚合权重计算的是语义特征和任一非冗余语义特征中心之间的距离,且任一非冗余语义特征中心是由属于同一类的非冗余语句的语义特征聚类训练得到,因此任一单位第三聚合权重可以表示语义特征对应的语句属于某一类非冗余语句的概率,包含s个单位第三聚合权重的第三聚合权重可以表示语义特征对应的语句属于非冗余语句的概率。
再有,由于单位第四聚合权重计算的是语义特征和任一冗余语义特征中心之间的距离,且任一冗余语义特征中心是由属于同一类的冗余语句的语义特征聚类训练得到,因此任一单位第四聚合权重可以表示语义特征对应的语句属于某一类冗余语句的概率,包含t个单位第四聚合权重的第四聚合权重可以表示语义特征对应的语句属于冗余语句的概率。
终端设备可以按照上述方法,确定每个语义特征的第三聚合权重,且每个语义特征的第三聚合权重都包括s个单位第三聚合权重,每个语义特征的任一单位第三聚合权重表示对应的语句属于某一类非冗余语句的概率。
步骤S204,根据每个语义特征的第三聚合权重,将所述M个语义特征聚合为所述非冗余文本特征。
具体的,M个256×p维的语义特征可以看作(M,256×p)的矩阵,且这个矩阵是文本的文本特征矩阵,终端设备可以基于第二GhostVLAD模型将文本特征矩阵(M,256×p)再进行聚合同时过滤文本中的冗余语句,得到待处理文本的非冗余文本特征,且非冗余文本特征可以是维度为256×p×d的向量。
终端设备根据文本特征矩阵(即是M个256×p维的语义特征)和s个非冗余语义特征中心,确定语句残差,将语句残差和M个语义特征的第三聚合权重进行加权聚合,得到非冗余文本特征矩阵,其中非冗余文本特征矩阵的尺寸为(256×p,s),将非冗余文本特征矩阵转换为非冗余文本特征,且该非冗余文本特征是维度为256×p×s的向量。
确定非冗余文本特征矩阵的方式可以用下述公式(5)表示:
Figure BDA0002600515110000171
其中,V(f,s)表示非冗余文本特征矩阵,yk(f)表示第k个语义特征yk的第f维,cs(f)表示第s个非冗余语义特征中心的第f维,a(yk,cs)表示第k个语义特征yk的第三聚合权重中第s个单位第三聚合权重。(yk(f)-cs(f))表示语句残差。
在此处再次强调,文本特征矩阵的尺寸为(M,256×p),非冗余文本特征是256×p×s维的向量,可以认为从M个语义特征到非冗余文本特征完成了一个数据降维处理,只是在降维过程中,还过滤了冗余语句。
分析公式(4)和公式(5)可以知道,t个冗余语义特征中心的作用是让冗余语句可以归类在这类中心上,从而在确定非冗余语句概率的时候,对实际的s类非冗余语句的得分都降低。比如说,y在原有s类非冗余词组上的得分分别为0.3,0.3,0.4,加入了t类冗余语句之后,y在s类非冗余语句上的得分表示为0.2,0.2,0.3,所以减弱了这个影响,因此冗余语句的语义特征对聚合得到的非冗余文本特征的贡献较小,可以达到去冗余的目的。
可见,本申请不止过滤了文本中的冗余词组,还过滤的文本中的冗余语句,提升了对文本特征的提取能力,更好地表达了文本特征。
可选的,终端设备获取到非冗余文本特征后,可以基于非冗余文本特征进行文本分类,文本翻译等。
基于非冗余文本特征进行文本分类的具体过程为:终端设备将非冗余文本特征输入分类器,基于分类器中的隐藏层矩阵和输出层矩阵,确定待处理文本与多个文本类型之间的匹配概率,将匹配概率最大的文本类型作为待处理的文本的的文本类型(如上述图2a-图2d对应实施例中的情感标签:“贬义”)。
基于非冗余文本特征进行文本翻译的具体过程为:调用语句解码模型对非冗余文本特征进行解码处理,解码处理就是语义编码处理的逆向过程。在t10时刻,将非冗余文本特征作为初始隐藏状态h10,将初始隐藏状态h10以及M个语句中的第一个语句的语义特征输入语句解码模型,语句解码模型输出t11时刻的隐藏状态h11;将t11时刻隐藏状态h11以及M个语句中的第二个语句的语义特征输入语句解码模型,语句解码模型输出的t12时刻隐藏状态h12...将最后一个隐藏状态h1M又作为初始隐藏状态h20,将初始隐藏状态h20以及N个词组中的第一个词组的词组特征输入词组解码模型,词组解码模型输出的t21时刻隐藏状态h21;将t21时刻隐藏状态h21以及N个词组中的第二个词组的词组特征输入词组解码模型,词组解码模型输出的t22时刻隐藏状态h22。将中间过程得到的隐藏状态:h21、h22、...、h2N,根据公式(6)分别作线性变换,可以得到每个词组的解码向量yn
yn=f(Whn+c) (6)
其中,W是词组解码模型中隐藏层和输出层之间权重矩阵,c是一个偏移向量。词组解码模型的输出层是一个分类器(分类函数),可以计算每个解码向量yn的概率分布,换句话说,就是计算每个解码向量yn与分类器中各个词组的匹配概率,当然匹配概率越大,说明解码向量yn与该词组就越匹配。分别将匹配概率大于预设的匹配阈值的词组作为标准词组,或者将匹配概率最大的词组作为标准词组。其中,标准词组和待处理文本中的词组属于不同的语言类型。
终端设备将所有的标准词组组合为翻译文本,输出翻译文本。
需要说明的是,非冗余文本特征除了可以用于文本分类和文本翻译以外,还可以用于文本摘要生成,智能问答等应用领域。
上述可知,本申请提出了一种端到端模型进行语义冗余过滤,一方面端到端特性不需要人工参与,实现自动化冗余过滤;另一方面,本申请不依赖于先验知识库和规则等,直接将文本作为输入,适用范围广泛;本申请引入用于视频分类的聚合技术GhostVLAD应用于文本冗余词的过滤中,旨在过滤“语义模糊”的文本信息,对于文本编码后的语义表示信息蕴含了文本压缩后的特征编码,其中文本编码越有用越对下游任务有利,因此本申请能够更好地完成文本特征编码的表示和语义抽取;进一步,在文本进行特征编码和聚合的同时完成冗余信息过滤,可以进一步丰富文本的特征表达。
请参见图7,图7是本申请实施例提供的一种文本处理的流程示意图,输入为经过预处理后的文本,此处的预处理是指字符简繁转换,英文字符大小写转换,符号全半角转换,重复语句过滤,词组数量调整和语句数量调整。文本编码层可以将文本的每个词组转换成稠密的数字编码,输出格式为(M,m,h1)的矩阵,其中M表示文本包含M个语句,m表示每个语句包括m个词组,h1表示每个词组的编码长度。文本特征编码层和文本聚合层完成句子的特征编码,输入为(m,h1)的矩阵,输出为(h2,1)的句子编码向量,这里M个语句并行处理。文档特征编码层和文档聚合层完成文本的特征编码,输入是由M个语句的句子向量组合而成的矩阵,尺寸为(M,h2),输出为(h3,1)的文档编码向量,该文档编码向量即是本申请的非冗余文本特征。
请参见图8,其是本申请实施例提供的一种文本编码网络的结构示意图,获取文档,词编码层可以对应图7中的文本编码层,文本编码层将句子分词后的每个词组编码成数字向量表示,方便计算机处理,同时文本编码层引入文本的语义信息,帮助模型的学习。编码方式可依任务而定,例如word2vec模型或glove模型均可以用于文本编码层,以将词组编码编码为向量。两种编码方式都是将词组编码成固定长度的向量,例如形状为(300,1)的向量。词编码层输出M个尺寸为(m,h1)的矩阵。
图8中的文本编码+聚合可以对应图7中的文本特征编码层和文本聚合层,文本特征编码层完成句子语义信息和时序信息的提取。文本特征编码层的结构可以利用处理包含时序信息数据的常用结构,例如CNN结构,即convolutional neural network;LSTM结构,即Long Short-Term Memory结构,Transformer的encoder结构。文本特征编码层输出M个尺寸为(m,h1')的矩阵。
文本聚合层将每个尺寸为(m,h1')的矩阵聚合成句子向量,同时完成冗余词的过滤,本申请采用第一GhostVLAD完成。文本聚合层的输入是(m,h1')的矩阵,最终输出(h2,1)的句子编码向量。M个(m,h1')的矩阵并行聚合,得到M个句子的的句子编码向量(h2,1)。
图8中的文档编码+聚合可以对应图7中的文档特征编码层和文档聚合层,将M个经过聚合层聚合的句子编码向量拼接成形状为(M,h2)的文档矩阵,然后再次进行特征提取和聚合,以整合文档的语义特征。文档特征编码层的计算过程和文本特征编码层的计算过程类似,文档聚合层的计算过程和文本聚合层的计算过程类似。首先将形状为(M,h2)的文档矩阵通过文档特征编码层编码为尺寸为(M,h2')的文档编码矩阵,再通过文档聚合层将尺寸为(M,h2')的文档编码矩阵聚合成形状为(h3,1)的文档编码向量,该向量即代表文档的非冗余文本特征,该特征可以用于各项下游任务。
图8中的输出可以对应图7中的输出层,可以直接输出非冗余文本特征,进一步地,输出层的设计与下游任务有关。若为分类任务时,输入是形状为(h3,1)的文档编码向量,输出是固定数量dy个类别,则输出层可以是形状为(h3,dy)的全连接层加上softmax层,最终的输出为(dy,1)的向量;若为回归任务时,即通过模型学习将输入数据回归成某一个指标,则输出层可以是形状为(h3,1)的全连接层加上sigmoid层,最终的输出为(1,1)的标量。
进一步的,请参见图9,是本申请实施例提供的一种文本处理装置的结构示意图。如图9所示,文本处理装置1可以应用于上述图3-图8对应实施例中的终端设备。文本处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该文本处理装置为一个应用软件;该装置可以用于执行本申请实施例提供的方法中的相应步骤。
文本处理装置1可以包括:获取模块11、编码模块12、识别模块13、聚合模块14以及输出模块15。
获取模块11,用于获取待处理的文本,所述文本包括N个词组,N是正整数;
编码模块12,用于对所述N个词组进行编码,得到N个词组特征;
识别模块13,用于对所述N个词组特征分别进行冗余识别处理,确定每个词组特征的第一聚合权重;所述第一聚合权重表示词组特征对应的词组属于非冗余词组的概率;
聚合模块14,用于根据每个词组特征的第一聚合权重,将所述N个词组特征聚合为所述文本的非冗余文本特征;
输出模块15,用于输出所述非冗余文本特征。
在一种实施方式中,设i是不大于N的正整数;
识别模块13在用于对第i个词组特征进行冗余识别处理,确定第i个词组特征的第一聚合权重时,具体用于:对第i个词组特征进行冗余识别处理,得到第i个词组特征的第一待归一化权重和第二待归一化权重,将所述第一待归一化权重和所述第二待归一化权重进行归一化处理,将归一化处理后的第一待归一化权重作为第i个词组特征第一聚合权重。
在一种实施方式中,识别模块13在用于对第i个词组特征进行冗余识别处理,得到第i个词组特征的第一待归一化权重和第二待归一化权重时,具体用于:
获取p个非冗余词组特征中心和q个冗余词组特征中心;p和q是正整数;
根据所述p个非冗余词组特征中心和第i个词组特征,确定第i个词组特征的第一待归一化权重,根据所述q个冗余词组特征中心和第i个词组特征,确定第i个词组特征的第二待归一化权重。
在一种实施例方式中,编码模块12,具体用于:
获取词袋,所述词袋包括多个词袋词组以及每个词袋词组的编码向量;
在所述词袋中查询与每个词组分别对应的编码向量,将查询的N个编码向量组合为编码向量序列;
调用词组语义提取模型,对所述编码向量序列编码,得到N个词组特征。
其中,获取模块11、编码模块12、识别模块13、聚合模块14以及输出模块15的具体功能实现方式可以参见上述图3对应实施例中的步骤S101-步骤S104,这里不再进行赘述。
再参见图9,在一种实施方式中,所述文本包括M个语句,每个语句包括m个词组,M和m是正整数;
所述聚合模块14,可以包括:第一聚合单元141和第二聚合单元142。
第一聚合单元141,用于根据每个语句的m个词组特征的第一聚合权重,将每个语句的m个词组特征分别聚合为非冗余语句特征;
第二聚合单元142,用于将M个非冗余语句特征聚合为所述文本的非冗余文本特征。
在一种实施例方式中,设目标语句是M个语句中的任一语句,目标非冗余语句特征是M个非冗余语句特征中与所述目标语句对应的非冗余语句特征;
第一聚合单元141在用于根据目标语句的m个词组特征的第一聚合权重,将目标语句的m个词组特征聚合为目标非冗余语句特征时,具体用于:根据目标语句的m个词组特征和所述p个非冗余词组特征中心,确定词组残差,将所述词组残差和目标语句的m个词组特征的第一聚合权重进行加权聚合,得到所述目标非冗余语句特征。
在一种实施例方式中,所述第二聚合单元142在用于将M个非冗余语句特征聚合为所述文本的非冗余文本特征时,具体用于:
调用语句语义提取模型,对所述M个非冗余语句特征进行编码,得到M个语义特征;
对所述M个语义特征分别进行冗余识别处理,确定每个语义特征的第三聚合权重;所述第三聚合权重表示语义特征对应的语句属于非冗余语句的概率;
根据每个语义特征的第三聚合权重,将所述M个语义特征聚合为所述非冗余文本特征。
在一种实施例方式中,设k是不大于M的正整数;
第二聚合单元142在用于对第k个语义特征进行冗余识别处理,确定第k个语义特征的第三聚合权重时,具体用于:
获取s个非冗余语义特征中心和t个冗余语义特征中心;s和t是正整数;
根据所述s个非冗余语义特征中心和第k个语义特征,确定第k个语义特征的第三待归一化权重,根据所述t个冗余语义特征中心和第k个语义特征,确定第k个语义特征的第四待归一化权重;
将所述第三待归一化权重和所述第四待归一化权重进行归一化处理,将归一化处理后的第三待归一化权重作为第k个语义特征的第三聚合权重。
在一种实施例方式中,第二聚合单元142在用于根据每个语义特征的第三聚合权重,将所述M个语义特征聚合为所述非冗余文本特征时,具体用于:
根据所述M个语义特征和所述s个非冗余语义特征中心,确定语句残差,将所述语句残差和每个语义特征的第三聚合权重进行加权聚合,得到所述非冗余文本特征。
其中,第一聚合单元141和第二聚合单元142的具体功能实现方式可以参见上述图5对应实施例中的步骤S201-步骤S204,这里不再进行赘述。
请参见图9,在一个实施例中,所述文本包括M个语句,每个语句包括m个词组,M和m是正整数;
所述获取模块11,可以包括:获取单元111、第一调整单元112和第二调整单元113。
获取单元111,用于获取原始文本,将所述原始文本划分为多个原始语句,确定每个原始语句的字符数量,将字符数量不小于数量阈值的多个原始语句均作为第一语句;
第一调整单元112,用于分别对每个第一语句进行词组数量调整,得到多个第二语句;每个第二语句的词组数量为m;
第二调整单元113,用于对多个第二语句进行语句数量调整,得到所述待处理的文本。
在一个实施例中,设目标第一语句是第一语句集合中的任一第一语句,目标第二语句是多个第二语句中与所述目标第一语句对应的第二语句;
第一调整单元112在用于对目标第一语句进行词组数量调整,得到目标第二语句时,具体用于:
确定所述目标第一语句的词组数量;
若所述词组数量大于所述m,则对所述目标第一语句进行词组删除处理,得到所述目标第二语句;
若所述词组数量小于所述m,则获取标记词组,将所述标记词组和所述目标第一语句组合为所述目标第二语句。
在一个实施例中,所述第二调整单元113,具体用于:
确定多个第二语句的语句数量;
若所述语句数量大于所述M,则对所述多个第二语句进行语句删除处理,将删除后的第二语句组合为所述文本;
若所述语句数量小于所述M,则获取标记语句,将所述标记语句和所述多个第二语句组合为所述文本。
其中,获取单元111、第一调整单元112和第二调整单元113的具体功能实现方式可以参见上述图3对应实施例中的步骤S101,这里不再进行赘述。
进一步地,请参见图10,是本发明实施例提供的一种计算机设备的结构示意图。上述图3-图8对应实施例中的终端设备可以为计算机设备1000,如图10所示,计算机设备1000可以包括:用户接口1002、处理器1004、编码器1006以及存储器1008。信号接收器1016用于经由蜂窝接口1010、WIFI接口1012、...、或NFC接口1014接收或者发送数据。编码器1006将接收到的数据编码为计算机处理的数据格式。存储器1008中存储有计算机程序,处理器1004被设置为通过计算机程序执行上述任一项方法实施例中的步骤。存储器1008可包括易失性存储器(例如,动态随机存取存储器DRAM),还可以包括非易失性存储器(例如,一次性可编程只读存储器OTPROM)。在一些实例中,存储器1008可进一步包括相对于处理器1004远程设置的存储器,这些远程存储器可以通过网络连接至计算机设备1000。用户接口1002可以包括:键盘1018和显示器1020。
在图10所示的计算机设备1000中,处理器1004可以用于调用存储器1008中存储计算机程序,以实现:
获取待处理的文本,所述文本包括N个词组,N是正整数;
对所述N个词组进行编码,得到N个词组特征;
对所述N个词组特征分别进行冗余识别处理,确定每个词组特征的第一聚合权重;所述第一聚合权重表示词组特征对应的词组属于非冗余词组的概率;
根据每个词组特征的第一聚合权重,将所述N个词组特征聚合为所述文本的非冗余文本特征,输出所述非冗余文本特征。
应当理解,本发明实施例中所描述的计算机设备1000可执行前文图3到图8所对应实施例中对文本处理方法的描述,也可执行前文图9所对应实施例中对文本处理装置1的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本发明实施例还提供了一种计算机存储介质,且计算机存储介质中存储有前文提及的文本处理装置1所执行的计算机程序,且该计算机程序包括程序指令,当处理器执行上述程序指令时,能够执行前文图3到图8所对应实施例中的方法,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本发明所涉及的计算机存储介质实施例中未披露的技术细节,请参照本发明方法实施例的描述。作为示例,程序指令可以被部署在一个计算机设备上,或者在位于一个地点的多个计算机设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算机设备上执行,分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链系统。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备可以执行前文图3到图8所对应实施例中的方法,因此,这里将不再进行赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,上述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (14)

1.一种文本处理方法,其特征在于,包括:
获取待处理的文本,所述文本包括N个词组,N是正整数;
对所述N个词组进行编码,得到N个词组特征;
对所述N个词组特征分别进行冗余识别处理,确定每个词组特征的第一聚合权重;所述第一聚合权重表示词组特征对应的词组属于非冗余词组的概率;其中,所述N个词组特征中的第i个词组特征的第一聚合权重是由对所述第i个词组特征进行冗余识别,得到的第i个词组特征的第一待归一化权重和第二待归一化权重所确定的;i是不大于N的正整数;
根据每个词组特征的第一聚合权重,将所述N个词组特征聚合为所述文本的非冗余文本特征,输出所述非冗余文本特征;
其中,所述对第i个词组特征进行冗余识别处理,得到第i个词组特征的第一待归一化权重和第二待归一化权重,包括:
获取第一GhostVLAD模型的p个非冗余词组特征中心和q个冗余词组特征中心;p和q是正整数;
根据所述p个非冗余词组特征中心和第i个词组特征,确定第i个词组特征的第一待归一化权重,根据所述q个冗余词组特征中心和第i个词组特征,确定第i个词组特征的第二待归一化权重。
2.根据权利要求1所述的方法,其特征在于,对第i个词组特征进行冗余识别处理,确定第i个词组特征的第一聚合权重,包括:
对第i个词组特征进行冗余识别处理,得到第i个词组特征的第一待归一化权重和第二待归一化权重;
将所述第一待归一化权重和所述第二待归一化权重进行归一化处理,将归一化处理后的第一待归一化权重作为第i个词组特征第一聚合权重。
3.根据权利要求1所述的方法,其特征在于,所述文本包括M个语句,每个语句包括m个词组,M和m是正整数;
所述根据每个词组特征的第一聚合权重,将所述N个词组特征聚合为所述文本的非冗余文本特征,包括:
根据每个语句的m个词组特征的第一聚合权重,将每个语句的m个词组特征分别聚合为非冗余语句特征;
将M个非冗余语句特征聚合为所述文本的非冗余文本特征。
4.根据权利要求3所述的方法,其特征在于,设目标语句是M个语句中的任一语句,目标非冗余语句特征是M个非冗余语句特征中与所述目标语句对应的非冗余语句特征;
根据目标语句的m个词组特征的第一聚合权重,将目标语句的m个词组特征聚合为目标非冗余语句特征,包括:
根据目标语句的m个词组特征和所述p个非冗余词组特征中心,确定词组残差,将所述词组残差和目标语句的m个词组特征的第一聚合权重进行加权聚合,得到所述目标非冗余语句特征。
5.根据权利要求3所述的方法,其特征在于,所述将M个非冗余语句特征聚合为所述文本的非冗余文本特征,包括:
调用语句语义提取模型,对所述M个非冗余语句特征进行编码,得到M个语义特征;
对所述M个语义特征分别进行冗余识别处理,确定每个语义特征的第三聚合权重;所述第三聚合权重表示语义特征对应的语句属于非冗余语句的概率;
根据每个语义特征的第三聚合权重,将所述M个语义特征聚合为所述非冗余文本特征。
6.根据权利要求5所述的方法,其特征在于,设k是不大于M的正整数;
对第k个语义特征进行冗余识别处理,确定第k个语义特征的第三聚合权重,包括:
获取s个非冗余语义特征中心和t个冗余语义特征中心;s和t是正整数;
根据所述s个非冗余语义特征中心和第k个语义特征,确定第k个语义特征的第三待归一化权重,根据所述t个冗余语义特征中心和第k个语义特征,确定第k个语义特征的第四待归一化权重;
将所述第三待归一化权重和所述第四待归一化权重进行归一化处理,将归一化处理后的第三待归一化权重作为第k个语义特征的第三聚合权重。
7.根据权利要求5所述的方法,其特征在于,所述根据每个语义特征的第三聚合权重,将所述M个语义特征聚合为所述非冗余文本特征,包括:
根据所述M个语义特征和s个非冗余语义特征中心,确定语句残差,将所述语句残差和每个语义特征的第三聚合权重进行加权聚合,得到所述非冗余文本特征。
8.根据权利要求1所述的方法,其特征在于,所述对所述N个词组进行编码,得到N个词组特征,包括:
获取词袋,所述词袋包括多个词袋词组以及每个词袋词组的编码向量;
在所述词袋中查询与每个词组分别对应的编码向量,将查询的N个编码向量组合为编码向量序列;
调用词组语义提取模型,对所述编码向量序列编码,得到N个词组特征。
9.根据权利要求1所述的方法,其特征在于,所述文本包括M个语句,每个语句包括m个词组,M和m是正整数;
所述获取待处理的文本,包括:
获取原始文本,将所述原始文本划分为多个原始语句,确定每个原始语句的字符数量,将字符数量不小于数量阈值的多个原始语句均作为第一语句;
分别对每个第一语句进行词组数量调整,得到多个第二语句;每个第二语句的词组数量为m;
对多个第二语句进行语句数量调整,得到所述待处理的文本。
10.根据权利要求9所述的方法,其特征在于,设目标第一语句是第一语句集合中的任一第一语句,目标第二语句是多个第二语句中与所述目标第一语句对应的第二语句;
对目标第一语句进行词组数量调整,得到目标第二语句,包括:
确定所述目标第一语句的词组数量;
若所述词组数量大于所述m,则对所述目标第一语句进行词组删除处理,得到所述目标第二语句;
若所述词组数量小于所述m,则获取标记词组,将所述标记词组和所述目标第一语句组合为所述目标第二语句。
11.根据权利要求9所述的方法,其特征在于,所述对多个第二语句进行语句数量调整,得到所述待处理的文本,包括:
确定多个第二语句的语句数量;
若所述语句数量大于所述M,则对所述多个第二语句进行语句删除处理,将删除后的第二语句组合为所述文本;
若所述语句数量小于所述M,则获取标记语句,将所述标记语句和所述多个第二语句组合为所述待处理的文本。
12.一种文本处理装置,其特征在于,包括:
获取模块,用于获取待处理的文本,所述文本包括N个词组,N是正整数;
编码模块,用于对所述N个词组进行编码,得到N个词组特征;
识别模块,用于对所述N个词组特征分别进行冗余识别处理,确定每个词组特征的第一聚合权重;所述第一聚合权重表示词组特征对应的词组属于非冗余词组的概率;其中,所述N个词组特征中的第i个词组特征的第一聚合权重是由对所述第i个词组特征进行冗余识别,得到的第i个词组特征的第一待归一化权重和第二待归一化权重所确定的;i是不大于N的正整数;
聚合模块,用于根据每个词组特征的第一聚合权重,将所述N个词组特征聚合为所述文本的非冗余文本特征;
输出模块,用于输出所述非冗余文本特征;
其中,所述识别模块还用于获取第一GhostVLAD模型的p个非冗余词组特征中心和q个冗余词组特征中心;p和q是正整数;
所述识别模块还用于根据所述p个非冗余词组特征中心和第i个词组特征,确定第i个词组特征的第一待归一化权重,根据所述q个冗余词组特征中心和第i个词组特征,确定第i个词组特征的第二待归一化权重。
13.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1-11中任一项所述方法的步骤。
14.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时,执行权利要求1-11任一项所述的方法。
CN202010722468.7A 2020-07-24 2020-07-24 文本处理方法、装置、计算机设备以及存储介质 Active CN111767697B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010722468.7A CN111767697B (zh) 2020-07-24 2020-07-24 文本处理方法、装置、计算机设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010722468.7A CN111767697B (zh) 2020-07-24 2020-07-24 文本处理方法、装置、计算机设备以及存储介质

Publications (2)

Publication Number Publication Date
CN111767697A CN111767697A (zh) 2020-10-13
CN111767697B true CN111767697B (zh) 2021-09-28

Family

ID=72727055

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010722468.7A Active CN111767697B (zh) 2020-07-24 2020-07-24 文本处理方法、装置、计算机设备以及存储介质

Country Status (1)

Country Link
CN (1) CN111767697B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113468880A (zh) * 2021-07-20 2021-10-01 北京字跳网络技术有限公司 一种冗余词过滤方法及其相关设备
CN113641798B (zh) * 2021-10-12 2022-02-08 成都晓多科技有限公司 一种针对商家的扰乱性评论的识别方法及系统
CN116030988A (zh) * 2022-12-28 2023-04-28 北京融威众邦电子技术有限公司 一种用于医院智能化服务设备及其使用方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106503231B (zh) * 2016-10-31 2020-02-04 北京百度网讯科技有限公司 基于人工智能的搜索方法和装置
CN108733682B (zh) * 2017-04-14 2021-06-22 华为技术有限公司 一种生成多文档摘要的方法及装置
CN110019792A (zh) * 2017-10-30 2019-07-16 阿里巴巴集团控股有限公司 文本分类方法及装置和分类器模型训练方法
CN109189989B (zh) * 2018-07-23 2020-11-03 北京市商汤科技开发有限公司 一种视频描述方法及装置、计算机设备和存储介质
CN110807312A (zh) * 2019-10-10 2020-02-18 南京摄星智能科技有限公司 一种基于神经网络模型和规则结合的冗余表达去除方法
CN111191450B (zh) * 2019-12-27 2023-12-01 深圳市优必选科技股份有限公司 语料清洗方法、语料录入设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN111767697A (zh) 2020-10-13

Similar Documents

Publication Publication Date Title
CN108959246B (zh) 基于改进的注意力机制的答案选择方法、装置和电子设备
CN107590192B (zh) 文本问题的数学化处理方法、装置、设备和存储介质
CN108427771B (zh) 摘要文本生成方法、装置和计算机设备
CN111914067B (zh) 中文文本匹配方法及系统
CN112818861B (zh) 一种基于多模态上下文语义特征的情感分类方法及系统
CN111767697B (zh) 文本处理方法、装置、计算机设备以及存储介质
CN108153913B (zh) 回复信息生成模型的训练方法、回复信息生成方法及装置
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN109740158B (zh) 一种文本语义解析方法及装置
CN113723166A (zh) 内容识别方法、装置、计算机设备和存储介质
CN115455171B (zh) 文本视频的互检索以及模型训练方法、装置、设备及介质
CN113435208A (zh) 学生模型的训练方法、装置及电子设备
CN112417855A (zh) 文本意图识别方法、装置以及相关设备
CN116543768A (zh) 模型的训练方法、语音识别方法和装置、设备及存储介质
CN111597341A (zh) 一种文档级关系抽取方法、装置、设备及存储介质
CN112989120A (zh) 一种视频片段查询系统和视频片段查询方法
CN111859979A (zh) 讽刺文本协同识别方法、装置、设备及计算机可读介质
CN118113815B (zh) 内容搜索方法、相关装置和介质
CN109979461B (zh) 一种语音翻译方法及装置
CN116050352A (zh) 文本编码方法和装置、计算机设备及存储介质
CN111737406A (zh) 文本检索方法、装置及设备、文本检索模型的训练方法
CN113420111A (zh) 一种用于多跳推理问题的智能问答方法及装置
CN113421551A (zh) 语音识别方法、装置、计算机可读介质及电子设备
CN116913278A (zh) 语音处理方法、装置、设备和存储介质
CN116432705A (zh) 文本生成模型构建、文本生成方法和装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40030684

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant