CN111753498A - 文本处理方法、装置、设备及存储介质 - Google Patents

文本处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111753498A
CN111753498A CN202010797003.8A CN202010797003A CN111753498A CN 111753498 A CN111753498 A CN 111753498A CN 202010797003 A CN202010797003 A CN 202010797003A CN 111753498 A CN111753498 A CN 111753498A
Authority
CN
China
Prior art keywords
sentence
word
sentences
target text
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010797003.8A
Other languages
English (en)
Other versions
CN111753498B (zh
Inventor
张映雪
孟凡东
李鹏
周杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010797003.8A priority Critical patent/CN111753498B/zh
Publication of CN111753498A publication Critical patent/CN111753498A/zh
Application granted granted Critical
Publication of CN111753498B publication Critical patent/CN111753498B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本申请公开了文本处理方法、装置、设备及存储介质。方法包括:获取目标文本,目标文本包括至少三个语句;基于至少三个语句,构建目标文本对应的语句关联关系,语句关联关系包括相邻的两个语句之间的关联关系和非相邻的两个语句之间的关联关系;获取任一语句的初始基础语句特征;基于至少三个语句的初始基础语句特征和目标文本对应的语句关联关系,获取目标文本的目标文本特征,对目标文本特征进行处理。在基于语句关联关系获取目标文本特征的过程中,不仅关注语句之间的短距离依赖关系,还关注语句之间的长距离依赖关系,使得目标文本特征能够更加全面地代表目标文本,获取的目标文本特征的质量较好,对目标文本特征进行处理的效果较佳。

Description

文本处理方法、装置、设备及存储介质
技术领域
本申请实施例涉及计算机技术领域,特别涉及一种文本处理方法、装置、设备及存储介质。
背景技术
随着计算机技术的快速发展,海量的文本不断产生和传播,这些文本通常都是由多个简短的语句构成的。利用计算机对文本进行合理地处理后,能够将文本应用于自然语言处理与理解、内容信息过滤和舆情管理等多个领域。在利用计算机处理文本的过程中,需要先将文本转换成计算机可以理解的形式(如,文本特征),然后由计算机对转换成的文本特征进行处理,如,对文本特征进行文本分类处理、对文本特征进行文本生成处理等。
相关技术中,将各个语句按照在文本中的排列顺序进行递归计算,直至完成最后一个语句的计算,得到文本特征,进而对文本特征进行处理。在此种过程中,各个语句在文本中的排列顺序仅能反映语句之间的短距离依赖关系,使得文本特征的获取过程仅关注语句的短距离依赖关系,获取的文本特征的质量不佳,对获取的文本特征进行处理的效果较差。
发明内容
本申请实施例提供了一种文本处理方法、装置、设备及存储介质,可用于提高对文本特征进行处理的效果。所述技术方案如下:
一方面,本申请实施例提供了一种文本处理方法,所述方法包括:
获取待处理的目标文本,所述目标文本包括至少三个语句,任一语句包括至少一个词语;
基于所述至少三个语句,构建所述目标文本对应的语句关联关系,所述语句关联关系包括相邻的两个语句之间的关联关系和非相邻的两个语句之间的关联关系;
对于所述至少三个语句中的任一语句,基于所述任一语句中的至少一个词语的初始词语特征,获取所述任一语句的初始基础语句特征;
基于所述至少三个语句的初始基础语句特征和所述目标文本对应的语句关联关系,获取所述目标文本的目标文本特征,对所述目标文本特征进行处理。
另一方面,提供了一种文本处理装置,所述装置包括:
第一获取单元,用于获取待处理的目标文本,所述目标文本包括至少三个语句,任一语句包括至少一个词语;
构建单元,用于基于所述至少三个语句,构建所述目标文本对应的语句关联关系,所述语句关联关系包括相邻的两个语句之间的关联关系和非相邻的两个语句之间的关联关系;
第二获取单元,用于对于所述至少三个语句中的任一语句,基于所述任一语句中的至少一个词语的初始词语特征,获取所述任一语句的初始基础语句特征;
第三获取单元,用于基于所述至少三个语句的初始基础语句特征和所述目标文本对应的语句关联关系,获取所述目标文本的目标文本特征;
处理单元,用于对所述目标文本特征进行处理。
在一种可能实现方式中,所述第三获取单元,用于对于所述至少三个语句中的任一语句,基于所述任一语句的初始基础语句特征和所述任一语句中的各个词语的初始词语特征,获取所述任一语句的第一基础语句特征;对于所述任一语句中的任一词语,基于所述任一语句的初始增强语句特征、所述任一词语的初始词语特征和相关词语的初始词语特征,获取所述任一词语的第一词语特征,所述任一语句的初始增强语句特征为根据所述目标文本对应的语句关联关系对所述任一语句的初始基础语句特征进行更新后得到的,所述相关词语为所述任一语句中与所述任一词语满足相关条件的词语;基于所述至少三个语句的第一基础语句特征和所述目标文本对应的语句关联关系,获取所述至少三个语句的第一增强语句特征;基于所述至少三个语句的第一基础语句特征、所述至少三个语句中的各个词语的第一词语特征以及所述至少三个语句的第一增强语句特征,获取所述至少三个语句的目标增强语句特征;基于所述至少三个语句的目标增强语句特征,获取所述目标文本的目标文本特征。
在一种可能实现方式中,所述第三获取单元,还用于将所述至少三个语句的目标增强语句特征根据所述至少三个语句在所述目标文本中的排列顺序进行拼接处理,得到所述目标文本的第一拼接文本特征;对所述第一拼接文本特征进行平均池化处理,得到所述目标文本的第一池化特征;对所述第一拼接文本特征进行最大池化处理,得到所述目标文本的第二池化特征;将所述第一池化特征和所述第二池化特征进行拼接处理,得到所述目标文本的目标文本特征。
在一种可能实现方式中,所述第三获取单元,还用于对于所述至少三个语句中的任一语句,将所述任一语句中的各个词语的目标词语特征根据各个词语在所述任一语句中的排列顺序进行拼接处理,得到所述任一语句的拼接语句特征,所述任一语句中的各个词语的目标词语特征基于所述任一语句的第一基础语句特征、所述任一语句中的各个词语的第一词语特征以及所述任一语句的第一增强语句特征获得;对所述任一语句的拼接语句特征进行指定处理,得到所述任一语句的补充语句特征;基于所述任一语句的目标增强语句特征和所述任一语句的补充语句特征,确定所述任一语句的参考语句特征;基于所述至少三个语句的参考语句特征,获取所述目标文本的目标文本特征。
在一种可能实现方式中,所述第三获取单元,还用于调用图循环网络模型对所述任一语句的初始基础语句特征和所述任一语句中的各个词语的初始词语特征进行处理,得到所述图循环网络模型输出的所述任一语句的第一基础语句特征;调用所述图循环网络模型对所述任一语句的初始增强语句特征、所述任一词语的初始词语特征和相关词语的初始词语特征进行处理,得到所述图循环网络模型输出的所述任一词语的第一词语特征;调用图卷积网络模型对所述图循环网络模型输出的所述至少三个语句的第一基础语句特征和所述目标文本对应的语句关联关系进行处理,得到所述图卷积网络模型输出的所述至少三个语句的第一增强语句特征;基于所述图循环网络模型输出的所述至少三个语句的第一基础语句特征、所述图循环网络模型输出的所述至少三个语句中的各个词语的第一词语特征以及所述图卷积网络模型输出的所述至少三个语句的第一增强语句特征,获取所述至少三个语句的目标增强语句特征。
在一种可能实现方式中,所述第三获取单元,还用于调用所述图卷积网络模型基于所述目标文本对应的语句关联关系,获取所述目标文本对应的邻接矩阵和度矩阵;调用所述图卷积网络模型对所述邻接矩阵、所述度矩阵和所述至少三个语句的第一基础语句特征进行处理,得到所述图卷积网络模型输出的所述至少三个语句的第一增强语句特征。
在一种可能实现方式中,所述构建单元,用于在所述至少三个语句中任选两个语句构成一个基础语句组;在基于所述至少三个语句构成的各个基础语句组中,获取目标语句组集合,所述目标语句组集合由第一语句组集合和第二语句组集合构成,所述第一语句组集合为由相邻的两个语句构成的基础语句组的集合,所述第二语句组集合为由非相邻且满足距离条件的两个语句构成的基础语句组的集合,所述满足距离条件包括在所述目标文本中所处位置之间间隔的语句的数量不大于数量阈值;对于所述目标语句组集合中的任一目标语句组,在所述任一目标语句组中的两个语句之间建立关联关系;将基于所述目标语句组集合中的各个目标语句组建立的关联关系作为所述目标文本对应的语句关联关系。
在一种可能实现方式中,所述构建单元,用于在所述至少三个语句中任选两个语句构成一个基础语句组;对于基于所述至少三个语句构成的各个基础语句组中的任一基础语句组,在所述任一基础语句组中的两个语句之间建立关联关系;将基于各个基础语句组建立的关联关系作为所述目标文本对应的语句关联关系。
在一种可能实现方式中,所述在所述任一目标语句组中的两个语句之间建立的关联关系为无方向的关联关系或者有方向的关联关系,所述有方向的关联关系由在所述目标文本中所处位置靠前的语句指向在所述目标文本中所处位置靠后的语句。
在一种可能实现方式中,所述装置还包括:
第四获取单元,用于对于所述任一语句中的任一词语,获取所述任一词语的编码词语特征、全局词语特征、动态词语特征中的至少一个;基于所述编码词语特征、全局词语特征、动态词语特征中的至少一个,获取所述任一词语的初始词语特征。
另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条程序代码,所述至少一条程序代码由所述处理器加载并执行,以实现上述任一所述的文本处理方法。
另一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行,以实现上述任一所述的文本处理方法。
另一方面,还提供了一种计算机程序产品或计算机程序,所述计算机程序产品或计算机程序包括计算机指令,所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令,处理器执行所述计算机指令,使得所述计算机设备执行上述任一所述的文本处理方法。
本申请实施例提供的技术方案至少带来如下有益效果:
在本申请实施例中,目标文本的目标文本特征根据目标文本对应的语句关联关系得到,语句关联关系中包括相邻语句之间的关联关系和非相邻语句之间的关联关系。其中,相邻语句之间的关联关系能够反映语句之间的短距离依赖关系,非相邻语句之间的关联关系能够反映语句之间的长距离依赖关系。因此,在基于语句关联关系获取目标文本特征的过程中,不仅关注语句之间的短距离依赖关系,还关注语句之间的长距离依赖关系,使得目标文本特征能够更加全面地代表目标文本,获取的目标文本特征的质量较好,对目标文本特征进行处理的效果较佳。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种文本处理方法的实施环境的示意图;
图2是本申请实施例提供的一种文本处理方法的流程图;
图3是本申请实施例提供的一种段落关联图的示意图;
图4是本申请实施例提供的一种获取目标文本的目标文本特征的过程的示意图;
图5是本申请实施例提供的一种文本处理装置的示意图;
图6是本申请实施例提供的一种文本处理装置的示意图;
图7是本申请实施例提供的一种服务器的结构示意图;
图8是本申请实施例提供的一种终端的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请实施例提供的方案涉及人工智能的自然语言处理技术。自然语言处理(Nature Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供了一种文本处理方法,请参考图1,其示出了本申请实施例提供的文本处理方法的实施环境的示意图。该实施环境包括:终端11和服务器12。
本申请实施例提供的文本处理方法既可以由终端11执行,也可以由服务器12执行,本申请实施例对此不加以限定。终端11能够获取待处理的目标文本,进而获取目标文本的目标文本特征并对目标文本特征进行处理。终端11在对目标文本特征进行处理后,能够展示处理后得到的结果,也能够将处理后得到的结果发送至服务器12进行对应存储。服务器12能够从终端11获取目标文本,进而获取目标文本的目标文本特征并对目标文本特征进行处理,服务器12在对目标文本特征进行处理后,能够对处理后得到的结果进行对应存储,也能够将处理后得到的结果发送至终端11进行展示。
在一种可能实现方式中,终端11可以是任何一种可与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互的电子产品,例如PC(Personal Computer,个人计算机)、智能手机、PDA(PersonalDigital Assistant,个人数字助手)、可穿戴设备、掌上电脑PPC(Pocket PC)、平板电脑、智能车机、智能电视、智能音箱等。服务器12可以是一台服务器,也可以是由多台服务器组成的服务器集群,或者是一个云计算服务中心。终端11与服务器12通过有线或无线网络建立通信连接。
本领域技术人员应能理解上述终端11和服务器12仅为举例,其他现有的或今后可能出现的终端或服务器如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
基于上述图1所示的实施环境,本申请实施例提供一种文本处理方法,以该方法应用于终端11为例。如图2所示,本申请实施例提供的方法包括如下步骤:
在步骤201中,获取待处理的目标文本,目标文本包括至少三个语句,任一语句包括至少一个词语。
目标文本是指待处理的包括至少三个语句的文本,任一语句包括至少一个词语。本申请实施例对目标文本的来源不加以限定。示例性地,目标文本是指交互对象输入的文本;或者,目标文本为从服务器获取的文本;再或者,目标文本为终端从网络上爬取的文本等。此外,本申请实施例对目标文本的形式不加以限定。示例性地,目标文本为一个段落;或者,目标文本为一篇文章等,只需目标文本包括至少三个语句即可。本申请实施例对目标文本中包括的语句的具体数量不加以限定,不同的目标文本中包括的语句的具体数量可以相同,也可以不同。
在一种可能实现方式中,目标文本中的语句以及语句中的词语均是通过对目标文本进行预处理得到的。在一种可能实现方式中,对目标文本进行预处理的过程包括:对目标文本进行语句划分,得到目标文本中的各个语句;对各个语句分别进行词语划分,得到每个语句中的各个词语。
在一种可能实现方式中,对目标文本进行语句划分,得到目标文本中的各个语句的过程为:获取目标文本中能够代表对应的语句已经结束的标点符号,如句号、问号、感叹号等,根据获取的标点符号对目标文本进行划分,得到目标文本中的各个语句。在一种可能实现方式中,对各个语句分别进行词语划分的过程为:利用分词算法对各个语句分别进行分词处理。本申请实施例对分词算法不加以限定,示例性地,分词算法是指双向最大匹配法或者最少切分法等。
在一种可能实现方式中,在确定目标文本中的各个语句以及每个语句中的各个词语后,获取各个词语的初始词语特征。词语的初始词语特征是指词语最基本的特征。本申请实施例对初始词语特征的形式不加以限定,示例性地,初始词语特征的形式为向量。向量的维数可以根据经验设置,也可以根据应用场景灵活调整。在一种可能实现方式中,当初始词语特征的形式为向量时,各个词语的初始词语特征均为相同维数的向量,以便于后续处理。
本申请实施例以获取任一语句中的任一词语的初始词语特征为例进行说明,在一种可能实现方式中,对于任一语句中的任一词语,获取该任一词语的初始词语特征的方式为:获取任一词语的编码词语特征、全局词语特征、动态词语特征中的至少一个;基于编码词语特征、全局词语特征、动态词语特征中的至少一个,获取任一词语的初始词语特征。
编码词语特征是指对词语进行字符编码后得到的特征,本申请实施例对对词语进行字符编码的方式不加以限定,示例性地,将词语包含的字符(英语中字符为单词中的字母,汉语中字符为词语中的字)输入CNN(Convolutional Neural Network,卷积神经网络),以此获取该词语的字符级别特征(编码词语特征)。字符级别特征能够融入更细粒度的语义。
全局词语特征是指利用GloVe(Global Vector,全局向量)模型对词语进行特征提取后得到的特征。GloVe模型能够融入全局的先验统计信息,提取的词语特征较全面。
动态词语特征是指利用ELMo(Embeddings from Language Models,来自语言模型的嵌入)模型对词语进行特征提取后得到的特征。ELMo模型使得词语的特征可以同时考虑语境和语法,提取的词语特征较准确。
编码词语特征、全局词语特征、动态词语特征是指三种不同方式获取的基本词语特征,在获取任一词语的编码词语特征、全局词语特征、动态词语特征中的至少一个后,基于获取的任一词语的编码词语特征、全局词语特征、动态词语特征中的至少一个,获取任一词语的初始词语特征。
获取任一词语的编码词语特征、全局词语特征、动态词语特征中的至少一个包括以下三类情况:
第一类情况:仅获取任一词语的编码词语特征、全局词语特征、动态词语特征中的一个。
该种第一类情况包括三种情况:仅获取任一词语的编码词语特征;或者,仅获取任一词语的全局词语特征;或者,仅获取任一词语的动态词语特征。
以仅获取任一词语的编码词语特征为例,在此种情况下,基于获取的任一词语的编码词语特征、全局词语特征、动态词语特征中的至少一个,获取任一词语的初始词语特征是指基于任一词语的编码词语特征,获取任一词语的初始词语特征。
在一种可能实现方式中,基于任一词语的编码词语特征,获取任一词语的初始词语特征的方式包括但不限于以下两种:
方式一:直接将任一词语的编码词语特征作为该任一词语的初始词语特征。
方式二:根据目标方式对任一词语的编码词语特征进行处理,将处理后得到的特征作为任一词语的初始词语特征。
目标方式根据经验设置,或者根据应用场景灵活调整。示例性地,目标方式为:将编码词语特征处理成参考维数的向量。当编码词语特征的向量维数高于参考维数时,将编码词语特征处理成参考维数的向量是指将编码词语特征降维至参考维数,进而将参考维数的词语特征作为任一词语的初始词语特征。
在一种可能实现方式中,根据目标方式对任一词语的编码词语特征进行处理的过程通过调用前馈网络模型实现,该前馈网络模型的网络结构根据目标方式进行设定,以使该前馈网络模型能够实现根据目标方式对任一词语的编码词语特征进行处理的过程。本申请实施例对前馈网络模型的层数不加以限定,示例性地,前馈网络模型的层数为一层。
需要说明的是,在仅获取任一词语的全局词语特征的情况下,以及在仅获取任一词语的动态词语特征的情况下,获取任一词语的初始词语特征的过程均可以参照上述介绍的在仅获取任一词语的编码词语特征的情况下获取任一词语的初始词语特征的方式实现,此处不再赘述。
第二类情况:获取任一词语的编码词语特征、全局词语特征、动态词语特征中的两个。
该种第二类情况包括三种情况:获取任一词语的编码词语特征和全局词语特征;或者,获取任一词语的编码词语特征和动态词语特征;或者,获取任一词语的全局词语特征和动态词语特征。
以获取任一词语的编码词语特征和全局词语特征为例,在此种情况下,基于获取的任一词语的编码词语特征、全局词语特征、动态词语特征中的至少一个,获取任一词语的初始词语特征是指:基于任一词语的编码词语特征和全局词语特征,获取任一词语的初始词语特征。
在一种可能实现方式中,基于任一词语的编码词语特征和全局词语特征,获取任一词语的初始词语特征的过程为:将任一词语的编码词语特征和全局词语特征进行拼接,基于拼接后的特征获取任一词语的初始词语特征。在一种可能实现方式中,基于拼接后的特征获取任一词语的初始词语特征的过程可以是指直接将拼接后的特征作为任一词语的初始词语特征,还可以是指根据目标方式对拼接后的特征进行处理,将处理后得到的特征作为任一词语的初始词语特征。示例性地,根据目标方式对拼接后的特征进行处理的过程也可以通过调用前馈网络模型实现。
本申请实施例对将任一词语的编码词语特征和全局词语特征进行拼接的拼接方式不加以限定。示例性地,将任一词语的编码词语特征和全局词语特征进行横向拼接。假设任一词语的编码词语特征和全局词语特征均为1*300维的向量,则将任一词语的编码词语特征和全局词语特征进行横向拼接后得到的特征为1*600维的向量。
需要说明的是,在获取任一词语的编码词语特征和动态词语特征的情况下,以及在获取任一词语的全局词语特征和动态词语特征的情况下,获取任一词语的初始词语特征的过程均可以参照上述介绍的在获取任一词语的编码词语特征和全局词语特征的情况下获取任一词语的初始词语特征的方式实现,此处不再赘述。
第三类情况:获取任一词语的编码词语特征、全局词语特征和动态词语特征。
在此种第三类情况下,基于获取的任一词语的编码词语特征、全局词语特征、动态词语特征中的至少一个,获取任一词语的初始词语特征是指:基于任一词语的编码词语特征、全局词语特征和动态词语特征,获取任一词语的初始词语特征。也就是说,利用编码词语特征、全局词语特征和动态词语特征共同初始化词语的基本特征。
在一种可能实现方式中,基于任一词语的编码词语特征、全局词语特征和动态词语特征,获取任一词语的初始词语特征的过程为:将任一词语的编码词语特征、全局词语特征和动态词语特征进行拼接,基于拼接后的特征获取任一词语的初始词语特征。在一种可能实现方式中,基于拼接后的特征获取任一词语的初始词语特征的过程可以是指直接将拼接后的特征作为任一词语的初始词语特征,还可以是指根据目标方式对拼接后的特征进行处理,将处理后得到的特征作为任一词语的初始词语特征。示例性地,根据目标方式对拼接后的特征进行处理的过程也可以通过调用前馈网络模型实现。
示例性地,基于任一词语的编码词语特征、全局词语特征和动态词语特征,获取任一词语的初始词语特征的过程可以基于公式1实现:
Figure BDA0002626008860000111
其中,
Figure BDA0002626008860000112
和xi,j均表示目标文本中的第i个语句中的第j个词语的初始词语特征;
Figure BDA0002626008860000113
表示第i个语句中的第j个词语的编码词语特征;
Figure BDA0002626008860000114
表示第i个语句中的第j个词语的全局词语特征;
Figure BDA0002626008860000115
表示第i个语句中的第j个词语的动态词语特征;
Figure BDA0002626008860000116
表示将第i个语句中的第j个词语的编码词语特征、全局词语特征和动态词语特征进行拼接后的特征;W和b表示前馈网络模型的模型参数。
在示例性实施例中,为便于后续处理,无论基于哪个或哪些词语特征获取任一词语的初始词语特征,初始词语特征均具有相同的维数。也就是说,目标文本中的各个词语的初始词语特征均为具有相同维数的特征。
在示例性实施例中,获取任一词语的初始词语特征的方式还可以为:将任一词语输入词语特征提取模型,将词语特征提取模型输出的特征作为任一词语的初始词语特征。在此种情况下,直接利用一个模型获取词语的初始词语特征,该词语特征提取模型可以为预先训练的用于直接提取词语的基本特征的语言模型。本申请实施例对词语特征提取模型的类型不加以限定,示例性地,词语特征提取模型为循环神经网络模型、深度学习网络模型、卷积神经网络模型、BERT(Bidirectional Encoder Representations fromTransformers,来自变换器的双向编码器表征量)模型等。
在步骤202中,基于至少三个语句,构建目标文本对应的语句关联关系,语句关联关系包括相邻的两个语句之间的关联关系和非相邻的两个语句之间的关联关系。
目标文本中的语句具有默认地前后排列顺序,不同语句在目标文本中所处位置不同。由于目标文本中包括至少三个语句,所以目标文本中既包括相邻的两个语句,也包括不相邻的两个语句。示例性,假设目标文本中包括4个语句,按照从前到后的排列顺序依次为S1、S2、S3和S4,则S1和S2、S2和S3以及S3和S4均为相邻的两个语句,S1和S3、S1和S4以及S2和S4均为非相邻的两个语句。在示例性地实施例中,假设目标文本包括的语句数量为n(n为不小于3的整数),目标文本表示为P={S1,S2,...,Sn}。
在获取目标文本并得到目标文本中的至少三个语句后,基于至少三个语句,构建目标文本对应的语句关联关系,目标文本对应的语句关联关系用于指示目标文本中的语句之间的关联情况,如,哪个语句和哪个语句之间建立有关联关系。目标文本对应的语句关联关系中既包括相邻的两个语句之间的关联关系,也包括非相邻的两个语句之间的关联关系。也就是说,在构建目标文本对应的语句关联关系的过程中,既在距离较近的两个语句之间直接建立关联关系,还在距离较远的两个语句之间直接建立关联关系。从而使得目标文本对应的语句关联关系既考虑语句之间的短距离依赖关系,又考虑语句之间的长距离依赖关系,有利于提高后续获取目标文本的目标文本特征的质量。
在一种可能实现方式中,基于至少三个语句,构建目标文本对应的语句关联关系的方式包括以下步骤a至步骤c:
步骤a:在至少三个语句中任选两个语句构成一个基础语句组。
每个基础语句组中均包括在目标文本中处于两个不同位置的语句,通过在至少三个语句中任选两个语句构成一个基础语句组的方式,能够得到基于至少三个语句组构成的全部的基础语句组。
步骤b:在基于至少三个语句构成的各个基础语句组中,获取目标语句组集合,目标语句组集合由第一语句组集合和第二语句组集合构成,第一语句组集合为由相邻的两个语句构成的基础语句组的集合,第二语句组集合为由非相邻且满足距离条件的两个语句构成的基础语句组的集合,满足距离条件包括在目标文本中所处位置之间间隔的语句的数量不大于数量阈值。
基于至少三个语句构成的各个基础语句组中既包括由相邻的两个语句构成的基础语句组,又包括由非相邻的两个语句构成的基础语句组。由相邻的两个语句构成的基础语句组中的两个语句用于反映语句之间的短距离依赖关系,将由相邻的两个语句构成的基础语句组的集合作为第一语句组集合。由非相邻的两个语句构成的基础语句组用于反映语句之间的长距离依赖关系,对由非相邻的两个语句构成的基础语句组进行筛选,将由非相邻且满足距离条件的两个语句构成的基础语句组的集合作为第二语句组集合,此种方式能够剔除包括的两个语句之间距离过远的基础语句组,避免在距离过远的两个语句之间建立关联关系,从而有利于提高构建目标文本对应的语句关联关系的效率。
距离条件用于限定语句组合中的两个语句在目标文本中所处位置之间间隔的语句的数量。满足距离条件包括在目标文本中所处位置之间间隔的语句的数量不大于数量阈值,当两个非相邻语句在目标文本中所处位置之间间隔的语句的数量不大于数量阈值时,说明两个非相邻语句之间的距离不是过远,此种两个非相邻语句之间的长距离依赖关系具有较高的参考价值。数量阈值可以根据经验设置,也可以根据应用场景灵活调整,本申请实施例对此不加以限定,示例性地,数量阈值设置为5。
例如,假设目标文本中的语句的数量为5个,按照从前到后的排列顺序依次为S1、S2、S3、S4和S5,则基于这5个语句构成的全部的基础语句组合有10个,分别为:(S1,S2)、(S2,S3)、(S3,S4)、(S4,S5)、(S1,S3)、(S2,S4)、(S3,S5)、(S1,S4)、(S2,S5)和(S1,S5)。其中,基础语句组(S1,S2)、(S2,S3)、(S3,S4)和(S4,S5)中的两个语句均为相邻的两个语句,这些基础语句组的集合为第一语句组集合;基础语句组(S1,S3)、(S2,S4)和(S3,S5)中的两个语句非相邻且在目标文本中所处位置之间间隔的语句的数量均为1;基础语句组(S3,S5)和(S1,S4)中的两个语句非相邻且在目标文本中所处位置之间间隔的语句的数量均为2;基础语句组(S1,S5)中的两个语句非相邻且在目标文本中所处位置之间间隔的语句的数量为3。
假设数量阈值为2,也就是说,满足距离条件是指在目标文本中所处位置之间间隔的语句的数量不大于2。则由非相邻且满足距离条件的两个语句构成的基础语句组为(S1,S3)、(S2,S4)、(S3,S5)、(S1,S4)和(S2,S5),这些基础语句组的集合为第二语句组集合。
第一语句组集合和第二语句组集合中的语句组均为构建语句关联关系所依据的语句组,由第一语句组集合和第二语句组集合构成目标语句组集合,由此,实现在基于至少三个语句构成的各个基础语句组中,获取目标语句组集合的过程。将目标语句组集合中的语句组称为目标语句组。
步骤c:对于目标语句组集合中的任一目标语句组,在任一目标语句组中的两个语句之间建立关联关系;将基于目标语句组集合中的各个目标语句组建立的关联关系作为目标文本对应的语句关联关系。
在目标语句组集合中的每个目标语句组中的两个语句之间均建立关联关系,从而可以既得到相邻的两个语句之间的关联关系,又得到非相邻且满足距离条件的两个语句之间的关联关系,进而得到目标文本对应的语句关联关系。
在一种可能实现方式中,在任一目标语句组中的两个语句之间建立的关联关系为无方向的关联关系或者有方向的关联关系,本申请实施例对此不加以限定。其中,有方向的关联关系由在目标文本中所处位置靠前的语句指向为目标文本中所处位置靠后的语句。示例性地,对于目标文本中包括从前到后依次排列的4个语句S1、S2、S3和S4的情况,语句S1和语句S3之间建立的有方向的关联关系为由语句S1指向语句S3的关联关系。
在另一种可能实现方式中,基于至少三个语句,构建目标文本对应的语句关联关系的方式为:在至少三个语句中任选两个语句构成一个基础语句组;对于基于至少三个语句构成的各个基础语句组中的任一基础语句组,在任一基础语句组中的两个语句之间建立关联关系;将基于各个基础语句组建立的关联关系作为目标文本对应的语句关联关系。在此种方式中,直接在全部基础语句组中的语句之间建立关联关系,目标文本对应的语句关联关系为全部语句的全连接关联关系,有利于进一步提高根据语句关联关系获取的目标文本特征的质量。
在一种可能实现方式中,在任一基础语句组中的两个语句之间建立的关联关系为无方向的关联关系或者有方向的关联关系,本申请实施例对此不加以限定。
本申请实施例对目标文本对应的语句关联关系的表示形式不加以限定。示例性地,目标文本对应的语句关联关系的表示形式为图结构,在图结构中用节点表示各个语句,用连接关系表示语句之间的关联关系。在一种可能实现方式中,在用图结构表示目标文本对应的语句关联关系的同时,还可以用图结构表示语句和语句中的词语的关联关系,每个词语均与该词语所在的语句之间存在关联关系。
示例性地,用于表示目标文本对应的语句关联关系的图结构如图3所示。图3所示的图结构表示出了包括4个语句(S1、S2、S3、S4)的目标文本对应的语句关联关系。在图3中,语句S1对应语句节点g1,语句S2对应语句节点g2,语句S3对应语句节点g3,语句S4对应语句节点g4。4个语句节点之间为全连接关系,也就是说,4个语句构成的全部的基础语句组中的两个语句之间均建立了关联关系,能够充分建模目标文本中语句之间的相互依赖,包括远距离依赖,如,语句S1对应的语句节点g1和语句S4对应的语句节点g4之间直接相连的边说明虽然语句S1和语句S4在目标文本中所处位置之间间隔了两个语句,但是同样在语句S1和语句S4建立了关联关系,进而关注语句的长距离依赖关系。
除语句节点以及语句节点之间的连接关系外,图3中还示出了对应各个词语的词语节点,每个词语节点均与对应的语句节点相连,如,词语节点h1,1、h1,2,、h1,j、h1,|S1|均与对应的语句节点g1相连,其中,|S1|表示语句节点对应的语句S1中的词语的数量。在示例性地实施例中,图3所示的图结构称为段落关联图(Paragraph Association Graph,PAG)。段落关联图中建模了语句之间以及语句与词语之间的关联关系。
示例性地,对于目标文本对应的语句关联关系利用图结构进行表示的情况,两个语句之间的有方向的关联关系在图结构中表示为一条带箭头的边,该带箭头的边由在目标文本中所处位置靠前的语句对应的语句节点指向在目标文本中所处位置靠后的语句对应的语句节点。
在步骤203中,对于至少三个语句中的任一语句,基于任一语句中的至少一个词语的初始词语特征,获取任一语句的初始基础语句特征。
语句的初始基础语句特征是指直接根据该语句中的词语的初始词语特征得到的初始化的语句特征。对于至少三个语句中的任一语句,在基于该任一语句中的至少一个词语的初始词语特征,获取任一语句的初始基础语句特征之前,需要先获取该任一语句中的各个词语的初始词语特征。获取词语的初始词语特征的方式详见步骤201,此处不再赘述。
在一种可能实现方式中,基于任一语句中的至少一个词语的初始词语特征,获取任一语句的初始基础语句特征的过程为:将任一语句中的各个词语的初始词语特征进行拼接处理,得到初始拼接征;对初始拼接特征进行池化处理,得到任一语句的初始基础语句特征。在一种可能实现方式中,在将任一语句中的各个词语的初始词语特征进行拼接处理的过程中,将任一语句中的各个词语的初始词语特征按照各个词语在该任一语句中的排列顺序进行拼接处理,以提高根据拼接得到的特征获取的基础语句特征的可靠性。
在一种可能实现方式中,任一语句中的各个词语的初始词语特征均为相同维数的向量,将任一语句中的各个词语的初始词语特征按照各个词语在该任一语句中的排列顺序进行拼接处理的方式为:将任一语句中的各个词语的初始词语特征按照各个词语在该任一语句中的排列顺序进行纵向拼接。假设各个词语的初始词语特征均为1*300维的向量,任一语句中的词语的数量为10个,则纵向拼接后得到的初始拼接特征为10*300维的矩阵。
在得到初始拼接特征后,对初始拼接特征进行池化处理,以得到任一语句的初始基础语句特征。池化处理能够降低特征维数,加快后续对特征的处理速度。对初始拼接特征进行池化处理的方式包括但不限于对初始拼接特征进行平均池化处理;或者,对初始拼接特征进行最大池化处理。本申请实施例对池化处理后得到的特征的维数不加以限定,示例性地,对于维数为10*300的初始拼接特征,池化处理后得到的特征的维数为1*300。
示例性地,基于任一语句中的至少一个词语的初始词语特征,获取任一语句的初始基础语句特征的过程基于公式2实现:
Figure BDA0002626008860000161
其中,
Figure BDA0002626008860000162
表示目标文本中的第i个语句的初始基础语句特征;
Figure BDA0002626008860000163
分别表示第i个语句中的各个词语的初始词语特征;|Si|表示第i个语句中的词语的数量;
Figure BDA0002626008860000164
表示第i个语句的初始拼接特征;avg表示平均池化处理。
在另一种可能实现方式中,基于任一语句中的至少一个词语的初始词语特征,获取任一语句的初始基础语句特征的方式为:调用语句编码模型对该任一语句中各个词语的初始词语特征进行处理,获取该任一语句的初始基础语句特征。语句编码模型用于将任一语句中各个词语的初始词语特征压缩成一个代表该任一语句含义的初始基础语句特征。语句编码模型可以为循环神经网络模型、深度学习网络模型、卷积神经网络模型等多种类型的模型。
步骤203仅以任一语句为例,介绍了获取该任一语句的初始基础语句特征的实现方式。对于目标文本的各个语句,均可以根据步骤203介绍的实现方式获取初始基础语句特征,从而得到构成目标文本的至少三个语句的初始基础语句特征。
在步骤204中,基于至少三个语句的初始基础语句特征和目标文本对应的语句关联关系,获取目标文本的目标文本特征,对目标文本特征进行处理。
在基于步骤202得到目标文本对应的语句关联关系以及基于步骤203得到构成目标文本的至少三个语句的初始基础语句特征后,基于至少三个语句的初始基础语句特征和目标文本对应的语句关联关系,获取目标文本的目标文本特征。目标文本的目标文本特征用于全面代表目标文本。在此种方式中,由于目标文本对应的语句关联关系中既包括相邻的两个语句之间的关联关系,又包括非相邻的两个语句之间的关联关系,所以基于目标文本对应的语句关联关系获取的目标文本的目标文本特征为综合考虑语句的短距离依赖关系和长距离依赖关系的基础上得到的目标文本特征,获取的目标文本特征的质量较高,能够较为全面地代表目标文本。
在一种可能实现方式中,基于至少三个语句的初始基础语句特征和目标文本对应的语句关联关系,获取目标文本的目标文本特征的处理过程包括以下步骤2041至步骤2045:
步骤2041:对于至少三个语句中的任一语句,基于任一语句的初始基础语句特征和任一语句中的各个词语的初始词语特征,获取任一语句的第一基础语句特征。
任一语句的第一基础语句特征是指根据该任一语句中的各个词语的初始词语特征对初始基础语句特征进行更新后得到的语句特征,相比于初始基础语句特征,第一基础语句特征融合了词语携带的细粒度语义。该步骤2041可视为根据初始词语特征更新初始基础语句特征的过程,以使更新后的第一基础语句特征可以完全掌握语句包含的词语的含义。
在一种可能实现方式中,基于任一语句的初始基础语句特征和任一语句中的各个词语的初始词语特征,获取任一语句的第一基础语句特征的过程为:调用图循环网络模型对任一语句的初始基础语句特征和任一语句中的各个词语的初始词语特征进行处理,得到图循环网络模型输出的任一语句的第一基础语句特征。
本申请实施例对图循环网络模型的类型不加以限定,只要能够实现基于对任一语句的初始基础语句特征和任一语句中的各个词语的初始词语特征进行处理,输出任一语句的第一基础语句特征即可。示例性地,图循环网络模型为S-LSTM(Sentence-state LongShort Term Memory,语句态长短期记忆)模型。S-LSTM模型可以将一个语句转换成具有一个全局语句节点和局部词语节点的图结构。示例性地,具有一个全局语句节点和局部词语节点的图结构如图3中的虚线椭圆内的图结构所示。
S-LSTM模型在对任一语句的初始基础语句特征和任一语句中的各个词语的初始词语特征进行处理,输出任一语句的第一基础语句特征的过程中,采用LSTM结构来建模状态转换。在第一个处理子过程中,S-LSTM模型基于下述公式3至公式9实现对任一语句的初始基础语句特征和任一语句中的各个词语的初始词语特征进行处理,输出任一语句的第一基础语句特征的过程。
Figure BDA0002626008860000181
Figure BDA0002626008860000182
Figure BDA0002626008860000183
Figure BDA0002626008860000184
Figure BDA0002626008860000185
Figure BDA0002626008860000187
Figure BDA0002626008860000186
其中,
Figure BDA0002626008860000191
表示对目标文本中的第i个语句中的各个词语的初始词语特征
Figure BDA00026260088600001914
进行拼接处理以及平均池化处理后得到的语句特征,在第一个处理子过程中,
Figure BDA0002626008860000193
与公式2中的
Figure BDA0002626008860000194
相同;
Figure BDA0002626008860000195
Figure BDA0002626008860000196
分别表示在第一个处理子过程中,控制门控制遗忘的第i个语句方面的信息和第i个语句中的各个词语方面的信息;
Figure BDA0002626008860000197
表示在第一个处理子过程中,控制门控制输出的信息。
σ表示Sigmoid(S型生长曲线)函数;W*、U*和b*均是指模型参数,其中,*∈{g,f,o};Fs表示Softmax(归一化指数)函数;
Figure BDA0002626008860000198
是指对
Figure BDA0002626008860000199
进行归一化处理后得到的信息;
Figure BDA00026260088600001910
表示第i个语句的初始记忆语句特征,随机初始化或者根据经验设置;
Figure BDA00026260088600001911
表示第i个语句中的第j个词语的初始记忆词语特征,随机初始化或者根据经验设置;
Figure BDA00026260088600001912
表示第i个语句的第一记忆语句特征,该第一记忆语句特征是指在第一个处理子过程中更新后的记忆语句特征;
Figure BDA00026260088600001913
表示第i个语句的第一基础语句特征;tanh表示双曲正切激活函数。
上述步骤2041以任一语句为例说明了获取该任一语句的第一基础语句特征的过程,根据步骤2041的方式能够获取各个语句的第一基础语句特征,也就是能够获取至少三个语句的第一基础语句特征。
步骤2042:对于任一语句中的任一词语,基于任一语句的初始增强语句特征、任一词语的初始词语特征和相关词语的初始词语特征,获取任一词语的第一词语特征。
其中,任一语句的初始增强语句特征为根据目标文本对应的语句关联关系对任一语句的初始基础语句特征进行更新后得到的,相关词语为任一语句中与任一词语满足相关条件的词语。
在获取任一语句的初始基础语句特征后,进一步获取该任一语句的初始增强语句特征。任一语句的初始增强语句特征是指根据目标文本对应的语句关联关系对任一语句的初始基础语句特征进行更新后的语句特征。相比于初始基础增强语句特征,初始增强语句特征融合了目标文本对应的语句关联关系的相关信息。该过程能够实现在具有关联关系的语句之间进行语义交互,使得每个语句可以融合目标文本中其他语句的信息,获得上下文感知的语句特征。
任一词语的第一词语特征是指根据该任一词语所在的语句的初始增强语句特征对该任一词语的初始词语特征进行更新后得到的词语特征,由于初始增强词语特征融合了目标文本对应的语句关联关系的相关信息,所以相比于初始词语特征,第一词语特征进一步融合了目标文本对应的语句关联关系的相关信息。步骤2042的过程可视为根据增强语句特征更新词语特征的过程,该过程使用上下文感知的语句特征来更新词语特征,以便每个词语特征也可以合并目标文本的上下文信息。需要说明的是,此步骤2042中获取的第一词语特征主要用于为下一个处理子过程的提供数据支持。
在获取任一词语的第一词语特征的过程中,除考虑的该任一词语所在的语句的初始增强语句特征外,还考虑了该任一词语及其相关词语的初始词语特征。相关词语为任一语句中与任一词语满足相关条件的词语,相关词语是任一语句中与任一词语相关性较大的词语。示例性地,与任一词语满足相关条件的词语是指在任一语句中所处位置位于该任一词语的相邻位置范围内的除该任一词语之外的词语。任一词语的相邻位置范围根据经验设置,或者根据应用需求进行调整,示例性地,任一词语的相邻位置范围是指从位于任一词语所在位置前一位的词语位置开始至位于该任一词语所在位置后一位的词语位置结束的位置范围。示例性地,任一词语的相邻位置范围是指从位于该任一词语所在位置前两位的词语位置开始至位于该任一词语所在位置后两位的词语位置结束的位置范围。
在一种可能给实现方式中,基于任一语句的初始增强语句特征、任一词语的初始词语特征和相关词语的初始词语特征,获取任一词语的第一词语特征的实现过程为:调用图循环网络模型对任一语句的初始增强语句特征、任一词语的初始词语特征和相关词语的初始词语特征进行处理,得到图循环网络模型输出的任一词语的第一词语特征。示例性地,实现步骤2042的图循环网络模型与实现步骤2041的图循环网络模型为同一模型,例如,图循环网络模型为S-LSTM模型。在将相关的信息输入S-LSTM模型后,该S-LSTM模型能够同时实现步骤2041和步骤2042的过程。
示例性地,在第一个处理子过程中,S-LSTM模型基于下述公式10至公式20实现对任一语句的初始增强语句特征、任一词语的初始词语特征和相关词语的初始词语特征进行处理,输出任一词语的第一词语特征的过程。
Figure BDA0002626008860000201
Figure BDA0002626008860000211
Figure BDA0002626008860000212
Figure BDA0002626008860000213
Figure BDA0002626008860000214
Figure BDA0002626008860000215
Figure BDA0002626008860000216
Figure BDA0002626008860000217
Figure BDA0002626008860000218
Figure BDA0002626008860000219
Figure BDA00026260088600002110
其中,
Figure BDA00026260088600002111
表示目标文本中的第i个语句中的第j个词语的初始词语特征;
Figure BDA00026260088600002112
Figure BDA00026260088600002113
分别表示第i个语句中的第(j-1)个词语和第(j+1)个词语的初始词语特征,第i个语句中的第(j-1)个词语和第(j+1)个词语是指第i个语句的中第j个词语的相关词语;
Figure BDA00026260088600002114
表示在第一个处理子过程中,第i个语句中的第(j-1)个词语、第j个词语和第(j+1)个词语的初始词语特征的拼接特征。
xi,j由公式1计算得到,在第一处理子过程中,xi,j
Figure BDA00026260088600002115
相同,均是指目标文本中的第i个语句中的第j个词语的初始词语特征;
Figure BDA00026260088600002116
是指目标文本中的第i个语句的初始增强语句特征;
Figure BDA00026260088600002117
Figure BDA00026260088600002118
均为控制门在第一个处理子过程中控制的信息;W*、U*、V*和b*均是指模型参数,其中,*∈{i,l,r,f,s,o,u};σ表示Sigmoid(S型生长曲线)函数;tanh表示双曲正切激活函数。
Fs表示Softmax(归一化指数)函数;
Figure BDA00026260088600002119
是指对
Figure BDA00026260088600002120
进行归一化处理后得到的信息;
Figure BDA00026260088600002121
表示第i个语句的初始记忆语句特征,随机初始化或者根据经验设置;
Figure BDA00026260088600002122
分别表示第i个语句中的第(j-1)个词语、第j个词语和第(j+1)个词语的初始记忆词语特征,随机初始化或者根据经验设置;
Figure BDA00026260088600002123
表示第i个语句中的第j个词语的第一记忆词语特征,该第一记忆词语特征是指在第一个处理子过程中更新后的记忆词语特征;
Figure BDA0002626008860000221
表示第i个语句中的第j个词语的第一词语特征。
在实现过程中,将第i个语句中的各个词语的相关信息输入S-LSTM模型,S-LSTM模型能够基于上述公式10至公式20的计算原理获取第i个语句中的各个词语的第一词语特征。根据此过程,能够获取全部语句中的各个词语的第一词语特征,进而为下一个处理子过程提供数据支持。
步骤2043:基于至少三个语句的第一基础语句特征和目标文本对应的语句关联关系,获取至少三个语句的第一增强语句特征。
第一增强语句特征是指根据目标文本对应的语句关联关系对第一基础语句特征进行更新后的语句特征,相比于第一基础增强语句特征,第一增强语句特征融合了目标文本对应的语句关联关系的相关信息。此步骤2043可视为根据语句之间的关联关系更新基础语句特征的过程,该过程能够在具有关联关系的语句之间进行语义交互,使得每个语句可以融合目标文本中其他语句的信息,获得上下文感知的增强语句特征。
在基于步骤2041获取各个语句的第一基础语句特征之后,各个语句的基础语句特征已携带细粒度的语义,通过执行该步骤2043,能够使得各个语句通过语句之间的关联关系进一步掌握文本级别的上下文语义。
在一种可能实现方式中,基于至少三个语句的第一基础语句特征和目标文本对应的语句关联关系,获取至少三个语句的第一增强语句特征的过程包括:调用图卷积网络模型对图循环网络模型输出的至少三个语句的第一基础语句特征和目标文本对应的语句关联关系进行处理,得到图卷积网络模型输出的至少三个语句的第一增强语句特征。
图卷积网络模型用于实现通过计算语句自身以及与该语句具有关联关系的语句的基础语句特征的加权平均值更新语句的基础语句特征,得到语句的增强语句特征。示例性地,图卷积网络模型为GCN(Graph Convolutional Networks,图卷积网络)模型。GCN模型是拉普拉斯平滑的一种特殊形式。
在一种可能实现方式中,调用图卷积网络模型对图循环网络模型输出的至少三个语句的第一基础语句特征和目标文本对应的语句关联关系进行处理,得到图卷积网络模型输出的至少三个语句的第一增强语句特征的实现过程为:调用图卷积网络模型基于目标文本对应的语句关联关系,获取目标文本对应的邻接矩阵和度矩阵;调用图卷积网络模型对邻接矩阵、度矩阵和至少三个语句的第一基础语句特征进行处理,得到图卷积网络模型输出的至少三个语句的第一增强语句特征。
目标文本对应的邻接矩阵用于直接指示目标文本中的各个语句之间的关联关系。在一种可能实现方式中,调用图卷积网络模型基于目标文本对应的语句关联关系,获取目标文本对应的邻接矩阵的方式为:调用图卷积网络模型根据目标文本对应的语句关联关系,构造一个由语句节点和语句节点之间的边构成的拓扑图,该拓扑图表示为G=(V,E),G是指图拓扑,V是指拓扑图G中的顶点的集合,E是指拓扑图G中的边(语句之间的关联关系)的集合;将根据该拓扑图转化成的邻接矩阵作为初始邻接矩阵;在初始邻接矩阵中添加用于指示语句节点自连接的元素,形成目标文本对应的邻接矩阵。假设初始邻接矩阵表示为A,则添加用于指示语句节点自连接的元素后,目标文本对应的邻接矩阵表示为
Figure BDA0002626008860000234
IN表示单位矩阵。
目标文本对应的度矩阵是一个对角矩阵,度矩阵的对角线上的元素表示各个语句的度,任一语句的度是指与该任一语句具有关联关系的语句的数量。示例性地,调用图卷积网络模型基于目标文本对应的语句关联关系,获取目标文本对应的度矩阵的过程可以为:调用图卷积网络模型根据目标文本对应的语句关联关系,构建拓扑图,根据拓扑图得到目标文本对应的度矩阵。示例性地,调用图卷积网络模型基于目标文本对应的语句关联关系,获取目标文本对应的度矩阵的过程还可以为:调用图卷积网络模型根据目标文本对应的语句关联关系,获取目标文本对应的邻接矩阵;基于目标文本对应的邻接矩阵,获取目标文本对应的度矩阵。目标文本对应的度矩阵中的元素与目标文本对应的邻接矩阵中的元素之间的关系式如下:
Figure BDA0002626008860000231
其中,
Figure BDA0002626008860000232
表示度矩阵中的第I行第I列的元素的值,
Figure BDA0002626008860000233
表示邻接矩阵中的第I行第J列的元素的值。
在获取目标文本对应的邻接矩阵和度矩阵后,调用图卷积网络模型对邻接矩阵、度矩阵和至少三个语句的第一基础语句特征进行处理,得到图卷积网络模型输出的至少三个语句的第一增强语句特征。在一种可能实现方式中,图卷积网络模型为GCN模型。GCN模型基于下述公式21实现对邻接矩阵、度矩阵和至少三个语句的第一基础语句特征进行处理,输出至少三个语句的第一增强语句特征的过程。
Figure BDA0002626008860000241
其中,X1表示各个语句的第一基础语句特征的拼接特征;W表示模型参数;
Figure BDA0002626008860000242
表示度矩阵;
Figure BDA0002626008860000243
表示邻接矩阵;σ表示Sigmoid(S型生长曲线)函数;C1表示各个语句的第一增强语句特征的拼接特征。C1中的各个语句的第一增强语句特征的拼接方式及拼接顺序与X1中各个语句的第一基础语句特征的拼接方式及拼接顺序相同。根据C1即可得到各个语句的第一增强语句特征。C1是所有语句融合了文本信息的表示,在本申请实施例中,利用
Figure BDA0002626008860000244
表示从C1中得到的第i个语句的第一增强语句特征。
步骤2044:基于至少三个语句的第一基础语句特征、至少三个语句中的各个词语的第一词语特征以及至少三个语句的第一增强语句特征,获取至少三个语句的目标增强语句特征。
在示例性实施例中,对于上述步骤2041至步骤2043调用模型实现的情况,此步骤2044的实现过程为:基于图循环网络模型输出的至少三个语句的第一基础语句特征、图循环网络模型输出的至少三个语句中的各个词语的第一词语特征以及图卷积网络模型输出的至少三个语句的第一增强语句特征,获取至少三个语句的目标增强语句特征。示例性地,图循环网络模型为S-LSTM模型,图卷积网络模型为GCN模型。
目标增强语句特征是指最终得到的增强语句特征。在一种可能实现方式中,获取至少三个语句的目标增强语句特征的整个处理过程为循环更新过程,该循环更新过程包括至少一个处理子过程,每个处理子过程均可以认为是一轮跨粒度更新过程,此种方式能够使得最终得到的目标文本特征充分融合整个目标文本的信息。在此种情况下,基于步骤2041至步骤2043实现了一个完整的处理子过程(第一个处理子过程)。在完成第一个处理子过程后,得到各个语句的第一基础语句特征、各个语句的第一增强语句特征和各个语句中的各个词语的第一词语特征,进而基于各个语句的第一基础语句特征、各个语句的第一增强语句特征和各个语句中的各个词语的第一词语特征执行下一个处理子过程。
对于基于步骤2041至步骤2043实现了第一个处理子过程的情况,基于至少三个语句的第一基础语句特征、至少三个语句中的各个词语的第一词语特征以及至少三个语句的第一增强语句特征,获取至少三个语句的目标增强语句特征的过程为:响应于处理过程不满足终止条件,在下一个处理子过程中,对于至少三个语句中的任一语句,基于上一个处理子过程得到的任一语句的基础语句特征和上一个处理子过程得到的任一语句中的各个词语的词语特征,获取任一语句的新的基础语句特征;对于任一语句中的任一词语,基于上一个处理子过程得到的任一语句的增强语句特征、上一个处理子过程得到的任一词语的词语特征和上一个处理子过程得到的相关词语的词语特征,获取任一词语的新的词语特征;基于至少三个语句的基础语句特征和目标文本对应的语句关联关系,获取至少三个语句的新的增强语句特征;以此类推,直至处理过程满足终止条件,得到至少三个语句的目标增强语句特征。
在后续的处理子过程中,下一个处理子过程是根据上一个处理子过程中得到的相关数据执行的。在一种可能实现方式中,基于上一个处理子过程得到的任一语句的增强语句特征、上一个处理子过程得到的任一词语的词语特征和上一个处理子过程得到的相关词语的词语特征,获取任一词语的新的词语特征的过程为:基于任一词语的初始词语特征、上一个处理子过程得到的任一语句的增强语句特征、上一个处理子过程得到的任一词语的词语特征和上一个处理子过程得到的相关词语的词语特征,获取任一词语的新的词语特征。在此过程中,在获取任一词语的新的词语特征的过程中,增加对该词语的初始词语特征的考虑,有利于提高获取的新的词语特征的可靠性。
每执行一个处理子过程,判断一次处理过程是否满足终止条件,若处理过程不满足终止条件,则按照相同的构思继续执行下一个处理子过程,以此类推,直至处理过程满足终止条件,将处理过程满足终止条件时得的至少三个语句的增强语句特征作为至少三个语句的目标增强语句特征。目标增强语句特征即为在执行多个处理子过程之后得到的较为全面的语句特征,既充分融合了词语级别的语义信息,又充分融合了目标文本级别的语义信息,在融合目标文本级别的语义信息的过程中,不仅考虑了短距离依赖级别的语句信息,还考虑了长距离依赖级别的语句信息。
在一种可能实现方式中,处理过程满足终止条件是指执行的处理子过程的数量达到参考阈值。参考阈值可以根据经验设置,也可以根据应用场景灵活调整,本申请实施例对此不加以限定。示例性地,参考阈值设置为6。
示例性地,在下一个处理子过程中,对于至少三个语句中的任一语句,基于上一个处理子过程得到的任一语句的基础语句特征和上一个处理子过程得到的任一语句中的各个词语的词语特征,获取任一语句的新的基础语句特征的过程可以通过调用S-LSTM模型实现。以第t个处理子过程为例,S-LSTM模型基于下述公式22至公式28实现输出第i个语句的新的基础语句特征
Figure BDA00026260088600002613
的过程。
Figure BDA0002626008860000261
Figure BDA0002626008860000262
Figure BDA0002626008860000263
Figure BDA0002626008860000264
Figure BDA0002626008860000265
Figure BDA0002626008860000266
Figure BDA0002626008860000267
需要说明的是,公式22至公式28中的参数的上标t和t-1分别表示第t个处理子过程和第t-1个处理子过程,公式22至公式28中的参数含义可以参见公式3至公式9中的参数含义,此处不再赘述。根据上述公式22至公式28可知,在第t个处理子过程中,第i个语句的基础语句特征基于该语句中的所有词语在第(t-1)个处理子过程中得到的词语特征计算得到,以使每个语句都可以完全掌握其包含的词语的语义信息。
示例性地,基于任一词语的初始词语特征、上一个处理子过程得到的任一语句的增强语句特征、上一个处理子过程得到的任一词语的词语特征和上一个处理子过程得到的相关词语的词语特征,获取任一词语的新的词语特征的过程同样可以通过调用S-LSTM模型实现。以第t个处理子过程为例,S-LSTM模型基于下述公式29至公式39实现输出第i个语句中的第j个词语的新的词语特征
Figure BDA0002626008860000268
的过程。
Figure BDA0002626008860000269
Figure BDA00026260088600002610
Figure BDA00026260088600002611
Figure BDA00026260088600002612
Figure BDA0002626008860000271
Figure BDA0002626008860000272
Figure BDA0002626008860000273
Figure BDA0002626008860000274
Figure BDA0002626008860000275
Figure BDA0002626008860000276
Figure BDA0002626008860000277
需要说明的是,公式29至公式39中的参数的上标t和t-1分别表示第t个处理子过程和第t-1个处理子过程,公式29至公式39中的参数含义可以参见公式10至公式20中的参数含义,此处不再赘述。根据上述公式29至公式39可知,在第t个处理子过程中,第i个语句中的第j个词语的词语特征
Figure BDA0002626008860000278
根据该词语的初始词语特征xi,j、该词语在第(t-1)个处理子过程中得到的词语特征
Figure BDA00026260088600002712
该词语的左相邻词语以及右相邻词语在第(t-1)个处理子过程中得到的词语特征
Figure BDA00026260088600002710
以及该词语所在的第i个语句在第(t-1)个处理子过程中得到的增强语句特征
Figure BDA00026260088600002711
进行更新得到。
在一种可能实现方式中,在基于至少三个语句的第一基础语句特征、至少三个语句中的各个词语的第一词语特征以及至少三个语句的第一增强语句特征,获取至少三个语句的目标增强语句特征的过程中,除了能够得到至少三个语句的目标增强语句特征外,还可以得到各个词语的目标词语特征。在一种可能实现方式中,将处理过程满足终止条件时得到的至少三个语句中的各个词语的词语特征作为各个词语的目标词语特征。目标词语特征即为通过多个处理子过程得到的能够较为全面地代表词语的特征,目标词语特征充分融合了语句级别的信息以及目标文本级别的信息。
步骤2045:基于至少三个语句的目标增强语句特征,获取目标文本的目标文本特征。
在获取各个语句的目标增强语句特征后,基于各个语句的目标增强语句特征,获取目标文本的目标文本特征。目标文本特征充分融合了目标文本中的语句级别的语义信息和词语级别的语义信息。
在一种可能实现方式中,基于各个语句的目标增强语句特征,获取目标文本的目标文本特征的过程包括以下两个步骤:
步骤1:将至少三个语句的目标增强语句特征根据至少三个语句在目标文本中的排列顺序进行拼接处理,得到目标文本的第一拼接文本特征。
在一种可能实现方式中,将至少三个语句的目标增强语句特征根据至少三个语句在目标文本中的排列顺序进行拼接处理的方式为:将至少三个语句的目标增强语句特征根据至少三个语句在目标文本中的排列顺序进行纵向拼接。对于每个语句的目标增强语句特征均为一个向量的情况,第一拼接文本特征为各个语句的向量纵向拼接后得到的拼接矩阵。
步骤2:对第一拼接文本特征进行指定处理,得到目标文本的目标文本特征。
指定处理是指根据预先设置的处理方式,用于对第一拼接文本特征进行合理的处理,以得到目标文本的目标文本特征。第一拼接文本特征为各个语句的目标增强语句特征简单拼接后的特征,对第一拼接文本特征进行指定处理,能够将各个语句的目标增强语句特征进行融合,以得到可靠性较高的目标文本特征。
在一种可能实现方式中,对第一拼接文本特征进行指定处理,得到目标文本的目标文本特征的方式包括但不限于以下三种:
方式1:对第一拼接文本特征进行平均池化处理,得到目标文本的目标文本特征。
在此种方式1中,直接将平均池化处理后得到的特征作为目标文本的目标文本特征。
方式2:对第一拼接文本特征进行最大池化处理,得到目标文本的目标文本特征。
在此种方式2中,直接将最大池化处理后得到的特征作为目标文本的目标文本特征。
方式3:对第一拼接文本特征进行平均池化处理,得到目标文本的第一池化特征;对第一拼接文本特征进行最大池化处理,得到目标文本的第二池化特征;将第一池化特征和第二池化特征进行拼接处理,得到目标文本的目标文本特征。
在一种可能实现方式中,第一池化特征和第二池化特征均为向量的形式,对第一池化特征和第二池化特征进行拼接处理是指将第一池化特征和第二池化特征进行横向拼接。
将第i个语句的目标增强语句特征表示为
Figure BDA0002626008860000281
在将各个词语的目标增强语句特征根据各个语句在目标文本中的排列顺序进行拼接处理后,得到第一拼接文本特征CT,对第一拼接特征进行指定处理,得到目标文本对应的目标文本特征的过程基于下述公式40实现:
Xfinal=[max(CT);avg(CT)] (公式40)
其中,Xfinal表示目标文本的目标文本特征;avg(CT)表示对第一拼接文本特征CT进行平均池化处理后得到的目标文本对应的第一池化特征;max(CT)表示对第一拼接文本特征进行最大池化处理后得到的目标文本对应的第二池化特征;[max(CT);avg(CT)]表示将第一池化特征和第二池化特征进行拼接处理后的特征。
在另一种可能实现方式中,基于至少三个语句的目标增强语句特征,获取目标文本的目标文本特征的过程包括以下步骤(1)至步骤(4):
步骤(1):对于至少三个语句中的任一语句,将任一语句中的各个词语的目标词语特征根据各个词语在任一语句中的排列顺序进行拼接处理,得到任一语句的拼接语句特征。
其中,任一语句中的各个词语的目标词语特征基于任一语句的第一基础语句特征、任一语句中的各个词语的第一词语特征以及任一语句的第一增强语句特征获得。任一词语中的各个词语的目标词语特征的获取过程参见步骤2044中的相关内容,此处不再赘述。
在一种可能实现方式中,将任一语句中的各个词语的目标词语特征根据各个词语在任一语句中的排列顺序进行拼接处理是指:将任一语句中的各个词语的目标词语特征根据各个词语在任一语句中的排列顺序进行纵向拼接。
步骤(2):对任一语句的拼接语句特征进行指定处理,得到任一语句的补充语句特征。
对任一语句的拼接语句特征进行指定处理,得到任一语句的补充语句特征的方式包括但不限于以下三种:1、对任一语句的拼接语句特征进行平均池化处理,得到任一语句的补充语句特征。2、对任一语句的拼接语句特征进行最大池化处理,得到任一语句的补充语句特征。3、对任一语句的拼接语句特征分别进行平均池化处理和最大池化处理,将平均池化处理后得到的特征和最大池化处理后得到的特征的拼接特征作为任一语句的补充语句特征。
步骤(3):基于任一语句的目标增强语句特征和任一语句的补充语句特征,确定任一语句的参考语句特征。
在一种可能实现方式中,基于任一语句的目标增强语句特征和任一语句的补充语句特征,确定任一语句的参考语句特征的方式为:对任一语句的目标增强语句特征和任一语句的补充语句特征进行拼接处理,得到任一语句的参考语句特征。
在另一种可能实现方式中,基于任一语句的目标增强语句特征和任一语句的补充语句特征,确定任一语句的参考语句特征的方式为:将任一语句的目标增强语句特征和任一语句的补充语句特征进行融合处理,得到任一语句的参考语句特征。本申请实施例对融合方式不加以限定,示例性地,融合方式为将任一语句的目标增强语句特征和任一语句的补充语句特征输入融合处理模型,将融合处理模型输出的特征作为任一语句的参考语句特征。
步骤(4):基于至少三个语句的参考语句特征,获取目标文本的目标文本特征。
在一种可能实现方式中,基于至少三个语句的参考语句特征,获取目标文本的目标文本特征的过程为:将至少三个语句的参考语句特征根据至少三个语句在目标文本中的排列顺序进行拼接处理,得到目标文本的第二拼接文本特征;对第二拼接文本特征进行指定处理,得到目标文本的目标文本特征。该过程的实现方式参见直接基于至少三个语句的目标增强语句特征获取目标文本的目标文本特征的实现方式,此处不再赘述。
在基于上述步骤(1)至步骤(4)获取目标文本的目标文本特征的过程中,综合考虑了目标词语特征和目标增强语句特征,获取的目标文本特征能够更加全面的代表目标文本。
示例性地,获取目标文本的目标文本特征的过程如图4所示。对于一个包括4个语句(语句S1、语句S2、语句S3和语句S4)的目标文本P而言,将该目标文本P转化成段落关联图;然后基于跨粒度更细机制在段落关联图中抽取目标文本的目标文本特征用于后续具体的任务。在跨粒度更细机制中,包括语句特征更新和词语特征更新两大分支,在语句特征更新的分支中,包括词-句更新(参见步骤2041)和句-句更新(参见步骤2043),在词语特征更新的分支,包括句-词更新(参见步骤2042)。
需要说明的是,以上步骤2041至步骤2045仅示出了一种基于各个语句的初始基础语句特征和目标文本对应的语句关联关系,获取目标文本的目标文本特征的示例性实施例。在另一种可能实现方式中,基于至少三个语句的初始基础语句特征和目标文本对应的语句关联关系,获取目标文本的目标文本特征还可以基于下述过程实现:基于目标文本对应的语句关联关系,获取目标文本对应的邻接矩阵和度矩阵;基于邻接矩阵、度矩阵和至少三个语句的初始基础语句特征,获取至少三个语句的目标增强语句特征;基于至少三个语句的目标增强语句特征,获取目标文本的目标文本特征。在此种情况下,无需经过多个处理子过程即可获取目标文本的目标文本特征,目标文本的目标文本特征的获取效率较高。
目标文本的目标文本特征为能够较为全面代表目标文本的计算机能够识别的特征,在获取目标文本的目标文本特征后,对目标文本特征进行处理,以实现后续的具体任务,如,分类任务或生成任务等。根据具体任务的不同,应用场景亦不同,在不同的应用场景下,可能具有不同的对目标文本特征进行处理的处理方式,本申请实施例对此不加以限定。在一种可能实现方式中,对目标文本特征进行处理,包括以下至少一种:对目标文本特征进行文本分类处理,基于分类结果得到目标文本对应的文本类别;对目标文本特征进行文本生成处理,基于生成结果得到目标文本对应的生成文本。
在示例性实施例中,对目标文本特征进行文本分类处理是指将目标文本特征输入文本分类器进行类别预测;对目标文本特征进行文本生成处理是指将目标文本特征输入文本生成器进行文本生成。本申请实施例对文本分类器和文本生成器的结构不加以限定。
需要说明的是,本申请实施例提供的对目标文本进行处理的方法既可应用于实际应用场景,也可以应用于模型训练场景,本申请实施例对此不加以限定。对于应用于模型训练场景的情况,目标文本为具有标准处理结果的文本,在对目标文本特征进行处理后,可以基于目标文本特征的预测处理结果以及目标文本的标准处理结果计算损失函数(例如,交叉熵损失函数等),然后利用损失函数反向更新模型(S-LSTM模型、GCN模型等)的参数。
在本申请实施例中,首先针对目标文本构建一种拟合文本中的语句之间、语句和词语之间的相互依赖的段落关联图,该段落关联图在长距离的语句之间建立直接的关联关系,使得特征提取过程更好地关注到目标文本中的长距离依赖关系。其次,本申请实施例提供了一种包含“词-句”更新、“句-句”更新和“句-词”更新三个计算过程的跨粒度更新机制,在段落关联图中抽取充分融合上下文信息的表示用以具体的任务。本申请实施例提供的方法能够充分建模目标文本中的长距离依赖关系,并抽取有效的多粒度上下文表示,从而实现更好地关注到远距离的语句信息的效果,提升目标文本的编码质量,使获取的目标文本特征更加充分地融合语句级别和词语级别的语义,进而提升具体任务(分类、生成等)的实现效果。在示例性实例中,本申请实施例提供的方法可应用于阅读理解系统等涉及长文本理解的场景中,通过提高目标文本的编码质量,提高具体任务的性能。
在本申请实施例中,目标文本的目标文本特征根据目标文本对应的语句关联关系得到,语句关联关系中包括相邻语句之间的关联关系和非相邻语句之间的关联关系。其中,相邻语句之间的关联关系能够反映语句之间的短距离依赖关系,非相邻语句之间的关联关系能够反映语句之间的长距离依赖关系。因此,在基于语句关联关系获取目标文本特征的过程中,不仅关注语句之间的短距离依赖关系,还关注语句之间的长距离依赖关系,使得目标文本特征能够更加全面地代表目标文本,获取的目标文本特征的质量较好,对目标文本特征进行处理的效果较佳。
参见图5,本申请实施例提供了一种文本处理装置,该装置包括:
第一获取单元501,用于获取待处理的目标文本,目标文本包括至少三个语句,任一语句包括至少一个词语;
构建单元502,用于基于至少三个语句,构建目标文本对应的语句关联关系,语句关联关系包括相邻的两个语句之间的关联关系和非相邻的两个语句之间的关联关系;
第二获取单元503,用于对于至少三个语句中的任一语句,基于任一语句中的至少一个词语的初始词语特征,获取任一语句的初始基础语句特征;
第三获取单元504,用于基于至少三个语句的初始基础语句特征和目标文本对应的语句关联关系,获取目标文本的目标文本特征;
处理单元505,用于对目标文本特征进行处理。
在一种可能实现方式中,第三获取单元504,用于对于至少三个语句中的任一语句,基于任一语句的初始基础语句特征和任一语句中的各个词语的初始词语特征,获取任一语句的第一基础语句特征;对于任一语句中的任一词语,基于任一语句的初始增强语句特征、任一词语的初始词语特征和相关词语的初始词语特征,获取任一词语的第一词语特征,任一语句的初始增强语句特征为根据目标文本对应的语句关联关系对任一语句的初始基础语句特征进行更新后得到的,相关词语为任一语句中与任一词语满足相关条件的词语;基于至少三个语句的第一基础语句特征和目标文本对应的语句关联关系,获取至少三个语句的第一增强语句特征;基于至少三个语句的第一基础语句特征、至少三个语句中的各个词语的第一词语特征以及至少三个语句的第一增强语句特征,获取至少三个语句的目标增强语句特征;基于至少三个语句的目标增强语句特征,获取目标文本的目标文本特征。
在一种可能实现方式中,第三获取单元504,还用于将至少三个语句的目标增强语句特征根据至少三个语句在目标文本中的排列顺序进行拼接处理,得到目标文本的第一拼接文本特征;对第一拼接文本特征进行平均池化处理,得到目标文本的第一池化特征;对第一拼接文本特征进行最大池化处理,得到目标文本的第二池化特征;将第一池化特征和第二池化特征进行拼接处理,得到目标文本的目标文本特征。
在一种可能实现方式中,第三获取单元504,还用于对于至少三个语句中的任一语句,将任一语句中的各个词语的目标词语特征根据各个词语在任一语句中的排列顺序进行拼接处理,得到任一语句的拼接语句特征,任一语句中的各个词语的目标词语特征基于任一语句的第一基础语句特征、任一语句中的各个词语的第一词语特征以及任一语句的第一增强语句特征获得;对任一语句的拼接语句特征进行指定处理,得到任一语句的补充语句特征;基于任一语句的目标增强语句特征和任一语句的补充语句特征,确定任一语句的参考语句特征;基于至少三个语句的参考语句特征,获取目标文本的目标文本特征。
在一种可能实现方式中,第三获取单元504,还用于调用图循环网络模型对任一语句的初始基础语句特征和任一语句中的各个词语的初始词语特征进行处理,得到图循环网络模型输出的任一语句的第一基础语句特征;调用图循环网络模型对任一语句的初始增强语句特征、任一词语的初始词语特征和相关词语的初始词语特征进行处理,得到图循环网络模型输出的任一词语的第一词语特征;调用图卷积网络模型对图循环网络模型输出的至少三个语句的第一基础语句特征和目标文本对应的语句关联关系进行处理,得到图卷积网络模型输出的至少三个语句的第一增强语句特征;基于图循环网络模型输出的至少三个语句的第一基础语句特征、图循环网络模型输出的至少三个语句中的各个词语的第一词语特征以及图卷积网络模型输出的至少三个语句的第一增强语句特征,获取至少三个语句的目标增强语句特征。
在一种可能实现方式中,第三获取单元504,还用于调用图卷积网络模型基于目标文本对应的语句关联关系,获取目标文本对应的邻接矩阵和度矩阵;调用图卷积网络模型对邻接矩阵、度矩阵和至少三个语句的第一基础语句特征进行处理,得到图卷积网络模型输出的至少三个语句的第一增强语句特征。
在一种可能实现方式中,构建单元502,用于在至少三个语句中任选两个语句构成一个基础语句组;在基于至少三个语句构成的各个基础语句组中,获取目标语句组集合,目标语句组集合由第一语句组集合和第二语句组集合构成,第一语句组集合为由相邻的两个语句构成的基础语句组的集合,第二语句组集合为由非相邻且满足距离条件的两个语句构成的基础语句组的集合,满足距离条件包括在目标文本中所处位置之间间隔的语句的数量不大于数量阈值;对于目标语句组集合中的任一目标语句组,在任一目标语句组中的两个语句之间建立关联关系;将基于目标语句组集合中的各个目标语句组建立的关联关系作为目标文本对应的语句关联关系。
在一种可能实现方式中,构建单元502,用于在至少三个语句中任选两个语句构成一个基础语句组;对于基于至少三个语句构成的各个基础语句组中的任一基础语句组,在任一基础语句组中的两个语句之间建立关联关系;将基于各个基础语句组建立的关联关系作为目标文本对应的语句关联关系。
在一种可能实现方式中,在任一目标语句组中的两个语句之间建立的关联关系为无方向的关联关系或者有方向的关联关系,有方向的关联关系由在目标文本中所处位置靠前的语句指向在目标文本中所处位置靠后的语句。
在一种可能实现方式中,参见图6,该装置还包括:
第四获取单元506,用于对于任一语句中的任一词语,获取任一词语的编码词语特征、全局词语特征、动态词语特征中的至少一个;基于编码词语特征、全局词语特征、动态词语特征中的至少一个,获取任一词语的初始词语特征。
在本申请实施例中,目标文本的目标文本特征根据目标文本对应的语句关联关系得到,语句关联关系中包括相邻语句之间的关联关系和非相邻语句之间的关联关系。其中,相邻语句之间的关联关系能够反映语句之间的短距离依赖关系,非相邻语句之间的关联关系能够反映语句之间的长距离依赖关系。因此,在基于语句关联关系获取目标文本特征的过程中,不仅关注语句之间的短距离依赖关系,还关注语句之间的长距离依赖关系,使得目标文本特征能够更加全面地代表目标文本,获取的目标文本特征的质量较好,对目标文本特征进行处理的效果较佳。
需要说明的是,上述实施例提供的装置在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图7是本申请实施例提供的一种服务器的结构示意图,该服务器可因配置或性能不同而产生比较大的差异,可以包括一个或多个处理器(Central Processing Units,CPU)701和一个或多个存储器702,其中,该一个或多个存储器702中存储有至少一条程序代码,该至少一条程序代码由该一个或多个处理器701加载并执行,以实现上述各个方法实施例提供的文本处理方法。当然,该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器还可以包括其他用于实现设备功能的部件,在此不做赘述。
图8是本申请实施例提供的一种终端的结构示意图。终端还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。通常,终端包括有:处理器801和存储器802。
处理器801可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器801可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器801也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器801可以集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器801还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器802可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器802还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器802中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器801所执行以实现本申请中方法实施例提供的文本处理方法。
在一些实施例中,终端还可选包括有:外围设备接口803和至少一个外围设备。处理器801、存储器802和外围设备接口803之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口803相连。具体地,外围设备包括:射频电路804、显示屏805、摄像头组件806、音频电路807、定位组件808和电源809中的至少一种。
外围设备接口803可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器801和存储器802。在一些实施例中,处理器801、存储器802和外围设备接口803被集成在同一芯片或电路板上;在一些其他实施例中,处理器801、存储器802和外围设备接口803中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路804用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路804通过电磁信号与通信网络以及其他通信设备进行通信。射频电路804将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路804包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路804可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路804还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏805用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏805是触摸显示屏时,显示屏805还具有采集在显示屏805的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器801进行处理。此时,显示屏805还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏805可以为一个,设置在终端的前面板;在另一些实施例中,显示屏805可以为至少两个,分别设置在终端的不同表面或呈折叠设计;在再一些实施例中,显示屏805可以是柔性显示屏,设置在终端的弯曲表面上或折叠面上。甚至,显示屏805还可以设置成非矩形的不规则图形,也即异形屏。显示屏805可以采用LCD(LiquidCrystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件806用于采集图像或视频。可选地,摄像头组件806包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件806还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路807可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器801进行处理,或者输入至射频电路804以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器801或射频电路804的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路807还可以包括耳机插孔。
定位组件808用于定位终端的当前地理位置,以实现导航或LBS(Location BasedService,基于位置的服务)。定位组件808可以是基于美国的GPS(Global PositioningSystem,全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。
电源809用于为终端中的各个组件进行供电。电源809可以是交流电、直流电、一次性电池或可充电电池。当电源809包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
在一些实施例中,终端还包括有一个或多个传感器810。该一个或多个传感器810包括但不限于:加速度传感器811、陀螺仪传感器812、压力传感器813、指纹传感器814、光学传感器815以及接近传感器816。
加速度传感器811可以检测以终端建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器811可以用于检测重力加速度在三个坐标轴上的分量。处理器801可以根据加速度传感器811采集的重力加速度信号,控制显示屏805以横向视图或纵向视图进行用户界面的显示。加速度传感器811还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器812可以检测终端的机体方向及转动角度,陀螺仪传感器812可以与加速度传感器811协同采集用户对终端的3D动作。处理器801根据陀螺仪传感器812采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器813可以设置在终端的侧边框和/或显示屏805的下层。当压力传感器813设置在终端的侧边框时,可以检测用户对终端的握持信号,由处理器801根据压力传感器813采集的握持信号进行左右手识别或快捷操作。当压力传感器813设置在显示屏805的下层时,由处理器801根据用户对显示屏805的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器814用于采集用户的指纹,由处理器801根据指纹传感器814采集到的指纹识别用户的身份,或者,由指纹传感器814根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器801授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器814可以被设置在终端的正面、背面或侧面。当终端上设置有物理按键或厂商Logo时,指纹传感器814可以与物理按键或厂商Logo集成在一起。
光学传感器815用于采集环境光强度。在一个实施例中,处理器801可以根据光学传感器815采集的环境光强度,控制显示屏805的显示亮度。具体地,当环境光强度较高时,调高显示屏805的显示亮度;当环境光强度较低时,调低显示屏805的显示亮度。在另一个实施例中,处理器801还可以根据光学传感器815采集的环境光强度,动态调整摄像头组件806的拍摄参数。
接近传感器816,也称距离传感器,通常设置在终端的前面板。接近传感器816用于采集用户与终端的正面之间的距离。在一个实施例中,当接近传感器816检测到用户与终端的正面之间的距离逐渐变小时,由处理器801控制显示屏805从亮屏状态切换为息屏状态;当接近传感器816检测到用户与终端的正面之间的距离逐渐变大时,由处理器801控制显示屏805从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图8中示出的结构并不构成对终端的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
在示例性实施例中,还提供了一种计算机设备,该计算机设备包括处理器和存储器,该存储器中存储有至少一条程序代码。该至少一条程序代码由一个或者一个以上处理器加载并执行,以实现上述任一种文本处理方法。
在示例性实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有至少一条程序代码,该至少一条程序代码由计算机设备的处理器加载并执行,以实现上述任一种文本处理方法。
在一种可能实现方式中,上述计算机可读存储介质可以是只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、只读光盘(Compact DiscRead-Only Memory,CD-ROM)、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述任一种文本处理方法。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
需要说明的是,本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
以上所述仅为本申请的示例性实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (13)

1.一种文本处理方法,其特征在于,所述方法包括:
获取待处理的目标文本,所述目标文本包括至少三个语句,任一语句包括至少一个词语;
基于所述至少三个语句,构建所述目标文本对应的语句关联关系,所述语句关联关系包括相邻的两个语句之间的关联关系和非相邻的两个语句之间的关联关系;
对于所述至少三个语句中的任一语句,基于所述任一语句中的至少一个词语的初始词语特征,获取所述任一语句的初始基础语句特征;
基于所述至少三个语句的初始基础语句特征和所述目标文本对应的语句关联关系,获取所述目标文本的目标文本特征,对所述目标文本特征进行处理。
2.根据权利要求1所述的方法,其特征在于,所述基于所述至少三个语句的初始基础语句特征和所述目标文本对应的语句关联关系,获取所述目标文本的目标文本特征,包括:
对于所述至少三个语句中的任一语句,基于所述任一语句的初始基础语句特征和所述任一语句中的各个词语的初始词语特征,获取所述任一语句的第一基础语句特征;
对于所述任一语句中的任一词语,基于所述任一语句的初始增强语句特征、所述任一词语的初始词语特征和相关词语的初始词语特征,获取所述任一词语的第一词语特征,所述任一语句的初始增强语句特征为根据所述目标文本对应的语句关联关系对所述任一语句的初始基础语句特征进行更新后得到的,所述相关词语为所述任一语句中与所述任一词语满足相关条件的词语;
基于所述至少三个语句的第一基础语句特征和所述目标文本对应的语句关联关系,获取所述至少三个语句的第一增强语句特征;
基于所述至少三个语句的第一基础语句特征、所述至少三个语句中的各个词语的第一词语特征以及所述至少三个语句的第一增强语句特征,获取所述至少三个语句的目标增强语句特征;
基于所述至少三个语句的目标增强语句特征,获取所述目标文本的目标文本特征。
3.根据权利要求2所述的方法,其特征在于,所述基于所述至少三个语句的目标增强语句特征,获取所述目标文本的目标文本特征,包括:
将所述至少三个语句的目标增强语句特征根据所述至少三个语句在所述目标文本中的排列顺序进行拼接处理,得到所述目标文本的第一拼接文本特征;
对所述第一拼接文本特征进行平均池化处理,得到所述目标文本的第一池化特征;对所述第一拼接文本特征进行最大池化处理,得到所述目标文本的第二池化特征;
将所述第一池化特征和所述第二池化特征进行拼接处理,得到所述目标文本的目标文本特征。
4.根据权利要求2所述的方法,其特征在于,所述基于所述至少三个语句的目标增强语句特征,获取所述目标文本的目标文本特征,包括:
对于所述至少三个语句中的任一语句,将所述任一语句中的各个词语的目标词语特征根据各个词语在所述任一语句中的排列顺序进行拼接处理,得到所述任一语句的拼接语句特征,所述任一语句中的各个词语的目标词语特征基于所述任一语句的第一基础语句特征、所述任一语句中的各个词语的第一词语特征以及所述任一语句的第一增强语句特征获得;
对所述任一语句的拼接语句特征进行指定处理,得到所述任一语句的补充语句特征;
基于所述任一语句的目标增强语句特征和所述任一语句的补充语句特征,确定所述任一语句的参考语句特征;
基于所述至少三个语句的参考语句特征,获取所述目标文本的目标文本特征。
5.根据权利要求2所述的方法,其特征在于,所述基于所述任一语句的初始基础语句特征和所述任一语句中的各个词语的初始词语特征,获取所述任一语句的第一基础语句特征,包括:
调用图循环网络模型对所述任一语句的初始基础语句特征和所述任一语句中的各个词语的初始词语特征进行处理,得到所述图循环网络模型输出的所述任一语句的第一基础语句特征;
所述基于所述任一语句的初始增强语句特征、所述任一词语的初始词语特征和相关词语的初始词语特征,获取所述任一词语的第一词语特征,包括:
调用所述图循环网络模型对所述任一语句的初始增强语句特征、所述任一词语的初始词语特征和相关词语的初始词语特征进行处理,得到所述图循环网络模型输出的所述任一词语的第一词语特征;
所述基于所述至少三个语句的第一基础语句特征和所述目标文本对应的语句关联关系,获取所述至少三个语句的第一增强语句特征,包括:
调用图卷积网络模型对所述图循环网络模型输出的所述至少三个语句的第一基础语句特征和所述目标文本对应的语句关联关系进行处理,得到所述图卷积网络模型输出的所述至少三个语句的第一增强语句特征;
所述基于所述至少三个语句的第一基础语句特征、所述至少三个语句中的各个词语的第一词语特征以及所述至少三个语句的第一增强语句特征,获取所述至少三个语句的目标增强语句特征,包括:
基于所述图循环网络模型输出的所述至少三个语句的第一基础语句特征、所述图循环网络模型输出的所述至少三个语句中的各个词语的第一词语特征以及所述图卷积网络模型输出的所述至少三个语句的第一增强语句特征,获取所述至少三个语句的目标增强语句特征。
6.根据权利要求5所述的方法,其特征在于,所述调用图卷积网络模型对所述图循环网络模型输出的所述至少三个语句的第一基础语句特征和所述目标文本对应的语句关联关系进行处理,得到所述图卷积网络模型输出的所述至少三个语句的第一增强语句特征,包括:
调用所述图卷积网络模型基于所述目标文本对应的语句关联关系,获取所述目标文本对应的邻接矩阵和度矩阵;
调用所述图卷积网络模型对所述邻接矩阵、所述度矩阵和所述至少三个语句的第一基础语句特征进行处理,得到所述图卷积网络模型输出的所述至少三个语句的第一增强语句特征。
7.根据权利要求1-6任一所述的方法,其特征在于,所述基于所述至少三个语句,构建所述目标文本对应的语句关联关系,包括:
在所述至少三个语句中任选两个语句构成一个基础语句组;
在基于所述至少三个语句构成的各个基础语句组中,获取目标语句组集合,所述目标语句组集合由第一语句组集合和第二语句组集合构成,所述第一语句组集合为由相邻的两个语句构成的基础语句组的集合,所述第二语句组集合为由非相邻且满足距离条件的两个语句构成的基础语句组的集合,所述满足距离条件包括在所述目标文本中所处位置之间间隔的语句的数量不大于数量阈值;
对于所述目标语句组集合中的任一目标语句组,在所述任一目标语句组中的两个语句之间建立关联关系;将基于所述目标语句组集合中的各个目标语句组建立的关联关系作为所述目标文本对应的语句关联关系。
8.根据权利要求1-6任一所述的方法,其特征在于,所述基于所述至少三个语句,构建所述目标文本对应的语句关联关系,包括:
在所述至少三个语句中任选两个语句构成一个基础语句组;
对于基于所述至少三个语句构成的各个基础语句组中的任一基础语句组,在所述任一基础语句组中的两个语句之间建立关联关系;将基于各个基础语句组建立的关联关系作为所述目标文本对应的语句关联关系。
9.根据权利要求7所述的方法,其特征在于,所述在所述任一目标语句组中的两个语句之间建立的关联关系为无方向的关联关系或者有方向的关联关系,所述有方向的关联关系由在所述目标文本中所处位置靠前的语句指向在所述目标文本中所处位置靠后的语句。
10.根据权利要求1-6任一所述的方法,其特征在于,所述基于所述任一语句中的至少一个词语的初始词语特征,获取所述任一语句的初始基础语句特征之前,所述方法还包括:
对于所述任一语句中的任一词语,获取所述任一词语的编码词语特征、全局词语特征、动态词语特征中的至少一个;
基于所述编码词语特征、全局词语特征、动态词语特征中的至少一个,获取所述任一词语的初始词语特征。
11.一种文本处理装置,其特征在于,所述装置包括:
第一获取单元,用于获取待处理的目标文本,所述目标文本包括至少三个语句,任一语句包括至少一个词语;
构建单元,用于基于所述至少三个语句,构建所述目标文本对应的语句关联关系,所述语句关联关系包括相邻的两个语句之间的关联关系和非相邻的两个语句之间的关联关系;
第二获取单元,用于对于所述至少三个语句中的任一语句,基于所述任一语句中的至少一个词语的初始词语特征,获取所述任一语句的初始基础语句特征;
第三获取单元,用于基于所述至少三个语句的初始基础语句特征和所述目标文本对应的语句关联关系,获取所述目标文本的目标文本特征;
处理单元,用于对所述目标文本特征进行处理。
12.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条程序代码,所述至少一条程序代码由所述处理器加载并执行,以实现如权利要求1至10任一所述的文本处理方法。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行,以实现如权利要求1至10任一所述的文本处理方法。
CN202010797003.8A 2020-08-10 2020-08-10 文本处理方法、装置、设备及存储介质 Active CN111753498B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010797003.8A CN111753498B (zh) 2020-08-10 2020-08-10 文本处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010797003.8A CN111753498B (zh) 2020-08-10 2020-08-10 文本处理方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN111753498A true CN111753498A (zh) 2020-10-09
CN111753498B CN111753498B (zh) 2024-01-26

Family

ID=72713193

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010797003.8A Active CN111753498B (zh) 2020-08-10 2020-08-10 文本处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111753498B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113033211A (zh) * 2021-03-25 2021-06-25 联想(北京)有限公司 一种数据处理方法及装置
CN113157853A (zh) * 2021-05-27 2021-07-23 中国平安人寿保险股份有限公司 问题挖掘方法、装置、电子设备及存储介质
CN113822019A (zh) * 2021-09-22 2021-12-21 科大讯飞股份有限公司 文本规整方法、相关设备及可读存储介质
CN114579740A (zh) * 2022-01-20 2022-06-03 马上消费金融股份有限公司 文本分类方法、装置、电子设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050278325A1 (en) * 2004-06-14 2005-12-15 Rada Mihalcea Graph-based ranking algorithms for text processing
WO2008023470A1 (fr) * 2006-08-21 2008-02-28 Kyoto University Procédé de recherche de phrase, moteur de recherche de phrase, programme informatique, support d'enregistrement et stockage de document
US20130013291A1 (en) * 2011-07-06 2013-01-10 Invertix Corporation Systems and methods for sentence comparison and sentence-based search
CN108604228A (zh) * 2016-02-09 2018-09-28 国际商业机器公司 用于多层单词表示的语言特征生成的系统和方法
CN110019782A (zh) * 2017-09-26 2019-07-16 北京京东尚科信息技术有限公司 用于输出文本类别的方法和装置
CN110147533A (zh) * 2019-01-24 2019-08-20 腾讯科技(深圳)有限公司 编码方法、装置、设备及存储介质
CN110717017A (zh) * 2019-10-17 2020-01-21 腾讯科技(深圳)有限公司 一种处理语料的方法
CN111339774A (zh) * 2020-02-07 2020-06-26 腾讯科技(深圳)有限公司 文本的实体关系抽取方法和模型训练方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050278325A1 (en) * 2004-06-14 2005-12-15 Rada Mihalcea Graph-based ranking algorithms for text processing
WO2008023470A1 (fr) * 2006-08-21 2008-02-28 Kyoto University Procédé de recherche de phrase, moteur de recherche de phrase, programme informatique, support d'enregistrement et stockage de document
US20130013291A1 (en) * 2011-07-06 2013-01-10 Invertix Corporation Systems and methods for sentence comparison and sentence-based search
CN108604228A (zh) * 2016-02-09 2018-09-28 国际商业机器公司 用于多层单词表示的语言特征生成的系统和方法
CN110019782A (zh) * 2017-09-26 2019-07-16 北京京东尚科信息技术有限公司 用于输出文本类别的方法和装置
CN110147533A (zh) * 2019-01-24 2019-08-20 腾讯科技(深圳)有限公司 编码方法、装置、设备及存储介质
CN110717017A (zh) * 2019-10-17 2020-01-21 腾讯科技(深圳)有限公司 一种处理语料的方法
CN111339774A (zh) * 2020-02-07 2020-06-26 腾讯科技(深圳)有限公司 文本的实体关系抽取方法和模型训练方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113033211A (zh) * 2021-03-25 2021-06-25 联想(北京)有限公司 一种数据处理方法及装置
CN113157853A (zh) * 2021-05-27 2021-07-23 中国平安人寿保险股份有限公司 问题挖掘方法、装置、电子设备及存储介质
CN113157853B (zh) * 2021-05-27 2024-02-06 中国平安人寿保险股份有限公司 问题挖掘方法、装置、电子设备及存储介质
CN113822019A (zh) * 2021-09-22 2021-12-21 科大讯飞股份有限公司 文本规整方法、相关设备及可读存储介质
CN114579740A (zh) * 2022-01-20 2022-06-03 马上消费金融股份有限公司 文本分类方法、装置、电子设备及存储介质
CN114579740B (zh) * 2022-01-20 2023-12-05 马上消费金融股份有限公司 文本分类方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN111753498B (zh) 2024-01-26

Similar Documents

Publication Publication Date Title
CN109299315B (zh) 多媒体资源分类方法、装置、计算机设备及存储介质
CN110097019B (zh) 字符识别方法、装置、计算机设备以及存储介质
CN111091132B (zh) 基于人工智能的图像识别方法、装置、计算机设备及介质
CN111243668B (zh) 分子结合位点检测方法、装置、电子设备及存储介质
CN111753498B (zh) 文本处理方法、装置、设备及存储介质
CN110135336B (zh) 行人生成模型的训练方法、装置及存储介质
CN110147533B (zh) 编码方法、装置、设备及存储介质
CN111930964B (zh) 内容处理方法、装置、设备及存储介质
CN111104980B (zh) 确定分类结果的方法、装置、设备及存储介质
CN111091166A (zh) 图像处理模型训练方法、图像处理方法、设备及存储介质
CN112381707B (zh) 图像生成方法、装置、设备以及存储介质
CN111581958A (zh) 对话状态确定方法、装置、计算机设备及存储介质
CN110555102A (zh) 媒体标题识别方法、装置及存储介质
CN114677350A (zh) 连接点提取方法、装置、计算机设备及存储介质
CN112037305B (zh) 对图像中的树状组织进行重建的方法、设备及存储介质
CN114333774A (zh) 语音识别方法、装置、计算机设备及存储介质
CN113642359B (zh) 人脸图像生成方法、装置、电子设备及存储介质
CN113570510A (zh) 图像处理方法、装置、设备及存储介质
CN112287070A (zh) 词语的上下位关系确定方法、装置、计算机设备及介质
CN115168643B (zh) 音频处理方法、装置、设备及计算机可读存储介质
CN112989134B (zh) 节点关系图的处理方法、装置、设备及存储介质
CN111310701B (zh) 手势识别方法、装置、设备及存储介质
CN115130456A (zh) 语句解析、匹配模型的训练方法、装置、设备及存储介质
CN114462580A (zh) 文本识别模型的训练方法、文本识别方法、装置和设备
CN114328815A (zh) 文本映射模型的处理方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40030086

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant