CN111680510B - 文本处理方法、装置、计算机设备以及存储介质 - Google Patents

文本处理方法、装置、计算机设备以及存储介质 Download PDF

Info

Publication number
CN111680510B
CN111680510B CN202010647661.9A CN202010647661A CN111680510B CN 111680510 B CN111680510 B CN 111680510B CN 202010647661 A CN202010647661 A CN 202010647661A CN 111680510 B CN111680510 B CN 111680510B
Authority
CN
China
Prior art keywords
query
character
feature
model
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010647661.9A
Other languages
English (en)
Other versions
CN111680510A (zh
Inventor
杨洁
陈绍毅
廖梦
徐进
王志平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010647661.9A priority Critical patent/CN111680510B/zh
Publication of CN111680510A publication Critical patent/CN111680510A/zh
Application granted granted Critical
Publication of CN111680510B publication Critical patent/CN111680510B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本申请实施例公开了一种文本处理方法、装置、计算机设备以及存储介质,文本处理方法可以应用于人工智能领域,文本处理方法包括:获取查询文本,查询文本包括多个查询字符,根据查询文本获取查询字符对应的查询多义词,将查询多义词的多个语义特征作为查询字符的多义词特征,提取查询字符的字符特征,将多义词特征和字符特征拼接为查询字符的查询特征,将多个查询字符的查询特征组合为查询特征序列,识别查询特征序列,得到查询文本的序列标注结果。采用本申请,可以提高序列标注的效率。

Description

文本处理方法、装置、计算机设备以及存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种文本处理方法、装置、计算机设备以及存储介质。
背景技术
序列标注是自然语言处理中最常见的应用,序列标注包括词性标注,命名实体标注,词义角色标注等等。所谓“序列标注”,就是说对于一个输入文本,为输入文本中的每个字符打上标签集合中的某个标签,且这些标签之间是相互联系的。后续,基于序列标注结果可以进行文本分词,提取文本关键词等等。
目前,序列标注主要由人工完成,人工理解整个输入文本后,为输入文本中的每个字符设置匹配的标签。由于人工标注输入文本需要经历人工文本理解,人工设置标签等过程,会耗费大量的时间,造成序列标注的效率低下。
发明内容
本申请实施例提供一种文本处理方法、装置、计算设备以及存储介质,可以提高序列标注的效率。
本申请实施例一方面提供了一种文本处理方法,包括:
获取查询文本,所述查询文本包括多个查询字符;
根据所述查询文本获取查询字符对应的查询多义词,将所述查询多义词的多个语义特征作为所述查询字符的多义词特征;
提取所述查询字符的字符特征,将所述多义词特征和所述字符特征拼接为所述查询字符的查询特征;
将所述多个查询字符的查询特征组合为查询特征序列,识别所述查询特征序列,得到所述查询文本的序列标注结果。
其中,所述获取查询文本,包括:
显示即时通信应用程序的主界面;所述主界面包括搜索选项;
当所述搜索选项被触发时,显示搜索界面;
在所述搜索界面接收所述查询文本;
所述方法还包括:
根据所述序列标注结果确定查询信息流,在所述搜索界面显示所述查询信息流。
本申请实施例一方面提供了一种文本处理装置,包括:
获取模块,用于获取查询文本,所述查询文本包括多个查询字符;
查找模块,用于根据所述查询文本获取查询字符对应的查询多义词;
确定模块,用于将所述查询多义词的多个语义特征作为所述查询字符的多义词特征;
提取模块,用于提取所述查询字符的字符特征;
拼接模块,用于将所述多义词特征和所述字符特征拼接为所述查询字符的查询特征;
组合模块,用于将所述多个查询字符的查询特征组合为查询特征序列;
识别模块,用于识别所述查询特征序列,得到所述查询文本的序列标注结果。
其中,所述序列标注结果包括每个查询字符的目标字符权重;
所述识别模块,包括:
第一识别单元,用于基于词权重标注模型以及所述查询特征序列,确定每个查询字符的第一字符权重;
第二识别单元,用于基于词性标注模型,确定每个查询字符的词性,根据每个查询字符的词性确定每个查询字符的第二字符权重,根据每个查询字符的第二字符权重,调整每个查询字符的第一字符权重,并将调整后的第一字符权重作为目标字符权重。
其中,所述多个查询字符包括第一查询字符和第二查询字符,所述第一查询字符和所述第二查询字符在所述查询文本中相邻;
所述装置还包括:
输出模块,用于获取字符权重阈值,若所述第一查询字符的目标字符权重和所述第二查询字符的目标字符权重相同,且所述第一字符的目标字符权重和所述第二字符的目标字符权重均大于所述字符权重阈值,则将所述第一查询字符和所述第二查询字符组合为所述查询文本的查询关键词,输出所述查询关键词。
其中,所述多个查询字符包括第一查询字符和第二查询字符,所述查询特征序列包括所述第一查询字符的第一查询特征以及所述第二查询字符的第二查询特征,所述词权重标注模型包括编码模型和解码模型;
所述第一识别单元,包括:
第一编码子单元,用于基于所述编码模型对所述第一查询特征进行编码,得到所述第一查询字符的第一隐藏特征;
第二编码子单元,用于基于所述编码模型以及所述第一隐藏特征,对所述第二查询特征进行编码,得到所述第二查询字符的第二隐藏特征;
所述第一编码子单元,还用于将所述第一隐藏特征和所述第二隐藏特征组合为隐藏特征序列,基于所述解码模型对所述隐藏特征序列进行解码,得到所述第一查询字符的第一字符权重以及所述第二查询字符的第一字符权重。
其中,所述第二查询特征包括第一单位查询特征和第二单位查询特征,所述第一单位查询特征和所述第二单位查询特征是根据所述第二查询字符的查询多义词的多个语义特征确定的;
所述第二编码子单元,具体用于基于所述编码模型以及所述第一隐藏特征,对所述第一单位查询特征进行编码,得到第一单位记忆门特征,基于所述编码模型以及所述第一隐藏特征,对所述第二单位查询特征进行编码,得到第二单位记忆门特征,根据所述第一单位记忆门特征和所述第二单位记忆门特征生成所述第二查询字符的所述第二隐藏特征。
其中,还包括:
所述组合模块,还用于获取样本文本,所述样本文本包括多个样本字符,获取每个样本字符的样本特征,将所述多个样本字符的样本特征组合为样本特征序列,基于样本词权重标注模型以及所述样本特征序列,确定每个样本字符的预测字符权重,获取每个样本字符的字符权重标签;
调整模块,用于根据每个样本字符的预测字符权重以及字符权重标签,训练所述样本词权重标注模型,得到所述词权重标注模型。
其中,所述调整模块,具体用于根据每个样本字符的预测字符权重以及字符权重标签,多次调整所述样本词权重标注模型的模型参数,当调整后的样本词权重标注模型满足模型收敛条件时,将调整后的样本词权重标注模型作为待确定模型,将每次调整后的样本词权重标注模型的模型参数组合为模型参数集合,从所述模型参数集合中选择目标模型参数,根据所述目标模型参数以及所述目标模型参数的调整次数确定参数权重,根据所述参数权重调整所述待确定模型的模型参数,将调整后的待确定模型作为所述词权重标注模型。
其中,所述获取模块,具体用于显示即时通信应用程序的主界面;所述主界面包括搜索选项,以及当所述搜索选项被触发时,显示搜索界面,在所述搜索界面接收所述查询文本;
所述装置还包括:
显示模块,用于根据所述序列标注结果确定查询信息流,在所述搜索界面显示所述查询信息流。
其中,所述查找模块,具体用于获取多义词字典;所述多义词字典包括多个待匹配多义词,以及在所述多个待匹配多义词中,根据所述查询文本查找与所述查询字符匹配的待匹配多义词,将查找的待匹配多义词作为所述查询多义词。
其中,语义特征的数量为N,所述多义词字典还包括所述查询多义词的N个语义描述文本,N是大于1的整数;
所述确定模块,具体用于基于词向量模型以及所述查询多义词的N个语义描述文本,确定N个语义特征,将N个语义特征作为所述查询字符的多义词特征。
其中,所述拼接模块,具体用于将所述字符特征和N个语义特征分别拼接为N个单位查询特征,将所述N个单位查询特征作为所述查询字符的查询特征。
其中,所述提取模块,包括:
第一提取单元,用于调用词向量模型确定所述查询字符的字符查询特征;
第二提取单元,用于在所述查询文本中获取所述查询字符对应的查询字符序列,调用所述词向量模型确定所述查询字符序列的字符序列特征,根据所述查询字符在所述查询文本中的位置信息,生成所述查询字符的位置特征,将所述字符查询特征、所述字符序列特征以及所述位置特征拼接为所述查询字符的字符特征。
其中,所述词向量模型包括第一词向量模型和第二词向量模型;
所述第一提取单元,具体用于将所述查询字符热编码为热编码向量,调用所述第一词向量模型确定所述热编码向量的第一字符特征,调用所述第二词向量模型确定所述热编码向量的第二字符特征,将所述第二字符特征降维处理,得到第三字符特征;所述第三字符特征的维度和所述第一字符特征的维度相同,将所述第一字符特征和所述第三字符特征拼接为所述查询字符的字符查询特征。
本申请实施例一方面提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述各实施例中的方法。
本申请实施例一方面提供了一种计算机存储介质,计算机存储介质存储有计算机程序,计算机程序包括程序指令,程序指令当被处理器执行时,执行上述各实施例中的方法。
本申请实施例一方面提供了一种计算机程序产品或计算机程序,计算机程序产品或计算机程序包括计算机指令,计算机指令存储在计算机可读存储介质中,计算机指令被计算机设备的处理器执行时,执行上述各实施例中的方法。
本申请不需要人工参与,由终端设备自动提取文本中每个字符的特征,进而确定查询文本的序列标注结果,避免由人工标注所带来的效率低下的情况,提高序列标注的效率,丰富序列标注的方式;再有,本申请通过引入多义词的多个语义特征,相比未引入多义词特征所得到的标注结果,本申请可以减少查询文本中多义词带来的歧义对序列标注的影响,进而提高序列标注的准确率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种文本处理的系统架构图;
图2a-图2d其是本申请实施例提供的一种文本处理的场景示意图;
图3是本申请实施例提供的一种文本处理的流程示意图;
图4a-图4c是本申请实施例提供的一种文本处理的界面示意图;
图5是本申请实施例提供的一种确定查询特征的流程示意图;
图6是本申请实施例提供的用一种确定序列标注结果的流程示意图;
图7是本申请实施例提供的一种词权重标注模型的示意图;
图8是本申请实施例提供的一种文本处理的流程示意图;
图9是本申请实施例提供的一种文本处理装置的结构示意图;
图10是本发明实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
云技术(Cloud technology)是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。目前,技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
目前,云技术主要分为云基础技术类以及云应用类;云基础技术类可以进一步细分为:云计算、云储存、数据库以及大数据等;云应用类可以进一步细分为:医疗云、云物联、云安全、云呼叫、私有云、公有云、混合云、云游戏、云教育、云会议、云社交以及人工智能云服务等。
从基础技术角度来说,本申请的文本处理方法涉及云技术下属的云计算;从应用角度来说,本申请的文本处理方法涉及云技术下属的人工智能云服务:
云计算(cloud computing)是一种计算模式,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展,按使用付费。
在本申请中,识别查询特征序列以得到序列标注结果涉及大规模计算,需要巨大的算力和存储空间,因此在本申请中,可以由终端设备通过云计算技术获取足够算力和存储空间,进而执行本申请中所涉及的提取字符特征以及提取多义词特征,以及根据字符特征以及多义词特征确定序列标注结果。
所谓人工智能云服务,一般也被称作是AIaaS(AI as a Service,中文为“AI即服务”)。这是目前主流的一种人工智能平台的服务方式,具体来说AIaaS平台会把几类常见的AI服务进行拆分,并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城:所有的开发者都可以通过API接口的方式来接入使用平台提供的一种或者是多种人工智能服务,部分资深的开发者还可以使用平台提供的AI框架和AI基础设施来部署和运维自已专属的云人工智能服务。
可以将本申请涉及的文本处理方法封装为一个人工智能服务,且仅对外暴露一个接口。当在某一个业务场景下需要使用本申请所涉及的序列标注功能时,通过调用该接口,即可完成对查询文本的序列标注。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请实施例提供的方案属于人工智能领域下属的自然语言处理技术。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。
在本申请中,主要涉及对文本中的字符进行序列标注,标注后的查询文本可以用于语义理解、机器翻译、机器人问答、知识图谱等领域。
本申请可以应用于如下场景:当获取到文本,且欲对文本中的字符进行序列标注时(例如,确定每个字符的权重,确定每个字符的词性,确定每个字符的命名实体等),采用本申请提取每个字符的字符特征,以及每个字符的多义词特征,该多义词特征可以减少文本中多义词带来的歧义对序列标注的影响,基于字符特征和多义词特征确定查询文本的序列标注结果。后续,可以基于序列标注结果提取关键词,进行智能问答等。
请参见图1,是本申请实施例提供的一种文本处理的系统架构图。本申请涉及服务器10d以及终端设备集群,终端设备集群可以包括:终端设备10a、终端设备10b、...、终端设备10c等。
以终端设备10a为例,终端设备10a获取待标注的查询文本,将查询文本发送至服务器10d。对查询文本中的任一查询字符来说,服务器10d在查询文本中获取查询字符对应的多义词,将该多义词的多个语义特征作为查询字符的多义词特征;服务器10d提取查询字符的字符特征,将前述中的多义词特征和字符特征拼接为查询字符的查询特征。对其余的查询字符来说,采用相同的方式确定与之对应的查询特征。服务器10d将所有查询字符的查询特征组合为查询特征序列,识别查询特征序列,得到查询文本的序列标注结果。
后续,服务器可以将查询文本的序列标注结果发送至终端设备10a,终端设备10a可以输出序列标注结果;或者终端设备10a可以根据序列标注结果进一步对查询文本进行后处理,以输出后处理结果。
当然,提取查询字符的查询特征,以及确定查询文本的序列标注结果也可以由终端设备来执行。
图1所示的服务器10d可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。
图1所示的终端设备10a、终端设备10b、终端设备10c等可以是手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(MID,mobile internet device)、可穿戴设备等具有文本处理功能的智能设备。终端设备集群与服务器10d可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
下述以终端设备10a如何确定文本中每个字符的字符权重为例,进行详细说明:
请参见图2a-图2d,其是本申请实施例提供的一种文本处理的场景示意图。如图2a所示,用户在检索界面20a中输入待检索的检索文本:“杜鹃的花期”,终端设备10a获取到检索文本后,从多义词角度、字符角度以及位置角度提取每个字符的特征。
如图2b所示,首先对检索文本中的第一个字符“杜”来说,在热编码字典中查找字符“杜”对应的热编码,其中热编码是一个向量,向量中只有1个1,其余的都是0。将字符“杜”的热编码输入训练好的词向量模型,基于词向量模型中的隐藏矩阵,对字符“杜”的热编码进行编码,得到字符“杜”的字符特征。
终端设备10a在检索文本中提取字符“杜”的N-gram字符序列:“杜鹃的”,可以知道,此时的N=3。字符K的N-gram字符序列是指在检索文本中,与字符K后向相邻的N个字符,且这N个字符中包括字符K。在热编码字典中查找N-gram字符序列:“杜鹃的”中的每个字符的热编码,基于词向量模型以及每个字符的热编码,确定每个字符的字符特征,将这3个字符的字符特融合为字符“杜”的序列字符特征。
终端设备10a在多义词字典中,查询到“杜鹃”是包含2个语义的多义词,其中一个语义对多义词“杜鹃”的描述为:“是一种植物”,另一个语义对多义词“杜鹃”的描述为:“是一种动物”。通过词向量模型提取多义词“杜鹃”的第一个语义“是一种植物”的语义特征1;通过词向量模型提取多义词“杜鹃”的第二个语义“是一种动物”的语义特征2。
终端设备10a获取字符“杜”在检索文本中的位置信息,根据该位置信息确定字符“杜”的位置特征。
自此,就提取了字符“杜”的字符特征,序列字符特征,语义特征1、语义特征2以及位置特征。终端设备10a可以将字符特征,序列字符特征,语义特征1以及位置特征拼接为检索特征20b;将字符特征,序列字符特征,语义特征2以及位置特征拼接为检索特征20c。
对检索文本中的其他字符“鹃”、“的”、“花”以及“期”可以采用相同的方式确定对应的检索特征。值得注意的是,由于多义词“杜鹃”既包含了字符“杜”也包含了字符“鹃”,因此对字符“鹃”来说,也对应多义词“杜鹃”,即字符“鹃”也会对应2个检索特征,分别为检索特征20d和检索特征20e,且检索特征20a和检索特征20d都会包含语义特征1,检索特征20b和检索特征20e都会包含语义特征2。
当然,对不存在多义词的字符来说,对应的语义特征只有1个,且语义特征的取值全为0。
如图2c所示,终端设备将字符“杜”对应的检索特征20b和检索特征20c输入长短期记忆网络(Long Short-Term Memory,LSTM),以对检索特征20b和检索特征20c进行编码,得到t1时刻的隐藏状态h1;将字符“鹃”对应的检索特征20d、检索特征20e和隐藏状态h1输入长短期记忆网络,以对检索特征20d和检索特征20e进行编码,得到t2时刻的隐藏状态h2;将字符“的”对应的检索特征和隐藏状态h2输入长短期记忆网络,得到t3时刻的隐藏状态h3;将字符“花”对应的检索特征和隐藏状态h3输入长短期记忆网络,得到t4时刻的隐藏状态h4;将字符“期”对应的检索特征和隐藏状态h4输入长短期记忆网络,得到t5时刻的隐藏状态h5。
终端设备再将输出的隐藏状态h1、隐藏状态h2、隐藏状态h3、隐藏状态h4以及隐藏状态h5输入条件随机场(conditional random field,CRF),以对隐藏状态h1、隐藏状态h2、隐藏状态h3、隐藏状态h4以及隐藏状态h5进行解码,得到每个字符的预测权重值。
如图2c所示,第一个字符“杜”的预测权重值为4,第一个字符“鹃”的预测权重值为4,第三个字符“的”的预测权重值为0,第四个字符“花”的预测权重值为4,第一个字符“期”的预测权重值为4。
终端设备10a可以根据每个字符的预测权重值从检索文本“杜鹃的花期”中确定关键词“杜鹃”以及关键词“花期”。终端设备10a确定了关键词后,可以在数据库中查找关键词“杜鹃”以及关键词“花期”匹配的信息流,以及查找杜鹃花期的说明信息。
如图2d所示,在检索界面20a中显示查找到的信息流(如图2d中的检索界面20a中的新闻“如何养护杜鹃”以及新闻“杜鹃花期后,注意这4点”),以及显示杜鹃花期的说明信息:“杜鹃花期:4-5月,杜鹃:又名映山红、山石榴,落叶灌木。”。更进一步地,在检索界面20a中对关键词“杜鹃”以及关键词“花期”进行加粗显示。
本申请不需要人工参与,由终端设备自动提取文本中每个字符的特征,进而确定查询文本的序列标注结果,避免由人工标注所带来的效率低下的情况,提高序列标注的效率,丰富序列标注的方式;再有,本申请通过引入多义词的多个语义特征,相比未引入多义词特征所得到的标注结果,本申请可以减少查询文本中多义词带来的歧义对序列标注的影响,进而提高序列标注的准确率。
其中,获取查询文本(如上述实施例中的检索文本“杜鹃的花期”),提取查询字符的查询特征(如上述实施例中的检索特征20b和检索特征20c),确定查询文本的序列标注结果(如上述实施例中各字符的预测权重值)的具体过程可以参见下述图3-图8对应的实施例。
请参见图3,是本申请实施例提供的一种文本处理的流程示意图,下述实施例以终端设备为执行主体描述如何对文本进行序列标注,文本处理方法可以包括如下步骤:
步骤S101,获取查询文本,所述查询文本包括多个查询字符。
具体的,终端设备(如上述图2a-图2c对应实施例中的终端设备10a)显示即时通信应用程序的主界面,该主界面包括搜索选项。用户可以触发搜索选项,显示搜索界面(如上述图2a-图2d对应实施例中的检索界面20a),该搜索界面包括搜索框。用户可以在搜索框中输入文本(称为查询文本,如上述图2a-图2c对应实施例中的检索文本“杜鹃的花期”)。将查询文本中的每个字符进行预处理,预处理包括英文大小写转换、繁简字统一,将预处理后的每一个字符称为查询字符,若查询文本中包括数字和英文单词,将完整的数字和完整的英文单词作为一个查询字符。
例如,查询文本为:“618购物节”,该查询文本包括4个查询字符,分别为:“618”、“购”、“物”和“节”。
又例如,查询文本为:“说一声hello”,该查询文本也包括4个查询字符,分别为:“说”、“一”、“声”和“hello”。
请参见图4a-图4c,图4a-图4c是本申请实施例提供的一种文本处理的界面示意图,图4a所显示的界面是即时通信应用程序的主界面,该主界面包括“搜一搜”选项,“搜一搜”选项即对应本申请中的搜索选项。用户可以点击“搜一搜”选项,显示图4b所示的搜索界面,该搜索界面包括搜索框。用户可以在搜索框内输入想要搜索的内容,图4b中用户输入的内容为:“深圳的疫情”。终端设备可以将用户输入的“深圳的疫情”作为本申请的查询文本。
下述步骤S102-步骤S103以一个查询字符为例,说明如何提取一个查询字符的查询特征(如上述图2a-图2d对应实施例中的检索特征20b和检索特征20c)。对查询文本中的其他查询字符也可以采用相同的当方式确定与之对应的查询特征。
步骤S102,根据所述查询文本获取查询字符对应的查询多义词,将所述查询多义词的多个语义特征作为所述查询字符的多义词特征。
具体的,终端设备获取多义词字典,多义词字典包括多个多义词(称为待匹配多义词)以及每个待匹配多义词的多个语义描述文本。可以知道,1个语义描述文本是用于描述待匹配多义词的1个语义,当然每个待匹配多义词都会对应至少2个语义描述文本。可以基于BM(Bi-directction Matching,双向最大匹配)算法,将查询文本和多个待匹配多义词进行匹配,在查询文本中确定与任一待匹配多义词匹配的查询词组,将匹配的待匹配多义词作为查询词组中的每一个查询字符的查询多义词,即查询多义词是与查询字符匹配的待匹配多义词。
若在多个待匹配多义词中,没有查找到与查询字符匹配的待匹配多义词,此时可以将该查询字符的查询多义词设置为空。
举例来说,若多义词字典包括4个待匹配多义词,分别为:杜鹃,将军,黄色,以及水分。若查询文本为:“植物从土壤中吸收水分”,且当前处理的查询字符是“水”,那么可以从4个待匹配多义词中确定查询字符“水”的查询多义词为:水分。
若查询文本为:“植物从土壤中吸收水分”,当前处理的查询字符是“分”,那么可以从4个待匹配多义词中确定查询字符“分”的查询多义词也为:水分。
若查询文本为:“明天天气”,且当前处理的查询字符是“明”,可以知道从4个待匹配多义词中不能查找到与查询字符“明”匹配的待匹配多义词,此时可以将查询字符“明”的查询多义词设置为空。
终端设备在多义词字典中,获取查询多义词的N个语义描述文本,N是大于1的整数。将这N个语义描述文本分别输入训练好的词向量模型,词向量模型分别输出N个语义特征。终端设备可以将这N个语义特征组合为查询字符的多义词特征。
其中,词向量模型可以包括第一词向量模型和第二词向量模型,第一词向量模型可以是具体是word2vec模型,word2vec模型可以具体是fasttext模型,也可以是cbow模型,第二词向量模型可以是BERT模型。对1个语义描述文本来说,首先将语义描述文本划分为多个词组,将每个词组输入第一词向量模型,由第一词向量模型确定每个词组的第一单位语义特征,将多个词组的第一单位语义特征加权平均为一个特征向量(称为第一语义特征),第一单位语义特征的维度可以是300维,加权平均后的第一语义特征的维度也是300维;将每个词组按照顺序依次输入第二词向量模型,第二词向量模型的Transformer Encoder编码模块会对多个词组依次进行编码,得到最上层的最后一个时刻的输出h,将第二词向量模型的输出h作为辅助语义特征,对辅助语义特征进行降维处理,得到第二语义特征,辅助语义特征的维度可以是768维,第二语义特征的维度可以是300维。
对辅助语义特征进行降维处理的具体过程为:终端设备采用相同的方式在N个语义描述文本中确定每个语义描述文本的辅助语义特征,N个语义描述文本的辅助语义特征可以组合为N×768的矩阵。基于降维算法(例如,PCAPrincipalComponents Analysis主成分分析,或者ISOMAP ISOmetric MAPping等距特征映射)可以将N×768的矩阵降维为N×300的矩阵,即是将N个语义描述文本的N个768维的辅助语义特征降维为N个语义描述文本的N个300维的第二语义特征。
终端设备可以将前述中的第一语义特征和第二语义特征拼接为语义描述文本的1个语义特征,可以知道,每个语义特征的维度是300+300=600维。
上述过程可以从数学的角度进行描述:
假设现有6个语义描述文本,对第一个语义描述文本来说,将该语义描述文本划分为p个词组,通过第一词向量模型,可以分别确定这p个词组的第一单位语义特征:[x1.1,x1.2,...,x1.300]、[x2.1,x2.2,...,x2.300]、...[xp.1,xp.2,...,xp.300],将这p个第一单位语义特征加权平均为第一多义词特征:X1=[x1,x2,...,x300]。
将p个词组作为词组序列输入第二词向量模型,第二词向量模型输出第一个语义描述文本的辅助语义特征:Y1=[y1,y2,...,y768]。采用这种方式确定剩余5个语义描述文本的辅助语义特征:Y2、Y3、Y4、Y5、Y6。将这6个辅助语义特征拼接为6×768的矩阵,采用降维算法将6×768的矩阵降维为6×300的矩阵。6×300的矩阵中,第一行表示第一个语义描述文本的第二多义词特征Y1',第二行表示第二个语义描述文本的第二多义词特征Y2',第三行表示第三个语义描述文本的第二多义词特征Y3'...且每个第二多义词特征的维度都是300维。
将第一个语义描述文本的第一多义词特征X1和第一个语义描述文本的第二多义词特征Y1'拼接为第一个语义描述文本的语义特征[X1,Y1'],可以知道,语义特征的维度可以是300+300=600维。
可选的,若查询字符的查询多义词为空,那么对应的语义特征是全为0的600维特征向量,且语义特征的数量可以是多个,可以知道这多个语义特征完全相同。终端设备可以将这多个语义特征相加为1个多义词特征,相加后的多义词特征也是全为0的600维特征向量。
步骤S103,提取所述查询字符的字符特征,将所述多义词特征和所述字符特征拼接为所述查询字符的查询特征。
具体的,终端设备调用词向量模型,提取查询字符的字符查询特征;终端设备在查询文本中获取查询字符对应的查询字符序列n-gram,其中查询字符序列中的第一个字符是查询字符,且查询字符序列所包含的字符数量等于n,终端设备调用词向量模型确定查询字符序列的字符序列特征;例如,查询文本为:“今天有点热”,若当前处理的查询字符为:“天”,且预设的n=2,那么查询字符“天”的查询字符序列为:“天有”。若查询字符是查询文本的临界字符,那么此时查询字符序列可以为空。又例如,查询文本为:“今天有点热”,若当前处理的查询字符为:“有”,且预设的n=3,那么查询字符“有”的查询字符序列为:“有点热”,但查询字符“点”和查询字符“热”都是查询问文本中的临界字符,可以将查询字符“点”的查询字符序列设置为空,以及将查询字符“热”的查询字符序列设置为空。
获取查询字符在查询文本中的位置信息,根据该位置信息生成查询字符的位置特征。终端设备将前述中的字符查询特征、字符序列特征以及位置特征拼接为查询字符的字符特征。
下面对提取字符查询特征、字符序列特征以及位置特征的具体过程分别进行说明,首先说明如何提取字符查询特征:
词向量模型包括第一词向量模型和第二词向量模型,第一词向量模型可以是具体是word2vec模型,word2vec模型可以具体是fasttext模型,也可以是cbow模型,第二词向量模型可以是BERT模型。
终端设备在热编码字典中查找查询字符的热编码(称为热编码向量),其中热编码向量包含的多个数值中只有一个1,其余的都是0。
终端设备调用第一词向量模型,确定该热编码向量的第一字符特征,其中第一词向量模型包括隐藏层和输出层,训练第一词向量模型时,隐藏层和输出层都要参与;在使用第一词向量模型时,只有隐藏层参与。将上述热编码向量和第一词向量模型的隐藏层权重矩阵(隐藏层权重矩阵即是隐藏层的权重矩阵)进行矩阵相乘,得到的结果向量即是第一字符特征,第一字符特征的特征维度可以是300维。
终端设备获取第二词向量模型的文本特征,该文本特征是在训练第二词向量模型过程自动学习到的特征,获取查询字符在查询文本中的位置信息,根据该位置信息生成查询字符的辅助位置特征,此处的辅助位置特征和前述中的位置特征中的第一个数值都表示字符在文本中的位置信息,剩余的数值都是0,辅助位置特征和位置特征的维度可以相同,也可以不同。例如,若查询字符是查询文本中的第三个字符,那么该查询字符的辅助位置特征可以表示为:[3,0,0,0,0,0],此时辅助位置特征的维度是6维。终端设备将查询字符的热编码向量,文本特征以及位置特征拼接为输入向量,将输入向量输入第二词向量模型,第二词向量模型中的Transformer Encoder编码模块会对输入向量编码,将第二词向量模型最后一个时刻输出的h作为查询字符的第二字符特征,终端设备对第二字符特征进行降维处理,得到查询字符的第三字符特征。
第二字符特征的特征维度可以是768维。终端设备可以采用相同的方式确定每个查询字符的第二字符特征,假设查询文本包括q个查询字符,可以将q个查询字符的第二字符特征组合为q×768的矩阵,采用降维算法将q×768的矩阵降维为q×300的矩阵。q×300的矩阵中,第一行表示第一个查询字符的第三字符特征,第二行表示第二个查询字符的第三字符特征,第三行表示第三个查询字符的第三字符特征...每个查询字符的第三字符特征的维度都是300维。
终端设备可以将查询字符的第一字符特征和第三字符特征拼接为查询字符的字符查询特征,可以知道,字符查询特征的维度是300+300=600维,且拼接时,第一字符特征在前,第三字符特征在后。
其次,说明如何提取字符序列特征:
前面描述了如何提取一个查询字符的第一字符特征和第三字符特征,对查询字符序列来说,同样调用第一词向量模型确定查询字符序列中的每一个字符的第一字符特征,将查询字符序列中的每一个字符的第一字符特征加权平均为第一字符序列特征,第一字符序列特征的特征维度可以是300维。
终端设备获取确定字符序列中每一个字符的输入向量,将每一个字符的输入向量依次输入第二词向量模型,第二词向量模型的Transformer Encoder编码模块会对多个输入向量依次进行编码,将第二词向量模型最后一个时刻输出的h作为第三字符序列特征,第三字符序列特征的特征维度可以是768维。终端设备可以采用相同的方式确定每个查询字符序列的第三字符序列特征,假设查询文本包括q个查询字符序列,可以将q个查询字符序列的第三字符序列特征组合为q×768的矩阵,采用降维算法将q×768的矩阵降维为q×300的矩阵。q×300的矩阵中,第一行表示第一个查询字符序列的第二字符序列特征,第二行表示第二个查询字符序列的第二字符序列特征,第三行表示第三个查询字符序列的第二字符序列特征...每个第二字符序列特征的维度都是300维。
终端设备可以将查询字符的第一字符序列特征和第二字符序列特征拼接为查询字符的字符序列特征,可以知道,字符序列特征的维度是300+300=600维,且拼接时,第一字符序列特征在前,第二字符序列特征在后。
需要说明的是,若查询字符序列为空,直接将该查询字符序列的第一字符序列特征和第三字符序列特征设置为一个全为0的向量,为了保证第三字符序列特征的维度都是768维,第三字符序列特征中包括768个0,第一字符序列特征中包括300个0。当第三字符序列特征是一个全为0的特征向量时,由于0与任何数值相乘后都是0,因此在这种情况下降维后的第二字符序列特征也是300维的全0向量,将第一字符序列特征和第二字符序列特征叠加后的字符序列特征是一个全0的600维向量。
最后,说明如何确定位置特征:
终端设备获取查询字符在查询文本中的位置信息,根据该位置信息生成第一位置特征和第二位置特征,第一位置特征和第二位置特征相同。其中,第一位置特征、第二位置特征的维度都可以是300维。
举例来说,查询字符是查询文本中的第3个字符,第一位置特征和第二位置特征可以是[3,0,0,...,0],且第一位置特征和第二位置特征的维度都是300维,即第一位置特征和第二位置特征中包括299个0。
终端设备可以将查询字符的第一位置特征和第二位置特征拼接为查询字符的位置特征,可以知道,位置特征的维度是300+300=600维,且拼接时,第一位置特征在前,第二位置特征在后。总的来说,语义特征、字符查询特征、字符序列特征以及位置特征的维度可以都是600维。
至此,终端设备就获取了一个查询字符的多义词特征和字符特征,且多义词特征中包括N个语义特征,且语义特征的维度是600维,字符特征的维度是600+600+600=1800维。
终端设备可以将这N个语义特征和字符特征分别拼接为N个单位查询特征,且单位查询特征的维度是600+1800=2400维,将这N个单位查询特征组合为查询字符的查询特征。需要说明的是,拼接时语义特征和字符特征的顺序没有限定,例如,可以语义特征在前,字符特征在后。
优选的,拼接时,可以按照字符查询特征、语义特征、字符序列特征以及位置特征的顺序拼接为单位查询特征。
终端设备可以按照相同的方式,确定每个查询字符的多义词特征、字符查询特征、字符序列特征以及位置特征,按照预定顺序将每个字符的多义词特征和字符特征拼接为查询特征。
从前述可知,若查询字符的查询多义词为空,多义词特征是全为0的600维特征向量。在这种情况下同样将多义词特征和这个查询字符的字符特征拼接为2400维的查询特征。
步骤S104,将所述多个查询字符的查询特征组合为查询特征序列,识别所述查询特征序列,得到所述查询文本的序列标注结果。
具体的,终端设备将每个查询字符的查询特征,按照查询字符在查询文本中的前后顺序,将多个查询特征组合为查询特征序列。终端设备获取序列标注模型,基于序列标注模型以及查询特征序列得到查询文本的序列标注结果。序列标注结果可以是词权重结果,可以是词性结果,可以是分词结果等。
举例来说,若序列标注结果是词权重结果,该词权重结果表示每一个查询字符在查询文本中重要程度;若序列标注结果是词性结果,该词性结果表示每一个查询字符在查询文本中词性(例如,形容词,名词,动词等);若序列标注结果是分词结果,该分词结果表示每一个查询字符在查询文本中分词含义(例如,B代表这个查询字符是词汇的开始字符,M代表这个查询字符是词汇的中间字符,E代表这个查询字符是词汇的结束字符,而S代表单字词。)
可选的,终端设备根据查询文本的序列标注结果在数据库中查找与之匹配的信息流(称为查询信息流,如上述图2d中的检索界面20a中的新闻“如何养护杜鹃”、新闻“杜鹃花期后,注意这4点”以及杜鹃花期的说明信息)。终端设备在搜索界面中展示查询信息流。
请参见图4c,延续图4a-图4b的举例,用户在搜索框内输入“深圳的疫情”后,终端设备确定“深圳的疫情”的序列标注结果后,进而确定信息流,在图4c所述的搜索界面中展示上述信息流。再有,在显示信息流时,将信息流中的查询字符进行加粗显示。
上述可知,本申请通过构建字符查询特征和字符序列特征等多粒度特征,能够有效的整合两种粒度信息的优势,且提取每个多义词特征和位置特征,使得每个查询字符的特征表达都更加准确以及更有辨识度,且提取完整的数字和英文单词特征,避免了拆分数字和英文单词带来的语义信息损失,可以提升识别准确率;再有,通过引入外部知识库多义词库,并利用多义词特征信息,有效消除查询文本中多义词带来的歧义对词权重标注的消极影响,进一步提升识别准确性。
请参见图5,图5是本申请实施例提供的一种确定查询特征的流程示意图,确定查询特征包括如下步骤S201-步骤S206。
步骤S201,用户输入查询文本。
步骤S202,提取查询文本的多粒度信息。
其中,多粒度信息包括查询文本的字序列,N-gram字序列,字位置序列,其中字序列是由查询文本中的每个查询字符所组成的序列;N-gram字序列是由每个查询字符的查询字符序列所组成的序列,查询字符序列可以为空;字位置序列是由每个查询字符在查询文本中的位置所组成的序列。
步骤S203,提取查询文本的多义词信息。
确定查询文本中的多义词,将确定的多义词作为属于该多义词查询字符的查询多义词。
步骤S204,基于word2vec模型提取字序列的字符查询特征序列,提取N-gram字序列的字符序列特征序列,提取查询多义词的多义词特征序列。
步骤S205,基于Bert模型提取字序列的字符查询特征序列,提取N-gram字序列的字符序列特征序列,提取查询多义词的多义词特征序列。
步骤S206,将步骤S204-步骤S205输出的特征序列以及字位置特征序列拼接为查询文本的查询特征序列,其中字位置特征序列是由字位置序列生成的特征序列。
请参见图6,其是本申请实施例提供的用一种确定序列标注结果的流程示意图,确定序列标注结果包括如下步骤S1041-步骤S1043,且步骤S1041-步骤S1043是上述图3对应实施例中的步骤S104的具体实施例:
本实施例中序列标注结果是指每个查询字符在查询文本中的目标字符权重,当然,目标字符权重的数值越大,说明该查询字符在查询文本中越重要。
步骤S1041,基于词权重标注模型以及所述查询特征序列,确定每个查询字符的第一字符权重。
具体的,序列标注模型可以是词权重标注模型,词权重标注模型可以包括编码模型和解码模型,编码模型可以是具体是RNN(循环神经网络,Recurrent Neural Network,RNN)模型,LSTM(长短期记忆网络,LSTM,Long Short-Term Memory),GRU(门控循环神经网络,Gated Recurrent Neural network)模型。解码模型可以具体是CRF(条件随机场,Conditional Random Field)。
终端设备将查询特征序列x1,x2,...,xl输入编码模型,编码模型对查询特征序列x1,x2,...,xl编码,得到隐藏特征序列h1,h2,...,hl。解码模型对隐藏特征序列h1,h2,...,hl进行解码,得到每个查询字符的第一字符权重,其中l表示查询字符的数量。
下面以多个查询字符中的两个查询字符为例进行详细说明,这两个查询字符称为第一查询字符和第二查询字符,且第一查询字符的查询特征称为第一查询特征,第二查询字符的查询特征称为第二查询特征。更进一步,第一查询字符的查询多义词可以为空,从前述可知此时第一查询特征即是2400维的向量;第二查询字符的查询多义词不为空,从前述可知此时第二查询特征包括多个单位查询特征,以多个单位查询特征中的两个单位查询特征为例进行说明,这两个单位查询特征称为第一单位查询特征和第二单位查询特征,第一单位查询特征和所述第二单位查询特征是根据第二查询字符的非空的查询多义词的多个语义特征确定的,第一单位查询特征和第二单位查询特征都是2400维的特征向量,且第一单位查询特征的语义特征和第二单位查询特征的语义特征互不相同。
将第一查询特征xt输入编码模型,1≤t<l,基于编码模型对第一查询特征进行编码,得到t时刻的第一隐藏特征ht
编码模型是采用如下公式(1)进行编码:
Figure BDA0002573723890000201
其中,ht-1表示第t-1时刻输出的隐藏特征,ft表示第t时刻的遗忘门输出值,ct表示第t时刻记忆门输出值,ot表示第t时刻输出门输出值,it表示第t时刻输入门输出值。所有的w表示两门之间的权重矩阵。在编码过程中,整个编码模型中的参数是共享的,即是在计算每一个时刻的隐藏特征h时,上述参数都不变。
终端设备将第一单位查询特征x(t+1)1输入编码模型,基于编码模型以及第一隐藏特征ht对第一单位查询特征x(t+1)1进行编码,得到第一单位记忆门特征c(t+1)1。其中,确定第一单位记忆门特征c(t+1)1的过程和公式(1)中确定t时刻记忆门输出值ct的原理相同,只是输入不同而已。
终端设备将第二单位查询特征x(t+1)2输入编码模型,基于编码模型以及第一隐藏特征ht对第二单位查询特征x(t+1)2进行编码,得到第二单位记忆门特征c(t+1)2。其中,确定第二单位记忆门特征c(t+1)2的过程和公式(1)中确定t时刻记忆门输出值ct的原理相同,只是输入不同而已。
将第一单位记忆门特征c(t+1)1和第二单位记忆门特征c(t+1)2相加为第t+1时刻记忆门输出值c(t+1)=c(t+1)1+c(t+1)2
即,在t+1时刻的记忆门
Figure BDA0002573723890000202
由以下公式(2)计算得到:
Figure BDA0002573723890000203
Figure BDA0002573723890000204
表示第t+1时刻记忆门输出值,b表示所属的多义词,wb表示的多义词的多个语义,其中
Figure BDA0002573723890000205
表示多义词b的遗忘门输出值,
Figure BDA0002573723890000206
表示在上一个细胞所输出的隐藏特征,
Figure BDA0002573723890000211
表示输入c在前一时刻细胞的状态。
也采用相加的方式确定第t+1时刻输出门输出值
Figure BDA0002573723890000212
再根据下述公式(3)、第t+1时刻记忆门输出值
Figure BDA0002573723890000213
和第t+1时刻输出门输出值
Figure BDA0002573723890000214
确定t+1时刻的第二隐藏特征ht+1
Figure BDA0002573723890000215
从多义词的微观角度来分析编码模型的工作原理,语义特征在编码模型的具体计算公式如下公式(4):
Figure BDA0002573723890000216
其中,
Figure BDA0002573723890000217
表示在多义词b第k个语义的输入门状态,W,U表示两门之间的权重矩阵。而多义词wb的记忆门由下面公式(5)计算得到:
Figure BDA0002573723890000218
其中,
Figure BDA0002573723890000219
为在t-1时刻多义词b的更新值,
Figure BDA00025737238900002110
为在t时刻,包含多义词b的更新状态。
终端设备将第一隐藏特征ht和第二隐藏特征ht+1组合为隐藏特征序列,将该隐藏特征序列输入解码模型,基于解码模型对隐藏特征序进行解码,得到第一查询字符的第一字符权重和第二查询字符的第二字符权重。
解码模型是采用如下公式(6)进行解码:
Figure BDA00025737238900002111
其中,p(yi)表示第i查询字符的第一字符权重,hi是隐藏特征序列中的隐藏特征,
Figure BDA00025737238900002112
是在解码模型中关于预测序列li的训练得到参数,
Figure BDA00025737238900002113
是从预测序列li-1到预测序列li训练得到的偏置参数。
请参见图7,图7是本申请实施例提供的一种词权重标注模型的示意图,词权重标注模型中的编码模型对应图7中的长短期记忆网络(LSTM),词权重标注模型中的解码模型对应图7中的条件随机场(CRF)。xt表示查询文本中各查询字符对应的查询特征,x1表示第一个查询字符的查询特征,x2表示第二个查询字符的查询特征,x3表示第三个查询字符的查询特征,x4表示第四个查询字符的查询特征。首先将初始隐藏状态向量h0和查询特征x1输入长短期记忆网络,根据公式(1)和公式(2)计算隐藏状态向量h1;将隐藏状态向量h1和查询特征x2输入长短期记忆网络,根据公式(1)和公式(2)计算隐藏状态向量h2;将隐藏状态向量h2和查询特征x3输入长短期记忆网络,根据公式(1)和公式(2)计算隐藏状态向量h3;将隐藏状态向量h3和查询特征x4输入长短期记忆网络,根据公式(1)和公式(2)计算隐藏状态向量h4。下面执行解码处理,将编码过程中生成的隐藏状态向量h1、隐藏状态向量h2、隐藏状态向量h3和隐藏状态向量h4输入条件随机场,根据公式(6)得到每个隐藏状态向量对应的词权重,将多个词权重进行组合,得到查询文本的序列标注结果。
步骤S1042,基于词性标注模型,确定每个查询字符的词性,根据每个查询字符的词性确定每个查询字符的第二字符权重。
具体的,终端设备获取词性标注模型,基于该词性标注模型确定每一个查询字符的词性,词性可以包括形容词,名称,动词,介词等,根据预设规则,确定每个查询字符的第二字符权重。
例如,预设规则可以是,若查询字符的词性是名词,那么该查询字符的第二字符权重等于3;若查询字符的词性是介词,那么该查询字符的第二字符权重等于0。
可选的,除了确定查询字符的词性,进而确定第二字符权重外,还可以确定查询字符的分词含义,再基于预设规则以及每个查询字符的分词含义,确定每个查询字符的第二字符权重。
步骤S1043,根据每个查询字符的第二字符权重,调整每个查询字符的第一字符权重,并将调整后的第一字符权重作为目标字符权重。
具体的,对一个查询字符来说,若该查询字符的第一字符权重和第二字符权重相同,将第一字符权重(或者第二字符权重)作为该查询字符的目标字符权重即可;若该查询字符的第一字符权重和第二字符权重不同,将第二字符权重作为该查询字符的目标字符权重;或者,若该查询字符的第一字符权重和第二字符权重不同,将第一字符权重和第二字符权重的平均值作为该查询字符的目标字符权重。
可选的,多个查询字符包括第一查询字符和第二查询字符。终端设备获取预设的字符权重阈值,若第一查询字符的目标字符权重和第二查询字符的目标字符权重相同,且第一查询字符的目标字符权重和第二查询字符的目标字符权重均大于字符权重阈值,则终端设备可以将第一查询字符和第二查询字符组合为查询文本的查询关键词。输出查询关键词,例如,可以在搜索界面对查询关键词进行标记显示,填充查询关键词的底色,并显示底色填充后的查询关键词,使用矩形框框住查询关键词,显示查询关键词以及矩形框等。例如,将查询关键词加粗显示(如图4c所示,即是将关键词“深圳”以及关键词“疫情”进行加粗显示)。
可选的,下面对本申请所涉及的第一词向量模型,第二词向量模型以及词权重标注模型的训练过程进行具体说明:
终端设备获取样本文本,将样本文本中的每个字符作为样本字符。终端设备获取样本第一词向量模型和样本第二词向量模型,其中样本第一词向量模型和样本第二词向量模型可以是在其他业务场景下已经训练好的模型,这种情况下模型的起始参数不是随机数,而是使用了迁移学习的思想在已有的模型上只进行微调,可以加快模型收敛速度,提高模型训练效率。
基于样本第一词向量模型、第二词向量模型提取每个样本字符的样本特征,其中提取样本特征和前述中提取查询特征的过程相同。将多个样本字符的样本特征组合为样本特征序列。
终端设备获取样本词权重标注模型,基于样本词权重标注模型以及样本特征序列,确定每个样本字符的预测字符权重,获取每个样本字符的字符权重标签,字符权重标注就是样本字符的真实字符权重。
样本词权重标注模型同样包括样本编码模型和样本解码模型,样本编码模型可以是RNN,LSTM等,样本解码模型可以是CRF模型等。
可以采用下述公式(7)确定每个样本字符的预测字符权重:
Figure BDA0002573723890000231
将L2正则化的极大似然作为损失函数,损失函数如下述公式(8):
Figure BDA0002573723890000232
其中,λ是L2正则化的参数,θ表示样本词权重模型中的样本编码模型的模型参数集合和样本解码模型的模型参数集合。
根据每个样本字符的预测字符权重、每个样本字符的字符权重标签以及损失函数,多次调整样本第一词向量模型、第二词向量模型以及样本词权重标注模型的模型参数。当模型参数调整后的样本第一词向量模型、第二词向量模型以及样本词权重标注模型均满足模型收敛条件时,将调整后的样本第一词向量模型作为第一词向量模型,将调整后的样本第二词向量模型作为第二词向量模型,将调整后的样本词权重模型作为待确定模型。终端设备获取每次调整后的样本词权重标注模型的模型参数,将获取的模型参数组合为模型参数集合。终端设备从模型参数集合中选择目标模型参数,其中目标模型参数是指预设调整次数的模型参数,本申请优选将第60,70,80,90,100次调整后的模型参数均作为目标模型参数。
终端设备可以采用下述公式(9)确待合并参数权重:
Figure BDA0002573723890000241
其中,n表示训练模型过程中的第n次调整(本申请n=60,70,80,90,100),wa表示第n次调整后模型参数(也是目标模型参数),wn表示第n次的待合并参数权重。将多个待合并参数权重进行加权平均,得到参数权重。
根据该参数权重调整待确定模型的模型参数,将调整后的待确定模型作为词权重标注模型,将调整后的待确定模型中的样本编码模型作为编码模型,将调整后的待确定模型中的样本解码模型作为解码模型。
其中,满足模型收敛条件是指,调整次数等于预设的次数阈值,或者调整前的模型参数和调整后的模型参数之间的差异量小于预设的差异量阈值。
基于对训练模型权重的加权融合机制,可以融合训练不同阶段模型权重,充分利用不同训练阶段模型的学习能力,使得训练模型更加平滑,从而得到更好的词权重识别能力。
请参见图8,其是本申请实施例提供的一种文本处理的流程示意图,文本处理包括如下步骤:
步骤S301,用户输入查询文本。
步骤S302,基于word2vec模型提取查询文本的特征序列。
步骤S303,基于Bert模型提取查询文本的特征序列。
其中,基于word2vec模型提取特征和基于Bert模型提取特征可以参见上述图3对应实施例中的步骤S101-步骤S103,且word2vec模型可以对应本申请中的第一词向量模型,Bert模型可以对应本申请中的第二词向量模型。
步骤S304,将步骤S302输出的特征序列和步骤S303输出的特征序列拼接为查询特征序列。
步骤S305,词权重标注模型中的编码网络,对查询特征序列进行编码,得到隐藏特征序列。
步骤S306,词权重标注模型中的解码网络,对隐藏特征序列进行解码,得到每个查询字符的第一字符权重。
其中,确定每个查询字符的第一字符权重的具体过程可以参见图6对应实施例中的步骤S1041。
步骤S307,调用词性标注模型确定每个查询字符的第二字符权重。
具体的,终端设备获取词性标注模型,基于该词性标注模型用于确定每一个查询字符的词性,词性可以包括形容词,名称,动词,介词等,根据预设规则,确定每个查询字符的第二字符权重。
例如,预设规则可以是,若查询字符的词性是名词,那么该查询字符的第二字符权重等于3;若查询字符的词性是介词,那么该查询字符的第二字符权重等于0。
可选的,除了确定查询字符的词性,进而确定第二字符权重外,还可以确定查询字符的分词含义,再基于预设规则以及每个查询字符的分词含义,确定每个查询字符的第二字符权重。
步骤S308,根据每个查询字符的第二字符权重调整每个查询字符的第一字符权重,输出每个查询字符的调整后的第一字符权重。
具体的,对一个查询字符来说,若该查询字符的第一字符权重和第二字符权重相同,将第一字符权重(或者第二字符权重)作为该查询字符的调整后的第一字符权重;若该查询字符的第一字符权重和第二字符权重不同,根据第二字符权重调整第一字符权重,使得调整后的第一字符权重和第二字符权重相同;或者,若该查询字符的第一字符权重和第二字符权重不同,计算第一字符权重和第二字符权重的平均值,将该平均值作为查询字符的调整后的第一字符权重。
对其余的查询字符采用相同的方式,确定与之对应的调整后的第一字符权重,输出每个查询字符的调整后的第一字符权重。
调整后的第一字符权重可以用于确定查询文本中的关键词。
上述可知,本申请通过构建字符查询特征和字符序列特征等多粒度特征,能够有效的整合两种粒度信息的优势,且提取每个多义词特征和位置特征,使得每个查询字符的特征表达都更加准确以及更有辨识度,且提取完整的数字和英文单词特征,避免了拆分数字和英文单词带来的语义信息损失;通过引入外部知识库多义词库,并利用多义词特征信息,有效消除查询文本中多义词带来的歧义对词权重标注的消极影响,提升识别准确性。
基于对训练模型权重的加权融合机制,可以融合训练不同阶段模型权重,充分利用不同训练阶段模型的学习能力,使得训练模型更加平滑,从而得到更好的词权重识别能力。
基于质量控制策略对样本词权重标注模型所输出的结果进行进一步的调整,可以提高词权重标注的准确性,提升识别的精度和召回率。
进一步的,请参见图9,是本申请实施例提供的一种文本处理装置的结构示意图。如图9所示,文本处理装置1可以应用于上述图3-图8对应实施例中的终端设备。文本处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该文本处理装置为一个应用软件;该装置可以用于执行本申请实施例提供的方法中的相应步骤。
文本处理装置1可以包括:获取模块11、查找模块12、确定模块13、提取模块14、拼接模块15、组合模块16以及识别模块17。
获取模块11,用于获取查询文本,所述查询文本包括多个查询字符;
查找模块12,用于根据所述查询文本获取查询字符对应的查询多义词;
确定模块13,用于将所述查询多义词的多个语义特征作为所述查询字符的多义词特征;
提取模块14,用于提取所述查询字符的字符特征;
拼接模块15,用于将所述多义词特征和所述字符特征拼接为所述查询字符的查询特征;
组合模块16,用于将所述多个查询字符的查询特征组合为查询特征序列;
识别模块17,用于识别所述查询特征序列,得到所述查询文本的序列标注结果。
所述获取模块11,具体用于显示即时通信应用程序的主界面;所述主界面包括搜索选项,以及当所述搜索选项被触发时,显示搜索界面,在所述搜索界面接收所述查询文本;
所述文本处理装置1还可以包括:显示模块20。
显示模块20,用于根据所述序列标注结果确定查询信息流,在所述搜索界面显示所述查询信息流。
查找模块12,具体用于获取多义词字典;所述多义词字典包括多个待匹配多义词,以及在所述多个待匹配多义词中,根据所述查询文本查找与所述查询字符匹配的待匹配多义词,将查找的待匹配多义词作为所述查询多义词。
在一个实施例中,语义特征的数量为N,所述多义词字典还包括所述查询多义词的N个语义描述文本,N是大于1的整数;
所述确定模块13,具体用于基于词向量模型以及所述查询多义词的N个语义描述文本,确定N个语义特征,将N个语义特征作为所述查询字符的多义词特征。
所述拼接模块15,具体用于将所述字符特征和N个语义特征分别拼接为N个单位查询特征,将所述N个单位查询特征作为所述查询字符的查询特征。
其中,获取模块11、查找模块12、确定模块13、提取模块14、拼接模块15、组合模块16、识别模块17以及显示模块20的具体功能实现方式可以参见上述图3对应实施例中的步骤S101-步骤S104,这里不再进行赘述。
请参见图9,提取模块14可以包括:第一提取单元141和第二提取单元142。
第一提取单元141,用于调用词向量模型确定所述查询字符的字符查询特征;
第二提取单元142,用于在所述查询文本中获取所述查询字符对应的查询字符序列,调用所述词向量模型确定所述查询字符序列的字符序列特征,根据所述查询字符在所述查询文本中的位置信息,生成所述查询字符的位置特征,将所述字符查询特征、所述字符序列特征以及所述位置特征拼接为所述查询字符的字符特征。
在一个实施例中,所述词向量模型包括第一词向量模型和第二词向量模型;
所述第一提取单元141,具体用于将所述查询字符热编码为热编码向量,调用所述第一词向量模型确定所述热编码向量的第一字符特征,调用所述第二词向量模型确定所述热编码向量的第二字符特征,将所述第二字符特征降维处理,得到第三字符特征;所述第三字符特征的维度和所述第一字符特征的维度相同,将所述第一字符特征和所述第三字符特征拼接为所述查询字符的字符查询特征。
其中,第一提取单元141和第二提取单元142的具体功能实现方式可以参见上述图3对应实施例中的步骤S103,这里不再进行赘述。
再参见图9,所述序列标注结果包括每个查询字符的目标字符权重;
识别模块17可以包括:第一识别单元171和第二识别单元172。
第一识别单元171,用于基于词权重标注模型以及所述查询特征序列,确定每个查询字符的第一字符权重;
第二识别单元172,用于基于词性标注模型,确定每个查询字符的词性,根据每个查询字符的词性确定每个查询字符的第二字符权重,根据每个查询字符的第二字符权重,调整每个查询字符的第一字符权重,并将调整后的第一字符权重作为目标字符权重。
在一个实施例中,多个查询字符包括第一查询字符和第二查询字符,所述第一查询字符和所述第二查询字符在所述查询文本中相邻;
所述文本处理装置1还可以包括:输出模块18。
输出模块18,用于获取字符权重阈值,若所述第一查询字符的目标字符权重和所述第二查询字符的目标字符权重相同,且所述第一字符的目标字符权重和所述第二字符的目标字符权重均大于所述字符权重阈值,则将所述第一查询字符和所述第二查询字符组合为所述查询文本的查询关键词,输出所述查询关键词。
其中,第一识别单元171和第二识别单元172以及输出模块18的具体功能实现方式可以参见上述图6对应实施例中的步骤S1041-步骤S1043,这里不再进行赘述。
再参见图9,所述多个查询字符包括第一查询字符和第二查询字符,所述查询特征序列包括所述第一查询字符的第一查询特征以及所述第二查询字符的第二查询特征,所述词权重标注模型包括编码模型和解码模型;
第一识别单元171,可以包括:第一编码子单元1711和第二编码子单元1712。
第一编码子单元1711,用于基于所述编码模型对所述第一查询特征进行编码,得到所述第一查询字符的第一隐藏特征;
第二编码子单元1712,用于基于所述编码模型以及所述第一隐藏特征,对所述第二查询特征进行编码,得到所述第二查询字符的第二隐藏特征;
所述第一编码子单元1711,还用于将所述第一隐藏特征和所述第二隐藏特征组合为隐藏特征序列,基于所述解码模型对所述隐藏特征序列进行解码,得到所述第一查询字符的第一字符权重以及所述第二查询字符的第一字符权重。
所述第二查询特征包括第一单位查询特征和第二单位查询特征,所述第一单位查询特征和所述第二单位查询特征是根据所述第二查询字符的查询多义词的多个语义特征确定的;
所述第二编码子单元1712,具体用于基于所述编码模型以及所述第一隐藏特征,对所述第一单位查询特征进行编码,得到第一单位记忆门特征,基于所述编码模型以及所述第一隐藏特征,对所述第二单位查询特征进行编码,得到第二单位记忆门特征,根据所述第一单位记忆门特征和所述第二单位记忆门特征生成所述第二查询字符的所述第二隐藏特征。
其中,第一编码子单元1711和第二编码子单元1712的具体功能实现方式可以参见上述图6对应实施例中的步骤S1041,这里不再进行赘述。
请参见图9,文本处理装置1可以包括:获取模块11、查找模块12、确定模块13、提取模块14、拼接模块15、组合模块16以及识别模块17;还可以包括调整模块19。
所述组合模块16,还用于获取样本文本,所述样本文本包括多个样本字符,获取每个样本字符的样本特征,将所述多个样本字符的样本特征组合为样本特征序列,基于样本词权重标注模型以及所述样本特征序列,确定每个样本字符的预测字符权重,获取每个样本字符的字符权重标签;
调整模块19,用于根据每个样本字符的预测字符权重以及字符权重标签,训练所述样本词权重标注模型,得到所述词权重标注模型。
调整模块19,具体用于根据每个样本字符的预测字符权重以及字符权重标签,多次调整所述样本词权重标注模型的模型参数,当调整后的样本词权重标注模型满足模型收敛条件时,将调整后的样本词权重标注模型作为待确定模型,将每次调整后的样本词权重标注模型的模型参数组合为模型参数集合,从所述模型参数集合中选择目标模型参数,根据所述目标模型参数以及所述目标模型参数的调整次数确定参数权重,根据所述参数权重调整所述待确定模型的模型参数,将调整后的待确定模型作为所述词权重标注模型。
其中,组合模块16以及调整模块19的具体功能实现方式可以参见上述图6对应实施例中的步骤S1043,这里不再进行赘述。
进一步地,请参见图10,是本发明实施例提供的一种计算机设备的结构示意图。上述图3-图8对应实施例中的终端设备可以为计算机设备1000,如图10所示,计算机设备1000可以包括:用户接口1002、处理器1004、编码器1006以及存储器1008。信号接收器1016用于经由蜂窝接口1010、WIFI接口1012、...、或NFC接口1014接收或者发送数据。编码器1006将接收到的数据编码为计算机处理的数据格式。存储器1008中存储有计算机程序,处理器1004被设置为通过计算机程序执行上述任一项方法实施例中的步骤。存储器1008可包括易失性存储器(例如,动态随机存取存储器DRAM),还可以包括非易失性存储器(例如,一次性可编程只读存储器OTPROM)。在一些实例中,存储器1008可进一步包括相对于处理器1004远程设置的存储器,这些远程存储器可以通过网络连接至计算机设备1000。用户接口1002可以包括:键盘1018和显示器1020。
在图10所示的计算机设备1000中,处理器1004可以用于调用存储器1008中存储计算机程序,以实现:
获取查询文本,所述查询文本包括多个查询字符;
根据所述查询文本获取查询字符对应的查询多义词,将所述查询多义词的多个语义特征作为所述查询字符的多义词特征;
提取所述查询字符的字符特征,将所述多义词特征和所述字符特征拼接为所述查询字符的查询特征;
将所述多个查询字符的查询特征组合为查询特征序列,识别所述查询特征序列,得到所述查询文本的序列标注结果。
在一个实施例中,所述序列标注结果包括每个查询字符的目标字符权重;
处理器1004在执行识别所述查询特征序列,得到所述查询文本的序列标注结果时,具体执行以下步骤:
基于词权重标注模型以及所述查询特征序列,确定每个查询字符的第一字符权重;
基于词性标注模型,确定每个查询字符的词性,根据每个查询字符的词性确定每个查询字符的第二字符权重;
根据每个查询字符的第二字符权重,调整每个查询字符的第一字符权重,并将调整后的第一字符权重作为目标字符权重。
在一个实施例中,所述多个查询字符包括第一查询字符和第二查询字符,所述第一查询字符和所述第二查询字符在所述查询文本中相邻;
处理器1004还执行以下步骤:
获取字符权重阈值;
若所述第一查询字符的目标字符权重和所述第二查询字符的目标字符权重相同,且所述第一字符的目标字符权重和所述第二字符的目标字符权重均大于所述字符权重阈值,则将所述第一查询字符和所述第二查询字符组合为所述查询文本的查询关键词;
输出所述查询关键词。
在一个实施例中,所述多个查询字符包括第一查询字符和第二查询字符,所述查询特征序列包括所述第一查询字符的第一查询特征以及所述第二查询字符的第二查询特征,所述词权重标注模型包括编码模型和解码模型;
处理器1004在执行基于词权重标注模型以及所述查询特征序列,确定每个查询字符的第一字符权重时,具体执行以下步骤:
基于所述编码模型对所述第一查询特征进行编码,得到所述第一查询字符的第一隐藏特征;
基于所述编码模型以及所述第一隐藏特征,对所述第二查询特征进行编码,得到所述第二查询字符的第二隐藏特征;
将所述第一隐藏特征和所述第二隐藏特征组合为隐藏特征序列;
基于所述解码模型对所述隐藏特征序列进行解码,得到所述第一查询字符的第一字符权重以及所述第二查询字符的第一字符权重。
在一个实施例中,所述第二查询特征包括第一单位查询特征和第二单位查询特征,所述第一单位查询特征和所述第二单位查询特征是根据所述第二查询字符的查询多义词的多个语义特征确定的;
处理器1004在执行基于所述编码模型以及所述第一隐藏特征,对所述第二查询特征进行编码,得到所述第二查询字符的第二隐藏特征时,具体执行以下步骤:
基于所述编码模型以及所述第一隐藏特征,对所述第一单位查询特征进行编码,得到第一单位记忆门特征;
基于所述编码模型以及所述第一隐藏特征,对所述第二单位查询特征进行编码,得到第二单位记忆门特征;
根据所述第一单位记忆门特征和所述第二单位记忆门特征生成所述第二查询字符的所述第二隐藏特征。
在一个实施例中,处理器1004还执行以下步骤:
获取样本文本,所述样本文本包括多个样本字符;
获取每个样本字符的样本特征,将所述多个样本字符的样本特征组合为样本特征序列;
基于样本词权重标注模型以及所述样本特征序列,确定每个样本字符的预测字符权重,获取每个样本字符的字符权重标签;
根据每个样本字符的预测字符权重以及字符权重标签,训练所述样本词权重标注模型,得到所述词权重标注模型。
在一个实施例中,处理器1004在执行根据每个样本字符的预测字符权重以及字符权重标签,训练所述样本词权重标注模型,得到所述词权重标注模型时,具体执行以下步骤:
根据每个样本字符的预测字符权重以及字符权重标签,多次调整所述样本词权重标注模型的模型参数;
当调整后的样本词权重标注模型满足模型收敛条件时,将调整后的样本词权重标注模型作为待确定模型;
将每次调整后的样本词权重标注模型的模型参数组合为模型参数集合,从所述模型参数集合中选择目标模型参数;
根据所述目标模型参数以及所述目标模型参数的调整次数确定参数权重;
根据所述参数权重调整所述待确定模型的模型参数,将调整后的待确定模型作为所述词权重标注模型。
在一个实施例中,处理器1004在执行根据所述查询文本获取查询字符对应的查询多义词时,具体执行以下步骤:
获取多义词字典;所述多义词字典包括多个待匹配多义词;
在所述多个待匹配多义词中,根据所述查询文本查找与所述查询字符匹配的待匹配多义词,将查找的待匹配多义词作为所述查询多义词。
在一个实施例中,语义特征的数量为N,所述多义词字典还包括所述查询多义词的N个语义描述文本,N是大于1的整数;
处理器1004在执行将所述查询多义词的多个语义特征作为所述查询字符的多义词特征时,具体执行以下步骤:
基于词向量模型以及所述查询多义词的N个语义描述文本,确定N个语义特征;
将N个语义特征作为所述查询字符的多义词特征。
在一个实施例中,处理器1004在执行将所述多义词特征和所述字符特征拼接为所述查询字符的查询特征时,具体执行以下步骤:
将所述字符特征和N个语义特征分别拼接为N个单位查询特征;
将所述N个单位查询特征作为所述查询字符的查询特征。
在一个实施例中,处理器1004在执行提取所述查询字符的字符特征时,具体执行以下步骤:
调用词向量模型确定所述查询字符的字符查询特征;
在所述查询文本中获取所述查询字符对应的查询字符序列,调用所述词向量模型确定所述查询字符序列的字符序列特征;
根据所述查询字符在所述查询文本中的位置信息,生成所述查询字符的位置特征;
将所述字符查询特征、所述字符序列特征以及所述位置特征拼接为所述查询字符的字符特征。
在一个实施例中,所述词向量模型包括第一词向量模型和第二词向量模型;
处理器1004在执行调用词向量模型确定所述查询字符的字符查询特征时,具体执行以下步骤:
将所述查询字符热编码为热编码向量;
调用所述第一词向量模型确定所述热编码向量的第一字符特征;
调用所述第二词向量模型确定所述热编码向量的第二字符特征,将所述第二字符特征降维处理,得到第三字符特征;所述第三字符特征的维度和所述第一字符特征的维度相同;
将所述第一字符特征和所述第三字符特征拼接为所述查询字符的字符查询特征。
在一个实施例中,处理器1004在执行获取查询文本时,具体执行以下步骤:
当所述搜索选项被触发时,显示搜索界面;
在所述搜索界面接收所述查询文本;
处理器1004还执行以下步骤:
根据所述序列标注结果确定查询信息流,在所述搜索界面显示所述查询信息流。
应当理解,本发明实施例中所描述的计算机设备1000可执行前文图3到图8所对应实施例中对文本处理方法的描述,也可执行前文图9所对应实施例中对文本处理装置1的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本发明实施例还提供了一种计算机存储介质,且计算机存储介质中存储有前文提及的文本处理装置1所执行的计算机程序,且该计算机程序包括程序指令,当处理器执行上述程序指令时,能够执行前文图3到图8所对应实施例中的方法,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本发明所涉及的计算机存储介质实施例中未披露的技术细节,请参照本发明方法实施例的描述。作为示例,程序指令可以被部署在一个计算机设备上,或者在位于一个地点的多个计算机设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算机设备上执行,分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链系统。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备可以执行前文图3到图8所对应实施例中的方法,因此,这里将不再进行赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,上述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (13)

1.一种文本处理方法,其特征在于,包括:
获取查询文本,所述查询文本包括多个查询字符;
根据所述查询文本获取查询字符对应的查询多义词,将所述查询多义词的多个语义特征作为所述查询字符的多义词特征;
提取所述查询字符的字符特征,将所述多义词特征和所述字符特征拼接为所述查询字符的查询特征;
将所述多个查询字符的查询特征组合为查询特征序列;所述多个查询字符包括第一查询字符和第二查询字符,所述查询特征序列包括所述第一查询字符的第一查询特征以及所述第二查询字符的第二查询特征;
基于编码模型对所述第一查询特征进行编码,得到所述第一查询字符的第一隐藏特征,并基于编码模型以及所述第一隐藏特征,对所述第二查询特征进行编码,得到所述第二查询字符的第二隐藏特征;
将所述第一隐藏特征和所述第二隐藏特征组合为隐藏特征序列,并基于解码模型对所述隐藏特征序列进行解码,得到所述第一查询字符的第一字符权重以及所述第二查询字符的第一字符权重;所述编码模型和所述解码模型属于词权重标注模型;
基于词性标注模型确定每个查询字符的词性,根据所述每个查询字符的词性确定所述每个查询字符的第二字符权重;
根据所述每个查询字符的第二字符权重调整所述每个查询字符的第一字符权重,并将调整后的第一字符权重作为目标字符权重;
根据所述每个查询字符的目标字符权重确定针对所述查询文本的序列标注结果。
2.根据权利要求1所述的方法,其特征在于,所述第一查询字符和所述第二查询字符在所述查询文本中相邻;
所述方法还包括:
获取字符权重阈值;
若所述第一查询字符的目标字符权重和所述第二查询字符的目标字符权重相同,且所述第一字符的目标字符权重和所述第二字符的目标字符权重均大于所述字符权重阈值,则将所述第一查询字符和所述第二查询字符组合为所述查询文本的查询关键词;
输出所述查询关键词。
3.根据权利要求1所述的方法,其特征在于,所述第二查询特征包括第一单位查询特征和第二单位查询特征,所述第一单位查询特征和所述第二单位查询特征是根据所述第二查询字符的查询多义词的多个语义特征确定的;
所述基于编码模型以及所述第一隐藏特征,对所述第二查询特征进行编码,得到所述第二查询字符的第二隐藏特征,包括:
基于所述编码模型以及所述第一隐藏特征,对所述第一单位查询特征进行编码,得到第一单位记忆门特征;
基于所述编码模型以及所述第一隐藏特征,对所述第二单位查询特征进行编码,得到第二单位记忆门特征;
根据所述第一单位记忆门特征和所述第二单位记忆门特征生成所述第二查询字符的所述第二隐藏特征。
4.根据权利要求1所述的方法,其特征在于,还包括:
获取样本文本,所述样本文本包括多个样本字符;
获取每个样本字符的样本特征,将所述多个样本字符的样本特征组合为样本特征序列;
基于样本词权重标注模型以及所述样本特征序列,确定每个样本字符的预测字符权重,获取每个样本字符的字符权重标签;
根据每个样本字符的预测字符权重以及字符权重标签,训练所述样本词权重标注模型,得到所述词权重标注模型。
5.根据权利要求4所述的方法,其特征在于,所述根据每个样本字符的预测字符权重以及字符权重标签,训练所述样本词权重标注模型,得到所述词权重标注模型,包括:
根据每个样本字符的预测字符权重以及字符权重标签,多次调整所述样本词权重标注模型的模型参数;
当调整后的样本词权重标注模型满足模型收敛条件时,将调整后的样本词权重标注模型作为待确定模型;
将每次调整后的样本词权重标注模型的模型参数组合为模型参数集合,从所述模型参数集合中选择目标模型参数;
根据所述目标模型参数以及所述目标模型参数的调整次数确定参数权重;
根据所述参数权重调整所述待确定模型的模型参数,将调整后的待确定模型作为所述词权重标注模型。
6.根据权利要求1所述的方法,其特征在于,所述根据所述查询文本获取查询字符对应的查询多义词,包括:
获取多义词字典;所述多义词字典包括多个待匹配多义词;
在所述多个待匹配多义词中,根据所述查询文本查找与所述查询字符匹配的待匹配多义词,将查找的待匹配多义词作为所述查询多义词。
7.根据权利要求6所述的方法,其特征在于,语义特征的数量为N,所述多义词字典还包括所述查询多义词的N个语义描述文本,N是大于1的整数;
所述将所述查询多义词的多个语义特征作为所述查询字符的多义词特征,包括:
基于词向量模型以及所述查询多义词的N个语义描述文本,确定N个语义特征;
将N个语义特征作为所述查询字符的多义词特征。
8.根据权利要求7所述的方法,其特征在于,所述将所述多义词特征和所述字符特征拼接为所述查询字符的查询特征,包括:
将所述字符特征和N个语义特征分别拼接为N个单位查询特征;
将所述N个单位查询特征作为所述查询字符的查询特征。
9.根据权利要求1所述的方法,其特征在于,所述提取所述查询字符的字符特征,包括:
调用词向量模型确定所述查询字符的字符查询特征;
在所述查询文本中获取所述查询字符对应的查询字符序列,调用所述词向量模型确定所述查询字符序列的字符序列特征;
根据所述查询字符在所述查询文本中的位置信息,生成所述查询字符的位置特征;
将所述字符查询特征、所述字符序列特征以及所述位置特征拼接为所述查询字符的字符特征。
10.根据权利要求9所述的方法,其特征在于,所述词向量模型包括第一词向量模型和第二词向量模型;
所述调用词向量模型确定所述查询字符的字符查询特征,包括:
将所述查询字符热编码为热编码向量;
调用所述第一词向量模型确定所述热编码向量的第一字符特征;
调用所述第二词向量模型确定所述热编码向量的第二字符特征,将所述第二字符特征降维处理,得到第三字符特征;所述第三字符特征的维度和所述第一字符特征的维度相同;
将所述第一字符特征和所述第三字符特征拼接为所述查询字符的字符查询特征。
11.一种文本处理装置,其特征在于,包括:
获取模块,用于获取查询文本,所述查询文本包括多个查询字符;
查找模块,用于根据所述查询文本获取查询字符对应的查询多义词;
确定模块,用于将所述查询多义词的多个语义特征作为所述查询字符的多义词特征;
提取模块,用于提取所述查询字符的字符特征;
拼接模块,用于将所述多义词特征和所述字符特征拼接为所述查询字符的查询特征;
组合模块,用于将所述多个查询字符的查询特征组合为查询特征序列;所述多个查询字符包括第一查询字符和第二查询字符,所述查询特征序列包括所述第一查询字符的第一查询特征以及所述第二查询字符的第二查询特征;
识别模块,用于基于编码模型对所述第一查询特征进行编码,得到所述第一查询字符的第一隐藏特征,并基于编码模型以及所述第一隐藏特征,对所述第二查询特征进行编码,得到所述第二查询字符的第二隐藏特征;将所述第一隐藏特征和所述第二隐藏特征组合为隐藏特征序列,并基于解码模型对所述隐藏特征序列进行解码,得到所述第一查询字符的第一字符权重以及所述第二查询字符的第一字符权重;基于词性标注模型确定每个查询字符的词性,根据所述每个查询字符的词性确定所述每个查询字符的第二字符权重;根据所述每个查询字符的第二字符权重调整所述每个查询字符的第一字符权重,并将调整后的第一字符权重作为目标字符权重;根据所述每个查询字符的目标字符权重确定针对所述查询文本的序列标注结果;所述编码模型和所述解码模型属于词权重标注模型。
12.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1-10中任一项所述方法的步骤。
13.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时,执行权利要求1-10任一项所述的方法。
CN202010647661.9A 2020-07-07 2020-07-07 文本处理方法、装置、计算机设备以及存储介质 Active CN111680510B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010647661.9A CN111680510B (zh) 2020-07-07 2020-07-07 文本处理方法、装置、计算机设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010647661.9A CN111680510B (zh) 2020-07-07 2020-07-07 文本处理方法、装置、计算机设备以及存储介质

Publications (2)

Publication Number Publication Date
CN111680510A CN111680510A (zh) 2020-09-18
CN111680510B true CN111680510B (zh) 2021-10-15

Family

ID=72457352

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010647661.9A Active CN111680510B (zh) 2020-07-07 2020-07-07 文本处理方法、装置、计算机设备以及存储介质

Country Status (1)

Country Link
CN (1) CN111680510B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113139037B (zh) * 2021-03-18 2023-04-14 北京三快在线科技有限公司 文本处理方法、装置、设备以及存储介质
CN113360613A (zh) * 2021-05-31 2021-09-07 维沃移动通信有限公司 文本处理方法、装置和电子设备
CN113836866A (zh) * 2021-06-04 2021-12-24 腾讯科技(深圳)有限公司 文本编码方法、装置、计算机可读介质及电子设备
CN115510193B (zh) * 2022-10-10 2024-04-16 北京百度网讯科技有限公司 查询结果向量化方法、查询结果确定方法及相关装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7778953B2 (en) * 2007-02-19 2010-08-17 Kabushiki Kaisha Toshiba Document management apparatus and document management method
CN109710919A (zh) * 2018-11-27 2019-05-03 杭州电子科技大学 一种融合注意力机制的神经网络事件抽取方法
CN110334354B (zh) * 2019-07-11 2022-12-09 清华大学深圳研究生院 一种中文关系抽取方法

Also Published As

Publication number Publication date
CN111680510A (zh) 2020-09-18

Similar Documents

Publication Publication Date Title
CN111680510B (zh) 文本处理方法、装置、计算机设备以及存储介质
US11501182B2 (en) Method and apparatus for generating model
CN110534087B (zh) 一种文本韵律层级结构预测方法、装置、设备及存储介质
CN112487182B (zh) 文本处理模型的训练方法、文本处理方法及装置
CN109740158B (zh) 一种文本语义解析方法及装置
JP2023535709A (ja) 言語表現モデルシステム、事前訓練方法、装置、機器及び媒体
CN113657399A (zh) 文字识别模型的训练方法、文字识别方法及装置
CN112288075A (zh) 一种数据处理方法及相关设备
EP4113357A1 (en) Method and apparatus for recognizing entity, electronic device and storage medium
CN113705313A (zh) 文本识别方法、装置、设备及介质
CN112257471A (zh) 一种模型训练方法、装置、计算机设备及存储介质
CN113505193A (zh) 一种数据处理方法及相关设备
CN113887237A (zh) 多意图文本的槽位预测方法、装置及计算机设备
CN116341651A (zh) 实体识别模型训练方法、装置、电子设备及存储介质
CN116975288A (zh) 文本处理方法及文本处理模型训练方法
CN109933773A (zh) 一种多重语义语句解析系统及方法
CN116541492A (zh) 一种数据处理方法及相关设备
CN113326367B (zh) 基于端到端文本生成的任务型对话方法和系统
CN114297220A (zh) 一种数据处理方法、装置、计算机设备以及存储介质
CN112765330A (zh) 文本数据处理方法、装置、电子设备和存储介质
CN111475635A (zh) 语义补全方法、装置和电子设备
CN114970666B (zh) 一种口语处理方法、装置、电子设备及存储介质
WO2023137903A1 (zh) 基于粗糙语义的回复语句确定方法、装置及电子设备
CN112818688B (zh) 文本处理方法、装置、设备及存储介质
CN114282528A (zh) 一种关键词提取方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40028105

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant