CN116151258A - 文本消岐方法、电子设备、存储介质 - Google Patents
文本消岐方法、电子设备、存储介质 Download PDFInfo
- Publication number
- CN116151258A CN116151258A CN202310119011.0A CN202310119011A CN116151258A CN 116151258 A CN116151258 A CN 116151258A CN 202310119011 A CN202310119011 A CN 202310119011A CN 116151258 A CN116151258 A CN 116151258A
- Authority
- CN
- China
- Prior art keywords
- text
- topic
- vector
- feature
- feature vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及人工智能技术领域,尤其是涉及一种文本消岐方法、电子设备、存储介质。根据本申请文本消岐方法,需要先获取目标文本与预先训练的主题消岐模型,其中,主题消岐模型包括文本编码层、主题记忆网络、特征重置层与分类解码层,基于文本编码层对目标文本进行文本特征提取,得到文本特征向量,再基于主题记忆网络对文本特征向量进行主题增强处理,得到主题特征向量,基于主题特征向量在特征重置层中对文本特征向量进行重置增强处理,得到文本增强向量,基于分类解码层对文本增强向量进行识别,得到消岐后的目标文本。利用主题记忆网络与特征重置层,结合目标文本的主题信息来对文本特征向量进行增强处理,能够提升文本消岐方法的准确性。
Description
技术领域
本申请涉及人工智能技术领域,尤其是涉及一种文本消岐方法、电子设备、存储介质。
背景技术
文本消歧任务是自然语言处理的研究领域之一,其中,文本消歧任务旨在把文本中的命名实体(例如地址、组织、人物、事件等)与预设数据库中的特定条目绑定,从而实现同一命名实体在不同场景下的消歧,例如区分出“笔记本”在当前场景下具体指的是笔记本电脑,还是书写用的笔记本。
相关技术中,往往利用预先训练的自然语言模型来处理目标文本信息,将目标文本信息转化成对应的隐向量,进一步基于分类函数处理隐向量即可得到目标文本信息的识别结果,达到消岐的目的。然而,这种消岐方法高度依赖于自然语言模型的性能,实际应用场景下命名实体往往会存在非常多的表示方式,例如简称、别称等。对此,目前的自然语言模型尚未具备执行消岐任务的优良性能,如何进一步提升文本消岐方法的准确性,已经成为业内亟待解决的一个问题。
发明内容
本申请旨在至少解决现有技术中存在的技术问题之一。为此,本申请提出一种文本消岐方法、电子设备、存储介质,能够提升文本消岐方法的准确性。
根据本申请的第一方面实施例的文本消岐方法,包括:
获取目标文本与预先训练的主题消岐模型,所述主题消岐模型包括文本编码层、主题记忆网络、特征重置层与分类解码层;
基于所述文本编码层对所述目标文本进行文本特征提取,得到文本特征向量;
基于所述主题记忆网络对所述文本特征向量进行主题增强处理,得到主题特征向量,所述主题特征向量表征所述目标文本的主题信息;
基于所述主题特征向量在所述特征重置层中对所述文本特征向量进行重置增强处理,得到文本增强向量;
基于所述分类解码层对所述文本增强向量进行识别,得到消岐后的所述目标文本。
根据本申请的一些实施例,所述获取目标文本与预先训练的主题消岐模型之前,还包括对所述主题消岐模型进行预先训练,具体包括:
获取训练数据集,所述训练数据集包括多个训练文本,每一所述训练文本配置有一一对应的训练标签;
将所述训练数据集输入所述主题消岐模型进行迭代训练,每一轮所述迭代训练中,基于所述主题消岐模型对所述训练文本进行识别,得到训练识别结果,并将所述训练标签与所述训练识别结果进行比对,得到识别偏差数据,基于所述识别偏差数据更新所述主题消岐模型的模型参数;
当所述识别偏差数据符合预设训练条件,得到预先训练的所述主题消岐模型。
根据本申请的一些实施例,所述模型参数包括所述主题记忆网络中的主题矩阵,所述基于所述主题记忆网络对所述文本特征向量进行主题增强处理,得到主题特征向量,包括:
基于所述主题矩阵对所述文本特征向量进行主题增强处理,得到所述主题特征向量。
根据本申请的一些实施例,所述主题记忆网络包括键全连接层与值全连接层,所述基于所述主题矩阵对所述文本特征向量进行主题增强处理,得到所述主题特征向量,包括:
对所述主题矩阵进行键特征转换,得到键矩阵;
对所述主题矩阵进行值特征转换,得到值矩阵;
基于所述键矩阵对所述文本特征向量进行归一化处理,得到所述文本特征向量对应的权重向量;
基于所述权重向量与所述值矩阵进行点积处理,得到所述主题特征向量。
根据本申请的一些实施例,所述基于所述主题特征向量在所述特征重置层中对所述文本特征向量进行重置增强处理,得到文本增强向量,包括:
基于所述主题特征向量与所述文本特征向量,在所述特征重置层中构建特征重置向量;
基于所述特征重置向量、所述主题特征向量与所述文本特征向量进行语义增强处理,得到所述文本增强向量。
根据本申请的一些实施例,所述模型参数包括所述特征重置层中的第一重置矩阵、第二重置矩阵与重置偏移向量,所述基于所述主题特征向量与所述文本特征向量,在所述特征重置层中构建特征重置向量,包括:
基于所述第一重置矩阵对所述文本特征向量进行点积处理,得到第一重置元素;
基于所述第二重置矩阵对所述主题特征向量进行点积处理,得到第二重置元素;
将所述第一重置元素、第二重置元素与所述重置偏移向量进行求和处理,得到第三重置元素;
将所述第三重置元素代入预设的激活函数,得到所述特征重置向量。
根据本申请的一些实施例,所述基于所述特征重置向量、所述主题特征向量与所述文本特征向量进行语义增强处理,得到所述文本增强向量,包括:
基于所述特征重置向量与所述文本特征向量进行哈达玛积运算,得到第一语义增强元素;
基于单位向量与所述特征重置向量进行作差处理,得到第二语义增强元素;
所述主题特征向量与所述第二语义增强元素进行哈达玛积运算,得到第三语义增强元素;
将所述第一语义增强元素与所述第三语义增强元素进行向量串联运算,得到所述文本增强向量。
根据本申请的一些实施例,所述基于所述文本编码层对所述目标文本进行文本特征提取,得到文本特征向量,包括:
基于所述目标文本进行分词处理,得到多个文本实体字段;
基于所述文本编码层对每一所述文本实体字段进行文本特征提取,得到与所述文本实体字段一一对应的所述文本特征向量。
第二方面,本申请实施例提供了一种电子设备,包括:存储器、处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如本申请第一方面实施例中任意一项所述的文本消岐方法。
第三方面,本申请实施例提供了一种计算机可读存储介质,所述存储介质存储有程序,所述程序被处理器执行实现如本申请第一方面实施例中任意一项所述的文本消岐方法。
根据本申请实施例的文本消岐方法、电子设备、存储介质,至少具有如下
有益效果:
根据本申请文本消岐方法,需要先获取目标文本与预先训练的主题消岐模型,其中,主题消岐模型包括文本编码层、主题记忆网络、特征重置层与分类解码层,基于文本编码层对目标文本进行文本特征提取,得到文本特征向量,再基于主题记忆网络对文本特征向量进行主题增强处理,得到主题特征向量,主题特征向量表征目标文本的主题信息,进一步基于主题特征向量在特征重置层中对文本特征向量进行重置增强处理,得到文本增强向量,再进一步基于分类解码层对文本增强向量进行识别,得到消岐后的目标文本。利用主题记忆网络与特征重置层,结合目标文本的主题信息来对文本特征向量进行增强处理,能够提升文本消岐方法的准确性。
本申请的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请实施例示出的文本消岐方法的一个可选流程图;
图2为本申请实施例示出的文本消岐方法的另一可选流程图;
图3为本申请实施例示出的文本消岐方法的另一可选流程图;
图4为本申请实施例示出的文本消岐方法的另一可选流程图;
图5为本申请实施例示出的文本消岐方法的另一可选流程图;
图6为本申请实施例示出的文本消岐方法的另一可选流程图;
图7为本申请实施例示出的文本消岐方法的另一可选流程图;
图8是本申请实施例提供的电子设备的硬件结构示意图。
具体实施方式
下面详细描述本申请的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能理解为对本申请的限制。
在本申请的描述中,若干的含义是一个或者多个,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
在本申请的描述中,需要理解的是,涉及到方位描述,例如上、下、左、右、前、后等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
本申请的描述中,需要说明的是,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本申请中的具体含义。另外,下文中对于具体步骤的标识并不代表对于步骤顺序与执行逻辑的限定,各个步骤之间的执行顺序与执行逻辑应参照实施例所表述的内容进行理解与推定。
文本消歧任务是自然语言处理的研究领域之一,所谓消岐指的是消除歧义,文本消歧任务旨在把文本中的命名实体与预设数据库中的特定条目绑定,从而实现同一命名实体在不同场景下的消歧,例如区分出“笔记本”在当前场景下具体指的是笔记本电脑,还是书写用的笔记本;又例如“苹果”在一种场景下可以表示水果,另一种场景下可以表示公司名称。所谓命名实体,可以是人名、机构名、地名以及其他所有以名称为标识的实体,更广泛的实体还包括数字、日期、货币、地址等等。
相关技术中,往往利用预先训练的自然语言模型来处理目标文本信息,将目标文本信息转化成对应的隐向量,进一步基于分类函数处理隐向量即可得到目标文本信息的识别结果,达到消岐的目的。然而,这种消岐方法高度依赖于自然语言模型的性能,实际应用场景下命名实体往往会存在非常多的表示方式,例如简称、别称等。对此,目前的自然语言模型尚未具备执行消岐任务的优良性能,如何进一步提升文本消岐方法的准确性,已经成为业内亟待解决的一个问题。
本申请旨在至少解决现有技术中存在的技术问题之一。为此,本申请提出一种文本消岐方法、电子设备、存储介质,能够提升文本消岐方法的准确性。
参照图1,根据本申请的第一方面实施例的文本消岐方法,可以包括但不限于下述:
步骤S101,获取目标文本与预先训练的主题消岐模型,主题消岐模型包括文本编码层、主题记忆网络、特征重置层与分类解码层;
步骤S102,基于文本编码层对目标文本进行文本特征提取,得到文本特征向量;
步骤S103,基于主题记忆网络对文本特征向量进行主题增强处理,得到主题特征向量,主题特征向量表征目标文本的主题信息;
步骤S104,基于主题特征向量在特征重置层中对文本特征向量进行重置增强处理,得到文本增强向量;
步骤S105,基于分类解码层对文本增强向量进行识别,得到消岐后的目标文本。
经由本申请实施例文本消岐方法的步骤S101至步骤S105,需要先获取目标文本与预先训练的主题消岐模型,其中,主题消岐模型包括文本编码层、主题记忆网络、特征重置层与分类解码层,基于文本编码层对目标文本进行文本特征提取,得到文本特征向量,再基于主题记忆网络对文本特征向量进行主题增强处理,得到主题特征向量,主题特征向量表征目标文本的主题信息,进一步基于主题特征向量在特征重置层中对文本特征向量进行重置增强处理,得到文本增强向量,再进一步基于分类解码层对文本增强向量进行识别,得到消岐后的目标文本。利用主题记忆网络与特征重置层,结合目标文本的主题信息来对文本特征向量进行增强处理,能够提升文本消岐方法的准确性。
本申请一些实施例的步骤S101中,获取目标文本与预先训练的主题消岐模型,主题消岐模型包括文本编码层、主题记忆网络、特征重置层与分类解码层。需要说明的是,目标文本指的是需要被消岐处理的文本,而主题消岐模型则指的是本申请实施例中用于对目标文本进行消岐处理的自然语言处理模型。其中,目标文本的类型多种多样,既可以是句子,也可以是段落,既可以由中文表述,也可以由外文表述。应理解,目标文本的类型可以包括,但不限于上述举出的具体实施例。需要指出,本申请实施例的主题消岐模型包括文本编码层、主题记忆网络、特征重置层与分类解码层四部分,其中每一部分所对应的作用将在下文一一展开。应理解,主题消岐模型基于预先训练过程而具备对文本消除歧义的能力,为了提升主题消岐模型对文本消除歧义的能力,在执行步骤S101至步骤S105之前需要对主题消岐模型中的文本编码层、主题记忆网络、特征重置层与分类解码层四个组成部分进行联合训练。
参照图2,根据本申请的一些实施例,步骤S101获取目标文本与预先训练的主题消岐模型之前,还包括对主题消岐模型进行预先训练,具体包括但不限于下述步骤S201至步骤S203。
步骤S201,获取训练数据集,训练数据集包括多个训练文本,每一训练文本配置有一一对应的训练标签;
步骤S202,将训练数据集输入主题消岐模型进行迭代训练,每一轮迭代训练中,基于主题消岐模型对训练文本进行识别,得到训练识别结果,并将训练标签与训练识别结果进行比对,得到识别偏差数据,基于识别偏差数据更新主题消岐模型的模型参数;
步骤S203,当识别偏差数据符合预设训练条件,得到预先训练的主题消岐模型。
本申请一些实施例的步骤S201中,获取训练数据集,训练数据集包括多个训练文本,每一训练文本配置有一一对应的训练标签。需要强调,主题消岐模型基于预先训练过程而具备对文本消除歧义的能力,为了在预先训练的过程中可以提升主题消岐模型针对文本的消岐能力,本申请实施例要利用训练数据集对主题消岐模型进行训练。其中训练数据集包括多个训练文本,需要指出,训练文本既可以是句子,也可以是段落,既可以由中文表述,也可以由外文表述,需要明确,为了是的预先训练的主题消岐模型能够识别目标文本,训练文本的类型应当与目标文本相对应。每一训练文本配置有一一对应的训练标签,训练标签用于表征训练文本正确的语句含义。
本申请一些实施例的步骤S202中,需要将训练数据集输入主题消岐模型进行迭代训练,每一轮迭代训练中,基于主题消岐模型对训练文本进行识别,得到训练识别结果,并将训练标签与训练识别结果进行比对,得到识别偏差数据,基于识别偏差数据更新主题消岐模型的模型参数。需要说明的是,将训练数据集输入主题消岐模型进行迭代训练的过程中,由于每一轮迭代训练都会基于主题消岐模型对训练文本进行识别得到训练识别结果,因此将训练标签与训练识别结果进行比对,得到识别偏差数据,即可通过识别偏差数据界定当前迭代轮次下主题消岐模型针对文本的消岐能力,若训练标签与训练识别结果之间的识别偏差数据越小,则说明主题消岐模型识别正确语义的能力越强,故而主题消岐模型针对文本的消岐能力也就越强。另外,每一轮迭代训练中,还会基于识别偏差数据更新主题消岐模型的模型参数,以使得下一轮次的主题消岐模型得到优化,随着迭代轮次的增加,主题消岐模型针对文本的消岐能力也就会逐渐增强。一些较为具体的实施例中,可以利用反向传播算法,来对主题消岐模型进行预先训练。
本申请一些实施例的步骤S203中,当识别偏差数据符合预设训练条件,得到预先训练的主题消岐模型。需要说明的是,预设训练条件用于衡量主题消岐模型针对文本的消岐能力,若识别偏差数据符合预设训练条件,则说明主题消岐模型针对文本的消岐能力已经达到较高水平,满足预设要求,即可将当前迭代轮次的主题消岐模型确定为预先训练的主题消岐模型,同理,若识别偏差数据不符合预设训练条件,则说明主题消岐模型针对文本的消岐能力并未达到预设要求,故而此时的主题消岐模型需要继续进行迭代训练,以增强主题消岐模型针对文本的消岐能力。需要指出,预设训练条件的类型多种多样,可以根据应用场景灵活设置,例如,当识别偏差数据小于一个预先设置的阈值,则符合预设训练条件;又例如,当识别偏差数据不再随着迭代轮次的增加而显著减小,则符合预设训练条件。应理解,预设训练条件的类型不限于上述举出的具体实施例。
通过步骤S201至步骤S203,预先对主题消岐模型中的文本编码层、主题记忆网络、特征重置层与分类解码层四个组成部分进行联合训练,即可增强主题消岐模型针对文本的消岐能力。
本申请一些实施例的步骤S102中,基于文本编码层对目标文本进行文本特征提取,得到文本特征向量。需要说明的是,文本编码层能够以目标文本为基础,从中提取得到对应的文本特征向量,文本特征向量也可以被称作是隐向量。需要明确,文本特征向量用于表征目标文本的语义信息。一些示例性的实施例中,对目标文本进行文本特征提取,需要先对目标文本进行分词处理,再进一步基于分词后的文本实体字段提取其中的语义特征。一些较为具体的实施例中,文本编码层将为目标文本转换为文本特征向量的方法多种多样,例如,通过one-hot编码向量化目标文本,进而形成文本特征向量;又例如,通过TF-IDF文本向量化目标文本,进而形成文本特征向量;再例如,通过哈希向量化目标文本,进而形成文本特征向量;还例如,利用自然语言模型来提取目标文本对应的文本特征向量。应理解,文本编码层将为目标文本转换为文本特征向量的方法不限于上述举出的具体实施例。
一些较为具体的实施例中,基于Transformer的双向编码器(BidirectionalEncoder Representations from Transformer,BERT)是一种基于Transformer的Attention注意力机制建立起来的人工智能模型,BERT模型利用大规模无标注的预料训练,获得包含文本内在语义信息的表现(Representation)。需要指出,BERT模型的核心是Transformer,而Transformer的核心是Attention注意力机制,Attention机制的作用是让神经网络把注意力集中在一部分输入上。BERT模型的Attention机制主要涉及到三个概念:Query,Value,Key,其中Query指的是目标文本,或待生成的标注的词,Value指的是输入信息中上下文各字的原始Value表示,Key指的是输入信息中上下文各字的Key向量表示,通过计算Query和Key的相似度对Value加成,即可生成目标文本的文本特征向量。
需要指出,BERT模型的优点在于:其一,可以充分训练模型的表达能力,并且Transformer的提取特征能力强于双向LSTM;其二,BERT模型可以获取比词更高级别的句子级别的语义表征;其三,BERT模型是可以将预训练模型和下游任务模型结合在一起的,也就是说在做下游任务时仍然可以用BERT模型,不必要对模型做修改;其四,BERT模型较小的微调成本。因此,本申请一些较为优选的实施例中,选用BERT模型作为本申请实施例中主题消岐模型的文本编码层。
本申请一些实施例的步骤S103中,基于主题记忆网络对文本特征向量进行主题增强处理,得到主题特征向量,主题特征向量表征目标文本的主题信息。需要说明的是,主题记忆网络是基于主题模型衍生出来的网络模型。需要明确,主题模型(Topic Model)是以非监督学习的方式对文集的隐含语义结构进行聚类的统计模型。主题模型主要被用于自然语言处理中的语义分析和文本挖掘问题,例如按主题对文本进行收集、分类和降维。主题模型的要旨是基于词在文章中的共现关系,从大量的词汇中找出主题词,这部分主题词在一部分的文章中经常出现,但并不似常用词一般在大部分文章中都频繁出现,基于这种特性,主题词相较于低频词或常用词,往往能更好地指明文本的类别。本申请一些示例性的实施例中,主题记忆神经网络包括主题映射模块、权重计算模块、主题整合模块,其中主题映射模块主要是将预训练过程中学习到的主题矩阵映射到对文本分类有用的特征空间当中,分别得到键矩阵与值矩阵,权重计算模块则主要是在获取文本特征向量后,基于键矩阵与文本特征向量形成与文本特征向量对应的权重向量,在根据权重向量与值矩阵形成主题特征向量,其中主题特征向量表征目标文本的主题信息。需要指出,主题记忆网络的结构不限于上述举出的具体实施例。
参照图3,根据本申请的一些实施例,步骤S103基于文本编码层对目标文本进行文本特征提取,得到文本特征向量,可以包括但不限于下述步骤S301至步骤S302。
步骤S301,基于目标文本进行分词处理,得到多个文本实体字段;
步骤S302,基于文本编码层对每一文本实体字段进行文本特征提取,得到与文本实体字段一一对应的文本特征向量。
本申请一些实施例的步骤S301至步骤S302中,先基于目标文本进行分词处理,得到多个文本实体字段,再基于文本编码层对每一文本实体字段进行文本特征提取,得到与文本实体字段一一对应的文本特征向量。需要说明的是,先基于目标文本进行分词处理得到文本实体字段,再进一步对文本实体字段进行文本特征提取,能够得到每一文本实体字段对应的文本特征向量,能够将目标文本中可能存在歧义的实体,提取出来单独表示,以便于在后续步骤中对文本特征向量进行重置增强处理。需要强调,所谓命名实体,可以是人名、机构名、地名以及其他所有以名称为标识的实体,更广泛的实体还包括数字、日期、货币、地址等等。
本申请一些较为具体的实施例中,对目标文本进行分词处理,得到文本词序列,文本词序列包括多个文本实体字段。一些实施例中,目标文本可以是已经预先设置好的词序列格式,例如“xi={w1,w2,…,wt}”,另一些实施例中,目标文本是从各类文本材料中提取的文本段落,例如“xxxx,xxx,xxxx”。当目标文本是从各类文本材料中提取的文本段落,本申请一些实施例中需要先对目标文本进行分词处理,得到文本词序列,文本词序列包括多个文本实体字段。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。由于英文、德文等外国语句的表述习惯中,空格、标点符号会天然地将各个词汇划分开来,因此针对英文、德文等外国语句进行分词,常常以空格或者其他标点为依据。中文分词,指的是将一个汉字序列切分成一个个单独的词,由于汉字是方块字,中文表述习惯中连续的子序列可能包含多个词汇,因此中文分词相较于英文分词更为困难。应理解,对目标文本进行分词处理可以通过各种各样的方式实现,不限于上述举出的具体实施例。
根据本申请的一些实施例,模型参数包括主题记忆网络中的主题矩阵,步骤S103基于主题记忆网络对文本特征向量进行主题增强处理,得到主题特征向量,具体可以是基于主题矩阵对文本特征向量进行主题增强处理,得到主题特征向量。需要说明的是,机器学习模型中一般有两类参数:一类需要从数据中学习和估计得到,称为模型参数(Parameter),也就是模型本身的参数。比如,线性回归直线的加权系数(斜率)及其偏差项(截距)都是模型参数。还有一类则是机器学习算法中的调优参数(Tuning Parameters),需要根据已有或现有的经验灵活设定,称为超参数(Hyperparameter)。比如,正则化系数λ,决策树模型中树的深度。需要指出,一些实施例中为了提升主题消岐模型对文本消除歧义的能力,在执行步骤S101至步骤S105之前需要预先对主题消岐模型中的文本编码层、主题记忆网络、特征重置层与分类解码层四个组成部分进行联合训练,即可增强主题消岐模型针对文本的消岐能力。
一些较为具体的实施例中,对主题消岐模型进行预先训练的过程中,主要是依靠对主题消岐模型中的模型参数,来增强主题消岐模型针对文本的消岐能力,主题矩阵就是主题消岐模型中主题记忆网络的一种模型参数,随着预先训练过程中迭代轮次的不断增加,主题矩阵亦会在每一次迭代训练中进行调整,直至完成对主题消岐模型的预先训练,主题矩阵随即成为主题记忆网络中一个稳定不变的模型参数。
参照图4,根据本申请的一些实施例,主题记忆网络包括键全连接层与值全连接层,基于主题矩阵对文本特征向量进行主题增强处理,得到主题特征向量,可以包括但不限于下述步骤S401至步骤S404。
步骤S401,对主题矩阵进行键特征转换,得到键矩阵;
步骤S402,对主题矩阵进行值特征转换,得到值矩阵;
步骤S403,基于键矩阵对文本特征向量进行归一化处理,得到文本特征向量对应的权重向量;
步骤S404,基于权重向量与值矩阵进行点积处理,得到主题特征向量。
本申请一些实施例的步骤S401至步骤S404示出的较为具体的实施例中,主题矩阵表示为T,目标文本经过分词处理后得到的文本词序列表示为xi={w1,w2,…,wi,…,wt},其中第i个文本实体字段表示为wi,第i个文本实体字段wi对应的文本特征向量表示为hi。为了基于主题矩阵对文本特征向量进行主题增强处理,得到主题特征向量,首先需要对主题矩阵进行键特征转换,得到键矩阵,并且对主题矩阵进行值特征转换,得到值矩阵,具体而言,是将预训练过程中学习到的主题矩阵T映射到对文本分类有用的特征空间当中,通过键全连接层即可将主题矩阵T映射转换为键矩阵K,通过值全连接层即可将主题矩阵T映射转换为值矩阵V。进一步,将第i个文本实体字段wi对应的文本特征向量hi代入以下解析式,即可得到第i个文本实体字段wi对应的权重向量ai:
ai=softmax(K·hi)
其中,softmax指的是归一化指数函数。
在获取第i个文本实体字段wi对应的权重向量ai之后,再进一步,基于权重向量ai与值矩阵V,即可通过以下解析式得到第i个文本实体字段wi对应的主题特征向量ui:
需要说明的是,通过步骤S401至步骤S404示出的本申请实施例即可生成主题特征向量,其中主题特征向量表征目标文本的主题信息。需要明确,生成主题特征向量的目的在于,便于通过后续步骤中,在文本特征向量与主题特征向量的基础上,对文本特征向量与主题特征向量进行建模,利用主题特征向量所表征的主题信息,进一步明确文本特征向量的对应的语义信息,进而形成文本增强向量。需要指出,文本增强向量相较于文本编码层提取的文本特征向量,融合了表征目标文本的主题信息的主题特征向量,进一步明确了文本特征向量所应当表征的语句含义,在后续步骤中基于分类解码层对文本增强向量进行识别,即可得到消岐后的目标文本,提升了本申请实施例文本消岐方法的准确性。
本申请一些实施例的步骤S104中,基于主题特征向量在特征重置层中对文本特征向量进行重置增强处理,得到文本增强向量。需要说明的是,特征重置层,主要用于在前述步骤得到文本特征向量与主题特征向量的基础上,对文本特征向量与主题特征向量进行建模,利用主题特征向量所表征的主题信息,进一步明确文本特征向量的对应的语义信息,进而形成文本增强向量。需要指出,文本增强向量相较于文本编码层提取的文本特征向量,融合了表征目标文本的主题信息的主题特征向量,进一步明确了文本特征向量所应当表征的语句含义,在后续步骤中基于分类解码层对文本增强向量进行识别,即可得到消岐后的目标文本,提升了本申请实施例文本消岐方法的准确性。
参照图5,根据本申请的一些实施例,步骤S104基于主题特征向量在特征重置层中对文本特征向量进行重置增强处理,得到文本增强向量,可以包括但不限于下述步骤S501至步骤S502。
步骤S501,基于主题特征向量与文本特征向量,在特征重置层中构建特征重置向量;
步骤S502,基于特征重置向量、主题特征向量与文本特征向量进行语义增强处理,得到文本增强向量。
本申请一些实施例的步骤S501至步骤S502中,先基于主题特征向量与文本特征向量,在特征重置层中构建特征重置向量,再基于特征重置向量、主题特征向量与文本特征向量进行语义增强处理,得到文本增强向量。需要说明的是,基于主题特征向量与文本特征向量,在特征重置层中构建特征重置向量,其目的在于利用特征重置向量对文本特征向量与主题特征向量进行建模,利用主题特征向量所表征的主题信息,进一步明确文本特征向量的对应的语义信息,进而形成文本增强向量。需要指出,文本增强向量相较于文本编码层提取的文本特征向量,融合了表征目标文本的主题信息的主题特征向量,进一步明确了文本特征向量所应当表征的语句含义,在后续步骤中基于分类解码层对文本增强向量进行识别,即可得到消岐后的目标文本,提升了本申请实施例文本消岐方法的准确性。
参照图6,根据本申请的一些实施例,模型参数包括特征重置层中的第一重置矩阵、第二重置矩阵与重置偏移向量,步骤S501基于主题特征向量与文本特征向量,在特征重置层中构建特征重置向量,可以包括但不限于下述。
步骤S601,基于第一重置矩阵对文本特征向量进行点积处理,得到第一重置元素;
步骤S602,基于第二重置矩阵对主题特征向量进行点积处理,得到第二重置元素;
步骤S603,将第一重置元素、第二重置元素与重置偏移向量进行求和处理,得到第三重置元素;
步骤S604,将第三重置元素代入预设的激活函数,得到特征重置向量。
根据本申请一些实施例的步骤S601至步骤S604,在本申请一些较为具体的实施例中,模型参数还包括特征重置层中的第一重置矩阵第二重置矩阵/>与重置偏移向量br。其中,第一重置矩阵/>第二重置矩阵/>与重置偏移向量br均为主题消岐模型在特征重置层中的模型参数。需要强调,对主题消岐模型进行预先训练的过程中,主要是依靠对主题消岐模型中的模型参数,来增强主题消岐模型针对文本的消岐能力,第一重置矩阵第二重置矩阵/>与重置偏移向量br就是主题消岐模型中特征重置层的一种模型参数,随着预先训练过程中迭代轮次的不断增加,第一重置矩阵/>第二重置矩阵/>与重置偏移向量br亦会在每一次迭代训练中进行调整,直至完成对主题消岐模型的预先训练,第一重置矩阵/>第二重置矩阵/>与重置偏移向量br随即成为主题记忆网络中一个稳定不变的模型参数。
需要说明的是,第一重置矩阵第二重置矩阵/>与重置偏移向量br用于利用主题特征向量所表征的主题信息,进一步明确文本特征向量的对应的语义信息,需要指出,文本特征向量虽然能够标准目标文本中的语义信息,但是在一些多义词的存在于目标文本中的情况下,仅仅依靠文本特征向量来进行文本的语义识别,难以准确地判断多义词在当前目标文本中的具体词义。然而,当文本特征向量融合了主题特征向量,在目标文本的主题信息的作用下,有助于进一步判断多义词在当前目标文本中的具体词义,从而提升本申请实施例文本消岐方法的准确性。
其中,一些较为具体的实施例选用了sigmoid二分类函数作为预设的激活函数。
应理解,经由上述步骤S601至步骤S604可以得到特征重置向量,对文本特征向量与主题特征向量进行建模,利用主题特征向量所表征的主题信息,进一步明确文本特征向量的对应的语义信息。需要明确,基于主题特征向量与文本特征向量,在特征重置层中构建特征重置向量,不限于上述举出的具体实施例。
参照图7,根据本申请的一些实施例,步骤S502基于特征重置向量、主题特征向量与文本特征向量进行语义增强处理,得到文本增强向量,可以包括但不限于下述步骤S701至步骤S704。
步骤S701,基于特征重置向量与文本特征向量进行哈达玛积运算,得到第一语义增强元素;
步骤S702,基于单位向量与特征重置向量进行作差处理,得到第二语义增强元素;
步骤S703,主题特征向量与第二语义增强元素进行哈达玛积运算,得到第三语义增强元素;
步骤S704,将第一语义增强元素与第三语义增强元素进行向量串联运算,得到文本增强向量。
根据本申请一些实施例的步骤S701至步骤S704,在本申请一些较为具体的实施例中,第i个文本实体字段wi对应的特征重置向量表示为ri,第i个文本实体字段wi对应的文本特征向量表示为hi,第i个文本实体字段wi对应的主题特征向量表示为ui。
应理解,经由上述步骤S701至步骤S704可以在特征重置向量、主题特征向量与文本特征向量的基础上,得到文本增强向量。需要强调,文本增强向量相较于文本编码层提取的文本特征向量,融合了表征目标文本的主题信息的主题特征向量,进一步明确了文本特征向量所应当表征的语句含义,在后续步骤中基于分类解码层对文本增强向量进行识别,即可得到消岐后的目标文本,提升了本申请实施例文本消岐方法的准确性。需要明确,基于特征重置向量、主题特征向量与文本特征向量进行语义增强处理,得到文本增强向量,不限于上述举出的具体实施例。
本申请一些是实施例的步骤S105中,基于分类解码层对文本增强向量进行识别,得到消岐后的目标文本。需要说明的是,分类解码层用于在文本增强向量的基础上进行语义分类,进而得到文本分类结果。一些实施例中,可以使用softmax解码器来作为分类解码层对文本增强向量进行识别,分类解码层还可以适配多种分类器,例如卷积神经网络或循环神经网络中采用的分类器。应理解,分类解码层所适配的分类器多种多样,不限于上述举出的具体实施例。
图8示出了本申请实施例提供的电子设备800。电子设备800包括:处理器801、存储器802及存储在存储器802上并可在处理器801上运行的计算机程序,计算机程序运行时用于执行上述的文本消岐方法。
处理器801和存储器802可以通过总线或者其他方式连接。
存储器802作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序,如本申请实施例描述的文本消岐方法。处理器801通过运行存储在存储器802中的非暂态软件程序以及指令,从而实现上述的文本消岐方法。
存储器802可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序。存储数据区可存储执行上述的文本消岐方法。此外,存储器802可以包括高速随机存取存储器802,还可以包括非暂态存储器802,例如至少一个储存设备存储器件、闪存器件或其他非暂态固态存储器件。在一些实施方式中,存储器802可选包括相对于处理器801远程设置的存储器802,这些远程存储器802可以通过网络连接至该电子设备800。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
实现上述的文本消岐方法所需的非暂态软件程序以及指令存储在存储器802中,当被一个或者多个处理器801执行时,执行上述的文本消岐方法,例如,执行图1中的方法步骤S101至步骤S105、图2中的方法步骤S201至步骤S203、图3中的方法步骤S301至步骤S302、图4中的方法步骤S401至步骤S404、图5中的方法步骤S501至步骤S502、图6中的方法步骤S601至步骤S604、图7中的方法步骤S701至步骤S704。
本申请实施例还提供了计算机可读存储介质,存储有计算机可执行指令,计算机可执行指令用于执行上述的文本消岐方法。
在一实施例中,该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个控制处理器执行,例如,执行图1中的方法步骤S101至步骤S105、图2中的方法步骤S201至步骤S203、图3中的方法步骤S301至步骤S302、图4中的方法步骤S401至步骤S404、图5中的方法步骤S501至步骤S502、图6中的方法步骤S601至步骤S604、图7中的方法步骤S701至步骤S704。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、储存设备存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包括计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。还应了解,本申请实施例提供的各种实施方式可以任意进行组合,以实现不同的技术效果。
以上是对本申请的较佳实施进行了具体说明,但本申请并不局限于上述实施方式,熟悉本领域的技术人员在不违背本申请精神的共享条件下还可作出种种等同的变形或替换,这些等同的变形或替换均包括在本申请权利要求所限定的范围内。
Claims (10)
1.一种文本消岐方法,其特征在于,包括:
获取目标文本与预先训练的主题消岐模型,所述主题消岐模型包括文本编码层、主题记忆网络、特征重置层与分类解码层;
基于所述文本编码层对所述目标文本进行文本特征提取,得到文本特征向量;
基于所述主题记忆网络对所述文本特征向量进行主题增强处理,得到主题特征向量,所述主题特征向量表征所述目标文本的主题信息;
基于所述主题特征向量在所述特征重置层中对所述文本特征向量进行重置增强处理,得到文本增强向量;
基于所述分类解码层对所述文本增强向量进行识别,得到消岐后的所述目标文本。
2.根据权利要求1所述的方法,其特征在于,所述获取目标文本与预先训练的主题消岐模型之前,还包括对所述主题消岐模型进行预先训练,具体包括:
获取训练数据集,所述训练数据集包括多个训练文本,每一所述训练文本配置有一一对应的训练标签;
将所述训练数据集输入所述主题消岐模型进行迭代训练,每一轮所述迭代训练中,基于所述主题消岐模型对所述训练文本进行识别,得到训练识别结果,并将所述训练标签与所述训练识别结果进行比对,得到识别偏差数据,基于所述识别偏差数据更新所述主题消岐模型的模型参数;
当所述识别偏差数据符合预设训练条件,得到预先训练的所述主题消岐模型。
3.根据权利要求2所述的方法,其特征在于,所述模型参数包括所述主题记忆网络中的主题矩阵,所述基于所述主题记忆网络对所述文本特征向量进行主题增强处理,得到主题特征向量,包括:
基于所述主题矩阵对所述文本特征向量进行主题增强处理,得到所述主题特征向量。
4.根据权利要求3所述的方法,其特征在于,所述主题记忆网络包括键全连接层与值全连接层,所述基于所述主题矩阵对所述文本特征向量进行主题增强处理,得到所述主题特征向量,包括:
对所述主题矩阵进行键特征转换,得到键矩阵;
对所述主题矩阵进行值特征转换,得到值矩阵;
基于所述键矩阵对所述文本特征向量进行归一化处理,得到所述文本特征向量对应的权重向量;
基于所述权重向量与所述值矩阵进行点积处理,得到所述主题特征向量。
5.根据权利要求2所述的方法,其特征在于,所述基于所述主题特征向量在所述特征重置层中对所述文本特征向量进行重置增强处理,得到文本增强向量,包括:
基于所述主题特征向量与所述文本特征向量,在所述特征重置层中构建特征重置向量;
基于所述特征重置向量、所述主题特征向量与所述文本特征向量进行语义增强处理,得到所述文本增强向量。
6.根据权利要求5所述的方法,其特征在于,所述模型参数包括所述特征重置层中的第一重置矩阵、第二重置矩阵与重置偏移向量,所述基于所述主题特征向量与所述文本特征向量,在所述特征重置层中构建特征重置向量,包括:
基于所述第一重置矩阵对所述文本特征向量进行点积处理,得到第一重置元素;
基于所述第二重置矩阵对所述主题特征向量进行点积处理,得到第二重置元素;
将所述第一重置元素、第二重置元素与所述重置偏移向量进行求和处理,得到第三重置元素;
将所述第三重置元素代入预设的激活函数,得到所述特征重置向量。
7.根据权利要求5所述的方法,其特征在于,所述基于所述特征重置向量、所述主题特征向量与所述文本特征向量进行语义增强处理,得到所述文本增强向量,包括:
基于所述特征重置向量与所述文本特征向量进行哈达玛积运算,得到第一语义增强元素;
基于单位向量与所述特征重置向量进行作差处理,得到第二语义增强元素;
所述主题特征向量与所述第二语义增强元素进行哈达玛积运算,得到第三语义增强元素;
将所述第一语义增强元素与所述第三语义增强元素进行向量串联运算,得到所述文本增强向量。
8.根据权利要求1至7任一项所述的方法,其特征在于,所述基于所述文本编码层对所述目标文本进行文本特征提取,得到文本特征向量,包括:
基于所述目标文本进行分词处理,得到多个文本实体字段;
基于所述文本编码层对每一所述文本实体字段进行文本特征提取,得到与所述文本实体字段一一对应的所述文本特征向量。
9.一种电子设备,其特征在于,包括:存储器、处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至8中任意一项所述的文本消岐方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有程序,所述程序被处理器执行实现如权利要求1至8中任意一项所述的文本消岐方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310119011.0A CN116151258A (zh) | 2023-01-18 | 2023-01-18 | 文本消岐方法、电子设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310119011.0A CN116151258A (zh) | 2023-01-18 | 2023-01-18 | 文本消岐方法、电子设备、存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116151258A true CN116151258A (zh) | 2023-05-23 |
Family
ID=86353959
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310119011.0A Pending CN116151258A (zh) | 2023-01-18 | 2023-01-18 | 文本消岐方法、电子设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116151258A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116662811A (zh) * | 2023-06-13 | 2023-08-29 | 无锡物联网创新中心有限公司 | 一种工业设备的时序状态数据重构方法及相关装置 |
-
2023
- 2023-01-18 CN CN202310119011.0A patent/CN116151258A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116662811A (zh) * | 2023-06-13 | 2023-08-29 | 无锡物联网创新中心有限公司 | 一种工业设备的时序状态数据重构方法及相关装置 |
CN116662811B (zh) * | 2023-06-13 | 2024-02-06 | 无锡物联网创新中心有限公司 | 一种工业设备的时序状态数据重构方法及相关装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11727243B2 (en) | Knowledge-graph-embedding-based question answering | |
CN110162593B (zh) | 一种搜索结果处理、相似度模型训练方法及装置 | |
US11907672B2 (en) | Machine-learning natural language processing classifier for content classification | |
CN106951422B (zh) | 网页训练的方法和装置、搜索意图识别的方法和装置 | |
CN112131350B (zh) | 文本标签确定方法、装置、终端及可读存储介质 | |
CN110019732B (zh) | 一种智能问答方法以及相关装置 | |
CN112819023B (zh) | 样本集的获取方法、装置、计算机设备和存储介质 | |
CN110427623A (zh) | 半结构化文档知识抽取方法、装置、电子设备及存储介质 | |
US20150310096A1 (en) | Comparing document contents using a constructed topic model | |
Bansal et al. | Hybrid attribute based sentiment classification of online reviews for consumer intelligence | |
US20150363688A1 (en) | Modeling interestingness with deep neural networks | |
US20130060769A1 (en) | System and method for identifying social media interactions | |
CN113392209B (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
CN111324771B (zh) | 视频标签的确定方法、装置、电子设备及存储介质 | |
CN106708929B (zh) | 视频节目的搜索方法和装置 | |
CN111753082A (zh) | 基于评论数据的文本分类方法及装置、设备和介质 | |
US10970488B2 (en) | Finding of asymmetric relation between words | |
CN113627151B (zh) | 跨模态数据的匹配方法、装置、设备及介质 | |
CN106570196B (zh) | 视频节目的搜索方法和装置 | |
CN116151258A (zh) | 文本消岐方法、电子设备、存储介质 | |
CN111523311B (zh) | 一种搜索意图识别方法及装置 | |
CN111191011B (zh) | 一种文本标签的搜索匹配方法、装置、设备及存储介质 | |
CN111133429A (zh) | 提取表达以供自然语言处理 | |
CN111460808B (zh) | 同义文本识别及内容推荐方法、装置及电子设备 | |
CN116804998A (zh) | 基于医学语义理解的医学术语检索方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |