CN115203421A - 一种长文本的标签生成方法、装置、设备及存储介质 - Google Patents
一种长文本的标签生成方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN115203421A CN115203421A CN202210920965.7A CN202210920965A CN115203421A CN 115203421 A CN115203421 A CN 115203421A CN 202210920965 A CN202210920965 A CN 202210920965A CN 115203421 A CN115203421 A CN 115203421A
- Authority
- CN
- China
- Prior art keywords
- label
- long text
- text
- vector
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3335—Syntactic pre-processing, e.g. stopword elimination, stemming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本发明涉及人工智能领域,提供一种长文本的标签生成方法、装置、设备及存储介质,使用预设的自监督模型对待标注的长文本进行标注预测处理,确定标注预测结果为长文本的标签,将长文本与对应的标签作为预训练样本集,通过预训练样本集对预设的双塔模型进行训练,得到训练完成的双塔模型,输出目标长文本的目标文本向量,从已有标签向量中确定相似度大于相似度阈值的标签向量为目标标签向量,对目标标签向量进行反推,确定反推结果为目标长文本对应的目标标签,通过自监督模型获取带有标签的训练集,并通过双塔模型获取长文本的文本向量,直接与保存的已有标签向量进行相似性计算,减少了计算次数,从而可以快速生成长文本对应的标签。
Description
技术领域
本发明涉及人工智能领域,尤其涉及一种长文本的标签生成方法、装置、设备及存储介质。
背景技术
标签是一种互联网内容组织方式,是相关性很强的关键字,标签帮助人们轻松的描述内容或者将内容进行分类,以便于检索和分享。目前,给文本添加标签的方法有人工标签,专业人员手动给文本指定特定标签,若采用人工方式,虽然对文本的标签较准确,但消耗大量人力物力,标签效率较低,无法快速适应互联网时代信息的极速增加以及社会发展的需求,实现十分困难,因此,如何快速生成文本标签成为了亟待解决的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种长文本的标签生成方法、装置、设备及存储介质,以解决如何快速生成长文本标签的问题。
第一方面,提供一种长文本的标签生成方法,所述方法包括:
使用预设的自监督模型对待标注的长文本进行标注预测处理,确定标注预测结果为所述长文本的标签,将所述长文本与对应的标签作为预训练样本集;
通过预训练样本集对预设的双塔模型进行训练,得到训练完成的双塔模型,所述双塔模型的第一子塔用于将所述长文本转化为文本向量,所述双塔模型的第二子塔用于将所述长文本对应标签转化为标签向量;
将待提取的目标长文本输入至所述训练完成的双塔模型,输出所述目标长文本的目标文本向量,并获取所述训练完成的双塔模型中存储的已有标签向量;
计算所述目标文本向量与所述已有标签向量之间的相似度,从所述已有标签向量中确定相似度大于相似度阈值的标签向量为目标标签向量,对所述目标标签向量进行反推,确定反推结果为所述目标长文本对应的目标标签。
第二方面,提供一种长文本的标签生成装置,所述装置包括:
预测模块,用于使用预设的自监督模型对待标注的长文本进行标注预测处理,确定标注预测结果为所述长文本的标签,将所述长文本与对应的标签作为预训练样本集;
训练模块,用于通过预训练样本集对预设的双塔模型进行训练,得到训练完成的双塔模型,所述双塔模型的第一子塔用于将所述长文本转化为文本向量,所述双塔模型的第二子塔用于将所述长文本对应标签转化为标签向量;
目标文本向量确定模块,用于将待提取的目标长文本输入至所述训练完成的双塔模型,输出所述目标长文本的目标文本向量,并获取所述训练完成的双塔模型中存储的已有标签向量;
目标标签确定模块,用于计算所述目标长文本向量与所述已有标签向量之间的相似度,从所述已有标签向量中确定相似度大于相似度阈值的标签向量为目标标签向量,对所述目标标签向量进行反推,确定反推结果为所述目标长文本对应的目标标签。
第三方面,本发明实施例提供一种计算机设备,所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的长文本的标签生成方法。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的长文本的标签生成方法。
本发明与现有技术相比存在的有益效果是:
使用预设的自监督模型对待标注的长文本进行标注预测处理,确定标注预测结果为长文本的标签,将长文本与对应的标签作为预训练样本集,通过预训练样本集对预设的双塔模型进行训练,得到训练完成的双塔模型,双塔模型的第一子塔用于将长文本转化为文本向量,双塔模型的第二子塔用于将长文本对应标签转化为标签向量,将待提取的目标长文本输入至训练完成的双塔模型,输出目标长文本的目标文本向量,并获取训练完成的双塔模型中存储的已有标签向量;计算目标文本向量与已有标签向量之间的相似度,从已有标签向量中确定相似度大于相似度阈值的标签向量为目标标签向量,对目标标签向量进行反推,确定反推结果为目标长文本对应的目标标签,通过自监督模型获取带有标签的训练集,并通过双塔模型获取长文本的文本向量,直接与保存的已有标签向量进行相似性计算,减少了计算次数,从而可以快速生成长文本对应的标签。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的一种长文本的标签生成方法的一应用环境示意图;
图2是本发明一实施例提供的一种长文本的标签生成方法的流程示意图;
图3是本发明一实施例提供的一种长文本的标签生成方法的流程示意图;
图4是本发明一实施例提供的一种长文本的标签生成装置的结构示意图;
图5是本发明一实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本发明说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本发明说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本发明说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本发明说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本发明的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
本发明实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
应理解,以下实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
为了说明本发明的技术方案,下面通过具体实施例来进行说明。
本发明一实施例提供的长文本的标签生成方法,可应用在如图1的应用环境中,其中,客户端与服务端进行通信。其中,客户端包括但不限于掌上电脑、桌上型计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本、个人数字助理(personal digital assistant,PDA)等计算机设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
参见图2,是本发明一实施例提供的一种长文本的标签生成方法的流程示意图,上述长文本的标签生成方法可以应用于图1中的服务端,上述服务端连接相应的客户端,为客户端提供模型训练服务。如图2所示,该长文本的标签生成方法可以包括以下步骤。
S201:使用预设的自监督模型对待标注的长文本进行标注预测处理,确定标注预测结果为长文本的标签,将长文本与对应的标签作为预训练样本集。
在步骤S201中,自监督模型是通过人为设计目标辅助任务,为大规模的无监督数据生产标签,通过自监督模型在未标注的长文本语料库中直接学习语义特征,得到训练好的预设的自监督模型,根据预设的自监督模型将待标注的长文本进行标注预测处理,得到标准预测结果,将长文本与标注预测结果作为预训练样本集。
本实施例中,预设的自监督模型为自编码训练语言模型,自编码预训练语言模型不执行显式密度估计,取而代之的是对从语料库中输入的原始数据进行重构,在大规模的未标记文本语料库中直接学习语义规律和特征,深度潜入语料库数据中自主地去搜寻模式和联系,完全脱离人工的处理和指导。
例如bert(Bidirectional Encoder Representation from Transformers)模型,过Mask机制改变了部分输入的单词,然后试图通过其上下文的其它单词来恢复这些被Mask的单词,bert模型通过双向Transformer的编码器得到深度双向语言表示的自编码语言模型。在BERT出现之前,自回归语言模型方法在预训练时都是使用单向的语言模型的结构,BERT能够利用上下文语境得到双向特征表示。BERT的输入表示为每个字词对应的字词向量、分段向量、位置向量相加而成。
需要说明的是,在选择自监督模型时,还可以选择自回归预训练模型,自回归语言模型就是根据上文内容预测下一个词的概率分布,从而生成下一个词,或者根据下文内容预测上一个词的概率分布,这样的单向语言模型任务称为自回归语言模型。自回归语言模型方法分为了基于特征的方法和基于微调的方法。基于特征的方法的代表模型是动态词向量ELMo,基于微调的方法的代表模型是OpenAI GPT,本申请中不在具体描述。
将训练好的自监督模型,作为预设自监督模型,对待标注的长文本进行标注预测处理,确定标注预测结果为长文本的标签,将长文本与对应的标签作为预训练样本集。
需要说明的是,在预设的自监督模型为BERT模型时,可以将BERT模型的最后三层的输出作为分类器的输入。可选的,预训练BERT模型的最后三层的每一层输出的均为一个向量,可以将BERT模型的最后三层输出的向量拼接为一个向量,将拼接得到的向量作为分类器的输入。
可选地,使用预设的自监督模型对待标注的长文本进行标注预测处理,确定标注预测结果为长文本的标签,包括:
利用待标注语料库中的待标注的长文本以掩码语言模型的方式对初始自监督模型进行训练,得到预设的自监督模型;
根据预设的自监督模型,对待标注的长文本进行标注预测处理,确定标注预测结果为长文本的标签。
本实施例中在预训练语言模型阶段,使用多任务学习的联合训练方式,包括两个新任务。第一个任务是MLM(Masked Language Model),即在输入的词序列中,随机掩盖15%的词作为训练样本,然后去预测被掩盖的这些词。具体策略是在针对要掩盖的单词,80%的时候会直接替换为[Mask],10%的时候将其替换为其它任意单词,10%的时候会保留原始单词。BERT提出的第二个目标任务是下一个句子预测(Next Sentence Prediction,NSP)。NSP任务可以利用无限制的单语语料库生成训练样本。从语料库中选择句子A和B作为预训练样本,B相对于A有一半的可能是语料库中没有联系的一个随机句子,也有一半的可能是A的下一句。这是一个二元分类任务,一半的时间模型输入一个句子和下一个句子的拼接,输出标签是正样本,而另一半的时间输入一个句子和非下一个随机句子的拼接,标签为负样本。整个预训练是一个多任务学习的过程,目标函数就是两个任务的似然求和。
将训练好的自监督模型,作为预设自监督模型,对待标注的长文本进行标注预测处理,确定标注预测结果为长文本的标签,将长文本与对应的标签作为预训练样本集。本实施例中,通过预设的自监督模型得到是长文本中每个句子的向量,长文本中往往包含多个句子,将每个句子标注预测一个标签,得到待标注长文本中对应的标签。
S202:通过预训练样本集对预设的双塔模型进行训练,得到训练完成的双塔模型,双塔模型的第一子塔用于将长文本转化为文本向量,双塔模型的第二子塔用于将长文本对应标签转化为标签向量。
在步骤S202中,预训练的样本集为长文本与对应的标签,预设的双塔模型中第一子塔用于将长文本转化为文本向量,双塔模型的第二子塔用于将长文本对应标签转化为标签向量,第一子塔与第二子塔中都包含BERT模型,用于提取长文本向量与标签向量。
本实施例中,根据预训练样本集中的长文本以及长文本对应的标签,将长文本以及对应的标签分别输入至Bert模型中得到长文本对应的文本向量和标签对应的标签向量。将长文本对应的文本向量和标签对应的标签向量,作为CNN-DSSM的向量表达,构建双塔模型,第一子塔用于生成文本向量,第二子塔用于生成标签向量,利用预设样本集对说他模型进行训练,得到训练完成的双塔模型。
可选地,通过预训练样本集对预设的双塔模型进行训练,得到训练完成的双塔模型,包括:
根据预训练样本集中长文本与对应的标签,构建正样本集与负样本集;
根据正样本集与负样本集以及预设的损失函数,对预设的双塔模型进行训练,得到训练完成的双塔模型。
本实施例中,预训练样本集,包括:正样本集和负样本集,其中,正样本集的的数据是根据长文本以及对应长文本的标签得到的,及长文本与对应的标签语义相似,为同义,负样本集中的数据是根据长文本以其余长文本的标签得到的,即长文本与对应标签语义不相似,不是同义。例如,预训练样本集中每个样本包括<数据1,数据2,标记>,其中,数据1表示为长文本,数据2表示为标签数据,当数据1与数据2对应时,即数据1中的长文本与数据2中的标签相对应,则数据1与数据2相似,则标记为1,当数据1与数据2不对应时,即数据1中的长文本与数据2中的标签不对应,数据2中的标签是样本集中的其余长文本对应,则标记为0。
分别将正样本集与负样本集中的数据1与数据分两路输入Bert模型中得到长文本对应的embedding文本向量与embedding标签对应的标签向量,其中,Bert模型的本质上是通过在海量的语料的基础上运行自监督学习方法,为单词学习一个好的特征表示,所谓自监督学习是指在没有人工标注的数据上运行的监督学习。在特定的NLP任务中,可以直接使用Bert的特征表示作为该任务的词嵌入特征。所以BERT提供的是一个供其它任务迁移学习的模型,该模型可以根据任务微调或者固定之后作为特征提取器。Bert最大的特点是抛弃了传统的RNN和CNN,通过注意力机制将任意位置的两个单词的距离转换成1,有效的解决了自然语言中棘手的长期依赖问题。embedding是一个将离散变量转为连续向量表示的一个方式,在神经网络中,embedding是非常有用的,因为它不光可以减少离散变量的空间维数,同时还可以有意义的表示该变量。
得到长文本对应的embedding文本向量和标签对应的embedding标签向量后,将长文本对应的embedding文本向量和标签对应的embedding标签向量,作为CNN-DSSM的向量表达,构建双塔模型。双塔模型的特点是输入层有两个输入渠道,通过embedding层得到向量表达,在匹配层进行匹配,可以把两个输入数据的语义相似性转化为一个后验概率输出。
本实施例中,采用Bert+CNN+DSSM的流程,首先将长文本和标签分别输入Bert模型得到embedding向量后,输入到Text-CNN中,利用MaxPooling层提取关键信息,将二者通过多层神经网络非线性变换后进行cosine求值,当标记为1时,cosine-similarity(余弦相似度)应该更大,反之则更小,损失函数采用am-softmax模型,既可以用来预测两个向量的语义相似度,利用概率值表达向量之间相似度,相比利用向量直接进行cosine相似度计算更合理。
可选地,根据预训练样本集中长文本与对应的标签,构建正样本集与负样本集,包括:
获取任意长文本与长文本的标签,构建正样本集;
获取任意长文本与剩余长文本的标签,构建负样本集。
构建正样本集时,提取预训练样本集中一半的长文本与对应的标签作为正样本,标记为1,构建负样本集时,提取预训练样本集中剩余一半的长文本作为样本中的数据1,在其余一半的长文本对应的标签中随机选取其中一个标签作为样本中的数据2,标记为0。
可选地,根据正样本集与负样本集,以及预设的损失函数,对预设的双塔模型进行训练,得到训练完成的双塔模型,包括:
通过预设的摘要模型,将正样本集与负样本集进行压缩处理,得到压缩后的长文本;
通过正样本集与负样本集中压缩后的长文本与对应的标签对预设的双塔模型进行训练,得到训练完成的双塔模型。
本实施例中,预设的摘要模型是将长文本进行分割然后提取长文本中的关键句。将长文本中的内容分割成单个的句子,从而形成句子集合。给定长文本D,将输入长文本D转换成句子*S1,S2,…Sn+,即D=*S1,S2,…Sn+。中文文本和英文文本都是按照标点来分割句子。然后将句子分割成词语,使用TF-IDF进行关键词提取,其主要思想是在一个语料库中,选择在某篇文档中TF值高,IDF值也高的词语,那么在这篇文档中,这个词语就会被认为是关键词语。将TF和IDF进行相乘,就得到了一个词的TF-IDF值,某个词对文章重要性越高,该值越大,根据TF-IF值进行降序排列,于是排在前面的几个词,就是这篇文章的关键词。而对于文本摘要来说,某个句子含有的关键词越多,那么就说明这个句子比较重要,可以作为摘要句的候选句子,这样做的优点是简单快速。
需要说明的是,TF评估的是单词在当前文档中的重要程度,但是有些通用词可能也会出现很多次,虽然我们对文本进行预处理的时会进行去停用词操作,但仍有一部分不可避免地出现在文档之中。逆文档频率IDF用于评估单词的文档区分能力,即在多数文档中都大量出现的词是通用词,对于我们分辨不同的文档没有太大贡献。通过与IDF值相结合,可以抵消通用词的重要度。
提取长文本的关键的句子作为压缩后的长文本,通过正样本集与负样本集中压缩后的长文本与对应的标签对预设的双塔模型进行训练,得到训练完成的双塔模型。
S203:将待提取的目标长文本输入至训练完成的双塔模型,输出目标长文本的目标文本向量,并获取训练完成的双塔模型中存储的已有标签向量。
在步骤S203中,将目标长文本输入至训练完成的双塔模型,在第一子塔中输出目标长文本的目标文本向量,并获取训练完成的双塔模型中存储的已有标签向量,其中已有标签向量保存在FAISS框架中,以方便后续文本向量与标签向量的相似度计算。
本实施例中,将目标长文本输入至训练完成的双塔模型中的第一子塔中,根据第一子塔中的模型,输出目标长文本对应的目标长文本向量。将标签向量保存在FAISS框架中,把向量化的标签输入Faiss并建立索引,当双塔模型中第一子塔输出目标长文本对应的目标文本向量时,以Faiss提供的检索方式用余弦相似度把目标文本对应的目标文本向量与Faiss中存储的标签向量进行相似度比对,把相似度最高的索引号提取出来,接着根据索引号去数据库中寻找对应的ID号,得到对应ID下的已有标签向量。
需要说明的是,数据保存时,一般采用在服务器或云端数据库来储存标签向量。本实施例中使用MySQL,MySQL是基于结构化查询语言查询的关系数据库管理系统。它是用于访问和管理表中记录的最流行的语言之一。MySQL遵循一个数据库服务器可以与任意多个服务器客户端通信,支持数据的传输和操作,包括查询数据,保存更改等操作。同时由于MySQL具有独特的存储引擎体系结构,与其他数据库相比,它提供了非常高性能的结果,能快速加载实用程序。
S204:计算目标文本向量与已有标签向量之间的相似度,从已有标签向量中确定相似度大于相似度阈值的标签向量为目标标签向量,对目标标签向量进行反推,确定反推结果为目标长文本对应的目标标签。
在步骤S204中,计算目标文本向量与已有标签向量之间的相似度,相似度为衡量长文本与标签的匹配程度,一般使用余弦值计算相似度,从已有标签向量中确定相似度大于相似度阈值的标签向量为目标标签向量,对目标标签向量进行反推,确定反推结果为目标长文本对应的目标标签。
本实施例中,使用目标文本向量与已有标签向量之间的余弦值作为目标成文本与已有标签的相似度。于余弦相似度的计算方法是把计算向量化表示的向量夹角,两个向量夹角之间的余弦值越小代表目标长文本与已有标签的匹配度越低,对于目标成文本与已有标签的匹配,目标长文本与已有标签的余弦相似度范围从0到1,将相似度值大于预设阈值时的已有标签向量作为目标标签向量。当确定目标标签向量后,根据目标标签向量反推得到目标标签。根据目标标签向量反推,得到目标长文本对应的目标标签。
需要说明的是,当目标标签向量有多个时,基于目标标签向量对应的相似度对目标标签向量进行统计,将目标标签向量对应的目标标签数量最多的标签作为目标长文本对应的目标标签。
可选地,计算目标文本向量与已有标签向量之间的相似度,包括:
从已有标签向量确定出候选标签向量;
计算候选标签向量与目标文本向量之间的相似度。
本实施例中,当已有标签向量包含多个时,为了节约时间,可以从已有标签向量中确定出候选标签向量,计算候选标签向量与目标文本向量之间的相似度。确定候选标签向量时,利用Faiss进行向量检索,取排名靠前的前N已有标签向量作为候选标签向量,然后在计算候选标签向量与目标文本向量之间的相似度,取相似度最大值对应的标签向量作为与目标长文本匹配的目标标签向量。
使用预设的自监督模型对待标注的长文本进行标注预测处理,确定标注预测结果为长文本的标签,将长文本与对应的标签作为预训练样本集,通过预训练样本集对预设的双塔模型进行训练,得到训练完成的双塔模型,双塔模型的第一子塔用于将长文本转化为文本向量,双塔模型的第二子塔用于将长文本对应标签转化为标签向量,将待提取的目标长文本输入至训练完成的双塔模型,输出目标长文本的目标文本向量,并获取训练完成的双塔模型中存储的已有标签向量;计算目标文本向量与已有标签向量之间的相似度,从已有标签向量中确定相似度大于相似度阈值的标签向量为目标标签向量,对目标标签向量进行反推,确定反推结果为目标长文本对应的目标标签,通过自监督模型获取带有标签的训练集,并通过双塔模型获取长文本的文本向量,直接与保存的已有标签向量进行相似性计算,减少了计算次数,从而可以快速生成长文本对应的标签。
参见图3,是本发明一实施例提供的一种长文本的标签生成方法的流程示意图,如图3,该长文本的标签生成方法可以包括以下步骤:
S301:对待标注的长文本进行切词处理与去停用词预处理,得到标准的待标注的长文本。
本实施例中,将待标注的长文本进行切词处理与去停用词预处理,得到标准的待标注的长文本,按照一定规则将句子划分为多个词语。相比起句子划分,中文切词和英文切词具有不同的特点。首先,切词方式不同,中文比较难,没有明显的划分界限,而且在很多场景下词的意思也不尽相同,相对来说,英文文本以空格作为分隔符,在空格的分割下进行切词,比较简单。英文单词拥有多种形态,为了应对英文的多种时态问题,英文有很多固定的方法和步骤,而中文切词需要考虑粒度问题,例如[中国五星红旗]就有多种切词方法,如:[中国五星红旗]、[中国\五星红旗]。由此可见,切词分的字越多,表达的意思则越准确,但是会导致召回较少,所以在中文切词中要考虑场景,根据不一样的场景选择不一样的粒度。
中文切词目前使用的是jieba切词,英文切词工具运用的则是NLTK包。以中文切词技术为例,在jieba切词中有三种不同的切词模式,分别为精准模式、全模式和搜索引擎模式,比如有一句话“明晚晚上有雨”其精准模式切词结果['明晚晚上','有','雨'],其全模式切词结果为['明晚','明晚晚上','晚上','有雨'],其搜索引擎模式为['明晚','晚上','明晚晚上','有雨']。通过切词技术,我们就可以将一段连续的不可分割的句子划分成一个个词语,将待标注的长文本经过切词处理,得到分割的文本句子。
停用词是很多对后续文本没有实际作用的词,这些词不仅会占据存储空间,甚至还会对于算法的实现造成一定的干扰,导致算法性能的下降。停用词一般是虚词,没有实际意义的词,是一些语言的功能词,如汉语中的“的、地、得”。经过且此处理与去停用词处理得到标准的待标注的长文本。
在自监督模型训练时,使用标准的待标注的长文本进行训练,可以提高自监督模型的训练精度和训练效率。
S302:使用预设的自监督模型对待标注的长文本进行标注预测处理,确定标注预测结果为长文本的标签,将长文本与对应的标签作为预训练样本集;
S303:通过预训练样本集对预设的双塔模型进行训练,得到训练完成的双塔模型,双塔模型的第一子塔用于将长文本转化为文本向量,双塔模型的第二子塔用于将长文本对应标签转化为标签向量;
S304:将待提取的目标长文本输入至训练完成的双塔模型,输出目标长文本的目标文本向量,并获取训练完成的双塔模型中存储的已有标签向量;
S305:计算目标文本向量与已有标签向量之间的相似度,从已有标签向量中确定相似度大于相似度阈值的标签向量为目标标签向量,对目标标签向量进行反推,确定反推结果为目标长文本对应的目标标签。
其中,上述步骤S302至步骤S305与上述步骤S201至步骤S204的内容相同,可参考上述步骤S201至步骤S204的描述,在此不再赘述。
请参阅图4,图4是本发明实施例提供的一种长文本的标签生成装置的结构示意图。本实施例中该移动终端包括的各单元用于执行图2至图3对应的实施例中的各步骤。具体请参阅图2至图3以及图2至图3所对应的实施例中的相关描述。为了便于说明,仅示出了与本实施例相关的部分。参见图4,长文本的标签生成装置40包括:预测模块41,训练模块42,目标文本向量确定模块43,目标标签确定模块44。
预测模块41,用于使用预设的自监督模型对待标注的长文本进行标注预测处理,确定标注预测结果为长文本的标签,将长文本与对应的标签作为预训练样本集。
训练模块42,用于通过预训练样本集对预设的双塔模型进行训练,得到训练完成的双塔模型,双塔模型的第一子塔用于将长文本转化为文本向量,双塔模型的第二子塔用于将长文本对应标签转化为标签向量。
目标文本向量确定模块43,用于将待提取的目标长文本输入至训练完成的双塔模型,输出目标长文本的目标文本向量,并获取训练完成的双塔模型中存储的已有标签向量。
目标标签确定模块44,用于计算目标长文本向量与已有标签向量之间的相似度,从已有标签向量中确定相似度大于相似度阈值的标签向量为目标标签向量,对目标标签向量进行反推,确定反推结果为目标长文本对应的目标标签。
可选的是,上述预测模块41包括:
训练单元,用于利用待标注语料库中的待标注的长文本以掩码语言模型的方式对初始自监督模型进行训练,得到预设的自监督模型。
标注预测处理单元,用于根据预设的自监督模型,对待标注的长文本进行标注预测处理,确定标注预测结果为长文本的标签。
可选的是,上述训练模块42包括:
正样本集与负样本集构建单元,用于根据预训练样本集中长文本与对应的标签,构建正样本集与负样本集。
双塔模型训练单元,用于根据正样本集与负样本集以及预设的损失函数,对预设的双塔模型进行训练,得到训练完成的双塔模型。
可选的是,上述正样本集与负样本集构建单元包括:
正样本获取子单元,用于获取任意长文本与长文本的标签,构建正样本集。
负样本获取子单元,用于获取任意长文本与剩余长文本的标签,构建负样本集。
可选的是,上述双塔模型训练单元包括:
压缩子单元,用于通过预设的摘要模型,将正样本集与负样本集进行压缩处理,得到压缩后的长文本。
训练子单元,用于通过正样本集与负样本集中压缩后的长文本与对应的标签对预设的双塔模型进行训练,得到训练完成的双塔模型。
可选的是,上述目标标签确定模块44包括:
标签确定单元,用于从已有标签向量确定出候选标签向量。
计算单元,用于计算候选标签向量与目标文本向量之间的相似度。
需要说明的是,上述单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
图5是本发明实施例提供的一种计算机设备的结构示意图。如图5所示,该实施例的计算机设备包括:至少一个处理器(图5中仅示出一个)、存储器以及存储在存储器中并可在至少一个处理器上运行的计算机程序,处理器执行计算机程序时实现上述任意各个长文本的标签生成方法实施例中的步骤。
该计算机设备可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,图5仅仅是计算机设备的举例,并不构成对计算机设备的限定,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如还可以包括网络接口、显示屏和输入装置等。
所称处理器可以是CPU,该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器包括可读存储介质、内存储器等,其中,内存储器可以是计算机设备的内存,内存储器为可读存储介质中的操作系统和计算机可读指令的运行提供环境。可读存储介质可以是计算机设备的硬盘,在另一些实施例中也可以是计算机设备的外部存储设备,例如,计算机设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(Secure Digital,SD)卡、闪存卡(Flash Card)等。进一步地,存储器还可以既包括计算机设备的内部存储单元也包括外部存储设备。存储器用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等,该其他程序如计算机程序的程序代码等。存储器还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。上述装置中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述方法实施例的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质至少可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
本发明实现上述实施例方法中的全部或部分流程,也可以通过一种计算机程序产品来完成,当计算机程序产品在计算机设备上运行时,使得计算机设备执行时实现可实现上述方法实施例中的步骤。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/计算机设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/计算机设备实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种长文本的标签生成方法,其特征在于,所述生成方法包括:
使用预设的自监督模型对待标注的长文本进行标注预测处理,确定标注预测结果为所述长文本的标签,将所述长文本与对应的标签作为预训练样本集;
通过预训练样本集对预设的双塔模型进行训练,得到训练完成的双塔模型,所述双塔模型的第一子塔用于将所述长文本转化为文本向量,所述双塔模型的第二子塔用于将所述长文本对应标签转化为标签向量;
将待提取的目标长文本输入至所述训练完成的双塔模型,输出所述目标长文本的目标文本向量,并获取所述训练完成的双塔模型中存储的已有标签向量;
计算所述目标文本向量与所述已有标签向量之间的相似度,从所述已有标签向量中确定相似度大于相似度阈值的标签向量为目标标签向量,对所述目标标签向量进行反推,确定反推结果为所述目标长文本对应的目标标签。
2.如权利要求1所述的长文本的标签生成方法,其特征在于,所述使用预设的自监督模型对待标注的长文本进行标注预测处理,确定标注预测结果为所述长文本的标签,将所述长文本与对应的标签作为预训练样本集之前,还包括:
对所述待标注的长文本进行切词处理与去停用词预处理,得到标准的待标注的长文本。
3.如权利要求1所述的长文本的标签生成方法,其特征在于,所述使用预设的自监督模型对待标注的长文本进行标注预测处理,确定标注预测结果为所述长文本的标签,包括:
利用待标注语料库中的待标注的长文本以掩码语言模型的方式对初始自监督模型进行训练,得到预设的自监督模型;
根据所述预设的自监督模型,对待标注的长文本进行标注预测处理,确定标注预测结果为所述长文本的标签。
4.如权利要求1所述的长文本的标签生成方法,其特征在于,所述通过预训练样本集对预设的双塔模型进行训练,得到训练完成的双塔模型,包括:
根据所述预训练样本集中所述长文本与对应的标签,构建正样本集与负样本集;
根据所述正样本集与负样本集以及预设的损失函数,对预设的双塔模型进行训练,得到训练完成的双塔模型。
5.如权利要求4所述的长文本的标签生成方法,其特征在于,所述根据所述预训练样本集中所述长文本与对应的标签,构建正样本集与负样本集;,包括:
获取任意所述长文本与所述长文本的标签,构建正样本集;
获取任意所述长文本与剩余长文本的标签,构建负样本集。
6.如权利要求4所述的长文本的标签生成方法,其特征在于,所述根据所述正样本集与负样本集,以及预设的损失函数,对预设的双塔模型进行训练,得到训练完成的双塔模型,包括:
通过预设的摘要模型,将所述正样本集与负样本集进行压缩处理,得到压缩后的长文本;
通过所述正样本集与负样本集中压缩后的长文本与对应的标签对预设的双塔模型进行训练,得到训练完成的双塔模型。
7.如权利要求1所述的长文本的标签生成方法,其特征在于,所述计算所述目标文本向量与所述已有标签向量之间的相似度,包括:
从所述已有标签向量确定出候选标签向量;
计算所述候选标签向量与所述目标文本向量之间的相似度。
8.一种长文本的标签生成装置,其特征在于,所述生成装置包括:
预测模块,用于使用预设的自监督模型对待标注的长文本进行标注预测处理,确定标注预测结果为所述长文本的标签,将所述长文本与对应的标签作为预训练样本集;
训练模块,用于通过预训练样本集对预设的双塔模型进行训练,得到训练完成的双塔模型,所述双塔模型的第一子塔用于将所述长文本转化为文本向量,所述双塔模型的第二子塔用于将所述长文本对应标签转化为标签向量;
目标文本向量确定模块,用于将待提取的目标长文本输入至所述训练完成的双塔模型,输出所述目标长文本的目标文本向量,并获取所述训练完成的双塔模型中存储的已有标签向量;
目标标签确定模块,用于计算所述目标长文本向量与所述已有标签向量之间的相似度,从所述已有标签向量中确定相似度大于相似度阈值的标签向量为目标标签向量,对所述目标标签向量进行反推,确定反推结果为所述目标长文本对应的目标标签。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,其特征在于,所述计算机可读指令为权利要求1-7任意一项所述的长文本的标签生成方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机指令,该计算机指令用于使该计算机执行前述任一权利要求1-7所述长文本的标签生成方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210920965.7A CN115203421A (zh) | 2022-08-02 | 2022-08-02 | 一种长文本的标签生成方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210920965.7A CN115203421A (zh) | 2022-08-02 | 2022-08-02 | 一种长文本的标签生成方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115203421A true CN115203421A (zh) | 2022-10-18 |
Family
ID=83586956
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210920965.7A Pending CN115203421A (zh) | 2022-08-02 | 2022-08-02 | 一种长文本的标签生成方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115203421A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116186562A (zh) * | 2023-04-27 | 2023-05-30 | 中南大学 | 基于编码器的长文本匹配方法 |
CN116910279A (zh) * | 2023-09-13 | 2023-10-20 | 深圳市智慧城市科技发展集团有限公司 | 标签提取方法、设备及计算机可读存储介质 |
CN116933896A (zh) * | 2023-09-15 | 2023-10-24 | 上海燧原智能科技有限公司 | 一种超参数确定及语义转换方法、装置、设备及介质 |
CN116992034A (zh) * | 2023-09-26 | 2023-11-03 | 之江实验室 | 一种智能事件打标方法、装置及存储介质 |
-
2022
- 2022-08-02 CN CN202210920965.7A patent/CN115203421A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116186562A (zh) * | 2023-04-27 | 2023-05-30 | 中南大学 | 基于编码器的长文本匹配方法 |
CN116910279A (zh) * | 2023-09-13 | 2023-10-20 | 深圳市智慧城市科技发展集团有限公司 | 标签提取方法、设备及计算机可读存储介质 |
CN116910279B (zh) * | 2023-09-13 | 2024-01-05 | 深圳市智慧城市科技发展集团有限公司 | 标签提取方法、设备及计算机可读存储介质 |
CN116933896A (zh) * | 2023-09-15 | 2023-10-24 | 上海燧原智能科技有限公司 | 一种超参数确定及语义转换方法、装置、设备及介质 |
CN116933896B (zh) * | 2023-09-15 | 2023-12-15 | 上海燧原智能科技有限公司 | 一种超参数确定及语义转换方法、装置、设备及介质 |
CN116992034A (zh) * | 2023-09-26 | 2023-11-03 | 之江实验室 | 一种智能事件打标方法、装置及存储介质 |
CN116992034B (zh) * | 2023-09-26 | 2023-12-22 | 之江实验室 | 一种智能事件打标方法、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107133213B (zh) | 一种基于算法的文本摘要自动提取方法与系统 | |
CN110825877A (zh) | 一种基于文本聚类的语义相似度分析方法 | |
CN115203421A (zh) | 一种长文本的标签生成方法、装置、设备及存储介质 | |
CN111159485B (zh) | 尾实体链接方法、装置、服务器及存储介质 | |
CN110619051B (zh) | 问题语句分类方法、装置、电子设备及存储介质 | |
JP2022522020A (ja) | 意味画像検索 | |
CN110413787B (zh) | 文本聚类方法、装置、终端和存储介质 | |
CN113282711B (zh) | 一种车联网文本匹配方法、装置、电子设备及存储介质 | |
CN115495555A (zh) | 一种基于深度学习的文献检索方法和系统 | |
CN110879834A (zh) | 一种基于循环卷积网络的观点检索系统及其观点检索方法 | |
CN114880447A (zh) | 信息检索方法、装置、设备及存储介质 | |
CN114003682A (zh) | 一种文本分类方法、装置、设备及存储介质 | |
CN112905768A (zh) | 一种数据交互方法、装置及存储介质 | |
CN114881043A (zh) | 基于深度学习模型的法律文书语义相似度评估方法及系统 | |
CN110728135A (zh) | 文本主题标引方法、装置、电子设备及计算机存储介质 | |
CN116821307B (zh) | 内容交互方法、装置、电子设备和存储介质 | |
CN113434636A (zh) | 基于语义的近似文本搜索方法、装置、计算机设备及介质 | |
CN113722492A (zh) | 一种意图识别方法及装置 | |
CN114722774B (zh) | 数据压缩方法、装置、电子设备及存储介质 | |
CN116090450A (zh) | 一种文本处理方法及计算设备 | |
CN111061939B (zh) | 基于深度学习的科研学术新闻关键字匹配推荐方法 | |
CN112926340A (zh) | 一种用于知识点定位的语义匹配模型 | |
Li | Automatic Classification of Chinese Long Texts Based on Deep Transfer Learning Algorithm | |
CN115688771B (zh) | 一种文书内容比对性能提升方法及系统 | |
Ning | Research on the extraction of accounting multi-relationship information based on cloud computing and multimedia |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |