CN115470349A - 标签预测模型训练方法及装置 - Google Patents

标签预测模型训练方法及装置 Download PDF

Info

Publication number
CN115470349A
CN115470349A CN202211109955.1A CN202211109955A CN115470349A CN 115470349 A CN115470349 A CN 115470349A CN 202211109955 A CN202211109955 A CN 202211109955A CN 115470349 A CN115470349 A CN 115470349A
Authority
CN
China
Prior art keywords
feature
text
label
chain
undirected graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211109955.1A
Other languages
English (en)
Inventor
程丁儒
李红敏
王豪杰
王琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hundsun Technologies Inc
Original Assignee
Hundsun Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hundsun Technologies Inc filed Critical Hundsun Technologies Inc
Priority to CN202211109955.1A priority Critical patent/CN115470349A/zh
Publication of CN115470349A publication Critical patent/CN115470349A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书提供标签预测模型训练方法及装置,其中标签预测模型训练方法包括:确定文本语料包含的文本特征,以及文本特征对应的特征标签;根据所述文本特征和所述特征标签生成特征标签节点,并根据所述特征标签节点构建链状结构的多链无向图,其中,所述多链无向图中的每个节点对应至少两条边;在多链无向图中确定至少一个子图,根据每个子图与所述多链无向图之间的分布关系构建目标函数;根据目标函数、所述文本特征以及所述特征标签,对初始标签预测模型进行调参,直至获得满足训练条件的目标标签预测模型。实现了基于多链无向图进行模型训练时,将特征标签之间的上下文联系作为标签预测的参考条件,进而提高了对文本进行标签预测的准确率。

Description

标签预测模型训练方法及装置
技术领域
本说明书涉及计算机技术领域,特别涉及一种标签预测模型训练方法。本说明书同时涉及一种标签预测模型训练装置,一种计算设备,以及一种计算机可读存储介质。
背景技术
在自然语言处理领域中,语料标签分类是其中一种重要的应用方向。语料标签分类是指将文本分成若干个类中的某一个类。现有技术中通常采用人工标注的方法实现文本的语料标签分类,其中,人工标注的方法是由语料标签分类人员根据经验为文本确定语料标签。然而这种方法需要耗费大量的人力资源,由于语料标签分类人员之间的经验丰富程度存在差异,因此无法保证语料标签分类的准确性。因此,亟需一种标签预测模型训练方法以解决上述问题。
发明内容
有鉴于此,本说明书实施例提供了一种标签预测模型训练方法。本说明书同时涉及一种标签预测模型训练装置,一种标签预测方法,一种标签预测装置,一种计算设备,以及一种计算机可读存储介质,以解决现有技术中存在的技术缺陷。
根据本说明书实施例的第一方面,提供了一种标签预测模型训练方法,包括:
确定文本语料包含的文本特征,以及所述文本特征对应的特征标签;
根据所述文本特征和所述特征标签生成特征标签节点,并根据所述特征标签节点构建链状结构的多链无向图,其中,所述多链无向图中的每个节点对应至少两条边;
在所述多链无向图中确定至少一个子图,根据每个子图与所述多链无向图之间的分布关系构建目标函数;
根据所述目标函数、所述文本特征以及所述特征标签,对初始标签预测模型进行调参,直至获得满足训练条件的目标标签预测模型。
可选地,所述根据所述文本特征和所述特征标签生成特征标签节点,并根据所述特征标签节点构建链状结构的多链无向图,包括:
将所述文本特征和每个特征标签分别进行组合,获得至少一个特征标签对;
根据所述至少一个特征标签对生成特征标签集合,并将所述特征标签集合作为特征标签节点;
将所述文本特征之间的文本关联关系作为节点关联边,其中,所述文本关联关系为所述文本语料中,具有词单元衔接关系的文本特征之间的关系;
根据所述特征标签节点和所述节点关联边构建多链无向图。
可选地,所述根据每个子图与所述多链无向图之间的分布关系构建目标函数,包括:
构建每个子图对应的子图函数;
根据每个子图与所述多链无向图之间的分布关系,以及每个子图对应的子图函数构建联合子图函数;
根据所述多链无向图对应的图结构,对所述多链无向图中特征标签节点包含的特征标签对进行全排列处理,并根据处理结果确定全排列函数;
根据所述联合子图函数和所述全排列函数构建目标函数。
可选地,每个子图对应的子图函数通过下述方法构建:
确定子图中每个子图特征标签节点对应的子图文本特征;
根据每个子图特征标签节点对应的子图文本特征之间的特征关联关系,确定子图特征标签节点之间的节点关联关系;
基于所述节点关联关系构建所述子图对应的子图函数。
可选地,所述子图函数的表达式为公式(1):
Ψ(t)=e∑kωk*fk(Yt-n…Yt-1,Yt,X,t) (1)
其中,ψ(t)表示子图相对于多链无向图的出现概率;fk表示特征函数,ωk表示k个未知参数,代表k个特征函数各自的权重;X表示文本特征集合;Y表示特征标签节点;t表示多链无向图中第t个特征标签节点,n表示多链无向图的链数量,Yt表示子图中的目标特征标签节点,Yt-n表示与目标特征标签节点具有间接关联关系的第n个特征标签节点。
可选地,所述全排列函数的表达式为公式(2),所述目标函数的表达式为公式(3):
Z(X)=∑Ye∑tkωk*fk(Yt-n…Yt-1,Yt,X,t) (2)
Figure BDA0003843591960000021
其中,Z(X)表示特征标签节点包含的特征标签对按照全排列策略连接后得到的所有无向图的目标函数值之和;Pω(Y|X)表示全部特征标签节点中特定的特征标签对构成的多链无向图,相对于对全部特征标签节点包含的特征标签对进行全排列获得的无向图出现的概率。
可选地,所述多链无向图中的任意一个子图通过下述方法确定:
确定所述多链无向图中包含的链数量,以及在所述多链无向图中确定初始特征标签节点;
在所述多链无向图中确定与所述初始特征标签节点具有直接联通关系的第一特征标签节点,以及基于所述链数量在所述多链无向图中,确定与所述初始特征标签节点具有间接联通关系的第二特征标签节点;
在所述多链无向图中确定包含文本特征节点、所述第一特征标签节点和所述第二特征标签节点的子图。
可选地,所述根据所述目标函数、所述文本特征以及所述特征标签,对初始标签预测模型进行调参,直至获得满足训练条件的目标标签预测模型,包括:
根据所述文本特征和所述特征标签以及当前计算周期对应的第i模型参数,计算参数确定函数对应的第Li函数值,其中,i为正整数;
根据第Li函数值和第Li-1函数值计算差值;
在所述差值大于预设差值阈值的情况下,i+1,并执行根据所述文本特征和所述特征标签以及当前计算周期对应的第i模型参数,计算参数确定函数对应的第Li函数值的步骤;
在所述差值小于等于所述预设差值阈值的情况下,将所述第i模型参数作为目标模型参数,并基于所述目标模型参数对所述初始标签预测模型的模型参数进行更新,根据更新结果获得所述目标标签预测模型。
可选地,当前计算周期对应的第i模型参数的确定,包括:
确定上一计算周期对应的第i-1模型参数,以及所述上一计算周期对应的梯度值;
根据所述第i-1模型参数和所述上一计算周期对应的梯度值,计算当前计算周期对应的第i模型参数。
可选地,所述参数确定函数通过下述公式(4)确定:
L(ω)=log∏X,YPω(Y|X)P^(X,Y)=∑X,YP^(X,Y)P^(X,Y)logPω(Y|X) (4)
其中,Pω(Y|X)表示全部特征标签节点中特定的特征标签对构成的多链无向图,相对于对全部特征标签节点包含的特征标签对进行全排列获得的无向图出现的概率;P^(X,Y)表示文本特征X和特征标签Y的联合概率;L(ω)为参数确定函数对应的函数值;ω表示未知参数;X表示文本特征集合;Y表示特征标签节点。
可选地,所述确定文本语料包含的文本特征,以及所述文本特征对应的特征标签,包括:
获取文本语料;
对所述文本语料进行分词处理获得多个词单元,在所述多个词单元中选择目标词单元作为所述文本语料对应的文本特征;
将所述目标词单元对应的词单元标签作为所述文本特征对应的特征标签。
根据本说明书实施例的第二方面,提供了一种标签预测方法,包括:
获取待预测文本;
将所述待预测文本输入至目标标签预测模型,获得所述目标标签预测模型输出的与所述待预测文本对应的预测标签。
根据本说明书实施例的第三方面,提供了一种标签预测模型训练装置,包括:
确定模块,被配置为确定文本语料包含的文本特征,以及所述文本特征对应的特征标签;
构建模块,被配置为根据所述文本特征和所述特征标签生成特征标签节点,并根据所述特征标签节点构建链状结构的多链无向图,其中,所述多链无向图中的每个节点对应至少两条边;
处理模块,被配置为在所述多链无向图中确定至少一个子图,根据每个子图与所述多链无向图之间的分布关系构建目标函数;
训练模块,被配置为根据所述目标函数、所述文本特征以及所述特征标签,对初始标签预测模型进行调参,直至获得满足训练条件的目标标签预测模型。
根据本说明书实施例的第四方面,提供了一种标签预测装置,包括:
获取模块,被配置为获取待预测文本;
预测模块,被配置为将所述待预测文本输入至目标标签预测模型,获得所述目标标签预测模型输出的与所述待预测文本对应的预测标签。
根据本说明书实施例的第五方面,提供了一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令。
根据本说明书实施例的第六方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现所述标签预测模型训练方法的步骤。
本说明书提供的标签预测模型训练方法,通过确定文本语料包含的文本特征,以及文本特征对应的特征标签;根据所述文本特征和所述特征标签生成特征标签节点,并根据所述特征标签节点构建链状结构的多链无向图,其中,所述多链无向图中的每个节点对应至少两条边;在多链无向图中确定至少一个子图,根据每个子图与多链无向图之间的分布关系构建目标函数;根据目标函数、文本特征以及特征标签,对初始标签预测模型进行调参,直至获得满足训练条件的目标标签预测模型。实现了基于多链无向图进行模型训练时,将特征标签之间的上下文联系作为标签预测的参考条件,进而提高了对文本进行标签预测的准确率。
附图说明
图1是本说明书一实施例提供的一种标签预测模型训练方法的架构图;
图2是本说明书一实施例提供的一种标签预测模型训练方法的结构图;
图3是本说明书一实施例提供的一种标签预测模型训练方法的流程图;
图4是本说明书一实施例提供的一种标签预测模型训练方法的模型结构图;
图5是本说明书一实施例提供的一种标签预测模型训练方法的子图结构图;
图6是本说明书一实施例提供的一种标签预测方法的流程图;
图7是本说明书一实施例提供的一种应用于金融文本标签预测的标签预测模型训练方法的处理流程图;
图8是本说明书一实施例提供的一种标签预测模型训练方法的模型结构示意图;
图9是本说明书一实施例提供的一种标签预测模型训练装置的结构示意图;
图10是本说明书一实施例提供的一种标签预测装置的结构示意图;
图11是本说明书一实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
首先,对本说明书一个或多个实施例涉及的名词术语进行解释。
NLP:Natural Language Processing,自然语言处理。
马尔可夫性质(Markov property):对于一个随机过程在给定现在状态及所有过去状态情况下,其未来状态的条件概率分布仅依赖于当前状态的特性。
马尔可夫链(Markov Chain):概率论和数理统计中具有马尔可夫性质且存在于离散的指数集和状态空间内的随机过程。
马尔可夫随机场(Markov Random Field):基于马尔可夫链模型结构的鉴别式概率模型。
无向图:由节点,节点之间的无向边构成的图,称为无向图。
Hammersley-Clifford定理:概率无向图模型的联合概率分布表示为其最大团上的随机变量的势能函数的乘积形式。
最大团:如果一个团不被其他任一团所包含,即它不是其他任一团的真子集,则称该团为图G的最大团,也被称为极大团。
势能函数:构建模型的一种抽象函数,在具体的问题求解过程中会根据具体问题的特征函数而设计势能函数的具体表达式。
如图1所示,在语料标签分类场景下,语料标签的分类可以依赖于机器学习,在训练标签预测模型之前,对用于进行模型训练的文本进行预处理,将文本拆分为多个词单元,在多个词单元中选择可以作为文本特征的词单元,并确定作为文本特征的词单元对应的特征标签,由文本特征以及文本特征对应的特征标签构成用于进行模型训练的文本语料。在构建标签预测模型时可以基于马尔可夫随机场构建多链的模型结构,以双链结构的马尔可夫链为例,构建如图1所示的双链无向图形式的模型结构,该双链无向图仍具有马尔可夫性质,其中,节点X1-T表示文本语料对应的特征集合,集合中包含的文本特征与节点Y1-YT之间存在映射关系,节点Y1-YT表示文本语料中包含的每个文本特征分别与特征标签组合生成特征标签对,由文本特征对应的特征标签对组成特征标签集合,特征标签集合对应的特征标签节点。
虚线框中包含的节点Yt、节点Yt-1、节点Yt-2构成双链无向图中的一个最大团,使得节点Yt与前两个标签节点:节点Yt-1、节点Yt-2关联。根据Hammersley-Clifford定理,双链无向图的对应的目标函数,可以用双链无向图中包含的全部最大团的概率乘积表示,其中,概率即为势能函数。在模型训练阶段根据极大似然估计原理构建似然函数,并对似然函数求梯度,利用梯度下降法求解似然函数取最大值时的模型参数,进而完成模型训练。在基于训练好的标签预测模型预测语料时,将待预测语料输入至标签预测模型中进行训练,获得目标标签预测模型。
现有技术中,在构建标签预测模型时,通常是基于马尔可夫随机场构建如图2中(a)所示的单链模型结构,即,基于CRF(条件随机场)模型构建无向图,标签预测模型中每个Yt对应的特征标签均由节点X1-T对应的特征标签决定。而本说明书中提供的标签预测模型方法可以基于马尔可夫随机场构建如图2中(b)所示的双链结构、如图2中(c)所示的三链结构,或者构建n链模型结构。由图2中(b)可知,Yt对应的特征标签的确定需要结合节点Yt-1、节点Yt-2对应的特征标签。由图2中(c)可知,Yt对应的特征标签的确定需要结合节点Yt-1、节点Yt-2、节点Yt-3对应的特征标签。进而使得Yt对应的特征标签的确定与其具有直接关联关系的节点对应的特征标签相关,还与其具有间接关联关系的节点对应的特征标签相关,进而提高标签预测的准确性。
在本说明书中,提供了一种标签预测模型训练方法,本说明书同时涉及一种标签预测模型训练装置,一种标签预测方法,一种标签预测装置,一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
图3示出了根据本说明书一实施例提供的一种标签预测模型训练方法的流程图,具体包括以下步骤:
步骤S302,确定文本语料包含的文本特征,以及所述文本特征对应的特征标签。
具体的,文本语料是指以文字形式记录的文本内容,包括但不限于金融、体育、科技等领域对应的新闻、评论、小说、聊天、文章等文本内容。文本语料包括文本特征和文本特征对应的特征标签,其中,文本特征是指对文本内容进行拆分,拆分成多个词单元,过滤掉语气词、连词等词语的词单元后获得的词单元,获得的每个词单元均对应文本内容中的一个特征词,相应的,特征标签即为对文本特征进行词义分析,获得的与文本特征的词义相符合的标签,例如:文本特征“你好”,相应的特征标签为“打招呼”。
基于此,在训练标签预测模型之前,先确定用于进行模型训练的训练样本,即文本语料。文本语料为包含多个特征的完整的句子时,会对文本语料进行预处理,提取出文本语料中包含的文本特征,并通过人工标注或机器学习模型标注的方式为每个文本特征确定一个特征标签,用于后续进行模型训练。
进一步的,在获取到文本语料后,由于文本语料可以为一个完整的句子,在句子中包含的名词、动词等特征词较多的情况下,需要对文本语料进行分词处理,再分别为分词结果中包括的每个文本特征确定一个特征标签,具体实现如下:
获取文本语料;对所述文本语料进行分词处理获得多个词单元,在所述多个词单元中选择目标词单元作为所述文本语料对应的文本特征;将所述目标词单元对应的词单元标签作为所述文本特征对应的特征标签。
具体的,分词处理是指将文本语料中包含的词语按照语义、词性以及词语结构等特征进行拆分的处理,分词处理的方法包括但不限于人工分词、利用分词算法进行分词处理等多种分词处理方式,相应的,词单元是指对文本语料进行分词处理后获得的所有词语单元,词单元可以是一个词语,还可以由多个词语组成,目标词单元是指在所有词单元中筛选得到的词单元,筛选的规则可以是筛掉“啊”,“然后”等无实际词义的语气词、连词等词单元,相应的,词单元标签是指为筛选得到的词单元分配的能够表示词单元的属性类别的标签,即,文本特征对应的特征标签。
基于此,获取用于进行模型训练的文本语料,文本语料中包含多个文本特征。对文本语料采用任意分词方式进行分词处理获得与文本语料对应的多个词单元,在多个词单元中选择除连词、语气词等词单元之外目标词单元作为文本语料对应的文本特征。为确定的目标词单元中包含的每个词单元分配特征标签,将目标词单元对应的词单元标签作为文本特征对应的特征标签。
举例说明,文本语料可以为一个包括主语、谓语、宾语等多个名词、动词、形容词的完整句子。对于文本语料“我在朋友刚开业的健身房花费三千元办了会员卡”,对文本语料进行分词处理获得“我”,“在”,“朋友”,“刚开业的”,“健身房”,“花费”,“三千元”,“办了”,“会员卡”等词单元,在获得的词单元中选择“我”,“朋友”,“健身房”,“三千元”,“会员卡”等目标词单元作为文本特征。目标词单元对应的标签分别为:“买方”,“卖方”,“场所”,“金额”,“商品”。相应的,目标词单元对应的标签即为文本特征对应的特征标签。
综上所述,通过对文本语料进行分词处理,以及对获得的词单元进行筛选,从而筛除了文本语料中包含的无关文本特征,使得用于进行模型训练的文本语料更具针对性,从而提高模型训练的效果。
步骤S304,根据所述文本特征和所述特征标签生成特征标签节点,并根据所述特征标签节点构建链状结构的多链无向图,其中,所述多链无向图中的每个节点对应至少两条边。
具体的,在上述确定了包含文本特征,以及与文本特征对应的特征标签的文本语料后,即可根据文本特征和特征标签构建多链无向图。其中,多链无向图为基于马尔可夫随机场创建的,由节点和无向边组成的链状结构无向图,多链无向图中特征标签节点是根据文本特征在文本语料中的排列顺序进行排列的,因而多链无向图中的特征标签节点按照文本特征在文本语料中的排列顺序进行连接。在构建多链无向图时,根据文本特征和特征标签构建链数大于等于2且具有无向图属性的多链无向图。
在多链无向图为双链无向图的情况下,每个标签节点对应至少两条边,双链无向图中包括T个标签节点,第一标签节点和第T标签节点均对应两条边,第二标签节点以及第T-1标签节点均对应三条边,其他标签节点均对应四条边,当链数为n时,第一标签节点和第T标签节点对应n条边、第二标签节点以及第T-1标签节点均对应n+1条边,其他节点均对应2n条边。
基于此,根据文本特征和文本特征对应的特征标签生成特征标签节点,按照文本特征在文本语料中的排列顺序对特征标签节点进行排列,根据特征标签节点的排列结果构建多链无向图,多链无向图中包含的每个节点均对应至少两条边。
实际应用中,在构建多链无向图时,先根据需求确定多链无向图对应的链的数量,根据链的数量能够确定生成的特征标签节点之间是否存在边,将存在边的特征标签节点相连构成了多链无向图。
进一步的,在确定了包含文本特征,以及与文本特征对应的特征标签的文本语料后,为了能够表示文本特征之间的关联关系,可以根据文本特征和特征标签分别确定节点和边,构建多链无向图,具体实现如下:
将所述文本特征和每个特征标签分别进行组合,获得至少一个特征标签对;根据所述至少一个特征标签对生成特征标签集合,并将所述特征标签集合作为特征标签节点;将所述文本特征之间的文本关联关系作为节点关联边,其中,所述文本关联关系为所述文本语料中,具有词单元衔接关系的文本特征之间的关系;根据所述特征标签节点和所述节点关联边构建多链无向图。
具体的,特征标签对由文本特征和特征标签构成,文本语料中包含多个文本特征,每个文本特征可以分别对应不同的特征标签,任意数量的文本特征对应的特征标签也可以相同,因此文本语料中的文本特征分别与每个特征标签组合均能构成一个特征标签对,例如,文本语料中包含4个文本特征,文本语料对应3个特征标签,因此一个文本特征可以和3个特征标签组合,构成一个特征标签对,4个文本特征和3个特征标签即可组合得到12个特征标签对;由每个文本特征对应的特征标签对组成特征标签集合,即文本特征的数量与特征标签集合的数量相等;相应的,特征标签节点即为特征标签集合,确定每个特征标签集合为多链无向图中的节点;由于文本特征是在文本语句中提取出来的,因此文本特征相对于文本语句,存在文本特征顺序,以每个文本特征为词单元,文本语料中,词单元之间的衔接关系即可表示文本特征顺序,按照文本特征顺序对文本特征进行排列,相应的,文本特征的顺序即为文本特征之间的文本关联关系,基于文本关联关系能够生成特征标签节点之间的无向边,即,节点关联边。
基于此,分别对文本语料中包含的每个文本特征进行处理,确定与文本语料对应的特征标签的数量,对每个文本特征进行处理生成特征标签对时,将文本特征分别与每个特征标签组合,获得与当前文本特征对应的特征标签对,针对当前文本特征,获得的特征标签对的数量和特征标签的数量相等,获得的特征标签对构成了一个特征标签集合,特征标签集合即可作为构建多链无向图的一个图节点。分别对每个文本特征进行处理,获得每个文本特征对应的特征标签集合,进而获得用于构成多链无向图的全部特征标签节点。将每个文本特征作为一个词单元,将文本特征在文本语料中的词单元衔接关系作为文本特征之间的文本关联关系,进而将文本关联关系作为构成多链无向图的节点关联边,根据确定的节点关联边和特征标签节点构建多链无向图。
沿用上例,在确定文本特征“我”,“朋友”,“健身房”,“三千元”,“会员卡”,以及分别与文本特征对应的标签:“买方”,“卖方”,“场所”,“金额”,“商品”后,对每个文本特征进行处理,将文本特征“我”分别与每个标签进行组合,构成:“我”-“买方”,“我”-“卖方”,“我”-“场所”,“我”-“金额”,“我”-“商品”等特征标签对,由上述特征标签对构成了文本特征“我”对应的特征标签对集合,文本特征“我”对应的特征标签对集合即可作为一个节点,采用上述组合方式,能够获得每个文本特征对应的特征标签对集合,也就是获得了文本特征“我”,“朋友”,“健身房”,“三千元”,“会员卡”分别对应的节点。以文本特征在文本语料中的语序为节点之间的关系,即,节点之间的边能够构建如图4所示的多链无向图(双链无向图),多链无向图中的节点按照文本特征在文本语料中的顺序排列,即。标签对应的文本特征具有上下文衔接关系。
综上所述,以文本特征和特征标签组成的特征标签对为节点,以文本特征之间的文本关联关系为边构建多链无向图,进而使得多链无向图具有表示文本特征之间的上下文关系的能力,进而提高了特征标签节点之间的关联程度。
步骤S306,在所述多链无向图中确定至少一个子图,根据每个子图与所述多链无向图之间的分布关系构建目标函数。
具体的,在上述以文本特征和特征标签为节点构建了链状结构的多链无向图后,即可根据多链无向图在多链无向图中确定至少一个子图,进而根据每个子图和多链无向图之间的分布关系构建目标函数,其中,子图是指在多链无向图中,根据节点与节点之间的连接关系选择的多个相互连接的节点组成的无向图,子图也可以表示为最大团,最大团中包含的每个节点均与最大团中其他任意一个节点之间具有直接连接的无向边;分布关系是指根据多链无向图确定的多个子图在多链无向图中的位置排列关系,目标函数是指根据每个子图对应初始函数确定的与多链无向图对应函数,计算得到的函数值用于表示该多链无向图出现的概率。
基于此,在以文本特征和特征标签为节点构建了链状结构的多链无向图后,根据多链无向图的图结构,以及基于子图的确定规则在多链无向图中确定至少一个子图,其中,子图的确定规则为:子图中的每个节点均与子图中其他节点以无向边的形式直接相连。在多链无向图中依次确定每个子图,根据每个子图与多链无向图的分布关系构建与多链无向图对应的目标函数。
进一步的,在根据每个子图与多链无向图之间的分布关系构建目标函数时,为了降低目标函数的构建难度,可以分别确定每个子图对应的函数,再根据每个子图对应的函数构建目标函数,具体实现如下:
构建每个子图对应的子图函数;根据每个子图与所述多链无向图之间的分布关系,以及每个子图对应的子图函数构建联合子图函数;根据所述多链无向图对应的图结构,对所述多链无向图中特征标签节点包含的特征标签对进行全排列处理,并根据处理结果确定全排列函数;根据所述联合子图函数和所述全排列函数构建目标函数。
具体的,子图函数用于表示子图相对于多链无向图的出现概率;联合子图函数是指基于多链无向图中包含的每个子图构建的函数,全排列函数是指对全部特征标签节点包含的特征标签对进行全排列处理确定的函数,表示每个特征标签节点包含的特征标签对按照全排列策略连接后得到的无向图数量,相应的,由联合子图函数和全排列函数构建的目标函数则表示结合特征函数集合的多链无向图,相对于对全部特征标签节点包含的特征标签对进行全排列获得的无向图出现的概率。
基于此,基于预设的子图函数构建规则,根据每个子图对应的特征标签节点分别为每个子图构建子图函数。根据确定的每个子图与多链无向图之间的分布关系,以及每个子图对应的子图函数构建联合子图函数,其中,子图与多链无向图之间的分布关系包括子图之间的位置关系,以及子图相对于多链无向图中的位置关系。根据多链无向图对应的图结构,对多链无向图中特征标签节点包含的特征标签对进行全排列处理,并根据处理结果确定全排列函数。由联合子图函数和全排列函数构建目标函数。其中,子图函数的表达式为公式(1),全排列函数的表达式为公式(2),目标函数的表达式为公式(3):
Ψ(t)=e∑kωk*fk(Yt-n…Yt-1,Yt,X,t) (1)
Z(X)=∑Ye∑tkωk*fk(Yt-n…Yt-1,Yt,X,t) (2)
Figure BDA0003843591960000091
其中,ψ(t)表示子图相对于多链无向图的出现概率;fk表示特征函数,ωk表示k个未知参数,代表k个特征函数各自的权重;X表示文本特征集合;Y表示特征标签节点;t表示多链无向图中第t个特征标签节点,n表示多链无向图的链数量,Yt表示子图中的目标特征标签节点,Yt-n表示与目标特征标签节点具有间接关联关系的第n个特征标签节点。Z(X)表示特征标签节点包含的特征标签对按照全排列策略连接后得到的所有无向图的目标函数值之和;Pω(Y|X)表示全部特征标签节点中特定的特征标签对构成的多链无向图,相对于对全部特征标签节点包含的特征标签对进行全排列获得的无向图出现的概率。
沿用上例,如图4中(a)所示,虚线框中包含的“卖方”节点、“场所”节点以及“金额”节点构成一个子图,即多链无向图对应的一个最大团,根据子图中包含的每个节点即可构建最大团对应的势能函数,即,子图对应的子图函数。如图4中(b)所示,对文本特征:“我”,“朋友”,“健身房”,“三千元”,“会员卡”,以及标签:“买方”,“卖方”,“场所”,“金额”,“商品”,组成的全部特征标签对进行全排列处理,获得全排列函数,即,在文本特征对应的特征标签对之间确定无向边,构建无向图,全排列函数值表示特征标签对按照全排列策略连接后得到的无向图数量,根据每个子图对应的势能函数的乘积即可构建联合子图函数,由联合子图函数和全排列函数构建目标函数。
综上所述,通过分别构建每个子图对应的子图函数,进而构建多链无向图对应的目标函数,降低了目标函数的构建难度。
进一步的,在构建多链无向图中每个子图对应的子图函数时,由于每个子图的结构相似,因此每个子图对应的子图函数的构建方法均相同,具体实现如下:
确定子图中每个子图特征标签节点对应的子图文本特征;根据每个子图特征标签节点对应的子图文本特征之间的特征关联关系,确定子图特征标签节点之间的节点关联关系;基于所述节点关联关系构建所述子图对应的子图函数。
具体的,子图特征标签节点是指在多链无向图中确定了子图后,子图中包含的节点,相应的,子图文本特征是指在多链无向图中确定了子图后,子图中子图特征标签节点对应的文本特征,特征关联关系是指子图包含的子图特征标签节点包含的子图文本特征之间的连接关系,即,文本特征在文本语料中的上下文连接关系;相应的,节点关联关系是指子图中包含的每个子图特征标签节点之间的关系,由于每个子图特征标签节点均对应一个文本特征,进而节点关联关系实际代表了文本特征之间的关系,即文本特征在文本语料中的上下文关系。
基于此,在构建子图对应的子图函数时,根据子图在多链无向图中的位置确定子图中包含的子图特征标签节点,根据子图特征标签节点中包含的子图特征标签对之间的连接关系,能够获得文本特征之间的特征关联关系,进而根据确定的特征关联关系能够确定子图特征标签节点之间的节点关联关系。从而根据确定的节点关联关系构建子图对应的子图函数。
沿用上例,如图4中(a)所示,虚线框中包含的“卖方”节点、“场所”节点以及“金额”节点等特征标签节点构成一个子图,子图中各个特征标签节点均存在与其对应的文本特征:“朋友”,“健身房”,“三千元”。由图可知,特征标签节点“金额”分别与特征标签节点“场所”和特征标签节点“卖方”相连,子图中每个特征标签节点又分别与特征集合中的文本特征相关联,因此可以构建子图对应的势能函数,即子图函数。
综上所述,根据子图中各个子图特征标签节点包含的特征标签对之间的连接关系进而推导出子图特征标签节点之间的关联关系,从而构建子图函数,使得子图函数能够更加准确的表达子图相对于多链无向图的出现概率。
进一步的,在构建了多链无向图之后,为了降低多链无向图对应的目标函数的构建难度,可以对目标函数进行分解,分解为多链无线图中每个子图对应的函数乘积,其中子图根据链数量确定,具体实现如下:
确定所述多链无向图中包含的链数量,以及在所述多链无向图中确定初始特征标签节点;在所述多链无向图中确定与所述初始特征标签节点具有直接联通关系的第一特征标签节点,以及基于所述链数量在所述多链无向图中,确定与所述初始特征标签节点具有间接联通关系的第二特征标签节点;在所述多链无向图中确定包含文本特征节点、所述第一特征标签节点和所述第二特征标签节点的子图。
具体的,链数量是指在构建多链无向图之前,预先确定的多链无向图的图结构对应的链数,链数为正整数,且链数的最小值为2,在链数为n时,链数和子图中包含的节点的数量是n+1的关系,即,在链数为2时,在多链无向图中确定的子图中包含的节点数量为3;在链数为2时,构建的多链无向图为双链无向图,即双链无向图中包含的每个节点对应至少两条边;初始特征标签节点可以为多链无向图中除首位以及与首位相连的第二位特征标签节点之外的任意一个特征标签节点,相应的,第一特征标签节点为与初始特征标签节点具有上行关系且直接相连的特征标签节点,第二特征标签节点为与初始特征标签节点具有上行关系且间接相连的特征标签节点,且第二特征标签节点存在与初始特征标签节点直接相连的无向边。需要说明的是,在多链无向图对应的链数据不同的情况下,第二特征标签节点的数量也不同,
需要说明的是,第二特征标签节点为至少一个。多链无向图对应的链数量与第二特征标签节点的数量关系为n-1,即链数量为2时,第二特征标签节点的数量为1;链数量为3时,第二特征标签节点的数量为2。在初始特征标签节点为多链无向图中位于首位的特征标签时,由于首位特征标签节点不存在与其对应的第一特征节点,因此无法构成子图;在初始特征标签节点为多链无向图中位于与首位相连的第二位特征标签时,由于该特征标签节点不存在与其对应的第二特征节点,因此也无法构成子图。
基于此,根据多链无向图中每个特征标签对应的边的数量确定多链无向图中包含的链数量,在多链无向图中确定任意一个特征标签节点为初始特征标签节点。根据初始特征标签节点的上行特征标签节点,在多链无向图中确定与初始特征标签节点具有直接联通关系的第一特征标签节点,再根据多链无向图对应的链数量以及初始特征标签节点的上行特征标签节点在多链无向图中,确定与初始特征标签节点具有间接联通关系的第二特征标签节点。在多链无向图中确定包含文本特征节点、第一特征标签节点和第二特征标签节点的子图。需要说明的是,初始特征标签节点为多链无向图中包含的首位特征标签节点、以及与首位特征标签节点关联的下一特征标签节点时,则无法构成子图。
沿用上例,在如图5中(a)所示的多链无向图中确定子图,以多链无向图中包含的标签节点“场所”为初始节点构建子图时,确定与标签节点“场所”仅具有直接连接关系的标签节点“卖方”为第一标签节点,确定与标签节点“场所”具有直接连接关系和间接连接关系的标签节点“买方”为第二标签节点,构建如图5中(b)所示的子图。相应的,以标签节点“金额”为初始节点可以构建如图5中(c)所示的子图;以标签节点“商品”为初始节点可以构建如图5中(d)所示的子图。特别的,针对标签节点“买方”和标签节点“卖方”,由于不存在与标签节点“买方”对应的第一标签节点,也不存在与其对应的第二标签节点,以及由于不存在与标签节点“卖方”对应的第二标签节点,因此以标签节点“买方”和标签节点“卖方”为初始标签节点时无法构成子图。
综上所述,通过在多链无向图中确定初始特征标签节点,在根据初始特征标签节点在多链无向图中确定第一特征标签节点和第二特征标签节点的方法,实现了基于多链无向图确定与初始特征标签节点具有关联关系的特征标签节点,进而构成子图,从而提高了子图中特征标签节点之间的关联关系。
步骤S308,根据所述目标函数、所述文本特征以及所述特征标签,对初始标签预测模型进行调参,直至获得满足训练条件的目标标签预测模型。
具体的,在上述在多链无向图中确定至少一个子图,根据每个子图与多链无向图之间的分布关系构建目标函数之后,即可根据构建的目标函数,文本特征以及特征标签对确定的初始标签预测模型进行调参,进而获得目标标签预测模型,其中,初始标签预测模型是指构建的用于实现对文本语料进行标签预测的模型,此时初始标签预测模型中包含的模型参数为初始值,需要根据文本特征和特征标签对初始标签预测模型中的参数进行调整,直到满足训练停止条件,获得训练好的目标标签预测模型。
基于此,确定包含模型参数的初始标签预测模型,根据目标函数、特征标签和文本特征对初始标签预测模型中包含的模型参数进行调整,即,在模型训练的过程中进行参数迭代,直至标签预测模型满足训练条件时停止训练,获得的标签预测模型即为目标标签预测模型。
进一步的,在多链无向图中确定至少一个子图,根据每个子图与多链无向图之间的分布关系构建目标函数之后,考虑到初始模型标签预测模型还需要进行模型训练才能够获得目标标签预测模型,可以采用梯度下降法确定目标模型参数,进而获得目标标签预测模型,具体实现如下:
根据所述文本特征和所述特征标签以及当前计算周期对应的第i模型参数,计算参数确定函数对应的第Li函数值,其中,i为正整数;根据第Li函数值和第Li-1函数值计算差值;在所述差值大于预设差值阈值的情况下,i+1,并执行根据所述文本特征和所述特征标签以及当前计算周期对应的第i模型参数,计算参数确定函数对应的第Li函数值的步骤;在所述差值小于等于所述预设差值阈值的情况下,将所述第i模型参数作为目标模型参数,并基于所述目标模型参数对所述初始标签预测模型的模型参数进行更新,根据更新结果获得所述目标标签预测模型。
具体的,计算周期在本实施例中是指确定第i模型参数,根据第i模型参数计算参数确定函数对应的函数值,进而计算当前计算周期的函数值与上一计算周期的函数值之间的差值的计算过程,此计算过程为一个计算周期,其中,参数计算函数用于计算模型训练过程中,标签预测模型的模型参数,在本实施例中参数确定函数可以为根据极大似然估计原理,结合文本特征、特征标签、未知的模型参数构建的似然函数;相应的,函数值即为根据给定的文本特征,特征标签以及模型参数计算得到的参数确定函数对应的函数值,第Li函数值即为与当前计算周期对应的上一计算周期计算得到的函数值;差值是指第Li函数值和第Li-1函数值之间的差值,即,以第Li函数值为被减数,以第Li-1函数值为减数,对第Li函数值和第Li-1函数值求差获得的计算结果,相应的,预设差值阈值即为预先确定的差值,用于与计算得到的差值相比较;目标模型参数是指经过迭代计算确定的用于生成训练完成的标签预测模型的模型参数,目标标签预测模型即为训练好的标签预测模型。
基于此,确定用于进行模型训练的文本语料集合,文本语料集合中包括多对文本特征和与文本特征对应的特征标签。根据文本特征、特征标签以及模型参数构建参数确定函数,根据文本特征和特征标签以及当前计算周期对应的第i模型参数,计算参数确定函数对应的第Li函数值(i为正整数)。根据第Li函数值和与当前计算周期对应的上一计算周期对应的第Li-1函数值计算差值,即求第Li函数值和第Li-1函数值之间的差值。确定预设差值阈值,在计算得到的差值大于预设差值度阈值的情况下,i+1,在文本语料集合中选择下一计算周期对应的文本特征和与文本特征对应的特征标签,并结合第i+1模型参数计算参数确定函数对应的第Li+1函数值,直至确定某一计算周期的差值小于等于预设差值阈值的情况下,将第i+1模型参数作为目标模型参数,并基于目标模型参数对初始标签预测模型的模型参数进行更新,根据更新结果获得训练好的标签预测模型,即,目标标签预测模型。其中,参数确定函数的表达式为公式(4):
L(ω)=log∏X,YPω(Y|X)P^(X,Y)=∑X,YP^(X,Y)P^(X,Y)logPω(Y|X) (4)
其中,Pω(Y|X)表示全部特征标签节点中特定的特征标签对构成的多链无向图,相对于对全部特征标签节点包含的特征标签对进行全排列获得的无向图出现的概率;P^(x,y)表示文本特征X和特征标签Y的联合概率;L(ω)为参数确定函数对应的函数值;ω表示未知参数;X表示文本特征集合;Y表示特征标签节点。
沿用上例,在确定了与多链无向图对应的目标函数后,即可根据极大似然估计原理,结合文本特征、特征标签以及目标函数构建似然函数,即,参数确定函数,求解目标函数对应的似然函数取最大值时,目标函数对应的参数值ωk。构建参数确定函数的表达式,基于文本特征和特征标签根据下述表达式(5)对参数确定函数求梯度。利用梯度下降法计算使得L(ω)取最大值时的ω。计算方法为:确定初始ω值i,根据公式(4)计算函数值Li,根据当前计算周期的函数值Li和上一计算周期的函数值Li-1计算获得差值4,由于差值4大于预设差值阈值2,i+1,获得ω值i+1,以ω值i+1为参数值,结合文本语料集合中未被使用的文本特征以及文本特征对应的特征标签,以及ω值i+1,根据参数确定函数计算函数值Li+1,并计算获得函数值Li+1对应的差值1,此时确定函数值Li+1对应的差值1小于预设差值阈值2,因此ω值i+1即为目标标签预测模型中的参数值。
Figure BDA0003843591960000131
综上所述,通过构建参数确定函数计算用于构成目标标签预测模型的目标模型参数,从而提高了模型训练的效率和目标模型参数确定的准确性。
进一步的,在计算当前计算周期对应的第i模型参数时,考虑到周期之间的关联关系,可以基于上一计算周期对应的第i-1模型参数和参数确定函数对应的梯度值计算当前计算周期对应的第i模型参数,具体实现如下:
确定上一计算周期对应的第i-1模型参数,以及所述上一计算周期对应的梯度值;根据所述第i-1模型参数和所述上一计算周期对应的梯度值,计算当前计算周期对应的第i模型参数。
具体的,上一计算周期是指与当前计算周期相邻的上行计算周期,相应的,在当前计算周期的模型参数为i时,上一计算周期对应的模型参数为i-1;梯度值可以采用梯度下降法,对参数确定函数求梯度获得。
基于此,在确定了上一计算周期对应的第i-1模型参数,以及计算得到的上一计算周期中,参数确定函数对应的梯度值之后,即可根据第i-1模型参数和上一计算周期中,参数确定函数对应的梯度值进行求差运算,计算得到当前计算周期对应的第i模型参数。实际应用中,在计算第i模型参数时,可以采用梯度下降法进行计算,梯度下降法公式中包含的常数系数可以是经过多次试验确定的经验值。需要说明的是,每个计算周期对应的模型参数均包含至少一个参数值。
沿用上例,根据当前第二计算周期的函数值L2和上一计算周期的函数值L1计算获得第一差值10,由于差值10大于预设差值阈值2,因此需要计算第三模型参数,再计算第三函数值。根据第二模型参数以及第二计算周期对应的梯度值之间的差值确定第三模型参数。第三模型参数用于继续进行函数计算,获得第三函数值,直到计算得到的梯度值小于等于预设梯度阈值。
综上所述,通过确定文本语料包含的文本特征,以及文本特征对应的特征标签;根据所述文本特征和所述特征标签生成特征标签节点,并根据所述特征标签节点构建链状结构的多链无向图,其中,所述多链无向图中的每个节点对应至少两条边;在多链无向图中确定至少一个子图,根据每个子图与多链无向图之间的分布关系构建目标函数;根据目标函数、文本特征以及特征标签,对初始标签预测模型进行调参,直至获得满足训练条件的目标标签预测模型。实现了基于多链无向图进行模型训练时,将特征标签之间的上下文联系作为标签预测的参考条件,进而提高了对文本进行标签预测的准确率。
图6示出了根据本说明书一实施例提供的一种标签预测方法的流程图,具体包括以下步骤:
步骤S602,获取待预测文本;
步骤S604,将所述待预测文本输入目标标签预测模型,获得所述目标标签预测模型输出的与所述待预测文本对应的预测标签。
具体的,待预测文本是指用于直接输入至目标标签预测模型进行标签预测的文本,待预测文本可以为任意语句;相应的,预测标签即为目标标签预测模型输出的与待预测文本对应的预测结果。
基于此,确定将要进行标签预测的待预测文本,将待预测文本输入至训练完成的目标标签预测模型中进行预测,分别预测待预测文本中包含的每个文本特征对应的特征标签,进而获得目标标签预测模型输出的与待预测文本对应的预测标签。
进一步的,在目标标签预测模型对输入的待预测文本进行预测时,会分别预测待预测文本中包含的待预测特征,分别与目标标签预测模型关联的每个特征标签对应的概率值,进而选取最大概率值对应的特征标签作为待预测特征对应的目标特征标签,具体实现如下:
将所述待预测文本输入至所述目标标签预测模型;基于所述目标标签预测模型计算所述待预测文本中包含的待预测特征,与所述目标标签预测模型关联的每个特征标签对应的概率值;在每个特征标签对应的概率值中选择最大概率值,并将所述最大概率值对应的特征标签作为所述待预测特征对应的目标特征标签;由所述待预测文本中包含的每个待预测特征对应的目标特征标签组成所述待预测文本对应的预测标签。
具体的,待预测特征是指将待预测文本拆分为多个词单元,从多个词单元中筛选出可以作为文本特征进行属性预测的目标词单元,确定的目标词单元即为待预测特征;目标标签模型在训练的过程中,关联了多个特征标签,在对每个待预测特征进行标签预测时,会计算待预测特征对应每个特征标签的概率值,将待预测特征对应每个特征标签的概率值中的最大概率值作为待预测特征对应的预测标签;对待预测文本中包含的每个待预测特征进行标签预测,预测结果即为待预测文本对应的预测标签。
基于此,将确定的待预测文本输入至目标标签预测模型,由目标标签预测模型计算待预测文本中包含的待预测特征,与目标标签预测模型关联的每个特征标签对应的概率值,在计算得到的每个特征标签对应的概率值中选择数值最大的概率值作为最大概率值,最大概率值对应的特征标签与其对应的待预测文本关联度较高,因此将最大概率值对应的特征标签作为待预测特征对应的目标特征标签。目标标签预测模型计算分别预测待预测文本中包含的每个待预测特征对应的目标特征标签,由待预测文本中包含的每个待预测特征对应的目标特征标签组成待预测文本对应的预测标签。
举例说明,在对待预测文本“A买了一件生产于a地的衣服”进行预测时,将待预测文本“A买了一件生产于a地的衣服”,输入至目标标签预测模型,由目标标签预测模型计算对待预测文本中的待预测特征“A”,“a地”,“衣服”,分别进行预测,待预测特征“A”,对应的特征标签以及概率值分别为:“A”:“消费者”-0.9,“商家”-0.3,“产地”-0.2,“商品”-0.1,因此待预测特征“A”对应的目标特征标签为“消费者”,以此类推,分别确定待预测特征“a地”和“衣服”对应的目标特征标签,获得“a地”-“产地”,“衣服”-“商品”,因此“消费者”,“产地”,商品”即为待预测文本“A买了一件生产于a地的衣服”对应的预测标签。
综上所述,通过将待预测文本输入至目标标签预测模型;基于目标标签预测模型计算待预测文本中包含的待预测特征,与目标标签预测模型关联的每个特征标签对应的概率值;在每个特征标签对应的概率值中选择最大概率值,并将最大概率值对应的特征标签作为待预测特征对应的目标特征标签;由待预测文本中包含的每个待预测特征对应的目标特征标签组成待预测文本对应的预测标签。进而实现了通过机器学习模型的方法预测待预测文本对应的预测标签,提高了标签预测的准确率和标签预测的效率。
下述结合附图7,以本说明书提供的标签预测模型训练方法在金融文本标签预测的应用为例,对所述标签预测模型训练方法进行进一步说明。其中,图7示出了本说明书一实施例提供的一种应用于金融文本标签预测的标签预测模型训练方法的处理流程图,具体包括以下步骤:
步骤S702,获取文本语料。
在以金融领域的相关术语文本为文本语料进行标签预测模型的训练时,获取文本语料“A将1000万的代码编号为190215的债券标的按照3.575%的利率出给B”。
步骤S704,对文本语料进行分词处理获得多个词单元,在多个词单元中选择目标词单元作为文本语料对应的文本特征。
对文本语料“A将1000万的代码编号为190215的债券标的按照3.575%的利率出给B”进行分词处理,获得分词:“A”,“1000万”,“代码编号”,“190215”,“债券标的”,“3.575%”,“利率”,“B”。在词单元中选择“A”,“1000万”,“190215”,“3.575%”,“B”等词单元作为目标词单元,每个目标词单元即为文本特征。
步骤S706,将每个词单元标签分别作为文本特征对应的特征标签构成特征标签对。
分别确定每个词单元对应的词单元标签:“A”-“卖出方”,“1000万”-“合约价值”,“190215”-“债券代码”,“3.575%”-“利率”,“B”-“买入方”。分别将每个词单元标签与文本特征进行组合获得与文本特征对应的特征标签对,即,针对文本特征“A”,可以获得:“A”-“卖出方”,“A”-“合约价值”,“A”-“债券代码”,“A”-“利率”,“A”-“买入方”等特征标签对,采用上述方法,可以分别获得每个文本特征对应的特征标签对。
步骤S708,根据特征标签对生成特征标签集合,并将特征标签集合作为特征标签节点。
针对文本特征“A”,可以获得:“A”-“卖出方”,“A”-“合约价值”,“A”-“债券代码”,“A”-“利率”,“A”-“买入方”等特征标签对,对上述特征标签对进行组合,获得与文本特征“A”对应的特征标签集合,该特征标签集合即为文本特征“A”对应的特征标签节点。进而可以确定每个文本特征:“A”,“1000万”,“190215”,“3.575%”,“B”对应的特征标签节点。
步骤S710,将文本特征之间的文本关联关系作为节点关联边。
根据文本特征在文本语料中的语义顺序即可确定特征标签节点之间的文本关联关系,将文本关联关系作为节点关联边。
步骤S712,根据特征标签节点和节点关联边构建双链无向图。
根据确定的节点和边构建如图8所示的双链无向图,由图可知该双链无向图为双链结构。
步骤S714,在双链无向图中确定至少一个子图,构建每个子图对应的子图函数。
如图8所示,在构建得到的双链无向图中,以标签节点“利率”为初始标签节点。由双链无向图可知,标签节点“利率”为初始标签节点可以构建虚线框所示的子图,即最大团。子图中每个节点均与子图中的任意一个节点之间存在直接相连的无向边。根据子图中包含的节点构建子图对应的子图函数,即,势能函数,用于表示子图相对于双链无向图的出现概率,子图函数的表达式为公式(6)。
Ψ(t)=e∑kωk*fk(Yt-2,Yt-1,Yt,X,t) (6)
其中,ψ(t)表示子图相对于双链无向图的出现概率;fk表示特征函数,ωk表示k个未知参数,代表k个特征函数各自的权重;X表示文本特征集合;Y表示特征标签节点;t表示双链无向图中第t个特征标签节点,n表示双链无向图的链数量,Yt表示子图中的目标特征标签节点。
步骤S716,根据每个子图与双链无向图之间的分布关系,以及每个子图对应的子图函数构建联合子图函数。
根据每个子图对应的子图函数,以及每个子图与双链无向图之间的分布关系,即,子图在双链无向图中的顺序构建联合子图函数,其中,联合子图函数是指全部子图函数乘积。
步骤S718,根据双链无向图对应的图结构,对双链无向图中特征标签节点包含的特征标签对进行全排列处理,并根据处理结果确定全排列函数,全排列函数的表达式为公式(7)。
Z(X)=∑Ye∑tkωk*fk(Yt-2,Yt-1,Yt,X,t) (7)
全排列函数值表示特征标签节点按照全排列策略连接后得到的无向图数量。
步骤S720,根据联合子图函数和全排列函数构建目标函数,目标函数的表达式为公式(8)。
Figure BDA0003843591960000161
其中,Z(X)表示特征标签节点包含的特征标签对按照全排列策略连接后得到的所有无向图的目标函数值之和;Pω(Y|X)表示全部特征标签节点中特定的特征标签对构成的多链无向图,相对于对全部特征标签节点包含的特征标签对进行全排列获得的无向图出现的概率。
目标函数表示结合特征函数集合的双链无向图,相对于无向图数量对应的全部无向图出现的概率。
步骤S722,根据文本特征和特征标签以及当前计算周期对应的第i模型参数,计算参数确定函数对应的第Li函数值,并根据第Li函数值和第Li-1函数值计算差值。
根据文本特征、特征标签以及未知的模型参数构建似然函数,即,参数确定函数。设定初始模型参数ω0。计算似然函数的梯度值,采用梯度下降法迭代计算目标模型参数ω。确定当前计算周期对应的模型参数i,根据文本特征、特征标签、似然函数以及模型参数i计算函数值Li。根据上一计算周期计算得到的函数值Li-1和函数值Li计算差值。
步骤S724,判断差值是否大于预设差值阈值,若是,执行步骤S722;若否,执行步骤S726。
步骤S726,将第i模型参数作为目标模型参数,并基于目标模型参数对初始标签预测模型的模型参数进行更新,根据更新结果获得目标标签预测模型。
将模型参数i作为目标模型参数,获得训练好的标签预测模型,即,目标标签预测模型。
步骤S728,获取待预测文本。
在根据目标标签预测模型进行标签预测时,确定待预测文本“C将100万的代码编号为156275的债券标的按照2.986%的利率出给D”。
步骤S730,将待预测文本输入至目标标签预测模型。
步骤S732,基于目标标签预测模型计算待预测文本中包含的待预测特征,与目标标签预测模型关联的每个特征标签对应的概率值。
对待预测文本中的文本特征:“C”,“100万”,“156275”,“2.986%”,“D”中的每个文本特征分别进行预测。预测文本特征“C”对应每个特征标签:“卖出方”,“合约价值”,“债券代码”,“利率”,“买入方”的概率值,文本特征“C”对应每个特征标签的概率值分别为0.9,0.3,0.2,0.1,0.6。
步骤S734,在每个特征标签对应的概率值中选择最大概率值,并将最大概率值对应的特征标签作为待预测特征对应的目标特征标签。
步骤S736,由待预测文本中包含的每个待预测特征对应的目标特征标签组成待预测文本对应的预测标签。
文本特征“C”对应每个特征标签的概率值分别为0.9,0.3,0.2,0.1,0.6。因此确定最大概率值0.9对应的特征标签“卖出方”即为文本特征“C”对应的特征标签,采用上述方法分别确定文本特征“100万”,“156275”,“2.986%”,“D”对应的特征标签,即:“100万”-“合约价值”,“156275”-“债券代码”,“2.986%”-“利率”,“D”-“买入方”。“卖出方”,“合约价值”,“债券代码”,“利率”,“买入方”即为待预测文本对应的预测标签。
此外,在本实施例中,目标标签预测模型中,前向算法(alpha)和后向算法(beta)对应的开销记录在边上,在对双链无向图进行切割时,即可按照相邻的两个节点进行切割,此时特征标签节点组成的节点序列可以由这个边的前向算法(alpha)和后向算法(beta)以及这个边本身的开销组合而成,且无重复和遗漏。
综上所述,本说明书提供的标签预测模型训练方法,通过确定文本语料包含的文本特征,以及文本特征对应的特征标签;以文本特征和特征标签为节点构建链状结构的双链无向图,其中,双链无向图中的每个节点对应至少三条边;在所双链无向图中确定至少一个子图,根据每个子图与双链无向图之间的分布关系构建目标函数;根据目标函数、文本特征以及特征标签,对初始标签预测模型进行调参,直至获得满足训练条件的目标标签预测模型。实现了基于双链无向图进行模型训练时,将特征标签之间的上下文联系作为标签预测的参考条件,进而在标签预测时,提高了对文本进行标签预测的准确率。
与上述方法实施例相对应,本说明书还提供了标签预测模型训练装置实施例,图9示出了本说明书一实施例提供的一种标签预测模型训练装置的结构示意图。如图9所示,该装置包括:
确定模块902,被配置为确定文本语料包含的文本特征,以及所述文本特征对应的特征标签;
构建模块904,被配置为根据所述文本特征和所述特征标签生成特征标签节点,并根据所述特征标签节点构建链状结构的多链无向图,其中,所述多链无向图中的每个节点对应至少两条边;
处理模块906,被配置为在所述多链无向图中确定至少一个子图,根据每个子图与所述多链无向图之间的分布关系构建目标函数;
训练模块908,被配置为根据所述目标函数、所述文本特征以及所述特征标签,对初始标签预测模型进行调参,直至获得满足训练条件的目标标签预测模型。
一个可选的实施例,所述构建模块904进一步被配置为:
将所述文本特征和每个特征标签分别进行组合,获得至少一个特征标签对;根据所述至少一个特征标签对生成特征标签集合,并将所述特征标签集合作为特征标签节点;将所述文本特征之间的文本关联关系作为节点关联边,其中,所述文本关联关系为所述文本语料中,具有词单元衔接关系的文本特征之间的关系;根据所述特征标签节点和所述节点关联边构建多链无向图。
一个可选的实施例,所述处理模块906进一步被配置为:
构建每个子图对应的子图函数;根据每个子图与所述多链无向图之间的分布关系,以及每个子图对应的子图函数构建联合子图函数;根据所述多链无向图对应的图结构,对所述多链无向图中特征标签节点包含的特征标签对进行全排列处理,并根据处理结果确定全排列函数;根据所述联合子图函数和所述全排列函数构建目标函数。
一个可选的实施例,所述处理模块906进一步被配置为:
确定子图中每个子图特征标签节点对应的子图文本特征;根据每个子图特征标签节点对应的子图文本特征之间的特征关联关系,确定子图特征标签节点之间的节点关联关系;基于所述节点关联关系构建所述子图对应的子图函数。其中,子图函数的表达式为公式(1):
Ψ(t)=e∑kωK*fk(Yt-n…Yt-1,Yt,X,t) (1)
其中,ψ(t)表示子图相对于多链无向图的出现概率;fk表示特征函数,ωk表示k个未知参数,代表k个特征函数各自的权重;X表示文本特征集合;Y表示特征标签节点;t表示多链无向图中第t个特征标签节点,n表示多链无向图的链数量,Yt表示子图中的目标特征标签节点,Yt-n表示与目标特征标签节点具有间接关联关系的第n个特征标签节点。
其中,全排列函数的表达式为公式(2),所述目标函数的表达式为公式(3):
Z(X)=∑Ye∑tkωk*fk(Yt-n…Yt-1,Yt,X,t) (2)
Figure BDA0003843591960000181
其中,Z(X)表示特征标签节点包含的特征标签对按照全排列策略连接后得到的所有无向图的目标函数值之和;Pω(Y|X)表示全部特征标签节点中特定的特征标签对构成的多链无向图,相对于对全部特征标签节点包含的特征标签对进行全排列获得的无向图出现的概率。
一个可选的实施例,所述处理模块906进一步被配置为:
确定所述多链无向图中包含的链数量,以及在所述多链无向图中确定初始特征标签节点;在所述多链无向图中确定与所述初始特征标签节点具有直接联通关系的第一特征标签节点,以及基于所述链数量在所述多链无向图中,确定与所述初始特征标签节点具有间接联通关系的第二特征标签节点;在所述多链无向图中确定包含文本特征节点、所述第一特征标签节点和所述第二特征标签节点的子图。
一个可选的实施例,所述训练模块908进一步被配置为:
根据所述文本特征和所述特征标签以及当前计算周期对应的第i模型参数,计算参数确定函数对应的第Li函数值,其中,i为正整数;根据第Li函数值和第Li-1函数值计算差值;在所述差值大于预设差值阈值的情况下,i+1,并执行根据所述文本特征和所述特征标签以及当前计算周期对应的第i模型参数,计算参数确定函数对应的第Li函数值的步骤;在所述差值小于等于所述预设差值阈值的情况下,将所述第i模型参数作为目标模型参数,并基于所述目标模型参数对所述初始标签预测模型的模型参数进行更新,根据更新结果获得所述目标标签预测模型。
一个可选的实施例,所述训练模块908进一步被配置为:
确定上一计算周期对应的第i-1模型参数,以及所述上一计算周期对应的梯度值;根据所述第i-1模型参数和所述上一计算周期对应的梯度值,计算当前计算周期对应的第i模型参数。
其中,参数确定函数通过下述公式(4)确定:
L(ω)=logΠX,YPω(Y|X)P^(X,Y)=∑X,YP^(X,Y)logPω(Y|X) (4)
其中,Pω(Y|X)表示全部特征标签节点中特定的特征标签对构成的多链无向图,相对于对全部特征标签节点包含的特征标签对进行全排列获得的无向图出现的概率;P^(x,y)表示文本特征X和特征标签Y的联合概率;L(ω)为参数确定函数对应的函数值;ω表示未知参数;X表示文本特征集合;Y表示特征标签节点。
一个可选的实施例,所述确定模块902进一步被配置为:
获取文本语料;对所述文本语料进行分词处理获得多个词单元,在所述多个词单元中选择目标词单元作为所述文本语料对应的文本特征;将所述目标词单元对应的词单元标签作为所述文本特征对应的特征标签。
本说明书提供的标签预测模型训练装置,通过确定文本语料包含的文本特征,以及文本特征对应的特征标签;根据所述文本特征和所述特征标签生成特征标签节点,并根据所述特征标签节点构建链状结构的多链无向图,其中,所述多链无向图中的每个节点对应至少两条边;在多链无向图中确定至少一个子图,根据每个子图与多链无向图之间的分布关系构建目标函数;根据目标函数、文本特征以及特征标签,对初始标签预测模型进行调参,直至获得满足训练条件的目标标签预测模型。实现了基于多链无向图进行模型训练时,将特征标签之间的上下文联系作为标签预测的参考条件,进而提高了对文本进行标签预测的准确率。
上述为本实施例的一种标签预测模型训练装置的示意性方案。需要说明的是,该标签预测模型训练装置的技术方案与上述的标签预测模型训练方法的技术方案属于同一构思,标签预测模型训练装置的技术方案未详细描述的细节内容,均可以参见上述标签预测模型训练方法的技术方案的描述。
与上述标签预测方法实施例相对应,本说明书还提供了标签预测装置实施例,图10示出了本说明书一实施例提供的一种标签预测装置的结构示意图。如图10所示,该装置包括:
获取模块1002,被配置为获取待预测文本;
预测模块1004,被配置为将所述待预测文本输入至目标标签预测模型,获得所述目标标签预测模型输出的与所述待预测文本对应的预测标签。
一个可选的实施例,所述预测模块1004进一步被配置为:
将所述待预测文本输入至所述目标标签预测模型;基于所述目标标签预测模型计算所述待预测文本中包含的待预测特征,与所述目标标签预测模型关联的每个特征标签对应的概率值;在每个特征标签对应的概率值中选择最大概率值,并将所述最大概率值对应的特征标签作为所述待预测特征对应的目标特征标签;由所述待预测文本中包含的每个待预测特征对应的目标特征标签组成所述待预测文本对应的预测标签。
综上所述,通过将待预测文本输入至目标标签预测模型;基于目标标签预测模型计算待预测文本中包含的待预测特征,与目标标签预测模型关联的每个特征标签对应的概率值;在每个特征标签对应的概率值中选择最大概率值,并将最大概率值对应的特征标签作为待预测特征对应的目标特征标签;由待预测文本中包含的每个待预测特征对应的目标特征标签组成待预测文本对应的预测标签。进而实现了通过机器学习模型的方法预测待预测文本对应的预测标签,提高了标签预测的准确率和标签预测的效率。
上述为本实施例的一种标签预测装置的示意性方案。需要说明的是,该标签预测装置的技术方案与上述的标签预测方法的技术方案属于同一构思,标签预测装置的技术方案未详细描述的细节内容,均可以参见上述标签预测方法的技术方案的描述。
图11示出了根据本说明书一实施例提供的一种计算设备1100的结构框图。该计算设备1100的部件包括但不限于存储器1110和处理器1120。处理器1120与存储器1110通过总线1130相连接,数据库1150用于保存数据。
计算设备1100还包括接入设备1140,接入设备1140使得计算设备1100能够经由一个或多个网络1160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备1140可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本说明书的一个实施例中,计算设备1100的上述部件以及图11中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图11所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备1100可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备1100还可以是移动式或静止式的服务器。
其中,处理器1120用于执行如下计算机可执行指令,该计算机可执行指令被处理器执行时实现上述方法的步骤。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述方法的技术方案的描述。
本说明书一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现上述方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述方法的技术方案的描述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本说明书并不受所描述的动作顺序的限制,因为依据本说明书,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本说明书所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本说明书的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims (17)

1.一种标签预测模型训练方法,其特征在于,包括:
确定文本语料包含的文本特征,以及所述文本特征对应的特征标签;
根据所述文本特征和所述特征标签生成特征标签节点,并根据所述特征标签节点构建链状结构的多链无向图,其中,所述多链无向图中的每个节点对应至少两条边;
在所述多链无向图中确定至少一个子图,根据每个子图与所述多链无向图之间的分布关系构建目标函数;
根据所述目标函数、所述文本特征以及所述特征标签,对初始标签预测模型进行调参,直至获得满足训练条件的目标标签预测模型。
2.根据权利要求1所述的方法,其特征在于,在所述特征标签为至少一个的情况下,所述根据所述文本特征和所述特征标签生成特征标签节点,并根据所述特征标签节点构建链状结构的多链无向图,包括:
将所述文本特征和每个特征标签分别进行组合,获得至少一个特征标签对;
根据所述至少一个特征标签对生成特征标签集合,并将所述特征标签集合作为特征标签节点;
将所述文本特征之间的文本关联关系作为节点关联边,其中,所述文本关联关系为所述文本语料中,具有词单元衔接关系的文本特征之间的关系;
根据所述特征标签节点和所述节点关联边构建多链无向图。
3.根据权利要求1所述的方法,其特征在于,所述根据每个子图与所述多链无向图之间的分布关系构建目标函数,包括:
构建每个子图对应的子图函数;
根据每个子图与所述多链无向图之间的分布关系,以及每个子图对应的子图函数构建联合子图函数;
根据所述多链无向图对应的图结构,对所述多链无向图中特征标签节点包含的特征标签对进行全排列处理,并根据处理结果确定全排列函数;
根据所述联合子图函数和所述全排列函数构建目标函数。
4.根据权利要求3所述的方法,其特征在于,每个子图对应的子图函数通过下述方法构建:
确定子图中每个子图特征标签节点对应的子图文本特征;
根据每个子图特征标签节点对应的子图文本特征之间的特征关联关系,确定子图特征标签节点之间的节点关联关系;
基于所述节点关联关系构建所述子图对应的子图函数。
5.根据权利要求3所述的方法,所述子图函数的表达式为公式(1):
Ψ(t)=e∑kωk*fk(Yt-1…Yt-1,Yt,X,t) (1)
其中,ψ(t)表示子图相对于多链无向图的出现概率;fk表示特征函数,ωk表示k个未知参数,代表k个特征函数各自的权重;X表示文本特征集合;Y表示特征标签节点;t表示多链无向图中第t个特征标签节点,n表示多链无向图的链数量,Yt表示子图中的目标特征标签节点,Yt-n表示与目标特征标签节点具有间接关联关系的第n个特征标签节点。
6.根据权利要求5所述的方法,所述全排列函数的表达式为公式(2),所述目标函数的表达式为公式(3):
Figure FDA0003843591950000021
Figure FDA0003843591950000022
其中,Z(X)表示特征标签节点包含的特征标签对按照全排列策略连接后得到的所有无向图的目标函数值之和;Pω(Y|X)表示全部特征标签节点中特定的特征标签对构成的多链无向图,相对于对全部特征标签节点包含的特征标签对进行全排列获得的无向图出现的概率。
7.根据权利要求1所述的方法,其特征在于,所述多链无向图中的任意一个子图通过下述方法确定:
确定所述多链无向图中包含的链数量,以及在所述多链无向图中确定初始特征标签节点;
在所述多链无向图中确定与所述初始特征标签节点具有直接联通关系的第一特征标签节点,以及基于所述链数量在所述多链无向图中,确定与所述初始特征标签节点具有间接联通关系的第二特征标签节点;
在所述多链无向图中确定包含文本特征节点、所述第一特征标签节点和所述第二特征标签节点的子图。
8.根据权利要求1所述的方法,其特征在于,所述根据所述目标函数、所述文本特征以及所述特征标签,对初始标签预测模型进行调参,直至获得满足训练条件的目标标签预测模型,包括:
根据所述文本特征和所述特征标签以及当前计算周期对应的第i模型参数,计算参数确定函数对应的第Li函数值,其中,i为正整数;
根据第Li函数值和第Li-1函数值计算差值;
在所述差值大于预设差值阈值的情况下,i+1,并执行根据所述文本特征和所述特征标签以及当前计算周期对应的第i模型参数,计算参数确定函数对应的第Li函数值的步骤;
在所述差值小于等于所述预设差值阈值的情况下,将所述第i模型参数作为目标模型参数,并基于所述目标模型参数对所述初始标签预测模型的模型参数进行更新,根据更新结果获得所述目标标签预测模型。
9.根据权利要求8所述的方法,其特征在于,当前计算周期对应的第i模型参数的确定,包括:
确定上一计算周期对应的第i-1模型参数,以及所述上一计算周期对应的梯度值;
根据所述第i-1模型参数和所述上一计算周期对应的梯度值,计算当前计算周期对应的第i模型参数。
10.根据权利要求8所述的方法,所述参数确定函数通过下述公式(4)确定:
L(ω)=logΠX,YPω(Y|X)P(X,Y)=∑X,YP^(X,Y)logPω(Y|X) (4)
其中,Pω(Y|X)表示全部特征标签节点中特定的特征标签对构成的多链无向图相对于对全部特征标签节点进行全排列获得的无向图出现的概率;P^(x,y)表示文本特征X和特征标签Y的联合概率;L(ω)为参数确定函数对应的函数值;ω表示未知参数;X表示文本特征集合;Y表示特征标签节点。
11.根据权利要求1所述的方法,其特征在于,所述确定文本语料包含的文本特征,以及所述文本特征对应的特征标签,包括:
获取文本语料;
对所述文本语料进行分词处理获得多个词单元,在所述多个词单元中选择目标词单元作为所述文本语料对应的文本特征;
将所述目标词单元对应的词单元标签作为所述文本特征对应的特征标签。
12.一种标签预测方法,其特征在于,包括:
获取待预测文本;
将所述待预测文本输入至如权利要求1-11任一项所述方法中的目标标签预测模型,获得所述目标标签预测模型输出的与所述待预测文本对应的预测标签。
13.根据权利要求12所述的方法,所述将所述待预测文本输入至目标标签预测模型,获得所述目标标签预测模型输出的与所述待预测文本对应的预测标签,包括:
将所述待预测文本输入至所述目标标签预测模型;
基于所述目标标签预测模型计算所述待预测文本中包含的待预测特征,与所述目标标签预测模型关联的每个特征标签对应的概率值;
在每个特征标签对应的概率值中选择最大概率值,并将所述最大概率值对应的特征标签作为所述待预测特征对应的目标特征标签;
由所述待预测文本中包含的每个待预测特征对应的目标特征标签组成所述待预测文本对应的预测标签。
14.一种标签预测模型训练装置,其特征在于,包括:
确定模块,被配置为确定文本语料包含的文本特征,以及所述文本特征对应的特征标签;
构建模块,被配置为根据所述文本特征和所述特征标签生成特征标签节点,并根据所述特征标签节点构建链状结构的多链无向图,其中,所述多链无向图中的每个节点对应至少两条边;
处理模块,被配置为在所述多链无向图中确定至少一个子图,根据每个子图与所述多链无向图之间的分布关系构建目标函数;
训练模块,被配置为根据所述目标函数、所述文本特征以及所述特征标签,对初始标签预测模型进行调参,直至获得满足训练条件的目标标签预测模型。
15.一种标签预测装置,其特征在于,包括:
获取模块,被配置为获取待预测文本;
预测模块,被配置为将所述待预测文本输入至如权利要求1-11任一项所述方法中的目标标签预测模型,获得所述目标标签预测模型输出的与所述待预测文本对应的预测标签。
16.一种计算设备,其特征在于,包括存储器和处理器;所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,以实现权利要求1至13任意一项方法的步骤。
17.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1至13任意一项方法的步骤。
CN202211109955.1A 2022-09-13 2022-09-13 标签预测模型训练方法及装置 Pending CN115470349A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211109955.1A CN115470349A (zh) 2022-09-13 2022-09-13 标签预测模型训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211109955.1A CN115470349A (zh) 2022-09-13 2022-09-13 标签预测模型训练方法及装置

Publications (1)

Publication Number Publication Date
CN115470349A true CN115470349A (zh) 2022-12-13

Family

ID=84334008

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211109955.1A Pending CN115470349A (zh) 2022-09-13 2022-09-13 标签预测模型训练方法及装置

Country Status (1)

Country Link
CN (1) CN115470349A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116028605A (zh) * 2023-01-03 2023-04-28 北京百度网讯科技有限公司 逻辑表达式生成方法、模型训练方法、装置及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116028605A (zh) * 2023-01-03 2023-04-28 北京百度网讯科技有限公司 逻辑表达式生成方法、模型训练方法、装置及介质
CN116028605B (zh) * 2023-01-03 2023-11-14 北京百度网讯科技有限公司 逻辑表达式生成方法、模型训练方法、装置及介质

Similar Documents

Publication Publication Date Title
Shi et al. Transductive semi-supervised deep learning using min-max features
Gast et al. Lightweight probabilistic deep networks
CN111563164B (zh) 一种基于图神经网络的特定目标情感分类方法
Sharma Deep challenges associated with deep learning
Altun et al. Gaussian process classification for segmenting and annotating sequences
EP4177792A1 (en) Ai model updating method and apparatus, computing device and storage medium
CN109766557B (zh) 一种情感分析方法、装置、存储介质及终端设备
CN114830133A (zh) 利用多个正例的监督对比学习
CN110598869B (zh) 基于序列模型的分类方法、装置、电子设备
US11568237B2 (en) Electronic apparatus for compressing recurrent neural network and method thereof
US20220253722A1 (en) Recommendation system with adaptive thresholds for neighborhood selection
US11681922B2 (en) Performing inference and training using sparse neural network
CN110796497A (zh) 检测异常操作行为的方法以及装置
US20230259739A1 (en) Image detection method and apparatus, computer-readable storage medium, and computer device
US20210287067A1 (en) Edge message passing neural network
US20220121939A1 (en) Systems and methods for high-order modeling of predictive hypotheses
CN110737730B (zh) 基于无监督学习的用户分类方法、装置、设备及存储介质
CN115618098B (zh) 基于知识增强与空洞卷积的冷链物流推荐方法及装置
CN114298851A (zh) 基于图表征学习的网络用户社交行为分析方法、装置及存储介质
CN111783873A (zh) 基于增量朴素贝叶斯模型的用户画像方法及装置
CN114491263A (zh) 推荐模型训练方法及装置、推荐方法及装置
CN115577283A (zh) 一种实体分类方法、装置、电子设备及存储介质
CN115470349A (zh) 标签预测模型训练方法及装置
CN113722439B (zh) 基于对抗性类别对齐网络的跨领域情感分类方法及系统
US20220253688A1 (en) Recommendation system with adaptive weighted baysian personalized ranking loss

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination