CN112015898A - 基于标签树的模型训练、文本标签确定方法及装置 - Google Patents
基于标签树的模型训练、文本标签确定方法及装置 Download PDFInfo
- Publication number
- CN112015898A CN112015898A CN202010884803.3A CN202010884803A CN112015898A CN 112015898 A CN112015898 A CN 112015898A CN 202010884803 A CN202010884803 A CN 202010884803A CN 112015898 A CN112015898 A CN 112015898A
- Authority
- CN
- China
- Prior art keywords
- label
- text
- nodes
- real
- tree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 139
- 238000000034 method Methods 0.000 title claims abstract description 70
- 238000013145 classification model Methods 0.000 claims abstract description 149
- 230000011218 segmentation Effects 0.000 claims abstract description 34
- 238000012216 screening Methods 0.000 claims description 6
- 230000015654 memory Effects 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 239000013598 vector Substances 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000010432 diamond Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
Abstract
本说明书实施例提供一种基于标签树的模型训练、文本标签确定方法及装置。在模型训练中,对标签集中的实标签进行分层聚类,基于聚类结果生成第一标签树,其中的叶节点对应于实标签,干节点被对应于定义的虚标签;获取基于训练集和虚标签构建的异构关系网络,其中包括文本节点、标签节点和分词节点以及它们之间的连接边;从异构关系网络中查找符合预设格式的多组元路径;将多组元路径输入预先训练的图嵌入模型,得到多个实标签和多个虚标签分别对应的更新特征;将更新特征对应地确定为第一标签树中若干个节点的特征,得到第二标签树;基于训练集对第二标签树对应的文本分类模型进行训练。
Description
技术领域
本说明书一个或多个实施例涉及自然语言处理技术领域,尤其涉及基于标签树的模型训练、文本标签确定方法及装置。
背景技术
文本分类是按照一定的分类标准,确定文本的归属分类的过程。文本分类在自然语言处理和文本挖掘等应用领域具有非常重要的意义。多标签文本分类,是确定一段文本在多个分类标签中属于哪些分类的过程,其可以应用于新闻报道分类和用户咨询业务分类等常见中。例如,分类标签包括5个,运动、旅游、读书、工作、美食和娱乐,针对某个新闻报道,可以从这5个分类标签中确定该新闻报道属于哪些分类,例如属于娱乐、美食和旅游这3个标签,则可以为该新闻报道打上这3个标签,以便于归档和搜索等处理。
随着对神经网络研究的不断深入,多标签文本分类的应用范围也越来越广泛。在某些应用领域中,分类标签的数量可能会非常多,达到百、万、甚至百万量级,这称为大规模多标签分类。大规模多标签分类多应用在新闻文档标签生成、内容推荐等场景。如何能在大规模多标签分类场景下,更快速、更准确地确定一段文本对应的多个标签,是目前研究的一个热点。
因此,希望能有改进的方案,可以更加快速、更加准确地确定文本在大规模多标签分类中的文本标签。
发明内容
本说明书一个或多个实施例描述了基于标签树的模型训练、文本标签确定方法及装置,以更加快速、更加准确地确定文本在大规模多标签分类中的文本标签。具体的技术方案如下。
第一方面,实施例提供了一种基于标签树的文本分类模型训练方法,通过计算机执行,包括:
获取训练集,其中包括多个文本和对应标注的实标签,文本包括若干个分词,所述训练集中多个种类的实标签构成标签集;
对所述标签集中的实标签进行分层聚类,基于聚类结果生成第一标签树,其中的叶节点对应于实标签,干节点被对应于定义的虚标签;
获取基于所述训练集和虚标签构建的异构关系网络,其中至少包括:用于表示文本的文本节点,用于表示标签的标签节点,用于表示分词的分词节点,且具备关联关系的不同类型节点之间建立有连接边,所述标签包括实标签和虚标签;
从所述异构关系网络中查找符合预设格式的多组元路径,所述预设格式包括:元路径中包括的标签节点与标签节点之间通过不同类型的节点连接;
将多组元路径输入预先训练的图嵌入模型,通过所述图嵌入模型确定多个实标签和多个虚标签分别对应的更新特征;
将所述更新特征对应地确定为所述第一标签树中若干个节点的特征,得到第二标签树;基于所述训练集对所述第二标签树对应的文本分类模型进行训练。
在一种实施方式中,所述对所述标签集中的实标签进行分层聚类,基于聚类结果生成第一标签树的步骤,包括:
针对所述标签集中的任意一个实标签,基于所述训练集中该实标签对应的多个文本,确定该实标签的初始特征;
基于多个实标签的初始特征,对多个实标签进行分层聚类,并基于聚类结果生成第一标签树。
在一种实施方式中,构建异构关系网络包括:
针对任意一个第一虚标签,根据所述第一标签树确定所述第一虚标签对应的第一实标签,基于所述第一虚标签和所述第一实标签的对应关系建立连接边。
在一种实施方式中,所述基于所述第一虚标签和所述第一实标签的对应关系建立连接边的步骤,包括:
将所述第一虚标签对应的标签节点与所述第一实标签对应的标签节点建立连接边。
在一种实施方式中,所述基于所述第一虚标签和所述第一实标签的对应关系建立连接边的步骤,包括:
将所述第一虚标签对应的标签节点与第一文本节点建立连接边,所述第一文本节点是所述第一实标签对应的标签节点连接的文本节点。
在一种实施方式中,所述预设格式具体包括:元路径中的节点按照标签节点、文本节点、分词节点、文本节点、标签节点的顺序循环排列。
在一种实施方式中,所述对所述标签集中的实标签进行分层聚类,基于聚类结果生成第一标签树的步骤,包括:
基于预设的标签树结构参数,对所述标签集中的实标签进行分层聚类,基于聚类结果生成第一标签树;所述标签树结构参数包括干节点层数和干节点连接的下一层节点的最大数目。
在一种实施方式中,所述通过所述图嵌入模型确定多个实标签和多个虚标签分别对应的更新特征的步骤,包括:
通过所述图嵌入模型,最大化构建的条件概率,迭代地确定多个实标签和多个虚标签分别对应的更新特征;所述条件概率至少基于多组元路径构建。
在一种实施方式中,所述第二标签树中每一层干节点对应一个文本分类模型;所述基于所述训练集对所述第二标签树对应的文本分类模型进行训练的步骤,包括:
基于所述训练集分别对所述第二标签树中每一层的文本分类模型进行训练。
在一种实施方式中,所述基于所述训练集分别对所述第二标签树中每一层的文本分类模型进行训练的步骤,包括:
按照以下方式训练所述第二标签树中第n层文本分类模型:
获取所述训练集中任意的第一文本和对应标注的第一实标签,确定所述第一文本的第一文本特征;
确定所述第二标签树的第n层干节点的所有下一级节点,作为第一待选节点;
将所述第一文本特征和多个第一待选节点的更新特征,输入所述第n层文本分类模型,得到所述第一文本分别属于多个第一待选节点所对应标签的样本概率;
基于所述样本概率与所述第一实标签之间的差异,确定预测损失;
向减小所述预测损失的方向,更新所述第n层文本分类模型。
在一种实施方式中,所述图嵌入模型包括metapath2vec模型或HIN2Vec模型。
在一种实施方式中,标签树包括概率标签树PLT。
第二方面,实施例提供了一种基于标签树的文本标签确定方法,通过计算机执行,包括:
获取第二标签树和对应的文本分类模型,其采用第一方面所述的方法得到;
获取待确定文本标签的第二文本,确定所述第二文本的第二文本特征;
基于所述第二文本特征和所述第二标签树中节点的更新特征,通过所述文本分类模型确定所述第二文本的文本标签。
在一种实施方式中,所述第二标签树中每一层干节点对应一个文本分类模型;所述通过所述文本分类模型确定所述第二文本的文本标签的步骤,包括:
将第一层文本分类模型作为当前分类模型,确定所述第二标签树的第一层干节点的所有下一级节点,作为第二待选节点;
将所述第二文本特征和各个第二待选节点的更新特征输入所述当前分类模型,得到所述第二文本分别属于各个第二待选节点所对应标签的预测概率;
基于所述预测概率以及预测概率大于预设概率阈值的筛选条件,从各个第二待选节点中确定目标节点;
当所述目标节点所在层不是最后一层时,将所述目标节点的所有下一级节点更新为第二待选节点,将所述目标节点所在层的文本分类模型更新为当前分类模型,返回执行所述将所述第二文本特征和各个第二待选节点的更新特征输入所述当前分类模型的步骤;
当所述目标节点所在层是最后一层时,将所述目标节点对应的实标签确定为所述第二文本的文本标签。
第三方面,实施例提供了一种基于标签树的文本分类模型训练装置,部署在计算机中,包括:
训练集获取模块,配置为,获取训练集,其中包括多个文本和对应标注的实标签,文本包括若干个分词,所述训练集中多个种类的实标签构成标签集;
标签树生成模块,配置为,对所述标签集中的实标签进行分层聚类,基于聚类结果生成第一标签树,其中的叶节点对应于实标签,干节点被对应于定义的虚标签;
关系网获取模块,配置为,获取基于所述训练集和虚标签构建的异构关系网络,其中至少包括:用于表示文本的文本节点,用于表示标签的标签节点,用于表示分词的分词节点,且具备关联关系的不同类型节点之间建立有连接边,所述标签包括实标签和虚标签;
元路径查找模块,配置为,从所述异构关系网络中查找符合预设格式的多组元路径,所述预设格式包括:元路径中包括的标签节点与标签节点之间通过不同类型的节点连接;
特征嵌入模块,配置为,将多组元路径输入预先训练的图嵌入模型,通过所述图嵌入模型确定多个实标签和多个虚标签分别对应的更新特征;
模型训练模块,配置为,将所述更新特征对应地确定为所述第一标签树中若干个节点的特征,得到第二标签树;基于所述训练集对所述第二标签树对应的文本分类模型进行训练。
在一种实施方式中,所述标签树生成模块,具体配置为:
针对所述标签集中的任意一个实标签,基于所述训练集中该实标签对应的多个文本,确定该实标签的初始特征;
基于多个实标签的初始特征,对多个实标签进行分层聚类,并基于聚类结果生成第一标签树。
在一种实施方式中,该装置还包括关系网构建模块,配置为构建异构关系网络,包括:
针对任意一个第一虚标签,根据所述第一标签树确定所述第一虚标签对应的第一实标签,基于所述第一虚标签和所述第一实标签的对应关系建立连接边。
在一种实施方式中,所述关系网构建模块,基于所述第一虚标签和所述第一实标签的对应关系建立连接边时,包括:
将所述第一虚标签对应的标签节点与所述第一实标签对应的标签节点建立连接边。
在一种实施方式中,所述关系网构建模块,基于所述第一虚标签和所述第一实标签的对应关系建立连接边时,包括:
将所述第一虚标签对应的标签节点与第一文本节点建立连接边,所述第一文本节点是所述第一实标签对应的标签节点连接的文本节点。
在一种实施方式中,所述预设格式具体包括:元路径中的节点按照标签节点、文本节点、分词节点、文本节点、标签节点的顺序循环排列。
在一种实施方式中,所述标签树生成模块,具体配置为:
基于预设的标签树结构参数,对所述标签集中的实标签进行分层聚类,基于聚类结果生成第一标签树;所述标签树结构参数包括干节点层数和干节点连接的下一层节点的最大数目。
在一种实施方式中,所述特征嵌入模块,通过所述图嵌入模型确定多个实标签和多个虚标签分别对应的更新特征时,包括:
通过所述图嵌入模型,最大化构建的条件概率,迭代地确定多个实标签和多个虚标签分别对应的更新特征;所述条件概率至少基于多组元路径构建。
在一种实施方式中,所述第二标签树中每一层干节点对应一个文本分类模型;所述模型训练模块,基于所述训练集对所述第二标签树对应的文本分类模型进行训练时,包括:
基于所述训练集分别对所述第二标签树中每一层的文本分类模型进行训练。
在一种实施方式中,所述模型训练模块,基于所述训练集分别对所述第二标签树中每一层的文本分类模型进行训练时,包括:
按照以下方式训练所述第二标签树中第n层文本分类模型:
获取所述训练集中任意的第一文本和对应标注的第一实标签,确定所述第一文本的第一文本特征;
确定所述第二标签树的第n层干节点的所有下一级节点,作为第一待选节点;
将所述第一文本特征和多个第一待选节点的更新特征,输入所述第n层文本分类模型,得到所述第一文本分别属于多个第一待选节点所对应标签的样本概率;
基于所述样本概率与所述第一实标签之间的差异,确定预测损失;
向减小所述预测损失的方向,更新所述第n层文本分类模型。
第四方面,实施例提供了一种基于标签树的文本标签确定装置,部署在计算机中,包括:
模型获取模块,配置为,获取第二标签树和对应的文本分类模型,其采用第一方面所述的方法得到;
文本获取模块,配置为,获取待确定文本标签的第二文本,确定所述第二文本的第二文本特征;
标签确定模块,配置为,基于所述第二文本特征和所述第二标签树中节点的更新特征,通过所述文本分类模型确定所述第二文本的文本标签。
在一种实施方式中,所述第二标签树中每一层干节点对应一个文本分类模型;所述标签确定模块,具体配置为:
将第一层文本分类模型作为当前分类模型,确定所述第二标签树的第一层干节点的所有下一级节点,作为第二待选节点;
将所述第二文本特征和各个第二待选节点的更新特征输入所述当前分类模型,得到所述第二文本分别属于各个第二待选节点所对应标签的预测概率;
基于所述预测概率以及预测概率大于预设概率阈值的筛选条件,从各个第二待选节点中确定目标节点;
当所述目标节点所在层不是最后一层时,将所述目标节点的所有下一级节点更新为第二待选节点,将所述目标节点所在层的文本分类模型更新为当前分类模型,返回执行将所述第二文本特征和各个第二待选节点的更新特征输入所述当前分类模型;
当所述目标节点所在层是最后一层时,将所述目标节点对应的实标签确定为所述第二文本的文本标签。
第五方面,实施例提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面和第二方面中任一项所述的方法。
第六方面,实施例提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面和第二方面中任一项所述的方法。
根据本说明书实施例提供的方法和装置,可以将生成的第一标签树中的实标签和虚标签均构建在异构关系网络中,并从中查找标签节点与标签节点之间通过不同类型的节点连接的元路径,基于多个元路径确定实标签和虚标签的更新特征。由于元路径中标签节点通过不同类型的节点连接,基于该元路径提取的标签特征能很好地体现出标签之间的相关联系。这样,在基于第二标签树训练文本分类模型时,能够训练得到更加有效的模型,基于第二标签树和训练的文本分类模型确定文本标签时,标签特征中考虑了标签之间的相关性,能够使得确定的文本标签更准确、更快速。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书披露的一个实施例的实施场景示意图;
图2为实施例提供的一种基于标签树的文本分类模型训练方法的流程示意图;
图3为一种PLT树的结构示意图;
图4为一种异构关系网络的结构示意图;
图5为在图4的基础上增加虚标签对应的标签节点的示意图;
图6为标签、文本、分词、文本、标签之间的一种连接关系示意图;
图7为实施例提供的一种基于标签树的文本标签确定方法的流程示意图;
图8为实施例提供的一种基于标签树的文本分类模型训练装置的示意性框图;
图9为实施例提供的一种基于标签树的文本标签确定装置的示意性框图。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。
图1为本说明书披露的一个实施例的实施场景示意图。其为一种标签树的示意性结构,其他节点1至节点10为干节点,干节点被分成3层,每一层干节点对应多个下一级节点,最后一层(第3层)干节点中的每个干节点对应多个叶节点,各个叶节点对应于各个标签。在本说明书实施例中,标签(Label)是针对文本的一种标注信息,用于标识文本归属的分类。标签可以采用各种形式表示,例如可以采用字母表示,也可以采用数字表示等等。例如,针对新闻、娱乐、体育、教育等分类,其标签可以分别采用1、2、3、4来表示。
该标签树可以通过对大量的标签进行分层聚类得到,因此标签树可以用于表征标签之间的层级聚类结果。该标签树还可以对应于文本分类模型,对文本分类模型进行训练之后,可以对待分类文本进行分类,确定其文本标签。具体的,可以将待分类文本的特征和某个干节点的下一级节点特征输入文本分类模型,通过文本分类模型确定待分类文本属于该下一级节点中的哪个或哪些节点,从而沿着标签树从上到下逐渐缩小范围,将最终确定的叶节点对应的标签确定为文本标签。
例如,首先将待分类文本的特征和标签树中层2中的节点2、节点3和节点4的特征输入文本分类模型,得到待分类文本属于节点2和节点4的分类结果;之后,将待分类文本和标签树中层3中的节点5、节点6、节点9和节点10的特征输入文本分类模型,在节点5、节点6、节点9和节点10分别对应的叶节点中确定待分类文本的文本标签。该例子中无需将节点7和节点8的特征输入文本分类模型,而仅需要沿着上一层的分类结果指示的方向向标签树的下方进行分类。
图1所示的标签树结构仅仅是一种比较简单的例子,并不构成对本说明书实施例的具体限定。在实际应用中,叶节点的数量可以是百、万乃至百万级别,干节点的层数也更能更多,干节点的数量也可能更多。在这种大规模多标签分类场景下,采用标签树和对应的文本分类模型,能够快速地确定待分类文本的文本标签,具有较高的处理效率。
在上述标签树中,每个节点对应存在节点特征。叶节点的节点特征即为对应的标签特征,标签特征可以通过训练集中标签对应的文本特征来确定,干节点的节点特征可以在对标签进行聚类过程中基于对应的标签特征确定。文本分类模型的训练过程也基于节点特征进行。因此,标签特征是否能够准确、有效地表征标签,关系到标签树的生成以及文本分类模型的训练。
为了能够生成更合理的标签树,以及训练得到更有效、更准确的文本分类模型,本说明书实施例提供了一种基于标签树的文本分类模型训练方法。在该方法中,训练集中多个种类的实标签构成标签集,对标签集中的实标签进行分层聚类,基于聚类结果生成第一标签树,其中的叶节点对应于实标签,干节点被对应于定义的虚标签,基于训练集和虚标签构建异构关系网络,并从中查找多组元路径,多组元路径中标签节点和标签节点之间通过不同类型的节点连接,将多组元路径输入图嵌入模型,得到多个实标签和多个虚标签分别对应的更新特征,将多个更新特征对应地确定为第一标签树中若干个节点的特征,得到第二标签树,基于训练集对第二标签树对应的文本分类模型进行训练。
由于元路径中标签节点通过不同类型的节点连接,基于该元路径提取的标签特征能很好地体现出标签之间的相关联系。这样,在基于第二标签树训练文本分类模型时,能够训练得到更加有效的模型,基于第二标签树和训练的文本分类模型确定文本标签时,标签特征中考虑了标签之间的相关性,能够使得确定的文本标签更准确、更快速。下面结合具体实施例进行说明。
图2为实施例提供的一种基于标签树的文本分类模型训练方法的流程示意图。该方法可以通过计算机执行,包括以下步骤S210~S260。
步骤S210,获取训练集,该训练集可以用于训练文本分类模型,也可以用于构建异构关系网络。训练集中包括多个文本和对应标注的实标签,文本包括若干个分词,训练集中多个种类的实标签构成标签集。
训练集中各个文本对应标注的标签称为实标签,表示具有实际含义的标签,是针对作为样本的各个文本标注的标签。训练集中包含多个种类的实标签,可以将训练集中所有种类的实标签构成标签集,也可以将训练集中的部分实标签构成标签集。例如,训练集中文本1对应的实标签是标签1、标签2和标签3,文本2对应的实标签是标签1、标签3和标签4,那么该训练集中包含标签1、标签2、标签3和标签4这些种类的实标签。
针对训练集中的文本,可以使用分词工具对文本进行分词,得到文本对应的若干个分词,将得到的若干个分词对应地存储至训练集中。在需要时,直接从训练集中获取文本以及文本对应的若干个分词。
步骤S220,对标签集中的实标签进行分层聚类,基于聚类结果生成第一标签树。其中,第一标签树的叶节点对应于实标签,干节点被对应于定义的虚标签。一个叶节点可以对应一个实标签,一个干节点可以对应一个虚标签。在生成干节点之后可以定义其对应的虚标签。由于第一标签树中的根节点,例如图1中的节点1,其特征可以不输入文本分类模型,因此可以不为根节点定义虚标签。此处第一标签树中的“第一”,以及下文中相应的“第一”,或者其他类似的第一、第二,仅仅是为了区分和描述方便,而不具有任何限定意义。
该虚标签与上述实标签相对立,虚标签并不具有实际含义,而是针对多个实标签的一种虚拟标识。参见图1所示的标签树,节点5对应的虚标签,是节点5的多个叶节点的实标签的虚拟标识;节点2对应的虚标签,是节点5和节点6的多个叶节点的实标签的虚拟标识。
在第一标签树中,节点可以存在对应的节点特征。在一种实施方式中,对标签集中的实标签进行分层聚类,基于聚类结果生成第一标签树时,具体可以针对标签集中的任意一个实标签,基于训练集中该实标签对应的多个文本,确定该实标签的初始特征,基于多个实标签的初始特征,对多个实标签进行分层聚类,并基于聚类结果生成第一标签树。实标签的初始特征,可以作为实标签对应的叶节点的初始的节点特征。
例如,在确定某一个实标签(例如第一实标签)的初始特征时,可以从训练集中确定该第一实标签对应的多个文本,并确定该多个文本分别对应的词袋特征,基于多个文本的词袋特征的和值确定该第一实标签的初始特征。文本的词袋特征(Bag of Words,BOW)可以采用以下方式确定:针对预先设定的包含N个分词(w1,w2,…,wN)的词典,确定该词典中每个分词在文本中的出现频率(f1,f2,…,fN),将该出现频率构成的特征向量作为该文本的词袋特征。N为整数。
在基于多个文本的词袋特征的和值确定该第一实标签的初始特征时,可以直接将多个文本的词袋特征的和值确定为第一实标签的初始特征,也可以将该和值进行归一化,得到第一实标签的初始特征。
在基于多个实标签的初始特征,对多个实标签进行分层聚类时,可以采用K均值(K-Means)聚类或均值漂移聚类等算法进行。
在对多个实标签进行分层聚类时,还可以基于预设的标签树结构参数,对标签集中的实标签进行分层聚类,基于聚类结果生成第一标签树。其中,标签树结构参数包括干节点层数和干节点的下一级节点的最大数目。例如,可以设定第一标签树包含4层,干节点连接的下一层节点的最大数目是10等等。
在一种实施方式中,第一标签树可以采用概率标签树(Probabilistic LabelsTree,PLT)来实现。在PLT树中,可以预先设置标签树的深度H和宽度D。H为标签树中除了叶节点和根节点之外的深度,D是每个干节点的下一级节点的最大数目,其中D可以根据2k来计算,k取自然数,H和D都是整数。
图3为一种PLT树的结构示意图,其中,H=2,D=4,干节点采用数字序号表示,叶节点采用字母表示。在通过聚类生成这种PLT树时,首先根节点包含所有实标签对应的叶节点,然后对所有实标签节点进行聚类,分成数量相同的两类,再不断地对实标签节点进行节点数为2的聚类,直到每个节点只包含一个类别。
在聚类过程中,可以根据聚类得到的实标签的标签特征计算对应的虚标签节点的节点特征。例如,将100个实标签聚类成2类,每一类实标签对应的虚标签节点的节点特征,可以基于这类实标签的各个标签特征计算得到。
在本实施例中,第一标签树的结构可以根据需要来进行设置,并不限于采用上述标签树的结构。在生成第一标签树之后,可以得到多个实标签与多个虚标签之间的对应关系,实标签和虚标签之间通过节点的上下级关系进行对应。例如,在图3中,节点4的虚标签对应于叶节点a、b、c的实标签,节点5的虚标签对应于叶节点d、e、f的实标签,节点2的虚标签对应于叶节点a、b、c、d、e、f、g、h、i、j、k和l的实标签,节点1的虚标签对应于所有实标签,也可以不为节点1定义虚标签。
步骤S230,获取基于训练集和虚标签构建的异构关系网络。异构关系网络中至少包括:用于表示文本的文本节点,用于表示标签的标签节点,用于表示分词的分词节点,且具备关联关系的不同类型节点之间建立有连接边,标签包括实标签和虚标签。
本步骤中,获取异构关系网络,可以是根据训练集和多个虚标签直接构建异构关系网络,也可以预先存储根据训练集和多个虚标签构建的异构关系网络,获取预先存储的异构关系网络。
异构关系网络还可以称为图网络,是在拓扑空间内按图结构组织以进行关系推理的函数集合。在本实施例的异构关系网络中,节点的类型至少包括三种,即文本节点、标签节点和分词节点。下面首先说明针对训练集中的文本、分词和标签来构建异构关系网络的过程,具体可以在文本包含某个分词时,将文本节点与对应的分词节点之间建立连接边;当文本具有某个实标签时,将文本节点与该实标签对应的标签节点之间建立连接边。
图4为一种异构关系网络的结构示意图。其中,文本节点采用方框表示,分词节点采用圆形表示,标签节点采用菱形表示。文本节点2分别与分词节点1、3、4连接,文本节点2还与标签节点5和8连接,文本节点6分别与分词节点3、7、11连接,文本节点6还与标签节点5、9和10连接。上述标签节点对应实标签,文本节点与这样的标签节点之间是根据文本与实标签之间的对应关系建立连接边的。图4仅仅是一个例子,并不具有限定作用,在实际应用中,异构关系网络中的节点数量可能非常多。
在构建异构关系网络中的虚标签对应的标签节点时,针对任意一个虚标签,例如第一虚标签,根据第一标签树确定第一虚标签对应的第一实标签,基于第一虚标签和第一实标签的对应关系建立连接边。第一虚标签对应的第一实标签可以为多个。例如,针对图3所示的例子,可以确定节点2的虚标签对应的实标签包括实标签a至l共12个实标签,节点4的虚标签对应的实标签包括实标签a、b和c。
在基于第一虚标签和第一实标签的对应关系建立连接边时,可以有多种实施方式。例如,可以将第一虚标签对应的标签节点与第一实标签对应的标签节点建立连接边,也可以将第一虚标签对应的标签节点与第一文本节点建立连接边,还可以两种连接方式同时进行。其中,第一文本节点是第一实标签对应的标签节点连接的文本节点。
例如,参见图5,图5为在图4的基础上增加虚标签对应的标签节点的示意图。第一实标签包括图4中标签节点9对应的实标签,可以将第一虚标签对应的标签节点12与标签节点9建立连接边,也可以将标签节点12与标签节点9连接的文本节点6建立连接边。
当第一实标签包括多个时,第一虚标签对应的标签节点可以按照上述方式与每一个第一实标签对应的标签节点建立连接边,或者与每一个第一文本节点建立连接边。
在构建异构关系网络时,第一标签树中根节点对应的虚标签可以参与或者不参与异构关系网络的构建。
在异构关系网络中,各个节点可以存在对应的节点特征。文本节点的节点特征可以是采用其他方式确定的向量特征,例如可以是通过长短期记忆网络(Long Short-TermMemory,LSTM)模型或循环神经网络(Recurrent Neural Network,RNN)确定的文本特征;分词节点的节点特征可以是分词的词向量;实标签节点的节点特征,可以是实标签的上述初始特征,虚标签节点的节点特征,可以是聚类过程中确定的特征。其中,实标签节点和虚标签节点的节点特征,属于待更新特征,是需要重新确定更准确特征的目标。
步骤S240,从异构关系网络中查找符合预设格式的多组元路径。预设格式包括:元路径中包括的标签节点与标签节点之间通过不同类型的节点连接。元路径中的至少两个标签节点可以相同,也可以不同。元路径中的两个标签节点之间可以包括文本节点和/或分词节点。元路径的起始节点的类型可以预先设定,也可以不限定;元路径的结尾节点的类型可以预先设定,也可以不限定。元路径至少包含两个标签节点,元路径中两个标签节点之间包括标签节点之外的其他类型节点。
例如,参见图4所示异构关系网络,从中查找的元路径可以包括,8-2-1-6-9,4-2-5—6-10,8-2-5等三组。
按照上述预设格式查找的元路径,能够将标签节点和标签节点连接起来,找到标签节点之间的关联节点。
在另一种实施方式中,预设格式具体可以包括:元路径中的节点按照标签节点、文本节点、分词节点、文本节点、标签节点的顺序循环排列。例如,以图4为例,元路径可以包括,8-2-3-6-10,8-2-3-6-9,5-2-3-6-10,5-2-3-6-9等等。这样可以将标签节点与标签节点通过更丰富的节点进行连接。对应的,实现了标签、文本、分词、文本、标签之间的连接,将标签与标签通过文本、分词进行连接。参见图6,图6为标签、文本、分词、文本、标签之间的一种连接关系示意图。
步骤S250,将多组元路径输入预先训练的图嵌入模型,通过图嵌入模型确定多个实标签和多个虚标签分别对应的更新特征。元路径中包括多个节点,将多个节点组成的元路径输入图嵌入模型,图嵌入模型可以确定多个标签节点的更新特征,其可以分别作为多个实标签和多个虚标签的更新特征。在以下的描述中,将标签节点的更新特征与对应的实标签或者虚标签的更新特征作为等同概念来对待。
其中,图嵌入模型可以包括metapath2vec模型或HIN2Vec模型。本步骤中通过图嵌入模型确定更新特征时,具体可以通过图嵌入模型,最大化构建的条件概率,迭代地确定多个实标签和多个虚标签分别对应的更新特征,该条件概率至少基于多组元路径构建。下面以metapath2vec模型为例,说明如何确定多个标签节点的更新特征。
采用G来表示整个异构关系网络,G=(V,E,T),其中,V表示节点的集合,E表示连接边的集合,T表示节点的类型集合,T包括标签节点、文本节点和分词节点等类型。构建以下条件概率,并使得该条件概率最大化:
其中,v表示标签节点,t表示节点类型,Nt表示在元路径中与标签节点v相邻最近的k个节点,c表示该k个节点中的节点,c_t表示节点c的类型,u为异构关系网络中的所有节点,X_c、X_v和X_u分别是节点c、标签节点v和节点u的节点特征。θ是待更新参数,argmax是对函数求参数的函数。
上述条件概率表示,在已知标签节点v的情况下,c出现在v的k个节点范围内的概率,通过调整参数使得该概率尽可能大。在确定过程中,通过调整待更新参数进而调整各个节点的节点特征,迭代地更新上述条件概率,当上述条件概率取最大值时对应的标签节点的节点特征,即为确定的更新特征。
步骤S260,将更新特征对应地确定为第一标签树中若干个节点的特征,得到第二标签树,基于训练集对第二标签树对应的文本分类模型进行训练。
当得到实标签的更新特征以及虚标签的更新特征时,将这些更新特征按照第一标签树中标签与节点的对应关系,对应地将更新特征确定为节点的特征,第一标签树中节点的原特征被更新特征所取代,特征取代之后的第一标签树称为第二标签树。在一种实施方式中,可以不对第一标签树的根节点进行更新特征的替换。
上述实施例中,在异构关系网络的基础上,以文本和分词作为中介,将标签与标签联系起来,使得所确定的更新特征考虑了标签之间的相关性,基于这样的更新特征构建第二标签树,并基于这样的更新特征训练文本分类模型,能够提高第二标签树和文本分类模型的有效性和准确性。
在本说明书的一种实施例中,第二标签树中每一层干节点对应一个文本分类模型。例如,在图1所示标签树中,层1、层2、层3均为干节点所在层,每一层均存在一个文本分类模型。在步骤S260中,基于训练集对第二标签树对应的文本分类模型进行训练时,可以基于训练集分别对第二标签树中每一层的文本分类模型进行训练,也就是每一层的文本分类模型独立地进行训练。
具体的,基于训练集分别对第二标签树中每一层的文本分类模型进行训练时,针对第二标签树中的第n层文本分类模型,n为自然数,可以按照以下步骤1~步骤5训练该第n层文本分类模型:
步骤1,获取训练集中任意的第一文本和对应标注的第一实标签,确定第一文本的第一文本特征。该第一文本特征可以预先采用LSTM模型或RNN模型确定。其中,LSTM可以是双向的。
步骤2,确定第二标签树的第n层干节点的所有下一级节点,作为第一待选节点。
步骤3,将第一文本特征和多个第一待选节点的更新特征,输入第n层文本分类模型,得到第一文本分别属于多个第一待选节点所对应标签的样本概率。
步骤4,基于上述样本概率与第一实标签之间的差异,确定预测损失。
步骤5,向减小预测损失的方向,更新第n层文本分类模型,即更新对应的模型参数。在更新模型参数时,可以采用梯度下降法进行。文本分类模型还可以是基于自注意力机制的分类模型,也可以其他的分类模型,例如线性分类模型或逻辑回归分类模型等。
上述步骤中以第一文本为例进行说明,在一种实施方式中,还可以针对一批样本文本,确定其对应的预测损失和值,基于预测损失和值更新第n层文本分类模型。采用训练集中的文本迭代地执行上述各个步骤,当达到收敛条件时,停止迭代。
图7为实施例提供的一种基于标签树的文本标签确定方法的流程示意图。该方法通过计算机执行,包括:
步骤S710,获取第二标签树和对应的文本分类模型,其采用图2所示方法得到。
步骤S720,获取待确定文本标签的第二文本,确定第二文本的第二文本特征。第二文本特征的确定方法可以与第一文本特征的确定方法相同,此处不再赘述。
步骤S730,基于第二文本特征和第二标签树中节点的更新特征,通过文本分类模型确定第二文本的文本标签。
当第二标签树中每一层干节点对应一个文本分类模型时,可以通过以下步骤确定第二文本的文本标签,具体包括以下步骤a~步骤e。
步骤a,将第一层文本分类模型作为当前分类模型,确定第二标签树的第一层干节点的所有下一级节点,作为第二待选节点。
步骤b,将第二文本特征和各个第二待选节点的更新特征输入当前分类模型,得到第二文本分别属于各个第二待选节点所对应标签的预测概率。
步骤c,基于该预测概率以及预测概率大于预设概率阈值的筛选条件,从各个第二待选节点中确定目标节点。
步骤d,当目标节点所在层不是最后一层时,将目标节点的所有下一级节点更新为第二待选节点,将目标节点所在层的文本分类模型更新为当前分类模型,返回执行步骤b。
步骤e,当目标节点所在层是最后一层时,将目标节点对应的实标签确定为第二文本的文本标签。
上述实施例提供了一种基于标签树的快速地确定文本标签的方法。针对大规模多标签分类场景,能够明显地提高分类效率。
在另一种实施方式中,可以针对每个干节点分别设置文本分类模型。首先将根节点对应的文本分类模型作为当前分类模型,确定第二标签树的第一层干节点的所有下一级节点,作为第二待选节点,将第二文本特征和各个第二待选节点的更新特征输入当前文本分类模型,得到第二文本分别属于各个第二待选节点所对应标签的预测概率,并将预测概率与预设概率阈值进行比较,根据比较结果确定目标节点,当目标节点所在层不是最后一层时,将目标节点的下一级节点更新为第二待选节点,将目标节点对应的文本分类模型更新为当前分类模型,返回执行将第二文本特征和各个第二待选节点的更新特征输入当前文本分类模型的步骤。当目标节点所在层是最后一层时,将目标节点对应的实标签确定为第二文本的文本标签。采用这种方式也能较快地确定文本标签。
上述内容对本说明书的特定实施例进行了描述,其他实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行,并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要按照示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的,或者可能是有利的。
图8为实施例提供的一种基于标签树的文本分类模型训练装置的示意性框图。该装置800部署在计算机中,该计算机具体可以通过任何具有计算、处理能力的装置、设备、平台、设备集群等来实现。该装置实施例与图2所示方法实施例相对应,包括:
训练集获取模块810,配置为,获取训练集,其中包括多个文本和对应标注的实标签,文本包括若干个分词,所述训练集中多个种类的实标签构成标签集;
标签树生成模块820,配置为,对所述标签集中的实标签进行分层聚类,基于聚类结果生成第一标签树,其中的叶节点对应于实标签,干节点被对应于定义的虚标签;
关系网获取模块830,配置为,获取基于所述训练集和虚标签构建的异构关系网络,其中至少包括:用于表示文本的文本节点,用于表示标签的标签节点,用于表示分词的分词节点,且具备关联关系的不同类型节点之间建立有连接边,所述标签包括实标签和虚标签;
元路径查找模块840,配置为,从所述异构关系网络中查找符合预设格式的多组元路径,所述预设格式包括:元路径中包括的标签节点与标签节点之间通过不同类型的节点连接;
特征嵌入模块850,配置为,将多组元路径输入预先训练的图嵌入模型,通过所述图嵌入模型确定多个实标签和多个虚标签分别对应的更新特征;
模型训练模块860,配置为,将所述更新特征对应地确定为所述第一标签树中若干个节点的特征,得到第二标签树;基于所述训练集对所述第二标签树对应的文本分类模型进行训练。
在一种实施方式中,标签树生成模块820具体配置为:
针对所述标签集中的任意一个实标签,基于所述训练集中该实标签对应的多个文本,确定该实标签的初始特征;
基于多个实标签的初始特征,对多个实标签进行分层聚类,并基于聚类结果生成第一标签树。
在一种实施方式中,该装置800还包括关系网构建模块(图中未示出),配置为构建异构关系网络,包括:
针对任意一个第一虚标签,根据所述第一标签树确定所述第一虚标签对应的第一实标签,基于所述第一虚标签和所述第一实标签的对应关系建立连接边。
在一种实施方式中,所述关系网构建模块,基于所述第一虚标签和所述第一实标签的对应关系建立连接边时,包括:
将所述第一虚标签对应的标签节点与所述第一实标签对应的标签节点建立连接边。
在一种实施方式中,所述关系网构建模块,基于所述第一虚标签和所述第一实标签的对应关系建立连接边时,包括:
将所述第一虚标签对应的标签节点与第一文本节点建立连接边,所述第一文本节点是所述第一实标签对应的标签节点连接的文本节点。
在一种实施方式中,所述预设格式具体包括:元路径中的节点按照标签节点、文本节点、分词节点、文本节点、标签节点的顺序循环排列。
在一种实施方式中,标签树生成模块820具体配置为:
基于预设的标签树结构参数,对所述标签集中的实标签进行分层聚类,基于聚类结果生成第一标签树;所述标签树结构参数包括干节点层数和干节点连接的下一层节点的最大数目。
在一种实施方式中,特征嵌入模块850,通过所述图嵌入模型确定多个实标签和多个虚标签分别对应的更新特征时,包括:
通过所述图嵌入模型,最大化构建的条件概率,迭代地确定多个实标签和多个虚标签分别对应的更新特征;所述条件概率至少基于多组元路径构建。
在一种实施方式中,所述第二标签树中每一层干节点对应一个文本分类模型;模型训练模块860,基于所述训练集对所述第二标签树对应的文本分类模型进行训练时,包括,基于所述训练集分别对所述第二标签树中每一层的文本分类模型进行训练。
在一种实施方式中,模型训练模块860,基于所述训练集分别对所述第二标签树中每一层的文本分类模型进行训练时,包括:
按照以下方式训练所述第二标签树中第n层文本分类模型:
获取所述训练集中任意的第一文本和对应标注的第一实标签,确定所述第一文本的第一文本特征;
确定所述第二标签树的第n层干节点的所有下一级节点,作为第一待选节点;
将所述第一文本特征和多个第一待选节点的更新特征,输入所述第n层文本分类模型,得到所述第一文本分别属于多个第一待选节点所对应标签的样本概率;
基于所述样本概率与所述第一实标签之间的差异,确定预测损失;
向减小所述预测损失的方向,更新所述第n层文本分类模型。
在一种实施方式中,图嵌入模型包括metapath2vec模型或HIN2Vec模型。
在一种实施方式中,标签树包括概率标签树PLT。
图9为实施例提供的一种基于标签树的文本标签确定装置的示意性框图。该装置900部署在计算机中,该计算机具体可以通过任何具有计算、处理能力的装置、设备、平台、设备集群等来实现。该装置实施例与图7所示方法实施例相对应,包括:
模型获取模块910,配置为,获取第二标签树和对应的文本分类模型,其采用图2所述的方法得到;
文本获取模块920,配置为,获取待确定文本标签的第二文本,确定所述第二文本的第二文本特征;
标签确定模块930,配置为,基于所述第二文本特征和所述第二标签树中节点的更新特征,通过所述文本分类模型确定所述第二文本的文本标签。
在一种实施方式中,所述第二标签树中每一层干节点对应一个文本分类模型;标签确定模块930具体配置为:
将第一层文本分类模型作为当前分类模型,确定所述第二标签树的第一层干节点的所有下一级节点,作为第二待选节点;
将所述第二文本特征和各个第二待选节点的更新特征输入所述当前分类模型,得到所述第二文本分别属于各个第二待选节点所对应标签的预测概率;
基于所述预测概率以及预测概率大于预设概率阈值的筛选条件,从各个第二待选节点中确定目标节点;
当所述目标节点所在层不是最后一层时,将所述目标节点的所有下一级节点更新为第二待选节点,将所述目标节点所在层的文本分类模型更新为当前分类模型,返回执行将所述第二文本特征和各个第二待选节点的更新特征输入所述当前分类模型;
当所述目标节点所在层是最后一层时,将所述目标节点对应的实标签确定为所述第二文本的文本标签。
上述装置实施例与方法实施例相对应,具体说明可以参见方法实施例部分的描述,此处不再赘述。装置实施例是基于对应的方法实施例得到,与对应的方法实施例具有同样的技术效果,具体说明可参见对应的方法实施例。
本说明书实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行图1至图7任一项所述的方法。
本说明书实施例还提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现图1至图7任一项所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于存储介质和计算设备实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本发明实施例的目的、技术方案和有益效果进行了进一步的详细说明。所应理解的是,以上所述仅为本发明实施例的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。
Claims (28)
1.一种基于标签树的文本分类模型训练方法,通过计算机执行,包括:
获取训练集,其中包括多个文本和对应标注的实标签,文本包括若干个分词,所述训练集中多个种类的实标签构成标签集;
对所述标签集中的实标签进行分层聚类,基于聚类结果生成第一标签树,其中的叶节点对应于实标签,干节点被对应于定义的虚标签;
获取基于所述训练集和虚标签构建的异构关系网络,其中至少包括:用于表示文本的文本节点,用于表示标签的标签节点,用于表示分词的分词节点,且具备关联关系的不同类型节点之间建立有连接边,所述标签包括实标签和虚标签;
从所述异构关系网络中查找符合预设格式的多组元路径,所述预设格式包括:元路径中包括的标签节点与标签节点之间通过不同类型的节点连接;
将多组元路径输入预先训练的图嵌入模型,通过所述图嵌入模型确定多个实标签和多个虚标签分别对应的更新特征;
将所述更新特征对应地确定为所述第一标签树中若干个节点的特征,得到第二标签树;基于所述训练集对所述第二标签树对应的文本分类模型进行训练。
2.根据权利要求1所述的方法,所述对所述标签集中的实标签进行分层聚类,基于聚类结果生成第一标签树的步骤,包括:
针对所述标签集中的任意一个实标签,基于所述训练集中该实标签对应的多个文本,确定该实标签的初始特征;
基于多个实标签的初始特征,对多个实标签进行分层聚类,并基于聚类结果生成第一标签树。
3.根据权利要求1所述的方法,构建异构关系网络包括:
针对任意一个第一虚标签,根据所述第一标签树确定所述第一虚标签对应的第一实标签,基于所述第一虚标签和所述第一实标签的对应关系建立连接边。
4.根据权利要求3所述的方法,所述基于所述第一虚标签和所述第一实标签的对应关系建立连接边的步骤,包括:
将所述第一虚标签对应的标签节点与所述第一实标签对应的标签节点建立连接边。
5.根据权利要求3所述的方法,所述基于所述第一虚标签和所述第一实标签的对应关系建立连接边的步骤,包括:
将所述第一虚标签对应的标签节点与第一文本节点建立连接边,所述第一文本节点是所述第一实标签对应的标签节点连接的文本节点。
6.根据权利要求1所述的方法,所述预设格式具体包括:元路径中的节点按照标签节点、文本节点、分词节点、文本节点、标签节点的顺序循环排列。
7.根据权利要求1所述的方法,所述对所述标签集中的实标签进行分层聚类,基于聚类结果生成第一标签树的步骤,包括:
基于预设的标签树结构参数,对所述标签集中的实标签进行分层聚类,基于聚类结果生成第一标签树;所述标签树结构参数包括干节点层数和干节点连接的下一层节点的最大数目。
8.根据权利要求1所述的方法,所述通过所述图嵌入模型确定多个实标签和多个虚标签分别对应的更新特征的步骤,包括:
通过所述图嵌入模型,最大化构建的条件概率,迭代地确定多个实标签和多个虚标签分别对应的更新特征;所述条件概率至少基于多组元路径构建。
9.根据权利要求1所述的方法,所述第二标签树中每一层干节点对应一个文本分类模型;所述基于所述训练集对所述第二标签树对应的文本分类模型进行训练的步骤,包括:
基于所述训练集分别对所述第二标签树中每一层的文本分类模型进行训练。
10.根据权利要求9所述的方法,所述基于所述训练集分别对所述第二标签树中每一层的文本分类模型进行训练的步骤,包括:
按照以下方式训练所述第二标签树中第n层文本分类模型:
获取所述训练集中任意的第一文本和对应标注的第一实标签,确定所述第一文本的第一文本特征;
确定所述第二标签树的第n层干节点的所有下一级节点,作为第一待选节点;
将所述第一文本特征和多个第一待选节点的更新特征,输入所述第n层文本分类模型,得到所述第一文本分别属于多个第一待选节点所对应标签的样本概率;
基于所述样本概率与所述第一实标签之间的差异,确定预测损失;
向减小所述预测损失的方向,更新所述第n层文本分类模型。
11.根据权利要求1所述的方法,其中,所述图嵌入模型包括metapath2vec模型或HIN2Vec模型。
12.根据权利要求1所述的方法,其中,标签树包括概率标签树PLT。
13.一种基于标签树的文本标签确定方法,通过计算机执行,包括:
获取第二标签树和对应的文本分类模型,其采用权利要求1所述的方法得到;
获取待确定文本标签的第二文本,确定所述第二文本的第二文本特征;
基于所述第二文本特征和所述第二标签树中节点的更新特征,通过所述文本分类模型确定所述第二文本的文本标签。
14.根据权利要求13所述的方法,所述第二标签树中每一层干节点对应一个文本分类模型;所述通过所述文本分类模型确定所述第二文本的文本标签的步骤,包括:
将第一层文本分类模型作为当前分类模型,确定所述第二标签树的第一层干节点的所有下一级节点,作为第二待选节点;
将所述第二文本特征和各个第二待选节点的更新特征输入所述当前分类模型,得到所述第二文本分别属于各个第二待选节点所对应标签的预测概率;
基于所述预测概率以及预测概率大于预设概率阈值的筛选条件,从各个第二待选节点中确定目标节点;
当所述目标节点所在层不是最后一层时,将所述目标节点的所有下一级节点更新为第二待选节点,将所述目标节点所在层的文本分类模型更新为当前分类模型,返回执行所述将所述第二文本特征和各个第二待选节点的更新特征输入所述当前分类模型的步骤;
当所述目标节点所在层是最后一层时,将所述目标节点对应的实标签确定为所述第二文本的文本标签。
15.一种基于标签树的文本分类模型训练装置,部署在计算机中,包括:
训练集获取模块,配置为,获取训练集,其中包括多个文本和对应标注的实标签,文本包括若干个分词,所述训练集中多个种类的实标签构成标签集;
标签树生成模块,配置为,对所述标签集中的实标签进行分层聚类,基于聚类结果生成第一标签树,其中的叶节点对应于实标签,干节点被对应于定义的虚标签;
关系网获取模块,配置为,获取基于所述训练集和虚标签构建的异构关系网络,其中至少包括:用于表示文本的文本节点,用于表示标签的标签节点,用于表示分词的分词节点,且具备关联关系的不同类型节点之间建立有连接边,所述标签包括实标签和虚标签;
元路径查找模块,配置为,从所述异构关系网络中查找符合预设格式的多组元路径,所述预设格式包括:元路径中包括的标签节点与标签节点之间通过不同类型的节点连接;
特征嵌入模块,配置为,将多组元路径输入预先训练的图嵌入模型,通过所述图嵌入模型确定多个实标签和多个虚标签分别对应的更新特征;
模型训练模块,配置为,将所述更新特征对应地确定为所述第一标签树中若干个节点的特征,得到第二标签树;基于所述训练集对所述第二标签树对应的文本分类模型进行训练。
16.根据权利要求15所述的装置,所述标签树生成模块,具体配置为:
针对所述标签集中的任意一个实标签,基于所述训练集中该实标签对应的多个文本,确定该实标签的初始特征;
基于多个实标签的初始特征,对多个实标签进行分层聚类,并基于聚类结果生成第一标签树。
17.根据权利要求15所述的装置,还包括关系网构建模块,配置为构建异构关系网络,包括:
针对任意一个第一虚标签,根据所述第一标签树确定所述第一虚标签对应的第一实标签,基于所述第一虚标签和所述第一实标签的对应关系建立连接边。
18.根据权利要求17所述的装置,所述关系网构建模块,基于所述第一虚标签和所述第一实标签的对应关系建立连接边时,包括:
将所述第一虚标签对应的标签节点与所述第一实标签对应的标签节点建立连接边。
19.根据权利要求17所述的装置,所述关系网构建模块,基于所述第一虚标签和所述第一实标签的对应关系建立连接边时,包括:
将所述第一虚标签对应的标签节点与第一文本节点建立连接边,所述第一文本节点是所述第一实标签对应的标签节点连接的文本节点。
20.根据权利要求15所述的装置,所述预设格式具体包括:元路径中的节点按照标签节点、文本节点、分词节点、文本节点、标签节点的顺序循环排列。
21.根据权利要求15所述的装置,所述标签树生成模块,具体配置为:
基于预设的标签树结构参数,对所述标签集中的实标签进行分层聚类,基于聚类结果生成第一标签树;所述标签树结构参数包括干节点层数和干节点连接的下一层节点的最大数目。
22.根据权利要求15所述的装置,所述特征嵌入模块,通过所述图嵌入模型确定多个实标签和多个虚标签分别对应的更新特征时,包括:
通过所述图嵌入模型,最大化构建的条件概率,迭代地确定多个实标签和多个虚标签分别对应的更新特征;所述条件概率至少基于多组元路径构建。
23.根据权利要求15所述的装置,所述第二标签树中每一层干节点对应一个文本分类模型;所述模型训练模块,基于所述训练集对所述第二标签树对应的文本分类模型进行训练时,包括:
基于所述训练集分别对所述第二标签树中每一层的文本分类模型进行训练。
24.根据权利要求23所述的装置,所述模型训练模块,基于所述训练集分别对所述第二标签树中每一层的文本分类模型进行训练时,包括:
按照以下方式训练所述第二标签树中第n层文本分类模型:
获取所述训练集中任意的第一文本和对应标注的第一实标签,确定所述第一文本的第一文本特征;
确定所述第二标签树的第n层干节点的所有下一级节点,作为第一待选节点;
将所述第一文本特征和多个第一待选节点的更新特征,输入所述第n层文本分类模型,得到所述第一文本分别属于多个第一待选节点所对应标签的样本概率;
基于所述样本概率与所述第一实标签之间的差异,确定预测损失;
向减小所述预测损失的方向,更新所述第n层文本分类模型。
25.一种基于标签树的文本标签确定装置,部署在计算机中,包括:
模型获取模块,配置为,获取第二标签树和对应的文本分类模型,其采用权利要求1所述的方法得到;
文本获取模块,配置为,获取待确定文本标签的第二文本,确定所述第二文本的第二文本特征;
标签确定模块,配置为,基于所述第二文本特征和所述第二标签树中节点的更新特征,通过所述文本分类模型确定所述第二文本的文本标签。
26.根据权利要求25所述的装置,所述第二标签树中每一层干节点对应一个文本分类模型;所述标签确定模块,具体配置为:
将第一层文本分类模型作为当前分类模型,确定所述第二标签树的第一层干节点的所有下一级节点,作为第二待选节点;
将所述第二文本特征和各个第二待选节点的更新特征输入所述当前分类模型,得到所述第二文本分别属于各个第二待选节点所对应标签的预测概率;
基于所述预测概率以及预测概率大于预设概率阈值的筛选条件,从各个第二待选节点中确定目标节点;
当所述目标节点所在层不是最后一层时,将所述目标节点的所有下一级节点更新为第二待选节点,将所述目标节点所在层的文本分类模型更新为当前分类模型,返回执行将所述第二文本特征和各个第二待选节点的更新特征输入所述当前分类模型;
当所述目标节点所在层是最后一层时,将所述目标节点对应的实标签确定为所述第二文本的文本标签。
27.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-14中任一项所述的方法。
28.一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-14中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010884803.3A CN112015898B (zh) | 2020-08-28 | 2020-08-28 | 基于标签树的模型训练、文本标签确定方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010884803.3A CN112015898B (zh) | 2020-08-28 | 2020-08-28 | 基于标签树的模型训练、文本标签确定方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112015898A true CN112015898A (zh) | 2020-12-01 |
CN112015898B CN112015898B (zh) | 2023-11-21 |
Family
ID=73503361
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010884803.3A Active CN112015898B (zh) | 2020-08-28 | 2020-08-28 | 基于标签树的模型训练、文本标签确定方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112015898B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112541055A (zh) * | 2020-12-17 | 2021-03-23 | 中国银联股份有限公司 | 一种确定文本标签的方法及装置 |
CN113626589A (zh) * | 2021-06-18 | 2021-11-09 | 电子科技大学 | 一种基于混合注意力机制的多标签文本分类方法 |
CN115757823A (zh) * | 2022-11-10 | 2023-03-07 | 魔方医药科技(苏州)有限公司 | 数据处理方法、装置、电子设备和存储介质 |
CN116304719A (zh) * | 2023-05-15 | 2023-06-23 | 北京睿企信息科技有限公司 | 一种判断异常分类标签的处理系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170109358A1 (en) * | 2015-10-15 | 2017-04-20 | Krishna Kishore Dhara | Method and system of determining enterprise content specific taxonomies and surrogate tags |
WO2018196561A1 (zh) * | 2017-04-25 | 2018-11-01 | 腾讯科技(深圳)有限公司 | 应用的标签信息生成方法、装置及存储介质 |
CN110543563A (zh) * | 2019-08-20 | 2019-12-06 | 暨南大学 | 一种层次型文本分类方法及系统 |
CN110598869A (zh) * | 2019-08-27 | 2019-12-20 | 阿里巴巴集团控股有限公司 | 基于序列模型的分类方法、装置、电子设备 |
-
2020
- 2020-08-28 CN CN202010884803.3A patent/CN112015898B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170109358A1 (en) * | 2015-10-15 | 2017-04-20 | Krishna Kishore Dhara | Method and system of determining enterprise content specific taxonomies and surrogate tags |
WO2018196561A1 (zh) * | 2017-04-25 | 2018-11-01 | 腾讯科技(深圳)有限公司 | 应用的标签信息生成方法、装置及存储介质 |
CN110543563A (zh) * | 2019-08-20 | 2019-12-06 | 暨南大学 | 一种层次型文本分类方法及系统 |
CN110598869A (zh) * | 2019-08-27 | 2019-12-20 | 阿里巴巴集团控股有限公司 | 基于序列模型的分类方法、装置、电子设备 |
Non-Patent Citations (2)
Title |
---|
张春焰;李涛;刘峥;: "基于路径选择的层次多标签分类", 计算机技术与发展, no. 10 * |
李艳;贾君枝;: "基于向量空间模型的标签树构建方法研究", 情报学报, no. 03 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112541055A (zh) * | 2020-12-17 | 2021-03-23 | 中国银联股份有限公司 | 一种确定文本标签的方法及装置 |
CN113626589A (zh) * | 2021-06-18 | 2021-11-09 | 电子科技大学 | 一种基于混合注意力机制的多标签文本分类方法 |
CN113626589B (zh) * | 2021-06-18 | 2023-04-18 | 电子科技大学 | 一种基于混合注意力机制的多标签文本分类方法 |
CN115757823A (zh) * | 2022-11-10 | 2023-03-07 | 魔方医药科技(苏州)有限公司 | 数据处理方法、装置、电子设备和存储介质 |
CN115757823B (zh) * | 2022-11-10 | 2024-03-05 | 魔方医药科技(苏州)有限公司 | 数据处理方法、装置、电子设备和存储介质 |
CN116304719A (zh) * | 2023-05-15 | 2023-06-23 | 北京睿企信息科技有限公司 | 一种判断异常分类标签的处理系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112015898B (zh) | 2023-11-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AlNuaimi et al. | Streaming feature selection algorithms for big data: A survey | |
CN112015898B (zh) | 基于标签树的模型训练、文本标签确定方法及装置 | |
WO2020249961A1 (en) | Optimised machine learning | |
Novovičová et al. | Conditional mutual information based feature selection for classification task | |
Daumé III et al. | Logarithmic time one-against-some | |
CN111382283B (zh) | 资源类别标签标注方法、装置、计算机设备和存储介质 | |
CN113850281B (zh) | 一种基于meanshift优化的数据处理方法和装置 | |
CN114821271B (zh) | 模型训练方法、图像描述生成方法、装置及存储介质 | |
CN111080551B (zh) | 基于深度卷积特征和语义近邻的多标签图像补全方法 | |
CN114357120A (zh) | 基于faq的无监督式检索方法、系统及介质 | |
CN112699945A (zh) | 数据标注方法及装置、存储介质及电子装置 | |
CN114492601A (zh) | 资源分类模型的训练方法、装置、电子设备及存储介质 | |
Kakarash et al. | Multi-label feature selection using density-based graph clustering and ant colony optimization | |
Jiang et al. | Meta-learning to cluster | |
Thangavel et al. | Soft computing models based feature selection for TRUS prostate cancer image classification | |
JP2008204374A (ja) | クラスタ生成装置およびクラスタ生成プログラム | |
CN113033709A (zh) | 链路预测方法和装置 | |
CN111126443A (zh) | 基于随机游走的网络表示学习方法 | |
Bahrami et al. | Automatic image annotation using an evolutionary algorithm (IAGA) | |
Dorobanţiu et al. | A novel contextual memory algorithm for edge detection | |
Wei et al. | Learning and exploiting interclass visual correlations for medical image classification | |
Liang et al. | Modern Hopfield Networks for graph embedding | |
CN114625967A (zh) | 基于大数据业务优化的用户信息挖掘方法及人工智能系统 | |
Hasnat et al. | Simultaneous clustering and model selection for multinomial distribution: A comparative study | |
CN113672804A (zh) | 推荐信息生成方法、系统、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |