CN111797234B - 一种自然语言处理分类模型中多标签分布学习的方法和系统 - Google Patents

一种自然语言处理分类模型中多标签分布学习的方法和系统 Download PDF

Info

Publication number
CN111797234B
CN111797234B CN202010550434.4A CN202010550434A CN111797234B CN 111797234 B CN111797234 B CN 111797234B CN 202010550434 A CN202010550434 A CN 202010550434A CN 111797234 B CN111797234 B CN 111797234B
Authority
CN
China
Prior art keywords
sample
label
word
vector
calculating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010550434.4A
Other languages
English (en)
Other versions
CN111797234A (zh
Inventor
叶蔚
刘培阳
张世琨
张君福
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Peking University Software Engineering Co ltd
Original Assignee
Beijing Peking University Software Engineering Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Peking University Software Engineering Co ltd filed Critical Beijing Peking University Software Engineering Co ltd
Priority to CN202010550434.4A priority Critical patent/CN111797234B/zh
Publication of CN111797234A publication Critical patent/CN111797234A/zh
Application granted granted Critical
Publication of CN111797234B publication Critical patent/CN111797234B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种自然语言处理分类模型中多标签分布学习的方法和系统,属于自然语言处理领域。在获取训练样本后,分别计算得到每个标签的标签向量和每个样本的样本向量;然后根据标签向量和样本向量计算得到每个样本与每个标签之间的相关性;再通过每个样本与每个标签之间的相关性计算得到每个样本的标签分布;最后根据标签分布更新自然处理分类模型。通过这种方式,能够使经过更新后的自然处理分类模型的样本得到更准确的标签,大大提高了自然处理分类模型的泛化能力。

Description

一种自然语言处理分类模型中多标签分布学习的方法和系统
技术领域
本发明涉及自然语言处理领域,特别地,涉及一种自然语言处理分类模型中多标签分布学习的方法和系统。
背景技术
自然语言处理任务主要分为三类,篇章级分类任务,句子级分类任务,还有单词级别的分类任务。传统的分类任务中经常会出现一种情况,就是一个样本不仅仅会属于一个分类,于是多标签学习(multi-label learning)应运而生。但是多标签学习仍然有一些不足,就是很多样本对于是否属于一个标签并不是特别明确,而是处于一种“既可以被打上这个标签,也可以不被打上这个标签”的状态。现有技术在计算样本的标签时得到的标签分布不精确,不利于提高模型的泛化能力。
发明内容
为了克服现有技术的不足,本发明提供一种自然语言处理分类模型中能够得到精确的标签分布且能够提高模型泛化能力的多标签分布学习的方法和系统
本发明解决其技术问题所采用的技术方案是:
一方面,
一种自然语言处理分类模型中多标签分布学习的方法,包括以下步骤:
获取训练样本;
根据所有样本的数据计算得到每个标签的标签向量和每个样本的样本向量;
根据所述标签向量和所述样本向量计算得到每个样本与每个标签之间的相关性;
根据样本与每个标签之间的相关性计算得到每个样本的标签分布;
根据所述标签分布更新所述自然语言处理分类模型。
进一步地,在获取训练样本时还包括:
将语料库中的所有单词转换成词向量,所述词向量包含了对应单词在所述样本中的上下文语义信息。
进一步地,所述将语料库中的所有单词转换成词向量包括:
将所述样本中以句子切分;
对每个句子按照单词进行切分;
通过CBOW算法对每个句子进行建模与训练,得到每个单词对应的词向量矩阵,即单词与词向量的映射。
进一步地,根据所有样本的数据计算得到每个标签的标签向量和每个样本的样本向量包括:
分别计算每个单词对于样本和对于标签的重要性;
以所述重要性为权重,对所述单词的词向量进行加权求和得到每个标签的标签向量和每个样本的样本向量。
进一步地,所述计算每个单词对于样本的重要性包括:
计算每个单词对于特定标签的单词显著性与单词对于样本集合的关联性;
根据所述单词显著性与所述单词对于样本集合的关联性计算每个单词相对于特定样本的重要性。
进一步地,所述计算每个单词对于标签的重要性包括:
计算每个单词对于特定标签的单词显著性与单词对于标签集合的关联性;
根据所述单词显著性与所述单词对于标签集合的关联性计算每个单词相对于特定标签的重要性。
进一步地,根据所述标签向量和所述样本向量计算得到每个样本与每个标签之间的相关性包括:
采用相似度计算函数,计算所述样本向量与所述标签向量的相似度,所述相似度即为样本与标签之间的相关性。
进一步地,根据样本与每个标签之间的相关性计算得到每个样本的标签分布包括:
将所述相似度减去每个维度中的最小值得到每个样本的标签分布。
进一步地,根据所述标签分布更新所述自然语言处理分类模型包括:
将所述样本的原始标签分布进行独热处理得到原始标签数据;
根据所述原始标签数据和模型预测结果得到原始损失;
根据所述标签分布和模型预测结果得到第一损失;
将所述第一损失按照预设权重与所述原始损失进行求和得到第二损失;
根据所述第二损失更新所述自然语言处理分类模型。
另一方面,
一种自然语言处理分类模型中多标签分布学习的系统,包括:
样本获取模块,用于获取训练样本;
向量计算模块,用于根据所有样本的数据计算得到每个标签的标签向量和每个样本的样本向量;
相关性计算模块,用于根据所述标签向量和所述样本向量计算得到每个样本与每个标签之间的相关性;
标签分布计算模块,用于根据样本与每个标签之间的相关性计算得到每个样本的标签分布;
模型更新模块,用于根据所述标签分布更新所述自然语言处理分类模型。
本申请采用以上技术方案,至少具备以下有益效果:
本发明技术方案提供了一种自然语言处理分类模型中多标签分布学习的方法和系统,在获取训练样本后,分别计算得到每个标签的标签向量和每个样本的样本向量;然后根据标签向量和样本向量计算得到每个样本与每个标签之间的相关性;再通过每个样本与每个标签之间的相关性计算得到每个样本的标签分布;最后根据标签分布更新自然处理分类模型。通过这种方式,能够使经过更新后的自然处理分类模型的样本得到更准确的标签,大大提高了自然处理分类模型的泛化能力。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种自然语言处理分类模型中多标签分布学习的方法的流程图;
图2是本发明实施例提供的种自然语言处理分类模型中多标签分布学习的系统结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面结合附图和实施例对本发明的技术方案进行详细的描述说明。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本申请所保护的范围。
一个实施例中,本发明提供了一种自然语言处理分类模型中多标签分布学习的方法,如图1所示,包括以下步骤:
获取训练样本;
根据所有样本的数据计算得到每个标签的标签向量和每个样本的样本向量;
根据标签向量和样本向量计算得到每个样本与每个标签之间的相关性;
根据样本与每个标签之间的相关性计算得到每个样本的标签分布;
根据标签分布更新自然语言处理分类模型。
本发明实施例提供的一种自然语言处理分类模型中多标签分布学习的方法,在获取训练样本后,分别计算得到每个标签的标签向量和每个样本的样本向量;然后根据标签向量和样本向量计算得到每个样本与每个标签之间的相关性;再通过每个样本与每个标签之间的相关性计算得到每个样本的标签分布;最后根据标签分布更新自然处理分类模型。通过这种方式,能够使经过更新后的自然处理分类模型的样本得到更准确的标签,大大提高了自然处理分类模型的泛化能力。
作为对上述实施例的一种补充说明,可选地,在获取训练样本时还包括:
将语料库中的所有单词转换成词向量,词向量包含了对应单词在样本中的上下文语义信息。
进一步地,将语料库中的所有单词转换成词向量包括:
将样本中以句子切分;
对每个句子按照单词进行切分;
通过CBOW算法对每个句子进行建模与训练,得到每个单词对应的词向量矩阵,即单词与词向量的映射。CBOW算法或者说CBOW模型是本领域技术人员常用的的技术手段,能够得到一个句子中的单词对应的词向量矩阵。具体的建模与训练过程,在此不在详叙。
示例性的,统计语料库中的单词个数,并且将每个单词编码,得到去重的单词-编码字典。将每一个样本按照句子切分,将句子中的每一个单词用上一步我们得到的字典中的对应编码表示。采用CBOW算法对编码后的句子进行建模与训练,得到词向量矩阵。根据得到的字典与得到的词向量矩阵,得到最终的单词-词向量映射。这样得到每个单词与词向量的对应关系。
一些实施例中,根据所有样本的数据计算得到每个标签的标签向量和每个样本的样本向量包括:
分别计算每个单词对于样本和对于标签的重要性;
以重要性为权重,对单词的词向量进行加权求和得到每个标签的标签向量和每个样本的样本向量。
作为本发明实施例中一种可选的实现方式,计算每个单词对于样本的重要性包括:
计算每个单词对于特定标签的单词显著性与单词对于样本集合的关联性;
根据单词显著性与单词对于样本集合的关联性计算每个单词相对于特定样本的重要性。
其中,单词对于样本的重要性的计算公式为:
其中S是训练数据集,N是训练数据集的大小,为S中包含wj的样本数,/>是wj与S的关联性,/>为wj在xi中出现的次数,/>是wj对于第i个样本的显著性,是wj对于第i个样本的重要性。
以重要性为权重,对单词的词向量进行加权求和得到每个样本的样本向量的计算公式为:
其中Xi为求得的第i个样本的向量。
作为本发明实施例中一种可选的实现方式,计算每个单词对于标签的重要性包括:
计算每个单词对于特定标签的单词显著性与单词对于标签集合的关联性;
根据单词显著性与单词对于标签集合的关联性计算每个单词相对于特定标签的重要性。
其中,单词对于标签的重要性的计算公式为:
其中p为标签可取值的数量,wj为第j个单词。为标签集合L={l1,l2,…,lp},中包含wj的标签的数目,/>为wj与L的关联性,/>为wj在Xm中出现的次数,Xm是标签为m的样本的集合,C为语料库,/>是wj对于第m个标签的显著性,/>为wj对于第m个标签的重要性。
以重要性为权重,对单词的词向量进行加权求和得到每个标签的标签向量的计算公式为:
其中,Υm为加权求和求得的第m个标签的向量。
一些实施例中,可选地,根据标签向量和样本向量计算得到每个样本与每个标签之间的相关性包括:
采用相似度计算函数,计算样本向量与标签向量的相似度,相似度即为样本与标签之间的相关性。
下面将介绍一些常用的相似度函数及其计算公式:
欧拉距离函数,
斯皮尔曼相关性函数,
皮尔森相关性函数,
卡方函数,
其中,上述函数中Sim为相似度;C是语料库,Pj和Qj分别表示语料库中第j个样本对应的样本向量和第j个标签对应的标签向量。
进一步可选地,根据样本与每个标签之间的相关性计算得到每个样本的标签分布包括:
将相似度减去每个维度中的最小值得到每个样本的标签分布。
示例性的,计算得到的相似度在4个维度中分别为1、2、3和4;
假设每个维度中的最小值为1,那么新得到的标签分布在每个维度中分别为0、1、2和3。
进一步地,根据标签分布更新自然语言处理分类模型包括:
将所述样本的原始标签分布进行独热处理得到原始标签数据;
根据所述原始标签数据和模型预测结果得到原始损失;
根据所述标签分布和模型预测结果得到第一损失;
将所述第一损失按照预设权重与所述原始损失进行求和得到第二损失;
根据所述第二损失更新所述自然语言处理分类模型。
示例性的,假设新闻只包括政治新闻和娱乐新闻,一条新闻按照原始的标签分布为娱乐新闻,进行独热处理后政治新闻的数值为0,娱乐新闻的数值为1,而经过上述方法计算得到该新闻与政治新闻与娱乐新闻的相似度分布为0.2和0.8;假设预设权重为0.4;模型的预测结果为政治新闻的数值为0.1,娱乐新闻的数值为0.9。那么最终训练模型时的损失为,[(0.2-0.1)2+(0.8-0.9)2]*0.4+[(0-0.1)2+(1-0.9)2]。最后,根据最终的损失训练模型得到新的自然语言处理分类模型。需要说明的是,模型的预测结果为根据原始的模型得到的。可以理解的是,预设权重可以依据实际情况设定。
一个实施例中,本发明还提供了一种自然语言处理分类模型中多标签分布学习的系统,包括:
样本获取模块201,用于获取训练样本;其中,在获取训练样本时,样本获取模块将样本中的所有词语转换成词向量,词向量包含了对应词语在样本中的上下文语义信息。
具体的,将样本中以句子切分;
对每个句子按照单词进行切分;
通过CBOW算法对每个句子进行建模与训练,得到每个单词对应的词向量矩阵,即词语与词向量的映射。
向量计算模块202,用于根据所有样本的数据计算得到每个标签的标签向量和每个样本的样本向量;
具体地,向量计算模块分别计算每个词语对于样本和对于标签的重要性;
以重要性为权重,对词语的词向量进行加权求和得到每个标签的标签向量和每个样本的样本向量。
其中,计算每个词语对于样本的重要性包括:
计算每个词语对于特定标签的词语显著性与词语对于样本集合的关联性;
根据词语显著性与词语对于样本集合的关联性计算每个词语相对于特定样本的重要性。
此外,计算每个词语对于标签的重要性包括:
计算每个词语对于特定标签的词语显著性与词语对于标签集合的关联性;
根据词语显著性与词语对于标签集合的关联性计算每个词语相对于特定标签的重要性。
相关性计算模块203,用于根据标签向量和样本向量计算得到每个样本与每个标签之间的相关性;
具体地,相关性计算模块采用相似度计算函数,计算样本向量与标签向量的相似度,相似度即为样本与标签之间的相关性。
标签分布计算模块204,用于根据样本与每个标签之间的相关性计算得到每个样本的标签分布;
具体地,将相似度减去每个维度中的最小值得到每个样本的标签分布。
模型更新模块205,用于根据标签分布更新自然语言处理分类模型。
模型更新模块将所述样本的原始标签分布进行独热处理得到原始标签数据;根据所述原始标签数据和模型预测结果得到原始损失;根据所述标签分布和模型预测结果得到第一损失;将所述第一损失按照预设权重与所述原始损失进行求和得到第二损失;根据所述第二损失更新所述自然语言处理分类模型。
本发明实施例提供的一种自然语言处理分类模型中多标签分布学习的系统,通过样本获取模块获取训练样本;向量计算模块根据所有样本的数据计算得到每个标签的标签向量和每个样本的样本向量;相关性计算模块根据标签向量和样本向量计算得到每个样本与每个标签之间的相关性;标签分布计算模块根据样本与每个标签之间的相关性计算得到每个样本的标签分布;模型更新模块根据标签分布更新自然语言处理分类模型。本系统能够改变自然语言处理分类模型中的标签分布,使经过自然语言分类处理模型的样本得到的标签更精确。
可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
需要说明的是,在本申请的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本申请的描述中,除非另有说明,“多个”的含义是指至少两个。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (5)

1.一种自然语言处理分类模型中多标签分布学习的方法,其特征在于,包括以下步骤:
获取训练样本;在获取训练样本时,将语料库中的所有单词转换成词向量,所述词向量包含了对应单词在所述样本中的上下文语义信息;
其中,所述将语料库中的所有单词转换成词向量包括:
将所述样本中以句子切分;
对每个句子按照单词进行切分;
通过CBOW算法对每个句子进行建模与训练,得到每个单词对应的词向量矩阵,即单词与词向量的映射;
根据所有样本的数据计算得到每个标签的标签向量和每个样本的样本向量;其中,根据所有样本的数据计算得到每个标签的标签向量和每个样本的样本向量包括:
分别计算每个单词对于样本和对于标签的重要性;
以所述重要性为权重,对所述单词的词向量进行加权求和得到每个标签的标签向量和每个样本的样本向量;
其中,所述计算每个单词对于样本的重要性包括:
计算每个单词对于特定标签的单词显著性与单词对于样本集合的关联性;
根据所述单词显著性与所述单词对于样本集合的关联性计算每个单词相对于特定样本的重要性;其中,单词对于样本的重要性的计算公式为:
其中S是训练数据集,N是训练数据集的大小,为S中包含wj的样本数,/>是wj与S的关联性,/>为wj在xi中出现的次数,/>是wj对于第i个样本的显著性,/>是wj对于第i个样本的重要性;其中,wj为第j个单词,xi为第i个样本;
以重要性为权重,对单词的词向量进行加权求和得到每个样本的样本向量的计算公式为:
其中为求得的第i个样本的向量;其中,vec(wj)为第j个单词的向量;
其中,所述计算每个单词对于标签的重要性包括:
计算每个单词对于特定标签的单词显著性与单词对于标签集合的关联性;
根据所述单词显著性与所述单词对于标签集合的关联性计算每个单词相对于特定标签的重要性;其中,单词对于标签的重要性的计算公式为:
其中p为标签可取值的数量,wj为第j个单词,为标签集合L={l1,l2,…,lp},中包含wj的标签的数目,/>为wj与L的关联性,/>为wj在Xm中出现的次数,Xm是标签为m的样本的集合,C为语料库,/>是wj对于第m个标签的显著性,/>为wj对于第m个标签的重要性;/>表示第i个样本的标签为m的概率为1;
以重要性为权重,对单词的词向量进行加权求和得到每个标签的标签向量的计算公式为:
其中,Υm为加权求和求得的第m个标签的向量;
根据所述标签向量和所述样本向量计算得到每个样本与每个标签之间的相关性;
根据样本与每个标签之间的相关性计算得到每个样本的标签分布;
根据所述标签分布更新所述自然语言处理分类模型。
2.根据权利要求1所述的方法,其特征在于:根据所述标签向量和所述样本向量计算得到每个样本与每个标签之间的相关性包括:
采用相似度计算函数,计算所述样本向量与所述标签向量的相似度,所述相似度即为样本与标签之间的相关性。
3.根据权利要求2所述的方法,其特征在于:根据样本与每个标签之间的相关性计算得到每个样本的标签分布包括:
将所述相似度减去每个维度中的最小值得到每个样本的标签分布。
4.根据权利要求3所述的方法,其特征在于:根据所述标签分布更新所述自然语言处理分类模型包括:
将所述样本的原始标签分布进行独热处理得到原始标签数据;
根据所述原始标签数据和模型预测结果得到原始损失;
根据所述标签分布和模型预测结果得到第一损失;
将所述第一损失按照预设权重与所述原始损失进行求和得到第二损失;
根据所述第二损失更新所述自然语言处理分类模型。
5.一种自然语言处理分类模型中多标签分布学习的系统,其特征在于,包括:
样本获取模块,用于获取训练样本;在获取训练样本时,将语料库中的所有单词转换成词向量,所述词向量包含了对应单词在所述样本中的上下文语义信息;
其中,所述将语料库中的所有单词转换成词向量包括:
将所述样本中以句子切分;
对每个句子按照单词进行切分;
通过CBOW算法对每个句子进行建模与训练,得到每个单词对应的词向量矩阵,即单词与词向量的映射;
向量计算模块,用于根据所有样本的数据计算得到每个标签的标签向量和每个样本的样本向量;其中,根据所有样本的数据计算得到每个标签的标签向量和每个样本的样本向量包括:
分别计算每个单词对于样本和对于标签的重要性;
以所述重要性为权重,对所述单词的词向量进行加权求和得到每个标签的标签向量和每个样本的样本向量;
其中,所述计算每个单词对于样本的重要性包括:
计算每个单词对于特定标签的单词显著性与单词对于样本集合的关联性;
根据所述单词显著性与所述单词对于样本集合的关联性计算每个单词相对于特定样本的重要性;其中,单词对于样本的重要性的计算公式为:
其中S是训练数据集,N是训练数据集的大小,为S中包含wj的样本数,/>是wj与S的关联性,/>为wj在xi中出现的次数,/>是wj对于第i个样本的显著性,/>是wj对于第i个样本的重要性;其中,wj为第j个单词,xi为第i个样本;
以重要性为权重,对单词的词向量进行加权求和得到每个样本的样本向量的计算公式为:
其中为求得的第i个样本的向量;其中,vec(wj)为第j个单词的向量;
其中,所述计算每个单词对于标签的重要性包括:
计算每个单词对于特定标签的单词显著性与单词对于标签集合的关联性;
根据所述单词显著性与所述单词对于标签集合的关联性计算每个单词相对于特定标签的重要性;其中,单词对于标签的重要性的计算公式为:
其中p为标签可取值的数量,wj为第j个单词,为标签集合L={l1,l2,…,lp},中包含wj的标签的数目,/>为wj与L的关联性,/>为wj在Xm中出现的次数,Xm是标签为m的样本的集合,C为语料库,/>是wj对于第m个标签的显著性,/>为wj对于第m个标签的重要性;/>表示第i个样本的标签为m的概率为1;
以重要性为权重,对单词的词向量进行加权求和得到每个标签的标签向量的计算公式为:
其中,Υm为加权求和求得的第m个标签的向量;
相关性计算模块,用于根据所述标签向量和所述样本向量计算得到每个样本与每个标签之间的相关性;
标签分布计算模块,用于根据样本与每个标签之间的相关性计算得到每个样本的标签分布;
模型更新模块,用于根据所述标签分布更新所述自然语言处理分类模型。
CN202010550434.4A 2020-06-16 2020-06-16 一种自然语言处理分类模型中多标签分布学习的方法和系统 Active CN111797234B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010550434.4A CN111797234B (zh) 2020-06-16 2020-06-16 一种自然语言处理分类模型中多标签分布学习的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010550434.4A CN111797234B (zh) 2020-06-16 2020-06-16 一种自然语言处理分类模型中多标签分布学习的方法和系统

Publications (2)

Publication Number Publication Date
CN111797234A CN111797234A (zh) 2020-10-20
CN111797234B true CN111797234B (zh) 2024-04-30

Family

ID=72803348

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010550434.4A Active CN111797234B (zh) 2020-06-16 2020-06-16 一种自然语言处理分类模型中多标签分布学习的方法和系统

Country Status (1)

Country Link
CN (1) CN111797234B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112307254B (zh) * 2020-11-24 2024-04-02 腾讯科技(深圳)有限公司 一种音乐标签的向量确定方法和相关装置
CN113962302A (zh) * 2021-10-20 2022-01-21 全球能源互联网研究院有限公司 一种基于标签分布学习的敏感数据智能识别方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831184A (zh) * 2012-08-01 2012-12-19 中国科学院自动化研究所 根据对社会事件的文字描述来预测社会情感的方法及系统
CN107967253A (zh) * 2017-10-27 2018-04-27 北京大学 一种基于迁移学习的低资源领域分词器训练方法及分词方法
CN108959431A (zh) * 2018-06-11 2018-12-07 中国科学院上海高等研究院 标签自动生成方法、系统、计算机可读存储介质及设备
CN109325122A (zh) * 2018-09-17 2019-02-12 深圳市牛鼎丰科技有限公司 词表生成方法、文本分类方法、装置、设备及存储介质
CN110188358A (zh) * 2019-05-31 2019-08-30 北京神州泰岳软件股份有限公司 自然语言处理模型的训练方法及装置
CN110209823A (zh) * 2019-06-12 2019-09-06 齐鲁工业大学 一种多标签文本分类方法及系统
CN111078885A (zh) * 2019-12-18 2020-04-28 腾讯科技(深圳)有限公司 一种标签分类的方法、相关装置、设备以及存储介质
CN111104526A (zh) * 2019-11-21 2020-05-05 新华智云科技有限公司 一种基于关键词语义的金融标签提取方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10664657B2 (en) * 2012-12-27 2020-05-26 Touchtype Limited System and method for inputting images or labels into electronic devices

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831184A (zh) * 2012-08-01 2012-12-19 中国科学院自动化研究所 根据对社会事件的文字描述来预测社会情感的方法及系统
CN107967253A (zh) * 2017-10-27 2018-04-27 北京大学 一种基于迁移学习的低资源领域分词器训练方法及分词方法
CN108959431A (zh) * 2018-06-11 2018-12-07 中国科学院上海高等研究院 标签自动生成方法、系统、计算机可读存储介质及设备
CN109325122A (zh) * 2018-09-17 2019-02-12 深圳市牛鼎丰科技有限公司 词表生成方法、文本分类方法、装置、设备及存储介质
CN110188358A (zh) * 2019-05-31 2019-08-30 北京神州泰岳软件股份有限公司 自然语言处理模型的训练方法及装置
CN110209823A (zh) * 2019-06-12 2019-09-06 齐鲁工业大学 一种多标签文本分类方法及系统
CN111104526A (zh) * 2019-11-21 2020-05-05 新华智云科技有限公司 一种基于关键词语义的金融标签提取方法及系统
CN111078885A (zh) * 2019-12-18 2020-04-28 腾讯科技(深圳)有限公司 一种标签分类的方法、相关装置、设备以及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Hierarchical Graph Transformer-Based Deep Learning Model for Large-Scale Multi-Label Text Classification;JIBING GONG et al.;《IEEE Access》;30885-30896 *
基于联合模型的多标签文本分类研究;刘心惠 等;《计算机工程与应用》;111-117 *

Also Published As

Publication number Publication date
CN111797234A (zh) 2020-10-20

Similar Documents

Publication Publication Date Title
CN109815487B (zh) 文本质检方法、电子装置、计算机设备及存储介质
CN109086265B (zh) 一种语义训练方法、短文本中多语义词消歧方法
CN110162786B (zh) 构建配置文件以及抽取结构化信息的方法、装置
CN116644755B (zh) 基于多任务学习的少样本命名实体识别方法、装置及介质
CN111797234B (zh) 一种自然语言处理分类模型中多标签分布学习的方法和系统
CN111881256B (zh) 文本实体关系抽取方法、装置及计算机可读存储介质设备
CN111881292B (zh) 一种文本分类方法及装置
CN111401065A (zh) 实体识别方法、装置、设备及存储介质
CN112347758A (zh) 文本摘要的生成方法、装置、终端设备及存储介质
CN111881264B (zh) 一种开放领域问答任务中长文本检索的方法和电子设备
CN115457982A (zh) 情感预测模型的预训练优化方法、装置、设备及介质
CN111475645A (zh) 知识点标注方法、装置及计算机可读存储介质
CN118013038A (zh) 一种基于原型聚类的文本增量关系抽取方法
CN112732863B (zh) 电子病历标准化切分方法
CN117235137B (zh) 一种基于向量数据库的职业信息查询方法及装置
CN112489689B (zh) 基于多尺度差异对抗的跨数据库语音情感识别方法及装置
CN111858860B (zh) 搜索信息处理方法及系统、服务器、计算机可读介质
CN109284392B (zh) 一种文本分类方法、装置、终端及存储介质
CN116070700A (zh) 融合迭代式主动学习的生物医学关系抽取方法及系统
CN108733702B (zh) 用户查询上下位关系提取的方法、装置、电子设备和介质
CN114330350B (zh) 一种命名实体识别方法、装置、电子设备及存储介质
CN112487811B (zh) 基于强化学习的级联信息提取系统及方法
CN115512176A (zh) 模型训练方法、图像理解方法、装置、介质与电子设备
CN112632287A (zh) 电力知识图谱构建方法和装置
CN115238700B (zh) 基于多任务学习的生物医学实体抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant