CN113392651B - 训练词权重模型及提取核心词的方法、装置、设备和介质 - Google Patents

训练词权重模型及提取核心词的方法、装置、设备和介质 Download PDF

Info

Publication number
CN113392651B
CN113392651B CN202011238206.XA CN202011238206A CN113392651B CN 113392651 B CN113392651 B CN 113392651B CN 202011238206 A CN202011238206 A CN 202011238206A CN 113392651 B CN113392651 B CN 113392651B
Authority
CN
China
Prior art keywords
word
core
sample
positive
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011238206.XA
Other languages
English (en)
Other versions
CN113392651A (zh
Inventor
黄剑辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202011238206.XA priority Critical patent/CN113392651B/zh
Publication of CN113392651A publication Critical patent/CN113392651A/zh
Application granted granted Critical
Publication of CN113392651B publication Critical patent/CN113392651B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及计算机技术领域,尤其涉及训练词权重模型及提取核心词的方法、装置、设备和介质,用以提高核心词提取的准确率。方法包括:从多媒体内容中获取训练样本数据集;根据训练样本数据集对未训练的词权重模型执行多轮迭代训练,以获得已训练的词权重模型;每轮迭代训练过程为:从训练样本数据集中选取训练样本,将训练样本包含的样本文本和正负核心词语对输入未训练的词权重模型,获得各正核心词作为样本文本的核心词的第一概率值,各负核心词作为样本文本的核心词的第二概率值;根据第一概率值,第二概率值和标签间的差异,调整未训练的词权重模型的网络参数。本申请基于正负核心词语对对词权重模型进行训练,有利于提高核心词提取的准确率。

Description

训练词权重模型及提取核心词的方法、装置、设备和介质
技术领域
本申请涉及计算机技术领域,尤其涉及训练词权重模型及提取核心词的方法、装置、设备和介质。
背景技术
标题词权重任务(term-weights)是提取句子核心语义成分,消除冗余成分的影响的主要方式。该任务主要目的是通过理解句子语义给予每个词语权重值,从而区别出句子成分主次。
相关技术中的词权重任务大多采用统计和文本分类两大类方式完成,其中统计为无监督方式,代表方式为TF-IDF(term frequency–inverse document frequency,词频逆文本频率指数)、MI(mutual information,互信息),文本分类为有监督方式,常见的是分类模型。然而,基于统计的方式无法将词语和句子具体的语义建立联系。而基于分类的词权重模型在差异化词权重方面做得并不够好。因而,相关技术中的词权重任务核心成分提取的准确率不高。
发明内容
本申请实施例提供一种训练词权重模型及提取核心词的方法、装置、设备和介质,用以提高核心词提取的准确率。
本申请实施例提供的一种训练词权重模型的方法,所述词权重模型用于预测目标文本中各个词语的词权重值,包括:
从多媒体内容中获取训练样本数据集,所述训练样本数据集中的训练样本包括样本文本,以及对所述样本文本进行分词处理后得到的至少一对已标注标签的正负核心词语对,其中,所述正负核心词语对包括一个正核心词和一个负核心词,所述样本文本为描述所述多媒体内容的内容特征的句子,所述正核心词为描述所述多媒体内容的核心词,所述负核心词为描述所述多媒体内容的非核心词;
根据所述训练样本数据集中的训练样本,对未训练的词权重模型执行多轮迭代训练,以获得已训练的词权重模型,以提取所述目标文本中的核心词;其中,每一轮迭代训练都执行下列过程:
从所述训练样本数据集中选取至少一个训练样本,针对任意一个训练样本,将所述训练样本包含的样本文本和正负核心词语对输入未训练的词权重模型,获得所述未训练的词权重模型输出的各个正核心词作为所述样本文本的核心词的第一概率值,以及各个负核心词作为所述样本文本的核心词的第二概率值;
根据各个第一概率值,各个第二概率值和所述正负核心词语对上标注的标签之间的差异,对所述未训练的词权重模型的网络参数进行调整。
本申请实施例提供的一种提取核心词的方法,包括:
对目标文本进行分词处理,得到至少一个词语,其中所述目标文本为描述待处理的多媒体内容的内容特征的句子;
分别将分词得到的各个词语与所述目标文本输入所述已训练的词权重模型,基于所述已训练的词权重模型预测得到所述目标文本中各个词语词权重值,其中所述已训练的词权重模型为通过上述任一项所述的训练词权重模型的方法训练得到的;
基于各个词语对应的词权重值分析得到所述目标文本中的核心词,以作为描述所述待处理的多媒体内容的核心词。
本申请实施例提供的一种训练词权重模型的装置,所述词权重模型用于预测目标文本中各个词语的词权重值,包括:
获取单元,用于从多媒体内容中获取训练样本数据集,所述训练样本数据集中的训练样本包括样本文本,以及对所述样本文本进行分词处理后得到的至少一对已标注标签的正负核心词语对,其中,所述正负核心词语对包括一个正核心词和一个负核心词,所述样本文本为描述所述多媒体内容的内容特征的句子,所述正核心词为描述所述多媒体内容的核心词,所述负核心词为描述所述多媒体内容的非核心词;
训练单元,用于根据所述训练样本数据集中的训练样本,对未训练的词权重模型执行多轮迭代训练,以获得已训练的词权重模型,以提取所述目标文本中的核心词;其中,每一轮迭代训练都执行下列过程:
从所述训练样本数据集中选取至少一个训练样本,针对任意一个训练样本,将所述训练样本包含的样本文本和正负核心词语对输入未训练的词权重模型,获得所述未训练的词权重模型输出的各个正核心词作为所述样本文本的核心词的第一概率值,以及各个负核心词作为所述样本文本的核心词的第二概率值;
根据各个第一概率值,各个第二概率值和所述正负核心词语对上标注的标签之间的差异,对所述未训练的词权重模型的网络参数进行调整。
可选的,所述获取单元具体用于:
获取用于描述所述多媒体内容的内容特征的多个样本文本,分别对各个样本文本进行分词处理,获得对各个样本文本进行分词得到的多个词语;
对于同一样本文本分词得到的各个词语,对各个词语进行划分,获得至少一个核心词,以及除核心词之外的非核心词;
对于任意一个样本文本,从划分出的各个核心词中选取的一个作为正核心词,以及从划分出的各个非核心词中选取的一个作为负核心词,并将所述正核心词和所述负核心词组成一对正负核心词语对;
对于任意一个样本文本,将所述样本文本,以及针对所述样本文本的至少一对正负核心词语对组合作为一个训练样本,由所有样本文本构建得到的训练样本组合形成所述训练样本数据集,其中,包含同一样本文本的不同训练样本中的正负核心词语对不同。
可选的,所述获取单元具体用于:
对于同一样本文本分词得到的各个词语,基于预测得到的各个词语对应的词权重值对各个词语进行划分,将词权重值大于预设阈值的词语作为核心词,将剩余的词语作为非核心词;或者,根据词权重值对各个词语进行排序,将词权重值排序在预设次序范围内的词语作为核心词,将剩余的词语作为非核心词。
可选的,所述训练单元具体用于:
基于各个第一概率值以及各个第二概率值计算得到针对词权重模型的最大间隔损失函数;
基于所述最大间隔损失函数对所述未训练的词权重模型的网络参数进行调整,其中,词权重模型中的两个特征融合层的网络参数相同。
可选的,所述最大间隔损失函数为铰链损失;所述训练样本包括一对已标注标签的正负核心词语对时,针对词权重模型的最大间隔损失函数的计算公式如下:
其中,λ为大于0的超参数,n为包含所述样本文本的训练样本的总数量,pos_scori为第i.个训练样本中正核心词的第一概率值,neg_score为第i个训练样本中负核心词的第二概率值,i的取值为1~n。
本申请实施例提供的一种提取核心词的装置,包括:
文本处理单元,用于对目标文本进行分词处理,得到至少一个词语,其中所述目标文本为描述待处理的多媒体内容的内容特征的句子;
预测单元,用于分别将分词得到的各个词语与所述目标文本输入所述已训练的词权重模型,基于所述已训练的词权重模型预测得到所述目标文本中各个词语词权重值,其中所述已训练的词权重模型为通过上述任意一种训练词权重模型的方法训练得到的;
提取单元,用于基于各个词语对应的词权重值分析得到所述目标文本中的核心词,以作为描述所述待处理的多媒体内容的核心词。
本申请实施例提供的一种电子设备,包括处理器和存储器,其中,所述存储器存储有程序代码,当所述程序代码被所述处理器执行时,使得所述处理器执行上述任意一种训练词权重模型的方法的步骤或上述任意一种提取核心词的方法的步骤。
本申请实施例提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述任意一种训练词权重模型的方法的步骤或上述任意一种提取核心词的方法的步骤。
本申请实施例提供一种计算机可读存储介质,其包括程序代码,当所述程序产品在电子设备上运行时,所述程序代码用于使所述电子设备执行上述任意一种训练词权重模型的方法的步骤或上述任意一种提取核心词的方法的步骤。
本申请有益效果如下:
本申请实施例提供了一种训练词权重模型及提取核心词的方法、装置、设备和介质。由于本申请实施例中的训练样本除了用于描述多媒体内容的内容特征的样本文本之外,还增加了至少一对正负核心词语对,基于正核心词和负核心词组成pairwise(对),通过pairwise的方式来对词权重任务建模,该方式不仅可以有效的提升文本核心成分提取准确率,而且基于正核心词的第一概率值和负核心词的第二概率值来调整模型参数,可以强化文本中不同成分词语词权重值差异。另外,本申请实施例通过建模正负样本对的方式还可以大大扩充样本数量,有利于提高词权重模型的精度,进而有利于目标文本中的核心词提取的准确率。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1A为相关技术中的一种标题词权重的基本流程的示意图;
图1B为相关技术中的一种词权重分布示意图;
图2为本申请实施例中的一种应用场景的一个可选的示意图;
图3为本申请实施例中的一种训练词权重模型的方法的流程图;
图4为本申请实施例中的一种词权重模型的系统结构示意图;
图5为本申请实施例中的一种词权重分布示意图;
图6为本申请实施例中的一种词权重模型的使用方法的示意图;
图7为本申请实施例中的一种提取核心词的方法的流程示意图;
图8为本申请实施例中的一个词权重模型的完整训练方法的实现时序流程示意图;
图9为本申请实施例中的一种训练词权重模型的装置的组成结构示意图;
图10为本申请实施例中的一种提取核心词的装置的组成结构示意图;
图11为应用本申请实施例的一种电子设备的组成结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请技术方案的一部分实施例,而不是全部的实施例。基于本申请文件中记载的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请技术方案保护的范围。
下面对本申请实施例中涉及的部分概念进行介绍。
标题词:是从文献的题目、正文或摘要中抽选出来,经过规范化处理,用以描述文献内容特征的词和词语,也可以是指从视频的标题或文章等多媒体内容的题目、正文、摘要等中抽选出来,经过规范化处理,用以描述视频或文章等多媒体内容的内容特征的词和词语。
核心词(也称关键词或核心关键词)和非核心词:指网站产品和服务的目标客户可能用来搜索的关键词。一般情况下,能精准表达产品且字数比较少的词,可以作为核心词来使用。在本申请实施例中,核心词是指一个句子中重点成分的词。在一个句子中,除核心词之外的词即为非核心词,即一个句子中非重点成分的词语。
词权重:是一个词的重要程度的量化表示,一个词的词权重越大表示这个词越重要。在搜索时词权重是搜索排序的重要依据,比如可以将查询串进行分词处理后按照各个切分词的词权重高低来进行搜索排序,将词权重高的优先显示,可以提供更贴近用户搜索需求的搜索结果。
正负核心词语对:包括一个正核心词以及一个负核心词,其中,正核心词即本申请实施例中的正样本,而负核心词即本申请实施例中的负样本,也就是非核心词。在本申请实施例中,以正核心词和负核心词组合得到pairwise。通过pairwise的方式来对词权重任务建模,强化句子中的不同成分词语权重值的差异化,扩充样本数量。
BERT(Bidirectional Encoder Representation from Transformers,变压器的双向编码器表示):是一个基于Transformer的在大规模语料库上进行掩码语言模型(MaskLanguage Model,MLM)和下一句预测(Next Sentence Prediction,NSP)多任务训练得到的预训练语言模型。
TF-IDF(term frequency–inverse document frequency,词频-逆文本频率指数):是一种用于信息检索与数据挖掘的常用加权技术,是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外,因特网上的搜索引擎还会使用基于链接分析的评级方法,以确定文件在搜寻结果中出现的顺序。
本申请实施例涉及人工智能(ArtificialIntelligence,AI)和机器学习技术,基于人工智能中的计算机视觉技术和机器学习(MachineLearning,ML)而设计。
人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。
人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术主要包括计算机视觉技术、自然语言处理技术、以及机器学习/深度学习等几大方向。随着人工智能技术研究和进步,人工智能在多个领域展开研究和应用,例如常见的智能家居、智能客服、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、机器人、智能医疗等,相信随着技术的发展,人工智能将在更多的领域得到应用,并发挥越来越重要的价值。
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。本申请实施例在提取文本中的核心词时,采用基于机器学习或深度学习的词权重模型,基于该词权重模型对目标文本中的各个词语进行词权重值的预测,基于该预测结果来分析各个词语中能够作为该目标文本中的核心词的词语。基于本申请实施例中的方式提取得到的核心词更加准确。另外,也可将预测得到的词权重值应用在搜索或推荐等场景下。
在本申请实施例中提出的训练词权重模型的方法可分为两部分,包括训练部分和应用部分;其中,训练部分就涉及到机器学习这一技术领域,在训练部分中,通过机器学习这一技术训练词权重模型,使得本申请实施例中给出的包含正负核心词语对的训练样本来训练词权重模型,训练样本通过词权重模型后,可以得到训练样本中的正负核心词语对中的正核心词以及负核心词作为训练样本中的样本文本的核心词的概率值,通过优化算法不断调整模型参数,得到已训练的词权重模型;应用部分用于使用在训练部分训练得到的词权重模型来预测目标文本中的各个词语作为该文本的核心词的概率值,进而通过比较分析提取该文本中的核心词,以进行搜索,推荐等。
下面对本申请实施例的设计思想进行简要介绍:
标题词权重任务(term-weights)是提取句子核心语义成分,消除冗余成分的影响的主要方式。以图1A所示为例,该任务主要目的是通过理解句子语义给予每个词语权重值,从而区别出句子成分主次。因而,词权重任务的核心在于给予句子中的核心成分高权重,而给予其他的词语低权重,从而在业务应用中减少句子中非主成分词语对句子整体语义的影响。
然而,相关技术中词权重任务大多采用统计和文本分类两大类方式完成,其中统计为无监督方式,基于统计的方式基于全局语料做词频统计,无法将词语和句子具体的语义建立联系,核心成分提取的准确率不高。而文本分类为有监督方式,基于分类的词权重模型需要大量的标注数据,但是相关技术中没有更好的方式去扩充样本数量,并且在差异化词权重方面做得并不够好。
例如图1B所示,展示的是相关技术中的一种分类模型构建的词权重版本的标题词权重分布图,可以看出权重值大部分聚集在0.3~0.8之间,句子的主要成分和次要成分的权重值差异化不明显。该统计数据来自抽样的20000条样本数量,每条样本切词后,句子长度大约为20。
然而,一般而言,句子中的重点成分和非重点成分的权重值的数量分布应该是大部分句子中的词语权重值在0.5的左右两边,从而更有利于拉开重要成分和非重要成分的差距。此外,词权重任务的监督建模方式往往需要大量的标注样本,因此如何有效的扩充样本也是一个亟待解决的问题。
有鉴于此,本申请实施例提出了一种训练词权重模型及提取核心词的方法、装置、设备和介质。为了强化句子中不同成分的权重值差异化,本申请实施例提出一种基于pairwise的词权重建模方式,在训练样本中增加了至少一对正负核心词语对,该方式不仅可以有效的提升文本核心成分提取准确率,而且可以强化文本中不同成分词语词权重值差异。在样本扩充方面,该建模方式有效的利用正负样本对的模式来大大充实了样本量。
以下结合说明书附图对本申请的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本申请,并不用于限定本申请,并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
如图2所示,其为本申请实施例的应用场景示意图。该应用场景图中包括两个终端设备210和一个服务器220,终端设备210与服务器220之间可以通过通信网络进行通信。
在一种可选的实施方式中,通信网络是有线网络或无线网络。终端设备210以及服务器220可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
在本申请实施例中,终端设备210为用户使用的电子设备,该电子设备可以是个人计算机、手机、平板电脑、笔记本、电子书阅读器、智能家居等具有一定计算能力并且运行有即时通讯类软件及网站或者社交类软件及网站的计算机设备。各终端设备210通过无线网络与服务器220,服务器220可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。
其中,词权重模型可部署于服务器220上进行训练,服务器220中可存储有大量从多媒体内容中获取到的训练样本,包含至少一个样本文本,以及与该样本文本相关的至少一对正负核心词语对,用于训练词权重模型。可选的,在基于本申请实施例中的训练方法训练得到词权重模型之后,可直接将训练好的词权重模型可以部署在终端设备210上,也可以部署在服务器220上。在本申请实施例中,词权重模型常用于预测目标文本中各个词语的词权重值,对目标文本进行核心词提取。
在本申请实施例中,当词权重模型部署在终端设备210上时,即可由终端设备210对目标文本进行分词处理进行分词处理,并基于已部署的词权重模型来预测分词得到的各个词语的词权重值,进而分析得到该目标文本的核心词。当词权重模型部署在服务器220上时,即可由终端设备210获取目标文本并上传至服务器,由服务器对目标文本进行分词处理进行分词处理,并基于已部署的词权重模型来预测分词得到的各个词语的词权重值。之后,服务器220可将预测得到的各个词语的词权重值返回给终端设备210,由终端设备210分析得到该目标文本的核心词,也可由服务器220直接向终端设备210返回分析得到的核心词等。不过,一般情况下都是直接将词权重模型部署于服务器220上,在此不做具体限定。
需要说明的是,本申请实施例提供的训练词权重模型和提取核心词的方法可以应用于各种与核心词相关的任务的应用场景下。例如多媒体领域中的各种自然语言处理任务中的提取核心词这样的基础任务,但这样的基础任务往往对后续的任务至关重要。例如基于上述方法提取到的各视频的核心词,对视频进行分类,进而可用于结合用户的喜好与各视频的核心词的匹配度,向用户推荐视频;另外还可以在用户搜索时,根据用户输入的搜索词与相关搜索内容的核心词的匹配度,向用户展示搜索内容等,在此不再一一列举。
相应的,在不同场景下所使用的训练样本不同。以上述所列举的视频推荐的场景为例,多媒体内容为视频,所采用的训练样本中的样本文本为视频的标题,另外还包括基于该标题标注得到的正负核心词语对;在文章搜索的场景下,多媒体内容为文章,所采用的训练样本中的样本文本为文章的标题,另外还包括基于该标题标注得到的正负核心词语对,或者是文章的摘要以及基于该摘要标注得到的正负核心词语对等;同样的,在使用已训练的词权重模型进行核心词提取时,在不同的场景下,所使用的目标文本也不相同。
在一种可能的应用场景中,本申请中的训练样本可以采用云存储技术进行存储。云存储(cloud storage)是在云计算概念上延伸和发展出来的一个新的概念,分布式云存储系统(以下简称存储系统)是指通过集群应用、网格技术以及分布存储文件系统等功能,将网络中大量各种不同类型的存储设备(存储设备也称之为存储节点)通过应用软件或应用接口集合起来协同工作,共同对外提供数据存储和业务访问功能的一个存储系统。
在一种可能的应用场景中,为了便于降低通信时延,可以在各个地区部署服务器220,或为了负载均衡,可以由不同的服务器220分别去服务各个终端设备210对应的地区。多个服务器220以通过区块链实现数据的共享,多个服务器220相当于多个服务器220组成的数据共享系统。例如终端设备210位于地点a,与服务器220之间进行通信连接,终端设备210位于地点b,与其他服务器220之间通信连接。
对于数据共享系统中的每个服务器220,均具有与该服务器220对应的节点标识,数据共享系统中的每个服务器220均可以存储有数据共享系统中其他服务器220的节点标识,以便后续根据其他服务器220的节点标识,将生成的区块广播至数据共享系统中的其他服务器220。每个服务器220中可维护一个如下表所示的节点标识列表,将服务器220名称和节点标识对应存储至该节点标识列表中。其中,节点标识可为IP(Internet Protocol,网络之间互联的协议)地址以及其他任一种能够用于标识该节点的信息,表1中仅以IP地址为例进行说明。
表1
服务器名称 节点标识
节点1 119.115.151.174
节点2 118.116.189.145
节点N 119.124.789.258
下面结合上述描述的应用场景,参考附图来描述本申请示例性实施方式提供的训练词权重模型及提取核心词的方法,需要注意的是,上述应用场景仅是为了便于理解本申请的精神和原理而示出,本申请的实施方式在此方面不受任何限制。
在本申请实施例中,核心词提取主要是指对目标文本中的各个词语进行二分类,即判断目标文本中的各个词语是否是核心词。通过已训练的词权重模型对输入的目标文本中的各个词语进行处理,预测得到各个词语属于该目标文本的核心词的概率值,即各个词语的词权重值,以基于各个词语对应的词权重值分析得到这些词语中哪个或哪些词语属于核心词,进而,根据提取到的核心词来对视频进行标记,分类,向用户进行推荐等。因此在本申请中先训练词权重模型,再应用已训练的词权重模型进行文本核心词提取。
参阅图3所示,为本申请实施例提供的一种训练词权重模型的方法的实施流程图,词权重模型用于预测目标文本中各个词语的词权重值,该方法的具体实施流程如下:
S31:从多媒体内容中获取训练样本数据集,训练样本数据集中的训练样本包括样本文本,以及对样本文本进行分词处理后得到的至少一对已标注标签的正负核心词语对,其中,正负核心词语对包括一个正核心词和一个负核心词,样本文本为描述多媒体内容的内容特征的句子,正核心词为描述多媒体内容的核心词,负核心词为描述多媒体内容的非核心词;
在本申请实施例中,训练样本包括一条样本文本,以及对该样本文本分词后得到的至少一对正负核心词语对。在下文中都是以每个训练样本包含一对正负核心词语对为例进行举例说明的,样本文本为视频标题。
在本申请实施例中,一对正负核心词语对包括一个正核心词和一个负核心词,其中,正核心词相当于正样本,即表示该词语为该样本文本的核心词,而负核心词相当于负样本,即表示该词语并非是该样本文本的核心词,也就是该词语为非核心词。其中,关于正负核心词语对上的标签也是为了区分正负样本而标注的,正核心词作为正样本,标签可标注为1,负核心词作为负样本,标签可标注为0。
S32:根据训练样本数据集中的训练样本,对未训练的词权重模型执行多轮迭代训练,以获得已训练的词权重模型,以提取目标文本中的核心词;
在本申请实施例中,对未训练的词权重模型执行多轮迭代训练时,迭代的次数可以是预设值,其迭代次数达到上限时停止训练,得到已训练的词权重模型。也可以根据实际情况而定,在模型收敛的情况下停止训练,得到已训练的词权重模型等,在此不做具体限定。
其中,每一轮迭代训练都执行下列过程:
S321:从训练样本数据集中选取至少一个训练样本,针对任意一个训练样本,将训练样本包含的样本文本和正负核心词语对输入未训练的词权重模型,获得未训练的词权重模型输出的各个正核心词作为样本文本的核心词的第一概率值,以及各个负核心词作为样本文本的核心词的第二概率值;
S322:根据各个第一概率值,各个第二概率值和正负核心词语对上标注的标签之间的差异,对未训练的词权重模型的网络参数进行调整。
其中,在步骤S321中,可以每次迭代都选取一个训练样本,也可以每次迭代都选取一组训练样本,不过需要注意的是,这一组训练样本都包含同一样本文本,包含不同的正负核心词语对。
当每次迭代都选取一个训练样本时,在执行步骤S322时,只需要根据基于该训练样本预测得到的第一概率值和第二概率值来计算得到损失函数,进而基于该损失函数调整网络参数即可;当每次迭代都选取一组训练样本时,在执行步骤S322时,则需要根据基于各个训练样本预测得到的第一概率值,以及各个第二概率值来计算得到损失函数,进而基于该损失函数调整网络参数。
下面以视频推荐的场景为例,假设样本文本为视频标题,则本申请实施例中的训练样本由视频标题和一对正负核心词构成,例如{“标题”:“跳一跳,教你上600分的攻略”,“pos”:“跳一跳”,“neg”:“教你”}。其中,pos表示正核心词,neg表示负核心词。下面对本申请实施例中的训练样本的构建方式进行详细介绍,具体包括以下过程:
首先,分别对各个样本文本进行分词处理,获得对各个样本文本进行分词得到的多个词语;之后,对于同一样本文本分词得到的各个词语,对各个词语进行划分,获得至少一个核心词,以及除核心词之外的非核心词。在本申请实施例中,划分核心词与非核心词时,有很多种方式,下面列举几种:
方式一、人工标注。
在本申请实施例中,核心词和非核心词的划分也可以采用人工标注的方式,依据经验来划分,或者是参考如下特征来进行人工标注。一般情况下,一个核心词具有这些特征:
一般是2-4个字构成的一个词或词组,名词居多。在搜索引擎每日都有一定数目的稳定搜索量。搜索核心词的用户往往对网站的产品和服务有需求,或者对网站的内容感兴趣。网站的主要内容围绕核心词展开等。
需要说明的是,本申请实施例中所列举的上述参考特征都只是举例说明,实际上其他类似特征也可适用于本申请实施例,在此不做具体限定。
方式二、基于已有的分类模型或词频统计等方式预测一个样本文本分词得到的各个词语的词权重值,进而根据各个词语的词权重值来进行划分。
例如,对于同一样本文本分词得到的各个词语:W1,W2,W3,W4,W5和W6,基于预测得到的各个词语对应的词权重值对各个词语进行划分,将词权重值大于预设阈值的词语作为核心词,将剩余的词语作为非核心词;或者,根据词权重值对各个词语进行排序,将词权重值排序在预设次序范围内的词语作为核心词,将剩余的词语作为非核心词。
需要说明的是,在本申请实施例中,将剩余的词语作为非核心词时,可以是剩余的部分词语,或剩余的全部词语等,在此不做具体限定。
假设,这6个词语对应的词权重之间的大小分别为W1>W2>T>W3>W4>W5>W6,则在根据预设阈值T划分时,核心词有W1和W2,非核心词有W3,W4,W5和W6;在根据预设次序范围划分时,假设选取词权重值最大的三个作为核心词,则核心词由W1,W2和W3,非核心词有W4,W5和W6。
可选的,还可采用上述两种方式相结合,即基于词权重值划分之后,再根据人工经验对划分结果进行校验和调整,得到最终确定的核心词和非核心词,以提高训练样本的准确,进而以提高基于这些训练样本训练得到的词权重模型的准确率。
在本申请实施例中,对各个样本文本中的词语划分之后,由于一个样本文本可能会划分出多个核心词,以及多个非核心词,因而在组合构建训练样本时,这种样本构建方式一个正核心词往往对应多个非核心词,可以有效的扩充训练数据。
下面对构建训练样本的过程进行详细介绍:
对于任意一个样本文本,从划分出的各个核心词中选取的一个作为正核心词,以及从划分出的各个非核心词中选取的一个作为负核心词,并将正核心词和负核心词组成一对正负核心词语对;由于一个核心词可以对应多个有多个非核心词,因而在构建正负核心词语对时,可采用排列组合等方式,构建多个正负核心词语对。进而,对于任意一个样本文本,将样本文本,以及针对样本文本的至少一对正负核心词语对组合作为一个训练样本。本申请实施例中的训练样本数据集则是由所有样本文本构建得到的训练样本组合形成的,其中,不同的训练样本可以包括同一样本文本,但是包含同一样本文本的不同训练样本中的正负核心词语对中至少有一对不同。如果一个样本文本中只包含一对正负核心词语对时,包含同一样本文本的不同训练样本中的正负核心词语对不同。
下面以下述两个样本文本为例,来介绍一下训练样本的构建方法:
样本文本1:跳一跳,教你上600分的攻略。
样本文本2:手机迭代速度是其被称为消耗品的主要原因。
表2训练样本格式
参阅表2所示,为本申请实施例中所列举的一种训练样本格式的示例。其中,对于样本文本1:跳一跳,教你上600分的攻略。划分得到的核心词有:跳一跳,攻略;非核心词有:教你,上,600分。
对于样本文本1,通过对核心词和非核心词进行排列组合,可得到6个训练样本:
{“标题”:“跳一跳,教你上600分的攻略”,“pos”:“跳一跳”,“neg”:“教你”};{“标题”:“跳一跳,教你上600分的攻略”,“pos”:“跳一跳”,“neg”:“上”};{“标题”:“跳一跳,教你上600分的攻略”,“pos”:“跳一跳”,“neg”:“600分”};{“标题”:“跳一跳,教你上600分的攻略”,“pos”:“攻略”,“neg”:“教你”};{“标题”:“跳一跳,教你上600分的攻略”,“pos”:“攻略”,“neg”:“上”};{“标题”:“跳一跳,教你上600分的攻略”,“pos”:“攻略”,“neg”:“600分”}。
同理,对于样本文本2:手机迭代速度是其被称为消耗品的主要原因。划分得到的核心词有:手机,消耗品;非核心词:迭代,速度,原因。对于样本文本2,通过对核心词和非核心词进行排列组合,同样可得到6个训练样本,同样本文本1的组合方式相似,在此不再一一列举。
下面结合图4对本申请实施例中的词权重模型的训练过程进行详细介绍:
参阅图4所示,其为本申请实施例中所列举的一种词权重模型的系统结构示意图。如图4所示,本申请实施例中的词权重模型包括:两个编码器encoder和两个特征融合层fusion。具体的,以训练样本为{“标题”:“跳一跳,教你上600分的攻略”,“pos”:“跳一跳”,“neg”:“教你”}为例,由原始句子(即标题,也称样本文本)和一对正负核心词语对构成一条完整的样本。在基于图4所示的词权重模型来预测该训练样本中正核心词“跳一跳”的第一概率值,和负核心词“教你”的第二概率值时,具体实现方式如下:
将样本文本“跳一跳,教你上600分的攻略”输入其中一个编码器(第一编码器),基于第一编码器对该样本文本进行编码,得到该样本文本的文本特征向量A,并将文本特征向量A分别输入两个特征融合层fusion;以及,将正负核心词语对输入另一个编码器(第二编码器),基于第二编码器分别对正核心词“跳一跳”和负核心词“教你”进行编码,得到正核心词的正样本特征向量B1和负核心词的负样本特征向量B2,并将正样本特征向量B1输入其中一个特征融合层,将负样本特征向量B2输入另一个特征融合层,如图4所示。
之后,基于其中一个特征融合层对文本特征向量A和正样本特征向量B1进行特征融合后,映射得到正核心词作为样本文本的核心词的第一概率值pos_socre,以及基于另一个特征融合层对文本特征向量A和负样本特征向量B2进行特征融合后,映射得到负核心词作为样本文本的核心词的第二概率值neg_socre。
其中,图4所示的两个特征融合层fusion的网络参数相同,最简单的融合方式即为contact(拼接),即将文本特征向量A和正样本特征向量B1经过fusion进行拼接,得到第一拼接向量C1。具体的,在映射过程中,fusion之后还连接有FC(Fully connected,全连接)层,用于对C1进行映射,从d维映射到1维,得到一维向量D1,最后基于sigmoid(也可以是其它函数,例如softmax)将D1转换为第一概率值pos_socre;同理,将文本特征向量A和正样本特征向量B2进行拼接,得到第二拼接向量C2,之后C2经过FC,从d维映射到1维,得到一维向量D2,最后基于sigmoid将D2转换为第二概率值neg_socre。其中,两个全连接层FC的网络参数也相同。在本申请实施例中,这个映射过程中的网络参数也是需要不断调参学习的。
针对本申请实施例中的语义编码模块,也就是第一编码器和第二编码器,用于对标题句子进行语义编码的编码器可以采用CNN(Convolutional Neural Network,卷积神经网络)、LSTM(Long Short-Term Memory,长短期记忆网络)、LSTM+Attention(长短期记忆网络+注意力机制)等多种方式完成。
在本申请实施例中,引入了BERT作为最终的句子编码器,即用于对样本文本进行编码的第一编码器为BERT模型;另外,用于对正负核心词语对进行编码的编码器为DNN(Deep Neural Networks,深度神经网络)模型,即词语本身的编码采用DNN完成特征空间的映射变换。
其中,BERT用Transformer的双向编码器表示,BERT旨在通过联合调节所有层中的上下文来预先训练深度双向表示。因此,预训练的BERT表示可以通过一个额外的输出层进行微调,适用于广泛任务的最先进模型的构建,比如问答任务和语言推理,无需针对具体任务做大幅架构修改。本申请采用BERT模型可以有效提高训练速度。
不过需要说明的是,本本申请实施例中所列举的采用BERT作为句子的编码方式,DNN作为词语端的编码方式,在这里也可以替换其他的编码方式,本申请不做具体限定。
下面对基于第一概率值,第二概率值以及正负核心词语对上的标签来调整网络参数的过程进行详细介绍:
在本申请实施例中,pos_score和neg_score分别为正负核心词经过编码后的得分,也就是概率值(也称权重值或词权重值)。在基于第一概率值和第二概率值对本申请实施例中的词权重模型进行调整时,为了最大化正负词对间的权重值,损失函数采用最大间隔损失函数。即基于pos_score和neg_score来计算最大间隔损失函数,基于该损失函数来调整词权重模型的网络参数。其中,正负核心词语对上的标签可用于作为参考依据。
为了差异化正负核心词对的权重值,整个模型采用hinge-loss(铰链损失,主要用于支持向量机(SVM)中)作为损失函数。结合上述实施例中的S322所列举的两种迭代训练方式,当每次迭代都选取一个训练样本时,hinge-loss的计算公式如下:
loss=max(0,λ+neg_score-pos_score)
其中,λ是引入的超参数,一般取大于0的常数,意味着模型希望正核心词“跳一跳”的词权重值pos_score比负核心词“教你”的词权重值neg_score大。
需要说明的是,上述公式是以一个训练样本包含有一对正负核心词语对为例所列举的,当包含多对正负核心词语对时也是类似的道理,在此不再具体限定。
当每次迭代都选取一组训练样本,假设选取一组包含“跳一跳,教你上600分的攻略”这一样本文本的训练样本,此时样本数量最多可以为6(假设该组训练样本的总数量n=6),损失函数的计算公式如下:
其中,λ为大于0的超参数,n为包含样本文本的训练样本的总数量,pos_scori为第i个训练样本中正核心词的第一概率值,neg_score为第i个训练样本中负核心词的第二概率值,i的取值为1~n。
在上述实施方式中,基于上述所列举的hinge-loss损失函数来调整模型的网络参数,可以有效地差异化正负核心词对的权重值。
参阅图5所示,其为本申请实施例中所列举的一种词权重分布示意图。在本申请实施例中,词权重任务的核心在于给予句子中的核心成分高权重而给予其他的词语低权重,从而在业务应用中减少句子中非主成分词语对句子整体语义的影响。一般而言,句子中的重点成分和非重点成分的权重值的数量分布应该更需要符合图5所示的分布图,也就是大部分句子中的词语权重值在0.5的左右两边,从而更有利于拉开重要成分和非重要成分的差距。基于本申请实施例中训练得到的词权重模型可以更好的差异化正负核心词对的权重值,以达到图5所示的效果。
在获得已训练的词权重模型之后,基于已训练的词权重模型提取核心词的基本框架如图6所示,该词权重模型以句子每个组成词语和整个句子作为输入,通过编码器encoder,特征融合层fusion,全连接层FC和sigmoid后输出判断当前词语是否为该句子的主要成分,越核心词语输出值越接近1,表明该词语权重值越大。其中,图6所示的模型中的编码器,特征融合层,全连接层和sigmoid等的网络参数同已训练好的图4所示的模型的网络参数相同。在使用已训练好的词权重模型来预测时,由于不需要输入正负核心词语对,而只需要输入当前需要预测的目标词语,因而只需要一个fusion,一个FC和一个sigmoid即可。
参阅图7所示,其为本申请实施例中所列举的一种提取核心词的方法的流程图,具体包括以下步骤:
S71:对目标文本进行分词处理,得到至少一个词语,其中目标文本为描述待处理的多媒体内容的内容特征的句子;
S72:分别将分词得到的各个词语与目标文本输入已训练的词权重模型,基于已训练的词权重模型预测得到目标文本中各个词语词权重值,其中已训练的词权重模型为通过上述任意一种训练词权重模型的方法训练得到的;
S73:基于各个词语对应的词权重值分析得到目标文本中的核心词,以作为描述待处理的多媒体内容的核心词。
例如,在视频搜索场景下,获取包含有用户输入的搜索文本的搜索请求时,该搜索文本即为目标文本,此时即可对该搜索文本分析,基于本申请实施例中训练得到的词权重模型来提取出核心词,进而通过与该核心词匹配,筛选出相关的视频,以向用户展示搜索结果。
其中,在基于各个词语对应的词权重值分析得到目标文本中的核心词时,核心词可以是一个,也可以是多个。比如选取概率值最大的词语作为核心词,或者是选取概率值大于某一阈值的词语作为核心词等,在此不做具体限定,依据实际情况而定。
综上,本申请在词权重任务中引入正负样本对方式构建训练数据,从而有效的扩充了词权重任务中标注样本数量,解决训练样本不足的问题。并且,采用hinge-loss作为最终的损失函数,可以有效地差异化正负核心词对的权重值。基于该模型提取到的核心词的准确率也更高。
参阅图8所示,为一种词权重模型的完整训练方法的实现时序流程示意图。该方法的具体实施流程如下:
步骤S81:获取多个样本文本,并对各个样本文本进行分词处理;
步骤S82:对于同一样本文本分词得到的各个词语,对各个词语进行划分,获得至少一个核心词,以及除核心词之外的非核心词;
步骤S83:对于各个样本文本,从划分出的各个核心词中选取的一个作为正核心词,以及从划分出的各个非核心词中选取的一个作为负核心词,并将正核心词和负核心词组成一对正负核心词语对;
步骤S84:对于各个样本文本,将样本文本,以及针对该样本文本的一对正负核心词语对进行组合,构建训练样本;
步骤S85:从训练样本数据集中选取训练样本;
步骤S86:将训练样本包含的样本文本和正负核心词语对输入未训练的词权重模型,获得未训练的词权重模型输出的各个正核心词作为样本文本的核心词的第一概率值,以及各个负核心词作为样本文本的核心词的第二概率值;
步骤S87:根据各个第一概率值,各个第二概率值和正负核心词语对上标注的标签之间的差异,对未训练的词权重模型的网络参数进行调整;
步骤S88:判断模型是否收敛,如果是,则执行步骤S89,否则,返回步骤S85;
步骤S89:获得已训练的词权重模型。
基于相同的发明构思,本申请实施例还提供一种训练词权重模型的装置。参阅图9所示,其为本申请实施例中所列举的一种训练词权重模型的装置900的结构示意图,词权重模型用于预测目标文本中各个词语的词权重值,可以包括:
获取单元901,用于从多媒体内容中获取训练样本数据集,训练样本数据集中的训练样本包括样本文本,以及对样本文本进行分词处理后得到的至少一对已标注标签的正负核心词语对,其中,正负核心词语对包括一个正核心词和一个负核心词,样本文本为描述多媒体内容的内容特征的句子,正核心词为描述多媒体内容的核心词,负核心词为描述多媒体内容的非核心词;
训练单元902,用于根据训练样本数据集中的训练样本,对未训练的词权重模型执行多轮迭代训练,以获得已训练的词权重模型,以提取目标文本中的核心词;其中,每一轮迭代训练都执行下列过程:
从训练样本数据集中选取至少一个训练样本,针对任意一个训练样本,将训练样本包含的样本文本和正负核心词语对输入未训练的词权重模型,获得未训练的词权重模型输出的各个正核心词作为样本文本的核心词的第一概率值,以及各个负核心词作为样本文本的核心词的第二概率值;
根据各个第一概率值,各个第二概率值和正负核心词语对上标注的标签之间的差异,对未训练的词权重模型的网络参数进行调整。
可选的,词权重模型包括两个编码器和两个特征融合层;训练单元902具体用于:
将样本文本输入其中一个编码器,基于编码器对样本文本进行编码,得到样本文本的文本特征向量,并将文本特征向量分别输入两个特征融合层;以及
将正负核心词语对输入另一个编码器,基于编码器分别对正核心词和负核心词进行编码,得到正核心词的正样本特征向量和负核心词的负样本特征向量,并将正样本特征向量输入其中一个特征融合层,将负样本特征向量输入另一个特征融合层;
基于其中一个特征融合层对文本特征向量和正样本特征向量进行特征融合后,映射得到正核心词作为样本文本的核心词的第一概率值,以及基于另一个特征融合层对文本特征向量和负样本特征向量进行特征融合后,映射得到负核心词作为样本文本的核心词的第二概率值。
可选的,用于对样本文本进行编码的编码器为BERT模型,用于对正负核心词语对进行编码的编码器为深度神经网络模型。
可选的,获取单元901具体用于:
获取用于描述多媒体内容的内容特征的多个样本文本,分别对各个样本文本进行分词处理,获得对各个样本文本进行分词得到的多个词语;
对于同一样本文本分词得到的各个词语,对各个词语进行划分,获得至少一个核心词,以及除核心词之外的非核心词;
对于任意一个样本文本,从划分出的各个核心词中选取的一个作为正核心词,以及从划分出的各个非核心词中选取的一个作为负核心词,并将正核心词和负核心词组成一对正负核心词语对;
对于任意一个样本文本,将样本文本,以及针对样本文本的至少一对正负核心词语对组合作为一个训练样本,由所有样本文本构建得到的训练样本组合形成训练样本数据集,其中,包含同一样本文本的不同训练样本中的正负核心词语对不同。
可选的,获取单元901具体用于:
对于同一样本文本分词得到的各个词语,基于预测得到的各个词语对应的词权重值对各个词语进行划分,将词权重值大于预设阈值的词语作为核心词,将剩余的词语作为非核心词;或者,根据词权重值对各个词语进行排序,将词权重值排序在预设次序范围内的词语作为核心词,将剩余的词语作为非核心词。
可选的,训练单元902具体用于:
基于各个第一概率值以及各个第二概率值计算得到针对词权重模型的最大间隔损失函数;
基于最大间隔损失函数对未训练的词权重模型的网络参数进行调整,其中,词权重模型中的两个特征融合层的网络参数相同。
可选的,最大间隔损失函数为铰链损失;训练样本包括一对已标注标签的正负核心词语对时,针对词权重模型的最大间隔损失函数的计算公式如下:
其中,λ为大于0的超参数,n为包含样本文本的训练样本的总数量,pos_scori为第i个训练样本中正核心词的第一概率值,neg_score为第i个训练样本中负核心词的第二概率值,i的取值为1~n。
基于相同的发明构思,本申请实施例还提供一种提取核心词的装置。参阅图10所示,其为本申请实施例中所列举的一种提取核心词的装置1000的结构示意图,可以包括:
文本处理单元1001,用于对目标文本进行分词处理,得到至少一个词语,其中目标文本为描述待处理的多媒体内容的内容特征的句子;
预测单元1002,用于分别将分词得到的各个词语与目标文本输入已训练的词权重模型,基于已训练的词权重模型预测得到目标文本中各个词语词权重值,其中已训练的词权重模型为通过上述任意一种训练词权重模型的方法训练得到的;
提取单元1003,用于基于各个词语对应的词权重值分析得到目标文本中的核心词,以作为描述待处理的多媒体内容的核心词。
为了描述的方便,以上各部分按照功能划分为各模块(或单元)分别描述。当然,在实施本申请时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。
在介绍了本申请示例性实施方式的训练词权重模型及提取核心词的方法和装置之后,接下来,介绍根据本申请的另一示例性实施方式的电子设备。
所属技术领域的技术人员能够理解,本申请的各个方面可以实现为系统、方法或程序产品。因此,本申请的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
与上述方法实施例基于同一发明构思,本申请实施例中还提供了一种电子设备。该电子设备可以用于训练词权重模型及提取核心词。在一种实施例中,该电子设备可以是服务器,如图2所示的服务器220。在该实施例中,电子设备的结构可以如图11所示,包括存储器1101,通讯模块1103以及一个或多个处理器1102。
存储器1101,用于存储处理器1102执行的计算机程序。存储器1101可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统,以及运行即时通讯功能所需的程序等;存储数据区可存储各种即时通讯信息和操作指令集等。
存储器1101可以是易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储器1101也可以是非易失性存储器(non-volatilememory),例如只读存储器,快闪存储器(flash memory),硬盘(hard disk drive,HDD)或固态硬盘(solid-state drive,SSD);或者存储器1101是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器1101可以是上述存储器的组合。
处理器1102,可以包括一个或多个中央处理单元(central processing unit,CPU)或者为数字处理单元等等。处理器1102,用于调用存储器1101中存储的计算机程序时实现上述任意一种训练词权重模型及提取核心词的方法。
通讯模块1103用于与终端设备和其他服务器进行通信。
本申请实施例中不限定上述存储器1101、通讯模块1103和处理器1102之间的具体连接介质。本公开实施例在图11中以存储器1101和处理器1102之间通过总线1104连接,总线1104在图11中以粗线表示,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。总线1104可以分为地址总线、数据总线、控制总线等。为便于表示,图11中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器1101中存储有计算机存储介质,计算机存储介质中存储有计算机可执行指令,计算机可执行指令用于实现本申请实施例的训练词权重模型及提取核心词的方法。处理器1102用于执行上述的训练词权重模型及提取核心词的方法,如图3或图7所示。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本申请的实施方式的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在计算装置上运行。然而,本申请的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被命令执行系统、装置或者器件使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由命令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本申请实施例上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请实施例各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些更改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (15)

1.一种训练词权重模型的方法,其特征在于,所述词权重模型用于预测目标文本中各个词语的词权重值,该方法包括:
从多媒体内容中获取训练样本数据集,所述训练样本数据集中的训练样本包括样本文本,以及对所述样本文本进行分词处理后得到的至少一对已标注标签的正负核心词语对,其中,所述正负核心词语对包括一个正核心词和一个负核心词,所述样本文本为描述所述多媒体内容的内容特征的句子,所述正核心词为描述所述多媒体内容的核心词,所述负核心词为描述所述多媒体内容的非核心词;
根据所述训练样本数据集中的训练样本,对未训练的词权重模型执行多轮迭代训练,以获得已训练的词权重模型,以提取所述目标文本中的核心词;其中,每一轮迭代训练都执行下列过程:
从所述训练样本数据集中选取至少一个训练样本,针对任意一个训练样本,将所述训练样本包含的样本文本和正负核心词语对输入未训练的词权重模型,获得所述未训练的词权重模型输出的各个正核心词作为所述样本文本的核心词的第一概率值,以及各个负核心词作为所述样本文本的核心词的第二概率值;
根据各个第一概率值,各个第二概率值和所述正负核心词语对上标注的标签之间的差异,对所述未训练的词权重模型的网络参数进行调整。
2.如权利要求1所述的方法,其特征在于,词权重模型包括两个编码器和两个特征融合层;所述将所述训练样本包含的样本文本和正负核心词语对输入未训练的词权重模型,获得所述未训练的词权重模型输出的所述正核心词作为所述样本文本的核心词的第一概率值,以及所述负核心词作为所述样本文本的核心词的第二概率值,具体包括:
将所述样本文本输入其中一个编码器,基于编码器对所述样本文本进行编码,得到所述样本文本的文本特征向量,并将所述文本特征向量分别输入两个特征融合层;以及
将所述正负核心词语对输入另一个编码器,基于编码器分别对所述正核心词和负核心词进行编码,得到正核心词的正样本特征向量和负核心词的负样本特征向量,并将所述正样本特征向量输入其中一个特征融合层,将所述负样本特征向量输入另一个特征融合层;
基于其中一个特征融合层对所述文本特征向量和所述正样本特征向量进行特征融合后,映射得到所述正核心词作为所述样本文本的核心词的第一概率值,以及基于另一个特征融合层对所述文本特征向量和所述负样本特征向量进行特征融合后,映射得到所述负核心词作为所述样本文本的核心词的第二概率值。
3.如权利要求2所述的方法,其特征在于,用于对所述样本文本进行编码的编码器为BERT模型,用于对所述正负核心词语对进行编码的编码器为深度神经网络模型。
4.如权利要求1所述的方法,其特征在于,所述从多媒体内容中获取训练样本数据集,具体包括:
获取用于描述所述多媒体内容的内容特征的多个样本文本,分别对各个样本文本进行分词处理,获得对各个样本文本进行分词得到的多个词语;
对于同一样本文本分词得到的各个词语,对各个词语进行划分,获得至少一个核心词,以及除核心词之外的非核心词;
对于任意一个样本文本,从划分出的各个核心词中选取的一个作为正核心词,以及从划分出的各个非核心词中选取的一个作为负核心词,并将所述正核心词和所述负核心词组成一对正负核心词语对;
对于任意一个样本文本,将所述样本文本,以及针对所述样本文本的至少一对正负核心词语对组合作为一个训练样本,由所有样本文本构建得到的训练样本组合形成所述训练样本数据集,其中,包含同一样本文本的不同训练样本中的正负核心词语对不同。
5.如权利要求4所述的方法,其特征在于,所述对于同一样本文本分词得到的各个词语,对各个词语进行划分,获得至少一个核心词,以及除核心词之外的非核心词,具体包括:
对于同一样本文本分词得到的各个词语,基于预测得到的各个词语对应的词权重值对各个词语进行划分,将词权重值大于预设阈值的词语作为核心词,将剩余的词语作为非核心词;或者,根据词权重值对各个词语进行排序,将词权重值排序在预设次序范围内的词语作为核心词,将剩余的词语作为非核心词。
6.如权利要求1~5任一项所述的方法,其特征在于,所述根据各个第一概率值,各个第二概率值和所述正负核心词语对上标注的标签之间的差异,对所述未训练的词权重模型的网络参数进行调整,具体包括:
基于各个第一概率值以及各个第二概率值计算得到针对词权重模型的最大间隔损失函数;
基于所述最大间隔损失函数对所述未训练的词权重模型的网络参数进行调整,其中,词权重模型中的两个特征融合层的网络参数相同。
7.如权利要求6所述的方法,其特征在于,所述最大间隔损失函数为铰链损失;所述训练样本包括一对已标注标签的正负核心词语对时,针对词权重模型的最大间隔损失函数的计算公式如下:
其中,λ为大于0的超参数,n为包含所述样本文本的训练样本的总数量,pos_scori为第i个训练样本中正核心词的第一概率值,neg_score为第i个训练样本中负核心词的第二概率值,i的取值为1~n。
8.一种提取核心词的方法,其特征在于,该方法包括:
对目标文本进行分词处理,得到至少一个词语,其中所述目标文本为描述待处理的多媒体内容的内容特征的句子;
分别将分词得到的各个词语与所述目标文本输入所述已训练的词权重模型,基于所述已训练的词权重模型预测得到所述目标文本中各个词语词权重值,其中所述已训练的词权重模型为通过权利要求1~7中任一项所述的方法训练得到的;
基于各个词语对应的词权重值分析得到所述目标文本中的核心词,以作为描述所述待处理的多媒体内容的核心词。
9.一种训练词权重模型的装置,其特征在于,所述词权重模型用于预测目标文本中各个词语的词权重值,包括:
获取单元,用于从多媒体内容中获取训练样本数据集,所述训练样本数据集中的训练样本包括样本文本,以及对所述样本文本进行分词处理后得到的至少一对已标注标签的正负核心词语对,其中,所述正负核心词语对包括一个正核心词和一个负核心词,所述样本文本为描述所述多媒体内容的内容特征的句子,所述正核心词为描述所述多媒体内容的核心词,所述负核心词为描述所述多媒体内容的非核心词;
训练单元,用于根据所述训练样本数据集中的训练样本,对未训练的词权重模型执行多轮迭代训练,以获得已训练的词权重模型,以提取所述目标文本中的核心词;其中,每一轮迭代训练都执行下列过程:
从所述训练样本数据集中选取至少一个训练样本,针对任意一个训练样本,将所述训练样本包含的样本文本和正负核心词语对输入未训练的词权重模型,获得所述未训练的词权重模型输出的各个正核心词作为所述样本文本的核心词的第一概率值,以及各个负核心词作为所述样本文本的核心词的第二概率值;
根据各个第一概率值,各个第二概率值和所述正负核心词语对上标注的标签之间的差异,对所述未训练的词权重模型的网络参数进行调整。
10.如权利要求9所述的装置,其特征在于,词权重模型包括两个编码器和两个特征融合层;所述训练单元具体用于:
将所述样本文本输入其中一个编码器,基于编码器对所述样本文本进行编码,得到所述样本文本的文本特征向量,并将所述文本特征向量分别输入两个特征融合层;以及
将所述正负核心词语对输入另一个编码器,基于编码器分别对所述正核心词和负核心词进行编码,得到正核心词的正样本特征向量和负核心词的负样本特征向量,并将所述正样本特征向量输入其中一个特征融合层,将所述负样本特征向量输入另一个特征融合层;
基于其中一个特征融合层对所述文本特征向量和所述正样本特征向量进行特征融合后,映射得到所述正核心词作为所述样本文本的核心词的第一概率值,以及基于另一个特征融合层对所述文本特征向量和所述负样本特征向量进行特征融合后,映射得到所述负核心词作为所述样本文本的核心词的第二概率值。
11.如权利要求10所述的装置,其特征在于,用于对所述样本文本进行编码的编码器为BERT模型,用于对所述正负核心词语对进行编码的编码器为深度神经网络模型。
12.如权利要求9所述的装置,其特征在于,所述获取单元具体用于:
获取用于描述所述多媒体内容的内容特征的多个样本文本,分别对各个样本文本进行分词处理,获得对各个样本文本进行分词得到的多个词语;
对于同一样本文本分词得到的各个词语,对各个词语进行划分,获得至少一个核心词,以及除核心词之外的非核心词;
对于任意一个样本文本,从划分出的各个核心词中选取的一个作为正核心词,以及从划分出的各个非核心词中选取的一个作为负核心词,并将所述正核心词和所述负核心词组成一对正负核心词语对;
对于任意一个样本文本,将所述样本文本,以及针对所述样本文本的至少一对正负核心词语对组合作为一个训练样本,由所有样本文本构建得到的训练样本组合形成所述训练样本数据集,其中,包含同一样本文本的不同训练样本中的正负核心词语对不同。
13.一种提取核心词的装置,其特征在于,包括:
文本处理单元,用于对目标文本进行分词处理,得到至少一个词语,其中所述目标文本为描述待处理的多媒体内容的内容特征的句子;
预测单元,用于分别将分词得到的各个词语与所述目标文本输入所述已训练的词权重模型,基于所述已训练的词权重模型预测得到所述目标文本中各个词语词权重值,其中所述已训练的词权重模型为通过权利要求1~7中任一项所述的方法训练得到的;
提取单元,用于基于各个词语对应的词权重值分析得到所述目标文本中的核心词,以作为描述所述待处理的多媒体内容的核心词。
14.一种电子设备,其特征在于,其包括处理器和存储器,其中,所述存储器存储有程序代码,当所述程序代码被所述处理器执行时,使得所述处理器执行权利要求1~7中任一所述方法的步骤或权利要求8所述方法的步骤。
15.一种计算机可读存储介质,其特征在于,其包括程序代码,当所述程序代码在电子设备上运行时,所述程序代码用于使所述电子设备执行权利要求1~7中任一所述方法的步骤或权利要求8所述方法的步骤。
CN202011238206.XA 2020-11-09 2020-11-09 训练词权重模型及提取核心词的方法、装置、设备和介质 Active CN113392651B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011238206.XA CN113392651B (zh) 2020-11-09 2020-11-09 训练词权重模型及提取核心词的方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011238206.XA CN113392651B (zh) 2020-11-09 2020-11-09 训练词权重模型及提取核心词的方法、装置、设备和介质

Publications (2)

Publication Number Publication Date
CN113392651A CN113392651A (zh) 2021-09-14
CN113392651B true CN113392651B (zh) 2024-05-14

Family

ID=77616523

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011238206.XA Active CN113392651B (zh) 2020-11-09 2020-11-09 训练词权重模型及提取核心词的方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN113392651B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114372458B (zh) * 2022-01-20 2023-04-07 北京零点远景网络科技有限公司 一种基于政务工单的突发事件检测方法
CN115114395B (zh) * 2022-04-15 2024-03-19 腾讯科技(深圳)有限公司 内容检索及模型训练方法、装置、电子设备和存储介质
CN114792092B (zh) * 2022-06-24 2022-09-13 武汉北大高科软件股份有限公司 一种基于语义增强的文本主题抽取方法及装置
CN115221875B (zh) * 2022-07-28 2023-06-20 平安科技(深圳)有限公司 词权重生成方法、装置、电子设备及存储介质
CN116108831B (zh) * 2023-04-11 2023-06-23 宁波深擎信息科技有限公司 基于领域词提取文本摘要的方法、装置、设备及介质
CN116402166B (zh) * 2023-06-09 2023-09-01 天津市津能工程管理有限公司 一种预测模型的训练方法、装置、电子设备及存储介质
CN116596489B (zh) * 2023-07-19 2024-01-02 广东电网有限责任公司广州供电局 一种分布式光伏运营工单数据采集分析方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107967256A (zh) * 2017-11-14 2018-04-27 北京拉勾科技有限公司 词语权重预测模型生成方法、职位推荐方法及计算设备
CN108959263A (zh) * 2018-07-11 2018-12-07 北京奇艺世纪科技有限公司 一种词条权重计算模型训练方法及装置
CN109033082A (zh) * 2018-07-19 2018-12-18 深圳创维数字技术有限公司 语义模型的学习训练方法、装置及计算机可读存储介质
KR20190104656A (ko) * 2018-03-02 2019-09-11 최성우 텍스트에서 제목을 추출하는 방법 및 장치
WO2019214149A1 (zh) * 2018-05-11 2019-11-14 平安科技(深圳)有限公司 文本关键信息的识别方法、电子装置及可读存储介质
CN111401066A (zh) * 2020-03-12 2020-07-10 腾讯科技(深圳)有限公司 基于人工智能的词分类模型训练方法、词处理方法及装置
CN111738001A (zh) * 2020-08-06 2020-10-02 腾讯科技(深圳)有限公司 同义词识别模型的训练方法、同义词确定方法及设备
CN111859964A (zh) * 2019-04-29 2020-10-30 普天信息技术有限公司 一种语句中命名实体的识别方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105677769B (zh) * 2015-12-29 2018-01-05 广州神马移动信息科技有限公司 一种基于潜在狄利克雷分配(lda)模型的关键词推荐方法和系统
US9811765B2 (en) * 2016-01-13 2017-11-07 Adobe Systems Incorporated Image captioning with weak supervision
CN105808526B (zh) * 2016-03-30 2019-07-30 北京京东尚科信息技术有限公司 商品短文本核心词提取方法和装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107967256A (zh) * 2017-11-14 2018-04-27 北京拉勾科技有限公司 词语权重预测模型生成方法、职位推荐方法及计算设备
KR20190104656A (ko) * 2018-03-02 2019-09-11 최성우 텍스트에서 제목을 추출하는 방법 및 장치
WO2019214149A1 (zh) * 2018-05-11 2019-11-14 平安科技(深圳)有限公司 文本关键信息的识别方法、电子装置及可读存储介质
CN108959263A (zh) * 2018-07-11 2018-12-07 北京奇艺世纪科技有限公司 一种词条权重计算模型训练方法及装置
CN109033082A (zh) * 2018-07-19 2018-12-18 深圳创维数字技术有限公司 语义模型的学习训练方法、装置及计算机可读存储介质
CN111859964A (zh) * 2019-04-29 2020-10-30 普天信息技术有限公司 一种语句中命名实体的识别方法及装置
CN111401066A (zh) * 2020-03-12 2020-07-10 腾讯科技(深圳)有限公司 基于人工智能的词分类模型训练方法、词处理方法及装置
CN111738001A (zh) * 2020-08-06 2020-10-02 腾讯科技(深圳)有限公司 同义词识别模型的训练方法、同义词确定方法及设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于词汇同现模型的关键词自动提取方法研究;肖红;许少华;;沈阳理工大学学报;20091015(第05期);第38-41页 *

Also Published As

Publication number Publication date
CN113392651A (zh) 2021-09-14

Similar Documents

Publication Publication Date Title
CN113392651B (zh) 训练词权重模型及提取核心词的方法、装置、设备和介质
CN108875051B (zh) 面向海量非结构化文本的知识图谱自动构建方法及系统
CN108573411B (zh) 基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法
CN111259127B (zh) 一种基于迁移学习句向量的长文本答案选择方法
CN110929038B (zh) 基于知识图谱的实体链接方法、装置、设备和存储介质
WO2021121198A1 (zh) 基于语义相似度的实体关系抽取方法、装置、设备及介质
CN111159485B (zh) 尾实体链接方法、装置、服务器及存储介质
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN113011172B (zh) 文本处理方法、装置、计算机设备和存储介质
CN109325146A (zh) 一种视频推荐方法、装置、存储介质和服务器
CN113282711B (zh) 一种车联网文本匹配方法、装置、电子设备及存储介质
CN113761868B (zh) 文本处理方法、装置、电子设备及可读存储介质
CN114329029B (zh) 对象检索方法、装置、设备及计算机存储介质
CN112528136A (zh) 一种观点标签的生成方法、装置、电子设备和存储介质
Wang et al. Data set and evaluation of automated construction of financial knowledge graph
WO2019139727A1 (en) Accuracy determination for media
CN117494051A (zh) 一种分类处理的方法、模型训练的方法以及相关装置
CN114282528A (zh) 一种关键词提取方法、装置、设备及存储介质
CN116975434A (zh) 内容推荐方法以及相关设备
CN114722774B (zh) 数据压缩方法、装置、电子设备及存储介质
Kumar et al. Sentiment analysis using bi-directional recurrent neural network for Telugu movies
CN114647739A (zh) 实体链指方法、装置、电子设备及存储介质
CN114741587A (zh) 一种物品推荐方法、装置、介质及设备
CN112269877A (zh) 数据标注方法及装置
CN111444338A (zh) 文本处理、装置、存储介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40052778

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant