CN108959431B - 标签自动生成方法、系统、计算机可读存储介质及设备 - Google Patents
标签自动生成方法、系统、计算机可读存储介质及设备 Download PDFInfo
- Publication number
- CN108959431B CN108959431B CN201810596247.2A CN201810596247A CN108959431B CN 108959431 B CN108959431 B CN 108959431B CN 201810596247 A CN201810596247 A CN 201810596247A CN 108959431 B CN108959431 B CN 108959431B
- Authority
- CN
- China
- Prior art keywords
- text
- label
- labels
- training
- generated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种标签自动生成方法、系统、计算机可读存储介质及设备,标签自动生成方法包括:针对有标签的训练文本和标签待生成文本,创建初始标签集合;挖掘有标签的训练文本和标签待生成文本;训练一标签判别模型;根据所述标签判别模型,以查找所述标签待生成文本对应的文本标签。本发明采用文本分析技术、机器学习和深度学习算法,基于多方法构建的原始标签集合,对待标注文本数据进行信息挖掘,基于文本主题分析方法,结合词语在文本中的分布情况,实现多模型融合的文本标签主题相似度计算,解决互联网在线内容等文本数据无标签、标签少的问题,解决人工标注缺乏统一标准,不同用户可能会将相似文本标注为不同标签等问题。最终帮助用户更准确、更高效地获得期望的信息。
Description
技术领域
本发明属于自然预言处理、文本分析、机器学习、深度学习技术领域,涉及一种生成方法和系统,特别是涉及一种标签自动生成方法、系统、计算机可读存储介质及设备。
背景技术
爬虫技术是一种“自动化浏览网络”的程序,它按照一定的规则,自动在万维网上抓取用户需要的信息。随着互联网的发展,网络成为大量信息的载体。爬虫技术也成为数据采集的重要组成部分,是大数据分析中最为基础的一步。
文本分析技术是指对文本的表示及其特征项的选取,是文本挖掘、信息检索中的基本问题。它将无结构的原始文本转化为结构化的计算机可以识别和处理的信息,从而建立数学模型来描述和代替文本,最终实现从大量文本中挖掘有效信息的目的。文本语义分析是识别文本主题、类别与意义等语义信息的过程,在自然语言处理、信息过滤、信息分类、信息检索、语义挖掘等领域都普遍应用。在自然语言处理中,许多文本表示模型可用于提取文本的特征向量。
深度学习具有分布式特征表达、自动特征提取、端到端机器学习和良好的泛化能力等优势,在语音识别、图像识别和自然语言处理等很多领域得到令人瞩目的成功应用。
统计发现互联网上超过50%的在线内容缺乏恰当的标签,甚至没有标签。而鼓励用户采用手工方式标签标注不仅费时费力,还面临诸多挑战,例如,用户自行定义的标签缺乏统一的标准,对相似的文本描述,不同的用户可能会提取出不同的标签。恰当的项目标签有助于用户更准确、更高效地获得期望的信息。当前,在自然语言处理领域词向量获取、文本语义相似度计算、文本语法相似度计算的研究不断取得新突破,在文本标签推荐(生成)领域,目前主流的文本标签推荐方法可分为两类:一类是文本关键词抽取方法,其基本假设是将标签看作文本中的关键词;另一类是文本主题分析方法,其基本假设是将标签看作文本主题,此类方法忽略了标签的重要度往往高于其他词汇,导致其预测准确率通常低于前一类方法,但此类方法预测效率较高。将分别在语义相似度和语法相似度任务中表现较好的算法以及主题模型相融合并用于标签生成方面,尚待研究。
运用机器学习方法解决自然语言处理问题,首先需要将待处理的输入数学化,譬如将词语转化为向量。词向量具有良好的语义特性,是表示词语特征的常用方式。词向量的每一维的值代表一个具有一定的语义和语法上解释的特征。故可以将词向量的每一维称为一个词语特征。词向量用Distributed Representation表示,一种低维实数向量。
因此,如何提供一种标签自动生成方法、系统、计算机可读存储介质及设备,以解决现有技术互联网在线内容等文本数据无标签、标签少、人工标注缺乏统一标准,不同用户可能会将相似文本标注为不同标签等缺陷,实已成为本领域技术人员亟待解决的技术问题。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种标签自动生成方法、系统、计算机可读存储介质及设备,用于解决现有技术互联网在线内容等文本数据无标签、标签少、人工标注缺乏统一标准,不同用户可能会将相似文本标注为不同标签的问题。
为实现上述目的及其他相关目的,本发明提供一种标签自动生成方法,包括:针对具有标签的训练文本和标签待生成文本,创建初始标签集合;挖掘所述训练文本和标签待生成文本;训练一标签判别模型;根据所述标签判别模型,以查找所述标签待生成文本对应的文本标签。
于本发明的一实施例中,所述针对具有标签的训练样本和标签待生成文本,创建初始标签集合的步骤包括:当与标签待生成文本同来源的即训练文本缺失或数据量有限时,利用爬虫抓取与标签待生成文本在主题、内容、话题方面接近并且有分类标签的网站的热门标签及该热门标签下的对应内容,对于较短的标签寻找其全称,作为初始标签集合的一部分;清洗训练文本以及标签待生成文本,提取清洗后的训练文本标签待生成文本的词向量,计算关联词的关联度,并从清洗后的训练文本以及标签待生成文本中选取符合统计要求的词语,作为初始标签集合的另一部分;将选取出符合统计要求的词语进行主题聚类,总结部分标签;将所述训练文本和标签待生成文本中不符合统计要求的词语进行处理。
于本发明的一实施例中,所述训练文本和标签待生成文本中不符合统计要求的词语包括出现频次小于预设出现频次的词语;所述将所述训练文本和标签待生成文本中不符合统计要求的词语进行处理的步骤包括:以同含义的高频词语替换或者删除出现频次小于预设出现频次的词语。
于本发明的一实施例中,所述挖掘标签待生成文本的步骤包括:利用深度学习思想,根据所述词向量,建立关联词表;利用一主题模型进行文本语义分析,以挖掘出训练文本的语法、语义、潜在主题信息,借助挖掘出的语法、语义、潜在主题信息,建立关联词语集合与主题集合;获取清洗后的训练文本与标签待生成文本中所有词语的词语分布特征。
于本发明的一实施例中,运用预存词项加权法获取清洗后的训练文本与标签待生成文本的词语分布特征。
于本发明的一实施例中,所述关联词表为<初始标签词,(关联词1,关联度),…,(关联词N,关联度)>;N为大于等于2的正整数;所述主题集合为<主题,(主题词1,词汇概率),…,(主题词N,词汇概率)>集合;所述主题为输入的训练标签。
于本发明的一实施例中,所述训练一标签判别模型的步骤包括:基于所述关联度和与之对应的词语分布特征,计算文本标签关联词相关度;基于所述词汇概率和与之对应的词语分布特征,计算文本标签主题相关度;根据所述文本标签关联词相关度和文本标签主题相关度,计算文本标签相关度,将每一标签的判定作为二分类任务,将文本标签相关度的相关度函数与预存判别函数结合,以创建出一标签判别模型;将清洗后的训练文本作为输入数据集,估计模型参数,训练出所述标签判别模型的最优参数。
于本发明的一实施例中,所述将清洗后的训练文本作为输入数据集,估计模型参数,训练出所述标签判别模型的最优参数的步骤包括:通过极大似然法构建目标函数,再运用预存的梯度下降法或牛顿法训练出所述标签判别模型的最优参数。
于本发明的一实施例中,所述训练一标签判别模型的步骤还包括:通过预先收集好的测试集验证所述标签判别模型。
于本发明的一实施例中,所述根据所述标签判别模型,以查找所述标签待生成文本对应的文本标签的步骤包括:标签待生成文本输入标签待生成文本,根据训练文本获得的词向量与语法、语义、主题信息,计算输入的标签待生成文本的文本标签关联词相关度和文本标签主题相关度;将计算的文本标签关联词相关度和文本标签主题相关度输入到所述标签判别模型,以查找所述输入的标签待生成文本对应的文本标签,实现输入的标签待生成文本的自动生成。
本发明另一方面提供一种标签自动生成系统,包括:创建模块,用于针对具有标签的训练文本和标签待生成文本,创建初始标签集合;挖掘模块,用于挖掘训练文本和标签待生成文本;训练模块,用于训练一标签判别模型;标签生成模块,用于根据所述标签判别模型,以查找所述标签待生成文本对应的文本标签。
于本发明的一实施例中,所述标签自动生成系统还包括验证模块,用于通过预先收集好的测试集验证所述标签判别模型。
本发明又一方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述标签自动生成方法。
本发明最后一方面提供一种设备,包括:处理器及存储器;所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述设备执行所述标签自动生成方法。
如上所述,本发明的标签自动生成方法、系统、计算机可读存储介质及设备,具有以下
有益效果:
本发明所述标签自动生成方法、系统、计算机可读存储介质及设备采用文本分析技术、机器学习和深度学习算法,基于多方法构建的原始标签集合,对训练文本数据进行信息挖掘,基于文本主题分析方法,结合词语在文本中的分布情况,实现多模型融合的文本标签主题相似度计算,解决互联网在线内容等文本数据无标签、标签少的问题,解决人工标注缺乏统一标准,不同用户可能会将相似文本标注为不同标签等问题。最终帮助用户更准确、更高效地获得期望的信息。
附图说明
图1显示为本发明的标签自动生成方法于一实施例中的流程示意图。
图2显示为本发明的标签自动生成方法中S11的流程示意图。
图3显示为本发明的标签自动生成方法中S12的流程示意图。
图4显示为本发明的标签自动生成方法中S13的流程示意图。
图5显示为本发明的标签自动生成系统于一实施例中的原理结构示意图。
元件标号说明
5 标签自动生成系统
51 创建模块
52 挖掘模块
53 训练模块
54 标签生成模块
S11~S14 步骤
S111~S114 步骤
S121~S123 步骤
S131~S135 步骤
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
本发明所述标签自动生成方法、系统、计算机可读存储介质及设备基于爬虫技术,结合文本分析与深度学习技术,实现文本数据的标签生成。利用爬虫抓取与标签待生成文本主题、内容接近并且有分类标签的网站的热门标签;统计原始数据清洗后的词频,选取出现频次较高且有意义的词语;原始数据主题聚类后进行人工总结,多途径构建原始标签集。采用文本分析技术和深度学习算法,研究挖掘原始标签集合对应的语法相似词语与语义相似词语以及对应的词语相似度数值。基于文本词语与标签的相似度以及词语在文本中的重要度,研究设计标签主题相似度计算与标签预测算法,构建标签预测模型,最终实现自动生成文本数据的标签。且本发明采用文本分析技术、机器学习和深度学习算法,基于多方法构建的原始标签集合,对待标注文本数据进行信息挖掘,基于文本主题分析方法,结合词语在文本中的分布情况,实现多模型融合的文本标签主题相似度计算,解决互联网在线内容等文本数据无标签、标签少的问题,解决人工标注缺乏统一标准,不同用户可能会将相似文本标注为不同标签等问题。最终帮助用户更准确、更高效地获得期望的信息。
实施例一
本实施例提供一种标签自动生成方法,包括:
针对具有标签的训练文本和标签待生成文本,创建初始标签集合;
挖掘所述训练文本和标签待生成文本;
训练一标签判别模型;
根据所述标签判别模型,以查找所述标签待生成文本对应的文本标签。
以下将结合图示对本实施例所提供的标签自动生成方法进行详细描述。本实施例所述标签自动生成方法用于实现文本数据较为准确的标签标注,帮助用户更准确、更高效地获得期望的信息。
请参阅图1,显示为标签自动生成方法于一实施例中的流程示意图。如图1所示,所述标签自动生成方法具体包括以下几个步骤:
S11,针对具有标签的训练样本和标签待生成文本,创建初始标签集合。请参阅图2,显示为S11的流程示意图。如图2所示,所述S11具体包括以下步骤:
S111,利用爬虫抓取与标签待生成文本在主题、内容、话题方面接近并且有分类标签的网站的热门标签及该热门标签下的对应内容,对于较短的标签寻找其全称,作为初始标签集合的一部分。
S112,清洗训练文本标签待生成文本,提取清洗后的训练文本标签待生成文本的词向量,计算关联词的关联度,并从清洗后的训练文本标签待生成文本中选取符合统计要求的词语,作为初始标签集合的另一部分。
具体地,清洗待标注的原始文本是指去除停用词、标点符号,利用分词工具分词,进行词性标注,过滤相关词性,从统计筛选后的词语中选取出现频次较高且有意义的词语,作为标签集合的一部分。
具体地,是指运用多种神经网络词嵌入模型,提取清洗后的训练文本标签待生成文本的词向量,计算关联词的关联度,包括但不限于以下所提方法:
(1)word2vec,word2vec采用DBOW以及skip-gram模型,通过上下文词语信息来推断当前词发生的概率;
(2)WordRank,通过Robust Ranking来进行词向量定义,WordRank在语义类比任务上往往表现出更好的效果;
(3)FastText,借助subword信息,即连续的字符信息,来生成词向量,FastText在语法类比任务中往往表现出更好的效果。
S113,将选取出符合统计要求的词语进行主题聚类,总结部分标签。在本实施例中,所述符合统计要求的词语为出现频次大等于于预设出现频次的词语。
S114,将所述训练文本与标签待生成文本中不符合统计要求的词语进行处理。在本实施例中,所述标签待生成文本中不符合统计要求的词语包括出现频次小于预设出现频次的词语。
具体地,S114是指以同含义的高频词语替换或者删除出现频次小于预设出现频次的词语
S12,挖掘标签待生成文本。请参阅图3,显示为S12的流程示意图。如图3所示,所述S12包括:
S121,利用深度学习思想,根据所述词向量和关联词的关联度,建立关联词表。在本实施例中,所述关联词表为<初始标签词,(关联词1,关联度),…,(关联词N,关联度)>;N为大于等于2的正整数。
S122,利用一主题模型进行文本语义分析,以挖掘出训练文本标签待生成文本的潜在主题,借助挖掘出的潜在主题,建立主题集合。在本实施例中,所述主题集合为<主题,(主题词1,词汇概率),…,(主题词N,词汇概率)>集合;所述主题为输入的训练标签。
具体地,针对清洗后的有标签文本(与待标注文本来源相同),运用主题模型提取文本隐含主题,运用有监督的机器学习模型:Labeled LDA(不限于该方法),以标签为主题引导,获取<主题(输入的训练标签),(主题词1,词汇概率),…,(主题词N,词汇概率)>集合,如果有标注文本较少,则采用抓取的数据进行训练。
S123,获取清洗后的训练文本与标签待生成文本所有词语的词语分布特征。
具体地,运用预存词项加权法获取清洗后的训练文本与标签待生成文本的词语分布特征。
所述预存词项加权法例如,为词频-逆向文件频率(Term Frequency–InverseDocument Frequency,TF-IDF),获取清洗后的训练文本与标签待生成文本的词语分布特征。假设第i个标签待生成文本由M个有效词语组成,该标签待生成文本中所有词语的词语分布特征TF-IDF值记为{(DWi1:TFIDFi1);(DWi2:TFIDFi2);…;(DWij:TFIDFij);…;(DWiM:TFIDFiM)},其中DWij为文章i的第j个词语,TFIDFij为DWij在标签待生成文本i中的TF-IDF值。
S13,训练一标签判别模型。请参阅图4,显示为S13的流程示意图。如图4所示,所述S13包括:
S131,基于所述关联度和与之对应的词语分布特征,计算文本标签关联词相关度。
具体地,选取主题集合<标签词,(关联词,关联度)>集合中关联度最高的前N个,记为{(TagWordi:RDi0);(RWi1:RDi1);(RWi2:RDi2);…;(RWij:RDij);…;(RWiN:RDiN)},其中,TagWordi为初始标签集中的第i个标签词语,RWij为排序后第j个关联词,RDij为RWij对应的关联度,RDi0取固定值1。标签待生成文本的文本标签关联词相关度计算公式如下:
DiTaj=(RDj0×TFIDFi,j0)+(RDj1×TFIDFi,j1)+…+(RDjk×TFIDFi,jk)+…+(RDjN×TFIDFi,jN);
S132,基于所述词汇概率和与之对应的词语分布特征,计算文本标签主题相关度。
具体地,当标注文本充足,可采用Labeled LDA提取文本隐含主题时,以初始标签词为主题,从<主题(标签),(主题词,词概率)>集合中选取各主题下出现概率最高的前N个,记为{(Topici)--(TWi1:TPi1);(TWi2:TPi2);…;(TWij:TPij);…;(TWiN:TPiN)},其中,Topici为第i个主题,TWij为主题i下排序后第j个主题词,TPij则为TWij在主题i中的词语出现概率。文本标签主题相关度计算公式表示为DiTpj=(TPj1×TFIDFi,j1)+…+(TPjk×TFIDFi,jk)+…+(TPjN×TFIDFi,jN);
即其中,DiTpj表示待标注的第i个文本Di与第j个主题词Tpj的整体相关度,RDjk为Tj对应的第k个关联词的关联度,TFIDFi,jk为该关联词在Di中的TFIDF值。当标注文本有限,采用抓取的数据提取文本隐含主题,则文本的TFIDF值基于待标注文本与抓取文本综合获得。
S133,根据所述文本标签关联词相关度和文本标签主题相关度,计算文本标签相关度,将每一标签的判定作为二分类任务,将文本标签相关度的相关度函数与预存判别函数结合,以创建出一标签判别模型。
具体地,基于所述文本标签关联词相关度和文本标签主题相关度计算文本标签相关度,标签t下,文本语法语义特征提取方式i获取的文本关联词相关度记为DTati,隐含主题特征提取方式i获取的文本标签主题相关度记为DTpti,文本与标签t的相关度函数为ft=wr1DTat1Nr1+…+wrn1DTatn1Nrn1+ws1DTpt1Ns1+…+wsn2DTptn2Nsn2+b;
因为标签之间并非完全独立的,因此,将每一个标签的判定看作二分类任务,预设判别函数表示为以有标签文本(与待标注文本来源相同)处理结果为输入数据集通过“极大似然法”来估计wri,wsj与b,再运用梯度下降法或牛顿法等训练出所述标签判别模型的最优参数。
S134,将清洗后的训练文本作为输入数据集,估计模型参数,训练出所述标签判别模型的最优参数。如果有标签文本数据量有限,则以内容接近网站的标签与内容为训练集,训练获取上述标签生成模型的参数。
S135,通过预先收集好的测试集验证所述标签判别模型。
S14,根据所述标签判别模型,以查找所述标签待生成文本对应的文本标签。在本实施例中,S14具体包括以下步骤:
输入标签待生成文本,根据训练文本获得的关联词集合与主题集合,计算标签待生成文本的文本标签关联词相关度和文本标签主题相关度;
将计算的文本标签关联词相关度和文本标签主题相关度输入到所述标签判别模型,以查找所述新输入的标签待生成文本对应的文本标签,实现新输入的标签待生成文本的自动生成。
本实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述标签自动生成方法。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
本实施例所提供的标签自动生成方法采用文本分析技术、机器学习和深度学习算法,基于多方法构建的原始标签集合,对待标注文本数据进行信息挖掘,基于文本主题分析方法,结合词语在文本中的分布情况,实现多模型融合的文本标签主题相似度计算,解决互联网在线内容等文本数据无标签、标签少的问题,解决人工标注缺乏统一标准,不同用户可能会将相似文本标注为不同标签等问题。最终帮助用户更准确、更高效地获得期望的信息。
实施例二
本实施例提供一种标签自动生成系统,包括:
创建模块,用于针对标签待生成文本,创建初始标签集合;
挖掘模块,用于挖掘标签待生成文本;
训练模块,用于训练一标签判别模型;
标签生成模块,用于根据所述标签判别模型,以查找所述标签待生成文本对应的文本标签。
以下将结合图示对本实施例所提供的标签自动生成系统进行详细描述。需要说明的是,应理解以下标签自动生成系统的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,x模块可以为单独设立的处理元件,也可以集成在上述标签自动生成系统的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述标签自动生成系统的存储器中,由上述标签自动生成系统的某一个处理元件调用并执行以下x模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以下各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以下这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(ApplicationSpecificIntegratedCircuit,简称ASIC),或,一个或多个微处理器(digitalsingnalprocessor,简称DSP),或,一个或者多个现场可编程门阵列(FieldProgrammableGateArray,简称FPGA)等。再如,当以下某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(CentralProcessingUnit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。
请参阅图5,显示为标签自动生成系统于一实施例中原理结构示意图。如图5所示,所述标签自动生成系统5包括:创建模块51、挖掘模块52、训练模块53及标签生成模块54。
所述创建模块51用于针对标签待生成文本,创建初始标签集合。
具体地,所述创建模块51利用爬虫抓取与标签待生成文本在主题、内容、话题方面接近并且有分类标签的网站的热门标签及该热门标签下的对应内容,对于较短的标签寻找其全称,作为初始标签集合的一部分;清洗训练文本与标签待生成文本,提取清洗后的训练文本的词向量,计算关联词的关联度,并从清洗后的训练文本与标签待生成文本中选取符合统计要求的词语,作为初始标签集合的另一部分;将选取出符合统计要求的词语进行主题聚类,总结部分标签。在本实施例中,所述符合统计要求的词语为出现频次大等于于预设出现频次的词语;将所述标签待生成文本中不符合统计要求的词语进行处理。在本实施例中,所述标签待生成文本中不符合统计要求的词语包括出现频次小于预设出现频次的词语。
与所述创建模块51耦合的挖掘模块52用于挖掘标签待生成文本。
具体地,所述挖掘模块52用于利用深度学习思想,根据所述词向量和关联词的关联度,建立关联词表;利用一主题模型进行文本语义分析,以挖掘出训练文本的潜在主题,借助挖掘出的潜在主题,建立主题集合;获取清洗后的训练文本与标签待生成文本所有词语的词语分布特征。
在本实施例中,所述关联词表为<初始标签词,(关联词1,关联度),…,(关联词N,关联度)>;N为大于等于2的正整数。在本实施例中,所述主题集合为<主题,(主题词1,词汇概率),…,(主题词N,词汇概率)>集合;所述主题为输入的训练标签。
S123,获取清洗后的标签待生成文本所有词语的词语分布特征。
具体地,所述挖掘模块52运用预存词项加权法获取清洗后的训练文本与标签待生成文本的词语分布特征。
所述预存词项加权法例如,为词频-逆向文件频率(Term Frequency–InverseDocument Frequency,TF-IDF),获取清洗后的训练文本与标签待生成文本的词语分布特征。假设第i个标签待生成文本由M个有效词语组成,该标签待生成文本中所有词语的词语分布特征TF-IDF值记为{(DWi1:TFIDFi1);(DWi2:TFIDFi2);…;(DWij:TFIDFij);…;(DWiM:TFIDFiM)},其中DWij为文章i的第j个词语,TFIDFij为DWij在标签待生成文本i中的TF-IDF值。
与所述创建模块51和挖掘模块52耦合的训练模块53用于训练一标签判别模型。
具体地,所述训练模块53基于所述关联度和与之对应的词语分布特征,计算文本标签关联词相关度;基于所述词汇概率和与之对应的词语分布特征,计算文本标签主题相关度;根据所述文本标签关联词相关度和文本标签主题相关度,计算文本标签相关度,将每一标签的判定作为二分类任务,将文本标签相关度的相关度函数与预存判别函数结合,以创建出一标签判别模型;将清洗后的训练文本作为输入数据集,估计模型参数,训练出所述标签判别模型的最优参数。如果有标签文本数据量有限,则以内容接近网站的标签与内容为训练集,训练获取上述标签生成模型的参数;通过预先收集好的测试集验证所述标签判别模型。
具体地,选取主题集合<标签词,(关联词,关联度)>集合中关联度最高的前N个,记为{(TagWordi:RDi0);(RWi1:RDi1);(RWi2:RDi2);…;(RWij:RDij);…;(RWiN:RDiN)},其中,TagWordi为初始标签集中的第i个标签词语,RWij为排序后第j个关联词,RDij为RWij对应的关联度,RDi0取固定值1。标签待生成文本文本标签关联词相关度计算公式如下:
DiTaj=(RDj0×TFIDFi,j0)+(RDj1×TFIDFi,j1)+…+(RDjk×TFIDFi,jk)+…+(RDjN×TFIDFi,jN);
具体地,当标注文本充足,可采用Labeled LDA提取文本隐含主题时,以初始标签词为主题,从<主题(标签),(主题词,词概率)>集合中选取各主题下出现概率最高的前N个,记为{(Topici)--(TWi1:TPi1);(TWi2:TPi2);…;(TWij:TPij);…;(TWiN:TPiN)},其中,Topici为第i个主题,TWij为主题i下排序后第j个主题词,TPij则为TWij在主题i中的词语出现概率。文本标签主题相关度计算公式表示为DiTpj=(TPj1×TFIDFi,j1)+…+(TPjk×TFIDFi,jk)+…+(TPjN×TFIDFi,jN);
即其中,DiTpj表示待标注的第i个文本Di与第j个主题词Tpj的整体相关度,RDjk为Tj对应的第k个关联词的关联度,TFIDFi,jk为该关联词在Di中的TFIDF值。当标注文本有限,采用抓取的数据提取文本隐含主题,则文本的TFIDF值基于待标注文本与抓取文本综合获得。
具体地,基于所述文本标签关联词相关度和文本标签主题相关度计算文本标签相关度,标签t下,文本语法语义特征提取方式i获取的文本关联词相关度记为DTati,隐含主题特征提取方式i获取的文本标签主题相关度记为DTpti,文本与标签t的相关度函数为ft=wr1DTat1Nr1+…+wrn1DTatn1Nrn1+ws1DTpt1Ns1+…+wsn2DTptn2Nsn2+b;
因为标签之间并非完全独立的,因此,将每一个标签的判定看作二分类任务,预设判别函数表示为以有标签文本(与待标注文本来源相同)处理结果为输入数据集通过“极大似然法”来估计wri,wsj与b,再运用梯度下降法或牛顿法等训练出所述标签判别模型的最优参数。
与所述创建模块51、挖掘模块52及训练模块53耦合的标签生成模块54用于根据所述标签判别模型,以查找所述标签待生成文本对应的文本标签。
具体地,所述标签生成模块54输入新的标签待生成文本,取新输入的标签待生成文本的词向量、挖掘新输入的标签待生成文本的潜在主题;计算新输入的标签待生成文本的文本标签关联词相关度和文本标签主题相关度;将计算的文本标签关联词相关度和文本标签主题相关度输入到所述标签判别模型,以查找所述新输入的标签待生成文本对应的文本标签,实现新输入的标签待生成文本的自动生成。
实施例三
本实施例提供一种设备,所述设备包括:处理器、存储器、收发器、通信接口和系统总线;存储器和通信接口通过系统总线与处理器和收发器连接并完成相互间的通信,存储器用于存储计算机程序,通信接口用于和其他设备进行通信,处理器和收发器用于运行计算机程序,使设备执行如上标签自动生成方法的各个步骤。
上述提到的系统总线可以是外设部件互连标准(PeripheralPomponentInterconnect,简称PCI)总线或扩展工业标准结构(ExtendedIndustryStandardArchitecture,简称EISA)总线等。该系统总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口用于实现数据库访问装置与其他设备(例如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(RandomAccessMemory,简称RAM),也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
上述的处理器可以是通用处理器,包括中央处理器(CentralProcessingUnit,简称CPU)、网络处理器(NetworkProcessor,简称NP)等;还可以是数字信号处理器(DigitalSignalProcessing,简称DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,简称ASIC)、现场可编程门阵列(Field-ProgrammableGateArray,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
综上所述,本发明所述标签自动生成方法、系统、计算机可读存储介质及设备采用文本分析技术、机器学习和深度学习算法,基于多方法构建的原始标签集合,对待标注文本数据进行信息挖掘,基于文本主题分析方法,结合词语在文本中的分布情况,实现多模型融合的文本标签主题相似度计算,解决互联网在线内容等文本数据无标签、标签少的问题,解决人工标注缺乏统一标准,不同用户可能会将相似文本标注为不同标签等问题。最终帮助用户更准确、更高效地获得期望的信息。所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
Claims (11)
1.一种标签自动生成方法,其特征在于,包括:
针对具有标签的训练文本和标签待生成文本进行清洗,提取清洗后的训练文本标签待生成文本的词向量,创建初始标签集合;
通过利用深度学习思想,根据所述词向量,建立关联词表;利用一主题模型进行文本语义分析,以挖掘出训练文本的语法、语义、潜在主题信息,借助挖掘出的语法、语义、潜在主题信息,建立关联词语集合与主题集合;获取清洗后的训练文本与标签待生成文本中所有词语的词语分布特征来挖掘所述训练文本和标签待生成文本,建立关联词表和主题集合;其中,所述关联词表为<初始标签词,(关联词1,关联度),…,(关联词N,关联度)>;N为大于等于2的正整数;所述主题集合为<主题,(主题词1,词汇概率),…,(主题词N,词汇概率)>集合;所述主题为输入的训练标签;
训练一标签判别模型;所述训练一标签判别模型的步骤包括:基于所述关联度和与之对应的词语分布特征,计算文本标签关联词相关度;基于所述词汇概率和与之对应的词语分布特征,计算文本标签主题相关度;根据所述文本标签关联词相关度和文本标签主题相关度,计算文本标签相关度,将每一标签的判定作为二分类任务,将文本标签相关度的相关度函数与预存判别函数结合,以创建出一标签判别模型;将清洗后的训练文本作为输入数据集,估计模型参数,训练出所述标签判别模型的最优参数;
将计算的文本标签关联词相关度和文本标签主题相关度输入所述标签判别模型,以查找所述标签待生成文本对应的文本标签。
2.根据权利要求1所述的标签自动生成方法,其特征在于,所述针对具有标签的训练样本和标签待生成文本,创建初始标签集合的步骤包括:
当与标签待生成文本同来源的即训练文本缺失或数据量有限时,利用爬虫抓取与标签待生成文本在主题、内容、话题方面接近并且有分类标签的网站的热门标签及该热门标签下的对应内容,对于较短的标签寻找其全称,作为初始标签集合的一部分;
清洗训练文本以及标签待生成文本,提取清洗后的训练文本标签待生成文本的词向量,计算关联词的关联度,并从清洗后的训练文本以及标签待生成文本中选取符合统计要求的词语,作为初始标签集合的另一部分;
将选取出符合统计要求的词语进行主题聚类,总结部分标签;
将所述训练文本和标签待生成文本中不符合统计要求的词语进行处理。
3.根据权利要求2所述的标签自动生成方法,其特征在于,所述训练文本和标签待生成文本中不符合统计要求的词语包括出现频次小于预设出现频次的词语;所述将所述训练文本和标签待生成文本中不符合统计要求的词语进行处理的步骤包括:
以同含义的高频词语替换或者删除出现频次小于预设出现频次的词语。
4.根据权利要求1所述的标签自动生成方法,其特征在于,运用预存词项加权法获取清洗后的训练文本与标签待生成文本的词语分布特征。
5.根据权利要求1所述的标签自动生成方法,其特征在于,所述将清洗后的训练文本作为输入数据集,估计模型参数,训练出所述标签判别模型的最优参数的步骤包括:
通过极大似然法估计构建目标函数,再运用预存的梯度下降法或牛顿法训练出所述标签判别模型的最优参数。
6.根据权利要求1所述的标签自动生成方法,其特征在于,所述训练一标签判别模型的步骤还包括:
通过预先收集好的测试集验证所述标签判别模型。
7.根据权利要求1所述的标签自动生成方法,其特征在于,所述根据所述标签判别模型,以查找所述标签待生成文本对应的文本标签的步骤包括:
标签待生成文本输入标签待生成文本,根据训练文本获得的词向量与语法、语义、主题信息,计算输入的标签待生成文本的文本标签关联词相关度和文本标签主题相关度;
将计算的文本标签关联词相关度和文本标签主题相关度输入到所述标签判别模型,以查找所述输入的标签待生成文本对应的文本标签,实现输入的标签待生成文本的自动生成。
8.一种标签自动生成系统,其特征在于,包括:
创建模块,用于针对具有标签的训练文本和标签待生成文本进行清洗,提取清洗后的训练文本标签待生成文本的词向量,创建初始标签集合;
挖掘模块,用于通过利用深度学习思想,根据所述词向量,建立关联词表;利用一主题模型进行文本语义分析,以挖掘出训练文本的语法、语义、潜在主题信息,借助挖掘出的语法、语义、潜在主题信息,建立关联词语集合与主题集合;获取清洗后的训练文本与标签待生成文本中所有词语的词语分布特征来挖掘训练文本和标签待生成文本,建立关联词表和主题集合;其中,所述关联词表为<初始标签词,(关联词1,关联度),…,(关联词N,关联度)>;N为大于等于2的正整数;所述主题集合为<主题,(主题词1,词汇概率),…,(主题词N,词汇概率)>集合;所述主题为输入的训练标签;
训练模块,用于训练一标签判别模型;所述训练模块基于所述关联度和与之对应的词语分布特征,计算文本标签关联词相关度;基于所述词汇概率和与之对应的词语分布特征,计算文本标签主题相关度;根据所述文本标签关联词相关度和文本标签主题相关度,计算文本标签相关度,将每一标签的判定作为二分类任务,将文本标签相关度的相关度函数与预存判别函数结合,以创建出一标签判别模型;将清洗后的训练文本作为输入数据集,估计模型参数,训练出所述标签判别模型的最优参数;
标签生成模块,用于根据所述标签判别模型,以查找所述标签待生成文本对应的文本标签。
9.根据权利要求8所述的标签自动生成系统,其特征在于,所述标签自动生成系统还包括验证模块,用于通过预先收集好的测试集验证所述标签判别模型。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至7中任一项所述标签自动生成方法。
11.一种电子设备,其特征在于,包括:处理器及存储器;
所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述设备执行如权利要求1至7中任一项所述标签自动生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810596247.2A CN108959431B (zh) | 2018-06-11 | 2018-06-11 | 标签自动生成方法、系统、计算机可读存储介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810596247.2A CN108959431B (zh) | 2018-06-11 | 2018-06-11 | 标签自动生成方法、系统、计算机可读存储介质及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108959431A CN108959431A (zh) | 2018-12-07 |
CN108959431B true CN108959431B (zh) | 2022-07-05 |
Family
ID=64488028
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810596247.2A Active CN108959431B (zh) | 2018-06-11 | 2018-06-11 | 标签自动生成方法、系统、计算机可读存储介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108959431B (zh) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110032639B (zh) * | 2018-12-27 | 2023-10-31 | 中国银联股份有限公司 | 将语义文本数据与标签匹配的方法、装置及存储介质 |
CN109918662B (zh) * | 2019-03-04 | 2021-03-16 | 腾讯科技(深圳)有限公司 | 一种电子资源的标签确定方法、装置和可读介质 |
CN110262906B (zh) * | 2019-06-06 | 2021-07-02 | 北京三快在线科技有限公司 | 接口标签推荐方法、装置、存储介质和电子设备 |
CN112395528B (zh) * | 2019-08-13 | 2022-10-21 | 阿里巴巴集团控股有限公司 | 文本标签判别方法、装置、电子设备及存储介质 |
CN112579730A (zh) * | 2019-09-11 | 2021-03-30 | 慧科讯业有限公司 | 高扩展性、多标签的文本分类方法和装置 |
CN111177369A (zh) * | 2019-11-19 | 2020-05-19 | 厦门二五八网络科技集团股份有限公司 | 一种文章自动标签分类的方法及装置 |
US11790411B1 (en) | 2019-11-29 | 2023-10-17 | Wells Fargo Bank, N.A. | Complaint classification in customer communications using machine learning models |
CN111078885B (zh) * | 2019-12-18 | 2023-04-07 | 腾讯科技(深圳)有限公司 | 一种标签分类的方法、相关装置、设备以及存储介质 |
CN111191004B (zh) * | 2019-12-27 | 2023-09-22 | 咪咕文化科技有限公司 | 文本标签提取方法、装置及计算机可读存储介质 |
CN111309933B (zh) * | 2020-02-13 | 2023-11-10 | 中国科学院自动化研究所 | 文化资源数据自动标注系统 |
CN113297447A (zh) * | 2020-02-24 | 2021-08-24 | 天津职业技术师范大学(中国职业培训指导教师进修中心) | 一种基于关键词的相关知识产权信息抓取、挖掘及可视化分析系统及方法 |
CN111400584A (zh) * | 2020-03-16 | 2020-07-10 | 南方科技大学 | 联想词的推荐方法、装置、计算机设备和存储介质 |
CN113705227B (zh) * | 2020-05-21 | 2023-04-25 | 中国科学院上海高等研究院 | 中文无分词词嵌入模型的构建方法、系统、介质及设备 |
CN111797234B (zh) * | 2020-06-16 | 2024-04-30 | 北京北大软件工程股份有限公司 | 一种自然语言处理分类模型中多标签分布学习的方法和系统 |
CN112181814B (zh) * | 2020-09-18 | 2021-11-16 | 武汉大学 | 一种针对于缺陷报告的多标签标记方法 |
US11645449B1 (en) | 2020-12-04 | 2023-05-09 | Wells Fargo Bank, N.A. | Computing system for data annotation |
CN112632980B (zh) * | 2020-12-30 | 2022-09-30 | 广州友圈科技有限公司 | 一种基于大数据深度学习的企业分类方法、系统及电子设备 |
CN113127769B (zh) * | 2021-04-07 | 2022-07-29 | 华东师范大学 | 基于标签树和人工智能的习题标签预测系统 |
CN114661900A (zh) * | 2022-02-25 | 2022-06-24 | 安阳师范学院 | 一种文本标注推荐方法、装置、设备及存储介质 |
CN114462020B (zh) * | 2022-04-11 | 2022-07-12 | 广州卓远虚拟现实科技有限公司 | 基于区块链的软件授权方法及软件授权系统 |
CN116805044B (zh) * | 2023-08-17 | 2023-11-17 | 北京睿企信息科技有限公司 | 一种标签的获取方法、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102722518A (zh) * | 2011-03-24 | 2012-10-10 | 索尼公司 | 信息处理装置、信息处理方法和程序 |
CN105138670A (zh) * | 2015-09-06 | 2015-12-09 | 天翼爱音乐文化科技有限公司 | 音频文件标签生成方法和系统 |
CN105718585A (zh) * | 2016-01-26 | 2016-06-29 | 中国人民解放军国防科学技术大学 | 文档与标签词语义关联方法及其装置 |
CN106033445A (zh) * | 2015-03-16 | 2016-10-19 | 北京国双科技有限公司 | 获取文章关联度数据的方法和装置 |
CN106997382A (zh) * | 2017-03-22 | 2017-08-01 | 山东大学 | 基于大数据的创新创意标签自动标注方法及系统 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7548929B2 (en) * | 2005-07-29 | 2009-06-16 | Yahoo! Inc. | System and method for determining semantically related terms |
CN103955462B (zh) * | 2014-03-21 | 2017-03-15 | 南京邮电大学 | 一种基于多视图和半监督学习机制的图像标注方法 |
CN105608471B (zh) * | 2015-12-28 | 2020-01-14 | 苏州大学 | 一种鲁棒直推式标签估计及数据分类方法和系统 |
CN106055538B (zh) * | 2016-05-26 | 2019-03-08 | 达而观信息科技(上海)有限公司 | 主题模型和语义分析相结合的文本标签自动抽取方法 |
CN107239564B (zh) * | 2017-06-13 | 2021-03-19 | 南京大学 | 一种基于监督主题模型的文本标签推荐方法 |
CN107766873A (zh) * | 2017-09-06 | 2018-03-06 | 天津大学 | 基于排序学习的多标签零样本分类方法 |
CN107644235A (zh) * | 2017-10-24 | 2018-01-30 | 广西师范大学 | 基于半监督学习的图像自动标注方法 |
CN108021931A (zh) * | 2017-11-20 | 2018-05-11 | 阿里巴巴集团控股有限公司 | 一种数据样本标签处理方法及装置 |
-
2018
- 2018-06-11 CN CN201810596247.2A patent/CN108959431B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102722518A (zh) * | 2011-03-24 | 2012-10-10 | 索尼公司 | 信息处理装置、信息处理方法和程序 |
CN106033445A (zh) * | 2015-03-16 | 2016-10-19 | 北京国双科技有限公司 | 获取文章关联度数据的方法和装置 |
CN105138670A (zh) * | 2015-09-06 | 2015-12-09 | 天翼爱音乐文化科技有限公司 | 音频文件标签生成方法和系统 |
CN105718585A (zh) * | 2016-01-26 | 2016-06-29 | 中国人民解放军国防科学技术大学 | 文档与标签词语义关联方法及其装置 |
CN106997382A (zh) * | 2017-03-22 | 2017-08-01 | 山东大学 | 基于大数据的创新创意标签自动标注方法及系统 |
Non-Patent Citations (2)
Title |
---|
《extract text label keyword》;Toru Onoda 等;《IEEE》;20081222;第1-5页 * |
《基于关联词的主题模型语义标注》;周亦鹏;《智能系统学报》;20120830;第327-332页 * |
Also Published As
Publication number | Publication date |
---|---|
CN108959431A (zh) | 2018-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108959431B (zh) | 标签自动生成方法、系统、计算机可读存储介质及设备 | |
US10482146B2 (en) | Systems and methods for automatic customization of content filtering | |
CN107844533A (zh) | 一种智能问答系统及分析方法 | |
Lydia et al. | Correlative study and analysis for hidden patterns in text analytics unstructured data using supervised and unsupervised learning techniques | |
CN111767725A (zh) | 一种基于情感极性分析模型的数据处理方法及装置 | |
CN108228612B (zh) | 一种提取网络事件关键词以及情绪倾向的方法及装置 | |
US11886515B2 (en) | Hierarchical clustering on graphs for taxonomy extraction and applications thereof | |
Patel et al. | Dynamic lexicon generation for natural scene images | |
Bhakuni et al. | Evolution and evaluation: Sarcasm analysis for twitter data using sentiment analysis | |
Hossari et al. | TEST: A terminology extraction system for technology related terms | |
CN109271624A (zh) | 一种目标词确定方法、装置及存储介质 | |
Ha et al. | Correlation-based deep learning for multimedia semantic concept detection | |
CN115935983A (zh) | 事件抽取方法、装置、电子设备及存储介质 | |
Jayady et al. | Theme Identification using Machine Learning Techniques | |
Manisha et al. | Content-based image retrieval through semantic image segmentation | |
Nie et al. | Cross-domain semantic transfer from large-scale social media | |
Papapanagiotou et al. | Improving concept-based image retrieval with training weights computed from tags | |
CN114238735B (zh) | 一种互联网数据智能采集方法 | |
CN115269816A (zh) | 基于信息处理方法的核心人员挖掘方法、装置和存储介质 | |
Posonia et al. | Context-based classification of XML documents in feature clustering | |
CN115481240A (zh) | 一种数据资产质量检测方法和检测装置 | |
Zhu et al. | Chinese texts classification system | |
Li et al. | Classification of mobile APPs with combined information | |
Podder et al. | IHIRD: A Data Set for Indian Heritage Image Retrieval | |
Andruszkiewicz et al. | Automatic extraction of profiles from web pages |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |