CN107239564A - 一种基于监督主题模型的文本标签推荐方法 - Google Patents
一种基于监督主题模型的文本标签推荐方法 Download PDFInfo
- Publication number
- CN107239564A CN107239564A CN201710442281.XA CN201710442281A CN107239564A CN 107239564 A CN107239564 A CN 107239564A CN 201710442281 A CN201710442281 A CN 201710442281A CN 107239564 A CN107239564 A CN 107239564A
- Authority
- CN
- China
- Prior art keywords
- mrow
- text
- label
- new
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000012549 training Methods 0.000 claims abstract description 15
- 238000005516 engineering process Methods 0.000 claims abstract description 9
- 238000011156 evaluation Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000006467 substitution reaction Methods 0.000 claims description 6
- 238000000354 decomposition reaction Methods 0.000 claims description 3
- 238000013461 design Methods 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 abstract description 5
- 238000013480 data collection Methods 0.000 abstract description 4
- 238000002474 experimental method Methods 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 8
- 230000004044 response Effects 0.000 description 7
- 238000013459 approach Methods 0.000 description 6
- 230000000052 comparative effect Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 3
- 235000013399 edible fruits Nutrition 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 206010051602 Laziness Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000004660 morphological change Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于监督主题模型的文本标签推荐方法,通过考虑了标签及其相关词频繁出现于对应文本的特点,给出了一个新的监督文本主题模型Sim2Word,从而较好地解决了文本关键词抽取方法预测效率低和文本主题分析方法预测准确率低的问题。本方法分为两个主要步骤,首先基于词向量技术获取已有标签的相关词数据,之后利用标签和相关词训练标签预测模型,最后基于模型预测新文本的标签。在收集于StackOverflow等真实数据集上的实验表明,该方法较传统的文本标签推荐技术具有更高识别准确率。
Description
技术领域
本发明涉及标签推荐,特别是文本标签推荐。许多拥有大量文本的在线网站中,标签和它的相关词经常出现或者多次出现在标签对应的文本内容中,而且这些词往往在文本内容中占有重要的地位。利用该观察信息,在词向量技术的基础上,获取标签的相关词,基于标签和相关词训练监督主题模型,有效增强了对新文本的标签推荐能力,提高了文本标签推荐系统的推荐精度。
背景技术
近年来,随着计算机互联网技术的迅速发展,标签系统已经在互联网上得到了广泛的使用。从一方面来看,标签通常代表着关键字,用来描述和总结在线的内容,使得对在线内容的信息组织和提取更为方便。而另一方面,目前有超过50%的在线内容缺乏足够的标签信息甚至没有包含标签。面对庞大的在线内容,对用户甚至是内容的创建者而言,人工地对内容进行标签标注都是极其困难的。手工方式标签标注不仅费时费力,还面临诸多挑战:一方面,用户往往缺乏专门的知识,难以标注合适的标签;另一方面,面对内容庞杂的在线文本,用户标注的标签往往不够全面和准确。因此,如何为在线内容自动化地推荐合适的标签,已经日益成为一个必要的工作。
以问答网站为例,用户可以在网站上发表提问帖子,寻求问题的解决方案。在发帖时用户需要为帖子标注上合适的标签。对问答网站来说,一个问题是否被标注上合适的标签对该问题是否能够得到及时回复影响很大。标注合适标签的问题,往往能够很快得到领域专业人士的回复,而标注不够全面和准确的标签的问题,可能在很长一段时间都得不到回复,或者得不到有效的解决方案。
在研究在线文本内容时,我们发现,许多拥有大量文本的在线网站中,标签和它的相关词经常出现或者多次出现在标签对应的文本内容中,而且这些词往往在文本内容中占有重要的地位。我们在多个真实数据集上对这类现象进行了实证研究,验证了这类现象的普遍存在,但仍然需要考虑如何将此观察现象进行建模,使得标签推荐方法能够利用更多的信息去提高标签推荐的准确率。
目前主流的文本标签推荐方法大致可分为两类:文本关键词抽取方法和文本主题分析方法。文本关键词抽取方法的基本思想是提取文本中的关键词,根据关键词,推荐出新文本的标签。此类方法将标签看作文本中的关键词,预测准确率较高,但在预测过程中需要大量计算开销,难以适用在线的文本标签推荐任务。文本主题分析方法的基本思想是发现文本中的主题,对主题进行建模,然后推荐出新文本的标签。此类方法的预测效率较高,但仅将标签看作文本主题,忽略了标签往往是一类重要的词,预测准确率较低。对于在线文本标签推荐来说,首先需要满足的是预测效率。在此基础上,考虑如何提高预测准确率。
为此,我们结合这两类方法的优点,在监督文本主题模型的基础上,考虑了标签及其相关词频繁出现于对应文本的特点,给出了一个新的监督文本主题模型Sim2Word。通过词向量技术获取已有标签的相关词数据,再利用标签和相关词训练标签预测模型,最后基于模型预测新文本的标签,从而地解决自动文本标签推荐的问题。
发明内容
发明目的:由于基于文本关键词抽取方法在预测过程中需要大量计算开销,难以适用在线的文本标签推荐任务,基于文本主题分析方法忽略了标签往往是一类很重要的词,预测准确率较低,而且标签和它的相关词经常出现或者多次出现在标签对应的文本内容中。为此,本发明在利用该观察信息和监督主题模型的基础上提出了一种新的文本标签推荐方法,有效地解决了文本标签推荐的准确率低下和效率低下问题。
在许多拥有大量文本的在线网站中,标签和它的相关词经常出现或者多次出现在标签对应的文本内容中。我们把这种观察的现象称作为标签及相关词的出现。图1给出了来自StackOverflow网站上的一个说明性的例子。StackOverflow是一个面向编程开发人员的技术问答寻找解决方案的流行网站。用户可以发表帖子提出问题,并且为他们的问题标记上合适的标签,这样便于快速得到准确并且有质量的回复。从图中我们可以看出,所有标签(虚线框标注,即java,generics,inheritance,polymorphism)均直接出现在帖子正文内容中(出现位置用实线框标注)。除此之外,标签的相关词(例如,单词subclass和polymorphic均与标签polymorphism相关)也同时出现在帖子的正文内容中。本发明首次将这个发现进行建模,提出了新的监督文本主题模型,称之为Sim2Word。
我们提出了一种基于标签及相关词的在线文本标签推荐框架。对于在线文本标签推荐框架来说,首先需要获取在线系统的数据才能进行推荐。然而,不同的在线系统提供获取数据的接口不同,而且获取到的数据格式也不相同。所以框架要具有通用性,能够应对不同的数据接口和格式差异。其次,用户在线编辑文本内容时,期望能很快得到标签推荐的结果。这就要求框架具有较高的预测响应效率,尽可能地减少用户在编辑时需要等待的时间。另外,不同的在线系统可能属于不同的领域,所包含的专业知识和专业词汇也不尽相同,框架要能够为不同领域的在线系统提供个性化的标签推荐。最后,用户在线编辑内容时,期望能得到合适的候选标签推荐。这就要求框架具有较高的预测准确率,能够实际减轻用户的负担。
框架可与多种在线文本编辑系统相结合,首先获取在线文本编辑系统的原始数据集,不同的在线系统提供获取数据的API可能不同,有的在线系统甚至没有提供获取数据的接口,需要使用爬虫系统进行数据抓取,所以针对不同在线系统框架有不同的数据获取模块。获取原始数据之后,不同在线系统的数据格式不同,需要对原始数据进行预处理,提取出需要的文本信息,转换为统一的数据格式进行存储。接着利用格式统一的数据,使用基于词向量技术获取已有标签的相关词数据。结合文本数据和相关词对框架的预测模型进行训练,训练完成后将模型进行存储。这些部分都是可以离线完成的。然后,框架获取待预测标签的新在线文本,将其作为输入,利用训练好的模型,为每篇新文本输出带有不同推荐概率的候选标签集合。候选标签是按照推荐概率高低进行排序的,我们可以直接选取前几个作为推荐结果返回给在线文本编辑系统。原始数据集可以定期使用获取模块更新,用来重新训练预测模型。框架主要由三个部分组成,分别是数据处理模块,相关词获取模块和标签推荐模块。
技术方案:一种基于监督主题模型的文本标签推荐方法,包括如下部分:
首先需要对数据进行预处理工作,以提高模型的训练速度和预测准确度。首先,对于每篇文本,数据预处理都去除了文本内容中的停词以及低频词以降低文本的噪音。模块特意保留了文本内容中属于标签或相关词的单词(例如'C#','VB'等等)。另外,预处理过程还去除了文本一些低频的标签,因为很多低频标签往往描述文本的内容不够准确。接下来,去除后的文本单词和标签都进行了去词根化处理。因为我们的数据都是英语文本,英语中一个单词有很多词形变化,需要对这样的单词进行词形统一。预处理完毕后,需要将数据进行格式转换,统一为后续模块处理的格式,然后将数据进行存储,例如保存至数据库中。
经过数据处理后,我们将利用数据提取出标签,生成相关词。有许多现有的工具例如WordNet可以直接将每个标签作为输入生成该标签的相关词。但是,由于在线文本编辑系统中通常包含了大量与该系统相关的专业词汇,而且不同文本系统所包含的专业词汇不尽相同,方法希望为各种在线文本编辑系统提供通用的解决方案,因而像WordNet这类的通用工具是无法满足需求的。因此,相关词获取模块选取了基于词向量的技术Word2Vec模型来获取相关词。Word2Vec是一种将单词表征为实数值向量的高效算法,该方法利用了深度学习的思想,经过训练,每个单词会被映射成K维的实数向量(K一般是指模型中的超参数)。使用Word2Vec模型,可以根据不同的文本数据集获取到不同的相关词,以涵盖不同数据集中词汇的专业性。根据Word2Vec模型输出的单词向量,利用余弦相似度方法计算出单词之间的距离,进而判断出它们之间的相关程度。我们按照余弦相似度从高到低为每个标签选取了前10个最相似的词作为其相关词。另外,我们约定,一个标签最相关的词是它自身,而且每个标签的相关词都是完全不同的。这样做是为了避免影响标签在主题模型中的分布。我们得到了文本数据集所有标签的相关词并进行存储,例如保存至数据库中。
我们考虑了标签及其相关词的出现现象,构建了新的监督文本主题模型Sim2Word。我们将处理后的数据集以及相关词获取模块所得到的标签相关词作为输入,对预测模型进行训练。训练过程结束后可以得到文本关于主题的分布参数和主题关于单词的分布参数。我们将训练结果进行存储,即可用来对新的在线文本内容进行标签推荐。
算法预测的基本思想是要计算每个标签对于新实例的概率值,根据概率值大小进行推荐。算法首先定义了新文本下标签的后验分布为p(t|dnew),应用贝叶斯公式以及概率分解原则,得到
其中,t代表标签,w代表新文本中的单词。
为了估计出概率p(t)的值,可以通过利用已有数据进行近似估计
这里,d代表每篇文本,我们做出了一个假设,即认为每篇文本的出现机会是均等的,所以可以在上述等式中忽略p(d)的部分。而对于p(t|d),这个概率代表着训练文本中每篇文本的主题分布,可以直接利用训练好的模型参数来近似替代。
每个单词w都是从某个特定的主题t中生成的,故而p(w)可以用如下公式计算:
为了计算p(t|dnew),现在只需要计算p(w|t)和p(w|dnew)。对于一篇新文本,p(w|dnew)的计算公式如下:
其中,count(w)代表新文本dnew中单词w的数量,len(dnew)代表新文本dnew包含的所有单词总数。
对于p(w|t),得到的计算公式如下:
其中,x代表单词的生成方式,即既可能由主题关于相关词的分布生成,也有可能由主题关于单词的分布生成。当单词是由主题关于相关词的分布生成时,p(w|t,x=1)即为这种情况下单词生成的概率;类似地,当单词是由主题关于单词的分布生成时,p(w|t,x=0)即为这种情况下单词生成的概率。同样地,我们把p(w|t)的计算分成了两种不同的情况考虑。当单词w是标签t的相关词时,单词w可能有两种生成方式,即既可能由主题关于相关词的分布生成,也有可能由主题关于单词的分布生成。p(x=0|w~t)和p(x=1|w~t)代表选择不同生成方式的概率;另一方面,当单词w不是标签t的相关词时,我们知道该单词是不可能从主题关于相关词的分布生成的,因为两者并不相关。这种情况下,是一个恒定为1的概率常量。公式中的概率可以直接利用训练好的模型参数来近似替代。
我们对未知样本一一的计算标签概率值,然后将标签根据概率值排序,得到Top-N的标签作为新文本预测的候选标签集合。
我们基于标签及相关词的在线文本标签推荐框架和以上算法实现了在线文本标签推荐系统。
有益效果:与经典的基于文本关键词抽取的方法和基于文本主题分析的方法相比,本发明利用标签及相关词,提出了一种有效的在线文本推荐框架,且提出框架中的基本算法Sim2Word,并将其运用在编程社区问答网站StackOverflow中,提高了预测的准确率和效率。
附图说明
图1为来自StackOverflow网站上的一个说明性的例子;
图2为基于标签及相关词的在线文本标签推荐系统架构图;
图3为Sim2Word的概率图模型;
图4为每种方法的响应时间比较;
图5为每种方法的响应时间与预测质量的权衡比较;(a)SO-100K数据集,(b)Math数据集。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
实例一,本发明的Sim2Word方法的标签推荐能力的量化评测
1、输入输出数据说明
我们把本发明的方法运用于StackOverflow等真实数据集上,输入是一组文本数据,每篇文本带有标题、正文、标签等数据,统计情况如表1所示:我们随机抽取了90%的数据作为训练数据,剩下的10%的数据作为测试数据。然而,由于整体的StackOverflow数据集过于庞大,有些我们选取的用来比较的方法无法计算出结果,所以我们也随机性地从整个StackOverflow数据集上选取了部分数据作为子数据集(SO-10K和SO-100K)用来比较不同方法的结果
输出是本发明Sim2Word方法的标签推荐质量评测指标。
2、模型学习、参数推断与预测过程
为了证明我们提出的基于标签及相关词的在线文本标签推荐框架有效,我们还实现了Sim2Word方法的若干简化版本来作为比较。Sim2Word模型有几种设计上的选择:(1)是否使用标签的相词;(2)是否使用文档内容的正文部分。一些简化情况列举如下:
1、首先,忽略标签的相关词,即只考虑标签本身在文本内容中出现的现象,同时如果仅仅考虑把文本的标题部分,忽略正文部分作为文本的内容,我们称这种情形下的版本为Sim2Wordt。
2、其次,如果忽略标签的相关词,同时把文本的标题部分和正文部分都作为文本的内容,我们称这种情形下的版本为Sim2Wordtb。
3、第三,如果把标签的相关词结合进来,即考虑标签及其相关词在文本内容中出现的现象,同时仅仅把文本的标题部分作为文本的内容,我们称这种情形下的版本为Sim2Wordts。
对于Sim2Word方法,首先,我们对每个帖子的文本进行处理,通过自然语言处理工具NLTK去除文本中的停词,对文本进行词根还原,去除低频词,然后利用词袋模型得到文本向量。向量的每一维代表这个词在词汇表中的ID。标签集合也转化为标签向量,向量的每一维代表这个标签在标签集合中的ID。
Sim2Word算法使用基于CVB0的采样算法训练出模型中的参数。之后利用训练好的参数,计算每个标签对于新实例的概率值,根据概率值大小进行推荐。计算概率值成为这个算法的核心。算法首先定义了新文本下标签的后验分布为p(t|dnew),应用贝叶斯公式以及概率分解原则,得到
其中,t代表标签,w代表新文本中的单词。
为了估计出概率p(t)的值,可以通过利用已有数据进行近似估计
这里,我们做出了一个假设,即认为每篇文本的出现机会是均等的,所以可以在上述等式中忽略p(d)的部分。而对于p(t|d),这个概率代表着训练文本中每篇文本的主题分布,可以直接利用训练好的模型参数来近似替代。
每个单词w都是从某个特定的主题t中生成的,故而p(w)可以用如下公式计算:
为了计算p(t|dnew),现在只需要计算p(w|t)和p(w|dnew)。对于一篇新文本,p(w|dnew)的计算公式如下:
其中,count(w)代表新文本dnew中单词w的数量,len(dnew)代表新文本dnew包含的所有单词总数。
对于p(w|t),得到的计算公式如下:
其中,x代表单词的生成方式,即既可能由主题关于相关词的分布生成,也有可能由主题关于单词的分布生成。公式中的概率可以直接利用训练好的模型参数来近似替代。
我们对未知样本一一的计算标签概率值,然后将标签根据概率值排序,得到Top-N的标签作为新文本预测的候选标签集合。我们现在取Top-5和Top-10作为实验输出结果。
3、输出结果
考虑到评估的度量,我们使用Recall@n(召回率)作为有效性的比较标准。之所以选择召回率而不是精度作为评估标准,是因为针对标签推荐这个任务而言,在推荐的列表中找到所有有用的标签是最重要的。对于推荐列表的长度n,我们选择了n=5和n=10,因为这样的选择不会对用户造成过多的负担。召回率Recall@n的定义如下:
其中,M是数据集中文本的数量,hit(n)i是在长度为n的推荐列表中成功预测出真实标签的数量,tagi是第i篇文档的真实标签数量。
我们将Sim2Word方法和传统的方法(基于文本主题分析的方法LLDA、Link-LDA,基于多标记学习的方法MATAR、Maxide,混合类型的方法Snaff,Sim2Word的简化版本(Sim2Wordt、Sim2Wordtb、Sim2Wordts)进行了比较,计算了Recall@5和Recall@10。
最终的结果如表2至表5和图4、图5所示,表2至表5展示了我们方法和其他方法的Recall对比,图4展现了每个模型的响应时间比较,图5展现了每个模型的推荐质量与预测速度的权衡。
我们可以从表2和表3的实验结果中做出一些观察与总结。首先,在所有数据集上,Sim2Word模型都要比其他所有比较的方法效果要好。例如,在SO-10K数据集上,Sim2Word模型在Recall@5的结果上,要比效果最好的比较方法MATAR提高了17.1%,在Recall@10的结果上,要比效果最好的比较方法LLDA提高了16.3%。在Math数据集上,Sim2Word模型要比效果最好的比较方法LLDA在评价指标Recall@5和Recall@10下分别提高了5.9%和5.3%。除此之外,在不含标题部分的BibSonomy数据集上,Sim2Word要比效果最好的比较方法LLDA在评价指标Recall@5和Recall@10下分别提高了5.3%和2.3%。在AskUbuntu数据集上,Sim2Word要比效果最好的比较方法Maxide在评价指标Recall@5和Recall@10下分别提高了14.1%和8.5%。实际上,如果我们删去模型中关于标签及其相关词出现的部分,LLDA就可以视为Sim2Word模型的一种特殊的简化版本。
我们可以从表4和表5中观察到,总体上,Sim2Word与简化版本Sim2Wordtb相比具有更好的性能表现。例如,在Math数据集上,Sim2Word要比简化版本Sim2Wordtb在评价指标Recall@5和Recall@10下分别提高了2.1%和1.2%。因为与Sim2Wordtb相比,Sim2Word相当于在此基础上增加了标签的相关词,所以这个实验结果就更加验证了把标签的相关词加入考虑的确是对模型推荐效果的提升有帮助的。其次,简化版本Sim2Wordts已经可以达到足够好的效果,甚至在SO数据集上它的结果比Sim2Word模型都要好。这是因为,即使只把文本的标题部分作为内容进行训练,标签及其相关词出现的程度在SO数据集上已经表现得很高了,而且文本的标题部分往往代表着整篇文本中最重要的内容,相比之下正文部分可能包含一些噪音。在只考虑文本的标题部分的情况下,整个文本的词汇量也会减少很多。这个实验结果意味着如果一篇文本的标题部分中已经出现了大量的标签及其相关词,我们可以仅仅只根据文本的标题部分来推荐标签。
在图4中可以看到,我们并没有列出Maxide的结果,这是因为Maxide方法的预测阶段与训练阶段是混合在一起的。如图4所示,Sim2Word模型及其简化版本均可以在20秒内做出预测,Sim2Word具有能与LLDA方法相比的预测速度。此外,我们发现MATAR方法需要较长的响应时间,这是因为它采用了懒惰的预测策略。其次,尽管Snaff方法和Link-LDA具有比Sim2Word还要快的预测速度,但Sim2Word方法的简化版本Sim2Wordts和Sim2Wordt具有与之相近的响应时间。
图5中的x轴表示响应阶段所需要的时钟时间,y轴表示推荐的质量,这里我们选取了Recall@5作为评估标准。理想情况下,我们希望推荐算法能够处在图中的左上角部分,这意味着算法不仅推荐质量很高,而且所需要的预测时间很短。我们在图中可以看到,Sim2Word模型及其简化版本全部处在图中的左上角区域里。例如,在SO-100K数据集上,Sim2Wordts方法不仅比LLDA方法的运行速度快8倍,而且Recall@5的结果也要比LLDA方法高19.9%。另一方面,尽管我们看到Snaff方法和Link-LDA方法的运行速度要比Sim2Word方法快,但这两个方法的推荐质量都要比Sim2Word方法差得多。所以,总体上来说,Sim2Word模型及其简化版本在标签的推荐准确度上和预测效率上达到了一个很好的平衡。
通过对实验结果的分析,证明了本发明能准确地利用标签及其相关词来预测新闻本的标签,证明了基于标签及相关词的在线文本标签推荐框架的有效性,且证明了基于标签及相关词的在线文本标签推荐系统在现实中能被合理的应用。
表1.数据集的相关统计
数据集 | 文本总数 | 文本总词汇数 | 标签总数 | 每篇文本平均单词数 |
Math | 19950 | 7705 | 461 | 54 |
SO | 3350978 | 9357 | 1035 | 81 |
BibSonomy | 247889 | 7529 | 612 | 15 |
AskUbuntu | 234703 | 6714 | 743 | 82 |
表2.所有数据集上Recall@5的结果比较
表3.所有数据集上Recall@10的结果比较
数据集 | LLDA | Link-LDA | MATAR | Snaff | Maxide | Sim2Word |
SO-10K | 0.58770 | 0.43010 | 0.55168 | 0.48103 | 0.46815 | 0.68358 |
SO-100K | 0.64804 | 0.42514 | 0.59125 | 0.54921 | 0.62361 | 0.70638 |
SO | 0.66422 | 0.43429 | - | 0.58363 | - | 0.71379 |
Math | 0.68992 | 0.58259 | 0.65750 | 0.57042 | 0.64942 | 0.72647 |
BibSonomy | 0.53767 | 0.27113 | - | 0.48924 | 0.51487 | 0.55012 |
AskUbuntu | 0.69983 | 0.40765 | - | 0.55016 | 0.70772 | 0.76761 |
表4.Sim2Word及其简化版本Recall@5的结果
数据集 | Sim2Word | Sim2Wordts | Sim2Wordtb | Sim2Wordt |
SO-10K | 0.57365 | 0.59548 | 0.56330 | 0.58538 |
SO-100K | 0.62271 | 0.65037 | 0.60939 | 0.63607 |
SO | 0.63311 | 0.65785 | 0.62169 | 0.64548 |
Math | 0.62337 | 0.61358 | 0.61057 | 0.59352 |
BibSonomy | 0.45794 | - | 0.44702 | - |
AskUbuntu | 0.65077 | 0.61117 | 0.63561 | 0.60790 |
表5.Sim2Word及其简化版本Recall@10的结果
Claims (4)
1.一种基于监督主题模型的文本标签推荐方法,其特征在于,包括如下部分:
首先获取在线文本编辑系统的原始数据集,对数据进行预处理工作;利用基于词向量技术获取已有标签的相关词数据,
然后利用标签和相关词训练标签预测模型,基于模型预测新文本的标签;
方法实现设计的技术是推断新文本标签的技术,即基于监督主题模型的文本标签推荐技术Sim2Word。
2.如权利要求1所述的基于监督主题模型的文本标签推荐方法,其特征在于,所述文本的信息包括标题、正文、标签信息。
3.如权利要求1所述的基于监督主题模型的文本标签推荐方法,其特征在于,Sim2Word算法的基本思想是要计算每个标签对于新实例的概率值,根据概率值大小进行推荐,计算概率值成为这个算法的核心;算法首先定义了新文本下标签的后验分布为p(t|dnew),应用贝叶斯公式以及概率分解原则,得到
<mrow>
<mi>p</mi>
<mrow>
<mo>(</mo>
<mi>t</mi>
<mo>|</mo>
<msub>
<mi>d</mi>
<mrow>
<mi>n</mi>
<mi>e</mi>
<mi>w</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<munder>
<mo>&Sigma;</mo>
<mi>w</mi>
</munder>
<mi>p</mi>
<mrow>
<mo>(</mo>
<mi>t</mi>
<mo>|</mo>
<mi>w</mi>
<mo>)</mo>
</mrow>
<mi>p</mi>
<mrow>
<mo>(</mo>
<mi>w</mi>
<mo>|</mo>
<msub>
<mi>d</mi>
<mrow>
<mi>n</mi>
<mi>e</mi>
<mi>w</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<munder>
<mo>&Sigma;</mo>
<mi>w</mi>
</munder>
<mfrac>
<mrow>
<mi>p</mi>
<mrow>
<mo>(</mo>
<mi>w</mi>
<mo>|</mo>
<mi>t</mi>
<mo>)</mo>
</mrow>
<mi>p</mi>
<mrow>
<mo>(</mo>
<mi>t</mi>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mi>p</mi>
<mrow>
<mo>(</mo>
<mi>w</mi>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mi>p</mi>
<mrow>
<mo>(</mo>
<mi>w</mi>
<mo>|</mo>
<msub>
<mi>d</mi>
<mrow>
<mi>n</mi>
<mi>e</mi>
<mi>w</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
</mrow>
其中,t代表标签,w代表新文本中的单词。
4.如权利要求3所述的基于监督主题模型的文本标签推荐方法,其特征在于,为了估计出概率p(t)的值,可以通过利用已有数据进行近似估计
<mrow>
<mi>p</mi>
<mrow>
<mo>(</mo>
<mi>t</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<munder>
<mo>&Sigma;</mo>
<mi>d</mi>
</munder>
<mi>p</mi>
<mrow>
<mo>(</mo>
<mi>t</mi>
<mo>|</mo>
<mi>d</mi>
<mo>)</mo>
</mrow>
<mi>p</mi>
<mrow>
<mo>(</mo>
<mi>d</mi>
<mo>)</mo>
</mrow>
</mrow>
这里,我们做出了一个假设,即认为每篇文本的出现机会是均等的,所以可以在上述等式中忽略p(d)的部分;而对于p(t|d),这个概率代表着训练文本中每篇文本的主题分布,可以直接利用训练好的模型参数来近似替代;
每个单词w都是从某个特定的主题t中生成的,故而p(w)可以用如下公式计算:
<mrow>
<mi>p</mi>
<mrow>
<mo>(</mo>
<mi>w</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<munder>
<mo>&Sigma;</mo>
<mi>t</mi>
</munder>
<mi>p</mi>
<mrow>
<mo>(</mo>
<mi>w</mi>
<mo>|</mo>
<mi>t</mi>
<mo>)</mo>
</mrow>
<mi>p</mi>
<mrow>
<mo>(</mo>
<mi>t</mi>
<mo>)</mo>
</mrow>
</mrow>
为了计算p(t|dnew),现在只需要计算p(w|t)和p(w|dnew);对于一篇新文本,p(w|dnew)的计算公式如下:
<mrow>
<mi>p</mi>
<mrow>
<mo>(</mo>
<mi>w</mi>
<mo>|</mo>
<msub>
<mi>d</mi>
<mrow>
<mi>n</mi>
<mi>e</mi>
<mi>w</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<mi>c</mi>
<mi>o</mi>
<mi>u</mi>
<mi>n</mi>
<mi>t</mi>
<mrow>
<mo>(</mo>
<mi>w</mi>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mi>l</mi>
<mi>e</mi>
<mi>n</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>d</mi>
<mrow>
<mi>n</mi>
<mi>e</mi>
<mi>w</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
</mrow>
其中,count(w)代表新文本dnew中单词w的数量,len(dnew)代表新文本dnew包含的所有单词总数;
对于p(w|t),得到的计算公式如下:
其中,x代表单词的生成方式,即既可能由主题关于相关词的分布生成,也有可能由主题关于单词的分布生成。公式中的概率可以直接利用训练好的模型参数来近似替代;
利用以上的Sim2Word标签推荐技术对文本信息进行处理,然后进行标签推荐,得到不同推荐概率的候选标签集合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710442281.XA CN107239564B (zh) | 2017-06-13 | 2017-06-13 | 一种基于监督主题模型的文本标签推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710442281.XA CN107239564B (zh) | 2017-06-13 | 2017-06-13 | 一种基于监督主题模型的文本标签推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107239564A true CN107239564A (zh) | 2017-10-10 |
CN107239564B CN107239564B (zh) | 2021-03-19 |
Family
ID=59986187
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710442281.XA Active CN107239564B (zh) | 2017-06-13 | 2017-06-13 | 一种基于监督主题模型的文本标签推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107239564B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108875059A (zh) * | 2018-06-29 | 2018-11-23 | 北京百度网讯科技有限公司 | 用于生成文档标签的方法、装置、电子设备和存储介质 |
CN108959431A (zh) * | 2018-06-11 | 2018-12-07 | 中国科学院上海高等研究院 | 标签自动生成方法、系统、计算机可读存储介质及设备 |
CN109800410A (zh) * | 2017-11-17 | 2019-05-24 | 百度在线网络技术(北京)有限公司 | 一种基于在线聊天记录的表单生成方法和系统 |
CN109885674A (zh) * | 2019-02-14 | 2019-06-14 | 腾讯科技(深圳)有限公司 | 一种主题标签的确定、信息推荐方法及装置 |
CN110309298A (zh) * | 2018-03-23 | 2019-10-08 | 优酷网络技术(北京)有限公司 | 主题预测方法及装置 |
CN110717038A (zh) * | 2019-09-17 | 2020-01-21 | 腾讯科技(深圳)有限公司 | 对象分类方法及装置 |
CN113076756A (zh) * | 2020-01-06 | 2021-07-06 | 北京沃东天骏信息技术有限公司 | 一种文本生成方法和装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010288024A (ja) * | 2009-06-10 | 2010-12-24 | Univ Of Electro-Communications | 動画推薦装置 |
US20150026166A1 (en) * | 2013-07-22 | 2015-01-22 | Gwangju Institute Of Science And Technology | Apparatus for recommending contents using hierarchical context model and method thereof |
US9154629B2 (en) * | 2012-12-14 | 2015-10-06 | Avaya Inc. | System and method for generating personalized tag recommendations for tagging audio content |
CN105512245A (zh) * | 2015-11-30 | 2016-04-20 | 青岛智能产业技术研究院 | 一种基于回归模型建立企业画像的方法 |
CN105912648A (zh) * | 2016-04-08 | 2016-08-31 | 南京大学 | 一种基于侧面信息的代码片段编程语言识别方法 |
CN106407169A (zh) * | 2016-09-09 | 2017-02-15 | 北京工商大学 | 一种基于主题模型的文档标注方法 |
-
2017
- 2017-06-13 CN CN201710442281.XA patent/CN107239564B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010288024A (ja) * | 2009-06-10 | 2010-12-24 | Univ Of Electro-Communications | 動画推薦装置 |
US9154629B2 (en) * | 2012-12-14 | 2015-10-06 | Avaya Inc. | System and method for generating personalized tag recommendations for tagging audio content |
US20150026166A1 (en) * | 2013-07-22 | 2015-01-22 | Gwangju Institute Of Science And Technology | Apparatus for recommending contents using hierarchical context model and method thereof |
CN105512245A (zh) * | 2015-11-30 | 2016-04-20 | 青岛智能产业技术研究院 | 一种基于回归模型建立企业画像的方法 |
CN105912648A (zh) * | 2016-04-08 | 2016-08-31 | 南京大学 | 一种基于侧面信息的代码片段编程语言识别方法 |
CN106407169A (zh) * | 2016-09-09 | 2017-02-15 | 北京工商大学 | 一种基于主题模型的文档标注方法 |
Non-Patent Citations (2)
Title |
---|
MIN SHI 等: ""A Probabilistic Topic Model for Mashup Tag Recommendation"", 《2016 IEEE INTERNATIONAL CONFERENCE ON WEB SERVICES (ICWS)》 * |
YONG WU 等: ""Tag2Word: Using Tags to Generate Words for Content Based Tag Recommendation"", 《CIKM "16: PROCEEDINGS OF THE 25TH ACM INTERNATIONAL ON CONFERENCE ON INFORMATION AND KNOWLEDGE MANAGEMENT》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109800410A (zh) * | 2017-11-17 | 2019-05-24 | 百度在线网络技术(北京)有限公司 | 一种基于在线聊天记录的表单生成方法和系统 |
CN110309298A (zh) * | 2018-03-23 | 2019-10-08 | 优酷网络技术(北京)有限公司 | 主题预测方法及装置 |
CN108959431A (zh) * | 2018-06-11 | 2018-12-07 | 中国科学院上海高等研究院 | 标签自动生成方法、系统、计算机可读存储介质及设备 |
CN108875059A (zh) * | 2018-06-29 | 2018-11-23 | 北京百度网讯科技有限公司 | 用于生成文档标签的方法、装置、电子设备和存储介质 |
CN108875059B (zh) * | 2018-06-29 | 2021-02-12 | 北京百度网讯科技有限公司 | 用于生成文档标签的方法、装置、电子设备和存储介质 |
CN109885674A (zh) * | 2019-02-14 | 2019-06-14 | 腾讯科技(深圳)有限公司 | 一种主题标签的确定、信息推荐方法及装置 |
CN109885674B (zh) * | 2019-02-14 | 2022-10-25 | 腾讯科技(深圳)有限公司 | 一种主题标签的确定、信息推荐方法及装置 |
CN110717038A (zh) * | 2019-09-17 | 2020-01-21 | 腾讯科技(深圳)有限公司 | 对象分类方法及装置 |
CN113076756A (zh) * | 2020-01-06 | 2021-07-06 | 北京沃东天骏信息技术有限公司 | 一种文本生成方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN107239564B (zh) | 2021-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107239564A (zh) | 一种基于监督主题模型的文本标签推荐方法 | |
AU2010210014B2 (en) | Systems, Methods and Apparatus for Relative Frequency Based Phrase Mining | |
CN111104526A (zh) | 一种基于关键词语义的金融标签提取方法及系统 | |
CN101968819B (zh) | 面向广域网的音视频智能编目信息获取方法 | |
CN104111925B (zh) | 项目推荐方法和装置 | |
CN106055673A (zh) | 一种基于文本特征嵌入的中文短文本情感分类方法 | |
CN110362678A (zh) | 一种自动提取中文文本关键词的方法与装置 | |
CN106599054A (zh) | 一种题目分类及推送的方法及系统 | |
CN110347701B (zh) | 一种面向实体检索查询的目标类型标识方法 | |
CN104077417A (zh) | 社交网络中的人物标签推荐方法和系统 | |
CN105069103A (zh) | App搜索引擎利用用户评论的方法及系统 | |
CN104361102A (zh) | 一种基于群组匹配的专家推荐方法及系统 | |
CN110310012B (zh) | 数据分析方法、装置、设备及计算机可读存储介质 | |
US20190340517A2 (en) | A method for detection and characterization of technical emergence and associated methods | |
CN108073571A (zh) | 一种多语言文本质量评估方法及系统、智能文本处理系统 | |
CN110134799A (zh) | 一种基于bm25算法的文本语料库的搭建和优化方法 | |
CN111858830B (zh) | 基于自然语言处理的卫生监督执法数据检索系统及其方法 | |
CN104077288B (zh) | 网页内容推荐方法和网页内容推荐设备 | |
CN110069558A (zh) | 基于深度学习的数据分析方法及终端设备 | |
Chen et al. | Using latent Dirichlet allocation to improve text classification performance of support vector machine | |
CN107291686B (zh) | 情感标识的辨识方法和情感标识的辨识系统 | |
CN110209941B (zh) | 维护推送内容池的方法、推送方法、装置、介质及服务器 | |
Lapeña et al. | Exploring new directions in traceability link recovery in models: The process models case | |
Orsenigo et al. | Concatenating or averaging? Hybrid sentences representations for sentiment analysis | |
Kuş et al. | An Extractive Text Summarization Model for Generating Extended Abstracts of Medical Papers in Turkish |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 210008 No. 22, Hankou Road, Gulou District, Jiangsu, Nanjing Applicant after: NANJING University Address before: 210046 Xianlin Avenue 163, Qixia District, Nanjing City, Jiangsu Province Applicant before: NANJING University |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |