CN107436942A - 基于社交媒体的词嵌入方法、系统、终端设备及存储介质 - Google Patents

基于社交媒体的词嵌入方法、系统、终端设备及存储介质 Download PDF

Info

Publication number
CN107436942A
CN107436942A CN201710637320.1A CN201710637320A CN107436942A CN 107436942 A CN107436942 A CN 107436942A CN 201710637320 A CN201710637320 A CN 201710637320A CN 107436942 A CN107436942 A CN 107436942A
Authority
CN
China
Prior art keywords
user
word
vector
social
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710637320.1A
Other languages
English (en)
Inventor
曾子倩
尹伊淳
宋阳秋
张铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou HKUST Fok Ying Tung Research Institute
Original Assignee
Guangzhou HKUST Fok Ying Tung Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou HKUST Fok Ying Tung Research Institute filed Critical Guangzhou HKUST Fok Ying Tung Research Institute
Priority to CN201710637320.1A priority Critical patent/CN107436942A/zh
Publication of CN107436942A publication Critical patent/CN107436942A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于社交媒体的词嵌入方法、系统、终端设备及可读存储介质,所述方法包括:获取在预定的社交媒体上的N个用户发表的自然语言文本,生成与每个用户对应的训练语料库;根据每个用户与训练语料库的对应关系及预定的基本词嵌入模型构建得到目标函数;基于所述基本词嵌入模型,同时对每个所述训练语料库中的单词的全局词向量、与所述单词对应的用户的用户向量及所述目标函数进行训练;保存训练后的与基本词嵌入模型对应的中间参数、每个用户训练后的用户向量及每个单词训练后的全局词向量。基于本发明进行自然语言任务处理时,可以有效的改善词嵌入在下游任务的表现。

Description

基于社交媒体的词嵌入方法、系统、终端设备及存储介质
技术领域
本发明涉及自然语言处理领域,尤其涉及一种基于社交媒体的词嵌入方法、系统、终端设备及存储介质。
背景技术
社交媒体已经成为在网络上发表自然语言文本的主要渠道之一。用户越来越倾向于使用社交媒体平台来获取关于朋友的生活的更新以及从朋友那里学习知识。不同于常规或正式语言的使用,在社交媒体上,人们倾向于使用特有的词语,并以自己的喜好创造新词。有趣的是,一些新的语言模式很容易在社交媒体上传播。一个众所周知的社会网络概念:“同质化”已经发展成为心理学研究和社会科学。同质化表明用户成为朋友后,倾向于分享类似的意见或话题。社交媒体也证实了这一点。
一个社交网络的松散或者紧密取决于成员如何与彼此交互,并且其语言模式可能被其中的一个用户的语言模式所影响。人们的社会语言规范可以依赖于他们的教育,工作阶层,年龄。例如,一些人说“我要...”,而其他人说“我是去...“,有的人说”看起来像...“而其他人说“看起来好像...”,所以发展基于计算社会语言学的社会媒体文本是有必要的。
文本数据表示在计算语言学和自然语言处理中起关键作用。最近,基于神经网络语言模型(NNLM)的分布式词表示已经吸引了很多的关注,因为这样的密集词向量表示在高维(但比独热码低得多的维度)空间可以减少计算复杂度并提高机器学习模型对许多下游任务的的泛化能力。词嵌入,如word2vec,可以通过减少潜在变量并放宽作为前一单词的上下文单词的约束来简化NNLM架构。因此,它可以提供高效的训练算法来训练大规模语料库,并广泛应用于信息提取、情绪分析,搜索引擎等多种应用中。在将文本表示学习应用于社交媒体文本时,一个关键的问题是处理前面提到的不同社会群体的差异。
发明内容
针对上述问题,本发明的目的在于提供一种基于社交媒体的词嵌入方法、系统、终端设备及存储介质,可以处理前面不同社会群体的差异,改善自然语言处理的下游任务。
本发明提供了一种基于社交媒体的词嵌入方法,包括:
获取在预定的社交媒体上的N个用户发表的自然语言文本,生成与每个用户对应的训练语料库,其中,N为正整数;
根据每个用户与训练语料库的对应关系及预定的基本词嵌入模型构建得到目标函数;
根据所述基本词嵌入模型,对每个所述训练语料库中的单词的全局词向量、与所述单词对应的用户的用户向量及所述目标函数进行训练;
保存训练后的与基本词嵌入模型对应的中间参数、每个用户训练后的用户向量及每个单词训练后的全局词向量,以根据训练后的中间参数、用户向量及全局词向量进行相应的自然语言任务处理。
优选地,当所述基本词嵌入模型为CBOW模型时,所述目标函数表示为:
其中,wi表示第i个用户ui的训练语料库,wj表示训练语料库wi中的第j个单词,C(wj,ui)表示ωj的上下文。
优选地,在根据每个用户与训练语料库的对应关系及预定的Word2Vec模型构建得到目标函数之后,在所述词嵌入模型中,根据每个所述训练语料库中的单词的全局词向量、与所述单词对应的用户的用户向量及所述目标函数进行训练之前,还包括:
获取每个用户在所述社交媒体上的好友用户的用户向量;
根据用户自身的用户向量及所述好友用户的用户向量生成社交正则化项;
利用所述社交正则化项对所述目标函数进行社交修正。
优选地,对于与用户ui对应的训练语料库中的第j个单词wj,其个性化词向量表示为:其中,wj为wj的全局词向量,ui为用户ui的用户向量,wj和ui为具有相同维度的向量。
优选地,所述社交正则化项表示为:
其中,表示用户ui在所述社交媒体上的好友用户的集合;uj为用户uj的用户向量,且uj属于集合
优选地,在利用所述社交正则化项对所述目标函数进行社交修正后,社交修正得到的目标函数为:
其中,为社交修正前的目标函数,λ为自定义参数,r是ui的L2范数的约束,且满足||ui||2≤r。
本发明还提供了一种基于社交媒体的词嵌入系统,包括:
文本获取单元,用于获取在预定的社交媒体上的N个用户发表的自然语言文本,生成与每个用户对应的训练语料库,其中,N为正整数;
目标函数构建单元,用于根据每个用户与训练语料库的对应关系及预定的基本词嵌入模型构建得到目标函数;
训练单元,用于根据所述基本词嵌入模型,对每个所述训练语料库中的单词的全局词向量、与所述单词对应的用户的用户向量及所述目标函数进行训练;
参数保存单元,用于保存训练后的与基本词嵌入模型对应的中间参数、每个用户训练后的用户向量及每个单词训练后的全局词向量,以根据训练后的中间参数、用户向量及全局词向量进行相应的自然语言任务处理。
优选地,还包括:
用户向量获取单元,用于获取每个用户在所述社交媒体上的好友用户的用户向量;
社交正则化单元,用于根据用户自身的用户向量及所述好友用户的用户向量生成社交正则化项;
目标函数社交修正单元,用于利用所述社交正则化项对所述目标函数进行社交修正。
优选地,所述社交正则化项表示为:
其中,表示用户ui在所述社交媒体上的好友用户的集合;uj为用户uj的用户向量,且uj属于集合
优选地,在利用所述社交正则化项对所述目标函数进行社交修正后,社交修正得到的目标函数为:
其中,为社交修正前的目标函数,λ为自定义参数,r是ui的L2范数的约束,且满足||ui||2≤r。
本发明还提供一种终端设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上述的基于社交媒体的词嵌入方法。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述的基于社交媒体的词嵌入方法。
在本发明实施例中,通过为每个用户定义一个用户向量,并结合用户自身的训练语料库进行训练得到训练后的用户向量及相应的单词的全局词向量。由于用户向量及单词的全局词向量是基于用户自身的训练语料库训练得到的,因而当用其去预测用户的新文本数据时,将会有比现有的直接使用全局词向量有更好的预测表现。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供基于社交媒体的词嵌入方法的流程示意图。
图2是本发明实施例提供的基于社交媒体的词嵌入方法的原理示意图。
图3是本发明实施例提供的CBOW模型的原理图。
图4(a)是本发明实施例提供的在YelpR8数据集上,困惑度跟r和λ的关系变化图。
图4(b)是本发明实施例提供的在YelpR9数据集上,困惑度跟r和λ的关系变化图。
图4(c)是本发明实施例提供的在YelpR8和YelpR9数据集上,困惑度跟r的关系变化图。
图5(a)是本发明实施例提供的在YelpR8数据集,不同情况下,主要用户的训练百分比与精度的关系变化图。
图5(b)是本发明实施例提供的在YelpR8数据集,不同情况下,边缘用户的训练百分比与精度的关系变化图。
图5(c)是本发明实施例提供的在YelpR9数据集,不同情况下,主要用户的训练百分比与精度的关系变化图。
图5(d)是本发明实施例提供的在YelpR9数据集,不同情况下,边缘用户的训练百分比与精度的关系变化图。
图6是本发明实施例提供基于社交媒体的词嵌入系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
语言模型作为一个基本的自然语言处理难题,多年来一直在被广泛的研究。自NNLM首次成功的用于训练大型语料库来获得单词表示后,相关研究又进一步在Webscale语料库上进行了训练。词嵌入,即word2vec,简化了NNLM问题,并且已被证明对于超大规模语料库的训练是有效的。
众所周知,每一个人都有他/她自己的说话或写作模式,且会受到他人的影响,因此将语言模型扩展为个性化或社会化是一个自然而然的过程。本发明利用个性化和社交化语言模型来显示用户在社交媒体上的社会关系。个性化语言模型主要应用于网络搜索或协作搜索。适用于搜索问题的社会化语言模型最近已经开发出来了,但是适用于社交媒体文本搜索还没有,语言模型的社会化可以将社交朋友的信息作为平滑因素改善语言稀疏性问题。
本发明的工作还与多任务学习有关。多任务学习是同时执行不同的学习任务的学习设置。多任务学习可以自然地应用于社交媒体应用,因为与每个人相关的任务可以被个性化。例如,社交媒体文本主题或情感分类可以自定义。最近,基于深度学习的模型也采用单独的学习机制来模拟不同的用户沿着全局文本表现来改善情绪分类结果,这也可以被认为是一个多任务学习。此外,注意力模型可以启用多任务(每个任务都是一个用户关注)。与上述的需要监督所有任务的多任务学习方法相比,本发明是无监督学习,因此,本发明可用于许多下游任务。
以下将对本发明的实现过程及原理进行详细的描述。
请参阅图1,本发明提供了一种基于社交媒体的词嵌入方法,其可由具有计算处理能力的终端设备(如服务器等)来执行,包括如下步骤:
S101,获取在预定的社交媒体上的N个用户发表的自然语言文本,生成与每个用户对应的训练语料库,其中,N为正整数。
在本发明实施例中,例如,所述社交媒体可为Yelp、Facebook、Twitter等大型社交平台网站,用户可以在这些社交媒体的平台上发表自然语言文本,例如发表评论、文章或者更新自己的生活状态等。
在本发明实施例中,例如,所述终端设备可收集于Yelp上的N个用户发表的自然语言文本来作为训练语料库。与现有技术不同的是,本发明实施例需要区分不同的用户,即本发明实施例会将同一个用户发表的所有自然语言文本整合成一个与该用户对应的训练语料库。例如,用户ui(1≤i≤N)所对应的训练语料库为
S102,根据每个用户与训练语料库的对应关系及预定的基本词嵌入模型构建得到目标函数。
在本发明实施例中,在得到所述训练语料库后,所述终端设备首先要生成与所述训练语料库对应的词汇表,其中,所述词汇表中包含了所有出现在训练语料库中的单词,且这些单词在词汇表中不重复出现。此外,所述终端设备还可以记录每个单词在训练语料库中的出现频率(词频),这些词频会在构建霍夫曼树的时候用到。
以基本词嵌入模型为连续词袋(continuous bag-of-words,CBOW)模型为例,对于CBOW模型,其训练思路是根据一个单词的上下文来预测这个单词。即CBOW模型的训练的输入是一个单词wj的上下文,即C(wj)={wj-s,…,wj+s},其中s是半窗口大小,输出是单词wj本身。
在本发明实施例中,基于所述CBOW模型,对于给出的一系列训练词,所述终端设备的第一个目标是最大化对数似然函数(目标函数):
并对所有用户u1、u2…uN执行。C(wj,ui)同样表示上下文,只是在输入时,上下文中的每个单词对应的词向量已经替换成在与用户关联的个性化词向量。
如图2所示,本发明实施例中,对于用户ui,假设定义wj∈Rd,wj是单词wj的全局向量表示,d是向量wj的维度,并用用户向量ui∈Rd来表示用户ui,然后将全局词向量wj和用户向量ui组合得到与用户具有关联的个性化词向量:可以看出,wj和ui为具有相同的维度。
由于log P(wj|C(wj,ui))的计算需要对词汇表中的所有单词进行归一化,而CBOW模式难以在单词量很大时进行优化。目前有两种技术用于优化问题,分别是层次softmax和负抽样。这里以层次softmax作为例子进行优化。
如图3所示,假设有一颗基于词频构建的树,例如霍夫曼树,然后令为从根节点到叶节点wj的路径中第k个节点的霍夫曼码,其中,k属于 是路径的长度。然后目标函数可以重写为:
其中,
因此,层次softmax将根据上下文C(wj)和用户向量ui预测单词wj的softmax概率log P(wj|C(wj,ui))转换为一系列二进制分类问题,以通过从单词到节点的路径来预测单词。对于每个位于路径中的二进制分类节点k,有:
其中σ(x)=1/(1+exp(-x))为逻辑函数。从方程(3)可以看出,如果霍夫曼代码将路径中的当前节点k分类为真,如果将其分类为假。这样得到基于路径的一系列分类问题。在模型中,有一系列“隐藏”的中间向量用于分类。在霍夫曼树上,更深层的叶节点是指低频字,因此将遵循更长的路径,这是CBOW模式对于罕见单词表现更好的原因之一。
为了最小化目标函数这里使用了随机梯度下降算法(SGD)。中间向量上下文的词向量和用户向量可以更新为:
其中c=2s是窗口大小,η1是退学习率。
S103,根据所述基本词嵌入模型,对每个所述训练语料库中的单词的全局词向量、与所述单词对应的用户的用户向量及所述目标函数进行训练。
S104、保存训练后的基本词嵌入模型的中间参数、每个用户训练后的用户向量及每个单词训练后的全局词向量,以根据训练后的中间参数、用户向量及全局词向量进行相应的自然语言任务处理。
在步骤S102,所述终端设备已经构建好了霍夫曼树,并初始化完毕各个向量(包括初始化中间向量、用户向量和全局词矢量,其中,初始值时可以任意给定,其值会根据训练不断调整),此时可以开始输入文本来进行训练。
训练的过程如图1和图3所示,主要有输入层(input),映射层(projection)和输出层(output)三个阶段。输入层即为某个单词wj周围的2s个单词的词向量。如果s取2,则词wj前两个和后两个的单词为wj-2,wj-1,wj+1,wj+2。从输入层到映射层比较简单,将那2s个词向量(本发明为个性化词向量,即加上用户向量了)相加即可。而从映射层到到输出层则比较繁琐,要完成这一步骤,需要借助之前构造的霍夫曼树。从根节点开始,映射层的值需要沿着霍夫曼树不断的用逻辑函数进行逻辑分类,并且不断的修正各中间向量和个性化词向量。
举个例子,如图3所示的霍夫曼树,此时中间的单词为wj,而映射层输入为假设此时的单词wj为“足球”,即wj=“足球”,则其霍夫曼编码可知为d(t)=”1001”,那么根据霍夫曼编码可知,从根节点到叶节点wj的路径为“左右右左”,即从根节点开始,先往左拐,再往右拐2次,最后再左拐。既然知道了路径,那么就按照路径从上往下依次社交修正路径上各节点的中间向量。在第一个节点,根据节点的中间向量和pro(j)进行逻辑分类。如果分类结果显示为0,则表示分类错误(应该即分类到1),则要对进行社交修正,并记录误差量。接下来,处理完第一个节点之后,开始处理第二个节点。方法类似,社交修正并累加误差量,接下来的节点都以此类推。在处理完所有节点,达到叶节点wj之后,所述终端设备根据之前累计的误差来修正个性化词向量这样,一个词wj的处理流程就结束了。如果一个训练语料库中有M个词,则需要将上述过程重复M遍。
在本发明实施例中,在对训练语料库中的所有单词进行训练后,即可以共同的训练得到每个用户的用户向量、与用户对应的单词的全局词矢量以及基本词嵌入模型的所有中间向量,由于这些用户向量,全局词向量以及中间向量是根据与用户对应的语料库训练得到的,因而,当用其去预测用户的新文本数据时,将会有比使用全局词向量更好的表现。
下面对本发明的一些优选实施例做更进一步的描述。
优选地,在S102之后,在S103之前,还包括:
获取每个用户在所述社交媒体上的好友用户的用户向量。
根据用户自身的用户向量及所述好友用户的用户向量生成社交正则化项。
利用所述社交正则化项对所述目标函数进行社交修正。
实际上,由于有些用户(边缘用户)只发布很少的几个文档,而词嵌入的训练效果需要大量的资料来保证,因此,本实施例考虑通过用户的社交关系来提高用户向量的学习效果。例如,如果考虑主要用户(发布很多文档的用户)发给边缘用户的信息用户向量,那么就可以通过使边缘用户与主要用户类似,来使边缘用户的模型结果更“平滑”。因此,所述终端设备将对所有用户向量进行社交正则化处理,社交正则化项表示:
其中,表示用户ui在所述社交媒体上的好友的集合;uj为用户uj的用户向量,且uj属于集合公式(5)把两个具有社交关系的用户的欧几里得距离最小化。
所述终端设备同样可以将SGD应用于社交正则化项,这样就有:
其中,当在处理由用户ui发表的文档时,用户向量ui应由其所有的好友uj进行社交正则化。
本实施例可以将社交正则化项与目标函数相结合来社交修正目标函数,并且同时为全局词向量、中间向量和用户向量执行SGD。但是,如公式(4)和(6)所示,相比于全局词向量,用户向量将被更新更多次。最初在CBOW优化中,所有的全局词向量都不受约束,因为全局词向量的规模可以由学习率来界定(结合词的频率)。
为此,本发明为用户向量提供一个约束来使数值优化稳定,成本函数为:
其中r是ui的L-2范数的约束。r会根据开发集进行调整。实际上,本实施例可以通过对SGD进行二次投影来解决这个问题。
为了说明本发明实施例的有效性,下面将根据三个实验进行描述,其中,这三个实验均是依据本发明的优选实施例进行实验。
表1
Dataset YelpR8(2016.9.1-2016.12.31) YelpR9(2017.1.24-2017.6.30)
用户 686556 1029432
评论数 2685067 4153151
平均评论长度 114.17 144.3
平均朋友数 7.68 29.87
本发明使用Yelp Challenge1数据集作为评估集。在Yelp,用户可以为某些企业撰写评论,例如,餐厅,酒店等。用户还可以从朋友那里接收信息(有些朋友的信息来自Facebook或其他社交网络)。本发明的数据统计如表1所示。从表1中我们可以看出,Yelp多年来数据发布的大小增加了很多。在本实验中,所述终端设备随机将数据分为8:1:1,分别用于训练,开发和测试。以下所有结果均基于此比例。
本发明根据分解的训练数据对所有的词嵌入模型进行了训练。对于下游应用,将根据想要测试的模型的不同目的调整相应的设置。为了公平比较,本发明将原始word2vec的超参数设置为相同。例如,窗口大小设置为5,嵌入维度为100。对于所有的词嵌入都使用了CBOW模型。但其他模型,如Skip-Gram模型也同样适用,本发明不做具体的限定。
第一个实验:
在第一个实验中,首先测试模型的预测力。由于本发明是基于Word2Vec模型的,不是语言模型,不能直接优化困惑度,因此这个实验只是为了展示本发明的模型在不同的超参数设置下为其他下游应用提供的预测能力。根据定义,困惑度用于评估一个模型基于前几个词预测当前词的能力优劣。因为本发明使用滑动窗口大小s=5来训练所有的词嵌入(词的上下文词是五个前面的单词)。本发明按照整个训练数据训练嵌入词。为了提高测试不同超参数的效率,对于开发集和测试集,为每个用户随机抽取一个句子,以评估基于句子的困惑度。
困惑度的结果如图4(a)~图4(c)所示。与现有文献的值相比,本发明的困惑值较高。这主要有两个原因。首先,本发明不会像语言模型那样直接优化困惑度。因此,本发明可能不能很好的适应数据。第二,本发明使用的Yelp数据比正式语言的噪声大,因此,困惑高也相应较高。
从图4(a)和图4(b)可以看出,对于两个数据集YelpR8和YelpR9,当λ=0,困惑度根据每个用户的用户向量得到了改进。而且,当增加社交正规化项后,困惑度的改进可以进一步提高,但在λ较大时,反而会增加困惑度。这个原因可能是在社交修正用户向量的大小时,增加社交正则化将越趋向于首先通过其好友优化每个用户向量。
在图4(c)中显示了困惑度随r变化的结果。它表明,当增大正则化约束r时,困惑度首先降低。然后,当r继续增大时,再次使困惑度增大。这是由于如果用户向量的规范变得太大,它将会在优化成本函数中起到主导作用。因此,在本发明中,参数r和λ是耦合的。本发明在{2-5,…,25}范围内基于验证集执行网格搜索,来选择最佳超参数,并在表2中显示测试集的最终结果。从表2中可以看出,个性化和社交化的改善是重要且明显的。
表2
第二个实验
表3
表4
在第二个实验中,本发明用一个下游任务,Yelp评估的预测率来测试本发明的词嵌入方法。在Yelp网站允许用户向企业撰写评论。同时,用户可以为企业提供的服务进行评分。我们遵循现有的长文献情绪分类,当需要包括用户信息时,以前的研究只是对数据进行预处理,并且只对含有足够用户信息的数据进行工作(例如,仅包含4,194用户)。在这项工作中,本发明将测试如果整个数据集或部分数据集都使用的话可以达到什么效果。本发明根据现有声称的半监督学习环境,其中词语嵌入以无监督的方式用较大的语料库进行训练,那么它可以用于具有较少数量的训练实例的下游任务。为了测试这个任务,本发明采用简单的线性支持向量机作为学习机器,并选择不同比例的数据训练SVM分类器。为了测试数据选择或预处理对最终结果的影响程度,本发明将用户分为主要用户(发表很多评论的用户)和边缘用户(发表较少评论的用户)。本发明可通过对所有用户发布的评价进行排序,然后将位于排序前百分之五十的用户作为头部用户,其他用户将作为边缘用户。本发明再次随机选择五分之一的训练数据用于SVM训练。主要用户和边缘用户的统计数据如表3所示。从表3中可以看到主要用户倾向于发表更多的评论,并有更多的朋友。YelpR9数据集的数量比YelpR8大,特别是平均的朋友数。在图5(a)~图5(d)中显示了主要用户和边缘用户的训练结果。从图5(a)~图5(d)中可以看出主要用户的个性化和社会化的改善比边缘用户的改进更显著。这意味着,具有社交正规化的用户向量可以对主要用户的数据进行良好的训练。然而,当用户的评论较少,本发明目前还不能很好地训练。另一方面,主要用户的精度的绝对值小于边缘用户。这意味着,如果随机抽取边缘用户的数据进行注释,可以得到更好的结果。但是,对于一般的问题,在实践中更有可能对主要用户,例如意见领袖进行抽样,在网络中注释相应的数据。另外,通过比较YelpR8和YelpR9,本发明发现YelpR9的改进大于YelpR8。在表4中显示了具有五分之一的训练数据的分类结果。结果再次表明,个性化向量比word2vec具有更好的表现,并且加入社交正则化项的效果优于仅加入个性化词向量。
第三个实验:
表5
最后,本发明用深入学习集合来测试用户向量。对于Yelp数据的文档级别情绪分类,最近工作表明通过使用用户的注意力向量,可以使结果得到显着改善。本实验中展示了一个有趣的实验设置,使用户向量为“固定”注意力向量,然后显示了与基线相比是否收到关注的好处。这个实验对用户向量的无监督学习与监督学习进行比较。
本发明使用YelpR8数据试验中的五分之一的训练集作为训练数据,并在相应的开发和测试集进行测试。结果如表5所示,可以看到,与训练过的用户向量相比,本发明的用户向量非常有效。可以在测试集上提升约1.2分的CNN,而注意力训练则提高了1.6分。
综上所述,本发明实施例通过同时学习一组全局词向量和一组来自社交媒体的用户向量,并通过加入一个简单但有效的社交正则化项对目标函数进行社交修正。结果表明,基于个性化和社交正则化的词嵌入可以有效改善在自然语言处理的下游任务中表现,拓展了词嵌入的应用范围。
请参阅图6,本发明还提供了一种基于社交媒体的词嵌入系统100,包括:
文本获取单元10,用于获取在预定的社交媒体上的N个用户发表的自然语言文本,生成与每个用户对应的训练语料库,其中,N为正整数;
目标函数构建单元20,用于根据每个用户与训练语料库的对应关系及预定的基本词嵌入模型构建得到目标函数;
训练单元30,用于根据所述基本词嵌入模型,对每个所述训练语料库中的单词的全局词向量、与所述单词对应的用户的用户向量及所述目标函数进行训练;
参数保存单元40,用于保存训练后的与基本词嵌入模型对应的中间参数、每个用户训练后的用户向量及每个单词训练后的全局词向量,以根据训练后的中间参数、用户向量及全局词向量进行相应的自然语言任务处理。
优选地,还包括:
用户向量获取单元,用于获取每个用户在所述社交媒体上的好友用户的用户向量;
社交正则化单元,用于根据用户自身的用户向量及所述好友用户的用户向量生成社交正则化项;
目标函数社交修正单元,用于利用所述社交正则化项对所述目标函数进行社交修正。
优选地,所述社交正则化项表示为:
其中,表示用户ui在所述社交媒体上的好友用户的集合;uj为用户uj的用户向量,且uj属于集合
优选地,在利用所述社交正则化项对所述目标函数进行社交修正后,社交修正得到的目标函数为:
其中,为社交修正前的目标函数,λ为自定义参数,r是ui的L2范数的约束,且满足||ui||2≤r。
本发明还提供了一种终端设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一实施例所述的的基于社交媒体的词嵌入方法。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述任一实施例所述的基于社交媒体的词嵌入方法。
本发明实施例通过学习一组全局词向量和一组来自社交媒体的用户向量,并通过加入一个简单但有效的社交正则化项对目标函数进行社交修正。结果表明,基于个性化和社交正则化的词嵌入可以有效改善在自然语言处理的下游任务中表现,拓展了词嵌入的应用范围。
以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。

Claims (12)

1.一种基于社交媒体的词嵌入方法,其特征在于,包括如下步骤:
获取在预定的社交媒体上的N个用户发表的自然语言文本,生成与每个用户对应的训练语料库,其中,N为正整数;
根据每个用户与训练语料库的对应关系及预定的基本词嵌入模型构建得到目标函数;
基于所述基本词嵌入模型,同时对每个所述训练语料库中的单词的全局词向量、与所述单词对应的用户的用户向量及所述目标函数进行训练;
保存训练后的与基本词嵌入模型对应的中间参数、每个用户训练后的用户向量及每个单词训练后的全局词向量,以根据训练后的中间参数、用户向量及全局词向量进行相应的自然语言任务处理。
2.根据权利要求1所述的基于社交媒体的词嵌入方法,其特征在于,当所述基本词嵌入模型为CBOW模型时,所述目标函数表示为:
其中,表示第i个用户ui的训练语料库,wj表示训练语料库中的第j个单词,C(wj,ui)表示ωj的上下文,长度由窗口参数决定。
3.根据权利要求1所述的基于社交媒体的词嵌入方法,其特征在于,在根据每个用户与训练语料库的对应关系及预定的基本词嵌入模型构建得到目标函数之后,在所述基本词嵌入模型中,根据每个所述训练语料库中的单词的全局词向量、与所述单词对应的用户的用户向量及所述目标函数进行训练之前,还包括:
获取每个用户在所述社交媒体上的好友用户的用户向量;
根据用户自身的用户向量及所述好友用户的用户向量生成社交正则化项;
利用所述社交正则化项对所述目标函数进行社交修正。
4.根据权利要求1所述的基于社交媒体的词嵌入方法,其特征在于,对于与用户ui对应的训练语料库中的第j个单词wj,其个性化词向量表示为:其中,wj为wj的全局词向量,ui为用户ui的用户向量,wj和ui为具有相同维度的向量。
5.根据权利要求3所述的基于社交媒体的词嵌入方法,其特征在于,所述社交正则化项表示为:
其中,表示用户ui在所述社交媒体上的好友用户的集合;uj为用户uj的用户向量,且uj属于集合
6.根据权利要求5所述的基于社交媒体的词嵌入方法,其特征在于,在利用所述社交正则化项对所述目标函数进行社交修正后,社交修正得到的目标函数为:
其中,为社交修正前的目标函数,λ为自定义参数,r是ui的L-2范数的约束,且满足||ui||2≤r。
7.一种基于社交媒体的词嵌入系统,其特征在于,包括:
文本获取单元,用于获取在预定的社交媒体上的N个用户发表的自然语言文本,生成与每个用户对应的训练语料库,其中,N为正整数;
目标函数构建单元,用于根据每个用户与训练语料库的对应关系及预定的基本词嵌入模型构建得到目标函数;
训练单元,用于根据所述基本词嵌入模型,对每个所述训练语料库中的单词的全局词向量、与所述单词对应的用户的用户向量及所述目标函数进行训练;
参数保存单元,用于保存训练后的与基本词嵌入模型对应的中间参数、每个用户训练后的用户向量及每个单词训练后的全局词向量,以根据训练后的中间参数、用户向量及全局词向量进行相应的自然语言任务处理。
8.根据权利要求7所述的基于社交媒体的词嵌入系统,其特征在于,还包括:
用户向量获取单元,用于获取每个用户在所述社交媒体上的好友用户的用户向量;
社交正则化单元,用于根据用户自身的用户向量及所述好友用户的用户向量生成社交正则化项;
目标函数社交修正单元,用于利用所述社交正则化项对所述目标函数进行社交修正。
9.根据权利要求8所述的基于社交媒体的词嵌入系统,其特征在于,所述社交正则化项表示为:
其中,表示用户ui在所述社交媒体上的好友用户的集合;uj为用户uj的用户向量,且uj属于集合Ni
10.根据权利要求9所述的基于社交媒体的词嵌入系统,其特征在于,在利用所述社交正则化项对所述目标函数进行社交修正后,社交修正得到的目标函数为:
其中,为社交修正前的目标函数,λ为自定义参数,r是ui的L2范数的约束,且满足||ui||2≤r。
11.一种终端设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至6中任意一项所述的基于社交媒体的词嵌入方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至6中任意一项所述的基于社交媒体的词嵌入方法。
CN201710637320.1A 2017-07-28 2017-07-28 基于社交媒体的词嵌入方法、系统、终端设备及存储介质 Pending CN107436942A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710637320.1A CN107436942A (zh) 2017-07-28 2017-07-28 基于社交媒体的词嵌入方法、系统、终端设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710637320.1A CN107436942A (zh) 2017-07-28 2017-07-28 基于社交媒体的词嵌入方法、系统、终端设备及存储介质

Publications (1)

Publication Number Publication Date
CN107436942A true CN107436942A (zh) 2017-12-05

Family

ID=60460420

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710637320.1A Pending CN107436942A (zh) 2017-07-28 2017-07-28 基于社交媒体的词嵌入方法、系统、终端设备及存储介质

Country Status (1)

Country Link
CN (1) CN107436942A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108062304A (zh) * 2017-12-19 2018-05-22 北京工业大学 一种基于机器学习的商品评论数据的情感分析方法
CN108921221A (zh) * 2018-07-04 2018-11-30 腾讯科技(深圳)有限公司 用户特征的生成方法、装置、设备及存储介质
CN109346083A (zh) * 2018-11-28 2019-02-15 北京猎户星空科技有限公司 一种智能语音交互方法及装置、相关设备及存储介质
CN111241279A (zh) * 2020-01-07 2020-06-05 华东师范大学 一种基于多任务学习机制的自然语言关系抽取方法
CN113330510A (zh) * 2019-02-05 2021-08-31 国际商业机器公司 使用原声词嵌入对直接原声到词的语音识别中的词汇表外的词的识别
CN113343710A (zh) * 2021-06-29 2021-09-03 南通大学 一种基于Ising模型的无监督词嵌入表示学习方法
CN113449119A (zh) * 2021-06-30 2021-09-28 珠海金山办公软件有限公司 一种构建知识图谱的方法、装置、电子设备及存储介质
CN114462425A (zh) * 2022-04-12 2022-05-10 北京中科闻歌科技股份有限公司 社交媒体文本处理方法、装置、设备及存储介质
CN115828930A (zh) * 2023-01-06 2023-03-21 山东建筑大学 一种动态融合语义关系的分布式词向量空间修正方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160247061A1 (en) * 2015-02-19 2016-08-25 Digital Reasoning Systems, Inc. Systems and Methods for Neural Language Modeling
CN106599086A (zh) * 2016-11-25 2017-04-26 山东科技大学 一种基于Gaussian LDA和词嵌入的语义稀疏Web服务发现方法
CN106980650A (zh) * 2017-03-01 2017-07-25 平顶山学院 一种面向Twitter观点分类的情感增强词嵌入学习方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160247061A1 (en) * 2015-02-19 2016-08-25 Digital Reasoning Systems, Inc. Systems and Methods for Neural Language Modeling
CN106599086A (zh) * 2016-11-25 2017-04-26 山东科技大学 一种基于Gaussian LDA和词嵌入的语义稀疏Web服务发现方法
CN106980650A (zh) * 2017-03-01 2017-07-25 平顶山学院 一种面向Twitter观点分类的情感增强词嵌入学习方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108062304A (zh) * 2017-12-19 2018-05-22 北京工业大学 一种基于机器学习的商品评论数据的情感分析方法
CN108921221A (zh) * 2018-07-04 2018-11-30 腾讯科技(深圳)有限公司 用户特征的生成方法、装置、设备及存储介质
CN108921221B (zh) * 2018-07-04 2022-11-18 腾讯科技(深圳)有限公司 用户特征的生成方法、装置、设备及存储介质
CN109346083A (zh) * 2018-11-28 2019-02-15 北京猎户星空科技有限公司 一种智能语音交互方法及装置、相关设备及存储介质
CN113330510A (zh) * 2019-02-05 2021-08-31 国际商业机器公司 使用原声词嵌入对直接原声到词的语音识别中的词汇表外的词的识别
CN111241279A (zh) * 2020-01-07 2020-06-05 华东师范大学 一种基于多任务学习机制的自然语言关系抽取方法
CN113343710A (zh) * 2021-06-29 2021-09-03 南通大学 一种基于Ising模型的无监督词嵌入表示学习方法
CN113343710B (zh) * 2021-06-29 2023-09-29 南通大学 一种基于Ising模型的无监督词嵌入表示学习方法
CN113449119A (zh) * 2021-06-30 2021-09-28 珠海金山办公软件有限公司 一种构建知识图谱的方法、装置、电子设备及存储介质
CN114462425A (zh) * 2022-04-12 2022-05-10 北京中科闻歌科技股份有限公司 社交媒体文本处理方法、装置、设备及存储介质
CN115828930A (zh) * 2023-01-06 2023-03-21 山东建筑大学 一种动态融合语义关系的分布式词向量空间修正方法
CN115828930B (zh) * 2023-01-06 2023-05-02 山东建筑大学 一种动态融合语义关系的分布式词向量空间修正方法

Similar Documents

Publication Publication Date Title
CN107436942A (zh) 基于社交媒体的词嵌入方法、系统、终端设备及存储介质
Da The computational case against computational literary studies
CN106202010A (zh) 基于深度神经网络构建法律文本语法树的方法和装置
Wu et al. Hierarchical attention based long short-term memory for Chinese lyric generation
US10713429B2 (en) Joining web data with spreadsheet data using examples
CN107357793A (zh) 信息推荐方法和装置
SzymańSki Comparative analysis of text representation methods using classification
Zhao et al. Multi-task learning with graph attention networks for multi-domain task-oriented dialogue systems
CN113312480A (zh) 基于图卷积网络的科技论文层级多标签分类方法及设备
Stemle et al. Using language learner data for metaphor detection
Majumder et al. Achieving conversational goals with unsupervised post-hoc knowledge injection
Wu et al. Digital art feature association mining based on the machine learning algorithm
Dai et al. Aspect-level sentiment analysis merged with knowledge graph and graph convolutional neural network
Dong et al. Extending sparse text with induced domain-specific lexicons and embeddings: A case study on predicting donations
Tseng et al. Template-based headline generator for multiple documents
Rai et al. Identification of landscape preferences by using social media analysis
Ning et al. EAGS: An extracting auxiliary knowledge graph model in multi-turn dialogue generation
Paaß et al. Pre-trained Language Models
Kabra et al. Attention-Emotion-Embedding BiLSTM-GRU network based sentiment analysis
CN106227771B (zh) 一种基于社会化编程网站的领域专家发现方法
ElGindy et al. Capturing place semantics on the geosocial web
Alshamsan et al. Machine learning algorithms for privacy policy classification: A comparative study
Jiang et al. Parallel dynamic topic modeling via evolving topic adjustment and term weighting scheme
Xu et al. Multi-granularity convolutional neural network with feature fusion and refinement for user profiling
Guo et al. Accurate Generated Text Detection Based on Deep Layer-wise Relevance Propagation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20171205

RJ01 Rejection of invention patent application after publication