CN111310453A - 一种基于深度学习的用户主题向量化表示方法和系统 - Google Patents

一种基于深度学习的用户主题向量化表示方法和系统 Download PDF

Info

Publication number
CN111310453A
CN111310453A CN201911071836.XA CN201911071836A CN111310453A CN 111310453 A CN111310453 A CN 111310453A CN 201911071836 A CN201911071836 A CN 201911071836A CN 111310453 A CN111310453 A CN 111310453A
Authority
CN
China
Prior art keywords
user
word
feature vector
word segmentation
theme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911071836.XA
Other languages
English (en)
Other versions
CN111310453B (zh
Inventor
王晨宇
苗仲辰
林越峰
高剑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Financial Futures Information Technology Co ltd
Original Assignee
Shanghai Financial Futures Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Financial Futures Information Technology Co ltd filed Critical Shanghai Financial Futures Information Technology Co ltd
Priority to CN201911071836.XA priority Critical patent/CN111310453B/zh
Publication of CN111310453A publication Critical patent/CN111310453A/zh
Application granted granted Critical
Publication of CN111310453B publication Critical patent/CN111310453B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于深度学习的用户主题向量化表示方法和系统,能通过用户发表的文本内容,表征出用户的发文习惯及发文主题的特征,并最终合并表示为特定长度的向量。其技术方案为:步骤1:采集信息源的原始数据;步骤2:对采集到的原始数据进行包括分词在内的预处理,然后进行步骤3至步骤4、以及步骤5至步骤7的并列处理;步骤3:将分词后的数据文本按用户分组;步骤4:通过Skip‑Gram算法计算用户特征向量;步骤5:使用文本聚类算法将文本主题进行分类;步骤6:将分词后的数据文本按照主题类型进行分组;步骤7:通过Skip‑Gram算法计算主题特征向量;步骤8:基于计算出的用户特征向量和主题特征向量以及所选择的加权系数,生成用户主题特征向量。

Description

一种基于深度学习的用户主题向量化表示方法和系统
技术领域
本发明涉及一种用户主题向量化的表示技术,具体涉及基于深度学习的用户主题向量化表示方法和系统。
背景技术
随着数据传播方式的多样化及高效化,金融相关舆情的产生及快速传播,对于金融产品的行情走势已经起到了不可忽视的影响。金融舆情数据主要分为:金融类新闻舆情,及金融类论坛、博客舆情。其中,由于金融市场的专业特性,大多数个人投资者更倾向于,在论坛及博客中听取专业投资者(意见领袖)的建议。这些专业投资者(意见领袖),在论坛或微博中往往以大V(VIP)的形象示人,但其真实身份及动机往往都不为人知。
虽然论坛及微博都会对用户的基础信息进行收集,但该类静态信息的可靠性往往无法验证。因此,通过分析大V过往发布的舆情信息,以及发布内容的主题信息,能够较为客观的获取用户的语义信息,从而对分析用户行为起到积极的作用。目前市场缺少能够实现上述效果的解决方案。
发明内容
以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览,并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。
本发明的目的在于解决上述问题,提出了一种基于深度学习的用户主题向量化表示方法和系统,能通过用户发表的文本内容,表征出用户的发文习惯及发文主题的特征,并最终合并表示为特定长度的向量。而获得的用户主题向量可以依据特定业务需求应用于:用户相关的微博情感判断,多用户分类等多种后续应用。
本发明的技术方案为:本发明揭示了一种基于深度学习的用户主题向量化表示方法,方法包括:
步骤1:采集信息源的原始数据;
步骤2:对采集到的原始数据进行包括分词在内的预处理,然后进行步骤3至步骤4、以及步骤5至步骤7的并列处理;
步骤3:将分词后的数据文本按用户分组;
步骤4:通过Skip-Gram算法计算用户特征向量;
步骤5:使用文本聚类算法将文本主题进行分类;
步骤6:将分词后的数据文本按照主题类型进行分组;
步骤7:通过Skip-Gram算法计算主题特征向量;
步骤8:基于计算出的用户特征向量和主题特征向量以及所选择的加权系数,生成用户主题特征向量。
根据本发明的基于深度学习的用户主题向量化表示方法的一实施例,步骤2中的预处理操作包括:首先将采集后的原始数据进行筛选,去除对分析来说无意义的数据;再将筛选后的原始数据进行基于分词词典的分词处理,其中分词处理不改变原文的语序;在分词完成后,将分词处理后的数据及其对应的用户信息存储为单个文件;
其中,分词处理后的词,如果没有在分词词典中出现,则会被记入分词词典中,分词词典的大小可以按需设定。
根据本发明的基于深度学习的用户主题向量化表示方法的一实施例,步骤4中的用户特征向量的计算包括以下的迭代过程:
第一步:将数据文本正文的分词结果按照顺序输入到Skip-Gram算法中,其中每次迭代输入一个词,该词记为wi
第二步:同时将上次迭代得到的用户特征向量uj,输入到Skip-Gram算法中,其中迭代过程中的首次处理则随机生成用户特征向量;
第三步:Skip-Gram算法通过p(wi+1,wi-1|wi,uj)概率模型,计算离当前词wi相邻的至少两个词的概率,并在分词词典中选择概率最高的词作为输出,其中相邻词选择越多则学习到的用户特征向量中包含的语义关系也越多;
第四步:将通过p(wi+1,wi-1|wi,uj)概率模型计算获得的词,与真实的相邻词做差值得到损失项,将损失项通过反向传播算法传递给p(wi+1,wi-1|wi,uj)概率模型,再更新对应的用户特征向量uj的值;
重复上述第一步至第四步的多次迭代过程,直到用户特征向量uj的值趋近稳定或文本训练完毕。
根据本发明的基于深度学习的用户主题向量化表示方法的一实施例,步骤7的主题特征向量的计算包括以下的迭代过程:
第一步:将当前主题下的所有数据文本按照顺序输入到Skip-Gram算法中,其中每次输入一个词,该词记为wi
第二步:同时将上次迭代得到的主题特征向量tk,输入到Skip-Gram算法中,其中迭代过程中的首次处理则随机生成主题向量;
第三步:Skip-Gram算法通过p(wi+1,wi-1|wi,tk)概率模型,计算离当前词wi相邻的至少两个词的概率,并在分词词典中选择概率最高的词作为输出,其中相邻词选择越多则学习到的主题特征向量中包含的语义关系也越多;
第四步:将通过p(wi+1,wi-1|wi,tk)概率模型计算获得的词,与真实的相邻词做差值得到损失项,将损失项通过反向传播算法传递给p(wi+1,wi-1|wi,tk)概率模型,再更新对应的主题特征向量tk的值;
重复上述第一步至第四步的多次迭代过程,直到主题特征向量tk的值趋近稳定不变或文本训练完毕停止。
根据本发明的基于深度学习的用户主题向量化表示方法的一实施例,步骤8的用户主题特征向量的生成包括:
将步骤4获得的用户特征向量与步骤7获得的主题特征向量按照以下公式进行合并,最终获得用户主题特征向量,公式如下:
UTj=β*Uj+(1-β)*tj
其中,β为可变权重,取值最小为0,最大为1,用于分配用户特征向量和主题特征向量的比重;UTj为用户主题特征向量。
本发明还揭示了一种基于深度学习的用户主题向量化表示系统的一实施例,系统包括:
数据采集模块,用于采集信息源的原始数据;
预处理模块,用于对采集到的原始数据进行包括分词在内的预处理;
用户分组模块,用于将分词后的数据文本按用户分组;
用户特征向量计算模块,用于通过Skip-Gram算法计算用户特征向量;
文本聚类模块,用于使用文本聚类算法将文本主题进行分类;
主题分组模块,用于分词后的数据文本按照主题类型进行分组;
主题特征向量计算模块,用于通过Skip-Gram算法计算主题特征向量;以及
用户主题特征向量生成模块,用于基于计算出的用户特征向量和主题特征向量以及所选择的加权系数,生成用户主题特征向量。
根据本发明的基于深度学习的用户主题向量化表示系统的一实施例,预处理模块中的操作包括:首先将采集后的原始数据进行筛选,去除对分析来说无意义的数据;再将筛选后的原始数据进行基于分词词典的分词处理,其中分词处理不改变原文的语序;在分词完成后,将分词处理后的数据及其对应的用户信息存储为单个文件;
其中,分词处理后的词,如果没有在分词词典中出现,则会被记入分词词典中,分词词典的大小可以按需设定。
根据本发明的基于深度学习的用户主题向量化表示系统的一实施例,用户特征向量计算模块的计算包括以下的迭代过程:
第一步:将数据文本正文的分词结果按照顺序输入到Skip-Gram算法中,其中每次迭代输入一个词,该词记为wi
第二步:同时将上次迭代得到的用户特征向量uj,输入到Skip-Gram算法中,其中迭代过程中的首次处理则随机生成用户特征向量;
第三步:Skip-Gram算法通过p(wi+1,wi-1|wi,uj)概率模型,计算离当前词wi相邻的至少两个词的概率,并在分词词典中选择概率最高的词作为输出,其中相邻词选择越多则学习到的用户特征向量中包含的语义关系也越多;
第四步:将通过p(wi+1,wi-1|wi,uj)概率模型计算获得的词,与真实的相邻词做差值得到损失项,将损失项通过反向传播算法传递给p(wi+1,wi-1|wi,uj)概率模型,再更新对应的用户特征向量uj的值;
重复上述第一步至第四步的多次迭代过程,直到用户特征向量uj的值趋近稳定不变或文本训练完毕停止。
根据本发明的基于深度学习的用户主题向量化表示系统的一实施例,主题特征向量计算模块的计算包括以下的迭代过程:
第一步:将当前主题下的所有数据文本按照顺序输入到Skip-Gram算法中,其中每次输入一个词,该词记为wi
第二步:同时将上次迭代得到的主题特征向量tk,输入到Skip-Gram算法中,其中迭代过程中的首次处理则随机生成主题向量;
第三步:Skip-Gram算法通过p(wi+1,wi-1|wi,tk)概率模型,计算离当前词wi相邻的至少两个词的概率,并在分词词典中选择概率最高的词作为输出,其中相邻词选择越多则学习到的主题特征向量中包含的语义关系也越多;
第四步:将通过p(wi+1,wi-1|wi,tk)概率模型计算获得的词,与真实的相邻词做差值得到损失项,将损失项通过反向传播算法传递给p(wi+1,wi-1|wi,tk)概率模型,再更新对应的主题特征向量tk的值;
重复上述第一步至第四步的多次迭代过程,直到主题特征向量tk的值趋近稳定不变或文本训练完毕停止。
根据本发明的基于深度学习的用户主题向量化表示系统的一实施例,用户主题特征向量生成模块中对用户主题特征向量的生成包括:
将用户特征向量计算模块获得的用户特征向量与主题特征向量计算模块获得的主题特征向量按照以下公式进行合并,最终获得用户主题特征向量,公式如下:
UTj=β*Uj+(1-β)*tk
其中,β为可变权重,取值最小为0,最大为1,用于分配用户特征向量和主题特征向量的比重;UTj为用户主题特征向量。
本发明对比现有技术有如下的有益效果:本发明通过改良的Skip-Gram算法,依靠用户用过去的发文信息即可训练模型获得用户的特征向量,该特征向量主要包含了用户语言行为、用词搭配习惯等非量化的属性,这些潜在的非量化属性比用户自己填写的个人信息具有更好的可靠性,并能提供更丰富的用户信息,对于具体用户相关业务分析有重要的补充意义。同时,除了考虑用户特征,还考虑到了用户参与话题的主题特征,该特征不局限于用户个人的语言习惯,还综合了其他话题参与者的主流用户习惯。在本发明中,为了平衡用户个人特征与参与的主题特征,在用户主题向量化过程中引入了加权系数,该加权系数可以依据具体的业务场景进行调整,从而均衡用户个人于主流观点的差异。
附图说明
在结合以下附图阅读本公开的实施例的详细描述之后,能够更好地理解本发明的上述特征和优点。在附图中,各组件不一定是按比例绘制,并且具有类似的相关特性或特征的组件可能具有相同或相近的附图标记。
图1示出了本发明的基于深度学习的用户主题向量化表示方法的一实施例的总体流程图。
图2示出了本发明的按用户分组的示例的示意图。
图3示出了本发明中的改良的Skip-Gram算法中的迭代过程示意图。
图4示出了本发明的按主题分组的示例的示意图。
图5示出了本发明的基于深度学习的用户主题向量化表示系统的一实施例的原理图。
具体实施方式
以下结合附图和具体实施例对本发明作详细描述。注意,以下结合附图和具体实施例描述的诸方面仅是示例性的,而不应被理解为对本发明的保护范围进行任何限制。
图1示出了本发明的基于深度学习的用户主题向量化表示方法的一实施例的总体流程。请参见图1,下面是对本实施例的基于深度学习的用户主题向量化表示方法的具体实施步骤的详细描述。
步骤S1:采集信息源的原始数据。
在本实施例中,信息源是微博,当然也可以是其他类似微博的论坛或者网站,在本发明中并不以此为限,在本实施例中以微博为例进行说明。原始数据包括微博用户通过微博发布的正文、评论等内容。采集的主要方式包括但不限于:使用爬虫系统爬取公开信息、复制公开内容、手工键入等方式。采集后的数据结果主要包括两个主要信息:发文的微博用户ID以及该用户ID发布的历史微博文本。
步骤S2:对采集到的原始数据进行包括分词在内的预处理。
预处理操作具体包括:首先将采集后的原始数据进行筛选,去除对分析来说无意义的数据(比如微博中的“转发微博”等无意义的单条正文),再将筛选后的原始数据(微博文本)进行基于分词词典的分词处理,其中分词处理不改变原文的语序。在分词完成后,将分词处理后的数据(分词处理后的微博文本)及其对应的用户信息(微博用户信息)存储为单个文件。
其中,分词处理后的词,如果没有在分词词典中出现,则会被记入分词词典中,分词词典的大小可以按需设定。
在步骤S2完成之后,方法开始并列的两个处理步骤(步骤S3和S4的处理,以及步骤S5至S7的处理)。
步骤S3:将分词后的数据文本按用户分组。
将分词后的数据(微博文本)按照用户(微博用户)进行聚合并排序,以使相同用户发布的内容聚集到一起,如图2所示。其中每条(微博)正文为一行,后续在计算某一用户的用户特征向量时,会将该用户下的所有(微博)正文作为输入,输入到改良的Skip-Gram算法中。
步骤S4:通过改良的Skip-Gram算法计算用户特征向量。
请同时参见图3,改良的Skip-Gram算法是一种学习词语间出现概率的深度学习模型,相对于现有的Skip-Gram算法,原始Skip-Gram算法中的概率模型为p(wi+1,wi-1|wi),而本发明改良的Skip-Gram模型为p(wi+1,wi-1|wi,uj),其中引入了用户特征向量uj。改良的Skip-Gram模型的学习过程如下:
第一步:将微博正文的分词结果按照顺序输入到改良的Skip-Gram算法中,其中每次输入一个词,该词记为wi
第二步:同时将上次迭代得到的用户特征向量uj(迭代过程中的首次处理则随机生成用户特征向量),输入到改良的Skip-Gram算法中。
第三步:改良的Skip-Gram算法通过p(wi+1,wi-1|wi,uj)概率模型,计算离当前词wi相邻的至少两个词的概率,并在分词词典中选择概率最高的词作为输出,其中相邻词选择越多则学习到的用户特征向量中包含的语义关系也越多。
第四步:将通过p(wi+1,wi-1|wi,uj)概率模型计算获得的词,与真实的相邻词做差值得到损失项,将损失项通过反向传播算法传递给p(wi+1,wi-1|wi,uj)概率模型,再更新对应的用户特征向量uj的值。
重复上述第一步至第四步,直到用户特征向量的值趋近稳定不变或用户微博文本训练完毕停止。
步骤S5:使用文本聚类算法将文本主题进行分类。
将采集并清理分词后的数据,使用文本聚类算法分配到不同主题中,其中文本聚类算法主要依赖于现有技术,例如可以使用已训练的公开主题模型,也可以使用KMeans及SinglePass等无监督机器学习模型,具体模型的选择可以按照实际使用需求选取。该步骤的目标是将每条微博数据打上一个主题类别标签,相同主题类别标签下的文本即认为是相近主题。
步骤S6:按照主题类型进行分组。
如图4所示,此步骤类似于步骤S3,将微博文本数据按照步骤S5生成的主题类别标签进行聚集,计算主题向量时会将该主题下的所有文本输入到改良的Skip-Gram算法中去。
步骤S7:通过改良的Skip-Gram算法计算主题特征向量。
该步骤与步骤S4类似,不同点在于将步骤S4的第二步中的用户特征向量uj修改为代表主题的主题特征向量tk,最终重复运行改良的Skip-Gram算法中的第一步至第四步,直到获得稳定的主题特征向量。具体为:
第一步:将当前主题下的所有微博文本按照顺序输入到改良的Skip-Gram算法中,其中每次输入一个词,该词记为wi
第二步:同时将上次迭代得到的主题特征向量tk(迭代过程中的首次处理则随机生成主题向量),输入到改良的Skip-Gram算法中。
第三步:改良的Skip-Gram算法通过p(wi+1,wi-1|wi,tk)概率模型,计算离当前词wi相邻的至少两个词的概率,并在分词词典中选择概率最高的词作为输出,其中相邻词选择越多则学习到的用户特征向量中包含的语义关系也越多。
第四步:将通过p(wi+1,wi-1|wi,tk)概率模型计算获得的词,与真实的相邻词做差值得到损失项,将损失项通过反向传播算法传递给p(wi+1,wi-1|wi,tk)概率模型,再更新对应的主题特征向量tk的值。
重复上述第一步至第四步,直到主题特征向量tk的值趋近稳定不变或用户微博文本训练完毕停止。
步骤S8:选择加权系数,并生成用户主题特征向量。
将步骤S4获得的用户特征向量与步骤S7获得的主题特征向量按照以下公式进行合并,最终获得用户主题特征向量,公式如下:
UTj=β*Uj+(1-β)*tk
其中,β为可变权重,取值最小为0,最大为1,用于分配用户特征向量和主题特征向量的比重;UTj为用户主题特征向量,其余参数参见前述内容。
当β为1时,仅仅考虑用户个人的特征向量,用户特征主要表现的是用户的语言习惯、用词搭配信息;当β为0时,则主要依赖该用户发布内容的主题特征,由于该特征不局限于单一用户的语言习惯,因此可以更好的反应主流人群对主题的看法。
通过在0至1中调整β的取值大小,可以满足各种业务的不同分析需求。
图5示出了本发明的基于深度学习的用户主题向量化表示系统的一实施例的原理。请参见图5,本实施例的系统包括:数据采集模块、预处理模块、用户分组模块、用户特征向量计算模块、文本聚类模块、主题分组模块、主题特征向量计算模块以及用户主题特征向量生成模块。
数据采集模块的输出端连接预处理模块的输入端,预处理模块的输出端分别连接用户分组模块和文本聚类模块的输入端,用户分组模块的输出端连接用户特征向量计算模块的输入端,文本聚类模块的输出端连接主题分组模块的输入端,主题分组模块的输出端连接主题特征向量计算模块的输入端,用户特征向量计算模块和主题特征向量计算模块的输出端连接到用户主题特征向量生成模块的输入端,用户主题特征向量生成模块的输出端即为系统的最终输出。
数据采集模块用于采集信息源的原始数据。在本实施例中,信息源是微博,当然也可以是其他类似微博的论坛或者网站,在本发明中并不以此为限,在本实施例中以微博为例进行说明。原始数据包括微博用户通过微博发布的正文、评论等内容。采集的主要方式包括但不限于:使用爬虫系统爬取公开信息、复制公开内容、手工键入等方式。采集后的数据结果主要包括两个主要信息:发文的微博用户ID以及该用户ID发布的历史微博文本。
预处理模块用于对采集到的原始数据进行包括分词在内的预处理。预处理操作具体包括:首先将采集后的原始数据进行筛选,去除对分析来说无意义的数据(比如微博中的“转发微博”等无意义的单条正文),再将筛选后的原始数据(微博文本)进行基于分词词典的分词处理,其中分词处理不改变原文的语序。在分词完成后,将分词处理后的数据(分词处理后的微博文本)及其对应的用户信息(微博用户信息)存储为单个文件。其中,分词处理后的词,如果没有在分词词典中出现,则会被记入分词词典中,分词词典的大小可以按需设定。
用户分组模块用于将分词后的数据文本按用户分组。将分词后的数据(微博文本)按照用户(微博用户)进行聚合并排序,以使相同用户发布的内容聚集到一起,如图2所示。其中每条(微博)正文为一行,后续在计算某一用户的用户特征向量时,会将该用户下的所有(微博)正文作为输入,输入到改良的改良的Skip-Gram算法中。
用户特征向量计算模块用于通过改良的Skip-Gram算法计算用户特征向量。
请同时参见图3,改良的Skip-Gram算法是一种学习词语间出现概率的深度学习模型,其学习过程如下:
第一步:将微博正文的分词结果按照顺序输入到改良的Skip-Gram算法中,其中每次输入一个词,该词记为wi
第二步:同时将上次迭代得到的用户特征向量uj(迭代过程中的首次处理则随机生成用户特征向量),输入到改良的Skip-Gram算法中。
第三步:改良的Skip-Gram算法通过p(wi+1,wi-1|wi,uj)概率模型,计算离当前词wi相邻的至少两个词的概率,并在分词词典中选择概率最高的词作为输出,其中相邻词选择越多则学习到的用户特征向量中包含的语义关系也越多。
第四步:将通过p(wi+1,wi-1|wi,uj)概率模型计算获得的词,与真实的相邻词做差值得到损失项,将损失项通过反向传播算法传递给p(wi+1,wi-1|wi,uj)概率模型,再更新对应的用户特征向量uj的值。
重复上述第一步至第四步,直到用户特征向量uj的值趋近稳定不变或用户微博文本训练完毕停止。
文本聚类模块用于使用文本聚类算法将文本主题进行分类。将采集并清理分词后的数据,使用文本聚类算法分配到不同主题中,其中文本聚类算法主要依赖于现有技术,例如可以使用已训练的公开主题模型,也可以使用KMeans及SinglePass等无监督机器学习模型,具体模型的选择可以按照实际使用需求选取。该步骤的目标是将每条微博数据打上一个主题类别标签,相同主题类别标签下的文本即认为是相近主题。
主题分组模块用于按照主题类型进行分组,即,将微博文本数据按照文本聚类模块生成的主题类别标签进行聚集,计算主题向量时会将该主题下的所有文本输入到改良的Skip-Gram算法中去。
主题特征向量计算模块用于通过改良的Skip-Gram算法计算主题特征向量。
该步骤与用户特征向量计算模块类似,不同点在于将用户特征向量计算模块的第二步中的用户特征向量uj修改为代表主题的主题特征向量tk,最终重复运行改良的Skip-Gram算法中的第一步至第四步,直到获得稳定的主题特征向量。具体为:
第一步:将当前主题下的所有微博文本按照顺序输入到改良的Skip-Gram算法中,其中每次输入一个词,该词记为wi
第二步:同时将上次迭代得到的主题特征向量tk(迭代过程中的首次处理则随机生成主题向量),输入到改良的Skip-Gram算法中。
第三步:改良的Skip-Gram算法通过p(wi+1,wi-1|wi,tk)概率模型,计算离当前词wi相邻的至少两个词的概率,并在分词词典中选择概率最高的词作为输出,其中相邻词选择越多则学习到的用户特征向量中包含的语义关系也越多。
第四步:将通过p(wi+1,wi-1|wi,tk)概率模型计算获得的词,与真实的相邻词做差值得到损失项,将损失项通过反向传播算法传递给p(wi+1,wi-1|wi,tk)概率模型,再更新对应的主题特征向量tk的值。
重复上述第一步至第四步,直到主题特征向量tk的值趋近稳定不变或用户微博文本训练完毕停止。
用户主题特征向量生成模块用于选择加权系数,并生成用户主题特征向量。将用户特征向量计算模块获得的用户特征向量与主题特征向量计算模块获得的主题特征向量按照以下公式进行合并,最终获得用户主题特征向量,公式如下:
UTj=β*Uj+(1-β)*tk
其中,β为可变权重,取值最小为0,最大为1,用于分配用户特征向量和主题特征向量的比重;UTj为用户主题特征向量,其余参数参见前述内容。
当β为1时,仅仅考虑用户个人的特征向量,用户特征主要表现的是用户的语言习惯、用词搭配信息;当β为0时,则主要依赖该用户发布内容的主题特征,由于该特征不局限于单一用户的语言习惯,因此可以更好的反应主流人群对主题的看法。
通过在0至1中调整β的取值大小,可以满足各种业务的不同分析需求。
此外,本发明还揭示了一种基于深度学习的用户主题向量化表示系统,包括处理器以及存储器,存储器被配置为存储一系列计算机可执行的指令以及与这一系列计算机可执行的指令相关联的计算机可访问的数据,其中,当这一系列计算机可执行的指令被处理器执行时,使得处理器进行如前述实施例所述的方法。
本发明还揭示了一种非临时性计算机可读存储介质,该非临时性计算机可读存储介质上存储有一系列计算机可执行的指令,当这一系列可执行的指令被计算装置执行时,使得计算装置进行如前述实施例所述的方法。
本发明的创新之处在于:通过改良的Skip-Gram算法,仅仅依靠用户过往的发文信息即可训练模型获得用户特征向量,该用户特征向量主要包含用户语言行为、用词搭配习惯等,是非量化的属性,这些潜在属性要比用户自己填写的个人信息具有更好的可靠性,并能提供更丰富的用户信息,对于具体用户相关业务分析有重要的补充意义。同时,除了考虑用户特征,还考虑到了用户参与话题的主题特征,该主题特征不局限于用户个人的语言习惯,还综合了其他话题参与者的主流用户习惯。
为了平衡用户个人特征与参与的主题特征,在用户主题向量化过程中引入了加权系数,该系数可以依据具体的业务场景进行调整,从而均衡用户个人与主流观点的差异。
尽管为使解释简单化将上述方法图示并描述为一系列动作,但是应理解并领会,这些方法不受动作的次序所限,因为根据一个或多个实施例,一些动作可按不同次序发生和/或与来自本文中图示和描述或本文中未图示和描述但本领域技术人员可以理解的其他动作并发地发生。
本领域技术人员将进一步领会,结合本文中所公开的实施例来描述的各种解说性逻辑板块、模块、电路、和算法步骤可实现为电子硬件、计算机软件、或这两者的组合。为清楚地解说硬件与软件的这一可互换性,各种解说性组件、框、模块、电路、和步骤在上面是以其功能性的形式作一般化描述的。此类功能性是被实现为硬件还是软件取决于具体应用和施加于整体系统的设计约束。技术人员对于每种特定应用可用不同的方式来实现所描述的功能性,但这样的实现决策不应被解读成导致脱离了本发明的范围。
结合本文所公开的实施例描述的各种解说性逻辑板块、模块、和电路可用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其设计成执行本文所描述功能的任何组合来实现或执行。通用处理器可以是微处理器,但在替换方案中,该处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合,例如DSP与微处理器的组合、多个微处理器、与DSP核心协作的一个或多个微处理器、或任何其他此类配置。
结合本文中公开的实施例描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中体现。软件模块可驻留在RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域中所知的任何其他形式的存储介质中。示例性存储介质耦合到处理器以使得该处理器能从/向该存储介质读取和写入信息。在替换方案中,存储介质可以被整合到处理器。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替换方案中,处理器和存储介质可作为分立组件驻留在用户终端中。
在一个或多个示例性实施例中,所描述的功能可在硬件、软件、固件或其任何组合中实现。如果在软件中实现为计算机程序产品,则各功能可以作为一条或更多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机存储介质和通信介质两者,其包括促成计算机程序从一地向另一地转移的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定,这样的计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁存储设备、或能被用来携带或存储指令或数据结构形式的合意程序代码且能被计算机访问的任何其它介质。任何连接也被正当地称为计算机可读介质。例如,如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或诸如红外、无线电、以及微波之类的无线技术从web网站、服务器、或其它远程源传送而来,则该同轴电缆、光纤电缆、双绞线、DSL、或诸如红外、无线电、以及微波之类的无线技术就被包括在介质的定义之中。如本文中所使用的盘(disk)和碟(disc)包括压缩碟(CD)、激光碟、光碟、数字多用碟(DVD)、软盘和蓝光碟,其中盘(disk)往往以磁的方式再现数据,而碟(disc)用激光以光学方式再现数据。上述的组合也应被包括在计算机可读介质的范围内。
提供对本公开的先前描述是为使得本领域任何技术人员皆能够制作或使用本公开。对本公开的各种修改对本领域技术人员来说都将是显而易见的,且本文中所定义的普适原理可被应用到其他变体而不会脱离本公开的精神或范围。由此,本公开并非旨在被限定于本文中所描述的示例和设计,而是应被授予与本文中所公开的原理和新颖性特征相一致的最广范围。

Claims (10)

1.一种基于深度学习的用户主题向量化表示方法,其特征在于,方法包括:
步骤1:采集信息源的原始数据;
步骤2:对采集到的原始数据进行包括分词在内的预处理,然后进行步骤3至步骤4、以及步骤5至步骤7的并列处理;
步骤3:将分词后的数据文本按用户分组;
步骤4:通过Skip-Gram算法计算用户特征向量;
步骤5:使用文本聚类算法将文本主题进行分类;
步骤6:将分词后的数据文本按照主题类型进行分组;
步骤7:通过Skip-Gram算法计算主题特征向量;
步骤8:基于计算出的用户特征向量和主题特征向量以及所选择的加权系数,生成用户主题特征向量。
2.根据权利要求1所述基于深度学习的用户主题向量化表示方法,其特征在于,步骤2中的预处理操作包括:首先将采集后的原始数据进行筛选,去除对分析来说无意义的数据;再将筛选后的原始数据进行基于分词词典的分词处理,其中分词处理不改变原文的语序;在分词完成后,将分词处理后的数据及其对应的用户信息存储为单个文件;
其中,分词处理后的词,如果没有在分词词典中出现,则会被记入分词词典中,分词词典的大小可以按需设定。
3.根据权利要求1所述的基于深度学习的用户主题向量化表示方法,其特征在于,步骤4中的用户特征向量的计算包括以下的迭代过程:
第一步:将数据文本正文的分词结果按照顺序输入到Skip-Gram算法中,其中每次迭代输入一个词,该词记为wi
第二步:同时将上次迭代得到的用户特征向量uj,输入到Skip-Gram算法中,其中迭代过程中的首次处理则随机生成用户特征向量;
第三步:Skip-Gram算法通过p(wi+1,wi-1|wi,uj)概率模型,计算离当前词wi相邻的至少两个词的概率,并在分词词典中选择概率最高的词作为输出,其中相邻词选择越多则学习到的用户特征向量中包含的语义关系也越多;
第四步:将通过p(wi+1,wi-1|wi,uj)概率模型计算获得的词,与真实的相邻词做差值得到损失项,将损失项通过反向传播算法传递给p(wi+1,wi-1|wi,uj)概率模型,再更新对应的用户特征向量uj的值;
重复上述第一步至第四步的多次迭代过程,直到用户特征向量uj的值趋近稳定不变或文本训练完毕停止。
4.根据权利要求1所述的基于深度学习的用户主题向量化表示方法,其特征在于,步骤7的主题特征向量的计算包括以下的迭代过程:
第一步:将当前主题下的所有数据文本按照顺序输入到Skip-Gram算法中,其中每次输入一个词,该词记为wi
第二步:同时将上次迭代得到的主题特征向量tk,输入到Skip-Gram算法中,其中迭代过程中的首次处理则随机生成主题特征向量;
第三步:Skip-Gram算法通过p(wi+1,wi-1|wi,tk)概率模型,计算离当前词wi相邻的至少两个词的概率,并在分词词典中选择概率最高的词作为输出,其中相邻词选择越多则学习到的主题特征向量中包含的语义关系也越多;
第四步:将通过p(wi+1,wi-1|wi,tk)概率模型计算获得的词,与真实的相邻词做差值得到损失项,将损失项通过反向传播算法传递给p(wi+1,wi-1|wi,tk)概率模型,再更新对应的主题特征向量tk的值;
重复上述第一步至第四步的多次迭代过程,直到主题特征向量tk的值趋近稳定不变或文本训练完毕停止。
5.根据权利要求1所述的基于深度学习的用户主题向量化表示方法,其特征在于,步骤8的用户主题特征向量的生成包括:
将步骤4获得的用户特征向量与步骤7获得的主题特征向量按照以下公式进行合并,最终获得用户主题特征向量,公式如下:
UTj=β*Uj+(1-β)*tk
其中,β为可变权重,取值最小为0,最大为1,用于分配用户特征向量和主题特征向量的比重;UTj为用户主题特征向量。
6.一种基于深度学习的用户主题向量化表示系统,其特征在于,系统包括:
数据采集模块,用于采集信息源的原始数据;
预处理模块,用于对采集到的原始数据进行包括分词在内的预处理;
用户分组模块,用于将分词后的数据文本按用户分组;
用户特征向量计算模块,用于通过Skip-Gram算法计算用户特征向量;
文本聚类模块,用于使用文本聚类算法将文本主题进行分类;
主题分组模块,用于分词后的数据文本按照主题类型进行分组;
主题特征向量计算模块,用于通过Skip-Gram算法计算主题特征向量;以及
用户主题特征向量生成模块,用于基于计算出的用户特征向量和主题特征向量以及所选择的加权系数,生成用户主题特征向量。
7.根据权利要求6所述的基于深度学习的用户主题向量化表示系统,其特征在于,预处理模块中的操作包括:首先将采集后的原始数据进行筛选,去除对分析来说无意义的数据;再将筛选后的原始数据进行基于分词词典的分词处理,其中分词处理不改变原文的语序;在分词完成后,将分词处理后的数据及其对应的用户信息存储为单个文件;
其中,分词处理后的词,如果没有在分词词典中出现,则会被记入分词词典中,分词词典的大小可以按需设定。
8.根据权利要求6所述的基于深度学习的用户主题向量化表示系统,其特征在于,用户特征向量计算模块的计算包括以下的迭代过程:
第一步:将数据文本正文的分词结果按照顺序输入到Skip-Gram算法中,其中每次迭代输入一个词,该词记为wi
第二步:同时将上次迭代得到的用户特征向量uj,输入到Skip-Gram算法中,其中迭代过程中的首次处理则随机生成用户特征向量;
第三步:Skip-Gram算法通过p(wi+1,wi-1|wi,uj)概率模型,计算离当前词wi相邻的至少两个词的概率,并在分词词典中选择概率最高的词作为输出,其中相邻词选择越多则学习到的用户特征向量中包含的语义关系也越多;
第四步:将通过p(wi+1,wi-1|wi,uj)概率模型计算获得的词,与真实的相邻词做差值得到损失项,将损失项通过反向传播算法传递给p(wi+1,wi-1|wi,uj)概率模型,再更新对应的用户特征向量uj的值;
重复上述第一步至第四步的多次迭代过程,直到用户特征向量uj的值趋近稳定不变或文本训练完毕停止。
9.根据权利要求6所述的基于深度学习的用户主题向量化表示系统,其特征在于,主题特征向量计算模块的计算包括以下的迭代过程:
第一步:将当前主题下的所有数据文本按照顺序输入到Skip-Gram算法中,其中每次输入一个词,该词记为wi
第二步:同时将上次迭代得到的主题特征向量tk,输入到Skip-Gram算法中,其中迭代过程中的首次处理则随机生成主题向量;
第三步:Skip-Gram算法通过p(wi+1,wi-1|wi,tk)概率模型,计算离当前词wi相邻的至少两个词的概率,并在分词词典中选择概率最高的词作为输出,其中相邻词选择越多则学习到的主题特征向量中包含的语义关系也越多;
第四步:将通过p(wi+1,wi-1|wi,tk)概率模型计算获得的词,与真实的相邻词做差值得到损失项,将损失项通过反向传播算法传递给p(wi+1,wi-1|wi,tk)概率模型,再更新对应的主题特征向量tk的值;
重复上述第一步至第四步的多次迭代过程,直到主题特征向量tk的值趋近稳定不变或文本训练完毕停止。
10.根据权利要求6所述的基于深度学习的用户主题向量化表示系统,其特征在于,用户主题特征向量生成模块中对用户主题特征向量的生成包括:
将用户特征向量计算模块获得的用户特征向量与主题特征向量计算模块获得的主题特征向量按照以下公式进行合并,最终获得用户主题特征向量,公式如下:
UTj=β*Uj+(1-β)*tk
其中,β为可变权重,取值最小为0,最大为1,用于分配用户特征向量和主题特征向量的比重;UTj为用户主题特征向量。
CN201911071836.XA 2019-11-05 2019-11-05 一种基于深度学习的用户主题向量化表示方法和系统 Active CN111310453B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911071836.XA CN111310453B (zh) 2019-11-05 2019-11-05 一种基于深度学习的用户主题向量化表示方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911071836.XA CN111310453B (zh) 2019-11-05 2019-11-05 一种基于深度学习的用户主题向量化表示方法和系统

Publications (2)

Publication Number Publication Date
CN111310453A true CN111310453A (zh) 2020-06-19
CN111310453B CN111310453B (zh) 2023-04-25

Family

ID=71161269

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911071836.XA Active CN111310453B (zh) 2019-11-05 2019-11-05 一种基于深度学习的用户主题向量化表示方法和系统

Country Status (1)

Country Link
CN (1) CN111310453B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113064990A (zh) * 2021-01-04 2021-07-02 上海金融期货信息技术有限公司 一种基于多层次聚类的热点事件识别方法和系统
CN113098735A (zh) * 2021-03-31 2021-07-09 上海天旦网络科技发展有限公司 面向推理的应用流量和指标向量化方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103942340A (zh) * 2014-05-09 2014-07-23 电子科技大学 一种基于文本挖掘的微博用户兴趣识别方法
US20140214402A1 (en) * 2013-01-25 2014-07-31 Cisco Technology, Inc. Implementation of unsupervised topic segmentation in a data communications environment
CN104636456A (zh) * 2015-02-03 2015-05-20 大连理工大学 一种基于词向量的问题路由方法
CN105760507A (zh) * 2016-02-23 2016-07-13 复旦大学 基于深度学习的跨模态主题相关性建模方法
US20190180327A1 (en) * 2017-12-08 2019-06-13 Arun BALAGOPALAN Systems and methods of topic modeling for large scale web page classification
CN110264372A (zh) * 2019-05-16 2019-09-20 西安交通大学 一种基于节点表示的主题社团发现方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140214402A1 (en) * 2013-01-25 2014-07-31 Cisco Technology, Inc. Implementation of unsupervised topic segmentation in a data communications environment
CN103942340A (zh) * 2014-05-09 2014-07-23 电子科技大学 一种基于文本挖掘的微博用户兴趣识别方法
CN104636456A (zh) * 2015-02-03 2015-05-20 大连理工大学 一种基于词向量的问题路由方法
CN105760507A (zh) * 2016-02-23 2016-07-13 复旦大学 基于深度学习的跨模态主题相关性建模方法
US20190180327A1 (en) * 2017-12-08 2019-06-13 Arun BALAGOPALAN Systems and methods of topic modeling for large scale web page classification
CN110264372A (zh) * 2019-05-16 2019-09-20 西安交通大学 一种基于节点表示的主题社团发现方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
黄栋;徐博;许侃;林鸿飞;杨志豪;: "基于词向量和EMD距离的短文本聚类" *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113064990A (zh) * 2021-01-04 2021-07-02 上海金融期货信息技术有限公司 一种基于多层次聚类的热点事件识别方法和系统
CN113098735A (zh) * 2021-03-31 2021-07-09 上海天旦网络科技发展有限公司 面向推理的应用流量和指标向量化方法及系统

Also Published As

Publication number Publication date
CN111310453B (zh) 2023-04-25

Similar Documents

Publication Publication Date Title
US11775494B2 (en) Multi-service business platform system having entity resolution systems and methods
US11250033B2 (en) Methods, systems, and computer program product for implementing real-time classification and recommendations
US11086601B2 (en) Methods, systems, and computer program product for automatic generation of software application code
US11734329B2 (en) System and method for text categorization and sentiment analysis
US20220206993A1 (en) Multi-service business platform system having custom object systems and methods
US20220337538A1 (en) Customized message suggestion with user embedding vectors
US11170064B2 (en) Method and system to filter out unwanted content from incoming social media data
US9043285B2 (en) Phrase-based data classification system
JP2019159309A (ja) 音声対話の満足度の確定方法及び装置
US20200143115A1 (en) Systems and methods for improved automated conversations
Hazim et al. Detecting opinion spams through supervised boosting approach
JP5346327B2 (ja) 対話学習装置、要約装置、対話学習方法、要約方法、プログラム
US20200334697A1 (en) Generating survey responses from unsolicited messages
US11416539B2 (en) Media selection based on content topic and sentiment
US20230418793A1 (en) Multi-service business platform system having entity resolution systems and methods
WO2020139865A1 (en) Systems and methods for improved automated conversations
CN111310453B (zh) 一种基于深度学习的用户主题向量化表示方法和系统
Alabdullatif et al. Classification of Arabic Twitter users: a study based on user behaviour and interests
Liao et al. Status, identity, and language: A study of issue discussions in GitHub
CN109446432A (zh) 一种信息推荐方法及装置
AlSulaim et al. Prediction of Anime Series' Success using Sentiment Analysis and Deep Learning
CN108694171A (zh) 信息推送的方法及装置
US20200142963A1 (en) Apparatus and method for predicting response to an article
Sabharwal et al. Up and Running Google AutoML and AI Platform: Building Machine Learning and NLP Models Using AutoML and AI Platform for Production Environment (English Edition)
US20230316186A1 (en) Multi-service business platform system having entity resolution systems and methods

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant