CN107562925A - 用于推荐文章的方法、设备和电子设备 - Google Patents

用于推荐文章的方法、设备和电子设备 Download PDF

Info

Publication number
CN107562925A
CN107562925A CN201710828184.4A CN201710828184A CN107562925A CN 107562925 A CN107562925 A CN 107562925A CN 201710828184 A CN201710828184 A CN 201710828184A CN 107562925 A CN107562925 A CN 107562925A
Authority
CN
China
Prior art keywords
article
vector
characteristic vector
neutral net
feature words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710828184.4A
Other languages
English (en)
Other versions
CN107562925B (zh
Inventor
康昭委
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Guangdong Shenma Search Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Shenma Search Technology Co Ltd filed Critical Guangdong Shenma Search Technology Co Ltd
Priority to CN201710828184.4A priority Critical patent/CN107562925B/zh
Publication of CN107562925A publication Critical patent/CN107562925A/zh
Application granted granted Critical
Publication of CN107562925B publication Critical patent/CN107562925B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种用于推荐文章的方法、设备和电子设备。该方法包括:获取与多个对象对应的多个文章的特征词;基于所述特征词训练神经网络,以得到分布式表示的特征向量和经训练的神经网络;获取对象特征词,其中,所述对象特征词是与要向其推荐文章的对象相关的文章的特征词;获取所述对象特征词对应的特征向量作为输入特征向量;将所述输入特征向量输入所述神经网络以得到输出向量;获取与所述输出向量最接近的至少一个特征向量作为推荐特征向量;以及输出与所述推荐特征向量对应的文章做推荐文章。根据一个实施例,提供一种新的推荐文章的方式。

Description

用于推荐文章的方法、设备和电子设备
技术领域
本发明涉及文章推荐技术,更具体地,涉及一种用于推荐文章的方法、设备和电子设备。
背景技术
随着信息网络技术的发展,如何提高媒体对用户的粘性,这日益成为各个内容提供商关注的技术问题。提高用户粘性的一个很重要的手段是向用户推荐他感兴趣的文章,诸如,小说、新闻、网络博客等。如何确定确定用户感兴趣的文章以向用户推荐该文章,这是许多技术人员研究的一种重要方面。
下面,以诸如网络小说的小说为例,说明目前用于推荐文章的现有技术。通常可以两种方式来确定向用户推荐的小说。
第一种是协同过滤算法方式。目前,协同过滤算法方式是应用最广泛的推荐小说的方式。该方式的基本思想是,如果a、b两本小说经常被不同的读者同时阅读的话,那么当一个读者阅读小说a的时候,可以向他推荐小说b。
在现有技术中,通常将这种协同过滤方式分为所谓的离线部分和在线部分。离线部分用于统计小说和小说之间的相似性。在线部分用于确定所要推荐的小说。
在离线部分中,通过所收集的用户打点数据,统计小说与小说之间的相似性。例如,小说之间的相似性可以是基于阅读历史数据的。例如,可以通过如下公司计算相似性simi,j
N(i)是指小说i的读者列表集合,N(j)是指小说j的读者列表集合。
上述公式可以进一步被改进。例如,相似性simi,j还可以被表示为:
其中,ru,i表示读者u对于小说i的喜爱程度。
在在线部分中,使用用户的在线部分,使用用户的阅读历史和在离线部分中计算的小说的相似性simi,j计算出推荐书籍su,j:
其中,Wu,i是用户u对阅读过的小说i的喜爱程度,例如,可以基于阅读频次确定。Simi,j是在离线部分中计算出的小说之间的相似性。可以基于su,j向用户推荐小说。
这种方式的泛化能力较差。
第二种是基于话题的隐语义模型方式。基于矩阵理论,一个矩阵可以分解为两个矩阵相乘。在小说推荐技术领域,原始矩阵是用户和小说之间的关系R。R可以表示如下:
其中,P是用户和小说类别之间的关系,Q是小说和小说类别之间的关系。
可以通过阅读历史获得原始矩阵。在某些情况下,原始矩阵中的某些元素可能没有值。这些没有值的元素是在推荐过程中需要求解的值。可以通过随机梯度下降法或奇异值分解(SVD)法对上述矩阵进行求解。可以基于所求解的值确定应该向各个用户推荐哪本小说(例如,相应用户对应的行中,值较高的小说)。
在这种方式中,由于原始矩阵存在大量未知的元素,即,用户在很多小说上没有行为(阅读行为等),因此,这种方式的准确性低。
因此,需要提供一种新的技术方案,针对上述现有技术中的至少一个技术问题进行改进。
发明内容
本发明的一个目的是提供一种用于推荐文章的新技术方案。
根据本发明的第一方面,提供了一种用于推荐文章的方法,包括:获取与多个对象对应的多个文章的特征词;基于所述特征词训练神经网络,以得到所述特征词对应的特征向量和经训练的神经网络,其中,所述特征向量是基于神经网络的分布式表示的特征向量;获取对象特征词,其中,所述对象特征词是对象文章的特征词,所述对象文章是与要向其推荐文章的对象相关的文章;获取所述对象特征词对应的特征向量作为输入特征向量;将所述输入特征向量输入所述神经网络以得到输出向量;获取与所述输出向量最接近的至少一个特征向量作为推荐特征向量;以及输出与所述推荐特征向量对应的文章做推荐文章。
优选地,所述文章是小说,所述对象是用户,与所述多个对象对应的多个文章包括用户的阅读历史中的文章,以及所述特征词包括小说的作者和名称中的至少一个。
优选地,所述多个文章被划分为多个组,每组文章与一个用户的阅读历史对应,以及在训练神经网络时将每组文章的特征词对应的特征向量拼接在一起作为训练输入向量。
优选地,所述神经网络是深度神经网络。
优选地,所述神经网络是Word2Vec神经网络,以及所述分布式表示的特征向量是基于所述特征词利用Word2Vec神经网络得到的特征向量。
优选地,获取与所述输出向量最接近的至少一个特征向量作为推荐特征向量还包括:获取多个特征向量与所述输出向量之间的余弦距离;以及选择余弦距离最接近的至少一个特征向量作为所述推荐特征向量。
优选地,获取所述对象特征词对应的特征向量作为输入特征向量包括:获取用户喜欢的文章的对象特征词对应的特征向量作为正特征向量;获取用户不喜欢的文章的对象特征词对应的特征向量作为负特征向量;以及将正特征向量之和减去负特征向量之和作为所述输入特征向量。
优选地,基于余弦距离、欧式距离和杰卡德距离中的至少一个来确定与所述输出向量最接近的至少一个特征向量。
根据本发明的第二方面,提供了一种用于推荐文章的设备,包括:用于获取与多个对象对应的多个文章的特征词的装置;用于基于所述特征词训练神经网络以得到所述特征词对应的特征向量和经训练的神经网络的装置,其中,所述特征向量是基于神经网络的分布式表示的特征向量;用于获取对象特征词的装置,其中,所述对象特征词是对象文章的特征词,所述对象文章是与要向其推荐文章的对象相关的文章;用于获取所述对象特征词对应的特征向量作为输入特征向量的装置;用于将所述输入特征向量输入所述神经网络以得到输出向量的装置;用于获取与所述输出向量最接近的至少一个特征向量作为推荐特征向量的装置;以及用于输出与所述推荐特征向量对应的文章做推荐文章的装置。
根据本发明的第三方面,提供了一种电子设备,包括存储器和处理器,其中,所述存储器用于存储指令,当所述电子设备运行时,所述指令用于控制所述处理器以执行根据实施例中的任何一个所述的方法。
根据本发明的一个实施例,提供了一种新的推荐文章的方式,可以提高推荐的准确性。
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例,并且连同其说明一起用于解释本发明的原理。
图1是根据本发明的一个实施例的用于推荐文章的方法的示意性流程图。
图2是根据本发明的另一个实施例的电子设备的示意性框图。
图3是根据本发明的一个实施例的与用户相关的小说的作者和名称的例子。
图4是根据本发明的另一个实施例的分布式表示的特征向量的例子。
具体实施方式
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
在本发明的实施例中,将神经网络技术结合到文章推荐技术中,从而提供了一种用于推荐文章的新方式。
下面,参照附图描述根据本发明的各个实施例和例子。
<方法>
图1是根据本发明的一个实施例的用于推荐文章的方法的示意性流程图。
在实施例的方法中,首先训练神经网络,以得到文章的特征向量和经训练的神经网络。然后,基于所述经训练的神经网络和特征向量,针对特定对象(例如,要向其推荐文章的用户)产生输出向量,以得到推荐文章。
具体来说,在步骤S1100,获取与多个对象对应的多个文章的特征词。
在一个应用例子中,可以向用户推荐小说。这里,所述文章可以是小说,所述对象可以是用户,与所述多个对象对应的多个文章包括用户的阅读历史中的文章。
在这里,不需要理解小说本身的含义,而只需要能够标识该文章或小说即可。因此,在这里使用特征词,它用于在所述多个文章中唯一标识每个文章。在一个例子中,根据情况,所述特征词包括小说的作者和名称中的至少一个。优选地,所述特征词包括小说的作者和名称。
在步骤S1200,基于所述特征词训练神经网络,以得到所述特征词对应的特征向量和经训练的神经网络,其中,所述特征向量是基于神经网络的分布式表示的特征向量。
在现有技术中,可以有多种使用向量表示词语的方式。通常使用的方式是独热表示(one-hot representation),它仅将词语符号化。这种方式无法体现文章与文章之间的关联。例如,在独热表示中,两个类似的文章由完全不相关的两个向量表示。此外,由于每个用户可能仅仅阅读几本小说或几十本小说,因此,由独热表示所形成的向量可能非常稀疏。使用这种稀疏的特征向量所训练出来的模型可能是非常不稳定的。再次,由于进行推荐的数据库中的文章或小说的数量可能是百万量级的,因此,使用独热表示所构造的向量的维数也就是百万量级的。如果用户仅读过几本小说,则需要在几百万维的向量的相应下标位置设置权重。这会造成在机器学习过程中产生过多参数的问题。这可能导致训练过程无法收敛或者训练时间超长,例如,超过1年。
在1954年,Harris提出的分布假说(Distributional Hypothesis),他认为:上下文相似的词,其语义也相似。在1957年,Firth对分布假说进行了进一步阐述和明确:词的语义由其上下文决定。Hinton在1986年提出了词的分布式表示,它的基本思想是通过训练将每个词映射成K维实数向量(K一般为模型中的超参数)。可以通过词的向量之间的距离(比如,余弦相似度、欧氏距离等)来判断词之间的语义相似度。
基于这种思想,可以得到基于神经网络的分布式表示的特征向量。基于神经网络的分布式表示的特征向量表示技术通过神经网络技术对上下文以及上下文与目标词之间的关系进行建模,从而得到特征向量。在2001年,Bengio等人正式提出神经网络语言模型(Neural Network Language Model,NNLM),在该模型中,在训练神经网络的同时,也得到了特征(词)向量。因此,特征向量可以认为是神经网络训练的副产品。现有技术中还有许多其他神经网络模型。
在本发明的实施例中,将神经网络技术应用于文章推荐技术。具体来说,使用文章的特征词作为训练神经网络的原始输入。这里,不需要对文章本身的含义进行识别。
在一个例子中,所述多个文章被划分为多个组,每组文章与一个用户的阅读历史对应。在训练神经网络时将每组文章的特征词对应的特征向量拼接在一起作为训练输入向量。
例如,所述神经网络是深度神经网络。在一个具体的例子中,所述神经网络是Word2Vec神经网络,以及所述分布式表示的特征向量是基于所述特征词利用Word2Vec神经网络得到的特征向量。
Word2vec是Google公司在2013年通过开源项目推出的一个将词表征为实数值向量的高效工具。它利用深度学习的思想,通过训练,把对文本内容的处理简化为K维向量空间中的向量运算。向量空间上的相似度可以用来表示文本语义上的相似度。在这个实施例中,把文章的特征词用作Word2Vec的输入特征。通过Word2Vec可以把所述输入特征映射到K维向量空间。通常可以认为Word2Vec神经网络包括输入层、隐层、输出层,可以通过Huffman编码对词向量进行编码。
Word2Vec所述产生的特征向量是分布式表示的特征向量。如前面所述,在对Word2Vec神经网络进行训练的同时,可以获得特征词对应的特征向量。
接下来,可以利用已经训练的神经网络和所得的的特征向量,获取推荐的文章。
在步骤S1300,获取对象特征词,其中,所述对象特征词是对象文章的特征词,所述对象文章是与要向其推荐文章的对象相关的文章。
例如,当向用户A推荐小说时,可以获取该用户的阅读历史中的小说,作为对象文章,并获取相应文章的特征词。例如,在这里,还可以获取用户喜欢的小说的列表,以及用户不喜欢的小说的列表。
在步骤S1400,获取所述对象特征词对应的特征向量作为输入特征向量。
这里,可以利用向量的特征,通过向量运算,获得能够体现用户意图的输入特征向量。例如,可以获取用户喜欢的文章的对象特征词对应的特征向量作为正特征向量,以及获取用户不喜欢的文章的对象特征词对应的特征向量作为负特征向量。将正特征向量之和减去负特征向量之和作为所述输入特征向量。
在现有技术的方式中,通常仅考虑用户喜欢的文章,而很难排除用户不喜欢的文章。通过这个实施例,可以同时考虑用户不感兴趣的文章。在构建输入向量时,通过向量的运算,考虑两种类型的文章的影响。通过这种方式,可以得到更加准确的推荐结果。
在步骤S1500,将所述输入特征向量输入所述神经网络以得到输出向量。
在步骤S1600,获取与所述输出向量最接近的至少一个特征向量作为推荐特征向量。
可以通过比较每个文章的特征向量和所述输出向量来获得要向用户推荐的文章的特征向量。可以基于余弦距离、欧式距离和杰卡德距离中的至少一个来确定与所述输出向量最接近的至少一个特征向量。例如,可以获取多个特征向量与所述输出向量之间的余弦距离;以及选择余弦距离最接近的至少一个特征向量作为所述推荐特征向量。
在步骤S1700,输出与所述推荐特征向量对应的文章做推荐文章。
在获取推荐特征向量之后,可以获得与所述推荐特征向量对应的文章作为推荐文章,并将它推荐给用户。例如,可以获得多个推荐文章。可以仅将部分文章推荐给用户,例如,用户没有看过的文章。
在本发明的实施例中,通过将神经网络技术结合到文章推荐技术中,提供了一种新的推荐文章的方式。
<设备>
本领域技术人员应当理解,在电子技术领域中,可以通过软件、硬件以及软件和硬件结合的方式,将上述方法体现在产品中本领域技术人员很容易基于上面公开的方法,产生一种用于推荐文章的设备。该设备包括用于执行上述实施例的方法中的各个步骤的装置。例如,所述设备包括:用于获取与多个对象对应的多个文章的特征词的装置;用于基于所述特征词训练神经网络以得到所述特征词对应的特征向量和经训练的神经网络的装置,其中,所述特征向量是基于神经网络的分布式表示的特征向量;用于获取对象特征词的装置,其中,所述对象特征词是对象文章的特征词,所述对象文章是与要向其推荐文章的对象相关的文章;用于获取所述对象特征词对应的特征向量作为输入特征向量的装置;用于将所述输入特征向量输入所述神经网络以得到输出向量的装置;用于获取与所述输出向量最接近的至少一个特征向量作为推荐特征向量的装置;以及用于输出与所述推荐特征向量对应的文章做推荐文章的装置。
本领域技术人员公知的是,随着诸如大规模集成电路技术的电子信息技术的发展和软件硬件化的趋势,要明确划分计算机系统软、硬件界限已经显得比较困难了。因为,任何操作可以软件来实现,也可以由硬件来实现。任何指令的执行可以由硬件完成,同样也可以由软件来完成。对于某一机器功能采用硬件实现方案还是软件实现方案,取决于价格、速度、可靠性、存储容量、变更周期等非技术性因素。对于技术人员来说,软件实现方式和硬件实现方式是等同的。技术人员可以根据需要选择软件或硬件来实现上述方案。因此,这里不对具体的软件或硬件进行限制。
随着电子技术的发展,终端设备与服务器之间的差别越来越不明显。因此,上述实施例中的方法和/或设备可以在服务器中实现,也可以在终端设备中实现。
<电子设备>
图2是根据本发明的另一个实施例的电子设备的示意性框图。
如图2所示,电子设备2000可以包括处理器2010、存储器2020、接口装置2030、通信装置2040、显示装置2050、输入装置2060、扬声器2070、麦克风2080,等等。
处理器2010例如可以是中央处理器CPU、微处理器MCU等。存储器2020例如包括ROM(只读存储器)、RAM(随机存取存储器)、诸如硬盘的非易失性存储器等。接口装置2030例如包括USB接口、耳机接口等。
通信装置2040例如能够进行有有线或无线通信。
显示装置2050例如是液晶显示屏、触摸显示屏等。输入装置2060例如可以包括触摸屏、键盘等。用户可以通过扬声器2070和麦克风2080输入/输出语音信息。
图2所示的电子设备仅是解释性的,并且决不是为了要限制本发明、其应用或用途。
在这个实施例中,所述存储器2020用于存储指令,所述指令用于控制所述处理器2010进行操作以执行前面参照图1所述的用于推荐文章的方法,以向用户推荐文章。本领域技术人员应当理解,尽管在图2中示出了多个装置,但是,本发明可以仅涉及其中的部分装置,例如,处理器2010和存储装置2020等。技术人员可以根据本发明所公开方案设计指令。指令如何控制处理器进行操作,这是本领域公知,故在此不再详细描述。
所述电子设备可以是服务器,也可以是终端设备。
<例子>
下面,以向用户推荐小说的方案为例说明根据本发明的实施例。这里,使用Word2Vec神经网络作为例子。
首先,获取小说的特征词。获取每个用户的阅读历史。基于阅读历史,获取每个用户对应的特征词。例如,所示特征词包括小说的作者和名称。在图3中示出了两个用户的阅读历史及其特征词。这里,仅仅使用特征词代表各个小说,而不用理解每本小说的具体含义。
接着,使用特征词训练神经网络。对Word2Vec神经网络进行训练兵得到每个小说的特征向量。在某种程度上,所述特征向量可以被理解成:经常被用户一起阅读的小说的向量的距离较近;不经常被用户一起阅读的小说的向量的距离较远。通过用户的阅读历史,可以表征小说之间的关系。当然,也可以通过其他方式来表征小说之间的关系。例如,男性用户所阅读的小说和女性用户所阅读的小说。设计人员可以根据需要,对所述特征进行分类,并将同类的特征词组合起来以训练神经网络。
神经网络可以被划分成多个层。在输入特征词之后,可以在靠前的层中得到每个特征词的特征向量(词向量)。所得到的词向量可以作为下一层的输入。例如,在Word2Vec训练过程中,将每本小说的特征向量的长度设为200,即,使用200维的向量表示每本小说。例如,根据图3所示的阅读历史,每个用户阅读过多本小说。可以将多本小说的特征向量拼接在一起作为下一层的输入向量U。
在深度神经网络中,每个层的输入向量的维数N是固定的。每个用户阅读的小说数量可能是不一样的。这里,可以对输入向量U进行重采样,以使得它的大小为N。例如,如果用户阅读的小说数量较少,则可以采用插值的方法将输入向量U的维数扩大到N;如果用户阅读的小说数量较多,则可以采用下采样的方法将输入向量U的维数缩小到N。
如前面所述,在神经网络技术中,特征向量(词)可以是训练神经网络的副产物。例如,图4示出了小说“顾漫/何以笙箫默”的特征向量的一个例子。
可以使用协同过滤CF的方式来训练所述神经网络。例如,训练神经网络时的输出可以是通过协同过滤方式推荐的小说。例如,可以选择10本通过协同过滤方式推荐的小说作为训练神经网络时的输出。每本小说由使用Word2Vec得出的特征向量表示。这样,每个训练样本的输出向量维度可以是200*10=2000。
当神经网络训练完成之后,可以得到经训练的神经网络和每个小说的特征向量。
基于所述经训练的神经网络和特征向量,可以向用户推荐小说。
具体来说,在向用户A推荐小说时,可以获取用户A的阅读历史,获取阅读历史中的每本小说的特征词,例如作者和名称。通过查表得到每本小说的特征向量。
可以对所述特征向量进行运算以得到输入向量。例如,根据用户是否对阅读历史中的小说感兴趣,对所述向量进行加减法。这是现有技术方案中无法实现的。可以通过多种方式确定用户对小说是否感兴趣,例如,通过收集关于小说的点“赞”数据来确定用户对小说是否感兴趣。例如,可以按照如下方式构建输入向量:输入向量=(用户喜欢的小说1的特征向量+用户喜欢的小说2的特征向量-用户不喜欢的小说3的特征向量。通过这种方式,可以得到更加准确的推荐结果。
将所述输入向量输入到经训练的神经网络,以得到输出向量。例如,可以基于每本小说的特征向量与输出向量的距离(例如,余弦距离)确定要推荐的小说的特征向量,由此获得要推荐的小说。可以获得多本推荐小说,并在其中选择向用户推荐的小说(例如,去除用户阅读历史中已有的小说)。
在本发明的实施例所提出的方案中,将神经网络技术与文章推荐技术相结合,可以兼顾准确性和泛化能力
这里,可以将根据实施例的方式所得的的推荐结果与其他推荐算法相结合,以得到更加多样的推荐效果。
通过提高推荐效果,可以增加用户使用黏性。
本发明可以是设备、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。
这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是,通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。

Claims (10)

1.一种用于推荐文章的方法,包括:
获取与多个对象对应的多个文章的特征词;
基于所述特征词训练神经网络,以得到所述特征词对应的特征向量和经训练的神经网络,其中,所述特征向量是基于神经网络的分布式表示的特征向量;
获取对象特征词,其中,所述对象特征词是对象文章的特征词,所述对象文章是与要向其推荐文章的对象相关的文章;
获取所述对象特征词对应的特征向量作为输入特征向量;
将所述输入特征向量输入所述神经网络以得到输出向量;
获取与所述输出向量最接近的至少一个特征向量作为推荐特征向量;以及
输出与所述推荐特征向量对应的文章做推荐文章。
2.根据权利要求1所述的方法,其中,所述文章是小说,所述对象是用户,与所述多个对象对应的多个文章包括用户的阅读历史中的文章,以及所述特征词包括小说的作者和名称中的至少一个。
3.根据权利要求2所述的方法,其中,所述多个文章被划分为多个组,每组文章与一个用户的阅读历史对应,以及在训练神经网络时将每组文章的特征词对应的特征向量拼接在一起作为训练输入向量。
4.根据权利要求1所述的方法,其中,所述神经网络是深度神经网络。
5.根据权利要求1所述的方法,其中,所述神经网络是Word2Vec神经网络,以及所述分布式表示的特征向量是基于所述特征词利用Word2Vec神经网络得到的特征向量。
6.根据权利要求5所述的方法,其中,获取与所述输出向量最接近的至少一个特征向量作为推荐特征向量还包括:
获取多个特征向量与所述输出向量之间的余弦距离;以及
选择余弦距离最接近的至少一个特征向量作为所述推荐特征向量。
7.根据权利要求1所述的方法,其中,获取所述对象特征词对应的特征向量作为输入特征向量包括:
获取用户喜欢的文章的对象特征词对应的特征向量作为正特征向量;
获取用户不喜欢的文章的对象特征词对应的特征向量作为负特征向量;以及
将正特征向量之和减去负特征向量之和作为所述输入特征向量。
8.根据权利要求1所述的方法,其中,基于余弦距离、欧式距离和杰卡德距离中的至少一个来确定与所述输出向量最接近的至少一个特征向量。
9.一种用于推荐文章的设备,包括:
用于获取与多个对象对应的多个文章的特征词的装置;
用于基于所述特征词训练神经网络以得到所述特征词对应的特征向量和经训练的神经网络的装置,其中,所述特征向量是基于神经网络的分布式表示的特征向量;
用于获取对象特征词的装置,其中,所述对象特征词是对象文章的特征词,所述对象文章是与要向其推荐文章的对象相关的文章;
用于获取所述对象特征词对应的特征向量作为输入特征向量的装置;
用于将所述输入特征向量输入所述神经网络以得到输出向量的装置;
用于获取与所述输出向量最接近的至少一个特征向量作为推荐特征向量的装置;以及
用于输出与所述推荐特征向量对应的文章做推荐文章的装置。
10.一种电子设备,包括存储器和处理器,其中,所述存储器用于存储指令,当所述电子设备运行时,所述指令用于控制所述处理器以执行根据权利要求1-8中的任何一个所述的方法。
CN201710828184.4A 2017-09-14 2017-09-14 用于推荐文章的方法、设备和电子设备 Active CN107562925B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710828184.4A CN107562925B (zh) 2017-09-14 2017-09-14 用于推荐文章的方法、设备和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710828184.4A CN107562925B (zh) 2017-09-14 2017-09-14 用于推荐文章的方法、设备和电子设备

Publications (2)

Publication Number Publication Date
CN107562925A true CN107562925A (zh) 2018-01-09
CN107562925B CN107562925B (zh) 2020-10-13

Family

ID=60981061

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710828184.4A Active CN107562925B (zh) 2017-09-14 2017-09-14 用于推荐文章的方法、设备和电子设备

Country Status (1)

Country Link
CN (1) CN107562925B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109255126A (zh) * 2018-09-10 2019-01-22 百度在线网络技术(北京)有限公司 文章推荐方法及装置
CN111311104A (zh) * 2020-02-27 2020-06-19 第四范式(北京)技术有限公司 一种配置文件的推荐方法、装置及系统
CN111652664A (zh) * 2019-03-04 2020-09-11 富士通株式会社 训练混合元学习网络的装置和方法
CN112307312A (zh) * 2019-07-30 2021-02-02 北京三好互动教育科技有限公司 一种文章推荐方法和装置
CN112418423A (zh) * 2020-11-24 2021-02-26 百度在线网络技术(北京)有限公司 利用神经网络向用户推荐对象的方法、设备和介质
CN113868542A (zh) * 2021-11-25 2021-12-31 平安科技(深圳)有限公司 基于注意力模型的推送数据获取方法、装置、设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150178265A1 (en) * 2013-12-20 2015-06-25 Google Inc. Content Recommendation System using a Neural Network Language Model
CN104834747A (zh) * 2015-05-25 2015-08-12 中国科学院自动化研究所 基于卷积神经网络的短文本分类方法
US20170206431A1 (en) * 2016-01-20 2017-07-20 Microsoft Technology Licensing, Llc Object detection and classification in images

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150178265A1 (en) * 2013-12-20 2015-06-25 Google Inc. Content Recommendation System using a Neural Network Language Model
CN104834747A (zh) * 2015-05-25 2015-08-12 中国科学院自动化研究所 基于卷积神经网络的短文本分类方法
US20170206431A1 (en) * 2016-01-20 2017-07-20 Microsoft Technology Licensing, Llc Object detection and classification in images

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
唐振君: "用于兴趣和神经网络的个性化情景推荐模型研究", 《万方数据知识服务平台》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109255126A (zh) * 2018-09-10 2019-01-22 百度在线网络技术(北京)有限公司 文章推荐方法及装置
CN111652664A (zh) * 2019-03-04 2020-09-11 富士通株式会社 训练混合元学习网络的装置和方法
CN112307312A (zh) * 2019-07-30 2021-02-02 北京三好互动教育科技有限公司 一种文章推荐方法和装置
CN111311104A (zh) * 2020-02-27 2020-06-19 第四范式(北京)技术有限公司 一种配置文件的推荐方法、装置及系统
CN112418423A (zh) * 2020-11-24 2021-02-26 百度在线网络技术(北京)有限公司 利用神经网络向用户推荐对象的方法、设备和介质
CN112418423B (zh) * 2020-11-24 2023-08-15 百度在线网络技术(北京)有限公司 利用神经网络向用户推荐对象的方法、设备和介质
CN113868542A (zh) * 2021-11-25 2021-12-31 平安科技(深圳)有限公司 基于注意力模型的推送数据获取方法、装置、设备及介质
CN113868542B (zh) * 2021-11-25 2022-03-11 平安科技(深圳)有限公司 基于注意力模型的推送数据获取方法、装置、设备及介质

Also Published As

Publication number Publication date
CN107562925B (zh) 2020-10-13

Similar Documents

Publication Publication Date Title
CN107562925A (zh) 用于推荐文章的方法、设备和电子设备
Drucker Graphical approaches to the digital humanities
CN109165384A (zh) 一种命名实体识别方法及装置
CN110874439B (zh) 一种基于评论信息的推荐方法
Qian et al. Retrieve-then-adapt: Example-based automatic generation for proportion-related infographics
CN110377913B (zh) 一种情感分析方法及其装置、电子设备和存储介质
CN109271493A (zh) 一种语言文本处理方法、装置和存储介质
CN108287864A (zh) 一种兴趣群组划分方法、装置、介质及计算设备
CN109685056A (zh) 获取文档信息的方法及装置
CN108108468A (zh) 一种基于概念和文本情感的短文本情感分析方法和装置
CN109087162A (zh) 数据处理方法、系统、介质和计算设备
CN114676704A (zh) 句子情感分析方法、装置、设备以及存储介质
CN107807968A (zh) 基于贝叶斯网络的问答装置、方法及存储介质
CN110309282A (zh) 一种答案确定方法及装置
CN115392237B (zh) 情感分析模型训练方法、装置、设备及存储介质
CN107797963A (zh) 表达式的处理方法、装置和终端
CN110059152A (zh) 一种文本信息预测模型的训练方法、装置及设备
CN112948575A (zh) 文本数据处理方法、装置和计算机可读存储介质
CN113312480A (zh) 基于图卷积网络的科技论文层级多标签分类方法及设备
CN113420212A (zh) 基于深度特征学习的推荐方法、装置、设备及存储介质
CN115168592A (zh) 基于方面类别的语句情感分析方法、装置以及设备
CN109062963A (zh) 自媒体推荐方法、装置及电子设备
CN110298038A (zh) 一种文本打分方法及装置
CN113705792A (zh) 基于深度学习模型的个性化推荐方法、装置、设备及介质
CN113723077A (zh) 基于双向表征模型的句向量生成方法、装置及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200527

Address after: 310051 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Applicant after: Alibaba (China) Co.,Ltd.

Address before: 510627 Guangdong city of Guangzhou province Whampoa Tianhe District Road No. 163 Xiping Yun Lu Yun Ping square B radio tower 13 layer self unit 01

Applicant before: GUANGZHOU SHENMA MOBILE INFORMATION TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant