CN110298029B

CN110298029B - 基于用户语料的好友推荐方法、装置、设备及介质

Info

Publication number: CN110298029B
Application number: CN201910429506.7A
Authority: CN
Inventors: 陈步青
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-05-22
Filing date: 2019-05-22
Publication date: 2022-07-12
Anticipated expiration: 2039-05-22
Also published as: CN110298029A

Abstract

本发明公开了一种基于用户语料的好友推荐方法、装置、设备及介质，所述方法包括：获取目标网站中每个用户的用户账号、用户语料和语料时间。采用语义分析模型对每个用户语料进行语义分析，得到用户语料对应的兴趣标签。根据语料时间计算每个兴趣标签对应的时效系数和有效值，将有效值大于预设的兴趣阈值的兴趣标签设置为用户的兴趣偏好。并对目标网站中全部用户的用户账号进行聚类，得到每个兴趣偏好对应的兴趣圈，从而将同一个兴趣圈中的用户账号进行相互推荐。本发明实施例通过获取用户在网络中发表的语料，并对该语料的内容和时效性进行分析，得到用户的兴趣偏好，为用户推荐具有相同兴趣偏好的好友，提高匹配兴趣相投的好友的准确率和效率。

Description

基于用户语料的好友推荐方法、装置、设备及介质

技术领域

本发明涉及数据分析技术领域，尤其涉及一种基于用户语料的好友推荐方法、装置、设备及介质。

背景技术

博客是用户以网络日志的形式将自己的真实情感记载于网络中与大众进行分享交流的网络交流方式。由于博客具有使用简单、个性化强、实时性好、互动性强等优点，因此，博客已经成为互联网中一种常见的平台，用户能够简易迅速便捷地发布自己的心得，及时有效轻松地与他人进行交流。

由于目前在互联网中博客的用户众多，用户想要在众多博客用户中找到具有相同的爱好或者关注点的博客用户并不容易。用户若只是随意地与陌生的博主互加好友，往往在聊上几句后，会发现对方跟自己根本不在一个频道上，也即并没有相同的爱好或者关注点，导致很难准确匹配到志趣相同的用户。因此，用户需要在众多的博客文章中花费大量的时间寻找自己感兴趣的话题或者内容，并与发布博客文章的博主进行进一步地交流，才能找到志同道合的好友，在寻找志趣相同的网友上花费了大量的时间，使得网络交友的效率极为低下。

发明内容

本发明实施例中提供一种基于用户语料的好友推荐方法、装置、设备及介质，以解决在网络中匹配志趣相同的用户的准确率低和效率低的问题。

一种基于用户语料的好友推荐方法，包括：

获取目标网站中每个用户的用户账号、用户语料和每个所述用户语料对应的语料时间；

采用预设的语义分析模型对每个所述用户语料进行语义分析，得到每个所述用户语料的N个兴趣标签，其中，N为正整数；

根据每个所述用户语料对应的语料时间，计算每个所述用户语料的每个所述兴趣标签对应的时效系数；

针对每个所述用户，按照预设的计算方式，对不同所述用户语料的相同所述兴趣标签的时效系数进行合并，得到每个所述用户对应的每个所述兴趣标签的有效值；

若所述用户对应的所述兴趣标签的有效值大于预设的兴趣阈值，则将该兴趣标签设置为该用户的兴趣偏好；

根据每个所述用户的所述兴趣偏好，使用预设的聚类算法对所述目标网站中全部所述用户的所述用户账号进行聚类，得到每个所述兴趣偏好对应的兴趣圈；

在每个所述兴趣圈中，将每个所述用户账号和该兴趣圈对应的所述兴趣偏好推荐给该兴趣圈中的其他所述用户账号对应的所述用户。

一种基于用户语料的好友推荐装置，包括：

数据获取模块，用于获取目标网站中每个用户的用户账号、用户语料和每个所述用户语料对应的语料时间；

语义分析模块，用于采用预设的语义分析模型对每个所述用户语料进行语义分析，得到每个所述用户语料的N个兴趣标签，其中，N为正整数；

时效计算模块，用于根据每个所述用户语料对应的语料时间，计算每个所述用户语料的每个所述兴趣标签对应的时效系数；

数值统计模块，用于针对每个所述用户，按照预设的计算方式，对不同所述用户语料的相同所述兴趣标签的时效系数进行合并，得到每个所述用户对应的每个所述兴趣标签的有效值；

兴趣确定模块，用于若所述用户对应的所述兴趣标签的有效值大于预设的兴趣阈值，则将该兴趣标签设置为该用户的兴趣偏好；

数据聚类模块，用于根据每个所述用户的所述兴趣偏好，使用预设的聚类算法对所述目标网站中全部所述用户的所述用户账号进行聚类，得到每个所述兴趣偏好对应的兴趣圈；

数据推送模块，用于在每个所述兴趣圈中，将每个所述用户账号和该兴趣圈对应的所述兴趣偏好推荐给该兴趣圈中的其他所述用户账号对应的所述用户。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述基于用户语料的好友推荐方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述基于用户语料的好友推荐方法。

上述基于用户语料的好友推荐方法、装置、设备及介质，通过获取目标网站中每个用户的用户账号、用户语料和每个用户语料对应的语料时间，采用语义分析模型对每个用户语料进行语义分析，得到每个用户语料对应的兴趣标签，从而分析得到每个用户感兴趣的主题。根据用户语料对应的语料时间，计算每个兴趣标签对应的时效系数和有效值，将有效值大于预设的兴趣阈值的兴趣标签设置为用户的兴趣偏好，进一步地提高用户兴趣偏好的准确度。根据每个用户的兴趣偏好，使用聚类算法对目标网站中全部用户的用户账号进行聚类，得到每个兴趣偏好对应的兴趣圈，在每个兴趣圈中，将每个用户账号和该兴趣圈对应的兴趣偏好推荐给该兴趣圈中的其他用户账号对应的用户。通过获取用户在网络中公开发表的内容，并对该内容进行分析以及计算该内容的时效性，得到用户的兴趣偏好，从而将具有相同兴趣偏好的用户账号聚类到同一个兴趣圈中，为用户推荐具有相同兴趣偏好的好友，使得推荐的好友能够具有共同话题，提高匹配兴趣相投的好友的准确率和效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中基于用户语料的好友推荐方法的一应用环境示意图；

图2是本发明一实施例中基于用户语料的好友推荐方法的一流程图；

图3是图2中步骤S2的一具体流程图；

图4是图3中步骤S22的一具体流程图；

图5是本发明一实施例中基于用户语料的好友推荐方法中查询具有相同兴趣偏好的用户的一具体流程图；

图6是本发明一实施例中基于用户语料的好友推荐装置的一原理框图；

图7是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例提供的基于用户语料的好友推荐方法，可应用在如图1的应用环境中，该应用环境包括服务端和客户端，其中，服务端和客户端之间通过网络进行连接，用户在客户端输入目标网站和目标用户账户，服务端对目标网站中每个用户的公开语料进行爬取，并对该公开语料的内容和时效性进行分析，得到每个用户的兴趣偏好，并将与目标用户账户具有相同兴趣偏好的用户账户返回客户端，从而实现为用户推荐具有相同兴趣偏好的好友。客户端具体可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务端具体可以用独立的服务器或者多个服务器组成的服务器集群实现。本发明实施例提供的基于用户语料的好友推荐方法应用于服务端。

在一实施例中，图2示出本实施例中基于用户语料的好友推荐方法的一流程图，该方法应用在图1中的服务端，用于为用户推荐具有相同兴趣偏好的好友，提高匹配兴趣相投的好友的准确率和效率。如图2所示，该基于用户语料的好友推荐方法包括步骤S1至步骤S7，详述如下：

S1：获取目标网站中每个用户的用户账号、用户语料和每个用户语料对应的语料时间。

在本实施例中，目标网站是指用于展示公开资讯的网页，并为用户提供网络服务的互联网平台。用户账号是指用户在互联网平台中注册的账号信息，能够在该互联网平台中对用户进行唯一标识。用户语料是指用户在互联网平台中发布的公开内容，语料时间是指用户发布用户语料的发表年度，例如，用户语料具体可以是新浪微博的博客、豆瓣的影评或者网易新闻的评论等内容，用户语料具体可以根据实际应用的需要进行获取，此处不做限制。

具体地，服务端可以通过使用预设的爬虫工具获取目标网站中每个用户的用户账号、用户语料和每个用户语料对应的语料时间，该预设的爬虫工具是用于自动抓取万维网信息的程序或者脚本，例如，八爪鱼爬虫工具、爬山虎爬虫工具或者集搜客爬虫工具等网络爬虫工具。将目标网站的统一资源定位符(Uniform Resource Locator，URL)地址设置为数据的获取地址，该URL地址是互联网中唯一标识的网络地址，爬虫工具根据目标网站的URL地址获取目标网站的首页文件，并使用爬虫工具对目标网站的首页文件进行解析，进一步获取目标网站中各个栏目的链接，再根据获取到的各个栏目的链接，采用递归结构爬取各个栏目的链接中的用户数据，得到用户账号、用户语料和用户语料对应的语料时间关联存储到服务端中预先设置用于存储用户数据的数据库中。

S2：采用预设的语义分析模型对每个用户语料进行语义分析，得到每个用户语料的N个兴趣标签，其中，N为正整数。

具体地，预设的语义分析模型是用于对自然语言进行理解和解析的机器学习模型，该预设的语义分析模型是预先采用深度学习算法对采集到的样本数据进行训练得到的机器学习模型，其中，深度学习算法具体可以是卷积神经网络(Convolutional NeuralNetworks)、循环神经网络(Recurrent Neural Networks)或者递归神经网络(RecursiveNeural Networks)等。

针对获取到的每个用户语料，服务端将每个用户语料对应的文本内容输入到预设的语义分析模型中，并使用该预设的语义分析模型对用户语料对应的文本内容进行中文分词处理、词向量转换处理、语义识别处理和关键词匹配处理，从而输出用户的每个用户语料对应的N个兴趣标签，其中，N为正整数，N的具体数值可以是1，也可以是2等等。

需要说明的是，中文分词处理是指将文本内容进行切分成一个个词语；词向量转换处理是指将词语转换为向量，以向量的形式表示词语；语义识别处理是指对词语或者句子进行语义分析，识别出词语在语句或者文本内容中所代表的意思，得到文本内容对应的主题作为关键词；关键词匹配处理是指对用户语料进行语义分析后，使用识别的得到的关键词在预设的关键词中进行匹配，筛选得到能够表示用户语料的兴趣主题的关键词作为兴趣标签。

其中，本实施例中的兴趣标签预先设置用于表示不同的兴趣主题的词语，例如，兴趣标签具体可以是“科学常识”、“医学”、“戏曲”、“时事”、“电影”和“体育”等标签，也可以是对兴趣主题“戏曲”进行进一步细化的兴趣标签，如“京剧”、“越剧”、“黄梅戏”、“粤剧”和“豫剧”等标签，但并不限于此，具体的兴趣标签可以根据实际应用的需要进行设置，此处不做限制。

S3：根据每个用户语料对应的语料时间，计算每个用户语料的每个兴趣标签对应的时效系数。

具体地，每个用户语料具有对应的语料时间，该语料时间是用户发布该用户语料的发表时间。服务端将根据用户语料对应的语料时间，计算用户语料的发表时长，并按照预设的时效性计算方式计算每个用户语料中的每个兴趣标签对应的时效系数，例如，服务端具体可以使用一个预先设置的固定数值除以用户语料的发表时长，得到每个用户语料中的每个兴趣标签对应的时效系数，其中，该时效系数是用于表示用户的兴趣标签的时效性，同一个用户语料中的兴趣标签的时效系数相同，用户在不同的时间点对兴趣标签对应的兴趣主题的感兴趣程度一般会具有差异，若用户语料的发表时间越长，则计算得到兴趣标签的时效系数越小；反之，若用户语料的发表时间越短，则计算得到兴趣标签的时效系数越大，表示该兴趣标签的时效性越强。

S4：针对每个用户，按照预设的计算方式，对不同用户语料的相同兴趣标签的时效系数进行合并，得到每个用户对应的每个兴趣标签的有效值。

具体地，每个用户的每个用户语料均具有对应的N个兴趣标签，不同的用户语料的兴趣标签可以相同，也可以不同。针对每个用户，按照预设的计算方式，对不同用户语料的相同兴趣标签的时效系数进行合并，得到每个用户对应的每个兴趣标签的有效值，其中，预设的计算方式是用于统计每个用户在不同的用户语料中的相同兴趣标签的时效系数，计算用户的每个兴趣标签的有效值，若兴趣标签的有效值越大，表示用户对该兴趣标签对应的兴趣主题的感兴趣程度越高。

可选地，针对每个用户，服务端具体可以根据用户的兴趣标签对应的时效系数，对在不同的用户语料中的相同兴趣标签的时效系数进行求和运算，并将求和运算得到的数值作为该用户的兴趣标签的有效值，从而得到用户的每个趣标签的有效值。

S5：若用户对应的兴趣标签的有效值大于预设的兴趣阈值，则将该兴趣标签设置为该用户的兴趣偏好。

具体地，预设的兴趣阈值是用于判断用户是否对某个兴趣主题感兴趣的分值，该预设的兴趣阈值可以设置为10，也可以设置为100，具体可以根据实际需要获取的数据进行设置，此处不做限制。若用户的兴趣标签的有效值大于预设的兴趣阈值，则表示用户对该兴趣标签对应的兴趣主题足够感兴趣，并将该兴趣标签设置为该用户的兴趣偏好。

可以理解的是，若用户的兴趣标签的有效值小于或等于预设的兴趣阈值，则可能只是用户曾经在发布的公开内容中提到过关于该兴趣标签对应的兴趣主题，并不能说明用户对该兴趣标签对应的兴趣主题感兴趣。

S6：根据每个用户的兴趣偏好，使用预设的聚类算法对目标网站中全部用户的用户账号进行聚类，得到每个兴趣偏好对应的兴趣圈。

在本实施例中，预设的聚类算法是以相似性为基础的一种统计分析方法，在同一个聚类中的数据之间的相似性比不在同一聚类中的数据之间的相似性更高，该预设的聚类算法具体可以是系统聚类法、模糊聚类法或者动态聚类法等。

具体地，根据每个用户的兴趣偏好，使用预设的聚类算法对目标网站中全部用户的用户账号进行聚类，将具有相同兴趣偏好的用户账号聚类到一个兴趣圈中，得到每个兴趣偏好对应的兴趣圈。

值得一提的是，每个兴趣偏好对应一个兴趣圈，表示该兴趣圈中的用户账号对应的用户都具有同一个兴趣偏好，每个用户可以具有多个兴趣偏好，不同的兴趣圈中可以具有相同的用户账号。

S7：在每个兴趣圈中，将每个用户账号和该兴趣圈对应的兴趣偏好推荐给该兴趣圈中的其他用户账号对应的用户。

具体地，在每个兴趣圈中，将每个用户账号和该兴趣圈对应的兴趣偏好编辑成交友信息，并将该交友信息发送给该兴趣圈中的其他用户账号，从而对同一个兴趣圈中用户账号的进行相互推荐，实现为用户推荐具有相同兴趣偏好的好友，使得推荐的好友能够具有共同话题。

在图2对应的实施例中，通过获取目标网站中每个用户的用户账号、用户语料和每个用户语料对应的语料时间，采用语义分析模型对每个用户语料进行语义分析，得到每个用户语料对应的兴趣标签，从而分析得到每个用户感兴趣的主题。根据用户语料对应的语料时间，计算每个兴趣标签对应的时效系数和有效值，将有效值大于预设的兴趣阈值的兴趣标签设置为用户的兴趣偏好，进一步地提高用户兴趣偏好的准确度。根据每个用户的兴趣偏好，使用聚类算法对目标网站中全部用户的用户账号进行聚类，得到每个兴趣偏好对应的兴趣圈，在每个兴趣圈中，将每个用户账号和该兴趣圈对应的兴趣偏好推荐给该兴趣圈中的其他用户账号对应的用户。通过获取用户在网络中公开发表的内容，并对该内容进行分析以及计算该内容的时效性，得到用户的兴趣偏好，从而将具有相同兴趣偏好的用户账号聚类到同一个兴趣圈中，为用户推荐具有相同兴趣偏好的好友，使得推荐的好友能够具有共同话题，提高匹配兴趣相投的好友的准确率和效率。

在一实施例中，本实施例提供对步骤S2中所提及的采用预设的语义分析模型对每个用户语料进行语义分析，得到每个用户语料的N个兴趣标签的具体实现方法进行详细说明。

请参阅图3，图3示出了步骤S2的一具体流程图，详述如下：

S21：使用预设的语义分析模型对用户语料进行中文分词处理，得到用户语料对应的语料分词，并将语料分词转换为词向量，得到用户语料的向量序列。

在本实施例中，基于预设的语料库，预设的语义分析模型按照预设的分词方式对每个用户的每个用户语料进行中文分词处理，该预设的分词方式具体可以采用基于规则的分词方法、基于统计的分词方法、基于理解的分词方法或者神经网络分词法等，从而将用户语料切分成一个个单独的词语，得到每个用户语料对应的语料分词。其中，预设的语料库是汉语词语和词语词性的数据库，该语料库中的内容可以从开源的《千万级巨型汉语词库》、《结巴中文分词库》和《新版北大标注集》中获取，也可以从其它词典或者数据库中获取，此处不做限制。

具体地，在得到用户语料对应的语料分词之后，服务端使用预设的语义分析模型通过预设的词向量转化算法将语料转化为词向量，例如，通过词向量转化算法可以将语料分词“化学”转换得到的词向量为<0.3,0.5,0.1,0.1>，该预设的词向量转化算法可以是word2vector算法，也可以是one-hot编码等，这里不做限定。通过对语料分词进行词向量转换处理后，得到每个语料分词对应的词向量，并将每个语料分词对应的词向量按照语料分词在用户语料中的顺序进行排列，得到用户语料的向量序列。

可以理解的是，在用户语料的向量序列中，各语料分词对应的词向量的先后顺序与相应的语料分词在用户语料中出现的先后顺序一致。也即，用户语料中最开始的语料分词所对应的词向量在用户语料的词向量序列中的顺序最靠前。

S22：对用户语料的向量序列进行语义识别，并根据语义识别的结果与预设的兴趣标签进行匹配，得到用户的每个用户语料对应的N个兴趣标签。

具体地，服务端使用预设的语义分析模型中的语义识别模块对每个用户语料的向量序列进行语义识别处理，获取能够表示用户语料的主题或内容的词向量作为关键词向量，再使用关键词向量与预设的兴趣标签进行匹配，并获取匹配成功的兴趣标签作为该用户语料对应的兴趣标签，该兴趣标签是指预先设置用于表示不同的兴趣主题的词语，例如，兴趣标签具体可以是“科学常识”、“医学”、“戏曲”、“时事”、“电影”和“体育”等标签。

优选地，预设的语义分析模型具体可以通过计算关键词向量与每个预设的兴趣标签之间的相似度，并根据关键词向量与预设的兴趣标签之间的相似度进行判断是否匹配成功，若关键词向量与预设的兴趣标签之间的相似度小于预设相似度阈值，则表示匹配成功，说明关键词向量与兴趣标签的语义接近，能够表示相同的主题或者内容，从而得到用户的每个用户语料对应的N个兴趣标签，用于表示用户在用户语料中表达出可能感兴趣的内容或者主题。

在图3对应的实施例中，通过使用预设的语义分析模型对用户语料进行中文分词处理，得到用户语料对应的语料分词，以及将语料分词转换为词向量，得到用户语料的向量序列，便于机器模型对用户语料进行识别和处理，提高语义识别效率。并且，对用户语料的向量序列进行语义识别，根据语义识别的结果与预设的兴趣标签进行匹配，能够得到用户的每个用户语料对应的N个兴趣标签，用于表示用户在用户语料中表达出可能感兴趣的内容或者主题，从而获取每个用户感兴趣的主题。

在一实施例中，本实施例提供对步骤S22中所提及的对用户语料的向量序列进行语义识别，并根据语义识别的结果与预设的兴趣标签进行匹配，得到用户的每个用户语料对应的N个兴趣标签的具体实现方法进行详细说明。

请参阅图4，图4示出了步骤S22的一具体流程图，详述如下：

S221：使用预设的语义分析模型对用户语料的向量序列进行语义识别处理，得到用户语料的关键词。

在本实施例中，关键词是指能反映用户语料的主题或者主要内容的词语，预设的语义分析模型通过使用预设的关键词提取算法对用户语料的向量序列进行语义识别分析，从用户语料对应的长文本中提取出关键词，用于确定用户语料的主题，该预设的关键词提取算法具体可以是TF-IDF、TextRank、Rake或者Topic-Model等算法，具体可以根据实际应用的需要进行设置，此处不做限制。

S222：计算关键词与每个预设的兴趣标签之间的欧氏距离。

具体地，欧氏距离是一种度量空间，是指m维空间中两个点之间的真实距离，通过将关键词对应的词向量和预设的兴趣标签对应的词向量按照如下公式进行计算，可以得到关键词与每个预设的兴趣标签之间的欧氏距离。

D＝sqrt(∑(p-q)^2)

其中，p表示关键词对应的词向量，p＝(X₁，X₂，...X_n)，q表示预设的兴趣标签对应的词向量，q＝(Y₁，Y₂，...Y_n)，sqrt是开平方根的函数，D是关键词与每个预设的兴趣标签之间的欧氏距离。

S223：若关键词与预设的兴趣标签之间的欧氏距离小于预设的空间距离，则将预设的兴趣标签标记为匹配成功，并将匹配成功的兴趣标签作为用户语料对应的兴趣标签，共得到N个兴趣标签。

具体地，若关键词与预设的兴趣标签之间的欧氏距离小于预设的空间距离，则将预设的兴趣标签标记为匹配成功，并将匹配成功的兴趣标签输出作为输入预设的语义识别模型的用户语料的兴趣标签，得到匹配成功N个兴趣标签，其中，关键词与预设的兴趣标签之间的欧氏距离越小，说明关键词与预设的兴趣标签之间的语义越接近，能够表示相同的主题或者内容，该预设的空间距离具体可以是0.1，也可以是0.01，具体可以根据实际情况进行设置，此处不做限制。

在图4对应的实施例中，通过使用预设的语义分析模型对用户语料的向量序列进行语义识别处理，得到用户语料的关键词，获取能够反映用户语料的主题或者主要内容的词语。计算关键词与每个预设的兴趣标签之间的欧氏距离，得到关键词与每个预设的兴趣标签之间的相似度。若关键词与预设的兴趣标签之间的欧氏距离小于预设的空间距离，则将该预设的兴趣标签标记为匹配成功，并将匹配成功的兴趣标签作为用户语料对应的兴趣标签，共得到用户的每个语料对应的兴趣标签，表示用户对兴趣标签对应的兴趣主题感兴趣。

在一实施例中，在图2对应的实施例的基础之上，步骤S3提及的根据每个用户语料对应的语料时间，计算每个用户语料的每个兴趣标签对应的时效系数，具体可以通过如下方式实现，详述如下：

按照如下公式计算每个用户语料的每个兴趣标签对应的时效系数：

T＝1-(G-H)²*0.1

其中，T为兴趣标签对应的时效系数，G为当前时间对应的年度，H为语料时间对应的年度。

例如，一用户语料A是用户在2018年发表的一份公开内容，则该用户语料A的预料时间对应的年度为2018年，并且当前年度为2019年，则该用户语料A中的兴趣标签对应的时效系数为：T_A＝1-(2019-2018)²*0.1＝0.9。

在本实施例中，通过计算每个用户语料的每个兴趣标签对应的时效系数，得到用于表示用户的每个兴趣标签的时效性的强度值，在结合用户发表用户语料的时长对用户感兴趣的主题进行分析后，能够提高获取到的用户的兴趣偏好的准确度。

在一实施例中，本实施例提供的基于用户语料的好友推荐方法还可以根据用户的需要进行获取与指定账户具有相同兴趣偏好的用户信息，详述如下：

如图5所示，在步骤S4之后，该文件保护方法还包括如下步骤：

S81：接收用户信息，其中，用户信息包括目标平台、目标用户账号和信息接收地址。

具体地，用户可以在客户端输入用户信息，并根据用户信息生成交友请求发送给服务端，服务端通过网络连接进行接收客户端发送的交友请求，以及接收交友请求中携带的用户信息，其中，用户信息包括目标平台、目标用户账号和信息接收地址，该目标平台是指用户请求进行交友的互联网平台，该目标用户账号是指用户在目标平台中注册的用户账号，该信息接收地址是指用户接收信息的通讯地址。

例如，服务端可以推出一款网络交友软件，用户在该网络交友软件中输入用户信息，用户信息包括目标平台、目标用户账号和信息接收地址，则该网络交友软件能够根据用户信息生成交友请求发送给服务端，向服务端请求获取与指定的目标用户账号具有相同兴趣偏好的用户信息。

S82：根据目标平台，查询与目标平台相同的目标网站，并在与目标平台相同的目标网站对应的兴趣圈中，根据目标用户账号确定目标用户账号所属的兴趣圈。

具体地，根据目标平台，查询与目标平台相同的目标网站，确定用户需要寻找的网络好友的互联网平台，并在与目标平台相同的目标网站对应的兴趣圈中，根据目标用户账号确定目标用户账号所属的兴趣圈。

S83：从目标用户账号所属的兴趣圈中，获取其他用户的用户账号和兴趣偏好发送给信息接收地址。

具体地，服务端从目标用户账号所属的兴趣圈中，获取其他用户的用户账号和兴趣偏好发送给信息接收地址，该信息接收地址具体可以是邮箱地址，也可以是短信接收地址或者即时通讯工具地址等，这里不做限制，使得服务端可以通过邮件或者短信等方式向用户发送与指定的目标用户账号具有相同兴趣偏好的用户信息，为用户推荐志趣相投的好友，提高网上交友的效率。

在图5对应的实施例中，通过接收包括目标平台、目标用户账号和信息接收地址的用户信息，并根据目标平台确定与目标平台相同的目标网站，在与目标平台相同的目标网站对应的兴趣圈中，根据目标用户账号确定目标用户账号所属的兴趣圈，再从目标用户账号所属的兴趣圈中，获取其他用户的用户账号和兴趣偏好发送给信息接收地址，为用户准确且快速地推荐志趣相投的好友，实现网络好友的推荐功能，提高网上交友的效率。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种基于用户语料的好友推荐装置，该基于用户语料的好友推荐装置与上述实施例中基于用户语料的好友推荐方法一一对应。如图6所示，该基于用户语料的好友推荐装置包括：数据获取模块61、语义分析模块62、时效计算模块63、数值统计模块64、兴趣确定模块65、数据聚类模块66和数据推送模块67。各功能模块详细说明如下：

数据获取模块61，用于获取目标网站中每个用户的用户账号、用户语料和每个用户语料对应的语料时间；

语义分析模块62，用于采用预设的语义分析模型对每个用户语料进行语义分析，得到每个用户语料的N个兴趣标签，其中，N为正整数；

时效计算模块63，用于根据每个用户语料对应的语料时间，计算每个用户语料的每个兴趣标签对应的时效系数；

数值统计模块64，用于针对每个用户，按照预设的计算方式，对不同用户语料的相同兴趣标签的时效系数进行合并，得到每个用户对应的每个兴趣标签的有效值；

兴趣确定模块65，用于若用户对应的兴趣标签的有效值大于预设的兴趣阈值，则将该兴趣标签设置为该用户的兴趣偏好；

数据聚类模块66，用于根据每个用户的兴趣偏好，使用预设的聚类算法对目标网站中全部用户的用户账号进行聚类，得到每个兴趣偏好对应的兴趣圈；

数据推送模块67，用于在每个兴趣圈中，将每个用户账号和该兴趣圈对应的兴趣偏好推荐给该兴趣圈中的其他用户账号对应的用户。

进一步地，语义分析模块62包括：

分词单元621，用于使用预设的语义分析模型对用户语料进行中文分词处理，得到用户语料对应的语料分词，并将语料分词转换为词向量，得到用户语料的向量序列；

分析单元622，用于对用户语料的向量序列进行语义识别，并根据语义识别的结果与预设的兴趣标签进行匹配，得到用户的每个用户语料对应的N个兴趣标签。

进一步地，分析单元622包括：

关键词获取子单元6221，用于使用预设的语义分析模型对用户语料的向量序列进行语义识别处理，得到用户语料的关键词；

距离计算子单元6222，用于计算关键词与每个预设的兴趣标签之间的欧氏距离；

标签匹配子单元6223，用于若关键词与预设的兴趣标签之间的欧氏距离小于预设的空间距离，则将预设的兴趣标签标记为匹配成功，并将匹配成功的兴趣标签作为用户语料对应的兴趣标签，共得到N个兴趣标签。

进一步地，时效计算模块63包括：

时效计算单元631，用于按照如下公式计算每个用户语料的每个兴趣标签对应的时效系数：

T＝1-(G-H)²*0.1

进一步地，该基于用户语料的好友推荐装置还包括：

信息接收模块681，用于接收用户信息，其中，用户信息包括目标平台、目标用户账号和信息接收地址；

信息查询模块682，用于根据目标平台，查询与目标平台相同的目标网站，并在与目标平台相同的目标网站对应的兴趣圈中，根据目标用户账号确定目标用户账号所属的兴趣圈；

信息发送模块683，用于从目标用户账号所属的兴趣圈中，获取其他用户的用户账号和兴趣偏好发送给信息接收地址。

关于基于用户语料的好友推荐装置的具体限定可以参见上文中对于基于用户语料的好友推荐方法的限定，在此不再赘述。上述基于用户语料的好友推荐装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于用户语料的好友推荐方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中基于用户语料的好友推荐方法中的步骤，例如图2所示的步骤S1至步骤S7，或者，处理器执行计算机程序时实现上述实施例中基于用户语料的好友推荐装置的各模块/单元的功能，例如图6所示模块61至模块67的功能。为避免重复，这里不再赘述。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中基于用户语料的好友推荐方法中的步骤，例如图2所示的步骤S1至步骤S7，或者，处理器执行计算机程序时实现上述实施例中基于用户语料的好友推荐装置的各模块/单元的功能，例如图6所示模块61至模块67的功能。为避免重复，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种基于用户语料的好友推荐方法，其特征在于，所述基于用户语料的好友推荐方法包括：

在每个所述兴趣圈中，将每个所述用户账号和该兴趣圈对应的所述兴趣偏好推荐给该兴趣圈中的其他所述用户账号对应的所述用户；

所述根据每个所述用户语料对应的语料时间，计算每个所述用户语料的每个所述兴趣标签对应的时效系数包括：

按照如下公式计算每个所述用户语料的每个所述兴趣标签对应的时效系数：

T＝1-(G-H)²*0.1

其中，T为所述兴趣标签对应的时效系数，G为当前时间对应的年度，H为所述语料时间对应的年度；

所述针对每个所述用户，按照预设的计算方式，对不同所述用户语料的相同所述兴趣标签的时效系数进行合并，得到每个所述用户对应的每个所述兴趣标签的有效值，包括：

针对每个所述用户，根据所述用户对应的各个所述兴趣标签对应的时效系数，对不同所述用户语料的相同所述兴趣标签的时效系数进行求和运算，得到每个所述用户对应的每个所述兴趣标签的有效值。

2.如权利要求1所述的基于用户语料的好友推荐方法，其特征在于，所述采用预设的语义分析模型对每个所述用户语料进行语义分析，得到每个所述用户语料的N个兴趣标签包括：

使用所述预设的语义分析模型对所述用户语料进行中文分词处理，得到所述用户语料对应的语料分词，并将所述语料分词转换为词向量，得到所述用户语料的向量序列；

对所述用户语料的向量序列进行语义识别，并根据语义识别的结果与预设的兴趣标签进行匹配，得到所述用户的每个所述用户语料对应的N个所述兴趣标签。

3.如权利要求2所述的基于用户语料的好友推荐方法，其特征在于，所述对所述用户语料的向量序列进行语义识别，并根据语义识别的结果与预设的兴趣标签进行匹配，得到所述用户的每个所述用户语料对应的N个兴趣标签包括：

使用所述预设的语义分析模型对所述用户语料的向量序列进行语义识别处理，得到所述用户语料的关键词；

计算所述关键词与每个所述预设的兴趣标签之间的欧氏距离；

若所述关键词与所述预设的兴趣标签之间的欧氏距离小于预设的空间距离，则将所述预设的兴趣标签标记为匹配成功，并将所述匹配成功的兴趣标签作为所述用户语料对应的兴趣标签，共得到N个所述兴趣标签。

4.如权利要求1至3任一项所述的基于用户语料的好友推荐方法，其特征在于，在所述根据每个所述用户的所述兴趣偏好，使用预设的聚类算法对所述目标网站中全部所述用户的所述用户账号进行聚类，得到每个所述兴趣偏好对应的兴趣圈之后，所述基于用户语料的好友推荐方法还包括：

接收用户信息，其中，所述用户信息包括目标平台、目标用户账号和信息接收地址；

根据所述目标平台，查询与所述目标平台相同的所述目标网站，并在与所述目标平台相同的所述目标网站对应的所述兴趣圈中，根据所述目标用户账号确定所述目标用户账号所属的所述兴趣圈；

从所述目标用户账号所属的所述兴趣圈中，获取其他所述用户的所述用户账号和所述兴趣偏好发送给所述信息接收地址。

5.一种基于用户语料的好友推荐装置，其特征在于，所述基于用户语料的好友推荐装置包括：

数据推送模块，用于在每个所述兴趣圈中，将每个所述用户账号和该兴趣圈对应的所述兴趣偏好推荐给该兴趣圈中的其他所述用户账号对应的所述用户；

T＝1-(G-H)²*0.1

6.如权利要求5所述的基于用户语料的好友推荐装置，其特征在于，所述语义分析模块包括：

分词单元，用于使用所述预设的语义分析模型对所述用户语料进行中文分词处理，得到所述用户语料对应的语料分词，并将所述语料分词转换为词向量，得到所述用户语料的向量序列；

分析单元，用于对所述用户语料的向量序列进行语义识别，并根据语义识别的结果与预设的兴趣标签进行匹配，得到所述用户的每个所述用户语料对应的N个所述兴趣标签。

7.如权利要求6所述的基于用户语料的好友推荐装置，其特征在于，所述分析单元包括：

关键词获取子单元，用于使用所述预设的语义分析模型对所述用户语料的向量序列进行语义识别处理，得到所述用户语料的关键词；

距离计算子单元，用于计算所述关键词与每个所述预设的兴趣标签之间的欧氏距离；

标签匹配子单元，用于若所述关键词与所述预设的兴趣标签之间的欧氏距离小于预设的空间距离，则将所述预设的兴趣标签标记为匹配成功，并将所述匹配成功的兴趣标签作为所述用户语料对应的兴趣标签，共得到N个所述兴趣标签。

8.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述基于用户语料的好友推荐方法。

9.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述基于用户语料的好友推荐方法。