CN112818258B

CN112818258B - 基于关键词的社交网络用户查找方法、计算机装置及计算机可读存储介质

Info

Publication number: CN112818258B
Application number: CN202110249785.6A
Authority: CN
Inventors: 黄幸颖
Original assignee: Zhuhai Honeycomb Data Technology Co ltd
Current assignee: Zhuhai Honeycomb Data Technology Co ltd
Priority date: 2021-03-08
Filing date: 2021-03-08
Publication date: 2024-05-10
Anticipated expiration: 2041-03-08
Also published as: CN112818258A

Abstract

本发明提供一种基于关键词的社交网络用户查找方法、计算机装置及计算机可读存储介质，该方法包括获取预设的文本信息，提取种子文本的关键词，根据关键词从预设的用户池中筛选多个基准用户；从社交网络中爬取多个候选用户；从社交网络中获取基准用户与候选用户的用户数据，用户数据包括至少一种媒体数据；计算与每一候选用户的用户数据相似度超过相似度阈值的基准用户数量，根据相似度超过相似度阈值的基准用户数量计算每一候选用户的质量总分；以质量总分最高的若干候选用户作为目标用户。本发明还提供实现上述基于关键词的社交网络用户查找方法的计算机装置及计算机可读存储介质。本发明能提高从社交网络获取目标用户的准确性。

Description

基于关键词的社交网络用户查找方法、计算机装置及计算机可读存储介质

技术领域

本发明涉及数据处理领域，尤其涉及一种基于关键词的社交网络用户查找方法、实现这种方法的计算机装置以及计算机可读存储介质。

背景技术

随着智能电子设备的普及，人们越来越多使用智能电子设备进行沟通，而各种各样的社交软件、信息分享网站成为人们分享自己生活、工作以及各种经历、情绪的平台。随着人们应用各种社交软件、信息分享网站的发展，形成庞大的社交网络，人们可以通过社交网络及时了解好友以及自己关注的名人的信息。

随着社交网络规模的不断扩大，社交网络的蓬勃发展，越来越多用户选择在社交网络中分享自己的日常生活，发表对各种事物的观点与看法。与此同时，各类商家也纷纷开始通过社交网络宣传自己的商品与服务，商家越来越多依托社交网络成长起来的意见领袖为商家代言。对于商家而言，通过优秀的内容创作者进一步拉近品牌与用户的距离，从而促进商品或者服务的销售。

对于商家或者自媒体社交网络而言，获取合适的意见领袖作为商家品牌的代言人是关键，目前选择合适自媒体的方式多种多样，较为常见的是通过人工进行筛选，但此方法费时费力，效率不高。因此，商家或者自媒体社交网络通过自动化分析的方式来获取目标用户，通常的做法是通过对用户的数据进行分析，例如获取用户发布的文本数据等，通过判断用户发布的文本数据中与关键词的匹配程度来判断该用户是否与商家的商品或者服务相匹配。

然而，由于社交网络大多只是支持以关键词为条件进行用户搜索，不支持以图片、视频等其他类型媒体数据作为搜索条件。一般而言，商家进行推广的商品和服务通常有描述性的文本内容，可以从中提取出关键词，然后利用网络爬虫技术获取含有这些关键词的用户数据，针对文本信息的分析普遍采用。但现有技术并没有考虑用户发布的图片、视频等方式发布的内容对评价用户匹配程度的影响，导致目标用户搜索结果不够准确。

另一方面，由于现有的评价方式通常是获取用户发布的文本数据后，通过判断文本数据与预先设定的关键词的匹配程度来判断该用户是否为目标用户，然而这种方式对于目标用户的评价非常僵硬，对于较为新鲜的商品或者服务，通过关键词作为单一评判的方式往往导致搜索获得的目标用户数量非常少，且获得的目标用户并不一定准确，影响目标用户搜索的准确性。

发明内容

本发明的第一目的是提供一种能够准确查找出目标用户的基于关键词的社交网络用户查找方法。

本发明的第二目的是提供一种能够实现上述基于关键词的社交网络用户查找方法的计算机装置。

本发明的第三目的是提供一种能够实现上述基于关键词的社交网络用户查找方法的计算机可读存储介质。

为了实现上述的主要目的，本发明提供的基于关键词的社交网络用户查找方法包括获取预设的文本信息，使用预设文本信息作为种子文本，并提取种子文本的关键词，并且，根据关键词，从预设的用户池中筛选多个基准用户，每一基准用户与至少一个关键词具有联系；利用爬虫技术从社交网络中获取多个候选用户，每一候选用户与至少一个关键词具有联系；利用爬虫技术从社交网络中获取每一基准用户与候选用户的用户数据，用户数据包括至少一种媒体数据；对获取的用户数据进行分析，计算与每一候选用户的用户数据相似度超过相似度阈值的基准用户数量，根据相似度超过相似度阈值的基准用户数量计算每一候选用户的质量总分；以质量总分最高的若干候选用户作为目标用户。

由上述方案可见，本发明并不是以候选用户的用户数据与关键词的相似程度作为候选用户的质量总分的评价标准，而是以与候选用户的用户数据相似的其他基准用户的数量作为评价标准，因此，可以忽略关键词单一的影响，对候选用户的评价更加客观，能够更加准确的获取目标用户。此外，在通过关键词获取目标用户数量较少的情况下，本发明的方法可以扩大搜索的目标用户数量，为后续人工筛选提供足够大的样本。

一个优选的方案是，用户数据至少包括文本数据、多媒体数据以及互动数据的中的一种。

由此可见，本发明并不是单一以文本数据作为关键词搜索的基础，还考虑诸如图片、视频等多媒体数据，还考虑候选用户对其他用户的点赞、评论等互动数据，用户数据的搜索范围更大，目标用户的查找更加准确。

进一步的方案是，计算与每一候选用户的用户数据相似度超过相似度阈值的基准用户数量包括：计算每一候选用户每一种媒体数据的媒体质量分，每一媒体质量分正关系于该种媒体数据相似度超过相似度阈值的基准用户数量。

可见，通过对多种媒体数据进行单独的评分，可以客观反映基准用户在各种媒体数据中的表现，进而更好的分析基准用户的行为，更好的查找目标用户。

更进一步的方案是，媒体数据的种类为二种以上；计算每一候选用户的质量总分包括：计算多种媒体数据对应的媒体质量分的加权和。

可见，候选用户的质量总分是综合考虑多种媒体数据的媒体质量分获得的质量总分，全面考虑候选用户的行为，目标用户的查找更加准确。

更进一步的方案是，多媒体数据包括图片或者视频数据；计算与候选用户的用户数据相似度超过相似度阈值的基准用户数量包括：应用目标检测算法获取图片或视频数据的中的目标分布，通过相似度计算确定与该候选用户相似度超过相似度阈值的基准用户的数量。

由此可见，针对图片以及视频等非文本数据，采用目标检测算法可以简答、有效的获取目标分布情况，从而客观的多媒体数据的媒体质量分进行评价。

更进一步的方案是，提取种子文本的关键词包括：基于无监督关键词提取算法从种子文本中提取关键词。

可见，通过无监督关键词提取算法提取关键词，可以降低关键词提取的难度，关键词提取更加容易。

更进一步的方案是，从预设的用户池中筛选多个基准用户包括：判断所筛选的基准用户数量是否少于预设的用户数量阈值，如是，从社交网络中随机获取社交用户作为基准用户。

由此可见，本发明可以解决单纯从用户池筛选基准用户而导致基准用户数量较少的情况，可以大幅度提高基准用户数量，从而更加准确的获取目标用户。

为了实现上述的第二目的，本发明还提供的计算机装置包括处理器以及存储器，存储器存储有计算机程序，计算机程序被处理器执行时实现上述的基于关键词的社交网络用户查找方法的各个步骤。

为了实现上述的第三目的，本发明还提供的计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述基于关键词的社交网络用户查找方法的各个步骤。

附图说明

图1是本发明基于关键词的社交网络用户查找方法实施例的流程图。

图2是本发明基于关键词的社交网络用户查找方法实施例中提取关键词的流程图。

图3是本发明基于关键词的社交网络用户查找方法实施例中获取基准用户的用户数据的流程图。

图4是本发明基于关键词的社交网络用户查找方法实施例中对用户数据进行分析的流程图。

以下结合附图及实施例对本发明作进一步说明。

具体实施方式

本发明的基于关键词的社交网络用户查找方法应用在网络服务器上，例如应用于对社交网络上，以便于商家或者社交网络对目标用户的识别、查找，进而为商家、社交网络提供挖掘目标用户的基础。本发明的计算机装置可以是上述的网络服务器，计算机可读存储介质可以是具有数据存储功能的各种存储介质，包括但不限于FLASH、EEPROM等非易失性存储器。

基于关键词的社交网络用户查找方法实施例：

应用本实施例的基于关键词的社交网络用户查找方法的设备可以是网络服务器，优选的，该网络服务器应用于对社交网络用户进行挖掘，并且对用户的用户数据进行分析，包括对用户发布的文本数据、图片、视频数据等，还包括用户的点赞、评论等互动数据，综合用户多种媒体数据来对用户进行评分，最终确定用户的是否为满足要求的目标用户。

参见图1，本实施例首先执行步骤S1，获取种子文本。具体的，参见图2，先执行步骤S11，获取预设的文本信息，例如，获取用于提取关键词的预设文本，预设文本可以是来自商家提供的商品的宣传文本，或者社交网络设定的文本信息。然后，将获得预设文本信息作为种子文本。当然，种子文本可以进行多次迭代计算获得，例如后续迭代计算是，可以加入上一轮挖掘到的目标用户的社交网络文本，使得种子文本更加丰富。

接着，执行步骤S2，提取种子文本中的关键词，也就是执行步骤S13，利用无监督算法从输入文本中提取关键词。具体地，首先通过正则表达式对种子文本进行文本的切割，获取长度由1到n的文本片段，n表示一个文本片段中最多包含的字符数量，并构造片段集合S＝{s_i,j}，其中，i表示该片段的长度，j表示该片段在长度为i的片段中的序号。然后通过统计得到s_i,j左边和右边不同片段的出现次数，并依照各个片段出现的概率计算对应的信息熵，并通过出现次数和信息熵的值进行筛选，保留预设数量的文本片段作为挖掘到的关键词。最后，执行步骤S14，将提取到的关键字输出，具体的，输出至爬虫模块。

然后，执行步骤S3，根据步骤S2所获得的关键词，从预设的用户池中筛选出基准用户，为了达到获得一定数量目标用户的要求，基准用户的数量应该足够多，本实施例通过爬虫技术从社交网络的历史用户池中获取基准用户，其中，基准用户是与某一网络平台或者商家有关联的用户，例如某一用户登录过或者关注过某一网络平台或者商家，则该用户是在预设用户池中的用户，也就是可以被筛选成为基准用户。

参见图3，首先执行步骤S21，获取关键词，即获取步骤S2输出的关键词，将该关键词输入至爬虫模块。然后，执行步骤S22，构建社交网络数据爬虫，并根据关键词进行社交网络的数据爬取，例如根据历史用户池中各用户的唯一标识，即以用户为最小统计单位，对文本数据、图片数据、互动数据进行汇总，获取一定数量的基准用户，所获取的每一个基准用户的用户数据跟至少一个关键词存在联系，例如基准用户发布的文本数据包含有关键词，或者文本数据中包含有与关键词为同义词的词语。

接着，执行步骤S4，利用爬虫技术从社交网络中获取多个候选用户，候选用户是没有与网络平台或者商家有关联的用户，即候选用户未登录过或者关注过网络平台或者商家，但该用户是社交网络中注册过的用户。

接着，执行步骤S5，利用爬虫技术获取每一个基准用户的用户数据，同时爬取候选用户的用户数据。本实施例的用户数据是基准用户或者候选用户在社交网络所发布的数据，例如用户发布的文本数据、图片、视频等，还包括用户的互动数据，例如微博的点赞、转发、评论，或者小红书的点赞、收藏、评价等数据。并且，用户数据并不包括用户的个人信息的数据。可见，本实施例的用户数据实际上是包含有三种媒体数据，即文本数据、多媒体数据以及互动数据，其中文本数据是基准用户以文字方式发布的文本数据，多媒体数据是图片或者视频数据，互动数据是基准用户与其他用户之间的互动数据，例如点赞、评论、转发、收藏等。

获取每一基准用户、候选用户的用户数据后，执行步骤S23，将用户数据输出至数据分析模块，由数据分析模块对用户数据进行分析。然后，执行步骤S6，对用户数据进行分析，计算每一候选用户的质量总分。

参见图4，首先执行步骤S31，将各基准用户、候选用户的用户数据输入至用户数据分析模块，然后，执行步骤S32，计算候选用户每一种媒体数据的媒体质量分，也就是以用户为基本单位对各种媒体数据进行单独的评分。

例如对候选用户的文本数据进行评分，可以获得该候选用户的文本质量分。具体的，设T_i＝{t_i,1,t_i,2,…,t_i,m}为爬虫获取的第i个候选用户在社交网络所发布的文本数据的集合，共计m篇。本实施例利用多种模型获取T_i对应的向量，例如利用word2vec、fasttext、gpt、bert等模型，所获取的向量表示为集合V_i＝{v_i,1,v_i,2,…,v_i,m}，其中每个候选用户的每一篇文本数据对应一个v_i,j。接着，计算集合V_i的均值作为该候选用户的文本数据表示，即CandidateUserText_i＝Avg(V_i)。类似地，可以计算得到任意一个基准用户x的文本数据表示，即获得BaseUserText_x。

本实施例中，设定阈值θ_text作为文本相似度衡量标准，即文本相似度阈值，计算当前候选用户i与全部基准用户之间的文本数据相似度Sim(CandidateUserText_i,BaseUserText_x)，也就是计算候选用户的文本数据与其他所有基准用户的文本数据的相似度，如果候选用户的文本数据与其他所有基准用户的文本数据的相似度大于文本相似度阈值，则将大于文本相似度阈值的其他基准用户设定为比较用户，然后统计比较用户的数量，也就是统计相似度超过阈值θ_text的其他基准用户的数量，并使用该数量作为候选用户i的文本质量分TextScort_i，因此，可以得到下面的公式：

TextScort_i＝Count({Sim(CandidateUserText_i,BaseUserText_x)≥θ_text,forallx})。

对于用户数据为多媒体数据，即图片或者视频，则设P_i＝{p_i,1,p_i,2,…,p_i,n}为爬虫获取的第i位候选用户在社交网络发布的图片集合，对于视频，则可通过提取关键帧等方式获得对应的图片，共计n张。然后，利用目标识别算法获得每张图片的目标识别结果，记为O_i＝{o_i,1,o_i,2,…,o_i,n},o_i,k∈R^q,k∈[1,…,n],q表示模型能识别的目标数。本实施例中，目标识别算法包括但不限于VGG、Google Net、YOLO、Faster-CNN等算法。

然后，计算集合O_i的和作为候选用户的图片数据表示，即CandidateUserPic_i＝Sum(O_i)，类似地，可得任意基准用户x的图片数据表示BaseUserpic_x。接着，设定阈值θ_pic作为图片相似度衡量标准，即图片相似度阈值，计算候选用户i与其他全部基准用户x之间的图片数据相似度Sim(CandidateUserPic_i,BaseUserpic_x)，统计相似度超过阈值θ_pic的基准用户数量，并使用该数量作为候选用户i的图片质量分PicScort_i，因此可以得到下面的公式：

PicScort_i＝Count({Sim(CandidateUserText_i,BaseUserText_x)≥θ_text,forallx})。

对于用户数据为互动数据，则设A_i＝{a_i,1，a_i，2，…，a_i，z}，a_i，k∈R^w，k∈[1，…,z]为爬虫获取的第i位候选用户在某社交网络的互动数据集合，共计z条，w为该社交网络的互动种类数量，计算集合A_i的和作为候选用户的互动数据表示，即CandidateUserInteract_i＝Sum(A_i)。类似地，计算任意基准用户x的互动数据BaseUserInteract_x，然后设定互动数据相似度阈值，并统计与候选用户各种互动方式超过互动数据相似度阈值的基准用户数量，使用该数量作为候选用户的互动质量分InteractScort_i，因此可以得到下面的公式：

InteractScort_i＝Count({CandidateUserInteract_i，w≥BaseUserInteract_i，w，for all x，for all w})。

最后，执行步骤S33，计算候选用户i的质量总分Scort_i，例如使用下面的公式计算：Scort_i＝weight_text*TextScort_i+weight_pic*PicScort_i+weight_int*InteractScort_i。其中，weight_text是文本质量分的加权比重，weight_pic是图片质量分的加权比重，weight_int是互动质量分的加权比重。可见，某一个候选用户的质量总分是该候选用户三种媒体数据的加权和。

最后，执行步骤S7，以质量总分最高的若干个候选用户作为目标用户。

实际应用时，本实施例还可以应用在特殊的场景下，例如对于系统的冷启动状态，即缺少用于提取关键词的种子文本，或者缺少用于比较的基准用户，则需要进行特殊处理。例如，若缺少用于提取关键词的文本，则可以将基准用户的社交网络上发布的文本数据作为关键词模块的输入文本，也就是作为种子文本，并进行关键词的提取。如果缺少用于比较的基准用户，即首次获取的基准用户数量较少，例如低于预先设定的基准用户数量阈值，则在爬虫获得一批用户后，随机选取一部分用户作为基准用户，然后计算每个候选用户的文本质量分、图片质量分、互动质量分，并最终计算获得该候选用户的质量总分。因此，在首次筛选的基准用户数量少于预设的用户数量阈值时，本实施例从社交网络中随机获取社交用户作为基准用户，从而扩充基准用户的数量。

可见，本实施例并不是单一的使用文本数据作为衡量基准用户质量的指标，而是综合考虑文本数据、多媒体数据以及互动数据，获得的目标用户准确性更高。另外，本实施例并不是以候选用户与其他基准用户的文本相似度、图片相似度或者互动相似度作为计算用户媒体质量分的标准，而是采用与候选用户相似度较高的基准用户的数量作为媒体质量分，因此，可以降低运营人员使用本发明的方法的认知门槛，增强了所得结果的可解释性。

此外，本实施例可以将商家的推广文本信息作为无监督关键词提取的种子文本，无需提供额外的文本信息，且在冷启动情况下能正常运行，受冷启动的影响小。

计算机装置实施例：

本实施例的计算机装置包括有处理器、存储器以及存储在存储器中并可在处理器上运行的计算机程序，例如用于实现上述信息处理方法的信息处理程序。处理器执行计算机程序时实现上述基于关键词的社交网络用户查找方法的各个步骤。

例如，计算机程序可以被分割成一个或多个模块，一个或者多个模块被存储在存储器中，并由处理器执行，以完成本发明的各个模块。一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序在终端设备中的执行过程。

需要说明的是，计算机装置可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，本发明的示意图仅仅是终端设备的示例，并不构成对终端设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如终端设备还可以包括输入输出设备、网络接入设备、总线等。

本发明所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，处理器是终端设备的控制中心，利用各种接口和线路连接整个终端设备的各个部分。

存储器可用于存储计算机程序和/或模块，处理器通过运行或执行存储在存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现终端设备的各种功能。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(SmartMedia Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

计算机可读存储介质：

计算机装置上集成的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个基于关键词的社交网络用户查找方法的各个步骤。

其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

当然，上述的方案只是本发明优选的实施方案，实际应用是还可以有更多的变化，例如，种子文本的获取方式的改变，或者，关键词提取方式的改变，又或者，质量总分的计算公式的改变等，这样的改变不影响本发明的实施，也应该包括在本发明的保护范围内。

Claims

1.基于关键词的社交网络用户查找方法，包括：

获取预设文本信息，使用所述预设文本信息作为种子文本，并提取所述种子文本的关键词；

其特征在于：

根据所述关键词，从预设的用户池中筛选多个基准用户，每一所述基准用户与至少一个所述关键词具有联系；

利用爬虫技术从社交网络中获取多个候选用户，每一所述候选用户与至少一个所述关键词具有联系；

利用爬虫技术从社交网络中获取每一所述基准用户以及所述候选用户的用户数据，所述用户数据包括至少一种媒体数据；

对获取的所述用户数据进行分析，计算与每一所述候选用户的用户数据相似度超过相似度阈值的基准用户数量，根据相似度超过相似度阈值的基准用户数量计算所述候选用户的质量总分；

以所述质量总分最高的若干候选用户作为目标用户。

2.根据权利要求1所述的基于关键词的社交网络用户查找方法，其特征在于：

所述用户数据至少包括文本数据、多媒体数据以及互动数据。

3.根据权利要求2所述的基于关键词的社交网络用户查找方法，其特征在于：

计算与每一候选用户的用户数据相似度超过相似度阈值的基准用户数量包括：计算每一所述候选用户每一种媒体数据的媒体质量分，每一所述媒体质量分正关系于该种媒体数据相似度超过相似度阈值的基准用户数量。

4.根据权利要求3所述的基于关键词的社交网络用户查找方法，其特征在于：

所述媒体数据的种类为二种以上；

计算每一所述候选用户的质量总分包括：计算多种媒体数据对应的媒体质量分的加权和。

5.根据权利要求2至4任一项所述的基于关键词的社交网络用户查找方法，其特征在于：

所述多媒体数据包括图片或者视频数据；

计算与所述候选用户的用户数据相似度超过相似度阈值的基准用户数量包括：应用目标检测算法获取图片或视频数据的中的目标分布，通过相似度计算确定与该候选用户相似度超过相似度阈值的基准用户的数量。

6.根据权利要求1至4任一项所述的基于关键词的社交网络用户查找方法，其特征在于：

提取所述种子文本的关键词包括：基于无监督关键词提取算法从所述种子文本中提取所述关键词。

7.根据权利要求1至4任一项所述的基于关键词的社交网络用户查找方法，其特征在于：

从预设的用户池中筛选多个基准用户包括：判断所筛选的基准用户数量是否少于预设的用户数量阈值，如是，从社交网络中随机获取社交用户作为所述基准用户。

8.计算机装置，其特征在于，包括处理器以及存储器，所述存储器存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述基于关键词的社交网络用户查找方法的各个步骤。

9.计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述基于关键词的社交网络用户查找方法的各个步骤。