CN110516175B - 一种确定用户标签的方法、装置、设备和介质 - Google Patents
一种确定用户标签的方法、装置、设备和介质 Download PDFInfo
- Publication number
- CN110516175B CN110516175B CN201910809735.1A CN201910809735A CN110516175B CN 110516175 B CN110516175 B CN 110516175B CN 201910809735 A CN201910809735 A CN 201910809735A CN 110516175 B CN110516175 B CN 110516175B
- Authority
- CN
- China
- Prior art keywords
- word
- corpus
- user
- target user
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9562—Bookmark management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0203—Market surveys; Market polls
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Entrepreneurship & Innovation (AREA)
- General Engineering & Computer Science (AREA)
- Game Theory and Decision Science (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种确定用户标签的方法、装置、设备和介质,所述方法包括:获取目标用户的待测语料;其中,所述目标用户的待测语料是从所述目标用户所发布文本中截取到的;根据所述待测语料所对应的正向参考词,计算所述待测语料和所述正向参考词的第一相关度;根据所述待测语料所对应的负向参考词,计算所述待测语料和所述负向参考词的第二相关度;根据所述第一相关度和所述第二相关度确定所述待测语料是否作为所述目标用户的用户标签。通过正向参考词和负向参考词确定与目标用户的待测语料是否为该目标用户的用户标签,使得目标用户可以得到更准确的用户标签。
Description
技术领域
本申请涉及数据处理领域,尤其涉及一种确定用户标签的方法、装置、设备和介质。
背景技术
随着社会的飞速发展,互联网也在不断进步,许多商家为了更好的了解客户,提高用户体验,商家为用户添加相对应的用户标签,根据用户标签向用户提供根据有针对性的需求。
商家通过分析网络社交平台中各用户发表的内容,向各用户推送针对性的需求。在向用户推送对应的需求时,一般是利用正则表达式根据用户表达的内容查找与被推送的需求对应的用户,向被查找到的用户推送需求。但是,这种推送方式向用户推送的需求不准确,可能会存在用户被漏选的情况。
发明内容
有鉴于此,本申请的目的在于提供了一种确定用户标签的方法、装置、设备和介质,以解决现有技术中如何提高为用户添加用户标签的准确性的问题。
第一方面,本申请实施例提供了一种确定用户标签的方法,包括:
获取目标用户的待测语料;其中,所述目标用户的待测语料是从所述目标用户所发布文本中截取到的;
根据所述待测语料所对应的正向参考词,计算所述待测语料和所述正向参考词的第一相关度;
根据所述待测语料所对应的负向参考词,计算所述待测语料和所述负向参考词的第二相关度;
根据所述第一相关度和所述第二相关度确定所述待测语料是否作为所述目标用户的用户标签。
可选的,所述正向参考词、所述负向参考词和所述待测语料均为词向量的形式;所述正向参考词、所述负向参考词和所述待测语料对应的词向量存储在词向量集合中;
所述词向量集合由如下步骤确定:
针对语料词库中每个词,将该词输入至词向量模型,以得到该词的词向量;
基于所述语料词库中每个词,以及每个词对应的词向量,组成所述词向量集合。
可选的,所述词向量模型是通过如下方式训练得到的,包括:
获取样本文本;
利用所述语料词库和分词算法对所述样本文本进行分词,得到样本分词;
针对每一个样本分词,将该样本分词和与该样本分词具有上下文关系的样本分词同时输入到待训练的词向量模型中,以对所述待训练的词向量模型进行训练。
可选的,所述样本文本,包括:
通过互联网向用户展示的文章;
互联网社交平台中用户的评论内容。
可选的,所述获取目标用户的待测语料,包括:
获取所述目标用户所发布文本;其中,所述目标用户所发布待测文本为互联网社交平台中用户的评论内容;
基于所述语料词库和所述分词算法,对所述目标用户所发布待测文本进行分词,得到所述目标用户所发布待测文本的分词结果;
将所述分词结果作为所述待测语料。
可选的,所述正向参考词是标签类型所对应的同一级别的至少一个用户标签;所述负向参考词是与所述标签类型所对应的用户标签属于不同级别的至少一个用户标签。
可选的,所述标签类型通过以下任意一种方式确定,包括:
在上位机中显示提示信息;
获取用户针对所述提示信息所下达的选择指令;
根据所述选择指令确定所述标签类型;
获取用户在上位机中所输入的内容;根据所述用户在上位机中所输入的内容确定所述标签类型。
第二方面,本申请实施例提供了一种确定用户标签的装置,包括:
获取模块,用于获取目标用户的待测语料;其中,所述目标用户的待测语料是从所述目标用户所发布文本中截取到的;
第一计算模块,用于根据所述待测语料所对应的正向参考词,计算所述待测语料和所述正向参考词的第一相关度;
第二计算模块,用于根据所述待测语料所对应的负向参考词,计算所述待测语料和所述负向参考词的第二相关度;
确定模块:用于根据所述第一相关度和所述第二相关度确定所述待测语料是否作为所述目标用户的用户标签。
第三方面,本申请实施例提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述方法的步骤。
本申请实施例提供的一种确定用户标签的方法,首先,获取目标用户的待测语料;其中,所述目标用户的待测语料是从所述目标用户所发布文本中截取到的;然后,根据所述待测语料所对应的正向参考词,计算所述待测语料和所述正向参考词的第一相关度;然后,根据所述待测语料所对应的负向参考词,计算所述待测语料和所述负向参考词的第二相关度;最后,根据所述第一相关度和所述第二相关度确定所述待测语料是否作为所述目标用户的用户标签。
本申请提供的确定用户标签的方法中,通过正向参考词和负向参考词,计算待测语料的第一相关度和第二相关度,根据第一相关度和第二相关度判断待测语料是否为目标用户的用户标签,通过这种确定用户标签的方式,可以准确的从目标用户所发布的内容中确定用户标签,提高了为目标用户添加用户标签的准确性,不需要利用事先准备好的正则表达式或者词典来匹配待测语料,避免了因正则表达式或者词典覆盖范围小而导致不能为用户添加准确用户标签的情况。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种确定用户标签的方法的流程示意图;
图2为本申请实施例提供的一种词向量模型的训练方法的流程示意图;
图3为本申请实施例提供的一种确定用户标签的装置的结构示意图;
图4为本申请实施例提供的一种计算机设备400的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
在网络社交平台中各用户发表的内容蕴藏了用户的自身特征、偏好喜恶,通过分析用户发表的内容,商家能够确定出用户的用户标签,根据这些用户标签,能够分析出用户自身的特征和用户的需求,根据用户的特征和用户需求商家可以制定更合理的商业计划。
在现有的方案中,基于群聊内容或者社区问答内容确定用户标签,基本是采用正则匹配的方式或者事先准备好的词典去匹配群聊内容,从而找到与事先准备好的词典中一致的词汇,进而确定向该词汇为用户的用户标签,但是这种确定用户标签的方式需要不断的调整词典中的词汇,使得词典中的词汇覆盖范围更广,为了扩大词典的覆盖范围,需要工作人员不断的对该词典进行更新升级,即使该词典在不断的升级也无法全面的覆盖所有的用户标签对应的词汇。所以采用这种方式会出现用户无法添加准确标签的情况。还有一种确定用户标签的方式是通过对深度学习模型进行训练,然后基于深度学习模型推断出用户标签,但是,在深度学习模型的训练过程中,训练样本较少,训练样本比较单一,导致深度学习模型推断结果不准确的情况。
为了解决上述确定用户标签不准确的情况,如图1所示,本申请的实施例提供了一种确定用户标签的方法,包括:
S101,获取目标用户的待测语料;其中,所述目标用户的待测语料是从所述目标用户所发布文本中截取到的;
S102,根据所述待测语料所对应的正向参考词,计算所述待测语料和所述正向参考词的第一相关度;
S103,根据所述待测语料所对应的负向参考词,计算所述待测语料和所述负向参考词的第二相关度;
S104,根据所述第一相关度和所述第二相关度确定所述待测语料是否作为所述目标用户的用户标签。
在上述步骤S101中,目标用户所发布的文本是用户在互联网社交平台中所表达的内容,用户所表达的内容包括:用户针对互联网向用户展示的文章进行评论的内容如,论坛回复、朋友圈回复、微博评论等)、群聊内容(如,微信群聊内容、QQ群聊内容等)。待测语料可以是目标用户所发布文本中的词或字。
具体的,通过上位机在目标用户所发布的文本中获取待测语料。
在上述步骤S102中,在步骤S101之前,首先要确定用户标签对应的标签类型,根据标签类型确定正向参考词和负向参考词。正向参考词是标签类型所对应的同一级别的至少一个用户标签;负向参考词是与标签类型所对应的用户标签属于不同级别的至少一个用户标签。
例如,商家确定的标签类型是美妆品牌,则正向参考词都是品牌类的用户标签,包括:“欧莱雅”、“兰蔻”、“纪梵希”等,负向参考词是与美妆相关的,与品牌不属于同一级别的用户标签,如美妆产品类的用户标签,包括:“眼部精华”、“小棕瓶”、“洗面奶”等。
又如,商家确定的标签类型是肤质,则正向参考词都是肤质对应的用户标签,包括:“干性皮肤”、“油性皮肤”、“混合型皮肤”等,负向参考词是与肤质相关的,与肤质不属于同一级别的用户标签,如美妆产品类的用户标签,包括:“bb霜”、“乳液”、“精华露”等。
具体的,上位机在获取到待测语料、正向参考词和负向参考词之后,上位机会在词向量集合中分别找到待测语料对应的词向量、正向参考词对应的词向量和负向参考词对应的词向量。其中,词向量集合是存储有词和该词对应的词向量。
在确定出待测语料的词向量和正向参考词的词向量后,首先,计算待测语料与每一个正向参考词之间的相似度。
使用如下公式1,根据待测语料的词向量和正向参考词的词向量计算待测语料和正向参考词之间的相似度;
其中,Word是待测语料,Synonyms是正向参考词,n是每个词向量的维度,i是词向量的第i维,Wordi是待测语料中第i维的值,Synonymsi是正向参考词中第i维的值,CosSim(Word,Synonyms)是待测语料和正向参考词之间的相似度。
然后,根据待测语料和每个正向参考词之间的相似度,将每个相似度进行求和,得到待测语料和正向参考词之间的第一相关度。
使用如下公式2,根据待测语料和每个正向参考词之间的相似度,计算待测语料和正向参考词之间的第一相关度;
Sim1=∑jCosSim(Word,Synonymsj); 公式2。
其中,j是正向参考词的序列号,Word是待测语料,Synonymsj是所有正向参考词中第j个正向参考词,Sim1是待测语料和正向参考词之间的第一相关度。
在上述步骤103中,通过上述步骤S102,确定出待测语料的词向量和负向参考词的词向量后,首先,计算待测语料与每一个负向参考词之间的相似度。
使用如下公式3,根据待测语料的词向量和负向参考词的词向量计算待测语料和负向参考词之间的相似度;
其中,Word是待测语料,Excludes是负向参考词,n是每个词向量的维度,i是词向量的第i维,Wordi是待测语料中第i维的值,Excludesi是负向参考词中第i维的值,CosSim(Word,Excludes)是待测语料和负向参考词之间的相似度。
在计算待测语料和每个负向参考词之间的相似度之后,将每个相似度进行求和,得到待测语料和负向参考词之间的第二相关度。
使用如下公式4,根据待测语料和每个负向参考词之间的相似度,计算待测语料和负向参考词之间的第二相关度;
Sim2=∑mCosSim(Word,Excludesm); 公式4。
其中,m是负向参考词的序列号,Word是待测语料,Excludesm是所有负向参考词中第m个负向参考词,Sim2是待测语料和负向参考词之间的第二相关度。
在上述步骤S104中,上位机通过步骤S102和步骤S103分别计算得到第一相关度和第二相关度之后,上位机根据第一相关度与第二相关度之差,计算待测预料和标签类型之间的目标相关度。
使用如下公式5,根据第一相关度和第二相关度计算待测语料和标签类型之间的目标相关度;
Similarity(Word)=Sim1-Sim2; 公式5。
其中,Word是待测语料,Sim1是待测语料和正向参考词之间的第一相关度,Sim2是待测语料和负向参考词之间的第二相关度,Similarity(Word)是待测语料和标签类型之间的目标相关度。
在确定待测语料的目标相关度之后,判断目标相关度是否超过预设相关度阈值,如果该待测语料的目标相关度超过预设相关度阈值,则该待测预料将作为目标用户的用户标签,否则该待测待测语料不能作为目标用户的用户标签。
本申请提供的实施例,通过上述四个步骤,通过正向参考词和负向参考词,计算待测语料的第一相关度和第二相关度,根据第一相关度和第二相关度判断待测语料是否为目标用户的用户标签,通过这种确定用户标签的方式,可以准确的从目标用户所发布的内容中确定用户标签,提高了为目标用户添加用户标签的准确性,不需要利用事先准备好的正则表达式或者词典来匹配待测语料,避免了因正则表达式或者词典覆盖范围小而导致的添加用户标签不准确的情况。在计算所述第一相关度、所述第二相关度和所述目标相关度的过程中,所述正向参考词、所述负向参考词和所述待测语料均是通过为词向量的形式进行计算的,所述待测语料、所述正向参考词和所述负向参考词分别对应的词向量是从词向量集合中获取的,所述词向量集合由如下步骤确定:
步骤106,针对语料词库中每个词,将该词输入至词向量模型,以得到该词的词向量;
步骤107,基于所述语料词库中每个词,以及每个词对应的词向量,组成所述词向量集合。
在上述步骤106中,语料词库中存储有常用的词汇。词向量模型用于计算语料词库中每个词的词向量,词向量模型包括Skip-Gram模型,本申请在此不与限制。
具体的,先设置词向量模型的维度,例如,200维,将语料词库中的每个词输入到训练好的词向量模型中,利用词向量模型计算语料词库中每个词的词向量,以得到每个词的200维的词向量。
例如,语料词库中存储有“雅诗兰黛”、“欧莱雅”,将语料词库中的词输入至词向量模型中,得到“雅诗兰黛”的词向量为[-0.0413,-0.0689…-0.1151]、“欧莱雅”的词向量为[-0.03381,-0.1128…-0.1109]。
在上述步骤107中,词向量集合中存储有词与词对应的词向量之间的关联关系。为了保证词向量集合中包含有全面的词向量,则需要扩大语料词库中词的范围,扩大语料词库的词的范围。本申请中语料词库是通过如下步骤确定的,包括:
步骤108,获取至少两个不同的常用词库;
步骤109,将获取的至少两个不同的常用词库进行组合;
步骤110,将组合后生成的词库中重复的语料进行去重,得到所述语料词库。
在上述步骤108中,常用词库包括百度词库、搜狗词库、英文词库等。
在上述步骤109中,上位机获取到至少两个常用词库后,将每个词库中的词汇组合在一起。
在上述步骤110中,每个词库中的词汇组合在一起后,会有词汇是重复的,因此,需要将重复词汇进行去重,保留重复词汇中的一个,使得组合后的词库中每个词汇都是唯一的,经过去重后得到的词库为语料词库。
在上述步骤106中,词向量模型是经过预先训练得到的,如图2所示,本申请实施例提供了一种词向量模型的训练方法,包括:
S201,获取样本文本;
S202,利用所述语料词库和所述分词算法对所述样本文本进行分词,得到样本分词;
S203,针对每一个样本分词,将该样本分词和与该样本分词具有上下文关系的样本分词同时输入到待训练的词向量模型中,以对所述待训练的词向量模型进行训练。
在上述步骤S201中,上位机通过爬虫方法获取样本文本,其中,样本文本包括通过互联网向用户展示的文章、互联网社交平台中用户表达的内容;
上述通过互联网向用户展示的文章包括新闻内容、百科内容,互联网向用户展示的文章中辞藻比较华丽,语言丰富,逻辑性强,上下文衔接紧密;上述互联网社交平台中用户表达的内容包括用户针对互联网向用户展示的文章进行评论的内容、群聊内容,互联网社交平台中用户表达的内容趋于口语化,上下文衔接不紧密。
在上述步骤S202中,在上位机对样本文本进行分词之前,需要对样本分词进行数据清洗,数据清洗包括将样本文本中的繁体字转换为简体字、利用正则表达式去除样本文本中的字符。上位机将清洗过的样本文本进行分词,分词过程包括利用分词算法将样本文本进行分词,得到样本文本的第一分词结果;但是,利用分词算法不能在样本文本中分出新型词汇(如,打call、强行水逆、彩虹天等),因此,需要利用语料词库中的词对样本文本进行匹配,得到第二分词结果;第一分词结果和第二分词结果共同组成样本分词。
在上述步骤203中,针对每一个样本分词,将该样本分词作为待训练的词向量模型的输入,将该样本分词相关联的上文样本分词和下文样本分词作为待训练的词向量模型的输出,对待训练的词向量模型进行训练,得到训练好的词向量模型。
例如,针对每一条样本文本,将该样本文本进行分词后,得到多个样本分词。将每一个样本分词作为待训练的词向量模型的输入,将该样本分词的前n个词和该样本分词的后n个词作为待训练的词向量模型的输出,对待训练的词向量模型进行训练,训练完成后,词向量模型的隐层输出词向量。
在步骤S101,所述获取目标用户的待测语料,包括:
步骤1011,获取目标用户所发布文本;
步骤1012,基于所述语料词库和分词算法,对所述目标用户所发布文本进行分词,得到所述目标用户所发布文本的分词结果;
步骤1013,将所述分词结果作为所述待测语料。
在上述步骤1011中,通过上位机获取目标用户所发布的文本。
在上述步骤1012中,在对目标用户所发布文本进行分词之前,为了保证分词结果的准确性,需要对目标用户所发布文本进行数据清洗,数据清洗的过程包括将目标用户所发布文本中的繁体字转换为简体字、利用正则表达式去除目标用户所发布文本中的字符。上位机将清洗过的目标用户所发布文本进行分词,分词过程包括利用分词算法将目标用户所发布文本进行分词,得到样本文本的第三分词结果;但是,利用分词算法不能在目标用户所发布文本中分出新型词汇,因此,需要利用语料词库中的词对目标用户所发布文本进行匹配,得到第四分词结果;对第三分词结果和第四分词结果进行组合,以及将组合后的词进行进行去重处理,处理后得到分词结果。
在上述步骤1013中,处理后的分词结果中的每一个词作为待测语料。
在步骤S101之前,还需要确定标签类型,标签类型通过以下任意一种方式确定,包括:
方式一:
步骤111,在上位机中显示提示信息;
步骤112,获取用户针对所述提示信息所下达的选择指令;
步骤113,根据所述选择指令确定所述标签类型;
在上述步骤111中,提示信息可以是标签类型的列表,提示信息包括:性别、美妆品牌、肤质等。
具体的,在上位机的显示界面中显示标签类型的列表。
在上述步骤112中,选择指令是根据用户在标签类型的列表中的点击操作得到的。
用户通过鼠标在标签类型的列表中点击所需的标签类型,根据用户的点击操作得到选择指令,该选择指令中包含有用户点击的标签类型信息。
在上述步骤113中,根据上述步骤112中得到的标签类型信息确定用户做选择的标签类型。
方式二:
步骤114,获取用户在上位机中所输入的内容;
步骤115,根据所述用户在上位机中所输入的内容确定所述标签类型。
在上述步骤114中,上位机的显示器中设置有搜索框,用户在搜索框中输入标签类型对应的文本。
在上述步骤115中,上位机根据用户输入的文本确定用户所需要的标签类型。
在本申请中,可以通过一个标签类型可以为目标用户确定该标签类型对应的用户标签,进而通过多个标签栏类型就可以为目标用户确定每个标签类型对应的用户标签,多个用户标签组成目标用户的用户画像。通过用户画像可以分析出用户特征,进而为用户提供更全面、更准确的需求。通过用户画像还可以构建知识图谱,根据知识图谱,商家为用户推荐与用户相关联的需求,使得用户可以得到多样性的推荐,让用户有更多的选择,提高了用户的体验效果。
如图3所示,本申请实施例提供了一种确定用户标签的装置,包括:
获取模块301,用于获取目标用户的待测语料;其中,所述目标用户的待测语料是从所述目标用户所发布文本中截取到的;
第一计算模块302,用于根据所述待测语料所对应的正向参考词,计算所述待测语料和所述正向参考词的第一相关度;其中,所述正向参考词是标签类型所对应的同一级别的至少一个用户标签;
第二计算模块303,用于根据所述待测语料所对应的负向参考词,计算所述待测语料和所述负向参考词的第二相关度;其中,所述负向参考词是与所述标签类型所对应的用户标签属于不同级别的至少一个用户标签;
确定模块304,用于根据所述第一相关度和所述第二相关度确定所述待测语料是否作为所述目标用户的用户标签。
可选的,所述装置还包括:词向量集合确定模块;
所述词向量集合确定模块,用于针对语料词库中每个词,将该词输入至词向量模型,以得到该词的词向量;基于所述语料词库中每个词,以及每个词对应的词向量,组成所述词向量集合;其中,所述正向参考词、所述负向参考词和所述待测语料均为词向量的形式;所述正向参考词、所述负向参考词和所述待测语料对应的词向量存储在词向量集合中。
可选的,所述装置还包括:词向量模型构建模块;
所述词向量模型确定模块,用于获取样本文本;其中,所述样本文本包括通过互联网向用户展示的文章、互联网社交平台中用户表达的内容;利用所述语料词库和所述分词算法对所述样本文本进行分词,得到样本分词;针对每一个样本分词,将该样本分词和与该样本分词具有上下文关系的样本分词同时输入到待训练的词向量模型中,以对所述待训练的词向量模型进行训练。
可选的,所述获取模块301在获取目标用户的待测语料时,用于获取目标用户所发布文本;其中,所述目标用户所发布文本为互联网社交平台中用户的评论内容;基于所述语料词库和所述分词算法,对所述目标用户所发布文本进行分词,得到所述目标用户所发布文本的分词结果;将所述分词结果作为所述待测语料。
可选的,所述装置还包括:标签类型确定模块;
所述标签类型确定模块,用于在上位机中显示提示信息;
获取用户针对所述提示信息所下达的选择指令;
根据所述选择指令确定所述标签类型;
获取用户在上位机中所输入的内容;
根据所述用户在上位机中所输入的内容确定所述标签类型。
对应于图1中的确定用户标签的方法,本申请实施例还提供了一种计算机设备400,如图4所示,该设备包括存储器401、处理器402及存储在该存储器401上并可在该处理器402上运行的计算机程序,其中,上述处理器402执行上述计算机程序时实现上述确定用户标签的方法的步骤。
具体地,上述存储器401和处理器402能够为通用的存储器和处理器,这里不做具体限定,当处理器402运行存储器401存储的计算机程序时,能够执行上述确定用户标签的方法,用于解决现有技术中如何提高为用户添加用户标签的准确性问题,通过正向参考词和负向参考词,计算待测语料的第一相关度和第二相关度,根据第一相关度和第二相关度判断待测语料是否为目标用户的用户标签,通过这种确定用户标签的方式,可以准确的从目标用户所发布的内容中确定用户标签,提高了为目标用户添加用户标签的准确性,不需要利用事先准备好的正则表达式或者词典来匹配待测语料,避免了因正则表达式或者词典覆盖范围小而导致不能为用户添加准确用户标签的情况。
对应于图1中的确定用户标签的方法,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述确定用户标签的方法的步骤。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述确定用户标签的方法,用于提高为用户添加用户标签的准确性的问题,通过正向参考词和负向参考词,计算待测语料的第一相关度和第二相关度,根据第一相关度和第二相关度判断待测语料是否为目标用户的用户标签,通过这种确定用户标签的方式,可以准确的从目标用户所发布的内容中确定用户标签,提高了为目标用户添加用户标签的准确性,不需要利用事先准备好的正则表达式或者词典来匹配待测语料,避免了因正则表达式或者词典覆盖范围小而导致不能为用户添加准确用户标签的情况。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种确定用户标签的方法,其特征在于,包括:
获取目标用户的待测语料;其中,所述目标用户的待测语料是从所述目标用户所发布文本中截取到的;
根据所述待测语料所对应的正向参考词,计算所述待测语料和所述正向参考词的第一相关度;所述正向参考词为与通过选择指令确定的标签类型属于同一级别的至少一个用户标签;
根据所述待测语料所对应的负向参考词,计算所述待测语料和所述负向参考词的第二相关度;所述负向参考词为与通过选择指令确定的标签类型属于不同级别的至少一个用户标签;
根据所述第一相关度和所述第二相关度确定所述待测语料是否作为所述目标用户的用户标签;若所述第一相关度与所述第二相关度之差大于预设相关度阈值,则将所述待测语料确定为所述目标用户的用户标签。
2.如权利要求1所述的方法,其特征在于,所述正向参考词、所述负向参考词和所述待测语料均为词向量的形式;所述正向参考词、所述负向参考词和所述待测语料对应的词向量存储在词向量集合中;
所述词向量集合由如下步骤确定:
针对语料词库中每个词,将该词输入至词向量模型,以得到该词的词向量;
基于所述语料词库中每个词,以及每个词对应的词向量,组成所述词向量集合。
3.如权利要求2所述的方法,其特征在于,所述词向量模型是通过如下方式训练得到的,包括:
获取样本文本;
利用所述语料词库和分词算法对所述样本文本进行分词,得到样本分词;
针对每一个样本分词,将该样本分词和与该样本分词具有上下文关系的样本分词同时输入到待训练的词向量模型中,以对所述待训练的词向量模型进行训练。
4.如权利要求3所述的方法,其特征在于,所述样本文本,包括:
通过互联网向用户展示的文章;
互联网社交平台中用户表达的内容。
5.如权利要求3所述的方法,其特征在于,所述获取目标用户的待测语料,包括:
获取所述目标用户所发布文本;其中,所述目标用户所发布文本为互联网社交平台中用户的评论内容;
基于所述语料词库和所述分词算法,对所述目标用户所发布文本进行分词,得到所述目标用户所发布文本的分词结果;
将所述分词结果作为所述待测语料。
6.如权利要求1所述的方法,其特征在于,所述正向参考词是标签类型所对应的同一级别的至少一个用户标签;所述负向参考词是与所述标签类型所对应的用户标签属于不同级别的至少一个用户标签。
7.如权利要求6所述的方法,其特征在于,所述标签类型通过以下任意一种方式确定,包括:
在上位机中显示提示信息;
获取用户针对所述提示信息所下达的选择指令;
根据所述选择指令确定所述标签类型;
获取用户在上位机中所输入的内容;
根据所述用户在上位机中所输入的内容确定所述标签类型。
8.一种确定用户标签的装置,其特征在于,包括:
获取模块,用于获取目标用户的待测语料;其中,所述目标用户的待测语料是从所述目标用户所发布文本中截取到的;
第一计算模块,用于根据所述待测语料所对应的正向参考词,计算所述待测语料和所述正向参考词的第一相关度;所述正向参考词为与通过选择指令确定的标签类型属于同一级别的至少一个用户标签;
第二计算模块,用于根据所述待测语料所对应的负向参考词,计算所述待测语料和所述负向参考词的第二相关度;所述负向参考词为与通过选择指令确定的标签类型属于不同级别的至少一个用户标签;
确定模块:用于根据所述第一相关度和所述第二相关度确定所述待测语料是否作为所述目标用户的用户标签;若所述第一相关度与所述第二相关度之差大于预设相关度阈值,则将所述待测语料确定为所述目标用户的用户标签。
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1-7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行上述权利要求1-7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910809735.1A CN110516175B (zh) | 2019-08-29 | 2019-08-29 | 一种确定用户标签的方法、装置、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910809735.1A CN110516175B (zh) | 2019-08-29 | 2019-08-29 | 一种确定用户标签的方法、装置、设备和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110516175A CN110516175A (zh) | 2019-11-29 |
CN110516175B true CN110516175B (zh) | 2022-05-17 |
Family
ID=68629039
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910809735.1A Active CN110516175B (zh) | 2019-08-29 | 2019-08-29 | 一种确定用户标签的方法、装置、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110516175B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111638832A (zh) * | 2020-04-23 | 2020-09-08 | 北京达佳互联信息技术有限公司 | 信息展示方法、装置、系统、电子设备及存储介质 |
CN111784448A (zh) * | 2020-06-24 | 2020-10-16 | 支付宝(杭州)信息技术有限公司 | 一种商户数据的处理方法及系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9245234B2 (en) * | 2011-01-11 | 2016-01-26 | Nec Corporation | Recognition dictionary generating device and pattern recognition device |
CN107016026B (zh) * | 2016-11-11 | 2020-07-24 | 阿里巴巴集团控股有限公司 | 一种用户标签确定、信息推送方法和设备 |
CN107678309B (zh) * | 2017-09-01 | 2021-07-06 | 科大讯飞股份有限公司 | 操控句式生成、应用操控方法及装置、存储介质 |
CN109344253A (zh) * | 2018-09-18 | 2019-02-15 | 平安科技(深圳)有限公司 | 添加用户标签的方法、装置、计算机设备和存储介质 |
-
2019
- 2019-08-29 CN CN201910809735.1A patent/CN110516175B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110516175A (zh) | 2019-11-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111914568B (zh) | 文本修辞句的生成方法、装置、设备及可读存储介质 | |
CN109815308B (zh) | 意图识别模型的确定及检索意图识别方法、装置 | |
US20170185581A1 (en) | Systems and methods for suggesting emoji | |
CN108255813B (zh) | 一种基于词频-逆文档与crf的文本匹配方法 | |
CN105183717B (zh) | 一种基于随机森林和用户关系的osn用户情感分析方法 | |
WO2018068648A1 (zh) | 一种信息匹配方法及相关装置 | |
CN110955750A (zh) | 评论区域和情感极性的联合识别方法、装置、电子设备 | |
CN110516175B (zh) | 一种确定用户标签的方法、装置、设备和介质 | |
CN111260428A (zh) | 一种商品推荐方法和装置 | |
Chandrasekaran et al. | Student Sentiment Analysis Using Various Machine Learning Techniques | |
CN111859940A (zh) | 一种关键词提取方法、装置、电子设备及存储介质 | |
Saranya et al. | A Machine Learning-Based Technique with IntelligentWordNet Lemmatize for Twitter Sentiment Analysis. | |
CN111368066B (zh) | 获取对话摘要的方法、装置和计算机可读存储介质 | |
CN113204643B (zh) | 一种实体对齐方法、装置、设备及介质 | |
JP2012146263A (ja) | 言語モデル学習装置、言語モデル学習方法、言語解析装置、及びプログラム | |
US10810266B2 (en) | Document search using grammatical units | |
Hussain et al. | A technique for perceiving abusive bangla comments | |
pal Singh et al. | Naive Bayes classifier for word sense disambiguation of Punjabi language | |
Nandan et al. | SAP-RI: a constrained and supervised approach for aspect-based sentiment analysis | |
Ljajić et al. | Sentiment analysis of textual comments in field of sport | |
Kavitha et al. | A review on machine learning techniques for text classification | |
CN114491076A (zh) | 基于领域知识图谱的数据增强方法、装置、设备及介质 | |
CN112215005A (zh) | 实体识别方法及装置 | |
Maulidia et al. | Feature Expansion with Word2Vec for Topic Classification with Gradient Boosted Decision Tree on Twitter | |
Haripriya et al. | Detection of sarcasm from consumer sentiments on social media about luxury brands |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |