CN111753199A - 用户画像构建方法及设备、电子设备和介质 - Google Patents

用户画像构建方法及设备、电子设备和介质 Download PDF

Info

Publication number
CN111753199A
CN111753199A CN202010577352.9A CN202010577352A CN111753199A CN 111753199 A CN111753199 A CN 111753199A CN 202010577352 A CN202010577352 A CN 202010577352A CN 111753199 A CN111753199 A CN 111753199A
Authority
CN
China
Prior art keywords
matching
historical search
user
search queries
tags
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010577352.9A
Other languages
English (en)
Other versions
CN111753199B (zh
Inventor
谢炜坚
骆金昌
陈坤斌
刘准
何伯磊
和为
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202010577352.9A priority Critical patent/CN111753199B/zh
Publication of CN111753199A publication Critical patent/CN111753199A/zh
Application granted granted Critical
Publication of CN111753199B publication Critical patent/CN111753199B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供一种涉及用户画像构建方法及设备、电子设备和介质,涉及人工智能技术领域。所述构建方法包括:获取推荐系统的多个物料标签;获取待构建画像的用户的至少一部分历史搜索询问;将所述至少一部分历史搜索询问中的每一个历史搜索询问和所述多个物料标签进行匹配;基于匹配结果确定与所述每一个历史搜索询问匹配的至少一个匹配物料标签以及所述至少一个匹配物料标签的匹配分数;以及至少根据与所述至少一部分历史搜索询问相应匹配的多个匹配物料标签及其匹配分数,构建用户兴趣画像,其中,所述匹配物料标签为用户的兴趣标签,所述匹配分数能够表征用户对相应的兴趣标签感兴趣的程度。

Description

用户画像构建方法及设备、电子设备和介质
技术领域
本公开涉及人工智能技术领域,特别涉及用户画像构建方法及设备、电子设备和介质。
背景技术
在推荐系统中,需要对用户进行画像构建,从而进行个性化推荐。用户画像数据分为两种:基础画像、兴趣画像。其中基础画像为用户的基础属性,例如年龄、性别等。兴趣画像为用户对不同主题、类别的内容感兴趣程度的刻画,是用户画像的重要组成部分,是实现千人千面个性化推荐的关键。
相关技术中,用户兴趣画像的构建通常是基于用户在物料上的点击或收藏等交互行为来识别用户的兴趣。但是,一方面,用户和物料的交互数据往往非常稀疏,例如,一个电影类应用程序可能包含上万部电影,然而一个用户打过分的电影可能平均只有几十部。使用如此少量的交互数据来识别客户的兴趣,会极大地增加算法的过拟合风险。另一方面,对于新加入的用户或者物料,由于没有其历史交互数据,因此无法进行准确地推荐,这种情况也叫做冷启动问题。
在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。
发明内容
根据本公开的一方面,提供一种用户画像的构建方法,包括:获取推荐系统的多个物料标签;获取待构建画像的用户的至少一部分历史搜索询问;将所述至少一部分历史搜索询问中的每一个历史搜索询问和所述多个物料标签进行匹配;基于匹配结果确定与所述每一个历史搜索询问匹配的至少一个匹配物料标签以及所述至少一个匹配物料标签的匹配分数;以及至少根据与所述至少一部分历史搜索询问相应匹配的多个匹配物料标签及其匹配分数,构建用户兴趣画像,其中,所述匹配物料标签为用户的兴趣标签,所述匹配分数能够表征用户对相应的兴趣标签感兴趣的程度。
根据本公开的另一方面,还提供一种用户画像的构建设备,包括:第一获取单元,被配置用于获取推荐系统的多个物料标签;第二获取单元,被配置用于获取设定用户的至少一部分历史搜索询问;匹配单元,被配置用于将所述至少一部分历史搜索询问中的每一个历史搜索询问和所述多个物料标签进行匹配;确定单元,被配置用于基于所述匹配单元的匹配结果确定与所述历史搜索询问匹配的至少一个匹配物料标签以及所述至少一个匹配物料标签的匹配分数;以及构建单元,被配置用于至少根据所述至少一部分历史搜索询问相应的多个匹配物料标签及其匹配分数,构建用户兴趣画像,其中,所述匹配物料标签为用户的兴趣标签,所述匹配分数能够表征用户对相应的兴趣标签感兴趣的程度。
根据本公开的另一方面,还提供一种电子设备,包括:处理器;以及存储程序的存储器,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行根据上述的构建方法。
根据本公开的另一方面,还提供一种存储程序的计算机可读存储介质,所述程序包括指令,所述指令在由电子设备的处理器执行时,致使所述电子设备执行根据上述的构建方法。
附图说明
附图示例性地示出了实施例并且构成说明书的一部分,与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的,并不限制权利要求的范围。在所有附图中,相同的附图标记指代类似但不一定相同的要素。
图1是示出根据示例性实施例的用户画像的构建方法的流程图;
图2是示出根据示例性实施例的将用户的至少一部分历史搜索询问中的每一个历史搜索询问和物料标签树进行匹配的流程图;
图3是示出根据示例性实施例的用户画像的构建方法的流程图;
图4是示出根据示例性实施例的用户画像的构建设备的示意性组成框图;
图5是示出能够应用于示例性实施例的示例性计算设备的结构框图。
具体实施方式
在本公开中,除非另有说明,否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系,这种术语只是用于将一个元件与另一元件区分开。在一些示例中,第一要素和第二要素可以指向该要素的同一实例,而在某些情况下,基于上下文的描述,它们也可以指代不同实例。
在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的,而并非旨在进行限制。除非上下文另外明确地表明,如果不特意限定要素的数量,则该要素可以是一个也可以是多个。此外,本公开中所使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方式。
使用推荐系统的应用程序能够为用户提供个性化推荐。根据相关技术,推荐系统基于用户与物料的交互数据(例如,点击、打分、评论和收藏等)来识别用户的兴趣,以构建用户的兴趣画像。所述物料可以为应用程序所包括的物料,可以根据具体的应用程序而不同。所述物料例如可以包括以下的至少其中之一:电子产品、生活用品、音乐、图书、音视和视频。
推荐系统可以根据用户兴趣画像来为用户提供个性化推荐。但是,若与物料的用户交互数据较少甚至没有,则无法准确推荐用户感兴趣的物料。
为了解决上述技术问题,本公开对用户的历史搜索询问和推荐系统的多个物料标签进行匹配,将与历史搜索询问匹配的物料标签作为用户的兴趣标签。从而能够基于用户的历史搜索询问来挖掘该用户感兴趣的物料标签,可以将物料标签所对应的物料推荐给该用户。因为用户可能将感兴趣的物料标签作为搜索询问进行查询,所以很有可能从用户的历史搜索询问中挖掘到该用户感兴趣的物料标签。另外,用户的历史搜索询问通常数据量可观,基于用户的历史搜索询问能够准确挖掘用户感兴趣的物料标签,也能够克服用户画像构建的冷启动问题。通过本公开的技术方案,能够实现为用户推荐感兴趣的物料,使用户能够快速获取到想要的物料,并为后续快速收敛用户兴趣,塑造更精准的用户兴趣画像提供基础。
所述历史搜索询问可以从任何类型的应用程序的搜索日志中获得,例如但不限于为百度搜索引擎。所述历史搜索询问可以文本,也可以为音频或视频。
所述推荐系统可以与所述历史搜索询问来自同一应用程序或不同应用程序。
以下将结合附图对本公开的用户画像的构建方法进行进一步描述。
图1是示出根据本公开示例性实施例的用户画像的构建方法的流程图。如图1所示,所述用户画像的构建方法可以包括:步骤S101、获取推荐系统的多个物料标签;步骤S102、获取待构建画像的用户的至少一部分历史搜索询问;步骤S103、将所述至少一部分历史搜索询问中的每一个历史搜索询问和所述多个物料标签进行匹配;步骤S104、基于匹配结果确定与所述每一个历史搜索询问匹配的至少一个匹配物料标签以及所述至少一个匹配物料标签的匹配分数;以及步骤S105、至少根据与所述至少一部分历史搜索询问相应匹配的多个匹配物料标签及其匹配分数,构建用户兴趣画像,其中,所述匹配物料标签为用户的兴趣标签,所述匹配分数能够表征用户对相应的兴趣标签感兴趣的程度。
所述物料标签可以为推荐系统的物料分类体系的分类类别。本公开中的物料标签可以为物料分类体系的任意一个分类类别,即,所述物料标签可以为一级分类类别、二级分类类别或三级分类类别等等。例如,在图书类推荐系统中,所述物料标签例如可以为科技、经济和文学等一级分类类别,也可以为科技类别下的科普、建筑和计算机与互联网等二级分类类别,也可以为计算机与互联网类别下的电子通信、人工智能等三级分类类别。
所述多个物料标签可以包括推荐系统的物料分类体系的所有分类类别,从而能够更全面得获取用户对推荐系统中感兴趣的物料标签。
所述推荐系统可以来自第一应用程序,所述至少一部分历史搜索询问可以来自于与所述第一应用程序不同的第二应用程序。从而能够为所述第一应用程序的新用户或交互数据较少的用户建立兴趣画像,准确地为用户推荐感兴趣的物料。
根据一些实施例,所述构建方法还可以包括:基于所述推荐系统的物料分类体系,利用所述多个物料标签来构建物料标签树,所述物料标签树的每一个节点为相应的所述物料标签。在这种情况下,将所述至少一部分历史搜索询问中的每一个历史搜索询问和所述多个物料标签进行匹配包括:将所述至少一部分历史搜索询问中的每一个历史搜索询问和所述多个物料标签树进行匹配。从而能够利用树结构的分布聚集性,快速匹配到与所述每一个历史搜索询问匹配的所有物料标签。所述多个物料标签也可以以其它数据结构形式存储,在此不作限定。
根据一些实施例,可以利用两个或两个以上不同的匹配算法来分别获取与所述至少一部分历史搜索询问匹配的多组匹配物料标签。可以综合考虑所述多组匹配物料标签来构建用户兴趣画像,能够提高构建的用户兴趣画像的准确度。当然,也可以仅利用一个匹配算法来获取与所述至少一部分历史搜索询问匹配的多个匹配物料标签。
以下内容中将基于构建的物料标签树来具体描述如何确定与用户的所述至少一部分历史搜索询问匹配的匹配物料标签。
根据一些实施例,可以将所述至少一部分历史搜索询问中的每一个历史搜索询问与所述多个物料标签中的每一个物料标签分别进行匹配。从而能够精确匹配到与所述每一个历史搜索询问相应的整个文本匹配的第一匹配物料标签,相应的匹配分数例如可以确定为1。在一个示例性实施例中,步骤S103、将所述至少一部分历史搜索询问中的每一个历史搜索询问和所述物料标签树进行匹配可以包括:将所述每一个历史搜索询问相应的整个文本与所述物料标签树的每一个节点进行匹配。其中,与所述整个文本匹配的至少一个节点为所述第一匹配物料标签。根据一些实施例,可以在所述整个文本包括一物料标签的情况下,将该物料标签确定为所述第一匹配物料标签。所述整个文本包括一物料标签可以是指:所述整个文本包括该物料标签的按顺序排列的所有字符,并且该物料标签的所有字符在所述整个文本中按所述顺序相邻排列。
除了上述的精确匹配算法,还可以利用语义相似度匹配算法确定与所述至少一部分历史搜索询问中的每一个历史搜索询问匹配的第二匹配物料标签,所述第二匹配物料标签匹配分数例如可以为相应的语义相似度。
根据一些实施例中,所述多个匹配物料标签还可以包括至少一个所述第二匹配物料标签。在这种情况下,如图2所示,步骤S103、将所述至少一部分历史搜索询问中的每一个历史搜索询问和所述物料标签树进行匹配可以包括:步骤S1031、将所述每一个历史搜索询问相应的整个文本转换为第一句向量;步骤S1032、将所述物料标签树的每一个物料标签树路径转换为第二句向量,所述每一个物料标签树路径包括其中按顺序连接的所有节点;以及步骤S1033、确定与所述第一句向量语义相似度最高的至少一个第二句向量。其中,针对所述至少一个第二句向量,每一个所述第二句向量相应的物料标签树路径的每一个节点为所述第二匹配物料标签,所述第二匹配物料标签的匹配分数为所在的物料标签树路径相应的语义相似度。例如:对于一个物料标签树路径:新闻—科技—人工智能,当所述至少一个第二句向量包括与该物料标签树路径相应的第二句向量时,可以将“新闻”、“科技”和“人工智能”均确定为所述第二匹配物料标签,并且“新闻”、“科技”和“人工智能”的匹配分数可以均为“新闻—科技—人工智能”这一物料标签树路径相应的语义相似度。
所述物料标签树路径可以是指从一个叶子节点到根节点的一条路径,该路径没有任何分支。所述物料标签树路径包括该路径上的所有节点以及节点之间的从属关系。
根据一些实施例,所述第一句向量可包括第一子句向量,所述第二句向量可包括第二子句向量。其中,将所述每一个历史搜索询问相应的整个文本转换为第一句向量和将所述物料标签树的每一个物料标签树路径转换为第二句向量可以包括:将所述每一个历史搜索询问相应的所述整个文本中的每一个字符输入词向量模型,获取所述词向量模型输出的与所述整个文本中的每一个字符相应的词向量;根据所述整个文本的所有字符相应的词向量,确定所述整个文本的所述第一子句向量;将所述每一个物料标签树路径的每一个字符输入词向量模型,获取所述词向量模型输出的与所述每一个物料标签树路径的每一个字符相应的词向量;以及根据所述每一个物料标签树路径的所有字符相应的词向量,确定所述每一个物料标签树路径的每一个字符的所述第二子句向量。其中,所述至少一个第二匹配物料标签包括与K1个所述第二子句向量相应的第一子匹配物料标签。在所述多个第二子句向量中,所述K1个第二子句向量与所述第一子句向量的语义相似度最高,其中,K1为正整数。
所述词向量模型例如可以为word2vec模型。
根据一些实施例,可以但不限于将所述整个文本的所有字符相应的词向量进行求和然后再取均值,来确定所述整个文本的所述第一子句向量。相应地,可以但不限于将所述每一个物料标签树路径的所有字符相应的词向量进行求和然后再取均值,来确定所述每一个物料标签树路径的所述第二子句向量。
根据另一些实施例,所述第一句向量还可包括第三子句向量,所述第二句向量还可包括第四子句向量。其中,将所述每一个历史搜索询问相应的整个文本转换为第一句向量和将所述物料标签树的每一个物料标签树路径转换为第二句向量可以包括:将所述每一个历史搜索询问相应的所述整个文本输入句向量模型,获取所述句向量模型输出的与所述整个文本相应的所述第三子句向量;以及将所述每一个物料标签树路径输入句向量模型,获取所述句向量模型输出的与所述每一个物料标签树路径相应的所述第四子句向量,其中,所述至少一个第二匹配物料标签还包括与K2个所述第四子句向量相应的第二子匹配物料标签。在所述多个四子句向量中,所述K2个第四子句向量与所述第三子句向量的语义相似度最高,K2为正整数。
所述句向量模型例如可以为ERNIE预训练模型。
需要说明的是,可以仅利用词向量模型来获取所述至少一部分历史搜索询问中的每一个历史搜索询问相应的第一子句向量和所述物料标签树的每一个物料标签树路径相应的第二子句向量;也可以仅利用句向量模型来获取所述至少一部分历史搜索询问中的每一个历史搜索询问相应的第三子句向量和所述物料标签树的每一个物料标签树路径相应的第四子句向量;也可以同时利用词向量模型和句向量模型来分别获取所述至少一部分历史搜索询问中的每一个历史搜索询问相应的第一子句向量和第三子句向量,以及所述物料标签树的每一个物料标签树路径相应的第二子句向量和第四子句向量。
根据一些实施例,所述构建方法还可以包括:利用所述物料标签树相应的多个第二句向量构建索引库。其中,确定与所述第一句向量语义相似度最高的至少一个第二句向量包括:使用近似最近邻检索方法在所述索引库中进行检索,得到与所述第一句向量语义相似度最高的至少一个第二句向量。从而能够快速确定与第一句向量语义相似度最高的至少一个第二句向量。在所述第二句向量包括上述第二子句向量和/或第四子句向量的情况下,上述确定与第一子句向量语义相似度最高的K1个第二子句向量,以及确定与第三子句向量语义相似度最高的K2个第四子句向量,都可以通过构建相应的索引库,并使用近似最近邻检索方法在所述索引库中进行检索来得到。
根据一些实施例,用户兴趣画像可以为至少根据至少一部分第一匹配物料标签及其匹配分数和至少一部分第二匹配物料标签及其匹配分数来构建。从而能够综合精确匹配算法和语义匹配算法来构建用户兴趣画像,提高用户兴趣画像构建的准确度。在同时利用词向量模型和句向量模型来分别获取所述至少一部分历史搜索询问中的每一个历史搜索询问相应的第一子句向量和第三子句向量,以及所述物料标签树的每一个物料标签树路径相应的第二子句向量和第四子句向量的情况下,所述第二匹配物料标签包括第一子匹配物料标签和第二子匹配物料标签。用户兴趣画像可以为至少根据至少一部分第一匹配物料标签及其匹配分数、至少一部分第一子匹配物料标签及其匹配分数和至少一部分第二子匹配物料标签及其匹配分数来构建。
根据一些实施例,构建用户兴趣画像之前还可以包括:根据所有第一匹配物料标签的匹配分数和所有第二匹配物料标签,以及相应的设定权重,确定所有第一匹配物料标签的权重分数和所有第二匹配物料标签的权重分数。从而能够考虑每个匹配算法对构建用户兴趣画像的影响程度,进一步提高用户兴趣画像构建的准确度。在这种情况下,用户兴趣画像可以为至少根据所述至少一部分第一匹配物料标签及其权重分数和所述至少一部分第二匹配物料标签及其权重分数来构建。在同时利用词向量模型和句向量模型来分别获取所述至少一部分历史搜索询问中的每一个历史搜索询问相应的第一子句向量和第三子句向量,以及所述物料标签树的每一个物料标签树路径相应的第二子句向量和第四子句向量的情况下,所述第二匹配物料标签包括第一子匹配物料标签和第二子匹配物料标签。用户兴趣画像可以为根据所述至少一部分第一匹配物料标签及其权重分数、至少一部分第一子匹配物料标签及其权重分数和至少一部分第二子匹配物料标签及其权重分数来构建。
在一个示例性实施例中,可以为所有第一匹配物料标签设定第一权重,为所有第一子匹配物料标签设定第二权重,为所有第二子匹配物料标签第三权重。可以但不限于将所有第一匹配物料标签的匹配分数乘以第一权重得到相应的权重分数,将所有第一子匹配物料标签的匹配分数乘以第二权重得到相应的权重分数,将所有第二子匹配物料标签的匹配分数乘以第三权重得到相应的权重分数。所述第二权重和第三权重可以相同,也可以不同。
每个匹配算法相应的权重可以根据实际的应用场景来设定,在此不作限定。
在构建用户兴趣画像时,可以将第一匹配物料标签、第一子匹配物料标签和第二子匹配物料标签中任意相同的两个或三个匹配物料标签的权重分数相加,进行合并。
根据一些实施例,构建用户兴趣画像之前还可以包括:确定所有第一匹配物料标签的权重分数和所有第二匹配物料标签的权重分数是否大于设定的阈值;响应于确定某一权重分数不大于设定的阈值,删除该权重分数相应的匹配物料标签。从而能够删除匹配程度较低的匹配物料标签,便于更准确得为用户推荐感兴趣的物料。
为了更深层地获取用户的兴趣标签,除了上述的匹配物料标签,还可以获取用户更进一步细化的兴趣标签。
根据一些实施例,如图3所示,所述的构建方法还可以包括:步骤S401、对所述至少一部分历史搜索询问中的每一个历史搜索询问进行分词,确定所述每一个历史搜索询问所包括的至少一个字符串;步骤S402、将所述至少一个字符串与关键词词典中的关键词进行匹配;以及步骤S403、基于匹配结果确定与所述至少一个字符串中的其中之一匹配的匹配关键词以及所述匹配关键词的匹配分数。在这种情况下,用户兴趣画像可以为根据与所述至少一部分历史搜索询问相应匹配的多个匹配物料标签及其匹配分数,以及至少一个所述匹配关键词及其匹配分数来构建,所述匹配关键词也为用户的兴趣标签。所述至少一个匹配关键词的匹配分数例如可以为1。
根据一些实施例,所述的构建方法还可以包括:根据所述至少一个匹配关键词的匹配分数和相应的设定权重,得到所述至少一个匹配关键词的权重分数。从而能够考虑匹配关键词对构建用户兴趣画像的影响程度,提高用户兴趣画像构建的准确度。
本公开是基于用户的历史搜索询问来挖掘该用户针对推荐系统的物料的兴趣标签。由于用户的兴趣可能会随着时间的变化而变化,即具有时效性。
基于此,根据一些实施例,所述构建方法还可以包括:确定所述至少一部分历史搜索询问中的每一个历史搜索询问相应的时间因子,所述时间因子与所述每一个历史搜索询问的时间戳与当前时间之间的时间间隔相关。在这种情况下,步骤S105、至少根据与所述至少一部分历史搜索询问相应匹配的多个匹配物料标签及其匹配分数,构建用户兴趣画像可以包括:根据所述多个匹配物料标签的匹配分数和相应的所述时间因子,得到所述多个匹配物料标签的时效匹配分数;至少根据与所述至少一部分历史搜索询问相应匹配的多个匹配物料标签及其时效匹配分数,构建用户兴趣画像。从而能够考虑到所述每一个历史搜索询问的时效性来构建用户兴趣画像,提高用户兴趣画像构建的准确度。在一个示例性实施例中,可以将所述多个匹配物料标签的匹配分数除以相应的时间因子,得到所述多个匹配物料标签的时效匹配分数。
根据一些实施例,可以在得到与所述至少一部分历史搜索询问相应匹配的多个匹配物料标签的权重分数之后,再根据所述多个匹配物料标签的权重分数和相应的所述时间因子,确定所述多个匹配物料标签的时效匹配分数,并利用时效匹配分数来构建用户兴趣画像。可以理解的是,也可以在与所述至少一部分历史搜索询问相应匹配的多个匹配物料标签的匹配分数之后,首先根据所述多个匹配物料标签的权重分数和相应的所述时间因子,得到所述多个匹配物料标签的时效匹配分数,然后再根据所述多个匹配物料标签的时效匹配分数和相应的设定权重,确定所述多个匹配物料标签的具有时效性的权重分数,并利用具有时效性的权重分数来构建用户兴趣画像。上述两种技术方案都能够实现同时考虑时效性和影响程度,提高构建用户兴趣画像的准确度。
根据一些实施例,确定所述至少一部分历史搜索询问中的每一个历史搜索询问相应的时间因子可以包括:对所述至少一部分历史搜索询问的时间戳与当前时间之间的时间间隔进行归一化,得到所述至少一部分搜索询问的归一化时间间隔T。从而能够克服所述至少一部分历史搜索询问的时间戳与当前时间之间的时间间隔的差异较大,会弱化时间间隔较大的历史搜索询问对构建用户兴趣画像的影响。在一个示例性实施例中,可以将所述至少一部分历史搜索询问的时间戳与当前时间之间的时间间隔,除以所述至少一部分历史搜索询问相应的时间间隔中的最大时间间隔,来进行归一化。
根据一些实施例,确定所述至少一部分历史搜索询问中的每一个历史搜索询问的时间因子还可以包括:确定所述每一个历史搜索询问的时间重力因子G,所述每一个历史搜索询问的时间重力因子G可以与该历史搜索询问的时间戳与当前时间之间的时间间隔呈反比(即该历史搜索询问的时间戳与当前时间之间的时间间隔越短,对用户兴趣的影响越大);根据所述每一个历史搜索询问的归一化时间间隔T和时间重力因子G,确定所述每一个历史搜索询问的时间因子,其中,0<G≤1。在一个示例性实施例中,可以但不限于将所述每一个历史搜索询问的时间因子确定为TG
根据一些实施例,步骤S105中至少根据与所述至少一部分历史搜索询问相应匹配的多个匹配物料标签及其时效匹配分数,构建用户兴趣画像可以包括:对所述多个匹配物料标签的多个时效匹配分数进行归一化,得到所述多个匹配物料标签的归一化分数;至少与根据所述至少一部分历史搜索询问相应匹配的多个匹配物料标签及其归一化分数,构建用户兴趣画像。在一个示例性实施例中,可以但不限于将与所述至少一部分历史搜索询问相应匹配的多个匹配物料标签的时效匹配分数,除以所述至少一部分历史搜索询问的数量,来进行归一化。
本公开的用户画像的构建方法可应用于采用推荐系统的任何类型的应用程序(例如,如流),从而能够根据构建的用户兴趣画像来更准确地为用户推荐感兴趣的物料。
根据本公开的另一方面,如图4所示,还提供一种用户画像的构建设备100,可以包括:第一获取单元101,被配置用于获取推荐系统的多个物料标签;第二获取单元102,被配置用于获取设定用户的至少一部分历史搜索询问;匹配单元103,被配置用于将所述至少一部分历史搜索询问中的每一个历史搜索询问和所述多个物料标签进行匹配;确定单元104,被配置用于基于所述匹配单元的匹配结果确定与所述历史搜索询问匹配的至少一个匹配物料标签以及所述至少一个匹配物料标签的匹配分数;以及构建单元105,被配置用于至少根据与所述至少一部分历史搜索询问相应匹配的多个匹配物料标签及其匹配分数,构建用户兴趣画像,其中,所述匹配物料标签为用户的兴趣标签,所述匹配分数能够表征用户对相应的兴趣标签感兴趣的程度。
这里,构建设备100的上述各单元101~105的操作分别与前面描述的步骤S101~S105的操作类似,在此不再赘述。
根据本公开的另一方面,还提供一种电子设备,可以包括:处理器;以及存储程序的存储器,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行根据上述的用户画像的构建方法。
根据本公开的另一方面,还提供一种存储程序的计算机可读存储介质,所述程序包括指令,所述指令在由电子设备的处理器执行时,致使所述电子设备执行根据上述的用户画像的构建方法。
参见图5所示,现将描述计算设备2000,其是可以应用于本公开的各方面的硬件设备(电子设备)的示例。计算设备2000可以是被配置为执行处理和/或计算的任何机器,可以是但不限于工作站、服务器、台式计算机、膝上型计算机、平板计算机、个人数字助理、机器人、智能电话、车载计算机或其任何组合。上述构建方法可以全部或至少部分地由计算设备2000或类似设备或系统实现。
计算设备2000可以包括(可能经由一个或多个接口)与总线2002连接或与总线2002通信的元件。例如,计算设备2000可以包括总线2002、一个或多个处理器2004、一个或多个输入设备2006以及一个或多个输出设备2008。一个或多个处理器2004可以是任何类型的处理器,并且可以包括但不限于一个或多个通用处理器和/或一个或多个专用处理器(例如特殊处理芯片)。输入设备2006可以是能向计算设备2000输入信息的任何类型的设备,并且可以包括但不限于鼠标、键盘、触摸屏、麦克风和/或遥控器。输出设备2008可以是能呈现信息的任何类型的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。计算设备2000还可以包括非暂时性存储设备2010或者与非暂时性存储设备2010连接,非暂时性存储设备可以是非暂时性的并且可以实现数据存储的任何存储设备,并且可以包括但不限于磁盘驱动器、光学存储设备、固态存储器、软盘、柔性盘、硬盘、磁带或任何其他磁介质,光盘或任何其他光学介质、ROM(只读存储器)、RAM(随机存取存储器)、高速缓冲存储器和/或任何其他存储器芯片或盒、和/或计算机可从其读取数据、指令和/或代码的任何其他介质。非暂时性存储设备2010可以从接口拆卸。非暂时性存储设备2010可以具有用于实现上述方法和步骤的数据/程序(包括指令)/代码。计算设备2000还可以包括通信设备2012。通信设备2012可以是使得能够与外部设备和/或与网络通信的任何类型的设备或系统,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信设备和/或芯片组,例如蓝牙TM设备、1302.11设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。
计算设备2000还可以包括工作存储器2014,其可以是可以存储对处理器2004的工作有用的程序(包括指令)和/或数据的任何类型的工作存储器,并且可以包括但不限于随机存取存储器和/或只读存储器设备。
软件要素(程序)可以位于工作存储器2014中,包括但不限于操作系统2016、一个或多个应用程序2018、驱动程序和/或其他数据和代码。用于执行上述方法和步骤的指令可以被包括在一个或多个应用程序2018中,并且上述构建方法可以通过由处理器2004读取和执行一个或多个应用程序2018的指令来实现。更具体地,上述构建方法中,步骤S101~步骤S102可以例如通过处理器2004执行具有步骤S101~步骤S102的指令的应用程序2018而实现。此外,上述用户画像的构建方法中的其它步骤可以例如通过处理器2004执行具有执行相应步骤中的指令的应用程序2018而实现。软件要素(程序)的指令的可执行代码或源代码可以存储在非暂时性计算机可读存储介质(例如上述存储设备2010)中,并且在执行时可以被存入工作存储器2014中(可能被编译和/或安装)。软件要素(程序)的指令的可执行代码或源代码也可以从远程位置下载。
还应该理解,可以根据具体要求而进行各种变型。例如,也可以使用定制硬件,和/或可以用硬件、软件、固件、中间件、微代码,硬件描述语言或其任何组合来实现特定元件。例如,所公开的方法和设备中的一些或全部可以通过使用根据本公开的逻辑和算法,用汇编语言或硬件编程语言(诸如VERILOG,VHDL,C++)对硬件(例如,包括现场可编程门阵列(FPGA)和/或可编程逻辑阵列(PLA)的可编程逻辑电路)进行编程来实现。
还应该理解,前述方法可以通过服务器-客户端模式来实现。例如,客户端可以接收用户输入的数据并将所述数据发送到服务器。客户端也可以接收用户输入的数据,进行前述方法中的一部分处理,并将处理所得到的数据发送到服务器。服务器可以接收来自客户端的数据,并且执行前述方法或前述方法中的另一部分,并将执行结果返回给客户端。客户端可以从服务器接收到方法的执行结果,并例如可以通过输出设备呈现给用户。
还应该理解,计算设备2000的组件可以分布在网络上。例如,可以使用一个处理器执行一些处理,而同时可以由远离该一个处理器的另一个处理器执行其他处理。计算系统2000的其他组件也可以类似地分布。这样,计算设备2000可以被解释为在多个位置执行处理的分布式计算系统。
虽然已经参照附图描述了本公开的实施例或示例,但应理解,上述的方法、系统和设备仅仅是示例性的实施例或示例,本发明的范围并不由这些实施例或示例限制,而是仅由授权后的权利要求书及其等同范围来限定。实施例或示例中的各种要素可以被省略或者可由其等同要素替代。此外,可以通过不同于本公开中描述的次序来执行各步骤。进一步地,可以以各种方式组合实施例或示例中的各种要素。重要的是随着技术的演进,在此描述的很多要素可以由本公开之后出现的等同要素进行替换。

Claims (20)

1.一种用户画像的构建方法,包括:
获取推荐系统的多个物料标签;
获取待构建画像的用户的至少一部分历史搜索询问;
将所述至少一部分历史搜索询问中的每一个历史搜索询问和所述多个物料标签进行匹配;
基于匹配结果确定与所述每一个历史搜索询问匹配的至少一个匹配物料标签以及所述至少一个匹配物料标签的匹配分数;以及
至少根据与所述至少一部分历史搜索询问相应匹配的多个匹配物料标签及其匹配分数,构建用户兴趣画像,其中,所述匹配物料标签为用户的兴趣标签,所述匹配分数能够表征用户对相应的兴趣标签感兴趣的程度。
2.如权利要求1所述的构建方法,还包括:
基于所述推荐系统的物料分类体系,利用所述多个物料标签来构建物料标签树,所述物料标签树的每一个节点为相应的所述物料标签,
其中,将所述至少一部分历史搜索询问中的每一个历史搜索询问和所述多个物料标签进行匹配包括:
将所述至少一部分历史搜索询问中的每一个历史搜索询问和所述物料标签树进行匹配。
3.如权利要求2所述的构建方法,其中,所述多个匹配物料标签包括至少一个第一匹配物料标签,
其中,将所述至少一部分历史搜索询问中的每一个历史搜索询问和所述物料标签树进行匹配包括:
将所述每一个历史搜索询问相应的整个文本与所述物料标签树的每一个节点进行匹配,
其中,与所述整个文本匹配的至少一个节点为所述第一匹配物料标签。
4.如权利要求3所述的构建方法,其中,所述多个匹配物料标签还包括至少一个第二匹配物料标签,
其中,将所述至少一部分历史搜索询问中的每一个历史搜索询问和所述物料标签树进行匹配还包括:
将所述每一个历史搜索询问相应的整个文本转换为第一句向量;
将所述物料标签树的每一个物料标签树路径转换为第二句向量,所述每一个物料标签树路径包括其中按顺序连接的所有节点;以及
确定与所述第一句向量语义相似度最高的至少一个第二句向量,
其中,针对所述至少一个第二句向量,每一个所述第二句向量相应的物料标签树路径的每一个节点为所述第二匹配物料标签,所述第二匹配物料标签的匹配分数为所在的物料标签树路径相应的语义相似度。
5.如权利要求4所述的构建方法,其中,所述第一句向量包括第一子句向量,所述第二句向量包括第二子句向量,
其中,将所述每一个历史搜索询问相应的整个文本转换为第一句向量和将所述物料标签树的每一个物料标签树路径转换为第二句向量包括:
将所述每一个历史搜索询问相应的所述整个文本中的每一个字符输入词向量模型,获取所述词向量模型输出的与所述整个文本中的每一个字符相应的词向量;
根据所述整个文本的所有字符相应的词向量,确定所述整个文本的所述第一子句向量;
将所述每一个物料标签树路径的每一个字符输入词向量模型,获取所述词向量模型输出的与所述每一个物料标签树路径的每一个字符相应的词向量;以及
根据所述每一个物料标签树路径的所有字符相应的词向量,确定所述每一个物料标签树路径的所述第二子句向量,
其中,所述至少一个第二匹配物料标签包括与K1个所述第二子句向量相应的第一子匹配物料标签,在所述多个第二子句向量中所述K1个第二子句向量与所述第一子句向量的语义相似度最高,其中,K1为正整数。
6.如权利要求4或5所述的构建方法,其中,所述第一句向量还包括第三子句向量,所述第二句向量还包括第四子句向量,
其中,将所述每一个历史搜索询问相应的整个文本转换为第一句向量和将所述物料标签树的每一个物料标签树路径转换为第二句向量包括:
将所述每一个历史搜索询问相应的所述整个文本输入句向量模型,获取所述句向量模型输出的与所述整个文本相应的所述第三子句向量;以及
将所述每一个物料标签树路径输入句向量模型,获取所述句向量模型输出的与所述每一个物料标签树路径相应的所述第四子句向量,
其中,所述至少一个第二匹配物料标签还包括与K2个所述第四子句向量相应的第二子匹配物料标签,在所述多个四子句向量中所述K2个第四子句向量与所述第三子句向量的语义相似度最高,其中,K2为正整数。
7.如权利要求4所述的构建方法,其中,用户兴趣画像为至少根据至少一部分第一匹配物料标签及其匹配分数和至少一部分第二匹配物料标签及其匹配分数来构建。
8.如权利要求7所述的构建方法,构建用户兴趣画像之前还包括:
根据所有第一匹配物料标签的匹配分数和所有第二匹配物料标签,以及相应的设定权重,确定所有第一匹配物料标签的权重分数和所有第二匹配物料标签的权重分数,
其中,用户兴趣画像为至少根据所述至少一部分第一匹配物料标签及其权重分数和所述至少一部分第二匹配物料标签及其权重分数来构建。
9.如权利要求8所述的构建方法,构建用户兴趣画像之前还包括:
确定所有第一匹配物料标签的权重分数和所有第二匹配物料标签的权重分数是否大于设定的阈值;
响应于确定某一权重分数不大于设定的阈值,删除该权重分数相应的匹配物料标签。
10.如权利要求4所述的构建方法,还包括:
利用所述物料标签树相应的多个第二句向量构建索引库,
其中,确定与所述第一句向量语义相似度最高的至少一个第二句向量包括:
使用近似最近邻检索方法在所述索引库中进行检索,得到与所述第一句向量语义相似度最高的至少一个第二句向量。
11.如权利要求1-10中任一项所述的构建方法,还包括:
对所述至少一部分历史搜索询问中的每一个历史搜索询问进行分词,确定所述每一个历史搜索询问所包括的至少一个字符串;
将所述至少一个字符串与关键词词典中的关键词进行匹配;以及
基于匹配结果确定与所述至少一个字符串中的其中之一匹配的匹配关键词以及所述匹配关键词的匹配分数,
其中,用户兴趣画像为根据与所述至少一部分历史搜索询问相应匹配的多个匹配物料标签及其匹配分数,以及至少一个所述匹配关键词及其匹配分数来构建,所述匹配关键词也为用户的兴趣标签。
12.如权利要求11所述的构建方法,还包括:
根据所述至少一个匹配关键词的匹配分数和相应的设定权重,得到所述至少一个匹配关键词的权重分数。
13.如权利要求1-10中任一项所述的构建方法,还包括:
确定所述至少一部分历史搜索询问中的每一个历史搜索询问相应的时间因子,所述时间因子与所述每一个历史搜索询问的时间戳与当前时间之间的时间间隔相关,
其中,至少根据与所述至少一部分历史搜索询问相应匹配的多个匹配物料标签及其匹配分数,构建用户兴趣画像包括:
根据所述多个匹配物料标签的匹配分数和相应的所述时间因子,得到所述多个匹配物料标签的时效匹配分数;
至少根据与所述至少一部分历史搜索询问相应匹配的多个匹配物料标签及其时效匹配分数,构建用户兴趣画像。
14.如权利要求13所述的构建方法,其中,确定所述至少一部分历史搜索询问中的每一个历史搜索询问相应的时间因子包括:
对所述至少一部分历史搜索询问的时间戳与当前时间之间的时间间隔进行归一化,得到所述至少一部分搜索询问的归一化时间间隔。
15.如权利要求14所述的构建方法,其中,确定所述至少一部分历史搜索询问中的每一个历史搜索询问的时间因子还包括:
确定所述每一个历史搜索询问的时间重力因子G,所述每一个历史搜索询问的时间重力因子G与该历史搜索询问的时间戳与当前时间之间的时间间隔呈反比;以及
根据所述每一个历史搜索询问的归一化时间间隔和时间重力因子G,确定所述每一个历史搜索询问的时间因子,其中,0<G≤1。
16.如权利要求13所述的构建方法,至少根据与所述至少一部分历史搜索询问相应的匹配多个匹配物料标签及其时效匹配分数,构建用户兴趣画像包括:
对所述多个匹配物料标签的多个时效匹配分数进行归一化,得到所述多个匹配物料标签的归一化分数;
至少根据与所述至少一部分历史搜索询问相应匹配的多个匹配物料标签及其归一化分数,构建用户兴趣画像。
17.如权利要求1-10中任一项所述的构建方法,其中,所述推荐系统来自第一应用程序,所述至少一部分历史搜索询问来自于与所述第一应用程序不同的第二应用程序。
18.一种用户画像的构建设备,包括:
第一获取单元,被配置用于获取推荐系统的多个物料标签;
第二获取单元,被配置用于获取设定用户的至少一部分历史搜索询问;
匹配单元,被配置用于将所述至少一部分历史搜索询问中的每一个历史搜索询问和所述多个物料标签进行匹配;
确定单元,被配置用于基于所述匹配单元的匹配结果确定与所述历史搜索询问匹配的至少一个匹配物料标签以及所述至少一个匹配物料标签的匹配分数;以及
构建单元,被配置用于至少根据与所述至少一部分历史搜索询问相应匹配的多个匹配物料标签及其匹配分数,构建用户兴趣画像,其中,所述匹配物料标签为用户的兴趣标签,所述匹配分数能够表征用户对相应的兴趣标签感兴趣的程度。
19.一种电子设备,包括:
处理器;以及
存储程序的存储器,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-17中任一项所述的构建方法。
20.一种存储程序的计算机可读存储介质,所述程序包括指令,所述指令在由电子设备的处理器执行时,致使所述电子设备执行根据权利要求1-17中任一项所述的构建方法。
CN202010577352.9A 2020-06-22 2020-06-22 用户画像构建方法及设备、电子设备和介质 Active CN111753199B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010577352.9A CN111753199B (zh) 2020-06-22 2020-06-22 用户画像构建方法及设备、电子设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010577352.9A CN111753199B (zh) 2020-06-22 2020-06-22 用户画像构建方法及设备、电子设备和介质

Publications (2)

Publication Number Publication Date
CN111753199A true CN111753199A (zh) 2020-10-09
CN111753199B CN111753199B (zh) 2024-05-10

Family

ID=72676434

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010577352.9A Active CN111753199B (zh) 2020-06-22 2020-06-22 用户画像构建方法及设备、电子设备和介质

Country Status (1)

Country Link
CN (1) CN111753199B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113569135A (zh) * 2021-06-30 2021-10-29 深圳市东信时代信息技术有限公司 基于用户画像的推荐方法、装置、计算机设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110173176A1 (en) * 2009-12-16 2011-07-14 International Business Machines Corporation Automatic Generation of an Interest Network and Tag Filter
CN103116588A (zh) * 2011-11-17 2013-05-22 腾讯科技(深圳)有限公司 一种个性化推荐方法及系统
CN109815381A (zh) * 2018-12-21 2019-05-28 平安科技(深圳)有限公司 用户画像构建方法、系统、计算机设备及存储介质
CN110245289A (zh) * 2019-05-20 2019-09-17 中国平安财产保险股份有限公司 一种信息搜索方法以及相关设备
CN110321474A (zh) * 2019-05-21 2019-10-11 北京奇艺世纪科技有限公司 基于搜索词的推荐方法、装置、终端设备及存储介质
CN110674410A (zh) * 2019-10-08 2020-01-10 北京物灵科技有限公司 用户画像构建、内容推荐方法、装置及设备
CN110765348A (zh) * 2019-09-17 2020-02-07 五八有限公司 一种热词的推荐方法、装置、电子设备及存储介质
CN111178950A (zh) * 2019-12-19 2020-05-19 车智互联(北京)科技有限公司 一种用户画像构建方法、装置及计算设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110173176A1 (en) * 2009-12-16 2011-07-14 International Business Machines Corporation Automatic Generation of an Interest Network and Tag Filter
CN103116588A (zh) * 2011-11-17 2013-05-22 腾讯科技(深圳)有限公司 一种个性化推荐方法及系统
CN109815381A (zh) * 2018-12-21 2019-05-28 平安科技(深圳)有限公司 用户画像构建方法、系统、计算机设备及存储介质
CN110245289A (zh) * 2019-05-20 2019-09-17 中国平安财产保险股份有限公司 一种信息搜索方法以及相关设备
CN110321474A (zh) * 2019-05-21 2019-10-11 北京奇艺世纪科技有限公司 基于搜索词的推荐方法、装置、终端设备及存储介质
CN110765348A (zh) * 2019-09-17 2020-02-07 五八有限公司 一种热词的推荐方法、装置、电子设备及存储介质
CN110674410A (zh) * 2019-10-08 2020-01-10 北京物灵科技有限公司 用户画像构建、内容推荐方法、装置及设备
CN111178950A (zh) * 2019-12-19 2020-05-19 车智互联(北京)科技有限公司 一种用户画像构建方法、装置及计算设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘勇;吴翔宇;解本巨;: "基于动态用户画像的信息推荐研究", 计算机系统应用, no. 06, 15 June 2018 (2018-06-15) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113569135A (zh) * 2021-06-30 2021-10-29 深圳市东信时代信息技术有限公司 基于用户画像的推荐方法、装置、计算机设备及存储介质
CN113569135B (zh) * 2021-06-30 2024-03-29 深圳市东信时代信息技术有限公司 基于用户画像的推荐方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN111753199B (zh) 2024-05-10

Similar Documents

Publication Publication Date Title
JP7201730B2 (ja) 意図推薦方法、装置、機器及び記憶媒体
US11645317B2 (en) Recommending topic clusters for unstructured text documents
CN111753060B (zh) 信息检索方法、装置、设备及计算机可读存储介质
US11720572B2 (en) Method and system for content recommendation
US10740545B2 (en) Information extraction from open-ended schema-less tables
US10146862B2 (en) Context-based metadata generation and automatic annotation of electronic media in a computer network
US11062086B2 (en) Personalized book-to-movie adaptation recommendation
US10956469B2 (en) System and method for metadata correlation using natural language processing
US11580119B2 (en) System and method for automatic persona generation using small text components
US20130060769A1 (en) System and method for identifying social media interactions
Mottaghinia et al. A review of approaches for topic detection in Twitter
CN112889043A (zh) 以用户为中心的浏览器位置
CN111557000B (zh) 针对媒体的准确性确定
CN112148702B (zh) 一种文件检索的方法及设备
WO2020003109A1 (en) Facet-based query refinement based on multiple query interpretations
US11556514B2 (en) Semantic data type classification in rectangular datasets
US20140379723A1 (en) Automatic method for profile database aggregation, deduplication, and analysis
US20090327877A1 (en) System and method for disambiguating text labeling content objects
Zahoor et al. Explainable artificial intelligence approach towards classifying educational android app reviews using deep learning
CN111753199B (zh) 用户画像构建方法及设备、电子设备和介质
US11615245B2 (en) Article topic alignment
CN111310016B (zh) 标签挖掘方法、装置、服务器和存储介质
US11373230B1 (en) Probabilistic determination of compatible content
Bochkaryov et al. The use of clustering algorithms ensemble with variable distance metrics in solving problems of web mining
Gu et al. Probability model of sensitive similarity measures in information retrieval

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant