CN111552851A - 类型确定方法及装置、设备和计算机可读存储介质 - Google Patents

类型确定方法及装置、设备和计算机可读存储介质 Download PDF

Info

Publication number
CN111552851A
CN111552851A CN202010330367.5A CN202010330367A CN111552851A CN 111552851 A CN111552851 A CN 111552851A CN 202010330367 A CN202010330367 A CN 202010330367A CN 111552851 A CN111552851 A CN 111552851A
Authority
CN
China
Prior art keywords
information
vector
keyword
main body
information pushing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010330367.5A
Other languages
English (en)
Inventor
董霖
杨玉春
段五福
叶新江
方毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Meiri Interdynamic Network Technology Co ltd
Original Assignee
Zhejiang Meiri Interdynamic Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Meiri Interdynamic Network Technology Co ltd filed Critical Zhejiang Meiri Interdynamic Network Technology Co ltd
Priority to CN202010330367.5A priority Critical patent/CN111552851A/zh
Publication of CN111552851A publication Critical patent/CN111552851A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/55Push-based network services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种类型确定方法及装置、设备和计算机可读存储介质,该方法包括:获取信息推送主体的关键词集合;通过词向量模型对关键词集合中的每个关键词进行向量化,得到每个关键词对应的第一向量;对所有第一向量进行聚类,得到若干个聚类类别;对于所述信息推送主体中的每个推送信息,基于所述若干个聚类类别,确定本推送信息对应的第二向量;基于信息推送主体中每个推送信息的第二向量,确定信息推送主体对应的第三向量;根据第三向量,确定信息推送主体的类型。通过本发明的技术方案,增加了用户获取信息的便利性,提升了用户体验。

Description

类型确定方法及装置、设备和计算机可读存储介质
【技术领域】
本发明涉及计算机技术领域,尤其涉及一种类型确定方法及装置、设备和计算机可读存储介质。
【背景技术】
随着计算机技术的发展,越来越多的信息推送方式步入了人们的生活。一般地,app可直接向外部推送消息,比如,app将实时消息推送在终端的通知栏中进行显示。在app内,其内部的消息推送方也可进行消息的推送,比如,app内的公众号可在app内推送文,供终端用户查看。
然而,随着app和app内部的公众号等一众消息推送主体的数量的暴增,终端每天甚至每小时都会接收到大量的推送内容。这些推送内容在终端中一般按照推送时间的先后进行排列,终端的用户在浏览时,需要在大量推送信息中人为查找和选取所关注的信息。这就造成用户获取所需信息的过程极冗长和繁琐,使得用户体验不佳。
因此,如何使用户便捷获取所关注的信息,成为目前亟待解决的技术问题。
【发明内容】
本发明实施例提供了一种类型确定方法及装置、设备和计算机可读存储介质,旨在解决相关技术中终端用户在大量推送信息中选取所需信息费时费力的技术问题。
第一方面,本发明实施例提供了一种类型确定方法,包括:获取信息推送主体的关键词集合,所述关键词集合包括所述信息推送主体中每个推送信息的关键词;通过词向量模型对所述关键词集合中的每个关键词进行向量化,得到所述每个关键词对应的第一向量;对所有所述第一向量进行聚类,得到若干个聚类类别;对于所述信息推送主体中的每个推送信息,基于所述若干个聚类类别,确定本推送信息对应的第二向量;基于所述信息推送主体中所述每个推送信息的第二向量,确定所述信息推送主体对应的第三向量;根据所述第三向量,确定所述信息推送主体的类型。
第二方面,本发明实施例提供了一种类型确定装置,包括:关键词获取单元,用于获取信息推送主体的关键词集合,所述关键词集合包括所述信息推送主体中每个推送信息的关键词;关键词向量化单元,用于通过词向量模型对所述关键词集合中的每个关键词进行向量化,得到所述每个关键词对应的第一向量;第一向量聚类单元,用于对所有所述第一向量进行聚类,得到若干个聚类类别;第二向量确定单元,用于对于所述信息推送主体中的每个推送信息,基于所述若干个聚类类别,确定本推送信息对应的第二向量;第三向量确定单元,用于基于所述信息推送主体中所述每个推送信息的第二向量,确定所述信息推送主体对应的第三向量;类型确定单元,用于根据所述第三向量,确定所述信息推送主体的类型。
第三方面,本发明实施例提供了一种设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被设置为用于执行上述第一方面中任一项所述的方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行上述第一方面中任一项所述的方法流程。
以上技术方案,针对相关技术中的终端用户在大量推送信息中选取所需信息费时费力的技术问题,可为信息推送主体进行分类,以便用户可选取自身所需信息所属的类别,从而直接查看该类别下的推送信息。
信息推送主体包括但不限于app、app中的插件、app中的小程序、app中的公众号和任何以公众号的方式存在的其他推送主体。对信息推送主体进行分类的依据是信息推送主体的关键词,具体地,信息推送主体的关键词指的是信息推送主体中每个推送信息的关键词。
信息推送主体的推送信息包括文本信息,文本信息由多个分词组成,而这多个分词中体现该推送信息的主要文义的分词,即为该推送信息的关键词。对于每条推送信息,可采用TF-IDF(term frequency–inverse document frequency,词频-逆文本频率指数)的方式选取其关键词。在TF-IDF方式下,可确定每条推送信息中各分词的词频,也就是各分词的出现频率。若推送信息的某个分词在该推送信息中出现频率大于第一指定频率,在其他推送信息中出现频率低于第二指定频率,则认定该分词具有类别区分能力,可作为该推送信息的关键词,用于后续分类过程。
进一步地,信息推送主体往往会具有多条推送信息。在选取关键词时,为后续的计算方便,可仅选取一条推送信息确定该推送信息的关键词集合。而为了保证信息推送主体分类的准确性,也可选择信息推送主体中的多条推送信息,确定多条推送信息的关键词,将这多条推送信息的关键词放置于同一关键词集合。
接着,可通过词向量模型对所述关键词集合中的每个关键词进行向量化,得到所述每个关键词对应的第一向量。
词向量模型可以为Word2vec模型,将关键词输入该Word2vec模型,则Word2vec模型会将其转化为向量进行输出。当然,词向量模型不限于Word2vec模型,还可以为任何具有向量转化功能的神经网络模型。
然后,可对所有所述第一向量进行聚类,也就是说,将每个第一向量进行聚类,确定其所属的聚类类别。最终,所有所述第一向量均被确定了所属的聚类类别。其中,可通过LDA(Latent Dirichlet Allocation)模型将任意多个第一向量进行组合,确定其对应的主题,直至遍历所有可能的第一向量的组合,得到多个主题。
在一种可能的设计中,可直接将这多个主题作为多个聚类类别,并将与第一向量的相关性最高的聚类类别确定为第一向量的聚类类别。
在另一种可能的设计中,也可对这多个主题进行筛选,根据每个主题对应的各关键词的词频确定该主题的出现频率。最终,将出现频率排名前指定位的主题作为聚类类别,或者,将出现频率大于指定频率的主题作为聚类类别。最终,将与第一向量的相关性最高的聚类类别确定为第一向量的聚类类别。当然,第一向量的聚类类别也就是转化得到第一向量的关键词的聚类类别。
接着,可根据推送信息中每个关键词的第一向量及其所属的聚类类别,确定该推送信息的向量。这样,推送信息的向量既体现了推送信息中每个关键词的影响,也体现了每个关键词的聚类类别的影响。换言之,推送信息的向量由推送信息的关键词及其聚类类别这两项因素同时决定。
然后,可基于推送信息的第二向量确定信息推送主体对应的第三向量。这样,信息推送主体对应的第三向量由信息推送主体的各个推送信息的关键词及其类类别决定。
最终,对信息推送主体对应的第三向量进行聚类。推送信息的关键词体现有各推送信息的文义,各推送信息中关键词的聚类类别体现有各推送信息中文义相关的类别。而此时的聚类结果,是基于信息推送主体中各推送信息的关键词及其聚类类别组成的向量聚类得到的。因此,可认定此时的聚类结果是按照信息推送主体中各推送信息整体涉及的文义进行分类得到的。换言之,此时的聚类结果体现有信息推送主体的各推送信息的文义分类,因此,可将其确定为信息推送主体的类型。
综上,以上技术方案,针对相关技术中用户获取所需推送信息的过程极冗长和繁琐的问题,对信息推送主体进行了分类,使用户可根据信息查看需求,直接选择所需信息所属的信息推送主体的类型,以查看该类型下的信息推送主体所推送的信息。由此,使用户无需冗长和繁琐的操作就能够便捷获取所关注的信息,增加了用户获取信息的便利性,提升了用户体验。
【附图说明】
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1示出了根据本发明的一个实施例的类别确定方法的流程图;
图2示出了根据本发明的另一个实施例的类别确定方法的流程图;
图3示出了根据本发明的一个实施例的类别确定装置的框图;
图4示出了根据本发明的一个实施例的设备的框图。
【具体实施方式】
为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
图1示出了根据本发明的一个实施例的类别确定方法的流程图。
如图1所示,根据本发明的一个实施例的类别确定方法的流程包括:
步骤102,获取信息推送主体的关键词集合,所述关键词集合包括所述信息推送主体中每个推送信息的关键词。
信息推送主体包括但不限于app、app中的插件、app中的小程序、app中的公众号和任何以公众号的方式存在的其他推送主体。对信息推送主体进行分类的依据是信息推送主体的关键词,具体地,信息推送主体的关键词指的是信息推送主体中每个推送信息的关键词。
信息推送主体的推送信息包括文本信息,比如,app推送的时政新闻是新闻标题和/或摘要组成的文本信息,再比如,公众号推送的文章和/或文章摘要也为文本信息。文本信息由多个分词组成,而这多个分词中体现该推送信息的主要文义的分词,即为该推送信息的关键词。对于每条推送信息,可采用TF-IDF(term frequency–inverse documentfrequency,词频-逆文本频率指数)的方式选取其关键词。在TF-IDF方式下,可确定每条推送信息中各分词的词频,也就是各分词的出现频率。若推送信息的某个分词在该推送信息中出现频率大于第一指定频率,在其他推送信息中出现频率低于第二指定频率,则认定该分词具有类别区分能力,可作为该推送信息的关键词,用于后续分类过程。
进一步地,信息推送主体往往会具有多条推送信息。在选取关键词时,为后续的计算方便,可仅选取一条推送信息确定该推送信息的关键词集合。而为了保证信息推送主体分类的准确性,也可选择信息推送主体中的多条推送信息,确定多条推送信息的关键词,将这多条推送信息的关键词放置于同一关键词集合。
步骤104,通过词向量模型对所述关键词集合中的每个关键词进行向量化,得到所述每个关键词对应的第一向量。
词向量模型可以为Word2vec模型,将关键词输入该Word2vec模型,则Word2vec模型会将其转化为向量进行输出。当然,词向量模型不限于Word2vec模型,还可以为任何具有向量转化功能的神经网络模型。
步骤106,对所有所述第一向量进行聚类,得到若干个聚类类别。
将每个第一向量进行聚类,确定其所属的聚类类别。最终,所有所述第一向量均被确定了所属的聚类类别。其中,可通过LDA(Latent Dirichlet Allocation)模型将任意多个第一向量进行组合,确定其对应的主题,直至遍历所有可能的第一向量的组合,得到多个主题。
在一种可能的设计中,可直接将这多个主题作为多个聚类类别,并将与第一向量的相关性最高的聚类类别确定为第一向量的聚类类别。
在另一种可能的设计中,也可对这多个主题进行筛选,根据每个主题对应的各关键词的词频确定该主题的出现频率。最终,将出现频率排名前指定位的主题作为聚类类别,或者,将出现频率大于指定频率的主题作为聚类类别。最终,将与第一向量的相关性最高的聚类类别确定为第一向量的聚类类别。当然,第一向量的聚类类别也就是转化得到第一向量的关键词的聚类类别。
步骤108,对于所述信息推送主体中的每个推送信息,基于所述若干个聚类类别,确定本推送信息对应的第二向量。
这样,推送信息的向量既体现了推送信息中每个关键词的影响,也体现了每个关键词的聚类类别的影响。换言之,推送信息的向量由推送信息的关键词及其聚类类别这两项因素同时决定。
步骤110,基于所述信息推送主体中所述每个推送信息的第二向量,确定所述信息推送主体对应的第三向量。
然后,可基于推送信息的第二向量确定信息推送主体对应的第三向量。这样,信息推送主体对应的第三向量由信息推送主体的各个推送信息的关键词及其类类别决定。
步骤112,根据所述第三向量,确定所述信息推送主体的类型。
最终,对信息推送主体对应的第三向量进行聚类。推送信息的关键词体现有各推送信息的文义,各推送信息中关键词的聚类类别体现有各推送信息中文义相关的类别。而此时的聚类结果,是基于信息推送主体中各推送信息的关键词及其聚类类别组成的向量聚类得到的。因此,可认定此时的聚类结果是按照信息推送主体中各推送信息整体涉及的文义进行分类得到的。换言之,此时的聚类结果体现有信息推送主体的各推送信息的文义分类,因此,可将其确定为信息推送主体的类型。
综上,以上技术方案,针对相关技术中用户获取所需推送信息的过程极冗长和繁琐的问题,对信息推送主体进行了分类,使用户可根据信息查看需求,直接选择所需信息所属的信息推送主体的类型,以查看该类型下的信息推送主体所推送的信息。由此,使用户无需冗长和繁琐的操作就能够便捷获取所关注的信息,增加了用户获取信息的便利性,提升了用户体验。
在图1实施例的基础上,图2示出了根据本发明的另一个实施例的类别确定方法的流程图。
如图2所示,根据本发明的另一个实施例的类别确定方法,包括:
步骤202,获取信息推送主体的关键词集合,所述关键词集合包括所述信息推送主体中每个推送信息的关键词。
步骤204,通过词向量模型对所述关键词集合中的每个关键词进行向量化,得到所述每个关键词对应的第一向量。
步骤206,对所有所述第一向量进行聚类,得到若干个聚类类别。
对每个第一向量进行聚类,得到其所属的聚类类别。则对于最终得到的若干个聚类类别来说,每个聚类类别中具有一个或多个第一向量,换言之,每个聚类类别对应一个或多个关键词。
步骤208,获取所述关键词集合中的每个关键词的权重。
客户端中或者与客户端交互的服务端中设置有关键词-权重数据库,每个关键词与自身的权重对应存储。因此,对于关键词集合中的每个关键词,可在关键词-权重数据库中查找其对应的权重。
步骤210,对于每个所述聚类类别,确定所述推送信息在所述聚类类别下的所有关键词的权重和。
步骤212,将每个所述聚类类别作为一个向量维度,将每个所述聚类类别对应的所述权重和作为所述向量维度下的向量值,得到第二向量。
对于全部推送信息的全部关键词来说,若干聚类类别中,每个聚类类别对应一个或多个关键词。由此,对于单个推送信息来说,其具有的多个关键词分布在这若干个聚类类别中。可以知晓,有些聚类类别中分布的该推送信息的关键词的数量可能为0,有些聚类类别中分布的该推送信息的关键词的数量可能为一个或多个。
比如,对所有所述第一向量进行聚类,得到N个聚类类别,分别为第一聚类类别、第二聚类类别、……、第N聚类类别。其中,对于推送信息s,其具有六个关键词a-f,关键词a、关键词b、关键词c、关键词d、关键词e、关键词f的权重分别为0.6、0.5、0.8、0.2、0.1、0.7。关键词a、关键词b、关键词c属于第一聚类类别,关键词d属于第三聚类类别,关键词e、关键词f属于第N聚类类别。
对于确定所述推送信息在聚类类别下的所有关键词的权重和,则第一聚类类别中关键词a、关键词b、关键词c的权重和为1.9,第三聚类类别中关键词d的权重和为0.2,第N聚类类别中关键词e、关键词f的权重和为0.8,其他未分布有关键词的聚类类别中关键词权重和均为0。
由于具有N个聚类类别,则可将每个所述聚类类别作为一个向量维度,得到N个向量维度。接着,将每个所述聚类类别对应的所述权重和作为所述向量维度下的向量值,得到推送信息对应的第二向量为[1.9,0,0.2,……,0.8]。
步骤214,将所述信息推送主体中全部所述第二向量的平均值确定为所述信息推送主体对应的第三向量。
判断信息推送主体的类型时可在信息推送主体中选择一个或多个推送信息,对应得到一个或多个第二向量。对于多个第二向量的情况,各推送信息的内容不同,文义就具有差异,为尽可能准确表现信息推送主体的整体内容,可将多个第二向量的平均值作为信息推送主体对应的第三向量。
步骤216,根据所述第三向量,确定所述信息推送主体的类型。
在一种可能的设计中,可通过预训练的信息推送主体分类模型确定所述信息推送主体的类型,其中,所述信息推送主体分类模型的输入为所述信息推送主体的所述第三向量,所述信息推送主体分类模型的输出为所述信息推送主体的类型。
也就是说,可通过大量的历史信息推送主体的历史第三向量与历史信息推送主体的历史类型作为训练样本,训练一个能够体现信息推送主体的第三向量与信息推送主体的类型的关联关系的模型。这样,在计算得到第三向量后,直接将第三向量输入该模型,即可得到相应的信息推送主体的类型。
其中,预训练信息推送主体分类模型的步骤具体包括:获取所述信息推送主体分类模型的训练样本集合,所述训练样本集合中的每个训练样本包括历史信息推送主体的历史第三向量和所述历史信息推送主体的历史类型;初始化初始信息推送主体分类模型的模型参数;将所述每个训练样本的所述历史第三向量输入所述初始信息推送主体分类模型,得到所述每个训练样本对应的预测类型;基于所述每个训练样本的所述预测类型和所述历史类型的差异,对所述初始信息推送主体分类模型的模型参数进行调整,得到所述信息推送主体分类模型。
在另一种可能的设计中,对所述信息推送主体的所述第三向量进行聚类,得到所述第三向量的聚类类型;将所述第三向量的聚类类型确定为所述信息推送主体的类型。
对第三向量再进行一次聚类,将所述第三向量的聚类类型确定为所述信息推送主体的类型。在上下文中,聚类的方式包括但不限于K均值算法聚类、学习向量化聚类、高斯混合聚类、密度聚类、层次聚类、性能度量聚类等方式。
图3示出了根据本发明的一个实施例的类别确定装置的框图。
如图3所示,本发明的一个实施例的类别确定装置300包括:关键词获取单元302,用于获取信息推送主体的关键词集合,所述关键词集合包括所述信息推送主体中每个推送信息的关键词;关键词向量化单元304,用于通过词向量模型对所述关键词集合中的每个关键词进行向量化,得到所述每个关键词对应的第一向量;第一向量聚类单元306,用于对所有所述第一向量进行聚类,得到若干个聚类类别;第二向量确定单元308,用于对于所述信息推送主体中的每个推送信息,基于所述若干个聚类类别,确定本推送信息对应的第二向量;第三向量确定单元310,用于基于所述信息推送主体中所述每个推送信息的第二向量,确定所述信息推送主体对应的第三向量;类型确定单元312,用于根据所述第三向量,确定所述信息推送主体的类型。
在一种可能的设计中,还包括:权重获取单元,用于在所述关键词获取单元获取所述关键词集合之后,获取所述关键词集合中的每个关键词的权重;则所述第二向量确定单元用于:对于每个所述聚类类别,确定所述推送信息在所述聚类类别下的所有关键词的权重和;将每个所述聚类类别作为一个向量维度,将每个所述聚类类别对应的所述权重和作为所述向量维度下的向量值,得到所述第二向量。
在一种可能的设计中,所述第三向量确定单元用于:将所述信息推送主体中全部所述第二向量的平均值确定为所述信息推送主体对应的第三向量。
在一种可能的设计中,所述类型确定单元用于:通过预训练的信息推送主体分类模型确定所述信息推送主体的类型,其中,所述信息推送主体分类模型的输入为所述信息推送主体的所述第三向量,所述信息推送主体分类模型的输出为所述信息推送主体的类型。
在一种可能的设计中,还包括:模型训练单元,用于在所述类型确定单元确定所述信息推送主体的类型的步骤之前,获取所述信息推送主体分类模型的训练样本集合,所述训练样本集合中的每个训练样本包括历史信息推送主体的历史第三向量和所述历史信息推送主体的历史类型;初始化初始信息推送主体分类模型的模型参数;将所述每个训练样本的所述历史第三向量输入所述初始信息推送主体分类模型,得到所述每个训练样本对应的预测类型;基于所述每个训练样本的所述预测类型和所述历史类型的差异,对所述初始信息推送主体分类模型的模型参数进行调整,得到所述信息推送主体分类模型。
在一种可能的设计中,所述类型确定单元用于:对所述信息推送主体的所述第三向量进行聚类,得到所述第三向量的聚类类型;将所述第三向量的聚类类型确定为所述信息推送主体的类型。
该类别确定装置300使用图1和图2示出的实施例中任一项所述的方案,因此,具有上述所有技术效果,在此不再赘述。
图4示出了本发明的一个实施例的设备的框图。
如图4所示,本发明的一个实施例的设备400,包括至少一个存储器402;以及,与所述至少一个存储器402通信连接的处理器404;其中,所述存储器存储有可被所述至少一个处理器404执行的指令,所述指令被设置为用于执行上述图1和图2实施例中任一项所述的方案。因此,该设备400具有和图1和图2实施例中任一项相同的技术效果,在此不再赘述。
本发明实施例的设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子装置。
另外,本发明实施例提供了一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行上述图1和图2实施例中任一项所述的方法流程。
以上结合附图详细说明了本发明的技术方案,通过本发明的技术方案,针对相关技术中用户获取所需推送信息的过程极冗长和繁琐的问题,对信息推送主体进行了分类,使用户可根据信息查看需求,直接选择所需信息所属的信息推送主体的类型,以查看该类型下的信息推送主体所推送的信息。由此,使用户无需冗长和繁琐的操作就能够便捷获取所关注的信息,增加了用户获取信息的便利性,提升了用户体验。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
应当理解,尽管在本发明实施例中可能采用术语第一、第二等来描述XXX,但这些XXX不应限于这些术语。这些术语仅用来将XXX彼此区分开。例如,在不脱离本发明实施例范围的情况下,第一XXX也可以被称为第二XXX,类似地,第二XXX也可以被称为第一XXX。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)或处理器(Processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (10)

1.一种类型确定方法,其特征在于,包括:
获取信息推送主体的关键词集合,所述关键词集合包括所述信息推送主体中每个推送信息的关键词;
通过词向量模型对所述关键词集合中的每个关键词进行向量化,得到所述每个关键词对应的第一向量;
对所有所述第一向量进行聚类,得到若干个聚类类别;
对于所述信息推送主体中的每个推送信息,基于所述若干个聚类类别,确定本推送信息对应的第二向量;
基于所述信息推送主体中所述每个推送信息的第二向量,确定所述信息推送主体对应的第三向量;
根据所述第三向量,确定所述信息推送主体的类型。
2.根据权利要求1所述的类型确定方法,其特征在于,在所述获取信息推送主体的关键词集合的步骤之后,还包括:
获取所述关键词集合中的每个关键词的权重;
则所述基于所述若干个聚类类别,确定本推送信息对应的第二向量的步骤,包括:
对于每个所述聚类类别,确定所述推送信息在所述聚类类别下的所有关键词的权重和;
将每个所述聚类类别作为一个向量维度,将每个所述聚类类别对应的所述权重和作为所述向量维度下的向量值,得到所述第二向量。
3.根据权利要求1所述的类型确定方法,其特征在于,所述基于所述信息推送主体中所述每个推送信息的第二向量,确定所述信息推送主体对应的第三向量的步骤,包括:
将所述信息推送主体中全部所述第二向量的平均值确定为所述信息推送主体对应的第三向量。
4.根据权利要求1至3中任一项所述的类型确定方法,其特征在于,所述根据所述第三向量,确定所述信息推送主体的类型的步骤,包括:
通过预训练的信息推送主体分类模型确定所述信息推送主体的类型,
其中,所述信息推送主体分类模型的输入为所述信息推送主体的所述第三向量,所述信息推送主体分类模型的输出为所述信息推送主体的类型。
5.根据权利要求4所述的类型确定方法,其特征在于,在所述根据所述第三向量,确定所述信息推送主体的类型的步骤之前,还包括:
获取所述信息推送主体分类模型的训练样本集合,所述训练样本集合中的每个训练样本包括历史信息推送主体的历史第三向量和所述历史信息推送主体的历史类型;
初始化初始信息推送主体分类模型的模型参数;
将所述每个训练样本的所述历史第三向量输入所述初始信息推送主体分类模型,得到所述每个训练样本对应的预测类型;
基于所述每个训练样本的所述预测类型和所述历史类型的差异,对所述初始信息推送主体分类模型的模型参数进行调整,得到所述信息推送主体分类模型。
6.根据权利要求1至3中任一项所述的类型确定方法,其特征在于,所述根据所述第三向量,确定所述信息推送主体的类型的步骤,包括:
对所述信息推送主体的所述第三向量进行聚类,得到所述第三向量的聚类类型;
将所述第三向量的聚类类型确定为所述信息推送主体的类型。
7.一种类型确定装置,其特征在于,包括:
关键词获取单元,用于获取信息推送主体的关键词集合,所述关键词集合包括所述信息推送主体中每个推送信息的关键词;
关键词向量化单元,用于通过词向量模型对所述关键词集合中的每个关键词进行向量化,得到所述每个关键词对应的第一向量;
第一向量聚类单元,用于对所有所述第一向量进行聚类,得到若干个聚类类别;
第二向量确定单元,用于对于所述信息推送主体中的每个推送信息,基于所述若干个聚类类别,确定本推送信息对应的第二向量;
第三向量确定单元,用于基于所述信息推送主体中所述每个推送信息的第二向量,确定所述信息推送主体对应的第三向量;
类型确定单元,用于根据所述第三向量,确定所述信息推送主体的类型。
8.根据权利要求7所述的类型确定装置,其特征在于,还包括:
关键词权重获取单元,用于在所述获取信息推送主体的关键词集合的步骤之后,获取所述关键词集合中的每个关键词的权重;
则所述第二向量确定单元用于:
对于每个所述聚类类别,确定所述推送信息在所述聚类类别下的所有关键词的权重和;将每个所述聚类类别作为一个向量维度,将每个所述聚类类别对应的所述权重和作为所述向量维度下的向量值,得到所述第二向量。
9.一种设备,其特征在于,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被设置为用于执行上述权利要求1至6中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,存储有计算机可执行指令,所述计算机可执行指令用于执行如权利要求1至6中任一项所述的方法流程。
CN202010330367.5A 2020-04-24 2020-04-24 类型确定方法及装置、设备和计算机可读存储介质 Pending CN111552851A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010330367.5A CN111552851A (zh) 2020-04-24 2020-04-24 类型确定方法及装置、设备和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010330367.5A CN111552851A (zh) 2020-04-24 2020-04-24 类型确定方法及装置、设备和计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN111552851A true CN111552851A (zh) 2020-08-18

Family

ID=72000259

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010330367.5A Pending CN111552851A (zh) 2020-04-24 2020-04-24 类型确定方法及装置、设备和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN111552851A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9798820B1 (en) * 2016-10-28 2017-10-24 Searchmetrics Gmbh Classification of keywords
CN107665221A (zh) * 2016-07-29 2018-02-06 北京国双科技有限公司 关键词的分类方法和装置
CN107943895A (zh) * 2017-11-16 2018-04-20 百度在线网络技术(北京)有限公司 信息推送方法和装置
CN110399483A (zh) * 2019-06-12 2019-11-01 五八有限公司 一种主题分类方法、装置、电子设备及可读存储介质
CN110490750A (zh) * 2019-07-23 2019-11-22 平安科技(深圳)有限公司 数据识别的方法、系统、电子设备及计算机存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107665221A (zh) * 2016-07-29 2018-02-06 北京国双科技有限公司 关键词的分类方法和装置
US9798820B1 (en) * 2016-10-28 2017-10-24 Searchmetrics Gmbh Classification of keywords
CN107943895A (zh) * 2017-11-16 2018-04-20 百度在线网络技术(北京)有限公司 信息推送方法和装置
CN110399483A (zh) * 2019-06-12 2019-11-01 五八有限公司 一种主题分类方法、装置、电子设备及可读存储介质
CN110490750A (zh) * 2019-07-23 2019-11-22 平安科技(深圳)有限公司 数据识别的方法、系统、电子设备及计算机存储介质

Similar Documents

Publication Publication Date Title
CN106897428B (zh) 文本分类特征提取方法、文本分类方法及装置
CN108536852B (zh) 问答交互方法和装置、计算机设备及计算机可读存储介质
CN108319630B (zh) 信息处理方法、装置、存储介质和计算机设备
CN109815314B (zh) 一种意图识别方法、识别设备及计算机可读存储介质
CN111061874B (zh) 敏感信息检测方法和装置
KR100775585B1 (ko) 문자 메시지에 대한 음악 추천 방법 및 그 시스템
CN105787025B (zh) 网络平台公共账号分类方法及装置
CN110795542B (zh) 对话方法及相关装置、设备
CN111444326A (zh) 一种文本数据处理方法、装置、设备以及存储介质
CN109933782B (zh) 用户情绪预测方法和装置
CN110083774B (zh) 应用推荐列表的确定方法、装置、计算机设备及存储介质
CN113934941A (zh) 一种基于多维度信息的用户推荐系统及方法
CN108287848B (zh) 用于语义解析的方法和系统
CN114706945A (zh) 意图识别方法、装置、电子设备及存储介质
CN111611358A (zh) 信息交互方法、装置、电子设备及存储介质
CN112532507B (zh) 用于呈现表情图像、用于发送表情图像的方法和设备
CN111538830A (zh) 法条检索方法、装置、计算机设备及存储介质
CN113656699B (zh) 用户特征向量确定方法、相关设备及介质
CN111354013A (zh) 目标检测方法及装置、设备和存储介质
CN111552850A (zh) 类型确定方法及装置、电子设备和计算机可读存储介质
CN111552851A (zh) 类型确定方法及装置、设备和计算机可读存储介质
CN115470329A (zh) 一种对话生成方法、装置、计算机设备及存储介质
CN114153954A (zh) 测试用例推荐方法、装置、电子设备及存储介质
CN113505293A (zh) 信息推送方法、装置、电子设备及存储介质
CN113704623A (zh) 一种数据推荐方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination