CN112989187A - 创作素材的推荐方法、装置、计算机设备及存储介质 - Google Patents

创作素材的推荐方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN112989187A
CN112989187A CN202110223938.XA CN202110223938A CN112989187A CN 112989187 A CN112989187 A CN 112989187A CN 202110223938 A CN202110223938 A CN 202110223938A CN 112989187 A CN112989187 A CN 112989187A
Authority
CN
China
Prior art keywords
authoring
vector
attribute
sample
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110223938.XA
Other languages
English (en)
Other versions
CN112989187B (zh
Inventor
杨德杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202110223938.XA priority Critical patent/CN112989187B/zh
Publication of CN112989187A publication Critical patent/CN112989187A/zh
Application granted granted Critical
Publication of CN112989187B publication Critical patent/CN112989187B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2132Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on discrimination criteria, e.g. discriminant analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种创作素材的推荐方法,应用于人工智能技术领域,用于解决仅通过相关的关键词查找的素材内容匹配准确性低的技术问题。本发明提供的方法包括:根据预设的属性特征,从创作者的自身属性信息中抽取对应的属性特征;对抽取的该属性特征进行量化处理,得到创作者属性特征向量;从存储器中获取与创作主题对应的已存储的素材信息;将该素材信息输入至词向量模型,得到素材特征向量;将该创作者属性特征向量与该素材特征向量进行横向拼接,得到拼接向量;将资源库中的创作素材和该拼接向量输入至预先训练好的深度神经网络,得到与该拼接向量匹配程度最高的前若干个创作素材;将得到的该前若干个创作素材推荐给该创作者。

Description

创作素材的推荐方法、装置、计算机设备及存储介质
技术领域
本发明涉及人工智能技术领域,尤其涉及一种创作素材的推荐方法、装置、计算机设备及存储介质。
背景技术
UGC(user generated content)用户生成内容是大数据时代内容生产体系中的重要一环,在互联网自媒体时代,UGC已经成为不可或缺的重要内容来源。在教育培训场景中,UGC也是代理人课程的重要生产方式之一,对增加课程供给、提升培训效果有积极作用。UGC课程创作需要代理人根据选题自发的创作,创作者面临的直接问题是如何获取到选题相关的素材,特别是当创作者创作到中途,往往会因为思路中断、缺少参考内容导致无法继续进行创作。
目前,已有不少内部或外部工具帮助创作者搜索关键词查询相关素材内容,现有的素材查询方法是通过用户输入的关键词或根据创作主题智能选取的关键词,通过该关键词从素材库中匹配一些素材,对匹配到的素材通过与该关键词的相关性进行排序,将排在前若干位的素材推荐给用户。
目前这种素材推荐的方法面临的问题是只通过相关的关键词查找的内容匹配准确度不高,且反馈结果比较宽泛,不能针对创作者的自身属性、创作的特殊场景进行定制化精准素材匹配。
发明内容
本发明实施例提供一种创作素材的推荐方法、装置、计算机设备及存储介质,以解决仅通过相关的关键词查找的素材内容匹配准确性低的技术问题。
一种创作素材的推荐方法,该方法包括:
根据预设的属性特征,从创作者的自身属性信息中抽取对应的属性特征;
对抽取的该属性特征进行量化处理,得到创作者属性特征向量;
从存储器中获取与创作主题对应的已存储的素材信息;
将该素材信息输入至词向量模型,得到素材特征向量;
将该创作者属性特征向量与该素材特征向量进行横向拼接,得到拼接向量;
将资源库中的创作素材和该拼接向量输入至预先训练好的深度神经网络,得到与该拼接向量匹配程度最高的前若干个创作素材;
将得到的该前若干个创作素材推荐给该创作者。
一种创作素材的推荐装置,该装置包括:
属性特征抽取模块,用于根据预设的属性特征,从创作者的自身属性信息中抽取对应的属性特征;
属性特征量化模块,用于对抽取的该属性特征进行量化处理,得到创作者属性特征向量;
素材信息获取模块,用于从存储器中获取与创作主题对应的已存储的素材信息;
素材信息输入模块,用于将该素材信息输入至词向量模型,得到素材特征向量;
拼接模块,用于将该创作者属性特征向量与该素材特征向量进行横向拼接,得到拼接向量;
素材匹配模块,用于将资源库中的创作素材和该拼接向量输入至预先训练好的深度神经网络,得到与该拼接向量匹配程度最高的前若干个创作素材;
素材推荐模块,用于将得到的该前若干个创作素材推荐给该创作者。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述创作素材的推荐方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述创作素材的推荐方法的步骤。
本申请提出的创作素材的推荐方法、装置、计算机设备及存储介质,通过将创作者的属性特征进行量化处理,得到创作者属性特征向量,再通过词向量模型将与创作主题对应的已存储的素材信息转换为素材特征向量,然后将该创作者属性特征向量与该素材特征向量进行拼接,得到拼接向量,再将资源库中的创作素材和所述拼接向量输入至预先训练好的深度神经网络,得到与所述拼接向量匹配程度最高的前若干个创作素材,最后将得到的所述前若干个创作素材推荐给所述创作者。本实施例中的创作素材的推荐方法不需要用户输入关键词,而是根据结合了创作者的属性特征和与创作主题对应的已存储的素材信息的拼接向量,并通过深度神经网络从该资源库中智能获取与所述拼接向量匹配程度最高的前若干个创作素材推荐给用户,创作素材的获取方法更加高效,获取的创作素材与该创作者自身的特点以及创作主题密切相关,使得推荐给创作者的创作素材更具有针对性,对于该创作者于本次创作的贡献度越大。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中创作素材的推荐方法的一应用环境示意图;
图2是本发明一实施例中创作素材的推荐方法的一流程图;
图3是本发明一实施例图2中步骤S102的具体实现流程图;
图4是本发明一实施例中创作素材的推荐装置的结构示意图;
图5是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请提供的创作素材的推荐方法,可应用在如图1的计算机设备中,其中,该计算机设备可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。
在一实施例中,为了结合创作者的自身特点以及创作场景对创作者需要的素材进行精准匹配,提高素材匹配和素材推荐的准确性,如图2所示,本实施例提供一种创作素材的推荐方法,以该方法应用在图1中的计算机设备为例进行说明,包括如下步骤S101至S107。
S101、根据预设的属性特征,从创作者的自身属性信息中抽取对应的属性特征。
在其中一个实施例中,所述预设的属性特征包括但不限于所述创作者创作次数、创作类别和/或创作反馈。所述创作者的自身属性信息包括但不限于所述创作者的年龄、性别、创作次数、创作类别、创作反馈、创作频率、从业时间、兴趣偏好、资产水平等等。
可以理解的是,该创作者的自身属性信息可以通过用户输入的方式保存在存储器中,也可以从该创作者注册的网页资料中提取。
S102、对抽取的所述属性特征进行量化处理,得到创作者属性特征向量。
可以理解的是,对抽取的所述属性特征进行量化处理是将创作者的属性特征转换为向量的一种方式,以便于后续与该素材特征向量进行拼接。
在其中一个实施例中,所述预设的属性特征包括所述创作者的创作次数、创作类别和创作反馈,图3是本发明一实施例图2中步骤S102的具体实现流程图,如图3所示,所述对抽取的所述属性特征进行量化处理,得到创作者属性特征向量的步骤包括以下步骤S301至S304:
S301、将所述创作次数转换为二进制数;
S302、获取与所述创作类别相对应的预先设定的类别01编码;
S303、获取与所述创作反馈相对应的预先设定的反馈01编码;
S304、将所述二进制数、所述类别01编码和所述反馈01编码进行拼接,得到所述创作者属性特征向量。
可以理解的是,该创作类别与该预先设定的类别01编码具有预先设定的映射关系,该创作反馈与该预先设定的类别01编码也具有预先设定的映射关系,其中,可以将该二进制数、该类别01编码和该反馈01编码进行横向拼接得到该创作者属性特征向量。其中,拼接得到该创作者属性特征向量可以用vec1表示。
S103、从存储器中获取与创作主题对应的已存储的素材信息。
在其中一个实施例中,所述素材信息包括与所述创作主题对应存储的素材内容,在其他实施例中,所述素材信息还包括日志中存储的该创作者最近点击的若干个素材的编号ID。
可以理解的是,当所述素材信息包括与所述创作主题对应存储的素材内容时,判断存储器中存储的相关素材信息是否属于同一创作主题的方式例如,可以从与所述创作主题对应的文件夹或者存储路径中获取相关的素材内容。
在另一实施例中,当该素材信息包括日志中存储的该创作者最近点击的若干个素材的编号ID时,可以从该素材的编号ID所属的类别与该创作主题是否为同一类别来判断日志中素材的编号ID是否与该创作主题相对应。
S104、将所述素材信息输入至词向量模型,得到素材特征向量。
在其中一个实施例中,所述词向量模型为word2vec,所述素材信息包括与所述创作主题对应存储的素材内容。
进一步地,所述将所述素材信息输入至词向量模型,得到素材特征向量的步骤具体包括:
通过LDA(Latent Dirichlet Allocation)文档主题生成模型对所述素材内容的关键词进行抽取,得到主题关键词;
通过词向量模型word2vec将所述主题关键词转换为第一素材特征向量。
不同于人为输入关键词搜索,本实施例通过输入文本先进行文本挖掘,通过该LDA文档主题生成模型可以从该素材内容中抽取更为核心的关键词,提取主题关键词作为本实施例的特征之一,更加能找到和上下文相关的素材内容,例如用户最近的搜索内容序列,可以提高搜索结果的精准度,同时可以解决创作者对素材内容的重点内容理解偏差导致关键词获取不准确的技术问题。
在其中一个实施例中,当得到的所述主题关键词包括多个时,所述通过词向量模型word2vec将所述主题关键词转换为第一素材特征向量的步骤包括:
获取通过所述LDA文档主题生成模型对所述关键词进行抽取时得到的抽取每个所述主题关键词的概率;
通过所述词向量模型word2vec将每个所述主题关键词转换为对应的关键词特征向量;
将获取的所述概率作为所述主题关键词相应关键词特征向量的权重,对转换的各关键词特征向量进行加权平均计算,得到所述第一素材特征向量。
具体来说,通过LDA文档主题生成模型抽取的关键词,接着用word2vec进行向量化,例如抽取得到的n个关键词,向量化后每个关键词转换为一个N维的向量,以通过LDA抽取的n个关键词的概率为权重,该权重可以表示该关键词和资源库中搜索文本的关联程度,将n个N维向量算加权平均,最后形成一个长度为N的第一素材特征向量,该第一素材特征向量可以表示为vec2。
本实施例通过词向量模型word2vec将所述主题关键词转换为第一素材特征向量一方面能够找到不同关键词之间的相似度,另一方面还能凸显哪些关键词在素材内容中的贡献最大。
在其中一个实施例中,所述素材信息包括日志中存储的所述创作者最近点击的若干个素材ID,所述素材ID表示对应素材的编号,所述将所述素材信息输入至词向量模型,得到素材特征向量的步骤包括:
从日志中获取所述创作者在预设时间范围内点击的素材ID;
将获取的每预设个所述素材ID按照被点击的时刻越晚越优先的顺序进行拼接,得到若干个由素材ID组成的句子;
通过词向量模型word2vec将每个所述句子转换为对应的素材ID特征向量;
计算与各所述句子相对应的所述素材ID特征向量的算术平均值,得到第二素材特征向量。
例如,该创作者最近点击的M个素材内容的ID分别为ID1,ID2,…,IDM,借鉴word2vec的思想,先对word2vec进行预训练,训练的数据集是所有用户的过去搜索ID序列,每M个素材ID序列当作一个句子,整体看作一个文档,每个ID当作一个文档词汇。
然后对用户距离当前时刻最近的M个点击内容的编号进行embedding,这样M个ID都有一个embedding表示,假设表示为W维向量,将M个W维向量进行算数平均计算,得到的第二素材特征向量作为用户最近搜索内容的最终特征表达,该第二素材特征向量的长度为W,第二素材特征向量可以表示为vec3。
在其中一个实施例中,该M个例如为十个,表示将十个素材ID序列当作一个句子进行embedding。
可以理解的是,该素材ID用于唯一标定一个素材。本实施例通过词向量模型word2vec将每个所述句子转换为对应的素材ID特征向量,并计算与各所述句子相对应的所述素材ID特征向量的算术平均值,得到第二素材特征向量,通过该第二素材特征向量可以表征哪些素材ID经常被该创作者同时关注,进一步将具有关联性的素材内容联系起来。
在其中一个实施例中,当所述素材信息同时包括与所述创作主题对应存储的素材内容和所述日志中存储的该创作者最近点击的若干个素材的编号ID时,所述得到所述素材特征向量的步骤包括:
将所述第一素材特征向量与所述第二素材特征向量进行横向拼接,得到所述素材特征向量。可以理解的是,该素材特征向量=vec2+vec3。
S105、将所述创作者属性特征向量与所述素材特征向量进行横向拼接,得到拼接向量。
在其中一个实施例中,将所述创作者属性特征向量与所述素材特征向量进行横向拼接即vec1+vec2+vec3,最后得到的拼接向量可以表示为vec。
S106、将资源库中的创作素材和所述拼接向量输入至预先训练好的深度神经网络,得到与所述拼接向量匹配程度最高的前若干个创作素材。
其中,该深度神经网络即DNN(Deep Neural Networks),该深度神经网络用于从资源库中智能抽取出与该拼接向量匹配程度最高相关创作素材。可以理解的是,该深度神经网络具体输出多少个创作素材可以根据预先设定的输出参数而定。
在其中一个实施例中,所述前若干个创作素材例如为前10个创作素材。
在其中一个实施例中,训练所述深度神经网络的步骤包括:
从样本用户的自身属性信息中抽取样本属性特征;
对抽取的所述样本属性特征进行量化处理,得到对应样本用户的样本属性特征向量;
获取与所述样本用户同一创作主题相对应的已存储的样本素材信息,并将所述样本素材信息输入至词向量模型,得到样本素材特征向量;
将所述样本属性特征向量与所述样本素材特征向量进行拼接,得到样本拼接向量;
从日志中获取所述样本用户点击的属于所述资源库中的样本创作素材,并按照被点击的时刻越晚越优先的顺序对所述样本创作素材进行排序,得到与各所述样本用户相对应的样本创作素材序列;
将与所述样本用户相对应的样本创作素材序列作为所述深度神经网络的输出期望,通过所述样本拼接向量和所述资源库中的样本创作素材对所述深度神经网络进行训练,直到所述深度神经网络的损失函数收敛。
S107、将得到的所述前若干个创作素材推荐给所述创作者。
可以理解的是,推荐给创作者的创作素材可以作为该创作者针对目前创作内容最相关的素材结果,作为继续创作的参考资源。
本实施例提出的创作素材的推荐方法通过将创作者的属性特征进行量化处理,得到创作者属性特征向量,再通过词向量模型将与创作主题对应的已存储的素材信息转换为素材特征向量,然后将该创作者属性特征向量与该素材特征向量进行拼接,得到拼接向量,再将资源库中的创作素材和所述拼接向量输入至预先训练好的深度神经网络,得到与所述拼接向量匹配程度最高的前若干个创作素材,最后将得到的所述前若干个创作素材推荐给所述创作者。本实施例中的创作素材的推荐方法不需要用户输入关键词,而是根据结合了创作者的属性特征和与创作主题对应的已存储的素材信息的拼接向量,并通过深度神经网络从该资源库中智能获取与所述拼接向量匹配程度最高的前若干个创作素材推荐给用户,创作素材的获取方法更加高效,获取的创作素材与该创作者自身的特点以及创作主题密切相关,使得推荐给创作者的创作素材更具有针对性,对于该创作者于本次创作的贡献度越大。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种创作素材的推荐装置,该创作素材的推荐装置与上述实施例中创作素材的推荐方法一一对应。如图4所示,该创作素材的推荐装置100包括属性特征抽取模块11、属性特征量化模块12、素材信息获取模块13、素材信息输入模块14、拼接模块15、素材匹配模块16和素材推荐模块17。各功能模块详细说明如下:
属性特征抽取模块11,用于根据预设的属性特征,从创作者的自身属性信息中抽取对应的属性特征;
属性特征量化模块12,用于对抽取的该属性特征进行量化处理,得到创作者属性特征向量;
素材信息获取模块13,用于从存储器中获取与创作主题对应的已存储的素材信息;
素材信息输入模块14,用于将该素材信息输入至词向量模型,得到素材特征向量;
拼接模块15,用于将该创作者属性特征向量与该素材特征向量进行横向拼接,得到拼接向量;
素材匹配模块16,用于将资源库中的创作素材和该拼接向量输入至预先训练好的深度神经网络,得到与该拼接向量匹配程度最高的前若干个创作素材;
素材推荐模块17,用于将得到的该前若干个创作素材推荐给该创作者。
可以理解的是,通过该素材推荐模块17推荐给创作者的创作素材可以作为该创作者针对目前创作内容最相关的素材结果,作为继续创作的参考资源。
其中,所述预设的属性特征包括但不限于所述创作者创作次数、创作类别和/或创作反馈。所述创作者的自身属性信息包括但不限于所述创作者的年龄、性别、创作次数、创作类别、创作反馈、创作频率、从业时间、兴趣偏好、资产水平等等。在其中一个实施例中,所述素材信息包括与所述创作主题对应存储的素材内容,在其他实施例中,所述素材信息还包括日志中存储的该创作者最近点击的若干个素材的编号ID。
可以理解的是,该创作者的自身属性信息可以通过用户输入的方式保存在存储器中,也可以从该创作者注册的网页资料中提取。
本实施例提出的创作素材的推荐装置,通过将创作者的属性特征进行量化处理,得到创作者属性特征向量,再通过词向量模型将与创作主题对应的已存储的素材信息转换为素材特征向量,然后将该创作者属性特征向量与该素材特征向量进行拼接,得到拼接向量,再将资源库中的创作素材和所述拼接向量输入至预先训练好的深度神经网络,得到与所述拼接向量匹配程度最高的前若干个创作素材,最后将得到的所述前若干个创作素材推荐给所述创作者。本实施例中的创作素材的推荐方法不需要用户输入关键词,而是根据结合了创作者的属性特征和与创作主题对应的已存储的素材信息的拼接向量,并通过深度神经网络从该资源库中智能获取与所述拼接向量匹配程度最高的前若干个创作素材推荐给用户,创作素材的获取方法更加高效,获取的创作素材与该创作者自身的特点以及创作主题密切相关,使得推荐给创作者的创作素材更具有针对性,对于该创作者于本次创作的贡献度越大。
在其中一个实施例中,所述预设的属性特征包括所述创作者的创作次数、创作类别和创作反馈,所述属性特征量化模块12具体包括:
二进制转换单元,用于将该创作次数转换为二进制数;
类别编码获取单元,用于获取与该创作类别相对应的预先设定的类别01编码;
反馈编码获取单元,用于获取与该创作反馈相对应的预先设定的反馈01编码;
第一拼接单元,用于将该二进制数、该类别01编码和该反馈01编码进行拼接,得到该创作者属性特征向量。
其中,可以将该二进制数、该类别01编码和该反馈01编码进行横向拼接得到该创作者属性特征向量。其中,拼接得到该创作者属性特征向量可以用vec1表示。
在其中一个实施例中,该素材信息包括与该创作主题对应存储的素材内容,所述素材信息输入模块14具体包括:
关键词抽取单元,用于通过LDA文档主题生成模型对该素材内容的关键词进行抽取,得到主题关键词;
第一素材特征转换单元,用于通过词向量模型word2vec将该主题关键词转换为第一素材特征向量。
不同于人为输入关键词搜索,本实施例通过输入文本先进行文本挖掘,通过该LDA文档主题生成模型可以从该素材内容中抽取更为核心的关键词,提取主题关键词作为本实施例的特征之一,更加能找到和上下文相关的素材内容,例如用户最近的搜索内容序列,可以提高搜索结果的精准度,同时可以解决创作者对素材内容的重点内容理解偏差导致关键词获取不准确的技术问题。
在其中一个实施例中,当得到的该主题关键词包括多个时,所述第一素材特征转换单元进一步包括:
概率获取单元,用于获取通过该LDA文档主题生成模型对该关键词进行抽取时得到的抽取每个该主题关键词的概率;
关键词特征向量转换模块,用于通过该词向量模型word2vec将每个该主题关键词转换为对应的关键词特征向量;
第一计算单元,用于将获取的该概率作为该主题关键词相应关键词特征向量的权重,对转换的各关键词特征向量进行加权平均计算,得到该第一素材特征向量。
具体来说,通过LDA文档主题生成模型抽取的关键词,接着用word2vec进行向量化,例如抽取得到的n个关键词,向量化后每个关键词转换为一个N维的向量,以通过LDA抽取的n个关键词的概率为权重,该权重可以表示该关键词和资源库中搜索文本的关联程度,将n个N维向量算加权平均,最后形成一个长度为N的第一素材特征向量,该第一素材特征向量可以表示为vec2。
本实施例通过词向量模型word2vec将所述主题关键词转换为第一素材特征向量一方面能够找到不同关键词之间的相似度,另一方面还能凸显哪些关键词在素材内容中的贡献最大。
在其中一个实施例中,该素材信息包括日志中存储的该创作者最近点击的若干个素材ID,该素材信息输入模块14进一步包括:
素材ID获取单元,用于从日志中获取该创作者在预设时间范围内点击的素材ID;
第二拼接单元,用于将获取的每预设个该素材ID按照被点击的时刻越晚越优先的顺序进行拼接,得到若干个由素材ID组成的句子;
素材ID特征向量转换单元,用于通过词向量模型word2vec将每个该句子转换为对应的素材ID特征向量;
第二计算单元,用于计算与各该句子相对应的该素材ID特征向量的算术平均值,得到第二素材特征向量。
例如,该创作者最近点击的M个素材内容的ID分别为ID1,ID2,…,IDM,借鉴word2vec的思想,先对word2vec进行预训练,训练的数据集是所有用户的过去搜索ID序列,每M个素材ID序列当作一个句子,整体看作一个文档,每个ID当作一个文档词汇。
然后对用户距离当前时刻最近的M个点击内容的编号进行embedding,这样M个ID都有一个embedding表示,假设表示为W维向量,将M个W维向量进行算数平均计算,得到的第二素材特征向量作为用户最近搜索内容的最终特征表达,该第二素材特征向量的长度为W,第二素材特征向量可以表示为vec3。
在其中一个实施例中,该M个例如为十个,表示将十个素材ID序列当作一个句子进行embedding。
可以理解的是,该素材ID用于唯一标定一个素材。本实施例通过词向量模型word2vec将每个所述句子转换为对应的素材ID特征向量,并计算与各所述句子相对应的所述素材ID特征向量的算术平均值,得到第二素材特征向量,通过该第二素材特征向量可以表征哪些素材ID经常被该创作者同时关注,进一步将具有关联性的素材内容联系起来。
在其中一个实施例中,当所述素材信息同时包括与所述创作主题对应存储的素材内容和所述日志中存储的该创作者最近点击的若干个素材的编号ID时,所述素材信息输入模块14还包括:
第三拼接单元,用于将该第一素材特征向量与该第二素材特征向量进行横向拼接,得到该素材特征向量。可以理解的是,该素材特征向量=vec2+vec3。
在其中一个实施例中,该创作素材的推荐装置100还包括:
样本属性特征抽取模块,用于从样本用户的自身属性信息中抽取样本属性特征;
样本属性特征量化模块,用于对抽取的该样本属性特征进行量化处理,得到对应样本用户的样本属性特征向量;
样本素材信息输入模块,用于获取与该样本用户同一创作主题相对应的已存储的样本素材信息,并将该样本素材信息输入至该词向量模型,得到样本素材特征向量;
样本素材特征向量拼接模块,用于将该样本属性特征向量与该样本素材特征向量进行拼接,得到样本拼接向量;
排序模块,用于从日志中获取该样本用户点击的属于该资源库中的样本创作素材,并按照被点击的时刻越晚越优先的顺序对该样本创作素材进行排序,得到与各该样本用户相对应的样本创作素材序列;
训练模块,用于将与该样本用户相对应的样本创作素材序列作为该深度神经网络的输出期望,通过该样本拼接向量和该资源库中的样本创作素材对该深度神经网络进行训练,直到该深度神经网络的损失函数收敛。
其中,该深度神经网络即DNN(Deep Neural Networks),该深度神经网络用于从资源库中智能抽取出与该拼接向量匹配程度最高相关创作素材。可以理解的是,该深度神经网络具体输出多少个创作素材可以根据预先设定的输出参数而定。
其中上述模块/单元中的“第一”和“第二”的意义仅在于将不同的模块/单元加以区分,并不用于限定哪个模块/单元的优先级更高或者其它的限定意义。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块,本申请中所出现的模块的划分,仅仅是一种逻辑上的划分,实际应用中实现时可以有另外的划分方式。
关于创作素材的推荐装置的具体限定可以参见上文中对于创作素材的推荐方法的限定,在此不再赘述。上述创作素材的推荐装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部服务器通过网络连接通信。该计算机程序被处理器执行时以实现一种创作素材的推荐方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中创作素材的推荐方法的步骤,例如图2所示的步骤101至步骤107及该方法的其它扩展和相关步骤的延伸。或者,处理器执行计算机程序时实现上述实施例中创作素材的推荐装置的各模块/单元的功能,例如图4所示模块11至模块17的功能。为避免重复,这里不再赘述。
所述处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述计算机装置的控制中心,利用各种接口和线路连接整个计算机装置的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述计算机装置的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、视频数据等)等。
所述存储器可以集成在所述处理器中,也可以与所述处理器分开设置。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中创作素材的推荐方法的步骤,例如图2所示的步骤101至步骤107及该方法的其它扩展和相关步骤的延伸。或者,计算机程序被处理器执行时实现上述实施例中创作素材的推荐装置的各模块/单元的功能,例如图4所示模块11至模块17的功能。为避免重复,这里不再赘述。
本实施例提出的创作素材的推荐方法、装置、计算机设备及存储介质通过将创作者的属性特征进行量化处理,得到创作者属性特征向量,再通过词向量模型将与创作主题对应的已存储的素材信息转换为素材特征向量,然后将该创作者属性特征向量与该素材特征向量进行拼接,得到拼接向量,再将资源库中的创作素材和所述拼接向量输入至预先训练好的深度神经网络,得到与所述拼接向量匹配程度最高的前若干个创作素材,最后将得到的所述前若干个创作素材推荐给所述创作者。本实施例中的创作素材的推荐方法不需要用户输入关键词,而是根据结合了创作者的属性特征和与创作主题对应的已存储的素材信息的拼接向量,并通过深度神经网络从该资源库中智能获取与所述拼接向量匹配程度最高的前若干个创作素材推荐给用户,创作素材的获取方法更加高效,获取的创作素材与该创作者自身的特点以及创作主题密切相关,使得推荐给创作者的创作素材更具有针对性,对于该创作者于本次创作的贡献度越大。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种创作素材的推荐方法,其特征在于,所述方法包括:
根据预设的属性特征,从创作者的自身属性信息中抽取对应的属性特征;
对抽取的所述属性特征进行量化处理,得到创作者属性特征向量;
从存储器中获取与创作主题对应的已存储的素材信息;
将所述素材信息输入至词向量模型,得到素材特征向量;
将所述创作者属性特征向量与所述素材特征向量进行横向拼接,得到拼接向量;
将资源库中的创作素材和所述拼接向量输入至预先训练好的深度神经网络,得到与所述拼接向量匹配程度最高的前若干个创作素材;
将得到的所述前若干个创作素材推荐给所述创作者。
2.根据权利要求1所述的创作素材的推荐方法,其特征在于,所述预设的属性特征包括所述创作者的创作次数、创作类别和创作反馈,所述对抽取的所述属性特征进行量化处理,得到创作者属性特征向量的步骤包括:
将所述创作次数转换为二进制数;
获取与所述创作类别相对应的预先设定的类别01编码;
获取与所述创作反馈相对应的预先设定的反馈01编码;
将所述二进制数、所述类别01编码和所述反馈01编码进行拼接,得到所述创作者属性特征向量。
3.根据权利要求1所述的创作素材的推荐方法,其特征在于,所述素材信息包括与所述创作主题对应存储的素材内容,所述将所述素材信息输入至词向量模型,得到素材特征向量的步骤具体包括:
通过LDA文档主题生成模型对所述素材内容的关键词进行抽取,得到主题关键词;
通过词向量模型word2vec将所述主题关键词转换为第一素材特征向量。
4.根据权利要求3所述的创作素材的推荐方法,其特征在于,当得到的所述主题关键词包括多个时,所述通过词向量模型word2vec将所述主题关键词转换为第一素材特征向量的步骤包括:
获取通过所述LDA文档主题生成模型对所述关键词进行抽取时得到的抽取每个所述主题关键词的概率;
通过所述词向量模型word2vec将每个所述主题关键词转换为对应的关键词特征向量;
将获取的所述概率作为所述主题关键词相应关键词特征向量的权重,对转换的各关键词特征向量进行加权平均计算,得到所述第一素材特征向量。
5.根据权利要求3所述的创作素材的推荐方法,其特征在于,所述素材信息包括日志中存储的所述创作者最近点击的若干个素材ID,所述将所述素材信息输入至词向量模型,得到素材特征向量的步骤包括:
从日志中获取所述创作者在预设时间范围内点击的素材ID;
将获取的每预设个所述素材ID按照被点击的时刻越晚越优先的顺序进行拼接,得到若干个由素材ID组成的句子;
通过词向量模型word2vec将每个所述句子转换为对应的素材ID特征向量;
计算与各所述句子相对应的所述素材ID特征向量的算术平均值,得到第二素材特征向量。
6.根据权利要求5所述的创作素材的推荐方法,其特征在于,所述得到素材特征向量的步骤包括:
将所述第一素材特征向量与所述第二素材特征向量进行横向拼接,得到所述素材特征向量。
7.根据权利要求1至6任一项所述的创作素材的推荐方法,其特征在于,训练所述深度神经网络的步骤包括:
从样本用户的自身属性信息中抽取样本属性特征;
对抽取的所述样本属性特征进行量化处理,得到对应样本用户的样本属性特征向量;
获取与所述样本用户同一创作主题相对应的已存储的样本素材信息,并将所述样本素材信息输入至所述词向量模型,得到样本素材特征向量;
将所述样本属性特征向量与所述样本素材特征向量进行拼接,得到样本拼接向量;
从日志中获取所述样本用户点击的属于所述资源库中的样本创作素材,并按照被点击的时刻越晚越优先的顺序对所述样本创作素材进行排序,得到与各所述样本用户相对应的样本创作素材序列;
将与所述样本用户相对应的样本创作素材序列作为所述深度神经网络的输出期望,通过所述样本拼接向量和所述资源库中的样本创作素材对所述深度神经网络进行训练,直到所述深度神经网络的损失函数收敛。
8.一种创作素材的推荐装置,其特征在于,所述装置包括:
属性特征抽取模块,用于根据预设的属性特征,从创作者的自身属性信息中抽取对应的属性特征;
属性特征量化模块,用于对抽取的所述属性特征进行量化处理,得到创作者属性特征向量;
素材信息获取模块,用于从存储器中获取与创作主题对应的已存储的素材信息;
素材信息输入模块,用于将所述素材信息输入至词向量模型,得到素材特征向量;
拼接模块,用于将所述创作者属性特征向量与所述素材特征向量进行横向拼接,得到拼接向量;
素材匹配模块,用于将资源库中的创作素材和所述拼接向量输入至预先训练好的深度神经网络,得到与所述拼接向量匹配程度最高的前若干个创作素材;
素材推荐模块,用于将得到的所述前若干个创作素材推荐给所述创作者。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述创作素材的推荐方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述创作素材的推荐方法的步骤。
CN202110223938.XA 2021-02-25 2021-02-25 创作素材的推荐方法、装置、计算机设备及存储介质 Active CN112989187B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110223938.XA CN112989187B (zh) 2021-02-25 2021-02-25 创作素材的推荐方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110223938.XA CN112989187B (zh) 2021-02-25 2021-02-25 创作素材的推荐方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN112989187A true CN112989187A (zh) 2021-06-18
CN112989187B CN112989187B (zh) 2022-02-01

Family

ID=76351489

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110223938.XA Active CN112989187B (zh) 2021-02-25 2021-02-25 创作素材的推荐方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN112989187B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150028377A (ko) * 2013-09-04 2015-03-16 한국전자통신연구원 Sns 기반의 컨텐츠 제작 시스템 및 방법
US20160034554A1 (en) * 2014-07-31 2016-02-04 International Business Machines Corporation Large-scale data clustering with dynamic social context
CN108694160A (zh) * 2018-05-15 2018-10-23 北京三快在线科技有限公司 文章生成方法、设备及存储介质
CN109783749A (zh) * 2018-12-10 2019-05-21 深圳变设龙信息科技有限公司 一种设计素材智能推荐方法、装置及终端设备
CN110728541A (zh) * 2019-10-11 2020-01-24 广州市丰申网络科技有限公司 信息流媒体广告创意推荐方法及装置
CN110825956A (zh) * 2019-09-17 2020-02-21 中国平安人寿保险股份有限公司 一种信息流推荐方法、装置、计算机设备及存储介质
CN110866107A (zh) * 2019-10-12 2020-03-06 浙江大搜车软件技术有限公司 素材语料的生成方法、装置、计算机设备和存储介质
CN110889434A (zh) * 2019-10-29 2020-03-17 东南大学 一种基于活动的社交网络活动特征提取方法
US20200134511A1 (en) * 2018-10-30 2020-04-30 Intuit Inc. Systems and methods for identifying documents with topic vectors
CN111144937A (zh) * 2019-12-20 2020-05-12 北京达佳互联信息技术有限公司 广告素材确定方法、装置、设备及存储介质
CN112016962A (zh) * 2020-08-26 2020-12-01 北京字节跳动网络技术有限公司 推送方法、装置、电子设备和计算机可读存储介质
CN112131469A (zh) * 2020-09-22 2020-12-25 安徽农业大学 一种基于评论文本的深度学习推荐方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150028377A (ko) * 2013-09-04 2015-03-16 한국전자통신연구원 Sns 기반의 컨텐츠 제작 시스템 및 방법
US20160034554A1 (en) * 2014-07-31 2016-02-04 International Business Machines Corporation Large-scale data clustering with dynamic social context
CN108694160A (zh) * 2018-05-15 2018-10-23 北京三快在线科技有限公司 文章生成方法、设备及存储介质
US20200134511A1 (en) * 2018-10-30 2020-04-30 Intuit Inc. Systems and methods for identifying documents with topic vectors
CN109783749A (zh) * 2018-12-10 2019-05-21 深圳变设龙信息科技有限公司 一种设计素材智能推荐方法、装置及终端设备
CN110825956A (zh) * 2019-09-17 2020-02-21 中国平安人寿保险股份有限公司 一种信息流推荐方法、装置、计算机设备及存储介质
CN110728541A (zh) * 2019-10-11 2020-01-24 广州市丰申网络科技有限公司 信息流媒体广告创意推荐方法及装置
CN110866107A (zh) * 2019-10-12 2020-03-06 浙江大搜车软件技术有限公司 素材语料的生成方法、装置、计算机设备和存储介质
CN110889434A (zh) * 2019-10-29 2020-03-17 东南大学 一种基于活动的社交网络活动特征提取方法
CN111144937A (zh) * 2019-12-20 2020-05-12 北京达佳互联信息技术有限公司 广告素材确定方法、装置、设备及存储介质
CN112016962A (zh) * 2020-08-26 2020-12-01 北京字节跳动网络技术有限公司 推送方法、装置、电子设备和计算机可读存储介质
CN112131469A (zh) * 2020-09-22 2020-12-25 安徽农业大学 一种基于评论文本的深度学习推荐方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JIANSHAN SUN 等: "Leveraging Content and Connections for Scientific Article Recommendation in Social Computing Contexts", 《IEEE》 *
孔行: "基于主题推荐的辅助写作系统", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *
董露露 等: "基于 LDA 主题模型和学习者行为特征的", 《贵阳学院学报(自然科学版) (季刊)》 *

Also Published As

Publication number Publication date
CN112989187B (zh) 2022-02-01

Similar Documents

Publication Publication Date Title
CN109800307B (zh) 产品评价的分析方法、装置、计算机设备及存储介质
CN111859960A (zh) 基于知识蒸馏的语义匹配方法、装置、计算机设备和介质
CN111831911A (zh) 查询信息的处理方法、装置、存储介质和电子装置
CN112214593A (zh) 问答处理方法、装置、电子设备及存储介质
CN111046221A (zh) 歌曲推荐方法、装置、终端设备以及存储介质
CN111539197A (zh) 文本匹配方法和装置以及计算机系统和可读存储介质
CN111859986A (zh) 基于多任务孪生网络的语义匹配方法、装置、设备和介质
CN109086348B (zh) 超链接的处理方法和装置及存储介质
CN112650842A (zh) 基于人机交互的客服机器人意图识别方法及相关设备
CN113536795B (zh) 实体关系抽取的方法、系统、电子装置和存储介质
CN113343091A (zh) 面向产业和企业的科技服务推荐计算方法、介质及程序
CN111767394A (zh) 一种基于人工智能专家系统的摘要提取方法及装置
CN113505198A (zh) 关键词驱动的生成式对话回复方法、装置及电子设备
CN110895656A (zh) 一种文本相似度计算方法、装置、电子设备及存储介质
CN112632258A (zh) 文本数据处理方法、装置、计算机设备和存储介质
CN114547257B (zh) 类案匹配方法、装置、计算机设备及存储介质
CN113590811A (zh) 文本摘要生成方法、装置、电子设备及存储介质
CN116150306A (zh) 问答机器人的训练方法、问答方法及装置
CN114428838A (zh) 内容召回方法、装置、计算机设备及存储介质
KR102260396B1 (ko) 범용 신경망 기계번역기를 활용한 하이브리드 번역 시스템
KR20180113444A (ko) 개체명 연결 방법, 장치, 시스템 및 컴퓨터 프로그램
CN112989187B (zh) 创作素材的推荐方法、装置、计算机设备及存储介质
CN112149424A (zh) 语义匹配方法、装置、计算机设备和存储介质
CN116028626A (zh) 文本匹配方法、装置、存储介质以及电子设备
CN112148902B (zh) 数据处理方法、装置、服务器及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant