CN112052390A - 一种资源筛选方法、装置、电子设备及存储介质 - Google Patents
一种资源筛选方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112052390A CN112052390A CN202010910474.5A CN202010910474A CN112052390A CN 112052390 A CN112052390 A CN 112052390A CN 202010910474 A CN202010910474 A CN 202010910474A CN 112052390 A CN112052390 A CN 112052390A
- Authority
- CN
- China
- Prior art keywords
- resource
- resources
- author
- vector
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了资源筛选方法、装置、电子设备及存储介质,涉及智能推荐、智能检索、深度学习等领域。具体实现方案为:对资源库中的资源进行分类;针对任意类别,确定所述类别的至少一个优质作者;确定与至少一个优质作者相似的作者;从资源库中获取相似的作者提供的资源,并将获取的资源扩充入该类别中;从扩充后的类别中筛选优质资源。本申请实施例能够提高资源筛选效率,并提高资源的相关度。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及智能推荐、智能检索、深度学习等领域。
背景技术
随着互联网技术的发展,资源生产商为用户提供大量视频资源或文本资源等内容。如果能够筛选出优质资源,就能够实现将优质资源分发给用户,或者通过拆解分析优质资源指导资源生产商(资源的作者)生产出更优质的资源。目前一般采用人工方式挖掘资源库中的优质资源,这种方式效率低下,并且资源的相关度较差。
发明内容
本申请提供了一种资源筛选方法、装置、电子设备及存储介质。
根据本申请的一方面,提供了一种资源筛选方法,包括:
对资源库中的资源进行分类;
针对任意类别,确定所述类别的至少一个优质作者;
确定与所述至少一个优质作者相似的作者;
从资源库中获取所述相似的作者提供的资源,并将获取的资源扩充入所述类别中;
从扩充后的类别中筛选优质资源。
根据本申请的另一方面,提供了一种资源筛选装置,包括:
分类模块,用于对资源库中的资源进行分类;
优质作者确定模块,用于针对任意类别,确定所述类别的至少一个优质作者;
相似作者确定模块,用于确定与所述至少一个优质作者相似的作者;
扩充模块,用于从资源库中获取所述相似的作者提供的资源,并将获取的资源扩充入所述类别中;
筛选模块,用于从扩充后的类别中筛选优质资源。
根据本申请的另一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述任一项所述的方法。
根据本申请的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行上述任一项所述的方法。
本申请实施例提出的资源筛选方法,通过对资源库中的任意类别中的资源进行扩充,并从扩充后的类别中筛选优质资源,能够提高资源筛选的效率,并且提高资源的相关度。
应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是本申请实施例的一种资源筛选方法实现流程图;
图2是本申请实施例的一种资源筛选方法实现框图;
图3是本申请实施例的一种资源筛选方法中,对资源库中的资源进行分类的实现流程图;
图4是本申请实施例的分类模型的结构示意图;
图5是本申请实施例的一种资源筛选方法中,确定优质作者的实现流程图;
图6是本申请实施例的一种资源筛选装置600的结构示意图;
图7是本申请实施例的一种资源筛选装置700的结构示意图;
图8是用来实现本申请实施例的资源筛选方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本申请实施例提出一种资源筛选方法,图1是本申请实施例的一种资源筛选方法实现流程图,包括:
步骤S101:对资源库中的资源进行分类;
步骤S102:针对任意类别,确定该类别的至少一个优质作者;
步骤S103:确定与该至少一个优质作者相似的作者;
步骤S104:从资源库中获取该相似的作者提供的资源,并将获取的资源扩充入该类别中;
步骤S105:从扩充后的类别中筛选优质资源。
可选地,在上述步骤S101中,可以对资源库中的资源进行一级行业分类,得到多个一级类别。或者,进一步对各个一级类别进行二级行业分类,得到各个一级类别下的二级类别。相应的,在上述步骤S102至S105中,可以针对一级类别或二级类别进行优质资源筛选。
图2是本申请实施例的一种资源筛选方法实现框图,图2以对资源库中的资源进行两次行业分类为例。图2的示例中,资源库中的资源包括视频资源;本申请实施例也适用于其他类型的资源,如文本资源等。如图2所示,首先对资源全集进行一级行业分类。其中,资源全集包括站内的短视频、小视频、长视频等。一级行业分类如划分为家装、教育、医美等一级类别。之后,针对各个一级类别进行二级行业分类,例如,将教育类别划分为成人教育、学生教育、职场提升、留学等二级类别。之后,针对任意一个二级类别,可以首先确定该类别中的优质作者(或称为行业头部作者);之后确定与优质作者相似的作者,获取这些相似作者的作品,将获取的作品填充入该二级类别中,从而实现作者维度的资源扩充。最后,从扩充之后的类别筛选出优质资源。
本申请实施例提出的资源筛选方式相对于现有的人工筛选方式而言,能够显著提高资源筛选效率。并且,由于在作者维度对类别中的资源进行扩充,因此筛选出的资源的相关度较高。
以下详细介绍上述各个步骤的实现方式示例。
图3是本申请实施例的一种资源筛选方法中,对资源库中的资源进行分类的实现流程图,包括:
步骤S301:获取资源库中各个资源的标题和标签;
步骤S302:将各个资源的标题和标签分别输入预先训练的分类模型,得到各个资源对应的一级行业分类。
可选地,本申请实施例还可以对各个一级行业分类(或称一级类别)中的资源再次进行分类,即进行二级行业分类,从而得到每个一级行业分类下的至少一个二级行业分类(或称二级类别)。
如图3包括,上述分类过程还可以包括:
步骤S303:针对任意一级行业分类,获取该一级行业分类中的各个资源,并确定各个资源的标题和标签;
步骤S304:将所述各个资源的标题和标签分别输入预先训练的分类模型,得到各个资源对应的二级行业分类。
后续还可以对二级行业分类再次进行分类,以此类推。这种逐层划分类别的方式能够实现对资源类别的精细划分。
在一些实施方式中,预先训练的分类模型可以包括来自变换器的双向编码器表征量(BERT,Bidirectional Encoder Representations from Transformers)层、向量叠加层和归一化层;其中,
BERT层被配置为接收资源的标题和标签,确定资源的标题对应的标题向量和资源的标签对应的标签向量,并将标题向量和标签向量发送至向量叠加层;
向量叠加层被配置为接收该标题向量和标签向量,将该标题向量和标签向量进行叠加,将叠加后的向量发送至归一化(Softmax)层;
归一化层被配置为接收该叠加后的向量,根据叠加后的向量确定资源对应的行业分类。
其中,该行业分类可以为一级行业分类或二级行业分类等。如果输入该分类模型的是资源库中的各个资源的标题和标签,则该分类模型输出的内容为资源的一级行业分类;如果输入该分类模型的是某个一级行业分类中的各个资源的标题和标签,则该分类模型输出的内容为该资源所属的二级行业分类,并且该二级行业分类为该一级行业分类的子分类。
可选地,上述BERT层包括第一BERT模块和第二BERT模块;其中,
第一BERT模块被配置为接收资源的标题,确定该资源的标题对应的标题向量,并将该标题向量发送至向量叠加层;
第二BERT模块被配置为接收资源的标签,确定该资源的标签对应的标签向量,并将该标签向量发送至向量叠加层。
可选地,上述分类模型可以具体为文本分类模型。该文本分类模型根据资源的标题和标签(标题和标签都属于文本信息)确定该资源所述的类别,能够快速地确定出资源的类别。
在一些实施方式中,可以采用已有样本训练BERT+softmax的分类模型。图4是本申请实施例的分类模型的结构示意图。如图4所示,本申请实施例的分类模型可以包括BERT层、向量叠加层和Softmax层;其中BERT层可以包括2个BERT模块,如第一BERT模块和第二BERT模块。以视频资源分类为例,将视频资源的标题和标签分别输入2个BERT模块,2个BERT模块分别输出视频标题向量和视频标签向量。其中,视频标签可以包括用于描述视频内的关键词信息等。视频标题向量和视频标签向量可以为相同维度的向量,向量叠加层接收视频标题向量和视频标签向量,将视频标题向量和视频标签向量进行叠加,例如采用线性叠加的方式进行向量叠加,得到一个叠加后的向量,叠加后的向量与视频标题向量和视频标签向量的维度相同。叠加后的向量被输入至Softmax层,由Softmax层输出视频资源对应的行业分类。例如,Softmax层输出N(N等于行业分类的个数)个概率,每个概率对应一个行业分类,N个概率的和等于1。最大的概率对应的行业分类即为分类模型所预测的该视频资源的行业分类。
对资源库进行分类之后,针对每个类别中的资源,可以筛选该类别中的优质资源。在筛选之前,本申请实施例可以首先对该类别进行作者维度的扩充,再对扩充之后的该类别内的资源进行筛选。
图5是本申请实施例的一种资源筛选方法中,确定优质作者的实现流程图。优质作者又可以称为头部作者,可以指一个行业类别中对同行业的其他作者有较深的影响、号召力和一定的示范引导作用的作者。如图5所示,确定一个类别中的优质作者的过程可以包括:
步骤S501:确定提供类别中的视频资源的作者;
步骤S502:针对各个作者,根据该作者提供的视频资源的点播数量、展现数量、播放完成率及互动率中的至少一项,确定该作者是否为优质作者。
其中,对视频资源的展现可以指将该视频资源的名称等信息显示在用户的使用界面上,对视频资源的点播可以指用户点击播放该视频资源,针对视频资源的互动可以包括用户上传关于该视频资源的评分、评论或在播放时发送弹幕信息等。一个视频资源的点播数量、展现数量、播放完成率及互动率中越高,说明该视频资源越受欢迎,可以一定程度上反映出该视频资源越优秀。本申请实施例可以设置针对点播数量、展现数量、播放完成率及互动率的评分标准,将一个视频资源在前述4个维度进行打分,得到4个分数;再将4个分数采用预先设定的方式进行运算,得到该视频资源的分数。本申请实施例可以设置优质视频的分数阈值,当一个视频的分数达到该分数阈值时,认为该视频资源为优质视频。本申请实施例可以设置优质作者的评价标准,例如当一个作者已提供的资源中,优质资源的个数超过预先设定的阈值时,认为该作者为优质作者。
确定优质作者之后,本申请实施例可以根据各个作者提供的资源类别、各个作者提供的资源的用户类型及预先确定的相似作者信息中的至少一项,确定与各个优质作者相似的作者。
例如,如果两个作者提供的资源的所属类别大范围重合,和/或两个作者提供的资源的用户类型大范围重合,则可以认为两个作者为相似作者。或者,预先确定并保存的相似作者信息,根据优质作者查找相似作者信息,确定与该优质作者相似的作者。
在扩充之后,从扩充后的类别中筛选优质资源,具体地,本申请实施例可以针对扩充后的类别中的各个资源,根据资源的点播数量、展现数量、播放完成率及互动率中的至少一项,确定所述资源是否为优质资源。具体的确定方式在上述实施方式中已有介绍,在此不再赘述。
在筛选出优质视频资源后,可以将优质视频资源进行拆解,分析优质资源的拍摄技巧,用于指导商家生产视频资源,从而从整体上提升平台的资源指令,提高用户的满意度。
本申请实施例还提出一种资源筛选装置,图6是本申请实施例的一种资源筛选装置600的结构示意图,包括:
分类模块610,用于对资源库中的资源进行分类;
优质作者确定模块620,用于针对任意类别,确定所述类别的至少一个优质作者;
相似作者确定模块630,用于确定与所述至少一个优质作者相似的作者;
扩充模块640,用于从资源库中获取所述相似的作者提供的资源,并将获取的资源扩充入所述类别中;
筛选模块650,用于从扩充后的类别中筛选优质资源。
图7是本申请实施例的一种资源筛选装置700的结构示意图。如图7所示,可选地,上述分类模块610包括:
第一获取子模块611,用于获取资源库中各个资源的标题和标签;
第一输入子模块612,用于将所述各个资源的标题和标签分别输入预先训练的分类模型,得到各个资源对应的一级行业分类。
如图7所示,可选地,上述分类模块610还包括:
第二获取子模块613,用于针对任意所述一级行业分类,获取所述一级行业分类中的各个资源,并确定各个资源的标题和标签;
第二输入子模块614,用于将所述各个资源的标题和标签分别输入预先训练的分类模型,得到各个资源对应的二级行业分类。
可选地,上述分类模型包括BERT层、向量叠加层和归一化层;
BERT层被配置为接收所述资源的标题和标签,确定所述资源的标题对应的标题向量和所述资源的标签对应的标签向量,并将所述标题向量和标签向量发送至所述向量叠加层;
所述向量叠加层被配置为接收所述标题向量和所述标签向量,将所述标题向量和所述标签向量进行叠加,将叠加后的向量发送至所述归一化层;
所述归一化层被配置为接收所述叠加后的向量,根据叠加后的向量确定所述资源对应的行业分类;所述行业分类包括一级行业分类或二级行业分类。
可选地,上述BERT层包括第一BERT模块和第二BERT模块;
所述第一BERT模块被配置为接收所述资源的标题,确定所述资源的标题对应的标题向量,并将所述标题向量发送至所述向量叠加层;
所述第二BERT模块被配置为接收所述资源的标签,确定所述资源的标签对应的标签向量,并将所述标签向量发送至所述向量叠加层。
可选地,上述优质作者确定模块620包括:
作者确定子模块621,用于确定提供所述类别中的视频资源的作者;
优质作者确定子模块622,用于针对各个作者,根据所述作者提供的视频资源的点播数量、展现数量、播放完成率及互动率中的至少一项,确定所述作者是否为优质作者。
可选地,上述相似作者确定模块630用于:
根据各个作者提供的资源类别、各个作者提供的资源的用户类型及预先确定的相似作者信息中的至少一项,确定与所述至少一个优质作者相似的作者。
可选地,上述筛选模块650,用于针对扩充后的类别中的各个资源,根据所述资源的点播数量、展现数量、播放完成率及互动率中的至少一项,确定所述资源是否为优质资源。
本申请实施例各装置中的各模块的功能可以参见上述方法中的对应描述,在此不再赘述。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图8所示,是根据本申请实施例的资源筛选的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图8所示,该电子设备包括:一个或多个处理器801、存储器802,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图8中以一个处理器801为例。
存储器802即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的资源筛选的方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的资源筛选的方法。
存储器802作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的资源筛选的方法对应的程序指令/模块(例如,附图6所示的分类模块610、优质作者确定模块620、相似作者确定模块630、扩充模块640和筛选模块650)。处理器801通过运行存储在存储器802中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的资源筛选的方法。
存储器802可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据资源筛选的电子设备的使用所创建的数据等。此外,存储器802可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器802可选包括相对于处理器801远程设置的存储器,这些远程存储器可以通过网络连接至资源筛选的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
资源筛选的方法的电子设备还可以包括:输入装置803和输出装置804。处理器801、存储器802、输入装置803和输出装置804可以通过总线或者其他方式连接,图8中以通过总线连接为例。
输入装置803可接收输入的数字或字符信息,以及产生与资源筛选的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置804可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与虚拟专用服务器(VPS)服务中,存在的管理难度大,业务扩展性弱的缺陷。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (18)
1.一种资源筛选方法,包括:
对资源库中的资源进行分类;
针对任意类别,确定所述类别的至少一个优质作者;
确定与所述至少一个优质作者相似的作者;
从资源库中获取所述相似的作者提供的资源,并将获取的资源扩充入所述类别中;
从扩充后的类别中筛选优质资源。
2.根据权利要求1所述的方法,其中,所述对资源库中的资源进行分类,包括:
获取资源库中各个资源的标题和标签;
将所述各个资源的标题和标签分别输入预先训练的分类模型,得到各个资源对应的一级行业分类。
3.根据权利要求2所述的方法,其中,所述对资源库中的资源进行分类,还包括:
针对任意所述一级行业分类,获取所述一级行业分类中的各个资源,并确定各个资源的标题和标签;
将所述各个资源的标题和标签分别输入预先训练的分类模型,得到各个资源对应的二级行业分类。
4.根据权利要求2或3所述的方法,其中,所述分类模型包括来自变换器的双向编码器表征量BERT层、向量叠加层和归一化层;
所述BERT层被配置为接收所述资源的标题和标签,确定所述资源的标题对应的标题向量和所述资源的标签对应的标签向量,并将所述标题向量和标签向量发送至所述向量叠加层;
所述向量叠加层被配置为接收所述标题向量和所述标签向量,将所述标题向量和所述标签向量进行叠加,将叠加后的向量发送至所述归一化层;
所述归一化层被配置为接收所述叠加后的向量,根据叠加后的向量确定所述资源对应的行业分类;所述行业分类包括一级行业分类或二级行业分类。
5.根据权利要求4所述的方法,其中,所述BERT层包括第一BERT模块和第二BERT模块;
所述第一BERT模块被配置为接收所述资源的标题,确定所述资源的标题对应的标题向量,并将所述标题向量发送至所述向量叠加层;
所述第二BERT模块被配置为接收所述资源的标签,确定所述资源的标签对应的标签向量,并将所述标签向量发送至所述向量叠加层。
6.根据权利要求1至3任一所述的方法,其中,所述针对任意类别,确定所述类别的至少一个优质作者,包括:
确定提供所述类别中的视频资源的作者;
针对各个作者,根据所述作者提供的视频资源的点播数量、展现数量、播放完成率及互动率中的至少一项,确定所述作者是否为优质作者。
7.根据权利要求1至3任一所述的方法,其中,所述确定与所述至少一个优质作者相似的作者,包括:
根据各个作者提供的资源类别、各个作者提供的资源的用户类型及预先确定的相似作者信息中的至少一项,确定与所述至少一个优质作者相似的作者。
8.根据权利要求1至3任一所述的方法,其中,所述从扩充后的类别中筛选优质资源,包括:
针对扩充后的类别中的各个资源,根据所述资源的点播数量、展现数量、播放完成率及互动率中的至少一项,确定所述资源是否为优质资源。
9.一种资源筛选装置,包括:
分类模块,用于对资源库中的资源进行分类;
优质作者确定模块,用于针对任意类别,确定所述类别的至少一个优质作者;
相似作者确定模块,用于确定与所述至少一个优质作者相似的作者;
扩充模块,用于从资源库中获取所述相似的作者提供的资源,并将获取的资源扩充入所述类别中;
筛选模块,用于从扩充后的类别中筛选优质资源。
10.根据权利要求9所述的装置,其中,所述分类模块包括:
第一获取子模块,用于获取资源库中各个资源的标题和标签;
第一输入子模块,用于将所述各个资源的标题和标签分别输入预先训练的分类模型,得到各个资源对应的一级行业分类。
11.根据权利要求10所述的装置,其中,所述分类模块还包括:
第二获取子模块,用于针对任意所述一级行业分类,获取所述一级行业分类中的各个资源,并确定各个资源的标题和标签;
第二输入子模块,用于将所述各个资源的标题和标签分别输入预先训练的分类模型,得到各个资源对应的二级行业分类。
12.根据权利要求10或11所述的装置,其中,所述分类模型包括BERT层、向量叠加层和归一化层;
所述BERT层被配置为接收所述资源的标题和标签,确定所述资源的标题对应的标题向量和所述资源的标签对应的标签向量,并将所述标题向量和标签向量发送至所述向量叠加层;
所述向量叠加层被配置为接收所述标题向量和所述标签向量,将所述标题向量和所述标签向量进行叠加,将叠加后的向量发送至所述归一化层;
所述归一化层被配置为接收所述叠加后的向量,根据叠加后的向量确定所述资源对应的行业分类;所述行业分类包括一级行业分类或二级行业分类。
13.根据权利要求12所述的装置,其中,所述BERT层包括第一BERT模块和第二BERT模块;
所述第一BERT模块被配置为接收所述资源的标题,确定所述资源的标题对应的标题向量,并将所述标题向量发送至所述向量叠加层;
所述第二BERT模块被配置为接收所述资源的标签,确定所述资源的标签对应的标签向量,并将所述标签向量发送至所述向量叠加层。
14.根据权利要求9至11任一所述的装置,其中,所述优质作者确定模块包括:
作者确定子模块,用于确定提供所述类别中的视频资源的作者;
优质作者确定子模块,用于针对各个作者,根据所述作者提供的视频资源的点播数量、展现数量、播放完成率及互动率中的至少一项,确定所述作者是否为优质作者。
15.根据权利要求9至11任一所述的装置,其中,所述相似作者确定模块用于:
根据各个作者提供的资源类别、各个作者提供的资源的用户类型及预先确定的相似作者信息中的至少一项,确定与所述至少一个优质作者相似的作者。
16.根据权利要求9至11任一所述的装置,其中,所述筛选模块,用于针对扩充后的类别中的各个资源,根据所述资源的点播数量、展现数量、播放完成率及互动率中的至少一项,确定所述资源是否为优质资源。
17.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。
18.一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010910474.5A CN112052390B (zh) | 2020-09-02 | 2020-09-02 | 一种资源筛选方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010910474.5A CN112052390B (zh) | 2020-09-02 | 2020-09-02 | 一种资源筛选方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112052390A true CN112052390A (zh) | 2020-12-08 |
CN112052390B CN112052390B (zh) | 2023-07-18 |
Family
ID=73607826
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010910474.5A Active CN112052390B (zh) | 2020-09-02 | 2020-09-02 | 一种资源筛选方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112052390B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112667906A (zh) * | 2020-12-31 | 2021-04-16 | 上海众源网络有限公司 | 一种up主的推荐方法、装置及电子设备 |
CN113434270A (zh) * | 2021-06-15 | 2021-09-24 | 北京百度网讯科技有限公司 | 数据资源调度方法、装置、电子设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB201809254D0 (en) * | 2018-06-06 | 2018-07-25 | Mansoor Feroz | Systems and method for automated boxing data collection and analytics platform |
CN110674320A (zh) * | 2019-09-27 | 2020-01-10 | 百度在线网络技术(北京)有限公司 | 一种检索方法、装置和电子设备 |
-
2020
- 2020-09-02 CN CN202010910474.5A patent/CN112052390B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB201809254D0 (en) * | 2018-06-06 | 2018-07-25 | Mansoor Feroz | Systems and method for automated boxing data collection and analytics platform |
CN110674320A (zh) * | 2019-09-27 | 2020-01-10 | 百度在线网络技术(北京)有限公司 | 一种检索方法、装置和电子设备 |
Non-Patent Citations (2)
Title |
---|
W KAI: "Compressed Sensing based Multi-label Classification without Label Sparsity Level Prior", ACM * |
穆桂斌,李嵬: "基于加涅学习结果分类理论的教学资源库设计", 中国电化教育, no. 08 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112667906A (zh) * | 2020-12-31 | 2021-04-16 | 上海众源网络有限公司 | 一种up主的推荐方法、装置及电子设备 |
CN113434270A (zh) * | 2021-06-15 | 2021-09-24 | 北京百度网讯科技有限公司 | 数据资源调度方法、装置、电子设备及存储介质 |
CN113434270B (zh) * | 2021-06-15 | 2023-06-23 | 北京百度网讯科技有限公司 | 数据资源调度方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112052390B (zh) | 2023-07-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110717339B (zh) | 语义表示模型的处理方法、装置、电子设备及存储介质 | |
EP3851975A1 (en) | Method and apparatus for generating text topics, and electronic device | |
CN111507104B (zh) | 建立标签标注模型的方法、装置、电子设备和可读存储介质 | |
CN111625635A (zh) | 问答处理、语言模型的训练方法、装置、设备及存储介质 | |
CN112560479B (zh) | 摘要抽取模型训练方法、摘要抽取方法、装置和电子设备 | |
CN110717327A (zh) | 标题生成方法、装置、电子设备和存储介质 | |
AU2017408800B2 (en) | Method and system of mining information, electronic device and readable storable medium | |
US11508153B2 (en) | Method for generating tag of video, electronic device, and storage medium | |
CN111783468A (zh) | 文本处理方法、装置、设备和介质 | |
CN111858905B (zh) | 模型训练方法、信息识别方法、装置、电子设备及存储介质 | |
CN111832613B (zh) | 模型训练方法、装置、电子设备和存储介质 | |
CN111737501A (zh) | 一种内容推荐方法及装置、电子设备、存储介质 | |
CN111309200B (zh) | 一种扩展阅读内容的确定方法、装置、设备及存储介质 | |
CN112541362B (zh) | 一种泛化处理的方法、装置、设备和计算机存储介质 | |
CN111324715A (zh) | 问答机器人的生成方法和装置 | |
CN110795593A (zh) | 语音包的推荐方法、装置、电子设备和存储介质 | |
CN112052390B (zh) | 一种资源筛选方法、装置、电子设备及存储介质 | |
CN111177462A (zh) | 视频分发时效的确定方法和装置 | |
CN115099239B (zh) | 一种资源识别方法、装置、设备以及存储介质 | |
CN111984774A (zh) | 搜索方法、装置、设备以及存储介质 | |
CN111858880A (zh) | 获取查询结果的方法、装置、电子设备和可读存储介质 | |
CN111782785A (zh) | 自动问答方法、装置、设备以及存储介质 | |
CN111385188A (zh) | 对话元素的推荐方法、装置、电子设备和介质 | |
CN111241242A (zh) | 目标内容的确定方法、装置、设备及计算机可读存储介质 | |
CN111353070B (zh) | 视频标题的处理方法、装置、电子设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |