CN110519654A - 一种标签确定方法及装置 - Google Patents

一种标签确定方法及装置 Download PDF

Info

Publication number
CN110519654A
CN110519654A CN201910856356.8A CN201910856356A CN110519654A CN 110519654 A CN110519654 A CN 110519654A CN 201910856356 A CN201910856356 A CN 201910856356A CN 110519654 A CN110519654 A CN 110519654A
Authority
CN
China
Prior art keywords
file
label
term vector
similar documents
destination object
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910856356.8A
Other languages
English (en)
Other versions
CN110519654B (zh
Inventor
康优良
赖金南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Li Zhi Network Technology Co Ltd
Original Assignee
Guangzhou Li Zhi Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Li Zhi Network Technology Co Ltd filed Critical Guangzhou Li Zhi Network Technology Co Ltd
Priority to CN201910856356.8A priority Critical patent/CN110519654B/zh
Publication of CN110519654A publication Critical patent/CN110519654A/zh
Application granted granted Critical
Publication of CN110519654B publication Critical patent/CN110519654B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/2187Live feed
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors
    • H04N21/8405Generation or processing of descriptive data, e.g. content descriptors represented by keywords

Abstract

本发明涉及一种标签确定方法及装置,其中所述方法包括:获取目标文件对象的文件描述信息;根据所述文件描述信息确定所述目标文件对象的关键词向量;将所述目标文件对象的关键词向量与已有文件对象的关键词向量匹配,以从已有文件对象中确定所述目标文件对象的相似文件对象;获取所述相似文件对象的文件标签以及关键词向量,并基于所述相似文件对象的文件标签以及关键词向量确定所述目标文件对象的文件标签。本实施例可以自动确定目标文件对象的文件标签,降低了人工处理的操作,提高了文件标签确定的效率,可用性较高。

Description

一种标签确定方法及装置
技术领域
本申请涉及数据处理技术领域,尤其涉及一种标签确定方法及装置。
背景技术
随着流媒体技术的不断成熟以及网络环境的不断提升,出现了越来越多的直播应用程序APP,用户可以通过直播APP观看包括游戏、娱乐节目等音视频的直播内容。
为了便于对直播内容的管理以及帮助直播节目获取曝光,通常直播APP中的直播内容都具有相应的视频标签。在相关技术中,视频标签生成方式包括如下两种:
一种是节目上传时主播根据系统提供的配置,人工为直播节目添加视频标签;另一种是运营人员在了解直播节目具体内容后,在后台人工为直播节目添加视频标签(一般只维护头部节目)。这两种方法都需要人工去维护大量的节目数据,耗时巨大,及时性较差,且后一种方式由于只维护头部数据导致大量尾部节目难以被人工维护覆盖到。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种标签确定方法及装置。
第一方面,本申请提供了一种标签确定方法,所述方法包括:
获取目标文件对象的文件描述信息;
根据所述文件描述信息确定所述目标文件对象的关键词向量;
将所述目标文件对象的关键词向量与已有文件对象的关键词向量匹配,以从已有文件对象中确定所述目标文件对象的相似文件对象;
获取所述相似文件对象的文件标签以及关键词向量,并基于所述相似文件对象的文件标签以及关键词向量确定所述目标文件对象的文件标签。
可选地,所述根据所述文件描述信息确定所述目标文件对象的关键词向量,包括:
将文件描述信息进行分词处理,获得多个分词;
分别计算所述分词的tf_idf值;
将tf_idf值最大的前N个分词作为所述目标文件对象的关键词向量。
可选地,所述将所述目标文件对象的关键词向量与已有文件对象的关键词向量匹配,以从已有文件对象中确定所述目标文件对象的相似文件对象,包括:
根据所述目标文件对象的关键词向量的各分词的tf_idf值以及已有文件对象的关键词向量的tf_idf值,计算所述目标文件对象与已有文件对象的相似度;
根据所述相似度,从已有文件对象中选取相似度最大的M个已有文件对象作为所述目标文件对象的相似文件对象。
可选地,所述基于所述相似文件对象的文件标签以及关键词向量确定所述目标文件对象的文件标签,包括:
确定具有文件标签的相似文件对象;
针对所述具有文件标签的相似文件对象,获取所述相似文件对象的文件标签,并汇总获得的各文件标签出现的次数;
根据所述次数确定满足设定条件的文件标签,并从所述满足设定条件的文件标签中选取次数最多的K1个文件标签作为所述目标文件对象的文件标签。
可选地,所述基于所述相似文件对象的文件标签以及关键词向量确定所述目标文件对象的文件标签,还包括:
汇总所述相似文件对象的关键词向量的各分词出现的次数;
当各文件标签均不满足设定条件时,则选取次数最多的K2个文件标签以及次数最多的K3个分词作为所述目标文件对象的文件标签;
当所述相似文件对象均不具有文件标签时,则选取次数最多的K4个分词作为所述目标文件对象的文件标签。
可选地,所述设定条件同时包括如下条件:
所述文件标签在预设文件标签列表中;
所述文件标签的次数大于所述相似文件对象的数量的一半。
可选地,在所述基于所述相似文件对象的文件标签以及关键词向量确定所述目标文件对象的文件标签之后,所述方法还包括:
按照预设的有效性校验规则,对所述目标文件对象的文件标签进行有效性校验。
第二方面,本申请提供了一种标签确定装置,所述装置包括:
文件描述信息获取模块,用于获取目标文件对象的文件描述信息;
关键词向量确定模块,用于根据所述文件描述信息确定所述目标文件对象的关键词向量;
相似文件对象确定模块,用于将所述目标文件对象的关键词向量与已有文件对象的关键词向量匹配,以从已有文件对象中确定所述目标文件对象的相似文件对象;
文件标签确定模块,用于获取所述相似文件对象的文件标签以及关键词向量,并基于所述相似文件对象的文件标签以及关键词向量确定所述目标文件对象的文件标签。
第三方面,本申请提供了一种电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如上述的方法。
第四方面,本申请提供了一种存储介质,当所述存储介质中的指令由所述设备的处理器执行时,使得所述电子设备能够执行如上述的方法。
本发明具有如下有益效果:
在本实施例中,可以根据目标文件对象的文件描述信息来确定目标文件对象的关键词向量,然后将目标文件对象的关键词向量与已有文件对象的关键词向量匹配,以从已有文件对象中确定目标文件对象的相似文件对象,并通过获取相似文件对象的文件标签以及关键词向量来确定目标文件对象的文件标签,从而实现自动确定目标文件对象的文件标签,降低了人工处理的操作,提高了文件标签确定的效率,可用性较高。
附图说明
图1为本申请的一种标签确定方法实施例的步骤流程图;
图2为一种确定文件标签的方法步骤流程图;
图3为另一种确定文件标签的方法步骤流程图;
图4为本申请的一种标签确定装置实施例的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
参照图1,示出了本申请的一种标签确定方法实施例的步骤流程图,本实施例可以应用于服务器中,该服务器可以为单个服务器,也可以为服务器集群,本实施例对此不作限制。
本实施例具体可以包括如下步骤:
步骤101,获取目标文件对象的文件描述信息。
在一种例子中,目标文件对象可以包括视频文件、音频文件、文本文件、图片文件等类型的文件。
示例性地,文件描述信息可以包括文件名称、文件介绍、主播名称、主播介绍等描述信息。
在一种实现中,当目标文件对象中携带对应的文件描述信息时,则可以直接从目标文件对象中提取对应的文件描述信息。在一种例子中,目标文件对象中携带的文件描述信息可以为用户针对目标文件对象输入的描述信息,该描述信息可以与目标文件对象关联存储。
在其他实施例中,当目标文件对象中没有携带对应的文件描述信息时,例如,当目标文件对象为纯音频文件时,可以首先判断该音频文件的时长,如果时长大于预设的时长阈值,则可以将该音频文件的前面预设比例(如30%)的音频数据转换成文本数据;如果时长小于或等于预设的时长阈值,则可以将该音频文件全部转换成文本数据,然后将转换得到的文本数据作为该音频文件的文件描述信息。
步骤102,根据所述文件描述信息确定所述目标文件对象的关键词向量。
在一种实施方式中,步骤102可以包括如下子步骤:
将文件描述信息进行分词处理,获得多个分词;分别计算所述分词的tf_idf值;将tf_idf值最大的前N个分词作为所述目标文件对象的关键词向量。
在实现时,在对文件描述信息进行分词前,可以过滤掉该文件描述信息中的默认字词,例如,可以预先设定默认的业务字词或系统字词列表(如字词列表中可以包括停用词、语气词、系统专用的业务词组等),然后按照该字词列表与文件描述信息进行匹配,从而过滤掉文件描述信息中匹配上该字词列表的字词,使得后续分析处理得到的分词尽可能趋于业务实际场景。
然后对过滤后的文件描述信息采用分词方式进行分词处理,以获得多个分词,本实施例对分词处理方式不作限定。
得到多个分词以后,可以计算各分词的tf_idf值,将tf_idf值最大的前N个分词作为目标文件对象的关键词向量。
在一种实现中,分词的tf_idf值可以采用如下方式计算:
词频tf(term frequency)=分词在当前文件对象的出现次数/当前文件对象具有的分词次数;
逆文档率idf(inverse document frequency)=log(总的文件对象的数量/(有过该分词的文件对象的数量+1));
tf_idf值=tf*idf。
例如,假设某直播视频的文件描述信息为“我们喜欢玩福彩双色球,双色球”,对其分词后得到的分词结果为“我们,喜欢,玩,福彩,双色球,双色球”,在出现的6个分词中,“我们”出现1次,“喜欢”出现1次,“玩”出现1次,“福彩”出现1次,“双色球”出现2次。假设现有1000个文件对象,“双色球”这个分词在9个文件对象里面出现过,在当前目标文件对象中出现了2次,则:
“双色球”的tf=分词在当前文件对象的出现次数/当前文件对象具有的分词次数=2/6;
“双色球”的idf=log(总的文件对象的数量/(有过该分词的文件对象的数量+1))=log(100/(9+1))=log10;
“双色球”的tf_idf值=2/6*log10=1.107。
按照上述方法分别计算“我们,喜欢,玩,福彩”这几个分词对应的tf_idf值,取tf_idf值最大前4个分词后,得到的目标文件对象的关键词向量为[双色球,喜欢,玩,我们],对应的tf_idf值为[1.107,0.9,0.4,0.5]。
当得到目标文件对象的关键词向量以及对应的tf_idf值以后,可以将该关键词向量以及对应的tf_idf值与目标文件对象关联存储在预设数据库中。
步骤103,将所述目标文件对象的关键词向量与已有文件对象的关键词向量匹配,以从已有文件对象中确定所述目标文件对象的相似文件对象。
该步骤中,在得到目标文件对象的关键词向量以后,还可以从预设数据库中获取其他已有文件对象的关键词向量,基于关键词向量的匹配,可以从已有文件对象中选取与目标文件对象相似的相似文件对象。
其中,已有文件对象可以为已获得关键词向量的文件对象,该文件对象可以存储在预设数据库中进行维护。
在一种实施方式中,步骤103可以包括如下子步骤:
根据所述目标文件对象的关键词向量的各分词的tf_idf值以及已有文件对象的关键词向量的tf_idf值,计算所述目标文件对象与已有文件对象的相似度;根据所述相似度,从已有文件对象中选取相似度最大的M个已有文件对象作为所述目标文件对象的相似文件对象。
在该实施例中,在得到目标文件对象的关键词向量以及该关键词向量中各分词的tf_idf值,可以从预设数据库中获取已有文件对象的关键词向量以及对应的tf_idf值,然后计算目标文件对象的关键词向量的tf_idf值与各已有文件对象的关键词向量的tf_idf值的相似度。
在实现时,在计算目标文件对象的关键词向量的tf_idf值与各已有文件对象的关键词向量的tf_idf值的相似度时,可以将两种关键词向量打平,以统一到相同的向量上,以便于后续的计算。
在一种实施方式中,可以采用余弦相似度的方式计算上述两种tf_idf值的相似度,例如,假设目标文件对象的关键词向量为[双色球,喜欢,玩,我们],对应的tf_idf值为[1.107,0.9,0.4,0.5];某已有文件对象的关键词向量为[双色球,喜欢,玩,人们],对应的tf_idf值为[1.107,0.9,0.4,0.7],将上述两种关键词向量打平,得到如下表的关键词向量:
关键词向量 双色球 喜欢 我们 人们
[双色球,喜欢,玩,我们] 1.107 0.9 0.4 0.5 0
[双色球,喜欢,玩,人们] 1.107 0.9 0.4 0 0.7
根据上表,则打平后的关键词向量如下:
[双色球,喜欢,玩,我们]对应为[1.107,0.9,0.4,0.5,0]
[双色球,喜欢,玩,人们]对应为[1.107,0.9,0.4,0,0.7]
两者的余弦相似度为:
按照上述方法得到目标文件对象的关键词向量与各已有文件对象的关键词向量的相似度,则可以对相似度进行排序,从已有文件对象中选取相似度最大的M个已有文件对象作为目标文件对象的相似文件对象。
在一种例子中,已有文件对象的选取方式可以包括但不限于如下两种:
例子1:已有文件对象为预设数据库中的所有已获得关键词向量的文件对象。
例子2:已有文件对象为预设数据库中的所有已获得关键词向量的、且满足预设条件的文件对象。例如,预设条件可以为:已有文件对象所描述的领域与目标文件对象所描述的领域相同。
步骤104,获取所述相似文件对象的文件标签以及关键词向量,并基于所述相似文件对象的文件标签以及关键词向量确定所述目标文件对象的文件标签。
该步骤中,当确定与目标文件对象的相似文件对象以后,还可以获取各相似文件对象的文件标签以及关键词向量,从而确定目标文件对象的文件标签。
在一种实施方式中,参考图2的一种确定文件标签的方法步骤流程图,步骤104可以包括如下子步骤:
子步骤S11,确定具有文件标签的相似文件对象。
该步骤中,相似文件对象可以具有文件标签,也可以不具有文件标签。当确定相似文件对象以后,可以从确定的M个相似文件对象中确定具有文件标签的相似文件对象。
子步骤S12,针对所述具有文件标签的相似文件对象,获取所述相似文件对象的文件标签,并汇总获得的各文件标签出现的次数。
该步骤中,当确定M个相似文件对象中具有文件标签的相似文件对象以后,则可以分别获取各相似文件对象的文件标签,然后汇总各相似文件对象的文件标签,得到各文件标签出现的次数。
例如,相似文件对象1中包含的文件标签有“旅游”、“亲子”、“海边”;相似文件对象2中包含的文件标签有“旅游”、“黄昏”、“海边”;相似文件对象3中包含的文件标签有“旅游”、“亲子”、“出境”;则“旅游”这个标签出现的次数为3次,“亲子”标签出现的次数为2次,“海边”标签出现的次数为2次,“黄昏”标签出现的次数为1次,“出境”出现的次数为1次。
子步骤S13,根据所述次数确定满足设定条件的文件标签,并从所述满足设定条件的文件标签中选取次数最多的K1个文件标签作为所述目标文件对象的文件标签。
示例性地,设定条件可以同时包括如下条件:所述文件标签在预设文件标签列表中;以及,所述文件标签的次数大于所述相似文件对象的数量的一半。
在实际中,预设文件标签列表可以为开发人员或者运维人员配置的标签列表,也可以是本实施例的服务器根据各已有文件对象具有的文件标签过滤掉无实际含义的文件标签后得到的列表,本实施例对此不作限制。
在实现时,一种判断文件标签是否在预设文件标签列表中的方式可以为:当某文件标签的语义与预设文件标签列表中的某标签的语义相同或相似,则可以判定该文件标签在预设文件标签列表中。例如,某文件标签为“旅行”,预设文件标签列表中已有“旅游”这个标签,两者为同义词,则可以判定该文件标签在预设文件标签列表中。
针对第二个条件,文件标签的次数大于所述相似文件对象的数量的一半,例如,若相似文件对象的数量为4个,针对上例,“旅游”这个标签出现的次数为3次,大于4的一半,假设“旅游”标签也在预设文件标签列表中,则可以将“旅游”这个标签确定为目标文件对象的标签。
若存在多个满足设定条件的文件标签,则可以从多个满足设定条件的文件标签中选取次数最多的K1个文件标签作为目标文件对象的文件标签。
在另一种实施方式中,参考图3的另一种确定文件标签的方法步骤流程图,步骤104还可以包括如下子步骤:
子步骤S14,汇总所述相似文件对象的关键词向量的各分词出现的次数。
在该实施例中,除了要汇总相似文件对象的各文件标签出现的次数,还可以汇总各相似文件对象的关键词向量的各分词出现的次数,该次数是指某分词在多个相似文件对象的关键词向量中出现的次数汇总。
子步骤S15,当各文件标签均不满足设定条件时,则选取次数最多的K2个文件标签以及次数最多的K3个分词作为所述目标文件对象的文件标签。
在该步骤中,各文件标签不满足设定条件可以为不满足上述两个条件中的任一一个,例如,文件标签出现的次数小于或等于相似文件对象的数量的一半,或者,该文件标签不在预设文件标签列表中。
针对上述第一种情况,即文件标签在预设文件标签列表中但其出现的次数小于或等于相似文件对象的数量的一半,则可以补充分词来确定当前目标文件对象的文件标签,具体的,可以选取次数最多的K2个文件标签以及次数最多的K3个分词作为目标文件对象的文件标签。
例如,针对上例,若相似文件对象的数量为4个,则可以选取“亲子”标签和“海边”标签作为目标文件对象的文件标签(两者出现的次数均为2次)。另外,还可以将分词中出现次数最多的分词作为目标文件对象的文件标签,例如,出现次数最多的分词为“冲浪”,则可以将“冲浪”也作为目标文件对象的文件标签。
针对上述第二种情况,该文件标签不在预设文件标签列表中,可以按照第一种方式的方法来处理,即选取次数最多的K2个文件标签以及次数最多的K3个分词作为目标文件对象的文件标签。也可以按照子步骤S16的方式来处理,本实施例对此不作限制。
子步骤S16,当所述相似文件对象均不具有文件标签时,则选取次数最多的K4个分词作为所述目标文件对象的文件标签。
在该实施例中,当相似文件对象均不具有文件标签时,则可以从分词中确定目标文件对象的文件标签,在实现中,可以选取次数最多的K4个分词作为目标文件对象的文件标签。
需要说明的是,本实施例对K1-K4的取值不作限定,可以根据实际情况配置。
在一种可选的实施例中,在确定目标文件对象的文件标签之后,本实施例还可以包括如下步骤:
按照预设的有效性校验规则,对所述目标文件对象的文件标签进行有效性校验。
例如,可以设置有效性校验黑名单,当目标文件对象的文件标签命中该黑名单时,可以将该命中黑名单的文件标签删除,以确保目标文件对象的文件标签的有效性。
在其他场景中,还可以由人工来对目标文件对象的文件标签进行有效性校验,例如校验是否存在无实际含义的标签,或者存在同义词的标签等。
在本实施例中,可以根据目标文件对象的文件描述信息来确定目标文件对象的关键词向量,然后将目标文件对象的关键词向量与已有文件对象的关键词向量匹配,以从已有文件对象中确定目标文件对象的相似文件对象,并通过获取相似文件对象的文件标签以及关键词向量来确定目标文件对象的文件标签,从而实现自动确定目标文件对象的文件标签,降低了人工处理的操作,提高了文件标签确定的效率,可用性较高。
基于上述标签确定方法,参照图4,示出了本发明一种标签确定装置实施例的结构框图,所述装置具体可以包括如下模块:
文件描述信息获取模块401,用于获取目标文件对象的文件描述信息;
关键词向量确定模块402,用于根据所述文件描述信息确定所述目标文件对象的关键词向量;
相似文件对象确定模块403,用于将所述目标文件对象的关键词向量与已有文件对象的关键词向量匹配,以从已有文件对象中确定所述目标文件对象的相似文件对象;
文件标签确定模块404,用于获取所述相似文件对象的文件标签以及关键词向量,并基于所述相似文件对象的文件标签以及关键词向量确定所述目标文件对象的文件标签。
在一种实施方式中,所述关键词向量确定模块402具体用于:
将文件描述信息进行分词处理,获得多个分词;
分别计算所述分词的tf_idf值;
将tf_idf值最大的前N个分词作为所述目标文件对象的关键词向量。
在一种实施方式中,所述相似文件对象确定模块403具体用于:
根据所述目标文件对象的关键词向量的各分词的tf_idf值以及已有文件对象的关键词向量的tf_idf值,计算所述目标文件对象与已有文件对象的相似度;
根据所述相似度,从已有文件对象中选取相似度最大的M个已有文件对象作为所述目标文件对象的相似文件对象。
在一种实施方式中,所述文件标签确定模块404包括:
相似文件对象确定子模块,用于确定具有文件标签的相似文件对象;
标签次数汇总子模块,用于针对所述具有文件标签的相似文件对象,获取所述相似文件对象的文件标签,并汇总获得的各文件标签出现的次数;
第一文件标签确定子模块,用于根据所述次数确定满足设定条件的文件标签,并从所述满足设定条件的文件标签中选取次数最多的K1个文件标签作为所述目标文件对象的文件标签。
在一种实施方式中,所述文件标签确定模块404还包括:
分词次数汇总子模块,用于汇总所述相似文件对象的关键词向量的各分词出现的次数;
第二文件标签确定子模块,用于当各文件标签均不满足设定条件时,则选取次数最多的K2个文件标签以及次数最多的K3个分词作为所述目标文件对象的文件标签;
第三文件标签确定子模块,用于当所述相似文件对象均不具有文件标签时,则选取次数最多的K4个分词作为所述目标文件对象的文件标签。
在一种实施方式中,所述设定条件同时包括如下条件:
所述文件标签在预设文件标签列表中;
所述文件标签的次数大于所述相似文件对象的数量的一半。
在一种实施方式中,所述装置还包括:
有效性校验模块,用于按照预设的有效性校验规则,对所述目标文件对象的文件标签进行有效性校验。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
虽然本说明书包含许多具体实施细节,但是这些不应被解释为限制任何发明的范围或所要求保护的范围,而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面,在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外,虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护,但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除,并且所要求保护的组合可以指向子组合或子组合的变型。
类似地,虽然在附图中以特定顺序描绘了操作,但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行,以实现期望的结果。在某些情况下,多任务和并行处理可能是有利的。此外,上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离,并且应当理解,所描述的程序组件和系统通常可以一起集成在单个软件产品中,或者封装成多个软件产品。
由此,主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下,权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外,附图中描绘的处理并非必需所示的特定顺序或顺次顺序,以实现期望的结果。在某些实现中,多任务和并行处理可能是有利的。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。

Claims (10)

1.一种标签确定方法,其特征在于,所述方法包括:
获取目标文件对象的文件描述信息;
根据所述文件描述信息确定所述目标文件对象的关键词向量;
将所述目标文件对象的关键词向量与已有文件对象的关键词向量匹配,以从已有文件对象中确定所述目标文件对象的相似文件对象;
获取所述相似文件对象的文件标签以及关键词向量,并基于所述相似文件对象的文件标签以及关键词向量确定所述目标文件对象的文件标签。
2.根据权利要求1所述的,其特征在于,所述根据所述文件描述信息确定所述目标文件对象的关键词向量,包括:
将文件描述信息进行分词处理,获得多个分词;
分别计算所述分词的tf_idf值;
将tf_idf值最大的前N个分词作为所述目标文件对象的关键词向量。
3.根据权利要求2所述的方法,其特征在于,所述将所述目标文件对象的关键词向量与已有文件对象的关键词向量匹配,以从已有文件对象中确定所述目标文件对象的相似文件对象,包括:
根据所述目标文件对象的关键词向量的各分词的tf_idf值以及已有文件对象的关键词向量的tf_idf值,计算所述目标文件对象与已有文件对象的相似度;
根据所述相似度,从已有文件对象中选取相似度最大的M个已有文件对象作为所述目标文件对象的相似文件对象。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述基于所述相似文件对象的文件标签以及关键词向量确定所述目标文件对象的文件标签,包括:
确定具有文件标签的相似文件对象;
针对所述具有文件标签的相似文件对象,获取所述相似文件对象的文件标签,并汇总获得的各文件标签出现的次数;
根据所述次数确定满足设定条件的文件标签,并从所述满足设定条件的文件标签中选取次数最多的K1个文件标签作为所述目标文件对象的文件标签。
5.根据权利要求4所述的方法,其特征在于,所述基于所述相似文件对象的文件标签以及关键词向量确定所述目标文件对象的文件标签,还包括:
汇总所述相似文件对象的关键词向量的各分词出现的次数;
当各文件标签均不满足设定条件时,则选取次数最多的K2个文件标签以及次数最多的K3个分词作为所述目标文件对象的文件标签;
当所述相似文件对象均不具有文件标签时,则选取次数最多的K4个分词作为所述目标文件对象的文件标签。
6.根据权利要求4所述的方法,其特征在于,所述设定条件同时包括如下条件:
所述文件标签在预设文件标签列表中;
所述文件标签的次数大于所述相似文件对象的数量的一半。
7.根据权利要求1所述的方法,其特征在于,在所述基于所述相似文件对象的文件标签以及关键词向量确定所述目标文件对象的文件标签之后,所述方法还包括:
按照预设的有效性校验规则,对所述目标文件对象的文件标签进行有效性校验。
8.一种标签确定装置,其特征在于,所述装置包括:
文件描述信息获取模块,用于获取目标文件对象的文件描述信息;
关键词向量确定模块,用于根据所述文件描述信息确定所述目标文件对象的关键词向量;
相似文件对象确定模块,用于将所述目标文件对象的关键词向量与已有文件对象的关键词向量匹配,以从已有文件对象中确定所述目标文件对象的相似文件对象;
文件标签确定模块,用于获取所述相似文件对象的文件标签以及关键词向量,并基于所述相似文件对象的文件标签以及关键词向量确定所述目标文件对象的文件标签。
9.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1-7任一项所述的方法。
10.一种存储介质,当所述存储介质中的指令由所述设备的处理器执行时,使得所述电子设备能够执行如权利要求1-7中任一项所述的方法。
CN201910856356.8A 2019-09-11 2019-09-11 一种标签确定方法、装置、电子设备及存储介质 Active CN110519654B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910856356.8A CN110519654B (zh) 2019-09-11 2019-09-11 一种标签确定方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910856356.8A CN110519654B (zh) 2019-09-11 2019-09-11 一种标签确定方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN110519654A true CN110519654A (zh) 2019-11-29
CN110519654B CN110519654B (zh) 2021-07-27

Family

ID=68630605

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910856356.8A Active CN110519654B (zh) 2019-09-11 2019-09-11 一种标签确定方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN110519654B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111261167A (zh) * 2020-01-16 2020-06-09 广州荔支网络技术有限公司 一种音频热点内容自动化标签生成方法
CN111858486A (zh) * 2020-07-03 2020-10-30 北京天空卫士网络安全技术有限公司 一种文件分类方法和装置
CN112755522A (zh) * 2020-12-29 2021-05-07 珠海金山网络游戏科技有限公司 虚拟对象处理方法及装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102542024A (zh) * 2011-12-21 2012-07-04 电子科技大学 一种视频资源语义标签的标定方法
CN104090955A (zh) * 2014-07-07 2014-10-08 科大讯飞股份有限公司 一种音视频标签自动标注方法及系统
US20160042252A1 (en) * 2014-08-05 2016-02-11 Sri International Multi-Dimensional Realization of Visual Content of an Image Collection
CN106980667A (zh) * 2017-03-22 2017-07-25 广州优视网络科技有限公司 一种给文章标注标签的方法和装置
US20170286677A1 (en) * 2016-03-31 2017-10-05 AVAST Software s.r.o. Systems and methods for inference of malware labels in a graph database
CN108280059A (zh) * 2018-01-09 2018-07-13 武汉斗鱼网络科技有限公司 直播间内容标签提取方法、存储介质、电子设备及系统
CN108763189A (zh) * 2018-04-12 2018-11-06 武汉斗鱼网络科技有限公司 一种直播间内容标签权重计算方法、装置及电子设备
CN108897885A (zh) * 2018-07-09 2018-11-27 青岛聚看云科技有限公司 一种视频标签排序方法、装置及智能电视
CN110019955A (zh) * 2017-12-15 2019-07-16 青岛聚看云科技有限公司 一种视频标签标注方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102542024A (zh) * 2011-12-21 2012-07-04 电子科技大学 一种视频资源语义标签的标定方法
CN104090955A (zh) * 2014-07-07 2014-10-08 科大讯飞股份有限公司 一种音视频标签自动标注方法及系统
US20160042252A1 (en) * 2014-08-05 2016-02-11 Sri International Multi-Dimensional Realization of Visual Content of an Image Collection
US20170286677A1 (en) * 2016-03-31 2017-10-05 AVAST Software s.r.o. Systems and methods for inference of malware labels in a graph database
CN106980667A (zh) * 2017-03-22 2017-07-25 广州优视网络科技有限公司 一种给文章标注标签的方法和装置
CN110019955A (zh) * 2017-12-15 2019-07-16 青岛聚看云科技有限公司 一种视频标签标注方法及装置
CN108280059A (zh) * 2018-01-09 2018-07-13 武汉斗鱼网络科技有限公司 直播间内容标签提取方法、存储介质、电子设备及系统
CN108763189A (zh) * 2018-04-12 2018-11-06 武汉斗鱼网络科技有限公司 一种直播间内容标签权重计算方法、装置及电子设备
CN108897885A (zh) * 2018-07-09 2018-11-27 青岛聚看云科技有限公司 一种视频标签排序方法、装置及智能电视

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
曲鑫: "细粒度视频标签机制及其应用研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111261167A (zh) * 2020-01-16 2020-06-09 广州荔支网络技术有限公司 一种音频热点内容自动化标签生成方法
CN111858486A (zh) * 2020-07-03 2020-10-30 北京天空卫士网络安全技术有限公司 一种文件分类方法和装置
CN112755522A (zh) * 2020-12-29 2021-05-07 珠海金山网络游戏科技有限公司 虚拟对象处理方法及装置

Also Published As

Publication number Publication date
CN110519654B (zh) 2021-07-27

Similar Documents

Publication Publication Date Title
CN110519654A (zh) 一种标签确定方法及装置
CN103385008B (zh) 内容递送方法和内容递送系统
US20140219635A1 (en) System and method for distributed and parallel video editing, tagging and indexing
CN106713964A (zh) 一种生成视频摘要视点图的方法及装置
CN101843099B (zh) 存储视频数据的装置和方法
CN110796098B (zh) 内容审核模型的训练及审核方法、装置、设备和存储介质
Footen et al. The service-oriented media enterprise: SOA, BPM, and web services in professional media systems
CN103517135B (zh) 一种连续播放mp4格式视频文件的方法、系统及电视
WO2005101186A2 (en) System, method and computer program product for extracting metadata faster than real-time
CN102006424A (zh) 一种视频审核方法及系统
US20180345152A1 (en) Automatic Rating System and Method
CN107801061A (zh) 广告数据匹配方法、装置及系统
CN110149529A (zh) 媒体信息的处理方法、服务器及存储介质
CN106375858B (zh) 一种在视频中植入广告的方法、装置及系统
CN105550207B (zh) 一种信息推广方法及装置
CN110677718B (zh) 一种视频识别方法和装置
CN111046230B (zh) 内容推荐方法及装置、电子设备和可存储介质
WO2012176931A1 (ja) 映像処理システム、広告取得方法、映像処理装置、および、その制御方法
CN105872798A (zh) 一种视频快速起播的实现方法和系统
CN105872731A (zh) 数据处理的方法和装置
CN109361929B (zh) 一种确定直播间标签的方法以及相关设备
US8306992B2 (en) System for determining content topicality, and method and program thereof
CN110446117A (zh) 视频播放方法、装置及系统
CN117014693A (zh) 视频处理方法、装置、设备以及存储介质
Zhong et al. Real-time personalized sports video filtering and summarization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant