CN114938477A - 视频话题确定方法、装置及设备 - Google Patents

视频话题确定方法、装置及设备 Download PDF

Info

Publication number
CN114938477A
CN114938477A CN202210723762.9A CN202210723762A CN114938477A CN 114938477 A CN114938477 A CN 114938477A CN 202210723762 A CN202210723762 A CN 202210723762A CN 114938477 A CN114938477 A CN 114938477A
Authority
CN
China
Prior art keywords
hot word
video
hot
hotword
topic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210723762.9A
Other languages
English (en)
Other versions
CN114938477B (zh
Inventor
何永继
刘士博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Alibaba China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba China Co Ltd filed Critical Alibaba China Co Ltd
Priority to CN202210723762.9A priority Critical patent/CN114938477B/zh
Publication of CN114938477A publication Critical patent/CN114938477A/zh
Application granted granted Critical
Publication of CN114938477B publication Critical patent/CN114938477B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供一种视频话题确定方法、装置及设备,该方法包括:在待发布的第一视频中提取至少一个第一关键词;在当前热词共现网络中为每个第一关键词确定对应的热词对,得到第一热词对集合;当前热词共现网络中包括多个热词对和每个热词对的生成时刻;根据第一热词对集合中每个热词对的出现次数和生成时刻,在第一热词对集合中确定至少一个目标热词;根据至少一个目标热词,在包括多个视频话题的视频话题集合中为第一视频确定视频话题。提高了确定视频话题的准确性。

Description

视频话题确定方法、装置及设备
技术领域
本申请涉及计算机技术领域,尤其涉及一种视频话题确定方法、装置及设备。
背景技术
用户可以通过终端设备(手机、平板电脑等)拍摄或者制作短视频,并在视频网站上发布短视频。用户还可以通过终端设备观看视频网站上已发布的视频。
在用户通过终端设备观看视频网站上已发布的视频的过程中,视频网站通常根据短视频的话题向用户推送短视频。因此,在用户在视频网站上发布短视频时,需要为短视频设置准确的话题。在相关技术中,用户通常需要根据短视频的内容思考对应的话题,并将思考的话题设置为短视频的话题,用户思考的话题可能不准确,并且用户有时候会为了蹭热度为视频增加无关的话题,导致确定视频话题的准确性较低。
发明内容
本申请的多个方面提供一种视频话题确定方法、装置及设备,用以提高确定视频话题的准确性。
第一方面,本申请实施例提供一种视频话题确定方法,包括:
在待发布的第一视频中提取至少一个第一关键词;
在当前热词共现网络中为每个第一关键词确定对应的热词对,得到第一热词对集合;所述当前热词共现网络中包括多个热词对和每个热词对的生成时刻;
根据所述第一热词对集合中每个热词对的出现次数和生成时刻,在所述第一热词对集合中确定至少一个目标热词;
根据所述至少一个目标热词,在包括多个视频话题的视频话题集合中为所述第一视频确定视频话题。
在一种可能的实施方式中,根据所述第一热词对集合中每个热词对的出现次数和生成时刻,在所述第一热词对集合中确定至少一个目标热词,包括:
对所述第一热词对集合中的热词对进行去重处理,得到第二热词对集合;
计算所述第二热词对集合中每个热词在所述第一热词对集合中的出现次数;
综合生成时刻的远近以及出现次数的多少,对所述第二热词对集合中的热词对进行排序;
将排序后的所述第二热词对集合中的前N个热词对中的热词,确定为所述至少一个目标热词,所述N为大于或等于1的整数。
在一种可能的实施方式中,综合生成时刻的远近以及出现次数的多少,对所述第二热词对集合中的热词对进行排序,包括:
按照生成时刻由近及远的顺序,对所述第二热词对集合中的热词进行排序;若排序后的所述第二热词对集合中存在至少两个热词对的生成时刻相同,则按照所述至少两个热词对在所述第一热词对集合中出现次数由大到小的顺序,对所述至少两个热词对进行排序;
或者,
按照出现次数由大到小的顺序,对所述第二热词对集合中的热词进行排序;若排序后的所述第二热词对集合中存在至少两个热词对的出现次数相同,则按照所述至少两个热词对的生成时刻由近及远的顺序,对所述至少两个热词对进行排序。
在一种可能的实施方式中,根据所述至少一个目标热词,在包括多个视频话题的视频话题集合中为所述第一视频确定视频话题,包括:
获取所述至少一个目标热词和所述视频话题集合中各视频话题之间的相似度;
根据所述相似度在所述视频话题集合中确定至少一个第一待选视频话题;
根据所述至少一个目标热词,生成至少一个第二待选视频话题;
在所述至少一个第一待选视频话题和至少一个所述第二待选视频话题中,确定所述第一视频的视频话题。
在一种可能的实施方式中,获取所述至少一个目标热词和所述视频话题集合中各视频话题之间的相似度,包括:
确定所述至少一个目标热词对应的第一词向量;
确定所述视频话题集合中各视频话题对应的话题关键词,并根据所述视频话题集合中各视频话题对应的话题关键词,确定所述视频话题集合中各视频话题对应的第二词向量;
根据所述第一词向量和各视频话题对应的第二词向量之间的相似度,确定所述至少一个目标热词和所述视频话题集合中各视频话题之间的相似度。
在一种可能的实施方式中,在所述至少一个第一待选视频话题和所述至少一个第二待选视频话题中,确定所述第一视频的视频话题,包括:
获取所述至少一个目标热词与所述至少一个第二待选视频话题的相似度;
按照相似度从高到低的顺序,对所述至少一个第一待选视频话题和所述至少一个第二待选视频话题进行排序,得到排序后的待选视频话题;
将所述排序后的待选视频话题中的前K个视频话题确定为所述第一视频的视频话题,所述K为大于或等于1的整数。
在一种可能的实施方式中,所述当前热词共现网络中包括多个热词和多个连接边,所述连接边用于连接两个热词以形成一个热词对,所述连接边的取值用于指示所述连接边对应的热词对的生成时刻;
在当前热词共现网络中为每个第一关键词确定对应的热词对,得到第一热词对集合之前,还包括:
确定历史热词共现网络;
获取在当前周期内发布的多个历史视频,所述当前周期为包含当前时刻在内的第一预设长度的时间段;
根据所述多个历史视频的视频话题,更新所述历史热词共现网络,得到所述当前热词共现网络。
在一种可能的实施方式中,根据所述多个历史视频的视频话题,更新所述历史热词共现网络,得到所述当前热词共现网络,包括:
根据所述历史视频的视频话题,确定每个历史视频对应的热词对,得到第三热词对集合,所述第三热词对集合中包括每个历史视频对应的热词对;
对所述第三热词对集合中的热词对进行去重处理,得到第四热词对集合;
按照所述第四热词对集合中各热词对在所述第三热词对集合中出现次数从大到小的顺序,对所述第四热词对集合中的热词对进行排序;
分别根据排序后的第四热词对集合中的前M个热词对,更新所述历史热词共现网络,得到中间热词共现网络,并根据第二预设时长更新所述中间热词网络,得到所述当前热词共现网络。
在一种可能的实施方式中,针对所述前M个热词对中的任意一个热词对;根据所述热词对,更新所述历史热词共现网络,包括:
若所述历史热词共现网络中不包括所述热词对中的两个热词,则将所述两个热词添加至所述历史热词共现网络,并在所述两个热词之间添加第一连接边,以及设置所述第一连接边的取值为当前周期所对应的时间;
若所述历史热词共现网络中不包括所述热词对中的一个热词,则将所述一个热词添加至所述历史热词共现网络,并在所述热词对中的两个热词之间添加第二连接边,以及设置所述第二连接边的取值为当前周期所对应的时间;
若所述历史热词共现网络中包括所述热词对中的两个热词,在所述两个热词之间具有第三连接边时,则在所述第三连接边的取值中增加所述当前周期所对应的时间;在所述两个热词之间不具有连接边时,则在所述两个热词之间添加第四连接边,以及设置所述第四连接边的取值为当前周期所对应的时间。
在一种可能的实施方式中,根据第二预设时长更新所述中间热词网络,得到所述当前热词共现网络,包括:
根据当前时刻和所述第二预设时长,确定最晚失效时刻;
在所述中间热词网络中各个连接边的取值中删除失效时刻,所述失效时刻早于所述最晚失效时刻;
若所述中间热词网络中存在第五连接边的取值为空,则在所述中间热词网络中删除所述第五连接边;若所述中间热词网络中存在第一热词没有对应的连接边,则在所述中间热词网络中删除所述第一热词,得到所述当前热词共现网络。
在一种可能的实施方式中,在待发布的第一视频提取至少一个第一关键词,包括:
在所述第一视频中提取语音信息和字幕信息;
根据所述语音信息和所述字幕信息,确定待处理文本;
对所述待处理文本进行切词处理、词汇过滤处理,得到多个待选词汇;
根据所述多个待选词汇中各词汇的词频和所述待选词汇在所述待处理文本中的位置,在所述多个待选词汇中确定所述至少一个第一关键词。
在一种可能的实施方式中,根据所述至少一个目标热词在包括多个视频话题的视频话题集合中为所述第一视频确定视频话题之后,还包括:
向终端设备发送所述第一视频的视频话题;或者,
显示所述第一视频的视频话题。
第二方面,本申请实施例提供一种视频话题确定装置,包括:提取模块、第一确定模块、第二确定模块和第三确定模块,其中,
所述提取模块用于,在待发布的第一视频中提取至少一个第一关键词;
所述第一确定模块用于,在当前热词共现网络中为每个第一关键词确定对应的热词对,得到第一热词对集合;所述当前热词共现网络中包括多个热词对和每个热词对的生成时刻;
所述第二确定模块用于,根据所述第一热词对集合中每个热词对的出现次数和生成时刻,在所述第一热词对集合中确定至少一个目标热词;
所述第三确定模块用于,根据所述至少一个目标热词,在包括多个视频话题的视频话题集合中为所述第一视频确定视频话题。
在一种可能的实施方式中,所述第二确定模块具体用于:
对所述第一热词对集合中的热词对进行去重处理,得到第二热词对集合;
计算所述第二热词对集合中每个热词在所述第一热词对集合中的出现次数;
综合生成时刻的远近以及出现次数的多少,对所述第二热词对集合中的热词对进行排序;
将排序后的所述第二热词对集合中的前N个热词对中的热词,确定为所述至少一个目标热词,所述N为大于或等于1的整数。
在一种可能的实施方式中,所述第二确定模块具体用于:
按照生成时刻由近及远的顺序,对所述第二热词对集合中的热词进行排序;若排序后的所述第二热词对集合中存在至少两个热词对的生成时刻相同,则按照所述至少两个热词对在所述第一热词对集合中出现次数由大到小的顺序,对所述至少两个热词对进行排序;
或者,
按照出现次数由大到小的顺序,对所述第二热词对集合中的热词进行排序;若排序后的所述第二热词对集合中存在至少两个热词对的出现次数相同,则按照所述至少两个热词对的生成时刻由近及远的顺序,对所述至少两个热词对进行排序。
在一种可能的实施方式中,所述第三确定模块具体用于:
获取所述至少一个目标热词和所述视频话题集合中各视频话题之间的相似度;
根据所述相似度在所述视频话题集合中确定至少一个第一待选视频话题;
根据所述至少一个目标热词,生成至少一个第二待选视频话题;
在所述至少一个第一待选视频话题和至少一个所述第二待选视频话题中,确定所述第一视频的视频话题。
在一种可能的实施方式中,所述第三确定模块具体用于:
确定所述至少一个目标热词对应的第一词向量;
确定所述视频话题集合中各视频话题对应的话题关键词,并根据所述视频话题集合中各视频话题对应的话题关键词,确定所述视频话题集合中各视频话题对应的第二词向量;
根据所述第一词向量和各视频话题对应的第二词向量之间的相似度,确定所述至少一个目标热词和所述视频话题集合中各视频话题之间的相似度。
在一种可能的实施方式中,所述第三确定模块具体用于:
获取所述至少一个目标热词与所述至少一个第二待选视频话题的相似度;
按照相似度从高到低的顺序,对所述至少一个第一待选视频话题和所述至少一个第二待选视频话题进行排序,得到排序后的待选视频话题;
将所述排序后的待选视频话题中的前K个视频话题确定为所述第一视频的视频话题,所述K为大于或等于1的整数。
在一种可能的实施方式中,所述提取模块具体用于:
在所述第一视频中提取语音信息和字幕信息;
根据所述语音信息和所述字幕信息,确定待处理文本;
对所述待处理文本进行切词处理、词汇过滤处理,得到多个待选词汇;
根据所述多个待选词汇中各词汇的词频和所述待选词汇在所述待处理文本中的位置,在所述多个待选词汇中确定所述至少一个第一关键词。
在一种可能的实施方式中,所述当前热词共现网络中包括多个热词和多个连接边,所述连接边用于连接两个热词以形成一个热词对,所述连接边的取值用于指示所述连接边对应的热词对的生成时刻;所述视频话题确定装置还包括:第四确定模块、获取模块和更新模块,其中,
所述第四确定模块用于,确定历史热词共现网络;
所述获取模块用于,获取在当前周期内发布的多个历史视频,所述当前周期为包含当前时刻在内的第一预设长度的时间段;所述更新模块用于,根据所述多个历史视频的视频话题,更新所述历史热词共现网络,得到所述当前热词共现网络。
在一种可能的实施方式中,所述更新模块具体用于:
根据所述历史视频的视频话题,确定每个历史视频对应的热词对,得到第三热词对集合,所述第三热词对集合中包括每个历史视频对应的热词对;
对所述第三热词对集合中的热词对进行去重处理,得到第四热词对集合;
按照所述第四热词对集合中各热词对在所述第三热词对集合中出现次数从大到小的顺序,对所述第四热词对集合中的热词对进行排序;
分别根据排序后的第四热词对集合中的前M个热词对,更新所述历史热词共现网络,得到中间热词共现网络,并根据第二预设时长更新所述中间热词网络,得到所述当前热词共现网络。
在一种可能的实施方式中,所述更新模块具体用于:
若所述历史热词共现网络中不包括所述热词对中的两个热词,则将所述两个热词添加至所述历史热词共现网络,并在所述两个热词之间添加第一连接边,以及设置所述第一连接边的取值为当前周期所对应的时间;
若所述历史热词共现网络中不包括所述热词对中的一个热词,则将所述一个热词添加至所述历史热词共现网络,并在所述热词对中的两个热词之间添加第二连接边,以及设置所述第二连接边的取值为当前周期所对应的时间;
若所述历史热词共现网络中包括所述热词对中的两个热词,在所述两个热词之间具有第三连接边时,则在所述第三连接边的取值中增加所述当前周期所对应的时间;在所述两个热词之间不具有连接边时,则在所述两个热词之间添加第四连接边,以及设置所述第四连接边的取值为当前周期所对应的时间。
在一种可能的实施方式中,所述更新模块具体用于:
根据当前时刻和所述第二预设时长,确定最晚失效时刻;
在所述中间热词网络中各个连接边的取值中删除失效时刻,所述失效时刻早于所述最晚失效时刻;
若所述中间热词网络中存在第五连接边的取值为空,则在所述中间热词网络中删除所述第五连接边;若所述中间热词网络中存在第一热词没有对应的连接边,则在所述中间热词网络中删除所述第一热词,得到所述当前热词共现网络。
第三方面,本申请实施例提供一种电子设备,包括:存储器和处理器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,使得所述处理器执行第一方面任一项所述的视频话题确定方法。
第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当所述计算机执行指令被处理器执行时用于实现第一方面任一项所述的视频话题确定方法。
第五方面,本申请实施例提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现第一方面任一项所示的视频话题确定方法。
在本申请实施例中,服务器可以在待发布的第一视频中提取至少一个第一关键词,并在当前热词共现网络中为每个第一关键词确定对应的热词对,得到第一热词对集合,进而根据第一热词对集合中的每个热词对的出现次数和生成时刻,在第一热词对集合中确定至少一个目标热词。服务器可以根据至少一个目标热词,在包括多个视频话题的集合中为第一视频确定视频话题。由于可以在当前热词共现网络中确定目标热词,并根据目标热词自动生成视频话题,因此提高了确定视频话题的准确性。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请示例性实施例提供的一种应用场景的示意图;
图2为本申请示例性实施例提供的一种视频话题确定方法的流程示意图;
图3为本申请示例性实施例提供的当前热词共现网络的示意图;
图4为本申请示例性实施例提供的另一种视频话题确定方法的流程示意图;
图5为本申请示例性实施例提供的生成当前热词共现网络的流程示意图;
图6为本申请示例性实施例提供的历史热词共现网络的生成时刻的示意图;
图7为本申请示例性实施例提供的最晚失效时刻和失效时刻的示意图;
图8为本申请示例性实施例提供的更新历史热词共现网络的过程示意图;
图9为本申请示例性实施例提供的确定视频话题的过程示意图;
图10为本申请示例性实施例提供的一种视频话题确定装置的结构示意图;
图11为本申请示例性实施例提供的另一种视频话题确定装置的结构示意图;
图12为本申请示例性实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本申请示例性实施例提供的一种应用场景的示意图。如图1所示,包括终端设备101和服务器102。终端设备101可以为手机、电脑等设备。
终端设备101中可以安装视频应用程序(Application,APP)。当用户需要发布视频时,可以在终端设备101上通过视频APP,上传待发布的第一视频。例如,用户可以在视频APP中点击“上传”控件,上传第一视频。终端设备101可以向服务器102发送该第一视频,以使服务器102获取该第一视频。
服务器102可以对第一视频进行处理,以确定多个视频话题,并向终端设备101发送该多个视频话题。可选的,服务器102还可以确定并向终端设备101发送各视频话题对应的浏览量,以使终端设备101显示各视频话题以及对应的浏览量。例如,服务器确定的视频话题和对应的浏览量可以包括:“夏天穿搭”及对应的浏览量为21162373、“休闲风穿搭”及对应的浏览量为79977893、“穿搭小技巧”及对应的浏览量为39658970、“衬衣穿搭”及对应的浏览量为87562832。
用户可以根据视频话题对应的浏览量,在多个视频话题中选择第一视频的视频话题。例如,用户可以选择“衬衣穿搭”作为第一视频的视频话题。用户还可以点击“发布”控件,以使终端设备通过视频APP发布视频话题为“衬衣穿搭”的第一视频。
在相关技术中,用户通常需要根据短视频的内容思考对应的话题,并将思考的话题设置为短视频的话题,用户思考的话题可能不准确,并且用户有时候会为了蹭热度为视频增加无关的话题,导致确定视频话题的准确性较低。
在本申请实施例中,当需要发布视频时,服务器可以在待发布的第一视频中提取至少一个第一关键词,并在当前热词共现网络中为每个第一关键词确定对应的热词对,进而在多个热词对中确定至少一个目标热词。进一步的,可以根据至少一个目标热词,在包括多个视频话题的视频话题集合中为第一视频确定视频话题。由于可以在当前热词共现网络中确定目标热词,并根据目标热词自动生成视频话题,因此提高了确定视频话题的准确性。
下面,通过具体实施例对本申请所示的技术方案进行详细说明。需要说明的是,下面几个实施例可以单独存在,也可以相互结合,对于相同或相似的内容,在不同的实施例中不再重复说明。
图2为本申请示例性实施例提供的一种视频话题确定方法的流程示意图。请参见图2,该方法可以包括:
S201、在待发布的第一视频中提取至少一个第一关键词。
本申请实施例的执行主体可以为电子设备,也可以为设置在电子设备中的视频话题确定装置。视频话题确定装置可以通过软件实现,也可以通过软件和硬件的结合实现。电子设备可以为终端设备或者服务器,终端设备可以为手机、电脑等设备。为了便于理解,在下文中,以执行主体为服务器为例进行说明。
在一可选实施例中,可以通过如下方式提取至少一个第一关键词:在第一视频中提取语音信息和字幕信息;根据语音信息和字幕信息,确定待处理文本;对待处理文本进行切词处理、词汇过滤处理,得到多个待选词汇;根据多个待选词汇中各词汇的词频和待选词汇在待处理文本中的位置,在多个待选词汇中确定至少一个第一关键词。
可选的,服务器可以确定第一视频中的分镜,并根据分镜对第一视频进行切片处理,以得到视频切片。可以通过语音识别算法,识别视频切片中的旁白、对白等语音信息,并将语音信息转译为文字;可以通过文字识别算法识别视频切片中的字幕信息。服务器可以根据语音信息和字幕信息,确定待处理文本。
例如,若待发布的第一视频为视频1,则服务器可以在视频1中提取语音信息和字幕信息。假设提取到的语音信息包括“夏天的防晒技巧”、“如何选择防晒衣”、“流行的款式”等,提取到的字幕信息可以包括“穿搭记录”、“白色防晒衣”等,则可以确定待处理文本包括“夏天的防晒技巧”、“如何选择防晒衣”、“流行的款式”、“穿搭记录”、“白色防晒衣”等。
可选的,确定待处理文本之后,服务器可以通过自然语言处理(Natural LanguageProcessing,NLP)技术对待处理文本进行切词处理、词汇过滤处理,以得到多个待选词汇,并根据多个待选词汇中各词汇的词频进行排序,得到词序列;可以根据词序列和待选词汇在待处理文本中的位置,将词序列中的X个待选词汇确定为至少一个第一关键词。其中,X为正整数。
切词处理是指对待处理本文中的句子进行处理,得到句子中的各个词汇。例如,若对“夏天的防晒技巧”进行切词处理,则可以得到5个词汇,分别为“夏天”、“的”、“防晒”、“技巧”。
词汇过滤处理是指去除待处理文本中的停用词。停用词是指文本中没有实际含义的词汇。例如,停用词可以为“的”、“或者”、“和”、“在”、“里”、“而且”等词。
词频是指词汇在待处理文本中出现的频率。例如,“夏天”在待处理文本中的词频可以为25次。
例如,若待处理文本包括“夏天的防晒技巧”、“如何选择防晒衣”、“流行的款式”、“穿搭记录”、“白色防晒衣”,则经过切词处理和词汇过滤处理后,可以得到多个待选词汇,并确定各个待选词汇对应的词频。可以按照词频从高到低的顺序,对待选词汇进行排序,假设得到的词序列如表1所示:
表1
待选词汇 词频
防晒衣 22
夏天 15
穿搭 12
防晒 10
款式 8
白色 5
流行 2
技巧 1
记录 1
若设定X为3,则可以根据词频和待选词汇在待处理文本中的位置,将词汇“防晒衣”、“夏天”和“穿搭”确定为第一关键词。
S202、在当前热词共现网络中为每个第一关键词确定对应的热词对,得到第一热词对集合。
当前热词共现网络是指的最新的热词共现网络。
当前热词共现网络中可以包括多个热词对和多个热词对的生成时刻。即,当前热词共现网络中可以包括多个热词和多个连接边,连接边用于连接两个热词以形成一个热词对,连接边的取值用于指示连接边对应的热词对的生成时刻。
热词对中包括具有共现关系的两个热词。在同一个视频中出现的两个热词之间具有共现关系。
热词对的生成时刻用于指示产生该热词对的时刻。例如,可以通过包括该热词对的视频的发布时刻来表示该热词对的生成时刻,或者,可以通过包括该热词对的视频的发布时段所处周期的起始时刻来表示该热词对的生成时刻。包括该热词对的视频是指可以提取到热词对的视频。一个热词对的生成时刻可以为一个,也可以为多个。
下面,结合图3,对当前热词共现网络进行说明。
图3为本申请示例性实施例提供的当前热词共现网络的示意图。请参见图3,当前热词共现网络中可以包括“防晒”、“防晒衣”、“夏天”、“穿搭”、“裤子”、“衬衣”、“休闲风”等热词,组成的热词对可以包括:“夏天-防晒”、“夏天-防晒衣”、“防晒衣-穿搭”、“衬衣-穿搭”、“休闲风-穿搭”、“衬衣-裤子”等。其中,每个热词对的连接边有对应的取值,用于标记每个热词对的生成时刻。连接边对应的取值可以有一个或多个。例如,“衬衣-穿搭”的连接边的取值为(2205091400,2205091515),“穿搭-休闲风”的连接边的取值为2205091500。
在一可选实施例中,服务器可以根据至少一个第一关键词,在当前热词共现网络中确定第一关键词对应的热词对。第一关键词对应的热词对可以为一个或者多个,第一关键词对应的热词对中包括第一关键词。
例如,若第一关键词为“防晒衣”、“夏天”、“穿搭”,则可以根据“防晒衣”确定1个热词对,为“防晒衣-穿搭”;可以根据“穿搭”确定3个热词对,分别为“防晒衣-穿搭”、“休闲风-穿搭”、“衬衣-穿搭”;可以根据“夏天”确定2个热词对,分别为“夏天-防晒”、“夏天-防晒衣”。可以将该多个热词对组成为第一热词对集合,如表2所示:
表2
Figure BDA0003710390560000091
请参见表2,“防晒衣-穿搭”在第一热词对集合中出现了2次,为重复的热词对。
S203、根据第一热词对集合中每个热词对的出现次数和生成时刻,在第一热词对集合中确定至少一个目标热词。
在一可选实施例中,可以通过如下方式确定至少一个目标热词:对第一热词对集合中的热词对进行去重处理,得到第二热词对集合;计算第二热词对集合中每个热词在第一热词对集合中的出现次数;综合生成时刻的远近以及出现次数的多少,对第二热词对集合中的热词对进行排序;将排序后的第二热词对集合中的前N个热词对中的热词,确定为至少一个目标热词,N为大于或等于1的整数。
例如,若第一热词对集合如表2所示,其中“防晒衣-穿搭”出现了2次,则将第一热词对集合中的“防晒衣-穿搭”进行去重处理,则可以得到第二热词对集合。如表3所示:
表3
Figure BDA0003710390560000101
可选的,综合生成时刻的远近以及出现次数的多少,对第二热词对集合中的热词进行排序可以包括如下2种情况:
方式1:先按照生成时刻进行排序,再按照出现次数进行排序。
若排序后的第二热词对集合中存在至少两个热词对的生成时刻相同,则按照至少两个热词对在第一热词对集合中出现次数由大到小的顺序,对至少两个热词对进行排序。
例如,若第二热词对集合中各热词对的生成时刻如图3中所标记的连接边的取值,则可以按照生成时刻由近及远的顺序进行排序,则首先是生成时刻为2205091515的“防晒衣-穿搭”、“夏天-防晒衣”、“夏天-防晒”、“衬衣-穿搭”,其次是生成时刻为2205091500的“休闲风-穿搭”。其中,由于“衬衣-穿搭”的生成时刻有两个值,分别为2205091400和2205091515,则可以优先按照最近的时刻2205091515进行排序。排序结果如表4所示:
表4
热词对 生成时刻 次数
防晒衣-穿搭 2205091515 20
夏天-防晒衣 2205091515 15
夏天-防晒 2205091515 13
衬衣-穿搭 2205091400,2205091515 11
休闲风-穿搭 2205091500 20
可以计算每个热词对在第一热词对集合中的出现次数,假设每个热词对的出现次数如表4所示。当热词对的生成时刻相同时,可以按照出现次数进行排序。例如,如表4中,热词对“防晒衣-穿搭”、“夏天-防晒衣”、“夏天-防晒”、“衬衣-穿搭”的生成时刻为2205091515,“防晒衣-穿搭”的出现次数为20次、“夏天-防晒衣”的出现次数为15次、“夏天-防晒”的出现次数为13次、“衬衣-穿搭”的出现次数为11次,则按照出现次数由大到小的顺序进行排序,依次为“防晒衣-穿搭”、“夏天-防晒衣”、“夏天-防晒”、“衬衣-穿搭”。
方式2:先按照出现次数进行排序,再按照生成时刻进行排序。
若排序后的第二热词对集合中存在至少两个热词对的出现次数相同,则按照至少两个热词对的生成时刻由近及远的顺序,对至少两个热词对进行排序。
例如,若第二热词对集合中各热词对的生成时刻如图3中所标记的连接边的取值,出现的次数如表4中所示,则可以按照出现次数从大到小的顺序进行排序,则依次是出现次数为20次的“防晒衣-穿搭”和“休闲风-穿搭”、出现次数为15次的“夏天-防晒衣”、出现次数为13次的“夏天-防晒”、出现次数为11次的“衬衣-穿搭”。其中,“防晒衣-穿搭”和“休闲风-穿搭”的出现次数相同,则可以按照生成时刻由近及远的顺序进行排序。由于“防晒衣-穿搭”的生成时刻为2205091515,晚于“休闲风-穿搭”的生成时刻为2205091500,则“防晒衣-穿搭”排在“休闲风-穿搭”之前,排序结果可以如表5所示:
表5
热词对 次数 生成时刻
防晒衣-穿搭 20 2205091515
休闲风-穿搭 20 2205091500
夏天-防晒衣 15 2205091515
夏天-防晒 13 2205091515
衬衣-穿搭 11 2205091400,2205091515
若排序结果如表4所示,设定N为3,则可以将表4中前3个热词对中的热词,确定为目标热词,则目标热词可以包括“防晒衣”、“穿搭”、“夏天”、“防晒”。
S204、根据至少一个目标热词,在包括多个视频话题的视频话题集合中为第一视频确定视频话题。
在一可选实施例中,服务器可以根据至少一个目标热词在包括多个视频话题的视频话题集合中,确定多个待选视频话题,并在多个待选视频话题中确定第一视频的视频话题。
视频话题集合可以是预设的语料库。视频话题集合中可以包括各方面的视频话题。例如,视频话题集合中可以包括美妆、数码、做菜、服饰、学习、旅游等方面的视频话题。
待选视频话题可以包括至少一个第一待选视频话题和至少一个第二待选视频话题。可以通过如下方式1确定至少一个第一待选视频话题,以及通过如下方式2确定至少一个第二待选视频话题:
方式1:根据至少一个目标热词,在视频话题集合中确定至少一个第一待选视频话题。
可选的,服务器可以获取至少一个目标热词和视频话题集合中各视频话题之间的相似度;根据相似度在视频话题集合中确定至少一个第一待选视频话题。
例如,若目标热词包括“防晒衣”、“穿搭”、“夏天”、“防晒”,视频话题集合中包括100个视频话题,则服务器可以获取目标热词分别与该100个视频话题的相似度,进而根据相似度在视频话题集合中确定至少一个第一待选视频话题。假设可以确定的第一待选视频话题可以包括5个视频话题,分别为“夏天的防晒小技巧”、“夏天如何选择防晒衣”、“夏天如何防晒”、“夏天的防晒衣穿搭”、“夏天的穿搭方式”。
方式2:根据至少一个目标热词,生成至少一个第二待选视频话题。
可选的,服务器可以根据至少一个目标热词,通过长短期记忆模型(long-shortterm memory,LSTM)模型生成至少一个短句,以作为至少一个第二待选视频话题。
例如,若目标热词包括“防晒衣”、“穿搭”、“夏天”、“防晒”,假设服务器可以将目标热词随机组合成“防晒衣穿搭”、“夏天穿搭”、“夏天防晒”3个短句,则可以将该3个短句作为第二待选视频话题。
确定第一待选视频话题和第二待选视频话题之后,则可以在至少一个第一待选视频话题和至少一个第二待选视频话题中,确定第一视频的视频话题。
例如,若第一待选视频话题包括“夏天的防晒小技巧”、“夏天如何选择防晒衣”、“夏天如何防晒”、“夏天的防晒衣穿搭”、“夏天的穿搭方式”,第二待选视频话题包括“防晒衣穿搭”、“夏天穿搭”、“夏天防晒”,则可以在第一待选视频话题和第二待选视频话题中,根据相似度确定第一视频的视频话题为“夏天的防晒衣穿搭”。
确定第一视频的视频话题之后,服务器可以向终端设备发送第一视频的视频话题,以使终端设备可以在视频APP的发布视频页面显示视频话题。
可选的,当本申请实施例的执行主体为服务器时,服务器在确定得到第一视频的视频话题之后,还可以向终端设备发送所述第一视频的视频话题,以使终端设备显示第一视频的视频话题。当本申请实施例的执行主体为终端设备时,终端设备还可以显示所述第一视频的视频话题。
在本申请实施例中,服务器可以在待发布的第一视频中提取至少一个第一关键词,并在当前热词共现网络中为每个第一关键词确定对应的热词对,得到第一热词对集合,进而根据第一热词对集合中的各个热词对的出现次数和生成时刻,在第一热词对集合中确定至少一个目标热词。服务器可以根据至少一个目标热词,在包括多个视频话题的视频话题集合中为第一视频确定视频话题。由于可以在当前热词共现网络中确定目标热词,并根据目标热词自动生成视频话题,因此提高了确定视频话题的准确性。
下面,在图2所示实施例的基础上,结合图4,对上述步骤204进行进一步详细说明。
图4为本申请示例性实施例提供的另一种视频话题确定方法的流程示意图。请参见图4,该方法可以包括:
S401、获取至少一个目标热词和视频话题集合中各视频话题之间的相似度。
在一可选实施例中,可以通过如下方式获取至少一个目标热词和视频话题集合中各视频话题之间的相似度:确定至少一个目标热词对应的第一词向量;确定视频话题集合中各视频话题对应的话题关键词;根据视频话题集合中各视频话题对应的话题关键词,确定视频话题集合中各视频话题对应的第二词向量;根据第一词向量和各视频话题对应的第二词向量之间的相似度,确定至少一个目标热词和视频话题集合中各视频话题之间的相似度。
可以通过词汇处理模型或者算法,对词汇进行处理,以得到词向量。词向量可以通过独热编码(one-hot)表示。
可以通过相似度算法计算词向量之间的相似度。例如,相似度算法可以为余弦相似度算法、欧式距离算法和杰卡德(Jaccard)相似性系数算法等。
例如,若目标热词中包括“防晒衣”、“穿搭”、“夏天”、“防晒”,假设可以确定目标热词对应的词向量为词向量a。若视频话题集合中包括视频话题集合中包括100个视频话题,则服务器可以针对视频话题集合中的任意一个视频话题,确定该视频话题对应的话题关键词,进而确定对应的第二词向量。例如,若视频话题集合中包括的视频话题1为“夏天的穿搭方式”,则可以确定视频话题1对应的话题关键词分别为“夏天”、“穿搭”、“方式”,则可以根据该3个话题关键词确定视频话题1对应的一个第二词向量。
服务器可以通过相似度算法获取词向量a分别与100个视频话题对应的100个第二词向量之间的相似度。
S402、根据相似度在视频话题集合中确定至少一个第一待选视频话题。
可选的,可以将相似度大于预设阈值的视频话题确定为至少一个第一待选视频话题。
预设阈值可以由工作人员预设设定。例如,预设阈值可以为50%。
例如,若目标热词中包括“防晒衣”、“穿搭”、“夏天”、“防晒”,视频话题集合中的5个视频话题,分别为“夏天的防晒小技巧”、“夏天如何选择防晒衣”、“夏天如何防晒”、“夏天的防晒衣穿搭”、“夏天的穿搭方式”;目标热词与该5个视频话题之间的相似度分别为50%、55.6%、66.7%、75%、57.14%,若预设阈值为50%,则服务器可以将视频话题集合中的该5个视频话题确定为第一待选视频话题。
S403、根据至少一个目标热词,生成至少一个第二待选视频话题。
需要说明的是,步骤403的执行过程,可以参见步骤204中的方式2,此处不再进行赘述。
S404、获取至少一个目标热词与至少一个第二待选视频话题的相似度。
可选的,针对任意一个第二待选视频话题,可以确定第二待选视频话题对应的话题关键词,并根据话题关键词确定第二待选视频话题对应的第三词向量。可以根据目标热词对应的第一词向量与第三词向量之间的相似度,获取至少一个目标热词与至少一个第二待选视频话题的相似度。
例如,若目标热词包括“防晒衣”、“穿搭”、“夏天”、“防晒”,对应的词向量为词向量a;第二待选视频话题包括“防晒衣穿搭”、“夏天穿搭”、“夏天防晒”3个视频话题,则可以分别确定该3个视频话题分别对应的话题关键词,进而确定该3个视频话题分别对应的第三词向量。例如,“夏天穿搭”对应的话题关键词为“夏天”和“穿搭”,则可以根据“夏天”和“穿搭”确定一个第三词向量。若该3个视频话题分别对应的第三词向量为词向量1、词向量2、词向量3,则服务器可以通过相似度算法获取词向量a分别与词向量1、词向量2、词向量3之间的相似度分别为55.6%、44.4%、44.4%,则可以确定目标热词与该3个视频话题的相似度分别为55.6%、44.4%、44.4%。
S405、按照相似度从高到低的顺序,对至少一个第一待选视频话题和至少一个第二待选视频话题进行排序,得到排序后的待选视频话题。
例如,若目标热词包括“防晒衣”、“穿搭”、“夏天”、“防晒”,第一待选视频话题包括“夏天的防晒小技巧”、“夏天如何选择防晒衣”、“夏天如何防晒”、“夏天的防晒衣穿搭”、“夏天的穿搭方式”,第二待选视频话题包括“防晒衣穿搭”、“夏天穿搭”、“夏天防晒”,可以按照相似度从高到低的顺序,得到排序后的待选视频话题,如表6所示:
表6
视频话题 相似度
夏天的防晒衣穿搭 75%
夏天如何防晒 66.7%
夏天的穿搭方式 57.14%
夏天如何选择防晒衣 55.6%
防晒衣穿搭 55.6%
夏天的防晒小技巧 50%
夏天穿搭 44.4%
夏天防晒 44.4%
S406、将排序后的待选视频话题中的前K个视频话题确定为第一视频的视频话题。
例如,若排序后的待选视频话题的顺序如表5所示,设定K为3,则可以将前3个视频话题,即“夏天的防晒衣穿搭”、“夏天如何防晒”、“夏天的穿搭方式”,确定为第一视频的视频话题。
确定第一视频的视频话题之后,服务器可以向终端设备发送第一视频的视频话题,以使终端设备可以在视频APP的发布视频页面显示视频话题。
可选的,服务器还可以确定各视频话题对应的浏览量,并向终端设备发送各视频话题对应的浏览量,以使终端设备显示各视频话题以及对应的浏览量。
用户可以在多个视频话题中直接选择第一视频的视频话题,也可以基于视频话题进行二次创作,生成自己喜欢的视频话题。
在本申请实施例中,服务器可以根据至少一个目标热词在视频话题集合中确定至少一个第一待选视频话题;可以根据至少一个目标热词,生成至少一个第二待选视频话题;进而根据目标热词与视频话题的相似度,在至少一个第一待选视频话题和至少一个第二待选视频话题中,确定第一视频的视频话题。由于服务器可以根据目标热词自动生成视频话题,因此提高了确定视频话题的准确性。
在实际应用过程中,需要周期性(例如,每15分钟一次)更新热词共现网络,以使得热词共现网络可以反映最近时段的热点信息。即,需要周期性的对历史热词共现网络进行更新,以等得到当前热词共现网络。可选的,可以确定历史热词共现网络,可以获取在当前周期内发布的多个历史视频,并确定该多个历史视频的视频话题;进而根据多个历史视频的视频话题,更新历史热词共现网络,以得到当前热词共现网络。
下面,结合图5,对更新历史共现网络以得到当前热词共现网络的过程进行说明。
图5为本申请示例性实施例提供的生成当前热词共现网络的流程示意图。请参见图5,该方法包括:
S501、确定历史热词共现网络。
历史热词共现网络是指当前时刻之前已存在的热词共现网络。历史热词共现网络可以是在当前周期之前生成的。
下面,结合图6,对历史热词共现网络的生成时刻进行说明。
图6为本申请示例性实施例提供的历史热词共现网络的生成时刻的示意图。请参见图6,当前周期为包含当前时刻在内的第一预设长度的时间段,即当前时刻减去历史时刻等于第一预设长度的时间段。历史时刻是位于当前周期之前的时刻,例如,历史时刻可以为当前周期的起始时刻。历史热词共现网络可以是根据历史时段内多个历史视频的视频话题,在历史时刻生成的。该历史时段可以为历史时刻之前的时段。历史热词共现网络的生成时刻为图6中的历史时刻。
S502、获取在当前周期内发布的多个历史视频。
当前周期为包含当前时刻在内的第一预设长度的时间段。例如,第一预设长度的时间段可以为15分钟、30分钟等。
第一预设长度的时间段所对应的周期为热词共现网络的更新周期。例如,假设第一预设长度的时间段为15分钟,则每15分钟,对热词共现网络更新一次。
服务器可以获取当前周期内,多个用户发布的多个历史视频。例如,若当前周期为2022/5/9 15:15至2022/5/9 15:30之间的时段,则服务器可以获取视频APP中,多个用户在2022/5/9 15:15至2022/5/9 15:30间发布的多个历史视频。
S503、根据当前周期内历史视频的视频话题,确定每个历史视频对应的热词对,得到第三热词对集合。
服务器可以获取当前周期内多个历史视频的多个视频话题,并通过NLP技术提取多个视频话题中的多个关键词,并根据多个关键词确定每个历史视频对应的热词对,得到第三热词对集合。第三热词对集合中包括每个历史视频对应的热词对。
例如,若当前周期为2022/5/9 15:15至2022/5/9 15:30之间的时段,当前周期的起始时刻为2022/5/9 15:15。若当前周期内发布了多个历史视频,分别为历史视频1、历史视频2、历史视频3、……、历史视频n,对应的视频话题如表7所示:
表7
历史视频 视频话题 热词对 生成时刻
历史视频1 夏天的防晒小技巧 夏天-防晒 2205091515
历史视频2 夏天如何选择防晒衣 夏天-防晒衣 2205091515
历史视频3 衬衣的穿搭方式 衬衣-穿搭 2205091515
历史视频4 夏天如何防晒 夏天-防晒 2205091515
历史视频5 夏天的防晒衣穿搭 夏天-防晒衣、防晒衣-穿搭 2205091515
…… …… …… ……
历史视频n 视频话题n 热词对-p 2205091515
服务器可以通过NLP技术分别提取该n个视频话题中的关键词,并确定该n个历史视频分别对应的热词对。由于该n个历史视频是在当前周期内发布的,则可以将当前周期的起始时刻作为该n个历史视频对应的热词对的生成时刻,当前周期的起始时刻为2022/5/915:15,则该n个历史视频对应的各个热词对的生成时刻均为2022/5/9 15:15。例如,如表6中,可以确定历史视频1对应的热词对为“夏天-防晒”,该热词对的生成时刻可以为2022/5/9 15:15,可以记为2205091515。
若该n个历史视频对应的热词对总共有p个,则可以将该p个热词对确定为第三热词对集合。则第三热词对集合中有p个热词对,可以包括“夏天-防晒”、“夏天-防晒衣”、“衬衣-穿搭”、“防晒衣-穿搭”等热词对。第三热词对集合中的p个热词对中可以存在重复的热词对。
S504、对第三热词对集合中的热词对进行去重处理,得到第四热词对集合。
若第三热词对集合中包括p个热词对,该p个热词对中存在重复的热词对,则可以对第三热词对集合进行去重处理,可以得到q个热词对,则可以将该q个热词对作为第四热词对集合。
例如,若第三热词对集合中包括p个热词对,如表6中所示,分别出现了2个“夏天-防晒”和“夏天-防晒衣”,则可以进行去重处理,分别保留一个“夏天-防晒”和一个“夏天-防晒衣”。
S505、按照第四热词对集合中各热词对在第三热词对集合中出现次数从大到小的顺序,对第四热词对集合中的热词对进行排序。
例如,对第四热词对集合中的热词对进行排序,得到的排序结果可以如表8所示:
表8
热词对 生成时刻 出现次数
夏天-防晒 2205091515 10
夏天-防晒衣 2205091515 5
衬衣-穿搭 2205091515 3
防晒衣-穿搭 2205091515 3
…… …… ……
热词对-q 2205091515 x
S506、根据排序后的第四热词对集合中的前M个热词对,更新历史热词共现网络,得到中间热词共现网络。
若排序后的第四热词对集合如表7所示,设定M为4,则服务器可以分别根据表7中的前4个热词对,即“夏天-防晒”、“夏天-防晒衣”、“衬衣-穿搭”、“防晒衣-穿搭”,更新历史热词共现网络,得到中间热词共现网络。
针对前M个热词对中的任意一个热词对;根据热词对,更新历史热词共现网络,可以包括如下4种情况:
情况1:历史热词共现网络中不包括热词对中的两个热词。
在该种情况下,可以将两个热词添加至历史热词共现网络,并在两个热词之间添加第一连接边,以及设置第一连接边的取值为当前周期所对应的时间。
例如,若历史热词共现网络中不包括“夏天-防晒”,可以将“夏天”和“防晒”添加至历史热词共现网络中,并在“夏天”和“防晒”之间添加第一连接边,设置第一连接的取值为2205091515。
情况2:历史热词共现网络中不包括热词对中的一个热词。
在该种情况下,可以将一个热词添加至历史热词共现网络,并在热词对中的两个热词之间添加第二连接边,以及设置第二连接边的取值为当前周期所对应的时间。
例如,若历史热词共现网络中不包括“夏天-防晒衣”中的“防晒衣”,可以将“防晒衣”添加至历史热词共现网络中,并可以在“夏天”和“防晒衣”之间添加第二连接边,设置第二连接的取值为2205091515。
情况3:历史热词共现网络中包括热词对中的两个热词,两个热词之间具有第三连接边。
在该种情况下,可以在第三连接边的取值中增加当前周期所对应的时间。
例如,若历史热词共现网络中包括“衬衣-穿搭”中的“衬衣”和“穿搭”,且当“衬衣”和“穿搭”具有第三连接边,则可以增加“衬衣”和“穿搭”在当前周期中的所对应的生成时刻。若“衬衣-穿搭”在当前周期中的所对应的生成时刻为2022/5/9 15:15,第三连接边的原取值为2205091400,则可以在“衬衣”和“穿搭”之间的第三连接边中添加2205091515,则第三连接边的取值为(2205091400,2205091515)。
情况4:历史热词共现网络中包括热词对中的两个热词,两个热词之间不具有连接边。
在该种情况下,可以在两个热词之间添加第四连接边,以及设置第四连接边的取值为当前周期所对应的时间。
例如,若历史热词共现网络中包括“防晒衣-穿搭”中的“防晒衣”和“穿搭”,且当“防晒衣”和“穿搭”之间不具有连接边,则可以在“防晒衣”和“穿搭”之间添加第四连接边,并设置第四连接边的取值为2205091515。
S507、根据第二预设时长更新中间热词网络,得到当前热词共现网络。
第二预设时长可以为包括当前时刻在内的第二预设长度的时间段。例如,若当前时刻为2022/5/9 15:30,则第二预设时长可以为包含2022/5/9 15:30在内的24h。
可以通过以下三种方式对中间热词网络进行更新以得到当前热词共现网络:
方式1:删除各个连接边的取值中的失效时刻。
可以根据当前时刻和第二预设时长,确定最晚失效时刻,进而确定失效时刻。
下面,结合图7,对最晚失效时刻和失效时刻进行说明。
图7为本申请示例性实施例提供的最晚失效时刻和失效时刻的示意图。请参见图7,最晚失效时刻位于当前时刻之前,当前时刻与最晚失效时刻之间的差值为第二预设时长。失效时刻位于最晚失效时刻之前。
例如,若当前时刻为2022/5/9 15:30,第二预设时长为24h,则最晚失效时刻为2022/5/815:30,位于最晚失效时刻之前的时刻均为失效时刻。例如,失效时刻可以为2022/5/8 14:30。
服务器可以删除中间热词网络中各个连接边的取值中的失效时刻。例如,若“衬衣-裤子”的连接边中的取值为(2205091030,2205081045),最晚失效时刻为2022/5/8 15:30,则可以删除2205081045,“衬衣-裤子”的连接边的取值变为2205091030。
方式2:若中间热词网络中存在第五连接边的取值为空,则在中间热词网络中删除第五连接边。
例如,若“衬衣-休闲风”之间的连接边的取值为2205080830,位于最晚失效时刻之前,在方式1中已删除该连接边的取值2205080830,则该连接边的取值为空,则可以删除该连接边,即“衬衣”和“休闲风”之间不存在连接边。同样的,“鞋子-穿搭”之间的连接边的取值为2205081015,位于最晚失效时刻之前,则可以删除“鞋子-穿搭”之间的连接边。
方式3:若中间热词网络中存在第一热词没有对应的连接边,则在中间热词网络中删除第一热词。
例如,若中间热词网络中存在“鞋子”没有对应的连接边,则可以在中间热词网络中删除“鞋子”。
通过如上3种方式,可以根据第二预设时长更新中间热词网络,得到当前热词共现网络。
可选的,针对任意一个周期,可以根据当前周期内的历史视频的视频话题,对历史热词共线网络进行周期性更新,得到每个当前周期对应的当前热词共现网络。
在本申请实施例中,服务器可以获取在当前周期内发布的多个历史视频,并确定历史热词共现网络。服务器可以根据多个历史视频的视频话题,确定第三热词对集合,并对第三热词对集合进行去重处理,可以得到第四热词对集合,进而在第四热词对集合中确定前M个热词对。服务器可以根据前M个热词对,更新历史热词共现网络,得到中间热词共现网络,并根据第二预设时长更新中间热词网络,得到当前热词共现网络。由于服务器可以根据当前周期内的视频话题更新历史热词共现网络,得到当前热词共现网络,实现了对当前热点的追踪,提高了确定当前热词共现网络的准确性。
下面,在图5的基础上,结合图8,通过具体示例,对生成当前热词共现网络的过程进行说明。
图8为本申请示例性实施例提供的更新历史热词共现网络的过程示意图。请参见图8,包括历史热词共现网络、中间热词共现网络和当前热词共现网络。
请参见图8,若当前时刻为2022/5/9 15:30,历史时刻为2022/5/9 15:15,当前周期为2022/5/9 15:15至2022/5/9 15:30之间的时段,则该历史热词共现网络可以生成于2022/5/915:15。该历史热词共现网络中可以包括“穿搭”、“裤子”、“衬衣”、“休闲风”、“鞋子”等历史热词,组成的历史热词对可以包括“衬衣-穿搭”、“休闲风-穿搭”、“鞋子-穿搭”、“衬衣-休闲风”、“衬衣-裤子”等。
若服务器可以获取当前周期内发布的多个历史视频的视频话题,并确定每个历史视频对应的热词对,得到第三热词对集合,进而可以对第三热词对集合进行去重处理,得到第四热词对集合。可以对第四热词对集合中的热词对按照出现次数从大到小的顺序进行排序,确定前M个热词对。例如,若M为4,则服务器可以确定第四热词对集合中的前4个热词对,分别为“夏天-防晒”、“夏天-防晒衣”、“衬衣-穿搭”、“防晒衣-穿搭”,该4个热词对的生成时刻均可以为当前周期的起始时刻2022/5/9 15:15,则服务器可以根据该4个热词对以及热词对的生成时刻,更新历史热词共现网络,得到中间热词共现网络。
首先,可以根据“夏天-防晒”更新历史热词共现网络,由于历史热词共现网络中不包括“夏天-防晒”,则可以将“夏天”和“防晒”添加至历史热词共现网络。由于“夏天-防晒”的生成时刻为2022/5/9 15:15,则可以在“夏天”和“防晒”之间添加第一连接边,并设置第一连接的取值为2205091515。此时,历史热词共现网络中已经包括“夏天”和“防晒”两个热词。
接下来,可以根据“夏天-防晒衣”对历史热词共现网络进行更新,由于历史热词共现网络中已经包括“夏天”,不包括“防晒衣”,则可以将“防晒衣”添加至历史热词共现网络中。由于“夏天-防晒衣”的生成时刻为2022/5/9 15:15,则可以在“夏天”和“防晒衣”之间添加第二连接边,并设置第二连接的取值为2205091515。此时,历史热词共现网络中已经包括热词“防晒衣”。
接下来,可以根据“衬衣-穿搭”对历史热词共现网络进行更新,由于历史热词共现网络中包括“衬衣”和“穿搭”,且“衬衣”和“穿搭”之间具有第三连接边,则可以增加第三连接边的取值。若“衬衣-穿搭”的生成时刻为2022/5/9 15:15,第三连接边的原取值为2205091400,则可以在第三连接边的取值中添加2205091515,则第三连接边的取值变为(2205091400,2205091515)。
最后,可以根据“防晒衣-穿搭”对历史热词共现网络进行更新,由于历史热词共现网络中包括“防晒衣”和“穿搭”,且“防晒衣”和“穿搭”之间不具有连接边,则可以在“防晒衣”和“穿搭”之间添加第四连接边。由于“防晒衣-穿搭的生成时刻为2022/5/9 15:15,则第四连接边的取值可以为2205091515。通过以上步骤,可以得到中间热词网络,如图8所示。
得到中间热词网络之后,可以根据第二预设时长对中间热词网络进行更新。
若当前时刻为2022/5/9 15:30,设定第二预设时长为24h,则最晚失效时刻为2022/5/815:30,则位于最晚失效时刻之前的时刻均为失效时刻。在中间热词共现网络中,可以随机找一个热词,可以按照广度优先搜索的算法历遍该热词关联的所有连接边,可以删除掉各个连接边中取值位于2022/5/8 15:30之间的值。例如,若“衬衣-裤子”的连接边中的取值为(2205091030,2205081045),则可以删除2205081045,“衬衣-裤子”的连接边的取值变为2205091030。
若“衬衣-休闲风”之间的连接边的取值为2205080830,位于最晚失效时刻之前,则可以删除该连接边的取值2205080830,则该连接边的取值为空,进而可以删除该连接边,即“衬衣”和“休闲风”之间不存在连接边。同样的,可以删除“穿搭”和“鞋子”之间的连接边。由于中间热词网络中“鞋子”没有对应的连接边,则可以进一步删除“鞋子”。则可以得到当前热词网络。
该当前热词网络中包括的热词有“防晒”、“夏天”、“防晒衣”、“穿搭”、“休闲风”、“衬衣”和“裤子”。热词对之间的连接边的取值均位于当前时刻2022/5/9 15:15之前。
在本申请实施例中,服务器可以获取在当前周期内发布的多个历史视频,并确定历史热词共现网络。服务器可以根据多个历史视频的视频话题,确定第三热词对集合,并对第三热词对集合进行去重处理,可以得到第四热词对集合,进而在第四热词对集合中确定前M个热词对。服务器可以根据前M个热词对,更新历史热词共现网络,得到中间热词共现网络,并根据第二预设时长更新中间热词网络,得到当前热词共现网络。由于服务器可以根据当前周期内的视频话题更新历史热词共现网络,得到当前热词共现网络,实现了对当前热点的追踪,提高了确定当前热词共现网络的准确性。
下面,在上述任意一个实施例的基础上,结合图9,通过具体示例对确定视频话题的过程进行详细说明。
图9为本申请示例性实施例提供的确定视频话题的过程示意图。请参见图9,包括过程1和过程2。
请参见过程1,服务器可以通过算法在第一视频中提取语音信息和字幕信息,并根据语音信息和字幕信息,确定待处理文本。进而可以对待处理文本进行切词处理、词汇过滤处理,以得到多个待选词汇。可以根据多个待选词汇中各词汇的词频进行排序,得到词序列;可以根据词序列和待选词汇在待处理文本中的位置,将前X个待选词汇确定为至少一个第一关键词。其中,X为正整数。假设可以确定5个第一关键词,分别为关键词1、关键词2、关键词3、关键词4、关键词5。
确定多个第一关键词之后,可以在当前热词共现网络中为每个第一关键词确定对应的热词对,第一关键词对应的热词对可以为一个或者多个。例如,若关键词1为鲈鱼,则可以根据“鲈鱼”确定3个热词对,分别为“鲈鱼-清蒸”、“鲈鱼-钓鱼”、“鲈鱼-好吃”。假设服务器可以根据5个第一关键词在当前热词共现网络中确定a个热词对,则第一热词对集合中可以包括热词对1、热词对2、热词对3、……、热词对a。服务器可以对第一热词对集合中的热词对进行去重处理,得到第二热词对集合,并且可以先按照各个热词对的生成时刻由近及远的顺序,再按照词频从大到小的顺序对第二热词对集合中的热词对进行排序,可以将排序后的前N个热词中的热词确定为至少一个目标热词。例如,若N等于3,则服务器可以将排序后的前3个热词对中的热词确定为目标热词。假设,前3个热词对分别为热词1-热词2、热词1-热词3、热词3-热词4,则目标热词可以包括热词1、热词2、热词3、热词4。
请参见过程2,确定目标热词之后,则可以根据目标热词确定多个待选视频话题。多个视频话题中可以包括第一待选视频话题和第二待选视频话题。
服务器可以根据至少一个目标热词与视频话题集合中各视频话题之间的相似度,确定至少一个第一待选视频话题。假设服务器可以通过相似度算法,获取热词1、热词2、热词3、热词4与视频话题集合中各视频话题之间的相似度,并在视频话题集合中确定相似度大于预设阈值的视频话题包括:视频话题1-1、视频话题1-2、视频话题1-3、……、视频话题1-n,则可以进一步将视频话题1-1、视频话题1-2、视频话题1-3、……、视频话题1-n作为多个第一待选视频话题。
服务器可以根据目标热词,通过LSTM模型生成至少一个第二待选视频话题。假设生成的第二待选视频话题可以包括视频话题2-1、视频话题2-2、视频话题2-3、……、视频话题2-n。
确定第一待选视频话题和第二待选视频话题之后,服务器可以获取目标热词和每个第二待选视频话题之间的相似度。由于确定第一待选视频话题时,已经获取过目标热词和每个第一待选视频话题之间的相似度,则可以将多个第一待选视频话题和多个第二待选视频话题放在一起,共有2n个待选视频话题。可以按照相似度从高到低的顺序,对该2n个待选视频话题进行排序,得到排序后的待选视频话题。例如,按照相似度从高到低,排序后的待选视频话题的顺序可以为视频话题2-2、视频话题1-3、视频话题2-1、……、视频话题1-n、视频话题2-n。可以设定将前K个视频话题确定为第一视频的视频话题。例如,若K等于3,则可以将前3个视频话题,即可以将视频话题2-2、视频话题1-3、视频话题2-1,作为第一视频的视频话题。
确定第一视频的视频话题之后,服务器可以向终端设备发送第一视频的视频话题,以使终端设备可以在视频APP的发布视频页面显示视频话题。
在本申请实施例中,服务器可以在待发布的第一视频中提取至少一个第一关键词,并且可以在当前热词共现网络中为每个第一关键词确定对应的热词对,得到第一热词对集合,进而根据第一热词对集合中的各个热词对的出现次数和生成时刻,在第一热词对集合中确定至少一个目标热词。服务器可以根据至少一个目标热词,在包括多个视频话题的视频话题集合中确定至少一个第一待选视频话题;可以根据至少一个目标热词生成至少一个第二待选视频话题,并在至少一个第一待选视频话题和至少一个第二待选视频话题中确定第一视频的视频话题。由于可以在当前热词共现网络中确定目标热词,并根据目标热词自动生成视频话题,因此提高了确定视频话题的准确性。
图10为本申请示例性实施例提供的一种视频话题确定装置的结构示意图,请参见图10,该视频话题确定装置包括:提取模块11、第一确定模块12、第二确定模块13和第三确定模块14,其中,
所述提取模块11用于,在待发布的第一视频中提取至少一个第一关键词;
所述第一确定模块12用于,在当前热词共现网络中为每个第一关键词确定对应的热词对,得到第一热词对集合;所述当前热词共现网络中包括多个热词对和每个热词对的生成时刻;
所述第二确定模块13用于,根据所述第一热词对集合中每个热词对的出现次数和生成时刻,在所述第一热词对集合中确定至少一个目标热词;
所述第三确定模块14用于,根据所述至少一个目标热词在包括多个视频话题的视频话题集合中为所述第一视频确定视频话题。
本申请实施例提供的视频话题确定装置可以执行上述方法实施例所示的技术方案,其实现原理以及有益效果类似,此处不再进行赘述。
在一种可能的实施方式中,所述第二确定模块13具体用于:
对所述第一热词对集合中的热词对进行去重处理,得到第二热词对集合;
计算所述第二热词对集合中每个热词在所述第一热词对集合中的出现次数;
综合生成时刻的远近以及出现次数的多少,对所述第二热词对集合中的热词对进行排序;
将排序后的所述第二热词对集合中的前N个热词对中的热词,确定为所述至少一个目标热词,所述N为大于或等于1的整数。
在一种可能的实施方式中,所述第二确定模块13具体用于:
按照生成时刻由近及远的顺序,对所述第二热词对集合中的热词进行排序;若排序后的所述第二热词对集合中存在至少两个热词对的生成时刻相同,则按照所述至少两个热词对在所述第一热词对集合中出现次数由大到小的顺序,对所述至少两个热词对进行排序;
或者,
按照出现次数由大到小的顺序,对所述第二热词对集合中的热词进行排序;若排序后的所述第二热词对集合中存在至少两个热词对的出现次数相同,则按照所述至少两个热词对的生成时刻由近及远的顺序,对所述至少两个热词对进行排序。
在一种可能的实施方式中,所述第三确定模块14具体用于:
获取所述至少一个目标热词和所述视频话题集合中各视频话题之间的相似度;
根据所述相似度在所述视频话题集合中确定至少一个第一待选视频话题;
根据所述至少一个目标热词,生成至少一个第二待选视频话题;
在所述至少一个第一待选视频话题和至少一个所述第二待选视频话题中,确定所述第一视频的视频话题。
在一种可能的实施方式中,所述第三确定模块14具体用于:
确定所述至少一个目标热词对应的第一词向量;
确定所述视频话题集合中各视频话题对应的话题关键词,并根据所述视频话题集合中各视频话题对应的话题关键词,确定所述视频话题集合中各视频话题对应的第二词向量;
根据所述第一词向量和各视频话题对应的第二词向量之间的相似度,确定所述至少一个目标热词和所述视频话题集合中各视频话题之间的相似度。
在一种可能的实施方式中,所述第三确定模块14具体用于:
获取所述至少一个目标热词与所述至少一个第二待选视频话题的相似度;
按照相似度从高到低的顺序,对所述至少一个第一待选视频话题和所述至少一个第二待选视频话题进行排序,得到排序后的待选视频话题;
将所述排序后的待选视频话题中的前K个视频话题确定为所述第一视频的视频话题,所述K为大于或等于1的整数。
在一种可能的实施方式中,所述提取模块11具体用于:
在所述第一视频中提取语音信息和字幕信息;
根据所述语音信息和所述字幕信息,确定待处理文本;
对所述待处理文本进行切词处理、词汇过滤处理,得到多个待选词汇;
根据所述多个待选词汇中各词汇的词频和所述待选词汇在所述待处理文本中的位置,在所述多个待选词汇中确定所述至少一个第一关键词。
本申请实施例提供的视频话题确定装置可以执行上述方法实施例所示的技术方案,其实现原理以及有益效果类似,此处不再进行赘述。
图11为本申请示例性实施例提供的另一种视频话题确定装置的结构示意图。请参见图11,在图10所示实施例的基础上,所述视频话题确定装置还包括:第四确定模块15、获取模块16和更新模块17,其中,
所述第四确定模块15用于,确定历史热词共现网络;
所述获取模块16用于,获取在当前周期内发布的多个历史视频,所述当前周期为包含当前时刻在内的第一预设长度的时间段;所述更新模块17用于,根据所述多个历史视频的视频话题,更新所述历史热词共现网络,得到所述当前热词共现网络。
本申请实施例提供的视频话题确定装置可以执行上述方法实施例所示的技术方案,其实现原理以及有益效果类似,此处不再进行赘述。
在一种可能的实施方式中,所述当前热词共现网络中包括多个热词和多个连接边,所述连接边用于连接两个热词以形成一个热词对,所述连接边的取值用于指示所述连接边对应的热词对的生成时刻;
在一种可能的实施方式中,所述更新模块17具体用于:
根据所述历史视频的视频话题,确定每个历史视频对应的热词对,得到第三热词对集合,所述第三热词对集合中包括每个历史视频对应的热词对;
对所述第三热词对集合中的热词对进行去重处理,得到第四热词对集合;
按照所述第四热词对集合中各热词对在所述第三热词对集合中出现次数从大到小的顺序,对所述第四热词对集合中的热词对进行排序;
分别根据排序后的第四热词对集合中的前M个热词对,更新所述历史热词共现网络,得到中间热词共现网络,并根据第二预设时长更新所述中间热词网络,得到所述当前热词共现网络。
在一种可能的实施方式中,所述更新模块17具体用于:
若所述历史热词共现网络中不包括所述热词对中的两个热词,则将所述两个热词添加至所述历史热词共现网络,并在所述两个热词之间添加第一连接边,以及设置所述第一连接边的取值为当前周期所对应的时间;
若所述历史热词共现网络中不包括所述热词对中的一个热词,则将所述一个热词添加至所述历史热词共现网络,并在所述热词对中的两个热词之间添加第二连接边,以及设置所述第二连接边的取值为当前周期所对应的时间;
若所述历史热词共现网络中包括所述热词对中的两个热词,在所述两个热词之间具有第三连接边时,则在所述第三连接边的取值中增加所述当前周期所对应的时间;在所述两个热词之间不具有连接边时,则在所述两个热词之间添加第四连接边,以及设置所述第四连接边的取值为当前周期所对应的时间。
在一种可能的实施方式中,所述更新模块17具体用于:
根据当前时刻和所述第二预设时长,确定最晚失效时刻;
在所述中间热词网络中各个连接边的取值中删除失效时刻,所述失效时刻早于所述最晚失效时刻;
若所述中间热词网络中存在第五连接边的取值为空,则在所述中间热词网络中删除所述第五连接边;若所述中间热词网络中存在第一热词没有对应的连接边,则在所述中间热词网络中删除所述第一热词,得到所述当前热词共现网络。
本申请实施例提供的视频话题确定装置可以执行上述方法实施例所示的技术方案,其实现原理以及有益效果类似,此处不再进行赘述。
图10-图11实施例中所示的视频话题确定装置可以为服务器中的装置,也可以为终端设备(例如,手机、电脑)中的装置。
本申请示例性实施例提供一种电子设备的结构示意图,请参见图12,该电子设备20可以包括处理器21和存储器22。示例性地,处理器21、存储器22,各部分之间通过总线23相互连接。
所述存储器22存储计算机执行指令;
所述处理器21执行所述存储器22存储的计算机执行指令,使得所述处理器21执行如上述方法实施例所示的视频话题确定方法。
图12实施例中所示的电子设备可以为服务器,也可以为终端设备(例如,手机、电脑)。
相应地,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当所述计算机执行指令被处理器执行时用于实现上述方法实施例所述的视频话题确定方法。
相应地,本申请实施例还可提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时,可实现上述方法实施例所示的视频话题确定方法。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (14)

1.一种视频话题确定方法,其特征在于,包括:
在待发布的第一视频中提取至少一个第一关键词;
在当前热词共现网络中为每个第一关键词确定对应的热词对,得到第一热词对集合;所述当前热词共现网络中包括多个热词对和每个热词对的生成时刻;
根据所述第一热词对集合中每个热词对的出现次数和生成时刻,在所述第一热词对集合中确定至少一个目标热词;
根据所述至少一个目标热词,在包括多个视频话题的视频话题集合中为所述第一视频确定视频话题。
2.根据权利要求1所述的方法,其特征在于,根据所述第一热词对集合中每个热词对的出现次数和生成时刻,在所述第一热词对集合中确定至少一个目标热词,包括:
对所述第一热词对集合中的热词对进行去重处理,得到第二热词对集合;
计算所述第二热词对集合中每个热词在所述第一热词对集合中的出现次数;
综合生成时刻的远近以及出现次数的多少,对所述第二热词对集合中的热词对进行排序;
将排序后的前N个热词对中的热词,确定为所述至少一个目标热词,所述N为大于或等于1的整数。
3.根据权利要求2所述的方法,其特征在于,综合生成时刻的远近以及出现次数的多少,对所述第二热词对集合中的热词对进行排序,包括:
按照生成时刻由近及远的顺序,对所述第二热词对集合中的热词进行排序;若排序后的所述第二热词对集合中存在至少两个热词对的生成时刻相同,则按照所述至少两个热词对在所述第一热词对集合中出现次数由大到小的顺序,对所述至少两个热词对进行排序;
或者,
按照出现次数由大到小的顺序,对所述第二热词对集合中的热词进行排序;若排序后的所述第二热词对集合中存在至少两个热词对的出现次数相同,则按照所述至少两个热词对的生成时刻由近及远的顺序,对所述至少两个热词对进行排序。
4.根据权利要求1-3任一项所述的方法,其特征在于,根据所述至少一个目标热词,在包括多个视频话题的视频话题集合中为所述第一视频确定视频话题,包括:
获取所述至少一个目标热词和所述视频话题集合中各视频话题之间的相似度;
根据所述相似度在所述视频话题集合中确定至少一个第一待选视频话题;
根据所述至少一个目标热词,生成至少一个第二待选视频话题;
在所述至少一个第一待选视频话题和至少一个所述第二待选视频话题中,确定所述第一视频的视频话题。
5.根据权利要求4所述的方法,其特征在于,获取所述至少一个目标热词和所述视频话题集合中各视频话题之间的相似度,包括:
确定所述至少一个目标热词对应的第一词向量;
确定所述视频话题集合中各视频话题对应的话题关键词,并根据所述视频话题集合中各视频话题对应的话题关键词,确定所述视频话题集合中各视频话题对应的第二词向量;
根据所述第一词向量和各视频话题对应的第二词向量之间的相似度,确定所述至少一个目标热词和所述视频话题集合中各视频话题之间的相似度。
6.根据权利要求4所述的方法,其特征在于,在所述至少一个第一待选视频话题和所述至少一个第二待选视频话题中,确定所述第一视频的视频话题,包括:
获取所述至少一个目标热词与所述至少一个第二待选视频话题的相似度;
按照相似度从高到低的顺序,对所述至少一个第一待选视频话题和所述至少一个第二待选视频话题进行排序,得到排序后的待选视频话题;
将所述排序后的待选视频话题中的前K个视频话题确定为所述第一视频的视频话题,所述K为大于或等于1的整数。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述当前热词共现网络中包括多个热词和多个连接边,所述连接边用于连接两个热词以形成一个热词对,所述连接边的取值用于指示所述连接边对应的热词对的生成时刻;
在当前热词共现网络中为每个第一关键词确定对应的热词对,得到第一热词对集合之前,还包括:
确定历史热词共现网络;
获取在当前周期内发布的多个历史视频,所述当前周期为包含当前时刻在内的第一预设长度的时间段;
根据所述多个历史视频的视频话题,更新所述历史热词共现网络,得到所述当前热词共现网络。
8.根据权利要求7所述的方法,其特征在于,根据所述多个历史视频的视频话题,更新所述历史热词共现网络,得到所述当前热词共现网络,包括:
根据所述历史视频的视频话题,确定每个历史视频对应的热词对,得到第三热词对集合,所述第三热词对集合中包括每个历史视频对应的热词对;
对所述第三热词对集合中的热词对进行去重处理,得到第四热词对集合;
按照所述第四热词对集合中各热词对在所述第三热词对集合中出现次数从大到小的顺序,对所述第四热词对集合中的热词对进行排序;
分别根据排序后的第四热词对集合中的前M个热词对,更新所述历史热词共现网络,得到中间热词共现网络,并根据第二预设时长更新所述中间热词网络,得到所述当前热词共现网络。
9.根据权利要求8所述的方法,其特征在于,针对所述前M个热词对中的任意一个热词对;根据所述热词对,更新所述历史热词共现网络,包括:
若所述历史热词共现网络中不包括所述热词对中的两个热词,则将所述两个热词添加至所述历史热词共现网络,并在所述两个热词之间添加第一连接边,以及设置所述第一连接边的取值为当前周期所对应的时间;
若所述历史热词共现网络中不包括所述热词对中的一个热词,则将所述一个热词添加至所述历史热词共现网络,并在所述热词对中的两个热词之间添加第二连接边,以及设置所述第二连接边的取值为当前周期所对应的时间;
若所述历史热词共现网络中包括所述热词对中的两个热词,在所述两个热词之间具有第三连接边时,则在所述第三连接边的取值中增加所述当前周期所对应的时间;在所述两个热词之间不具有连接边时,则在所述两个热词之间添加第四连接边,以及设置所述第四连接边的取值为当前周期所对应的时间。
10.根据权利要求8或9所述的方法,其特征在于,根据第二预设时长更新所述中间热词网络,得到所述当前热词共现网络,包括:
根据当前时刻和所述第二预设时长,确定最晚失效时刻;
在所述中间热词网络中各个连接边的取值中删除失效时刻,所述失效时刻早于所述最晚失效时刻;
若所述中间热词网络中存在第五连接边的取值为空,则在所述中间热词网络中删除所述第五连接边;若所述中间热词网络中存在第一热词没有对应的连接边,则在所述中间热词网络中删除所述第一热词,得到所述当前热词共现网络。
11.根据权利要求1-10任一项所述的方法,其特征在于,在待发布的第一视频提取至少一个第一关键词,包括:
在所述第一视频中提取语音信息和字幕信息;
根据所述语音信息和所述字幕信息,确定待处理文本;
对所述待处理文本进行切词处理、词汇过滤处理,得到多个待选词汇;
根据所述多个待选词汇中各词汇的词频和所述待选词汇在所述待处理文本中的位置,在所述多个待选词汇中确定所述至少一个第一关键词。
12.一种电子设备,其特征在于,包括:存储器和处理器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,使得所述处理器执行如权利要求1至11任一项所述的视频话题确定方法。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当所述计算机执行指令被处理器执行时用于实现权利要求1至11任一项所述的视频话题确定方法。
14.一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现权利要求1至11任一项所述的视频话题确定方法。
CN202210723762.9A 2022-06-23 2022-06-23 视频话题确定方法、装置及设备 Active CN114938477B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210723762.9A CN114938477B (zh) 2022-06-23 2022-06-23 视频话题确定方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210723762.9A CN114938477B (zh) 2022-06-23 2022-06-23 视频话题确定方法、装置及设备

Publications (2)

Publication Number Publication Date
CN114938477A true CN114938477A (zh) 2022-08-23
CN114938477B CN114938477B (zh) 2024-05-03

Family

ID=82868936

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210723762.9A Active CN114938477B (zh) 2022-06-23 2022-06-23 视频话题确定方法、装置及设备

Country Status (1)

Country Link
CN (1) CN114938477B (zh)

Citations (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090124301A (ko) * 2008-05-29 2009-12-03 (주)쓰리소프트 검색어 연관 네트워크 서비스 방법
CN101952825A (zh) * 2008-02-20 2011-01-19 松下电器产业株式会社 对话式节目检索装置
JP2011041164A (ja) * 2009-08-18 2011-02-24 Nippon Telegr & Teleph Corp <Ntt> 映像要約方法および映像要約プログラム
CN103678670A (zh) * 2013-12-25 2014-03-26 福州大学 一种微博热词与热点话题挖掘系统及方法
CN104915447A (zh) * 2015-06-30 2015-09-16 北京奇艺世纪科技有限公司 一种热点话题追踪及关键词确定方法及装置
CN106202049A (zh) * 2016-07-18 2016-12-07 合网络技术(北京)有限公司 一种热词确定方法及装置
CN106610931A (zh) * 2015-10-23 2017-05-03 北京国双科技有限公司 话题名称的提取方法及装置
CN107122481A (zh) * 2017-05-04 2017-09-01 成都华栖云科技有限公司 新闻热度实时在线预测方法
CN107463552A (zh) * 2017-07-20 2017-12-12 北京奇艺世纪科技有限公司 一种生成视频主题名称的方法和装置
CN107577804A (zh) * 2017-09-26 2018-01-12 广东欧珀移动通信有限公司 联想词展示方法、移动终端以及计算机可读存储介质
CN108495185A (zh) * 2018-03-14 2018-09-04 北京奇艺世纪科技有限公司 一种视频标题生成方法和装置
CN108509490A (zh) * 2018-02-09 2018-09-07 中国农业大学 一种网络热点话题发现方法及系统
US20180329985A1 (en) * 2017-05-11 2018-11-15 Baidu International Technology (Shenzhen) Co., Ltd . Method and Apparatus for Compressing Topic Model
CN110377823A (zh) * 2019-06-28 2019-10-25 厦门美域中央信息科技有限公司 一种Hadoop框架下的热点挖掘系统的构建
CN110750682A (zh) * 2018-07-06 2020-02-04 武汉斗鱼网络科技有限公司 一种标题热词自动计量方法、存储介质、电子设备及系统
CN111190996A (zh) * 2020-04-10 2020-05-22 支付宝(杭州)信息技术有限公司 话题挖掘方法及装置
CN111324771A (zh) * 2020-02-26 2020-06-23 腾讯科技(深圳)有限公司 视频标签的确定方法、装置、电子设备及存储介质
CN111950729A (zh) * 2020-07-19 2020-11-17 中国建设银行股份有限公司 一种知识库构建方法、装置、电子设备和可读存储装置
CN112069950A (zh) * 2020-08-25 2020-12-11 北京字节跳动网络技术有限公司 提取热词的方法、系统、电子设备及介质
WO2020258662A1 (zh) * 2019-06-25 2020-12-30 平安科技(深圳)有限公司 关键词确定方法、装置、电子设备及存储介质
US10978077B1 (en) * 2019-10-31 2021-04-13 Wisdom Garden Hong Kong Limited Knowledge point mark generation system and method thereof
CN112767921A (zh) * 2021-01-07 2021-05-07 国网浙江省电力有限公司 一种基于缓存语言模型的语音识别自适应方法和系统
CN113850077A (zh) * 2021-09-27 2021-12-28 未鲲(上海)科技服务有限公司 基于人工智能的话题识别方法、装置、服务器及介质
CN113988053A (zh) * 2021-10-22 2022-01-28 中国烟草总公司郑州烟草研究院 一种热词提取方法及装置
WO2022042609A1 (zh) * 2020-08-31 2022-03-03 北京字节跳动网络技术有限公司 提取热词的方法、装置、电子设备及介质
CN114298018A (zh) * 2021-12-27 2022-04-08 咪咕文化科技有限公司 视频标题的生成方法、装置及存储介质
CN114357278A (zh) * 2020-09-28 2022-04-15 腾讯科技(深圳)有限公司 一种话题推荐方法、装置及设备

Patent Citations (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101952825A (zh) * 2008-02-20 2011-01-19 松下电器产业株式会社 对话式节目检索装置
KR20090124301A (ko) * 2008-05-29 2009-12-03 (주)쓰리소프트 검색어 연관 네트워크 서비스 방법
JP2011041164A (ja) * 2009-08-18 2011-02-24 Nippon Telegr & Teleph Corp <Ntt> 映像要約方法および映像要約プログラム
CN103678670A (zh) * 2013-12-25 2014-03-26 福州大学 一种微博热词与热点话题挖掘系统及方法
CN104915447A (zh) * 2015-06-30 2015-09-16 北京奇艺世纪科技有限公司 一种热点话题追踪及关键词确定方法及装置
CN106610931A (zh) * 2015-10-23 2017-05-03 北京国双科技有限公司 话题名称的提取方法及装置
CN106202049A (zh) * 2016-07-18 2016-12-07 合网络技术(北京)有限公司 一种热词确定方法及装置
CN107122481A (zh) * 2017-05-04 2017-09-01 成都华栖云科技有限公司 新闻热度实时在线预测方法
US20180329985A1 (en) * 2017-05-11 2018-11-15 Baidu International Technology (Shenzhen) Co., Ltd . Method and Apparatus for Compressing Topic Model
CN107463552A (zh) * 2017-07-20 2017-12-12 北京奇艺世纪科技有限公司 一种生成视频主题名称的方法和装置
CN107577804A (zh) * 2017-09-26 2018-01-12 广东欧珀移动通信有限公司 联想词展示方法、移动终端以及计算机可读存储介质
CN108509490A (zh) * 2018-02-09 2018-09-07 中国农业大学 一种网络热点话题发现方法及系统
CN108495185A (zh) * 2018-03-14 2018-09-04 北京奇艺世纪科技有限公司 一种视频标题生成方法和装置
CN110750682A (zh) * 2018-07-06 2020-02-04 武汉斗鱼网络科技有限公司 一种标题热词自动计量方法、存储介质、电子设备及系统
WO2020258662A1 (zh) * 2019-06-25 2020-12-30 平安科技(深圳)有限公司 关键词确定方法、装置、电子设备及存储介质
CN110377823A (zh) * 2019-06-28 2019-10-25 厦门美域中央信息科技有限公司 一种Hadoop框架下的热点挖掘系统的构建
US10978077B1 (en) * 2019-10-31 2021-04-13 Wisdom Garden Hong Kong Limited Knowledge point mark generation system and method thereof
CN111324771A (zh) * 2020-02-26 2020-06-23 腾讯科技(深圳)有限公司 视频标签的确定方法、装置、电子设备及存储介质
CN111190996A (zh) * 2020-04-10 2020-05-22 支付宝(杭州)信息技术有限公司 话题挖掘方法及装置
CN111950729A (zh) * 2020-07-19 2020-11-17 中国建设银行股份有限公司 一种知识库构建方法、装置、电子设备和可读存储装置
CN112069950A (zh) * 2020-08-25 2020-12-11 北京字节跳动网络技术有限公司 提取热词的方法、系统、电子设备及介质
WO2022042609A1 (zh) * 2020-08-31 2022-03-03 北京字节跳动网络技术有限公司 提取热词的方法、装置、电子设备及介质
CN114357278A (zh) * 2020-09-28 2022-04-15 腾讯科技(深圳)有限公司 一种话题推荐方法、装置及设备
CN112767921A (zh) * 2021-01-07 2021-05-07 国网浙江省电力有限公司 一种基于缓存语言模型的语音识别自适应方法和系统
CN113850077A (zh) * 2021-09-27 2021-12-28 未鲲(上海)科技服务有限公司 基于人工智能的话题识别方法、装置、服务器及介质
CN113988053A (zh) * 2021-10-22 2022-01-28 中国烟草总公司郑州烟草研究院 一种热词提取方法及装置
CN114298018A (zh) * 2021-12-27 2022-04-08 咪咕文化科技有限公司 视频标题的生成方法、装置及存储介质

Also Published As

Publication number Publication date
CN114938477B (zh) 2024-05-03

Similar Documents

Publication Publication Date Title
CN109190017B (zh) 热点信息的确定方法、装置、服务器及存储介质
CN109690529B (zh) 按事件将文档编译到时间线中
US8775442B2 (en) Semantic search using a single-source semantic model
CN107180093B (zh) 信息搜索方法及装置和时效性查询词识别方法及装置
CN106202294B (zh) 基于关键词和主题模型融合的相关新闻计算方法及装置
US11907659B2 (en) Item recall method and system, electronic device and readable storage medium
CN109829108B (zh) 信息推荐方法、装置、电子设备及可读存储介质
WO2012141934A1 (en) Method and apparatus of determining product category information
US20150339700A1 (en) Method, apparatus and system for processing promotion information
CN105302807B (zh) 一种获取信息类别的方法和装置
CN107368489B (zh) 一种资讯数据处理方法及装置
WO2013192093A1 (en) Search method and apparatus
CN111639255B (zh) 搜索关键词的推荐方法、装置、存储介质及电子设备
CN110019669B (zh) 一种文本检索方法及装置
CN103309869A (zh) 数据对象的展示关键词推荐方法及系统
CN111159341A (zh) 基于用户投资理财偏好的资讯推荐方法及装置
CN113220904A (zh) 数据处理方法及数据处理装置、电子设备
CN108304421B (zh) 一种信息搜索方法及装置
CN103853763A (zh) 获取信息的方法和装置
CN111966899B (zh) 搜索排序方法、系统及计算机可读存储介质
CN102722557A (zh) 一种相同数据块的自适应识别方法
CN105550282A (zh) 利用多维数据预测用户兴趣的方法
CN114938477A (zh) 视频话题确定方法、装置及设备
CN112687079A (zh) 灾害预警方法、装置、设备及存储介质
CN110019783B (zh) 属性词聚类方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant