CN114625922A - 一种构建词库的方法、装置、电子设备及存储介质 - Google Patents

一种构建词库的方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114625922A
CN114625922A CN202011454125.3A CN202011454125A CN114625922A CN 114625922 A CN114625922 A CN 114625922A CN 202011454125 A CN202011454125 A CN 202011454125A CN 114625922 A CN114625922 A CN 114625922A
Authority
CN
China
Prior art keywords
noun
phrase
short video
noun phrase
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011454125.3A
Other languages
English (en)
Inventor
杨帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dajia Internet Information Technology Co Ltd filed Critical Beijing Dajia Internet Information Technology Co Ltd
Priority to CN202011454125.3A priority Critical patent/CN114625922A/zh
Publication of CN114625922A publication Critical patent/CN114625922A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/71Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本公开提供一种构建词库的方法、装置、电子设备及存储介质,用于构建短语丰富的词库。该方法包括:确定短视频文档源中短视频所属的垂类类别;对垂类类别中的短视频进行文字提取处理,获得第一文字信息;对类别中的短视频对应的语音信息进行语音识别处理,获得第二文字信息;从第一文字信息和第二文字信息中获取对应的名词集合,名词集合中包括至少一个名词短语;确定每个名词短语的参考值,参考值用于衡量名词短语在短视频文档库中的重要程度,短视频文档库为名词短语所对应的垂类类别对应的文档库;将名词集合中名词短语的参考值大于预设值的名词短语,确定为候选短语,并根据候选短语构建垂类类别的词库,以构建短视频文档源的词库。

Description

一种构建词库的方法、装置、电子设备及存储介质
技术领域
本公开涉及计算机技术领域,尤其涉及一种构建词库的方法、装置、电子设备及存储介质。
背景技术
随着科学技术的高速发展,一种新的内容表达形式即短视频,逐渐成为人们喜爱的内容表达方式,而如何快速且准确的对短视频内容进行分析,为用户提供更为优质的服务,成为关注的焦点。
目前,相关技术中对短视频进行文本分析时,一般都是对短视频标题中的名称进行提取,从而确定短视频对应的关键词,并基于该关键词构建词库。这样的方式,导致词库仅依据标题对应的关键词构建,丰富性较差。
发明内容
本公开提供一种构建词库的方法、装置、电子设备及存储介质,用于构建短语丰富的词库。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种构建词库的方法,所述方法包括:
确定短视频文档源中短视频所属的垂类类别;
对垂类类别中的短视频进行文字提取处理,获得第一文字信息;以及,对垂类类别中的短视频对应的语音信息进行语音识别处理,获得第二文字信息;
从所述第一文字信息和所述第二文字信息中获取对应的名词集合,所述名词集合中包括至少一个名词短语;
确定每个所述名词短语的参考值,其中,所述参考值用于衡量名词短语在短视频文档库中的重要程度,所述短视频文档库为名词短语所对应的垂类类别对应的文档库;
将所述名词集合中名词短语的参考值大于预设值的名词短语,确定为候选短语,并根据所述候选短语构建所述垂类类别的词库,以构建所述短视频文档源的词库。
在一种可能的实施方式中,确定每个所述名词短语的参考值,包括:
基于所述名词短语的短语获取源和/或所述名词短语的属性,确定每个所述名词短语的参考值,其中,所述短语获取源包括所述第一文字信息和所述第二文字信息。
在一种可能的实施方式中,基于所述名词短语的短语获取源和/或所述名词短语的属性,确定每个所述名词短语的参考值,包括:
确定每个所述名词短语在对应的垂类类别的短视频文档库中的词频;
基于每个所述名词短语的短语获取源,确定每个所述名词短语的权值;
将每个所述名词短语对应的词频与所述权值相乘,确定每个所述名词短语的参考值。
在一种可能的实施方式中,基于每个所述名词短语的短语获取源,确定每个所述名词短语的权值,包括:
确定每个所述名词短语的标识,并基于所述标识确定每个所述名词短语的短语获取源;
若确定每个所述名词短语的短语获取源为所述第一文字信息,则基于每个所述名词短语的提取源和权值的对应关系,确定每个所述名词短语的权值;其中,所述名词短语的提取源为提取所述第一文字信息的位置来源;
若确定每个所述名词短语的短语获取源为所述第二文字信息,则确定每个所述名词短语的权值为固定权值。
在一种可能的实施方式中,基于所述名词短语的短语获取源和/或所述名词短语的属性,确定所述名词短语的参考值,包括:
确定垂类类别的短视频文档库的第一短视频数目;以及,确定垂类类别的短视频文档库中,包含第一名词短语的短视频文档的第二短视频数目;所述第一名词短语为所述名词集合中任意一个名词短语;
将所述第二短视频数目与预设权值相乘,获得第一结果值,其中,所述预设权值用于降低所述第二短视频数目对所述参考值的比重;
确定所述第一短视频数目除以所述第一结果值所得商的对数值,并根据所述对数值确定所述第一名词短语的逆文档频率;
根据所述第一名词短语的词频和所述逆文档频率,确定所述第一名词短语的参考值,以确定每个所述名词短语的参考值。
在一种可能的实施方式中,根据所述候选短语构建所述每个垂类类别的词库,以构建所述短视频文档源的词库,包括:
基于所述参考值对所述候选短语进行排序处理;
基于排序处理后的次序,对所述候选短语排序构建所述垂类类别的词库。
在一种可能的实施方式中,所述方法还包括:
若所述垂类类别中所包括的短视频更新,则对所述候选短语的排序进行更新,以更新所述垂类类别的词库。
根据本公开实施例的第二方面,提供一种构建词库的装置,所述装置包括:
确定单元,被配置为执行确定短视频文档源中短视频所属的垂类类别;
获得单元,被配置为执行对垂类类别中的短视频进行文字提取处理,获得第一文字信息;以及,对垂类类别中的短视频对应的语音信息进行语音识别处理,获得第二文字信息;
获取单元,被配置为执行从所述第一文字信息和所述第二文字信息中获取对应的名词集合,所述名词集合中包括至少一个名词短语;
处理单元,被配置为执行确定每个所述名词短语的参考值,其中,所述参考值用于衡量名词短语在短视频文档库中的重要程度,所述短视频文档库为名词短语所对应的垂类类别对应的文档库;
构建单元,被配置为执行将所述名词集合中名词短语的参考值大于预设值的名词短语,确定为候选短语,并根据所述候选短语构建所述垂类类别的词库,以构建所述短视频文档源的词库。
在一种可能的实施方式中,所述处理单元被配置为执行:
基于所述名词短语的短语获取源和/或所述名词短语的属性,确定每个所述名词短语的参考值,其中,所述短语获取源包括所述第一文字信息和所述第二文字信息。
在一种可能的实施方式中,所述处理单元被配置为执行:
确定每个所述名词短语在对应的垂类类别的短视频文档库中的词频;
基于每个所述名词短语的短语获取源,确定每个所述名词短语的权值;
将每个所述名词短语对应的词频与所述权值相乘,确定每个所述名词短语的参考值。
在一种可能的实施方式中,所述处理单元被配置为执行:
确定每个所述名词短语的标识,并基于所述标识确定每个所述名词短语的短语获取源;
若确定每个所述名词短语的短语获取源为所述第一文字信息,则基于每个所述名词短语的提取源和权值的对应关系,确定每个所述名词短语的权值;其中,所述名词短语的提取源为提取所述第一文字信息的位置来源;
若确定每个所述名词短语的短语获取源为所述第二文字信息,则确定每个所述名词短语的权值为固定权值。
在一种可能的实施方式中,所述处理单元被配置为执行:
确定一个垂类类别的短视频文档库的第一短视频数目;以及,确定所述一个垂类类别的短视频文档库中,包含第一名词短语的短视频文档的第二短视频数目;所述第一名词短语为所述名词集合中任意一个名词短语;
将所述第二短视频数目与预设权值相乘,获得第一结果值,其中,所述预设权值用于降低所述第二短视频数目对所述参考值的比重;
确定所述第一短视频数目除以所述第一结果值所得商的对数值,并根据所述对数值确定所述第一名词短语的逆文档频率;
根据所述第一名词短语的词频和所述逆文档频率,确定所述第一名词短语的参考值,以确定每个所述名词短语的参考值。
在一种可能的实施方式中,所述构建单元被配置为执行:
基于所述参考值对所述候选短语进行排序处理;
基于排序处理后的次序,对所述候选短语排序构建所述垂类类别的词库。
在一种可能的实施方式中,所述装置还包括更新单元,所述更新单元被配置为执行:
若所述垂类类别中所包括的短视频更新,则对所述候选短语的排序进行更新,以更新所述垂类类别的词库。
根据本公开实施例的第三方面,提供一种电子设备,所述电子设备包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,处理器被配置为执行指令,以实现本公开实施例上述第一方面以及第一方面涉及的任一可能涉及的方法。
根据本公开实施例的第四方面,提供一种存储介质,当存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行本公开实施例上述第一方面以及第一方面涉及的任一可能涉及的方法。
根据本公开实施例的第五方面,提供一种计算机程序产品,当所述计算机程序产品在电子设备上运行时,使得所述电子设备执行实现本公开实施例上述第一方面以及第一方面任一可能涉及的方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
在本公开实施例中,可以确定短视频文档源中短视频所属的垂类类别,即对短时频文档源中所包括的短视频进行所述垂类类别的划分。这样的方式,可以更为细化的对短视频进行分类,为后续构建不同的垂类类别的词库提供良好的实施基础。
在本公开实施例中,还可以对垂类类别中的短视频进行文字提取处理,获得第一文字信息;以及,对垂类类别中的每个短视频对应的语音信息进行语音识别处理,获得第二文字信息,并从第一文字信息和第二文字信息中获取对应的名词集合,名词集合中包括至少一个名词短语。也就是说,本公开实施例可以基于短视频所对应的图像信息和语音信息两方面来提取短视频所对应的所有文字信息,从而可以扩大短视频对应的短语的获取来源,进而丰富构建词库的基础短语。
进一步地,可以确定每个名词短语的参考值,其中,参考值用于衡量名词短语在短视频文档库中的重要程度,短视频文档库为名词短语所对应的垂类类别对应的文档库,然后将名词集合中名词短语的参考值大于预设值的名词短语,确定为候选短语,并根据候选短语构建垂类类别的词库,以构建短视频文档源的词库。
可见,在本公开实施例中,可以基于参考值筛选构建词库的名词短语,从而可以构建丰富性较强的垂类类别的词库,以实现对短视频文档源的词库的构建。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种应用场景的示意图;
图2是根据一示例性实施例示出的一种构建词库的方法的流程示意图;
图3是根据一示例性实施例示出的帧图像提取文本文字的示意图;
图4是根据一示例性实施例示出的一种构建词库的装置的结构框图;
图5为根据一示例性实施例示出的电子设备的结构示意图;
图6为根据一示例性实施例示出的电子设备的另一结构示意图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
下面对本公开实施例的设计思想进行简要介绍:
目前,相关技术中仅依靠对短视频的标题提取的词语构建词库,这样的方式,导致构建的词库的丰富性较差。
鉴于此,本公开实施例提供一种构建词库的方法,通过该方法,可以对短视频中所出现的文字进行提取,获取较为丰富的词语,从而构建词语丰富的词库。
介绍完本公开实施例的设计思想之后,下面对本公开实施例中的构建词库的技术方案适用的应用场景做一些简单介绍,需要说明的是,本公开实施例描述的应用场景是为了更加清楚的说明本公开实施例的技术方案,并不构成对于本公开实施例提供的技术方案的限定,本领域普通技术人员可知,随着新应用场景的出现,本公开实施例提供的技术方案对于类似的技术问题,同样适用。
在本公开实施例中,该技术方案可以应用于基于视频内容构建词库的任一场景,例如构建短视频词库等,本公开实施例中不做限定,为了便于更好的理解方案,本公开后文中以对构建短视频词库为例进行说明。
需要说明的是,在本公开实施例中,短视频可以理解为传播的时长在预定时长以内的视频,该预定时长可以是10秒,还可以是3分钟,当然也可以是5分钟等等,可以根据具体的情况对应确定,本公开实施例中不做限制。
在具体的实施过程中,请参见图1所示的一种应用场景示意图,应用场景图中包括两个终端101和一个电子设备102,可以通过终端101登录短视频平台(未示出)。需要说明的是,图1中仅以两个终端101和一个电子设备102进行交互为例进行示出,在具体实施过程中,可以是多个终端101与一个电子设备102之间进行交互。
在具体的实施过程中,终端101和电子设备102之间可以通过一个或者多个通信网络103进行通信连接。该通信网络103可以是有线网络,也可以是无线网络,例如无线网络可以是移动蜂窝网络,或者可以是无线保真(WIreless-Fidelity,WIFI)网络,当然还可以是其他可能的网络,本公开实施例对此不做限定。
在本公开实施例中,用户可以通过终端101登录短视频平台进行短视频发布操作,也可以进行短视频播放等操作。电子设备102可以是从终端101处获取用户在短视频平台发布的短视频,也可以是从与终端101对应的短视频数据存储云端对应的服务器获取短视频,本公开实施例中不做限制。
具体的,当电子设备102获取到短视频后,可以对短视频进行相关处理,获得短视频对应的文本信息,并且对文本信息进行分词处理,获得名词短语,从而可以根据名词短语构建对应的词库。
下面结合说明书附图介绍本公开实施例提供的技术方案。
图2是本公开实施例提供的一示例性构建词库的方法的流程图,如图2所示,该方法可以应用于前述的电子设备。图2所示的流程图描述如下。
步骤201:确定短视频文档源中短视频所属的垂类类别。
在本公开实施例中,短视频文档源可以是多个终端中的多个应用,短视频可以是用户在应用中发布或浏览的视频。具体的,不同的文档源获取的短视频不同。例如,从终端A中获取对应的短视频平台应用1的短视频文档源,或者是从终端V中获取的对应社交平台应用2的短视频文档源。
在本公开实施例中,可以获取来自至少一个短视频文档源的短视频,然后可以是按照预设规则从多个短视频文档源中进行抽取,获得多个短视频。其中,预设规则可以是预设的筛选时间段和/或筛选数量。例如,可以从多个短视频文档源中筛选最近一个月的短视频,或者是从多个短视频文档源中筛选10万个短视频,当然,也可以是从多个短视频文档源中筛选出半年的短视频且筛选数量为30万个短视频。这样的方式,可以使得获取的短视频的数量较大,从而为后续词库中短语的获得提供丰富的来源。此外,还可以实时获取多个短视频文档源中的短视频,可以为后续词库提供较新的短语来源,进一步丰富且更新词库。
在本公开实施例中,预设规则还可以是基于短视频对应的浏览量、短视频对应的点赞数,或其它对短视频的喜爱表现形式的数据对短视频进行筛选。例如,可以从至少一个短视频文档源中,筛选浏览量大于10万的短视频,或者是从至少一个短视频文档源中,筛选点赞数大于2万的短视频,还可以是从至少一个短视频文档源中,筛选转发数或点赞数大于1万的短视频。这样的方式,即获取的短视频为用户浏览量较大的视频,可以为后续词库的构建提供较为新颖且可用性较高的短语。
在本公开实施例中,当确定获取到短视频之后,可以确定短视频文档源中短视频所属的垂类类别。在具体的实施过程中,可以基于多模态模型对短视频进行分类,具体的,可以结合短视频中的图像、文本文字、音频、以及音乐等信息对短视频进行分类,从而确定一个短视频最终对应的一个垂类类别。
在具体的实施过程中,可以基于多模态模型将短视频划分为至少20个大的垂类类别,垂类类别具体可以是:音乐、舞蹈、娱乐、游戏、三农、健康、运动、财经、法律、家装、搞笑、二次元、摄影、旅游、穿搭、美妆、汽车、美食、直播、资讯等。
需要说明的是,本公开实施例中的短视频垂类类别的划分,可以是基于实际实施情况确定。具体的,当获取的短视频进行更新时,短视频对应的垂类类别也可以对应更新。也就是说,本公开实施例中的垂类类别是可以更新的,例如可以是周期性(一个月一次)的更新。这样的方式,使得对获取的短视频的类别划分准确性较高且丰富性较强。
步骤202:对垂类类别中的短视频进行文字提取处理,获得第一文字信息;以及,对垂类类别中的短视频对应的语音信息进行语音识别处理,获得第二文字信息。
步骤203:从第一文字信息和第二文字信息中获取对应的名词集合,名词集合中包括至少一个名词短语。
在本公开实施例中,当对确定每个短视频所属的垂类类别之后,可以对垂类类别中的短视频进行文字提取处理和语音识别处理,从而可以获得第一文字信息和第二文字信息,然后可以从第一文字信息和第二文字信息中获取对应的名词集合,名词集合中包括至少一个名词短语。
为了便于对获取垂类类别对应的名词集合的技术方案的理解,后文中以对一个短视频的处理过程为例进行说明,垂类类别中的其它短视频的处理过程与其相同。
在本公开实施例中,可以对短视频进行拆帧处理,获得多个帧图像,然后可以对多个帧图像使用图像识别技术识别每个帧图像中的字幕,从而可以获取短视频字幕中所出现的文字。需要说明的是,在实际实施过程中,字幕可以出现在帧图像的任意位置,本公开实施例中不做限制。
例如,请参见图3,图3为本公开实施例中示出的帧图像中提取文字的示意图,具体的,图3中包括2个示意图,分别为a示意图和b示意图,a示意图对应示出的是终端播放短视频,b示意图对应示出的是包括字幕的帧图像,其中,b示意图中椭圆符号圈出对应的部分为字幕区域,可以对该区域进行特征提取处理,获得文字信息。
在具体的实施过程中,还可以提取短视频对应的标题所对应的文字信息,以及提取短视频中背景出现的文字信息,例如用户在展示内容时背景墙上所出现的文字信息,从而可以将从字幕、标题以及背景等位置所提取的文字信息确定为第一文字信息。
在具体的实施过程中,还可以提取短视频的音频内容,然后对音频内容进行语音识别处理,获得语音识别所对应的文字,即获得第二文字信息。
可见,在本公开实施例中,不仅仅提取短视频标题中的文字,还提取短视频内容中所出现的文字即短视频播放时的字幕对应的文字信息以及背景中出现的文字信息,并且提取短视频音频对应的语音识别文字,这样的方式,可以获取到更丰富的指示短视频内容的文字内容,实现对短视频更完整的描述,且为后续对短视频所包括的文字信息的分词提供良好的实施基础。
在本公开实施例中,当获得短视频所包括的第一文字信息和第二文字信息之后,从第一文字信息和第二文字信息中获取对应的名词集合,即对第一文字信息和第二文字信息进行分词处理。具体的,可以是基于字符串匹配的分词方法、还可以是基于理解的分词方法,当然,也可以是基于统计的分词方法,本公开实施例中不做限定。
在具体的实施过程中,可以使用自然语言处理的各种分词工具对第一文字信息和第二文字信息进行分词处理,例如,可以使用结巴分词工具中的精确模式、全模式或者是搜索引擎模式对文本信息进行分词处理,也可以是使用基于SnowNLP工具对文本信息进行分词处理。
在本公开实施例中,当短视频所包括的第一文字信息和第二文字信息进行分词处理后,可以获得多个名词短语,从而可以获得垂类类别对应的名词集合。
步骤204:确定每个名词短语的参考值,其中,参考值用于衡量名词短语在短视频文档库中的重要程度,短视频文档库为名词短语所对应的垂类类别对应的文档库。
在本公开实施例中,可以基于名词短语的短语获取源和/或名词短语的属性,确定每个名词短语的参考值,其中,短语获取源包括所述第一文字信息和所述第二文字信息,然后可以基于参考值确定垂类类别对应的候选短语。
在本公开实施例中,可以采用但不限于以下两种方式确定每个名词短语的参考值,下面将进行具体的说明。
方式一:
在本公开实施例中,可以确定每个名词短语在对应的垂类类别的短视频文档库中的词频,然后基于每个名词短语的短语获取源,确定每个名词短语的权值,再将每个名词短语对应的词频与权值相乘,确定每个名词短语的参考值。
在本公开实施例中,可以基于每个名词短语具体的短语获取源(例如第一文字信息或第二文字信息),对应确定每个名词短语在对应的垂类类别的短视频文档库中的重要程度,这样的方式,由于是基于短语获取源,即名词短语的在短视频中的归属位置,从而可以较为准确的考虑到名词短语位于不同归属位置对短视频对应的实体划分意义的不同,进而可以较为准确的确定构建垂类类别的短语。
在本公开实施例中,可以确定每个名词短语的标识,并基于标识确定每个名词短语的短语获取源;若确定每个名词短语的短语获取源为第一文字信息,则基于每个名词短语的提取源和权值的对应关系,确定每个名词短语的权值;其中,名词短语的提取源为提取第一文字信息的位置来源;若确定每个名词短语的短语获取源为第二文字信息,则确定每个名词短语的权值为固定权值。
需要说明的是,固定权值可以和第一权值、第二权值以及第三权值中任一值相同,也可以是固定权值可以和第一权值、第二权值以及第三权值中任一值完全不相同,本公开实施例中不做限制。
在本公开实施例中,不同的短语获取源对应不同的权值确定方式,提供了较为丰富的权值确定方式,增加了方案的可实施性。
在具体的实施过程中,若确定每个名词短语的短语获取源为第一文字信息,则可以基于每个名词短语的提取源和权值的对应关系,确定每个名词短语的权值。其中,对应关系至少包括背景提取源与第一权值的第一子关系、字幕提取源与第二权值的第二子关系、以及标题提取源与第三权值的第三子关系。
例如,若名词短语1的短语获取源为第一文字信息,且名词短语1的提取源为背景提取源,则可以基于每个名词短语的提取源和权值的对应关系确定名词短语1的权值为第一权值。
需要说明的是,在本公开实施例中,可以依据实际实施情况对应确定第一权值、第二权值以及第三权值的数值,例如,第一权值可以为0.6、第二权值可以为0.4,以及第三权值为0.8。当然,也可以是根据历史经验确定第一权值、第二权值以及第三权值的数值,例如将第一权值的数值设置为大于第二权值的数值,将第三权值的数值设置为大于第二权值的设置,将第三权值的数值设置为小于第一权值的数值,此外,也可以是其它确定方式,本公开实施例中不做限制。
很显然,在本公开实施例中,可以依据名词短语的提取源即在短视频中的位置对应确定不同的权值,即在不同位置提取的名词短语,其在短视频中的重要程度也不同,因而可以基于该权值和对应的词频确定的参考值确定出对短视频对应的垂类类别描述较为准确且丰富性较强的名词短语。
方式二:
在本公开实施例中,可以采用但不限于以下步骤确定每个名词短语的参考值:
步骤a:确定垂类类别的短视频文档库的第一短视频数目;以及,确定垂类类别的短视频文档库中,包含第一名词短语的短视频文档的第二短视频数目;
步骤b:第一名词短语为每个名词短语中任意一个;将第二短视频数目与预设权值相乘,获得第一结果值,其中,预设权值用于降低第二短视频数目对参考值的比重;
步骤c:确定第一短视频数目除以第一结果值所得商的对数值,并根据对数值确定第一名词短语的逆文档频率;
步骤d:根据第一名词短语的词频和逆文档频率,确定第一名词短语的参考值,以确定每个名词短语的参考值。
在本公开实施例中,可以确定垂类类别的短视频文档库中所包括的短视频文档的第一文档数目,还可以确定该垂类类别的短视频文档库中包括同一个名词短语的短视频文档的第二文档数目。
例如,垂类类别A包括600个短视频文档,则垂类类别A的第一文档数目为600,若包括名词短语1的短视频文档数目为60,则第二文档数目为60。
在本公开实施例中,当确定出第一文档数目和第二文档数目之后,可以将第二文档数目和预设权值相乘,获得第一结果值,并且可以确定第一文档数目除以第一结果值所得商的对数值,从而根据对数值确定名词短语的逆文档频率。其中,预设权值可以为0.7,当然,也可以是0.8或者是0.6,本公开实施中不做限制。在具体的实施过程中,可以以预设权值为0.7进行处理。
在具体的实施过程中,可以通过以下公式确定每个名词短语的逆文档频率:
Figure BDA0002827776200000141
其中,idf用于表征名词短语的逆文档频率,m用于表征第一文档数目,n用于表征第二文档数目,s用于表征预设权值。
在本公开实施例中,当确定每个名词短语的逆文档频率之后,可以将每个名词短语的词频与对应逆文档频率相乘,从而获得参考值。也就是说,参考值为每个名词短语的参考值为每个名词短语的词频与对应逆文档频率的乘积。
在本公开实施例中,可以基于每个名词短语的词频与对应的逆文档频率确定对应的参考值,且在对名词短语对应的逆文档频率进行确定时,引入了预设权值,这样的方式,可以降低第二短视频数目对参考值的比重,增加基于参考值确定候选短语的准确程度。
步骤205:将名词集合中名词短语的参考值大于预设值的名词短语,确定为候选短语,并根据候选短语构建每个垂类类别的词库,以构建短视频文档源的词库。
在本公开实施例中,当确定出每个名词短语的参考值后,可以将名词短语的参考值大于预设值的短语,确定为候选短语,其中,该预设值可以为0.0001。进一步地,根据候选短语构建至少一个短视频文档源对应的词库。
在本公开实施例中,可以基于参考值对候选短语进行排序处理,具体的,可以是依据参考值的大小对候选短语进行排序,然后可以基于排序处理后的次序,对候选短语排序构建垂类类别的词库。这样的方式,可以使得获得的垂类类别的词库更加规整,且在后续对词库进行应用时,可以更快速的找到参考值较大的名词短语,提升处理速度。
在本公开实施例中,若垂类类别所包括的短视频更新,则可以对候选短语的排序进行更新,以更新垂类类别的词库。也就是说,本公开实施例提供的构建词库的方案中,垂类类别的词库可以实时更新,即在增强词库丰富性的基础上,还增加了更新功能,满足多种实际需求。
基于同一发明构思,本公开实施例提供了一种构建词库的装置,该构建词库的装置能够实现前述的构建词库的方法对应的功能。该构建词库的装置可以是硬件结构、软件模块、或硬件结构加软件模块。该构建词库的装置可以由芯片系统实现,芯片系统可以由芯片构成,也可以包含芯片和其他分立器件。请参见图4所示,该构建词库的装置包括确定单元401、获得单元402、获取单元403、处理单元404以及构建单元405。其中:
确定单元401,被配置为执行确定短视频文档源中短视频所属的垂类类别;
获得单元402,被配置为执行对垂类类别中的短视频进行文字提取处理,获得第一文字信息;以及,对垂类类别中的短视频对应的语音信息进行语音识别处理,获得第二文字信息;
获取单元403,被配置为执行从所述第一文字信息和所述第二文字信息中获取对应的名词集合,所述名词集合中包括至少一个名词短语;
处理单元404,被配置为执行确定每个所述名词短语的参考值,其中,所述参考值用于衡量名词短语在短视频文档库中的重要程度,所述短视频文档库为名词短语所对应的垂类类别对应的文档库;
构建单元405,被配置为执行将所述名词集合中名词短语的参考值大于预设值的名词短语,确定为候选短语,并根据所述候选短语构建所述垂类类别的词库,以构建所述短视频文档源的词库。
在一种可能的实施方式中,所述处理单元404被配置为执行:
基于所述名词短语的短语获取源和/或所述名词短语的属性,确定每个所述名词短语的参考值,其中,所述短语获取源包括所述第一文字信息和所述第二文字信息。
在一种可能的实施方式中,所述处理单元404被配置为执行:
确定每个所述名词短语在对应的垂类类别的短视频文档库中的词频;
基于每个所述名词短语的短语获取源,确定每个所述名词短语的权值;
将每个所述名词短语对应的词频与所述权值相乘,确定每个所述名词短语的参考值。
在一种可能的实施方式中,所述处理单元404被配置为执行:
确定每个所述名词短语的标识,并基于所述标识确定每个所述名词短语的短语获取源;
若确定每个所述名词短语的短语获取源为所述第一文字信息,则基于每个所述名词短语的提取源和权值的对应关系,确定每个所述名词短语的权值;其中,所述名词短语的提取源为提取所述第一文字信息的位置来源;
若确定每个所述名词短语的短语获取源为所述第二文字信息,则确定每个所述名词短语的权值为固定权值。
在一种可能的实施方式中,所述处理单元404被配置为执行:
确定垂类类别的短视频文档库的第一短视频数目;以及,确定垂类类别的短视频文档库中,包含第一名词短语的短视频文档的第二短视频数目;所述第一名词短语为所述名词集合中任意一个名词短语;
将所述第二短视频数目与预设权值相乘,获得第一结果值,其中,所述预设权值用于降低所述第二短视频数目对所述参考值的比重;
确定所述第一短视频数目除以所述第一结果值所得商的对数值,并根据所述对数值确定所述第一名词短语的逆文档频率;
根据所述第一名词短语的词频和所述逆文档频率,确定所述第一名词短语的参考值,以确定每个所述名词短语的参考值。
在一种可能的实施方式中,所述构建单元405被配置为执行:
基于所述参考值对所述候选短语进行排序处理;
基于排序处理后的次序,对所述候选短语排序构建所述垂类类别的词库。
在一种可能的实施方式中,所述装置还包括更新单元,所述更新单元被配置为执行:
若所述垂类类别中所包括的短视频更新,则对所述候选短语的排序进行更新,以更新所述垂类类别的词库。
前述如图2的构建词库的方法的实施例涉及的各步骤的所有相关内容均可以援引到本公开实施例中的构建词库的装置所对应的功能单元的功能描述,在此不再赘述。
本公开实施例中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,另外,在本公开各个实施例中的各功能单元可以集成在一个处理器中,也可以是单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
基于同一发明构思,本公开实施例还提供一种电子设备,如图5所示,本公开实施例中的电子设备包括至少一个处理器501,以及与至少一个处理器501连接的存储器502和通信接口503,本公开实施例中不限定处理器501与存储器502之间的具体连接介质,图5中是以处理器501和存储器502之间通过总线500连接为例,总线500在图5中以粗线表示,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。总线500可以分为地址总线、数据总线、控制总线等,为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
在本公开实施例中,存储器502存储有可被至少一个处理器501执行的指令,至少一个处理器501通过执行存储器502存储的指令,可以执行前述的构建词库的方法中所包括的步骤。
其中,处理器501是电子设备的控制中心,可以利用各种接口和线路连接整个故障检测设备的各个部分,通过运行或执行存储在存储器502内的指令以及调用存储在存储器502内的数据,计算设备的各种功能和处理数据,从而对计算设备进行整体监控。可选的,处理器501可包括一个或多个处理单元,处理器501可集成应用处理器和调制解调处理器,其中,处理器501主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器501中。在一些实施例中,处理器501和存储器502可以在同一芯片上实现,在一些实施例中,它们也可以在独立的芯片上分别实现。
处理器501可以是通用处理器,例如中央处理器(CPU)、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本公开实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本公开实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器502作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器502可以包括至少一种类型的存储介质,例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory,RAM)、静态随机访问存储器(Static Random Access Memory,SRAM)、可编程只读存储器(Programmable Read Only Memory,PROM)、只读存储器(Read Only Memory,ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、磁性存储器、磁盘、光盘等等。存储器502是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。本公开实施例中的存储器502还可以是电路或者其它任意能够实现存储功能的装置,用于存储程序指令和/或数据。
通信接口503是能够用于进行通信的传输接口,可以通过通信接口503接收数据或者发送数据。
参见图6所示的电子设备的进一步地的结构示意图,该电子设备还包括帮助电子设备内的各个器件之间传输信息的基本输入/输出系统(I/O系统)601、用于存储操作系统602、应用程序603和其他程序模块604的大容量存储设备605。
基本输入/输出系统601包括有用于显示信息的显示器606和用于用户输入信息的诸如鼠标、键盘之类的输入设备607。其中显示器606和输入设备607都通过连接到系统总线500的基本输入/输出系统601连接到处理器501。所述基本输入/输出系统601还可以包括输入输出控制器以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器还提供输出到显示屏、打印机或其他类型的输出设备。
所述大容量存储设备605通过连接到系统总线500的大容量存储控制器(未示出)连接到处理器501。所述大容量存储设备605及其相关联的计算机可读介质为该服务器包提供非易失性存储。也就是说,大容量存储设备605可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。
根据本公开的各种实施例,该计算设备包还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即该计算设备可以通过连接在所述系统总线500上的通信接口503连接到网络608,或者说,也可以使用通信接口503来连接到其他类型的网络或远程计算机系统(未示出)。
在示例性实施例中,还提供了一种包括指令的存储介质,例如包括指令的存储器502,上述指令可由装置的处理器501执行以完成上述方法。可选地,存储介质可以是非临时性计算机可读存储介质,例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在一些可能的实施方式中,本公开提供的构建词库的方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在电子设备上运行时,所述程序代码用于使该电子设备执行本说明书上述描述的根据本公开各种示例性实施方式的构建词库的方法中的步骤。
本领域内的技术人员应明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本公开进行各种改动和变型而不脱离本公开的精神和范围。这样,倘若本公开的这些修改和变型属于本公开权利要求及其等同技术的范围之内,则本公开也意图包含这些改动和变型在内。

Claims (10)

1.一种构建词库的方法,其特征在于,所述方法包括:
确定短视频文档源中短视频所属的垂类类别;
对垂类类别中的短视频进行文字提取处理,获得第一文字信息;以及,对垂类类别中的短视频对应的语音信息进行语音识别处理,获得第二文字信息;
从所述第一文字信息和所述第二文字信息中获取对应的名词集合,所述名词集合中包括至少一个名词短语;
确定每个所述名词短语的参考值,其中,所述参考值用于衡量名词短语在短视频文档库中的重要程度,所述短视频文档库为名词短语所对应的垂类类别对应的文档库;
将所述名词集合中名词短语的参考值大于预设值的名词短语,确定为候选短语,并根据所述候选短语构建所述垂类类别的词库,以构建所述短视频文档源的词库。
2.如权利要求1所述的方法,其特征在于,确定每个所述名词短语的参考值,包括:
基于所述名词短语的短语获取源和/或所述名词短语的属性,确定每个所述名词短语的参考值,其中,所述短语获取源包括所述第一文字信息和所述第二文字信息。
3.如权利要求2所述的方法,其特征在于,基于所述名词短语的短语获取源和/或所述名词短语的属性,确定每个所述名词短语的参考值,包括:
确定每个所述名词短语在对应的垂类类别的短视频文档库中的词频;
基于每个所述名词短语的短语获取源,确定每个所述名词短语的权值;
将每个所述名词短语对应的词频与所述权值相乘,确定每个所述名词短语的参考值。
4.如权利要求3所述的方法,其特征在于,基于每个所述名词短语的短语获取源,确定每个所述名词短语的权值,包括:
确定每个所述名词短语的标识,并基于所述标识确定每个所述名词短语的短语获取源;
若确定每个所述名词短语的短语获取源为所述第一文字信息,则基于每个所述名词短语的提取源和权值的对应关系,确定每个所述名词短语的权值;其中,所述名词短语的提取源为提取所述第一文字信息的位置来源;
若确定每个所述名词短语的短语获取源为所述第二文字信息,则确定每个所述名词短语的权值为固定权值。
5.如权利要求2所述的方法,其特征在于,基于所述名词短语的短语获取源和/或所述名词短语的属性,确定所述名词短语的参考值,包括:
确定垂类类别的短视频文档库的第一短视频数目;以及,确定垂类类别的短视频文档库中,包含第一名词短语的短视频文档的第二短视频数目;所述第一名词短语为所述名词集合中任意一个名词短语;
将所述第二短视频数目与预设权值相乘,获得第一结果值,其中,所述预设权值用于降低所述第二短视频数目对所述参考值的比重;
确定所述第一短视频数目除以所述第一结果值所得商的对数值,并根据所述对数值确定所述第一名词短语的逆文档频率;
根据所述第一名词短语的词频和所述逆文档频率,确定所述第一名词短语的参考值,以确定每个所述名词短语的参考值。
6.如权利要求1-5任一项所述的方法,其特征在于,根据所述候选短语构建所述垂类类别的词库,以构建所述短视频文档源的词库,包括:
基于所述参考值对所述候选短语进行排序处理;
基于排序处理后的次序,对所述候选短语排序构建所述垂类类别的词库。
7.如权利要求6所述的方法,其特征在于,所述方法还包括:
若所述垂类类别中所包括的短视频更新,则对所述候选短语的排序进行更新,以更新所述垂类类别的词库。
8.一种构建词库的装置,其特征在于,所述装置包括:
确定单元,被配置为执行确定短视频文档源中短视频所属的垂类类别;
获得单元,被配置为执行对垂类类别中的短视频进行文字提取处理,获得第一文字信息;以及,对垂类类别中的短视频对应的语音信息进行语音识别处理,获得第二文字信息;
获取单元,被配置为执行从所述第一文字信息和所述第二文字信息中获取对应的名词集合,所述名词集合中包括至少一个名词短语;
处理单元,被配置为执行确定每个所述名词短语的参考值,其中,所述参考值用于衡量名词短语在短视频文档库中的重要程度,所述短视频文档库为名词短语所对应的垂类类别对应的文档库;
构建单元,被配置为执行将所述名词集合中名词短语的参考值大于预设值的名词短语,确定为候选短语,并根据所述候选短语构建所述垂类类别的词库,以构建所述短视频文档源的词库。
9.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至权利要求7中任一项所述的构建词库的方法。
10.一种存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如权利要求1至权利要求7中任一项所述的构建词库的方法。
CN202011454125.3A 2020-12-10 2020-12-10 一种构建词库的方法、装置、电子设备及存储介质 Pending CN114625922A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011454125.3A CN114625922A (zh) 2020-12-10 2020-12-10 一种构建词库的方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011454125.3A CN114625922A (zh) 2020-12-10 2020-12-10 一种构建词库的方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN114625922A true CN114625922A (zh) 2022-06-14

Family

ID=81895983

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011454125.3A Pending CN114625922A (zh) 2020-12-10 2020-12-10 一种构建词库的方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114625922A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117892725A (zh) * 2024-03-18 2024-04-16 腾讯科技(深圳)有限公司 映射构建方法、装置及电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117892725A (zh) * 2024-03-18 2024-04-16 腾讯科技(深圳)有限公司 映射构建方法、装置及电子设备
CN117892725B (zh) * 2024-03-18 2024-05-10 腾讯科技(深圳)有限公司 映射构建方法、装置及电子设备

Similar Documents

Publication Publication Date Title
CN108009228B (zh) 一种内容标签的设置方法、装置及存储介质
CN108287858B (zh) 自然语言的语义提取方法及装置
CN111814770B (zh) 一种新闻视频的内容关键词提取方法、终端设备及介质
CN113094552A (zh) 视频模板的搜索方法、装置、服务器及可读存储介质
CN111190997A (zh) 一种使用神经网络和机器学习排序算法的问答系统实现方法
CN103377258A (zh) 用于对微博信息进行分类显示的方法和设备
CN111161725B (zh) 一种语音交互方法、装置、计算设备及存储介质
CN112507167A (zh) 一种识别视频合集的方法、装置、电子设备及存储介质
CN113688310A (zh) 一种内容推荐方法、装置、设备及存储介质
CN108563713B (zh) 关键词规则生成方法及装置和电子设备
CN113407775B (zh) 视频搜索方法、装置及电子设备
CN114625922A (zh) 一种构建词库的方法、装置、电子设备及存储介质
CN112948526A (zh) 用户画像的生成方法及装置、电子设备、存储介质
CN116310994A (zh) 一种视频片段提取方法、装置、电子设备及介质
CN110717008A (zh) 基于语意识别的搜索结果排序方法及相关装置
CN107577667B (zh) 一种实体词处理方法和装置
CN111625619A (zh) 查询省略方法、装置、计算机可读介质及电子设备
CN112507214B (zh) 基于用户名的数据处理方法、装置、设备及介质
CN115329754A (zh) 一种文本主题提取方法、装置、设备及存储介质
CN115098729A (zh) 视频处理方法、样本生成方法、模型训练方法及装置
CN110659419B (zh) 确定目标用户的方法及相关装置
CN113704623A (zh) 一种数据推荐方法、装置、设备及存储介质
CN110008352B (zh) 实体发现方法及装置
CN113343069A (zh) 用户信息的处理方法、装置、介质及电子设备
CN110147488B (zh) 页面内容的处理方法、处理装置、计算设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination