CN103942189B - 一种确定作品关键词的方法和设备 - Google Patents
一种确定作品关键词的方法和设备 Download PDFInfo
- Publication number
- CN103942189B CN103942189B CN201410103253.1A CN201410103253A CN103942189B CN 103942189 B CN103942189 B CN 103942189B CN 201410103253 A CN201410103253 A CN 201410103253A CN 103942189 B CN103942189 B CN 103942189B
- Authority
- CN
- China
- Prior art keywords
- works
- keyword
- word
- text message
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Abstract
本发明的目的是提供一种用于确定作品关键词的方法和设备;获取至少一个作品对应的作品文本信息;根据作品文本信息对应的切词的词频属性,结合预定属性阈值,确定候选关键词并入引导词集,获得关键词集;分别确定每个作品对应的作品文本信息命中关键词集的候选作品关键词,作为对应每个作品的候选作品关键词;在关键词集中,确定与候选作品关键词的共现率高于预定共现阈值的派生词;将候选作品关键词与派生词作为对应每个作品的作品关键词。与现有技术相比,本发明结合人工先验知识标注的引导词集以及词频属性筛选作品关键词,采用全局关键词共现矩阵的方法确定派生词作为作品关键词,提高作品关键词标注的覆盖率,进一步提升了用户的使用体验。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种用于确定作品关键词的技术。
背景技术
电影、电视剧、动漫、综艺等作品一般都需要一定的简介信息,网络用户才可以明白该作品的主要内容,并以此对作品进行选择。随着网络用户的要求的日益提升,对作品的描述的准确性的要求越来越高。更进一步地,网络用户还希望能够通过少量的关键词,即可以了解整部作品的关键信息。
现有技术中,各大网站通常采用人工编辑的方式标记作品类型信息,而社区类网站则采用大众标注的方式给作品添加标签(tag)信息,如武侠、穿越等。
然而,现有技术的这种方式,大多都依靠人工编辑,需要耗费大量时间精力,并且主观性强,准确性不够,极大地影响了网络用户的使用体验。
因此,如何高效、准确地确定作品关键词,成为本领域技术人员亟需解决的技术问题之一。
发明内容
本发明的目的是提供一种用于确定作品关键词的方法和设备。
根据本发明的一个方面,提供了一种确定作品关键词的方法,其中,该方法包括以下步骤:
-获取至少一个作品所对应的作品文本信息;
-根据所述作品文本信息所对应的切词的词频属性,并结合预定属性阈值,确定候选关键词;
-将所述候选关键词并入引导词集,以获得关键词集,其中,所述引导词集预置有用于引导作品关键词标注的引导词;
-分别确定所述至少一个作品中每个作品所对应的作品文本信息命中所述关键词集的候选作品关键词,以作为分别对应所述每个作品的候选作品关键词;
-在所述关键词集中,确定与所述候选作品关键词的共现率高于预定共现阈值的派生词;
-将所述候选作品关键词与所述派生词作为对应所述每个作品的作品关键词。
根据本发明的另一方面,还提供了一种确定作品关键词的设备,其中,该设备包括:
用于获取至少一个作品所对应的作品文本信息的装置;
用于根据所述作品文本信息所对应的切词的词频属性,并结合预定属性阈值,确定候选关键词的装置;
用于将所述候选关键词并入引导词集,以获得关键词集的装置,其中,所述引导词集预置有用于引导作品关键词标注的引导词;
用于分别确定所述至少一个作品中每个作品所对应的作品文本信息命中所述关键词集的候选作品关键词,以作为分别对应所述每个作品的候选作品关键词的装置;
用于在所述关键词集中,确定与所述候选作品关键词的共现率高于预定共现阈值的派生词的装置;
用于将所述候选作品关键词与所述派生词作为对应所述每个作品的作品关键词的装置。
与现有技术相比,本发明自动从作品文本信息中提取作品关键词,避免人工编辑,节省人力,减少主观性,提升用户的使用体验;完全依赖作品文本信息就能生成作品关键词,在没有其他作品属性的情况下能生成作品的关键词特征,具有一定的通用性。本发明还结合人工先验知识标注的引导词集以及切词的词频属性筛选作品关键词,使得作品关键词标注具有一定的目标性,而又能发现人工知识无法预先发现的作品关键词。
进一步地,本发明采用全局关键词共现矩阵的方法派生出作品文本信息中尚未出现的派生词,也作为该作品的作品关键词,提高作品关键词标注的覆盖率,使得作品关键词标注不再局限于作品文本信息,从而更加全面地描述作品,进一步提升了用户的使用体验。
更进一步地,本发明确定作品关键词后能根据词频等信息标注关键词权重,按照权重排序使得用户能更加准确地了解作品,进一步提升了用户的使用体验。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出根据本发明一个方面的用于确定作品关键词的装置示意图;
图2示出根据本发明另一个方面的用于确定作品关键词的方法流程图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
图1示出根据本发明一个方面的用于确定作品关键词的装置示意图。其中,设备1包括用于获取至少一个作品所对应的作品文本信息的装置101;用于根据所述作品文本信息所对应的切词的词频属性,并结合预定属性阈值,确定候选关键词的装置102;用于将所述候选关键词并入引导词集,以获得关键词集的装置103,其中,所述引导词集预置有用于引导作品关键词标注的引导词;用于分别确定所述至少一个作品中每个作品所对应的作品文本信息命中所述关键词集的候选作品关键词,以作为分别对应所述每个作品的候选作品关键词的装置104;用于在所述关键词集中,确定与所述候选作品关键词的共现率高于预定共现阈值的派生词的装置105;及用于将所述候选作品关键词与所述派生词作为对应所述每个作品的作品关键词的装置106。
其中,装置101获取至少一个作品所对应的作品文本信息。具体地,装置101例如通过与本地或网络端的作品库的交互,或者,通过接收网络用户等提交的作品文本信息等方式,获取至少一个作品所对应的作品文本信息,该作品文本信息包括但不限于该作品所对应的标题信息、简介信息、图片描述信息等。
在此,作品库中存储有大量作品所对应的作品文本信息,如作品的标题联系、简介信息、图片信息、链接信息等,该作品库既可以位于该设备1中,也可以位于与该设备1通过网络相连接的第三方设备中。
本领域技术人员应能理解,上述获取作品文本信息的方式仅为举例,其他现有的或今后可能出现的获取作品文本信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
装置102根据所述作品文本信息所对应的切词的词频属性,并结合预定属性阈值,确定候选关键词;其中,所述词频属性包括以下至少任一项:
-词汇频率;
-逆文档频率。
具体地,作品文本信息具有对应的切词,该切词例如通过对该作品文本信息进行切词处理得到,或更优地,对该作品文本信息先进行切词处理,再进行去除停用词等过滤处理、或词性识别处理等所得到的切词;装置102根据该作品文本信息所对应的切词,获得这些切词的词频属性,在此,词频属性包括但不限于词汇频率(TF)、逆文档频率(IDF)等。词汇频率为该切词在所有作品文本信息中出现的次数,例如,对于三个作品文本信息,切词A在该三个作品文本信息中出现的总次数为5次,则该切词A的词汇频率则为5。逆文档频率则可以通过总作品文本信息的数量除以出现该切词的作品文本信息的数量,再取对数值确定。接上例,假设该切词A仅在前两个作品文本信息中出现过,则该切词A的逆文档频率可以通过下式计算得出:
IDF(A)=log(总作品文本信息数/出现切词A的作品文本信息数)
即,IDF(A)=log(3/2)
接着,该装置102结合预定属性阈值,在该作品文本信息对应的切词中确定候选关键词。
例如,装置102对作品文本信息对应的切词进行筛选,将词汇频率和逆文档频率大于预定属性阈值的切词作为候选关键词。如假设预定属性阈值仅规定词汇频率大于4的切词作为候选关键词,则上例中的切词A可作为候选关键词。
在此,预定属性阈值为用于根据作品文本信息对应的切词的词频属性对这些切词进行筛选的阈值,当切词的词频属性满足该预定属性阈值,则将其作为候选关键词,其具体还可以分为预定词汇频率属性阈值和预定逆文档频率属性阈值。
本领域技术人员应能理解,上述确定候选关键词的方式仅为举例,其他现有的或今后可能出现的确定候选关键词的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
本领域技术人员还应能理解,上述词频属性仅为举例,其他现有的或今后可能出现的词频属性如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
装置103将所述候选关键词并入引导词集,以获得关键词集,其中,所述引导词集预置有用于引导作品关键词标注的引导词。
具体地,设备1还可以有一个引导词集,该引导词集预置有用于引导作品关键词标注的引导词,装置103将装置102所确定的候选关键词并入引导词集,并将该合并后的词集作为关键词集。
在此,引导词可以有多种来源:1)基于用户标注的数据(UGC数据),利用互联网网站提供网络用户提交“关键词”的功能,通过技术过滤得到基于网络用户提交数据的引导词;2)基于搜索数据挖掘的引导词,网络用户在搜索日志中会有如下行为:搜索“动作电影”之后,再次搜索“速度与激情”,通过技术手段可挖掘出“速度与激情”这一作品,具有“动作”引导词;3)基于互联网搜索引擎抓取。基于上述获取引导词的方式,可以获得对应的引导词集。装置103将装置102所确定的作品文本信息中的候选关键词,并入该引导词集中,生成关键词集。
本领域技术人员应能理解,上述获得关键词集的方式仅为举例,其他现有的或今后可能出现的获得关键词集的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
本领域技术人员还应能理解,上述获得引导词集的方式仅为举例,其他现有的或今后可能出现的获得引导词集的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
装置104分别确定所述至少一个作品中每个作品所对应的作品文本信息命中所述关键词集的候选作品关键词,以作为分别对应所述每个作品的候选作品关键词。具体地,对于该至少一个作品中的每个作品,装置104分别确定每个作品对应的作品文本信息命中了关键词集中的哪些候选关键词或引导词,并将这些命中的词作为分别对应每个作品的候选作品关键词。
例如,假设关键词集中包括切词A和引导词B,分别有三个作品,其中,作品甲所对应的作品文本信息中包含了切词A,则该作品文本信息命中了该关键词集,将该命中的切词A作为对应该作品甲的候选作品关键词;作品乙所对应的作品文本信息中包含了切词B,由于该切词B与该引导词B一致,则该作品文本信息也命中了该关键词集,将该命中的词B作为对应该作品乙的候选作品关键词;作品丙对应的作品文本信息中包含了切词C,则该切词C未命中该关键词集。
本领域技术人员应能理解,上述确定候选作品关键词的方式仅为举例,其他现有的或今后可能出现的确定候选作品关键词的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
装置105在所述关键词集中,确定与所述候选作品关键词的共现率高于预定共现阈值的派生词。具体地,对于装置104所确定的对应每个作品的候选作品关键词,装置105统计两两候选作品关键词共同出现在一部作品对应的作品文本信息中的频次,例如,生成共现矩阵,对每个候选作品关键词,取与之共现频次最高的预定数量个词,如按照共现频次由高到低排列,取前N(N≥1)个词;随后,装置105计算每个候选作品关键词所对应的N个共现词的共现率,即,该N个词在该候选作品关键词所有共现词的频次之和中所占的比例,将比例高于阈值的词定义为该候选作品关键词的派生词,或者,按照比例从高到低排列,取前预定数量的词作为该候选作品关键词的派生词。
本领域技术人员应能理解,上述确定派生词的方式仅为举例,其他现有的或今后可能出现的确定派生词的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
装置106将所述候选作品关键词与所述派生词作为对应所述每个作品的作品关键词。具体地,装置106根据装置104所确定的候选作品关键词,及装置105所确定的派生词,将该两者一起作为对应每个作品的作品关键词。例如,对于每部作品,将候选作品关键词与派生词单独标注出来,以显示为该作品对应的作品关键词。
本领域技术人员应能理解,上述确定作品关键词的方式仅为举例,其他现有的或今后可能出现的确定作品关键词的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
与现有技术相比,本发明自动从作品文本信息中提取作品关键词,避免人工编辑,节省人力,减少主观性,提升用户的使用体验;完全依赖作品文本信息就能生成作品关键词,在没有其他作品属性的情况下能生成作品的关键词特征,具有一定的通用性。本发明还结合人工先验知识标注的引导词集以及切词的词频属性筛选作品关键词,使得作品关键词标注具有一定的目标性,而又能发现人工知识无法预先发现的作品关键词。
进一步地,本发明采用全局关键词共现矩阵的方法派生出作品文本信息中尚未出现的派生词,也作为该作品的作品关键词,提高作品关键词标注的覆盖率,使得作品关键词标注不再局限于作品文本信息,从而更加全面地描述作品,进一步提升了用户的使用体验。
更优选地,该设备1还包括用于根据所述词频属性,计算所述作品关键词的权重值的装置107(未示出);和用于根据所述权重值,将所述作品关键词提供给用户的装置108(未示出)。具体地,装置107根据这些作品关键词的词频属性,如词汇频率、逆文档频率等词频属性,计算这些作品关键词的权重值;例如,装置107将作品关键词的词汇频率的值与逆文档频率的值相乘,所得的积作为该作品关键词的权重值。
随后,装置108根据这些作品关键词的权重值,通过调用诸如JSP、ASP或PHP等动态页面技术,将这些作品关键词提供给用户,如,按照权重值从高到低,将这些作品关键词提供给用户。
更进一步地,本发明确定作品关键词后能根据词频等信息标注关键词权重,按照权重排序使得用户能更加准确地了解作品,进一步提升了用户的使用体验。
更优选地,对于所述作品关键词所包括的派生词,所述用于计算权重值的装置107还根据所述派生词的词频属性,并结合所述派生词的衰减系数和派生频次,确定所述派生词的权重值。具体地,装置107在根据派生词的词频属性计算出该派生词的权重值之后,还考虑该派生词的衰减系数和派生频次,例如,在前述计算所得的权重值的基础上,再乘以衰减系数和派生频次,以最终确定该派生词的权重值。
在此,派生频次指该派生词由多少候选作品关键词派生而来;衰减系数为每派生一次,该派生词的权重值所衰减的值,其值可以是系统预置的,也可以根据实际情况进行调整。
本领域技术人员应能理解,上述计算权重值的方式仅为举例,其他现有的或今后可能出现的计算权重值的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
优选地,该设备1还包括用于获取所述用户所选择的作品关键词的装置109(未示出);和用于根据所述作品关键词,将对应所述作品关键词的作品提供给所述用户的装置110(未示出)。
具体地,用户通过与用户设备的交互,在展现的作品关键词中进行了选择,如通过点击、长按等方式,选择了作品关键词,装置109通过与该用户设备的交互,如通过一次或多次调用该用户设备所提供的应用程序接口(API)或其他约定的通信方式,或者,通过调用诸如JSP、ASP或PHP等动态页面技术,获取该用户所选择的作品关键词。
随后,装置110根据该用户所选择的作品关键词,将该作品关键词对应的作品提供给该用户,如,将该作品对应的作品文本信息、链接信息、播放信息等提供给该用户。
优选地,该设备1还包括用于对所述作品文本信息进行预处理,以获得所述作品文本信息所对应的切词的装置111(未示出);其中,所述预处理包括以下至少任一项:
-切词处理;
-词性识别处理;
-停用词过滤处理。
具体地,对于装置101所获取的作品文本信息,如标题信息、简介信息、图片描述信息等,装置111对这些作品文本信息进行切词处理,以获得该作品文本信息对应的切词;或者,装置111对切词处理后获得的词进一步进行词性识别处理,将词性满足要求的词筛选出来,如,将名词、形容词等词筛选出来,作为该作品文本信息所对应的切词;又或者,该装置111对切词处理后获得的词进一步进行停用词过滤处理,将“的”、“得”、“地”等无意义的停用词进行过滤,以最终获得该作品文本信息所对应的切词。
本领域技术人员应能理解,上述预处理的方式仅为举例,其他现有的或今后可能出现的预处理的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
优选地,该设备1还包括用于根据所述作品文本信息所对应的切词在所述作品文本信息中的位置信息,确定所述切词的词频属性的装置112(未示出)。
具体地,作品文本信息所对应的切词在该作品文本信息中具有位置信息,如切词位于标题中、位于关键特征句中等。在此,关键特征句为能表明该作品的关键特征的句子,例如,“这是一部好莱坞动作巨片”等。装置112综合考虑该切词在作品文本信息中的位置信息,确定该切词的词频属性。例如,对于位于标题或关键特征句中的切词,加权后确定其词频属性。
图2示出根据本发明另一个方面的用于确定作品关键词的方法流程图。
在步骤S201中,设备1获取至少一个作品所对应的作品文本信息。具体地,在步骤S201中,设备1例如通过与本地或网络端的作品库的交互,或者,通过接收网络用户等提交的作品文本信息等方式,获取至少一个作品所对应的作品文本信息,该作品文本信息包括但不限于该作品所对应的标题信息、简介信息、图片描述信息等。
在此,作品库中存储有大量作品所对应的作品文本信息,如作品的标题联系、简介信息、图片信息、链接信息等,该作品库既可以位于该设备1中,也可以位于与该设备1通过网络相连接的第三方设备中。
本领域技术人员应能理解,上述获取作品文本信息的方式仅为举例,其他现有的或今后可能出现的获取作品文本信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在步骤S202中,设备1根据所述作品文本信息所对应的切词的词频属性,并结合预定属性阈值,确定候选关键词;其中,所述词频属性包括以下至少任一项:
-词汇频率;
-逆文档频率。
具体地,作品文本信息具有对应的切词,该切词例如通过对该作品文本信息进行切词处理得到,或更优地,对该作品文本信息先进行切词处理,再进行去除停用词等过滤处理、或词性识别处理等所得到的切词;在步骤S202中,设备1根据该作品文本信息所对应的切词,获得这些切词的词频属性,在此,词频属性包括但不限于词汇频率(TF)、逆文档频率(IDF)等。词汇频率为该切词在所有作品文本信息中出现的次数,例如,对于三个作品文本信息,切词A在该三个作品文本信息中出现的总次数为5次,则该切词A的词汇频率则为5。逆文档频率则可以通过总作品文本信息的数量除以出现该切词的作品文本信息的数量,再取对数值确定。接上例,假设该切词A仅在前两个作品文本信息中出现过,则该切词A的逆文档频率可以通过下式计算得出:
IDF(A)=log(总作品文本信息数/出现切词A的作品文本信息数)
即,IDF(A)=log(3/2)
接着,在步骤S202中,设备1结合预定属性阈值,在该作品文本信息对应的切词中确定候选关键词。
例如,在步骤S202中,设备1对作品文本信息对应的切词进行筛选,将词汇频率和逆文档频率大于预定属性阈值的切词作为候选关键词。如假设预定属性阈值仅规定词汇频率大于4的切词作为候选关键词,则上例中的切词A可作为候选关键词。
在此,预定属性阈值为用于根据作品文本信息对应的切词的词频属性对这些切词进行筛选的阈值,当切词的词频属性满足该预定属性阈值,则将其作为候选关键词,其具体还可以分为预定词汇频率属性阈值和预定逆文档频率属性阈值。
本领域技术人员应能理解,上述确定候选关键词的方式仅为举例,其他现有的或今后可能出现的确定候选关键词的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
本领域技术人员还应能理解,上述词频属性仅为举例,其他现有的或今后可能出现的词频属性如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在步骤S203中,设备1将所述候选关键词并入引导词集,以获得关键词集,其中,所述引导词集预置有用于引导作品关键词标注的引导词。
具体地,设备1还可以有一个引导词集,该引导词集预置有用于引导作品关键词标注的引导词,在步骤S203中,设备1将在步骤S202中所确定的候选关键词并入引导词集,并将该合并后的词集作为关键词集。
在此,引导词可以有多种来源:1)基于用户标注的数据(UGC数据),利用互联网网站提供网络用户提交“关键词”的功能,通过技术过滤得到基于网络用户提交数据的引导词;2)基于搜索数据挖掘的引导词,网络用户在搜索日志中会有如下行为:搜索“动作电影”之后,再次搜索“速度与激情”,通过技术手段可挖掘出“速度与激情”这一作品,具有“动作”引导词;3)基于互联网搜索引擎抓取。基于上述获取引导词的方式,可以获得对应的引导词集。在步骤S203中,设备1将在步骤S202中所确定的作品文本信息中的候选关键词,并入该引导词集中,生成关键词集。
本领域技术人员应能理解,上述获得关键词集的方式仅为举例,其他现有的或今后可能出现的获得关键词集的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
本领域技术人员还应能理解,上述获得引导词集的方式仅为举例,其他现有的或今后可能出现的获得引导词集的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在步骤S204中,设备1分别确定所述至少一个作品中每个作品所对应的作品文本信息命中所述关键词集的候选作品关键词,以作为分别对应所述每个作品的候选作品关键词。具体地,对于该至少一个作品中的每个作品,在步骤S204中,设备1分别确定每个作品对应的作品文本信息命中了关键词集中的哪些候选关键词或引导词,并将这些命中的词作为分别对应每个作品的候选作品关键词。
例如,假设关键词集中包括切词A和引导词B,分别有三个作品,其中,作品甲所对应的作品文本信息中包含了切词A,则该作品文本信息命中了该关键词集,将该命中的切词A作为对应该作品甲的候选作品关键词;作品乙所对应的作品文本信息中包含了切词B,由于该切词B与该引导词B一致,则该作品文本信息也命中了该关键词集,将该命中的词B作为对应该作品乙的候选作品关键词;作品丙对应的作品文本信息中包含了切词C,则该切词C未命中该关键词集。
本领域技术人员应能理解,上述确定候选作品关键词的方式仅为举例,其他现有的或今后可能出现的确定候选作品关键词的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在步骤S205中,设备1在所述关键词集中,确定与所述候选作品关键词的共现率高于预定共现阈值的派生词。具体地,对于在步骤S204中,设备1所确定的对应每个作品的候选作品关键词,在步骤S205中,设备1统计两两候选作品关键词共同出现在一部作品对应的作品文本信息中的频次,例如,生成共现矩阵,对每个候选作品关键词,取与之共现频次最高的预定数量个词,如按照共现频次由高到低排列,取前N(N≥1)个词;随后,在步骤S205中,设备1计算每个候选作品关键词所对应的N个共现词的共现率,即,该N个词在该候选作品关键词所有共现词的频次之和中所占的比例,将比例高于阈值的词定义为该候选作品关键词的派生词,或者,按照比例从高到低排列,取前预定数量的词作为该候选作品关键词的派生词。
本领域技术人员应能理解,上述确定派生词的方式仅为举例,其他现有的或今后可能出现的确定派生词的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在步骤S206中,设备1将所述候选作品关键词与所述派生词作为对应所述每个作品的作品关键词。具体地,在步骤S206中,设备1根据在步骤S204中所确定的候选作品关键词,及在步骤S205中所确定的派生词,将该两者一起作为对应每个作品的作品关键词。例如,对于每部作品,将候选作品关键词与派生词单独标注出来,以显示为该作品对应的作品关键词。
本领域技术人员应能理解,上述确定作品关键词的方式仅为举例,其他现有的或今后可能出现的确定作品关键词的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
与现有技术相比,本发明自动从作品文本信息中提取作品关键词,避免人工编辑,节省人力,减少主观性,提升用户的使用体验;完全依赖作品文本信息就能生成作品关键词,在没有其他作品属性的情况下能生成作品的关键词特征,具有一定的通用性。本发明还结合人工先验知识标注的引导词集以及切词的词频属性筛选作品关键词,使得作品关键词标注具有一定的目标性,而又能发现人工知识无法预先发现的作品关键词。
进一步地,本发明采用全局关键词共现矩阵的方法派生出作品文本信息中尚未出现的派生词,也作为该作品的作品关键词,提高作品关键词标注的覆盖率,使得作品关键词标注不再局限于作品文本信息,从而更加全面地描述作品,进一步提升了用户的使用体验。
更优选地,该方法还包括根据所述词频属性,计算所述作品关键词的权重值的步骤S207(未示出);和根据所述权重值,将所述作品关键词提供给用户的步骤S208(未示出)。具体地,在步骤S207中,设备1根据这些作品关键词的词频属性,如词汇频率、逆文档频率等词频属性,计算这些作品关键词的权重值;例如,在步骤S207中,设备1将作品关键词的词汇频率的值与逆文档频率的值相乘,所得的积作为该作品关键词的权重值。
随后,在步骤S208中,设备1根据这些作品关键词的权重值,通过调用诸如JSP、ASP或PHP等动态页面技术,将这些作品关键词提供给用户,如,按照权重值从高到低,将这些作品关键词提供给用户。
更进一步地,本发明确定作品关键词后能根据词频等信息标注关键词权重,按照权重排序使得用户能更加准确地了解作品,进一步提升了用户的使用体验。
更优选地,对于所述作品关键词所包括的派生词,所述计算权重值的步骤S207还根据所述派生词的词频属性,并结合所述派生词的衰减系数和派生频次,确定所述派生词的权重值。具体地,在步骤S207中,设备1在根据派生词的词频属性计算出该派生词的权重值之后,还考虑该派生词的衰减系数和派生频次,例如,在前述计算所得的权重值的基础上,再乘以衰减系数和派生频次,以最终确定该派生词的权重值。
在此,派生频次指该派生词由多少候选作品关键词派生而来;衰减系数为每派生一次,该派生词的权重值所衰减的值,其值可以是系统预置的,也可以根据实际情况进行调整。
本领域技术人员应能理解,上述计算权重值的方式仅为举例,其他现有的或今后可能出现的计算权重值的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
优选地,该方法还包括获取所述用户所选择的作品关键词的步骤S209(未示出);和根据所述作品关键词,将对应所述作品关键词的作品提供给所述用户的步骤S210(未示出)。
具体地,用户通过与用户设备的交互,在展现的作品关键词中进行了选择,如通过点击、长按等方式,选择了作品关键词,在步骤S209中,设备1通过与该用户设备的交互,如通过一次或多次调用该用户设备所提供的应用程序接口(API)或其他约定的通信方式,或者,通过调用诸如JSP、ASP或PHP等动态页面技术,获取该用户所选择的作品关键词。
随后,在步骤S210中,设备1根据该用户所选择的作品关键词,将该作品关键词对应的作品提供给该用户,如,将该作品对应的作品文本信息、链接信息、播放信息等提供给该用户。
优选地,该方法还包括对所述作品文本信息进行预处理,以获得所述作品文本信息所对应的切词的步骤S211(未示出);其中,所述预处理包括以下至少任一项:
-切词处理;
-词性识别处理;
-停用词过滤处理。
具体地,对于在步骤S201中,设备1所获取的作品文本信息,如标题信息、简介信息、图片描述信息等,在步骤S211中,设备1对这些作品文本信息进行切词处理,以获得该作品文本信息对应的切词;或者,在步骤S211中,设备1对切词处理后获得的词进一步进行词性识别处理,将词性满足要求的词筛选出来,如,将名词、形容词等词筛选出来,作为该作品文本信息所对应的切词;又或者,在步骤S211中,设备1对切词处理后获得的词进一步进行停用词过滤处理,将“的”、“得”、“地”等无意义的停用词进行过滤,以最终获得该作品文本信息所对应的切词。
本领域技术人员应能理解,上述预处理的方式仅为举例,其他现有的或今后可能出现的预处理的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
优选地,该方法还包括根据所述作品文本信息所对应的切词在所述作品文本信息中的位置信息,确定所述切词的词频属性的步骤S212(未示出)。
具体地,作品文本信息所对应的切词在该作品文本信息中具有位置信息,如切词位于标题中、位于关键特征句中等。在此,关键特征句为能表明该作品的关键特征的句子,例如,“这是一部好莱坞动作巨片”等。在步骤S212中,设备1综合考虑该切词在作品文本信息中的位置信息,确定该切词的词频属性。例如,对于位于标题或关键特征句中的切词,加权后确定其词频属性。
需要注意的是,本发明可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
另外,本发明的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本发明的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
Claims (14)
1.一种确定作品关键词的方法,其中,该方法包括以下步骤:
获取至少一个作品所对应的作品文本信息;
根据所述作品文本信息所对应的切词的词频属性,并结合预定属性阈值,确定候选关键词;
将所述候选关键词并入引导词集,以获得关键词集,其中,所述引导词集预置有用于引导作品关键词标注的引导词;
分别确定所述至少一个作品中每个作品所对应的作品文本信息命中所述关键词集的候选作品关键词,以作为分别对应所述每个作品的候选作品关键词;
在所述关键词集中,确定与所述候选作品关键词的共现率高于预定共现阈值的派生词;
将所述候选作品关键词与所述派生词作为对应所述每个作品的作品关键词。
2.根据权利要求1所述的方法,其中,该方法还包括:
根据所述词频属性,计算所述作品关键词的权重值;
根据所述权重值,将所述作品关键词提供给用户。
3.根据权利要求2所述的方法,其中,对于所述作品关键词所包括的派生词,所述计算权重值的步骤还包括:
根据所述派生词的词频属性,并结合所述派生词的衰减系数和派生频次,确定所述派生词的权重值。
4.根据权利要求2或3所述的方法,其中,该方法还包括:
获取用户所选择的作品关键词;
根据所述作品关键词,将对应所述作品关键词的作品提供给所述用户。
5.根据权利要求1所述的方法,其中,该方法还包括:
对所述作品文本信息进行预处理,以获得所述作品文本信息所对应的切词;
其中,所述预处理包括以下至少任一项:
切词处理;
词性识别处理;
停用词过滤处理。
6.根据权利要求1所述的方法,其中,该方法还包括:
根据所述作品文本信息所对应的切词在所述作品文本信息中的位置信息,确定所述切词的词频属性。
7.根据权利要求1所述的方法,其中,所述词频属性包括以下至少任一项:
词汇频率;
逆文档频率。
8.一种确定作品关键词的设备,其中,该设备包括:
用于获取至少一个作品所对应的作品文本信息的装置;
用于根据所述作品文本信息所对应的切词的词频属性,并结合预定属性阈值,确定候选关键词的装置;
用于将所述候选关键词并入引导词集,以获得关键词集的装置,其中,所述引导词集预置有用于引导作品关键词标注的引导词;
用于分别确定所述至少一个作品中每个作品所对应的作品文本信息命中所述关键词集的候选作品关键词,以作为分别对应所述每个作品的候选作品关键词的装置;
用于在所述关键词集中,确定与所述候选作品关键词的共现率高于预定共现阈值的派生词的装置;
用于将所述候选作品关键词与所述派生词作为对应所述每个作品的作品关键词的装置。
9.根据权利要求8所述的设备,其中,该设备还包括:
用于根据所述词频属性,计算所述作品关键词的权重值的装置;
用于根据所述权重值,将所述作品关键词提供给用户的装置。
10.根据权利要求9所述的设备,其中,对于所述作品关键词所包括的派生词,所述用于计算权重值的装置还用于:
根据所述派生词的词频属性,并结合所述派生词的衰减系数和派生频次,确定所述派生词的权重值。
11.根据权利要求9或10所述的设备,其中,该设备还包括:
用于获取用户所选择的作品关键词的装置;
用于根据所述作品关键词,将对应所述作品关键词的作品提供给所述用户的装置。
12.根据权利要求8所述的设备,其中,该设备还包括:
用于对所述作品文本信息进行预处理,以获得所述作品文本信息所对应的切词的装置;
其中,所述预处理包括以下至少任一项:
切词处理;
词性识别处理;
停用词过滤处理。
13.根据权利要求8所述的设备,其中,该设备还包括:
用于根据所述作品文本信息所对应的切词在所述作品文本信息中的位置信息,确定所述切词的词频属性的装置。
14.根据权利要求8所述的设备,其中,所述词频属性包括以下至少任一项:
词汇频率;
逆文档频率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410103253.1A CN103942189B (zh) | 2014-03-19 | 2014-03-19 | 一种确定作品关键词的方法和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410103253.1A CN103942189B (zh) | 2014-03-19 | 2014-03-19 | 一种确定作品关键词的方法和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103942189A CN103942189A (zh) | 2014-07-23 |
CN103942189B true CN103942189B (zh) | 2017-09-15 |
Family
ID=51189859
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410103253.1A Active CN103942189B (zh) | 2014-03-19 | 2014-03-19 | 一种确定作品关键词的方法和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103942189B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104391859B (zh) * | 2014-10-22 | 2019-03-26 | 百度在线网络技术(北京)有限公司 | 一种向用户提供对象信息的方法和装置 |
CN106547757B (zh) * | 2015-09-17 | 2021-05-28 | 北京国双科技有限公司 | 匹配关键词与创意内容的方法和装置 |
CN105260359B (zh) * | 2015-10-16 | 2018-10-02 | 晶赞广告(上海)有限公司 | 语义关键词提取方法及装置 |
CN107203542A (zh) * | 2016-03-17 | 2017-09-26 | 阿里巴巴集团控股有限公司 | 词组提取方法及装置 |
CN107704572B (zh) * | 2017-09-30 | 2021-07-13 | 北京奇虎科技有限公司 | 人物实体的创作角度挖掘方法及装置 |
CN107885722B (zh) * | 2017-10-31 | 2021-05-25 | 北京奇艺世纪科技有限公司 | 一种关键词抽取方法和装置 |
CN108228712B (zh) * | 2017-11-30 | 2019-09-06 | 北京三快在线科技有限公司 | 一种实体挖掘方法及装置,电子设备 |
CN110851578A (zh) * | 2019-10-31 | 2020-02-28 | 北京大米科技有限公司 | 关键词提取方法、装置和电子设备 |
CN111046141B (zh) * | 2019-12-03 | 2023-07-18 | 新华智云科技有限公司 | 一种基于历史时间特征的文本库关键词精炼方法 |
CN111737553A (zh) * | 2020-06-16 | 2020-10-02 | 苏州朗动网络科技有限公司 | 企业关联词的选取方法、设备和存储介质 |
CN113360600A (zh) * | 2021-06-03 | 2021-09-07 | 中国科学院计算机网络信息中心 | 一种基于信号衰减的企业业绩预测指标筛选方法及系统 |
CN116306616A (zh) * | 2023-02-14 | 2023-06-23 | 贝壳找房(北京)科技有限公司 | 用于确定文本的关键词的方法和装置 |
CN117094291B (zh) * | 2023-10-19 | 2024-01-19 | 济南伊特网络信息有限公司 | 基于智能写作的自动新闻生成系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101546328A (zh) * | 2008-03-27 | 2009-09-30 | 株式会社东芝 | 检索关键词改进装置、服务器及方法 |
CN102129429A (zh) * | 2010-01-20 | 2011-07-20 | 腾讯科技(深圳)有限公司 | 形成向导词列表的方法和设备 |
CN103559310A (zh) * | 2013-11-18 | 2014-02-05 | 广东利为网络科技有限公司 | 一种从文章中提取关键词的方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4538284B2 (ja) * | 2004-09-09 | 2010-09-08 | 株式会社リコー | 情報検索システム、情報検索端末、並びに、プログラムおよび記録媒体 |
JP4818681B2 (ja) * | 2005-10-17 | 2011-11-16 | 株式会社野村総合研究所 | 文献情報分析装置及び文献情報分析方法 |
-
2014
- 2014-03-19 CN CN201410103253.1A patent/CN103942189B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101546328A (zh) * | 2008-03-27 | 2009-09-30 | 株式会社东芝 | 检索关键词改进装置、服务器及方法 |
CN102129429A (zh) * | 2010-01-20 | 2011-07-20 | 腾讯科技(深圳)有限公司 | 形成向导词列表的方法和设备 |
CN103559310A (zh) * | 2013-11-18 | 2014-02-05 | 广东利为网络科技有限公司 | 一种从文章中提取关键词的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN103942189A (zh) | 2014-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103942189B (zh) | 一种确定作品关键词的方法和设备 | |
US10977317B2 (en) | Search result displaying method and apparatus | |
US20180260698A1 (en) | Recurrent neural network architectures which provide text describing images | |
US20220075787A1 (en) | Contextual search on multimedia content | |
US8463795B2 (en) | Relevance-based aggregated social feeds | |
CA2918840C (en) | Presenting fixed format documents in reflowed format | |
US20150356091A1 (en) | Method and system for identifying microblog user identity | |
CN104978332B (zh) | 用户生成内容标签数据生成方法、装置及相关方法和装置 | |
CA2832909A1 (en) | System and method for matching comment data to text data | |
US10831820B2 (en) | Content based image management and selection | |
CN104268192B (zh) | 一种网页信息提取方法、装置及终端 | |
CN106021383A (zh) | 网页相似度计算方法及装置 | |
CN107948730B (zh) | 基于图片生成视频的方法、装置、设备及存储介质 | |
WO2014206151A1 (en) | System and method for tagging and searching documents | |
CN104978368A (zh) | 一种用于提供推荐信息的方法和装置 | |
CN110909120B (zh) | 简历搜索/投递方法、装置、系统及电子设备 | |
CN110147425A (zh) | 一种关键词提取方法、装置、计算机设备及存储介质 | |
CN108228612B (zh) | 一种提取网络事件关键词以及情绪倾向的方法及装置 | |
US20140289260A1 (en) | Keyword Determination | |
Hellrich et al. | Exploring diachronic lexical semantics with JeSemE | |
US20140280084A1 (en) | Using structured data for search result deduplication | |
CN108228557B (zh) | 一种序列标注的方法及装置 | |
CN107368489A (zh) | 一种资讯数据处理方法及装置 | |
CN106997340A (zh) | 词库的生成以及利用词库的文档分类方法及装置 | |
US11361759B2 (en) | Methods and systems for automatic generation and convergence of keywords and/or keyphrases from a media |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |