CN104199898B - 一种属性信息的获取方法及装置、推送方法及装置 - Google Patents
一种属性信息的获取方法及装置、推送方法及装置 Download PDFInfo
- Publication number
- CN104199898B CN104199898B CN201410425516.0A CN201410425516A CN104199898B CN 104199898 B CN104199898 B CN 104199898B CN 201410425516 A CN201410425516 A CN 201410425516A CN 104199898 B CN104199898 B CN 104199898B
- Authority
- CN
- China
- Prior art keywords
- candidate words
- keywords
- candidate
- word
- obtaining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 230000011218 segmentation Effects 0.000 claims description 9
- 230000001186 cumulative effect Effects 0.000 claims description 6
- 230000006870 function Effects 0.000 description 11
- 240000002853 Nelumbo nucifera Species 0.000 description 7
- 235000006508 Nelumbo nucifera Nutrition 0.000 description 7
- 235000006510 Nelumbo pentapetala Nutrition 0.000 description 7
- 230000009286 beneficial effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000009499 grossing Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- JLYXXMFPNIAWKQ-GNIYUCBRSA-N gamma-hexachlorocyclohexane Chemical compound Cl[C@H]1[C@H](Cl)[C@@H](Cl)[C@@H](Cl)[C@H](Cl)[C@H]1Cl JLYXXMFPNIAWKQ-GNIYUCBRSA-N 0.000 description 2
- JLYXXMFPNIAWKQ-UHFFFAOYSA-N gamma-hexachlorocyclohexane Natural products ClC1C(Cl)C(Cl)C(Cl)C(Cl)C1Cl JLYXXMFPNIAWKQ-UHFFFAOYSA-N 0.000 description 2
- 229960002809 lindane Drugs 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 125000003118 aryl group Chemical group 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供了一种属性信息的获取方法,包括:依据语料库中的文本信息,获得N个关键词,N为大于或者等于1的整数;获得M个候选词,所述M个候选词为N个关键词中的M个关键词或者标签库中的M个标签,M为大于0且小于或者等于N的整数;依据所述M个候选词中第i个候选词与所述N个关键词中每个所述关键词的共现概率,从所述M个候选词中选择K个候选词,以作为所述文本信息对应的对象的属性信息,i的取值为1到M中的整数,K为小于或者等于M且大于0的整数;本发明实施例还提供一种属性信息的获取装置、推送方法及装置。本发明实施例提供的技术方案可以实现提高获得对象的属性信息的准确性。
Description
【技术领域】
本发明涉及互联网应用技术,尤其涉及一种属性信息的获取方法及装置、推送方法及装置。
【背景技术】
目前,获得对象的属性信息的方法是:对对象对应的文本信息进行切词处理,获得若干分词;对于每个分词,依据该分词在语料库中文本信息的出现次数的倒数,获得该分词的权重值;将所有分词中权重值最高的若干分词作为该对象的关键词,并进行存储。这样,当需要依据检索词进行检索时,可以依据检索词和存储的对象的关键词,获得与检索词相匹配的对象,然后将与检索词相匹配的对象推送给用户。
然而,由于依据分词在语料库中文本信息的出现次数的倒数,获得该分词的权重值,因此分词的出现次数越高,该分词的权重值越低,使得该分词不会作为对象的关键词,而出现次数较少的分词将作为对象的关键词,往往出现次数较高的分词是对象的主要关键词,因此,目前获得对象的属性信息的准确性比较低。
【发明内容】
有鉴于此,本发明实施例提供了一种属性信息的获取方法及装置、推送方法及装置,可以实现提高获得对象的属性信息的准确性。
本发明实施例提供了一种属性信息的获取方法,包括:
依据语料库中的文本信息,获得N个关键词,N为大于或者等于1的整数;
获得M个候选词,所述M个候选词为所述N个关键词中的M个关键词或者标签库中的M个标签,M为大于0且小于或者等于N的整数;
依据所述M个候选词中第i个候选词与所述N个关键词中每个所述关键词的共现概率,从所述M个候选词中选择K个候选词,以作为所述文本信息对应的对象的属性信息,i的取值为1到M中的整数,K为小于或者等于M且大于0的整数。
上述方法中,所述依据语料库中的文本信息,获得N个关键词,包括:
获得所述语料库中的文本信息;
对所述文本信息进行切词处理,以获得所述N个关键词。
上述方法中,所述依据所述M个候选词中第i个候选词与所述N个关键词中每个所述关键词的共现概率,从所述M个候选词中选择K个候选词,包括:
依据所述M个候选词中第i个候选词与所述N个关键词中每个所述关键词的共现概率,获得所述第i个候选词的权重值;
依据所述M个候选词的权重值,从所述M个候选词中选择K个候选词,以作为所述文本信息对应的对象的属性信息。
上述方法中,所述依据所述M个候选词中第i个候选词与所述N个关键词中每个所述关键词的共现概率,获得所述第i个候选词的权重值,包括:
获得所述M个候选词中第i个候选词与所述N个关键词中每个所述关键词的共现概率;
获得所述共现概率的累加和;
依据所述第i个候选词的先验概率和所述累加和,获得所述第i个候选词的权重值;其中,所述第i个候选词的先验概率为依据所述第i个候选词的搜索次数获得的。
上述方法中,所述依据所述M个候选词的权重值,从所述M个候选词中选择K个候选词,包括:
按照权重值由大到小的顺序,对所述M个候选词进行排序,以获得排序结果;获得所述排序结果中排名靠前的K个候选词;或者,
依据所述M个候选词的权重值和预设的权重阈值,获得所述M个候选词中权重值大于或者等于所述权重阈值的K个候选词。
上述方法中,所述文本信息为所述对象的标题信息;
所述对象包括视频、图片、应用和网页中至少一个;
所述属性信息包括所述对象的关键词和/或所述对象的标签。
本发明实施例还提供了一种推送方法,包括:
依据使用客户端的用户的历史记录,获得与所述客户端相匹配的属性信息;或者,接收所述客户端发送的检索词,搜索与所述检索词相匹配的属性信息;其中,所述属性信息包括K个候选词,所述K个候选词为依据M个候选词中每i个候选词与N个关键词中每个所述关键词的共现概率,从所述M个候选词中获得的,N个关键词为依据语料库中的文本信息获得的;N为大于或者等于1的整数,M为大于0且小于或者等于N的整数,K为小于或者等于M且大于0的整数,i的取值为1到M中的整数;
依据所述属性信息,获得所述属性信息所对应的对象;
向所述客户端推送所述对象。
上述方法中,所述方法还包括:
依据语料库中的文本信息,获得所述N个关键词;
获得所述M个候选词,所述M个候选词为所述N个关键词中的M个关键词或者标签库中的M个标签;
依据所述M个候选词中第i个候选词与所述N个关键词中每个所述关键词的共现概率,从所述M个候选词中选择所述K个候选词,以作为所述文本信息对应的对象的属性信息。
本发明实施例还提供了一种属性信息的获取装置,包括:
关键词获取单元,用于依据语料库中的文本信息,获得N个关键词,N为大于或者等于1的整数;
候选词获取单元,用于获得M个候选词,所述M个候选词为所述N个关键词中的M个关键词或者标签库中的M个标签,M为大于0且小于或者等于N的整数;
属性获取单元,用于依据所述M个候选词中第i个候选词与所述N个关键词中每个所述关键词的共现概率,从所述M个候选词中选择K个候选词,以作为所述文本信息对应的对象的属性信息,i的取值为1到M中的整数,K为小于或者等于M且大于0的整数。
上述装置中,所述关键词获取单元具体用于:
获得所述语料库中的文本信息;
对所述文本信息进行切词处理,以获得所述N个关键词。
上述装置中,所述属性获取单元具体用于:
依据所述M个候选词中第i个候选词与所述N个关键词中每个所述关键词的共现概率,获得所述第i个候选词的权重值;
依据所述M个候选词的权重值,从所述M个候选词中选择K个候选词,以作为所述文本信息对应的对象的属性信息。
上述装置中,所述依据所述M个候选词中第i个候选词与所述N个关键词中每个所述关键词的共现概率,获得所述第i个候选词的权重值,具体为:
获得所述M个候选词中第i个候选词与所述N个关键词中每个所述关键词的共现概率;
获得所述共现概率的累加和;
依据所述第i个候选词的先验概率和所述累加和,获得所述第i个候选词的权重值;其中,所述第i个候选词的先验概率为依据所述第i个候选词的搜索次数获得的。
上述装置中,所述依据所述M个候选词的权重值,从所述M个候选词中选择K个候选词,具体为:
按照权重值由大到小的顺序,对所述M个候选词进行排序,以获得排序结果;获得所述排序结果中排名靠前的K个候选词;或者,
依据所述M个候选词的权重值和预设的权重阈值,获得所述M个候选词中权重值大于或者等于所述权重阈值的K个候选词。
上述装置中,所述文本信息为所述对象的标题信息;
所述对象包括视频、图片、应用和网页中至少一个;
所述属性信息包括所述对象的关键词和/或所述对象的标签。
本发明实施例还提供了一种推送装置,包括:
匹配处理单元,用于依据使用客户端的用户的历史记录,获得与所述客户端相匹配的属性信息;或者,接收所述客户端发送的检索词,搜索与所述检索词相匹配的属性信息;其中,所述属性信息包括K个候选词,所述K个候选词为依据M个候选词中每i个候选词与N个关键词中每个所述关键词的共现概率,从所述M个候选词中获得的,N个关键词为依据语料库中的文本信息获得的;N为大于或者等于1的整数,M为大于0且小于或者等于N的整数,K为小于或者等于M且大于0的整数,i的取值为1到M中的整数;
属性处理单元,用于依据所述属性信息,获得所述属性信息所对应的对象;
对象推送单元,用于向所述客户端推送所述对象。
上述装置中,所述装置还包括:
属性信息获取单元,用于依据语料库中的文本信息,获得所述N个关键词;获得所述M个候选词,所述M个候选词为所述N个关键词中的M个关键词或者标签库中的M个标签;依据所述M个候选词中第i个候选词与所述N个关键词中每个所述关键词的共现概率,从所述M个候选词中选择所述K个候选词,以作为所述文本信息对应的对象的属性信息。
由以上技术方案可以看出,本发明实施例具有以下有益效果:
本发明实施例提供的技术方案中,依据候选词与文本信息中关键词之间的共现概率,来选择候选词作为文本信息对应的对象的关键词,这样,就可以实现将共现概率较高的候选词作为该文本信息对应的对象的关键词,而且往往共现概率较高的候选词是该文本信息对应的对象的主要候选词,因此,与现有技术中获得对象的属性信息的方法相比,本发明实施例获得的对象的属性信息与对象的主题更加匹配,因此获得对象的属性信息的准确性更高。
【附图说明】
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例所提供的技术方案使用的系统;
图2是本发明实施例所提供的属性信息的获取方法的流程示意图;
图3是本发明实施例所提供的推送方法的流程示意图;
图4是本发明实施例所提供的属性信息的获取装置的功能方块图;
图5是本发明实施例所提供的推送装置的功能方块图。
【具体实施方式】
为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在......时”或“当......时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
本发明实施例所提供的技术方案使用的系统如图1所示,主要由客户端和服务器组成,本发明实施例所提供的属性信息的获取方法及装置、推送方法及装置在服务器侧实现。
可以理解的是,所述客户端可以包括所有终端上的客户端,所述终端可以包括个人计算机(Personal Computer,PC)、笔记本电脑、手机或平板电脑。
本发明实施例给出一种属性信息的获取方法,请参考图2,其为本发明实施例所提供的属性信息的获取方法的流程示意图,如图所示,该方法包括以下步骤:
S201,依据语料库中的文本信息,获得N个关键词,N为大于或者等于1的整数。
具体的,服务器可以从预设的语料库中获得文本信息,即本发明实施例中服务器将语料库中存储的对象对应的文本信息作为本发明实施例中待处理的文本信息,服务器需要对文本信息进行切词处理,以获得所述N个关键词。
优选的,服务器可以利用普通词典和/或热门词典,对获得的文本信息进行切词处理,以获得N个分词,服务器将该N个分词作为N个关键词,如〈w1、w2、......、wN〉。
优选的,所述文本信息可以包括对象的标题信息。
优选的,所述对象可以包括视频、图片、应用和网页中至少一个。
例如,文本信息可以是广场舞视频的标题信息,如“广场舞荷塘月色很赞”和“广场舞荷塘月色爱奇艺”。
优选的,所述属性信息可以包括对象的关键词和/或对象的标签。其中,对象的标签用于表征该对象的特征,例如,对象的标签可以是该对象的类型。
例如,服务器对标题信息“广场舞荷塘月色很赞”进行切词处理,获得候选词“广场舞”、“荷塘月色”和“很赞”。
S202,获得M个候选词,所述M个候选词为所述N个关键词中的M个关键词或者标签库中的M个标签,M为大于0且小于或者等于N的整数。
具体的,服务器获得M个候选词。
举例说明,本发明实施例中,服务器获得M个候选词的方法可以包括以下两种:
第一种:服务器获得N个关键词中的M个关键词,将该M个关键词作为所述M个候选词。
例如,服务器可以统计N个关键词中每个关键词的出现次数,然后获取其中出现次数最多的M个关键词。再例如,服务器可以直接将N个关键词作为所述M个候选词。
第二种:服务器从标签库中获得M个标签,将M个标签作为M个候选词。例如,服务器可以从标签库中获得出现次数最多的M个标签。再例如,服务器可以直接将标签库中所有标签作为所述M个候选词。
例如,服务器从标签库中获得标签“音乐”、“健身舞”和“短视频”。
S203,依据所述M个候选词中第i个候选词与所述N个关键词中每个所述关键词的共现概率,从所述M个候选词中选择K个候选词,以作为所述文本信息对应的对象的属性信息,i的取值为1到M中的整数,K为小于或者等于M且大于0的整数。
具体的,服务器依据所述M个候选词中第i个候选词与所述N个关键词中每个所述关键词的共现概率,从所述M个候选词中选择K个候选词的方法可以包括:
首先,服务器依据所述M个候选词中第i个候选词与所述N个关键词中每个所述关键词的共现概率,获得所述第i个候选词的权重值。然后,服务器依据所述M个候选词的权重值,从所述M个候选词中选择K个候选词,以作为所述文本信息对应的对象的属性信息。
举例说明,服务器依据所述M个候选词中第i个候选词与所述N个关键词中每个所述关键词的共现概率,获得所述第i个候选词的权重值的方法可以包括:
首先,服务器获得M个候选词中第i个候选词与N个关键词中每个所述关键词的共现概率,其中i的取值为1到M中的整数,也就是说,第i个候选词是M个候选词中的每个候选词,需要对M个候选词中的每个候选词,都获得该候选词的权重值。
然后,服务器将该第i个候选词与每个关键词的共现概率进行累加,以获得共现概率的累加和。
最后,服务器依据第i个候选词的先验概率与所述累加和的乘积,获得该第i个候选词的权重值。或者,服务器依据第i个候选词的先验概率与所述累加和的和值,获得该第i个候选词的权重值。
可以理解的,对于M个候选词中的每个候选词都进行上述操作,从而可以获得M个候选词中每个候选词的权重值。
例如,下面以M个候选词〈w1、w2、......、wM〉中第i个候选词wi为例,说明获得第i个候选词的权重值的方法。其中,w1~wM可以是M个关键词,也可以是M个标签。
可以利用如下两个公式中任意一个获得M个候选词中第i个候选词的权重值:
W(wi)=p(wi)×p(wi,title)
W(wi)=p(wi)+p(wi,title)
其中,wi表示第i个候选词。
其中,W(wi)表示第i个候选词的权重值。
其中,p(wi)表示第i个候选词的先验概率。优选的,可以统计第i个候选词的搜索次数,然后获得该搜索次数的函数值,将该函数值作为第i个候选词的先验概率。例如,可以获得该搜索次数的sigmoid函数的函数值,将搜索次数的sigmoid函数的函数值作为该第i个候选词的先验概率。
其中,p(wi,title)表示第i个候选词的联合概率。
可以利用如下公式获得第i个候选词的联合概率p(wi,title):
p(wi,title)=∑p(wi,wk)
其中,p(wi,wk)表示M个候选词中第i个候选词与N个关键词中第k个关键词词的共现概率,因此第i个候选词的联合概率p(wi,title)就是第i个候选词与每个关键词的共现概率的累加和。k的取值为从1到N的整数。
可以利用如下公式获得上述共现概率p(wi,wk):
p(wi,wk)=p(wk)×p(wi|wk)
其中,p(wk)表示N个关键词中第k个关键词的先验概率。优选的,可以统计第k个关键词的搜索次数,然后获得该搜索次数的函数值,将该函数值作为第k个关键词的先验概率。例如,可以获得该第k个关键词的搜索次数的sigmoid函数的函数值,将该函数值作为第k个关键词的先验概率。
其中,p(wi|wk)表示第k个关键词wk对第i个候选词wi的权重贡献值。
其中,获得p(wi|wk)的方法可以包括以下两种:
第一种:可以预先设置好第k个关键词wk对第i个候选词wi的权重贡献值p(wi|wk),当需要使用第k个关键词wk对第i个候选词wi的权重贡献值时,可以直接使用预先设置好的数值。
例如,预先设置好p(篮球|科比)=1、p(林丹|谢杏芳)=1。
第二种:可以利用如下公式获得第k个关键词wk对第i个候选词wi的权重贡献值p(wi|wk):
其中,若M个候选词是从N个关键词中获得的,则wk和wi同为关键词,C(wi,wk)表示第i个候选词wi与第k个关键词wk在语料库存储的文本信息中的共现次数。若M个候选词是从标签库中获得的M个标签,则wi为标签,C(wi,wk)表示第i个候选词wi与第k个关键词wk在语料库中的共现次数。
相应的,C(wk)表示第k个关键词wk在语料库存储的文本信息中的共现次数。
举例说明,服务器依据所述M个候选词的权重值,从所述M个候选词中选择K个候选词,以作为所述文本信息对应的对象的属性信息可以包括以下两种实现方法:
第一种:服务器在获得M个候选词中每个候选词的权重值之后,服务器可以按照权重值由大到小的顺序,对所述M个候选词进行排序,以获得排序结果,然后服务器获得所述排序结果中排名靠前的K个候选词,以实现从M个候选词中选择K个候选词。
第二种:服务器将M个候选词中每个候选词的权重值与预设的权重阈值进行比较,以获得M个候选词中权重值大于或者等于该权重阈值的K个候选词,以实现从M个候选词中选择K个候选词。
服务器在获得K个候选词后,将该K个候选词作为文本信息对应对象的属性信息。
服务器可以将对象与属性信息的对应关系存储在数据库中,当需要依据用户输入的检索词,推送对象时,或者当需要向用户主动推荐对象时,可以依据该对应关系完成推送。
本发明实施例给出一种推送方法,该推送方法是利用上述方法获得的属性信息实现的。请参考图3,其为本发明实施例所提供的推送方法的流程示意图,如图所示,该方法包括以下步骤:
S301,依据使用客户端的用户的历史记录,获得与所述客户端相匹配的属性信息;或者,接收所述客户端发送的检索词,搜索与所述检索词相匹配的属性信息;其中,所述属性信息包括K个候选词,所述K个候选词为依据M个候选词中每i个候选词与N个关键词中每个所述关键词的共现概率,从所述M个候选词中获得的,N个关键词为依据语料库中的文本信息获得的;N为大于或者等于1的整数,M为大于0且小于或者等于N的整数,K为小于或者等于M且大于0的整数,i的取值为1到M中的整数。
具体的,服务器依据使用客户端的用户的历史记录,获得使用该客户端的用户的兴趣类型,然后服务器依据该兴趣类型,获得与该兴趣类型相匹配的属性信息。
或者,服务器接收客户端发送的检索词,然后在属性信息中进行搜索,以获得与该检索词相匹配的属性信息。其中,客户端发送给服务器的检索词为用户在客户端中输入的检索词。
S302,依据所述属性信息,获得所述属性信息所对应的对象。
具体的,服务器依据获得的属性信息,以及预先利用上述方法获得的对象与属性信息的对应关系,获得该属性信息所对应的对象。
S303,向所述客户端推送所述对象。
具体的,服务器在获得属性信息所对应的对象后,将该对象推送给客户端,以实现对象的检索或者对象的推荐。
可选的,S301之前,所述方法还可以包括:
依据语料库中的文本信息,获得所述N个关键词;
获得所述M个候选词,所述M个候选词为所述N个关键词中的M个关键词或者标签库中的M个标签;
依据所述M个候选词中第i个候选词与所述N个关键词中每个所述关键词的共现概率,从所述M个候选词中选择所述K个候选词,以作为所述文本信息对应的对象的属性信息。
也就是说,所述属性信息为利用上述属性信息的获取方法获得的。
可以理解的,由于不同类型的对象的数目分布不均匀,如娱乐类、搞笑类的视频的数目比较大,而科技类的视频的数目比较少,因此,对于一些比较冷门的标签,由于标签在标签库中的出现次数比较少,导致其先验概率比较低,如果利用现有技术中朴素贝叶斯算法计算标签的权重值时,将会给数目比较少的视频的标注上错误的标签。如果利用本发明实施例提供的技术方案,可以通过预先设置好比较冷门的标签的先验概率,来避免该问题的发生,从而提高属性信息的准确度。例如,可以预先设置p(穿越火线|CF视频)=1、p(穿越火线|夏佐解说)=1、p(篮球|科比)=1、p(篮球|林书豪)=1、p(林丹|谢杏芳)=1等。在朴素贝叶斯算法中,由于没有使用其他关键词或者标签的先验概率,如果预先设置好关键词或者标签的先验概率,也会给视频的标题标注上错误的标签。本发明实施例提供的方法中,由于会使用其他关键词或者其他标签的先验概率,会提高属性信息的准确度。
下面分别举例说明本发明实施例在获得关键词的权重值和标签的权重值时的有益效果。
1、获得关键词的权重值时的有益效果:
以某视频的标题信息为“广场舞荷塘月色很赞”为例,对该标题信息进行切词,获得关键词“广场舞”、“荷塘月色”、“很赞”,按照分词在语料库的文本信息的出现次数由大到小的顺序,对这些分词进行排序,获得排序结果“广场舞”、“荷塘月色”、“很赞”。
如果现有技术中依据分词在语料库中文本信息的出现次数的倒数,获得该分词的权重值,排序结果是“很赞”、“荷塘月色”、“广场舞”,也就是“很赞”由于权重值最高,将被作为该视频的关键词,但是很明显,关键词“很赞”与视频的主题不匹配。
如果利用本发明实施例提供的技术方案,将参考每个关键词与其他关键词的共现概率,还会考虑每个关键词的搜索次数,该搜索次数反映了用户的搜索需求,共现概率反映了关键词之间的贡献。由于“广场舞”的搜索次数高于其他关键词,“荷塘月色”与“广场舞”的共现概率较高,而“很赞”和其他关键词的共现概率比较低,因此,可以得到的关键词依据权重值由大到小的排序结果“广场舞”、“荷塘月色”、“很赞”,并且关键词“很赞”与其他两个关键词词的权重值有较大的差距。如果取权重值最高的两个关键词,就可以得到这个视频的关键词为“广场舞”和“荷塘月色”,很明显,关键词“广场舞”和“荷塘月色”与视频的主题相匹配。
因此,由于使用了关键词之间的共现次数,本发明实施例提供的技术方案获得的关键词更加符合对象的主题,因此可以提高获取的关键词的准确性,具有很强的鲁棒性。
2、获得标签的权重值时的有益效果:
以某视频的标题信息为“广场舞荷塘月色很赞”为例,其候选标签可以为“健身舞”和“音乐”。
如果利用现有技术中的朴素贝叶斯算法,可以得到如下的先验概率:
p(健身舞)=p(音乐)=0.3
p(广场舞|健身舞)=0.07
p(荷塘月色|健身舞)=0.002
p(很赞|健身舞)=0.001
p(广场舞|音乐)=0.002
p(荷塘月色|音乐)=0.04
p(很赞|音乐)=0.002
标签库中存在不合理的先验概率,使得p(广场舞|音乐)=0.002大于p(很赞|健身舞)=0.001,受该噪声影响,获得的标签“健身舞”的权重值为0.3×0.07×0.002×0.001=4.2e-8,标签“音乐”的权重值为0.3×0.002×0.04×0.002=4.8e-8。因此,视频的标签取其中权重值较大的标签,即“音乐”。
如果利用本发明实施例提供的技术方案,可以获得如下先验概率和联合概率:
p(健身舞)=p(音乐)=0.3
p(广场舞)=0.5
p(荷塘月色)=0.4
p(很赞)=0.1
p(健身舞|广场舞)=0.8
p(健身舞|荷塘月色)=0.2
p(健身舞|很赞)=0.1
p(音乐|广场舞)=0
p(音乐|荷塘月色)=0.8
p(音乐|很赞)=0.2
获得标签“健身舞”的权重值为为0.3×(0.5×0.8+0.4×0.2+0.1×0.1)=0.147;标签“音乐”的权重值为0.3×(0.5×0+0.4×0.8+0.1×0.2)=0.102。
利用本发明实施例提供的技术方案,确定该是视频的标签是“健身舞”,很明显,与标签“音乐”相比,标签“健身舞”与该视频更加匹配。
本发明实施例进一步给出实现上述方法实施例中各步骤及方法的装置实施例。
请参考图4,其为本发明实施例所提供的属性信息的获取装置的功能方块图。如图所示,该装置包括:
关键词获取单元401,用于依据语料库中的文本信息,获得N个关键词,N为大于或者等于1的整数;
候选词获取单元402,用于获得M个候选词,所述M个候选词为所述N个关键词中的M个关键词或者标签库中的M个标签,M为大于0且小于或者等于N的整数;
属性获取单元403,用于依据所述M个候选词中第i个候选词与所述N个关键词中每个所述关键词的共现概率,从所述M个候选词中选择K个候选词,以作为所述文本信息对应的对象的属性信息,i的取值为1到M中的整数,K为小于或者等于M且大于0的整数。
优选的,所述关键词获取单元401具体用于:
获得所述语料库中的文本信息;
对所述文本信息进行切词处理,以获得所述N个关键词。
优选的,所述属性获取单元403具体用于:
依据所述M个候选词中第i个候选词与所述N个关键词中每个所述关键词的共现概率,获得所述第i个候选词的权重值;
依据所述M个候选词的权重值,从所述M个候选词中选择K个候选词,以作为所述文本信息对应的对象的属性信息。
优选的,所述依据所述M个候选词中第i个候选词与所述N个关键词中每个所述关键词的共现概率,获得所述第i个候选词的权重值,具体为:
获得所述M个候选词中第i个候选词与所述N个关键词每个所述关键词的共现概率;
获得所述共现概率的累加和;
依据所述第i个候选词的先验概率和所述累加和,获得所述第i个候选词的权重值;其中,所述第i个候选词的先验概率为依据所述第i个候选词的搜索次数获得的。
优选的,所述依据所述M个候选词的权重值,从所述M个候选词中选择K个候选词,具体为:
按照权重值由大到小的顺序,对所述M个候选词进行排序,以获得排序结果;获得所述排序结果中排名靠前的K个候选词;或者,
依据所述M个候选词的权重值和预设的权重阈值,获得所述M个候选词中权重值大于或者等于所述权重阈值的K个候选词。
优选的,所述文本信息为所述对象的标题信息;
所述对象包括视频、图片、应用和网页中至少一个;
所述属性信息包括所述对象的关键词和/或所述对象的标签。
由于本实施例中的各单元能够执行图2所示的方法,本实施例未详细描述的部分,可参考对图2的相关说明。
请参考图5,其为本发明实施例所提供的推送装置的功能方块图。如图所示,该装置包括:
匹配处理单元501,用于依据使用客户端的用户的历史记录,获得与所述客户端相匹配的属性信息;或者,接收所述客户端发送的检索词,搜索与所述检索词相匹配的属性信息;其中,所述属性信息包括K个候选词,所述K个候选词为依据M个候选词中每i个候选词与N个关键词中每个所述关键词的共现概率,从所述M个候选词中获得的,N个关键词为依据语料库中的文本信息获得的;N为大于或者等于1的整数,M为大于0且小于或者等于N的整数,K为小于或者等于M且大于0的整数,i的取值为1到M中的整数;
属性处理单元502,用于依据所述属性信息,获得所述属性信息所对应的对象;
对象推送单元503,用于向所述客户端推送所述对象。
可选的,所述装置还包括:
属性信息获取单元504,用于依据语料库中的文本信息,获得所述N个关键词;获得所述M个候选词,所述M个候选词为所述N个关键词中的M个关键词或者标签库中的M个标签;依据所述M个候选词中第i个候选词与所述N个关键词中每个所述关键词的共现概率,从所述M个候选词中选择所述K个候选词,以作为所述文本信息对应的对象的属性信息。
由于本实施例中的各单元能够执行图3所示的方法,本实施例未详细描述的部分,可参考对图3的相关说明。
本发明实施例的技术方案具有以下有益效果:
1、本发明实施例提供的技术方案中,依据候选词与文本信息中关键词之间的共现概率,来选择候选词作为文本信息对应的对象的关键词,这样,就可以实现将共现概率较高的候选词作为文本信息对应对象的关键词,往往共现概率较高的候选词是文本信息对应的对象的主要候选词,因此,与现有技术中获得对象的属性信息的方法相比,本发明实施例获得的对象的属性信息与对象的主题更加匹配,因此获得对象的属性信息的准确性更高。
2、由于本发明实施例获得对象的属性信息的准确性更高,如果利用对象的属性信息进行对象检索和对象推荐,能够提高对象检索的检索结果的质量和对象推荐的准确度。
3、本发明实施例中,在获得候选词的权重值时,利用共现概率求和的方式进行计算,使得共现概率较大的概率项起到最大的主导作用;与现有技术中利用朴素贝叶斯算法中采用乘积的方式相比,该方式由概率最小的概率项起主导作用,这样很容易受到错误候选词的干扰,为对象标注上错误的属性信息。尤其对标题信息较短、主题相对集中的对象而言,干扰更大。而且,在获得候选词的权重值时,同时参考了候选词的搜索次数,从而可以通过参考搜索次数,将搜索次数较少的冷门候选词排除掉,能够更加有益于抑制冷门候选词的干扰。
4、现有技术中利用朴素贝叶斯算法中采用乘积的方式,如果其中存在为0的项,还需要进行平滑处理,否则会导致候选词的权重值为0,然而,不同的平滑处理方法对权重值的计算结果影响差异较大,容易导致为对象标注不相匹配的候选词。而本发明中在获得候选词的权重值时,利用共现概率求和的方式进行计算,概率为0的项不会导致权重值为0,因此本发明实施例不需要进行平滑处理,因此,能够为对象选出更加匹配的候选词。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)或处理器(Processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (14)
1.一种对象的属性信息的获取方法,其特征在于,所述方法包括:
依据语料库中的与所述对象对应的文本信息获得N个关键词,N为大于或者等于1的整数;
获得M个候选词,所述M个候选词为所述N个关键词中的M个关键词,M为大于0且小于或者等于N的整数,其中所述M个关键词是通过统计所述N个关键词中每个关键词的出现次数而选出的出现次数最多的M个关键词;
依据所述M个候选词中第i个候选词与所述N个关键词中每个所述关键词的共现概率的累加和与所述第i个候选词的先验概率的和或乘积,获得所述第i个候选词的权重值;
依据所述M个候选词的权重值,从所述M个候选词中选择K个候选词,以作为所述文本信息对应的所述对象的属性信息,其中,所述第i个候选词的先验概率是依据所述第i个候选词的搜索次数获得的,且i的取值为1到M中的整数,K为小于或者等于M且大于0的整数。
2.根据权利要求1所述的方法,其特征在于,所述依据语料库中的文本信息,获得N个关键词,包括:
获得所述语料库中的文本信息;
对所述文本信息进行切词处理,以获得所述N个关键词。
3.根据权利要求1所述的方法,其特征在于,所述依据所述M个候选词中第i个候选词与所述N个关键词中每个所述关键词的共现概率的累加和与所述第i个候选词的先验概率的和或乘积,获得所述第i个候选词的权重值,包括:
获得所述M个候选词中第i个候选词与所述N个关键词中每个所述关键词的共现概率;
获得所述共现概率的累加和;
依据所述第i个候选词的先验概率和所述累加和的和或乘积,获得所述第i个候选词的权重值。
4.根据权利要求1或3所述的方法,其特征在于,所述依据所述M个候选词的权重值,从所述M个候选词中选择K个候选词,包括:
按照权重值由大到小的顺序,对所述M个候选词进行排序,以获得排序结果;获得所述排序结果中排名靠前的K个候选词;或者,
依据所述M个候选词的权重值和预设的权重阈值,获得所述M个候选词中权重值大于或者等于所述权重阈值的K个候选词。
5.根据权利要求1所述的方法,其特征在于,
所述文本信息为所述对象的标题信息;
所述对象包括视频、图片、应用和网页中至少一个;
所述属性信息包括所述对象的关键词和/或所述对象的标签。
6.一种推送方法,其特征在于,所述方法包括:
依据使用客户端的用户的历史记录,获得与所述客户端相匹配的属性信息;或者,接收所述客户端发送的检索词,搜索与所述检索词相匹配的属性信息;其中,所述属性信息包括K个候选词,所述K个候选词为依据M个候选词中第i个候选词与N个关键词中每个所述关键词的共现概率的累加和与所述第i个候选词的先验概率的和或乘积,从所述M个候选词中获得的,N个关键词为依据语料库中的文本信息获得的,所述M个候选词是通过统计所述N个关键词中每个关键词的出现次数而选出的出现次数最多的M个关键词;所述第i个候选词的先验概率为依据所述第i个候选词的搜索次数获得的,N为大于或者等于1的整数,M为大于0且小于或者等于N的整数,K为小于或者等于M且大于0的整数,i的取值为1到M中的整数;
依据所述属性信息,获得所述属性信息所对应的对象;
向所述客户端推送所述对象。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
依据语料库中的文本信息,获得所述N个关键词;
获得所述M个候选词,所述M个候选词为所述N个关键词中的M个关键词;
依据所述M个候选词中第i个候选词与所述N个关键词中每个所述关键词的共现概率的累加和与所述第i个候选词的先验概率的和或乘积,从所述M个候选词中选择所述K个候选词,以作为所述文本信息对应的对象的属性信息。
8.一种对象的属性信息的获取装置,其特征在于,所述装置包括:
关键词获取单元,用于依据语料库中的文本信息,获得与所述对象对应的N个关键词,N为大于或者等于1的整数;
候选词获取单元,用于获得M个候选词,所述M个候选词为所述N个关键词中的M个关键词,M为大于0且小于或者等于N的整数,其中所述M个关键词是通过统计所述N个关键词中每个关键词的出现次数而选出的出现次数最多的M个关键词;
属性获取单元,用于依据所述M个候选词中第i个候选词与所述N个关键词中每个所述关键词的共现概率的累加和与所述第i个候选词的先验概率的和或乘积,获得所述第i个候选词的权重值;以及依据所述M个候选词的权重值,从所述M个候选词中选择K个候选词,以作为所述文本信息对应的所述对象的属性信息,所述第i个候选词的先验概率为依据所述第i个候选词的搜索次数获得的,i的取值为1到M中的整数,K为小于或者等于M且大于0的整数。
9.根据权利要求8所述的装置,其特征在于,所述关键词获取单元具体用于:
获得所述语料库中的文本信息;
对所述文本信息进行切词处理,以获得所述N个关键词。
10.根据权利要求8所述的装置,其特征在于,所述依据所述M个候选词中第i个候选词与所述N个关键词中每个所述关键词的共现概率的累加和与所述第i个候选词的先验概率的和或乘积,获得所述第i个候选词的权重值,具体为:
获得所述M个候选词中第i个候选词与所述N个关键词中每个所述关键词的共现概率;
获得所述共现概率的累加和;
依据所述第i个候选词的先验概率和所述累加和的和或乘积,获得所述第i个候选词的权重值。
11.根据权利要求8或10所述的装置,其特征在于,所述依据所述M个候选词的权重值,从所述M个候选词中选择K个候选词,具体为:
按照权重值由大到小的顺序,对所述M个候选词进行排序,以获得排序结果;获得所述排序结果中排名靠前的K个候选词;或者,
依据所述M个候选词的权重值和预设的权重阈值,获得所述M个候选词中权重值大于或者等于所述权重阈值的K个候选词。
12.根据权利要求8所述的装置,其特征在于,
所述文本信息为所述对象的标题信息;
所述对象包括视频、图片、应用和网页中至少一个;
所述属性信息包括所述对象的关键词和/或所述对象的标签。
13.一种推送装置,其特征在于,所述装置包括:
匹配处理单元,用于依据使用客户端的用户的历史记录,获得与所述客户端相匹配的属性信息;或者,接收所述客户端发送的检索词,搜索与所述检索词相匹配的属性信息;其中,所述属性信息包括K个候选词,所述K个候选词为依据M个候选词中每i个候选词与N个关键词中每个所述关键词的共现概率的累加和与所述第i个候选词的先验概率的和或乘积,从所述M个候选词中获得的,所述第i个候选词的先验概率为依据所述第i个候选词的搜索次数获得的,N个关键词为依据语料库中的文本信息获得的,所述M个候选词是通过统计所述N个关键词中每个关键词的出现次数而选出的出现次数最多的M个关键词;N为大于或者等于1的整数,M为大于0且小于或者等于N的整数,K为小于或者等于M且大于0的整数,i的取值为1到M中的整数;
属性处理单元,用于依据所述属性信息,获得所述属性信息所对应的对象;
对象推送单元,用于向所述客户端推送所述对象。
14.根据权利要求13所述的装置,其特征在于,所述装置还包括:
属性信息获取单元,用于依据语料库中的文本信息,获得所述N个关键词;获得所述M个候选词,所述M个候选词为所述N个关键词中的M个关键词;依据所述M个候选词中第i个候选词与所述N个关键词中每个所述关键词的共现概率的累加和与所述第i个候选词的先验概率的和或乘积,从所述M个候选词中选择所述K个候选词,以作为所述文本信息对应的对象的属性信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410425516.0A CN104199898B (zh) | 2014-08-26 | 2014-08-26 | 一种属性信息的获取方法及装置、推送方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410425516.0A CN104199898B (zh) | 2014-08-26 | 2014-08-26 | 一种属性信息的获取方法及装置、推送方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104199898A CN104199898A (zh) | 2014-12-10 |
CN104199898B true CN104199898B (zh) | 2018-05-15 |
Family
ID=52085191
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410425516.0A Active CN104199898B (zh) | 2014-08-26 | 2014-08-26 | 一种属性信息的获取方法及装置、推送方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104199898B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105740404A (zh) * | 2016-01-28 | 2016-07-06 | 上海晶赞科技发展有限公司 | 标签关联方法及装置 |
CN107291774B (zh) * | 2016-04-11 | 2020-02-07 | 北京京东尚科信息技术有限公司 | 错误样本识别方法和装置 |
CN107436922B (zh) * | 2017-07-05 | 2021-06-08 | 北京百度网讯科技有限公司 | 文本标签生成方法和装置 |
CN110110207B (zh) * | 2018-01-18 | 2023-11-03 | 北京搜狗科技发展有限公司 | 一种信息推荐方法、装置及电子设备 |
CN108595679B (zh) * | 2018-05-02 | 2021-04-27 | 武汉斗鱼网络科技有限公司 | 一种标签确定方法、装置、终端和存储介质 |
CN109800428B (zh) * | 2018-12-28 | 2023-01-13 | 东软集团股份有限公司 | 一种为语料标注分词结果的方法、装置、设备及存储介质 |
CN109976622B (zh) * | 2019-04-04 | 2021-02-02 | 掌阅科技股份有限公司 | 书籍标签确定方法、电子设备及计算机存储介质 |
CN111782760B (zh) * | 2019-05-09 | 2024-07-16 | 北京沃东天骏信息技术有限公司 | 核心产品词的识别方法、装置及设备 |
CN110442767B (zh) * | 2019-07-31 | 2023-08-18 | 腾讯科技(深圳)有限公司 | 一种确定内容互动平台标签的方法、装置及可读存储介质 |
CN113343684B (zh) * | 2021-06-22 | 2023-05-26 | 广州华多网络科技有限公司 | 核心产品词识别方法、装置、计算机设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102262625A (zh) * | 2009-12-24 | 2011-11-30 | 华为技术有限公司 | 网页关键词提取方法及装置 |
CN102760142A (zh) * | 2011-04-29 | 2012-10-31 | 北京百度网讯科技有限公司 | 一种针对搜索请求抽取搜索结果主题标签的方法和装置 |
CN103198057A (zh) * | 2012-01-05 | 2013-07-10 | 深圳市腾讯计算机系统有限公司 | 一种自动给文档添加标签的方法和装置 |
CN103810030A (zh) * | 2014-02-20 | 2014-05-21 | 北京奇虎科技有限公司 | 一种基于移动终端应用市场的应用推荐方法、装置及系统 |
CN103942257A (zh) * | 2014-03-19 | 2014-07-23 | 百度在线网络技术(北京)有限公司 | 一种视频搜索的方法与装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9678961B2 (en) * | 2012-09-13 | 2017-06-13 | Canon Europa N.V. | Method and device for associating metadata to media objects |
CN106909638A (zh) * | 2012-12-07 | 2017-06-30 | 合网络技术(北京)有限公司 | 一种基于用户查询日志实时发现热点视频的方法和装置 |
CN103279513B (zh) * | 2013-05-22 | 2017-03-01 | 百度在线网络技术(北京)有限公司 | 产生内容标签的方法、提供多媒体内容信息的方法及装置 |
CN103399901B (zh) * | 2013-07-25 | 2016-06-08 | 三星电子(中国)研发中心 | 一种关键词抽取方法 |
-
2014
- 2014-08-26 CN CN201410425516.0A patent/CN104199898B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102262625A (zh) * | 2009-12-24 | 2011-11-30 | 华为技术有限公司 | 网页关键词提取方法及装置 |
CN102760142A (zh) * | 2011-04-29 | 2012-10-31 | 北京百度网讯科技有限公司 | 一种针对搜索请求抽取搜索结果主题标签的方法和装置 |
CN103198057A (zh) * | 2012-01-05 | 2013-07-10 | 深圳市腾讯计算机系统有限公司 | 一种自动给文档添加标签的方法和装置 |
CN103810030A (zh) * | 2014-02-20 | 2014-05-21 | 北京奇虎科技有限公司 | 一种基于移动终端应用市场的应用推荐方法、装置及系统 |
CN103942257A (zh) * | 2014-03-19 | 2014-07-23 | 百度在线网络技术(北京)有限公司 | 一种视频搜索的方法与装置 |
Non-Patent Citations (1)
Title |
---|
"一种哈希表快速查找的改进方法";马如林 等;《计算机工程与科学》;20080930;第30卷(第9期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN104199898A (zh) | 2014-12-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104199898B (zh) | 一种属性信息的获取方法及装置、推送方法及装置 | |
CN109376309B (zh) | 基于语义标签的文档推荐方法和装置 | |
CN108829822B (zh) | 媒体内容的推荐方法和装置、存储介质、电子装置 | |
CN109508414B (zh) | 一种同义词挖掘方法及装置 | |
CN108536852B (zh) | 问答交互方法和装置、计算机设备及计算机可读存储介质 | |
US20180336193A1 (en) | Artificial Intelligence Based Method and Apparatus for Generating Article | |
CN105045781B (zh) | 查询词相似度计算方法及装置、查询词搜索方法及装置 | |
CN106407280B (zh) | 查询目标匹配方法及装置 | |
CN104615593B (zh) | 微博热点话题自动检测方法及装置 | |
WO2017101342A1 (zh) | 情感分类方法及装置 | |
CN110134792B (zh) | 文本识别方法、装置、电子设备以及存储介质 | |
CN111310011B (zh) | 一种信息推送方法、装置、电子设备及存储介质 | |
CN110717038B (zh) | 对象分类方法及装置 | |
CN108287875B (zh) | 人物共现关系确定方法、专家推荐方法、装置及设备 | |
CN109388743B (zh) | 语言模型的确定方法和装置 | |
CN107885717B (zh) | 一种关键词提取方法及装置 | |
CN110990533B (zh) | 确定查询文本所对应标准文本的方法及装置 | |
WO2018068648A1 (zh) | 一种信息匹配方法及相关装置 | |
CN103235773B (zh) | 基于关键词的文本的标签提取方法及装置 | |
CN105447005B (zh) | 一种对象推送方法及装置 | |
CN110866102A (zh) | 检索处理方法 | |
US20220321963A1 (en) | Method and apparatus for video recommendation, and refrigerator with screen | |
CN108536676B (zh) | 数据处理方法、装置、电子设备及存储介质 | |
Bendouch et al. | A visual-semantic approach for building content-based recommender systems | |
CN107665222B (zh) | 关键词的拓展方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C41 | Transfer of patent application or patent right or utility model | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20161230 Address after: 100193 room 303-305, building, East District, No. 10, Wang Dong Road, Beijing, Haidian District Applicant after: Beijing small mutual Entertainment Technology Co., Ltd. Address before: 100085 Beijing, Haidian District, No. ten on the street Baidu building, No. 10 Applicant before: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |