CN103020212A - 一种基于用户查询日志实时发现热点视频的方法和装置 - Google Patents

一种基于用户查询日志实时发现热点视频的方法和装置 Download PDF

Info

Publication number
CN103020212A
CN103020212A CN2012105257357A CN201210525735A CN103020212A CN 103020212 A CN103020212 A CN 103020212A CN 2012105257357 A CN2012105257357 A CN 2012105257357A CN 201210525735 A CN201210525735 A CN 201210525735A CN 103020212 A CN103020212 A CN 103020212A
Authority
CN
China
Prior art keywords
word
user
atom
inquiry log
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012105257357A
Other languages
English (en)
Other versions
CN103020212B (zh
Inventor
李力行
姚健
潘柏宇
卢述奇
尹玉宗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Youku Network Technology Beijing Co Ltd
Original Assignee
1Verge Internet Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 1Verge Internet Technology Beijing Co Ltd filed Critical 1Verge Internet Technology Beijing Co Ltd
Priority to CN201210525735.7A priority Critical patent/CN103020212B/zh
Priority to CN201710083558.4A priority patent/CN106909638A/zh
Publication of CN103020212A publication Critical patent/CN103020212A/zh
Application granted granted Critical
Publication of CN103020212B publication Critical patent/CN103020212B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying

Abstract

一种基于用户查询日志实时发现热点视频的方法和装置,其首先将一段时间内的用户视频查询日志进行切词,得到原子词;然后,统计所述原子词的每一个在所述一段时间内的用户视频查询日志中出现的次数以及任意两个原子词同时出现在同一条用户查询中的次数;根据得到的次数值采用逐点互信息(PMI)的方法计算用户视频查询日志中任意两个原子词之间的关联度,将关联度超过一定阈值的任意两个原子词合并为一复合词放入复合词词表中;最后对复合词进行降序排序,最终按一定比例将排在前面的复合词作为实时发现热点视频的关键词。

Description

一种基于用户查询日志实时发现热点视频的方法和装置
技术领域
本发明属于互联网数据统计分析技术领域,尤其涉及一种基于用户查询日志实时发现热点视频的方法和装置。
背景技术
随着互联网的迅猛发展,用户对视频搜索结果提出了更高的要求,不仅需要搜索结果相关,而且还应有较高的实时性,这使得实时搜索变得日趋重要。视频实时搜索指的是对视频库中的信息进行即时、快速的搜索,实现即搜即得的效果。通过实时搜索,用户可以在第一时间获取到热点事件的第一手信息。然而,相比于传统搜索,实时搜索也带来了巨大的挑战。对于热点事件,由于其突发性和不可预测性,很可能相关视频的数量和点击量较少,导致在它们在搜索结果中排序靠后,从而无法真正满足用户对实时性的需求。
因为实时热点具有在较短时间内搜索量大的特点,通过对最新的用户查询日志分析最有可能发现出新的热点词和热点事件,以此来改善搜索排序结果对实时性的反应。分析用户日志时所遇到的一个困难是:每天的用户查询日志中都会不断涌现出新名词、新热点,如“欧洲杯”,“楼道王菲刘美麟”等,而原有的切词程序无法反映出这些新词的语义关联,即有可能将语义上应连接在一起的构成一个词的字符串切分为多个词。切词程序一般采用基于词表的方法,即根据一个预先给定的词表对字符串扫描,通过一定的匹配方法(正向最大、逆向最大、双向匹配等)找到一种最合适的词语切分,这一方法的缺点在于:无法切分出原词表中不包含的词,即新词。这一缺陷将可能导致模糊匹配(即搜索时只对部分查询词进行匹配)的结果不够理想。
发明内容
鉴于现有技术中存在的问题,本发明的目的在于提供一种基于用户查询日志实时发现热点视频的方法,其特征在于包括如下步骤:
S1、将一段时间内的用户视频查询日志输入到切词程序,完成每一条用户视频查询日志的切词,得到每条用户查询的切词结果,并将组成所述切词结果的不同词语作为原子词;
S2、统计所述原子词的每一个在所述一段时间内的用户视频查询日志中出现的次数;
S3、根据步骤S1得到的切词结果统计任意两个原子词同时出现在同一条用户查询中的次数;
S4、根据步骤S2和S3得到的次数值采用逐点互信息(PMI)的方法计算用户视频查询日志中任意两个原子词之间的关联度;
S5、将步骤S4中所计算的关联度超过一定阈值的任意两个原子词合并为一复合词放入复合词词表中;
S6、在复合词表中按照构成复合词的原子词在所述一段时间内的用户视频查询日志中出现的次数对复合词进行降序排序,最终按一定比例将排在前面的复合词作为实时发现热点视频的关键词返回。
进一步,本发明所述的基于用户查询日志实时发现热点视频的方法,其特征在于所述步骤S4中所述逐点互信息(PMI)的方法的具体计算方法如下:
任给两个原子词A、B,它们的关联度表示为
PMI ( A , B ) = log 2 P ( A , B ) P ( A ) P ( B ) - - - ( 1 )
其中,P(A,B)表示A,B出现在同一条用户视频查询日志中次数,P(A)、P(B)分别表示A、B在所述一段时间内的用户视频查询日志中出现的次数。
进一步,本发明所述的基于用户查询日志实时发现热点视频的方法,其特征在于采用最大似然估计(Maximum likelihood estimate)来计算次数。
此外,本发明还提供了一种基于用户查询日志实时发现热点视频的装置,其特征在于包括如下模块:
切词模块,用于将一段时间内的用户视频查询日志输入到切词程序,完成每一条用户视频查询日志的切词,得到每条用户查询的切词结果,并将组成所述切词结果的不同词语作为原子词;
原子词出现次数统计模块,用于统计所述原子词的每一个在所述一段时间内的用户视频查询日志中出现的次数;
原子词共现次数统计模块,用于根据所述原子词出现次数统计模块得到的切词结果统计任意两个原子词同时出现在同一条用户查询中的次数;
关联度计算模块,用于根据所述原子词出现次数统计模块和所述原子词共现次数统计模块得到的次数值采用逐点互信息(PMI)的方法计算用户视频查询日志中任意两个原子词之间的关联度;
复合词生成模块,用于将所述关联度计算模块所计算的关联度超过一定阈值的任意两个原子词合并为一复合词放入复合词词表中;
热点关键词确定模块,用于在复合词表中按照构成复合词的原子词在所述一段时间内的用户视频查询日志中出现的次数对复合词进行降序排序,最终按一定比例将排在前面的复合词作为实时发现热点视频的关键词返回。
进一步,本发明所述的基于用户查询日志实时发现热点视频的装置,其特征在于所述关联度计算模块中所述逐点互信息(PMI)的方法的具体计算方法如下:
任给两个原子词A、B,它们的关联度表示为
PMI ( A , B ) = log 2 P ( A , B ) P ( A ) P ( B ) - - - ( 1 )
其中,P(A,B)表示A,B出现在同一条用户视频查询日志中次数,P(A)、P(B)分别表示A、B在所述一段时间内的用户视频查询日志中出现的次数。
进一步,本发明所述的基于用户查询日志实时发现热点视频的装置,其特征在于采用最大似然估计(Maximum likelihood estimate)来计算次数。
本发明将逐点互信息这一信息论中的概念,应用于用户查询日志的分析,解决了新名词涌现而导致的切词不准确以及视频实时热点的发现问题。本发明不仅有严格的理论基础,而且在工程实现上简单高效,有效地避免了因采用级联方式(即穷举任意两词或多词的组合)而带来的组合爆炸的问题。本方法可使得视频热点发现完全自动化,无需人工的参与,在极大提高效率的同时又保证了较高的准确率。
附图说明
图1是本发明基于用户查询日志实时发现热点视频的方法的实现原理图;
图2是本发明基于用户查询日志实时发现热点视频的方法的流程图;
图3是本发明基于用户查询日志实时发现热点视频的装置的功能框图。
具体实施方式
为使本发明的上述目的、特征和优点更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明:
因为实时热点具有在较短时间内搜索量大的特点,通过对最新的用户查询日志分析最有可能发现出新的热点词和热点事件,以此来改善搜索排序结果对实时性的反应。图1是本发明基于用户查询日志实时发现热点视频的方法的实现原理图;如图1所示,本发明将一段时间内的用户查询日志输入到切词程序中,得到每条用户查询的切词结果,这里所提取出的词我们称为原子词。然后,在此基础上统计原子词的词频信息和它们的共现次数(即两词同时出现在同一条用户查询中),并采用逐点互信息(PMI)的计算方法,将语义上密切关联的两个或多个原子词合成为一个复合词,由此迭代生成出新词表。最后,按新词表中词的词频排序,自动发现出热点词和热点事件。
图2是本发明基于用户查询日志实时发现热点视频的方法的流程图;如图所示,本发明基于用户查询日志发现视频实时热点的方法包括如下步骤:
S1、将一段时间内的用户视频查询日志输入到切词程序,完成每一条用户视频查询日志的切词,得到每条用户查询的切词结果,并将组成所述切词结果的不同词语作为原子词;
切词程序根据已有词表以最大正向匹配的方法对查询进行切分。
例如,用户输入查询:“还珠格格主题曲”,切词程序返回结果“还珠|格格|主题曲”,即该查询中包含了三个原子词:“还珠”、“格格”和“主题曲”。
S2、统计所述原子词的每一个在所述一段时间内的用户视频查询日志中出现的次数;
例如,从一天的用户查询日志中统计得到:“还珠”出现61,661次,“格格”出现65,564次,“主题曲”出现306,050次。
S3、根据步骤S1得到的切词结果统计任意两个原子词同时出现在同一条用户查询中的次数;
例如,从一天的用户查询日志中统计得到:“还珠格格”出现60,245次,“格格主题曲”出现1,505次。
S4、根据步骤S2和S3得到的次数值采用逐点互信息(PMI)的方法计算用户视频查询日志中任意两个原子词之间的关联度;
采用逐点互信息(Pointwise Mutual Information,简记为PMI)的方法用以刻画用户查询日志中两词之间的关联度。该方法的基本思想阐述如下。
逐点互信息的计算方法
PMI是信息论中的一个经典概念,用于度量两个随机事件的之间相关性。我们认为PMI同样适合于计算视频搜索中两词之间的关联度。直观上,通过分析用户查询日志,若两个词共现于同一查询中的次数很多,则意味着两词有极大的可能应合并为一个复合词。下面给出PMI的具体计算方法。
任给两个词A,B,它们的关联度表示为
PMI ( A , B ) = log 2 P ( A , B ) P ( A ) P ( B ) - - - ( 1 )
其中,P(A,B)表示A,B共现的次数,P(A),P(B)分别为A,B出现的次数。
由上式可知,若A,B独立,则PMI(A,B)的值为0;若A,B存在关联(这里指共现),则PMI(A,B)>0,且关联度越高,PMI值越大。
当采用最大似然估计(Maximum likelihood estimate)来估计次数参数时,公式(1)等价于
Figure BDA00002542578000052
其中,freq(A,B)表示同时包含A和B的用户查询数量,freq(A)、freq(B)分别表示包含A、B的用户查询数量,|Q|表示的一段时间内的用户查询总数。
通过计算PMI,我们可为任意两个词赋上一个数值,用其表示其关联度,并在此基础上,方便地比较词与词的关联,生成复合词。
例如,统计得到一天的用户查询总数为42,567,550次,则根据公式(2)可得:
Figure BDA00002542578000053
Figure BDA00002542578000061
S5、将步骤S4中所计算的关联度超过一定阈值的任意两个原子词合并为一复合词放入复合词词表中;
例如,选取一天用户查询日志计算所得的PMI均值3.83作为阈值,则上例中的“还珠”和“格格”因关联度高于阈值,所以可合为复合词“还珠格格”;而“格格”和“主题曲”则因关联度过低,无法合并。
S6、在复合词表中按照构成复合词的原子词在所述一段时间内的用户视频查询日志中出现的次数对复合词进行降序排序,最终按一定比例将排在前面的复合词作为实时发现热点视频的关键词返回。
例如,通过一天用户查询日志的分析,发现得到的新的热点词约15万个,其中排序最靠前的包括“偷天换日”(584,435次)、“快乐大本营”(485,773次)、“非你莫属”(476,852次)等。
图3是本发明基于用户查询日志实时发现热点视频的装置的功能框图,如图所示,本发明的基于用户查询日志实时发现热点视频的装置包括如下模块:
切词模块1,用于将一段时间内的用户视频查询日志输入到切词程序,完成每一条用户视频查询日志的切词,得到每条用户查询的切词结果,并将组成所述切词结果的不同词语作为原子词;
原子词出现次数统计模块2,用于统计所述原子词的每一个在所述一段时间内的用户视频查询日志中出现的次数;
原子词共现次数统计模块3,用于根据所述原子词出现次数统计模块得到的切词结果统计任意两个原子词同时出现在同一条用户查询中的次数;
关联度计算模块4,用于根据所述原子词出现次数统计模块和所述原子词共现次数统计模块得到的次数值采用逐点互信息(PMI)的方法计算用户视频查询日志中任意两个原子词之间的关联度;
复合词生成模块5,用于将所述关联度计算模块所计算的关联度超过一定阈值的任意两个原子词合并为一复合词放入复合词词表中;
热点关键词确定模块6,用于在复合词表中按照构成复合词的原子词在所述一段时间内的用户视频查询日志中出现的次数对复合词进行降序排序,最终按一定比例将排在前面的复合词作为实时发现热点视频的关键词返回。
本发明将逐点互信息这一信息论中的概念,应用于用户查询日志的分析,解决了新名词涌现而导致的切词不准确以及视频实时热点的发现问题。本发明不仅有严格的理论基础,而且在工程实现上简单高效,有效地避免了因采用级联方式(即穷举任意两词或多词的组合)而带来的组合爆炸的问题。本方法可使得视频热点发现完全自动化,无需人工的参与,在极大提高效率的同时又保证了较高的准确率。通过对某视频网站内一天5,000万条左右的用户视频查询日志采用发明所提出方法进行实验,经过六次PMI的迭代计算,共自动获得复合词15万个,且具有85%以上的准确率。
以上是对本发明的优选实施例进行的详细描述,但本领域的普通技术人员应该意识到,在本发明的范围内和精神指导下,各种改进、添加和替换都是可能的,例如调整接口调用顺序、改变消息格式和内容、使用不同的编程语言(如C、C++、Java等)实现等。这些都在本发明的权利要求所限定的保护范围内。

Claims (6)

1.一种基于用户查询日志实时发现热点视频的方法,其特征在于包括如下步骤:
S1、将一段时间内的用户视频查询日志输入到切词程序,完成每一条用户视频查询日志的切词,得到每条用户查询的切词结果,并将组成所述切词结果的不同词语作为原子词;
S2、统计所述原子词的每一个在所述一段时间内的用户视频查询日志中出现的次数;
S3、根据步骤S1得到的切词结果统计任意两个原子词同时出现在同一条用户查询中的次数;
S4、根据步骤S2和S3得到的次数值采用逐点互信息(PMI)的方法计算用户视频查询日志中任意两个原子词之间的关联度;
S5、将步骤S4中所计算的关联度超过一定阈值的任意两个原子词合并为一复合词放入复合词词表中;
S6、在复合词表中按照构成复合词的原子词在所述一段时间内的用户视频查询日志中出现的次数对复合词进行降序排序,最终按一定比例将排在前面的复合词作为实时发现热点视频的关键词返回。
2.根据权利要求1所述的基于用户查询日志实时发现热点视频的方法,其特征在于所述步骤S4中所述逐点互信息(PMI)的方法的具体计算方法如下:
任给两个原子词A、B,它们的关联度表示为
PMI ( A , B ) = log 2 P ( A , B ) P ( A ) P ( B ) - - - ( 1 )
其中,P(A,B)表示A,B出现在同一条用户视频查询日志中次数,P(A)、P(B)分别表示A、B在所述一段时间内的用户视频查询日志中出现的次数。
3.根据权利要求2所述的基于用户查询日志实时发现热点视频的方法,其特征在于采用最大似然估计(Maximum likelihood estimate)来计算次数。
4.一种基于用户查询日志实时发现热点视频的装置,其特征在于包括如下模块:
切词模块,用于将一段时间内的用户视频查询日志输入到切词程序,完成每一条用户视频查询日志的切词,得到每条用户查询的切词结果,并将组成所述切词结果的不同词语作为原子词;
原子词出现次数统计模块,用于统计所述原子词的每一个在所述一段时间内的用户视频查询日志中出现的次数;
原子词共现次数统计模块,用于根据所述原子词出现次数统计模块得到的切词结果统计任意两个原子词同时出现在同一条用户查询中的次数;
关联度计算模块,用于根据所述原子词出现次数统计模块和所述原子词共现次数统计模块得到的次数值采用逐点互信息(PMI)的方法计算用户视频查询日志中任意两个原子词之间的关联度;
复合词生成模块,用于将所述关联度计算模块所计算的关联度超过一定阈值的任意两个原子词合并为一复合词放入复合词词表中;
热点关键词确定模块,用于在复合词表中按照构成复合词的原子词在所述一段时间内的用户视频查询日志中出现的次数对复合词进行降序排序,最终按一定比例将排在前面的复合词作为实时发现热点视频的关键词返回。
5.根据权利要求4所述的基于用户查询日志实时发现热点视频的装置,其特征在于所述关联度计算模块中所述逐点互信息(PMI)的方法的具体计算方法如下:
任给两个原子词A、B,它们的关联度表示为
PMI ( A , B ) = log 2 P ( A , B ) P ( A ) P ( B ) - - - ( 1 )
其中,P(A,B)表示A,B出现在同一条用户视频查询日志中次数,P(A)、P(B)分别表示A、B在所述一段时间内的用户视频查询日志中出现的次数。
6.根据权利要求5所述的基于用户查询日志实时发现热点视频的装置,其特征在于采用最大似然估计(Maximum likelihood estimate)来计算次数。
CN201210525735.7A 2012-12-07 2012-12-07 一种基于用户查询日志实时发现热点视频的方法和装置 Active CN103020212B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201210525735.7A CN103020212B (zh) 2012-12-07 2012-12-07 一种基于用户查询日志实时发现热点视频的方法和装置
CN201710083558.4A CN106909638A (zh) 2012-12-07 2012-12-07 一种基于用户查询日志实时发现热点视频的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210525735.7A CN103020212B (zh) 2012-12-07 2012-12-07 一种基于用户查询日志实时发现热点视频的方法和装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN201710083558.4A Division CN106909638A (zh) 2012-12-07 2012-12-07 一种基于用户查询日志实时发现热点视频的方法和装置

Publications (2)

Publication Number Publication Date
CN103020212A true CN103020212A (zh) 2013-04-03
CN103020212B CN103020212B (zh) 2017-05-10

Family

ID=47968816

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201210525735.7A Active CN103020212B (zh) 2012-12-07 2012-12-07 一种基于用户查询日志实时发现热点视频的方法和装置
CN201710083558.4A Pending CN106909638A (zh) 2012-12-07 2012-12-07 一种基于用户查询日志实时发现热点视频的方法和装置

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201710083558.4A Pending CN106909638A (zh) 2012-12-07 2012-12-07 一种基于用户查询日志实时发现热点视频的方法和装置

Country Status (1)

Country Link
CN (2) CN103020212B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103593469A (zh) * 2013-11-30 2014-02-19 合一网络技术(北京)有限公司 一种采用互补信息的关联关键词计算方法及装置
CN104199898A (zh) * 2014-08-26 2014-12-10 百度在线网络技术(北京)有限公司 一种属性信息的获取方法及装置、推送方法及装置
CN105025339A (zh) * 2015-07-22 2015-11-04 天脉聚源(北京)传媒科技有限公司 一种电视盒子中节目的分类搜索方法及装置
CN105677664A (zh) * 2014-11-19 2016-06-15 腾讯科技(深圳)有限公司 基于网络搜索的紧密度确定方法及装置
CN105898425A (zh) * 2015-12-14 2016-08-24 乐视网信息技术(北京)股份有限公司 视频推荐方法、系统及服务器
CN106682411A (zh) * 2016-12-22 2017-05-17 浙江大学 一种将体检诊断数据转化为疾病标签的方法
CN107992473A (zh) * 2017-11-24 2018-05-04 国家计算机网络与信息安全管理中心 基于逐点互信息技术的诈骗信息特征词提取方法及系统
CN108170693A (zh) * 2016-12-07 2018-06-15 北京国双科技有限公司 推送热词的方法及装置
CN108509555A (zh) * 2018-03-22 2018-09-07 武汉斗鱼网络科技有限公司 搜索词确定方法、装置、设备及存储介质
CN108763196A (zh) * 2018-05-03 2018-11-06 上海海事大学 一种基于pmi的关键字提取方法
CN110188261A (zh) * 2019-05-30 2019-08-30 江苏神州信源系统工程有限公司 一种热点对象确定方法及装置

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107832444B (zh) * 2017-11-21 2021-08-13 北京百度网讯科技有限公司 基于搜索日志的事件发现方法及装置
CN108681564B (zh) * 2018-04-28 2021-06-29 北京京东尚科信息技术有限公司 关键词和答案的确定方法、装置和计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101833587A (zh) * 2010-05-28 2010-09-15 上海交通大学 网络视频搜索系统
CN102043845A (zh) * 2010-12-08 2011-05-04 百度在线网络技术(北京)有限公司 一种用于基于查询序列簇提取核心关键词的方法与设备
CN102253982A (zh) * 2011-06-24 2011-11-23 北京理工大学 一种基于查询语义和点击流数据的查询建议方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101046809A (zh) * 2006-03-28 2007-10-03 吴风勇 基于关联规则模式的新词识别方法
CN100555277C (zh) * 2007-12-20 2009-10-28 腾讯科技(深圳)有限公司 一种中文复合词的提取方法及提取系统
CN102200984A (zh) * 2010-03-24 2011-09-28 深圳市腾讯计算机系统有限公司 一种基于复合词的搜索方法和搜索引擎服务器

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101833587A (zh) * 2010-05-28 2010-09-15 上海交通大学 网络视频搜索系统
CN102043845A (zh) * 2010-12-08 2011-05-04 百度在线网络技术(北京)有限公司 一种用于基于查询序列簇提取核心关键词的方法与设备
CN102253982A (zh) * 2011-06-24 2011-11-23 北京理工大学 一种基于查询语义和点击流数据的查询建议方法

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103593469A (zh) * 2013-11-30 2014-02-19 合一网络技术(北京)有限公司 一种采用互补信息的关联关键词计算方法及装置
CN103593469B (zh) * 2013-11-30 2016-04-20 合一网络技术(北京)有限公司 一种采用互补信息的关联关键词计算方法及装置
CN104199898A (zh) * 2014-08-26 2014-12-10 百度在线网络技术(北京)有限公司 一种属性信息的获取方法及装置、推送方法及装置
CN105677664A (zh) * 2014-11-19 2016-06-15 腾讯科技(深圳)有限公司 基于网络搜索的紧密度确定方法及装置
CN105677664B (zh) * 2014-11-19 2019-11-19 腾讯科技(深圳)有限公司 基于网络搜索的紧密度确定方法及装置
CN105025339A (zh) * 2015-07-22 2015-11-04 天脉聚源(北京)传媒科技有限公司 一种电视盒子中节目的分类搜索方法及装置
CN105898425A (zh) * 2015-12-14 2016-08-24 乐视网信息技术(北京)股份有限公司 视频推荐方法、系统及服务器
WO2017101407A1 (zh) * 2015-12-14 2017-06-22 乐视控股(北京)有限公司 视频推荐方法、系统及服务器
CN108170693B (zh) * 2016-12-07 2020-07-31 北京国双科技有限公司 推送热词的方法及装置
CN108170693A (zh) * 2016-12-07 2018-06-15 北京国双科技有限公司 推送热词的方法及装置
CN106682411B (zh) * 2016-12-22 2019-04-16 浙江大学 一种将体检诊断数据转化为疾病标签的方法
CN106682411A (zh) * 2016-12-22 2017-05-17 浙江大学 一种将体检诊断数据转化为疾病标签的方法
CN107992473A (zh) * 2017-11-24 2018-05-04 国家计算机网络与信息安全管理中心 基于逐点互信息技术的诈骗信息特征词提取方法及系统
CN107992473B (zh) * 2017-11-24 2021-04-27 国家计算机网络与信息安全管理中心 基于逐点互信息技术的诈骗信息特征词提取方法及系统
CN108509555A (zh) * 2018-03-22 2018-09-07 武汉斗鱼网络科技有限公司 搜索词确定方法、装置、设备及存储介质
CN108509555B (zh) * 2018-03-22 2021-07-23 武汉斗鱼网络科技有限公司 搜索词确定方法、装置、设备及存储介质
CN108763196A (zh) * 2018-05-03 2018-11-06 上海海事大学 一种基于pmi的关键字提取方法
CN110188261A (zh) * 2019-05-30 2019-08-30 江苏神州信源系统工程有限公司 一种热点对象确定方法及装置

Also Published As

Publication number Publication date
CN103020212B (zh) 2017-05-10
CN106909638A (zh) 2017-06-30

Similar Documents

Publication Publication Date Title
CN103020212A (zh) 一种基于用户查询日志实时发现热点视频的方法和装置
US9529895B2 (en) Method and system for discovering dynamic relations among entities
CN102708100B (zh) 挖掘相关实体词的关系关键词的方法和装置及其应用
US8751511B2 (en) Ranking of search results based on microblog data
US8612435B2 (en) Activity based users' interests modeling for determining content relevance
CN103729359B (zh) 一种推荐搜索词的方法及系统
Chen et al. Machine learning techniques for business blog search and mining
CN103577416A (zh) 扩展查询方法及系统
CN104978314B (zh) 媒体内容推荐方法及装置
CN103514183A (zh) 基于交互式文档聚类的信息检索方法及系统
CN105426514A (zh) 个性化的移动应用app推荐方法
WO2014090007A1 (zh) 用于获取推荐主题的方法、装置和服务器
CN105550216A (zh) 学术研究信息的搜索方法、挖掘方法及装置
Berendsen et al. Pseudo test collections for training and tuning microblog rankers
CN110348020A (zh) 一种英文单词拼写纠错方法、装置、设备及可读存储介质
CN105740448A (zh) 面向话题的多微博时序文摘方法
CN110096646A (zh) 品类关联信息的生成及其视频推送方法和相关设备
US20150052126A1 (en) Method and system for recommending relevant web content to second screen application users
Yu et al. CI-Rank: Ranking keyword search results based on collective importance
CN103136256B (zh) 一种在网络中实现信息检索的方法和系统
CN103823847A (zh) 一种关键词的扩充方法及装置
Liqing et al. Detecting opinion leaders in online social networks using HybridRank algorithm
Plummer et al. Analysing the Sentiment Expressed by Political Audiences on Twitter: The case of the 2017 UK general election
Chiang et al. Exploring latent browsing graph for question answering recommendation
CN105975508A (zh) 个性化元搜索引擎检索结果合成排序方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: 100080 Beijing Haidian District city Haidian street A Sinosteel International Plaza No. 8 block 5 layer A, C

Patentee after: Youku network technology (Beijing) Co.,Ltd.

Address before: 100080 Beijing Haidian District city Haidian street A Sinosteel International Plaza No. 8 block 5 layer A, C

Patentee before: 1VERGE INTERNET TECHNOLOGY (BEIJING) Co.,Ltd.

CP01 Change in the name or title of a patent holder
TR01 Transfer of patent right

Effective date of registration: 20200605

Address after: 310052 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: Alibaba (China) Co.,Ltd.

Address before: 100080 Beijing Haidian District city Haidian street A Sinosteel International Plaza No. 8 block 5 layer A, C

Patentee before: Youku network technology (Beijing) Co.,Ltd.

TR01 Transfer of patent right