CN103744900A - 一种结合视觉分辨难度的文本串权重计算方法及装置 - Google Patents
一种结合视觉分辨难度的文本串权重计算方法及装置 Download PDFInfo
- Publication number
- CN103744900A CN103744900A CN201310725839.7A CN201310725839A CN103744900A CN 103744900 A CN103744900 A CN 103744900A CN 201310725839 A CN201310725839 A CN 201310725839A CN 103744900 A CN103744900 A CN 103744900A
- Authority
- CN
- China
- Prior art keywords
- text string
- document
- character
- weight
- formula
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/7867—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种结合视觉分辨难度的文本串权重计算方法和装置,其方法首先构造一个文档集合,统计字符串在文档集合中频率和在单个文档中的频率,以及每个字符在哪些文本串中出现,每个字符的笔画数。然后,切词处理待计算文本串权重的文档,得到一个文本串序列,对每一个文本计算其视觉密度,易识别度,和TF?IDF值。最后,加权相加该文本串的视觉密度、易识别度和TF?IDF值,得到文本串对一个文档的权重,并进一步的得到文本串对文档的归一化权重。该方法使得具有更多信息量,同时容易被用户辨识的词具有更大的权重,在搜索结果中更多展现普通用户容易识别、读懂和理解的视频结果,使得用户能够更快地发现感兴趣的结果。
Description
技术领域
本申请涉及搜索引擎领域,具体地,涉及一种结合视觉分辨难度的文本串权重计算方法及装置。
背景技术
搜索引擎在建立倒排索引时,需要计算每个文档中的词在该文档中的权重。现有技术中多是基于文档中词频和词在文档集合中出现的文档频率(即TF·IDF)来计算词在一个文档中的权重。TF·IDF算法是搜索引擎领域里的经典算法,在具体实现到系统的过程中,使用者一般均会进行适应性修改,以符合其所属领域数据分布的特征。
但上述的各种适应性的修改的TF·IDF的方法均没有考虑到作为搜索结果观察者的用户对文本串视觉上的识别顺畅性。当用户对搜索结果的“第一眼”识别过程中,用户往往会把注意力首先集中在其最容易识别、读懂和理解的结果上。
因此,如何能够结合每个汉字的不同视觉分辨难度,对文本串权重计算方法进行改进成为亟需解决的技术问题。
发明内容
本发明的目的在于提出一种结合视觉分辨难度的文本串权重计算方法及装置,使得文本串的视觉密度、文本串和字符的易识别程度能够对经典TF·IDF的文本串权重产生影响。
为达此目的,本发明采用以下技术方案:
一种结合视觉分辨难度的文本串权重计算方法,包括如下步骤:
构造文档集合并统计词数据步骤S110:构建文档集合,并得到文本串的统计数据,具体包括:
文档集合构建子步骤S111:收集视频信息库中的视频标题,从查询日志中随机取出等量的用户输入的查询串,将这两部分文本一起作为下一步要处理的文档集合;
数据统计子步骤S112:切分所述文档集合中的每个文档,每个文档经过切分后得到一个文本串序列,统计每个文本串出现在单个文档中的频次、每个文本串出现在文档集合中的总频次,对出现在文本串中的所有汉字统计其笔画数量,如果不是汉字,则按照一画统计;
中间权重结果计算步骤S120:对需要计算文本串权重的待测文档D进行切词,得到一个由k个文本串组成的序列,通过如下步骤分别得到几种中间结果权重:
TF·IDF值计算子步骤S121:对所述文本串序列中的文本串Ti采用公式(1)计算其TF·IDF值,其中1≤i≤k,
其中,N为文档集合中文档数量,ND(Ti)为文本串Ti在待测文档D中出现的次数,N(Ti)为文档集合中含有文本串Ti的文档数量;
其中,文本串Ti含有m个字符,BH(Cj)为Ti中第j个字符Cj的笔画数, 1≤j≤m,f1和fm为调权因子;
m表示文本串Ti含有m个字符,CF(Cj)表示字符Cj易识别度,对文本串Ti中的首尾字符利用调权因子y1和ym进行调权,字符C易识别度CF(C)通过公式(4)计算得到:
CWF为字符C在整个文档集合中不同的文本串中出现的次数,TCl表示在整个文档集合中含有字符C的第l个文本串,BH(C)为字符C的笔画数,u为最易识别单字的笔画数,f为调权因子,IDF(TCl)为含有字符C的全体文档集合中含有字符C的第l个文本串的逆文档频率,通过公式(5)计算得到:
N为文档集合中文档数量,N(Tl)为文档集合中含有文本串Tl的文档数量;
综合权重计算步骤S130:利用中间权重结果,采用公式(6)计算文本串Ti相对待测文档D的权重,
优选地,在视觉密度计算子步骤中,f1=1.3,fm=1.2。
优选地,在易识别度计算子步骤中,y1=1.2, ym=1.2。
优选地,在易识别度计算子步骤中,u=9.7,f=3.5。
本发明还公开了一种结合视觉分辨难度的文本串权重计算装置,包括如下单元:
构造文档集合并统计词数据单元:构建文档集合,并得到文本串的统计数据,具体包括:
文档集合构建子单元:收集视频信息库中的视频标题,从查询日志中随机取出等量的用户输入的查询串,将这两部分文本一起作为下一步要处理的文档集合;
数据统计子单元:切分所述文档集合中的每个文档,每个文档经过切分后得到一个文本串序列,统计每个文本串出现在单个文档中的频次、每个文本串出现在文档集合中的总频次,对出现在文本串中的所有汉字统计其笔画数量,如果不是汉字,则按照一画统计;
中间权重结果计算单元:对需要计算文本串权重的待测文档D进行切词,得到一个由k个文本串组成的序列,通过如下单元分别得到几种中间结果权重:
TF·IDF值计算子单元:对所述文本串序列中的文本串Ti采用公式(1)计算其TF·IDF值,其中1≤i≤k,
其中,N为文档集合中文档数量,ND(Ti)为文本串Ti在待测文档D中出现的次数,N(Ti)为文档集合中含有文本串Ti的文档数量;
视觉密度计算子单元:对所述文本串序列中的文本串Ti,采用公式(2)计算其视觉密度:
其中,文本串Ti含有m个字符,BH(Cj)为Ti中第j个字符Cj的笔画数, 1≤j≤m,f1和fm为调权因子;
m表示文本串Ti含有m个字符,CF(Cj)表示字符Cj易识别度,对文本串Ti中的首尾字符利用调权因子y1和ym进行调权,字符C易识别度CF(C)通过公式(4)计算得到:
CWF为字符C在整个文档集合中不同的文本串中出现的次数,TCl表示在整个文档集合中含有字符C的第l个文本串,BH(C)为字符C的笔画数,u为最易识别单字的笔画数,f为调权因子,IDF(TCl)为含有字符C的全体文档集合中含有字符C的第l个文本串的逆文档频率,通过公式(5)计算得到:
N为文档集合中文档数量,N(Tl)为文档集合中含有文本串Tl的文档数量;
综合权重计算单元:利用中间权重结果,采用公式(6)计算文本串Ti相对待测文档D的权重,
公式(6)
优选地,在视觉密度计算子单元中,f1=1.3,fm=1.2。
优选地,在易识别度计算子单元中,y1=1.2, ym=1.2。
优选地,在易识别度计算子单元中,u=9.7,f=3.5。
本发明在计算一个文档中的各个词的权重综合考虑了每个汉字的不同视觉分辨难度。让具有更多信息量,同时容易被用户辨识的词具有更大的权重,这样可以在搜索结果中更多展现普通用户容易识别、读懂和理解的视频结果,让用户“第一眼”扫视搜索结果时,就能够更快地发现感兴趣的结果。
附图说明
图1是根据本发明的结合视觉分辨难度的文本串权重计算方法的流程图;
图2是根据本发明的结合视觉分辨难度的文本串权重计算装置的框图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
本发明综合考虑文本串的视觉密度、文本串和字符的易识别程度和经典的TF·IDF算法来计算文本词对文档的权重。具体来说:首先,构造一个文档集合,统计出文档集合中的每个字符串,即词,频和词在文档中的出现频率,以及每个字符在哪些词中出现,并统计出每个汉字的笔画数。然后,使用切词处理待计算词权重的文档,得到一个文本串序列(词序列)。接着,对每一个文本串(词)计算其视觉密度,易识别度,并查询到该文本串的TF·IDF值。最后,加权相加该文本串的视觉密度、易识别度和TF·IDF值,得到文本串对一个文档的权重,进一步的得到文本串对文档的归一化权重,从而可以定量地排序一个文档中的各个文本串。
参见图1,公开了根据本发明的结合视觉分辨难度的文本串权重计算方法的流程图,其包括如下步骤:
构造文档集合并统计词数据步骤S110:构建文档集合,并得到文本串的统计数据,具体包括:
文档集合构建子步骤S111:收集视频信息库中的视频标题,从查询日志中随机取出等量的用户输入的查询串,将这两部分文本一起作为下一步要处理的文档集合;
数据统计子步骤S112:使用例如切词程序的切词工具,切分所述文档集合中的每个文档,每个文档经过切分后得到一个文本串(词)序列,统计每个文本串出现在单个文档中的频次、每个文本串出现在文档集合中的总频次,对出现在文本串中的所有汉字统计其笔画数量,如果是非汉字部分,例如英文或符号,则按照一画统计。
中间权重结果计算步骤S120:对需要计算文本串权重的待测文档D进行切词,得到一个由k个文本串组成的序列,通过如下步骤分别得到几种中间结果权重:
TF·IDF值计算子步骤S121:对所述文本串序列中的文本串Ti采用公式(1)计算其TF·IDF值,其中1≤i≤k,
其中,N为文档集合中文档数量,ND(Ti)为文本串Ti在待测文档D中出现的次数,N(Ti)为文档集合中含有文本串Ti的文档数量;
其中,文本串Ti含有m个字符,BH(Cj)为Ti中第j个字符Cj的笔画数, 1≤j≤m,f1和fm为调权因子。将文本串Ti的首尾字符进行调权是基于人类对文本单词识别过程中首尾字符更重要的结论,也就是在人类视觉识别中,首尾字符的重要性更大。其中,调权因子f1和fm两个可以经验值决定,优选地,f1=1.3,fm=1.2。
m表示文本串Ti含有m个字符,CF(Cj)表示字符Cj易识别度,对文本串Ti中的首尾字符利用调权因子y1和ym进行调权。同样的,由于认为人类对文本单词识别过程中首尾字符更重要的结论,在易识别度计算时也对首尾字符进行调权,优选地,y1=1.2, ym=1.2, 字符C易识别度CF(C)通过公式(4)计算得到:
CWF为字符C在整个文档集合中不同的文本串中出现的次数,TCl表示在整个文档集合中含有字符C的第l个文本串,BH(C)为字符C的笔画数,u为最易识别单字的笔画数,f为调权因子,用于调节单个字的笔画数相对u的渐远而易识别度降低的速率,例如在一个15画的字计算出来的值在f变大时会减小。优选地,根据经验以及对汉字的统计发现,u=9.7,汉字笔画数的平均分布,f为统计得到的汉字笔画数分布的方差3.5,IDF(TCl)即为含有字符C的全体文档集合中含有字符C的第l个文本串的逆文档频率,通过公式(5)计算得到:
各参数定义与在公式(1)中相同,即N为文档集合中文档数量,N(Tl)为文档集合中含有文本串Tl的文档数量。
综合权重计算步骤S130:利用中间权重结果,采用公式(6)计算文本串Ti相对待测文档D的权重,
公式(7)。
参见图2,本发明公开了一种结合视觉分辨难度的文本串权重计算装置的流程图,其包括如下单元:
构造文档集合并统计词数据单元210:构建文档集合,并得到文本串的统计数据,具体包括:
文档集合构建子单元211:收集视频信息库中的视频标题,从查询日志中随机取出等量的用户输入的查询串,将这两部分文本一起作为下一步要处理的文档集合;
数据统计子单元212:使用例如切词程序的切词工具,切分所述文档集合中的每个文档,每个文档经过切分后得到一个文本串(词)序列,统计每个文本串出现在单个文档中的频次、每个文本串出现在文档集合中的总频次,对出现在文本串中的所有汉字统计其笔画数量,如果是非汉字部分,例如英文或符号,则按照一画统计。
中间权重结果计算单元220:对需要计算文本串权重的待测文档D进行切词,得到一个由k个文本串组成的序列,通过如下单元分别得到几种中间结果权重:
TF·IDF值计算子单元221:对所述文本串序列中的文本串Ti采用公式(8)计算其TF·IDF值,其中1≤i≤k,
其中,N为文档集合中文档数量,ND(Ti)为文本串Ti在待测文档D中出现的次数,N(Ti)为文档集合中含有文本串Ti的文档数量;
其中,文本串Ti含有m个字符,BH(Cj)为Ti中第j个字符Cj的笔画数, 1≤j≤m,f1和fm为调权因子。将文本串Ti的首尾字符进行调权是基于人类对文本单词识别过程中首尾字符更重要的结论,也就是在人类视觉识别中,首尾字符的重要性更大。其中,调权因子f1和fm两个可以经验值决定,优选地,f1=1.3,fm=1.2。
m表示文本串Ti含有m个字符,CF(Cj)表示字符Cj易识别度,对文本串Ti中的首尾字符利用调权因子y1和ym进行调权。同样的,由于认为人类对文本单词识别过程中首尾字符更重要的结论,在易识别度计算时也对首尾字符进行调权,优选地,y1=1.2, ym=1.2, 字符C易识别度CF(C)通过公式(11)计算得到:
CWF为字符C在整个文档集合中不同的文本串中出现的次数,TCl表示在整个文档集合中含有字符C的第l个文本串,BH(C)为字符C的笔画数,u为最易识别单字的笔画数,f为调权因子,用于调节单个字的笔画数相对u的渐远而易识别度降低的速率,例如在一个15画的字计算出来的值在f变大时会减小。优选地,根据经验以及对汉字的统计发现,u=9.7,汉字笔画数的平均分布,f为统计得到的汉字笔画数分布的方差3.5,IDF(TCl)即为含有字符C的全体文档集合中含有字符C的第l个文本串的逆文档频率,通过公式(12)计算得到:
各参数定义与在公式(1)中相同,即N为文档集合中文档数量,N(Tl)为文档集合中含有文本串Tl的文档数量。
综合权重计算单元230:利用中间权重结果,采用公式(13)计算文本串Ti相对待测文档D的权重,
实施例:
用一个文档标题“四川雅安地震最新消息”为例:
“四川雅安地震最新消息”经过切词后得到“四川 雅安 地震 最新 消息”这样一个含有五个词的文本串序列。分别计算其IDF、MD、YB值,(为简单,前面所有调权因子都取1)得到:
可以看到在这个文档中,最重要的词依次是“消息、雅安、地震、最新、四川”。从用户对新闻的需求上来说,上述词权重排序是合理的。
本发明在计算文本串,也就是词对文档权重时引入了易识别度因子和视觉密度因子,从整体上使更容易快速被用户识别和理解的词得到更大权重,从而使得搜索结果所包含的文本更容易被用户识别、浏览,也就是说用户在扫描所希望观看的视频时所用的时间更短,不容易使用户产生视觉和大脑疲劳。又由于引入了易识别度因子和视觉密度因子,使得含有生僻、难以理解的文本结果不容易展现出来,可以减少用户因为稍难理解而目光忽略的结果的出现,从整体上提高结果相关性。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施方式仅限于此,对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单的推演或替换,都应当视为属于本发明由所提交的权利要求书确定保护范围。
Claims (10)
1.一种结合视觉分辨难度的文本串权重计算方法,包括如下步骤:
构造文档集合并统计词数据步骤S110:构建文档集合,并得到文本串的统计数据,具体包括:
文档集合构建子步骤S111:收集视频信息库中的视频标题,从查询日志中随机取出等量的用户输入的查询串,将这两部分文本一起作为下一步要处理的文档集合;
数据统计子步骤S112:切分所述文档集合中的每个文档,每个文档经过切分后得到一个文本串序列,统计每个文本串出现在单个文档中的频次、每个文本串出现在文档集合中的总频次,对出现在文本串中的所有汉字统计其笔画数量,如果不是汉字,则按照一画统计;
中间权重结果计算步骤S120:对需要计算文本串权重的待测文档D进行切词,得到一个由k个文本串组成的序列,通过如下步骤分别得到几种中间结果权重:
TF·IDF值计算子步骤S121:对所述文本串序列中的文本串Ti采用公式(1)计算其TF·IDF值,其中1≤i≤k,
其中,N为文档集合中文档数量,ND(Ti)为文本串Ti在待测文档D中出现的次数,N(Ti)为文档集合中含有文本串Ti的文档数量;
其中,文本串Ti含有m个字符,BH(Cj)为Ti中第j个字符Cj的笔画数, 1≤j≤m,f1和fm为调权因子;
m表示文本串Ti含有m个字符,CF(Cj)表示字符Cj易识别度,对文本串Ti中的首尾字符利用调权因子y1和ym进行调权,字符C易识别度CF(C)通过公式(4)计算得到:
CWF为字符C在整个文档集合中不同的文本串中出现的次数,TCl表示在整个文档集合中含有字符C的第l个文本串,BH(C)为字符C的笔画数,u为最易识别单字的笔画数,f为调权因子,IDF(TCl)为含有字符C的全体文档集合中含有字符C的第l个文本串的逆文档频率,通过公式(5)计算得到:
N为文档集合中文档数量,N(Tl)为文档集合中含有文本串Tl的文档数量;
综合权重计算步骤S130:利用中间权重结果,采用公式(6)计算文本串Ti相对待测文档D的权重,
公式(6)
2.根据权利要求1所述的结合视觉分辨难度的文本串权重计算方法,其特征在于:
在视觉密度计算子步骤中,f1=1.3,fm=1.2。
3.根据权利要求1所述的结合视觉分辨难度的文本串权重计算方法,其特征在于:
在易识别度计算子步骤中,y1=1.2, ym=1.2。
4.根据权利要求1所述的结合视觉分辨难度的文本串权重计算方法,其特征在于:
在易识别度计算子步骤中,u=9.7,f=3.5。
6.一种结合视觉分辨难度的文本串权重计算装置,包括如下单元:
构造文档集合并统计词数据单元:构建文档集合,并得到文本串的统计数据,具体包括:
文档集合构建子单元:收集视频信息库中的视频标题,从查询日志中随机取出等量的用户输入的查询串,将这两部分文本一起作为下一步要处理的文档集合;
数据统计子单元:切分所述文档集合中的每个文档,每个文档经过切分后得到一个文本串序列,统计每个文本串出现在单个文档中的频次、每个文本串出现在文档集合中的总频次,对出现在文本串中的所有汉字统计其笔画数量,如果不是汉字,则按照一画统计;
中间权重结果计算单元:对需要计算文本串权重的待测文档D进行切词,得到一个由k个文本串组成的序列,通过如下单元分别得到几种中间结果权重:
TF·IDF值计算子单元:对所述文本串序列中的文本串Ti采用公式(1)计算其TF·IDF值,其中1≤i≤k,
其中,N为文档集合中文档数量,ND(Ti)为文本串Ti在待测文档D中出现的次数,N(Ti)为文档集合中含有文本串Ti的文档数量;
视觉密度计算子单元:对所述文本串序列中的文本串Ti,采用公式(2)计算其视觉密度:
其中,文本串Ti含有m个字符,BH(Cj)为Ti中第j个字符Cj的笔画数, 1≤j≤m,f1和fm为调权因子;
m表示文本串Ti含有m个字符,CF(Cj)表示字符Cj易识别度,对文本串Ti中的首尾字符利用调权因子y1和ym进行调权,字符C易识别度CF(C)通过公式(4)计算得到:
CWF为字符C在整个文档集合中不同的文本串中出现的次数,TCl表示在整个文档集合中含有字符C的第l个文本串,BH(C)为字符C的笔画数,u为最易识别单字的笔画数,f为调权因子,IDF(TCl)为含有字符C的全体文档集合中含有字符C的第l个文本串的逆文档频率,通过公式(5)计算得到:
公式(5),
N为文档集合中文档数量,N(Tl)为文档集合中含有文本串Tl的文档数量;
综合权重计算单元:利用中间权重结果,采用公式(6)计算文本串Ti相对待测文档D的权重,
7.根据权利要求6所述的结合视觉分辨难度的文本串权重计算装置,其特征在于:
在视觉密度计算子单元中,f1=1.3,fm=1.2。
8.根据权利要求6所述的结合视觉分辨难度的文本串权重计算装置,其特征在于:
在易识别度计算子单元中,y1=1.2, ym=1.2。
9.根据权利要求6所述的结合视觉分辨难度的文本串权重计算装置,其特征在于:
在易识别度计算子单元中,u=9.7,f=3.5。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310725839.7A CN103744900A (zh) | 2013-12-26 | 2013-12-26 | 一种结合视觉分辨难度的文本串权重计算方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310725839.7A CN103744900A (zh) | 2013-12-26 | 2013-12-26 | 一种结合视觉分辨难度的文本串权重计算方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103744900A true CN103744900A (zh) | 2014-04-23 |
Family
ID=50501918
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310725839.7A Pending CN103744900A (zh) | 2013-12-26 | 2013-12-26 | 一种结合视觉分辨难度的文本串权重计算方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103744900A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109831694A (zh) * | 2017-11-23 | 2019-05-31 | 移动商务股份有限公司 | 影片内容整合系统及其方法 |
CN114969464A (zh) * | 2021-10-15 | 2022-08-30 | 淮阴师范学院 | 基于毫米波通信的智能可视化显示系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1158426A1 (en) * | 2000-05-25 | 2001-11-28 | Bridgewell Incorporated | A method for associating attributes to documents |
CN101739426A (zh) * | 2008-11-13 | 2010-06-16 | 北京大学 | 一种多文档摘要的生成方法及装置 |
CN102682132A (zh) * | 2012-05-18 | 2012-09-19 | 合一网络技术(北京)有限公司 | 一种基于词频、播放量和创建时间检索信息的方法及系统 |
CN102880712A (zh) * | 2012-10-08 | 2013-01-16 | 合一网络技术(北京)有限公司 | 一种用于对搜索的网络视频进行排序的方法和系统 |
CN103336806A (zh) * | 2013-06-24 | 2013-10-02 | 北京工业大学 | 一种基于词出现间距的内在与外在模式熵差的关键词排序方法 |
-
2013
- 2013-12-26 CN CN201310725839.7A patent/CN103744900A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1158426A1 (en) * | 2000-05-25 | 2001-11-28 | Bridgewell Incorporated | A method for associating attributes to documents |
CN101739426A (zh) * | 2008-11-13 | 2010-06-16 | 北京大学 | 一种多文档摘要的生成方法及装置 |
CN102682132A (zh) * | 2012-05-18 | 2012-09-19 | 合一网络技术(北京)有限公司 | 一种基于词频、播放量和创建时间检索信息的方法及系统 |
CN102880712A (zh) * | 2012-10-08 | 2013-01-16 | 合一网络技术(北京)有限公司 | 一种用于对搜索的网络视频进行排序的方法和系统 |
CN103336806A (zh) * | 2013-06-24 | 2013-10-02 | 北京工业大学 | 一种基于词出现间距的内在与外在模式熵差的关键词排序方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109831694A (zh) * | 2017-11-23 | 2019-05-31 | 移动商务股份有限公司 | 影片内容整合系统及其方法 |
CN114969464A (zh) * | 2021-10-15 | 2022-08-30 | 淮阴师范学院 | 基于毫米波通信的智能可视化显示系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10354170B2 (en) | Method and apparatus of establishing image search relevance prediction model, and image search method and apparatus | |
WO2019085355A1 (zh) | 互联网新闻的舆情聚类分析方法、应用服务器及计算机可读存储介质 | |
CA2832001C (en) | Systems and methods for paragraph-based document searching | |
US11294974B1 (en) | Golden embeddings | |
US8725717B2 (en) | System and method for identifying topics for short text communications | |
CN103324645B (zh) | 一种网页推荐方法和装置 | |
US10387915B2 (en) | Digital magazine recommendations by topic | |
US20190266288A1 (en) | Query topic map | |
US20120011129A1 (en) | Faceted exploration of media collections | |
CN109885773A (zh) | 一种文章个性化推荐方法、系统、介质及设备 | |
CN103198057A (zh) | 一种自动给文档添加标签的方法和装置 | |
CN102033919A (zh) | 文本关键词提取方法及系统 | |
CN102426610A (zh) | 微博搜索排名方法及微博搜索引擎 | |
JP2009043156A (ja) | 番組検索装置および番組検索方法 | |
US20190258719A1 (en) | Emoji classifier | |
CN107291939A (zh) | 酒店信息的聚类匹配方法及系统 | |
CN106777143A (zh) | 一种新闻聚合方法及新闻聚合服务器 | |
US20140032520A1 (en) | Image retrieval method and system for community website page | |
CN109885656A (zh) | 基于量化热度的微博转发预测方法及装置 | |
CN106897398A (zh) | 一种视频展示方法及装置 | |
CN105005555A (zh) | 基于聊天时间的关键词提取方法及装置 | |
CN103744900A (zh) | 一种结合视觉分辨难度的文本串权重计算方法及装置 | |
CN104615685B (zh) | 一种面向网络话题的热度评价方法 | |
Blanco et al. | IntoNews: Online news retrieval using closed captions | |
CN108509449B (zh) | 一种信息处理的方法及服务器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20140423 |