CN103744900A - 一种结合视觉分辨难度的文本串权重计算方法及装置 - Google Patents

一种结合视觉分辨难度的文本串权重计算方法及装置 Download PDF

Info

Publication number
CN103744900A
CN103744900A CN201310725839.7A CN201310725839A CN103744900A CN 103744900 A CN103744900 A CN 103744900A CN 201310725839 A CN201310725839 A CN 201310725839A CN 103744900 A CN103744900 A CN 103744900A
Authority
CN
China
Prior art keywords
text string
document
character
weight
formula
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310725839.7A
Other languages
English (en)
Inventor
刘伟
姚键
潘柏宇
卢述奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
1Verge Internet Technology Beijing Co Ltd
Original Assignee
1Verge Internet Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 1Verge Internet Technology Beijing Co Ltd filed Critical 1Verge Internet Technology Beijing Co Ltd
Priority to CN201310725839.7A priority Critical patent/CN103744900A/zh
Publication of CN103744900A publication Critical patent/CN103744900A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种结合视觉分辨难度的文本串权重计算方法和装置,其方法首先构造一个文档集合,统计字符串在文档集合中频率和在单个文档中的频率,以及每个字符在哪些文本串中出现,每个字符的笔画数。然后,切词处理待计算文本串权重的文档,得到一个文本串序列,对每一个文本计算其视觉密度,易识别度,和TF?IDF值。最后,加权相加该文本串的视觉密度、易识别度和TF?IDF值,得到文本串对一个文档的权重,并进一步的得到文本串对文档的归一化权重。该方法使得具有更多信息量,同时容易被用户辨识的词具有更大的权重,在搜索结果中更多展现普通用户容易识别、读懂和理解的视频结果,使得用户能够更快地发现感兴趣的结果。

Description

一种结合视觉分辨难度的文本串权重计算方法及装置
技术领域
本申请涉及搜索引擎领域,具体地,涉及一种结合视觉分辨难度的文本串权重计算方法及装置。
背景技术
搜索引擎在建立倒排索引时,需要计算每个文档中的词在该文档中的权重。现有技术中多是基于文档中词频和词在文档集合中出现的文档频率(即TF·IDF)来计算词在一个文档中的权重。TF·IDF算法是搜索引擎领域里的经典算法,在具体实现到系统的过程中,使用者一般均会进行适应性修改,以符合其所属领域数据分布的特征。
但上述的各种适应性的修改的TF·IDF的方法均没有考虑到作为搜索结果观察者的用户对文本串视觉上的识别顺畅性。当用户对搜索结果的“第一眼”识别过程中,用户往往会把注意力首先集中在其最容易识别、读懂和理解的结果上。
因此,如何能够结合每个汉字的不同视觉分辨难度,对文本串权重计算方法进行改进成为亟需解决的技术问题。
发明内容
本发明的目的在于提出一种结合视觉分辨难度的文本串权重计算方法及装置,使得文本串的视觉密度、文本串和字符的易识别程度能够对经典TF·IDF的文本串权重产生影响。
为达此目的,本发明采用以下技术方案:
一种结合视觉分辨难度的文本串权重计算方法,包括如下步骤:
构造文档集合并统计词数据步骤S110:构建文档集合,并得到文本串的统计数据,具体包括:
文档集合构建子步骤S111:收集视频信息库中的视频标题,从查询日志中随机取出等量的用户输入的查询串,将这两部分文本一起作为下一步要处理的文档集合;
数据统计子步骤S112:切分所述文档集合中的每个文档,每个文档经过切分后得到一个文本串序列,统计每个文本串出现在单个文档中的频次、每个文本串出现在文档集合中的总频次,对出现在文本串中的所有汉字统计其笔画数量,如果不是汉字,则按照一画统计;
中间权重结果计算步骤S120:对需要计算文本串权重的待测文档D进行切词,得到一个由k个文本串组成的序列,通过如下步骤分别得到几种中间结果权重:
TF·IDF值计算子步骤S121:对所述文本串序列中的文本串Ti采用公式(1)计算其TF·IDF值,其中1≤i≤k, 
Figure 2013107258397100002DEST_PATH_IMAGE001
         公式(1),
其中,N为文档集合中文档数量,ND(Ti)为文本串Ti在待测文档D中出现的次数,N(Ti)为文档集合中含有文本串Ti的文档数量;
视觉密度计算子步骤S122:对所述文本串序列中的文本串Ti,采用公式(2)计算其视觉密度
Figure 905987DEST_PATH_IMAGE002
Figure 854957DEST_PATH_IMAGE003
     公式(2),
其中,文本串Ti含有m个字符,BH(Cj)为Ti中第j个字符Cj的笔画数, 1≤j≤m,f1和fm为调权因子; 
易识别度计算子步骤S123:利用公式(3)计算文本串Ti的易识别度
Figure 464055DEST_PATH_IMAGE004
Figure 325176DEST_PATH_IMAGE005
            公式(3),
m表示文本串Ti含有m个字符,CF(Cj)表示字符Cj易识别度,对文本串Ti中的首尾字符利用调权因子y1和ym进行调权,字符C易识别度CF(C)通过公式(4)计算得到:
Figure 402198DEST_PATH_IMAGE006
          公式(4),
CWF为字符C在整个文档集合中不同的文本串中出现的次数,TCl表示在整个文档集合中含有字符C的第l个文本串,BH(C)为字符C的笔画数,u为最易识别单字的笔画数,f为调权因子,IDF(TCl)为含有字符C的全体文档集合中含有字符C的第l个文本串的逆文档频率,通过公式(5)计算得到:
Figure 2013107258397100002DEST_PATH_IMAGE007
                     公式(5),
N为文档集合中文档数量,N(Tl)为文档集合中含有文本串Tl的文档数量;
综合权重计算步骤S130:利用中间权重结果,采用公式(6)计算文本串Ti相对待测文档D的权重,
Figure 504888DEST_PATH_IMAGE008
      公式(6)
其中,
Figure DEST_PATH_IMAGE009
为TF·IDF值权重调权因子,
Figure 910334DEST_PATH_IMAGE010
为文本串视觉分辨难度调权因子; 
归一化权重计算步骤S140:将待测文档D中的文本串Ti的权重利用公式(7)进行归一化,得到文本串Ti的归一化权重
Figure 607474DEST_PATH_IMAGE012
Figure 66750DEST_PATH_IMAGE013
                     公式(7)。
优选地,在视觉密度计算子步骤中,f1=1.3,fm=1.2。
优选地,在易识别度计算子步骤中,y1=1.2, ym=1.2。
优选地,在易识别度计算子步骤中,u=9.7,f=3.5。
优选地,在综合权重计算步骤中,
Figure 83729DEST_PATH_IMAGE009
均为1。
本发明还公开了一种结合视觉分辨难度的文本串权重计算装置,包括如下单元:
构造文档集合并统计词数据单元:构建文档集合,并得到文本串的统计数据,具体包括:
文档集合构建子单元:收集视频信息库中的视频标题,从查询日志中随机取出等量的用户输入的查询串,将这两部分文本一起作为下一步要处理的文档集合;
数据统计子单元:切分所述文档集合中的每个文档,每个文档经过切分后得到一个文本串序列,统计每个文本串出现在单个文档中的频次、每个文本串出现在文档集合中的总频次,对出现在文本串中的所有汉字统计其笔画数量,如果不是汉字,则按照一画统计;
中间权重结果计算单元:对需要计算文本串权重的待测文档D进行切词,得到一个由k个文本串组成的序列,通过如下单元分别得到几种中间结果权重:
TF·IDF值计算子单元:对所述文本串序列中的文本串Ti采用公式(1)计算其TF·IDF值,其中1≤i≤k, 
Figure 96125DEST_PATH_IMAGE014
         公式(1),
其中,N为文档集合中文档数量,ND(Ti)为文本串Ti在待测文档D中出现的次数,N(Ti)为文档集合中含有文本串Ti的文档数量;
视觉密度计算子单元:对所述文本串序列中的文本串Ti,采用公式(2)计算其视觉密度
Figure 295823DEST_PATH_IMAGE015
     公式(2),
其中,文本串Ti含有m个字符,BH(Cj)为Ti中第j个字符Cj的笔画数, 1≤j≤m,f1和fm为调权因子; 
易识别度计算子单元:利用公式(3)计算文本串Ti的易识别度
Figure 771279DEST_PATH_IMAGE004
Figure 414750DEST_PATH_IMAGE016
            公式(3),
m表示文本串Ti含有m个字符,CF(Cj)表示字符Cj易识别度,对文本串Ti中的首尾字符利用调权因子y1和ym进行调权,字符C易识别度CF(C)通过公式(4)计算得到:
Figure 594247DEST_PATH_IMAGE017
          公式(4),
CWF为字符C在整个文档集合中不同的文本串中出现的次数,TCl表示在整个文档集合中含有字符C的第l个文本串,BH(C)为字符C的笔画数,u为最易识别单字的笔画数,f为调权因子,IDF(TCl)为含有字符C的全体文档集合中含有字符C的第l个文本串的逆文档频率,通过公式(5)计算得到:
Figure 152529DEST_PATH_IMAGE018
                     公式(5),
N为文档集合中文档数量,N(Tl)为文档集合中含有文本串Tl的文档数量;
综合权重计算单元:利用中间权重结果,采用公式(6)计算文本串Ti相对待测文档D的权重,
      公式(6)
其中,
Figure 195233DEST_PATH_IMAGE009
为TF·IDF值权重调权因子,
Figure 229529DEST_PATH_IMAGE010
为文本串视觉分辨难度调权因子; 
归一化权重计算单元:将待测文档D中的文本串Ti的权重
Figure 180168DEST_PATH_IMAGE011
利用公式(7)进行归一化,得到文本串Ti的归一化权重
Figure 528585DEST_PATH_IMAGE012
Figure 881069DEST_PATH_IMAGE020
                     公式(7)。
优选地,在视觉密度计算子单元中,f1=1.3,fm=1.2。
优选地,在易识别度计算子单元中,y1=1.2, ym=1.2。
优选地,在易识别度计算子单元中,u=9.7,f=3.5。
优选地,在综合权重计算单元中,
Figure 75867DEST_PATH_IMAGE010
均为1。
本发明在计算一个文档中的各个词的权重综合考虑了每个汉字的不同视觉分辨难度。让具有更多信息量,同时容易被用户辨识的词具有更大的权重,这样可以在搜索结果中更多展现普通用户容易识别、读懂和理解的视频结果,让用户“第一眼”扫视搜索结果时,就能够更快地发现感兴趣的结果。
附图说明
图1是根据本发明的结合视觉分辨难度的文本串权重计算方法的流程图;
图2是根据本发明的结合视觉分辨难度的文本串权重计算装置的框图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
本发明综合考虑文本串的视觉密度、文本串和字符的易识别程度和经典的TF·IDF算法来计算文本词对文档的权重。具体来说:首先,构造一个文档集合,统计出文档集合中的每个字符串,即词,频和词在文档中的出现频率,以及每个字符在哪些词中出现,并统计出每个汉字的笔画数。然后,使用切词处理待计算词权重的文档,得到一个文本串序列(词序列)。接着,对每一个文本串(词)计算其视觉密度,易识别度,并查询到该文本串的TF·IDF值。最后,加权相加该文本串的视觉密度、易识别度和TF·IDF值,得到文本串对一个文档的权重,进一步的得到文本串对文档的归一化权重,从而可以定量地排序一个文档中的各个文本串。
参见图1,公开了根据本发明的结合视觉分辨难度的文本串权重计算方法的流程图,其包括如下步骤:
构造文档集合并统计词数据步骤S110:构建文档集合,并得到文本串的统计数据,具体包括:
文档集合构建子步骤S111:收集视频信息库中的视频标题,从查询日志中随机取出等量的用户输入的查询串,将这两部分文本一起作为下一步要处理的文档集合;
数据统计子步骤S112:使用例如切词程序的切词工具,切分所述文档集合中的每个文档,每个文档经过切分后得到一个文本串(词)序列,统计每个文本串出现在单个文档中的频次、每个文本串出现在文档集合中的总频次,对出现在文本串中的所有汉字统计其笔画数量,如果是非汉字部分,例如英文或符号,则按照一画统计。
中间权重结果计算步骤S120:对需要计算文本串权重的待测文档D进行切词,得到一个由k个文本串组成的序列,通过如下步骤分别得到几种中间结果权重:
TF·IDF值计算子步骤S121:对所述文本串序列中的文本串Ti采用公式(1)计算其TF·IDF值,其中1≤i≤k, 
Figure 496485DEST_PATH_IMAGE021
         公式(1),
其中,N为文档集合中文档数量,ND(Ti)为文本串Ti在待测文档D中出现的次数,N(Ti)为文档集合中含有文本串Ti的文档数量;
视觉密度计算子步骤S122:对所述文本串序列中的文本串Ti,采用公式(2)计算其视觉密度
Figure 169387DEST_PATH_IMAGE002
Figure 282836DEST_PATH_IMAGE015
     公式(2),
其中,文本串Ti含有m个字符,BH(Cj)为Ti中第j个字符Cj的笔画数, 1≤j≤m,f1和fm为调权因子。将文本串Ti的首尾字符进行调权是基于人类对文本单词识别过程中首尾字符更重要的结论,也就是在人类视觉识别中,首尾字符的重要性更大。其中,调权因子f1和fm两个可以经验值决定,优选地,f1=1.3,fm=1.2。
易识别度计算子步骤S123:利用公式(3)计算文本串Ti的易识别度
Figure 146147DEST_PATH_IMAGE004
Figure 199816DEST_PATH_IMAGE022
            公式(3),
m表示文本串Ti含有m个字符,CF(Cj)表示字符Cj易识别度,对文本串Ti中的首尾字符利用调权因子y1和ym进行调权。同样的,由于认为人类对文本单词识别过程中首尾字符更重要的结论,在易识别度计算时也对首尾字符进行调权,优选地,y1=1.2, ym=1.2, 字符C易识别度CF(C)通过公式(4)计算得到:
Figure 261313DEST_PATH_IMAGE023
          公式(4),
CWF为字符C在整个文档集合中不同的文本串中出现的次数,TCl表示在整个文档集合中含有字符C的第l个文本串,BH(C)为字符C的笔画数,u为最易识别单字的笔画数,f为调权因子,用于调节单个字的笔画数相对u的渐远而易识别度降低的速率,例如在一个15画的字计算出来的值在f变大时会减小。优选地,根据经验以及对汉字的统计发现,u=9.7,汉字笔画数的平均分布,f为统计得到的汉字笔画数分布的方差3.5,IDF(TCl)即为含有字符C的全体文档集合中含有字符C的第l个文本串的逆文档频率,通过公式(5)计算得到:
Figure 11575DEST_PATH_IMAGE024
                     公式(5),
各参数定义与在公式(1)中相同,即N为文档集合中文档数量,N(Tl)为文档集合中含有文本串Tl的文档数量。
综合权重计算步骤S130:利用中间权重结果,采用公式(6)计算文本串Ti相对待测文档D的权重,
Figure 686752DEST_PATH_IMAGE025
      公式(6)
其中,为TF·IDF值权重调权因子,
Figure 362245DEST_PATH_IMAGE010
为文本串视觉分辨难度调权因子,优选的,
Figure 838005DEST_PATH_IMAGE009
Figure 737828DEST_PATH_IMAGE010
为1,
归一化权重计算步骤S140:将待测文档D中的文本串Ti的权重
Figure 32500DEST_PATH_IMAGE011
利用公式(7)进行归一化,得到文本串Ti的归一化权重
                     公式(7)。
 
参见图2,本发明公开了一种结合视觉分辨难度的文本串权重计算装置的流程图,其包括如下单元:
构造文档集合并统计词数据单元210:构建文档集合,并得到文本串的统计数据,具体包括:
文档集合构建子单元211:收集视频信息库中的视频标题,从查询日志中随机取出等量的用户输入的查询串,将这两部分文本一起作为下一步要处理的文档集合;
数据统计子单元212:使用例如切词程序的切词工具,切分所述文档集合中的每个文档,每个文档经过切分后得到一个文本串(词)序列,统计每个文本串出现在单个文档中的频次、每个文本串出现在文档集合中的总频次,对出现在文本串中的所有汉字统计其笔画数量,如果是非汉字部分,例如英文或符号,则按照一画统计。
中间权重结果计算单元220:对需要计算文本串权重的待测文档D进行切词,得到一个由k个文本串组成的序列,通过如下单元分别得到几种中间结果权重:
TF·IDF值计算子单元221:对所述文本串序列中的文本串Ti采用公式(8)计算其TF·IDF值,其中1≤i≤k, 
Figure 943052DEST_PATH_IMAGE027
         公式(8),
其中,N为文档集合中文档数量,ND(Ti)为文本串Ti在待测文档D中出现的次数,N(Ti)为文档集合中含有文本串Ti的文档数量;
视觉密度计算子单元222:对所述文本串序列中的文本串Ti,采用公式(9)计算其视觉密度
Figure 778765DEST_PATH_IMAGE002
Figure 669361DEST_PATH_IMAGE028
     公式(9),
其中,文本串Ti含有m个字符,BH(Cj)为Ti中第j个字符Cj的笔画数, 1≤j≤m,f1和fm为调权因子。将文本串Ti的首尾字符进行调权是基于人类对文本单词识别过程中首尾字符更重要的结论,也就是在人类视觉识别中,首尾字符的重要性更大。其中,调权因子f1和fm两个可以经验值决定,优选地,f1=1.3,fm=1.2。
易识别度计算子单元223:利用公式(10)计算文本串Ti的易识别度
Figure 729065DEST_PATH_IMAGE004
Figure 803813DEST_PATH_IMAGE029
            公式(10),
m表示文本串Ti含有m个字符,CF(Cj)表示字符Cj易识别度,对文本串Ti中的首尾字符利用调权因子y1和ym进行调权。同样的,由于认为人类对文本单词识别过程中首尾字符更重要的结论,在易识别度计算时也对首尾字符进行调权,优选地,y1=1.2, ym=1.2, 字符C易识别度CF(C)通过公式(11)计算得到:
Figure 977305DEST_PATH_IMAGE030
          公式(11),
CWF为字符C在整个文档集合中不同的文本串中出现的次数,TCl表示在整个文档集合中含有字符C的第l个文本串,BH(C)为字符C的笔画数,u为最易识别单字的笔画数,f为调权因子,用于调节单个字的笔画数相对u的渐远而易识别度降低的速率,例如在一个15画的字计算出来的值在f变大时会减小。优选地,根据经验以及对汉字的统计发现,u=9.7,汉字笔画数的平均分布,f为统计得到的汉字笔画数分布的方差3.5,IDF(TCl)即为含有字符C的全体文档集合中含有字符C的第l个文本串的逆文档频率,通过公式(12)计算得到:
Figure 274074DEST_PATH_IMAGE031
                     公式(12),
各参数定义与在公式(1)中相同,即N为文档集合中文档数量,N(Tl)为文档集合中含有文本串Tl的文档数量。
综合权重计算单元230:利用中间权重结果,采用公式(13)计算文本串Ti相对待测文档D的权重,
Figure 770259DEST_PATH_IMAGE032
      公式(13)
其中,
Figure 66723DEST_PATH_IMAGE009
为TF·IDF值权重调权因子,
Figure 778327DEST_PATH_IMAGE010
为文本串视觉分辨难度调权因子,优选的,
Figure 581595DEST_PATH_IMAGE009
为1,
归一化权重计算单元240:将待测文档D中的文本串Ti的权重
Figure 133241DEST_PATH_IMAGE011
利用公式(14)进行归一化,得到文本串Ti的归一化权重
Figure 382957DEST_PATH_IMAGE012
Figure 834142DEST_PATH_IMAGE033
                     公式(14)。
实施例:
用一个文档标题“四川雅安地震最新消息”为例:
“四川雅安地震最新消息”经过切词后得到“四川 雅安 地震 最新 消息”这样一个含有五个词的文本串序列。分别计算其IDF、MD、YB值,(为简单,前面所有调权因子都取1)得到:
Figure 406551DEST_PATH_IMAGE035
可以看到在这个文档中,最重要的词依次是“消息、雅安、地震、最新、四川”。从用户对新闻的需求上来说,上述词权重排序是合理的。
本发明在计算文本串,也就是词对文档权重时引入了易识别度因子和视觉密度因子,从整体上使更容易快速被用户识别和理解的词得到更大权重,从而使得搜索结果所包含的文本更容易被用户识别、浏览,也就是说用户在扫描所希望观看的视频时所用的时间更短,不容易使用户产生视觉和大脑疲劳。又由于引入了易识别度因子和视觉密度因子,使得含有生僻、难以理解的文本结果不容易展现出来,可以减少用户因为稍难理解而目光忽略的结果的出现,从整体上提高结果相关性。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施方式仅限于此,对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单的推演或替换,都应当视为属于本发明由所提交的权利要求书确定保护范围。

Claims (10)

1.一种结合视觉分辨难度的文本串权重计算方法,包括如下步骤:
构造文档集合并统计词数据步骤S110:构建文档集合,并得到文本串的统计数据,具体包括:
文档集合构建子步骤S111:收集视频信息库中的视频标题,从查询日志中随机取出等量的用户输入的查询串,将这两部分文本一起作为下一步要处理的文档集合;
数据统计子步骤S112:切分所述文档集合中的每个文档,每个文档经过切分后得到一个文本串序列,统计每个文本串出现在单个文档中的频次、每个文本串出现在文档集合中的总频次,对出现在文本串中的所有汉字统计其笔画数量,如果不是汉字,则按照一画统计;
中间权重结果计算步骤S120:对需要计算文本串权重的待测文档D进行切词,得到一个由k个文本串组成的序列,通过如下步骤分别得到几种中间结果权重:
TF·IDF值计算子步骤S121:对所述文本串序列中的文本串Ti采用公式(1)计算其TF·IDF值,其中1≤i≤k, 
Figure 152564DEST_PATH_IMAGE002
         公式(1),
其中,N为文档集合中文档数量,ND(Ti)为文本串Ti在待测文档D中出现的次数,N(Ti)为文档集合中含有文本串Ti的文档数量;
视觉密度计算子步骤S122:对所述文本串序列中的文本串Ti,采用公式(2)计算其视觉密度
Figure 180563DEST_PATH_IMAGE003
Figure 890375DEST_PATH_IMAGE005
     公式(2),
其中,文本串Ti含有m个字符,BH(Cj)为Ti中第j个字符Cj的笔画数, 1≤j≤m,f1和fm为调权因子; 
易识别度计算子步骤S123:利用公式(3)计算文本串Ti的易识别度
Figure 345627DEST_PATH_IMAGE006
Figure 976941DEST_PATH_IMAGE008
            公式(3),
m表示文本串Ti含有m个字符,CF(Cj)表示字符Cj易识别度,对文本串Ti中的首尾字符利用调权因子y1和ym进行调权,字符C易识别度CF(C)通过公式(4)计算得到:
Figure 71280DEST_PATH_IMAGE010
          公式(4),
CWF为字符C在整个文档集合中不同的文本串中出现的次数,TCl表示在整个文档集合中含有字符C的第l个文本串,BH(C)为字符C的笔画数,u为最易识别单字的笔画数,f为调权因子,IDF(TCl)为含有字符C的全体文档集合中含有字符C的第l个文本串的逆文档频率,通过公式(5)计算得到:
Figure 107369DEST_PATH_IMAGE011
                     公式(5),
N为文档集合中文档数量,N(Tl)为文档集合中含有文本串Tl的文档数量;
综合权重计算步骤S130:利用中间权重结果,采用公式(6)计算文本串Ti相对待测文档D的权重,
      公式(6)
其中,
Figure 75903DEST_PATH_IMAGE014
为TF·IDF值权重调权因子,
Figure 445704DEST_PATH_IMAGE015
为文本串视觉分辨难度调权因子; 
归一化权重计算步骤S140:将待测文档D中的文本串Ti的权重
Figure 395687DEST_PATH_IMAGE016
利用公式(7)进行归一化,得到文本串Ti的归一化权重
Figure 192742DEST_PATH_IMAGE017
Figure 23288DEST_PATH_IMAGE019
                     公式(7)。
2.根据权利要求1所述的结合视觉分辨难度的文本串权重计算方法,其特征在于:
在视觉密度计算子步骤中,f1=1.3,fm=1.2。
3.根据权利要求1所述的结合视觉分辨难度的文本串权重计算方法,其特征在于:
在易识别度计算子步骤中,y1=1.2, ym=1.2。
4.根据权利要求1所述的结合视觉分辨难度的文本串权重计算方法,其特征在于:
在易识别度计算子步骤中,u=9.7,f=3.5。
5.根据权利要求1,其特征在于:
在综合权重计算步骤中,
Figure 987888DEST_PATH_IMAGE015
均为1。
6.一种结合视觉分辨难度的文本串权重计算装置,包括如下单元:
构造文档集合并统计词数据单元:构建文档集合,并得到文本串的统计数据,具体包括:
文档集合构建子单元:收集视频信息库中的视频标题,从查询日志中随机取出等量的用户输入的查询串,将这两部分文本一起作为下一步要处理的文档集合;
数据统计子单元:切分所述文档集合中的每个文档,每个文档经过切分后得到一个文本串序列,统计每个文本串出现在单个文档中的频次、每个文本串出现在文档集合中的总频次,对出现在文本串中的所有汉字统计其笔画数量,如果不是汉字,则按照一画统计;
中间权重结果计算单元:对需要计算文本串权重的待测文档D进行切词,得到一个由k个文本串组成的序列,通过如下单元分别得到几种中间结果权重:
TF·IDF值计算子单元:对所述文本串序列中的文本串Ti采用公式(1)计算其TF·IDF值,其中1≤i≤k, 
Figure 955844DEST_PATH_IMAGE020
         公式(1),
其中,N为文档集合中文档数量,ND(Ti)为文本串Ti在待测文档D中出现的次数,N(Ti)为文档集合中含有文本串Ti的文档数量;
视觉密度计算子单元:对所述文本串序列中的文本串Ti,采用公式(2)计算其视觉密度
Figure DEST_PATH_IMAGE021
     公式(2),
其中,文本串Ti含有m个字符,BH(Cj)为Ti中第j个字符Cj的笔画数, 1≤j≤m,f1和fm为调权因子; 
易识别度计算子单元:利用公式(3)计算文本串Ti的易识别度
Figure 23299DEST_PATH_IMAGE006
Figure 154067DEST_PATH_IMAGE008
            公式(3),
m表示文本串Ti含有m个字符,CF(Cj)表示字符Cj易识别度,对文本串Ti中的首尾字符利用调权因子y1和ym进行调权,字符C易识别度CF(C)通过公式(4)计算得到:
Figure 821153DEST_PATH_IMAGE022
          公式(4),
CWF为字符C在整个文档集合中不同的文本串中出现的次数,TCl表示在整个文档集合中含有字符C的第l个文本串,BH(C)为字符C的笔画数,u为最易识别单字的笔画数,f为调权因子,IDF(TCl)为含有字符C的全体文档集合中含有字符C的第l个文本串的逆文档频率,通过公式(5)计算得到:
                     公式(5),
N为文档集合中文档数量,N(Tl)为文档集合中含有文本串Tl的文档数量;
综合权重计算单元:利用中间权重结果,采用公式(6)计算文本串Ti相对待测文档D的权重,
Figure 893930DEST_PATH_IMAGE024
      公式(6)
其中,
Figure 875137DEST_PATH_IMAGE014
为TF·IDF值权重调权因子,
Figure 860410DEST_PATH_IMAGE015
为文本串视觉分辨难度调权因子; 
归一化权重计算单元:将待测文档D中的文本串Ti的权重
Figure 963977DEST_PATH_IMAGE016
利用公式(7)进行归一化,得到文本串Ti的归一化权重
Figure 769122DEST_PATH_IMAGE017
Figure DEST_PATH_IMAGE025
                     公式(7)。
7.根据权利要求6所述的结合视觉分辨难度的文本串权重计算装置,其特征在于:
在视觉密度计算子单元中,f1=1.3,fm=1.2。
8.根据权利要求6所述的结合视觉分辨难度的文本串权重计算装置,其特征在于:
在易识别度计算子单元中,y1=1.2, ym=1.2。
9.根据权利要求6所述的结合视觉分辨难度的文本串权重计算装置,其特征在于:
在易识别度计算子单元中,u=9.7,f=3.5。
10.根据权利要求6,其特征在于:
在综合权重计算单元中,
Figure 836274DEST_PATH_IMAGE015
均为1。
CN201310725839.7A 2013-12-26 2013-12-26 一种结合视觉分辨难度的文本串权重计算方法及装置 Pending CN103744900A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310725839.7A CN103744900A (zh) 2013-12-26 2013-12-26 一种结合视觉分辨难度的文本串权重计算方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310725839.7A CN103744900A (zh) 2013-12-26 2013-12-26 一种结合视觉分辨难度的文本串权重计算方法及装置

Publications (1)

Publication Number Publication Date
CN103744900A true CN103744900A (zh) 2014-04-23

Family

ID=50501918

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310725839.7A Pending CN103744900A (zh) 2013-12-26 2013-12-26 一种结合视觉分辨难度的文本串权重计算方法及装置

Country Status (1)

Country Link
CN (1) CN103744900A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109831694A (zh) * 2017-11-23 2019-05-31 移动商务股份有限公司 影片内容整合系统及其方法
CN114969464A (zh) * 2021-10-15 2022-08-30 淮阴师范学院 基于毫米波通信的智能可视化显示系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1158426A1 (en) * 2000-05-25 2001-11-28 Bridgewell Incorporated A method for associating attributes to documents
CN101739426A (zh) * 2008-11-13 2010-06-16 北京大学 一种多文档摘要的生成方法及装置
CN102682132A (zh) * 2012-05-18 2012-09-19 合一网络技术(北京)有限公司 一种基于词频、播放量和创建时间检索信息的方法及系统
CN102880712A (zh) * 2012-10-08 2013-01-16 合一网络技术(北京)有限公司 一种用于对搜索的网络视频进行排序的方法和系统
CN103336806A (zh) * 2013-06-24 2013-10-02 北京工业大学 一种基于词出现间距的内在与外在模式熵差的关键词排序方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1158426A1 (en) * 2000-05-25 2001-11-28 Bridgewell Incorporated A method for associating attributes to documents
CN101739426A (zh) * 2008-11-13 2010-06-16 北京大学 一种多文档摘要的生成方法及装置
CN102682132A (zh) * 2012-05-18 2012-09-19 合一网络技术(北京)有限公司 一种基于词频、播放量和创建时间检索信息的方法及系统
CN102880712A (zh) * 2012-10-08 2013-01-16 合一网络技术(北京)有限公司 一种用于对搜索的网络视频进行排序的方法和系统
CN103336806A (zh) * 2013-06-24 2013-10-02 北京工业大学 一种基于词出现间距的内在与外在模式熵差的关键词排序方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109831694A (zh) * 2017-11-23 2019-05-31 移动商务股份有限公司 影片内容整合系统及其方法
CN114969464A (zh) * 2021-10-15 2022-08-30 淮阴师范学院 基于毫米波通信的智能可视化显示系统

Similar Documents

Publication Publication Date Title
US10354170B2 (en) Method and apparatus of establishing image search relevance prediction model, and image search method and apparatus
WO2019085355A1 (zh) 互联网新闻的舆情聚类分析方法、应用服务器及计算机可读存储介质
CA2832001C (en) Systems and methods for paragraph-based document searching
US11294974B1 (en) Golden embeddings
US8725717B2 (en) System and method for identifying topics for short text communications
CN103324645B (zh) 一种网页推荐方法和装置
US10387915B2 (en) Digital magazine recommendations by topic
US20190266288A1 (en) Query topic map
US20120011129A1 (en) Faceted exploration of media collections
CN109885773A (zh) 一种文章个性化推荐方法、系统、介质及设备
CN103198057A (zh) 一种自动给文档添加标签的方法和装置
CN102033919A (zh) 文本关键词提取方法及系统
CN102426610A (zh) 微博搜索排名方法及微博搜索引擎
JP2009043156A (ja) 番組検索装置および番組検索方法
US20190258719A1 (en) Emoji classifier
CN107291939A (zh) 酒店信息的聚类匹配方法及系统
CN106777143A (zh) 一种新闻聚合方法及新闻聚合服务器
US20140032520A1 (en) Image retrieval method and system for community website page
CN109885656A (zh) 基于量化热度的微博转发预测方法及装置
CN106897398A (zh) 一种视频展示方法及装置
CN105005555A (zh) 基于聊天时间的关键词提取方法及装置
CN103744900A (zh) 一种结合视觉分辨难度的文本串权重计算方法及装置
CN104615685B (zh) 一种面向网络话题的热度评价方法
Blanco et al. IntoNews: Online news retrieval using closed captions
CN108509449B (zh) 一种信息处理的方法及服务器

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20140423