CN103744900A

CN103744900A - 一种结合视觉分辨难度的文本串权重计算方法及装置

Info

Publication number: CN103744900A
Application number: CN201310725839.7A
Authority: CN
Inventors: 刘伟; 姚键; 潘柏宇; 卢述奇
Original assignee: 1Verge Internet Technology Beijing Co Ltd
Current assignee: 1Verge Internet Technology Beijing Co Ltd
Priority date: 2013-12-26
Filing date: 2013-12-26
Publication date: 2014-04-23

Abstract

一种结合视觉分辨难度的文本串权重计算方法和装置，其方法首先构造一个文档集合，统计字符串在文档集合中频率和在单个文档中的频率，以及每个字符在哪些文本串中出现，每个字符的笔画数。然后，切词处理待计算文本串权重的文档，得到一个文本串序列，对每一个文本计算其视觉密度，易识别度，和TF?IDF值。最后，加权相加该文本串的视觉密度、易识别度和TF?IDF值，得到文本串对一个文档的权重，并进一步的得到文本串对文档的归一化权重。该方法使得具有更多信息量，同时容易被用户辨识的词具有更大的权重，在搜索结果中更多展现普通用户容易识别、读懂和理解的视频结果，使得用户能够更快地发现感兴趣的结果。

Description

一种结合视觉分辨难度的文本串权重计算方法及装置

技术领域

本申请涉及搜索引擎领域，具体地，涉及一种结合视觉分辨难度的文本串权重计算方法及装置。

背景技术

搜索引擎在建立倒排索引时，需要计算每个文档中的词在该文档中的权重。现有技术中多是基于文档中词频和词在文档集合中出现的文档频率（即TF·IDF）来计算词在一个文档中的权重。TF·IDF算法是搜索引擎领域里的经典算法，在具体实现到系统的过程中，使用者一般均会进行适应性修改，以符合其所属领域数据分布的特征。

但上述的各种适应性的修改的TF·IDF的方法均没有考虑到作为搜索结果观察者的用户对文本串视觉上的识别顺畅性。当用户对搜索结果的“第一眼”识别过程中，用户往往会把注意力首先集中在其最容易识别、读懂和理解的结果上。

因此，如何能够结合每个汉字的不同视觉分辨难度，对文本串权重计算方法进行改进成为亟需解决的技术问题。

发明内容

本发明的目的在于提出一种结合视觉分辨难度的文本串权重计算方法及装置，使得文本串的视觉密度、文本串和字符的易识别程度能够对经典TF·IDF的文本串权重产生影响。

为达此目的，本发明采用以下技术方案：

一种结合视觉分辨难度的文本串权重计算方法，包括如下步骤：

构造文档集合并统计词数据步骤S110：构建文档集合，并得到文本串的统计数据，具体包括：

文档集合构建子步骤S111：收集视频信息库中的视频标题，从查询日志中随机取出等量的用户输入的查询串，将这两部分文本一起作为下一步要处理的文档集合；

数据统计子步骤S112：切分所述文档集合中的每个文档，每个文档经过切分后得到一个文本串序列，统计每个文本串出现在单个文档中的频次、每个文本串出现在文档集合中的总频次，对出现在文本串中的所有汉字统计其笔画数量，如果不是汉字，则按照一画统计；

中间权重结果计算步骤S120：对需要计算文本串权重的待测文档D进行切词，得到一个由k个文本串组成的序列，通过如下步骤分别得到几种中间结果权重：

TF·IDF值计算子步骤S121：对所述文本串序列中的文本串Ti采用公式（1）计算其TF·IDF值，其中1≤i≤k,

Figure 2013107258397100002DEST_PATH_IMAGE001

公式（1），

其中，N为文档集合中文档数量，ND(Ti)为文本串Ti在待测文档D中出现的次数，N(Ti)为文档集合中含有文本串Ti的文档数量；

视觉密度计算子步骤S122：对所述文本串序列中的文本串Ti，采用公式（2）计算其视觉密度

：

公式（2），

其中，文本串Ti含有m个字符，BH(Cj)为Ti中第j个字符Cj的笔画数, 1≤j≤m，f₁和f_m为调权因子；

易识别度计算子步骤S123：利用公式（3）计算文本串Ti的易识别度

：

公式（3），

m表示文本串Ti含有m个字符，CF(Cj)表示字符Cj易识别度，对文本串Ti中的首尾字符利用调权因子y₁和y_m进行调权，字符C易识别度CF(C)通过公式（4）计算得到：

公式（4），

CWF为字符C在整个文档集合中不同的文本串中出现的次数，TCl表示在整个文档集合中含有字符C的第l个文本串，BH(C)为字符C的笔画数，u为最易识别单字的笔画数，f为调权因子，IDF(TCl)为含有字符C的全体文档集合中含有字符C的第l个文本串的逆文档频率，通过公式（5）计算得到：

Figure 2013107258397100002DEST_PATH_IMAGE007

公式（5），

N为文档集合中文档数量，N(Tl)为文档集合中含有文本串Tl的文档数量；

综合权重计算步骤S130：利用中间权重结果，采用公式（6）计算文本串Ti相对待测文档D的权重，

公式（6）

其中，

为TF·IDF值权重调权因子，

为文本串视觉分辨难度调权因子；

归一化权重计算步骤S140：将待测文档D中的文本串Ti的权重利用公式（7）进行归一化，得到文本串Ti的归一化权重

，

公式（7）。

优选地，在视觉密度计算子步骤中，f₁=1.3，f_m=1.2。

优选地，在易识别度计算子步骤中，y₁=1.2, y_m=1.2。

优选地，在易识别度计算子步骤中，u=9.7，f=3.5。

优选地，在综合权重计算步骤中，

，均为1。

本发明还公开了一种结合视觉分辨难度的文本串权重计算装置，包括如下单元：

构造文档集合并统计词数据单元：构建文档集合，并得到文本串的统计数据，具体包括：

文档集合构建子单元：收集视频信息库中的视频标题，从查询日志中随机取出等量的用户输入的查询串，将这两部分文本一起作为下一步要处理的文档集合；

数据统计子单元：切分所述文档集合中的每个文档，每个文档经过切分后得到一个文本串序列，统计每个文本串出现在单个文档中的频次、每个文本串出现在文档集合中的总频次，对出现在文本串中的所有汉字统计其笔画数量，如果不是汉字，则按照一画统计；

中间权重结果计算单元：对需要计算文本串权重的待测文档D进行切词，得到一个由k个文本串组成的序列，通过如下单元分别得到几种中间结果权重：

TF·IDF值计算子单元：对所述文本串序列中的文本串Ti采用公式（1）计算其TF·IDF值，其中1≤i≤k,

公式（1），

视觉密度计算子单元：对所述文本串序列中的文本串Ti，采用公式（2）计算其视觉密度：

公式（2），

易识别度计算子单元：利用公式（3）计算文本串Ti的易识别度

：

公式（3），

公式（4），

公式（5），

综合权重计算单元：利用中间权重结果，采用公式（6）计算文本串Ti相对待测文档D的权重，

公式（6）

其中，

为TF·IDF值权重调权因子，

为文本串视觉分辨难度调权因子；

归一化权重计算单元：将待测文档D中的文本串Ti的权重

利用公式（7）进行归一化，得到文本串Ti的归一化权重

，

公式（7）。

优选地，在视觉密度计算子单元中，f₁=1.3，f_m=1.2。

优选地，在易识别度计算子单元中，y₁=1.2, y_m=1.2。

优选地，在易识别度计算子单元中，u=9.7，f=3.5。

优选地，在综合权重计算单元中，，

均为1。

本发明在计算一个文档中的各个词的权重综合考虑了每个汉字的不同视觉分辨难度。让具有更多信息量，同时容易被用户辨识的词具有更大的权重，这样可以在搜索结果中更多展现普通用户容易识别、读懂和理解的视频结果，让用户“第一眼”扫视搜索结果时，就能够更快地发现感兴趣的结果。

附图说明

图1是根据本发明的结合视觉分辨难度的文本串权重计算方法的流程图；

图2是根据本发明的结合视觉分辨难度的文本串权重计算装置的框图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

本发明综合考虑文本串的视觉密度、文本串和字符的易识别程度和经典的TF·IDF算法来计算文本词对文档的权重。具体来说：首先，构造一个文档集合，统计出文档集合中的每个字符串，即词，频和词在文档中的出现频率，以及每个字符在哪些词中出现，并统计出每个汉字的笔画数。然后，使用切词处理待计算词权重的文档，得到一个文本串序列（词序列）。接着，对每一个文本串（词）计算其视觉密度，易识别度，并查询到该文本串的TF·IDF值。最后，加权相加该文本串的视觉密度、易识别度和TF·IDF值，得到文本串对一个文档的权重，进一步的得到文本串对文档的归一化权重，从而可以定量地排序一个文档中的各个文本串。

参见图1，公开了根据本发明的结合视觉分辨难度的文本串权重计算方法的流程图，其包括如下步骤：

数据统计子步骤S112：使用例如切词程序的切词工具，切分所述文档集合中的每个文档，每个文档经过切分后得到一个文本串（词）序列，统计每个文本串出现在单个文档中的频次、每个文本串出现在文档集合中的总频次，对出现在文本串中的所有汉字统计其笔画数量，如果是非汉字部分，例如英文或符号，则按照一画统计。

公式（1），

：

公式（2），

其中，文本串Ti含有m个字符，BH(Cj)为Ti中第j个字符Cj的笔画数, 1≤j≤m，f₁和f_m为调权因子。将文本串Ti的首尾字符进行调权是基于人类对文本单词识别过程中首尾字符更重要的结论，也就是在人类视觉识别中，首尾字符的重要性更大。其中，调权因子f₁和f_m两个可以经验值决定，优选地，f₁=1.3，f_m=1.2。

：

公式（3），

m表示文本串Ti含有m个字符，CF(Cj)表示字符Cj易识别度，对文本串Ti中的首尾字符利用调权因子y₁和y_m进行调权。同样的，由于认为人类对文本单词识别过程中首尾字符更重要的结论，在易识别度计算时也对首尾字符进行调权，优选地，y₁=1.2, y_m=1.2, 字符C易识别度CF(C)通过公式（4）计算得到：

公式（4），

CWF为字符C在整个文档集合中不同的文本串中出现的次数，TCl表示在整个文档集合中含有字符C的第l个文本串，BH(C)为字符C的笔画数，u为最易识别单字的笔画数，f为调权因子，用于调节单个字的笔画数相对u的渐远而易识别度降低的速率，例如在一个15画的字计算出来的值在f变大时会减小。优选地，根据经验以及对汉字的统计发现，u=9.7，汉字笔画数的平均分布，f为统计得到的汉字笔画数分布的方差3.5，IDF(TCl)即为含有字符C的全体文档集合中含有字符C的第l个文本串的逆文档频率，通过公式（5）计算得到：

公式（5），

各参数定义与在公式（1）中相同，即N为文档集合中文档数量，N(Tl)为文档集合中含有文本串Tl的文档数量。

公式（6）

其中，为TF·IDF值权重调权因子，

为文本串视觉分辨难度调权因子，优选的，

，

为1，

归一化权重计算步骤S140：将待测文档D中的文本串Ti的权重

利用公式（7）进行归一化，得到文本串Ti的归一化权重，

公式（7）。

参见图2，本发明公开了一种结合视觉分辨难度的文本串权重计算装置的流程图，其包括如下单元：

构造文档集合并统计词数据单元210：构建文档集合，并得到文本串的统计数据，具体包括：

文档集合构建子单元211：收集视频信息库中的视频标题，从查询日志中随机取出等量的用户输入的查询串，将这两部分文本一起作为下一步要处理的文档集合；

数据统计子单元212：使用例如切词程序的切词工具，切分所述文档集合中的每个文档，每个文档经过切分后得到一个文本串（词）序列，统计每个文本串出现在单个文档中的频次、每个文本串出现在文档集合中的总频次，对出现在文本串中的所有汉字统计其笔画数量，如果是非汉字部分，例如英文或符号，则按照一画统计。

中间权重结果计算单元220：对需要计算文本串权重的待测文档D进行切词，得到一个由k个文本串组成的序列，通过如下单元分别得到几种中间结果权重：

TF·IDF值计算子单元221：对所述文本串序列中的文本串Ti采用公式（8）计算其TF·IDF值，其中1≤i≤k,

公式（8），

视觉密度计算子单元222：对所述文本串序列中的文本串Ti，采用公式（9）计算其视觉密度

：

公式（9），

易识别度计算子单元223：利用公式（10）计算文本串Ti的易识别度

：

公式（10），

m表示文本串Ti含有m个字符，CF(Cj)表示字符Cj易识别度，对文本串Ti中的首尾字符利用调权因子y₁和y_m进行调权。同样的，由于认为人类对文本单词识别过程中首尾字符更重要的结论，在易识别度计算时也对首尾字符进行调权，优选地，y₁=1.2, y_m=1.2, 字符C易识别度CF(C)通过公式（11）计算得到：

公式（11），

CWF为字符C在整个文档集合中不同的文本串中出现的次数，TCl表示在整个文档集合中含有字符C的第l个文本串，BH(C)为字符C的笔画数，u为最易识别单字的笔画数，f为调权因子，用于调节单个字的笔画数相对u的渐远而易识别度降低的速率，例如在一个15画的字计算出来的值在f变大时会减小。优选地，根据经验以及对汉字的统计发现，u=9.7，汉字笔画数的平均分布，f为统计得到的汉字笔画数分布的方差3.5，IDF(TCl)即为含有字符C的全体文档集合中含有字符C的第l个文本串的逆文档频率，通过公式（12）计算得到：

公式（12），

综合权重计算单元230：利用中间权重结果，采用公式（13）计算文本串Ti相对待测文档D的权重，

公式（13）

其中，

为TF·IDF值权重调权因子，

为文本串视觉分辨难度调权因子，优选的，

，为1，

归一化权重计算单元240：将待测文档D中的文本串Ti的权重

利用公式（14）进行归一化，得到文本串Ti的归一化权重

，

公式（14）。

实施例：

用一个文档标题“四川雅安地震最新消息”为例：

“四川雅安地震最新消息”经过切词后得到“四川雅安地震最新消息”这样一个含有五个词的文本串序列。分别计算其IDF、MD、YB值，（为简单，前面所有调权因子都取1）得到：

可以看到在这个文档中，最重要的词依次是“消息、雅安、地震、最新、四川”。从用户对新闻的需求上来说，上述词权重排序是合理的。

本发明在计算文本串，也就是词对文档权重时引入了易识别度因子和视觉密度因子，从整体上使更容易快速被用户识别和理解的词得到更大权重，从而使得搜索结果所包含的文本更容易被用户识别、浏览，也就是说用户在扫描所希望观看的视频时所用的时间更短，不容易使用户产生视觉和大脑疲劳。又由于引入了易识别度因子和视觉密度因子，使得含有生僻、难以理解的文本结果不容易展现出来，可以减少用户因为稍难理解而目光忽略的结果的出现，从整体上提高结果相关性。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施方式仅限于此，对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单的推演或替换，都应当视为属于本发明由所提交的权利要求书确定保护范围。