CN103838789A

CN103838789A - 一种文本相似度计算方法

Info

Publication number: CN103838789A
Application number: CN201210491145.7A
Authority: CN
Inventors: 汲业; 徐青
Original assignee: DALIAN LINGDONG TECHNOLOGY DEVELOPMENT Co Ltd
Current assignee: DALIAN LINGDONG TECHNOLOGY DEVELOPMENT Co Ltd
Priority date: 2012-11-27
Filing date: 2012-11-27
Publication date: 2014-06-04

Abstract

本发明公开了一种文本相似度计算方法，包括以下步骤：文本的表示和文本相似度计算。文本的表示的目标是将一个商品描述的文本文档转化为一个向量来进行描述，本发明采用中文分词、去停用词、统计词频等自然语言处理技术将每个对商品的描述文本转化为一个向量；使用基于汉明距离的方法计算文本相似度，汉明距离的另外一个优势在于计算速度特别快。由于使用了统计机器学习的方法，使得本发明比传统基于规则的方法更加稳定、更加有效。

Description

一种文本相似度计算方法

技术领域

本发明涉及一种个性化商品推荐技术，特别是一种文本相似度计算方法。

背景技术

随着电子商务网站的快速发展，人们越来越依赖电子商务网站来购买商品。但是电子商务网站上的商品不论是数量还是种类都在以指数速度增长，要从这个海洋中准确迅速地找到并获得自己所需要的商品却很困难。用户在查询时往往会迷失他们的目标。因此，很多用户在浏览站点时，往往花费大量的时间和精力浏览与自己想买的商品无关的页面，这使得很多用户对在此网站购买商品失去信心，从而使该网站丧失很多用户。为了增加销售、增加用户满意度、增加竞争力和理论研究，电子商务商品推荐系统便应运而生。它的目标是允许电子商务网站向客户提供商品信息和建议，直接与用户交互，模拟商店销售人员向用户提供商品推荐，帮助用户找到所需商品，从而顺利完成购买过程。

传统的电子商务网站依靠用户注册信息、历史浏览信息来判断用户来建立模型从而判断用户可能感兴趣的商品。主要用到的推荐技术包括基于内容推荐、协同过滤推荐、基于关联规则推荐、基于效用推荐、基于知识推荐和基于用户统计信息推荐。传统的电子商务网站用到的推荐系统大致可以分为三大类：个性化推荐、个性化信息检索和个性化网站。但是各种推荐技术都有它特定的适用范围。这些方法都存在许多缺点：基于用户统计信息的推荐技术虽在一些以会员制为主要销售模式的网站却很有用处，但并不适用于普通的电子商务模式；其实基于知识和效用的推荐同基于内容的推荐有一个共同的特点就是需要对项目即推荐产品的特征进行描述，然后才能推荐。

发明内容

为解决现有技术存在的上述问题，本发明要设计一种既可以利用用户个人资料、又可以使用用户历史购买资料并可以适应用户偏好转移的个性化推荐方法。

为了实现上述目的，本发明的技术方案如下：一种文本相似度计算方法，包括以下步骤：

A、文本的表示

商品介绍都是文本格式，但是文本是非结构化数据，未经过处理的文本型数据是无法直接进行相似度计算的，必须将所有的文本表示成能为计算机能够处理的形式。在文本相似度计算领域，文本的表示主要采用向量空间模型(Vectorspace model，VSM)。其基本思想是把文章d看作向量空间中的一个n维向量(w₁,w₂，...，w_n)，其w_i为第i个特征的权重。w_i可以是布尔值，用来表示特征t是否出现在文章d中；也可以是TF(Term frequency)，来表示t在文章d中的重要程度；现在使用最普遍的还是TF-IDF(Term frequency inverse documentfrequency)，是因为它考虑了特征在文章中的分布和文章的长度。本发明使用汉明距离理论来计算文本相似度，所以要使用布尔值作为特征的权重。

要将文章表示为向量空间中的一个向量，就首先要将文章分词。因为词是最小的能够独立活动的有意义的语言成分。但汉语是以字为基本的书写单位，词语之间没有明显的区分标记，因此，中文词法分析是中文信息处理的基础与关键。因此，自动识别词的边界，将汉字串切分为正确的词串的汉语分词问题无疑是进行中文文本分类的首要问题。汉语自动分词是对汉语文本进行自动分析的第一个步骤。可以这样设想汉语自动分词过程的困难：如果把某个英语文本中的所有空格符去掉，然后让计算机自动恢复文本中原有的空格符，这就是词的识别过程，此过程的主要问题是对大量歧异现象的处理。分词体现了汉语与英语的显著的不同。英语文本是小字符集上的已充分分隔的词串，而汉语文本是自动分词系统需要做的工作。分词系统的输入是连续的字符串，输出是汉语的词串(W₁,W₂,...,W_n)。这里，W_i可以是单词也可以是多词。现有的分词算法可分为三大类：基于字符串匹配的分词，又叫做机械分词方法，它是按照一定的策略将待分析的汉字串与一个充分大的机器词典中的词条进行配，若在词典中找到某个字符串，则匹配成功，表示识别出一个词；基于理解的分词，即通过让计算机模拟人对句子的理解，在分词的同时进行句法、语义分析，利用句法信息和语义信息来处理歧义现象；基于统计的分词：在上下文中，相邻的字同时出现的次数越多，就越有可能构成一个词，字与字相邻共现的频率或概率能够较好的反映成词的可信度。到底哪种分词算法的准确度更高，目前并无定论。

对于任何一个成熟的分词系统来说，不可能单独依靠某一种算法来实现，都需要综合不同的算法。本论文中的分词采用中科院的分词系统ICTCLAS。ICTCLAS系统首先，进行粗分词采用N2最短路径方法将最短路径方法和全切分的有机结合。然后对粗分词的结果按照标准字典进行词性的标注。在进行了NE识别以后，重新分词找出联合概率最大的分词结果，最后对分词结果重新标注词性。中文文本中，能标识文本特性的往往是文本中的实词，而文本中的一些虚词对于标识文本的特性并没有贡献。如果把虚词也作为文本特征，将会带来很大噪音，从而直接降低文本相似度计算的效率和准确率。在提取文本特征时，应首先剔除虚词，只提取文本中的实词作为文本的一级特征。

B、文本相似度计算

确定了特征向量，所有的文本在分词以后，都要使用最终特征集标准化，所有的文本可以用一个向量来描述。传统文本相似度计算方法是利用向量空间模型，根据词频TF以及逆文本频率IDF，赋予该向量各个分量的权值，与欧氏空间的向量一一对应，借用欧氏空间中求向量夹角余弦的方法得到文本q和d之间的相似度的定量表示，用如下三个公式所示：

q={w_q1,w_q2,…,w_qn}

d={w_d1,w_d2,…,w_dn}

sim (q, d) = \cos (q, d) = \frac{Σ_{i = 1}^{n} w_{qi} \cdot w_{di}}{\sqrt{Σ_{i = 1}^{n} w_{qi}^{2}} \cdot \sqrt{Σ_{i = 1}^{n} w_{di}^{2}}}

另外还有广义向量空间模型，隐性语义索引模型和以属性理论为基础的属性重心剖分模型等方法。属性重心剖分模型用属性坐标系描述文本向量与查询式向量，并确定向量之间的匹配基准，计算匹配距离。以上这些方法，它们都不外乎利用欧氏空间，微分几何中单纯形等概念，把文本与查询式描述成空间中的向量，再在向量空间中定义诸如内积等运算，由此来定量地描述文本与查询式之间的相似度。本文使用另一种求文本相似度的方法，它借助编码理论中汉明距离的概念，通过求文本之间的汉明距离，来计算文本的相似度。

在信息论中，汉明距离是一个基本的概念，描述两个n长码字x=(x₁,x₂,...x_k，...x_n)，y=(y₁,y₂,...y_k，...y_n)之间的距离如下公式所示：

D (x, y) = Σ_{k = 1}^{n} x_{k} &CirclePlus; y_{k}

其中

表示模2加运算，x_k∈{0,1},y_k∈{0,1}。D(x,y)表示两码字在相同位置上不同码符号的数目的总和，它能够反映两码字之间的差异，进而提供码字之间的相似程度的客观依据。

对于文本来说，可以把描述文本的向量看成一个有n位序列的码字，文本的信息就用这些码字表示，使文本与码字建立一一对应关系。比如文本q和d可表示为qh={10011100....1001},dh={10000111...0000}。在这里0或1分别表示相对应的文本信息的状态，0表示文本在这分量位置上的信息是没有的，1表示文本在这一分量位置上的信息是有的，反之也可以类似规定。因此，对于原来的文本集合，它可以一一对应于码字的集合，研究文本集合中的文本相似关系，就用码字之间的汉明距离来表征。q和d这两个码字的汉明距离，可用上面的公式计算，它较好地反映了文本之间的相互关系。对于D(q,d)来说，它们之间的距离介于0与n之间，当文本与查询式用n位码字表示完全不同时，距离值为0，当文本与查询式的码字完全相同时，则它们的距离为n，它定量地描述文本之间的差异程度。定义相似度计算公式如下：

sim (q, d) = 1 - (Σ_{k = 1}^{n} {qh}_{k} &CirclePlus; {dh}_{k}) / n

其中qh_k,dh_k分别表示文本p，d对应的码字qh和dh中第k位的分量，要么为1要么为0。对于计算机来说，模2加运算非常方便，可以达到极快的速度。

使用一部分商品的详细介绍生成标准向量，具体过程为：首先把商品的详细介绍分词，然后使用基于杂质能级的特征评价方法为每一个特征项评分，按照特征项的分值排序，取出分值最大的n个作为标准特征向量空间。将所有商品的详细描述进行分词，使用词条形式的向量代替商品的介绍，把词条向量按照标准特征向量空间中的词条进行向量的标准化，向量中的分量使用布尔型数据作为每个特征项的权重，方便使用汉明距离计算文本的相似度，也就是商品的相似度。

当用户在浏览网站中的商品时，可以简单的获得用户当前浏览商品的事务，商品候选集推荐模块根据事务的最后两项可以推荐出一个推荐候选集合，使用基于汉明距离的方法计算推荐候选集合中所有商品与用户当前浏览商品的相似度，此时的商品相似度就可以作为商品的推荐值。取出相似度最大的5个商品作为商品推荐系统的输出数据，给用户展示出来。

与现有技术相比，本发明具有以下有益效果：

1、本发明使用向量化的表示方法并使用相关的自然语言处理技术，加入了语义信息，比传统的协同过滤技术和基于关联规则的技术有统计信息方面的优势。

2、本发明的相似性度量使用TF-IDF方法和汉明距离的方法，可以有效地使用商品的文本描述信息来计算商品之间的相似度。

附图说明

本发明共有附图1张，其中：

图1是本发明的分词及词性标注流程图。

具体实施方式

如图1所示文本相似度计算：确定了特征向量，所有的文本在分词以后，都要使用最终特征集标准化，所有的文本可以用一个向量来描述。传统文本相似度计算方法是利用向量空间模型，根据词频TF以及逆文本频率IDF，赋予该向量各个分量的权值，与欧氏空间的向量一一对应，借用欧氏空间中求向量夹角余弦的方法得到文本q和d之间的相似度的定量表示，用如下三个公式所示：

q={w_q1,w_q2,…,w_qn}

d={w_d1,w_d2,…,w_dn}

sim (q, d) = \cos (q, d) = \frac{Σ_{i = 1}^{n} w_{qi} \cdot w_{di}}{\sqrt{Σ_{i = 1}^{n} w_{qi}^{2}} \cdot \sqrt{Σ_{i = 1}^{n} w_{di}^{2}}}

在信息论中，汉明距离是一个基本的概念，描述两个n长码字x=(x₁,x₂,...x_k,...x_n)，y=(y₁,y₂,...y_k,...y_n)之间的距离如下公式所示：

D (x, y) = Σ_{k = 1}^{n} x_{k} &CirclePlus; y_{k}

其中

sim (q, d) = 1 - (Σ_{k = 1}^{n} {qh}_{k} &CirclePlus; {dh}_{k}) / n

Claims

1.一种文本相似度计算方法，其特征在于：包括以下步骤：

A、文本的表示

商品介绍都是文本格式，但是文本是非结构化数据，未经过处理的文本型数据是无法直接进行相似度计算的，必须将所有的文本表示成能为计算机能够处理的形式；在文本相似度计算领域，文本的表示主要采用向量空间模型；其基本思想是把文章d看作向量空间中的一个n维向量(w₁,w₂,...,w_n)，其w_i为第i个特征的权重；w_i可以是布尔值，用来表示特征t是否出现在文章d中；也可以是TF，来表示t在文章d中的重要程度；现在使用最普遍的还是TF-IDF，是因为它考虑了特征在文章中的分布和文章的长度；本发明使用汉明距离理论来计算文本相似度，所以要使用布尔值作为特征的权重；

要将文章表示为向量空间中的一个向量，就首先要将文章分词；因为词是最小的能够独立活动的有意义的语言成分；但汉语是以字为基本的书写单位，词语之间没有明显的区分标记，因此，中文词法分析是中文信息处理的基础与关键；因此，自动识别词的边界，将汉字串切分为正确的词串的汉语分词问题无疑是进行中文文本分类的首要问题；汉语自动分词是对汉语文本进行自动分析的第一个步骤；可以这样设想汉语自动分词过程的困难：如果把某个英语文本中的所有空格符去掉，然后让计算机自动恢复文本中原有的空格符，这就是词的识别过程，此过程的主要问题是对大量歧异现象的处理；分词体现了汉语与英语的显著的不同；英语文本是小字符集上的已充分分隔的词串，而汉语文本是自动分词系统需要做的工作；分词系统的输入是连续的字符串，输出是汉语的词串(W₁,W₂,...,W_n)；这里，W_i可以是单词也可以是多词；现有的分词算法可分为三大类：基于字符串匹配的分词，又叫做机械分词方法，它是按照一定的策略将待分析的汉字串与一个充分大的机器词典中的词条进行配，若在词典中找到某个字符串，则匹配成功，表示识别出一个词；基于理解的分词，即通过让计算机模拟人对句子的理解，在分词的同时进行句法、语义分析，利用句法信息和语义信息来处理歧义现象；基于统计的分词：在上下文中，相邻的字同时出现的次数越多，就越有可能构成一个词，字与字相邻共现的频率或概率能够较好的反映成词的可信度；到底哪种分词算法的准确度更高，目前并无定论；

对于任何一个成熟的分词系统来说，不可能单独依靠某一种算法来实现，都需要综合不同的算法；本论文中的分词采用中科院的分词系统ICTCLAS；ICTCLAS系统首先，进行粗分词采用N2最短路径方法将最短路径方法和全切分的有机结合；然后对粗分词的结果按照标准字典进行词性的标注；在进行了NE识别以后，重新分词找出联合概率最大的分词结果，最后对分词结果重新标注词性；中文文本中，能标识文本特性的往往是文本中的实词，而文本中的一些虚词对于标识文本的特性并没有贡献；如果把虚词也作为文本特征，将会带来很大噪音，从而直接降低文本相似度计算的效率和准确率；在提取文本特征时，应首先剔除虚词，只提取文本中的实词作为文本的一级特征；

B、文本相似度计算

确定了特征向量，所有的文本在分词以后，都要使用最终特征集标准化，所有的文本可以用一个向量来描述；传统文本相似度计算方法是利用向量空间模型，根据词频TF以及逆文本频率IDF，赋予该向量各个分量的权值，与欧氏空间的向量一一对应，借用欧氏空间中求向量夹角余弦的方法得到文本q和d之间的相似度的定量表示，用如下三个公式所示：

q={w_q1,w_q2,…,w_qn}

d={w_d1,w_d2,…,w_dn}

sim (q, d) = \cos (q, d) = \frac{Σ_{i = 1}^{n} w_{qi} \cdot w_{di}}{\sqrt{Σ_{i = 1}^{n} w_{qi}^{2}} \cdot \sqrt{Σ_{i = 1}^{n} w_{di}^{2}}}

另外还有广义向量空间模型，隐性语义索引模型和以属性理论为基础的属性重心剖分模型等方法；属性重心剖分模型用属性坐标系描述文本向量与查询式向量，并确定向量之间的匹配基准，计算匹配距离；以上这些方法，它们都不外乎利用欧氏空间，微分几何中单纯形等概念，把文本与查询式描述成空间中的向量，再在向量空间中定义诸如内积等运算，由此来定量地描述文本与查询式之间的相似度；本文使用另一种求文本相似度的方法，它借助编码理论中汉明距离的概念，通过求文本之间的汉明距离，来计算文本的相似度；

D (x, y) = Σ_{k = 1}^{n} x_{k} &CirclePlus; y_{k}

其中

表示模2加运算，x_k∈{0,1},y_k∈{0,1}；D(x,y)表示两码字在相同位置上不同码符号的数目的总和，它能够反映两码字之间的差异，进而提供码字之间的相似程度的客观依据；

对于文本来说，可以把描述文本的向量看成一个有n位序列的码字，文本的信息就用这些码字表示，使文本与码字建立一一对应关系；比如文本q和d可表示为qh={10011100....1001},dh={10000111...0000}；在这里0或1分别表示相对应的文本信息的状态，0表示文本在这分量位置上的信息是没有的，1表示文本在这一分量位置上的信息是有的，反之也可以类似规定；因此，对于原来的文本集合，它可以一一对应于码字的集合，研究文本集合中的文本相似关系，就用码字之间的汉明距离来表征；q和d这两个码字的汉明距离，可用上面的公式计算，它较好地反映了文本之间的相互关系；对于D(q,d)来说，它们之间的距离介于0与n之间，当文本与查询式用n位码字表示完全不同时，距离值为0，当文本与查询式的码字完全相同时，则它们的距离为n，它定量地描述文本之间的差异程度；定义相似度计算公式如下：

sim (q, d) = 1 - (Σ_{k = 1}^{n} {qh}_{k} &CirclePlus; {dh}_{k}) / n

其中qh_k,dh_k分别表示文本p，d对应的码字qh和dh中第k位的分量，要么为1要么为0；对于计算机来说，模2加运算非常方便，可以达到极快的速度；

使用一部分商品的详细介绍生成标准向量，具体过程为：首先把商品的详细介绍分词，然后使用基于杂质能级的特征评价方法为每一个特征项评分，按照特征项的分值排序，取出分值最大的n个作为标准特征向量空间；将所有商品的详细描述进行分词，使用词条形式的向量代替商品的介绍，把词条向量按照标准特征向量空间中的词条进行向量的标准化，向量中的分量使用布尔型数据作为每个特征项的权重，方便使用汉明距离计算文本的相似度，也就是商品的相似度；

当用户在浏览网站中的商品时，可以简单的获得用户当前浏览商品的事务，商品候选集推荐模块根据事务的最后两项可以推荐出一个推荐候选集合，使用基于汉明距离的方法计算推荐候选集合中所有商品与用户当前浏览商品的相似度，此时的商品相似度就可以作为商品的推荐值；取出相似度最大的5个商品作为商品推荐系统的输出数据，给用户展示出来。