CN103838789A - 一种文本相似度计算方法 - Google Patents

一种文本相似度计算方法 Download PDF

Info

Publication number
CN103838789A
CN103838789A CN201210491145.7A CN201210491145A CN103838789A CN 103838789 A CN103838789 A CN 103838789A CN 201210491145 A CN201210491145 A CN 201210491145A CN 103838789 A CN103838789 A CN 103838789A
Authority
CN
China
Prior art keywords
text
word
vector
similarity
commodity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201210491145.7A
Other languages
English (en)
Inventor
汲业
徐青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DALIAN LINGDONG TECHNOLOGY DEVELOPMENT Co Ltd
Original Assignee
DALIAN LINGDONG TECHNOLOGY DEVELOPMENT Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DALIAN LINGDONG TECHNOLOGY DEVELOPMENT Co Ltd filed Critical DALIAN LINGDONG TECHNOLOGY DEVELOPMENT Co Ltd
Priority to CN201210491145.7A priority Critical patent/CN103838789A/zh
Publication of CN103838789A publication Critical patent/CN103838789A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0269Targeted advertisements based on user profile or attribute
    • G06Q30/0271Personalized advertisement
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Finance (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Health & Medical Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文本相似度计算方法,包括以下步骤:文本的表示和文本相似度计算。文本的表示的目标是将一个商品描述的文本文档转化为一个向量来进行描述,本发明采用中文分词、去停用词、统计词频等自然语言处理技术将每个对商品的描述文本转化为一个向量;使用基于汉明距离的方法计算文本相似度,汉明距离的另外一个优势在于计算速度特别快。由于使用了统计机器学习的方法,使得本发明比传统基于规则的方法更加稳定、更加有效。

Description

一种文本相似度计算方法
技术领域
本发明涉及一种个性化商品推荐技术,特别是一种文本相似度计算方法。
背景技术
随着电子商务网站的快速发展,人们越来越依赖电子商务网站来购买商品。但是电子商务网站上的商品不论是数量还是种类都在以指数速度增长,要从这个海洋中准确迅速地找到并获得自己所需要的商品却很困难。用户在查询时往往会迷失他们的目标。因此,很多用户在浏览站点时,往往花费大量的时间和精力浏览与自己想买的商品无关的页面,这使得很多用户对在此网站购买商品失去信心,从而使该网站丧失很多用户。为了增加销售、增加用户满意度、增加竞争力和理论研究,电子商务商品推荐系统便应运而生。它的目标是允许电子商务网站向客户提供商品信息和建议,直接与用户交互,模拟商店销售人员向用户提供商品推荐,帮助用户找到所需商品,从而顺利完成购买过程。
传统的电子商务网站依靠用户注册信息、历史浏览信息来判断用户来建立模型从而判断用户可能感兴趣的商品。主要用到的推荐技术包括基于内容推荐、协同过滤推荐、基于关联规则推荐、基于效用推荐、基于知识推荐和基于用户统计信息推荐。传统的电子商务网站用到的推荐系统大致可以分为三大类:个性化推荐、个性化信息检索和个性化网站。但是各种推荐技术都有它特定的适用范围。这些方法都存在许多缺点:基于用户统计信息的推荐技术虽在一些以会员制为主要销售模式的网站却很有用处,但并不适用于普通的电子商务模式;其实基于知识和效用的推荐同基于内容的推荐有一个共同的特点就是需要对项目即推荐产品的特征进行描述,然后才能推荐。
发明内容
为解决现有技术存在的上述问题,本发明要设计一种既可以利用用户个人资料、又可以使用用户历史购买资料并可以适应用户偏好转移的个性化推荐方法。
为了实现上述目的,本发明的技术方案如下:一种文本相似度计算方法,包括以下步骤:
A、文本的表示
商品介绍都是文本格式,但是文本是非结构化数据,未经过处理的文本型数据是无法直接进行相似度计算的,必须将所有的文本表示成能为计算机能够处理的形式。在文本相似度计算领域,文本的表示主要采用向量空间模型(Vectorspace model,VSM)。其基本思想是把文章d看作向量空间中的一个n维向量(w1,w2,...,wn),其wi为第i个特征的权重。wi可以是布尔值,用来表示特征t是否出现在文章d中;也可以是TF(Term frequency),来表示t在文章d中的重要程度;现在使用最普遍的还是TF-IDF(Term frequency inverse documentfrequency),是因为它考虑了特征在文章中的分布和文章的长度。本发明使用汉明距离理论来计算文本相似度,所以要使用布尔值作为特征的权重。
要将文章表示为向量空间中的一个向量,就首先要将文章分词。因为词是最小的能够独立活动的有意义的语言成分。但汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词法分析是中文信息处理的基础与关键。因此,自动识别词的边界,将汉字串切分为正确的词串的汉语分词问题无疑是进行中文文本分类的首要问题。汉语自动分词是对汉语文本进行自动分析的第一个步骤。可以这样设想汉语自动分词过程的困难:如果把某个英语文本中的所有空格符去掉,然后让计算机自动恢复文本中原有的空格符,这就是词的识别过程,此过程的主要问题是对大量歧异现象的处理。分词体现了汉语与英语的显著的不同。英语文本是小字符集上的已充分分隔的词串,而汉语文本是自动分词系统需要做的工作。分词系统的输入是连续的字符串,输出是汉语的词串(W1,W2,...,Wn)。这里,Wi可以是单词也可以是多词。现有的分词算法可分为三大类:基于字符串匹配的分词,又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个充分大的机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功,表示识别出一个词;基于理解的分词,即通过让计算机模拟人对句子的理解,在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象;基于统计的分词:在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词,字与字相邻共现的频率或概率能够较好的反映成词的可信度。到底哪种分词算法的准确度更高,目前并无定论。
对于任何一个成熟的分词系统来说,不可能单独依靠某一种算法来实现,都需要综合不同的算法。本论文中的分词采用中科院的分词系统ICTCLAS。ICTCLAS系统首先,进行粗分词采用N2最短路径方法将最短路径方法和全切分的有机结合。然后对粗分词的结果按照标准字典进行词性的标注。在进行了NE识别以后,重新分词找出联合概率最大的分词结果,最后对分词结果重新标注词性。中文文本中,能标识文本特性的往往是文本中的实词,而文本中的一些虚词对于标识文本的特性并没有贡献。如果把虚词也作为文本特征,将会带来很大噪音,从而直接降低文本相似度计算的效率和准确率。在提取文本特征时,应首先剔除虚词,只提取文本中的实词作为文本的一级特征。
B、文本相似度计算
确定了特征向量,所有的文本在分词以后,都要使用最终特征集标准化,所有的文本可以用一个向量来描述。传统文本相似度计算方法是利用向量空间模型,根据词频TF以及逆文本频率IDF,赋予该向量各个分量的权值,与欧氏空间的向量一一对应,借用欧氏空间中求向量夹角余弦的方法得到文本q和d之间的相似度的定量表示,用如下三个公式所示:
q={wq1,wq2,…,wqn}
d={wd1,wd2,…,wdn}
sim ( q , d ) = cos ( q , d ) = Σ i = 1 n w qi · w di Σ i = 1 n w qi 2 · Σ i = 1 n w di 2
另外还有广义向量空间模型,隐性语义索引模型和以属性理论为基础的属性重心剖分模型等方法。属性重心剖分模型用属性坐标系描述文本向量与查询式向量,并确定向量之间的匹配基准,计算匹配距离。以上这些方法,它们都不外乎利用欧氏空间,微分几何中单纯形等概念,把文本与查询式描述成空间中的向量,再在向量空间中定义诸如内积等运算,由此来定量地描述文本与查询式之间的相似度。本文使用另一种求文本相似度的方法,它借助编码理论中汉明距离的概念,通过求文本之间的汉明距离,来计算文本的相似度。
在信息论中,汉明距离是一个基本的概念,描述两个n长码字x=(x1,x2,...xk,...xn),y=(y1,y2,...yk,...yn)之间的距离如下公式所示:
D ( x , y ) = Σ k = 1 n x k ⊕ y k
其中
Figure BDA00002476542000042
表示模2加运算,xk∈{0,1},yk∈{0,1}。D(x,y)表示两码字在相同位置上不同码符号的数目的总和,它能够反映两码字之间的差异,进而提供码字之间的相似程度的客观依据。
对于文本来说,可以把描述文本的向量看成一个有n位序列的码字,文本的信息就用这些码字表示,使文本与码字建立一一对应关系。比如文本q和d可表示为qh={10011100....1001},dh={10000111...0000}。在这里0或1分别表示相对应的文本信息的状态,0表示文本在这分量位置上的信息是没有的,1表示文本在这一分量位置上的信息是有的,反之也可以类似规定。因此,对于原来的文本集合,它可以一一对应于码字的集合,研究文本集合中的文本相似关系,就用码字之间的汉明距离来表征。q和d这两个码字的汉明距离,可用上面的公式计算,它较好地反映了文本之间的相互关系。对于D(q,d)来说,它们之间的距离介于0与n之间,当文本与查询式用n位码字表示完全不同时,距离值为0,当文本与查询式的码字完全相同时,则它们的距离为n,它定量地描述文本之间的差异程度。定义相似度计算公式如下:
sim ( q , d ) = 1 - ( Σ k = 1 n qh k ⊕ dh k ) / n
其中qhk,dhk分别表示文本p,d对应的码字qh和dh中第k位的分量,要么为1要么为0。对于计算机来说,模2加运算非常方便,可以达到极快的速度。
使用一部分商品的详细介绍生成标准向量,具体过程为:首先把商品的详细介绍分词,然后使用基于杂质能级的特征评价方法为每一个特征项评分,按照特征项的分值排序,取出分值最大的n个作为标准特征向量空间。将所有商品的详细描述进行分词,使用词条形式的向量代替商品的介绍,把词条向量按照标准特征向量空间中的词条进行向量的标准化,向量中的分量使用布尔型数据作为每个特征项的权重,方便使用汉明距离计算文本的相似度,也就是商品的相似度。
当用户在浏览网站中的商品时,可以简单的获得用户当前浏览商品的事务,商品候选集推荐模块根据事务的最后两项可以推荐出一个推荐候选集合,使用基于汉明距离的方法计算推荐候选集合中所有商品与用户当前浏览商品的相似度,此时的商品相似度就可以作为商品的推荐值。取出相似度最大的5个商品作为商品推荐系统的输出数据,给用户展示出来。
与现有技术相比,本发明具有以下有益效果:
1、本发明使用向量化的表示方法并使用相关的自然语言处理技术,加入了语义信息,比传统的协同过滤技术和基于关联规则的技术有统计信息方面的优势。
2、本发明的相似性度量使用TF-IDF方法和汉明距离的方法,可以有效地使用商品的文本描述信息来计算商品之间的相似度。
附图说明
本发明共有附图1张,其中:
图1是本发明的分词及词性标注流程图。
具体实施方式
如图1所示文本相似度计算:确定了特征向量,所有的文本在分词以后,都要使用最终特征集标准化,所有的文本可以用一个向量来描述。传统文本相似度计算方法是利用向量空间模型,根据词频TF以及逆文本频率IDF,赋予该向量各个分量的权值,与欧氏空间的向量一一对应,借用欧氏空间中求向量夹角余弦的方法得到文本q和d之间的相似度的定量表示,用如下三个公式所示:
q={wq1,wq2,…,wqn}
d={wd1,wd2,…,wdn}
sim ( q , d ) = cos ( q , d ) = Σ i = 1 n w qi · w di Σ i = 1 n w qi 2 · Σ i = 1 n w di 2
另外还有广义向量空间模型,隐性语义索引模型和以属性理论为基础的属性重心剖分模型等方法。属性重心剖分模型用属性坐标系描述文本向量与查询式向量,并确定向量之间的匹配基准,计算匹配距离。以上这些方法,它们都不外乎利用欧氏空间,微分几何中单纯形等概念,把文本与查询式描述成空间中的向量,再在向量空间中定义诸如内积等运算,由此来定量地描述文本与查询式之间的相似度。本文使用另一种求文本相似度的方法,它借助编码理论中汉明距离的概念,通过求文本之间的汉明距离,来计算文本的相似度。
在信息论中,汉明距离是一个基本的概念,描述两个n长码字x=(x1,x2,...xk,...xn),y=(y1,y2,...yk,...yn)之间的距离如下公式所示:
D ( x , y ) = Σ k = 1 n x k ⊕ y k
其中
Figure BDA00002476542000062
表示模2加运算,xk∈{0,1},yk∈{0,1}。D(x,y)表示两码字在相同位置上不同码符号的数目的总和,它能够反映两码字之间的差异,进而提供码字之间的相似程度的客观依据。
对于文本来说,可以把描述文本的向量看成一个有n位序列的码字,文本的信息就用这些码字表示,使文本与码字建立一一对应关系。比如文本q和d可表示为qh={10011100....1001},dh={10000111...0000}。在这里0或1分别表示相对应的文本信息的状态,0表示文本在这分量位置上的信息是没有的,1表示文本在这一分量位置上的信息是有的,反之也可以类似规定。因此,对于原来的文本集合,它可以一一对应于码字的集合,研究文本集合中的文本相似关系,就用码字之间的汉明距离来表征。q和d这两个码字的汉明距离,可用上面的公式计算,它较好地反映了文本之间的相互关系。对于D(q,d)来说,它们之间的距离介于0与n之间,当文本与查询式用n位码字表示完全不同时,距离值为0,当文本与查询式的码字完全相同时,则它们的距离为n,它定量地描述文本之间的差异程度。定义相似度计算公式如下:
sim ( q , d ) = 1 - ( Σ k = 1 n qh k ⊕ dh k ) / n
其中qhk,dhk分别表示文本p,d对应的码字qh和dh中第k位的分量,要么为1要么为0。对于计算机来说,模2加运算非常方便,可以达到极快的速度。
使用一部分商品的详细介绍生成标准向量,具体过程为:首先把商品的详细介绍分词,然后使用基于杂质能级的特征评价方法为每一个特征项评分,按照特征项的分值排序,取出分值最大的n个作为标准特征向量空间。将所有商品的详细描述进行分词,使用词条形式的向量代替商品的介绍,把词条向量按照标准特征向量空间中的词条进行向量的标准化,向量中的分量使用布尔型数据作为每个特征项的权重,方便使用汉明距离计算文本的相似度,也就是商品的相似度。
当用户在浏览网站中的商品时,可以简单的获得用户当前浏览商品的事务,商品候选集推荐模块根据事务的最后两项可以推荐出一个推荐候选集合,使用基于汉明距离的方法计算推荐候选集合中所有商品与用户当前浏览商品的相似度,此时的商品相似度就可以作为商品的推荐值。取出相似度最大的5个商品作为商品推荐系统的输出数据,给用户展示出来。

Claims (1)

1.一种文本相似度计算方法,其特征在于:包括以下步骤:
A、文本的表示
商品介绍都是文本格式,但是文本是非结构化数据,未经过处理的文本型数据是无法直接进行相似度计算的,必须将所有的文本表示成能为计算机能够处理的形式;在文本相似度计算领域,文本的表示主要采用向量空间模型;其基本思想是把文章d看作向量空间中的一个n维向量(w1,w2,...,wn),其wi为第i个特征的权重;wi可以是布尔值,用来表示特征t是否出现在文章d中;也可以是TF,来表示t在文章d中的重要程度;现在使用最普遍的还是TF-IDF,是因为它考虑了特征在文章中的分布和文章的长度;本发明使用汉明距离理论来计算文本相似度,所以要使用布尔值作为特征的权重;
要将文章表示为向量空间中的一个向量,就首先要将文章分词;因为词是最小的能够独立活动的有意义的语言成分;但汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词法分析是中文信息处理的基础与关键;因此,自动识别词的边界,将汉字串切分为正确的词串的汉语分词问题无疑是进行中文文本分类的首要问题;汉语自动分词是对汉语文本进行自动分析的第一个步骤;可以这样设想汉语自动分词过程的困难:如果把某个英语文本中的所有空格符去掉,然后让计算机自动恢复文本中原有的空格符,这就是词的识别过程,此过程的主要问题是对大量歧异现象的处理;分词体现了汉语与英语的显著的不同;英语文本是小字符集上的已充分分隔的词串,而汉语文本是自动分词系统需要做的工作;分词系统的输入是连续的字符串,输出是汉语的词串(W1,W2,...,Wn);这里,Wi可以是单词也可以是多词;现有的分词算法可分为三大类:基于字符串匹配的分词,又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个充分大的机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功,表示识别出一个词;基于理解的分词,即通过让计算机模拟人对句子的理解,在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象;基于统计的分词:在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词,字与字相邻共现的频率或概率能够较好的反映成词的可信度;到底哪种分词算法的准确度更高,目前并无定论;
对于任何一个成熟的分词系统来说,不可能单独依靠某一种算法来实现,都需要综合不同的算法;本论文中的分词采用中科院的分词系统ICTCLAS;ICTCLAS系统首先,进行粗分词采用N2最短路径方法将最短路径方法和全切分的有机结合;然后对粗分词的结果按照标准字典进行词性的标注;在进行了NE识别以后,重新分词找出联合概率最大的分词结果,最后对分词结果重新标注词性;中文文本中,能标识文本特性的往往是文本中的实词,而文本中的一些虚词对于标识文本的特性并没有贡献;如果把虚词也作为文本特征,将会带来很大噪音,从而直接降低文本相似度计算的效率和准确率;在提取文本特征时,应首先剔除虚词,只提取文本中的实词作为文本的一级特征;
B、文本相似度计算
确定了特征向量,所有的文本在分词以后,都要使用最终特征集标准化,所有的文本可以用一个向量来描述;传统文本相似度计算方法是利用向量空间模型,根据词频TF以及逆文本频率IDF,赋予该向量各个分量的权值,与欧氏空间的向量一一对应,借用欧氏空间中求向量夹角余弦的方法得到文本q和d之间的相似度的定量表示,用如下三个公式所示:
q={wq1,wq2,…,wqn}
d={wd1,wd2,…,wdn}
sim ( q , d ) = cos ( q , d ) = Σ i = 1 n w qi · w di Σ i = 1 n w qi 2 · Σ i = 1 n w di 2
另外还有广义向量空间模型,隐性语义索引模型和以属性理论为基础的属性重心剖分模型等方法;属性重心剖分模型用属性坐标系描述文本向量与查询式向量,并确定向量之间的匹配基准,计算匹配距离;以上这些方法,它们都不外乎利用欧氏空间,微分几何中单纯形等概念,把文本与查询式描述成空间中的向量,再在向量空间中定义诸如内积等运算,由此来定量地描述文本与查询式之间的相似度;本文使用另一种求文本相似度的方法,它借助编码理论中汉明距离的概念,通过求文本之间的汉明距离,来计算文本的相似度;
在信息论中,汉明距离是一个基本的概念,描述两个n长码字x=(x1,x2,...xk,...xn),y=(y1,y2,...yk,...yn)之间的距离如下公式所示:
D ( x , y ) = Σ k = 1 n x k ⊕ y k
其中
Figure FDA00002476541900032
表示模2加运算,xk∈{0,1},yk∈{0,1};D(x,y)表示两码字在相同位置上不同码符号的数目的总和,它能够反映两码字之间的差异,进而提供码字之间的相似程度的客观依据;
对于文本来说,可以把描述文本的向量看成一个有n位序列的码字,文本的信息就用这些码字表示,使文本与码字建立一一对应关系;比如文本q和d可表示为qh={10011100....1001},dh={10000111...0000};在这里0或1分别表示相对应的文本信息的状态,0表示文本在这分量位置上的信息是没有的,1表示文本在这一分量位置上的信息是有的,反之也可以类似规定;因此,对于原来的文本集合,它可以一一对应于码字的集合,研究文本集合中的文本相似关系,就用码字之间的汉明距离来表征;q和d这两个码字的汉明距离,可用上面的公式计算,它较好地反映了文本之间的相互关系;对于D(q,d)来说,它们之间的距离介于0与n之间,当文本与查询式用n位码字表示完全不同时,距离值为0,当文本与查询式的码字完全相同时,则它们的距离为n,它定量地描述文本之间的差异程度;定义相似度计算公式如下:
sim ( q , d ) = 1 - ( Σ k = 1 n qh k ⊕ dh k ) / n
其中qhk,dhk分别表示文本p,d对应的码字qh和dh中第k位的分量,要么为1要么为0;对于计算机来说,模2加运算非常方便,可以达到极快的速度;
使用一部分商品的详细介绍生成标准向量,具体过程为:首先把商品的详细介绍分词,然后使用基于杂质能级的特征评价方法为每一个特征项评分,按照特征项的分值排序,取出分值最大的n个作为标准特征向量空间;将所有商品的详细描述进行分词,使用词条形式的向量代替商品的介绍,把词条向量按照标准特征向量空间中的词条进行向量的标准化,向量中的分量使用布尔型数据作为每个特征项的权重,方便使用汉明距离计算文本的相似度,也就是商品的相似度;
当用户在浏览网站中的商品时,可以简单的获得用户当前浏览商品的事务,商品候选集推荐模块根据事务的最后两项可以推荐出一个推荐候选集合,使用基于汉明距离的方法计算推荐候选集合中所有商品与用户当前浏览商品的相似度,此时的商品相似度就可以作为商品的推荐值;取出相似度最大的5个商品作为商品推荐系统的输出数据,给用户展示出来。
CN201210491145.7A 2012-11-27 2012-11-27 一种文本相似度计算方法 Pending CN103838789A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210491145.7A CN103838789A (zh) 2012-11-27 2012-11-27 一种文本相似度计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210491145.7A CN103838789A (zh) 2012-11-27 2012-11-27 一种文本相似度计算方法

Publications (1)

Publication Number Publication Date
CN103838789A true CN103838789A (zh) 2014-06-04

Family

ID=50802298

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210491145.7A Pending CN103838789A (zh) 2012-11-27 2012-11-27 一种文本相似度计算方法

Country Status (1)

Country Link
CN (1) CN103838789A (zh)

Cited By (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104123389A (zh) * 2014-08-07 2014-10-29 北京微众文化传媒有限公司 语句匹配方法和装置
CN104239512A (zh) * 2014-09-16 2014-12-24 电子科技大学 一种文本推荐方法
CN104317784A (zh) * 2014-09-30 2015-01-28 苏州大学 一种跨平台用户识别方法和系统
CN104317783A (zh) * 2014-09-16 2015-01-28 北京航空航天大学 一种语义关系密切度的计算方法
CN104679728A (zh) * 2015-02-06 2015-06-03 中国农业大学 一种文本相似度检测方法
CN105095665A (zh) * 2015-08-13 2015-11-25 易保互联医疗信息科技(北京)有限公司 一种中文疾病诊断信息的自然语言处理方法及系统
CN105447053A (zh) * 2014-09-26 2016-03-30 北大方正集团有限公司 计算领域知识点的相关知识点的方法及系统
CN105488023A (zh) * 2015-03-20 2016-04-13 广州爱九游信息技术有限公司 一种文本相似度评估方法及装置
CN105760650A (zh) * 2015-12-28 2016-07-13 辽宁工程技术大学 一种云模型相似度的分析方法
CN106033416A (zh) * 2015-03-09 2016-10-19 阿里巴巴集团控股有限公司 一种字符串处理方法及装置
CN106067302A (zh) * 2016-05-27 2016-11-02 努比亚技术有限公司 降噪装置及方法
CN106446274A (zh) * 2016-10-21 2017-02-22 天津海量信息技术股份有限公司 一种基于内容显著性语句语义分析的内容检索和消重方法
CN106776782A (zh) * 2016-11-21 2017-05-31 北京百度网讯科技有限公司 基于人工智能的语义相似度获取方法及装置
CN106874258A (zh) * 2017-02-16 2017-06-20 西南石油大学 一种基于汉字属性向量表示的文本相似性计算方法及系统
CN107102998A (zh) * 2016-02-22 2017-08-29 阿里巴巴集团控股有限公司 一种字符串距离计算方法和装置
CN107123016A (zh) * 2017-03-22 2017-09-01 重庆允升科技有限公司 一种工业物料商品推荐方法
CN107203570A (zh) * 2016-03-18 2017-09-26 北京京东尚科信息技术有限公司 搜索关键字频度解析方法和装置
CN107229735A (zh) * 2017-06-13 2017-10-03 成都布林特信息技术有限公司 基于自然语言处理的舆情信息分析预警方法
CN107480241A (zh) * 2017-08-10 2017-12-15 北京奇鱼时代科技有限公司 一种基于潜在主题的相似企业推荐方法
CN107729509A (zh) * 2017-10-23 2018-02-23 中国电子科技集团公司第二十八研究所 基于隐性高维分布式特征表示的篇章相似度判定方法
CN107943762A (zh) * 2017-11-24 2018-04-20 四川长虹电器股份有限公司 一种基于es搜索的文本相似度排序方法
CN108038495A (zh) * 2017-12-04 2018-05-15 昆明理工大学 一种残缺汉字识别方法
CN108170650A (zh) * 2016-12-07 2018-06-15 北京京东尚科信息技术有限公司 文本比较方法以及文本比较装置
CN108198007A (zh) * 2018-02-08 2018-06-22 王四春 一种防泄密的跨境电商商务大数据决策与分析系统
CN108269122A (zh) * 2017-12-29 2018-07-10 广东神马搜索科技有限公司 广告的相似度处理方法和装置
CN108304378A (zh) * 2018-01-12 2018-07-20 深圳壹账通智能科技有限公司 文本相似度计算方法、装置、计算机设备和存储介质
CN109002508A (zh) * 2018-07-01 2018-12-14 东莞市华睿电子科技有限公司 一种基于网络爬虫的文本信息爬取方法
CN109213866A (zh) * 2018-09-19 2019-01-15 浙江诺诺网络科技有限公司 一种基于深度学习的税务商品编码分类方法和系统
CN109242543A (zh) * 2018-08-17 2019-01-18 口口相传(北京)网络技术有限公司 引流餐品的推送方法及装置
CN109325509A (zh) * 2017-07-31 2019-02-12 北京国双科技有限公司 相似度确定方法及装置
CN109670161A (zh) * 2017-10-13 2019-04-23 北京京东尚科信息技术有限公司 商品相似度计算方法及装置、存储介质、电子设备
CN109684629A (zh) * 2018-11-26 2019-04-26 东软集团股份有限公司 文本间相似度计算方法、装置、存储介质及电子设备
CN110085210A (zh) * 2019-03-15 2019-08-02 平安科技(深圳)有限公司 交互信息测试方法、装置、计算机设备及存储介质
CN110135463A (zh) * 2019-04-18 2019-08-16 微梦创科网络科技(中国)有限公司 一种商品推送方法及装置
CN110196926A (zh) * 2019-06-10 2019-09-03 北京字节跳动网络技术有限公司 对象处理方法、装置、电子设备及计算机可读存储介质
CN110334324A (zh) * 2019-06-18 2019-10-15 平安普惠企业管理有限公司 一种基于自然语言处理的文档相似度识别方法及相关设备
CN110597980A (zh) * 2019-09-12 2019-12-20 腾讯科技(深圳)有限公司 一种数据处理方法、装置以及计算机可读存储介质
CN110874528A (zh) * 2018-08-10 2020-03-10 珠海格力电器股份有限公司 文本相似度的获取方法及装置
CN110891010A (zh) * 2018-09-05 2020-03-17 百度在线网络技术(北京)有限公司 用于发送信息的方法和装置
CN111126054A (zh) * 2019-12-03 2020-05-08 东软集团股份有限公司 确定相似文本的方法、装置、存储介质及电子设备
CN111144068A (zh) * 2019-11-26 2020-05-12 方正璞华软件(武汉)股份有限公司 一种相似仲裁案件推荐方法及装置
CN111198939A (zh) * 2019-12-27 2020-05-26 北京健康之家科技有限公司 语句相似度的分析方法、装置及计算机设备
CN111373386A (zh) * 2017-11-07 2020-07-03 株式会社Fronteo 相似度指标值计算装置、相似检索装置及相似度指标值计算用程序
CN111753526A (zh) * 2020-06-18 2020-10-09 北京无忧创想信息技术有限公司 一种相似竞品数据分析方法及系统
WO2020248377A1 (zh) * 2019-06-14 2020-12-17 平安科技(深圳)有限公司 信息推送方法、装置、计算机可读存储介质和计算机设备
CN113743077A (zh) * 2020-08-14 2021-12-03 北京京东振世信息技术有限公司 一种确定文本相似度的方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6847966B1 (en) * 2002-04-24 2005-01-25 Engenium Corporation Method and system for optimally searching a document database using a representative semantic space
CN101645082A (zh) * 2009-04-17 2010-02-10 华中科技大学 基于并行编程模式的相似网页去重系统
CN102253971A (zh) * 2011-06-14 2011-11-23 南京信息工程大学 基于快速相似度的PageRank方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6847966B1 (en) * 2002-04-24 2005-01-25 Engenium Corporation Method and system for optimally searching a document database using a representative semantic space
CN101645082A (zh) * 2009-04-17 2010-02-10 华中科技大学 基于并行编程模式的相似网页去重系统
CN102253971A (zh) * 2011-06-14 2011-11-23 南京信息工程大学 基于快速相似度的PageRank方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HUA-PING ZHANG ET AL: "《HHMM-based Chinese lexical analyzer ICTCLAS》", 《SIGHAN "03 PROCEEDINGS OF THE SECOND SIGHAN WORKSHOP ON CHINESE LANGUAGE PROCESSING》 *
张焕炯等: "《基于汉明距离的文本相似度计算》", 《计算机工程与应用》 *

Cited By (72)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104123389A (zh) * 2014-08-07 2014-10-29 北京微众文化传媒有限公司 语句匹配方法和装置
CN104123389B (zh) * 2014-08-07 2017-08-01 北京微众文化传媒有限公司 语句匹配方法和装置
CN104239512A (zh) * 2014-09-16 2014-12-24 电子科技大学 一种文本推荐方法
CN104317783A (zh) * 2014-09-16 2015-01-28 北京航空航天大学 一种语义关系密切度的计算方法
CN104239512B (zh) * 2014-09-16 2017-06-06 电子科技大学 一种文本推荐方法
CN104317783B (zh) * 2014-09-16 2017-09-05 北京航空航天大学 一种语义关系密切度的计算方法
CN105447053A (zh) * 2014-09-26 2016-03-30 北大方正集团有限公司 计算领域知识点的相关知识点的方法及系统
CN104317784A (zh) * 2014-09-30 2015-01-28 苏州大学 一种跨平台用户识别方法和系统
CN104679728B (zh) * 2015-02-06 2018-08-31 中国农业大学 一种文本相似度检测方法
CN104679728A (zh) * 2015-02-06 2015-06-03 中国农业大学 一种文本相似度检测方法
CN106033416A (zh) * 2015-03-09 2016-10-19 阿里巴巴集团控股有限公司 一种字符串处理方法及装置
CN106033416B (zh) * 2015-03-09 2019-12-24 阿里巴巴集团控股有限公司 一种字符串处理方法及装置
CN105488023B (zh) * 2015-03-20 2019-01-11 广州爱九游信息技术有限公司 一种文本相似度评估方法及装置
CN105488023A (zh) * 2015-03-20 2016-04-13 广州爱九游信息技术有限公司 一种文本相似度评估方法及装置
CN105095665A (zh) * 2015-08-13 2015-11-25 易保互联医疗信息科技(北京)有限公司 一种中文疾病诊断信息的自然语言处理方法及系统
CN105095665B (zh) * 2015-08-13 2018-07-06 易保互联医疗信息科技(北京)有限公司 一种中文疾病诊断信息的自然语言处理方法及系统
CN105760650A (zh) * 2015-12-28 2016-07-13 辽宁工程技术大学 一种云模型相似度的分析方法
CN107102998A (zh) * 2016-02-22 2017-08-29 阿里巴巴集团控股有限公司 一种字符串距离计算方法和装置
US11256756B2 (en) 2016-02-22 2022-02-22 Advanced New Technologies Co., Ltd. Character string distance calculation method and device
CN107203570B (zh) * 2016-03-18 2020-02-07 北京京东尚科信息技术有限公司 搜索关键字频度解析方法、装置、电子设备及介质
CN107203570A (zh) * 2016-03-18 2017-09-26 北京京东尚科信息技术有限公司 搜索关键字频度解析方法和装置
CN106067302A (zh) * 2016-05-27 2016-11-02 努比亚技术有限公司 降噪装置及方法
CN106067302B (zh) * 2016-05-27 2019-06-25 努比亚技术有限公司 降噪装置及方法
CN106446274A (zh) * 2016-10-21 2017-02-22 天津海量信息技术股份有限公司 一种基于内容显著性语句语义分析的内容检索和消重方法
CN106776782A (zh) * 2016-11-21 2017-05-31 北京百度网讯科技有限公司 基于人工智能的语义相似度获取方法及装置
CN106776782B (zh) * 2016-11-21 2020-05-22 北京百度网讯科技有限公司 基于人工智能的语义相似度获取方法及装置
CN108170650A (zh) * 2016-12-07 2018-06-15 北京京东尚科信息技术有限公司 文本比较方法以及文本比较装置
CN108170650B (zh) * 2016-12-07 2021-05-25 北京京东尚科信息技术有限公司 文本比较方法以及文本比较装置
CN106874258B (zh) * 2017-02-16 2020-04-07 西南石油大学 一种基于汉字属性向量表示的文本相似性计算方法及系统
CN106874258A (zh) * 2017-02-16 2017-06-20 西南石油大学 一种基于汉字属性向量表示的文本相似性计算方法及系统
CN107123016A (zh) * 2017-03-22 2017-09-01 重庆允升科技有限公司 一种工业物料商品推荐方法
CN107229735A (zh) * 2017-06-13 2017-10-03 成都布林特信息技术有限公司 基于自然语言处理的舆情信息分析预警方法
CN109325509A (zh) * 2017-07-31 2019-02-12 北京国双科技有限公司 相似度确定方法及装置
CN107480241A (zh) * 2017-08-10 2017-12-15 北京奇鱼时代科技有限公司 一种基于潜在主题的相似企业推荐方法
CN109670161A (zh) * 2017-10-13 2019-04-23 北京京东尚科信息技术有限公司 商品相似度计算方法及装置、存储介质、电子设备
CN109670161B (zh) * 2017-10-13 2023-01-31 北京京东尚科信息技术有限公司 商品相似度计算方法及装置、存储介质、电子设备
CN107729509B (zh) * 2017-10-23 2020-07-07 中国电子科技集团公司第二十八研究所 基于隐性高维分布式特征表示的篇章相似度判定方法
CN107729509A (zh) * 2017-10-23 2018-02-23 中国电子科技集团公司第二十八研究所 基于隐性高维分布式特征表示的篇章相似度判定方法
CN111373386A (zh) * 2017-11-07 2020-07-03 株式会社Fronteo 相似度指标值计算装置、相似检索装置及相似度指标值计算用程序
CN107943762A (zh) * 2017-11-24 2018-04-20 四川长虹电器股份有限公司 一种基于es搜索的文本相似度排序方法
CN108038495B (zh) * 2017-12-04 2021-08-20 昆明理工大学 一种残缺汉字识别方法
CN108038495A (zh) * 2017-12-04 2018-05-15 昆明理工大学 一种残缺汉字识别方法
CN108269122A (zh) * 2017-12-29 2018-07-10 广东神马搜索科技有限公司 广告的相似度处理方法和装置
CN108269122B (zh) * 2017-12-29 2021-08-06 阿里巴巴(中国)有限公司 广告的相似度处理方法和装置
CN108304378B (zh) * 2018-01-12 2019-09-24 深圳壹账通智能科技有限公司 文本相似度计算方法、装置、计算机设备和存储介质
CN108304378A (zh) * 2018-01-12 2018-07-20 深圳壹账通智能科技有限公司 文本相似度计算方法、装置、计算机设备和存储介质
CN108198007A (zh) * 2018-02-08 2018-06-22 王四春 一种防泄密的跨境电商商务大数据决策与分析系统
CN109002508B (zh) * 2018-07-01 2021-08-06 上海众引文化传播股份有限公司 一种基于网络爬虫的文本信息爬取方法
CN109002508A (zh) * 2018-07-01 2018-12-14 东莞市华睿电子科技有限公司 一种基于网络爬虫的文本信息爬取方法
CN110874528B (zh) * 2018-08-10 2020-11-10 珠海格力电器股份有限公司 文本相似度的获取方法及装置
CN110874528A (zh) * 2018-08-10 2020-03-10 珠海格力电器股份有限公司 文本相似度的获取方法及装置
CN109242543A (zh) * 2018-08-17 2019-01-18 口口相传(北京)网络技术有限公司 引流餐品的推送方法及装置
CN110891010A (zh) * 2018-09-05 2020-03-17 百度在线网络技术(北京)有限公司 用于发送信息的方法和装置
CN110891010B (zh) * 2018-09-05 2022-09-16 百度在线网络技术(北京)有限公司 用于发送信息的方法和装置
CN109213866A (zh) * 2018-09-19 2019-01-15 浙江诺诺网络科技有限公司 一种基于深度学习的税务商品编码分类方法和系统
CN109684629A (zh) * 2018-11-26 2019-04-26 东软集团股份有限公司 文本间相似度计算方法、装置、存储介质及电子设备
CN109684629B (zh) * 2018-11-26 2022-12-16 东软集团股份有限公司 文本间相似度计算方法、装置、存储介质及电子设备
CN110085210A (zh) * 2019-03-15 2019-08-02 平安科技(深圳)有限公司 交互信息测试方法、装置、计算机设备及存储介质
CN110085210B (zh) * 2019-03-15 2023-10-13 平安科技(深圳)有限公司 交互信息测试方法、装置、计算机设备及存储介质
CN110135463A (zh) * 2019-04-18 2019-08-16 微梦创科网络科技(中国)有限公司 一种商品推送方法及装置
CN110196926A (zh) * 2019-06-10 2019-09-03 北京字节跳动网络技术有限公司 对象处理方法、装置、电子设备及计算机可读存储介质
WO2020248377A1 (zh) * 2019-06-14 2020-12-17 平安科技(深圳)有限公司 信息推送方法、装置、计算机可读存储介质和计算机设备
CN110334324A (zh) * 2019-06-18 2019-10-15 平安普惠企业管理有限公司 一种基于自然语言处理的文档相似度识别方法及相关设备
CN110597980A (zh) * 2019-09-12 2019-12-20 腾讯科技(深圳)有限公司 一种数据处理方法、装置以及计算机可读存储介质
CN111144068A (zh) * 2019-11-26 2020-05-12 方正璞华软件(武汉)股份有限公司 一种相似仲裁案件推荐方法及装置
CN111126054A (zh) * 2019-12-03 2020-05-08 东软集团股份有限公司 确定相似文本的方法、装置、存储介质及电子设备
CN111126054B (zh) * 2019-12-03 2024-03-05 东软集团股份有限公司 确定相似文本的方法、装置、存储介质及电子设备
CN111198939B (zh) * 2019-12-27 2021-11-23 北京健康之家科技有限公司 语句相似度的分析方法、装置及计算机设备
CN111198939A (zh) * 2019-12-27 2020-05-26 北京健康之家科技有限公司 语句相似度的分析方法、装置及计算机设备
CN111753526A (zh) * 2020-06-18 2020-10-09 北京无忧创想信息技术有限公司 一种相似竞品数据分析方法及系统
CN113743077A (zh) * 2020-08-14 2021-12-03 北京京东振世信息技术有限公司 一种确定文本相似度的方法和装置
CN113743077B (zh) * 2020-08-14 2023-09-29 北京京东振世信息技术有限公司 一种确定文本相似度的方法和装置

Similar Documents

Publication Publication Date Title
CN103838789A (zh) 一种文本相似度计算方法
Liu et al. Analyzing changes in hotel customers’ expectations by trip mode
Bafna et al. Feature based summarization of customers’ reviews of online products
CN103049435B (zh) 文本细粒度情感分析方法及装置
US8751218B2 (en) Indexing content at semantic level
CN102831184B (zh) 根据对社会事件的文字描述来预测社会情感的方法及系统
CN106663117B (zh) 构造支持提供探索性建议的图
US20150066711A1 (en) Methods, apparatuses and computer-readable mediums for organizing data relating to a product
El-Fishawy et al. Arabic summarization in twitter social network
CN106201465A (zh) 面向开源社区的软件项目个性化推荐方法
CN108763321A (zh) 一种基于大规模相关实体网络的相关实体推荐方法
CN102663129A (zh) 医疗领域深度问答方法及医学检索系统
Daryani et al. An automated resume screening system using natural language processing and similarity
CN105608166A (zh) 一种标签提取方法及装置
CN110362678A (zh) 一种自动提取中文文本关键词的方法与装置
CN103646099A (zh) 一种基于多层图的论文推荐方法
Zhang et al. Locality reconstruction models for book representation
CN112925901B (zh) 一种辅助在线问卷评估的评估资源推荐方法及其应用
Yin et al. Feature–opinion pair identification of product reviews in Chinese: a domain ontology modeling method
Firmanto et al. Aspect-based sentiment analysis using grammatical rules, word similarity and sentiCircle
Zhang et al. A novel approach to recommender system based on aspect-level sentiment analysis
Soliman et al. Utilizing support vector machines in mining online customer reviews
CN111259661B (zh) 一种基于商品评论的新情感词提取方法
Lahlou et al. A text classification based method for context extraction from online reviews
CN114255067A (zh) 数据定价方法和装置、电子设备、存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20140604

RJ01 Rejection of invention patent application after publication