CN105488023A - 一种文本相似度评估方法及装置 - Google Patents

一种文本相似度评估方法及装置 Download PDF

Info

Publication number
CN105488023A
CN105488023A CN201510125905.6A CN201510125905A CN105488023A CN 105488023 A CN105488023 A CN 105488023A CN 201510125905 A CN201510125905 A CN 201510125905A CN 105488023 A CN105488023 A CN 105488023A
Authority
CN
China
Prior art keywords
words
word
statement element
point
target text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510125905.6A
Other languages
English (en)
Other versions
CN105488023B (zh
Inventor
梁捷
尹兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Guangzhou I9Game Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou I9Game Information Technology Co Ltd filed Critical Guangzhou I9Game Information Technology Co Ltd
Priority to CN201510125905.6A priority Critical patent/CN105488023B/zh
Publication of CN105488023A publication Critical patent/CN105488023A/zh
Application granted granted Critical
Publication of CN105488023B publication Critical patent/CN105488023B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文本相似度评估方法及装置,所述方法包括:将待评估的两个目标文本分别按语句单元进行分词得到分词集合后,从所述分词集合中再筛选有效分词集合;统计所述有效分词集合包含的词分别在两个目标文本中出现的次数,根据所述次数计算所述目标文本的向量余弦值,根据向量余弦值确定所述目标文本的相似度。所述方法在对语句单元进行分词的基础上进一步对语句单元对应的多个分词结果进行最优化筛选,从而筛选出该语句单元对应的一个有效分词集合,从而提高了分词结果的准确性;此外通过计算目标文本的向量余弦值,并根据所述向量余弦值确定目标文本的相似度的评估算法,与逐词比较的评估方法相比,运算速度得到了显著提高。

Description

一种文本相似度评估方法及装置
技术领域
本发明涉及移动通信技术领域,特别是涉及一种文本相似度评估方法及装置。
背景技术
随着通信及网络技术的飞速发展,互联网成为用户发布信息及获取信息的重要平台。在海量的互联网文本信息中,有些文本信息在主题或内容上彼此具有很高的相似性或相关性,导致信息的冗余性很高。因此需要通过相似度评估的方法对这些文本信息进行相似程度评估,进而对其进行去重、归类,以便更准确、高效的管理这些信息资源。
现有的文本相似度的评估方法一般是基于逐词比较的方法,即将待比较的两个文本信息分别切分成词(或称为字符串),再对这两个文本包含的词逐个进行比较,以共同包含的词在总词中所占的比例作为衡量这两个文本的相似程度的标准。
然而,这种方法一方面在对文本分词时准确性较差,另一方面采用逐词比较方法的计算效率也较低。
发明内容
本发明实施例提供了一种文本相似度评估方法及装置,以解决现有的文本相似度评估方法的准确性差和计算效率较低的问题。
为了解决上述技术问题,本发明实施例公开了如下技术方案:
一方面,提供了一种文本相似度评估方法,所述方法包括:
将待评估的两个目标文本分别按语句单元进行分词得到分词集合后,从所述分词集合中再筛选有效分词集合;
统计所述有效分词集合包含的词分别在所述两个目标文本中出现的次数,根据所述次数计算所述目标文本的向量余弦值,根据所述向量余弦值确定所述目标文本的相似度。
可选的,所述将待评估的两个目标文本分别按语句单元进行分词得到分词集合后,从所述分词集合中再筛选有效分词集合包括:
分别获得待评估的两个目标文本包含的语句单元,对所述语句单元进行分词处理,获得所述语句单元对应的至少一个分词集合;
确定所述语句单元对应的分词集合包含的词的类型,其中所述词的类型包括单一词和非单一词,分别统计各类型的词在所述语句单元对应的分词集合中的数量;
根据所述词的类型及数量确定各语句单元对应的有效分词集合。
可选的,所述根据所述词的类型及数量确定各语句单元对应的有效分词集合包括:
如果所述语句单元对应一个分词集合,则所述一个分词集合即为所述语句单元对应的有效分词集合;
如果所述语句单元对应至少两个分词集合,则分别统计所述至少两个分词集合对应的总词数量,所述总词数量为单一词和非单一词的数量之和;
当所述至少两个分词集合对应的总词数量不相等时,从所述至少两个分词集合中选择总词数量最少的分词集合作为所述语句单元对应的有效分词集合;当所述总词数量相等时,从所述至少两个分词集合中选择单一词的数量最少的分词集合为所述语句单元对应的有效分词集合。
可选的,所述对所述语句单元进行分词处理包括:根据正向最大匹配算法或条件随机场CRF算法对所述语句单元进行分词处理。
可选的,所述根据所述次数计算所述两个目标文本的向量余弦值采用如下公式:
Cos _ AB = Σ i = 1 n ( count _ A i × count _ B i ) Σ i = 1 n ( count _ A i ) 2 × Σ i = 1 n ( count _ B i ) 2 ;
其中,Cos_AB为目标文本A和目标文本B的向量余弦值,count_Ai为所述有效分词集合包含的词i在目标文本A中出现的次数,count_Bi为所述有效分词集合包含的词i在目标文本B中出现的次数。
可选的,根据所述向量余弦值确定所述目标文本的相似度包括:
从预设的阈值中确定小于等于所述向量余弦值的最小阈值,将所述最小阈值对应的相似度等级作为所述目标文本的相似度等级。
另一方面,提供了一种文本相似度评估装置,所述装置包括:
筛选单元,用于将待评估的两个目标文本分别按语句单元进行分词得到分词集合后,从所述分词集合中再筛选有效分词集合;
确定单元,用于统计所述有效分词集合包含的词分别在所述两个目标文本中出现的次数,根据所述次数计算所述目标文本的向量余弦值,根据所述向量余弦值确定所述目标文本的相似度。
可选的,所述筛选单元包括:
分词子单元,用于分别获得待评估的两个目标文本包含的语句单元,并对所述语句单元进行分词处理,获得所述语句单元对应的至少一个分词集合;
统计子单元,用于确定所述语句单元对应的分词集合包含的词的类型,所述词的类型包括单一词和非单一词,并分别统计各类型的词在所述语句单元对应的分词集合中的数量;
确定子单元,用于根据所述词的类型及数量确定各语句单元对应的有效分词集合;
可选的,所述确定子单元包括:
判断子单元,用于判断所述语句单元是否对应至少两个集合;
第一确定子单元,用于如果所述语句单元对应一个分词集合,则确定所述一个分词集合即为所述语句单元对应的有效分词集合;
统计子单元,用于如果所述语句单元对应至少两个分词集合,则分别统计所述至少两个分词集合对应的总词数量,所述总词数量为单一词和非单一词的数量之和;
第二确定子单元,用于当所述至少两个分词集合对应的总词数量不相等时,从所述至少两个分词集合中选择总词数量最少的分词集合作为所述语句单元对应的有效分词集合;当所述总词数量相等时,从所述至少两个分词集合中选择单一词的数量最少的分词集合为所述语句单元对应的有效分词集合。
可选的,所述分词子单元具体用于根据正向最大匹配算法或条件随机场CRF算法对所述语句单元进行分词处理。
可选的,所述确定单元具体用于根据如下公式计算所述两个目标文本的向量余弦值:
Cos _ AB = Σ i = 1 n ( count _ A i × count _ B i ) Σ i = 1 n ( count _ A i ) 2 × Σ i = 1 n ( count _ B i ) 2 ;
其中,Cos_AB为目标文本A和目标文本B的向量余弦值,count_Ai为所述有效分词集合包含的词i在目标文本A中出现的次数,count_Bi为所述有效分词集合包含的词i在目标文本B中出现的次数。
可选的,所述确定单元具体用于从预设的阈值中确定小于等于所述向量余弦值的最小阈值,将所述最小阈值对应的相似度等级作为所述目标文本的相似度等级。
上述技术方案提供的文本相似度评估方法及装置的实施例,首先将待评估的两个目标文本分别按语句单元进行分词得到分词集合后,从所述分词集合中再筛选有效分词集合;再统计所述有效分词集合包含的词分别在所述两个目标文本中出现的次数,并根据所述次数计算所述目标文本的向量余弦值,以及根据所述向量余弦值确定所述目标文本的相似度。
所述实施例在对语句单元进行分词的基础上进一步对所述语句单元对应的多个分词结果进行最优化筛选,从而筛选出该语句单元对应的一个有效分词集合,进而提高了分词结果的准确性;此外通过计算目标文本的向量余弦值,并根据所述向量余弦值确定目标文本的相似度的评估算法,与逐词比较的评估方法相比,运算速度得到了显著提高。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明文本相似度评估方法提供的一个实施例的流程示意图;
图2为本发明文本相似度评估方法的另一个实施例的步骤101的流程示意图;
图3为本发明文本相似度评估方法的另一个实施例的步骤102的流程示意图;
图4为本发明文本相似度评估装置提供的一个实施例的结构示意图;
图5为本发明文本相似度评估装置提供的另一个实施例的筛选单元的结构示意图;
图6为本发明文本相似度评估装置提供的另一个实施例的确定子单元的结构示意图。
具体实施方式
首先对本发明文本相似度评估方法提供的实施例进行说明,参见图1,为本发明文本相似度评估方法提供的一个实施例的流程示意图,本实施例包括如下步骤:
步骤101:将待评估的两个目标文本分别按语句单元进行分词得到分词集合后,从所述分词集合中再筛选有效分词集合。
语句单元即一般意义上理解的“句子”,具体可通过文本包含的某些标点符号对文本正文进行断句划分而获得。这些标点符号一般是用于表示停顿或语意转换的标点符号,例如逗号“,”、句号“。”、分号“;”、叹号“!”、省略号“……”等。
现有技术中有很多分词方法,例如正向最大匹配分词法、逆向最大匹配分词法、双向最大匹配分词法、条件随机场CRF分词法(ConditionalRandomField)等,各分词方法各有利弊,具体的原理及特点可参见公开的现有资料。本发明优选CRF分词法或正向最大匹配法分词法。
需要注意的是,在很多情况下,现有的分词方法对语句单元进行分词后,一个语句单元往往对应不止一个分词集合,在这些分词集合中,往往只有一个分词集合才是最符合人们对于该句子的常规认知的,这个分词集合即为有效分词集合,需要将该有效分词集合筛选出来。
步骤102:统计所述有效分词集合包含的词分别在所述两个目标文本中出现的次数,根据所述次数计算所述目标文本的向量余弦值,根据所述向量余弦值确定所述目标文本的相似度。
所述实施例在对语句单元进行分词的基础上进一步对所述语句单元对应的多个分词结果进行最优化筛选,以筛选出该语句单元对应的一个有效分词集合,从而提高了分词结果的准确性;此外通过计算目标文本的向量余弦值,并根据所述向量余弦值确定目标文本的相似度的评估算法,与逐词比较的评估方法相比,运算速度得到了显著提高。
参见图2所示,为本发明文本相似度评估方法的另一个实施例的步骤101的具体流程图,在该实施例中,上述步骤101可具体包含如下子步骤1011至1013:
步骤1011:分别获得待评估的两个目标文本包含的语句单元,对所述语句单元进行分词处理,获得所述语句单元对应的至少一个分词集合。
例如“我爱北京天安门”这个语句单元对应如下两个分词集合:
{“我爱”、“北京”、“天安门”};
{“我”、“爱”、“北京”、“天安门”}。
步骤1012:确定所述语句单元对应的分词集合包含的词的类型,所述词的类型包括单一词和非单一词;分别统计各类型的词在所述语句单元对应的分词集合中的数量。
单一词指的是只包含一个字的词,例如“我”、“爱”等词,非单一词指的是包含两个或两个以上字的词,例如“北京”、“天安门”等词。
步骤1013:根据所述词的类型及数量确定各语句单元对应的有效分词集合。
可选的,在步骤1013中,具体可分别为单一词或非单一词设置对应的优先级,根据两种类型的词对应的优先级及数量进行加权,根据两个分词集合的加权值确定出所述语句单元对应的有效分词集合。
优选的,在步骤1013中也可以根据如下方法确定出所述语句单元对应的有效分词集合:
如果所述语句单元对应一个分词集合,则所述一个分词集合即为所述语句单元对应的有效分词集合;
如果所述语句单元对应至少两个分词集合,则分别统计所述至少两个分词集合对应的总词数量,所述总词数量为单一词和非单一词的数量之和;
如果所述至少两个分词集合对应的总词数量不相等时,从所述至少两个分词集合中选择总词数量最少的分词集合作为所述语句单元对应的有效分词集合;当所述总词数量相等时,从所述至少两个分词集合中选择单一词的数量最少的分词集合为所述语句单元对应的有效分词集合。
仍以上述语句单元“我爱北京天安门”为例介绍上述确定有效分词集合的方法,由于该语句单元对应两个分词集合,因此需统计这两个分词集合对应的总词数量。其中,{“我爱”、“北京”、“天安门”}这个分词集合包含3个非单一词和0个单一词,总词数量为3;{“我”、“爱”、“北京”、“天安门”}这个分词集合包含2个单一词“我”、“爱”,以及2个非单一词“北京”、“天安门”,总词数量为4。
由于这两个分词集合对应的总词数量不相等,则选择总词数量最少的{“我爱”、“北京”、“天安门”}这个分词集合作为有效分词集合。
从主观理解上来分析,总词数量少,即平均每个词包含的字更多,说明构成词的字之间的逻辑关系较紧密,因此分词更准确。在上述实施例中,很显然,“我爱”这种分词结果就比“我”、“爱”这种分词结果更符合人们主观理解的“词”的概念,因此准确性更高。
再以“我们最近的确有点累”这个语句单元为例,其对应如下两个分词集合:
{“我们”、“最近的”、“确”、“有点”、“累”},对应的总词数量为5,其中单一词数量为2,非单一词数量为3;
{“我们”、“最近”、“的确”、“有点”、“累”},对应的总词数量为5,其中单一词数量为1,非单一词数量为4。
这两个分词集合对应的总词数量都是5,则选择单一词最少的分词集合,即{“我们”、“最近”、“的确”、“有点”、“累”}这个分词集合作为有效分词集合。
从主观理解及实际统计中分析可知,单一词有很多为无实际意义的助词,或虽有实际意义,但其多作为联系上下文所必要的连接词。而非单一词多为表达某一特征的名词或形容词,对于文本内容的特征贡献量很显然比单一词的特征贡献量要大,因此,选择单一词较少,即非单一词较多的分词集合作为有效分词集合准确性更高。
在本发明文本相似度评估方法的另一个实施例中,上述步骤102在计算目标文本的余弦相似值时,可首先将两个目标文本中各语句单元对应的有效分词集合进行汇总去重,然后统计出其中的每一个词分别在两个目标文本中出现的次数,之后,具体可根据如下公式计算所述目标文本A和B的向量余弦值:
Cos _ AB = Σ i = 1 n ( count _ A i × count _ B i ) Σ i = 1 n ( count _ A i ) 2 × Σ i = 1 n ( count _ B i ) 2 ;
其中,Cos_AB为目标文本A和目标文本B的向量余弦值,count_Ai为所述有效分词集合包含的词i在目标文本A中出现的次数,count_Bi为所述有效分词集合包含的词i在目标文本B中出现的次数。
假设待评估的两个目标文本A、B分别为“我们最近的确有点累”和“我们最近没有有点累”(实际中待评估的目标文本的语句单元数量通常都较大,这里仅为介绍方法本身来举例说明,因此每个目标文本只包含一个语句单元)。
其中目标文本A的有效分词集合为{“我们”、“最近”、“的确”、“有点”、“累”};
目标文本B的有效分词集合为{“我们”、“最近”、“没有”、“有点”、“累”}。
对上述两个有效分词集合汇总去重后为{“我们”、“最近”、“的确”、“有点”、“累”、“没有”},分别统计其中的每一个词在目标文本A和目标文本B中出现的次数:
目标文本A中各词出现的次数为:
“我们”:1次,“最近”:1次,“的确”:1次,“有点”:1次,“累”:1次,“没有”:0次。
目标文本B中各词出现的次数为:
“我们”:1次,“最近”:1次,“的确”:0次,“有点”:1次,“累”:1次,“没有”:1次。
将上述各词在目标文本A、B中出现的“次数”的值带入上述向量余弦值的计算公式中,可计算出出Cos_AB的值为0.8。
如图3所示为本发明文本相似度评估方法的另一个实施例的步骤102的具体流程图,在该实施例中,上述步骤102可具体包括如下子步骤1021至1023:
步骤1021:预设至少一个阈值,所述阈值大于等于0小于等于1;
步骤1022:为每一个所述阈值设置对应的相似度等级,所述阈值越大,则对应的所述相似度等级越高;
步骤1023:确定小于等于所述向量余弦值的最小阈值,则所述最小阈值对应的相似度等级即为所述目标文本的相似度等级。
例如,设置0、0.5、0.9三个阈值,分别对应不相似、中等相似、非常相似三个相似度等级。
由于上述目标文本A和B的向量余弦值为0.8,小于等于该值的最小阈值为0.5,而最小阈值0.5对应的相似等级为“中等相似”,则可认为该目标文本A和B的相似程度为“中等相似”。
本发明文本相似度评估方法提供的上述实施例在对语句单元进行分词的基础上进一步对所述语句单元对应的多个分词结果进行最优化筛选,根据分词结果中包含的词的类型和数量筛选出该语句单元对应的有效分词集合,从而提高了分词结果的准确性;此外通过计算目标文本的向量余弦值,并根据所述向量余弦值确定目标文本的相似度的评估算法,与逐词比较的评估方法相比,运算速度得到了显著提高。
与文本相似度评估方法提供的实施例相对应,本发明还提供了文本相似度评估装置的实施例。
如图4所示为本发明文本相似度评估装置提供的一个实施例的结构示意图,所述装置包括:
筛选单元401,用于将待评估的两个目标文本分别按语句单元进行分词得到分词集合后,从所述分词集合中再筛选有效分词集合;
确定单元402,用于统计所述有效分词集合包含的词分别在所述两个目标文本中出现的次数,根据所述次数计算所述目标文本的向量余弦值,根据所述向量余弦值确定所述目标文本的相似度。
图5为本发明文本相似度评估装置提供的另一个实施例的筛选单元的结构示意图,可选的,所述筛选单元401包括:
分词子单元4011,用于分别获得待评估的两个目标文本包含的语句单元,并对所述语句单元进行分词处理,获得所述语句单元对应的至少一个分词集合;
统计子单元4012,用于确定所述语句单元对应的分词集合包含的词的类型,所述词的类型包括单一词和非单一词,并分别统计各类型的词在所述语句单元对应的分词集合中的数量;
确定子单元4013,用于根据所述词的类型及数量确定各语句单元对应的有效分词集合。
图6为本发明文本相似度评估装置提供的另一个实施例的确定子单元4013的结构示意图,可选的,所述确定子单元4013包括:
判断子单元40131,用于判断所述语句单元是否对应至少两个集合;
第一确定子单元40132,用于如果所述语句单元对应一个分词集合,则确定所述一个分词集合即为所述语句单元对应的有效分词集合;
统计子单元40133,用于如果所述语句单元对应至少两个分词集合,则分别统计所述至少两个分词集合对应的总词数量,所述总词数量为单一词和非单一词的数量之和;
第二确定子单元40134,用于如果所述至少两个分词集合对应的总词数量不相等时,从所述至少两个分词集合中选择总词数量最少的分词集合作为所述语句单元对应的有效分词集合;当所述总词数量相等时,从所述至少两个分词集合中选择单一词的数量最少的分词集合为所述语句单元对应的有效分词集合。
可选的,所述分词子单元4011具体用于根据正向最大匹配算法或条件随机场CRF算法对所述语句单元进行分词处理。
可选的,所述确定单元402具体用于根据如下公式计算所述两个目标文本的向量余弦值:
Cos _ AB = Σ i = 1 n ( count _ A i × count _ B i ) Σ i = 1 n ( count _ A i ) 2 × Σ i = 1 n ( count _ B i ) 2 ;
其中,Cos_AB为目标文本A和目标文本B的向量余弦值,count_Ai为所述有效分词集合包含的词i在目标文本A中出现的次数,count_Bi为所述有效分词集合包含的词i在目标文本B中出现的次数。
可选的,所述确定单元402还用于从预设的阈值中确定小于等于所述向量余弦值的最小阈值,将所述最小阈值对应的相似度等级作为所述目标文本的相似度等级。
本发明提供的文本相似度评估装置的实施例,技术方案本质与上述文本相似度评估方法的实施例相同,因此未做具体解释描述,相关之处可参见上述文本相似度评估方法的实施例的对应部分。
本发明文本相似度评估装置提供的上述实施例在对语句单元进行分词的基础上进一步对所述语句单元对应的多个分词结果进行最优化筛选,以筛选出该语句单元对应的一个有效分词集合,从而提高了分词结果的准确性;此外通过计算目标文本的向量余弦值,并根据所述向量余弦值确定目标文本的相似度的评估算法,与逐词比较的评估方法相比,运算速度得到了显著提高。
本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件的方式来实现,通用硬件包括通用集成电路、通用CPU、通用存储器、通用元器件等,当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置和系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述的本发明实施方式,并不构成对本发明保护范围的限定。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种文本相似度评估方法,其特征在于,所述方法包括:
将待评估的两个目标文本分别按语句单元进行分词得到分词集合后,从所述分词集合中再筛选有效分词集合;
统计所述有效分词集合包含的词分别在所述两个目标文本中出现的次数,根据所述次数计算所述目标文本的向量余弦值,根据所述向量余弦值确定所述目标文本的相似度。
2.根据权利要求1所述的方法,其特征在于,所述将待评估的两个目标文本分别按语句单元进行分词得到分词集合后,从所述分词集合中再筛选有效分词集合包括:
分别获得待评估的两个目标文本包含的语句单元,对所述语句单元进行分词处理,获得所述语句单元对应的至少一个分词集合;
确定所述语句单元对应的分词集合包含的词的类型,其中所述词的类型包括单一词和非单一词,分别统计各类型的词在所述语句单元对应的分词集合中的数量;
根据所述词的类型及数量确定各语句单元对应的有效分词集合。
3.根据权利要求2所述的方法,其特征在于,所述根据所述词的类型及数量确定各语句单元对应的有效分词集合包括:
如果所述语句单元对应一个分词集合,则所述一个分词集合即为所述语句单元对应的有效分词集合;
如果所述语句单元对应至少两个分词集合,则分别统计所述至少两个分词集合对应的总词数量,所述总词数量为单一词和非单一词的数量之和;
当所述至少两个分词集合对应的总词数量不相等时,从所述至少两个分词集合中选择总词数量最少的分词集合作为所述语句单元对应的有效分词集合;当所述总词数量相等时,从所述至少两个分词集合中选择单一词的数量最少的分词集合为所述语句单元对应的有效分词集合。
4.根据权利要求2或3所述的方法,其特征在于,所述对所述语句单元进行分词处理包括:根据正向最大匹配算法或条件随机场CRF算法对所述语句单元进行分词处理。
5.根据权利要求4所述的方法,其特征在于,所述根据所述次数计算所述两个目标文本的向量余弦值采用如下公式:
Cos _ AB = Σ i = 1 n ( count _ A i × count _ B i ) Σ i = 1 n ( count _ A i ) 2 × Σ i = 1 n ( count _ B i ) 2 ;
其中,Cos_AB为目标文本A和目标文本B的向量余弦值,count_Ai为所述有效分词集合包含的词i在目标文本A中出现的次数,count_Bi为所述有效分词集合包含的词i在目标文本B中出现的次数。
6.根据权利要求4所述的方法,其特征在于,根据所述向量余弦值确定所述目标文本的相似度包括:
从预设的阈值中确定小于等于所述向量余弦值的最小阈值,将所述最小阈值对应的相似度等级作为所述目标文本的相似度等级。
7.一种文本相似度评估装置,其特征在于,所述装置包括:
筛选单元,用于将待评估的两个目标文本分别按语句单元进行分词得到分词集合后,从所述分词集合中再筛选有效分词集合;
确定单元,用于统计所述有效分词集合包含的词分别在所述两个目标文本中出现的次数,根据所述次数计算所述目标文本的向量余弦值,根据所述向量余弦值确定所述目标文本的相似度。
8.根据权利要求7所述的装置,其特征在于,所述筛选单元包括:
分词子单元,用于分别获得待评估的两个目标文本包含的语句单元,并对所述语句单元进行分词处理,获得所述语句单元对应的至少一个分词集合;
统计子单元,用于确定所述语句单元对应的分词集合包含的词的类型,所述词的类型包括单一词和非单一词,并分别统计各类型的词在所述语句单元对应的分词集合中的数量;
确定子单元,用于根据所述词的类型及数量确定各语句单元对应的有效分词集合。
9.根据权利要求8所述的装置,其特征在于,所述确定子单元包括:
判断子单元,用于判断所述语句单元是否对应至少两个分词集合;
第一确定子单元,用于如果所述语句单元对应一个分词集合,则确定所述一个分词集合即为所述语句单元对应的有效分词集合;
统计子单元,用于如果所述语句单元对应至少两个分词集合,则分别统计所述至少两个分词集合对应的总词数量,所述总词数量为单一词和非单一词的数量之和;
第二确定子单元,用于当所述至少两个分词集合对应的总词数量不相等时,从所述至少两个分词集合中选择总词数量最少的分词集合作为所述语句单元对应的有效分词集合;当所述总词数量相等时,从所述至少两个分词集合中选择单一词的数量最少的分词集合为所述语句单元对应的有效分词集合。
10.根据权利要求8或9所述的装置,其特征在于,所述分词子单元具体用于根据正向最大匹配算法或条件随机场CRF算法对所述语句单元进行分词处理。
11.根据权利要求10所述的装置,其特征在于,所述确定单元具体用于根据如下公式计算所述两个目标文本的向量余弦值:
Cos _ AB = Σ i = 1 n ( count _ A i × count _ B i ) Σ i = 1 n ( count _ A i ) 2 × Σ i = 1 n ( count _ B i ) 2 ;
其中,Cos_AB为目标文本A和目标文本B的向量余弦值,count_Ai为所述有效分词集合包含的词i在目标文本A中出现的次数,count_Bi为所述有效分词集合包含的词i在目标文本B中出现的次数。
12.根据权利要求10所述的装置,其特征在于,所述确定单元具体用于从预设的阈值中确定小于等于所述向量余弦值的最小阈值,将所述最小阈值对应的相似度等级作为所述目标文本的相似度等级。
CN201510125905.6A 2015-03-20 2015-03-20 一种文本相似度评估方法及装置 Expired - Fee Related CN105488023B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510125905.6A CN105488023B (zh) 2015-03-20 2015-03-20 一种文本相似度评估方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510125905.6A CN105488023B (zh) 2015-03-20 2015-03-20 一种文本相似度评估方法及装置

Publications (2)

Publication Number Publication Date
CN105488023A true CN105488023A (zh) 2016-04-13
CN105488023B CN105488023B (zh) 2019-01-11

Family

ID=55675007

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510125905.6A Expired - Fee Related CN105488023B (zh) 2015-03-20 2015-03-20 一种文本相似度评估方法及装置

Country Status (1)

Country Link
CN (1) CN105488023B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106469187A (zh) * 2016-08-29 2017-03-01 东软集团股份有限公司 关键词的提取方法及装置
CN106503184A (zh) * 2016-10-24 2017-03-15 海信集团有限公司 确定目标文本所属业务类别的方法及装置
CN107506204A (zh) * 2017-09-30 2017-12-22 福建星瑞格软件有限公司 一种基于余弦定理的代码相似度比较的函数重构方法
CN107665222A (zh) * 2016-07-29 2018-02-06 北京国双科技有限公司 关键词的拓展方法和装置
CN108153732A (zh) * 2017-12-25 2018-06-12 科大讯飞股份有限公司 一种审讯笔录的审查方法及装置
CN108363692A (zh) * 2018-02-13 2018-08-03 成都智库二八六信息技术有限公司 一种句子相似度的计算方法及基于该方法的舆情监督方法
CN109325509A (zh) * 2017-07-31 2019-02-12 北京国双科技有限公司 相似度确定方法及装置
CN109657227A (zh) * 2018-10-08 2019-04-19 平安科技(深圳)有限公司 合同可行性判定方法、设备、存储介质及装置
CN111126928A (zh) * 2018-10-29 2020-05-08 阿里巴巴集团控股有限公司 对发布内容审核的方法和装置
WO2020107835A1 (zh) * 2018-11-26 2020-06-04 平安科技(深圳)有限公司 一种样本数据处理方法及装置
CN113988047A (zh) * 2021-09-26 2022-01-28 北京捷通华声科技股份有限公司 一种语料筛选方法和装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11110395A (ja) * 1997-09-30 1999-04-23 Toshiba Corp 類似文書検索装置および類似文書検索方法
CN1529263A (zh) * 2003-09-18 2004-09-15 北京邮电大学 中文文本自动分词和判别文本抄袭的装置和方法
CN102955774A (zh) * 2012-05-30 2013-03-06 华东师范大学 一种计算中文词语语义相似度的控制方法以及装置
CN103324664A (zh) * 2013-04-27 2013-09-25 国家电网公司 一种基于傅里叶变换的文档相似判别方法
CN103365974A (zh) * 2013-06-28 2013-10-23 百度在线网络技术(北京)有限公司 一种基于相关词主题的语义消歧方法和系统
CN103838789A (zh) * 2012-11-27 2014-06-04 大连灵动科技发展有限公司 一种文本相似度计算方法
CN103955547A (zh) * 2014-05-22 2014-07-30 厦门市美亚柏科信息股份有限公司 发现论坛热帖的方法和系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11110395A (ja) * 1997-09-30 1999-04-23 Toshiba Corp 類似文書検索装置および類似文書検索方法
CN1529263A (zh) * 2003-09-18 2004-09-15 北京邮电大学 中文文本自动分词和判别文本抄袭的装置和方法
CN102955774A (zh) * 2012-05-30 2013-03-06 华东师范大学 一种计算中文词语语义相似度的控制方法以及装置
CN103838789A (zh) * 2012-11-27 2014-06-04 大连灵动科技发展有限公司 一种文本相似度计算方法
CN103324664A (zh) * 2013-04-27 2013-09-25 国家电网公司 一种基于傅里叶变换的文档相似判别方法
CN103365974A (zh) * 2013-06-28 2013-10-23 百度在线网络技术(北京)有限公司 一种基于相关词主题的语义消歧方法和系统
CN103955547A (zh) * 2014-05-22 2014-07-30 厦门市美亚柏科信息股份有限公司 发现论坛热帖的方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HFGANG: "中文分词基础原则及正向最大匹配法、逆向最大匹配法、双向最大匹配法的分析", 《HTTP://BOLG.SINA.COM.CN/S/BLOG_53DACCF401011T74.HTML》 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107665222B (zh) * 2016-07-29 2020-11-06 北京国双科技有限公司 关键词的拓展方法和装置
CN107665222A (zh) * 2016-07-29 2018-02-06 北京国双科技有限公司 关键词的拓展方法和装置
CN106469187A (zh) * 2016-08-29 2017-03-01 东软集团股份有限公司 关键词的提取方法及装置
CN106469187B (zh) * 2016-08-29 2019-12-03 东软集团股份有限公司 关键词的提取方法及装置
CN106503184B (zh) * 2016-10-24 2019-09-20 海信集团有限公司 确定目标文本所属业务类别的方法及装置
CN106503184A (zh) * 2016-10-24 2017-03-15 海信集团有限公司 确定目标文本所属业务类别的方法及装置
CN109325509A (zh) * 2017-07-31 2019-02-12 北京国双科技有限公司 相似度确定方法及装置
CN107506204B (zh) * 2017-09-30 2020-08-25 福建星瑞格软件有限公司 一种基于余弦定理的代码相似度比较的函数重构方法
CN107506204A (zh) * 2017-09-30 2017-12-22 福建星瑞格软件有限公司 一种基于余弦定理的代码相似度比较的函数重构方法
CN108153732A (zh) * 2017-12-25 2018-06-12 科大讯飞股份有限公司 一种审讯笔录的审查方法及装置
CN108153732B (zh) * 2017-12-25 2021-08-03 浙江讯飞智能科技有限公司 一种审讯笔录的审查方法及装置
CN108363692A (zh) * 2018-02-13 2018-08-03 成都智库二八六信息技术有限公司 一种句子相似度的计算方法及基于该方法的舆情监督方法
CN108363692B (zh) * 2018-02-13 2021-04-02 成都智库二八六一信息技术有限公司 一种句子相似度的计算方法及基于该方法的舆情监督方法
CN109657227A (zh) * 2018-10-08 2019-04-19 平安科技(深圳)有限公司 合同可行性判定方法、设备、存储介质及装置
CN111126928A (zh) * 2018-10-29 2020-05-08 阿里巴巴集团控股有限公司 对发布内容审核的方法和装置
CN111126928B (zh) * 2018-10-29 2024-03-22 阿里巴巴集团控股有限公司 对发布内容审核的方法和装置
WO2020107835A1 (zh) * 2018-11-26 2020-06-04 平安科技(深圳)有限公司 一种样本数据处理方法及装置
CN113988047A (zh) * 2021-09-26 2022-01-28 北京捷通华声科技股份有限公司 一种语料筛选方法和装置

Also Published As

Publication number Publication date
CN105488023B (zh) 2019-01-11

Similar Documents

Publication Publication Date Title
CN105488023A (zh) 一种文本相似度评估方法及装置
CN106445998B (zh) 一种基于敏感词的文本内容审核方法及系统
CN102576358B (zh) 单词对取得装置、单词对取得方法及其程序
CN101295381B (zh) 一种垃圾邮件检测方法
CN106599155A (zh) 一种网页分类方法及系统
CN105302779A (zh) 一种文本相似度比对方法及装置
CN102662952A (zh) 一种基于层次的中文文本并行数据挖掘方法
CN105389722A (zh) 恶意订单识别方法及装置
CN104899267A (zh) 一种社交网站账号相似度的综合数据挖掘方法
CN101937436B (zh) 一种文本分类方法及装置
CN103336766A (zh) 短文本垃圾识别以及建模方法和装置
CN104992347A (zh) 一种视频匹配广告的方法及装置
CN103164698A (zh) 指纹库生成方法及装置、待测文本指纹匹配方法及装置
CN108153735B (zh) 一种近义词的获取方法及系统
CN103744889A (zh) 一种用于对问题进行聚类处理的方法与装置
CN113762525A (zh) 一种具有差分隐私保护的联邦学习模型训练方法
CN106649222A (zh) 基于语义分析与多重Simhash的文本近似重复检测方法
CN104978332A (zh) 用户生成内容标签数据生成方法、装置及相关方法和装置
CN106547924A (zh) 文本信息的情感分析方法及装置
CN107679069A (zh) 基于新闻数据及相关评论信息的一种特定群体发现方法
CN104951478A (zh) 信息处理方法和信息处理装置
CN105046270A (zh) 应用分类模型构建方法、应用分类方法及系统
CN102945246A (zh) 网络信息数据的处理方法及装置
CN104731773A (zh) 文本情感分析方法及系统
CN106997340A (zh) 词库的生成以及利用词库的文档分类方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20200526

Address after: 310052 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: Alibaba (China) Co.,Ltd.

Address before: Two, room 902, West 64, 66 Middle Road, Tianhe District, Guangdong, Guangzhou, China 510665

Patentee before: GUANGZHOU UCWEB COMPUTER TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190111

Termination date: 20200320

CF01 Termination of patent right due to non-payment of annual fee