CN105630767B - 一种文本相似性的比较方法以及装置 - Google Patents

一种文本相似性的比较方法以及装置 Download PDF

Info

Publication number
CN105630767B
CN105630767B CN201510974716.6A CN201510974716A CN105630767B CN 105630767 B CN105630767 B CN 105630767B CN 201510974716 A CN201510974716 A CN 201510974716A CN 105630767 B CN105630767 B CN 105630767B
Authority
CN
China
Prior art keywords
text
vector
feature vector
words
comparative approach
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510974716.6A
Other languages
English (en)
Other versions
CN105630767A (zh
Inventor
张伸正
魏少俊
陈培军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201510974716.6A priority Critical patent/CN105630767B/zh
Publication of CN105630767A publication Critical patent/CN105630767A/zh
Application granted granted Critical
Publication of CN105630767B publication Critical patent/CN105630767B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种文本相似性的比较方法以及装置,其中,所述方法包括:提取两个以上文本的初始特征向量;所述初始特征向量中至少一个元素的权重值被赋予最小权重值的倍数值,其他元素的权重值被赋予最小权重值;根据所述倍数在初始特征向量中增加相应元素形成新的特征向量;根据所述新的特征向量,比较所述两个以上文本的相似性。本发明提供的文本相似性的比较方法以及装置,能够提高文本信息表示的准确度,使得相似性的比较结果更符合用户的需要。

Description

一种文本相似性的比较方法以及装置
技术领域
本发明涉及互联网技术领域,尤其涉及一种信息的相似性的比较方法和装置。
背景技术
随着互联网技术的不断发展和日益普及,新闻等文本信息用户所面对的信息量正在以惊人的速度增长,对能够方便地获取自己感兴趣的文本信息的需求越来越迫切。
由于文本信息量急速增加,文本类别越发细化,并具有很强的实时性,往往更新迅速,时效极短,因此对文本进行有效的聚类,以提供给不同的用户或者提供给不同的应用是十分重要的。
现有技术中,首先提取文本的特征向量,再根据不同文本特征向量比较文本的相似性。例如某一文本,提取的特征向量为(马伊俐新片尺度大职场御姐范儿就得这么穿),另一文本提取的特征向量为(欧美风服饰搭配晋级职场御姐范儿),通过比较两个特征向量可以确定两个文本的相似性。
然而,现有技术比较文本相似性时,并不考虑文本特征向量中字词元素的重要性,因此,可能会将在实际上大众不会同时感兴趣的两个文本信息聚类到一起。
但是,现有的最小哈希算法用于对文本信息进行聚类时,并不考虑文本中每一个字词元素的重要性,因此,可能会将在实际上大众不会同时感兴趣的两个文本信息聚类到一起。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决或者减缓上述问题的一种文本相似性的比较方法和装置。
根据本发明的一个方面,提供了一种文本相似性的比较方法,包括:提取两个以上文本的初始特征向量;初始特征向量中至少一个元素的权重值被赋予最小权重值的倍数值,其他元素的权重值被赋予最小权重值;根据倍数在初始特征向量中增加相应元素形成新的特征向量;根据新的特征向量,比较两个以上文本的相似性。
可选地,在根据本发明的实施例的文本相似性的比较方法中,根据新的特征向量,比较两个以上文本的相似性具体为:对新的特征向量进行最小哈希运算,根据运算结果比较两个以上文本的相似性。
可选地,在根据本发明的实施例的文本相似性的比较方法中,根据新的特征向量,比较两个以上文本的相似性具体为:根据新的特征向量之间的内积或夹角的余弦比较所述两个以上文本的相似性。
可选地,在根据本发明的实施例的文本相似性的比较方法中,将文本进行分词处理,进一步进行去无用信息处理后形成初始特征向量。
可选地,在根据本发明的实施例的文本相似性的比较方法中,将文本进行分词处理并去无用信息形成字词序列,根据字词序列中字词出现频率由高到低的顺序排列字词,由前至后取出预设数量的字词形成初始特征向量。
可选地,在根据本发明的实施例的文本相似性的比较方法中,计算初始特征向量中每一个元素的字词频率,字词频率为元素在文本中出现的次数,根据字词频率确定初始特征向量的最小权重值及其对应的元素,最小权重值的倍数权重值及其对应的元素。
可选地,在根据本发明的实施例的文本相似性的比较方法中,计算初始特征向量中每一个元素的文档频率,文档频率为包括了元素的文本数量,逆文档频率为与文档频率呈反比的函数值,根据逆文档频率确定初始特征向量的最小权重值及其对应的元素,最小权重值的倍数权重值及其对应的元素。
可选地,在根据本发明的实施例的文本相似性的比较方法中,计算初始特征向量中每一个元素的字词频率以及逆文档频率,根据计算得到的字词频率以及逆文档频率确定特征向量的最小权重值及其对应的元素,最小权重值的倍数权重值及其对应的元素。
可选地,在根据本发明的实施例的文本相似性的比较方法中,根据初始特征向量中每一个元素在文本中所处的位置确定元素的权重值。
可选地,在根据本发明的实施例的文本相似性的比较方法中,位置包括文本标题,文本摘要,文本正文。
根据本发明的另一个方面,提供了一种文本相似性的比较装置,包括:提取装置,用于提取两个以上文本的初始特征向量;赋值装置,用于将最小权重值的倍数值作为权重值赋予所述初始特征向量中至少一个元素,其他元素的权重值被赋予最小权重值;特征向量变换装置,用于根据所述倍数在初始特征向量中增加相应元素形成新的特征向量;相似性比较装置,用于根据所述新的特征向量,比较所述两个以上文本的相似性。
可选地,在根据本发明的实施例的文本相似性的比较装置中,相似性比较装置,用于对新的特征向量进行最小哈希运算,根据运算结果比较所述两个以上文本的相似性。
可选地,在根据本发明的实施例的文本相似性的比较装置中,相似性比较装置,用于根据新的特征向量之间的内积或夹角的余弦比较两个以上文本的相似性。
可选地,在根据本发明的实施例的文本相似性的比较装置中,提取装置,用于将文本进行分词处理,进一步进行去无用信息处理后形成初始特征向量。
可选地,在根据本发明的实施例的文本相似性的比较装置中,提取装置,用于将文本进行分词处理并去无用信息形成字词序列,根据字词序列中字词出现频率由高到低的顺序排列字词,由前至后取出预设数量的字词形成初始特征向量。
可选地,在根据本发明的实施例的文本相似性的比较装置中,赋值装置,用于计算初始特征向量中每一个元素的字词频率,字词频率为元素在文本中出现的次数,根据字词频率确定初始特征向量的最小权重值及其对应的元素,最小权重值的倍数权重值及其对应的元素。
可选地,在根据本发明的实施例的文本相似性的比较装置中,赋值装置,用于计算初始特征向量中每一个元素的文档频率,文档频率为包括了元素的文本数量,逆文档频率为与文档频率呈反比的函数值,根据逆文档频率确定初始特征向量的最小权重值及其对应的元素,最小权重值的倍数权重值及其对应的元素。
可选地,在根据本发明的实施例的文本相似性的比较装置中,赋值装置,用于计算初始特征向量中每一个元素的字词频率以及逆文档频率,根据计算得到的字词频率以及逆文档频率确定特征向量的最小权重值及其对应的元素,最小权重值的倍数权重值及其对应的元素。
可选地,在根据本发明的实施例的文本相似性的比较装置中,赋值装置,用于根据初始特征向量中每一个元素在文本中所处的位置确定元素的权重值。
可选地,在根据本发明的实施例的文本相似性的比较装置中,位置包括文本标题,文本摘要,文本正文。
本发明的有益效果为:能够提高文本信息表示的准确度,使得相似性的比较结果更符合用户的需要。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示意性示出了根据本发明一个实施例的文本相似性的比较方法的流程图;
图2示意性示出了根据本发明一个实施例的提取文本信息的特征向量的流程图;
图3示意性示出了根据本发明一个实施例的文本相似性的比较装置的框图;
图4示意性示出了根据本发明一个实施例的提取装置的框图;
具体实施例
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明中,聚类是指将物理或抽象对象的集合分成由类似的对象组成的多个类的过程。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。
请参阅图1,其示出了本发明具体实施方式提供的一种文本信息聚类的方法,包括:
步骤110,提取两个以上文本的初始特征向量。
具体地,步骤110可选的包括以下步骤,请参阅图2:
步骤1101,对文本信息进行分词处理。
本具体实施方式可以首先进行分词处理,获得多个字词。经过分词处理后的字词包括了例如“马伊俐”、“新片”、“尺度”等字词,还包括了无用信息。
步骤1102,对分词处理后的字词进行去无用信息处理。
无用信息可以将之分为标点符号,与结构助词虚词等在汉语中无意义的词汇。在本发明具体实施方式中,分词处理后,还可以进一步包括对分词处理后的字词进行去无用信息处理。
步骤1103,选择具有代表性的字词构成新闻的特征向量;
可选的,可以将去无用信息处理后得到的字词作为新闻的特征向量。或者提取去无用信息处理后得到的字词中具有代表性的字词构成新闻的特征向量。
例如,对于一篇新闻报道网页,经过分词以及去无用信息处理后,获得一个字词序列S=(s1,s2,s3......,sN),其中s1、s2、s3等表示经过分词以及去无用信息处理后的字词。
字词序列S中可能会出现相同的字词,因此可对字词序列中的字词进行相关词频统计,再进一步按照字词出现次数由高到低的顺序进行排列,由前至后取出预设数量的字符作为该新闻文本的特征向量。
步骤120,特征向量中至少一个元素的权重值被赋予最小权重值的倍数,其他元素的权重值被赋予最小权重值。
例如,某文本信息的特征向量S为(马伊俐新片尺度大职场御姐范儿就得这么穿),对“马伊俐”的权重赋值0.4,“新片”的权重赋值0.2,其他各元素权重赋值0.1。
其中,其他元素的权重值0.1即为最小权重值,“新片”权重值为2倍的最小权重值,“马伊俐”的权重值为4倍的最小权重值。
在本发明的一实施例中,权重的可以采用以下方法确定:
字词频率TF表示某一字词Ti在某一文档Dj中出现的频率,Ti出现的频率越高,TFi越高,说明这个字词对于整个文档越重要,例如,对于一篇谈论马伊俐的文档Dj,文档里马伊俐出现的频率TFi比较高。
根据特征向量中的每个字词的字词频率,确定特征向量中每一个元素的权重值。
在本发明的某一实施例中,权重的可以采用以下方法确定:
文档频率DF表示包含了某一字词Ti的文档的个数,对于某一字词Ti,包含该字词Ti的文档越多,即DFi越大,Ti用于区分不同的文档的作用越小,属于非焦点词。
逆文档频率IDF,与文档频率DF呈反比关系。例如但不限于,对某一字词而言,可以设定IDFi=log(N/DFi),其中N为文档总数。若某一字词仅仅出现在一篇文献中,即DFi为1,则IDFi为logN,此时该字词对于文档之间的区分作用最大。
根据特征向量中的每个字词的逆文档频率,确定特征向量中每一个元素的权重值。
在本发明的某一实施例中,权重的可以采用以下方法确定:
根据特征向量中的每个字词的字词频率以及逆文档频率,确定特征向量中每一个元素的权重值。例如但不限于,可以将IF与IDF的乘积作为参数,确定特征向量中每一个元素的权重值。
在本发明的一具体实施方式中,权重的可以采用以下方法确定:
字词出现在标题,文本摘要,文本正文等不同的位置,其重要程度不同,对文本的代表作用也是不同的。因此,可以根据特征向量中每一个元素在文本中所处的位置确定元素的权重值,位置可以包括但不限于文本标题,文本摘要,文本正文。
在本发明的某一实施例中,权重的可以采用以下方法确定:
根据字词在文本中的位置,以及字词频率和/或逆文档频率确定特征向量中每一个元素的权重值。
步骤130,根据所述倍数在特征向量中增加相应元素形成新的特征向量。
例如,增加3个“马伊俐”,1个“新片”至原特征向量(马伊俐新片尺度大职场御姐范儿就得这么穿)中,形成新的特征向量(马伊俐马伊俐马伊俐马伊俐新片新片尺度大职场御姐范儿就得这么穿)。
本领域技术人员可知,其他根据倍数在特征向量中增加相应元素形成新的特征向量的方法也均是可以的,例如,增加6个“马伊俐”,2个“新片”至原特征向量;或者增加2个“马伊俐”,2个“新片”至原特征向量等。
步骤140,根据新的特征向量,比较两个以上文本的相似性。
在本发明的某一实施例中,假设文本的特征向量分别为A和B,A与B之间的距离如下式所示:
D=1-|A∩B|/|A∪B| (1)
例如,文本一的特征向量A为(马伊俐新片尺度大职场御姐范儿就得这么穿),文本二的特征向量B为(马伊琍新片尺度大一集亲热数次),特征向量A与特征向量B之间的并集为17,交集为4,因此可以计算得到距离为0.76。
特征向量C为(马伊琍最新新片剧照有范儿),特征向量A与特征向量C之间的交集为3,并集为16,因此可以计算得到距离为0.81。
由此可见,特征向量的距离越大,相似性越小,距离越小,相似性越大。
在本发明的某一实施例中,相似性可以由其他新闻的特征向量与标杆新闻的特征向量的内积或夹角的余弦确定。
在本发明的某一实施例中,若文本A构建的新的特征向量的最小哈希值与文本B构建的新的特征向量的最小哈希值相等,则文本A与文本B相似的文本。
对于特征向量A和B,这两个向量的群落系数J定义为:
J(A,B)=|A∩B|/|A∪B|
在最小哈希算法(MinHash)中,假设向量A=(a1,a2...ai...aN)是一个N维向量,对于向量中每一个元素ai,H(ai)为将ai映射成一个整数的哈希函数,hmin(A)是向量A中的元素经过哈希函数处理后所得的最小哈希值。对于向量A和B,hmin(A)=hmin(B)成立的条件是A∪B中具有最小哈希值的元素也在A∩B。上式成立的前提是这个H是一个良好的哈希函数,具有很好的均匀性,能够把不同元素映射成不同整数。
因此有:Pr(hmin(A)=hmin(B))=J(A,B)。其中Pr表示概率。即向量A最小哈希值与向量B最小哈希值相等的概率等于向量A,B的群落系数。因此,可以将最小哈希值相同的向量作为相似的向量。
在本发明的某一实施例中,选取一哈希函数,hmink(A)表示A特征向量中哈希值最小的k个元素,k≥2。
同理,确定B特征向量中哈希值最小的k个元素。
根据A特征向量中k个元素与B特征向量中k个元素的相似度,例如交集的个数与并集个数的比值,确定A文本与B文本是否属于相似文本。
在本发明的某一实施例中,选取多个哈希函数,例如M个,M≥2。对A的特征向量以及B的特征向量,用M个哈希函数分别求哈希值。对于每一个向量,每个哈希函数对应一个最小哈希值,M个哈希函数对应M个最小哈希值,确定M个最小哈希值对应M个元素。根据A文本的M个元素与B文本的该M个元素的相似度,例如交集的个数与并集个数的比值,确定A文本与B文本是否属于相似文本。
图3示出了本发明实施例提供的文本指纹信息的生成装置的框图。
根据图3可知,文本指纹信息的生成装置包括提取装置210、赋值装置220、特征向量变换装置230、相似性比较装置240。
提取装置210,用于提取两个以上文本的初始特征向量。
图4示意性示出了根据本发明一个实施例的提取装置的框图。如图所示该实施例中,提取装置包括了分词装置2101,无用信息去除装置2102,初始特征向量生成装置2103。
分词装置2101,用于对文本进行分词处理后形成字词序列。
例如,文本信息经过分词处理后的字词包括了例如“马伊俐”、“新片”、“尺度”等字词。
可选的,提取装置还包括无用信息去除装置2102。
无用信息去除装置,用于对分词处理后的字词进行去无用信息处理。无用信息可以将之分为标点符号,与结构助词虚词等在汉语中无意义的词汇。
初始特征向量生成装置2103,用于生成初始特征向量。
可选的,可以将去无用信息处理后得到的字词作为文本的初始特征向量。或者提取去无用信息处理后得到的字词中具有代表性的字词构成新闻的特征向量。
例如,对于一篇新闻报道网页,经过分词以及去无用信息处理后,获得一个字词序列S=(s1,s2,s3......,sN),其中s1、s2、s3等表示经过分词以及去无用信息处理后的字词。
字词序列S中可能会出现相同的字词,因此可对字词序列中的字词进行相关词频统计,再进一步按照字词出现次数由高到低的顺序进行排列,由前至后取出预设数量的字符作为该新闻文本的特征向量。
赋值装置220,用于将最小权重值的倍数值作为权重值赋予初始特征向量中至少一个元素,其他元素的权重值被赋予最小权重值。
例如,某文本信息的特征向量S为(马伊俐新片尺度大职场御姐范儿就得这么穿),对“马伊俐”的权重赋值0.4,“新片”的权重赋值0.2,其他各元素权重赋值0.1。
其中,其他元素的权重值0.1即为最小权重值,“新片”权重值为2倍的最小权重值,“马伊俐”的权重值为4倍的最小权重值。
在本发明的一实施例中,权重的可以采用以下方法确定:
字词频率TF表示某一字词Ti在某一文档Dj中出现的频率,Ti出现的频率越高,TFi越高,说明这个字词对于整个文档越重要,例如,对于一篇谈论马伊俐的文档Dj,文档里马伊俐出现的频率TFi比较高。
根据特征向量中的每个字词的字词频率,确定特征向量中每一个元素的权重值。
在本发明的某一实施例中,权重的可以采用以下方法确定:
文档频率DF表示包含了某一字词Ti的文档的个数,对于某一字词Ti,包含该字词Ti的文档越多,即DFi越大,Ti用于区分不同的文档的作用越小,属于非焦点词。
逆文档频率IDF,与文档频率DF呈反比关系。例如但不限于,对某一字词而言,可以设定IDFi=log(N/DFi),其中N为文档总数。若某一字词仅仅出现在一篇文献中,即DFi为1,则IDFi为logN,此时该字词对于文档之间的区分作用最大。
根据特征向量中的每个字词的逆文档频率,确定特征向量中每一个元素的权重值。
在本发明的某一实施例中,权重的可以采用以下方法确定:
根据特征向量中的每个字词的字词频率以及逆文档频率,确定特征向量中每一个元素的权重值。例如但不限于,可以将IF与IDF的乘积作为参数,确定特征向量中每一个元素的权重值。
在本发明的一具体实施方式中,权重的可以采用以下方法确定:
字词出现在标题,文本摘要,文本正文等不同的位置,其重要程度不同,对文本的代表作用也是不同的。因此,可以根据特征向量中每一个元素在文本中所处的位置确定元素的权重值,位置可以包括但不限于文本标题,文本摘要,文本正文。
在本发明的某一实施例中,权重的可以采用以下方法确定:根据字词在文本中的位置,以及字词频率和/或逆文档频率确定特征向量中每一个元素的权重值。
特征向量变换装置230,用于根据最小权重值的倍数在初始特征向量中增加相应元素形成新的特征向量。
例如,增加3个“马伊俐”,1个“新片”至原特征向量(马伊俐新片尺度大职场御姐范儿就得这么穿)中,形成新的特征向量(马伊俐马伊俐马伊俐马伊俐新片新片尺度大职场御姐范儿就得这么穿)。
本领域技术人员可知,其他根据倍数在特征向量中增加相应元素形成新的特征向量的方法也均是可以的,例如,增加6个“马伊俐”,2个“新片”至原特征向量;或者增加2个“马伊俐”,2个“新片”至原特征向量等。
相似性比较装置240,用于根据所述新的特征向量,比较所述两个以上文本的相似性。
在本发明的某一实施例中,假设文本的特征向量分别为A和B,A与B之间的距离如下式所示:
D=1-|A∩B|/|A∪B| (1)
例如,文本一的特征向量A为(马伊俐新片尺度大职场御姐范儿就得这么穿),文本二的特征向量B为(马伊琍新片尺度大一集亲热数次),特征向量A与特征向量B之间的并集为17,交集为4,因此可以计算得到距离为0.76。
特征向量C为(马伊琍最新新片剧照有范儿),特征向量A与特征向量C之间的交集为3,并集为16,因此可以计算得到距离为0.81。
由此可见,特征向量的距离越大,相似性越小,距离越小,相似性越大。
在本发明的某一实施例中,相似性可以由其他新闻的特征向量与标杆新闻的特征向量的内积或夹角的余弦确定。
在本发明的某一实施例中,若文本A构建的新的特征向量的最小哈希值与文本B构建的新的特征向量的最小哈希值相等,则文本A与文本B相似的文本。
对于特征向量A和B,这两个向量的群落系数J定义为:
J(A,B)=|A∩B|/|A∪B|
在最小哈希算法(MinHash)中,假设向量A=(a1,a2...ai...aN)是一个N维向量,对于向量中每一个元素ai,H(ai)为将ai映射成一个整数的哈希函数,hmin(A)是向量A中的元素经过哈希函数处理后所得的最小哈希值。对于向量A和B,hmin(A)=hmin(B)成立的条件是A∪B中具有最小哈希值的元素也在A∩B。上式成立的前提是这个H是一个良好的哈希函数,具有很好的均匀性,能够把不同元素映射成不同整数。
因此有:Pr(hmin(A)=hmin(B))=J(A,B)。其中Pr表示概率。即向量A最小哈希值与向量B最小哈希值相等的概率等于向量A,B的群落系数。因此,可以将最小哈希值相同的向量作为相似的向量。
在本发明的某一实施例中,选取一哈希函数,hmink(A)表示A特征向量中哈希值最小的k个元素,k≥2。
同理,确定B特征向量中哈希值最小的k个元素。
根据A特征向量中k个元素与B特征向量中k个元素的相似度,例如交集的个数与并集个数的比值,确定A文本与B文本是否属于相似文本。
在本发明的某一实施例中,选取多个哈希函数,例如M个,M≥2。对A的特征向量以及B的特征向量,用M个哈希函数分别求哈希值。对于每一个向量,每个哈希函数对应一个最小哈希值,M个哈希函数对应M个最小哈希值,确定M个最小哈希值对应M个元素。根据A文本的M个元素与B文本的该M个元素的相似度,例如交集的个数与并集个数的比值,确定A文本与B文本是否属于相似文本。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的文本相似性的比较装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
本文中所称的“一个实施例”、“实施例”或者“一个或者多个实施例”意味着,结合实施例描述的特定特征、结构或者特性包括在本发明的至少一个实施例中。此外,请注意,这里“在一个实施例中”的词语例子不一定全指同一个实施例。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
此外,还应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。

Claims (10)

1.一种文本相似性的比较方法,包括:
提取两个以上文本的初始特征向量;
所述初始特征向量中至少一个元素的权重值被赋予最小权重值的倍数值,其他元素的权重值被赋予最小权重值;
根据所述倍数在初始特征向量中增加相应元素形成新的特征向量;
根据所述新的特征向量,比较所述两个以上文本的相似性。
2.根据权利要求1所述的文本相似性的比较方法,其特征在于,根据所述新的特征向量,比较所述两个以上文本的相似性具体为:对所述新的特征向量进行最小哈希运算,根据运算结果比较所述两个以上文本的相似性。
3.根据权利要求1所述的文本相似性的比较方法,其特征在于,根据所述新的特征向量,比较所述两个以上文本的相似性具体为:根据所述新的特征向量之间的内积或夹角的余弦比较所述两个以上文本的相似性。
4.根据权利要求1-3中任一所述的文本相似性的比较方法,其特征在于,将文本进行分词处理,进一步进行去无用信息处理后形成所述初始特征向量。
5.根据权利要求4所述的文本相似性的比较方法,其特征在于,将文本进行分词处理并去无用信息形成字词序列,根据字词序列中字词出现频率由高到低的顺序排列字词,由前至后取出预设数量的字词形成所述初始特征向量。
6.根据权利要求1-3、5中任一所述的文本相似性的比较方法,其特征在于,计算初始特征向量中每一个元素的字词频率,所述字词频率为元素在所述文本中出现的次数,根据所述字词频率确定所述初始特征向量的最小权重值及其对应的元素,最小权重值的倍数权重值及其对应的元素。
7.根据权利要求1-3、5中任一所述的文本相似性的比较方法,其特征在于,计算初始特征向量中每一个元素的文档频率,所述文档频率为包括了所述元素的文本数量,逆文档频率为与所述文档频率呈反比的函数值,根据所述逆文档频率确定所述初始特征向量的最小权重值及其对应的元素,最小权重值的倍数权重值及其对应的元素。
8.根据权利要求1-3、5中任一所述的文本相似性的比较方法,其特征在于,计算初始特征向量中每一个元素的字词频率以及逆文档频率,根据计算得到的所述字词频率以及所述逆文档频率确定特征向量的最小权重值及其对应的元素,最小权重值的倍数权重值及其对应的元素。
9.根据权利要求1-3、5中任一所述的文本相似性的比较方法,其特征在于,根据初始特征向量中每一个元素在文本中所处的位置确定元素的权重值。
10.根据权利要求9所述的文本相似性的比较方法,其特征在于,所述位置包括文本标题,文本摘要,文本正文。
CN201510974716.6A 2015-12-22 2015-12-22 一种文本相似性的比较方法以及装置 Active CN105630767B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510974716.6A CN105630767B (zh) 2015-12-22 2015-12-22 一种文本相似性的比较方法以及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510974716.6A CN105630767B (zh) 2015-12-22 2015-12-22 一种文本相似性的比较方法以及装置

Publications (2)

Publication Number Publication Date
CN105630767A CN105630767A (zh) 2016-06-01
CN105630767B true CN105630767B (zh) 2018-06-15

Family

ID=56045724

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510974716.6A Active CN105630767B (zh) 2015-12-22 2015-12-22 一种文本相似性的比较方法以及装置

Country Status (1)

Country Link
CN (1) CN105630767B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107491425A (zh) * 2017-07-26 2017-12-19 合肥美的智能科技有限公司 确定方法、确定装置、计算机装置和计算机可读存储介质
CN107885705B (zh) * 2017-10-09 2020-12-15 中国科学院信息工程研究所 一种高效可扩展的安全的文档相似性计算方法和装置
CN108536784B (zh) * 2018-03-29 2021-08-24 阿里巴巴(中国)有限公司 评论信息情感分析方法、装置、计算机存储介质和服务器
CN108647981A (zh) * 2018-05-17 2018-10-12 阿里巴巴集团控股有限公司 一种目标对象关联关系确定方法和装置
CN109086313A (zh) * 2018-06-27 2018-12-25 马赫 一种基于逆文本相似度进行试题命制排重方法
CN111159499B (zh) * 2019-12-31 2022-04-29 南方电网调峰调频发电有限公司 一种基于字符串间相似性的电力系统模型搜索排序方法
CN112699676B (zh) * 2020-12-31 2024-04-12 中国农业银行股份有限公司 一种地址相似关系生成方法及装置
US11106703B1 (en) * 2021-01-13 2021-08-31 Bigid Inc Clustering of structured and semi-structured data
CN116484830B (zh) * 2023-06-26 2023-12-26 山东省标准化研究院(Wto/Tbt山东咨询工作站) 基于大数据的互联网广告智能监测系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103886077A (zh) * 2014-03-24 2014-06-25 广东省电信规划设计院有限公司 短文本的聚类方法和系统
CN104102626A (zh) * 2014-07-07 2014-10-15 厦门推特信息科技有限公司 一种用于短文本语义相似度计算的方法
CN104424279A (zh) * 2013-08-30 2015-03-18 腾讯科技(深圳)有限公司 一种文本的相关性计算方法和装置
CN104699763A (zh) * 2015-02-11 2015-06-10 中国科学院新疆理化技术研究所 多特征融合的文本相似性度量系统
CN104834735A (zh) * 2015-05-18 2015-08-12 大连理工大学 一种基于词向量的文档摘要自动提取方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002169834A (ja) * 2000-11-20 2002-06-14 Hewlett Packard Co <Hp> 文書のベクトル解析を行うコンピュータおよび方法
US7395256B2 (en) * 2003-06-20 2008-07-01 Agency For Science, Technology And Research Method and platform for term extraction from large collection of documents

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104424279A (zh) * 2013-08-30 2015-03-18 腾讯科技(深圳)有限公司 一种文本的相关性计算方法和装置
CN103886077A (zh) * 2014-03-24 2014-06-25 广东省电信规划设计院有限公司 短文本的聚类方法和系统
CN104102626A (zh) * 2014-07-07 2014-10-15 厦门推特信息科技有限公司 一种用于短文本语义相似度计算的方法
CN104699763A (zh) * 2015-02-11 2015-06-10 中国科学院新疆理化技术研究所 多特征融合的文本相似性度量系统
CN104834735A (zh) * 2015-05-18 2015-08-12 大连理工大学 一种基于词向量的文档摘要自动提取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
一种结合词项语义信息和TF_IDF方法的文本相似度量方法;黄承慧等;《计算机学报》;20110531;第34卷(第5期);全文 *
结合词义的文本特征词权重计算方法;李明涛等;《计算机应用》;20120501;第32卷(第5期);全文 *

Also Published As

Publication number Publication date
CN105630767A (zh) 2016-06-01

Similar Documents

Publication Publication Date Title
CN105630767B (zh) 一种文本相似性的比较方法以及装置
CN107609121B (zh) 基于LDA和word2vec算法的新闻文本分类方法
CN104573054B (zh) 一种信息推送方法和设备
CN103678702B (zh) 视频去重方法及装置
CN107797982B (zh) 用于识别文本类型的方法、装置和设备
CN102799647B (zh) 网页去重方法和设备
CN111797210A (zh) 基于用户画像的信息推荐方法、装置、设备及存储介质
CN112101437A (zh) 基于图像检测的细粒度分类模型处理方法、及其相关设备
WO2019137185A1 (zh) 一种图片筛选方法及装置、存储介质、计算机设备
CN107818077A (zh) 一种敏感内容识别方法及装置
CN107943895A (zh) 信息推送方法和装置
CN103678460B (zh) 用于识别适于在多语言环境中进行通信的非文本元素的方法和系统
CN108241741A (zh) 一种文本分类方法、服务器及计算机可读存储介质
CN105574030B (zh) 一种信息搜索方法及装置
CN106708940A (zh) 用于处理图片的方法和装置
CN108959236A (zh) 医学文献分类模型训练方法、医学文献分类方法及其装置
CN103106262A (zh) 文档分类、支持向量机模型生成的方法和装置
CN112395390A (zh) 意图识别模型的训练语料生成方法及其相关设备
JP7499946B2 (ja) インテリジェント推奨用のソートモデルトレーニング方法及び装置、インテリジェント推奨方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラム
WO2023065640A1 (zh) 一种模型参数调整方法、装置、电子设备和存储介质
CN103218368A (zh) 一种挖掘热词的方法与装置
CN105589962B (zh) 一种文本指纹信息的生成方法与装置
CN104077320B (zh) 一种用于生成待发布信息的方法和装置
CN103092838B (zh) 一种获取英文词的方法及装置
CN110837553A (zh) 搜索邮件的方法及相关产品

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220719

Address after: Room 801, 8th floor, No. 104, floors 1-19, building 2, yard 6, Jiuxianqiao Road, Chaoyang District, Beijing 100015

Patentee after: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Address before: Room 112, block D, No. 28, Xinjiekou outer street, Xicheng District, Beijing 100088 (Desheng Park)

Patentee before: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Patentee before: Qizhi software (Beijing) Co.,Ltd.

TR01 Transfer of patent right