CN112163145A - 基于编辑距离与余弦夹角的网站检索方法、装置及设备 - Google Patents
基于编辑距离与余弦夹角的网站检索方法、装置及设备 Download PDFInfo
- Publication number
- CN112163145A CN112163145A CN202011073066.5A CN202011073066A CN112163145A CN 112163145 A CN112163145 A CN 112163145A CN 202011073066 A CN202011073066 A CN 202011073066A CN 112163145 A CN112163145 A CN 112163145A
- Authority
- CN
- China
- Prior art keywords
- title
- titles
- similarity
- cluster
- website
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 239000013598 vector Substances 0.000 claims abstract description 51
- 238000004364 calculation method Methods 0.000 claims abstract description 14
- 238000004422 calculation algorithm Methods 0.000 claims description 30
- 238000003064 k means clustering Methods 0.000 claims description 26
- 238000004590 computer program Methods 0.000 claims description 15
- 230000011218 segmentation Effects 0.000 claims description 12
- 238000006073 displacement reaction Methods 0.000 claims description 5
- 230000009193 crawling Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000013604 expression vector Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9532—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Abstract
本申请公开了一种基于编辑距离与余弦夹角的网站检索方法,由于文本向量的余弦夹角计算相对编辑距离计算速度更快,而相对编辑距离衡量文本相似度准确性更高,为了充分利用两者的优势,该方法利用K‑means方法对文本向量聚类,其中K‑means方法使用向量之间的余弦夹角作为衡量相似度的依据;当获取到检索信息之后,先确定检索信息归属的簇,再在该簇内使用编辑距离衡量簇内标题与检索信息之间的相似性,缩小了待计算的范围,提升了网站检索的实时性与准确性。此外,本申请还提供了一种基于编辑距离与余弦夹角的网站检索装置、设备及可读存储介质,其技术效果与上述方法的技术效果相对应。
Description
技术领域
本申请涉及计算机技术领域,特别涉及一种基于编辑距离与余弦夹角的网站检索方法、装置、设备及可读存储介质。
背景技术
随着互联网飞速发展,互联网爬虫技术也日新月异。面对庞大的网站数据,首先有效的管理这些网站数据,才能挖掘出网站数据背后的价值。其中对网站标题近似度计算,实现对网站的近似检索,更是网络大数据管理的关键一步。网站检索不仅要求准确率高,而且对实时性有较高要求。
网站检索中,计算网站标题的相似度是关键步骤。当前主要基于最长公共子序列实现相似度计算。具体的,使用动态规划方法计算两个字符串的公共子序列最长长度,公共子序列越长,表示两个字符串越接近。这种计算方式得到的字符串相似度精确度较高,但是因为是通过使用动态规划方法,所以本质是一种递归的方法,需要将目标网站标题与数据库中所有网站标题两两计算最长公共子序列。因此,时间复杂度高,性能差,不能满足实时查询要求。
可见,如何提升网站检索方案的准确性和实时性,是亟待本领域技术人员解决的问题。
发明内容
本申请的目的是提供一种基于编辑距离与余弦夹角的网站检索方法、装置、设备及可读存储介质,用以解决当前网站检索方案的准确性或实时性较差的问题。其具体方案如下:
第一方面,本申请提供了一种基于编辑距离与余弦夹角的网站检索方法,包括:
以向量表示的余弦夹角作为衡量两个标题之间相似度的依据,预先采用K-means聚类算法对标题集合中的标题进行聚类,得到多个标题簇;
获取当前输入的检索信息;
确定所述检索信息归属的目标标题簇;
基于编辑距离,分别计算所述检索信息与所述目标标题簇中各个标题之间的相似度;
根据所述相似度确定目标标题,并显示所述目标标题对应的网站信息。
优选的,所述以向量表示的余弦夹角作为衡量两个标题之间相似度的依据,预先采用K-means聚类算法对标题集合中的标题进行聚类,得到多个标题簇,包括:
爬取网站标题,得到标题集合;
对所述标题集合中的各个标题进行分词,得到每个标题对应的词序列;根据所述词序列,生成标题的向量表示;
以向量表示的余弦夹角作为衡量两个标题之间相似度的依据,采用K-means聚类算法对所述标题集合中的标题进行聚类,得到多个标题簇。
优选的,所述对所述标题集合中的各个标题进行分词,得到每个标题对应的词序列;根据所述词序列,生成标题的向量表示,包括:
对所述标题集合中的各个标题进行分词,得到每个标题对应的词序列以及所述标题集合对应的词库;根据所述词序列中各个词在所述词库的出现频率,生成标题的向量表示。
优选的,所述采用K-means聚类算法对所述标题集合中的标题进行聚类,包括:
根据k值的最优经验值,采用K-means聚类算法对所述标题集合中的标题进行聚类。
优选的,所述采用K-means聚类算法对所述标题集合中的标题进行聚类,包括:
根据迭代终止条件,采用K-means聚类算法对所述标题集合中的标题进行聚类,所述迭代终止条件为达到最大迭代次数或簇中心的位移小于预设阈值。
优选的,所述确定所述检索信息归属的目标标题簇,包括:
分别计算所述检索信息与各个所述标题簇的簇中心的余弦夹角,确定余弦夹角最小的标题簇,以作为目标标题簇。
优选的,所述根据所述相似度确定目标标题,包括:
确定相似度大于相似度阈值的标题,以作为目标标题;
或者,
确定相似度最大的预设数量的标题,以作为目标标题。
第二方面,本申请提供了一种基于编辑距离与余弦夹角的网站检索装置,包括:
初步聚类模块:用于以向量表示的余弦夹角作为衡量两个标题之间相似度的依据,预先采用K-means聚类算法对标题集合中的标题进行聚类,得到多个标题簇;
检索信息获取模块:用于获取当前输入的检索信息;
归属簇确定模块:用于确定所述检索信息归属的目标标题簇;
相似度计算模块:用于基于编辑距离,分别计算所述检索信息与所述目标标题簇中各个标题之间的相似度;
检索结果输出模块:用于根据所述相似度确定目标标题,并显示所述目标标题对应的网站信息。
第三方面,本申请提供了一种基于编辑距离与余弦夹角的网站检索设备,包括:
存储器:用于存储计算机程序;
处理器:用于执行所述计算机程序,以实现如上所述的基于编辑距离与余弦夹角的网站检索方法。
第四方面,本申请提供了一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时用于实现如上所述的基于编辑距离与余弦夹角的网站检索方法。
本申请所提供的一种基于编辑距离与余弦夹角的网站检索方法,包括:以向量表示的余弦夹角作为衡量两个标题之间相似度的依据,预先采用K-means聚类算法对标题集合中的标题进行聚类,得到多个标题簇;获取当前输入的检索信息;确定检索信息归属的目标标题簇;基于编辑距离,分别计算检索信息与目标标题簇中各个标题之间的相似度;根据相似度确定目标标题,并显示目标标题对应的网站信息。
可见,由于文本向量的余弦夹角计算相对编辑距离计算速度更快,而相对编辑距离衡量文本相似度准确性更高,为了充分利用两者的优势,该方法利用K-means方法对文本向量聚类,其中K-means方法使用向量之间的余弦夹角作为衡量相似度的依据;当获取到检索信息之后,先确定检索信息归属的簇,再在该簇内使用编辑距离衡量簇内标题与检索信息之间的相似性,缩小了待计算的范围,提升了网站检索的实时性与准确性。
此外,本申请还提供了一种基于编辑距离与余弦夹角的网站检索装置、设备及可读存储介质,其技术效果与上述方法的技术效果相对应,这里不再赘述。
附图说明
为了更清楚的说明本申请实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请所提供的一种基于编辑距离与余弦夹角的网站检索方法实施例一的实现流程图;
图2为本申请所提供的一种基于编辑距离与余弦夹角的网站检索方法实施例二的实现流程图;
图3为本申请所提供的一种基于编辑距离与余弦夹角的网站检索装置实施例的功能框图;
图4为本申请所提供的一种基于编辑距离与余弦夹角的网站检索设备实施例的结构示意图。
具体实施方式
本申请的核心是提供一种基于编辑距离与余弦夹角的网站检索方法、装置、设备及可读存储介质,充分利用基于余弦夹角和基于编辑距离的相似度计算方法,使用向量之间的余弦夹角作为衡量相似度的依据,利用K-means方法从而对标题进行聚类;当获取到检索信息之后,先确定检索信息归属的簇,再在该簇内使用编辑距离衡量簇内标题与检索信息之间的相似性,缩小了待计算的范围,提升了网站检索的实时性与准确性。
为了使本技术领域的人员更好地理解本申请方案,下面结合附图和具体实施方式对本申请作进一步的详细说明。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
下面对本申请提供的一种基于编辑距离与余弦夹角的网站检索方法实施例一进行介绍,参见图1,实施例一包括:
S101、以向量表示的余弦夹角作为衡量两个标题之间相似度的依据,预先采用K-means聚类算法对标题集合中的标题进行聚类,得到多个标题簇;
具体的,爬取大量网站标题,得到标题集合;对标题集合中的各个标题进行分词,得到每个标题对应的词序列;根据词序列,生成标题的向量表示;以向量表示的余弦夹角作为衡量两个标题之间相似度的依据,采用K-means聚类算法对标题集合中的标题进行聚类,得到多个标题簇。
其中,在生成标题的向量表示时,可以选用词频向量。对标题集合中的各个标题进行分词,不仅仅可以得到每个标题对应的词序列,还可以得到标题集合对应的词库;然后根据词序列中各个词在词库的出现频率,生成标题的向量表示。
K-means聚类算法的迭代终止条件具体可以设置为:达到最大迭代次数或簇中心的位移小于预设阈值。
此外,作为一种具体的实施方式,可以根据k值的最优经验值,采用K-means聚类算法对标题集合中的标题进行聚类。
S102、获取当前输入的检索信息;
S103、确定检索信息归属的目标标题簇;
具体的,分别确定检索信息与各个标题簇的簇中心的相似度,将相似度最小的标题簇作为目标标题簇。当基于余弦夹角计算相似度时,上述过程具体为:分别计算检索信息与各个标题簇的簇中心的余弦夹角,确定余弦夹角最小的标题簇,以作为目标标题簇。
S104、基于编辑距离,分别计算检索信息与目标标题簇中各个标题之间的相似度;
S105、根据相似度确定目标标题,并显示目标标题对应的网站信息。
具体的,确定相似度大于相似度阈值的标题,以作为目标标题,或者,确定相似度最大的预设数量的标题,以作为目标标题。
本实施例所提供一种基于编辑距离与余弦夹角的网站检索方法,首先对标题进行文本分词,生成词频向量;基于词频向量间的余弦夹角值对全量网站标题库进行K-means聚类,其中K-means聚类的目的是缩小待比较的标题集合范围;后续在获取到检索信息之后,只需要确定检索信息归属的目标标题簇,然后将检索信息与该标题簇中的各个标题基于编辑距离进行相似度计算,最终确定目标标题。因此既能有效利用基于文本向量间余弦夹角计算的实时性,还能满足基于文本编辑距离判断相似度的准确性,最终提升网站检索的准确性和实时性。
下面开始详细介绍本申请提供的一种基于编辑距离与余弦夹角的网站检索方法实施例二,实施例二的实施过程如图2所示,主要包括以下步骤:
S201、收集互联网首页,爬取互联网首页的标题信息。
S202、将网站标题信息全量转化为数学表示向量,这里选择词频向量,具体的转化过程如下:
(1)使用中文分词工具将标题字段分词处理;
(2)去除分词中的停用词,标点符号,特殊符号;
(3)基于步骤(2)得到的分词库,分别将每个标题信息转化为词频向量。
例如网站标题1:中国科学院官方网站&北京,网站标题2:中国科学技术网站,北京。步骤(1)(2)分词后的结果分别是,标题1:中国、科学院、官方、网站、北京;标题2:中国、科学、技术、网站、北京。对应的词频向量分别是:
标题1:中国(1)科学院(1)官方(1)网站(1)北京(1)科学(0)技术(0),
标题2:中国(1)科学院(0)官方(0)网站(1)北京(1)科学(0)技术(1)。
S203、得到了网站标题的词频向量,以词频向量的余弦夹角作为衡量两个向量相似度依据,用K-means聚类算法对相似标题聚合,具体步骤如下:
(1)选择K-means聚合类群大小,根据多次试验调优得到最优k经验值,k=16384。
(2)随机抽取k个文本作为初始聚类簇的中心点。
(3)除了聚类中心点外其余剩余的每个标题向量,与k个中心点计算夹角余弦,夹角余弦公式如下:
由于θ变量表示两个向量之间的夹角,cosθ值越大表示两个向量之间的夹角越小,两个向量也越近似。a表示向量1,b表示向量2,n表示向量维度,xi,yi分别表示向量1与向量2第i维度向量值。选择最大cosθ值的中心点作为该标题向量将被分到的聚类簇中。
(4)同一个聚类簇集合,使用均值更新该聚类簇的中心点,并用变量distance记录新的聚类簇与旧的聚类簇之间的位移距离。
(5)重复步骤(3),直到聚类簇中心位移距离distance小于阈值0.1或者迭代次数达到最大阈值500。
通过k-means算法目的是利用向量计算的低时间复杂度,对全量网站标题预分类,使得近似标题都能保证在同一个聚类簇下。但是使用余弦夹角比较文本相似度有局限性,比如同义词问题,所以需要一个更加准确的衡量算法,在k-means聚类簇集合下再做准确细致计算。因此在余弦夹角的基础上又引入了基于编辑距离判断近似度。
S204、同一个聚类簇下基于编辑距离判断文本标题近似度,算法可以用公式表示:
其中,变量Ai,Bj分别表示两个网站标题从第i索引和第j索引开始的子串,LEV(Ai,Bj))表示字符串Ai,Bj之间的编辑距离,ai,bi分别表示字符串A与字符串B中的第i个字符。从公式可以看出编辑距离计算是一个递归的动态规划算法。具体步骤如下:
(1)网站标题A或B的长度如果是0,则直接返回另一个字符串的长度,即A和B的最少编辑距离。
(2)初始化(n+1)*(m+1)的矩阵d,并让第一行和列的值从0开始增长。
(3)扫描两字符串(n*m级的),如果:Ai=Bj,用temp记录它,为0。否则temp记为1。然后在矩阵d[i,j]赋于d[i-1,j]+1、d[i,j-1]+1、d[i-1,j-1]+temp三者的最小值。
(4)扫描完后,返回矩阵的最后一个值d[n][m]即是字符串A和B之间的最少编辑距离。
显而易见,编辑距离越小,表示两个字符串之间的相似度越高,可以用如下公式计算相似度:
可见,本实施例提供的一种基于编辑距离与余弦夹角的网站检索方法,首先应用计算实时性较高的文本夹角余弦衡量网站标题的相似度,基于K-means聚类算法结果,可以缩小待比较标题集合范围。因为基于文本余弦夹角本身算法的局限性,然后又用基于文本编辑距离衡量相似度提高文本作为补充,提高文本比较准确度。
从而,应用此算法对网站标题近似检索,既能有效提高检索的速度,又能提高检索的准确度。
下面对本申请实施例提供的一种基于编辑距离与余弦夹角的网站检索装置进行介绍,下文描述的一种基于编辑距离与余弦夹角的网站检索装置与上文描述的一种基于编辑距离与余弦夹角的网站检索方法可相互对应参照。
本实施例的基于编辑距离与余弦夹角的网站检索装置,如图3所示,包括:
初步聚类模块301:用于以向量表示的余弦夹角作为衡量两个标题之间相似度的依据,预先采用K-means聚类算法对标题集合中的标题进行聚类,得到多个标题簇;
检索信息获取模块302:用于获取当前输入的检索信息;
归属簇确定模块303:用于确定检索信息归属的目标标题簇;
相似度计算模块304:用于基于编辑距离,分别计算检索信息与目标标题簇中各个标题之间的相似度;
检索结果输出模块305:用于根据相似度确定目标标题,并显示目标标题对应的网站信息。
本实施例的基于编辑距离与余弦夹角的网站检索装置用于实现前述的基于编辑距离与余弦夹角的网站检索方法,因此该装置中的具体实施方式可见前文中的基于编辑距离与余弦夹角的网站检索方法的实施例部分,例如,初步聚类模块301、检索信息获取模块302、归属簇确定模块303、相似度计算模块304、检索结果输出模块305,分别用于实现上述基于编辑距离与余弦夹角的网站检索方法中步骤S101,S102,S103,S104,S105。所以,其具体实施方式可以参照相应的各个部分实施例的描述,在此不再展开介绍。
另外,由于本实施例的基于编辑距离与余弦夹角的网站检索装置用于实现前述的基于编辑距离与余弦夹角的网站检索方法,因此其作用与上述方法的作用相对应,这里不再赘述。
此外,本申请还提供了一种基于编辑距离与余弦夹角的网站检索设备,如图4所示,包括:
存储器100:用于存储计算机程序;
处理器200:用于执行所述计算机程序,以实现如上文所述的基于编辑距离与余弦夹角的网站检索方法。
最后,本申请提供了一种可读存储介质,可读存储介质上存储有计算机程序,计算机程序被处理器执行时用于实现如上文所述的基于编辑距离与余弦夹角的网站检索方法。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本申请所提供的方案进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种基于编辑距离与余弦夹角的网站检索方法,其特征在于,包括:
以向量表示的余弦夹角作为衡量两个标题之间相似度的依据,预先采用K-means聚类算法对标题集合中的标题进行聚类,得到多个标题簇;
获取当前输入的检索信息;
确定所述检索信息归属的目标标题簇;
基于编辑距离,分别计算所述检索信息与所述目标标题簇中各个标题之间的相似度;
根据所述相似度确定目标标题,并显示所述目标标题对应的网站信息。
2.如权利要求1所述的方法,其特征在于,所述以向量表示的余弦夹角作为衡量两个标题之间相似度的依据,预先采用K-means聚类算法对标题集合中的标题进行聚类,得到多个标题簇,包括:
爬取网站标题,得到标题集合;
对所述标题集合中的各个标题进行分词,得到每个标题对应的词序列;根据所述词序列,生成标题的向量表示;
以向量表示的余弦夹角作为衡量两个标题之间相似度的依据,采用K-means聚类算法对所述标题集合中的标题进行聚类,得到多个标题簇。
3.如权利要求2所述的方法,其特征在于,所述对所述标题集合中的各个标题进行分词,得到每个标题对应的词序列;根据所述词序列,生成标题的向量表示,包括:
对所述标题集合中的各个标题进行分词,得到每个标题对应的词序列以及所述标题集合对应的词库;根据所述词序列中各个词在所述词库的出现频率,生成标题的向量表示。
4.如权利要求2所述的方法,其特征在于,所述采用K-means聚类算法对所述标题集合中的标题进行聚类,包括:
根据k值的最优经验值,采用K-means聚类算法对所述标题集合中的标题进行聚类。
5.如权利要求2所述的方法,其特征在于,所述采用K-means聚类算法对所述标题集合中的标题进行聚类,包括:
根据迭代终止条件,采用K-means聚类算法对所述标题集合中的标题进行聚类,所述迭代终止条件为达到最大迭代次数或簇中心的位移小于预设阈值。
6.如权利要求1所述的方法,其特征在于,所述确定所述检索信息归属的目标标题簇,包括:
分别计算所述检索信息与各个所述标题簇的簇中心的余弦夹角,确定余弦夹角最小的标题簇,以作为目标标题簇。
7.如权利要求1-6任意一项所述的方法,其特征在于,所述根据所述相似度确定目标标题,包括:
确定相似度大于相似度阈值的标题,以作为目标标题;
或者,
确定相似度最大的预设数量的标题,以作为目标标题。
8.一种基于编辑距离与余弦夹角的网站检索装置,其特征在于,包括:
初步聚类模块:用于以向量表示的余弦夹角作为衡量两个标题之间相似度的依据,预先采用K-means聚类算法对标题集合中的标题进行聚类,得到多个标题簇;
检索信息获取模块:用于获取当前输入的检索信息;
归属簇确定模块:用于确定所述检索信息归属的目标标题簇;
相似度计算模块:用于基于编辑距离,分别计算所述检索信息与所述目标标题簇中各个标题之间的相似度;
检索结果输出模块:用于根据所述相似度确定目标标题,并显示所述目标标题对应的网站信息。
9.一种基于编辑距离与余弦夹角的网站检索设备,其特征在于,包括:
存储器:用于存储计算机程序;
处理器:用于执行所述计算机程序,以实现如权利要求1-7任意一项所述的基于编辑距离与余弦夹角的网站检索方法。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时用于实现如权利要求1-7任意一项所述的基于编辑距离与余弦夹角的网站检索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011073066.5A CN112163145B (zh) | 2020-10-09 | 2020-10-09 | 基于编辑距离与余弦夹角的网站检索方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011073066.5A CN112163145B (zh) | 2020-10-09 | 2020-10-09 | 基于编辑距离与余弦夹角的网站检索方法、装置及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112163145A true CN112163145A (zh) | 2021-01-01 |
CN112163145B CN112163145B (zh) | 2024-01-30 |
Family
ID=73866443
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011073066.5A Active CN112163145B (zh) | 2020-10-09 | 2020-10-09 | 基于编辑距离与余弦夹角的网站检索方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112163145B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113111209A (zh) * | 2021-04-15 | 2021-07-13 | 广州图匠数据科技有限公司 | 一种针对货架场景大图的重复图片搜索方法及装置 |
CN113342924A (zh) * | 2021-07-05 | 2021-09-03 | 北京读我网络技术有限公司 | 答案检索方法及装置、存储介质及电子设备 |
CN116383334A (zh) * | 2023-06-05 | 2023-07-04 | 长沙丹渥智能科技有限公司 | 研报去重方法、装置、计算机设备及介质 |
CN117251749A (zh) * | 2023-11-17 | 2023-12-19 | 陕西通信规划设计研究院有限公司 | 一种基于增量分析的物联网数据处理方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105824822A (zh) * | 2015-01-05 | 2016-08-03 | 任子行网络技术股份有限公司 | 一种由钓鱼网页聚类定位目标网页的方法 |
CN106557485A (zh) * | 2015-09-25 | 2017-04-05 | 北京国双科技有限公司 | 一种选取文本分类训练集的方法及装置 |
CN107657067A (zh) * | 2017-11-14 | 2018-02-02 | 国网山东省电力公司电力科学研究院 | 一种基于余弦距离的前沿科技信息快速推送方法及系统 |
CN111241275A (zh) * | 2020-01-02 | 2020-06-05 | 厦门快商通科技股份有限公司 | 一种短文本相似度评估方法和装置以及设备 |
CN111680161A (zh) * | 2020-07-07 | 2020-09-18 | 腾讯科技(深圳)有限公司 | 一种文本处理方法、设备以及计算机可读存储介质 |
-
2020
- 2020-10-09 CN CN202011073066.5A patent/CN112163145B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105824822A (zh) * | 2015-01-05 | 2016-08-03 | 任子行网络技术股份有限公司 | 一种由钓鱼网页聚类定位目标网页的方法 |
CN106557485A (zh) * | 2015-09-25 | 2017-04-05 | 北京国双科技有限公司 | 一种选取文本分类训练集的方法及装置 |
CN107657067A (zh) * | 2017-11-14 | 2018-02-02 | 国网山东省电力公司电力科学研究院 | 一种基于余弦距离的前沿科技信息快速推送方法及系统 |
CN111241275A (zh) * | 2020-01-02 | 2020-06-05 | 厦门快商通科技股份有限公司 | 一种短文本相似度评估方法和装置以及设备 |
CN111680161A (zh) * | 2020-07-07 | 2020-09-18 | 腾讯科技(深圳)有限公司 | 一种文本处理方法、设备以及计算机可读存储介质 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113111209A (zh) * | 2021-04-15 | 2021-07-13 | 广州图匠数据科技有限公司 | 一种针对货架场景大图的重复图片搜索方法及装置 |
CN113111209B (zh) * | 2021-04-15 | 2023-10-20 | 广州图匠数据科技有限公司 | 一种针对货架场景大图的重复图片搜索方法及装置 |
CN113342924A (zh) * | 2021-07-05 | 2021-09-03 | 北京读我网络技术有限公司 | 答案检索方法及装置、存储介质及电子设备 |
CN116383334A (zh) * | 2023-06-05 | 2023-07-04 | 长沙丹渥智能科技有限公司 | 研报去重方法、装置、计算机设备及介质 |
CN116383334B (zh) * | 2023-06-05 | 2023-08-08 | 长沙丹渥智能科技有限公司 | 研报去重方法、装置、计算机设备及介质 |
CN117251749A (zh) * | 2023-11-17 | 2023-12-19 | 陕西通信规划设计研究院有限公司 | 一种基于增量分析的物联网数据处理方法 |
CN117251749B (zh) * | 2023-11-17 | 2024-02-27 | 陕西通信规划设计研究院有限公司 | 一种基于增量分析的物联网数据处理方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112163145B (zh) | 2024-01-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112163145A (zh) | 基于编辑距离与余弦夹角的网站检索方法、装置及设备 | |
Naidan et al. | Permutation search methods are efficient, yet faster search is possible | |
KR100903961B1 (ko) | 시그니처 파일을 이용한 고차원 데이터 색인 및 검색방법과 그 시스템 | |
EP2657884B1 (en) | Identifying multimedia objects based on multimedia fingerprint | |
Fu et al. | Privacy-preserving smart similarity search based on simhash over encrypted data in cloud computing | |
Unar et al. | Detected text‐based image retrieval approach for textual images | |
CN108304409B (zh) | 一种基于进位的Sketch数据结构的数据频度估计方法 | |
CN101149739A (zh) | 一种面向互联网的有意义串的挖掘方法和系统 | |
Zhang et al. | A retrieval algorithm of encrypted speech based on short-term cross-correlation and perceptual hashing | |
CN105320764A (zh) | 一种基于增量慢特征的3d模型检索方法及其检索装置 | |
CN106933824B (zh) | 在多个文档中确定与目标文档相似的文档集合的方法和装置 | |
CN114064948A (zh) | 基于广义平均池化策略的哈希图像检索方法及装置 | |
CN109670153B (zh) | 一种相似帖子的确定方法、装置、存储介质及终端 | |
CN108932738B (zh) | 一种基于字典的位片索引压缩方法 | |
Zhang et al. | Content-based encrypted speech retrieval scheme with deep hashing | |
CN111708942B (zh) | 多媒体资源推送方法、装置、服务器及存储介质 | |
CN112765976A (zh) | 文本相似度计算方法、装置、设备及存储介质 | |
Chapuis et al. | Geodabs: Trajectory indexing meets fingerprinting at scale | |
Moia et al. | A comparative analysis about similarity search strategies for digital forensics investigations | |
Mic et al. | Modifying hamming spaces for efficient search | |
CN104978729A (zh) | 一种基于数据感知的图像哈希方法 | |
CN110400578B (zh) | 哈希码的生成及其匹配方法、装置、电子设备和存储介质 | |
CN113515662A (zh) | 一种相似歌曲检索方法、装置、设备以及存储介质 | |
CN111785296B (zh) | 基于重复旋律的音乐分段边界识别方法 | |
CN112100412B (zh) | 图片检索方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |