CN110543622A - 文本相似度检测方法、装置、电子设备及可读存储介质 - Google Patents

文本相似度检测方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN110543622A
CN110543622A CN201910712663.9A CN201910712663A CN110543622A CN 110543622 A CN110543622 A CN 110543622A CN 201910712663 A CN201910712663 A CN 201910712663A CN 110543622 A CN110543622 A CN 110543622A
Authority
CN
China
Prior art keywords
text
content
hash value
index
request
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910712663.9A
Other languages
English (en)
Inventor
王兵
吴金明
廖世超
苏柏坚
王额
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sankuai Online Technology Co Ltd
Original Assignee
Beijing Sankuai Online Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sankuai Online Technology Co Ltd filed Critical Beijing Sankuai Online Technology Co Ltd
Priority to CN201910712663.9A priority Critical patent/CN110543622A/zh
Publication of CN110543622A publication Critical patent/CN110543622A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying

Abstract

本发明公开了一种文本相似度检测方法,包括:将请求内容处理为至少一个文本;对每个所述文本进行哈希编码,得到每个所述文本的哈希值;以所述哈希值作为索引,召回与所述请求内容关联的内容文本;获取所述内容文本与所述请求内容之间的相似度。解决了现有的文本相似度检测准确性以及计算效率欠佳的技术问题。取得了提高文本相似度检测准确性以及计算效率的有益效果。

Description

文本相似度检测方法、装置、电子设备及可读存储介质
技术领域
本发明涉及计算机技术领域,具体涉及一种文本相似度检测方法、装置、电子设备及可读存储介质。
背景技术
随着“大数据”时代的到来。越来越多的社交平台和社交应用程序等凭借开放性和便捷性等优势,已发展成为人们社交和娱乐的主流媒体,是人们了解时事动态,人际交往和发表观点和评论的主要平台。而且在应用这些平台产生的超大规模的文本数据时,往往需要根据各个文本之间的相似度进行分类,那么如何在海量文本中的快速且准确地找出目标文本的相似内容则至关重要。
当前相似内容的召回和相似度的计算都是依赖于关键字提取的准确度。但是,如果提取的关键字过多会增加计算复杂度和存储占用,而如果提取的关键字过少那么相似文本的召回率和计算相似度的准确率就会降低;而且,以关键字为单位建立索引,在海量内容的场景下就可能会出现一个关键字关联上万内容的情况,而在这种情况下计算和比较相似度的效率就会比较低。由此可见,现有的文本相似度检测方法存在准确性以及计算效率欠佳的问题。
发明内容
本发明提供一种文本相似度检测方法、装置、电子设备及可读存储介质,以部分或全部解决现有技术中文本相似度检测过程相关的上述问题。
依据本发明第一方面,提供了一种文本相似度检测方法,包括:
将请求内容处理为至少一个文本;
对每个所述文本进行哈希编码,得到每个所述文本的哈希值;
以所述哈希值作为索引,召回与所述请求内容关联的内容文本;
获取所述内容文本与所述请求内容之间的相似度。
根据本发明的第二方面,提供了一种文本相似度检测装置,包括:
文本处理模块,用于将所述请求内容处理为至少一个文本;
索引构建模块,用于对每个所述文本进行哈希编码,得到每个所述文本的哈希值;
索引召回模块,用于以所述哈希值作为索引,召回与所述请求内容关联的内容文本;
相似度评估模块,用于获取所述内容文本与所述请求内容之间的相似度。
根据本发明的第三方面,提供了一种电子设备,包括:
处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现前述的文本相似度检测方法。
根据本发明的第四方面,提供了一种可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行前述的文本相似度检测方法。
根据本发明的文本相似度检测方法,可以将请求内容处理为至少一个文本;对每个所述文本进行哈希编码,得到每个所述文本的哈希值;以所述哈希值作为索引,召回与所述请求内容关联的内容文本;获取所述内容文本与所述请求内容之间的相似度。解决了现有的文本相似度检测准确性以及计算效率欠佳的技术问题。取得了提高文本相似度检测准确性以及计算效率的有益效果。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明实施例的一种文本相似度检测方法的步骤流程图之一;
图2示出了根据本发明实施例的一种文本相似度检测方法的步骤流程图之二;
图3示出了根据本发明实施例的一种文本相似度检测装置的结构示意图之一;以及
图4示出了根据本发明实施例的一种文本相似度检测装置的结构示意图之二。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
实施例一
详细介绍本发明实施例提供的一种文本相似度检测方法。
参照图1,示出了本发明实施例中一种文本相似度检测方法的步骤流程图。
步骤110,将请求内容处理为至少一个文本。
如前述,在现有的相关技术中,相似内容的召回和相似度的计算都是依赖于关键字提取的准确度。如果提取的关键字过多的话会增加计算复杂度和存储占用,如果提取的关键字过少那么相似文本的召回率和计算相似度的准确率就会降低;而且,以关键字为单位建立索引,在海量内容的场景下就可能会出现一个关键字关联上万的内容,这种情况下计算和比较相似度的计算效率就会比较低。
在本发明实施例中,为了解决上述问题,尤其是在海量文本环境下的相似度检索问题,基于句子进行相似内容召回,进而计算召回内容与请求内容的相似度。具有相同句子的内容要比具有相同关键字的内容要少的多,所以根据句子召回的内容数量要少,计算相似度的效率就会比较高。
而且,由于请求内容中可能是包含一个或多个句子,如果直接将请求内容作为一个整体,并获取该请求内容整体匹配的召回结果,那么如果请求内容中包含多个句子,则会导致召回结果较少,进而导致索引数据量过少。
因此,在本发明实施例中,在获取得到请求内容之后,可以先将请求内容处理为至少一个文本。具体的可以通过任何可用方式将请求内容处理为至少一个文本,对此本发明实施例不加以限定。
例如,可以根据请求内容中包含的标点符号进行断句处理,并将断句后得到的每个分句作为一个文本;或者,也可以在断句处理之前,或者是断句处理之后,去除请求内容或者每个分句中的除请求内容中的停用词、语气助词、特殊符号,等等。
步骤120,对每个所述文本进行哈希编码,得到每个所述文本的哈希值。
此时,如果直接以每个文本作为索引检索召回结果,由于文本中可能包含文字、字母、数字等多种字符类型,而且文本中一般也包含多个字符,使得检索过程较慢。在本发明实施例中,为了提高检索速度,可以先对每个文本进行哈希编码,得到每个文本的哈希值,从而以每个文本的哈希值作为索引,召回与相应文本关联的内容文本。
其中,可以通过任何可用方法对每个文本进行哈希编码,具体可以根据需求进行预先设置,对此本发明实施例不加以限定。
例如,可以直接基于文本中包含的每个字符对应的原始字节数组,构建得到每个文本的编码字节数组,从而对每个文本的编码字节数组进行哈希编码,得到相应文本的哈希值;或者,由于基于文本中包含的每个字符对应的原始字节数组构建得到的编码字节数组数据较长,容易导致哈希编码速度较慢,那么针对每个文本的编码字节数组,则可以按照一定策略提取其中的部分字节,并以提取得到的字节重新构建相应文本的编码字节数组,从而可以对重新构建的编码字节数组进行哈希编码,从而得到相应文本的哈希值。
步骤130,以所述哈希值作为索引,召回与所述请求内容关联的内容文本。
在获取得到每个文本的哈希值之后,则可以每个文本的哈希值作为索引,召回与请求内容关联的内容文本。具体的,可以每个文本的哈希值作为索引,召回与每个相应文本关联的内容文本,作为请求内容关联的内容文本;或者,也可以在以每个文本的哈希值作为索引,召回与每个相应文本关联的内容文本之后,进一步对于每个文本关联的内容文本进行进一步过滤,得到与请求内容关联的内容文本。在本发明实施例中,可以预先根据海量文本建立索引库,在索引库中可以包含哈希值与内容文本之间的对应关系,其中哈希值的获取方式可以与前述的文本的哈希值获取方式一致。
而且,在以所述哈希值作为索引,召回与请求内容包含的每个文本关联的内容文本的过程中,可以获取与相应文本的哈希值完全一致的内容文本,作为与相应文本关联的内容文本;或者可以获取与相应文本的哈希值的匹配度达到预设匹配阈值的内容文本,作为与相应文本关联的内容文本,等等。具体的可以根据需求进行预先设置,对此本发明实施例不加以限定。
步骤140,获取所述内容文本与所述请求内容之间的相似度。
在获取得到与每个文本关联的内容文本之后,则可以认定每个文本关联的内容文本即为与相应的请求内容相似度较高的内容文本,那么则可以获取各个内容文本与请求内容之间的相似度。在本发明实施例中,可以通过任何可用方式获取内容文本与请求内容之间的相似度,具体的可以根据需求进行预先设置,对此本发明实施例不加以限定。
例如,可以计算内容文本与所述请求内容之间的余弦相似度、欧几里得距离、曼哈顿距离、编辑距离等等,作为相应的内容文本与请求内容之间的相似度。
根据本发明的文本相似度检测方法,可以将请求内容处理为至少一个文本;对每个所述文本进行哈希编码,得到每个所述文本的哈希值;以所述哈希值作为索引,召回与所述请求内容关联的内容文本;获取所述内容文本与所述请求内容之间的相似度。取得了提高文本相似度检测准确性以及计算效率的有益效果。
实施例二
详细介绍本发明实施例提供的一种文本相似度检测方法。
参照图2,示出了本发明实施例中一种文本相似度检测方法的步骤流程图。
步骤210,根据各个样本内容的内容标识,以及所述样本内容中包含每个样本句子的哈希值,构建索引库;其中,所述索引库中包括以哈希值-内容标识列表的形式建立的索引数据、以内容标识-哈希值列表的形式建立的倒排索引数据、存储每个所述样本内容对应的内容标识与内容文本的内容数据表。
在本发明实施例中,为了方便基于文本的哈希值进行相关文本的召回,可以预先根据海量的样本内容,构建索引库。具体的可以根据各个样本内容的内容标识,以及各个样本内容中包含每个样本句子的哈希值,构建索引库。而且,为了方便进行正向以及反向检索,在索引库中可以包括以哈希值-内容标识列表的形式建立的索引数据、以内容标识-哈希值列表的形式建立的倒排索引数据、存储每个所述样本内容对应的内容标识与内容文本的内容数据表。
其中,每个样本内容所对应的内容标识可以按照预先设置的方式生成,而且为了使得内容标识能够唯一性地表征相应的样本内容,可以设置不同样本内容对应的内容标识也是互不相同的。内容文本可以理解为样本内容中具体包含的内容文本。
例如,对于样本内容1:今天天气真好,我们去郊游吧!
样本内容2:昨天下雨了,今天天气真好。
假设样本内容1的内容标识为A1,样本内容2的内容标识为A2。在构建索引库的过程中,首先可以去掉各个样本内容中的标点符号和停止词等,并进行分句处理以及并句处理,从而得到各个样本内容中包含的样本句子。以样本内容1为例,假设处理之后得到的样本句子包括“今天天气真好”和“我们去郊游吧”,且两个样本句子的哈希值分别为H1A1、H2A1,对于样本内容2,处理得到的样本句子包括“昨天下雨了”和“今天天气真好”,且两个样本句子的哈希值分别为H1A2、H2A1。
那么在索引库的索引数据中,与哈希值H2A1对应的内容标识列表中可以包括A1、A2,与内容标识A1对应的哈希值列表中可以包括H1A1、H2A1,与内容标识A2对应的哈希值列表中则可以包括H1A2、H2A1。
其中,在构建索引库时,各个样本句子的哈希值的生成方式与后续进行文本召回时对请求内容对应的文本的哈希值的生成方式相同,在此不加以赘述。
另外,在本发明实施例中,也可以只包含索引数据或者是倒排索引数据中的一种,具体的可以根据需求进行预先设置,对此本发明实施例不加以限定。
步骤220,从所述索引库中去除所述请求内容的历史索引数据和历史倒排索引数据。
在本发明实施例中,为了避免对相似度检测造成干扰,对于需要进行相似度计算的请求内容,可以先删除索引库与该请求内容对应的索引数据和倒排索引数据。
步骤230,对所述请求内容进行数据清洗,并将数据清洗后的请求内容处理为至少一个文本,所述数据清洗包括去停止词,去语气助词,去特殊符号中的至少一种。
在实际应用中,请求内容为用户根据相似度检索请求输入的内容,其中可以包含一个或多个句子,以及图片、表情符号等等特殊符号,等等。而且在句子中也可能会包含停止词、语气助词等对请求内容的意义没有实质影响的词汇。因此,在本发明实施例中,为了将请求内容处理为至少一个文本,同时提高处理得到的文本对于请求内容的代表性,可以先对请求内容进行数据清洗,从而清洗掉请求内容中的无意义内容,进而将数据清洗后的请求内容处理为至少一个文本。其中,数据清洗可以包括但不限于去停止词,去语气助词,去特殊符号中的至少一种。
可选地,在本发明实施例中,所述步骤230进一步可以包括:
子步骤231,对经数据清洗后的所述请求内容进行拆句处理,得到至少一个分句文本。
子步骤232,根据每个所述分句文本中包含的字符数,对所述分句文本进行并句处理,得到所述文本。
在本发明实施例中,为了提取得到文本,可以先对请求内容进行拆句处理,得到至少一个分句文本。具体的,可以根据请求内容中包含的标点符号进行拆句处理,得到至少一个分句文本。
例如,假设请求内容为前述的“今天天气真好,我们去郊游吧!”,那么则可以通过拆句处理,得到分句文本“今天天气真好”和“我们去郊游吧”。
进而为了保证各个文本中包含字符数的相对均衡性,可以根据每个分句文本中包含的字符数,对分句文本进行并句处理,得到文本。具体的并句策略可以根据需求进行预先设置,对此本发明实施例不加以限定。
例如,可以设置如果当前分句文本中包含的字符数小于预设数值,则将当前分句文本与在请求内容中在其之后的一个分句文本进行合并,从而得到新的文本;或者设置如果当前分句文本中包含的字符数小于预设数值,则将当前分句文本与在请求内容中在其之前的一个分句文本进行合并,从而得到新的文本;或者设置如果连续两个分句文本的包含的字符数均小于预设数值,则将该两个分句文本进行合并,从而得到新的文本;等等。
而且,在对经数据清洗后的所述请求内容进行拆句处理,得到至少一个分句文本时,可以句子为单位,提取请求内容中包含的每一个句子作为一个句子文本,此时可以通过识别请求内容中的标点符号进行断句,从而得到句子文本。或者,由于请求内容中包含的各个句子中具体包含的字符数是不一致的,那么为了避免提取得到的文本之间的字符数差距较大,在拆分得到句文本子之后,还可以进一步根据每个句子文本中包含的字符数,对句子文本进行并句和/或拆句处理,从而得到请求内容对应的文本,对此本发明实施例不加以限定。
可选地,在本发明实施例中,所述子步骤232进一步可以包括:
子步骤2321,针对每个所述分句文本,获取所述分句文本中包含的字符数量;
子步骤2322,响应于所述分句文本的字符数量小于预设字符阈值,将所述分句文本与前一分句文本进行合并,得到所述文本。
为了对分句文本进行并句处理,首先可以获取每个分句文本中包含的字符数量,响应于当前分句文本的字符数量小于预设字符阈值,则可以将相应分句文本与其前一分句文本进行合并,得到新的分句文本,当然如果当前得到的分句文本中的字符数量仍然小于预设字符阈值,那么则可以进一步将当前并句得到的分句文本与其前一分句文本进行合并,直至合并得到的分句文本中的字符数量不小于预设字符阈值,则可以将合并得到的分句文本作为文本。而如果当前分句文本的字符数量不小于预设字符阈值,则可以直接将相应的分句文本作为一个文本。
而且,在并句的过程中,各个分句文本内部字符的排序并不会发生改变,而是将前一分句文本的末端字符与后一分句文本的首端字符进行连接,拼接为一个分句文本。
其中的预设字符阈值可以根据需求进行预先设置,对此本发明实施例不加以限定。例如,可以设置预设字符阈值为10,等等。
例如,对于前述的样本内容1:今天天气真好,我们去郊游吧!经拆句处理后可以得到以下分句文本:
1.今天天气真好
2.我们去郊游吧
假设预设字符阈值为5,则上述两个分句文本都是有效的文本,无需进行合并;而如果预设字符阈值为10,则可以将上述两个分句文本合并为“今天天气真好我们去郊游吧”作为一个文本。
步骤240,根据所述文本中每个字符对应的原始字节数组,获取所述文本的编码字节数组。
在实际应用中,不同字符都对应有相应的原始字节数组的表示方式,因此在本发明实施例中,为了方便对文本进行哈希编码,可以根据文本中每个字符对应的原始字节数组,获取相应文本的编码字节数组。
具体的,可以将文本中每个字符替换为相应字符对应的原始字节数组并将各个原始字节数组进行合并,从而得到相应文本的编码字节数组;或者,也可以按照预设规则提取每个字符对应的原始字节数组中的部分字节,并通过提取到的字节替换文本中的相应字符,从而得到相应文本的编码字节数组;或者,也可以对每个字符对应的原始字节数组进行预设运算之后,通过运算后得到的字节数组替换文本中的相应字符,从而得到相应文本的编码字节数组;或者,在将文本中每个字符替换为相应字符对应的原始字节数组并将各个原始字节数组进行合并之后,可以进一步对合并得到的字节数组进行进一步筛选和/或运算,从而得到相应文本的编码字节数组;等等。
可选地,在本发明实施例中,所述步骤240进一步可以包括:
子步骤241,根据所述文本对应的原始字节数组,通过SHA-256算法获取所述文本的32维字节数组。
子步骤242,将所述32维字节数组平均拆分为4个子数组。
子步骤243,针对各个所述子数组进行逻辑运算,得到所述文本的编码字节数组。
在本发明实施例中,在预先设置哈希编码算法时,可以设置仅支持对8维字节数组进行哈希编码,那么此时则需要保证每个文本对应的编码字节数组为8维字节数组,而且有需要尽可能综合考虑文本中每个字符的原始字节数组。因此,在本发明实施例中,可以根据每个文本对应的原始字节数组,通过SHA-256算法获取相应文本的32维字节数组,进而将32维字节数组平均拆分为4个子数组,最后针对各个子数组进行逻辑运算,从而得到相应文本的编码字节数组,此时得到的编码字节数组即为8维字节数组。
其中,对于任意长度的数值,经过SHA-256算法都会产生一个256bit(比特)长的哈希值,可以称作消息摘要,这个摘要相当于是个长度为32个字节的数组。因此,在本发明实施例中,可以将每个文本对应的原始字节数组进行拼接,得到组合后的字节数组,进而通过SHA-256算法针对组合后的字节数组产生一个32维字节数组。
而且,对各个子数组进行的逻辑运算可以包括逻辑与、逻辑或、逻辑非,等等任何可用的逻辑运算。而且4个子数组中每两个子数组之间的逻辑运算可以相同,也可以设置为不同,具体的可以根据需求进行预先设置,对此本发明实施例不加以限定。
例如,假设将32维字节数组平均拆分为4个子数组后得到的子数组B1、B2、B3和B4,那么在针对各个子数组进行逻辑运算时,假设设置的逻辑运算符为“与”,那么各个子数组进行的逻辑运算即可以为B1&B2&B3&B4。
另外,在本发明实施例中,如果预先设置哈希编码算法时,设置仅支持对N维字节数组进行哈希编码,那么相应地可以通过预设方式根据文本中每个字符对应的原始字节数组,获取相应文本的N维编码字节数组。
例如,假设N取值为16,那么在获取16维编码字节数组时,可以根据所述文本对应的原始字节数组,通过SHA-256算法获取所述文本的32维字节数组,将所述32维字节数组平均拆分为2个子数组,进而针对各个子数组进行逻辑运算,得到相应文本的16维编码字节数组,等等。
步骤250,通过预设的哈希编码算法获取所述编码字节数组的哈希值,作为所述文本的哈希值。
在获取得到每个文本的编码字节数组之后,进而则可以通过预设的哈希编码算法获取编码字节数组的哈希值,作为相应文本的哈希值。其中的哈希编码算法可以根据需求进行预先设置,对此本发明实施例不加以限定。
步骤260,以所述哈希值作为索引,根据所述索引库中的所述索引数据,召回与每个所述文本关联的第一内容文本。
步骤270,根据所述索引库中的所述倒排索引数据,获取每个所述第一内容文本对应的第一哈希值列表。
步骤280,根据所述请求内容所包含的每个所述文本的哈希值,获取所述请求内容对应的第二哈希值列表。
步骤290,根据所述第一哈希值列表和所述第二哈希值列表,从所述第一内容文本中获取与所述请求内容关联的内容文本。
在本发明实施例中,为了提高召回的与请求内容关联的内容文本的准确性,在获取与请求内容管理的内容文本时,可以先基于索引库获取与请求内容所包含的每个文本关联的内容文本,也即第一内容文本之后,可以进一步基于倒排索引数据,从第一内容文本中进行进一步筛选,并将筛选得到的第一请求内容作为与请求内容关联的内容文本。具体的筛选原则可以根据需求进行预先设置,对此本发明实施例不加以限定。例如,可以获取与请求内容关联度最高的P个第一内容文本作为最终的用以计算与请求内容相似度的内容文本。
具体的,可以请求内容所包含的每个文本的哈希值作为索引,根据索引库中的所述索引数据,召回与每个文本关联的第一内容文本,进一步根据索引库中的倒排索引数据,获取每个第一内容文本对应的第一哈希值列表,并且根据请求内容所包含的每个文本的哈希值,获取请求内容对应的第二哈希值列表,然后根据第一哈希值列表和第二哈希值列表,从第一内容文本中获取与请求内容关联的内容文本。
例如,对于前述的请求内容处理得到的文本text1的哈希值为hash1,文本text2的哈希值为hc11,文本text3的哈希值为hq2,而在索引库的索引数据中,与hash1对应的内容标识列表包括标识1、标识2,与hc11对应的内容标识列表包括标识1,且在索引库中不存在与哈希值hq2对应的标识列表。而在倒排索引数据中,与标识1对应的哈希值列表为[hash1,hc11,hc12,hc13],与标识2对应的哈希值列表为[hash1,hc21,hc22,hc23],而请求内容中所包含的全部文本的哈希值列表为[hash1,hc11,hq2],且标识1对应于样本内容1,标识2对应于样本内容2。
那么此时则可以根据请求内容的哈希列表,以及与请求内容包含的各个文本所关联的各个第一样本内容所对应的哈希列表之间的相似度,筛选得到与请求内容的哈希值列表相似度最高的P个第一样本内容作为最终与请求内容关联的内容文本;或者是可以获取与请求内容的哈希值列表相似度最高的P个第一样本内容所对应的内容文本作为最终与请求内容关联的内容文本,对此本发明实施例不加以限定。
例如,对于上述的各个样本内容,如果P的取值为1,可以判定样本内容1为与请求内容关联的内容文本。
可选地,在本发明实施例中,所述步骤260进一步可以包括:
子步骤261,以所述哈希值作为索引,根据所述索引库中的所述索引数据,获取与每个所述文本具有相同哈希值的目标内容标识。
子步骤262,根据所述目标内容标识,从所述索引库的内容数据表中获取与所述文本关联的第一内容文本。
在获取得到请求内容所包含的每个文本的哈希值之后,则可以哈希值作为索引,根据所述索引库中的所述索引数据,从索引库中获取与每个文本具有相同哈希值的目标内容标识。具体的,可以根据索引数据,获取与相应文本的哈希值对应的内容标识列表,和/或根据倒排索引数据,获取对应的哈希值列表中包括相应文本的哈希值的内容标识,作为相应文本对应的目标内容标识。
例如,假设对请求内容处理得到的文本text1的哈希值为hash1,而在索引库的索引数据中,与hash1对应的内容标识列表包括标识1、标识2,相应地在倒排索引数据中,内容标识1和内容标识2对应的哈希值列表中也包含hash1。此时,从索引库中获取与文本text1具有相同哈希值的目标内容标识包括标识1、标识2。
由于在内容数据表中存储每个样本内容对应的内容标识与内容文本,因此在本发明实施例中,在确认与文本对应的目标内容标识之后,则可以进一步根据目标内容标识,从索引库的内容数据表中获取与相应文本关联的内容文本。具体的,可以根据相应文本对应的目标内容标识,从索引库的内容数据表中获取与相应的目标内容标识对应的内容文本,即为与相应文本关联的内容文本。
或者,在本发明实施例中,根据需求也可以根据相应文本对应的目标内容标识,从索引库的内容数据表中获取与相应的目标内容标识对应的样本内容,为与相应文本关联的内容文本,对此本发明实施例不加以限定。
步骤2110,根据所述内容文本与所述请求内容之间的编辑距离,获取所述内容文本与所述请求内容之间的相似度。
在本发明实施例中,由于计算相似度的对象是文本,而编辑距离可以更好地衡量两个文本之间的相似度,因此优选地可以根据内容文本与请求内容之间的编辑距离,获取相应内容文本与请求内容之间的相似度。
其中,编辑距离是针对二个字符串的差异程度的量化量测,量测方式是看至少需要多少次的处理才能将一个字符串变成另一个字符串。此时可以设置两个文本A和B的相似度=A和B之间的编辑距离/MAX(A的字符数量,B的字符数量)。
步骤2120,根据所述请求内容所对应文本的哈希值,更新所述索引库。
在对每个请求内容所包含的每个文本进行哈希编码,得到每个文本的哈希值之后,为了提高索引库的准确性以及完备性,则可以进一步根据所述请求内容所对应文本的哈希值,更新所述索引库。具体的可以相应地更新索引库中的索引数据、倒排索引数据和内容数据表中的至少一种。而且,本步骤可以步骤250之后,以及步骤250之后的任一步骤之后执行,对此本发明实施例不加以限定。
可选地,在本发明实施例中,所述步骤2120进一步可以包括:
子步骤2121,响应于在所述索引数据中存在所述文本的哈希值,将所述请求内容的内容标识添加至所述哈希值对应的内容标识列表中;
子步骤2122,响应于在所述索引数据中不存在所述文本的哈希值,将所述哈希值插入所述索引数据,并将所述请求内容的内容标识添加至所述哈希值对应的内容标识列表中;
子步骤2123,响应于在所述倒排索引数据中存在所述请求内容的内容标识,将所述请求内容所对应文本的哈希值添加至所述内容标识对应的哈希值列表中;
子步骤2124,响应于在所述索引数据中不存在所述请求内容的内容标识,将所述内容标识插入所述倒排索引数据,并将所述请求内容所对应文本的哈希值添加至所述内容标识对应的哈希值列表中。
另外,在本发明实施例中,还可以将请求内容所对应的内容标识与内容文本添加至内容数据表中,而如果在内容数据表中已包含请求内容所对应的内容标识与内容文本,则无需重复添加。
此时,由于请求内容对应一个或者多个文本,那么在更新后的索引库中,请求内容标识对应的哈希值列表中可以包含相应每个文本的哈希值;相应地,每个文本的哈希值所对应的内容标识列表中都包含该请求内容的内容标识。
在本发明实施例中,通过提取所述请求内容中包含的文本;对所述请求内容进行数据清洗,并将数据清洗后的请求内容处理为至少一个文本,所述数据清洗包括去停止词,去语气助词,去特殊符号中的至少一种。以及,对所述数据清洗后的请求内容进行拆句处理,得到至少一个分句文本;根据每个所述分句文本中包含的字符数,对所述分句文本进行并句处理,得到所述文本。并且,针对每个所述分句文本,获取所述分句文本中包含的字符数量;响应于所述分句文本的字符数量小于预设字符阈值,将所述分句文本与前一分句文本进行合并,得到所述文本。从而提高处理得到的文本的有效性,进而提高召回的关联的内容文本的准确性。
而且,在本发明实施例中,还可以根据所述文本中每个字符对应的原始字节数组,获取所述文本的编码字节数组;通过预设的哈希编码算法获取所述编码字节数组的哈希值,作为所述文本的哈希值。并且,根据所述文本对应的原始字节数组,通过SHA-256算法获取所述文本的32维字节数组;将所述32维字节数组平均拆分为4个子数组;针对各个所述子数组进行逻辑运算,得到所述文本的编码字节数组。从而提高生成的哈希值与相应文本的匹配程度,进而提高文本相似度检测的准确性。
另外,在本发明实施例中,还可以根据所述内容文本与所述请求内容之间的编辑距离,获取所述内容文本与所述请求内容之间的相似度。从而可以提高相似度的准确性。
其次,在本发明实施例中,还可以所述哈希值作为索引,根据所述索引库中的所述索引数据,召回与每个所述文本关联的第一内容文本;根据所述索引库中的所述倒排索引数据,获取每个所述第一内容文本对应的第一哈希值列表;根据所述请求内容所包含的每个所述文本的哈希值,获取所述请求内容对应的第二哈希值列表;根据所述第一哈希值列表和所述第二哈希值列表,从所述第一内容文本中获取与所述请求内容关联的内容文本。以所述哈希值作为索引,根据所述索引库中的所述索引数据,获取与每个所述文本具有相同哈希值的目标内容标识;根据所述目标内容标识,从所述索引库的内容数据表中获取与所述文本关联的第一内容文本。从而可以进一步提高最终召回的与请求内容关联的内容文本的准确性,以及内容文本的召回效率。
进一步地,在本发明实施例中,还可以根据各个样本内容的内容标识,以及所述样本内容中包含每个样本句子的哈希值,构建索引库;其中,所述索引库中包括以哈希值-内容标识列表的形式建立的索引数据、以内容标识-哈希值列表的形式建立的倒排索引数据、存储每个所述样本内容对应的内容标识与内容文本的内容数据表。并且,从所述索引库中去除所述请求内容的历史索引数据和历史倒排索引数据。以及,根据所述请求内容所对应文本的哈希值,更新所述索引库。从而提高索引库的完备性,以及相似度检测的准确性和计算效率。
对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
实施例三
详细介绍本发明实施例提供的一种文本相似度检测装置。
参照图3,示出了本发明实施例中一种文本相似度检测装置的结构示意图。
文本处理模块310,用于将所述请求内容处理为至少一个文本。
索引构建模块320,用于对每个所述文本进行哈希编码,得到每个所述文本的哈希值。
索引召回模块330,用于以所述哈希值作为索引,召回与所述请求内容关联的内容文本。
相似度评估模块340,用于获取所述内容文本与所述请求内容之间的相似度。
根据本发明的文本相似度检测方法,可以将请求内容处理为至少一个文本;对每个所述文本进行哈希编码,得到每个所述文本的哈希值;以所述哈希值作为索引,召回与所述请求内容关联的内容文本;获取所述内容文本与所述请求内容之间的相似度。取得了提高文本相似度检测准确性以及计算效率的有益效果。
实施例四
参照图4,示出了本发明实施例中一种文本相似度检测装置的结构示意图。
索引库构建模块410,用于根据各个样本内容的内容标识,以及所述样本内容中包含每个样本句子的哈希值,构建索引库;其中,所述索引库中包括以哈希值-内容标识列表的形式建立的索引数据、以内容标识-哈希值列表的形式建立的倒排索引数据、存储每个所述样本内容对应的内容标识与内容文本的内容数据表。
索引库构建模块420,从所述索引库中去除所述请求内容的历史索引数据和历史倒排索引数据。
文本处理模块430,用于将所述请求内容处理为至少一个文本。
其中,所述文本处理模块430,进一步可以包括:
文本处理子模块431,用于对所述请求内容进行数据清洗,并将数据清洗后的请求内容处理为至少一个文本,所述数据清洗包括去停止词,去语气助词,去特殊符号中的至少一种。
可选地,在本发明实施例中,所述文本处理子模块431,进一步可以包括:
拆句处理单元,用于对所述数据清洗后的请求内容进行拆句处理,得到至少一个分句文本;
并句处理单元,用于根据每个所述分句文本中包含的字符数,对所述分句文本进行并句处理,得到所述文本。
可选地,在本发明实施例中,所述并句处理单元,进一步可以包括:
字符数量统计子单元,用于针对每个所述分句文本,获取所述分句文本中包含的字符数量;
并句处理子单元,用于响应于所述分句文本的字符数量小于预设字符阈值,将所述分句文本与前一分句文本进行合并,得到所述文本。
索引构建模块440,用于对每个所述文本进行哈希编码,得到每个所述文本的哈希值。
其中,在本发明实施例中,所述索引构建模块440,进一步可以包括:
编码字节数组获取子模块441,用于根据所述文本中每个字符对应的原始字节数组,获取所述文本的编码字节数组;
哈希值获取子模块442,用于通过预设的哈希编码算法获取所述编码字节数组的哈希值,作为所述文本的哈希值。
可选地,在本发明实施例中,所述编码字节数组获取子模块441,进一步可以包括:
字节数组获取单元,用于根据所述文本对应的原始字节数组,通过SHA-256算法获取所述文本的32维字节数组;
字节数组拆分单元,用于将所述32维字节数组平均拆分为4个子数组;
逻辑运算单元,用于针对各个所述子数组进行逻辑运算,得到所述文本的编码字节数组。
索引召回模块450,用于以所述哈希值作为索引,召回与所述请求内容关联的内容文本。
其中,在本发明实施例中,所述索引召回模块450,进一步可以包括:
第一内容文本召回子模块451,用于以所述哈希值作为索引,根据所述索引库中的所述索引数据,召回与每个所述文本关联的第一内容文本。
第一哈希值列表获取子模块452,用于根据所述索引库中的所述倒排索引数据,获取每个所述第一内容文本对应的第一哈希值列表。
第二哈希值列表获取子模块453,用于根据所述请求内容所包含的每个所述文本的哈希值,获取所述请求内容对应的第二哈希值列表。
索引召回子模块454,用于根据所述第一哈希值列表和所述第二哈希值列表,从所述第一内容文本中获取与所述请求内容关联的内容文本。
可选地,在本发明实施例中,所述第一内容文本召回子模块451,进一步可以包括:
目标内容标识获取单元,用于以所述哈希值作为索引,根据所述索引库中的索引数据,获取与每个所述文本具有相同哈希值的目标内容标识;
关联内容文本获取单元,用于根据所述目标内容标识,从所述索引库的内容数据表中获取与所述文本关联的内容文本。
相似度评估模块460,用于获取所述内容文本与所述请求内容之间的相似度。
其中,在本发明实施例中,所述相似度评估模块460,进一步可以包括:
相似度获取子模块461,用于根据所述内容文本与所述请求内容之间的编辑距离,获取所述内容文本与所述请求内容之间的相似度。
索引库更新模块470,用于根据所述请求内容所对应文本的哈希值,更新所述索引库。
可选地,在本发明实施例中,所述进一步可以包括:
第一索引数据更新子模块,用于响应于在所述索引数据中存在所述文本的哈希值,将所述请求内容的内容标识添加至所述哈希值对应的内容标识列表中;
第二索引数据更新子模块,用于响应于在所述索引数据中不存在所述文本的哈希值,将所述哈希值插入所述索引数据,并将所述请求内容的内容标识添加至所述哈希值对应的内容标识列表中;
第一倒排索引数据更新子模块,用于响应于在所述倒排索引数据中存在所述请求内容的内容标识,将所述请求内容所对应文本的哈希值添加至所述内容标识对应的哈希值列表中;
第二倒排索引数据更新子模块,用于响应于在所述索引数据中不存在所述请求内容的内容标识,将所述内容标识插入所述倒排索引数据,并将所述请求内容所对应文本的哈希值添加至所述内容标识对应的哈希值列表中。
在本发明实施例中,通过提取所述请求内容中包含的文本;对所述请求内容进行数据清洗,并将数据清洗后的请求内容处理为至少一个文本,所述数据清洗包括去停止词,去语气助词,去特殊符号中的至少一种。以及,对所述数据清洗后的请求内容进行拆句处理,得到至少一个分句文本;根据每个所述分句文本中包含的字符数,对所述分句文本进行并句处理,得到所述文本。并且,针对每个所述分句文本,获取所述分句文本中包含的字符数量;响应于所述分句文本的字符数量小于预设字符阈值,将所述分句文本与前一分句文本进行合并,得到所述文本。从而提高处理得到的文本的有效性,进而提高召回的关联的内容文本的准确性。
而且,在本发明实施例中,还可以根据所述文本中每个字符对应的原始字节数组,获取所述文本的编码字节数组;通过预设的哈希编码算法获取所述编码字节数组的哈希值,作为所述文本的哈希值。并且,根据所述文本对应的原始字节数组,通过SHA-256算法获取所述文本的32维字节数组;将所述32维字节数组平均拆分为4个子数组;针对各个所述子数组进行逻辑运算,得到所述文本的编码字节数组。从而提高生成的哈希值与相应文本的匹配程度,进而提高文本相似度检测的准确性。
另外,在本发明实施例中,还可以根据所述内容文本与所述请求内容之间的编辑距离,获取所述内容文本与所述请求内容之间的相似度。从而可以提高相似度的准确性。
其次,在本发明实施例中,还可以所述哈希值作为索引,根据所述索引库中的所述索引数据,召回与每个所述文本关联的第一内容文本;根据所述索引库中的所述倒排索引数据,获取每个所述第一内容文本对应的第一哈希值列表;根据所述请求内容所包含的每个所述文本的哈希值,获取所述请求内容对应的第二哈希值列表;根据所述第一哈希值列表和所述第二哈希值列表,从所述第一内容文本中获取与所述请求内容关联的内容文本。以所述哈希值作为索引,根据所述索引库中的所述索引数据,获取与每个所述文本具有相同哈希值的目标内容标识;根据所述目标内容标识,从所述索引库的内容数据表中获取与所述文本关联的第一内容文本。从而可以进一步提高最终召回的与请求内容关联的内容文本的准确性,以及内容文本的召回效率。
进一步地,在本发明实施例中,还可以根据各个样本内容的内容标识,以及所述样本内容中包含每个样本句子的哈希值,构建索引库;其中,所述索引库中包括以哈希值-内容标识列表的形式建立的索引数据、以内容标识-哈希值列表的形式建立的倒排索引数据、存储每个所述样本内容对应的内容标识与内容文本的内容数据表。并且,从所述索引库中去除所述请求内容的历史索引数据和历史倒排索引数据。以及,根据所述请求内容所对应文本的哈希值,更新所述索引库。从而提高索引库的完备性,以及相似度检测的准确性和计算效率。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
另外,在本发明实施例中还提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现前述的任意一种文本相似度检测方法。
在本发明实施例中还提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现前述的任意一种文本相似度检测方法的步骤。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的文本相似度检测设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (14)

1.一种文本相似度检测方法,其特征在于,包括:
将请求内容处理为至少一个文本;
对每个所述文本进行哈希编码,得到每个所述文本的哈希值;
以所述哈希值作为索引,召回与所述请求内容关联的内容文本;
获取所述内容文本与所述请求内容之间的相似度。
2.根据权利要求1所述的方法,其特征在于,所述将请求内容处理为至少一个文本的步骤,包括:
对所述请求内容进行数据清洗,并将数据清洗后的请求内容处理为至少一个文本,所述数据清洗包括去停止词,去语气助词,去特殊符号中的至少一种。
3.根据权利要求2所述的方法,其特征在于,所述将数据清洗后的请求内容处理为至少一个文本的步骤,包括:
对所述数据清洗后的请求内容进行拆句处理,得到至少一个分句文本;
根据每个所述分句文本中包含的字符数,对所述分句文本进行并句处理,得到所述文本。
4.根据权利要求3所述的方法,其特征在于,所述根据每个所述分句文本中包含的字符数,对所述分句文本进行并句处理,得到所述文本的步骤,包括:
针对每个所述分句文本,获取所述分句文本中包含的字符数量;
响应于所述分句文本的字符数量小于预设字符阈值,将所述分句文本与前一分句文本进行合并,得到所述文本。
5.根据权利要求1所述的方法,其特征在于,所述对每个所述文本进行哈希编码,得到每个所述文本的哈希值的步骤,包括:
根据所述文本中每个字符对应的原始字节数组,获取所述文本的编码字节数组;
通过预设的哈希编码算法获取所述编码字节数组的哈希值,作为所述文本的哈希值。
6.根据权利要求5所述的方法,其特征在于,所述根据所述文本中每个字符对应的原始字节数组,获取所述文本的编码字节数组的步骤,包括:
根据所述文本对应的原始字节数组,通过SHA-256算法获取所述文本的32维字节数组;
将所述32维字节数组平均拆分为4个子数组;
针对各个所述子数组进行逻辑运算,得到所述文本的编码字节数组。
7.根据权利要求1所述的方法,其特征在于,所述获取所述内容文本与所述请求内容之间的相似度的步骤,包括:
根据所述内容文本与所述请求内容之间的编辑距离,获取所述内容文本与所述请求内容之间的相似度。
8.根据权利要求1所述的方法,其特征在于,在所述以所述哈希值作为索引,召回与所述请求内容关联的内容文本的步骤之前,还包括:
根据各个样本内容的内容标识,以及所述样本内容中包含每个样本句子的哈希值,构建索引库;
其中,所述索引库中包括以哈希值-内容标识列表的形式建立的索引数据、以内容标识-哈希值列表的形式建立的倒排索引数据、存储每个所述样本内容对应的内容标识与内容文本的内容数据表。
9.根据权利要求8所述的方法,其特征在于,在所述将请求内容处理为至少一个文本的步骤之前,还包括:
从所述索引库中去除所述请求内容的历史索引数据和历史倒排索引数据。
10.根据权利要求8所述的方法,其特征在于,所述以所述哈希值作为索引,召回与所述请求内容关联的内容文本的步骤,包括:
以所述哈希值作为索引,根据所述索引库中的所述索引数据,召回与每个所述文本关联的第一内容文本;
根据所述索引库中的所述倒排索引数据,获取每个所述第一内容文本对应的第一哈希值列表;
根据所述请求内容所包含的每个所述文本的哈希值,获取所述请求内容对应的第二哈希值列表;
根据所述第一哈希值列表和所述第二哈希值列表,从所述第一内容文本中获取与所述请求内容关联的内容文本。
11.根据权利要求10所述的方法,其特征在于,所述以所述哈希值作为索引,根据所述索引库中的所述索引数据,召回与每个所述文本关联的第一内容文本的步骤,包括:
以所述哈希值作为索引,根据所述索引库中的所述索引数据,获取与每个所述文本具有相同哈希值的目标内容标识;
根据所述目标内容标识,从所述索引库的内容数据表中获取与所述文本关联的第一内容文本。
12.根据权利要求8所述的方法,其特征在于,在所述对每个所述文本进行哈希编码,得到每个所述文本的哈希值的步骤之后,还包括:
根据所述请求内容所对应文本的哈希值,更新所述索引库。
13.根据权利要求12所述的方法,其特征在于,所述根据所述请求内容所对应文本的哈希值,更新所述索引库的步骤,包括:
响应于在所述索引数据中存在所述文本的哈希值,将所述请求内容的内容标识添加至所述哈希值对应的内容标识列表中;
响应于在所述索引数据中不存在所述文本的哈希值,将所述哈希值插入所述索引数据,并将所述请求内容的内容标识添加至所述哈希值对应的内容标识列表中;
响应于在所述倒排索引数据中存在所述请求内容的内容标识,将所述请求内容所对应文本的哈希值添加至所述内容标识对应的哈希值列表中;
响应于在所述索引数据中不存在所述请求内容的内容标识,将所述内容标识插入所述倒排索引数据,并将所述请求内容所对应文本的哈希值添加至所述内容标识对应的哈希值列表中。
14.一种文本相似度检测装置,其特征在于,包括:
文本处理模块,用于将所述请求内容处理为至少一个文本;
索引构建模块,用于对每个所述文本进行哈希编码,得到每个所述文本的哈希值;
索引召回模块,用于以所述哈希值作为索引,召回与所述请求内容关联的内容文本;
相似度评估模块,用于获取所述内容文本与所述请求内容之间的相似度。
CN201910712663.9A 2019-08-02 2019-08-02 文本相似度检测方法、装置、电子设备及可读存储介质 Pending CN110543622A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910712663.9A CN110543622A (zh) 2019-08-02 2019-08-02 文本相似度检测方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910712663.9A CN110543622A (zh) 2019-08-02 2019-08-02 文本相似度检测方法、装置、电子设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN110543622A true CN110543622A (zh) 2019-12-06

Family

ID=68710089

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910712663.9A Pending CN110543622A (zh) 2019-08-02 2019-08-02 文本相似度检测方法、装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN110543622A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114329029A (zh) * 2021-10-28 2022-04-12 腾讯科技(深圳)有限公司 对象检索方法、装置、设备及计算机存储介质
CN114329029B (zh) * 2021-10-28 2024-05-14 腾讯科技(深圳)有限公司 对象检索方法、装置、设备及计算机存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104035949A (zh) * 2013-12-10 2014-09-10 南京信息工程大学 一种基于局部敏感哈希改进算法的相似性数据检索方法
CN107085615A (zh) * 2017-05-26 2017-08-22 北京奇虎科技有限公司 文本消重系统、方法、服务器及计算机存储介质
CN109359183A (zh) * 2018-10-11 2019-02-19 南京中孚信息技术有限公司 文本信息的查重方法、装置及电子设备
CN109471921A (zh) * 2018-11-23 2019-03-15 深圳市元征科技股份有限公司 一种文本查重方法、装置及设备
CN109657213A (zh) * 2018-12-21 2019-04-19 北京金山安全软件有限公司 文本相似度检测方法、装置和电子设备
KR20190061668A (ko) * 2017-11-28 2019-06-05 (주)타이거컴퍼니 지식 네트워크 분석 방법
CN110019674A (zh) * 2017-11-21 2019-07-16 盛霆信息技术(上海)有限公司 一种文本抄袭检测方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104035949A (zh) * 2013-12-10 2014-09-10 南京信息工程大学 一种基于局部敏感哈希改进算法的相似性数据检索方法
CN107085615A (zh) * 2017-05-26 2017-08-22 北京奇虎科技有限公司 文本消重系统、方法、服务器及计算机存储介质
CN110019674A (zh) * 2017-11-21 2019-07-16 盛霆信息技术(上海)有限公司 一种文本抄袭检测方法及系统
KR20190061668A (ko) * 2017-11-28 2019-06-05 (주)타이거컴퍼니 지식 네트워크 분석 방법
CN109359183A (zh) * 2018-10-11 2019-02-19 南京中孚信息技术有限公司 文本信息的查重方法、装置及电子设备
CN109471921A (zh) * 2018-11-23 2019-03-15 深圳市元征科技股份有限公司 一种文本查重方法、装置及设备
CN109657213A (zh) * 2018-12-21 2019-04-19 北京金山安全软件有限公司 文本相似度检测方法、装置和电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王海涛: "基于大规模文本数据集的相似检测关键技术研究", 《中国博士学位论文全文数据库 信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114329029A (zh) * 2021-10-28 2022-04-12 腾讯科技(深圳)有限公司 对象检索方法、装置、设备及计算机存储介质
CN114329029B (zh) * 2021-10-28 2024-05-14 腾讯科技(深圳)有限公司 对象检索方法、装置、设备及计算机存储介质

Similar Documents

Publication Publication Date Title
CN109189991B (zh) 重复视频识别方法、装置、终端及计算机可读存储介质
CN107229668B (zh) 一种基于关键词匹配的正文抽取方法
US8630972B2 (en) Providing context for web articles
CN109726274B (zh) 问题生成方法、装置及存储介质
JP3672242B2 (ja) パターン検索方法、パターン検索装置、コンピュータプログラム及び記憶媒体
CN102915299B (zh) 一种分词方法及装置
CN104715064B (zh) 一种实现在网页上标注关键词的方法和服务器
CN106909669B (zh) 一种推广信息的检测方法及装置
JP6932360B2 (ja) オブジェクト検索方法、装置およびサーバ
CN108228799B (zh) 对象索引信息的存储方法及装置
US11651014B2 (en) Source code retrieval
CN110134777B (zh) 问题去重方法、装置、电子设备和计算机可读存储介质
CN106844482B (zh) 一种基于搜索引擎的检索信息匹配方法及装置
CN112612761B (zh) 一种数据清洗方法、装置、设备及存储介质
CN105550359A (zh) 一种基于垂直搜索的网页排序方法、装置及服务器
CN110888981A (zh) 基于标题的文档聚类方法、装置、终端设备及介质
CN112818200A (zh) 基于静态网站的数据爬取及事件分析方法及系统
CN107085615B (zh) 文本消重系统、方法、服务器及计算机存储介质
CN113627132A (zh) 数据去重标记码生成方法、系统、电子设备及存储介质
CN113408660A (zh) 图书聚类方法、装置、设备和存储介质
CN103226601A (zh) 一种图片搜索的方法和装置
CN111160445B (zh) 投标文件相似度计算方法及装置
JP7395377B2 (ja) コンテンツ検索方法、装置、機器、および記憶媒体
CN110705285A (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
CN115796146A (zh) 一种文件对比方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination