CN111241275B - 一种短文本相似度评估方法和装置以及设备 - Google Patents

一种短文本相似度评估方法和装置以及设备 Download PDF

Info

Publication number
CN111241275B
CN111241275B CN202010000869.1A CN202010000869A CN111241275B CN 111241275 B CN111241275 B CN 111241275B CN 202010000869 A CN202010000869 A CN 202010000869A CN 111241275 B CN111241275 B CN 111241275B
Authority
CN
China
Prior art keywords
similarity
short
short text
text
comparison result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010000869.1A
Other languages
English (en)
Other versions
CN111241275A (zh
Inventor
邹辉
肖龙源
蔡振华
李稀敏
刘晓葳
谭玉坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Kuaishangtong Technology Co Ltd
Original Assignee
Xiamen Kuaishangtong Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Kuaishangtong Technology Co Ltd filed Critical Xiamen Kuaishangtong Technology Co Ltd
Priority to CN202010000869.1A priority Critical patent/CN111241275B/zh
Publication of CN111241275A publication Critical patent/CN111241275A/zh
Application granted granted Critical
Publication of CN111241275B publication Critical patent/CN111241275B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/325Hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种短文本相似度评估方法和装置以及设备。其中,所述方法包括:采用上下文词向量方式,对短文本进行分词和词向量化,和将该经分词和词向量化后的短文本与预先构建的局部敏感哈希文本库中对应的簇比较得到比较结果,其中,该比较结果包括编辑距离比较结果、模糊距离比较结果和语义距离比较结果等,和根据该比较结果,对短文本的相似度进行评分得到评分集合,对该评分集合中对应的短文本进行近似度管理,以及根据该经近似度管理后短文本,对短文本的近似度进行评估。通过上述方式,能够实现提高对短文本相似度评估的准确率。

Description

一种短文本相似度评估方法和装置以及设备
技术领域
本发明涉及文本相似度技术领域,尤其涉及一种短文本相似度评估方法和 装置以及设备。
背景技术
文本相似度评估一直是学术界和工业界的研究热点,也是个大AI(ArtificialIntelligence,人工智能)大赛的热门题目。
然而,现有的短文本相似度评估方案,一般是通过文档模型、TF-IDF(termfrequency–inverse document frequency,词频-逆文本频率指数)等文档向量进 行比较相似度,之后又比较基于语义的相似度,比如word2vec(用来产生词向 量的相关模型)等词向量的相似度比较,也有一些采用比如fuzzywuzzy(字符 串模糊匹配)等模糊匹配的方式来进行文本相识度评估,但是由于短文本一方 面语义表达不足和另一方面精短不易比较,导致对短文本相似度评估的准确率 一般。
发明内容
有鉴于此,本发明的目的在于提出一种短文本相似度评估方法和装置以及 设备,能够实现提高对短文本相似度评估的准确率。
根据本发明的一个方面,提供一种短文本相似度评估方法,包括:采用上 下文词向量方式,对短文本进行分词和词向量化;将所述经分词和词向量化后 的短文本与预先构建的局部敏感哈希文本库中对应的簇比较得到比较结果;其 中,所述比较结果包括编辑距离比较结果、模糊距离比较结果和语义距离比较 结果;根据所述比较结果,对短文本的相似度进行评分得到评分集合,对所述 评分集合中对应的短文本进行近似度管理;根据所述经近似度管理后短文本, 对短文本的近似度进行评估。
其中,所述采用上下文词向量方式,对短文本进行分词和词向量化,包括:
采用上下文词向量方式,通过开源已经训练好的中文预训练模型,经过特 定的语料微调后,通过暴露服务,将短文本预先计算词向量,对短文本进行词 向量化,和通过将业务领域的词入字典的方式,对短文本进行分词。
其中,所述将所述经分词和词向量化后的短文本与预先构建的局部敏感哈 希文本库中对应的簇比较得到比较结果,包括:将所述经分词和词向量化后的 短文本进行哈希计算,将所述经哈希计算后的短文本与预先构建的局部敏感哈 希文本库中对应的簇比较得到比较结果。
其中,所述根据所述比较结果,对短文本的相似度进行评分得到评分集合, 对所述评分集合中对应的短文本进行近似度管理,包括:根据所述比较结果, 采用对编辑距离高、语义距离低或者编辑距离低、语义距离高的进行惩罚的方 式,对短文本的相似度进行评分得到评分集合,和采用将不小于预设分值的评 分对应的短文本纳入相似度高的集合,将小于预设分值的评分对应的短文本纳 入相似度低的集合的方式,对所述评分集合中对应的短文本进行近似度管理, 这样的好处是能够实现通过将不小于预设分值的评分对应的短文本纳入相似度 高的集合,将小于预设分值的评分对应的短文本纳入相似度低的集合的方式, 对所述评分集合中对应的短文本进行近似度聚类管理。
其中,所述根据所述经近似度管理后短文本,对短文本的近似度进行评估, 包括:根据所述经近似度管理后短文本,采用在所述相似度高集合不为空时, 则取所述相似度高集合得分最大的最为输出,如果在所述相似度高集合为空, 相似度低集合不为空时,将所述相似度低集合比较的短文本和被比较的短文本 输入训练好的孪生相似网络,进行判定距离最近的,最为输出,在所述相似度 高集合和所述相似度低集合都为空时,则没有相似的短文本的方式,对短文本 的近似度进行评估。
根据本发明的另一个方面,提供一种短文本相似度评估装置,包括:词处 理模块、比较模块、管理模块和评估模块;所述词处理模块,用于采用上下文 词向量方式,对短文本进行分词和词向量化;所述比较模块,用于将所述经分 词和词向量化后的短文本与预先构建的局部敏感哈希文本库中对应的簇比较得 到比较结果;其中,所述比较结果包括编辑距离比较结果、模糊距离比较结果 和语义距离比较结果;所述管理模块,用于根据所述比较结果,对短文本的相 似度进行评分得到评分集合,对所述评分集合中对应的短文本进行近似度管理; 所述评估模块,用于根据所述经近似度管理后短文本,对短文本的近似度进行评估。
其中,所述词处理模块,具体用于:采用上下文词向量方式,通过开源已 经训练好的中文预训练模型,经过特定的语料微调后,通过暴露服务,将短文 本预先计算词向量,对短文本进行词向量化,和通过将业务领域的词入字典的 方式,对短文本进行分词。
其中,所述比较模块,具体用于:将所述经分词和词向量化后的短文本进 行哈希计算,将所述经哈希计算后的短文本与预先构建的局部敏感哈希文本库 中对应的簇比较得到比较结果。
其中,所述管理模块,具体用于:根据所述比较结果,采用对编辑距离高、 语义距离低或者编辑距离低、语义距离高的进行惩罚的方式,对短文本的相似 度进行评分得到评分集合,和采用将不小于预设分值的评分对应的短文本纳入 相似度高的集合,将小于预设分值的评分对应的短文本纳入相似度低的集合的 方式,对所述评分集合中对应的短文本进行近似度管理。
其中,所述评估模块,具体用于:根据所述经近似度管理后短文本,采用 在所述相似度高集合不为空时,则取所述相似度高集合得分最大的最为输出, 如果在所述相似度高集合为空,相似度低集合不为空时,将所述相似度低集合 比较的短文本和被比较的短文本输入训练好的孪生相似网络,进行判定距离最 近的,最为输出,在所述相似度高集合和所述相似度低集合都为空时,则没有 相似的短文本的方式,对短文本的近似度进行评估。
根据本发明的又一个方面,提供一种短文本相似度评估设备,包括:至少 一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存 储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处 理器执行,以使所述至少一个处理器能够执行上述任一项所述的短文本相似度 评估方法。
根据本发明的再一个方面,提供一种计算机可读存储介质,存储有计算机 程序,所述计算机程序被处理器执行时实现上述任一项所述的短文本相似度评 估方法。
可以发现,以上方案,可以采用上下文词向量方式,对短文本进行分词和 词向量化,和可以将该经分词和词向量化后的短文本与预先构建的局部敏感哈 希文本库中对应的簇比较得到比较结果,其中,该比较结果包括编辑距离比较 结果、模糊距离比较结果和语义距离比较结果等,和可以根据该比较结果,对 短文本的相似度进行评分得到评分集合,对该评分集合中对应的短文本进行近 似度管理,以及可以根据该经近似度管理后短文本,对短文本的近似度进行评 估,能够实现提高对短文本相似度评估的准确率。
进一步的,以上方案,可以采用上下文词向量方式,通过开源已经训练好 的中文预训练模型,经过特定的语料微调后,通过暴露服务,将短文本预先计 算词向量,对短文本进行词向量化,和通过将业务领域的词入字典的方式,对 短文本进行分词,这样的好处是能够实现对短文本进行准确的分词和词向量化。
进一步的,以上方案,可以将该经分词和词向量化后的短文本进行哈希计 算,将该经哈希计算后的短文本与预先构建的局部敏感哈希文本库中对应的簇 比较得到比较结果,这样的好处是由于两个短文本在原有的数据空间具有一定 的相似度,那么该两个短文本在分别经过哈希计算以后的短文本同样也具有一 定的相似度,相反,如果该两个短文本本身是不相似的,那么该两个短文本在 分别经过哈希计算以后的短文本同样也不相似,能够实现提高对短文本相似度 评估的准确率。
进一步的,以上方案,可以根据该比较结果,采用对编辑距离高、语义距 离低或者编辑距离低、语义距离高的进行惩罚的方式,对短文本的相似度进行 评分得到评分集合,和采用将不小于预设分值的评分对应的短文本纳入相似度 高的集合,将小于预设分值的评分对应的短文本纳入相似度低的集合的方式, 对该评分集合中对应的短文本进行近似度管理,这样的好处是能够实现通过将 不小于预设分值的评分对应的短文本纳入相似度高的集合,将小于预设分值的 评分对应的短文本纳入相似度低的集合的方式,对该评分集合中对应的短文本 进行近似度聚类管理,能够提高对短文本相似度评估的准确率。
进一步的,以上方案,可以根据该经近似度管理后短文本,采用在该相似 度高集合不为空时,则取该相似度高集合得分最大的最为输出,如果在该相似 度高集合为空,相似度低集合不为空时,将该相似度低集合比较的短文本和被 比较的短文本输入训练好的孪生相似网络,进行判定距离最近的,最为输出, 在该相似度高集合和该相似度低集合都为空时,则没有相似的短文本的方式, 对短文本的近似度进行评估,这样的好处是能够实现提高对短文本相似度评估 的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施 例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述 中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付 出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明短文本相似度评估方法一实施例的流程示意图;
图2是本发明短文本相似度评估装置一实施例的结构示意图;
图3是本发明短文本相似度评估设备一实施例的结构示意图。
具体实施方式
下面结合附图和实施例,对本发明作进一步的详细描述。特别指出的是, 以下实施例仅用于说明本发明,但不对本发明的范围进行限定。同样的,以下 实施例仅为本发明的部分实施例而非全部实施例,本领域普通技术人员在没有 作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明提供一种短文本相似度评估方法,能够实现提高对短文本相似度评 估的准确率。
请参见图1,图1是本发明短文本相似度评估方法一实施例的流程示意图。 需注意的是,若有实质上相同的结果,本发明的方法并不以图1所示的流程顺 序为限。如图1所示,该方法包括如下步骤:
S101:采用Bert(上下文词向量)方式,对短文本进行分词和词向量化。
其中,该采用上下文词向量方式,对短文本进行分词和词向量化,可以包 括:
采用上下文词向量方式,通过开源已经训练好的中文预训练模型,经过特 定的语料fine-tune(微调)后,通过bert as service(暴露服务),将短文本预先 计算词向量,对短文本进行词向量化,和通过将业务领域的词入字典的方式, 对短文本进行分词,这样的好处是能够实现对短文本进行准确的分词和词向量 化。
S102:将该经分词和词向量化后的短文本与预先构建的LSH (Locality-Sensitive Hash,局部敏感哈希)文本库中对应的簇比较得到比较结 果;其中,该比较结果包括编辑距离比较结果、模糊距离比较结果和语义距离 比较结果等。
其中,该将该经分词和词向量化后的短文本与预先构建的局部敏感哈希文 本库中对应的簇比较得到比较结果,可以包括:
将该经分词和词向量化后的短文本进行hash(哈希)计算,将该经哈希计 算后的短文本与预先构建的局部敏感哈希文本库中对应的簇比较得到比较结 果,这样的好处是由于两个短文本在原有的数据空间具有一定的相似度,那么 该两个短文本在分别经过哈希计算以后的短文本同样也具有一定的相似度,相 反,如果该两个短文本本身是不相似的,那么该两个短文本在分别经过哈希计 算以后的短文本同样也不相似,能够实现提高对短文本相似度评估的准确率。
在本实施例中,可以对被比较文本需要进行预先hash计算,利用LSH构 建一个检索树,也起到了聚类的效果。局部敏感哈希即空间中距离较近的点映 射后发生冲突的概率高,空间中距离较远的点映射后发生冲突的概率低。局部 敏感哈希的基本思想类似于一种空间域转换思想,LSH算法基于一个假设,如 果两个文本在原有的数据空间是相似的,那么分别经过哈希函数转换以后的它 们也具有很高的相似度;相反,如果它们本身是不相似的,那么经过转换后它 们应仍不具有相似性。假设一个局部敏感哈希函数具有10个不同的输出值,而 现在我们具有11个完全没有相似度的数据,那么它们经过这个哈希函数必然至少存在两个不相似的数据变为了相似数据。从这个假设中,我们应该意识到局 部敏感哈希是相对的,而且我们所说的保持数据的相度不是说保持100%的相 似度,而是保持最大可能的相似度。对于局部敏感哈希保持最大可能的相似度 的这一点,我们也可以从数据降维的角度去考虑。数据对应的维度越高,信息 量也就越大,相反,如果数据进行了降维,那么毫无疑问数据所反映的信息必 然会有损失。哈希函数从本质上来看就是一直在扮演数据降维的角。
Min-Hashing(最小哈希)定义:特征矩阵按行进行一个随机的置换后,第一个 列值为1的行的行号。对于两个数据C1和C2,在Min-Hashing方法中,hash 值相等的概率等于这两个数据降维前的Jaccard(相似系数)相似度即两个集合 的交比两个集合的并。可以用公式描述,如下:Pr[hπ(C1)=hπ(C2)]=sim(C1,C2)。 每一个置换等同于一个hash函数,多个置换构成一个hash函数族。假设我们 拥有n个hash函数,要求在原始空间相似的两个数据在hash之后得到的n个 值均相等的条件过于苛刻,所得到的精确率是很高,但是同样的召回率也会非 常低。因此,我们放松了要求,在n个hash函数划分为b个hash函数族,只 要两个数据在某一个hash函数族的值均相等,就认为这两个数据相似。在上述 定义下,两个数据在低维空间相似的概率为:1-(1-sr)b。解释如下:对于两个 数据的任意一个函数族来说,这两个函数族值相同的概率是:sr,其中s∈[0,1] 是这两个文档的相似度。也就是说,这两个函数族不相同的概率是1-sr这两个 文档一共存在b个函数族,这bb个函数族都不相同的概率是(1-sr)b所以说, 这b个函数族至少有一个相同的概率是1-(1-sr)b。以上过程可以为一个简单的 AND-OR(和-或)逻辑,这个逻辑同样也应用于下述基于p稳定分布的LSH中。
S103:根据该比较结果,对短文本的相似度进行评分得到评分集合,对该 评分集合中对应的短文本进行近似度管理。
其中,该根据该比较结果,对短文本的相似度进行评分得到评分集合,对 该评分集合中对应的短文本进行近似度管理,可以包括:
根据该比较结果,采用对编辑距离高、语义距离低或者编辑距离低、语义 距离高的进行惩罚的方式,对短文本的相似度进行评分得到评分集合,和采用 将不小于预设分值的评分对应的短文本纳入target_value(相似度高)的集合, 将小于预设分值的评分对应的短文本纳入small_value(相似度低)的集合的方 式,对该评分集合中对应的短文本进行近似度管理,这样的好处是能够实现通 过将不小于预设分值的评分对应的短文本纳入相似度高的集合,将小于预设分 值的评分对应的短文本纳入相似度低的集合的方式,对该评分集合中对应的短 文本进行近似度聚类管理,能够提高对短文本相似度评估的准确率。
S104:根据该经近似度管理后短文本,对短文本的近似度进行评估。
其中,该根据该经近似度管理后短文本,对短文本的近似度进行评估,可 以包括:
根据该经近似度管理后短文本,采用在该相似度高集合不为空时,则取该 相似度高集合得分最大的最为输出,如果在该相似度高集合为空,相似度低集 合不为空时,将该相似度低集合比较的短文本和被比较的短文本输入训练好的 孪生相似网络,进行判定距离最近的,最为输出,在该相似度高集合和该相似 度低集合都为空时,则没有相似的短文本的方式,对短文本的近似度进行评估, 这样的好处是能够实现提高对短文本相似度评估的准确率。
可以发现,在本实施例中,可以采用上下文词向量方式,对短文本进行分 词和词向量化,和可以将该经分词和词向量化后的短文本与预先构建的局部敏 感哈希文本库中对应的簇比较得到比较结果,其中,该比较结果包括编辑距离 比较结果、模糊距离比较结果和语义距离比较结果等,和可以根据该比较结果, 对短文本的相似度进行评分得到评分集合,对该评分集合中对应的短文本进行 近似度管理,以及可以根据该经近似度管理后短文本,对短文本的近似度进行 评估,能够实现提高对短文本相似度评估的准确率。
进一步的,在本实施例中,可以采用上下文词向量方式,通过开源已经训 练好的中文预训练模型,经过特定的语料微调后,通过暴露服务,将短文本预 先计算词向量,对短文本进行词向量化,和通过将业务领域的词入字典的方式, 对短文本进行分词,这样的好处是能够实现对短文本进行准确的分词和词向量 化。
进一步的,在本实施例中,可以将该经分词和词向量化后的短文本进行哈 希计算,将该经哈希计算后的短文本与预先构建的局部敏感哈希文本库中对应 的簇比较得到比较结果,这样的好处是由于两个短文本在原有的数据空间具有 一定的相似度,那么该两个短文本在分别经过哈希计算以后的短文本同样也具 有一定的相似度,相反,如果该两个短文本本身是不相似的,那么该两个短文 本在分别经过哈希计算以后的短文本同样也不相似,能够实现提高对短文本相 似度评估的准确率。
进一步的,在本实施例中,可以根据该比较结果,采用对编辑距离高、语 义距离低或者编辑距离低、语义距离高的进行惩罚的方式,对短文本的相似度 进行评分得到评分集合,和采用将不小于预设分值的评分对应的短文本纳入相 似度高的集合,将小于预设分值的评分对应的短文本纳入相似度低的集合的方 式,对该评分集合中对应的短文本进行近似度管理,这样的好处是能够实现通 过将不小于预设分值的评分对应的短文本纳入相似度高的集合,将小于预设分 值的评分对应的短文本纳入相似度低的集合的方式,对该评分集合中对应的短 文本进行近似度聚类管理,能够提高对短文本相似度评估的准确率。
进一步的,在本实施例中,可以根据该经近似度管理后短文本,采用在该 相似度高集合不为空时,则取该相似度高集合得分最大的最为输出,如果在该 相似度高集合为空,相似度低集合不为空时,将该相似度低集合比较的短文本 和被比较的短文本输入训练好的孪生相似网络,进行判定距离最近的,最为输 出,在该相似度高集合和该相似度低集合都为空时,则没有相似的短文本的方 式,对短文本的近似度进行评估,这样的好处是能够实现提高对短文本相似度 评估的准确率。
本发明还提供一种短文本相似度评估装置,能够实现提高对短文本相似度 评估的准确率。
请参见图2,图2是本发明短文本相似度评估装置一实施例的结构示意图。 本实施例中,该短文本相似度评估装置20包括词处理模块21、比较模块22、 管理模块23和评估模块24。
该词处理模块21,用于采用上下文词向量方式,对短文本进行分词和词向 量化。
该比较模块22,用于将该经分词和词向量化后的短文本与预先构建的局部 敏感哈希文本库中对应的簇比较得到比较结果;其中,该比较结果包括编辑距 离比较结果、模糊距离比较结果和语义距离比较结果等。
该管理模块23,用于根据该比较结果,对短文本的相似度进行评分得到评 分集合,对该评分集合中对应的短文本进行近似度管理。
该评估模块24,用于根据该经近似度管理后短文本,对短文本的近似度进 行评估。
可选地,该词处理模块21,可以具体用于:
采用上下文词向量方式,通过开源已经训练好的中文预训练模型,经过特 定的语料微调后,通过暴露服务,将短文本预先计算词向量,对短文本进行词 向量化,和通过将业务领域的词入字典的方式,对短文本进行分词。
可选地,该比较模块22,可以具体用于:
将该经分词和词向量化后的短文本进行哈希计算,将该经哈希计算后的短 文本与预先构建的局部敏感哈希文本库中对应的簇比较得到比较结果。
可选地,该管理模块23,可以具体用于:
根据该比较结果,采用对编辑距离高、语义距离低或者编辑距离低、语义 距离高的进行惩罚的方式,对短文本的相似度进行评分得到评分集合,和采用 将不小于预设分值的评分对应的短文本纳入相似度高的集合,将小于预设分值 的评分对应的短文本纳入相似度低的集合的方式,对该评分集合中对应的短文 本进行近似度管理。
可选地,该评估模块24,可以具体用于:
根据该经近似度管理后短文本,采用在该相似度高集合不为空时,则取该 相似度高集合得分最大的最为输出,如果在该相似度高集合为空,相似度低集 合不为空时,将该相似度低集合比较的短文本和被比较的短文本输入训练好的 孪生相似网络,进行判定距离最近的,最为输出,在该相似度高集合和该相似 度低集合都为空时,则没有相似的短文本的方式,对短文本的近似度进行评估。
该短文本相似度评估装置20的各个单元模块可分别执行上述方法实施例 中对应步骤,故在此不对各单元模块进行赘述,详细请参见以上对应步骤的说 明。
本发明又提供一种短文本相似度评估设备,如图3所示,包括:至少一个 处理器31;以及,与至少一个处理器31通信连接的存储器32;其中,存储器 32存储有可被至少一个处理器31执行的指令,指令被至少一个处理器31执行, 以使至少一个处理器31能够执行上述的短文本相似度评估方法。
其中,存储器32和处理器31采用总线方式连接,总线可以包括任意数量 的互联的总线和桥,总线将一个或多个处理器31和存储器32的各种电路连接 在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其 他电路连接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一 步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也 可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其 他装置通信的单元。经处理器31处理的数据通过天线在无线介质上进行传输, 进一步,天线还接收数据并将数据传送给处理器31。
处理器31负责管理总线和通常的处理,还可以提供各种功能,包括定时, 外围接口,电压调节、电源管理以及其他控制功能。而存储器32可以被用于存 储处理器31在执行操作时所使用的数据。
本发明再提供一种计算机可读存储介质,存储有计算机程序。计算机程序 被处理器执行时实现上述方法实施例。
可以发现,以上方案,可以采用上下文词向量方式,对短文本进行分词和 词向量化,和可以将该经分词和词向量化后的短文本与预先构建的局部敏感哈 希文本库中对应的簇比较得到比较结果,其中,该比较结果包括编辑距离比较 结果、模糊距离比较结果和语义距离比较结果等,和可以根据该比较结果,对 短文本的相似度进行评分得到评分集合,对该评分集合中对应的短文本进行近 似度管理,以及可以根据该经近似度管理后短文本,对短文本的近似度进行评 估,能够实现提高对短文本相似度评估的准确率。
进一步的,以上方案,可以采用上下文词向量方式,通过开源已经训练好 的中文预训练模型,经过特定的语料微调后,通过暴露服务,将短文本预先计 算词向量,对短文本进行词向量化,和通过将业务领域的词入字典的方式,对 短文本进行分词,这样的好处是能够实现对短文本进行准确的分词和词向量化。
进一步的,以上方案,可以将该经分词和词向量化后的短文本进行哈希计 算,将该经哈希计算后的短文本与预先构建的局部敏感哈希文本库中对应的簇 比较得到比较结果,这样的好处是由于两个短文本在原有的数据空间具有一定 的相似度,那么该两个短文本在分别经过哈希计算以后的短文本同样也具有一 定的相似度,相反,如果该两个短文本本身是不相似的,那么该两个短文本在 分别经过哈希计算以后的短文本同样也不相似,能够实现提高对短文本相似度 评估的准确率。
进一步的,以上方案,可以根据该比较结果,采用对编辑距离高、语义距 离低或者编辑距离低、语义距离高的进行惩罚的方式,对短文本的相似度进行 评分得到评分集合,和采用将不小于预设分值的评分对应的短文本纳入相似度 高的集合,将小于预设分值的评分对应的短文本纳入相似度低的集合的方式, 对该评分集合中对应的短文本进行近似度管理,这样的好处是能够实现通过将 不小于预设分值的评分对应的短文本纳入相似度高的集合,将小于预设分值的 评分对应的短文本纳入相似度低的集合的方式,对该评分集合中对应的短文本 进行近似度聚类管理,能够提高对短文本相似度评估的准确率。
进一步的,以上方案,可以根据该经近似度管理后短文本,采用在该相似 度高集合不为空时,则取该相似度高集合得分最大的最为输出,如果在该相似 度高集合为空,相似度低集合不为空时,将该相似度低集合比较的短文本和被 比较的短文本输入训练好的孪生相似网络,进行判定距离最近的,最为输出, 在该相似度高集合和该相似度低集合都为空时,则没有相似的短文本的方式, 对短文本的近似度进行评估,这样的好处是能够实现提高对短文本相似度评估 的准确率。
在本发明所提供的几个实施方式中,应该理解到,所揭露的系统,装置和 方法,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示 意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可 以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系 统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦 合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信 连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元 显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可 以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元 来实现本实施方式方案的目的。
另外,在本发明各个实施方式中的各功能单元可以集成在一个处理单元中, 也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元 中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的 形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用 时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技 术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分 可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中, 包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络 设备等)或处理器(processor)执行本发明各个实施方式方法的全部或部分步骤。 而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等 各种可以存储程序代码的介质。
以上所述仅为本发明的部分实施例,并非因此限制本发明的保护范围,凡 是利用本发明说明书及附图内容所作的等效装置或等效流程变换,或直接或间 接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (6)

1.一种短文本相似度评估方法,其特征在于,包括:
采用上下文词向量方式,对短文本进行分词和词向量化;
将所述经分词和词向量化后的短文本与预先构建的局部敏感哈希文本库中对应的簇比较得到比较结果;其中,所述比较结果包括编辑距离比较结果、模糊距离比较结果和语义距离比较结果;
根据所述比较结果,对短文本的相似度进行评分得到评分集合,对所述评分集合中对应的短文本进行近似度管理,采用对编辑距离高、语义距离低或者编辑距离低、语义距离高的进行惩罚的方式,对短文本的相似度进行评分得到评分集合,和采用将不小于预设分值的评分对应的短文本纳入相似度高的集合,将小于预设分值的评分对应的短文本纳入相似度低的集合的方式,对所述评分集合中对应的短文本进行近似度管理;
根据所述经近似度管理后短文本,对短文本的近似度进行评估,采用在所述相似度高集合不为空时,则取所述相似度高集合得分最大的最为输出,如果在所述相似度高集合为空,相似度低集合不为空时,将所述相似度低集合比较的短文本和被比较的短文本输入训练好的孪生相似网络,进行判定距离最近的,最为输出,在所述相似度高集合和所述相似度低集合都为空时,则没有相似的短文本的方式,对短文本的近似度进行评估。
2.如权利要求1所述的短文本相似度评估方法,其特征在于,所述采用上下文词向量方式,对短文本进行分词和词向量化,包括:
采用上下文词向量方式,通过开源已经训练好的中文预训练模型,经过特定的语料微调后,通过暴露服务,将短文本预先计算词向量,对短文本进行词向量化,和通过将业务领域的词入字典的方式,对短文本进行分词。
3.如权利要求1所述的短文本相似度评估方法,其特征在于,所述将所述经分词和词向量化后的短文本与预先构建的局部敏感哈希文本库中对应的簇比较得到比较结果,包括:
将所述经分词和词向量化后的短文本进行哈希计算,将所述经哈希计算后的短文本与预先构建的局部敏感哈希文本库中对应的簇比较得到比较结果。
4.一种短文本相似度评估装置,其特征在于,包括:
词处理模块、比较模块、管理模块和评估模块;
所述词处理模块,用于采用上下文词向量方式,对短文本进行分词和词向量化;
所述比较模块,用于将所述经分词和词向量化后的短文本与预先构建的局部敏感哈希文本库中对应的簇比较得到比较结果;其中,所述比较结果包括编辑距离比较结果、模糊距离比较结果和语义距离比较结果;
所述管理模块,用于根据所述比较结果,对短文本的相似度进行评分得到评分集合,对所述评分集合中对应的短文本进行近似度管理,采用对编辑距离高、语义距离低或者编辑距离低、语义距离高的进行惩罚的方式,对短文本的相似度进行评分得到评分集合,和采用将不小于预设分值的评分对应的短文本纳入相似度高的集合,将小于预设分值的评分对应的短文本纳入相似度低的集合的方式,对所述评分集合中对应的短文本进行近似度管理;
所述评估模块,用于根据所述经近似度管理后短文本,对短文本的近似度进行评估,采用在所述相似度高集合不为空时,则取所述相似度高集合得分最大的最为输出,如果在所述相似度高集合为空,相似度低集合不为空时,将所述相似度低集合比较的短文本和被比较的短文本输入训练好的孪生相似网络,进行判定距离最近的,最为输出,在所述相似度高集合和所述相似度低集合都为空时,则没有相似的短文本的方式,对短文本的近似度进行评估。
5.如权利要求4所述的短文本相似度评估装置,其特征在于,所述词处理模块,具体用于:
采用上下文词向量方式,通过开源已经训练好的中文预训练模型,经过特定的语料微调后,通过暴露服务,将短文本预先计算词向量,对短文本进行词向量化,和通过将业务领域的词入字典的方式,对短文本进行分词。
6.如权利要求4所述的短文本相似度评估装置,其特征在于,所述比较模块,具体用于:
将所述经分词和词向量化后的短文本进行哈希计算,将所述经哈希计算后的短文本与预先构建的局部敏感哈希文本库中对应的簇比较得到比较结果。
CN202010000869.1A 2020-01-02 2020-01-02 一种短文本相似度评估方法和装置以及设备 Active CN111241275B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010000869.1A CN111241275B (zh) 2020-01-02 2020-01-02 一种短文本相似度评估方法和装置以及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010000869.1A CN111241275B (zh) 2020-01-02 2020-01-02 一种短文本相似度评估方法和装置以及设备

Publications (2)

Publication Number Publication Date
CN111241275A CN111241275A (zh) 2020-06-05
CN111241275B true CN111241275B (zh) 2022-12-06

Family

ID=70870791

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010000869.1A Active CN111241275B (zh) 2020-01-02 2020-01-02 一种短文本相似度评估方法和装置以及设备

Country Status (1)

Country Link
CN (1) CN111241275B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112163145B (zh) * 2020-10-09 2024-01-30 杭州安恒信息技术股份有限公司 基于编辑距离与余弦夹角的网站检索方法、装置及设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106557485A (zh) * 2015-09-25 2017-04-05 北京国双科技有限公司 一种选取文本分类训练集的方法及装置
CN110287494A (zh) * 2019-07-01 2019-09-27 济南浪潮高新科技投资发展有限公司 一种基于深度学习bert算法的短文本相似匹配的方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079026B (zh) * 2007-07-02 2011-01-26 蒙圣光 文本相似度、词义相似度计算方法和系统及应用系统
CN106294350B (zh) * 2015-05-13 2019-10-11 阿里巴巴集团控股有限公司 一种文本聚合方法及装置
CN105808526B (zh) * 2016-03-30 2019-07-30 北京京东尚科信息技术有限公司 商品短文本核心词提取方法和装置
CN110472043B (zh) * 2019-07-03 2023-05-23 阿里巴巴集团控股有限公司 一种针对评论文本的聚类方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106557485A (zh) * 2015-09-25 2017-04-05 北京国双科技有限公司 一种选取文本分类训练集的方法及装置
CN110287494A (zh) * 2019-07-01 2019-09-27 济南浪潮高新科技投资发展有限公司 一种基于深度学习bert算法的短文本相似匹配的方法

Also Published As

Publication number Publication date
CN111241275A (zh) 2020-06-05

Similar Documents

Publication Publication Date Title
US11163947B2 (en) Methods and systems for multi-label classification of text data
CN108804641B (zh) 一种文本相似度的计算方法、装置、设备和存储介质
US20210382937A1 (en) Image processing method and apparatus, and storage medium
CN110532368B (zh) 问答方法、电子设备及计算机可读存储介质
CN110298035B (zh) 基于人工智能的字向量定义方法、装置、设备及存储介质
CN112368697A (zh) 经由对偶分解评估损失函数或损失函数的梯度的系统和方法
JP7076483B2 (ja) データモデルを構築する方法、装置、デバイス及び媒体
CN111985228B (zh) 文本关键词提取方法、装置、计算机设备和存储介质
CN109902290B (zh) 一种基于文本信息的术语提取方法、系统和设备
CN111159359A (zh) 文档检索方法、装置及计算机可读存储介质
CN111984792A (zh) 网站分类方法、装置、计算机设备及存储介质
CN114329029B (zh) 对象检索方法、装置、设备及计算机存储介质
CN110825843A (zh) 适于金融领域的训练方法、问答方法、装置及存储介质
CN115795061B (zh) 一种基于词向量和依存句法的知识图谱构建方法及系统
CN110245700B (zh) 分类模型构建方法、分类模型及物体识别方法
CN111241275B (zh) 一种短文本相似度评估方法和装置以及设备
US20150169682A1 (en) Hash Learning
US11176327B2 (en) Information processing device, learning method, and storage medium
CN108038109A (zh) 从非结构化文本中提取特征词的方法及系统、计算机程序
CN117076946A (zh) 一种短文本相似度确定方法、装置及终端
US20230267281A1 (en) Systems and methods for short text similarity based clustering
US11481389B2 (en) Generating an executable code based on a document
CN109446321A (zh) 一种文本分类方法、装置、终端及计算机可读存储介质
CN109947939B (zh) 文本分类方法、电子设备和计算机可读存储介质
KR102117281B1 (ko) 빈도 테이블을 이용한 챗봇 발언 생성 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant