CN110472002B

CN110472002B - 一种文本相似度获取方法和装置

Info

Publication number: CN110472002B
Application number: CN201910749755.4A
Authority: CN
Inventors: 罗莎; 季成晖; 梅秋艳; 卢俊之; 杨璧嘉; 杨玥; 陈永全
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-08-14
Filing date: 2019-08-14
Publication date: 2022-11-29
Anticipated expiration: 2039-08-14
Also published as: CN110472002A

Abstract

本申请实施例公开了一种文本相似度获取方法和装置，所述方法涉及人工智能领域中的自然语言处理方向，所述方法包括：分别对两个待区分文本进行特征提取，得到每个待区分文本对应的文本特征信息，获取每个待区分文本对应的待区分文本图像，根据待区分文本图像中相邻像素之间的差异值，构建待区分文本图像对应的图像特征信息，将文本特征信息和图像特征信息进行融合，得到待区分文本的融合特征信息，基于待区分文本的融合特征信息，获取两个待区分文本之间的相似度。该方案可以通过提取出文本多个模态的特征，从而提升文本相似度获取的准确性。

Description

一种文本相似度获取方法和装置

技术领域

本申请涉及计算机技术领域，具体涉及一种文本相似度获取方法和装置。

背景技术

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

在人工智能技术的自然语言处理领域中，会经常涉及度量两个文本之间相似度的问题。在用户面对信息检索或者对话系统等情形时，如果不能够准确的获取到文本之间的相似度，可能会产生检索错误或者理解偏差等状况，因此，准确的获取文本之间的相似度尤为重要。目前通常通过调整不同的文本词向量维度进行文本相似度的计算，然而通过这种方式获取到文本之间的相似度不够准确。

发明内容

本申请实施例提供一种文本相似度获取方法和装置，可以提升文本相似度获取的准确性。

本申请实施例提供一种文本相似度获取方法，包括：

分别对两个待区分文本进行特征提取，得到每个待区分文本对应的文本特征信息；

获取每个待区分文本对应的待区分文本图像；

根据所述待区分文本图像中相邻像素之间的差异值，构建所述待区分文本图像对应的图像特征信息；

将所述文本特征信息和所述图像特征信息进行融合，得到所述待区分文本的融合特征信息；

基于所述待区分文本的融合特征信息，获取两个待区分文本之间的相似度。

相应的，本申请实施例还提供一种文本相似度获取装置，包括：

特征提取模块，用于分别对两个待区分文本进行特征提取，得到每个待区分文本对应的文本特征信息；

获取模块，用于获取每个待区分文本对应的待区分文本图像；

构建模块，用于根据所述待区分文本图像中相邻像素之间的差异值，构建所述待区分文本图像对应的图像特征信息；

融合模块，用于将所述文本特征信息和所述图像特征信息进行融合，得到所述待区分文本的融合特征信息；

相似度获取模块，用于基于所述待区分文本的融合特征信息，获取两个待区分文本之间的相似度。

可选的，在一些实施例中，所述特征提取模块可以包括文本转换子模块和第一提取子模块，如下：

所述文本转换子模块，可以用于分别对两个待区分文本进行文本转换，得到每个待区分文本对应的初始文本特征信息；

所述第一提取子模块，可以用于对所述初始文本特征信息进行特征提取，得到所述待区分文本对应的文本特征信息。

可选的，在一些实施例中，所述构建模块可以包括组合子模块和第二提取子模块，如下：

所述组合子模块，可以用于将所述待区分文本图像中相邻像素之间的差异值进行组合，得到初始图像特征信息；

所述第二提取子模块，可以用于对所述初始图像特征信息进行特征提取，得到所述待区分文本图像对应的图像特征信息。

所述组合子模块可以用于对所述待区分文本图像进行灰度处理，得到灰度文本图像，获取所述灰度文本图像中相邻像素之间的多个差异值，将所述差异值进行组合，得到初始图像特征信息。

所述特征提取子模块可以用于对所述初始图像特征信息进行卷积操作，得到二次特征提取信息，对所述二次特征提取信息进行全连接运算，得到所述待区分文本图像对应的图像特征信息。

所述融合模块可以用于将所述文本特征信息和所述图像特征信息进行拼接，得到拼接后特征信息，根据所述拼接后特征信息，获取所述待区分文本的融合特征信息。

所述融合模块可以用于将所述文本特征信息与所述图像特征信息中对应位置的特征信息进行融合，得到融合后的特征信息，根据所述融合后的特征信息，获取所述待区分文本的融合特征信息。

所述文本转换子模块可以用于分别获取两个待区分文本中每个字符对应的多维度字符特征，根据所述字符对应的多维度字符特征，构建每个待区分文本对应的初始文本特征信息。

相应的，本申请实施例还提供另一种文本相似度获取方法，包括：

将两个待区分文本分别输入文本特征提取网络中，并基于所述文本特征提取网络，提取出每个待区分文本对应的文本特征信息；

获取每个待区分文本对应的待区分文本图像；

将所述待区分文本图像中相邻像素之间的差异值进行组合，得到初始图像特征信息；

将所述初始图像特征信息输入至图像特征提取网络中，并基于所述图像特征提取网络，提取出所述待区分文本图像对应的图像特征信息；

本申请实施例可以分别对两个待区分文本进行特征提取，得到每个待区分文本对应的文本特征信息，获取每个待区分文本对应的待区分文本图像，根据待区分文本图像中相邻像素之间的差异值，构建待区分文本图像对应的图像特征信息，将文本特征信息和图像特征信息进行融合，得到待区分文本的融合特征信息，基于待区分文本的融合特征信息，获取两个待区分文本之间的相似度。该方案可以通过人工智能提取出文本多个模态的特征，从而提升文本相似度获取的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的文本相似度获取系统的场景示意图；

图2是本申请实施例提供的文本相似度获取方法的第一流程图；

图3是本申请实施例提供的文本相似度获取方法的第二流程图；

图4是本申请实施例提供的文本相似度获取方法的第三流程图；

图5是本申请实施例提供的提取文本特征信息的示意图；

图6是本申请实施例提供的获取融合特征信息的流程示意图；

图7是本申请实施例提供的实验结果图；

图8是本申请实施例提供的文本相似度获取装置的结构示意图；

图9是本申请实施例提供的网络设备的结构示意图。

具体实施方式

请参照图式，其中相同的组件符号代表相同的组件，本申请的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本申请具体实施例，其不应被视为限制本申请未在此详述的其它具体实施例。

在以下的说明中，本申请的具体实施例将参考由一部或多部计算机所执行的步骤及符号来说明，除非另有述明。因此，这些步骤及操作将有数次提到由计算机执行，本文所指的计算机执行包括了由代表了以一结构化型式中的数据的电子信号的计算机处理单元的操作。此操作转换该数据或将其维持在该计算机的内存系统中的位置处，其可重新配置或另外以本领域测试人员所熟知的方式来改变该计算机的运作。该数据所维持的数据结构为该内存的实体位置，其具有由该数据格式所定义的特定特性。但是，本申请原理以上述文字来说明，其并不代表为一种限制，本领域测试人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。

本文所使用的术语“模块”可看作为在该运算系统上执行的软件对象。本文所述的不同组件、模块、引擎及服务可看作为在该运算系统上的实施对象。而本文所述的装置及方法可以以软件的方式进行实施，当然也可在硬件上进行实施，均在本申请保护范围之内。

本申请中的术语“第一”、“第二”和“第三”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、系统、产品或设备没有限定于已列出的步骤或模块，而是某些实施例还包括没有列出的步骤或模块，或某些实施例还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本申请实施例提供一种文本相似度获取方法，该文本相似度获取方法的执行主体可以是本申请实施例提供的文本相似度获取装置，或者集成了该文本相似度获取装置的网络设备，其中该文本相似度获取装置可以采用硬件或者软件的方式实现。其中，网络设备可以是智能手机、平板电脑、掌上电脑、笔记本电脑、或者台式电脑等设备。网络设备包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或者多个服务器构成的云。

请参阅图1，图1为本申请实施例提供的文本相似度获取方法的应用场景示意图，以文本相似度获取装置集成在网络设备中为例，网络设备可以分别对两个待区分文本进行特征提取，得到每个待区分文本对应的文本特征信息，获取每个待区分文本对应的待区分文本图像，根据待区分文本图像中相邻像素之间的差异值，构建待区分文本图像对应的图像特征信息，将文本特征信息和图像特征信息进行融合，得到待区分文本的融合特征信息，基于待区分文本的融合特征信息，获取两个待区分文本之间的相似度。

请参阅图2，图2为本申请实施例提供的文本相似度获取方法的流程示意图。本申请实施例提供的行为识别方法涉及人工智能的自然语言处理等技术，具体通过如下实施例进行说明:

其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。其中，人工智能软件技术主要包括自然语言处理、机器学习/深度学习等方向。

其中，自然语言处理(Nature Language processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究涉及自然语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

201、分别对两个待区分文本进行特征提取，得到每个待区分文本对应的文本特征信息。

其中，文本可以为书面语言的表现形式，文本可以为具有完整、系统含义的一个句子或者多个句子的组合，一个文本可以是一个句子、一个段落或者一个短语等等。在本申请实施例中，待区分文本主要指短文本，短文本可以包括由几个字组成的词语或者POI(Pointof Interest，兴趣点)名称等等。

其中，POI(Point of Interest，兴趣点)可以为现实世界中的一个位置点，POI可以包括名称、地址、坐标等基础属性。

其中，文本特征信息可以为表征文本特征的可处理结构化形式信息，为了使得计算机能够识别处理无结构的原始文本，可以对文本进行科学抽象，建立数学模型，用以描述和代替文本。文本特征信息能够表示文本内容，并将文本与其他文本进行区分。其中，文本特征信息的表示方式可以为多维的特征向量。

在实际应用中，可以分别对两个待区分文本进行特征提取，得到每个待区分文本对应的文本特征信息。比如，当需要对两个文本“久久丫”和“久久Y”进行区分时，可以通过特征提取，分别提取出“久久丫”对应的文本特征信息和“久久Y”对应的文本特征信息。

在一实施例中，可以通过将文本转换成为计算机能够识别的信息，进而对文本进行特征提取的步骤，从而提高文本特征信息获取的准确性。具体地，步骤“分别对两个待区分文本进行特征提取，得到每个待区分文本对应的文本特征信息”，可以包括：

分别对两个待区分文本进行文本转换，得到每个待区分文本对应的初始文本特征信息；

对所述初始文本特征信息进行特征提取，得到所述待区分文本对应的文本特征信息。

其中，初始文本特征信息可以为计算机能够识别并且包括文本特征的信息。初始文本特征信息是一种分布式表达，将文本映射到语义空间中，得到文本对应的语义向量，相似的文本对应的语义向量通常在语义空间中距离较近。该初始文本特征信息可以表示为向量或者矩阵的形式。

在实际应用中，可以分别对两个待区分文本进行文本转换，得到每个待区分文本对应的初始文本特征信息，对初始文本特征信息进行特征提取，得到待区分文本对应的文本特征信息。比如，可以通过词嵌入(Word Embedding)算法分别对两个待区分文本进行文本转换，采用分布式的词表示法获得文本对应的字向量，该字向量可以为初始文本特征信息。如图5所示，获取到初始文本特征信息后，可以通过CNN(卷积神经网络，ConvolutionalNeural Networks)网络中的多层卷积层提取初始文本特征信息的特征，进而通过最大池化层对提取出的特征进行池化，然后通过全连接层进行全连接运算，得到待区分文本对应的文本特征信息，该文本特征信息可以为300维的特征向量。

其中，机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、强化学习等技术。

其中，CNN(卷积神经网络，Convolutional Neural Networks)是包含卷积计算并且具有深度结构的前馈神经网络。卷积神经网络具有表征学习的能力，能够按照阶层结构对输入信息进行平移不变的分类。卷积神经网络通过是仿造生物视知觉机制构建的，网络中隐含层内的卷积核参数共享和层间连接的稀疏性使得卷积神经网络能够以较小的计算量对格点化特征。其中，卷积神经网络可以包括卷积层、池化层、全连接层等等。

在一实施例中，为了获取更好度量文本之间相似性的初始文本特征信息，可以对文本中每个字符进行多维度特征的获取，如可以获取每个字符与相邻字符之间的关系，进而提升初始文本特征信息获取的准确性。具体地，步骤“分别对两个待区分文本进行文本转换，得到每个待区分文本对应的初始文本特征信息”，可以包括：

分别获取两个待区分文本中每个字符对应的多维度字符特征；

根据所述字符对应的多维度字符特征，构建每个待区分文本对应的初始文本特征信息。

在实际应用中，可以分别获取两个待区分文本中每个字符对应的多维度字符特征，根据字符对应的多维度字符特征，构建每个待区分文本对应的初始文本特征信息。比如，可以通过word2vec深度学习，获取待区分文本中每个字对应多维度的特征，如每个字的特征、以及每个字和其相邻字之间的关系特征等等，进而根据获取到的字符特征，将待区分文本映射成为字向量，构成向量空间，该字向量即为待区分文本对应的初始文本特征信息，因此可以通过统计学的方法进行文本之间关系的研究。

其中，word2vec(word to vector)模型是一种用来产生向量的相关模型，该模型为双层的神经网络，可以重新建构语言学的词文本，能够猜测相邻位置的输入词。word2vec模型可以用来将每个词映射成为一个向量，该向量可以表示词与词之间的关系。

在一实施例中，还可以用其他的网络模型将待区分文本转化为相应的初始文本特征信息，只要转化后的初始文本特征信息能够表征待区分文本的特征，并易于计算机处理即可。

在一实施例中，还可以获取多个POI名称文本作为训练样本，如该POI名称文本可以为地理名称等等，然后通过获取到的训练样本对word2vec模型进行预训练，使得训练后的word2vec模型可以将待区分文本转化为相应的初始文本特征信息。

202、获取每个待区分文本对应的待区分文本图像。

在实际应用中，为了提高文本相似度获取的准确性，可以提取待区分文本对应的多种模态的特征，如可以通过文本获取待区分文本对应的文本特征信息，还可以通过将文本转换为图像，进而获取待区分文本对应的图像特征信息。比如，可以将待区分文本看作为一幅图像，并通过截图等方式获取到待区分文本对应的待区分文本图像。

在一实施例中，获取待区分文本对应待区分文本图像的方法可以有多种，比如，可以通过截图软件获取相应文本对应的图像，将待区分文本所在区域截图转换成待区分文本图像。又比如，还可以从本地存储或者从网络侧设备等获取待区分文本对应的待区分文本图像。

203、根据待区分文本图像中相邻像素之间的差异值，构建待区分文本图像对应的图像特征信息。

在实际应用中，由于图像的像素就可以表征图像的特征，因此可以通过获取待区分文本图像对应的图像特征信息，进行待区分文本图像之间相似度的判断。比如，可以通过差异哈希方法，获取待区分文本图像中相邻像素之间的差异值，进而根据获取到的差异值，构建待区分文本图像对应的图像特征信息。

其中，哈希(Hash)，可以为把任意长度输入通过散列算法变换成固定长度输出的方法，该输出就是散列值。这种转换是一种压缩映射，即散列值的空间通常小于输入的空间，哈希可以理解为一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。

在一实施例中，为了获取到准确的图像特征信息，可以通过差异哈希将获取到的差异值进行组合，得到可以区分图像相似度的图像特征信息。具体地，步骤“根据所述待区分文本图像中相邻像素之间的差异值，构建所述待区分文本图像对应的图像特征信息”，可以包括：

对所述初始图像特征信息进行特征提取，得到所述待区分文本图像对应的图像特征信息。

在实际应用中，可以将待区分文本图像中相邻像素之间的差异值进行组合，得到初始图像特征信息，对初始图像特征信息进行特征提取，得到待区分文本图像对应的图像特征信息。比如，可以将待区分文本图像视为文本对应的特征向量，并对特征向量中相邻的两个元素进行相减，如可以用左边元素减去右边元素，得到多个差异值。然后可以对多个差异值进行处理，若差异值为正数或者0，可以将其记为1，若差异值为负数，可以将其记为0。对差异值进行处理后，可以将处理后的所有差异值进行组合，得到哈希值，该哈希值即为初始图像特征信息，该初始图像特征信息可以称为图像指纹。获取到图像指纹后，可以对图像指纹进行特征提取，得到图像特征信息，该图像特征信息可以为300维的特征向量。

在一实施例中，为了便于获取图像相邻像素之间的差异值，可以对待处理文本图像进行预处理。具体地，步骤“将所述待区分文本图像中相邻像素之间的差异值进行组合，得到初始图像特征信息”，可以包括：

对所述待区分文本图像进行灰度处理，得到灰度文本图像；

获取所述灰度文本图像中相邻像素之间的多个差异值；

将所述差异值进行组合，得到初始图像特征信息。

在实际应用中，可以对待区分文本图像进行灰度处理，得到灰度文本图像，获取灰度文本图像中相邻像素之间的多个差异值，将差异值进行组合，得到初始图像特征信息。比如，可以将待区分文本转换为64×64的待区分文本图像，并对该待区分文本图像进行灰度处理，得到初始灰度文本图像，以便简化待区分文本图像的色彩。然后可以将初始灰度文本图像进行压缩，压缩为32×32尺寸的灰度文本图像。然后可以通过pixel2vec将灰度文本图像转换为特征向量的形式，并获取灰度文本图像对应特征向量中相邻像素之间的多个差异值，然后将差异值进行组合，得到初始图像特征信息。

在一实施例中，获取到初始图像特征信息后，可以根据该初始图像特征信息进行特征提取，以便提取出表征图像特征的图像特征信息。具体地，步骤“对所述初始图像特征信息进行特征提取，得到所述待区分文本图像对应的图像特征信息”，可以包括：

对所述初始图像特征信息进行卷积操作，得到二次特征提取信息；

对所述二次特征提取信息进行全连接运算，得到所述待区分文本图像对应的图像特征信息。

在实际应用中，可以对初始图像特征信息进行卷积操作，得到二次特征提取信息，对二次特征提取信息进行全连接运算，得到待区分文本图像对应的图像特征信息。比如，获取到初始图像特征信息后，可以通过CNN(卷积神经网络，Convolutional NeuralNetworks)网络中的多层卷积层提取初始图像特征信息的特征，进而通过最大池化层对提取出的特征进行池化，然后通过全连接层进行全连接运算，得到待区分文本图像对应的图像特征信息。

在一实施例中，获取文本特征信息和获取图像特征信息之间没有固定的时序关系，即还可以先获取图像特征信息，再获取文本特征信息。

204、将文本特征信息和图像特征信息进行融合，得到待区分文本的融合特征信息。

在实际应用中，为了获取到待区分文本对应的多种模态的融合特征信息，可以将获取到的文本特征信息和图像特征信息进行融合，得到待区分文本的融合特征信息。比如，如图6所示，由于获取到的文本特征信息和图像特征信息都为300维的特征向量，因此可以通过向量融合的方式，获取到待区分文本的融合特征信息。

在一实施例中，可以通过向量拼接的方式进行不同模态间特征信息的融合。具体地，步骤“将所述文本特征信息和所述图像特征信息进行融合，得到所述待区分文本的融合特征信息”，可以包括：

将所述文本特征信息和所述图像特征信息进行拼接，得到拼接后特征信息；

根据所述拼接后特征信息，获取所述待区分文本的融合特征信息。

在实际应用中，可以将文本特征信息和图像特征信息进行拼接，得到拼接后特征信息，根据拼接后特征信息，获取待区分文本的融合特征信息。比如，由于获取到的文本特征信息和图像特征信息都为300维的特征向量，因此可以通过简单的拼接，将文本特征信息和图像特征信息合成一个大的特征向量，该合成后的特征向量可以称为融合特征信息。

在一实施例中，由于文本特征信息和图像特征信息可以看作矩阵的形式，因此，还可以通过矩阵融合的方式进行特征信息的融合。具体地，步骤“将所述文本特征信息和所述图像特征信息进行融合，得到所述待区分文本的融合特征信息”，可以包括：

将所述文本特征信息与所述图像特征信息中对应位置的特征信息进行融合，得到融合后的特征信息；

根据所述融合后的特征信息，获取所述待区分文本的融合特征信息。

在实际应用中，可以将文本特征信息与图像特征信息中对应位置的特征信息进行融合，得到融合后的特征信息，根据融合后的特征信息，获取待区分文本的融合特征信息。比如，可以通过哈达玛(Hadamard)变换，将两个特征向量对应位置的元素相乘，得到与文本特征信息以及图像特征信息尺寸相同的特征向量，该变换后得到的特征向量即为待区分文本对应的融合特征信息。

205、基于待区分文本的融合特征信息，获取两个待区分文本之间的相似度。

在实际应用中，由于融合特征信息为特征向量的形式，因此可以通过计算特征向量之间的相似度，获取两个待区分文本之间相似度。比如，可以将融合特征信息对应的特征向量根据坐标值，绘制到向量空间中，并通过计算两个融合特征信息对应特征向量的夹角余弦值，进行文本相似度的获取。

在一实施例中，可以通过实验验证该文本相似度获取方法的准确性。如图7所示，可以得知通过提取待区分文本多模态的特征信息，文本匹配的准确率和召回率都得到了提高。

由上可知，本申请实施例可以分别对两个待区分文本进行特征提取，得到每个待区分文本对应的文本特征信息，获取每个待区分文本对应的待区分文本图像，根据待区分文本图像中相邻像素之间的差异值，构建待区分文本图像对应的图像特征信息，将文本特征信息和图像特征信息进行融合，得到待区分文本的融合特征信息，基于待区分文本的融合特征信息，获取两个待区分文本之间的相似度。该方案可以通过人工智能分别获取待区分文本对应的文本特征信息和图像特征信息，并将获取到多模态的特征信息进行融合，实现文本和图像的结合，由于引入了文本对应的图像特征信息，因此可以提升文本相似度获取的准确性。

根据前面实施例所描述的方法，以下将以该文本相似度获取装置具体集成在网络设备举例作进一步详细说明。

在本申请实施例中，该文本相似度获取方法可以应用于手图的底图、以及导航等场景下，在应用过程中可以将POI数据作为基础的数据资源。比如，在手图场景下，当用户搜索“久久丫”时，发现没有召回正确的POI数据，其原因可能是由于POI数据中存储了错误的名称。如表1所示，由于存在许多难以区分的异体字以及形近字，因此会导致计算机的匹配错误，为了提升词语识别的准确性，可以采用本申请实施例提供的文本相似度获取方法。

表1

久久Y	久久丫
		南园大厦	南国大厦
椰鸟	椰岛

参考图3，本申请实施例的文本相似度获取方法的具体流程可以如下：

301、网络设备分别对第一文本和第二文本进行特征提取，得到第一文本对应的第一文本特征向量、以及第二文本对应的第二文本特征向量。

在实际应用中，网络设备可以获取两个待区分文本，第一文本和第二文本。然后可以通过word2vec深度学习，分别获取第一文本和第二文本中每个字对应多维度的特征，进而根据获取到的字符特征，分别将第一文本和第二文本映射成字向量，构成向量空间，该字向量即为待区分文本对应的初始文本特征向量，因此可以通过统计学的方法进行文本之间关系的研究。

网络设备获取到第一文本对应的第一初始文本特征向量、以及第二文本对应的第二初始文本特征向量后，可以分别通过卷积神经网络中的多层卷积层提取初始文本特征向量的特征，进而通过最大池化层对提取出的特征进行池化，然后通过全连接层进行全连接运算，得到第一文本对应300维的第一文本特征向量、以及第二文本对应300维的第二文本特征向量。

302、网络设备获取第一文本对应的第一图像、以及第二文本对应的第二图像。

在实际应用中，网络设备可以分别将第一文本和第二文本视为图像，并通过截图等方式获取第一文本对应的尺寸为64×64的第一图像、以及第二文本对应的尺寸为64×64的第二图像，从而将文本转换为图像，以便提取多模态的特征向量。

303、网络设备通过差异哈希算法，分别获取第一图像对应的第一图像指纹、以及第二图像对应的第二图像指纹。

在实际应用中，网络设备可以分别将尺寸为64×64的第一图像和尺寸为64×64的第二图像进行灰度处理，得到第一初始灰度文本图像和第二初始灰度文本图像，并对获取到的第一初始灰度文本图像和第二初始灰度文本图像进行压缩处理，分别压缩为尺寸为32×32的第一灰度文本图像和第二灰度文本图像。然后可以通过pixel2vec分别将第一灰度文本图像和第二灰度文本图像转换为特征向量的形式，并利用灰度文本图像中相邻的两个元素中左边的元素减去右边的元素，得到多个差异值。然后可以对多个差异值进行处理，若差异值为正数或者0，可以将其记为1，若差异值为负数，可以将其记为0。对差异值进行处理后，可以将处理后的所有差异值进行组合，得到哈希值，该哈希值即为图像指纹，从而可以获取到第一图像对应的第一图像指纹、以及第二图像对应的第二图像指纹。

304、网络设备分别对第一图像指纹和第二图像指纹进行特征提取，得到第一图像对应的第一图像特征向量、以及第二图像对应的第二图像特征向量。

在实际应用中，网络设备获取到第一图像指纹和第二图像指纹后，可以将第一图像指纹和第二图像指纹分别输入至卷积神经网络中，通过卷积神经网络中多层卷积层提取特征，进而通过最大池化层对提取出的特征进行池化，然后通过全连接层进行全连接运算，得到第一图像对应的第一图像特征向量、以及第二图像对应的第二图像特征向量。

305、网络设备将第一文本特征向量和第一图像特征向量进行融合，得到第一文本对应的第一融合特征向量。

在实际应用中，网络设备可以将第一文本特征向量和第一图像特征向量进行融合，可以通过简单拼接，得到融合后的大特征向量，该大特征向量即为第一文本对应的第一融合特征向量。

在一实施例中，网络设备还可以通过哈达玛变换，将第一文本特征向量和第一图像特征向量对应位置的元素相乘，得到与第一文本特征向量和第一图像特征向量尺寸相同的特征向量，该变换后得到的特征向量即为第一文本对应的第一融合特征向量。

306、网络设备将第二文本特征向量和第二图像特征向量进行融合，得到第二文本对应的第二融合特征向量。

在实际应用中，第二文本对应的第二融合特征向量的获取方法与第一融合特征向量的获取方法相同，此处不再赘述。

307、网络设备计算第一融合特征向量和第二融合特征向量之间的余弦相似度。

在一实施例中，网络设备可以将第一融合特征向量和第二融合特征向量根据坐标值，绘制到向量空间中，并通过计算第一融合特征向量和第二融合特征向量之间的夹角余弦值，进行第一文本和第二文本之间相似度的获取。

由上可知，本申请实施例可以通过网络设备分别对第一文本和第二文本进行特征提取，得到第一文本对应的第一文本特征向量、以及第二文本对应的第二文本特征向量，获取第一文本对应的第一图像、以及第二文本对应的第二图像，通过差异哈希算法，分别获取第一图像对应的第一图像指纹、以及第二图像对应的第二图像指纹，分别对第一图像指纹和第二图像指纹进行特征提取，得到第一图像对应的第一图像特征向量、以及第二图像对应的第二图像特征向量，将第一文本特征向量和第一图像特征向量进行融合，得到第一文本对应的第一融合特征向量，将第二文本特征向量和第二图像特征向量进行融合，得到第二文本对应的第二融合特征向量，计算第一融合特征向量和第二融合特征向量之间的余弦相似度。该方案可以通过人工智能分别获取待区分文本对应的文本特征信息和图像特征信息，并将获取到多模态的特征信息进行融合，实现文本和图像的结合，由于引入了文本对应图像的特征信息，因此可以提升文本相似度获取的准确性。

请参阅图4，图4为本申请实施例提供的一种基于深度学习的文本相似度获取方法的流程示意图。本申请实施例提供的行为识别方法涉及人工智能的自然语言处理等技术，具体通过如下实施例进行说明:

401、网络设备将两个待区分文本分别输入文本特征提取网络中，并基于所述文本特征提取网络，提取出每个待区分文本对应的文本特征信息。

在实际应用中，网络设备可以将两个待区分文本分别输入文本特征提取网络中，该文本特征提取网络可以包括向量转换子网络和文本特征提取子网络。网络设备可以将两个待区分文本分别输入向量转换子网络中，分别获取两个待区分文本中每个字对应多维度的特征，进而根据获取到的字符特征，分别将两个待区分文本映射成字向量，构成向量空间，该字向量即为待区分文本对应的初始文本特征向量。

网络设备可以将获取到的初始文本特征向量输入至文本特征提取子网络中，分别通过文本特征提取子网络中的多层卷积层提取初始文本特征向量的特征，进而通过最大池化层对提取出的特征进行池化，然后通过全连接层进行全连接运算，得到每个待区分文本对应的文本特征信息。

402、网络设备获取每个待区分文本对应的待区分文本图像。

在实际应用中，网络设备可以分别将两个待区分文本视为图像，并通过截图等方式获取每个待区分文本对应的待区分文本图像，从而将文本转换为图像，以便提取多模态的特征向量。

403、网络设备将所述待区分文本图像中相邻像素之间的差异值进行组合，得到初始图像特征信息。

在实际应用中，网络设备可以分别将两个待区分文本图像进行灰度处理，得到初始灰度文本图像，并对获取到的初始灰度文本图像进行压缩处理，压缩成灰度文本图像。然后可以通过pixel2vec将灰度文本图像转换为特征向量的形式，并利用灰度文本图像中相邻的两个元素中左边的元素减去右边的元素，得到多个差异值。然后可以对多个差异值进行处理，若差异值为正数或者0，可以将其记为1，若差异值为负数，可以将其记为0。对差异值进行处理后，可以将处理后的所有差异值进行组合，得到哈希值，该哈希值即为初始图像特征信息。

404、网络设备将所述初始图像特征信息输入至图像特征提取网络中，并基于所述图像特征提取网络，提取出所述待区分文本图像对应的图像特征信息。

在实际应用中，网络设备获取到初始图像特征信息后，可以将初始图像特征信息输入至图像特征提取网络中，通过图像特征提取网络中多层卷积层提取特征，进而通过最大池化层对提取出的特征进行池化，然后通过全连接层进行全连接运算，得到待区分文本图像对应的图像特征信息。

405、网络设备将所述文本特征信息和所述图像特征信息进行融合，得到所述待区分文本的融合特征信息。

在实际应用中，网络设备可以将文本特征向量和图像特征向量进行融合，可以通过简单拼接，得到融合后的大特征向量，该大特征向量即为待区分文本的融合特征信息。

在一实施例中，网络设备还可以通过哈达玛变换，将文本特征向量和图像特征向量对应位置的元素相乘，得到与文本特征向量和图像特征向量尺寸相同的特征向量，该变换后得到的特征向量即为待区分文本的融合特征信息。

406、网络设备基于所述待区分文本的融合特征信息，获取两个待区分文本之间的相似度。

在一实施例中，网络设备可以将两个待区分文本对应的融合特征信息根据坐标值，绘制到向量空间中，并通过计算两个融合特征信息之间的夹角余弦值，获取两个待区分文本之间的相似度。

由上可知，本申请实施例可以通过网络设备将两个待区分文本分别输入文本特征提取网络中，并基于所述文本特征提取网络，提取出每个待区分文本对应的文本特征信息，获取每个待区分文本对应的待区分文本图像，将所述待区分文本图像中相邻像素之间的差异值进行组合，得到初始图像特征信息，将所述初始图像特征信息输入至图像特征提取网络中，并基于所述图像特征提取网络，提取出所述待区分文本图像对应的图像特征信息，将所述文本特征信息和所述图像特征信息进行融合，得到所述待区分文本的融合特征信息，基于所述待区分文本的融合特征信息，获取两个待区分文本之间的相似度。该方案可以通过人工智能分别获取待区分文本对应的文本特征信息和图像特征信息，并将获取到多模态的特征信息进行融合，实现文本和图像的结合，由于引入了文本对应图像的特征信息，因此可以提升文本相似度获取的准确性。

为了更好地实施以上方法，本申请实施例还可以提供一种文本相似度获取装置，该文本相似度获取装置具体可以集成在网络设备中，该网络设备可以包括服务器、终端等，其中，终端可以包括：手机、平板电脑、笔记本电脑或个人计算机(PC，Personal Computer)等。

例如，如图8所示，该文本相似度获取装置可以包括特征提取模块81、获取模块82、构建模块83、融合模块84和相似度获取模块85，如下：

特征提取模块81，用于分别对两个待区分文本进行特征提取，得到每个待区分文本对应的文本特征信息；

获取模块82，用于获取每个待区分文本对应的待区分文本图像；

构建模块83，用于根据所述待区分文本图像中相邻像素之间的差异值，构建所述待区分文本图像对应的图像特征信息；

融合模块84，用于将所述文本特征信息和所述图像特征信息进行融合，得到所述待区分文本的融合特征信息；

相似度获取模块85，用于基于所述待区分文本的融合特征信息，获取两个待区分文本之间的相似度。

在一实施例中，所述特征提取模块81可以包括文本转换子模块811和第一提取子模块812，如下：

文本转换子模块811，用于分别对两个待区分文本进行文本转换，得到每个待区分文本对应的初始文本特征信息；

第一提取子模块812，用于对所述初始文本特征信息进行特征提取，得到所述待区分文本对应的文本特征信息。

在一实施例中，所述构建模块83可以包括组合子模块831和第二提取子模块832，如下：

组合子模块831，用于将所述待区分文本图像中相邻像素之间的差异值进行组合，得到初始图像特征信息；

第二提取子模块832，用于对所述初始图像特征信息进行特征提取，得到所述待区分文本图像对应的图像特征信息。

在一实施例中，所述组合子模块831可以具体用于：

对所述待区分文本图像进行灰度处理，得到灰度文本图像；

获取所述灰度文本图像中相邻像素之间的多个差异值；

将所述差异值进行组合，得到初始图像特征信息。

在一实施例中，所述特征提取子模块832可以具体用于：

在一实施例中，所述融合模块84可以具体用于：

在一实施例中，所述文本转换子模块811可以具体用于：

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

由上可知，本实施例的文本相似度获取装置可以通过特征提取模块81分别对两个待区分文本进行特征提取，得到每个待区分文本对应的文本特征信息，通过获取模块82获取每个待区分文本对应的待区分文本图像，通过构建模块83根据待区分文本图像中相邻像素之间的差异值，构建待区分文本图像对应的图像特征信息，通过融合模块84将文本特征信息和图像特征信息进行融合，得到待区分文本的融合特征信息，通过相似度获取模块85基于待区分文本的融合特征信息，获取两个待区分文本之间的相似度。该方案可以通过人工智能分别获取待区分文本对应的文本特征信息和图像特征信息，并将获取到多模态的特征信息进行融合，实现文本和图像的结合，由于引入了文本对应图像的特征信息，因此可以提升文本相似度获取的准确性。

本申请实施例还提供一种网络设备，该网络设备可以集成本申请实施例所提供的任一种文本相似度获取装置。

例如，如图9所示，其示出了本申请实施例所涉及的网络设备的结构示意图，具体来讲：

该网络设备可以包括一个或者一个以上处理核心的处理器91、一个或一个以上计算机可读存储介质的存储器92、电源93和输入单元94等部件。本领域技术人员可以理解，图9中示出的网络设备结构并不构成对网络设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器91是该网络设备的控制中心，利用各种接口和线路连接整个网络设备的各个部分，通过运行或执行存储在存储器92内的软件程序和/或模块，以及调用存储在存储器92内的数据，执行网络设备的各种功能和处理数据，从而对网络设备进行整体监控。可选的，处理器91可包括一个或多个处理核心；优选的，处理器91可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器91中。

存储器92可用于存储软件程序以及模块，处理器91通过运行存储在存储器92的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器92可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据网络设备的使用所创建的数据等。此外，存储器92可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器92还可以包括存储器控制器，以提供处理器91对存储器92的访问。

网络设备还包括给各个部件供电的电源93，优选的，电源93可以通过电源管理系统与处理器91逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源93还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该网络设备还可包括输入单元94，该输入单元94可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，网络设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，网络设备中的处理器91会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器92中，并由处理器91来运行存储在存储器92中的应用程序，从而实现各种功能，如下：

分别对两个待区分文本进行特征提取，得到每个待区分文本对应的文本特征信息，获取每个待区分文本对应的待区分文本图像，根据待区分文本图像中相邻像素之间的差异值，构建待区分文本图像对应的图像特征信息，将文本特征信息和图像特征信息进行融合，得到待区分文本的融合特征信息，基于待区分文本的融合特征信息，获取两个待区分文本之间的相似度。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

由上可知，本申请实施例可以分别对两个待区分文本进行特征提取，得到每个待区分文本对应的文本特征信息，获取每个待区分文本对应的待区分文本图像，根据待区分文本图像中相邻像素之间的差异值，构建待区分文本图像对应的图像特征信息，将文本特征信息和图像特征信息进行融合，得到待区分文本的融合特征信息，基于待区分文本的融合特征信息，获取两个待区分文本之间的相似度。该方案可以通过人工智能分别获取待区分文本对应的文本特征信息和图像特征信息，并将获取到多模态的特征信息进行融合，实现文本和图像的结合，由于引入了文本对应图像的特征信息，因此可以提升文本相似度获取的准确性。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请实施例所提供的任一种文本相似度获取方法中的步骤。例如，该指令可以执行如下步骤：

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本申请实施例所提供的任一种文本相似度获取方法中的步骤，因此，可以实现本申请实施例所提供的任一种文本相似度获取方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的文本相似度获取方法、装置、系统、存储介质以及计算机设备文本相似度获取进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种文本相似度获取方法，其特征在于，包括：

分别根据两个待区分文本中每个字符的特征以及所述字符与相邻字符的关系特征得到所述字符的多维度字符特征；

针对每个待区分文本，根据所述待区分文本中字符的多维度字符特征，得到所述待区分文本的文本特征信息；

获取每个待区分文本对应的待区分文本图像，所述待区分文本图像为将所述待区分文本转换为图像后的文本图像；

针对每个待区分文本图像，获取所述待区分文本图像中相邻像素之间的差异值，并将所述差异值进行组合，得到哈希值，将所述哈希值作为初始图像特征信息；

针对每个待区分文本图像，对所述待区分文本图像对应的初始图像特征信息进行特征提取，得到所述待区分文本图像对应的图像特征信息；

2.根据权利要求1所述的文本相似度获取方法，其特征在于，针对每个待区分文本，根据所述待区分文本中字符的多维度字符特征，得到所述待区分文本的文本特征信息，包括：

3.根据权利要求1所述的文本相似度获取方法，其特征在于，针对每个待区分文本图像，获取所述待区分文本图像中相邻像素之间的差异值，包括：

针对每个待区分文本图像，对所述待区分文本图像进行灰度处理，得到灰度文本图像；

获取所述灰度文本图像中相邻像素之间的多个差异值。

4.根据权利要求1所述的文本相似度获取方法，其特征在于，针对每个待区分文本图像，对所述待区分文本图像对应的所述初始图像特征信息进行特征提取，得到所述待区分文本图像对应的图像特征信息，包括：

5.根据权利要求1所述的文本相似度获取方法，其特征在于，将所述文本特征信息和所述图像特征信息进行融合，得到所述待区分文本的融合特征信息，包括：

6.根据权利要求1所述的文本相似度获取方法，其特征在于，将所述文本特征信息和所述图像特征信息进行融合，得到所述待区分文本的融合特征信息，包括：

7.一种文本相似度获取装置，其特征在于，包括：

特征提取模块，用于分别根据两个待区分文本中每个字符的特征以及所述字符与相邻字符的关系特征得到所述字符的多维度字符特征；

获取模块，用于获取每个待区分文本对应的待区分文本图像，所述待区分文本图像为将所述待区分文本转换为图像后的文本图像；

构建模块，用于针对每个待区分文本图像，获取所述待区分文本图像中相邻像素之间的差异值，并将所述差异值进行组合，得到哈希值，将所述哈希值作为初始图像特征信息；

8.根据权利要求7所述的文本相似度获取装置，其特征在于，所述特征提取模块包括：

文本转换子模块，可以用于针对每个待区分文本，根据所述待区分文本中字符的多维度字符特征，构建所述待区分文本对应的初始文本特征信息；

第一提取子模块，可以用于对所述初始文本特征信息进行特征提取，得到所述待区分文本对应的文本特征信息。

9.根据权利要求7所述的文本相似度获取装置，其特征在于，所述构建模块具体用于：

对所述待区分文本图像进行灰度处理，得到灰度文本图像；

获取所述灰度文本图像中相邻像素之间的多个差异值。

10.根据权利要求7所述的文本相似度获取装置，其特征在于，所述构建模块具体用于：

针对每个待区分文本图像，对所述待区分文本图像对应的初始图像特征信息进行卷积操作，得到二次特征提取信息；

11.根据权利要求7所述的文本相似度获取装置，其特征在于，所述融合模块具体用于：

将所述文本特征信息和所述图像特征信息进行拼接，得到拼接后特征信息，根据所述拼接后特征信息，获取所述待区分文本的融合特征信息。

12.根据权利要求7所述的文本相似度获取装置，其特征在于，所述融合模块具体用于：

将所述文本特征信息与所述图像特征信息中对应位置的特征信息进行融合，得到融合后的特征信息，根据所述融合后的特征信息，获取所述待区分文本的融合特征信息。

13.一种基于深度学习的文本相似度获取方法，其特征在于，包括：

将两个待区分文本分别输入文本特征提取网络中，并基于所述文本特征提取网络，提取出每个待区分文本中每个字符的特征以及所述字符与相邻字符的关系特征得到所述字符的多维度字符特征，针对每个待区分文本，根据所述待区分文本中字符的多维度字符特征，得到所述待区分文本对应的文本特征信息；

14.一种网络设备，其特征在于，包括处理器和存储器，所述存储器存储有应用程序，所述处理器用于运行所述存储器内的应用程序，以执行权利要求1至6任一项所述的文本相似度获取方法中的步骤。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至6任一项所述的文本相似度获取方法中的步骤。