CN116522168A

CN116522168A - 一种跨模态的文本相似度比较方法、装置及电子设备

Info

Publication number: CN116522168A
Application number: CN202310811407.1A
Authority: CN
Inventors: 黄伟才; 孙鹏飞; 王俊平
Original assignee: Beijing Moqiu Technology Co ltd
Current assignee: Beijing Moqiu Technology Co ltd
Priority date: 2023-07-04
Filing date: 2023-07-04
Publication date: 2023-08-01

Abstract

本申请实施例公开了一种跨模态的文本相似度比较方法、装置及电子设备，涉及计算机技术领域，具体公开了方法包括：获取待比较的第一文本和第二文本；分别识别文本内容类型，并根据识别结果确定待转换的模态；将第一文本进行模态转换，得到第一转换内容，模态转换具有时间一致性；将第二文本进行模态转换，得到第二转换内容，第一转换内容和第二转换内容的模态相同；比较第一转换内容和第二转换内容，根据比较结果确定相似度。通过将文本转换为其他模态，例如图像视频音频等，能够更加直观更加准确地进行相似度检测，且无需大量数据训练，对于文字表述相似的文本也能够准确地通过其他模态的形式得到相似度，提升了相似度检测的准确性。

Description

一种跨模态的文本相似度比较方法、装置及电子设备

技术领域

本申请实施例涉及计算机技术领域，尤其涉及一种跨模态的文本相似度比较方法、装置及电子设备。

背景技术

文本相似度是采用数学方法衡量两个文本之间的相似程度的度量标准，在多个领域都被广泛应用。例如，文本相似度可以应用于衡量待查询词与文本之间的相似度、向用户推荐相关文本、将文本按类别分类、评估文本质量和检索相关答案等。

计算文本相似度的方法包括：基于规则的方法，根据领域知识和专家经验构建规则库，再根据规则进行匹配和计算文本相似度；基于统计的方法，通过计算词频、tf-idf值、余弦相似度等统计量来计算文本相似度；基于深度学习的方法，使用神经网络从大量数据中学习文本表示以计算文本相似度。

但是，以上方法存在很多问题，比如规则库难以涵盖全部情况，对于罕见的情况需要人工干预；基于统计无法处理词义不同但是意思相同的情况，还容易受到噪声和稀疏数据的影响；深度学习需要大量的数据来训练和调整模型，模型复杂度较高导致模型的解释性较差。因此，亟需一种文本相似度计算方法解决上述问题。

发明内容

本申请实施例提供了一种跨模态的文本相似度比较方法、装置及电子设备，能够解决上述的问题。

第一方面，本申请实施例提供了一种跨模态的文本相似度比较方法，所述方法包括：

获取待比较的第一文本和第二文本；

分别识别所述第一文本和所述第二文本的文本内容类型，并根据识别结果确定待转换的模态；所述文本内容类型包括以下类型中的至少一种：空间、时间、结构、包含关系、上下级关系、音量、情感、数量、重要性、快慢；所述模态包括：图像、视频、音频；

将所述第一文本进行模态转换，得到第一转换内容；所述模态转换具有时间一致性，即在不同的时间对同一文本进行模态转换得到的转换内容相同；

将所述第二文本进行模态转换，得到第二转换内容，所述第一转换内容和所述第二转换内容的模态相同；

比较所述第一转换内容和所述第二转换内容，根据比较结果确定所述第一文本和所述第二文本的相似度。

在一种可选的设计中，所述模态转换还包括：根据所述识别结果，将一个文本的至少部分内容分别转换为至少两种其他类型的模态表示的内容。

在一种可选的设计中，还包括：

计算所述第一转换内容和所述第二转换内容的相似度，基于所述相似度确定所述第一文本和所述第二文本的相似度。

在一种可选的设计中，还包括：

比较所述第一转换内容和所述第二转换内容，得到差异特征，根据所述差异特征确定所述第一文本和所述第二文本的相似度。

在一种可选的设计中，还包括：

根据所述至少两种其他类型的模态表示的内容计算相似度，得到至少两种相似度，根据所述至少两种相似度确定所述第一文本和所述第二文本的相似度。

在一种可选的设计中，还包括：

将所述第一转换内容转换为第三文本；

将所述第二转换内容转换为第四文本；

根据所述第三文本和所述第四文本确定所述第一文本和所述第二文本的相似度。

第二方面，本申请实施例提供了一种跨模态的文本相似度比较装置，所述装置包括：

接收模块，用于获取待比较的第一文本和第二文本；

处理模块，用于分别识别所述第一文本和所述第二文本的文本内容类型，并根据识别结果确定待转换的模态；所述文本内容类型包括以下类型中的至少一种：空间、时间、结构、包含关系、上下级关系、音量、情感、数量、重要性、快慢；所述模态包括：图像、视频、音频；将所述第一文本进行模态转换，得到第一转换内容；所述模态转换具有时间一致性，即在不同的时间对同一文本进行模态转换得到的转换内容相同；将所述第二文本进行模态转换，得到第二转换内容，所述第一转换内容和所述第二转换内容的模态相同；比较所述第一转换内容和所述第二转换内容，根据比较结果确定所述第一文本和所述第二文本的相似度。

还包括：

模态转换模块，用于根据所述识别结果，将一个文本的至少部分内容分别转换为至少两种其他类型的模态表示的内容。

第三方面，本申请实施例提供了一种电子设备，所述电子设备包括存储器和一个或多个处理器；其中，所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令；当所述计算机指令被所述处理器执行时，使得所述电子设备执行第一方面或第一方面各种可能的实现方式中的方法的部分或全部步骤。

第四方面，本申请实施例提供了一种计算机存储介质，该计算机存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行第一方面或第一方面各种可能的实现方式中的方法的部分或全部步骤。

本申请提供了一种跨模态的文本相似度比较方法，包括：获取待比较的第一文本和第二文本；将所述第一文本进行模态转换，得到第一转换内容；将所述第二文本进行模态转换，得到第二转换内容，所述第一转换内容和所述第二转换内容的模态相同；比较所述第一转换内容和所述第二转换内容，根据比较结果确定所述第一文本和所述第二文本的相似度。通过将文本转换为其他模态，例如图像视频音频等，能够更加直观更加准确地进行相似度检测，且无需大量数据训练，对于文字表述相似的文本也能够准确地通过其他模态的形式得到相似度。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单的介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种跨模态的文本相似度比较方法流程图；

图2为本申请实施例提供的一种跨模态的文本相似度比较装置结构图；

图3为本申请实施例提供的电子设备300的示例性结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例的技术方案进行描述。

本申请以下实施例中所使用的术语只是为了描述特定实施例的目的，而并非旨在作为对本申请的限制。如在本申请的说明书和所附权利要求书中所使用的那样，单数表达形式“一个”“一种”“所述”“上述”“该”和“这一”旨在也包括复数表达形式，除非其上下文中明确地有相反指示。还应当理解，尽管在以下实施例中可能采用术语第一、第二等来描述某一类对象，但所述对象不应限于这些术语。这些术语仅用来将该类对象的具体对象进行区分。例如，以下实施例中可能采用术语第一、第二等来描述文本，但文本不应限于这些术语。这些术语仅用来将不同的文本进行区分。以下实施例中可能采用术语第一、第二等来描述的其他类对象同理，此处不再赘述。

以下通过几种实施方式介绍本申请实施例涉及的一种跨模态的文本相似度比较方法。

如图1所示，图1示意了一种跨模态的文本相似度比较方法100（以下简称方法100），方法100包括以下步骤：

步骤S101，获取待比较的第一文本和第二文本。

步骤S102，分别识别所述第一文本和所述第二文本的文本内容类型，并根据识别结果确定待转换的模态；所述文本内容类型包括以下类型中的至少一种：空间、时间、结构、包含关系、上下级关系、音量、情感、数量、重要性、快慢；所述模态包括：图像、视频、音频。

步骤S103，将所述第一文本进行模态转换，得到第一转换内容；所述模态转换具有时间一致性，即在不同的时间对同一文本进行模态转换得到的转换内容相同。

步骤S104，将所述第二文本进行模态转换，得到第二转换内容，所述第一转换内容和所述第二转换内容的模态相同。

步骤S105，比较所述第一转换内容和所述第二转换内容，根据比较结果确定所述第一文本和所述第二文本的相似度。

该实施例中，首先分别识别第一文本和第二文本的文本内容类型，针对每一个文本，根据识别出的文本内容类型确定每个文本对应的模态，当第一文本和第二文本对应的模态相同时，分别将两个文本进行模态转换即可；当第一文本和第二文本对应的模态不同时，预先设定按照第一文本的模态将两个文本进行转换，或者按照第二文本的模态将两个文本进行转换。

该实施例中，将文本进行模态转换的方式有很多，例如，将文本跨模态转换为图像可以采用卷积神经网络，首先将文本表示为向量，然后将其输入到CNN中，以生成对应的图像表示，从而将文本转换为特定的图像。将文本跨模态转换为音频可以使用基于深度学习的WaveNet。WaveNet的主要目标是根据原始数据分布生成新的样本。因此，被称为生成模型。WaveNet就像NLP中的一个语言模型。在语言模型中，给定一个单词序列，该模型尝试预测下一个单词。类似于语言模型，在WaveNet中，给定一系列样本，它试图预测下一个样本。在本申请所公开的技术中，要求文本所生成的音乐尽可能的忠实于文本所表达的情绪、氛围等信息。此外，对于其他模态表示的内容，例如图像、视频、音频等，计算相似度的方法有很多，具体的模态转换方式和相似度比较算法可以根据实际情况进行选择和优化。

该实施例中，通过将文本转换为其他模态，例如图像视频音频等，能够更加直观更加准确地进行相似度检测，且无需大量数据训练，对于文字表述相似的文本也能够准确地通过其他模态的形式得到相似度，提升了相似度检测的准确性。

该实施例中，所述不同时间，至少包括对第一文本进行模态转换的时刻以及对第二文本进行模态转换的时刻。在本实施中，这个要求是很重要的。因为在很多基于人工智能的内容生成技术中，所生成的内容具有高度的灵活度。例如，某些模态转换工具支持文本到图像的转换，只要输入一段话比如“请画一张桌子”，就可以生成各种形态不一的“桌子”。在不同时间，输入同样一段话，“请画一张桌子”，其结果往往不同。这种灵活度不利于实现对文本内容相似度的准确比较。因此，在本实施例中，尽可能地限制模态转换中自由发挥的地方；或者即使是可以自由发挥，但在同样含义的输入下，具有一致的输出。

该实施例中，识别文本内容的类型并选择相适应的模态进行转换，例如图像、视频、音频等等。对于表达空间关系、时间关系、结构关系、包含与被包含关系、上下级关系、数量、重要性、快慢等的输入文本，可以选择采用图像或视频模态进行表示；对于表达音量大小、情感的输入文本，可以选择音频的模态进行表示。在本发明所公开的方案中，无论选择何种其他模态来表示，均要求尽可能忠实于文本内容。本领域技术人员可以知道，本申请中所述“相同”或“语义相同”不限于按照任一算法进行计算的差异为零，也包括按照某种比较算法下计算的差异足够小以致被认为相同，或者按照任一种算法计算得到的差异低于某一阈值或相似度高于某一阈值。

一种可选的实施方式中，所述模态转换还包括：根据所述识别结果，将一个文本的至少部分内容分别转换为至少两种其他类型的模态表示的内容。

该实施例中，有时候一种模态无法准确清楚地表达文本中包含的全部语义，例如文本E：小明和小李在一起，小明很悲伤。对于文本E的前半句，表示了小明和小李的位置关系，应该转换为图像模态进行表示，但是小明很悲伤的特征在图像模态下难以体现。因此，考虑对同一个文本的处理上引入更多其他模态，以更便利地表示第一第二文本语义的差异。

该实施例中，当第一文本和/或第二文本包含多个模态表示的内容时，模态转换包括：当第一文本和第二文本对应的多个模态中有相同的模态时，将相同模态的部分文本进行模态转换，并比较相似度，对于模态不同的部分文本，由于其模态不同，因此文本对应的类型也不同，很明显文本的相似度较低，因此，对于模态不同的部分文本直接规定一个较低权重的低相似度，以便后续相似度比较，即对于文本中不同模态的部分分别赋予不同的权重，并计算相似度。当两个文本所包含的全部模态均不相同时，同理，则直接认为两个文本的相似度较低。

一种可选的实施方式中，还包括：

该实施例中，将第一转换内容和第二转换内容的相似度作为第一文本和第二文本的相似度。例如，存在文本A：甲乙站在一起，甲站在乙的左边。B：甲乙站在一起，乙站在甲的右边。首先基于两个文本分别生成图像，再比较所生成图像的区别，可以推断基于A和B所生成的图像必然是相同的，二者相似度高，因此，对应的文本A和文本B相似度高。可以预先设定一个阈值，转换内容的相似度高于阈值的则可以认为原始文本语义相同。

该实施例中，另外输入两个文本C：甲乙站在一起，甲站在乙的左边。D：甲乙站在一起，乙站在甲的左边。基于两个文本分别生成图像，可以很明显地看出，C和D 的相似度较低，因此，C和D之间的相似度必然小于A和B之间的相似度。对于这种文本中包含位置关系的输入，将文本转换为图像模态可以更加客观直白的比较二者的相似度。

一种可选的实施方式中，还包括：

该实施例中，输入文本C：甲乙站在一起，甲站在乙的左边。D：甲乙站在一起，乙站在甲的左边。直接从文本对二者进行差异性分析，可能涉及计算机不太擅长的推理，得到精准结果的难度较大，因此，将两个文本分别转换为图像之后，确定差异特征，根据图像可以知道C和D之间的差异是显而易见的，并且容易从图像上推断出C和D的区别在于甲乙二人所站的位置不同，从而进一步判断出C和D的差异出现在“甲站在乙的左边”和“乙站在甲的左边”之间。

一种可选的实施方式中，还包括：

该实施例中，输入文本E：小明和小李在一起，小明很悲伤。F：小李和小明在一起，小李很快乐。对于文本E和F，采用图像模态进行表示两个文本的前段部分，即“小明和小李在一起”和“小李和小明在一起”，通过比较图像可以很容易得出前半部分语义相同。然后，采用音频表示两个文本的后半部分，即“小明很悲伤”和“小李很快乐”，分别生成一段表达悲伤的音频和一段表达快乐的音频，由于在音乐中表达悲伤和快乐的歌曲特征差异非常明显，因此很容易推断出文本E和F在后半部分语义间存在较大的差异。

该实施例中，基于文本E和F的前半部分生成的两个图像计算得到一个相似度a，基于文本E和F后半部分生成的两段音频计算得到另一个相似度b，基于相似度a和b计算第一文本和第二文本即文本E和F之间的相似度。其中，可以将相似度a和b的平均值或者加权平均值作为第一文本和第二文本的相似度。或者，基于预设的准则从相似度a或b中选择其一作为第一文本和第二文本的相似度，其中，预设准则可以是规定模态的优先级，取优先级高的模态表示的内容对应的相似度，也可以是其他自定的准则。

一种可选的实施方式中，还包括：

将所述第一转换内容转换为第三文本；

将所述第二转换内容转换为第四文本；

该实施例中，认定第一文本的语义与第三文本的语义相同，其中，所述转换具有时间一致性。即使第一文本和第三文本语义相同，但由于语言表达的灵活性，二者在文字形式上可能存在差异。比如“甲乙站在一起”和“甲和乙站在一起”。此外，执行由转换内容向文本的转换包括：在预设的转换内容和对应文本数据中查找与第一文本相同的转换内容从而确定第三文本，其中预设数据中的转换内容和对应文本数据语义相同。

综上，本申请实施例的跨模态的文本相似度比较方法，能够将文字转换成图像、视频、音频等其他模态，更加直观且准确地进行相似度检测。

对应方法100，本申请实施例还提供了执行上述方法的装置。

如图2所示，图2示意了一种跨模态的文本相似度比较装置200，所述装置包括：

接收模块201，用于获取待比较的第一文本和第二文本；

处理模块202，用于分别识别所述第一文本和所述第二文本的文本内容类型，并根据识别结果确定待转换的模态；所述文本内容类型包括以下类型中的至少一种：空间、时间、结构、包含关系、上下级关系、音量、情感、数量、重要性、快慢；所述模态包括：图像、视频、音频；将所述第一文本进行模态转换，得到第一转换内容；所述模态转换具有时间一致性，即在不同的时间对同一文本进行模态转换得到的转换内容相同；将所述第二文本进行模态转换，得到第二转换内容，所述第一转换内容和所述第二转换内容的模态相同；比较所述第一转换内容和所述第二转换内容，根据比较结果确定所述第一文本和所述第二文本的相似度。

还包括：

可以理解的是，以上各个模块/单元的划分仅仅是一种逻辑功能的划分，实际实现时，该以上各模块的功能可以集成到硬件实体实现，例如，处理模块的功能可以集成到处理器实现，收发模块的功能可以集成到收发器实现，实现上述各模块功能的程序和指令，可以维护在存储器中。例如，图3提供了一种电子设备300，该电子设备300包括可以包括处理器301、收发器302和存储器303。其中，收发器302用于执行方法100中各文本的接收。存储器303可以用于存储处理器301执行方法100所需的程序/代码等。

具体实现中，对应前述电子设备300，本申请实施例还提供一种计算机存储介质，其中，设置在电子设备300中的计算机存储介质可存储有程序，该程序执行时，可实施包括方法100至方法300的各实施例中的部分或全部步骤。该存储介质均可为磁碟、光盘、只读存储记忆体（read-only memory，ROM）或随机存储记忆体（random access memory，RAM）等。

所属领域的技术人员可以了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

需要特别说明的是，本申请所述方法中的任一步骤或多个步骤中的部分或全部，可以由一处理装置或系统单独实施，也可以由一处理装置或系统在其他一个或多个处理装置或系统协同下实施。所述方法中的任一步骤或多个步骤中的部分或全部步骤，既包括通过一处理装置或系统独立实施的情形，也包括一处理装置或系统在其他一个或多个处理装置或系统协同下实施的情形。

以本申请公开的将第一文本转换为至少一种其它模态表示的内容的方法为例，所述将第一文本转换为至少一种其它模态表示的内容的装置或系统，既包括独立实施将第一文本转换为至少一种其它模态表示的内容的处理装置或系统，也包括在其它一个或多个处理装置或系统协助下完成将第一文本转换为至少一种其它模态表示的内容的装置或系统。也即，本申请所述装置或系统，既包括独立实施本申请所公开方法的处理装置或系统，也包括在其他一个或多个处理装置或系统协助下实施本申请所公开方法的装置或系统。本申请所述方法，包括由一处理装置或系统单独实施的情形，也包括一处理装置或系统在其他一个或多个处理装置或系统协同下实施的情形

在本申请所提供的几个实施例中，应该理解到，所揭露的方法，装置和系统，可以通过其他的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其他的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，既可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，云游戏的控制装置，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（read-onlymemory，ROM）、随机存取存储器（random access memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

尽管已描述了本申请的可选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

以上所述的具体实施方式，对本申请的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本申请的具体实施方式而已，并不用于限定本申请的保护范围，凡在本申请的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种跨模态的文本相似度比较方法，其特征在于，所述方法包括：

获取待比较的第一文本和第二文本；

将所述第一文本进行模态转换，得到第一转换内容，所述模态转换具有时间一致性，即在不同的时间对同一文本进行模态转换得到的转换内容相同；

2.如权利要求1所述的方法，其特征在于，所述模态转换还包括：根据所述识别结果，将一个文本的至少部分内容分别转换为至少两种其他类型的模态表示的内容。

3.如权利要求1所述的方法，其特征在于，还包括：

4.如权利要求1所述的方法，其特征在于，还包括：

5.如权利要求2所述的方法，其特征在于，还包括：

6.如权利要求1所述的方法，其特征在于，还包括：

将所述第一转换内容转换为第三文本；

将所述第二转换内容转换为第四文本；

7.一种跨模态的文本相似度比较装置，其特征在于，所述装置包括：

接收模块，用于获取待比较的第一文本和第二文本；

8.如权利要求7所述的装置，其特征在于，还包括：

9.一种电子设备，其特征在于，所述电子设备包括存储器和一个或多个处理器；其中，所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令；当所述计算机指令被所述处理器执行时，使得所述电子设备执行如权利要求1至6中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，包括计算机程序，当所述计算机程序在计算机上运行时，使得所述计算机执行如权利要求1至6中任一项所述的方法。