CN108509407B - 文本语义相似度计算方法、装置及用户终端 - Google Patents

文本语义相似度计算方法、装置及用户终端 Download PDF

Info

Publication number
CN108509407B
CN108509407B CN201710109061.5A CN201710109061A CN108509407B CN 108509407 B CN108509407 B CN 108509407B CN 201710109061 A CN201710109061 A CN 201710109061A CN 108509407 B CN108509407 B CN 108509407B
Authority
CN
China
Prior art keywords
text
word vector
matrix
similarity
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710109061.5A
Other languages
English (en)
Other versions
CN108509407A (zh
Inventor
孟令勋
王嘉勋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Alibaba China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba China Co Ltd filed Critical Alibaba China Co Ltd
Priority to CN201710109061.5A priority Critical patent/CN108509407B/zh
Publication of CN108509407A publication Critical patent/CN108509407A/zh
Application granted granted Critical
Publication of CN108509407B publication Critical patent/CN108509407B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种文本语义相似度计算方法、装置及用户终端,涉及计算机领域。所述方法包括:建立第一文本对应的第一词向量矩阵以及第二文本对应的第二词向量矩阵;根据第一词向量矩阵、第二词向量矩阵以及预定模态数目,建立第一文本与第二文本间的多模态相似度矩阵;利用人工神经网络算法,迭代优化多模态相似度矩阵中的相似度量参数、第一词向量、第二词向量以及引入的神经网络人工神经网络参数;当达到预定迭代结束条件,以迭代输出结果作为所述第一文本与所述第二文本之间的语义相似度。该方法计算的多模态相似度矩阵可以用于解决一词多义下的文本语义匹配问题。

Description

文本语义相似度计算方法、装置及用户终端
技术领域
本发明涉及计算机技术领域,具体而言,涉及一种文本语义相似度计算方法、装置及用户终端。
背景技术
随着互联网技术的快速发展,信息检索、自动问答、机器翻译等语言处理任务越来越多地被应用。这些语言处理任务通常都可以抽象为文本语义相似度匹配的问题。
现有的文本语义相似度匹配,大多数是将重点放在文本对的单个语义的相似度的计算,相似度信息单一,准确度不高。
发明内容
有鉴于此,本发明实施例提供了一种文本语义相似度计算方法及装置,根据词语的多个语义建立多模态相似度矩阵对文本间的相似度进行度量,以解决上述问题。
为了实现上述目的,本发明采用的技术方案如下:
一种文本语义相似度计算方法,所述方法包括:建立第一文本对应的第一词向量矩阵以及第二文本对应的第二词向量矩阵,所述第一词向量矩阵由第一词向量构成,所述第二词向量矩阵由第二词向量构成;根据第一词向量矩阵、第二词向量矩阵以及预定模态数目,建立所述第一文本与所述第二文本间的多模态相似度矩阵,所述多模态相似度矩阵中包括相似度量参数;利用人工神经网络算法,迭代优化所述多模态相似度矩阵中的相似度量参数、第一词向量、第二词向量以及引入的人工神经网络参数;当达到预定迭代结束条件,以根据优化后的相似度量参数、优化后的第一词向量、优化后的第二词向量以及人工神经网络参数确定的迭代输出结果作为所述第一文本与所述第二文本之间的语义相似度。
一种文本语义相似度计算装置,所述装置包括:词向量矩阵建立模块,用于建立第一文本对应的第一词向量矩阵以及第二文本对应的第二词向量矩阵,所述第一词向量矩阵由第一词向量构成,所述第二词向量矩阵由第二词向量构成;相似度矩阵建立模块,用于根据第一词向量矩阵、第二词向量矩阵以及预定模态数目,建立所述第一文本与所述第二文本间的多模态相似度矩阵,所述多模态相似度矩阵中包括相似度量参数;优化模块,用于利用人工神经网络算法,迭代优化所述多模态相似度矩阵中的相似度量参数、第一词向量、第二词向量以及引入的人工神经网络参数;相似度计算模块,用于当达到预定迭代结束条件,用于以根据优化后的相似度量参数、优化后的第一词向量、优化后的第二词向量以及人工神经网络参数确定的迭代输出结果作为优化后的多模态相似度矩阵以获得所述第一文本与所述第二文本之间的语义相似度。
一种用户终端,所述用户终端包括存储器和处理器,所述存储器耦接到所述处理器,所述存储器存储指令,当所述指令由所述处理器执行时使所述处理器执行以下操作:建立第一文本对应的第一词向量矩阵以及第二文本对应的第二词向量矩阵,所述第一词向量矩阵由第一词向量构成,所述第二词向量矩阵由第二词向量构成;根据第一词向量矩阵、第二词向量矩阵以及预定模态数目,建立所述第一文本与所述第二文本间的多模态相似度矩阵,所述多模态相似度矩阵中包括相似度量参数;利用人工神经网络算法,迭代优化所述多模态相似度矩阵中的相似度量参数、第一词向量、第二词向量以及引入的人工神经网络参数;当达到预定迭代结束条件,以根据优化后的相似度量参数、优化后的第一词向量、优化后的第二词向量以及人工神经网络参数确定的迭代输出结果作为所述第一文本与所述第二文本之间的语义相似度。
本发明实施例提供的文本语义相似度计算方法、装置及用户终端,利用第一文本的第一词向量矩阵以及第二文本的第二词向量矩阵建立基于多个语义的多模态相似度矩阵。再利用人工神经网络算法对第一文本的第一词向量、第二文本的第二词向量、多模态相似度矩阵中的相似度量参数以及人工神经网络参数进行迭代优化,以迭代优化后的第一词向量、第二词向量、相似度量参数以及人工神经网络参数确定的迭代输出结果作为第一文本与第二文本之间多个语义下的相似度,相似度的信息更加丰富,准确性更高。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1示出了本发明较佳实施例提供的用户终端的方框示意图;
图2示出了本发明第一实施例提供的文本语义相似度计算方法的流程图;
图3示出了图2中步骤110的流程图;
图4示出了本发明第一实施例提供的文本语义相似度计算方法的一种具体实施方式的示意图;
图5示出了图2中步骤130的流程图;
图6示出了本发明第二实施例提供的文本语义相似度计算装置的结构框图;
图7示出了本发明第二实施例提供的文本语义相似度计算装置的词向量矩阵建立模块的结构框图;
图8示出了本发明第二实施例提供的文本语义相似度计算装置的优化模块的结构框图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
图1示出了一种可应用于本发明实施例中的用户终端的结构框图。如图1所示,用户终端100包括存储器102、存储控制器104,一个或多个(图中仅示出一个)处理器106、外设接口108、射频模块110、音频模块112、触控屏幕114等。这些组件通过一条或多条通讯总线/信号线116相互通讯。
存储器102可用于存储软件程序以及模块,如本发明实施例中的文本语义相似度计算方法及装置对应的程序指令/模块,处理器106通过运行存储在存储器102内的软件程序以及模块,从而执行各种功能应用以及数据处理,如本发明实施例提供的文本语义相似度计算方法。
存储器102可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。处理器106以及其他可能的组件对存储器102的访问可在存储控制器104的控制下进行。
外设接口108将各种输入/输出装置耦合至处理器106以及存储器102。在一些实施例中,外设接口108,处理器106以及存储控制器104可以在单个芯片中实现。在其他一些实例中,他们可以分别由独立的芯片实现。
射频模块110用于接收以及发送电磁波,实现电磁波与电信号的相互转换,从而与通讯网络或者其他设备进行通讯。
音频模块112向用户提供音频接口,其可包括一个或多个麦克风、一个或者多个扬声器以及音频电路。
触控屏幕114在用户终端100与用户之间同时提供一个输出及输入界面。具体地,触控屏幕114向用户显示视频输出,这些视频输出的内容可包括文字、图形、视频及其任意组合。
可以理解,图1所示的结构仅为示意,用户终端100还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。
于本发明实施例中,用户终端100可以是个人电脑(personal computer,PC)、平板电脑、智能手机、个人数字助理(personal digital assistant,PDA)、车载设备、穿戴设备等。并且,用户终端100中安装有客户端,该客户端可以是浏览器也可以是第三方应用软件,用户终端100可以通过该客户端进行文本语义相似度计算。
第一实施例
如图2示出了本发明实施例提供的文本语义相似度计算方法的流程图。请参见图2,该方法包括:
步骤S110:建立第一文本对应的第一词向量矩阵以及第二文本对应的第二词向量矩阵,所述第一词向量矩阵由第一词向量构成,所述第二词向量矩阵由第二词向量构成。
对于需要计算语义相似度的两个文本,分别为第一文本以及第二文本。首先,根据第一文本的词向量建立对应第一文本的第一词向量矩阵,根据第二文本的词向量建立第二文本对应的词向量矩阵。
进一步的,如图3所示,该步骤S110可以包括:
步骤S111:对所述第一文本以及所述第二文本进行分词,获得所述第一文本对应的多个词语以及所述第二文本对应的多个词语。
根据第一文本的信息将第一文本分为多个词语,第一文本所分的多个词语即为第一文本对应的词语。例如,若第一文本为“苹果手机值多少钱呢”,则可以分词为“苹果”、“手机”、“值”、“多少”、“钱”、“呢”,如图4所示。
同样的,根据第二文本的信息将第二文本分为多个词语。例如,若第二文本为“iphone有多贵呢”,则分成的多个词语可以为“iphone”、“有”、“多”、“贵”“呢”,如图4所示。
在本实施例中,对于英文文本的分词可以以相邻两个单词间的空格作为自然分界符,对于中文文本,可以选用python的jieba分词组件或者汉语词法分析系统(Instituteof Computing Technology,Chinese Lexical Analysis System,ICTCLAS)。当然,本实施例中,对文本进行分词的具体方法并不作为限定,可以利用多种现有的分词方法实现。
步骤S112:根据所述第一文本对应的每个词语的序列号从预设词向量列表获取多个第一词向量,根据所述第二文本对应的每个词语的序列号从预设词向量列表获取多个第二词向量,所述预设词向量列表包括多个词向量以及每个词向量对应的序列号。
在对文本进行语义相似度计算之前,为每个词语分配序列号,当然,可以理解的,分配序列号的词语不止进行语义相似度计算的文本中的词语,还有其他词语,且各个词语的序列号不同。
再根据每个词语的序列号以及词向量预先建立词向量列表,该预先建立的词向量列表即为预设词向量列表。在该预设词向量列表中,包括每个词语的序列号以及每个词语的词向量,词向量与序列号一一对应。例如,手机的序列号为2,则在预设词向量列表中,序列号2对应的词向量为手机的词向量,如图4所示。
当然,该预设词向量列表中,词向量与序列号之间的对应关系可以是以序列号对应词向量之间的位置关系。例如,序列号为从0到n的多个正整数,对于预设词向量列表中依次排列的多个词向量,第一个词向量为序列号为0的词语对应的词向量,第二个词向量为序列号为1的词语对应的词向量,第三个词向量为序列号为2的词语对应的词向量,以此类推,如图4所示。于是,在预设词向量列表的第3个词向量,即为对于序列号为2的手机的词向量。
在预设词向量列表中,相关的词语间的词向量的距离更近,不相关的词语距离更远。本实施例中的词向量可以为词向量表示法(Distributed representation)表示的具有固定长度d的浮点向量。
在获得第一文本分词后的多个词语后,根据每一个词语的序列号,在预设词向量列表中查找每个词语对应的词向量,则获得第一文本对应的多个第一词向量。同样的,可以获得第二文本对应的多个第二词向量。
步骤S113:根据所述多个第一词向量建立所述第一词向量矩阵,根据所述多个第二词向量建立所述第二词向量矩阵。
以第一文本对应的多个第一词向量建立词向量矩阵,获得第一词向量矩阵,该第一词向量矩阵的行数和列数分别等于第一文本分词的词语个数以及每个词向量的长度。以上述第一文本为“苹果手机值多少钱呢”为例,分为6个词语,可以建立一个6×d的矩阵,每一行为一个词语的词向量。
同样的,以第二文本对应的多个第二词向量可以建立以第二词向量构成的对应第二文本的第二词向量矩阵。以上述第二文本为“iphone有多贵呢”为例,分为5个词语,可以建立一个5×d的矩阵。
步骤S120:根据第一词向量矩阵、第二词向量矩阵以及预定模态数目,建立所述第一文本与所述第二文本间的多模态相似度矩阵,所述多模态相似度矩阵中包括相似度量参数。
对于第一文本以及第二文本的相似度度量,需要将第一文本与第二文本的词语两两组合,使第一文本中的每一个词语和第二文本中的每一个词语进行组合度量相似度,于是,将第一词向量矩阵中的每个第一词向量与第二词向量矩阵中的每个第二词向量进行相似度计算。在同一种语义下,第一文本与第二文本之间的相似度计算得到的相似度矩阵大小为行和列分别等于第一文本的词语数以及第二文本的词语数。例如,对于大小为6×d的第一词向量矩阵与大小为5×d的第二词向量矩阵,词向量计算得到的相似度矩阵大小为5×6。
由于通常一个词语有多个语义,如“苹果”可能是指一种水果,也可能是指一种电子品牌,也可能是一部电影等。对于第一文本以及第二文本的相似度度量,应该考虑到词语的不同语义。在本实施例中,采用多模态相似度度量的方法,一个模态表示一种语义,计算不同语义下的第一文本以及第二文本的语义相似度。
由于在同一种语义下,第一文本与第二文本的相似度矩阵大小为第一文本的词语数乘以第二文本的词语数,则在多种模态下的多模态相似度矩阵大小为第一文本的词语数乘以第二文本的词语数再乘以预定模态数目。例如,预定模态数目为k,对于大小为6×d的第一词向量矩阵与大小为5×d的第二词向量矩阵,词向量计算得到的多模态相似度矩阵大小为k×5×6,如图4中的匹配表
具体的,在本实施例中,建立的第一文本以及第二文本的多模态相似度矩阵可以为xTMy+b,其中,x表示第一词向量矩阵,
Figure BDA0001233906590000091
l1为第一文本分词的词语数,也就是第一文本的词向量个数,d为词向量长度,xT表示第一词向量矩阵的转置。y表示第二词向量矩阵,
Figure BDA0001233906590000092
l2为第二文本分词的词语数,也就是第二文本的词向量个数。M为该多模态相似度矩阵的相似度量参数,
Figure BDA0001233906590000101
k为预定模态数目,可以根据实际情况确定,在本实施例中并不做限定。另外,b为建立的相似度矩阵的偏移量,为相似度矩阵的另一个相似度量参数,
Figure BDA0001233906590000102
M以及b为未知参数。
步骤S130:利用人工神经网络算法,迭代优化所述多模态相似度矩阵中的相似度量参数、第一词向量以及第二词向量以及引入的人工神经网络参数。
利用人工神经网络算法的反向传播特性,根据实际输出与期望输出的比较,调整相似度量参数、第一词向量以及第二词向量以及反向传播过程中涉及到的人工神经网络参数等多个参数值,以使在相似度量参数、第一词向量、第二词向量以及人工神经网络参数等多个参数值在最优值的情况下达到实际输出与期望输出差距尽可能小。其中,人工神经网络参数为在人工神经网络算法中引入的参数。
具体的,如图5所示,在本步骤中,可以包括:
步骤S131:提取所述多模态相似度矩阵的特征矩阵,所述特征矩阵中包括特征矩阵参数。
该多模态相似度矩阵的特征矩阵通过卷积和池化获得。把多模态相似度矩阵作为深度卷积网络的输入,利用网络的层次结构提取高阶语义匹配信息,用于文本对匹配的应用。
具体的,先对所述多模态相似度矩阵进行卷积,获得卷积特征矩阵。该卷积过程的输出为
Figure BDA0001233906590000103
其中,F表示该卷积过程的滤波器组,F∈Rn×c×h×w,b∈Rn,为滤波器偏移量,n表示滤波器的个数,w以及h分别表示滤波器的行数和列数。t表示卷积的层数,
Figure BDA0001233906590000111
为比Lt低一层的输出,L0等于相似度量参数M。c表示来自于比当前卷积层低一层的数据通道,对于第一个卷积层,c等于预定模态数目k,表示对所有模态进行卷积。i表示第i个滤波器,j以及l表示滤波器的第j行以及第l列。
通常的,存在两种卷积形式,分别为宽卷积和窄卷积。为方便起见,本实施例以窄卷积为例进行说明,当然,并不排除使用宽卷积。当使用窄卷积时,该卷积过程输出为
Figure BDA0001233906590000112
该输出为获得的卷积特征矩阵。
再对所述卷积特征矩阵进行池化,该池化过程可以在降低输出结果的维度的情况下,保留矩阵的显著的特征。将池化后获得的矩阵作为多模态相似度矩阵的特征矩阵。
步骤S132:对所述特征矩阵进行全连接。
步骤S133:将所述特征矩阵进行全连接后的输出值、所述第一文本的预定特征值以及所述第二文本的预定特征值进行二值分类,其中,以所述二值分类的输出值作为迭代输出结果。
将卷积池化后的矩阵进行全连接以连接所有特征,将全连接的输出值送入二值分类器,同时送入二值分类器的还有第一文本的预定特征值以及第二文本的预定特征值,进行二值分类,以二值分类的输出值作为迭代输出结果,该迭代输出结果表示当前的第一词向量矩阵与第二词向量矩阵之间对应的语义相似度。当然,该二值分类的输出值并不是分类结果0或者1,而是根据分类阈值可以分为类0或者类1的值。例如,若分类阈值为0.5,输出值为0.6,此时对应的二值分类结果为1,但是以输出值0.6作为迭代输出结果。
在本实施例中,第一文本的预定特征值以及第二文本的预定特征值可以是传统的简单匹配特征,例如,所述第一文本的预定特征值可以为所述第一文本中的词语重复率,即第一文本与第二文本相重复的词语数占第一文本总词语数的比值。第二文本的预定特征值可以为所述第二文本中的词语重复率,同样的,该第二文本中的词语重复率为第一文本与第二文本重复的词语占第二文本总词语数的比值。当然,该第一文本的预定特征值以及第二文本的预定特征值也可以是其他可以确定的第一文本以及第二文本的其他特征值。
步骤S134:当未达到预定迭代结束条件,调整上述步骤中第一词向量、第二词向量、相似度量参数、特征矩阵参数以及全连接的参数,所述人工神经网络参数包括所述特征矩阵参数以及全连接的参数。
在本实施例中,需要通过反向传播的方式,端到端地优化所有参数,该所有参数包括第一向量、第二向量、相似度量参数、特征矩阵参数以及全连接过程中的各个参数等。在本实施例中,该特征矩阵参数即为卷积过程中的滤波器的个数、每个滤波器的具体值以及其他卷积参数、池化过程中的各个参数。特征矩阵参数以及全连接过程中的各个参数为在人工神经网络算法中引入的人工神经网络参数。
该反向传播的过程中,每次迭代完成判断是否达到预定迭代结束条件,若未达到,计算二值分类的输出值与预定结果之间的差值,按照极小化误差的方法反向传播,调整所有参数。将调整参数后的全连接输出与第一文本的预定特征值以及第二文本的预定特征值再次进行二值分类,判断是否达到预定迭代结束条件,若未达到预定迭代结束条件,再次按照极小化误差的方法反向传播,调整所有参数,直到达到预定迭代结束条件。
具体的,在本实施例中,预定结果可以是二值分类的分类结果为1。则当实际分类结果不为1时,通过反向传播,优化所有参数,直到达到预定迭代结束条件。
在本实施例中,预定迭代结束条件可以为,二值分类的输出值达到预定值,该预定值可以根据实际需要设定。
另外,在本实施例中,预定迭代结束条件也可以为,迭代次数达到预定次数。当然,预定迭代结束条件也可以是其他,如迭代输出结果在预设次数内的变化值小于预设值。例如,连续5次的迭代输出结果值均在0.8与0.8001之间,且设置的预定次数为5,对应变化值的预设值为0.1,则认为达到预定迭代结束条件。
步骤S140:当达到预定迭代结束条件,以根据优化后的相似度量参数、优化后的第一词向量以及优化后的第二词向量以及人工神经网络参数确定的迭代输出结果作为所述第一文本与所述第二文本之间的语义相似度。
达到预定迭代结束条件时,所有参数为最优参数,此时的迭代输出结果根据优化后的最优参数得到,用于作为第一文本与第二文本之间的语义相似度。
可以理解的,优化后的所有参数中,包括相似度量参数、第一词向量、第二词向量以及人工神经网络参数,则优化后的相似度量参数、优化后的第一词向量、优化后的第二词向量以及人工神经网络参数所确定的二值分类的输出值可以准确地表示第一文本以及第二文本之间在多个语义下的相似度。
本实施例提供的文本语义相似度计算方法可以用于自动问答系统。具体应用方法可以是,当接收到用户输入的问题时,以该问题作为第一文本,预先存储的多个答案作为第二文本。利用本发明实施例提供的文本语义相似度计算方法,将第一文本与多个第二文本分别进行相似度计算,将获得的最高的语义相似度对应的第二文本作为该问题的答案,向用户输出,获得与问题更匹配的答案。
本实施例提供的文本语义相似度计算方法,建立的表示第一文本与第二文本之间的相似度的矩阵为基于多个语义的多模态相似度矩阵,通过人工神经网络算法优化多模态相似度矩阵中的相似度量参数、第一词向量以及第二词向量,最后获得的优化后的多模态相似度矩阵从多个语义上对第一文本与第二文本进行度量,具有第一文本与第二文本之间的更加丰富的相似度信息,使最后获得的第一文本与第二文本之间的相似度的准确度更高。
第二实施例
本实施例提供了一种文本语义相似度计算装置200,请参见图6,该装置200包括:词向量矩阵建立模块210,用于建立第一文本对应的第一词向量矩阵以及第二文本对应的第二词向量矩阵,所述第一词向量矩阵由第一词向量构成,所述第二词向量矩阵由第二词向量构成;相似度矩阵建立模块220,用于根据第一词向量矩阵、第二词向量矩阵以及预定模态数目,建立所述第一文本与所述第二文本间的多模态相似度矩阵,所述多模态相似度矩阵中包括相似度量参数;优化模块230,用于利用人工神经网络算法,迭代优化所述多模态相似度矩阵中的相似度量参数、第一词向量、第二词向量以及引入的人工神经网络参数;相似度计算模块240,用于当达到预定迭代结束条件,用于以根据优化后的相似度量参数、优化后的第一词向量、优化后的第二词向量以及人工神经网络参数确定的迭代输出结果作为所述第一文本与所述第二文本之间的语义相似度。
具体的,在本实施例中,如图7所示,词向量矩阵建立模块210可以包括:分词单元211,用于对所述第一文本以及所述第二文本进行分词,获得所述第一文本对应的多个词语以及所述第二文本对应的多个词语;词向量获取单元212,用于根据所述第一文本对应的每个词语的序列号从预设词向量列表获取多个第一词向量,根据所述第二文本对应的每个词语的序列号从预设词向量列表获取多个第二词向量,所述预设词向量列表包括多个词向量以及每个词向量对应的序列号;词向量矩阵建立单元213,用于根据所述多个第一词向量建立所述第一词向量矩阵,根据所述多个第二词向量建立所述第二词向量矩阵。
另外,在本实施例中,如图8所示,优化模块230可以包括:特征矩阵获取单元231,用于提取所述多模态相似度矩阵的特征矩阵,所述特征矩阵中包括特征矩阵参数;全连接单元232,用于对所述特征矩阵进行全连接;分类单元233,用于将所述特征矩阵进行全连接后的输出值、所述第一文本的预定特征值以及所述第二文本的预定特征值进行二值分类,其中,以所述二值分类的输出值作为迭代输出结果;优化单元234,当未达到预定迭代结束条件,调整上述步骤中第一词向量、第二词向量、相似度量参数、特征矩阵参数以及全连接的参数,所述人工神经网络参数包括所述特征矩阵参数以及全连接的参数。
在本实施例中,所述预定迭代结束条件可以为,迭代次数达到预定次数或者所述迭代输出结果在预定次数内的变化值小于预设值。
具体的,特征矩阵获取单元231提取特征矩阵的方式可以是,对所述多模态相似度矩阵进行卷积,获得卷积特征矩阵;再对所述卷积特征矩阵进行池化,获得所述特征矩阵。
在本实施例中,所述第一文本的预定特征值可以为所述第一文本中的词语重复率;所述第二文本的预定特征值可以为所述第二文本中的词语重复率。
综上所述,本发明实施例提供的文本语义相似度计算方法、装置及用户终端,对进行语义相似度匹配的第一文本以及第二文本建立词向量矩阵,再根据预定模态数目、第一文本对应的第一词向量矩阵以及第二文本对应的第二词向量矩阵建立第一文本与第二文本的多模态相似度矩阵,该多模态相似度矩阵可以对不同语义下的第一文本以二文本进行相似度度量。然后,利用人工神经网络算法的反向传播方式,获得优化后的第一词向量、第二词向量、相似度量参数以及引入的人工神经网络参数,最后根据优化后的第一词向量、第二词向量、相似度量参数以及引入的人工神经网络参数确定的迭代输出结果作为第一文本与第二文本之间的相似度,获得的语义相似度为两个文本在多个语义下的度量,两个文本之间的相似度信息更加丰富,相似度的准确性更高。
该方法、装置及用户终端计算的多模态相似度矩阵可以用于解决一词多义下的文本语义匹配问题,基于这样的多语义匹配作为人工神经网络的输入,可以极大地丰富输入特征,便于人工神经网络学习到更丰富的匹配特征,从而提高性能。
需要说明的是,由于装置类实施例与方法实施例基本相似,所以本说明书中的描述的比较简单,相关之处参见方法实施例的部分说明即可。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种文本语义相似度计算方法,其特征在于,所述方法包括:
建立第一文本对应的第一词向量矩阵以及第二文本对应的第二词向量矩阵,所述第一词向量矩阵由第一词向量构成,所述第二词向量矩阵由第二词向量构成;
以一个预定模态表示一种语义,根据第一词向量矩阵、第二词向量矩阵以及预定模态数目,计算所述第一词向量矩阵中的每个第一词向量和所述第二词向量矩阵中的每个第二词向量在不同模态下的相似度,得到所述第一文本与所述第二文本间的多模态相似度矩阵,所述多模态相似度矩阵中包括相似度量参数;
利用人工神经网络算法,迭代优化所述多模态相似度矩阵中的相似度量参数、第一词向量、第二词向量以及引入的人工神经网络参数;所述利用人工神经网络算法,迭代优化所述多模态相似度矩阵中的相似度量参数、第一词向量、第二词向量以及引入的人工神经网络参数,包括:提取所述多模态相似度矩阵的特征矩阵,所述特征矩阵中包括特征矩阵参数;对所述特征矩阵进行全连接;将所述特征矩阵进行全连接后的输出值、所述第一文本的预定特征值以及所述第二文本的预定特征值进行二值分类,其中,以所述二值分类的输出值作为迭代输出结果;
当达到预定迭代结束条件,以根据优化后的相似度量参数、优化后的第一词向量、优化后的第二词向量以及人工神经网络参数确定的迭代输出结果作为所述第一文本与所述第二文本之间的语义相似度。
2.根据权利要求1所述的方法,其特征在于,所述利用人工神经网络算法,迭代优化所述多模态相似度矩阵中的相似度量参数、第一词向量、第二词向量以及引入的人工神经网络参数还包括:
当未达到预定迭代结束条件,调整所述第一词向量、所述第二词向量、所述相似度量参数、所述特征矩阵参数以及所述全连接的参数,所述人工神经网络参数包括所述特征矩阵参数以及所述全连接的参数。
3.根据权利要求2所述的方法,其特征在于,所述第一文本的预定特征值为所述第一文本中的词语重复率;所述第二文本的预定特征值为所述第二文本中的词语重复率。
4.根据权利要求2所述的方法,其特征在于,所述提取所述多模态相似度矩阵的特征矩阵包括:
对所述多模态相似度矩阵进行卷积,获得卷积特征矩阵;
对所述卷积特征矩阵进行池化,获得所述特征矩阵。
5.根据权利要求1所述的方法,其特征在于,所述预定迭代结束条件为,迭代次数达到预定次数或者所述迭代输出结果在预设次数内的变化值小于预设值。
6.根据权利要求1所述的方法,其特征在于,所述建立第一文本对应的第一词向量矩阵以及第二文本对应的第二词向量矩阵包括:
对所述第一文本以及所述第二文本进行分词,获得所述第一文本对应的多个词语以及所述第二文本对应的多个词语;
根据所述第一文本对应的每个词语的序列号从预设词向量列表获取多个第一词向量,根据所述第二文本对应的每个词语的序列号从预设词向量列表获取多个第二词向量,所述预设词向量列表包括多个词向量以及每个词向量对应的序列号;
根据所述多个第一词向量建立所述第一词向量矩阵,根据所述多个第二词向量建立所述第二词向量矩阵。
7.一种文本语义相似度计算装置,其特征在于,所述装置包括:
词向量矩阵建立模块,用于建立第一文本对应的第一词向量矩阵以及第二文本对应的第二词向量矩阵,所述第一词向量矩阵由第一词向量构成,所述第二词向量矩阵由第二词向量构成;
相似度矩阵建立模块,用于以一个预定模态表示一种语义,根据第一词向量矩阵、第二词向量矩阵以及预定模态数目,计算所述第一词向量矩阵中的每个第一词向量和所述第二词向量矩阵中的每个第二词向量在不同模态下的相似度,得到所述第一文本与所述第二文本间的多模态相似度矩阵,所述多模态相似度矩阵中包括相似度量参数;
优化模块,用于利用人工神经网络算法,迭代优化所述多模态相似度矩阵中的相似度量参数、第一词向量、第二词向量以及引入的人工神经网络参数;所述优化模块包括:特征矩阵获取单元,用于提取所述多模态相似度矩阵的特征矩阵,所述特征矩阵中包括特征矩阵参数;全连接单元,用于对所述特征矩阵进行全连接;分类单元,用于将所述特征矩阵进行全连接后的输出值、所述第一文本的预定特征值以及所述第二文本的预定特征值进行二值分类,其中,以所述二值分类的输出值作为迭代输出结果;相似度计算模块,用于当达到预定迭代结束条件,用于以根据优化后的相似度量参数、优化后的第一词向量、优化后的第二词向量以及人工神经网络参数确定的迭代输出结果作为所述第一文本与所述第二文本之间的语义相似度。
8.根据权利要求7所述的装置,其特征在于,所述优化模块还包括:
优化单元,当未达到预定迭代结束条件,调整所述第一词向量、所述第二词向量、所述相似度量参数、所述特征矩阵参数以及所述全连接的参数,所述人工神经网络参数包括所述特征矩阵参数以及所述全连接的参数。
9.根据权利要求8所述的装置,其特征在于,所述第一文本的预定特征值为所述第一文本中的词语重复率;所述第二文本的预定特征值为所述第二文本中的词语重复率。
10.一种用户终端,其特征在于,所述用户终端包括存储器和处理器,所述存储器耦接到所述处理器,所述存储器存储指令,当所述指令由所述处理器执行时使所述处理器执行以下操作:建立第一文本对应的第一词向量矩阵以及第二文本对应的第二词向量矩阵,所述第一词向量矩阵由第一词向量构成,所述第二词向量矩阵由第二词向量构成;以一个预定模态表示一种语义,根据第一词向量矩阵、第二词向量矩阵以及预定模态数目,计算所述第一词向量矩阵中的每个第一词向量和所述第二词向量矩阵中的每个第二词向量在不同模态下的相似度,得到所述第一文本与所述第二文本间的多模态相似度矩阵,所述多模态相似度矩阵中包括相似度量参数;利用人工神经网络算法,迭代优化所述多模态相似度矩阵中的相似度量参数、第一词向量、第二词向量以及引入的人工神经网络参数;所述利用人工神经网络算法,迭代优化所述多模态相似度矩阵中的相似度量参数、第一词向量、第二词向量以及引入的人工神经网络参数,包括:提取所述多模态相似度矩阵的特征矩阵,所述特征矩阵中包括特征矩阵参数;对所述特征矩阵进行全连接;将所述特征矩阵进行全连接后的输出值、所述第一文本的预定特征值以及所述第二文本的预定特征值进行二值分类,其中,以所述二值分类的输出值作为迭代输出结果;当达到预定迭代结束条件,以根据优化后的相似度量参数、优化后的第一词向量、优化后的第二词向量以及人工神经网络参数确定的迭代输出结果作为所述第一文本与所述第二文本之间的语义相似度。
CN201710109061.5A 2017-02-27 2017-02-27 文本语义相似度计算方法、装置及用户终端 Active CN108509407B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710109061.5A CN108509407B (zh) 2017-02-27 2017-02-27 文本语义相似度计算方法、装置及用户终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710109061.5A CN108509407B (zh) 2017-02-27 2017-02-27 文本语义相似度计算方法、装置及用户终端

Publications (2)

Publication Number Publication Date
CN108509407A CN108509407A (zh) 2018-09-07
CN108509407B true CN108509407B (zh) 2022-03-18

Family

ID=63373222

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710109061.5A Active CN108509407B (zh) 2017-02-27 2017-02-27 文本语义相似度计算方法、装置及用户终端

Country Status (1)

Country Link
CN (1) CN108509407B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109376222B (zh) * 2018-09-27 2021-05-25 国信优易数据股份有限公司 问答匹配度计算方法、问答自动匹配方法及装置
CN109597881B (zh) * 2018-12-17 2021-07-23 北京百度网讯科技有限公司 匹配度确定方法、装置、设备和介质
CN109885657B (zh) * 2019-02-18 2021-04-27 武汉瓯越网视有限公司 一种文本相似度的计算方法、装置及存储介质
CN109947919B (zh) * 2019-03-12 2020-05-15 北京字节跳动网络技术有限公司 用于生成文本匹配模型的方法和装置
CN110442677A (zh) * 2019-07-04 2019-11-12 平安科技(深圳)有限公司 文本匹配度检测方法、装置、计算机设备和可读存储介质
CN110321958B (zh) * 2019-07-08 2022-03-08 北京字节跳动网络技术有限公司 神经网络模型的训练方法、视频相似度确定方法
CN110781272A (zh) * 2019-09-10 2020-02-11 杭州云深科技有限公司 一种文本匹配方法和装置、存储介质
CN111027320A (zh) * 2019-11-15 2020-04-17 北京三快在线科技有限公司 文本相似性计算方法、装置、电子设备及可读存储介质
CN111192682B (zh) * 2019-12-25 2024-04-09 上海联影智能医疗科技有限公司 一种影像操练数据处理方法、系统及存储介质
CN111797589B (zh) * 2020-05-29 2024-10-18 华为技术有限公司 一种文本处理网络、神经网络训练的方法以及相关设备
CN113408293A (zh) * 2021-03-11 2021-09-17 腾讯科技(深圳)有限公司 语义匹配方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102622373A (zh) * 2011-01-31 2012-08-01 中国科学院声学研究所 一种基于tf*idf算法的统计学文本分类系统及方法
CN103617157A (zh) * 2013-12-10 2014-03-05 东北师范大学 基于语义的文本相似度计算方法
CN105843801A (zh) * 2016-03-25 2016-08-10 北京语言大学 多译本平行语料库的构建系统
CN106372061A (zh) * 2016-09-12 2017-02-01 电子科技大学 基于语义的短文本相似度计算方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9575952B2 (en) * 2014-10-21 2017-02-21 At&T Intellectual Property I, L.P. Unsupervised topic modeling for short texts

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102622373A (zh) * 2011-01-31 2012-08-01 中国科学院声学研究所 一种基于tf*idf算法的统计学文本分类系统及方法
CN103617157A (zh) * 2013-12-10 2014-03-05 东北师范大学 基于语义的文本相似度计算方法
CN105843801A (zh) * 2016-03-25 2016-08-10 北京语言大学 多译本平行语料库的构建系统
CN106372061A (zh) * 2016-09-12 2017-02-01 电子科技大学 基于语义的短文本相似度计算方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
"一种利用语义相似度改进问答摘要的方法";应文豪;《北京大学学报(自然科学版)》;20161130;第53卷(第2期);第197-203页 *
"基于分布式表示的汉语问答系统";张瑞鹏;《中国优秀硕士学位论文全文数据库 信息科技辑》;20170215(第02期);论文正文第24-25、31-32、35-42页,图4-1、4-2、4-9 *
"基于卷积神经网络和用户信息的微博话题追踪模型";付鹏 等;《模式识别与人工智能》;20170115;第30卷(第1期);第74-79页 *
"基于卷积神经网络的短文本分类方法研究";蔡慧苹;《中国优秀硕士学位论文全文数据库 信息科技辑》;20170215(第02期);I140-303 *
"基于深度学习的短文本分析与计算方法研究";李岩;《中国博士学位论文全文数据库 信息科技辑》;20160815(第08期);论文正文第31-32、45-47、64-71页,图5-1、5-2 *
"基于知识整合的词汇语义相似度计算方法研究";蔡圆媛;《中国博士学位论文全文数据库 信息科技辑》;20170215(第02期);I138-236 *

Also Published As

Publication number Publication date
CN108509407A (zh) 2018-09-07

Similar Documents

Publication Publication Date Title
CN108509407B (zh) 文本语义相似度计算方法、装置及用户终端
US10803055B2 (en) Cognitive searches based on deep-learning neural networks
CN112164391B (zh) 语句处理方法、装置、电子设备及存储介质
WO2020073507A1 (zh) 一种文本分类方法及终端
CN110377740B (zh) 情感极性分析方法、装置、电子设备及存储介质
CN112860866B (zh) 语义检索方法、装置、设备以及存储介质
CN108509410B (zh) 文本语义相似度计算方法、装置及用户终端
CN114612759B (zh) 视频处理方法、查询视频的方法和模型训练方法、装置
US20170150235A1 (en) Jointly Modeling Embedding and Translation to Bridge Video and Language
CN109086753B (zh) 基于双通道卷积神经网络的交通标志识别方法、装置
CN111353303B (zh) 词向量构建方法、装置、电子设备及存储介质
WO2023045605A1 (zh) 数据处理方法、装置、计算机设备及存储介质
US20160027181A1 (en) Accelerating Object Detection
CN111814923A (zh) 一种图像聚类方法、系统、设备和介质
CN113407814B (zh) 文本搜索方法、装置、可读介质及电子设备
CN111159409A (zh) 基于人工智能的文本分类方法、装置、设备、介质
CN111368551A (zh) 一种确定事件主体的方法和装置
JP7504192B2 (ja) 画像を検索するための方法及び装置
CN111310834B (zh) 数据处理方法及装置、处理器、电子设备、存储介质
CN112241789A (zh) 用于轻量化神经网络的结构化剪枝方法、装置、介质及设备
CN110929647B (zh) 一种文本检测方法、装置、设备及存储介质
CN116503596A (zh) 图片分割方法、装置、介质和电子设备
CN111104572A (zh) 用于模型训练的特征选择方法、装置及电子设备
US8805090B1 (en) Matching based upon rank
CN114238611B (zh) 用于输出信息的方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200526

Address after: 310051 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Applicant after: Alibaba (China) Co.,Ltd.

Address before: 510000 Guangdong city of Guangzhou province Whampoa Tianhe District Road No. 163 Xiping Yun Lu Yun Ping square B radio tower 13 layer self unit 01 (only for office use)

Applicant before: GUANGZHOU SHENMA MOBILE INFORMATION TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant