CN109214002A - 一种文本对比方法、装置及其计算机存储介质 - Google Patents

一种文本对比方法、装置及其计算机存储介质 Download PDF

Info

Publication number
CN109214002A
CN109214002A CN201810980045.8A CN201810980045A CN109214002A CN 109214002 A CN109214002 A CN 109214002A CN 201810980045 A CN201810980045 A CN 201810980045A CN 109214002 A CN109214002 A CN 109214002A
Authority
CN
China
Prior art keywords
text
transcription
weight
transcription comparison
coding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810980045.8A
Other languages
English (en)
Inventor
王升升
王纯斌
赵神州
覃进学
王伟才
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Sefon Software Co Ltd
Original Assignee
Chengdu Sefon Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Sefon Software Co Ltd filed Critical Chengdu Sefon Software Co Ltd
Priority to CN201810980045.8A priority Critical patent/CN109214002A/zh
Publication of CN109214002A publication Critical patent/CN109214002A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种文本对比方法、装置及其计算机存储介质,涉及深度学习技术领域。所述文本对比方法应用于深度文本对比模型,包括:通过所述双向长短时记忆神经网络获得需要进行一致性对比的第一文本的第一语义编码;通过所述注意力层确定所述第一语义编码中每个字符的权重;基于所述权重,通过全连接层将所述第一语义信息编码转换为第一特征表示;将所述第一特征表示和其他深度文本对比模型生成的所述第二特征表示输入所述能量函数,根据所述能量函数的输出结果判断所述第一文本和所述第二文本是否相似。该文本对比方法采用注意力机制捕获每个字符的权重,更注重于找到输入数据中与当前输出相关的有用信息,提高了文本对比的准确性。

Description

一种文本对比方法、装置及其计算机存储介质
技术领域
本发明涉及深度学习技术领域,具体而言,涉及一种文本对比方法、装置及其计算机存储介质。
背景技术
随着计算机技术的发展和人们对文字处理效率需求的提高,越来越多的文字或语音处理软件或算法正在被迅速普及。文本比对算法是自然语言处理中的方法之一,比如命名实体识别、情感分析、自动文摘、文本分类等。文本比对算法的本质是计算文本间的相似性,许多的NLP(神经语言程序学)应用需要计算超短文本之间的相似性,比如,搜索引擎估计一份文本与提问问题之间的关联度,其中涉及到的并不只是看文字是否有重合,问答网站也有这项需求,例如需要判断某一问题是否之前已出现过、新闻推荐通过用户刚刚浏览的新闻标题检索出其它的相似新闻推荐给用户、智能客服当用户输入一个问题时自动为用户寻找相似的问题和答案。除此之外,文本相似性在论文鉴定、机器翻译、拼写纠错等领域都有广泛的应用。
但是现有的文本相似性对比方法对短文本的处理效果较差,在短文本无法和长文本一样提供上下文语境信息的时候,短文本的对比识别准确率低。
发明内容
有鉴于此,本发明实施例的目的在于提供一种文本对比方法、装置及其计算机存储介质,以解决现有技术中短文本对比识别存在的准确率低的问题。
第一方面,本发明实施例提供了一种文本对比方法,应用于深度文本对比模型,所述深度文本对比模型包括双向长短时记忆神经网络、注意力层、全连接层和能量函数,所述文本对比方法包括:通过所述双向长短时记忆神经网络获得需要进行一致性对比的第一文本的第一语义编码;通过所述注意力层确定所述第一语义编码中每个字符的权重;基于所述权重,通过全连接层将所述第一语义信息编码转换为第一特征表示;将所述第一特征表示和其他深度文本对比模型生成的所述第二特征表示输入所述能量函数,根据所述能量函数的输出结果判断所述第一文本和所述第二文本是否相似。
综合第一方面,所述深度文本对比模型还包括嵌入层,在所述通过所述双向长短时记忆神经网络获得需要进行一致性对比的第一文本的第一语义编码之前,所述文本对比方法还包括:通过所述嵌入层对所述第一文本进行单字编码,将每个字符投影到低维度向量空间,将编码后的所述第一文本输入所述双向长短时记忆神经网络。
综合第一方面,在所述通过所述嵌入层对所述第一文本进行单字编码之前,所述文本对比方法还包括:确定所述第一文本所属的领域,基于所述领域的预训练字向量进行迁移学习确定所述第一文本的字向量,将所述字向量输入所述嵌入层。
综合第一方面,所述注意力层采用上下文注意力机制,所述通过所述注意力层确定所述第一语义编码中每个字符的权重,包括:通过所述注意力层,采用上下文注意力权重公式计算出所述第一语义编码中每个字符的权重;其中,ai表示通过上下文注意力机制得到的权重,uh表示上下文向量,ei表示权重偏置参数。
综合第一方面,所述基于所述权重,通过全连接层将所述第一语义信息编码转换为第一特征表示,包括:将所述第一语义信息编码输入所述全连接层,所述全连接层采用特征表示公式f(x)=wx+b将所述第一语义信息编码转换为第一特征表示,其中,x表示输入的所述第一语义信息编码,w表示由所述权重组成的权重矩阵,b表示偏置参数。
综合第一方面,所述能量函数为比对损失函数,所述将所述第一特征表示和其他深度文本对比模型生成的所述第二特征标识输入所述能量函数,根据所述能量函数的输出结果判断所述第一文本和所述第二文本是否相似,包括:将所述第一特征表示和其他深度文本对比模型生成的所述第二特征表示输入所述比对损失函数其中,表示所述第一表示和所述第二特征表示的欧氏距离,Y为所述第一特征表示和所述第二特征表示是否匹配的标签,Y=0表示所述第一特征表示和所述第二特征不相似,Y=1表示所述第一特征表示和所述第二特征相似,m为预设阈值。
第二方面,本发明实施例提供了一种文本对比装置,所述文本对比装置包括:语义编码模块,用于通过所述双向长短时记忆神经网络获得需要进行一致性对比的第一文本的第一语义编码;权重确定模块,用于通过所述注意力层确定所述第一语义编码中每个字符的权重;特征表示模块,用于基于所述权重,通过全连接层将所述第一语义信息编码转换为第一特征表示;判断模块,用于将所述第一特征表示和其他深度文本对比模型生成的所述第二特征表示输入所述能量函数,根据所述能量函数的输出结果判断所述第一文本和所述第二文本是否相似。
综合第二方面,所述文本对比装置还包括:单字编码模块,用于通过所述嵌入层对所述第一文本进行单字编码,将每个字符投影到低维度向量空间,将编码后的所述第一文本输入所述双向长短时记忆神经网络。
综合第二方面,所述文本对比装置还包括:预训练模块,用于确定所述第一文本所属的领域,基于所述领域的预训练字向量进行迁移学习确定所述第一文本的字向量,将所述字向量输入所述嵌入层。
第三方面,本发明实施例还提供了一种计算机可读取存储介质,所述计算机可读取存储介质中存储有计算机程序指令,所述计算机程序指令被一处理器读取并运行时,执行上述任一方面所述方法中的步骤。
本发明提供的有益效果是:
本发明提供了一种文本对比方法、装置及其计算机存储介质,所述文本对比方法通过双向长短时记忆神经网络对第一文本进行语义编码,从而克服了普通循环神经网络存在的梯度爆炸和梯度消失等缺陷,能够处理长距离的上下文依赖文本,并且具有更长久的记忆能力,提高了文本语义编码质量,进而提高了文本相似性判断的准确度;采用注意力层基于上下文注意力机制对语义编码中每个字符的权重进行确定,可以从大量信息中有选择地筛选出少量重要信息并聚焦到这些重要信息上,忽略大多不重要的信息,使文本相似性判断着重于必要信息,进一步提高了文本相似度判断的准确度。
本发明的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明实施例了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明第一实施例提供的一种文本对比方法的流程示意图;
图2为本发明第一实施例提供的一种包含单字编码子步骤的文本对比方法的流程示意图;
图3为本发明第一实施例提供的一种深度孪生双向长短时记忆神经网络的结构示意图;
图4为本发明第二实施例提供的一种文本对比装置的模块示意图;
图5为本发明第三实施例提供的一种可应用于本申请实施例中的电子设备的结构框图。
图标:100-文本对比装置;105-单字编码模块;110-语义编码模块;120-权重确定模块;130-特征表示模块;140-判断模块;200-电子设备;201-存储器;202-存储控制器;203-处理器;204-外设接口;205-输入输出单元;206-音频单元;207-显示单元。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
第一实施例
经本申请人研究发现,现有的文本对比方法主要分两类:一类方法是非深度学习方法,主要包括余弦相似性、简单共有词、编辑距离、SimHash+汉明距离、Jaccard相似性系数、欧几里得距离、曼哈顿距离、N-Gram模型、One-Hot编码、主题模型等。使用非深度学习方法做文本比对的优点是不需要很大量的数据集,可以基于规则和统计学习方法进行处理,缺点是使用规则和统计学习方法不能很好的对文本的语义进行编码,灵活度和精确度不够。另一类方法是深度学习方法,包括词向量、孪生网络、卷积神经网络、长短时记忆网络等。使用深度学习方法做文本比对的优点可以对文本的语义进行高级的编码,很好的刻画文本的语义信息,但缺点是需要大量的文本语料库,和耗费计算能力。而对于超短文本进行处理时,面临两个主要的挑战:第一个是由于短文本特征词稀疏性,而无法利用常用文本的算法处理,或者无法取得和长文本相同的效果;第二个是短文本缺乏上下文依赖性无法提供有效背景信息。因此,无论是采用现有的深度学习方法还是非深度学习方法做文本比对的时候,当文本的长度特别短的时候,现有方法不能很好的解决问题。为了解决上述问题,本发明第一实施例提供了一种文本对比方法,应当理解的是,所述文本对比方法中个步骤的执行主体可以是计算机、智能手机、云服务器等处理设备。
请参考图1,图1为本发明第一实施例提供的一种文本对比方法的流程示意图。所述文本对比方法的具体步骤可以如下:
步骤S20:通过所述双向长短时记忆神经网络获得需要进行一致性对比的第一文本的第一语义编码。
标准的循环神经网络(RNN)在时序上处理序列,往往忽略了未来的上下文信息。一种很显而易见的解决办法是在输入和目标之间添加延迟,进而可以给网络一些时步来加入未来的上下文信息,也就是加入M时间帧的未来信息来一起预测输出。理论上,M可以非常大来捕获所有未来的可用信息,但事实上发现如果M过大,预测结果将会变差。而双向长短时记忆神经网络(BILSTM)的基本思想是提出每一个训练序列向前和向后分别是两个循环神经网络(RNN),而且这两个都连接着一个输出层,这个结构提供给输出层输入序列中每一个点的完整的过去和未来的上下文信息。本实施例中的双向长短时记忆神经网络的核心思想是记忆元胞和门机制,克服了循环神经网络存在着梯度爆炸和梯度消失等缺陷,能够处理长距离的上下文依赖,具有更长久的记忆能力。
在本实施例中,所述第一文本为超短文本,且为汉字个数不超过10的中文文本。应当理解的是,在其他实施例中,该超短文本的字数和字符类型还可以进行调整,如字母数不超过30的英文文本等。
步骤S40:通过所述注意力层确定所述第一语义编码中每个字符的权重。
注意力机制(Attention Mechanism)源于对人类视觉的研究。在认知科学中,由于信息处理的瓶颈,人类会选择性地关注所有信息的一部分,同时忽略其他可见的信息,上述机制通常被称为注意力机制。神经注意力机制可以使得神经网络具备专注于其输入(或特征)子集的能力:选择特定的输入。注意力可以应用于任何类型的输入而不管其形状如何。在计算能力有限情况下,注意力机制(attention mechanism)是解决信息超载问题的主要手段的一种资源分配方案,将计算资源分配给更重要的任务。本实施例通过注意力层(Attention层)注意力机制中的上下文参数对编码器的特征进行加权,确定所述第一语义编码中每个字符的权重。
步骤S60:基于所述权重,通过全连接层将所述第一语义信息编码转换为第一特征表示。
全连接层(FC层,Fully Connected层)的每一个结点都与上一层的所有结点相连,用来把前边提取到的特征综合起来。由于其全相连的特性,一般全连接层的参数也是最多的,提高了文本特征表示时的上下文联系。同时本实施例还通过全连接层的前向传播和反向传播,配合双向长短时记忆神经网络既考虑了文本的正向顺序,又考虑了文本的逆向顺序,从而提高了文本的编码准确率。
步骤S80:将所述第一特征表示和其他深度文本对比模型生成的所述第二特征表示输入所述能量函数,根据所述能量函数的输出结果判断所述第一文本和所述第二文本是否相似。
该能量函数可以是常用的损失函数,损失函数(loss function)是用来估量你模型的预测值f(x)与真实值Y的不一致程度,它是一个非负实值函数,通常使用L(Y,f(x))来表示,损失函数越小,表示预测值f(x)与真实值Y的不一致程度越大。本实施例将第一文本的第一特征表示作为预测值f(x),将第二文本的第二特征表示作为真实值Y,在计算获得的损失函数值小于或等于预设阈值时则认为第一文本和第二文本相似或者说匹配。
本实施例提供的文本对比方法在步骤S20-S80中通过双向长短时记忆神经网络对第一文本进行语义编码,从而克服了普通循环神经网络存在的梯度爆炸和梯度消失等缺陷,能够处理长距离的上下文依赖文本,并且具有更长久的记忆能力,提高了文本语义编码质量,进而提高了文本相似性判断的准确度;采用注意力层基于上下文注意力机制对语义编码中每个字符的权重进行确定,可以从大量信息中有选择地筛选出少量重要信息并聚焦到这些重要信息上,忽略大多不重要的信息,使文本相似性判断着重于必要信息,进一步提高了文本相似度判断的准确度。
作为一种可选的实施方式,在步骤S10之前,还可以包括单字编码子步骤,请参考图2,图2为本发明第一实施例提供的一种包含单字编码子步骤的文本对比方法的流程示意图,所述单字编码子步骤可以如下:
步骤S10:通过所述嵌入层对所述第一文本进行单字编码,将每个字符投影到低维度向量空间,将编码后的所述第一文本输入所述双向长短时记忆神经网络。
在本实施例中,所述嵌入层(Embedding层)可以选用Keras提供的,它要求输入数据进行整数编码,以便将每个单字都投影到低维度向量空间并由唯一的整数表示。其中,嵌入层可以单独使用来学习一个字嵌入,以后可以在另一个模型中使用;也可以可以用作深度学习模型的一部分,其中嵌入与模型本身一起被学;进一步地,可以在确定所述第一文本所属的领域后,基于所述领域的预训练字向量进行迁移学习确定所述第一文本的字向量,将所述字向量输入所述嵌入层以使所述嵌入层加载预训练的嵌入模型,进行迁移学习。
假设通过嵌入层对每个汉字进行编码时共有N对超短文本,整个数据结构应当是:
[<X11,X12,X13,X14……X1m>,<Y11,Y12,Y13,Y14……Y1n>],
[<X21,X22,X23,X24……X1m>,<Y21,Y22,Y23,Y24……Y2n>],
……
[<XN1,XN2,XN3,XN4……XNm>,<YN1,YN2,YN3,YN4……YNn>]
其中,整个数据集有N对超短文本数据,每一对超短文本数据前者有m个字段,后者有n个字段。X1m表示第一对超短文本数据前者(第一文本)的第m个汉字,Y1n表示第一对超短文本数据后者(第二文本)的第n个汉字。对每对超短文本的每个汉字进行嵌入层编码,编码的向量长度为100。
针对步骤S20,在嵌入层编码的向量长度为100时,本实施例中的双向长短时记忆神经网络的隐向量长度可以设置为200。此外,双向长短时记忆神经网络输出的为第一文本的第一语义编码,语义编码属于信息处理的范畴,主要分析人的记忆信息处理过程,以利于智能信息处理的研究,本实施例中的语义编码将输入的第一文本编码成固定维度的向量表示,这些向量表示能够对许多任务有用,例如检测释义、语义相关性、句子情绪分类等任务。
可选地,本实施例还通过双向长短时记忆神经网络中的Dropout和BatchNormalization机制避免网络过拟合,以提高对比准确率。
针对步骤S40,所述“通过所述注意力层确定所述第一语义编码中每个字符的权重”的步骤中,所述注意力层可以采用上下文注意力机制,则该步骤可以具体为:通过所述注意力层,采用上下文注意力权重公式计算出所述第一语义编码中每个字符的权重,其中,ai表示通过上下文注意力机制得到的权重,uh表示上下文向量,ei表示权重偏置参数,且ei=tanh(Whhi+bh),ei∈[-1,1]。
针对步骤S60,该步骤对注意力层即Attention层进行矩阵变换得到超短文本即第一文本的一个固定长度的特征表示,同时该全连接层将前面经过多次编码后高度抽象化的特征进行整合。所述“基于所述权重,通过全连接层将所述第一语义信息编码转换为第一特征表示”的步骤,具体可以为:将所述第一语义信息编码输入所述全连接层,所述全连接层采用特征表示公式f(x)=wx+b将所述第一语义信息编码转换为第一特征表示,其中,x表示输入的所述第一语义信息编码,w表示由所述权重组成的权重矩阵,b表示偏置参数。
可选地,在嵌入层编码的向量长度为100、双向长短时记忆神经网络的隐向量长度可以设置为200时,本实施例中的全连接层的长度可以设置为128。
针对步骤S80,本实施例可以选用比对损失函数作为能量函数,则步骤S80可以具体为:将所述第一特征表示和其他深度文本对比模型生成的所述第二特征表示输入所述比对损失函数其中,表示所述第一表示和所述第二特征表示的欧氏距离,Y为所述第一特征表示和所述第二特征表示是否匹配的标签,Y=0表示所述第一特征表示和所述第二特征不相似,Y=1表示所述第一特征表示和所述第二特征相似,m为预设阈值。应当理解的是,m的取值可以根据具体需求进行调整。
其中,深度文本对比模型可以为深度孪生双向长短时记忆神经网络,请参考图3,图3为本发明第一实施例提供的一种深度孪生双向长短时记忆神经网络的结构示意图。该深度孪生双向长短时记忆神经网络可以包括依次连接的第一嵌入层、第一注意力层、第一全连接层,还包括依次连接的第二嵌入层、第二注意力层、第二全连接层,第一全连接层和第二全连接层可以共用一个能量函数,通过该能量函数对第一全连接层和第二全连接层输出的特征表示进行相似度对比。
本发明提供的所述文本对比方法通过双向长短时记忆神经网络对第一文本进行语义编码,从而克服了普通循环神经网络存在的梯度爆炸和梯度消失等缺陷,能够处理长距离的上下文依赖文本,并且具有更长久的记忆能力,提高了文本语义编码质量,进而提高了文本相似性判断的准确度;采用注意力层基于上下文注意力机制对语义编码中每个字符的权重进行确定,可以从大量信息中有选择地筛选出少量重要信息并聚焦到这些重要信息上,忽略大多不重要的信息,使文本相似性判断着重于必要信息,进一步提高了文本相似度判断的准确度。
第二实施例
为了配合本发明第一实施例提供的所述文本对比方法,本发明第二实施例还提供了一种文本对比装置100。
请参考图4,图4为本发明第二实施例提供的一种文本对比装置的模块示意图。
文本对比装置100包括语义编码模块110、权重确定模块120、特征表示模块130和判断模块140。
语义编码模块110,用于通过所述双向长短时记忆神经网络获得需要进行一致性对比的第一文本的第一语义编码。
权重确定模块120,用于通过所述注意力层确定所述第一语义编码中每个字符的权重。
特征表示模块130,用于基于所述权重,通过全连接层将所述第一语义信息编码转换为第一特征表示。
判断模块140,用于将所述第一特征表示和其他深度文本对比模型生成的所述第二特征表示输入所述能量函数,根据所述能量函数的输出结果判断所述第一文本和所述第二文本是否相似。
可选地,本实施例中的文本对比装置100还可以包括单字编码模块105,该单字编码模块105用于通过所述嵌入层对所述第一文本进行单字编码,将每个字符投影到低维度向量空间,将编码后的所述第一文本输入所述双向长短时记忆神经网络。
可选地,本实施例中的文本对比装置100还可以包括预训练模块,该预训练模块用于确定所述第一文本所属的领域,基于所述领域的预训练字向量进行迁移学习确定所述第一文本的字向量,将所述字向量输入所述嵌入层。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法中的对应过程,在此不再过多赘述。
第三实施例
请参照图5,图5为本发明第三实施例提供的一种可应用于本申请实施例中的电子设备的结构框图。本实施例提供的电子设备200可以包括文本对比装置100、存储器201、存储控制器202、处理器203、外设接口204、输入输出单元205、音频单元206、显示单元207。
所述存储器201、存储控制器202、处理器203、外设接口204、输入输出单元205、音频单元206、显示单元207各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述文本对比装置100包括至少一个可以软件或固件(firmware)的形式存储于所述存储器201中或固化在文本对比装置100的操作系统(operating system,OS)中的软件功能模块。所述处理器203用于执行存储器201中存储的可执行模块,例如文本对比装置100包括的软件功能模块或计算机程序。
其中,存储器201可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。其中,存储器201用于存储程序,所述处理器203在接收到执行指令后,执行所述程序,前述本发明实施例任一实施例揭示的流过程定义的服务器所执行的方法可以应用于处理器203中,或者由处理器203实现。
处理器203可以是一种集成电路芯片,具有信号的处理能力。上述的处理器203可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器203也可以是任何常规的处理器等。
所述外设接口204将各种输入/输出装置耦合至处理器203以及存储器201。在一些实施例中,外设接口204,处理器203以及存储控制器202可以在单个芯片中实现。在其他一些实例中,他们可以分别由独立的芯片实现。
输入输出单元205用于提供给用户输入数据实现用户与所述服务器(或本地终端)的交互。所述输入输出单元205可以是,但不限于,鼠标和键盘等设备。
音频单元206向用户提供音频接口,其可包括一个或多个麦克风、一个或者多个扬声器以及音频电路。
显示单元207在所述电子设备200与用户之间提供一个交互界面(例如用户操作界面)或用于显示图像数据给用户参考。在本实施例中,所述显示单元207可以是液晶显示器或触控显示器。若为触控显示器,其可为支持单点和多点触控操作的电容式触控屏或电阻式触控屏等。支持单点和多点触控操作是指触控显示器能感应到来自该触控显示器上一个或多个位置处同时产生的触控操作,并将该感应到的触控操作交由处理器203进行计算和处理。
可以理解,图5所示的结构仅为示意,所述电子设备200还可包括比图5中所示更多或者更少的组件,或者具有与图5所示不同的配置。图5中所示的各组件可以采用硬件、软件或其组合实现。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法中的对应过程,在此不再过多赘述。
综上所述,本发明实施例提供了一种文本对比方法、装置及其计算机存储介质,所述文本对比方法通过双向长短时记忆神经网络对第一文本进行语义编码,从而克服了普通循环神经网络存在的梯度爆炸和梯度消失等缺陷,能够处理长距离的上下文依赖文本,并且具有更长久的记忆能力,提高了文本语义编码质量,进而提高了文本相似性判断的准确度;采用注意力层基于上下文注意力机制对语义编码中每个字符的权重进行确定,可以从大量信息中有选择地筛选出少量重要信息并聚焦到这些重要信息上,忽略大多不重要的信息,使文本相似性判断着重于必要信息,进一步提高了文本相似度判断的准确度。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (10)

1.一种文本对比方法,其特征在于,应用于深度文本对比模型,所述深度文本对比模型包括双向长短时记忆神经网络、注意力层、全连接层和能量函数,所述文本对比方法包括:
通过所述双向长短时记忆神经网络获得需要进行一致性对比的第一文本的第一语义编码;
通过所述注意力层确定所述第一语义编码中每个字符的权重;
基于所述权重,通过全连接层将所述第一语义信息编码转换为第一特征表示;
将所述第一特征表示和其他深度文本对比模型生成的所述第二特征表示输入所述能量函数,根据所述能量函数的输出结果判断所述第一文本和所述第二文本是否相似。
2.根据权利要求1所述的文本对比方法,其特征在于,所述深度文本对比模型还包括嵌入层,在所述通过所述双向长短时记忆神经网络获得需要进行一致性对比的第一文本的第一语义编码之前,所述文本对比方法还包括:
通过所述嵌入层对所述第一文本进行单字编码,将每个字符投影到低维度向量空间,将编码后的所述第一文本输入所述双向长短时记忆神经网络。
3.根据权利要求2所述的文本对比方法,其特征在于,在所述通过所述嵌入层对所述第一文本进行单字编码之前,所述文本对比方法还包括:
确定所述第一文本所属的领域,基于所述领域的预训练字向量进行迁移学习确定所述第一文本的字向量,将所述字向量输入所述嵌入层。
4.根据权利要求1所述的文本对比方法,其特征在于,所述注意力层采用上下文注意力机制,所述通过所述注意力层确定所述第一语义编码中每个字符的权重,包括:
通过所述注意力层,采用上下文注意力权重公式计算出所述第一语义编码中每个字符的权重;
其中,ai表示通过上下文注意力机制得到的权重,uh表示上下文向量,ei表示权重偏置参数。
5.根据权利要求4所述的文本对比方法,其特征在于,所述基于所述权重,通过全连接层将所述第一语义信息编码转换为第一特征表示,包括:
将所述第一语义信息编码输入所述全连接层,所述全连接层采用特征表示公式f(x)=wx+b将所述第一语义信息编码转换为第一特征表示,其中,x表示输入的所述第一语义信息编码,w表示由所述权重组成的权重矩阵,b表示偏置参数。
6.根据权利要求1所述的文本对比方法,其特征在于,所述能量函数为比对损失函数,所述将所述第一特征表示和其他深度文本对比模型生成的所述第二特征标识输入所述能量函数,根据所述能量函数的输出结果判断所述第一文本和所述第二文本是否相似,包括:
将所述第一特征表示和其他深度文本对比模型生成的所述第二特征表示输入所述比对损失函数其中,表示所述第一表示和所述第二特征表示的欧氏距离,Y为所述第一特征表示和所述第二特征表示是否匹配的标签,Y=0表示所述第一特征表示和所述第二特征不相似,Y=1表示所述第一特征表示和所述第二特征相似,m为预设阈值。
7.一种文本对比装置,其特征在于,所述文本对比装置包括:
语义编码模块,用于通过所述双向长短时记忆神经网络获得需要进行一致性对比的第一文本的第一语义编码;
权重确定模块,用于通过所述注意力层确定所述第一语义编码中每个字符的权重;
特征表示模块,用于基于所述权重,通过全连接层将所述第一语义信息编码转换为第一特征表示;
判断模块,用于将所述第一特征表示和其他深度文本对比模型生成的所述第二特征表示输入所述能量函数,根据所述能量函数的输出结果判断所述第一文本和所述第二文本是否相似。
8.根据权利要求7所述的文本对比装置,其特征在于,所述文本对比装置还包括:
单字编码模块,用于通过嵌入层对所述第一文本进行单字编码,将每个字符投影到低维度向量空间,将编码后的所述第一文本输入所述双向长短时记忆神经网络。
9.根据权利要求7所述的文本对比装置,其特征在于,所述文本对比装置还包括:
预训练模块,用于确定所述第一文本所属的领域,基于所述领域的预训练字向量进行迁移学习确定所述第一文本的字向量,将所述字向量输入嵌入层。
10.一种计算机可读取存储介质,其特征在于,所述计算机可读取存储介质中存储有计算机程序指令,所述计算机程序指令被一处理器读取并运行时,执行权利要求1-6任一项所述方法中的步骤。
CN201810980045.8A 2018-08-27 2018-08-27 一种文本对比方法、装置及其计算机存储介质 Pending CN109214002A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810980045.8A CN109214002A (zh) 2018-08-27 2018-08-27 一种文本对比方法、装置及其计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810980045.8A CN109214002A (zh) 2018-08-27 2018-08-27 一种文本对比方法、装置及其计算机存储介质

Publications (1)

Publication Number Publication Date
CN109214002A true CN109214002A (zh) 2019-01-15

Family

ID=64989295

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810980045.8A Pending CN109214002A (zh) 2018-08-27 2018-08-27 一种文本对比方法、装置及其计算机存储介质

Country Status (1)

Country Link
CN (1) CN109214002A (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783516A (zh) * 2019-02-19 2019-05-21 北京奇艺世纪科技有限公司 一种查询语句检索回复方法及装置
CN110069601A (zh) * 2019-04-03 2019-07-30 平安科技(深圳)有限公司 情绪检测分析方法及相关装置
CN110443269A (zh) * 2019-06-17 2019-11-12 平安信托有限责任公司 一种文档比对方法及装置
CN110533057A (zh) * 2019-04-29 2019-12-03 浙江科技学院 一种单样本与少样本场景下的汉字验证码识别方法
CN110825845A (zh) * 2019-10-23 2020-02-21 中南大学 一种基于字符与自注意力机制的层次文本分类方法及中文文本分类方法
CN111276133A (zh) * 2020-01-20 2020-06-12 厦门快商通科技股份有限公司 音频识别方法、系统、移动终端及存储介质
CN111274784A (zh) * 2020-01-15 2020-06-12 中国民航大学 一种基于BiLSTM-Attention的陆空通话复诵语义自动校验方法
CN111402979A (zh) * 2020-03-24 2020-07-10 清华大学 病情描述与诊断一致性检测方法及装置
CN111538998A (zh) * 2020-03-31 2020-08-14 北京万里红科技股份有限公司 文本定密方法和装置、电子设备及计算机可读存储介质
CN111723164A (zh) * 2019-03-18 2020-09-29 阿里巴巴集团控股有限公司 地址信息的处理方法和装置
CN111814437A (zh) * 2020-05-28 2020-10-23 杭州视氪科技有限公司 一种基于深度学习的盲文转中文方法
WO2020252930A1 (zh) * 2019-06-19 2020-12-24 平安科技(深圳)有限公司 问答系统重复问题识别方法、装置、设备及存储介质
WO2020253052A1 (zh) * 2019-06-18 2020-12-24 平安普惠企业管理有限公司 一种基于自然语义理解的行为识别方法及相关设备
CN112148904A (zh) * 2020-07-31 2020-12-29 中标慧安信息技术股份有限公司 一种报警联动录像的索引方法及装置
CN112287656A (zh) * 2020-10-12 2021-01-29 四川语言桥信息技术有限公司 文本比对方法、装置、设备和存储介质
CN113239800A (zh) * 2021-05-12 2021-08-10 上海善索智能科技有限公司 目标检测方法及目标检测装置
CN113657445A (zh) * 2021-07-13 2021-11-16 珠海金智维信息科技有限公司 基于Resnet的单行文本图片比对方法及系统
CN114357168A (zh) * 2021-12-31 2022-04-15 成都信息工程大学 一种文本分类方法
CN111402979B (zh) * 2020-03-24 2024-05-31 清华大学 病情描述与诊断一致性检测方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844346A (zh) * 2017-02-09 2017-06-13 北京红马传媒文化发展有限公司 基于深度学习模型Word2Vec的短文本语义相似性判别方法和系统
CN107291836A (zh) * 2017-05-31 2017-10-24 北京大学 一种基于语义相关度模型的中文文本摘要获取方法
CN107967255A (zh) * 2017-11-08 2018-04-27 北京广利核系统工程有限公司 一种判定文本相似性的方法和系统
CN108334499A (zh) * 2018-02-08 2018-07-27 海南云江科技有限公司 一种文本标签标注设备、方法和计算设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844346A (zh) * 2017-02-09 2017-06-13 北京红马传媒文化发展有限公司 基于深度学习模型Word2Vec的短文本语义相似性判别方法和系统
CN107291836A (zh) * 2017-05-31 2017-10-24 北京大学 一种基于语义相关度模型的中文文本摘要获取方法
CN107967255A (zh) * 2017-11-08 2018-04-27 北京广利核系统工程有限公司 一种判定文本相似性的方法和系统
CN108334499A (zh) * 2018-02-08 2018-07-27 海南云江科技有限公司 一种文本标签标注设备、方法和计算设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CHIN-HONG SHIH等: ""Investigating Siamese LSTM Networks forText Categorization"", 《PROCEEDINGS OF APSIPA ANNUAL SUMMIT AND CONFERENCE2017》 *
CHIN-HONG SHIH等: "Investigating Siamese LSTM Networks for Text Categorization" *
ZHOUHAN LIN等: "A STRUCTURED SELF-ATTENTIVE SENTENCE EMBEDDING" *

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783516A (zh) * 2019-02-19 2019-05-21 北京奇艺世纪科技有限公司 一种查询语句检索回复方法及装置
CN111723164B (zh) * 2019-03-18 2023-12-12 阿里巴巴集团控股有限公司 地址信息的处理方法和装置
CN111723164A (zh) * 2019-03-18 2020-09-29 阿里巴巴集团控股有限公司 地址信息的处理方法和装置
CN110069601A (zh) * 2019-04-03 2019-07-30 平安科技(深圳)有限公司 情绪检测分析方法及相关装置
WO2020199590A1 (zh) * 2019-04-03 2020-10-08 平安科技(深圳)有限公司 情绪检测分析方法及相关装置
CN110533057A (zh) * 2019-04-29 2019-12-03 浙江科技学院 一种单样本与少样本场景下的汉字验证码识别方法
CN110533057B (zh) * 2019-04-29 2022-08-12 浙江科技学院 一种单样本与少样本场景下的汉字验证码识别方法
CN110443269A (zh) * 2019-06-17 2019-11-12 平安信托有限责任公司 一种文档比对方法及装置
WO2020253052A1 (zh) * 2019-06-18 2020-12-24 平安普惠企业管理有限公司 一种基于自然语义理解的行为识别方法及相关设备
WO2020252930A1 (zh) * 2019-06-19 2020-12-24 平安科技(深圳)有限公司 问答系统重复问题识别方法、装置、设备及存储介质
CN110825845A (zh) * 2019-10-23 2020-02-21 中南大学 一种基于字符与自注意力机制的层次文本分类方法及中文文本分类方法
CN110825845B (zh) * 2019-10-23 2022-09-23 中南大学 一种基于字符与自注意力机制的层次文本分类方法及中文文本分类方法
CN111274784A (zh) * 2020-01-15 2020-06-12 中国民航大学 一种基于BiLSTM-Attention的陆空通话复诵语义自动校验方法
CN111276133A (zh) * 2020-01-20 2020-06-12 厦门快商通科技股份有限公司 音频识别方法、系统、移动终端及存储介质
CN111402979B (zh) * 2020-03-24 2024-05-31 清华大学 病情描述与诊断一致性检测方法及装置
CN111402979A (zh) * 2020-03-24 2020-07-10 清华大学 病情描述与诊断一致性检测方法及装置
CN111538998B (zh) * 2020-03-31 2023-11-24 北京万里红科技有限公司 文本定密方法和装置、电子设备及计算机可读存储介质
CN111538998A (zh) * 2020-03-31 2020-08-14 北京万里红科技股份有限公司 文本定密方法和装置、电子设备及计算机可读存储介质
CN111814437A (zh) * 2020-05-28 2020-10-23 杭州视氪科技有限公司 一种基于深度学习的盲文转中文方法
CN112148904A (zh) * 2020-07-31 2020-12-29 中标慧安信息技术股份有限公司 一种报警联动录像的索引方法及装置
CN112287656A (zh) * 2020-10-12 2021-01-29 四川语言桥信息技术有限公司 文本比对方法、装置、设备和存储介质
CN112287656B (zh) * 2020-10-12 2024-05-28 四川语言桥信息技术有限公司 文本比对方法、装置、设备和存储介质
CN113239800A (zh) * 2021-05-12 2021-08-10 上海善索智能科技有限公司 目标检测方法及目标检测装置
CN113657445B (zh) * 2021-07-13 2022-06-07 珠海金智维信息科技有限公司 基于Resnet的单行文本图片比对方法及系统
CN113657445A (zh) * 2021-07-13 2021-11-16 珠海金智维信息科技有限公司 基于Resnet的单行文本图片比对方法及系统
CN114357168A (zh) * 2021-12-31 2022-04-15 成都信息工程大学 一种文本分类方法

Similar Documents

Publication Publication Date Title
CN109214002A (zh) 一种文本对比方法、装置及其计算机存储介质
CN112632385B (zh) 课程推荐方法、装置、计算机设备及介质
CN112163165B (zh) 信息推荐方法、装置、设备及计算机可读存储介质
CN108287864B (zh) 一种兴趣群组划分方法、装置、介质及计算设备
CN112270196B (zh) 实体关系的识别方法、装置及电子设备
CN109165384A (zh) 一种命名实体识别方法及装置
CN106973244A (zh) 使用弱监督为图像配字幕
CN109471944A (zh) 文本分类模型的训练方法、装置及可读存储介质
Oelke et al. Comparative exploration of document collections: a visual analytics approach
CN108959329B (zh) 一种文本分类方法、装置、介质及设备
CN107391545A (zh) 一种对用户进行分类的方法、输入方法及装置
Gao et al. Self-attention driven adversarial similarity learning network
Alexandridis et al. A knowledge-based deep learning architecture for aspect-based sentiment analysis
CN110363206B (zh) 数据对象的聚类、数据处理及数据识别方法
Su et al. Answer acquisition for knowledge base question answering systems based on dynamic memory network
CN112948575A (zh) 文本数据处理方法、装置和计算机可读存储介质
Song et al. Background subtraction using infinite asymmetric Gaussian mixture models with simultaneous feature selection
CN109992665A (zh) 一种基于问题目标特征扩展的分类方法
CN116402166B (zh) 一种预测模型的训练方法、装置、电子设备及存储介质
CN112560663A (zh) 教学视频打点方法、相关设备及可读存储介质
CN111275683A (zh) 图像质量评分处理方法、系统、设备及介质
CN113610080B (zh) 基于跨模态感知的敏感图像识别方法、装置、设备及介质
CN115168609A (zh) 一种文本匹配方法、装置、计算机设备和存储介质
CN109376602A (zh) 一种指静脉识别方法、装置及终端设备
Yang et al. Visual Skeleton and Reparative Attention for Part-of-Speech image captioning system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190115