CN111144129B - 一种基于自回归与自编码的语义相似度获取方法 - Google Patents

一种基于自回归与自编码的语义相似度获取方法 Download PDF

Info

Publication number
CN111144129B
CN111144129B CN201911362305.6A CN201911362305A CN111144129B CN 111144129 B CN111144129 B CN 111144129B CN 201911362305 A CN201911362305 A CN 201911362305A CN 111144129 B CN111144129 B CN 111144129B
Authority
CN
China
Prior art keywords
semantic
vector
text
word
steps
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911362305.6A
Other languages
English (en)
Other versions
CN111144129A (zh
Inventor
王开业
蒋登位
崔斌
谭启涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Aerospace Science And Industry Big Data Research Institute Co ltd
Original Assignee
Chengdu Aerospace Science And Industry Big Data Research Institute Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Aerospace Science And Industry Big Data Research Institute Co ltd filed Critical Chengdu Aerospace Science And Industry Big Data Research Institute Co ltd
Priority to CN201911362305.6A priority Critical patent/CN111144129B/zh
Publication of CN111144129A publication Critical patent/CN111144129A/zh
Application granted granted Critical
Publication of CN111144129B publication Critical patent/CN111144129B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于深度学习技术领域,公开了一种基于自回归与自编码的语义相似度获取方法,包括如下步骤:S1:根据输入的原始文本,进行文本表征,获取优化的内容特征和查询特征;S2:根据上述步骤得到的内容特征和查询特征,使用优化语义提取模型进行语义特征提取;S3:根据上述步骤提取的原始文本的语义特征和现有的目标文本的语义特征,获取语义相似度。本发明提高了中文语言文本表征的准确性和文本相似度计算的准确率,解决了现有技术存在的性能损失、无法分辨单词关系以及单向问题。

Description

一种基于自回归与自编码的语义相似度获取方法
技术领域
本发明属于深度学习技术领域,具体涉及一种基于自回归与自编码的语义相似度获取方法。
背景技术
现有技术通常分为两大类:一类是基于统计学的计算方法,如编辑距离计算、杰卡德系数、TF-IDF算法等等。此种方法通常需要大规模的语料库进行训练,并且在计算时没有考虑文本中的句子的结构信息和语义信息,计算的结果有时会与文本的真实语义相差较大;另一类是基于语义理解的计算方法,如word2vec、CNN、LSTM、Bert等。这种方法不仅考虑了文本的统计特征,同时,也考察了句子的层次结构、语义信息等语言特征,是目前进行语义相似度计算的主流方法。这种基于语义理解的计算方法主要流程基本相同,首先通过算法模型对两个文本中的语句进行向量表征(如字向量,词向量,句向量),再对两个向量进行比较确定其相似程度,向量表征的优劣直接决定了最后的相似度结果。目前,向量表征模型有两类:自回归模型、自编码模型。
自回归是时间序列分析或者信号处理领域的一个术语,自回归模型(AR)是指假定一个句子的生成过程如下:首先根据概率分布生成第一个词,然后根据第一个词生成第二个词,然后根据前两个词生成第三个词,不停的迭代,直到生成整个句子。自回归模型的优势是擅长生成式自然语言处理任务。因为在生成上下文时,通常是前向的。AR语言模型很自然地适用于此类NLP任务。但AR语言模型有一些缺点,它只能使用前向上下文或后向上下文,这意味着它不能同时使用前向和后向上下文。
自编码器模型(AE)是一种无监督学习,它用一个神经网络将输入的文本(输入通常还会增加一些噪声)变成一个低维的特征,这就是编码部分,然后再用一个Decoder尝试把特征恢复成原始的信号。自编码模型的优势是,它可以从向前和向后的方向看到上下文。但AE语言模型也有其缺点;它在预训练时通常会随机屏蔽掉文本中的部分词,但这种人为的干预在真实数据中是不存在的,必然导致预训练-调优的差异,降低模型的泛化能力;同时,选取屏蔽词的前提是假定每个屏蔽词在给定未屏蔽词的前提下是彼此独立的,但在真实的语言环境中,这种假设并不成立。
发明内容
本发明旨在于至少在一定程度上解决上述技术问题之一,本发明目的在于提供一种基于自回归与自编码的语义相似度获取方法。
本发明所采用的技术方案为:
一种基于自回归与自编码的语义相似度获取方法,包括如下步骤:
S1:根据输入的原始文本,进行文本表征,获取优化的内容特征和查询特征;
S2:根据上述步骤得到的内容特征和查询特征,使用优化语义提取模型进行语义特征提取;
S3:根据上述步骤提取的原始文本的语义特征和现有的目标文本的语义特征,获取语义相似度。
进一步地,步骤S1中,内容特征包括字向量、声调向量、词性向量以及位置向量;
查询特征包括声调向量、词性向量以及位置向量。
进一步地,步骤S2中,根据全排列机制和多信息注意力机制对Transformer模型进行优化,获取优化语义提取模型。
进一步地,全排列机制的具体方法为:将当前原始文本的优化的内容特征的字向量、声调向量、词性向量以及位置向量作为Transformer模型的输入向量,根据输入向量的排列顺序,获取当前字的预测输出向量。
进一步地,多信息注意力机制的具体方法为:根据上一隐藏层的所有字的内容特征,获取当前隐藏层的当前字的内容特征;根据上一隐藏层的除当前字以外的所有字的内容特征以及上一隐藏层的当前字的查询特征,获取当前隐藏层的当前字的查询特征。
进一步地,步骤S3中,使用余弦相似度方法,获取语义相似度。
进一步地,余弦相似度方法的公式为:
Figure BDA0002337490440000031
式中,Si为语义相似度;
Figure BDA0002337490440000032
为原始文本的语义特征向量;/>
Figure BDA0002337490440000033
为目标文本的语义特征向量。
本发明的有益效果为:
1)本发明提高了中文语言文本表征的准确性,通过引入声调向量和词性向量,使得中文语言特征表述更丰富、准确,对于语言理解更加准确;
2)本发明解决了现有技术中存在的使用模式不一致的情形导致的性能损失以及无法分辨文本单词之间关系的问题;
3)本发明自回归与自编码结合的算法则可以同时利用上下文进行预测,解决了现有技术中存在的从左到右或者从右到左单向处理导致不能同时很好利用上文和下文进行预测单向问题;
4)本发明提高了文本相似度计算的准确率,相比于现有技术,自回归与自编码结合的算法提高了文本相似度计算的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是基于自回归与自编码的语义相似度获取方法流程框图。
图2是内容特征和查询特征模型示意图。
图3是优化语义提取模型示意图。
图4是全排列机制模型示意图。
图5是多信息注意力机制模型示意图。
图6是余弦相似度计算模型示意图。
具体实施方式
下面结合附图及具体实施例来对本发明作进一步阐述。在此需要说明的是,对于这些实施例方式的说明虽然是用于帮助理解本发明,但并不构成对本发明的限定。本发明公开的功能细节仅用于描述本发明的示例实施例。然而,可用很多备选的形式来体现本发明,并且不应当理解为本发明限制在本发明阐述的实施例中。
应当理解,本发明使用的术语仅用于描述特定实施例,并不意在限制本发明的示例实施例。若术语“包括”、“包括了”、“包含”和/或“包含了”在本发明中被使用时,指定所声明的特征、整数、步骤、操作、单元和/或组件的存在性,并且不排除一个或多个其他特征、数量、步骤、操作、单元、组件和/或他们的组合存在性或增加。
应当理解,还应当注意到在一些备选实施例中,所出现的功能/动作可能与附图出现的顺序不同。例如,取决于所涉及的功能/动作,实际上可以实质上并发地执行,或者有时可以以相反的顺序来执行连续示出的两个图。
应当理解,在下面的描述中提供了特定的细节,以便于对示例实施例的完全理解。然而,本领域普通技术人员应当理解可以在没有这些特定细节的情况下实现示例实施例。例如可以在框图中示出系统,以避免用不必要的细节来使得示例不清楚。在其他实例中,可以不以不必要的细节来示出众所周知的过程、结构和技术,以避免使得示例实施例不清楚。
实施例1:
本实施例提供一种基于自回归与自编码的语义相似度获取方法,如图1所示,包括如下步骤:
S1:根据输入的原始文本,进行文本表征,如图2所示,获取优化的内容特征和查询特征;
内容特征包括字向量、声调向量、词性向量以及位置向量;
查询特征包括声调向量、词性向量以及位置向量;
由于计算机没有办法直接处理中文文字,需要对原始文本进行转化,在原始文本表征方面,现有的只有字向量和位置向量,而针对于汉语来说,无法充分表述汉语言的文本特征;因此本实施例引入了声调向量和词性向量;因为不同的声调和词性往往对应着不同的意思表达,通过声调向量、词性向量的引入,增强了对中文文本语义的表述;同时将内容特征和查询特征进行了分离,提高了后续语义表征的准确性和丰富性;
S2:根据上述步骤得到的内容特征和查询特征,使用优化语义提取模型进行语义特征提取;
根据全排列机制和多信息注意力机制对Transformer模型进行优化,获取优化语义提取模型,如图3所示;
全排列机制的具体方法为:将当前原始文本的优化的内容特征的字向量、声调向量、词性向量以及位置向量作为Transformer模型的输入向量,根据输入向量的排列顺序,获取当前字的预测输出向量;如图4所示,其中xi表示第i个字的输入向量;Gj表示第j层网络的隐藏状态;Hi j表示第j层隐藏层的第i个位置的权重向量(该参数是模型学习所得);Ti表示第i个字的预测输出;当需要预测第2个字向量时,通过不同的排列组合,则可得到不同的上下文关系,Gj表示第j层(上一层)的隐藏状态,当排列顺序为3→2→1→4时,第2个字向量与x3及Gj有关系;当排列顺序为4→3→1→2时,第2个字向量与x1、x4、x1及Gj有关系;
为了消除自编码模型中的人为干预过程,同时避免割裂屏蔽词之间的相互关联,本实施例引入了多信息注意力机制,多信息注意力机制的具体方法为:根据上一隐藏层的所有字的内容特征,获取当前隐藏层的当前字的内容特征;根据上一隐藏层的除当前字以外的所有字的内容特征以及上一隐藏层的当前字的查询特征,获取当前隐藏层的当前字的查询特征;如图5所示,Ci j表示第j个隐藏层第i个字的内容向量;Qi j表示第j个隐藏层第i个字的位置信息向量;K、V表示字信息的查询键值对;Q、K、V三者都是模型学习所得参数;
S3:根据上述步骤提取的原始文本的语义特征和现有的目标文本的语义特征,使用余弦相似度方法,获取语义相似度;余弦相似度方法的公式为:
Figure BDA0002337490440000071
式中,Si为语义相似度;
Figure BDA0002337490440000072
为原始文本的语义特征向量;/>
Figure BDA0002337490440000073
为目标文本的语义特征向量;当两个向量/>
Figure BDA0002337490440000074
与/>
Figure BDA0002337490440000075
的夹角为90度时,其余弦值为0,说明相似度为0;当夹角为0度时,其余弦值为1,说明相似度为1,如图6所示。
以上所描述的实施例仅仅是示意性的,若涉及到作为分离部件说明的单元,其可以是或者也可以不是物理上分开的;若涉及到作为单元显示的部件,其可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
本发明不局限于上述可选的实施方式,任何人在本发明的启示下都可得出其他各种形式的产品。上述具体实施方式不应理解成对本发明的保护范围的限制,本发明的保护范围应当以权利要求书中界定的为准,并且说明书可以用于解释权利要求书。

Claims (3)

1.一种基于自回归与自编码的语义相似度获取方法,其特征在于:包括如下步骤:
S1:根据输入的原始文本,进行文本表征,获取优化的内容特征和查询特征;
S2:根据上述步骤得到的内容特征和查询特征,使用优化语义提取模型进行语义特征提取;
S3:根据上述步骤提取的原始文本的语义特征和现有的目标文本的语义特征,获取语义相似度;
所述的步骤S1中,所述的内容特征包括字向量、声调向量、词性向量以及位置向量;
所述的查询特征包括声调向量、词性向量以及位置向量;
所述的步骤S2中,根据全排列机制和多信息注意力机制对Transformer模型进行优化,获取优化语义提取模型;
所述的全排列机制的具体方法为:将当前原始文本的优化的内容特征的字向量、声调向量、词性向量以及位置向量作为Transformer模型的输入向量,根据输入向量的排列顺序,获取当前字的预测输出向量;
所述的多信息注意力机制的具体方法为:根据上一隐藏层的所有字的内容特征,获取当前隐藏层的当前字的内容特征;根据上一隐藏层的除当前字以外的所有字的内容特征以及上一隐藏层的当前字的查询特征,获取当前隐藏层的当前字的查询特征。
2.根据权利要求1所述的基于自回归与自编码的语义相似度获取方法,其特征在于:所述的步骤S3中,使用余弦相似度方法,获取语义相似度。
3.根据权利要求2所述的基于自回归与自编码的语义相似度获取方法,其特征在于:所述的余弦相似度方法的公式为:
Figure FDA0004200998850000021
式中,Si为语义相似度;
Figure FDA0004200998850000022
为原始文本的语义特征向量;/>
Figure FDA0004200998850000023
为目标文本的语义特征向量。/>
CN201911362305.6A 2019-12-26 2019-12-26 一种基于自回归与自编码的语义相似度获取方法 Active CN111144129B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911362305.6A CN111144129B (zh) 2019-12-26 2019-12-26 一种基于自回归与自编码的语义相似度获取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911362305.6A CN111144129B (zh) 2019-12-26 2019-12-26 一种基于自回归与自编码的语义相似度获取方法

Publications (2)

Publication Number Publication Date
CN111144129A CN111144129A (zh) 2020-05-12
CN111144129B true CN111144129B (zh) 2023-06-06

Family

ID=70520167

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911362305.6A Active CN111144129B (zh) 2019-12-26 2019-12-26 一种基于自回归与自编码的语义相似度获取方法

Country Status (1)

Country Link
CN (1) CN111144129B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014033799A1 (ja) * 2012-08-27 2014-03-06 株式会社日立製作所 単語意味関係抽出装置
CN106844346A (zh) * 2017-02-09 2017-06-13 北京红马传媒文化发展有限公司 基于深度学习模型Word2Vec的短文本语义相似性判别方法和系统
CN107291693A (zh) * 2017-06-15 2017-10-24 广州赫炎大数据科技有限公司 一种改进词向量模型的语义计算方法
CN107967255A (zh) * 2017-11-08 2018-04-27 北京广利核系统工程有限公司 一种判定文本相似性的方法和系统
CN108287824A (zh) * 2018-03-07 2018-07-17 北京云知声信息技术有限公司 语义相似度计算方法及装置
CN109145290A (zh) * 2018-07-25 2019-01-04 东北大学 基于字向量与自注意力机制的语义相似度计算方法
CN109840321A (zh) * 2017-11-29 2019-06-04 腾讯科技(深圳)有限公司 文本推荐方法、装置及电子设备
CN110347796A (zh) * 2019-07-05 2019-10-18 神思电子技术股份有限公司 向量语义张量空间下的短文本相似度计算方法
CN110413988A (zh) * 2019-06-17 2019-11-05 平安科技(深圳)有限公司 文本信息匹配度量的方法、装置、服务器及存储介质
CN110502610A (zh) * 2019-07-24 2019-11-26 深圳壹账通智能科技有限公司 基于文本语义相似度的智能语音签名方法、装置及介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8341095B2 (en) * 2009-01-12 2012-12-25 Nec Laboratories America, Inc. Supervised semantic indexing and its extensions

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014033799A1 (ja) * 2012-08-27 2014-03-06 株式会社日立製作所 単語意味関係抽出装置
CN106844346A (zh) * 2017-02-09 2017-06-13 北京红马传媒文化发展有限公司 基于深度学习模型Word2Vec的短文本语义相似性判别方法和系统
CN107291693A (zh) * 2017-06-15 2017-10-24 广州赫炎大数据科技有限公司 一种改进词向量模型的语义计算方法
CN107967255A (zh) * 2017-11-08 2018-04-27 北京广利核系统工程有限公司 一种判定文本相似性的方法和系统
CN109840321A (zh) * 2017-11-29 2019-06-04 腾讯科技(深圳)有限公司 文本推荐方法、装置及电子设备
WO2019105432A1 (zh) * 2017-11-29 2019-06-06 腾讯科技(深圳)有限公司 文本推荐方法、装置及电子设备
CN108287824A (zh) * 2018-03-07 2018-07-17 北京云知声信息技术有限公司 语义相似度计算方法及装置
CN109145290A (zh) * 2018-07-25 2019-01-04 东北大学 基于字向量与自注意力机制的语义相似度计算方法
CN110413988A (zh) * 2019-06-17 2019-11-05 平安科技(深圳)有限公司 文本信息匹配度量的方法、装置、服务器及存储介质
CN110347796A (zh) * 2019-07-05 2019-10-18 神思电子技术股份有限公司 向量语义张量空间下的短文本相似度计算方法
CN110502610A (zh) * 2019-07-24 2019-11-26 深圳壹账通智能科技有限公司 基于文本语义相似度的智能语音签名方法、装置及介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LiHong Xu等.Text similarity algorithm based on semantic vector space model.2016 IEEE/ACIS 15th International Conference on Computer and Information Science (ICIS).2016,全文. *
杨俊峰 ; 尹光花 ; .基于word2vec和CNN的短文本聚类研究.信息与电脑(理论版).2019,(24),全文. *
黄莺 ; .基于相关反馈的特征融合图像检索优化策略初探.数字图书馆论坛.2018,(02),全文. *

Also Published As

Publication number Publication date
CN111144129A (zh) 2020-05-12

Similar Documents

Publication Publication Date Title
CN111241294B (zh) 基于依赖解析和关键词的图卷积网络的关系抽取方法
CN109815493B (zh) 一种智能嘻哈音乐歌词生成的建模方法
CN107480132A (zh) 一种基于图像内容的古诗词生成方法
CN110457661B (zh) 自然语言生成方法、装置、设备及存储介质
CN112163425A (zh) 基于多特征信息增强的文本实体关系抽取方法
CN110765755A (zh) 一种基于双重选择门的语义相似度特征提取方法
CN110991290A (zh) 基于语义指导与记忆机制的视频描述方法
CN114880461A (zh) 一种结合对比学习和预训练技术的中文新闻文本摘要方法
CN107665356A (zh) 一种图像标注方法
Huang et al. A text normalization method for speech synthesis based on local attention mechanism
Guan et al. Repeated review based image captioning for image evidence review
CN114743143A (zh) 一种基于多概念知识挖掘的视频描述生成方法及存储介质
Guo Optimization of English machine translation by deep neural network under artificial intelligence
CN111144129B (zh) 一种基于自回归与自编码的语义相似度获取方法
WO2023130688A1 (zh) 一种自然语言处理方法、装置、设备及可读存储介质
CN115796187A (zh) 一种基于对话结构图约束的开放域对话方法
CN115270810A (zh) 一种基于句子相似度的意图识别装置和方法
CN113449517B (zh) 基于bert门控多窗口注意力网络模型的实体关系抽取方法
CN115455226A (zh) 一种文本描述驱动的行人搜索方法
Yang et al. Multi-intent text classification using dual channel convolutional neural network
CN113254586B (zh) 一种基于深度学习的无监督文本检索方法
CN112150103B (zh) 一种日程设置方法、装置和存储介质
CN114357166A (zh) 一种基于深度学习的文本分类方法
Cui et al. MSAM: A multi-layer bi-LSTM based speech to vector model with residual attention mechanism
Cui et al. Aspect level sentiment classification based on double attention mechanism

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant