CN105824797B - 一种评价语义相似度的方法、装置和系统 - Google Patents

一种评价语义相似度的方法、装置和系统 Download PDF

Info

Publication number
CN105824797B
CN105824797B CN201510003802.2A CN201510003802A CN105824797B CN 105824797 B CN105824797 B CN 105824797B CN 201510003802 A CN201510003802 A CN 201510003802A CN 105824797 B CN105824797 B CN 105824797B
Authority
CN
China
Prior art keywords
vector
sentence
vocabulary
compressed encoding
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510003802.2A
Other languages
English (en)
Other versions
CN105824797A (zh
Inventor
马林
刘凯
熊皓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201510003802.2A priority Critical patent/CN105824797B/zh
Priority to US14/982,365 priority patent/US9665565B2/en
Publication of CN105824797A publication Critical patent/CN105824797A/zh
Application granted granted Critical
Publication of CN105824797B publication Critical patent/CN105824797B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/47Machine-assisted translation, e.g. using translation memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/51Translation evaluation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供了一种评价语义相似度的方法、装置和系统,涉及机器翻译领域,用以解决现有技术对于词汇调序的句子无法正确评价语义相似度的问题。该方法包括:将第一句子中的词汇和第二句子的词汇分别进行词汇向量化处理得到第一词汇向量和第二词汇向量,将该第一词汇向量根据第一压缩编码参数按照预设的词向量压缩顺序进行压缩编码处理得到第一语句向量;将该第二词汇向量根据第二压缩编码参数按照预设的词向量压缩顺序进行压缩编码处理得到第二语句向量;确定该第一语句向量和该第二语句向量之间的向量距离,根据该向量距离评价该第一句子与该第二句子的语义相似度。该方法用于评价语义的相似度。

Description

一种评价语义相似度的方法、装置和系统
技术领域
本发明涉及机器翻译领域,尤其涉及一种评价语义相似度的方法、装置和系统。
背景技术
机器翻译能够将一种语言自动的翻译为另一种语言,随着经济全球化的发展,使用不同语言的国家之间进行的信息交流变得越来越频繁,利用机器翻译快速获取多语言的信息和资源已成为必然趋势。
在机器翻译的过程中,对不同语言的句子进行语义相似度评价有助于得到翻译更准确的译文。另外,机器翻译并不能提供百分之百准确的译文,通过语义相似度评价能够快速定位译文中需要人工修正的句子。
现有技术中,对语义相似度的评价主要基于外部资源匹配,针对已翻译得到的语言句子,通过查询外部资源,该外部资源可以是词典或者是已有的双语匹配方案,评价该已翻译得到的语言句子与被翻译的语言句子之间的相似度。但是,上述的语义相似度的评价是基于词汇的语义评价,其不考虑词汇顺序的问题,致使评价不准确。例如,已翻译得到的语言句子为汉语的“早上好”,被翻译的语言句子为英语的“morning good”,通过查询词典,可知“早上”与“morning”两个词汇的语义一致,“好”与“good”的语义一致,因此现有技术会评价“早上好”与“morning good”两个句子的语义一致,导致语义相似度评价错误。
发明内容
本发明提供一种评价语义相似度的方法、装置和系统,用以解决现有技术对于词汇调序的句子无法正确评价语义相似度的问题。
为达到上述目的,本发明的实施例采用如下技术方案:
第一方面,提供一种评价语义相似度的方法,包括:
将第一句子中的词汇和第二句子的词汇分别进行词汇向量化处理得到第一词汇向量和第二词汇向量,所述第一句子包括至少两个词汇,所述第一词汇向量包括所述第一句子中所有词汇的词向量;所述第二句子包括至少一个词汇,所述第二词汇向量包括所述第二句子中所有词汇的词向量;
将所述第一词汇向量根据第一压缩编码参数按照预设的词向量压缩顺序进行压缩编码处理得到第一语句向量;
所述第二句子包括一个词汇时,将所述第二词汇向量作为第二语句向量;所述第二句子包括至少两个词汇时,将所述第二词汇向量根据第二压缩编码参数按照所述预设的词向量压缩顺序进行压缩编码处理得到第二语句向量;
确定所述第一语句向量和所述第二语句向量之间的向量距离,根据所述向量距离评价所述第一句子与所述第二句子的语义相似度。
在第一方面的第一种可能的实现方式中,所述第一压缩编码参数包括至少两层神经网络参数,所述将所述第一词汇向量按照预设的词向量压缩顺序根据第一压缩编码参数进行压缩编码处理得到第一语句向量具体包括:
根据第一层神经网络参数将所述第一词汇向量中的第一词向量和第二词向量进行第一次压缩编码,生成中间压缩向量;
根据第二层神经网络参数将所述中间压缩向量与第三词向量进行第二次压缩编码,直到将所述第一词汇向量中的词向量全部压缩编码得到所述第一语句向量,其中,所述第一词汇向量中的所有词向量、所述中间压缩向量和所述第一语句向量的向量维度相同。
结合第一方面或者第一方面的第一种可能的实现方式,在第二种可能的实现方式中,所述确定所述第一语句向量和所述第二语句向量之间的向量距离具体包括:
由公式:
计算得到所述第一语句向量和所述第二语句向量之间的向量距离;
其中,所述υ1为所述第一语句向量,所述υ2为所述第二语句向量,所述sim(υ12)为所述向量距离。
结合第一方面至第一方面的第二种可能的实现方式中的任一种可能的实现方式,在第三种可能的实现方式中,所述方法还包括:利用双语平行语料,对所述第一压缩编码参数和所述第二压缩编码参数进行训练,具体包括:
对双语平行语料中的第一训练句子,和与所述第一训练句子相同语义的第二训练句子进行词汇向量化处理得到第一训练词汇向量和第二训练词汇向量;
根据所述第一压缩编码参数和所述第二压缩编码参数分别对所述第一训练词汇向量和所述第二训练词汇向量进行压缩编码得到所述第一训练句子的第一训练语句向量和所述第二训练句子的第二训练语句向量;
确定所述第一训练语句向量和所述第二训练语句向量之间的向量距离;
在所述向量距离未满足预设条件时,获取所述第一训练语句向量和所述第二训练语句向量之间的差值向量,将所述差值向量通过神经网络的反向传播BP算法进行错误传播,根据所述差值向量对所述第一压缩编码参数和所述第二压缩编码参数进行调整;
利用调整后的所述第一压缩编码参数和所述第二压缩编码参数重新确定所述第一训练语句向量和所述第二训练语句向量之间的向量距离,直到所述向量距离满足预设条件时,停止对所述第一压缩编码参数和所述第二压缩编码参数进行训练。
结合第一方面的第三种可能的实现方式,在第四种可能的实现方式中,所述根据所述差值向量对所述第一压缩编码参数和所述第二压缩编码参数进行调整具体包括:
确定所述第一压缩编码参数中各层神经网络参数对应的层次错误向量,并根据所述层次错误向量确定每层神经网络参数的梯度;
使用每层神经网络参数的梯度的均值对各层神经网络参数进行调整,或者,使用低层神经网络参数的梯度对各层神经网络参数进行调整,或者,使用高层神经网络参数的梯度对各层神经网络参数进行调整,其中,所述低层神经网络参数为最后一次压缩编码使用的神经网络参数,所述高层神经网络参数为第一次压缩编码使用的神经网络参数。
第二方面,提供一种语义评价系统,包括:词汇向量化装置、向量压缩编码装置和语义对比装置,其中,所述词汇向量化装置与所述向量压缩编码装置相连,所述向量压缩编码装置与所述语义对比装置相连;
所述词汇向量化装置,用于将第一句子中的词汇和第二句子的词汇分别进行词汇向量化处理得到第一词汇向量和第二词汇向量,所述第一句子包括至少两个词汇,所述第一词汇向量包括所述第一句子中所有词汇的词向量;所述第二句子包括至少一个词汇,所述第二词汇向量包括所述第二句子中所有词汇的词向量;
所述向量压缩编码装置,用于将所述第一词汇向量根据第一压缩编码参数按照预设的词向量压缩顺序进行压缩编码处理得到第一语句向量;
在所述第二句子包括至少两个词汇时,将所述第二词汇向量根据第二压缩编码参数按照预设的词向量压缩顺序进行压缩编码处理得到第二语句向量;其中,所述第二句子包括一个词汇时,所述第二词汇向量即为所述第二语句向量;
语义对比装置,用于确定所述第一语句向量和所述第二语句向量之间的向量距离,并根据所述向量距离评价所述第一句子与所述第二句子的语义相似度。
结合第二方面的第一种可能的实现方式,所述向量压缩编码装置具体用于:
根据第一层神经网络参数将所述第一词汇向量中的第一词向量和第二词向量进行第一次压缩编码,生成中间压缩向量;
根据第二层神经网络参数将所述中间压缩向量与第三词向量进行第二次压缩编码,直到将所述第一词汇向量中的词向量全部压缩编码得到所述第一语句向量,其中,所述第一词汇向量中的所有词向量、所述中间压缩向量和所述第一语句向量的向量维度相同。
结合第二方面或者第二方面的第一种可能的实现方式,在第二种可能的实现方式中,所述语义对比装置具体用于:
由公式:
计算得到所述第一语句向量和所述第二语句向量之间的向量距离;
其中,所述υ1为所述第一语句向量,所述υ2为所述第二语句向量,所述sim(υ12)为所述向量距离。
结合第二方面至第二方面的第二种可能的实现方式中的任一种可能的实现方式,在第三种可能的实现方式中,所述装置还包括对比差异训练装置和训练结束判别装置;
所述词汇向量化装置还用于,对双语平行语料中的第一训练句子,和与所述第一训练句子相同语义的第二训练句子进行词汇向量化处理得到第一训练词汇向量和第二训练词汇向量;
所述向量压缩编码装置还用于,根据所述第一压缩编码参数和所述第二压缩编码参数分别对所述第一训练词汇向量和所述第二训练词汇向量进行压缩编码得到所述第一训练句子的第一训练语句向量和所述第二训练句子的第二训练语句向量;
所述语义对比装置还用于,确定所述第一训练语句向量和所述第二训练语句向量之间的向量距离;
所述训练结束判别装置,用于判断所述向量距离是否满足预设条件;
所述对比差异训练装置,用于在所述向量距离未满足预设条件时,获取所述第一训练语句向量和所述第二训练语句向量之间的差值向量,将所述差值向量通过神经网络的反向传播BP算法进行错误传播;
所述向量压缩编码装置还用于,根据所述差值向量对所述第一压缩编码参数和所述第二压缩编码参数进行调整;
所述训练结束判别装置还用于,在确定所述向量距离满足预设条件时,停止对所述第一压缩编码参数和所述第二压缩编码参数进行训练。
结合第二方面第三种可能的实现方式,在第四种可能的实现方式中,所述向量压缩编码装置具体用于:
确定所述第一压缩编码参数中各层神经网络参数对应的层次错误向量,并根据所述层次错误向量确定每层神经网络参数的梯度;
使用每层神经网络参数的梯度的均值对各层神经网络参数进行调整,或者,使用低层神经网络参数的梯度对各层神经网络参数进行调整,或者,使用高层神经网络参数的梯度对各层神经网络参数进行调整,其中,所述低层神经网络参数为最后一次压缩编码使用的神经网络参数,所述高层神经网络参数为第一次压缩编码使用的神经网络参数。
第三方面,提供向量压缩编码装置,包括:
获取单元,用于获取第一词汇向量以及第二词汇向量;所述第一词汇向量包括第一句子中所有词汇的词向量;所述第二词汇向量包括第二句子中所有词汇的词向量;所述第一句子包括至少两个词汇,所述第二句子包括至少一个词汇;
向量压缩单元,用于将所述第一词汇向量根据第一压缩编码参数按照预设的词向量压缩顺序进行压缩编码处理得到第一语句向量;
所述第二句子包括一个词汇时,将所述第二词汇向量作为第二语句向量;所述第二句子包括至少两个词汇时,将所述第二词汇向量根据第二压缩编码参数按照所述预设的词向量压缩顺序进行压缩编码处理得到第二语句向量;
发送单元,用于将所述第一语句向量和所述第二语句向量发送至语义对比装置,以便所述语义对比装置确定所述第一语句向量和所述第二语句向量之间的向量距离,根据所述向量距离评价所述第一句子与所述第二句子的语义相似度。
采用上述方案,通过压缩编码得到第一句子的第一语句向量和第二句子的第二语句向量,并计算该第一语句向量与该第二语句向量之间的向量距离,根据该向量距离评价该第一句子和该第二句子的语义相似度,其中,向量距离越近表明该第一句子与该第二句子的语义相似度越高,这样,由于存在词汇调序的句子被表示为一个向量,从而避免了分别单独比较句子中各个词汇的语义,因此,本发明的技术方案能够对词汇调序的句子进行准确的语义相似度评价。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种评价语义相似度的方法的流程示意图;
图2为本发明实施例提供的一种词向量压缩编码的示意图;
图3为本发明实施例提供的一种语义评价系统的结构示意图;
图4为本发明实施例提供的一种评价语义相似度的方法的装置间流程图;
图5为本发明实施例提供的另一种语义评价系统的结构示意图;
图6为本发明实施例提供的一种向量压缩编码装置的结构示意图;
图7为本发明实施例提供的另一种向量压缩编码装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种评价语义相似度的方法,如图1所示,该方法包括:
S101、将第一句子中的词汇和第二句子的词汇分别进行词汇向量化处理得到第一词汇向量和第二词汇向量。
其中,该第一句子包括至少两个词汇,该第一词汇向量包括该第一句子中所有词汇的词向量;该第二句子包括至少一个词汇,该第二词汇向量包括该第二句子中所有词汇的词向量。
需要说明的是,词汇向量化是将词汇数学化表示的方法。在NLP(Neuro-Linguistic Programming,神经语言程序学)中,最常用的词汇表示方法是One-hotRepresentation,这种方法把每个词汇表示为一个向量,这个向量的维度与词表大小相同,其中该向量中绝大多数元素为0,只有一个维度的值为1,这个维度就代表了当前的词,例如,“话筒”表示为:[0 0 0 1 0 0 0 0 0 0 0……];“麦克”表示为:[0 0 0 0 0 0 0 0 1 00……]。现有的词汇向量化方式有多种,其中,在机器的深度学习中一般用到的词向量并不是上述One-hot Representation表示的词向量的方法,而是用DistributedRepresentation表示的一种低维实数向量,使用Distributed Representation生成的词汇向量具体形式为:[0.13,-0.29,……0.91,0.88],其维度以50维和100维比较常见。Distributed representation最大的贡献就是让相关或者相似的词,在距离上更接近了。向量的距离可以用传统的欧氏距离来衡量,也可以用cos夹角来衡量。
本发明对所使用的词汇向量化技术不作限定,可以是One-hot Representation,也可以是Distributed Representation,或者其他的词汇向量化方式。通过大量语料进行词向量的训练,现有的词汇向量化技术可以有效区分词汇的同意表达、词汇多义和词汇意译。
具体地,采用现有的词汇向量化技术,例如,Distributed Representation,将第一句子中所有词汇和第二句子的所有词汇用词向量的方式进行表示,其中,该第一句子与该第二句子可以是不同语言的句子,也可以是相同语言的句子。
S102、将该第一词汇向量根据第一压缩编码参数按照预设的词向量压缩顺序进行压缩编码处理得到第一语句向量。
示例地,第一句子为:我吃苹果。则该第一句子里包括“我”、“吃”、“苹果”三个词汇,通过词汇向量化技术获得第一词汇向量,包括表示词汇“我”的词向量c1、表示词汇“吃”的词向量c2、表示词汇“苹果”的词向量c3。并且,预设该词向量压缩顺序为从左至右的顺序,则先将词向量c1和c2进行压缩编码,再对词向量c3进行压缩编码。
值得说明的是,词向量压缩顺序可由用户进行预先设置,上述只是举例说明,本发明对词向量压缩顺序不作限定,该词向量压缩顺序还可以是从右至左,或者是根据语法结构设置词向量压缩顺序,例如,该第一句子的语法结构包括主语,谓语,宾语,则可预先设置先对谓语的词向量和宾语的词向量进行压缩编码,再对主语的词向量进行压缩编码。
具体地,该第一压缩编码参数包括至少两层神经网络参数,则根据第一层神经网络参数将该第一词汇向量中的第一词向量和第二词向量进行第一次压缩编码,生成中间压缩向量,根据第二层神经网络参数将该中间压缩向量与第三词向量进行第二次压缩编码,直到将该第一词汇向量中的词向量全部压缩编码得到该第一语句向量,其中,该第一词汇向量中的所有词向量、第二词汇向量该中间压缩向量和该第一语句向量的向量维度相同。
示例地,向量的压缩编码指的是向量的自回归,其基于数据的统计性质建立模型,通过神经网络参数对词向量进行两两压缩编码。例如,如图2所示,该第一压缩编码参数包括第一层神经网络参数k1、第二层神经网络参数k2、第三层神经网络参数k3。对于词向量c1、c2、c3和c4,其中,该词向量c1、c2、c3和c4的向量维度为50,按照从左至右的顺序,首先,利用第一层神经网络参数k1对词向量c1和c2进行压缩编码得到向量维度为50的中间压缩向量w1,再利用第二层神经网络参数k2将该中间压缩向量w1与该词向量c3进行压缩编码得到向量维度为50的中间压缩向量w2,最后利用第三层神经网络参数k3将该中间压缩向量w2与该词向量c4进行压缩编码得到向量维度为50的第一语句压缩向量v1。
S103、该第二句子包括一个词汇时,将该第二词汇向量作为第二语句向量;该第二句子包括至少两个词汇时,将该第二词汇向量根据第二压缩编码参数按照所述预设的词向量压缩顺序进行压缩编码处理得到第二语句向量。
具体地,该第二句子仅为一个词汇时,该词汇的词向量即为该第二句子的第二语句向量,因此,无需进行压缩编码,若该第二句子包括至少两个词汇时,对该第二句子的第二词汇向量进行压缩编码,具体可参照对该第一句子进行压缩编码的描述。
需要说明的是,为了使用该第一压缩编码参数和该第二压缩编码参数准确的对该第一句子和该第二句子进行压缩编码处理,需要利用双语平行语料,对该第一压缩编码参数和该第二压缩编码参数进行训练,具体方法为:对双语平行语料中的第一训练句子,和与该第一训练句子相同语义的第二训练句子进行词汇向量化处理得到第一训练词汇向量和第二训练词汇向量;根据该第一压缩编码参数和该第二压缩编码参数分别对该第一训练词汇向量和该第二训练词汇向量进行压缩编码得到该第一训练句子的第一训练语句向量和该第二训练句子的第二训练语句向量;确定该第一训练语句向量和该第二训练语句向量之间的向量距离;在该向量距离未满足预设条件时,获取该第一训练语句向量和该第二训练语句向量之间的差值向量,将该差值向量通过神经网络的BP(Back Propagation,反向传播)算法进行错误传播,根据该差值向量对该第一压缩编码参数和该第二压缩编码参数进行调整。
示例地,由于该第一训练句子与该第二训练句子的语义相同,若采用cos相似度计算向量距离,可预先设置条件:该第一训练语句向量与该第二训练语句向量之间的向量距离处于[0.8,1]内,这样,若使用该第一压缩编码参数和该第二压缩编码参数分别对该第一训练词汇向量r1和该第二训练词汇向量r2进行压缩编码后,得到的该第一训练语句向量与该第二训练语句向量之间的向量距离未处于该区间内,则获取该第一训练词汇向量r1和该第二训练词汇向量r2的差值向量,其中,该差值向量e=r1-r2。将该差值向量e通过神经网络的BP传播算法进行错误传播,根据该差值向量对该第一压缩编码参数和该第二压缩编码参数进行调整。
其中,根据该差值向量对该第一压缩编码参数进行调整具体包括:确定该第一压缩编码参数中各层神经网络参数对应的层次错误向量,并根据该层次错误向量确定每层神经网络参数的梯度,使用每层神经网络参数的梯度的均值对各层神经网络参数进行调整,或者,使用低层神经网络参数的梯度对各层神经网络参数进行调整,或者,使用高层神经网络参数的梯度对各层神经网络参数进行调整,其中,该低层神经网络参数为最后一次压缩编码使用的神经网络参数,该高层神经网络参数为第一次压缩编码使用的神经网络参数。
示例地,由该差值向量e确定该第一压缩编码参数中各层神经网络参数对应的层次错误向量,如该第一压缩编码参数中的第一层神经网络参数对应的层次错误向量为e1,该第一压缩编码参数中的第二层神经网络参数对应的层次错误向量为e2,该第一压缩编码参数中的第三层神经网络参数对应的层次错误向量为e3,由该层次错误向量e1、e2和e3分别确定该第一层神经网络参数的梯度x,该第一层神经网络参数的梯度y,该第一层神经网络参数的梯度z。进一步地,可通过三种可选的方式对该第一压缩编码参数进行调整:
方式一、使用第一层神经网络参数的梯度x,该第一层神经网络参数的梯度y,该第一层神经网络参数的梯度z的均值对各层神经网络参数进行调整。
方式二、使用第一层神经网络参数的梯度x对各层神经网络参数进行调整。
方式三、使用第三层神经网络参数的梯度z对各层神经网络参数进行调整。
进一步地,利用调整后的该第一压缩编码参数和该第二压缩编码参数重新确定该第一训练语句向量和该第二训练语句向量之间的向量距离,直到该向量距离满足预设条件时,停止对该第一压缩编码参数和该第二压缩编码参数进行训练。
S104、确定该第一语句向量和该第二语句向量之间的向量距离,根据该向量距离评价该第一句子与该第二句子的语义相似度。
可选地,υ1为该第一语句向量,υ2为该第二语句向量,则由公式:
计算得到该第一语句向量和该第二语句向量之间的向量距离,此时,该sim(υ12)的取值范围为[0,+∞],这样,该sim(υ12)取值越小,表明该第一句子与该第二句子的语义相似度越高。
上述计算该第一语句向量和该第二语句向量之间的向量距离的公式只是举例说明,本发明对此不作限定,例如,还可以通过cos相似度计算该第一语句向量和该第二语句向量之间的向量距离,由公式:
计算该第一语句向量和该第二语句向量之间的向量距离,此时,该sim(υ12)的取值范围为[-1,1],这样,该sim(υ12)取值越大,表明该第一句子与该第二句子的语义相似度越高。另外,还可以通过计算该第一语句向量和该第二语句向量之间的欧式距离来评价该第一句子与该第二句子的语义相似度。
采用上述方案,通过压缩编码得到第一句子的第一语句向量和第二句子的第二语句向量,并计算该第一语句向量与该第二语句向量之间的向量距离,根据该向量距离评价该第一句子和该第二句子的语义相似度,其中,向量距离越近表明该第一句子与该第二句子的语义相似度越高,这样,由于存在词汇调序的句子被表示为一个向量,从而避免了分别单独比较句子中各个词汇的语义,因此,本发明的技术方案能够对词汇调序的句子进行准确的语义相似度评价。
本发明实施例提供一种语义评价系统30,对应上述图1的方法实施例,该语义评价系统30的各个装置均可用于上述方法步骤。如图3所示,该语义评价系统30包括:
词汇向量化装置31、向量压缩编码装置32和语义对比装置33,其中,该词汇向量化装置31与该向量压缩编码装置32相连,该向量压缩编码装置32与该语义对比装置33相连。
该词汇向量化装置31,用于将第一句子中的词汇和第二句子的词汇分别进行词汇向量化处理得到第一词汇向量和第二词汇向量。
其中该第一句子包括至少两个词汇,该第一词汇向量包括该第一句子中所有词汇的词向量;该第二句子包括至少一个词汇,该第二词汇向量包括该第二句子中所有词汇的词向量。
该向量压缩编码装置32,用于将该第一词汇向量根据第一压缩编码参数按照预设的词向量压缩顺序进行压缩编码处理得到第一语句向量;在该第二句子包括至少两个词汇时,将该第二词汇向量根据第二压缩编码参数按照所述预设的词向量压缩顺序进行压缩编码处理得到第二语句向量;其中,该第二句子包括一个词汇时,该第二词汇向量即为该第二语句向量。
语义对比装置33,用于确定该第一语句向量和该第二语句向量之间的向量距离,并根据该向量距离评价该第一句子与该第二句子的语义相似度。
需要说明的是,若该第一句子和该第二句子为不同语言的句子,则该语义评价系统包括至少两个词汇向量化装置和至少两个向量压缩编码装置,如图4所示,使用两个词汇向量化装置分别对该第一句子和该第二句子进行词汇向量化处理,并使用两个向量压缩编码装置分别对该第一词汇向量与该第二词汇向量进行压缩编码处理。
示例地,第一句子为:我吃苹果。则该第一句子里包括“我”、“吃”、“苹果”三个词汇,通过词汇向量化技术获得第一词汇向量,包括表示词汇“我”的词向量c1、表示词汇“吃”的词向量c2、表示词汇“苹果”的词向量c3。并且,预设该词向量压缩顺序为从左至右的顺序,则该向量压缩编码装置32先将词向量c1和c2进行压缩编码,再对词向量c3进行压缩编码。
值得说明的是,词向量压缩顺序可由用户进行预先设置,上述只是举例说明,本发明对词向量压缩顺序不作限定,该词向量压缩顺序还可以是从右至左,或者是根据语法结构设置词向量压缩顺序,例如,该第一句子的语法结构包括主语,谓语,宾语,则可预先设置先对谓语的词向量和宾语的词向量进行压缩编码,再对主语的词向量进行压缩编码。
可选地,该向量压缩编码装置32具体用于,根据第一层神经网络参数将该第一词汇向量中的第一词向量和第二词向量进行第一次压缩编码,生成中间压缩向量;根据第二层神经网络参数将该中间压缩向量与第三词向量进行第二次压缩编码,直到将该第一词汇向量中的词向量全部压缩编码得到该第一语句向量,其中,该第一词汇向量中的所有词向量、该中间压缩向量和该第一语句向量的向量维度相同。
示例地,向量的压缩编码指的是向量的自回归,其基于数据的统计性质建立模型,通过神经网络参数对词向量进行两两压缩编码。例如,如图2所示,该第一压缩编码参数包括第一层神经网络参数k1、第二层神经网络参数k2、第三层神经网络参数k3。对于词向量c1、c2、c3和c4,其中,该词向量c1、c2、c3和c4的向量维度为50,按照从左至右的顺序,首先,利用第一层神经网络参数k1对词向量c1和c2进行压缩编码得到向量维度为50的中间压缩向量w1,再利用第二层神经网络参数k2将该中间压缩向量w1与该词向量c3进行压缩编码得到向量维度为50的中间压缩向量w2,最后利用第三层神经网络参数k3将该中间压缩向量w2与该词向量c4进行压缩编码得到向量维度为50的第一语句压缩向量v1。
可选地,该语义对比装置33具体用于,由公式:
计算得到该第一语句向量和该第二语句向量之间的向量距离。
其中,该υ1为该第一语句向量,该υ2为该第二语句向量,该sim(υ12)为该向量距离。
可选地,如图5所示,该装置还包括对比差异训练装置34和训练结束判别装置35,该词汇向量化装置31还用于,对双语平行语料中的第一训练句子,和与该第一训练句子相同语义的第二训练句子进行词汇向量化处理得到第一训练词汇向量和第二训练词汇向量;该向量压缩编码装置32还用于,根据该第一压缩编码参数和该第二压缩编码参数分别对该第一训练词汇向量和该第二训练词汇向量进行压缩编码得到该第一训练句子的第一训练语句向量和该第二训练句子的第二训练语句向量;该语义对比装置33还用于,确定该第一训练语句向量和该第二训练语句向量之间的向量距离;该训练结束判别装置34,用于判断该向量距离是否满足预设条件;该对比差异训练装置35,用于在该向量距离未满足预设条件时,获取该第一训练语句向量和该第二训练语句向量之间的差值向量,将该差值向量通过神经网络的反向传播BP算法进行错误传播;该向量压缩编码装置32还用于,根据该差值向量对该第一压缩编码参数和该第二压缩编码参数进行调整;该训练结束判别装置35还用于,在确定该向量距离满足预设条件时,停止对该第一压缩编码参数和该第二压缩编码参数进行训练。
示例地,由于该第一训练句子与该第二训练句子的语义相同,若采用cos相似度计算向量距离,可预先设置条件:该第一训练语句向量与该第二训练语句向量之间的向量距离处于[0.8,1]内,这样,若使用该第一压缩编码参数和该第二压缩编码参数分别对该第一训练词汇向量r1和该第二训练词汇向量r2进行压缩编码后,得到的该第一训练语句向量与该第二训练语句向量之间的向量距离未处于该区间内,则获取该第一训练词汇向量r1和该第二训练词汇向量r2的差值向量,其中,该差值向量e=r1-r2。将该差值向量e通过神经网络的BP传播算法进行错误传播,根据该差值向量对该第一压缩编码参数和该第二压缩编码参数进行调整。
可选地,该向量压缩编码装置32具体用于,确定该第一压缩编码参数中各层神经网络参数对应的层次错误向量,并根据该层次错误向量确定每层神经网络参数的梯度;使用每层神经网络参数的梯度的均值对各层神经网络参数进行调整,或者,使用低层神经网络参数的梯度对各层神经网络参数进行调整,或者,使用高层神经网络参数的梯度对各层神经网络参数进行调整,其中,该低层神经网络参数为最后一次压缩编码使用的神经网络参数,该高层神经网络参数为第一次压缩编码使用的神经网络参数。
示例地,由该差值向量e确定该第一压缩编码参数中各层神经网络参数对应的层次错误向量,如该第一压缩编码参数中的第一层神经网络参数对应的层次错误向量为e1,该第一压缩编码参数中的第二层神经网络参数对应的层次错误向量为e2,该第一压缩编码参数中的第三层神经网络参数对应的层次错误向量为e3,由该层次错误向量e1、e2和e3分别确定该第一层神经网络参数的梯度x,该第一层神经网络参数的梯度y,该第一层神经网络参数的梯度z。进一步地,可通过三种可选的方式对该第一压缩编码参数进行调整:
方式一、使用第一层神经网络参数的梯度x,该第一层神经网络参数的梯度y,该第一层神经网络参数的梯度z的均值对各层神经网络参数进行调整。
方式二、使用第一层神经网络参数的梯度x对各层神经网络参数进行调整。
方式三、使用第三层神经网络参数的梯度z对各层神经网络参数进行调整。
进一步地,利用调整后的该第一压缩编码参数和该第二压缩编码参数重新确定该第一训练语句向量和该第二训练语句向量之间的向量距离,直到该向量距离满足预设条件时,停止对该第一压缩编码参数和该第二压缩编码参数进行训练。
采用上述语义评价系统,通过压缩编码得到第一句子的第一语句向量和第二句子的第二语句向量,并计算该第一语句向量与该第二语句向量之间的向量距离,根据该向量距离评价该第一句子和该第二句子的语义相似度,其中,向量距离越近表明该第一句子与该第二句子的语义相似度越高,这样,由于存在词汇调序的句子被表示为一个向量,从而避免了分别单独比较句子中各个词汇的语义,因此,本发明的技术方案能够对词汇调序的句子进行准确的语义相似度评价。
如图6所示,本发明实施例提供一种向量压缩编码装置60,用于实现本发明图3所示语义评价系统中的向量压缩编码装置32,该向量压缩编码装置60包括:
获取单元61,用于获取第一词汇向量以及第二词汇向量;所述第一词汇向量包括第一句子中所有词汇的词向量;所述第二词汇向量包括第二句子中所有词汇的词向量;所述第一句子包括至少两个词汇,所述第二句子包括至少一个词汇;
向量压缩单元62,用于将所述第一词汇向量根据第一压缩编码参数按照预设的词向量压缩顺序进行压缩编码处理得到第一语句向量;
所述第二句子包括一个词汇时,将所述第二词汇向量作为第二语句向量;所述第二句子包括至少两个词汇时,将所述第二词汇向量根据第二压缩编码参数按照所述预设的词向量压缩顺序进行压缩编码处理得到第二语句向量;
发送单元63,用于将所述第一语句向量和所述第二语句向量发送至语义对比装置,以便所述语义对比装置确定所述第一语句向量和所述第二语句向量之间的向量距离,根据所述向量距离评价所述第一句子与所述第二句子的语义相似度。
采用上述向量压缩编码装置,该向量压缩编码装置通过压缩编码得到第一句子的第一语句向量和第二句子的第二语句向量,以便语义对比装置计算该第一语句向量与该第二语句向量之间的向量距离,根据该向量距离评价该第一句子和该第二句子的语义相似度,其中,向量距离越近表明该第一句子与该第二句子的语义相似度越高,这样,由于存在词汇调序的句子被表示为一个向量,从而避免了分别单独比较句子中各个词汇的语义,因此,本发明的技术方案能够对词汇调序的句子进行准确的语义相似度评价。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
如图7所示,本发明实施例还提供一种向量压缩编码装置70,用于实现本发明图3所示语义评价系统中的向量压缩编码装置32,该向量压缩编码装置70分别与本发明图3中所示的词汇向量化装置31、语义对比装置33相连,该向量压缩编码装置70包括:
处理器71、通信接口(Communications Interface)72、存储器73和通信总线74;其中,所述处理器71、所述通信接口72和所述存储器73通过所述通信总线74相互连接并通信。
具体地,所述向量压缩编码装置70通过所述通信接口72分别与所述词汇向量化装置31和所述语义对比装置33通信。
处理器71可以是通用处理器,CPU、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件。
存储器73用于存放程序代码,所述程序代码包括计算机操作指令。存储器73可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
所述处理器71用于执行所述存储器73中的程序代码,已实现以下操作:
获取第一词汇向量以及第二词汇向量;所述第一词汇向量包括第一句子中所有词汇的词向量;所述第二词汇向量包括第二句子中所有词汇的词向量;所述第一句子包括至少两个词汇,所述第二句子包括至少一个词汇;
将所述第一词汇向量根据第一压缩编码参数按照预设的词向量压缩顺序进行压缩编码处理得到第一语句向量;
所述第二句子包括一个词汇时,将所述第二词汇向量作为第二语句向量;所述第二句子包括至少两个词汇时,将所述第二词汇向量根据第二压缩编码参数按照所述预设的词向量压缩顺序进行压缩编码处理得到第二语句向量;
将所述第一语句向量和所述第二语句向量发送至语义对比装置,以便所述语义对比装置确定所述第一语句向量和所述第二语句向量之间的向量距离,根据所述向量距离评价所述第一句子与所述第二句子的语义相似度。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,所述装置的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个装置可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
所述作为分离部件说明的装置可以是或者也可以不是物理上分开的,作为装置显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部装置来实现本实施例方案的目的。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (9)

1.一种评价语义相似度的方法,其特征在于,包括:
将第一句子中的词汇和第二句子的词汇分别进行词汇向量化处理得到第一词汇向量和第二词汇向量,所述第一句子包括至少两个词汇,所述第一词汇向量包括所述第一句子中所有词汇的词向量;所述第二句子包括至少一个词汇,所述第二词汇向量包括所述第二句子中所有词汇的词向量;
将所述第一词汇向量根据第一压缩编码参数按照预设的词向量压缩顺序进行压缩编码处理得到第一语句向量;
所述第二句子包括一个词汇时,将所述第二词汇向量作为第二语句向量;所述第二句子包括至少两个词汇时,将所述第二词汇向量根据第二压缩编码参数按照所述预设的词向量压缩顺序进行压缩编码处理得到第二语句向量;
确定所述第一语句向量和所述第二语句向量之间的向量距离,根据所述向量距离评价所述第一句子与所述第二句子的语义相似度;
所述方法还包括:利用双语平行语料,对所述第一压缩编码参数和所述第二压缩编码参数进行训练;
所述第一压缩编码参数包括至少两层神经网络参数,所述将所述第一词汇向量根据第一压缩编码参数按照预设的词向量压缩顺序进行压缩编码处理得到第一语句向量具体包括:
根据第一层神经网络参数将所述第一词汇向量中的第一词向量和第二词向量进行第一次压缩编码,生成中间压缩向量;
根据第二层神经网络参数将所述中间压缩向量与第三词向量进行第二次压缩编码,直到将所述第一词汇向量中的词向量全部压缩编码得到所述第一语句向量,其中,所述第一词汇向量中的所有词向量、所述中间压缩向量和所述第一语句向量的向量维度相同。
2.根据权利要求1所述的方法,其特征在于,所述确定所述第一语句向量和所述第二语句向量之间的向量距离具体包括:
由公式:
计算得到所述第一语句向量和所述第二语句向量之间的向量距离;
其中,所述υ1为所述第一语句向量,所述υ2为所述第二语句向量,所述sim(υ12)为所述向量距离。
3.根据权利要求1至2任一项所述的方法,其特征在于,所述利用双语平行语料,对所述第一压缩编码参数和所述第二压缩编码参数进行训练,具体包括:
对双语平行语料中的第一训练句子,和与所述第一训练句子相同语义的第二训练句子进行词汇向量化处理得到第一训练词汇向量和第二训练词汇向量;
根据所述第一压缩编码参数和所述第二压缩编码参数分别对所述第一训练词汇向量和所述第二训练词汇向量进行压缩编码得到所述第一训练句子的第一训练语句向量和所述第二训练句子的第二训练语句向量;
确定所述第一训练语句向量和所述第二训练语句向量之间的向量距离;
在所述向量距离未满足预设条件时,获取所述第一训练语句向量和所述第二训练语句向量之间的差值向量,将所述差值向量通过神经网络的反向传播BP算法进行错误传播,根据所述差值向量对所述第一压缩编码参数和所述第二压缩编码参数进行调整;
利用调整后的所述第一压缩编码参数和所述第二压缩编码参数重新确定所述第一训练语句向量和所述第二训练语句向量之间的向量距离,直到所述向量距离满足预设条件时,停止对所述第一压缩编码参数和所述第二压缩编码参数进行训练。
4.根据权利要求3所述的方法,其特征在于,所述根据所述差值向量对所述第一压缩编码参数和所述第二压缩编码参数进行调整具体包括:
确定所述第一压缩编码参数中各层神经网络参数对应的层次错误向量,并根据所述层次错误向量确定每层神经网络参数的梯度;
使用每层神经网络参数的梯度的均值对各层神经网络参数进行调整,或者,使用低层神经网络参数的梯度对各层神经网络参数进行调整,或者,使用高层神经网络参数的梯度对各层神经网络参数进行调整,其中,所述低层神经网络参数为最后一次压缩编码使用的神经网络参数,所述高层神经网络参数为第一次压缩编码使用的神经网络参数。
5.一种语义评价系统,其特征在于,包括:词汇向量化装置、向量压缩编码装置和语义对比装置,其中,所述词汇向量化装置与所述向量压缩编码装置相连,所述向量压缩编码装置与所述语义对比装置相连;
所述词汇向量化装置,用于将第一句子中的词汇和第二句子的词汇分别进行词汇向量化处理得到第一词汇向量和第二词汇向量,所述第一句子包括至少两个词汇,所述第一词汇向量包括所述第一句子中所有词汇的词向量;所述第二句子包括至少一个词汇,所述第二词汇向量包括所述第二句子中所有词汇的词向量;
所述向量压缩编码装置,用于将所述第一词汇向量根据第一压缩编码参数按照预设的词向量压缩顺序进行压缩编码处理得到第一语句向量;
在所述第二句子包括至少两个词汇时,将所述第二词汇向量根据第二压缩编码参数按照所述预设的词向量压缩顺序进行压缩编码处理得到第二语句向量;其中,所述第二句子包括一个词汇时,所述第二词汇向量即为所述第二语句向量;
语义对比装置,用于确定所述第一语句向量和所述第二语句向量之间的向量距离,并根据所述向量距离评价所述第一句子与所述第二句子的语义相似度;
所述系统还用于:利用双语平行语料,对所述第一压缩编码参数和所述第二压缩编码参数进行训练;
所述向量压缩编码装置具体用于:
根据第一层神经网络参数将所述第一词汇向量中的第一词向量和第二词向量进行第一次压缩编码,生成中间压缩向量;
根据第二层神经网络参数将所述中间压缩向量与第三词向量进行第二次压缩编码,直到将所述第一词汇向量中的词向量全部压缩编码得到所述第一语句向量,其中,所述第一词汇向量中的所有词向量、所述中间压缩向量和所述第一语句向量的向量维度相同。
6.根据权利要求5所述的系统,其特征在于,所述语义对比装置具体用于:
由公式:
计算得到所述第一语句向量和所述第二语句向量之间的向量距离;
其中,所述υ1为所述第一语句向量,所述υ2为所述第二语句向量,所述sim(υ12)为所述向量距离。
7.根据权利要求5至6任一项所述的系统,其特征在于,所述装置还包括对比差异训练装置和训练结束判别装置;
所述词汇向量化装置还用于,对双语平行语料中的第一训练句子,和与所述第一训练句子相同语义的第二训练句子进行词汇向量化处理得到第一训练词汇向量和第二训练词汇向量;
所述向量压缩编码装置还用于,根据所述第一压缩编码参数和所述第二压缩编码参数分别对所述第一训练词汇向量和所述第二训练词汇向量进行压缩编码得到所述第一训练句子的第一训练语句向量和所述第二训练句子的第二训练语句向量;
所述语义对比装置还用于,确定所述第一训练语句向量和所述第二训练语句向量之间的向量距离;
所述训练结束判别装置,用于判断所述向量距离是否满足预设条件;
所述对比差异训练装置,用于在所述向量距离未满足预设条件时,获取所述第一训练语句向量和所述第二训练语句向量之间的差值向量,将所述差值向量通过神经网络的反向传播BP算法进行错误传播;
所述向量压缩编码装置还用于,根据所述差值向量对所述第一压缩编码参数和所述第二压缩编码参数进行调整;
所述训练结束判别装置还用于,在确定所述向量距离满足预设条件时,停止对所述第一压缩编码参数和所述第二压缩编码参数进行训练。
8.根据权利要求7所述的系统,其特征在于,所述向量压缩编码装置具体用于:
确定所述第一压缩编码参数中各层神经网络参数对应的层次错误向量,并根据所述层次错误向量确定每层神经网络参数的梯度;
使用每层神经网络参数的梯度的均值对各层神经网络参数进行调整,或者,使用低层神经网络参数的梯度对各层神经网络参数进行调整,或者,使用高层神经网络参数的梯度对各层神经网络参数进行调整,其中,所述低层神经网络参数为最后一次压缩编码使用的神经网络参数,所述高层神经网络参数为第一次压缩编码使用的神经网络参数。
9.一种向量压缩编码装置,其特征在于,包括:
获取单元,用于获取第一词汇向量以及第二词汇向量;所述第一词汇向量包括第一句子中所有词汇的词向量;所述第二词汇向量包括第二句子中所有词汇的词向量;所述第一句子包括至少两个词汇,所述第二句子包括至少一个词汇;
向量压缩单元,用于将所述第一词汇向量根据第一压缩编码参数按照预设的词向量压缩顺序进行压缩编码处理得到第一语句向量;
所述第二句子包括一个词汇时,将所述第二词汇向量作为第二语句向量;所述第二句子包括至少两个词汇时,将所述第二词汇向量根据第二压缩编码参数按照所述预设的词向量压缩顺序进行压缩编码处理得到第二语句向量;
发送单元,用于将所述第一语句向量和所述第二语句向量发送至语义对比装置,以便所述语义对比装置确定所述第一语句向量和所述第二语句向量之间的向量距离,根据所述向量距离评价所述第一句子与所述第二句子的语义相似度;
所述装置还用于:利用双语平行语料,对所述第一压缩编码参数和所述第二压缩编码参数进行训练;
所述向量压缩单元具体用于:
根据第一层神经网络参数将所述第一词汇向量中的第一词向量和第二词向量进行第一次压缩编码,生成中间压缩向量;
根据第二层神经网络参数将所述中间压缩向量与第三词向量进行第二次压缩编码,直到将所述第一词汇向量中的词向量全部压缩编码得到所述第一语句向量,其中,所述第一词汇向量中的所有词向量、所述中间压缩向量和所述第一语句向量的向量维度相同。
CN201510003802.2A 2015-01-04 2015-01-04 一种评价语义相似度的方法、装置和系统 Active CN105824797B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201510003802.2A CN105824797B (zh) 2015-01-04 2015-01-04 一种评价语义相似度的方法、装置和系统
US14/982,365 US9665565B2 (en) 2015-01-04 2015-12-29 Semantic similarity evaluation method, apparatus, and system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510003802.2A CN105824797B (zh) 2015-01-04 2015-01-04 一种评价语义相似度的方法、装置和系统

Publications (2)

Publication Number Publication Date
CN105824797A CN105824797A (zh) 2016-08-03
CN105824797B true CN105824797B (zh) 2019-11-12

Family

ID=56286621

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510003802.2A Active CN105824797B (zh) 2015-01-04 2015-01-04 一种评价语义相似度的方法、装置和系统

Country Status (2)

Country Link
US (1) US9665565B2 (zh)
CN (1) CN105824797B (zh)

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105824797B (zh) * 2015-01-04 2019-11-12 华为技术有限公司 一种评价语义相似度的方法、装置和系统
US10229111B1 (en) * 2016-02-03 2019-03-12 Google Llc Sentence compression using recurrent neural networks
US11449744B2 (en) 2016-06-23 2022-09-20 Microsoft Technology Licensing, Llc End-to-end memory networks for contextual language understanding
JP6680126B2 (ja) * 2016-07-25 2020-04-15 富士通株式会社 符号化プログラム、符号化装置、符号化方法、及び検索方法
CN109344237B (zh) * 2016-08-23 2020-11-17 上海智臻智能网络科技股份有限公司 一种用于人机交互的信息处理的方法及装置
US10366163B2 (en) * 2016-09-07 2019-07-30 Microsoft Technology Licensing, Llc Knowledge-guided structural attention processing
CN106776559B (zh) * 2016-12-14 2020-08-11 东软集团股份有限公司 文本语义相似度计算的方法及装置
CN108205523B (zh) * 2016-12-19 2023-05-23 北京天广汇通科技有限公司 利用语料库训练稠密词向量的方法及装置
KR20180077847A (ko) * 2016-12-29 2018-07-09 주식회사 엔씨소프트 문장 검증 장치 및 방법
CN106897263A (zh) * 2016-12-29 2017-06-27 北京光年无限科技有限公司 基于深度学习的机器人对话交互方法及装置
CN108319581B (zh) * 2017-01-17 2021-10-08 科大讯飞股份有限公司 一种自然语言语句评价方法及装置
US10642875B2 (en) * 2017-04-28 2020-05-05 International Business Machines Corporation Accurate relationship extraction with word embeddings using minimal training data
JP6957967B2 (ja) * 2017-05-16 2021-11-02 富士通株式会社 生成プログラム、生成方法、生成装置、及びパラメータ生成方法
KR102410825B1 (ko) * 2017-08-14 2022-06-20 삼성전자주식회사 문장의 도메인 판단 방법 및 장치
CN109426664A (zh) * 2017-08-30 2019-03-05 上海诺悦智能科技有限公司 一种基于卷积神经网络的句子相似性计算方法
US10915707B2 (en) * 2017-10-20 2021-02-09 MachineVantage, Inc. Word replaceability through word vectors
CN109697282B (zh) * 2017-10-20 2023-06-06 阿里巴巴集团控股有限公司 一种语句的用户意图识别方法和装置
US10572585B2 (en) * 2017-11-30 2020-02-25 International Business Machines Coporation Context-based linguistic analytics in dialogues
CN110110199B (zh) * 2018-01-09 2024-02-06 北京京东尚科信息技术有限公司 信息输出方法和装置
US10891943B2 (en) * 2018-01-18 2021-01-12 Citrix Systems, Inc. Intelligent short text information retrieve based on deep learning
JP7006402B2 (ja) * 2018-03-14 2022-01-24 富士通株式会社 クラスタリングプログラム、クラスタリング方法およびクラスタリング装置
CN108509415B (zh) * 2018-03-16 2021-09-24 南京云问网络技术有限公司 一种基于词序加权的句子相似度计算方法
CN110555093B (zh) * 2018-03-30 2024-02-13 华为技术有限公司 文本匹配方法、装置及设备
US10664662B2 (en) * 2018-04-18 2020-05-26 Microsoft Technology Licensing, Llc Multi-scale model for semantic matching
JP7058556B2 (ja) * 2018-05-24 2022-04-22 ヤフー株式会社 判定装置、判定方法、および判定プログラム
CN109145289A (zh) * 2018-07-19 2019-01-04 昆明理工大学 基于改进关系向量模型的老-汉双语句子相似度计算方法
CN109145299B (zh) * 2018-08-16 2022-06-21 北京金山安全软件有限公司 一种文本相似度确定方法、装置、设备及存储介质
CN109063174B (zh) * 2018-08-21 2022-06-07 腾讯科技(深圳)有限公司 查询答案的生成方法及装置、计算机存储介质、电子设备
US20200073890A1 (en) * 2018-08-22 2020-03-05 Three10 Solutions, Inc. Intelligent search platforms
CN110895553A (zh) * 2018-08-23 2020-03-20 国信优易数据有限公司 语义匹配模型训练方法、语义匹配方法及答案获取方法
CN109582953B (zh) * 2018-11-02 2023-04-07 中国科学院自动化研究所 一种资讯的言据支撑评分方法、设备和存储介质
CN109558586B (zh) * 2018-11-02 2023-04-18 中国科学院自动化研究所 一种资讯的言据自证评分方法、设备和存储介质
KR20200054360A (ko) * 2018-11-05 2020-05-20 삼성전자주식회사 전자 장치 및 그 제어 방법
CN109740143B (zh) * 2018-11-28 2022-08-23 平安科技(深圳)有限公司 基于机器学习的句子距离映射方法、装置和计算机设备
JP7358748B2 (ja) * 2019-03-01 2023-10-11 富士通株式会社 学習方法、抽出方法、学習プログラムおよび情報処理装置
CN112101037A (zh) * 2019-05-28 2020-12-18 云义科技股份有限公司 语意相似度计算方法
CN110348007B (zh) * 2019-06-14 2023-04-07 北京奇艺世纪科技有限公司 一种文本相似度确定方法及装置
CN110473540B (zh) * 2019-08-29 2022-05-31 京东方科技集团股份有限公司 语音交互方法及系统、终端设备、计算机设备及介质
CN110781686B (zh) * 2019-10-30 2023-04-18 普信恒业科技发展(北京)有限公司 一种语句相似度计算方法、装置及计算机设备
CN111198939B (zh) * 2019-12-27 2021-11-23 北京健康之家科技有限公司 语句相似度的分析方法、装置及计算机设备
US11557284B2 (en) 2020-01-03 2023-01-17 International Business Machines Corporation Cognitive analysis for speech recognition using multi-language vector representations
CN111832603A (zh) * 2020-04-15 2020-10-27 北京嘀嘀无限科技发展有限公司 数据处理方法、装置、电子设备和计算机可读存储介质
CN112906403B (zh) * 2021-04-25 2023-02-03 中国平安人寿保险股份有限公司 语义分析模型训练方法、装置、终端设备及存储介质
CN113177104B (zh) * 2021-04-28 2023-10-03 平安科技(深圳)有限公司 基于自然语言处理的语句筛选方法、装置及计算机设备
CN113239710A (zh) * 2021-06-23 2021-08-10 合肥讯飞数码科技有限公司 多语言机器翻译方法、装置、电子设备和存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102968410A (zh) * 2012-12-04 2013-03-13 江南大学 一种基于rbf神经网络算法与语义特征选取的文本分类方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6356864B1 (en) * 1997-07-25 2002-03-12 University Technology Corporation Methods for analysis and evaluation of the semantic content of a writing based on vector length
WO2000046701A1 (en) * 1999-02-08 2000-08-10 Huntsman Ici Chemicals Llc Method for retrieving semantically distant analogies
US6751621B1 (en) * 2000-01-27 2004-06-15 Manning & Napier Information Services, Llc. Construction of trainable semantic vectors and clustering, classification, and searching using trainable semantic vectors
US6978275B2 (en) * 2001-08-31 2005-12-20 Hewlett-Packard Development Company, L.P. Method and system for mining a document containing dirty text
US8504361B2 (en) * 2008-02-07 2013-08-06 Nec Laboratories America, Inc. Deep neural networks and methods for using same
US20150227505A1 (en) * 2012-08-27 2015-08-13 Hitachi, Ltd. Word meaning relationship extraction device
US9047274B2 (en) * 2013-01-21 2015-06-02 Xerox Corporation Machine translation-driven authoring system and method
CN105701120B (zh) * 2014-11-28 2019-05-03 华为技术有限公司 确定语义匹配度的方法和装置
CN105824797B (zh) * 2015-01-04 2019-11-12 华为技术有限公司 一种评价语义相似度的方法、装置和系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102968410A (zh) * 2012-12-04 2013-03-13 江南大学 一种基于rbf神经网络算法与语义特征选取的文本分类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
A Comparison of Vector-based Representations for Semantic Composition;William Blacoe 等;《Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning》;20120714;546–556页第1,2,4节 *
Learning Semantic Representations for the Phrase Translation Model;Jianfeng Gao 等;《Computer Science》;20131128;1-9 *
基于word2vec与语义相似度的领域词语聚类;罗杰 等;《第三十三届中国控制会议论文集(A卷)》;20140728;517-521 *

Also Published As

Publication number Publication date
US9665565B2 (en) 2017-05-30
CN105824797A (zh) 2016-08-03
US20160196258A1 (en) 2016-07-07

Similar Documents

Publication Publication Date Title
CN105824797B (zh) 一种评价语义相似度的方法、装置和系统
CN110287961A (zh) 中文分词方法、电子装置及可读存储介质
CN106897263A (zh) 基于深度学习的机器人对话交互方法及装置
CN105184053B (zh) 一种中文医疗服务项目信息的自动编码方法及系统
CN111209740B (zh) 文本模型训练方法、文本纠错方法、电子设备及存储介质
CN110472242A (zh) 一种文本处理方法、装置和计算机可读存储介质
CN103971686A (zh) 自动语音识别方法和系统
CN106844587B (zh) 一种用于对话交互系统的数据处理方法及装置
CN103646019A (zh) 一种多个机器翻译系统融合的方法及装置
CN105138829A (zh) 一种中文诊疗信息的自然语言处理方法及系统
CN105224818B (zh) 一种作业程序自动评分方法及系统
CN107451119A (zh) 基于语音交互的语义识别方法及装置、存储介质、计算机设备
CN110032736A (zh) 一种文本分析方法、装置及存储介质
CN104462323A (zh) 语义相似度计算方法、搜索结果处理方法和装置
CN109408813A (zh) 一种文本纠正方法及装置
CN106297765A (zh) 语音合成方法及系统
CN110457661A (zh) 自然语言生成方法、装置、设备及存储介质
CN109741751A (zh) 面向智能语音控制的意图识别方法及装置
CN113158652A (zh) 基于深度学习模型的数据增强方法、装置、设备及介质
CN110263167A (zh) 医疗实体分类模型生成方法、装置、设备和可读存储介质
CN106502987B (zh) 一种基于种子句子的句子模板召回的方法和设备
CN114511083A (zh) 一种模型的训练方法、装置、存储介质及电子装置
CN114512112A (zh) 语音合成模型的训练方法、装置、电子设备和存储介质
CN104408036B (zh) 关联话题的识别方法和装置
CN109635034A (zh) 训练数据重采样方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant