CN111783430A - 句对匹配率的确定方法、装置、计算机设备和存储介质 - Google Patents

句对匹配率的确定方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN111783430A
CN111783430A CN202010771675.1A CN202010771675A CN111783430A CN 111783430 A CN111783430 A CN 111783430A CN 202010771675 A CN202010771675 A CN 202010771675A CN 111783430 A CN111783430 A CN 111783430A
Authority
CN
China
Prior art keywords
word
pair
words
sentence
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010771675.1A
Other languages
English (en)
Inventor
高俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010771675.1A priority Critical patent/CN111783430A/zh
Publication of CN111783430A publication Critical patent/CN111783430A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种自然语言处理的句对匹配率的确定方法、装置、计算机设备和存储介质。所述方法包括:获取句对,并确定所述句对的词对;所述词对包括相匹配的词,且相匹配的词分别来自所述句对中的不同句子;获取所述词对中的各词的词向量,根据所述各词的词向量确定所述各词之间的相似度;通过多视角注意力网络的各层基于所述各词的词向量进行注意力分配处理,得到所述各层输出的所述词对的词对权重;根据所述相似度和所述词对权重,确定所述句对中所述不同句子的匹配率。采用本方法能够准确预测句子间的匹配概率。

Description

句对匹配率的确定方法、装置、计算机设备和存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种句对匹配率的确定方法、装置、计算机设备和存储介质。
背景技术
众多自然语言处理领域的研究都依赖于大规模的平行语料库的支撑,例如机器翻译、跨语言信息检索、双语词典构建、词对齐以及多语言词汇表征等。使用质量越高、资源越丰富的平行语料库,自然语言处理得到的目标结果越好。
句子对齐为众多跨语言的自然语言处理研究提供了高质量的平行句对,句子对齐旨在找到双语或多语文本中的语义对等的句对。而传统的句子对齐方法主要依赖于人工制定的浅层语义特征,并且容易受到语言稀疏性问题的影响,导致句子对齐的检测不准确。
发明内容
基于此,有必要针对上述技术问题,提供一种能够准确预测句子对齐概率的句对匹配率的确定方法、装置、计算机设备和存储介质。
一种句对匹配率的确定方法,所述方法包括:
获取句对,并确定所述句对的词对;所述词对包括相匹配的词,且相匹配的词分别来自所述句对中的不同句子;
获取所述词对中的各词的词向量,根据所述各词的词向量确定所述各词之间的相似度;
通过多视角注意力网络的各层基于所述各词的词向量进行注意力分配处理,得到所述各层输出的所述词对的词对权重;
根据所述相似度和所述词对权重,确定所述句对中所述不同句子的匹配率。
在一个实施例中,所述基于所述目标权重矩阵确定所述句对中的所述不同句子的匹配率,包括:
对所述目标权重矩阵进行最大池化处理,将最大池化处理后得到的矩阵进行全连接处理,以获得所述句对中的所述不同句子的匹配率。
一种句对匹配率的确定装置,所述装置包括:
句对获取模块,用于获取句对,并确定所述句对的词对;所述词对包括相匹配的词,且相匹配的词分别来自所述句对中的不同句子;
相似度确定模块,用于获取所述词对中的各词的词向量,根据所述各词的词向量确定所述各词之间的相似度;
词对权重确定模块,用于通过多视角注意力网络的各层基于所述各词的词向量进行注意力分配处理,得到所述各层输出的所述词对的词对权重;
匹配率确定模块,用于根据所述相似度和所述词对权重,确定所述句对中的所述不同句子的匹配率。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取句对,并确定所述句对的词对;所述词对包括相匹配的词,且相匹配的词分别来自所述句对中的不同句子;
获取所述词对中的各词的词向量,根据所述各词的词向量确定所述各词之间的相似度;
通过多视角注意力网络的各层基于所述各词的词向量进行注意力分配处理,得到所述各层输出的所述词对的词对权重;
根据所述相似度和所述词对权重,确定所述句对中所述不同句子的匹配率。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取句对,并确定所述句对的词对;所述词对包括相匹配的词,且相匹配的词分别来自所述句对中的不同句子;
获取所述词对中的各词的词向量,根据所述各词的词向量确定所述各词之间的相似度;
通过多视角注意力网络的各层基于所述各词的词向量进行注意力分配处理,得到所述各层输出的所述词对的词对权重;
根据所述相似度和所述词对权重,确定所述句对中所述不同句子的匹配率。
上述句对匹配率的确定方法、装置、计算机设备和存储介质,获取句对中的相匹配的词构成的词对,可从不同语言文本中提取相同语义的词语。根据词对中的各词对应的词向量,能够确定各词之间的相似程度。通过多视角注意力网络的各层基于词对中各词的词向量进行注意力分配处理,从而能够区分出词对中重要的词语和非重要词语。重要词语表征更多关键语义信息,多视角注意力网络为重要词语分配更多的注意力,将词间的相似度和词对的词对权重结合以进行预测,从而能够准确预测句对中的各句子之间的匹配概率。
一种预测模型的处理方法,所述方法包括:
获取训练句对和所述训练句对对应的标签,并确定所述训练句对的训练词对;所述训练词对包括相匹配的词,且相匹配的词分别来自所述训练句对中的不同训练句子;
通过预测模型确定所述训练词对中的各词的词向量,根据所述各词的词向量确定所述各词之间的相似度;
通过所述预测模型的多视角注意力网络的各层基于所述各词的词向量进行注意力分配处理,得到所述各层输出的所述训练词对的词对权重;
根据所述训练词对中的所述各词之间的相似度和所述训练词对的词对权重,确定所述训练句对中的所述不同训练句子的匹配率;
根据所述匹配率和所述训练句对对应的标签之间的差异调整所述预测模型的参数,当满足训练停止条件时得到已训练的预测模型。
一种预测模型的处理装置,所述装置包括:
训练句对获取模块,用于获取训练句对和所述训练句对对应的标签,并确定所述训练句对的训练词对;所述训练词对包括相匹配的词,且相匹配的词分别来自所述训练句对中的不同训练句子;
第一确定模块,用于通过预测模型确定所述训练词对中的各词的词向量,根据所述各词的词向量确定所述各词之间的相似度;
处理模块,用于通过所述预测模型的多视角注意力网络的各层基于所述各词的词向量进行注意力分配处理,得到所述各层输出的所述训练词对的词对权重;
第二确定模块,用于根据所述训练词对中的所述各词之间的相似度和所述训练词对的词对权重,确定所述训练句对中的所述不同训练句子的匹配率;
训练模块,用于根据所述匹配率和所述训练句对对应的标签之间的差异调整所述预测模型的参数,当满足训练停止条件时得到已训练的预测模型。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取训练句对和所述训练句对对应的标签,并确定所述训练句对的训练词对;所述训练词对包括相匹配的词,且相匹配的词分别来自所述训练句对中的不同训练句子;
通过预测模型确定所述训练词对中的各词的词向量,根据所述各词的词向量确定所述各词之间的相似度;
通过所述预测模型的多视角注意力网络的各层基于所述各词的词向量进行注意力分配处理,得到所述各层输出的所述训练词对的词对权重;
根据所述训练词对中的所述各词之间的相似度和所述训练词对的词对权重,确定所述训练句对中的所述不同训练句子的匹配率;
根据所述匹配率和所述训练句对对应的标签之间的差异调整所述预测模型的参数,当满足训练停止条件时得到已训练的预测模型。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取训练句对和所述训练句对对应的标签,并确定所述训练句对的训练词对;所述训练词对包括相匹配的词,且相匹配的词分别来自所述训练句对中的不同训练句子;
通过预测模型确定所述训练词对中的各词的词向量,根据所述各词的词向量确定所述各词之间的相似度;
通过所述预测模型的多视角注意力网络的各层基于所述各词的词向量进行注意力分配处理,得到所述各层输出的所述训练词对的词对权重;
根据所述训练词对中的所述各词之间的相似度和所述训练词对的词对权重,确定所述训练句对中的所述不同训练句子的匹配率;
根据所述匹配率和所述训练句对对应的标签之间的差异调整所述预测模型的参数,当满足训练停止条件时得到已训练的预测模型。
上述预测模型的处理方法、装置、计算机设备和存储介质,获取训练句对中的相匹配的词构成的训练词对,可从不同语言中提取相同语义的词。根据训练词对中的各训练词对应的词向量,能够确定各词之间的相似程度。通过多视角注意力网络的各层基于训练词对中各词的词向量进行注意力分配处理,从而能够区分中训练词对中重要的词语和非重要词语。重要词语表征更多关键语义信息,多视角注意力网络为重要词语分配更多的注意力,从而能够准确预测训练句对中的各训练句子之间的匹配概率。根据预测得到的匹配概率和真是标签之间的差异调整预测模型的参数,使得经过训练将各个方面的损失降到最小,使得训练好的预测模型精度更高,泛化能力更强,进而对句对之间的匹配程度的预测更准确。
附图说明
图1为一个实施例中句对匹配率的确定方法的应用环境图;
图2为一个实施例中句对匹配率的确定方法的流程示意图;
图3为一个实施例中根据各词的隐藏状态向量,确定词对中的各词之间的相似度的流程示意图;
图4为一个实施例中根据词对对应的至少两个相似度和各层输出的词对的词对权重,构建目标权重矩阵的流程示意图;
图5(a)为一个实施例中句对匹配率的确定方法的原理示意图;
图5(b)为另一个实施例中句对匹配率的确定方法的原理示意图;
图6为另一个实施例中预测模型的处理方法的流程示意图;
图7为一个实施例中句对匹配率的确定装置的结构框图;
图8为一个实施例中预测模型的处理装置的结构框图;
图9为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
自然语言处理(Nature Language processing,简称NLP)是计算机科学领域与人工智能(Artificial Intelligence,简称AI)领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、句子匹配等技术。本申请实施例提供的方案涉及自然语言处理的句对匹配率的确定方法,具体通过如下各实施例进行说明。
本申请提供的句对匹配率的确定方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。终端102获取句对,并确定句对的词对;该词对包括相匹配的词,且相匹配的词分别来自句对中的不同句子。接着,终端102将该句对和词对发送给服务器104。服务器104通过预测模型确定词对中的各词的词向量,根据各词的词向量确定各词之间的相似度。服务器104通过预测模型中的多视角注意力网络的各层基于各词的词向量进行注意力分配处理,得到各层输出的词对的词对权重。服务器104通过预测模型根据相似度和词对权重,确定句对中不同句子的匹配率。服务器104将该句对中不同句子的匹配率返回给终端102。
其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种句对匹配率的确定方法,以该方法应用于图1中的终端为例进行说明,包括以下步骤:
步骤202,获取句对,并确定句对的词对;该词对包括相匹配的词,且相匹配的词分别来自句对中的不同句子。
其中,句对是指两个为不同语言的句子,例如中文和英文的句子所构成的句对。词对中的两个词相匹配,是指分别来自两个不同语言的句子中语义相同的两个词。
具体地,终端可获取不同语言的文本,并从不同语言的文本中获取句对。接着,终端可对句对中的每个句子进行分词处理,得到每个句子对应的词集合。接着,终端可各词集合中相匹配的词,将相匹配的组确定为词对。
在本实施例中,可以采用语义分词法,字符匹配分词法和统计分词法等对句对中的句子进行分词处理。
步骤204,获取词对中的各词的词向量,根据各词的词向量确定各词之间的相似度。
具体地,终端可获取分词后的每个词对应的词向量,得到句对中的各句子对应的输入序列。
在本实施例中,终端可从词表中确定每个词对应的词向量。词表中记录了每个词对应的词向量,一个词对应一个词向量。终端将句对中的各句子分词后,在词表中查找与各句子的词相同的词,将词表中与各句子的词相同的词所对应的词向量作为该句子的词的词向量。终端可从不同度量角度根据词对中各词所对应的词向量确定该各词之间的相似度。例如,可计算词对中各词之间的余弦相似度、线性相似度和非线性相似度等。
在本实施例中,获取词对中的各词的词向量,根据各词的词向量确定各词之间的相似度,包括:获取词对中的各词的词向量,根据各词的词向量确定各词的的隐藏状态向量;根据各词的隐藏状态向量,确定词对中的各词之间的相似度。
具体地,终端可将句对中的各句子对应的输入序列输入双向循环神经网络,从而得到该双向循环神经网络输出的各句子对应的隐藏状态向量序列。该隐藏状态向量序列由各词的隐藏状态向量构成,则终端从该隐藏状态向量序列中可获得各词对应的隐藏状态向量。
例如,句对中的句子A和句子B的存在4个相匹配的词。句子A的4个词的词向量分别为x1,x2,x3,x4,则句子A的输入序列为(x1,x2,x3,x4)。句子B的4个词的词向量分别为y1,y2,y3,y4,则句子B的输入序列为(y1,y2,y3,y4)。则将 (x1,x2,x3,x4)和(y1,y2,y3,y4)经过双向循环神经网络处理后,对应输出隐藏状态向量序列
Figure BDA0002616863250000081
和隐藏状态向量序列
Figure BDA0002616863250000082
则句子A的4个词的隐藏状态向量分别为
Figure BDA0002616863250000083
句子B的4个词的隐藏状态向量分别为
Figure BDA0002616863250000084
接着,终端根据词对中各词所对应的隐藏状态向量,计算该各词之间的相似度。进一步地,终端可从不同度量角度根据词对中各词所对应的隐藏状态向量确定该各词之间的相似度。例如,可计算词对中各词之间的余弦相似度、线性相似度和非线性相似度等。
可以理解的是,词对中各词之间的相似度即为该词对所对应的相似度。
步骤206,通过多视角注意力网络的各层基于各词的词向量进行注意力分配处理,得到各层输出的词对的词对权重。
具体地。终端可将词对中的各词的词向量输入该多视角注意力网络的各层,该多视角注意力网络的各层基于各词的词向量进行注意力分配处理,以为词对中的各词分配不同的注意力,从而得到各层输出的词对的权重。
在本实施例中,通过多视角注意力网络的各层基于各词的词向量进行注意力分配处理,得到各层输出的词对的词对权重,包括:通过多视角注意力网络的各层基于各词的隐藏状态向量进行注意力分配处理,得到各层输出的词对的词对权重。
具体地,终端可将各词的隐藏状态向量输入多视角注意力网络。该多视角注意力网络(Multi-view Attentive Networks,即MAN)能够从多个角度对句对中重要词对和非重要词对进行区分。
该多视角注意力网络可包括多层注意力结构,每层注意力结构对应不同的权重。终端可将词对中的各词的隐藏状态向量输入该多视角注意力网络的各层,该多视角注意力网络的各层基于各词的隐藏状态向量进行注意力分配处理,以为词对中的各词分配不同的注意力,从而得到各层输出的词对的权重。
在一个实施例中,相匹配的词也称为词对齐,相匹配的句子也称为句子对齐。句子A:去年欧盟15国的贸易顺差为61亿元。句子B:Euro-zone trade surplus rose to 102.3billion euro last year。句子C:欧元区去年贸易顺差达102.3亿欧元。
其中,(句子A,句子B)是不对齐句对,即不匹配句对。而(句子C,句子B)是对齐句对,即匹配句对。从中可以发现,句子A句和句子B句所具有的相似长度关系以及接近一半的对齐词对,对齐词即为相匹配的词,则基于句子级信息进行预测得到的结果很不准确。特别地,句子A句中的“15国”和“61 亿”在句子B句中并没有相对应的单词,这也表明了细粒度的词级信息容易在粗粒度的句子级信息中丢失。因此,简单地将句子“压缩”成固定维度的向量表示是远远不够的。此外,从句对中还可以发现,“102.3billion”等单词在句子B句中承担着重要的语义信息,若是能够准确判断该单词在对应句子中没有对齐的单词,那么将较为容易地判断出句对是否对齐。则通过多视角注意力网络的各层基于各词的隐藏状态向量进行注意力分配处理,能够为不同重要程度的词对分配不同的词对权重,能够更容易判断出句对中的各句子是否对齐,即判断出句对中的各句子是否匹配。
步骤208,根据相似度和词对权重,确定句对中不同句子的匹配率。
其中,匹配率即匹配概率,表示不同语言的句子之间语义匹配的程度。
具体地,终端可根据各词对所对应的相似度,以及各词对所对应的词对权重,计算出句对中的不同句子的匹配率。进一步地,终端可根据各词对所对应的相似度和词对权重,构建权重关系矩阵,并基于该权重关系矩阵预测该句对中的不同句子之间的语义匹配的概率。
上述句对匹配率的确定方法中,获取句对中的相匹配的词构成的词对,可从不同语言文本中提取相同语义的词语。根据词对中的各词的词向量确定所述各词的隐藏状态向量,以提取词对中的各词的关键信息。根据词对中的各词对应的隐藏状态向量,能够确定各词之间的相似程度。通过多视角注意力网络的各层基于词对中各词的隐藏状态向量进行注意力分配处理,从而能够区分出词对中重要的词语和非重要词语。重要词语表征更多关键语义信息,多视角注意力网络为重要词语分配更多的注意力,将词间的相似度和词对的词对权重结合以进行预测,能够准确预测句对中的各句子之间的匹配概率。
在一个实施例中,通过多视角注意力网络的各层基于各词的隐藏状态向量进行注意力分配处理,得到各层输出的词对的词对权重,包括:将各词的隐藏状态向量输入多视角注意力网络,获取多视角注意力网络中各层的权重,分别根据每层的权重和词对中各词的隐藏状态向量进行注意力分配处理,获得各层输出的词对的词对权重。
具体地,该训练好的多视角注意力网络可包括多层注意力结构,每层注意力结构对应不同的权重。终端可将词对中的各词的隐藏状态向量输入训练好的多视角注意力网络的各层。针对该多视角注意力网络的每层,终端可获取每层所对应的权重,根据每层所对应的权重和输入的各词的隐藏状态向量,为各词分配注意力,即根据每层的权重和各词的隐藏状态向量,计算出各词对的词对权重。
例如,终端可通过多视角注意力网络的每层按照根据下列公式计算出各词对应的词对权重:
在获得句对的隐藏状态向量序列
Figure BDA0002616863250000108
Figure BDA0002616863250000109
后,可确定每个词对(xi,yj)的词对权重:
Figure BDA0002616863250000101
其中,αij为词对(xi,yj)的词对权重,eij为计算的中间值,m和n为词的数量。
Figure BDA0002616863250000102
其中,
Figure BDA0002616863250000103
为词xi和yj的隐藏状态向量,即
Figure BDA0002616863250000104
为词xi的隐含状态向量,
Figure BDA0002616863250000105
为词yj的隐藏状态向量。
Figure BDA0002616863250000106
Figure BDA0002616863250000107
Wx和Wy为多视角注意力网络中每层的权重,该多视角注意力网络中各层的Wx和Wy不相同。
本实施例中,通过多视角注意力网络基于词对中各词的隐藏状态向量和各层注意力结构的权重进行注意力分配处理,从而能够区分中词对中重要的词语和非重要词语。重要词语表征更多关键语义信息,为重要词语分配更多的注意力,从而能够准确预测句对中的各句子之间的匹配概率。
在一个实施例中,如图3所示,根据各词的隐藏状态向量,确定词对中的各词之间的相似度,包括:
步骤302,根据词对中的各词的隐藏状态向量,从至少两个度量角度确定各词之间的相似度,得到词对对应的至少两个相似度。
具体地,终端可从不同的度量角度计算词对中的各词之间的相似度,该度量角度包括但不限于余弦相似性、线性相似性、非线性相似性。终端可根据词对中各词的隐藏状态向量,从不同的度量角度计算出各词之间的相似度,即一个词对在一个度量角度下可确定一个相似度。终端从每个度量角度分别计算出词对中的各词之间的相似度,从而得到该词对对应于该度量角度的相似度。进一步地,终端可从至少两个度量角度计算词之间的相似度,从而得到该词对应的至少两个相似度。
该根据相似度和词对权重,确定句对中的不同句子的匹配率,包括:
步骤304,根据词对对应的至少两个相似度和各层输出的词对的词对权重,构建目标权重矩阵。
具体地,终端获得多视角注意力网络的各层输出的各词对分别对应的词对权重,以及各词对分别对应的至少两个相似度后,可将各词对分别对应的词对权重整合为词对权重矩阵,将各词对分别对应的至少两个相似度整合为相似度矩阵。接着,终端可根据词对权重矩阵和相似度权重矩阵确定出目标权重矩阵。
步骤306,基于目标权重矩阵确定句对中的不同句子的匹配率。
具体地,终端可将该目标权重矩阵进行最大池化处理,得到最大池化处理后的矩阵。接着,终端可将该最大池化处理后得到的矩阵映射为预设维度的向量,例如一维向量。接着,终端将该预设维度的向量进行全连接处理,得到表征更深层次的语义信息的向量。基于表征更深层次的语义信息的向量确定出句对中的不同句子之间的匹配概率。
在本实施例中,根据词对中的各词的隐藏状态向量,从至少两个度量角度确定词间相似度,从而能够从不同角度捕获词间的语义关系,使得所获得的词间的语义关系更准确更全面。根据各词对分别对应的至少两个相似度矩阵和各词对分别对应的各层输出的词对权重确定目标权重矩阵,能够将不同度量角度所捕获的词间的语义关系和词对间的重要性关系相结合,使得对句子间的匹配概率的预测更准确。
在一个实施例中,根据词对中的各词的隐藏状态向量,从至少两个度量角度确定各词之间的相似度,得到词对对应的至少两个相似度,包括:根据词对中的各词对应的隐藏状态向量,确定词对中的各词之间的余弦相似度、线性相似度和非线性相似度中的至少两种。
其中,线性相似度是指词对中的各词之间的线性相关程度,非线性相似度是指词对中的各词之间的非线性相关程度。
具体地,终端可根据词对中的各词对应的隐藏状态向量,确定词对中的各词之间的余弦相似度和线性相似度。
或者,终端可根据词对中的各词对应的隐藏状态向量,确定词对中的各词之间的余弦相似度和非线性相似度。
或者,终端可根据词对中的各词对应的隐藏状态向量,确定词对中的各词之间的线性相似度和非线性相似度。
或者,终端可根据词对中的各词对应的隐藏状态向量,确定词对中的各词之间的余弦相似度、线性相似度和非线性相似度。
例如,终端可获取余弦相似度计算公式计算各词之间的余弦相似度。余弦相似度(Cosine)通过计算两个向量之间的夹角余弦值来表示词间的相似度,其定义如下:
Figure BDA0002616863250000121
其中,
Figure 1
为词对(xi,yj)中的词xi和yj的余弦相似度。词xi和yj为句对中来自不同句子的相匹配的词。
Figure 2
为词xi和yj的隐藏状态向量。
终端可将词对中各词对应的隐藏状态向量输入双线性模型(Bilinear Model),通过双线性模型计算出词间的线性相似度。双线性模型是一种能够简单有效地捕获两个向量之间强线性相互作用的方法。
线性相似度的计算公式如下:
Figure BDA0002616863250000124
其中,
Figure BDA0002616863250000125
为词对(xi,yj)中的词xi和yj的线性相似度,
Figure BDA0002616863250000126
M为双线性模型的参数。
终端可将词对中各词对应的隐藏状态向量输入单层神经网络(Single LayerNetwork,即SLN),通过单层神经网络输出词间的非线性相似度。单层神经网络能够捕获两个向量间的非线性相似关系。
非线性相似度的计算公式如下:
Figure BDA0002616863250000131
的定义如下:
Figure BDA0002616863250000132
其中,
Figure BDA0002616863250000133
为词对(xi,yj)中的词xi和yj的非线性相似度。U∈Rk
Figure BDA0002616863250000134
和b∈Rk,U,V,b是单层神经网络的网络参数;f是非线性激活函数,该非线性激活函数可使用tanh;k是可以任意设置的超参。
在本实施例中,从余弦相似度、线性相似度和非线性相似度中的至少两个度量角度确定词对中的各词之间的相似程度,从而能够通过多种相似度方式准确确定词与词之间的语义关系。
在一个实施例中,如图4所示,根据词对对应的至少两个相似度和各层输出的词对的词对权重,构建目标权重矩阵,包括:
步骤402,根据词对对应的至少两个相似度,构建相似度矩阵。
具体地,终端可根据每个词对对应的至少两个相似度,构建相似度矩阵。
例如,当计算出词对中的各词之间的余弦相似度和线性相似度时,根据各词对分别对应的余弦相似度和线性相似度构建相似度矩阵。
当计算出词对中的各词之间的余弦相似度和非线性相似度时,根据各词对分别对应的余弦相似度和非线性相似度构建相似度矩阵。
当计算出词对中的各词之间的线性相似度和非线性相似度时,根据各词对分别对应的线性相似度和非线性相似度构建相似度矩阵。
当计算出词对中的各词之间的余弦相似度、线性相似度和非线性相似度时,根据各词对分别对应的余弦相似度、线性相似度和非线性相似度构建相似度矩阵。
步骤404,根据各层输出的词对的词对权重,构建词对权重矩阵。
步骤406,根据相似度矩阵和词对权重矩阵,确定目标权重矩阵。
具体地,终端获得多视角注意力网络的各层输出的各词对分别对应的词对权重后,根据各词对分别对应的词对权重构建词对权重矩阵。
在本实施例中,多视角注意力网络中注意力结构的层数与相似度的度量角度的数量相同。例如,从余弦相似性、线性相似性和非线性相似性三个角度确定词对中的各词之间的相似度,则每个词对均对应余弦相似度、线性相似度和非线性相似度。则该多视角注意力网络中存在三层注意力结构,每层注意力结构均基于各词对应的隐藏状态向量进行注意力分配处理,每层输出一个词对权重,从而得到一个词对所对应的三个词对权重。接着,终端将各词对的余弦相似度、线性相似度和非线性相似度生成相似度矩阵,将各词分别对应的三个词对权重生成词对权重矩阵。接着,终端可根据相似度矩阵和词对权重矩阵进行合并,得到目标权重矩阵。
本实施例中,根据各词对分别对应的至少两个相似度生成相似度矩阵,能够将不同度量角度捕获的词间的语义关系相结合。通过多视角注意力网络的多层注意力结构为不同重要性的词对赋予不同的权重,从而从多角度建模词对间的重要性关系。根据相似度矩阵和词对权重矩阵,确定目标权重矩阵,能够将不同度量角度所捕获的词间的语义关系和词对间的重要性关系相结合,使得对句子间的匹配概率的预测更准确。
在一个实施例中,根据相似度矩阵和词对权重矩阵,确定目标权重矩阵,包括:将相似度矩阵和词对权重矩阵进行点乘处理,得到目标权重矩阵。
具体地,终端确定相似度矩阵和词对权重矩阵后,将相似度矩阵和词对权重矩阵进行点乘处理,得到目标权重矩阵。
例如,终端按照下列公式将相似度矩阵和词对权重矩阵合并为权重关系矩阵,即目标权重矩阵M:
M=sim(x,y)·att(x,y) (6)
其中,M∈R3×m×n,m和n为词的数量,sim(x,y)为相似度矩阵,att(x,y)为词对权重矩阵。sim(x,y)和att(x,y)的矩阵维度相同,例如均为3×m×n。
本实施例中,将相似度矩阵和词对权重矩阵进行点乘处理,得到目标权重矩阵,从而能够将不同度量角度所捕获的词间的语义关系和词对间的重要性关系相结合。
在一个实施例中,基于目标权重矩阵确定句对中的不同句子的匹配率,包括:对目标权重矩阵进行最大池化处理,将最大池化处理后得到的矩阵进行全连接处理,以获得句对中的不同句子的匹配率。
具体地,终端可将该目标权重矩阵进行最大池化处理,即将目标权重矩阵划分为多个非重叠的子区域,并输出每个子区域的最大值,即可得到最大池化处理后的矩阵。接着,终端可将该最大池化处理后得到的矩阵映射为预设维度的向量,例如一维向量。接着,终端将该预设维度的向量进行全连接处理,得到表征更深层次的语义信息的向量。基于表征更深层次的语义信息的向量确定出句对中的不同句子之间的匹配概率。
在本实施例中,终端可将该目标权重矩阵输入最大池化层,最大池化层对该目标权重矩阵进行最大池化处理,输出最大池化处理后的矩阵。接着,终端可将该最大池化处理后得到的矩阵映射为预设维度的向量,例如一维向量。接着,终端将该预设维度的向量输入多层感知器层,该多层感知器层由两个连续的全连接隐藏层和一个输出层组成。该预设维度的向量经过该多层感知器层中的两个全连接层的全连接处理,将全连接层的输出作为该多层感知器层中的输出层的输入,经过输出层的预测,可获得句对中的各句子之间的匹配概率。
在本实施例中,该多层感知器层中的输出层可根据句对中的各句子之间的匹配概率,以及匹配阈值,确定句对中的各句子的预测结果,该预测结果为句对中的各句子相匹配或者各句子不匹配。进一步地,可将匹配概率和匹配阈值进行比较,当匹配率大于匹配阈值时,该预测结果为句对中的各句子相匹配。当匹配率小于或等于匹配阈值时,该预测结果为句对中的各句子不匹配。
在本实施例中,对目标权重矩阵进行最大池化处理,以进一步获取关键信息,将最大池化处理后得到的矩阵进行全连接处理,以获取更深层次的关键信息,从而准确预测句对中的不同句子的匹配概率。
在一个实施例中,获取词对中的各词的词向量,根据各词的词向量确定各词的的隐藏状态向量,包括:
获取词对中的各词的词向量,通过双向循环神经网络对各词的词向量进行编码处理,得到各词分别对应的前向隐藏状态向量和后向隐藏状态向量;针对词对中的每个词,根据词对应的前向隐藏状态向量和后向隐藏状态向量,确定词的隐藏状态向量。
具体地,终端可对句对中的各句子进行分词处理,并确定各句子中相匹配的词,将相匹配的词组成词对。终端可从词表中确定每个词对应的词向量,获取分词后的每个词对应的词向量,得到句对中的各句子对应的输入序列。接着,终端将句对中的各句子对应的输入序列输入训练好的双向循环神经网络 (Bi-RNN),通过双向循环神经网络对输入序列进行编码处理,得到各句子分别对应的前向隐藏状态向量序列和后向隐藏状态向量序列。该双向循环神经网络以门控循环单元作为神经元。
进一步地,双向循环神经网络按照从左到右的顺序读取各句子分别对应的输入序列并进行编码处理,以输出各句子分别对应的前向隐藏状态向量序列。双向循环神经网络按照从右到左的顺序读取各句子分别对应的输入序列并进行编码处理,以输出各句子分别对应的后向隐藏状态向量序列。
该前向隐藏状态向量序列由各词的前向隐藏状态向量构成,则终端从该前向隐藏状态向量序列中可获得各词对应的前向隐藏状态向量。该后向隐藏状态向量序列由各词的后向隐藏状态向量构成,则终端从该后向隐藏状态向量序列中可获得各词对应的后向隐藏状态向量。接着,针对词对中的每个词,终端根据该词对应的前向隐藏状态向量和后向隐藏状态向量,计算出该词的隐藏状态向量。
在本实施例中,通过双向循环神经网络对各词的词向量进行编码处理,得到各词分别对应的前向隐藏状态向量和后向隐藏状态向量,能够提取单词自身的信息。并且能够联系上下文,获取单词所处的语境,以更准确提取词对中的各词的关键信息。
例如,以(x,y)句对为例,句子x=(x1,x2,…,xm),句子y=(y1,y2,…,yn),m和n分别表示单词的个数,de表示词向量的维度,dh表示隐藏状态的维度。
对于句对中的两个句子,使用以门控循环单元作为神经元的双向循环神经网络进行编码。双向循环神经网络从左到右顺序读取输入序列x=(x1,x2,…,xm),经过门控循环单元后输出其前向隐藏状态序列
Figure BDA0002616863250000171
从右向左逆序读取输入序列并输出其后向隐藏状态序列
Figure BDA0002616863250000172
此时,单词xi的隐藏状态
Figure BDA0002616863250000173
就表示为
Figure BDA0002616863250000174
Figure BDA0002616863250000175
的拼接。
该双向循环神经网络不仅编码了单词的自身信息,而且编码了单词的上下文语境,为输入句子的等效翻译提供了重要的依据。句对中的两个句子使用相同的双向循环神经网络编码器。并且,编码后的隐藏状态向量同时作为词对关联网络层和多视角注意力网络层的输入。
在一个实施例中,根据词对应的前向隐藏状态向量和后向隐藏状态向量,确定词的隐藏状态向量,包括:将词对应的前向隐藏状态向量和后向隐藏状态向量进行拼接处理,得到词的隐藏状态向量。
具体地,针对词对中的每个词,终端根据词对应的前向隐藏状态向量和后向隐藏状态向量进行拼接处理,得到词的隐藏状态向量。按照相同的处理方式,可得到双向循环神经网络输出的词对中的各词的隐含状态向量。
本实施例中,通过词对应的前向隐藏状态向量和后向隐藏状态向量进行拼接处理,能够将词的上下文联系起来,结合词在句子中的语境,更准确提取词对中的各词的关键信息。
在一个实施例中,该方法还包括:当匹配率大于匹配阈值时,将句对和词对中的至少一种添加至平行语料库。
其中,平行语料库也称为对应语料库(parallel corpora),是由原文文本及其平行对应的译语文本构成的双语/多语语料库,其对齐程度可有词级、句级、段级和篇级几种。平行语料库按翻译方向的不同有单向平行语料库 (uni-directional parallelcorpora)、双向平行语料库(bi-directional parallel corpora)和多向平行语料库(multidirectional parallel corpora) 等三种形式。
具体地,终端可获取匹配阈值,将句对中的各句子的匹配概率和该匹配阈值进行比较。当匹配率大于匹配阈值时,表示句对中的各句子相匹配,终端可将该句对添加至句子级的平行语料库中。或者,终端可将该句对中的词对添加至词级的平行语料库中。或者,终端可将句对添加至句子级的平行语料库,并将该句对中的词对添加至词级的平行语料库。
本实施例中,当匹配率大于匹配阈值时,将句对和词对中的至少一种添加至平行语料,能够快速准确获取相匹配不同语言的句子和词对,能够扩充句子级和词级的平行语料库,并提高平行语料库的句对和词对的质量。平行语料库中的句对和词对的均为相匹配的句对和词对,使得为跨语言信息检索、双语词典构建、词对齐、多语言词汇表征和机器翻译等众多依赖于大规模的平行语料库的自然语言领域的处理提供更充分更全面的参考信息。
如图5(a)所示,为一个实施例中句对匹配率的确定方法的原理示意图。终端获取句对,并确定所述句对的词对。接着,获取所述词对中的各词的词向量,将词向量输入预测模型的双向循环神经网络进行编码处理,得到词对中各词的隐藏状态向量。接着,双向循环神经网络将输出的各词的隐藏状态向量输入词对关联网络(Multi-view Word PairRelevant Networks,即WPRN)和多视角注意力网络(Multi-view Attentive Networks,即MAN)。该词对关联网络可根据词对中各词的隐藏状态向量计算出词对中各词之间的余弦相似度,并通过词对关联网络中的双线性模型基于词对中各词的隐藏状态向量计算出词对中各词之间的线性相似度。以及通过词对关联网络中的单层神经网络基于词对中各词的隐藏状态向量计算出词对中各词之间的非线性相似度。
预测模型中的多视角注意力网络中包含三层注意力结构,每层注意力结构对应不同的权重。每层注意力结构根据词对中各词的隐藏状态向量和每层的权重,计算出该层输出的各词对所对应的词对权重,得到该多视角注意力网络的三层输出的各词对分别对应的词对权重。接着,预测模型根据余弦相似度、线性相似度和非线性相似度构建相似度矩阵,根据多视角注意力网络的三层输出的各词对分别对应的词对权重构建词对权重矩阵。预测模型将该相似度矩阵和词对权重矩阵进行点乘处理,得到目标权重矩阵。接着,将目标权重矩阵输入预测模型的最大池化层进行最大池化处理,将最大池化处理后得到的矩阵映射为一维向量。接着,将最大池化层输出的一维向量输入预测模型的多层感知器层,该多层感知器层由两个连续的全连接隐藏层和一个输出层组成。该多层感知器层中的第一个全连接隐藏层对输出的一维向量进行全连接处理,并将第一个全连接隐藏层的输出作为第二个全连接隐藏层的输入。接着,将第二个全连接隐藏层输出的向量输入预测模型的输出层,得到该输出层输出的匹配概率,该匹配概率即为句对中的不同句子之间的匹配程度。
如图5(b)所示,为一个实施例中句对匹配率的确定方法的原理示意图。终端获取句对中的句子1和句子2,并确定句子1和句子2中相匹配的词,得到句子1中的词1、词2…词m,句子2中的词1、词2…词n。其中,句子1中的词1和句子2中的词1相匹配,组成句对。句子1中的词2和句子2中的词2 相匹配,组成句对,以此类推,直至句子1中的词m和句子2中的词n相匹配,组成句对。
接着,获取所述词对中的各词的词向量,句子1中的词的词向量分别为x1, x2…xm。句子2中的词的词向量分别为y1、y2…yn。可得到句子1的输入序列 x=(x1,x2,…,xm),句子2的输入序列y=(y1,y2,…,yn)。
接着,将句子1的输入序列x=(x1,x2,…,xm),句子2的输入序列 y=(y1,y2,…,yn)。输入预测模型的双向循环神经网络进行编码处理,得到句子1 的前向隐藏状态向量序列
Figure BDA0002616863250000191
即句子1中各词的前向隐藏状态向量构成,以及句子1的后向隐藏状态向量序列
Figure BDA0002616863250000192
句子1中各词的后向隐藏状态向量构成。接着,可将各词的前向隐藏状态向量和后向隐藏状态向量拼接,得到句子1中各词的隐藏状态向量。句子1中各词的隐含状态向量构成句子1的隐含状态向量序列,即
Figure BDA0002616863250000193
同时,得到句子2的前向隐藏状态向量序列
Figure BDA0002616863250000194
即句子2中各词的前向隐藏状态向量构成,以及句子2的后向隐藏状态向量序列
Figure BDA0002616863250000195
即由句子2中各词的后向隐藏状态向量构成。接着,可将各词的前向隐藏状态向量和后向隐藏状态向量拼接,得到得到句子2中各词的隐藏状态向量。句子2 中各词的隐含状态向量构成句子2的隐含状态向量序列,即
Figure BDA0002616863250000196
根据句子1的隐含状态向量序列
Figure BDA0002616863250000197
和句子2的隐含状态向量序列
Figure BDA0002616863250000198
可得到词对中各词的隐含状态向量
Figure BDA0002616863250000199
接着,双向循环神经网络将输出的各词的隐藏状态向量
Figure BDA0002616863250000201
分别输入词对关联网络和多视角注意力网络。该词对关联网络可根据词对中各词的隐藏状态向量计算出词对中各词之间的余弦相似度,并通过词对关联网络中的双线性模型基于词对中各词的隐藏状态向量计算出词对中各词之间的线性相似度。以及通过词对关联网络中的单层神经网络基于词对中各词的隐藏状态向量计算出词对中各词之间的非线性相似度。
预测模型中的多视角注意力网络中包含三层注意力结构,每层注意力结构对应不同的权重。每层注意力结构根据词对中各词的隐藏状态向量和每层的权重,计算出该层输出的各词对所对应的词对权重,得到该多视角注意力网络的三层输出的各词对分别对应的词对权重。接着,预测模型根据余弦相似度、线性相似度和非线性相似度构建相似度矩阵sim(x,y),根据多视角注意力网络的三层输出的各词对分别对应的词对权重构建词对权重矩阵att(x,y)。预测模型将该相似度矩阵和词对权重矩阵进行点乘处理M=sim(x,y)·att(x,y),得到目标权重矩阵M。接着,将目标权重矩阵输入预测模型的最大池化层进行最大池化处理,将最大池化处理后得到的矩阵映射为一维向量。接着,将最大池化层输出的一维向量输入预测模型的多层感知器层,该多层感知器层由两个连续的全连接隐藏层和一个输出层组成。该多层感知器层中的第一个全连接隐藏层对输出的一维向量进行全连接处理,并将第一个全连接隐藏层的输出作为第二个全连接隐藏层的输入。接着,将第二个全连接隐藏层输出的向量输入预测模型的输出层,得到该输出层输出的匹配概率,该匹配概率即为句对中的句子1和句子2之间的匹配率。
在一个实施例中,如图6所示,提供了一种预测模型的处理方法,以该方法应用于图1中的终端为例进行说明,包括以下步骤:
步骤602,获取训练句对和训练句对对应的标签,并确定训练句对的训练词对;该训练词对包括相匹配的词,且相匹配的词分别来自训练句对中的不同训练句子。
其中,训练句对是指两个为不同语言的训练句子,例如中文和英文的句子所构成的训练句对。训练句对对应的标签表征该训练句对中的各句子是否匹配,可用1表示匹配,用0表示不匹配。也可以根据需求设置,用1表示不匹配,用1表示匹配。则该训练句对对应的标签用0或1表示。
具体地,终端可获取不同语言的文本,并从不同语言的文本中获取训练句对。接着,终端可对训练句对中的每个句子进行分词处理,得到每个句子对应的词集合。接着,终端可各词集合中相匹配的词,将相匹配的组确定为训练词对。
在本实施例中,可以采用语义分词法,字符匹配分词法和统计分词法等对训练句对中的训练句子进行分词处理。
步骤604,通过预测模型确定训练词对中的各词的词向量,根据各词的词向量确定各词之间的相似度。
在本实施例中,通过预测模型确定训练词对中的各词的词向量,根据各词的词向量确定各词之间的相似度,包括:通过预测模型确定训练词对中的各词的词向量,根据各词的词向量确定各词的隐含状态向量;根据各词的隐藏状态向量,确定训练词对中的各词之间的相似度。
其中,训练词对中的两个词相匹配,是指分别来自两个不同语言的训练句子中语义相同的两个词。
具体地,终端可获取分词后的每个词对应的词向量,得到训练句对中的各训练句子对应的输入序列。
在本实施例中,终端可从词表中确定每个词对应的词向量。词表中记录了每个词对应的词向量,一个词对应一个词向量。终端将训练句对中的各训练句子分词后,在词表中查找与各训练句子的词相同的词,将词表中与各训练句子的词相同的词所对应的词向量作为该训练句子的词的词向量。
接着,终端可将训练句对中的各训练句子对应的输入序列输入双向循环神经网络,从而得到该双向循环神经网络输出的各训练句子对应的隐藏状态向量序列。该隐藏状态向量序列由各词的隐藏状态向量构成,则终端从该隐藏状态向量序列中可获得各训练词对应的隐藏状态向量。
接着,终端根据训练词对中各词所对应的隐藏状态向量,计算该各词之间的相似度。进一步地,终端可从不同度量角度根据训练词对中各词所对应的隐藏状态向量确定该各词之间的相似度。例如,可计算训练词对中各词之间的余弦相似度、线性相似度和非线性相似度等。可以理解的是,训练词对中各词之间的相似度即为该训练词对所对应的相似度。
步骤606,通过预测模型的多视角注意力网络的各层基于各词的词向量进行注意力分配处理,得到各层输出的训练词对的词对权重。
具体地,终端可将词对中的各词的词向量输入未完成训练的多视角注意力网络的各层,该多视角注意力网络的各层基于各词的词向量进行注意力分配处理,以为训练词对中的各词分配不同的注意力,从而得到各层输出的训练词对的权重。
进一步地,终端可将各词的隐藏状态向量输入未完成训练的多视角注意力网络。该多视角注意力网络可包括多层注意力结构,每层注意力结构对应不同的权重参数。终端可将训练词对中的各词的隐藏状态向量输入该多视角注意力网络的各层,该多视角注意力网络的各层基于各词的隐藏状态向量进行注意力分配处理,以为训练词对中的各词分配不同的注意力,从而得到各层输出的训练词对的权重。
步骤608,根据训练词对中的各词之间的相似度和训练词对的词对权重,确定训练句对中的不同训练句子的匹配率。
具体地,终端可根据各词对所对应的相似度,以及各训练词对所对应的词对权重,计算出训练句对中的不同句子的匹配率。进一步地,终端可根据各训练词对所对应的相似度和词对权重,构建权重关系矩阵,并基于该权重关系矩阵预测该训练句对中的不同训练句子之间的语义匹配的概率。
步骤610,根据匹配率和训练句对对应的标签之间的差异调整预测模型的参数,当满足训练停止条件时得到已训练的预测模型。
具体地,终端可确定句对中各句子之间的匹配率和该训练句对对应的标签之间的差异,根据该差异调整预测模型的参数并继续训练,直至满足训练停止条件时停止,得到训练好的预测模型。
在本实施例中,终端可获取预先构建的目标损失函数,将句对中各句子之间的匹配率和训练句对对应的标签代入目标损失函数。并基于该目标损失函数计算得到的损失误差调整预测模型的参数并继续训练,直至满足训练停止条件时停止,得到训练好的预测模型。
在本实施例中,训练停止条件可以为预测模型的损失误差小于或等于损失阈值,或者训练停止条件为预测模型的迭代次数达到预设迭代次数,或者训练停止条件可以为最小化损失误差。
例如,通过该目标损失函数计算出每次训练中产生的损失误差,基于损失误差和损失阈值之间的差异调整该预测模型的参数并继续训练,直到训练停止条件时停止训练,得到训练好的预测模型。
终端通过计算预测模型在训练过程中的迭代次数,当训练过程终端的迭代次数达到预设迭代次数时,停止训练,得到训练好的预测模型。
在本实施例中,目标损失函数可为预测模型输出的匹配概率和标签之间的交叉熵函数,例如:
训练句对集合(X,Y)={xi,yi|1≤i≤N}和其真实标签集合L={li|li∈{0,1}},目标损失函数为匹配率
Figure BDA0002616863250000231
和真实标签之间的交叉熵函数,其定义如下:
Figure BDA0002616863250000232
其中,Loss(X,Y,L|Θ)为损失误差,li为标签,Θ为预测模型的参数集合。
在本实施例中,获取训练句对中的相匹配的词构成的训练词对,可从不同语言中提取相同语义的词。根据训练词对中的各词的词向量确定所述各词的隐藏状态向量,以提取训练词对中的各词的关键信息。根据训练词对中的各训练词对应的隐藏状态向量,能够确定各词之间的相似程度。通过多视角注意力网络的各层基于训练词对中各词的隐藏状态向量进行注意力分配处理,从而能够区分中训练词对中重要的词语和非重要词语。重要词语表征更多关键语义信息,多视角注意力网络为重要词语分配更多的注意力,从而能够准确预测训练句对中的各训练句子之间的匹配概率。根据预测得到的匹配概率和真是标签之间的差异调整预测模型的参数,使得经过训练将各个方面的损失降到最小,使得训练好的预测模型精度更高,泛化能力更强,进而对句对之间的匹配程度的预测更准确。
在一个实施例中,提供了一种句对匹配率的确定方法,该方法包括:
终端获取句对,并确定句对的词对;该词对包括相匹配的词,且相匹配的词分别来自句对中的不同句子。
终端获取词对中的各词的词向量,将词对中的各词的词向量输入预测模型的双向循环神经网络,通过双向循环神经网络对各词的词向量进行编码处理,得到各词分别对应的前向隐藏状态向量和后向隐藏状态向量;
针对词对中的每个词,终端通过双向循环神经网络将词对应的前向隐藏状态向量和后向隐藏状态向量进行拼接处理,得到词的隐藏状态向量。
接着,终端将该双向循环神经网络输出的词对中各词的隐藏状态向量输入预测模型的词对关联网络,通过词对关联网络计算出词对中各词之间的余弦相似度、线性相似度和非线性相似度。
并且,终端将该双向循环神经网络输出的词对中各词的隐藏状态向量输入预测模型的多视角注意力网络,该多视角注意力网络根据各层的权重和词对中各词的隐藏状态向量,确定各层输出的词对的词对权重。
进一步地,终端根据词对对应的余弦相似度、线性相似度和非线性相似度,构建相似度矩阵。
接着,终端根据各层输出的词对的词对权重,构建词对权重矩阵。
接着,终端根据相似度矩阵和词对权重矩阵进行点乘处理,得到目标权重矩阵。
接着,终端将目标权重矩阵输入预测模型的最大池化层进行最大池化处理,将最大池化处理后得到的矩阵映射为一维向量。
进一步地,终端将最大池化层输出的一维向量输入预测模型的多层感知器层,该多层感知器层中的全连接隐藏层对输出的一维向量进行全连接处理,并将输出的向量输入预测模型的输出层,得到该输出层输出的句对中的不同句子的匹配率。
进一步地,当匹配率大于匹配阈值时,将句对和词对中的至少一种添加至平行语料库。
在本实施例中,获取句对中的相匹配的词构成的词对,可从不同语言中提取相同语义的词语。根据词对中的各词的词向量确定所述各词的隐藏状态向量,以提取词对中的各词的关键信息。根据词对中的各词的隐藏状态向量,从三个度量角度确定词间相似度,从而能够从不同角度捕获词间的语义关系,使得所获得的词间的语义关系更准确更全面。通过多视角注意力网络的各层基于词对中各词的隐藏状态向量进行注意力分配处理,从而能够区分中词对中重要的词语和非重要词语。重要词语表征更多关键语义信息,多视角注意力网络为重要词语分配更多的注意力,从而能够准确预测句对中的各句子之间的匹配概率。
当匹配率大于匹配阈值时,将句对和词对中的至少一种添加至平行语料,能够快速准确获取相匹配不同语言的句子和词对,能够扩充句子级和词级的平行语料库,并提高平行语料库的句对和词对的质量。
应该理解的是,虽然图2-6的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-6中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图7所示,提供了一种句对匹配率的确定装置,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:句对获取模块702、相似度确定模块704、词对权重确定模块 706和匹配率确定模块708,其中:
句对获取模块702,用于获取句对,并确定句对的词对;该词对包括相匹配的词,且相匹配的词分别来自句对中的不同句子。
相似度确定模块704,用于获取词对中的各词的词向量,根据各词的词向量确定各词之间的相似度。
词对权重确定模块706,用于通过多视角注意力网络的各层基于各词的词向量进行注意力分配处理,得到各层输出的词对的词对权重。
匹配率确定模块708,用于根据相似度和词对权重,确定句对中的不同句子的匹配率。
上述句对匹配率的确定装置中,获取句对中的相匹配的词构成的词对,可从不同语言中提取相同语义的词语。根据词对中的各词的词向量确定所述各词的隐藏状态向量,以提取词对中的各词的关键信息。根据词对中的各词对应的隐藏状态向量,能够确定各词之间的相似程度。通过多视角注意力网络的各层基于词对中各词的隐藏状态向量进行注意力分配处理,从而能够区分中词对中重要的词语和非重要词语。重要词语表征更多关键语义信息,多视角注意力网络为重要词语分配更多的注意力,从而能够准确预测句对中的各句子之间的匹配概率。
在一个实施例中,该相似度确定模块704还用于:获取词对中的各词的词向量,根据各词的词向量确定各词的的隐藏状态向量;根据各词的隐藏状态向量,确定词对中的各词之间的相似度。
在本实施例中,根据词对中的各词的词向量确定所述各词的隐藏状态向量,以提取词对中的各词的关键信息。根据词对中的各词对应的隐藏状态向量,能够确定各词之间的相似程度。
在一个实施例中,该词对权重确定模块706还用于:通过多视角注意力网络的各层基于各词的隐藏状态向量进行注意力分配处理,得到各层输出的词对的词对权重。通过多视角注意力网络的各层基于词对中各词的隐藏状态向量进行注意力分配处理,从而能够区分出词对中重要的词语和非重要词语。
在一个实施例中,该词对权重确定模块706还用于:将各词的隐藏状态向量输入多视角注意力网络,获取多视角注意力网络中各层的权重,分别根据每层的权重和词对中各词的隐藏状态向量进行注意力分配处理,获得各层输出的词对的词对权重。
本实施例中,通过多视角注意力网络基于词对中各词的隐藏状态向量和各层注意力结构的权重进行注意力分配处理,从而能够区分中词对中重要的词语和非重要词语。重要词语表征更多关键语义信息,为重要词语分配更多的注意力,从而能够准确预测句对中的各句子之间的匹配概率。
在一个实施例中,该相似度确定模块704还用于:根据词对中的各词的隐藏状态向量,从至少两个度量角度确定各词之间的相似度,得到词对对应的至少两个相似度;
该匹配率确定模块708还用于:根据词对对应的至少两个相似度和各层输出的词对的词对权重,构建目标权重矩阵;基于目标权重矩阵确定句对中的不同句子的匹配率。
在本实施例中,根据词对中的各词的隐藏状态向量,从至少两个度量角度确定词间相似度,从而能够从不同角度捕获词间的语义关系,使得所获得的词间的语义关系更准确更全面。根据各词对分别对应的至少两个相似度矩阵和各词对分别对应的各层输出的词对权重确定目标权重矩阵,能够将不同度量角度所捕获的词间的语义关系和词对间的重要性关系相结合,使得对句子间的匹配概率的预测更准确。
在一个实施例中,该相似度确定模块704还用于:根据词对中的各词对应的隐藏状态向量,确定词对中的各词之间的余弦相似度、线性相似度和非线性相似度中的至少两种。
在本实施例中,从余弦相似度、线性相似度和非线性相似度中的至少两个度量角度确定词对中的各词之间的相似程度,从而能够通过多种相似度方式准确确定词与词之间的语义关系。
在一个实施例中,该匹配率确定模块708还用于:根据词对对应的至少两个相似度,构建相似度矩阵;根据各层输出的词对的词对权重,构建词对权重矩阵;根据相似度矩阵和词对权重矩阵,确定目标权重矩阵。
本实施例中,根据各词对分别对应的至少两个相似度生成相似度矩阵,能够将不同度量角度捕获的词间的语义关系相结合。通过多视角注意力网络的多层注意力结构为不同重要性的词对赋予不同的权重,从而从多角度建模词对间的重要性关系。根据相似度矩阵和词对权重矩阵,确定目标权重矩阵,能够将不同度量角度所捕获的词间的语义关系和词对间的重要性关系相结合,使得对句子间的匹配概率的预测更准确。
在一个实施例中,该匹配率确定模块708还用于:将相似度矩阵和词对权重矩阵进行点乘处理,得到目标权重矩阵。
本实施例中,将相似度矩阵和词对权重矩阵进行点乘处理,得到目标权重矩阵,从而能够将不同度量角度所捕获的词间的语义关系和词对间的重要性关系相结合。
在一个实施例中,该匹配率确定模块708还用于:对目标权重矩阵进行最大池化处理,将最大池化处理后得到的矩阵进行全连接处理,以获得句对中的不同句子的匹配率。
在本实施例中,对目标权重矩阵进行最大池化处理,以进一步获取关键信息,将最大池化处理后得到的矩阵进行全连接处理,以获取更深层次的关键信息,从而准确预测句对中的不同句子的匹配概率。
在一个实施例中,该相似度确定模块704用于:获取词对中的各词的词向量,通过双向循环神经网络对各词的词向量进行编码处理,得到各词分别对应的前向隐藏状态向量和后向隐藏状态向量;针对词对中的每个词,根据词对应的前向隐藏状态向量和后向隐藏状态向量,确定词的隐藏状态向量。
本实施例中,通过双向循环神经网络对各词的词向量进行编码处理,得到各词分别对应的前向隐藏状态向量和后向隐藏状态向量,能够提取单词自身的信息。并且能够联系上下文,获取单词所处的语境,以更准确提取词对中的各词的关键信息。
在一个实施例中,该相似度确定模块704用于:将词对应的前向隐藏状态向量和后向隐藏状态向量进行拼接处理,得到词的隐藏状态向量。
本实施例中,通过词对应的前向隐藏状态向量和后向隐藏状态向量进行拼接处理,能够将词的上下文联系起来,结合词在句子中的语境,更准确提取词对中的各词的关键信息。
在一个实施例中,该装置还包括:添加模块。该添加模块用于:当匹配率大于匹配阈值时,将句对和词对中的至少一种添加至平行语料库。
本实施例中,当匹配率大于匹配阈值时,将句对和词对中的至少一种添加至平行语料,能够快速准确获取相匹配不同语言的句子和词对,能够扩充句子级和词级的平行语料库,并提高平行语料库的句对和词对的质量。
在一个实施例中,如图8所示,提供了一种预测模型的处理装置,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:训练句对获取模块802、第一确定模块804、处理模块806、第二确定模块808和训练模块810,其中:
训练句对获取模块802,用于获取训练句对和训练句对对应的标签,并确定训练句对的训练词对;训练词对包括相匹配的词,且相匹配的词分别来自训练句对中的不同训练句子。
第一确定模块804,用于通过预测模型确定训练词对中的各词的词向量,根据各词的词向量确定各词之间的相似度。
处理模块806,用于通过预测模型的多视角注意力网络的各层基于各词的词向量进行注意力分配处理,得到各层输出的训练词对的词对权重。
第二确定模块808,用于根据训练词对中的各词之间的相似度和训练词对的词对权重,确定训练句对中的不同训练句子的匹配率。
训练模块810,用于根据匹配率和训练句对对应的标签之间的差异调整预测模型的参数,当满足训练停止条件时得到已训练的预测模型。
在本实施例中,获取训练句对中的相匹配的词构成的训练词对,可从不同语言中提取相同语义的词。根据训练词对中的各词的词向量确定所述各词的隐藏状态向量,以提取训练词对中的各词的关键信息。根据训练词对中的各训练词对应的隐藏状态向量,能够确定各词之间的相似程度。通过多视角注意力网络的各层基于训练词对中各词的隐藏状态向量进行注意力分配处理,从而能够区分中训练词对中重要的词语和非重要词语。重要词语表征更多关键语义信息,多视角注意力网络为重要词语分配更多的注意力,从而能够准确预测训练句对中的各训练句子之间的匹配概率。根据预测得到的匹配概率和真是标签之间的差异调整预测模型的参数,使得经过训练将各个方面的损失降到最小,使得训练好的预测模型精度更高,泛化能力更强,进而对句对之间的匹配程度的预测更准确。
关于句对匹配率的确定装置的具体限定可以参见上文中对于句对匹配率的确定方法的限定,在此不再赘述。上述句对匹配率的确定装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种句对匹配率的确定方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM) 或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (15)

1.一种句对匹配率的确定方法,其特征在于,所述方法包括:
获取句对,并确定所述句对的词对;所述词对包括相匹配的词,且相匹配的词分别来自所述句对中的不同句子;
获取所述词对中的各词的词向量,根据所述各词的词向量确定所述各词之间的相似度;
通过多视角注意力网络的各层基于所述各词的词向量进行注意力分配处理,得到所述各层输出的所述词对的词对权重;
根据所述相似度和所述词对权重,确定所述句对中所述不同句子的匹配率。
2.根据权利要求1所述的方法,其特征在于,所述获取所述词对中的各词的词向量,根据所述各词的词向量确定所述各词之间的相似度,包括:
获取所述词对中的各词的词向量,根据所述各词的词向量确定所述各词的的隐藏状态向量;
根据所述各词的隐藏状态向量,确定所述词对中的所述各词之间的相似度;
所述通过多视角注意力网络的各层基于所述各词的词向量进行注意力分配处理,得到所述各层输出的所述词对的词对权重,包括:
通过多视角注意力网络的各层基于所述各词的隐藏状态向量进行注意力分配处理,得到所述各层输出的所述词对的词对权重。
3.根据权利要求2所述的方法,其特征在于,所述通过多视角注意力网络的各层基于所述各词的隐藏状态向量进行注意力分配处理,得到所述各层输出的所述词对的词对权重,包括:
将所述各词的隐藏状态向量输入多视角注意力网络,获取所述多视角注意力网络中各层的权重,分别根据每层的权重和所述词对中所述各词的隐藏状态向量进行注意力分配处理,获得所述各层输出的所述词对的词对权重。
4.根据权利要求2所述的方法,其特征在于,所述根据所述各词的隐藏状态向量,确定所述词对中的所述各词之间的相似度,包括:
根据所述词对中的所述各词的隐藏状态向量,从至少两个度量角度确定所述各词之间的相似度,得到所述词对对应的至少两个相似度;
所述根据所述相似度和所述词对权重,确定所述句对中的所述不同句子的匹配率,包括:
根据所述词对对应的至少两个相似度和所述各层输出的所述词对的词对权重,构建目标权重矩阵;
基于所述目标权重矩阵确定所述句对中的所述不同句子的匹配率。
5.根据权利要求4所述的方法,其特征在于,所述根据所述词对中的所述各词的隐藏状态向量,从至少两个度量角度确定所述各词之间的相似度,得到所述词对对应的至少两个相似度,包括:
根据所述词对中的所述各词对应的隐藏状态向量,确定所述词对中的所述各词之间的余弦相似度、线性相似度和非线性相似度中的至少两种。
6.根据权利要求4所述的方法,其特征在于,所述根据所述词对对应的至少两个相似度和所述各层输出的所述词对的词对权重,构建目标权重矩阵,包括:
根据所述词对对应的至少两个相似度,构建相似度矩阵;
根据所述各层输出的所述词对的词对权重,构建词对权重矩阵;
根据所述相似度矩阵和所述词对权重矩阵,确定目标权重矩阵。
7.根据权利要求6所述的方法,其特征在于,所述根据所述相似度矩阵和所述词对权重矩阵,确定目标权重矩阵,包括:
将所述相似度矩阵和所述词对权重矩阵进行点乘处理,得到目标权重矩阵。
8.根据权利要求2所述的方法,其特征在于,所述获取所述词对中的各词的词向量,根据所述各词的词向量确定所述各词的的隐藏状态向量,包括:
获取所述词对中的各词的词向量,通过双向循环神经网络对所述各词的词向量进行编码处理,得到所述各词分别对应的前向隐藏状态向量和后向隐藏状态向量;
针对所述词对中的每个词,根据词对应的前向隐藏状态向量和后向隐藏状态向量,确定所述词的隐藏状态向量。
9.根据权利要求8所述的方法,其特征在于,所述根据词对应的前向隐藏状态向量和后向隐藏状态向量,确定所述词的隐藏状态向量,包括:
将词对应的前向隐藏状态向量和后向隐藏状态向量进行拼接处理,得到所述词的隐藏状态向量。
10.根据权利要求1至9中任一项所述的方法,其特征在于,所述方法还包括:
当所述匹配率大于匹配阈值时,将所述句对和所述词对中的至少一种添加至平行语料库。
11.一种预测模型的处理方法,其特征在于,所述方法包括:
获取训练句对和所述训练句对对应的标签,并确定所述训练句对的训练词对;所述训练词对包括相匹配的词,且相匹配的词分别来自所述训练句对中的不同训练句子;
通过预测模型确定所述训练词对中的各词的词向量,根据所述各词的词向量确定所述各词之间的相似度;
通过所述预测模型的多视角注意力网络的各层基于所述各词的词向量进行注意力分配处理,得到所述各层输出的所述训练词对的词对权重;
根据所述训练词对中的所述各词之间的相似度和所述训练词对的词对权重,确定所述训练句对中的所述不同训练句子的匹配率;
根据所述匹配率和所述训练句对对应的标签之间的差异调整所述预测模型的参数,当满足训练停止条件时得到已训练的预测模型。
12.一种句对匹配率的确定装置,其特征在于,所述装置包括:
句对获取模块,用于获取句对,并确定所述句对的词对;所述词对包括相匹配的词,且相匹配的词分别来自所述句对中的不同句子;
相似度确定模块,用于获取所述词对中的各词的词向量,根据所述各词的词向量确定所述各词之间的相似度;
词对权重确定模块,用于通过多视角注意力网络的各层基于所述各词的词向量进行注意力分配处理,得到所述各层输出的所述词对的词对权重;
匹配率确定模块,用于根据所述相似度和所述词对权重,确定所述句对中的所述不同句子的匹配率。
13.一种预测模型的处理装置,其特征在于,所述装置包括:
训练句对获取模块,用于获取训练句对和所述训练句对对应的标签,并确定所述训练句对的训练词对;所述训练词对包括相匹配的词,且相匹配的词分别来自所述训练句对中的不同训练句子;
第一确定模块,用于通过预测模型确定所述训练词对中的各词的词向量,根据所述各词的词向量所述各词之间的相似度;
处理模块,用于通过所述预测模型的多视角注意力网络的各层基于所述各词的词向量进行注意力分配处理,得到所述各层输出的所述训练词对的词对权重;
第二确定模块,用于根据所述训练词对中的所述各词之间的相似度和所述训练词对的词对权重,确定所述训练句对中的所述不同训练句子的匹配率;
训练模块,用于根据所述匹配率和所述训练句对对应的标签之间的差异调整所述预测模型的参数,当满足训练停止条件时得到已训练的预测模型。
14.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至11中任一项所述的方法的步骤。
15.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。
CN202010771675.1A 2020-08-04 2020-08-04 句对匹配率的确定方法、装置、计算机设备和存储介质 Pending CN111783430A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010771675.1A CN111783430A (zh) 2020-08-04 2020-08-04 句对匹配率的确定方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010771675.1A CN111783430A (zh) 2020-08-04 2020-08-04 句对匹配率的确定方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN111783430A true CN111783430A (zh) 2020-10-16

Family

ID=72766728

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010771675.1A Pending CN111783430A (zh) 2020-08-04 2020-08-04 句对匹配率的确定方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN111783430A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112287677A (zh) * 2020-10-31 2021-01-29 平安科技(深圳)有限公司 数据处理方法、装置、终端设备以及存储介质
CN112507081A (zh) * 2020-12-16 2021-03-16 平安科技(深圳)有限公司 相似句匹配方法、装置、计算机设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108932342A (zh) * 2018-07-18 2018-12-04 腾讯科技(深圳)有限公司 一种语义匹配的方法、模型的学习方法及服务器
CN109062910A (zh) * 2018-07-26 2018-12-21 苏州大学 基于深度神经网络的句子对齐方法
CN109062897A (zh) * 2018-07-26 2018-12-21 苏州大学 基于深度神经网络的句子对齐方法
CN110298037A (zh) * 2019-06-13 2019-10-01 同济大学 基于增强注意力机制的卷积神经网络匹配的文本识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108932342A (zh) * 2018-07-18 2018-12-04 腾讯科技(深圳)有限公司 一种语义匹配的方法、模型的学习方法及服务器
CN109062910A (zh) * 2018-07-26 2018-12-21 苏州大学 基于深度神经网络的句子对齐方法
CN109062897A (zh) * 2018-07-26 2018-12-21 苏州大学 基于深度神经网络的句子对齐方法
CN110298037A (zh) * 2019-06-13 2019-10-01 同济大学 基于增强注意力机制的卷积神经网络匹配的文本识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
丁颖: "基于词对和词典的句子对齐研究", 《中国优秀硕士学位论文全文数据库信息科技辑(月刊)》, no. 04, pages 138 - 567 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112287677A (zh) * 2020-10-31 2021-01-29 平安科技(深圳)有限公司 数据处理方法、装置、终端设备以及存储介质
CN112287677B (zh) * 2020-10-31 2022-03-08 平安科技(深圳)有限公司 数据处理方法、装置、终端设备以及存储介质
CN112507081A (zh) * 2020-12-16 2021-03-16 平安科技(深圳)有限公司 相似句匹配方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
US20230077849A1 (en) Content recognition method and apparatus, computer device, and storage medium
JP2023509031A (ja) マルチモーダル機械学習に基づく翻訳方法、装置、機器及びコンピュータプログラム
He et al. Vd-san: visual-densely semantic attention network for image caption generation
CN112487182A (zh) 文本处理模型的训练方法、文本处理方法及装置
CN111368993A (zh) 一种数据处理方法及相关设备
CN112257858A (zh) 一种模型压缩方法及装置
Kundu et al. A question-focused multi-factor attention network for question answering
Yao et al. A novel sentence similarity model with word embedding based on convolutional neural network
Shen et al. VILA: Improving structured content extraction from scientific PDFs using visual layout groups
CN110134965B (zh) 用于信息处理的方法、装置、设备和计算机可读存储介质
CN115221846A (zh) 一种数据处理方法及相关设备
CN113836992A (zh) 识别标签的方法、训练标签识别模型的方法、装置及设备
CN111783430A (zh) 句对匹配率的确定方法、装置、计算机设备和存储介质
CN113657105A (zh) 基于词汇增强的医学实体抽取方法、装置、设备及介质
CN116432019A (zh) 一种数据处理方法及相关设备
CN113901802A (zh) Crnn网络融合注意力机制的短文本相似度匹配方法
CN113961666A (zh) 关键词识别方法、装置、设备、介质及计算机程序产品
CN110008482B (zh) 文本处理方法、装置、计算机可读存储介质和计算机设备
Zhang et al. An attention-based word-level interaction model: Relation detection for knowledge base question answering
CN113723077B (zh) 基于双向表征模型的句向量生成方法、装置及计算机设备
Guo et al. Matching visual features to hierarchical semantic topics for image paragraph captioning
Yang et al. Adaptive syncretic attention for constrained image captioning
Cao et al. An image caption method based on object detection
CN113536784A (zh) 文本处理方法、装置、计算机设备和存储介质
CN114417891B (zh) 基于粗糙语义的回复语句确定方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination