CN112749566B - 一种面向英文写作辅助的语义匹配方法及装置 - Google Patents
一种面向英文写作辅助的语义匹配方法及装置 Download PDFInfo
- Publication number
- CN112749566B CN112749566B CN201911063163.3A CN201911063163A CN112749566B CN 112749566 B CN112749566 B CN 112749566B CN 201911063163 A CN201911063163 A CN 201911063163A CN 112749566 B CN112749566 B CN 112749566B
- Authority
- CN
- China
- Prior art keywords
- matching
- semantic
- word
- attention
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000012549 training Methods 0.000 claims abstract description 31
- 230000007246 mechanism Effects 0.000 claims abstract description 21
- 230000000694 effects Effects 0.000 claims abstract description 12
- 239000013598 vector Substances 0.000 claims description 66
- 238000010276 construction Methods 0.000 claims description 29
- 239000011159 matrix material Substances 0.000 claims description 27
- 238000011176 pooling Methods 0.000 claims description 20
- 230000009193 crawling Effects 0.000 claims description 12
- 238000013507 mapping Methods 0.000 claims description 12
- 238000012360 testing method Methods 0.000 claims description 12
- 238000012795 verification Methods 0.000 claims description 9
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 7
- 230000003993 interaction Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000004927 fusion Effects 0.000 claims description 5
- 230000002457 bidirectional effect Effects 0.000 claims description 4
- 238000002372 labelling Methods 0.000 claims description 4
- 230000000007 visual effect Effects 0.000 claims description 4
- 230000009471 action Effects 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 2
- 230000002452 interceptive effect Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 230000014616 translation Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 235000014347 soups Nutrition 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本发明涉及一种面向英文写作辅助的语义匹配方法及装置,所述匹配方法包括如下步骤:步骤S1:构建例句语料库;步骤S2:构建语义匹配模型训练数据集;步骤S3:构建多视角注意力机制的语义匹配模型;步骤S4:训练语义匹配模型。本发明提供的面向英文写作辅助的语义匹配方法及装置,在几个公开语义匹配数据集上均取得显著效果,能够提取更丰富交互匹配信息,更好的捕捉句子对之间联系与区别,更好地得到全局匹配信息,在文本匹配相关领域有很大的应用前景。
Description
技术领域
本发明涉及自然语言处理技术领域,具体地说是一种面向英文写作辅助的语义匹配方法及装置。
背景技术
作为世界使用范围最广的语言,英语在日常的学术交流和商贸往来中扮演着重要的角色。而作为正式沟通的一种重要的渠道,写作成为仅次于口语、横亘于许多非外语工作者和国外世界的一道屏障。写作者的写作水平可以凸显其掌握语言的熟练程度,要想写出高质量的文章,必须拥有大量的阅读经历及知识储备。然而,对大多数以非英语为母语的学生来说,由于英语阅读经历和知识储备的缺乏,写出高质量的英语文章绝非是一件容易的事。在写作的过程中,他们往往先用自己的母语组织文章内容,然后再将其翻译成相对应的英语。这种翻译式的写作方法,很难写出原汁原味的英语文章。
随着互联网的高速发展与电脑的大量普及,很多人在写作的时候都会利用大量的网络资源来帮助自己完成任务。网络资源包括两大块:一块是大量的英文网页,通过搜索引擎,写作者可以很快的定位到和自己写作相关的材料,写作者可以依据这些网络资源,一方面提供写作语句的参考,另一方面亦可以给自己的写作思路提供很好的模型;另一块是网络在线翻译资源,包括网络词典和在线翻译。在写作过程中遇到困难的人虽然可以通过互联网来获得帮助,但是这种方式既费时费力又效率低下,不能有效地提高用户的写作水平,帮助用户写出高质量的英语文章。如何更加有效地帮助用户提高英语写作水平,依然是研究者需要面对的问题。
针对上述问题,国内外学者开发了许多辅助写作系统。这些辅助写作系统不仅提供了文字编辑区,而且提供了词搭配、相似内容推荐等相关功能。这些系统的出现,在一定程度上提高了用户的写作质量。但是通过对现有辅助写作系统的分析与研究,不难发现其大多数使用的仍然是非常传统的方法,效果比较有限。传统统计机器学习阶段需要大量的人工经验和时间进行早期的数据标注和中期的特征抽取,而且对于复杂任务实验效果并不理想,并不能很好地进行文本表示,理解语义信息。而且传统文本表示方法导致的维度灾难、数据稀疏等问题等已经影响自然语言处理领域的发展。近年来由于深度神经网络和文本词向量技术的迅猛发展,将深度神经网络应用到文本匹配领域逐渐成为一个新的研究方向。
综上所述,如何构建有效的深度文本语义匹配方法,以及将方法应用到写作辅助是个很重要,非常值得研究的问题。因此本文提出一种面向写作辅助的文本匹配方法及装置。
发明内容
本发明提供了一种面向英文写作辅助的语义匹配方法,包括如下步骤:
步骤S1:构建例句语料库;
步骤S2:构建语义匹配模型训练数据集;
步骤S3:构建多视角注意力机制的语义匹配模型;
步骤S4:训练语义匹配模型。
其中,所述步骤S1包括:
步骤S11:对英文写作网站数据进行爬取解析,并将内容按文章的形式进行存储,构建语料库;
步骤S12:对语料库内容进行一些基本的预处理,以语句的形式进行保存构建例句语料库。
其中,所述步骤S2包括:
步骤S21:对构建的例句语料库中语料进行部分标注;
步骤S22:利用加权的词向量作为无监督的句向量表示,利用余弦距离得到一些候选的语义相似句子对;
步骤S23:进行人工筛选并标注为正例样本或负例样本。
其中,所述步骤S3包括:
步骤S31:构建字符映射转换表,建立每个单词或标点符号与数字ID的对应关系;
步骤S32:利用映射转换表将输入的字符转化为对应的数字ID;
步骤S33:利用数字ID得到每个单词的词向量,将两个句子以二维张量表示;
步骤S34:使用一个共享权重的双向LSTM对两个句子分别进行编码,利用上下文信息将两个句子映射到相同向量空间,从而得到更准确的词向量表示;
步骤S35:利用精确匹配矩阵、原始词向量以及编码之后的词向量构建句子对的匹配矩阵;
步骤S36:利用双向LSTM对两对匹配特征不同位置的特征结合上下文进行编码,然后利用最大池化和注意力加权池化对特征进行融合;
步骤S37:利用多层感知机MLP对特征进一步编码整合,输出最终的语义匹配结果。
其中,所述步骤S35包括:
步骤S351:使用两个语句各个位置词向量对原始词向量匹配矩阵与编码后的词向量匹配矩阵进行点乘运算,以衡量语义相似;
步骤S352:利用1x1卷积运算将三个匹配矩阵作为三个输入通道对特征进行整合,通过多个视角得到最终的匹配矩阵;
步骤S353:将匹配矩阵的值作为表示词重要性的权重,利用基于注意力机制的软对齐方法,将两个句子分别表示为与另一个句子等长的二维张量;
步骤S354:分别对得到的两对等长二维张量通过向量减法和按元素相乘提取匹配特征。
其中,所述步骤S4包括:
步骤S41:将步骤S2中,在构建语义匹配模型训练数据集所标注的数据集随机打乱,并划分为训练集、验证集及测试集三部分;
步骤S42:使用训练集对匹配模型进行训练;
步骤S43:利用验证集对模型的超参数进行调整;
步骤S44:利用测试集对模型效果进行测试。
其中,所述步骤S43中,超参数包括epoch、batch size、学习率、隐藏层维度及dropout系数。
本发明另外提供了一种面向英文写作辅助的语义匹配装置,包括:
例句语料库构建单元,利用爬虫相关技术,对英文写作网站数据进行爬取,并对爬取内容进行预处理,构建例句语料库;
语义匹配模型构建单元,用于构建多视角的注意力文本语义匹配模型;
语义匹配模型训练单元,用于使用标注的语义匹配数据集对语义匹配模型进行训练及验证。
其中,所述例句语料库构建单元包括:
爬虫单元,用于从互联网英文写作网站上爬取例句,将爬取结果保存到例句语料库中;
语料库数据处理单元,用于对爬取的文本进行预处理,去除包括乱码在内的内容。
其中,所述语义匹配模型构建单元包括:
单词映射转换表构建单元,用于将例句语料库中单词及标点符号映射为唯一的数字ID,以输入到下层文本匹配模型中;
输入层构建单元,用于获取输入数据,分别获取正例样本和负例样本;
词嵌入层构建单元,用于将数字ID映射为词向量的形式,作为后层网络计算的输入;
编码层构建单元,用于对词向量利用上下文进行编码,从而得到上下文相关的词向量表示;
注意力交互层构建单元,用于构建匹配矩阵,并利用注意力机制,将精确匹配矩阵、原始词向量匹配矩阵、上下文编码词向量匹配矩阵结合,共同提取语句对的匹配特征;
特征融合层构建单元,用于将提取的词级别匹配特征进一步编码整合,并选取最有效特征进行拼接;
输出层构建单元,用于利用匹配特征输入文本语义相似度,区分两个文本是否匹配;
所述语义匹配模型训练单元包括,
损失函数构建单元,用于计算模型输出结果与标签的差异,生成损失用于模型训练;
优化器构建单元,用于利用梯度下降算法对模型参数进行调整,减小模型输出与实际标签的差异。
本发明提供的面向英文写作辅助的语义匹配方法及装置,在几个公开语义匹配数据集上均取得显著效果,能够提取更丰富交互匹配信息,更好的捕捉句子对之间的联系与区别,更好地得到全局匹配信息,在文本匹配相关领域有很大的应用前景。
附图说明
图1为本发明提供的面向英文写作辅助的语义匹配方法流程图。
图2为本发明提供的多视角注意力机制的语义匹配模型结构图。
图3为本发明使用的注意力加权池化方法结构图。
具体实施方式
为了对本发明的技术方案及有益效果有更进一步的了解,下面结合附图详细说明本发明的技术方案及其产生的有益效果。
基于已有技术存在的不足,本发明的技术任务是提供一种面向写作辅助的文本匹配方法及装置,来对用户输入与例句语料库中例句进行匹配,推荐相似语句,提高用户写作水平。
图1为本发明提供的面向英文写作辅助的语义匹配方法流程图,如图1所示,本发明涉及的主要步骤有:
一、构建例句语料库
从英文写作网站爬取语料,并对语料进行预处理。
具体步骤如下:
目前,英文写作网站较多,首先利用Beautiful Soup库对英文写作网站数据进行爬取解析,并将内容按文章的形式进行存储,构建语料库。
对语料库内容进行一些基本的预处理,如删除可能存在的乱码和一些与任务无关的特殊符号,每个词之间用空格分开,并对保留标点符号,以语句的形式进行保存构建例句语料库。
二、构建语义匹配模型训练数据集
对构建的例句语料库中语料进行部分标注,用于之后的模型训练及验证。为了提高标注效率,首先利用加权的词向量作为无监督的句向量表示,利用余弦距离得到一些候选的语义相似句子对,然后再进行人工筛选并标注为正例样本或负例样本。其中,正例样本和负例样本均包含三部分,分别为句子一,句子二和相似标签(0或1)。
正例形式化为(sentence1,sentence2,1)。其中,sentence1表示第一个句子,sentence2表示第二个句子,1是标签表示这两个句子语义相似。
负例形式化为(sentence1,sentence2,0)。0是标签表示两个句子语义不相似。
三、构建多视角注意力机制的语义匹配模型
图2为本发明提供的多视角注意力机制的语义匹配模型结构图,如图2所示,端到端的语义匹配模型由词嵌入层、编码层、注意力交互层、特征融合层及输出层五部分构成。模型构建的具体步骤如下:
1、首先构建字符映射转换表,建立每个单词或标点符号与数字ID的对应关系。
2、模型的输入层包含两个输入p和q,分别代表一个句子,单词之间以空格分隔,输入的字符利用映射转换表转化为对应的数字ID。
3、词嵌入层利用数字ID得到每个单词的词向量,两个句子以p∈Rm×V和q∈Rn×V的二维张量表示。其中m为句子一的长度,即包含的单词个数,n为句子二的长度,两者不一定相同,但通常相差不大。V表示词向量的维度。
4、编码层使用一个共享权重的双向LSTM对两个句子分别进行编码,利用上下文信息将两个句子映射到相同向量空间,从而得到更准确的词向量表示,具体的公式如下:
其中,i,j表示词在句子中的相对位置或称为时间步(time-step),双向LSTM分别从左往右和从右往左对每个位置进行编码,[;]表示编码之后将两个方向的向量拼接到一起,表示前向LSTM对输入p的时间步i编码后的向量,/>表示后向LSTM对输入p的时间步i编码后的向量,/>表示将前向及后向拼接得到的时间步i最终向量表示。/>表示对输入q采取的同样操作。
5、注意力交互层分别利用精确匹配信号、原始词向量以及编码之后的词向量构建句子对的匹配矩阵。其中,精确匹配信号是指两个语句中各个是否存在同样的词,相同则为1,不同则为0;原始词向量匹配矩阵与编码后的词向量匹配矩阵均使用两个语句各个位置词向量进行点乘运算,用来衡量语义相似。之后,利用1x1卷积运算将三个匹配矩阵作为三个输入通道对特征进行整合,相当于对每种类型的词匹配信息进行加权,通过多个视角得到最终的匹配矩阵。将匹配矩阵的值作为表示词重要性的权重,利用基于注意力机制的软对齐方法,将两个句子分别表示为与另一个句子等长的二维张量,即利用q通过注意力加权得到利用p通过注意力加权得到/>然后分别对得到的两对等长二维张量通过向量减法和按元素相乘提取匹配特征。具体公式如下:
其中,公式1表示向量点乘生成注意力权重。
公式2,3表示利用基于注意力机制的软对齐方法,将两个句子分别表示为与另一个句子等长的二维张量。
公式4,5表示对得到的两对等长二维张量通过向量减法和按元素相乘提取匹配特征。
其中,e表示对应位置的注意力权重,利用softmax函数对权重进行归一化,变为概率形式。和/>表示基于注意力机制生成的软对齐向量,mp,mq表示提取的匹配特征,⊙表示Element-Wise Multiplication运算。
6、特征融合层首先利用双向LSTM对两对匹配特征不同位置的特征结合上下文进行编码分别得到vp和vq,然后利用最大池化和注意力加权池化对特征进行融合(图3为本发明使用的注意力加权池化方法结构图),将两部分匹配特征按相同维度拼接合并到一起。
如下公式表示利用最大池化提取特征
注意力加权池化的计算过程如下:
其中,W为可学习参数,
对于输入q,采用相同的注意力加权池化得到vq,attn。
下式表示匹配特征拼接过程。
v=[vp,max,;vp,attn;vq,max;vq,attn]
7、最后输出层利用多层感知机MLP对特征进一步编码整合,输出最s终的语义匹配结果。
四、训练语义匹配模型
将步骤二中标注的数据集随机打乱,并按照8:1:1的比例划分为训练集、验证集及测试集三部分。
使用Adam算法作为模型优化器,使用训练集对匹配模型进行训练。
利用验证集对模型的超参数进行调整,使用验证集超参数是指在模型训练开始前需要人工设定的一些参数,这些参数不能通过训练进行优化。主要超参数包括epoch、batchsize、学习率、隐藏层维度、dropout系数等。
最后,挑选在验证集取得最优效果的模型在测试集测试效果,以测试模型效果。
其中,模型在训练集上进行训练学习时采用交叉熵损失函数,公式如下:
其中,pi,k表示模型对于第i个样本的第k个类别的预测输出,yi,k表示第i个样本的第k个类别的真实标签。
在Quora和SNLI两个公开文本语义匹配数据集上进行对比实验,验证本文提出的方法的有效性。实验指标均采用准确率。
在Quora数据集的对比实验结果如下表所示,最后一行为本文提出方法的测试结果。
在SNLI数据集的对比实验结果如下表所示,最后一行为本文提出方法的测试结果。
本发明的有益效果如下:
1、为了提高用户英文写作水平,为用户推荐相似例句,本发明采用多视角的注意力语义匹配模型对句子对关系进行建模。通过多视角机制和注意力提取更丰富的交互匹配信息,本发明所提出的模型在几个公开语义匹配数据集上均取得显著效果,在文本匹配相关领域有很大的应用前景。
2、本发明使用多视角机制,能够提取更丰富交互匹配信息。
3、本发明能够对语义特征进行有效提取,使用注意力机制重点关注文本中的重要语义特征,更好的捕捉句子对之间的联系与区别。
4、本发明使用注意力加权池化的方法对匹配特征进行整合,重点关注更重要语义特征,更好地得到全局匹配信息。
虽然本发明已利用上述较佳实施例进行说明,然其并非用以限定本发明的保护范围,任何本领域技术人员在不脱离本发明的精神和范围之内,相对上述实施例进行各种变动与修改仍属本发明所保护的范围,因此本发明的保护范围以权利要求书所界定的为准。
Claims (7)
1.一种面向英文写作辅助的语义匹配方法,其特征在于,包括如下步骤:
步骤S1:构建例句语料库;
步骤S2:构建语义匹配模型训练数据集;
步骤S3:构建多视角注意力机制的语义匹配模型;
步骤S4:训练语义匹配模型;
所述步骤S3包括:
步骤S31:构建字符映射转换表,建立每个单词或标点符号与数字ID的对应关系;
步骤S32:利用映射转换表将输入的字符转化为对应的数字ID;
步骤S33:利用数字ID得到每个单词的词向量,将两个句子以二维张量表示;
步骤S34:使用一个共享权重的双向LSTM对两个句子分别进行编码,利用上下文信息将两个句子映射到相同向量空间,从而得到更准确的词向量表示;
步骤S35:利用精确匹配信号、原始词向量以及编码之后的词向量构建句子对的匹配矩阵;
原始词向量匹配矩阵与编码后的词向量匹配矩阵均使用两个语句各个位置词向量进行点乘运算,用来衡量语义相似;之后,利用1x1卷积运算将三个匹配矩阵作为三个输入通道对特征进行整合,相当于对每种类型的词匹配信息进行加权,通过多个视角得到最终的匹配矩阵;将匹配矩阵的值作为表示词重要性的权重,利用基于注意力机制的软对齐方法,将两个句子分别表示为与另一个句子等长的二维张量,即利用q通过注意力加权得到利用p通过注意力加权得到/>然后分别对得到的两对等长二维张量通过向量减法和按元素相乘提取匹配特征;具体公式如下:
其中,公式(1)表示向量点乘生成注意力权重;
公式(2),(3)表示利用基于注意力机制的软对齐方法,将两个句子分别表示为与另一个句子等长的二维张量;
公式(4),(5)表示对得到的两对等长二维张量通过向量减法和按元素相乘提取匹配特征;
其中,e表示对应位置的注意力权重,利用softmax函数对权重进行归一化,变为概率形式;和/>表示基于注意力机制生成的软对齐向量,mp,mq表示提取的匹配特征,⊙表示Element-Wise Multiplication运算;/>表示将前向及后向拼接得到的时间步i最终向量表示;/>表示对输入q采取的同样操作;
步骤S36:利用双向LSTM对两对匹配特征不同位置的特征结合上下文进行编码分别得到vp和vq,然后利用最大池化和注意力加权池化对特征进行融合;将两部分匹配特征按相同维度拼接合并到一起;
如下公式表示利用最大池化提取特征:
注意力加权池化的计算过程如下:
其中,W为可学习参数,
对于输入q,采用相同的注意力加权池化得到vq,attn;
下式表示匹配特征拼接过程:
v=[vp,max,;vp,attn;vq,max;vq,attn] (9)
步骤S37:利用多层感知机MLP对特征进一步编码整合,输出最终的语义匹配结果。
2.如权利要求1所述的面向英文写作辅助的语义匹配方法,其特征在于,所述步骤S1包括:
步骤S11:对英文写作网站数据进行爬取解析,并将内容按文章的形式进行存储,构建语料库;
步骤S12:对语料库内容进行一些基本的预处理,以语句的形式进行保存构建例句语料库。
3.如权利要求1所述的面向英文写作辅助的语义匹配方法,其特征在于,所述步骤S2包括:
步骤S21:对构建的例句语料库中语料进行部分标注;
步骤S22:利用加权的词向量作为无监督的句向量表示,利用余弦距离得到一些候选的语义相似句子对;
步骤S23:进行人工筛选并标注为正例样本或负例样本。
4.如权利要求1所述的面向英文写作辅助的语义匹配方法,其特征在于,所述步骤S4包括:
步骤S41:将步骤S2中,在构建语义匹配模型训练数据集所标注的数据集随机打乱,并划分为训练集、验证集及测试集三部分;
步骤S42:使用训练集对匹配模型进行训练;
步骤S43:利用验证集对模型的超参数进行调整;
步骤S44:利用测试集对模型效果进行测试。
5.如权利要求4所述的面向英文写作辅助的语义匹配方法,其特征在于,所述步骤S43中,超参数包括epoch、batch size、学习率、隐藏层维度及dropout系数。
6.一种面向英文写作辅助的语义匹配装置,其特征在于,包括:
例句语料库构建单元,利用爬虫相关技术,对英文写作网站数据进行爬取,并对爬取内容进行预处理,构建例句语料库;
语义匹配模型构建单元,用于构建多视角的注意力文本语义匹配模型;
语义匹配模型训练单元,用于使用标注的语义匹配数据集对语义匹配模型进行训练及验证;
所述语义匹配模型构建单元包括:
单词映射转换表构建单元,用于将例句语料库中单词及标点符号映射为唯一的数字ID,以输入到下层文本匹配模型中;
输入层构建单元,用于获取输入数据,分别获取正例样本和负例样本;
词嵌入层构建单元,用于将数字ID映射为词向量的形式,作为后层网络计算的输入;
编码层构建单元,用于对词向量利用上下文进行编码,从而得到上下文相关的词向量表示;
注意力交互层构建单元,用于构建匹配矩阵,并利用注意力机制,将精确匹配信号、原始词向量匹配矩阵、上下文编码词向量匹配矩阵结合,共同提取语句对的匹配特征;
原始词向量匹配矩阵与编码后的词向量匹配矩阵均使用两个语句各个位置词向量进行点乘运算,用来衡量语义相似;之后,利用1x1卷积运算将三个匹配矩阵作为三个输入通道对特征进行整合,相当于对每种类型的词匹配信息进行加权,通过多个视角得到最终的匹配矩阵;将匹配矩阵的值作为表示词重要性的权重,利用基于注意力机制的软对齐方法,将两个句子分别表示为与另一个句子等长的二维张量,即利用q通过注意力加权得到利用p通过注意力加权得到/>然后分别对得到的两对等长二维张量通过向量减法和按元素相乘提取匹配特征;具体公式如下:
其中,公式(1)表示向量点乘生成注意力权重;
公式(2),(3)表示利用基于注意力机制的软对齐方法,将两个句子分别表示为与另一个句子等长的二维张量;
公式(4),(5)表示对得到的两对等长二维张量通过向量减法和按元素相乘提取匹配特征;
其中,e表示对应位置的注意力权重,利用softmax函数对权重进行归一化,变为概率形式;和/>表示基于注意力机制生成的软对齐向量,mp,mq表示提取的匹配特征,⊙表示Element-Wise Multiplication运算;/>表示将前向及后向拼接得到的时间步i最终向量表示;/>表示对输入q采取的同样操作;
特征融合层构建单元,用于将提取的词级别匹配特征进一步编码整合,并选取最有效特征进行拼接;
特征融合层首先利用双向LSTM对两对匹配特征不同位置的特征结合上下文进行编码分别得到vp和vq,然后利用最大池化和注意力加权池化对特征进行融合,将两部分匹配特征按相同维度拼接合并到一起;
如下公式表示利用最大池化提取特征:
注意力加权池化的计算过程如下:
其中,W为可学习参数,
对于输入q,采用相同的注意力加权池化得到vq,attn;
下式表示匹配特征拼接过程:
v=[vp,max,;vp,attn;vq,max;vq,attn] (9)
输出层构建单元,用于利用匹配特征输入文本语义相似度,区分两个文本是否匹配;
所述语义匹配模型训练单元包括,
损失函数构建单元,用于计算模型输出结果与标签的差异,生成损失用于模型训练;
优化器构建单元,用于利用梯度下降算法对模型参数进行调整,减小模型输出与实际标签的差异。
7.如权利要求6所述的面向英文写作辅助的语义匹配装置,其特征在于,所述例句语料库构建单元包括:
爬虫单元,用于从互联网英文写作网站上爬取例句,将爬取结果保存到例句语料库中;
语料库数据处理单元,用于对爬取的文本进行预处理,去除包括乱码在内的内容。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911063163.3A CN112749566B (zh) | 2019-10-31 | 2019-10-31 | 一种面向英文写作辅助的语义匹配方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911063163.3A CN112749566B (zh) | 2019-10-31 | 2019-10-31 | 一种面向英文写作辅助的语义匹配方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112749566A CN112749566A (zh) | 2021-05-04 |
CN112749566B true CN112749566B (zh) | 2024-05-03 |
Family
ID=75644956
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911063163.3A Active CN112749566B (zh) | 2019-10-31 | 2019-10-31 | 一种面向英文写作辅助的语义匹配方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112749566B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113515930B (zh) * | 2021-05-14 | 2023-05-30 | 北京邮电大学 | 一种融合语义信息的异构设备本体匹配方法 |
CN116629211B (zh) * | 2023-02-25 | 2023-10-27 | 浙江研几网络科技股份有限公司 | 基于人工智能的写作方法及系统 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106055652A (zh) * | 2016-06-01 | 2016-10-26 | 兰雨晴 | 一种基于模式和实例的数据库匹配方法及系统 |
CN108446271A (zh) * | 2018-03-07 | 2018-08-24 | 中山大学 | 基于汉字部件特征的卷积神经网络的文本情感分析方法 |
CN108829719A (zh) * | 2018-05-07 | 2018-11-16 | 中国科学院合肥物质科学研究院 | 一种非事实类问答答案选择方法及系统 |
CN109214001A (zh) * | 2018-08-23 | 2019-01-15 | 桂林电子科技大学 | 一种中文语义匹配系统及方法 |
CN109299262A (zh) * | 2018-10-09 | 2019-02-01 | 中山大学 | 一种融合多粒度信息的文本蕴含关系识别方法 |
CN109858032A (zh) * | 2019-02-14 | 2019-06-07 | 程淑玉 | 融合Attention机制的多粒度句子交互自然语言推理模型 |
CN109902293A (zh) * | 2019-01-30 | 2019-06-18 | 华南理工大学 | 一种基于局部与全局互注意力机制的文本分类方法 |
CN110287298A (zh) * | 2019-05-30 | 2019-09-27 | 南京邮电大学 | 一种基于问句主题的自动问答答案选择方法 |
CN110298037A (zh) * | 2019-06-13 | 2019-10-01 | 同济大学 | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 |
CN110309287A (zh) * | 2019-07-08 | 2019-10-08 | 北京邮电大学 | 建模对话轮次信息的检索式闲聊对话打分方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10268646B2 (en) * | 2017-06-06 | 2019-04-23 | Facebook, Inc. | Tensor-based deep relevance model for search on online social networks |
-
2019
- 2019-10-31 CN CN201911063163.3A patent/CN112749566B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106055652A (zh) * | 2016-06-01 | 2016-10-26 | 兰雨晴 | 一种基于模式和实例的数据库匹配方法及系统 |
CN108446271A (zh) * | 2018-03-07 | 2018-08-24 | 中山大学 | 基于汉字部件特征的卷积神经网络的文本情感分析方法 |
CN108829719A (zh) * | 2018-05-07 | 2018-11-16 | 中国科学院合肥物质科学研究院 | 一种非事实类问答答案选择方法及系统 |
CN109214001A (zh) * | 2018-08-23 | 2019-01-15 | 桂林电子科技大学 | 一种中文语义匹配系统及方法 |
CN109299262A (zh) * | 2018-10-09 | 2019-02-01 | 中山大学 | 一种融合多粒度信息的文本蕴含关系识别方法 |
CN109902293A (zh) * | 2019-01-30 | 2019-06-18 | 华南理工大学 | 一种基于局部与全局互注意力机制的文本分类方法 |
CN109858032A (zh) * | 2019-02-14 | 2019-06-07 | 程淑玉 | 融合Attention机制的多粒度句子交互自然语言推理模型 |
CN110287298A (zh) * | 2019-05-30 | 2019-09-27 | 南京邮电大学 | 一种基于问句主题的自动问答答案选择方法 |
CN110298037A (zh) * | 2019-06-13 | 2019-10-01 | 同济大学 | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 |
CN110309287A (zh) * | 2019-07-08 | 2019-10-08 | 北京邮电大学 | 建模对话轮次信息的检索式闲聊对话打分方法 |
Non-Patent Citations (4)
Title |
---|
Semantic sentence matching with densely-connected recurrent and co-attentive information;Seonhoon Kim 等;https://arxiv.org/abs/1805.11360;1-11 * |
Zhaopeng Lian ; Yuqing Lan.Multi-layer Attention Neural Network for Sentence Semantic Matching.ACAI '19: Proceedings of the 2019 2nd International Conference on Algorithms, Computing and Artificial Intelligence.2020,421–426. * |
基于深度神经网络的英文文本蕴含识别研究;韩松伯;中国优秀硕士学位论文全文数据库 信息科技辑;I138-579 * |
面向移动端的用户检索实体抽取系统设计与实现;曹圣明;中国优秀硕士学位论文全文数据库 信息科技辑;I138-1911 * |
Also Published As
Publication number | Publication date |
---|---|
CN112749566A (zh) | 2021-05-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109271529B (zh) | 西里尔蒙古文和传统蒙古文双文种知识图谱构建方法 | |
CN106295796B (zh) | 基于深度学习的实体链接方法 | |
CN109284506A (zh) | 一种基于注意力卷积神经网络的用户评论情感分析系统及方法 | |
CN111160031A (zh) | 一种基于词缀感知的社交媒体命名实体识别方法 | |
CN111524593B (zh) | 基于上下文语言模型和知识嵌入的医疗问答方法及系统 | |
CN112231472B (zh) | 融入领域术语词典的司法舆情敏感信息识别方法 | |
CN111831789A (zh) | 一种基于多层语义特征提取结构的问答文本匹配方法 | |
CN112100401B (zh) | 面向科技服务的知识图谱构建方法、装置、设备及存储介质 | |
CN112016002A (zh) | 融合评论文本层级注意力和时间因素的混合推荐方法 | |
CN113806554B (zh) | 面向海量会议文本的知识图谱构建方法 | |
CN113157885B (zh) | 一种面向人工智能领域知识的高效智能问答系统 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN111813874B (zh) | 太赫兹知识图谱构建方法及系统 | |
CN105868187B (zh) | 多译本平行语料库的构建方法 | |
CN111582506A (zh) | 基于全局和局部标记关系的偏多标记学习方法 | |
CN112749566B (zh) | 一种面向英文写作辅助的语义匹配方法及装置 | |
CN114647715A (zh) | 一种基于预训练语言模型的实体识别方法 | |
CN115390806A (zh) | 基于双模态联合建模的软件设计模式推荐方法 | |
CN115408488A (zh) | 用于小说场景文本的分割方法及系统 | |
Qiu et al. | A question answering system based on mineral exploration ontology generation: A deep learning methodology | |
CN114239730A (zh) | 一种基于近邻排序关系的跨模态检索方法 | |
CN114048354A (zh) | 基于多元表征和度量学习的试题检索方法、装置及介质 | |
CN115481313A (zh) | 一种基于文本语义挖掘的新闻推荐方法 | |
CN112199954B (zh) | 基于语音语义的疾病实体匹配方法、装置及计算机设备 | |
CN113378571A (zh) | 一种文本数据的实体数据关系抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |