CN113705242A - 面向教育咨询服务的智能语义匹配方法和装置 - Google Patents
面向教育咨询服务的智能语义匹配方法和装置 Download PDFInfo
- Publication number
- CN113705242A CN113705242A CN202110993088.1A CN202110993088A CN113705242A CN 113705242 A CN113705242 A CN 113705242A CN 202110993088 A CN202110993088 A CN 202110993088A CN 113705242 A CN113705242 A CN 113705242A
- Authority
- CN
- China
- Prior art keywords
- word
- semantic
- sentence
- granularity
- representation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000012549 training Methods 0.000 claims abstract description 86
- 230000002776 aggregation Effects 0.000 claims abstract description 20
- 238000004220 aggregation Methods 0.000 claims abstract description 20
- 238000010276 construction Methods 0.000 claims abstract description 17
- 238000009411 base construction Methods 0.000 claims abstract description 6
- 230000006870 function Effects 0.000 claims description 48
- 238000013507 mapping Methods 0.000 claims description 37
- 239000013598 vector Substances 0.000 claims description 37
- 238000012545 processing Methods 0.000 claims description 36
- 230000011218 segmentation Effects 0.000 claims description 27
- 239000011159 matrix material Substances 0.000 claims description 22
- 238000009223 counseling Methods 0.000 claims description 21
- 238000006243 chemical reaction Methods 0.000 claims description 18
- 230000007246 mechanism Effects 0.000 claims description 18
- 238000000605 extraction Methods 0.000 claims description 15
- 238000011176 pooling Methods 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 13
- 230000004913 activation Effects 0.000 claims description 12
- 239000000203 mixture Substances 0.000 claims description 12
- 238000007781 pre-processing Methods 0.000 claims description 12
- 238000005457 optimization Methods 0.000 claims description 7
- 238000007667 floating Methods 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 230000009977 dual effect Effects 0.000 claims description 4
- 238000005259 measurement Methods 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 125000004122 cyclic group Chemical group 0.000 claims description 3
- 150000001875 compounds Chemical class 0.000 claims description 2
- 230000008447 perception Effects 0.000 abstract description 6
- 238000013473 artificial intelligence Methods 0.000 abstract description 4
- 238000003058 natural language processing Methods 0.000 abstract description 4
- 230000004931 aggregating effect Effects 0.000 abstract description 2
- 235000019580 granularity Nutrition 0.000 description 169
- 238000010586 diagram Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
- G06Q50/205—Education administration or guidance
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Educational Technology (AREA)
- Tourism & Hospitality (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Educational Administration (AREA)
- Computational Linguistics (AREA)
- Strategic Management (AREA)
- General Engineering & Computer Science (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- General Business, Economics & Management (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种面向教育咨询服务的智能语义匹配方法和装置,属于人工智能、自然语言处理技术领域。本发明要解决的技术问题为判断句子对的语义是否一致,采用的技术方案为:通过构建并训练由多粒度嵌入模块、双注意力语义匹配模块、特征聚合模块及标签预测模块构成的语义匹配模型,通过对句子的字词粒度进行自注意力操作以获取关键语义特征表示,并进行句子间的互注意力操作,以获取句子对相互感知的语义对齐特征表示并编码,随后度量句子对相似性,并与感知上下文的语义对齐特征表示聚合,以判断句子对的语义是否一致。该装置包括句子对语义匹配知识库构建单元、训练数据集生成单元、句子对语义匹配模型构建单元及句子对语义匹配模型训练单元。
Description
技术领域
本发明涉及人工智能、自然语言处理技术领域,具体涉及一种面向教育咨询服务的智能语义匹配方法和装置。
背景技术
句子对语义匹配任务旨在衡量两个句子所蕴含的语义意图是否一致,是许多自然语言处理任务的重要基础。随着相关政策的调整,教育咨询的需求不断增长。教育咨询服务正以科技形态出现在人们的生活中,以大数据、云计算以及人工智能为代表的高新科技,将从根本上改变传统教育咨询的运作方式。对于教育咨询服务,句子对语义匹配就是一项至关重要的工作。句子对语义匹配可用以衡量用户咨询的问题和教育咨询服务后台数据库中所包含标准问题的语义是否一致,从而选择标准问题的答案答复用户的咨询。句子对语义匹配任务是一项基础性且极具挑战性的工作,该工作所面临的许多问题目前还没有完善的解决方案,即使是针对特定领域的句子对语义匹配工作也有许多亟待解决的问题。
目前句子对语义匹配任务的解决方案大致可以分为两类,一类是基于表示的方法,该类方法通过对两个句子分别进行编码来获得两个句子各自的语义特征表示,随后通过相似度函数度量两个句子的语义相似性;另一类方法是基于交互的方法,这类方法首先对两个句子进行编码操作,随后通过注意力机制来实现两个句子之间的特征交互操作,最后将两个句子的特征表示传入相似度函数进行计算。在句子对语义匹配任务中,基于表示的方法有实现方式简单高效且训练速度快的优点,但是缺乏一个句子对另外一个句子的语义特征感知,从而使得提取到的语义特征较为单一。相较于基于表示的语义匹配方法,基于交互的句子对语义匹配方法,在获得自身语义特征的同时,还可以从自身语义特征出发去感知另外一个句子的语义特征,从而可以得到更加全面丰富的语义特征表示。具体到中文的句子对语义匹配任务,不少工作考虑了中文中单个字可以表达一定语义的特点,故而有些工作考虑将字词粒度分别进行编码以提取不同粒度的语义信息,同时进行一些交互操作,但是许多工作忽视了对句子对进行字词粒度的自注意力机制以提取关键的语义特征,同时也忽略了将得到的关键语义特征表示进行句子对之间的语义感知与对齐。
针对现有的句子对语义匹配方法存在的不足,本发明提出了一种面向教育咨询服务的智能语义匹配方法和装置。该方法首先对句子进行多粒度嵌入处理,捕获更加全面细致的语义特征信息;实现一种双注意力语义匹配模块,对句子的字词粒度分别进行编码,随后通过对两个句子的字词粒度进行自注意力操作以提取其所包含的关键语义特征表示,并对两个句子的同一粒度进行互注意力机制以获取句子对的语义对齐特征表示,并对提取到的语义对齐特征表示进行编码以感知上下文语义信息,从而可以提取到感知上下文的语义对齐特征表示;实现一种特征聚合模块,度量两个句子的相似性,并与感知上下文的语义对齐特征表示进行连接,随后进行一维最大池化操作;实现标签预测模块,以达到判断句子对所蕴含的语义是否一致的目的。
发明内容
本发明的技术任务是提供面向教育咨询服务的智能语义匹配方法和装置,通过自注意力机制捕获关键语义特征表示且通过互注意力机制捕获语义对齐特征表示,随后进行特征聚合,以达到判断句子对所蕴含的语义意图是否一致的目的。
本发明的技术任务是按以下方式实现的,面向教育咨询服务的智能语义匹配方法和装置,属于人工智能、自然语言处理技术领域。本发明要解决的技术问题为判断句子对的语义是否一致,采用的技术方案为:通过构建并训练由多粒度嵌入模块、双注意力语义匹配模块、特征聚合模块及标签预测模块构成的语义匹配模型,通过对句子的字词粒度进行自注意力操作以获取关键语义特征表示,并进行句子间的互注意力操作,以获取句子对相互感知的语义对齐特征表示并编码,随后度量句子对相似性,并与感知上下文的语义对齐特征表示聚合,以判断句子对的语义是否一致;具体如下:
多粒度嵌入模块对输入的句子以字粒度和词粒度分别进行嵌入操作,得到句子的字词嵌入表示;
双注意力语义匹配模块对句子的字词嵌入表示依次进行自注意力与互注意力操作,得到句子的语义特征表示;
特征聚合模块对句子的语义特征表示与相关度量进行聚合并进行一维最大池化操作,得到句子对的语义匹配向量;
标签预测模块将句子对的语义匹配张量映射为指定区间上的一个浮点型数值,将其作为匹配值与预设的阈值进行比较,根据比较结果,判定句子对的语义意图是否一致。
作为优选,所述多粒度嵌入模块用于构建字词映射转换表、构建输入模块、构建字词向量映射层;
其中,构建字词映射转换表:映射规则为以数字1为起始,随后按照每个字或词被录入字词表的顺序依次递增排序,从而形成本发明所需的字词映射转换表;其中,字词表根据句子对语义匹配断字处理知识库和分词处理知识库来构建,该知识库通过对句子对语义匹配知识库的原始数据文本进行断字预处理和分词预处理操作而得;其后,再使用Word2Vec训练字词向量模型,得到各字词的字词向量矩阵;
构建输入模块:输入层包括四个输入,对于训练数据集中的每一个句子对或待预测的句子对,对其进行断字和分词预处理,分别获取sentence1_char、sentence2_char、sentence1_word和sentence2_word,其中后缀char、word分别表示对相应句子进行断字或分词处理而得,将其形式化为:(sentence1_char sentence2_char,sentence1_word,sentence2_word);对于输入句子中的每个字和词都按照字词映射转换表转化为相应的数字标识;
构建字词向量映射层:加载构建字词映射转换表步骤中训练所得的字词向量矩阵来初始化当前层的权重参数;针对输入句子sentence1_char、sentence2_char、sentence1_word和sentence2_word得到其相应句子向量sentence1_char_embed、sentence2_char_embed、sentence1_word_embed和sentence2_word_embed;句子对语义匹配知识库中每一个句子都可以通过字词向量映射的方式,将句子信息转化为向量形式。
更优地,所述双注意力语义匹配模块的构建过程具体如下:
字词粒度深层编码表示的提取:首先使用LSTM编码器对句子的字词嵌入表示进行编码操作以获取浅层编码表示,继而使用BiLSTM编码器对字词粒度浅层编码表示与字词嵌入表示的融合表示进行编码以获取深层编码表示;对于句子1,公式如下:
其中,(;)表示concatenate连接操作,L为句子的长度,Pi c和分别表示句子1在第i个位置处的字嵌入表示和字粒度深层编码表示,和分别表示句子1在第m个位置处的词嵌入表示和词粒度深层编码表示;对于句子2,公式如下:
其中,公式(3)和(4)的符号含义与公式(1)和(2)大致相同,区别在于,Q表示句子2,j表示句子2在字粒度下的第j个位置,n表示句子2在词粒度下的第n个位置,其余表示可以类比表示;
关键语义特征表示的提取:对经过循环神经网络编码后得到的句子对的字词粒度深层编码表示进行自注意力操作,即对句子1的字粒度和词粒度分别进行自注意力操作,得到句子1在字粒度级别下的关键语义特征表示与词粒度级别下的关键语义特征表示,可以以此类推句子2;对于句子1的字粒度和词粒度下的自注意力机制以及关键语义特征表示的提取,公式如下:
其中,tanh是一种激活函数,Cp1和Cp2表示句子1在字粒度级别下可训练的权重参数,Wp1和Wp2表示句子1在词粒度级别下可训练的权重参数,和分别表示句子1在字粒度和词粒度级别下的深层编码表示的集合,分别由公式(1)中的和公式(2)中的组成,pc'和pw'分别表示句子1在字粒度和词粒度级别下的注意力矩阵,Mpc和Mpw分别表示句子1在字粒度和词粒度级别下所包含的关键语义特征表示的集合,该关键语义特征的个数是一个超参数,同理可提取出句子2在字词粒度下所包含的关键语义特征表示,公式如下:
其中,Cq1和Cq2表示句子2在字粒度级别下可训练的权重参数,Wq1和Wq2表示句子2在词粒度级别下可训练的权重参数,和分别表示句子2在字粒度和词粒度级别下的深层编码表示的集合,分别由公式(3)中的和公式(4)中的组成,qc'和qw'分别表示句子2在字粒度和词粒度级别上的注意力矩阵,Mqc和Mqw分别表示句子2在字粒度和词粒度级别下所包含的关键语义特征表示的集合,该关键语义特征的个数是一个超参数;
语义对齐特征表示的提取:对得到的两个句子的字粒度关键语义特征表示和词粒度关键语义特征表示进行同一粒度的互注意力操作,即在字粒度下进行句子1和句子2的互注意力操作,得到字粒度级别下的句子1与句子2的语义对齐特征表示,在词粒度下进行句子1和句子2的互注意力操作,得到词粒度级别的句子1与句子2的语义对齐特征表示;对于字粒度级别下的句子对的互注意力机制,公式如下:
其中,exp是指数函数,H是关键语义特征表示的个数,和分别为字粒度级别下句子1第i个关键语义特征表示和句子2第j个关键语义特征表示,属于公式(6)、(10)集合中的元素,s1ij为在字粒度级别下句子1的第i个关键语义特征表示与句子2第j个关键语义特征表示的相似度权重,和Wc 2为可训练的权重参数,为句子1在字粒度级别下第i个位置处的字粒度语义对齐特征表示,是根据相似度权重对句子2中每个关键语义特征表示加权求和得到的,同理表示句子2在字粒度级别下第j个位置处的字粒度语义对齐特征表示;
对于词粒度级别的互注意力机制,公式如下:
其中各符号含义可以类比公式(13)-(15),此处只是将用于代表字的上标或下标c改为用于代表词的上标或下标w;和分别表示在词粒度级别下句子1第m个关键语义特征表示和语义对齐特征表示,和分别表示在词粒度级别下句子2第n个关键语义特征表示和语义对齐特征表示;
感知上下文的语义对齐特征表示的提取:为了更好地感知上下文语义信息,对于上述提取的语义对齐特征表示使用BiLSTM编码器进行编码以得到感知上下文的语义对齐特征表示,公式如下:
其中,和表示句子1在字粒度下提取的语义对齐特征表示和词粒度下提取的语义对齐特征表示的集合,分别由公式(14)中的和公式(17)中的组成,和表示句子2在字粒度下提取的语义对齐特征表示和词粒度下提取的语义对齐特征表示的集合,分别由公式(15)中的和公式(18)中的组成,和分别表示句子1字粒度和词粒度的感知上下文的语义对齐特征表示,和分别表示句子2字粒度和词粒度的感知上下文的语义对齐特征表示;
随后将同一个句子的字词粒度的感知上下文的语义对齐特征表示进行连接得到句子的语义特征表示,公式如下:
其中,(;)表示concatenate连接操作,和分别表示句子1字粒度和词粒度的感知上下文的语义对齐特征表示,分别由公式(19)和(20)计算所得,和分别表示句子2字粒度和词粒度的感知上下文的语义对齐特征表示,分别由公式(21)和(22)计算所得,表示将句子1的字粒度和词粒度的感知上下文的语义对齐特征表示进行连接后得到的语义特征表示,表示将句子2的字粒度和词粒度的感知上下文的语义对齐特征表示进行连接后得到的语义特征表示。
更优地,所述特征聚合模块的构建过程具体如下:
特征比对模块进一步处理双注意力语义匹配模块生成的语义特征表示,首先使用绝对值函数强调两个句子之间的绝对差异,同时使用哈达玛积来计算两个句子之间的相似程度,随后将句子对的绝对差异表示、相似程度表示和句子对的语义特征表示进行连接并将连接结果进行一维最大池化以得到句子对语义匹配张量;公式如下:
simpool=GlobalMaxPooling(sim) (28)
其中,(;)表示concatenate连接操作,和分别表示句子1和句子2的语义特征表示,abs为绝对值函数运算的结果,mul为哈达玛积运算的结果,随后将这两个结果与句子对的语义特征表示进行连接得到sim,最后对该结果sim进行一维最大池化操作得到句子对语义匹配张量simpool。
更优地,所述标签预测模块构建过程如下:
将句子对语义匹配张量作为输入,标签预测模块包含三层全连接网络;前两层是维度为600、激活函数为Relu函数的全连接网络,最后一层是维度为1、激活函数为Sigmoid函数的全连接网络;得到一个处于[0,1]之间的匹配度数值,记为ypred,最终通过与设定的阈值0.5进行比较,从而判断句子对的语义意图是否一致;即若ypred≥0.5时,预测该句子对的语义意图是一致的,否则,不一致;当句子对语义匹配模型尚未充分训练时,需要在根据语义匹配知识库而构建的训练数据集上进行训练,以优化模型参数;当模型训练完毕时,标签预测模块可预测目标句子对的语义意图是否一致。
更优地,所述句子对语义匹配知识库构建具体如下:
收集数据:收集教育咨询服务的常见问题句子,作为句子对语义匹配知识库的原始数据;
预处理原始数据:预处理用于构建句子对语义匹配知识库的原始数据,对其中的每个句子均进行断字操作、分词操作,得到句子对语义匹配断字处理知识库、分词处理知识库;
汇总子知识库:汇总句子对语义匹配断字处理知识库和句子对语义匹配分词处理知识库,构建句子对语义匹配知识库。
所述句子对语义匹配模型通过使用训练数据集进行训练而得到,训练数据集的构建过程如下:
构建训练正例:将句子对语义匹配知识库中两个句子语义一致的句子对构建为正例,形式化为:(sentence1_char,sentence2_char,sentence1_word,sentence2_word,1);其中,sentence1_char、sentence2_char分别指代句子对语义匹配断字处理知识库中的句子1、句子2,sentence1_word、sentence2_word分别指代句子对语义匹配分词处理知识库中的句子1、句子2,1表示这两个句子的语义相匹配,是正例;
构建训练负例:选中一个句子s1,再从句子对语义匹配知识库中随机选择一个与句子s1不匹配的句子s2,将s1与s2进行组合,构建负例,形式化为:(sentence1_char,sentence2_char,sentence1_word,sentence2_word,0);其中,sentence1_char、sentence1_word分别指代句子对语义匹配断字处理知识库和句子对语义匹配分词处理知识库中的句子1;sentence2_char、sentence2_word分别指代句子对语义匹配断字处理知识库和句子对语义匹配分词处理知识库中的句子2;0表示句子s1和句子s2的语义不匹配,是负例;
构建训练数据集:将经过构建训练正例和构建训练负例操作后所获得的全部的正例样本句子对和负例样本句子对进行组合,并打乱其顺序,构建最终的训练数据集;无论正例数据还是负例数据均包含了五个维度,即sentence1_char,sentence2_char,sentence1_word,sentence2_word,0或1;
所述句子对语义匹配模型构建完成后通过训练数据集进行句子对语义匹配模型的训练与优化,具体如下:
构建损失函数:由标签预测模块构建过程可知,ypred是经过句子对语义匹配模型处理后得到的匹配度计算数值,ytrue是两个句子语义是否匹配的真实标签,其取值仅限于0或1,采用交叉熵作为损失函数,公式如下:
优化训练模型:使用Adam优化函数;在训练数据集上,对句子对语义匹配模型进行优化训练。
一种面向教育咨询服务的智能语义匹配装置,该装置包括,
面向教育咨询服务的智能语义匹配装置主要包含4个单元,即句子对语义匹配知识库构建单元、训练数据集生成单元、句子对语义匹配模型构建单元、句子对语义匹配模型训练单元。每个单元的具体功能如下所述:
句子对语义匹配知识库构建单元,用于获取大量的句子对数据,随后对数据进行预处理,从而得到符合训练要求的句子对语义匹配知识库。训练数据集生成单元,对于句子对语义匹配知识库中的句子对,若其语义一致,则该句子对用于构建训练正例,反之,则用于构建训练负例;将大量的正例数据和负例数据进行混合,得到训练数据集。句子对语义匹配模型构建单元,用于构建字词映射转换表、输入模块、字词向量映射层、双注意力语义匹配模块、特征聚合模块和标签预测模块。句子对语义匹配模型训练单元,用于构建模型训练过程中所需要的损失函数与优化函数,并完成模型的训练。
一种存储介质,其中存储有多条指令,所述指令有处理器加载,执行上述的面向教育咨询服务的智能语义匹配方法的步骤。
一种电子设备,所述电子设备包括:
上述的存储介质;以及
处理器,用于执行所述存储介质中的指令。
本发明的面向教育咨询服务的智能语义匹配方法具有以下优点:
(一)本发明通过多粒度嵌入处理,提取句子中所包含的字粒度和词粒度的嵌入表示,从而可以得到更加全面细致的句子语义特征表示;
(二)本发明通过双注意力语义匹配模块,对两个句子的字词粒度嵌入表示进行自注意力操作,可以从中提取出句子中所包含的关键语义特征表示,提高句子语义特征表示的准确性;
(三)本发明通过双注意力语义匹配模块,对两个句子的关键语义特征表示进行语义对齐,得到字词粒度语义对齐特征表示,使两个句子的同一粒度之间可以相互感知,随后进行编码操作以感知上下文语义信息,得到感知上下文的语义对齐特征表示,达到改善句子对语义匹配效果的目的;
(四)本发明通过特征聚合模块,比较句子对的相似性并与感知上下文的语义对齐特征表示进行连接,随后进行一维最大池化操作,得到句子对的匹配向量;
(五)本发明通过综合运用多粒度嵌入处理、双注意力语义匹配、特征聚合,能够有效改善语义匹配的效果。
附图说明
下面结合附图对本发明进一步说明。
图1为面向教育咨询服务的智能语义匹配方法的流程图;
图2为构建句子对语义匹配知识库的流程图;
图3为构建训练数据集的流程图;
图4为构建句子对语义匹配模型的流程图;
图5为训练句子对语义匹配模型的流程图;
图6为面向教育咨询服务的智能语义匹配装置的结构示意图;
图7为构建双注意力语义匹配模块的结构示意图;
图8为面向教育咨询服务的智能语义匹配模型的框架示意图。
具体实施方式
参照说明书附图和具体实施例对本发明的面向教育咨询服务的智能语义匹配方法作以下详细地说明。
实施例1:
本发明的总体模型框架结构如图8所示。由图8可知,本发明的主要框架结构包含多粒度嵌入模块、双注意力语义匹配模块、特征聚合模块和标签预测模块。其中,多粒度嵌入模块对输入的句子以字粒度和词粒度进行嵌入操作,并将字词嵌入表示传递给模型的双注意力语义匹配模块。双注意力语义匹配模块首先进行两个句子字词粒度的自注意力操作以提取关键语义特征表示,随后进行两个句子之间同一粒度的互注意力操作以获取相互感知的语义对齐特征表示,随后通过循环神经网络进行编码以感知句子的上下文信息;具体来说,如图7所示,首先使用LSTM编码器对句子的字词嵌入表示进行编码操作以获取浅层编码表示,继而使用BiLSTM编码器对字词粒度浅层编码表示与字词嵌入表示的融合表示进行编码以获取深层编码表示,随后使用自注意力机制对字词粒度深层编码表示进行处理,以期提取句子中所包含的关键语义特征表示,随后对同一粒度的关键语义特征表示进行互注意力操作,以期得到两个句子相互感知的语义对齐特征表示,随后使用BiLSTM编码器对所获得的语义对齐特征表示进行编码,以期得到感知上下文的语义对齐特征表示,随后将同一个句子的字词粒度的感知上下文的语义对齐特征表示进行连接得到句子的语义特征表示,同时将其传递给特征聚合模块。特征聚合模块通过绝对值函数和哈达玛积对两个句子的语义特征表示进行相似性度量且与句子对的语义特征表示进行连接,随后进行一维最大池化操作,得到句子对语义匹配张量,同时将其传递给标签预测模块。标签预测模块使用多层的全连接层对语义匹配张量进行编码操作,以取得两个句子的匹配度。具体如下:
(1)多粒度嵌入模块对输入的句子以字粒度和词粒度分别进行嵌入操作,得到句子的字词嵌入表示;
(2)双注意力语义匹配模块对句子的字词嵌入表示依次进行自注意力与互注意力操作,得到句子的语义特征表示;
(3)特征聚合模块对句子的语义特征表示与相关度量进行聚合并进行一维最大池化操作,得到句子对的语义匹配向量;
(4)标签预测模块将句子对的语义匹配张量映射为指定区间上的一个浮点型数值,将其作为匹配值与预设的阈值进行比较,根据比较结果,判定句子对的语义意图是否一致。
实施例2:
如附图1所示,本发明的面向教育咨询服务的智能语义匹配方法,具体步骤如下:
S1、构建句子对语义匹配知识库,如附图2所示,具体步骤如下:
S101、收集数据:收集教育咨询的常见问题句子,作为句子对语义匹配知识库的原始数据。
举例说明:收集教育咨询服务中出现的问题,将其作为原始数据。句子对示例,表示如下:
句子1 | 如何提高英语成绩? |
句子2 | 怎么让英语成绩变好? |
S102、预处理原始数据:预处理用于构建句子对语义匹配知识库的原始数据,对原始数据的每个句子都进行断字和分词操作,得到句子对语义匹配断字处理知识库、分词处理知识库。
以S101中展示的句子1为例,对其进行断字处理操作后得到“如何提高英语成绩?”;使用Jieba分词工具对其进行分词操作处理后得到“如何提高英语成绩?”。
S103、汇总子知识库:汇总句子对语义匹配断字处理知识库和句子对语义匹配分词处理知识库,构建句子对语义匹配知识库。
将S102中获得的句子对语义匹配断字处理知识库和句子对语义匹配分词处理知识库整合到同一文件夹下,从而得到句子对语义匹配知识库。其流程如图2所示。
S2、构建句子对语义匹配模型的训练数据集:对于句子对语义匹配知识库中的句子对,若其语义一致,则该句子对用于构建训练正例,反之,则用于构建训练负例。将大量的正例数据和负例数据进行混合,得到训练数据集;如附图3所示,具体步骤如下:
S201、构建训练正例:将句子对语义匹配知识库中将两个句子语义一致的句子对构建为正例,形式化为:(sentence1_char,sentence2_char,sentence1_word,sentence2_word,1);
举例:对步骤S101中展示的句子1和句子2,经过步骤S102断字和分词操作处理后,构建的正例数据形式为:
(“如何提高英语成绩?”,“怎么让英语成绩变好?”,“如何提高英语成绩?”,“怎么让英语成绩变好?”,1)。
S202、构建训练负例:对于步骤S201所获得的每个正例句子对,选中其包含的某一个句子,随机选择与其不匹配的某个句子进行组合,将这两个语义不一致的句子作为句子对,构建为负例数据,形式化为:(sentence1_char,sentence2_char,sentence1_word,sentence2_word,0);
举例:由于负例的构建方法与正例的非常类似,故在此不再赘述。
S203、构建训练数据集:将经过步骤S201和步骤S202操作后所获得的全部的正例句子对数据和负例句子对数据合并在一起,并将顺序打乱,构建最终的训练数据集。无论正例数据还是负例数据,它们都包含了五个维度,即sentence1_char,sentence2_char,sentence1_word,sentence2_word,0或1。
S3、构建句子对语义匹配模型:主要操作为构建字词映射转换表、构建输入模块、构建字词向量映射层、构建双注意力语义匹配模块、构建特征聚合模块、构建标签预测模块。其中,构建字词映射转换表、构建输入模块、构建字词向量映射层对应图8中的多粒度嵌入模块,其余部分均与图8中的各个模块一一对应。具体步骤如下:
S301、构建字词映射转换表:字词表是通过步骤S102处理后得到的句子对语义匹配断字处理知识库和分词处理知识库来构建的。字词表构建完成后,表中每个字或词均被映射为唯一的数字标识,其映射规则为:以数字1为起始,随后按照每个字或词被录入字词表的顺序依次递增排序,从而形成本发明所需的字词映射转换表。使用Word2Vec训练字词向量模型,得到各字词的字词向量矩阵。
举例:以步骤S102处理后的内容,“如何提高英语成绩?”,“如何提高英语成绩?”构建字词表及字词映射转换表如下:
字词 | 如 | 何 | 提 | 高 | 英 | 语 | 成 | 绩 | ? | 如何 | 提高 |
映射 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 |
字词 | 英语 | 成绩 | |||||||||
映射 | 12 | 13 |
举例说明:在Keras中,训练字词向量模型的代码实现如下:
w2v_model=gensim.models.Word2Vec(w2v_corpus,size=EMB_DIM,window=5,min_count=1,sg=1,workers=4,seed=1234,iter=25)
embedding_matrix=numpy.zeros([len(tokenizer.word_index)+1,EMB_DIM])
tokenizer=Tokenizer(num_words=len(word_set))
for word,idx in tokenizer.word_index.items():
embedding_matrix[idx,:]=w2v_model.wv[word]
其中,w2v_corpus为句子对语义匹配知识库中的所有句子;EMB_DIM为嵌入向量维度,本模型设置EMB_DIM为300维,word_set为字词表;embedding_matrix为所得的字词向量矩阵。
S302、构建输入层:输入层包括四个输入,从输入层的训练数据集样例中分别获取sentence1_char、sentence2_char、sentence1_word和sentence2_word,将其形式化为:(sentence1_char,sentence2_char,sentence1_word,sentence2_word);对于输入句子中的每个字和词,本发明都按照在步骤S301中构建完成的字词映射转换表将其转化为相应的数字标识。
举例说明:使用步骤S201中展示的句子对作为样例,以此组成一条输入数据。其结果如下所示:
(“如何提高英语成绩?”,“怎么让英语成绩变好?”,“如何提高英语成绩?”,“怎么让英语成绩变好?”)
每条输入数据包含4个子句。根据步骤S301中的字词映射转换表,将其转换为数值表示。(假定出现在句子2中但没有出现在句子1中的映射关系为:“怎”:14,“么”:15,“让”:16,“变”:17,“好”:18,“怎么”:19)。输入数据的4个子句,合并表示结果如下:
(“1,2,3,4,5,6,7,8,9”,“14,15,16,5,6,7,8,17,18,9”,“10,11,12,13,9”,“19,16,12,13,17,18,9”)。
S303、构建字词向量映射层:通过加载构建步骤S301中训练所得的字词向量矩阵来初始化当前层的权重参数;针对输入句子sentence1_char、sentence2_char、sentence1_word和sentence2_word得到其相应句子向量sentence1_char_embed、sentence2_char_embed、sentence1_word_embed、sentence2_word_embed。句子对语义匹配知识库中每一个句子都可以通过字词向量映射的方式,将句子信息转化为向量形式。
举例说明:在Keras中,对于上面描述的代码实现如下所示:
embedding_layer=Embedding(embedding_matrix.shape[0],EMB_DIM,weights=[embedding_matrix],trainable=False)
其中,embedding_matrix是步骤S301中训练所得的字词向量矩阵,embedding_matrix.shape[0]是字词向量矩阵中字词表的大小,EMB_DIM是嵌入向量维度。
相应的句子sentence1_char、sentence2_char、sentence1_word和sentence2_word,经过Keras的Embedding层处理后得到相应的句子向量sentence1_char_embed、sentence2_char_embed、sentence1_word_embed、sentence2_word_embed。
S304、构建双注意力语义匹配模块:该结构如图7所示,具体步骤如下:
双注意力语义匹配模块的结构图如图7所示,该模块接收字词向量映射层输出的字词嵌入表示作为输入;首先使用LSTM编码器对句子的字词嵌入表示进行编码操作以获取浅层编码表示,继而使用BiLSTM编码器对字词粒度浅层编码表示与字词嵌入表示的融合表示进行编码以获取深层编码表示;随后使用自注意力机制对字词粒度深层编码表示进行处理,以期提取句子中所包含的关键语义特征表示;随后对同一粒度的关键语义特征表示进行互注意力操作,以期得到两个句子相互感知的语义对齐特征表示;随后使用BiLSTM编码器对所获得的语义对齐特征表示进行编码,以期得到感知上下文的语义对齐特征表示,随后将同一个句子的字词粒度的感知上下文的语义对齐特征表示进行连接得到句子的语义特征表示。
字词粒度深层编码表示的提取:首先使用LSTM编码器对句子的字词嵌入表示进行编码操作以获取浅层编码表示,继而使用BiLSTM编码器对字词粒度浅层编码表示与字词嵌入表示的融合表示进行编码以获取深层编码表示。对于句子1,具体实施见下述公式:
其中,(;)表示concatenate连接操作,L为句子的长度;Pi c和分别表示句子1在第i个位置处的字嵌入表示和字粒度深层编码表示;和分别表示句子1在第m个位置处的词嵌入表示和词粒度深层编码表示。对于句子2,具体实施如下:
其中,公式(3)和(4)的符号含义与公式(1)和(2)大致相同,区别在于,Q表示句子2,j表示句子2在字粒度下的第j个位置,n表示句子2在词粒度下的第n个位置。其余表示可以类比表示,因篇幅有限不再一一赘述。
举例说明:在Keras中,对于上面描述的代码实现如下所示:
首先定义一个编码器:
def bilstm1(input_1,input_2,input_3,input_4):
net1=LSTM(encoder_size,return_sequences=True,dropout=0.2)
net2=Bidirectional(LSTM(encoder_size,return_sequences=True,dropout=0.2),merge_mode='concat')
p1=net1(input_1)
p2=net1(input_2)
p3=net1(input_3)
p4=net1(input_4)
p11=net2(concatenate([input_1,p1]))
p22=net2(concatenate([input_2,p2]))
p33=net2(concatenate([input_3,p3]))
p44=net2(concatenate([input_4,p4]))
return p11,p22,p33,p44
随后将字词嵌入表示送入编码器得到字词粒度深层编码表示:
embed_pw=embedding_layer_self(input_pw)
embed_qw=embedding_layer_self(input_qw)
embed_pc=embedding_layer_self(input_pc)
embed_qc=embedding_layer_self(input_qc)
encoder_pw,encoder_qw,encoder_pc,encoder_qc=bilstm1(embed_pw,
embed_qw,embed_pc,embed_qc)
其中,input_pc和input_pw分别为句子1在字粒度和词粒度下的输入,input_qc和input_qw分别为句子2在字粒度和词粒度下的输入,encoder_pc和encoder_pw分别为句子1字粒度和词粒度深层编码表示,encoder_qc和encoder_qw分别为句子2字粒度和词粒度深层编码表示。
关键语义特征表示的提取:对经过循环神经网络编码后得到的句子对的字词粒度深层编码表示进行自注意力操作,即对句子1的字粒度和词粒度分别进行自注意力操作,得到句子1在字粒度级别下的关键语义特征表示与词粒度级别下的关键语义特征表示,可以以此类推句子2。对于句子1的字粒度和词粒度下的自注意力机制以及关键语义特征表示的提取,具体实施见下述公式:
其中,tanh是一种激活函数,Cp1和Cp2表示句子1在字粒度级别下可训练的权重参数,Wp1和Wp2表示句子1在词粒度级别下可训练的权重参数,和分别表示句子1在字粒度和词粒度级别下的深层编码表示的集合,分别由公式(1)中的和公式(2)中的组成,pc'和pw'分别表示句子1在字粒度和词粒度级别下的注意力矩阵,Mpc和Mpw分别表示句子1在字粒度和词粒度级别下所包含的关键语义特征表示的集合,该关键语义特征的个数是一个超参数,同理可提取出句子2在字词粒度下所包含的关键语义特征表示,具体实施见下述公式:
其中,Cq1和Cq2表示句子2在字粒度级别下可训练的权重参数,Wq1和Wq2表示句子2在词粒度级别下可训练的权重参数,和分别表示句子2在字粒度和词粒度级别下的深层编码表示的集合,分别由公式(3)中的和公式(4)中的组成,qc'和qw'分别表示句子2在字粒度和词粒度级别上的注意力矩阵,Mqc和Mqw分别表示句子2在字粒度和词粒度级别下所包含的关键语义特征表示的集合,该关键语义特征的个数是一个超参数。
举例说明:在Keras中,对于上面描述的代码实现如下所示:
首先定义一个注意力函数:
随后将句子对的字粒度深层编码表示和词粒度深层编码表示送入上述定义好的注意力函数以得到字粒度关键语义特征表示和词粒度关键语义特征表示:
attention_pw=Attention(3)(encoder_pw)
attention_qw=Attention(3)(encoder_qw)
attention_pc=Attention(3)(encoder_pc)
attention_qc=Attention(3)(encoder_qc)
其中,encoder_pc和encoder_pw为句子1的字词粒度深层编码表示,encoder_qc和encoder_qw为句子2的字词粒度深层编码表示,attention_pc和attention_pw为句子1在进行自注意力机制后得到的字词粒度关键语义特征表示,attention_qc和attention_qw为句子2在进行自注意力机制后得到的字词粒度关键语义特征表示,数字3表示关键语义特征表示的个数,是一个超参数。
语义对齐特征表示的提取:对得到的两个句子的字粒度关键语义特征表示和词粒度关键语义特征表示进行同一粒度的互注意力操作,即在字粒度下进行句子1和句子2的互注意力操作,得到字粒度级别下的句子1与句子2的语义对齐特征表示,在词粒度下进行句子1和句子2的互注意力操作,得到词粒度级别的句子1与句子2的语义对齐特征表示。对于字粒度级别下的句子对的互注意力机制,具体实施见下述公式:
其中,exp是指数函数,H是关键语义特征表示的个数,和分别为字粒度级别下句子1第i个关键语义特征表示和句子2第j个关键语义特征表示,属于公式(6)、(10)集合中的元素,s1ij为在字粒度级别下句子1的第i个关键语义特征表示与句子2第j个关键语义特征表示的相似度权重,和Wc 2为可训练的权重参数,为句子1在字粒度级别下第i个位置处的字粒度语义对齐特征表示,是根据相似度权重对句子2中每个关键语义特征表示加权求和得到的,同理表示句子2在字粒度级别下第j个位置处的字粒度语义对齐特征表示。
对于词粒度级别的互注意力机制,具体实施见下述公式:
其中各符号含义可以类比公式(13)-(15),此处只是将用于代表字的上标或下标c改为用于代表词的上标或下标w;和分别表示在词粒度级别下句子1第m个关键语义特征表示和语义对齐特征表示,和分别表示在词粒度级别下句子2第n个关键语义特征表示和语义对齐特征表示。
举例说明:在Keras中,对于上面描述的代码实现如下所示:
首先定义一个互注意力函数:
随后将字词粒度关键语义特征表示送入上述定义好的互注意力函数以得到字词粒度语义对齐特征表示。
pqw,qpw=concatAttention()([attention_pw,attention_qw])
pqc,qpc=concatAttention()([attention_pc,attention_qc])
其中,attention_pc和attention_qc为字粒度级别下句子1和句子2的关键语义特征表示,attention_pw和attention_qw为词粒度级别下句子1和句子2的关键语义特征表示;pqc和qpc为字粒度级别下句子1和句子2的语义对齐特征表示,pqw和qpw为词粒度级别下句子1和句子2的语义对齐特征表示。
感知上下文的语义对齐特征表示的提取:为了更好地感知上下文语义信息,对于上述提取的语义对齐特征表示使用BiLSTM编码器进行编码以得到感知上下文的语义对齐特征表示,具体实施见下述公式:
其中,和表示句子1在字粒度下提取的语义对齐特征表示和词粒度下提取的语义对齐特征表示的集合,分别由公式(14)中的和公式(17)中的组成,和表示句子2在字粒度下提取的语义对齐特征表示和词粒度下提取的语义对齐特征表示的集合,分别由公式(15)中的和公式(18)中的组成,和分别表示句子1字粒度和词粒度的感知上下文的语义对齐特征表示,和分别表示句子2字粒度和词粒度的感知上下文的语义对齐特征表示。
举例说明:在Keras中,对于上面描述的代码实现如下所示:
首先定义一个编码器:
def bilstm2(input_1,input_2,input_3,input_4):
net=Bidirectional(LSTM(encoder_size,return_sequences=True,dropout=0.2),merge_mode='concat')
p1=net(input_1)
p2=net(input_2)
p3=net(input_3)
p4=net(input_4)
return p1,p2,p3,p4
随后将提取到的两个句子的字词粒度级别的语义对齐特征表示送入上述定义好的编码器以得到感知上下文的语义对齐特征表示。
pqw1,qpw1,pqc1,qpc1=bilstm2(pqw,qpw,pqc,qpc)
其中,pqc和pqw分别表示句子1在字粒度和词粒度上提取到的语义对齐特征表示,qpc和qpw分别表示句子2在字粒度和词粒度上提取到的语义对齐特征表示;pqc1和pqw1分别表示句子1在字粒度和词粒度级别下感知上下文的语义对齐特征表示,qpc1和qpw1分别表示句子2在字粒度和词粒度级别下感知上下文的语义对齐特征表示。
随后将同一个句子的字词粒度的感知上下文的语义对齐特征表示进行连接得到句子的语义特征表示,具体实施见下述公式:
其中,(;)表示concatenate连接操作,和分别表示句子1字粒度和词粒度的感知上下文的语义对齐特征表示,分别由公式(19)和(20)计算所得,和分别表示句子2字粒度和词粒度的感知上下文的语义对齐特征表示,分别由公式(21)和(22)计算所得。表示将句子1的字粒度和词粒度的感知上下文的语义对齐特征表示进行连接后得到的语义特征表示,表示将句子2的字粒度和词粒度的感知上下文的语义对齐特征表示进行连接后得到的语义特征表示。
举例说明:在Keras中,对于上面描述的代码实现如下所示:
p=concatenate([pqw1,pqc1])
q=concatenate([qpw1,qpc1])
其中,pqc1和pqw1分别表示句子1字粒度和词粒度的感知上下文的语义对齐特征表示,返回的p表示句子1的语义特征表示;qpc1和qpw1分别表示句子2字粒度和词粒度的感知上下文的语义对齐特征表示,返回的q表示句子2的语义特征表示。
S305、构建特征聚合模块:经过步骤S304生成的两个句子的语义特征表示,且对语义特征表示进行比较且与句子对的语义特征表示进行连接,随后进行一维最大池化操作,得到句子对语义匹配张量。
首先使用绝对值函数强调两个句子之间的绝对差异,同时使用哈达玛积来计算两个句子之间的相似程度,随后将句子对的绝对差异表示、相似程度表示和句子对的语义特征表示进行连接并将连接结果进行一维最大池化以得到句子对语义匹配张量。具体实施见下述公式:
simpool=GlobalMaxPooling(sim) (28)
其中,(;)表示concatenate连接操作,和分别表示句子1和句子2的语义特征表示,abs为绝对值函数运算的结果,mul为哈达玛积运算的结果,随后将这两个结果与句子对的语义特征表示进行连接得到sim,最后对该结果sim进行一维最大池化操作得到句子对语义匹配张量simpool。
举例说明:在Keras中,对于上面描述的代码实现如下所示:
abs_diff1=Lambda(lambda x:K.abs(x[0]-x[1]))([p,q])
multi_diff1=multiply([p,q])
pq=concatenate([abs_diff1,multi_diff1,p,q])
ff=GlobalMaxPooling1D()(pq)
其中,p和q分别是句子1和句子2的语义特征表示,ff为最终的句子对语义匹配张量。
S306、构建标签预测模块:将步骤S305得到的最终的句子对语义匹配张量,经过三层全连接神经网络处理,以得到一个在[0,1]之间的匹配度,记为ypred,并与预先设定的阈值进行比较,若ypred大于等于阈值,则认为句子对所蕴含的语义是一致的,反之则句子对不匹配。在三层全连接网络中,前两层网络的激活函数为ReLU函数,输出维度为600,最后一层网络的激活函数为Sigmoid函数,输出维度为1。
举例说明:在Keras中,对于上面描述的代码实现如下所示:
similarity=Dropout(0.5)(ff)
similarity=Dense(600,name='dense_one')(similarity)
similarity=Activation('relu')(similarity)
similarity=Dense(600,name='dense_two')(similarity)
similarity=Dropout(0.5)(similarity)
similarity=Activation('relu')(similarity)
similarity=Dense(1,name='dense_three')(similarity)
pred=Activation('sigmoid')(similarity)
其中,ff为步骤S305中所得到的最终的句子对语义匹配张量。
本发明所提出的面向教育咨询服务的智能语义匹配模型尚未进行训练,需要进一步执行步骤S4进行训练,以优化模型参数;当该模型训练完毕时,由步骤S306可预测目标句子对的语义是否匹配。
S4、训练句子对语义匹配模型:将步骤S3构建的句子对语义匹配模型在步骤S2所得的训练数据集上进行训练,如附图5所示,具体如下:
S401、构建损失函数:由步骤S306可知ypred是经过句子对语义匹配模型处理后得到的匹配度数值;而ytrue是两个句子语义是否匹配的真实标签,其取值仅限于0或1。本发明采用交叉熵作为损失函数,公式如下:
S402、优化训练模型:使用Adam优化函数作为本模型的优化函数,在训练数据集上,对句子对语义匹配模型进行优化训练;
本发明所提出的方法和系统不仅能够适用于教育咨询服务,为教育咨询用户找到标准的匹配问句;而且它们同样能够适用于相关的金融咨询服务。本发明的模型在BQ数据集上取得了优于当前先进模型的结果,实验结果的对比具体见表1。
表1:BQ上的实验结果.
本发明模型和现有模型进行了比较,实验结果显示本发明方法有了很大的提升。其中,前五行是现有技术的模型的实验结果【Chen,Jing and Chen,Qingcai and Liu,Xinand Yang,Haijun and Lu,Daohe and Tang,Buzhou.The BQ corpus:A large-scaledomain-specific chinese corpus for sentence semantic equivalenceidentification,EMNLP2018】,最后一行是本发明模型的实验结果,由此可知本发明比现有模型有了较大提升。
实施例3:
如附图6所示,基于实施例2的面向教育咨询服务的智能语义匹配装置,该装置包括,
句子对语义匹配知识库构建单元、训练数据集生成单元、句子对语义匹配模型构建单元、句子对语义匹配模型训练单元,分别实现面向教育咨询服务的智能语义匹配方法中步骤S1、S2、S3、S4的功能,每个单元的具体功能如下所述:
句子对语义匹配知识库构建单元,用于获取大量的句子对数据,随后对数据进行预处理,从而得到符合训练要求的句子对语义匹配知识库。
训练数据集生成单元,对于句子对语义匹配知识库中的句子对,若其语义一致,则该句子对用于构建训练正例,反之,则用于构建训练负例;将大量的正例数据和负例数据进行混合,得到训练数据集。
句子对语义匹配模型构建单元,用于构建字词映射转换表、输入模块、字词向量映射层、双注意力语义匹配模块、特征聚合模块和标签预测模块。
句子对语义匹配模型训练单元,用于构建模型训练过程中所需要的损失函数与优化函数,并完成模型的训练。
实施例4:
基于实施例2的存储介质,其中存储有多条指令,指令有处理器加载,执行实施例2的面向教育咨询服务的智能语义匹配方法的步骤。
实施例5:
基于实施例4的电子设备,电子设备包括:实施例4的存储介质;以及
处理器,用于执行实施例4的存储介质中的指令。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (9)
1.一种面向教育咨询服务的智能语义匹配方法,其特征在于,该方法通过构建并训练由多粒度嵌入模块、双注意力语义匹配模块、特征聚合模块及标签预测模块构成的语义匹配模型,通过对句子的字词粒度进行自注意力操作以获取关键语义特征表示,并进行句子间的互注意力操作,以获取句子对相互感知的语义对齐特征表示并编码,随后度量句子对相似性,并与感知上下文的语义对齐特征表示聚合,以判断句子对的语义是否一致;具体如下:
多粒度嵌入模块对输入的句子以字粒度和词粒度分别进行嵌入操作,得到句子的字词嵌入表示;
双注意力语义匹配模块对句子的字词嵌入表示依次进行自注意力与互注意力操作,得到句子的语义特征表示;
特征聚合模块对句子的语义特征表示与相关度量进行聚合并进行一维最大池化操作,得到句子对的语义匹配向量;
标签预测模块将句子对的语义匹配张量映射为指定区间上的一个浮点型数值,将其作为匹配值与预设的阈值进行比较,根据比较结果,判定句子对的语义意图是否一致。
2.根据权利要求1所述的面向教育咨询服务的智能语义匹配方法,其特征在于,所述多粒度嵌入模块用于构建字词映射转换表、构建输入模块、构建字词向量映射层;
其中,构建字词映射转换表:映射规则为以数字1为起始,随后按照每个字或词被录入字词表的顺序依次递增排序,从而形成字词映射转换表;其后,再使用Word2Vec训练字词向量模型,得到各字词的字词向量矩阵;
构建输入模块:输入层包括四个输入,对于训练数据集中的每一个句子对或待预测的句子对,对其进行断字和分词预处理,分别获取sentence1_char、sentence2_char、sentence1_word和sentence2_word,其中后缀char、word分别表示对相应句子进行断字或分词处理而得,将其形式化为:(sentence1_char sentence2_char,sentence1_word,sentence2_word);对于输入句子中的每个字和词都按照字词映射转换表转化为相应的数字标识;
构建字词向量映射层:加载构建字词映射转换表步骤中训练所得的字词向量矩阵来初始化当前层的权重参数;针对输入句子sentence1_char、sentence2_char、sentence1_word和sentence2_word得到其相应句子向量sentence1_char_embed、sentence2_char_embed、sentence1_word_embed和sentence2_word_embed。
3.根据权利要求1所述的面向教育咨询服务的智能语义匹配方法,其特征在于,所述双注意力语义匹配模块的构建过程具体如下:
字词粒度深层编码表示的提取:首先使用LSTM编码器对句子的字词嵌入表示进行编码操作以获取浅层编码表示,继而使用BiLSTM编码器对字词粒度浅层编码表示与字词嵌入表示的融合表示进行编码以获取深层编码表示;对于句子1,公式如下:
其中,(;)表示concatenate连接操作,L为句子的长度,Pi c和分别表示句子1在第i个位置处的字嵌入表示和字粒度深层编码表示,和分别表示句子1在第m个位置处的词嵌入表示和词粒度深层编码表示;对于句子2,公式如下:
其中,公式(3)和(4)的符号含义与公式(1)和(2)大致相同,区别在于,Q表示句子2,j表示句子2在字粒度下的第j个位置,n表示句子2在词粒度下的第n个位置,其余表示可以类比表示;
关键语义特征表示的提取:对经过循环神经网络编码后得到的句子对的字词粒度深层编码表示进行自注意力操作,即对句子1的字粒度和词粒度分别进行自注意力操作,得到句子1在字粒度级别下的关键语义特征表示与词粒度级别下的关键语义特征表示,可以以此类推句子2;对于句子1的字粒度和词粒度下的自注意力机制以及关键语义特征表示的提取,公式如下:
其中,tanh是一种激活函数,Cp1和Cp2表示句子1在字粒度级别下可训练的权重参数,Wp1和Wp2表示句子1在词粒度级别下可训练的权重参数,和分别表示句子1在字粒度和词粒度级别下的深层编码表示的集合,分别由公式(1)中的和公式(2)中的组成,pc'和pw'分别表示句子1在字粒度和词粒度级别下的注意力矩阵,Mpc和Mpw分别表示句子1在字粒度和词粒度级别下所包含的关键语义特征表示的集合,该关键语义特征的个数是一个超参数,同理可提取出句子2在字词粒度下所包含的关键语义特征表示,公式如下:
其中,Cq1和Cq2表示句子2在字粒度级别下可训练的权重参数,Wq1和Wq2表示句子2在词粒度级别下可训练的权重参数,和分别表示句子2在字粒度和词粒度级别下的深层编码表示的集合,分别由公式(3)中的和公式(4)中的组成,qc'和qw'分别表示句子2在字粒度和词粒度级别上的注意力矩阵,Mqc和Mqw分别表示句子2在字粒度和词粒度级别下所包含的关键语义特征表示的集合,该关键语义特征的个数是一个超参数;
语义对齐特征表示的提取:对得到的两个句子的字粒度关键语义特征表示和词粒度关键语义特征表示进行同一粒度的互注意力操作,即在字粒度下进行句子1和句子2的互注意力操作,得到字粒度级别下的句子1与句子2的语义对齐特征表示,在词粒度下进行句子1和句子2的互注意力操作,得到词粒度级别的句子1与句子2的语义对齐特征表示;对于字粒度级别下的句子对的互注意力机制,公式如下:
其中,exp是指数函数,H是关键语义特征表示的个数,和分别为字粒度级别下句子1第i个关键语义特征表示和句子2第j个关键语义特征表示,属于公式(6)、(10)集合中的元素,s1ij为在字粒度级别下句子1的第i个关键语义特征表示与句子2第j个关键语义特征表示的相似度权重,和Wc 2为可训练的权重参数,为句子1在字粒度级别下第i个位置处的字粒度语义对齐特征表示,是根据相似度权重对句子2中每个关键语义特征表示加权求和得到的,同理表示句子2在字粒度级别下第j个位置处的字粒度语义对齐特征表示;
对于词粒度级别的互注意力机制,公式如下:
其中各符号含义可以类比公式(13)-(15),此处只是将用于代表字的上标或下标c改为用于代表词的上标或下标w;和分别表示在词粒度级别下句子1第m个关键语义特征表示和语义对齐特征表示,和分别表示在词粒度级别下句子2第n个关键语义特征表示和语义对齐特征表示;
感知上下文的语义对齐特征表示的提取:为了更好地感知上下文语义信息,对于上述提取的语义对齐特征表示使用BiLSTM编码器进行编码以得到感知上下文的语义对齐特征表示,公式如下:
其中,和表示句子1在字粒度下提取的语义对齐特征表示和词粒度下提取的语义对齐特征表示的集合,分别由公式(14)中的和公式(17)中的组成,和表示句子2在字粒度下提取的语义对齐特征表示和词粒度下提取的语义对齐特征表示的集合,分别由公式(15)中的和公式(18)中的组成,和分别表示句子1字粒度和词粒度的感知上下文的语义对齐特征表示,和分别表示句子2字粒度和词粒度的感知上下文的语义对齐特征表示;
随后将同一个句子的字词粒度的感知上下文的语义对齐特征表示进行连接得到句子的语义特征表示,公式如下:
4.根据权利要求1所述的面向教育咨询服务的智能语义匹配方法,其特征在于,所述特征聚合模块的构建过程具体如下:
首先使用绝对值函数强调两个句子之间的绝对差异,同时使用哈达玛积来计算两个句子之间的相似程度,随后将句子对的绝对差异表示、相似程度表示和句子对的语义特征表示进行连接并将连接结果进行一维最大池化以得到句子对语义匹配张量;公式如下:
simpool=GlobalMaxPooling(sim) (28)
5.根据权利要求1所述的面向教育咨询服务的智能语义匹配方法,其特征在于,所述标签预测模块构建过程如下:
将句子对语义匹配张量作为输入,标签预测模块包含三层全连接网络;前两层是维度为600、激活函数为Relu函数的全连接网络,最后一层是维度为1、激活函数为Sigmoid函数的全连接网络;得到一个处于[0,1]之间的匹配度数值,记为ypred,最终通过与设定的阈值0.5进行比较,从而判断句子对的语义意图是否一致;即若ypred≥0.5时,预测该句子对的语义意图是一致的,否则,不一致;当句子对语义匹配模型尚未充分训练时,需要在根据语义匹配知识库而构建的训练数据集上进行训练,以优化模型参数;当模型训练完毕时,标签预测模块可预测目标句子对的语义意图是否一致。
6.根据权利要求1所述的面向教育咨询服务的智能语义匹配方法,其特征在于,所述句子对语义匹配知识库构建具体如下:
收集数据:收集教育咨询服务的常见问题句子,作为句子对语义匹配知识库的原始数据;
预处理原始数据:预处理用于构建句子对语义匹配知识库的原始数据,对其中的每个句子均进行断字操作、分词操作,得到句子对语义匹配断字处理知识库、分词处理知识库;
汇总子知识库:汇总句子对语义匹配断字处理知识库和句子对语义匹配分词处理知识库,构建句子对语义匹配知识库;
所述句子对语义匹配模型通过使用训练数据集进行训练而得到,训练数据集的构建过程如下:
构建训练正例:将句子对语义匹配知识库中两个句子语义一致的句子对构建为正例;
构建训练负例:选中一个句子s1,再从句子对语义匹配知识库中随机选择一个与句子s1不匹配的句子s2,将s1与s2进行组合,构建负例;
构建训练数据集:将经过构建训练正例和构建训练负例操作后所获得的全部的正例样本句子对和负例样本句子对进行组合,并打乱其顺序,构建最终的训练数据集;
所述句子对语义匹配模型构建完成后通过训练数据集进行句子对语义匹配模型的训练与优化,具体如下:
构建损失函数:由标签预测模块构建过程可知,ypred是经过句子对语义匹配模型处理后得到的匹配度计算数值,ytrue是两个句子语义是否匹配的真实标签,其取值仅限于0或1,采用交叉熵作为损失函数;
优化训练模型:使用Adam优化函数;在训练数据集上,对句子对语义匹配模型进行优化训练。
7.一种面向教育咨询服务的智能语义匹配装置,其特征在于,该装置包括句子对语义匹配知识库构建单元、训练数据集生成单元、句子对语义匹配模型构建单元、句子对语义匹配模型训练单元,分别实现权利要求1-6所描述的面向教育咨询服务的智能语义匹配方法的步骤。
8.一种存储介质,其中存储有多条指令,其特征在于,所述指令有处理器加载,执行权利要求1-6中所述的面向教育咨询服务的智能语义匹配方法的步骤。
9.一种电子设备,其特征在于,所述电子设备包括:
权利要求8所述的存储介质;以及处理器,用于执行所述存储介质中的指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110993088.1A CN113705242B (zh) | 2021-08-27 | 2021-08-27 | 面向教育咨询服务的智能语义匹配方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110993088.1A CN113705242B (zh) | 2021-08-27 | 2021-08-27 | 面向教育咨询服务的智能语义匹配方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113705242A true CN113705242A (zh) | 2021-11-26 |
CN113705242B CN113705242B (zh) | 2023-08-15 |
Family
ID=78655651
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110993088.1A Active CN113705242B (zh) | 2021-08-27 | 2021-08-27 | 面向教育咨询服务的智能语义匹配方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113705242B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114238563A (zh) * | 2021-12-08 | 2022-03-25 | 齐鲁工业大学 | 基于多角度交互的中文句子对语义智能匹配方法和装置 |
CN117149988A (zh) * | 2023-11-01 | 2023-12-01 | 广州市威士丹利智能科技有限公司 | 基于教育数字化的数据管理处理方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210005195A1 (en) * | 2019-07-01 | 2021-01-07 | Koninklijke Philips N.V. | Hierarchical self-attention for machine comprehension |
CN113065358A (zh) * | 2021-04-07 | 2021-07-02 | 齐鲁工业大学 | 面向银行咨询服务基于多粒度对齐的文本对语义匹配方法 |
CN113239181A (zh) * | 2021-05-14 | 2021-08-10 | 廖伟智 | 基于深度学习的科技文献引文推荐方法 |
-
2021
- 2021-08-27 CN CN202110993088.1A patent/CN113705242B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210005195A1 (en) * | 2019-07-01 | 2021-01-07 | Koninklijke Philips N.V. | Hierarchical self-attention for machine comprehension |
CN113065358A (zh) * | 2021-04-07 | 2021-07-02 | 齐鲁工业大学 | 面向银行咨询服务基于多粒度对齐的文本对语义匹配方法 |
CN113239181A (zh) * | 2021-05-14 | 2021-08-10 | 廖伟智 | 基于深度学习的科技文献引文推荐方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114238563A (zh) * | 2021-12-08 | 2022-03-25 | 齐鲁工业大学 | 基于多角度交互的中文句子对语义智能匹配方法和装置 |
CN117149988A (zh) * | 2023-11-01 | 2023-12-01 | 广州市威士丹利智能科技有限公司 | 基于教育数字化的数据管理处理方法及系统 |
CN117149988B (zh) * | 2023-11-01 | 2024-02-27 | 广州市威士丹利智能科技有限公司 | 基于教育数字化的数据管理处理方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113705242B (zh) | 2023-08-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111144448B (zh) | 基于多尺度注意力卷积编码网络的视频弹幕情感分析方法 | |
CN111382565B (zh) | 基于多标签的情绪-原因对抽取方法及系统 | |
CN113065358B (zh) | 面向银行咨询服务基于多粒度对齐的文本对语义匹配方法 | |
CN110298037A (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN112001166B (zh) | 面向政务咨询服务的智能问答句子对语义匹配方法和装置 | |
CN112000771B (zh) | 一种面向司法公开服务的句子对智能语义匹配方法和装置 | |
CN112000770B (zh) | 面向智能问答的基于语义特征图的句子对语义匹配方法 | |
CN112000772B (zh) | 面向智能问答基于语义特征立方体的句子对语义匹配方法 | |
CN111274398A (zh) | 一种方面级用户产品评论情感分析方法及系统 | |
CN108549658A (zh) | 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统 | |
CN110134946A (zh) | 一种针对复杂数据的机器阅读理解方法 | |
CN107274010A (zh) | 面向工业设计云服务平台的多目标创意设计评价方法 | |
CN113705242B (zh) | 面向教育咨询服务的智能语义匹配方法和装置 | |
CN113435208A (zh) | 学生模型的训练方法、装置及电子设备 | |
CN113657115B (zh) | 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法 | |
CN112860904B (zh) | 一种融入外部知识的生物医疗关系抽取方法 | |
CN115455171B (zh) | 文本视频的互检索以及模型训练方法、装置、设备及介质 | |
CN112463924B (zh) | 面向智能问答基于内部相关性编码的文本意图匹配方法 | |
CN114004220A (zh) | 一种基于cpc-ann的文本情绪原因识别方法 | |
CN116467443A (zh) | 基于主题识别的网络舆情文本分类方法 | |
CN113705241B (zh) | 面向高考咨询基于多视角注意力的智能语义匹配方法与装置 | |
CN116662924A (zh) | 基于双通道与注意力机制的方面级多模态情感分析方法 | |
CN113065359B (zh) | 面向智能交互的句子对语义匹配方法和装置 | |
CN115269808A (zh) | 面向医疗智能问答的文本语义匹配方法和装置 | |
CN115310429A (zh) | 一种多轮倾听对话模型中的数据压缩与高性能计算方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address |
Address after: 250353 University Road, Changqing District, Ji'nan, Shandong Province, No. 3501 Patentee after: Qilu University of Technology (Shandong Academy of Sciences) Country or region after: China Address before: 250353 University Road, Changqing District, Ji'nan, Shandong Province, No. 3501 Patentee before: Qilu University of Technology Country or region before: China |