CN113254616B - 面向智能问答系统的句向量生成方法及系统 - Google Patents

面向智能问答系统的句向量生成方法及系统 Download PDF

Info

Publication number
CN113254616B
CN113254616B CN202110628620.XA CN202110628620A CN113254616B CN 113254616 B CN113254616 B CN 113254616B CN 202110628620 A CN202110628620 A CN 202110628620A CN 113254616 B CN113254616 B CN 113254616B
Authority
CN
China
Prior art keywords
sentence
vector
graph
word
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110628620.XA
Other languages
English (en)
Other versions
CN113254616A (zh
Inventor
杨钊
何慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Brilliant Data Analytics Inc
Original Assignee
Brilliant Data Analytics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Brilliant Data Analytics Inc filed Critical Brilliant Data Analytics Inc
Priority to CN202110628620.XA priority Critical patent/CN113254616B/zh
Publication of CN113254616A publication Critical patent/CN113254616A/zh
Application granted granted Critical
Publication of CN113254616B publication Critical patent/CN113254616B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本发明涉及面向智能问答系统的句向量生成方法及系统,其方法包括:对给定的中文句子进行中文分词;根据分词结果为每个词生成对应的中文词向量;对句子进行语义角色标注,生成句子的语义关系图;以词向量作为输入,对句子进行编码,输出每个词向量的隐状态向量;对语义关系图进行编码,生成语义关系图的邻接矩阵;将语义关系图的邻接矩阵及词向量的隐状态向量输入图卷积网络GCN后,与BERT预训练模型的中间层各输出进行逐层融合迭代,获得最终编码后的句向量。相较于一般的句向量生成方法,本发明由于融入了句子的语义结构编码,拥有更丰富、更有指导性的信息,为相似问句语义匹配提供更高质量的输入,提高查询的精度。

Description

面向智能问答系统的句向量生成方法及系统
技术领域
本发明属于人工智能中的自然语言处理技术(NLP),具体为面向智能问答系统的句向量生成方法及系统。
背景技术
智能问答系统(Question-Answering)是目前人工智能和自然语言处理领域中一个倍受关注并具有广泛应用前景的研究方向,而面向常用问题集(Frequently AskedQuestions, FAQ)的检索型问答系统是目前最广泛使用的一种智能问答系统。FAQ检索型问答是根据用户提交的问询,在FAQ库中查找语义上最接近的一个对应问题,并把相应的回答反馈给用户。
FAQ问答系统的核心任务可以抽象为相似问句语义匹配任务,即根据用户提交的问句与FAQ库中的标准问句进行语义相似性度量。传统文本匹配方法,如信息检索中的BM25、向量空间模型VSM等方法,主要解决字面相似度问题。然而由于中文含义的丰富性,通常很难直接根据关键字匹配或者基于机器学习的浅层模型来确定两个句子之间的语义相似度。
衡量句子语义相似度的基础是句向量的生成,首先是将相似问句映射到一个高维度的语义空间中,然后才可以定义他们的相似性度量,如余弦相似度,使得语义上越接近的问句,其度量值越大。
传统的句向量生成主要依靠预训练模型,而目前NLP中的预训练模型是在大规模语料上进行无监督训练,学习得到通用的语言组合的规律和模式,有助于解决下游任务;目前的预训练模型主要使用神经网络,其中最有影响力的是2013年谷歌提出的word2vec,随后在2018年谷歌进一步提出了更高级的BERT模型。但是目前的预训练模型主要是根据词语和句子的共现(co-occurrence)关系来生成编码,没有进一步显示地融合词语和词语之间的语义关系信息,因此需要进一步的改善和提升。
发明内容
为了解决现有技术所存在的问题,本发明提供面向智能问答系统的句向量生成方法,通过引入SRL(Semantic Role Labeling,语义角色标注)浅层语义分析技术生成对应的语义关系图,利用图卷积网络GCN(Graph Convolutional Network)进行编码,然后通过与中文BERT预训练模型中不同层的输出进行抽取和融合,生成融合了语义关系信息的句向量,能够为相似问句的语义匹配问题提供更高质量的输入,有效提高检索式问答系统中的查询精度。
本发明还提供面向智能问答系统的句向量生成系统。
本发明的面向智能问答系统的句向量生成方法,包括以下步骤:
(1)、对给定的中文句子进行中文分词;
(2)、根据分词结果,为每个词生成对应的中文词向量;
(3)、对句子进行语义角色标注,生成句子的语义关系图;
(4)、以词向量作为输入,对句子进行编码,以隐状态向量的方式输出每个词对应的隐状态信息;
(5)、对语义关系图中每个节点进行初始编码,同时生成语义关系图的邻接矩阵;在语义关系图的邻接矩阵中,矩阵元素
Figure DEST_PATH_IMAGE001
的取值为:
Figure 100002_DEST_PATH_IMAGE002
其中,将步骤(4)中生成的隐状态向量赋值给每个节点,作为语义关系图中每个节点的初始编码;
(6)、将步骤(5)中语义关系图的邻接矩阵及步骤(4)中词向量的隐状态向量输入图卷积网络GCN后,与BERT预训练模型的中间层各输出进行逐层融合迭代,获得最终编码后的句向量。
相应地,本发明的面向智能问答系统的句向量生成系统,包括:
中文分词模块,用于对给定的中文句子进行中文分词;
词向量生成模块,用于根据中文分词模块的分词结果,为每个词生成对应的中文词向量;
语义关系图生成模块,用于对句子进行语义角色标注,生成句子的语义关系图;
词向量编码模块,以词向量作为输入,对句子进行编码,以隐状态向量的方式输出每个词对应的隐状态信息;
语义关系图编码模块,对语义关系图中每个节点进行初始编码,同时生成语义关系图的邻接矩阵;在语义关系图的邻接矩阵中,矩阵元素
Figure 348278DEST_PATH_IMAGE001
的取值为:
Figure 468681DEST_PATH_IMAGE002
其中,将步骤(4)中生成的隐状态向量赋值给每个节点,作为语义关系图中每个节点的初始编码;
融合迭代模块,用于将语义关系图的邻接矩阵及词向量的隐状态向量输入图卷积网络GCN后,与BERT预训练模型的中间层各输出进行逐层融合迭代,获得最终编码后的句向量。
从以上技术方案可知,本发明由于融合了语义关系信息,所生成的句子向量编码比普通的基于共现(co-occurrence)关系的预训练模型生成的编码拥有更丰富、更有指导性的信息,能为相似问句的语义匹配问题提供更高质量的输入,可以有效提高检索式问答系统中的查询精度。与现有技术相比,本发明取得的技术效果具体包括:
1、充分利用了句子的语义关系信息。本发明对句子应用了语义角色标注SRL这种浅层语义分析技术,生成对应的语义关系图(本发明称为SRL图),融合到句向量的生成中,丰富了句向量蕴含的指导性信息,为相似问句语义匹配提供了高质量的输入。
2、利用图卷积网络GCN这种学术界最前沿的模型进行SRL图嵌入编码。GCN将卷积神经网络(Convolutional Neural Network, CNN)这种强大的模型从图像处理领域拓展到了非欧式空间数据,通过保留图的网络拓扑结构和节点内容信息,将图中节点表示为向量。而本发明将图卷积网络GCN应用于SRL图,并通过与中文BERT预训练模型中不同层的输出进行抽取和融合,以生成对应的句向量,可以生成高效高质量的编码。
3、充分利用了BERT预训练模型的中间层输出,并与图卷积网络GCN的各层输出进行了融合,并通过迭代优化,实现了优势互补。自BERT预训练模型提出以来,大量工作都是使用其最后一层输出作为上下文相关的编码,而忽略了中间层输出。实际上,BERT预训练模型不同层学习到的知识有显著偏好:低层偏向学习短语结构信息,中层偏向学习句法信息,高层偏向学习语义信息;本发明将BERT预训练模型中间几层的数据进行了抽取和利用,充分融合了低、中、高各层信息,可以显著提高所生成句向量的质量,为相似问句的语义匹配问题提供更高质量的输入,提高智能问答场景中的相似问句语义匹配的精准度,有效提高检索式问答系统中的查询精度。
附图说明
图1是本发明实施例中对中文问句进行SRL图编码的流程图;
图2是本发明实施例中所生成的SRL图;
图3是本发明实施例中BiLSTM网络对词向量进行编码的流程图;
图4是本发明实施例中通过逐层融合迭代生成句向量的流程图;
图5是本发明实施例的模型训练过程中利用反向传播算法进行参数更新的流程图;
图6是本发明实施例中应用模型进行智能问答的处理流程图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
在本实施例中,面向智能问答系统的句向量生成方法包括以下步骤:
S1、对给定的中文句子进行中文分词;
如图1所示,给定一个中文句子,首先进行中文分词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。目前有非常多的开源中文分词工具,本实施例使用HanLP分词技术,可以直接高效地完成对中文句子的自动分词。
比如句子:“他是研究生命的起源”,正确的分词结果为:
他/是/研究/生命/的/起源。
而错误的分词结果为:
他/是/研究生/命/的/起源。
S2、根据分词结果,为每个词生成对应的中文词向量;
本实施例中采用腾讯词向量(Tencent AI Lab Embedding Corpus for ChineseWords and Phrases),腾讯词向量提供了预训练好的800万中文词汇的word embedding(200维词向量),可以应用于很多自然语言处理技术NLP的下游任务。在腾讯中文词向量中,通过直接查找中文词语列表,就可以检索出对应句子中每个词语的词向量。
S3、对句子进行语义角色标注(Semantic Role Labeling, SRL),生成句子的语义关系图(SRL图);
语义角色标注(SRL)是一种浅层语义分析技术,以句子为单位,分析句子核心-论元结构,例如句子的谓词-论元结构。语义角色标注的本质是针对句子核心(例如句子中的谓词)来确定其它论元以及其它论元与句子核心之间的角色关系。
具体来说,本实施例中语义角色标注的任务就是以句子的谓词为中心,研究句子中各成分与谓词之间的关系,并且用语义角色来描述它们之间的关系。例如句子: “领导上午在礼堂举行了欢迎仪式”,这个句子中包括的语义角色如表1所示:
Figure DEST_PATH_IMAGE003
本实施例中语义角色标注SRL涵盖的关系标签含义如下表2所示:
Figure 100002_DEST_PATH_IMAGE004
本实施例可以利用HanLP分词技术,直接生成句子的SRL图,如图2所示。
S4、以词向量作为输入,使用双向长短时记忆网络(BiLSTM)对句子进行编码,以隐状态向量的方式输出每个词对应的隐状态信息;
如图3所示,在词向量基础上,本实施例应用双向长短时记忆网络(BiLSTM),对句子进行前向和后向编码,输出每个词对应的隐状态向量,该隐状态向量表达了每个词对应的隐状态信息,而隐状态信息在一定程度上蕴含词语的上下文信息,为了方便后续和BERT预训练模型的中间层输出结果进行融合,隐状态向量的维度设定为768维。图3中带箭头的八个时间参数表示前一时刻或后一时刻,因为BiLSTM的计算与时序有关,会计算不同时刻(前一时刻或后一时刻)的有用记忆信息进行传递,并在每个时间步输出隐状态向量。
S5、对SRL图中每个节点进行初始编码,同时生成SRL图的邻接矩阵;
在步骤S5中首先需要对SRL图中的每个节点(词)进行初始编码。上述步骤S3生成的SRL图被当作无向图,每个节点(词)的初始化向量即为步骤S4中BiLSTM网络输出的隐状态信息(768维),因此将步骤S4中利用BiLSTM网络生成的隐状态向量Pi赋值给每个节点(词xi),作为SRL图中每个节点的初始编码。
为了进行步骤S6的迭代训练,本步骤还需要生成SRL图的邻接矩阵,作为迭代训练输入的参数,具体的邻接矩阵形式如表3所示:
Figure DEST_PATH_IMAGE005
在SRL图的邻接矩阵中,矩阵元素
Figure 100002_DEST_PATH_IMAGE006
的取值如下:
Figure DEST_PATH_IMAGE007
S6、将步骤S5中SRL图的邻接矩阵及步骤S4中词向量的隐状态向量输入图卷积网络(Graph Convolutional Network,GCN)后,与BERT预训练模型的中间层各输出进行逐层融合迭代,获得最终编码后的句向量;
在步骤S5完成SRL图中节点的初始编码赋值后,就可以利用图卷积网络GCN进行后续优化。图卷积网络GCN是一种高效编码图结构数据的强大模型。对于一张图,图中的每个节点都能用一个向量来表示其特征,图卷积网络GCN的目标就是学习出图中每个节点的向量特征;对于每个节点,它的特征由它的邻居决定,GCN用图中每个节点的一跳邻居节点来迭代更新所有节点的向量特征;在开始时,每个节点被初始化为初始状态,而后GCN对图中每个节点的表示进行更新,这时图中每个节点即可获得它们所有一跳邻居节点的信息。本实施例中,叠加使用L层图卷积网络GCN,每个节点最后可以获得L跳邻居节点的信息。
图卷积网络GCN对整个句子的编码,就是对整个图的编码,可以定义为各个节点向量的和。本实施例中,图卷积网络GCN设有四个图卷积层。在本步骤中,首先把中文句子输入到BERT预训练模型中,利用其四个中间层(例如第1层、第4层、第8层和第12层)的输出,分别与GCN四个图卷积层的各节点向量输出进行点积操作,并将点积操作的结果输入GCN下一层图卷积层进行迭代;将GCN最后一层图卷积层的各节点向量之和(句子编码),与BERT预训练模型的输出进行点积操作,作为最终句子向量编码的结果,如图4所示。
GCN中每层图卷积层的节点向量经过以下卷积操作进行更新:
Figure 100002_DEST_PATH_IMAGE008
其中,
Figure DEST_PATH_IMAGE009
是非线性激活函数,
Figure 100002_DEST_PATH_IMAGE010
是图卷积网络第k层的可学习参数,
Figure DEST_PATH_IMAGE011
是补充了节点自我连接的SRL图邻接矩阵
Figure 100002_DEST_PATH_IMAGE012
的增强版,即
Figure DEST_PATH_IMAGE013
Figure 100002_DEST_PATH_IMAGE014
表示节点的自我连接特征,
Figure DEST_PATH_IMAGE015
Figure 409322DEST_PATH_IMAGE011
的度矩阵。在本实施例中,
Figure 742214DEST_PATH_IMAGE014
是一个单位矩阵,用以表示节点的自我连接特征,该矩阵是一个方阵,从左上角到右下角的对角线(称为主对角线)上的元素均为1,其他全都为0;加上矩阵
Figure 494270DEST_PATH_IMAGE014
之后,原来邻接矩阵的对角元素从0变为1。
S7、训练模型
作为优选的实施例,在进行逐层融合迭代之前,还进行训练模型。本实施例所采用模型中,可学习参数都在GCN的图卷积层,因此需要使用训练数据集去训练模型。训练数据集的格式如表4所示。
Figure 100002_DEST_PATH_IMAGE016
对于FAQ问答中每个问题的标准问句,训练数据集中需要有对应的多个不同提问方式的用户端个性化问句;针对多个不同提问方式的用户端个性化问句,分别用标签“1”表示句子向量的语义相同,标签“0”表示句子向量的语义不相同。
在本实施例,使用余弦相似度去度量句子向量的语义相似性。余弦相似度是计算两个向量相似度的一种常见方法。向量
Figure DEST_PATH_IMAGE017
Figure 100002_DEST_PATH_IMAGE018
的相似度,可以通过向量
Figure 64535DEST_PATH_IMAGE017
Figure 65989DEST_PATH_IMAGE018
对应的夹角来度量,计算方法如下:
Figure DEST_PATH_IMAGE019
通过数学知识可以知道,当向量
Figure 874676DEST_PATH_IMAGE017
Figure 481238DEST_PATH_IMAGE018
之间的余弦值为1时,相似度达到最大值1;向量当
Figure 209023DEST_PATH_IMAGE017
Figure 901035DEST_PATH_IMAGE018
之间的余弦值为0时,相似度达到最小值0;因此余弦值是在
Figure 100002_DEST_PATH_IMAGE020
之间取值来表示不同向量之间相似度。
本实施例的模型训练过程中使用的损失函数定义如下:
Figure DEST_PATH_IMAGE021
其中,W是模型参数;Y是成对标签,如果向量X 1 、X 2这对样本句子语义相同,则Y=1,如果向量X 1 、X 2的语义不相同则 Y=0;S(X 1X 2 是向量X 1与向量X 2的余弦相似度。
Y=0时,调整参数,最小化向量X 1X 2之间的余弦相似性(使得它们越来越不相似)。当Y=1时,为了减少损失函数的值,则需要增大向量X 1X 2两者之间距离(使得它们越来越相似)。
最后,模型训练过程中利用反向传播算法(Back Propagation,BP)进行参数更新,直至收敛,流程如图5所示。
S8、应用模型
训练好模型后,就可以部署应用。如图6所示,首先将FAQ库中问题的标准问句作为给定的句子,使用模型(通过步骤S1-S6)为FAQ库中问题的标准问句生成对应的句向量,并形成相应的索引表,如表5所示,索引表包括FAQ问题编号、问题的标准问句、句向量及问题的回答。
Figure DEST_PATH_IMAGE022
接着,对于每一个用户提交的查询问句,首先输入本实施例模型,生成对应的句向量,然后与索引表中标准问句的向量计算余弦相似度,选取语义最相似的标准问句;如果余弦相似度大于某个预设阈值,则直接输出该问题对应的回答,否则表明FAQ库中没有语义上相似的问题,建议用户转人工服务。
基于相同的发明构思,本实施例还提供面向智能问答系统的句向量生成系统,具体包括:
中文分词模块,用于实现上述步骤S1,对给定的中文句子进行中文分词;
词向量生成模块,用于实现上述步骤S2,根据中文分词模块的分词结果,为每个词生成对应的中文词向量;
语义关系图生成模块,用于实现上述步骤S3,对句子进行语义角色标注,生成句子的语义关系图;
词向量编码模块,用于实现上述步骤S4,以词向量作为输入,对句子进行编码,以隐状态向量的方式输出每个词对应的隐状态信息;
语义关系图编码模块,用于实现上述步骤S5,对语义关系图进行编码,生成语义关系图的邻接矩阵,并得到语义关系图中每个节点的初始编码;在语义关系图的邻接矩阵中,矩阵元素
Figure 651429DEST_PATH_IMAGE006
的取值为:
Figure 909235DEST_PATH_IMAGE007
每个节点的初始编码为对词向量编码后生成的隐状态向量;
融合迭代模块,用于实现上述步骤S6,将语义关系图的邻接矩阵及词向量的隐状态向量输入图卷积网络GCN后,与BERT预训练模型的中间层各输出进行逐层融合迭代,获得最终编码后的句向量。
在句向量生成系统中,在融合迭代模块进行逐层融合迭代之前,也进行训练模型,训练过程如上述步骤S7所述;此外,训练好模型后,如上述步骤S8应用模型,首先将FAQ库中问题的标准问句作为给定的句子,使用模型为FAQ库中问题的标准问句生成对应的句向量,并形成相应的索引表,索引表如表5所示。
总的来说,本发明通过对句子应用语义角色标注SRL这种浅层语义分析技术,生成对应的语义关系图,接着利用图卷积网络GCN进行图节点编码,然后通过与中文BERT预训练模型中不同层的输出进行抽取和融合,生成句向量,以便后续进行相似问句语义匹配。相较于一般的句向量生成方法,本发明由于融入了句子的语义结构编码,因此比单纯的预训练模型拥有更丰富、更有指导性的信息,可以为智能问答系统中的相似问句语义匹配提供更高质量的输入,从而提高查询的精度。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (10)

1.面向智能问答系统的句向量生成方法,其特征在于,包括以下步骤:
(1)、对给定的中文句子进行中文分词;
(2)、根据分词结果,为每个词生成对应的中文词向量;
(3)、对句子进行语义角色标注,生成句子的语义关系图;
(4)、以词向量作为输入,对句子进行编码,以隐状态向量的方式输出每个词对应的隐状态信息;
(5)、对语义关系图中每个节点进行初始编码,同时生成语义关系图的邻接矩阵;在语义关系图的邻接矩阵中,矩阵元素
Figure DEST_PATH_IMAGE002
的取值为:
Figure DEST_PATH_IMAGE004
其中,将步骤(4)中生成的隐状态向量赋值给每个节点,作为语义关系图中每个节点的初始编码;
(6)、将步骤(5)中语义关系图的邻接矩阵及步骤(4)中词向量的隐状态向量输入图卷积网络GCN后,与BERT预训练模型的中间层各输出进行逐层融合迭代,获得最终编码后的句向量。
2.根据权利要求1所述的句向量生成方法,其特征在于,步骤(1)给定的句子为FAQ库中问题的标准问句,通过步骤(1)-(6)生成对应的句向量后,形成相应的索引表,所述索引表包括FAQ问题编号、问题的标准问句、句向量及问题的回答。
3.根据权利要求1所述的句向量生成方法,其特征在于,步骤(3)中进行语义角色标注时,以句子的谓词为中心,研究句子中各成分与谓词之间的关系,并用语义角色描述句子中各成分与谓词之间的关系。
4.根据权利要求1所述的句向量生成方法,其特征在于,步骤(4)采用双向长短时记忆网络对句子进行前向和后向编码,输出每个词对应的隐状态向量;隐状态信息蕴含词语的上下文信息。
5.根据权利要求1所述的句向量生成方法,其特征在于,步骤(6)中图卷积网络GCN设有四个图卷积层,首先把中文句子输入到BERT预训练模型中,利用BERT预训练模型四个中间层的输出,分别与图卷积网络GCN四个图卷积层的各节点向量输出进行点积操作,并将点积操作的结果输入图卷积网络GCN下一层图卷积层进行迭代;将图卷积网络GCN最后一层图卷积层的各节点向量之和,与BERT预训练模型的输出进行点积操作,作为最终句子向量编码的结果。
6.根据权利要求5所述的句向量生成方法,其特征在于,图卷积网络GCN中每层图卷积层的节点向量经过以下卷积操作进行更新:
Figure DEST_PATH_IMAGE006
其中,
Figure DEST_PATH_IMAGE008
是非线性激活函数,
Figure DEST_PATH_IMAGE010
是图卷积网络第k层的可学习参数,
Figure DEST_PATH_IMAGE012
是补充了节点自我连接的语义关系图邻接矩阵
Figure DEST_PATH_IMAGE014
的增强版:
Figure DEST_PATH_IMAGE016
其中
Figure DEST_PATH_IMAGE018
为单位矩阵,表示节点的自我连接特征,
Figure DEST_PATH_IMAGE020
Figure 73788DEST_PATH_IMAGE012
的度矩阵。
7.根据权利要求6所述的句向量生成方法,其特征在于,单位矩阵
Figure 53245DEST_PATH_IMAGE018
是一个方阵,主对角线上的元素均为1,其他全都为0。
8.面向智能问答系统的句向量生成系统,其特征在于,包括:
中文分词模块,用于对给定的中文句子进行中文分词;
词向量生成模块,用于根据中文分词模块的分词结果,为每个词生成对应的中文词向量;
语义关系图生成模块,用于对句子进行语义角色标注,生成句子的语义关系图;
词向量编码模块,以词向量作为输入,对句子进行编码,以隐状态向量的方式输出每个词对应的隐状态信息;
语义关系图编码模块,对语义关系图中每个节点进行初始编码,同时生成语义关系图的邻接矩阵;在语义关系图的邻接矩阵中,矩阵元素
Figure 160878DEST_PATH_IMAGE002
的取值为:
Figure DEST_PATH_IMAGE004A
其中,将步骤(4)中生成的隐状态向量赋值给每个节点,作为语义关系图中每个节点的初始编码;
融合迭代模块,用于将语义关系图的邻接矩阵及词向量的隐状态向量输入图卷积网络GCN后,与BERT预训练模型的中间层各输出进行逐层融合迭代,获得最终编码后的句向量。
9.根据权利要求8所述的句向量生成系统,其特征在于,语义关系图生成模块进行语义角色标注时,以句子的谓词为中心,研究句子中各成分与谓词之间的关系,并用语义角色描述句子中各成分与谓词之间的关系。
10.根据权利要求8所述的句向量生成系统,其特征在于,融合迭代模块中图卷积网络GCN设有四个图卷积层,首先把中文句子输入到BERT预训练模型中,利用BERT预训练模型四个中间层的输出,分别与图卷积网络GCN四个图卷积层的各节点向量输出进行点积操作,并将点积操作的结果输入图卷积网络GCN下一层图卷积层进行迭代;将图卷积网络GCN最后一层图卷积层的各节点向量之和,与BERT预训练模型的输出进行点积操作,作为最终句子向量编码的结果;
图卷积网络GCN中每层图卷积层的节点向量经过以下卷积操作进行更新:
Figure DEST_PATH_IMAGE006A
其中,
Figure 277127DEST_PATH_IMAGE008
是非线性激活函数,
Figure 419395DEST_PATH_IMAGE010
是图卷积网络第k层的可学习参数,
Figure 569754DEST_PATH_IMAGE012
是补充了节点自我连接的语义关系图邻接矩阵
Figure 899104DEST_PATH_IMAGE014
的增强版:
Figure DEST_PATH_IMAGE016A
其中
Figure 691479DEST_PATH_IMAGE018
为单位矩阵,表示节点的自我连接特征,
Figure 422675DEST_PATH_IMAGE020
Figure 478356DEST_PATH_IMAGE012
的度矩阵。
CN202110628620.XA 2021-06-07 2021-06-07 面向智能问答系统的句向量生成方法及系统 Active CN113254616B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110628620.XA CN113254616B (zh) 2021-06-07 2021-06-07 面向智能问答系统的句向量生成方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110628620.XA CN113254616B (zh) 2021-06-07 2021-06-07 面向智能问答系统的句向量生成方法及系统

Publications (2)

Publication Number Publication Date
CN113254616A CN113254616A (zh) 2021-08-13
CN113254616B true CN113254616B (zh) 2021-10-19

Family

ID=77186660

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110628620.XA Active CN113254616B (zh) 2021-06-07 2021-06-07 面向智能问答系统的句向量生成方法及系统

Country Status (1)

Country Link
CN (1) CN113254616B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114564562A (zh) * 2022-02-22 2022-05-31 平安科技(深圳)有限公司 基于答案指导的题目生成方法、装置、设备及存储介质
CN114548115B (zh) * 2022-02-23 2023-01-06 北京三快在线科技有限公司 复合名词的解释方法、装置及电子设备
CN114818737B (zh) * 2022-06-29 2022-11-18 北京邮电大学 科技论文数据文本语义特征提取方法、系统及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109614618A (zh) * 2018-06-01 2019-04-12 安徽省泰岳祥升软件有限公司 基于多语义的集外词处理方法及装置
CN109726276A (zh) * 2018-12-29 2019-05-07 中山大学 一种基于深度网络学习的任务型对话系统
CN109960804A (zh) * 2019-03-21 2019-07-02 江西风向标教育科技有限公司 一种题目文本句子向量生成方法及装置
CN110647619A (zh) * 2019-08-01 2020-01-03 中山大学 一种基于问题生成和卷积神经网络的常识问答方法
CN111539517A (zh) * 2020-04-21 2020-08-14 清华大学 基于图结构矩阵特征向量的图卷积神经网络生成方法
US10769374B1 (en) * 2019-04-24 2020-09-08 Honghui CHEN Answer selection method for question answering system and the system
CN111709223A (zh) * 2020-06-02 2020-09-25 上海硬通网络科技有限公司 基于bert的句子向量生成方法、装置及电子设备
CN112016296A (zh) * 2020-09-07 2020-12-01 平安科技(深圳)有限公司 句子向量生成方法、装置、设备及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180055189A (ko) * 2016-11-16 2018-05-25 삼성전자주식회사 자연어 처리 방법 및 장치와 자연어 처리 모델을 학습하는 방법 및 장치
CN108509411B (zh) * 2017-10-10 2021-05-11 腾讯科技(深圳)有限公司 语义分析方法和装置
US10891943B2 (en) * 2018-01-18 2021-01-12 Citrix Systems, Inc. Intelligent short text information retrieve based on deep learning

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109614618A (zh) * 2018-06-01 2019-04-12 安徽省泰岳祥升软件有限公司 基于多语义的集外词处理方法及装置
CN109726276A (zh) * 2018-12-29 2019-05-07 中山大学 一种基于深度网络学习的任务型对话系统
CN109960804A (zh) * 2019-03-21 2019-07-02 江西风向标教育科技有限公司 一种题目文本句子向量生成方法及装置
US10769374B1 (en) * 2019-04-24 2020-09-08 Honghui CHEN Answer selection method for question answering system and the system
CN110647619A (zh) * 2019-08-01 2020-01-03 中山大学 一种基于问题生成和卷积神经网络的常识问答方法
CN111539517A (zh) * 2020-04-21 2020-08-14 清华大学 基于图结构矩阵特征向量的图卷积神经网络生成方法
CN111709223A (zh) * 2020-06-02 2020-09-25 上海硬通网络科技有限公司 基于bert的句子向量生成方法、装置及电子设备
CN112016296A (zh) * 2020-09-07 2020-12-01 平安科技(深圳)有限公司 句子向量生成方法、装置、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SEMI-SUPERVISED CLASSIFICATION WITH GRAPH CONVOLUTIONAL NETWORKS;Thomas N.Kipf等;《ICLR 2017》;20170222;第1-14页 *
引入词向量的隐性特征识别研究;聂卉等;《数据分析与知识发现》;20200131(第1期);第99-110页 *

Also Published As

Publication number Publication date
CN113254616A (zh) 2021-08-13

Similar Documents

Publication Publication Date Title
CN113254616B (zh) 面向智能问答系统的句向量生成方法及系统
CN108363695B (zh) 一种基于双向依赖语法树表征的用户评论属性抽取方法
CN114565104A (zh) 语言模型的预训练方法、结果推荐方法及相关装置
CN111538848A (zh) 一种融合多源信息的知识表示学习方法
CN111651557A (zh) 一种自动化文本生成方法、装置及计算机可读存储介质
CN112667818B (zh) 融合gcn与多粒度注意力的用户评论情感分析方法及系统
Xue et al. Generative adversarial learning for optimizing ontology alignment
CN115048447B (zh) 一种基于智能语义补全的数据库自然语言接口系统
CN111125333B (zh) 一种基于表示学习与多层覆盖机制的生成式知识问答方法
CN115510814B (zh) 一种基于双重规划的篇章级复杂问题生成方法
WO2023137911A1 (zh) 基于小样本语料的意图分类方法、装置及计算机设备
CN114692602A (zh) 一种句法信息注意力引导的图卷积网络关系抽取方法
CN112364132A (zh) 基于依存句法的相似度计算模型和系统及搭建系统的方法
CN116151132A (zh) 一种编程学习场景的智能代码补全方法、系统及储存介质
CN114969278A (zh) 一种基于知识增强图神经网络的文本问答模型
CN115759042A (zh) 一种基于句法感知提示学习的句子级问题生成方法
CN113535897A (zh) 一种基于句法关系和意见词分布的细粒度情感分析方法
CN114218928A (zh) 一种基于图知识和主题感知的抽象文本摘要方法
CN111382333B (zh) 基于案件相关性联合学习与图卷积的新闻文本句中案件要素抽取方法
CN116522165B (zh) 一种基于孪生结构的舆情文本匹配系统及方法
CN116401353A (zh) 一种结合内部与外部知识图谱的安全多跳问答方法及系统
CN113010676B (zh) 一种文本知识提取方法、装置及自然语言推断系统
CN115062123A (zh) 一种对话生成系统的知识库问答对生成方法
CN114385799A (zh) 基于常识融合的医疗自动问答方法及系统
CN113590745A (zh) 一种可解释的文本推断方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant