CN110334196B - 基于笔画和自注意力机制的神经网络中文问题生成系统 - Google Patents

基于笔画和自注意力机制的神经网络中文问题生成系统 Download PDF

Info

Publication number
CN110334196B
CN110334196B CN201910572796.0A CN201910572796A CN110334196B CN 110334196 B CN110334196 B CN 110334196B CN 201910572796 A CN201910572796 A CN 201910572796A CN 110334196 B CN110334196 B CN 110334196B
Authority
CN
China
Prior art keywords
vector
word
chinese
question
stroke
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910572796.0A
Other languages
English (en)
Other versions
CN110334196A (zh
Inventor
黎伟
康琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN201910572796.0A priority Critical patent/CN110334196B/zh
Publication of CN110334196A publication Critical patent/CN110334196A/zh
Application granted granted Critical
Publication of CN110334196B publication Critical patent/CN110334196B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明提供一种基于笔画和自注意力机制的神经网络中文问题生成系统,用于根据被获取的中文段落生成相应的中文问题,其特征在于,包括:笔画词向量存储部,用于存储预先训练得到的笔画词向量,中文段落获取部,用于获取中文段落,提示词提取部,用于根据从中文段落中提取多个关键词作为至少一个提示词,词向量转换组合部,用于将中文段落转换为中文词向量、将提示词转换为掩码形式的提示词掩码、并将中文词向量以及提示词掩码与笔画词向量连接形成组合向量,问题词生成部,用于根据组合向量生成多个问题词,中文问题组合输出部,用于将问题词依序组合为中文问题并进行输出。

Description

基于笔画和自注意力机制的神经网络中文问题生成系统
技术领域
本发明属于人工智能领域,涉及一种基于笔画和自注意力机制的神经网络中文问题生成系统。
背景技术
学习提问在人类智能的发展和人工智能系统的发展中都起着重要作用。在许多应用领域中,对问题产生的需求正在迅速增长。问题生成系统旨在根据给定的文章生成各种问题,可以提供根据文章,生成问题作为教育材料来指导学生学习,可以改进问答系统的准确率,还可以帮助聊天机器人冷启动或继续与人交谈。
现有的中文问题生成效果不佳,目前最常用基于规则的系统将陈述句转换为问题,这一种方法需要大量的人力创建规则,现有的基于规则的中文问题生成系统只能生成固定形式的问题,且需要大量的人力支持。由于系统规则中的错误以及一些其他不可避免的错误,这些模型表现不佳。
现有技术基于规则的中文问题生成,或直接使用英文问题生成系统,将带来以下几个问题:第一,若采用基于规则的中文问题生成,需要大量的人力创建规则,生成的问题也具有固定形式,并且无法避免规则中的错误;第二,没有很好利用中文语义与字形相关这一特征,导致中文问题生成系统效果差;第三,直接使用英文问题生成系统,不能解决汉语中经常出现的未登录词(Out Of Vocabulary,OOV)问题。
现列举三种相关技术及其缺点:
相关技术1:专利“一种基于答案与答案位置信息的神经网络问题生成方法”,申请号201811587178.5。该发明专利涉及一种基于拷贝机制的序列到序列模型,基于答案与答案位置信息,问题句生成过程分为三个模式,问题词生成模式,词典词生成模式和拷贝模式。
缺点:该专利是基于英文段落生成英文问题,由于中文中未登录词的数量很多,在生成的问题中无法表示,导致这种方法不能直接应用于中文问题生成。
相关技术2:专利“一种中文相似问题生成系统与方法”,申请号201811360413.5。该发明专利涉及一种中文相似问题生成系统,该系统可以根据相似度在手动标记的语义知识库中定位相应的关键词,通过关键词在语义知识库的关联度和相似度排序输出相似问题。
缺点:该专利需要事先构建语义知识库,这一过程需要大量的人力;而且语义知识库的质量会在很大程度上影响系统的表现,如果语义知识库有错误的话,在问题生成部分会出现不可避免的错误,并且该方法生成的问题质量较差。
相关技术3:专利“一种基于生成式对抗网络的开放式问题自动生成方法”,申请号201811495625。该发明专利涉及一种基于生成式对抗网络的开放式问题自动生成方法,在开放式问题生成上,建立问题自动生成模型包括生成器和鉴别器,采用增强学习的模型对抗训练方法,实现问题自动生成。
缺点:该专利主要针对开放式问题生成,评价标准为是否符合人类提问的语言风格,其针对封闭式问题的生成质量较差,不能很好生成有关某段文本的问题。
发明内容
为解决上述问题,提供一种基于笔画和自注意力机制的神经网络中文问题生成系统,本发明采用了如下技术方案:
本发明提供了一种基于笔画和自注意力机制的神经网络中文问题生成系统,用于根据被获取的中文段落生成相应的中文问题,其特征在于,包括:笔画词向量存储部,用于存储预先训练得到的笔画词向量,中文段落获取部,用于获取中文段落,提示词提取部,用于根据从中文段落中提取多个关键词作为至少一个提示词,词向量转换组合部,用于将中文段落转换为中文词向量、将提示词转换为掩码形式的提示词掩码、并将中文词向量以及提示词掩码与笔画词向量连接形成组合向量,问题词生成部,用于根据组合向量生成多个问题词,中文问题组合输出部,用于将问题词依序组合为中文问题并进行输出,其中,问题词生成部包括记忆向量生成单元、隐藏状态向量生成单元、复制词向量生成单元、生成词向量生成单元以及问题词生成单元,记忆向量生成单元将组合向量输入一个双层双向的长短期记忆网络从而生成一个融合了笔画词向量、中文段落以及提示词掩码的记忆向量,隐藏状态向量生成单元将记忆向量输入至一个基于注意力机制的长短期记忆网络从而生成隐藏状态向量,复制词向量生成单元将隐藏状态向量输入基于自注意力机制的复制预测器从而生成得到复制词向量,生成词向量生成单元将隐藏状态向量输入基于全连接层的生成预测器从而生成得到生成词向量,问题词生成单元根据复制词向量、生成词向量以及复制门依次计算与各个提示词相对应的问题词。
本发明提供的基于笔画和自注意力机制的神经网络中文问题生成系统,还可以具有这样的技术特征,其中,笔画词向量为预先通过中文笔画形态学表征方法训练获得,该中文笔画形态学表征方法包括如下步骤:步骤A1,获取中文语料库以及笔画字典;步骤A2,通过分词方法分割中文语料库从而获取语料库单词,并构建语料库单词到笔画字典;步骤A3,通过多头注意力机制训练并得到笔画词向量,步骤A3中,用S表示从笔画字典中得到的笔画向量,注意机制中的Q,K和V表示同源的笔画结构向量,即:
Figure BDA0002111318120000041
Figure BDA0002111318120000042
Figure BDA0002111318120000043
Figure BDA0002111318120000044
式中,三个权重矩阵
Figure BDA0002111318120000045
的初始化是随机初始化,KT表示矩阵K的转置,dk为缩放因子,是一个常数,一般为K的维度,进一步,通过多头注意力机制计算不同语义层次的笔画结构向量之间的关系,即,
Figure BDA0002111318120000046
MultiHead(Q,K,V)=Concat(H1,…,Hh)WO (6)
式中,Hi表示第i个注意力值,Wi Q,
Figure BDA0002111318120000047
Wi V分别表示第i个Q、K、V的权重矩阵,通过重复公式(1)至公式(6)对原始语料进行训练,最终得到与各个笔画结构向量相对应的笔画词向量。
本发明提供的基于笔画和自注意力机制的神经网络中文问题生成系统,还可以具有这样的技术特征,其中,记忆向量生成单元生成记忆向量时,使用双层双向的长短期记忆网络来组合中文词XP和提示词MA,正向
Figure BDA0002111318120000051
的输出用/>
Figure BDA0002111318120000052
表示,反向/>
Figure BDA0002111318120000053
的输出用/>
Figure BDA0002111318120000054
表示:
Figure BDA0002111318120000055
Figure BDA0002111318120000056
Figure BDA0002111318120000057
式中,st为LSTM输出的隐藏状态矩阵,
Figure BDA0002111318120000058
为t时刻的组合中文词XP,/>
Figure BDA0002111318120000059
为t时刻的提示词MA,隐藏状态向量生成单元生成隐藏状态向量时,通过一个基于注意力机制的长短期记忆网络来补充依赖于上下文的全局语义信息:
Figure BDA00021113181200000510
Figure BDA00021113181200000511
Figure BDA00021113181200000512
Figure BDA00021113181200000513
ht=Ot·tanh(Ct) (14)
Figure BDA00021113181200000514
式中,xt代表t时刻输入LSTM的向量,
Figure BDA00021113181200000515
代表t-1时刻LSTM的中间隐藏状态向量,ht代表t时刻的隐藏状态向量,ft代表t时刻的遗忘门,it代表t时刻的输入门,Ot代表t时刻的输出门,Ct代表t时刻的细胞状态,Wf,Wi,WO,WC分别代表遗忘门、输入门、输出门、细胞状态的权重矩阵,bf,bi,bO,bC分别代表遗忘门、输入门、输出门、细胞状态的偏移矩阵,σ为ReLU激活函数,
本发明提供的基于笔画和自注意力机制的神经网络中文问题生成系统,还可以具有这样的技术特征,其中,基于自注意力机制的复制预测器通过自我注意力来加强长距离依赖性以获得一个k维向量,其中k是序列的长度,代表复制概率,表示从原始文本复制的概率,复制预测器的计算式可概括为:
Figure BDA0002111318120000061
Figure BDA0002111318120000062
式中,Pcopy为复制词向量的概率向量,
Figure BDA0002111318120000063
为中间概率向量,st为LSTM输出的隐藏状态矩阵,hs为隐藏状态向量,WQ,WK,WV分别表示笔画结构向量Q、K、V的权重矩阵,Wc Q,/>
Figure BDA0002111318120000064
Wc V分别表示自注意力机制的Q、K、V权重矩阵,生成预测器为softmax预测器,由全连接层和logsoftmax层组成,该生成预测器的计算式可概括为:
Pgenerate=σ(Wgenerate·hs+bgenerate) (18)
式中,Pgenerate为生成词向量的概率向量,σ为ReLU激活函数,Wgenerate为生成概率向量的权重矩阵,bgenerate为生成概率向量的偏移矩阵,复制门为由组合器获得的二维向量gc,组合器由两个全连接层组成,该组合器的计算式可概括为:
gc=σ(Wg·hs+bg) (19)
式中,hs代表隐藏状态矩阵,Wg代表隐藏状态矩阵的权重矩阵,bg代表隐藏状态矩阵的偏移矩阵,gc代表系统复制文本的概率,σ为ReLU激活函数,通过公式(16)至公式(19)计算得到的复制词向量Pcopy、生成词向量Pgenerate以及复制门gc,问题词生成单元计算问题词的方法为:
Pfinal=gcPcopy+(1-gc)Pgenerate (20)
式中,Pgenerate为生成词向量的概率向量,Pcopy为复制词向量的概率向量,gc代表系统复制文本的概率,Pfinal为系统输出词向量的概率向量,问题词生成单元通过选取Pfinal最大对应的词,得到t时刻的问题词wt
本发明提供的基于笔画和自注意力机制的神经网络中文问题生成系统,还可以具有这样的技术特征,其中,还具有问题生成数量存储部以及问题生成控制部,问题生成数量存储部存储有预先设定的问题设定数量,问题生成控制部根据问题设定数量控制问题词生成部生成相应数量组的问题词,并依次控制中文问题组合输出部将各组问题词依序组合为多组中文问题并输出。
本发明提供的基于笔画和自注意力机制的神经网络中文问题生成系统,还可以具有这样的技术特征,其中,提示词提取部通过预设的提取方法提取提示词,提取方法为根据预设的提取关键词提取或是随机提取。
发明作用与效果
根据本发明的基于笔画和自注意力机制的神经网络中文问题生成系统,由于通过中文段落获取部对中文段落进行获取,并通过提示词提取部从该中文段落中提取提示词、词向量转换组合部将中文段落、提示词、笔画词向量存储部中存储的笔画词向量转换组合为组合向量,进一步通过问题词生成部根据组合向量生成多个问题词,最后由中文问题组合输出部将问题词组合为一个中文问题并输出,实现了全自动地对获取的中文段落生成相应的中文问题,从而节省大量的人力。本发明无需事先构建语义知识库,通过引入中文笔画形态学表征算法(CME)构建笔画词向量、引入基于答案的多样性问题生成方法(MT)提高问题生成的多样性、以及引入基于自注意力的复制算法(SC)提高问题与段落的相关性,使得问题生成过程能够更多的结合中文特点,提高问题的生成效果。
附图说明
图1是本发明实施例中中文问题生成系统的结构框图;
图2是本发明实施例中中文笔画形态学表征方法架构图;
图3是本发明实施例中中文问题生成系统的系统架构图;
图4是本发明实施例中问题词生成部的结构框图;以及
图5是本发明实施例中问题生成过程的流程图。
具体实施方式
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,以下结合实施例及附图对本发明的基于笔画和自注意力机制的神经网络中文问题生成系统作具体阐述。
<实施例>
图1是本发明实施例中中文问题生成系统的结构框图。
如图1所示,中文问题生成系统100包括笔画词向量存储部1、中文段落获取部2、问题生成数量存储部3、问题生成控制部4、提示词提取部5、词向量转换组合部6、问题词生成部7、中文问题组合输出部8、系统通信部9以及系统控制部10。
其中,系统通信部9用于进行中文问题生成系统100的各个构成部件之间以及中文问题生成系统100与其他系统之间的数据交换,系统控制部10包含有用于对中文问题生成系统100的各个构成部件工作进行控制的计算机程序。
笔画词向量存储部1中存储有预先训练得到的笔画词向量。
本实施例中,笔画词向量为中文问题生成系统100预先通过大语料、利用无监督的方式、并基于自适应中文笔划形态学表征算法获取中文词的形态学向量,该笔画词向量以词典的形式保存在笔画词向量存储部1中。
由于汉字的内部结构会传达一定的语义信息,因此大多数基于英语输入的模型在中文任务中表现不佳,中文问题生成任务的表现比英语差。本实施例通过中文笔画形态学表征算法(Chinese Morphological Extraction(CME)Algorithm)构建系统中的中文形态水平向量(即笔画词向量)。
本实施例中,首先使用结巴分词(https://pypi.org/project/jieba/)来分割中文语料库,获取语料库单词,然后构建单词到笔画字典(http://www.zdic.net/)。
中文笔画形态学表征算法架构如图2所示。用S表示从笔画字典中得到的笔画,三个权重矩阵具有由
Figure BDA0002111318120000101
表示的随机初始化权重。为了获得笔画结构内部的关系,我们使用了自注意力机制。因此,注意机制中的Q,K和V是同源的,都是笔画结构向量,即:
Figure BDA0002111318120000102
Figure BDA0002111318120000103
Figure BDA0002111318120000104
Figure BDA0002111318120000105
式中,三个权重矩阵
Figure BDA0002111318120000106
的初始化是随机初始化,KT表示矩阵K的转置,dk为缩放因子,该缩放因子是一个常数,一般为K的维度。
为了获得不同语义层次的笔画结构之间的关系,本实施例采用了多头注意力机制。多头注意力机制侧重于来自不同子空间的不同位置对的相关性,即,
Figure BDA0002111318120000107
MultiHead(Q,K,V)=Concat(H1,…,Hh)WO (6)
式中,Hi表示第i个注意力值,Wi Q,Wi K,Wi V分别表示第i个Q、K、V的权重矩阵。
接下来将从多头注意力机制中提取的笔画词向量与字词向量连接起来,然后将LSTM层的输出作为感知层的输入。
在笔画词向量训练期间,CME的任务是预测下一个单词,如图2所示,预测给出“上海哪个医院”这一文本的下一个词是“骨科”。在对DuReader语料库进行训练之后,笔画词向量存储部11保存与笔画相对应的笔画词向量,从而让后面的模块中使用它。
中文段落获取部2用于获取中文段落。该中文段落为文本形式的中文字段,可以包含是一句或多句的中文语句。
本实施例中,中文段落获取部2获取的中文段落为用户通过与中文问题生成系统100相连接的输入显示设备(例如键盘、显示器等)输入得到。在其他实施例中,中文问题生成系统100还能够与其他系统(例如智能聊天系统)相通信连接,此时中文段落获取部2从其他系统中需要处理的中文段落。
问题生成数量存储部3存储有预先设定的问题设定数量。
本实施例中,问题设定数量为用户通过与中文问题生成系统100相连接的输入显示设备(例如键盘、显示器等)输入得到。在其他实施例中,中文问题生成系统100还能够与其他系统(例如智能聊天系统)相通信连接,此时问题生成数量存储部3直接从其他系统中获取需要设定的问题设定数量并进行存储。
问题生成控制部4用于对涉及问题生成过程的部件的工作进行控制,具体为控制问题词生成部7将组合向量输入预先训练完成的中文问题神经网络模型从而得到多个问题词,并控制中文问题组合输出部8将问题词依序组合为中文问题并进行输出。
本实施例中,问题生成控制部4会根据问题生成数量存储部3中存储的问题设定数量多次控制提示词提取部5、词向量转换组合部6、问题词生成部7以及中文问题组合输出部8根据输入的一段中文段落生成多个不同的中文问题并进行输出。
具体地,在生成每个中文问题时,系统的架构如图3所示,各部件(提示词提取部5、词向量转换组合部6、问题词生成部7以及中文问题组合输出部8)的功能如下:
提示词提取部5用于根据预设的提取方法从中文段落中提取一个或多个关键词作为一个提示词。
本实施例中,提示词用于使系统在针对于同一段中文段落时,能够从不同方向生成不同问题。一个提示词可以仅包含一个关键词,也可以包含有多个关键词。
本实施例中,预设的提取方法可以为根据预先在系统中设置的提取关键词从中文段落中提取相应的关键词,也可以为随机从中文段落中提取关键词。
词向量转换组合部6用于将中文段落转换为中文词向量、将提示词提取部5提取到的提示词转换为掩码形式的提示词掩码、并将中文词向量以及提示词掩码与笔画词向量连接形成组合向量。
本实施例中,词向量转换组合部6在将中文段落转换为中文词向量时,首先通过分词方法(例如结巴分词)将获取的中文段落划分为多个词组,进一步将各个词组转换为词向量。
本实施例中,如图3所示,以中文段落获取部2获取了中文段落“越南可以买的纪念品:包括越南国服、漆器、油画、编织品等等。越南还有很多特产可以参考:……”为例:该中文段落通过词向量转换组合部6进行分词转换后得到8个中文词向量(Word Embedding),即图3中w1~w8;进一步,词向量转换组合部6将该中文词向量与相应的提示词掩码(MaskedTarget Embedding)以及笔画词向量(Stroke Embedding)连接形成组合向量。
本实施例中,问题词生成部7包含一个预先训练完成的中文问题神经网络模型,用于计算组合向量并生成多个问题词,其具体由基于答案的多样性问题生成方法(MaskedTarget(MT)Module)以及基于自注意力的复制算法(Self-attention Copy(SC)Module)构成。
如图4所示,问题词生成部7包括记忆向量生成单元71、隐藏状态向量生成单元72、复制词向量生成单元73、生成词向量生成单元74、问题词生成单元75、通信单元76以及控制单元77。
对于同一段的中文段落,为了从不同的方向产生不同的问题,本实施例在系统中引入基于答案(即提示词)的多样性问题生成方法(Masked Target(MT)Module),记忆向量生成单元71以及隐藏状态向量生成单元72包含有采用该MT方法的计算机程序。
记忆向量生成单元71用于将组合向量输入一个双层双向的长短期记忆网络从而生成一个融合了笔画词向量、中文段落以及提示词掩码的记忆向量。
本实施例中,记忆向量生成单元71在生成记忆向量时,使用双层双向的长短期记忆网络来组合中文词XP(即中文词向量)和提示词MA(即提示词掩码),其可以从两个方向捕获语义信息。对于一个段落的各个关键词(即中文词向量)通过t时刻表示,正向
Figure BDA0002111318120000141
的输出用/>
Figure BDA0002111318120000142
表示,反向/>
Figure BDA0002111318120000143
的输出用/>
Figure BDA0002111318120000144
表示:
Figure BDA0002111318120000145
Figure BDA0002111318120000146
Figure BDA0002111318120000147
式中,st为LSTM输出的隐藏状态矩阵,
Figure BDA0002111318120000148
为t时刻的中文词XP,/>
Figure BDA0002111318120000149
为t时刻的提示词MA
隐藏状态向量生成单元72用于将记忆向量输入至一个基于注意力机制的长短期记忆网络从而生成隐藏状态向量。
本实施例中,隐藏状态向量生成单元72生成隐藏状态向量时,通过一个基于注意力机制的长短期记忆网络(LSTM)来补充依赖于上下文的全局语义信息:
Figure BDA00021113181200001410
Figure BDA00021113181200001411
Figure BDA00021113181200001412
Figure BDA00021113181200001413
ht=Ot·tanh(Ct) (14)
Figure BDA00021113181200001414
式中,xt代表t时刻输入LSTM的向量,
Figure BDA00021113181200001415
代表t-1时刻LSTM的中间隐藏状态向量,ht代表t时刻的隐藏状态向量,ft代表t时刻的遗忘门,it代表t时刻的输入门,Ot代表t时刻的输出门,Ct代表t时刻的细胞状态,Wf,Wi,WO,WC分别代表遗忘门、输入门、输出门、细胞状态的权重矩阵,bf,bi,bO,bC分别代表遗忘门、输入门、输出门、细胞状态的偏移矩阵,σ为ReLU激活函数。
如图3所示,我们用hs(Hidden States)表示基于答案的多样性问题生成算法的输出,它混合了通过、回答和问题的高级语义信息。
由于汉语词汇的组合比英语更丰富,在中文分词后,汉语更倾向于生成词表外的词汇,因此本实施例在基于自注意力的复制算法(Self-attention Copy(SC)Module)中,还引入了一种复制机制并改善了这种现象。复制词向量生成单元73、生成词向量生成单元74以及问题词生成单元75包含有采用该SC方法执行的计算机程序。
复制词向量生成单元73用于将隐藏状态向量输入基于自注意力机制的复制预测器从而生成得到复制词向量。
本实施例中,复制词向量生成单元73用于计算隐藏状态矩阵hs(即由隐藏状态向量组成的矩阵)和上下文词向量st之间的相关性。本实施例通过自我注意力来加强长距离依赖性以获得一个k维向量,其中k是序列的长度,代表复制概率,表示从原始文本复制的概率。复制预测器的计算式可概括为:
Figure BDA0002111318120000151
Figure BDA0002111318120000152
式中,Pcopy为所述复制词向量的概率向量,
Figure BDA0002111318120000153
为中间概率向量,st为LSTM输出的隐藏状态矩阵,hs为所述隐藏状态向量,WQ,WK,WV分别表示笔画结构向量Q、K、V的权重矩阵,
Figure BDA0002111318120000161
Wc V分别表示自注意力机制的Q、K、V权重矩阵,
生成词向量生成单元74用于将隐藏状态向量输入基于全连接层的生成预测器从而生成得到生成词向量。
本实施例中,生成预测器为一个softmax预测器,用于指导模型在词汇表中生成单词的概率,它由全连接层和logsoftmax层组成,该生成预测器的计算式可概括为:
Pgenerate=σ(Wgenerate·hs+bgenerate) (18)
式中,Pgenerate为所述生成词向量的概率向量,σ为ReLU激活函数,Wgenerate为生成概率向量的权重矩阵,bgenerate为生成概率向量的偏移矩阵。
问题词生成单元75用于根据复制词向量、生成词向量以及复制门依次计算与各个提示词相对应的问题词。
本实施例中,复制门为由组合器获得的二维向量gc,该gc代表了复制文本的概率,用于指导系统选择在词汇表中生成单词还是选择从文本段落中复制。组合器由两个全连接层组成,该组合器的计算式可概括为:
gc=σ(Wg·hs+bg) (19)
式中,hs代表隐藏状态矩阵,Wg代表隐藏状态矩阵的权重矩阵,bg代表隐藏状态矩阵的偏移矩阵,σ为ReLU激活函数。
通过公式(16)至公式(19)计算得到的所述复制词向量Pcopy、所述生成词向量Pgenerate以及所述复制门gc,所述问题词生成单元计算所述问题词的方法为:
Pfinal=gcPcopy+(1-gc)Pgenerate (20)
式中,Pcopy为所述复制词向量的概率向量,Pgenerate为所述生成词向量的概率向量,gc代表系统复制文本的概率(即复制门),Pfinal为系统输出词向量的概率向量。
问题词生成单元75通过公式(20)计算得到Pfinal,并通过选取Pfinal最大概率对应的词,进一步得到t时刻的问题词wt
通信单元76用于进行问题词生成部7的各个构成单元之间以及问题词生成部7与其他部件之间的数据交换。
控制单元77包含有用于对问题词生成部7的各个构成单元工作进行控制的计算机程序。
中文问题组合输出部8用于将问题词生成部7生成的多个问题词依序组合为一个中文问题并进行输出。
本实施例中,中文问题组合输出部8通过与中文问题生成系统100相连接的输入显示设备(例如键盘、显示器等)将中文问题输出给用户。在其他实施例中,中文问题生成系统100还能够与其他系统(例如智能聊天系统)相通信连接,此时中文问题组合输出部8将中文问题直接输出给其他系统。
本实施例中,输出的问题与其他系统的问题相对比:
表I.系统生成问题对比
Figure BDA0002111318120000171
Figure BDA0002111318120000181
从表1中可以看出,本实施例通过引入中文笔画形态学表征算法(CME)、基于答案的多样性问题生成方法(MT)以及基于自注意力的复制算法(SC),最终生成了与输入的中文段落(真实问题)完全不同、但是有一定联系的中文问题,并且该问题的逻辑通顺。
本实施例中,系统的表现与其他系统相对比:
表2 不同系统表现对比
Figure BDA0002111318120000182
通过表2可以看出,本发明系统相对于其他系统,在中文问题生成上效果显著,其中CME减轻了系统生成中文未登录词的情况,对模型提升效果明显,MT生成了多样性的问题,SC获取了文本中细粒度的语义信息。
图5是本发明实施例中问题生成过程的流程图。
如图5所示,本实施例的基于笔画和自注意力机制的神经网络中文问题生成系统100中,问题生成过程包括如下步骤:
步骤S1,中文段落获取部2获取中文段落,然后进入步骤S2;
步骤S2,根据问题生成数量存储部3中存储的问题设定数量,问题生成控制部4控制相应部件生成中文问题,并判断生成的中文问题的数量是否达到问题设定数量,若未达到问题设定数量则进入步骤S3,若达到问题设定数量则进入结束状态;
步骤S3,问题生成控制部4控制提示词提取部5从步骤S1获取的中文段落提取提示词,然后进入步骤S4;
步骤S4,问题生成控制部4控制词向量转换组合部6将步骤S1获取的中文段落转换为中文词向量、步骤S3提取的提示词转换为提示词掩码,并将中文词向量、提示词掩码以及笔画词向量存储部1中存储的笔画词向量连接形成组合向量,然后进入步骤S5;
步骤S5,问题生成控制部4控制问题词生成部7根据步骤S4中得到的组合向量生成多个问题词,然后进入步骤S6;
步骤S6,问题生成控制部4控制中文问题组合输出部8将步骤S5中生成的多个问题词依序组合为一个中文问题并进行输出,然后返回步骤S2。
实施例作用与效果
根据本实施例提供的基于笔画和自注意力机制的神经网络中文问题生成系统,由于通过中文段落获取部对中文段落进行获取,并通过提示词提取部从该中文段落中提取提示词、词向量转换组合部将中文段落、提示词、笔画词向量存储部中存储的笔画词向量转换组合为组合向量,进一步通过问题词生成部根据组合向量生成多个问题词,最后由中文问题组合输出部将问题词组合为一个中文问题并输出,实现了全自动地对获取的中文段落生成相应的中文问题,从而节省大量的人力。本发明无需事先构建语义知识库,通过引入中文笔画形态学表征算法(CME)构建笔画词向量、引入基于答案的多样性问题生成方法(MT)提高问题生成的多样性、以及引入基于自注意力的复制算法(SC)提高问题与段落的相关性,使得问题生成过程能够更多的结合中文特点,提高问题的生成效果。
实施例中,由于通过中文笔画形态学表征算法(CME)计算获取笔画词向量,从而基于中文形态自适应地引入额外的中文笔画向量用于中文问题生成,使得中文含有的笔画图形通常带有的自身含义被考虑至问题生成过程中。因此本发明的中文问题生成系统能够结合中文特点进行更优的问题生成,克服了通常技术中直接将一些基于英文的问题生成技术应用在中文时、其生成的问题表现不好的问题。
实施例中,由于通过基于答案的多样性问题生成方法(MT),设置提示词提取部从中文段落中提取提示词、并设置记忆向量生成单元以及隐藏状态向量生成单元计算记忆向量以及隐藏状态向量,从而实现了针对同一文本生成多样性问题,可以充分利用文本,生成大量问题,方便本发明的后续部署应用。
实施例中,由于通过基于自注意力的复制算法(SC),设置复制词向量生成单元、生成词向量生成单元以及问题词生成单元从中文段落中随机决定复制或是生成问题词,很好的缓解了生成的中文问题里容易出现未登录词的问题,并且提高了中文问题与原中文段落的相关性。
实施例中,由于具有问题生成数量存储部,因此在通过基于答案的多样性问题生成方法(MT)的支持下,问题生成控制部能够根据其存储的问题设定数量控制提示词提取部从中文段落中提取相应数量提示词,并控制相应部件根据同一段的中文段落生成相应数量的中文问题,解决了过去针对一段固定的文字只能生成一个问题、并且该问题始终为同一个的问题。
上述实施例仅用于举例说明本发明的具体实施方式,而本发明不限于上述实施例的描述范围。

Claims (5)

1.一种基于笔画和自注意力机制的神经网络中文问题生成系统,用于根据被获取的中文段落生成相应的中文问题,其特征在于,包括:
笔画词向量存储部,用于存储预先训练得到的笔画词向量,
中文段落获取部,用于获取所述中文段落,
提示词提取部,用于根据预设的提取方法从所述中文段落中提取一个或多个关键词作为一个提示词,
词向量转换组合部,用于将所述中文段落转换为中文词向量、将所述提示词转换为掩码形式的提示词掩码、并将所述中文词向量以及所述提示词掩码与所述笔画词向量组合形成组合向量,
问题词生成部,用于根据所述组合向量生成多个问题词,
中文问题组合输出部,用于将所述问题词依序组合为一个所述中文问题并进行输出,实现全自动地对获取的中文段落生成相应的中文问题,
其中,所述问题词生成部包含一个预先训练完成的中文问题神经网络模型,用于计算组合向量并生成多个问题词,该模型由基于答案的多样性问题生成方法以及基于自注意力的复制算法构成,
所述问题词生成部包括记忆向量生成单元、隐藏状态向量生成单元、复制词向量生成单元、生成词向量生成单元以及问题词生成单元,其中,所述记忆向量生成单元和所述隐藏状态向量生成单元包含有采用所述基于答案的多样性问题生成方法的计算机程序,
所述记忆向量生成单元将所述组合向量输入一个双层双向的长短期记忆网络从而生成一个融合了所述笔画词向量、所述中文段落以及所述提示词掩码的记忆向量,
所述隐藏状态向量生成单元将所述记忆向量输入至一个基于注意力机制的长短期记忆网络从而生成隐藏状态向量,
所述复制词向量生成单元将所述隐藏状态向量输入基于自注意力机制的复制预测器从而生成得到复制词向量,
所述生成词向量生成单元将所述隐藏状态向量输入基于全连接层的生成预测器从而生成得到生成词向量,
所述问题词生成单元根据所述复制词向量、所述生成词向量以及复制门依次计算与各个所述提示词相对应的所述问题词,其中,所述笔画词向量为预先通过中文笔画形态学表征方法训练获得,该中文笔画形态学表征方法包括如下步骤:
步骤A1,获取中文语料库以及笔画字典;
步骤A2,通过分词方法分割所述中文语料库从而获取语料库单词,并构建所述语料库单词到所述笔画字典;
步骤A3,通过多头注意力机制训练并得到所述笔画词向量,
所述步骤A3中,用S表示从所述笔画字典中得到的笔画向量,注意机制中的Q,K和V表示同源的笔画结构向量,即:
Figure QLYQS_1
Figure QLYQS_2
Figure QLYQS_3
Figure QLYQS_4
式中,三个权重矩阵
Figure QLYQS_5
的初始化是随机初始化,KT表示矩阵K的转置,dk为缩放因子,该缩放因子是一个常数,一般为K的维度,
进一步,通过多头注意力机制计算不同语义层次的所述笔画结构向量之间的关系,即,
Figure QLYQS_6
MulitiHead(Q,K,V)=Concat(H1,…,Hh)WO (6)
式中,Hi表示第i个注意力值,
Figure QLYQS_7
分别表示第i个Q、K、V的权重矩阵,
通过重复公式(1)至公式(6)对原始语料进行训练,最终得到与各个所述笔画结构向量相对应的所述笔画词向量。
2.根据权利要求1所述的基于笔画和自注意力机制的神经网络中文问题生成系统,其特征在于:
其中,所述记忆向量生成单元生成所述记忆向量时,使用双层双向的长短期记忆网络来组合中文词XP和提示词MA,将一个所述中文段落的各个中文词通过t时刻表示,正向
Figure QLYQS_8
的输出用/>
Figure QLYQS_9
表示,反向/>
Figure QLYQS_10
的输出用/>
Figure QLYQS_11
表示:
Figure QLYQS_12
Figure QLYQS_13
Figure QLYQS_14
式中,st为LSTM输出的隐藏状态矩阵,
Figure QLYQS_15
为t时刻的中文词XP,/>
Figure QLYQS_16
为t时刻的提示词MA
所述隐藏状态向量生成单元生成所述隐藏状态向量时,通过一个基于注意力机制的长短期记忆网络来补充依赖于上下文的全局语义信息:
Figure QLYQS_17
Figure QLYQS_18
Figure QLYQS_19
Figure QLYQS_20
ht=Ot·tanh(Ct) (14)
Figure QLYQS_21
式中,ft代表t时刻的遗忘门,it代表t时刻的输入门,Ot代表t时刻的输出门,Ct代表t时刻的细胞状态,σ为ReLU激活函数,
Figure QLYQS_22
代表t-1时刻LSTM的中间隐藏状态向量,xt代表t时刻输入LSTM的向量,Wf,Wi,WO,WC分别代表遗忘门、输入门、输出门、细胞状态的权重矩阵,bf,bi,bO,bC分别代表遗忘门、输入门、输出门、细胞状态的偏移矩阵,ht代表t时刻的隐藏状态向量,/>
Figure QLYQS_23
代表t时刻LSTM的中间隐藏状态向量。
3.根据权利要求1所述的基于笔画和自注意力机制的神经网络中文问题生成系统,其特征在于:
其中,所述基于自注意力机制的复制预测器通过自我注意力来加强长距离依赖性以获得一个k维向量,其中k是序列的长度,代表复制概率,表示从原始文本复制的概率,所述复制预测器的计算式可概括为:
Figure QLYQS_24
Figure QLYQS_25
式中,Pcopy为所述复制词向量的概率向量,
Figure QLYQS_26
为中间概率向量,st为LSTM输出的隐藏状态矩阵,hs为所述隐藏状态向量,WQ,WK,WV分别表示笔画结构向量Q、K、V的权重矩阵,
Figure QLYQS_27
分别表示自注意力机制的Q、K、V的权重矩阵,
所述生成预测器为softmax预测器,由全连接层和logsoftmax层组成,该生成预测器的计算式可概括为:
Pgenerate=σ(Wgenerate·hs+bgenerate) (18)
式中,Pgenerate为所述生成词向量的概率向量,σ为ReLU激活函数,Wgenerate为生成概率向量的权重矩阵,bgenerate为生成概率向量的偏移矩阵,
所述复制门为由组合器获得的二维向量gc,该gc代表了复制文本的概率,所述组合器由两个全连接层组成,该组合器的计算式可概括为:
gc=σ(Wg·hs+bg) (19)
式中,σ为ReLU激活函数,Wg代表隐藏状态矩阵的权重矩阵,hs代表隐藏状态矩阵,bg代表隐藏状态矩阵的偏移矩阵,
通过公式(16)至公式(19)计算得到的所述复制词向量Pcopy、所述生成词向量Pgenerate以及所述复制门gc,所述问题词生成单元计算所述问题词的计算式为:
Pfinal=gcPcopy+(1-gc)Pgenerate (20)
式中,Pfinal为系统输出词向量的概率向量,
所述问题词生成单元通过选取Pfinal最大对应的词,得到t时刻的问题词wt
4.根据权利要求1所述的基于笔画和自注意力机制的神经网络中文问题生成系统,其特征在于:
其中,还具有问题生成数量存储部以及问题生成控制部,
所述问题生成数量存储部存储有预先设定的问题设定数量,
所述问题生成控制部根据所述问题设定数量多次控制所述提示词提取部提取相应数量的多个所述提示词,并控制所述词向量转换组合部分别根据各个所述提示词组合相应数量的多个所述组合向量,进一步控制所述问题词生成部依次根据各个所述组合向量生成相应数量的多组所述问题词,最后控制所述中文问题组合输出部依次将多次生成的各组所述问题词依序组合为多个所述中文问题并输出。
5.根据权利要求1所述的基于笔画和自注意力机制的神经网络中文问题生成系统,其特征在于:
其中,所述提取方法为根据预设的提取关键词提取或是随机提取。
CN201910572796.0A 2019-06-28 2019-06-28 基于笔画和自注意力机制的神经网络中文问题生成系统 Active CN110334196B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910572796.0A CN110334196B (zh) 2019-06-28 2019-06-28 基于笔画和自注意力机制的神经网络中文问题生成系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910572796.0A CN110334196B (zh) 2019-06-28 2019-06-28 基于笔画和自注意力机制的神经网络中文问题生成系统

Publications (2)

Publication Number Publication Date
CN110334196A CN110334196A (zh) 2019-10-15
CN110334196B true CN110334196B (zh) 2023-06-27

Family

ID=68144514

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910572796.0A Active CN110334196B (zh) 2019-06-28 2019-06-28 基于笔画和自注意力机制的神经网络中文问题生成系统

Country Status (1)

Country Link
CN (1) CN110334196B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111144105B (zh) * 2019-12-17 2023-03-14 浙江大华技术股份有限公司 词句的处理方法、装置及计算机存储介质
CN111222338A (zh) * 2020-01-08 2020-06-02 大连理工大学 基于预训练模型和自注意力机制的生物医学关系抽取方法
CN111428012B (zh) * 2020-03-02 2023-05-26 平安科技(深圳)有限公司 基于注意力机制的智能问答方法、装置、设备和存储介质
CN113095086B (zh) * 2021-04-08 2024-03-01 思必驰科技股份有限公司 义原预测方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106919646A (zh) * 2017-01-18 2017-07-04 南京云思创智信息科技有限公司 中文文本摘要生成系统及方法
CN107168952A (zh) * 2017-05-15 2017-09-15 北京百度网讯科技有限公司 基于人工智能的信息生成方法和装置
CN108345580A (zh) * 2017-01-22 2018-07-31 阿里巴巴集团控股有限公司 一种词向量处理方法及装置
CN108874174A (zh) * 2018-05-29 2018-11-23 腾讯科技(深圳)有限公司 一种文本纠错方法、装置以及相关设备
CN109271505A (zh) * 2018-11-12 2019-01-25 深圳智能思创科技有限公司 一种基于问题答案对的问答系统实现方法
CN109657041A (zh) * 2018-12-04 2019-04-19 南京理工大学 基于深度学习的问题自动生成方法
CN109684452A (zh) * 2018-12-25 2019-04-26 中科国力(镇江)智能技术有限公司 一种基于答案与答案位置信息的神经网络问题生成方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106919646A (zh) * 2017-01-18 2017-07-04 南京云思创智信息科技有限公司 中文文本摘要生成系统及方法
CN108345580A (zh) * 2017-01-22 2018-07-31 阿里巴巴集团控股有限公司 一种词向量处理方法及装置
CN107168952A (zh) * 2017-05-15 2017-09-15 北京百度网讯科技有限公司 基于人工智能的信息生成方法和装置
CN108874174A (zh) * 2018-05-29 2018-11-23 腾讯科技(深圳)有限公司 一种文本纠错方法、装置以及相关设备
CN109271505A (zh) * 2018-11-12 2019-01-25 深圳智能思创科技有限公司 一种基于问题答案对的问答系统实现方法
CN109657041A (zh) * 2018-12-04 2019-04-19 南京理工大学 基于深度学习的问题自动生成方法
CN109684452A (zh) * 2018-12-25 2019-04-26 中科国力(镇江)智能技术有限公司 一种基于答案与答案位置信息的神经网络问题生成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Chinese Language Processing Based on Stroke Representation and Multidimensional Representation;HANG ZHUANG et al.;《IEEE Access》;20180726;第3、4节 *

Also Published As

Publication number Publication date
CN110334196A (zh) 2019-10-15

Similar Documents

Publication Publication Date Title
CN110334196B (zh) 基于笔画和自注意力机制的神经网络中文问题生成系统
CN108733792B (zh) 一种实体关系抽取方法
CN108875807B (zh) 一种基于多注意力多尺度的图像描述方法
CN108984745B (zh) 一种融合多知识图谱的神经网络文本分类方法
Fidler Teaching machines to describe images with natural language feedback
CN109544524A (zh) 一种基于注意力机制的多属性图像美学评价系统
CN107578106A (zh) 一种融合单词语义知识的神经网络自然语言推理方法
CN106126507A (zh) 一种基于字符编码的深度神经翻译方法及系统
CN112541063B (zh) 一种基于自学习对话模型的人机对话方法及系统
CN110096711A (zh) 序列全局关注和局部动态关注的自然语言语义匹配方法
CN108628935A (zh) 一种基于端到端记忆网络的问答方法
CN109887484A (zh) 一种基于对偶学习的语音识别与语音合成方法及装置
CN110457661B (zh) 自然语言生成方法、装置、设备及存储介质
CN107590127A (zh) 一种题库知识点自动标注方法及系统
CN107679225B (zh) 一种基于关键词的回复生成方法
KR102352251B1 (ko) 자질 선별을 통한 고성능 기계독해 방법
CN112527993B (zh) 一种跨媒体层次化深度视频问答推理框架
CN110162789A (zh) 一种基于汉语拼音的词表征方法及装置
CN111125333A (zh) 一种基于表示学习与多层覆盖机制的生成式知识问答方法
CN110597968A (zh) 一种回复选择方法及装置
Guan et al. Repeated review based image captioning for image evidence review
CN112000788A (zh) 一种数据处理方法、装置以及计算机可读存储介质
Bao et al. Question generation with doubly adversarial nets
CN114328866A (zh) 应答流畅准确的强拟人化智能对话机器人
Poghosyan et al. Short-term memory with read-only unit in neural image caption generator

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant