CN111241304B - 基于深度学习的答案生成方法、电子装置及可读存储介质 - Google Patents
基于深度学习的答案生成方法、电子装置及可读存储介质 Download PDFInfo
- Publication number
- CN111241304B CN111241304B CN202010046149.9A CN202010046149A CN111241304B CN 111241304 B CN111241304 B CN 111241304B CN 202010046149 A CN202010046149 A CN 202010046149A CN 111241304 B CN111241304 B CN 111241304B
- Authority
- CN
- China
- Prior art keywords
- word
- target
- text
- sentence
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000013135 deep learning Methods 0.000 title claims abstract description 15
- 238000012549 training Methods 0.000 claims abstract description 64
- 238000012545 processing Methods 0.000 claims abstract description 27
- 230000011218 segmentation Effects 0.000 claims abstract description 16
- 239000013598 vector Substances 0.000 claims description 151
- 239000011159 matrix material Substances 0.000 claims description 75
- 238000007781 pre-processing Methods 0.000 claims description 23
- 230000006870 function Effects 0.000 claims description 21
- 238000000605 extraction Methods 0.000 claims description 17
- 230000000873 masking effect Effects 0.000 claims description 17
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 description 21
- 230000008569 process Effects 0.000 description 13
- 230000009193 crawling Effects 0.000 description 10
- 230000007246 mechanism Effects 0.000 description 10
- 230000004913 activation Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及智能决策技术领域,揭露了一种基于深度学习的答案生成方法,该方法包括:将句子样本输入预设语言模型进行掩盖词预测的训练以确定所述预设语言模型的结构参数,将正、负文本样本输入已确定结构参数的预设语言模型进行句子位置预测的训练以确定所述预设语言模型的句子位置权重参数,得到目标语言模型,将目标文本和目标问题分词处理及向量化处理后输入所述目标语言模型,得到目标问题对应的答案。本发明还提出一种电子装置以及一种计算机可读存储介质。本发明解决了文本阅读理解应用时所生成的答案精确度不够高的问题。
Description
技术领域
本发明涉及智能决策技术领域,尤其涉及一种基于深度学习的答案生成方法、电子装置及可读存储介质。
背景技术
自然语言处理(Natural Language Processing,NLP)是当前人工智能重要的一部分,文本阅读理解作为自然语言处理领域的一个重要课题也受到了广泛的关注,文本阅读理解的目的在于从长文本中找到精确的答案。
文本阅读理解能够快速发展,很大程度上要归功于对语言模型预训练来实现迁移学习,谷歌于2018年10月推出了一种预训练模型---双向注意力神经网络模型(Bidirectional Encoder Representation from Transformer,BERT),该模型在文本阅读理解和文本分类等多项应用上取得了极大突破。但对于文本阅读理解来说,BERT模型的预训练任务为下句预测,下句预测是根据问题与文本中的一些重复相近词或者根据embedding(词嵌入)中具有强匹配度的词汇直接做出的选择,这种只学习一些特定规则的方法在短数据集上容易导致过拟合。同时,BERT模型为了能够处理足够长的文本,上下句的长度总和大部分都接近512个tokens(词单元,对输入文本进行处理前,需要将其分割成诸如词、标点符号、数字或纯字母数字等语言单元,所述单元被称为token),这就使得下句预测任务仅简单地依据上、下句词汇是否属于同一领域来做出判断,而不需要确认句子级别的因果、转折等关系。因此,现有技术中,文本阅读理解应用时所生成的答案精确度不够高。
发明内容
鉴于以上内容,有必要提供一种基于深度学习的答案生成方法,旨在解决文本阅读理解应用时所生成的答案精确度不够高的问题。
本发明提供的基于深度学习的答案生成方法,包括:
第一训练步骤:从语料库抽取句子样本进行第一预处理,得到所述句子样本对应的目标词语序列中每个词语的词向量,将所述句子样本对应的目标词语序列中每个词语的词向量输入预设语言模型进行掩盖词预测的训练,以确定所述预设语言模型的结构参数;
第二训练步骤:从所述语料库抽取正、负文本样本进行第二预处理,得到所述正、负文本样本对应的目标词语序列中每个词语的词向量,将所述正、负文本样本对应的目标词语序列中每个词语的词向量输入所述已确定结构参数的预设语言模型进行句子位置预测的训练,以确定所述预设语言模型的句子位置权重参数,得到目标语言模型;
答案生成步骤:接收用户提交的目标文本和目标问题,对所述目标文本和目标问题进行分词处理及词向量化处理后输入所述目标语言模型,得到所述目标文本中每个词语分别作为所述目标问题的答案起点和答案终点的概率,确定所述目标问题对应的答案。
可选的,所述第一预处理包括:
采用sentence piece算法将所述句子样本进行分词,得到所述句子样本对应的第一词语序列;
对所述第一词语序列添加句首标识符、句末标识符,得到所述句子样本对应的第二词语序列;
将所述第二词语序列中第一预设百分比的词语进行掩盖,得到所述句子样本对应的目标词语序列;
计算所述句子样本对应的目标词语序列中每个词语的初始向量、位置向量,并将所述初始向量与位置向量相加,得到所述句子样本对应的目标词语序列中每个词语的词向量。
可选的,所述将所述句子样本对应的目标词语序列中每个词语的词向量输入预设语言模型进行掩盖词预测的训练包括:
将所述句子样本对应的目标词语序列中每个词语的词向量输入预设语言模型的特征提取层,得到所述句子样本对应的目标词语序列中每个词语的词矩阵;
将所述句子样本对应的目标词语序列中每个词语的词矩阵输入所述预设语言模型的全连接层进行掩盖词预测的训练,并通过最小化准确度的损失函数确定所述预设语言模型的结构参数。
可选的,所述第二预处理包括:
从所述正文本样本中随机选择一句文本作为所述正文本样本的正问题文本,用替代符替代所述正文本样本中的所述正问题文本,并在所述正文本样本中插入第一预设数量的替代符,得到目标正文本样本;
从所述正文本样本中随机选择一句文本作为所述负文本样本的负问题文本,并将所述负问题文本插入所述负文本样本的句首,用替代符替代所述负文本样本中的所述负问题文本,并在所述负文本样本中插入第二预设数量的替代符,得到目标负文本样本;
对所述目标正、负文本样本进行分词,并分别添加句首标识符、句末标识符及句子连接符,得到所述正、负文本样本对应的目标词语序列;
分别为所述正、负文本样本对应的目标词语序列设置标签向量;
分别计算所述正、负文本样本对应的目标词语序列中每个词语的初始向量及位置向量,并将所述初始向量、位置向量及标签向量相加,得到所述正、负文本样本对应的目标词语序列中每个词语的词向量。
可选的,所述将所述正、负文本样本对应的目标词语序列中每个词语的词向量输入所述已确定结构参数的预设语言模型进行句子位置预测的训练包括:
将所述正、负文本样本对应的目标词语序列中每个词语的词向量输入所述已确定结构参数的预设语言模型的特征提取层,得到所述正、负文本样本对应的目标词语序列中每个词语的词矩阵;
提取所述正、负文本样本对应的目标词语序列中所述替代符及所述句首标识符的词矩阵,将所述词矩阵的集合作为目标词矩阵集合,将所述目标词矩阵集合输入所述已确定结构参数的预设语言模型的全连接层进行正问题文本位置预测的训练,并通过最小化交叉熵函数确定所述预设语言模型的句子位置权重参数。
此外,为实现上述目的,本发明还提供一种电子装置,该电子装置包括:存储器、处理器,所述存储器中存储有可在所述处理器上运行的答案生成程序,所述答案生成程序被所述处理器执行时实现如下步骤:
第一训练步骤:从语料库抽取句子样本进行第一预处理,得到所述句子样本对应的目标词语序列中每个词语的词向量,将所述句子样本对应的目标词语序列中每个词语的词向量输入预设语言模型进行掩盖词预测的训练,以确定所述预设语言模型的结构参数;
第二训练步骤:从所述语料库抽取正、负文本样本进行第二预处理,得到所述正、负文本样本对应的目标词语序列中每个词语的词向量,将所述正、负文本样本对应的目标词语序列中每个词语的词向量输入所述已确定结构参数的预设语言模型进行句子位置预测的训练,以确定所述预设语言模型的句子位置权重参数,得到目标语言模型;
答案生成步骤:接收用户提交的目标文本和目标问题,对所述目标文本和目标问题进行分词处理及词向量化处理后输入所述目标语言模型,得到所述目标文本中每个词语分别作为所述目标问题的答案起点和答案终点的概率,确定所述目标问题对应的答案。
可选的,所述第一预处理包括:
采用sentence piece算法将所述句子样本进行分词,得到所述句子样本对应的第一词语序列;
对所述第一词语序列添加句首标识符、句末标识符,得到所述句子样本对应的第二词语序列;
将所述第二词语序列中第一预设百分比的词语进行掩盖,得到所述句子样本对应的目标词语序列;
计算所述句子样本对应的目标词语序列中每个词语的初始向量、位置向量,并将所述初始向量与位置向量相加,得到所述句子样本对应的目标词语序列中每个词语的词向量。
可选的,所述第二预处理包括:
从所述正文本样本中随机选择一句文本作为所述正文本样本的正问题文本,用替代符替代所述正文本样本中的所述正问题文本,并在所述正文本样本中插入第一预设数量的替代符,得到目标正文本样本;
从所述正文本样本中随机选择一句文本作为所述负文本样本的负问题文本,并将所述负问题文本插入所述负文本样本的句首,用替代符替代所述负文本样本中的所述负问题文本,并在所述负文本样本中插入第二预设数量的替代符,得到目标负文本样本;
对所述目标正、负文本样本进行分词,并分别添加句首标识符、句末标识符及句子连接符,得到所述正、负文本样本对应的目标词语序列;
分别为所述正、负文本样本对应的目标词语序列设置标签向量;
分别计算所述正、负文本样本对应的目标词语序列中每个词语的初始向量及位置向量,并将所述初始向量、位置向量及标签向量相加,得到所述正、负文本样本对应的目标词语序列中每个词语的词向量。
可选的,所述将所述正、负文本样本对应的目标词语序列中每个词语的词向量输入所述已确定结构参数的预设语言模型进行句子位置预测的训练包括:
将所述正、负文本样本对应的目标词语序列中每个词语的词向量输入所述已确定结构参数的预设语言模型的特征提取层,得到所述正、负文本样本对应的目标词语序列中每个词语的词矩阵;
提取所述正、负文本样本对应的目标词语序列中所述替代符及所述句首标识符的词矩阵,将所述词矩阵的集合作为目标词矩阵集合,将所述目标词矩阵集合输入所述已确定结构参数的预设语言模型的全连接层进行正问题文本位置预测的训练,并通过最小化交叉熵函数确定所述预设语言模型的句子位置权重参数。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有答案生成程序,所述答案生成程序可被一个或者多个处理器执行,以实现上述基于深度学习的答案生成方法的步骤。
相较现有技术,本发明通过将句子样本输入预设语言模型进行掩盖词预测的训练以确定所述预设语言模型的结构参数,再将正、负文本样本输入已确定结构参数的预设语言模型进行句子位置预测的训练以确定所述预设语言模型的句子位置权重参数,得到目标语言模型,然后,将目标文本和目标问题分词处理及向量化处理后输入所述目标语言模型,得到目标问题对应的答案,本发明通过执行句子位置预测的训练任务建立了文本样本中的问题文本与文本样本中的每句文本之间的关联关系,所述关联关系反应了问题文本与文本样本中的每句文本之间的关联性和重要性,即本发明建立了问题文本与文本样本全文的关联关系,故而通过执行句子位置预测的训练任务而确定了句子位置权重参数的预设语言模型可解决文本阅读理解应用时所生成的答案精确度不够高的问题。
附图说明
图1为本发明电子装置一实施例的示意图;
图2为图1中的答案生成程序一实施例的程序模块图;
图3为本发明基于深度学习的答案生成方法一实施例的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
如图1所示,为本发明电子装置1一实施例的示意图。电子装置1是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。所述电子装置1可以是计算机、也可以是单个网络服务器、多个网络服务器组成的服务器组或者基于云计算的由大量主机或者网络服务器构成的云,其中云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。
在本实施例中,电子装置1包括,但不仅限于,可通过系统总线相互通信连接的存储器11、处理器12、网络接口13,该存储器11中存储有答案生成程序10,所述答案生成程序10可被所述处理器12执行。图1仅示出了具有组件11-13以及答案生成程序10的电子装置1,本领域技术人员可以理解的是,图1示出的结构并不构成对电子装置1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
其中,存储器11包括内存及至少一种类型的可读存储介质。内存为电子装置1的运行提供缓存;可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等的非易失性存储介质。在一些实施例中,可读存储介质可以是电子装置1的内部存储单元,例如该电子装置1的硬盘;在另一些实施例中,该非易失性存储介质也可以是电子装置1的外部存储设备,例如电子装置1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。本实施例中,存储器11的可读存储介质通常用于存储安装于电子装置1的操作系统和各类应用软件,例如存储本发明一实施例中的答案生成程序10的代码等。此外,存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器12在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述电子装置1的总体操作,例如执行与其他设备进行数据交互或者通信相关的控制和处理等。本实施例中,所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据,例如运行答案生成程序10等。
网络接口13可包括无线网络接口或有线网络接口,该网络接口13用于在所述电子装置1与客户端(图中未画出)之间建立通信连接。
可选的,所述电子装置1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选的,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子装置1中处理的信息以及用于显示可视化的用户界面。
在本发明的一实施例中,所述答案生成程序10被所述处理器12执行时实现如下第一训练步骤、第二训练步骤及答案生成步骤。
第一训练步骤:从语料库抽取句子样本进行第一预处理,得到所述句子样本对应的目标词语序列中每个词语的词向量,将所述句子样本对应的目标词语序列中每个词语的词向量输入预设语言模型进行掩盖词预测的训练,以确定所述预设语言模型的结构参数。
本实施例中,所述预设语言模型为BERT模型,所述语料库为采用Scrapy(Scrapy是Python开发的一个屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取数据)爬虫技术,在知乎、百科百科、维基百科、百度知道、搜狗新闻、研报等公开社区爬取的20G语料。
本实施例中,所述第一预处理包括:
A11、采用sentence piece算法将所述句子样本进行分词,得到所述句子样本对应的第一词语序列。
sentence piece算法为将句子样本切分成多个不同分词结果对应的词语序列,将困惑度最低的词语序列作为所述句子样本的目标分词结果对应的词语序列。
A12、对所述第一词语序列添加句首标识符、句末标识符,得到所述句子样本对应的第二词语序列。
A13、将所述第二词语序列中第一预设百分比(例如,10%)的词语进行掩盖,得到所述句子样本对应的目标词语序列。
第一预设百分比的词语中,将其中第二预设百分比(例如,80%)的词语用掩盖符掩盖,将第三预设百分比(例如,10%)的词语用随机词替换,剩余词语保持不变。
本实施例中,将<cls>作为句首标识符,<sep>作为句末标识符,<mask>作为掩盖符。
在本发明的另一个实施例中,所述第一预处理在步骤A11前还实现如下步骤:
去除句子样本中的标点。
例如,句子样本为:王铭打开电脑开始工作。
该句子样本对应的目标词语序列为:<cls>|王铭|打开|电脑|<mask>|工作|<sep>
A14、计算所述句子样本对应的目标词语序列中每个词语的初始向量、位置向量,并将所述初始向量与位置向量相加,得到所述句子样本对应的目标词语序列中每个词语的词向量。
本实施例中,初始向量是与预设语言模型整合的,需通过训练获得。
所述位置向量的计算公式为:
其中,pos为词语在目标词语序列中的位置,dmodel为初始向量的维度,C为周期系数,PE(pos2i)为第pos个位置的词语的第2i个维度的位置向量,PE(pos2i+1)为第pos个位置的词语的第2i+1个维度的位置向量。
本实施例中,所述将所述句子样本对应的目标词语序列中每个词语的词向量输入预设语言模型进行掩盖词预测的训练包括:
B11、将所述句子样本对应的目标词语序列中每个词语的词向量输入预设语言模型的特征提取层,得到所述句子样本对应的目标词语序列中每个词语的词矩阵。
所述预设语言模型包括特征提取层和全连接层。特征提取层用来处理数据的输入,并基于自注意力机制(自注意力机制用于学习句子内部的词语依赖关系,捕获句子的内部结构)将输入的每一个词语变成矩阵向量表征的形式。
所述特征提取层为12层的transformer层,每一层的transformer包含两个子层,第一个子层为多头注意力子层,第二个子层为一个前向传播子层。
多头注意力子层利用缩放点积式的多头注意力机制,并行的计算各部分的注意力权重,动态的通过每个词向量收集整个句子样本的信息。
多头注意力子层输出的词矩阵的计算公式为:
其中,Attentionj(Q,K,V))为第j层transformer的多头注意力子层输出的第i个词向量的词矩阵,Qi为第i个词向量的查询矩阵,Ki为第i个词向量的键矩阵,Vi为第i个词向量的值矩阵,为第i个词向量的维度,Ki T为第i个词向量的键矩阵的转置矩阵,Qi、Ki、Vi的计算公式分别为:
其中,为第i个词向量的查询权重矩阵,/>为第i个词向量的键权重矩阵,为第i个词向量的值权重矩阵,/>皆为可学习的随机初始化矩阵,Xi为输入的第i个词向量。
Transformer的每个子层的输入和输出都存在着残差连接,这种结构可以很好的回传梯度。每个子层的后面跟着一步正则化操作,正则化的使用可以加快模型的收敛速度,前向传播子层实现中有两次线性变换,一次Relu非线性激活,其残差的计算公式为:
FEN(x)=γ(0,xW1+b1)W2+b2
其中,FEN(x)为词矩阵的残差值,x表示输入的词向量,W1表示多头注意力子层输入的词向量对应的权重,b1表示多头注意力机制的偏置因子,(0,xW1+b1)表示前向传播子层输入的层信息,W2表示前向传播子层输入的层信息对应的权重,b2表示前向传播函数的偏置因子,γ表示transformer的非线性激活函数,前向传播子层输入信息是transformer第一个子层(多头注意力子层)处理之后的输出。
每一层的transformer将计算得出的attention值进行加权求和得到下一层的表征,12层堆叠计算后的表征即为整个特征提取层的表征。
本实施例通过自注意力机制计算一句话中的每个词语与这句话中所有词语间的相互关系,这些相互关系反应了这句话中不同词语之间的关联性以及重要程度,因此再利用这些相互关系来调整每个词语的重要性(权重)就可以获得每个词语新的表征,这个新的表征不但蕴含了该词语本身,还蕴含了其他词语与这个词语的关系,因此和单纯的词向量相比是一个更加全局的表达。
B12、将所述句子样本对应的目标词语序列中每个词语的词矩阵输入所述预设语言模型的全连接层进行掩盖词预测的训练,并通过最小化准确度的损失函数确定所述预设语言模型的结构参数。
本实施例中,提取句子样本对应的目标词语序列中掩盖符的词矩阵,并将所述词矩阵的集合作为掩盖词词矩阵集合。
所述掩盖词预测的计算公式为:
yi=softmax((MaskGatheri)T(Attentionlast(Q,K,V)))
其中,yi为掩盖词词矩阵集合中第i个掩盖词的预测值,(MaskGatheri)T为掩盖词词矩阵集合中第i个掩盖词的词矩阵的转置矩阵,Attentionlast(Q,K,V)为最后一层transformer层输出的词矩阵。
所述准确度的损失函数的计算公式为:
其中,loss(yi,yi)为掩盖词词矩阵集合中第i个掩盖词的预测准确度的损失率,yi为掩盖词词矩阵集合中第i个掩盖词的预测值,yi为掩盖词词矩阵集合中第i个掩盖词的真实值(1或0),c为掩盖词词矩阵集合中掩盖词的总数量。
第二训练步骤:从所述语料库抽取正、负文本样本进行第二预处理,得到所述正、负文本样本对应的目标词语序列中每个词语的词向量,将所述正、负文本样本对应的目标词语序列中每个词语的词向量输入所述已确定结构参数的预设语言模型进行句子位置预测的训练,以确定所述预设语言模型的句子位置权重参数,得到目标语言模型。
本实施例中,将从语料库中抽取的文本样本划分为第四预设百分比的文本样本和第五预设百分比的文本样本,将所述第四预设百分比的文本样本作为正文本样本,将所述第五预设百分比的文本样本作为负文本样本。
所述第二预处理包括:
A21、从所述正文本样本中随机选择一句文本作为所述正文本样本的正问题文本,用替代符替代所述正文本样本中的所述正问题文本,并在所述正文本样本中插入第一预设数量的替代符,得到目标正文本样本;
A22、从所述正文本样本中随机选择一句文本作为所述负文本样本的负问题文本,并将所述负问题文本插入所述负文本样本的句首,用替代符替代所述负文本样本中的所述负问题文本,并在所述负文本样本中插入第二预设数量的替代符,得到目标负文本样本;
A23、对所述目标正、负文本样本进行分词,并分别添加句首标识符、句末标识符及句子连接符(例如,<sep>),得到所述正、负文本样本对应的目标词语序列;
A24、分别为所述正、负文本样本对应的目标词语序列设置标签向量;
设置标签向量时,正文本样本对应的目标词语序列中,将替代符处的标签设置为1,其余位置的标签设置为0;负文本样本对应的目标词语序列中,将句首标识符处的标签设置为1,替代符处的标签设置为0。
A25、分别计算所述正、负文本样本对应的目标词语序列中每个词语的初始向量及位置向量,并将所述初始向量、位置向量及标签向量相加,得到所述正、负文本样本对应的目标词语序列中每个词语的词向量。
本实施例中,采用与上述步骤A14相同的方法计算每个词语的初始向量、位置向量。
本实施例中,所述将所述正、负文本样本对应的目标词语序列中每个词语的词向量输入所述已确定结构参数的预设语言模型进行句子位置预测的训练包括:
B21、将所述正、负文本样本对应的目标词语序列中每个词语的词向量输入所述已确定结构参数的预设语言模型的特征提取层,得到所述正、负文本样本对应的目标词语序列中每个词语的词矩阵。
所述词矩阵的计算过程与上述步骤B11相同,在此不做赘述。
B22、提取所述正、负文本样本对应的目标词语序列中所述替代符及所述句首标识符的词矩阵,将所述词矩阵的集合作为目标词矩阵集合,将所述目标词矩阵集合输入所述已确定结构参数的预设语言模型的全连接层进行正问题文本位置预测的训练,并通过最小化交叉熵函数确定所述预设语言模型的句子位置权重参数。
所述正问题文本位置预测的计算公式为:
logits(Mi)=softmax(WscpMi)
其中,logits(Mi)为目标词矩阵集合中第i个词矩阵对应的词语位置为正问题文本位置的预测概率值,Wscp为句子位置权重参数(Wscp为本发明句子位置预测任务需要确定的目标参数),Mi为目标词矩阵集合中第i个词矩阵。
所述交叉熵函数的计算公式为:
其中,L为交叉熵函数的损失值,p(i)为目标词矩阵集合中第i个词矩阵对应的词语位置为正问题文本位置的真实概率值(1或0),σ为目标词矩阵集合。
本实施例通过执行句子位置预测的训练任务来确定预设语言模型的句子位置权重参数,建立了问题与文本中每句话的关联关系,所述关联关系反应了问题与文本中每句话之间的关联性和重要性(权重),对于文本阅读理解任务来说,进行句子位置预测训练优化后的目标语言模型生成答案的精确度会更高。
答案生成步骤:接收用户提交的目标文本和目标问题,对所述目标文本和目标问题进行分词处理及词向量化处理后输入所述目标语言模型,得到所述目标文本中每个词语分别作为所述目标问题的答案起点和答案终点的概率,确定所述目标问题对应的答案。
例如,目标文本中每个词语作为目标问题的答案起点和答案终点的概率如下表1所示:
表1
由表1可见,答案起点概率最高的为第3个词语,答案终点概率最高的为第8个词语,则第3个词语~8个词语为目标问题对应的答案。
由上述实施例可知,本发明提出的电子装置1,首先,将句子样本输入预设语言模型进行掩盖词预测的训练以确定所述预设语言模型的结构参数,再将正、负文本样本输入已确定结构参数的预设语言模型进行句子位置预测的训练以确定所述预设语言模型的句子位置权重参数,得到目标语言模型;然后,将目标文本和目标问题分词处理及向量化处理后输入所述目标语言模型,得到目标问题对应的答案,本发明通过执行句子位置预测的训练任务建立了文本样本中的问题文本与文本样本中的每句文本之间的关联关系,所述关联关系反应了问题文本与文本样本中的每句文本之间的关联性和重要性,即本发明建立了问题文本与文本样本全文的关联关系,故而通过执行句子位置预测的训练任务而确定了句子位置权重参数的预设语言模型可解决文本阅读理解应用时所生成的答案精确度不够高的问题。
在其他实施例中,答案生成程序10还可以被分割为一个或者多个模块,一个或者多个模块被存储于存储器11中,并由一个或多个处理器(本实施例为处理器12)所执行以完成本发明,本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段,用于描述答案生成程序10在电子装置1中的执行过程。
如图2所示,为图1中的答案生成程序10一实施例的程序模块图。
在本发明的一个实施例中,答案生成程序10包括第一训练模块110、第二训练模块120及答案生成模块130,示例性地:
所述第一训练模块110,用于从语料库抽取句子样本进行第一预处理,得到所述句子样本对应的目标词语序列中每个词语的词向量,将所述句子样本对应的目标词语序列中每个词语的词向量输入预设语言模型进行掩盖词预测的训练,以确定所述预设语言模型的结构参数;
所述第二训练模块120,用于从所述语料库抽取正、负文本样本进行第二预处理,得到所述正、负文本样本对应的目标词语序列中每个词语的词向量,将所述正、负文本样本对应的目标词语序列中每个词语的词向量输入所述已确定结构参数的预设语言模型进行句子位置预测的训练,以确定所述预设语言模型的句子位置权重参数,得到目标语言模型;
所述答案生成模块130,用于接收用户提交的目标文本和目标问题,对所述目标文本和目标问题进行分词处理及词向量化处理后输入所述目标语言模型,得到所述目标文本中每个词语分别作为所述目标问题的答案起点和答案终点的概率,确定所述目标问题对应的答案。
上述第一训练模块110、第二训练模块120及答案生成模块130等程序模块被执行时所实现的功能或操作步骤与上述实施例大体相同,在此不再赘述。
如图3所示,为本发明基于深度学习的答案生成方法一实施例的流程图,该答案生成方法包括步骤S1-S3。
S1、从语料库抽取句子样本进行第一预处理,得到所述句子样本对应的目标词语序列中每个词语的词向量,将所述句子样本对应的目标词语序列中每个词语的词向量输入预设语言模型进行掩盖词预测的训练,以确定所述预设语言模型的结构参数。
本实施例中,所述预设语言模型为BERT模型,所述语料库为采用Scrapy(Scrapy是Python开发的一个屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取数据)爬虫技术,在知乎、百科百科、维基百科、百度知道、搜狗新闻、研报等公开社区爬取的20G语料。
本实施例中,所述第一预处理包括:
A11、采用sentence piece算法将所述句子样本进行分词,得到所述句子样本对应的第一词语序列。
sentence piece算法为将句子样本切分成多个不同分词结果对应的词语序列,将困惑度最低的词语序列作为所述句子样本的目标分词结果对应的词语序列。
A12、对所述第一词语序列添加句首标识符、句末标识符,得到所述句子样本对应的第二词语序列。
A13、将所述第二词语序列中第一预设百分比(例如,10%)的词语进行掩盖,得到所述句子样本对应的目标词语序列。
第一预设百分比的词语中,将其中第二预设百分比(例如,80%)的词语用掩盖符掩盖,将第三预设百分比(例如,10%)的词语用随机词替换,剩余词语保持不变。
本实施例中,将<cls>作为句首标识符,<sep>作为句末标识符,<mask>作为掩盖符。
在本发明的另一个实施例中,所述第一预处理在步骤A11前还实现如下步骤:
去除句子样本中的标点。
例如,句子样本为:王铭打开电脑开始工作。
该句子样本对应的目标词语序列为:<cls>|王铭|打开|电脑|<mask>|工作|<sep>
A14、计算所述句子样本对应的目标词语序列中每个词语的初始向量、位置向量,并将所述初始向量与位置向量相加,得到所述句子样本对应的目标词语序列中每个词语的词向量。
本实施例中,初始向量是与预设语言模型整合的,需通过训练获得。
所述位置向量的计算公式为:
其中,pos为词语在目标词语序列中的位置,dmodel为初始向量的维度,C为周期系数,PE(pos2i)为第pos个位置的词语的第2i个维度的位置向量,PE(pos2i+1)为第pos个位置的词语的第2i+1个维度的位置向量。
本实施例中,所述将所述句子样本对应的目标词语序列中每个词语的词向量输入预设语言模型进行掩盖词预测的训练包括:
B11、将所述句子样本对应的目标词语序列中每个词语的词向量输入预设语言模型的特征提取层,得到所述句子样本对应的目标词语序列中每个词语的词矩阵。
所述预设语言模型包括特征提取层和全连接层。特征提取层用来处理数据的输入,并基于自注意力机制(自注意力机制用于学习句子内部的词语依赖关系,捕获句子的内部结构)将输入的每一个词语变成矩阵向量表征的形式。
所述特征提取层为12层的transformer层,每一层的transformer包含两个子层,第一个子层为多头注意力子层,第二个子层为一个前向传播子层。
多头注意力子层利用缩放点积式的多头注意力机制,并行的计算各部分的注意力权重,动态的通过每个词向量收集整个句子样本的信息。
多头注意力子层输出的词矩阵的计算公式为:
其中,Attentionj(Q,K,V))为第j层transformer的多头注意力子层输出的第i个词向量的词矩阵,Qi为第i个词向量的查询矩阵,Ki为第i个词向量的键矩阵,Vi为第i个词向量的值矩阵,为第i个词向量的维度,Ki T为第i个词向量的键矩阵的转置矩阵,Qi、Ki、Vi的计算公式分别为:
其中,为第i个词向量的查询权重矩阵,/>为第i个词向量的键权重矩阵,为第i个词向量的值权重矩阵,/>皆为可学习的随机初始化矩阵,Xi为输入的第i个词向量。
Transformer的每个子层的输入和输出都存在着残差连接,这种结构可以很好的回传梯度。每个子层的后面跟着一步正则化操作,正则化的使用可以加快模型的收敛速度,前向传播子层实现中有两次线性变换,一次Relu非线性激活,其残差的计算公式为:
FEN(x)=γ(0,xW1+b1)W2+b2
其中,FEN(x)为词矩阵的残差值,x表示输入的词向量,W1表示多头注意力子层输入的词向量对应的权重,b1表示多头注意力机制的偏置因子,(0,xW1+b1)表示前向传播子层输入的层信息,W2表示前向传播子层输入的层信息对应的权重,b2表示前向传播函数的偏置因子,γ表示transformer的非线性激活函数,前向传播子层输入信息是transformer第一个子层(多头注意力子层)处理之后的输出。
每一层的transformer将计算得出的attention值进行加权求和得到下一层的表征,12层堆叠计算后的表征即为整个特征提取层的表征。
本实施例通过自注意力机制计算一句话中的每个词语与这句话中所有词语间的相互关系,这些相互关系反应了这句话中不同词语之间的关联性以及重要程度,因此再利用这些相互关系来调整每个词语的重要性(权重)就可以获得每个词语新的表征,这个新的表征不但蕴含了该词语本身,还蕴含了其他词语与这个词语的关系,因此和单纯的词向量相比是一个更加全局的表达。
B12、将所述句子样本对应的目标词语序列中每个词语的词矩阵输入所述预设语言模型的全连接层进行掩盖词预测的训练,并通过最小化准确度的损失函数确定所述预设语言模型的结构参数。
本实施例中,提取句子样本对应的目标词语序列中掩盖符的词矩阵,并将所述词矩阵的集合作为掩盖词词矩阵集合。
所述掩盖词预测的计算公式为:
yi=softmax((MaskGatheri)T(Attentionlast(Q,K,V)))
其中,yi为掩盖词词矩阵集合中第i个掩盖词的预测值,(MaskGatheri)T为掩盖词词矩阵集合中第i个掩盖词的词矩阵的转置矩阵,Attentionlast(Q,K,V)为最后一层transformer层输出的词矩阵。
所述准确度的损失函数的计算公式为:
其中,loss(yi,yi)为掩盖词词矩阵集合中第i个掩盖词的预测准确度的损失率,yi为掩盖词词矩阵集合中第i个掩盖词的预测值,yi为掩盖词词矩阵集合中第i个掩盖词的真实值(1或0),c为掩盖词词矩阵集合中掩盖词的总数量。
S2、从所述语料库抽取正、负文本样本进行第二预处理,得到所述正、负文本样本对应的目标词语序列中每个词语的词向量,将所述正、负文本样本对应的目标词语序列中每个词语的词向量输入所述已确定结构参数的预设语言模型进行句子位置预测的训练,以确定所述预设语言模型的句子位置权重参数,得到目标语言模型。
本实施例中,将从语料库中抽取的文本样本划分为第四预设百分比的文本样本和第五预设百分比的文本样本,将所述第四预设百分比的文本样本作为正文本样本,将所述第五预设百分比的文本样本作为负文本样本。
所述第二预处理包括:
A21、从所述正文本样本中随机选择一句文本作为所述正文本样本的正问题文本,用替代符替代所述正文本样本中的所述正问题文本,并在所述正文本样本中插入第一预设数量的替代符,得到目标正文本样本;
A22、从所述正文本样本中随机选择一句文本作为所述负文本样本的负问题文本,并将所述负问题文本插入所述负文本样本的句首,用替代符替代所述负文本样本中的所述负问题文本,并在所述负文本样本中插入第二预设数量的替代符,得到目标负文本样本;
A23、对所述目标正、负文本样本进行分词,并分别添加句首标识符、句末标识符及句子连接符(例如,<sep>),得到所述正、负文本样本对应的目标词语序列;
A24、分别为所述正、负文本样本对应的目标词语序列设置标签向量;
设置标签向量时,正文本样本对应的目标词语序列中,将替代符处的标签设置为1,其余位置的标签设置为0;负文本样本对应的目标词语序列中,将句首标识符处的标签设置为1,替代符处的标签设置为0。
A25、分别计算所述正、负文本样本对应的目标词语序列中每个词语的初始向量及位置向量,并将所述初始向量、位置向量及标签向量相加,得到所述正、负文本样本对应的目标词语序列中每个词语的词向量。
本实施例中,采用与上述步骤A14相同的方法计算每个词语的初始向量、位置向量。
本实施例中,所述将所述正、负文本样本对应的目标词语序列中每个词语的词向量输入所述已确定结构参数的预设语言模型进行句子位置预测的训练包括:
B21、将所述正、负文本样本对应的目标词语序列中每个词语的词向量输入所述已确定结构参数的预设语言模型的特征提取层,得到所述正、负文本样本对应的目标词语序列中每个词语的词矩阵。
所述词矩阵的计算过程与上述步骤B11相同,在此不做赘述。
B22、提取所述正、负文本样本对应的目标词语序列中所述替代符及所述句首标识符的词矩阵,将所述词矩阵的集合作为目标词矩阵集合,将所述目标词矩阵集合输入所述已确定结构参数的预设语言模型的全连接层进行正问题文本位置预测的训练,并通过最小化交叉熵函数确定所述预设语言模型的句子位置权重参数。
所述正问题文本位置预测的计算公式为:
logits(Mi)=softmax(WscpMi)
其中,logits(Mi)为目标词矩阵集合中第i个词矩阵对应的词语位置为正问题文本位置的预测概率值,Wscp为句子位置权重参数(Wscp为本发明句子位置预测任务需要确定的目标参数),Mi为目标词矩阵集合中第i个词矩阵。
所述交叉熵函数的计算公式为:
其中,L为交叉熵函数的损失值,p(i)为目标词矩阵集合中第i个词矩阵对应的词语位置为正问题文本位置的真实概率值(1或0),σ为目标词矩阵集合。
本实施例通过执行句子位置预测的训练任务来确定预设语言模型的句子位置权重参数,建立了问题与文本中每句话的关联关系,所述关联关系反应了问题与文本中每句话之间的关联性和重要性(权重),对于文本阅读理解任务来说,进行句子位置预测训练优化后的目标语言模型生成答案的精确度会更高。
S3、接收用户提交的目标文本和目标问题,对所述目标文本和目标问题进行分词处理及词向量化处理后输入所述目标语言模型,得到所述目标文本中每个词语分别作为所述目标问题的答案起点和答案终点的概率,确定所述目标问题对应的答案。
例如,目标文本中每个词语作为目标问题的答案起点和答案终点的概率如上表1所示:
由表1可见,答案起点概率最高的为第3个词语,答案终点概率最高的为第8个词语,则第3个词语~8个词语为目标问题对应的答案。
由上述实施例可知,本发明提出的基于深度学习的答案生成方法,首先,将句子样本输入预设语言模型进行掩盖词预测的训练以确定所述预设语言模型的结构参数,再将正、负文本样本输入已确定结构参数的预设语言模型进行句子位置预测的训练以确定所述预设语言模型的句子位置权重参数,得到目标语言模型;然后,将目标文本和目标问题分词处理及向量化处理后输入所述目标语言模型,得到目标问题对应的答案,本发明通过执行句子位置预测的训练任务建立了文本样本中的问题文本与文本样本中的每句文本之间的关联关系,所述关联关系反应了问题文本与文本样本中的每句文本之间的关联性和重要性,即本发明建立了问题文本与文本样本全文的关联关系,故而通过执行句子位置预测的训练任务而确定了句子位置权重参数的预设语言模型可解决文本阅读理解应用时所生成的答案精确度不够高的问题。
此外,本发明实施例还提出一种计算机可读存储介质,计算机可读存储介质可以是硬盘、多媒体卡、SD卡、闪存卡、SMC、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器等中的任意一种或者几种的任意组合。计算机可读存储介质中包括答案生成程序10,所述答案生成程序10被处理器执行时实现如下操作:
从语料库抽取句子样本进行第一预处理,得到所述句子样本对应的目标词语序列中每个词语的词向量,将所述句子样本对应的目标词语序列中每个词语的词向量输入预设语言模型进行掩盖词预测的训练,以确定所述预设语言模型的结构参数;
从所述语料库抽取正、负文本样本进行第二预处理,得到所述正、负文本样本对应的目标词语序列中每个词语的词向量,将所述正、负文本样本对应的目标词语序列中每个词语的词向量输入所述已确定结构参数的预设语言模型进行句子位置预测的训练,以确定所述预设语言模型的句子位置权重参数,得到目标语言模型;
接收用户提交的目标文本和目标问题,对所述目标文本和目标问题进行分词处理及词向量化处理后输入所述目标语言模型,得到所述目标文本中每个词语分别作为所述目标问题的答案起点和答案终点的概率,确定所述目标问题对应的答案。
本发明之计算机可读存储介质的具体实施方式与上述基于深度学习的答案生成方法以及电子装置的具体实施方式大致相同,在此不再赘述。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (4)
1.一种基于深度学习的答案生成方法,应用于电子装置,其特征在于,所述方法包括:
第一训练步骤:从语料库抽取句子样本进行第一预处理,得到所述句子样本对应的目标词语序列中每个词语的词向量,将所述句子样本对应的目标词语序列中每个词语的词向量输入预设语言模型进行掩盖词预测的训练,以确定所述预设语言模型的结构参数;
第二训练步骤:从所述语料库抽取正、负文本样本进行第二预处理,得到所述正、负文本样本对应的目标词语序列中每个词语的词向量,将所述正、负文本样本对应的目标词语序列中每个词语的词向量输入已确定结构参数的预设语言模型进行句子位置预测的训练,以确定所述预设语言模型的句子位置权重参数,得到目标语言模型;
答案生成步骤:接收用户提交的目标文本和目标问题,对所述目标文本和目标问题进行分词处理及词向量化处理后输入所述目标语言模型,得到所述目标文本中每个词语分别作为所述目标问题的答案起点和答案终点的概率,确定所述目标问题对应的答案;
其中,所述第一预处理包括:采用sentence piece算法将所述句子样本进行分词,得到所述句子样本对应的第一词语序列;对所述第一词语序列添加句首标识符、句末标识符,得到所述句子样本对应的第二词语序列;将所述第二词语序列中第一预设百分比的词语进行掩盖,得到所述句子样本对应的目标词语序列;计算所述句子样本对应的目标词语序列中每个词语的初始向量、位置向量,并将所述初始向量与位置向量相加,得到所述句子样本对应的目标词语序列中每个词语的词向量;
所述第二预处理包括:从所述正文本样本中随机选择一句文本作为所述正文本样本的正问题文本,用替代符替代所述正文本样本中的所述正问题文本,并在所述正文本样本中插入第一预设数量的替代符,得到目标正文本样本;从所述负文本样本中随机选择一句文本作为所述负文本样本的负问题文本,并将所述负问题文本插入所述负文本样本的句首,用替代符替代所述负文本样本中的所述负问题文本,并在所述负文本样本中插入第二预设数量的替代符,得到目标负文本样本;对所述目标正、负文本样本进行分词,并分别添加句首标识符、句末标识符及句子连接符,得到所述正、负文本样本对应的目标词语序列;分别为所述正、负文本样本对应的目标词语序列设置标签向量;分别计算所述正、负文本样本对应的目标词语序列中每个词语的初始向量及位置向量,并将所述初始向量、位置向量及标签向量相加,得到所述正、负文本样本对应的目标词语序列中每个词语的词向量;
所述将所述正、负文本样本对应的目标词语序列中每个词语的词向量输入已确定结构参数的预设语言模型进行句子位置预测的训练包括:将所述正、负文本样本对应的目标词语序列中每个词语的词向量输入所述已确定结构参数的预设语言模型的特征提取层,得到所述正、负文本样本对应的目标词语序列中每个词语的词矩阵;提取所述正、负文本样本对应的目标词语序列中所述替代符及所述句首标识符的词矩阵,将所述词矩阵的集合作为目标词矩阵集合,将所述目标词矩阵集合输入所述已确定结构参数的预设语言模型的全连接层进行正问题文本位置预测的训练,并通过最小化交叉熵函数确定所述预设语言模型的句子位置权重参数。
2.如权利要求1所述的基于深度学习的答案生成方法,其特征在于,所述将所述句子样本对应的目标词语序列中每个词语的词向量输入预设语言模型进行掩盖词预测的训练包括:
将所述句子样本对应的目标词语序列中每个词语的词向量输入预设语言模型的特征提取层,得到所述句子样本对应的目标词语序列中每个词语的词矩阵;
将所述句子样本对应的目标词语序列中每个词语的词矩阵输入所述预设语言模型的全连接层进行掩盖词预测的训练,并通过最小化准确度的损失函数确定所述预设语言模型的结构参数。
3.一种电子装置,其特征在于,该电子装置包括:存储器、处理器,所述存储器上存储有可在所述处理器上运行的答案生成程序,所述答案生成程序被所述处理器执行时实现如权利要求1或2所述的基于深度学习的答案生成方法。
4.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有答案生成程序,所述答案生成程序可被一个或者多个处理器执行,以实现如权利要求1或2所述的基于深度学习的答案生成方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010046149.9A CN111241304B (zh) | 2020-01-16 | 2020-01-16 | 基于深度学习的答案生成方法、电子装置及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010046149.9A CN111241304B (zh) | 2020-01-16 | 2020-01-16 | 基于深度学习的答案生成方法、电子装置及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111241304A CN111241304A (zh) | 2020-06-05 |
CN111241304B true CN111241304B (zh) | 2024-02-06 |
Family
ID=70871057
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010046149.9A Active CN111241304B (zh) | 2020-01-16 | 2020-01-16 | 基于深度学习的答案生成方法、电子装置及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111241304B (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111695695B (zh) * | 2020-06-09 | 2023-08-08 | 北京百度网讯科技有限公司 | 用户决策行为量化分析方法及装置 |
CN113779185B (zh) * | 2020-06-10 | 2023-12-29 | 武汉Tcl集团工业研究院有限公司 | 一种自然语言模型的生成方法和计算机设备 |
CN111966826B (zh) * | 2020-07-22 | 2023-01-24 | 中国科学院计算技术研究所 | 一种构建文本分类系统的方法、系统、介质及电子设备 |
CN114116990A (zh) * | 2020-08-27 | 2022-03-01 | 奇安信科技集团股份有限公司 | 问答处理方法、装置、计算机设备和可读存储介质 |
CN112580343A (zh) * | 2020-11-03 | 2021-03-30 | 北京字节跳动网络技术有限公司 | 模型生成方法、问答质量判断方法、装置、设备及介质 |
CN112732896B (zh) * | 2020-12-31 | 2023-04-07 | 天津开心生活科技有限公司 | 目标信息显示方法、装置、电子设备和介质 |
CN112732874A (zh) * | 2021-01-15 | 2021-04-30 | 北京明略昭辉科技有限公司 | 一种用户标识打通模型的训练方法及装置 |
CN112800178A (zh) * | 2021-01-28 | 2021-05-14 | 平安科技(深圳)有限公司 | 答案生成方法、装置、电子设备及可读存储介质 |
CN113010657B (zh) * | 2021-03-31 | 2024-02-06 | 腾讯科技(深圳)有限公司 | 基于解答文本的答案处理方法和答案推荐方法 |
CN113434699B (zh) * | 2021-06-30 | 2023-07-18 | 平安科技(深圳)有限公司 | 用于文本匹配的bert模型的预训练方法、计算机装置和存储介质 |
CN113468309B (zh) * | 2021-06-30 | 2023-12-22 | 竹间智能科技(上海)有限公司 | 文本中的答案抽取方法以及电子设备 |
CN113591475B (zh) * | 2021-08-03 | 2023-07-21 | 美的集团(上海)有限公司 | 无监督可解释分词的方法、装置和电子设备 |
CN114579699A (zh) * | 2022-02-18 | 2022-06-03 | 阿里巴巴(中国)有限公司 | 预训练语言模型的训练方法以及装置 |
CN114742035B (zh) * | 2022-05-19 | 2023-07-07 | 北京百度网讯科技有限公司 | 基于注意力机制优化的文本处理方法、网络模型训练方法 |
CN114942986B (zh) * | 2022-06-21 | 2024-03-19 | 平安科技(深圳)有限公司 | 文本生成方法、装置、计算机设备及计算机可读存储介质 |
CN115081428B (zh) * | 2022-07-22 | 2022-11-29 | 粤港澳大湾区数字经济研究院(福田) | 一种处理自然语言的方法、自然语言处理模型、设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109992648A (zh) * | 2019-04-10 | 2019-07-09 | 北京神州泰岳软件股份有限公司 | 基于词迁徙学习的深度文本匹配方法及装置 |
CN110110323A (zh) * | 2019-04-10 | 2019-08-09 | 北京明略软件系统有限公司 | 一种文本情感分类方法和装置、计算机可读存储介质 |
CN110209817A (zh) * | 2019-05-31 | 2019-09-06 | 安徽省泰岳祥升软件有限公司 | 文本处理模型的训练方法、装置和文本处理方法 |
CN110516059A (zh) * | 2019-08-30 | 2019-11-29 | 腾讯科技(深圳)有限公司 | 基于机器学习的问题答复方法、问答模型训练方法及装置 |
CN110688491A (zh) * | 2019-09-25 | 2020-01-14 | 暨南大学 | 基于深度学习的机器阅读理解方法、系统、设备及介质 |
-
2020
- 2020-01-16 CN CN202010046149.9A patent/CN111241304B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109992648A (zh) * | 2019-04-10 | 2019-07-09 | 北京神州泰岳软件股份有限公司 | 基于词迁徙学习的深度文本匹配方法及装置 |
CN110110323A (zh) * | 2019-04-10 | 2019-08-09 | 北京明略软件系统有限公司 | 一种文本情感分类方法和装置、计算机可读存储介质 |
CN110209817A (zh) * | 2019-05-31 | 2019-09-06 | 安徽省泰岳祥升软件有限公司 | 文本处理模型的训练方法、装置和文本处理方法 |
CN110516059A (zh) * | 2019-08-30 | 2019-11-29 | 腾讯科技(深圳)有限公司 | 基于机器学习的问题答复方法、问答模型训练方法及装置 |
CN110688491A (zh) * | 2019-09-25 | 2020-01-14 | 暨南大学 | 基于深度学习的机器阅读理解方法、系统、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111241304A (zh) | 2020-06-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111241304B (zh) | 基于深度学习的答案生成方法、电子装置及可读存储介质 | |
CN110347835B (zh) | 文本聚类方法、电子装置及存储介质 | |
CN108959246B (zh) | 基于改进的注意力机制的答案选择方法、装置和电子设备 | |
CN111475617B (zh) | 事件主体抽取方法、装置及存储介质 | |
CN110362723B (zh) | 一种题目特征表示方法、装置及存储介质 | |
CN110750965B (zh) | 英文文本序列标注方法、系统及计算机设备 | |
CN112308237B (zh) | 一种问答数据增强方法、装置、计算机设备及存储介质 | |
CN111461301B (zh) | 序列化数据处理方法和装置、文本处理方法和装置 | |
CN112949320B (zh) | 基于条件随机场的序列标注方法、装置、设备及介质 | |
WO2021223882A1 (en) | Prediction explanation in machine learning classifiers | |
CN113886550A (zh) | 基于注意力机制的问答匹配方法、装置、设备及存储介质 | |
CN112560504A (zh) | 抽取表单文档中信息的方法、电子设备和计算机可读介质 | |
CN115309865A (zh) | 基于双塔模型的交互式检索方法、装置、设备及存储介质 | |
CN113344125B (zh) | 长文本匹配识别方法、装置、电子设备及存储介质 | |
CN108875024B (zh) | 文本分类方法、系统、可读存储介质及电子设备 | |
CN114281991A (zh) | 文本分类方法、装置、电子设备及存储介质 | |
CN114220536A (zh) | 基于机器学习的疾病分析方法、装置、设备及存储介质 | |
CN114818685B (zh) | 关键词提取方法、装置、电子设备及存储介质 | |
CN114743018B (zh) | 图像描述生成方法、装置、设备及介质 | |
CN113722437B (zh) | 基于人工智能的用户标签识别方法、装置、设备及介质 | |
CN112989801B (zh) | 一种序列标注方法、装置及设备 | |
CN114595389A (zh) | 通讯录查询方法、装置、设备、存储介质和程序产品 | |
CN114462411B (zh) | 命名实体识别方法、装置、设备及存储介质 | |
CN113792539B (zh) | 基于人工智能的实体关系分类方法、装置、电子设备及介质 | |
CN114742060B (zh) | 实体识别方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |