CN113051371B - 中文机器阅读理解方法、装置、电子设备及存储介质 - Google Patents
中文机器阅读理解方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN113051371B CN113051371B CN202110389825.7A CN202110389825A CN113051371B CN 113051371 B CN113051371 B CN 113051371B CN 202110389825 A CN202110389825 A CN 202110389825A CN 113051371 B CN113051371 B CN 113051371B
- Authority
- CN
- China
- Prior art keywords
- feature vector
- text
- word
- question
- input text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明的中文机器阅读理解方法、装置、电子设备及存储介质,将问题及文本拼接形成输入文本,对输入文本中的句子分别进行分字处理和分词处理,得到输入文本对应的字符序列以及输入文本对应的分词序列;利用改进的BERT网络对字符序列进行字向量化处理,获取问题和文本基于字的第一特征向量;基于预设的外部知识库对分词序列进行词向量化处理,获取问题和文本基于词的第二特征向量;将第一特征向量和第二特征向量进行特征融合,得到融合特征向量;将融合特征向量输入至LSTM网络中,对答案在所述文本中的初始位置和终止位置进行预测;通过上述方式,丰富了输入文本的语义表征,有利于提高中文机器阅读理解的准确率。
Description
【技术领域】
本发明涉及机器阅读理解技术领域,尤其涉及一种中文机器阅读理解方法、装置、电子设备及存储介质。
【背景技术】
机器阅读理解是自然语言处理领域中最具挑战性的任务之一,其主要目标是提高计算机对文本的阅读理解水平。近年来,随着预训练语言模型技术的问世,机器的阅读理解水平也在迅速提高,尤其是对英文文本的阅读理解水平已经超越了人类水平,但对中文文本的阅读理解水平还相对较低,存在很大的提升空间。
其中,斯坦福大学发布的SQuAD数据集将问题的标准答案设置为文本的一个片段,针对SQuAD数据集的机器阅读理解模型属于抽取式模型,这类模型。抽取式机器阅读理解模型根据给定的一个文本和针对该文本提出的一个问题,从该文本内中抽取一个片段作为所提问题的答案。
现有技术中,大多抽取式中文机器阅读理解算法都是基于先进的预训练模型BERT来实现和改进的,准确率相对于传统方法有了较大提升,但仍与人类水平存在一定的差距,还有很大的提升空间。
【发明内容】
本发明的目的在于提供一种中文机器阅读理解方法、装置、电子设备及存储介质,以解决现有技术中中文机器阅读理解准确性低的技术问题。
本发明的技术方案如下:提供一种中文机器阅读理解方法,包括:
将问题及文本拼接形成输入文本,对所述输入文本中的句子分别进行分字处理和分词处理,得到所述输入文本对应的字符序列以及所述输入文本对应的分词序列;
利用改进的BERT网络对所述字符序列进行字向量化处理,获取所述问题和所述文本基于字的第一特征向量,其中,所述改进的BERT网络用于对所述字符序列进行语义提取,所述改进的BERT网络包括具有残差连接的Transformer编码器;
基于预设的外部知识库对所述分词序列进行词向量化处理,获取所述问题和所述文本基于词的第二特征向量;
将所述第一特征向量和所述第二特征向量进行特征融合,得到融合特征向量;
将所述融合特征向量输入至LSTM网络中,对答案在所述文本中的初始位置和终止位置进行预测。
可选地,所述对所述输入文本中的句子分别进行分字处理和分词处理,得到所述输入文本对应的字符序列以及所述输入文本对应的分词序列,包括:
对所述输入文本进行去停用词以及去特殊符号处理,得到处理后的输入文本;
利用预训练模型BERT对所述处理后的输入文本进行字符级别的编码,得到所述字符序列;
利用深度学习分词器对所述处理后的输入文本进行词语级别的编码,得到所述分词序列。
可选地,所述基于预设的外部知识库对所述分词序列进行词向量化处理,获取所述问题和所述文本基于词的第二特征向量,包括:
从预设的外部知识库中获取所述分词序列中每个分词的义原向量,得到所述分词序列的语义表示序列;
利用word2vec模型获取所述分词序列中每个分词的词向量,得到输入文本的词向量集合;
利用word2vec模型获取对所述语义表示序列中每个义原向量进行编码,基于编码后的义原向量得到输入文本的语义向量集合;
将所述词向量集合和所述语义向量集合进行拼接,得到所述第二特征向量。
可选地,所述将所述第一特征向量和所述第二特征向量进行特征融合,得到融合特征向量,包括:
将所述第一特征向量和所述第二特征向量进行拼接,得到拼接特征向量;
将所述拼接特征向量输入至第一全连接层中,对所述第一特征向量和所述第二特征向量进行融合处理,得到高维融合特征向量;
将所述高维融合特征向量输入至第二全连接层中,对所述高维融合特征向量进行降维处理,得到所述融合特征向量。
可选地,所述将所述第一特征向量和所述第二特征向量进行特征融合,得到融合特征向量之后,还包括:
根据所述融合特征向量计算所述问题中每个分词与所述文本中每个分词的相似度,得到相似度矩阵;
根据所述相似度矩阵计算文本对问题的第一注意力权重矩阵以及问题对文本的第二注意力权重矩阵,其中,所述第一注意力权重矩阵包括文本中每个分词对于所述问题的注意力权重,所述第二注意力权重矩阵包括问题中每个分词对于所述文本的注意力权重;
将所述第一注意力权重矩阵与所述第二注意力权重矩阵拼接形成最终注意力权重矩阵,根据所述最终注意力权重矩阵对所述融合特征向量进行注意力权重处理,得到调整后的所述融合特征向量。
可选地,所述LSTM网络的训练步骤包括:
获取样本输入文本,其中,所述样本输入文本包括样本问题、与所述样本问题拼接的样本文本和标注于所述样本文本中答案的真实起始位置和真实终止位置;
对所述样本输入文本中的句子分别进行分字处理和分词处理,得到所述样本输入文本对应的字符序列以及所述输入文本对应的分词序列;
利用改进的BERT网络对所述字符序列进行字向量化处理,获取所述问题和所述文本基于字的第一特征向量;基于预设的外部知识库对所述分词序列进行词向量化处理,获取所述问题和所述文本基于词的第二特征向量;将所述第一特征向量和所述第二特征向量进行特征融合,得到融合特征向量;
将所述融合特征向量输入至LSTM网络中,输出答案在所述样本文本中的预测初始位置和预测位置;
计算所述预测初始位置和所述预测终止位置与所述答案的真实初始位置和真实终止位置之间的误差,根据所述误差调整所述LSTM网络的参数。
可选地,所述改进的BERT网络中形成残差连接的两个所述Transformer编码器之间的所述Transformer编码器的数量大于或等于预设阈值。
本发明的另一技术方案如下:提供一种中文机器阅读理解装置,包括:
预处理模块,用于将问题及文本拼接形成输入文本,对所述输入文本中的句子分别进行分字处理和分词处理,得到所述输入文本对应的字符序列以及所述输入文本对应的分词序列;
第一特征提取模块,用于利用改进的BERT网络对所述字符序列进行字向量化处理,获取所述问题和所述文本基于字的第一特征向量,其中,所述改进的BERT网络用于对所述字符序列进行语义提取,所述改进的BERT网络包括具有残差连接的Transformer编码器;
第二特征提取模块,用于基于预设的外部知识库对所述分词序列进行词向量化处理,获取所述问题和所述文本基于词的第二特征向量;
特征融合模块,用于将所述第一特征向量和所述第二特征向量进行特征融合,得到融合特征向量;
预测模块,用于将所述融合特征向量输入至LSTM网络中,对答案在所述文本中的初始位置和终止位置进行预测。
本发明的另一技术方案如下:提供一种电子设备,所述电子设备包括处理器、以及与所述处理器耦接的存储器,所述存储器存储有可被所述处理器执行的程序指令;所述处理器执行所述存储器存储的所述程序指令时实现上述的中文机器阅读理解方法。
本发明的另一技术方案如下:提供一种存储介质,所述存储介质内存储有程序指令,所述程序指令被处理器执行时实现上述的中文机器阅读理解方法。
本发明的有益效果在于:本发明的中文机器阅读理解方法、装置、电子设备及存储介质,首先,将问题及文本拼接形成输入文本,对所述输入文本中的句子分别进行分字处理和分词处理,得到所述输入文本对应的字符序列以及所述输入文本对应的分词序列;然后,利用改进的BERT网络对所述字符序列进行字向量化处理,获取所述问题和所述文本基于字的第一特征向量;然后,基于预设的外部知识库对所述分词序列进行词向量化处理,获取所述问题和所述文本基于词的第二特征向量;然后,将所述第一特征向量和所述第二特征向量进行特征融合,得到融合特征向量;最后,将所述融合特征向量输入至LSTM网络中,对答案在所述文本中的初始位置和终止位置进行预测;由于改进的BERT网络的语义提取层包括跨层连接的Transformer编码器,提取的第一特征向量具有更丰富的语义信息,有利于提高中文机器阅读理解的准确率,同时,有效防止了BERT网络训练过程中的梯度消失现象,使得BERT网络能够更好地收敛;通过引入外部知识库对输入文本进行语义表征得到第二特征向量,将所述第一特征向量和所述第二特征向量进行特征融合,进一步丰富了输入文本的语义表征,有利于提高中文机器阅读理解的准确率。
【附图说明】
图1为本发明第一实施例的中文机器阅读理解方法的流程图;
图2为本发明第一实施例中改进的BERT网络的结构示例图;
图3为本发明第二实施例的中文机器阅读理解方法的流程图;
图4为本发明第三实施例的中文机器阅读理解装置的结构示意图;
图5为本发明第四实施例的电子设备的结构示意图;
图6为本发明第五实施例的存储介质的结构示意图。
【具体实施方式】
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明中的术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
图1是本发明第一实施例的中文机器阅读理解方法的流程示意图。需注意的是,若有实质上相同的结果,本发明的方法并不以图1所示的流程顺序为限。如图1所示,该中文机器阅读理解方法包括步骤:
S101,将问题及文本拼接形成输入文本,对所述输入文本中的句子分别进行分字处理和分词处理,得到所述输入文本对应的字符序列以及所述输入文本对应的分词序列。
其中,本实施例的应用背景为抽取式阅读理解,在抽取式阅读理解中,问题的答案是文本中的一个连续片段。问题和文本均为中文,将问题和文本直接进行拼接形成输入文本,输入文本为包括问题和文本的句子对。
其中,在进行分字处理时,对所述输入文本进行去停用词以及去特殊符号处理后,使用深度学习分词器(Tokenizer)进行分字处理。具体地,可以利用预训练模型BERT(Bidirectional Encoder Representation from Transformers,来自变换器的双向编码表示)对去除停用词和特殊符号后的输入文本进行字符级别的编码,得到初始的字向量表示,即输入文本对应的为字符序列。其中,停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言文本之前或之后会自动过滤掉某些字或词,停用词主要包括英文字符、数字、数学字符、标点符号及使用频率特高的单汉字等。特殊字符是相对于传统或常用的符号外,使用频率较少字符且难以直接输入的符号,比如数学符号、单位符号、制表符等。去停用词、去特殊符号的目的是使输入文本更为简洁,提高阅读理解的效率。
其中,在进行分词处理时,对所述输入文本进行去停用词以及去特殊符号处理后,使用深度学习分词器进行分词处理。具体地,可以利用jieba分词,pkuseg分词或thulac分词等分词工具,对去除停用词和特殊符号后的输入文本进行词语级别的编码,得到初始的词向量表示,即输入文本对应的为分词序列。
其中,字符序列包括问题的字符序列(问题的初始字向量)和文本的字符序列(文本的初始字向量),分词序列包括问题的分词序列(问题的初始词向量)和文本的分词序列(文本的初始词向量)。
S102,利用改进的BERT网络对所述字符序列进行字向量化处理,获取所述问题和所述文本基于字的第一特征向量,其中,所述改进的BERT网络用于对所述字符序列进行语义提取,所述改进的BERT网络包括具有残差连接的Transformer编码器。
在步骤S102中,改进的BERT网络包括输入层、输出层以及设置在输入层和输出层之间的多个Transformer编码器(Transformer Encoder),输入层、第一个Transformer编码器、第二个Transformer编码器、……、第N个Transformer编码器及输出层依次连接,并且,在不同层的两个Transformer编码器之间加入了残差连接,残差连接的数量为至少一个,例如为,一个,两个,三个;进一步地,可以在高低层之间加入残差连接,即形成残差连接的不同层的两个Transformer编码器,一个为高层(例如为第12个Transformer编码器),一个为低层(例如为第2个Transformer编码器),可以设定形成残差连接的两个Transformer编码器之间的Transformer编码器的数量大于或等于一预设阈值,例如,请参阅图2所示,图2所示改进的BERT网络结构中,第1层与第11层做残差连接且第2层与第12层做残差连接,事实上,这里的残差连接方式可以有很多种组合(比如:第1层与第6层做残差连接且第2层与第8层做残差连接(残差连接个数为2);第1层与第3层做残差连接且第2层与第4层做残差连接且第6层与第8层做残差连接(残差连接个数为3)等等);另外,这里的残差连接个数也可以有很多种组合,不限于图2中的这种残差连接个数为2的组合情况。
改进的BERT网络用于对字符序列进行语义提取,输出融合句子语义的字向量,语义提取后的融合句子语义的字向量即为第一特征向量,Transformer编码器用于识别字在输入文本中的依赖关系和时序特征,具体地,每个Transformer编码器包括四个部分,分别为字向量与位置编码、注意力机制、残差连接与层标准化、和前馈,其中,字向量与位置编码的部分用于提供输入文本中每个字的位置信息;注意力机制的部分用于保持输入文本中的每个字向量都含有该输入文本中所有字向量的信息;残差连接与层标准化用于对字向量与位置编码的输出和注意力机制的输出进行残差连接(相加),再将残差连接后的输出进行归一化处理;前馈的部分由两层线性映射组成,并用ReLU激活函数激活,输出输入文本的隐藏序列。残差连接的两个不同Transformer编码器中高层的Transformer编码器最终输出低层Transformer编码器的隐藏序列和高层Transformer编码器的隐藏序列之和至高层Transformer编码器的下一层。
在本实施例中,通过在BERT网络中融入了跨层残差连接,所得改进的BERT网络有效避免了模型训练过程中的梯度消失现象,改进的BERT网络能够更好的收敛,有助于提高中文阅读理解的准确率。
S103,基于预设的外部知识库对所述分词序列进行词向量化处理,获取所述问题和所述文本基于词的第二特征向量。
在步骤S103中,通过引入外部知识库,在输入文本的所述分词序列中嵌入了每个分词的义原信息。通过上下文选择可能的词义,与该词的义原建立联系,并且可以对义原和词义进行Embedding,在词相似度计算和类比推理任务上有很大的提升,在词义消歧可以根据义原来选择词义,提升可解释性。
在一个可选的实施方式中,步骤S103具体包括:
S1031,从预设的外部知识库中获取所述分词序列中每个分词的义原向量,得到所述分词序列的语义表示序列。
S1032,利用word2vec模型获取所述分词序列中每个分词的词向量,得到输入文本的词向量集合。
S1033,利用word2vec模型获取对所述语义表示序列中每个义原向量进行编码,基于编码后的义原向量得到输入文本的语义向量集合。
S1034,将所述词向量集合和所述语义向量集合进行拼接,得到所述第二特征向量。
在本实施方式中,外部知识库为HowNet,具体地,每个词义信息用义原标注,Hownet把义原看作是一个原子语义单位,强调概念的各个部分和属性可以用义原来很好地表示。
在本实施方式中,通过对输入文本中每个分词在外部知识库中查找对应义原,形成语义表示序列。进一步地,所述输入文本中的每一个分词可能对应外部知识库中的多个义原,可以进一步通过计算义原与对应分词的词性相似度,选择词性相似度最大的一个义原作为该分词的对应义原,具体包括如下步骤:根据所述分词序列中的分词词性标注生成对应分词的词性向量;分别计算所述分词的词性向量与多个义原向量的词性相似度;选择词性相似度最高的义原向量作为所述分词的义原向量。
S104,将所述第一特征向量和所述第二特征向量进行特征融合,得到融合特征向量。
在步骤S104中,将输入文本的语义表征和义原表征进行融合,根据义原对语义表征进行调整,增强了输入本文的语义表征能力。
具体地,步骤S104包括如下步骤:
S1041,将所述第一特征向量和所述第二特征向量进行拼接,得到拼接特征向量;
其中,对第一特征向量和第二特征向量进行求和,实现两个特征向量的拼接。
S1042,将所述拼接特征向量输入至第一全连接层中,对所述第一特征向量和所述第二特征向量进行融合处理,得到高维融合特征向量;
S1043,将所述高维融合特征向量输入至第二全连接层中,对所述高维融合特征向量进行降维处理,得到所述融合特征向量。
其中,第一全连接层和第二全连接层分别进行两个不同大小的全连接操作,第一全连接层和第二全连接层。
S105,将所述融合特征向量输入至LSTM网络中,对答案在所述文本中的初始位置和终止位置进行预测。
在步骤S105中,将所述融合特征向量输入至第一分类器中,得到第一输出结果,将所述第一输出结果进行归一化处理,得到第一概率特征向量,其中,所述第一概率特征向量包括所述文本中每个所述分词是答案的起始位置的概率;将所述融合特征向量输入至第二分类器中,得到第二输出结果,将所述第二输出结果进行归一化处理,得到第二概率特征向量,其中,所述第二概率特征向量包括所述文本中每个所述分词是答案的终止位置的概率;将所述第一概率特征向量中概率最大的分词作为所述答案的起始位置,将所述第二概率特征向量中概率最大的分词作为所述答案的终止位置。
在一个可选的实施方式中,步骤S104之后、步骤S105之前进一步包括:
S201,根据所述融合特征向量计算所述问题中每个分词与所述文本中每个分词的相似度,得到相似度矩阵;
其中,融合特征向量包括相互拼接的问题融合特征向量(问题中每个分词的特征)和文本融合特征向量(文本中每个分词的特征)两个部分。具体地,利用一个相似度函数计算问题中的分词特征Qi和文本中的分词特征Tj的相似度Sij=α(Qi,Tj)。
S202,根据所述相似度矩阵计算文本对问题的第一注意力权重矩阵以及问题对文本的第二注意力权重矩阵,其中,所述第一注意力权重矩阵包括文本中每个分词对于所述问题的注意力权重,所述第二注意力权重矩阵包括问题中每个分词对于所述文本的注意力权重;
其中,文本中每个分词Tj对于问题中分词Qi的注意力的权重相加之和为1;文本中每个分词Tj对于问题Q的注意力的权重A(Tj)计算方式如下:将相似度矩阵中分词Tj所在的列作为对应列权重向量,对该列权重向量进行归一化。
其中,问题中每个分词Qi对于文本中分词Tj的注意力的权重相加之和为1;问题中每个分词Qi对于文本T的注意力的权重A(Qi)计算方式如下:将相似度矩阵中分词Qi所在的行作为对应行权重向量,对该行权重向量进行归一化。
S203,将所述第一注意力权重矩阵与所述第二注意力权重矩阵拼接形成最终注意力权重矩阵,根据所述最终注意力权重矩阵对所述融合特征向量进行注意力权重处理,得到调整后的所述融合特征向量;
其中,文本中每个分词Tj对于问题Q的注意力的权重A(Tj)分别与问题中分词Qi的特征向量相乘后的值进行求和,得到问题中分词Qi的调整后的特征向量;问题中每个分词Qi对于文本T的注意力的权重A(Qi)分别与文本中分词Tj的特征向量相乘后的值进行求和,得到文本中分词Tj的调整后的特征向量。
在一个可选的实施方式中,LSTM网络的训练步骤具体包括:
S301,获取样本输入文本,其中,所述样本输入文本包括样本问题、与所述样本问题拼接的样本文本和标注于所述样本文本中答案的真实起始位置和真实终止位置;
S302,对所述样本输入文本中的句子分别进行分字处理和分词处理,得到所述样本输入文本对应的字符序列以及所述输入文本对应的分词序列;
其中,对样本输入文本中的句子进行分字和分词处理的方式与步骤S101中对输入文本的处理方式类似,具体参见上述。
S303,利用改进的BERT网络对所述字符序列进行字向量化处理,获取所述问题和所述文本基于字的第一特征向量;基于预设的外部知识库对所述分词序列进行词向量化处理,获取所述问题和所述文本基于词的第二特征向量;将所述第一特征向量和所述第二特征向量进行特征融合,得到融合特征向量;
其中,步骤S303中训练阶段的处理过程与步骤S102至S104中实际预测过程类似,具体参见上述。
S304,将所述融合特征向量输入至LSTM网络中,输出答案在所述样本文本中的预测初始位置和预测位置;
S305,计算所述预测初始位置和所述预测终止位置与所述答案的真实初始位置和真实终止位置之间的误差,根据所述误差调整所述LSTM网络的参数。
其中,以误差作为调节LSTM网络中参数的信号。
图3是本发明第二实施例的中文机器阅读理解方法的流程示意图。需注意的是,若有实质上相同的结果,本发明的方法并不以图3所示的流程顺序为限。如图3所示,该中文机器阅读理解方法包括步骤:
S401,将问题及文本拼接形成输入文本,对所述输入文本中的句子分别进行分字处理和分词处理,得到所述输入文本对应的字符序列以及所述输入文本对应的分词序列。
S402,利用改进的BERT网络对所述字符序列进行字向量化处理,获取所述问题和所述文本基于字的第一特征向量,其中,所述改进的BERT网络用于对所述字符序列进行语义提取,所述改进的BERT网络包括具有残差连接的Transformer编码器。
S403,基于预设的外部知识库对所述分词序列进行词向量化处理,获取所述问题和所述文本基于词的第二特征向量。
S404,将所述第一特征向量和所述第二特征向量进行特征融合,得到融合特征向量。
S405,将所述融合特征向量输入至LSTM网络中,对答案在所述文本中的初始位置和终止位置进行预测。
步骤S401至S405具体参见第一实施例,在此不进行一一赘述。
S406,根据所述第一特征向量、所述第二特征向量以及所述融合特征向量建立所述输入文本的特征集合,将所述特征集合上传至区块链中,以使得所述区块链对特征集合进行加密存储。
具体地,基于输入文本的特征集合得到对应的摘要信息,具体来说,摘要信息为输入文本的特征集合进行散列处理得到,比如利用sha256s算法处理得到。将摘要信息上传至区块链可保证其安全性和对用户的公正透明性。用户设备可以从区块链中下载得该摘要信息,以便查证输入文本的特征集合是否被篡改。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
图4是本发明第三实施例的中文机器阅读理解装置的结构示意图。如图4所示,该中文机器阅读理解装置30包括预处理模块31、第一特征提取模块32、第二特征提取模块33、特征融合模块34以及预测模块35,其中,预处理模块31,用于将问题及文本拼接形成输入文本,对所述输入文本中的句子分别进行分字处理和分词处理,得到所述输入文本对应的字符序列以及所述输入文本对应的分词序列;第一特征提取模块32,用于利用改进的BERT网络对所述字符序列进行字向量化处理,获取所述问题和所述文本基于字的第一特征向量,其中,所述改进的BERT网络用于对所述字符序列进行语义提取,所述改进的BERT网络包括具有残差连接的Transformer编码器;第二特征提取模块33,用于基于预设的外部知识库对所述分词序列进行词向量化处理,获取所述问题和所述文本基于词的第二特征向量;特征融合模块34,用于将所述第一特征向量和所述第二特征向量进行特征融合,得到融合特征向量;预测模块35,用于将所述融合特征向量输入至LSTM网络中,对答案在所述文本中的初始位置和终止位置进行预测。
进一步地,预处理模块31还用于对所述输入文本进行去停用词以及去特殊符号处理,得到处理后的输入文本;利用预训练模型BERT对所述处理后的输入文本进行字符级别的编码,得到所述字符序列;利用深度学习分词器对所述处理后的输入文本进行词语级别的编码,得到所述分词序列。
进一步地,第二特征提取模块33还用于从预设的外部知识库中获取所述分词序列中每个分词的义原向量,得到所述分词序列的语义表示序列;利用word2vec模型获取所述分词序列中每个分词的词向量,得到输入文本的词向量集合;利用word2vec模型获取对所述语义表示序列中每个义原向量进行编码,基于编码后的义原向量得到输入文本的语义向量集合;将所述词向量集合和所述语义向量集合进行拼接,得到所述第二特征向量。
进一步地,特征融合模块34还用于将所述第一特征向量和所述第二特征向量进行拼接,得到拼接特征向量;将所述拼接特征向量输入至第一全连接层中,对所述第一特征向量和所述第二特征向量进行融合处理,得到高维融合特征向量;将所述高维融合特征向量输入至第二全连接层中,对所述高维融合特征向量进行降维处理,得到所述融合特征向量。
进一步地,该中文机器阅读理解装置30还包括注意力模块,用于根据所述融合特征向量计算所述问题中每个分词与所述文本中每个分词的相似度,得到相似度矩阵;根据所述相似度矩阵计算文本对问题的第一注意力权重矩阵以及问题对文本的第二注意力权重矩阵,其中,所述第一注意力权重矩阵包括文本中每个分词对于所述问题的注意力权重,所述第二注意力权重矩阵包括问题中每个分词对于所述文本的注意力权重;将所述第一注意力权重矩阵与所述第二注意力权重矩阵拼接形成最终注意力权重矩阵,根据所述最终注意力权重矩阵对所述融合特征向量进行注意力权重处理,得到调整后的所述融合特征向量。
进一步地,该中文机器阅读理解装置30还包括训练模块,用于获取样本输入文本,其中,所述样本输入文本包括样本问题、与所述样本问题拼接的样本文本和标注于所述样本文本中答案的真实起始位置和真实终止位置;对所述样本输入文本中的句子分别进行分字处理和分词处理,得到所述样本输入文本对应的字符序列以及所述输入文本对应的分词序列;利用改进的BERT网络对所述字符序列进行字向量化处理,获取所述问题和所述文本基于字的第一特征向量;基于预设的外部知识库对所述分词序列进行词向量化处理,获取所述问题和所述文本基于词的第二特征向量;将所述第一特征向量和所述第二特征向量进行特征融合,得到融合特征向量;将所述融合特征向量输入至LSTM网络中,输出答案在所述样本文本中的预测初始位置和预测位置;计算所述预测初始位置和所述预测终止位置与所述答案的真实初始位置和真实终止位置之间的误差,根据所述误差调整所述LSTM网络的参数。
进一步地,在第一特征提取模块32中,改进的BERT网络中形成残差连接的两个所述Transformer编码器之间的所述Transformer编码器的数量大于或等于预设阈值。
图5是本发明第四实施例的电子设备的结构示意图。如图5所示,该电子设备40包括处理器41及和处理器41耦接的存储器42。
存储器42存储有用于实现上述任一实施例的所述中文机器阅读理解方法的程序指令。
处理器41用于执行存储器42存储的程序指令以进行中文机器阅读理解。
其中,处理器41还可以称为CPU(Central Processing Unit,中央处理单元)。处理器41可能是一种集成电路芯片,具有信号的处理能力。处理器41还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
参阅图6,图6为本发明第五实施例的存储介质的结构示意图。本发明实施例的存储介质存储有能够实现上述所有方法的程序指令51,所述存储介质可以是非易失性,也可以是易失性。其中,该程序指令51可以以软件产品的形式存储在上述存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质,或者是计算机、服务器、手机、平板等终端设备。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。以上仅为本发明的实施方式,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围。
以上所述的仅是本发明的实施方式,在此应当指出,对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出改进,但这些均属于本发明的保护范围。
Claims (9)
1.一种中文机器阅读理解方法,其特征在于,包括:
将问题及文本拼接形成输入文本,对所述输入文本中的句子分别进行分字处理和分词处理,得到所述输入文本对应的字符序列以及所述输入文本对应的分词序列;
利用改进的BERT网络对所述字符序列进行字向量化处理,获取所述问题和所述文本基于字的第一特征向量,其中,所述改进的BERT网络用于对所述字符序列进行语义提取,所述改进的BERT网络包括具有残差连接的Transformer编码器;
基于预设的外部知识库对所述分词序列进行词向量化处理,获取所述问题和所述文本基于词的第二特征向量;
将所述第一特征向量和所述第二特征向量进行特征融合,得到融合特征向量;
根据所述融合特征向量计算所述问题中每个分词与所述文本中每个分词的相似度,得到相似度矩阵;
根据所述相似度矩阵计算文本对问题的第一注意力权重矩阵以及问题对文本的第二注意力权重矩阵,其中,所述第一注意力权重矩阵包括文本中每个分词对于所述问题的注意力权重,所述第二注意力权重矩阵包括问题中每个分词对于所述文本的注意力权重;
将所述第一注意力权重矩阵与所述第二注意力权重矩阵拼接形成最终注意力权重矩阵,根据所述最终注意力权重矩阵对所述融合特征向量进行注意力权重处理,得到调整后的所述融合特征向量;
将所述融合特征向量输入至LSTM网络中,对答案在所述文本中的初始位置和终止位置进行预测。
2.根据权利要求1所述的中文机器阅读理解方法,其特征在于,所述对所述输入文本中的句子分别进行分字处理和分词处理,得到所述输入文本对应的字符序列以及所述输入文本对应的分词序列,包括:
对所述输入文本进行去停用词以及去特殊符号处理,得到处理后的输入文本;
利用预训练模型BERT对所述处理后的输入文本进行字符级别的编码,得到所述字符序列;
利用深度学习分词器对所述处理后的输入文本进行词语级别的编码,得到所述分词序列。
3.根据权利要求1所述的中文机器阅读理解方法,其特征在于,所述基于预设的外部知识库对所述分词序列进行词向量化处理,获取所述问题和所述文本基于词的第二特征向量,包括:
从预设的外部知识库中获取所述分词序列中每个分词的义原向量,得到所述分词序列的语义表示序列;
利用word2vec模型获取所述分词序列中每个分词的词向量,得到输入文本的词向量集合;
利用word2vec模型获取对所述语义表示序列中每个义原向量进行编码,基于编码后的义原向量得到输入文本的语义向量集合;
将所述词向量集合和所述语义向量集合进行拼接,得到所述第二特征向量。
4.根据权利要求1所述的中文机器阅读理解方法,其特征在于,所述将所述第一特征向量和所述第二特征向量进行特征融合,得到融合特征向量,包括:
将所述第一特征向量和所述第二特征向量进行拼接,得到拼接特征向量;
将所述拼接特征向量输入至第一全连接层中,对所述第一特征向量和所述第二特征向量进行融合处理,得到高维融合特征向量;
将所述高维融合特征向量输入至第二全连接层中,对所述高维融合特征向量进行降维处理,得到所述融合特征向量。
5.根据权利要求1所述的中文机器阅读理解方法,其特征在于,所述LSTM网络的训练步骤包括:
获取样本输入文本,其中,所述样本输入文本包括样本问题、与所述样本问题拼接的样本文本和标注于所述样本文本中答案的真实起始位置和真实终止位置;
对所述样本输入文本中的句子分别进行分字处理和分词处理,得到所述样本输入文本对应的字符序列以及所述输入文本对应的分词序列;
利用改进的BERT网络对所述字符序列进行字向量化处理,获取所述问题和所述文本基于字的第一特征向量;基于预设的外部知识库对所述分词序列进行词向量化处理,获取所述问题和所述文本基于词的第二特征向量;将所述第一特征向量和所述第二特征向量进行特征融合,得到融合特征向量;
将所述融合特征向量输入至LSTM网络中,输出答案在所述样本文本中的预测初始位置和预测终止 位置;
计算所述预测初始位置和所述预测终止位置与所述答案的真实初始位置和真实终止位置之间的误差,根据所述误差调整所述LSTM网络的参数。
6.根据权利要求1所述的中文机器阅读理解方法,其特征在于,所述改进的BERT网络中形成残差连接的两个所述Transformer编码器之间的所述Transformer编码器的数量大于或等于预设阈值。
7.一种中文机器阅读理解装置,其特征在于,包括:
预处理模块,用于将问题及文本拼接形成输入文本,对所述输入文本中的句子分别进行分字处理和分词处理,得到所述输入文本对应的字符序列以及所述输入文本对应的分词序列;
第一特征提取模块,用于利用改进的BERT网络对所述字符序列进行字向量化处理,获取所述问题和所述文本基于字的第一特征向量,其中,所述改进的BERT网络用于对所述字符序列进行语义提取,所述改进的BERT网络包括具有残差连接的Transformer编码器;
第二特征提取模块,用于基于预设的外部知识库对所述分词序列进行词向量化处理,获取所述问题和所述文本基于词的第二特征向量;
特征融合模块,用于将所述第一特征向量和所述第二特征向量进行特征融合,得到融合特征向量;根据所述融合特征向量计算所述问题中每个分词与所述文本中每个分词的相似度,得到相似度矩阵;根据所述相似度矩阵计算文本对问题的第一注意力权重矩阵以及问题对文本的第二注意力权重矩阵,其中,所述第一注意力权重矩阵包括文本中每个分词对于所述问题的注意力权重,所述第二注意力权重矩阵包括问题中每个分词对于所述文本的注意力权重;将所述第一注意力权重矩阵与所述第二注意力权重矩阵拼接形成最终注意力权重矩阵,根据所述最终注意力权重矩阵对所述融合特征向量进行注意力权重处理,得到调整后的所述融合特征向量;
预测模块,用于将所述融合特征向量输入至LSTM网络中,对答案在所述文本中的初始位置和终止位置进行预测。
8.一种电子设备,其特征在于,所述电子设备包括处理器、以及与所述处理器耦接的存储器,所述存储器存储有可被所述处理器执行的程序指令;所述处理器执行所述存储器存储的所述程序指令时实现权利要求1~6任一项所述的中文机器阅读理解方法。
9.一种存储介质,其特征在于,所述存储介质内存储有程序指令,所述程序指令被处理器执行时实现权利要求1~6任一项所述的中文机器阅读理解方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110389825.7A CN113051371B (zh) | 2021-04-12 | 2021-04-12 | 中文机器阅读理解方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110389825.7A CN113051371B (zh) | 2021-04-12 | 2021-04-12 | 中文机器阅读理解方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113051371A CN113051371A (zh) | 2021-06-29 |
CN113051371B true CN113051371B (zh) | 2023-02-07 |
Family
ID=76519138
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110389825.7A Active CN113051371B (zh) | 2021-04-12 | 2021-04-12 | 中文机器阅读理解方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113051371B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113449081A (zh) * | 2021-07-08 | 2021-09-28 | 平安国际智慧城市科技股份有限公司 | 文本特征的提取方法、装置、计算机设备及存储介质 |
CN113569833A (zh) * | 2021-07-27 | 2021-10-29 | 平安科技(深圳)有限公司 | 基于文本文档的文字识别方法、装置、设备及存储介质 |
CN113590787A (zh) * | 2021-07-30 | 2021-11-02 | 胡昌然 | 一种机器阅读理解方法、装置、计算机设备及计算机可读存储介质 |
CN113722471A (zh) * | 2021-08-30 | 2021-11-30 | 上海明略人工智能(集团)有限公司 | 一种文本摘要生成方法、系统、电子设备及介质 |
CN114429129A (zh) * | 2021-12-22 | 2022-05-03 | 南京信息工程大学 | 一种文献挖掘与材料性质预测方法 |
CN114020881B (zh) * | 2022-01-10 | 2022-05-27 | 珠海金智维信息科技有限公司 | 话题定位的方法及系统 |
CN115310622B (zh) * | 2022-10-12 | 2023-01-17 | 中国科学技术大学 | 一种基于自适应专家系统的智能问答方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111159345A (zh) * | 2019-12-27 | 2020-05-15 | 中国矿业大学 | 一种中文知识库答案获取方法及其装置 |
CN111966812A (zh) * | 2020-10-20 | 2020-11-20 | 中国人民解放军国防科技大学 | 一种基于动态词向量的自动问答方法和存储介质 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108595590A (zh) * | 2018-04-19 | 2018-09-28 | 中国科学院电子学研究所苏州研究院 | 一种基于融合注意力模型的中文文本分类方法 |
US11625573B2 (en) * | 2018-10-29 | 2023-04-11 | International Business Machines Corporation | Relation extraction from text using machine learning |
CN109492227A (zh) * | 2018-11-16 | 2019-03-19 | 大连理工大学 | 一种基于多头注意力机制和动态迭代的机器阅读理解方法 |
CN111414464B (zh) * | 2019-05-27 | 2023-04-07 | 腾讯科技(深圳)有限公司 | 一种问题生成方法、装置、设备及存储介质 |
CN110334354B (zh) * | 2019-07-11 | 2022-12-09 | 清华大学深圳研究生院 | 一种中文关系抽取方法 |
US11334722B2 (en) * | 2019-09-23 | 2022-05-17 | Hong Kong Applied Science and Technology Research Institute Company Limited | Method of summarizing text with sentence extraction |
CN112035652A (zh) * | 2020-10-30 | 2020-12-04 | 杭州云嘉云计算有限公司 | 一种基于机器阅读理解的智能问答交互方法及系统 |
CN112464643B (zh) * | 2020-11-26 | 2022-11-15 | 广州视源电子科技股份有限公司 | 一种机器阅读理解方法、装置、设备及存储介质 |
-
2021
- 2021-04-12 CN CN202110389825.7A patent/CN113051371B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111159345A (zh) * | 2019-12-27 | 2020-05-15 | 中国矿业大学 | 一种中文知识库答案获取方法及其装置 |
CN111966812A (zh) * | 2020-10-20 | 2020-11-20 | 中国人民解放军国防科技大学 | 一种基于动态词向量的自动问答方法和存储介质 |
Non-Patent Citations (1)
Title |
---|
基于双线性函数注意力Bi-LSTM模型的机器阅读理解;刘飞龙等;《计算机科学》;20170615;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113051371A (zh) | 2021-06-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113051371B (zh) | 中文机器阅读理解方法、装置、电子设备及存储介质 | |
CN111814466A (zh) | 基于机器阅读理解的信息抽取方法、及其相关设备 | |
WO2020224219A1 (zh) | 中文分词方法、装置、电子设备及可读存储介质 | |
CN113205817B (zh) | 语音语义识别方法、系统、设备及介质 | |
CN110276071B (zh) | 一种文本匹配方法、装置、计算机设备及存储介质 | |
CN111931517B (zh) | 文本翻译方法、装置、电子设备以及存储介质 | |
CN110866098B (zh) | 基于transformer和lstm的机器阅读方法、装置及可读存储介质 | |
CN113887215A (zh) | 文本相似度计算方法、装置、电子设备及存储介质 | |
CN111694937A (zh) | 基于人工智能的面试方法、装置、计算机设备及存储介质 | |
CN113239169A (zh) | 基于人工智能的回答生成方法、装置、设备及存储介质 | |
WO2022142011A1 (zh) | 一种地址识别方法、装置、计算机设备及存储介质 | |
CN113449514A (zh) | 一种适用于特定垂直领域的文本纠错方法及其纠错装置 | |
CN113722512A (zh) | 基于语言模型的文本检索方法、装置、设备及存储介质 | |
CN113705315A (zh) | 视频处理方法、装置、设备及存储介质 | |
CN116050425A (zh) | 建立预训练语言模型的方法、文本预测方法及装置 | |
CN110633456A (zh) | 语种识别方法、装置、服务器及存储介质 | |
CN113836295A (zh) | 一种文本摘要提取方法、系统、终端及存储介质 | |
CN111898363B (zh) | 文本长难句的压缩方法、装置、计算机设备及存储介质 | |
CN112307738A (zh) | 用于处理文本的方法和装置 | |
CN115204164B (zh) | 一种电力系统通信敏感信息识别方法、系统及存储介质 | |
CN113780454B (zh) | 模型训练及调用方法、装置、计算机设备、存储介质 | |
CN112818688B (zh) | 文本处理方法、装置、设备及存储介质 | |
CN115017870A (zh) | 一种闭环的话术扩写方法、装置、计算机设备及存储介质 | |
CN113505595A (zh) | 文本短语抽取方法、装置、计算机设备及存储介质 | |
CN114974310A (zh) | 基于人工智能的情感识别方法、装置、计算机设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |