CN116467417A - 问题答案的生成方法、装置、设备及存储介质 - Google Patents

问题答案的生成方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN116467417A
CN116467417A CN202310444776.1A CN202310444776A CN116467417A CN 116467417 A CN116467417 A CN 116467417A CN 202310444776 A CN202310444776 A CN 202310444776A CN 116467417 A CN116467417 A CN 116467417A
Authority
CN
China
Prior art keywords
text
question
features
network
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310444776.1A
Other languages
English (en)
Inventor
欧阳升
王健宗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202310444776.1A priority Critical patent/CN116467417A/zh
Publication of CN116467417A publication Critical patent/CN116467417A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Abstract

本发明涉及自然语言处理技术领域,公开了一种问题答案的生成方法、装置、设备及存储介质,用于深度挖掘问题的语义信息,提高问答系统的精度性能。方法包括:将目标文本输入至预先训练完成的文本特征提取网络,输出目标文本的文本特征;将目标文本对应的问题文本输入至预先训练完成的问题特征提取网络,输出问题文本的问题特征;问题特征提取网络基于预设的训练样本集训练得到;训练样本集中包括多组问题样本对;问题样本对的样本标签用于:指示问题样本对中的问题是否具有相似语义;将文本特征和问题特征输入至信息融合网络中,输出问题文本对应的答案文本。此外,本发明还涉及区块链技术,问题答案的生成的数据可存储于区块链节点中。

Description

问题答案的生成方法、装置、设备及存储介质
技术领域
本发明涉及自然语言处理领域,尤其涉及一种问题答案的生成方法、装置、设备及存储介质。
背景技术
问答系统是信息检索系统的一种高级形式,问答系统的设计目标是能用准确、简洁的自然语言来回答用户用自然语言提出的问题,是人工智能和自然语言处理领域中备受关注的课题。随着人工智能的发展,问答任务在自然语言处理领域有着极高的应用价值,例如,手机中各种应用程序中的智能客服,外呼电话场景中的对话客服机器人等越来越多的场景中会应用到问答系统,在机器阅读理解场景中,问答任务是根据问题来抽取文本中的信息作为答案的,这对于自然语言模型有更高的要求,需要其能够在语义层面对问题有足够的了解。
目前,主流的问答系统中生成问题答案的方案是将问题和文本内容进行拼接后作为预训练模型的输入,然后在语言模型后面接入指针网络来完成开始位置和结尾位置的判定,现有技术中并没有对问题的语义信息进行充分挖掘,也没有充分理解问题中丰富的信息,只是将问题和文本信息进行简单的拼接和结合,因此,语言模型无法有效的利用问题本身的信息,容易回答错误从而导致问答系统精度不高,此外,对复杂问题的识别能力有待提升。
发明内容
本发明提供了一种问题答案的生成方法、装置、设备及存储介质,用于深度挖掘问题的语义信息,提高对问题的理解,从而提高问答系统的精度性能,保证生成的问题答案的准确性。
为实现上述目的,本发明第一方面提供了一种问题答案的生成方法,包括:将目标文本输入至预先训练完成的文本特征提取网络,输出上述目标文本的文本特征;将目标文本对应的问题文本输入至预先训练完成的问题特征提取网络,输出问题文本的问题特征;其中,问题特征提取网络基于预设的训练样本集训练得到;训练样本集中包括多组问题样本对;问题样本对的样本标签用于:指示问题样本对中的问题是否具有相似语义;将文本特征和问题特征输入至信息融合网络中,输出问题文本对应的答案文本。
可选的,在本发明第一方面的第一种实现方式中,上述问题特征提取网络通过下述方式训练得到:从训练样本集中确定目标问题样本对;其中,目标问题样本对的样本标签包括正样本或负样本;正样本用于指示:目标问题样本对中的问题具有相似语义;负样本用于指示:目标问题样本对中的问题不具有相似语义;将目标问题样本对输入至初始网络中,输出目标问题对中每个问题的问题特征;基于每个问题的问题特征,对问题进行分类,得到每个问题的分类结果;基于每个问题的分类结果、样本标签以及预设的损失函数,计算损失值;基于损失值更新初始网络的参数,直至初始网络收敛,将收敛的初始网络确定为问题特征提取网络。
可选的,在本发明第一方面的第二种实现方式中,基于上述每个问题的问题特征,对问题进行分类,得到每个问题的分类结果的步骤,包括:将每个问题的问题特征输入至相似性对比网络,得到中间结果;将中间结果输入至预设的全连接层,输出每个问题的分类结果。
可选的,在本发明第一方面的第三种实现方式中,将目标文本对应的问题文本输入至预先训练完成的问题特征提取网络,输出问题文本的问题特征的步骤,包括:将目标文本对应的问题文本输入至预先训练完成的问题特征提取网络,通过问题特征提取网络提取问题文本的初始特征,将初始特征映射至指定特征空间,得到问题文本的问题特征;其中,在指定特征空间中,如果第一问题和第二问题的语义相似,第一问题和所述第二问题的问题特征的特征距离低于第一阈值;如果第一问题和第二问题的语义不相似,第一问题和第二问题的问题特征的特征距离高于第二阈值;第二阈值大于第一阈值。
可选的,在本发明第一方面的第四种实现方式中,将文本特征和问题特征输入至信息融合网络中,输出问题文本对应的答案文本的步骤,包括:将文本特征和问题特征进行拼接处理,得到拼接特征;将拼接特征输入至信息融合网络,通过信息融合网络中的全连接层网络对拼接特征进行融合处理,得到融合特征;通过信息融合网络中的指针网络识别融合特征中答案文本对应的特征;基于答案文本对应的特征输出问题文本对应的答案文本。
可选的,在本发明第一方面的第五种实现方式中,通过信息融合网络中的指针网络识别融合特征中答案文本对应的特征的步骤,包括:通过信息融合网络中的指针网络,识别融合特征中的起始特征和结尾特征;将起始特征、结尾特征、以及起始特征和结尾特征之间的中间特征确定为答案文本对应的特征。
可选的,在本发明第一方面的第六种实现方式中,将目标文本输入至预先训练完成的文本特征提取网络,输出目标文本的文本特征的步骤,包括:将目标文本进行编码处理,得到目标文本的编码特征;将编码特征输入至预训练的语言表征模型中,通过语言表征模型对编码特征进行转换,并基于自注意力机制对转换后的编码特征进行特征融合处理,得到目标文本的文本特征。
本发明第二方面提供了一种问题答案的生成装置,包括第一输入模块,用于将目标文本输入至预先训练完成的文本特征提取网络,输出目标文本的文本特征;第二输入模块,用于将目标文本对应的问题文本输入至预先训练完成的问题特征提取网络,输出问题文本的问题特征;其中,问题特征提取网络基于预设的训练样本集训练得到;训练样本集中包括多组问题样本对;问题样本对的样本标签用于:指示问题样本对中的问题是否具有相似语义;第三输入模块,用于将文本特征和问题特征输入至信息融合网络中,输出问题文本对应的答案文本。
可选的,在本发明第二方面的第一种实现方式中,上述第二输入模块还用于:从上述训练样本集中确定目标问题样本对;其中,目标问题样本对的样本标签包括正样本或负样本;上述正样本用于指示:目标问题样本对中的问题具有相似语义;上述负样本用于指示:目标问题样本对中的问题不具有相似语义;将目标问题样本对输入至初始网络中,输出目标问题对中每个问题的问题特征;基于每个问题的问题特征,对问题进行分类,得到每个问题的分类结果;基于每个问题的分类结果、样本标签以及预设的损失函数,计算损失值;基于损失值更新初始网络的参数,直至初始网络收敛,将收敛的初始网络确定为上述问题特征提取网络。
可选的,在本发明第二方面的第二种实现方式中,上述第二输入模块具体还用于:将每个问题的问题特征输入至相似性对比网络,得到中间结果;将该中间结果输入至预设的全连接层,输出每个问题的分类结果。
可选的,在本发明第二方面的第三种实现方式中,上述第二输入模块具体还用于:将目标文本对应的问题文本输入至预先训练完成的问题特征提取网络,通过问题特征提取网络提取问题文本的初始特征,将初始特征映射至指定特征空间,得到问题文本的问题特征;其中,在指定特征空间中,如果第一问题和第二问题的语义相似,第一问题和第二问题的问题特征的特征距离低于第一阈值;如果第一问题和第二问题的语义不相似,第一问题和第二问题的问题特征的特征距离高于第二阈值;第二阈值大于第一阈值。
可选的,在本发明第二方面的第四种实现方式中,上述第三输入模块具体用于:将文本特征和问题特征进行拼接处理,得到拼接特征;将拼接特征输入至信息融合网络,通过信息融合网络中的全连接层网络对拼接特征进行融合处理,得到融合特征;通过信息融合网络中的指针网络识别融合特征中答案文本对应的特征;基于答案文本对应的特征输出问题文本对应的答案文本。
可选的,在本发明第二方面的第五种实现方式中,上述第三输入模块具体还用于:通过信息融合网络中的指针网络,识别融合特征中的起始特征和结尾特征;将起始特征、结尾特征、以及起始特征和结尾特征之间的中间特征确定为答案文本对应的特征。
可选的,在本发明第二方面的第六种实现方式中,上述第一输入模块具体还用于:将目标文本进行编码处理,得到目标文本的编码特征;将编码特征输入至预训练的语言表征模型中,通过语言表征模型对编码特征进行转换,并基于自注意力机制对转换后的编码特征进行特征融合处理,得到目标文本的文本特征。
本发明第三方面提供了一种问题答案的生成设备,包括:存储器和至少一个处理器,所述存储器中存储有指令;所述至少一个处理器调用所述存储器中的所述指令,以使得问题答案的生成设备执行上述的问题答案的生成方法。
本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的问题答案的生成方法。
本发明提供的技术方案中,将目标文本输入至预先训练完成的文本特征提取网络,输出上述目标文本的文本特征;将目标文本对应的问题文本输入至预先训练完成的问题特征提取网络,输出问题文本的问题特征;其中,问题特征提取网络基于预设的训练样本集训练得到;训练样本集中包括多组问题样本对;问题样本对的样本标签用于:指示问题样本对中的问题是否具有相似语义;将文本特征和问题特征输入至信息融合网络中,输出问题文本对应的答案文本。该方法中,分别将目标文本、目标文本对应的问题文本输入至文本特征提取网络、问题特征提取网络之后得到目标文本的文本特征和问题文本的问题特征,进一步将文本特征和问题特征输入至信息融合网络中,得到问题文本对应的答案文本。采用该方式可以深度挖掘问题的语义信息,提高对问题的理解,从而提高问答系统的精度性能,保证生成的问题答案的准确性。
附图说明
图1为本发明实施例中问题答案的生成方法的一个实施例示意图;
图2为本发明实施例中问题答案的生成方法的另一个实施例示意图;
图3为本发明实施例中问题答案的生成装置的一个实施例示意图;
图4为本发明实施例中问题答案的生成设备的一个实施例示意图。
具体实施方式
本发明实施例提供了一种问题答案的生成方法、装置、设备及存储介质,用于深度挖掘问题的语义信息,提高对问题的理解,从而提高问答系统的精度性能,保证生成的问题答案的准确性。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中问题答案的生成方法的一个实施例包括:
步骤S101、将目标文本输入至预先训练完成的文本特征提取网络,输出上述目标文本的文本特征;
问答系统综合运用了知识表示、信息检索、自然语言处理等技术,能够使用户以自然语言的形式提问,基于用户提出的信息查询需求,问答系统依据对问题的分析,从各种数据资源中自动找出准确的答案。其中,数据资源中包含有许多文本类型的数据,而文本是由一系列文字组成的,文字在经过分词后会形成词语集合,该词语集合即为原始数据,机器学习算法是不能直接使用上述原始数据的,因此需要将上述原始数据转化成机器学习算法可以识别的数值特征。
本发明实施例中,将目标文本输入至预先训练完成的文本特征提取网络,输出上述目标文本的文本特征,具体的,上述文本特征提取网络是预训练的语言表征模型BERT(Bidirectional Encoder Representations from Transformer)中的其中一层网络,上述目标文本为表示单个文本句或者一对文本的词序列,对于给定的词,其输入表示通过词嵌入Token Embeddings、位置嵌入Position Embedding、语句分块嵌入SegmentationEmbedding三部分嵌入求和得到,其中,词嵌入为:分词后的词向量,位置嵌入指将单词的位置信息编码成特征向量,位置嵌入是向预训练的语言表征模型中引入单词位置关系的至关重要的一环,语句分块嵌入用于区分两个句子,对于句子对输入,第一个句子的特征值和第二个句子的特征值不同。将目标文本转化成机器学习算法可以识别的数值特征后,输入至预先训练完成的文本特征提取网络,经过文本特征提取网络提取并输出上述目标文本的文本特征。
在实际实现时,先将目标文本进行编码处理,也就是,将目标文本中每个字转换为ID编码,得到目标文本的编码特征,然后通过预训练的语言表征模型中变压器Transformer的编码器Encoder完成编码向量的转换,并基于自注意力机制对转换后的编码特征进行融合处理,进而得到上述目标文本的文本特征,上述自注意力机制是注意力机制的改进,减少了对外部信息的依赖,更加擅长捕捉数据或者特征内部的相关性。
与现有技术相比,本步骤在对目标文本进行编码处理后,通过编码器完成编码向量的转换,再基于自注意力机制完成字与字之间的特征融合,进而完成对目标文本深度特征的提取。
步骤S102、将目标文本对应的问题文本输入至预先训练完成的问题特征提取网络,输出问题文本的问题特征;其中,问题特征提取网络基于预设的训练样本集训练得到;训练样本集中包括多组问题样本对;问题样本对的样本标签用于:指示问题样本对中的问题是否具有相似语义;
获得目标文本的文本特征之后,进一步地,将目标文本对应的问题文本输入至预先训练完成的问题特征提取网络,该问题特征提取网络也是预训练的语言表征模型BERT中的其中一层网络,是基于预设的训练样本集训练得到的,其中,训练样本集中包括多组问题样本对,该问题样本对中包含两个问题,每个问题样本对都携带有样本标签,用于指示问题样本对中的两个问题是否具有相似语义,样本标签包括正样本和负样本,如果样本标签为正样本,则表明目标问题样本对中的问题具有相似语义,如果样本标签为负样本,则表明目标问题样本对中的问题不具有相似语义。
在实际实现时,将目标文本对应的问题文本输入至预先训练完成的问题特征提取网络中,该问题特征提取网络会提取上述问题文本的初始特征,并将该初始特征映射到指定特征空间,在该指定特征空间中,如果第一问题和第二问题的语义相似,那么第一问题和第二问题的问题特征的特征距离低于第一阈值;反之,如果第一问题和第二问题的语义不相似,那么第一问题和第二问题的问题特征的特征距离高于第二阈值,其中,特征距离越大,代表相似度越小,上述第二阈值大于第一阈值。
与现有技术相比,本步骤可以实现对问题文本的充分挖掘,通过将问题特征提取网络提取的问题文本的初始特征映射到指定特征空间,使得表述相似的问题文本的问题特征在特征距离上更加接近,表述不相似的问题文本的问题特征在特征距离上更加远离,从而有效地提高了对问题语义的理解效果。
步骤S103、将文本特征和问题特征输入至信息融合网络中,输出问题文本对应的答案文本。
实际实现时,将上述文本特征和问题特征输入至信息融合网络中,该信息融合网络可以将文本特征与问题特征进行融合拼接,具体的,先将问题特征和文本特征进行拼接,然后接入一个全连接层进行信息的交互融合,特征融合可以从融合中涉及的多个特征集中获得最具有差异性的信息,能够消除因不同特征集之间的相关性而先生的冗余信息。最后,在全连接层之后接入指针网络,输出问题文本对应的答案文本,其中,该指针网络可以识别上述融合特征中的起始特征和结尾特征;基于此,可以确认答案文本中的起始字段和结尾字段,再将起始特征、结尾特征、以及起始特征和结尾特征之间的中间特征确定为答案文本对应的特征,进而可以获得答案文本。
本步骤通过接入指针网络,可以不再依赖解码器的输出字典表,解决了输出字典依赖输入序列长度的问题,可选的,上述指针网络可以是一个全连接层,基于此,通过接入两个全连接层,分别判断每个字是否是开始或者结束的分类判断。
本发明实施例中,将目标文本输入至预先训练完成的文本特征提取网络,输出上述目标文本的文本特征;将目标文本对应的问题文本输入至预先训练完成的问题特征提取网络,输出问题文本的问题特征;其中,问题特征提取网络基于预设的训练样本集训练得到;训练样本集中包括多组问题样本对;问题样本对的样本标签用于:指示问题样本对中的问题是否具有相似语义;将文本特征和问题特征输入至信息融合网络中,输出问题文本对应的答案文本。该方法中,分别将目标文本、目标文本对应的问题文本输入至文本特征提取网络、问题特征提取网络之后得到目标文本的文本特征和问题文本的问题特征,进一步将文本特征和问题特征输入至信息融合网络中,得到问题文本对应的答案文本。采用该方式可以深度挖掘问题的语义信息,提高对问题的理解,从而提高问答系统的精度性能,保证生成的问题答案的准确性。
可选的,上述问题特征提取网络通过下述方式训练得到:从训练样本集中确定目标问题样本对;其中,目标问题样本对的样本标签包括正样本或负样本;正样本用于指示:目标问题样本对中的问题具有相似语义;负样本用于指示:目标问题样本对中的问题不具有相似语义;将目标问题样本对输入至初始网络中,输出目标问题对中每个问题的问题特征;基于每个问题的问题特征,对问题进行分类,得到每个问题的分类结果;基于每个问题的分类结果、样本标签以及预设的损失函数,计算损失值;基于损失值更新初始网络的参数,直至初始网络收敛,将收敛的初始网络确定为问题特征提取网络。
在实际实现时,上述问题特征提取网络通过下述方式训练得到:
首先,从训练样本中确定目标问题样本对,即用于训练问题特征网络的问题样本对,一种方式中,问题样本对由两个问题组成,每个问题样本对带有样本标签,该样本标签包括正样本和负样本,正样本用于指示目标问题样本对中的两个问题具有相似语义,而负样本则用于指示目标问题样本对中的两个问题不具有相似语义,如果样本问题对中的两个问题具有相似语义,则表示样本问题对中的两个问题表达同样的意思,反之,如果样本问题对中的两个问题不具有相似语义,则表示样本问题对中的两个问题表达的意思不同。
其次,将目标问题样本对输入至初始网络中,输出目标问题对中每个问题的问题特征,具体的,将上述目标问题样本对中的问题文本转换为机器学习算法可以识别的数值特征之后,输入至初始网络中,该初始网络为预训练的语言表征模型中的其中一层网络,可以提取目标问题样本中的问题特征,进而输出目标问题对中每个问题的问题特征。
然后,基于每个问题的问题特征,对问题进行分类,得到每个问题的分类结果;具体的,根据每个问题的问题特征对问题进行分类,分类的标准可以有多种选择,例如,可以针对不同的领域对问题进行分类,比如:教育、医疗、金融、购物等等,另外,也可以针对同一个领域的不同方面也可以进行分类等等。
可选的,将每个问题的问题特征输入至相似性对比网络,得到中间结果;将中间结果输入至预设的全连接层,输出每个问题的分类结果。
具体的,将上述每个问题的问题特征输入至相似性对比网络中,得到中间结果;该相似性对比网络用于对比上述问题样本对中问题特征的相似性,具体可以是一个全连接层,然后将上述中间结果输入至预设的全连接层,该全连接层可以实现对问题样本对中的问题是否具有相似语义进行判断的二分类模型,即对问题样本对中的问题是否具有相似语义进行判断,输出只有0,1的分类模型,进而输出每个问题的分类结果。
然后,基于上述每个问题的分类结果、样本标签以及预设的损失函数,计算损失值,具体的,根据上述每个问题的分类结果可以明确每个问题所属领域、所针对的方面等,根据上述样本标签可以明确上述问题对中的问题表述的是否是相似的语义,预设的损失函数用来计算预测值与真实值之间的差距程度,损失函数有多种选择,例如:Cross EntropyLoss函数(交叉熵函数)、Contrastive Loss函数(对比损失函数)等,根据上述每个问题的分类结果、样本标签以及预设的损失函数,可以计算损失值,该损失值是一个比较直接的指标来评价上述问题特征提取网络在训练集上的拟合程度,在一定范围内,损失值越大,代表预测值与真实值之间的差距越大,损失值越小,代表预测值与真实值之间的差距越小,当损失值不在下降时,达到最好的拟合程度。
最后,基于损失值更新初始网络的参数,直至初始网络收敛,将收敛的初始网络确定为问题特征提取网络。具体的,根据上述损失值来更新调整初始网络的参数,直至上述损失值不再下降,拟合程度最好,即初始网络收敛,此时初始网络输出的预测值与真实值之间最接近,差距最小,将此时的初始网络确定为问题特征网络,基于此,将目标文本对应的问题文本输入至预先训练完成的问题特征提取网络,可以保证输出的问题文本的问题特征的准确性。
可选的,将目标文本对应的问题文本输入至预先训练完成的问题特征提取网络,通过问题特征提取网络提取问题文本的初始特征,将初始特征映射至指定特征空间,得到问题文本的问题特征;其中,在指定特征空间中,如果第一问题和第二问题的语义相似,第一问题和第二问题的问题特征的特征距离低于第一阈值;如果第一问题和第二问题的语义不相似,第一问题和第二问题的问题特征的特征距离高于第二阈值;第二阈值大于第一阈值。
实际实现时,将目标文本对应的问题文本输入至预先训练完成的问题特征提取网络,经过问题特征提取网络提取问题文本的初始特征,并将该初始特征映射到指定特征空间,在该指定特征空间中,如果第一问题和第二问题的语义相似,即表达的意思相同,那么第一问题和第二问题的问题特征的特征距离低于第一阈值,特征距离越小代表特征越相近,即语义相似的问题,其问题特征相近,如果第一问题和第二问题的语义不相似,那么第一问题和第二问题的问题特征的特征距离高于第二阈值,特征距离越大,代表相似度越低,上述第二阈值大于第一阈值。
采用本步骤,使得语义相似的问题的问题特征更加接近,语义不相似的问题的问题特征更加远离,从而有效的提升对问题的语义理解效果。
可选的,将文本特征和问题特征进行拼接处理,得到拼接特征;将拼接特征输入至信息融合网络,通过信息融合网络中的全连接层网络对拼接特征进行融合处理,得到融合特征;通过信息融合网络中的指针网络识别融合特征中答案文本对应的特征;基于答案文本对应的特征输出问题文本对应的答案文本。
实际实现时,将上述文本特征和问题特征进行拼接,得到拼接特征之后,输入至信息融合网络,该信息融合网络也为预训练的语言表征模型中的其中一层网络,上述信息融合网络中的全连接层可以对上述拼接特征进行融合处理,特征融合可以从融合中涉及的多个特征集中获得最具有差异性的信息,能够消除因不同特征集之间的相关性而先生的冗余信息,进一步地,通过在信息融合网络中的全连接层之后再接入指针网络,该指针网络可以识别融合特征中答案文本对应的特征,再根据答案文本对应的特征输出问题答案文本对应的答案文本。
具体的,通过信息融合网络中的指针网络,识别融合特征中的起始特征和结尾特征;将起始特征、结尾特征、以及起始特征和结尾特征之间的中间特征确定为答案文本对应的特征。
在实际实现时,信息融合网络中的指针网络,可以识别上述融合特征中的起始特征和结尾特征;基于此,可以确认答案文本中的起始字段和结尾字段,再将起始特征、结尾特征、以及起始特征和结尾特征之间的中间特征确定为答案文本对应的特征,进而可以获得答案文本。
本步骤中,由于该答案文本是在对问题文本进行深度挖掘的基础上,基于信息融合网络中的指针网络获得的该答案文本,从而提高了对问题的理解,问答系统的精度性能,保证生成问题答案的准确性。
可选的,将目标文本进行编码处理,得到目标文本的编码特征;将编码特征输入至预训练的语言表征模型中,通过语言表征模型对编码特征进行转换,并基于自注意力机制对转换后的编码特征进行特征融合处理,得到目标文本的文本特征。
在实际实现时,先将目标文本进行编码处理,也就是,将目标文本中每个字转换为ID编码,得到目标文本的编码特征,然后通过预训练的语言表征模型中变压器Trsnsformer的编码器Encoder完成编码向量的转换,并基于自注意力机制对转换后的编码特征进行融合处理,进而得到上述目标文本的文本特征,上述自注意力机制是注意力机制的改进,减少了对外部信息的依赖,更加擅长捕捉数据或者特征内部的相关性。
与现有技术相比,本步骤在对目标文本进行编码处理后,通过编码器完成编码向量的转换,再基于自注意力机制完成字与字之间的特征融合,完成对目标文本深度特征的提取。
下述提供本发明的另一实施例,可参见图2。
步骤S201,将目标文本进行编码处理,得到目标文本的编码特征;将编码特征输入至预训练的语言表征模型中,通过语言表征模型对编码特征进行转换,并基于自注意力机制对转换后的编码特征进行特征融合处理,得到目标文本的文本特征;
在实际实现时,先将目标文本进行编码处理,也就是,将目标文本中每个字转换为ID编码,得到目标文本的编码特征,然后通过预训练的语言表征模型中变压器Transformer的编码器Encoder完成编码向量的转换,并基于自注意力机制对转换后的编码特征进行融合处理,进而得到上述目标文本的文本特征,上述自注意力机制是注意力机制的改进,减少了对外部信息的依赖,更加擅长捕捉数据或者特征内部的相关性。
步骤S202,将目标文本对应的问题文本输入至预先训练完成的问题特征提取网络,通过问题特征提取网络提取问题文本的初始特征,将初始特征映射至指定特征空间,得到问题文本的问题特征;其中,在指定特征空间中,如果第一问题和第二问题的语义相似,第一问题和第二问题的问题特征的特征距离低于第一阈值;如果第一问题和第二问题的语义不相似,第一问题和第二问题的问题特征的特征距离高于第二阈值;第二阈值大于第一阈值;
在实际实现时,将目标文本对应的问题文本输入至预先训练完成的问题特征提取网络中,该问题特征提取网络会提取上述问题文本的初始特征,并将该初始特征映射到指定特征空间,在该指定特征空间中,如果第一问题和第二问题的语义相似,那么第一问题和第二问题的问题特征的特征距离低于第一阈值;反之,如果第一问题和第二问题的语义不相似,那么第一问题和第二问题的问题特征的特征距离高于第二阈值,其中,特征距离越大,代表相似度越小,上述第二阈值大于第一阈值。
步骤S203,将文本特征和问题特征进行拼接处理,得到拼接特征;将拼接特征输入至信息融合网络,通过信息融合网络中的全连接层网络对拼接特征进行融合处理,得到融合特征;
实际实现时,将上述文本特征和问题特征输入至信息融合网络中,该信息融合网络可以将文本特征与问题特征进行融合拼接,具体的,先将问题特征和文本特征进行拼接,然后接入一个全连接层进行信息的交互融合,特征融合可以从融合中涉及的多个特征集中获得最具有差异性的信息,能够消除因不同特征集之间的相关性而先生的冗余信息。
步骤S204,通过信息融合网络中的指针网络,识别融合特征中的起始特征和结尾特征;将起始特征、结尾特征、以及起始特征和结尾特征之间的中间特征确定为答案文本对应的特征;
在实际实现时,信息融合网络中的指针网络,可以识别上述融合特征中的起始特征和结尾特征;基于此,可以确认答案文本中的起始字段和结尾字段,再将起始特征、结尾特征、以及起始特征和结尾特征之间的中间特征确定为答案文本对应的特征。
步骤S205,基于答案文本对应的特征输出问题文本对应的答案文本。
本发明实施例中,分别将目标文本、目标文本对应的问题文本输入至文本特征提取网络、问题特征提取网络之后得到目标文本的文本特征和问题文本的问题特征,进一步将文本特征和问题特征输入至信息融合网络中,得到问题文本对应的答案文本。采用该方式可以深度挖掘问题的语义信息,提高对问题的理解,从而提高问答系统的精度性能,保证生成的问题答案的准确性。
上面对本发明实施例中问题答案的生成方法进行了描述,下面对本发明实施例中问题答案的生成装置进行描述,请参阅图3,本发明实施例中问题答案的生成装置的一个实施例包括:
第一输入模块301,用于将目标文本输入至预先训练完成的文本特征提取网络,输出目标文本的文本特征;
第二输入模块302,用于将目标文本对应的问题文本输入至预先训练完成的问题特征提取网络,输出问题文本的问题特征;其中,问题特征提取网络基于预设的训练样本集训练得到;训练样本集中包括多组问题样本对;问题样本对的样本标签用于:指示问题样本对中的问题是否具有相似语义;
第三输入模块303,用于将文本特征和问题特征输入至信息融合网络中,输出问题文本对应的答案文本。
本发明实施例中,将目标文本输入至预先训练完成的文本特征提取网络,输出上述目标文本的文本特征;将目标文本对应的问题文本输入至预先训练完成的问题特征提取网络,输出问题文本的问题特征;其中,问题特征提取网络基于预设的训练样本集训练得到;训练样本集中包括多组问题样本对;问题样本对的样本标签用于:指示问题样本对中的问题是否具有相似语义;将文本特征和问题特征输入至信息融合网络中,输出问题文本对应的答案文本。该方法中,分别将目标文本、目标文本对应的问题文本输入至文本特征提取网络、问题特征提取网络之后得到目标文本的文本特征和问题文本的问题特征,进一步将文本特征和问题特征输入至信息融合网络中,得到问题文本对应的答案文本。采用该方式可以深度挖掘问题的语义信息,提高对问题的理解,从而提高问答系统的精度性能,保证生成的问题答案的准确性。
可选的,上述第二输入模块302还可以具体用于:
从上述训练样本集中确定目标问题样本对;其中,目标问题样本对的样本标签包括正样本或负样本;上述正样本用于指示:目标问题样本对中的问题具有相似语义;上述负样本用于指示:目标问题样本对中的问题不具有相似语义;将目标问题样本对输入至初始网络中,输出目标问题对中每个问题的问题特征;基于每个问题的问题特征,对问题进行分类,得到每个问题的分类结果;基于每个问题的分类结果、样本标签以及预设的损失函数,计算损失值;基于损失值更新初始网络的参数,直至初始网络收敛,将收敛的初始网络确定为上述问题特征提取网络。
可选的,上述第二输入模块302还可以具体还用于:
将每个问题的问题特征输入至相似性对比网络,得到中间结果;将该中间结果输入至预设的全连接层,输出每个问题的分类结果。
可选的,上述第二输入模块302还可以具体还用于:
将目标文本对应的问题文本输入至预先训练完成的问题特征提取网络,通过问题特征提取网络提取问题文本的初始特征,将初始特征映射至指定特征空间,得到问题文本的问题特征;其中,在指定特征空间中,如果第一问题和第二问题的语义相似,第一问题和第二问题的问题特征的特征距离低于第一阈值;如果第一问题和第二问题的语义不相似,第一问题和第二问题的问题特征的特征距离高于第二阈值;第二阈值大于第一阈值。
可选的,上述第三输入模块303还可以具体还用于:
将文本特征和问题特征进行拼接处理,得到拼接特征;将拼接特征输入至信息融合网络,通过信息融合网络中的全连接层网络对拼接特征进行融合处理,得到融合特征;通过信息融合网络中的指针网络识别融合特征中答案文本对应的特征;基于答案文本对应的特征输出问题文本对应的答案文本。
可选的,上述第三输入模块303还可以具体还用于:
通过信息融合网络中的指针网络,识别融合特征中的起始特征和结尾特征;将起始特征、结尾特征、以及起始特征和结尾特征之间的中间特征确定为答案文本对应的特征。
可选的,上述第一输入模块301还可以具体还用于:
将目标文本进行编码处理,得到目标文本的编码特征;将编码特征输入至预训练的语言表征模型中,通过语言表征模型对编码特征进行转换,并基于自注意力机制对转换后的编码特征进行特征融合处理,得到目标文本的文本特征。
上面图对本发明实施例中的问题答案的生成装置进行详细描述,下面从硬件处理的角度对本发明实施例中问题答案的生成设备进行详细描述。
图4是本发明实施例提供的一种问题答案的生成设备的结构示意图,该问题答案的生成设备400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)410(例如,一个或一个以上处理器)和存储器420,一个或一个以上存储应用程序433或数据432的存储介质430(例如一个或一个以上海量存储设备)。其中,存储器420和存储介质430可以是短暂存储或持久存储。存储在存储介质430的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对问题答案的生成设备400中的一系列指令操作。更进一步地,处理器410可以设置为与存储介质430通信,在问题答案的生成设备400上执行存储介质430中的一系列指令操作。
问题答案的生成设备400还可以包括一个或一个以上电源440,一个或一个以上有线或无线网络接口450,一个或一个以上输入输出接口460,和/或,一个或一个以上操作系统431,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图4示出的问题答案的生成设备结构并不构成对问题答案的生成设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,计算机可读存储介质中存储有指令,当指令在计算机上运行时,使得计算机执行问题答案的生成方法的步骤。
本发明还提供一种问题答案的生成设备,问题答案的生成设备包括存储器和处理器,存储器中存储有指令,指令被处理器执行时,使得处理器执行上述各实施例中的问题答案的生成方法的步骤。
进一步地,计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种问题答案的生成方法,其特征在于,所述问题答案的生成方法包括:
将目标文本输入至预先训练完成的文本特征提取网络,输出所述目标文本的文本特征;
将所述目标文本对应的问题文本输入至预先训练完成的问题特征提取网络,输出所述问题文本的问题特征;其中,所述问题特征提取网络基于预设的训练样本集训练得到;所述训练样本集中包括多组问题样本对;所述问题样本对的样本标签用于:指示所述问题样本对中的问题是否具有相似语义;
将所述文本特征和所述问题特征输入至信息融合网络中,输出所述问题文本对应的答案文本。
2.根据权利要求1所述的问题答案的生成方法,其特征在于,所述问题特征提取网络通过下述方式训练得到:
从所述训练样本集中确定目标问题样本对;其中,所述目标问题样本对的样本标签包括正样本或负样本;所述正样本用于指示:所述目标问题样本对中的问题具有相似语义;所述负样本用于指示:所述目标问题样本对中的问题不具有相似语义;
将所述目标问题样本对输入至初始网络中,输出所述目标问题对中每个问题的问题特征;
基于所述每个问题的问题特征,对所述问题进行分类,得到所述每个问题的分类结果;
基于所述每个问题的分类结果、所述样本标签以及预设的损失函数,计算损失值;基于所述损失值更新所述初始网络的参数,直至所述初始网络收敛,将收敛的所述初始网络确定为所述问题特征提取网络。
3.根据权利要求2所述的问题答案的生成方法,其特征在于,基于所述每个问题的问题特征,对所述问题进行分类,得到所述每个问题的分类结果的步骤,包括:
将所述每个问题的问题特征输入至相似性对比网络,得到中间结果;
将所述中间结果输入至预设的全连接层,输出所述每个问题的分类结果。
4.根据权利要求1所述的问题答案的生成方法,其特征在于,将所述目标文本对应的问题文本输入至预先训练完成的问题特征提取网络,输出所述问题文本的问题特征的步骤,包括:
将所述目标文本对应的问题文本输入至预先训练完成的问题特征提取网络,通过所述问题特征提取网络提取所述问题文本的初始特征,将所述初始特征映射至指定特征空间,得到所述问题文本的问题特征;
其中,在所述指定特征空间中,如果第一问题和第二问题的语义相似,所述第一问题和所述第二问题的问题特征的特征距离低于第一阈值;如果所述第一问题和所述第二问题的语义不相似,所述第一问题和所述第二问题的问题特征的特征距离高于第二阈值;所述第二阈值大于所述第一阈值。
5.根据权利要求1所述的问题答案的生成方法,其特征在于,将所述文本特征和所述问题特征输入至信息融合网络中,输出所述问题文本对应的答案文本的步骤,包括:
将所述文本特征和所述问题特征进行拼接处理,得到拼接特征;
将所述拼接特征输入至信息融合网络,通过所述信息融合网络中的全连接层网络对所述拼接特征进行融合处理,得到融合特征;通过所述信息融合网络中的指针网络识别所述融合特征中答案文本对应的特征;
基于所述答案文本对应的特征输出所述问题文本对应的答案文本。
6.根据权利要求5所述的问题答案的生成方法,其特征在于,通过所述信息融合网络中的指针网络识别所述融合特征中答案文本对应的特征的步骤,包括:
通过所述信息融合网络中的指针网络,识别所述融合特征中的起始特征和结尾特征;
将所述起始特征、所述结尾特征、以及所述起始特征和所述结尾特征之间的中间特征确定为答案文本对应的特征。
7.根据权利要求1所述的问题答案的生成方法,其特征在于,将目标文本输入至预先训练完成的文本特征提取网络,输出所述目标文本的文本特征的步骤,包括:
将所述目标文本进行编码处理,得到所述目标文本的编码特征;
将所述编码特征输入至预训练的语言表征模型中,通过所述语言表征模型对所述编码特征进行转换,并基于自注意力机制对转换后的所述编码特征进行特征融合处理,得到所述目标文本的文本特征。
8.一种问题答案的生成装置,其特征在于,所述问题答案的生成装置包括:
第一输入模块,用于将目标文本输入至预先训练完成的文本特征提取网络,输出所述目标文本的文本特征;
第二输入模块,用于将所述目标文本对应的问题文本输入至预先训练完成的问题特征提取网络,输出所述问题文本的问题特征;其中,所述问题特征提取网络基于预设的训练样本集训练得到;所述训练样本集中包括多组问题样本对;所述问题样本对的样本标签用于:指示所述问题样本对中的问题是否具有相似语义;
第三输入模块,用于将所述文本特征和所述问题特征输入至信息融合网络中,输出所述问题文本对应的答案文本。
9.一种问题答案的生成设备,其特征在于,所述问题答案的生成设备包括:存储器和至少一个处理器,所述存储器中存储有指令;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述问题答案的生成设备执行如权利要求1-7中任意一项所述的问题答案的生成方法。
10.一种计算机可读存储介质,其上存储有指令,其特征在于,所述指令被处理器执行时实现如权利要求1-7中任意一项所述的问题答案的生成方法。
CN202310444776.1A 2023-04-14 2023-04-14 问题答案的生成方法、装置、设备及存储介质 Pending CN116467417A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310444776.1A CN116467417A (zh) 2023-04-14 2023-04-14 问题答案的生成方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310444776.1A CN116467417A (zh) 2023-04-14 2023-04-14 问题答案的生成方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN116467417A true CN116467417A (zh) 2023-07-21

Family

ID=87175044

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310444776.1A Pending CN116467417A (zh) 2023-04-14 2023-04-14 问题答案的生成方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN116467417A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116911289A (zh) * 2023-09-13 2023-10-20 中电科大数据研究院有限公司 政务领域大模型可信文本生成方法、装置及存储介质
CN117592567A (zh) * 2023-11-21 2024-02-23 广州方舟信息科技有限公司 药品问答模型训练方法、装置、电子设备和存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116911289A (zh) * 2023-09-13 2023-10-20 中电科大数据研究院有限公司 政务领域大模型可信文本生成方法、装置及存储介质
CN116911289B (zh) * 2023-09-13 2024-01-02 中电科大数据研究院有限公司 政务领域大模型可信文本生成方法、装置及存储介质
CN117592567A (zh) * 2023-11-21 2024-02-23 广州方舟信息科技有限公司 药品问答模型训练方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN107679039B (zh) 用于确定语句意图的方法和装置
WO2021082953A1 (zh) 机器阅读理解方法、设备、存储介质及装置
CN109145294B (zh) 文本实体识别方法及装置、电子设备、存储介质
CN110727779A (zh) 基于多模型融合的问答方法及系统
CN113205817B (zh) 语音语义识别方法、系统、设备及介质
CN116467417A (zh) 问题答案的生成方法、装置、设备及存储介质
CN110929038A (zh) 基于知识图谱的实体链接方法、装置、设备和存储介质
US20220138193A1 (en) Conversion method and systems from natural language to structured query language
CN111666376B (zh) 一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法及装置
CN112668333A (zh) 命名实体的识别方法和设备、以及计算机可读存储介质
CN112528654A (zh) 自然语言处理方法、装置及电子设备
CN113761868A (zh) 文本处理方法、装置、电子设备及可读存储介质
CN111368066B (zh) 获取对话摘要的方法、装置和计算机可读存储介质
CN110852071A (zh) 知识点检测方法、装置、设备及可读存储介质
CN116595023A (zh) 地址信息的更新方法和装置、电子设备及存储介质
CN113704466B (zh) 基于迭代网络的文本多标签分类方法、装置及电子设备
CN113420119B (zh) 基于知识卡片的智能问答方法、装置、设备及存储介质
CN112818688B (zh) 文本处理方法、装置、设备及存储介质
CN115470790A (zh) 一种识别文件中的命名实体的方法和装置
CN112528674B (zh) 文本处理方法、模型的训练方法、装置、设备及存储介质
CN115221284A (zh) 文本相似度的计算方法、装置、电子设备及存储介质
CN111522957B (zh) 一种短语分割模型的训练方法和系统
CN114398482A (zh) 一种词典构造方法、装置、电子设备及存储介质
CN115130461A (zh) 一种文本匹配方法、装置、电子设备及存储介质
CN114510561A (zh) 答案选择方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination