CN117216194B - 文博领域知识问答方法及装置、设备和介质 - Google Patents
文博领域知识问答方法及装置、设备和介质 Download PDFInfo
- Publication number
- CN117216194B CN117216194B CN202311473814.2A CN202311473814A CN117216194B CN 117216194 B CN117216194 B CN 117216194B CN 202311473814 A CN202311473814 A CN 202311473814A CN 117216194 B CN117216194 B CN 117216194B
- Authority
- CN
- China
- Prior art keywords
- graph
- samples
- knowledge
- triplet
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 75
- 208000001613 Gambling Diseases 0.000 title abstract description 3
- 238000012549 training Methods 0.000 claims description 126
- 238000001228 spectrum Methods 0.000 claims description 45
- 238000006243 chemical reaction Methods 0.000 claims description 22
- 238000012545 processing Methods 0.000 claims description 21
- 238000000605 extraction Methods 0.000 claims description 10
- 230000014509 gene expression Effects 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 8
- 230000004927 fusion Effects 0.000 claims description 7
- 230000009467 reduction Effects 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 abstract description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000004590 computer program Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 12
- 230000015654 memory Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 230000000694 effects Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种文博领域知识问答方法及装置、设备和介质,可以应用于人工智能技术领域;该文博领域知识问答方法包括:将采用自然语言表示的文博领域问题语句输入子图检索模型,输出采用预定格式表示的M个序列化图谱语义文本;将文博领域问题语句和M个序列化图谱语义文本进行文本拼接,得到拼接文本;将拼接文本输入微调语言模型,输出针对文博领域问题语句的采用自然语言表示的N个候选回答语句;将N个候选回答语句输入重排序模型,从N个候选回答语句中确定L个优选回答语句;本发明可解决相关技术中语言模型在文博领域应用上的限制,提升模型基于知识图谱问答的泛化能力,增加模型生成回答的可解释性。
Description
技术领域
本发明涉及人工智能技术领域,具体地涉及一种文博领域知识问答方法、装置、设备、介质和程序产品。
背景技术
大语言模型通常是在海量无标注的数据上进行预训练,学习总结文本数据内部的规律及特征,参数量巨大,也因此需要强大的算力支撑,在基础大语言预训练模型的基础上,经过有监督的微调,使用指令微调、RLHF(人工反馈强化学习)等技术进行人类意图对齐,使大语言模型能适应多个场景应用,及接受提示词,根据提示词生成回答。
但是,目前大语言模型在文博领域中的应用存在一些缺陷:例如,一般大语言模型更偏向的是通用领域,力求统一、所有问题都能回答,所以在文博领域上的效果较差,细节知识难以知晓,并且训练一个大语言基础模型需要消耗的成本较大,部分文博知识样本难以获取等,导致了针对文博领域训练完全统一的大模型是不可行的。
发明内容
鉴于上述问题,本发明提供了一种文博领域知识问答方法、装置、设备、介质和程序产品。
本发明的一个方面,提供了一种文博领域知识问答方法,包括:
将采用自然语言表示的文博领域问题语句输入子图检索模型,以使得子图检索模型从文博领域知识图谱中检索得到与文博领域问题语句相关的M个知识子图谱,并将M个知识子图谱进行预定格式的序列化格式转换后,输出采用预定格式表示的M个序列化图谱语义文本,其中,M个序列化图谱语义文本用于表征M个知识子图谱的图谱语义含义;
将文博领域问题语句和M个序列化图谱语义文本进行文本拼接,得到拼接文本;
将拼接文本输入微调语言模型,以使得微调语言模型对拼接文本进行语义解读后,输出针对文博领域问题语句的采用自然语言表示的N个候选回答语句;
将N个候选回答语句输入重排序模型,以使得重排序模型对N个候选回答语句进行排序处理后,从N个候选回答语句中确定L个优选回答语句。
根据本发明的实施例,序列化图谱语义文本表征的图谱语义含义包括各个知识子图谱的三元组实体关系含义,以及多个知识子图谱彼此之间的关联关系含义。
根据本发明的实施例,预定格式包括:
用于表征知识子图谱中包含的实体数据的第一格式符;
用于表征知识子图谱中实体之间关系的第二格式符;
用于表征知识子图谱中三元组开始位置的第三格式符;
用于表征知识子图谱中三元组结束位置的第四格式符;
用于表征知识子图谱开始位置的第五格式符;
用于表征知识子图谱结束位置的第六格式符;
其中,第一格式符、第二格式符、第三格式符、第四格式符用于表征知识子图谱的三元组实体关系含义,第五格式符、第六格式符用于表征多个知识子图谱彼此之间的关联关系。
根据本发明的实施例,重排序模型包括特征提取层、特征融合层、结果映射层。
根据本发明的实施例,子图检索模型是利用与第一预定知识图谱样本关联的多个第一问题样本,以及与多个第一问题样本关联的采用预定格式表示的多个第一序列化图谱语义样本训练得到的,其中,第一序列化图谱语义样本是对与多个第一问题样本关联多个第一相关子图谱样本组进行预定格式的序列化格式转换后得到的,多个第一相关子图谱样本组源自于第一预定知识图谱样本,第一预定知识图谱样本至少包括文博领域知识图谱。
根据本发明的实施例,子图检索模型通过以下方法训练得到:
获取第一预定知识图谱样本,其中,第一预定知识图谱样本包括文博领域知识图谱,或者第一预定知识图谱样本包括通用领域知识图谱和文博领域知识图谱;
将第一预定知识图谱样本进行文本化处理,得到多个第一三元组文本,其中,每个第一三元组文本对应于第一预定知识图谱样本中的一个第一知识图谱三元组样本;
将多个第一三元组文本输入三元组关联模型,输出多个第一三元组文本彼此之间的相似度值;
根据多个第一三元组文本彼此之间的相似度值,将与多个第一三元组文本关联的多个第一知识图谱三元组样本进行相似度分组,得到多个第一相关子图谱样本组;
对多个第一相关子图谱样本组进行预定格式的序列化格式转换,得到多个第一序列化图谱语义样本;
利用微调语言模型对多个第一序列化图谱语义样本进行提问,得到多个第一问题样本;
利用多个第一问题样本和多个第一序列化图谱语义样本训练得到子图检索模型。
根据本发明的实施例,三元组关联模型通过以下方法训练得到:
获取多个三元组样本;
从多个三元组样本中确定多个第一三元组样本并标记第一三元组样本,其中,多个第一三元组样本彼此之间的相似度满足预设相似条件;
从多个三元组样本中确定多个第二三元组样本,其中,第二三元组样本为:与第一三元组样本存在节点关联关系且未被标记的三元组样本;
以多个第一三元组样本作为正样本,以多个第二三元组样本作为负样本,对基础文本相似度模型进行对比学习训练,得到初始三元组关联模型;
利用初始三元组关联模型,对多个第三三元组样本进行相似度预测,并根据预测结果确定多个第一预测样本,其中,多个第一预测样本彼此之间的相似度满足预设相似条件,第三三元组样本为未被标记的三元组样本;
利用初始三元组关联模型,对多个第一三元组样本进行相似度预测,并根据预测结果确定多个第二预测样本,其中,多个第二预测样本彼此之间的相似度不满足预设相似条件;
利用多个第一三元组样本、多个第一预测样本、多个第二预测样本作为训练样本,对初始三元组关联模型进行多次迭代对比学习训练,得到训练得到的三元组关联模型。
根据本发明的实施例,对初始三元组关联模型进行对比学习训练包括:
计算综合对比损失,其中,综合对比损失包括基于多个第一三元组样本计算得到的第一对比损失,以及基于多个第一预测样本和多个第二预测样本计算得到的第二对比损失,第一对比损失的权重高于第二对比损失的权重;
根据综合对比损失调整初始三元组关联模型的模型参数。
根据本发明的实施例,微调语言模型通过以下方法训练得到:
获取采用通用领域知识图谱的第二预定知识图谱样本、与通用领域知识图谱对应的图谱来源文本、预定指令库样本,其中,预定指令库样本包括基于通用领域知识和文博领域知识的多个标准问答对;
基于第二预定知识图谱样本得到多个第二知识图谱三元组样本;
对多个第二知识图谱三元组样本中的子图谱进行预定格式的序列化格式转换,得到多个第二序列化图谱语义样本;
修改预训练语言模型的模型词表,在模型词表中添加自定义图谱语义词的映射关系,其中,自定义图谱语义词包括第一格式符、第二格式符、第三格式符、第四格式符、第五格式符、第六格式符;
利用多个第二序列化图谱语义样本、图谱来源文本、预定指令库样本作为训练样本,采用多任务训练方式,训练被修改模型词表的预训练语言模型,得到训练得到的微调语言模型。
根据本发明的实施例,训练被修改模型词表的预训练语言模型包括:
将图谱来源文本输入预训练语言模型,利用预训练语言模型进行信息抽取,输出与第二序列化图谱语义样本的表达形式相同的参考序列化图谱语义样本,并以第二序列化图谱语义样本作为标签,训练预训练语言模型的信息抽取能力;
将第二序列化图谱语义样本输入预训练语言模型,利用预训练语言模型进行信息还原,输出与图谱来源文本的表达形式相同的参考语句样本,并以图谱来源文本作为标签,训练预训练语言模型的信息还原能力;
将第二序列化图谱语义样本和预定指令库样本输入训练之前的预训练语言模型,输出第一结果语句;
将第二序列化图谱语义样本和预定指令库样本输入训练中的预训练语言模型,输出第二结果语句;
以第一结果语句作为第二结果语句的约束,调整训练中的预训练语言模型的模型参数,得到训练得到的微调语言模型。
根据本发明的实施例,重排序模型通过以下方法训练得到:
获取第三预定知识图谱样本,其中,第三预定知识图谱样本包括通用领域知识图谱和/或文博领域知识图谱;
将第三预定知识图谱样本进行文本化处理,得到多个第二三元组文本,其中,每个第二三元组文本对应于第三预定知识图谱样本中的一个第三知识图谱三元组样本;
将多个第二三元组文本输入三元组关联模型,输出多个第二三元组文本彼此之间的相似度值;
根据多个第二三元组文本彼此之间的相似度值,将与多个第二三元组文本关联的多个第三知识图谱三元组样本进行相似度分组,得到多个第二相关子图谱样本组;
对多个第二相关子图谱样本组进行预定格式的序列化格式转换,得到多个第三序列化图谱语义样本;
利用微调语言模型对多个第三序列化图谱语义样本进行提问,得到多个第二问题样本;
利用微调语言模型对多个第二问题样本进行作答,得到多个回答样本;
对多个回答样本标注用于表征回答好坏的序列标签;
以多个第二问题样本、多个第三序列化图谱语义样本、多个回答样本、多个回答样本的序列标签作为训练样本,训练得到重排序模型。
本发明的另一个方面提供了一种文博领域知识问答装置,包括:
子图检索模块,用于将采用自然语言表示的文博领域问题语句输入子图检索模型,以使得子图检索模型从文博领域知识图谱中检索得到与文博领域问题语句相关的M个知识子图谱,并将M个知识子图谱进行预定格式的序列化格式转换后,输出采用预定格式表示的M个序列化图谱语义文本,其中,M个序列化图谱语义文本用于表征M个知识子图谱的图谱语义含义;
拼接模块,用于将文博领域问题语句和M个序列化图谱语义文本进行文本拼接,得到拼接文本;
回答模块,用于将拼接文本输入微调语言模型,以使得微调语言模型对拼接文本进行语义解读后,输出针对文博领域问题语句的采用自然语言表示的N个候选回答语句;
排序模块,用于将N个候选回答语句输入重排序模型,以使得重排序模型对N个候选回答语句进行排序处理后,从N个候选回答语句中确定L个优选回答语句。
本发明的另一个方面提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得一个或多个处理器执行上述文博领域知识问答方法。
本发明的另一个方面还提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行上述文博领域知识问答方法。
本发明的另一个方面还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述文博领域知识问答方法。
为解决相关技术中语言模型在文博领域应用上的限制,本发明实施例的上述方法通过先利用子图检索模型从文博领域知识图谱中检索得到与文博领域问题语句相关知识子图谱,进行文本格式转换后,利用微调语言模型进行语义解读可得到针对问题的回答。因文博领域知识图谱可以描述文博知识和建模世界万物之间的关联关系,包含丰富的文博知识信息种类,通过先利用子图检索模型从文博领域知识图谱中检索得到与文博领域问题语句相关知识子图谱,可弥补语言模型在文博领域使用时掌握知识不全面,细节不充分等技术缺陷;之后,利用微调语言模型进行语义解读可得到针对问题的优势回答,进一步通过重排序模型对多个回答进行了进一步的筛选,得到的最终回答符合用户期望,回答准确性高,人性化程度高。可见,通过子图检索模型、语言模型、以及重排序模型的协同融合,可使大语言模型能够更好地应用于文博领域,有效缓解大语言模型在文博领域的幻觉现象,提升基于知识图谱问答的泛化能力,增加大模型生成回答的可解释性。
附图说明
通过以下参照附图对本发明实施例的描述,本发明的上述内容以及其他目的、特征和优点将更为清楚,在附图中:
图1示出了根据本发明实施例的文博领域知识问答方法、装置、设备、介质和程序产品的应用场景图;
图2示出了根据本发明实施例的文博领域知识问答方法的流程图;
图3示出了根据本发明实施例的文博领域知识问答方法的系统原理图;
图4示意性示出了根据本发明实施例的文博领域知识问答装置的结构框图;
图5示意性示出了根据本发明实施例的适于实现文博领域知识问答方法的电子设备的方框图。
具体实施方式
以下,将参照附图来描述本发明的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本发明的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本发明实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本发明。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。
图1示出了根据本发明实施例的文博领域知识问答方法、装置、设备、介质和程序产品的应用场景图。
如图1所示,根据该实施例的应用场景100可以包括第一终端设备101、第二终端设备102、第三终端设备103、网络104和服务器105。网络104用以在第一终端设备101、第二终端设备102、第三终端设备103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用第一终端设备101、第二终端设备102、第三终端设备103中的至少一个通过网络104与服务器105交互,以接收或发送消息等。第一终端设备101、第二终端设备102、第三终端设备103上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
第一终端设备101、第二终端设备102、第三终端设备103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用第一终端设备101、第二终端设备102、第三终端设备103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。
在本发明的应用场景下,用户可以使用第一终端设备101、第二终端设备102、第三终端设备103通过网络104与服务器105交互,向服务器105发起用于获取文博领域相关问题的回答结果的请求,响应于用户请求,服务器105执行本发明实施例的文博领域知识问答方法,基于用户通过第一终端设备101、第二终端设备102、第三终端设备103输入的采用自然语言表示的文博领域问题语句,进行子图匹配处理、问答处理、重排序处理后,输出针对用户提问的优选回答语句,并通过第一终端设备101、第二终端设备102、第三终端设备103向用户返回。
需要说明的是,本发明实施例所提供的文博领域知识问答方法一般可以由服务器105执行。相应地,本发明实施例所提供的文博领域知识问答装置一般可以设置于服务器105中。本发明实施例所提供的文博领域知识问答方法也可以由不同于服务器105且能够与第一终端设备101、第二终端设备102、第三终端设备103和/或服务器105通信的服务器或服务器集群执行。相应地,本发明实施例所提供的文博领域知识问答装置也可以设置于不同于服务器105且能够与第一终端设备101、第二终端设备102、第三终端设备103和/或服务器105通信的服务器或服务器集群中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
以下将基于图1描述的场景,通过图2~图5对发明实施例的文博领域知识问答方法进行详细描述。
图2示出了根据本发明实施例的文博领域知识问答方法的流程图。图3示出了根据本发明实施例的文博领域知识问答方法的系统原理图。以下,结合图2、图3对本发明实施例的方法进行说明。
如图2、图3所示,该实施例的方法包括操作S201~操作S204。
在操作S201,将采用自然语言表示的文博领域问题语句输入子图检索模型,以使得子图检索模型从文博领域知识图谱中检索得到与文博领域问题语句相关的M个知识子图谱,并将M个知识子图谱进行预定格式的序列化格式转换后,输出采用预定格式表示的M个序列化图谱语义文本,其中,M个序列化图谱语义文本用于表征M个知识子图谱的图谱语义含义。
其中,子图检索模型预先训练得到,用于从文博领域知识图谱中检索得到与用户输入的问题语句相关的多个知识子图谱,并具备将知识子图谱进行预定格式的序列化格式转换的能力。
例如,用户输入:“青釉狗圈是什么?”,通过子图检索模型可检索出于其相关的多个子图谱,例如包括用于表征青釉狗圈的质地描述的子图谱、用于描述用于表征青釉狗圈的收藏地点的子图谱、用于表征青釉狗圈的制作工艺的子图谱等等。
子图检索模型进一步将多个知识子图谱分别进行预定格式的序列化格式转换,输出采用预定格式表示的多个序列化图谱语义文本。预定格式为用户自定义的格式,采用该预定格式的序列化图谱语义文本可用于表征知识子图谱的图谱语义含义,具体包括各个知识子图谱的三元组实体关系含义,以及多个知识子图谱彼此之间的关联关系含义。常规采用三元组形式表示的图谱仅能够体现该三元组内实体之间的关系,相比于常规采用三元组形式表示的图谱,该序列化图谱语义文本不仅可表示知识子图谱自身的三元组实体关系含义,还可以表示多个知识子图谱彼此之间的关联关系,因此,可以更加完整地表征知识图谱的整体含义。
在操作S202,将文博领域问题语句和M个序列化图谱语义文本进行文本拼接,得到拼接文本。例如,将文博领域问题语句和M个序列化图谱语义文本依次拼接得到一个长文本。
在操作S203,将拼接文本输入微调语言模型,以使得微调语言模型对拼接文本进行语义解读后,输出针对文博领域问题语句的采用自然语言表示的N个候选回答语句。
微调语言模型预先训练得到,具备语义解读的能力,拼接文本中包括问题语义以及与该问题相关的图谱的语义含义,通过微调语言模型对拼接文本进行语义解读,可解读出针对问题的回答。例如:得到拼接文本:“根据以下图谱结构回答问题:<g>...<\g>\n,问题:[青釉狗圈是什么]\n”;将拼接的文本输入上述微调语言模型,可通过模型输出多个不同的回答。
在操作S204,将N个候选回答语句输入重排序模型,以使得重排序模型对N个候选回答语句进行排序处理后,从N个候选回答语句中确定L个优选回答语句,例如,可以是从多个候选回答语句中确定1个最优回答语句,也可以是筛选出2个以上的回答语句作为优选的回答语句。
重排序模型预先训练得到,用于对多个候选回答进行排序处理,可计算得到每个回答对应的分值,再根据分值从多个回答中选取分值靠前的一个或者多个回答作为优选回答。
利用重排序模型,可从多个回答中选取最符合用户期望的回答。例如:针对用户的提问:“青釉狗圈是什么?”,得到的多个回答中,回答1仅描述了青釉狗圈的样貌形态和年代等基本信息;回答2不仅描述了青釉狗圈的样貌形态和年代等基本信息,还描述了与其有关的其他信息,例如制作工艺、收藏地点、发掘时间地点等辅助信息;相较而言,回答2的信息更全面、更人性化,更符合用户的期望,回答2的得分高于回答1的得分,可将回答2作为优选回答。
根据本发明的实施例,随着Chat GPT的流行,大语言模型技术逐渐被应用广泛,大语言模型通常是在海量无标注的数据上进行预训练,学习总结文本数据内部的规律及特征,参数量巨大,也因此需要强大的算力支撑,在基础大语言预训练模型的基础上,经过有监督的微调,使用指令微调、RLHF(人工反馈强化学习)等技术进行人类意图对齐,使大语言模型能适应多个场景应用,及接受提示词,根据提示词生成回答。
但是,目前大语言模型在文博领域中的应用存在一些缺陷:
例如,一般大语言模型更偏向的是通用领域,力求统一、所有问题都能回答,所以在文博领域上的效果较差,细节知识难以知晓,并且训练一个大语言基础模型需要消耗的成本较大,部分文博知识样本难以获取等,导致了针对文博领域训练完全统一的大模型是不可行的。
为解决相关技术中语言模型在文博领域应用上的限制,本发明实施例的上述方法通过先利用子图检索模型从文博领域知识图谱中检索得到与文博领域问题语句相关知识子图谱,进行文本格式转换后,利用微调语言模型进行语义解读可得到针对问题的回答。因文博领域知识图谱可以描述文博知识和建模世界万物之间的关联关系,包含丰富的文博知识信息种类,通过先利用子图检索模型从文博领域知识图谱中检索得到与文博领域问题语句相关知识子图谱,可弥补语言模型在文博领域使用时掌握知识不全面,细节不充分等技术缺陷;之后,利用微调语言模型进行语义解读可得到针对问题的优势回答,进一步通过重排序模型对多个回答进行了进一步的筛选,得到的最终回答符合用户期望,回答准确性高,人性化程度高。可见,通过子图检索模型、语言模型、以及重排序模型的协同融合,可使大语言模型能够更好地应用于文博领域,有效缓解大语言模型在文博领域的幻觉现象,提升基于知识图谱问答的泛化能力,增加大模型生成回答的可解释性。
需要说明的是,本发明实施例的上述方法在文博领域问答方面具有较佳的回答效果,但是不局限于文博领域。将语言模型的语义解读能力,结合各领域知识图谱的知识拓展优势,对于用户针对各领域的提问,均有较好的回答效果。
例如,基于上述方法,一种可行的实施方式为:
将采用自然语言表示的问题语句输入子图检索模型,以使得子图检索模型从预定领域知识图谱(可以是用户自定义与问题相关的任意领域图谱)中检索得到与问题语句相关的M个知识子图谱,并将M个知识子图谱进行预定格式的序列化格式转换后,输出采用预定格式表示的M个序列化图谱语义文本,其中,M个序列化图谱语义文本用于表征M个知识子图谱的图谱语义含义;
将问题语句和M个序列化图谱语义文本进行文本拼接,得到拼接文本;
将拼接文本输入微调语言模型,以使得微调语言模型对拼接文本进行语义解读后,输出针对问题语句的采用自然语言表示的N个候选回答语句;
将N个候选回答语句输入重排序模型,以使得重排序模型对N个候选回答语句进行排序处理后,从N个候选回答语句中确定L个优选回答语句。
根据本发明的实施例,知识图谱是一种用图模型来描述知识和建模世界万物之间的关联关系的技术方法。知识图谱由节点和边组成,节点可以是实体,也可以是抽象的概念。边可以是实体的属性,或者是实体之间的关系。采用预定格式的序列化图谱语义文本可用于表征图谱的图谱语义含义,序列化图谱语义文本表征的图谱语义含义包括各个知识子图谱的三元组实体关系含义,以及多个知识子图谱彼此之间的关联关系含义。
具体地,预定格式包括:
用于表征知识子图谱中包含的实体数据的第一格式符;
用于表征知识子图谱中实体之间关系的第二格式符;
用于表征知识子图谱中三元组开始位置的第三格式符;
用于表征知识子图谱中三元组结束位置的第四格式符;
用于表征知识子图谱开始位置的第五格式符;
用于表征知识子图谱结束位置的第六格式符;
其中,第一格式符、第二格式符、第三格式符、第四格式符用于表征知识子图谱的三元组实体关系含义,第五格式符、第六格式符用于表征多个知识子图谱彼此之间的关联关系。
根据本发明的实施例,提出了一种图谱表示方法,采用用户自定义的格式,分别用上述不同类型的格式符表征图谱的三元组实体关系以及多个图谱彼此之间的关联关系。
例如,第一格式符、第二格式符、第三格式符、第四格式符、第五格式符、第六格式符采用用户自定义的任意符号形式,但需保证这6种格式符彼此不同。该图谱表示方法用于将文博领域知识图谱的数据序列化,以下是示例性的表示方法:
用于表征知识子图谱中包含的实体数据的第一格式符:<e>;
用于表征知识子图谱中实体之间关系的第二格式符:<r>;
用于表征知识子图谱中三元组开始位置的第三格式符:<sg>;
用于表征知识子图谱中三元组结束位置的第四格式符:<\sg>;
用于表征知识子图谱开始位置的第五格式符:<g>;
用于表征知识子图谱结束位置的第六格式符:<\g>。
根据本发明的实施例,常规采用三元组形式表示的图谱仅能够体现该三元组内实体之间的关系,相比于常规采用三元组形式表示的图谱,该序列化图谱语义文本不仅可表示知识子图谱自身的三元组实体关系含义,还可以表示多个知识子图谱彼此之间的关联关系,因此,可以更加完整地表征知识图谱的整体含义。
根据本发明的实施例,知识图谱的数据是结构化数据,而语言模型的数据输入需要是非结构化的自然语言文本,因此,需要将知识图谱转化为非结构化数据以满足语言模型的数据类型的需求。
通常将知识图谱转化的方法是将其转换为三元组数据:如:(实体1,关系,实体2)。但是,若直接拼接三元组数据“实体1关系实体2”会造成语义不通,如果使用模板如“[实体1]的[关系]是[实体2]”,根据关系的不同定义也会导致语义不同或者歧义的存在,会使大模型学习总结产生干扰,同时此种模板拼接方式也丢失了图谱的结构化信息,以及推理的能力,将三元组当作是独立的,未考虑到(实体1,关系1,实体2)、(实体2,关系2,实体3),这种子图实体1与实体3之间的关系。
相比于常规采用三元组形式表示的图谱,该序列化图谱语义文本不仅可表示知识子图谱自身的三元组实体关系含义,还可以表示多个知识子图谱彼此之间的关联关系,可以更加完整地表征知识图谱的整体含义,可保留图谱的结构化信息以及推理的能力,保证了图谱信息的完整性。
例如:(实体1,关系1,实体2)的单边关系表示为<g><sg><e>实体1<r>关系1<e>实体2<\e><\sg><\g>。
(实体1,关系1,实体2)、(实体2,关系2,实体3)的多边关系表示为<g><sg><e>实体1<r>关系1<e>实体2<\sg><sg><e>实体2<r>关系2<e>实体3<\sg><\g>。
根据本发明的实施例,具体地,子图检索模型是利用与第一预定知识图谱样本关联的多个第一问题样本,以及与多个第一问题样本关联的采用预定格式表示的多个第一序列化图谱语义样本训练得到的,其中,第一序列化图谱语义样本是对与多个第一问题样本关联多个第一相关子图谱样本组进行预定格式的序列化格式转换后得到的,多个第一相关子图谱样本组源自于第一预定知识图谱样本,第一预定知识图谱样本至少包括文博领域知识图谱。即,子图检索模型可通过与文博领域知识图谱相关的子图的序列化图谱语义样本训练得到,因此具备了从从文博领域知识图谱中检索子图、并将子图进行预定格式的序列化格式转换的能力。
如图3所示,子图检索模型包括文本编码器1、图编码器1、特征检索器(图中未示出)。文本编码器1用于将用户输入的问题进行特征编码,图编码器1用于将文博领域知识图谱进行特征编码,特征检索器用于根据问题从文博领域知识图谱中进行特征检索匹配。
根据本发明的实施例,进一步地,子图检索模型通过以下方法训练得到:
操作11、获取第一预定知识图谱样本,其中,第一预定知识图谱样本包括文博领域知识图谱,或者第一预定知识图谱样本包括通用领域知识图谱和文博领域知识图谱。
需要说明的是,本发明实施例的不局限于文博领域。此处,对第一预定知识图谱样本的图谱领域不做限制,若本发明实施例的方法应用在文博领域,则第一预定知识图谱样本包括但不局限于仅包括文博领域知识图谱;若本发明实施例的方法不应用在文博领域,则第一预定知识图谱样本可以不包括文博领域知识图谱。
操作12、将第一预定知识图谱样本进行文本化处理,得到多个第一三元组文本,其中,每个第一三元组文本对应于第一预定知识图谱样本中的一个第一知识图谱三元组样本;其中,第一预定知识图谱由多个第一知识图谱三元组样本组成,将第一预定知识图谱样本文本化处理得到对应于每个第一知识图谱三元组样本的第一三元组文本,例如:(实体1,关系1,实体2)。
操作13、将多个第一三元组文本输入三元组关联模型,输出多个第一三元组文本彼此之间的相似度值。
操作14、根据多个第一三元组文本彼此之间的相似度值,将与多个第一三元组文本关联的多个第一知识图谱三元组样本进行相似度分组,得到多个第一相关子图谱样本组。即,将多个第一知识图谱三元组样本按照相似度距离的大小进行了分组划分,将相似度程度较高的子图谱划分至同一分组。
操作15、对多个第一相关子图谱样本组进行预定格式的序列化格式转换,得到多个第一序列化图谱语义样本。即,按照前述实施例的描述的格式样式,进行格式转换,得到序列化的语义样本。例如:其中一条样本表示为<g><sg><e>实体1<r>关系1<e>实体2<\e><\sg><\g>。
操作16、利用微调语言模型对多个第一序列化图谱语义样本进行提问,得到多个第一问题样本。
操作17、利用多个第一问题样本和多个第一序列化图谱语义样本训练得到子图检索模型。
根据本发明的实施例,微调语言模型具有较好的语义解析能力,可预先训练得到,使其具有对用户自定义格式的序列化图谱语义文本的解读能力,可以理解预定格式中的不同类型的格式符,如可理解第一格式符、第二格式符、第三格式符、第四格式符、第五格式符、第六格式符的具体含义,进行语义解读,对输入的序列化图谱语义文本解读后,自动提问,生成多个问题,形成图谱语义样本和问题数据对,使用自动生成的数据对子图检索模型进行训练。
根据本发明的实施例,在对子图检索模型进行训练的过程中,通过文本编码器1对文本编码生成文本特征,通过图编码器1(图卷积神经网络)对第一预定知识图谱样本生成图特征,使用InfoNCE loss公式作为对比学习损失函数训练模型。
根据本发明的实施例,图谱数据整合的方式是以三元组为基础的,同一个节点会有多个关联关系,有些描述的是相同主题,整合的三元组数据具有关联性、推理性。
三元组关联模型用于对多个三元组数据进行相似度分析,得到多个三元组数据之间的相似度大小,其中,三元组关联模型通过以下方法训练得到:
操作21、获取多个三元组样本。
操作22、从多个三元组样本中确定多个第一三元组样本并标记第一三元组样本,其中,多个第一三元组样本彼此之间的相似度满足预设相似条件,即从多个三元组样本中标记部分图谱相似度高、关联程度高的三元组数据。
操作23、从多个三元组样本中确定多个第二三元组样本,其中,第二三元组样本为:与第一三元组样本存在节点关联关系且未被标记的三元组样本。与第一三元组样本存在节点关联关系指与第一三元组样本采用同一个实体节点或相邻实体节点的相似样本。
操作24、以多个第一三元组样本作为正样本,以多个第二三元组样本作为负样本,对基础文本相似度模型进行对比学习训练,得到初始三元组关联模型。
其中,基础文本相似度模型例如采用包括但不限于m3e、text2vec模型为基础模型结构。上述操作方法例如是:使用标注好的三元组数据,取同一个实体节点或相邻实体节点的相似样本为正样本,随机取同一个节点或相邻节点未标记相似的样本为负样本,使用对比学习策略训练基础模型。
操作25、利用初始三元组关联模型,对多个第三三元组样本进行相似度预测,并根据预测结果确定多个第一预测样本,其中,多个第一预测样本彼此之间的相似度满足预设相似条件,第三三元组样本为未被标记的三元组样本。即,利用操作24训练好的模型,对未进行标注的三元组预测,取置信度高的三元组对加入训练集。
操作26、利用初始三元组关联模型,对多个第一三元组样本进行相似度预测,并根据预测结果确定多个第二预测样本,其中,多个第二预测样本彼此之间的相似度不满足预设相似条件。即,利用操作24训练好的模型,对最初标注的样本进行预测,取置信度较低的三元组对加入训练集。
操作27、利用多个第一三元组样本、多个第一预测样本、多个第二预测样本作为训练样本,对初始三元组关联模型进行对比学习训练,得到训练得到的三元组关联模型。即,利用操作22、操作25、操作26生成的训练集,继续训练操作24初步训练好的模型,在上一次训练的模型基础上进行迭代,直至模型稳定。
根据本发明的实施例,对初始三元组关联模型进行对比学习训练包括:
首先,计算综合对比损失,其中,综合对比损失包括基于多个第一三元组样本计算得到的第一对比损失,以及基于多个第一预测样本和多个第二预测样本计算得到的第二对比损失,第一对比损失的权重高于第二对比损失的权重;
之后,根据综合对比损失调整初始三元组关联模型的模型参数。
根据本发明的实施例,在训练过程中,使用半监督的方式,即部分三元组有相似标签,部分没有标签,在文本相似度模型的基础上进行微调。先用有标签数据进行对比学习,再通过训练的模型预测无标签的数据,以有标注数据(第一三元组样本)的对比学习损失与无标注数据(第一预测样本和第二预测样本)的对比损失的加权和作为模型的整体综合损失,如此,可提高模型的泛化能力,且有标注数据的损失权重高于无标注数据的损失权重,使标注数据起到较好的监督作用,提高模型识别的准确度。
根据本发明的实施例,常规语言模型本身使用的通用数据集进行预训练,对文博邻域细分知识欠缺,其次,常规语言模型不具备理解用户自定义的格式符,例如“<s>”等标签的含义。本发明实施例中,结合p-tuningv2 和QLoRA进行语言模型微调训练,训练得到的微调语言模型具有对用户自定义格式的序列化图谱语义文本的解读能力,可以理解预定格式中的不同类型的格式符,如可理解第一格式符、第二格式符、第三格式符、第四格式符、第五格式符、第六格式符的具体含义。
具体地,微调语言模型通过以下方法训练得到:
操作31、获取采用通用领域知识图谱的第二预定知识图谱样本、与通用领域知识图谱对应的图谱来源文本、预定指令库样本,其中,预定指令库样本包括基于通用领域知识和文博领域知识的多个标准问答对。
语言模型的训练主要用于训练语言模型对用户自定义语义格式符的识别能力,因此,训练样本可以是不局限于采用文博领域知识图谱,可以仅采用通用领域知识图谱,同时,为了提高模型的训练效果,可增加预定指令库样本进行数据增强。预定指令库样本可以包括但不限于基于文博领域知识的多个标准问答对,如包括基于通用领域知识和文博领域知识的多个标准问答对;也可以包括基于其他知识领域(在应用于其他领域的情况下)的标准问答对。
操作32、基于第二预定知识图谱样本得到多个第二知识图谱三元组样本。
操作33、对多个第二知识图谱三元组样本中的子图谱进行预定格式的序列化格式转换,得到多个第二序列化图谱语义样本。即,按照前述实施例的描述的格式样式,进行格式转换,得到序列化的语义样本。例如:采用<e>表示实体数据、<r>表示关系、<sg><\sg>表示三元组、<g><\g>表示子图,其中一条样本表示例如为<g><sg><e>实体1<r>关系1<e>实体2<\e><\sg><\g>。
操作34、修改预训练语言模型的模型词表,在模型词表中添加自定义图谱语义词的映射关系,其中,自定义图谱语义词包括第一格式符、第二格式符、第三格式符、第四格式符、第五格式符、第六格式符。
操作35、利用多个第二序列化图谱语义样本、图谱来源文本、预定指令库样本作为训练样本,采用多任务训练方式,训练被修改模型词表的预训练语言模型,得到训练得到的微调语言模型。
根据本发明的实施例,上述方法中,修改预训练语言模型的模型词表,在词表中加入用户自定义的图谱语义标签词作为特殊标签,添加其在词表中的映射关系,使用多任务的训练方式,在训练过程中,固定原词表所具有的参数,只训练图谱标签所对应的词表参数,让模型同时做信息抽取和图谱还原回自然语言的操作,得到训练好的微调语言模型。经过训练,使得模型具有对用户自定义格式的序列化图谱语义文本的解读能力。
根据本发明的实施例,进一步地,训练被修改模型词表的预训练语言模型包括:
将图谱来源文本输入预训练语言模型,利用预训练语言模型进行信息抽取,输出与第二序列化图谱语义样本的表达形式相同的参考序列化图谱语义样本,并以第二序列化图谱语义样本作为标签,训练预训练语言模型的信息抽取能力;
将第二序列化图谱语义样本输入预训练语言模型,利用预训练语言模型进行信息还原,输出与图谱来源文本的表达形式相同的参考语句样本,并以图谱来源文本作为标签,训练预训练语言模型的信息还原能力;
将多个第二序列化图谱语义样本和预定指令库样本输入训练之前的预训练语言模型,输出第一结果语句;
将多个第二序列化图谱语义样本和预定指令库样本输入训练中的预训练语言模型,输出第二结果语句;
以第一结果语句作为第二结果语句的约束,调整训练中的预训练语言模型的模型参数,得到训练得到的微调语言模型。
根据本发明的实施例,在语言模型的训练过程中,通过上述操作,使用训练之前的模型在抽取和还原任务外做监督,要求训练之前的模型根据指令生成的内容,对训练中的模型根据相同指令生成的内容进行约束,如此,可保留原有模型本身的语义识别能力,且同时可学习到用户自定义的图谱语义标签的含义。
根据本发明的实施例,重排序模型包括特征提取层、特征融合层、结果映射层。
如图3所示,重排序模型中,文本编码器2、图编码器2作为特征提取层,用于进行特征提取,文本编码器2对回答语句进行特征编码生成文本特征,图编码器2用于对于问题相关的子图谱进行特征编码生成图特征。
特征融合层采用两层多头自注意力机制,对文本特征和图特征进行融合。
结果映射层采用多层感知机对融合特征进行投影生成针对每个回答语句的分值。
根据本发明的实施例,重排序模型通过以下方法训练得到:
操作41、获取第三预定知识图谱样本,其中,第三预定知识图谱样本包括通用领域知识图谱和/或文博领域知识图谱。
操作42、将第三预定知识图谱样本进行文本化处理,得到多个第二三元组文本,其中,每个第二三元组文本对应于第三预定知识图谱样本中的一个第三知识图谱三元组样本。
操作43、将多个第二三元组文本输入三元组关联模型,输出多个第二三元组文本彼此之间的相似度值。
操作44、根据多个第二三元组文本彼此之间的相似度值,将与多个第二三元组文本关联的多个第三知识图谱三元组样本进行相似度分组,得到多个第二相关子图谱样本组。
操作45、对多个第二相关子图谱样本组进行预定格式的序列化格式转换,得到多个第三序列化图谱语义样本。
操作46、利用微调语言模型对多个第三序列化图谱语义样本进行提问,得到多个第二问题样本。
操作47、利用微调语言模型对多个第二问题样本进行作答,得到多个回答样本;同一问题可自动生成多个不同的答案。
操作48、对多个回答样本标注序列标签;使用人工标注的方法,对生成的答案好坏进行排序,作为样本标签。
操作48、以多个第二问题样本、多个第三序列化图谱语义样本、多个回答样本、多个回答样本的序列标签作为训练样本,训练得到重排序模型。其中,训练过程中,同一个batch(每次输入的一组样本)取相同问题,对同一个batch的不同样本进行排列组合,使用Pairwise Loss公式作为损失函数。
基于上述文博领域知识问答方法,本发明实施例提出了一种文博领域知识问答系统,包括上述实施例中训练得到的子图检索模型、微调语言模型和重排序模型。
子图检索模型用于从文博领域知识图谱中检索得到与文博领域问题语句相关的M个知识子图谱,并将M个知识子图谱进行预定格式的序列化格式转换后,输出采用预定格式表示的M个序列化图谱语义文本。
微调语言模型用于对拼接文本进行语义解读后,输出针对文博领域问题语句的采用自然语言表示的N个候选回答语句。其中,拼接文本通过将文博领域问题语句和M个序列化图谱语义文本进行文本拼接得到。
重排序模型用于对N个候选回答语句进行排序处理后,从N个候选回答语句中确定L个优选回答语句。
基于上述文博领域知识问答方法,本发明还提供了一种文博领域知识问答装置。以下将结合图4对该装置进行详细描述。
图4示意性示出了根据本发明实施例的文博领域知识问答装置的结构框图。
如图4所示,该实施例的文博领域知识问答装置400包括子图检索模块401、拼接模块402、回答模块403、排序模块404。
子图检索模块401,用于将采用自然语言表示的文博领域问题语句输入子图检索模型,以使得子图检索模型从文博领域知识图谱中检索得到与文博领域问题语句相关的M个知识子图谱,并将M个知识子图谱进行预定格式的序列化格式转换后,输出采用预定格式表示的M个序列化图谱语义文本,其中,M个序列化图谱语义文本用于表征M个知识子图谱的图谱语义含义。
拼接模块402,用于将文博领域问题语句和M个序列化图谱语义文本进行文本拼接,得到拼接文本。
回答模块403,用于将拼接文本输入微调语言模型,以使得微调语言模型对拼接文本进行语义解读后,输出针对文博领域问题语句的采用自然语言表示的N个候选回答语句。
排序模块404,用于将N个候选回答语句输入重排序模型,以使得重排序模型对N个候选回答语句进行排序处理后,从N个候选回答语句中确定L个优选回答语句。
子图检索模块401、拼接模块402、回答模块403、排序模块404中的任意多个模块可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本发明的实施例,子图检索模块401、拼接模块402、回答模块403、排序模块404中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,子图检索模块401、拼接模块402、回答模块403、排序模块404中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
图5示意性示出了根据本发明实施例的适于实现文博领域知识问答方法的电子设备的方框图。
如图5所示,根据本发明实施例的电子设备500包括处理器501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。处理器501例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC))等等。处理器501还可以包括用于缓存用途的板载存储器。处理器501可以包括用于执行根据本发明实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 503中,存储有电子设备500操作所需的各种程序和数据。处理器 501、ROM502以及RAM 503通过总线504彼此相连。处理器501通过执行ROM 502和/或RAM 503中的程序来执行根据本发明实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除ROM 502和RAM 503以外的一个或多个存储器中。处理器501也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本发明实施例的方法流程的各种操作。
根据本发明的实施例,电子设备500还可以包括输入/输出(I/O)接口505,输入/输出(I/O)接口505也连接至总线504。电子设备500还可以包括连接至输入/输出(I/O)接口505的以下部件中的一项或多项:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至输入/输出(I/O)接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
本发明还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本发明实施例的方法。
根据本发明的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如,根据本发明的实施例,计算机可读存储介质可以包括上文描述的ROM 502和/或RAM 503和/或ROM 502和RAM 503以外的一个或多个存储器。
本发明的实施例还包括一种计算机程序产品,其包括计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。当计算机程序产品在计算机系统中运行时,该程序代码用于使计算机系统实现本发明实施例所提供的文博领域知识问答方法。
在该计算机程序被处理器501执行时执行本发明实施例的系统/装置中限定的上述功能。根据本发明的实施例,上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。
在一种实施例中,该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中,该计算机程序也可以在网络介质上以信号的形式进行传输、分发,并通过通信部分509被下载和安装,和/或从可拆卸介质511被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被处理器501执行时,执行本发明实施例的系统中限定的上述功能。根据本发明的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
根据本发明的实施例,可以以一种或多种程序设计语言的任意组合来编写用于执行本发明实施例提供的计算机程序的程序代码,具体地,可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如Java,C++,python,“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,本发明的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合,即使这样的组合或结合没有明确记载于本发明中。特别地,在不脱离本发明精神和教导的情况下,本发明的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本发明的范围。
以上对本发明的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本发明的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本发明的范围由所附权利要求及其等同物限定。不脱离本发明的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本发明的范围之内。
Claims (9)
1.一种文博领域知识问答方法,其特征在于,包括:
将采用自然语言表示的文博领域问题语句输入子图检索模型,以使得子图检索模型从文博领域知识图谱中检索得到与文博领域问题语句相关的M个知识子图谱,并将M个知识子图谱进行预定格式的序列化格式转换后,输出采用预定格式表示的M个序列化图谱语义文本,其中,M个序列化图谱语义文本用于表征M个知识子图谱的图谱语义含义,M为正整数;
将文博领域问题语句和M个序列化图谱语义文本进行文本拼接,得到拼接文本;
将拼接文本输入微调语言模型,以使得微调语言模型对拼接文本进行语义解读后,输出针对文博领域问题语句的采用自然语言表示的N个候选回答语句,N为正整数;
将N个候选回答语句输入重排序模型,以使得重排序模型对N个候选回答语句进行排序处理后,从N个候选回答语句中确定L个优选回答语句,L为正整数;
其中,子图检索模型是利用与第一预定知识图谱样本关联的多个第一问题样本,以及与多个第一问题样本关联的采用预定格式表示的多个第一序列化图谱语义样本训练得到的,其中,第一序列化图谱语义样本是对与多个第一问题样本关联多个第一相关子图谱样本组进行预定格式的序列化格式转换后得到的,多个第一相关子图谱样本组源自于第一预定知识图谱样本,第一预定知识图谱样本至少包括文博领域知识图谱;
子图检索模型通过以下方法训练得到:
获取第一预定知识图谱样本,其中,第一预定知识图谱样本包括文博领域知识图谱,或者第一预定知识图谱样本包括通用领域知识图谱和文博领域知识图谱;
将第一预定知识图谱样本进行文本化处理,得到多个第一三元组文本,其中,每个第一三元组文本对应于第一预定知识图谱样本中的一个第一知识图谱三元组样本;
将多个第一三元组文本输入三元组关联模型,输出多个第一三元组文本彼此之间的相似度值;
根据多个第一三元组文本彼此之间的相似度值,将与多个第一三元组文本关联的多个第一知识图谱三元组样本进行相似度分组,得到多个第一相关子图谱样本组;
对多个第一相关子图谱样本组进行预定格式的序列化格式转换,得到多个第一序列化图谱语义样本;
利用微调语言模型对多个第一序列化图谱语义样本进行提问,得到多个第一问题样本;
利用多个第一问题样本和多个第一序列化图谱语义样本训练得到子图检索模型。
2.根据权利要求1所述的方法,其特征在于:
序列化图谱语义文本表征的图谱语义含义包括各个知识子图谱的三元组实体关系含义,以及多个知识子图谱彼此之间的关联关系含义;
所述预定格式包括:
用于表征知识子图谱中包含的实体数据的第一格式符;
用于表征知识子图谱中实体之间关系的第二格式符;
用于表征知识子图谱中三元组开始位置的第三格式符;
用于表征知识子图谱中三元组结束位置的第四格式符;
用于表征知识子图谱开始位置的第五格式符;
用于表征知识子图谱结束位置的第六格式符;
其中,第一格式符、第二格式符、第三格式符、第四格式符用于表征知识子图谱的三元组实体关系含义,第五格式符、第六格式符用于表征多个知识子图谱彼此之间的关联关系;
重排序模型包括特征提取层、特征融合层、结果映射层。
3.根据权利要求1所述的方法,其特征在于,三元组关联模型通过以下方法训练得到:
获取多个三元组样本;
从多个三元组样本中确定多个第一三元组样本并标记第一三元组样本,其中,多个第一三元组样本彼此之间的相似度满足预设相似条件;
从多个三元组样本中确定多个第二三元组样本,其中,第二三元组样本为:与第一三元组样本存在节点关联关系且未被标记的三元组样本;
以多个第一三元组样本作为正样本,以多个第二三元组样本作为负样本,对基础文本相似度模型进行对比学习训练,得到初始三元组关联模型;
利用初始三元组关联模型,对多个第三三元组样本进行相似度预测,并根据预测结果确定多个第一预测样本,其中,多个第一预测样本彼此之间的相似度满足预设相似条件,第三三元组样本为未被标记的三元组样本;
利用初始三元组关联模型,对多个第一三元组样本进行相似度预测,并根据预测结果确定多个第二预测样本,其中,多个第二预测样本彼此之间的相似度不满足预设相似条件;
利用多个第一三元组样本、多个第一预测样本、多个第二预测样本作为训练样本,对初始三元组关联模型进行多次迭代对比学习训练,得到训练得到的三元组关联模型;
其中,对初始三元组关联模型进行对比学习训练包括:
计算综合对比损失,其中,综合对比损失包括基于多个第一三元组样本计算得到的第一对比损失,以及基于多个第一预测样本和多个第二预测样本计算得到的第二对比损失,第一对比损失的权重高于第二对比损失的权重;
根据综合对比损失调整初始三元组关联模型的模型参数。
4.根据权利要求2所述的方法,其特征在于,微调语言模型通过以下方法训练得到:
获取采用通用领域知识图谱的第二预定知识图谱样本、与通用领域知识图谱对应的图谱来源文本、预定指令库样本,其中,预定指令库样本包括基于通用领域知识和文博领域知识的多个标准问答对;
基于第二预定知识图谱样本得到多个第二知识图谱三元组样本;
对多个第二知识图谱三元组样本中的子图谱进行预定格式的序列化格式转换,得到多个第二序列化图谱语义样本;
修改预训练语言模型的模型词表,在模型词表中添加自定义图谱语义词的映射关系,其中,自定义图谱语义词包括第一格式符、第二格式符、第三格式符、第四格式符、第五格式符、第六格式符;
利用多个第二序列化图谱语义样本、图谱来源文本、预定指令库样本作为训练样本,采用多任务训练方式,训练被修改模型词表的预训练语言模型,得到训练得到的微调语言模型。
5.根据权利要求4所述的方法,其特征在于,训练被修改模型词表的预训练语言模型包括:
将图谱来源文本输入预训练语言模型,利用预训练语言模型进行信息抽取,输出与第二序列化图谱语义样本的表达形式相同的参考序列化图谱语义样本,并以第二序列化图谱语义样本作为标签,训练预训练语言模型的信息抽取能力;
将第二序列化图谱语义样本输入预训练语言模型,利用预训练语言模型进行信息还原,输出与图谱来源文本的表达形式相同的参考语句样本,并以图谱来源文本作为标签,训练预训练语言模型的信息还原能力;
将第二序列化图谱语义样本和预定指令库样本输入训练之前的预训练语言模型,输出第一结果语句;
将第二序列化图谱语义样本和预定指令库样本输入训练中的预训练语言模型,输出第二结果语句;
以第一结果语句作为第二结果语句的约束,调整训练中的预训练语言模型的模型参数,得到训练得到的微调语言模型。
6.根据权利要求1所述的方法,其特征在于,重排序模型通过以下方法训练得到:
获取第三预定知识图谱样本,其中,第三预定知识图谱样本包括通用领域知识图谱和/或文博领域知识图谱;
将第三预定知识图谱样本进行文本化处理,得到多个第二三元组文本,其中,每个第二三元组文本对应于第三预定知识图谱样本中的一个第三知识图谱三元组样本;
将多个第二三元组文本输入三元组关联模型,输出多个第二三元组文本彼此之间的相似度值;
根据多个第二三元组文本彼此之间的相似度值,将与多个第二三元组文本关联的多个第三知识图谱三元组样本进行相似度分组,得到多个第二相关子图谱样本组;
对多个第二相关子图谱样本组进行预定格式的序列化格式转换,得到多个第三序列化图谱语义样本;
利用微调语言模型对多个第三序列化图谱语义样本进行提问,得到多个第二问题样本;
利用微调语言模型对多个第二问题样本进行作答,得到多个回答样本;
对多个回答样本标注用于表征回答好坏的序列标签;
以多个第二问题样本、多个第三序列化图谱语义样本、多个回答样本、多个回答样本的序列标签作为训练样本,训练得到重排序模型。
7.一种文博领域知识问答装置,包括:
子图检索模块,用于将采用自然语言表示的文博领域问题语句输入子图检索模型,以使得子图检索模型从文博领域知识图谱中检索得到与文博领域问题语句相关的M个知识子图谱,并将M个知识子图谱进行预定格式的序列化格式转换后,输出采用预定格式表示的M个序列化图谱语义文本,其中,M个序列化图谱语义文本用于表征M个知识子图谱的图谱语义含义;
拼接模块,用于将文博领域问题语句和M个序列化图谱语义文本进行文本拼接,得到拼接文本;
回答模块,用于将拼接文本输入微调语言模型,以使得微调语言模型对拼接文本进行语义解读后,输出针对文博领域问题语句的采用自然语言表示的N个候选回答语句;
排序模块,用于将N个候选回答语句输入重排序模型,以使得重排序模型对N个候选回答语句进行排序处理后,从N个候选回答语句中确定L个优选回答语句;
其中,子图检索模型是利用与第一预定知识图谱样本关联的多个第一问题样本,以及与多个第一问题样本关联的采用预定格式表示的多个第一序列化图谱语义样本训练得到的,其中,第一序列化图谱语义样本是对与多个第一问题样本关联多个第一相关子图谱样本组进行预定格式的序列化格式转换后得到的,多个第一相关子图谱样本组源自于第一预定知识图谱样本,第一预定知识图谱样本至少包括文博领域知识图谱;
子图检索模型通过以下方法训练得到:
获取第一预定知识图谱样本,其中,第一预定知识图谱样本包括文博领域知识图谱,或者第一预定知识图谱样本包括通用领域知识图谱和文博领域知识图谱;
将第一预定知识图谱样本进行文本化处理,得到多个第一三元组文本,其中,每个第一三元组文本对应于第一预定知识图谱样本中的一个第一知识图谱三元组样本;
将多个第一三元组文本输入三元组关联模型,输出多个第一三元组文本彼此之间的相似度值;
根据多个第一三元组文本彼此之间的相似度值,将与多个第一三元组文本关联的多个第一知识图谱三元组样本进行相似度分组,得到多个第一相关子图谱样本组;
对多个第一相关子图谱样本组进行预定格式的序列化格式转换,得到多个第一序列化图谱语义样本;
利用微调语言模型对多个第一序列化图谱语义样本进行提问,得到多个第一问题样本;
利用多个第一问题样本和多个第一序列化图谱语义样本训练得到子图检索模型。
8.一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行根据权利要求1~6中任一项所述的方法。
9.一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行根据权利要求1~6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311473814.2A CN117216194B (zh) | 2023-11-08 | 2023-11-08 | 文博领域知识问答方法及装置、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311473814.2A CN117216194B (zh) | 2023-11-08 | 2023-11-08 | 文博领域知识问答方法及装置、设备和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117216194A CN117216194A (zh) | 2023-12-12 |
CN117216194B true CN117216194B (zh) | 2024-01-30 |
Family
ID=89051403
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311473814.2A Active CN117216194B (zh) | 2023-11-08 | 2023-11-08 | 文博领域知识问答方法及装置、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117216194B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111125309A (zh) * | 2019-12-23 | 2020-05-08 | 中电云脑(天津)科技有限公司 | 自然语言处理方法、装置及计算设备、存储介质 |
CN111639171A (zh) * | 2020-06-08 | 2020-09-08 | 吉林大学 | 一种知识图谱问答方法及装置 |
CN111897944A (zh) * | 2020-08-17 | 2020-11-06 | 哈尔滨工业大学 | 基于语义空间共享的知识图谱问答系统 |
CN113297369A (zh) * | 2021-07-26 | 2021-08-24 | 中国科学院自动化研究所 | 基于知识图谱子图检索的智能问答系统 |
CN114547273A (zh) * | 2022-03-18 | 2022-05-27 | 科大讯飞(苏州)科技有限公司 | 问题回答方法及相关装置、电子设备、存储介质 |
CN114860917A (zh) * | 2022-07-06 | 2022-08-05 | 中化现代农业有限公司 | 农业知识问答方法、装置、电子设备和存储介质 |
CN114912450A (zh) * | 2022-07-18 | 2022-08-16 | 天津恒达文博科技股份有限公司 | 信息生成方法与装置、训练方法、电子设备和存储介质 |
CN115080710A (zh) * | 2022-03-01 | 2022-09-20 | 达而观信息科技(上海)有限公司 | 一种自适应不同领域知识图谱的智能问答系统及其构建方法 |
CN115577086A (zh) * | 2022-10-18 | 2023-01-06 | 重庆交通大学 | 基于层级交叉注意力机制的桥梁检测知识图谱问答方法 |
CN115827844A (zh) * | 2022-12-12 | 2023-03-21 | 之江实验室 | 一种基于Sparql语句生成的知识图谱问答方法和系统 |
CN116578684A (zh) * | 2023-05-23 | 2023-08-11 | 中国电信股份有限公司北京研究院 | 基于知识图谱的问答方法、装置以及相关设备 |
-
2023
- 2023-11-08 CN CN202311473814.2A patent/CN117216194B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111125309A (zh) * | 2019-12-23 | 2020-05-08 | 中电云脑(天津)科技有限公司 | 自然语言处理方法、装置及计算设备、存储介质 |
CN111639171A (zh) * | 2020-06-08 | 2020-09-08 | 吉林大学 | 一种知识图谱问答方法及装置 |
CN111897944A (zh) * | 2020-08-17 | 2020-11-06 | 哈尔滨工业大学 | 基于语义空间共享的知识图谱问答系统 |
CN113297369A (zh) * | 2021-07-26 | 2021-08-24 | 中国科学院自动化研究所 | 基于知识图谱子图检索的智能问答系统 |
CN115080710A (zh) * | 2022-03-01 | 2022-09-20 | 达而观信息科技(上海)有限公司 | 一种自适应不同领域知识图谱的智能问答系统及其构建方法 |
CN114547273A (zh) * | 2022-03-18 | 2022-05-27 | 科大讯飞(苏州)科技有限公司 | 问题回答方法及相关装置、电子设备、存储介质 |
CN114860917A (zh) * | 2022-07-06 | 2022-08-05 | 中化现代农业有限公司 | 农业知识问答方法、装置、电子设备和存储介质 |
CN114912450A (zh) * | 2022-07-18 | 2022-08-16 | 天津恒达文博科技股份有限公司 | 信息生成方法与装置、训练方法、电子设备和存储介质 |
CN115577086A (zh) * | 2022-10-18 | 2023-01-06 | 重庆交通大学 | 基于层级交叉注意力机制的桥梁检测知识图谱问答方法 |
CN115827844A (zh) * | 2022-12-12 | 2023-03-21 | 之江实验室 | 一种基于Sparql语句生成的知识图谱问答方法和系统 |
CN116578684A (zh) * | 2023-05-23 | 2023-08-11 | 中国电信股份有限公司北京研究院 | 基于知识图谱的问答方法、装置以及相关设备 |
Also Published As
Publication number | Publication date |
---|---|
CN117216194A (zh) | 2023-12-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11593458B2 (en) | System for time-efficient assignment of data to ontological classes | |
CN107679039B (zh) | 用于确定语句意图的方法和装置 | |
US20220050967A1 (en) | Extracting definitions from documents utilizing definition-labeling-dependent machine learning background | |
US20200192727A1 (en) | Intent-Based Organisation Of APIs | |
CN112287089B (zh) | 用于自动问答系统的分类模型训练、自动问答方法及装置 | |
US11740879B2 (en) | Creating user interface using machine learning | |
CN113392209B (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
CN111552766B (zh) | 使用机器学习来表征在引用图形上应用的参考关系 | |
US20220414463A1 (en) | Automated troubleshooter | |
CN116661805B (zh) | 代码表示的生成方法和装置、存储介质及电子设备 | |
US20240152707A1 (en) | Automated Patent Language Generation | |
CN117094395B (zh) | 对知识图谱进行补全的方法、装置和计算机存储介质 | |
CN113704420A (zh) | 文本中的角色识别方法、装置、电子设备及存储介质 | |
WO2023160346A1 (en) | Meaning and sense preserving textual encoding and embedding | |
CN112560490A (zh) | 知识图谱关系抽取方法、装置、电子设备及存储介质 | |
US20230153335A1 (en) | Searchable data structure for electronic documents | |
CN117216194B (zh) | 文博领域知识问答方法及装置、设备和介质 | |
US20230111052A1 (en) | Self-learning annotations to generate rules to be utilized by rule-based system | |
CN117033649A (zh) | 文本处理模型的训练方法、装置、电子设备及存储介质 | |
Lamons et al. | Python Deep Learning Projects: 9 projects demystifying neural network and deep learning models for building intelligent systems | |
CN115544210A (zh) | 基于持续学习的事件抽取的模型训练、事件抽取的方法 | |
CN115129885A (zh) | 实体链指方法、装置、设备及存储介质 | |
WO2019246252A1 (en) | Systems and methods for identifying and linking events in structured proceedings | |
US11940996B2 (en) | Unsupervised discriminative facet generation for dynamic faceted search | |
US20240028646A1 (en) | Textual similarity model for graph-based metadata |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |