CN117725231B

CN117725231B - 基于语义证据提示和置信度的内容生成方法和系统

Info

Publication number: CN117725231B
Application number: CN202410175413.7A
Authority: CN
Inventors: 马慧生; 魏鑫磊; 张伟; 任祥辉; 张昊; 岳一峰; 范嘉薇
Original assignee: CETC 15 Research Institute
Current assignee: CETC 15 Research Institute
Priority date: 2024-02-08
Filing date: 2024-02-08
Publication date: 2024-04-23
Anticipated expiration: 2044-02-08
Also published as: CN117725231A

Abstract

本发明属于文本生成处理技术领域，提供一种基于语义证据提示和置信度的内容生成方法和系统。该方法包括：对所生成的科技情报内容进行科技实体三元组提取，得到科技实体集合和科技关系集合；采用已知的知识图谱，查询确定与待处理科技实体对相关的关联关系路径；计算所述待处理科技实体对的资源总量，以用于评估所述待处理科技实体对的关系路径的可靠性；计算所述待处理科技实体对的实体三元组的综合置信度，并将计算得到的综合置信度与指定阈值进行判断；根据所计算的语义证据值，确定与待处理科技实体对相对应的提示三元组，以最终生成相应科技情报内容。本发明提升了大模型生成内容的可靠性和可信度。

Description

基于语义证据提示和置信度的内容生成方法和系统

技术领域

本发明涉及文本生成处理技术领域，尤其涉及一种基于语义证据提示和置信度的内容生成方法和系统。

背景技术

通常利用大模型进行内容生成的时候，生成的内容表面上是符合人类的阅读习惯，并被认为是正确的，但是，通常会出现生成的内容不够准确，与事实不符，经常出现幻觉问题，导致通过大模型生成的内容的正确性和可信度不高。目前的主要方法是通过大模型自评价的方式获取内容的置信度，即将大模型的生成内容输入大模型然后让大模型给出一个置信度的评分，通过这个评分判断该生成的内容是否需要修改，如果要修改，则与外部工具进行交互以实现修改，例如通过浏览器API接口对内容进行修改后输出。

事实上，生成式预训练模型在很多领域都得到了应用，并取得的良好的效果，在科技情报领域大模型也具有很好的应用，特别是科技情报内容生成方面，通过大模型能够有效整编科技情报内容使其更加符合人类的语言习惯，但是由于大模型是基于概率生成的，因此通过大模型得到的内容会出现幻觉问题，导致难以获取正确的真实客观的科技情报内容。为了解决大模型幻觉的问题，目前的方法主要有两个方面，一是通过提升大模型训练数据的质量，提升大模型的生成内容的质量。第二是通过外部知识和证据作为额外输入，纠正大模型的输出，这种方法虽然在一定程度上能够提升生成内容的准确性，但是由于是通过自评价的方式，会出现将不够准确的内容评分很高，导致不够准确的内容输出。另外，理论上大模型的训练数据一般都来自公开数据，即很多来自于互联网数据，互联网数据信息真假难辨，因此通过互联网数据对大模型的生成内容进行修正，会出现用一种错误修正另一个错误的情景。同时，这种方法对外部的知识库要求非常高，要求能够覆盖大模型生成的内容的实体，但是大模型的输入是难以确定的，因此生成内容的实体也是不确定的，当外部的知识库不能覆盖生成内容的实体关系时候，就无法对生成的内容进行幻觉检测了。事实上，现有方法根本无法满足科技情报领域的生成内容的准确性要求。

因此，有必要提供一种新的基于知识图谱语义证据提示和置信度的内容生成方法，以解决上述问题。

发明内容

本发明意在提供一种基于知识图谱语义证据提示和置信度的内容生成方法和系统，以解决现有技术中通过大模型得到的内容会出现幻觉问题，导致难以获取正确的真实客观的科技情报内容，现有方法根本无法满足科技情报领域的生成内容的准确性要求，如何提升大模型训练数据的质量、如何提升大模型的生成内容的质量等的技术问题，本发明要解决的技术问题通过以下技术方案来实现。

本发明第一方面提出一种基于知识图谱语义证据提示和置信度的内容生成方法，包括：将科技情报问题输入预训练模型，生成与科技情报问题相对应的科技情报内容，并对所生成的科技情报内容进行科技实体三元组提取，得到科技实体集合和科技关系集合；从科技实体集合中获取待处理科技实体对，采用已知的知识图谱，查询确定与待处理科技实体对相关的关联关系路径，得到与待处理科技实体对相对应的关联路径集合；基于所得到的关联路径集合，计算所述待处理科技实体对的资源总量，以用于评估所述待处理科技实体对的关系路径的可靠性；计算所述待处理科技实体对的实体三元组的综合置信度，并将计算得到的综合置信度与指定阈值进行判断；在计算得到的综合置信度小于等于指定阈值的情况下，计算待处理科技实体对的实体三元组的语义证据值；根据所计算的语义证据值，确定与待处理科技实体对相对应的提示三元组；将科技情报问题与提示三元组拼接，以作为模型输入，输入所述预训练模型，生成相应科技情报内容。

根据可选实施方式，确定待处理科技实体对的实体三元组的置信度；

采用以下表达式，计算待处理科技实体对的每一实体三元组的综合置信度：

;

其中，C_m(h,r,t)表示待处理科技实体对的第m个实体三元组的置信度，m为正整数，具体为1、2、...、m，h表示待处理科技实体对中头部实体，t表示待处理科技实体对中尾部实体，r表示待处理科技实体对中头部实体和尾部实体之间的实体关系；PP_m(h,r,t)表示第m个待处理科技实体对的实体三元组(h,r,t)的前置路径置信度；AP_m(h,r,t)表示第m个待处理科技实体对的实体三元组(h,r,t)的自适应路径置信度；λ₁表示与前置路径置信度相关的计算超参数；λ₂表示与自适应路径置信度相关的计算超参数。

根据可选实施方式，所述计算所述待处理科技实体对的实体三元组的综合置信度，包括：

采用以下表达式，计算待处理科技实体对的自适应路径置信度：

;

其中，AP（h,r,t）表示待处理科技实体对的实体三元组（h,r,t）的自适应路径置信度，其中，h表示待处理科技实体对中头部实体，t表示待处理科技实体对中尾部实体，r表示待处理科技实体对中头部实体和尾部实体之间的实体关系；表示sigmoid函数；p_i表示集合中的第i个实体关系路径p_i，i为正整数，具体为1、2、...、n，S _(h,t)表示在知识图谱G中从头部实体h到尾部实体t的所有路径的集合；R(h,pi,t)表示待处理科技实体对（h,t）在第i个路径的资源量；Q_AP（r,p_i）表示在关系为r的待处理科技实体对（h,t）在第i个关系路径p_i的质量。

采用以下表达式，计算待处理科技实体对的实体三元组的前置路径置信度：

;

其中，PP（h,r,t）表示待处理科技实体对的实体三元组（h,r,t）的前置路径置信度，h表示待处理科技实体对中头部实体，t表示待处理科技实体对中尾部实体，r表示待处理科技实体对中头部实体和尾部实体之间的实体关系；p_i表示与待处理科技实体对相关的第i个实体关系路径，i为正整数，具体为1、2、...、n,S _(h,t)表示在知识图谱中从头部实体h到尾部实体t的路径的集合，R（h,p_i,t）表示待处理科技实体对（h,t）在第i个实体关系路径的资源量；Q_PP（r,p_i）表示第i个实体关系路径pi对实体关系（r，p_i）的质量，i为正整数，具体为1、2、...、n。

根据可选实施方式，在计算得到的综合置信度大于指定阈值的情况下，输出与待处理科技实体对相对应的文本内容。

根据可选实施方式，根据所获取的待处理科技实体对，对已知的知识图谱进行遍历，得到待处理科技实体对的相关实体关系路径中的所有实体元素；

计算待处理科技实体对经过实体关系路径p，从每一次遍历得到的实体集合中的每一实体元素的资源量、即实体关系路径p的可靠性：

;

其中，R_p(e)表示待处理科技实体对（h，t）经过实体关系路径p中步关系遍历得到的实体集合E_i中的当前实体元素（）的资源量、即当前实体对的实体关系路径可靠性；e’是当前实体元素e在第i个关系r_i下的直接前驱集合/>中的前实体元素，即；/>是前实体元素e’在第i个关系r_i下的直接后驱实体集合。

根据所计算的表征待处理科技实体对的关系路径的可靠值、遍历路径共现差异性，计算待处理科技实体对的实体三元组的前置路径置信度。

本发明第二方面提出一种基于知识图谱语义证据提示和置信度的内容生成系统采用本发明第一方面所述的基于知识图谱语义证据提示和置信度的内容生成方法，包括：第一生成处理模块，将科技情报问题输入预训练模型，生成与科技情报问题相对应的科技情报内容，并对所生成的科技情报内容进行科技实体三元组提取，得到科技实体集合和科技关系集合；查询处理模块，从科技实体集合中获取待处理科技实体对，采用已知的知识图谱，查询确定与待处理科技实体对相关的关联关系路径，得到与待处理科技实体对相对应的关联路径集合；第一计算处理模块，基于所得到的关联路径集合，计算所述待处理科技实体对的资源总量，以用于评估所述待处理科技实体对的关系路径的可靠性；第二计算处理模块，计算所述待处理科技实体对的实体三元组的综合置信度，并将计算得到的综合置信度与指定阈值进行判断；第三计算处理模块，在计算得到的综合置信度小于等于指定阈值的情况下，计算待处理科技实体对的实体三元组的语义证据值；确定处理模块，根据所计算的语义证据值，确定与待处理科技实体对相对应的提示三元组；第二生成处理模块，将科技情报问题与提示三元组拼接，以作为模型输入，输入所述预训练模型，生成相应科技情报内容。

本发明第三方面提供一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明第一方面所述的方法。

本发明第四方面提供一种计算机可读介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现本发明第一方面所述的方法。

本发明实施例包括以下优点：

与现有技术相比，本发明基于知识图谱的语义证据值计算，实现对模型所生成的内容的幻觉检测，通过不断循环迭代，提升大模型生成内容的可靠性和可信度，基于已有的知识图谱进行语义证据值计算，对模型所生成的内容进行准确性和可信度评估更加准确和客观。此外，即使小规模的知识图谱也能够对大模型的生成内容进行幻觉检测，还能够实现离线运行，在无需人工干预的情况下对所生成内容进行自动的修正，适用于网络隔离的环境。

附图说明

图1是本发明的基于知识图谱语义证据提示和置信度的内容生成方法的一示例的步骤流程图；

图2是应用本发明的基于知识图谱语义证据提示和置信度的内容生成方法的一应用示例的示意流程图；

图3是应用本发明的基于知识图谱语义证据提示和置信度的内容生成方法的一应用示例中实体关系的示意图；

图4是本发明的基于知识图谱语义证据提示和置信度的内容生成系统的结构框图；

图5是根据本发明的电子设备实施例的结构示意图；

图6是根据本发明的计算机可读介质实施例的结构示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

鉴于上述问题，本发明提出一种基于知识图谱语义证据的文本内容生成方法，该方法基于知识图谱的语义证据值计算和置信度计算，检测模型生成的内容的准确性，实现对模型所生成的内容的幻觉检测，基于知识图谱对每次模型（例如大模型）生成的内容进行语义证据值和置信度计算，并通过知识图谱增加提示内容，以此循环迭代，提升大模型生成内容的可靠性和可信度，从而避免模型生成内容幻觉，基于已有的知识图谱进行语义证据值计算，对模型所生成的内容进行准确性和可信度评估更加准确和客观。此外，即使小规模的知识图谱也能够对大模型的生成内容进行幻觉检测，还能够实现离线运行，通过计算待检测文本的实体三元组与知识图谱中的实体三元组的语义相似度，将语义相似度最大的实体三元组作为提示内容合并到提示内容中，以对生成的内容进行修正，并再次输入到大模型中让其重新生成内容，由此在无需人工干预的情况下对所生成内容进行自动的修正，适用于网络隔离的环境。

实施例1

图1是本发明的基于知识图谱语义证据提示和置信度的内容生成方法的一示例的步骤流程图。图2是应用本发明的基于知识图谱语义证据提示和置信度的内容生成方法的一应用示例的示意流程图。

下面参照图1至图3，将对本发明的内容进行详细说明。

首先，在步骤S101中，将科技情报问题输入预训练模型，生成与科技情报问题相对应的科技情报内容，并对所生成的科技情报内容进行科技实体三元组提取，得到科技实体集合和科技关系集合。

在一具体实施方式中，将科技情报问题（例如图2所示的“提问内容Q”）输入预训练模型，生成与科技情报问题相对应的科技情报内容g。

具体地，所述预训练模型例如为大语言模型（LLM），所述大语言模型（LLM）是指使用某一领域（例如科技情报）的大量文本数据训练的深度学习模型。

需要说明的是，在其他实施方式中，所述预训练模型还可以是生成语言文本的其他统计模型。上述仅作为可选示例进行说明，不能理解成对本发明的限制。

在一可选实施方式中，获取所生成的科技情报内容g，并输入预训练模型，以对所生成的科技情报内容进行科技实体三元组提取，得到科技实体集合和科技关系集合。

例如，将文本段“请提取科技情报内容g中的实体关系集合”输入预训练模型，得到科技实体集合E和科技关系集合R，即得到科技实体三元组数量为m的科技实体关系三元组集合T。

具体地，科技实体集合E包括多种科技实体，例如芯片、机器学习、计算机、深度学习等等。所述科技关系集合R包括获取关系、学习关系、输入输出关系、因果关系等等。

更具体地，实体三元组包括头部实体、尾部实体、头部实体与尾部实体之间的关系。

需要说明的是，在其他实施方式中，例如可根据科技情报领域的实体关系、各实体的特征，或者设定例如提取动宾关系、增加提取规则以辅助提取实体三元组。上述仅作为可选实施方式，不能理解成对本发明的限制。

接下来，在步骤S102中，从科技实体集合中获取待处理科技实体对，采用已知的知识图谱，查询确定与待处理科技实体对相关的关联关系路径，得到与待处理科技实体对相对应的关联路径集合（即关系路径集合）。

在一具体实施方式中，从科技实体集合中获取待处理科技实体对（h，t），例如根据科技实体h、科技实体t选取已知的知识图谱G，采用已知的知识图谱G，计算待处理科技实体对的实体三元组的语义证据值。

具体地，在知识图谱G中从头部实体h到尾部实体t存在一个科技实体关联关系路径，通过/>个关系连接能够从头部实体h遍历到尾部实体t。

需要说明的是，在本发明中，给定一个科技实体对的头部实体和一个具体关系，则在已知的知识图谱中存在着多个可以连接的尾部科技实体，由此相关实体关系路径可用多个相互关联的科技实体集合表示。因此，将头部实体h和实体关系r_i作为出入条件，输入知识图谱G，依次遍历科技实体h与实体关系r_i的实体关系对(h,r_i)即可得到一个实体集合，由此可根据科技实体关系路径p（也简称为实体关系路径或关系路径）中的每一步的实体关系r_i，可得到待处理科技实体对（h，t）从头部实体h到尾部实体t的关系路径集合（即与待处理科技实体对相对应的关联路径集合），例如使用表示，其中E_i表示遍历到第i步的关联路径集合，/>，/>，所述关联路径集合包括实体集合。

需要说明的是，上述仅作为可选实施方式，不能理解成对本发明的限制。

接下来，在步骤S103中，基于所得到的关联路径集合，计算所述待处理科技实体对的资源总量，以用于评估所述待处理科技实体对的关系路径的可靠性。

根据所获取的待处理科技实体对（h，t），对已知的知识图谱（与待处理科技实体对相关的知识图谱）进行遍历，得到待处理科技实体对的相关实体关系路径中的所有实体元素。

利用以下表达式（1）计算待处理科技实体对经过实体关系路径p（即科技实体关系路径p）中每一次遍历得到的实体集合E_i中的每一实体元素（）的资源量、即实体关系路径p的可靠性（也即计算实体元素的语义证据值）。

（1）

在一具体实施方式中，如图3所示，科技实体“神经网络”在关系r1=“领域”这个关系下有多个前驱实体并形成一个前驱实体集合E(.,“神经网络”)=｛“人工智能”，“深机器学习”，…｝（即直接前驱集合E），从该直接前驱实体集合E中的任一实体，则满足。例如取实体“人工智能”，则在知识图谱中，通过关系r1=“领域”就存在着多个直接后驱实体形成集合E(“人工智能”,.)=｛“自然语言处理”，“大模型，“机器学习”，…｝，等等。

需要说明的是，在本发明中，在初始状态下，在相关实体关系路径下所有的实体资源量（即实体元素的资源量）最开始都是相同的，例如设定值为1。之后，通过步，例如从头部实体h到尾部实体t，得到从头部实体h到尾部实体t的资源总量R_p(t)，并用于表征待处理科技实体对（h，t）的实体关系路径p的可靠性值，即R(h,p,t)。

采用上述表达式（1），计算每一个实体元素的资源量，可得到实体关系路径p下所有实体元素的资源总量R_p(t)，以表征待处理科技实体对的实体关系路径的可靠值，并用于评估所述待处理科技实体对的关系路径的可靠性（即使用资源总量表征待处理科技实体对的关系路径的语义证据值）。

;

其中，R_p(t)表示实体关系路径p下所有实体元素的资源总量，t表示实体元素的数量；R_p(e)表示待处理科技实体对（h，t）的实体关系路径p中每一次遍历得到的实体集合中的当前实体元素的资源量、即当前实体元素的语义证据值；e是当前实体元素。

接下来，在步骤S104中，计算所述待处理科技实体对的实体三元组的综合置信度，并将计算得到的综合置信度与指定阈值进行判断。

具体地，确定待处理科技实体对的实体三元组及其数量。例如，确定待处理科技实体对（h，t）有多个相关实体三元组。

（2）

其中，C _m(h,r,t)表示第m个待处理科技实体对的实体三元组的置信度，m为正整数，具体为1、2、...、m，h表示待处理科技实体对中头部实体，t表示待处理科技实体对中尾部实体，r表示待处理科技实体对中头部实体和尾部实体之间的实体关系；PP _m(h,r,t)表示第m个待处理科技实体对的实体三元组(h,r,t)的前置路径置信度；AP _m(h,r,t)表示第m个待处理科技实体对的实体三元组(h,r,t)的自适应路径置信度；λ₁表示与前置路径置信度相关的计算超参数；λ₂表示与自适应路径置信度相关的计算超参数。

通过所计算得到的综合置信度与指定阈值进行判断，以确定可用作提示内容的文本（即大于指定阈值的实体三元组所对应的文本）。

具体地，根据所计算的表征待处理科技实体对的实体关系路径的可靠值、遍历路径共现差异性，计算待处理科技实体对的实体三元组的前置路径置信度。

具体采用以下表达式，计算待处理科技实体对的实体三元组的优先路径置信度：

（3）

其中，PP（h,r,t）表示待处理科技实体对的实体三元组（h,r,t）的优先路径置信度，h表示待处理科技实体对中头部实体，t表示待处理科技实体对中尾部实体，r表示待处理科技实体对中头部实体和尾部实体之间的实体关系；p_i表示与待处理科技实体对相关的第i个实体关系路径，i为正整数，具体为1、2、...、n；S _(h,t)表示在知识图谱中从头部实体h到尾部实体t的关系路径集合，表示待处理科技实体对（h,t）在第i个路径的资源量；Q _pp（r,p_i）表示第p_i个实体关系路径对实体关系（r,p_i）的质量。

通过上述表达式（3）可计算得到PP _i（h,r,t）（即待处理科技实体对的实体三元组(h,r,t)的第i个优先路径置信度）。

计算关系r与第i个实体关系路径p_i的关系路径对（r,p_i）的质量Q（r,p_i）。

（4）

其中，Q _pp（r,p_i）表示第i个前置关系路径p_i与关系r的关系路径对（r，p_i）的质量；P（r,p_i）是实体关系r和第i个关系路径p_i在已知的知识图谱G中的共现先验概率；P（p_i）是第i个关系路径p_i在已知的知识图谱G里的先验概率；表示平滑超参数，例如设置为0.01。

进一步，采用以下表达式，计算待处理科技实体对的自适应路径置信度：

（5）

其中，AP（h,r,t）表示待处理科技实体对的实体三元组（h,r,t）的自适应路径置信度，其中，h表示待处理科技实体对中头部实体，t表示待处理科技实体对中尾部实体，r表示待处理科技实体对中头部实体和尾部实体之间的实体关系；表示sigmoid函数；p_i表示与待处理科技实体对相关的第i个实体关系路径，为正整数，具体为1、2、...、n，S _(h,t)表示在知识图谱G中从头部实体h到尾部实体t的所有路径的集合（也称为科技实体关系路径集合），S _(h,t)包含实体关系路径p_i；R(h,p_i,t)表示待处理科技实体对（h,t）在第i个实体关系路径p_i的资源量；Q_AP（r,p_i）表示在实体关系为r的待处理科技实体对（h,t）在第i个实体关系路径的质量。

对于Q_AP（r,p_i）的计算，假定实体关系r，关系路径为，通过关系嵌入向量的和表示路径嵌入向量p_i。

（6）

其中， Q_AP（r,p_i）表示在实体关系为r的待处理科技实体对（h,t）在第i个实体关系路径的质量，r表示待处理科技实体对中头部实体和尾部实体之间的实体关系；p_i表示与待处理科技实体对相关的第i个实体关系路径，i为正整数，具体为1、2、...、N；表示实体关系的数量，且为正整数，具体为1、2、...、n。

需要说明的是，在本示例中，科技实体关系路径集合用于计算科技实体的资源量，通过实体的资源量衡量关系路径的可靠性，关系路径集合用于计算关系路径的置信度。

接下来，在步骤S105中，在计算得到的综合置信度小于等于指定阈值的情况下，计算待处理科技实体对的实体三元组的语义证据值。

具体通过所计算得到的综合置信度与指定阈值进行判断，以进行后续处理判断。

在一可选实施方式中，在计算得到的综合置信度大于指定阈值的情况下，输出与待处理科技实体对相对应的文本内容。具体为计算得到的综合置信度大于指定阈值的实体三元组所涉及的文本内容。例如输出与待处理科技实体对中科技情报问题相对应的科技情报内容。

需要说明的是，在本示例中，根据内容的可信要求和生成的速度，将所述指定阈值设定在0.6-1之间。对置信度要求高的，生成的内容速度就慢，对内容置信度要求低，内容生成的速度就快。

在另一可选实施方式中，在计算得到的综合置信度小于等于指定阈值的情况下，采用以下表达式（7）（8）（9）（10）计算待处理科技实体对的实体三元组的语义证据值。

对于待处理科技实体对的实体三元组的语义证据值的计算，具体计算待处理科技实体对所对应的实体三元组集合T中的每个实体三元组T^j的语义证据值E^j。

接下来，在步骤S106中，根据所计算的语义证据值，确定与待处理科技实体对相对应的提示三元组。

首先，获取提示三元组的头部实体，从预训练模型所生成文本的实体三元组集合取第m个科技实体三元组/>，采用表达式（7）计算关系级语义证据值，在已知的知识图谱G中计算所有符合关系r^m与尾部实体t^m的三元组的数量（具体使用所述三元组的数量表征各项/>所对应数值，在计算关系级语义证据值的过程中形成待处理科技实体对相对应的三元组的数量集合/>。

（7）

其中，表示待处理科技实体对的三元组中满足r^m和t^m的三元组的数量，r^m表示第m个实体关系；t^m表示具有实体关系r^m的尾部实体，m为正整数，具体为1、2、...、m；h_o表示在知识图谱G中的实体三元组中第o个头部实体。

将上述所得到的三元组的数量集合中各项数据所对应的数值最大（/>对应的数值最大、所计算的三元组的数量最大）的三元组作为提示三元组的头部实体。

具体将从预训练模型所生成文本中提取到m个实体三元组。

接着，进行获取提示三元组的关系r_prompt操作。方法是：通过公式（8）在知识图谱G里统计科技实体三元组T^m的头部实体h^m到尾部实体t^m所有的路径的数量，其中路径长度限定特定长度（例如为2），并形成路径数量集合。

（8）

表示在知识图谱G中第从实体h^m到尾部实体t^m所形成的路径数量，m表示与尾部实体t^m相关联的实体的数量，m为正整数，具体为1、2、...,m，…；h_o表示在知识图谱G中的实体三元组的头部实体，r^m表示生成文本的第m个科技实体三元组的关系，t^m表示生成文本的第m个科技实体三元组的尾部实体；e_o是路径长度为特定长度（例如为2）的中间实体o表示实体的序号。

将路径数量集合中语义证据值最大（对应的数值最大、所计算的三元组的数量最大）的关系r_o作为提示三元组的关系，即r_prompt=r_o。

然后，获取提示三元组尾部实体t_prompt计算科技实体三元组级语义证据值，以实体三元组集合T中的三元组的头部实体h^m和实体关系r^m作为查询输入，在知识图谱G中进行遍历查询，可查询到的与h_o相关的查询尾部实体t’，并计算与实体三元组集合T中的实体三元组的尾部实体t^j的最大语义相似性值Sim(t^m,t’)，其中采用以下表达式（9）计算语义相似性值。

（9）

（10）

其中，Sim(t^m,t’)表示与实体三元组集合T中的实体三元组的尾部实体的最大语义相似性值，t^m表示尾部实体；t’表示在知识图谱G中进行遍历查询，可查询到的与h_o相关的查询尾部实体。

具体统计尾部实体t^m与t’相同的邻居数量，形成语义相似性值集合（使用{Sim(t^m,t’)}表示），并将语义相似值最大的尾部实体t_prompt作为提示尾部实体，即。

接下来，在步骤S107中，将科技情报问题与提示三元组拼接，以作为模型输入，输入所述预训练模型，生成相应科技情报内容。

具体地，将情报问题（例如提问内容Q）与提示三元组，通过表达式（11）进行嵌入拼接，形成新的问题输入文本Q’。

（11）

进一步地，Q’=“Q且答案包括h_prompt, r_prompt，t_prompt”

以Q’作为模型输入，输入所述预训练模型，生成相应科技情报内容。

此外，附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以例如在多个模块中同步或异步执行的。

实施例2

下述为本发明系统实施例，可以用于执行本发明方法实施例。对于本发明系统实施例中未披露的细节，请参照本发明方法实施例。

图4是根据本发明的基于知识图谱语义证据提示和置信度的内容生成系统的一示例的结构示意图。

参照图4，本公开第二方面提供一种基于知识图谱语义证据提示和置信度的内容生成系统400，采用本发明第一方面所述的基于知识图谱语义证据提示和置信度的内容生成方法。具体地，所述内容生成系统400包括第一生成处理模块410、查询处理模块420、第一计算处理模块430、第二计算处理模块440、第三计算处理模块450、确定处理模块460、第二生成处理模块470。

在一具体实施方式中，第一生成处理模块410将科技情报问题输入预训练模型，生成与科技情报问题相对应的科技情报内容，并对所生成的科技情报内容进行科技实体三元组提取，得到科技实体集合和科技关系集合。查询处理模块420从科技实体集合中获取待处理科技实体对，采用已知的知识图谱，查询确定与待处理科技实体对相关的关联关系路径，得到与待处理科技实体对相对应的关联路径集合。第一计算处理模块430基于所得到的关联路径集合，计算所述待处理科技实体对的资源总量，以用于评估所述待处理科技实体对的关系路径的可靠性。第二计算处理模块440计算所述待处理科技实体对的实体三元组的综合置信度，并将计算得到的综合置信度与指定阈值进行判断。第三计算处理模块450在计算得到的综合置信度小于等于指定阈值的情况下，计算待处理科技实体对的实体三元组的语义证据值。确定处理模块460根据所计算的语义证据值，确定与待处理科技实体对相对应的提示三元组。第二生成处理模块470将科技情报问题与提示三元组拼接，以作为模型输入，输入所述预训练模型，生成相应科技情报内容。

根据所获取的待处理科技实体对，对已知的知识图谱进行遍历，得到待处理科技实体对的相关实体关系路径中的所有实体元素。

计算待处理科技实体对经过关系路径p，从每一次遍历得到的实体集合中的每一实体元素的资源量、即关系路径p的可靠性：

;

在一可选实施方式中，确定待处理科技实体对的实体三元组的置信度；

;

其中，C _m(h,r,t)表示待处理科技实体对的第m个实体三元组的置信度，m为正整数，具体为1,2,…m,…，h表示待处理科技实体对中头部实体，t表示待处理科技实体对中尾部实体，r表示待处理科技实体对中头部实体和尾部实体之间的实体关系；PP _m(h,r,t)表示第m个待处理科技实体对的实体三元组(h,r,t)的前置路径置信度；AP _m(h,r,t)表示第m个待处理科技实体对的实体三元组(h,r,t)的自适应路径置信度；λ₁表示与前置路径置信度相关的计算超参数；λ₂表示与自适应路径置信度相关的计算超参数。

具体地，采用以下表达式，计算待处理科技实体对的自适应路径置信度：

;

其中，AP（h,r,t）表示待处理科技实体对的实体三元组（h,r,t）的自适应路径置信度，其中，h表示待处理科技实体对中头部实体，t表示待处理科技实体对中尾部实体，r表示待处理科技实体对中头部实体和尾部实体之间的实体关系；表示sigmoid函数；p_i表示与待处理科技实体对相关的第i个实体关系路径p_i，i为正整数，具体为1、2、...、n，S _(h,t)表示在知识图谱G中从头部实体h到尾部实体t的所有路径的集合；R(h,p_i,t)表示待处理科技实体对（h,t）在第i个实体关系路径的资源量；Q_AP（r,p_i）表示在实体关系为r的待处理科技实体对（h,t）在第i个实体关系路径p_i的质量。

接着，采用以下表达式，计算待处理科技实体对的实体三元组的前置路径置信度：

;

其中，PP（h,r,t）表示待处理科技实体对的实体三元组（h,r,t）的前置路径置信度，h表示待处理科技实体对中头部实体，t表示待处理科技实体对中尾部实体，r表示待处理科技实体对中头部实体和尾部实体之间的实体关系；p_i表示与待处理科技实体对相关的第i个实体关系路径，i为正整数，具体为1、2、...、n,S _(h,t)表示在知识图谱中从头部实体h到尾部实体t的关系路径的集合，R（h,p_i,t）表示待处理科技实体对（h,t）在第i个实体关系路径的资源量；Q_PP（r,p_i）表示第i个实体关系路径p_i对关系r与实体关系路径p_i（r，p_i）的质量，i为正整数，具体为1、2、...、n。

在计算得到的综合置信度大于指定阈值的情况下，输出与待处理科技实体对相对应的文本内容。

根据所计算的表征待处理科技实体对的路径的可靠值、遍历路径共现差异性，计算待处理科技实体对的实体三元组的前置路径置信度。

需要说明的是，在本实施例中所述文本内容生成系统所执行的基于知识图谱语义证据的文本内容生成方法与图1中的基于知识图谱语义证据的文本内容生成方法的内容大致相同，因此，省略对相同部分的说明。

实施例3

图5是根据本发明的电子设备实施例的结构示意图。

如图5所示，电子设备以通用计算设备的形式表现。其中处理器可以是一个，也可以是多个并且协同工作。本发明也不排除进行分布式处理，即处理器可以分散在不同的实体设备中。本发明的电子设备并不限于单一实体，也可以是多个实体设备的总和。

所述存储器存储有计算机可执行程序，通常是机器可读的代码。所述计算机可执行程序可以被所述处理器执行，以使得电子设备能够执行本发明的方法，或者方法中的至少部分步骤。

所述存储器包括易失性存储器，例如随机存取存储单元（RAM）和/或高速缓存存储单元，还可以是非易失性存储器，如只读存储单元（ROM）。

可选的，该实施例中，电子设备还包括有I/O接口，其用于电子设备与外部的设备进行数据交换。I/O接口可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

应当理解，图5显示的电子设备仅仅是本发明的一个示例，本发明的电子设备中还可以包括上述示例中未示出的元件或组件。例如，有些电子设备中还包括有显示屏等显示单元，有些电子设备还包括人机交互元件，例如按钮、键盘等。只要该电子设备能够执行存储器中的计算机可读程序以实现本发明方法或方法的至少部分步骤，均可认为是本发明所涵盖的电子设备。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，如图6所示，根据本发明实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中或网络上，包括若干命令以使得一台计算设备（可以是个人计算机、服务器、或者网络设备等）执行根据本发明实施方式的上述方法。

所述软件产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由命令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网（LAN）或广域网（WAN），连接到用户计算设备，或者，可以连接到外部计算设备（例如利用因特网服务提供商来通过因特网连接）。

上述计算机可读介质承载有一个或者多个程序（例如计算机可执行程序），当上述一个或者多个程序被一个该设备执行时，使得该计算机可读介质实现本公开的数据交互方法。

本领域技术人员可以理解上述各模块可以按照实施例的描述分布于装置中，也可以进行相应变化唯一不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

通过以上的实施例的描述，本领域的技术人员易于理解，这里描述的示例实施例可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本发明实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中或网络上，包括若干命令以使得一台计算设备（可以是个人计算机、服务器、移动终端、或者网络设备等）执行根据本发明实施例的方法。

以上具体地示出和描述了本发明的示例性实施例。应可理解的是，本发明不限于这里描述的详细结构、设置方式或实现方法；相反，本发明意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。

Claims

1.一种基于知识图谱语义证据提示和置信度的内容生成方法，其特征在于，包括：

将科技情报问题输入预训练模型，生成与科技情报问题相对应的科技情报内容，并对所生成的科技情报内容进行科技实体三元组提取，得到科技实体集合和科技关系集合；

从科技实体集合中获取待处理科技实体对，采用已知的知识图谱，查询确定与待处理科技实体对相关的关联关系路径，得到与待处理科技实体对相对应的关联路径集合；

基于所得到的关联路径集合，计算所述待处理科技实体对的资源总量，以用于评估所述待处理科技实体对的关系路径的可靠性；

计算所述待处理科技实体对的实体三元组的综合置信度，并将计算得到的综合置信度与指定阈值进行判断，具体包括：确定待处理科技实体对的实体三元组的置信度；采用以下表达式，计算待处理科技实体对的每一实体三元组的综合置信度：

；

其中，C_m(h,r,t)表示待处理科技实体对的第m个实体三元组的置信度，m为正整数，具体为1、2、...、m，h表示待处理科技实体对中头部实体，t表示待处理科技实体对中尾部实体，r表示待处理科技实体对中头部实体和尾部实体之间的实体关系；PP_m(h,r,t)表示第m个待处理科技实体对的实体三元组(h,r,t)的前置路径置信度；AP_m(h,r,t)表示第m个待处理科技实体对的实体三元组(h,r,t)的自适应路径置信度；λ₁表示与前置路径置信度相关的计算超参数；λ₂表示与自适应路径置信度相关的计算超参数；采用以下表达式，计算待处理科技实体对的自适应路径置信度：

;

其中，AP（h,r,t）表示待处理科技实体对的实体三元组（h,r,t）的自适应路径置信度，表示sigmoid函数；p_i表示集合S _(h,t)中的第i个实体关系路径，i为正整数，具体为1、2、...、n，S _(h,t)表示在知识图谱G中从头部实体h到尾部实体t的所有路径的集合；R(h,p_i,t)表示待处理科技实体对（h,t）在第i个路径的资源量；Q_AP（r,p_i）表示在关系为r的待处理科技实体对（h,t）在第i个关系路径p_i的质量；采用以下表达式，计算待处理科技实体对的实体三元组的前置路径置信度：

；

其中，PP（h,r,t）表示待处理科技实体对的实体三元组（h,r,t）的前置路径置信度；Q_PP（r,p_i）表示第i个实体关系路径p_i对实体关系（r，p_i）的质量；

在计算得到的综合置信度小于等于指定阈值的情况下，计算待处理科技实体对的实体三元组的语义证据值；

根据所计算的语义证据值，确定与待处理科技实体对相对应的提示三元组；

将科技情报问题与提示三元组拼接，以作为模型输入，输入所述预训练模型，生成相应科技情报内容。

2.根据权利要求1所述的基于知识图谱语义证据提示和置信度的内容生成方法，其特征在于，

3.根据权利要求1所述的基于知识图谱语义证据提示和置信度的内容生成方法，其特征在于，

根据所获取的待处理科技实体对，对已知的知识图谱进行遍历，得到待处理科技实体对的相关实体关系路径中的所有实体元素；

；

其中，R_p(e)表示待处理科技实体对（h，t）经过实体关系路径p中i步关系遍历得到的实体集合E_i中的当前实体元素（）的资源量、即当前实体对的实体关系路径可靠性；e’是当前实体元素e在第i个关系r_i下的直接前驱集合/>中的前实体元素，即；/>是前实体元素e’在第i个关系r_i下的直接后驱实体集合。

4.根据权利要求3所述的基于知识图谱语义证据提示和置信度的内容生成方法，其特征在于，

5.一种基于知识图谱语义证据提示和置信度的内容生成系统，采用权利要求1所述的基于知识图谱语义证据提示和置信度的内容生成方法，其特征在于，包括：

第一生成处理模块，将科技情报问题输入预训练模型，生成与科技情报问题相对应的科技情报内容，并对所生成的科技情报内容进行科技实体三元组提取，得到科技实体集合和科技关系集合；

查询处理模块，从科技实体集合中获取待处理科技实体对，采用已知的知识图谱，查询确定与待处理科技实体对相关的关联关系路径，得到与待处理科技实体对相对应的关联路径集合；

第一计算处理模块，基于所得到的关联路径集合，计算所述待处理科技实体对的资源总量，以用于评估所述待处理科技实体对的关系路径的可靠性；

第二计算处理模块，计算所述待处理科技实体对的实体三元组的综合置信度，并将计算得到的综合置信度与指定阈值进行判断，具体包括：确定待处理科技实体对的实体三元组的置信度；采用以下表达式，计算待处理科技实体对的每一实体三元组的综合置信度：

；

;

第三计算处理模块，在计算得到的综合置信度小于等于指定阈值的情况下，计算待处理科技实体对的实体三元组的语义证据值；

确定处理模块，根据所计算的语义证据值，确定与待处理科技实体对相对应的提示三元组；

第二生成处理模块，将科技情报问题与提示三元组拼接，以作为模型输入，输入所述预训练模型，生成相应科技情报内容。