CN117743568A - 基于资源流量和置信度融合的内容生成方法和系统 - Google Patents
基于资源流量和置信度融合的内容生成方法和系统 Download PDFInfo
- Publication number
- CN117743568A CN117743568A CN202410182149.XA CN202410182149A CN117743568A CN 117743568 A CN117743568 A CN 117743568A CN 202410182149 A CN202410182149 A CN 202410182149A CN 117743568 A CN117743568 A CN 117743568A
- Authority
- CN
- China
- Prior art keywords
- entity
- processed
- technical
- pair
- representing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 90
- 238000000034 method Methods 0.000 title claims abstract description 62
- 238000012545 processing Methods 0.000 claims abstract description 22
- 238000012549 training Methods 0.000 claims abstract description 17
- 238000007499 fusion processing Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000003044 adaptive effect Effects 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 4
- 230000001172 regenerating effect Effects 0.000 claims description 2
- 238000001514 detection method Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 10
- 230000008569 process Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 238000002955 isolation Methods 0.000 description 5
- 239000002243 precursor Substances 0.000 description 5
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 241000282414 Homo sapiens Species 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000001364 causal effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于文本生成处理技术领域,提供一种基于资源流量和置信度融合的内容生成方法和系统。该方法包括:将科技情报问题输入预训练模型,生成与科技情报问题相对应的科技情报内容,进行科技实体和科技实体关系提取,得到科技实体集合和科技关系集合;获取待处理科技实体对,基于所得到的实体集合路径,计算待处理科技实体对所生成的每一个三元组的资源流量,计算所述待处理科技实体对所生成的每一个三元组的置信度以得到融合置信度,与指定阈值进行判断,以确定输出与待处理科技实体对相对应的幻觉内容。本发明提升了大模型生成内容的可靠性和可信度。
Description
技术领域
本发明涉及文本生成处理技术领域,尤其涉及一种基于资源流量和置信度融合的内容生成方法和系统。
背景技术
通常利用大模型进行内容生成的时候,生成的内容表面上是符合人类的阅读习惯,并被认为是正确的,但是,通常会出现生成的内容不够准确,与事实不符,经常出现幻觉问题,导致通过大模型生成的内容的正确性和可信度不高。目前的主要方法是通过大模型自评价的方式获取内容的置信度,即将大模型的生成内容输入大模型然后让大模型给出一个置信度的评分,通过这个评分判断该生成的内容是否需要修改,如果要修改,则与外部工具进行交互以实现修改,例如通过浏览器API接口对内容进行修改后输出。
事实上,生成式预训练模型在很多领域都得到了应用,并取得的良好的效果,在科技情报领域大模型也具有很好的应用,特别是科技情报内容生成方面,通过大模型能够有效整编科技情报内容使其更加符合人类的语言习惯,但是由于大模型是基于概率生成的,因此通过大模型得到的内容会出现幻觉问题,导致难以获取正确的真实客观的科技情报内容。为了解决大模型幻觉的问题,目前的方法主要有两个方面,一是通过提升大模型训练数据的质量,提升大模型的生成内容的质量。第二是通过外部知识和证据作为额外输入,纠正大模型的输出,这种方法虽然在一定程度上能够提升生成内容的准确性,但是由于是通过自评价的方式,会出现将不够准确的内容评分很高,导致不够准确的内容输出。另外,理论上大模型的训练数据一般都来自公开数据,即很多来自于互联网数据,互联网数据信息真假难辨,因此通过互联网数据对大模型的生成内容进行修正,会出现用一种错误修正另一个错误的情景。同时,这种方法对外部的知识库要求非常高,要求能够覆盖大模型生成的内容的实体,但是大模型的输入是难以确定的,因此生成内容的实体也是不确定的,当外部的知识库不能覆盖生成内容的实体关系时候,就无法对生成的内容进行幻觉检测了。事实上,现有方法根本无法满足科技情报领域的生成内容的准确性要求。
因此,有必要提供一种新的基于资源流量和置信度融合的内容生成方法,以解决上述问题。
发明内容
本发明意在提供一种基于资源流量和置信度融合的内容生成方法和系统,以解决现有技术中通过大模型得到的科技情报内容出现幻觉问题,导致难以获取正确的真实客观的科技情报内容,现有方法无法满足科技情报领域的生成内容的准确性要求,如何高效检测大模型幻觉和提升大模型生成内容的质量等技术问题,本发明要解决的技术问题通过以下技术方案来实现。
本发明第一方面提出一种基于资源流量和置信度融合的内容生成方法,包括:将科技情报问题输入预训练模型,生成与科技情报问题相对应的科技情报内容,并对所生成的科技情报内容进行科技实体和科技实体关系提取,得到科技实体集合和科技关系集合;获取待处理科技实体对,采用已知的知识图谱,遍历确定与待处理科技实体对相关的实体集合路径;基于所得到的实体集合路径,计算所述待处理科技实体对所生成的每一个三元组的资源流量,计算所述待处理科技实体对所生成的每一个三元组的置信度;将所计算的每一个三元组的资源流量和置信度融合处理,得到融合置信度,并将计算得到的融合置信度与指定阈值进行判断;在计算得到的融合置信度小于指定阈值的情况下,输出与待处理科技实体对相对应的幻觉内容。
根据可选实施方式,所述将所计算的每一个三元组的资源流量和置信度融合处理,得到融合置信度,包括:采用以下表达式计算每一个三元组的融合置信度:
;
;
其中, C表示所述待处理科技实体对所生成的每一个三元组的融合置信度;
表示所述待处理科技实体对所生成的每一个三元组的资源流量; h表示所述待处理科技实体对中头部实体,t表示待处理科技实体对中尾部实体;/>表示与所述待处理科技实体对所生成的每一个三元组的资源流量相对应的超参数;/>表示所述待处理科技实体对所生成的每一个三元组的置信度,h表示所述待处理科技实体对中头部实体, t表示待处理科技实体对中尾部实体,r表示所述待处理科技实体对中头部实体与尾部实体之间的实体关系;/>表示与所述待处理科技实体对所生成的每一个三元组的置信度相对应的超参数。
根据可选实施方式,进一步包括:基于已知的知识图谱,计算待处理科技实体对的关系可靠性值,以遍历确定与待处理科技实体对相关的实体集合路径,并根据各实体集合路径中的每一步遍历得到实体集合;
根据所得到的实体集合中各实体节点,采用以下表达式,先计算在知识图谱G中从待处理科技实体对所生成的三元组中头部科技实体到尾部科技实体的关联度:
;
其中,表示在知识图谱G中与待处理科技实体对所生成的三元组中头部科技实体和/或尾部科技实体发生关系的关联度,表征在知识图谱G中与待处理科技实体对中的任一实体发生关系的一个度量, h表示所述待处理科技实体对(h,t)中头部实体, t表示待处理科技实体对(h,t)中尾部实体;Mt表示所有连接到尾部实体 t的实体节点的集合;ei表示第i个实体节点;OD(ei)表示实体节点ei的出度;/>表示在知识图谱G中实体节点 ei与待处理科技实体对中头部科技实体h发生关系的关联度;/>表示从实体节点ei到实体节点t的带宽;/>表示所述实体集合中任一实体节点直接连接到已知的知识图谱中另一个实体节点的概率,已知的知识图谱的实体节点的总量为N,则所述实体集合中任一实体节点直接连接到尾部实体 t对应的实体节点的概率为/>;进一步计算从待处理科技实体对所生成的三元组中头部实体到尾部实体的资源流量:
;
其中,表示所述待处理科技实体对(h, t)所生成的每一个三元组中从头部实体到尾部实体的资源流量,h表示所述待处理科技实体对(h,t)中头部实体, t表示待处理科技实体对(h,t)中尾部实体;/>表示标准的sigmoid函数。
根据可选实施方式,进一步包括:采用以下表达式,计算待处理科技实体对所生成的每一个三元组的置信度:
;
其中,表示待处理科技实体对(h,t)的实体三元组(h,r,t)的自适应路径置信度,其中,h表示待处理科技实体对(h,t)中头部实体,t表示待处理科技实体对(h,t)中尾部实体, r表示待处理科技实体对(h,t)中头部实体和尾部实体之间的实体关系;表示sigmoid函数;pi表示实体集合S(h,t)中的第i个实体关系路径pi,i为正整数,具体为1、2、...、n,S(h,t)表示在知识图谱G中从头部实体 h到尾部实体t的所有路径的实体集合;表示待处理科技实体对(h,t)在第i个路径的资源量;/>表示在实体关系为 r的待处理科技实体对(h,t)在第i个实体关系路径pi的质量。
根据可选实施方式,根据所获取的待处理科技实体对,对已知的知识图谱进行遍历,得到待处理科技实体对的相关实体关系路径中的所有实体元素,得到实体集合路径;计算待处理科技实体对经过实体关系路径p,从每一次遍历得到的实体集合中的每一实体元素的资源量、即实体关系路径p的关系可靠性,以用于从待处理科技实体对所生成的三元组中头部实体到尾部实体的资源流量。
根据可选实施方式,进一步包括:在计算得到的融合置信度小于指定阈值的情况下,找到与所计算的融合置信度相对应的科技情报内容,基于所述科技情报内容,重新生成要输入的科技情报问题,重复执行以下步骤:生成与待处理科技实体对相对应的三元组,计算所生成的每一个三元组的融合置信度,与指定阈值进行比较,直到满足小于指定阈值为止。
根据可选实施,进一步包括:采用以下表达式计算超参数:
;
其中,表示与所述待处理科技实体对所生成的每一个三元组的置信度相对应的超参数;/>表示sigmoid函数;M表示知识图谱中等价关系的数量;
表示一个等价关系/>划分的知识粒度,/>表示知识图谱中等价关系中的一个等价关系,/>。
本发明第二方面提出一种基于资源流量和置信度融合的内容生成系统,采用本发明第一方面所述的基于资源流量和置信度融合的内容生成方法,包括:
生成处理模块,将科技情报问题输入预训练模型,生成与科技情报问题相对应的科技情报内容,并对所生成的科技情报内容进行科技实体和科技实体关系提取,得到科技实体集合和科技关系集合;遍历确定模块,获取待处理科技实体对,采用已知的知识图谱,遍历确定与待处理科技实体对相关的实体集合路径;计算处理模块,基于所得到的实体集合路径,计算所述待处理科技实体对所生成的每一个三元组的资源流量,计算所述待处理科技实体对所生成的每一个三元组的置信度;判断处理模块,将所计算的每一个三元组的资源流量和置信度融合处理,得到融合置信度,并将计算得到的融合置信度与指定阈值进行判断;输出处理模块,在计算得到的融合置信度小于指定阈值的情况下,输出与待处理科技实体对相对应的幻觉内容。
本发明第三方面提供一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明第一方面所述的方法。
本发明第四方面提供一种计算机可读介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本发明第一方面所述的方法。
本发明实施例包括以下优点:
与现有技术相比,本发明基于知识图谱所得到的实体集合路径,计算待处理科技实体对所生成的每一个三元组的资源流量,计算所述待处理科技实体对所生成的每一个三元组的置信度,并进一步融合处理得到融合置信度以与指定阈值比较,来判断是否输出模型所生成的内容,能够有效检测模型生成的内容的准确性,实现对模型所生成的内容的幻觉检测,能够直接确定模型生成内容中的幻觉内容进而能够提升大模型生成内容的可靠性和可信度。
此外,即使小规模的知识图谱也能够对大模型的生成内容进行幻觉检测,还能够实现离线运行,在无需人工干预的情况下对所生成内容进行自动的修正,适用于网络隔离的环境。
附图说明
图1是本发明的基于资源流量和置信度融合的内容生成方法的一示例的步骤流程图;
图2是应用本发明的基于资源流量和置信度融合的内容生成方法的一应用示例中实体关系的示意图;
图3是本发明的基于资源流量和置信度融合的内容生成系统的结构框图;
图4是根据本发明的电子设备实施例的结构示意图;
图5是根据本发明的计算机可读介质实施例的结构示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
鉴于上述问题,本发明提出一种基于资源流量和置信度融合的内容生成方法,该方法基于知识图谱对待处理科技文本对所生成每一个三元组进行资源流量和置信度计算,并进一步融合处理得到融合置信度以与指定阈值比较,确定小于指定阈值的情况以输出与待处理科技实体对相对应的幻觉内容,能够直接确定模型生成内容中的幻觉内容,实现了对模型所生成的内容的幻觉检测进而能够有效检测模型生成的内容的准确性,还能够提升大模型生成内容的可靠性和可信度。
此外,即使小规模的知识图谱也能够对大模型的生成内容进行幻觉检测,还能够实现离线运行,在无需人工干预的情况下对所生成内容进行自动的修正,适用于网络隔离的环境。
实施例1
图1是本发明的基于资源流量和置信度融合的内容生成方法的一示例的步骤流程图。图2是应用本发明的基于资源流量和置信度融合的内容生成方法的一应用示例中实体关系的示意图。
下面参照图1和图2,将对本发明的内容进行详细说明。
首先,在步骤S101中,将科技情报问题输入预训练模型,生成与科技情报问题相对应的科技情报内容,并对所生成的科技情报内容进行科技实体和科技实体关系提取,得到科技实体集合和科技关系集合。
将科技情报问题输入预训练模型,生成与科技情报问题相对应的科技情报内容,并对所生成的科技情报内容进行科技实体三元组提取,得到科技实体集合和科技关系集合。
在一具体实施方式中,将科技情报问题(例如“提问内容Q”)输入预训练模型,生成与科技情报问题相对应的科技情报内容g。
具体地,所述预训练模型例如为大语言模型(LLM),所述大语言模型(LLM)是指使用某一领域(例如科技情报)的大量文本数据训练的深度学习模型。
需要说明的是,在其他实施方式中,所述预训练模型还可以是生成语言文本的其他统计模型。上述仅作为可选示例进行说明,不能理解成对本发明的限制。
在一可选实施方式中,获取所生成的科技情报内容g,并输入预训练模型,以对所生成的科技情报内容进行科技实体三元组提取,得到科技实体集合和科技关系集合。
例如,将文本段“请提取科技情报内容g中的实体关系集合”输入预训练模型,得到科技实体集合E和科技关系集合R,即得到科技实体三元组数量为m的科技实体关系三元组集合T。
具体地,科技实体集合E包括多种科技实体,例如芯片、机器学习、计算机、深度学习等等。所述科技关系集合R包括获取关系、学习关系、输入输出关系、因果关系等等。
更具体地,实体三元组包括头部实体、尾部实体、头部实体与尾部实体之间的关系。
需要说明的是,在其他实施方式中,例如可根据科技情报领域的实体关系、各实体的特征,或者设定例如提取动宾关系、增加提取规则以辅助提取实体三元组。上述仅作为可选实施方式,不能理解成对本发明的限制。
接下来,在步骤S102中,获取待处理科技实体对,采用已知的知识图谱,遍历确定与待处理科技实体对相关的实体集合路径。
在一具体实施方式中,从科技实体集合中获取待处理科技实体对(h,t),例如根据科技实体h为待处理实体对中头部实体,科技实体t为待处理实体对中尾部实体。换言之,待处理科技实体对(h,t)是从预训练模型所生成的内容(在本实施方式中是从所得到的科技实体集合)中获取得到的,并且已知的知识图谱中也包含待处理科技实体对中的头部实体和尾部实体。
需要说明的是,在本发明中,给定一个科技实体对的头部实体和一个具体实体关系,则在已知的知识图谱中存在着多个可以连接的尾部实体,由此相关实体关系路径可用多个相互关联的科技实体集合表示。
在一具体实施方式中,选取已知的知识图谱G,采用已知的知识图谱G(在本发明中,也简称为“知识图谱G”)。在知识图谱G中从头部实体 h到尾部实体t存在一个科技实体关联关系路径,通过L个关系连接能够从头部实体 h遍历到尾部实体 t。
将头部实体h和实体关系ri作为出入条件,输入知识图谱G,依次遍历科技实体头部实体h和实体关系ri的实体关系对 (h,ri)即可得到一个实体集合,由此可根据科技实体关联关系路径p(也简称为实体关系路径或关系路径)中的每一步的实体关系ri,可得到待处理科技实体对(h,t)从头部实体 h到尾部实体t的关系路径集合(即与待处理科技实体对相对应的实体集合路径),所述实体集合路径包括实体集合。
根据所获取的待处理科技实体对(h,t),对已知的知识图谱(与待处理科技实体对相关的知识图谱)进行遍历,得到待处理科技实体对的相关实体关系路径中的所有实体元素。
基于知识图谱G,计算待处理科技实体对的关系可靠性值,以遍历确定与待处理科技实体对相关的实体集合路径,并根据各实体关系路径中的每一步遍历得到实体集合(例如使用 Ei表示),其中,使用实体集合Ei中的实体元素使用e表示。
采用以下表达式,计算待处理科技实体对(h,t)的关系可靠性值,使用实体关系路径 p下所有实体元素的资源总量 Rp(t)表征待处理科技实体对的实体关系路径的可靠性(即关系可靠值)。
采用表达式(1),计算所有实体元素的资源总量。
(1)
其中,表示实体关系路径p下所有实体元素的资源总量,t表示实体元素的数量;/>表示待处理科技实体对(h,t)的实体关系路径p中每一次遍历得到的实体集合中的当前实体元素的资源量; e是当前实体元素。
具体地,利用以下表达式(2)计算待处理科技实体对经过实体关系路径p(即科技实体关系路径p)中每一次遍历得到的实体集合Ei中的每一实体元素()的资源量、即实体关系路径p的可靠性(也即计算实体元素的语义证据值)。
(2)
其中,表示待处理科技实体对(h,t)的实体关系路径 p中每一次遍历得到的实体集合 Ei中的当前实体元素(/>)的资源量、即当前实体元素的语义证据值;e’是当前实体元素e在第i个实体关系ri下的直接前驱集合/>中的前实体元素,即;/>是前实体元素 e’在第i个实体关系 ri下的直接后驱实体集合。
需要说明的是,在本示例中,所述资源量是待处理科技实体对所生成的三元组在已知的知识图谱中基于实体关系从头部科技实体到尾部科技实体的路径集合计算得到的,具有确定性,反映了待处理科技实体对中头部实体、实体关系与尾部实体关联的可能性,通过计算资源量来计算所述待处理科技实体对所生成的每一个三元组的置信度。
在一具体实施方式中,如图2所示,科技实体“神经网络”在关系r1=“领域”这个关系下有多个前驱实体并形成一个前驱实体集合E(.,“神经网络”)={“人工智能”,“深机器学习”,…}(即直接前驱集合E),该直接前驱集合E中的任一实体满足。例如取实体“人工智能”,则在知识图谱中,通过实体关系r1=“领域”就存在着多个直接后驱实体形成集合E(“人工智能”,.)={“自然语言处理”,“大模型,“机器学习”,…},等等。
需要说明的是,在本发明中,在初始状态下,在相关实体关系路径下所有的实体资源量(即实体元素的资源量)最开始都是相同的,例如设定值为1。例如从头部实体 h到尾部实体 t,通过L步,得到从头部实体 h到尾部实体t的资源总量,并用于表征待处理科技实体对(h,t)的实体关系路径p的可靠性值,即/>。
在遍历知识图谱的过程中,根据所计算的各实体元素的资源量及资源总量,确定与待处理科技实体对相关的实体集合路径。
需要说明的是,上述仅作为可选实施方式,不能理解成对本发明的限制。
接下来,在步骤S103中,基于所得到的实体集合路径,计算所述待处理科技实体对所生成的每一个三元组的资源流量,计算所述待处理科技实体对所生成的每一个三元组的置信度。
具体地,根据待处理科技实体对、已知的知识图谱,可确定与待处理科技实体对中头部实体和尾部实体相关的多条实体关系路径和多个三元组。
进一步地,计算待处理科技实体对经过实体关系路径p,从每一次遍历得到的实体集合中的每一实体元素的资源量、即实体关系路径p的关系可靠性,以用于从待处理科技实体对所生成的三元组中头部实体到尾部实体的资源流量。
根据所得到的实体集合中各实体节点(即各实体元素所对应的实体节点),采用以下表达式,先计算在知识图谱G中从待处理科技实体对所生成的三元组中头部科技实体到尾部科技实体的关联度:
(3)
其中,表示在知识图谱G中与待处理科技实体对所生成的三元组中头部科技实体和/或尾部科技实体发生关系的关联度,/>具体表征在知识图谱G中与待处理科技实体对中的任一实体发生关系的一个度量,h表示所述待处理科技实体对(h,t)中头部实体,t表示待处理科技实体对(h,t)中尾部实体;Mt表示所有连接到尾部实体 t的实体节点的集合;ei表示第i个实体节点; OD(ei)表示实体节点 ei的出度;/>表示在知识图谱G中实体节点ei与待处理科技实体对中头部科技实体h发生关系的关联度;/>表示从实体节点ei到实体节点 t的带宽;/>表示所述实体集合中任一实体节点直接连接到已知的知识图谱中另一个实体节点的概率,已知的知识图谱的实体节点的总量为N,则所述实体集合中任一实体节点直接连接到尾部实体t对应的实体节点的概率为/>。
进一步计算从待处理科技实体对所生成的三元组中头部实体到尾部实体的资源流量:
(4)
其中,表示所述待处理科技实体对(h,t)所生成的每一个三元组中从头部实体到尾部实体的资源流量,h表示所述待处理科技实体对(h,t)中头部实体,t表示待处理科技实体对(h,t)中尾部实体;/>表示sigmoid函数。
需要说明的是,在本发明中,所述资源流量是在没有考虑实体关系的情况下待处理科技实体对所生成的每一个三元组中的头部实体与尾部实体的资源关联性,具有关系无关性。与上述资源量是不同的参数。所述资源流量是用于表征与待处理科技实体对相关的实体的数量,具体将所计算的资源流量值映射到0~1之间,以用于表征与待处理科技实体对相关的实体的数量。
接着,采用以下表达式,计算待处理科技实体对所生成的每一个三元组的置信度:
(5)
其中,表示待处理科技实体对(h,t)的实体三元组(h,r,t)的自适应路径置信度,其中,h表示待处理科技实体对(h,t)中头部实体,t表示待处理科技实体对(h,t)中尾部实体,r表示待处理科技实体对(h,t)中头部实体和尾部实体之间的实体关系;表示sigmoid函数;pi表示实体集合S(h,t)中的第i个实体关系路径pi,i为正整数,具体为1、2、...、n,S(h,t)表示在知识图谱G中从头部实体 h到尾部实体t的所有路径的实体集合;表示待处理科技实体对(h,t)在第i个路径的资源量;/>表示在实体关系为 r的待处理科技实体对(h,t)在第i个实体关系路径pi的质量。
接着,将具体说明待处理科技实体对所生成的每一个三元组的置信度的计算过程。
具体地,根据所计算的表征待处理科技实体对的实体关系路径的可靠值、遍历路径共现差异性,计算待处理科技实体对的实体三元组的优先路径置信度。
具体采用以下表达式,计算待处理科技实体对的实体三元组的优先路径置信度:
(6)
其中,PP(h,r,t)表示待处理科技实体对的实体三元组(h,r,t)的优先路径置信度,h表示待处理科技实体对中头部实体,t表示待处理科技实体对中尾部实体,r表示待处理科技实体对中头部实体和尾部实体之间的实体关系; pi表示与待处理科技实体对相关的第i个实体关系路径,i为正整数,具体为1、2、...、n; S(h,t)表示在知识图谱中从头部实体h到尾部实体t的关系路径集合,表示待处理科技实体对 (h,t)在第i个路径pi的资源量;表示第个实体关系路径pi对实体关系/>的质量。
通过上述表达式(6)可计算得到(即待处理科技实体对的实体三元组(h,r,t)的第i个优先路径置信度)。
采用以下表达式(7),计算关系r与第i个实体关系路径pi的关系路径对的质量/>。
(7)
其中,表示第i个前置关系路径 pi与关系 r的关系路径对/>的质量;/>是实体关系r和第i个关系路径 pi在已知的知识图谱G中的共现先验概率;P(pi)是第i个关系路径 pi在已知的知识图谱G里的先验概率;表示平滑超参数,例如设置为0.01。
接着,采用以下表达式(8),计算待处理科技实体对的实体关系质量:
(8)
其中,表示第i个前置关系路径pi与实体关系r的关系相似性,即使用第i个前置关系路径 pi与实体关系 r的关系相似性来表征待处理科技实体对的实体关系质量;r表示待处理科技实体对所生成的三元组中任一三元组中关系;ri1表示第i个实体路径中的第1个关系的嵌入表示,rik表示第i个实体路径的第 k个关系的关系嵌入表示。
例如使用TransE模型将从头部实体到任一实体之间的关系表征为嵌入向量。嵌入向量例如为[00010001001],并使用该嵌入向量表示头部实体到某一实体的父子关系等。
可选地,所述嵌入向量为指定纬度,所述指定纬度的范围在10~500。
接下来,在步骤S104中,将所计算的每一个三元组的资源流量和置信度融合处理,得到融合置信度,并将计算得到的融合置信度与指定阈值进行判断。
采用以下表达计算每一个三元组的融合置信度:
(9)
(10)
其中,C表示所述待处理科技实体对所生成的每一个三元组的融合置信度;
表示所述待处理科技实体对所生成的每一个三元组的资源流量; h表示所述待处理科技实体对中头部实体,t表示待处理科技实体对中尾部实体;/>表示与所述待处理科技实体对所生成的每一个三元组的资源流量相对应的超参数;/>表示所述待处理科技实体对所生成的每一个三元组的置信度,h表示所述待处理科技实体对中头部实体, t表示待处理科技实体对中尾部实体, r表示所述待处理科技实体对中头部实体与尾部实体之间的实体关系;/>表示与所述待处理科技实体对所生成的每一个三元组的置信度相对应的超参数。
具体地,、/>是超参数,通常由领域知识图谱的规模和知识图谱专业性决定。通过知识图谱的实体和关系的规模衡量知识图谱的规模,通过知识图谱的平均知识粒度衡量知识图谱的专业度。
更具体地,假定知识图谱包含一个实体集合U和一个关系集合R,/>是由实体数量/>和表征实体关系的边的数量/>共同决定的,即/>,一般情况下领域知识图谱规模和专业的置信度成负相关,同时知识的粒度能够衡量一个知识图谱的专业性,知识粒度越小,则其专业性越高,置信度越高,因此,通过知识粒度决定参数/>的值。具体如下:知识图谱中共有M个等价关系,其中/>是一个等价关系,/>对U的划分的等价类集。首先,通过以下表达式(11)计算实体关系/>的知识粒度,然后,将整个知识图谱的平均知识粒度D代入sigmoid函数得到参数/>的值,具体如以下表达式(12)所示。
(11)
(12)
其中,表示与所述待处理科技实体对所生成的每一个三元组的置信度相对应的超参数;/>表示sigmoid函数;M表示知识图谱中等价关系的数量;
表示一个等价关系/>划分的知识粒度,/>表示知识图谱中等价关系中的一个等价关系,/>;/>表示实体集合U的实体数量;Xj表示等价关系划分的第 j类等价类实体集合, j为正整数,/>。
进一步地,在求得超参数时,通过表达式(11),得到超参数/>。
接下来,在步骤S105中,在计算得到的融合置信度小于指定阈值的情况下,输出与待处理科技实体对相对应的幻觉内容。
具体地,在计算得到的融合置信度小于指定阈值的情况下,输出与待处理科技实体对相对应的幻觉内容。
在一具体实施方式中,在计算得到的融合置信度小于指定阈值的情况下,找到与所计算的融合置信度相对应的幻觉内容,具体是通过实体匹配将置信度小于阈值的科技实体三元组与相应的生成内容进行匹配,匹配得到的内容文本text即为产生幻觉的内容,然后将上述内容文本text作为新输入的科技情报问题,重复执行以下步骤:生成与待处理科技实体对相对应的三元组,计算所生成的每一个三元组的融合置信度,与指定阈值进行比较,直到满足小于指定阈值为止。
在另一具体实施方式中,当待处理科技实体对的三元组(h,r,t)的综合置信度大于等于阈值时,对大模型生成的内容,按照每一句话与三元组(即科技三元组)的头部实体h和尾部实体h进行文本匹配,如果发现任何一句话的文本text(即文本内容)中同时包含h和t,那么这句话就被认为是一个具有幻觉内容的句子,然后将文本text(即文本内容)代入如下问题模版“请给出text的准确答案”输入预设模型(例如大模型),则输出与待处理科技实体对相对应的答案内容。
通过上述计算的融合置信度与指定阈值进行比较,确定小于指定阈值的情况以输出与待处理科技实体对相对应的幻觉内容,能够直接确定模型生成内容中的幻觉内容,实现了对模型所生成的内容的幻觉检测进而能够有效检测模型生成的内容的准确性,还能够提升大模型生成内容的可靠性和可信度。
在一可选实施方式中,使用待处理科技实体对的每一实体三元组的综合置信度表征待处理科技实体对的实体三元组的置信度。
具体地,确定待处理科技实体对的实体三元组及其数量。例如,确定待处理科技实体对(h,t)有多个相关实体三元组。
具体采用以下表达式,计算待处理科技实体对的每一实体三元组的综合置信度、即计算待处理科技实体对的实体三元组的置信度。
采用以下表达式,计算待处理科技实体对的每一实体三元组的综合置信度:
(13)
其中,C m (h,r,t)表示第m个待处理科技实体对的实体三元组的置信度,m为正整数,具体为1、2、...、m,h表示待处理科技实体对中头部实体,t表示待处理科技实体对中尾部实体,r表示待处理科技实体对中头部实体和尾部实体之间的实体关系;PP m (h,r,t)表示第m个待处理科技实体对的实体三元组(h,r,t)的前置路径置信度;AP m (h,r,t)表示第m个待处理科技实体对的实体三元组(h,r,t)的自适应路径置信度;λ1表示与前置路径置信度相关的计算超参数;λ2表示与自适应路径置信度相关的计算超参数。
将上述计算得到的置信度和所计算的每一个三元组的资源流量进行融合处理,即采用上述表达式(9)进行融合计算得到融合置信度,以进一步与指定阈值进行判断,以确定是否输出幻觉内容。
需要说明的是,在本示例中,根据内容的可信要求和生成的速度,将所述指定阈值设定在0.6-1之间。对置信度要求高的,生成的内容速度就慢,对内容置信度要求低,内容生成的速度就快。此外,由于在该实施方式中的其他步骤与上述实施方式中的其他步骤的实现过程均相同,因此,省略了相同部分的说明。
通过上述计算的融合置信度与指定阈值比较,确定小于指定阈值的情况以输出与待处理科技实体对相对应的幻觉内容,能够直接确定模型生成内容中的幻觉内容,即使对于小规模的知识图谱的情况也能够对模型生成内容(例如大模型的生成内容)进行幻觉检测,还能够实现离线运行,在无需人工干预的情况下对所生成内容进行自动的修正,适用于网络隔离的环境。
此外,附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以例如在多个模块中同步或异步执行的。
与现有技术相比,本发明基于知识图谱所得到的实体集合路径,计算待处理科技实体对所生成的每一个三元组的资源流量,计算所述待处理科技实体对所生成的每一个三元组的置信度,并进一步融合处理得到融合置信度与指定阈值比较,确定小于指定阈值的情况以输出与待处理科技实体对相对应的幻觉内容,能够直接确定模型生成内容中的幻觉内容,实现了对模型所生成的内容的幻觉检测进而能够有效检测模型生成的内容的准确性,还能够提升大模型生成内容的可靠性和可信度。
此外,即使小规模的知识图谱也能够对大模型的生成内容进行幻觉检测,还能够实现离线运行,在无需人工干预的情况下对所生成内容进行自动的修正,适用于网络隔离的环境。
实施例2
下述为本发明系统实施例,可以用于执行本发明方法实施例。对于本发明系统实施例中未披露的细节,请参照本发明方法实施例。
图3是根据本发明的基于资源流量和置信度融合的内容生成系统的一示例的结构示意图。
参照图3,本公开第二方面提供一种基于资源流量和置信度融合的内容生成系统300,采用本发明第一方面所述的基于资源流量和置信度融合的内容生成方法。具体地,所述内容生成系统300包括生成处理模块310、遍历确定模块320、计算处理模块330、判断处理模块340和输出处理模块350。
在一具体实施方式中,生成处理模块310将科技情报问题输入预训练模型,生成与科技情报问题相对应的科技情报内容,并对所生成的科技情报内容进行科技实体和科技实体关系提取,得到科技实体集合和科技关系集合。遍历确定模块320获取待处理科技实体对,采用已知的知识图谱,遍历确定与待处理科技实体对相关的实体集合路径。计算处理模块330基于所得到的实体集合路径,计算所述待处理科技实体对所生成的每一个三元组的资源流量,计算所述待处理科技实体对所生成的每一个三元组的置信度;判断处理模块340将所计算的每一个三元组的资源流量和置信度融合处理,得到融合置信度,并将计算得到的融合置信度与指定阈值进行判断。输出处理模块350在计算得到的融合置信度小于指定阈值的情况下,输出与待处理科技实体对相对应的幻觉内容。
根据可选实施方式,将所计算的每一个三元组的资源流量和置信度融合处理,得到融合置信度。
采用以下表达式计算每一个三元组的融合置信度:
;
其中, C表示所述待处理科技实体对所生成的每一个三元组的融合置信度;
表示所述待处理科技实体对所生成的每一个三元组的资源流量; h表示所述待处理科技实体对中头部实体,t表示待处理科技实体对中尾部实体;/>表示与所述待处理科技实体对所生成的每一个三元组的资源流量相对应的超参数;/>表示所述待处理科技实体对所生成的每一个三元组的置信度,h表示所述待处理科技实体对中头部实体, t表示待处理科技实体对中尾部实体,r表示所述待处理科技实体对中头部实体与尾部实体之间的实体关系;/>表示与所述待处理科技实体对所生成的每一个三元组的置信度相对应的超参数。
根据可选实施方式,基于已知的知识图谱,计算待处理科技实体对的关系可靠性值,以遍历确定与待处理科技实体对相关的实体集合路径,并根据各实体集合路径中的每一步遍历得到实体集合。
根据所得到的实体集合中各实体节点,采用以下表达式,先计算在知识图谱G中从待处理科技实体对所生成的三元组中头部科技实体到尾部科技实体的关联度:
;
其中,表示在知识图谱G中与待处理科技实体对所生成的三元组中头部科技实体和/或尾部科技实体发生关系的关联度,表征在知识图谱G中与待处理科技实体对中的任一实体发生关系的一个度量, h表示所述待处理科技实体对(h,t)中头部实体, t表示待处理科技实体对(h,t)中尾部实体;Mt表示所有连接到尾部实体 t的实体节点的集合;ei表示第i个实体节点;OD(ei)表示实体节点ei的出度;/>表示在知识图谱G中实体节点 ei与待处理科技实体对中头部科技实体h发生关系的关联度;/>表示从实体节点ei到实体节点t的带宽;/>表示所述实体集合中任一实体节点直接连接到已知的知识图谱中另一个实体节点的概率,已知的知识图谱的实体节点的总量为N,则所述实体集合中任一实体节点直接连接到尾部实体 t对应的实体节点的概率为/>。
进一步计算从待处理科技实体对所生成的三元组中头部实体到尾部实体的资源流量:
;
其中,表示所述待处理科技实体对(h,t)所生成的每一个三元组中从头部实体到尾部实体的资源流量,h表示所述待处理科技实体对(h,t)中头部实体,t表示待处理科技实体对(h,t)中尾部实体;/>表示标准的sigmoid函数。
根据可选实施方式,采用以下表达式,计算待处理科技实体对所生成的每一个三元组的置信度:
;
其中, AP(h,r,t)表示待处理科技实体对(h,t)的实体三元组 (h,r,t)的自适应路径置信度,其中, h表示待处理科技实体对(h,t)中头部实体,t表示待处理科技实体对(h,t)中尾部实体, r表示待处理科技实体对(h,t)中头部实体和尾部实体之间的实体关系;表示sigmoid函数;Pi表示实体集合 S(h,t)中的第i个实体关系路径 Pi,i为正整数,具体为1、2、...、n,S(h,t)表示在知识图谱G中从头部实体 h到尾部实体t的所有路径的实体集合;/>表示待处理科技实体对(h,t)在第i个路径的资源量;/>表示在实体关系为 r的待处理科技实体对(h,t)在第i个实体关系路径 Pi的质量。
根据可选实施方式,根据所获取的待处理科技实体对,对已知的知识图谱进行遍历,得到待处理科技实体对的相关实体关系路径中的所有实体元素,得到实体集合路径;计算待处理科技实体对经过实体关系路径p,从每一次遍历得到的实体集合中的每一实体元素的资源量、即实体关系路径p的关系可靠性,以用于从待处理科技实体对所生成的三元组中头部实体到尾部实体的资源流量。
根据可选实施方式,在计算得到的融合置信度小于指定阈值的情况下,找到与所计算的融合置信度相对应的科技情报内容,基于所述科技情报内容,重新生成要输入的科技情报问题,重复执行以下步骤:生成与待处理科技实体对相对应的三元组,计算所生成的每一个三元组的融合置信度,与指定阈值进行比较,直到满足小于指定阈值为止。
根据可选实施方式,采用以下表达式计算超参数:
;
其中,表示与所述待处理科技实体对所生成的每一个三元组的置信度相对应的超参数;/>表示sigmoid函数;M表示知识图谱中等价关系的数量;
表示一个等价关系/>划分的知识粒度,/>表示知识图谱中等价关系中的一个等价关系,/>。
需要说明的是,在本实施例中基于资源流量和置信度融合的内容生成系统所执行的基于资源流量和置信度融合的内容生成方法与图1中的基于资源流量和置信度融合的内容生成方法的内容大致相同,因此,省略对相同部分的说明。
与现有技术相比,本发明基于知识图谱所得到的实体集合路径,计算待处理科技实体对所生成的每一个三元组的资源流量,计算所述待处理科技实体对所生成的每一个三元组的置信度,并进一步融合处理得到融合置信度以与指定阈值比较,确定小于指定阈值的情况以输出与待处理科技实体对相对应的幻觉内容,能够直接确定模型生成内容中的幻觉内容,实现了对模型所生成的内容的幻觉检测进而能够有效检测模型生成的内容的准确性,还能够提升大模型生成内容的可靠性和可信度。
此外,即使小规模的知识图谱也能够对大模型的生成内容进行幻觉检测,还能够实现离线运行,在无需人工干预的情况下对所生成内容进行自动的修正,适用于网络隔离的环境。
实施例3
图4是根据本发明的电子设备实施例的结构示意图。
如图4所示,电子设备以通用计算设备的形式表现。其中处理器可以是一个,也可以是多个并且协同工作。本发明也不排除进行分布式处理,即处理器可以分散在不同的实体设备中。本发明的电子设备并不限于单一实体,也可以是多个实体设备的总和。
所述存储器存储有计算机可执行程序,通常是机器可读的代码。所述计算机可执行程序可以被所述处理器执行,以使得电子设备能够执行本发明的方法,或者方法中的至少部分步骤。
所述存储器包括易失性存储器,例如随机存取存储单元(RAM)和/或高速缓存存储单元,还可以是非易失性存储器,如只读存储单元(ROM)。
可选的,该实施例中,电子设备还包括有I/O接口,其用于电子设备与外部的设备进行数据交换。I/O接口可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
应当理解,图4显示的电子设备仅仅是本发明的一个示例,本发明的电子设备中还可以包括上述示例中未示出的元件或组件。例如,有些电子设备中还包括有显示屏等显示单元,有些电子设备还包括人机交互元件,例如按钮、键盘等。只要该电子设备能够执行存储器中的计算机可读程序以实现本发明方法或方法的至少部分步骤,均可认为是本发明所涵盖的电子设备。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,如图5所示,根据本发明实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干命令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本发明实施方式的上述方法。
所述软件产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由命令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
上述计算机可读介质承载有一个或者多个程序(例如计算机可执行程序),当上述一个或者多个程序被一个该设备执行时,使得该计算机可读介质实现本公开的方法。
本领域技术人员可以理解上述各模块可以按照实施例的描述分布于装置中,也可以进行相应变化唯一不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
通过以上的实施例的描述,本领域的技术人员易于理解,这里描述的示例实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发明实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干命令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本发明实施例的方法。
以上具体地示出和描述了本发明的示例性实施例。应可理解的是,本发明不限于这里描述的详细结构、设置方式或实现方法;相反,本发明意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。
Claims (10)
1.一种基于资源流量和置信度融合的内容生成方法,其特征在于,包括:
将科技情报问题输入预训练模型,生成与科技情报问题相对应的科技情报内容,并对所生成的科技情报内容进行科技实体和科技实体关系提取,得到科技实体集合和科技关系集合;
获取待处理科技实体对,采用已知的知识图谱,遍历确定与待处理科技实体对相关的实体集合路径;
基于所得到的实体集合路径,计算所述待处理科技实体对所生成的每一个三元组的资源流量,计算所述待处理科技实体对所生成的每一个三元组的置信度;
将所计算的每一个三元组的资源流量和置信度融合处理,得到融合置信度,并将计算得到的融合置信度与指定阈值进行判断;
在计算得到的融合置信度小于指定阈值的情况下,输出与待处理科技实体对相对应的幻觉内容。
2.根据权利要求1所述的基于资源流量和置信度融合的内容生成方法,其特征在于,所述将所计算的每一个三元组的资源流量和置信度融合处理,得到融合置信度,包括:
采用以下表达式计算每一个三元组的融合置信度:
;
;
其中,C表示所述待处理科技实体对所生成的每一个三元组的融合置信度;
表示所述待处理科技实体对所生成的每一个三元组的资源流量; h表示所述待处理科技实体对中头部实体,t表示待处理科技实体对中尾部实体;/>表示与所述待处理科技实体对所生成的每一个三元组的资源流量相对应的超参数;/>表示所述待处理科技实体对所生成的每一个三元组的置信度,h表示所述待处理科技实体对中头部实体, t表示待处理科技实体对中尾部实体,r表示所述待处理科技实体对中头部实体与尾部实体之间的实体关系;/>表示与所述待处理科技实体对所生成的每一个三元组的置信度相对应的超参数。
3.根据权利要求2所述的基于资源流量和置信度融合的内容生成方法,其特征在于,进一步包括:
基于已知的知识图谱,计算待处理科技实体对的关系可靠性值,以遍历确定与待处理科技实体对相关的实体集合路径,并根据各实体集合路径中的每一步遍历得到实体集合;
根据所得到的实体集合中各实体节点,采用以下表达式,先计算在知识图谱G中从待处理科技实体对所生成的三元组中头部科技实体到尾部科技实体的关联度:
;
其中,表示在知识图谱G中与待处理科技实体对所生成的三元组中头部科技实体和/或尾部科技实体发生关系的关联度,表征在知识图谱G中与待处理科技实体对中的任一实体发生关系的一个度量, h表示所述待处理科技实体对(h,t)中头部实体, t表示待处理科技实体对(h,t)中尾部实体;Mt表示所有连接到尾部实体 t的实体节点的集合;ei表示第i个实体节点;OD(ei)表示实体节点ei的出度;/>表示在知识图谱G中实体节点ei与待处理科技实体对中头部科技实体h发生关系的关联度;/>表示从实体节点ei到实体节点t的带宽;/>表示所述实体集合中任一实体节点直接连接到已知的知识图谱中另一个实体节点的概率,已知的知识图谱的实体节点的总量为N,则所述实体集合中任一实体节点直接连接到尾部实体 t对应的实体节点的概率为 />;
进一步计算从待处理科技实体对所生成的三元组中头部实体到尾部实体的资源流量:
;
其中, 表示所述待处理科技实体对(h, t)所生成的每一个三元组中从头部实体到尾部实体的资源流量,h表示所述待处理科技实体对(h,t)中头部实体, t表示待处理科技实体对(h,t)中尾部实体;/>表示标准的sigmoid函数。
4.根据权利要求2所述的基于资源流量和置信度融合的内容生成方法,其特征在于,进一步包括:
采用以下表达式,计算待处理科技实体对所生成的每一个三元组的置信度:
;
其中,表示待处理科技实体对(h,t)的实体三元组(h,r,t)的自适应路径置信度,其中,h表示待处理科技实体对(h,t)中头部实体,t表示待处理科技实体对(h,t)中尾部实体, r表示待处理科技实体对(h,t)中头部实体和尾部实体之间的实体关系;/>表示sigmoid函数;pi表示实体集合S(h,t)中的第i个实体关系路径pi,i为正整数,具体为1、2、...、n,S(h,t)表示在知识图谱G中从头部实体 h到尾部实体t的所有路径的实体集合;表示待处理科技实体对(h,t)在第i个路径的资源量; />表示在实体关系为 r的待处理科技实体对(h,t)在第i个实体关系路径pi的质量。
5.根据权利要求3所述的基于资源流量和置信度融合的内容生成方法,其特征在于,
根据所获取的待处理科技实体对,对已知的知识图谱进行遍历,得到待处理科技实体对的相关实体关系路径中的所有实体元素,得到实体集合路径;
计算待处理科技实体对经过实体关系路径p,从每一次遍历得到的实体集合中的每一实体元素的资源量、即实体关系路径p的关系可靠性,以用于从待处理科技实体对所生成的三元组中头部实体到尾部实体的资源流量。
6.根据权利要求1所述的基于资源流量和置信度融合的内容生成方法,其特征在于,进一步包括:
在计算得到的融合置信度小于指定阈值的情况下,找到与所计算的融合置信度相对应的科技情报内容,基于所述科技情报内容,重新生成要输入的科技情报问题,重复执行以下步骤:生成与待处理科技实体对相对应的三元组,计算所生成的每一个三元组的融合置信度,与指定阈值进行比较,直到满足小于指定阈值为止。
7.根据权利要求2所述的基于资源流量和置信度融合的内容生成方法,其特征在于,进一步包括:
采用以下表达式计算超参数:
;
其中,表示与所述待处理科技实体对所生成的每一个三元组的置信度相对应的超参数; />表示sigmoid函数;M表示知识图谱中等价关系的数量;
表示一个等价关系/>划分的知识粒度, />表示知识图谱中等价关系中的一个等价关系,/>。
8.一种基于资源流量和置信度融合的内容生成系统,采用权利要求1所述的基于资源流量和置信度融合的内容生成方法,其特征在于,包括:
生成处理模块,将科技情报问题输入预训练模型,生成与科技情报问题相对应的科技情报内容,并对所生成的科技情报内容进行科技实体和科技实体关系提取,得到科技实体集合和科技关系集合;
遍历确定模块,获取待处理科技实体对,采用已知的知识图谱,遍历确定与待处理科技实体对相关的实体集合路径;
计算处理模块,基于所得到的实体集合路径,计算所述待处理科技实体对所生成的每一个三元组的资源流量,计算所述待处理科技实体对所生成的每一个三元组的置信度;
判断处理模块,将所计算的每一个三元组的资源流量和置信度融合处理,得到融合置信度,并将计算得到的融合置信度与指定阈值进行判断;
输出处理模块,在计算得到的融合置信度小于指定阈值的情况下,输出与待处理科技实体对相对应的幻觉内容。
9.根据权利要求8所述的基于资源流量和置信度融合的内容生成系统,其特征在于,所述将所计算的每一个三元组的资源流量和置信度融合处理,得到融合置信度,包括:
采用以下表达计算每一个三元组的融合置信度:
;
其中,C表示所述待处理科技实体对所生成的每一个三元组的融合置信度;
表示所述待处理科技实体对所生成的每一个三元组的资源流量; h表示所述待处理科技实体对中头部实体, t表示待处理科技实体对中尾部实体;/>表示与所述待处理科技实体对所生成的每一个三元组的资源流量相对应的超参数; />表示所述待处理科技实体对所生成的每一个三元组的置信度, h表示所述待处理科技实体对中头部实体,t表示待处理科技实体对中尾部实体,r表示所述待处理科技实体对中头部实体与尾部实体之间的实体关系;/>表示与所述待处理科技实体对所生成的每一个三元组的置信度相对应的超参数。
10.根据权利要求8所述的基于资源流量和置信度融合的内容生成系统,其特征在于,进一步包括:
基于已知的知识图谱,计算待处理科技实体对的关系可靠性值,以遍历确定与待处理科技实体对相关的实体集合路径,并根据各实体关系路径中的每一步遍历得到实体集合;
根据所得到的实体集合中各实体节点,采用以下表达式,先计算在知识图谱G中从待处理科技实体对所生成的三元组中头部科技实体到尾部科技实体的关联度:
;
其中, 表示在知识图谱G中与待处理科技实体对所生成的三元组中头部科技实体和/或尾部科技实体发生关系的关联度, />具体表征在知识图谱G中与待处理科技实体对中的任一实体发生关系的一个度量,h表示所述待处理科技实体对(h,t)中头部实体,t表示待处理科技实体对(h,t)中尾部实体;Mt表示所有连接到尾部实体 t的实体节点的集合;ei表示第i个实体节点; OD(ei)表示实体节点 ei的出度;/>表示从实体节点ei到实体节点 t的带宽;/>表示所述实体集合中任一实体节点直接连接到已知的知识图谱中另一个实体节点的概率,已知的知识图谱的实体节点的总量为N,则所述实体集合中任一实体节点直接连接到尾部实体t对应的实体节点的概率为/>;
进一步计算从待处理科技实体对所生成的三元组中头部实体到尾部实体的资源流量:
;
其中,表示所述待处理科技实体对(h,t)所生成的每一个三元组中从头部实体到尾部实体的资源流量,h表示所述待处理科技实体对(h,t)中头部实体,t表示待处理科技实体对(h,t)中尾部实体;/>表示sigmoid函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410182149.XA CN117743568B (zh) | 2024-02-19 | 2024-02-19 | 基于资源流量和置信度融合的内容生成方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410182149.XA CN117743568B (zh) | 2024-02-19 | 2024-02-19 | 基于资源流量和置信度融合的内容生成方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117743568A true CN117743568A (zh) | 2024-03-22 |
CN117743568B CN117743568B (zh) | 2024-04-26 |
Family
ID=90283526
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410182149.XA Active CN117743568B (zh) | 2024-02-19 | 2024-02-19 | 基于资源流量和置信度融合的内容生成方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117743568B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113065003A (zh) * | 2021-04-22 | 2021-07-02 | 国际关系学院 | 一种基于多指标的知识图谱生成方法 |
CN113254667A (zh) * | 2021-06-07 | 2021-08-13 | 成都工物科云科技有限公司 | 基于深度学习模型的科技人物知识图谱构建方法、装置及终端 |
KR20220066737A (ko) * | 2020-11-16 | 2022-05-24 | 주식회사 솔트룩스 | 과학 기술 논문을 위한 지식 추출 시스템 |
CN114943230A (zh) * | 2022-04-17 | 2022-08-26 | 西北工业大学 | 一种融合常识知识的中文特定领域实体链接方法 |
CN116911290A (zh) * | 2023-07-06 | 2023-10-20 | 武汉大学 | 基于机器阅读理解的关键科技实体抽取方法及系统 |
-
2024
- 2024-02-19 CN CN202410182149.XA patent/CN117743568B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20220066737A (ko) * | 2020-11-16 | 2022-05-24 | 주식회사 솔트룩스 | 과학 기술 논문을 위한 지식 추출 시스템 |
CN113065003A (zh) * | 2021-04-22 | 2021-07-02 | 国际关系学院 | 一种基于多指标的知识图谱生成方法 |
CN113254667A (zh) * | 2021-06-07 | 2021-08-13 | 成都工物科云科技有限公司 | 基于深度学习模型的科技人物知识图谱构建方法、装置及终端 |
CN114943230A (zh) * | 2022-04-17 | 2022-08-26 | 西北工业大学 | 一种融合常识知识的中文特定领域实体链接方法 |
CN116911290A (zh) * | 2023-07-06 | 2023-10-20 | 武汉大学 | 基于机器阅读理解的关键科技实体抽取方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN117743568B (zh) | 2024-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210342549A1 (en) | Method for training semantic analysis model, electronic device and storage medium | |
CN110069709B (zh) | 意图识别方法、装置、计算机可读介质及电子设备 | |
CN110704576B (zh) | 一种基于文本的实体关系抽取方法及装置 | |
CN110659723B (zh) | 基于人工智能的数据处理方法、装置、介质及电子设备 | |
WO2023115761A1 (zh) | 基于时序知识图谱的事件检测方法和装置 | |
WO2021139257A1 (zh) | 标注数据的选择方法、装置、计算机设备和存储介质 | |
WO2020143186A1 (zh) | 推荐系统训练方法、装置、计算机设备及存储介质 | |
CN110705255B (zh) | 检测语句之间的关联关系的方法和装置 | |
US20220100963A1 (en) | Event extraction from documents with co-reference | |
US20160364810A1 (en) | Hybrid classification system | |
US20220100967A1 (en) | Lifecycle management for customized natural language processing | |
JP2016194914A (ja) | 混合モデル選択の方法及び装置 | |
CN112420125A (zh) | 分子属性预测方法、装置、智能设备和终端 | |
CN116304341A (zh) | 基于用户网络大数据的欺诈判别方法及系统 | |
WO2020173270A1 (zh) | 用于分析数据的方法、设备和计算机存储介质 | |
JP2020135689A (ja) | モデル学習システム、意図解釈システム、モデル学習方法およびモデル学習用プログラム | |
KR20220066554A (ko) | Qa 모델을 이용하여 지식 그래프를 구축하는 방법, 장치 및 컴퓨터 프로그램 | |
CN110688368B (zh) | 一种构件行为模型挖掘方法与装置 | |
CN113282839B (zh) | 一种互联网数据推送处理方法及系统 | |
CN117743568B (zh) | 基于资源流量和置信度融合的内容生成方法和系统 | |
JP2021108095A (ja) | スピーチ理解における解析異常の情報を出力するための方法 | |
CN116257632A (zh) | 基于图对比学习的未知目标立场检测方法、装置 | |
CN117725231B (zh) | 基于语义证据提示和置信度的内容生成方法和系统 | |
CN114898184A (zh) | 模型训练方法、数据处理方法、装置及电子设备 | |
CN114186646A (zh) | 区块链异常交易识别方法及装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |