CN116136866A - 基于知识图谱的中文新闻摘要事实性知识校正方法和装置 - Google Patents
基于知识图谱的中文新闻摘要事实性知识校正方法和装置 Download PDFInfo
- Publication number
- CN116136866A CN116136866A CN202310420194.XA CN202310420194A CN116136866A CN 116136866 A CN116136866 A CN 116136866A CN 202310420194 A CN202310420194 A CN 202310420194A CN 116136866 A CN116136866 A CN 116136866A
- Authority
- CN
- China
- Prior art keywords
- internal
- fact
- abstract
- external
- correction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012937 correction Methods 0.000 title claims abstract description 217
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000000605 extraction Methods 0.000 claims abstract description 22
- 230000006870 function Effects 0.000 claims description 40
- 238000011156 evaluation Methods 0.000 claims description 25
- 238000005516 engineering process Methods 0.000 claims description 22
- 230000002776 aggregation Effects 0.000 claims description 20
- 238000004220 aggregation Methods 0.000 claims description 20
- 238000012549 training Methods 0.000 claims description 12
- 239000000463 material Substances 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000007689 inspection Methods 0.000 description 2
- 102100033814 Alanine aminotransferase 2 Human genes 0.000 description 1
- 101710096000 Alanine aminotransferase 2 Proteins 0.000 description 1
- 238000009411 base construction Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003623 enhancer Substances 0.000 description 1
- 238000004898 kneading Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种基于知识图谱的中文新闻摘要事实性知识校正方法和装置。所述方法包括:利用开放信息提取工具和知识图谱对目标中文新闻文本进行知识抽取构建内部事实知识库,根据内部事实知识库对摘要生成模型生成的初步摘要进行内部事实性知识校正,得到内部校正摘要;结合外部中文百科知识库中对内部校正摘要进行外部事实性知识校正,得到外部校正摘要作为最终摘要。采用本方法能够对各种中文新闻摘要生成模型的摘要输出进行事实性知识的判别和校正,得到忠于新闻文本中表达的事实性知识和常识信息的最终摘要,突破特定模型系统编码方式的限制,节省人力物力,为网络信息中的虚假标题判别等实际应用场景提供良好的技术支撑。
Description
技术领域
本申请涉及自然语言处理技术领域,特别是涉及一种基于知识图谱的中文新闻摘要事实性知识校正方法和装置。
背景技术
新闻摘要生成技术指的是读取新闻文本之后生成较为简短的能够概括新闻主要内容的文本的技术,生成的摘要可以作为标题帮助人们理解新闻的关键事实信息。新闻摘要生成技术主要包括抽取式摘要生成和生成式摘要生成两种,抽取式技术主要基于统计的思想,从现有的新闻文本中抽取统计模型识别的关键词、句来构成较为简短的摘要,而生成式技术基于模型对于新闻文本的学习理解来实现摘要的生成。对于中文新闻文本摘要的研究,抽取式技术主要包括词频统计方法、LDA模型(Latent DirichletAllocation,潜在狄利克雷分布)、Lexrank(无监督图模型)、BERTSUM以及基于BERT的抽取式摘要技术,生成式技术主要包括基于图模型的方法、Pointer-generator(指针生成器网络)、ABS(基于注意的摘要生成)、CopyNet(翻译模型)、BERT-PGN以及GPT-2、T5等生成式摘要技术。
面向中文新闻文本的摘要生成技术能够在进行大量新闻文本数据训练之后生成对应中文新闻文本的简短摘要,在识别虚假新闻信息以及提高新闻阅读关注的效率等问题上都有较好的应用价值,但新闻是一种特殊的关注于事实性知识的文本,与时效性一样,事实准确同样是新闻摘要价值的体现,不具有事实准确性的新闻文本会带来很多问题,现有研究表明,虽然经过了多年的发展,文本摘要技术取得了长足的进步,但是在很大程度上仍然存在事实性信息错误的问题,它指的是面向中文新闻文本的摘要有时会出现歪曲和捏造文章事实的现象,而且目前对于摘要生成的效果判别标准仍然是针对于子序列重合率的指标,难以判断中文文本摘要生成技术对于事实性知识的实现效果,并且现有的事实性知识增强器大多将事实性知识进行编码融入进摘要的生成中去,这种方式难以保证模型对于事实性信息的充分利用,而且也存在只能针对特定模型使用的限制,难以应对不断发展变化的中文摘要生成模型。
发明内容
基于此,有必要针对上述技术问题,提供一种能够对新闻文本中的事实性知识进行准确提取,并且能与各种面向中文新闻文本的摘要系统进行结合的一种基于知识图谱的中文新闻摘要事实性知识校正方法和装置。
一种基于知识图谱的中文新闻摘要事实性知识校正方法,所述方法包括:
获取目标中文新闻文本,将目标中文新闻文本输入中文新闻摘要生成模型进行摘要生成,得到初步摘要;
对目标中文新闻文本进行开放信息抽取,获取目标中文新闻文本中的内部事实三元组,根据内部事实三元组构建内部事实知识图谱,并根据内部事实知识图谱构建得到内部事实知识库,根据内部事实知识库对初步摘要进行内部事实性知识校正,得到内部校正摘要;
提取外部中文百科知识库中的外部事实知识图谱,查询外部事实知识图谱中的外部事实三元组,根据外部事实三元组对应的目标事实性知识对内部校正摘要进行外部事实性知识校正,得到外部校正摘要作为最终摘要。
在其中一个实施例中,获取目标中文新闻文本,将目标中文新闻文本输入中文新闻摘要生成模型进行摘要生成,得到初步摘要,包括:
获取目标中文新闻文本,将目标中文新闻文本输入抽取式中文新闻摘要生成模型或生成式中文新闻摘要生成模型进行摘要生成,得到概括目标中文新闻文本内容的初步摘要。
在其中一个实施例中,对目标中文新闻文本进行开放信息抽取,获取目标中文新闻文本中的内部事实三元组,根据内部事实三元组构建内部事实知识图谱,并根据内部事实知识图谱构建得到内部事实知识库,包括:
根据UIE-micro技术对目标中文新闻文本进行开放信息抽取,获取目标中文新闻文本中的内部事实三元组;其中,内部事实三元组包括内部事实主体、内部事实关系和内部事实客体;
根据内部事实三元组构建内部事实知识图谱,根据内部事实知识图谱构建得到内部事实知识库,并根据资源描述框架对内部事实知识库中的内部事实性知识进行存储。
在其中一个实施例中,根据内部事实知识库对初步摘要进行内部事实性知识校正,得到内部校正摘要,包括:
根据UIE-micro技术对初步摘要进行知识提取,得到初步摘要三元组;其中,初步摘要三元组包括初步摘要主体、初步摘要关系和初步摘要客体;
获取内部事实性知识库中的内部事实三元组,根据初步摘要三元组与内部事实三元组构建内部三元组集合,其中,内部三元组集合包括内部主体集合、内部关系集合和内部客体集合;
对内部主体集合、内部关系集合和内部客体集合分别进行主体相似度判断、关系相似度判断和客体相似度判断,根据相似度判断结果对初步摘要进行内部事实性知识校正,得到内部校正摘要。
在其中一个实施例中,对内部主体集合、内部关系集合和内部客体集合分别进行主体相似度判断、关系相似度判断和客体相似度判断,根据相似度判断结果对初步摘要进行内部事实性知识校正,得到内部校正摘要,包括:
根据内部主体集合中任意一组内部主体对的属性集合计算内部主体对的杰卡德距离,根据内部主体对的杰卡德距离构建的二分类函数对内部主体对中的初步摘要主体和内部事实主体进行主体相似度判断,当判断匹配时,不进行校正,保留初步摘要主体;否则,根据内部事实主体对初步摘要主体进行文本校正,得到内部校正主体;
根据预训练语言模型提取内部关系集合中任意一组内部关系对的文本特征并进行编码,根据特征编码计算得到相似度评价指标,根据相似度评价指标构建的相似判断函数对内部关系对中的初步摘要关系和内部事实关系进行关系相似度判断,当判断匹配时,不进行校正,保留初步摘要关系;否则,根据内部事实关系对初步摘要关系进行文本校正,得到内部校正关系;
根据内部客体集合中任意一组内部客体对的属性集合计算内部客体对的杰卡德距离,根据内部客体对的杰卡德距离构建的二分类函数对内部客体对中的初步摘要客体和内部事实客体进行客体相似度判断,当判断匹配时,不进行校正,保留初步摘要客体;否则,根据内部事实客体对初步摘要客体进行文本校正,得到内部校正客体;
根据内部主体集合、内部关系集合和内部客体集合的内部校正结果进行集合,得到内部校正摘要。
在其中一个实施例中,根据内部主体集合中任意一组内部主体对的属性集合计算内部主体对的杰卡德距离,根据内部主体对的杰卡德距离构建的二分类函数对内部主体对中的初步摘要主体和内部事实主体进行主体相似度判断,包括:
根据初步摘要主体属性和内部事实主体属性计算内部主体对的杰卡德距离,表示为
在其中一个实施例中,根据预训练语言模型提取内部关系集合中任意一组内部关系对的文本特征并进行编码,根据特征编码计算得到相似度评价指标,根据相似度评价指标构建的相似判断函数对内部关系对中的初步摘要关系和内部事实关系进行关系相似度判断,包括:
其中,表示所述内部关系对中的内部事实关系,表示第个内部事实关系,表示所述内部关系对中的初步摘要关系,表示第b个初步摘要关系,表示所述召回率特征编码,表示所述精确度特征编码,BERT表示所述预训练语言模型,T表示转置;
根据召回率特征编码和精确度特征编码进行计算,得到相似度评价指标,表示为
在其中一个实施例中,根据外部事实三元组对应的目标事实性知识对内部校正摘要进行外部事实性知识校正,得到外部校正摘要作为最终摘要,包括:
根据UIE-micro技术对内部校正摘要进行知识提取,得到内部校正摘要三元组;其中,内部校正摘要三元组包括内部校正摘要主体、内部校正摘要关系和内部校正摘要客体;
根据外部事实三元组与内部校正摘要三元组构建外部三元组集合;其中,外部三元组集合包括外部主体集合、外部关系集合和外部客体集合,外部事实三元组包括外部事实主体、外部事实关系和外部事实客体;
对外部主体集合、外部关系集合和外部客体集合分别进行主体相似度判断、关系相似度判断和客体相似度判断,根据相似度判断结果对内部校正摘要进行外部事实性知识校正,得到外部校正摘要作为最终摘要。
在其中一个实施例中,对外部主体集合、外部关系集合和外部客体集合分别进行主体相似度判断、关系相似度判断和客体相似度判断,根据相似度判断结果对内部校正摘要进行外部事实性知识校正,得到外部校正摘要作为最终摘要,包括:
根据外部主体集合中任意一组外部主体对的属性集合计算外部主体对的杰卡德距离,根据外部主体对的杰卡德距离构建的二分类函数对外部主体对中的内部校正摘要主体和外部事实主体进行主体相似度判断,当判断匹配时,不进行校正,保留内部校正摘要主体;否则,根据外部事实主体对内部校正摘要主体进行文本校正,得到外部校正主体;
根据预训练语言模型提取外部关系集合中任意一组外部关系对的文本特征并进行编码,根据特征编码计算得到相似度评价指标,根据相似度评价指标构建的相似判断函数对外部关系对中的内部校正摘要关系与外部事实关系进行关系相似度判断,当判断匹配时,不进行校正,保留内部校正摘要关系;否则,根据外部事实关系对内部校正摘要关系进行文本校正,得到外部校正关系;
根据外部客体集合中任意一组外部客体对的属性集合计算外部客体对的杰卡德距离,根据外部客体对的杰卡德距离构建的二分类函数对外部客体对中的内部校正摘要客体和外部事实客体进行客体相似度判断,当判断匹配时,不进行校正,保留内部校正摘要客体;否则,根据外部事实客体对内部校正摘要客体进行文本校正,得到外部校正客体;
根据外部主体集合、外部关系集合和外部客体集合的外部校正结果进行集合,得到外部校正摘要作为最终摘要。
一种基于知识图谱的中文新闻摘要事实性知识校正装置,所述装置包括:
摘要生成模块,用于获取目标中文新闻文本,将目标中文新闻文本输入中文新闻摘要生成模型进行摘要生成,得到初步摘要;
内部校正模块,用于对目标中文新闻文本进行开放信息抽取,获取目标中文新闻文本中的内部事实三元组,根据内部事实三元组构建内部事实知识图谱,并根据内部事实知识图谱构建得到内部事实知识库,根据内部事实知识库对初步摘要进行内部事实性知识校正,得到内部校正摘要;
外部校正模块,用于提取外部中文百科知识库中的外部事实知识图谱,查询外部事实知识图谱中的外部事实三元组,根据外部事实三元组对应的目标事实性知识对内部校正摘要进行外部事实性知识校正,得到外部校正摘要作为最终摘要。
上述一种基于知识图谱的中文新闻摘要事实性知识校正方法和装置,利用开放信息提取工具和知识图谱对目标中文新闻文本进行知识抽取构建内部事实知识库,根据内部事实知识库对摘要生成模型生成的初步摘要进行内部事实性知识校正,得到内部校正摘要;结合外部中文百科知识库中的目标事实性知识对内部校正摘要进行外部事实性知识校正,得到外部校正摘要作为最终摘要。采用本方法能够以知识图谱的形式来提取、保存和调用事实性知识,形成针对目标中文新闻文本的内部事实性知识库以及结合外部的百科常识类的开源知识库,从而可以对各种面向中文新闻文本的摘要生成模型的摘要输出进行事实性知识的判别和校正,得到忠于新闻文本中表达的事实性知识和常识信息的最终摘要,突破特定模型系统编码方式的限制,节省人力物力,也为网络信息中的虚假标题判别等实际应用场景提供良好的技术支撑。
附图说明
图1为一个实施例中一种基于知识图谱的中文新闻摘要事实性知识校正方法的流程示意图;
图2为一个实施例中一种基于知识图谱的中文新闻摘要事实性知识校正方法的具体步骤流程图;
图3为一个实施例中构建内部事实知识库的流程示意图;
图4为一个实施例中调用外部中文百科知识库的流程示意图;
图5为一个实施例中事实性知识校正的流程示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种基于知识图谱的中文新闻摘要事实性知识校正方法,包括以下步骤:
步骤102,获取目标中文新闻文本,将目标中文新闻文本输入中文新闻摘要生成模型进行摘要生成,得到初步摘要。
具体地,将目标中文新闻文本输入抽取式中文新闻摘要生成模型或生成式中文新闻摘要生成模型进行摘要生成,得到概括目标中文新闻文本内容的初步摘要。
可以理解,本发明在进行摘要生成时并不限定于某一种摘要生成模型,而是能够针对不同的中文新闻摘要生成模型进行摘要事实性知识校正,从而可以应对不断发展变化的中文新闻摘要生成模型,具有良好的普适性。
步骤104,对目标中文新闻文本进行开放信息抽取,获取目标中文新闻文本中的内部事实三元组,根据内部事实三元组构建内部事实知识图谱,并根据内部事实知识图谱构建得到内部事实知识库,根据内部事实知识库对初步摘要进行内部事实性知识校正,得到内部校正摘要。
可以理解,开放知识抽取可以从纯文本信息中提取结构化的三元组,抽取的每个三元组包含主体、关系和客体,每个都代表着一段文本的主要信息;知识图谱是结构化的语义知识库,可以对文本中的事实性信息进行准确提取和存储。根据开放信息抽取和知识图谱构建内部事实知识库,通过内部知识库可以使用从新闻文本中提取的事实性知识来判断、校正摘要生成模型中生成的摘要文本,以提高摘要文本中事实性知识的准确度。
步骤106,提取外部中文百科知识库中的外部事实知识图谱,查询外部事实知识图谱中的外部事实三元组,根据外部事实三元组对应的目标事实性知识对内部校正摘要进行外部事实性知识校正,得到外部校正摘要作为最终摘要。
可以理解,本发明采用的是目前最大的开源中文百科知识库Ownthink_v2,涵盖各个领域共约1.4亿条知识,其中的数据是(实体、属性、值),(实体、关系、实体)混合的知识图谱的形式进行组织,这种组织形式便于查询和调用,可以作为外部知识库为内部校正摘要提供外部事实性知识校正,外部事实性知识校正主要是对摘要中可能出现的违背常识的表达进行判别和校正。例如,“2022诺贝尔物理学奖获得者之一是阿兰•阿斯佩”,对于这一条信息,外部知识库判断的更多的是表达阿兰•阿斯佩出生于法国以及研究领域等常识性知识,所以,外部知识库的校正与内部知识库校正的计算方式类似,用于校正与常识信息不符合的知识。
上述一种基于知识图谱的中文新闻摘要事实性知识校正方法的具体步骤如图2所示,利用开放信息提取工具和知识图谱对目标中文新闻文本进行知识抽取构建内部事实知识库,根据内部事实知识库对摘要生成模型生成的初步摘要进行内部事实性知识校正,得到内部校正摘要;结合外部中文百科知识库中的目标事实性知识对内部校正摘要进行外部事实性知识校正,得到外部校正摘要作为最终摘要。采用本方法能够以知识图谱的形式来提取、保存和调用事实性知识,形成针对目标中文新闻文本的内部事实性知识库以及结合外部的百科常识类的开源知识库,从而可以对各种面向中文新闻文本的摘要生成模型的摘要输出进行事实性知识的判别和校正,得到忠于新闻文本中表达的事实性知识和常识信息的最终摘要,突破特定模型系统编码方式的限制,节省人力物力,也为网络信息中的虚假标题判别等实际应用场景提供良好的技术支撑。
在其中一个实施例中,如图3所示,对目标中文新闻文本进行开放信息抽取,获取目标中文新闻文本中的内部事实三元组,根据内部事实三元组构建内部事实知识图谱,并根据内部事实知识图谱构建得到内部事实知识库,包括:
根据UIE-micro技术对目标中文新闻文本进行开放信息抽取,获取目标中文新闻文本中的内部事实三元组;其中,内部事实三元组包括内部事实主体、内部事实关系和内部事实客体;
根据内部事实三元组构建内部事实知识图谱,根据内部事实知识图谱构建得到内部事实知识库,并根据资源描述框架对内部事实知识库中的内部事实性知识进行存储。
可以理解,UIE-micro是一种通用信息抽取技术,在低资源少样本的情况下也能够较好地完成知识抽取任务,实现在没有预定指定关系模式的情况下从纯文本信息中提取结构化的关系三元组这种开放信息抽取任务,该工具可以实现零样本的中文开放信息抽取,而且可以应用在多种场景的信息抽取,能够满足新闻文本涵盖领域多样的需要。如图3和图4所示,UIE-micro技术被用在内部事实知识库构建和外部中文百科知识库调用中,从两种知识库中抽取的每个三元组包含主体S、关系R和客体Q,每个都代表着一段文本的主要信息。例如:“纠缠量子态获得2022诺贝尔物理学奖。”可以创建出三元组:(纠缠量子态;获得;2022诺贝尔物理学奖),对应的开放域关系为“获得”。在提取出内部事实三元组后构建内部事实知识图谱,并根据内部事实知识图谱构建得到内部事实知识库,其中,以资源描述框架(RDF, Resource Description Framework,)对内部事实知识库中的内部事实性知识进行存储,便于对内部事实性知识的调用。在提取中外部事实知识图谱后可以查询外部事实知识图谱中的外部事实三元组,根据外部事实三元组对应的目标事实性知识对内部校正摘要进行外部事实性知识校正。
在其中一个实施例中,事实性知识校正的步骤如图5所示,其中,根据内部事实知识库对初步摘要进行内部事实性知识校正,得到内部校正摘要,包括:
对内部主体集合、内部关系集合和内部客体集合分别进行主体相似度判断、关系相似度判断和客体相似度判断,根据相似度判断结果对初步摘要进行内部事实性知识校正,得到内部校正摘要。
在其中一个实施例中,对内部主体集合、内部关系集合和内部客体集合分别进行主体相似度判断、关系相似度判断和客体相似度判断,根据相似度判断结果对初步摘要进行内部事实性知识校正,得到内部校正摘要,包括:
根据内部主体集合中任意一组内部主体对的属性集合计算内部主体对的杰卡德距离,根据内部主体对的杰卡德距离构建的二分类函数对内部主体对中的初步摘要主体和内部事实主体进行主体相似度判断,当判断匹配时,不进行校正,保留初步摘要主体;否则,根据内部事实主体对初步摘要主体进行文本校正,得到内部校正主体;
根据预训练语言模型提取内部关系集合中任意一组内部关系对的文本特征并进行编码,根据特征编码计算得到相似度评价指标,根据相似度评价指标构建的相似判断函数对内部关系对中的初步摘要关系和内部事实关系进行关系相似度判断,当判断匹配时,不进行校正,保留初步摘要关系;否则,根据内部事实关系对初步摘要关系进行文本校正,得到内部校正关系;
根据内部客体集合中任意一组内部客体对的属性集合计算内部客体对的杰卡德距离,根据内部客体对的杰卡德距离构建的二分类函数对内部客体对中的初步摘要客体和内部事实客体进行客体相似度判断,当判断匹配时,不进行校正,保留初步摘要客体;否则,根据内部事实客体对初步摘要客体进行文本校正,得到内部校正客体;
根据内部主体集合、内部关系集合和内部客体集合的内部校正结果进行集合,得到内部校正摘要。
在其中一个实施例中,根据内部主体集合中任意一组内部主体对的属性集合计算内部主体对的杰卡德距离,根据内部主体对的杰卡德距离构建的二分类函数对内部主体对中的初步摘要主体和内部事实主体进行主体相似度判断,包括:
根据初步摘要主体属性和内部事实主体属性计算内部主体对的杰卡德距离,表示为
根据内部主体对的杰卡德距离构建的二分类函数对初步摘要主体和内部事实主体进行主体相似度判断,其中,二分类函数表示为,表示初步摘要主体与内部事实主体匹配,不进行校正,保留初步摘要主体;表示初步摘要主体与内部事实主体不匹配,将初步摘要主体替换为内部事实主体,从而保证目标中文新闻文本中的实体出现在摘要中。
在其中一个实施例中,根据预训练语言模型提取内部关系集合中任意一组内部关系对的文本特征并进行编码,根据特征编码计算得到相似度评价指标,根据相似度评价指标构建的相似判断函数对内部关系对中的初步摘要关系和内部事实关系进行关系相似度判断,包括:
其中,表示所述内部关系对中的内部事实关系,表示第个内部事实关系,表示所述内部关系对中的初步摘要关系,表示第b个初步摘要关系,表示所述召回率特征编码,表示所述精确度特征编码,BERT表示所述预训练语言模型,T表示转置;
根据召回率特征编码和精确度特征编码进行计算,得到相似度评价指标,表示为
根据相似度评价指标构建的相似判断函数对内部关系对中的初步摘要关系和内部事实关系进行关系相似度判断,其中,相似判断函数表示为,表示初步摘要关系与内部事实关系匹配,不进行校正,保留初步摘要关系;表示初步摘要关系与内部事实关系不匹配,将初步摘要关系替换为内部事实关系。
可以理解,在进行关系相似度判断时,主要是借助于预训练语言模型BERT的BERT得分并基于上下文嵌入对句子的描述来计算句子之间的余弦相似度,对于需要判断的关系对,也就是两个需要对比的关系短文本,分别提取两个短文本的特征进行特征(Token)级别的编码,进而根据特征编码的余弦相似度计算相似度评价指标F1的值,之后计算最终的相似判断函数,并根据相似判断函数来表示相似程度是否通过检验,如果为1,则表示关系相似通过检验,文本不需要校正,反之需要将原来的摘要文本进行校正修改,根据知识库中的三元组信息进行替换补充。
在其中一个实施例中,由图5可知,外部事实性知识校正的步骤与内部事实性知识校正一致,其中,根据外部事实三元组对应的目标事实性知识对内部校正摘要进行外部事实性知识校正,得到外部校正摘要作为最终摘要,包括:
根据UIE-micro技术对内部校正摘要进行知识提取,得到内部校正摘要三元组;其中,内部校正摘要三元组包括内部校正摘要主体、内部校正摘要关系和内部校正摘要客体;
根据外部事实三元组与内部校正摘要三元组构建外部三元组集合;其中,外部三元组集合包括外部主体集合、外部关系集合和外部客体集合,外部事实三元组包括外部事实主体、外部事实关系和外部事实客体;
对外部主体集合、外部关系集合和外部客体集合分别进行主体相似度判断、关系相似度判断和客体相似度判断,根据相似度判断结果对内部校正摘要进行外部事实性知识校正,得到外部校正摘要作为最终摘要。
在其中一个实施例中,对外部主体集合、外部关系集合和外部客体集合分别进行主体相似度判断、关系相似度判断和客体相似度判断,根据相似度判断结果对内部校正摘要进行外部事实性知识校正,得到外部校正摘要作为最终摘要,包括:
根据外部主体集合中任意一组外部主体对的属性集合计算外部主体对的杰卡德距离,根据外部主体对的杰卡德距离构建的二分类函数对外部主体对中的内部校正摘要主体和外部事实主体进行主体相似度判断,当判断匹配时,不进行校正,保留内部校正摘要主体;否则,根据外部事实主体对内部校正摘要主体进行文本校正,得到外部校正主体;
根据预训练语言模型提取外部关系集合中任意一组外部关系对的文本特征并进行编码,根据特征编码计算得到相似度评价指标,根据相似度评价指标构建的相似判断函数对外部关系对中的内部校正摘要关系与外部事实关系进行关系相似度判断,当判断匹配时,不进行校正,保留内部校正摘要关系;否则,根据外部事实关系对内部校正摘要关系进行文本校正,得到外部校正关系;
根据外部客体集合中任意一组外部客体对的属性集合计算外部客体对的杰卡德距离,根据外部客体对的杰卡德距离构建的二分类函数对外部客体对中的内部校正摘要客体和外部事实客体进行客体相似度判断,当判断匹配时,不进行校正,保留内部校正摘要客体;否则,根据外部事实客体对内部校正摘要客体进行文本校正,得到外部校正客体;
根据外部主体集合、外部关系集合和外部客体集合的外部校正结果进行集合,得到外部校正摘要作为最终摘要。
应该理解的是,虽然图1至图5的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1至图5中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,提供了一种基于知识图谱的中文新闻摘要事实性知识校正装装置,包括:摘要生成模块、内部校正模块和外部校正模块,其中:
摘要生成模块,用于获取目标中文新闻文本,将目标中文新闻文本输入中文新闻摘要生成模型进行摘要生成,得到初步摘要;
内部校正模块,用于对目标中文新闻文本进行开放信息抽取,获取目标中文新闻文本中的内部事实三元组,根据内部事实三元组构建内部事实知识图谱,并根据内部事实知识图谱构建得到内部事实知识库,根据内部事实知识库对初步摘要进行内部事实性知识校正,得到内部校正摘要;
外部校正模块,用于提取外部中文百科知识库中的外部事实知识图谱,查询外部事实知识图谱中的外部事实三元组,根据外部事实三元组对应的目标事实性知识对内部校正摘要进行外部事实性知识校正,得到外部校正摘要作为最终摘要。
关于基于知识图谱的中文新闻摘要事实性知识校正装置的具体限定可以参见上文中对于基于知识图谱的中文新闻摘要事实性知识校正方法的限定,在此不再赘述。上述基于知识图谱的中文新闻摘要事实性知识校正装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (10)
1.一种基于知识图谱的中文新闻摘要事实性知识校正方法,其特征在于,所述方法包括:
获取目标中文新闻文本,将所述目标中文新闻文本输入中文新闻摘要生成模型进行摘要生成,得到初步摘要;
对所述目标中文新闻文本进行开放信息抽取,获取所述目标中文新闻文本中的内部事实三元组,根据所述内部事实三元组构建内部事实知识图谱,并根据所述内部事实知识图谱构建得到内部事实知识库,根据所述内部事实知识库对所述初步摘要进行内部事实性知识校正,得到内部校正摘要;
提取外部中文百科知识库中的外部事实知识图谱,查询所述外部事实知识图谱中的外部事实三元组,根据所述外部事实三元组对应的目标事实性知识对所述内部校正摘要进行外部事实性知识校正,得到外部校正摘要作为最终摘要。
2.根据权利要求1所述的方法,其特征在于,获取目标中文新闻文本,将所述目标中文新闻文本输入中文新闻摘要生成模型进行摘要生成,得到初步摘要,包括:
获取目标中文新闻文本,将所述目标中文新闻文本输入抽取式中文新闻摘要生成模型或生成式中文新闻摘要生成模型进行摘要生成,得到概括所述目标中文新闻文本内容的初步摘要。
3.根据权利要求1所述的方法,其特征在于,对所述目标中文新闻文本进行开放信息抽取,获取所述目标中文新闻文本中的内部事实三元组,根据所述内部事实三元组构建内部事实知识图谱,并根据所述内部事实知识图谱构建得到内部事实知识库,包括:
根据UIE-micro技术对所述目标中文新闻文本进行开放信息抽取,获取所述目标中文新闻文本中的内部事实三元组;其中,所述内部事实三元组包括内部事实主体、内部事实关系和内部事实客体;
根据所述内部事实三元组构建内部事实知识图谱,根据所述内部事实知识图谱构建得到内部事实知识库,并根据资源描述框架对所述内部事实知识库中的内部事实性知识进行存储。
4.根据权利要求1所述的方法,其特征在于,根据所述内部事实知识库对所述初步摘要进行内部事实性知识校正,得到内部校正摘要,包括:
根据UIE-micro技术对所述初步摘要进行知识提取,得到初步摘要三元组;其中,所述初步摘要三元组包括初步摘要主体、初步摘要关系和初步摘要客体;
获取所述内部事实性知识库中的内部事实三元组,根据所述初步摘要三元组与所述内部事实三元组构建内部三元组集合,其中,所述内部三元组集合包括内部主体集合、内部关系集合和内部客体集合;
对所述内部主体集合、内部关系集合和内部客体集合分别进行主体相似度判断、关系相似度判断和客体相似度判断,根据相似度判断结果对所述初步摘要进行内部事实性知识校正,得到内部校正摘要。
5.根据权利要求4所述的方法,其特征在于,对所述内部主体集合、内部关系集合和内部客体集合分别进行主体相似度判断、关系相似度判断和客体相似度判断,根据相似度判断结果对所述初步摘要进行内部事实性知识校正,得到内部校正摘要,包括:
根据所述内部主体集合中任意一组内部主体对的属性集合计算所述内部主体对的杰卡德距离,根据所述内部主体对的杰卡德距离构建的二分类函数对所述内部主体对中的初步摘要主体和内部事实主体进行主体相似度判断,当判断匹配时,不进行校正,保留所述初步摘要主体;否则,根据所述内部事实主体对所述初步摘要主体进行文本校正,得到内部校正主体;
根据预训练语言模型提取所述内部关系集合中任意一组内部关系对的文本特征并进行编码,根据特征编码计算得到相似度评价指标,根据所述相似度评价指标构建的相似判断函数对所述内部关系对中的初步摘要关系和内部事实关系进行关系相似度判断,当判断匹配时,不进行校正,保留所述初步摘要关系;否则,根据所述内部事实关系对所述初步摘要关系进行文本校正,得到内部校正关系;
根据所述内部客体集合中任意一组内部客体对的属性集合计算所述内部客体对的杰卡德距离,根据所述内部客体对的杰卡德距离构建的二分类函数对所述内部客体对中的初步摘要客体和内部事实客体进行客体相似度判断,当判断匹配时,不进行校正,保留所述初步摘要客体;否则,根据所述内部事实客体对所述初步摘要客体进行文本校正,得到内部校正客体;
根据所述内部主体集合、内部关系集合和内部客体集合的内部校正结果进行集合,得到所述内部校正摘要。
6.根据权利要求5所述的方法,其特征在于,根据所述内部主体集合中任意一组内部主体对的属性集合计算所述内部主体对的杰卡德距离,根据所述内部主体对的杰卡德距离构建的二分类函数对所述内部主体对中的初步摘要主体和内部事实主体进行主体相似度判断,包括:
根据所述初步摘要主体属性和内部事实主体属性计算所述内部主体对的杰卡德距离,表示为
7.根据权利要求5所述的方法,其特征在于,根据预训练语言模型提取所述内部关系集合中任意一组内部关系对的文本特征并进行编码,根据特征编码计算得到相似度评价指标,根据所述相似度评价指标构建的相似判断函数对所述内部关系对中的初步摘要关系和内部事实关系进行关系相似度判断,包括:
其中,表示所述内部关系对中的内部事实关系,表示第个内部事实关系,表示所述内部关系对中的初步摘要关系,表示第b个初步摘要关系,表示所述召回率特征编码,表示所述精确度特征编码,BERT表示所述预训练语言模型,T表示转置;
根据所述召回率特征编码和精确度特征编码进行计算,得到相似度评价指标,表示为
8.根据权利要求1所述的方法,其特征在于,根据所述外部事实三元组对应的目标事实性知识对所述内部校正摘要进行外部事实性知识校正,得到外部校正摘要作为最终摘要,包括:
根据UIE-micro技术对所述内部校正摘要进行知识提取,得到内部校正摘要三元组;其中,所述内部校正摘要三元组包括内部校正摘要主体、内部校正摘要关系和内部校正摘要客体;
根据所述外部事实三元组与所述内部校正摘要三元组构建外部三元组集合;其中,所述外部三元组集合包括外部主体集合、外部关系集合和外部客体集合,所述外部事实三元组包括外部事实主体、外部事实关系和外部事实客体;
对所述外部主体集合、外部关系集合和外部客体集合分别进行主体相似度判断、关系相似度判断和客体相似度判断,根据相似度判断结果对所述内部校正摘要进行外部事实性知识校正,得到外部校正摘要作为最终摘要。
9.根据权利要求8所述的方法,其特征在于,对所述外部主体集合、外部关系集合和外部客体集合分别进行主体相似度判断、关系相似度判断和客体相似度判断,根据相似度判断结果对所述内部校正摘要进行外部事实性知识校正,得到外部校正摘要作为最终摘要,包括:
根据所述外部主体集合中任意一组外部主体对的属性集合计算所述外部主体对的杰卡德距离,根据所述外部主体对的杰卡德距离构建的二分类函数对所述外部主体对中的内部校正摘要主体和外部事实主体进行主体相似度判断,当判断匹配时,不进行校正,保留所述内部校正摘要主体;否则,根据所述外部事实主体对所述内部校正摘要主体进行文本校正,得到外部校正主体;
根据预训练语言模型提取所述外部关系集合中任意一组外部关系对的文本特征并进行编码,根据特征编码计算得到相似度评价指标,根据所述相似度评价指标构建的相似判断函数对所述外部关系对中的内部校正摘要关系与外部事实关系进行关系相似度判断,当判断匹配时,不进行校正,保留所述内部校正摘要关系;否则,根据所述外部事实关系对所述内部校正摘要关系进行文本校正,得到外部校正关系;
根据所述外部客体集合中任意一组外部客体对的属性集合计算所述外部客体对的杰卡德距离,根据所述外部客体对的杰卡德距离构建的二分类函数对所述外部客体对中的内部校正摘要客体和外部事实客体进行客体相似度判断,当判断匹配时,不进行校正,保留所述内部校正摘要客体;否则,根据所述外部事实客体对所述内部校正摘要客体进行文本校正,得到外部校正客体;
根据所述外部主体集合、外部关系集合和外部客体集合的外部校正结果进行集合,得到所述外部校正摘要作为最终摘要。
10.一种基于知识图谱的中文新闻摘要事实性知识校正装置,其特征在于,所述装置包括:
摘要生成模块,用于获取目标中文新闻文本,将所述目标中文新闻文本输入中文新闻摘要生成模型进行摘要生成,得到初步摘要;
内部校正模块,用于对所述目标中文新闻文本进行开放信息抽取,获取所述目标中文新闻文本中的内部事实三元组,根据所述内部事实三元组构建内部事实知识图谱,并根据所述内部事实知识图谱构建得到内部事实知识库,根据所述内部事实知识库对所述初步摘要进行内部事实性知识校正,得到内部校正摘要;
外部校正模块,用于提取外部中文百科知识库中的外部事实知识图谱,查询所述外部事实知识图谱中的外部事实三元组,根据所述外部事实三元组对应的目标事实性知识对所述内部校正摘要进行外部事实性知识校正,得到外部校正摘要作为最终摘要。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310420194.XA CN116136866B (zh) | 2023-04-19 | 2023-04-19 | 基于知识图谱的中文新闻摘要事实性知识校正方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310420194.XA CN116136866B (zh) | 2023-04-19 | 2023-04-19 | 基于知识图谱的中文新闻摘要事实性知识校正方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116136866A true CN116136866A (zh) | 2023-05-19 |
CN116136866B CN116136866B (zh) | 2023-06-27 |
Family
ID=86326876
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310420194.XA Active CN116136866B (zh) | 2023-04-19 | 2023-04-19 | 基于知识图谱的中文新闻摘要事实性知识校正方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116136866B (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109145105A (zh) * | 2018-07-26 | 2019-01-04 | 福州大学 | 一种融合信息选择与语义关联的文本摘要模型生成算法 |
CN109614495A (zh) * | 2018-08-08 | 2019-04-12 | 广州初星科技有限公司 | 一种结合知识图谱和文本信息的相关公司挖掘方法 |
CN112073441A (zh) * | 2020-11-10 | 2020-12-11 | 中国人民解放军国防科技大学 | 基于本体推理的网络空间关键地形生成方法 |
CN112100324A (zh) * | 2020-08-28 | 2020-12-18 | 广州探迹科技有限公司 | 一种基于贪婪实体链接的知识图谱自动校验迭代的方法 |
CN112232074A (zh) * | 2020-11-13 | 2021-01-15 | 完美世界控股集团有限公司 | 实体关系抽取方法、装置、电子设备及存储介质 |
US11087219B1 (en) * | 2020-06-09 | 2021-08-10 | Legislate Technologies Limited | System and method for automated document generation |
US20210291363A1 (en) * | 2020-03-20 | 2021-09-23 | Tata Consultancy Services Limited | Knowledge partitioning for task execution by conversational tele-presence robots in a geographically separated environment |
CN113806563A (zh) * | 2021-11-18 | 2021-12-17 | 东南大学 | 面向多源异构建筑人文史料的建筑师知识图谱构建方法 |
WO2022072785A1 (en) * | 2020-10-01 | 2022-04-07 | University Of Massachusetts | A neural graph model for automated clinical assessment generation |
US20220121695A1 (en) * | 2020-01-08 | 2022-04-21 | Ping An Technology (Shenzhen) Co., Ltd. | Knowledge graph-based case retrieval method, device and equipment, and storage medium |
US20220147715A1 (en) * | 2019-05-16 | 2022-05-12 | Huawei Technologies Co., Ltd. | Text processing method, model training method, and apparatus |
US20220237368A1 (en) * | 2021-01-22 | 2022-07-28 | Bao Tran | Systems and methods for machine content generation |
US20220377035A1 (en) * | 2021-04-27 | 2022-11-24 | Ryan J. SHAPIRO | Kiwi chat |
-
2023
- 2023-04-19 CN CN202310420194.XA patent/CN116136866B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109145105A (zh) * | 2018-07-26 | 2019-01-04 | 福州大学 | 一种融合信息选择与语义关联的文本摘要模型生成算法 |
CN109614495A (zh) * | 2018-08-08 | 2019-04-12 | 广州初星科技有限公司 | 一种结合知识图谱和文本信息的相关公司挖掘方法 |
US20220147715A1 (en) * | 2019-05-16 | 2022-05-12 | Huawei Technologies Co., Ltd. | Text processing method, model training method, and apparatus |
US20220121695A1 (en) * | 2020-01-08 | 2022-04-21 | Ping An Technology (Shenzhen) Co., Ltd. | Knowledge graph-based case retrieval method, device and equipment, and storage medium |
US20210291363A1 (en) * | 2020-03-20 | 2021-09-23 | Tata Consultancy Services Limited | Knowledge partitioning for task execution by conversational tele-presence robots in a geographically separated environment |
US11087219B1 (en) * | 2020-06-09 | 2021-08-10 | Legislate Technologies Limited | System and method for automated document generation |
CN112100324A (zh) * | 2020-08-28 | 2020-12-18 | 广州探迹科技有限公司 | 一种基于贪婪实体链接的知识图谱自动校验迭代的方法 |
WO2022072785A1 (en) * | 2020-10-01 | 2022-04-07 | University Of Massachusetts | A neural graph model for automated clinical assessment generation |
CN112073441A (zh) * | 2020-11-10 | 2020-12-11 | 中国人民解放军国防科技大学 | 基于本体推理的网络空间关键地形生成方法 |
CN112232074A (zh) * | 2020-11-13 | 2021-01-15 | 完美世界控股集团有限公司 | 实体关系抽取方法、装置、电子设备及存储介质 |
US20220237368A1 (en) * | 2021-01-22 | 2022-07-28 | Bao Tran | Systems and methods for machine content generation |
US20220377035A1 (en) * | 2021-04-27 | 2022-11-24 | Ryan J. SHAPIRO | Kiwi chat |
CN113806563A (zh) * | 2021-11-18 | 2021-12-17 | 东南大学 | 面向多源异构建筑人文史料的建筑师知识图谱构建方法 |
Non-Patent Citations (1)
Title |
---|
YU ZHAO, SONGPING HUANG, DONGSHENG ZHOU, ZHAOYUN DING, FEI WANGAND AIXIN NIAN: ""CNsum: Automatic Summarization for Chinese News Text"", 《WIRELESS ALGORITHMS, SYSTEMS, AND APPLICATIONS》, pages 1 - 10 * |
Also Published As
Publication number | Publication date |
---|---|
CN116136866B (zh) | 2023-06-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11227118B2 (en) | Methods, devices, and systems for constructing intelligent knowledge base | |
WO2021093755A1 (zh) | 问题的匹配方法及装置、问题的回复方法及装置 | |
RU2628431C1 (ru) | Подбор параметров текстового классификатора на основе семантических признаков | |
CN107229668B (zh) | 一种基于关键词匹配的正文抽取方法 | |
CN112819023B (zh) | 样本集的获取方法、装置、计算机设备和存储介质 | |
CN109815336B (zh) | 一种文本聚合方法及系统 | |
CN110569353A (zh) | 一种基于注意力机制的Bi-LSTM的标签推荐方法 | |
CN110413787B (zh) | 文本聚类方法、装置、终端和存储介质 | |
CN111190997A (zh) | 一种使用神经网络和机器学习排序算法的问答系统实现方法 | |
CN106339495A (zh) | 一种基于层次增量聚类的话题检测方法及系统 | |
US20240143644A1 (en) | Event detection | |
CN111291177A (zh) | 一种信息处理方法、装置和计算机存储介质 | |
CN110019820B (zh) | 一种病历中主诉与现病史症状时间一致性检测方法 | |
WO2024109619A1 (zh) | 敏感数据识别方法、装置、设备及计算机存储介质 | |
CN113569050A (zh) | 基于深度学习的政务领域知识图谱自动化构建方法和装置 | |
CN113360582B (zh) | 基于bert模型融合多元实体信息的关系分类方法及系统 | |
CN115292520B (zh) | 一种面向多源移动应用知识图谱构建方法 | |
CN114722141A (zh) | 文本检测方法及装置 | |
CN111241410A (zh) | 一种行业新闻推荐方法及终端 | |
CN112131453A (zh) | 一种基于bert的网络不良短文本检测方法、装置及存储介质 | |
CN112132238A (zh) | 一种识别隐私数据的方法、装置、设备和可读介质 | |
CN116561264A (zh) | 一种基于知识图谱的智能问答系统的构建方法 | |
CN114491079A (zh) | 知识图谱构建和查询方法、装置、设备和介质 | |
CN118133221A (zh) | 一种隐私数据分类分级方法 | |
Iqbal et al. | ARCA23K: An audio dataset for investigating open-set label noise |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |