CN117688910A

CN117688910A - 一种新闻事件脉络抽取方法及系统

Info

Publication number: CN117688910A
Application number: CN202311521044.4A
Authority: CN
Inventors: 鲁瑞; 王海荣; 吕晓宝; 王元兵; 冯凯
Original assignee: Sugon Nanjing Research Institute Co ltd
Current assignee: Sugon Nanjing Research Institute Co ltd
Priority date: 2023-11-15
Filing date: 2023-11-15
Publication date: 2024-03-12

Abstract

本发明公开了一种新闻事件脉络抽取方法及系统，属于新闻文本处理技术领域。包括以下步骤：获取新闻事件的连续文本和发文时间，将所述连续文本拆分为离散文本；获取关键词，得到关键词列表；对新闻领域进行词性标定；基于所述关键词、以及词性，筛选核心词汇；对新闻事件进行合并，得到类簇；剔除类簇中相似的新闻事件；对类簇中新闻事件所对应的连续文本进行分割，得到分割句；计算每个分割句的重要性得分；筛选出n个分割句，并赋予该n个分割句新的定义为候选句；基于所述词性标签，筛选出代表实体；赋予包含有代表实体的候选句新的定义为描述句。本发明通过识别新闻文本中的关键信息，实现对大批量新闻文本的聚类以及事件脉络的抽取。

Description

一种新闻事件脉络抽取方法及系统

技术领域

本发明属于新闻文本处理技术领域，具体涉及一种新闻事件脉络抽取方法及系统。

背景技术

随着互联网的迅速普及和信息爆炸式增长，新闻信息的数量和多样性呈现出前所未有的规模。然而，当前传统的新闻事件抽取方法存在着一系列挑战与困难。首先，基于关键词匹配或规则模板的抽取方法往往容易受到文本表达方式的影响，无法很好地适应不同语言和文体的新闻报道，从而导致抽取结果的偏差。其次，随着信息时效性的要求越来越高，传统方法往往难以快速有效地捕获最新的事件动态，它们过于依赖先验的规则或模板，无法灵活适应不断变化的新闻语境。

此外，传统方法也常常忽视了词语之间的关联性和上下文的重要性，造成了对事件脉络的不准确提取。在大规模新闻信息处理中，忽略了词语在文本中的重要程度，容易导致事件的遗漏或者信息的冗余。此种情况在多样性较高的新闻内容中尤为显著，比如跨领域报道或跨文化传播的情况下。

综上所述，传统的新闻事件抽取方法面临着诸多困难与限制。它们往往无法适应不断变化的新闻语境，缺乏灵活性和自适应性。

发明内容

发明目的：为了解决上述问题，本发明提供了一种新闻事件脉络抽取方法及系统。

技术方案：一种新闻事件脉络抽取方法，包括以下步骤：

获取新闻事件的连续文本和发文时间，将所述连续文本拆分为离散文本；基于所述离散文本获取其中的关键词，得到关键词列表；

对新闻领域进行词性标定，得到词性标签；基于所述关键词、以及词性标签，筛选所述关键词列表中的核心词汇；其中，所述核心词汇至少包括：一级核心词、二级核心词；

对新闻事件进行合并，得到新闻集合，赋予新闻集合新的定义为类簇；利用相似判定条件，剔除类簇中相似的新闻事件；

对类簇中新闻事件所对应的连续文本进行分割，得到分割句；计算每个分割句的重要性得分；按照重要性得分降序的优先级顺序，筛选出n个分割句，并赋予该n个分割句新的定义为候选句；

基于所述词性标签，对类簇中新闻事件所对应的离散文本的词性进行统计并筛选出代表实体；赋予包含有代表实体的候选句新的定义为描述句。

进一步地，剔除类簇中相似的新闻事件，包括以下步骤：

将类簇中的新闻事件按照发文时间顺序进行排列，生成序列池；对所述序列池中的任意两个新闻事件进行判断，得到判断结果：若两个新闻事件所对应的核心词汇满足相似判定条件，则剔除其中一个新闻事件；反之，则保留两个新闻事件；

其中，所述相似判定条件为：两个新闻事件所对应的一级核心词完全一致，或一级核心词存在交叉且二级核心词重复数量大于阈值。

进一步地，所述关键词列表的获取包括以下步骤：

对所述离散文本中的词汇计算词频和逆文档频率；将词频和逆文档频率相乘，计算TF-IDF值；

将所有词汇对应的TF-IDF值按照降序排列，得到关键词列表；

其中，所述词频的计算公式为：

所述逆文档频率的计算公式为：

其中，k为常数。

进一步地，对新闻领域进行词性标定，包括以下步骤：

获取新闻领域中带有正确词性标签的训练数据集，每个句子中的词汇都与相应的词性标签配对；加入用于分隔句子的特殊标记；

将连续文本中的所有词汇映射为唯一的整数索引，并为每个词性标签分配一个唯一的整数；

选择Bert模型作为预训练模型，载入预训练权重；修改网络结构：将Bert模型的输出连接到一个全连接层，将Bert的隐藏表示映射到词性标签的概率分布；

将数字化的训练数据输入到Bert模型中，通过反向传播算法优化模型参数，预测词性标签。

进一步地，新闻领域相关的词性标签至少包括：人名、地名、机构名、以及时间；

所述一级核心词被定义为其TF-IDF权重位于关键词列表中前x位，且其词性属于人名、地名、机构名、或时间中的一种；

所述二级核心词被定义为其TF-IDF权重位于关键词列表中前y位，且其词性属于人名、地名、机构名、时间、普通名词、处所名词、作品名、或其他专名中的一种；

所述一级核心词优先二级核心词被定义。

进一步地，计算每个分割句的重要性得分，包括以下步骤：

对每个分割句进行相似度计算，并构建相似度矩阵；将分割句作为图的节点，相似度作为边的权重，构建无向加权图；

利用TextRank算法计算每个分割句的重要性得分，通过迭代计算，直至收敛。

进一步地，筛选出代表实体，包括以下步骤：

筛选出词性为人名、地名、机构名、或时间的单词，根据所述单词出现次数按降序排列，每种词性下出现次数最多的单词作为该类簇的代表实体。

进一步地，还包括以下步骤：判断所述描述句的长度，得到判断结果：

若所述描述句的长度大于m个单词的句子长度，则对所述描述句进行语义角色标注，进行主成分抽取，基于所述主成分，确定新的描述句；

其中，所述主成分抽取为于一级核心词、二级核心词中至少确定谓词、施事者、或受事者的词汇。

进一步地，还包括以下步骤：判断所述描述句中结尾的标点符号，得到判断结果：若所述标点符号至少为问号、或感叹号中的其中一个，则利用大语言模型对所述描述句进行改写。

在另一个技术方案中，提供了一种新闻事件脉络抽取系统，用于实现如上述的一种新闻事件脉络抽取方法，所述系统包括：

第一模块，被设置获取新闻事件的连续文本和发文时间，将所述连续文本拆分为离散文本；基于所述离散文本获取其中的关键词，得到关键词列表；

第二模块，被设置对新闻领域进行词性标定，得到词性标签；基于所述关键词、以及词性标签，筛选所述关键词列表中的核心词汇；其中，所述核心词汇至少包括：一级核心词、二级核心词；

第三模块，被设置对新闻事件进行合并，得到新闻集合，赋予新闻集合新的定义为类簇；利用相似判定条件，剔除类簇中相似的新闻事件；

第四模块，被设置对类簇中新闻事件所对应的连续文本进行分割，得到分割句；计算每个分割句的重要性得分；按照重要性得分降序的优先级顺序，筛选出n个分割句，并赋予该n个分割句新的定义为候选句；

第五模块，被设置基于所述词性标签，对类簇中新闻事件所对应的离散文本的词性进行统计并筛选出代表实体；赋予包含有代表实体的候选句新的定义为描述句。

有益效果：

本发明通过识别新闻文本中的关键信息，实现对大批量新闻文本的聚类以及事件脉络的抽取；利用自然语言处理技术对新闻文本进行分词、词性标注等预处理，建立词语与上下文之间的关联；结合时间顺序以及每篇新闻的关键词表示对文本进行聚类，整理出事件发展的脉络，并识别出关键节点；利用大语言模型对每个类簇的标题文本进行风格改写，形成准确、完整的事件描述。

相较于传统方法，本方法具有较强的通用性和适应性，能够在不同语言和文本表达方式下实现高效的事件抽取，为新闻信息处理提供了一种全新的解决方案。同时，该方法还可应用于其他领域，如舆情监测、知识图谱构建等，具有广泛的应用前景。

附图说明

图1是本发明的整体流程图；

图2是抽取文本核心词的流程图。

具体实施方式

实施例1

本实施例提供了一种新闻事件脉络抽取方法(以下简称本方法)，包括以下步骤：

S100、获取新闻事件的连续文本和发文时间，将所述连续文本拆分为离散文本；基于所述离散文本获取其中的关键词，得到关键词列表。

以下具体说明步骤S100：获取新闻事件中用于描述新闻事件的连续文本，连续文本可以是段落文字，也可以是一句长句。如果连续文本中存在一些影响后续步骤的字符，需要对连续文本清理，如去除连续文本中的特殊字符、HTML标签、多余的空格和换行符，保留核心内容。随后将长句子或段落划分成一个个的词语或标记，将连续的文本拆分为离散的单元，得到离散文本，便于后续处理。

利用TF-IDF方法找出离散文本中的关键词，技术方案如下：

S101、所述关键词列表的获取包括以下步骤：

将所有词汇对应的TF-IDF值按照降序排列，得到关键词列表；

其中，所述词频的计算公式为：

对于给定文档，计算其中每个词汇出现的频率。词频代表一个词在文档中的重要性。

所述逆文档频率的计算公式为：

其中，k为常数。逆文档频率考量了一个词在整个文集中的稀有程度，k可以取值1。

将上述的TF(t)值和IDF(t)相乘，得到一个词的TF-IDF值，这个值反映了词t在文档中的重要性，以及在整个文集中的稀有程度。

将所有词的TF-IDF值按照降序排列，得到一个关键词列表。TF-IDF值越高的词越可能是关键词。

S200、对新闻领域进行词性标定，得到词性标签；基于所述关键词、以及词性标签，筛选所述关键词列表中的核心词汇；其中，所述核心词汇至少包括：一级核心词、二级核心词。

S201、对新闻领域进行词性标定，包括以下步骤：

以下具体说明步骤S201：微调Bert模型完成新闻领域文本的词性标注任务，相较于传统的RNN和LSTM模型，Bert模型能够充分利用前后文信息，减少人工特征工程的负担，同时具有较强的泛化能力和通用性。具体步骤如下：

1)准备数据：收集新闻领域带有正确词性标签的训练数据集，每个句子中的词汇都与相应的词性标签配对。同时，加入特殊的标记，如”[CLS]”和”[SEP]”，以分隔句子。

2)建立词汇表：将文本中的所有词汇映射为唯一的整数索引，并为每个词性标签分配一个唯一的整数。

3)加载预训练Bert模型：选择Bert-Base-Chinese作为预训练模型，载入预训练权重。

4)修改网络结构：将Bert的输出连接到一个全连接层，将Bert的隐藏表示映射到词性标签的概率分布。模型采用的隐藏层维度为768、最大输入序列长度为512、注意力头个数为12、隐藏层数量为12、词汇表长度为21128。

5)微调模型：将数字化的训练数据输入到模型中，通过反向传播算法优化模型参数，使其能够准确地预测词性标签。

S202、新闻领域相关的词性标签至少包括：人名、地名、机构名、以及时间；

所述一级核心词优先二级核心词被定义。

考虑到新闻领域的文本特性，重点关注人名、地名、机构名、时间这几项词性。结合关键词和词性的筛选，更准确地找出文本中的核心词汇。对关键词进行分级，如果TF-IDF权重排在前5并且词性属于人名、地名、机构名、时间中任一种的话，将其定为一级核心词；如果TF-IDF权重排在前15并且词性属于人名、地名、机构名、时间、普通名词、处所名词、作品名、其他专名中任意一种的话，将其定为二级核心词。首先确定一级核心词，在确定二级核心词。

S300、对新闻事件进行合并，得到新闻集合，赋予新闻集合新的定义为类簇；利用相似判定条件，剔除类簇中相似的新闻事件。

在获取每条文本中的关键信息以及发文时间后，将传达相似信息的新闻文本合并，构成类簇。将新闻事件相关的文本按时间顺序排列，为了降低聚类计算的时间复杂度，构建序列池，记录每条文本是否已经被聚类。考虑到新闻的时效性，对于每条待比较的文本，只在一个月以内的时间里搜索相似文本。

S301、剔除类簇中相似的新闻事件，包括以下步骤：

基于每条文本抽取出的一级核心词和二级核心词，如果两条文本的一级核心词完全一致(不考虑词的顺序)或者一级核心词存在交叉并且二级核心词重合数量大于5(阈值不限于5，基于实际情况而定)，认为这两条文本基本在描述同一事件，即认为相似，并从序列池中将其中一个相似文本剔除，如提出发生事件较前或较后的文本。

S400、对类簇中新闻事件所对应的连续文本进行分割，得到分割句；计算每个分割句的重要性得分；按照重要性得分降序的优先级顺序，筛选出n个分割句，并赋予该n个分割句新的定义为候选句。

S401、计算每个分割句的重要性得分，包括以下步骤：

S500、基于所述词性标签，对类簇中新闻事件所对应的离散文本的词性进行统计并筛选出代表实体；赋予包含有代表实体的候选句新的定义为描述句。

S501、筛选出代表实体，包括以下步骤：

为了方便理解，以下进一步举例说明步骤S400、S401、S500和S501：

本实施例中基于TextRank方法进行摘要抽取。首先对每一类簇的文本数量进行统计，剔除文本数量过少的类簇。

对于每一类簇，将类簇内所有的文本分割成句子。可以基于一定的规则进行分割，如找到句号、感叹号、问号，替换成统一分句符\n。如果找到双引号，并且双引号前一个符号是句号、感叹号、问号中的任一个，那么视双引号为句子的终点，把分句符\n放到双引号后面。

对于每一对句子，通过统计共现词计算句子间的相似度，构建相似度矩阵。将句子作为图的节点，相似度作为边的权重，构建一个无向加权图。使用TextRank算法并基于无向加权图计算每个句子的重要性得分，通过迭代计算，直到收敛。

根据得分对句子进行降序排序，选择得分最高的前五句作为候选句。

对类簇中所有单词的词性进行统计，筛选出词性为人名、地名、机构名、时间的单词，根据出现次数按降序排列，每种词性下出现次数最多的单词作为该类簇的代表实体。如果候选描述句中包含代表实体，则优先选择该句作为类簇的描述句。获得的描述句即为新闻时间的脉络或摘要。

在一些场景下，获得的描述句非常长，比如超过20个单词的句子，此时需要对描述句进行简化，以消除冗长；为了解决此问题，提出了以下技术方案：

本方法还包括以下步骤：判断所述描述句的长度，得到判断结果：

对于长度大于20个单词的句子，对描述句进行语义角色标注，抽取出其主成分。在一级核心词与二级核心词中找到谓词、施事者、受事者，如果有词语TF-IDF权重很高并且是状语角色也可以适当保留，可以增加句子的信息，提高通顺度。例如原句为“诺里斯-科尔，克利夫兰州大诺里斯-科尔的草根传奇正在上演，默默无闻的他被克利夫兰州大招募后便开始刻苦地训练，去年夏天他曾加练上千次跳投，来提高这个可能的弱点”，在经过主成分抽取后缩写为“诺里斯-科尔，克利夫兰州大诺里斯-科尔的草根传奇正在上演”。

在一些场景下，提取的描述句结尾的标点符号，不适合用于描述新闻事件，如描述句以问号或感叹号结尾；对此类描述句进行处理，处理方案如下：

本方法还包括以下步骤：判断所述描述句中结尾的标点符号，得到判断结果：若所述标点符号至少为问号、或感叹号中的其中一个，则利用大语言模型对所述描述句进行改写。

利用大语言模型强大的生成能力，将描述句改写为平铺直叙的语言风格。例如原句为“污水超标2万倍？A对B说不！”，在输入大模型之前加上提示：“请将下列文本改写成记叙文体的风格”，在经过风格改写后就变成“污水超标2万倍引发A抗议”。

本方法通过利用自然语言处理技术对新闻文本进行细致的预处理，包括分词和词性标注等步骤，能够有效地识别出关键信息，从而提高事件脉络抽取的准确性。通过结合时间顺序和关键词表示，实现了对文本的聚类，考虑到聚类计算的时间复杂度，进行一系列剔除噪音信息、压缩冗余信息的操作，为大规模新闻数据的处理提供了便利。

本方法通过整理出事件发展的脉络，使得用户可以清晰地了解事件的起因、经过和结果，有助于形成全面的认识。本方法能够识别出事件中的关键节点，这些节点通常代表了事件发展中的重要转折点或者高潮，能为用户提供重要参考。通过大语言模型对每个类簇的标题文本进行风格改写，使得最终的事件描述更具吸引力、易读性和精炼性，从而提升了描述的质量。该方法不仅适用于新闻领域，也可扩展应用于其它领域的文本处理任务，具有广泛的应用前景。

本方法旨在解决传统新闻事件抽取方法存在的诸多困难与局限性，提供一种高效、准确的新闻信息处理解决方案。通过基于词语重要性排名的技术，旨在构建一个能够灵活适应不同语言、文体以及时效要求的抽取系统。此系统将充分考虑词语在文本中的频率、上下文关联等因素，从而更准确地评估词语在事件中的重要程度，进而构建完整、精准的事件脉络。

本方法的目的还在于提高新闻信息的处理效率与时效性。通过优化抽取算法，实现对最新事件动态的快速捕获，从而保证所提取事件脉络的及时性与实用性。同时，本发明具有较强的通用性，可在多语言、多文体、多领域的新闻环境下得到有效应用，为广泛的应用场景提供有力的支持，包括但不限于舆情监测、知识图谱构建等领域。

实施例2

本实施例提出了一种新闻事件脉络抽取系统，用于实现如实施例1中所述的一种新闻事件脉络抽取方法，所述系统包括：

Claims

1.一种新闻事件脉络抽取方法，其特征在于，包括以下步骤：

2.如权利要求1所述的一种新闻事件脉络抽取方法，其特征在于，剔除类簇中相似的新闻事件，包括以下步骤：

3.如权利要求1所述的一种新闻事件脉络抽取方法，其特征在于，所述关键词列表的获取包括以下步骤：

将所有词汇对应的TF-IDF值按照降序排列，得到关键词列表；

其中，所述词频的计算公式为：

所述逆文档频率的计算公式为：

其中，k为常数。

4.如权利要求1所述的一种新闻事件脉络抽取方法，其特征在于，对新闻领域进行词性标定，包括以下步骤：

5.如权利要求1所述的一种新闻事件脉络抽取方法，其特征在于，

新闻领域相关的词性标签至少包括：人名、地名、机构名、以及时间；

所述一级核心词优先二级核心词被定义。

6.如权利要求1所述的一种新闻事件脉络抽取方法，其特征在于，计算每个分割句的重要性得分，包括以下步骤：

7.如权利要求1所述的一种新闻事件脉络抽取方法，其特征在于，筛选出代表实体，包括以下步骤：

8.如权利要求1所述的一种新闻事件脉络抽取方法，其特征在于，还包括以下步骤：判断所述描述句的长度，得到判断结果：

9.如权利要求1所述的一种新闻事件脉络抽取方法，其特征在于，还包括以下步骤：判断所述描述句中结尾的标点符号，得到判断结果：若所述标点符号至少为问号、或感叹号中的其中一个，则利用大语言模型对所述描述句进行改写。

10.一种新闻事件脉络抽取系统，其特征在于，用于实现如权利要求1至9中任意一项所述的一种新闻事件脉络抽取方法，所述系统包括：