CN117592471A

CN117592471A - 一种舆情数据的新闻主体识别方法及系统

Info

Publication number: CN117592471A
Application number: CN202311503045.6A
Authority: CN
Inventors: 单怡然; 刘硕凌; 程宁; 杨澎涛; 王昱森
Original assignee: E Fund Management Co ltd
Current assignee: E Fund Management Co ltd
Priority date: 2023-11-10
Filing date: 2023-11-10
Publication date: 2024-02-23

Abstract

本发明公开了一种舆情数据的新闻主体识别方法及系统，方法包括将新闻舆情数据通过AI大模型进行主体名称识别，得到舆情特征识别结果；其中，AI大模型通过基于上下文指令对ChatGPT模型进行数据训练而得到；通过对舆情特征识别结果进行字符串匹配，判断舆情特征识别结果中是否存在新闻主体，若不存在，则输出未识别出主体的提示信息；若存在，则将舆情特征识别结果进行无效信息剔除，得到主体简化数据，并对主体简化数据进行主体数量判别分割，获得主体简化名称；通过公共子序列最优匹配策略，将主体简化名称与预先构建的公司知识库进行匹配，输出新闻主体名称识别结果。本实施例实现在海量新闻舆情信息中高效提取主体公司名称，提高主体识别的精准性。

Description

一种舆情数据的新闻主体识别方法及系统

技术领域

本发明涉及主体识别领域，尤其涉及一种舆情数据的新闻主体识别方法及系统。

背景技术

主体识别是自然语言处理(Natural Language Processing，NLP)中的一项关键任务，其目标是从无结构文本中识别出预定义的实体，如人名、地名、组织名或专有名词等。舆情主体识别是主体识别的一项重要应用，可用于识别新闻或社交媒体内容中涉及的主体，如公司、政府机构、个人、产品等。舆情主体的精准抽提，有助于投资者对特定公司、人物、产品进行有效的舆情监控和管理，帮助投资者做出更精准的投资决策。

目前舆情主体识别的核心实现方案主要分为三种：基于规则的方法、基于统计的方法和基于深度学习的方法。现有的基于规则的方法是最早的主体识别方法，主要依赖于人工定义的语法或模式规则来识别文本中符合条件的实体。例如，可能设置一个规则来识别新闻中的公司名，规则可能是“任何紧跟着‘公司’或‘有限公司’等后缀的词组都被认为是公司名”。这样通过规则识别，"苹果公司"、"微软有限公司"等都将被识别为公司实体。然而，此类规则可能在识别准确率方面存在一定局限。例如，对于"苹果"这种情况，就可能发生误识别。当在文本中看到"苹果发布了新产品"时，"苹果"指的是"苹果公司"，但如果上下文是"我今天吃了一个苹果"，这里的"苹果"就是指水果，而非公司。这就需要更复杂的规则或上下文理解才能准确识别。此外，基于规则的方法往往对语境变化、新词出现较为敏感，无法适应自然语言的不确定性和多样性。如果遇到各种特例和例外，可能需要持续地修改和添加规则，维护成本较高，适应性和泛用型较差。基于统计的方法主要包括隐马尔科夫模型(HMM)，最大熵马尔科夫模型(MEMM)，条件随机场(CRF)等，这些方法通过在标注的数据集上进行训练，学习得到实体识别的模型。

现有基于统计的方法需要手动设计和选择特征，需要大量的专门知识和经验，对于复杂的语言环境和大规模的应用场景，因此，现有的基于统计的主体识别方法仍存在明显的挑战。例如HMM假设每个观察值(在本例中为单词)只依赖于其对应的状态(在本例中为实体类型)，并且每个状态只依赖于前一状态。这种“一阶”依赖性假设可能无法很好地处理语言的复杂性。例如，对于句子"Washington left office in 1797"。在这里，“Washington”应该被识别为人名，但是如果的模型过于依赖周围的单词(例如，“office”)，则可能会误将其识别为组织名。CRF与HMM类似，都是基于序列的预测模型，但它不再假设观察值之间是独立的，而是可以考虑整个句子的上下文信息。因此，CRF在实体识别任务上通常优于HMM。然而，尽管CRF的性能优于HMM，但它仍有一些问题。首先，CRF需要大量的标注数据进行训练，数据获取和标注成本较高。其次，CRF在训练和预测时的计算成本也较高，尤其是在处理长序列时。此外，CRF依赖人工设计的特征，如词性标签、命名实体字典等，这需要大量的领域知识和经验，模型稳定性差。

现有基于深度学习的方法，如循环神经网络(RNN)，长短期记忆网络(LSTM)等，这些方法能够自动从数据中学习特征，并对上下文信息进行建模，提高了实体识别的准确性。然而在测试数据中准确率并不高，例如算法无法正确区分新闻中的新闻主体的区别。造成这种识别误差的主要原因有：1.数据质量和数量问题:深度学习算法需要大量的数据才能进行有效的训练。如果训练数据不足，或者数据中的噪声过多，将会大大影响其性能。2.处理异常值和新出现的情况的能力:深度学习模型可能在面对它们在训练数据中未曾遇见的情况时表现差强人意。这种情况在自动驾驶领域尤其常见，因为环境变化多端，在训练过程中不可能覆盖到所有可能发生的情况。3.黑箱问题：深度学习模型通常是一种黑箱模型，模型的内在工作方式对于使用者来说，往往以一种复杂而晦涩的方式进行，这对于理解和解释模型的决策会带来困难。例如，在医疗领域，即使深度学习模型能提供诊断，医生和患者也可能会对模型的复杂性和不透明性感到困惑。4.过拟合问题：深度学习模型往往容易过拟合，即模型在训练数据上的表现很好，但在未见过的测试数据上的表现较差。

由此可知，现有的舆情主体识别技术还没有完全解决规则编写难、特征工程复杂、需要大量标注数据和模型训练成本高等问题，在海量的新闻舆情信息中，对于大量的征信信用主体信息，不能有效且准确地进行征信信用主体的唯一关联，无法精准的提取主体信息。

发明内容

本发明提供了一种舆情数据的新闻主体识别方法及系统，实现在海量新闻舆情信息中高效提取主体公司名称，提高主体识别的精准性。

为了解决上述技术问题，本发明实施例提供了一种舆情数据的新闻主体识别方法，包括：

将新闻舆情数据通过AI大模型进行主体名称识别，得到舆情特征识别结果；其中，AI大模型通过基于上下文指令对ChatGPT模型进行数据训练而得到；

通过对舆情特征识别结果进行字符串匹配，判断舆情特征识别结果中是否存在新闻主体，若不存在，则输出未识别出主体的提示信息；

若存在，则将舆情特征识别结果进行无效信息剔除，得到主体简化数据，并对主体简化数据进行主体数量判别分割，获得主体简化名称；通过公共子序列最优匹配策略，将主体简化名称与预先构建的公司知识库进行匹配，得到新闻主体名称识别结果，并输出新闻主体名称识别结果；其中，主体简化名称至少为1个。

实施本发明实施例，将新闻舆情数据通过AI大模型进行主体名称识别，得到舆情特征识别结果；其中，AI大模型通过基于上下文指令对ChatGPT模型进行数据训练而得到；通过对舆情特征识别结果进行字符串匹配，判断舆情特征识别结果中是否存在新闻主体，若不存在，则输出未识别出主体的提示信息；若存在，则将舆情特征识别结果进行无效信息剔除，得到主体简化数据，并对主体简化数据进行主体数量判别分割，获得主体简化名称；通过公共子序列最优匹配策略，将主体简化名称与预先构建的公司知识库进行匹配，得到新闻主体名称识别结果，并输出新闻主体名称识别结果；其中，主体简化名称至少为1个。在海量舆情信息中自动且准确地提取识别文本主体，通过AI大模型及主体信息处理(字符串匹配、无效信息剔除、主体数量判别分割)，获取主体简化名称，并结合公共子序列最优匹配策略，将主体简化名称与预先构建的公司知识库进行匹配，可精准建立与主体公司注册名称的关联关系，有效降低舆情主体分析AI大模型的训练和部署成本，在海量新闻舆情信息中高效提取主体公司名称，提高主体识别的精准性。现有的舆情主体识别技术还没有完全解决规则编写难、特征工程复杂、需要大量标注数据和模型训练成本高等问题，对于大量的征信信用主体信息，不能有效且准确地进行征信信用主体的唯一关联。因此，需要准确输出舆情数据的新闻主体总公司，精准匹配，提高主体识别的准确度。

作为优选方案，AI大模型通过基于上下文指令对ChatGPT模型进行数据训练而得到，具体为：

构建训练数据集；其中训练数据集包括问答数据、上下文指令和请求的实例数据；

将训练数据集输入ChatGPT模型进行模型训练，直至满足预设的训练结束条件，停止模型训练，将训练后的ChatGPT模型作为AI大模型。

作为优选方案，将舆情特征识别结果进行无效信息剔除，得到主体简化数据，具体为：

基于预设的无效修饰词，利用replace函数，将舆情特征识别结果中的无效修饰词替换为空值，得到主体简化数据；

其中，预设的无效修饰词是根据舆情特征中的修饰词对匹配过程的干扰程度而设置。

作为优选方案，对主体简化数据进行主体数量判别分割，获得主体简化名称，具体为：

判断主体简化数据中存在的主体数量，若存在的主体数量大于1，则利用split函数，对主体简化数据进行字符串逗号分割，将分割后的主体简化数据对应为多个主体简化名称；

若存在的主体数量不大于1，则将主体简化数据作为主体简化名称。

作为优选方案，通过公共子序列最优匹配策略，将主体简化名称与预先构建的公司知识库进行匹配，得到新闻主体名称识别结果，具体为：

将当前的主体简化名称作为第一序列，将公司知识库中的各主体信息名称作为第二序列；

通过最长公共子序列动态规划法，依次将第一序列与各第二序列进行匹配，得到若干个最长公共子序列；

根据各最长公共子序列，确定最优匹配长度；

当最优匹配长度不小于预设长度阈值时，通过最长连续公共子序列动态规划法，依次将各最长公共子序列与各第二序列进行匹配，得到若干个最长连续公共子序列；

比较各最长连续公共子序列的序列长度，提取序列长度最小值对应的最长连续公共子序列，得到当前的主体简化名称对应的新闻主体名称识别结果。

作为优选方案，通过最长公共子序列动态规划法，依次将第一序列与各第二序列进行匹配，得到若干个最长公共子序列，具体为：

提取第一序列和当前的第二序列对应的当前的最后一个元素，获得两个当前待判断元素，基于当前待判断元素进行元素判断处理，并删除第一序列和当前的第二序列对应的当前待判断元素，获得当前的最长公共子序列，依次循环提取第一序列和当前的第二序列对应的当前的最后一个元素并进行元素判断处理，直至处理完第一序列和当前的第二序列全部的元素，得到当前的第二序列对应的最长公共子序列；

统计各第二序列对应的最长公共子序列，得到若干个最长公共子序列。

作为优选方案，基于当前待判断元素进行元素判断处理，并删除第一序列和当前的第二序列对应的当前待判断元素，获得当前的最长公共子序列，具体为：

判断两个当前待判断元素是否相同，若相同，则分别删除第一序列和当前的第二序列对应的当前待判断元素，提取第一序列和当前的第二序列分别删除当前待判断元素后的最长公共子序列，将删除当前待判断元素后的最长公共子序列加上当前待判断元素，得到当前的最长公共子序列；

若不相同，则分别删除第一序列和当前的第二序列对应的当前待判断元素，并将第一序列和当前的第二序列分别删除当前待判断元素后的两个的最长公共子序列之一作为当前的最长公共子序列。

作为优选方案，通过最长连续公共子序列动态规划法，依次将各最长公共子序列与各第二序列进行匹配，得到若干个最长连续公共子序列，具体为：

提取当前的最长公共子序列和当前的第二序列对应的当前的第一个字符，获得两个当前待判断字符，基于当前待判断字符进行字符判断处理，并删除当前的最长公共子序列和当前的第二序列对应的当前待判断字符，获得当前的最长连续公共子序列，依次循环提取当前的最长公共子序列和当前的第二序列对应的当前的最后一个字符并进行字符判断处理，直至处理完当前的最长公共子序列和当前的第二序列全部的字符，得到当前的第二序列对应的最长连续公共子序列；

统计各第二序列对应的最长连续公共子序列，得到若干个最长连续公共子序列。

作为优选方案，基于当前待判断字符进行字符判断处理，并删除当前的最长公共子序列和当前的第二序列对应的当前待判断字符，获得当前的最长连续公共子序列，具体为：

判断两个当前待判断字符是否相同，若相同，则分别删除当前的最长公共子序列和当前的第二序列对应的当前待判断字符，提取当前待判断字符的到当前的最长连续公共子序列中；其中，在对当前待判断字符进行首次判断时，预设当前的最长连续公共子序列为空值；

若不相同，则分别删除当前的最长公共子序列和当前的第二序列对应的当前待判断字符。

为了解决相同的技术问题，本发明实施例还提供了一种舆情数据的新闻主体识别系统，包括：AI大模型模块、主体信息模块和最优主体匹配模块；

其中，AI大模型模块用于将新闻舆情数据通过AI大模型进行主体名称识别，得到舆情特征识别结果；其中，AI大模型通过基于上下文指令对ChatGPT模型进行数据训练而得到；

主体信息模块用于通过对舆情特征识别结果进行字符串匹配，判断舆情特征识别结果中是否存在新闻主体，若不存在，则输出未识别出主体的提示信息；

最优主体匹配模块用于若舆情特征识别结果中存在新闻主体，则将舆情特征识别结果进行无效信息剔除，得到主体简化数据，并对主体简化数据进行主体数量判别分割，获得主体简化名称；通过公共子序列最优匹配策略，将主体简化名称与预先构建的公司知识库进行匹配，得到新闻主体名称识别结果，并输出新闻主体名称识别结果；其中，主体简化名称至少为1个。

实施本发明实施例，具有以下优势：

1、更准确的识别能力：大模型训练的过程中利用了更少的标注数据和更准确的识别能力，一方面大模型的有监督数据，都是非常好获取的通识文本。另一方面对于专属的任务，可以不需要标注数据，也就是zero shot，而为了更好的效果，采取了few shot，成本也很低，但是效果增益更大，在处理舆情主体识别问题时有着更高的准确率。

2、更广泛的覆盖范围：大模型不仅能理解标准语言，因为其训练数据的多样性，它也能理解和处理非标准语言，如俚语、缩写和网络用语，增强了在处理实际舆情数据时的实用性。

3、更强的上下文理解能力：大模型在理解表达含义时，能充分考虑上下文，避免因忽视上下文而出现误识别。

4、减少过度工程：传统的舆情主体识别方法可能需要大量的特征工程和领域知识，而大模型能自动从数据中学习到这些特征，大大减少了过度工程的需要。

5、精准匹配：采用最优匹配策略解决了现有技术中对于大量的征信信用主体信息，不能有效且准确地进行征信信用主体的唯一关联的技术问题。

本发明的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

图1：为本发明提供的一种舆情数据的新闻主体识别方法的一种实施例的流程示意图；

图2：为本发明提供的一种舆情数据的新闻主体识别方法的一种实施例的简化流程框图；

图3：为本发明提供的一种舆情数据的新闻主体识别系统的一种实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

请参照图1，为本发明实施例提供的一种舆情数据的新闻主体识别方法的流程示意图。本实施例通过AI大模型结合公共子序列最优匹配策略，在海量新闻舆情信息中高效提取主体公司名称，提高主体识别的精准性。该新闻主体识别方法包括步骤101至步骤103，各步骤具体如下:

步骤101：将新闻舆情数据通过AI大模型进行主体名称识别，得到舆情特征识别结果；其中，AI大模型通过基于上下文指令对ChatGPT模型进行数据训练而得到。

在本实施例中，舆情数据的新闻主体识别方法的简化流程框图，如图2所示，初步判断输入新闻中是否存在新闻主体，并提取出新闻主体的描述部分，即舆情特征识别结果，比如“我今天很饿”这样的描述中就不存在新闻主体，而对于“农行宿松县支行:“三个到位”助力“减费让利”见实效”这一新闻需要首先提取出“农行宿松县支行”这一主体相关描述。

需要说明的是，只使用GPT3.5模型或GPT4模型的性能已好过其他公开大模型+微调的效果，新闻主体舆情特征识别直接采用GPT+上下文(prompt)的方式实现。选择ChatGPT模型的原因在于：1、单纯基于匹配，或者nn+sn的方法，根据“公司”、“有限公司”等关键词定位到主体模块，由于在新闻数据中常常使用主体简称，文本中不会省略公司、有限公司等关键词语，单纯的匹配方法在新闻数据中往往失效。2、BERT等基础NLP模型，在实验中测试了其性能，基于给出的小样本做训练微调并不能实现很好的效果，财汇八月单天样本识别平均准确率仅有68％，而AI大模型单天样本识别平均准确率可以达到95％，所以直接采用了GPT3.5模型或GPT4模型作为新闻主体初步提取的过程。

可选的，AI大模型通过基于上下文指令对ChatGPT模型进行数据训练而得到，具体为：

在本实施例中，AI大模型可选使用ChatGPT3.5或者ChatGPT4等可用大模型接口，为了优化模型的学习能力，使其可以充分利用大规模无标记数据和小规模标注数据，提高模型的复用性，减少模型训练时的注释成本。上下文指令(Prompt)指导大模型进行精准主体识别。特别的，AI大模型可以通过指令跟随的方式执行提供的上下文指令(Prompt)。而AI大模型能够成功执行prompt中的指令(指令跟随)的原因在于通过大规模的数据进行训练，这些数据包括大量的问答、指令和请求的实例。在训练过程中，AI大模型学会如何理解和生成适当的回应，包括对特定询问或指令的回应。通过小样本学习来加强大模型对主体识别任务迁移能力、通过外挂知识库/数据库来自动修正提升大模型主体识别精度。

作为本实施例的一种举例，训练AI大模型时，提炼了如下新闻-主体对应指令对加入上下文：

你是一个公司调研员，针对三个引号中的新闻标题，请给出新闻中的公司主体，请注意一般董事长、公司前面的名词通常为公司名称，如果识别出多个主体，请讲所有主体都输出并以逗号隔开，如无法确定新闻中的公司主体，请输出“无”。

根据以上案例，在上下文指令(Prompt)中给出“如无法确定新闻中的公司主体，请输出“无””，以此来避免AI大模型的幻觉问题，即当AI大模型无法从新闻中识别出主体信息时，避免AI大模型错误输出，而是输出“无”。

需要说明的是，在AI大模型中，上下文指令(Prompt)的作用主要是给Al模型提示输入信息的上下文和输入模型的参数信息。在训练有监督学习或无监督学习的模型时，Prompt可以帮助模型更好地理解输入的意图，并作出相应的响应。此外，Prompt还可以提高模型的可解释性和可访问性。通俗地说，就是给AI模型提供一个“提示”或“指引”，帮助它更好地理解和完成任务。

步骤102：通过对舆情特征识别结果进行字符串匹配，判断舆情特征识别结果中是否存在新闻主体，若不存在，则输出未识别出主体的提示信息。

在本实施例中，对AI大模型的输出的舆情特征识别结果进行字符串匹配，当识别出输出结果为“无”时说明舆情数据中不存在新闻主体，将停止输入分析，以节约资源，输出未识别出主体的提示信息。

步骤103：若舆情特征识别结果中存在新闻主体，则将舆情特征识别结果进行无效信息剔除，得到主体简化数据，并对主体简化数据进行主体数量判别分割，获得主体简化名称；通过公共子序列最优匹配策略，将主体简化名称与预先构建的公司知识库进行匹配，得到新闻主体名称识别结果，并输出新闻主体名称识别结果；其中，主体简化名称至少为1个。

需要说明的是，现有技术中基于文本数据词性标注的企业主体匹配方法基于“ns+nn”的匹配模式，根据“公司”、“有限公司”等关键词定位到主体模块，然而由于在新闻数据中常常使用主体简称，如“腾讯”代指“深圳市腾讯计算机系统有限公司”,相比于政务文本中不会省略公司、有限公司等关键词语，这一匹配方法在新闻数据中往往失效。

实施本发明实施例，在海量舆情信息中自动且准确地提取识别文本主体，并可精准建立与主体公司注册名称的关联关系，有效降低舆情主体分析模型的训练和部署成本。例如，对于新闻中出现“阿里”、“阿里巴巴”等可以精准输出“阿里巴巴集团控股有限公司”。

可选的，步骤103具体包括步骤1031至步骤1034，各步骤具体如下:

步骤1031：将舆情特征识别结果进行无效信息剔除，得到主体简化数据，具体为：

基于预设的无效修饰词，利用replace函数，将舆情特征识别结果中的无效修饰词替换为空值，得到主体简化数据；其中，预设的无效修饰词是根据舆情特征中的修饰词对匹配过程的干扰程度而设置。

在本实施例中，将AI大模型给出的主体识别结果为舆情特征数据(舆情特征识别结果)。由于“股份有限公司”等修饰词在匹配过程中会干扰公司名称的关键信息识别，需要对舆情特征数据首先进行无效修饰词剔除工作，剔除无效信息。无效修饰词即表示提示词和无效词等具有无效信息的数据，需要剔除的无效修饰词包括：“公司”、“集团”、“有限公司”、“股份”、“(”、“)”、“中国”。通过replace函数将这些无效修饰词替换为空值，实现删除操作。

步骤1032：对主体简化数据进行主体数量判别分割，获得主体简化名称，具体为：

在本实施例中，对简化后的舆情特征数据(主体简化数据)进行主体数量判别。如果主体简化数据中包含多个主体，已在输入AI大模型的上下文中给出了“如果识别到多个主体时需要用逗号隔开不同主体“。AI大模型通过指令跟踪可以实现多主体情况下自动以逗号分割。再通过“.split(‘，’)”函数对主体简化数据进行字符串逗号分割，如果主体简化数据仅包含单个主体，即主体简化名称，那么将直接单个主体简化名称进行下一步匹配策略,通过公共子序列最优匹配策略，将主体简化名称与预先构建的公司知识库进行匹配，得到新闻主体名称识别结果。如果包含多个主体，即多个主体简化名称，将分别对不同的主体简化名称进行下一步匹配策略,通过公共子序列最优匹配策略，将主体简化数据中每个主体简化名称与预先构建的公司知识库分别进行匹配，得到每个主体简化名称对应的新闻主体名称识别结果。

步骤1033：通过公共子序列最优匹配策略，将主体简化名称与预先构建的公司知识库进行匹配，得到新闻主体名称识别结果。

在本实施例中，采用基于最长公共子序列(LCS)+最长连续公共子序列(LCCS)方式进行匹配，实现公共子序列最优匹配策略，这两种序列提供的信息不同：LCS可以强调主体和新闻名称之间的全局相似性，而LCCS则可以强调主体和新闻名称之间的局部连续性。在主体识别问题中，采用了全局相似性优先策略，即优先匹配具有全局最大匹配的答案(由于公司简写往往是不同词的首字母，所以局部连续性差)，当全局最优存在多个答案时采用局部匹配最优进一步筛选答案。此外，为了将这两个指标融合到一个相似度度量中，也可以采用某种权重策略，例如：相似度＝α*(LCS的长度/两个字符串中较长的一个的长度)+β*(LCCS的长度/两个字符串中较短的一个的长度)，其中α和β是权重，可以根据实际需求进行调整。

需要说明的是，公共子序列最优匹配策略中考虑两个层面进行字符串的相似度匹配，一是全局的相似性(LCS)，二是局部的连续性(LCCS)。大多数传统的方法只考虑一种相似性度量，而这个方法将两种度量融合，提供了一种全面且灵活的策略。此外，深度分析了主体缩写的特点，对局部度量和全局度量进行了合理整合，使得公共子序列最优匹配策略适配新闻舆情数据，达到精准匹配的目的。

可选的，步骤1033具体包括步骤S1-S5,各步骤如下：

S1：将当前的主体简化名称作为第一序列，将公司知识库中的各主体信息名称作为第二序列；

在本实施例中，读入储存好的公司知识库信息(如：信息来自wind数据库+手动筛选的关心的发债主体，总共4459个主体数据)，以此构建公司知识库。根据中文缩写规则，最优匹配的数据应当是最长公共子序列最长、在相同最长公共子序列的情况下具有最长连续公共子序列长度的数据。为便于公共子序列最优匹配策略调用，将主体简化名称作为第一序列，将公司知识库中的各主体信息名称作为各个第二序列，以此将第一序列和第二序列进行匹配最长公共子序列及最长连续公共子序列。

S2：通过最长公共子序列动态规划法，依次将第一序列与各第二序列进行匹配，得到若干个最长公共子序列；

在本实施例中，最长公共子序列(Longest Common Subsequence，简称LCS)是一种用于比较两个序列相似度的量化方法。它用来找出两个序列(比如字符串)中共有的最长的子序列，即最长公共子序列。子序列不必要连续，但必须保持原序列中元素的相对顺序。例如，两个字符串，"ABCBDAB"和"BDCAB"，它们的最长公共子序列是"BCAB"。

可选的，步骤S2具体为：

可选的，基于当前待判断元素进行元素判断处理，并删除第一序列和当前的第二序列对应的当前待判断元素，获得当前的最长公共子序列，具体为：

在本实施例中，计算最长公共子序列使用动态规划方法，即最长公共子序列动态规划法，过程为：如果两个序列的最后一个元素相同，那么它们的最长公共子序列就是两个序列分别去掉最后一个元素后的最长公共子序列再加上这个相同的元素。如果两个序列的最后一个元素不同，那么它们的最长公共子序列就是两个序列分别去掉最后一个元素后的两个可能的最长公共子序列之一。

实施本发明实施例，通过这种最长公共子序列动态规划的方式，可以逐步减小问题的规模，直到问题变得足够小而易于解决。

需要说明的是，现有技术中的手机信令路网匹配的高速车辆位置识别方法通过正、逆两个方向的最长公共子序列快速定位到手机在高速公路上出现的位置，这样的方法在每个手机(主体)都有唯一编号，并且公路上除了规则编号以外没有其他信号时候奏效，但对于新闻数据，新闻数据除了主体外还有非常多的语义干扰信息，如果只用最长公共子序列匹配的方法，将错误将“经济形式下行，老百姓饭桌上是否还能多盘肉”这句话与主体数据库中存在的“老百姓大药房”进行最佳匹配，故而这种单一的匹配方法在高噪声的新闻数据场景下也往往失效。现有技术中，面向公共资源交易数据的清洗去重方法，基于重复数据具有完全一致描述的出发点进行最长公共子序列的计算，同样无法解决单一的匹配方法在高噪声的新闻数据场景中面临的分析困难，由于语义中主体的简写规则不同、语言语义不同等问题而导致最长公共子序列的匹配方法失效。

S3：根据各最长公共子序列，确定最优匹配长度；

在本实施例中，为了评估的匹配结果，将使用最优匹配长度判别法，将数据库中的主体信息名称与主体简化名称一一匹配，记录数据库中与主体简化名称达到最高全局匹配度量(LCS)的匹配数长度，即选择各最长公共子序列的长度中的最大值，记为最优匹配长度。如果最优匹配长度小于预设长度阈值(如：2)，则会输出“无法精确查询”，表示不能找到精确的公司主体。相反，如果最优匹配长度大于或等于预设长度阈值(如：2)，将提取出具有最优匹配的公司信息(各最长公共子序列)进行下一步的分析。

S4：当最优匹配长度不小于预设长度阈值时，通过最长连续公共子序列动态规划法，依次将各最长公共子序列与各第二序列进行匹配，得到若干个最长连续公共子序列；

在本实施例中，最长连续公共子序列，或者说最长公共子串(Longest CommonSubstring)，也是一种用于衡量两个序列相似程度的方法，它找出两个序列中共有的最长的连续子序列，即最长连续公共子序列。注意这与最长公共子序列是有区别的，最长公共子序列中的元素可以不连续，而最长连续公共子序列中的元素必须是连续的。例如，对于两个字符串"ABCDEF"和"ZBCDF"，他们的最长连续公共子序列是"BCD"。

可选的，通过最长连续公共子序列动态规划法，依次将各最长公共子序列与各第二序列进行匹配，得到若干个最长连续公共子序列，具体为：

可选的，基于当前待判断字符进行字符判断处理，并删除当前的最长公共子序列和当前的第二序列对应的当前待判断字符，获得当前的最长连续公共子序列，具体为：

在本实施例中，计算最长连续公共子序列通常动态规划的方法，即最长连续公共子序列动态规划法，规划过程为：如果当前的字符是匹配的，就在前一个匹配字符的基础上加一；如果不匹配，就重新开始。动态规划的表格中的每一项都是以当前字符结束的最长连续公共子序列的长度。最后，表格中的最大值就是最长连续公共子序列的长度，而序列本身可以通过回溯来获得。

S5：比较各最长连续公共子序列的序列长度，提取序列长度最小值对应的最长连续公共子序列，得到当前的主体简化名称对应的新闻主体名称识别结果。

在本实施例中，各最长连续公共子序列作为具有最优匹配的结果，在所有具有最优匹配的结果中剔除子公司名称，同时保留总公司名称。由于子公司名称往往比总公司主体名称长，所以保留所有最优匹配的结果中长度最小的结果作为输出结果。利用本发明方法对舆情数据的新闻主体识别，得到的新闻主体名称识别结果，以结构化的形式输出新闻主体名称，以此完成基于大模型的新闻主体判别方法识别出的最有关联关系的公司主体名称。

实施本发明实施例，具有以下优势：

实施例二

相应地，参见图3，图3是本发明提供的一种舆情数据的新闻主体识别系统的实施例二的结构示意图。如图3所示，舆情数据的新闻主体识别系统包括AI大模型模块401、主体信息模块402和最优主体匹配模块403；

其中，AI大模型模块401用于将新闻舆情数据通过AI大模型进行主体名称识别，得到舆情特征识别结果；其中，AI大模型通过基于上下文指令对ChatGPT模型进行数据训练而得到；

主体信息模块402用于通过对舆情特征识别结果进行字符串匹配，判断舆情特征识别结果中是否存在新闻主体，若不存在，则输出未识别出主体的提示信息；

最优主体匹配模块403用于若舆情特征识别结果中存在新闻主体，则将舆情特征识别结果进行无效信息剔除，得到主体简化数据，并对主体简化数据进行主体数量判别分割，获得主体简化名称；通过公共子序列最优匹配策略，将主体简化名称与预先构建的公司知识库进行匹配，得到新闻主体名称识别结果，并输出新闻主体名称识别结果；其中，主体简化名称至少为1个。

上述的一种舆情数据的新闻主体识别系统可实施上述方法实施例的一种舆情数据的新闻主体识别方法。上述方法实施例中的可选项也适用于本实施例，这里不再详述。本申请实施例的其余内容可参照上述方法实施例的内容，在本实施例中，不再进行赘述。

以上的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步的详细说明，应当理解，以上仅为本发明的具体实施例而已，并不用于限定本发明的保护范围。特别指出，对于本领域技术人员来说，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种舆情数据的新闻主体识别方法，其特征在于，包括：

将新闻舆情数据通过AI大模型进行主体名称识别，得到舆情特征识别结果；其中，所述AI大模型通过基于上下文指令对ChatGPT模型进行数据训练而得到；

通过对所述舆情特征识别结果进行字符串匹配，判断所述舆情特征识别结果中是否存在新闻主体，若不存在，则输出未识别出主体的提示信息；

若存在，则将所述舆情特征识别结果进行无效信息剔除，得到主体简化数据，并对所述主体简化数据进行主体数量判别分割，获得主体简化名称；通过公共子序列最优匹配策略，将所述主体简化名称与预先构建的公司知识库进行匹配，得到新闻主体名称识别结果，并输出所述新闻主体名称识别结果；其中，所述主体简化名称至少为1个。

2.如权利要求1所述的舆情数据的新闻主体识别方法，其特征在于，所述AI大模型通过基于上下文指令对ChatGPT模型进行数据训练而得到，具体为：

构建训练数据集；其中所述训练数据集包括问答数据、所述上下文指令和请求的实例数据；

将训练数据集输入所述ChatGPT模型进行模型训练，直至满足预设的训练结束条件，停止模型训练，将训练后的ChatGPT模型作为所述AI大模型。

3.如权利要求1所述的舆情数据的新闻主体识别方法，其特征在于，所述将所述舆情特征识别结果进行无效信息剔除，得到主体简化数据，具体为：

基于预设的无效修饰词，利用replace函数，将所述舆情特征识别结果中的无效修饰词替换为空值，得到所述主体简化数据；

其中，所述预设的无效修饰词是根据舆情特征中的修饰词对匹配过程的干扰程度而设置。

4.如权利要求1所述的舆情数据的新闻主体识别方法，其特征在于，所述对所述主体简化数据进行主体数量判别分割，获得主体简化名称，具体为：

判断所述主体简化数据中存在的主体数量，若所述存在的主体数量大于1，则利用split函数，对所述主体简化数据进行字符串逗号分割，将分割后的主体简化数据对应为多个所述主体简化名称；

若所述存在的主体数量不大于1，则将所述主体简化数据作为所述主体简化名称。

5.如权利要求1所述的舆情数据的新闻主体识别方法，其特征在于，所述通过公共子序列最优匹配策略，将所述主体简化名称与预先构建的公司知识库进行匹配，得到新闻主体名称识别结果，具体为：

将当前的主体简化名称作为第一序列，将所述公司知识库中的各主体信息名称作为第二序列；

通过最长公共子序列动态规划法，依次将所述第一序列与各所述第二序列进行匹配，得到若干个最长公共子序列；

根据各所述最长公共子序列，确定最优匹配长度；

当所述最优匹配长度不小于预设长度阈值时，通过最长连续公共子序列动态规划法，依次将各所述最长公共子序列与各所述第二序列进行匹配，得到若干个最长连续公共子序列；

比较各所述最长连续公共子序列的序列长度，提取所述序列长度最小值对应的最长连续公共子序列，得到所述当前的主体简化名称对应的新闻主体名称识别结果。

6.如权利要求5所述的舆情数据的新闻主体识别方法，其特征在于，所述通过最长公共子序列动态规划法，依次将所述第一序列与各所述第二序列进行匹配，得到若干个最长公共子序列，具体为：

提取所述第一序列和当前的第二序列对应的当前的最后一个元素，获得两个当前待判断元素，基于所述当前待判断元素进行元素判断处理，并删除所述第一序列和所述当前的第二序列对应的当前待判断元素，获得当前的最长公共子序列，依次循环提取所述第一序列和所述当前的第二序列对应的当前的最后一个元素并进行元素判断处理，直至处理完所述第一序列和当前的第二序列全部的元素，得到所述当前的第二序列对应的最长公共子序列；

统计各所述第二序列对应的最长公共子序列，得到所述若干个最长公共子序列。

7.如权利要求6所述的舆情数据的新闻主体识别方法，其特征在于，所述基于所述当前待判断元素进行元素判断处理，并删除所述第一序列和所述当前的第二序列对应的当前待判断元素，获得当前的最长公共子序列，具体为：

判断两个所述当前待判断元素是否相同，若相同，则分别删除所述第一序列和所述当前的第二序列对应的当前待判断元素，提取所述第一序列和所述当前的第二序列分别删除当前待判断元素后的最长公共子序列，将所述删除当前待判断元素后的最长公共子序列加上所述当前待判断元素，得到所述当前的最长公共子序列；

若不相同，则分别删除所述第一序列和所述当前的第二序列对应的当前待判断元素，并将所述第一序列和所述当前的第二序列分别删除所述当前待判断元素后的两个的最长公共子序列之一作为所述当前的最长公共子序列。

8.如权利要求6所述的舆情数据的新闻主体识别方法，其特征在于，所述通过最长连续公共子序列动态规划法，依次将各所述最长公共子序列与各所述第二序列进行匹配，得到若干个最长连续公共子序列，具体为：

提取当前的最长公共子序列和当前的第二序列对应的当前的第一个字符，获得两个当前待判断字符，基于所述当前待判断字符进行字符判断处理，并删除所述当前的最长公共子序列和所述当前的第二序列对应的当前待判断字符，获得当前的最长连续公共子序列，依次循环提取所述当前的最长公共子序列和所述当前的第二序列对应的当前的最后一个字符并进行字符判断处理，直至处理完所述当前的最长公共子序列和当前的第二序列全部的字符，得到所述当前的第二序列对应的最长连续公共子序列；

统计各所述第二序列对应的最长连续公共子序列，得到所述若干个最长连续公共子序列。

9.如权利要求8所述的舆情数据的新闻主体识别方法，其特征在于，所述基于所述当前待判断字符进行字符判断处理，并删除所述当前的最长公共子序列和所述当前的第二序列对应的当前待判断字符，获得当前的最长连续公共子序列，具体为：

判断两个所述当前待判断字符是否相同，若相同，则分别删除所述当前的最长公共子序列和所述当前的第二序列对应的当前待判断字符，提取所述当前待判断字符的到所述当前的最长连续公共子序列中；其中，在对所述当前待判断字符进行首次判断时，预设所述当前的最长连续公共子序列为空值；

若不相同，则分别删除所述当前的最长公共子序列和所述当前的第二序列对应的当前待判断字符。

10.一种舆情数据的新闻主体识别系统，其特征在于，包括：AI大模型模块、主体信息模块和最优主体匹配模块；

其中，所述AI大模型模块用于将新闻舆情数据通过AI大模型进行主体名称识别，得到舆情特征识别结果；其中，所述AI大模型通过基于上下文指令对ChatGPT模型进行数据训练而得到；

所述主体信息模块用于通过对所述舆情特征识别结果进行字符串匹配，判断所述舆情特征识别结果中是否存在新闻主体，若不存在，则输出未识别出主体的提示信息；

所述最优主体匹配模块用于若所述舆情特征识别结果中存在所述新闻主体，则将所述舆情特征识别结果进行无效信息剔除，得到主体简化数据，并对所述主体简化数据进行主体数量判别分割，获得主体简化名称；通过公共子序列最优匹配策略，将所述主体简化名称与预先构建的公司知识库进行匹配，得到新闻主体名称识别结果，并输出所述新闻主体名称识别结果；其中，所述主体简化名称至少为1个。