CN115858738B

CN115858738B - 一种企业舆情信息相似性识别方法

Info

Publication number: CN115858738B
Application number: CN202310165337.7A
Authority: CN
Inventors: 张闻天; 闫大强; 王恩浩; 王超; 钱慧
Original assignee: Zhejiang Zheshang Future Technology Co ltd; Zhejiang Zheshang Financial Holding Co ltd
Current assignee: Zhejiang Zheshang Future Technology Co ltd; Zhejiang Zheshang Financial Holding Co ltd
Priority date: 2023-02-27
Filing date: 2023-02-27
Publication date: 2023-06-02
Anticipated expiration: 2043-02-27
Also published as: CN115858738A

Abstract

本公开涉及一种企业舆情信息相似性识别方法。根据本公开实施例的方法，包括：对企业舆情信息进行识别、标注，使得每条企业舆情信息均标引舆情主体、舆情类型、所属行业、情感倾向标签；基于舆情主体标签将每个舆情主体分类为一个组簇；对每一个组簇内的企业舆情信息按照所属行业、舆情类型和情感倾向标签进行分组；对每个组簇内的每个分组内的信息进行相似度计算并删除相似度高的信息，之后对每个组簇的所有分组的信息进行相似度计算并删除相似度高的信息，最终将所有组簇内的企业舆情信息合并存入企业舆情文本库中。本公开实施例能够全面获取并筛选出非重复性企业舆情信息，数据处理效率高，有助于金融机构对企业进行精准风险管理。

Description

一种企业舆情信息相似性识别方法

技术领域

本公开的实施例总体上涉及信息技术领域，特别地涉及一种企业舆情信息相似性识别方法。

背景技术

在新型资讯媒介广泛发展的今天，形成了各式各样的资讯渠道。其中充斥着数量庞大，内容繁杂，影响广泛的舆情信息。作为全面风险管理体系中重要的部分，舆情信息的监测与风险管理至关重要。

舆情信息有着非结构化、非标准化、实效性高、重复率高的特点，给如何快速精准识别有效舆情带来了巨大挑战。因此现阶段亟需一种舆情信息相似性识别的方法，解决舆情信息重复率高的问题，以获得不具有重复性数据的有效舆情数据。

发明专利申请CN202210095093.5公开了一种相似舆情文本识别方法，具体公开了方法包括：确定目标舆情数据；其中，所述目标舆情数据中包括：目标舆情文本；从所述目标舆情文本中提取若干目标实体；对所述目标舆情文本进行分词，得到若干分词结果；根据所述若干分词结果，生成目标特征编码；查询预设的舆情文本库中是否包含与所述若干目标实体关联的候选舆情文本；其中，所述舆情文本库中存储舆情文本及其关联的实体；根据查询结果和所述目标特征编码，识别所述目标舆情文本是否与所述舆情文本库中的舆情文本相似。该发明的目的在于识别目标舆情与舆情文本库的相似性，对于相似的目标舆情不进行重复展示。该发明保证效果的前提是舆情文本库本身不存在重复的舆情信息，如果舆情文本库本身所存储的存量舆情信息存在大量重复舆情的情况下，仅能保证新获取到的舆情信息不会与舆情文本库内的舆情重复，但这些存量的已重复信息无法处理。并且，该方法并不适用于企业舆情信息识别，尤其用于风险评估用途时，企业信息随市场变化而发生诸多变化，例如企业主体发生变更，企业发生上市、并购、破产等重大事件等，这些变化数据需要实时获取，即需要经常更新舆情文本库。为此，需要花大量时间对舆情文本库进行更新完善，之后舆情文本又需要对扩增的舆情文本库进行上述步骤的比对，信息处理低效。

发明专利申请CN202011562957.7公开了筛选舆情信息及监测企业主体风险等级的舆情引擎及方法，并具体公开了方法包括：S1.获取线上的舆情信息，并计算所述舆情信息的各维度标签结果，并根据预设的各维度标签值，筛选满足要求的舆情信息并构建信息集合，其中，各维度标签结果包括情感倾向、主题分布、命名体、风险得分；S2.对所述信息集合进行相似分析，计算所述信息集合中所述舆情信息之间的相似度，剔除相似的舆情信息并构建比较样本集；S3.按照企业主体对比较样本集中的舆情信息进行分类，并根据相应舆情信息中的命名体风险得分计算当前节点该企业主体的风险得分，基于企业主体的风险得分映射出每个企业主体的风险等级，用于动态监测与各命名体相对应的企业主体的风险等级变化。该发明先对获取的舆情信息进行打标，根据四个维度算法对舆情信息标注四种标签；在标注后，根据筛选需要（即需要每个标签满足不同预设条件）删选出后续所需比对信息集合。也就是说，该发明不对所有舆情数据进行全方面的去重处理，仅对满足要求的舆情信息进行去重处理。虽然一定程度减少了相似度数据处理量，但仅仅解决的每次按需情况下的相似度计算量，而实际获得的线上舆情数据仍存在大量重复性；并且由于预设条件受人为主观限制，可能在筛选后过滤了不重复的其他数据，即最终获得的信息集合存在数据不全的问题，进一步，这个数据还影响到后续风险评估的准确性。此外，该方法在标注舆情信息时就开始计算风险得分，即在未删除重复性舆情数据的样本数据下进行风险计算，计算量庞大且需要对部分舆情数据进行重复性风险计算，信息处理低效。

发明内容

本公开的实施例提供了一种企业舆情信息相似性识别方法，旨在解决上述问题以及其他潜在的问题中的一个或多个。

根据本公开的第一方面，提供了一种企业舆情信息相似性识别方法，包括：

步骤S01，获取企业舆情信息并对所述企业舆情信息进行识别和标注，使得每条企业舆情信息均标引舆情主体标签、舆情类型标签、所属行业标签、情感倾向标签；

步骤S02，基于舆情主体标签，将所有企业舆情信息进行分类，每个舆情主体为一个组簇；之后，基于所属行业标签、舆情类型标签和情感倾向标签，对每一个组簇内的企业舆情信息进行分组，分组间不存在相同的企业舆情信息；

步骤S03，对同一分组内的企业舆情信息进行相似度匹配计算，删除同一分组内重复的企业舆情信息，以获得不具有重复的企业舆情信息的分组；之后，对同一组簇内的所有分组的企业舆情信息进行相似度匹配计算，删除同一组簇内重复的企业舆情信息，以获得不具有重复的企业舆情信息的组簇；

步骤S04，对所有组簇进行步骤S03处理后，将所有组簇内的企业舆情信息合并存入企业舆情文本库中。

根据本公开实施例的方法，将获得的所有舆情信息从整体细分成组簇、分组；并依次对组内、组簇内组间企业舆情信息进行重复性信息删除处理，继而合并成整体存入企业舆情文本库中。即对所有舆情信息进行层级分类，并按层级进行有序重复性筛选，能够高效、细致地筛除重复信息。进一步，分组基于多维度完成，通过所属行业标签、舆情类型标签和情感倾向标签更能细化分组内容，避免重复性信息因遗漏而保留；此外，分组数据的相似度比对可并行处理，且每个分组可处理数据量少，大大加快了处理效率。

在一些实施例中，所述步骤S01中对所述企业舆情信息进行识别和标注的具体步骤包括：

步骤S11，利用自然语义识别算法识别企业舆情信息的正文，获得语义信息；利用自然语义识别算法和分词法识别企业舆情信息的标题和正文，获得与舆情主体相关的分词信息；

步骤S12，对照舆情类型库和情感倾向库，对企业舆情信息标注舆情类型标签和情感倾向标签；结合工商信息库、与舆情主体相关的分词信息进行分析，对企业舆情信息标注舆情主体标签和所属行业标签；

其中，所述舆情类型库存储有舆情类型标签及其相关的语义信息，所述情感倾向库存储有情感倾向标签及其相关的语义信息；所述工商信息库存储有企业注册的主体名称和企业所属行业。

在一些实施例中，所述步骤S11中利用分词法识别企业舆情信息的标题和正文，获得与舆情主体相关的分词信息的具体过程包括：利用企业工商信息词库对企业舆情信息的正文和标题进行分词处理，获得与舆情主体相关的分词信息；

所述步骤S12中结合工商信息库、与舆情主体相关的分词信息进行分析，对分析的企业舆情信息标注舆情主体标签和所属行业标签的具体过程包括：将与舆情主体相关的分词信息，通过模糊匹配算法，与工商信息库内信息进行模糊匹配，继而获得舆情主体名称，并以舆情主体名称作为舆情主体标签对企业舆情信息进行标注；基于舆情主体名称对照工商信息库内信息，获得所属行业信息，并以该所属行业信息作为所属行业标签对企业舆情信息进行标注。

在一些实施例中，步骤S02具体包括：

步骤S21，基于舆情主体标签，将所有企业舆情信息进行分类，每个舆情主体为一个组簇；

步骤S22，对每一个组簇内的企业舆情信息，按照分类条件进行分组；所述分类条件是基于所属行业标签、舆情类型标签和情感倾向标签的种类排列组合形成，使得每一分组内的企业舆情信息都包含所属行业标签、舆情类型标签和情感倾向标签，且分组间不存在相同的企业舆情信息。

在一些实施例中，所述步骤S03具体包括：

步骤S31，利用自然语义识别算法和分词法对同一分组的企业舆情信息的标题进行识别、分词，并获得标题关键词组；

步骤S32，对同一分组的任意两个企业舆情信息，利用余弦相似度算法，计算两个企业舆情信息的标题关键词组的相似度；并判断相似度大于第一阈值时，判定两个企业舆情信息为相似信息，将相似信息的两个企业舆情信息存入同一识别组存储单元内，否则存入不同识别组存储单元内；以此方法完成同一分组内的相似度计算和企业舆情信息分类存储；

步骤S33，当识别组存储单元内存储的企业舆情信息超过1条时，进行剔除，最终使得每个识别组存储单元仅存储一条企业舆情信息；并将所有识别组存储单元内的企业舆情信息合并存储在同一分组内；

步骤S34，对同一组簇内的其他分组依次采用步骤S31~步骤S33进行相似度匹配计算和重复企业舆情信息删除操作，将不同分组内的所有企业舆情信息合并存储在同一组簇内；

步骤S35，对同一组簇内的任意两个企业舆情信息，利用余弦相似度算法，计算两个企业舆情信息的标题关键词组的相似度；并判断相似度大于第二阈值时，判定两个企业舆情信息为相似信息，将相似信息的两个企业舆情信息存入同一识别簇存储单元内，否则存入不同识别簇存储单元内；以此方法完成同一组簇内的相似度计算和企业舆情信息分类存储；

步骤S36，当识别簇存储单元内存储的企业舆情信息超过1条时，进行剔除，最终使得每个识别簇存储单元仅存储一条企业舆情信息；并将所有识别存储单元内的企业舆情信息合并存储在同一组簇内。

在一些实施例中，所述步骤S33和步骤S36中剔除操作具体为：将超过1条企业舆情信息的识别组存储单元或识别簇存储单元的所有企业舆情信息发送至人工终端识别，识别后获得删除指令并对不同识别组存储单元或识别簇存储单元执行不同删除指令。

在一些实施例中，方法还包括：在步骤S02后前在步骤S03前，对同一组簇内的所有企业舆情信息的正文进行特殊字模糊匹配，对具有特殊字的企业舆情信息标引优先处理标记；在执行步骤S03时，对同一分组内带有优先处理标记的企业舆情信息进行相似度匹配计算，并在判断两个企业舆情信息为相似信息时，删除带有优先处理标记的企业舆情信息。

在一些实施例中，方法还包括企业舆情文本库更新步骤，当再次获取企业舆情信息时，获取此次获取的每个企业舆情信息的发布时间，判断是否与前一次获取的每个企业舆情信息的发布时间是否有重叠，若有，则删除此次获取的所有企业舆情信息中与历史重叠的企业舆情信息，之后对处理后的此次企业舆情信息按照步骤S01进行识别标注，之后执行步骤S02对企业舆情信息进行分类，最后执行步骤S03，将去除重复信息的所有组簇内的企业舆情信息合并入前一次的企业舆情文本库中。

在一些实施例中，所述企业舆情文本库更新步骤还包括对合并后的企业舆情文本库进行过滤处理步骤，

首先，基于此次获取的企业舆情信息的最早发布时间，获取合并前的企业舆情文本库在最早发布时间前的一段时间内的企业舆情信息以及此次获取的企业舆情信息中自最早发布时间往后的一段时间内的企业舆情信息，并将两段时间的企业舆情信息构建为处理组；

其次，利用自然语义识别算法和分词法对处理组内的企业舆情信息的标题进行识别、分词，并获得标题关键词组；对任意两个企业舆情信息，利用余弦相似度算法，计算两个企业舆情信息的标题关键词组的相似度；并判断相似度大于第三阈值时，判定两个企业舆情信息为相似信息，将相似信息的两个企业舆情信息存入同一存储单元内，否则存入不同存储单元内；以此方法完成处理组内的相似度计算和企业舆情信息分类存储；

之后，当存储单元内存储的企业舆情信息超过1条时，对多余的企业舆情信息标引剔除标记，并将带有剔除标记的所有企业舆情信息存储在剔除库内；

最后，参照剔除库，对合并后的企业舆情文本库进行过滤，滤除带有剔除标记的企业舆情信息。

在一些实施例中，方法还包括步骤S05，依据企业舆情文本库中的企业舆情信息对舆情主体进行风险评估。

附图说明

通过参考附图阅读下文的详细描述，本公开的实施例的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例而非限制性的方式示出本公开的若干实施例。

图1示出根据本公开的实施例的一种企业舆情信息相似性识别方法的流程图。

在各个附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施例。虽然附图中显示了本公开的优选实施例，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

在本文中使用的术语“包括”及其变形表示开放性包括，即“包括但不限于”。除非特别申明，术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。

舆情信息一般从网络获得，其来源有各大官方网站、主流门户网站、新闻网站、新媒体（论坛、公众号等）。舆情信息繁杂、多样，且自身还有着非结构化、非标准化、实效性高、重复率高的特点，为此，如何快速精准全面识别有效舆情带来了巨大挑战，对于如何在识别后又能全面高效获得非重复性的舆情信息，则显得难上加难。

现有对于舆情信息的相似度识别方法也有许多，但由于针对的舆情信息的内容特点和使用用途，不是每一种相似度识别方法都能适用。对于风险管理用途的舆情信息识别，现有发明专利申请“CN202011562957.7，筛选舆情信息及监测企业主体风险等级的舆情引擎及方法”公开了剔除相似的舆情信息并进行风险管理的方案。此方案并不对所有舆情信息进行相似度去重处理，而是根据预设的各维度标签值筛选满足要求的舆情信息后，对信息集合（即所有舆情信息中的部分）进行相似度去重。具体来说，如果需求是低分险、负面情感倾向、命名体识别为紧密，则获得的舆情信息包含上述标签的信息；如果需求是高风险、命名体识别为紧密，则获得的舆情信息包含上述标签的信息。可见，上述两种情况的数据是少量的，并不是全部。之后对筛选获得的信息集合进行相似度去重，也仅仅对于所需的舆情信息进行相似度去重。在此方案下，其不对所有舆情信息去重，仅根据需求去重，能够减少数据处理量，提高数据处理效率，方便根据使用需求进行快速而非全面准确综合的企业风险评估。此外，该方法在标注舆情信息时就开始计算风险得分，即在未删除重复性舆情数据的样本数据下进行风险计算，一方面，计算量庞大且需要对部分舆情数据进行重复性风险计算，信息处理低效；另一方面无法适用采用不同风险评估标准的金融机构的使用。

针对此，根据本公开实施例，提供一种企业舆情信息相似性识别方法，能够全面准确、多维度、高效对获得的所有舆情信息进行分析、识别、去重处理，并获得处理后的企业舆情文本库，可供采用不同风险评估标准的金融机构进行不同的风险评估管理。下面结合附图来详细说明根据本公开实施例的一种企业舆情信息相似性识别方法的具体实现过程。

图1示出根据本公开的实施例的。如图1所示，一种企业舆情信息相似性识别方法，包括：

本公开实施例的方法由控制端执行，所述控制端可以为PC端或中控端。

本公开的实施例对获取的企业舆情信息进行识别标注后，对所有企业舆情信息进行重复性筛选。筛选过程中并不是一次性对所有数据进行重复性筛选，而是对所有舆情信息进行层级分类，并按层级进行有序的重复性筛选，能够高效、细致地筛除重复信息。由于分层级后，每个层级每个组内的数据相对比较少，分组内的数据量少加快的计算效率，同时分组间还可以并行处理，又大大加快了计算进程。基于处理完的最小单元（即分组）后再处理组簇内的数据时，组簇内处理后的数据显著比未处理前的数据少，这也大大提高了计算效率。

相比于现有技术，本公开的实施例对每条企业舆情信息均进行多维度标签标引，并且在分组时也对企业按照多维度分组，能细化分组情况，不仅将每个分组内的数据量控制在比较低的范畴内，而且还能进行多次重复性筛查，能全面不遗漏地筛选出存在的重复性企业舆情信息。

本公开实施例在完成重复性筛选后形成包含非重复的企业舆情信息的企业舆情文本库。这个企业舆情文本库并不同现有技术一样，其内的企业舆情信息并未进行风险评估。为此，可以供金融机构根据各自企业风险管理规则进行应用。

在步骤S01中，所述企业舆情信息是在线爬取获得，可通过网络获取来自相关舆情数据服务器或公开渠道记载舆情信息的门户，例如政府部门及国优企业官网、主流门户网站、各大新闻咨询类网站、微博公众号、微信公众号等新媒体。

在获得企业舆情信息后，将每个企业舆情信息关联该企业舆情信息发布时间、信息来源的方式存储。之后，对所有企业舆情信息进行识别和标注。

其中，所述舆情类型库存储有舆情类型标签及其相关的语义信息。所述舆情类型标签包括公司基本信息、公司经营信息、上市信息、破产、高管异动等。上述舆情类别标签所相关的语义信息根据大数据或人工收集获得，并需要根据人工经验判定所属类型，在舆情类型库构建后可通过学习模型学习优化。进而，在本公开实施例的方法执行前预先构建好舆情类型库，其内按照舆情类别标签对应语义信息的方式存储。所述情感倾向库存储有情感倾向标签及其相关的语义信息。所述情感倾向标签包括正向情感倾向、负向情感倾向、中性情感倾向。上述情感倾向标签所相关的语义信息根据大数据或人工收集获得，并需要根据人工经验判定归属倾向，在情感倾向库构建后可通过学习模型学习优化。进而，在本公开实施例的方法执行前预先构建情感倾向库，其内按照情感倾向标签对应语义信息的方式存储。

当在步骤S11下分析获得语义信息后，通过步骤S12对照舆情类型库和情感倾向库，就能获得每个企业舆情信息的所属标签。当分析的语义信息归属于哪一类标签时，即标引此类舆情类型标签。例如，当语义信息包含公司成立时间，成立位置等信息时，则对此企业舆情信息标引标签“公司基本信息”，又例如，当语义信息包含上市、新股募集等信息时，则对此企业舆情信息标引标签“上市信息”。当分析的语义信息归属于哪一类标签时，即标引此类情感倾向类型标签。例如，当语义信息包含工商查处、罚款等信息时，则对企业舆情信息标引标签“负向情感倾向”；又例如，当语义信息包含驰名商标、佳绩等信息时，则对企业舆情信息标引标签“正向情感倾向”。

所述工商信息库存储有企业注册的主体名称和企业所属行业。所述工商信息库按照企业注册的主体名称对应企业所属企业的方式存储。主体名称为企业的正式名称，一般为营业执照上的名称。所述企业工商信息词库存储有企业工商信息的各类字段。上述工商信息库内的数据、企业工商信息词库的字段均是通过工商局数据通道获得，在执行本公开前预先存储。

所述步骤S11中利用分词法识别企业舆情信息的标题和正文，获得与舆情主体相关的分词信息的具体过程包括：利用企业工商信息词库对企业舆情信息的正文和标题进行分词处理，获得与舆情主体相关的分词信息。此分词信息中包含企业简称或全称或英文缩写。

在一示例下，当步骤S11中获得分词信息包含“浙江城投”时，在进行步骤S12时，模糊匹配得到舆情主体名称为“浙江城市建设投资有限公司”，则对此企业舆情信息标引标签“浙江城市建设投资有限公司”；在获得具体名称后，对照工商信息库内信息，即可获得其所属建筑行业的信息，则对此企业舆情信息标引标签“建筑行业”。

除了上述标签外，还可根据重要性进行标引。则需要引入重要数据库，在本公开实施例的方法执行前预先存储，其将重要等级与其相关语义信息对应存储在内。重要等级分为重大、一般等，其关联的语义信息通过大数据或人工收集完成，并由人工判定语义信息归属哪个等级，在重要数据库构建后可通过学习模型学习优化。

在一些实施例中，步骤S02具体包括：

在一示例下，当所属行业标签包括建筑行业、光学行业、木材行业三个标签，舆情类型标签包括公司基本信息、公司经营信息、上市信息三个标签，情感倾向标签包括正向情感倾向、负向情感倾向、中性情感倾向三个标签时，此时分组情况根据上述三类标签进行排列组合，且每种标签有多个不同标签，则可以有27种情况，例如，分组1（建筑行业、公司基本信息、正向情感倾向），分组2（建筑行业、公司基本信息、负向情感倾向），分组3（建筑行业、公司基本信息、中性情感倾向）…，分组27（木材行业、上市信息、中性情感倾向）。理论上有27个分组，实际上有可能不是每个分组都包含企业舆情信息，则有分组可能存储数据为空。则后续进行步骤S03相似度匹配计算时，可通过判断分组是否为空数据而不对此分组进行相似度匹配，或者，在此环节对空的分组进行删除处理。

由于分组是基于多维度分组，即分组后每个分组内具有有限数量的企业舆情信息。在此多维度约束下，可降低分组内存在重复舆情的可能性。

在一些实施例中，步骤S02具体包括：

步骤S22，对每一个组簇内的企业舆情信息，按照分类条件进行分组，使得每一分组内的企业舆情信息都包含所属行业标签、舆情类型标签和情感倾向标签，且分组间不存在相同的企业舆情信息。所述分类条件基于所属行业标签、舆情类型标签和情感倾向标签确定。

步骤S22分组过程中，可以先获取一条企业舆情信息的所属行业标签、舆情类型标签和情感倾向标签，将该企业舆情信息所具有的标签设定为分类条件，并且该企业舆情信息归为一分组，其他符合该条件的企业舆情信息归属于此分组，遍历完所有企业舆情信息，对剩余的企业舆情信息继续分组，按上述方式直至所有企业舆情信息分完为止。

相比于前述实施例，省去了对空数据分组处理的环节。但需要不断循环遍历过程，进行分组，这就导致有些企业舆情信息需要被多次判断，分类过程较长，而前述实施例在确定多个分组后，可在一次遍历后完成所有企业舆情信息分类，分类过程较短。

步骤S03对分类后的企业舆情信息进行分级去重判断处理。在一些实施例中，所述步骤S03具体包括：

该过程相似度匹配计算过程不对企业舆情信息正文识别判断，而仅对企业舆情信息标题识别判断。因为在步骤S02已经进行了全面分组，简单通过标题判断即可，也能大大提高去重判断效率。需要注意的是，本文未特别说明企业舆情信息的正文或标题时，通常理解其同时包括正文和标题。

在步骤S31中，对分组内企业舆情信息的标题进行识别、分词，分词结果中包含无意义的词（如助词、语气词等）、以及有意义的词（如舆情主体、与情感倾相关联的词、与舆情类型相关联的词、与舆情主要内容相关联的词等）。在进行步骤S32前，需要去除无意义的词，之后剩下有意义的词，而这些有意义的词即为标题关键词，若干个标题关键词构成标题关键词组。

在执行步骤S32时，可利用余弦相似度算法计算。在一示例下，舆情相似度计算模型采用如下公式：

其中，A为分组内任一舆情标题关键词组经过TF-IDF计算后的n维向量；B为与A相比的另一舆情标题关键词组经过TF-IDF计算后的n维向量。通过这种方式计算多维向量空间内两个点的距离来判断两个舆情标题的相似性。该余弦值越接近1，两个舆情标题关键词组越相似，此时即可将两个舆情信息标记为相似。其中，TF-IDF（term frequency–inversedocument frequency）是一种用于信息检索与数据挖掘的常用加权技术。TF是词频(TermFrequency)，IDF是逆文本频率指数(Inverse Document Frequency)。TF-IDF方法已普遍引用，在此不再赘述。

当判断相似与否后，对判断后的企业舆情信息进行分类存储在不同识别组存储单元内。那如何两两比对？在一示例下，先获取任意两个企业舆情信息，对于相似的直接存储在一起，再比对不相似企业舆情信息，当剩下的企业舆情信息都不相似时，各自存储在不用识别组存储单元内。在另一示例下，顺次比对，比如按照发布时间顺次比对，第一个跟第二个、第三个、直至最后一个依次比对，获得相似结果后，在第一轮比对后将与第一个相似的其他几个企业舆情信息连通第一个企业舆情信息一同存储在第1识别组存储单元，之后对剩下的再进行依次比对，重复上述过程，直到完成所有比对。

在完成相似与否的分类存储后，执行步骤S33，对企业舆情信息数量超过1条的识别组存储单元进行剔除处理，使得每个识别组存储单元仅保留一条。在一示例下，可任意删除企业舆情信息数量，仅保留一条。在另一示例下，将识别组存储单元存储的企业舆情信息均发送至人工终端，由人工终端的技术人员进行人工辅助判断，删除重复的企业舆情信息，并发送删除指令返回本公开的执行端，执行端根据删除指令删除指定的企业舆情信息。在人工辅助判断过程中，还能审阅企业舆情的正文，若为不相似的企业舆情信息，人工终端发送拆分指令返回本公开的执行端，执行端根据拆分指令将相关企业舆情信息从原先识别组存储单元中删除，并将该企业舆情信息存储到新的识别组存储单元内。

当一分组内的企业舆情信息去重处理后，对同一组簇内其他分组也按上述步骤进行去重处理。当同一组簇内的所有分组均进行完去重处理后，将每个分组内的所有企业舆情信息合并存储在同一组簇内。之后，利用步骤S35对同一组簇内的分组间的企业舆情信息进行去重处理，此过程用到的相似度计算模型可参照步骤S32中的模型，具体不再赘述。

当判断相似与否后，对判断后的企业舆情信息进行分类存储在不同识别簇存储单元内。那如何两两比对？在一示例下，先获取任意两个企业舆情信息，对于相似的直接存储在一起，再比对不相似企业舆情信息，当剩下的企业舆情信息都不相似时，各自存储在不用识别簇存储单元内。在另一示例下，顺次比对，比如按照发布时间顺次比对，第一个跟第二个、第三个、直至最后一个依次比对，获得相似结果后，在第一轮比对后将与第一个相似的其他几个企业舆情信息连通第一个企业舆情信息一同存储在第1识别簇存储单元，之后对剩下的再进行依次比对，重复上述过程，直到完成所有比对。

在完成相似与否的分类存储后，执行步骤S36，对企业舆情信息数量超过1条的识别簇存储单元进行剔除处理，使得每个识别簇存储单元仅保留一条。在一示例下，可任意删除企业舆情信息数量，仅保留一条。在另一示例下，将识别组存储单元存储的企业舆情信息均发送至人工终端，由人工终端的技术人员进行人工辅助判断，删除重复的企业舆情信息，并发送删除指令返回本公开的执行端，执行端根据删除指令删除指定的企业舆情信息。在人工辅助判断过程中，还能审阅企业舆情的正文，若为不相似的企业舆情信息，人工终端发送拆分指令返回本公开的执行端，执行端根据拆分指令将相关企业舆情信息从原先识别簇存储单元中删除，并将该企业舆情信息存储到新的识别簇存储单元内。

当一组簇内的企业舆情信息去重处理后，即完成了一个舆情主体的企业舆情信息去重处理。

当有多个舆情主体时，需要重复上述过程，直到完成所有舆情主体的企业舆情信息去重处理。

上述过程中，第一阈值和第二阈值尽可能接近1设置，例如第一阈值和第二阈值可取相同值，如0.95；又例如第一阈值和第二阈值可取不通知，第一阈值可取0.97，第二阈值可取0.95。本公开示例不限于上述数值。

为了进一步提高处理效率，本公开实施例的方法还包括：在步骤S02后前在步骤S03前，对同一组簇内的所有企业舆情信息的正文进行特殊字模糊匹配，对具有特殊字的企业舆情信息标引优先处理标记；在执行步骤S03时，对同一分组内带有优先处理标记的企业舆情信息进行相似度匹配计算，并在判断两个企业舆情信息为相似信息时，删除带有优先处理标记的企业舆情信息。所述特殊字为“转载”、“摘自”、“摘录”等表明此企业舆情信息不是源信息而是转载信息。此类特殊字一般在正文中体现。当对具有特殊字的企业舆情信息进行优先比对，并优先删除具有特殊字的企业舆情信息。此外，若对具有特殊字的企业舆情信息比对后，未找到相似企业舆情信息，即具有特殊字的企业舆情信息未被删除，则人工辅助判断时，由人工端重点审核此具有特殊字的企业舆情信息。

企业舆情信息会随着时间推移越来越多，为此，需要经常获取企业舆情信息，并对企业舆情文本库进行更新。本公开实施例的方法还包括企业舆情文本库更新步骤，当再次获取企业舆情信息时，获取此次获取的每个企业舆情信息的发布时间，判断是否与前一次获取的每个企业舆情信息的发布时间是否有重叠，若有，则删除此次获取的所有企业舆情信息中与历史重叠的企业舆情信息，之后对处理后的此次企业舆情信息按照步骤S01进行识别标注，之后执行步骤S02对企业舆情信息进行分类，最后执行步骤S03，将去除重复信息的所有组簇内的企业舆情信息合并入前一次的企业舆情文本库中。

此更新过程中参照的步骤S01、步骤S02、步骤S03不具体展开，具体可参见前述描述。此更新步骤主要是将重叠时间段内的企业舆情信息进行删除处理，即无需对重叠时间段内的企业舆情信息进行多余的去重处理流程，仅对新增时间段的企业舆情信息进行去重处理，减小数据处理量。

进一步，考虑到相近时间内的企业舆情信息存在重复性概率较大，为此，可对相近时间内的企业舆情信息进行过滤处理。所述企业舆情文本库更新步骤还包括对合并后的企业舆情文本库进行过滤处理步骤，

该相近时间可以理解成合并前的企业舆情文本库在最早发布时间前的一段时间加上此次获取的企业舆情信息中自最早发布时间往后的一段时间不超过1个月。具体可根据需要设定，如7天或2周等。

上述求解相似度以及按照相似与否分类存储的过程可参照前文步骤S32，在此不再展开。

上述确定需要标引剔除标记的企业舆情信息是哪一条的过程，可参照步骤S33的方式。在一示例下，可随机选取多余企业舆情信息并打标；在另一示例下，将存储单元内的企业舆情信息发送给人工短，由人工辅助判断。执行端根据人工端反馈指令打标。

本公开实施例的方法还包括：步骤S05，依据企业舆情文本库中的企业舆情信息对舆情主体进行风险评估。

在完成前述步骤后，步骤S05进行风险评估的企业舆情文本库已经做好了去重处理，这样金融机构可根据金融风险管理准则进行不同的风险评估。在一示例下，根据比重进行风险评估，如重要性占比30%，情感倾向占比20%，舆情类型占比30%，所属行业占比20%。每个标签中的每一项自定义评分表。这样执行端可根据风险评估算法快速获得最终风险评估分数，并依据风险评估对照表获得风险等级。风险评估对照表存储有不同分数段所对应的风险等级。所述自定义评分表和所述风险评估对照表由金融机构端设置。在另一示例下，利用企业舆情文本库的信息结合其他财务信息进行风险评估。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征。相反，上面所描述的特定特征仅仅是实现权利要求书的示例形式。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种企业舆情信息相似性识别方法，其特征在于，包括：

步骤S02，基于舆情主体标签，将所有企业舆情信息进行分类，每个舆情主体为一个组簇；之后，基于所属行业标签、舆情类型标签和情感倾向标签，对每一个组簇内的企业舆情信息进行分组，分组间不存在相同的企业舆情信息；步骤S02具体包括：

步骤S22，对每一个组簇内的企业舆情信息，按照分类条件进行分组；所述分类条件是基于所属行业标签、舆情类型标签和情感倾向标签的种类排列组合形成，使得每一分组内的企业舆情信息都包含所属行业标签、舆情类型标签和情感倾向标签，且分组间不存在相同的企业舆情信息；

2.根据权利要求1所述一种企业舆情信息相似性识别方法，其特征在于，所述步骤S01中对所述企业舆情信息进行识别和标注的具体步骤包括：

3.根据权利要求2所述的一种企业舆情信息相似性识别方法，其特征在于，所述步骤S11中利用分词法识别企业舆情信息的标题和正文，获得与舆情主体相关的分词信息的具体过程包括：利用企业工商信息词库对企业舆情信息的正文和标题进行分词处理，获得与舆情主体相关的分词信息；

4.根据权利要求1所述的一种企业舆情信息相似性识别方法，其特征在于，所述步骤S03具体包括：

5.根据权利要求4所述的一种企业舆情信息相似性识别方法，其特征在于，所述步骤S33和步骤S36中剔除操作具体为：将超过1条企业舆情信息的识别组存储单元或识别簇存储单元的所有企业舆情信息发送至人工终端识别，识别后获得删除指令并对不同识别组存储单元或识别簇存储单元执行不同删除指令。

6.根据权利要求1所述的一种企业舆情信息相似性识别方法，其特征在于，方法还包括：在步骤S02后前在步骤S03前，对同一组簇内的所有企业舆情信息的正文进行特殊字模糊匹配，对具有特殊字的企业舆情信息标引优先处理标记；在执行步骤S03时，对同一分组内带有优先处理标记的企业舆情信息进行相似度匹配计算，并在判断两个企业舆情信息为相似信息时，删除带有优先处理标记的企业舆情信息。

7.根据权利要求1所述的一种企业舆情信息相似性识别方法，其特征在于，方法还包括企业舆情文本库更新步骤，当再次获取企业舆情信息时，获取此次获取的每个企业舆情信息的发布时间，判断是否与前一次获取的每个企业舆情信息的发布时间是否有重叠，若有，则删除此次获取的所有企业舆情信息中与历史重叠的企业舆情信息，之后对处理后的此次企业舆情信息按照步骤S01进行识别标注，之后执行步骤S02对企业舆情信息进行分类，最后执行步骤S03，将去除重复信息的所有组簇内的企业舆情信息合并入前一次的企业舆情文本库中。

8.根据权利要求7所述的一种企业舆情信息相似性识别方法，其特征在于，所述企业舆情文本库更新步骤还包括对合并后的企业舆情文本库进行过滤处理步骤，

9.根据权利要求1所述的一种企业舆情信息相似性识别方法，其特征在于，方法还包括步骤S05，依据企业舆情文本库中的企业舆情信息对舆情主体进行风险评估。