CN116383334A

CN116383334A - 研报去重方法、装置、计算机设备及介质

Info

Publication number: CN116383334A
Application number: CN202310655681.4A
Authority: CN
Inventors: 汤文俊; 白雪; 孙小强
Original assignee: Changsha Danwo Intelligent Technology Co ltd
Current assignee: Changsha Danwo Intelligent Technology Co ltd
Priority date: 2023-06-05
Filing date: 2023-06-05
Publication date: 2023-07-04
Anticipated expiration: 2043-06-05
Also published as: CN116383334B

Abstract

本发明属于数据处理技术领域，尤其是一种研报去重方法、装置、计算机设备及介质，包括获取原始研报，构建研报集；根据研报标题对研报集中的研报进行初分类，得到多个研报分类子集；将各研报分类子集中的研报向量化，得到表示各研报的研报向量；基于研报向量对各研报分类子集中的各研报进行聚类，聚类形成多个簇，研报分类子集中的多篇研报对应一个簇，每个簇至少包含两篇研报；对于每个研报分类子集中每个簇，计算簇中各研报之间的相似度；基于相似度判断每个研报分类子集中每个簇中研报是否重复，实现研报去重。本发明能够提高研报的去重质量和效率。

Description

研报去重方法、装置、计算机设备及介质

技术领域

本发明主要涉及到数据处理技术领域，尤其是一种研报去重方法、装置、计算机设备及介质。

背景技术

研报是指由证券公司、投资机构或研究机构编写的一种研究报告，主要针对某个行业、公司或市场进行调研和分析，是投资者了解市场和公司的重要参考资料之一。

基金公司为了了解公司、行业和市场的趋势和变化，以支持他们的投资决策，通常会从多个证券公司采购研报。此外，基金公司还会从相关数据服务商获取研报数据。然而，数据服务商与各证券公司发布的研报往往存在部分重复的情况，所以需要通过文本去重技术将相同的研报去除。

然而，研报数量多达几百上千万，研报之间两两比对将耗费大量的时间和算力，效率低下。

发明内容

针对现有技术中存在的问题，本发明提出一种研报去重方法、装置、计算机设备及介质。

为实现上述目的，本发明采用的技术方案如下：

一方面，本发明提供一种研报去重方法，包括：

获取原始研报，构建研报集；

根据研报标题对研报集中的研报进行初分类，得到多个研报分类子集；

将各研报分类子集中的研报向量化，得到表示各研报的研报向量；

基于研报向量对各研报分类子集中的各研报进行聚类，聚类形成多个簇，研报分类子集中的多篇研报对应一个簇，每个簇至少包含两篇研报；

对于每个研报分类子集中每个簇，计算簇中各研报之间的相似度；

基于相似度判断每个研报分类子集中每个簇中研报是否重复，实现研报去重。

进一步地，本发明中对于每个研报分类子集中的各研报，将研报的研报正文分词后输入到训练好的词向量模型中，得到研报正文中每个词的词向量，将研报正文中所有词的词向量取平均得到研报正文的向量表示，研报正文的向量表示即研报的向量表示。

进一步地，本发明中基于研报向量对各研报分类子集中的各研报进行聚类，包括：

在研报分类子集中，随机选择n篇研报的研报向量作为初始聚类中心；

计算研报分类子集中未选为当前聚类中心的各研报的研报向量与当前各聚类中心的距离，将未选为当前聚类中心的各研报分配到距离最近的当前聚类中心所属的簇；

对于当前每个簇，计算当前簇中所有研报向量的均值并将其作为新的聚类中心，不断迭代，直至聚类中心不再发生变化或者达到预设的最大迭代次数，得到最终的聚类结果，聚类形成n个簇。

进一步地，本发明中各研报之间的相似度包括表征各研报之间语义层级相似度的第一相似度以及表征各研报字符层级相似度的第二相似度。

进一步地，本发明中基于相似度判断每个研报分类子集中每个簇中研报是否重复，包括以下步骤：

对于研报分类子集中任意一个簇中的第i篇研报和第j篇研报，如第i篇研报和第j篇研报之间的第一相似度大于第一设定值，则继续判断该第i篇研报和第j篇研报之间的第二相似度；

如第i篇研报和第j篇研报之间的第二相似度大于第二设定值，则判断第i篇研报和第j篇研报相同即重复。

进一步地，本发明中所述第一设定值大于等于0.9，第二设定值大于等于0.95。

另一方便，本发明提供一种研报去重装置，包括：

第一模块，用于获取原始研报，构建研报集；

第二模块，用于根据研报标题对研报集中的研报进行初分类，得到多个研报分类子集；

第三模块，用于将各研报分类子集中的研报向量化，得到表示各研报的研报向量；

第四模块，用于基于研报向量对各研报分类子集中的各研报进行聚类，聚类形成多个簇，研报分类子集中的多篇研报对应一个簇，每个簇至少包含两篇研报；

第五模块，用于对每个研报分类子集中每个簇，计算簇中各研报之间的相似度；

第六模块，用于基于相似度判断每个研报分类子集中每个簇中研报是否重复，实现研报去重。

另一方面，本发明提供一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现以下步骤：

获取原始研报，构建研报集；

另一方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取原始研报，构建研报集；

相比现有技术，本发明的技术效果至少体现在以下方面：

本发明通过研报初分类以及研报聚类，逐步将海量的研报数据进行相对精细的分类，缩小每个类别中研报的比对范围，从而提高研报去重的效果。

进一步地，本发明所提出的判断研报是否重复的方法，考虑了两个维度的相似度即本发明提出的第一相似度和第二相似度，基于这两种维度的相似度设计了判断研报是否重复的方法，能够提高研报去重的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1是一实施例的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参照图1，一实施例中提供一种研报去重方法，包括：

获取原始研报，构建研报集；

现有技术中成百上千万的研报两两比对将耗费大量的时间和算力，效率低下，没有提供一种高效的子集划分方法。通过上述实施例，通过研报初分类以及研报聚类，逐步将海量的研报数据进行相对精细的分类，缩小每个类别中研报的比对范围，从而提高研报去重的效率。基于研报之间的相似度判断每个研报分类子集中每个簇中研报是否重复，能够保证研报去重的准确率。

可以理解，本领域技术人员将券商提供的研报，以及从其他渠道如数据服务商提供的研报进行整合，形成研报集。

券商或其他渠道为基金公司提供研报时，会一并提供研报的类别及标题。因此，本发明根据研报标题对研报集中的研报进行初分类。初分类的方法可以基于现有技术进行，如利用现有的研报分类模型根据研报标题对研报集分类，形成m个分类子集，包括但不限于晨会早刊、公司研究、行业研究等。研报标题具有比较清晰的边界，如标题为“商品研究晨报：黑色系列”的研报将分到“晨会早刊”类别。

不失一般性，本发明一实施例中，提供一种训练研报分类模型的方法，包括：

获取大量历史研报，提取历史研报的研报标题并标注其研报类别，将研报标题和研报类别作为训练样本；

基于Bert模型构建研报分类模型；

利用训练样本训练所述研报分类模型，直至达到了设定的最大循环次数，得到训练好的研报分类模型。该训练好的研报分类模型，根据研报标题对研报集分类，其准确率可达99%以上。

关于获取研报的研报向量的方法，本领域技术人员可以基于目前已公开的方法获取。

不失一般性，在一实施例中，提出了一种获取研报的研报向量的方法，包括：对于每个研报分类子集中的各研报，将研报的研报正文分词后输入到训练好的词向量模型中，得到研报正文中每个词的词向量，将研报正文中所有词的词向量取平均得到研报正文的向量表示，研报正文的向量表示即研报的向量表示。其中词向量可以用于表示词的语义和语法信息。

词向量模型可以直接利用现有的词向量模型，词向量模型的类别和训练方法，本领域技术人员可以基于经验或者本领域公知常识、惯用技术手段进行选择。

不失一般性，在一实施例中，提出了一种词向量模型的训练方法，包括：

获取大量金融领域的历史研报，形成一个大规模的语料库；

将语料库中历史研报正文的所有词按照出现频率进行排序，剔除频率低于设定值的词，为保留下的每个词分配一个唯一的编号，从而构建出一个词汇表；

利用研报正文构建训练样本，其中构建方法是：选取一个预设大小的滑动窗口，循环遍历研报正文中的每一个词作为中心词，以窗口大小范围内的词作为上下文，从而形成一组由上下文单词和中心词构成的训练样本；

将训练样本中的上下文单词和中心词通过词汇表转为向量表示，得到训练样本的上下文单词向量；

使用训练样本训练神经网络模型，以训练样本的上下文单词向量为输入，预测中心词向量的概率分布，使得模型的预测结果尽可能地接近真实的中心词；

最终得到一个训练好的面向金融领域的词向量模型。

上述实施例中，考虑上下文语义，利用金融领域内大量的研报数据训练词向量模型，可以使得每个词获得更好的金融领域语义表示。例如“恒生电子公司”和其股票代码“600570”具有较高的相似性，这是通用词向量模型无法具备的。

在一实施例中，提出了将各研报分类子集中研报的向量表示聚类的方法，包括：

在研报分类子集中，随机选择n篇研报的研报向量作为初始聚类中心，n的取值不限，如设为30；

研报之间的相似度常被用来做研报去重，目前本领域有很多指标用于计算文本、文本字符之间的相似度。

本发明中，各研报之间的相似度包括表征各研报之间语义层级相似度的第一相似度以及表征各研报字符层级相似度的第二相似度。即本发明在进行相似度考量上，至少考量了研报之间两个维度上的相似度，即语义层级和字符层级，基于此而进行的相似度判断，将更加准确。进一步地一实施例中，提出了一种基于相似度判断每个研报分类子集中每个簇中研报是否重复，包括以下步骤：

上述实施例先进行语义层级相似度的判断，满足条件之后再进行字符层级的相似度判断，这样的相似度判断方式能够有效提高相似度判断的准确性，基于此而实现的去重，能够提高研报去重的准确率。

可以理解，本领域技术人员可以基于现有的计算语义层级相似度的方法计算研报之间的第一相似度，基于现有的计算字符层级相似度的方法计算研报之间的第二相似度。

不失一般性，在本发明的一优选实施例中，提出了一种计算研报之间的第一相似度的方法，具体如下：

；

其中

表示第i篇研报和第j篇研报的第一相似度，/>

、/>

分别表示第i篇研报和第j篇研报的研报向量。

由第一相似度可以得到两篇研报之间语义层级的相似度，即结合上下文以及词本身的语义这个维度得到两篇研报之间的相似度。

不失一般性，在本发明的另一优选实施例中，提出了一种计算研报之间的第二相似度的方法，具体如下：

；

其中

表示第i篇研报和第j篇研报的第二相似度，/>

、/>

分别表示第i篇研报和第j篇研报的字符序列，/>

表示第i篇研报和第j篇研报之间的编辑距离，是指由/>

修改为/>

所要插入、删除、替换的字符数量；/>

、/>

分别表示第i篇研报和第j篇研报的字符序列长度，/>

表示取其中的较大值。

基于上述实施例提供的方法，从第二相似度能够从字符层级得到两篇研报之间的相似度。

无论是单从哪个层级计算研报之间的相似度，其都存在一定的弊端，如研报中存在水印等情况，仅通过字符层级的的相似度比较无法保证两篇研报是否完全一致，缺乏语义之间的对比判断。进一步地，本发明一实施例中提出了一种新的基于相似度判断每个研报分类子集中每个簇中研报是否重复的方法，包括以下步骤：

可以理解，上述实施例中第一设定值、第二设定值可以根据情况而定。作为优选实施例，所述第一设定值大于等于0.9，第二设定值大于等于0.95，基于该设定能够最大程度上保证相似度判断的准确性。

本发明通过上述优选实施例，上述优选实施例也可以相互结合形成新的优选实施例，各实施例能够在大规模研报集上实现了高效且准确的去重。本发明为大规模数据的文本去重提供了一种高效的解决方案，可广泛应用于各种类型的研究领域，提高研究效率，避免重复研究，节省时间和资源成本。

一实施例中，提供一种研报去重装置，包括：

第一模块，用于获取原始研报，构建研报集；

上述各模块的实现方法以及模型的构建均可采用前述任一实施例的中所描述的方法，在此不再赘述。

另一方面，本发明提供一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现上述任一实施例中所提供的研报去重方法的步骤。该计算机设备可以是服务器。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储样本数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。

另一方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述任一实施例中所提供的研报去重方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

本发明未尽事宜为公知技术。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

以上所述仅为本发明的优选的实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。