CN116383334B - 研报去重方法、装置、计算机设备及介质 - Google Patents

研报去重方法、装置、计算机设备及介质 Download PDF

Info

Publication number
CN116383334B
CN116383334B CN202310655681.4A CN202310655681A CN116383334B CN 116383334 B CN116383334 B CN 116383334B CN 202310655681 A CN202310655681 A CN 202310655681A CN 116383334 B CN116383334 B CN 116383334B
Authority
CN
China
Prior art keywords
report
grinding
similarity
cluster
lapping
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310655681.4A
Other languages
English (en)
Other versions
CN116383334A (zh
Inventor
汤文俊
白雪
孙小强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changsha Danwo Intelligent Technology Co ltd
Original Assignee
Changsha Danwo Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changsha Danwo Intelligent Technology Co ltd filed Critical Changsha Danwo Intelligent Technology Co ltd
Priority to CN202310655681.4A priority Critical patent/CN116383334B/zh
Publication of CN116383334A publication Critical patent/CN116383334A/zh
Application granted granted Critical
Publication of CN116383334B publication Critical patent/CN116383334B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Abstract

本发明属于数据处理技术领域,尤其是一种研报去重方法、装置、计算机设备及介质,包括获取原始研报,构建研报集;根据研报标题对研报集中的研报进行初分类,得到多个研报分类子集;将各研报分类子集中的研报向量化,得到表示各研报的研报向量;基于研报向量对各研报分类子集中的各研报进行聚类,聚类形成多个簇,研报分类子集中的多篇研报对应一个簇,每个簇至少包含两篇研报;对于每个研报分类子集中每个簇,计算簇中各研报之间的相似度;基于相似度判断每个研报分类子集中每个簇中研报是否重复,实现研报去重。本发明能够提高研报的去重质量和效率。

Description

研报去重方法、装置、计算机设备及介质
技术领域
本发明主要涉及到数据处理技术领域,尤其是一种研报去重方法、装置、计算机设备及介质。
背景技术
研报是指由证券公司、投资机构或研究机构编写的一种研究报告,主要针对某个行业、公司或市场进行调研和分析,是投资者了解市场和公司的重要参考资料之一。
基金公司为了了解公司、行业和市场的趋势和变化,以支持他们的投资决策,通常会从多个证券公司采购研报。此外,基金公司还会从相关数据服务商获取研报数据。然而,数据服务商与各证券公司发布的研报往往存在部分重复的情况,所以需要通过文本去重技术将相同的研报去除。
然而,研报数量多达几百上千万,研报之间两两比对将耗费大量的时间和算力,效率低下。
发明内容
针对现有技术中存在的问题,本发明提出一种研报去重方法、装置、计算机设备及介质。
为实现上述目的,本发明采用的技术方案如下:
一方面,本发明提供一种研报去重方法,包括:
获取原始研报,构建研报集;
根据研报标题对研报集中的研报进行初分类,得到多个研报分类子集;
将各研报分类子集中的研报向量化,得到表示各研报的研报向量;
基于研报向量对各研报分类子集中的各研报进行聚类,聚类形成多个簇,研报分类子集中的多篇研报对应一个簇,每个簇至少包含两篇研报;
对于每个研报分类子集中每个簇,计算簇中各研报之间的相似度;
基于相似度判断每个研报分类子集中每个簇中研报是否重复,实现研报去重。
进一步地,本发明中对于每个研报分类子集中的各研报,将研报的研报正文分词后输入到训练好的词向量模型中,得到研报正文中每个词的词向量,将研报正文中所有词的词向量取平均得到研报正文的向量表示,研报正文的向量表示即研报的向量表示。
进一步地,本发明中基于研报向量对各研报分类子集中的各研报进行聚类,包括:
在研报分类子集中,随机选择n篇研报的研报向量作为初始聚类中心;
计算研报分类子集中未选为当前聚类中心的各研报的研报向量与当前各聚类中心的距离,将未选为当前聚类中心的各研报分配到距离最近的当前聚类中心所属的簇;
对于当前每个簇,计算当前簇中所有研报向量的均值并将其作为新的聚类中心,不断迭代,直至聚类中心不再发生变化或者达到预设的最大迭代次数,得到最终的聚类结果,聚类形成n个簇。
进一步地,本发明中各研报之间的相似度包括表征各研报之间语义层级相似度的第一相似度以及表征各研报字符层级相似度的第二相似度。
进一步地,本发明中基于相似度判断每个研报分类子集中每个簇中研报是否重复,包括以下步骤:
对于研报分类子集中任意一个簇中的第i篇研报和第j篇研报,如第i篇研报和第j篇研报之间的第一相似度大于第一设定值,则继续判断该第i篇研报和第j篇研报之间的第二相似度;
如第i篇研报和第j篇研报之间的第二相似度大于第二设定值,则判断第i篇研报和第j篇研报相同即重复。
进一步地,本发明中基于相似度判断每个研报分类子集中每个簇中研报是否重复,包括以下步骤:
对于研报分类子集中任意一个簇中的第i篇研报和第j篇研报,如第i篇研报和第j篇研报之间的第一相似度大于第一设定值,则继续判断该第i篇研报和第j篇研报之间的第二相似度;
如第i篇研报和第j篇研报之间的第二相似度大于第二设定值,则判断第i篇研报和第j篇研报相同即重复。
进一步地,本发明中所述第一设定值大于等于0.9,第二设定值大于等于0.95。
另一方便,本发明提供一种研报去重装置,包括:
第一模块,用于获取原始研报,构建研报集;
第二模块,用于根据研报标题对研报集中的研报进行初分类,得到多个研报分类子集;
第三模块,用于将各研报分类子集中的研报向量化,得到表示各研报的研报向量;
第四模块,用于基于研报向量对各研报分类子集中的各研报进行聚类,聚类形成多个簇,研报分类子集中的多篇研报对应一个簇,每个簇至少包含两篇研报;
第五模块,用于对每个研报分类子集中每个簇,计算簇中各研报之间的相似度;
第六模块,用于基于相似度判断每个研报分类子集中每个簇中研报是否重复,实现研报去重。
另一方面,本发明提供一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现以下步骤:
获取原始研报,构建研报集;
根据研报标题对研报集中的研报进行初分类,得到多个研报分类子集;
将各研报分类子集中的研报向量化,得到表示各研报的研报向量;
基于研报向量对各研报分类子集中的各研报进行聚类,聚类形成多个簇,研报分类子集中的多篇研报对应一个簇,每个簇至少包含两篇研报;
对于每个研报分类子集中每个簇,计算簇中各研报之间的相似度;
基于相似度判断每个研报分类子集中每个簇中研报是否重复,实现研报去重。
另一方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取原始研报,构建研报集;
根据研报标题对研报集中的研报进行初分类,得到多个研报分类子集;
将各研报分类子集中的研报向量化,得到表示各研报的研报向量;
基于研报向量对各研报分类子集中的各研报进行聚类,聚类形成多个簇,研报分类子集中的多篇研报对应一个簇,每个簇至少包含两篇研报;
对于每个研报分类子集中每个簇,计算簇中各研报之间的相似度;
基于相似度判断每个研报分类子集中每个簇中研报是否重复,实现研报去重。
相比现有技术,本发明的技术效果至少体现在以下方面:
本发明通过研报初分类以及研报聚类,逐步将海量的研报数据进行相对精细的分类,缩小每个类别中研报的比对范围,从而提高研报去重的效果。
进一步地,本发明所提出的判断研报是否重复的方法,考虑了两个维度的相似度即本发明提出的第一相似度和第二相似度,基于这两种维度的相似度设计了判断研报是否重复的方法,能够提高研报去重的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1是一实施例的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参照图1,一实施例中提供一种研报去重方法,包括:
获取原始研报,构建研报集;
根据研报标题对研报集中的研报进行初分类,得到多个研报分类子集;
将各研报分类子集中的研报向量化,得到表示各研报的研报向量;
基于研报向量对各研报分类子集中的各研报进行聚类,聚类形成多个簇,研报分类子集中的多篇研报对应一个簇,每个簇至少包含两篇研报;
对于每个研报分类子集中每个簇,计算簇中各研报之间的相似度;
基于相似度判断每个研报分类子集中每个簇中研报是否重复,实现研报去重。
现有技术中成百上千万的研报两两比对将耗费大量的时间和算力,效率低下,没有提供一种高效的子集划分方法。通过上述实施例,通过研报初分类以及研报聚类,逐步将海量的研报数据进行相对精细的分类,缩小每个类别中研报的比对范围,从而提高研报去重的效率。基于研报之间的相似度判断每个研报分类子集中每个簇中研报是否重复,能够保证研报去重的准确率。
可以理解,本领域技术人员将券商提供的研报,以及从其他渠道如数据服务商提供的研报进行整合,形成研报集。
券商或其他渠道为基金公司提供研报时,会一并提供研报的类别及标题。因此,本发明根据研报标题对研报集中的研报进行初分类。初分类的方法可以基于现有技术进行,如利用现有的研报分类模型根据研报标题对研报集分类,形成m个分类子集,包括但不限于晨会早刊、公司研究、行业研究等。研报标题具有比较清晰的边界,如标题为“商品研究晨报:黑色系列”的研报将分到“晨会早刊”类别。
不失一般性,本发明一实施例中,提供一种训练研报分类模型的方法,包括:
获取大量历史研报,提取历史研报的研报标题并标注其研报类别,将研报标题和研报类别作为训练样本;
基于Bert模型构建研报分类模型;
利用训练样本训练所述研报分类模型,直至达到了设定的最大循环次数,得到训练好的研报分类模型。该训练好的研报分类模型,根据研报标题对研报集分类,其准确率可达99%以上。
关于获取研报的研报向量的方法,本领域技术人员可以基于目前已公开的方法获取。
不失一般性,在一实施例中,提出了一种获取研报的研报向量的方法,包括:对于每个研报分类子集中的各研报,将研报的研报正文分词后输入到训练好的词向量模型中,得到研报正文中每个词的词向量,将研报正文中所有词的词向量取平均得到研报正文的向量表示,研报正文的向量表示即研报的向量表示。其中词向量可以用于表示词的语义和语法信息。
词向量模型可以直接利用现有的词向量模型,词向量模型的类别和训练方法,本领域技术人员可以基于经验或者本领域公知常识、惯用技术手段进行选择。
不失一般性,在一实施例中,提出了一种词向量模型的训练方法,包括:
获取大量金融领域的历史研报,形成一个大规模的语料库;
将语料库中历史研报正文的所有词按照出现频率进行排序,剔除频率低于设定值的词,为保留下的每个词分配一个唯一的编号,从而构建出一个词汇表;
利用研报正文构建训练样本,其中构建方法是:选取一个预设大小的滑动窗口,循环遍历研报正文中的每一个词作为中心词,以窗口大小范围内的词作为上下文,从而形成一组由上下文单词和中心词构成的训练样本;
将训练样本中的上下文单词和中心词通过词汇表转为向量表示,得到训练样本的上下文单词向量;
使用训练样本训练神经网络模型,以训练样本的上下文单词向量为输入,预测中心词向量的概率分布,使得模型的预测结果尽可能地接近真实的中心词;
最终得到一个训练好的面向金融领域的词向量模型。
上述实施例中,考虑上下文语义,利用金融领域内大量的研报数据训练词向量模型,可以使得每个词获得更好的金融领域语义表示。例如“恒生电子公司”和其股票代码“600570”具有较高的相似性,这是通用词向量模型无法具备的。
在一实施例中,提出了将各研报分类子集中研报的向量表示聚类的方法,包括:
在研报分类子集中,随机选择n篇研报的研报向量作为初始聚类中心,n的取值不限,如设为30;
计算研报分类子集中未选为当前聚类中心的各研报的研报向量与当前各聚类中心的距离,将未选为当前聚类中心的各研报分配到距离最近的当前聚类中心所属的簇;
对于当前每个簇,计算当前簇中所有研报向量的均值并将其作为新的聚类中心,不断迭代,直至聚类中心不再发生变化或者达到预设的最大迭代次数,得到最终的聚类结果,聚类形成n个簇。
研报之间的相似度常被用来做研报去重,目前本领域有很多指标用于计算文本、文本字符之间的相似度。
本发明中,各研报之间的相似度包括表征各研报之间语义层级相似度的第一相似度以及表征各研报字符层级相似度的第二相似度。即本发明在进行相似度考量上,至少考量了研报之间两个维度上的相似度,即语义层级和字符层级,基于此而进行的相似度判断,将更加准确。进一步地一实施例中,提出了一种基于相似度判断每个研报分类子集中每个簇中研报是否重复,包括以下步骤:
对于研报分类子集中任意一个簇中的第i篇研报和第j篇研报,如第i篇研报和第j篇研报之间的第一相似度大于第一设定值,则继续判断该第i篇研报和第j篇研报之间的第二相似度;
如第i篇研报和第j篇研报之间的第二相似度大于第二设定值,则判断第i篇研报和第j篇研报相同即重复。
上述实施例先进行语义层级相似度的判断,满足条件之后再进行字符层级的相似度判断,这样的相似度判断方式能够有效提高相似度判断的准确性,基于此而实现的去重,能够提高研报去重的准确率。
可以理解,本领域技术人员可以基于现有的计算语义层级相似度的方法计算研报之间的第一相似度,基于现有的计算字符层级相似度的方法计算研报之间的第二相似度。
不失一般性,在本发明的一优选实施例中,提出了一种计算研报之间的第一相似度的方法,具体如下:
其中表示第i篇研报和第j篇研报的第一相似度,/>、/>分别表示第i篇研报和第j篇研报的研报向量。
由第一相似度可以得到两篇研报之间语义层级的相似度,即结合上下文以及词本身的语义这个维度得到两篇研报之间的相似度。
不失一般性,在本发明的另一优选实施例中,提出了一种计算研报之间的第二相似度的方法,具体如下:
其中表示第i篇研报和第j篇研报的第二相似度,/>、/>分别表示第i篇研报和第j篇研报的字符序列,/>表示第i篇研报和第j篇研报之间的编辑距离,是指由/>修改为/>所要插入、删除、替换的字符数量;/>、/>分别表示第i篇研报和第j篇研报的字符序列长度,/>表示取其中的较大值。
基于上述实施例提供的方法,从第二相似度能够从字符层级得到两篇研报之间的相似度。
无论是单从哪个层级计算研报之间的相似度,其都存在一定的弊端,如研报中存在水印等情况,仅通过字符层级的的相似度比较无法保证两篇研报是否完全一致,缺乏语义之间的对比判断。进一步地,本发明一实施例中提出了一种新的基于相似度判断每个研报分类子集中每个簇中研报是否重复的方法,包括以下步骤:
对于研报分类子集中任意一个簇中的第i篇研报和第j篇研报,如第i篇研报和第j篇研报之间的第一相似度大于第一设定值,则继续判断该第i篇研报和第j篇研报之间的第二相似度;
如第i篇研报和第j篇研报之间的第二相似度大于第二设定值,则判断第i篇研报和第j篇研报相同即重复。
可以理解,上述实施例中第一设定值、第二设定值可以根据情况而定。作为优选实施例,所述第一设定值大于等于0.9,第二设定值大于等于0.95,基于该设定能够最大程度上保证相似度判断的准确性。
本发明通过上述优选实施例,上述优选实施例也可以相互结合形成新的优选实施例,各实施例能够在大规模研报集上实现了高效且准确的去重。本发明为大规模数据的文本去重提供了一种高效的解决方案,可广泛应用于各种类型的研究领域,提高研究效率,避免重复研究,节省时间和资源成本。
一实施例中,提供一种研报去重装置,包括:
第一模块,用于获取原始研报,构建研报集;
第二模块,用于根据研报标题对研报集中的研报进行初分类,得到多个研报分类子集;
第三模块,用于将各研报分类子集中的研报向量化,得到表示各研报的研报向量;
第四模块,用于基于研报向量对各研报分类子集中的各研报进行聚类,聚类形成多个簇,研报分类子集中的多篇研报对应一个簇,每个簇至少包含两篇研报;
第五模块,用于对每个研报分类子集中每个簇,计算簇中各研报之间的相似度;
第六模块,用于基于相似度判断每个研报分类子集中每个簇中研报是否重复,实现研报去重。
上述各模块的实现方法以及模型的构建均可采用前述任一实施例的中所描述的方法,在此不再赘述。
另一方面,本发明提供一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述任一实施例中所提供的研报去重方法的步骤。该计算机设备可以是服务器。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储样本数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。
另一方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述任一实施例中所提供的研报去重方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
本发明未尽事宜为公知技术。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
以上所述仅为本发明的优选的实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.研报去重方法,其特征在于,包括:
获取原始研报,构建研报集;
根据研报标题对研报集中的研报进行初分类,得到多个研报分类子集;
将各研报分类子集中的研报向量化,得到表示各研报的研报向量;
基于研报向量对各研报分类子集中的各研报进行聚类,聚类形成多个簇,研报分类子集中的多篇研报对应一个簇,每个簇至少包含两篇研报;
对于每个研报分类子集中每个簇,计算簇中各研报之间的相似度,其中各研报之间的相似度包括表征各研报之间语义层级相似度的第一相似度以及表征各研报字符层级相似度的第二相似度;
基于相似度判断每个研报分类子集中每个簇中研报是否重复,实现研报去重,包括以下步骤:
对于研报分类子集中任意一个簇中的第i篇研报和第j篇研报,如第i篇研报和第j篇研报之间的第一相似度大于第一设定值,则继续判断该第i篇研报和第j篇研报之间的第二相似度;
如第i篇研报和第j篇研报之间的第二相似度大于第二设定值,则判断第i篇研报和第j篇研报相同即重复。
2.根据权利要求1所述的研报去重方法,其特征在于,对于每个研报分类子集中的各研报,将研报的研报正文分词后输入到训练好的词向量模型中,得到研报正文中每个词的词向量,将研报正文中所有词的词向量取平均得到研报正文的向量表示,研报正文的向量表示即研报的向量表示。
3.根据权利要求1或2所述的研报去重方法,其特征在于,基于研报向量对各研报分类子集中的各研报进行聚类,包括:
在研报分类子集中,随机选择n篇研报的研报向量作为初始聚类中心;
计算研报分类子集中未选为当前聚类中心的各研报的研报向量与当前各聚类中心的距离,将未选为当前聚类中心的各研报分配到距离最近的当前聚类中心所属的簇;
对于当前每个簇,计算当前簇中所有研报向量的均值并将其作为新的聚类中心,不断迭代,直至聚类中心不再发生变化或者达到预设的最大迭代次数,得到最终的聚类结果,聚类形成n个簇。
4.根据权利要求1或2所述的研报去重方法,其特征在于,第一相似度的计算方法如下:
其中表示第i篇研报和第j篇研报的第一相似度,/>、/>分别表示第i篇研报和第j篇研报的研报向量。
5.根据权利要求1或2所述的研报去重方法,其特征在于,第二相似度的计算方法如下:
其中表示第i篇研报和第j篇研报的第二相似度,/>、/>分别表示第i篇研报和第j篇研报的字符序列,/>表示第i篇研报和第j篇研报之间的编辑距离,是指由/>修改为/>所要插入、删除、替换的字符数量;/>、/>分别表示第i篇研报和第j篇研报的字符序列长度,/>表示取其中的较大值。
6.研报去重装置,其特征在于,包括:
第一模块,用于获取原始研报,构建研报集;
第二模块,用于根据研报标题对研报集中的研报进行初分类,得到多个研报分类子集;
第三模块,用于将各研报分类子集中的研报向量化,得到表示各研报的研报向量;
第四模块,用于基于研报向量对各研报分类子集中的各研报进行聚类,聚类形成多个簇,研报分类子集中的多篇研报对应一个簇,每个簇至少包含两篇研报;
第五模块,用于对每个研报分类子集中每个簇,计算簇中各研报之间的相似度,其中各研报之间的相似度包括表征各研报之间语义层级相似度的第一相似度以及表征各研报字符层级相似度的第二相似度;
第六模块,用于基于相似度判断每个研报分类子集中每个簇中研报是否重复,实现研报去重,包括以下步骤:
对于研报分类子集中任意一个簇中的第i篇研报和第j篇研报,如第i篇研报和第j篇研报之间的第一相似度大于第一设定值,则继续判断该第i篇研报和第j篇研报之间的第二相似度;
如第i篇研报和第j篇研报之间的第二相似度大于第二设定值,则判断第i篇研报和第j篇研报相同即重复。
7.根据权利要求6所述的研报去重装置,其特征在于,所述第三模块中,对于每个研报分类子集中的各研报,将研报的研报正文分词后输入到训练好的词向量模型中,得到研报正文中每个词的词向量,将研报正文中所有词的词向量取平均得到研报正文的向量表示,研报正文的向量表示即研报的向量表示。
8.根据权利要求6所述的研报去重装置,其特征在于,所述第四模块中,基于研报向量对各研报分类子集中的各研报进行聚类,包括:
在研报分类子集中,随机选择n篇研报的研报向量作为初始聚类中心;
计算研报分类子集中未选为当前聚类中心的各研报的研报向量与当前各聚类中心的距离,将未选为当前聚类中心的各研报分配到距离最近的当前聚类中心所属的簇;
对于当前每个簇,计算当前簇中所有研报向量的均值并将其作为新的聚类中心,不断迭代,直至聚类中心不再发生变化或者达到预设的最大迭代次数,得到最终的聚类结果,聚类形成n个簇。
9.一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,其特征在于,所述处理器执行计算机程序时实现如权利要求1所述的研报去重方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,计算机程序被处理器执行时实现如权利要求1所述的研报去重方法的步骤。
CN202310655681.4A 2023-06-05 2023-06-05 研报去重方法、装置、计算机设备及介质 Active CN116383334B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310655681.4A CN116383334B (zh) 2023-06-05 2023-06-05 研报去重方法、装置、计算机设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310655681.4A CN116383334B (zh) 2023-06-05 2023-06-05 研报去重方法、装置、计算机设备及介质

Publications (2)

Publication Number Publication Date
CN116383334A CN116383334A (zh) 2023-07-04
CN116383334B true CN116383334B (zh) 2023-08-08

Family

ID=86963792

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310655681.4A Active CN116383334B (zh) 2023-06-05 2023-06-05 研报去重方法、装置、计算机设备及介质

Country Status (1)

Country Link
CN (1) CN116383334B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102024065A (zh) * 2011-01-18 2011-04-20 中南大学 基于simd优化的网页去重并行方法
CN102831193A (zh) * 2012-08-03 2012-12-19 人民搜索网络股份公司 基于分布式多级聚类的话题检测装置及方法
KR101377114B1 (ko) * 2012-10-11 2014-03-24 한양대학교 에리카산학협력단 뉴스 요약문 생성 시스템 및 방법
CN112163145A (zh) * 2020-10-09 2021-01-01 杭州安恒信息技术股份有限公司 基于编辑距离与余弦夹角的网站检索方法、装置及设备
CN114281989A (zh) * 2021-12-06 2022-04-05 重庆邮电大学 基于文本相似度的数据去重方法、装置及存储介质和服务器
CN114896392A (zh) * 2022-04-14 2022-08-12 北京宝兰德软件股份有限公司 工单数据的聚类方法、装置、电子设备及存储介质
CN115270738A (zh) * 2022-09-30 2022-11-01 北京澜舟科技有限公司 一种研报生成方法、系统及计算机存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2583716C2 (ru) * 2013-12-18 2016-05-10 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Метод построения и обнаружения тематической структуры корпуса

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102024065A (zh) * 2011-01-18 2011-04-20 中南大学 基于simd优化的网页去重并行方法
CN102831193A (zh) * 2012-08-03 2012-12-19 人民搜索网络股份公司 基于分布式多级聚类的话题检测装置及方法
KR101377114B1 (ko) * 2012-10-11 2014-03-24 한양대학교 에리카산학협력단 뉴스 요약문 생성 시스템 및 방법
CN112163145A (zh) * 2020-10-09 2021-01-01 杭州安恒信息技术股份有限公司 基于编辑距离与余弦夹角的网站检索方法、装置及设备
CN114281989A (zh) * 2021-12-06 2022-04-05 重庆邮电大学 基于文本相似度的数据去重方法、装置及存储介质和服务器
CN114896392A (zh) * 2022-04-14 2022-08-12 北京宝兰德软件股份有限公司 工单数据的聚类方法、装置、电子设备及存储介质
CN115270738A (zh) * 2022-09-30 2022-11-01 北京澜舟科技有限公司 一种研报生成方法、系统及计算机存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
百度智能云视频AI技术助力媒体行业产业升级;叶芷;马彩虹;戴兵;;人工智能(02);全文 *

Also Published As

Publication number Publication date
CN116383334A (zh) 2023-07-04

Similar Documents

Publication Publication Date Title
Gu et al. Principled approach to the selection of the embedding dimension of networks
Al Maadeed et al. Automatic prediction of age, gender, and nationality in offline handwriting
CN110287328B (zh) 一种文本分类方法、装置、设备及计算机可读存储介质
US9483544B2 (en) Systems and methods for calculating category proportions
CN110019792A (zh) 文本分类方法及装置和分类器模型训练方法
CN111325205B (zh) 文档图像方向识别方法、装置及模型的训练方法、装置
Taimori et al. A novel forensic image analysis tool for discovering double JPEG compression clues
WO2022048363A1 (zh) 网站分类方法、装置、计算机设备及存储介质
Sudholt et al. A modified isomap approach to manifold learning in word spotting
CN102982077A (zh) 用户数据处理方法及装置
CN110909540B (zh) 短信垃圾新词识别方法、装置及电子设备
CN112434884A (zh) 一种供应商分类画像的建立方法及装置
CN116383334B (zh) 研报去重方法、装置、计算机设备及介质
WO2023072094A1 (zh) 一种对神经网络中层特征表达能力的可视化及定量分析方法和系统
CN115358340A (zh) 一种信贷催收短信判别方法、系统、设备及存储介质
Matsumoto et al. Capturing corporate attributes in a new perspective through fuzzy clustering
CN116108127A (zh) 一种基于异构图交互和掩码多头注意力机制的文档级事件抽取方法
Li et al. Evolutionary mechanism of risk factor disclosure in american financial corporation annual report
Álvaro et al. Page segmentation of structured documents using 2d stochastic context-free grammars
CN111428510A (zh) 一种基于口碑的p2p平台风险分析方法
Nguyen et al. Features selection in microscopic printing analysis for source printer identification with machine learning
Yindumathi et al. Structured data extraction using machine learning from image of unstructured bills/invoices
Kacar et al. Price Rank Prediction of a Company by Utilizing Data Mining Methods on Financial Disclosures
CN110888977B (zh) 文本分类方法、装置、计算机设备和存储介质
Zhao New Development Strategy for Economic Platform Using Big Data Analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant