CN111694928A

CN111694928A - 数据指标推荐方法、装置、计算机设备及可读存储介质

Info

Publication number: CN111694928A
Application number: CN202010468898.0A
Authority: CN
Inventors: 李果夫; 高寒冰; 刘剑; 李燕婷; 李毅琳
Original assignee: Ping An Asset Management Co Ltd
Current assignee: Ping An Asset Management Co Ltd
Priority date: 2020-05-28
Filing date: 2020-05-28
Publication date: 2020-09-22

Abstract

本发明公开了一种数据指标推荐方法、装置、计算机设备及可读存储介质，该方法包括：获取用户终端的目标研究报告；其中，所述目标研究报告包括：目标研报作者和目标行业信息；查找与所述目标研报作者对应的显著指标集合，以及与所述目标行业信息对应的行业指标集合；其中，所述显著指标集合包含与所述目标研报作者相关的数据指标，所述行业指标集合包含与所述目标行业信息相关的数据指标；提取所述显著指标集合和所述行业指标集合中相同的数据指标以构建关联指标集合；将所述关联指标集合中的数据指标推荐给所述用户终端；本发明可以快速、准确的为用户推荐数据指标。

Description

数据指标推荐方法、装置、计算机设备及可读存储介质

技术领域

本发明涉及数据推送领域，具体涉及一种数据指标推荐方法、装置、计算机设备及可读存储介质。

背景技术

传统的金融终端可以提供数据的查询、搜索和浏览功能，但由于金融领域包含宏观数据指标、政策数据指标、行业数据指标、市场交易数据指标等各个类型的数据指标，使得金融领域的数据指标的数量巨大。

本发明创造的发明人在研究中发现，虽然传统的金融终端可以提供搜索功能，但是传统的搜索方式难以为用户提供指导性意见，需要用户通过自己的研究经验、或者对比已知文献、甚至毫无目标的尝试来寻找适合自己研究问题的数据指标。因此，如何便于用户利用金融终端快速搜索到需要的数据指标成为本领域技术人员亟需解决的技术问题。

发明内容

本发明的目的在于提供一种数据指标推荐方法、装置、计算机设备及可读存储介质，可以快速、准确的为用户推荐数据指标。

根据本发明的一个方面，提供了一种数据指标推荐方法，具体包括以下步骤：

获取用户终端的目标研究报告；其中，所述目标研究报告包括：目标研报作者和目标行业信息；

查找与所述目标研报作者对应的显著指标集合，以及与所述目标行业信息对应的行业指标集合；其中，所述显著指标集合包含与所述目标研报作者相关的数据指标，所述行业指标集合包含与所述目标行业信息相关的数据指标；

提取所述显著指标集合和所述行业指标集合中相同的数据指标以构建关联指标集合；

将所述关联指标集合中的数据指标推荐给所述用户终端。

可选的，在所述获取用户终端的目标研究报告之前，所述方法还包括：

获取研报样本集；其中，所述研报样本集包括：设定数量的研究报告，以及每个研究报告的研报作者；

基于预设的自然语言处理算法，识别出包含在每个研究报告中的标准数据指标；

以各研报作者为分类条件，统计出各研报作者所属的研究报告中各个标准数据指标的出现次数，以形成作者指标矩阵；

其中，所述作者指标矩阵的每行代表一个研报作者，所述作者指标矩阵的每列代表一个标准数据指标；所述作者指标矩阵中的行与列的交叉处代表一个研报作者在一个标准数据指标下的出现次数。

可选的，在所述以各研报作者为分类条件，统计出各研报作者所属的研究报告中各个标准数据指标的出现次数，以形成作者指标矩阵之后，所述方法还包括：

根据所述作者指标矩阵，确定出每个研报作者的指标向量；其中，所述指标向量是根据研报作者在各个标准数据指标下的出现次数确定出的；

根据每个研报作者的指标向量，计算任意两个研报作者之间的相似度值；

针对一个目标研报作者，对所述目标研报作者与其他研报作者之间的相似度值按照从大到小进行排序，并将排在第一目标数量之前的相似度值对应的研报作者以作为所述目标研报作者的邻居作者；

根据所述目标研报作者与各个邻居作者之间的相似度值，以及各个邻居作者的各个标准数据指标的出现次数，确定出第二目标数量的标准数据指标以形成所述目标研报作者的显著指标集合。

可选的，所述根据所述目标研报作者与各个邻居作者之间的相似度值，以及各个邻居作者的各个标准数据指标的出现次数，确定出第二目标数量的标准数据指标以形成所述目标研报作者的显著指标集合，具体包括：

针对一个邻居作者，将所述邻居作者的相似度值乘以所述邻居作者的每个标准数据指标的出现次数，以计算得到所述邻居作者的每个标准数据指标的权重值；

针对一个标准数据指标，将所有邻居作者的所述标准数据指标的权重值进行累加以得到所述标准数据指标的重要度值；

按照重要度值对所有标准数据指标按照从大到小进行排序，并将排在第二目标数量之前的标准数据指标添加到所述显著指标集合中。

可选的，在所述将所述关联指标集合中的数据指标推荐给所述用户终端之后，所述方法还包括：

获取所述用户终端的历史搜索行为信息；其中，所述历史搜索行为信息包括：所述用户终端历史搜索过的历史研究报告；

根据每个历史研究报告所属的行业信息，统计各个行业信息的出现次数，并将出现次数最多的行业信息设置为目标行业信息；

基于预设的行业作者关联关系表，确定出与所述目标行业信息对应的关联作者；

将确定出的关联作者推送给所述用户终端。

根据本发明的另一个方面，还提供了一种数据指标推荐装置，具体包括以下组成部分：

获取模块，用于获取用户终端的目标研究报告；其中，所述目标研究报告包括：目标研报作者和目标行业信息；

查找模块，用于查找与所述目标研报作者对应的显著指标集合，以及与所述目标行业信息对应的行业指标集合；其中，所述显著指标集合包含与所述目标研报作者相关的数据指标，所述行业指标集合包含与所述目标行业信息相关的数据指标；

提取模块，用于提取所述显著指标集合和所述行业指标集合中相同的数据指标以构建关联指标集合；

推荐模块，用于将所述关联指标集合中的数据指标推荐给所述用户终端。

可选的，所述装置还包括：

矩阵模块，用于获取研报样本集；其中，所述研报样本集包括：设定数量的研究报告，以及每个研究报告的研报作者；基于预设的自然语言处理算法，识别出包含在每个研究报告中的标准数据指标；以各研报作者为分类条件，统计出各研报作者所属的研究报告中各个标准数据指标的出现次数，以形成作者指标矩阵；

可选的，所述装置还包括：

处理模块，用于根据所述作者指标矩阵，确定出每个研报作者的指标向量；其中，所述指标向量是根据研报作者在各个标准数据指标下的出现次数确定出的；根据每个研报作者的指标向量，计算任意两个研报作者之间的相似度值；针对一个目标研报作者，对所述目标研报作者与其他研报作者之间的相似度值按照从大到小进行排序，并将排在第一目标数量之前的相似度值对应的研报作者以作为所述目标研报作者的邻居作者；根据所述目标研报作者与各个邻居作者之间的相似度值，以及各个邻居作者的各个标准数据指标的出现次数，确定出第二目标数量的标准数据指标以形成所述目标研报作者的显著指标集合。

根据本发明的另一个方面，还提供了一种计算机设备，具体包括：存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现上述数据指标推荐方法的步骤。

根据本发明的另一个方面，还提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现上述数据指标推荐方法的步骤。

本发明提供的数据指标推荐方法、装置、计算机设备及可读存储介质，能够解决现有技术中金融终端无法根据用户搜索记录向用户推荐数据指标的技术问题；本发明根据用户当前浏览的研究报告所涉及的研报作者和行业信息，向用户推荐与当前浏览行为相关联的数据指标，便于用户从数量巨大的数据指标之中搜索到感兴趣的数据指标；本发明可以快速、准确的为用户推荐数据指标，提高用户体验度。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为实施例一提供的数据指标推荐方法的一种可选的流程示意图；

图2为实施例三提供的数据指标推荐装置的一种可选的程序模块示意图；

图3为实施例四提供的计算机设备的一种可选的硬件架构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

本发明实施例提供了一种数据指标推荐方法，如图1所示，该方法具体包括以下步骤：

步骤S101：获取用户终端的目标研究报告；其中，所述目标研究报告包括：目标研报作者和目标行业信息。

在本实施例中，目标研究报告为目标用户通过用户终端浏览的研究报告，且每个研究报告都有对应的作者以及所归属的行业；在实际应用中，可以通过自然语言处理算法来进行信息识别与信息提取，从而确定出所述目标研究报告的目标研报作者，并通过语义分析，基于研报内容确定出所述目标研究报告的目标行业信息。

步骤S102：查找与所述目标研报作者对应的显著指标集合，以及与所述目标行业信息对应的行业指标集合；其中，所述显著指标集合包含与所述目标研报作者相关的数据指标，所述行业指标集合包含与所述目标行业信息相关的数据指标。

具体的，在本实施例中，按照如下方式为每个研报作者设置对应的显著指标集合：

步骤A1：获取研报样本集；其中，所述研报样本集包括：设定数量的研究报告，以及每个研究报告的研报作者；

步骤A2：基于预设的自然语言处理算法，识别出包含在每个研究报告中的标准数据指标；

在本实施例中可以预先设置M个的标准数据指标，其中，M为正整数，并为每个标准数据指标设置对应的指标树，在所述指标树中包含与所述标准数据指标关联的其他维度的数据指标。

例如，所述研报样本集中的研究报告均为金融领域的报告，由于在金融领域中有不同维度的数据指标，即一个数据指标有其对应的上级数据指标以及对应的下级数据指标；为了便于处理，在本实施例中，将同一维度的M个数据指标设置为标准数据指标，并针对每个标准数据指标设置指标树，确定出以所述标准数据指标为中心节点，以各个维度的相关数据指标为分支节点的指标树；在步骤A2中，通过识别出研究报告中的数据指标，并确定出所述数据指标所属于的指标树，并确定出所述指标树的中心节点所对应的标准数据指标。

步骤A3：以各研报作者为分类条件，统计出各研报作者所属的研究报告中各个标准数据指标的出现次数，以形成作者指标矩阵；

在本实施例中，针对一个研报作者，在所述研报样本集中确定出所述研报作者的所有研究报告，并根据所有研究报告中所包含的标准指标数据形成作者指标矩阵，其中，作者指标矩阵为L×M维的矩阵，L为研报作者的总数量，M为标准数据指标的总数量，且L和M均为正整数。

步骤A4：根据所述作者指标矩阵，确定出每个研报作者的指标向量；其中，所述指标向量是根据研报作者在各个标准数据指标下的出现次数确定出的；

具体的，步骤A4包括：

针对一个研报作者，获取所述研报作者在各个标准数据指标下的出现次数；

将所有出现次数除以10，以得到1×M维的指标向量。

步骤A5：根据每个研报作者的指标向量，计算任意两个研报作者之间的相似度值；

优选的，可以采用余弦相似度算法或欧式距离算法计算任意两个研报作者的指标向量之间的相似度值。

步骤A6：针对一个目标研报作者，对所述目标研报作者与其他研报作者之间的相似度值按照从大到小进行排序，并将排在第一目标数量之前的相似度值对应的研报作者以作为所述目标研报作者的邻居作者。

步骤A7：根据所述目标研报作者与各个邻居作者之间的相似度值，以及各个邻居作者的各个标准数据指标的出现次数，确定出第二目标数量的标准数据指标以形成所述目标研报作者的显著指标集合。

具体的，步骤A7，包括：

步骤A71：针对一个邻居作者，将所述邻居作者的相似度值乘以所述邻居作者的每个标准数据指标的出现次数，以计算得到所述邻居作者的每个标准数据指标的权重值；

步骤A72：针对一个标准数据指标，将所有邻居作者的所述标准数据指标的权重值进行累加以得到所述标准数据指标的重要度值；

步骤A73：按照重要度值对所有标准数据指标按照从大到小进行排序，并将排在第二目标数量之前的标准数据指标添加到所述显著指标集合中。

在步骤A71中，先以各个邻居作者为单位，统计出一个邻居作者在各个标准数据指标下的权重值；在步骤A72中，再以各个标准数据指标为单位，统计出所有邻居作者在一个标准数据指标下的权重值的总和，以得到每个标准数据指标的重要度值。

进一步的，在本实施例中，事先为每个行业设置对应的行业指标集合；每个行业指标集合包括该行业内的主要数据指标。

步骤S103：提取所述显著指标集合和所述行业指标集合中相同的数据指标以构建关联指标集合。

在实际应用中，也可以根据所述显著指标集合和所述行业指标集合，利用其他融合算法得到所述关联指标集合；例如，可以采用现有的SVM、随机森林、最大熵、GBDT(Gradient Boosting Decision Tree)算法。

步骤S104：将所述关联指标集合中的数据指标推荐给所述用户终端。

在本实施例中，通过两个方式获取推荐数据指标，并将两种推荐方式的结果进行融合以得到最终的推荐数据指标，从而提高指标推荐的准确性。

更进一步的，所述方法还包括：

步骤B1：获取所述用户终端的历史搜索行为信息；其中，所述历史搜索行为信息包括：所述用户终端历史搜索过的历史研究报告；

步骤B2：根据每个历史研究报告所属的行业信息，统计各个行业信息的出现次数，并将出现次数最多的行业信息设置为目标行业信息；

步骤B3：基于预设的行业作者关联关系表，确定出与所述目标行业信息对应的关联作者；

其中，由于一个研报作者通常只撰写一个行业的研究报告，所以可以根据行业对研报作者进行分类，以形成行业作者关联关系表；在所述行业作者关联关系表中，为每个行业关联设定数量的最相关的研报作者；

步骤B4：将确定出的关联作者推送给所述用户终端。

在本实施例中，还可以根据用户历史搜索行为，确定出用户最关注的行业信息，并将在该行业中最重要的、且未被用户查阅过的研报作者推荐给该用户，以供该用户查阅该行业的其他研报作者的研究报告。

实施例二

本发明实施例提供了一种数据指标推荐方法，该方法具体包括以下步骤：

步骤S1：获取研报样本集，其中，所述研报样本集包括：设定数量的研究报告，以及每个研究报告的研报作者。

步骤S2：基于预设的自然语言处理算法，从每个研究报告中提取出多个标准数据指标。

具体的，步骤S2，包括：

通过预设的自然语言处理算法对样本研报集进行训练以得到可以用于识别标准数据指标的识别模型；

通过所述模型确定出每个研究报告中的标准数据指标。

步骤S3：以各研报作者为分类条件，统计出各研报作者所属的研究报告中各个标准数据指标的出现次数，以形成作者指标矩阵。

其中，所述作者指标矩阵的每行代表一个研报作者，所述作者指标矩阵的每列代表一个标准数据指标；所述作者指标矩阵中的行与列的交叉处代表一个研报作者在一个标准数据指标下的出现次数；通过所述作者指标矩阵，可以得到作者与标准数据指标之间的关联关系。

步骤S4：根据所述作者指标矩阵，确定出每个研报作者的指标向量；其中，所述指标向量是根据研报作者在各个标准数据指标下的出现次数确定出的。

步骤S5：根据每个研报作者的指标向量，计算任意两个研报作者之间的相似度值。

步骤S6：针对一个目标研报作者，对所述目标研报作者与其他研报作者之间的相似度值按照从大到小进行排序，并将排在第一目标数量之前的相似度值对应的研报作者以作为所述目标研报作者的邻居作者。

步骤S7：根据所述目标研报作者与各个邻居作者之间的相似度值，以及各个邻居作者的各个标准数据指标的出现次数，确定出第二目标数量的标准数据指标以形成所述目标研报作者的显著指标集合。

具体的，步骤S7具体包括：

步骤S71：针对一个邻居作者的作者指标矩阵，将所述邻居作者的相似度值乘以所述邻居作者的每个标准数据指标的出现次数，以计算得到所述邻居作者的每个标准数据指标的权重值；

步骤S72：针对一个标准数据指标，将所有邻居作者的所述标准数据指标的权重值进行累加以得到所述标准数据指标的重要度值；

步骤S73：按照重要度值对所有标准数据指标进行排序，并将排在前第二目标数量的标准数据指标添加到所述显著指标集合中。

步骤S8：获取目标用户当前浏览的目标研究报告，确定出所述目标研究报告的目标研报作者，以及所述目标研究报告的目标行业信息。

步骤S9：获取与所述目标研报作者对应的显著指标集合，以及与所述目标行业信息对应的行业指标集合。

在本实施例中，事先为每个行业设置对应的行业指标集合；每个行业指标集合包括该行业内的主要数据指标。

步骤S10：基于所述显著指标集合和所述行业指标集合，利用融合算法，得到最终的关联指标集合。

优选的，所述融合算法包括：将同时存在于所述显著指标集合和所述行业指标集合中的数据指标构成最终的关联指标集合。

此外，所述融合算法还可以采用现有的SVM、随机森林、最大熵、GBDT(GradientBoosting Decision Tree)算法。

步骤S11：将所述关联指标集合中的数据指标推荐给所述目标用户。

实施例三

本发明实施例提供了一种数据指标推荐装置，如图2所示，该装置具体包括以下组成部分：

获取模块201，用于获取用户终端的目标研究报告；其中，所述目标研究报告包括：目标研报作者和目标行业信息；

查找模块202，用于查找与所述目标研报作者对应的显著指标集合，以及与所述目标行业信息对应的行业指标集合；其中，所述显著指标集合包含与所述目标研报作者相关的数据指标，所述行业指标集合包含与所述目标行业信息相关的数据指标；

提取模块203，用于提取所述显著指标集合和所述行业指标集合中相同的数据指标以构建关联指标集合；

推荐模块204，用于将所述关联指标集合中的数据指标推荐给所述用户终端。

具体的，所述装置还包括：

进一步的，所述装置还包括：

进一步的，所述处理模块，具体用于：

按照重要度值对所有类型的标准数据指标按照从大到小进行排序，并将排在第二目标数量之前的标准数据指标添加到所述显著指标集合中。

更进一步的，所述推荐模块204，还用于：

将确定出的关联作者推送给所述用户终端。

实施例四

本实施例还提供一种计算机设备，如可以执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。如图3所示，本实施例的计算机设备30至少包括但不限于：可通过系统总线相互通信连接的存储器301、处理器302。需要指出的是，图3仅示出了具有组件301-302的计算机设备30，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

本实施例中，存储器301(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器301可以是计算机设备30的内部存储单元，例如该计算机设备30的硬盘或内存。在另一些实施例中，存储器301也可以是计算机设备30的外部存储设备，例如该计算机设备30上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，存储器301还可以既包括计算机设备30的内部存储单元也包括其外部存储设备。在本实施例中，存储器301通常用于存储安装于计算机设备30的操作系统和各类应用软件，例如实施例二的数据指标推荐装置的程序代码等。此外，存储器301还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器302在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器302通常用于控制计算机设备30的总体操作。

具体的，在本实施例中，处理器302用于执行处理器302中存储的数据指标推荐方法的程序，所述数据指标推荐方法的程序被执行时实现如下步骤：

将所述关联指标集合中的数据指标推荐给所述用户终端。

上述方法步骤的具体实施例过程可参见第一实施例，本实施例在此不再重复赘述。

实施例五

本实施例还提供一种计算机可读存储介质，如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等，其上存储有计算机程序，所述计算机程序被处理器执行时实现如下方法步骤：

将所述关联指标集合中的数据指标推荐给所述用户终端。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种数据指标推荐方法，其特征在于，所述方法包括：

将所述关联指标集合中的数据指标推荐给所述用户终端。

2.根据权利要求1所述的数据指标推荐方法，其特征在于，在所述获取用户终端的目标研究报告之前，所述方法还包括：

3.根据权利要求2所述的数据指标推荐方法，其特征在于，在所述以各研报作者为分类条件，统计出各研报作者所属的研究报告中各个标准数据指标的出现次数，以形成作者指标矩阵之后，所述方法还包括：

4.根据权利要求3所述的数据指标推荐方法，其特征在于，所述根据所述目标研报作者与各个邻居作者之间的相似度值，以及各个邻居作者的各个标准数据指标的出现次数，确定出第二目标数量的标准数据指标以形成所述目标研报作者的显著指标集合，具体包括：

5.根据权利要求1所述的数据指标推荐方法，其特征在于，在所述将所述关联指标集合中的数据指标推荐给所述用户终端之后，所述方法还包括：

将确定出的关联作者推送给所述用户终端。

6.一种数据指标推荐装置，其特征在于，所述装置包括：

7.根据权利要求6所述的数据指标推荐装置，其特征在于，所述装置还包括：

8.根据权利要求7所述的数据指标推荐装置，其特征在于，所述装置还包括：

9.一种计算机设备，所述计算机设备包括：存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至5任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至5任一项所述方法的步骤。