CN110378516B - 分析师画像生成方法、装置、设备及计算机可读存储介质 - Google Patents

分析师画像生成方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN110378516B
CN110378516B CN201910525182.7A CN201910525182A CN110378516B CN 110378516 B CN110378516 B CN 110378516B CN 201910525182 A CN201910525182 A CN 201910525182A CN 110378516 B CN110378516 B CN 110378516B
Authority
CN
China
Prior art keywords
analyst
research
report
prediction accuracy
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910525182.7A
Other languages
English (en)
Other versions
CN110378516A (zh
Inventor
刘媛源
汪伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910525182.7A priority Critical patent/CN110378516B/zh
Publication of CN110378516A publication Critical patent/CN110378516A/zh
Application granted granted Critical
Publication of CN110378516B publication Critical patent/CN110378516B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Operations Research (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Game Theory and Decision Science (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Technology Law (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种分析师画像生成方法、装置、设备及计算机可读存储介质,所述方法包括:根据预设专业名词词库中各研报术语的首字母,将各所述研报术语划分到不同的子集,并生成哈希表;爬取当前预设周期内分析师发布的研报,并根据所述哈希表,确定所述研报的预测指标;读取预设机构发布的实际数据,并根据所述预测指标和所述实际数据,确定所述分析师的预测准确性;对所述分析师在当前预设周期内的所述预测准确性进行分类统计,生成分析师画像。本方案通过大数据处理所生成的分析师画像来评估分析师预测的准确程度,可准确评估同一分析师在各时间内的预测准确程度,以及不同分析师之间的预测准确程度。

Description

分析师画像生成方法、装置、设备及计算机可读存储介质
技术领域
本发明主要涉及数据处理技术领域,具体地说,涉及一种分析师画像生成方法、装置、设备及计算机可读存储介质。
背景技术
随着经济的发展,市场上对经济形势发展进行预测的分析师越来越多,各分析师通过发布研报来表明其对经济发展情况变化的预测;不同分析师在研报中对经济情况的预测不相同,某些分析师的预测和实际的变化情况相同,预测较准确;而另一些分析师的预测和实际的变化情况不相同,预测不准确。
目前,为了对分析师的预测准确程度进行评估,某些机构给出了分析师的准确度排名;排名在前的分析师所对应的预测准确程度较高,而排名在后的分析师所对应的预测准确程度较低;但是排名容易存在作假嫌疑,且排名所涉及的分析师有限,具有不够全面性;导致对分析师在不同时间内的预测准确程度评估不准确,同时对单个分析师相对于其他分析师的预测准确程度的评估也不准确。
发明内容
本发明的主要目的是提供一种分析师画像生成方法、装置、设备及计算机可读存储介质,旨在解决现有技术中分析师排名容易作假,且不够全面,导致不能准确评估分析师的预测准确度的问题。
为实现上述目的,本发明提供一种分析师画像生成方法,所述分析师画像生成方法包括以下步骤:
根据预设专业名词词库中各研报术语的首字母,将各所述研报术语划分到不同的子集,并生成哈希表;
爬取当前预设周期内分析师发布的研报,并根据所述哈希表,确定所述研报的预测指标;
读取预设机构发布的实际数据,并根据所述预测指标和所述实际数据,确定所述分析师的预测准确性;
对所述分析师在所述当前预设周期内的所述预测准确性进行分类统计,生成分析师画像。
优选地,所述将各所述研报术语划分到不同的子集,并生成哈希表的步骤包括:
将各所述研报术语划分到不同的子集,并将各所述子集中研报术语对应的首字母生成为各所述子集的键值;
调用预设函数对各所述键值进行处理,生成各哈希值,并将与各所述子集对应的键值、哈希值和研报术语生成哈希表。
优选地,所述爬取当前预设周期内分析师发布的研报,并根据所述哈希表,确定所述研报的预测指标的步骤包括:
爬取当前预设周期内分析师发布的研报,并对所述研报进行分句处理,得到各研报语句;
逐一读取各所述研报语句中的字符,并针对各所述字符执行以下步骤:
将所述字符的首字母生成字符哈希值,并将所述字符哈希值和所述哈希表对比,确定与所述字符对应的目标子集;
读取所述目标子集的长度区间,并根据所述长度区间,判断所述字符在所述目标子集中是否存在对应的目标研报术语;
若存在对应的目标研报术语,则将所述目标研报术语确定为所述研报的预测指标。
优选地,所述根据所述长度区间,判断所述字符在所述目标子集中是否存在对应的目标研报术语的步骤包括:
根据预设公式,计算所述字符在所述研报语句中的字符长度,并判断所述字符长度是否小于所述长度区间的下边界值;
若小于所述长度区间的下边界值,则判断所述字符在所述目标子集中不存在对应的目标研报术语;
若所述字符长度不小于所述长度区间的下边界值,则根据所述字符长度和所述长度区间的上边界值,确定边界位置;
根据所述边界位置,确定以所述字符为首字符的多个字符串,并将多个所述字符串依次和所述目标子集中的研报术语对比,判断所述字符在所述目标子集中是否存在对应的目标研报术语。
优选地,所述根据所述预测指标和所述实际数据,确定所述分析师的预测准确性的步骤包括:
读取与所述预测指标对应的预测方向和预测值,并读取所述实际数据中的实际方向和实际值,判断所述实际方向和所述预测方向是否一致;
若所述实际方向和所述预测方向一致,则判断所述实际值和所述预测值之间的差值是否在预设阈值范围内;
若在预设阈值范围内,则将所述分析师的预测准确性确定为准确,若不在预设阈值范围内,则将所述分析师的预测准确性确定为不准确。
优选地,所述对所述分析师在所述当前预设周期内的所述预测准确性进行分类统计,生成分析师画像的步骤包括:
将所述分析师在所述当前预设周期内的所述预测准确性划分为准确类型和不准确类型,并分别对所述准确类型和所述不准确类型中所具有的数据数量进行统计,生成准确数量和不准确数量;
根据所述准确数量和所述不准确数量,生成所述分析师在所述当前预设周期内的当前预测准确率,并根据所述当前预测准确率,生成分析师画像。
优选地,所述根据所述当前预测准确率,生成分析师画像的步骤包括:
调用预设画像模板,并根据所述分析师的分析师标识,确定所述分析师在所述预设画像模板中对应的模板位置,将所述当前预测准确率添加到所述模板位置;
读取所述分析师在历史预设周期内的历史预测准确率,根据所述当前预测准确率和各所述历史预测准确率的大小关系,对所述模板位置中添加的预测准确率的排名进行更新,以生成并更新分析师画像。
此外,为实现上述目的,本发明还提出一种分析师画像生成装置,所述分析师画像生成装置包括:
划分模块,用于根据预设专业名词词库中各研报术语的首字母,将各所述研报术语划分到不同的子集,并生成哈希表;
爬取模块,用于爬取当前预设周期内分析师发布的研报,并根据所述哈希表,确定所述研报的预测指标;
确定模块,用于读取预设机构发布的实际数据,并根据所述预测指标和所述实际数据,确定所述分析师的预测准确性;
生成模块,用于对所述分析师在所述当前预设周期内的所述预测准确性进行分类统计,生成分析师画像。
此外,为实现上述目的,本发明还提出一种分析师画像生成设备,所述分析师画像生成设备包括:存储器、处理器、通信总线以及存储在所述存储器上的分析师画像生成程序;
所述通信总线用于实现处理器和存储器之间的连接通信;
所述处理器用于执行所述分析师画像生成程序,以实现以下步骤:
根据预设专业名词词库中各研报术语的首字母,将各所述研报术语划分到不同的子集,并生成哈希表;
爬取当前预设周期内分析师发布的研报,并根据所述哈希表,确定所述研报的预测指标;
读取预设机构发布的实际数据,并根据所述预测指标和所述实际数据,确定所述分析师的预测准确性;
对所述分析师在所述当前预设周期内的所述预测准确性进行分类统计,生成分析师画像。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者一个以上程序,所述一个或者一个以上程序可被一个或者一个以上的处理器执行以用于:
根据预设专业名词词库中各研报术语的首字母,将各所述研报术语划分到不同的子集,并生成哈希表;
爬取当前预设周期内分析师发布的研报,并根据所述哈希表,确定所述研报的预测指标;
读取预设机构发布的实际数据,并根据所述预测指标和所述实际数据,确定所述分析师的预测准确性;
对所述分析师在所述当前预设周期内的所述预测准确性进行分类统计,生成分析师画像。
本实施例的分析师画像生成方法,先根据预设专业名词词库中各研报术语的首字符,将各研报术语划分到不同的子集,并生成哈希表;再爬取分析师在当前预设周期内发布的研报,并根据哈希表,确定研报中的预测指标;进而读取预设机构发布的实际数据,并根据预测指标和实际数据,确定分析师的预测准确性;最终对分析师在当前预设周期内的预测准确性进行分类统计,生成分析师画像。本方案通过所生成的分析师画像来评估分析师预测的准确程度,因用于生成分析师画像的预测准确性,由分析师所发布研报中的预测指标和表征经济实际变化情况的实际数据确定,具有高准确性,使得所生成的分析师画像也具有高准确性;通过分析师在当前预设周期内的不同时间在分析师画像中的预测准确性,可准确评估分析师在各时间内的预测准确程度;同时只要分析师发布过研报,即可抓取其所发布的研报来确定预测准确性,进而生成为分析师画像,使得所生成的分析师画像中涉及的分析师更为全面;通过对分析师画像中各分析师之间预测准确性的比较,即可准确评估单个分析师相对于其他分析师的预测准确程度。
附图说明
图1是本发明的分析师画像生成方法第一实施例的流程示意图;
图2是本发明的分析师画像生成装置第一实施例的功能模块示意图;
图3是本发明实施例方法涉及的硬件运行环境的设备结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种分析师画像生成方法。
请参照图1,图1为本发明分析师画像生成方法第一实施例的流程示意图。在本实施例中,所述分析师画像生成方法包括:
步骤S10,根据预设专业名词词库中各研报术语的首字母,将各所述研报术语划分到不同的子集,并生成哈希表;
本发明的分析师画像生成方法应用于服务器,适用于通过服务器生成分析师画像;其中分析师可以是金融分析师、投资分析师或者证券分析师等,只要其针对经济变化的情况发布研报,即可通过研报中用于预测经济变化情况的经济指标,来生成分析师画像,并通过分析师画像来反映分析师对经济变化预测的准确程度。
具体地,经济领域中包含有多个用于反映经济发展变化情况的经济指标,如GDP(Gross Domestic Product,国内生产总值)、CPI(Consumer Price Index,居民消费价格指数),PPI(Producer Price Index,生产价格指数)等,对于同一经济指标,不同的分析师在研报中可能用不同的研报术语表征,如用“消费者价格指数”表征CPI,或者直接使用CPI等。为了确定各研报中所可能涉及到的表征经济指标的研报术语,对分析师以往所发布的历史研报进行人工标注,确定其中用于表征经济指标的研报术语,并将各研报术语添加到预先设置的预设专业名词词库中。
此后,对预设专业名词词库中所具有的各研报术语依据各自对应的首字母进行分类,将各研报术语划分到不同的子集;其中对于以英文字母开头的研报术语,其首字母为该开头的英文字母,如“GPD同比”的首字母为“G”;而对于以中文汉字开头的研报术语,其首字母为该开头中文汉字的首字母,如“消费者价格指数”的首字母为“X”。分类时将具有相同首字母的研报术语划分到同一子集,而将首字母不相同的研报术语划分到不同子集。如对于经济指标“GDP”、“CPI”和“PPI”,历史研报中涉及的研报术语有“GDP、GDP同比、GDP增速”,“CPI、CPI同比、CPI环比”和“PPI、PPI同比、PPI环比、PMI、PMI同比、PMI环比”等;则依据研报术语的首字母G、C和P,对各研报术语进行分类,所得到的子集G、子集C和子集P分别为{G:GDP、GDP同比、GDP增速},{C:CPI、CPI同比、CPI环比},{P:PPI、PPI同比、PPI环比、PMI、PMI同比、PMI环比}。
进一步地,在经分类得到各子集后,针对各子集生成哈希表;哈希表(Hashtable,也叫散列表),是根据关键码值(Key value)而直接进行访问的数据结构。本实施例中将各子集所具有研报术语的首字母作为键值key,而将各子集中所具有的各研报术语作为数值value,在首字母与对应子集之间形成关键码值,通过键值key访问数值value;同时为了加快访问速度,设置有将各键值key生成为哈希值(hash值)的机制;进而将键值、哈希值和研报术语生成为哈希表。具体地,将各研报术语划分到不同的子集,并生成哈希表的步骤包括:
步骤S11,将各所述研报术语划分到不同的子集,并将各所述子集中研报术语对应的首字母生成为各所述子集的键值;
步骤S12,调用预设函数对各所述键值进行处理,生成各哈希值,并将与各所述子集对应的键值、哈希值和研报术语生成哈希表
更进一步地,预先设置有用于生成hash值的哈希函数,在依据首字母将各研报术语划分到不同子集,并将各子集中研报术语所对应的首字母确定为各子集的键值后,将哈希函数作为预设函数进行调用;通过预设函数对各键值进行处理,生成各个哈希值。其中,预设函数为如下所示的函数式(1):
H(key)=key MOD 11 (1);
其中,key为键值在英文字母表中的顺序值,如G、C、P对应的顺序值分别为7、3和16;MOD为取模运算,用键值对应的顺序值模除11,所得到的结果H(key)即为hash值。在各个子集的键值均生成hash值之后,则将各子集所对应的键值key、hash值和研报术语生成hash表;如对于上述子集G、子集C和子集P,各自对应的键值key:G、C、P,所生成的hash值分别为7、3和5,进行生成的hash表为:
Figure BDA0002097474120000071
步骤S20,爬取当前预设周期内分析师发布的研报,并根据所述哈希表,确定所述研报的预测指标;
进一步地,为了整体上反映分析师预测的准确性,预先设定有预设周期,如半年或一个季度等;分析师在预设周期内可能针对不同的经济指标发布不同的研报,对当前该时期内所发布的研报均进行爬取和分析,以通过各研报从各方面来反映分析师的预测准确性。具体地,对当前预设周期内分析师发布在网络上进行经济变化情况预测分析的某一研报进行爬取,该研报中涉及到多个用于预测经济变化情况的经济指标;依据哈希表从研报中筛选出该经济指标,并将该筛选的指标确定为研报中的预测指标。此外,考虑到在网络上发布研报的分析师众多,且同一分析师在当前预设周期的不同时间内也会在网络上所发布的研报也众多,本实施例以每次对一个分析师的一份研报进行处理为例;即当前预设周期从网络上爬取的研报可能涉及到多个分析师的多份研报,针对每一份研报均依据哈希表,确定其中的预测指标。具体地,爬取当前预设周期内分析师发布的研报,并根据哈希表,确定研报的预测指标的步骤包括:
步骤S21,爬取当前预设周期内分析师发布的研报,并对所述研报进行分句处理,得到各研报语句;
更进一步地,按照研报中的标点符号,对研报进行分句处理,标点符号可以为逗号、顿号、句号等用于分割语句的符号。将两个标点符号之间所具有的字符作为一个研报语句,得到研报中的各个研报语句,并以研报语句作为处理单元;在一个研报语句处理完成后,再对下一研报语句进行处理,直到经分句得到的各研报语句均处理完成。在对研报语句处理的过程中,按照研报语句中各字符的排列顺序,逐一扫描读取研报语句中的各字符,并针对各字符执行以下步骤:
步骤S22,将所述字符的首字母生成字符哈希值,并将所述字符哈希值和所述哈希表对比,确定与所述字符对应的目标子集;
进一步地,对当前扫描读取的字符的首字母进行读取,并调用预设函数将该首字母生成为字符哈希值;此后,将该字符哈希值和哈希表中的各个哈希值对比,判断哈希表中是否存在与字符哈希值一致的目标哈希值;若存在该目标哈希值,则说明当前读取的字符可能为存在于哈希表中的研报术语;若哈希表中不存在该目标哈希值,则说明当前读取的字符不存在于哈希表中,不是研报术语。对于哈希表中的目标哈希值,在哈希表中存在对应的子集,将该子集作为与当前读取的字符对应的目标子集,以判断当前读取的字符是否存在于目标子集的研报术语中。如对于研报语句s=c1c2…cn,依次扫描其中的每个字符ci,若读取到字符c2的首字母为C,则经预设函数计算得到字符哈希值3,将该字符哈希值和哈希表中的各哈希值对比,确定出目标子集{C:CPI、CPI同比、CPI环比}。
步骤S23,读取所述目标子集的长度区间,并根据所述长度区间,判断所述字符在所述目标子集中是否存在对应的目标研报术语;
可理解地,不同子集中所具有的研报术语不相同,而各研报术语具有不同的字符长度;对目标子集中所具有研报术语的字符长度进行逐一统计,确定其中字符长度最长的研报术语和字符长度最短的研报术语,并由该字符长度的最短值和字符长度的最长值形成目标子集的长度区间。如目标子集中字符长度最短和最长的研报术语分别为a和b,且对应的最短值和最长值分别为ai和bi,则所形成的长度区间为[ai,bi];对于上述目标子集{C:CPI、CPI同比、CPI环比},其中字符长度最短值ai为GDP等于3,字符长度最长值bi为GDP同比或GDP增速等于5,所形成的长度区间[ai,bi]为[3,5]。
进一步地,对目标子集所形成的长度区间进行读取,并依据该长度区间,判断字符在目标子集中是否存在对应的目标研报术语。因长度区间表征了目标子集中所具有研报术语的字符长度范围,若字符在目标子集中存在对应的目标研报术语,则说明由字符所形成的字符串长度必然符合该字符长度范围要求;否则字符在目标子集中不存在对应的目标研报术语。从而可依据由字符所形成的字符串长度与长度区间之间的关系,来判断目标子集中是否存在与字符对应的目标研报术语;具体地,根据长度区间,判断字符在目标子集中是否存在对应的目标研报术语的步骤包括:
步骤S231,根据预设公式,计算所述字符在所述研报语句中的字符长度,并判断所述字符长度是否小于所述长度区间的下边界值;
更进一步地,预先设置有用于计算字符长度的预设公式,其中字符长度为当前所读取的字符与其所在研报语句最后一个字符之间所具有的字符数量;如对于研报语句“经济平稳增长”,若当前所读取的字符为“济”,则其与最后一个字符“长”之间所具有的字符数量为5个,即当前所读取字符在研报语句中的字符长度为5。其中预设公式用len=n+1-i表征,len为字符长度,n为字符所在研报语句具有的字符数量,i为当前所读取字符在研报语句中排位序号;如对于上述当前所读取的字符为“济”,n等于6,i等于2,经计算所得到的len等于5。
在对当前所读取的字符进行判断时,先抓取当前所读取字符在研报语句中的排位序号,再抓取研报语句所具有的字符数量,将抓取的排位序号和字符数量输入到预设公式中进行计算,所得到的结果即为字符长度。此后将计算得到的字符长度和长度区间的下边界值进行对比,判断字符长度是否都小于下边界值;其中长度区间的下边界值为长度区间中的最小值,即目标子集中字符长度的最短值。
步骤S232,若小于所述长度区间的下边界值,则判断所述字符在所述目标子集中不存在对应的目标研报术语;
可理解地,字符长度表征了以字符为基础所形成词语具有的字符数量,当该字符数量小于字符长度的最短值,则说明由字符所形成的字符串长度不符合字符长度范围要求,从而判定当前所读取的字符在目标子集中不存在对应的目标研报术语。同时因对于位于当前所读取字符后列的其他字符,以其为基础所形成词语的字符数量也小于字符长度的最短值,读取该后列的其他字符的判断没有意义,从而不对位于当前所读取字符后列的其他字符进行读取和判断,而读取下一研报语句中的字符进行判断。
步骤S233,若所述字符长度不小于所述长度区间的下边界值,则根据所述字符长度和所述长度区间的上边界值,确定边界位置;
进一步地,若经判定字符长度不小于长度区间的下边界值,则说明以当前所读取的字符为基础所形成的词语可能存在于目标子集中;此时,将字符长度和长度区间的上边界值对比,确定两者之间的较小值。长度区间的上边界值为长度区间中的最大值,即目标子集中字符长度的最长值;在以当前所读取的字符形成词语后,该词语所具有的字符数量在不大于字符长度的最长值的基础上,才有可能是目标子集中的研报术语;从而将字符长度和上边界值之间的较小值作为边界位置,表征以当前字符所形成词语的字符数量不超过该边界位置所表征的数量。如对于上述长度区间为[ai,bi]和字符长度len,当判断出len≥ai,则对len和bi进行比较,确定其中的较小值,并将较小值作为边界位置;若用upbound表征边界位置,则upbound=min(len,bi)。
步骤S234,根据所述边界位置,确定以所述字符为首字符的多个字符串,并将多个所述字符串依次和所述目标子集中的研报术语对比,判断所述字符在所述目标子集中是否存在对应的目标研报术语。
更进一步地,在确定边界位置后,则以当前读取的字符为基础依次抓取位于其后的各个字符,并将当前读取的字符作为首字符和依次抓取的字符一并形成多个字符串。因所形成的字符串的字符长度需要在长度区间所形成的范围内,从而以当前读取的字符为首字符所形成的字符串的最小长度为下边界值,而最大长度为上边界值。如对于当前读取的字符Ci,则所形成的长度最小的字符串为CiCi+1…Ci+ai-1,而所形成的长度最大的字符串为CiCi+1…Ci+upbound-1;从而在按照字符数量从多到少的顺序依次抓取字符形成字符串时,先形成CiCi+1…Ci+upbound-1的字符串,再形成CiCi+1…Ci+upbound-1的字符串,直到形成CiCi+1…Ci+ai-1的字符串为止。
每当以当前读取的字符为首字符形成一个字符串之后,则将该形成的字符串和目标子集中所具有的研报术语逐一对比,判断研报术语中是否存在和该字符串一致的字符串;若存在,则判定当前读取的字符在目标子集中存在对应的目标研报术语;若不存在和该字符串一致的字符串,则形成下一个字符串,同样将该下一个字符串和目标子集中所具有的研报术语逐一对比,判断研报术语中是否存在和下一个字符串一致的字符串;如此循环,直到以当前读取的字符为首字符所形成的字符串均进行对比判断。若以当前读取的字符为首字符所形成的各个字符串,均不存在于目标子集的研报术语中,则判定字符在目标子集中不存在对应的目标研报术语;此后读取位于当前读取的字符后一位字符,对后一位字符的首字母生成字符哈希表,确定对应的目标子集,并判断后一位字符在目标子集中是否存在对应的而目标研报术语。
需要说明的是,对于当前所读取的字符在目标子集中存在对应的目标研报术语的情况;则依据目标研报术语,确定以当前所读取的字符所形成字符的最后一个字符,并将研报语句中该最后一个字符的后一个字符作为读取的新字符;针对该新字符的首字母生成字符哈希表,确定对应的目标子集,并判断新字符在目标子集中是否存在对应的目标研报术语。如对于读取到的字符串CiCi+1…Ci+k,若经对比确定目标子集中存在和CiCi+1…Ci+k一致的研报术语,则将CiCi+1…Ci+k确定为目标研报术语,并将最后一个字符Ci+k在研报语句中的后一个字符Ci+k+1作为新字符进行读取,形成新的字符串;通过判断新的字符串是否存在于其对应目标子集的研报术语中,来确定新字符在目标子集中是否存在对应的目标研报术语。
步骤S24,若存在对应的目标研报术语,则将所述目标研报术语确定为所述研报的预测指标。
进一步地,在判定字符在目标子集中存在对应的目标研报术语后,该目标研报术语为分析师在研报中用于表征其对经济变化的预测情况的词语,从而将该目标研报术语设为研报中的预测指标,以用于评估分析师对经济变化预测的准确性。
步骤S30,读取预设机构发布的实际数据,并根据所述预测指标和所述实际数据,确定所述分析师的预测准确性;
更进一步地,服务器预先与预设机构建立有通信连接,预设机构为对市场上经济的实际变化情况进行统计的机构,如统计局。预设机构将统计得到的表征经济实际变化的实际数据上传到其对应预设服务器上,服务器向预设服务器发送获取实际数据的请求,对预设机构发布的实际数据进行读取。此后将预测指标和读取的实际数据进行对比,根据对比的结果,来确定分析师的预测准确性。当预测指标所表征的经济可能变化情况和实际数据所表征的经济实际变化情况,具有统一性,则说明分析师的预测准确;而当两者不具有统一性时,则说明分析师的预测不准确。具体地,根据预测指标和实际数据,确定分析师的预测准确性的步骤包括:
步骤S31,读取与所述预测指标对应的预测方向和预测值,并读取所述实际数据中的实际方向和实际值,判断所述实际方向和所述预测方向是否一致;
可理解地,预测指标来源于研报中某一研报语句,用以对经济变化情况进行预测的词语;为了对研报中该预测指标所表征的经济变化情况进行确定,抓取该预测指标所来源的研报语句作为观点原话,并从该观点原话中爬取出数值作为与预测指标对应的预测值,同时依据观点原话中所涉及到的变化趋势的字眼,确定预测方向。如预先设定表征变化趋势的字眼“提升、增加、增长等”,识别观点原话中是否存在该类字眼,若存在则将预测方向确定为上升。
进一步地,为了便于对分析师所发布研报中的各项信息进行全面查看,设定有将研报信息以及研报中所涉及到的预测指标生成为表格数据的机制。具体地,对研报的基本信息进行抓取,该基本信息包括研报发布的时间、研报标题、对应的分析师等;预先设定有用于生成表格数据的表格模板,将抓取的基本信息和预测指标、观点原话、预测方向、预测值、预测日期一并添加到表格模板中,生成为预测信息表。其中一份市场研报对应预测信息表的一行,表征一个分析师对其在该研报中所体现的预测情况;而预测信息表中不同行之间的不同数据表征不同分析师在各自研报中所体现的预测情况,或者同一分析师在不同时间所生成研报中体现的预测情况。
更进一步地,实际数据中包括表征经济变化的实际方向和实际值,从实际数据中读取该实际方向和实际值,并将该实际方向和实际值依据其所对应的经济指标以及所反映经济变化的时间,添加到预测信息表的对应行中。如研报中预测指标对应的观点原话为“预测2018年9月PPI环比增速0.4%”,针对该观点原话生成预测信息表中的行数据,此后抓取反映2018年9月PPI实际变化的实际数据,并将该实际数据中的实际方向和实际值添加到该行数据表征实际方向和实际值的单元格,以便于和预测方向以及预测值进行对比。
在通过预测指标和实际数据之间的对比,来确定分析师的预测准确性的过程,先将实际方向和预测方向进行对比,判断实际方向和预测方向是否一致;若者个所表征的经济情况的变化趋势相同,如变化趋势均为增长,则判定实际方向和预测方向一致。若实际方向和预测方向所表征的经济情况的变化趋势不相同,一个表征的变化趋势为增长,而另一个表征的变化趋势为下降,则判定实际方向和预测方向不一致,将分析师的预测准确性判定为预测不准确。
步骤S32,若所述实际方向和所述预测方向一致,则判断所述实际值和所述预测值之间的差值是否在预设阈值范围内;
进一步地,在判定出实际方向和预测方向具有一致性之后,则将实际值和预测值做差值运算,得到两者之间的差值;同时预先依据实际需求设置有预设阈值范围,将所生成的差值和预设阈值范围对比,判断差值是否在预设阈值范围内。
步骤S33,若在预设阈值范围内,则将所述分析师的预测准确性确定为准确,若不在预设阈值范围内,则将所述分析师的预测准确性确定为不准确。
更进一步地,若经对比确定差值在预设阈值范围内,则说明实际值和预测值之间的差异性不大;分析师对经济情况变化的预测相对于实际的变化情况相差不大,而将分析师的预测准确性确定为准确。若差值不在预设阈值范围内,则说明实际值和预测值之间的差异性较大;分析师对经济情况变化的预测相对于实际的变化情况相差较大,预测值可能小于实际值较多,也可能大于实际值较多;此时,则将分析师的预测准确性确定为不准确。
步骤S40,对所述分析师在所述当前预设周期内的所述预测准确性进行分类统计,生成分析师画像。
进一步地,预先设置有用于生成分析师画像的预设画像模板,在对当前预设周期内分析师所发布研报的预测准确性均进行确定之后,对预测准确性进行分类,划分为准确和不准确两种类型,并依据所划分类型生成预测准确率;进而将分析师在当前预设周期中各份研报上的预测准确性以及预测准确率添加到预设画像模板中,生成为分析师画像。通过分析师画像中所体现的在当前预设周期内的各份研报的预测准确性,来评估分析师在当前预设周期内的不同时间的预测准确度;同时可结合分析师画像中所体现的不同预设周期的预测准确率,来反映分析师在不同预设周期的预设准确率的变化情况。
需要说明的是,分析师画像并不只针对一个分析师,预设画像模板中涉及到多个模块,不同分析师对应不同的模块;在对不同分析师所发布的研报确定其预测准确性和预测准确率之后,将该对应于不同分析师的预测准确性和预测准确率添加到预设画像模板的不同模块中,生成为分析师画像。通过分析师画像中所包含的各个分析师的预测准确率之间的对比,来评估分析师之间的预测准确程度。
本实施例的分析师画像生成方法,先根据预设专业名词词库中各研报术语的首字符,将各研报术语划分到不同的子集,并生成哈希表;再爬取分析师在当前预设周期内发布的研报,并根据哈希表,确定研报中的预测指标;进而读取预设机构发布的实际数据,并根据预测指标和实际数据,确定分析师的预测准确性;最终对分析师在当前预设周期内的预测准确性进行分类统计,生成分析师画像。本方案通过所生成的分析师画像来评估分析师预测的准确程度,因用于生成分析师画像的预测准确性,由分析师所发布研报中的预测指标和表征经济实际变化情况的实际数据确定,具有高准确性,使得所生成的分析师画像也具有高准确性;通过分析师在当前预设周期内的不同时间在分析师画像中的预测准确性,可准确评估分析师在各时间内的预测准确程度;同时只要分析师发布过研报,即可抓取其所发布的研报来确定预测准确性,进而生成为分析师画像,使得所生成的分析师画像中涉及的分析师更为全面;通过对分析师画像中各分析师之间预测准确性的比较,即可准确评估单个分析师相对于其他分析师的预测准确程度。
进一步地,在本发明分析师画像生成方法另一实施例中,所述对所述分析师在所述当前预设周期内的所述预测准确性进行分类统计,生成分析师画像的步骤包括:
步骤S41,将所述分析师在所述当前预设周期内的所述预测准确性划分为准确类型和不准确类型,并分别对所述准确类型和所述不准确类型中所具有的数据数量进行统计,生成准确数量和不准确数量;
进一步地,在针对分析师所发布的研报确定预测准确性时,对准确和不准确两种不同的结果类型设置有不同的标识;使得对分析师在当前预设周期内的预测准确性进行分类时,依据各预测准确性结果所携带的标识进行。将携带有表征准确标识的预测准确性结果划分到准确类型中,而将携带有表征不准确标识的预测准确性结果划分为不准确类型中。此后统计准确类型和不准确类型中所具有的数据数量,得到表征分析师在当前预设周期所发布的各份研报中预测准确的研报数量,以及预测不准确的研报数量;将预测准确的研报数量生成为准确数量,而将预测不准确的研报数量生成为不准确数量。
步骤S42,根据所述准确数量和所述不准确数量,生成所述分析师在所述当前预设周期内的当前预测准确率,并根据所述当前预测准确率,生成分析师画像。
更进一步地,将准确数量和不准确数量进行加和处理,得到两者的价格结果;再用准确数量和加和结果做比值,所得到的比值结果即为分析师在当前预设周期内的当前预测准确率;表征分析师在当前预设周期中所发布的各份研报中,预测准确的研报数量的占比多少。此后调用预设画像模板,将该生成的当前预测准确率,准确数量、不准确数量以及各份研报的准确性添加到预设画像模板中,生成为分析师画像。考虑到分析师画像所真对的分析师众多,在进行添加操作时,需要确定分析师在预设画像模板中所对应的模块;具体地,根据当前预测准确率,生成分析师画像的步骤包括:
步骤S421,调用预设画像模板,并根据所述分析师的分析师标识,确定所述分析师在所述预设画像模板中对应的模板位置,将所述当前预测准确率添加到所述模板位置;
进一步地,从爬取的研报中读取表征分析师的分析师标识,进而将分析师标识和调用的预设画像模板中各模块的模块标识进行对比,确定各模块标识中和分析师标识一致的目标模块标识,该目标模块标识所表征模块在预设画像模板中的位置,即为分析师在预设画像模板中对应的模板位置。将预测准确率添加到该模板位置中,表征分析师在当前预设周期中的预测准确率高低;同时还将当前预设周期中的准确数量、不准确数量以及各份研报的准确性添加到预设画像模板中,反映分析师在当前预设周期中所发布的各份研报具体的准确性情况。
步骤S422,读取所述分析师在历史预设周期内的历史预测准确率,根据所述当前预测准确率和各所述历史预测准确率的大小关系,对所述模板位置中添加的预测准确率的排名进行更新,以生成并更新分析师画像。
可理解地,分析师在以往历史预设周期中所生成的预设准确率也添加在目标模块标识所表征的模块中,为了反映分析师在各预设周期中预测的准确情况,对分析师在连续多个历史预设周期内的历史预测准确率进行读取,并将当前预测准确率和各项历史预测准确率对比,确定当前预测准确率和各历史预测准确率之间的大小关系。依据大小关系对模板位置中所添加的预测准确率的排名进行更新,其中排名表征各预测准确率之间数值大小的排列顺序,数值越大的预测准确率排名在前,而数值越小的预测准确率排名在后。如读取的历史预测准确率包括90%、95%、88%,对应的排名分别为第二、第一和第三;若当前预测准确率为92%,则在将当前预测准确率添加到模板位置中之后,模板位置中添加的预测准确率更新为92%、90%、95%、88%,且各自的排名更新为第二、第三、第一和第四。通过对当前预测准确率的添加操作,以及对模板位置中各预测准确率的排名更新操作,实现对分析师画像的生成和更新操作,便于对分析师在不同预设周期内预测准确度的纵向对比。
进一步地,本实施例依据分析师画像中不同模块内所添加的表征不同分析师的预测准确率,可进行不同分析师之间预测准确度的横向对比;如对于分析师A1、A2和A3,预设周期w,则可读取A1、A2、A3在w中各自的预设准确率进行对比,以评估各分析师之间的预测准确程度。本实施例通过分析师画像中单个分析师在不同预设周期的预测准确率,以及各个分析师在同一预设周期的预测准确率,所进行的纵向和横向对比,可准确评估各分析师个人预测准确率的变化情况,以及各分析师之间预测率的差异性。
需要说明的是,随着时间的变化,用于表征市面上经济状况的经济指标具有变化的可能性,各分析师则可能使用新的研报术语对变化的经济指标进行表征;为了确保预设专业名词词库中的研报术语可实时准确的反映经济变化情况,设定有对预设专业名词词库进行定时更新的机制。具体地,预先设定预设更新时间,当到达该预设更新时间时,对在该时间内所生成的研报进行爬取,并从爬取得到的研报中筛选出新研报术语,用该新研报术语对预设专业名词词库进行更新。后续在确定分析师发布的研报中的预测指标时,依据该更新的预设专业名词词库进行,使得所生成的分析师画像随着预设专业名词词库的更新而更新,确保分析师画像的准确性。
此外,请参照图2,本发明提供一种分析师画像生成装置,在本发明分析师画像生成装置第一实施例中,所述分析师画像生成装置包括:
划分模块10,用于根据预设专业名词词库中各研报术语的首字母,将各所述研报术语划分到不同的子集,并生成哈希表;
爬取模块20,用于爬取当前预设周期内分析师发布的研报,并根据所述哈希表,确定所述研报的预测指标;
确定模块30,用于读取预设机构发布的实际数据,并根据所述预测指标和所述实际数据,确定所述分析师的预测准确性;
生成模块40,用于对所述分析师在所述当前预设周期内的所述预测准确性进行分类统计,生成分析师画像。
本实施例的分析师画像生成装置,先由划分模块10根据预设专业名词词库中各研报术语的首字符,将各研报术语划分到不同的子集,并生成哈希表;再由爬取模块20爬取分析师在当前预设周期内发布的研报,并根据哈希表,确定研报中的预测指标;进而由确定模块30读取预设机构发布的实际数据,并根据预测指标和实际数据,确定分析师的预测准确性;最终由生成模块40对分析师在当前预设周期内的预测准确性进行分类统计,生成分析师画像。本方案通过所生成的分析师画像来评估分析师预测的准确程度,因用于生成分析师画像的预测准确性,由分析师所发布研报中的预测指标和表征经济实际变化情况的实际数据确定,具有高准确性,使得所生成的分析师画像也具有高准确性;通过分析师在当前预设周期内的不同时间在分析师画像中的预测准确性,可准确评估分析师在各时间内的预测准确程度;同时只要分析师发布过研报,即可抓取其所发布的研报来确定预测准确性,进而生成为分析师画像,使得所生成的分析师画像中涉及的分析师更为全面;通过对分析师画像中各分析师之间预测准确性的比较,即可准确评估单个分析师相对于其他分析师的预测准确程度。
进一步地,在本发明分析师画像生成装置另一实施例中,所述划分模块还包括:
划分单元,用于将各所述研报术语划分到不同的子集,并将各所述子集中研报术语对应的首字母生成为各所述子集的键值;
调用单元,用于调用预设函数对各所述键值进行处理,生成各哈希值,并将与各所述子集对应的键值、哈希值和研报术语生成哈希表。
进一步地,在本发明分析师画像生成装置另一实施例中,所述爬取模块还包括:
爬取单元,用于爬取当前预设周期内分析师发布的研报,并对所述研报进行分句处理,得到各研报语句;
执行单元,用于逐一读取各所述研报语句中的字符,并针对各所述字符执行以下步骤:
将所述字符的首字母生成字符哈希值,并将所述字符哈希值和所述哈希表对比,确定与所述字符对应的目标子集;
读取所述目标子集的长度区间,并根据所述长度区间,判断所述字符在所述目标子集中是否存在对应的目标研报术语;
若存在对应的目标研报术语,则将所述目标研报术语确定为所述研报的预测指标。
进一步地,在本发明分析师画像生成装置另一实施例中,所述执行单元还用于:
根据预设公式,计算所述字符在所述研报语句中的字符长度,并判断所述字符长度是否小于所述长度区间的下边界值;
若小于所述长度区间的下边界值,则判断所述字符在所述目标子集中不存在对应的目标研报术语;
若所述字符长度不小于所述长度区间的下边界值,则根据所述字符长度和所述长度区间的上边界值,确定边界位置;
根据所述边界位置,确定以所述字符为首字符的多个字符串,并将多个所述字符串依次和所述目标子集中的研报术语对比,判断所述字符在所述目标子集中是否存在对应的目标研报术语。
进一步地,在本发明分析师画像生成装置另一实施例中,所述确定模块还包括:
读取单元,用于读取与所述预测指标对应的预测方向和预测值,并读取所述实际数据中的实际方向和实际值,判断所述实际方向和所述预测方向是否一致;
判断单元,用于若所述实际方向和所述预测方向一致,则判断所述实际值和所述预测值之间的差值是否在预设阈值范围内;
确定单元,用于若在预设阈值范围内,则将所述分析师的预测准确性确定为准确,若不在预设阈值范围内,则将所述分析师的预测准确性确定为不准确。
进一步地,在本发明分析师画像生成装置另一实施例中,所述生成模块还包括:
分类单元,用于将所述分析师在所述当前预设周期内的所述预测准确性划分为准确类型和不准确类型,并分别对所述准确类型和所述不准确类型中所具有的数据数量进行统计,生成准确数量和不准确数量;
生成单元,用于根据所述准确数量和所述不准确数量,生成所述分析师在所述当前预设周期内的当前预测准确率,并根据所述当前预测准确率,生成分析师画像。
进一步地,在本发明分析师画像生成装置另一实施例中,所述生成单元还用于:
调用预设画像模板,并根据所述分析师的分析师标识,确定所述分析师在所述预设画像模板中对应的模板位置,将所述当前预测准确率添加到所述模板位置;
读取所述分析师在历史预设周期内的历史预测准确率,根据所述当前预测准确率和各所述历史预测准确率的大小关系,对所述模板位置中添加的预测准确率的排名进行更新,以生成并更新分析师画像。
其中,上述分析师画像生成装置的各虚拟功能模块存储于图3所示分析师画像生成设备的存储器1005中,处理器1001执行分析师画像生成程序时,实现图2所示实施例中各个模块的功能。
参照图3,图3是本发明实施例方法涉及的硬件运行环境的设备结构示意图。
本发明实施例分析师画像生成设备可以是PC(personal computer,个人计算机),也可以是智能手机、平板电脑、电子书阅读器、便携计算机等终端设备。
如图3所示,该分析师画像生成设备可以包括:处理器1001,例如CPU(CentralProcessing Unit,中央处理器),存储器1005,通信总线1002。其中,通信总线1002用于实现处理器1001和存储器1005之间的连接通信。存储器1005可以是高速RAM(random accessmemory,随机存取存储器),也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
可选地,该分析师画像生成设备还可以包括用户接口、网络接口、摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi(Wireless Fidelity,无线宽带)模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口还可以包括标准的有线接口、无线接口。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
本领域技术人员可以理解,图3中示出的分析师画像生成设备结构并不构成对分析师画像生成设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图3所示,作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块以及分析师画像生成程序。操作系统是管理和控制分析师画像生成设备硬件和软件资源的程序,支持分析师画像生成程序以及其它软件和/或程序的运行。网络通信模块用于实现存储器1005内部各组件之间的通信,以及与分析师画像生成设备中其它硬件和软件之间通信。
在图3所示的分析师画像生成设备中,处理器1001用于执行存储器1005中存储的分析师画像生成程序,实现上述分析师画像生成方法各实施例中的步骤。
本发明提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者一个以上程序,所述一个或者一个以上程序还可被一个或者一个以上的处理器执行以用于实现上述分析师画像生成方法各实施例中的步骤。
还需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个计算机可读存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims (7)

1.一种分析师画像生成方法,其特征在于,所述分析师画像生成方法包括以下步骤:
根据预设专业名词词库中各研报术语的首字母,将各所述研报术语划分到不同的子集,并生成哈希表;
爬取当前预设周期内分析师发布的研报,并根据所述哈希表,确定所述研报的预测指标;
读取预设机构发布的实际数据,并根据所述预测指标和所述实际数据,确定所述分析师的预测准确性;
对所述分析师在所述当前预设周期内的所述预测准确性进行分类统计,生成分析师画像;
所述将各所述研报术语划分到不同的子集,并生成哈希表的步骤包括:
将各所述研报术语划分到不同的子集,并将各所述子集中研报术语对应的首字母生成为各所述子集的键值;
调用以下预设函数对各所述键值进行处理,生成各哈希值,并将与各所述子集对应的键值、哈希值和研报术语生成哈希表:
H(key)=key MOD 11
其中,H用于表征键值为key的子集哈希值,key为键值在英文字母表中的顺序值,MOD为取模运算;
所述对所述分析师在所述当前预设周期内的所述预测准确性进行分类统计,生成分析师画像的步骤包括:
将所述分析师在所述当前预设周期内的所述预测准确性划分为准确类型和不准确类型,并分别对所述准确类型和所述不准确类型中所具有的数据数量进行统计,生成准确数量和不准确数量;
根据所述准确数量和所述不准确数量,生成所述分析师在所述当前预设周期内的当前预测准确率,并根据所述当前预测准确率,生成分析师画像;
所述根据所述当前预测准确率,生成分析师画像的步骤包括:
调用预设画像模板,并根据所述分析师的分析师标识,确定所述分析师在所述预设画像模板中对应的模板位置,将所述当前预测准确率添加到所述模板位置;
读取所述分析师在历史预设周期内的历史预测准确率,根据所述当前预测准确率和各所述历史预测准确率的大小关系,对所述模板位置中添加的预测准确率的排名进行更新,以生成并更新分析师画像。
2.如权利要求1所述的分析师画像生成方法,其特征在于,所述爬取当前预设周期内分析师发布的研报,并根据所述哈希表,确定所述研报的预测指标的步骤包括:
爬取当前预设周期内分析师发布的研报,并对所述研报进行分句处理,得到各研报语句;
逐一读取各所述研报语句中的字符,并针对各所述字符执行以下步骤:
将所述字符的首字母生成字符哈希值,并将所述字符哈希值和所述哈希表对比,确定与所述字符对应的目标子集;
读取所述目标子集的长度区间,并根据所述长度区间,判断所述字符在所述目标子集中是否存在对应的目标研报术语;
若存在对应的目标研报术语,则将所述目标研报术语确定为所述研报的预测指标。
3.如权利要求2所述的分析师画像生成方法,其特征在于,所述根据所述长度区间,判断所述字符在所述目标子集中是否存在对应的目标研报术语的步骤包括:
根据预设公式,计算所述字符在所述研报语句中的字符长度,并判断所述字符长度是否小于所述长度区间的下边界值;
若小于所述长度区间的下边界值,则判断所述字符在所述目标子集中不存在对应的目标研报术语;
若所述字符长度不小于所述长度区间的下边界值,则根据所述字符长度和所述长度区间的上边界值,确定边界位置;
根据所述边界位置,确定以所述字符为首字符的多个字符串,并将多个所述字符串依次和所述目标子集中的研报术语对比,判断所述字符在所述目标子集中是否存在对应的目标研报术语。
4.如权利要求1-3任一项所述的分析师画像生成方法,其特征在于,所述根据所述预测指标和所述实际数据,确定所述分析师的预测准确性的步骤包括:
读取与所述预测指标对应的预测方向和预测值,并读取所述实际数据中的实际方向和实际值,判断所述实际方向和所述预测方向是否一致;
若所述实际方向和所述预测方向一致,则判断所述实际值和所述预测值之间的差值是否在预设阈值范围内;
若在预设阈值范围内,则将所述分析师的预测准确性确定为准确,若不在预设阈值范围内,则将所述分析师的预测准确性确定为不准确。
5.一种分析师画像生成装置,其特征在于,所述分析师画像生成装置包括:
划分模块,用于根据预设专业名词词库中各研报术语的首字母,将各所述研报术语划分到不同的子集,并生成哈希表;
爬取模块,用于爬取当前预设周期内分析师发布的研报,并根据所述哈希表,确定所述研报的预测指标;
确定模块,用于读取预设机构发布的实际数据,并根据所述预测指标和所述实际数据,确定所述分析师的预测准确性;
生成模块,用于对所述分析师在所述当前预设周期内的所述预测准确性进行分类统计,生成分析师画像;
所述划分模块,还用于将各所述研报术语划分到不同的子集,并将各所述子集中研报术语对应的首字母生成为各所述子集的键值;
调用以下预设函数对各所述键值进行处理,生成各哈希值,并将与各所述子集对应的键值、哈希值和研报术语生成哈希表:
H(key)=key MOD 11
其中,H用于表征键值为key的子集哈希值,key为键值在英文字母表中的顺序值,MOD为取模运算;
所述生成模块,还用于将所述分析师在所述当前预设周期内的所述预测准确性划分为准确类型和不准确类型,并分别对所述准确类型和所述不准确类型中所具有的数据数量进行统计,生成准确数量和不准确数量;根据所述准确数量和所述不准确数量,生成所述分析师在所述当前预设周期内的当前预测准确率,并根据所述当前预测准确率,生成分析师画像;
所述生成模块,还用于:调用预设画像模板,并根据所述分析师的分析师标识,确定所述分析师在所述预设画像模板中对应的模板位置,将所述当前预测准确率添加到所述模板位置;读取所述分析师在历史预设周期内的历史预测准确率,根据所述当前预测准确率和各所述历史预测准确率的大小关系,对所述模板位置中添加的预测准确率的排名进行更新,以生成并更新分析师画像。
6.一种分析师画像生成设备,其特征在于,所述分析师画像生成设备包括:存储器、处理器、通信总线以及存储在所述存储器上的分析师画像生成程序;
所述通信总线用于实现处理器和存储器之间的连接通信;
所述处理器用于执行所述分析师画像生成程序,以实现如权利要求1-4中任一项所述的分析师画像生成方法的步骤。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有分析师画像生成程序,所述分析师画像生成程序被处理器执行时实现如权利要求1-4中任一项所述的分析师画像生成方法的步骤。
CN201910525182.7A 2019-06-17 2019-06-17 分析师画像生成方法、装置、设备及计算机可读存储介质 Active CN110378516B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910525182.7A CN110378516B (zh) 2019-06-17 2019-06-17 分析师画像生成方法、装置、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910525182.7A CN110378516B (zh) 2019-06-17 2019-06-17 分析师画像生成方法、装置、设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN110378516A CN110378516A (zh) 2019-10-25
CN110378516B true CN110378516B (zh) 2022-06-17

Family

ID=68249015

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910525182.7A Active CN110378516B (zh) 2019-06-17 2019-06-17 分析师画像生成方法、装置、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN110378516B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111754352A (zh) * 2020-06-22 2020-10-09 平安资产管理有限责任公司 一种观点语句正确性的判断方法、装置、设备和存储介质
CN112035615B (zh) * 2020-08-31 2023-02-07 康键信息技术(深圳)有限公司 线上问诊数据处理方法、装置和计算机设备
CN112258322B (zh) * 2020-10-22 2021-10-22 上海携宁计算机科技股份有限公司 信息预测方法、装置、电子设备和存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1298158A (zh) * 2000-12-05 2001-06-06 新华财经信息咨询有限公司 证券分析师评级方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SG10201403898TA (en) * 2013-07-05 2015-02-27 Barrett Carter Keith Computer-implemented intelligence tool

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1298158A (zh) * 2000-12-05 2001-06-06 新华财经信息咨询有限公司 证券分析师评级方法

Also Published As

Publication number Publication date
CN110378516A (zh) 2019-10-25

Similar Documents

Publication Publication Date Title
US11532052B2 (en) Using simulated consumer profiles to form calibration data for models
CN110378516B (zh) 分析师画像生成方法、装置、设备及计算机可读存储介质
WO2021047326A1 (zh) 信息推荐方法、装置、计算机设备和存储介质
KR102251302B1 (ko) 시간 인자와 결합한 협업 필터링 방법, 장치, 서버 및 저장 매체
CN109783730A (zh) 产品推荐方法、装置、计算机设备和存储介质
US20180336638A1 (en) Classifying rate factors in consumer profiles based on effects of the factors in high-dimensional models
CN112528025A (zh) 基于密度的文本聚类方法、装置、设备及存储介质
CN109993627B (zh) 推荐方法、推荐模型的训练方法、装置和存储介质
CN110717806B (zh) 产品信息推送方法、装置、设备及存储介质
CN111177559B (zh) 文旅服务推荐方法、装置、电子设备及存储介质
US11109085B2 (en) Utilizing one hash permutation and populated-value-slot-based densification for generating audience segment trait recommendations
CN108665513B (zh) 基于用户行为数据的绘图方法和装置
CN110647995A (zh) 规则训练方法、装置、设备及存储介质
CN114218958A (zh) 工单处理方法、装置、设备和存储介质
CN111475628B (zh) 会话数据处理方法、装置、计算机设备和存储介质
CN110737824A (zh) 内容查询方法和装置
WO2020174233A1 (en) Machine-learned model selection network planning
CN109934631A (zh) 问答信息处理方法、装置及计算机设备
CN114692889A (zh) 用于机器学习算法的元特征训练模型
CN110209944B (zh) 一种股票分析师推荐方法、装置、计算机设备和存储介质
JP2018077671A (ja) 情報処理装置、情報処理方法、予測モデルの生成装置、予測モデルの生成方法、およびプログラム
KR101462858B1 (ko) 기업의 해외 진출 역량 평가 방법
CN114021716A (zh) 一种模型训练的方法、系统及电子设备
CN113515701A (zh) 信息推荐方法及装置
CN114820011A (zh) 用户群体聚类方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant