CN107861945A - 金融数据分析方法、应用服务器及计算机可读存储介质 - Google Patents
金融数据分析方法、应用服务器及计算机可读存储介质 Download PDFInfo
- Publication number
- CN107861945A CN107861945A CN201711060247.2A CN201711060247A CN107861945A CN 107861945 A CN107861945 A CN 107861945A CN 201711060247 A CN201711060247 A CN 201711060247A CN 107861945 A CN107861945 A CN 107861945A
- Authority
- CN
- China
- Prior art keywords
- keyword
- word
- occurrence degree
- collection
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3335—Syntactic pre-processing, e.g. stopword elimination, stemming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种金融数据分析方法,所述方法包括:通过爬虫程序爬取目标金融公司的关联数据;对所述关联数据进行预处理;对预处理后的关联数据进行文本分词,获取文本集合;通过LDA主题模型分析所述文本集合获取主题集;通过TF‑IDF算法计算所述文本集合的关键词集;选出所述关键词集中与所述主题集相匹配的关键词;选择公众对所述目标金融公司的期望词,并通过预设模型计算所述期望词与所述关键词的共现程度;及基于所述共现程度输出对所述目标金融公司的评价结论。本发明还提供一种应用服务器及计算机可读存储介质。本发明提供的金融数据分析方法及应用服务器,可以快速的从获取目标金融公司实施政策在公众眼中的态度数据,促进相关业务的发展。
Description
技术领域
本发明涉及金融数据领域,尤其涉及一种金融数据分析方法及应用服务器。
背景技术
目前一些上市公司在实施一些金融政策之后,如果需要知悉社会大众的反应,一般是会通过专门的市场调查人员进行人为的抽样调查,进而进行模糊的概率分析,进而为公司股价波动的预测、股价是否被低估的判断提供依据,但目前此种做法由于存在工作量大,调查人员的主观性的影响,从而导致调查结构并不能准确科学的反应市场的真实情况。
发明内容
有鉴于此,本发明提出一种金融数据分析方法、应用服务器及计算机可读存储介质,可以快速的从获取目标金融公司实施政策在公众眼中的态度数据,进而为后续政策的调整或延续提供科学准确的依据,促进相关业务的发展。
首先,为实现上述目的,本发明提出一种应用服务器,所述应用服务器包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的金融数据分析程序,所述金融数据分析程序被所述处理器执行时,实现如下步骤:
通过爬虫程序爬取目标金融公司的关联数据;
对所述关联数据进行预处理,所述预处理包括清洗、去除冗余和去噪;
对预处理后的关联数据进行文本分词,获取文本集合;
通过LDA主题模型分析所述文本集合获取主题集;
通过TF-IDF算法计算所述文本集合的关键词集;
选出所述关键词集中与所述主题集相匹配的关键词;
选择公众对所述目标金融公司的期望词,并通过预设模型计算所述期望词与所述关键词的共现程度;及
基于所述共现程度输出对所述目标金融公司的评价结论。
可选地,所述通过TF-IDF算法计算所述文本集合的关键词集的步骤,包括:
计算所述文本集合中每个关键词的TF值与IDF值乘积;
判断所述乘积是否大于第一预设值;及
当所述乘积大于所述第一预设值时,将所述乘积代表的关键词纳入所述关键词集。
可选地,所述通过预设模型计算所述期望词与所述关键词的共现程度的步骤,包括:
将所述期望词与选出的所述关键词输入到所述预设模型中,计算所述期望词与所述关键词的关联值;
当所述关联值超过第二预设值时,则判断所述期望词语所述关键词的共现程度高;
当所述关联值低于所述第二预设值时,则判断所述期望词语所述关键词的共现程度低。
可选地,所述基于所述共现程度输出对所述目标金融公司的评价结论的步骤,包括:
当所述共现程度高于第三预设值,所述评价结论为红色标示;及
当所述共现程度低于所述第三预设值,所述评价结论为绿色标示。
此外,为实现上述目的,本发明还提供一种金融数据分析方法,该方法应用于应用服务器,所述方法包括:
通过爬虫程序爬取目标金融公司的关联数据;
对所述关联数据进行预处理,所述预处理包括清洗、去除冗余和去噪;
对预处理后的关联数据进行文本分词,获取文本集合;
通过LDA主题模型分析所述文本集合获取主题集;
通过TF-IDF算法计算所述文本集合的关键词集;
选出所述关键词集中与所述主题集相匹配的关键词;
选择公众对所述目标金融公司的期望词,并通过预设模型计算所述期望词与所述关键词的共现程度;及
基于所述共现程度输出对所述目标金融公司的评价结论。
可选地,所述对所述关联数据进行预处理的步骤,包括:
通过正则表达式和预设规则集去除垃圾广告信息。
可选地,所述通过TF-IDF算法计算所述文本集合的关键词集的步骤,包括:
计算所述文本集合中每个关键词的TF值与IDF值乘积;
判断所述乘积是否大于第一预设值;及
当所述乘积大于所述第一预设值时,将所述乘积代表的关键词纳入所述关键词集。
可选地,所述通过预设模型计算所述期望词与所述关键词的共现程度的步骤,包括:
将所述期望词与选出的所述关键词输入到所述预设模型中,计算所述期望词与所述关键词的关联值;
当所述关联值超过第二预设值时,则判断所述期望词语所述关键词的共现程度高;
当所述关联值低于所述第二预设值时,则判断所述期望词语所述关键词的共现程度低。
可选地,所述基于所述共现程度输出对所述目标金融公司的评价结论的步骤,包括:
当所述共现程度高于第三预设值,所述评价结论为红色标示;及
当所述共现程度低于所述第三预设值,所述评价结论为绿色标示。
进一步地,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有金融数据分析程序,所述金融数据分析程序可被至少一个处理器执行,以使所述至少一个处理器执行如上述的金融数据分析方法的步骤。
相较于现有技术,本发明所提出的应用服务器、金融数据分析方法及计算机可读存储介质,首先,通过爬虫程序爬取目标金融公司的关联数据;其次,对所述关联数据进行预处理,所述预处理包括清洗、去除冗余和去噪;然后,对预处理后的关联数据进行文本分词,获取文本集合;接着,通过LDA主题模型分析所述文本集合获取主题集;进一步地,通过TF-IDF算法计算所述文本集合的关键词集;接下来,选出所述关键词集中与所述主题集相匹配的关键词;另外,选择公众对所述目标金融公司的期望词,并通过预设模型计算所述期望词与所述关键词的共现程度;最后,基于所述共现程度输出对所述目标金融公司的评价结论。这样,可以避免现有技术中调查结构并不能准确科学的反应市场的真实情况的弊端,可以快速的从获取某一金融公司实施政策在公众眼中的态度数据,进而为后续政策的调整或延续提供科学准确的依据,促进相关业务的发展。
附图说明
图1是应用服务器一可选的硬件架构的示意图;
图2是本发明金融数据分析程序第一实施例的程序模块图;
图3为本发明较优实施例中LDA主题模型图;
图4为本发明较优实施例中CBOW模型以及Skip-gram模型图;
图5为本发明金融数据分析方法第一实施例的流程图。
附图标记:
应用服务器 | 1 |
存储器 | 11 |
处理器 | 12 |
网络接口 | 13 |
金融数据分析程序 | 200 |
数据爬取模块 | 201 |
数据处理模块 | 202 |
获取模块 | 203 |
计算模块 | 204 |
输出模块 | 205 |
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
参阅图1所示,是应用服务器1一可选的硬件架构的示意图。
所述应用服务器1可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器等计算设备,该应用服务器1可以是独立的服务器,也可以是多个服务器所组成的服务器集群。
本实施例中,所述应用服务器1可包括,但不仅限于,可通过系统总线相互通信连接存储器11、处理器12、网络接口13。
所述应用服务器1通过网络接口13连接网络,获取资讯。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobilecommunication,GSM)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi、通话网络等无线或有线网络。
需要指出的是,图1仅示出了具有组件11-13的应用服务器1,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
其中,所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器11可以是所述应用服务器1的内部存储单元,例如该应用服务器1的硬盘或内存。在另一些实施例中,所述存储器11也可以是所述应用服务器1的外部存储设备,例如该应用服务器1配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器11还可以既包括所述应用服务器1的内部存储单元也包括其外部存储设备。本实施例中,所述存储器11通常用于存储安装于所述应用服务器1的操作系统和各类应用软件,例如所述金融数据分析程序200的程序代码等。此外,所述存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器12在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述应用服务器1的总体操作,例如执行数据交互或者通信相关的控制和处理等。本实施例中,所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据,例如运行所述的金融数据分析程序200等。
所述网络接口13可包括无线网络接口或有线网络接口,该网络接口13通常用于在所述应用服务器1与其他电子设备之间建立通信连接。
本实施例中,所述应用服务器1内安装并运行有金融数据分析程序200,当所述金融数据分析程序200运行时,所述应用服务器1通过爬虫程序爬取目标金融公司的关联数据;对所述关联数据进行预处理,所述预处理包括清洗、去除冗余和去噪;对预处理后的关联数据进行文本分词,获取文本集合;通过LDA主题模型分析所述文本集合获取主题集;通过TF-IDF算法计算所述文本集合的关键词集;选出所述关键词集中与所述主题集相匹配的关键词;选择公众对所述目标金融公司的期望词,并通过预设模型计算所述期望词与所述关键词的共现程度;基于所述共现程度输出对所述目标金融公司的评价结论。这样,可以避免现有技术中调查结构并不能准确科学的反应市场的真实情况的弊端,可以快速的从获取某一金融公司实施政策在公众眼中的态度数据,进而为后续政策的调整或延续提供科学准确的依据,促进相关业务的发展。
至此,己经详细介绍了本发明各个实施例的相关设备的硬件结构和功能。下面,将基于上述应用环境和相关设备,提出本发明的各个实施例。
首先,本发明提出一种金融数据分析程序200。
参阅图2所示,是本发明金融数据分析程序200第一实施例的程序模块图。
本实施例中,所述的金融数据分析程序200包括一系列的存储于存储器11上的计算机程序指令,当该计算机程序指令被处理器12执行时,可以实现本发明各实施例的金融数据的分析操作。在一些实施例中,基于该计算机程序指令各部分所实现的特定的操作,所述金融数据分析程序200可以被划分为一个或多个模块。例如,在图2中,所述的金融数据分析程序200可以被分割成数据爬取模块201、数据处理模块202、获取模块203、计算模块204以及输出模块205。其中:
所述数据爬取模块201,用于通过爬虫程序爬取目标金融公司的关联数据。
所述数据处理模块202,用于对所述数据爬取模块201爬取的关联数据进行预处理。本实施例中,所述预处理包括清洗、去除冗余和去噪。具体地,所述数据处理模块202通过正则表达式和预设规则集去除垃圾广告信息以完成对所述关联数据的清洗步骤。
在本实施例中,上述去除冗余,去除噪音等可以通过如下的方式进行:所述数据处理模块202利用布隆过滤器(Bloom filter)算法对海量数据进行处理,Bloom filter处理速度很快,避免了普通方法中的两两比较,适合处理海量数据。另外,所述数据处理模块202利用下面的预设规则集对行业评论数据进一步预处理:
规则1:评论数据长度小于5。
规则2:评论数据中含有特定的广告词。
规则3:基于网络特定回复模板的自动回复。
规则4:评论数据中含有网址的,去除网址,然后再重新判断是否符合规则1~3。
所述获取模块203,用于对所述数据处理模块202预处理后的关联数据进行文本分词,获取文本集合。本实施例中,所述获取模块203通过去除停用词的方式来对预处理后的关联数据进行文本分词。所述获取模块203调用现有的中文分词程序分词,然后根据停用词表去除停用词,对其中包含的英文词进行形态变换,转换到统一形式。本实施例中,所述文本集合为词集合。
进一步地,所述获取模块203还用于通过隐含狄利克雷分布(Latent Dirichletallocation,LDA)主题模型分析所述文本集合以获取主题集。具体地,所述获取模块203将获得的词集合输入到LDA主题模型中,然后对LDA主题模型进行运算得到所述文本的一个主题分布,进而构成一个主题集。本实施例中,所述LDA主题模型是基于一些历史数据进行预先学习获得。由于通过LDA主题模型区获取主题分布式属于一种现有技术手段,本实施例中不再详细介绍其具体的计算原理。下面,简单介绍一下所述LDA主题模型:
LDA主题模型由Blei等提出,是一个“文本—主题—词”的三层贝叶斯产生式模型,每篇文本表示为主题的混合分布,而每个主题则是词上的概率分布。LDA主题模型最初的模型只对“文本—主题”概率分布引入一个超参数使其服从狄利克雷Dirichlet分布,随后Griffiths等对“主题—词”概率分布也引入一个超参数使其服从Dirichlet分布。如图3所示,为LDA主题模型图,其中,LDA主题模型中各符号的含义如下表所示。
符号 | 含义 | 符号 | 含义 |
α | θ的超参数 | w | 词 |
β | ψ的超参数 | M | 文本数 |
θ | 文本—主题概率分布 | N | 词数 |
ψ | 主题—词概率分布 | T | 主题数 |
z | 词的主题分配 |
本实施例中,两个超参数被设置为α=50/T,β=0.01。LDA主题模型的参数个数与主题数和词数有关,参数估计是计算出“文本—主题”概率分布以及“主题—词”概率分布,即θ和ψ。具体地,通过对变量z进行吉布斯Gibbs采样间接估算θ和ψ,公式如下:
其中:nm (j)表示文本dm中赋予主题j的词的总数,ns (i)表示词i被赋于主题s的总次数。
所述计算模块204,用于通过词频-逆文档频率(term frequency–inversedocument frequency,TF-IDF)算法计算所述文本集合的关键词集,并选出所述关键词集中与所述主题集相匹配的关键词。具体地,所述计算模块204通过以下步骤以实现TF-IDF算法计算所述文本集合的关键词集:
所述计算模块204计算所述文本集合中每个关键词的TF值与IDF值乘积;判断所述乘积是否大于第一预设值;且当所述乘积大于所述第一预设值时,将所述乘积代表的关键词纳入所述关键词集。
TF-IDF算法的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。
TF-IDF算法中TF-IDF实际上是TF*IDF,TF为词频(Term Frequency),IDF为逆向文件频率(Inverse Document Frequency)。TF表示词条在文档(本实施例中用d表示)中出现的频率。IDF的主要思想是:如果包含词条t的文档d越少,也就是n越小,IDF越大,则说明词条t具有很好的类别区分能力。如果某一类文档C中包含词条t的文档数为m,而其它类包含t的文档总数为k,显然所有包含t的文档数n=m+k,当m大的时候,n也大,按照IDF公式得到的IDF的值会小,就说明该词条t类别区分能力不强。但是实际上,如果一个词条在一个类的文档中频繁出现,则说明该词条能够很好代表这个类的文本的特征,这样的词条应该给它们赋予较高的权重,并选来作为该类文本的特征词以区别与其它类文档。反之,如果一个词在大量网页中出现,我们看到它仍然不是很清楚要找什么内容,因此它的权重小。简单而言,一个关键词w在Dw个网页中出现过,那么Dw越大,w的权重越小,反之亦然。在信息检索中,使用最多的权重是“逆文本频率指数”(Inverse document frequency缩写为IDF),它的公式为IDF=log(D/Dw)其中D是全部网页数。比如,假定中文网页数是D=10亿,应删除词“的”在所有的网页中都出现,即Dw=10亿,那么它的IDF=log(10亿/10亿)=log(1)=0。假如专用词“原子能”在两百万个网页中出现,即Dw=200万,则它的权重IDF=log(500)=2.7。又假定通用词“应用”,出现在五亿个网页中,它的权重IDF=log(2)则只有0.3。也就是说,在网页中找到一个“原子能”的匹配相当于找到九个“应用”的匹配。利用IDF,上述相关性计算的公式就由词频的简单求和变成了加权求和,即TF1*IDF1+TF2*IDF2+...+TFN*IDFN。在上述的实施例中,该网页和“原子能的应用”的相关性为0.0069,其中“原子能”贡献了0.0054,而“应用”只贡献了0.0015。
所述计算模块204,还用于选择公众对所述目标金融公司的期望词,并通过预设模型计算所述期望词与所述关键词的共现程度。具体地,所述计算模块204将所述期望词与选出的所述关键词输入到所述预设模型中,计算所述期望词与所述关键词的关联值;当所述关联值超过第二预设值时,则判断所述期望词语所述关键词的共现程度高;反之,当所述关联值低于所述第二预设值时,则判断所述期望词语所述关键词的共现程度低。本实施例中,所述预设模型为word2vec模型。
在本实施方式中,所述期望词与选出的所述关键词输入的word2vec模型为已训练好的word2vec模型,而word2vec模型的训练则是基于历史数据进行训练。而利用word2vec模型计算相关词语之间的关联值可以通过现有算法实现,本文不再多做赘述,下面将简要介绍word2vec模型:
通过借鉴Bengio提出的神经网络语言模型(Neural Network Lan-guage Model,NNLM)以及Hinton的对数线形(Log_Linear)模型,Mikolov等提出了word2vec语言模型。word2vec可以快速有效地训练词向量。word2vec模型有两种,分别是CBOW(Continuous BagOf Words Model)模型以及Skip-gram模型(见图4)。其中CBOW模型利用词w(t)前后各c个(本实施例中c=2)词去预测当前词;而Skip-gram(Continuous Skip-gram Model)模型恰好相反,它利用词w(t)去预测它前后各c(c=2)个词。
由于CBOW模型的训练和Skip-gram模型的训练类似,这里仅介绍CBOW模型的训练过程。其中输入层是词w(t)的上下文中的2c个词向量,而投影层向量Xw是这2c个词向量的累加和。输出层是以训练语料库中出现过的词作叶子节点,以各词在语料库中出现的次数作为权值构造出的一棵Huffman树。在这棵Huffman树中,叶子节点共N(=IDI)个,分别对应词典D中的词,非叶于节点N-1个。通过随机梯度上升算法对Xw的结果进行预测,使得值最大化,context(w)指词的上下文中的2c个词。由此可见,CBOW模型是由上下文推当前词,Skip-gram模型是由当前词推上下文,用公式(公式三及公式四)表示如下:
£=∑w∈C(log p(w|context(w))) (公式三)
£=∑w∈C(log p(context(w)|w)) (公式四)
所述输出模块205,用于基于所述共现程度输出对所述目标金融公司的评价结论。具体地,当所述共现程度高于第三预设值,所述评价结论为红色标示;及当所述共现程度低于所述第三预设值,所述评价结论为绿色标示。所述评价结论可在用户的移动终端上显示。
在本实施例中,根据共现程度的高低,可以对金融公司目前实施的政策做出一个评价。例如,当输出为红色标示时,说明大众对该金融公司目前政策持积极态度;当输出为绿色标示时,说明大众对该金融公司目前的政策持消极态度。
通过上述程序模块201-205,本发明所提出的金融数据分析程序200,首先,通过爬虫程序爬取目标金融公司的关联数据;其次,对所述关联数据进行预处理,所述预处理包括清洗、去除冗余和去噪;然后,对预处理后的关联数据进行文本分词,获取文本集合;接着,通过LDA主题模型分析所述文本集合获取主题集;进一步地,通过TF-IDF算法计算所述文本集合的关键词集;接下来,选出所述关键词集中与所述主题集相匹配的关键词;另外,选择公众对所述目标金融公司的期望词,并通过预设模型计算所述期望词与所述关键词的共现程度;最后,基于所述共现程度输出对所述目标金融公司的评价结论。这样,可以避免现有技术中调查结构并不能准确科学的反应市场的真实情况的弊端,可以快速的从获取某一金融公司实施政策在公众眼中的态度数据,进而为后续政策的调整或延续提供科学准确的依据,促进相关业务的发展。
此外,本发明还提出一种金融数据分析方法。
参阅图5所示,是本发明金融数据分析方法第一实施例的流程图。在本实施例中,根据不同的需求,图5所示的流程图中的步骤的执行顺序可以改变,某些步骤可以省略。
步骤S501,通过爬虫程序爬取目标金融公司的关联数据。
步骤S502,对所述关联数据进行预处理。本实施例中,所述预处理包括清洗、去除冗余和去噪。具体地,所述应用服务器1通过正则表达式和预设规则集去除垃圾广告信息以完成对所述关联数据的清洗步骤。
在本实施例中,上述去除冗余,去除噪音等可以通过如下的方式进行:所述应用服务器1通过布隆过滤器(Bloom filter)算法对海量数据进行处理,Bloom filter处理速度很快,避免了普通方法中的两两比较,适合处理海量数据。另外,所述应用服务器1利用下面的预设规则集对行业评论数据进一步预处理:
规则1:评论数据长度小于5。
规则2:评论数据中含有特定的广告词。
规则3:基于网络特定回复模板的自动回复。
规则4:评论数据中含有网址的,去除网址,然后再重新判断是否符合规则1~3。
步骤S503,对预处理后的关联数据进行文本分词,获取文本集合。本实施例中,所述应用服务器1通过去除停用词的方式来对预处理后的关联数据进行文本分词。所述应用服务器1调用现有的中文分词程序分词,然后根据停用词表去除停用词,对其中包含的英文词进行形态变换,转换到统一形式。本实施例中,所述文本集合为词集合。
步骤S504,通过LDA主题模型分析所述文本集合以获取主题集。
具体地,所述应用服务器1将获得的词集合输入到LDA主题模型中,然后对LDA主题模型进行运算得到所述文本的一个主题分布,进而构成一个主题集。本实施例中,所述LDA主题模型是基于一些历史数据进行预先学习获得。由于通过LDA主题模型区获取主题分布式属于一种现有技术手段,本实施例中不再详细介绍其具体的计算原理。下面,简单介绍一下所述LDA主题模型:
LDA主题模型由Blei等提出,是一个“文本—主题—词”的三层贝叶斯产生式模型,每篇文本表示为主题的混合分布,而每个主题则是词上的概率分布。LDA主题模型最初的模型只对“文本—主题”概率分布引入一个超参数使其服从狄利克雷Dirichlet分布,随后Griffiths等对“主题—词”概率分布也引入一个超参数使其服从Dirichlet分布。如图3所示,为LDA主题模型图,其中,LDA主题模型中各符号的含义如下表所示。
本实施例中,两个超参数被设置为α=50/T,β=0.01。LDA主题模型的参数个数与主题数和词数有关,参数估计是计算出“文本—主题”概率分布以及“主题—词”概率分布,即θ和ψ。具体地,通过对变量z进行吉布斯Gibbs采样间接估算θ和ψ,公式如下:
其中:nm (j)表示文本dm中赋予主题j的词的总数,ns (i)表示词i被赋于主题s的总次数。
步骤S505,通过TF-IDF算法计算所述文本集合的关键词集,并选出所述关键词集中与所述主题集相匹配的关键词。
具体地,所述计算模块204通过以下步骤以实现TF-IDF算法计算所述文本集合的关键词集:
所述计算模块204计算所述文本集合中每个关键词的TF值与IDF值乘积;判断所述乘积是否大于第一预设值;且当所述乘积大于所述第一预设值时,将所述乘积代表的关键词纳入所述关键词集。
TF-IDF算法的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。
TF-IDF算法中TF-IDF实际上是TF*IDF,TF为词频(Term Frequency),IDF为逆向文件频率(Inverse Document Frequency)。TF表示词条在文档(本实施例中用d表示)中出现的频率。IDF的主要思想是:如果包含词条t的文档d越少,也就是n越小,IDF越大,则说明词条t具有很好的类别区分能力。如果某一类文档C中包含词条t的文档数为m,而其它类包含t的文档总数为k,显然所有包含t的文档数n=m+k,当m大的时候,n也大,按照IDF公式得到的IDF的值会小,就说明该词条t类别区分能力不强。但是实际上,如果一个词条在一个类的文档中频繁出现,则说明该词条能够很好代表这个类的文本的特征,这样的词条应该给它们赋予较高的权重,并选来作为该类文本的特征词以区别与其它类文档。反之,如果一个词在大量网页中出现,我们看到它仍然不是很清楚要找什么内容,因此它的权重小。简单而言,一个关键词w在Dw个网页中出现过,那么Dw越大,w的权重越小,反之亦然。在信息检索中,使用最多的权重是“逆文本频率指数”(Inverse document frequency缩写为IDF),它的公式为IDF=log(D/Dw)其中D是全部网页数。比如,我们假定中文网页数是D=10亿,应删除词“的”在所有的网页中都出现,即Dw=10亿,那么它的IDF=log(10亿/10亿)=log(1)=0。假如专用词“原子能”在两百万个网页中出现,即Dw=200万,则它的权重IDF=log(500)=2.7。又假定通用词“应用”,出现在五亿个网页中,它的权重IDF=log(2)则只有0.3。也就是说,在网页中找到一个“原子能”的匹配相当于找到九个“应用”的匹配。利用IDF,上述相关性计算的公式就由词频的简单求和变成了加权求和,即TF1*IDF1+TF2*IDF2+...+TFN*IDFN。在上述的实施例中,该网页和“原子能的应用”的相关性为0.0069,其中“原子能”贡献了0.0054,而“应用”只贡献了0.0015。
步骤S506,选择公众对所述目标金融公司的期望词,并通过预设模型计算所述期望词与所述关键词的共现程度。
具体地,所述应用服务器1将所述期望词与选出的所述关键词输入到所述预设模型中,计算所述期望词与所述关键词的关联值;当所述关联值超过第二预设值时,则判断所述期望词语所述关键词的共现程度高;反之,当所述关联值低于所述第二预设值时,则判断所述期望词语所述关键词的共现程度低。本实施例中,所述预设模型为word2vec模型。
在本实施方式中,所述期望词与选出的所述关键词输入的word2vec模型为已训练好的word2vec模型,而word2vec模型的训练则是基于历史数据进行训练。而利用word2vec模型计算相关词语之间的关联值可以通过现有算法实现,本文不再多做赘述,下面将简要介绍word2vec模型:
通过借鉴Bengio提出的神经网络语言模型(Neural Network Lan-guage Model,NNLM)以及Hinton的对数线形(Log_Linear)模型,Mikolov等提出了word2vec语言模型。word2vec可以快速有效地训练词向量。word2vec模型有两种,分别是CBOW(Continuous BagOf Words Model)模型以及Skip-gram模型(见图4)。其中CBOW模型利用词w(t)前后各c个(本实施例中c=2)词去预测当前词;而Skip-gram(Continuous Skip-gram Model)模型恰好相反,它利用词w(t)去预测它前后各c(c=2)个词。
由于CBOW模型的训练和Skip-gram模型的训练类似,这里仅介绍CBOW模型的训练过程。其中输入层是词w(t)的上下文中的2c个词向量,而投影层向量Xw是这2c个词向量的累加和。输出层是以训练语料库中出现过的词作叶子节点,以各词在语料库中出现的次数作为权值构造出的一棵Huffman树。在这棵Huffman树中,叶子节点共N(=IDI)个,分别对应词典D中的词,非叶于节点N-1个。通过随机梯度上升算法对Xw的结果进行预测,使得值最大化,context(w)指词的上下文中的2c个词。由此可见,CBOW模型是由上下文推当前词,Skip-gram模型是由当前词推上下文,用公式(公式三及公式四)表示如下:
£=∑w∈C(log p(w|context(w))) (公式三)
£=∑w∈C(log p(context(w)|w)) (公式四)
步骤S507,基于所述共现程度输出对所述目标金融公司的评价结论。
具体地,当所述共现程度高于第三预设值,所述评价结论为红色标示;及当所述共现程度低于所述第三预设值,所述评价结论为绿色标示。所述评价结论可在用户的移动终端上显示。
在本实施例中,根据共现程度的高低,可以对金融公司目前实施的政策做出一个评价。例如,当输出为红色标示时,说明大众对该金融公司目前政策持积极态度;当输出为绿色标示时,说明大众对该金融公司目前的政策持消极态度。
通过上述步骤S501-507,本发明所提出的金融数据分析方法,首先,通过爬虫程序爬取目标金融公司的关联数据;其次,对所述关联数据进行预处理,所述预处理包括清洗、去除冗余和去噪;然后,对预处理后的关联数据进行文本分词,获取文本集合;接着,通过LDA主题模型分析所述文本集合获取主题集;进一步地,通过TF-IDF算法计算所述文本集合的关键词集;接下来,选出所述关键词集中与所述主题集相匹配的关键词;另外,选择公众对所述目标金融公司的期望词,并通过预设模型计算所述期望词与所述关键词的共现程度;最后,基于所述共现程度输出对所述目标金融公司的评价结论。这样,可以避免现有技术中调查结构并不能准确科学的反应市场的真实情况的弊端,可以快速的从获取某一金融公司实施政策在公众眼中的态度数据,进而为后续政策的调整或延续提供科学准确的依据,促进相关业务的发展。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种金融数据分析方法,应用于应用服务器,其特征在于,所述方法包括:
通过爬虫程序爬取目标金融公司的关联数据;
对所述关联数据进行预处理,所述预处理包括清洗、去除冗余和去噪;
对预处理后的关联数据进行文本分词,获取文本集合;
通过LDA主题模型分析所述文本集合以获取主题集;
通过TF-IDF算法计算所述文本集合的关键词集;
选出所述关键词集中与所述主题集相匹配的关键词;
选择公众对所述目标金融公司的期望词,并通过预设模型计算所述期望词与所述关键词的共现程度;及
基于所述共现程度输出对所述目标金融公司的评价结论。
2.如权利要求1所述的金融数据分析方法,其特征在于,所述对所述关联数据进行预处理的步骤,包括:
通过正则表达式和预设规则集去除垃圾广告信息。
3.如权利要求1所述的金融数据分析方法,其特征在于,所述通过TF-IDF算法计算所述文本集合的关键词集的步骤,包括:
计算所述文本集合中每个关键词的TF值与IDF值的乘积;
判断所述乘积是否大于第一预设值;及
当所述乘积大于所述第一预设值时,将所述乘积代表的关键词纳入所述关键词集。
4.如权利要求1所述的金融数据分析方法,其特征在于,所述通过预设模型计算所述期望词与所述关键词的共现程度的步骤,包括:
将所述期望词与选出的所述关键词输入到所述预设模型中,计算所述期望词与所述关键词的关联值;
当所述关联值超过第二预设值时,则判断所述期望词语所述关键词的共现程度高;及
当所述关联值低于所述第二预设值时,则判断所述期望词语所述关键词的共现程度低。
5.如权利要求4所述的金融数据分析方法,其特征在于,所述基于所述共现程度输出对所述目标金融公司的评价结论的步骤,包括:
当所述共现程度高于第三预设值,所述评价结论为红色标示;及
当所述共现程度低于所述第三预设值,所述评价结论为绿色标示。
6.一种应用服务器,其特征在于,所述应用服务器包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的金融数据分析程序,所述金融数据分析程序被所述处理器执行时实现如下步骤:
通过爬虫程序爬取目标金融公司的关联数据;
对所述关联数据进行预处理,所述预处理包括清洗、去除冗余和去噪;
对预处理后的关联数据进行文本分词,获取文本集合;
通过LDA主题模型分析所述文本集合获取主题集;
通过TF-IDF算法计算所述文本集合的关键词集;
选出所述关键词集中与所述主题集相匹配的关键词;
选择公众对所述目标金融公司的期望词,并通过预设模型计算所述期望词与所述关键词的共现程度;及
基于所述共现程度输出对所述目标金融公司的评价结论。
7.如权利要求6所述的应用服务器,其特征在于,所述通过TF-IDF算法计算所述文本集合的关键词集的步骤,包括:
计算所述文本集合中每个关键词的TF值与IDF值的乘积;
判断所述乘积是否大于第一预设值;及
当所述乘积大于所述第一预设值时,将所述乘积代表的关键词纳入所述关键词集。
8.如权利要求6所述的应用服务器,其特征在于,所述通过预设模型计算所述期望词与所述关键词的共现程度的步骤,包括:
将所述期望词与选出的所述关键词输入到所述预设模型中,计算所述期望词与所述关键词的关联值;
当所述关联值超过第二预设值时,则判断所述期望词语所述关键词的共现程度高;及
当所述关联值低于所述第二预设值时,则判断所述期望词语所述关键词的共现程度低。
9.如权利要求8所述的应用服务器,其特征在于,所述基于所述共现程度输出对所述目标金融公司的评价结论的步骤,包括:
当所述共现程度高于第三预设值,所述评价结论为红色标示;及
当所述共现程度低于所述第三预设值,所述评价结论为绿色标示。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有金融数据分析程序,所述金融数据分析程序可被至少一个处理器执行,以使所述至少一个处理器执行如权利要求1-5中任一项所述的金融数据分析方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711060247.2A CN107861945A (zh) | 2017-11-01 | 2017-11-01 | 金融数据分析方法、应用服务器及计算机可读存储介质 |
PCT/CN2018/076131 WO2019085332A1 (zh) | 2017-11-01 | 2018-02-10 | 金融数据分析方法、应用服务器及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711060247.2A CN107861945A (zh) | 2017-11-01 | 2017-11-01 | 金融数据分析方法、应用服务器及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107861945A true CN107861945A (zh) | 2018-03-30 |
Family
ID=61697608
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711060247.2A Pending CN107861945A (zh) | 2017-11-01 | 2017-11-01 | 金融数据分析方法、应用服务器及计算机可读存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN107861945A (zh) |
WO (1) | WO2019085332A1 (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108875050A (zh) * | 2018-06-27 | 2018-11-23 | 北京工业大学 | 面向文本的数字取证分析方法、装置和计算机可读介质 |
CN109166017A (zh) * | 2018-10-12 | 2019-01-08 | 平安科技(深圳)有限公司 | 基于重聚类的推送方法、装置、计算机设备及存储介质 |
CN109635112A (zh) * | 2018-12-13 | 2019-04-16 | 平安医疗健康管理股份有限公司 | 异常透析数据筛选方法、装置、设备及存储介质 |
CN113961694A (zh) * | 2021-09-22 | 2022-01-21 | 福建亿榕信息技术有限公司 | 一种基于会议的公司各单位运作情况辅助分析方法及系统 |
CN109166017B (zh) * | 2018-10-12 | 2024-06-04 | 平安科技(深圳)有限公司 | 基于重聚类的推送方法、装置、计算机设备及存储介质 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111813890B (zh) * | 2020-07-22 | 2021-12-07 | 江苏宏创信息科技有限公司 | 一种基于大数据的政策画像ai建模系统及方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103020851A (zh) * | 2013-01-10 | 2013-04-03 | 山东地纬计算机软件有限公司 | 一种支持商品评论数据多维分析的度量计算方法 |
CN104063479A (zh) * | 2014-07-02 | 2014-09-24 | 成都数联铭品科技有限公司 | 一种基于社会网络的品牌网络热度计算方法 |
CN104375989A (zh) * | 2014-12-01 | 2015-02-25 | 国家电网公司 | 自然语言文本关键词关联网络构建系统 |
CN104899241A (zh) * | 2014-03-07 | 2015-09-09 | 歌乐株式会社 | 关联数据生成装置和关联数据生成方法 |
CN107153658A (zh) * | 2016-03-03 | 2017-09-12 | 常州普适信息科技有限公司 | 一种基于关键字加权算法的舆情热词发现方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103399916A (zh) * | 2013-07-31 | 2013-11-20 | 清华大学 | 基于产品特征的互联网评论观点挖掘方法及系统 |
CN103903164B (zh) * | 2014-03-25 | 2017-06-06 | 华南理工大学 | 基于领域信息的半监督方面自动提取方法及其系统 |
CN106021433B (zh) * | 2016-05-16 | 2019-05-10 | 北京百分点信息科技有限公司 | 一种商品评论数据的口碑分析方法和装置 |
-
2017
- 2017-11-01 CN CN201711060247.2A patent/CN107861945A/zh active Pending
-
2018
- 2018-02-10 WO PCT/CN2018/076131 patent/WO2019085332A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103020851A (zh) * | 2013-01-10 | 2013-04-03 | 山东地纬计算机软件有限公司 | 一种支持商品评论数据多维分析的度量计算方法 |
CN104899241A (zh) * | 2014-03-07 | 2015-09-09 | 歌乐株式会社 | 关联数据生成装置和关联数据生成方法 |
CN104063479A (zh) * | 2014-07-02 | 2014-09-24 | 成都数联铭品科技有限公司 | 一种基于社会网络的品牌网络热度计算方法 |
CN104375989A (zh) * | 2014-12-01 | 2015-02-25 | 国家电网公司 | 自然语言文本关键词关联网络构建系统 |
CN107153658A (zh) * | 2016-03-03 | 2017-09-12 | 常州普适信息科技有限公司 | 一种基于关键字加权算法的舆情热词发现方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108875050A (zh) * | 2018-06-27 | 2018-11-23 | 北京工业大学 | 面向文本的数字取证分析方法、装置和计算机可读介质 |
CN108875050B (zh) * | 2018-06-27 | 2021-02-26 | 北京工业大学 | 面向文本的数字取证分析方法、装置和计算机可读介质 |
CN109166017A (zh) * | 2018-10-12 | 2019-01-08 | 平安科技(深圳)有限公司 | 基于重聚类的推送方法、装置、计算机设备及存储介质 |
CN109166017B (zh) * | 2018-10-12 | 2024-06-04 | 平安科技(深圳)有限公司 | 基于重聚类的推送方法、装置、计算机设备及存储介质 |
CN109635112A (zh) * | 2018-12-13 | 2019-04-16 | 平安医疗健康管理股份有限公司 | 异常透析数据筛选方法、装置、设备及存储介质 |
CN113961694A (zh) * | 2021-09-22 | 2022-01-21 | 福建亿榕信息技术有限公司 | 一种基于会议的公司各单位运作情况辅助分析方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
WO2019085332A1 (zh) | 2019-05-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109471937A (zh) | 一种基于机器学习的文本分类方法及终端设备 | |
CN111581355B (zh) | 威胁情报的主题检测方法、装置和计算机存储介质 | |
CN110458324B (zh) | 风险概率的计算方法、装置和计算机设备 | |
CN107861945A (zh) | 金融数据分析方法、应用服务器及计算机可读存储介质 | |
CN105912716A (zh) | 一种短文本分类方法及装置 | |
CN107797982A (zh) | 用于识别文本类型的方法、装置和设备 | |
CN111767725A (zh) | 一种基于情感极性分析模型的数据处理方法及装置 | |
CN108733675B (zh) | 基于大量样本数据的情感评价方法及装置 | |
CN108241741A (zh) | 一种文本分类方法、服务器及计算机可读存储介质 | |
CN110287409B (zh) | 一种网页类型识别方法及装置 | |
CN111984792A (zh) | 网站分类方法、装置、计算机设备及存储介质 | |
CN105512104A (zh) | 词典降维方法及装置、信息分类方法及装置 | |
CN108090042A (zh) | 用于识别文本主题的方法和装置 | |
CN109492217A (zh) | 一种基于机器学习的分词方法及终端设备 | |
CN107862051A (zh) | 一种文件分类方法、系统及一种文件分类设备 | |
Antonio et al. | Sentiment analysis for covid-19 in Indonesia on Twitter with TF-IDF featured extraction and stochastic gradient descent | |
Sedighi et al. | RLOSD: Representation learning based opinion spam detection | |
Pathak et al. | Adaptive framework for deep learning based dynamic and temporal topic modeling from big data | |
CN111709225A (zh) | 一种事件因果关系判别方法、装置和计算机可读存储介质 | |
Illig et al. | A comparison of content-based tag recommendations in folksonomy systems | |
Torshizi et al. | Automatic Twitter rumor detection based on LSTM classifier | |
CN113011689B (zh) | 软件开发工作量的评估方法、装置及计算设备 | |
CN112579781A (zh) | 文本归类方法、装置、电子设备及介质 | |
CN107291686B (zh) | 情感标识的辨识方法和情感标识的辨识系统 | |
Diwakar et al. | Proposed machine learning classifier algorithm for sentiment analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180330 |
|
RJ01 | Rejection of invention patent application after publication |