CN108960772A

CN108960772A - 基于深度学习的企业评审辅助方法及系统

Info

Publication number: CN108960772A
Application number: CN201810680253.6A
Authority: CN
Inventors: 鹿峰
Original assignee: Beijing Wotou Network Technology Co Ltd
Current assignee: Beijing Wotou Network Technology Co Ltd
Priority date: 2018-06-27
Filing date: 2018-06-27
Publication date: 2018-12-07

Abstract

本发明公开了一种基于深度学习的企业评审辅助方法及系统，该方法包括：步骤S1：获取用户端提交的企业评审辅助请求；步骤S2：根据企业的身份标识信息进行网络数据采集；步骤S3：将每一个与待评审企业相关的文本进行分词后利用word2vec工具生成词向量；步骤S4：对于每一个与待评审企业相关的文本，将其词向量输入采用自然语言文本库中的数据训练好的卷积神经网络模型中，实现文本分类；步骤S5：生成市场分析报告以及竞品分析报告；步骤S6：将市场分析报告以及竞品分析报告发送用户端。本发明能够帮助评审人员收集和整理信息，有利于提高评审人员的工作效率和工作质量，降低评审人员的撰写评审的门槛。

Description

基于深度学习的企业评审辅助方法及系统

技术领域

本发明涉及自然语言处理技术领域，具体涉及一种基于深度学习的企业评审辅助方法及系统。

背景技术

企业评审报告是采用外部信息对企业多指标多维度的进行投资价值分析的报告，精准、有效的企业评审报告对投资人，企业关联方和企业内部管理人员都有积极的参考作用，然而，目前企业评审报告主要由专业的评审人员采用人工方式撰写得到，其存在以下问题：1、对评审人员要求较高：全面、客观、有效的评审报告对评审人员的思维方式及知识面的广阔程度有一定的要求，从而避免评审人员难以就行业信息、数据进行分析研究的窘境；2、投入时间过长：受制于个人专业领域的局限性，在搜索资料方面上，评审人员对自己不了解的行业及细分领域需要花费大量的时间，搜索耗时过长导致评审人员需要耗费大量时间才能完成企业评审报告；3、信息采集不精准：评审报告对于信息的精准性有着较高的要求，但精准的信息分布在大量的具有无效信息的网络中，这导致一篇评审报告存在具有参考价值的资料选择不全面以及无效信息被摘入评审报告的问题，此外，评审人员有摘取信息个人偏好，难以将有效信息全面覆盖，这也导致不同的评审人员对于同一企业的看法存在多个版本的解读。

发明内容

本发明的目的在于提供一种基于深度学习的企业评审辅助方法及系统，有利于提高评审人员的工作效率和工作质量。

为实现上述目的，本发明的技术方案提供了一种基于深度学习的企业评审辅助方法，包括：

步骤S1：获取用户端提交的企业评审辅助请求，所述企业评审辅助请求包括待评审企业的身份标识信息；

步骤S2：根据所述企业的身份标识信息进行网络数据采集，获取若干个与所述待评审企业相关的文本；

步骤S3：将每一个所述与所述待评审企业相关的文本进行分词后利用word2vec工具生成词向量；

步骤S4：对于每一个所述与所述待评审企业相关的文本，将其词向量输入采用自然语言文本库中的数据训练好的卷积神经网络模型中，实现文本分类，其中，所述自然语言文本库包括若干个已标注分类的自然语言文本，且所述若干个自然语言文本的种类包括无关类、市场数据类、竞品分析类三种类型；

步骤S5：根据市场数据类的与所述待评审企业相关的文本生成市场分析报告，根据竞品分析类的与所述待评审企业相关的文本生成竞品分析报告；

步骤S6：将所述市场分析报告以及所述竞品分析报告发送所述用户端。

进一步地，所述身份标识信息包括行业关键词以及企业名称。

进一步地，所述步骤S2包括：

根据所述企业的身份标识信息在多个媒体来源中进行搜索；

按照预设的网址过滤规则对搜索得到的网址进行过滤；

对过滤保留下的网址进行解析并提取正文，得到若干个与所述待评审企业相关的文本。

进一步地，所述训练好的卷积神经网络模型采用以下方式得到：

构建卷积神经网络模型；

将所述自然语言文本库中每一个已标注分类的自然语言文本进行分词后利用word2vec工具生成词向量；

对于每一个已标注分类的自然语言文本，利用其词向量对所述构建的卷积神经网络模型进行训练。

为实现上述目的，本发明的技术方案还提供了一种基于深度学习的企业评审辅助系统，包括：

获取模块，用于获取用户端提交的企业评审辅助请求，所述企业评审辅助请求包括待评审企业的身份标识信息；

数据采集模块，用于根据所述企业的身份标识信息进行网络数据采集，获取若干个与所述待评审企业相关的文本；

处理模块，用于将每一个所述与所述待评审企业相关的文本进行分词后利用word2vec工具生成词向量；

分类模块，用于对于每一个所述与所述待评审企业相关的文本，将其词向量输入采用自然语言文本库中的数据训练好的卷积神经网络模型中，实现文本分类，其中，所述自然语言文本库包括若干个已标注分类的自然语言文本，且所述若干个自然语言文本的种类包括无关类、市场数据类、竞品分析类三种类型；

报告生成模块，用于根据市场数据类的与所述待评审企业相关的文本生成市场分析报告，根据竞品分析类的与所述待评审企业相关的文本生成竞品分析报告；

发送模块，用于将所述市场分析报告以及所述竞品分析报告发送所述用户端。

进一步地，所述数据采集模块包括：

搜索单元，用于根据所述企业的身份标识信息在多个媒体来源中进行搜索；

过滤单元，用于按照预设的网址过滤规则对搜索得到的网址进行过滤；

解析单元，用于对过滤保留下的网址进行解析并提取正文，得到若干个与所述待评审企业相关的文本。

构建卷积神经网络模型；

本发明提供的基于深度学习的企业评审辅助方法，能够帮助评审人员收集和整理信息，有利于提高评审人员的工作效率和工作质量，降低评审人员的撰写评审的门槛。

附图说明

图1是本发明实施方式提供的一种基于深度学习的企业评审辅助方法的流程图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

参见图1，图1是本发明实施方式提供的一种基于深度学习的企业评审辅助方法的流程图，该方法包括步骤S1～步骤S6；

例如，上述用户端可以为手机、笔记本电脑、台式电脑或笔记本电脑电能，待评审企业的身份标识信息可以包括待评审企业的行业关键词以及企业名称(如公司名称)；

步骤S2：根据所述企业的身份标识信息进行网络数据采集，获取若干个与所述待评审企业相关的文本，其中，该步骤可以采用多进程网络数据采集技术，具体可以包括：

根据所述企业的身份标识信息在多个媒体来源中进行搜索；

按照预设的网址过滤规则对搜索得到的网址进行过滤；

对过滤保留下的网址进行解析并提取正文，得到若干个与所述待评审企业相关的文本；

例如，在接收到用户通过用户端提交的企业评审辅助请求后，可以根据其中的行业关键词(keyword)和公司名称在各个媒体来源中搜索并采集与待评审企业相关的财经信息，为保证速度，可以按照预设的网址过滤规则对搜索得到的网址进行过滤，以过滤url相同的网址以及内容雷同的网址，之后进行文本清洗与语料准备过程：即对通过数据采集技术得到的网址进行解析并提取正文，得到相应的文本；

例如，可以利用jieba工具对待评审企业相关的文本进行分词，并用训练好的word2vec模型(即word2vec工具)得到其词向量，其中，word2vec模型的功能是使用低维度的稠密向量来表示中文词汇，这样做的优点是可以抽象地表示一个词的"意义"，该模块的具体实现可以采用gensim库中的Word2Vec-CBOW模型，其以中文百科和大量财经著作作为训练数据；

即以待评审企业相关的文本的词向量为输入，通过训练好的卷积神经网络模型(即分类器模型)，对文本进行分类，保留市场数据类和竞品分析类的文本；

其中，本发明中，上述训练好的卷积神经网络模型采用以下方式得到：

构建卷积神经网络模型，例如，该卷积神经网络可由如下几个部分组成：嵌入层(embedding layer)，激活函数，卷积层(convolution layer)，归一化层(normalizationlayer)，池化层(pooling layer)，全连接层(fully connected layer)，dropout模块，误差与准确度计算模块；

将所述自然语言文本库中每一个已标注分类的自然语言文本进行分词后利用word2vec工具生成词向量，例如，可以预先收集大量自然语言文本，并将其分为三类，分别为无关类，市场数据类和竞品分析类，之后进行分词与语料准备：如利用python的jieba库对自然语言文本库中分类标注好的自然语言材料进行分词，然后将分词后的自然语言材料用word2vec表示，作为训练语料，其中，word2vec工具可以采用gensim库中的Word2Vec-CBOW模型，其以中文百科和大量财经著作作为训练数据；

对于每一个已标注分类的自然语言文本，利用其词向量对所述构建的卷积神经网络模型进行训练，即利用上述自然语言文本库得到的训练语料对构建的卷积神经网络模型进行训练，训练之后的结果是一个自然语言分类模型。

即根据步骤S4得到的分类结果，将市场数据类的文本归集整理，得到市场分析报告，将竞品分析类的文本归集整理，得到竞品分析报告；

步骤S6：将所述市场分析报告以及所述竞品分析报告发送所述用户端，用户端接收到后将其呈现给用户，通过该市场分析报告以及竞品分析报告可以使用户对待评审企业有更精确、全面的了解，可以帮助用户进一步完成企业评审报告。

例如，本发明中基于深度学习的企业评审辅助方法可以采用web技术实现，用户可以在其用户端上输入要查找的行业关键词(keyword)和公司名称,用户端将这些信息以企业评审辅助请求的方式发送至后台服务端，后台服务端接收到企业评审辅助请求后采用上述方法，首先根据用户输入的关键词和公司名称去各个媒体多进程采集数据，然后这些内容经过一些预处理后以词向量的形式输入到训练好的CNN分类器(即训练好的卷积神经网络模型)中，之后根据分类器输出的分类结果(三类)选择性的将内容通过网页方式呈现给用户。

本发明实施方式提供的基于深度学习的企业评审辅助方法，能够帮助评审人员收集和整理信息，有利于提高评审人员的工作效率和工作质量，降低评审人员的撰写评审的门槛。

此外，本发明实施方式还提供了一种基于深度学习的企业评审辅助系统，包括：

其中，在本发明实施方式中，所述身份标识信息包括行业关键词以及企业名称。

其中，在本发明实施方式中，所述数据采集模块包括：

其中，在本发明实施方式中，所述训练好的卷积神经网络模型采用以下方式得到：

构建卷积神经网络模型；

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种基于深度学习的企业评审辅助方法，其特征在于，包括：

2.根据权利要求1所述的基于深度学习的企业评审辅助方法，其特征在于，所述身份标识信息包括行业关键词以及企业名称。

3.根据权利要求1所述的基于深度学习的企业评审辅助方法，其特征在于，所述步骤S2包括：

根据所述企业的身份标识信息在多个媒体来源中进行搜索；

按照预设的网址过滤规则对搜索得到的网址进行过滤；

4.根据权利要求1所述的基于深度学习的企业评审辅助方法，其特征在于，所述训练好的卷积神经网络模型采用以下方式得到：

构建卷积神经网络模型；

5.一种基于深度学习的企业评审辅助系统，其特征在于，包括：

6.根据权利要求5所述的基于深度学习的企业评审辅助系统，其特征在于，所述身份标识信息包括行业关键词以及企业名称。

7.根据权利要求5所述的基于深度学习的企业评审辅助系统，其特征在于，所述数据采集模块包括：

8.根据权利要求5所述的基于深度学习的企业评审辅助系统，其特征在于，所述训练好的卷积神经网络模型采用以下方式得到：

构建卷积神经网络模型；