CN116304058A - 企业负面信息的识别方法、装置、电子设备及存储介质 - Google Patents

企业负面信息的识别方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN116304058A
CN116304058A CN202310465145.8A CN202310465145A CN116304058A CN 116304058 A CN116304058 A CN 116304058A CN 202310465145 A CN202310465145 A CN 202310465145A CN 116304058 A CN116304058 A CN 116304058A
Authority
CN
China
Prior art keywords
information
enterprise
model
training
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310465145.8A
Other languages
English (en)
Other versions
CN116304058B (zh
Inventor
吴广学
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Accumulus Technologies Tianjin Co Ltd
Original Assignee
Accumulus Technologies Tianjin Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Accumulus Technologies Tianjin Co Ltd filed Critical Accumulus Technologies Tianjin Co Ltd
Priority to CN202310465145.8A priority Critical patent/CN116304058B/zh
Publication of CN116304058A publication Critical patent/CN116304058A/zh
Application granted granted Critical
Publication of CN116304058B publication Critical patent/CN116304058B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种企业负面信息的识别方法、装置、电子设备及存储介质,其中方法包括:从互联网信息平台抓取待识别企业的经营信息;将所述经营信息分别输入已预先训练的对应不同维度的多个信息分类Fast‑Text模型,得到每个维度下的第一分类结果;所述第一分类结果表征从所述经营信息中分类得到的负面信息;所述Fast‑Text模型包括以下至少一维度的信息分类模型:企业高管、企业服务、企业产品、企业管理及企业口碑;以全部所述第一分类结果组成待识别特征向量,并将所述待识别特征向量输入已预先训练的朴素贝叶斯二分类器NBM模型,得到本次的识别结果。本发明实施例能够高准确度地得到企业负面信息的识别结果。

Description

企业负面信息的识别方法、装置、电子设备及存储介质
技术领域
本发明实施例涉及互联网金融技术领域,尤其涉及一种企业负面信息的识别方法、装置、电子设备及存储介质。
背景技术
在互联网上,企业负面信息涉及广泛,包括企业高管言行失当或违法、企业产品、服务、口碑、管理负面信息等。
目前,企业负面信息识别采用关键词识别方案。需要设置公司名称,产品名,高管等实体关键词以及描述企业、相关产品、服务等方面的负面关键词,当监测互联网的数据触发到相关关键词时,确定此企业存在负面信息。
关键词往往无法穷举,并且随着时间推移关键词也会发生变化,使得现有的负面信息识别方法的识别准确率低。
发明内容
本发明实施例提供一种企业负面信息的识别方法、装置、电子设备及存储介质,以解决关键词往往无法穷举,并且随着时间推移关键词也会发生变化,使得现有的负面信息识别方法的识别准确率低的问题。
为了解决上述技术问题,本发明是这样实现的:
第一方面,本发明实施例提供了一种企业负面信息的识别方法,包括:
从互联网信息平台抓取待识别企业的经营信息;
将所述经营信息分别输入已预先训练的对应不同维度的多个信息分类Fast-Text模型,得到每个维度下的第一分类结果;所述第一分类结果表征从所述经营信息中分类得到的负面信息;所述Fast-Text模型包括以下至少一维度的信息分类模型:企业高管、企业服务、企业产品、企业管理及企业口碑;
以全部所述第一分类结果组成待识别特征向量,并将所述待识别特征向量输入已预先训练的朴素贝叶斯二分类器NBM模型,得到本次的识别结果。
可选地,
将所述经营信息分别输入已预先训练的对应不同维度的多个信息分类Fast-Text模型,之前还包括:
对所述经营信息进行预处理,得到预处理后的经营信息;
按照字颗粒将所述预处理后的经营信息转换为矩阵形式,并将矩阵形式的经营信息输入所述信息分类Fast-Text模型;
其中,所述预处理包括:
对所述经营信息进行结巴分词处理;
对结巴分词处理之后的所述经营信息进行归一化处理;
去除归一化处理之后的所述经营信息中的标点和停用词,得到所述预处理后的经营信息。
可选地,
所述信息分类Fast-Text模型的训练方法包括:
从所述互联网信息平台获取多个企业信息集合,所述企业信息集合与所述信息分类Fast-Text模型的维度对应;
对所述企业信息集合进行标注,得到与所述信息分类Fast-Text模型的维度对应的多个训练信息集合;所述标注用于指示所述企业信息集合中的企业信息是否为负面信息;
采用Bert模型生成所述训练信息集合中全部训练信息的字向量表示,得到训练字向量集合;
采用所述训练字向量集合对Fast-Text模型进行训练,得到所述信息分类Fast-Text模型。
可选地,
采用所述训练字向量集合对Fast-Text模型进行训练,得到所述信息分类Fast-Text模型,包括:
训练步骤:采用所述训练字向量集合对原始Fast-Text模型进行训练,得到初级Fast-Text模型;
校验步骤:获取所述初级Fast-Text模型在训练过程中的输出结果;根据所述输出结果及所述训练字向量集合,确定所述初级Fast-Text模型是否满足预设的模型要求;
第一执行步骤:若所述初级Fast-Text模型满足所述模型要求,确定当前的所述初级Fast-Text模型为所述信息分类Fast-Text模型;
第二执行步骤:若所述初级Fast-Text模型不满足所述模型要求,对所述初级Fast-Text模型进行调优处理,以调优处理之后的所述初级Fast-Text模型作为新的所述原始Fast-Text模型返回所述训练步骤,直至所述初级Fast-Text模型满足所述模型要求。
可选地,
所述调优处理包括以下至少一种处理方式:调节批尺寸batch size参数、调节学习率learn rate参数,以及调节损失函数。
可选地,
所述信息分类Fast-Text模型为二分类模型,所述第一分类结果为二分类结果。
可选地,
所述NBM模型训练方法包括:
获取所述训练信息集合,并将所述训练信息集合中的训练信息转换为与所述第一分类结果相同的格式;
在各个维度下,计算所述训练信息的数量相对全部所述训练信息的数量的比值,作为基准先验概率;并且,计算所述负面信息的数量相对全部所述训练信息的数量的比值,作为基准条件概率;
采用所述训练信息集合对原始NBM模型进行训练,得到初级NBM模型;
采用所述训练信息集合对所述初级NBM模型进行试验,得到试验结果; 并且,根据所述基准先验概率以及所述基准条件概率对所述试验结果进行评估,得到评估结果;
若所述评估结果为所述试验结果满足预设的准确度阈值,确定当前的所述初级NBM模型为所述NBM模型。
第二方面,本发明实施例提供了一种企业负面信息的识别装置,包括:
获取模块,用于从互联网信息平台抓取待识别企业的经营信息;
第一识别模块,用于将所述经营信息分别输入已预先训练的对应不同维度的多个信息分类Fast-Text模型,得到每个维度下的第一分类结果;所述第一分类结果表征从所述经营信息中分类得到的负面信息;所述Fast-Text模型包括以下至少一维度的信息分类模型:企业高管、企业服务、企业产品、企业管理及企业口碑;
第二识别模块,用于以全部所述第一分类结果组成待识别特征向量,并将所述待识别特征向量输入已预先训练的朴素贝叶斯二分类器NBM模型,得到本次的识别结果。
第三方面,本发明实施例提供了一种电子设备,包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面中任一项所述的企业负面信息的识别方法中的步骤。
第四方面,本发明实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面中任一项所述的企业负面信息的识别方法中的步骤。
在本发明实施例中,通过从互联网信息平台抓取待识别企业的经营信息;将经营信息分别输入已预先训练的对应不同维度的多个信息分类Fast-Text模型,得到每个维度下的第一分类结果;第一分类结果表征从经营信息中分类得到的负面信息;Fast-Text模型包括以下至少一维度的信息分类模型:企业高管、企业服务、企业产品、企业管理及企业口碑;以全部第一分类结果组成待识别特征向量,并将待识别特征向量输入已预先训练的朴素贝叶斯二分类器NBM模型,得到本次的识别结果,本发明实施例能够高准确度地得到企业负面信息的识别结果。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本发明实施例企业负面信息的识别方法的流程示意图;
图2为语料分类的流程示意图;
图3为本发明实施例企业负面信息的识别装置的原理框图;
图4为本发明实施例电子设备的原理框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种企业负面信息的识别方法,参见图1所示,图1为本发明实施例企业负面信息的识别方法的流程示意图,包括:
步骤11:从互联网信息平台抓取待识别企业的经营信息;
步骤12:将经营信息分别输入已预先训练的对应不同维度的多个信息分类Fast-Text模型,得到每个维度下的第一分类结果;第一分类结果表征从经营信息中分类得到的负面信息;Fast-Text模型包括以下至少一维度的信息分类模型:企业高管、企业服务、企业产品、企业管理及企业口碑;
步骤13:以全部第一分类结果组成待识别特征向量,并将待识别特征向量输入已预先训练的朴素贝叶斯二分类器NBM模型,得到本次的识别结果。
本发明的一些实施例中,可选地,互联网信息平台可以是企业信息服务商的数据接口平台,例如:企查查、爱企查及天眼查等企业信息服务商,企业信息服务商将多维度的企业信息进行整合后销售。
本发明的一些实施例中,可选地,互联网信息平台也可以是工商部门、市场监督管理部门、知识产权部门及招投标公告平台等官方政务信息公开平台。可以理解的,官方政务信息公开平台会公布各种涉企业信息。
本发明的一些实施例中,可选地,互联网信息平台也可以社交平台,例如:微博、博客、微信公众号等。
本发明实施例中,企业经营信息包括:企业高管言论、公众对企业产品的评价、企业工商信息、企业参与的招投标信息、企业年报、对于上市企业而言的年度或季度企业财报,对于上市企业而言的重大事项披露公告,以及企业的专利申请信息等。
本发明实施例的步骤11,从互联网信息平台抓取待识别企业的经营信息相较于人工检索收集能够高效快捷地获取到经营信息,并且没有人工检索收集的体力精力限制,能够确保能到更加全面的经营信息。
Fast-Text模型是Facebook开源的一个词向量与文本分类工具。Fast-Text(浅层网络)往往能取得和深度网络相媲美的精度,却在训练时间上比深度网络快许多数量级。在标准的多核CPU上,能够在10分钟之内训练10亿词级别语料库的词向量,能够在一分钟之内分类有着30万多类别的50多万句子。
Fast-Text模型只有三层:输入层、隐含层、输出层(Hierarchical Softmax),输入都是多个经向量表示的单词,输出都是一个特定的target类别,隐含层都是对多个词向量的叠加平均。
本发明实施例中,通过采用Fast-Text模型在保障分类高准确率的基础上,提高了分类速度,提高了在繁巨的企业经营信息中进行大规模文本分类的分类效率。
NBM(Naive Bayesian Model,朴素贝叶斯模型),是一种基于朴素贝叶斯算法的分类模型。NBM在文字识别及图像识别方面有着较为重要的作用。可以将未知的一种文字或图像,根据其已有的分类规则来进行分类,最终达到分类的目的。
分类是数据分析和机器学习领域的一个基本问题。文本分类已广泛应用于网络信息过滤、信息检索和信息推荐等多个方面。数据驱动分类器学习一直是近年来的热点,方法很多,比如神经网络、决策树、支持向量机、朴素贝叶斯等。相对于其他精心设计的更复杂的分类算法,朴素贝叶斯分类算法是学习效率和分类效果较好的分类器之一。直观的文本分类算法,也是最简单的贝叶斯分类器,具有很好的可解释性,朴素贝叶斯算法特点是假设所有特征的出现相互独立互不影响,每一特征同等重要。但事实上这个假设在现实世界中并不成立:首先,相邻的两个词之间的必然联系,不能独立;其次,对一篇文章来说,其中的某一些代表词就确定它的主题,不需要通读整篇文章、查看所有词。所以需要采用合适的方法进行特征选择,这样朴素贝叶斯分类器才能达到更高的分类效率。
在二分类(得到负面或者非负面两种分类结果)已经满足识别要求的情况下,本发明实施例步骤13,以全部第一分类结果组成待识别特征向量,并将待识别特征向量输入已预先训练的朴素贝叶斯二分类器NBM模型,得到本次的识别结果,基于NBM模型能够高效率地实现对第一分类结果的进一步二分类,得到二分类结果(即识别结果),避免了多分类对算力资源的高需求,以及避免了进行多分类所需消耗的计算机时,实现了高效率的负面信息识别。
在本发明实施例中,通过从互联网信息平台抓取待识别企业的经营信息;将经营信息分别输入已预先训练的对应不同维度的多个信息分类Fast-Text模型,得到每个维度下的第一分类结果;第一分类结果表征从经营信息中分类得到的负面信息;Fast-Text模型包括以下至少一维度的信息分类模型:企业高管、企业服务、企业产品、企业管理及企业口碑;以全部第一分类结果组成待识别特征向量,并将待识别特征向量输入已预先训练的朴素贝叶斯二分类器NBM模型,得到本次的识别结果,本发明实施例能够高准确度地得到企业负面信息的识别结果。
本发明的一些实施例中,可选地,
将经营信息分别输入已预先训练的对应不同维度的多个信息分类Fast-Text模型,之前还包括:
步骤a:对经营信息进行预处理,得到预处理后的经营信息;
步骤b:按照字颗粒将预处理后的经营信息转换为矩阵形式,并将矩阵形式的经营信息输入信息分类Fast-Text模型;
其中,预处理包括:
步骤a1:对经营信息进行结巴分词处理;
步骤a2:对结巴分词处理之后的经营信息进行归一化处理;
步骤a3:去除归一化处理之后的经营信息中的标点和停用词,得到预处理后的经营信息。
结巴分词是一个分词工具,刚开始是Python版本的,后来移植到.Net上面。结巴分词的分词过程大致为以下A-D步骤:
A、前缀词典(Trie):用于存储主词典,也可以动态增删词条,这个词典可以理解为jieba所“知道”的词,或者说已登录词;
B、有向无环图(DAG):通过前缀词典,可以找出句子所有可能的成词结果;
C、最大概率路径:通过DAG,可以了解所有的成词结果,每个结果对应于一条路径及其概率。由于不同词条的出现概率不同,不同的结果就对应了不同的概率,找出概率最大的那条路径。到这里,对于已登录词做出了最合理的划分;
D、HMM模型和Viterbi算法:最大概率路径之后,可能会遇到一些未登录词(不包含在前缀词典中的词),这时通过HMM和Viterbi尝试进一步的划分,得到最终结果。
本发明实施例中的步骤a1中对经营信息进行结巴分词处理,用于识别经营信息文本中的时间、地点及数量词等信息。
归一化处理,即:将有量纲的表达式变换为无量纲的表达式,成为标量。具体到本发明实施例中,步骤a2中对结巴分词处理之后的经营信息进行归一化处理,即:将通过结巴分词识别得到的经营信息文本中的时间、地点及数量词等信息归一为标量,以确保后续能够按照字颗粒将预处理后的经营信息转换为矩阵形式,避免不同量纲信息对信息分类Fast-Text模型形成干扰,通过减少排除干扰需要耗费的时间提高信息分类Fast-Text模型的识别效率。
本发明实施例中,步骤a3中去除归一化处理之后的经营信息中的标点和停用词,能够避免无效的内容干扰信息分类Fast-Text模型的第一分类结果,确保得到高准确度的第一分类结果。
本发明的一些实施例中,可选地,
信息分类Fast-Text模型的训练方法包括:
步骤c:从互联网信息平台获取多个企业信息集合,企业信息集合与信息分类Fast-Text模型的维度对应;
步骤d:对企业信息集合进行标注,得到与信息分类Fast-Text模型的维度对应的多个训练信息集合;标注用于指示企业信息集合中的企业信息是否为负面信息;
步骤e:采用Bert模型生成训练信息集合中全部训练信息的字向量表示,得到训练字向量集合;
步骤f:采用训练字向量集合对Fast-Text模型进行训练,得到信息分类Fast-Text模型。
本发明实施例中,步骤e中采用Bert模型生成训练信息集合中全部训练信息的字向量表示,即采用Bert模型生成所有文本的字向量表示,拼凑成信息分类Fast-Text模型可以使用的预训练字向量文件(相当于本发明实施例中的训练字向量集合)。
实际应用中,步骤e可以具体包括以下步骤:首先加载Bert模型,再将训练信息集合中全部训练信息转化为Bert模型的输入格式,采用完成加载的Bert模型提取完成格式转化的训练信息中的字向量,并将提取到的字向量打印为字向量表示得到训练字向量集合。
以下结合示例对信息分类Fast-Text模型的训练方法进行说明:
本示例中,信息分类Fast-Text模型具有高管、企业服务、企业产品、企业管理,以及企业口碑五个维度。
本示例中,信息分类Fast-Text模型的训练步骤(B1-B3)包括:
B1、按照高管、企业服务、企业产品、企业管理及企业口碑五个维度,收集互联网(即互联网信息平台)描述企业上述维度的文章或评论(即企业信息集合)作为初始语料。对初始语料进行分类,标识正负面结果,以此分别产出上述五个维度的训练语料(训练语料,即相当于本发明实施例中的训练信息集合)。
其中,上述五个维度的确定规则如下,并以此规则作为语料分类依据:
高管类:描述企业高管的讲话、行为、任职、离职等的文章,作为高管类语料,并依据语料给出正负面标签;
企业服务类:描述企业服务行为,或者用户对企业对外提供服务的正负面评价;
企业产品类:描述企业产品的文章或评论,或者用户对产品描述的评价等;
企业管理类:描述企业管理、股东、投资及管理等方面的新闻;
企业口碑类:描述企业口碑的文章。
参见图2所示,图2为语料分类的流程示意图,其中,输入文本即输入互联网平台上抓取的信息,通过嵌入层将信息分类为各个维度的语料,图2中X1、X2直至Xn的每一项均表示一维度的语料信息,再经过隐藏层输出各个维度的训练语料。
B2、加载Bert模型,再将训练语料中全部训练信息转化为Bert模型的输入格式,采用完成加载的Bert模型提取完成格式转化的训练信息中的字向量,并将提取到的字向量打印为字向量表示得到训练字向量集合。
B3、采用训练字向量集合对Fast-Text模型进行训练,在训练过程中通过调节批尺寸batch size参数、调节学习率learn rate参数,以及调节损失函数对模型进行调优,获取多个最优分类模型(多个最优分类模型即相当于本发明实施例中的信息分类Fast-Text模型,在本示例中具体包括:企业高管负面模型、企业服务负面模型、企业产品负面模型、企业管理负面模型,以及企业口碑负面模型)。
本发明的一些实施例中,可选地,采用训练字向量集合对Fast-Text模型进行训练,得到信息分类Fast-Text模型,包括:
训练步骤g:采用训练字向量集合对原始Fast-Text模型进行训练,得到初级Fast-Text模型;
校验步骤h:获取初级Fast-Text模型在训练过程中的输出结果;根据输出结果及训练字向量集合,确定初级Fast-Text模型是否满足预设的模型要求;
第一执行步骤i:若初级Fast-Text模型满足模型要求,确定当前的初级Fast-Text模型为信息分类Fast-Text模型;
第二执行步骤j:若初级Fast-Text模型不满足模型要求,对初级Fast-Text模型进行调优处理,以调优处理之后的初级Fast-Text模型作为新的原始Fast-Text模型返回训练步骤g,直至初级Fast-Text模型满足模型要求。
本发明实施例中,预设的模型要求可以是预先设定的对应模型识别准确率指标,也可以是识别准确率与识别速率组成的指标。
本发明实施例中,模型要求还可以是针对某一维度或某几个维度确定的指标。例如,在实际应用中发现某一维度或某几个维度的识别准确率明显低于其他指标,则可以将上述维度(下称控制性维度)的识别准确率作为控制性因素。在每次调优完成再返回训练步骤g而得到新的初级Fast-Text模型之后,在校验步骤h中仅获取控制性维度的输出结果,再依据由识别结果确定的识别准确率来确定初级Fast-Text模型是否满足预设的模型要求。本发明实施例,由于仅依据控制性维度的输出结果来进行校验,可以理解的,若已经得到控制性维度的输出结果,可以直接进行校验步骤,不必等待其他维度的完成输出结果,能够有减少训练所需的算力成本,减少训练耗时,提高训练效率。
以下结合示例对信息分类Fast-Text模型的训练方法进行说明:
本示例中,信息分类Fast-Text模型具有高管、企业服务、企业产品、企业管理,以及企业口碑五个维度。
本示例中,信息分类Fast-Text模型的训练步骤(B1-B3)包括:
B1、按照高管、企业服务、企业产品、企业管理及企业口碑五个维度,收集互联网(即互联网信息平台)描述企业上述维度的文章或评论(即企业信息集合)作为初始语料。对初始语料进行分类,标识正负面结果,以此分别产出上述五个维度的训练语料(训练语料,即相当于本发明实施例中的训练信息集合)。
其中,上述五个维度的确定规则如下,并以此规则作为语料分类依据:
高管类:描述企业高管的讲话、行为、任职、离职等的文章,作为高管类语料,并依据语料给出正负面标签;
企业服务类:描述企业服务行为,或者用户对企业对外提供服务的正负面评价;
企业产品类:描述企业产品的文章或评论,或者用户对产品描述的评价等;
企业管理类:描述企业管理、股东、投资及管理等方面的新闻;
企业口碑类:描述企业口碑的文章。
参见图2所示,图2为语料分类的流程示意图,其中,输入文本即输入互联网平台上抓取的信息,通过嵌入层将信息分类为各个维度的语料,图2中X1、X2直至Xn的每一项均表示一维度的语料信息,再经过隐藏层输出各个维度的训练语料。
B2、加载Bert模型,再将训练语料中全部训练信息转化为Bert模型的输入格式,采用完成加载的Bert模型提取完成格式转化的训练信息中的字向量,并将提取到的字向量打印为字向量表示得到训练字向量集合。
B3、采用训练字向量集合对Fast-Text模型进行训练,在训练过程中通过调节批尺寸batch size参数、调节学习率learn rate参数,以及调节损失函数对模型进行调优,获取多个最优分类模型(多个最优分类模型即相当于本发明实施例中的信息分类Fast-Text模型,在本示例中具体包括:企业高管负面模型、企业服务负面模型、企业产品负面模型、企业管理负面模型,以及企业口碑负面模型)。
本发明的一些实施例中,可选地,调优处理包括以下至少一种处理方式:调节批尺寸batch size参数、调节学习率learn rate参数,以及调节损失函数。
本发明实施例中,可选地,信息分类Fast-Text模型为二分类模型,第一分类结果为二分类结果。
本发明实施例中,将负面信息识别简化为仅确定负面或者非负面,二分类(得到负面或者非负面两种分类结果)能够满足识别要求。本发明实施例中的信息分类Fast-Text模型为二分类模型,第一分类结果为二分类结果,能够高效率地得到第一分类结果,避免了多分类对算力资源的高需求以及多分类所需消耗的计算机时,实现了高效率的负面信息识别。
并且,本发明实施例中,信息分类Fast-Text模型为二分类模型,第一分类结果为二分类结果,也有利于降低训练信息分类Fast-Text模型所需的算力资源,达到优化训练过程的目的。
本发明的一些实施例中,可选地,NBM模型训练方法包括:
步骤k:获取训练信息集合,并将训练信息集合中的训练信息转换为与第一分类结果相同的格式;
步骤l:在各个维度下,计算训练信息的数量相对全部训练信息的数量的比值,作为基准先验概率;并且,计算负面信息的数量相对全部训练信息的数量的比值,作为基准条件概率;
步骤m:采用训练信息集合对原始NBM模型进行训练,得到初级NBM模型;
步骤n:采用训练信息集合对初级NBM模型进行试验,得到试验结果;并且,根据基准先验概率以及基准条件概率对试验结果进行评估,得到评估结果;
步骤o:若评估结果为试验结果满足预设的准确度阈值,确定当前的初级NBM模型为NBM模型。
本发明实施例中,为了训练得到适应本发明实施例企负面信息识别方法的NBM模型,在NBM模型的训练过程中,通过步骤k获取与训练信息分类Fast-Text模型相同的训练信息集合,再将训练信息集合中的训练信息转换为与第一分类结果相同的格式,实现了NBM模型与其应用场景的衔接,确保训练得到能够高准确度得出识别结果的NBM模型。并且,可以理解地,避免了训练得到的NBM模型与本发明实施例企负面信息识别方法不兼容的问题,避免不兼容NBM模型对识别结果的干扰,确保本发明实施例企负面信息识别方法能够高准确率地得到识别结果;此外,避免不兼容NBM模型对识别结果的干扰,减少为排除干扰所需耗费的时间,还使得本发明实施例企负面信息识别方法能够高效率地得到识别结果。
以下结合示例对信息分类Fast-Text模型的训练方法进行说明:
本示例中,信息分类Fast-Text模型具有高管、企业服务、企业产品、企业管理,以及企业口碑五个维度。
本示例中,NBM模型的训练步骤(C1-C4)包括:
C1、对于一条语料,按照信息分类Fast-Text模型的五个模型二分类结果的格式,组成1*5维特征向量(x1,x2,x3,x4,x5)。其中,x1表示高管类模型输出正负面结果,x1的值为1表示正面,x1的值为0表示负面;x2表示企业服务类模型输出结果,x2的值为1表示正面,x2的值为0表示负面;x3表示企业产品类模型输出结果,x3的值为1表示正面,x3的值为0表示负面;x4表示企业管理类模型输出结果,x4的值为1表示正面,x4的值为0表示负面;x5表示企业口碑类模型输出结果,x5的值为1表示正面,x5的值为0表示负面。(相当于本发明实施例中的将训练信息集合中的训练信息转换为与第一分类结果相同的格式);
C2、计算每个类别的先验概率,即该类别在训练数据中出现的概率(即在各个维度下,计算训练信息的数量相对全部训练信息的数量的比值,作为基准先验概率);
C3、对于每个特征,计算在给定类别下该特征出现的概率(即计算负面信息的数量相对全部训练信息的数量的比值,作为基准条件概率);
C4、用训练数据对模型进行训练,计算每个类别的先验概率和条件概率,使用测试数据对训练好的模型进行评估,根据评估结果确定是否完成训练(采用训练信息集合对原始NBM模型进行训练,得到初级NBM模型;采用训练信息集合对初级NBM模型进行试验,得到试验结果;并且,根据基准先验概率以及基准条件概率对试验结果进行评估,得到评估结果若评估结果为试验结果满足预设的准确度阈值,确定当前的初级NBM模型为NBM模型)。
本发明的一些实施例中,可选地,评估结果包括还可以包括召回率、F1值指标。相应地,则步骤o:若评估结果为试验结果满足预设的召回率阈值和/或预设的F1值阈值,确定当前的初级NBM模型为NBM模型。
本发明实施例还提供了一种企业负面信息的识别装置,参见图3所示,图3为本发明实施例企业负面信息的识别装置的原理框图,企业负面信息的识别装置30包括:
获取模块31,用于从互联网信息平台抓取待识别企业的经营信息;
第一识别模块32,用于将所述经营信息分别输入已预先训练的对应不同维度的多个信息分类Fast-Text模型,得到每个维度下的第一分类结果;所述第一分类结果表征从所述经营信息中分类得到的负面信息;所述Fast-Text模型包括以下至少一维度的信息分类模型:企业高管、企业服务、企业产品、企业管理及企业口碑;
第二识别模块33,用于以全部所述第一分类结果组成待识别特征向量,并将所述待识别特征向量输入已预先训练的朴素贝叶斯二分类器NBM模型,得到本次的识别结果。
本发明的一些实施例中,可选地,企业负面信息的识别装置30还包括:
预处理模块,用于对所述经营信息进行预处理,得到预处理后的经营信息;
转换模块,用于按照字颗粒将所述预处理后的经营信息转换为矩阵形式,并将矩阵形式的经营信息输入所述信息分类Fast-Text模型;
所述预处理模块,还用于对所述经营信息进行结巴分词处理;
所述预处理模块,还用于对结巴分词处理之后的所述经营信息进行归一化处理;
所述预处理模块,还用于去除归一化处理之后的所述经营信息中的标点和停用词,得到所述预处理后的经营信息。
本发明的一些实施例中,可选地,企业负面信息的识别装置30还包括:
第一训练模块,用于从所述互联网信息平台获取多个企业信息集合,所述企业信息集合与所述信息分类Fast-Text模型的维度对应;
所述第一训练模块,还用于对所述企业信息集合进行标注,得到与所述信息分类Fast-Text模型的维度对应的多个训练信息集合;所述标注用于指示所述企业信息集合中的企业信息是否为负面信息;
所述第一训练模块,还用于采用Bert模型生成所述训练信息集合中全部训练信息的字向量表示,得到训练字向量集合;
所述第一训练模块,还用于采用所述训练字向量集合对Fast-Text模型进行训练,得到所述信息分类Fast-Text模型。
本发明的一些实施例中,可选地,
所述第一训练模块,还用于训练步骤:采用所述训练字向量集合对原始Fast-Text模型进行训练,得到初级Fast-Text模型;
所述第一训练模块,还用于校验步骤:获取所述初级Fast-Text模型在训练过程中的输出结果;根据所述输出结果及所述训练字向量集合,确定所述初级Fast-Text模型是否满足预设的模型要求;
所述第一训练模块,还用于第一执行步骤:若所述初级Fast-Text模型满足所述模型要求,确定当前的所述初级Fast-Text模型为所述信息分类Fast-Text模型;
所述第一训练模块,还用于第二执行步骤:若所述初级Fast-Text模型不满足所述模型要求,对所述初级Fast-Text模型进行调优处理,以调优处理之后的所述初级Fast-Text模型作为新的所述原始Fast-Text模型返回所述训练步骤,直至所述初级Fast-Text模型满足所述模型要求。
本发明的一些实施例中,可选地,
所述调优处理包括以下至少一种处理方式:调节批尺寸batch size参数、调节学习率learn rate参数,以及调节损失函数。
本发明的一些实施例中,可选地,
所述信息分类Fast-Text模型为二分类模型,所述第一分类结果为二分类结果。
本发明的一些实施例中,可选地,企业负面信息的识别装置30还包括:
第二训练模块,用于获取所述训练信息集合,并将所述训练信息集合中的训练信息转换为与所述第一分类结果相同的格式;
第二训练模块,用于在各个维度下,计算所述训练信息的数量相对全部所述训练信息的数量的比值,作为基准先验概率;并且,计算所述负面信息的数量相对全部所述训练信息的数量的比值,作为基准条件概率;
第二训练模块,用于采用所述训练信息集合对原始NBM模型进行训练,得到初级NBM模型;
第二训练模块,用于采用所述训练信息集合对所述初级NBM模型进行试验,得到试验结果;并且,根据所述基准先验概率以及所述基准条件概率对所述试验结果进行评估,得到评估结果;
第二训练模块,用于若所述评估结果为所述试验结果满足预设的准确度阈值,确定当前的所述初级NBM模型为所述NBM模型。
本申请实施例提供的企业负面信息的识别装置能够实现图1至图2的方法实施例实现的各个过程,并达到相同的技术效果,为避免重复,这里不再赘述。
本发明实施例提供了一种电子设备40,参见图4所示,图4为本发明实施例电子设备40的原理框图,包括处理器41,存储器42及存储在存储器42上并可在处理器41上运行的程序或指令,程序或指令被处理器执行时实现本发明的任一项企业负面信息的识别方法中的步骤。
本发明实施例提供了一种可读存储介质,可读存储介质上存储程序或指令,程序或指令被处理器执行时实现如上述任一项的企业负面信息的识别方法的实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
其中,所述的可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。

Claims (10)

1.一种企业负面信息的识别方法,其特征在于,包括:
从互联网信息平台抓取待识别企业的经营信息;
将所述经营信息分别输入已预先训练的对应不同维度的多个信息分类Fast-Text模型,得到每个维度下的第一分类结果;所述第一分类结果表征从所述经营信息中分类得到的负面信息;所述Fast-Text模型包括以下至少一维度的信息分类模型:企业高管、企业服务、企业产品、企业管理及企业口碑;
以全部所述第一分类结果组成待识别特征向量,并将所述待识别特征向量输入已预先训练的朴素贝叶斯二分类器NBM模型,得到本次的识别结果。
2.根据权利要求1所述的企业负面信息的识别方法,其特征在于:
将所述经营信息分别输入已预先训练的对应不同维度的多个信息分类Fast-Text模型,之前还包括:
对所述经营信息进行预处理,得到预处理后的经营信息;
按照字颗粒将所述预处理后的经营信息转换为矩阵形式,并将矩阵形式的经营信息输入所述信息分类Fast-Text模型;
其中,所述预处理包括:
对所述经营信息进行结巴分词处理;
对结巴分词处理之后的所述经营信息进行归一化处理;
去除归一化处理之后的所述经营信息中的标点和停用词,得到所述预处理后的经营信息。
3.根据权利要求1所述的企业负面信息的识别方法,其特征在于:
所述信息分类Fast-Text模型的训练方法包括:
从所述互联网信息平台获取多个企业信息集合,所述企业信息集合与所述信息分类Fast-Text模型的维度对应;
对所述企业信息集合进行标注,得到与所述信息分类Fast-Text模型的维度对应的多个训练信息集合;所述标注用于指示所述企业信息集合中的企业信息是否为负面信息;
采用Bert模型生成所述训练信息集合中全部训练信息的字向量表示,得到训练字向量集合;
采用所述训练字向量集合对Fast-Text模型进行训练,得到所述信息分类Fast-Text模型。
4.根据权利要求3所述的企业负面信息的识别方法,其特征在于:
采用所述训练字向量集合对Fast-Text模型进行训练,得到所述信息分类Fast-Text模型,包括:
训练步骤:采用所述训练字向量集合对原始Fast-Text模型进行训练,得到初级Fast-Text模型;
校验步骤:获取所述初级Fast-Text模型在训练过程中的输出结果;根据所述输出结果及所述训练字向量集合,确定所述初级Fast-Text模型是否满足预设的模型要求;
第一执行步骤:若所述初级Fast-Text模型满足所述模型要求,确定当前的所述初级Fast-Text模型为所述信息分类Fast-Text模型;
第二执行步骤:若所述初级Fast-Text模型不满足所述模型要求,对所述初级Fast-Text模型进行调优处理,以调优处理之后的所述初级Fast-Text模型作为新的所述原始Fast-Text模型返回所述训练步骤,直至所述初级Fast-Text模型满足所述模型要求。
5.根据权利要求4所述的企业负面信息的识别方法,其特征在于:
所述调优处理包括以下至少一种处理方式:调节批尺寸batch size参数、调节学习率learn rate参数,以及调节损失函数。
6.根据权利要求1所述的企业负面信息的识别方法,其特征在于:
所述信息分类Fast-Text模型为二分类模型,所述第一分类结果为二分类结果。
7.根据权利要求3所述的企业负面信息的识别方法,其特征在于:
所述NBM模型训练方法包括:
获取所述训练信息集合,并将所述训练信息集合中的训练信息转换为与所述第一分类结果相同的格式;
在各个维度下,计算所述训练信息的数量相对全部所述训练信息的数量的比值,作为基准先验概率;并且,计算所述负面信息的数量相对全部所述训练信息的数量的比值,作为基准条件概率;
采用所述训练信息集合对原始NBM模型进行训练,得到初级NBM模型;
采用所述训练信息集合对所述初级NBM模型进行试验,得到试验结果; 并且,根据所述基准先验概率以及所述基准条件概率对所述试验结果进行评估,得到评估结果;
若所述评估结果为所述试验结果满足预设的准确度阈值,确定当前的所述初级NBM模型为所述NBM模型。
8.一种企业负面信息的识别装置,其特征在于,包括:
获取模块,用于从互联网信息平台抓取待识别企业的经营信息;
第一识别模块,用于将所述经营信息分别输入已预先训练的对应不同维度的多个信息分类Fast-Text模型,得到每个维度下的第一分类结果;所述第一分类结果表征从所述经营信息中分类得到的负面信息;所述Fast-Text模型包括以下至少一维度的信息分类模型:企业高管、企业服务、企业产品、企业管理及企业口碑;
第二识别模块,用于以全部所述第一分类结果组成待识别特征向量,并将所述待识别特征向量输入已预先训练的朴素贝叶斯二分类器NBM模型,得到本次的识别结果。
9.一种电子设备,其特征在于:包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1至7中任一项所述的企业负面信息的识别方法中的步骤。
10.一种可读存储介质,其特征在于:所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1至7中任一项所述的企业负面信息的识别方法中的步骤。
CN202310465145.8A 2023-04-27 2023-04-27 企业负面信息的识别方法、装置、电子设备及存储介质 Active CN116304058B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310465145.8A CN116304058B (zh) 2023-04-27 2023-04-27 企业负面信息的识别方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310465145.8A CN116304058B (zh) 2023-04-27 2023-04-27 企业负面信息的识别方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN116304058A true CN116304058A (zh) 2023-06-23
CN116304058B CN116304058B (zh) 2023-08-08

Family

ID=86801507

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310465145.8A Active CN116304058B (zh) 2023-04-27 2023-04-27 企业负面信息的识别方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN116304058B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109784368A (zh) * 2018-12-11 2019-05-21 同盾控股有限公司 一种应用程序分类的确定方法和装置
CN111695033A (zh) * 2020-04-29 2020-09-22 平安科技(深圳)有限公司 企业舆情分析方法、装置、电子设备及介质
WO2020199591A1 (zh) * 2019-03-29 2020-10-08 平安科技(深圳)有限公司 文本分类模型训练方法、装置、计算机设备及存储介质
CN112100377A (zh) * 2020-09-14 2020-12-18 腾讯科技(深圳)有限公司 文本分类方法、装置、计算机设备和存储介质
CN112183093A (zh) * 2020-11-02 2021-01-05 杭州安恒信息安全技术有限公司 一种企业舆情分析方法、装置、设备及可读存储介质
CN113051462A (zh) * 2019-12-26 2021-06-29 深圳市北科瑞声科技股份有限公司 一种多分类模型训练方法、系统及装置
CN113569115A (zh) * 2021-02-19 2021-10-29 腾讯科技(深圳)有限公司 数据分类方法、装置、设备及计算机可读存储介质
CN115827871A (zh) * 2022-12-27 2023-03-21 国家计算机网络与信息安全管理中心 互联网企业分类的方法、装置和系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109784368A (zh) * 2018-12-11 2019-05-21 同盾控股有限公司 一种应用程序分类的确定方法和装置
WO2020199591A1 (zh) * 2019-03-29 2020-10-08 平安科技(深圳)有限公司 文本分类模型训练方法、装置、计算机设备及存储介质
CN113051462A (zh) * 2019-12-26 2021-06-29 深圳市北科瑞声科技股份有限公司 一种多分类模型训练方法、系统及装置
CN111695033A (zh) * 2020-04-29 2020-09-22 平安科技(深圳)有限公司 企业舆情分析方法、装置、电子设备及介质
CN112100377A (zh) * 2020-09-14 2020-12-18 腾讯科技(深圳)有限公司 文本分类方法、装置、计算机设备和存储介质
CN112183093A (zh) * 2020-11-02 2021-01-05 杭州安恒信息安全技术有限公司 一种企业舆情分析方法、装置、设备及可读存储介质
CN113569115A (zh) * 2021-02-19 2021-10-29 腾讯科技(深圳)有限公司 数据分类方法、装置、设备及计算机可读存储介质
CN115827871A (zh) * 2022-12-27 2023-03-21 国家计算机网络与信息安全管理中心 互联网企业分类的方法、装置和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘测;韩家新;: "面向新闻文本的分类方法的比较研究", 智能计算机与应用, no. 05 *

Also Published As

Publication number Publication date
CN116304058B (zh) 2023-08-08

Similar Documents

Publication Publication Date Title
Day et al. Deep learning for financial sentiment analysis on finance news providers
Wang et al. Convolutional neural networks for expert recommendation in community question answering
US11526750B2 (en) Automated industry classification with deep learning
CN111339260A (zh) 一种基于bert和qa思想的细粒度情感分析方法
CN115470354B (zh) 基于多标签分类识别嵌套和重叠风险点的方法及系统
CN115952292B (zh) 多标签分类方法、装置及计算机可读介质
Sharma et al. Supervised Machine Learning Method for Ontology-based Financial Decisions in the Stock Market
CN111782793A (zh) 智能客服处理方法和系统及设备
CN111462752A (zh) 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法
Jayakody et al. Sentiment analysis on product reviews on twitter using Machine Learning Approaches
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
Mousa et al. TI-capsule: capsule network for stock exchange prediction
CN116304058B (zh) 企业负面信息的识别方法、装置、电子设备及存储介质
Al Mahmud et al. A New Approach to Analysis of Public Sentiment on Padma Bridge in Bangla Text
Liu et al. Suggestion mining from online reviews usingrandom multimodel deep learning
Léon Extracting information from PDF invoices using deep learning
WO2021159099A9 (en) Searching for normalization-activation layer architectures
Dhanta et al. Twitter sentimental analysis using machine learning
Ferdous et al. Assortment of bangladeshi e-commerce site reviews using machine learning approaches
Chehal et al. Evaluating Annotated Dataset of Customer Reviews for Aspect Based Sentiment Analysis
Bharadi Sentiment Analysis of Twitter Data Using Named Entity Recognition
CN115618968B (zh) 新意图发现方法、装置、电子设备及存储介质
Kumar et al. Automated Sentiment Classification of Amazon Product Reviews using LSTM and Bidirectional LSTM
CN117852553B (zh) 基于聊天记录提取元器件交易场景信息的语言处理系统
NAIR et al. Sentiment Analysis on Movie Reviews using Recurrent Neural Network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant