CN112434163A - 风险识别方法及模型构建方法、装置、电子设备和介质 - Google Patents
风险识别方法及模型构建方法、装置、电子设备和介质 Download PDFInfo
- Publication number
- CN112434163A CN112434163A CN202011374641.5A CN202011374641A CN112434163A CN 112434163 A CN112434163 A CN 112434163A CN 202011374641 A CN202011374641 A CN 202011374641A CN 112434163 A CN112434163 A CN 112434163A
- Authority
- CN
- China
- Prior art keywords
- text information
- information
- piece
- target text
- initial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 80
- 238000010276 construction Methods 0.000 title claims abstract description 13
- 238000013145 classification model Methods 0.000 claims abstract description 94
- 238000012544 monitoring process Methods 0.000 claims abstract description 33
- 238000012549 training Methods 0.000 claims description 51
- 238000012545 processing Methods 0.000 claims description 21
- 230000008569 process Effects 0.000 claims description 12
- 230000011218 segmentation Effects 0.000 claims description 12
- 230000015654 memory Effects 0.000 claims description 10
- 238000001914 filtration Methods 0.000 claims description 7
- 238000004458 analytical method Methods 0.000 claims description 4
- 238000004422 calculation algorithm Methods 0.000 description 16
- 238000004590 computer program Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 10
- 238000013528 artificial neural network Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 6
- 238000012502 risk assessment Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000007635 classification algorithm Methods 0.000 description 2
- 230000009193 crawling Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000002360 explosive Substances 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 230000007480 spreading Effects 0.000 description 2
- 108010001267 Protein Subunits Proteins 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了一种网络舆情风险识别方法,包括:将从监控网站获取的每条文本信息输入第一分类模型中,输出用于表征文本信息与目标对象相关或不相关的第一分类结果;根据第一分类结果,将每条与目标对象相关的目标文本信息输入主题模型中,输出每条目标文本信息所表达的主题信息;将每条目标文本信息和目标文本信息的主题信息输入第二分类模型中,输出用于表征目标文本信息的风险信息的第二分类结果。本公开还提供了一种网络舆情风险识别模型的构建方法、一种网络舆情风险识别装置、一种网络舆情风险识别模型的构建装置、一种电子设备和一种计算机可读存储介质。
Description
技术领域
本公开涉及互联网技术领域,更具体地,涉及一种网络舆情风险识别方法及模型构建方法、装置、电子设备和介质。
背景技术
随着互联网信息的爆炸式增长,当今社会众多热点事件层出不穷,负面敏感信息可能会短时间内快速被放大传播,进而出现严重的舆论危机,给相关企业或个人造成声誉影响。
目前,基于大数据的舆情监控平台已引起政府和各大企业的重视,通过舆情监控平台以期望及时发现话题热点,遏制谣言传播,引导舆论方向。目前舆情风控方法一般都是爬取线上新闻、论坛等公开舆情信息数据,通过训练机器学习模型对舆情数据进行识别以及分类。
但在实现本公开构思的过程中,发明人发现相关技术中至少存在如下问题:采用相关技术对舆情数据进行识别以及分类的准确率较低。
发明内容
有鉴于此,本公开提供了一种网络舆情风险识别方法及模型构建方法、装置、电子设备和介质。
本公开的一个方面提供了一种网络舆情风险识别方法,包括:将从监控网站获取的每条文本信息输入第一分类模型中,输出用于表征所述文本信息与目标对象相关或不相关的第一分类结果;根据所述第一分类结果,将每条与所述目标对象相关的目标文本信息输入主题模型中,输出每条所述目标文本信息所表达的主题信息;将每条所述目标文本信息和所述目标文本信息的主题信息输入第二分类模型中,输出用于表征所述目标文本信息的风险信息的第二分类结果。
根据本公开的实施例,所述第二分类模型包括风险类型模型和风险等级模型,所述将每条所述目标文本信息和所述目标文本信息的主题信息输入第二分类模型中,输出用于表征所述目标文本信息的风险信息的第二分类结果包括:将每条所述目标文本信息和所述目标文本信息的主题信息输入所述风险类型模型中,输出用于表征所述目标文本信息的风险类型的第三分类结果;将每条所述目标文本信息和所述目标文本信息的主题信息输入所述风险等级模型中,输出用于表征所述目标文本信息的风险等级的第四分类结果。
根据本公开的实施例,所述方法还包括:获取每条所述目标文本信息的属性信息,其中,所述属性信息包括以下至少之一:数据来源网站、发布时间、标题、正文内容;将每条所述目标文本信息的属性信息、所述第三分类结果和所述第四分类结果进行关联,得到每条所述目标文本信息的关联信息。
根据本公开的实施例,所述方法还包括:向客户端发送每条所述目标文本信息的关联信息,以便实时监控舆情信息;以及/或者对每条目标文本信息的关联信息进行存储。
根据本公开的实施例,所述方法还包括:使用初始目标文本训练集中的多条初始目标文本信息训练得到上述的第二分类模型,其中,训练过程包括:将每条初始目标文本信息输入主题模型中,输出每条初始目标文本信息所表达的主题信息;根据每条初始文本信息所表达的主题信息,对具有相同主题信息的初始目标文本信息进行去重,以便每个主题信息具有预设数量的文本信息;以及基于去重后得到的每条初始目标文本信息和对应的主题信息对第二初始分类模型进行训练,得到第二分类模型。
根据本公开的实施例,所述方法还包括:调用网络爬虫周期性的爬取一个或多个所述监控网站中的文本信息。
根据本公开的实施例,所述方法还包括:将从所述监控网站获取的每条所述文本信息进行数据处理,生成每条所述文本信息的文本向量;其中,将从监控网站获取的每条文本信息输入第一分类模型中包括:将每条所述文本信息的文本向量输入所述第一分类模型中。
根据本公开的实施例,将从所述监控网站获取的每条所述文本信息进行数据处理,生成每条所述文本信息的文本向量包括:将每条所述文本信息进行分词处理,得到每条所述文本信息中的多个特征词;针对每条所述文本信息,计算所述多个特征词中的每个特征词的权重;将所述多个特征词中的每个特征词的权重与阈值进行比较;从所述多个特征词中滤除权重小于所述阈值的特征词,得到权重大于或等于所述阈值的特征词;将所述权重大于或等于所述阈值的特征词进行向量化,得到每条所述文本信息的文本向量。
根据本公开的实施例,针对每条所述文本信息,计算所述多个特征词中的每个特征词的权重包括:计算所述每个特征词的类内信息熵;根据所述每个特征词的类内信息熵、词频信息和逆向文件频率信息,计算所述每个特征词的权重。
本公开实施例的另一方面提供了一种网络舆情风险识别模型的构建方法,包括:获取初始目标文本训练集,所述初始目标文本训练集包括多条初始目标文本信息,所述初始目标文本信息与目标对象相关;将每条初始目标文本信息输入主题模型中,输出每条所述初始目标文本信息所表达的主题信息;基于所述初始目标文本信息和所述初始目标文本信息的主题信息,对第二初始分类模型进行训练,得到第二分类模型。
根据本公开的实施例,所述基于所述初始目标文本信息和所述初始目标文本信息的主题信息,对第二初始分类模型进行训练包括:根据每条所述初始目标文本信息所表达的主题,对具有相同主题的初始目标文本信息进行去重,以便每个主题具有预设数量的文本信息;基于去重后得到的每条初始目标文本信息和对应的主题信息对第二初始分类模型进行训练,得到所述第二分类模型。
本公开实施例的另一方面提供了一种网络舆情风险识别装置,包括:第一分类模块,用于将从监控网站获取的每条文本信息输入第一分类模型中,输出用于表征所述文本信息与目标对象相关或不相关的第一分类结果;第一主题模块,用于根据所述第一分类结果,将每条与所述目标对象相关的目标文本信息输入主题模型中,输出每条所述目标文本信息所表达的主题信息;第二分类模块,用于将每条所述目标文本信息和所述目标文本信息的主题信息输入第二分类模型中,输出用于表征所述目标文本信息的风险信息的第二分类结果。
本公开实施例的另一方面提供了一种网络舆情风险识别模型的构建装置,包括:样本获取模块,用于获取初始目标文本训练集,所述初始目标文本训练集包括多条初始目标文本信息,所述初始目标文本信息与目标对象相关;第二主题模块,用于将每条初始目标文本信息输入主题模型中,输出每条所述初始目标文本信息所表达的主题信息;第二初始分类模块,基于所述初始目标文本信息和所述初始目标文本信息的主题信息,对第二初始分类模型进行训练,得到第二分类模型。
本公开的另一方面提供了一种计算机可读存储介质,存储有计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。
本公开的另一方面提供了一种计算机程序,所述计算机程序包括计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。
根据本公开的实施例,利用第一分类模型可以筛选出与用户关注对象相关的目标文本信息,去除不相关信息的干扰,减少计算量。利用主题模型提取出每条目标文本信息所表达的主题,输出每条文本信息所表达的主题之后,将每个主题下的文本信息再输入到风险分类模型(第二分类模型)中,可以有效解决数据稀疏性问题,风险分类模型提供主题输入可以帮助分类效率提升。并且,本公开实施例的风险识别方法采用了多模型融合的算法进行信息风险评估,可以解决相关技术中单一分类算法对于复杂舆情信息的识别敏感度不够以及识别准确率低的问题,可以达到满足复杂舆情信息判断的需求,满足多场景分类需求,以及对舆情信息进行精准风险评估的效果。
附图说明
通过以下参照附图对本公开实施例的描述,本公开的上述以及其他目的、特征和优点将更为清楚,在附图中:
图1示意性示出了根据本公开实施例的网络舆情风险识别方法的流程图;
图2示意性示出了根据本公开另一实施例的网络舆情风险识别方法的流程图;
图3示意性示出了根据本公开实施例的网络舆情风险识别模型的构建方法的流程图;
图4示意性示出了根据本公开实施例的网络舆情风险识别装置的框图;
图5示意性示出了根据本公开实施例的网络舆情风险识别模型的构建装置的框图;以及
图6示意性示出了根据本公开实施例的适于实现网络舆情风险识别方法和模型构建方法的电子设备的框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。
本公开的实施例提供了一种网络舆情风险识别方法,该方法包括:将从监控网站获取的每条文本信息输入第一分类模型中,输出用于表征文本信息与目标对象相关或不相关的第一分类结果。根据第一分类结果,将每条与目标对象相关的目标文本信息输入主题模型中,输出每条目标文本信息所表达的主题信息。将每条目标文本信息和目标文本信息的主题信息输入第二分类模型中,输出用于表征目标文本信息的风险信息的第二分类结果。
本公开实施例的网络舆情风险识别方法例如可以用于对网络中的公开资源(例如新闻网站、社交网站、论坛中公开的文本数据等)进行风险识别分类以及寻找新风险舆论话题。
随着互联网信息的爆炸式增长,当今社会众多热点事件层出不穷,负面敏感信息可能会短时间内快速被放大传播,进而出现严重的舆论危机,给相关企业或个人造成声誉影响。目前,基于大数据的舆情监控平台已引起政府和各大企业的重视,通过舆情监控平台以期望及时发现话题热点,遏制谣言传播,引导舆论方向。目前舆情风控方法一般都是爬取线上新闻、论坛等公开舆情信息数据,通过训练机器学习模型对舆情数据进行识别以及分类。但是,采用相关技术对舆情数据进行识别以及分类的准确率较低。
为此,本公开实施例提供了一种改进的网络舆情风险识别方法。
图1示意性示出了根据本公开实施例的网络舆情风险识别方法的流程图。
如图1所示,该方法包括操作S110~S130。
在操作S110,将从监控网站获取的每条文本信息输入第一分类模型中,输出用于表征文本信息与目标对象相关或不相关的第一分类结果。
例如,监控网站可以包括新闻媒体网站、社交网站、论坛等网站。文本信息可以包括文章、帖子等以文字形式呈现的信息。第一分类模型可以用于将从监控网站获取的文本信息分类为与目标对象相关或不相关,其中,目标对象可以是任何用户想要关注的对象,例如可以是某个或某些企业、某个或某些人、某个或某些产品、某个或某些领域等,进而可以从众多文本信息中筛选出用户关注的文本信息。此外,第一分类模型例如还可以将文本信息分类为有风险和无风险的文本信息,以剔除无风险的文本信息。
在操作S120,根据第一分类结果,将每条与目标对象相关的目标文本信息输入主题模型中,输出每条目标文本信息所表达的主题信息。
例如,将与目标对象相关的文本信息作为目标文本信息输入至主题模型中,主题模型例如可以用于提取得到文本信息的主题。例如可以采用LDA(Latent DirichletAllocation)主题模型进行主题的提取操作。
在操作S130,将每条目标文本信息和目标文本信息的主题信息输入第二分类模型中,输出用于表征目标文本信息的风险信息的第二分类结果。
例如,将每条目标文本信息及其主题输入至第二分类模型中,第二分类模型可以用于对目标文本信息进行风险分类,得到目标文本信息的风险类别。
根据本公开的实施例,利用第一分类模型可以筛选出与用户关注对象相关的目标文本信息,去除不相关信息的干扰,减少计算量。利用主题模型提取出每条目标文本信息所表达的主题,输出每条文本信息所表达的主题之后,将每个主题下的文本信息再输入到风险分类模型(第二分类模型)中,可以有效解决数据稀疏性问题,风险分类模型提供主题输入可以帮助分类效率提升。并且,本公开实施例的风险识别方法采用了多模型融合的算法进行信息风险评估,可以解决相关技术中单一分类算法对于复杂舆情信息的识别敏感度不够以及识别准确率低的问题,可以达到满足复杂舆情信息判断的需求,满足多场景分类需求,以及对舆情信息进行精准风险评估的效果。
图2示意性示出了根据本公开另一实施例的网络舆情风险识别方法的流程图。
如图2所示,根据本公开的实施例,第二分类模型230可以包括风险类型模型231和风险等级模型232。
上述操作S130中的将每条目标文本信息和目标文本信息的主题信息输入第二分类模型230中,输出用于表征目标文本信息的风险信息的第二分类结果包括:将每条目标文本信息和目标文本信息的主题信息输入风险类型模型231中,输出用于表征目标文本信息的风险类型的第三分类结果241;以及将每条目标文本信息和目标文本信息的主题信息输入风险等级模型232中,输出用于表征目标文本信息的风险等级的第四分类结果242。上述的第二分类结果包括该第三分类结果241和第四分类结果242。
例如,将多条文本信息输入第一分类模型210之后可以得出各条文本信息与目标对象是否相关的分类结果,选出其中与目标对象相关的文本信息作为目标文本信息输入主题模型220,得到每条目标文本信息的主题,然后可以将每条目标文本信息及其主题同时输入风险类型模型231和风险等级模型232中,风险类型模型231基于目标文本信息及其主题可以得到关于风险类型的分类,风险等级模型232基于目标文本信息及其主题可以得到关于风险等级的分类。其中,风险类型可以根据实际需求设置不同的风险类别,例如,对于电商企业,风险类型可以包括账号风险、订单风险、综合风险、保险风险和营销风险等类型。风险等级例如可以包括高危、中危和低危等级别。
根据本公开的实施例,基于目标文本信息及其主题确定目标文本信息的风险类型和风险等级,可以为用户提供全面的风险参考信息。并且,将风险判断过程分为使用两个模型分别判断风险类型和风险等级,可以使风险评估结果更为准确。
根据本公开的实施例,网络舆情风险识别方法还包括:获取每条目标文本信息的属性信息,其中,属性信息包括以下至少之一:数据来源网站、发布时间、标题、正文内容;以及将每条目标文本信息的属性信息、第三分类结果和第四分类结果进行关联,得到每条目标文本信息的关联信息。
根据本公开的实施例,网络舆情风险识别方法还包括:向客户端发送每条目标文本信息的关联信息,以便实时监控舆情信息;以及/或者对每条目标文本信息的关联信息进行存储。
例如,将每条目标文本信息的标题、正文内容、发表时间、来源网站等信息与根据分类模型确定的第三分类结果和第四分类汇总之后发送至客户端,以展示给用户,其中,用户可以是指相关业务人员。还可以使用分布式文件系统HDFS和数据仓库工具HIVE对每条目标文本信息的关联信息进行高效存储。
根据本公开的实施例,网络舆情风险识别方法还包括:调用网络爬虫周期性的爬取一个或多个监控网站中的文本信息。
例如,利用网络爬虫工具从网络中的公开资源(新闻网站、社交网站、论坛等)周期性地爬取文本信息。对应不同的监控网站可以调用不同的网络爬虫进行周期性的数据爬取,网络爬虫可以对网络信息进行纵、横双向的数据与信息抓取,处理之后保存在数据库中,大幅提高对网络数据信息的获取与处理效率。
可以通过预先定义好的关键字词典中的关键字,爬取基于每个关键字搜索引擎搜索出的例如前500篇文章,采集的数据内容为新闻标题、新闻正文、博客、跟帖、评论以及点击浏览量、回帖数、评论数等。当基于风险评估结果发现某数据源出现舆情事件较多时,需要将此数据源定义为监控网站,进行实时监控。
根据本公开的实施例,网络舆情风险识别方法还包括:将从监控网站获取的每条文本信息进行数据处理,生成每条文本信息的文本向量。其中,将从监控网站获取的每条文本信息输入第一分类模型中包括:将每条文本信息的文本向量输入第一分类模型中。
根据本公开的实施例,将从监控网站获取的每条文本信息进行数据处理,生成每条文本信息的文本向量包括:将每条文本信息进行分词处理,得到每条文本信息中的多个特征词;针对每条文本信息,计算多个特征词中的每个特征词的权重;将多个特征词中的每个特征词的权重与阈值进行比较;从多个特征词中滤除权重小于阈值的特征词,得到权重大于或等于阈值的特征词;将权重大于或等于阈值的特征词进行向量化,得到每条文本信息的文本向量。
例如,可以针对每条文本信息执行以下操作:可以使用分词包Jieba进行分词,得到多个特征词。对于分词结果可以进行初步去噪,例如去除一些无实际语义的词语,即停用词,比如“的”、“地”、“之”、“然后”等,停用词可以使用互联网公开的停用词表。然后,计算每个保留下来的特征词的权重,例如可以使用TF-IDF(term frequency-inverse documentfrequency)算法计算权重,其中,权重可以用以评估一个词语对于表达文本内容的重要程度。然后,去除权重小于某一阈值的特征词,并将权重大于等于某一阈值的特征词进行向量化表示,例如可以使用Word2Vec算法进行向量表示,将特征词表征为实数向量值,并且让相似度越高的两个词在向量空间中距离越近,提取相似度较高的词。然后,将文本向量输入第一分类模型并进行后续的分类操作。
根据本公开的实施例,虽然去除停用词之后的文本数据去除了大部分噪音数据,但依旧是稀疏高维的,需要进行细节调优,即,使用特征评估函数对每一项特征词的权重进行计算,设置最低阈值来进一步选取有价值的特征项,去除对于分类无用以及会对分类模型的判断造成影响的词语,可以使分类结果更为准确。
传统的TF-IDF算法是用于文本分词结果加权的常用方法,其主要思想是:如果一个词语在文本中出现频率高而在其他文本中出现频率低,则这个词在文本中的描述则更加准确,用以评估一个词语对于表达文本内容的重要程度,分TF和IDF两部分,TF-IDF权值为TF值与IDF值的乘积,可以评估一个特征词对于表达文本内容的重要程度。
对于特征词i,其权重计算公式可以如式(1)所示:
其中,TFij表示词语i在文本j中出现的频率,出现频率越高,TF值越大;IDFij(逆向文件频率)与语料库中包含该词语的文本数有关;nij表示词语i在文本j中出现的次数;∑nij表示文本j中出现次数最多的词的出现次数;|D|表示语料库的文档总数,|j:ti∈dj|表示语料库中包含词语i的文档数。
IDF部分是为了减少分词结果中的噪音,去除歧义大的词语,但是由于IDF值计算权值的方法缺乏语义和分类的支持,提取到的无用词语较多,对词语歧义性的描述不够准确。因此本公开实施例提出了基于词语信息熵过滤的TF-IDF算法,根据词语的信息熵设置不同权值系数处理特征词歧义以此对TF-IDF权值进行修正。也就是说,本公开实施例提供了一种新的特征评估方法——基于词语信息熵过滤的TF-IDF算法,即通过设置信息熵对传统TF-IDF算法的IDF部分进行修正,过滤歧义性较大的词语。
以下对改进的计算权重的方法进行说明。
根据本公开的实施例,针对每条文本信息,计算多个特征词中的每个特征词的权重包括:计算每个特征词的类内信息熵;根据每个特征词的类内信息熵、词频信息和逆向文件频率信息,计算每个特征词的权重。
信息熵可以用来表示词语的歧义性,词语q的信息熵例如可以通过式(2)计算:
I(q)=-∑P(p|q)log2 P(p|q) (2)
其中,I(q)是词语q的信息熵,P(q)是词语q所对应的所有文本的集合,P(p|q)是词语q对应的所有文本中第p类所占的百分比。信息熵越大则代表包含词语q的文档分布越均匀,对分类贡献越小,歧义性越大。
词语的信息熵可以反映词语文本在各类间的分布情况,可以弥补传统TF-IDF方法没考虑的词语类间的分布的不足。
基于以上分析,词条文本分布越均匀,对分类的贡献越小,歧义越大,则信息熵也越大,那词语的特征值就应该越小。改进后的特征评估函数通过设置信息熵对TF-IDF算法的IDF部分进行修正,过滤歧义性较大的词语。
本公开实施例根据信息熵的概念定义了特征词t的类内信息熵,类内信息熵能够反映特征词的分类能力。
特征词t的类内信息熵计算公式可以如式(3)所示:
其中,tf(t,dj)表示特征词t在Ck类第j个文本中出现的次数,i表示t为第i个特征词,n表示Ck类包含的文本总数,tf(t,Ck)表示特征词t在Ck类中出现的总次数。
根据公式(3)可以知道,当特征词t在Ck类中每个文本都出现时,Eik为最大值1,代表分类能力最强;当特征词t仅在Ck类中一个文本都出现时,Eik为最小值0,代表分类能力最弱。Eik的值可以很直观表现特征词在类内的分布情况,且Eik值越大代表分类能力越强。
然后,根据所述每个特征词的类内信息熵,按照如下公式(4)计算所述每个特征词的权重:
Wij=TFi,j*IDFi*Eik (4)
其中,TFi,j表示第i个特征词在文本j中出现的频率,IDFij表示逆向文件频率,Eik表示第i个特征词的类内信息熵。
根据本公开的实施例,网络舆情风险识别方法还包括:使用初始目标文本训练集中的多条初始目标文本信息训练得到上述的第二分类模型。其中,初始目标文本信息是指与目标对象相关的文本信息。
其中,第二分类模型训练过程包括:将每条初始目标文本信息输入主题模型中,输出每条初始目标文本信息所表达的主题信息;根据每条初始文本信息所表达的主题信息,对具有相同主题信息的初始目标文本信息进行去重,以便每个主题信息具有预设数量的文本信息;以及基于去重后得到的每条初始目标文本信息和对应的主题信息对第二初始分类模型进行训练,得到第二分类模型。
根据本公开的实施例,第二分类模型可以包括风险类型模型和风险等级模型,因此,基于去重后得到的每条初始目标文本信息和对应的主题信息对第二初始分类模型进行训练可以包括:基于去重后得到的每条初始目标文本信息和对应的主题信息对风险类型模型和风险等级模型进行训练。
根据本公开的实施例,在对第二分类模型进行训练之前例如还可以先对第一分类模型进行训练。以下对第一分类模型和第二分类模型的训练过程进行说明。
例如,可以从网站爬取特定数量的文本信息集合为文本数据集,数据集可分成训练集和测试集,训练集和测试集可以按7:3的比例划分。对于数据集中的每个初始文本信息,进行人工打标处理,第一步可以判断初始文本信息“是否与目标对象有关”,例如对于目标对象为某电商企业的情况,与该企业交易风险、公关舆情风险、友商组织架构变动、友商新的战略方向等有关的初始文本信息可标为“是”;第二步可以判断初始文本信息的真实风险类型;第三步可以判断初始文本信息的真实风险等级。
根据本公开的实施例,可以对训练集中的每个初始文本信息进行预处理,预处理可以包括分词、去除停用词、特征空间降维以及文本向量处理。其中,特征空间降维可以是指上述的使用特征评估函数对每一项特征词的权重进行计算,设置最低阈值来进一步选取有价值的特征项,去除对于分类无用以及会对分类模型的判断造成影响的词语的操作。
具体地,例如可以先使用分词包Jieba等对初始文本信息进行分词,得到初始文本信息的特征词。然后,可以根据停用词表去除其中的停用词。然后,计算每个特征词的权重,例如可以采用计算特征词对应的词频和TF和逆文档频率IDF,利用上述公式(3)计算特征词的类内信息熵,并基于特征词对应的词频和TF、逆文档频率IDF和类内信息熵计算得到特征词的权重。然后,可以利用预设的权重阈值去除一些权重小于权重阈值的特征词,并对权重大于权重阈值的特征词进行向量化表示,例如可以采用Word2Vec算法进行文本向量表示,得到每个特征词的向量化表示。
根据本公开的实施例,在对初始文本信息进行预处理之后,可以将初始文本信息的特征词向量输入第一分类模型中,可以利用初始文本信息的特征词向量以及上述人工达标得到的“是否与目标对象有关”结果,对第一初始分类模型进行训练,训练完毕后得到第一分类模型。第一分类模型可以使用三层神经网络搭建。
根据本公开的实施例,将多个初始文本信息中与目标对象有关的初始文本信息作为初始目标文本信息,将每个初始目标文本信息输入预先训练好的主题模型中,输出初始目标文本信息的主题信息。具体地,可以根据主题模型计算每条初始目标文本信息属于各个主题的概率值,取概率最大的主题做为该初始目标文本信息的主题,判断完成之后可以去除具有重复主题的初始目标文本信息,每一个主题例如选取一到两条初始目标文本信息。
计算每条初始目标文本信息文本信息属于各个主题的概率值的过程可以如下所述:(1)对语料库中的每条文本信息中的每个词汇随机的赋予一个主题编号;(2)重新扫描语料库,对每个词使用Gibbs Sampling公式对其采样,求出它的主题,在语料中更新;(3)重复步骤(2),直到Gibbs Sampling收敛;(4)统计每条文本信息中的主题的频率分布,就可以计算每一个p(topic|doc)概率,概率值最大的即为该条文本信息的主题。全部计算完成之后,去除具有相同主题的文档,每一个主题例如选取一到两条文本信息。
根据本公开的实施例,每个主题保证少量几篇文章(例如一到两篇)可以避免出现一个主题多个训练样本而导致权重增加的情况。
然后,利用主题去重后留下的初始目标文本信息及其主题信息训练得到第二分类模型。具体地,可以根据主题去重后留下的初始目标文本信息及其主题信息,以及人工达标得到的每个初始目标文本信息的真实风险类型训练得到风险类型模型。根据主题去重后留下的初始目标文本信息及其主题信息,以及人工达标得到的每个初始目标文本信息的真实风险等级训练得到风险等级模型。
风险类型模型可以使用深度神经网络搭建,神经网络是一个“输入-处理-输出”的过程,包含输入层、隐含层以及输出层。输入层即为采集到的文本信息特征词,输出层为模型识别的结果,中间过程隐含层使用神经网络进行学习计算。
风险等级模型可以使用LSTM+attention模型算法,对一个文本序列而言,Attention算法可以捕捉关键特征,并且给关键特征的权重,通过权重大小判断风险等级。
以下对本公开实施例可能使用到的模型进行说明:
TF-IDF算法:TF-IDF(term frequency-inverse document frequency)是用于文本分词结果加权的常用方法,其主要思想是如果一个词语在文本中出现频率高而在其他文本中出现频率低,则这个词在文本中的描述则更加准确,用以评估一个词语对于表达文本内容的重要程度。
本公开实施例提供的基于词语信息熵过滤的TF-IDF算法:词条文本分布越均匀,对分类的贡献越小,歧义越大,则信息熵也越大,那词语的特征值就应该越小。改进后的特征评估函数通过设置信息熵阈值对TF-IDF算法的IDF部分进行修正,过滤歧义性较大的词语。
Word2Vec:是一种算法模型,可以将特征词表征为实数向量值,让相似度越高的两个词在向量空间中距离越近
神经网络:神经网络(Neural Networks,NN)是由大量的、简单的处理单元(称为神经元)广泛地互相连接而形成的复杂网络系统,是一个高度复杂的非线性动力学习系统。神经网络具有大规模并行、分布式存储和处理、自组织、自适应和自学能力,特别适合处理需要同时考虑许多因素和条件的、不精确和模糊的信息处理问题。
LDA主题模型:即Latent Dirichlet Allocation,用来推测文档的主题分布。它可以将文档集中每篇文档的主题以概率分布的形式给出,从而通过分析一些文档抽取出它们的主题分布后,便可以根据主题分布进行主题聚类或文本分类。
Attention模型:Attention模型的本质来自于人类视觉注意力机制。Attention机制的实现是通过保留LSTM编码器对输入序列的中间输出结果,然后训练一个模型来对这些输入进行选择性的学习并且在模型输出时将输出序列与之进行关联。
本公开实施例的另一方面还提供了一种网络舆情风险识别模型的构建方法。
图3示意性示出了根据本公开实施例的网络舆情风险识别模型的构建方法的流程图。
如图3所示,该方法包括操作S310~S330。
在操作S310,获取初始目标文本训练集,初始目标文本训练集包括多条初始目标文本信息,初始目标文本信息与目标对象相关。
在操作S320,将每条初始目标文本信息输入主题模型中,输出每条初始目标文本信息所表达的主题信息。
在操作S330,基于初始目标文本信息和初始目标文本信息的主题信息,对第二初始分类模型进行训练,得到第二分类模型。
根据本公开的实施例,基于初始目标文本信息和初始目标文本信息的主题信息,对第二初始分类模型进行训练包括:根据每条初始目标文本信息所表达的主题,对具有相同主题的初始目标文本信息进行去重,以便每个主题具有预设数量的文本信息;基于去重后得到的每条初始目标文本信息和对应的主题信息对第二初始分类模型进行训练,得到第二分类模型。
具体地,网络舆情风险识别模型的构建方法可以参见上述关于相应内容的描述,在此不再赘述。
本公开实施例的另一方面还提供了一种网络舆情风险识别装置。
图4示意性示出了根据本公开实施例的网络舆情风险识别装置的框图。
如图4所示,该装置400包括第一分类模块410、第一主题模块420和第二分类模块430。
第一分类模块410用于将从监控网站获取的每条文本信息输入第一分类模型中,输出用于表征文本信息与目标对象相关或不相关的第一分类结果。
第一主题模块420用于根据第一分类结果,将每条与目标对象相关的目标文本信息输入主题模型中,输出每条目标文本信息所表达的主题信息。
第二分类模块430用于将每条目标文本信息和目标文本信息的主题信息输入第二分类模型中,输出用于表征目标文本信息的风险信息的第二分类结果。
根据本公开的实施例,第二分类模型包括风险类型模型和风险等级模型。将每条目标文本信息和目标文本信息的主题信息输入第二分类模型中,输出用于表征目标文本信息的风险信息的第二分类结果包括:将每条目标文本信息和目标文本信息的主题信息输入风险类型模型中,输出用于表征目标文本信息的风险类型的第三分类结果;将每条目标文本信息和目标文本信息的主题信息输入风险等级模型中,输出用于表征目标文本信息的风险等级的第四分类结果。
根据本公开的实施例,网络舆情风险识别装置还包括属性获取模块和关联模块,其中,属性获取模块用于获取每条目标文本信息的属性信息,其中,属性信息包括以下至少之一:数据来源网站、发布时间、标题、正文内容。关联模块用于将每条目标文本信息的属性信息、第三分类结果和第四分类结果进行关联,得到每条目标文本信息的关联信息。
根据本公开的实施例,网络舆情风险识别装置还包括发送模块和/或存储模块,发送模块用于向客户端发送每条目标文本信息的关联信息,以便实时监控舆情信息。存储模块用于对每条目标文本信息的关联信息进行存储。
根据本公开的实施例,网络舆情风险识别装置还包括训练模块,用于使用初始目标文本训练集中的多条初始目标文本信息训练得到上述的第二分类模型,其中,训练过程包括:将每条初始目标文本信息输入主题模型中,输出每条初始目标文本信息所表达的主题信息;根据每条初始文本信息所表达的主题信息,对具有相同主题信息的初始目标文本信息进行去重,以便每个主题信息具有预设数量的文本信息;以及基于去重后得到的每条初始目标文本信息和对应的主题信息对第二初始分类模型进行训练,得到第二分类模型。
根据本公开的实施例,网络舆情风险识别装置还包括爬虫模块,用于调用网络爬虫周期性的爬取一个或多个监控网站中的文本信息。
根据本公开的实施例,网络舆情风险识别装置还包括数据处理模块,用于将从监控网站获取的每条文本信息进行数据处理,生成每条文本信息的文本向量。其中,将从监控网站获取的每条文本信息输入第一分类模型中包括:将每条文本信息的文本向量输入第一分类模型中。
根据本公开的实施例,将从监控网站获取的每条文本信息进行数据处理,生成每条文本信息的文本向量包括:将每条文本信息进行分词处理,得到每条文本信息中的多个特征词;针对每条文本信息,计算多个特征词中的每个特征词的权重;将多个特征词中的每个特征词的权重与阈值进行比较;从多个特征词中滤除权重小于阈值的特征词,得到权重大于或等于阈值的特征词;将权重大于或等于阈值的特征词进行向量化,得到每条文本信息的文本向量。
根据本公开的实施例,针对每条文本信息,计算多个特征词中的每个特征词的权重包括:计算每个特征词的类内信息熵;根据每个特征词的类内信息熵、词频信息和逆向文件频率信息,计算每个特征词的权重。
本公开实施例的另一方面还提供了一种网络舆情风险识别模型的构建装置。
图5示意性示出了根据本公开实施例的网络舆情风险识别模型的构建装置的框图。
如图5所示,网络舆情风险识别模型的构建装置500包括样本获取模块510、第二主题模块520和第二初始分类模块530。
样本获取模块510用于获取初始目标文本训练集,所述初始目标文本训练集包括多条初始目标文本信息,所述初始目标文本信息与目标对象相关;
第二主题模块520用于将每条初始目标文本信息输入主题模型中,输出每条所述初始目标文本信息所表达的主题信息;
第二初始分类模块530基于所述初始目标文本信息和所述初始目标文本信息的主题信息,对第二初始分类模型进行训练,得到第二分类模型。
根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
需要说明的是,本公开的实施例中装置部分与本公开的实施例中方法部分是相对应的,装置部分的描述具体参考方法部分,在此不再赘述。
图6示意性示出了根据本公开实施例的适于实现上文描述的方法的电子设备的框图。图6示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图6所示,根据本公开实施例的电子设备600包括处理器601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。处理器601例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC)),等等。处理器601还可以包括用于缓存用途的板载存储器。处理器601可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 603中,存储有电子设备600操作所需的各种程序和数据。处理器601、ROM602以及RAM 603通过总线604彼此相连。处理器601通过执行ROM 602和/或RAM 603中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除ROM 602和RAM 603以外的一个或多个存储器中。处理器601也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
根据本公开的实施例,电子设备600还可以包括输入/输出(I/O)接口605,输入/输出(I/O)接口605也连接至总线604。电子设备600还可以包括连接至I/O接口605的以下部件中的一项或多项:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
根据本公开的实施例,根据本公开实施例的方法流程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被处理器601执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质。例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
例如,根据本公开的实施例,计算机可读存储介质可以包括上文描述的ROM 602和/或RAM 603和/或ROM 602和RAM 603以外的一个或多个存储器。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。
Claims (15)
1.一种网络舆情风险识别方法,包括:
将从监控网站获取的每条文本信息输入第一分类模型中,输出用于表征所述文本信息与目标对象相关或不相关的第一分类结果;
根据所述第一分类结果,将每条与所述目标对象相关的目标文本信息输入主题模型中,输出每条所述目标文本信息所表达的主题信息;
将每条所述目标文本信息和所述目标文本信息的主题信息输入第二分类模型中,输出用于表征所述目标文本信息的风险信息的第二分类结果。
2.根据权利要求1所述的方法,其中,所述第二分类模型包括风险类型模型和风险等级模型,所述将每条所述目标文本信息和所述目标文本信息的主题信息输入第二分类模型中,输出用于表征所述目标文本信息的风险信息的第二分类结果包括:
将每条所述目标文本信息和所述目标文本信息的主题信息输入所述风险类型模型中,输出用于表征所述目标文本信息的风险类型的第三分类结果;
将每条所述目标文本信息和所述目标文本信息的主题信息输入所述风险等级模型中,输出用于表征所述目标文本信息的风险等级的第四分类结果。
3.根据权利要求2所述的方法,还包括:
获取每条所述目标文本信息的属性信息,其中,所述属性信息包括以下至少之一:数据来源网站、发布时间、标题、正文内容;
将每条所述目标文本信息的属性信息、所述第三分类结果和所述第四分类结果进行关联,得到每条所述目标文本信息的关联信息。
4.根据权利要求3所述的方法,还包括:
向客户端发送每条所述目标文本信息的关联信息,以便实时监控舆情信息;以及/或者
对每条目标文本信息的关联信息进行存储。
5.根据权利要求1所述的方法,还包括:使用初始目标文本训练集中的多条初始目标文本信息训练得到上述的第二分类模型,其中,训练过程包括:
将每条初始目标文本信息输入主题模型中,输出每条初始目标文本信息所表达的主题信息;
根据每条初始文本信息所表达的主题信息,对具有相同主题信息的初始目标文本信息进行去重,以便每个主题信息具有预设数量的文本信息;以及
基于去重后得到的每条初始目标文本信息和对应的主题信息对第二初始分类模型进行训练,得到第二分类模型。
6.根据权利要求1所述的方法,还包括:
调用网络爬虫周期性的爬取一个或多个所述监控网站中的文本信息。
7.根据权利要求1所述的方法,还包括:
将从所述监控网站获取的每条所述文本信息进行数据处理,生成每条所述文本信息的文本向量;
其中,将从监控网站获取的每条文本信息输入第一分类模型中包括:
将每条所述文本信息的文本向量输入所述第一分类模型中。
8.根据权利要求7所述的方法,其中,将从所述监控网站获取的每条所述文本信息进行数据处理,生成每条所述文本信息的文本向量包括:
将每条所述文本信息进行分词处理,得到每条所述文本信息中的多个特征词;
针对每条所述文本信息,计算所述多个特征词中的每个特征词的权重;
将所述多个特征词中的每个特征词的权重与阈值进行比较;
从所述多个特征词中滤除权重小于所述阈值的特征词,得到权重大于或等于所述阈值的特征词;
将所述权重大于或等于所述阈值的特征词进行向量化,得到每条所述文本信息的文本向量。
9.根据权利要求8所述的方法,其中,针对每条所述文本信息,计算所述多个特征词中的每个特征词的权重包括:
计算所述每个特征词的类内信息熵;
根据所述每个特征词的类内信息熵、词频信息和逆向文件频率信息,计算所述每个特征词的权重。
10.一种网络舆情风险识别模型的构建方法,包括:
获取初始目标文本训练集,所述初始目标文本训练集包括多条初始目标文本信息,所述初始目标文本信息与目标对象相关;
将每条初始目标文本信息输入主题模型中,输出每条所述初始目标文本信息所表达的主题信息;
基于所述初始目标文本信息和所述初始目标文本信息的主题信息,对第二初始分类模型进行训练,得到第二分类模型。
11.根据权利要求10所述的方法,其中,所述基于所述初始目标文本信息和所述初始目标文本信息的主题信息,对第二初始分类模型进行训练包括:
根据每条所述初始目标文本信息所表达的主题,对具有相同主题的初始目标文本信息进行去重,以便每个主题具有预设数量的文本信息;
基于去重后得到的每条初始目标文本信息和对应的主题信息对第二初始分类模型进行训练,得到所述第二分类模型。
12.一种网络舆情风险识别装置,包括:
第一分类模块,用于将从监控网站获取的每条文本信息输入第一分类模型中,输出用于表征所述文本信息与目标对象相关或不相关的第一分类结果;
第一主题模块,用于根据所述第一分类结果,将每条与所述目标对象相关的目标文本信息输入主题模型中,输出每条所述目标文本信息所表达的主题信息;
第二分类模块,用于将每条所述目标文本信息和所述目标文本信息的主题信息输入第二分类模型中,输出用于表征所述目标文本信息的风险信息的第二分类结果。
13.一种网络舆情风险识别模型的构建装置,包括:
样本获取模块,用于获取初始目标文本训练集,所述初始目标文本训练集包括多条初始目标文本信息,所述初始目标文本信息与目标对象相关;
第二主题模块,用于将每条初始目标文本信息输入主题模型中,输出每条所述初始目标文本信息所表达的主题信息;
第二初始分类模块,基于所述初始目标文本信息和所述初始目标文本信息的主题信息,对第二初始分类模型进行训练,得到第二分类模型。
14.一种电子设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个指令,
其中,当所述一个或多个指令被所述一个或多个处理器执行时,使得所述一个或多个处理器实现权利要求1至11中任一项所述的方法。
15.一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器实现权利要求1至11中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011374641.5A CN112434163A (zh) | 2020-11-30 | 2020-11-30 | 风险识别方法及模型构建方法、装置、电子设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011374641.5A CN112434163A (zh) | 2020-11-30 | 2020-11-30 | 风险识别方法及模型构建方法、装置、电子设备和介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112434163A true CN112434163A (zh) | 2021-03-02 |
Family
ID=74698389
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011374641.5A Pending CN112434163A (zh) | 2020-11-30 | 2020-11-30 | 风险识别方法及模型构建方法、装置、电子设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112434163A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113254635A (zh) * | 2021-04-14 | 2021-08-13 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置及存储介质 |
CN114974228A (zh) * | 2022-05-24 | 2022-08-30 | 名日之梦(北京)科技有限公司 | 一种基于分级识别的快速语音识别方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105224695A (zh) * | 2015-11-12 | 2016-01-06 | 中南大学 | 一种基于信息熵的文本特征量化方法和装置及文本分类方法和装置 |
CN109241429A (zh) * | 2018-09-05 | 2019-01-18 | 食品安全与营养(贵州)信息科技有限公司 | 一种食品安全舆情监控方法及系统 |
CN109446404A (zh) * | 2018-08-30 | 2019-03-08 | 中国电子进出口有限公司 | 一种网络舆情的情感极性分析方法和装置 |
CN109670837A (zh) * | 2018-11-30 | 2019-04-23 | 平安科技(深圳)有限公司 | 债券违约风险的识别方法、装置、计算机设备和存储介质 |
WO2019227710A1 (zh) * | 2018-05-31 | 2019-12-05 | 平安科技(深圳)有限公司 | 网络舆情的分析方法、装置及计算机可读存储介质 |
CN111143549A (zh) * | 2019-06-20 | 2020-05-12 | 东华大学 | 一种基于主题的舆情情感演化的方法 |
CN111695033A (zh) * | 2020-04-29 | 2020-09-22 | 平安科技(深圳)有限公司 | 企业舆情分析方法、装置、电子设备及介质 |
-
2020
- 2020-11-30 CN CN202011374641.5A patent/CN112434163A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105224695A (zh) * | 2015-11-12 | 2016-01-06 | 中南大学 | 一种基于信息熵的文本特征量化方法和装置及文本分类方法和装置 |
WO2019227710A1 (zh) * | 2018-05-31 | 2019-12-05 | 平安科技(深圳)有限公司 | 网络舆情的分析方法、装置及计算机可读存储介质 |
CN109446404A (zh) * | 2018-08-30 | 2019-03-08 | 中国电子进出口有限公司 | 一种网络舆情的情感极性分析方法和装置 |
CN109241429A (zh) * | 2018-09-05 | 2019-01-18 | 食品安全与营养(贵州)信息科技有限公司 | 一种食品安全舆情监控方法及系统 |
CN109670837A (zh) * | 2018-11-30 | 2019-04-23 | 平安科技(深圳)有限公司 | 债券违约风险的识别方法、装置、计算机设备和存储介质 |
CN111143549A (zh) * | 2019-06-20 | 2020-05-12 | 东华大学 | 一种基于主题的舆情情感演化的方法 |
CN111695033A (zh) * | 2020-04-29 | 2020-09-22 | 平安科技(深圳)有限公司 | 企业舆情分析方法、装置、电子设备及介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113254635A (zh) * | 2021-04-14 | 2021-08-13 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置及存储介质 |
CN114974228A (zh) * | 2022-05-24 | 2022-08-30 | 名日之梦(北京)科技有限公司 | 一种基于分级识别的快速语音识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109325165B (zh) | 网络舆情分析方法、装置及存储介质 | |
US11748416B2 (en) | Machine-learning system for servicing queries for digital content | |
CN108021651B (zh) | 一种网络舆情风险评估方法及装置 | |
Alamsyah et al. | Dynamic large scale data on twitter using sentiment analysis and topic modeling | |
CN104239485A (zh) | 一种基于统计机器学习的互联网暗链检测方法 | |
CN108021582B (zh) | 互联网舆情监控方法及装置 | |
Sedighi et al. | RLOSD: Representation learning based opinion spam detection | |
CN111581956A (zh) | 基于bert模型和k近邻的敏感信息识别方法及系统 | |
CN112434163A (zh) | 风险识别方法及模型构建方法、装置、电子设备和介质 | |
CN115329085A (zh) | 一种社交机器人分类方法及系统 | |
Mahmoudi et al. | Web spam detection based on discriminative content and link features | |
Hossain et al. | A study towards Bangla fake news detection using machine learning and deep learning | |
Samonte | Polarity analysis of editorial articles towards fake news detection | |
Padmaja et al. | Twitter sentiment analysis using adaptive neuro-fuzzy inference system with genetic algorithm | |
Suhas Bharadwaj et al. | A novel multimodal hybrid classifier based cyberbullying detection for social media platform | |
Syn et al. | Using latent semantic analysis to identify quality in use (qu) indicators from user reviews | |
CN105183894B (zh) | 过滤网站内链的方法及装置 | |
HUANG et al. | Cyberbullying detection on social media | |
Raj et al. | Automated Cyberstalking Classification using Social Media | |
Ramadhanti et al. | Topic Detection on Twitter Using Deep Learning Method with Feature Expansion GloVe | |
Triyono et al. | Fake News Detection in Indonesian Popular News Portal Using Machine Learning For Visual Impairment | |
Al Mahmud et al. | A New Technique to Classification of Bengali News Grounded on ML and DL Models | |
Save et al. | Artificial intelligence based fake news classification system | |
CN111767716B (zh) | 企业多级行业信息的确定方法、装置及计算机设备 | |
Shanmugarajah et al. | WoKnack–A Professional Social Media Platform for Women Using Machine Learning Approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |