CN113220964B - 一种基于网信领域短文本的观点挖掘方法 - Google Patents

一种基于网信领域短文本的观点挖掘方法 Download PDF

Info

Publication number
CN113220964B
CN113220964B CN202110357064.7A CN202110357064A CN113220964B CN 113220964 B CN113220964 B CN 113220964B CN 202110357064 A CN202110357064 A CN 202110357064A CN 113220964 B CN113220964 B CN 113220964B
Authority
CN
China
Prior art keywords
text
network
sentence
group
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110357064.7A
Other languages
English (en)
Other versions
CN113220964A (zh
Inventor
付培国
孙立远
王禄恒
葛自发
万欣欣
李欣
周亚东
边策
高泱晗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Computer Network and Information Security Management Center
Original Assignee
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Computer Network and Information Security Management Center filed Critical National Computer Network and Information Security Management Center
Priority to CN202110357064.7A priority Critical patent/CN113220964B/zh
Publication of CN113220964A publication Critical patent/CN113220964A/zh
Application granted granted Critical
Publication of CN113220964B publication Critical patent/CN113220964B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Abstract

本发明属于网络信息以及自然语言处理技术领域,特别涉及一种基于网信领域短文本的观点挖掘方法。本方法包括网信领域相关的数据获取与预处理模块、基于短文本的特征提取模块、短文本属性推断模块、观点挖掘结果输出模块。本发明方法提出了基于网信领域的短文本获取与数据清洗模型,建立了面向社交网络短文本的文本特征提取模型,设计了基于网信领域的社交网络短文本的属性推断模型,综合考虑了文本关键词抽取和摘要生成,提出对应的观点挖掘输出模型,最终基于实际采集的网络安全法相关短文本数据实现输出及可视化的展示。本发明极大地减少了人工收集、分析与网信领域相关的短文本的时间成本,能够有效的为网信领域相关专业人士提供观点挖掘结果。

Description

一种基于网信领域短文本的观点挖掘方法
技术领域
本发明属于网络信息以及自然语言处理技术领域,特别涉及一种基于网信领域短文本的观点挖掘方法。
背景技术
网信领域指的是网络安全和信息化领域。
但在实际生活当中,社交网络平台存在数据量十分巨大,用户群体属性未知等特性,人工的进行数据收集分析比较困难,所以需要设计一个自动的基于网信领域短文本的观点挖掘分析系统,进而实现对于文本的属性推断,辅以关键词展示和摘要展示,实现基于网信领域短文本的观点挖掘的综合输出及可视化展示。
发明内容
本发明的目的是提出一种基于网信领域短文本的观点挖掘方法,以实现对网信领域的短文本进行观点挖掘与分析。
本发明提出的基于网信领域短文本的观点挖掘方法,包括如下步骤:
(1)利用基于支持用户自定义的API网络爬虫,根据用户需求对网信领域短文本进行爬取,得到文本数据,对文本数据进行后续数据清洗;
(2)利用由谷歌公开发布的中文预训练BERT模型,对步骤(1)清洗后的文本进行嵌入编码,得到文本特征矩阵;
(3)利用多层神经网络搭建的文本属性推断网络,将步骤(2)的文本特征矩阵输入到文本属性推断网络中,得到网信领域短文本的文本属性,文本属性包括文本的情感极性及文本内容类别;
(4)利用文本统计及自然语言处理的方法,根据步骤(3)的文本属性,对网信领域短文本进行群体识别、词云图生成与摘要生成。
本发明提出的基于网信领域短文本的观点挖掘方法,其有益效果是:
1、本发明方法可以实现对与网信领域相关的短文本进行数据获取、文本清洗、属性推断、观点挖掘,从而实现对网信领域相关的短文本进行综合性的分析。
2、本发明方法中针对短文本属性推断这一应用场景,独特地设计了基于深度神经网络框架的学习模型,可以更好地提高文本属性推断的准确性和可靠性。
3、本发明方法中观点挖掘模块,考虑了对不同用户群体挖掘其讨论的热点话题,从而得到不同用户群体的关注点,同时结合属性推断的结果进行摘要生成,更好地实现了对网民评论意见的收集。
4、本发明针对网信领域短文本观点挖掘效果较好,以《数据安全法》为示例,挖掘与其相关的社交媒体短文本取得了较好的结果。
附图说明
图1是本发明提出的基于网信领域短文本的观点挖掘方法的流程框图。
图2是针对社交网络短文本数据预处理的流程图。
图3是本发明的基于短文本的特征提取模块的流程图。
图4是本发明的短文本属性推断模块的框架图。
图5是本发明观点挖掘结果输出模块中的群体识别的流程图。
图6是本发明观点挖掘结果输出模块中的词云图绘制与摘要生成的流程图。
图7是本发明观点挖掘结果输出模块中的词云图绘制结果的示例图。
具体实施方式
本发明提出的基于网信领域短文本的观点挖掘方法,包括如下步骤:
(1)利用基于支持用户自定义的API(为网络信息处理领域的公知技术)网络爬虫,根据用户需求对网信领域短文本进行爬取,得到文本数据,对文本数据进行后续数据清洗;
(2)利用由谷歌公开发布的中文预训练BERT(为网络信息处理领域的公知技术)模型,对步骤(1)清洗后的文本进行嵌入编码,得到文本特征矩阵;
(3)利用多层神经网络搭建的文本属性推断网络,将步骤(2)的文本特征矩阵输入到文本属性推断网络中,得到网信领域短文本的文本属性,文本属性包括文本的情感极性及文本内容类别;
(4)利用文本统计及自然语言处理的方法,根据步骤(3)的文本属性,对网信领域短文本进行群体识别、词云图生成与摘要生成。
上述观点挖掘方法的步骤(1)中,用户通过自定义的与网信领域相关的话题和关键词输入到基于自定义的API网络爬虫中,得到与网信领域相关的短文本的原始数据,原始数据包括:短文本内容、短文本发布时间、用户名、用户ID、用户个人简介、用户粉丝数、数据来源,并将原始数据存入本地数据库当中;数据清洗的先后顺序为:html字符去除、URL链接去除、表情符号去除、用户名去除、中文分词。其中数据清洗,具体过程为:将待处理的原始文本数据设为S,S为N个字符ci组成的有序文本序列,其中,0<i≤N,S={c1,c2,c3,…,ci,…,cN,};所述的html字符去除是利用正则表达式对原始数据中的html标签进行去除;所述URL链接是利用正则表达式去除是去除掉原始数据中由于用户引用导致的URL链接;所述的表情符号去除是利用字符编码去除用户在短文本当中发布的表情符号;所述用户名去除是是利用正则表达式对用户在进行转发、评论或私信时原始文本引入的用户名进行去除;所述的中文分词为利用jieba库对文本序列进行分词处理,使文本序列变为多个词组形成的序列。
上述观点挖掘方法的步骤(2)中,文本特征提取过程如下:
(1)搭建BERT模型,将谷歌官方公布的中文预训练参数作为模型参数,参数包含由预先训练的深度学习的网络参数、由简体中文与繁体中文的词组构成的词典;
(2)将步骤(1)中的BERT词典中加入空词组与未知词组,将权利要求1中步骤(1)的经过清洗和分词后的句子设为S,S为M个词组wi组成的有序文本序列,其中,0<i≤N,S={w1,w2,w3,…,wi,…,wM,},设定文本的最大单词数为N,若句子的序列长度M大于等于N,采取截断策略,选取句子的前N个词组序列为输入序列,其中/>若M小于N则采取补足策略,加入N-M个空词组wp=<PAD>,使新句子/>长度为N,将/>作为输入序列,其中
(3)将步骤(2)得到的输入序列按位输入到BERT模型当中,取倒数第三层的神经网络输出,经过变换后得到输入句子的文本特征矩阵。
上述观点挖掘方法,BERT模型包括12层由注意力机制和前向传播组成的基本单元,每层的隐层由768个隐藏单元,每层的注意力机制有12个头,共1.1亿参数;在BERT词典当中加入两个新词组,两个新词组分别为空词组wp=<PAD>和未知词组wu=<UNK>,将倒数第三层的神经网络输出的向量进行变形,得到文本特征矩阵矩阵。
上述观点挖掘方法的步骤(3),包括以下步骤:
(1)构建由多层神经网络搭建的文本属性推断网络;文本属性推断网络包括3层卷积网络,1层自注意力网络,2层属性输出网络;所推断的属性为文本的情感极性与文本内容的类别;
(2)将经过特征提取的人工标注数据,代入到步骤(1)的文本属性推断网络中,对文本属性推断网络进行监督训练;训练过程首先由人工对数据源的情感极性与文本内容进行标定,然后将标定的数据按照8:2的比例分为训练集与测试集,训练1000轮,并在每轮训练结束时代入测试集进行测试,训练过程使用早停的训练策略,即在测试集表现最好的那一轮,对模型进行保存;
(3)对于需要判断属性的与网信领域相关的文本数据经过数据清洗与特征提取后,输入到步骤(2)中已训练好的文本属性推断网络中,得到输入文本的情感极性与文本内容属性推断结果,将属性推断结果存入到本地数据库中,利用保存的最好参数作为文本属性推断网络的参数进行文本属性的推断。
上述观点挖掘方法中,所述的卷积网络由卷积层和池化层构成,卷积核的列数与输入矩阵的列数相同,行数为3,以卷积核向下滑动的方式对输入矩阵进行卷积;所述的自注意力网络对卷积的输出进行关联度匹配,计算关联度权重,自注意力网络的输出即为关联度矩阵乘输入文本矩阵;所述的属性输出网络分为两部分,一部分为文本的情感极性输出,另一部分为文本内容类别输出,均使用Softmax激活函数。
上述观点挖掘方法的步骤(4),包含以下步骤:
(1)对原始文本数据进行属性推断;
(2)构建群体识别知识库,利用原始数据的用户名、用户个人简介和粉丝数,并识别用户的群体类别;对社交媒体平台用户进行目标群体识别,目标群体分为四类:社会团体、企业、官方和个人网民,人工收集代表不同群体的关键词,得到由关键词与群体类别的映射关系,将映射关系作为群体识别知识库,依据知识库进行群体识别,识别步骤如下:
(2-1)建立群体识别知识库,人工对社交媒体平台各群体用户的用户名及个人简介进行分析,得到能够区分不同群体的关键名词,并将关键名词与四类群体类别建立映射关系,将映射关系作为群体识别知识库。
(2-2)利用百度公开的自然语言处理工具的Paddle-Lac,对用户的用户名与个人简介进行命名实体识别(为网络信息处理领域的公知技术),提取用户个人简介中的名词实体(通过命名实体识别方法,可以得到词及其词性,词在专业里就称之为实体),若该名词实体存在于群体识别知识库中,则进入步骤(3),若该名词实体不存在于群体识别知识库,则进入步骤(4);即通过命名实体识别,对个人简介中的词进行抽取,如果抽取的词恰好在知识库中存在,则进入步骤(3),按照知识库的映射关系赋予用户群体类别,否则就根据其用户的粉丝数来判别用户是否是网民还是团体。
(2-3)对提取得到的名词实体与群体识别知识库中的关键词进行匹配,若匹配到知识库中的关键词,则将与关键词所映射的群体作为目标群体,并输出相应的用户群体类别,若匹配不到知识库中的关键词,则进入步骤4;
(2-4)设定社交媒体平台用户粉丝数设立阈值,对用户的粉丝数进行判断,若用户的粉丝数量高于设定阈值,则判定用户的群体类别为社会团体,若用户的粉丝数量小于或等于设定阈值,则判定用户的群体类别为个人网民;
(2-3)根据用户的群体类别,分别对各类群体用户发表的短文本进行整理,生成词云图;
(2-3-1)根据群体类别的识别结果,按照不同群体类别将用户的社交短文本进行整理;
(2-3-2)对短文本进行分词处理,分词后利用停用词表,将短文本当中的停用词剔除;
(2-3-3)利用下式,计算短文本中词语的词频-逆向文件频率tf-idfi值,具体公式如下:
tf-idfi=tfi×idfi
其中,ni,j是设定词在短文本中出现的次数,∑knk,j是所有包含该词的短文本的词组数量的和,|D|为全部短文本数量,|{j:ti∈dj}|为包含该词短文本数量;
(2-3-4)根据词组的tf-idfi值的高低进行排序,选前50组词作为短文本的关键词;
(2-3-5)利用wordcloud库方法(为网络信息处理领域的公知技术),为各个群体绘制词云图。
(2-3-4)根据不同的文本内容类别,按照极性分别为每类文本进行摘要生成。
上述观点挖掘方法的步骤(3)绘制各群体的词云图步骤如下:
(3-1)使用“。”、“?”和“!”作为切分句子的标点符号,对将文本段落切分为句子;
(3-2)选用词频-逆向文件频率,对切分后的句子序列进行嵌入表示,每个句子对应一个词频-逆向文件频率向量vi
(3-3)计算步骤(2)的句子权重,即关键词信息量、句子位置和句子相似度信息量,句子的关键词信息量为句子向量vi的模,即|vi|;句子位置即为句子在原段落中是第几句;句子相似度信息量为,句子向量与其他句子向量的距离均值,即将三个权重指数按照一定的系数相加,对所有句子按照权重值进行降序排序,抽取句子权重最高的句子作为摘要。
本发明的观点挖掘方法,对与网信领域相关的短文本进行观点挖掘,得到社交媒体平台用户对网信领域政策法规的观点极性及看法,最终的结果以各方群体对于网信领域政策法规各方面内容的词云图和摘要形式给出。
下面将参考附图,并结合对《数据安全法》观点挖掘实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
以下详细说明均是示例性的说明,旨在对本发明提供进一步的详细说明。除非另有指明,本发明所采用的所有技术术语与本申请所属领域的一般技术人员的通常理解的含义相同。本发明所使用的术语仅是为了描述具体实施方式,而并非意图限制根据本发明的示例性实施方式。
如图1所示,本发明基于网信领域短文本的观点挖掘方法,在功能上,该方法有赖于四个功能模块,分别为与网信领域相关的数据获取与预处理模块、基于短文本的特征提取模块、短文本属性推断模块、观点挖掘结果输出模块。
基于此,本发明主要包括如下步骤:
步骤1,利用基于支持用户自定义的API的网络爬虫,根据用户需求针对网信领域相关的短文本进行爬取,然后对于所爬取的文本数据进行后续的数据清洗。本步骤具体又分为如下步骤:
(1),用户通过自定义的与网信领域相关的话题和关键词输入到基于API搭建的网络爬虫中,得到与网信领域相关的短文本原始数据,其包括:短文本内容、短文本发布时间、用户名、用户ID、用户个人简介、用户粉丝数、数据来源,并将原始数据存入本地数据库当中。
(2),参考图2,对短文本进行数据清洗,数据清洗的先后顺序为:html字符去除、URL链接去除、表情符号去除、用户名去除、中文分词。将待处理的原始文本数据设为S,其为N个字符ci组成的有序文本序列,其中,0<i≤N,S={c1,c2,c3,…,ci,…,cN,},html字符去除是利用正则表达式对原始数据中的html标签进行去除;URL链接去除是去利用正则表达式除掉原始数据中由于用户引用导致的URL链接;表情符号去除是利用字符编码去除用户在短文本当中发布的表情符号;用户名去除是对用户在进行转发、评论或私信时原始文本引入的用户名进行去除;中文分词是利用现有的jieba库对文本序列进行分词处理,使其变为多个词组形成的序列。
正则化表达式描述了一种字符串匹配的模式,首先将短文本按照每行读取并转换为字符串,在其中进行遍历检查字符串是否含有所查找子串,最后对该字符串进行匹配并替换。移除的内容可用空格替代以保证短文本的整齐,最终得到清洗后的文本。字符编码是文本数据在存储过程中的二进制编码,可以通过查表,将非语言类的字符,比如表情,特殊符号进行去除。jieba库是可以实现对中文句子进行分词的通用的库。
短文本清洗的处理案例如下,原始文本为真实社交网络中与网信领域相关的短文本,在经过数据清洗与分词操作下,得到最终的结果。其中,原始文本中的html标签,URL链接,特殊标签符号和用户名均被滤除。且清洗后的文本经分词后得到一组词序列。
步骤2,基于步骤1得到的与网信领域相关的短文本,利用由自注意力机制搭建的BERT模型,针对清洗后的文本进行嵌入编码,以得到文本特征的矩阵表示;即利用现有的模型,将非数值形式的文本数据,以数值化的数学矩阵进行表示。参考图3,本步骤具体又分为如下步骤:
(1)搭建BERT模型,并将官方的中文预训练参数作为模型参数。其中BERT有12层由注意力机制和前向传播组成的基本单元,每层的隐层有768个隐藏单元,每层的注意力机制有12个头,共1.1亿参数。由google公司进行维护,参数已公开,是自然语言处理行业常用的文本表示工具。在BERT模型的词典中加入,加入两个新词组分别为空词组wp=<PAD>和未知词组wu=<UNK>,分别用于补位和对于未在词典中词组的编码。
(2)将经过清洗和分词后的句子设为S,其为M个词组wi组成的有序文本序列,其中,0<i≤N,S={w1,w2,w3,…,wi,…,wM,},设定文本的最大单词数为N,若句子的序列长度M大于等于N,采取截断策略,选取句子的前N个词组序列为输入序列,其中/>若M小于N则采取补足策略,加入N-M个空词组wp=<PAD>,使新句子/>长度为N,并将其作为输入序列,其中/>
(3)将(2)得到的输入序列按位输入到BERT模型当中,取倒数第三层的神经网络输出经过变换后得到输入句子的特征矩阵。BERT倒数第三层是对词序列的嵌入编码,再经过对向量进行变换可以得到句子的矩阵表达形式。
步骤3,基于步骤2的特征提取得到文本的特征矩阵,代入到由多层神经网络搭建的文本属性推断网络,得到短文本的情感极性及文本内容类别。本步骤具体又分为如下步骤:
(1)构建由多层神经网络搭建的文本属性推断网络。参考图4,文本属性推断网络包括3层卷积网络,1层自注意力网络,2层属性输出网络;所推断的属性为文本的情感极性与文本内容的类别。卷积网络的由卷积层,池化层构成,卷积核的列数与输入矩阵的列数相同,行数为3,以卷积核向下滑动的方式对输入矩阵进行卷积;所述的自注意力网络是对卷积的输出进行关联度匹配,计算关联度权重,输出即为关联度矩阵乘输入文本矩阵;所述属性输出网络分为两部分,一部分为文本的情感极性输出,另一部分为文本内容类别输出,均使用Softmax激活函数。
(2)用人工标注的数据,经过步骤2的特征提取,代入到(1)中的文本属性推断网络,对其进行监督训练;训练过程首先由人工对数据源的情感极性与文本内容进行标定,其中文本内容指的是短文本反映了与网信领域相关的哪一方面内容,而情感极性指的是短文本反映出来的情感是积极倡导,还是消极批评;然后将标定的数据按照8:2的比例分为训练集与测试集,训练1000轮,并在每轮训练结束时代入测试集进行测试;保存在测试集上表现最好的那一轮的参数。
(3)对于未经标定的文本数据经过数据清洗与特征提取,代入到文本属性推断网络,得到属性推断结果,存入到本地数据库中。
在社交短文本经过特征提取得到句向量矩阵,代入到属性推断网络当中,可以得到该短文本的文本内容为网络安全,情感极性为积极倡导,得到句子属性之后将其保存至数据库当中。
步骤4,基于步骤1得到的与网信领域相关的短文本,并结合步骤3得到的文本属性,分别进行群体识别、词云图生成与摘要生成,最终实现文本属性推断结果的展示,同时以词云图及摘要抽取作为补充,实现对短文本整体内容的信息抽取,以便于现实场景下的利用和展示。本步骤包含以下步骤:
(1)经过步骤1得到原始文本数据,并通过步骤3与对文本数据进行属性推断;
(2)利用原始数据的用户名、用户个人简介、粉丝数,识别用户的群体类别;对社交媒体平台用户进行群体识别,目标群体分为四类:社会团体、企业、官方及个人网民,由人工标定代表不同群体的关键词,得到由关键词映射群体类别的群体识别知识库,依据知识库进行群体识别,参考图5,其步骤如下:
Step1:将用户的用户名与个人简介进行命名实体识别,提取文本中的名词实体,如果存在名词实体则进入Step2,否则进入Step3;
Step2:对于所提取得到的名词实体与群体识别知识库中的关键词进行匹配,若匹配到知识库中的关键词,则取关键词所映射的群体作为目标群体,并输出用户群体类别,否则进入Step3;
Step3:对社交媒体平台用户粉丝数设立阈值,若用户的粉丝数量高于阈值,则输出用户群体类别为社会团体,否则输出用户群体类别为个人网民。
(3)根据用户的群体类别,分别对各类群体用户发表的短文本进行整理,生成词云图。参考图6,绘制各群体的词云图步骤如下:
Step1:根据群体识别的结果,按照不同群体类别将用户的社交短文本进行整理;
Step2:对短文本进行分词处理,分词后利用停用词表,将短文本当中的停用词剔除;
Step3:计算短文本中词语的TF-IDF值,具体公式如下:
其中ni,j是某词在短文本中出现的次数,∑knk,j是所有包含该词的短文本的词组数量的和;
其中|D|为全部短文本数量,|{j:ti∈dj}|为包含该词短文本数量;
tf-idfi=tfi×idfi即为词组的TF-IDF值;
Step4:根据词组的TF-IDF值的高低进行排序,选前50组词作为短文本的关键词;
Step5:利用wordcloud库为各个群体绘制词云图。
以图7为例,选取了企业和民间团体这两类群体为例,挖掘其关心的关键词与话题,以词云图的形式展出。
(4)在关键词的基础上实现在属性推断后,考虑实现对文本整体的概要信息进行综合展示,根据不同的文本内容类别,按照极性分别为每类文本进行摘要生成,其中设计摘要生成系统的步骤如下:
摘要生成模型设计思路分为以下四个步骤:
Step1:文本切分(使用“。”,“?”和“!”来做切分句子的标点符号。)
Step2:文本表示(选用tfidf权重矩阵)。
Step3:计算句子权重,即为关键词信息量、句子位置和句子相似度信息量。首先将三个权重指数按照一定的系数相加,对所有句子按照权重值进行降序排序,随后根据得分的高低来调整feature_weight的取值。
Step4:抽取句子权重最高的句子作为摘要。
选取了“360安全公司”这一话题,对所有设计这一话题的短文本进行整合,共3612字,生成了约为120字的短文本摘要。
为本发明基于网信领域短文本的观点挖掘方法的结果展示图,展示的内容为短文本的属性推断与用户的群体识别结果、基于用户群体的词云图生成结果以及基于文本类别的摘要生成结果。
综上,本发明解决了现有技术中没有考虑到面向网信领域的短文本观点挖掘的方法,提出了基于网信领域的短文本获取与数据清洗模型,建立了面向社交网络短文本的文本特征提取模型,设计了基于网信领域的社交网络短文本的属性推断模型,同时综合考虑了文本关键词抽取和摘要生成,提出了对应的观点挖掘输出模型,最终基于实际采集的网络安全法相关短文本数据实现输出及可视化的展示。

Claims (10)

1.一种基于网信领域短文本的观点挖掘方法,其特征在于,包括如下步骤:
(1)利用基于支持用户自定义的API网络爬虫,根据用户需求对网信领域短文本进行爬取,得到文本数据,对文本数据进行后续数据清洗;
(2)利用由谷歌公开发布的中文预训练BERT模型,对步骤(1)清洗后的文本进行嵌入编码,得到文本特征矩阵;
(3)利用多层神经网络搭建的文本属性推断网络,将步骤(2)的文本特征矩阵输入到文本属性推断网络中,得到网信领域短文本的文本属性,文本属性包括文本的情感极性及文本内容类别;
(4)利用文本统计及自然语言处理的方法,根据步骤(3)的文本属性,对网信领域短文本进行群体识别、词云图生成与摘要生成;
所述的步骤(4)包含以下步骤:
(4.1)对原始文本数据进行属性推断;
(4.2)构建群体识别知识库,利用原始数据的用户名、用户个人简介和粉丝数,并识别用户的群体类别;
(4.3)根据用户的群体类别,分别对各类群体用户发表的短文本进行整理,生成词云图;
(4.4)根据不同的文本内容类别,按照极性分别为每类文本进行摘要生成;
所述的步骤(4)绘制摘要生成步骤如下:
(4.11)使用“。”、“?”和“!”作为切分句子的标点符号,对将文本段落切分为句子;
(4.12)选用词频-逆向文件频率,对切分后的句子序列进行嵌入表示,每个句子对应一个词频-逆向文件频率向量vi
(4.13)计算步骤(4.12)的句子权重,即关键词信息量、句子位置和句子相似度信息量,句子的关键词信息量为句子向量vi的模,即|vi|;句子位置即为句子在原段落中是第几句;句子相似度信息量为,句子向量与其他句子向量的距离均值,即将三个权重指数按照一定的系数相加,对所有句子按照权重值进行降序排序,抽取句子权重最高的句子作为摘要。
2.如权利要求1的观点挖掘方法,其特征在于,所述的步骤(1)中,用户通过自定义的与网信领域相关的话题和关键词输入到基于自定义的API网络爬虫中,得到与网信领域相关的短文本的原始数据,原始数据包括:短文本内容、短文本发布时间、用户名、用户ID、用户个人简介、用户粉丝数、数据来源,并将原始数据存入本地数据库当中;数据清洗的先后顺序为:html字符去除、URL链接去除、表情符号去除、用户名去除、中文分词。
3.如权利要求2所述的观点挖掘方法,其特征在于,所述的数据清洗,具体过程为:将待处理的原始文本数据设为S,S为N个字符ci组成的有序文本序列,其中,0<i≤N,S={c1,c2,c3,…,ci,…,cN,};所述的html字符去除是利用正则表达式对原始数据中的html标签进行去除;所述URL链接是利用正则表达式去除是去除掉原始数据中由于用户引用导致的URL链接;所述的表情符号去除是利用字符编码去除用户在短文本当中发布的表情符号;所述用户名去除是利用正则表达式对用户在进行转发、评论或私信时原始文本引入的用户名进行去除;所述的中文分词为利用jieba库对文本序列进行分词处理,使文本序列变为多个词组形成的序列。
4.如权利要求1所述的观点挖掘方法,其特征在于,所述的步骤(2)中,文本特征提取过程如下:
(2.1)搭建BERT模型,将谷歌官方公布的中文预训练参数作为模型参数,参数包含由预先训练的深度学习的网络参数、由简体中文与繁体中文的词组构成的词典;
(2.2)将步骤(2.1)中的BERT词典中加入空词组与未知词组,将权利要求1中步骤(1)的经过清洗和分词后的句子设为S,S为M个词组wi组成的有序文本序列,其中,0<i≤N,S={w1,w2,w3,…,wi,…,wM,},设定文本的最大单词数为N,若句子的序列长度M大于等于N,采取截断策略,选取句子的前N个词组序列为输入序列,其中/>若M小于N则采取补足策略,加入N-M个空词组wp=<PAD>,使新句子/>长度为N,将/>作为输入序列,其中
(2.3)将步骤(2.2)得到的输入序列按位输入到BERT模型当中,取倒数第三层的神经网络输出,经过变换后得到输入句子的文本特征矩阵。
5.如权利要求4所述的观点挖掘方法,其特征在于,所述的步骤(2.1)中的BERT模型包括12层由注意力机制和前向传播组成的基本单元,每层的隐层由768个隐藏单元,每层的注意力机制有12个头,共1.1亿参数;所述的步骤(2.2)中,在BERT词典当中加入两个新词组,两个新词组分别为空词组wp=<PAD>和未知词组wu=<UNK>,所述的步骤(2.3)中,将倒数第三层的神经网络输出的向量进行变形,得到文本特征矩阵。
6.如权利要求1所述的观点挖掘方法,其特征在于,所述的步骤(3)包括以下步骤:
(3.1)构建由多层神经网络搭建的文本属性推断网络;
(3.2)将经过特征提取的人工标注数据,代入到步骤(3.1)的文本属性推断网络中,对文本属性推断网络进行监督训练;
(3.3)对于需要判断属性的与网信领域相关的文本数据经过数据清洗与特征提取后,输入到步骤(3.2)中已训练好的文本属性推断网络中,得到输入文本的情感极性与文本内容属性推断结果,将属性推断结果存入到本地数据库中。
7.如权利要求6所述的观点挖掘方法,其特征在于,
所述的步骤(3.1)中,文本属性推断网络包括3层卷积网络,1层自注意力网络,2层属性输出网络;所推断的属性为文本的情感极性与文本内容的类别;
所述的步骤(3.2)中,训练过程首先由人工对数据源的情感极性与文本内容进行标定,然后将标定的数据按照8:2的比例分为训练集与测试集,训练1000轮,并在每轮训练结束时代入测试集进行测试,训练过程使用早停的训练策略,即在测试集表现最好的那一轮,对模型进行保存;
所述的步骤(3.3)中,利用步骤(3.2)中保存的最好参数作为文本属性推断网络的参数进行文本属性的推断。
8.如权利要求7所述的观点挖掘方法,其特征在于,所述的卷积网络由卷积层和池化层构成,卷积核的列数与输入矩阵的列数相同,行数为3,以卷积核向下滑动的方式对输入矩阵进行卷积;所述的自注意力网络对卷积的输出进行关联度匹配,计算关联度权重,自注意力网络的输出即为关联度矩阵乘输入文本矩阵;所述的属性输出网络分为两部分,一部分为文本的情感极性输出,另一部分为文本内容类别输出,均使用Softmax激活函数。
9.如权利要求1所述的观点挖掘方法,其特征在于,所述的步骤(4.2)中,对社交媒体平台用户进行目标群体识别,目标群体分为四类:社会团体、企业、官方和个人网民,人工收集代表不同群体的关键词,得到由关键词与群体类别的映射关系,将映射关系作为群体识别知识库,依据知识库进行群体识别,识别步骤如下:
(4.21)建立群体识别知识库,人工对社交媒体平台各群体用户的用户名及个人简介进行分析,得到能够区分不同群体的关键名词,并将关键名词与四类群体类别建立映射关系,将映射关系作为群体识别知识库;
(4.22)利用百度公开的自然语言处理工具的Paddle-Lac,对用户的用户名与个人简介进行命名实体识别,提取用户个人简介中的名词实体,若该名词实体存在于群体识别知识库中,则进入步骤(4.23),若该名词实体不存在于群体识别知识库,则进入步骤(4.24);
(4.23)对提取得到的名词实体与群体识别知识库中的关键词进行匹配,若匹配到知识库中的关键词,则将与关键词所映射的群体作为目标群体,并输出相应的用户群体类别,若匹配不到知识库中的关键词,则进入步骤4;
(4.24)设定社交媒体平台用户粉丝数设立阈值,对用户的粉丝数进行判断,若用户的粉丝数量高于设定阈值,则判定用户的群体类别为社会团体,若用户的粉丝数量小于或等于设定阈值,则判定用户的群体类别为个人网民。
10.如权利要求1所述的观点挖掘方法,其特征在于,所述的步骤(4.3)绘制各群体的词云图步骤如下:
(4.31)根据群体类别的识别结果,按照不同群体类别将用户的社交短文本进行整理;
(4.32)对短文本进行分词处理,分词后利用停用词表,将短文本当中的停用词剔除;
(4.33)利用下式,计算短文本中词语的词频-逆向文件频率tf-idfi值,具体公式如下:
tf-idfi=tfi×idfi
其中,ni,j是设定词在短文本中出现的次数,∑knk,j是所有包含该词的短文本的词组数量的和,|D|为全部短文本数量,|{j:ti∈dj}|为包含该词短文本数量;
(4)根据词组的tf-idfi值的高低进行排序,选前50组词作为短文本的关键词;
(5)利用wordcloud库方法,为各个群体绘制词云图。
CN202110357064.7A 2021-04-01 2021-04-01 一种基于网信领域短文本的观点挖掘方法 Active CN113220964B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110357064.7A CN113220964B (zh) 2021-04-01 2021-04-01 一种基于网信领域短文本的观点挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110357064.7A CN113220964B (zh) 2021-04-01 2021-04-01 一种基于网信领域短文本的观点挖掘方法

Publications (2)

Publication Number Publication Date
CN113220964A CN113220964A (zh) 2021-08-06
CN113220964B true CN113220964B (zh) 2024-03-22

Family

ID=77086351

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110357064.7A Active CN113220964B (zh) 2021-04-01 2021-04-01 一种基于网信领域短文本的观点挖掘方法

Country Status (1)

Country Link
CN (1) CN113220964B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113641821B (zh) * 2021-08-11 2023-08-29 北京信息科技大学 一种社交网络中意见领袖的价值取向识别方法及系统
KR20230047849A (ko) 2021-10-01 2023-04-10 네이버 주식회사 초대형 언어 모델을 이용한 문서 요약 방법 및 시스템

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106980692A (zh) * 2016-05-30 2017-07-25 国家计算机网络与信息安全管理中心 一种基于微博特定事件的影响力计算方法
CN109977278A (zh) * 2019-02-21 2019-07-05 中国电子科技集团公司第二十八研究所 舆情数据的可视化展示系统、方法、设备及存储介质
CN110879856A (zh) * 2019-11-27 2020-03-13 国家计算机网络与信息安全管理中心 一种基于多特征融合的社交群体分类方法及系统
CN111143553A (zh) * 2019-12-06 2020-05-12 国家计算机网络与信息安全管理中心 一种实时文本数据流的特定信息识别方法及系统
CN111666500A (zh) * 2020-06-08 2020-09-15 腾讯科技(深圳)有限公司 文本分类模型的训练方法及相关设备
CN111737978A (zh) * 2020-07-02 2020-10-02 武汉卓尔数字传媒科技有限公司 一种购物评价情感分析的方法、装置及电子设备
KR20200119410A (ko) * 2019-03-28 2020-10-20 한국과학기술원 전역 및 지역 문맥 기반 한국어 대화문 감정 인식 시스템 및 방법
CN111881260A (zh) * 2020-07-31 2020-11-03 安徽农业大学 基于方面注意力和卷积记忆神经网络情感分析方法及装置
CN112001187A (zh) * 2020-08-26 2020-11-27 重庆理工大学 一种基于中文句法和图卷积神经网络的情感分类系统
CN112115712A (zh) * 2020-09-08 2020-12-22 北京交通大学 基于话题的群体情感分析方法
CN112182332A (zh) * 2020-09-25 2021-01-05 科大国创云网科技有限公司 一种基于爬虫采集的情感分类方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI470564B (zh) * 2012-02-21 2015-01-21 Wistron Corp 使用者情緒偵測方法與應用其之手寫輸入電子裝置
US10311454B2 (en) * 2017-06-22 2019-06-04 NewVoiceMedia Ltd. Customer interaction and experience system using emotional-semantic computing

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106980692A (zh) * 2016-05-30 2017-07-25 国家计算机网络与信息安全管理中心 一种基于微博特定事件的影响力计算方法
CN109977278A (zh) * 2019-02-21 2019-07-05 中国电子科技集团公司第二十八研究所 舆情数据的可视化展示系统、方法、设备及存储介质
KR20200119410A (ko) * 2019-03-28 2020-10-20 한국과학기술원 전역 및 지역 문맥 기반 한국어 대화문 감정 인식 시스템 및 방법
CN110879856A (zh) * 2019-11-27 2020-03-13 国家计算机网络与信息安全管理中心 一种基于多特征融合的社交群体分类方法及系统
CN111143553A (zh) * 2019-12-06 2020-05-12 国家计算机网络与信息安全管理中心 一种实时文本数据流的特定信息识别方法及系统
CN111666500A (zh) * 2020-06-08 2020-09-15 腾讯科技(深圳)有限公司 文本分类模型的训练方法及相关设备
CN111737978A (zh) * 2020-07-02 2020-10-02 武汉卓尔数字传媒科技有限公司 一种购物评价情感分析的方法、装置及电子设备
CN111881260A (zh) * 2020-07-31 2020-11-03 安徽农业大学 基于方面注意力和卷积记忆神经网络情感分析方法及装置
CN112001187A (zh) * 2020-08-26 2020-11-27 重庆理工大学 一种基于中文句法和图卷积神经网络的情感分类系统
CN112115712A (zh) * 2020-09-08 2020-12-22 北京交通大学 基于话题的群体情感分析方法
CN112182332A (zh) * 2020-09-25 2021-01-05 科大国创云网科技有限公司 一种基于爬虫采集的情感分类方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Adaptive Learning Emotion Identification Method of Short Texts for Online Medical Knowledge Sharing Community;Dan Gan.etc;Computational Intelligence and Neuroscience;第2019卷;1-10 *
基于双向长短期记忆模型的网民负面情感分类研究;吴鹏等;情报学报;第37卷(第8期);845-853 *

Also Published As

Publication number Publication date
CN113220964A (zh) 2021-08-06

Similar Documents

Publication Publication Date Title
CN109933664B (zh) 一种基于情感词嵌入的细粒度情绪分析改进方法
CN109543178B (zh) 一种司法文本标签体系构建方法及系统
CN111401061A (zh) 基于BERT及BiLSTM-Attention的涉案新闻观点句识别方法
CN110287323B (zh) 一种面向目标的情感分类方法
Maharjan et al. A multi-task approach to predict likability of books
CN111160031A (zh) 一种基于词缀感知的社交媒体命名实体识别方法
CN112084335A (zh) 一种基于信息融合的社交媒体用户账号分类方法
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN110390018A (zh) 一种基于lstm的社交网络评论生成方法
CN113220964B (zh) 一种基于网信领域短文本的观点挖掘方法
CN115952292B (zh) 多标签分类方法、装置及计算机可读介质
CN115017303A (zh) 基于新闻文本进行企业风险评估的方法、计算设备和介质
CN113505200A (zh) 一种结合文档关键信息的句子级中文事件检测的方法
CN111581364B (zh) 一种面向医疗领域的中文智能问答短文本相似度计算方法
CN114756675A (zh) 文本分类方法、相关设备及可读存储介质
CN114936266A (zh) 基于门控机制的多模态融合谣言早期检测方法及系统
CN113934835B (zh) 结合关键词和语义理解表征的检索式回复对话方法及系统
CN115269834A (zh) 一种基于bert的高精度文本分类方法及装置
CN115098673A (zh) 基于变体注意力及层次结构的业务文书信息抽取方法
CN114048305A (zh) 一种基于图卷积神经网络的行政处罚文书的类案推荐方法
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
CN117171333A (zh) 一种电力文件问答式智能检索方法及系统
CN111078874B (zh) 基于随机子空间的决策树分类的对外汉语难度评估方法
CN116450829A (zh) 医疗文本分类方法、装置、设备及介质
CN115309899B (zh) 一种文本中特定内容识别存储方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant