CN113378024A - 一种基于深度学习面向公检法领域的相关事件识别方法 - Google Patents

一种基于深度学习面向公检法领域的相关事件识别方法 Download PDF

Info

Publication number
CN113378024A
CN113378024A CN202110566115.7A CN202110566115A CN113378024A CN 113378024 A CN113378024 A CN 113378024A CN 202110566115 A CN202110566115 A CN 202110566115A CN 113378024 A CN113378024 A CN 113378024A
Authority
CN
China
Prior art keywords
text
vector
public inspection
model
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110566115.7A
Other languages
English (en)
Other versions
CN113378024B (zh
Inventor
赵铁军
徐冰
杨沐昀
郭常江
朱聪慧
曹海龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN202110566115.7A priority Critical patent/CN113378024B/zh
Publication of CN113378024A publication Critical patent/CN113378024A/zh
Application granted granted Critical
Publication of CN113378024B publication Critical patent/CN113378024B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Business, Economics & Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Resources & Organizations (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于深度学习面向公检法领域的相关事件识别方法。步骤1:采集网络上各种热点信息标题,进行非中文、非英文、非数字字符的清理并存储在数据库中;步骤2:对步骤1数据库中的热点信息标题采用文本分类技术及深度学习进行识别是否与公检法领域相关;步骤3:对步骤1数据库中的热点信息标题做出相应标识并存储。本发明用以解决舆情量过大导致耗费人力物力、系统性能较差的问题。

Description

一种基于深度学习面向公检法领域的相关事件识别方法
技术领域
本发明属于自然语言处理领域;具体涉及一种基于深度学习面向公检法领域的相关事件识别方法。
背景技术
舆情分析是一种对社会舆论信息、热点事件进行收集,从不同维度对事件进行分析,以帮助决策者得到合理的决策的技术。
复杂又庞大的网络数据实质上可以分成两种数据类型,一种是结构化的数据,例如社交网络等,另外一种是非结构化的数据,如我们常见的网络评论文本和新闻报道文本。其中新闻报道以文字量大、影响力广为优势,成为舆情分析中的重要一环。
不同领域的舆情信息铺天盖地,糅杂在一起,而针对不同的需求,可能只需要分析其中某一个领域的舆情,而忽略其他领域的舆情,例如本发明就是针对公检法领域的舆情进行分析。而如果不加以区分,对所有的舆情都进行分析,将会有以下几个问题:
一、舆情量过大,导致在分析舆情信息时将花费大量无用时间去处理其他领域的舆情,而这些领域却是不需要关注的舆情信息,无故占用有限的计算资源,对后期分析工作造成困扰;
二、由于各种领域的舆情都进行分析,成功分析出所有舆情信息后,导致业务人员在使用舆情系统的时候需要自己逐条判断该条舆情分析结果对自己目前所遇到的情况做出判断有没有帮助。相同领域的信息帮助是最大的,而对于不同领域的舆情来说,这种帮助是微乎其微的,反而会给业务人员造成负担,降低工作效率。
发明内容
本发明公开一种基于深度学习面向公检法领域的相关事件识别方法,用以解决舆情量过大导致耗费人力物力、系统性能较差的问题。
本发明通过以下技术方案实现:
一种基于深度学习面向公检法领域的相关事件识别方法,所述识别方法包括以下步骤:
步骤1:采集网络上各种热点信息标题,进行非中文、非英文字符和非数字符号的清理并存储在数据库中;
步骤2:对步骤1数据库中的热点信息标题采用文本分类技术及深度学习进行识别是否与公检法领域相关;
步骤3:对步骤1数据库中的热点信息标题做出相应标识并存储。
进一步的,所述步骤1具体包括以下步骤:
步骤1.1:爬取得到原始的HTML网页文本,将其编码格式转为UTF-8编码;
步骤1.2:对于不同网站的热点信息列表,分析源码,锁定该网站热点信息所在的标签;
步骤1.3:使用Xpath语言,从HTML网页当中提取出热点信息标题文本;
步骤1.4:使用正则表达式提取出热点信息标题文本并清理非中文、非英文字符和非数字符号的信息标题;
步骤1.5:将清理过的热点信息标题按照时间顺序存储在数据库当中。
进一步的,所述步骤2具体包括以下步骤:
步骤2.1:从网络上实时获取热点舆情的短文本标题,清洗过后从中随机抽取出10,000条标题文本;
步骤2.2:基于步骤2.1随机抽取出的10,000条标题文本,进行人工标注,作为训练语料库;
步骤2.3:基于步骤2.2的训练语料库将公检法相关热点事件的标题文本标注为1,不相关的标注为0。
进一步的,所述步骤2具体为:
基于文本表示技术将文本转化为向量的表示形式,使用Word2Vec模型进行预处理获得词向量,将词向量分别用在两个不同的深度神经网络模型对文本特征进行提取,即获取其语义表示,使用该语义表示完成分类;
所述两个模型分别是基于RCNN的识别模型和基于Bi-LSTM和注意力机制的识别模型;
搭建好模型之后,使用训练语料库进行训练;
使用训练好的三个模型的识别结果进行投票,确定某一标题文本对应的舆情事件是否属于公检法领域。
进一步的,所述步骤2具体为,基于文本表示技术将文本转化为向量的表示形式,使用BERT预训练模型的识别模型进行预处理获得句子向量,即获取其语义表示,使用该语义表示完成分类。
进一步的,所述Word2Vec词向量模型具体训练方式如下:
步骤W2.1:使用构建好的数据集,去掉其中重复的文本,仅保留文字部分;
步骤W2.2:使用Jieba分词技术,将每一个标题文本拆分成单个的单词;
步骤W2.3:将分词结果投入到Word2Vec模型中进行训练,得到词向量。
进一步的,所述步骤2具体包括以下步骤:所述RCNN的识别模型主要构建流程包括以下步骤是:
步骤R2.1:利用词向量,将输入到网络中的文字映射为向量,即Embedding Layer;
步骤R2.2:利用双向LSTM结构获得句子的上下文信息,并将双向LSTM获得的隐层输出和词向量拼接得到[fwOutput,wordEmbedding,bwOutput]向量,其中fwOutput是LSTM结构正向迭代的隐藏层输出结果,wordEmbedding是输入的词对应的词向量,bwOutput是LSTM结构反向迭代的隐藏层输出;将拼接后的向量非线性映射到低维;
步骤R2.3:对上述的低维向量中的每一个位置的值都取所有时序上的最大值,得到最终的特征向量;
步骤R2.4:使用线性层将步骤R2.3的Max-pooling Layer结果映射成二维向量;
步骤R2.5:使用Softmax进行分类,得到分类结果。
进一步的,所述基于Bi-LSTM和注意力机制的识别模型主要构建流程包括以下步骤:
步骤Bi2.1:利用词向量,将输入到网络中的文字映射为向量,即EmbeddingLayer;
步骤Bi2.2:将Embedding Layer的输出输入到双向LSTM当中,得到正向的输出fwOutput和反向的输出bwOutput,将两个向量拼接到一起:[fwOutput,bwOutput],用这样一个向量代表原文本的上下文语义,即LSTM Layer;
步骤Bi2.3:对步骤步骤Bi2.2得到的拼接向量计算注意力,具体公式如下:
eij=tanh(Wwhij+bw)
Figure BDA0003080756540000031
其中的,Ww,bw,uw是待学习参数,aij代表最后的注意力分布,即第i个句子中第j个词的注意力数值,即AttentionLayer;
步骤Bi2.4:使用注意力结果和拼接向量[fwOutput,bwOutput]加权求和,输入到线性层得到最后的网络输出Output,经过Softmax函数得到分类结果,即LinearLayer和Output Layer。
进一步的,所述基于BERT预训练模型的识别模型主要构建流程包括以下步骤:
步骤BE2.1:将文本按照BERT要求的格式输入到BERT模型中,经过BERT的计算得到特征向量feature,该向量代表了文本的语义,即BERTLayer;
步骤BE2.2:将该特征向量经过一层线性连接层映射为一个2维的向量output,即LinearLayer;
步骤BE2.3:步骤BE2.2的output向量经过一层Softmax层,得到分类结果。
进一步的,所述步骤2对步骤1的数据集,按照8:2的比例分成两部分,分别作为训练模型的训练集和测试集,其中,三个模型在训练时使用的优化器均为Adam,神经网络的损失函数均为交叉熵损失函数(针对二分类问题),其中交叉熵损失函数的具体定义如下:
loss=-ylogy'-(1-y)log(1-y')
其中,y代表实际的人工标注的标签,y'代表模型的预测结果。
本发明的有益效果是:
本发明通过抓取网络的热点信息标题、识别标题是否与公检法领域相关,从而筛选出与公检法领域相关的热点事件并进行显示。
本发明方法使得公检法相关的工作人员可以不必手动去关注网络上的各种热点事件,只需使用本系统便可以轻松快捷地了解到当前网络上和公检法相关的热点事件;如果有针对公检法领域的舆情系统,也能通过本发明迅速锁定需要关注的热点事件,避免花费在其他非公检法领域的热点事件的追踪,可有效减少资源的消耗。
本发明完全是自动化的抓取、识别、展示的过程,可大大降低人力消耗。
附图说明
图1为本发明的流程图。
图2为本发明中训练语料构建流程图。
图3为本发明中RCNN分类模型图。
图4为本发明中Bi-LSTM+Attention的分类模型。
图5为本发明中结合BERT的分类模型。
图6为本发明中2021年1月22日新浪微博的热搜榜1-25条详情。
图7为本发明中2021年1月22日新浪微博的热搜榜26-50条详情。
图8为本发明中相关事件识别结果样例图。
具体实施方式
下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种基于深度学习面向公检法领域的相关事件识别方法,所述识别方法包括以下步骤:
步骤1:采集网络上各种热点信息标题,进行非中文、非英文字符和非数字符号的清理并存储在数据库中;
步骤2:对步骤1数据库中的热点信息标题采用文本分类技术及深度学习进行识别是否与公检法领域相关;
步骤3:对步骤1数据库中的热点信息标题做出相应标识并存储。
进一步的,所述步骤1具体包括以下步骤:
步骤1.1:爬取得到原始的HTML网页文本,将其编码格式转为UTF-8编码;如果已经是,则无需转换;
步骤1.2:对于不同网站的热点信息列表,分析源码,锁定该网站热点信息所在的标签;
步骤1.3:使用Xpath语言,从HTML网页当中提取出热点信息标题文本;
步骤1.4:使用正则表达式提取出热点信息标题文本并清理非中文、非英文字符和非数字符号的信息标题;
步骤1.5:将清理过的热点信息标题按照时间顺序存储在数据库当中。
进一步的,所述步骤2具体包括以下步骤:
步骤2.1:从网络上实时获取热点舆情的短文本标题,清洗过后从中随机抽取出10,000条标题文本;
步骤2.2:基于步骤2.1随机抽取出的10,000条标题文本,进行人工标注,作为训练语料库;
检查步骤2.2人工标注文本中是否有误,若发现错误,则重新标注出错的文本;若多次检查发现没有错误,则停止标注,语料构建完成;
步骤2.3:基于步骤2.2的训练语料库将公检法相关热点事件的标题文本标注为1,不相关的标注为0。
进一步的,所述步骤2具体为:
所涉及到的深度学习方法,指的是通过对文本进行建模,学习到其中语义信息,根据该语义信息进行自然语言处理中的文本分类;
在实施过程中,基于文本表示技术将文本转化为向量的表示形式,使用Word2Vec模型进行预处理获得词向量,将词向量分别用在两个不同的深度神经网络模型对文本特征进行提取,即获取其语义表示,使用该语义表示完成分类;
所述两个模型分别是基于RCNN的识别模型和基于Bi-LSTM和注意力机制的识别模型;
搭建好模型之后,使用训练语料库进行训练;
使用训练好的三个模型的识别结果进行投票,确定某一标题文本对应的舆情事件是否属于公检法领域。
所述步骤2具体为,基于文本表示技术将文本转化为向量的表示形式,使用BERT预训练模型的识别模型进行预处理获得句子向量,即获取其语义表示,使用该语义表示完成分类。
进一步的,步骤2中使用的词向量获取方式是使用到Word2Vec模型。该模型可以达到将一个词与一个指定维度的向量一一对应效果。因为词是文本,神经网络中参与计算的是数字,因此文本形式的词不能直接参与计算,需要将其转化成数字的形式,词向量便是其中的一种。
所述Word2Vec词向量模型具体训练方式如下:
步骤W2.1:使用构建好的数据集,去掉其中重复的文本,仅保留文字部分;
步骤W2.2:使用Jieba分词技术,将每一个标题文本拆分成单个的单词;
步骤W2.3:将分词结果投入到Word2Vec模型中进行训练,得到词向量。
进一步的,所述步骤2具体包括以下步骤:所述RCNN的识别模型主要构建流程包括以下步骤是:
步骤R2.1:利用词向量,将输入到网络中的文字映射为向量,即Embedding Layer;
步骤R2.2:利用双向LSTM结构获得句子的上下文信息,并将双向LSTM获得的隐层输出和词向量拼接得到[fwOutput,wordEmbedding,bwOutput]向量,其中fwOutput是LSTM结构正向迭代的隐藏层输出结果,wordEmbedding是输入的词对应的词向量,bwOutput是LSTM结构反向迭代的隐藏层输出;将拼接后的向量非线性映射到低维;
步骤R2.3:对上述的低维向量中的每一个位置的值都取所有时序上的最大值,得到最终的特征向量;
步骤R2.4:使用线性层将步骤R2.3的Max-pooling Layer结果映射成二维向量;
步骤R2.5:使用Softmax进行分类,得到分类结果。
进一步的,所述基于Bi-LSTM和注意力机制的识别模型主要构建流程包括以下步骤:
步骤Bi2.1:利用词向量,将输入到网络中的文字映射为向量,即EmbeddingLayer;
步骤Bi2.2:将Embedding Layer的输出输入到双向LSTM当中,得到正向的输出fwOutput和反向的输出bwOutput,将两个向量拼接到一起:[fwOutput,bwOutput],用这样一个向量代表原文本的上下文语义,即LSTM Layer;
步骤Bi2.3:对步骤步骤Bi2.2得到的拼接向量计算注意力,具体公式如下:
eij=tanh(Wwhij+bw)
Figure BDA0003080756540000071
其中的,Ww,bw,uw是待学习参数,aij代表最后的注意力分布,即第i个句子中第j个词的注意力数值,即AttentionLayer;
步骤Bi2.4:使用注意力结果和拼接向量[fwOutput,bwOutput]加权求和,输入到线性层得到最后的网络输出Output,经过Softmax函数得到分类结果,即LinearLayer和Output Layer。
进一步的,使用BERT网络结构作为模型核心。模型使用到预训练模型BERT,是谷歌在2018年发布的开源模型,本次使用到的版本是BERT-Base,其参数设置如下:中文词表大小:21128;网络层次数目:12层;隐藏层神经元数目:768;多头注意力数目:12。所述基于BERT预训练模型的识别模型主要构建流程包括以下步骤:
步骤BE2.1:将文本按照BERT要求的格式输入到BERT模型中,经过BERT的计算得到特征向量feature,该向量代表了文本的语义,即BERTLayer;
步骤BE2.2:将该特征向量经过一层线性连接层映射为一个2维的向量output,即LinearLayer;
步骤BE2.3:步骤BE2.2的output向量经过一层Softmax层,得到分类结果。
进一步,所述步骤2对步骤1的数据集,按照8:2的比例分成两部分,分别作为训练模型的训练集和测试集,其中,三个模型在训练时使用的优化器均为Adam,神经网络的损失函数均为交叉熵损失函数(针对二分类问题),其中交叉熵损失函数的具体定义如下:
loss=-ylogy'-(1-y)log(1-y')
其中,y代表实际的人工标注的标签,y'代表模型的预测结果。
步骤2中使用的投票是指,针对某一个热点信息标题文本,三个模型都有自己的识别结果,要么为“1”,要么为“0”。所谓的投票即取三个识别结果中较多的类别作为该短文本最终识别结果。例如三个模型中有两个或者三个模型识别结果相同,均为“1”,那么该文本的最终识别结果即为“1”——属于公检法领域;相反若有两个或者三个模型识别结果相同,均为“0”,那么该文本的最终识别结果即为“0”——不属于公检法领域。
步骤3中所使用的数据库是MongoDB数据库,以字典的形式存储数据。在数据库中,根据模型的识别结果,为每一个热点信息标题进行标识,并挑选出热点信息文本标识为“1”的文本,按照时间由近到远的顺序排列存储在另一个数据库中,方便随时查找。
实施例2
如图1所示,使用本发明搭建的系统分为两个部分:算法部分和数据存储部分。算法部分主要包括HTML网页获取、热点标题文本提取和清洗、模型识别、模型投票进行标识四部分;数据存储部分主要是在爬取到网页上的热点信息标题后进行存储以及算法端识别之后更新数据库中的标识两部分。
图6和图7是2021年1月22日新浪微博的热搜榜,两张图中分别截取了热搜榜的前25条热搜和后25条热搜,共计50条热搜。
本发明所实现的系统启动之后,会先加载预先训练好的三个模型到内存当中;之后启动爬虫模块,实时采集网络舆情热点信息,主要涉及到的网站包括微博、百度、搜狐、微信等,将热点短文本暂存在系统数据库中,本例子中只是用了微博作为示例,但是并不代表另外几个网站没有获取到;
爬虫进程将爬取到的热点信息标题(这里实际上是微博热搜的标题)存储在系统数据库中;同时另一进程从系统数据库依次取出热点信息标题文本,使用内存中加载好的三个模型进行识别,并使用“投票”的方式决定最终该文本描述的事件是否属于公检法领域。识别结束后该进程会更新数据库系统中该文本对应的表示,并且将属于公检法领域的热点短文本,存储在系统数据库中指定的集合中;
当以上过程中中发生异常时,后台算法部分和爬虫部分终止,退出系统。
发明最终的实际运行结果可见图8所示。根据识别的结果可以看见在50个微博热搜中,系统识别出其中的6个与公检法领域相关的热搜,占全部的12.0%。相关工作人员只需从数据库中或者使用浏览器进行查询,即可获得所需信息,完全无需逐个查看。实例中只展示了微博热搜的50条,实际上每天产生的各种热点信息是上百甚至接近上千条,使用本发明进行筛选,用户工作量的减少将是十分可观的。并且,可以看出如果本系统和其他舆情分析系统相结合,可以有针对性地筛选出公检法领域的舆情进行单独分析,实现智能化、快速化、定制化分析,提高用户工作效率。

Claims (10)

1.一种基于深度学习面向公检法领域的相关事件识别方法,其特征在于,所述识别方法包括以下步骤:
步骤1:采集网络上各种热点信息标题,进行非中文和英文字符的清理并存储在数据库中;
步骤2:对步骤1数据库中的热点信息标题采用文本分类技术及深度学习进行识别是否与公检法领域相关;
步骤3:对步骤1数据库中的热点信息标题做出相应标识并存储。
2.根据权利要求1所述一种基于深度学习面向公检法领域的相关事件识别方法,其特征在于,所述步骤1具体包括以下步骤:
步骤1.1:爬取得到原始的HTML网页文本,将其编码格式转为UTF-8编码;
步骤1.2:对于不同网站的热点信息列表,分析源码,锁定该网站热点信息所在的标签;
步骤1.3:使用Xpath语言,从HTML网页当中提取出热点信息标题文本;
步骤1.4:使用正则表达式提取出热点信息标题文本并清理非中文、非英文字符和非数字符号的信息标题;
步骤1.5:将清理过的热点信息标题按照时间顺序存储在数据库当中。
3.根据权利要求2所述一种基于深度学习面向公检法领域的相关事件识别方法,其特征在于,所述步骤2具体包括以下步骤:
步骤2.1:从网络上实时获取热点舆情的短文本标题,清洗过后从中随机抽取出10,000条标题文本;
步骤2.2:基于步骤2.1随机抽取出的10,000条标题文本,进行人工标注,作为训练语料库;
步骤2.3:基于步骤2.2的训练语料库将公检法相关热点事件的标题文本标注为1,不相关的标注为0。
4.根据权利要求3所述一种基于深度学习面向公检法领域的相关事件识别方法,其特征在于,所述步骤2具体为:
基于文本表示技术将文本转化为向量的表示形式,使用Word2Vec模型进行预处理获得词向量,将词向量分别用在两个不同的深度神经网络模型对文本特征进行提取,即获取其语义表示,使用该语义表示完成分类;
所述两个模型分别是基于RCNN的识别模型和基于Bi-LSTM和注意力机制的识别模型;
搭建好模型之后,使用训练语料库进行训练;
使用训练好的三个模型的识别结果进行投票,确定某一标题文本对应的舆情事件是否属于公检法领域。
5.根据权利要求3所述一种基于深度学习面向公检法领域的相关事件识别方法,其特征在于,所述步骤2具体为,基于文本表示技术将文本转化为向量的表示形式,使用BERT预训练模型的识别模型进行预处理获得句子向量,即获取其语义表示,使用该语义表示完成分类。
6.根据权利要求4所述一种基于深度学习面向公检法领域的相关事件识别方法,其特征在于,所述Word2Vec词向量模型具体训练方式如下:
步骤W2.1:使用构建好的数据集,去掉其中重复的文本,仅保留文字部分;
步骤W2.2:使用Jieba分词技术,将每一个标题文本拆分成单个的单词;
步骤W2.3:将分词结果投入到Word2Vec模型中进行训练,得到词向量。
7.根据权利要求4所述一种基于深度学习面向公检法领域的相关事件识别方法,其特征在于,所述步骤2具体包括以下步骤:所述RCNN的识别模型主要构建流程包括以下步骤是:
步骤R2.1:利用词向量,将输入到网络中的文字映射为向量,即Embedding Layer;
步骤R2.2:利用双向LSTM结构获得句子的上下文信息,并将双向LSTM获得的隐层输出和词向量拼接得到[fwOutput,wordEmbedding,bwOutput]向量,其中fwOutput是LSTM结构正向迭代的隐藏层输出结果,wordEmbedding是输入的词对应的词向量,bwOutput是LSTM结构反向迭代的隐藏层输出;将拼接后的向量非线性映射到低维;
步骤R2.3:对上述的低维向量中的每一个位置的值都取所有时序上的最大值,得到最终的特征向量;
步骤R2.4:使用线性层将步骤R2.3的Max-pooling Layer结果映射成二维向量;
步骤R2.5:使用Softmax进行分类,得到分类结果。
8.根据权利要求4所述一种基于深度学习面向公检法领域的相关事件识别方法,其特征在于,所述基于Bi-LSTM和注意力机制的识别模型主要构建流程包括以下步骤:
步骤Bi2.1:利用词向量,将输入到网络中的文字映射为向量,即Embedding Layer;
步骤Bi2.2:将Embedding Layer的输出输入到双向LSTM当中,得到正向的输出fwOutput和反向的输出bwOutput,将两个向量拼接到一起:[fwOutput,bwOutput],用这样一个向量代表原文本的上下文语义,即LSTM Layer;
步骤Bi2.3:对步骤步骤Bi2.2得到的拼接向量计算注意力,具体公式如下:
eij=tanh(Wwhij+bw)
Figure FDA0003080756530000031
其中的,Ww,bw,uw是待学习参数,aij代表最后的注意力分布,即第i个句子中第j个词的注意力数值,即AttentionLayer;
步骤Bi2.4:使用注意力结果和拼接向量[fwOutput,bwOutput]加权求和,输入到线性层得到最后的网络输出Output,经过Softmax函数得到分类结果,即LinearLayer和OutputLayer。
9.根据权利要求5所述一种基于深度学习面向公检法领域的相关事件识别方法,其特征在于,所述基于BERT预训练模型的识别模型主要构建流程包括以下步骤:
步骤BE2.1:将文本按照BERT要求的格式输入到BERT模型中,经过BERT的计算得到特征向量feature,该向量代表了文本的语义,即BERTLayer;
步骤BE2.2:将该特征向量经过一层线性连接层映射为一个2维的向量output,即Linear Layer;
步骤BE2.3:步骤BE2.2的output向量经过一层Softmax层,得到分类结果。
10.根据权利要求1所述一种基于深度学习面向公检法领域的相关事件识别方法,其特征在于,所述步骤2对步骤1的数据集,按照8:2的比例分成两部分,分别作为训练模型的训练集和测试集,其中,三个模型在训练时使用的优化器均为Adam,神经网络的损失函数均为交叉熵损失函数,其中交叉熵损失函数的具体定义如下:
loss=-ylogy'-(1-y)log(1-y')
其中,y代表实际的人工标注的标签,y'代表模型的预测结果。
CN202110566115.7A 2021-05-24 2021-05-24 一种基于深度学习面向公检法领域的相关事件识别方法 Active CN113378024B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110566115.7A CN113378024B (zh) 2021-05-24 2021-05-24 一种基于深度学习面向公检法领域的相关事件识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110566115.7A CN113378024B (zh) 2021-05-24 2021-05-24 一种基于深度学习面向公检法领域的相关事件识别方法

Publications (2)

Publication Number Publication Date
CN113378024A true CN113378024A (zh) 2021-09-10
CN113378024B CN113378024B (zh) 2023-09-01

Family

ID=77571753

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110566115.7A Active CN113378024B (zh) 2021-05-24 2021-05-24 一种基于深度学习面向公检法领域的相关事件识别方法

Country Status (1)

Country Link
CN (1) CN113378024B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113988073A (zh) * 2021-10-26 2022-01-28 迪普佰奥生物科技(上海)股份有限公司 适用于生命科学的文本识别方法和系统
CN114707517A (zh) * 2022-04-01 2022-07-05 中国人民解放军国防科技大学 一种基于开源数据事件抽取的目标跟踪方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109857865A (zh) * 2019-01-08 2019-06-07 北京邮电大学 一种文本分类方法及系统
CN110334210A (zh) * 2019-05-30 2019-10-15 哈尔滨理工大学 一种基于bert与lstm、cnn融合的中文情感分析方法
CN111143563A (zh) * 2019-12-27 2020-05-12 电子科技大学 基于bert与lstm及cnn融合的文本分类方法
CN111538836A (zh) * 2020-04-22 2020-08-14 哈尔滨工业大学(威海) 一种识别文本类广告中金融广告的方法
CN111814465A (zh) * 2020-06-17 2020-10-23 平安科技(深圳)有限公司 基于机器学习的信息抽取方法、装置、计算机设备及介质
US20200364860A1 (en) * 2019-05-16 2020-11-19 Retrace Labs Artificial Intelligence Architecture For Identification Of Periodontal Features
CN112434156A (zh) * 2020-11-02 2021-03-02 浙江大有实业有限公司杭州科技发展分公司 基于混合文本分类模型的电网作业告警方法及装置
CN112766359A (zh) * 2021-01-14 2021-05-07 北京工商大学 一种面向食品安全舆情的字词双维度微博谣言识别方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109857865A (zh) * 2019-01-08 2019-06-07 北京邮电大学 一种文本分类方法及系统
US20200364860A1 (en) * 2019-05-16 2020-11-19 Retrace Labs Artificial Intelligence Architecture For Identification Of Periodontal Features
CN110334210A (zh) * 2019-05-30 2019-10-15 哈尔滨理工大学 一种基于bert与lstm、cnn融合的中文情感分析方法
CN111143563A (zh) * 2019-12-27 2020-05-12 电子科技大学 基于bert与lstm及cnn融合的文本分类方法
CN111538836A (zh) * 2020-04-22 2020-08-14 哈尔滨工业大学(威海) 一种识别文本类广告中金融广告的方法
CN111814465A (zh) * 2020-06-17 2020-10-23 平安科技(深圳)有限公司 基于机器学习的信息抽取方法、装置、计算机设备及介质
CN112434156A (zh) * 2020-11-02 2021-03-02 浙江大有实业有限公司杭州科技发展分公司 基于混合文本分类模型的电网作业告警方法及装置
CN112766359A (zh) * 2021-01-14 2021-05-07 北京工商大学 一种面向食品安全舆情的字词双维度微博谣言识别方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
SHUMEI ZHANG ET AL.: "Real-time human posture recognition using an adaptive hybrid classifier", 《INTERNATIONAL JOURNAL OF MACHINE LEARNING AND CYBERNETICS》, pages 1 - 5 *
孙彦雄 等: "面向图书主题分类的随机森林算法的应用研究", 《计算机技术与发展》, vol. 30, no. 6, pages 65 - 70 *
李心雨: "细粒度的新闻文本分类方法", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
李心雨: "细粒度的新闻文本分类方法", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 2, 15 February 2021 (2021-02-15), pages 138 - 2538 *
王强: "基于标题类别语义识别的文本分类算法研究", 《电子与信息学报》 *
王强: "基于标题类别语义识别的文本分类算法研究", 《电子与信息学报》, vol. 29, no. 12, 15 December 2007 (2007-12-15), pages 2885 - 2890 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113988073A (zh) * 2021-10-26 2022-01-28 迪普佰奥生物科技(上海)股份有限公司 适用于生命科学的文本识别方法和系统
CN114707517A (zh) * 2022-04-01 2022-07-05 中国人民解放军国防科技大学 一种基于开源数据事件抽取的目标跟踪方法
CN114707517B (zh) * 2022-04-01 2024-05-03 中国人民解放军国防科技大学 一种基于开源数据事件抽取的目标跟踪方法

Also Published As

Publication number Publication date
CN113378024B (zh) 2023-09-01

Similar Documents

Publication Publication Date Title
CN109543084B (zh) 一种建立面向网络社交媒体的隐蔽敏感文本的检测模型的方法
CN110110054B (zh) 一种基于深度学习的从非结构化文本中获取问答对的方法
CN108984775B (zh) 一种基于商品评论的舆情监控方法及系统
CN112163424A (zh) 数据的标注方法、装置、设备和介质
CN105740227A (zh) 一种求解中文分词中新词的遗传模拟退火方法
CN115952291B (zh) 基于多头自注意力及lstm的金融舆情分类方法及系统
CN111191051B (zh) 一种基于中文分词技术的应急知识图谱的构建方法及系统
CN114781392A (zh) 一种基于bert改进模型的文本情感分析方法
CN113360582B (zh) 基于bert模型融合多元实体信息的关系分类方法及系统
CN113378024A (zh) 一种基于深度学习面向公检法领域的相关事件识别方法
CN111259153A (zh) 一种完全注意力机制的属性级情感分析方法
CN111858842A (zh) 一种基于lda主题模型的司法案例筛选方法
CN114881043B (zh) 基于深度学习模型的法律文书语义相似度评估方法及系统
CN112100212A (zh) 一种基于机器学习和规则匹配的案件情节抽取方法
CN111325018A (zh) 一种基于web检索和新词发现的领域词典构建方法
CN113806547A (zh) 一种基于图模型的深度学习多标签文本分类方法
CN113158075A (zh) 融合评论的多任务联合谣言检测方法
CN115510180A (zh) 一种面向多领域的复杂事件要素抽取方法
CN114416991A (zh) 一种基于prompt的文本情感原因分析方法和系统
CN116628173B (zh) 一种基于关键字提取的智能客服信息生成系统及生成方法
CN117390198A (zh) 构建电力领域科技知识图谱的方法、装置、设备及介质
CN116975161A (zh) 电力设备局放文本的实体关系联合抽取方法、设备、介质
TW202034207A (zh) 使用意圖偵測集成學習之對話系統及其方法
CN115952794A (zh) 融合双语敏感词典和异构图的汉泰跨语言敏感信息识别方法
CN112579666A (zh) 智能问答系统和方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant