CN110362828A - 网络资讯风险识别方法及系统 - Google Patents

网络资讯风险识别方法及系统 Download PDF

Info

Publication number
CN110362828A
CN110362828A CN201910639656.0A CN201910639656A CN110362828A CN 110362828 A CN110362828 A CN 110362828A CN 201910639656 A CN201910639656 A CN 201910639656A CN 110362828 A CN110362828 A CN 110362828A
Authority
CN
China
Prior art keywords
data
sequence vector
risk
network information
entry
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910639656.0A
Other languages
English (en)
Other versions
CN110362828B (zh
Inventor
曹广溥
盛丽晔
姚颖
刘漱琰
周寅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN201910639656.0A priority Critical patent/CN110362828B/zh
Publication of CN110362828A publication Critical patent/CN110362828A/zh
Application granted granted Critical
Publication of CN110362828B publication Critical patent/CN110362828B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种网络资讯风险识别方法及系统,该方法包括:获取网络资讯数据,其中,网络资讯数据包括:结构化数据和非结构化数据;对网络资讯数据进行归一化处理,并将归一化结果存储至语料特征库,其中,归一化结果包括结构化数据对应的归一化结果和非结构化数据对应的词条向量序列;将非结构化数据对应的词条向量序列输入到预先训练得到的文档向量序列生成模型,输出非结构化数据对应的文档向量序列;将结构化数据对应的归一化结果和非结构化数据对应的文档向量序列,输入到预先训练得到的风险预测模型,输出网络资讯数据的风险预测结果,其中,风险预测结果还用于更新所述语料特征库。实现了快速、准确地识别出企业风险的作用。

Description

网络资讯风险识别方法及系统
技术领域
本发明涉及互联网领域,尤其涉及一种网络资讯风险识别方法及系统。
背景技术
本部分旨在为权利要求书中陈述的本发明实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
随着互联网技术的快速发展,尤其是大数据时代的到来,网络上有关企业的信息也越来越多,而这些信息大部分是非结构化的、尚未被有效利用的,因此,如何从这些海量非结构化信息中挖掘出有关企业风险的相关信息,并将其转化为结构化数据用于直观表征企业风险状况,对于及时了解企业的网络资讯风险状况,提高企业防范风险的能力具有十分重要的意义。
目前,大多数企业都是采用基于专家定制的话术规则库来实现企业网络资讯风险模型,进行互联网信息的风险识别与提取,即以特定关键词为要素,根据专家制定的话术规则来建立话术规则库,并以此话术规则库为基础建立风险规则模型,来判定网络资讯为正面信息或是负面信息。这种方式,一方面过度依赖专家自身的经验和能力,专家鉴别能力的高低直接导致了语料特征库的广度与深度,从而影响了模型的准确性;另一方基于人工的话术规则库不足以应对海量复杂、快速变化的互联网资讯数据,无法快速及时更新特征库,出现规则模型固化无法快速响应网络资讯快速变化的特征。
发明内容
本发明实施例提供一种网络资讯风险识别方法,用以现有网络资讯风险识别方法基于专家维护的特征库或基于人工的话术规则库,由于更新效率低导致无法识别最新风险信息的技术问题,该方法包括:获取网络资讯数据,其中,网络资讯数据包括:结构化数据和非结构化数据;对网络资讯数据进行归一化处理,并将归一化结果存储至语料特征库,其中,归一化结果包括结构化数据对应的归一化结果和非结构化数据对应的词条向量序列;将非结构化数据对应的词条向量序列输入到预先训练得到的文档向量序列生成模型,输出非结构化数据对应的文档向量序列;将结构化数据对应的归一化结果和非结构化数据对应的文档向量序列,输入到预先训练得到的风险预测模型,输出网络资讯数据的风险预测结果,其中,风险预测结果还用于更新所述语料特征库。
本发明实施例还提供一种网络资讯风险识别系统,用以现有网络资讯风险识别方法基于专家维护的特征库或基于人工的话术规则库,由于更新效率低导致无法识别最新风险信息的技术问题,该系统包括:数据采集处理单元,用于采集网络资讯数据,其中,网络资讯数据包括:结构化数据和非结构化数据;数据归一化处理单元,与数据采集处理单元连接,用于对网络资讯数据进行归一化处理,并将归一化结果存储至语料特征库,其中,归一化结果包括结构化数据对应的归一化结果和非结构化数据对应的词条向量序列;文档向量序列生成单元,与语料特征库连接,用于基于预先训练得到的文档向量序列生成模型,对非结构化数据对应的词条向量序列进行处理,生成非结构化数据对应的文档向量序列;风险模型训练单元,与文档向量序列生成单元和语料特征库分别连接,用于接收文档向量序列生成单元输出的文档向量序列,以及从语料特征库中查找结构化数据对应的归一化结果,并基于预先训练得到的风险预测模型,对结构化数据对应的归一化结果和非结构化数据对应的文档向量序列进行处理,得到网络资讯数据的风险预测结果,其中,风险预测结果还用于更新所述语料特征库。
本发明实施例还提供一种计算机设备,用以现有网络资讯风险识别方法基于专家维护的特征库或基于人工的话术规则库,由于更新效率低导致无法识别最新风险信息的技术问题,该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述网络资讯风险识别方法。
本发明实施例还提供一种计算机可读存储介质,用以现有网络资讯风险识别方法基于专家维护的特征库或基于人工的话术规则库,由于更新效率低导致无法识别最新风险信息的技术问题,该计算机可读存储介质存储有执行上述网络资讯风险识别方法的计算机程序。
本发明实施例中,在获取到网络资讯数据后,对网络资讯数据进行归一化处理,并将网络资讯数据中结构化数据的归一化结果和非结构化数据对应的词条向量序列存储至语料特征库,基于预先训练得到的文档向量序列生成模型,根据非结构化数据对应的词条向量序列生成非结构化数据对应的文档向量序列;最后基于预先训练得到的风险预测模型,根据网络资讯数据中结构化数据对应的归一化结果,以及非结构化数据对应的文档向量序列,对网络资讯数据的企业风险进行预测,得到该网络资讯数据对应的风险预测结果。
通过本发明实施例,能够实现快速、准确地从海量网络资讯数据中识别出企业风险的技术效果。由于本发明根据网络资讯数据识别得到的风险预测结果对语料特征库进行更新,能够实现及时响应网络资讯的变化,并可持续扩大模型风险预测覆盖范围,提升网络资讯风险识别能力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本发明实施例中提供的一种网络资讯风险识别系统示意图。
图2为本发明实施例中提供的一种网络资讯风险识别系统的神经网络模型示意图。
图3为本发明实施例中提供的一种网络资讯风险识别系统的神经网络模型结构示意图。
图4为本发明实施例中提供的一种网络资讯风险识别方法示意图。
图5为本发明实施例中提供的一种网络资讯风险识别方法的词频指数表。
图6为本发明实施例中提供的一种网络资讯风险识别方法的风险鉴定结果示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
本发明实施例中提供了一种网络资讯风险识别系统,图1为本发明实施例中提供的一种网络资讯风险识别系统示意图,如图1所示,该系统包括:数据采集处理单元101、数据归一化处理单元102、文档向量序列生成单元103和风险模型训练单元104。
其中,数据采集处理单元101,用于采集网络资讯数据,其中,网络资讯数据包括:结构化数据和非结构化数据;数据归一化处理单元102,与数据采集处理单元101连接,用于对网络资讯数据进行归一化处理,并将归一化结果存储至语料特征库,其中,归一化结果包括结构化数据对应的归一化结果和非结构化数据对应的词条向量序列;文档向量序列生成单元103,与语料特征库12连接,用于基于预先训练得到的文档向量序列生成模型,对非结构化数据对应的词条向量序列进行处理,生成非结构化数据对应的文档向量序列;风险模型训练单元104,与文档向量序列生成单元103和语料特征库12分别连接,用于接收文档向量序列生成单元103输出的文档向量序列,以及从语料特征库12中查找结构化数据对应的归一化结果,并基于预先训练得到的风险预测模型,对结构化数据对应的归一化结果和非结构化数据对应的文档向量序列进行处理,得到网络资讯数据的风险预测结果,其中,风险预测结果还用于更新所述语料特征库。
如图1所示,数据采集处理单元101负责清洗已有文档,提取高TF-IDF值词条,并以此为关键词从各大门户网站爬取网络资讯数据,包括非结构化数据(资讯文本信息)及结构化数据(资讯相关属性),并将所有数据(包括已有文档信息和网络爬取的网络资讯数据)存入基础文档库11。所述清洗,是指对已有文档进行分词、去停用词等处理。所述资讯相关属性,是指资讯是否在首页出现、资讯源自门户网站或是论坛、各个网站转发量、新闻发酵持续时间等。所述基础文档库11用于存储简单清洗后的数据,包括已有文档信息及爬取的网络资讯数据。所述已有文档信息,是指业务部门积累的企业相关的资讯。所述网络资讯数据,是指从各大门户网站爬取资讯文本信息(非结构化数据)及资讯相关属性(结构化数据)。
前述的数据归一化处理单元102,与数据采集处理单元101连接,用于对网络资讯数据进行归一化处理,并将归一化结果存储至语料特征库12,其中,所述归一化结果包括所述结构化数据对应的归一化结果和所述非结构化数据对应的词条向量序列;在实施例中,数据归一化处理单元102与数据采集处理单元101连接,包括数据归一化处理单元102连接基础文档库11,基础文档库11连接数据采集处理单元11;数据归一化处理单元102对网络资讯数据进行归一化处理,可以包括:数据归一化处理单元102连接基础文档库11,通过Word2Vec等工具计算基础文档库11中存储的非结构化数据(各资讯文本信息),得出对应非结构化数据的高TF-IDF词条向量序列,存入语料特征库12;对结构化数据(资讯相关属性信息)进行归一化处理,将结构化数据对应的归一化结果存入语料特征库12。语料特征库12存储高TF-IDF词条向量序列和结构化数据对应的归一化结果。所述高TF-IDF词条向量序列由资讯文档信息中高TF-IDF词条向量组成,代表资讯文档信息的含义。
文档向量序列生成单元103,与所述语料特征库12连接,用于基于预先训练得到的文档向量序列生成模型,对非结构化数据对应的词条向量序列进行处理,生成所述非结构化数据对应的文档向量序列;在实施例中,在对非结构化数据对应的词条向量序列进行处理生成所述非结构化数据对应的文档向量序列之前,需要对文档向量序列生成单元103的文档向量序列生成模型进行训练;训练方法可以包括:获取第一训练样本数据,其中,前述第一训练样本数据包括:多组词条向量序列和词条正负面标签;根据前述第一训练样本数据,通过机器学习训练得到文档向量序列生成模型。前述的多组词条向量序列和词条正负面标签是从连接的语料特征库12中获取,其中,词条向量序列是数据归一化处理单元对网络资讯归一化处理得到的归一化结果,词条正负面标签是由信息标注单元3对词条进行标注的结果。在根据所述第一训练样本数据,通过机器学习训练得到文档向量序列生成模型之后,还包括:获取第一验证样本数据,其中,所述第一验证样本数据包括:多组词条向量序列和词条正负面标签;将所述第一验证样本数据中的词条向量序列输入到所述文档向量序列生成模型,输出所述第一验证样本数据中词条向量序列对应的词条正负面标签;将所述第一验证样本数据中的词条正负面标签与所述文档向量序列生成模型输出的词条正负面标签进行比较;根据比较结果,对所述文档向量序列生成模型进行验证。在具体实施时,前述的机器学习训练可以是神经网络模型的训练。在实施例中,文档向量序列生成单元103,通过神经网络模型训练得出文档向量序列13。所述神经网络模型的输入层,是指语料特征库12中高TF-IDF值词条向量序列,所述神经网络模型的输出层为信息标注单元105标注的词条向量序列的正负面标签,提取神经网络模型的隐含层向量序列作为文档向量序列13,并传入风险模型训练单元104作为输入数据,进行企业资讯风险预测。
风险模型训练单元104,与所述文档向量序列生成单元13和所述语料特征库12分别连接,用于接收所述文档向量序列生成单元13输出的文档向量序列,以及从所述语料特征库12中查找所述结构化数据对应的归一化结果,并基于预先训练得到的风险预测模型,对所述结构化数据对应的归一化结果和所述非结构化数据对应的文档向量序列进行处理,得到所述网络资讯数据的风险预测结果,其中,所述风险预测结果还用于更新所述语料特征库。
在将所述结构化数据对应的归一化结果和所述非结构化数据对应的文档向量序列,输入到预先训练得到的风险预测模型,输出所述网络资讯数据的风险预测结果之前,需要对风险模型训练单元104的风险预测模型进行训练;训练方法可以包括:获取第二训练样本数据,其中,所述第二训练样本数据包括:多组文档向量序列和文档风险分级标签;根据所述第二训练样本数据,通过机器学习训练得到风险预测模型。其中,前述的文档向量序列是由文档向量序列生成单元13传送来的,前述的文档风险分级标签是由信息标注单元3对文档向量序列进行标注的结果。在根据所述第二训练样本数据,通过机器学习训练得到风险预测模型后,还可以包括:获取第二验证样本数据,其中,所述第二验证样本数据包括:多组词条向量序列和词条正负面标签;将所述第二验证样本数据中的词条向量序列输入到所述风险预测模型,输出所述第二验证样本数据中词条向量序列对应的词条正负面标签;将所述第二验证样本数据中的词条正负面标签与所述风险预测模型输出的词条正负面标签进行比较;根据比较结果,对所述风险预测模型进行验证。在具体实施时,前述的机器学习训练可以是神经网络模型的训练。在实施例中,风险模型训练单元104接收语料特征库12中结构化数据对应的归一化结果(归一化后的数据)和非结构化数据对应的文档向量序列13,同时从语料特征库12中提取结构化数据,对文档向量序列13及结构化数据进行拼接处理,将拼接序列作为神经网络的输入层,将文档信息标签作为输出层,对神经网络模型进行训练,预测资讯风险分级,并将网络资讯数据的风险预测结果与从语料特征库12中获取的结构化数据对应的归一化结果建立经验公式,用于将所有数据拟合,从而预测企业风险分级。前述经验公式:
I=A*xyzmn+B
其中,x为重要性(是否首页出现)归一化后的数据;y为来源(门户或者论坛)归一化后的数据;z为网站转发量归一化后的数据;m为新闻发酵持续时间归一化后的数据;n为资讯风险分级;A、B为待定系数,由业务具体场景确定。
为了实现对语料特征库的实时更新,本发明实施例提供的网络资讯风险识别系统还可以包括:语料特征库更新单元105,与风险模型训练单元104连接,用于在网络资讯数据的预测概率大于或等于阈值的情况下,根据网络资讯数据中非结构化数据对应的词条向量序列,更新语料特征库;信息标注单元106,与语料特征库更新单元105连接,用于在网络资讯数据的预测概率低于阈值的情况下,对网络资讯数据中非结构化数据对应的词条向量序列进行标注,并根据标注结果更新语料特征库。
为了实现上述机器学习训练的功能,如图3本发明实施例中提供的一种网络资讯风险识别系统的神经网络模型结构示意图所示,本发明实施例提供神经网络模型包括输入层、隐含层(或中间层)和输出层;为了实现上述文档向量序列生成单元103和风险模型训练单元104的机器学习训练的功能,本发明实施例提供一种神经网络模型,如图2本发明实施例中提供的一种网络资讯风险识别系统的神经网络模型示意图所示,本发明实施例的网络资讯风险识别系统的神经网络可以包括:模型输入单元201,模型训练单元202,模型预测单元203,模型验证单元204,模型修正单元205:
模型输入单元201,用于将向量序列作为模型的输入层,对应的标签作为模型的输出层。所述向量序列,在文档向量序列生成单元103中指的是词条向量序列,在风险模型训练单元104中指的是文档向量序列;所述标签,是指文档向量序列生成单元103中的词条正负面标签和风险模型训练单元104中风险分级标签;
模型训练单元202,在文档向量序列生成单元103中,是用于通过输入层、输出层数据反向求解模型隐含层矩阵序列,将误差值缩小至设定值以下,保存训练后得到的神经网络模型及隐含层矩阵序列;在风险模型训练单元104中,是用于通过输入层、隐含层数据,求解输出层的风险分级标签数据,将误差值缩小至设定值以下,保存训练后得到的神经网络模型和输出层的风险分级标签数据;
模型预测单元203,用于将作为验证样本数据的向量序列输入训练后的神经网络模型,得到训练后标签数据;在文档向量序列生成单元103中训练后的标签数据为词条正负面标签,在风险模型训练单元104中中训练后的标签数据为风险分级标签;
模型验证单元204,用于将训练后预测标签数据与信息标注单元标注的标签数据进行比较,获得训练后标签分级概率与分级准确度的相关关系;
模型修正单元205,用于更新神经网络模型,在语料特征库新单元105中大于或等于阈值条件的语料会直接纳入语料特征库12,不满足的会重新信息标注后纳入语料特征库12,当语料特征库12数据量级提高设定百分比时,重新训练神经网络模型;前述设定百分比,在一个实例中可以是10%。
在上述神经网络模型中,文档向量序列生成单元103通过输入层和输出层反向求解隐含层,输出的是神经网络模型的隐含层,使用隐含层矩阵序列表征文档;风险模型训练单元104通过输入层和隐含层正向求解输出层,输出的是神经网络模型的输出层,直接使用输出层的结果用于风险分级。
如图1所示,语料特征库更新单元105,负责设置分级阈值,将大于或等于阈值的网络资讯数据中非结构化数据对应的词条向量序列,直接纳入语料特征库12,将小于阈值的数据转入信息标注单元3,重新标注后再纳入语料特征库11和文档向量系序列13;前述的分级阈值,在具体实施时需要经过经验调整,例如先设定阈值为0.8,在风险预测模型模型效果较好的情况下可以向下调整,如果风险预测模型模型效果不好的情况下可以向上调整,该分级阈值由技术人员根据实际效果设定。
如图1所示,信息标注单元106与语料特征库更新单元105连接,负责对语料特征库12中非结构化数据(高TF-IDF词条向量序列及资讯文档信息)进行标注,并将信息整合储存在语料特征库12中,其中高TF-IDF词条向量序列、词条正负面标签传入文档向量序列生成单元103,用于生成文档向量序列13;结构化数据对应的归一化结果、文档向量序列生成单元103生成的文档向量序列13、风险分级标签传入风险模型训练单元104,用于风险预测。所述风险分级标签,是指对高TF-IDF词条向量序列(资讯文档信息)进行风险级别标注,如无危、低危、高危等。所述词条正负面标签,是指对文档提取的高TF-IDF值词条进行正负面标注,如正面、负面、无偏向等。所述信息整合,是指将信息整合成高TF-IDF词条向量序列(资讯文档信息)-文档标注、词条信息-词条标注格式重新存储在语料特征库12中。
为了可视化的显示风险模型训练单元104输出的风险预测结果,本发明实施例还可以包括预测结果展现单元104,连接风险模型训练单元104,采用可视化技术将风险模型训练单元104输出的风险预测结果进行直观的展现,并推送至相关业务人员。同时,还可以按照实际场景需求以图表的方式多维度呈现结果,按照业务需求进行推送,实现对风险事件的及时预警。
在本发明的另外一个实施例中,如图1所示数据采集处理单元101与基础文档库11连接,将获取的网络资讯数据存入基础文档库11;基础文档库11与数据归一化处理单元102相连,将简单清洗后的数据传入数据归一化处理单元102;数据归一化处理单元102与语料特征库12连接;语料特征库12与文档向量序列生成单元103、风险模型训练单元104相连,将非结构化数据进行向量化处理得到词条向量序列,传入文档向量序列生成单元103,将结构化数据进行归一化处理并传入风险模型训练单元104;文档向量序列生成单元103与风险模型训练单元104相连,将词条向量序列处理为文档向量序列13并传入风险模型训练单元104;风险模型训练单元104与预测结果展现单元107相连,将风险分级数据传入预测结果展现单元107;风险模型训练单元104还与语料特征库更新单元105连接,将风险分级数据传入语料特征库更新单元105;语料特征库更新单元105与语料特征库12、信息标注单元106、文档向量序列13相连,将大于或等于阈值的风险分级数据传入语料特征库12,将小于阈值的风险分级数据传入信息标注单元106;信息标注单元106与语料特征库12、文档向量序列13相连,对小于阈值的风险分级数据(词条向量和文档向量)重新标注,将标注后的词条向量传入语料特征库12,将标注后的文档向量传入文档向量序列13。
本发明实施例中还提供了一种AN、NAS及ANCP系统,如下面的实施例所述。由于这些设备解决问题的原理与用户流量的调度控制方法相似,因此这些设备的实施可以参见方法的实施,重复之处不再赘述。
本发明实施例中还提供了一种网络资讯风险识别方法,如下面的实施例所述。由于该方法解决问题的原理与一种网络资讯风险识别方法系统相似,因此该方法的实施可以参见一种网络资讯风险识别方法系统的实施,重复之处不再赘述。
图4为本发明实施例中提供的一种网络资讯风险识别方法示意图,如图5所示,本发明实施例的网络资讯风险识别方法可以包括如下步骤:
S401,获取网络资讯数据,其中,网络资讯数据包括:结构化数据和非结构化数据;
S402,对网络资讯数据进行归一化处理,并将归一化结果存储至语料特征库,其中,归一化结果包括结构化数据对应的归一化结果和非结构化数据对应的词条向量序列;
S403,将非结构化数据对应的词条向量序列输入到预先训练得到的文档向量序列生成模型,输出非结构化数据对应的文档向量序列。
作为一种可选的实施方式,在将非结构化数据对应的词条向量序列输入到预先训练得到的文档向量序列生成模型,输出非结构化数据对应的文档向量序列之前,本发明实施例提供的网络资讯风险识别方法还可以包括如下步骤:获取第一训练样本数据,其中,第一训练样本数据包括:多组词条向量序列和词条正负面标签;根据第一训练样本数据,通过机器学习训练得到文档向量序列生成模型。
进一步地,在根据第一训练样本数据,通过机器学习训练得到文档向量序列生成模型之后,本发明实施例提供的网络资讯风险识别方法还可以包括如下步骤:获取第一验证样本数据,其中,第一验证样本数据包括:多组词条向量序列和词条正负面标签;将第一验证样本数据中的词条向量序列输入到文档向量序列生成模型,输出第一验证样本数据中词条向量序列对应的词条正负面标签;将第一验证样本数据中的词条正负面标签与文档向量序列生成模型输出的词条正负面标签进行比较;根据比较结果,对文档向量序列生成模型进行验证。
S404,将结构化数据对应的归一化结果和非结构化数据对应的文档向量序列,输入到预先训练得到的风险预测模型,输出网络资讯数据的风险预测结果,其中,风险预测结果还用于更新所述语料特征库。
作为一种可选的实施方式,在将结构化数据对应的归一化结果和非结构化数据对应的文档向量序列,输入到预先训练得到的风险预测模型,输出网络资讯数据的风险预测结果之前,本发明实施例提供的网络资讯风险识别方法还可以包括如下步骤:获取第二训练样本数据,其中,第二训练样本数据包括:多组文档向量序列和文档风险分级标签;根据第二训练样本数据,通过机器学习训练得到风险预测模型。
进一步地,在根据第二训练样本数据,通过机器学习训练得到风险预测模型后,本发明实施例提供的网络资讯风险识别方法还可以包括如下步骤:获取第二验证样本数据,其中,第二验证样本数据包括:多组词条向量序列和词条正负面标签;将第二验证样本数据中的词条向量序列输入到风险预测模型,输出第二验证样本数据中词条向量序列对应的词条正负面标签;将第二验证样本数据中的词条正负面标签与风险预测模型输出的词条正负面标签进行比较;根据比较结果,对风险预测模型进行验证。
为了实现对语料特征库的实时更新,本发明实施例提供的网络资讯风险识别方法还可以包括如下步骤:获取网络资讯数据的预测概率;如果预测概率大于或等于阈值,则根据网络资讯数据中非结构化数据对应的词条向量序列,更新语料特征库;如果预测概率小于阈值,则对网络资讯数据中非结构化数据对应的词条向量序列进行标注,并根据标注结果更新语料特征库。
本发明实施例还提供一种上述一种网络资讯风险识别方法在具体实施时的流程,包括:
步骤1:对已有文档进行分词、去停用词处理,筛选出高TF-IDF词条从互联网中爬取网络资讯数据,网络资讯数据包括:结构化数据(资讯相关属性)和非结构化数据(资讯文本信息);
前述词条TF-IDF值,根据如下公式进行计算:
TFIDFi,j=tfi,j×idfi
其中,TFIDFi,j表示文件dj中的词条ti的TF-IDF值,用于评估某一词条对于一个文件集或一个语料库中的某一文件的重要性;tfi,j(词频)表示词条tj在文件dj中出现的次数;idfi(逆向文件频率)表示包含词条的文档越少,idf越大,则说明词条具有很好的类别区分能力。
步骤2:使用Word2Vec等计算工具计算资讯文档非结构化数据的高TF-IDF词条向量序列,对结构化数据进行归一化处理。
步骤3:通过信息标注单元3对文档提取的高TF-IDF值词条进行正负面标注,如正面、负面、无偏向等,输入到预先训练得到的文档向量序列生成模型,提取隐含层向量序列作为文档向量序列。
如图5本发明实施例一种网络资讯风险识别方法的词频指数表所示,从《操作风险信息晨报》提取高TF-IDF值的词条,排名前四的词条分别为“钱庄”、“诈骗”、“打击”和“央行”,TF-IDF值达到了6以上。然后使用高TF-IDF值词条作为关键词,从各大门户网站爬取关键信息,如图6所示,以高TF-IDF值词条“钱庄”,从门户网站上爬取到了《涉案金额达33亿“月亮岛”网络私彩大案终被侦破》、《江苏警方破获一起特大跨国网络赌博案》等文章。
所述文本进行分词及过滤,包括将文本分离成每个中文词语和去除文本中对文意无影响的词汇。
所述通过提取神经网络模型隐含层向量序列计算文档向量,包括:
通过神经网络模型对文档内出现的高TF-IDF值词条进行词向量计算,获得词条的向量,具体地,按如下公式对每个词向量进行特征提取,获得特征提取结果:
st=tanh(U1xt+W1st-1);
ot=tanh(Usst+W2ot-1);
其中,st-1表示前一位置文档向量xt-1的初步特征;st表示当前位置文档向量xt的初步特征;ot-1表示前一位置文档向量xt-1的综合特征;ot表示当前位置文档向量xt的初步特征;U1、W1、U2、W2表示公式的权重矩阵。
取神经网络的隐含层矩阵序列作为文档向量序列,向量格式如下:
a=[x0,x1,...xT,xT-1];
其中,a表示长度为T的文档向量序列,0≤t≤T-1;xT表示当前位置文档向量;xT-1表示前一位置文档向量。
神经网络模型如图2所示,将词条向量序列作为模型的输入层,信息标注单元106标注的的词条正负面标签作为词条的输出层,提取中间隐含层作为文档向量序列,向量格式如下:
w=[x0,x1,...xn];
其中,w为文档向量序列,文档向量长度n为50。
步骤4:通过信息标注单元106对文档资讯进行风险分级标签,以文档向量序列和归一化后的资讯相关属性信息(资讯重要性,来源,转发量,发酵时间等)为基础建立语料特征库12。
步骤5:通过预先训练好的神经网络模型,得出资讯文档风险分级,将资讯文档风险分级结果与语料特征库中其他结构化数据建立经验公式,预测企业风险分级。
按如下公式根据文档向量序列中所有文档向量的特征提取结果,计算文档向量序列属于各风险等级的概率,根据所述概率判断文档向量序列的分类结果:
其中,σ(O)j表示文档向量序列属于当前分类的概率;O表示文档向量序列的特征;K表示文档向量序列包含K个风险等级分类;j表示当前风险等级。
在实施例中,还包括按如下方式将词条向量序列和分类结果数据作为样本数据对神经网络模型进行训练:
将文档向量序列作为模型的输入层,风险分级标签(存于语料特征库11)作为模型的输出层,再选择一部分文档向量序列作为验证数据来验证模型的准确率;
通过输入层、输出层数据反向求解模型隐含层矩阵序列,将误差值缩小至设定值以下,保存训练后得到的神经网络模型及隐含层矩阵序列;
将作为验证样本数据的文档向量序列输入训练后的神经网络模型,得到训练后风险级别数据;
将训练后风险级别数据与信息标注单元标注的数据进行比较,获得训练后风险分级概率与分级准确度的误差关系:
L(Y,P(Y|X))=-logP(Y|X);
P(Y|X)=1/1+e-YY'
其中,Y为信息标注结果数据;Y’为训练后结果分类数据;X为验证样本数据;P(Y|X)为训练后X样本得到正确分类的概率,L为训练后分类结果与信息标注结果之间的误差值。
步骤6:设置分级阈值,当有新的文档数据进行风险预测,预测概率大于或等于阈值时,将数据纳入训练集重新训练模型;预测概率小于阈值时,将数据纳入信息标注单元106重新标注后再纳入训练集重新训练模型。
如图6本发明实施例中提供的一种网络资讯风险识别方法的风险鉴定结果示意图所示,设置阈值为x(专家通过观察实验结果调整参数,一般设置为80%),使用训练完成的神经网络模型对文档《涉案金额达33亿“月亮岛”网络私彩大案终被侦破》进行鉴定,文档被模型鉴定为无危且预测概率大于80%,所以可以输出显示并将数据纳入语料特征库,而文档《江苏警方破获一起特大跨国网络赌博案》被预测为低危,但是预测概率低于80%,所以纳入信息标注单元3重新标注。
步骤7:风险预测结果展现,可以按照世纪场景需求图表方式多维度呈现结果,可以按业务需求,实现推送功能,实现对风险事件的及时预警。
本发明实施例还提供一种计算机设备,用以现有网络资讯风险识别方法基于专家维护的特征库或基于人工的话术规则库,由于更新效率低导致无法识别最新风险信息的技术问题,该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述网络资讯风险识别方法。
本发明实施例还提供一种计算机可读存储介质,用以现有网络资讯风险识别方法基于专家维护的特征库或基于人工的话术规则库,由于更新效率低导致无法识别最新风险信息的技术问题,该计算机可读存储介质存储有执行上述网络资讯风险识别方法的计算机程序。
综上,本发明实施例提供的在获取到网络资讯数据后,对网络资讯数据进行归一化处理,并将网络资讯数据中结构化数据的归一化结果和非结构化数据对应的词条向量序列存储至语料特征库,基于预先训练得到的文档向量序列生成模型,根据非结构化数据对应的词条向量序列生成非结构化数据对应的文档向量序列;最后基于预先训练得到的风险预测模型,根据网络资讯数据中结构化数据对应的归一化结果,以及非结构化数据对应的文档向量序列,对网络资讯数据的企业风险进行预测,得到该网络资讯数据对应的风险预测结果。通过本发明实施例,能够实现快速、准确地从海量网络资讯数据中识别出企业风险的技术效果。由于本发明根据网络资讯数据识别得到的风险预测结果对语料特征库进行更新,能够实现及时响应网络资讯的变化,同时在识别网络资讯风险的过程中,不断迭代更新语料特征库,实现及时响应网络资讯的变化,并可持续扩大模型风险预测覆盖范围,提升网络资讯风险识别能力。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种网络资讯风险识别方法,其特征在于,包括:
获取网络资讯数据,其中,所述网络资讯数据包括:结构化数据和非结构化数据;
对网络资讯数据进行归一化处理,并将归一化结果存储至语料特征库,其中,所述归一化结果包括所述结构化数据对应的归一化结果和所述非结构化数据对应的词条向量序列;
将所述非结构化数据对应的词条向量序列输入到预先训练得到的文档向量序列生成模型,输出所述非结构化数据对应的文档向量序列;
将所述结构化数据对应的归一化结果和所述非结构化数据对应的文档向量序列,输入到预先训练得到的风险预测模型,输出所述网络资讯数据的风险预测结果,其中,所述风险预测结果还用于更新所述语料特征库。
2.如权利要求1所述的方法,其特征在于,在将所述非结构化数据对应的词条向量序列输入到预先训练得到的文档向量序列生成模型,输出所述非结构化数据对应的文档向量序列之前,所述方法还包括:
获取第一训练样本数据,其中,所述第一训练样本数据包括:多组词条向量序列和词条正负面标签;
根据所述第一训练样本数据,通过机器学习训练得到文档向量序列生成模型。
3.如权利要求2所述的方法,其特征在于,在根据所述第一训练样本数据,通过机器学习训练得到文档向量序列生成模型之后,所述方法还包括:
获取第一验证样本数据,其中,所述第一验证样本数据包括:多组词条向量序列和词条正负面标签;
将所述第一验证样本数据中的词条向量序列输入到所述文档向量序列生成模型,输出所述第一验证样本数据中词条向量序列对应的词条正负面标签;
将所述第一验证样本数据中的词条正负面标签与所述文档向量序列生成模型输出的词条正负面标签进行比较;
根据比较结果,对所述文档向量序列生成模型进行验证。
4.如权利要求1所述的方法,其特征在于,在将所述结构化数据对应的归一化结果和所述非结构化数据对应的文档向量序列,输入到预先训练得到的风险预测模型,输出所述网络资讯数据的风险预测结果之前,所述方法还包括:
获取第二训练样本数据,其中,所述第二训练样本数据包括:多组文档向量序列和文档风险分级标签;
根据所述第二训练样本数据,通过机器学习训练得到风险预测模型。
5.如权利要求4所述的方法,其特征在于,在根据所述第二训练样本数据,通过机器学习训练得到风险预测模型后,所述方法还包括:
获取第二验证样本数据,其中,所述第二验证样本数据包括:多组词条向量序列和词条正负面标签;
将所述第二验证样本数据中的词条向量序列输入到所述风险预测模型,输出所述第二验证样本数据中词条向量序列对应的词条正负面标签;
将所述第二验证样本数据中的词条正负面标签与所述风险预测模型输出的词条正负面标签进行比较;
根据比较结果,对所述风险预测模型进行验证。
6.如权利要求1至5任一项所述的方法,其特征在于,在将所述结构化数据对应的归一化结果和所述非结构化数据对应的文档向量序列,输入到预先训练得到的风险预测模型,输出所述网络资讯数据的风险预测结果之后,所述方法还包括:
获取所述网络资讯数据的预测概率;
如果所述预测概率大于或等于阈值,则根据所述网络资讯数据中非结构化数据对应的词条向量序列,更新所述语料特征库;
如果所述预测概率小于阈值,则对所述网络资讯数据中非结构化数据对应的词条向量序列进行标注,并根据标注结果更新所述语料特征库。
7.一种网络资讯风险识别系统,其特征在于,包括:
数据采集处理单元,用于采集网络资讯数据,其中,所述网络资讯数据包括:结构化数据和非结构化数据;
数据归一化处理单元,与所述数据采集处理单元连接,用于对网络资讯数据进行归一化处理,并将归一化结果存储至语料特征库,其中,所述归一化结果包括所述结构化数据对应的归一化结果和所述非结构化数据对应的词条向量序列;
文档向量序列生成单元,与所述语料特征库连接,用于基于预先训练得到的文档向量序列生成模型,对所述非结构化数据对应的词条向量序列进行处理,生成所述非结构化数据对应的文档向量序列;
风险模型训练单元,与所述文档向量序列生成单元和所述语料特征库分别连接,用于接收所述文档向量序列生成单元输出的文档向量序列,以及从所述语料特征库中查找所述结构化数据对应的归一化结果,并基于预先训练得到的风险预测模型,对所述结构化数据对应的归一化结果和所述非结构化数据对应的文档向量序列进行处理,得到所述网络资讯数据的风险预测结果,其中,所述风险预测结果还用于更新所述语料特征库。
8.如权利要求7所述的系统,其特征在于,所述系统还包括:
语料特征库更新单元,与所述风险模型训练单元连接,用于在所述网络资讯数据的预测概率大于或等于阈值的情况下,根据所述网络资讯数据中非结构化数据对应的词条向量序列,更新所述语料特征库;
信息标注单元,与所述语料特征库更新单元连接,用于在所述网络资讯数据的预测概率小于阈值的情况下,对所述网络资讯数据中非结构化数据对应的词条向量序列进行标注,并根据标注结果更新所述语料特征库。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6任一所述网络资讯风险识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有执行权利要求1至6任一所述网络资讯风险识别方法的计算机程序。
CN201910639656.0A 2019-07-16 2019-07-16 网络资讯风险识别方法及系统 Active CN110362828B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910639656.0A CN110362828B (zh) 2019-07-16 2019-07-16 网络资讯风险识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910639656.0A CN110362828B (zh) 2019-07-16 2019-07-16 网络资讯风险识别方法及系统

Publications (2)

Publication Number Publication Date
CN110362828A true CN110362828A (zh) 2019-10-22
CN110362828B CN110362828B (zh) 2023-11-03

Family

ID=68219289

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910639656.0A Active CN110362828B (zh) 2019-07-16 2019-07-16 网络资讯风险识别方法及系统

Country Status (1)

Country Link
CN (1) CN110362828B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113139705A (zh) * 2020-01-17 2021-07-20 中国移动通信集团浙江有限公司 业务项目的风险识别方法及装置
CN116578877A (zh) * 2023-07-14 2023-08-11 之江实验室 一种模型训练及二次优化打标的风险识别的方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040049478A1 (en) * 2002-09-11 2004-03-11 Intelligent Results Attribute scoring for unstructured content
CN102831184A (zh) * 2012-08-01 2012-12-19 中国科学院自动化研究所 根据对社会事件的文字描述来预测社会情感的方法及系统
CN107729403A (zh) * 2017-09-25 2018-02-23 中国工商银行股份有限公司 互联网信息风险提示方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040049478A1 (en) * 2002-09-11 2004-03-11 Intelligent Results Attribute scoring for unstructured content
CN102831184A (zh) * 2012-08-01 2012-12-19 中国科学院自动化研究所 根据对社会事件的文字描述来预测社会情感的方法及系统
CN107729403A (zh) * 2017-09-25 2018-02-23 中国工商银行股份有限公司 互联网信息风险提示方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113139705A (zh) * 2020-01-17 2021-07-20 中国移动通信集团浙江有限公司 业务项目的风险识别方法及装置
CN116578877A (zh) * 2023-07-14 2023-08-11 之江实验室 一种模型训练及二次优化打标的风险识别的方法及装置
CN116578877B (zh) * 2023-07-14 2023-12-26 之江实验室 一种模型训练及二次优化打标的风险识别的方法及装置

Also Published As

Publication number Publication date
CN110362828B (zh) 2023-11-03

Similar Documents

Publication Publication Date Title
US11347782B2 (en) Internet text mining-based method and apparatus for judging validity of point of interest
WO2021103492A1 (zh) 一种企业经营风险预测方法和系统
CN104615767B (zh) 搜索排序模型的训练方法、搜索处理方法及装置
CN103491205B (zh) 一种基于视频搜索的关联资源地址的推送方法和装置
CN110516067A (zh) 基于话题检测的舆情监控方法、系统及存储介质
CN103955842B (zh) 一种面向大规模媒体数据的在线广告推荐系统及方法
CN109344285A (zh) 一种面向监控的视频图谱构建和挖掘方法、设备
CN110223168A (zh) 一种基于企业关系图谱的标签传播反欺诈检测方法及系统
CN109447364A (zh) 基于标签的电力客户投诉预测方法
CN107220386A (zh) 信息推送方法和装置
CN104182517B (zh) 数据处理的方法及装置
CN110555568B (zh) 一种基于社交网络信息的道路交通运行状态实时感知方法
CN107463704A (zh) 基于人工智能的搜索方法和装置
CN104318340A (zh) 基于文本履历信息的信息可视化方法及智能可视分析系统
CN105335496A (zh) 基于余弦相似度文本挖掘算法的客服重复来电处理方法
CN109214280A (zh) 基于街景的店铺识别方法、装置、电子设备及存储介质
CN109102157A (zh) 一种基于深度学习的银行工单派单方法及系统
CN104809105B (zh) 基于最大熵的事件论元及论元角色的识别方法及系统
CN108959305A (zh) 一种基于互联网大数据的事件抽取方法及系统
CN109472462A (zh) 一种基于多模型堆栈融合的项目风险评级方法及装置
CN111709244A (zh) 一种用于矛盾纠纷事件因果关系识别的深度学习方法
CN107329770A (zh) 针对软件安全性bug修复的个性化推荐方法
CN108062366A (zh) 公共文化信息推荐系统
CN109783629A (zh) 一种融合全局事件关系信息的微博客事件谣言检测方法
CN110362828A (zh) 网络资讯风险识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant