CN107729403A - 互联网信息风险提示方法及系统 - Google Patents

互联网信息风险提示方法及系统 Download PDF

Info

Publication number
CN107729403A
CN107729403A CN201710873298.0A CN201710873298A CN107729403A CN 107729403 A CN107729403 A CN 107729403A CN 201710873298 A CN201710873298 A CN 201710873298A CN 107729403 A CN107729403 A CN 107729403A
Authority
CN
China
Prior art keywords
word vector
classification result
word
data
vector sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710873298.0A
Other languages
English (en)
Inventor
盛丽晔
刘漱琰
黄浩
周寅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN201710873298.0A priority Critical patent/CN107729403A/zh
Publication of CN107729403A publication Critical patent/CN107729403A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Computing Systems (AREA)
  • Game Theory and Decision Science (AREA)
  • Quality & Reliability (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Operations Research (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种互联网信息风险提示方法及系统,该方法包括:将互联网信息作为原始文本数据,对原始文本数据进行分词,并将各词转化为数字标识,形成由数字标识组成的分词数组;根据分词数组中每一数字标识的对应词与上下文的关联关系,将分词数组映射为对应的词向量序列;通过神经网络模型对词向量序列进行分类识别,获得分类结果数据;对分类结果数据进行风险分析,根据风险分析结果发出风险提示。本发明的互联网信息风险提示方法可以更接近人类的思维方式来理解人类语言,且可以快速、智能地识别各类信息;因而在处理大量信息时,可以代替人工去整理海量、复杂的业务文本,迅速识别风险事件信息,节省了大量人力、时间。

Description

互联网信息风险提示方法及系统
技术领域
本发明涉及互联网信息处理领域,特别是涉及一种互联网信息风险提示方法及系统。
背景技术
在大数据时代背景下,企业散落在互联网上的海量资讯中蕴含着大量的有价值但未被利用的信息,若能从中及时识别出涉及风险的事件,并挖掘出潜在的风险特征, 就能及时、全面和直观地掌握客户风险情况,大幅提升企业识别和揭示风险的能力。
识别事件信息中隐含的风险主题,其实质是一项文本分类任务。在传统方法中,主要采用基于规则的本体模型对文本进行分类;即对于每个分类建立本体,并由专家 定义特征词汇或者业务规则作为要素。现有技术虽然可以应用于大部分简单语义的业 务场景下,但是互联网上的大部分信息往往语义复杂,具有以下特点:
语义反转:如标题是“公司成功消除了火灾隐患”、“公司举行了火灾演练”、 “公司开展了火灾警示教育”、“公司避免了在火灾中遭受损失”。增加限定词后, 标题的语义得到了反转,不再是风险事件了。而中文博大精深,表示反转的语言模式 非常多样化,人无法做到完全归纳,导致大量无风险信息被错判为风险信息。
多词一义:多词一义即同义词问题。例如形容秩序良好时就可以有“井然有序”、“井井有条”、“有条不紊”等大量的同义说法,即使是这方面的专家,也无法将所 有可能的说法归纳完整,导致大量有风险信息被遗漏。类似的,还存在一词多义问题。
刻意否认:在一些情况下数据中蕴含着较为特殊的内涵,虽然新闻标题的表面语义无风险,其实背后仍存在较大的隐患。如“公司总经理辟谣,否认工厂停工”,类 似的刻意否认、刻意辟谣、刻意澄清的背后往往另有真相,不可忽视。而这些对事件 内涵的深入理解,是表面的词汇无法表达的,需要根据经验进行判断。
因此,对于互联网信息风险提示,在处理海量的复杂语义文本时,现有技术存在以下不足:识别效率低下,只能识别语义简单的文本内容,对诸如上述具有语义反转、 多词一义和刻意否认等复杂语言表达方式的文本识别出错率高,如果换成人工筛查, 则将耗费大量人力、时间。
发明内容
本发明实施例提供一种互联网信息风险提示方法,用以提升互联网信息风险提示的准确性,代替人工整理海量复杂的业务文本,迅速识别风险事件,该方法包括:
将互联网信息作为原始文本数据,对原始文本数据进行分词,并将各词转化为数字标识,形成由数字标识组成的分词数组;
根据分词数组中每一数字标识的对应词与上下文的关联关系,将分词数组映射为对应的词向量序列;
通过神经网络模型对词向量序列进行分类识别,获得分类结果数据;
对分类结果数据进行风险分析,根据风险分析结果发出风险提示。
本发明实施还提供了一种互联网信息风险提示系统,用以提升对复杂语义的文本信息的识别、分类能力,代替人工整理海量复杂的业务文本,迅速识别风险事件,该 系统包括:
数据采集单元,用于将互联网信息作为原始文本数据,对原始文本数据进行分词,并将各词转化为数字标识,形成由数字标识组成的分词数组;
词向量生成单元,用于根据分词数组中每一数字标识的对应词与上下文的关联关系,将分词数组映射为对应的词向量序列;
语义识别单元,用于通过神经网络模型对词向量序列进行分类识别,获得分类结果数据;
应用单元,用于对分类结果数据进行风险分析,根据风险分析结果发出风险提示。
本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现互联网信 息风险提示方法。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有执行互联网信息风险提示方法的计算机程序。
本发明实施例中,将从互联网中采集的原始文本数据进行分词,获得分词数组后进而得到词向量序列,再通过神经网络模型对词向量序列进行分类识别,获得分类结 果信息,最终根据存储的分类结果信息向用户进行风险提示。该方法可以更接近人类 的思维方式来理解人类语言,且可以快速、智能地识别各类风险信息;因而在处理大 量信息时,可以代替人工去整理海量、复杂的业务文本,迅速识别风险事件,节省了 大量人力、时间。进一步的,可以不断加入新的样本数据对神经网络模型进行训练, 优化模型参数,即使在互联网信息快速更替的情况下依旧可以保持较高的分析准确 率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅 是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提 下,还可以根据这些附图获得其他的附图。在附图中:
图1为本发明实施例中互联网信息风险提示方法的流程示意图;
图2为本发明实施例中一储存分词后所得词汇的示例图;
图3为本发明实施例中一词向量的示例图;
图4为本发明实施例中训练神经网络模型的流程示意图;
图5为本发明实施例中互联网信息风险提示系统的结构示意图;
图6为本发明实施例中训练单元的结构示意图;
图7为本发明实施例中神经网络模型训练模块的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明, 但并不作为对本发明的限定。
如图1所示,本发明实施例中提供了一种互联网信息风险提示方法,用以提升对复杂语义的文本信息的识别、分类能力,代替人工整理海量复杂的业务文本,迅速识 别风险事件,该方法包括:
101:将互联网信息作为原始文本数据,对原始文本数据进行分词,并将各词转 化为数字标识,形成由数字标识组成的分词数组;
102:根据分词数组中每一数字标识的对应词与上下文的关联关系,将分词数组映射为对应的词向量序列;
103:通过神经网络模型对词向量序列进行分类识别,获得分类结果数据;
104:对分类结果数据进行风险分析,根据风险分析结果发出风险提示。
本发明实施例中的互联网信息风险提示方法工作原理如下:周期性地采集海量互联网信息,并将互联网信息存储后作为原始文本数据。原始文本分词后形成分词数组, 统计各分词出现次数,即结合当前词汇与上下文词汇的关联关系,获得当前词汇的词 向量,进而获取词向量序列。加载神经网络模型及参数,通过处理步骤103中得到的 词向量序列,分析该条信息属于各分类的概率分布,概率值最大的即为该原始文本数 据的预测分类,全部数据分析完毕,存储分析结果数据,并将最新分析结果应用于神 经网络模型及模型参数的迭代训练,优化神经网络模型,以便下一周期采集的信息可 使用当前最优神经网络模型进行分析处理。
一个实施例中,步骤104中根据分析结果发出风险提示可以有多种实施方式。例如,可以报表、图标等方式多维度展现分析结果,具体按实际业务需求,生成风险事 件河流图及事件明细、向关注用户发送通知等,对风险事件进行预警提示。
一个实施例中,上述步骤101中,对原始文本数据进行分词,还可以包括:剔除 原始文本数据中的无意义词汇。具体实施时剔除无意义词汇可以有多种实施方式,例 如,可以先对原始文本信息进行分词,然后剔除原始文本中的的虚词、助词、标点符 号等无意义的词汇。以一个简单的原始文本数据“中国自北向南爆大范围空气污染天 气了!”为例,分词并剔除无意义词汇后,可以得到以下词汇:中国,自北向南,爆, 大范围,空气污染,天气。根据分词后各词对应的数字标识(词id),每条原始文本 数据可转化为一个分词数组,所述数字标识(词id)是指预先设置的、用于标记分词 后各词的唯一标识,分词后各词的存储结构示例如图2所示。分词后的各词组成的分 词序列:中国,自北向南,爆,大范围,空气污染,天气,可以对应转化为分词数组: [2、17215、4077、4078、1、3]。最后,将根据原始文本数据分词后所得的词 汇,统计各词汇的出现次数,并储存至数据库中。
一个实施例中,上述步骤102:根据分词数组中每一数字标识的对应词与上下文的关联关系,将分词数组映射为对应的词向量序列可以有多种实施方式。例如,可以 使用Word2vec算法对分词数组构建语言模型,将分词数组中的各词汇映射为词向量, 并进行存储。所述语言模型可以根据如下公式进行计算:
其中,V表示一长度为Τ的词向量序列,V=[w1,w2,w3,...wT];wi表示当前词; 为当前词wi的向量;wj表示分词数组范围内的任一分词,取值范围为 [w1,w2,w3,...wT];wk表示在当前词wi前后出现的c个词,即i-c≤k≤i+c,且i≠k, 3≤c≤5;p(wk|wi)表示当前词wi前后个c词的出现概率。
当前词wi的窗口中词wk出现的概率p(wk|wi)通过统计所有语料信息即可获 得,随机初始化未知参数,然后使用随机梯度上升法对公式进行求解。在公式求解过 程中,即可得到当前词的词向量。进而获得与分词数组对应的词向量序列。
任意两个词向量之间都存在一定的非线性关联,在后续的神经网络模型训练中可以自动发现学习并提取此类特征。本发明实施例中使用词向量反映出了语义空间中的 关联关系,向量的方向表达特定的语义,向量之间的距离反映了词汇之间的关联度, 用两个向量的夹角余弦值来衡量向量距离,余弦值越大,距离越近,说明词汇间关联 度越大。这里以图3为例:各词之间的关联度用余弦值表示,可以发现“废气”与“污 染”的向量夹角余弦值0.778884相比较大,距离较近,说明两者关联度较大;同时 “废气-->排放”与“垃圾-->焚烧”的距离近似,说明“废气”与“排放”的关系和 “垃圾”与“焚烧”的关系类似。
一个实施例中,上述步骤103中,通过神经网络模型对词向量序列进行分类识别,获得分类结果数据可以有多种实施方式。例如,可以按如下步骤获得分类结果数据:
首先按如下公式对每个词向量进行特征提取,获得特征提取结果:
st=tanh(U1xt+W1st-1);
ot=tanh(U2st+W2ot-1);
其中,A表示一长度为Τ的词向量序列,A=[x0,x1,...xt,...xT-1],0≤t≤T-1;xt表示当前词向量;st-1表示前一词向量xt-1的初步特征;st表示当前词向量xt的初步特 征;ot-1表示前一词向量xt-1的综合特征;ot表示当前词向量xt的综合特征;U1、W1、 U2、W2表示公式的权重矩阵;
然后按如下公式根据词向量序列中所有词向量的特征提取结果,计算词向量序列属于各业务分类的概率,根据所述概率判断词向量序列的分类结果:
其中,σ(O)j表示词向量序列属于当前分类的概率;O表示词向量序列的特征; K表示词向量序列包含K个业务分类;j表示当前分类。
一个实施例中,神经网络模型的训练分为神经网络模型初始训练及周期性迭代训练两个阶段。首先将样本数据分为训练样本数据和验证样本数据,所述样本数据包括: 词向量序列及分类结果数据,将训练样本数据输入已构建的深度神经网络模型,进行 初始训练,优化生成神经网络模型的模型参数,神经网络模型的模型参数包括网络中 各层的权重矩阵,用于特征筛选;词向量序列作为验证样本数据,用于求取训练后分 类结果与人工分类结果之间的误差值。在初始训练后,验证分类结果的误差值,如果 误差值超过设定阈值,则反复进行迭代训练,直到误差值小于设定阈值。由于互联网 信息是不断变化的,误差值小于设定值的神经网络模型在经过一定时间的实际应用 后,其误差由于互联网信息的变化可能会变大,超过设定阈值,此时可以再次对神经 网络模型进行训练,直至神经网络模型的误差再次达到设定阈值范围内。
一个实施例中,本发明实施中的互联网信息风险提示方法还包括将词向量序列和分类结果数据作为样本数据对神经网络模型进行训练。训练神经网络模型可以有多种 实施方式,例如,如图4所示,可以如下步骤进行训练:
401:选择词向量序列和分类结果数据作为训练样本数据,选择词向量序列作为验证样本数据;
402:将作为训练样本数据的词向量序列和分类结果数据输入神经网络模型,反向求解模型参数,对神经网络模型进行训练;
403:将作为验证样本数据的词向量序列输入训练后的神经网络模型,得到训练后分类结果数据;
404:将训练后分类结果数据与人工分类结果数据进行比较,获得训训练后分类结果与人工分类结果之间的误差值;
405:反复训练神经网络模型至训练后分类结果与人工分类结果之间的误差值小于设定值时,保存训练后得到的神经网络模型及模型参数。
一个实施例中,每次训练神经网络模型,均须要将训练样本数据平均分为多个批次,分批将训练样本数据输入神经网络模型,求解模型参数(即公式的权重矩阵)U1、 W1、U2、W2;计算中,首先初始化模型参数(即公式的权重矩阵)U1、W1、U2、 W2为高斯矩阵,然后输入训练样本数据,使用反向传播算法计算模型参数(即公式 的权重矩阵)的偏导数反复迭代,直至得到最终结果。
一个实施例中,上述步骤401中,训练样本数据用于根据词向量序列和分类结果数据反向求解神经网络模型的模型参数,优化神经网络模型;验证样本数据用于根据 优化后的神经网络模型求解词向量序列的分类结果数据,两者可以按9:1的比例进行 分配,数据集格式为:词向量序列、分类结果数据;所述分类结果数据中的业务分类 以风险领域为例,可以根据实际情况划分为三种类型:环境污染、安全事故、无风险。
一个实施例中,上述步骤404中,将训练后分类结果数据与人工分类结果数据进行比较,获得训练后分类结果与人工分类结果之间的误差值,可以有多种实施方式。 例如,可以通过如下公式计算,获得训练后分类结果与人工分类结果之间的误差值:
L(Y,P(Y|X))=-logP(Y|X);
其中,Y为人工分类结果数据;Y'为训练后结果分类数据;X为验证样本数据; P(Y|X)为训练后验证样本数据X得到正确分类的概率;L为训练后分类结果与人工 分类结果之间的误差值。
一个实施例中,还可以将训练取得的神经网络模型的模型参数进行存储:随着训练迭代次数及训练时间的增加,最终产生临界值,达到临界值之后再继续训练,对神 经网络模型的优化效果会越来越小;因此,可以对训练后分类的误差值设定一个阈值, 对神经网络模型反复进行迭代训练,提升训练后分类的准确率,当训练后分类的误差 值达到设定的阈值范围时,便可停止迭代训练,并将训练获得的神经网络模型的模型 参数进行存储,用于实际的互联网信息的分类处理。
基于同一发明构思,本发明实施例中还提供了一种互联网信息风险提示系统,由于该方法解决问题的原理与互联网信息风险提示方法相似,因此该方法的实施可以参 见互联网信息风险提示方法的实施,重复之处不再赘述。
如图5所示,本发明实施例中的互联网信息风险提示系统,可以提升对复杂语义的文本信息的识别、分类能力,代替人工整理海量复杂的业务文本,迅速识别风险事 件,该系统包括:
数据采集单元501,用于将互联网信息作为原始文本数据,对原始文本数据进行分词,并将各词转化为数字标识,形成由数字标识组成的分词数组;
词向量生成单元502,用于根据分词数组中每一数字标识的对应词与上下文的关联关系,将分词数组映射为对应的词向量序列;
语义识别单元503,用于通过神经网络模型对词向量序列进行分类识别,获得分类结果数据;
应用单元504,用于对分类结果数据进行风险分析,根据风险分析结果发出风险提示。
一个实施例中,所述数据采集单元501进一步用于:剔除原始文本数据中的无意义词汇。
一个实施例中,所述词向量生成单元502,根据如下公式进行计算:
其中,V表示一长度为Τ的词向量序列,V=[w1,w2,w3,...wT];wi表示当前词; 为当前词wi的向量;wj表示分词数组范围内的任一分词,取值范围为 [w1,w2,w3,...wT];wk表示在当前词wi前后出现的c个词,即i-c≤k≤i+c,且i≠k, 3≤c≤5;p(wk|wi)表示当前词wi前后个c词的出现概率。
一个实施例中,如图6所示,所述语义识别单元503包括:
特征提取层601,用于按如下公式对每个词向量进行特征提取,获得特征提取结果:
st=tanh(U1xt+W1st-1);
ot=tanh(U2st+W2ot-1);
其中,A表示一长度为Τ的词向量序列,A=[x0,x1,...xt,...xT-1],0≤t≤T-1;xt表示当前词向量;st-1表示前一词向量xt-1的初步特征;st表示当前词向量xt的初步特 征;ot-1表示前一词向量xt-1的综合特征;ot表示当前词向量xt的综合特征;U1、W1、 U2、W2表示公式的权重矩阵;
感知分类器602,用于按如下公式根据词向量序列中所有词向量的特征提取结果,计算词向量序列属于各业务分类的概率,根据所述概率判断词向量序列的分类结 果:
其中,σ(O)j表示词向量序列属于当前分类的概率;O表示词向量序列的特征; K表示词向量序列包含K个业务分类;j表示当前分类;k表示。
一个实施例中,如图7所示,本发明实施中的互联网信息风险提示系统还包括训练单元505,所述训练单元505包括:
样本数据获取模块701,用于选择词向量序列和分类结果数据作为训练样本数据,选择词向量序列作为验证样本数据;
模型训练模块702,用于将作为训练样本数据的词向量序列和分类结果数据输入神经网络模型,反向求解模型参数,对神经网络模型进行训练;
模型验证模块703,用于将作为验证样本数据的词向量序列输入训练后的神经网络模型,得到训练后分类结果数据;
分类结果对比模块704,用于将训练后分类结果数据与人工分类结果数据进行比较,获得训练后分类结果与人工分类结果之间的误差值;
模型存储模块705,用于反复训练神经网络模型至训练后分类结果与人工分类结果之间的误差小于设定值时,保存训练后得到的神经网络模型及模型参数。
一个实施例中,所述分类结果对比模块704,通过如下公式计算获得训练后分类结果与人工分类结果之间的误差值:
L(Y,P(Y|X))=-logP(Y|X);
其中,Y为人工分类结果数据;Y'为训练后结果分类数据;X为验证样本数据; P(Y|X)为训练后验证样本数据X得到正确分类的概率;L为训练后分类结果与人工 分类结果之间的误差值。
本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现互联网信 息风险提示方法。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有执行互联网信息风险提示方法的计算机程序。
综上所述,本发明实施例中,将从互联网中采集的原始文本数据进行分词,获得分词数组后进而得到词向量序列,再通过神经网络模型对词向量序列进行分类识别, 获得分类结果信息,最终根据存储的分类结果信息向用户进行风险提示。该方法可以 更接近人类的思维方式来理解人类语言,且可以快速、智能地识别各类风险信息;因 而在处理大量信息时,可以代替人工去整理海量、复杂的业务文本,迅速识别风险事 件,节省了大量人力、时间。进一步的,可以不断加入新的样本数据对神经网络模型 进行训练,优化模型参数,即使在互联网信息快速更替的情况下依旧可以保持较高的 分析准确率。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件 方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序 代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等) 上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流 程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的 每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些 计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设 备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执 行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方 框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包 括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一 个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算 机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或 方框图一个方框或多个方框中指定的功能的步骤。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发 明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等, 均应包含在本发明的保护范围之内。

Claims (14)

1.一种互联网信息风险提示方法,其特征在于,包括:
将互联网信息作为原始文本数据,对原始文本数据进行分词,并将各词转化为数字标识,形成由数字标识组成的分词数组;
根据分词数组中每一数字标识的对应词与上下文的关联关系,将分词数组映射为对应的词向量序列;
通过神经网络模型对词向量序列进行分类识别,获得分类结果数据;
对分类结果数据进行风险分析,根据风险分析结果发出风险提示。
2.如权利要求1所述的互联网信息风险提示方法,其特征在于,所述对原始文本数据进行分词,还包括:剔除原始文本数据中的无意义词汇。
3.如权利要求1或2所述的互联网信息风险提示方法,其特征在于,所述根据分词数组中每一数字标识的对应词与上下文的关联关系,将分词数组映射为对应的词向量序列,根据如下公式进行计算:
<mrow> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mi>k</mi> </msub> <mo>|</mo> <msub> <mi>w</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>exp</mi> <mrow> <mo>(</mo> <msubsup> <mover> <mi>v</mi> <mo>~</mo> </mover> <msub> <mi>w</mi> <mi>k</mi> </msub> <mi>T</mi> </msubsup> <msub> <mi>v</mi> <msub> <mi>w</mi> <mi>i</mi> </msub> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mo>&amp;Sigma;</mo> <mrow> <msub> <mi>w</mi> <mi>j</mi> </msub> <mo>&amp;Element;</mo> <mi>V</mi> </mrow> </msub> <mi>exp</mi> <mrow> <mo>(</mo> <msubsup> <mover> <mi>v</mi> <mo>~</mo> </mover> <msub> <mi>w</mi> <mi>j</mi> </msub> <mi>T</mi> </msubsup> <msub> <mi>v</mi> <msub> <mi>w</mi> <mi>i</mi> </msub> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>;</mo> </mrow>
其中,V表示一长度为Τ的词向量序列,V=[w1,w2,w3,...wT];wi表示当前词;为当前词wi的向量;wj表示分词数组范围内的任一分词,取值范围为[w1,w2,w3,...wT];wk表示在当前词wi前后出现的c个词,即i-c≤k≤i+c,且i≠k,3≤c≤5;p(wk|wi)表示当前词wi前后c个词的出现概率。
4.如权利要求3所述的互联网信息风险提示方法,其特征在于,所述通过神经网络模型对词向量序列进行分类识别,获得分类结果数据,包括:
按如下公式对每个词向量进行特征提取,获得特征提取结果:
st=tanh(U1xt+W1st-1);
ot=tanh(U2st+W2ot-1);
其中,A表示一长度为Τ的词向量序列,A=[x0,x1,...xt,...xT-1],0≤t≤T-1;xt表示当前词向量;st-1表示前一词向量xt-1的初步特征;st表示当前词向量xt的初步特征;ot-1表示前一词向量xt-1的综合特征;ot表示当前词向量xt的综合特征;U1、W1、U2、W2表示公式的权重矩阵;
按如下公式根据词向量序列中所有词向量的特征提取结果,计算词向量序列属于各业务分类的概率,根据所述概率判断词向量序列的分类结果:
<mrow> <mi>&amp;sigma;</mi> <msub> <mrow> <mo>(</mo> <mi>O</mi> <mo>)</mo> </mrow> <mi>j</mi> </msub> <mo>=</mo> <mfrac> <msup> <mi>e</mi> <msub> <mi>O</mi> <mi>j</mi> </msub> </msup> <mrow> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </munderover> <msup> <mi>e</mi> <msub> <mi>O</mi> <mi>k</mi> </msub> </msup> </mrow> </mfrac> <mo>;</mo> </mrow>
其中,σ(O)j表示词向量序列属于当前分类的概率;O表示词向量序列的特征;K表示词向量序列包含K个业务分类;j表示当前分类。
5.如权利要求4所述的互联网信息风险提示方法,其特征在于,还包括按如下方式将词向量序列和分类结果数据作为样本数据对神经网络模型进行训练:
选择词向量序列和分类结果数据作为训练样本数据,选择词向量序列作为验证样本数据;
将作为训练样本数据的词向量序列和分类结果数据输入神经网络模型,反向求解模型参数,对神经网络模型进行训练;
将作为验证样本数据的词向量序列输入训练后的神经网络模型,得到训练后分类结果数据;
将训练后分类结果数据与人工分类结果数据进行比较,获得训练后分类结果与人工分类结果之间的误差值;
反复训练神经网络模型至训练后分类结果与人工分类结果之间的误差值小于设定值时,保存训练后得到的神经网络模型及模型参数。
6.如权利要求5所述的互联网信息风险提示方法,其特征在于,所述将训练后分类结果数据与人工分类结果数据进行比较,获得训练后分类结果与人工分类结果之间的误差值,通过如下公式进行:
L(Y,P(Y|X))=-logP(Y|X);
<mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>Y</mi> <mo>|</mo> <mi>X</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mn>1</mn> <mo>+</mo> <msup> <mi>e</mi> <mrow> <mo>-</mo> <msup> <mi>YY</mi> <mo>&amp;prime;</mo> </msup> </mrow> </msup> </mrow> </mfrac> <mo>;</mo> </mrow>
其中,Y为人工分类结果数据;Y'为训练后结果分类数据;X为验证样本数据;P(Y|X)为训练后验证样本数据X得到正确分类的概率;L为训练后分类结果与人工分类结果之间的误差值。
7.一种互联网信息风险提示系统,其特征在于,包括:
数据采集单元,用于将互联网信息作为原始文本数据,对原始文本数据进行分词,并将各词转化为数字标识,形成由数字标识组成的分词数组;
词向量生成单元,用于根据分词数组中每一数字标识的对应词与上下文的关联关系,将分词数组映射为对应的词向量序列;
语义识别单元,用于通过神经网络模型对词向量序列进行分类识别,获得分类结果数据;
应用单元,用于对分类结果数据进行风险分析,根据风险分析结果发出风险提示。
8.如权利要求7所述的互联网信息风险提示系统,其特征在于,所述数据采集单元进一步用于:剔除原始文本数据中的无意义词汇。
9.如权利要求7或8所述的互联网信息风险提示系统,其特征在于,所述词向量生成单元,根据如下公式进行计算:
<mrow> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mi>k</mi> </msub> <mo>|</mo> <msub> <mi>w</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>exp</mi> <mrow> <mo>(</mo> <msubsup> <mover> <mi>v</mi> <mo>~</mo> </mover> <msub> <mi>w</mi> <mi>k</mi> </msub> <mi>T</mi> </msubsup> <msub> <mi>v</mi> <msub> <mi>w</mi> <mi>i</mi> </msub> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mo>&amp;Sigma;</mo> <mrow> <msub> <mi>w</mi> <mi>j</mi> </msub> <mo>&amp;Element;</mo> <mi>V</mi> </mrow> </msub> <mi>exp</mi> <mrow> <mo>(</mo> <msubsup> <mover> <mi>v</mi> <mo>~</mo> </mover> <msub> <mi>w</mi> <mi>j</mi> </msub> <mi>T</mi> </msubsup> <msub> <mi>v</mi> <msub> <mi>w</mi> <mi>i</mi> </msub> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>;</mo> </mrow>
其中,V表示一长度为Τ的词向量序列,V=[w1,w2,w3,...wT];wi表示当前词;为当前词wi的向量;wj表示分词数组范围内的任一分词,取值范围为[w1,w2,w3,...wT];wk表示在当前词wi前后出现的c个词,即i-c≤k≤i+c,且i≠k,3≤c≤5;p(wk|wi)表示当前词wi前后c个词的出现概率。
10.如权利要求9所述的互联网信息风险提示系统,其特征在于,所述语义识别单元,包括:
特征提取层,用于按如下公式对每个词向量进行特征提取,获得特征提取结果:
st=tanh(U1xt+W1st-1);
ot=tanh(U2st+W2ot-1);
其中,A表示一长度为Τ的词向量序列,A=[x0,x1,...xt,...xT-1],0≤t≤T-1;xt表示当前词向量;st-1表示前一词向量xt-1的初步特征;st表示当前词向量xt的初步特征;ot-1表示前一词向量xt-1的综合特征;ot表示当前词向量xt的综合特征;U1、W1、U2、W2表示公式的权重矩阵;
感知分类器,用于按如下公式根据词向量序列中所有词向量的特征提取结果,计算词向量序列属于各业务分类的概率,根据所述概率判断词向量序列的分类结果:
<mrow> <mi>&amp;sigma;</mi> <msub> <mrow> <mo>(</mo> <mi>O</mi> <mo>)</mo> </mrow> <mi>j</mi> </msub> <mo>=</mo> <mfrac> <msup> <mi>e</mi> <msub> <mi>O</mi> <mi>j</mi> </msub> </msup> <mrow> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </munderover> <msup> <mi>e</mi> <msub> <mi>O</mi> <mi>k</mi> </msub> </msup> </mrow> </mfrac> <mo>;</mo> </mrow>
其中,σ(O)j表示词向量序列属于当前分类的概率;O表示词向量序列的特征;K表示词向量序列包含K个业务分类;j表示当前分类。
11.如权利要求10所述的互联网信息风险提示系统,其特征在于,还包括训练单元,所述训练单元包括:
样本数据获取模块,用于选择词向量序列和分类结果数据作为训练样本数据,选择词向量序列作为验证样本数据;
模型训练模块,用于将作为训练样本数据的词向量序列和分类结果数据输入神经网络模型,反向求解模型参数,对神经网络模型进行训练;
模型验证模块,用于将作为验证样本数据的词向量序列输入训练后的神经网络模型,得到训练后分类结果数据;
分类结果对比模块,用于将训练后分类结果数据与人工分类结果数据进行比较,获得训练后分类的准确率;
模型存储模块,用于反复训练神经网络模型至训练后分类结果与人工分类结果之间的误差值小于设定值时,保存训练后得到的神经网络模型及模型参数。
12.如权利要求11所述的互联网信息风险提示系统,其特征在于,所述分类结果对比模块,通过如下公式获得训练后分类结果与人工分类结果之间的误差值:
L(Y,P(Y|X))=-logP(Y|X);
<mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>Y</mi> <mo>|</mo> <mi>X</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mn>1</mn> <mo>+</mo> <msup> <mi>e</mi> <mrow> <mo>-</mo> <msup> <mi>YY</mi> <mo>&amp;prime;</mo> </msup> </mrow> </msup> </mrow> </mfrac> <mo>;</mo> </mrow>
其中,Y为人工分类结果数据;Y'为训练后结果分类数据;X为验证样本数据;P(Y|X)为训练后验证样本数据X得到正确分类的概率;L为训练后分类结果与人工分类结果之间的误差值。
13.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6任一所述方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有执行权利要求1至6任一所述方法的计算机程序。
CN201710873298.0A 2017-09-25 2017-09-25 互联网信息风险提示方法及系统 Pending CN107729403A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710873298.0A CN107729403A (zh) 2017-09-25 2017-09-25 互联网信息风险提示方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710873298.0A CN107729403A (zh) 2017-09-25 2017-09-25 互联网信息风险提示方法及系统

Publications (1)

Publication Number Publication Date
CN107729403A true CN107729403A (zh) 2018-02-23

Family

ID=61207338

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710873298.0A Pending CN107729403A (zh) 2017-09-25 2017-09-25 互联网信息风险提示方法及系统

Country Status (1)

Country Link
CN (1) CN107729403A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109634922A (zh) * 2018-12-06 2019-04-16 苏州科创风云信息技术有限公司 共享货架中资源的分类方法及装置
CN109657227A (zh) * 2018-10-08 2019-04-19 平安科技(深圳)有限公司 合同可行性判定方法、设备、存储介质及装置
CN109754159A (zh) * 2018-12-07 2019-05-14 国网江苏省电力有限公司南京供电分公司 一种电网运行日志的信息提取方法及系统
CN110135681A (zh) * 2019-04-03 2019-08-16 平安科技(深圳)有限公司 风险用户识别方法、装置、可读存储介质及终端设备
CN110322252A (zh) * 2019-05-30 2019-10-11 阿里巴巴集团控股有限公司 风险主体识别方法以及装置
CN110362828A (zh) * 2019-07-16 2019-10-22 中国工商银行股份有限公司 网络资讯风险识别方法及系统
CN110880142A (zh) * 2019-11-22 2020-03-13 深圳前海微众银行股份有限公司 一种风险实体获取方法及装置
CN111061605A (zh) * 2019-10-25 2020-04-24 山东英信计算机技术有限公司 一种告警信息分拣方法及相关装置
US20210117617A1 (en) * 2019-10-17 2021-04-22 Amadeus S.A.S. Methods and systems for summarization of multiple documents using a machine learning approach
CN112801498A (zh) * 2021-01-26 2021-05-14 网易(杭州)网络有限公司 风险识别模型的训练方法、风险识别方法、装置及设备
CN113077159A (zh) * 2021-04-13 2021-07-06 中能融合智慧科技有限公司 数据处理方法及数据处理装置
CN113191137A (zh) * 2021-05-27 2021-07-30 中国工商银行股份有限公司 一种操作风险获取方法、系统、电子设备及存储介质
CN114240101A (zh) * 2021-12-02 2022-03-25 支付宝(杭州)信息技术有限公司 一种风险识别模型的验证方法、装置以及设备
US12032905B2 (en) * 2019-10-17 2024-07-09 Amadeus S.A.S. Methods and systems for summarization of multiple documents using a machine learning approach

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102184262A (zh) * 2011-06-15 2011-09-14 悠易互通(北京)广告有限公司 基于web的文本分类挖掘系统及方法
US8719257B2 (en) * 2011-02-16 2014-05-06 Symantec Corporation Methods and systems for automatically generating semantic/concept searches
CN106202330A (zh) * 2016-07-01 2016-12-07 北京小米移动软件有限公司 垃圾信息的判断方法及装置
CN107066446A (zh) * 2017-04-13 2017-08-18 广东工业大学 一种嵌入逻辑规则的循环神经网络文本情感分析方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8719257B2 (en) * 2011-02-16 2014-05-06 Symantec Corporation Methods and systems for automatically generating semantic/concept searches
CN102184262A (zh) * 2011-06-15 2011-09-14 悠易互通(北京)广告有限公司 基于web的文本分类挖掘系统及方法
CN106202330A (zh) * 2016-07-01 2016-12-07 北京小米移动软件有限公司 垃圾信息的判断方法及装置
CN107066446A (zh) * 2017-04-13 2017-08-18 广东工业大学 一种嵌入逻辑规则的循环神经网络文本情感分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吴兵兵: "基于词向量和LSTM的汉语零指代消解研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109657227A (zh) * 2018-10-08 2019-04-19 平安科技(深圳)有限公司 合同可行性判定方法、设备、存储介质及装置
CN109634922A (zh) * 2018-12-06 2019-04-16 苏州科创风云信息技术有限公司 共享货架中资源的分类方法及装置
CN109754159A (zh) * 2018-12-07 2019-05-14 国网江苏省电力有限公司南京供电分公司 一种电网运行日志的信息提取方法及系统
CN110135681A (zh) * 2019-04-03 2019-08-16 平安科技(深圳)有限公司 风险用户识别方法、装置、可读存储介质及终端设备
CN110135681B (zh) * 2019-04-03 2023-08-22 平安科技(深圳)有限公司 风险用户识别方法、装置、可读存储介质及终端设备
CN110322252A (zh) * 2019-05-30 2019-10-11 阿里巴巴集团控股有限公司 风险主体识别方法以及装置
CN110362828A (zh) * 2019-07-16 2019-10-22 中国工商银行股份有限公司 网络资讯风险识别方法及系统
CN110362828B (zh) * 2019-07-16 2023-11-03 中国工商银行股份有限公司 网络资讯风险识别方法及系统
US20210117617A1 (en) * 2019-10-17 2021-04-22 Amadeus S.A.S. Methods and systems for summarization of multiple documents using a machine learning approach
US12032905B2 (en) * 2019-10-17 2024-07-09 Amadeus S.A.S. Methods and systems for summarization of multiple documents using a machine learning approach
CN111061605A (zh) * 2019-10-25 2020-04-24 山东英信计算机技术有限公司 一种告警信息分拣方法及相关装置
CN110880142A (zh) * 2019-11-22 2020-03-13 深圳前海微众银行股份有限公司 一种风险实体获取方法及装置
CN110880142B (zh) * 2019-11-22 2024-01-19 深圳前海微众银行股份有限公司 一种风险实体获取方法及装置
CN112801498A (zh) * 2021-01-26 2021-05-14 网易(杭州)网络有限公司 风险识别模型的训练方法、风险识别方法、装置及设备
CN113077159A (zh) * 2021-04-13 2021-07-06 中能融合智慧科技有限公司 数据处理方法及数据处理装置
CN113077159B (zh) * 2021-04-13 2023-12-15 中能融合智慧科技有限公司 数据处理方法及数据处理装置
CN113191137A (zh) * 2021-05-27 2021-07-30 中国工商银行股份有限公司 一种操作风险获取方法、系统、电子设备及存储介质
CN114240101A (zh) * 2021-12-02 2022-03-25 支付宝(杭州)信息技术有限公司 一种风险识别模型的验证方法、装置以及设备

Similar Documents

Publication Publication Date Title
CN107729403A (zh) 互联网信息风险提示方法及系统
CN109165284B (zh) 一种基于大数据的金融领域人机对话意图识别方法
CN110825877A (zh) 一种基于文本聚类的语义相似度分析方法
CN109886020A (zh) 基于深度神经网络的软件漏洞自动分类方法
CN104572958A (zh) 一种基于事件抽取的敏感信息监控方法
CN111045847A (zh) 事件审计方法、装置、终端设备以及存储介质
CN103995876A (zh) 一种基于卡方统计和smo算法的文本分类方法
CN109918505B (zh) 一种基于文本处理的网络安全事件可视化方法
CN104598535A (zh) 一种基于最大熵的事件抽取方法
CN103412557A (zh) 一种适于非线性过程在线监控的工业故障检测与诊断方法
CN108319518B (zh) 基于循环神经网络的文件碎片分类方法及装置
CN113609261A (zh) 基于网络信息安全的知识图谱的漏洞信息挖掘方法和装置
CN113254643A (zh) 文本分类方法、装置、电子设备和
CN112836509A (zh) 一种专家系统知识库构建方法及系统
CN110287311A (zh) 文本分类方法及装置、存储介质、计算机设备
Gagiano et al. Robustness analysis of grover for machine-generated news detection
CN104951553A (zh) 一种数据处理准确的内容搜集与数据挖掘平台及其实现方法
CN116756688A (zh) 一种基于多模态融合算法的舆情风险发现方法
CN110334180B (zh) 一种基于评论数据的移动应用安全性评估方法
CN116049419A (zh) 融合多模型的威胁情报信息抽取方法及系统
CN115953123A (zh) 机器人自动化流程的生成方法、装置、设备及存储介质
CN113179250B (zh) web未知威胁检测方法及系统
CN105808602B (zh) 一种垃圾信息的检测方法及装置
CN109871889B (zh) 突发事件下大众心理评估方法
CN110929506A (zh) 一种垃圾信息检测方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180223