CN105138570A

CN105138570A - 网络言论数据疑似犯罪度计算方法

Info

Publication number: CN105138570A
Application number: CN201510442984.3A
Authority: CN
Inventors: 王世刚; 胡云鹏; 赵文婷; 卢洋; 赵岩
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2015-07-26
Filing date: 2015-07-26
Publication date: 2015-12-09
Anticipated expiration: 2035-07-26
Also published as: CN105138570B

Abstract

网络言论数据疑似犯罪度计算方法属智能安防技术领域，本发明提出了网络言论疑似犯罪度这一概念，定义它为社交网络上某ID通过其言论表现出来的犯罪可能性，以犯罪心理学为理论依据，总结出犯罪心理表现出的言论特征，提出了网络言论犯罪度的需求因素、情绪因素和准备因素影响模型；以文本分析技术手段、运用朴素贝叶斯分类器对需求因素进行判断，利用情感词典对情绪因素进行判断，构建了犯罪敏感词词典并结合机器学习的方法对准备因素进行判断，建立了网络言论疑似犯罪度理论框架和数学模型；本发明能将预警提前到犯罪心理形成和犯罪准备阶段，运用到实际网络中可全程自动分析预测大量数据，不需人为干预，可将安防系统智能化提升到更高层次。

Description

网络言论数据疑似犯罪度计算方法

技术领域

本发明属智能化安防技术领域，具体涉及一种基于犯罪心理学与文本分析的网络言论犯罪度理论，以及基于此理论的网络言论数据疑似犯罪度计算方法。

背景技术

智能化安防技术的主要内涵是其相关内容和服务的信息化、图象的传输和存储、数据的存储和处理等等。就智能化安防来说,一个完整的智能化安防系统主要包括门禁、报警和监控三大部分。目前，国家大力发展安防系统，并将其运用到实际安防领域，大大提高了犯罪事件的侦破效率，并为国家全面监控各个区域局势提供了保证。同时，智能化安防系统为案件的侦破提供了重要的线索和依据。

然而传统的智能化安防技术存在明显的缺点，即无法提前预警犯罪事件的发生，智能化也是相对原始的安防手段来说的，并未达到真正意义上的智能化。如果我们能提前预警犯罪事件的发生，将减少或者避免不必要的损失，有时候该损失是巨大的，比如恐怖主义袭击、银行劫案或者暴力杀人事件等，因此，对犯罪事件预警方法的研究具有重要的意义。

目前对犯罪事件的预警方法主要是通过监控画面中人物的行为分析实现的，该技术尚不成熟且某个体或团体既已表现出行为异常那预示着犯罪准备条件已经具备，伴随而来的很可能是马上实施犯罪，这给阻止犯罪事件的发生带来了很大的难度。目前急需一种理论能洞察犯罪心理的形成，将预警机制提前到犯罪心理的形成以及犯罪准备阶段。

以博客、微博和社区论坛等为代表的新型社交网络的出现和快速发展，使得用户产生数据的意愿更加强烈。用户原创内容类数据近几年一直呈现爆炸性的增长，越来越多的人喜欢将自己的心情、活动等信息以文本的形式发表于社交网络，如微信、新浪微博、腾讯微博以及贴吧论坛等。犯罪心理学认为犯罪行为与犯罪心理息息相关，心理状态通常又能通过言论表现出来。JohnLangshawAustin的言语行为理论认为语言不仅是表达也是做事，言(saying)即是行(doing)，奥斯汀称这种意义上的言语行为为“说话行为”(locutionaryact)。该行为不仅能反映说话者意欲为之的内容，还能反映出说话人的思想、情感、思维等主观意志。因此通过对网络言论的分析来预测一个人的犯罪可能性是有科学依据的，如何利用网络上海量的言论数据预测犯罪事件的发生将成为关键性问题。然而无论国际上还是国内对该方向的研究都非常少，更是难以找到一个理论或数学模型去定义和计算犯罪事件发生的可能性。因此研究犯罪行为与网络言论之间的关系将具有重要意义，如何通过对网络言论的分析构建一个理论体系与数学模型来预警犯罪事件的发生显得尤为重要。

发明内容

本发明的目的在于构建起一套基于犯罪心理学与文本分析的网络言论疑似犯罪度理论，提供一种基于该理论的网络言论数据疑似犯罪度计算方法。

本发明的网络言论数据疑似犯罪度计算方法，包括下列步骤：

1.定义网络言论疑似犯罪度：社交网络上某ID通过其言论表现出来的犯罪可能性大小。

2.网络言论疑似犯罪度的影响因素判断，具体包括下列步骤：

2.1需求因素判断：犯罪心理学认为犯罪的诱因为行为人的需求得不到满足，本发明通过朴素贝叶斯分类器对网络言论是否有需求得不到满足语义倾向进行判断，具体包括下列步骤：

2.1.1在社交网络上收集初始言论样本，将其中的言论分为有需求得不到满足之意的言论，标注为1；没有需求得不到满足之意的言论，标注为0；为尽量避免人为因素影响，标注过程采用两人同时标注取标注相同的言论作为初始言论样本的方式。

2.1.2预处理：将步骤2.1.1中收集的初始言论样本去除标点和停顿词，分词；中文停顿词无实际意义，并且会给语义分析带来干扰，所以去除停顿词，停顿词指汉语中表示停顿、无实际意义的词；；中文不同于英文，中文词语之间没有分隔符，所以要分词，即将一个句子分为若干单词。

2.1.3将预处理后的言论样本中标注为1和标注为0的言论中70％的言论归类为待用训练言论样本；剩下的30％的言论归类为待用测试言论样本。

待用训练言论样本指用于分类器训练形成预测函数的言论数据。

待用测试言论样本指用于分类器测试，衡量分类器分类性能的言论数据。

2.1.4将步骤2.1.3中的待用训练言论样本放到朴素贝叶斯分类器中训练得到预测函数为：

v_{N B} = \underset{v_{j} &Element; V}{argmax} P (v_{j}) \underset{i}{Π} P (a_{i} | v_{j})

其中：v_NB表示朴素贝叶斯分类器输出的目标值；集合V是标注集合{1,0}；P(v_j)代表不同标注的数据量占总数据量的比例；a_i表示测试样本中不同位置的词语。

用预测函数预测待用测试言论样本的类型，与标注类型比较，得出分类器预测待用测试言论样本的正确率。

2.2情绪因素判断：采用基于台湾大学情感词库NTUSD的方法，判断网络言论表现出的情绪是否消极，消极情绪是否累积与叠加，具体包括下列步骤：

2.2.1预处理：一条言论可能有多句话，每句话可能表达不同情感，要看总的情感极性，要对每句话进行分析，对每条网络言论按标点分句、分词、去除停顿词。

2.2.2情感极性判断：

(1)定义每条言论的总情感值为emotionValue，简称eV；

(2)定义一条言论中一句话的情感值为sonEmotionValue，简称sV；

(3)词语匹配

a.匹配情感词：有一个消极词汇sV减1，有一个积极词汇sV加1，中性词sV值不变；

b.匹配否定词：有奇数个否定词sV正负号取反，有偶数个否定词sV符号不变；正负号取反指若sV原来为正，则取负；sV原来为负，则取正；

c.匹配程度词：有一个程度词，sV符号不变，绝对值加1；程度词指表示程度的修饰词，如很、非常。

d.计算eV,每条言论的总情感值eV等于言论中m句话的sV求和；如果eV<0，

n加1。

(4)重复步骤2.2.2的(1)、(2)、(3)、(4)，判断所有N条言论的情感极性。

2.2.3计算消极强度IoN

I o N = \frac{\log_{2} e^{n}}{N^{2}} = \frac{n}{N^{2} l n 2} - - - (1)

其中：IoN表示消极强度，衡量消极言论的积累程度，并为总的网络言论犯罪度做得分修正；N为监测最近言论的数量；n为最近N条言论中消极言论的数量；

犯罪心理学认为消极犯罪心理有两种发展趋势，主导因素为情绪。如果消极情绪得到释放，就会消除警戒恢复正常；如果消极情绪积累下去得不到缓解就会引发犯罪。所以犯罪强度的定义中我们只取最近的N条言论。

2.3准备因素判断：综合运用机器学习和情感词典的方法，分析言论中是否有为犯罪做准备的语义倾向，具体包括下列步骤：

2.3.1构建犯罪敏感词词典：

通过网络敏感词词典，筛选出犯罪敏感词(比如枪，买枪，炸药等)，再通过犯罪类书籍和相关资料扩充犯罪敏感词词典；

2.3.2根据步骤2.3.1构建的犯罪敏感词词典，对检测出的网络言论中含有犯罪敏感词的言论进行真阳性检验，检测出含有犯罪敏感词的言论中确实有为犯罪做准备语义倾向的言论，例如言论“CF中我最喜欢的枪是AK47”、“加特林机关枪真是帅呆了”表达的并不是准备犯罪之意。；真阳性检验采用机器学习的方法，采集训练数据，将含有犯罪敏感词的言论分为真阳性和假阳性两组，分别标注为1和0，用步骤2.1中的朴素贝叶斯分类器，生成预测函数，实现真阳性检验。

3.建立网络言论疑似犯罪度计算模型，具体包括下列步骤：

3.1构建网络言论犯罪度向量，用表示：

其中：c₁,c₂...c_N为每条言论的类型数值或者类型坐标；有消极语义，数值为1；有需求得不到满足语义，数值为2；有为犯罪做准备语义，数值为3；无以上类型语义，数值为0；犯罪度向量用类似队列的数据结构存储；通过步骤2中需求因素、情绪因素和准备因素的判断方法，识别网络上某ID主页中最近N条言论类型，生成犯罪度向量，当言论更新时将最新言论的类型插入队尾，并删除队头，这样将大大降低数据更新时带来的巨大计算量。

3.2网络言论疑似犯罪度(CrimeDegreeofSpeech)：

其中：为向量的1范数，

考虑到不是以需求为诱因，以心情为主导，而是行为人的自我实现需要本身就是反社会的，并会采取攻击行为来满足自身需求的情况，要对消极强度IoN做修正，将其中n改为犯罪度向量中坐标非0值的个数，这样就可以预测行为人没有消极情绪影响而直接做犯罪准备的情况。

3.3通过网络爬虫程序自动抓取网络数据，通过步骤3.2中数学表达式(3)，计算出社交网络上各ID的网络言论疑似犯罪度，对CoS规定不同的阈值，划分不同的警戒线，分类显示。

本发明通过对犯罪心理学的研究，总结出网络言论疑似犯罪度的影响因素，形成理论框架；以文本分析为技术手段，给出各影响因素判决方法。构建了网络言论疑似犯罪度数学模型，给出犯罪可能性的定量描述方法。通过实验可以看出该发明可以对已经实施犯罪的人和实际生活中具有一定精神障碍有可能犯罪的人的网络Id给出较高的犯罪度分值。说明该发明具有一定预测犯罪事件的能力。最重要的是该方法能将预警提前到犯罪心理的形成阶段和犯罪准备阶段，并且将该方法运用到实际网络中可以全程自动分析预测大量数据，不需要人为干预。可以将安防系统的智能化提高到一个更高的层次。

附图说明

图1为朴素贝叶斯分类器训练数据图

图2为朴素贝叶斯分类器训练得到的词语在每一类标注中出现可能性的结果图

图3为情感因素判断总流程图

图4为情感极性判断子流程图

图5为子句情感值计算子流程图

图6为犯罪度分析系统整体流程图

图7为犯罪度分析系统GUI界面

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。

1.朴素贝叶斯分类器文本数据的训练

图1为朴素贝叶斯分类器用来生成预测函数的训练数据一部分的截图，训练的言论数据一共200条，其中50具有言论得不到满足的语义，标注为1。150条没有言论得不到满足的语义，标注为0。言论数据首先经过分词(采用基于Java的apache下子项目Lucene结合IKAnalyzer进行分词)，去掉停顿词和标点的预处理。数据分为string字段和class字段,string字段中放的数据为预处理后的文本，class字段存放文本的标注。图2为经过weka训练之后得到的每个词语在每一个分类中出现的可能性的部分截图。通过该结果可以求得P(a_i|v_j)，进而求得预测函数：

v_{N B} = \underset{v_{j} &Element; V}{argmax} P (v_{j}) \underset{i}{Π} P (a_{i} | v_{j}) - - - (1)

其中：v_NB表示朴素贝叶斯分类器输出的目标值。集合V就是标注集合{1,0}，而P(v_j)在本例中分别为0.1和0.3。得到预测函数就可以对新的言论进行预测了。该分类器的训练过程也适用于对准备因素的真阳性检验部分。

2.情感因素判断方法

图3为总的情感因素判断流程，词典采用txt形式存储，读入Java输入流之后存入Java的List容器，预处理同上。然后进行最近N条言论的情感极性判断。情感极性判断子流程如图4，一条言论中如果有m句话的话，那么计算每句话的情感值sV，那么一条言论的总情感值eV如下：

eV＝ΣsV(2)

如果eV<0，言论为消极类型；eV＝0，言论为中性类型；eV>0，言论为积极类型。

计算每句话的情感值sV的子流程如图5。读入经过预处理的一句话，与List容器中的词典进行逐一匹配，匹配成功的话就变更sV的值，变更规则如发明内容中的步骤2.2.2，直到一句话中的所有词语遍历完成，返回sV。实验中在社交网络上采集数据，测试数据分为50条积极言论，50条消极言论，50条中性言论。由于本发明只需判断消极言论，所以将数据分为50条消极言论和100条非消极言论进行测试。测试结果显示NTUSD(台湾大学情感词库)总正确率以及消极言论正确率均优于DUTIR(大连理工情感词汇本体)。消极强度IoN的计算有两种方案，一种是在该部分直接求出。另外一种是通过犯罪度向量求出。实验证明第二种方案更具有优势。

3.犯罪度向量的生成方法

犯罪度向量用表示：

的坐标为言论类型值，的维数为监测的最近的言论数量N，实验中N取10，用队列存储将在数据更新时减少大量计算量，在实验中用大小为N的简单数组存储，一条言论首先经过预处理，然后判断其类型，将类型值存入对应的坐标位置，这样就生成了犯罪度向量。

言论类型判断：

(1)如果言论有准备因素，即有为犯罪做准备语义，言论类型值为3。

(2)如果言论有需求因素，即有需求得不到满足语义，言论类型值为2。

(3)如果言论有情绪因素，即言论有情绪消极语义，言论类型值为1。

以上判断过程运用到逻辑判断中的“短路”方式，即如果前面的步骤满足，即可设定言论类型，不再进行后续判断。

4.疑似犯罪度的计算的与显示

整个系统的疑似犯罪度的计算流程如图6，首先是网络爬虫自动抓取言论数据存入数据库，测试数据网页是对腾讯QQ空间的真实镜像，共10个ID(ID1-ID10)的主页，每个ID的地址存储在本地服务器localhost下的Index.html中。启动爬虫程序自动抓取数据将主页ID名称和言论数据存储在MySQL数据库中。

通过公式(4)计算每个ID的犯罪度。

其中：为向量的1范数；IoN表示消极强度；N为监测的最近言论的数量；n为最近的N条言论中消极言论数量。

将每个ID的言论犯罪度分为三个层次(红色警戒，CoS>＝0.9、黄色警戒，0.5<＝CoS<0.9、安全，CoS<0.5)显示，如图7。其中ID3是某大学暴力杀人案件的主谋。ID2虽暂时未犯罪但是在实际生活中表现出一定精神障碍，具有犯罪可能。ID9在实际生活中性格孤立，情绪反应强，起伏程度大，以多愁善感为主。从实现结果可以看出该系统具有一定预警犯罪事件的能力，完成了犯罪度的计算与显示功能。

Claims

1.一种网络言论数据疑似犯罪度计算方法，其特征在于包括下列步骤：

1.1定义网络言论疑似犯罪度：社交网络上某ID通过其言论表现出来的犯罪可能性大小；

1.2网络言论疑似犯罪度的影响因素判断，具体包括下列步骤：

1.2.1需求因素判断：通过朴素贝叶斯分类器对网络言论是否有需求得不到满足语义倾向进行判断，具体包括下列步骤：

1.2.1.1在社交网络上收集初始言论样本，将其中的言论分为有需求得不到满足之意的言论，标注为1；没有需求得不到满足之意的言论，标注为0；

1.2.1.2预处理：将步骤1.2.1.1中收集的初始言论样本去除标点和停顿词，分词；

1.2.1.3将预处理后的言论样本中标注为1和标注为0的言论中70％的言论归类为待用训练言论样本；剩下的30％的言论归类为待用测试言论样本；

1.2.1.4将步骤1.2.1.3中的待用训练言论样本放到朴素贝叶斯分类器中训练得到预测函数为：

v_{N B} = \underset{v_{j} &Element; V}{argmax} P (v_{j}) \underset{i}{Π} P (a_{i} | v_{j})

其中：v_NB表示朴素贝叶斯分类器输出的目标值；集合V是标注集合{1,0}；P(v_j)代表不同标注的数据量占总数据量的比例；a_i表示测试样本中不同位置的词语；

用预测函数预测待用测试言论样本的类型，与标注类型比较，得出分类器预测待用测试言论样本的正确率；

1.2.2情绪因素判断：采用基于台湾大学情感词库NTUSD的方法，判断网络言论表现出的情绪是否消极，消极情绪是否累积与叠加，具体包括下列步骤：

1.2.2.1预处理：对每条网络言论按标点分句、分词、去除停顿词；

1.2.2.2情感极性判断：

(1)定义每条言论的总情感值为emotionValue，简称eV；

(2)定义一条言论中一句话的情感值为sonEmotionValue，简称sV；

(3)词语匹配

b.匹配否定词：有奇数个否定词sV正负号取反，有偶数个否定词sV符号不变；

c.匹配程度词：有一个程度词，sV符号不变，绝对值加1；

(4)计算eV,每条言论的总情感值eV等于言论中m句话的sV求和；如果eV<0，n加1；

(5)重复步骤1.2.2.2的(1)、(2)、(3)、(4)，判断所有N条言论的情感极性；

1.2.2.3计算消极强度IoN

I o N = \frac{\log_{2} e^{n}}{N^{2}} = \frac{n}{N^{2} l n 2} - - - (1)

1.2.3准备因素判断：综合运用机器学习和情感词典的方法，分析言论中是否有为犯罪做准备的语义倾向，具体包括下列步骤：

1.2.3.1构建犯罪敏感词词典：

通过网络敏感词词典，筛选出犯罪敏感词，再通过犯罪类书籍和相关资料扩充犯罪敏感词词典；

1.2.3.2根据步骤1.2.3.1构建的犯罪敏感词词典，对检测出的网络言论中含有犯罪敏感词的言论进行真阳性检验，检测出含有犯罪敏感词的言论中确实有为犯罪做准备语义倾向的言论；真阳性检验采用机器学习的方法，采集训练数据，将含有犯罪敏感词的言论分为真阳性和假阳性两组，分别标注为1和0，用步骤1.2.1中的朴素贝叶斯分类器，生成预测函数，实现真阳性检验；

1.3建立网络言论疑似犯罪度计算模型，具体包括下列步骤：

1.3.1构建网络言论犯罪度向量，用表示：

其中：c₁,c₂...c_N为每条言论的类型数值或者类型坐标；有消极语义，数值为1；有需求得不到满足语义，数值为2；有为犯罪做准备语义，数值为3；无以上类型语义，数值为0；犯罪度向量用类似队列的数据结构存储；通过步骤1.2中需求因素、情绪因素和准备因素的判断方法，识别网络上某ID主页中最近N条言论类型，生成犯罪度向量，当言论更新时将最新言论的类型插入队尾，并删除队头；

1.3.2网络言论疑似犯罪度(CrimeDegreeofSpeech)：

其中：为向量的1范数，考虑到不是以需求为诱因，以心情为主导，而是行为人的自我实现需要本身就是反社会的，并会采取攻击行为来满足自身需求的情况，要对消极强度IoN做修正，将其中n改为犯罪度向量中坐标非0值的个数；

1.3.3通过网络爬虫程序自动抓取网络数据，通过步骤1.3.2中数学表达式(3)，计算出社交网络上各ID的网络言论疑似犯罪度，对CoS规定不同的阈值，划分不同的警戒线，分类显示。

2.按权利要求1所述的网络言论数据疑似犯罪度计算方法，其特征在于步骤1.2.1.2所述的停顿词指汉语中表示停顿、无实际意义的词。

3.按权利要求1所述的网络言论数据疑似犯罪度计算方法，其特征在于步骤1.2.1.2所述的分词是将一个句子分为若干单词的意思。

4.按权利要求1所述的网络言论数据疑似犯罪度计算方法，其特征在于步骤1.2.1.3所述的待用训练言论样本指用于分类器训练形成预测函数的言论数据。

5.按权利要求1所述的网络言论数据疑似犯罪度计算方法，其特征在于步骤1.2.1.3所述的待用测试言论样本指用于分类器测试，衡量分类器分类性能的言论数据。

6.按权利要求1所述的网络言论数据疑似犯罪度计算方法，其特征在于步骤1.2.2.2所述的正负号取反指若sV原来为正，则取负；sV原来为负，则取正。

7.按权利要求1所述的网络言论数据疑似犯罪度计算方法，其特征在于步骤1.2.2.2所述的程度词指表示程度的修饰词，如很、非常。

8.按权利要求1所述的网络言论数据疑似犯罪度计算方法，其特征在于步骤1.2.3.1所述的犯罪敏感词指有为犯罪做准备语义倾向的词语，如枪、买枪、炸药。

9.按权利要求1所述的网络言论数据疑似犯罪度计算方法，其特征在于步骤1.2.3.2所述的含有犯罪敏感词的言论中确实有为犯罪做准备语义倾向的言论，比如：“CF中我最喜欢的枪是AK47”、“加特林机关枪真是帅呆了”，但表达的并不是准备犯罪之意，归假阳性组。