CN105938481A

CN105938481A - 一种城市多模式文本数据的异常检测方法

Info

Publication number: CN105938481A
Application number: CN201610214201.0A
Authority: CN
Inventors: 吴柯; 王静远; 熊璋; 陈真勇
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2016-04-07
Filing date: 2016-04-07
Publication date: 2016-09-14

Abstract

本发明提供一种城市多模式文本数据的异常检测方法，在图模型的基础上，通过一种改进的TF‑IDF算法和主题模型针对单条文本语句进行主题分析后将结果作为知识先验Φ，再基于狄里赫雷分布得到针对所有文本的狄里赫雷先验α和一个多项分布θ_d，据此对单个文本进行标注并得到对应的标注结果。最后，根据单个文本和标注结果得到文本总体的主题分布。本发明相比在传统社交网络挖掘模型中，单一主题挖掘算法与实际情况对比差别较大的情况，采用主题模型与TF‑IDF算法结合的方法确定单条文本的主题，并构建图模型完成整体主题的预估，克服了对单条文本主题估计准确率不高的问题。并借助实际情况进行了算法验证工作，验证了发明的有效性。

Description

一种城市多模式文本数据的异常检测方法

技术领域

本发明涉及一种城市多模式文本数据的异常检测方法，旨在从大量在线的社交网络媒体数据进行知识发现，获取当前时间段内针对某一话题的网民情绪变化情况。属于数据挖掘领域。

背景技术

随着信息爆炸时代的来临，面对互联网上信息诸多种类，对民众的信息监管越发的困难。因为现实生活中，从事网络稽查、监管任务的工作人员数量与成亿计算的网民数量相比，简直是小巫见大巫。一个网络稽查工作者肯定无法监管数量如此之大的网民言论。因此借助计算机方法对网络进行监管，能够有效减轻工作人员的工作负担。群众言论信息有着极高的不可控性、复杂性、隐蔽性以及自发性。简单举例来说，如果张某在微博上发了一个帖子控诉某部门执法不公，并且帖子产生巨大影响，成百上千人进行转发，由于转发的人数众多，给相关部门产生了巨大的困扰，因此，相关部门打算采取法律手段对责任人进行制裁，但是由于网络的特殊性，这巨量的转发可能违背了张三的本意，因此张三可能也是受害者。再比如，之前有过激烈讨论的网络新闻暴力，当一个公众人物发表了一些微博，可能有成百上千的用户因为一些原因回帖进行谩骂指责，这种情况时有发生，这不仅干扰了公众人物的正常生活，侵害了他们的合法权益，也与我国建设和谐社会的目标不符。因此，类似事件都需要有较好的监管。

鉴于以上的观点，当前各种形式的社会化媒体，如微博、论坛、博客等的出现，一方面，民众可以随时随地、利用电脑辅助沟通工具向媒体平台发送文本、图片、语音、视频等信息，通过这些给人们提供了一个信息共享、意见表达、情感交流、思想交汇的平台；另一方面，这些用户创造的内容成为了人类的社会行为、社会关系向网络行为、网络关系转化和融合的纽带，使得不同国家、城市、组织和个人的信息可以通过网络迅速传播、扩散，产生各种各样的影响。正如前文所说，如果需要对城市事件有较好的监管，各部门需要有充足的精力和水平，投入大量的人力物力才能实现。与十年之前相比，中国的网民数量已经翻了好几翻，上网设备也从单一的电脑和普通手机转变成了多终端(手机、平板、笔记本电脑、台式机)多IP的上网形态。网民人数已经超过了6个亿，超过3亿人在用电脑写博客。单单使用微博的网民数量就超过了2.5个亿。在这巨大的用户群体面前，使用传统的信息管理和控制方法显然已经跟不上时代的超快速进程，正因为此，与文本理解进行结合，对网络言论、舆情进行掌控将会是一个极大的需求。

正因为如此强烈的网络舆情监管需求，才会有诸多新鲜技术为之服务。其中，文本信息挖掘则是很重要的一块。文本信息挖掘方法利用已有的文本信息进行文本主题、文本情感等信息的挖掘工作。作为一个新兴的研究领域，文本挖掘可以被视为是通过对文本进行分析得到最有用的信息，而利用文本信息挖掘方法的这一特征，能够对社交网络(微博、人人、Twitter等)中已有的用户言论进行汇总和总结，得到网民的舆论观点，特别是对事件的看法。因此，借助机器学习的手段对文本进行特征提取，得到文本对应的主题词、关键词，从而对网民的舆论和事件走向进行监测。

概率理论在现代模式识别领域起着决定性的作用，例如，依靠概率理论中的加法定律和乘法定律，可以简单的计算出一件特定的独立重复实验发生的概率。而作为概率论里面最基本的两个定律，加法定律和乘法定律结合可以得到成百上千种概率形式的组合，每一种组合都可能某一特定的独立重复实验。在机器学习领域，可以说，无论一件事情有多么的复杂，最终的概率形态依然是这两种定律的组合。

正因为此，科学家为了简化相关问题，希望针对概率论中的问题，进行进一步的简化计算，由于仅仅使用两个定律进行组合，因此科研人员想到利用图(diagram)的方法对加法定律和乘法定律的组合计算进行简化表示，这种表示方法就叫做图模型。图模型有以下几个优点：

第一，提供了一种较为简单的方法能够通过视觉方法直观得到概率模型的整体框架，这个框架还能够在未来进行复用，生成更新的模型。

第二，能够更清晰的了解模型的属性，包括各个组成部分是否独立，属性为何等等。

第三，通过直观的表述简化了概率模型的计算，在针对模型的学习和推测方面有较大的帮助。

概率论中最著名的两个定律就应该是加法定律和乘法定律。贝叶斯理论认为，两个事件的联合发生概率应该等于分别在已得到其他事件发生概率之后，某件事情发生概率的乘积。更清晰的说明就是，假设针对事件Y＝[y₁，y₂，y₃，y₄，…，y_n]，另一个事件的发生概率X＝x，那么这两者的联合分布概率应该为：

以上便是贝叶斯理论中的乘法定律。贝叶斯理论中的加法定律认为，对于完全独立的事件，如果两者之间不相互影响，即AB＝φ，那么则会有：

P(A+B)＝P(A)+P(B)

或者

P(A₁UA₂UA₃U...A_n)＝P(A₁)+P(A₂)+...+P(A_n)

图模型源自于概率论，结合上文介绍的加法、乘法定律，那么有：

假设针对a,b,c三个事件的联合分布，其概率为p(a，b，c)，根据乘法定律，有：

p(a，b，c)＝p(c|a，b)p(a，b)

同样，再次根据乘法定律，还可以有：

p(a，b，c)＝p(c|a，b)p(b|a)p(a)

这样一来，p(a，b，c)可以视为是事件a，b，c根据一定的先验得到的概率分布，亦即视为c是根据a，b的发生概率得到，b是根据a的发生概率得到，整个形式用图模型表达就如图3所示。

与基于数据的挖掘(如线性金融数据、非线性的周期物理数据)不一样的是，文本挖掘无法用一种非常标准的形式在数据库中进行存储，因此文本挖掘是一种非结构化的数据挖掘方法。因此直接用简单的线性分类、回归等算法是不可能解决文本挖掘的问题的。在现代研究中，文本挖掘领域一直在寻求能够自动获取文本语义或者交流语义的方法，虽然很难，但是每一位科学家都在做出自己的贡献。

现有的微博主题获取算法主要集中于针对单条微博的主题进行构建，或者统计主题的分布，针对某一特定主题的信息挖掘比较少。而且，在针对单一主题挖掘的方法中，大部分方法通过关键词过滤直接得到对应的文本，进行主题挖掘，这样会遗漏掉不属于关键词列表中的很大一部分数据。

发明内容

本发明技术解决问题：克服现有技术的不足，提供一种城市多模式文本数据的异常检测方法，克服了对单条文本主题估计准确率不高的问题，同时借助主题模型的方法，对微博进行挖掘，避免了数据的丢失。

本发明为基于Web文本数据的舆论情感分析。本发明主要应用场景为针对网络中已有的社交网络语义数据进行再挖掘工作。本发明主要使用的方案为基于图模型将隐含狄里赫雷方法与TF-IDF(Term Frequency–Inverse Document Frequency)方法进行结合，通过多种途径确定给定时段针对某一种话题的讨论情况。

TF-IDF方法本身过于简单，传统的TF-IDF方法将所有词语做同质化。特别是IDF部分，算法仅仅考虑了关键词和整个文档集中词语的个数比例关系，但是没有考虑到针对不同类别(话题)。因此，针对大量的文本数据集，可能在某一话题的文本中，某些词语出现频率较高，然而由于全局文档集中，包含了不少该话题的文本，导致这些出现频率较高的词语也因为其他文档中包含了，而被划归为了普通词语。因此，提出基于图模型的文本异常检测方法：

实现步骤如下：

步骤1：首先通过网络爬虫获取微博数据，得到文档集D，文档集D含有n条微博；

步骤2：每条微博均作为一个文档，文档集D为：D＝{d₁，d₂，d₃，…d_i，…，d_n-1，d_n}，其中，d_i代表在获得的微博数据库中的第i条微博；

步骤3：针对微博d，通过句法结构分析算法实现词语的提取，将微博d进行分词之后，微博d将包含由m个词语组成的句子，即：d_i＝{ω₁，ω₂，ω₃，ω₄，ω₅，…，ω_m}，每个微博句段由m个词语构成，其中ω_m代表的是第m个单词；

步骤4：在构成词语之后，将每篇微博分别进行TF-IDF即词频-逆向文档频率的分析，每个句子得到以下词典数据结构：

d_i＝{ω₁:prob₁，ω₂:prob₂，ω₃:prob₃，…，ωm:prob_m}，

每一个词典数据中的prob代表该词在整篇文档中所占的重要性比例；

步骤5：在针对微博d进行TF-IDF即词频逆向文档频率分析的同时，对文档中的每条微博进行隐含狄里赫雷分布的前期分析，提取出应使用的主题关键词，例如，针对空气污染，可能有若干关键词以及症状，如：感冒、支气管炎、肺结核、咽喉肿痛等，将关键词设置为关键词列表，构建list：L＝{ls₁，ls₂，ls₃，…，ls_n-1，ls_n}，其中ls代表词列表中的一个单词；

步骤6：对关键词列表构建的list和单词在整篇文章占比进行数据整合，统计已有的全部数据中TF-IDF关键词主题的分布情况；

步骤7：在得到TF-IDF提取的主题词后，构建图模型，通过吉布斯采样进行图模型的训练，训练的最终结果为得到图模型中的参数β即所在文章的主题分布；

步骤8：首先对单条微博进行统计分析，统计分析的内容包括统计微博中某一个单词的词频，得到词频列表wlist＝{ls₁，ls₂，ls₃，ls₄，…，ls_n-2，ls_n-1，ls_n}，其中ls代表词列表中的一个单词。统计出现了某一单词所在微博的个数，并得到词数字典；

{w₁:count₁，w₂:count₂，w₃:count₃，…，w_n-1:count_n-1，w_n:count_n}

步骤9：通过爬虫获取发送微博用户的用户属性，用户属性由用户注册之后的数据得到，将用户数据存储到数据库中：

{user₁:name，gender，region，age}，分别为{用户1：姓名，性别，所在地区，年龄}；

步骤10：根据步骤8中得到的词数字典，得到图模型中的先验，再通过图模型的方法实现大量微博主题提取；

步骤11：针对已有微博进行情感分析统计，首先，根据每条微博的发布人注册信息，建立位置定位情况，其次，借助步骤10中图模型得到的微博主题的分布，对应微博作者所在城市，得到每个城市针对某一主题(例如：空气污染)的微博发布比例，得出每个城市的讨论热烈程度，亦即得到用户情感分析。这样，就能够将微博中的空气讨论数据与实际的空气数据对应，得到不同城市的微博讨论和空气质量的关系。例如，有些城市(北京)空气质量比较一般，微博的讨论也比较激烈。有些城市空气质量比较好(广东)，微博讨论的则不那么激烈。

本发明与现有技术相比的有点在于：

(1)本发明相比在传统社交网络挖掘模型中，单一主题挖掘算法与实际情况对比差别较大的情况，采用主题模型与TF-IDF算法结合的方法确定单条文本的主题，并构建图模型完成整体主题的预估，克服了对单条文本主题估计准确率不高的问题，同时借助主题模型的方法，对微博进行挖掘，避免了数据的丢失。

(2)本发明微博的定位精度能够提高，并不局限于满足某关键词，这样对文本的预测精度大有提升。

(3)本发明在步骤10中使用了一种新颖的图模型方法完成了微博数据的主题提取工作，从而能够更精确地定位微博的主题分布，得到试验中想要的微博。

(4)本发明应用在真实的数据中，印证了提出方法的有效性。

附图说明

图1为本发明的流程图；该图主要分为两个部分，第一部分为单句微博分析部分，在右侧框图中，第二部分为整体微博分析部分，在左侧框图中。整个框架流程按照图中箭头走向所示；

图2为本发明使用的语义分析图模型；

图3为一个简单的图模型示意图。

具体实施方式

在应用本发明提出的基于Web文本数据挖掘的语义分析方法检测网络用户意见的时候，首先需要将数据进行先行获取，获取的方法可以简单的通过网站接口，也可以使用爬虫进行爬取。此外，在针对相关词语进行主题提取的时候需要先行归纳一个与研究的话题T相关的词语列表WL(wl₁，wl₂，wl₃，…，wl_n)该列表中包含了大量与话题相关的词语。

本发明的舆情分析方法主要依据该列表进行主题归纳和主题提取。在通过TF-IDF进行主题过滤的时候需要注意的是阈值设置问题。

本发明提出一种类内词语分布的计算式DI，其主要目的为计算在同一话题中，单词的分布差别，具体公式为：

其中n_i，j是单词t_i在第j个文本中的出现次数，而代表在所有文档中，单词t_i的平均出现次数，|D|为在文档集中文档的个数，因此，的计算公式为

这样，本发明将DI(t_i)作为一个单词重要性的权重，这样，在计算一个单词的TF-IDF值的时候，公式将变成：

公式前半部分为TF-IDF的原公式，后半部分则为改进的单词权重值，这样，针对主题文本计算将更为准确。

以微博数据为例，本发明的总体流程图将如附图1所示，在流程图中，主要分为两步。第一步主要作用为针微博数据进行单条语义的分析，称为步骤SG，另一步对单条语义进行汇集，得到整体的微博语义分析，称为步骤PG。

单条微博数据分析的步骤SG总共有7步，步骤如下：

SG1：首先通过爬虫获取微博数据，得到文档集D。

SG2：假设通过微博获得的文档集D含有n条微博，每条微博都作为一个文档，那么文档集D就可以写为：D＝{d₁，d₂，d₃，…，d_n-1，d_n}其中，d_i代表在通过爬虫获得的微博数据库中的第i条微博。

SG3：针对一条微博d_i，通过使用句法结构分析能够实现词语的提取，具体算法为基于前缀词典实现词语的扫描并形成图形结构，根据句子中的汉字组成，生成DAG(有向无环图)。再针对未输入到词典内的单词，采用隐马尔科夫模型进行汉字构词可能性计算，使用维特比算法进行求解。据此，将一条微博d_i进行分词之后，每条微博d_i将包含由m个词语组成的句子，亦即：d_i＝{ω₁，ω₂，ω₃，ω₄，ω₅，…，ω_m-1，ω_m}，每个微博句段由m个词语构成。

SG4：在构成词语之后，将每篇微博分别进行TF-IDF(词频-逆向文档频率)的分析，TF-IDF通过计算每个词语在本句中出现的概率，以及在文章中出现的概率，得到每个词是句子显著性词语的概率词典，即每个句子可得到以下词典数据结构：d_i＝{ω₁:prob₁，ω₂:prob₂，ω₃:prob₃，…，ω_m:prob_m}，每一个词典数据中的prob代表该词在整篇文档中所占的重要性比例。

SG5：在针对单条微博进行TF-IDF词频逆向文档频率分析的同时，对文档中的每条微博进行隐含狄里赫雷分布的前期分析，在此，提取出应使用的主题关键词，例如，针对空气污染，可能有若干关键词以及症状，如：感冒、支气管炎、肺结核、咽喉肿痛等，将关键词设置为关键词列表，构建list：L＝{ls₁，ls₂，ls₃，…，ls_n-1，ls_n}其中ls代表词列表中的一个单词。

SG6：本步结合SG4和SG5两步进行数据整合。主要为统计在数据库中计算得到的TF-IDF得到的主题。

SG7在得到TF-IDF提取的主题词后，根据构建如图2所示的图模型。通过吉布斯采样进行图模型的训练，训练的最终结果为得到图模型中的参数β即所在文章的主题分布。

SG步骤的主要目的为针对每一条微博语句进行的主题分析，其采用的手段主要有TF-IDF和主题词列表输入。而针对整篇文档进行分析需要使用图模型进行构建，概括起来应该如步骤PG所示。步骤PG总共分为5步。

PG1：首先对单条微博进行统计分析，统计分析的内容包括统计微博中某一个单词的词频，可以得到词频列表wlist＝{ls₁，ls₂，ls₃，ls₄，…，ls_n-2，ls_n-1，ls_n}，统计出现了某一单词所在微博的个数，并得到词数字典。

{w₁：count₁,w₂：count₂,w₃：count₃,…，w_n-1：count_n-1，w_n：count_n}

PG2：通过爬虫获取发送微博用户的用户属性，其属性一般由用户注册之后的数据得到，这样，通过网络爬虫获取用户数据并存储到数据库中，用户数据一般存储字段如下所示：{user₁:name，gender，region，age}(分别为{用户1：姓名，性别，所在地区，年龄}。

PG3：本步为文章核心，通过图模型的方法实现大量微博主题提取。图2所示的模型中，Λ_d为基于TF-IDF得到的微博关键词标注数据集，而本身这个数据集应该源自于已有的知识先验Φ。

θ_d为多项分布，其生成的依据为狄里赫雷先验知识α和关键词标注数据集Λ_d的贝叶斯组合，具体形式为：p(θ|Λ,α)＝p(θ|Λ)·p(θ|α)

ω为微博中的每一个单词，假设一条微博有N个单词组成，因此一条微博应该为：{ω|ω₁，ω₂，…，ω_n}。

z为单词库的标注数据，每个单词都会含有对应主题的标注，因此，对微博中任意一个单词，有ω_i：z_i。

β和η为主题先验，因此对于每一个主题k有k∶1......K，代表总共有k个主题，每一个主题都有一个多项分布β_k，多项分布β_k则服从狄里赫雷先验η，根据β可以对应文档中的每个词语。

PG3-1：采用如图2所示的图模型根据TF-IDF得到的各条微博关键字作为微博的补充知识，也就是图2中的Λ。假设每条微博都有一个对应的TF-IDF标注Λ_d，TF-IDF的结果即为微博的知识先验Φ。

PG3-2：基于狄里赫雷分布，得到针对所有微博的狄里赫雷先验α，得到一个多项分布θ_d，该多项分布为针对全局的微博的先验主题分布。

PG3-3：针对已有的多项分布θ_d，同时根据每个微博的TF-IDF知识Λ_d，对每个单词进行标注，因此对于每个单词ω，存在对应的标注z。最后，根据ω，z得到微博的主题分布β。

PG4：本步主要为针对已有微博进行情感分析统计，首先，根据每条微博的发布人注册信息，建立位置定位情况，其次，针对不同城市进行微博主题数的统计，得到每个城市针对某一主题(例如：空气污染)的微博发布比例，得出每个城市的讨论热烈程度，亦即得到用户情感分析。

在本发明的实现过程中，需要注意的是，在进行图模型知识训练的过程中，关键词列表需要人为给出，也就是说，在运用TF-IDF进行微博词语关键性计算的同时，需要有一个关键词列表对所有微博进行标注，得到某些微博与话题更相关，而某些微博更加无关。

另外，本发明需要重点注意图模型构建完成之后的情况，例如，通过隐含狄里赫雷方法生成的主题数量N可能非常大，但并不是所有主题都与需要监督的舆论正相关，因此需要做进一步的剔除工作，这个剔除工作一般是人工进行。

实施例

实施例采用的数据为微博实际数据。对页面进行了多次爬取，以获取足够多的微博数。为了达到实验目的，总共我们大约爬取了90万余条微博数据。表1展现出了在不同城市中，空气相关的微博占比与城市PM2.5数值之间的关系。其中包含污染的关键字所占比以及图模型定位的微博数量占比。需要提到的是，这里所说的占比是相对于所在城市的微博总数而言的，即：所得的微博数量占当前城市发表微博的总数。

从表中看以看出，单独微博关键字过滤的结果与均值的变化趋势基本相似，却并不能体现出当年PM2.5最高值的影响，而通过加入图模型对微博进行过滤，则能够比较好的体现出全年PM2.5最高值对用户言论产生的巨大影响。在对比全年PM2.5最高值可以看到，全年PM2.5的最高值会影响到群众发微博的占比，如果全年PM2.5与年均PM2.5均比较低，一般群众对PM2.5的讨论程度将不是非常热烈，而一旦全年或者年均的PM2.5比较高，那么就会显著影响到群众对在微博中的发言情况。因此，观察到的现象就是：微博占比的的大体趋势是与年均PM2.5相似的，当年均PM2.5较低时，用户微博讨论数就会相对减少，而较高时，讨论则会相对增多。然而，这讨论热烈程度又会受到当年PM2.5的最高值的影响，如果当年PM2.5的最高值比较高，那么微博占比也会比较高。

表1实验结果

总之，本发明相比在传统社交网络挖掘模型中，单一主题挖掘算法与实际情况对比差别较大的情况，采用主题模型与TF-IDF算法结合的方法确定单条文本的主题，并构建图模型完成整体主题的预估，克服了对单条文本主题估计准确率不高的问题。并借助实际情况进行了验证工作，验证了发明的有效性。

Claims

1.一种城市多模式文本数据的异常检测方法，其特征在于：以微博进行社交网络数据构建，分为两个过程，第一个过程作用为针微博数据进行单条语义的分析；第二个过程对单条语义进行汇集，得到整体的微博语义分析；其中：第一个过程实现步骤如下：

步骤2：每条微博均作为一个文档，文档集D为：D＝{d₁，d₂，d₃，...d_i，...，d_n-1，d_n}，其中，d_i代表在获得的微博数据库中的第i条微博；

步骤3：针对微博d，通过句法结构分析算法实现词语的提取，将微博d进行分词之后，微博d将包含由m个词语组成的句子，即：d_i＝{ω₁，ω₂，ω₃，ω₄，ω₅，...，ω_m}，每个微博句段由m个词语构成，其中ω_m代表的是第m个单词；

d_i＝{ω₁：prob₁，ω₂：prob₂，ω₃：prob₃，...，ω_m：prob_m}，

步骤5：在针对一条微博d进行TF-IDF即词频逆向文档频率分析的同时，对文档中的每条微博进行隐含狄里赫雷分布的前期分析，提取出应使用的主题关键词，将关键词设置为关键词列表，构建list：L＝{ls₁，ls₂，ls₃，...，ls_n-1，ls_n}，其中ls代表词列表中的一个单词；

第二个过程实现步骤如下：

步骤8：首先对单条微博进行统计分析，统计分析的内容包括统计微博中某一个单词的词频，得到词频列表wlist＝{ls₁，ls₂，ls₃，ls₄，...，ls_n-2，ls_n-1，ls_n}，其中ls代表词列表中的一个单词，统计出现了某一单词所在微博的个数，并得到词数字典

{_w1:count₁，w₂：count₂，w₃：count₃，...，w_n-1：count_n-1，w_n：count_n}；

{user₁：name，gender，region，age}，分别为{用户1：姓名，性别，所在地区，年龄}；

步骤11：针对已有微博进行情感分析统计，首先，根据每条微博的发布人注册信息，建立位置定位情况，然后借助步骤10中图模型得到的微博主题的分布，对应微博作者所在城市，得到每个城市针对某一主题的微博发布比例，得出每个城市的讨论热烈程度，亦即得到用户情感分析，这样，就能够将微博中的主题讨论数据与实际的主题数据对应，得到不同城市的微博讨论和主题的关系。

2.根据权利要求1所述的一种城市多模式文本数据的异常检测方法，其特征在于：所述步骤(3)中的通过句法结构分析算法实现词语的提取过程为：基于前缀词典实现词语的扫描并形成图形结构，根据句子中的汉字组成，生成DAG即有向无环图，再针对未输入到词典内的单词，采用隐马尔科夫模型进行汉字构词可能性计算，使用维特比算法进行求解，从而将一条微博d_i进行分词。

3.根据权利要求1所述的一种城市多模式文本数据的异常检测方法，其特征在于：所述步骤(4)中将每篇微博分别进行TF-IDF即词频-逆向文档频率的分析方法是：通过计算每个词语在本句中出现的概率，以及在文章中出现的概率，得到每个词是句子显著性词语的概率词典，即每个句子得到以下词典数据结构。