CN107093021A

CN107093021A - 电网工程物资合同履约诚信舆情监控系统

Info

Publication number: CN107093021A
Application number: CN201710267800.3A
Authority: CN
Inventors: 不公告发明人
Original assignee: Shenzhen City Creative Industry Technology Co Ltd
Current assignee: Shenzhen City Creative Industry Technology Co Ltd
Priority date: 2017-04-21
Filing date: 2017-04-21
Publication date: 2017-08-25

Abstract

电网工程物资合同卖方履约诚信舆情监控系统，包括IP确定模块、舆情信息采集模块、舆情信息处理模块、舆情信息管理模块和移动客户端，所述IP确定模块用于确定与电力行业相关的网页IP，述舆情信息采集模块用于搜集互联网上和电网工程物资合同履约情况相关的网页，所述舆情信息处理模块用于提取采集的网页信息的正文部分并进行网页特征项的提取和权重的计算，从而判断采集得到的网页是否为主题相关网页，所述用户管理模块用于向用户显示主题相关的网页，所述移动客户端为安装有相关应用的智能手机或平板电脑，用户可以通过移动客户端模块实时访问舆情信息管理模块的数据库单元，本发明的有益效果为：通过对网络舆情的监控，实时了解电网工程物资合同卖方履约诚信情况。

Description

电网工程物资合同履约诚信舆情监控系统

技术领域

本发明创造涉及舆情监控领域，具体涉及一种电网工程物资合同履约诚信舆情监控系统。

背景技术

电网工程物资是整个电网的基础，而电网工程物资合同卖方的履约情况，而电网工程物资合同卖方的履约情况关系到整个电力系统的物资供应。近年来，随着国民经济的快速发展激增了用电量的需求，加大了电网工程项目的建设，因此也产生了大量的电网工程物资合同，传统的物资合同管理方法通常在签订合同后建立专业的合同管理机构和人员进行实时了解和监管物资合同的履约情况，这种方法不仅增加了工作人员的工作量，而且不能有效预防物资合同的违约情况。

当今社会网络舆情的影响越来越大，受人民关注度越来越高的特点，通过对互联网舆情信息的获取和监控，便于通过民众的影响进行电网工程物资合同卖方履约情况的舆情监控，进一步实现良好的电网工程物资交易。

发明内容

针对上述问题，本发明旨在提供一种电网工程物资合同履约诚信舆情监控系统。

本发明创造的目的通过以下技术方案实现：

电网工程物资合同卖方履约诚信舆情监控系统，包括IP确定模块、舆情信息采集模块、舆情信息处理模块、舆情信息管理模块和移动客户端模块；

(1)IP确定模块：用于确定与电力行业相关的网页IP；

(2)舆情信息采集模块：设定IP确定模块确定的IP链接为种子链接，采用主题爬虫策略从此种子链接出发，搜集和电网工程物资合同履约主题相关的网页；

(3)舆情信息处理模块：用于提取采集的网页信息中的正文部分，从所述正文部分的中文分词结果中提取具有代表性的网页特征项并计算相应特征项的权重，从而进行网页分类；

(4)舆情信息管理模块：包括数据库单元、用户登录单元和信息检索单元，所述数据库单元用于存储舆情信息处理模块确定的主题相关网页，用户通过用户登录单元输入密码登录舆情信息管理模块，并可通过信息检索单元输入要检索的关键词进行电网工程物资合同履约情况的信息检索，信息检索单元即显示包含所述关键词的相关网页；

(5)移动客户端模块：为安装有相关应用的智能手机或平板电脑，用户可以通过移动客户端模块实时访问舆情信息管理模块的数据库单元，从而了解电网工程物资合同履约诚信情况。

本发明创造的有益效果：提出一种电网工程物资合同卖方履约诚信舆情监控系统，通过对具有较高可信度的新闻网页以及电力行业专用的门户网站的信息的抓取和科学有效的分析，得到了反应“电网工程物资合同履约”的舆情热点话题，实现了电网工程物资合同卖方履约诚信的有效监控。

附图说明

利用附图对发明创造作进一步说明，但附图中的实施例不构成对本发明创造的任何限制，对于本领域的普通技术人员，在不付出创造性劳动的前提下，还可以根据以下附图获得其它的附图。

图1是本发明结构示意图；

图2是本发明舆情信息采集模块结构示意图

图3是本发明舆情信息处理模块结构示意图。

图4是本发明舆情信息管理模块结构示意图。

附图标记：

IP确定模块1、舆情信息采集模块2；舆情信息处理模块3；舆情信息管理模块4；移动客户端模块5；主题设置单元21；电力猫接入单元22；舆情信息采集单元23；正文提取单元31；特征项提取单元32；网页分类单元33；数据库单元41、用户登录单元42；信息检索单元43。

具体实施方式

结合以下实施例对本发明作进一步描述。

参见图1、图2、图3和图4，本实施例的电网工程物资合同卖方履约诚信舆情监控系统，包括IP确定模块1、舆情信息采集模块2、舆情信息处理模块3、用户管理模块4和移动客户端5；

(1)IP确定模块1：用于确定与电力行业相关的网页IP；

(2)舆情信息采集模块2：设定所述IP确定模块1所确定的IP链接为种子链接，采用主题爬虫策略从此种子链接出发，搜集和电网工程物资合同履约主题相关的网页；

(3)舆情信息处理模块3：用于提取采集的网页信息中的正文部分，从所述正文部分的中文分词结果中提取具有代表性的网页特征项并计算相应特征项的权重，从而进行网页分类；

(4)舆情信息管理模块4：包括数据库单元41、用户登录单元42和信息检索单元43，所述数据库单元41用于存储舆情信息处理模块3确定的主题相关网页，用户通过用户登录单元42输入密码登录舆情信息管理模块4，并可通过信息检索单元43输入要检索的关键词进行电网工程物资合同履约情况的信息检索，信息检索单元43即显示包含所述关键词的相关网页；

(5)移动客户端模块5：为安装有相关应用的智能手机或平板电脑，用户可以通过移动客户端模块5实时访问舆情信息管理模块4的数据库单元41，从而了解电网工程物资合同履约诚信情况。

本优选实施例提出一种电网工程物资合同卖方履约诚信舆情监控系统，通过对互联网海量的信息的抓取和科学有效的分析，得到了反应“电网工程物资合同履约”的舆情热点话题，实现了电网工程物资合同卖方履约诚信的有效监控。

优选地，所述舆情信息采集模块2包括主题设置单元21、电力猫接入单元22和舆情信息采集单元23，所述主题设置单元21用于根据本系统的主题，设置主题初始关键词和主题爬虫的初始链接，所述电力猫接入单元22用于当判断电脑通过电力猫接入网络时，即令舆情信息采集单元23采用主题爬虫策略搜集主题相关的网页。

本优选实施例构成了本系统的舆情信息采集模块，规定只有在判断电脑通过电力猫接入网络时即令舆情信息采集单元进行采集，此时的网络相对稳定，提高了爬虫的可靠性和效率，此外，避免了系统一直进行网页爬虫造成的电脑资源消耗。

优选地，所述主题设置单元21采用主题爬虫策略搜集主题相关的网页，具体包括：

a.根据本系统的主题，设置主题初始关键词组G＝{“电网”、“电力物资”、“履约”、“物资合同”，“违约”}，设置关键词的权重分别为q_g1、q_g2、q_g3、q_g4和q_g5，则主题文档可以初步表示为W_g＝(t_g1,t_g2,t_g3,t_g4，t_g5),其中，t_g1、t_g2、t_g3、t_g4、t_g5分别代表关键词电网、电力物资、履约、物资合同和违约；

b.设置IP确定模块1所确定的IP为种子链接，主题爬虫从此种子链接出发，搜集主题相关网页；

c.从舆情处理模块3确定的各个主题相关网页中，提取权重较高的前h个特征项加入关键词组G，形成新的关键词组G。

本优选实施例在舆情信息采集模块通过设关键词和权值，可以确定爬虫的主题，在爬虫搜索的过程中，在通过添加主题相关网页中权重较高的特征项作为关键词，实现了最大程度的描述爬虫的主题范围。

优选地，所述舆情信息处理模块3包括正文提取单元31、特征项提取单元32和网页分类单元33，所述正文提取单元31用于根据电力行业网站的网页特点，采用文本分割的方式提取网页的正文部分，所述特征项提取单元32用于从正文部分的中文分词结果中提取具有代表性的特征项并计算所述特征项在文本中的权重，所述网页分类单元23用于判断采集得到的网页是否为主题相关网页。

优选地，所述正文提取单元31用于根据电力行业网站的网页特点，采用文本分割的方式提取网页的正文部分，具体包括；

a.将采集得到的电力行业网站的网页进行滤波处理，去除网页中的噪声部分；

b.从网页源文件中按顺序提取文本块，得到文本块集合A＝{a₁,a₂,……a_n}，对文本块集合中的每个文本块的字符数进行统计，并将统计结果存入数组B_i对应的位置处，数组B_i＝{b₁,b₂,……b_n}，对数组B_i进行处理，其计算公式为：

式中，b_i-1、b_i、b_i+1分别为文本块i-1、i、i+1的字符数总数，α₁、α₂、α₃分别为b_i-1、b_i、b_i+1的权重，且α₁、α₂、α₃>0；

c.定义文本块分界阈值f₁和f₂，则f₁和f₂分别为：

式中，n为文本块的总数，b_i为文本块i中的字符总数，ρ₁和ρ₂分别为文本块中的平均字符数和f₁的权重，ρ₁、ρ₂>0，且ρ₁+ρ₂＝1，v为数组B_i的分组数；

d.根据文本块字符数与分界阈值之间的关系进行正文部分提取，定义文本块子集C＝{b_i，b_i+1，……，b_i+m},其中i+m≤n,且C∈B，则当文本块子集C满足{b_i，b_i+1，……，b_i+m}中的值全部大于f₁且{b_i，b_i+1，……，b_i+m}中的值大于f₂的个数时，则判断文本块子集C为网页正文部分。

本优选实施例根据电力行业网站的网页特点，采用文本分割进行网页正文部分的提取，具有较高的提取精度并且有效减少文本块的遗漏，提高了本系统的监控精度。

优选地，所述特征提取单元32用于从正文部分的中文分词结果中提取具有代表性的特征项并计算特征项在文本中的权重，具体为：

a.采用一种改进的信息增益计算方法进行特征项的选择，定义采集得到的网页中类别为C_i(1≤i≤m)的文本有{w_i1,w_i2,……w_ie},则改进的信息增益IG(C_i,t_j)的计算方法为：

式中，u(t_j,C_i)为C_i类文本出现的特征词t_j的次数，p(t_j)为特征词t_j出现的概率，则为t_j不出现的概率，P(t_j|C_i)为特征词t_j存在的文本属于C_i类的概率，为t_j不存在的文本属于C_i类的概率，m为类别数，p(C_i)为C_i类文本出现的概率,q_ik(t_j)为特征项t_j在文本w_ik(1≤k≤e)中出现的频率，IG(C_i,t_j)为特征词t_j的信息增益值；

将计算所得的特征词的信息增益值按从大到小顺序排列，选取前n个特征词作为文本的特征项；

b.定义文本W_i的特征项为{t₁,t₂,……t_n}，则对应特征项的权重{w_i1,w_i2,……w_in}的计算公式为：

式中，w_ij表示特征项t_j在文本中W_i中的权重，而p_ij表示特征项t_j在文本W_i中出现的频率，H表示全部文本集中的文本数量，s_j表示文本集中包含t_j的文本数，b表示文本集中文本的数量，p_rj表示特征项t_j在文本W_r中的出现的频率。

本优选实施例提出在信息增益的计算过程中引进了词频和集中度这两个参数，增加了特征项的分类能力，有助于选出较有效的特征项,采用一种改进的权重计算方法，相较于传统的TFIDF计算权重方法，综合考虑了特征项对不同文本的影响程度大小，加大了文本之间的差异性，因此具有更优的分类效果。

优选地，所述网页分类单元33用于判断采集得到的网页是否为主题相关网页，定义采集得到的文档为采集得到的文档W_i＝(t_i1,t_i2,t_i3,……t_in)，主题文档为W_g＝(t_g1,t_g2,t_g3,……t_gv)，则文档W_i和文档W_g之间的文档相似性系数ω_ig的计算公式为：

…….

式中，ρ_ig为文档W_i和文档W_g之间的文档相似性系数，sim(t_i1,t_gl)为特征项t_i1和特征项t_gl的概念词语相似度,sim(t_i2,t_gl)为特征项t_i2和特征项t_gl的概念词语相似度，sim(t_in,t_gl)为特征项t_in和特征项t_gl的概念词语相似度，和表示文档W_i中的特征项t_i1、t_i2、t_in分别和文档W_g中所有特征项之间的概念词语相似度的最大值，w_ik和q_gl分别为特征项t_ik和t_gl的权重；

定义主题阈值为μ，判断系数为r，根据判断系数r的大小判断采集得到的文档W_i是否为与电网工程物资合同履约相关的网页，具体为：

式中，ρ_ig为文档W_i和文档W_g之间的文档相似性系数,μ为主题阈值；

当判断为主题相关网页时，即将网页送入数据库单元进行存储，并将主题相关网页中包含的链接加入主题爬虫的等待队列，当判断为非主题相关网页时即舍弃。

本优选实施例提出一种改进的文档相似性系数的计算方法，引进了特征项的权重进行文档相似性系数的计算，解决了不同特征项对文档的影响程度不同而造成的相似度系数差异较大的问题，此外，通过计算得到采集得到的文档和样本文档之间的文档相似性系数，按照设定的主题阈值来判断当前的网页是否为主题相关网页，能够较为有效的进行主题相关网页的判别。

基于上述实施例，根据采集得到的不同网页信息进行了一系列测试，以下是测试得到的评估结果：

从上述实施例可以观察到，网页筛选单元针对采集得到的不同网页信息进行网页分类具有较高精度，完全可以满足电网工程物资合同卖方履约诚信舆情监控系统的要求。

最后应当说明的是，以上实施例仅用以说明本发明的技术方案，而非对本发明保护范围的限制，尽管参照较佳实施例对本发明作了详细地说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的实质和范围。

Claims

1.电网工程物资合同卖方履约诚信舆情监控系统，其特征是，包括IP确定模块、舆情信息采集模块、舆情信息处理模块、舆情信息管理模块和移动客户端模块；

(1)IP确定模块：用于确定与电力行业相关的网页IP；

2.根据权利要求1所述的电网工程物资合同卖方履约诚信舆情监控系统，其特征是，所述舆情信息采集模块包括主题设置单元、电力猫接入单元和舆情信息采集单元，所述主题设置单元用于根据本系统的主题，设置主题关键词和主题爬虫的初始链接，所述电力猫接入单元用于判断电脑通过电力猫接入网络时，即令舆情信息采集单元采用主题爬虫策略搜集主题相关的网页。

3.根据权利要求2所述的电网工程物资合同卖方履约诚信舆情监控系统，其特征是，所述主题设置单元用于根据本系统的主题，设置主题初始关键词和主题爬虫的初始链接，具体包括：

a.根据本系统的主题，设置主题初始关键词组G＝{“电网”、“电力物资”、“履约”、“物资合同”，“违约”}，设置关键词的权重分别为q_g1、q_g2、q_g3、q_g4和q_g5，则主题文档可以初步表示为W_g＝(t_g1,t_g2,t_g3,t_g4,t_g5),其中，t_g1、t_g2、t_g3、t_g4、t_g5分别代表关键词电网、电力物资、履约、物资合同和违约；

b.设置IP确定模块所确定的IP为种子链接，主题爬虫从此种子链接出发，搜集主题相关网页；

c.从舆情处理模块确定的各个主题相关网页中，提取权重较高的前h个特征项加入关键词组G，形成新的关键词组G。

4.根据权利要求3所述的电网工程物资合同卖方履约诚信舆情监控系统，其特征是，所述舆情信息处理模块包括正文提取单元、特征项提取单元和网页分类单元，所述正文提取单元用于根据电力行业网站的网页特点，采用文本分割的方式提取网页的正文部分，所述特征项提取单元用于从正文部分的中文分词结果中提取具有代表性的特征项并计算特征项在文本中的权重，所述网页分类单元用于判断采集得到的网页是否为主题相关网页。

5.根据权利要求4所述的电网工程物资合同卖方履约诚信舆情监控系统，其特征是，所述正文提取单元用于根据电力行业网站的网页特点，采用文本分割的方式提取网页的正文部分，具体包括：

<mrow> <msub> <mi>b</mi> <mi>i</mi> </msub> <mo>=</mo> <mfrac> <mrow> <msub> <mi>&alpha;</mi> <mn>1</mn> </msub> <msub> <mi>b</mi> <mrow> <mi>i</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>+</mo> <msub> <mi>&alpha;</mi> <mn>2</mn> </msub> <msub> <mi>b</mi> <mi>i</mi> </msub> <mo>+</mo> <msub> <mi>&alpha;</mi> <mn>3</mn> </msub> <msub> <mi>b</mi> <mrow> <mi>i</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> </mrow> <mrow> <msub> <mi>&alpha;</mi> <mn>1</mn> </msub> <mo>+</mo> <msub> <mi>&alpha;</mi> <mn>2</mn> </msub> <mo>+</mo> <msub> <mi>&alpha;</mi> <mn>3</mn> </msub> </mrow> </mfrac> <mo>,</mo> <mrow> <mo>(</mo> <mi>i</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mo>...</mo> <mo>...</mo> <mo>,</mo> <mi>n</mi> <mo>)</mo> </mrow> </mrow>

c.定义文本块分界阈值f₁和f₂，则f₁和f₂分别为：

<mrow> <msub> <mi>f</mi> <mn>2</mn> </msub> <mo>=</mo> <msub> <mi>&rho;</mi> <mn>1</mn> </msub> <mfrac> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>n</mi> </msubsup> <msub> <mi>b</mi> <mi>i</mi> </msub> </mrow> <mi>n</mi> </mfrac> <mo>+</mo> <msub> <mi>&rho;</mi> <mn>2</mn> </msub> <msub> <mi>f</mi> <mn>1</mn> </msub> </mrow>

式中，n为文本块的总数，b_i为文本块i中的字符总数，ρ₁和ρ₂分别为文本块中的平均字符数和f₁的权重，ρ₁、ρ₂>0，且ρ₁+ρ₂＝1,v为对数组B_i的分组数；

d.根据文本块字符数与分界阈值之间的关系进行正文部分提取，定义文本块子集C＝{b_i，b_i+1，……，b_i+m},其中i+m≤n,且C∈B，则当文本块子集C满足{b_i，b_i+1，……，b_i+m}中的值全部大于f₁且{b_i，b_i+1，……，b_i+m}中的值大于f₂的个数时，则文本块子集C为网页正文部分。

6.根据权利要求4所述的电网工程物资合同卖方履约诚信舆情监控系统，其特征是，所述特征项提取单元用于从正文部分的中文分词结果中提取具有代表性的特征项并计算特征项在文本中的权重，具体包括：

<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>I</mi> <mi>G</mi> <mrow> <mo>(</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>t</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>u</mi> <mrow> <mo>(</mo> <msub> <mi>t</mi> <mi>j</mi> </msub> <mo>,</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </msubsup> <mi>u</mi> <mrow> <mo>(</mo> <msub> <mi>t</mi> <mi>j</mi> </msub> <mo>,</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mrow> <mo>(</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <mo>&lsqb;</mo> <mi>P</mi> <mo>(</mo> <msub> <mi>t</mi> <mi>j</mi> </msub> <mo>|</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mi>ln</mi> <mfrac> <mrow> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>t</mi> <mi>j</mi> </msub> <mo>|</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>t</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>+</mo> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mover> <mi>t</mi> <mo>&OverBar;</mo> </mover> <mi>j</mi> </msub> <mo>|</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mi>ln</mi> <mfrac> <mrow> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mover> <mi>t</mi> <mo>&OverBar;</mo> </mover> <mi>j</mi> </msub> <mo>|</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mover> <mi>t</mi> <mo>&OverBar;</mo> </mover> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>)</mo> <msup> <mi>ln</mi> <mrow> <mo>(</mo> <mn>1</mn> <mo>+</mo> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>e</mi> </msubsup> <mfrac> <mrow> <msub> <mi>q</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>t</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <munder> <mi>max</mi> <mrow> <mn>1</mn> <mo>&le;</mo> <mi>k</mi> <mo>&le;</mo> <mi>e</mi> </mrow> </munder> <msub> <mi>q</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>t</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>)</mo> </mrow> </msup> </mrow> </mtd> </mtr> </mtable> </mfenced>

<mrow> <msub> <mi>w</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <msqrt> <mfrac> <msub> <mi>p</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <msup> <mi>e</mi> <mrow> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>r</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>b</mi> </msubsup> <msub> <mi>p</mi> <mrow> <mi>r</mi> <mi>j</mi> </mrow> </msub> </mrow> </msup> </mfrac> </msqrt> <mo>*</mo> <mi>ln</mi> <mrow> <mo>(</mo> <mfrac> <mi>H</mi> <msub> <mi>s</mi> <mi>j</mi> </msub> </mfrac> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow> <msqrt> <mrow> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msup> <mrow> <mo>(</mo> <msub> <mi>p</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>*</mo> <mi>ln</mi> <mo>(</mo> <mrow> <mfrac> <mi>H</mi> <msub> <mi>s</mi> <mi>j</mi> </msub> </mfrac> <mo>+</mo> <mn>1</mn> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> </mfrac> <mo>,</mo> <mrow> <mo>(</mo> <mi>j</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2......</mn> <mi>n</mi> <mo>)</mo> </mrow> </mrow>

式中，w_ij表示特征项t_j在文本中W_i中的权重，而p_ij表示特征项t_j在文本W_i中出现的频率，H表示全部文本集中的文本数量，s_j表示文本集中包含t_j的文本数，b表示文本集中文本的数量，p_rj表示特征项t_j在文本W_r中出现频率。

7.根据权利要求4所述的电网工程物资合同卖方履约诚信舆情监控系统，其特征是，所述网页分类单元用于判断采集得到的网页是否为主题相关网页，定义采集得到的文档为W_i＝(t_i1,t_i2,t_i3,……t_in)，描述主题文档为W_g＝(t_g1,t_g2,t_g3,……t_gv)，则文档W_i和文档W_g之间的文档相似性系数ω_ig的计算公式为：

<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <msub> <mi>f</mi> <mrow> <mo>(</mo> <msub> <mi>t</mi> <mrow> <mi>i</mi> <mn>1</mn> </mrow> </msub> <mo>,</mo> <msub> <mi>t</mi> <mrow> <mi>g</mi> <mi>l</mi> </mrow> </msub> <mo>)</mo> </mrow> </msub> <mo>=</mo> <munder> <mi>max</mi> <mrow> <mn>1</mn> <mo>&le;</mo> <mi>l</mi> <mo>&le;</mo> <mi>v</mi> </mrow> </munder> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>t</mi> <mrow> <mi>i</mi> <mn>1</mn> </mrow> </msub> <mo>,</mo> <msub> <mi>t</mi> <mrow> <mi>g</mi> <mi>l</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>f</mi> <mrow> <mo>(</mo> <msub> <mi>t</mi> <mrow> <mi>i</mi> <mn>2</mn> </mrow> </msub> <mo>,</mo> <msub> <mi>t</mi> <mrow> <mi>g</mi> <mi>l</mi> </mrow> </msub> <mo>)</mo> </mrow> </msub> <mo>=</mo> <munder> <mi>max</mi> <mrow> <mn>1</mn> <mo>&le;</mo> <mi>l</mi> <mo>&le;</mo> <mi>v</mi> </mrow> </munder> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>t</mi> <mrow> <mi>i</mi> <mn>2</mn> </mrow> </msub> <mo>,</mo> <msub> <mi>t</mi> <mrow> <mi>g</mi> <mi>l</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mn>......</mn> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>f</mi> <mrow> <mo>(</mo> <msub> <mi>t</mi> <mrow> <mi>i</mi> <mi>n</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>t</mi> <mrow> <mi>g</mi> <mi>l</mi> </mrow> </msub> <mo>)</mo> </mrow> </msub> <mo>=</mo> <munder> <mi>max</mi> <mrow> <mn>1</mn> <mo>&le;</mo> <mi>l</mi> <mo>&le;</mo> <mi>v</mi> </mrow> </munder> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>t</mi> <mrow> <mi>i</mi> <mi>n</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>t</mi> <mrow> <mi>g</mi> <mi>l</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>&rho;</mi> <mrow> <mi>i</mi> <mi>g</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msub> <mi>f</mi> <mrow> <mo>(</mo> <msub> <mi>t</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>t</mi> <mrow> <mi>g</mi> <mi>l</mi> </mrow> </msub> <mo>)</mo> <msup> <mi>e</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> </msub> <mo>+</mo> <msub> <mi>q</mi> <mrow> <mi>g</mi> <mi>l</mi> </mrow> </msub> <mo>)</mo> </mrow> </msup> </mrow> </msub> </mrow> <mrow> <mi>n</mi> <mo>*</mo> <mi>v</mi> </mrow> </mfrac> </mrow> </mtd> </mtr> </mtable> </mfenced>