CN107093021A - 电网工程物资合同履约诚信舆情监控系统 - Google Patents
电网工程物资合同履约诚信舆情监控系统 Download PDFInfo
- Publication number
- CN107093021A CN107093021A CN201710267800.3A CN201710267800A CN107093021A CN 107093021 A CN107093021 A CN 107093021A CN 201710267800 A CN201710267800 A CN 201710267800A CN 107093021 A CN107093021 A CN 107093021A
- Authority
- CN
- China
- Prior art keywords
- mrow
- msub
- text
- mfrac
- theme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 239000000463 material Substances 0.000 title claims abstract description 52
- 230000005611 electricity Effects 0.000 title claims abstract description 39
- 238000012544 monitoring process Methods 0.000 title claims abstract description 22
- 230000010365 information processing Effects 0.000 claims abstract description 15
- 238000000605 extraction Methods 0.000 claims abstract description 11
- 230000011218 segmentation Effects 0.000 claims description 12
- 239000000284 extract Substances 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000000205 computational method Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 4
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 241000270322 Lepidosauria Species 0.000 description 5
- 238000000034 method Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 241000239290 Araneae Species 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Health & Medical Sciences (AREA)
- Marketing (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- Public Health (AREA)
- Primary Health Care (AREA)
- Water Supply & Treatment (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- General Health & Medical Sciences (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
电网工程物资合同卖方履约诚信舆情监控系统,包括IP确定模块、舆情信息采集模块、舆情信息处理模块、舆情信息管理模块和移动客户端,所述IP确定模块用于确定与电力行业相关的网页IP,述舆情信息采集模块用于搜集互联网上和电网工程物资合同履约情况相关的网页,所述舆情信息处理模块用于提取采集的网页信息的正文部分并进行网页特征项的提取和权重的计算,从而判断采集得到的网页是否为主题相关网页,所述用户管理模块用于向用户显示主题相关的网页,所述移动客户端为安装有相关应用的智能手机或平板电脑,用户可以通过移动客户端模块实时访问舆情信息管理模块的数据库单元,本发明的有益效果为:通过对网络舆情的监控,实时了解电网工程物资合同卖方履约诚信情况。
Description
技术领域
本发明创造涉及舆情监控领域,具体涉及一种电网工程物资合同履约诚信舆情监控系统。
背景技术
电网工程物资是整个电网的基础,而电网工程物资合同卖方的履约情况,而电网工程物资合同卖方的履约情况关系到整个电力系统的物资供应。近年来,随着国民经济的快速发展激增了用电量的需求,加大了电网工程项目的建设,因此也产生了大量的电网工程物资合同,传统的物资合同管理方法通常在签订合同后建立专业的合同管理机构和人员进行实时了解和监管物资合同的履约情况,这种方法不仅增加了工作人员的工作量,而且不能有效预防物资合同的违约情况。
当今社会网络舆情的影响越来越大,受人民关注度越来越高的特点,通过对互联网舆情信息的获取和监控,便于通过民众的影响进行电网工程物资合同卖方履约情况的舆情监控,进一步实现良好的电网工程物资交易。
发明内容
针对上述问题,本发明旨在提供一种电网工程物资合同履约诚信舆情监控系统。
本发明创造的目的通过以下技术方案实现:
电网工程物资合同卖方履约诚信舆情监控系统,包括IP确定模块、舆情信息采集模块、舆情信息处理模块、舆情信息管理模块和移动客户端模块;
(1)IP确定模块:用于确定与电力行业相关的网页IP;
(2)舆情信息采集模块:设定IP确定模块确定的IP链接为种子链接,采用主题爬虫策略从此种子链接出发,搜集和电网工程物资合同履约主题相关的网页;
(3)舆情信息处理模块:用于提取采集的网页信息中的正文部分,从所述正文部分的中文分词结果中提取具有代表性的网页特征项并计算相应特征项的权重,从而进行网页分类;
(4)舆情信息管理模块:包括数据库单元、用户登录单元和信息检索单元,所述数据库单元用于存储舆情信息处理模块确定的主题相关网页,用户通过用户登录单元输入密码登录舆情信息管理模块,并可通过信息检索单元输入要检索的关键词进行电网工程物资合同履约情况的信息检索,信息检索单元即显示包含所述关键词的相关网页;
(5)移动客户端模块:为安装有相关应用的智能手机或平板电脑,用户可以通过移动客户端模块实时访问舆情信息管理模块的数据库单元,从而了解电网工程物资合同履约诚信情况。
本发明创造的有益效果:提出一种电网工程物资合同卖方履约诚信舆情监控系统,通过对具有较高可信度的新闻网页以及电力行业专用的门户网站的信息的抓取和科学有效的分析,得到了反应“电网工程物资合同履约”的舆情热点话题,实现了电网工程物资合同卖方履约诚信的有效监控。
附图说明
利用附图对发明创造作进一步说明,但附图中的实施例不构成对本发明创造的任何限制,对于本领域的普通技术人员,在不付出创造性劳动的前提下,还可以根据以下附图获得其它的附图。
图1是本发明结构示意图;
图2是本发明舆情信息采集模块结构示意图
图3是本发明舆情信息处理模块结构示意图。
图4是本发明舆情信息管理模块结构示意图。
附图标记:
IP确定模块1、舆情信息采集模块2;舆情信息处理模块3;舆情信息管理模块4;移动客户端模块5;主题设置单元21;电力猫接入单元22;舆情信息采集单元23;正文提取单元31;特征项提取单元32;网页分类单元33;数据库单元41、用户登录单元42;信息检索单元43。
具体实施方式
结合以下实施例对本发明作进一步描述。
参见图1、图2、图3和图4,本实施例的电网工程物资合同卖方履约诚信舆情监控系统,包括IP确定模块1、舆情信息采集模块2、舆情信息处理模块3、用户管理模块4和移动客户端5;
(1)IP确定模块1:用于确定与电力行业相关的网页IP;
(2)舆情信息采集模块2:设定所述IP确定模块1所确定的IP链接为种子链接,采用主题爬虫策略从此种子链接出发,搜集和电网工程物资合同履约主题相关的网页;
(3)舆情信息处理模块3:用于提取采集的网页信息中的正文部分,从所述正文部分的中文分词结果中提取具有代表性的网页特征项并计算相应特征项的权重,从而进行网页分类;
(4)舆情信息管理模块4:包括数据库单元41、用户登录单元42和信息检索单元43,所述数据库单元41用于存储舆情信息处理模块3确定的主题相关网页,用户通过用户登录单元42输入密码登录舆情信息管理模块4,并可通过信息检索单元43输入要检索的关键词进行电网工程物资合同履约情况的信息检索,信息检索单元43即显示包含所述关键词的相关网页;
(5)移动客户端模块5:为安装有相关应用的智能手机或平板电脑,用户可以通过移动客户端模块5实时访问舆情信息管理模块4的数据库单元41,从而了解电网工程物资合同履约诚信情况。
本优选实施例提出一种电网工程物资合同卖方履约诚信舆情监控系统,通过对互联网海量的信息的抓取和科学有效的分析,得到了反应“电网工程物资合同履约”的舆情热点话题,实现了电网工程物资合同卖方履约诚信的有效监控。
优选地,所述舆情信息采集模块2包括主题设置单元21、电力猫接入单元22和舆情信息采集单元23,所述主题设置单元21用于根据本系统的主题,设置主题初始关键词和主题爬虫的初始链接,所述电力猫接入单元22用于当判断电脑通过电力猫接入网络时,即令舆情信息采集单元23采用主题爬虫策略搜集主题相关的网页。
本优选实施例构成了本系统的舆情信息采集模块,规定只有在判断电脑通过电力猫接入网络时即令舆情信息采集单元进行采集,此时的网络相对稳定,提高了爬虫的可靠性和效率,此外,避免了系统一直进行网页爬虫造成的电脑资源消耗。
优选地,所述主题设置单元21采用主题爬虫策略搜集主题相关的网页,具体包括:
a.根据本系统的主题,设置主题初始关键词组G={“电网”、“电力物资”、“履约”、“物资合同”,“违约”},设置关键词的权重分别为qg1、qg2、qg3、qg4和qg5,则主题文档可以初步表示为Wg=(tg1,tg2,tg3,tg4,tg5),其中,tg1、tg2、tg3、tg4、tg5分别代表关键词电网、电力物资、履约、物资合同和违约;
b.设置IP确定模块1所确定的IP为种子链接,主题爬虫从此种子链接出发,搜集主题相关网页;
c.从舆情处理模块3确定的各个主题相关网页中,提取权重较高的前h个特征项加入关键词组G,形成新的关键词组G。
本优选实施例在舆情信息采集模块通过设关键词和权值,可以确定爬虫的主题,在爬虫搜索的过程中,在通过添加主题相关网页中权重较高的特征项作为关键词,实现了最大程度的描述爬虫的主题范围。
优选地,所述舆情信息处理模块3包括正文提取单元31、特征项提取单元32和网页分类单元33,所述正文提取单元31用于根据电力行业网站的网页特点,采用文本分割的方式提取网页的正文部分,所述特征项提取单元32用于从正文部分的中文分词结果中提取具有代表性的特征项并计算所述特征项在文本中的权重,所述网页分类单元23用于判断采集得到的网页是否为主题相关网页。
优选地,所述正文提取单元31用于根据电力行业网站的网页特点,采用文本分割的方式提取网页的正文部分,具体包括;
a.将采集得到的电力行业网站的网页进行滤波处理,去除网页中的噪声部分;
b.从网页源文件中按顺序提取文本块,得到文本块集合A={a1,a2,……an},对文本块集合中的每个文本块的字符数进行统计,并将统计结果存入数组Bi对应的位置处,数组Bi={b1,b2,……bn},对数组Bi进行处理,其计算公式为:
式中,bi-1、bi、bi+1分别为文本块i-1、i、i+1的字符数总数,α1、α2、α3分别为bi-1、bi、bi+1的权重,且α1、α2、α3>0;
c.定义文本块分界阈值f1和f2,则f1和f2分别为:
式中,n为文本块的总数,bi为文本块i中的字符总数,ρ1和ρ2分别为文本块中的平均字符数和f1的权重,ρ1、ρ2>0,且ρ1+ρ2=1,v为数组Bi的分组数;
d.根据文本块字符数与分界阈值之间的关系进行正文部分提取,定义文本块子集C={bi,bi+1,……,bi+m},其中i+m≤n,且C∈B,则当文本块子集C满足{bi,bi+1,……,bi+m}中的值全部大于f1且{bi,bi+1,……,bi+m}中的值大于f2的个数时,则判断文本块子集C为网页正文部分。
本优选实施例根据电力行业网站的网页特点,采用文本分割进行网页正文部分的提取,具有较高的提取精度并且有效减少文本块的遗漏,提高了本系统的监控精度。
优选地,所述特征提取单元32用于从正文部分的中文分词结果中提取具有代表性的特征项并计算特征项在文本中的权重,具体为:
a.采用一种改进的信息增益计算方法进行特征项的选择,定义采集得到的网页中类别为Ci(1≤i≤m)的文本有{wi1,wi2,……wie},则改进的信息增益IG(Ci,tj)的计算方法为:
式中,u(tj,Ci)为Ci类文本出现的特征词tj的次数,p(tj)为特征词tj出现的概率,则为tj不出现的概率,P(tj|Ci)为特征词tj存在的文本属于Ci类的概率,为tj不存在的文本属于Ci类的概率,m为类别数,p(Ci)为Ci类文本出现的概率,qik(tj)为特征项tj在文本wik(1≤k≤e)中出现的频率,IG(Ci,tj)为特征词tj的信息增益值;
将计算所得的特征词的信息增益值按从大到小顺序排列,选取前n个特征词作为文本的特征项;
b.定义文本Wi的特征项为{t1,t2,……tn},则对应特征项的权重{wi1,wi2,……win}的计算公式为:
式中,wij表示特征项tj在文本中Wi中的权重,而pij表示特征项tj在文本Wi中出现的频率,H表示全部文本集中的文本数量,sj表示文本集中包含tj的文本数,b表示文本集中文本的数量,prj表示特征项tj在文本Wr中的出现的频率。
本优选实施例提出在信息增益的计算过程中引进了词频和集中度这两个参数,增加了特征项的分类能力,有助于选出较有效的特征项,采用一种改进的权重计算方法,相较于传统的TFIDF计算权重方法,综合考虑了特征项对不同文本的影响程度大小,加大了文本之间的差异性,因此具有更优的分类效果。
优选地,所述网页分类单元33用于判断采集得到的网页是否为主题相关网页,定义采集得到的文档为采集得到的文档Wi=(ti1,ti2,ti3,……tin),主题文档为Wg=(tg1,tg2,tg3,……tgv),则文档Wi和文档Wg之间的文档相似性系数ωig的计算公式为:
…….
式中,ρig为文档Wi和文档Wg之间的文档相似性系数,sim(ti1,tgl)为特征项ti1和特征项tgl的概念词语相似度,sim(ti2,tgl)为特征项ti2和特征项tgl的概念词语相似度,sim(tin,tgl)为特征项tin和特征项tgl的概念词语相似度,和表示文档Wi中的特征项ti1、ti2、tin分别和文档Wg中所有特征项之间的概念词语相似度的最大值,wik和qgl分别为特征项tik和tgl的权重;
定义主题阈值为μ,判断系数为r,根据判断系数r的大小判断采集得到的文档Wi是否为与电网工程物资合同履约相关的网页,具体为:
式中,ρig为文档Wi和文档Wg之间的文档相似性系数,μ为主题阈值;
当判断为主题相关网页时,即将网页送入数据库单元进行存储,并将主题相关网页中包含的链接加入主题爬虫的等待队列,当判断为非主题相关网页时即舍弃。
本优选实施例提出一种改进的文档相似性系数的计算方法,引进了特征项的权重进行文档相似性系数的计算,解决了不同特征项对文档的影响程度不同而造成的相似度系数差异较大的问题,此外,通过计算得到采集得到的文档和样本文档之间的文档相似性系数,按照设定的主题阈值来判断当前的网页是否为主题相关网页,能够较为有效的进行主题相关网页的判别。
基于上述实施例,根据采集得到的不同网页信息进行了一系列测试,以下是测试得到的评估结果:
从上述实施例可以观察到,网页筛选单元针对采集得到的不同网页信息进行网页分类具有较高精度,完全可以满足电网工程物资合同卖方履约诚信舆情监控系统的要求。
最后应当说明的是,以上实施例仅用以说明本发明的技术方案,而非对本发明保护范围的限制,尽管参照较佳实施例对本发明作了详细地说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的实质和范围。
Claims (7)
1.电网工程物资合同卖方履约诚信舆情监控系统,其特征是,包括IP确定模块、舆情信息采集模块、舆情信息处理模块、舆情信息管理模块和移动客户端模块;
(1)IP确定模块:用于确定与电力行业相关的网页IP;
(2)舆情信息采集模块:设定IP确定模块确定的IP链接为种子链接,采用主题爬虫策略从此种子链接出发,搜集和电网工程物资合同履约主题相关的网页;
(3)舆情信息处理模块:用于提取采集的网页信息中的正文部分,从所述正文部分的中文分词结果中提取具有代表性的网页特征项并计算相应特征项的权重,从而进行网页分类;
(4)舆情信息管理模块:包括数据库单元、用户登录单元和信息检索单元,所述数据库单元用于存储舆情信息处理模块确定的主题相关网页,用户通过用户登录单元输入密码登录舆情信息管理模块,并可通过信息检索单元输入要检索的关键词进行电网工程物资合同履约情况的信息检索,信息检索单元即显示包含所述关键词的相关网页;
(5)移动客户端模块:为安装有相关应用的智能手机或平板电脑,用户可以通过移动客户端模块实时访问舆情信息管理模块的数据库单元,从而了解电网工程物资合同履约诚信情况。
2.根据权利要求1所述的电网工程物资合同卖方履约诚信舆情监控系统,其特征是,所述舆情信息采集模块包括主题设置单元、电力猫接入单元和舆情信息采集单元,所述主题设置单元用于根据本系统的主题,设置主题关键词和主题爬虫的初始链接,所述电力猫接入单元用于判断电脑通过电力猫接入网络时,即令舆情信息采集单元采用主题爬虫策略搜集主题相关的网页。
3.根据权利要求2所述的电网工程物资合同卖方履约诚信舆情监控系统,其特征是,所述主题设置单元用于根据本系统的主题,设置主题初始关键词和主题爬虫的初始链接,具体包括:
a.根据本系统的主题,设置主题初始关键词组G={“电网”、“电力物资”、“履约”、“物资合同”,“违约”},设置关键词的权重分别为qg1、qg2、qg3、qg4和qg5,则主题文档可以初步表示为Wg=(tg1,tg2,tg3,tg4,tg5),其中,tg1、tg2、tg3、tg4、tg5分别代表关键词电网、电力物资、履约、物资合同和违约;
b.设置IP确定模块所确定的IP为种子链接,主题爬虫从此种子链接出发,搜集主题相关网页;
c.从舆情处理模块确定的各个主题相关网页中,提取权重较高的前h个特征项加入关键词组G,形成新的关键词组G。
4.根据权利要求3所述的电网工程物资合同卖方履约诚信舆情监控系统,其特征是,所述舆情信息处理模块包括正文提取单元、特征项提取单元和网页分类单元,所述正文提取单元用于根据电力行业网站的网页特点,采用文本分割的方式提取网页的正文部分,所述特征项提取单元用于从正文部分的中文分词结果中提取具有代表性的特征项并计算特征项在文本中的权重,所述网页分类单元用于判断采集得到的网页是否为主题相关网页。
5.根据权利要求4所述的电网工程物资合同卖方履约诚信舆情监控系统,其特征是,所述正文提取单元用于根据电力行业网站的网页特点,采用文本分割的方式提取网页的正文部分,具体包括:
a.将采集得到的电力行业网站的网页进行滤波处理,去除网页中的噪声部分;
b.从网页源文件中按顺序提取文本块,得到文本块集合A={a1,a2,……an},对文本块集合中的每个文本块的字符数进行统计,并将统计结果存入数组Bi对应的位置处,数组Bi={b1,b2,……bn},对数组Bi进行处理,其计算公式为:
<mrow>
<msub>
<mi>b</mi>
<mi>i</mi>
</msub>
<mo>=</mo>
<mfrac>
<mrow>
<msub>
<mi>&alpha;</mi>
<mn>1</mn>
</msub>
<msub>
<mi>b</mi>
<mrow>
<mi>i</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msub>
<mo>+</mo>
<msub>
<mi>&alpha;</mi>
<mn>2</mn>
</msub>
<msub>
<mi>b</mi>
<mi>i</mi>
</msub>
<mo>+</mo>
<msub>
<mi>&alpha;</mi>
<mn>3</mn>
</msub>
<msub>
<mi>b</mi>
<mrow>
<mi>i</mi>
<mo>+</mo>
<mn>1</mn>
</mrow>
</msub>
</mrow>
<mrow>
<msub>
<mi>&alpha;</mi>
<mn>1</mn>
</msub>
<mo>+</mo>
<msub>
<mi>&alpha;</mi>
<mn>2</mn>
</msub>
<mo>+</mo>
<msub>
<mi>&alpha;</mi>
<mn>3</mn>
</msub>
</mrow>
</mfrac>
<mo>,</mo>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
<mo>,</mo>
<mn>2</mn>
<mo>,</mo>
<mo>...</mo>
<mo>...</mo>
<mo>,</mo>
<mi>n</mi>
<mo>)</mo>
</mrow>
</mrow>
式中,bi-1、bi、bi+1分别为文本块i-1、i、i+1的字符数总数,α1、α2、α3分别为bi-1、bi、bi+1的权重,且α1、α2、α3>0;
c.定义文本块分界阈值f1和f2,则f1和f2分别为:
<mrow>
<msub>
<mi>f</mi>
<mn>1</mn>
</msub>
<mo>=</mo>
<mfrac>
<mrow>
<munder>
<mrow>
<mi>m</mi>
<mi>i</mi>
<mi>n</mi>
</mrow>
<mrow>
<mn>1</mn>
<mo>&le;</mo>
<mi>i</mi>
<mo>&le;</mo>
<mfrac>
<mi>n</mi>
<mi>v</mi>
</mfrac>
</mrow>
</munder>
<msub>
<mi>b</mi>
<mi>i</mi>
</msub>
<mo>+</mo>
<munder>
<mrow>
<mi>m</mi>
<mi>i</mi>
<mi>n</mi>
</mrow>
<mrow>
<mfrac>
<mi>n</mi>
<mi>v</mi>
</mfrac>
<mo>&le;</mo>
<mi>i</mi>
<mo>&le;</mo>
<mn>2</mn>
<mo>*</mo>
<mrow>
<mo>(</mo>
<mfrac>
<mi>n</mi>
<mi>v</mi>
</mfrac>
<mo>)</mo>
</mrow>
</mrow>
</munder>
<msub>
<mi>b</mi>
<mi>i</mi>
</msub>
<mo>+</mo>
<mo>...</mo>
<mo>+</mo>
<munder>
<mrow>
<mi>m</mi>
<mi>i</mi>
<mi>n</mi>
</mrow>
<mrow>
<mo>(</mo>
<mi>v</mi>
<mo>-</mo>
<mn>1</mn>
<mo>)</mo>
<mo>*</mo>
<mo>(</mo>
<mfrac>
<mi>n</mi>
<mi>v</mi>
</mfrac>
<mo>)</mo>
<mo>&le;</mo>
<mi>i</mi>
<mo>&le;</mo>
<mi>n</mi>
</mrow>
</munder>
<msub>
<mi>b</mi>
<mi>i</mi>
</msub>
</mrow>
<mi>v</mi>
</mfrac>
</mrow>
<mrow>
<msub>
<mi>f</mi>
<mn>2</mn>
</msub>
<mo>=</mo>
<msub>
<mi>&rho;</mi>
<mn>1</mn>
</msub>
<mfrac>
<mrow>
<msubsup>
<mi>&Sigma;</mi>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>0</mn>
</mrow>
<mi>n</mi>
</msubsup>
<msub>
<mi>b</mi>
<mi>i</mi>
</msub>
</mrow>
<mi>n</mi>
</mfrac>
<mo>+</mo>
<msub>
<mi>&rho;</mi>
<mn>2</mn>
</msub>
<msub>
<mi>f</mi>
<mn>1</mn>
</msub>
</mrow>
式中,n为文本块的总数,bi为文本块i中的字符总数,ρ1和ρ2分别为文本块中的平均字符数和f1的权重,ρ1、ρ2>0,且ρ1+ρ2=1,v为对数组Bi的分组数;
d.根据文本块字符数与分界阈值之间的关系进行正文部分提取,定义文本块子集C={bi,bi+1,……,bi+m},其中i+m≤n,且C∈B,则当文本块子集C满足{bi,bi+1,……,bi+m}中的值全部大于f1且{bi,bi+1,……,bi+m}中的值大于f2的个数时,则文本块子集C为网页正文部分。
6.根据权利要求4所述的电网工程物资合同卖方履约诚信舆情监控系统,其特征是,所述特征项提取单元用于从正文部分的中文分词结果中提取具有代表性的特征项并计算特征项在文本中的权重,具体包括:
a.采用一种改进的信息增益计算方法进行特征项的选择,定义采集得到的网页中类别为Ci(1≤i≤m)的文本有{wi1,wi2,……wie},则改进的信息增益IG(Ci,tj)的计算方法为:
<mfenced open = "" close = "">
<mtable>
<mtr>
<mtd>
<mrow>
<mi>I</mi>
<mi>G</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>C</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>t</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<mi>u</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>t</mi>
<mi>j</mi>
</msub>
<mo>,</mo>
<msub>
<mi>C</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<msubsup>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>m</mi>
</msubsup>
<mi>u</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>t</mi>
<mi>j</mi>
</msub>
<mo>,</mo>
<msub>
<mi>C</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mrow>
<mo>(</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>m</mi>
</munderover>
<mo>&lsqb;</mo>
<mi>P</mi>
<mo>(</mo>
<msub>
<mi>t</mi>
<mi>j</mi>
</msub>
<mo>|</mo>
<msub>
<mi>C</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mi>ln</mi>
<mfrac>
<mrow>
<mi>p</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>t</mi>
<mi>j</mi>
</msub>
<mo>|</mo>
<msub>
<mi>C</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mi>p</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>t</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
<mi>p</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>C</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mo>+</mo>
<mi>p</mi>
<mrow>
<mo>(</mo>
<msub>
<mover>
<mi>t</mi>
<mo>&OverBar;</mo>
</mover>
<mi>j</mi>
</msub>
<mo>|</mo>
<msub>
<mi>C</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mi>ln</mi>
<mfrac>
<mrow>
<mi>p</mi>
<mrow>
<mo>(</mo>
<msub>
<mover>
<mi>t</mi>
<mo>&OverBar;</mo>
</mover>
<mi>j</mi>
</msub>
<mo>|</mo>
<msub>
<mi>C</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mi>p</mi>
<mrow>
<mo>(</mo>
<msub>
<mover>
<mi>t</mi>
<mo>&OverBar;</mo>
</mover>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
<mi>p</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>C</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mo>)</mo>
<msup>
<mi>ln</mi>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>+</mo>
<msubsup>
<mo>&Sigma;</mo>
<mrow>
<mi>k</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>e</mi>
</msubsup>
<mfrac>
<mrow>
<msub>
<mi>q</mi>
<mrow>
<mi>i</mi>
<mi>k</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>t</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<munder>
<mi>max</mi>
<mrow>
<mn>1</mn>
<mo>&le;</mo>
<mi>k</mi>
<mo>&le;</mo>
<mi>e</mi>
</mrow>
</munder>
<msub>
<mi>q</mi>
<mrow>
<mi>i</mi>
<mi>k</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>t</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mo>)</mo>
</mrow>
</msup>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
式中,u(tj,Ci)为Ci类文本出现的特征词tj的次数,p(tj)为特征词tj出现的概率,则为tj不出现的概率,P(tj|Ci)为特征词tj存在的文本属于Ci类的概率,为tj不存在的文本属于Ci类的概率,m为类别数,p(Ci)为Ci类文本出现的概率,qik(tj)为特征项tj在文本wik(1≤k≤e)中出现的频率,IG(Ci,tj)为特征词tj的信息增益值;
将计算所得的特征词的信息增益值按从大到小顺序排列,选取前n个特征词作为文本的特征项;
b.定义文本Wi的特征项为{t1,t2,……tn},则对应特征项的权重{wi1,wi2,……win}的计算公式为:
<mrow>
<msub>
<mi>w</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<mo>=</mo>
<mfrac>
<mrow>
<msqrt>
<mfrac>
<msub>
<mi>p</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<msup>
<mi>e</mi>
<mrow>
<msubsup>
<mo>&Sigma;</mo>
<mrow>
<mi>r</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>b</mi>
</msubsup>
<msub>
<mi>p</mi>
<mrow>
<mi>r</mi>
<mi>j</mi>
</mrow>
</msub>
</mrow>
</msup>
</mfrac>
</msqrt>
<mo>*</mo>
<mi>ln</mi>
<mrow>
<mo>(</mo>
<mfrac>
<mi>H</mi>
<msub>
<mi>s</mi>
<mi>j</mi>
</msub>
</mfrac>
<mo>+</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mrow>
<msqrt>
<mrow>
<msubsup>
<mo>&Sigma;</mo>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</msubsup>
<msup>
<mrow>
<mo>(</mo>
<msub>
<mi>p</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<mo>*</mo>
<mi>ln</mi>
<mo>(</mo>
<mrow>
<mfrac>
<mi>H</mi>
<msub>
<mi>s</mi>
<mi>j</mi>
</msub>
</mfrac>
<mo>+</mo>
<mn>1</mn>
</mrow>
<mo>)</mo>
<mo>)</mo>
</mrow>
<mn>2</mn>
</msup>
</mrow>
</msqrt>
</mfrac>
<mo>,</mo>
<mrow>
<mo>(</mo>
<mi>j</mi>
<mo>=</mo>
<mn>1</mn>
<mo>,</mo>
<mn>2......</mn>
<mi>n</mi>
<mo>)</mo>
</mrow>
</mrow>
式中,wij表示特征项tj在文本中Wi中的权重,而pij表示特征项tj在文本Wi中出现的频率,H表示全部文本集中的文本数量,sj表示文本集中包含tj的文本数,b表示文本集中文本的数量,prj表示特征项tj在文本Wr中出现频率。
7.根据权利要求4所述的电网工程物资合同卖方履约诚信舆情监控系统,其特征是,所述网页分类单元用于判断采集得到的网页是否为主题相关网页,定义采集得到的文档为Wi=(ti1,ti2,ti3,……tin),描述主题文档为Wg=(tg1,tg2,tg3,……tgv),则文档Wi和文档Wg之间的文档相似性系数ωig的计算公式为:
<mfenced open = "" close = "">
<mtable>
<mtr>
<mtd>
<mrow>
<msub>
<mi>f</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>t</mi>
<mrow>
<mi>i</mi>
<mn>1</mn>
</mrow>
</msub>
<mo>,</mo>
<msub>
<mi>t</mi>
<mrow>
<mi>g</mi>
<mi>l</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
</msub>
<mo>=</mo>
<munder>
<mi>max</mi>
<mrow>
<mn>1</mn>
<mo>&le;</mo>
<mi>l</mi>
<mo>&le;</mo>
<mi>v</mi>
</mrow>
</munder>
<mi>s</mi>
<mi>i</mi>
<mi>m</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>t</mi>
<mrow>
<mi>i</mi>
<mn>1</mn>
</mrow>
</msub>
<mo>,</mo>
<msub>
<mi>t</mi>
<mrow>
<mi>g</mi>
<mi>l</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<msub>
<mi>f</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>t</mi>
<mrow>
<mi>i</mi>
<mn>2</mn>
</mrow>
</msub>
<mo>,</mo>
<msub>
<mi>t</mi>
<mrow>
<mi>g</mi>
<mi>l</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
</msub>
<mo>=</mo>
<munder>
<mi>max</mi>
<mrow>
<mn>1</mn>
<mo>&le;</mo>
<mi>l</mi>
<mo>&le;</mo>
<mi>v</mi>
</mrow>
</munder>
<mi>s</mi>
<mi>i</mi>
<mi>m</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>t</mi>
<mrow>
<mi>i</mi>
<mn>2</mn>
</mrow>
</msub>
<mo>,</mo>
<msub>
<mi>t</mi>
<mrow>
<mi>g</mi>
<mi>l</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mn>......</mn>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<msub>
<mi>f</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>t</mi>
<mrow>
<mi>i</mi>
<mi>n</mi>
</mrow>
</msub>
<mo>,</mo>
<msub>
<mi>t</mi>
<mrow>
<mi>g</mi>
<mi>l</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
</msub>
<mo>=</mo>
<munder>
<mi>max</mi>
<mrow>
<mn>1</mn>
<mo>&le;</mo>
<mi>l</mi>
<mo>&le;</mo>
<mi>v</mi>
</mrow>
</munder>
<mi>s</mi>
<mi>i</mi>
<mi>m</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>t</mi>
<mrow>
<mi>i</mi>
<mi>n</mi>
</mrow>
</msub>
<mo>,</mo>
<msub>
<mi>t</mi>
<mrow>
<mi>g</mi>
<mi>l</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<msub>
<mi>&rho;</mi>
<mrow>
<mi>i</mi>
<mi>g</mi>
</mrow>
</msub>
<mo>=</mo>
<mfrac>
<mrow>
<msubsup>
<mo>&Sigma;</mo>
<mrow>
<mi>k</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</msubsup>
<msub>
<mi>f</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>t</mi>
<mrow>
<mi>i</mi>
<mi>k</mi>
</mrow>
</msub>
<mo>,</mo>
<msub>
<mi>t</mi>
<mrow>
<mi>g</mi>
<mi>l</mi>
</mrow>
</msub>
<mo>)</mo>
<msup>
<mi>e</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>w</mi>
<mrow>
<mi>i</mi>
<mi>k</mi>
</mrow>
</msub>
<mo>+</mo>
<msub>
<mi>q</mi>
<mrow>
<mi>g</mi>
<mi>l</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
</msup>
</mrow>
</msub>
</mrow>
<mrow>
<mi>n</mi>
<mo>*</mo>
<mi>v</mi>
</mrow>
</mfrac>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
式中,ρig为文档Wi和文档Wg之间的文档相似性系数,sim(ti1,tgl)为特征项ti1和特征项tgl的概念词语相似度,sim(ti2,tgl)为特征项ti2和特征项tgl的概念词语相似度,sim(tin,tgl)为特征项tin和特征项tgl的概念词语相似度,和表示文档Wi中的特征项ti1、ti2、tin分别和文档Wg中所有特征项之间的概念词语相似度的最大值,wik和qgl分别为特征项tik和tgl的权重;
定义主题阈值为μ,判断系数为r,根据判断系数r的大小判断采集得到的文档Wi是否为与电网工程物资合同履约相关的网页,具体为:
<mrow>
<mi>r</mi>
<mo>=</mo>
<msup>
<mi>ln</mi>
<mfrac>
<msub>
<mi>&rho;</mi>
<mrow>
<mi>i</mi>
<mi>g</mi>
</mrow>
</msub>
<mi>&mu;</mi>
</mfrac>
</msup>
</mrow>
式中,ρig为文档Wi和文档Wg之间的文档相似性系数,μ为主题阈值;
当判断为主题相关网页时,即将网页送入数据库单元进行存储,并将主题相关网页中包含的链接加入主题爬虫的等待队列,当判断为非主题相关网页时即舍弃。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710267800.3A CN107093021A (zh) | 2017-04-21 | 2017-04-21 | 电网工程物资合同履约诚信舆情监控系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710267800.3A CN107093021A (zh) | 2017-04-21 | 2017-04-21 | 电网工程物资合同履约诚信舆情监控系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107093021A true CN107093021A (zh) | 2017-08-25 |
Family
ID=59637005
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710267800.3A Withdrawn CN107093021A (zh) | 2017-04-21 | 2017-04-21 | 电网工程物资合同履约诚信舆情监控系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107093021A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111553818A (zh) * | 2020-04-29 | 2020-08-18 | 搜信信用产业集团有限公司 | 一种智能监控履约动态跟踪方法、系统、装置及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101751458A (zh) * | 2009-12-31 | 2010-06-23 | 暨南大学 | 一种网络舆情监控系统及方法 |
CN102708096A (zh) * | 2012-05-29 | 2012-10-03 | 代松 | 一种基于语义的网络智能舆情监测系统及其工作方法 |
CN103544255A (zh) * | 2013-10-15 | 2014-01-29 | 常州大学 | 基于文本语义相关的网络舆情信息分析方法 |
CN103841216A (zh) * | 2014-04-01 | 2014-06-04 | 深圳市科盾科技有限公司 | 一种基于云平台的网络舆情监控系统 |
CN104794161A (zh) * | 2015-03-24 | 2015-07-22 | 浪潮集团有限公司 | 对网络舆情监控的方法 |
-
2017
- 2017-04-21 CN CN201710267800.3A patent/CN107093021A/zh not_active Withdrawn
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101751458A (zh) * | 2009-12-31 | 2010-06-23 | 暨南大学 | 一种网络舆情监控系统及方法 |
CN102708096A (zh) * | 2012-05-29 | 2012-10-03 | 代松 | 一种基于语义的网络智能舆情监测系统及其工作方法 |
CN103544255A (zh) * | 2013-10-15 | 2014-01-29 | 常州大学 | 基于文本语义相关的网络舆情信息分析方法 |
CN103841216A (zh) * | 2014-04-01 | 2014-06-04 | 深圳市科盾科技有限公司 | 一种基于云平台的网络舆情监控系统 |
CN104794161A (zh) * | 2015-03-24 | 2015-07-22 | 浪潮集团有限公司 | 对网络舆情监控的方法 |
Non-Patent Citations (1)
Title |
---|
杨琳: "粮食网络舆情分析技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111553818A (zh) * | 2020-04-29 | 2020-08-18 | 搜信信用产业集团有限公司 | 一种智能监控履约动态跟踪方法、系统、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Salloum et al. | Mining social media text: extracting knowledge from Facebook | |
US10885073B2 (en) | Association strengths and value significances of ontological subjects of networks and compositions | |
CN103744981B (zh) | 一种基于网站内容用于网站自动分类分析的系统 | |
CN104537097B (zh) | 微博舆情监测系统 | |
Zhang et al. | Detecting spammer groups from product reviews: a partially supervised learning model | |
CN103226578B (zh) | 面向医学领域的网站识别和网页细分类的方法 | |
CN101470731B (zh) | 一种可个性化定制的网页过滤方法 | |
CN108776671A (zh) | 一种网络舆情监控系统及方法 | |
CN106940732A (zh) | 一种面向微博的疑似水军发现方法 | |
CN103077190A (zh) | 基于排序学习技术的热门事件排名方法 | |
CN106354818B (zh) | 基于社交媒体的动态用户属性提取方法 | |
CN103425799A (zh) | 基于主题的个性化研究方向推荐系统和推荐方法 | |
CN104933622A (zh) | 一种基于用户和微博主题的微博流行度预测方法及系统 | |
CN107341183A (zh) | 一种基于暗网网站综合特征的网站分类方法 | |
CN102831234A (zh) | 基于新闻内容和主题特征的个性化新闻推荐装置和方法 | |
CN103745000A (zh) | 一种中文微博客的热点话题检测方法 | |
Abhik et al. | Sub-event detection during natural hazards using features of social media data | |
CN103399891A (zh) | 网络内容自动推荐方法、装置和系统 | |
CN107870957A (zh) | 一种基于信息增益和bp神经网络的热门微博预测方法 | |
CN102591995A (zh) | 一种基于云数据中心的用户信息处理方法及装置 | |
CN113962293B (zh) | 一种基于LightGBM分类与表示学习的姓名消歧方法和系统 | |
CN103218400A (zh) | 基于链接与文本内容的网络社区用户群划分方法 | |
Hu et al. | Actnet: Active learning for networked texts in microblogging | |
CN104199838B (zh) | 一种基于标签消歧的用户模型建构方法 | |
CN110019820A (zh) | 一种病历中主诉与现病史症状时间一致性检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20170825 |