CN105975984B - 基于证据理论的网络质量评价方法 - Google Patents

基于证据理论的网络质量评价方法 Download PDF

Info

Publication number
CN105975984B
CN105975984B CN201610280055.1A CN201610280055A CN105975984B CN 105975984 B CN105975984 B CN 105975984B CN 201610280055 A CN201610280055 A CN 201610280055A CN 105975984 B CN105975984 B CN 105975984B
Authority
CN
China
Prior art keywords
web page
evidence
webpage
vector
collection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201610280055.1A
Other languages
English (en)
Other versions
CN105975984A (zh
Inventor
左祥麟
杨博
范利云
左万利
王俊华
王英
王泊
郑慧中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN201610280055.1A priority Critical patent/CN105975984B/zh
Publication of CN105975984A publication Critical patent/CN105975984A/zh
Application granted granted Critical
Publication of CN105975984B publication Critical patent/CN105975984B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于证据理论的网络质量评价方法,给出了清晰、明确、可计算的网页质量评价指标体系,能够针对任何类别的网页进行质量评价,以综合可信度质量为重点,结合了网页内容质量和网站内容质量的各种评价角度,可以保证相当的客观性和真实性,同时实现了自动化的指标采集量化。

Description

基于证据理论的网络质量评价方法
技术领域
本发明涉及一种网络质量评价方法,更确切地说,本发明涉及一种基于证据理论的网络质量评价方法,属于网络管理技术领域。
背景技术
现今,通过搜索引擎检索Web已成为获取信息的重要方式,然而网页质量良莠不齐,部分含有虚假信息,给用户带来了额外的筛选、查证开销,甚至会造成经济损失,对社会生活产生恶劣影响。同时,网络数据的飞速增长为搜索引擎带来了巨大的存储和网络服务压力,大量冗余、过时乃至垃圾数据造成了搜索引擎存储与运算能力的巨大浪费。因此,网络质量评价工作势在必行。
当前对网页质量的评价主要集中在以下四个方面:内容质量、权威程度、链接质量、结构界面。针对网页质量评价的研究方法主要可以分为两类:
1.针对不同类型的网站,使用不同的评价指标,通过评价网站的质量来推定网页质量。网站可分为四种类型:商业网站、教育网站、金融网站、政府网站。
2.通过挖掘网页内容中蕴含的词法、语义、社会关系及群体作用等信息来评价网页质量和可信度。
由于网页信息具有的多样性、多维性、复杂性、不精确性和不完备性等特征,现有的网页质量评价的指标较多,评价的角度也各不相同,但对于如何自动获取基础指标数据并根据单项指标数据计算总体评价指标尚未建立理论模型,更未发现实用的评价系统。当前研究主要存在以下问题:
1.网页分类方面:直接采用文本分类算法的网页分类,由于主要针对纯文本内容,忽略了网页自身的结构性特征,其网页分类准确率并不高。现有的网页分类技术主要是基于统计理论和机器学习方法的,但各自有着一定的缺点:Bayes模型在实际应用中的效果并不稳定;KNN方法分类时间为非线性,且随训练文档数增加,其分类时间急剧增加;自组织神经网络也需要较长的学习训练时间,因而效率上不能满足要求。一些网页分类研究已经从传统的基于网页内容的方法转向利用网页的内部结构和外部链接关系,单纯引入链接文本往往带来了更多的噪声数据。另外,现有的网页分类体系不能够满足网页质量评价的需求,所以需要建立一种以网页质量评价为目标的分类体系。
2.指标搜索方面:国内外相关的专家学者对此做了大量的研究和探索,但所提出的指标体系都不够完善,依旧存在着一定的问题。主要包括:指标体系不完整;指标设计不合理;指标适用对象模糊;指标的可操作性差;量化方法不确定。
建立合理、完整、可自动量化的指标体系是当前亟待解决的一个重要问题。通过长期关注与仔细分析该领域研究,认为证据理论具有描述不知道、不确定的特点,特别适合对网页质量评价问题建模,从而给出网页质量的定性和定量描述,本文采用证据理论建立一个层次化的一般性网页质量评价体系。
发明内容
本发明提供了一种基于证据理论的网络质量评价方法,目的旨在解决现有技术存在精准度不够、智能性缺失、灵活性不足等问题。
本发明所述的1)面向网页质量评价的网页分类
步骤1,制定网页分类体系,共包含九种网页类别:①社会网络,②观点论述,③电子商务,④新闻报道,⑤知识文化,⑥机构信息,⑦功能服务,⑧媒体互动,⑨链接导航;
步骤2,构建训练样本集,依据以上制定的网页分类体系,选择具有类别特征的词语构建查询,获得候选训练样本集CTSet={(p1,c1),(p2,c2),…,(pn,cn)},其中pi为网页,ci为网页所属类别;
步骤3,特征抽取,生成合理有效的网页特征集:
步骤3.1,网页去噪,构建DOM树,依据容器标签将网页划分为内容区域A1,A2,…,AL。并依据如下公式计算其LinkWordRatioi值:
其中,WordNumi是Ai的内容字数,LinkNumi是链接数;
在此基础上识别出满足WordNumi>N且LinkWordRatioi<R的内容区域Ai,即为主体内容区域SAj,使用TF/IDF选择并构建URL特征词集合;
步骤3.2,特征抽取,抽取网页特征;
步骤3.3,特征项处理,采用如下公式进行数据预处理:
其中,xij是第i个训练样本的第j个特征项取值,n为样本总数;
步骤4,训练网页分类器,通过以上步骤获取合适的样本向量集后,利用“一对多”SVM分类器进行训练和处理,采用如下公式得到的一个t阶多项分类器:
K(x,y)=(x·y+1)t,t=1,2,…
一对多分类方法中的每一个SVM优化后都得到一个决策树,对于第j个支持向量机,其决策函数为如下公式:
最终决策函数定义为如下公式:
F(x)=argmaxj-1,2,…9(gj(x))
其中,b为分类阈值。
2)指标的自动获取与量化,若干个指标融合为一条证据
步骤1,指标体系,包括网页质量、网站质量和综合可信度;
步骤2,依据指标体系进行指标分层;
步骤3,对网页的参数类型、网站的安全性以及网站的备案信息等简单指标进行量化;
步骤4,复杂指标获取:
步骤4.1,网页主体提取,针对主题明确的网页(如新闻、博客、论坛等),采用DOM树和VIPS算法,结合主体模板库中的XPath模板对网页进行初步分块,得到主体语义段落的集合;
步骤4.2,网页主题词挖掘:
①主题向量构建:借助WordNet,获取网页类别的同义词集及其下位概念的同义词集,构成同义词集B,对所有Bi∈B,统计Bi中各词在网页主体内容中的出现次数,取和作为Bi的权重VTi,组成网页主题向量VT;
②权重修正:综合分析HTML代码标签与主题词出现位置,修正网页主题向量VT。标签权重参数PM(m),基于DMOZ分类目录,采用统计手段,计算标签m中包含主题词的次数与该标签出现次数之比;位置权重参数PL(l),定义词语i在正文中出现的位置Li如下:
其中,Di为词语i距正文开头的距离(以字数计),Num为正文总字数,Len是正文中长度。基于DMOZ分类目录,获取位置权重分段函数PLF,从而词语i的位置权重参数PLi=PLF(Li);结合标签权重参数和位置权重参数修正网页主题向量,修正系数如下:
其中,M为集合Bi中所有词语每次出现时所属标签的集合,L为集合Bi中所有词语每次出现位置的集合;
修正后的网页主题向量元素为VTi’=VTi×E(VTi),则最终的网页主题向量为(VT1’,VT2’,...,VTn’);
③主题词抽取:给定一个阈值β,从修正后的主题向量中选取出值大于β的分量,这些分量对应同义词集中的元素为网页主题词;
步骤4.3,网页K-相关性判别:
①获取主题概念集:对网页P与P’,利用前述主题词挖掘技术,获得相应主题词集TW(P)与TW(P’)。若TW(P)与TW(P’)有一者为空集,则认为P’与P不具有K-相关性;否则,依据网页内容,结合通用本体和自然语言处理技术,对TW(P)与TW(P’)中的主题词进行词义标注,生成主题概念集TC(P)与TC(P’);
②构建主题概念链集:对TC(P)中的每一概念tci,利用通用本体构建以tci为头结点、长度至多为K的上位概念链uli=<tci,ci1,ci2,…,cin>(n<K),组成主题概念链集UL(P);
③主题概念匹配:对于主题概念链集UL(P)和主题概念集TC(P’),若存在ul∈UL(P)和tc∈TC(P’),使得tc或tc至多K-1级的上位概念为ul中的项,则网页P’与P具有K-相关性;否则,网页P’与P不具有K-相关性;
步骤4.3,构建基于搜索引擎点击日志的动态网页库,首先通过对当前点击日志的分析和抽样,建立初始网页库,然后定期根据新的点击日志随机抽取一定数量的样本加入网页库,替换旧网页库中最旧且最不被频繁使用的样本集;
3)BPA生成
步骤1,神经网络输入预处理,对于上述采集到的指标向量使用在线的零-均值标准化方法进行预处理,产生具有全局一致性的输出向量;将每个输入样本记为一个n维行向量,假定待处理的一条输入数据仍是n维行向量,将其加入矩阵P得到新的(m+1)行n列矩阵P',对P'应用零-均值标准化方法,各列的均值和标准差公式如下:
其中μi’和σi’是P’第i列属性的均值和标准差;
步骤2,制定训练样本集,通过拟定模糊评语集合、指标质量评语集合及其各评语对应模糊评价集合的隶属度,使用D-S证据理论计算BPA;
步骤3,采用具有偏差单元的BP网络,构建神经网络拓扑;
步骤4,神经网络训练,在步骤3BP网络的基础上,使用冲量信息改进传统的反向传播算法,并引入神经网络熵的概念以计算BPA中的不确定焦元信度;
输出层的输出向量公式如下:
其中Hid(n)为第n次迭代过程中隐层的输出向量,WtOUT为隐层到输出层的权值,WtBIAS (OUT)为偏差节点到输出层的权值;
隐层的输出向量计算公式如下:
Hidj(n)=f(Sj(n))
其中f和Sj为辅助函数,WtMT为隐层到自身的权值,WtIN为输入层到隐层的权值,In(n)为第n次迭代过程中的输入向量,WtBIAS (HID)为偏差节点到隐层的权值,α是一个调整系数;
基于神经网络的输出,利用可信度BeliefFactor,经归一化产生指标融合BPA;BeliefFactor计算公式如下:
最终的BPA计算公式为:
其中,识别框架Θ={很好,好,一般,差,很差};
4)证据合成
步骤1,相关证据处理,已知证据E1和E2相关,其相关度为R,基本信任分配函数分别为m1和m2,则证据E1和E2的BPA调整为如下公式:
其中,T是焦元,s为1或2;
步骤2,证据重要度分配,已知证据集S={S1,S2,…,S14},相应权重矩阵为Δ=[δij]9×14,其中,δij表示证据Sj对第i类网页的重要度,δij量化公式如下:
其中,Pi为第i类网页的神经网络训练样本集,向量νk1为Pi中第k个网页的评价向量,向量νk2为第k个证据缺失时,Pi中第k个网页经证据合成后所得评价结果向量;
证据Sj对第i类网页的相对重要度λij为:
其中,η是对证据权重偏好的修正系数,与专家的知识、经验有关,0.9≦η≦1;
步骤3,冲突证据处理:
步骤3.1,采用命题稀释度衡量证据间的冲突,命题稀释度为各证据对同一命题支持度的标准差。已知证据集S={S1,S2,…,St},相应基本信任分配函数集M={m1,m2,…,mt},则S中各证据对命题A的命题稀释度为:
步骤3.2,冲突证据信任调整,S中各证据对命题集合U的命题稀释度子集UR={RA|A∈U,RA≥β}。若|UR|≤1,不做处理;否则,补充命题G=∪RA∈UR A,表示结论必是G中的一个命题,但不能确定是哪一个命题;当G等于识别框架Θ时,表示命题损失的信度被分配给了识别框架,结论完全不确定。生成新的基本信任分配函数集M’={m1’,m2’,…,mt’}:
步骤4,BPA合成,对步骤3.2生成的基本信任分配函数集M做如下调整:
最后对调整后的M使用D-S合成规则,实现证据的合成:
本发明与现有技术相比本发明的有益效果是:
1.本发明首次提出基于证据理论研究网页质量评价问题。尽管证据理论在自动控制领域被成功应用,但是尚未有将其应用到网页质量评价方面,针对网页内容的不确定性、不精确性、不完备性,本发明使用证据处理、证据重要度分配、冲突证据处理对各证据焦元的BPA进行合理的调整,建立智能化的BPA生成策略、合理有效的证据合成方案;
2.本发明首次提出面向网页质量评价的网页分类问题。与传统的百科全书分类不同,不能直接用TF/IDF向量进行分类,需要以网页质量评价为目标,定义网页特征并实现特征抽取,在此基础上利用“一对多”SVM多类分类方法对网页进行分类,从而得到高效的面向网页质量评价的网页分类体系;
3.本发明给出了清晰、明确、可计算的网页质量评价指标体系。能够针对任何类别的网页进行质量评价,以综合可信度质量为重点,结合了网页内容质量和网站内容质量的各种评价角度。可以保证相当的客观性和真实性,同时实现了自动化的指标采集量化。
附图说明
图1是本发明实施例的各组成模块的功能、连接关系示意框图;
图2是本发明实施例的评价指标分层方案示意图;
图3是本发明实施例的基于DOM树的网页分块模型示意图;
图4是本发明实施例的神经网络拓扑示意图;
图5是本发明实施例1中网址为http://weibo.com/jietangthu的新浪微博网页截图。
具体实施方式
具体实施时,本发明所提供技术方案可由本领域技术人员采用计算机软件技术实现自动运行流程。
实施例1
根据图1所示,本发明实施例的实施方案分为以下四个过程:首先训练样本分类器,构建网页分类体系;然后,获取评价指标、简单指标以及复杂指标量化;其次,通过训练神经网络,生成BPA;最后,使用证据理论逐级合成各证据BPA得到全局BPA;
具体实施步骤如下:
1.面向网页质量评价的网页分类
步骤1,制定网页分类体系;
步骤2,构建训练样本集,依据以上制定的网页分类体系,选择具有类别特征的词语构建查询,获得候选训练样本集CTSet={(p1,c1),(p2,c2),…,(pn,cn)},其中pi为网页,ci为网页所属类别;
实施例1:以网址为http://weibo.com/jietangthu的新浪微博网页为例,网页如图5所示。以用户最近一周发表的微博集合为例,应用NLPIR汉语分词系统,其分词结果如下所示:
{赞梅/nr2老板/n!/wt密/a歇/v根/q大学/n梅/ng俏/a竹/ng教授/n,/wd北大/n计算机/n系/v 99/m级/q大/a才子/n的/ude1佳作/n。/wj科普/b性/ng、/wn技术性/n、/wn趣味性/n并重/vi,/wd文笔/n优美/a,/wd娓娓道来/vl,/wd值得/v推荐/v。/wj
今年/t我们/rr和/cc微/ag软/a学术/n搜索/v一/m起/q组织/n了/ule KDD/nCUP/n 2016/m,/wd"/wyz measuring/vi the/rzt impact/n of/p research/ninstitutions/n"/wyy--/wp预测/v某个/rz会上/t哪个/ry机构/n被/pbei录取/v的/ude1论文/n最/d多/a。/wj欢迎/v大家/rr积极/ad参加/v!/wt
赞/vg!/wt好/a一个/mq狗/n胜/v节/n!/wt欣赏/v小川/nr2的/ude1情怀/n!/wt这/rzv件/q事/n可谓/v应/v了/ule"/wyz随/p人/n黄/nr1犬/ng搀/v前/f去/vf,/wd走/v到/v溪边/nr忽/d自/p回/v"/wyy的/ude1意境/n啊/y。/wj问/v世间/n智/ng为/v何物/r,/wd直/d教/v人/n./wj./wj./wj./wj./wj./wj征集/v接续/v四/m字/n。/wj
在/p WSDM/n 2016/m上/f给/v了/ule一个/mq invited/vd talk/v。/wj主要/d介绍/v了/ule我们/rr的/ude1AMiner/n系统/n,/wd主要/d是/vshi从/p理念/n上/f介绍/v了/ule一下/mq,/wd这里/rzs是/vshi相关/vi的/ude1 ppt/n。/wj希望/v对/p大家/rr有/vyou用/v。/wj}
步骤3,特征抽取,生成合理有效的网页特征集:
步骤3.1,网页去噪,构建DOM树,依据容器标签将网页划分为内容区域A1,A2,…,AL。并依据如下公式计算其LinkWordRatioi值:
其中,WordNumi是Ai的内容字数,LinkNumi是链接数。在此基础上识别出满足WordNumi>N且LinkWordRatioi<R的内容区域Ai,即为主体内容区域SAj
使用TF/IDF选择并构建URL特征词集合,生成内容区域Ai的文本向量表示Wi=(wi1,wi2,…,wit),wi为第i个特征项的权值;计算非主体内容区域Ak与主体内容区域SAj的余弦相似度Sim(Ak,SAj),在此基础上识别出与主体内容相关的内容区域Ak,当且仅当存在j使得Sim(Ak,SAj)大于阈值H;
步骤3.2,特征抽取,利用如下公式选取分类特征项:
其中,Fci(t)表示特征项t在类别Ci中出现的频率,dci(t)为集中度,D’ci(t)为分散度,dci(t),D’ci(t)计算公式如下:
其中,m为类别数,p为类别Ci中的网页数,fk(t)为在类别Ci里的网页k中特征t的频率,f’ci(t)为频率均值。
步骤3.3,特征项处理,采用如下公式进行数据预处理:
其中,xij是第i个训练样本的第j个特征项取值,n为样本总数;
步骤4,训练网页分类器,通过以上步骤获取合适的样本向量集后,利用“一对多”SVM分类器进行训练和处理,采用如下公式得到的一个t阶多项分类器:
K(x,y)=(x·y+1)t,t=1,2,…
一对多分类方法中的每一个SVM优化后都得到一个决策树,因此,共有九个决策函数,对于第j个支持向量机,其决策函数为如下公式:
最终决策函数定义为如下公式:
F(x)=argmaxj-1,2,…9(gj(x))
其中,b为分类阈值。对于待测样本x,分别计算各个g(x)的值,其中取得最大值的函数所对应的类别即为x的类别。本方法中每一个SVM的训练过程可以并行进行,提高效率,而且由于使用的二类分类SVM数目明显少于“一对一”SVM多类分类方法,分类判断速度较快。
2.指标的自动获取与量化,若干个指标融合为一条证据
步骤1,指标体系,包括网页质量、网站质量和综合可信度;
步骤2,依据指标体系进行指标分层,分成三层,具体方案见图2;
步骤3,对网页的参数类型、网站的安全性以及网站的备案信息等简单指标,使用网页获取技术直接进行量化;
步骤4,复杂指标获取:
步骤4.1,如图3,网页主体提取:
①采用DOM数对网页进行初始分块:首先,根据输入网页的HTML源码,建立对应的DOM树结构;然后,利用主体模板库中的XPath模板对DOM树进行剪枝,XPath模板按照其成功匹配网页的次数由大至小试用;最后,依据本课题规定的DOM树节点分类,对剪枝后的DOM树探测文本类和容器类节点,获得结构分散的网页文本区域集。将DOM树节点按其标签分为文本类(如<p>、<span>)、容器类(如<body>、<div>)、多媒体类(如<img>)和噪声类(如<iframe>、<script>)。DOM树探测完成后,若成功探测到文本类节点,则将当前的XPath作为XPath模板加入相应网页分类的主体模板库。模板库最多保留前K优的XPath,但新加入的XPath在一段时间内会被优先使用且不被淘汰,以保证模板库能够较灵活地更新;
②基于VIPS算法进行语义分块:如果DOM树探测失败,则主体初步提取失败,将直接对网页的初始DOM树表示应用VIPS算法,得到网页主体语义段落集合;若DOM树探测成功,将使用VIPS算法对前述算法返回的DOM节点集合中的元素进行处理,进行视觉块抽取、视觉分隔符探测、内容结构建立,直到全部元素均被成功分块,最终返回主体语义段落的集合;
步骤4.2,网页主题词挖掘:
①主题向量构建:借助WordNet,获取网页类别的同义词集及其下位概念的同义词集,构成同义词集B,对所有Bi∈B,统计Bi中各词在网页主体内容中的出现次数,取和作为Bi的权重VTi,组成网页主题向量VT;
②权重修正:综合分析HTML代码标签与主题词出现位置,修正网页主题向量VT。标签权重参数PM(m),基于DMOZ分类目录,采用统计手段,计算标签m中包含主题词的次数与该标签出现次数之比;位置权重参数PL(l),定义词语i在正文中出现的位置Li如下:
其中,Di为词语i距正文开头的距离(以字数计),Num为正文总字数,Len是正文中长度。基于DMOZ分类目录,获取位置权重分段函数PLF,从而词语i的位置权重参数PLi=PLF(Li)。最后,结合标签权重参数和位置权重参数修正网页主题向量,修正系数如下:
其中,M为集合Bi中所有词语每次出现时所属标签的集合,L为集合Bi中所有词语每次出现位置的集合。修正后的网页主题向量元素为VTi’=VTi×E(VTi),则最终的网页主题向量为(VT1’,VT2’,...,VTn’);
③主题词抽取:给定一个阈值β,从修正后的主题向量中选取出值大于β的分量,这些分量对应同义词集中的元素为网页主题词;
步骤4.3,网页K-相关性判别:
①获取主题概念集:对网页P与P’,利用前述主题词挖掘技术,获得相应主题词集TW(P)与TW(P’)。若TW(P)与TW(P’)有一者为空集,则认为P’与P不具有K-相关性;否则,依据网页内容,结合通用本体和自然语言处理技术,对TW(P)与TW(P’)中的主题词进行词义标注,生成主题概念集TC(P)与TC(P’);
②构建主题概念链集:对TC(P)中的每一概念tci,利用通用本体构建以tci为头结点、长度至多为K的上位概念链uli=<tci,ci1,ci2,…,cin>(n<K),组成主题概念链集UL(P);
③主题概念匹配:对于主题概念链集UL(P)和主题概念集TC(P’),若存在ul∈UL(P)和tc∈TC(P’),使得tc或tc至多K-1级的上位概念为ul中的项,则网页P’与P具有K-相关性;否则,网页P’与P不具有K-相关性;
步骤4.3,构建基于搜索引擎点击日志的动态网页库,首先通过对当前点击日志的分析和抽样,建立初始网页库,然后定期根据新的点击日志随机抽取一定数量的样本加入网页库,替换旧网页库中最旧且最不被频繁使用的样本集。
3.BPA生成
步骤1,神经网络输入预处理,对于上述采集到的指标向量使用在线的零-均值标准化方法进行预处理,产生具有全局一致性的输出向量。将每个输入样本记为一个n维行向量,假定待处理的一条输入数据仍是n维行向量,将其加入矩阵P得到新的(m+1)行n列矩阵P',对P'应用零-均值标准化方法,各列的均值和标准差公式如下:
步骤2,制定训练样本集,通过拟定模糊评语集合、指标质量评语集合及其各评语对应模糊评价集合的隶属度,使用D-S证据理论计算BPA;
记训练集中的训练样本为TrainingInstance=(InputVector,TargetVector),其中InputVector为n个量化指标取值组成的输入向量,TargetVector则是输出的BPA(即目标向量);定义标注人员用于评价网页质量的模糊评语集合为S={高,较高,一般,较低,低};对S中的评语s,定义模糊集SSets;构造五元组Q={q1(s),q2(s),q3(s),q4(s),q5(s)}(其中qi在[0,1]上取值),表示具有S中评语s的页面在SSeti(i∈S)中的隶属度,如下表所示:
表1:模糊评语在各模糊集中的隶属度
模糊评语/模糊集 SSet SSet较高 SSet一般 SSet较低 SSet
q1(高) q2(高) q3(高) q4(高) q5(高)
较高 q1(较高) q2(较高) q3(较高) q4(较高) q5(较高)
一般 q1(一般) q2(一般) q3(一般) q4(一般) q5(一般)
较低 q1(较低) q2(较低) q3(较低) q4(较低) q5(较低)
q1(低) q2(低) q3(低) q4(低) q5(低)
识别框架(确定评价集合)Θ={很好,好,一般,差,很差},对Θ中的评语u,使用五元组R={r1(u),r2(u),r3(u),r4(u),r5(u)}(其中ri在[0,1]上取值)表示一个具有Θ中的确定评价u的页面,其在SSeti(i∈S)中的隶属度估计,如下表所示:
表2:确定评价在各模糊集中的隶属度
确定评价/模糊集 SSet SSet较高 SSet一般 SSet较低 SSet
很好 r1(很好) r2(很好) r3(很好) r4(很好) r5(很好)
r1(好) r2(好) r3(好) r4(好) r5(好)
一般 r1(一般) r2(一般) r3(一般) r4(一般) r5(一般)
r1(差) r2(差) r3(差) r4(差) r5(差)
很差 r1(很差) r2(很差) r3(很差) r4(很差) r5(很差)
对指标E,从标注者为其标注的模糊评语s到识别框架Θ中每个元素uk的隶属度函数RawMassE’计算公式如下:
按照各标注人员的标注结果与标准结果的差异,评定其信度,用[0,1]上的系数hi度量。在评定了标注人员信度的基础上,单一的BPA表示如下:
此后,使用D-S方法合成全部Massi(A)即得到了训练样本的目标向量TargetVector;
步骤3,如图4,采用具有偏差单元的BP网络,构建神经网络拓扑,BP网络在输出层和隐层上各附加一个偏差节点,隐层节点除了接受输入层的输入向量之外,还接受上一次迭代产生权值的冲量信息。偏差单元的加入,有利于调整网络对输出信息的修改,同时加快网络的学习速度;隐层的冲量信息则用于存储过去的输入信息,使前一阶段的学习成果和当前的输入共同影响当前的学习过程,避免打乱现有的连接权;同时,冲量信息的引入有助于训练过程向全局最小值收敛,同时加快恒定梯度区域中的学习速度;
步骤4,在步骤3BP网络的基础上,进行神经网络训练,使用冲量信息改进传统的反向传播算法,并引入神经网络熵的概念以计算BPA中的不确定焦元信度;
输出层的输出向量公式如下:
其中Hid(n)为第n次迭代过程中隐层的输出向量,WtOUT为隐层到输出层的权值,WtBIAS (OUT)为偏差节点到输出层的权值;
隐层的输出向量计算公式如下:
Hidj(n)=f(Sj(n))
其中,f和Sj为辅助函数,WtMT为隐层到自身的权值,WtIN为输入层到隐层的权值,In(n)为第n次迭代过程中的输入向量,WtBIAS (HID)为偏差节点到隐层的权值,α是一个调整系数;
基于神经网络的输出,归一化产生指标融合BPA,利用如下公式计算可信度BeliefFactor:
最终的BPA计算公式为:
4.证据合成
步骤1,相关证据处理,已知证据E1和E2相关,其相关度为R,基本信任分配函数分别为m1和m2,则证据E1和E2的BPA调整为如下公式:
其中,T是焦元,s为1或2,无论相关性表现为正相关还是负相关,都应当对相关证据的BPA进行衰减,以避免合成时产生的极化或冲突现象进一步扩大相关证据所蕴含的相同信息源的影响力;
步骤2,证据重要度分配,已知证据集S={S1,S2,…,S14},相应权重矩阵为Δ=[δij]9×14,其中,δij表示证据Sj对第i类网页的重要度,δij量化公式如下:
其中,Pi为第i类网页的神经网络训练样本集,向量νk1为Pi中第k个网页的评价向量,向量νk2为第k个证据缺失时,Pi中第k个网页经证据合成后所得评价结果向量,证据Sj对第i类网页的相对重要度λij为:
其中,η是对证据权重偏好的修正系数,与专家的知识、经验有关,0.9≦η≦1;
步骤3,冲突证据处理:
步骤3.1,采用命题稀释度衡量证据间的冲突,命题稀释度为各证据对同一命题支持度的标准差。已知证据集S={S1,S2,…,St},相应基本信任分配函数集M={m1,m2,…,mt},则S中各证据对命题A的命题稀释度为:
命题稀释度可体现不同证据间的相互影响,一方面表示命题支持度的损失,另一方面表示命题未知度的增加;
步骤3.2,冲突证据信任调整,S中各证据对命题集合U的命题稀释度子集UR={RA|A∈U,RA≥β}。若|UR|≤1,不做处理;否则,补充命题G=∪RA∈UR A,表示结论必是G中的一个命题,但不能确定是哪一个命题;当G等于识别框架Θ时,表示命题损失的信度被分配给了识别框架,结论完全不确定。生成新的基本信任分配函数集M’={m1’,m2’,…,mt’}:
步骤4,BPA合成,对步骤3.2生成的基本信任分配函数集M进行调整,用D-S合成规则,实现证据的合成:
网页质量评价分定量和定性两个层次,单元素焦元代表了对网页质量的确定评价,可以直接采用;多元素焦元则代表了对网页质量的倾向性评价,对其处理方式如下,多元素焦元定义为MFE={mfe1,mfe2,…,mfen}(其中mfei∈Θ,1<n<5),查询表2获取R(mfei)=(ri1,ri2,…,ri5),对各模糊集的隶属度求和V(SSetj):
设VSSet*=max{VSSetj},R*={x|x=max{rij}},本发明制定如下规则处理|R*|>1和|R*|=1两种情况:①若|R*|=1,选择R*中元素对应的mfei作为网页质量评价的评语;②若|R*|>1,采用最保守估计方法,选择R*中对应评价最低的rij对应的mfei作为网页质量评价的评语。
实施例1|R*|>1,网页质量评价选择最低的评语是{好}。
实施例2:
1.面向网页质量评价的网页分类
步骤1,制定网页分类体系与实施例1一样;
步骤2,使用网络爬虫(Crawler)采集网页并存入网页数据库,构建训练样本集;
以网址http://news.163.com网易新闻网页为例,应用NLPIR汉语分词系统,其分词结果如下所示:
{XXX/nr为/p党员/n干部/n做人/vi做事/vi划/v出/vf四/m条/q底线/n
从/p政治/n高度/d认识/v绿色/n发展/vn理念/n重大/a意义/n这/rzv三/m年/qt漫/v评/v XXX/nr会见/v德国/nsf外长/n
XXX/nr:/wp把/pba降/v药价/n当/p深化/v医/ng改/v突破口/n XXX/nr会/v四川/ns代表/n全国政协/nt召开/v座谈会/n
央/vg视/vg调查/v:/wp黑客/n 5/m分钟/qt到/v手/n上千/m银行/n卡/n密码/n
近乎/v全部/m正确/a卡/n主/ag身份证/n和/cc电话/n号码/n也/d可/v查出/v黑客/n:/wp小菜/n一/m碟/q很/d容易/ad搞/v到/v
已/d形成/v"/wyz盗/vg刷/o"/wyy产业链/n男子/n手机/n中/f未/d装/v网/n银/ng支付宝/nz仍/d被盗/v揭秘/v常见/a"/wyz盗/vg刷/o"/wyy手段/n
湖南/ns娄底市/ns财政局/nt副/b局长/n黄祥/nr刚/d坠/v楼/n身亡/vi
兼任/v当地/s市政协/n副/b XXX/n坠/v楼/n地/ude2系/v该/rz市/n财政局/nt老/a家属院/n送/v医/ng抢救/v无效/vi后/f身亡/vi
今年/t 3月/t仍/d正常/a履/vg职/ng 3月/t 17日/t最后/f一/m次/qv出现/v在/p公开/ad报道/v中/f官方/n:/wp原因/n正在/d调查/v
XXX/nsf发生/v 7.1/m级/q地震/n震源/n深度/n 200/m千/m米/q
震源/n在/p首都/n附近/f中国/ns南疆/n有/vyou震感/n XXXX/nsf同日/d发生/v7.1/m级/q强震/n}
步骤3,特征抽取;
步骤4,训练网页分类器。
2.指标的自动获取与量化,若干个指标融合为一条证据
步骤1,指标体系,包括网页质量、网站质量和综合可信度;
步骤2,依据指标体系进行指标分层,分成三层,具体方案见图2;
步骤3,对网页的参数类型、网站的安全性以及网站的备案信息等简单指标,使用网页获取技术直接进行量化;
步骤4,复杂指标获取。
3.BPA生成
步骤1,神经网络输入预处理;
步骤2,制定训练样本集;
步骤3,如图4,采用具有偏差单元的BP网络,构建神经网络拓扑;
步骤4,在步骤3BP网络的基础上,进行神经网络训练,使用如下公式计算BPA中
的不确定焦元信度:
4.证据合成
步骤1,相关证据处理,证据E1和E2的BPA调整为如下公式:
其中,T是焦元,s为1或2;
步骤2,证据重要度分配;
步骤3,冲突证据处理:
步骤3.1,采用命题稀释度衡量证据间的冲突,生成新的基本信任分配函数集M’={m1’,m2’,…,mt’}:
步骤4,BPA合成,对步骤3.2生成的基本信任分配函数集M进行调整,用D-S合成规则,实现证据的合成:
对各模糊集的隶属度求和V(SSetj):
VSSet*=max{VSSetj},R*={x|x=max{rij}},|R*|=1,网页质量评语是{很好}。

Claims (1)

1.一种基于证据理论的网络质量评价方法,其技术方案包括如下步骤:
1)面向网页质量评价的网页分类
步骤1,制定网页分类体系;
步骤2,构建训练样本集,依据以上制定的网页分类体系,选择具有类别特征的词语构建查询,获得候选训练样本集CTSet={(p1,c1),(p2,c2),…,(pn,cn)},其中pi为网页,ci为网页所属类别;
步骤3,特征抽取,生成合理有效的网页特征集:
步骤3.1,网页去噪,构建DOM树,依据容器标签将网页划分为内容区域A1,A2,…,AL;并依据如下公式计算其LinkWordRatioi值:
其中,WordNumi是Ai的内容字数,LinkNumi是链接数;
在此基础上识别出满足WordNumi>N且LinkWordRatioi<R的内容区域Ai,即为主体内容区域SAj,使用TF/IDF选择并构建URL特征词集合;
步骤3.2,特征抽取,抽取网页特征;
步骤3.3,特征项处理,采用如下公式进行数据预处理:
其中,xij是第i个训练样本的第j个特征项取值,n为样本总数;
步骤4,训练网页分类器,通过以上步骤获取合适的样本向量集后,利用“一对多”SVM分类器进行训练和处理,采用如下公式得到的一个t阶多项分类器:
K(x,y)=(x·y+1)t,t=1,2,…
一对多分类方法中的每一个SVM优化后都得到一个决策树,对于第j个支持向量机,其决策函数为如下公式:
其中,b为分类阈值,K(xi,x)为xi与x的核函数,具体计算公式为K(x,y)=(x·y+1)t,t=1,2,…;
最终决策函数定义为如下公式:
F(x)=argmaxj=1.2.…9(gj(x))
2)指标的自动获取与量化,若干个指标融合为一条证据
步骤1,指标体系,包括网页质量、网站质量和综合可信度;
步骤2,依据指标体系进行指标分层;
步骤3,对网页的参数类型、网站的安全性以及网站的备案信息进行量化;
步骤4,复杂指标获取:
步骤4.1,网页主体提取,针对主题明确的网页,采用DOM树和VIPS算法,结合主体模板库中的XPath模板对网页进行初步分块,得到主体语义段落的集合;
步骤4.2,网页主题词挖掘:
①主题向量构建:借助WordNet,获取网页类别的同义词集及其下位概念的同义词集,构成同义词集B,对所有Bi∈B,统计Bi中各词在网页主体内容中的出现次数,取和作为Bi的权重VTi,组成网页主题向量VT;
②权重修正:综合分析HTML代码标签与主题词出现位置,修正网页主题向量VT;标签权重参数PM(m),基于DMOZ分类目录,采用统计手段,计算标签m中包含主题词的次数与该标签出现次数之比;位置权重参数PL(i),定义词语i在正文中出现的位置Li如下:
其中,Di为词语i距正文开头的距离,以字数计,Num为正文总字数,Len是一个规范化常量;基于DMOZ分类目录,获取位置权重分段函数PLF,从而词语i的位置权重参数PLi=PLF(Li);结合标签权重参数和位置权重参数修正网页主题向量,修正系数如下:
其中,M为集合Bi中所有词语每次出现时所属标签的集合,L为集合Bi中所有词语每次出现位置的集合;
修正后的网页主题向量元素为VTi’=VTi×E(VTi),则最终的网页主题向量为(VT1’,VT2’,...,VTn’);
③主题词抽取:给定一个阈值β,从修正后的主题向量中选取出值大于β的分量,这些分量对应同义词集中的元素为网页主题词;
步骤4.3,网页K-相关性判别:
①获取主题概念集:对网页P与P’,利用前述主题词挖掘技术,获得相应主题词集TW(P)与TW(P’);若TW(P)与TW(P’)有一者为空集,则认为P’与P不具有K-相关性;否则,依据网页内容,结合通用本体和自然语言处理技术,对TW(P)与TW(P’)中的主题词进行词义标注,生成主题概念集TC(P)与TC(P’);
②构建主题概念链集:对TC(P)中的每一概念tci,利用通用本体构建以tci为头结点、长度至多为K的上位概念链uli=<tci,ci1,ci2,…,cin>,其中n<K,组成主题概念链集UL(P);
③主题概念匹配:对于主题概念链集UL(P)和主题概念集TC(P’),若存在ul∈UL(P)和tc∈TC(P’),使得tc或tc至多K-1级的上位概念为ul中的项,则网页P’与P具有K-相关性;否则,网页P’与P不具有K-相关性;
步骤4.3,构建基于搜索引擎点击日志的动态网页库,首先通过对当前点击日志的分析和抽样,建立初始网页库,然后定期根据新的点击日志随机抽取一定数量的样本加入网页库,替换旧网页库中最旧且最不被频繁使用的样本集;
3)BPA生成
步骤1,神经网络输入预处理,对于上述采集到的指标向量使用在线的零-均值标准化方法进行预处理,产生具有全局一致性的输出向量;将每个输入样本记为一个n维行向量,假定待处理的一条输入数据仍是n维行向量,将其加入矩阵P得到新的(m+1)行n列矩阵P',对P'应用零-均值标准化方法,各列的均值和标准差公式如下:
其中μj’和σj’是矩阵P’第j列属性的均值和标准差;
步骤2,制定训练样本集,通过拟定模糊评语集合、指标质量评语集合及其各评语对应模糊评价集合的隶属度,使用D-S证据理论计算BPA;
步骤3,采用具有偏差单元的BP网络,构建神经网络拓扑;
步骤4,神经网络训练,在步骤3BP网络的基础上,使用冲量信息改进传统的反向传播算法,并引入神经网络熵的概念以计算BPA中的不确定焦元信度;
输出层的输出向量公式如下:
其中Hid(n)为第n次迭代过程中隐层的输出向量,WtOUT为隐层到输出层的权值,WtBIAS (OUT)为偏差节点到输出层的权值;
隐层的输出向量计算公式如下:
Hidj(n)=f(Sj(n))
其中f和Sj为辅助函数,WtMT为隐层到自身的权值,WtIN为输入层到隐层的权值,In(n)为第n次迭代过程中的输入向量,WtBIAS (HID)为偏差节点到隐层的权值,α是 一个调整系数;
基于神经网络的输出,利用可信度BeliefFactor,经归一化产生指标融合BPA;BeliefFactor计算公式如下:
最终的BPA计算公式为:
其中,识别框架Θ={很好,好,一般,差,很差};
4)证据合成
步骤1,相关证据处理,已知证据E1和E2相关,其相关度为R,基本信任分配函数分别为m1和m2,则证据E1和E2的BPA调整为如下公式:
其中,T是焦元,s为1或2;
步骤2,证据重要度分配,已知证据集S={S1,S2,…,S14},相应权重矩阵为Δ=[δij]9×14,其中,δij表示证据Sj对第i类网页的重要度,δij量化公式如下:
其中,Pi为第i类网页的神经网络训练样本集,向量vk1为Pi中第k个网页的评价向量,向量vk2为第k个证据缺失时,Pi中第k个网页经证据合成后所得评价结果向量;
证据Sj对第i类网页的相对重要度λij为:
其中,η是对证据权重偏好的修正系数,与专家的知识、经验有关,0.9≤η≤1;
步骤3,冲突证据处理:
步骤3.1,采用命题稀释度衡量证据间的冲突,命题稀释度为各证据对同一命题支持度的标准差;已知证据集S={S1,S2,…,St},相应基本信任分配函数集M={m1,m2,…,mt},则S中各证据对命题A的命题稀释度为:
步骤3.2,冲突证据信任调整,S中各证据对命题集合U的命题稀释度子集UR={RA|A∈U,RA≥β};若|UR|≤1,不做处理;否则,补充命题G=∪RA∈UR A,表示结论必是G中的一个命题,但不能确定是哪一个命题;当G等于识别框架Θ时,表示命题损失的信度被分配给了识别框架,结论完全不确定;生成新的基本信任分配函数集M’={m1’,m2’,…,mt’}:
步骤4,BPA合成,对步骤3.2生成的基本信任分配函数集M做如下调整:
其中,λk(Si)为证据Si对第k类网页的相对重要度;
最后对调整后的M使用D-S合成规则,实现证据的合成:
CN201610280055.1A 2016-04-29 2016-04-29 基于证据理论的网络质量评价方法 Expired - Fee Related CN105975984B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610280055.1A CN105975984B (zh) 2016-04-29 2016-04-29 基于证据理论的网络质量评价方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610280055.1A CN105975984B (zh) 2016-04-29 2016-04-29 基于证据理论的网络质量评价方法

Publications (2)

Publication Number Publication Date
CN105975984A CN105975984A (zh) 2016-09-28
CN105975984B true CN105975984B (zh) 2018-05-15

Family

ID=56993395

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610280055.1A Expired - Fee Related CN105975984B (zh) 2016-04-29 2016-04-29 基于证据理论的网络质量评价方法

Country Status (1)

Country Link
CN (1) CN105975984B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106548234A (zh) * 2016-11-17 2017-03-29 北京图森互联科技有限责任公司 一种神经网络剪枝方法及装置
CN108121741B (zh) * 2016-11-30 2021-12-28 百度在线网络技术(北京)有限公司 网站质量评估方法及装置
CN107220355A (zh) * 2017-06-02 2017-09-29 北京百度网讯科技有限公司 基于人工智能的新闻质量判断方法、设备及存储介质
CN109327322B (zh) * 2017-08-01 2022-09-30 全球能源互联网研究院 一种网络业务质量风险容忍度的评估方法和系统
CN107797931B (zh) * 2017-11-13 2023-05-23 长春长光精密仪器集团有限公司 一种基于二次评价的软件质量评价方法及系统
CN108362510B (zh) * 2017-11-30 2020-12-29 中国航空综合技术研究所 一种基于证据神经网络模型的机械产品故障模式识别方法
CN108399473B (zh) * 2018-03-06 2021-09-21 沈阳工业大学 一种基于证据网络的智能轮椅路径选择偏好识别方法
CN110247975B (zh) * 2019-06-19 2022-01-07 公安部第一研究所 基于改进d-s证据的物联网多设备协同服务构建方法
CN113722631B (zh) * 2020-05-20 2023-11-21 中国移动通信集团河北有限公司 页面合成方法及装置
CN111901382B (zh) * 2020-06-29 2022-05-17 杭州市余杭区妇幼保健院 一种常态化疫情防控下孕产妇五色智控码系统
CN112001124B (zh) * 2020-08-27 2023-09-05 杭州电子科技大学 基于er规则的船舶电力推进系统关键功能单元辨识方法
CN113965416B (zh) * 2021-12-21 2022-03-18 江苏移动信息系统集成有限公司 一种基于workflow的网站安全防护能力调度方法及系统
CN114330574A (zh) * 2021-12-31 2022-04-12 广东泰迪智能科技股份有限公司 一种面向模式识别的模糊标注方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101626322A (zh) * 2009-08-17 2010-01-13 中国科学院计算技术研究所 网络行为异常检测方法及系统
CN104978612A (zh) * 2015-01-27 2015-10-14 厦门大学 基于ahp-rbf的分布式大数据系统风险预测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8626223B2 (en) * 2008-05-07 2014-01-07 At&T Mobility Ii Llc Femto cell signaling gating

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101626322A (zh) * 2009-08-17 2010-01-13 中国科学院计算技术研究所 网络行为异常检测方法及系统
CN104978612A (zh) * 2015-01-27 2015-10-14 厦门大学 基于ahp-rbf的分布式大数据系统风险预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于证据理论的单词语义相似度度量;王俊华等;《自动化学报》;20150630;第41卷(第6期);第1173-1186页 *
网页质量评价体系的研究;魏超等;《中文信息学报》;20110930;第25卷(第5期);第3-8页 *

Also Published As

Publication number Publication date
CN105975984A (zh) 2016-09-28

Similar Documents

Publication Publication Date Title
CN105975984B (zh) 基于证据理论的网络质量评价方法
Foltz et al. Universities and agricultural biotechnology patent production
CN103218444B (zh) 基于语义的藏文网页文本分类方法
CN104346425B (zh) 一种层次化的互联网舆情指标体系的方法及系统
CN103207855A (zh) 针对产品评论信息的细粒度情感分析系统及方法
CN102231151B (zh) 一种农业领域本体自适应学习建模方法
CN107103100A (zh) 一种投入驱动的容错的基于数据图谱、信息图谱和知识图谱架构的智能语义搜索方法
CN106682150A (zh) 一种信息处理的方法及装置
CN105975457A (zh) 基于全自动学习的信息分类预测系统
CN106682236A (zh) 基于机器学习的专利数据处理方法及其处理系统
CN108052625A (zh) 一种实体精细分类方法
CN103886020A (zh) 一种房地产信息快速搜索方法
CN112116331A (zh) 一种人才推荐方法及装置
KR20180086084A (ko) 인공 지능 기술을 적용한 기계 학습 기반의 입력 특허 집합과 관계성 높은 특허 집합을 생성하는 방법 및 장치
CN106202299A (zh) 一种基于残疾人特征的残疾人权威用户推荐方法
CN110046225B (zh) 一种科技项目材料完整性评估决策模型训练方法
CN112506930B (zh) 一种基于机器学习技术的数据洞察系统
Garasto et al. Developing experimental estimates of regional skill demand
CN116595182A (zh) 一种基于知识图谱和语义理解的评审专家推荐系统
Tutore et al. Conditional classification trees using instrumental variables
Mulay et al. Bibliometric study of bibliometric papers about clustering
Fang et al. Machine learning in facilities & asset management
Narwal et al. Web informative content identification and filtering using machine learning technique
Samizadeh et al. Web mining based on word-centric search with clustering approach using MLP-PSO hybrid
CN116562785B (zh) 审计迎审系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180515

Termination date: 20200429

CF01 Termination of patent right due to non-payment of annual fee