CN1766871A - 基于上下文的半结构化数据语义提取的处理方法 - Google Patents

基于上下文的半结构化数据语义提取的处理方法 Download PDF

Info

Publication number
CN1766871A
CN1766871A CN 200410086746 CN200410086746A CN1766871A CN 1766871 A CN1766871 A CN 1766871A CN 200410086746 CN200410086746 CN 200410086746 CN 200410086746 A CN200410086746 A CN 200410086746A CN 1766871 A CN1766871 A CN 1766871A
Authority
CN
China
Prior art keywords
theme
context
node
semantics
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 200410086746
Other languages
English (en)
Inventor
田永鸿
黄铁军
高文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Graduate School of CAS
University of Chinese Academy of Sciences
Original Assignee
University of Chinese Academy of Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Chinese Academy of Sciences filed Critical University of Chinese Academy of Sciences
Priority to CN 200410086746 priority Critical patent/CN1766871A/zh
Publication of CN1766871A publication Critical patent/CN1766871A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及数据处理技术领域,特别是具有复杂内部结构和相互之间具有链接结构的基于上下文的半结构化数据语义提取的处理方法,包括:多粒度语义模型、上下文依赖网络(CDN)模型、基于多粒度语义模型的两阶段语义提取和多粒度挖掘方法、基于CDN模型的协作主题标定方法。这些方法能利用数据之间的链接和引用等关联关系、以及数据的各种内部结构进行更有效的语义提取,并能在数据集合包含噪声链接的情况下具有健壮性。

Description

基于上下文的半结构化数据语义提取的处理方法
技术领域
本发明涉及数据处理技术领域,特别是具有复杂内部结构和相互之间具有链接结构的基于上下文的半结构化数据语义提取的处理方法。
技术背景
随着信息和网络技术的发展,在今天我们可以很容易地通过电子和网络媒体获得数量巨大而且涉及各个领域的信息资源,即所谓的信息爆炸(Information Explosion)问题已经对迅速有效地组织和索引信息资源以及信息检索技术产生了迫切的需求。信息非结构化、信息种类多样化、文档内容涵盖范围广泛等因素对信息组织和检索提出了巨大的挑战。例如,Web已经成为科学研究、教育学习等领域最重要的信息源和知识库;但Web信息的指数级增长速度同时也为用户有效的利用带来了巨大的难度。据统计,1999年2月Web中只含8亿个可访问的网页;到2000年7月这一数量增长到了21亿个,其增长速度为每天产生730万个新的网页。近年来广泛得到建设的数字图书馆是另外一个重要的海量信息源。数字图书馆是保存大量结构化信息的数字化资源库,这些数字资源的生成者可能是传统的图书馆、博物馆、档案馆、大学、政府部门、专业组织或个人,其目标是让所有的人在任何时间、任何地点可以用任何连接互联网的数字设备来访问人类所有的知识。以一本书300页、每页1500个字符计算,百万册数字图书的文本信息共900G,再加上相关的元数据描述,XML文档总的数据量超过1T,同时数字图书馆中还含有大量用于教学、科研和娱乐的视频和音频等多媒体资源。通过搜索引擎、浏览器等软件和服务设施,用户可以访问Web或数字图书馆的信息和资源,但是用户往往需要的是更为精细、更符合需求的知识而不是成堆的信息,例如用户要求能同时获得表达同一主题的不同媒体形态的信息(例如文本形式的网页和电子书、图像和文本共存形式的演示文档、视音频形式的多媒体资料等)。因此为满足用户多样化、个性化、具有多种媒体形态的信息和知识服务需求,基于Web的信息服务系统(例如网络教育资源管理系统)以及数字图书馆的内容管理和访问系统必须具有能对这些半结构化的信息或数据进行有效的语义提取及相关的分析处理功能。
本发明涉及对半结构化数据资源进行语义提取。半结构化数据是指超文本、Web网页、数字图书、教育资源等,这些数据对象本身由非结构化的字符或数据流组成,但数据对象同时也具有复杂的内部结构,不同数据对象之间通过(超)链接、引用等联系起来构成关系数据集合。现有的方法对这类数据的分类存在着如下一些缺点或不足:
1)语义提取过程中多利用纯统计的方法,而利用的语义信息少(如图1)。语义信息对于检索系统的准确度以及用户需求都有重要的意义。
2)统计方法的重要假设是:所有数据都是具有相同结构的实体,数据之间是独立且同分布的(Independent and identically distributed,IID)。然而,许多现实数据集本身具有复杂的内部结构,不同数据之间通过(超)链接、引用等联系起来构成一关系数据集合。这种链接结构是一种重要的信息源,包含了丰富的语义信息。例如我们可以用传统的文本挖掘方法来进行超文本的主题提取和分类,即将每个文档用关键字或术语向量来进行描述,在此基础上对每个网页进行独立的分类。这种统计方法完全忽略了网页之间的链接结构和网页的内部结构。一般地,若文档之间有超链接则表明他们的主题具有相关关系;每个文档内部也具有节、段等结构,而同一节的超链往往可能指向主题更相关的其他文档。因此,在对这种半结构化数据资源进行处理的过程中,我们不能忽略数据之间的关系关联(例如超链),这些超链可以使处理具有更高的准确度。更重要的是,由于数据之间相互关联,我们不能独立地进行不同数据的处理,而需要同时决定集合中的所有关联数据的主题或类标签。
3)现有的链接方法缺少健壮性。目前国内外某些研究者已经注意到半结构化数据之间链接的重要性,提出了一些基于链接的分类方法(Link-based classification)。但是,这些方法都假设数据之间的链接关系满足“百科全书式”(encyclopedia regularity)或“同引式”(co-referencing regularity)链接规律,即假设链接的对象都具有相同或相关的主题。而事实上,链接数据中有大量的链接并不反映具体的语义含义,也不具有统计显著的模式(这类链接关系称为噪声链接(Noisylinks))。因此,当链接分类方法应用到这样的数据集上时,其分类准确率将远远低于没有噪声链接的数据集。在各种现实的链接数据中,噪声是普遍存在的,例如在Web中存在有大量的广告、浏览链接等;同时由于关系数据的特殊性,我们也不能应用传统的去噪方法(通常假设噪声满足标准高斯分布)。
为解决上述三个问题,我们需要有新的模型和方法来利用链接、引用等关系信息来对半结构关系数据进行有效的语义提取和分析。本发明即给出这样一种语义提取方法。方法的核心是从内部结构和相关关系等两方面来建模数据之间的上下文依赖关系,在此基础上构造健壮的语义模型。
发明内容
本发明的目的在于给半结构化数据资源提供一种基于上下文的语义提取和分析处理方法,这种方法能利用数据之间的链接和引用等关联关系、以及数据的各种内部结构进行更有效的语义提取,能在数据集合包含噪声链接的情况下具有健壮性。这种方法能直接应用在不同的半结构化数据资源。本发明的半结构化数据是指超文本、Web网页、数字图书、教育资源等,这些数据对象本身由非结构化的字符或数据流组成,但数据对象同时也具有复杂的内部结构,不同数据对象之间通过(超)链接、引用等联系起来构成关系数据集合。
为实现上述目的,本发明提出多粒度语义模型来建模这些半结构化数据的内部多层语义结构,以及上下文依赖网络模型(CDN)来建模数据之间的链接语义关系。本发明的多粒度语义模型可以用于建模具有复杂内在结构的半结构化数据对象,从而能有效地刻画数据对象内部结点间上下文主题相关关系;CDN模型可以用于各种通过(显式或隐式)链接、引用、参照等关联起来的关系数据,从而能刻画数据对象间的上下文相关关系,使模型本身具有对不同链接特征的选择性。同时,本发明以Web站点为例,给出了一种多粒度语义模型的构建方法,即将给定的Web站点的内部结构分解为页面链接图和DOM树,并用上下文统计模型来刻画结点间的上下文依赖关系。
基于多粒度语义模型和CDN模型,本发明针对不同数据对象(或集合)提出了三种语义提取和处理方法。对单个半结构化数据(如单个Web网页、单个数字图书等)采用两阶段语义提取和主题标定方法;对具有简单内部结构或无内部结构的数据资源集合(如Web网页集合、学术论文集合、简单教育资源集合等)采用基于CDN模型的链接数据协作主题标定方法;而对具有复杂内部结构的数据资源集合(如Web网站集合、数字图书、复杂教育资源集合等)采用多粒度语义挖掘方法。
本发明的特征在于能有效地利用各种上下文依赖关系(包括数据对象内部的同一粒度结构上下文和粒度间上下文,以及数据对象间的链接上下文等)进行更有效的语义提取,从而能有效提高复杂数据对象的语义提取和主题标定的准确率。
基于上下文的半结构化数据语义提取的处理方法,包括多粒度语义模型、上下文依赖网络(CDN)模型、基于多粒度语义模型的两阶段语义提取和多粒度挖掘方法、基于CDN模型的协作主题标定方法,其特征在于能有效地利用数据对象内部结构以及对象间链接所隐含的上下文依赖关系来进行语义提取和主题标定,提高结果的准确率和模型的健壮性。
所述的基于上下文的半结构化数据语义提取的处理方法,半结构化数据资源的多粒度语义模型,多粒度语义模型通过根据数据对象的内部结构将其分解为具有不同粒度结点的多层描述,通过建模结点间的结构上下文来刻画结点间的主题相关关系。
半结构化关系数据资源的上下文依赖网络(CDN)模型,CDN模型用无向图来刻画一组变量间的概率关系,这些变量的联合分布可以用一组可独立学习的局部条件分布来近似,同时这些局部条件分布可以进一步建模为加权边沿概率分布的线性组合。
所述的基于上下文的半结构化数据语义提取的处理方法,上下文依赖函数度量方法,上下文依赖函数度量方法用互信息来度量链接对象之间的统计主题相关程度,用链接核来度量对象在链接结构。
附图说明
图1.一般的统计机器学习流程图。
图2.基于上下文的半结构化数据语义提取和主题标定的总流程图。
图3.半结构化数据的多粒度语义模型图。
图4.Web站点的多粒度语义模型构建流程(S1)图。
图5.三种用于对象内部不同结点依赖关系的树结构统计模型图。
图6.直接基于树结构模型的语义标定方法图。
图7.基于多粒度语义模型的两阶段语义提取流程(S2)图。
图8.半结构化关系数据的CDN模型图。
图9.基于CDN的链接数据协作主题标定流程(S3)图。
图10.半结构化数据资源的多粒度挖掘流程(S4)图。
具体实施方式
下面结合附图描述本发明。图2描述了基于上下文的半结构化数据语义提取和主题标定的总流程。为有效地利用数据之间的链接和引用等关联关系、以及数据的各种内部结构进行更有效的语义提取,本发明提出了三种面向不同数据对象(或集合)的语义提取和处理方法。下面分别进行描述。
1.对单个半结构化数据
图3描述了半结构化数据的多粒度语义模型。许多半结构化数据对象一般具有较好的结构信息,内部包括有多层的语义结构,例如数字图书分不同章节,具有题目、摘要等部分;网页可以分为不同的DOM(DocumentObject Model)结点。这些内部结点之间具有结构上和语义上的关联关系,例如数字图书中相邻章节之间的语义关联总高于不相邻章节之间的语义关联。因此这样的半结构化数据对象可以进一步用一个链接结点图来表示。有时某些半结构化数据对象的高层结点可以再分解为更底层的结点,例如Web网站可以描述为一个网页结构图,每个网页又可以描述为一棵DOM树。而最底层的结点可以直接用不同的特征向量来描述(例如文本关键字向量、图像视觉特征向量等)。这种多层结构就构成了半结构化数据的多粒度语义模型。图4给出了一种构造这种多粒度语义模型的例子:
数据处理流程S1:Web站点的多粒度语义模型构建流程,参见图4。
基于多粒度语义模型的两阶段语义提取方法,方法将给定的Web站点的内部结构分解为页面链接图和DOM树,并用上下文统计模型来刻画结点间的上下文依赖关系。方法包括如下七大步骤(S1.0-S1.6):
  S1.0:输入数据为给定Web站点的UR;S1.1:根据一定的抓取策略(例如下载站点所有的网页或只下载5层内的所有网页),利用网页抓取器获取该站点的网页;S1.2:构造Web站点的网页链接图。包括如下步骤:S1.2.1提取站点内部网页之间的链接关系;S1.2.2去除Web站点内部的浏览链接、广告链接;S1.2.3根据锚点文本计算任意网页间链接的权值;S1.2.4采用聚类方法,聚集和合并近邻小结点。其中小结点一般指少于50字符的网页。在合并过程中需要处理链接合并问题;S1.2.5构造站点链接图;S1.3:为每个网页构造DOM树;S1.3.1解析网页,包括HTML或XML格式;S1.3.2构造DOM结点;S1.3.3采用聚类方法,聚集和合并DOM结点;S1.4:为每个DOM结点提取特征,特征包括文本关键字、图形特征、链接特征等;S1.5:用上下文统计模型来刻画结点间的上下文依赖关系;S1.6:输出给定Web站点的多粒度语义模型。
多粒度语义模型奠定了对半结构化数据对象进行语义分析和处理的基础,它和不同的统计模型结合即可直接构造不同的分析和处理方法。
图5描述了三种用于对象内部不同结点依赖关系的树结构统计模型,分别为结点间相互独立的0阶Markov树,结点间具有1阶依赖关系的1阶Markov树,以及结点的主题(而非结点本身)间具有1阶依赖关系的隐Markov树(HMT)。其中(a)0阶Markov树;(b)1阶Markov树;(c)隐Markov树(HMT)
图6给出了直接基于这种树结构模型的语义标定方法。但这种方法只利用了数据对象的内部结点间部分主题相关关系,因此只适用于简单的数据对象。
对单个半结构化数据资源(如单个Web网页、单个图书等),本发明提出两阶段语义提取和主题标定方法,其特征在于通过使用多粒度语义模型,数据对象内部多个层次的主题相关关系被利用来进行有效的语义提取和主题标定。例如通过站点内部的网页内容来判定一个Web站点的主题。在最简单情况下,站点内部的所有网页都描述同一个内容,因此可以很方便地判定站点的内容。但实际情况往往更为复杂:站点内部的网页往往涉及很多不同的主题,甚至每个网页也包含了多个主题,在这种情况下需要判定不同页面、甚至页面不同部分之间的主题相关性,从而最终确定整个网站的主题。本发明给出了一种利用这些上下文主题相关性的两阶段语义提取和主题标定方法:
数据处理流程S2:基于多粒度语义模型的两阶段语义提取方法,参见图7。
基于多粒度语义模型的两阶段语义提取方法,方法采用隐Markov树作为树结构的统计模型,通过层次分类来实现结果的优化,方法包括如下四个步骤(S2.1-S2.4):
  S2.1:为每个底层结点提取内容特征,特征包括文本关键字、图形特征、链接特征等。一般地,特征都表示为特征向量形式;S2.2:利用传统的统计分类算法,例如质朴Bayes,支持向量机(SVM)等,根据特征向量来对底层结点进行主题标定;S2.3:利用树分类器(例如基于Markov树的分类器、基于HMT的分类器等)对中间层结点进行主题标定;S2.4:基于中间层结点的标定主题,再次利用树分类器(例如基于Markov树的分类器、基于HMT的分类器等)对整个数据对象进行主题标定。
2.对具有简单内部结构或无内部结构的数据资源集合
现实世界中的数据对象往往是通过各种关系链接到一起的。例如多个网页或网站之间存则超链接(Hyperlinks),学术论文或教育资源之间通过引用(Citations)关系联接起来。这些链接关系往往表现了一些显著的模式,或者传达了链接编辑者的一个观点,即只有相互之间有主题相关的数据对象之间才有链接。因此这样的“链接”信息可以用于对数据对象的主题进行标定和语义提取。针对这样的数据资源集合(如Web网页集合、学术论文集合、简单教育资源集合等),本发明提出基于CDN的链接数据主题提取和主题标定方法。方法的特征在于:1)使用上下文依赖网络(CDN)模型来刻画数据对象之间的主题依赖关系;2)基于链接语义核和互信息提出一种可行的上下文依赖函数度量方法;3)使用Gibbs采样来在CDN模型上执行近似推理,在每个推理步骤中执行影响传播(influence propagation)来用网络中一个数据对象的信念来影响其他关联对象。
图8描述了半结构化数据资源的上下文依赖网络(CDN)模型。作为一种扩展的依赖网络(DN),CDN用无向图来刻画一组变量间的概率关系,并用一组可以独立学习的局部条件分布来近似这些变量的联合分布。在此基础上,CDN进一步将局部条件分布建模为加权边沿概率分布的线性组合,即:
P [ T 1 , … , T N | Π ] = Π i = 1 N P [ T i | T NC ( O i ) ] = Π i = 1 N ( Σ O k ∈ NC ( O i ) σ i , k P [ T i | T k ] ) ,
其中σi,k指数据对象Oi在Ok上的依赖函数,它定量度量了Oi对Ok的上下文依赖关系,也即Ok对Oi分类的影响。若σi,k较小,则表明Ok对Oi分类的影响小,而这样的Ok与Oi具有较小的语义相关性,因此我们在Oi的分类过程中去除对象Ok的影响。这种上下文去噪方法能有效降低噪声链接对分类噪声的影响,从而使得CDN模型能在噪声数据集上保持较高的健壮性。
同时,本发明基于链接语义核和互信息提出一种可行的上下文依赖函数度量方法,其中互信息度量了链接对象之间的统计主题相关程度,而链接核则度量了对象在链接结构中的相似度。根据不同的链接核函数,我们可以得到不同的上下文依赖函数度量形式,例如采用Sigmoid核函数时,依赖函数可以采用如下形式:
&sigma; i , j = 1 Z tanh ( < a i , a j > + &beta; ) I ( O i ; O j ) ,
其中<ai,aj>表示Oi与Oj的点积,I(Oi;Oj)表示Oi与Oj之间的互信息,Z为规范化常数,β为控制参数。
在对链接数据进行语义提取和主题标定的过程中,由于数据之间相互关联,我们不能独立地进行不同数据对象的处理,而需要采用协作主题标定方法来同时决定集合中的所有关联数据的主题或类标签。在协作标定过程中,我们需要Gibbs推理来迭代估计给定数据下目标变量的联合后验概率。对每个对象的目标主题类变量,Gibbs推理在CDN网络上执行影响传播来用网络中一个数据对象的信念来影响其他关联对象。形式化地,影响传播可以用如下公式进行描述:
P [ T i | O i , M ] ( n + 1 ) &LeftArrow; 1 Z [ &Sigma; O k &Element; NC ( O i ) &sigma; i , k ( n ) P [ T i | t k ( n ) ] P [ T i ] P [ T i | O i , M ] ( n ) ] ,
其中P[Ti|Oi,M](n)指第n次迭代过程中的后验概率,P[Ti]为主题变量Ti的先验概率,P[Ti|tk (n))]为主题tk (n)到主题变量Ti的转移概率,σi,k指数据对象Oi在Ok上的依赖函数,Z为规范化常数。经过足够的迭代次数,给定数据下目标变量的联合后验概率达到收敛。本发明提出了基于CDN的链接数据主题提取和主题标定方法。
数据处理流程S3:基于CDN的链接数据协作主题标定方法,参见图9。
基于CDN模型的协作主题标定方法,通过在CDN网络上执行Gibbs推理和影响传播,从而使整个数据集上的语义提取和主题标定的结果达到最佳,方法包括四大步骤(S3.0-S3.3):
  S3.0输入链接数据。一般地,链接数据可以描述为图、关系表等形式。S3.1(Bootstrap):不考虑对象间的链接关系,使用基于特征向量的统计方法对数据对象进行初始主题标定;S3.2(Gibbs Inference):执行Gibbs推理直到收敛。S3.2.1根据当前的主题类标签,计算互信息和链接核,计算上下文依赖函数,构造CDN网络模型;S3.2.2采用一定的策略决定Gibbs采用的顺序,例如具有最
  多链出链接的数据对象优先,链到更多类邻居的数据对象优先等;S3.2.3对每一个目标变量,执行影响传播过程S3.2.4计算目标变量的联合后验分布,并进行最大后验(MAP)分类,得到当前主题标定结果。S3.2.5计算当前结果是否达到收敛条件。S3.3:输出最终的主题标定结果。
3.对具有复杂内部结构的数据资源集合
对具有复杂内部结构的数据资源集合:一方面,这些数据资源本身具有复杂的内部结构,因此我们可以用多粒度语义模型来建模其内部结点间的语义相关关系;另一方面,不同的数据资源之间也具有超链、引用等链接关系,这些关系可以进一步利用来对目标对象进行语义提取和标定。更重要的是,我们不是简单的对两种方法进行组合,而是利用下层结点对上层结点的上下文依赖关系来对下层结点的分类结果进行优化。令Wk (i)为第i层的第k个结点,Tk (i)为其主题属性,NCk (i)为其链接邻居,则优化的公式描述为:
P ( T k ( i ) | W k ( i ) , NC k ( i ) ) = = &alpha;P ( T k ( i ) | W k ( i ) ) P ( T k ( i ) | NC k ( i ) ) P ( T k ( i ) )
其中 P ( W k ( i ) ) P ( W k ( i ) | NC k ( i ) ) 可视为比例常数α。
这种针对具有复杂内部结构的数据资源集合的多粒度挖掘流程(S5)可以描述如下:
数据处理流程S4:半结构化数据资源的多粒度挖掘方法,参见图10。
基于多粒度语义模型的多粒度挖掘方法,方法通过多层次分类以及基于上下文的优化来得到最优的主题标定结果,方法包括如下三大步骤(S4.1-S4.3):
  S4.1用树分类器沿粒度由细到粗的方向依次对中间层结点和数据对象进行第1次粗分类;S4.1.1:为每个底层结点提取内容特征,特征包括文本关键
  字、图形特征、链接特征等。一般地,特征都表示为特征向量形式;S4.1.2:利用传统的统计分类算法,根据特征向量来对底层结点进行主题标定;S4.1.3利用树分类器对中间层结点进行主题标定;S4.1.4基于中间层结点的标定主题,再次利用树分类器对整个数据对象进行主题标定。S4.2利用多粒度上下文模型对树分类器的各层主题标定结果沿粒度由粗到细的方向依次进行优化,得到第2次结果;S4.2.1利用上下文依赖性优化中间层结点的主题标定结果;S4.2.2利用上下文依赖性优化底层结点的主题标定结果。S4.3在此利用树分类器沿粒度由细到粗的方向依次对中间层结点和数据对象进行主题标定,得到最终的结果。S4.3.1利用内容特征和粒度间上下文依赖关系对底层结点进行主题标定;S4.3.2利用底层结点主题和粒度间上下文依赖关系对中间层结点进行主题标定;S4.3.3利用树分类器对对象进行主题标定。

Claims (9)

1、一种基于上下文的半结构化数据语义提取的处理方法,包括多粒度语义模型、上下文依赖网络(CDN)模型、基于多粒度语义模型的两阶段语义提取和多粒度挖掘方法、基于CDN模型的协作主题标定方法,其特征在于能有效地利用数据对象内部结构以及对象间链接所隐含的上下文依赖关系来进行语义提取和主题标定,提高结果的准确率和模型的健壮性。
2、按权利要求1所述的基于上下文的半结构化数据语义提取的处理方法,其特征在于,半结构化数据资源的多粒度语义模型,多粒度语义模型通过根据数据对象的内部结构将其分解为具有不同粒度结点的多层描述,通过建模结点间的结构上下文来刻画结点间的主题相关关系。
3、按权利要求1所述的基于上下文的半结构化数据语义提取的处理方法,其特征在于,基于多粒度语义模型的两阶段语义提取方法,方法将给定的Web站点的内部结构分解为页面链接图和DOM树,并用上下文统计模型来刻画结点间的上下文依赖关系,方法包括如下七大步骤(S1.0-S1.6):
S1.0:输入数据为给定Web站点的URL;
S1.1:根据一定的抓取策略(,利用网页抓取器获取该站点的网页;
S1.2:构造Web站点的网页链接图。包括如下步骤:
S1.2.1:提取站点内部网页之间的链接关系;
S1.2.2:去除Web站点内部的浏览链接、广告链接;
S1.2.3:根据锚点文本计算任意网页间链接的权值;
S1.2.4:采用聚类方法,聚集和合并近邻小结点,并处理链接合并问题;
S1.2.5:构造站点链接图;
S1.3:为每个网页构造DOM树;
S1.3.1:解析网页,包括HTML或XML格式;
S1.3.2:构造DOM结点;
S1.3.3:采用聚类方法,聚集和合并DOM结点;
S1.4:为每个DOM结点提取特征,特征包括文本关键字、图形特征、链接特征等;
S1.5:用上下文统计模型来刻画结点间的上下文依赖关系;
S1.6:输出给定Web站点的多粒度语义模型。
4、按权利要求1所述的基于上下文的半结构化数据语义提取的处理方法,其特征在于,半结构化关系数据资源的上下文依赖网络(CDN)模型,CDN模型用无向图来刻画一组变量间的概率关系,这些变量的联合分布可以用一组可独立学习的局部条件分布来近似,同时这些局部条件分布可以进一步建模为加权边沿概率分布的线性组合。
5、按权利要求1所述的基于上下文的半结构化数据语义提取的处理方法,其特征在于,基于多粒度语义模型的两阶段语义提取方法,方法采用隐Markov树作为树结构的统计模型,通过层次分类来实现结果的优化。方法包括如下四个步骤(S2.1-S2.4):
S2.1:为每个底层结点提取内容特征,特征包括文本关键字、图形特征、链接特征;
S2.2:利用传统的统计分类算法,根据特征向量来对底层结点进行主题标定;
S2.3:利用树分类器对中间层结点进行主题标定;
S2.4:基于中间层结点的标定主题,再次利用树分类器对整个数据对象进行主题标定。
6、按权利要求1所述的基于上下文的半结构化数据语义提取的处理方法,其特征在于,基于多粒度语义模型的多粒度挖掘方法,方法通过多层次分类以及基于上下文的优化来得到最优的主题标定结果,方法包括如下三大步骤(S4.1-S4.3):
S4.1:用树分类器沿粒度由细到粗的方向依次对中间层结点和数据对象进行第1次粗分类;
S4.1.1:为每个底层结点提取内容特征,特征包括文本关键字、图形特征、链接特征;
S4.1.2:利用传统的统计分类算法,根据特征向量来对底层结点进行主题标定;
S4.1.3:利用树分类器对中间层结点进行主题标定;
S4.1.4:基于中间层结点的标定主题,再次利用树分类器对整个数据对象进行主题标定;
S4.2:利用多粒度上下文模型对树分类器的各层主题标定结果沿粒度由粗到细的方向依次进行优化,得到第2次结果;
S4.2.1:利用上下文依赖性优化中间层结点的主题标定结果;
S4.2.2:利用上下文依赖性优化底层结点的主题标定结果;
S4.3:在此利用树分类器沿粒度由细到粗的方向依次对中间层结点和数据对象进行主题标定,得到最终的结果;
S4.3.1:利用内容特征和粒度间上下文依赖关系对底层结点进行主题标定;
S4.3.2:利用底层结点主题和粒度间上下文依赖关系对中间层结点进行主题标定;
S4.3.3:利用树分类器对对象进行主题标定。
7、按权利要求1所述的基于上下文的半结构化数据语义提取的处理方法,其特征在于,基于CDN模型的协作主题标定方法,方法通过在CDN网络上执行Gibbs推理和影响传播,从而使整个数据集上的语义提取和主题标定的结果达到最佳,方法包括四大步骤(S3.0-S3.3):
S3.0:输入链接数据;
S3.1(Bootstrap):不考虑对象间的链接关系,使用基于特征向量的统计方法对数据对象进行初始主题标定;
S3.2(Gibbs Inference):执行Gibbs推理直到收敛;
S3.2.1:根据当前的主题类标签,计算互信息和链接核,计算上下文依赖函数,构造CDN网络模型;
S3.2.2:采用一定的策略决定Gibbs采用的顺序,例如具有最多链出链接的数据对象优先,链到更多类邻居的数据对象优先;
S3.2.3:对每一个目标变量,执行影响传播过程;
S3.2.4:计算目标变量的联合后验分布,并进行最大后验(MAP)分类,得到当前主题标定结果;
S3.2.5:计算当前结果是否达到收敛条件;
S3.3:输出最终的主题标定结果。
8、按权利要求7所述的基于上下文的半结构化数据语义提取的处理方法,其特征在于,上下文依赖函数度量方法,上下文依赖函数度量方法用互信息来度量链接对象之间的统计主题相关程度,用链接核来度量对象在链接结构中的相似度。
9、按权利要求7所述的基于上下文的半结构化数据语义提取的处理方法,其特征在于,CDN网络上的影响传播机制,影响传播机制,用网络中一个数据对象的信念来影响其他关联对象,形式化描述为:
P [ T i | O i , M ] ( n + 1 ) &LeftArrow; 1 Z [ &Sigma; O k &Element; NC ( O i ) &sigma; i , k ( n ) P [ T i | t k ( n ) ] P [ T i ] P [ T i | O i , M ] ( n ) ] ,
其中P[Ti|Oi,M](n)指第n次迭代过程中的后验概率,P[Ti]为主题变量Ti的先验概率,P[Ti|tk (n)]为主题tk (n)到主题变量Ti的转移概率,σi,k (n)指数第n次迭代过程中据对象Oi在Ok上的依赖函数,Z为规范化常数。
CN 200410086746 2004-10-29 2004-10-29 基于上下文的半结构化数据语义提取的处理方法 Pending CN1766871A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200410086746 CN1766871A (zh) 2004-10-29 2004-10-29 基于上下文的半结构化数据语义提取的处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200410086746 CN1766871A (zh) 2004-10-29 2004-10-29 基于上下文的半结构化数据语义提取的处理方法

Publications (1)

Publication Number Publication Date
CN1766871A true CN1766871A (zh) 2006-05-03

Family

ID=36742758

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200410086746 Pending CN1766871A (zh) 2004-10-29 2004-10-29 基于上下文的半结构化数据语义提取的处理方法

Country Status (1)

Country Link
CN (1) CN1766871A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014054052A2 (en) * 2012-10-01 2014-04-10 Parag Kulkarni Context based co-operative learning system and method for representing thematic relationships
CN103778238A (zh) * 2014-01-27 2014-05-07 西安交通大学 一种从维基百科半结构化数据自动构建分类树的方法
CN101561805B (zh) * 2008-04-18 2014-06-25 日电(中国)有限公司 文档分类器生成方法和系统
CN105631018A (zh) * 2015-12-29 2016-06-01 上海交通大学 基于主题模型的文章特征抽取方法
CN106897371A (zh) * 2017-01-18 2017-06-27 南京云思创智信息科技有限公司 中文文本分类系统及方法
CN107656927A (zh) * 2016-07-25 2018-02-02 华为技术有限公司 一种特征选择方法及设备
CN107862081A (zh) * 2017-11-29 2018-03-30 四川无声信息技术有限公司 网络信息源查找方法、装置及服务器
CN111835921A (zh) * 2020-07-16 2020-10-27 普强时代(珠海横琴)信息技术有限公司 一种实时自动话务小结系统和方法
WO2020258303A1 (zh) * 2019-06-28 2020-12-30 西门子股份公司 语义模型实例化方法、系统和装置
US11250204B2 (en) 2017-12-05 2022-02-15 International Business Machines Corporation Context-aware knowledge base system
CN114817811A (zh) * 2022-05-07 2022-07-29 盐城金堤科技有限公司 一种网站解析方法和装置

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101561805B (zh) * 2008-04-18 2014-06-25 日电(中国)有限公司 文档分类器生成方法和系统
US10002330B2 (en) 2012-10-01 2018-06-19 Parag Kulkarni Context based co-operative learning system and method for representing thematic relationships
WO2014054052A3 (en) * 2012-10-01 2014-05-30 Parag Kulkarni Context based co-operative learning system and method for representing thematic relationships
WO2014054052A2 (en) * 2012-10-01 2014-04-10 Parag Kulkarni Context based co-operative learning system and method for representing thematic relationships
CN103778238A (zh) * 2014-01-27 2014-05-07 西安交通大学 一种从维基百科半结构化数据自动构建分类树的方法
CN105631018A (zh) * 2015-12-29 2016-06-01 上海交通大学 基于主题模型的文章特征抽取方法
CN105631018B (zh) * 2015-12-29 2018-12-18 上海交通大学 基于主题模型的文章特征抽取方法
CN107656927A (zh) * 2016-07-25 2018-02-02 华为技术有限公司 一种特征选择方法及设备
CN107656927B (zh) * 2016-07-25 2021-04-09 华为技术有限公司 一种特征选择方法及设备
CN106897371A (zh) * 2017-01-18 2017-06-27 南京云思创智信息科技有限公司 中文文本分类系统及方法
CN106897371B (zh) * 2017-01-18 2020-04-21 南京云思创智信息科技有限公司 中文文本分类系统及方法
CN107862081A (zh) * 2017-11-29 2018-03-30 四川无声信息技术有限公司 网络信息源查找方法、装置及服务器
CN107862081B (zh) * 2017-11-29 2021-07-16 四川无声信息技术有限公司 网络信息源查找方法、装置及服务器
US11250204B2 (en) 2017-12-05 2022-02-15 International Business Machines Corporation Context-aware knowledge base system
WO2020258303A1 (zh) * 2019-06-28 2020-12-30 西门子股份公司 语义模型实例化方法、系统和装置
CN111835921A (zh) * 2020-07-16 2020-10-27 普强时代(珠海横琴)信息技术有限公司 一种实时自动话务小结系统和方法
CN114817811A (zh) * 2022-05-07 2022-07-29 盐城金堤科技有限公司 一种网站解析方法和装置
CN114817811B (zh) * 2022-05-07 2024-03-19 盐城天眼察微科技有限公司 一种网站解析方法和装置

Similar Documents

Publication Publication Date Title
Cai et al. Block-level link analysis
CN110909164A (zh) 一种基于卷积神经网络的文本增强语义分类方法及系统
US7516397B2 (en) Methods, apparatus and computer programs for characterizing web resources
CN110020189A (zh) 一种基于中文相似性计算的文章推荐方法
CN107885793A (zh) 一种微博热点话题分析预测方法及系统
CN101609450A (zh) 基于训练集的网页分类方法
CN1758245A (zh) 利用摘要来分类显示页的方法和系统
CN103309862A (zh) 一种网页类型识别方法和系统
EP2057557A2 (en) Joint optimization of wrapper generation and template detection
CN1296589A (zh) 通过超级链接扩散特性
CN101751439A (zh) 基于层次聚类的图像检索方法
CN108520007B (zh) 万维网网页信息提取方法、存储介质及计算机设备
CN110555154B (zh) 一种面向主题的信息检索方法
CN1766871A (zh) 基于上下文的半结构化数据语义提取的处理方法
CN104765779A (zh) 一种基于YAGO2s的专利文档查询扩展方法
CN112100372A (zh) 头版新闻预测分类方法
Romero et al. A framework for event classification in tweets based on hybrid semantic enrichment
Sendhilkumar Developing a conceptual framework for short text categorization using hybrid CNN-LSTM based Caledonian crow optimization
CN108681977A (zh) 一种律师信息处理方法和系统
CN1604073A (zh) 一种对报纸版面进行标题与正文逻辑关联的方法
CN112597370A (zh) 指定需求范围的网页信息自主搜集筛选系统
CN108614860A (zh) 一种律师信息处理方法和系统
Chen et al. Automatically generating an e-textbook on the web
CN111950717B (zh) 一种基于神经网络的舆情量化方法
Zinger et al. Extracting an ontology of portrayable objects from WordNet

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication