CN103092973A - 信息抽取方法和装置 - Google Patents

信息抽取方法和装置 Download PDF

Info

Publication number
CN103092973A
CN103092973A CN2013100284032A CN201310028403A CN103092973A CN 103092973 A CN103092973 A CN 103092973A CN 2013100284032 A CN2013100284032 A CN 2013100284032A CN 201310028403 A CN201310028403 A CN 201310028403A CN 103092973 A CN103092973 A CN 103092973A
Authority
CN
China
Prior art keywords
node
information extraction
tree
xpath
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013100284032A
Other languages
English (en)
Other versions
CN103092973B (zh
Inventor
高滨
刘正伟
高飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Inspur Government Cloud Management and Operation Co Ltd
Original Assignee
Inspur Beijing Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Beijing Electronic Information Industry Co Ltd filed Critical Inspur Beijing Electronic Information Industry Co Ltd
Priority to CN201310028403.2A priority Critical patent/CN103092973B/zh
Publication of CN103092973A publication Critical patent/CN103092973A/zh
Application granted granted Critical
Publication of CN103092973B publication Critical patent/CN103092973B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明提供了一种信息抽取方法和装置。涉及计算机应用领域;解决了现有信息抽取技术无法满足实际应用需要的问题。该方法包括:对HTML文档进行预处理,得到规范的XHTML文档;对所述XHTML文档进行解析,获取样本实例;通过归纳学习所述样本实例,得出公共XPATH;生成XSLT抽取规则;根据所述XSLT抽取规则和所述XPATH,通过输出文件函数进行信息抽取。本发明提供的技术方案适用于基于网页结构的特征分析,实现了高查全率和查准率的信息抽取。

Description

信息抽取方法和装置
技术领域
本发明涉及计算机应用领域,尤其涉及一种信息抽取方法和装置。
背景技术
随着信息产业和通讯技术的飞速发展,互联网已经成为重要的知识库和信息来源。然而,随着互联网上信息量日益庞大,互联网中数据的组织类型更加多样化并且信息缺乏统一管理,人们对于高效率的信息抽取技术的需求越来越迫切。
基于网页结构特征分析的方法,采用统计聚类的思想,查全率较高,但在抽取信息时具有一定的盲目性,经常抽取出大量的无用信息。基于隐马尔科夫模型(Hidden Markov Model,简称HMM)的信息抽取方法,需要相关领域的专家事先构建出该领域的最优数学模型,且模型参数的制定需要大量的样本数据,抽取效率较低。基于本体实现的表格信息抽取方法,不依赖于所抽取的WEB页面的设计格式,也没有对其内容提出任何表示限制,但该方法只适用于一定的应用领域,当应用领域改变时相应的本体需要重新构造。基于自然语言处理方式的信息抽取方法适用于含有大量自由文本且句子成分完整的Web页面,但该方法没有充分利用Web文档的层次结构,且处理速度慢,导致该方法的适用范围较小。
可见,现有的信息抽取技术难以同时满足网页信息自动抽取中查全率与准确率高、抽取信息量大、用户负担轻和无关于应用领域等要求。
发明内容
本发明提供了一种信息抽取方法和装置,解决了现有信息抽取技术无法满足实际应用需要的问题。
一种信息抽取方法,包括:
对超文本标记语言(HTML)文档进行预处理,得到规范的可扩展超文本置标语言(XHTML)文档;
对所述XHTML文档进行解析,获取样本实例;
通过归纳学习所述样本实例,得出公共XML路径语言(XPATH);
生成扩展样式表转换语言(XSLT)抽取规则;
根据所述XSLT抽取规则和所述XPATH,通过输出文件函数进行信息抽取。
优选的,所述对HTML文档进行预处理,得到规范的XHTML文档包括:
将所述HTML文档解析成一颗HTML文档对象模块(HTMLDOM)树,并获取该树的根元素;
为所述HTML文档添加XML文档声明和XSLT规则转换文件;
从所述树的树根开始递归遍历所述HTMLDOM树,形成所述规范的XHTML文件。
优选的,从所述树的树根开始递归遍历所述HTMLDOM树,形成所述规范的XHTML文件包括:
从树根开始递归遍历所述HTMLDOM树,判断节点类型;
对节点类型为文本节点的节点,用实体引用代替文本节点的特殊字符,并打印所述文本节点;
对节点类型为有用元素的元素节点,在取出所述元素节点之前先打印“<”,获得该元素节点的名称,同时将该元素节点的名称小写化;
对节点类型为无用元素的元素节点,直接过滤该元素节点。
优选的,所述从所述树的树根开始递归遍历所述HTMLDOM树,形成所述规范的XHTML文件还包括:
对于有子节点的节点类型为有用元素的元素节点,以同样方式递归打印出所有孩子节点,直到遍历结束,关闭所述元素节点。
优选的,所述对所述XHTML文档进行解析,获取样本实例的步骤包括:
将页面清洗得到的XHTML文档解析成XMLDOM树,获得该树的根节点(ROOT);
深度优先遍历所述XMLDOM树;
获得根节点的名称;
在所述根节点有孩子节点时递归处理该节点的孩子节点,在所述根节点没有孩子节点时直接加到当前节点下;
把所有子节点加载到JTREE的根节点中生成整棵树。
优选的,所述通过归纳学习所述样本实例,得出公共XPATH包括:
对于两个样本实例的XPATH表达式,从根节点开始比较;
如果节点名称和位置序号都一致,则计入公共XPATH表达式;
若某个XPATH的节点名称相同,而位置序号不同,则获得该节点及其所有的兄弟节点,将该节点的孩子序号置为0,并写入公共XPATH表达式中;
依次比较直到XPATH表达式结束。
优选的,所述生成XSLT抽取规则包括:
定义三个变量,使用该三个变量保存起始孩子节点序号、孩子节点数以及步长值;
设置公共路径里的参数,初始值为起始孩子节点序号;
模板运行一次后将起始孩子节点序号按步长值增加,得到的结果作为参数递归调用模板,完成多条记录数的自动抽取。
优选的,所述根据所述XSLT抽取规则和所述XPATH,通过输出文件函数进行信息抽取的步骤之后,还包括:
将抽取结果存入XML文件中,用于观察数据抽取的正确性和二次处理。
本发明还提供了一种信息抽取装置,包括:
页面预处理模块,用于对HTML文档进行预处理,得到规范的XHTML文档;
网页树构建模块,用于对所述XHTML文档进行解析,获取样本实例;
XPATH构建模块,用于通过归纳学习所述样本实例,得出公共XPATH;
抽取规则形成模块,用于生成XSLT抽取规则;
信息抽取模块,用于根据所述XSLT抽取规则和所述XPATH,通过输出文件函数进行信息抽取。
本发明提供了一种信息抽取方法和装置,对HTML文档进行预处理,得到规范的XHTML文档,然后对所述XHTML文档进行解析,获取样本实例,通过归纳学习所述样本实例,得出公共XPATH,并生成XSLT抽取规则,最后根据所述XSLT抽取规则和所述XPATH,通过输出文件函数进行信息抽取,实现了高查全率和查准率的信息抽取,解决了现有信息抽取技术无法满足实际应用需要的问题。
附图说明
图1为本发明的实施例一提供的一种信息抽取装置的结构示意图;
图2为本发明的实施例一提供的一种信息抽取方法的流程图;
图3为本发明的实施例一提供的一种信息抽取方法的实现原理图;
图4为本发明的实施例二中实验结果示意图。
具体实施方式
现有的信息抽取技术难以同时满足网页信息自动抽取中查全率与准确率高、抽取信息量大、用户负担轻和无关于应用领域等要求。
为了解决上述问题,本发明的实施例提供了一种信息抽取方法和装置。下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
首先结合附图,对本发明的实施例一进行说明。
本发明实施例提供了一种信息抽取装置,该装置的结构如图1所示,包括:
页面预处理模块101,用于对HTML文档进行预处理,得到规范的XHTML文档;
网页树构建模块102,用于对所述XHTML文档进行解析,获取样本实例;
XPATH构建模块103,用于通过归纳学习所述样本实例,得出公共XPATH;
抽取规则形成模块104,用于生成XSLT抽取规则;
信息抽取模块105,用于根据所述XSLT抽取规则和所述XPATH,通过输出文件函数进行信息抽取。
结合图1所示的信息抽取装置,本发明的实施例还提供了一种信息抽取方法,使用该方法完成WEB信息抽取的流程如图2所示,包括:
步骤201、对HTML文档进行预处理,得到规范的XHTML文档;
本步骤提供一种HTML页面清洗算法,主要实现步骤如下:
1、利用NekoHtml把HTML文档解析成一棵HTMLDOM树,并获得该树的根元素。
2、为文档添加XML文档声明和XSLT规则转换文件。
3、从树根开始,递归遍历HTMLDOM树,根据节点类型进行判断处理。
若是文本节点,则用实体引用代替特殊字符,并打印文本节点。若是元素节点,则需判断节点类型是否是无用元素。若是无用节点,如Script、META、Form、STYLE等,则直接过滤;否则,在取出元素节点之前先打印“<”,利用DOM中的getNodeName()方法获得元素节点名称,同时将其名称小写化。
如果有用元素类型的元素节点有子节点,则以同样方式递归打印出所有孩子节点,直到遍历结束,关闭元素节点。
4、待整个HTMLDOM树遍历结束,则形成了规范的XHTML文档。
步骤202、对所述XHTML文档进行解析,获取样本实例;
本步骤中,对XHTML文档进行解析,使用JTREE构建可视化的XML文档,以便获得样本实例,减轻用户负担。构建网页分析树流程如下:
首先,将步骤201之后得到的XHTML文档解析成XMLDOM树,获得该树的根节点ROOT。
其次,深度优先遍历该XMLDOM树。获得根节点的名称,如果该根节点有孩子节点,递归处理该根节点的孩子节点。如果该根节点没有孩子节点,则直接将没有子节点的元素节点加到根节点下。最后把所有孩子节点加载到JTREE的根节点中生成整棵树
步骤203、通过归纳学习所述样本实例,得出公共XPATH;
在获得所有的样本实例后,通过归纳学习得出公共XPATH(待抽取节点的路径,使用XPATH来定位)。例如:对于两个样本实例的XPATH表达式,从根节点开始比较。
如果节点名称和位置序号都一致,则将节点的路径XPATH计入公共XPATH表达式,形如:/root/node1/node2。若某个XPATH的节点名称相同,而位置序号不同(在树中同一层的不同兄弟节点位置序号不同),则说明待抽取的信息位于该树节点的及其兄弟节点为父节点的子树中;此时,继续获得该节点及其所有的兄弟节点,并将该节点的孩子序号置为0,并写入公共XPATH表达式中。依次比较直到XPATH表达式结束。
步骤204、生成XSLT抽取规则;
本步骤可采用基于树的绝对路径定位方式,这种方式最为直观和准确,运行效率也最高。
在信息抽取中,一般记录条数较多,而在XSLT中,当XSLT处理器为执行转换而处理样式表的时候,它的值每次都可能发生变化。但是,一旦在某个转换中设定了这个值,就不再发生变化。因此,要把所有的记录条数全部抽取出来,必须使用模板递归调用。首先定义三个变量,使用这三个变量保存起始孩子节点序号、孩子节点数以及步长值。然后设置公共路径里的参数,初始值为起始孩子节点序号,模板(即某个待抽取记录的抽取规则模板,本质一个xml文件,使用xslt进行处理)运行一次后将起始孩子节点序号按步长值增加,得到的结果作为参数递归调用模板,完成多条记录数的自动抽取。
步骤205、根据所述XSLT抽取规则和所述XPATH,通过输出文件函数进行信息抽取;
本步骤中,根据抽取规则库里的规则,利用XSLT和XPATH在数据转换和数据定位方面的优势,通过输出文件函数实现信息抽取。优选的,还可将抽取结果存入XML文件中,用于观察数据抽取的正确性和二次处理。
本发明实施例中,可根据实际需要自定义抽取规则以构成抽取规则库。
本发明实施例的实现原理如图3所示。
下面结合附图,对本发明的实施例二进行说明。
本发明实施例提供了一种信息抽取方法,该信息抽取方法建立在待抽取的网页库已获得的前提下,通过页面预处理器将源HTML页面标准化,补充HTML不规则标签,过滤无用元素节点等。如果该类型页面在抽取规则库中不存在,利用页面结构解析器将网页解析成为JTree,并根据样本实例学习公共XPATH,从而形成提取规则。如果存在抽取规则,则直接进行抽取。利用该原型系统进行了对4个网站的26个页面的进行了实验,实验结果参见图4,实验结果以准确率(P)和召回率(R)来衡量。另外,引入一个准确率和召回率的加权平均值F,其中待抽取数据共423个,当其提供的样本实例数为2个时,实际抽出共366个,正确抽出共360个,平均F值为75.23%;当其提供的样本实例为3个时,平均查全率为99.17%,平均查准率为99.17%,平均F值为99.17%。对于一般网站而言,一个信息点本方法最多提供3个样本实例,便可完成较高查全率和查准率的抽取。
本发明的实施例提供了一种信息抽取方法和装置,对HTML文档进行预处理,得到规范的XHTML文档,然后对所述XHTML文档进行解析,获取样本实例,通过归纳学习所述样本实例,得出公共XPATH,并生成XSLT抽取规则,最后根据所述XSLT抽取规则和所述XPATH,通过输出文件函数进行信息抽取,实现了高查全率和查准率的信息抽取,解决了现有信息抽取技术无法满足实际应用需要的问题。
本领域普通技术人员可以理解上述实施例的全部或部分步骤可以使用计算机程序流程来实现,所述计算机程序可以存储于一计算机可读存储介质中,所述计算机程序在相应的硬件平台上(如系统、设备、装置、器件等)执行,在执行时,包括方法实施例的步骤之一或其组合。
可选地,上述实施例的全部或部分步骤也可以使用集成电路来实现,这些步骤可以被分别制作成一个个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
上述实施例中的各装置/功能模块/功能单元可以采用通用的计算装置来实现,它们可以集中在单个的计算装置上,也可以分布在多个计算装置所组成的网络上。
上述实施例中的各装置/功能模块/功能单元以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。上述提到的计算机可读取存储介质可以是只读存储器,磁盘或光盘等。
任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求所述的保护范围为准。

Claims (9)

1.一种信息抽取方法,其特征在于,包括:
对超文本标记语言(HTML)文档进行预处理,得到规范的可扩展超文本置标语言(XHTML)文档;
对所述XHTML文档进行解析,获取样本实例;
通过归纳学习所述样本实例,得出公共XML路径语言(XPATH);
生成扩展样式表转换语言(XSLT)抽取规则;
根据所述XSLT抽取规则和所述XPATH,通过输出文件函数进行信息抽取。
2.根据权利要求1所述的信息抽取方法,其特征在于,所述对HTML文档进行预处理,得到规范的XHTML文档包括:
将所述HTML文档解析成一颗HTML文档对象模块(HTMLDOM)树,并获取该树的根元素;
为所述HTML文档添加XML文档声明和XSLT规则转换文件;
从所述树的树根开始递归遍历所述HTMLDOM树,形成所述规范的XHTML文件。
3.根据权利要求2所述的信息抽取方法,其特征在于,从所述树的树根开始递归遍历所述HTMLDOM树,形成所述规范的XHTML文件包括:
从树根开始递归遍历所述HTMLDOM树,判断节点类型;
对节点类型为文本节点的节点,用实体引用代替文本节点的特殊字符,并打印所述文本节点;
对节点类型为有用元素的元素节点,在取出所述元素节点之前先打印“<”,获得该元素节点的名称,同时将该元素节点的名称小写化;
对节点类型为无用元素的元素节点,直接过滤该元素节点。
4.根据权利要求3所述的信息抽取方法,其特征在于,所述从所述树的树根开始递归遍历所述HTMLDOM树,形成所述规范的XHTML文件还包括:
对于有子节点的节点类型为有用元素的元素节点,以同样方式递归打印出所有孩子节点,直到遍历结束,关闭所述元素节点。
5.根据权利要求1所述的信息抽取方法,其特征在于,所述对所述XHTML文档进行解析,获取样本实例的步骤包括:
将页面清洗得到的XHTML文档解析成XMLDOM树,获得该树的根节点(ROOT);
深度优先遍历所述XMLDOM树;
获得根节点的名称;
在所述根节点有孩子节点时递归处理该节点的孩子节点,在所述根节点没有孩子节点时直接加到当前节点下;
把所有子节点加载到JTREE的根节点中生成整棵树。
6.根据权利要求1所述的信息抽取方法,其特征在于,所述通过归纳学习所述样本实例,得出公共XPATH包括:
对于两个样本实例的XPATH表达式,从根节点开始比较;
如果节点名称和位置序号都一致,则计入公共XPATH表达式;
若某个XPATH的节点名称相同,而位置序号不同,则获得该节点及其所有的兄弟节点,将该节点的孩子序号置为0,并写入公共XPATH表达式中;
依次比较直到XPATH表达式结束。
7.根据权利要求1所述的信息抽取方法,其特征在于,所述生成XSLT抽取规则包括:
定义三个变量,使用该三个变量保存起始孩子节点序号、孩子节点数以及步长值;
设置公共路径里的参数,初始值为起始孩子节点序号;
模板运行一次后将起始孩子节点序号按步长值增加,得到的结果作为参数递归调用模板,完成多条记录数的自动抽取。
8.根据权利要求1所述的信息抽取方法,其特征在于,所述根据所述XSLT抽取规则和所述XPATH,通过输出文件函数进行信息抽取的步骤之后,还包括:
将抽取结果存入XML文件中,用于观察数据抽取的正确性和二次处理。
9.一种信息抽取装置,其特征在于,包括:
页面预处理模块,用于对HTML文档进行预处理,得到规范的XHTML文档;
网页树构建模块,用于对所述XHTML文档进行解析,获取样本实例;
XPATH构建模块,用于通过归纳学习所述样本实例,得出公共XPATH;
抽取规则形成模块,用于生成XSLT抽取规则;
信息抽取模块,用于根据所述XSLT抽取规则和所述XPATH,通过输出文件函数进行信息抽取。
CN201310028403.2A 2013-01-24 2013-01-24 信息抽取方法和装置 Active CN103092973B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310028403.2A CN103092973B (zh) 2013-01-24 2013-01-24 信息抽取方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310028403.2A CN103092973B (zh) 2013-01-24 2013-01-24 信息抽取方法和装置

Publications (2)

Publication Number Publication Date
CN103092973A true CN103092973A (zh) 2013-05-08
CN103092973B CN103092973B (zh) 2015-12-02

Family

ID=48205538

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310028403.2A Active CN103092973B (zh) 2013-01-24 2013-01-24 信息抽取方法和装置

Country Status (1)

Country Link
CN (1) CN103092973B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103617297A (zh) * 2013-12-18 2014-03-05 用友软件股份有限公司 一种基于XPath动态支持XML多语言的方法
CN104598462A (zh) * 2013-10-30 2015-05-06 深圳市国信互联科技有限公司 提取结构化数据的方法及装置
CN108804472A (zh) * 2017-05-04 2018-11-13 腾讯科技(深圳)有限公司 一种网页内容抽取方法、装置及服务器
CN113807050A (zh) * 2021-07-01 2021-12-17 西安华讯科技有限责任公司 一种基于富文本的节点截取方法、系统、设备和存储介质
CN116775849A (zh) * 2023-08-23 2023-09-19 成都运荔枝科技有限公司 一种线上问题处理系统及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060048051A1 (en) * 2004-08-25 2006-03-02 Research In Motion Limited Method for rendering formatted content on a mobile device
CN101101600A (zh) * 2007-07-10 2008-01-09 北京大学 网络搜索中基于多种规则的元数据自动抽取方法
CN102236713A (zh) * 2011-07-05 2011-11-09 广东星海数字家庭产业技术研究院有限公司 一种数字电视交互服务页面的信息提取方法及其装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060048051A1 (en) * 2004-08-25 2006-03-02 Research In Motion Limited Method for rendering formatted content on a mobile device
CN101101600A (zh) * 2007-07-10 2008-01-09 北京大学 网络搜索中基于多种规则的元数据自动抽取方法
CN102236713A (zh) * 2011-07-05 2011-11-09 广东星海数字家庭产业技术研究院有限公司 一种数字电视交互服务页面的信息提取方法及其装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
轩艳艳: "基于XML的Web信息抽取研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104598462A (zh) * 2013-10-30 2015-05-06 深圳市国信互联科技有限公司 提取结构化数据的方法及装置
CN104598462B (zh) * 2013-10-30 2018-08-07 深圳市国信互联科技有限公司 提取结构化数据的方法及装置
CN103617297A (zh) * 2013-12-18 2014-03-05 用友软件股份有限公司 一种基于XPath动态支持XML多语言的方法
CN108804472A (zh) * 2017-05-04 2018-11-13 腾讯科技(深圳)有限公司 一种网页内容抽取方法、装置及服务器
CN113807050A (zh) * 2021-07-01 2021-12-17 西安华讯科技有限责任公司 一种基于富文本的节点截取方法、系统、设备和存储介质
CN113807050B (zh) * 2021-07-01 2024-04-09 西安华讯科技有限责任公司 一种基于富文本的节点截取方法、系统、设备和存储介质
CN116775849A (zh) * 2023-08-23 2023-09-19 成都运荔枝科技有限公司 一种线上问题处理系统及方法
CN116775849B (zh) * 2023-08-23 2023-10-24 成都运荔枝科技有限公司 一种线上问题处理系统及方法

Also Published As

Publication number Publication date
CN103092973B (zh) 2015-12-02

Similar Documents

Publication Publication Date Title
US7941420B2 (en) Method for organizing structurally similar web pages from a web site
US9224103B1 (en) Automatic annotation for training and evaluation of semantic analysis engines
CN102270206A (zh) 一种有效网页内容的抓取方法及装置
CN102591612B (zh) 一种基于标点连续性的通用网页正文提取方法及其系统
CN103092973B (zh) 信息抽取方法和装置
CN100552673C (zh) 开放式文档同构引擎系统
Huynh et al. Enabling web browsers to augment web sites' filtering and sorting functionalities
US20160117412A1 (en) Recursive extraction and narration of nested tables
CN102646132B (zh) 宽带用户属性识别方法和装置
CN108090104A (zh) 用于获取网页信息的方法和装置
Evert A Lightweight and Efficient Tool for Cleaning Web Pages.
CN104750820A (zh) 一种语料库的过滤方法及装置
CN106960058A (zh) 一种网页结构变更检测方法及系统
CN102567521B (zh) 网页数据抓取过滤方法
CN103440315A (zh) 一种基于主题的Web页面清洗方法
CN104572934A (zh) 一种基于dom的网页关键内容抽取方法
Rastan et al. TEXUS: table extraction system for PDF documents
CN101714147A (zh) 相同或相似文件的过滤方法
Rowe et al. Data. dcs: Converting Legacy Data into Linked Data.
CN104978379B (zh) 一种应用程序资料站的搭建方法及装置
Kowsher et al. Banglalm: Data mining based bangla corpus for language model research
Sirsat et al. Pattern matching for extraction of core contents from news web pages
CN104636324A (zh) 话题溯源方法和系统
Nghiem et al. Using MathML parallel markup corpora for semantic enrichment of mathematical expressions
CN114117242A (zh) 数据查询方法和装置、计算机设备、存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20180827

Address after: 200436 Room 411, No. three, JIANGCHANG Road, Jingan District, Shanghai, 411

Patentee after: SHANGHAI INSPUR CLOUD CALCULATING SERVICE CO.,LTD.

Address before: 100085 floor 1, C 2-1, No. 2, Shang Di Road, Haidian District, Beijing.

Patentee before: INSPUR (BEIJING) ELECTRONIC INFORMATION INDUSTRY Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20221019

Address after: No. 5-398, Yunhan Avenue, Shuitu Hi tech Industrial Park, Beibei District, Chongqing 400722

Patentee after: Chongqing Inspur Government Cloud Management and Operation Co.,Ltd.

Address before: 200436 Room 411, No. three, JIANGCHANG Road, Jingan District, Shanghai, 411

Patentee before: SHANGHAI INSPUR CLOUD CALCULATING SERVICE CO.,LTD.