CN112597410A - 基于规则配置库对网页内容执行结构化提取的方法及装置 - Google Patents

基于规则配置库对网页内容执行结构化提取的方法及装置 Download PDF

Info

Publication number
CN112597410A
CN112597410A CN202011437614.8A CN202011437614A CN112597410A CN 112597410 A CN112597410 A CN 112597410A CN 202011437614 A CN202011437614 A CN 202011437614A CN 112597410 A CN112597410 A CN 112597410A
Authority
CN
China
Prior art keywords
rule
webpage
rule base
analyzed
url
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011437614.8A
Other languages
English (en)
Inventor
叶山茂
赵晶
喻波
王志海
安鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Wondersoft Technology Co Ltd
Original Assignee
Beijing Wondersoft Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Wondersoft Technology Co Ltd filed Critical Beijing Wondersoft Technology Co Ltd
Priority to CN202011437614.8A priority Critical patent/CN112597410A/zh
Publication of CN112597410A publication Critical patent/CN112597410A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提供一种基于规则配置库对网页内容执行结构化提取的方法及装置,所述方法包括:建立规则库,所述规则库中的规则包括解析网页内容所需的配置项;获取待解析的网页内容,获取其对应的网站的url,查询所述规则库;获取待解析的网页,并根据该网页的url,以正则匹配的方式从所述规则库中查找对应的规则,输出规则的配置项;基于所述输出规则的配置项,对所述待解析的网页进行解析;将解析出的结果处理成个性化设置所需的格式。根据本发明的方案,能够共享并复用规则,对网页内容进行高精度、细粒度的提取,提取个性化数据,提取出的数据能够满足第三方数据处理系统的需要。

Description

基于规则配置库对网页内容执行结构化提取的方法及装置
技术领域
本发明涉及数据处理领域,尤其涉及一种基于规则配置库对网页内容执行结构化提取的方法及装置。
背景技术
近些年来,互联网技术得到了快速发展,大数据处理技术在这个过程中应运而生,并对互联网经济产生了深刻的影响,给互联网经济发展带来了极大的机遇。这也促使越来越多的企业和机构进入到大数据技术领域或使用大数据技术成功助力自身发展。
大数据技术中,数据来源是至关重要的一个组成部分,而当前互联网网页中包含了大量各式各样数据内容。所以,如何对网页数据内容进行高效、准确的收集成为了大数据时代迫切需要的技术。
现有技术中,对网页数据进行采集的工具,例如八爪鱼、火车头等,但这些工具都需要对的网页即时配置规则,之后,运行规则再导出结果数据。
但上述实现方式,在即时配置规则时,需要专业技术才能配置成功,并且,需要即时对规则进行配置,对规则的共享和重复利用存在困难;不能对网页内容进行高精度的提取;提取出的数据的格式、展示方式不满足第三方数据处理系统的需要;无法提取个性化数据。
发明内容
为解决上述技术问题,本发明提出了一种基于规则配置库对网页内容执行结构化提取的方法及装置,所述方法及装置,用以解决现有技术中,即时配置规则时,需要专业技术才能配置成功,并且,需要即时对规则进行配置,对规则的共享和重复利用存在困难;不能对网页内容进行高精度的提取;提取出的数据的格式、展示方式不满足第三方数据处理系统的需要;无法提取个性化数据的问题。
根据本发明的第一方面,提供一种基于规则配置库对网页内容执行结构化提取的方法,所述方法包括以下步骤:
步骤S101:建立规则库,所述规则库包括网络规则库及本地规则库;所述规则库中的规则包括解析网页内容所需的配置项;
步骤S102:获取待解析的网页内容,获取其对应的网站的url,查询所述规则库,若存在与网站的url对应的规则,则允许用户对所述对应的规则进行复用、修改和扩展;若不存在与网站的url对应的规则,由用户创建对应的规则;
步骤S103:获取待解析的网页,并根据该网页的url,以正则匹配的方式从所述规则库中查找对应的规则,输出规则的配置项;
步骤S104:基于所述输出规则的配置项,对所述待解析的网页进行解析;
步骤S105:将解析出的结果处理成个性化设置所需的格式。
进一步地,网络规则库通过镜像导入实现规则共享;本地规则库通过数据库存储并在局域网中共享。
进一步地,所述规则的配置项包括xpath返回值、css选择器、正则表达式、处理脚本的方式、json格式。
进一步地,xpath返回值包括节点、节点集合、文本、以及节点和文本的混合;JSON格式具有两种形式,分别是名称、值组成的数据对的集合,以及值的有序列表。
根据本发明第二方面,提供一种基于规则配置库对网页内容执行结构化提取的装置,所述装置包括:
规则库模块:配置为建立规则库,所述规则库包括网络规则库及本地规则库;所述规则库中的规则包括解析网页内容所需的配置项;
规则设置模块:配置为获取待解析的网页内容,获取其对应的网站的url,查询所述规则库,若存在与网站的url对应的规则,则允许用户对所述对应的规则进行复用、修改和扩展;若不存在与网站的url对应的规则,由用户创建对应的规则;
规则匹配模块:配置为获取待解析的网页,并根据该网页的url,以正则匹配的方式从所述规则库中查找对应的规则,输出规则的配置项;
解析模块:配置为基于所述输出规则的配置项,对所述待解析的网页进行解析;
格式转化模块:配置为将解析出的结果处理成个性化设置所需的格式。
进一步地,网络规则库通过镜像导入实现规则共享;本地规则库通过数据库存储并在局域网中共享。
进一步地,所述规则的配置项包括xpath返回值、css选择器、正则表达式、处理脚本的方式、json格式。
进一步地,xpath返回值包括节点、节点集合、文本、以及节点和文本的混合;JSON格式具有两种形式,分别是名称、值组成的数据对的集合,以及值的有序列表。
根据本发明第三方面,提供一种基于规则配置库对网页内容执行结构化提取的系统,包括:
处理器,用于执行多条指令;
存储器,用于存储多条指令;
其中,所述多条指令,用于由所述存储器存储,并由所述处理器加载并执行如前所述的基于规则配置库对网页内容执行结构化提取的方法。
根据本发明第四方面,提供一种计算机可读存储介质,所述存储介质中存储有多条指令;所述多条指令,用于由处理器加载并执行如前所述的基于规则配置库对网页内容执行结构化提取的方法。
根据本发明的上述方案,建立规则库,并基于查询确定规则,再利用具体的规则的配置项,对待解析的网页进行解析,并将解析出的结果处理成个性化设置所需的格式,能有效地解决对规则的共享和重复利用存在困难;不能对网页内容进行高精度的提取;提取出的数据的格式、展示方式不满足第三方数据处理系统的需要;无法提取个性化数据的问题。能够共享并复用规则,对网页内容进行高精度、细粒度的提取,提取个性化数据,提取出的数据能够满足第三方数据处理系统的需要。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如后。
附图说明
构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明提供如下附图进行说明。在附图中:
图1为本发明一个实施方式的基于规则配置库对网页内容执行结构化提取的方法流程图;
图2为本发明一个实施方式的基于规则配置库对网页内容执行结构化提取的数据流向示意图;
图3为本发明又一个实施方式的基于规则配置库对网页内容执行结构化提取的实现过程示意图;
图4为本发明一个实施方式的基于规则配置库对网页内容执行结构化提取的装置结构框图。
具体实施方式
定义及解释:
网页提取:指对互联网网站页面,也即技术上表现形式为html的文档的内容进行提取,包括其中的文字、图片、声音、视频等。
数据结构化:把整体文本内容解构并重组为json、表格、xml等形式的数据格式的过程中,把原始的文本内容称作非结构化数据,重组后的结果可称作结构化数据。
解析规则:指把网页内容提取为结构化数据中所遵循的处理流程(比如xpath提取、正则匹配、编写脚本处理器等),以及每个处理流程所使用的输入参数。
首先结合图1说明为本发明一个实施方式的基于规则配置库对网页内容执行结构化提取的方法流程图。如图1-2所示,所述方法包括以下步骤:
步骤S101:建立规则库,所述规则库包括网络规则库及本地规则库;所述规则库中的规则包括解析网页内容所需的配置项;
步骤S102:获取待解析的网页内容,获取其对应的网站的url,查询所述规则库,若存在与网站的url对应的规则,则允许用户对所述对应的规则进行复用、修改和扩展;若不存在与网站的url对应的规则,由用户创建对应的规则;
步骤S103:获取待解析的网页,并根据该网页的url,以正则匹配的方式从所述规则库中查找对应的规则,输出规则的配置项;
步骤S104:基于所述输出规则的配置项,对所述待解析的网页进行解析;
步骤S105:将解析出的结果处理成个性化设置所需的格式。
所述步骤S101:建立规则库,所述规则库包括网络规则库及本地规则库;所述规则库中的规则包括解析网页内容所需的配置项,其中:
网络规则库通过镜像导入实现规则共享;本地规则库通过数据库存储并在局域网中共享。
所述步骤S102:获取待解析的网页内容,获取其对应的网站的url,查询所述规则库,若存在与网站的url对应的规则,则允许用户对所述对应的规则进行复用、修改和扩展;若不存在与网站的url对应的规则,由用户创建对应的规则,其中:
针对不同的网页格式,创建对应的解析规则。一般来说,同一个网站下的网页内容,都有固定的格式。对所有需要解析的网站建立规则,向所有用户开放建立规则的权限。为防止不同用户对同一网站建立的规则的产生冲突,例如发生覆盖或不兼容,需要用户在创建规则之前,先根据需要解析的内容的url地址查询是否已存在对应的规则,若存在,可以使用直接复用或对存在的规则进行修改和扩展,达到规则库在系统内的共享的目的。
所述步骤S103:获取待解析的网页,并根据该网页的url,以正则匹配的方式从所述规则库中查找对应的规则,输出规则的配置项,其中:
所述规则的配置项包括xpath返回值、css选择器、正则表达式、处理脚本的方式、json格式。
xpath是一门在xml文档中查找信息的语言。xpath用于在XML文档中通过元素和属性进行导航。本实施例中,xpath返回值包括节点、节点集合、文本、以及节点和文本的混合。
正则表达式是对字符串操作的一种逻辑公式,字符串包括普通字符和特殊字符(例如元字符),就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个规则字符串,这个规则字符串用来表达对字符串的过滤逻辑。正则表达式是一种文本模式,该模式描述在网页中搜索文本时要匹配的一个或多个字符串。
json是一种轻量级的数据交换格式,本实施例中,JSON格式具有两种形式,分别是名称、值组成的数据对的集合,以及值的有序列表。
在不同的语言中,名称、值组成的数据对被理解为对象(object),纪录(record),结构(struct),字典(dictionary),哈希表(hash table),有键列表(keyed list),或者关联数组(associative array)。值的有序列表被理解为数组(array)。
所述步骤S105:将解析出的结果处理成个性化设置所需的格式,包括:跟据用户的个性化设置,将解析出的结果处理输出成需求的数据格式,特别是满足第三方数据处理系统的需要的数据格式。
本发明的又一个实施方式的基于规则配置库对网页内容执行结构化提取的方法,如图3所示。
该实施案例为基于规则库配置解析的网络数据采集系统,采集系统从网站采集网页数据,将数据输出到数据解析系统,接着上,从规则库获取规则,并使用规则提取文本内容,进而将提取到的数据格式化,并输出到数据库,再由其他系统从数据库读取结构化数据进行后续处理。
本发明实施例进一步给出一种基于规则配置库对网页内容执行结构化提取的装置,如图4所示,所述装置包括:
规则库模块:配置为建立规则库,所述规则库包括网络规则库及本地规则库;所述规则库中的规则包括解析网页内容所需的配置项;
规则设置模块:配置为获取待解析的网页内容,获取其对应的网站的url,查询所述规则库,若存在与网站的url对应的规则,则允许用户对所述对应的规则进行复用、修改和扩展;若不存在与网站的url对应的规则,由用户创建对应的规则;
规则匹配模块:配置为获取待解析的网页,并根据该网页的url,以正则匹配的方式从所述规则库中查找对应的规则,输出规则的配置项;
解析模块:配置为基于所述输出规则的配置项,对所述待解析的网页进行解析;
格式转化模块:配置为将解析出的结果处理成个性化设置所需的格式。
本发明实施例进一步给出一种基于规则配置库对网页内容执行结构化提取的系统,包括:
处理器,用于执行多条指令;
存储器,用于存储多条指令;
其中,所述多条指令,用于由所述存储器存储,并由所述处理器加载并执行如前所述的一种基于规则配置库对网页内容执行结构化提取的方法。
本发明实施例进一步给出一种计算机可读存储介质,所述存储介质中存储有多条指令;所述多条指令,用于由处理器加载并执行如前所述的基于规则配置库对网页内容执行结构化提取的方法。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,实体机服务器,或者网络云服务器等,需安装Windows或者Windows Server操作系统)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (10)

1.一种基于规则配置库对网页内容执行结构化提取的方法,其特征在于,包括以下步骤:
步骤S101:建立规则库,所述规则库包括网络规则库及本地规则库;所述规则库中的规则包括解析网页内容所需的配置项;
步骤S102:获取待解析的网页内容,获取其对应的网站的url,查询所述规则库,若存在与网站的url对应的规则,则允许用户对所述对应的规则进行复用、修改和扩展;若不存在与网站的url对应的规则,由用户创建对应的规则;
步骤S103:获取待解析的网页,并根据该网页的url,以正则匹配的方式从所述规则库中查找对应的规则,输出规则的配置项;
步骤S104:基于所述输出规则的配置项,对所述待解析的网页进行解析;
步骤S105:将解析出的结果处理成个性化设置所需的格式。
2.如权利要求1所述的基于规则配置库对网页内容执行结构化提取的方法,其特征在于,网络规则库通过镜像导入实现规则共享;本地规则库通过数据库存储并在局域网中共享。
3.如权利要求1所述的基于规则配置库对网页内容执行结构化提取的方法,其特征在于,所述规则的配置项包括xpath返回值、css选择器、正则表达式、处理脚本的方式、json格式。
4.如权利要求3所述的基于规则配置库对网页内容执行结构化提取的方法,其特征在于,xpath返回值包括节点、节点集合、文本、以及节点和文本的混合;JSON格式具有两种形式,分别是名称、值组成的数据对的集合,以及值的有序列表。
5.一种基于规则配置库对网页内容执行结构化提取的装置,其特征在于,所述装置包括:
规则库模块:配置为建立规则库,所述规则库包括网络规则库及本地规则库;所述规则库中的规则包括解析网页内容所需的配置项;
规则设置模块:配置为获取待解析的网页内容,获取其对应的网站的url,查询所述规则库,若存在与网站的url对应的规则,则允许用户对所述对应的规则进行复用、修改和扩展;若不存在与网站的url对应的规则,由用户创建对应的规则;
规则匹配模块:配置为获取待解析的网页,并根据该网页的url,以正则匹配的方式从所述规则库中查找对应的规则,输出规则的配置项;
解析模块:配置为基于所述输出规则的配置项,对所述待解析的网页进行解析;
格式转化模块:配置为将解析出的结果处理成个性化设置所需的格式。
6.如权利要求5所述的基于规则配置库对网页内容执行结构化提取的装置,其特征在于,网络规则库通过镜像导入实现规则共享;本地规则库通过数据库存储并在局域网中共享。
7.如权利要求5所述的基于规则配置库对网页内容执行结构化提取的装置,其特征在于,所述规则的配置项包括xpath返回值、css选择器、正则表达式、处理脚本的方式、json格式。
8.如权利要求7所述的基于规则配置库对网页内容执行结构化提取的装置,其特征在于,xpath返回值包括节点、节点集合、文本、以及节点和文本的混合;JSON格式具有两种形式,分别是名称、值组成的数据对的集合,以及值的有序列表。
9.一种基于规则配置库对网页内容执行结构化提取的系统,其特征在于,包括:
处理器,用于执行多条指令;
存储器,用于存储多条指令;
其中,所述多条指令,用于由所述存储器存储,并由所述处理器加载并执行如权利要求1-4之任一项所述的基于规则配置库对网页内容执行结构化提取的方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有多条指令;所述多条指令,用于由处理器加载并执行如权利要求1-4之任一项所述的基于规则配置库对网页内容执行结构化提取的方法。
CN202011437614.8A 2020-12-10 2020-12-10 基于规则配置库对网页内容执行结构化提取的方法及装置 Pending CN112597410A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011437614.8A CN112597410A (zh) 2020-12-10 2020-12-10 基于规则配置库对网页内容执行结构化提取的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011437614.8A CN112597410A (zh) 2020-12-10 2020-12-10 基于规则配置库对网页内容执行结构化提取的方法及装置

Publications (1)

Publication Number Publication Date
CN112597410A true CN112597410A (zh) 2021-04-02

Family

ID=75191659

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011437614.8A Pending CN112597410A (zh) 2020-12-10 2020-12-10 基于规则配置库对网页内容执行结构化提取的方法及装置

Country Status (1)

Country Link
CN (1) CN112597410A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113254751A (zh) * 2021-06-24 2021-08-13 北森云计算有限公司 一种复杂网页结构化信息精确提取方法、设备及存储介质
CN117370635A (zh) * 2023-12-08 2024-01-09 杭州实在智能科技有限公司 用于rpa网页内容提取与处理的方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104866512A (zh) * 2014-02-26 2015-08-26 腾讯科技(深圳)有限公司 提取网页内容的方法、装置及系统
CN109657117A (zh) * 2018-11-12 2019-04-19 厦门市美亚柏科信息股份有限公司 一种网页要素的自动提取方法、系统及计算机存储介质
CN110020236A (zh) * 2017-08-29 2019-07-16 北京国双科技有限公司 网页解析方法、装置、存储介质、处理器和设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104866512A (zh) * 2014-02-26 2015-08-26 腾讯科技(深圳)有限公司 提取网页内容的方法、装置及系统
CN110020236A (zh) * 2017-08-29 2019-07-16 北京国双科技有限公司 网页解析方法、装置、存储介质、处理器和设备
CN109657117A (zh) * 2018-11-12 2019-04-19 厦门市美亚柏科信息股份有限公司 一种网页要素的自动提取方法、系统及计算机存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113254751A (zh) * 2021-06-24 2021-08-13 北森云计算有限公司 一种复杂网页结构化信息精确提取方法、设备及存储介质
CN113254751B (zh) * 2021-06-24 2021-09-21 北森云计算有限公司 一种复杂网页结构化信息精确提取方法、设备及存储介质
CN117370635A (zh) * 2023-12-08 2024-01-09 杭州实在智能科技有限公司 用于rpa网页内容提取与处理的方法及系统
CN117370635B (zh) * 2023-12-08 2024-03-15 杭州实在智能科技有限公司 用于rpa网页内容提取与处理的方法及系统

Similar Documents

Publication Publication Date Title
US10067931B2 (en) Analysis of documents using rules
US8051371B2 (en) Document analysis system and document adaptation system
US9411790B2 (en) Systems, methods, and media for generating structured documents
US7055094B2 (en) Virtual tags and the process of virtual tagging utilizing user feedback in transformation rules
US10977486B2 (en) Blockwise extraction of document metadata
CN108090104B (zh) 用于获取网页信息的方法和装置
KR101122629B1 (ko) 데이터베이스의 데이터를 변환하여 xml 문서를 생성하는 방법
CN111176650B (zh) 解析器生成方法、检索方法、服务器及存储介质
CN102279894A (zh) 基于语义的查找、集成和提供评论信息的方法及搜索系统
CN109710224B (zh) 页面处理方法、装置、设备及存储介质
CN112597410A (zh) 基于规则配置库对网页内容执行结构化提取的方法及装置
CN113486187A (zh) 佛学知识图谱构建方法、装置、设备及存储介质
JP2008090404A (ja) 文書検索装置、文書検索方法および文書検索プログラム
JPWO2003060764A1 (ja) 情報検索システム
Maududie et al. An approach of web scraping on news website based on regular expression
Al-Ghuribi et al. A comprehensive survey on web content extraction algorithms and techniques
Lisowska Metadata for the open data portals
El-ghobashy et al. A proposed framework for Arabic semantic annotation tool
JP2007115276A (ja) コンテンツデータ生成処理プログラムおよびコンテンツデータ生成処理プログラム記録媒体
JP2003223390A (ja) データ抽出・構造変換処理プログラム、コンテンツ生成処理プログラム、データ抽出・構造変換処理プログラム記録媒体、コンテンツ生成処理プログラム記録媒体、およびコンテンツ再構築処理システム
JP2006065467A (ja) データ抽出定義情報生成装置およびデータ抽出定義情報生成方法
Mitchell Metadata standards and web services in libraries, archives, and museums
KR20120070713A (ko) 자연어 및 수식 색인화 방법과 그를 위한 장치 및 컴퓨터로 읽을 수 있는 기록매체
CN116340259A (zh) 文档管理方法、文档管理系统和计算设备
WO2014049310A2 (en) Method and apparatuses for interactive searching of electronic documents

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination