CN113449115A - 佛学数据收集方法、装置、设备及存储介质 - Google Patents
佛学数据收集方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113449115A CN113449115A CN202110301859.6A CN202110301859A CN113449115A CN 113449115 A CN113449115 A CN 113449115A CN 202110301859 A CN202110301859 A CN 202110301859A CN 113449115 A CN113449115 A CN 113449115A
- Authority
- CN
- China
- Prior art keywords
- data
- webpage
- crawled
- buddhist
- crawling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及大数据领域,公开了一种佛学数据收集方法、装置、设备及存储介质。本方法包括:获取数据采集需求和解析标签,并根据数据采集需求,确定数据供应方;调用预置数据请求接口,获取佛学源数据,同时,根据解析标签,对佛学源数据进行结构化解析,得到原始佛学数据;对原始佛学数据进行数据去重,得到目标佛学数据,并将目标佛学数据存储至预置数据库,构建佛学知识图谱数据库。对数据进行严格的结构化解析,解决了数据丢失,降低了数据库中数据的冗余率,提升了数据收集系统的稳定性。
Description
技术领域
本发明涉及大数据技术领域,尤其涉及一种佛学数据收集方法、装置、设备及存储介质。
背景技术
知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论,它能为学科研究提供切实的、有价值的参考,在对其进行搭建收集时需要用到叫做知识图谱数据收集系统。
但是现有的数据收集系统还存在以下问题:
1.没有对数据进行严格的结构化解析;
2.将半结构化的数据当作非结构化的数据来处理,导致重要信息丢失;
3.没有对各个渠道收到的数据信息进行过滤,造成数据库中的数据冗余度极高。
发明内容
本发明的主要目的是解决现有的没有对数据进行严格的结构化解析,数据信息丢失且数据收集系统中数据冗余率高的技术问题。
本发明第一方面提供了一种佛学数据收集方法,包括:
接收数据采集需求和解析标签,并根据所述数据采集需求,确定数据供应方,其中,所述数据供应方包括:数据库、网页和pdf版本书籍,所述解析标签中包含有结构化信息及半结构化信息;
根据所述数据供应方,调用预置数据请求接口,获取佛学源数据;
根据所述解析标签,对所述佛学源数据进行解析,得到原始佛学数据;
对所述原始佛学数据进行数据去重,得到目标佛学数据,并将所述目标佛学数据存储至预置数据库。
可选地,在本发明第一方面的第一种实现方式中,所述根据所述数据供应方,调用预置数据请求接口,获取佛学源数据包括:
若所述数据供应方为数据库,则对所述数据采集需求进行解析,获取所述数据采集需求中携带的数据存储位置,并根据所述数据存储位置,调用预置数据库请求接口,获取佛学源数据;
若所述数据供应方为pdf版本书籍,则通过预置书籍请求接口读取对应佛学源数据;
若所述数据供应方为网页,则对所述数据采集需求进行解析,获取待爬取网页的网页地址,爬取所述待爬取网页中的待爬取网页数据,得到佛学源数据。
可选地,在本发明第一方面的第二种实现方式中,所述获取待爬取网页的网页地址,爬取所述待爬取网页中的待爬取网页数据,得到佛学源数据包括:
获取待爬取网页的网页地址,根据所述待爬取网页的网页地址,获取所述待爬取网页的对应的有效登录数据;
根据所述有效登录数据,从网络地址库中随机选取可用的网络地址,其中,所述网络地址库是配置在所述网页数据爬取平台中的用于存储不同网络地址的数据库;
对所述有效登录数据进行正确性验证,得到通过所述正确性验证的目标登录数据,并根据所述目标登录数据,登录所述待爬取网页,并根据与所述待爬取网页相对应的渲染方式渲染所述待爬取网页;
爬取已渲染完成的所述待爬取网页,获取待爬取网页数据,得到佛学源数据,其中,所述待爬取网页数据是指存储在待爬取网站服务器上,且可以在待爬取网页上显示的内容。
可选地,在本发明第一方面的第三种实现方式中,所述爬取已渲染完成的所述待爬取网页,获取待爬取网页数据包括:
根据所述待爬取网页的网页地址,从爬取配置库中选取与所述待爬取网页对应的爬取配置文件;
根据所选取的爬取配置文件中的待爬取网页数据的位置,爬取所述待爬取网页中的待爬取网页数据。
可选地,在本发明第一方面的第四种实现方式中,所述根据所述解析标签,对所述佛学源数据进行解析,得到原始佛学数据包括:
预先设置正则表达式;
从所述佛学源数据中提取与所述正则表达式相匹配的文本数据;
根据所述正则表达式和所述解析标签,从所述文本数据中提取关键词及内容值;
建立所述关键词与所述内容值之间的关联关系,得到原始佛学数据。
可选地,在本发明第一方面的第五种实现方式中,所述对所述原始佛学数据进行数据去重,得到目标佛学数据,并将所述目标佛学数据存储至预置数据库包括:
获取数据访问请求,并提取所述数据访问请求中的特征字段;
对所述特征字段进行清洗,并将清洗后的特征字段进行规范化处理;
对所述特征字段进行拼接,生成特征字段组合,并通过哈希算法对所述特征字段组合进行压缩处理,得到已压缩处理的特征字段;
对所述已压缩处理的特征字段进行识别,并根据识别结果判断所述特征字段是否为重复字段;
若是,则将所述特征字段存储至预设的异常处理队列中,否则输出提示消息,其中,所述提示消息用于提示所述特征字段为正常字段
剔除所述重复字段,得到目标佛学数据,并将所述目标佛学数据存储至预置数据库
本发明第二方面提供了一种佛学数据收集装置,包括:
接收模块,用于接收数据采集需求和解析标签,并根据所述数据采集需求,确定数据供应方,其中,所述数据供应方包括:数据库、网页和pdf版本书籍,所述解析标签中包含有结构化信息及半结构化信息;
调用模块,用于根据所述数据供应方,调用预置数据请求接口,获取佛学源数据;
解析模块,用于根据所述解析标签,对所述佛学源数据进行解析,得到原始佛学数据;
数据去重模块,用于对所述原始佛学数据进行数据去重,得到目标佛学数据,并将所述目标佛学数据存储至预置数据库。
可选地,在本发明第二方面的第一种实现方式中,所述调用模块包括:
解析单元,用于当所述数据供应方为数据库时,则对所述数据采集需求进行解析,获取所述数据采集需求中携带的数据存储位置,并根据所述数据存储位置,调用预置数据库请求接口,获取佛学源数据;
读取单元,用于当所述数据供应方为pdf版本书籍时,则通过预置书籍请求接口读取对应佛学源数据;
获取单元,用于当所述数据供应方为网页时,则对所述数据采集需求进行解析,待爬取网页的网页地址,爬取所述待爬取网页中的待爬取网页数据,得到佛学源数据。
可选地,在本发明第二方面的第二种实现方式中,所述获取单元具体用于:
获取待爬取网页的网页地址,根据所述待爬取网页的网页地址,获取所述待爬取网页的对应的有效登录数据;
根据所述有效登录数据,从网络地址库中随机选取可用的网络地址,其中,所述网络地址库是配置在所述网页数据爬取平台中的用于存储不同网络地址的数据库;
对所述有效登录数据进行正确性验证,得到通过所述正确性验证的目标登录数据,并根据所述目标登录数据,登录所述待爬取网页,并根据与所述待爬取网页相对应的渲染方式渲染所述待爬取网页;
爬取已渲染完成的所述待爬取网页,获取待爬取网页数据,得到佛学源数据,其中,所述待爬取网页数据是指存储在待爬取网站服务器上,且可以在待爬取网页上显示的内容。
可选地,在本发明第二方面的第三种实现方式中,所述获取单元具体还用于:
根据所述待爬取网页的网页地址,从爬取配置库中选取与所述待爬取网页对应的爬取配置文件;
根据所选取的爬取配置文件中的待爬取网页数据的位置,爬取所述待爬取网页中的待爬取网页数据。
可选地,在本发明第二方面的第四种实现方式中,所述解析模块具体用于:
预先设置正则表达式;
从所述佛学源数据中提取与所述正则表达式相匹配的文本数据;
根据所述正则表达式和所述解析标签,从所述文本数据中提取关键词及内容值;
建立所述关键词与所述内容值之间的关联关系,得到原始佛学数据。
可选地,在本发明第二方面的第五种实现方式中,所述数据去重模块具体用于:
获取数据访问请求,并提取所述数据访问请求中的特征字段;
对所述特征字段进行清洗,并将清洗后的特征字段进行规范化处理;
对所述特征字段进行拼接,生成特征字段组合,并通过哈希算法对所述特征字段组合进行压缩处理,得到已压缩处理的特征字段;
对所述已压缩处理的特征字段进行识别,并根据识别结果判断所述特征字段是否为重复字段;
若是,则将所述特征字段存储至预设的异常处理队列中,否则输出提示消息,其中,所述提示消息用于提示所述特征字段为正常字段
剔除所述重复字段,得到目标佛学数据,并将所述目标佛学数据存储至预置数据库。
本发明第三方面提供了一种佛学数据收集设备,包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述佛学数据收集设备执行上述的佛学数据收集方法。
本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的佛学数据收集方法。
本发明提供的技术方案中,获取数据采集需求和解析标签,并根据数据采集需求,确定数据供应方;调用预置数据请求接口,获取佛学源数据,同时,根据解析标签,对佛学源数据进行结构化解析,得到原始佛学数据;对原始佛学数据进行数据去重,得到目标佛学数据,并将目标佛学数据存储至预置数据库,构建佛学知识图谱数据库。对数据进行严格的结构化解析,解决了数据丢失,降低了数据库中数据的冗余率,提升了数据收集系统的稳定性。
附图说明
图1为本发明佛学数据收集方法的第一个实施例示意图;
图2为本发明佛学数据收集方法的第二个实施例示意图;
图3为本发明佛学数据收集方法的第三个实施例示意图;
图4为本发明佛学数据收集方法的第四个实施例示意图;
图5为本发明佛学数据收集方法的第五个实施例示意图;
图6为本发明佛学数据收集装置的第一个实施例示意图;
图7为本发明佛学数据收集装置的第二个实施例示意图;
图8为本发明佛学数据收集设备的一个实施例示意图。
具体实施方式
本发明实施例提供了一种佛学数据收集方法、装置、设备及存储介质,本发明的技术方案中,先获取数据采集需求和解析标签,并根据数据采集需求,确定数据供应方;调用预置数据请求接口,获取佛学源数据,同时,根据解析标签,对佛学源数据进行结构化解析,得到原始佛学数据;对原始佛学数据进行数据去重,得到目标佛学数据,并将目标佛学数据存储至预置数据库,构建佛学知识图谱数据库。对数据进行严格的结构化解析,解决了数据丢失,降低了数据库中数据的冗余率,提升了数据收集系统的稳定性。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中佛学数据收集方法的第一个实施例包括:
101、接收数据采集需求和解析标签,并根据数据采集需求,确定数据供应方;
本实施例中,采集需求可以是各种类型的真实数据记录或者虚拟数据,如可以是佛学数据库中的佛学数据或者相关网站上通过爬虫技术爬取的数据等。例如,佛学的数据源主要有网页数据、已有的数据库数据,以及佛学书籍的pdf文件;对于网页数据,需要对其网页进行爬虫得到源数据,并且对其进行解析变成结构化的数据和半结构化的数据;所以需要在页面上输入爬虫的url地址、url的参数列表、解析结构的标签说明。
本实施例中,可以由数据交易平台将所述数据需求方的数据采集需求发布出去,且用户可以进行查询所述数据采集需求。
102、根据数据供应方,调用预置数据请求接口,获取佛学源数据;
本实施例中,根据数据供应方的不同,对应的数据请求接口和数据获取方式均不相同。比如,数据供应方包括网页数据,数据库中的数据或者相关佛学书籍的pdf版本。根据数据供应方的不同,确定预置的数据请求接口,获取佛学源数据。当数据供应方为网页数据时,根据请求输入的url地址拼接上参数列表中的参数爬取网页数据,如爬取百度百科数据王某的数据;当数据供应方为数据库时,根据数据采集需求输入的数据库的位置以及表名获取数据库的数据;当数据供应方为pdf版本佛学书籍时,将上传的pdf文件写入到磁盘中。
103、根据解析标签,对佛学源数据进行解析,得到原始佛学数据;
本实施例中,佛学的数据源主要有网页数据、已有的数据库数据,以及佛学书籍的pdf文件;对于网页数据,需要对其网页进行爬虫得到源数据,并且对其进行解析变成结构化的数据和半结构化的数据;所以需要在页面上输入爬虫的url地址、url的参数列表、解析结构的标签说明,又叫解析标签。对百度百科佛学人物的数据爬取,需要页面提交参数如下:url:https://baike.baidu.com/item/;url的参数列表:[王某、慧门禅师、一诚法师、印光大师],也可以上传佛学人物的txt文件。
解析标签又叫解析结构标签,因为网页数据具有良好的排版,其排版体现出了数据的结构性,所以可以通过排版的class属性来解析出结构数据。
对于数据库数据,由于数据库数据为结构化的数据,只需要上传库数据的位置、表名以及有意义主键列名即可。主键列名代表了这条记录的唯一性,例如佛教人物表里面的人物名称,寺庙表里面的寺庙名称。
对于佛学书籍的pdf文件,需要在前端页面输入书籍的解析格式,比如章节的排版属性、标题的排版属性,以及列表的排版属性;与网页数据的解析格式雷同,这些排版属性用于解析结构化数据与半结构化数据。
104、对原始佛学数据进行数据去重,得到目标佛学数据,并将目标佛学数据存储至预置数据库。
本实施例中,由于佛学知识图谱数据的采集从各个渠道进行收集,比如百度百科、互动百科、维基百科以及开源知识图谱中的结构化数据,这些数据在一定程度上有极大的冗余。为了保证数据的唯一性需要对数据进行冗余判定,进行相应的剔除。
冗余判定,也可以理解为数据去重。其中,结构化数据的冗余判定包括:1.结构化数据的冗余判定主要包括键的冗余和值的冗余;2. 键的冗余通过集合来判定,为每个title维持一个键集合,如果结构化数据在键集合内,则该数据已经存在,无需新增;3.值的冗余通过布隆过滤器来判定,因为每个title的键可能不多,但是其值会有很多,比如说title:法师,key:弟子,value:…;因为一个法师的弟子太多太多了,所以采用布隆过滤器来判定新来的一个值是否存在;省内存,查询速度快。半结构化数据的冗余判定包括:1.半结构化数据的冗余判定也分为键的冗余和值的冗余;2.键的冗余通过相似近邻查询来判定键与键之间的相似程度,如2个键之间的相似程度达到 0.8则认为是同一个键,本文采用的方法是基于腾讯开源的800万词向量部署的相似词查询服务来判定键之间的相似程度;3.值的冗余判定,由半结构化的解析过程可知,半结构化的键对应的值是一段文本的列表。同时值的数量也是相当大的。本文首先采用sim哈希算法将键下所有所有的值进行映射形成一串256位二进制编码;当新增一个值时,与值编码库中的所有二进制串进行异或运算,异或运算后统计 1的个数,也就是计算二个串之间的汉明距离;当汉明距离小于32 时,认为同一个键下的这2段值是极其相似的,无需新增。
本发明实施例中,获取数据采集需求和解析标签,并根据数据采集需求,确定数据供应方;调用预置数据请求接口,获取佛学源数据,同时,根据解析标签,对佛学源数据进行结构化解析,得到原始佛学数据;对原始佛学数据进行数据去重,得到目标佛学数据,并将目标佛学数据存储至预置数据库,构建佛学知识图谱数据库。对数据进行严格的结构化解析,解决了数据丢失,降低了数据库中数据的冗余率,提升了数据收集系统的稳定性。
请参阅图2,本发明实施例中佛学数据收集方法的第二个实施例包括:
201、接收数据采集需求和解析标签,并根据数据采集需求,确定数据供应方;
202、若数据供应方为数据库,则对数据采集需求进行解析,获取数据采集需求中携带的数据存储位置,并根据数据存储位置,调用预置数据库请求接口,获取佛学源数据;
本实施例中,若确定数据采集需求中需要采集的数据存储在某数据库中,则根据数据采集需求中输入的数据库的位置以及表名获取数据库的数据。例如,告知数据需求端其所需要的数据可从数据提供端 B2的数据库或数据提供端B3的数据库获得,从而数据需求端可以根据该信息,确定需要进行数据交易的数据源。
203、若数据供应方为pdf版本书籍,则通过预置书籍请求接口读取对应佛学源数据;
本实施例中,如果确定数据采集需求中需要采集的数据为对应某磁盘中存储的pdf版本的佛学书籍,则直接通过对应的佛学书籍请求接口,将上传的pdf文件写入到磁盘中。
204、获取待爬取网页的网页地址,根据待爬取网页的网页地址,获取待爬取网页的对应的有效登录数据;
本实施例中,网页地址是指在网络中,每个相应的网页都有对应的唯一的标识,例如,该网页地址可以是URL(Uniform Resoure Locator,统一资源定位器)地址;登录数据为用户在进入网页、操作系统或者应用程序时,需要提供的身份验证信息,例如,登录数据可以是用户名和密码等,且一般情况下,登录数据可以存储在cookies 中,cookies可以是从用户终端中获取,进而存储在网页数据爬取平台中。网页数据爬取平台获取到待爬取网页的网页地址,根据待爬取网页的网页地址,获取到待爬取网页的登录数据。例如,需要将待爬取网页“百度百科”相关的网页“王某”的用户的相关提示信息显示到用户终端,则网页数据爬取平台获取到该待爬取网页“百度百科王某”的URL地址,根据该URL地址,网页数据爬取平台获取该待爬取网页“百度百科,王某”的cookies,该cookies中存储有登录数据,登录数据为用户名和密码。
205、根据数据供应方,调用预置数据请求接口,获取佛学源数据;
206、根据解析标签,对佛学源数据进行解析,得到原始佛学数据;
207、对原始佛学数据进行数据去重,得到目标佛学数据,并将目标佛学数据存储至预置数据库。
本实施例中步骤205-207与第一实施例中的步骤102-104类似,此处不再赘述。
本发明实施例中,获取数据采集需求和解析标签,并根据数据采集需求,确定数据供应方;调用预置数据请求接口,获取佛学源数据,同时,根据解析标签,对佛学源数据进行结构化解析,得到原始佛学数据;对原始佛学数据进行数据去重,得到目标佛学数据,并将目标佛学数据存储至预置数据库,构建佛学知识图谱数据库。对数据进行严格的结构化解析,解决了数据丢失,降低了数据库中数据的冗余率,提升了数据收集系统的稳定性。
请参阅图3,本发明实施例中佛学数据收集方法的第三个实施例包括:
301、接收数据采集需求和解析标签,并根据数据采集需求,确定数据供应方;
302、若数据供应方为数据库,则对数据采集需求进行解析,获取数据采集需求中携带的数据存储位置,并根据数据存储位置,调用预置数据库请求接口,获取佛学源数据;
303、若数据供应方为pdf版本书籍,则通过预置书籍请求接口读取对应佛学源数据;
304、获取待爬取网页的网页地址,根据待爬取网页的网页地址,获取待爬取网页的对应的有效登录数据;
本实施例中,网页地址是指在网络中,每个相应的网页都有对应的唯一的标识,例如,该网页地址可以是URL(Uniform Resoure Locator,统一资源定位器)地址;登录数据为用户在进入网页、操作系统或者应用程序时,需要提供的身份验证信息,例如,登录数据可以是用户名和密码等,且一般情况下,登录数据可以存储在cookies 中,cookies可以是从用户终端中获取,进而存储在网页数据爬取平台中。网页数据爬取平台获取到待爬取网页的网页地址,根据待爬取网页的网页地址,获取到待爬取网页的登录数据。例如,需要将待爬取网页“百度百科”相关的网页“王某”的用户的相关提示信息显示到用户终端,则网页数据爬取平台获取到该待爬取网页“百度百科王某”的URL地址,根据该URL地址,网页数据爬取平台获取该待爬取网页“百度百科,王某”的cookies,该cookies中存储有登录数据,登录数据为用户名和密码。
305、根据有效登录数据,从网络地址库中随机选取可用的网络地址;
本实施例中,登录数据有效是指登录所需用户名和密码正确并且相匹配,且该登录数据未超过网页登录数据的可用时间,例如,登录数据中的用户名和密码均正确,且用户名有对应使用的密码;并且,网页会设置有登录数据的可用时间,防止有用户长期保持登陆状态但未使用该网页导致资源占用,当登录数据超过可用时间,则强制下线,需要再次进行登录操作即可实现对网页的登录。则采用均正确而且可以对应的用户名和密码,即可登录网页,并且用户名和对应的密码是在可用时间内,即可实现对网页的浏览,爬取数据等操作。
网络地址是指计算机网络相互连接或进行通信时的一种可通信标识,可以是处于某网络中的计算机的网络地址,该网络地址可以唯一地标识网络中的该计算机设备,该计算机与其他计算机进行通信时可以采用网络地址作为通信标识,例如,网络地址可以是IP(Internet Protocol,互联网协议)地址等。网络地址库是配置在网络数据爬取平台中的可以存储不同的网络地址的数据库,例如网络地址库中可以存储有第一IP地址、第二IP地址等不同的IP地址。当网页数据爬取平台获取的登录数据有效时,则从网络地址库中随机选取可用的网络地址,例如选取到了第一IP地址时,可以将该被选取的第一IP地址进行标记,被标记的第一IP地址是正在使用的网络地址,当下一次网页爬取平台从网络地址库中选取网络地址时,则从未标记的网络地址中选取网络地址,当被标记的网络地址,即第一IP地址使用完成时,则将该网络地址的标记进行删除。例如,网页数据爬取平台获取到待爬取网页“招行信用卡中心”的有效的用户名和密码,则网页数据爬取平台从网络地址库中随机选取一个未标记的IP地址,当该 IP地址使用完毕后,则将标记删除。
306、对有效登录数据进行正确性验证,得到通过正确性验证的目标登录数据,并根据目标登录数据,登录待爬取网页,并根据与待爬取网页相对应的渲染方式渲染待爬取网页;
本实施例中,网页数据爬取平台获取到可用的网络地址后,则根据有效的登录数据与网络地址,登录待爬取网页。网页数据爬取平台向待爬取网页的网站服务器发送登录数据,当待爬取网页的网站服务器验证该登录数据与预存的登录数据匹配,则认为该登录数据有效,可以登录该待爬取网页。例如,当网页数据爬取平台获取待爬取网页“百度百科,王某”的登录数据,并从网络地址库中选取可用的IP 地址,当IP地址与登录数据经“百度百科,王某”的网站服务器经过验证后,即可登录到“百度百科,王某”。
可选地,对待爬取网页进行渲染的方式可以是调用phantomjs(无界面浏览器)对待爬取网页进行渲染,也可以选取jxbrowser(浏览器组件)对待爬取网页进行渲染,还可以从网页数据爬取平台存储相应的渲染方式的数据库中,选取用于渲染待爬取网页的本地渲染脚本文件进行渲染等。例如,“招行信用卡中心”的渲染方式为调用phantomjs 进行渲染,则可以调用phantomjs对待爬取网页进行渲染;也可以是,“招行信用卡中心”的渲染方式为利用jxbrowser对待爬取网页进行渲染,则选取jxbrowser对待爬取网页进行渲染;还可以从网页爬取平台存储相应的渲染方式的数据库中,选取用于渲染“招行信用卡中心”的本地脚本文件对待爬取网页“招行信用卡中心”进行渲染。
307、根据待爬取网页的网页地址,从爬取配置库中选取与待爬取网页对应的爬取配置文件;
本实施例中,爬取配置文件是指当网页数据爬取平台对待爬取网页进行爬取时执行的相关爬取数据规则,爬取配置文件中存储有待爬取网页的地址的起始部分,还存储有待爬取网页上的待爬取网页数据的位置,待爬取网页数据的位置可以是待爬取网页数据中的数据行数,还可以是待爬取网页数据所在网页的显示区域的坐标等。爬取配置库中存储有不同网站的爬取配置文件,当网页数据爬取平台需要爬取不同网页的数据时,则从爬取配置库中选取与待爬取网页相对应的爬取配置文件。
其中,如果通过用户终端来爬取待爬取数据时,则每一用户终端均需要配置一相应的代码,为了减少代码的配置,通过网页数据爬取平台来爬取待爬取网页数据,且针对同一网页地址设置爬取配置文件,这样即使是爬取不同用户的待爬取网页数据时,例如爬取不同用户的账单数据时,由于所登录的网页地址是一样的,因此采用同一爬取配置文件即可,不需要为每一用户配置一爬取代码,减少了研发工作量。
网页数据爬取平台根据待爬取网页的网页地址,与配置文件中存储的网页地址的起始部分匹配,从爬取配置库中正确选择待爬取网页的爬取配置文件,例如,爬取配置文件可以存储有待爬取网页“百度百科,王某”的URL地址的起始部分,网页数据爬取平台根据“百度百科,王某”的URL地址,与爬取配置文件中存储的URL地址进行匹配,从爬取配置库中选取与“百度百科,王某”相匹配的爬取配置文件,进而,网页数据爬取平台可以根据不同的有效登录数据,登录到“百度百科,王某”,根据爬取配置文件,爬取不同的有效登录数据对应的“百度百科,王某”上的待爬取数据。
308、根据所选取的爬取配置文件中的待爬取网页数据的位置,爬取待爬取网页中的待爬取网页数据;
本实施例中,爬取配置文件中可以存储有待爬取网页数据的位置,可选地,待爬取网页数据的位置可以是待爬取网页数据所在网页的显示区域的坐标,可以是待爬取网页数据的行数等。例如,爬取配置文件中可以存储待爬取网页位置为在待爬取网页上显示“王某”的区域的坐标,可以存储待爬取网页数据的位置为待爬取网页上第十行的数据,可以存储待爬取网页数据的位置为第一行至第五行的数据,也可以存储待爬取网页数据的位置为整个页面的数据等。网页数据爬取平台根据爬取配置文件中存储的待爬取网页数据的位置,爬取待爬取网页中的待爬取网页数据。例如,网页数据爬取平台根据爬取配置文件中存储的待爬取网页“百度百科,王某”数据的位置为显示“王某”的区域,则网页数据待爬取平台根据显示“王某”的区域的坐标,爬取“百度百科,王某”的爬取数据“王某”。
309、根据解析标签,对佛学源数据进行解析,得到原始佛学数据;
310、对原始佛学数据进行数据去重,得到目标佛学数据,并将目标佛学数据存储至预置数据库。
本实施例中步骤309-310与第一实施例中的步骤103-104类似,此处不再赘述。
本发明实施例中,获取数据采集需求和解析标签,并根据数据采集需求,确定数据供应方;调用预置数据请求接口,获取佛学源数据,同时,根据解析标签,对佛学源数据进行结构化解析,得到原始佛学数据;对原始佛学数据进行数据去重,得到目标佛学数据,并将目标佛学数据存储至预置数据库,构建佛学知识图谱数据库。对数据进行严格的结构化解析,解决了数据丢失,降低了数据库中数据的冗余率,提升了数据收集系统的稳定性。
请参阅图4,本发明实施例中佛学数据收集方法的第四个实施例包括:
401、接收数据采集需求和解析标签,并根据数据采集需求,确定数据供应方,其中,数据供应方包括:数据库、网页和pdf版本书籍;
402、根据数据供应方,调用预置数据请求接口,获取佛学源数据;
403、预先设置正则表达式;
本实施例中,正则表达式,又称规则表达式(Regular Expression,在代码中常简写为regex、regexp或RE),计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。
本实施例中,佛学知识图谱数据收集系统下佛学数据可能存在的各种组织结构,设置具有相应组织结构的一个或多个正则表达式。
404、从佛学源数据中提取与正则表达式相匹配的文本数据;
本实施例中,在得到携带佛学数据的待解析文件之后,即可通过设置的各个正则表达式与待解析文件进行模糊匹配,从待解析文件提取与任一个正则表达式相匹配的文本数据,实现从待解析文件中提取与设置的任一个正则表达式在组织结构上相同的文本数据(即实现提取文件中具有一定组织结构的原始佛学数据)。
405、根据正则表达式和解析标签,从文本数据中提取关键词及内容值;
本实施例中,对于提取的每一个文本数据,即可根据与其相匹配的正则表达式本身的组织结构对该文本数据再次进行解析,以从该文本数据中提取出关键词及内容值;最后建立从同一个文本数据中提取的关键词、内容值之间的关联关系,得到由若干关键词以及与关键词相关联的内容值构成的解析结果。综上可见,对携带文本数据的文件进行解析时,不再依赖于携带佛学数据的文件的标签结构,能够得到更为准确的解析结果。
本实施例中,由于数据库的数据都是结构化的数据,因此不需要进行解析;对于网页爬虫数据或者pdf数据根据其上传时所提供的解析结构标签对其进行解析。以网页数据为例:在解析网页中包含的结构化数据时,首先要根据结构化字段的位置字段的值获取对应的容器;再根据结构化数据的键、值字段的值获取容器中的键和值;并根据键 (关键字)和值(内容值)之间的对应关系,得到由若干(关键词) 键和与(关键词)键相关联的内容值构成的解析结果,形成结构化的数据。
在解析网页中包含的半结构化数据时,根据半结构化数据字段的位置字段的值(内容值)获取对应的起始位置,其中,由于存在网页中存在多个半结构化字段的情况,所以可能会有多个起始位置;根据网页排版,第一个起始位置到第二个起始位置之间的数据都是第一个半结构化信息内容,形成了一个半结构化数据的容器;根据半结构化数据字段的键、值字段,获取容器中的键和值,其中,由于半结构化数据的值是一段一段的内容,但是键只有一个,所以形成了以<键,值列表>形式的数据,形成半结构化的数据。
406、建立关键词与内容值之间的关联关系,得到原始佛学数据;
本实施例中,针对从同一个文本数据中提取的关键词及内容值,建立该关键词以及该内容值的关联关系。比如,佛学知识图谱数据收集系统提供的待解析文件中的佛学数据,可能通过如下几种方式实现描述王某的基本信息及原名:“基本信息:“别名”:“法号无畏金刚 (DorjeJigdral)”,“国籍”:“中国”,“民族”:“汉族”,“出生地”:“香港”,“出生日期”:“1935年”,“职业”:“作家”,“信仰”:“儒释道”,“主要成就”:“佛学专家,调味料XO酱的发明者”, “代表作品”:“《广府话救亡》《风水平谈》《中州派玄空学》等等”, “现居地”:“加拿大多伦多”;“原名”:“谈锡永”,“籍贯”:“广东南海人”},其中,“基本信息”及“原名”对应的字符串长度为均 m,且两者在文件中对应的字符串长度均为n,此时,即可设置一组织结构与“基本信息”与“原名”相对应的正则表达式为“AAAA:BBB”,该正则表达中“AAAA”可以匹配出指定符号“:”之前的m个非换行字符,“BBB”可以匹配出指定符号“:”之后的n个非换行字符;当待解析文件存在与该正则表达式为“AAAA:BBB”组织结构相同的文本数据“基本信息:“别名”:“法号无畏金刚(DorjeJigdral)”,“国际”:“中国”,“民族”:“汉族”,“出生地”:“香港”,“出生日期”:“1935年”,“职业”:“作家”,“信阳”:“儒释道”,“主要成就”:“佛学专家,调味料XO酱的发明者”,“代表作品”:“《广府话救亡》《风水平谈》《中州派玄空学》等等”,“现居地”:“加拿大多伦多”;“简介:“王某原名谈锡永,广东南海人,是香港的佛学家及专栏作家,亦是紫微斗数、玄空风水及中国画的专家,现时已移居加拿大多伦多。“王某的笔名,取自于“姑妄听之”。他虽攻读化学,但出身八旗世家,少习琴棋书画、医卜星相诸学,对子平、易理更为有研究,虽从事金融,但性喜文史哲学,信仰佛教,后王某照片随中州派刘惠苍师父习紫微斗数,得其真传,使其在香港发扬光大”时,这些文本数据即可被提取。后续仅需要对提取的文本数据进行进一步的解析以提取关键词及内容值,并对应的构建关联关系即可。
407、对原始佛学数据进行数据去重,得到目标佛学数据,并将目标佛学数据存储至预置数据库。
本实施例中步骤401-402、407与第一实施例中的步骤101-102、 104类似,此处不再赘述。
本发明实施例中,获取数据采集需求和解析标签,并根据数据采集需求,确定数据供应方;调用预置数据请求接口,获取佛学源数据,同时,根据解析标签,对佛学源数据进行结构化解析,得到原始佛学数据;对原始佛学数据进行数据去重,得到目标佛学数据,并将目标佛学数据存储至预置数据库,构建佛学知识图谱数据库。对数据进行严格的结构化解析,解决了数据丢失,降低了数据库中数据的冗余率,提升了数据收集系统的稳定性。
请参阅图5,本发明实施例中佛学数据收集方法的第五个实施例包括:
501、接收数据采集需求和解析标签,并根据数据采集需求,确定数据供应方,其中,数据供应方包括:数据库、网页和pdf版本书籍;
502、根据数据供应方,调用预置数据请求接口,获取佛学源数据;
503、根据解析标签,对佛学源数据进行解析,得到原始佛学数据;
504、获取数据访问请求,并提取数据访问请求中的特征字段;
本实施例中,对数据访问请求进行解析即为对原始佛学数据进行解析,解析的过程为:首先确定原始佛学数据的组成部分(包括请求行、请求头以及请求体),其中,请求行包含了一个方法和一个请求的URL,还包含HTTP报文的版本,请求头包含HTTP报文首部字段向原始佛学数据中添加了一些附加信息,请求体包含原始佛学数据中文本数据的长度和字段内容。
在确定了原始佛学数据中文本数据的组成部分后,从请求体中确定出原始佛学数据中文本数据的字段内容并提取作为特征字段。
505、对特征字段进行清洗,并将清洗后的特征字段进行规范化处理;
本实施例中,对所述特征字段进行清洗指的是捕获特征字段中的空值字段,将空值字段加载或替换为特定数据。其中,根据空值字段可以进行不同数据库的分流;将清洗后的特征字段进行规范化处理,规范化处理的过程具体为:针对来自不同数据源的特征字段,有可能出现相同的特征字段属于不同的数据类型,但在实际上指的是同一个概念,例如:它们可能会是字符型或者数值型,针对这种情况,将对当前特征字段进行判断而不考虑其本身在数据源中所属于的数据类型,并使用数值型来代替字符型或者使用字符型来代替数值型。
506、对特征字段进行拼接,生成特征字段组合,并通过哈希算法对特征字段组合进行压缩处理,得到已压缩处理的特征字段;
本实施例中,可使用C#语言的StringBuilder类中的append方法对文本数据中的特征字段进行拼接,StringBuilder类为C#语言中的可变字符序列类,使用append方法将特征字段按照先后顺序进行拼接,哈希算法是一个“链表散列”的数据结构,通过哈希算法,会将特征字段数据进行取模运算,并将结果放在数组某个位置,即实现特征字段数据的定位存放。这个压缩不是原数据进行压缩还原,而是对元数据进行hash处理,变成一个唯一hashcode,后续还需要由 hashcode来判断特征字段数据是否重复。hashcode是经过哈希算法获取的对象地址,或者字符串或数字算出来的int类型的数字。
507、对已压缩处理的特征字段进行识别,并根据识别结果判断特征字段是否为重复字段;
本实施例中,预设数据库集群为分布式redis数据库集群,在对已压缩处理的特征字段进行识别之前,需要预先设置数据库集群,并对预先设置的数据库集群进行初始化,初始化指的是预先向数据库集群中存储特征字段数据,本实施例中的预设数据库集群为分布式 redis数据库集群,该分布式redis数据库集群为现有的基于内存的数据库,也是一种单线程高性能内存数据库。
基于预设数据库集群对已压缩处理的特征字段进行识别,在识别时需要调用setnx命令,根据setnx命令将已压缩处理的特征字段遍历预设数据库集群中存储的所有数据,然后由setnx命令返回一个返回值,再根据setnx命令返回的返回值来判断所述特征字段是否为重复字段,所谓重复字段指的是预设数据库集群中是否存在与已压缩处理的特征字段全部相同的特征字段数据,若有,则说明已压缩处理的特征字段为重复字段,若没有,则说明已压缩处理的特征字段不是重复字段。
508、若是,则剔除重复字段,得到目标佛学数据,并将目标佛学数据存储至预置数据库;
本实施例中,由于佛学知识图谱数据的采集从各个渠道进行收集,比如百度百科、互动百科、维基百科以及开源知识图谱中的结构化数据,这些数据在一定程度上有极大的冗余。为了保证数据的唯一性需要对数据进行冗余判定,进行相应的剔除。其中,结构化数据的冗余判定主要包括键的冗余和值的冗余;键的冗余通过集合来判定,为每个title维持一个键集合,如果结构化数据在键集合内,则该数据已经存在,无需新增;值的冗余通过布隆过滤器来判定,因为每个title 的键可能不多,但是其值会有很多,比如说title:法师,key:弟子, value:…;因为一个法师的弟子太多太多了,所以采用布隆过滤器来判定新来的一个值是否存在。
同时,半结构化数据的冗余判定也分为键的冗余和值的冗余;键的冗余通过相似近邻查询来判定键与键之间的相似程度,如2个键之间的相似程度达到0.8则认为是同一个键,本文采用的方法是基于腾讯开源的800万词向量部署的相似词查询服务来判定键之间的相似程度;值的冗余判定,由半结构化的解析过程可知,半结构化的键对应的值是一段文本的列表。同时值的数量也是相当大的。本文首先采用simhash算法将键下所有所有的值进行映射形成一串256位二进制编码;当新增一个值时,与值编码库中的所有二进制串进行异或运算,异或运算后统计1的个数,也就是计算二个串之间的汉明距离;当汉明距离小于32时,认为同一个键下的这2段值是极其相似的;无需新增。将结构化与半结构化解析后经冗余判定后需要新增的数据写入到相应的数据库中。
509、若否,则输出提示消息,其中,提示消息用于提示所述特征字段为正常字段。
本实施例中,若命令的返回值为1,则说明已压缩处理的特征字段不是重复字段,并输出特征字段为正常字段的提示消息,提示消息可以以短信、消息推送的方式进行推送,最后将特征字段存储至分布式redis数据库集群中;若setnx命令的返回值为0,则说明已压缩处理的特征字段为重复字段,将所述特征字段存储至预设的异常处理队列中,其中,异常处理队列为分布式redis数据库集群专门为异常数据设置的处理窗口,对于重复的特征字段存储至该处理窗口中进行处理操作,该处理操作可以为删除操作,例如,直接将重复的特征字段存储至该处理窗口中进行删除。
本实施例中步骤501-503与第一实施例中的101-103类似,此处不再赘述。
在本发明实施例中,获取数据采集需求和解析标签,并根据数据采集需求,确定数据供应方;调用预置数据请求接口,获取佛学源数据,同时,根据解析标签,对佛学源数据进行结构化解析,得到原始佛学数据;对原始佛学数据进行数据去重,得到目标佛学数据,并将目标佛学数据存储至预置数据库,构建佛学知识图谱数据库。对数据进行严格的结构化解析,解决了数据丢失,降低了数据库中数据的冗余率,提升了数据收集系统的稳定性。
上面对本发明实施例中佛学数据收集方法进行了描述,下面对本发明实施例中佛学数据收集装置进行描述,请参阅图6,本发明实施例中佛学数据收集装置的第一个实施例包括:
接收模块601,用于接收数据采集需求和解析标签,并根据所述数据采集需求,确定数据供应方,其中,所述数据供应方包括:数据库、网页和pdf版本书籍,所述解析标签中包含有结构化信息及半结构化信息;
调用模块602,用于根据所述数据供应方,调用预置数据请求接口,获取佛学源数据;
解析模块603,用于根据所述解析标签,对所述佛学源数据进行解析,得到原始佛学数据;
数据去重模块604,用于对所述原始佛学数据进行数据去重,得到目标佛学数据,并将所述目标佛学数据存储至预置数据库。
本发明实施例中,获取数据采集需求和解析标签,并根据数据采集需求,确定数据供应方;调用预置数据请求接口,获取佛学源数据,同时,根据解析标签,对佛学源数据进行结构化解析,得到原始佛学数据;对原始佛学数据进行数据去重,得到目标佛学数据,并将目标佛学数据存储至预置数据库,构建佛学知识图谱数据库。对数据进行严格的结构化解析,解决了数据丢失,降低了数据库中数据的冗余率,提升了数据收集系统的稳定性。
请参阅图7,本发明实施例中佛学数据收集装置的第二个实施例,该佛学数据收集装置具体包括:
接收模块601,用于接收数据采集需求和解析标签,并根据所述数据采集需求,确定数据供应方,其中,所述数据供应方包括:数据库、网页和pdf版本书籍,所述解析标签中包含有结构化信息及半结构化信息;
调用模块602,用于根据所述数据供应方,调用预置数据请求接口,获取佛学源数据;
解析模块603,用于根据所述解析标签,对所述佛学源数据进行解析,得到原始佛学数据;
数据去重模块604,用于对所述原始佛学数据进行数据去重,得到目标佛学数据,并将所述目标佛学数据存储至预置数据库。
本实施例中,所述调用模块602包括:
解析单元6021,用于当所述数据供应方为数据库时,则对所述数据采集需求进行解析,获取所述数据采集需求中携带的数据存储位置,并根据所述数据存储位置,调用预置数据库请求接口,获取佛学源数据;
读取单元6022,用于当所述数据供应方为pdf版本书籍时,则通过预置书籍请求接口读取对应佛学源数据;
获取单元6023,用于当所述数据供应方为网页时,则对所述数据采集需求进行解析,待爬取网页的网页地址,爬取所述待爬取网页中的待爬取网页数据,得到佛学源数据。
本实施例中,所述获取单元6023具体用于:
获取待爬取网页的网页地址,根据所述待爬取网页的网页地址,获取所述待爬取网页的对应的有效登录数据;
根据所述有效登录数据,从网络地址库中随机选取可用的网络地址,其中,所述网络地址库是配置在所述网页数据爬取平台中的用于存储不同网络地址的数据库;
对所述有效登录数据进行正确性验证,得到通过所述正确性验证的目标登录数据;
根据所述目标登录数据,登录所述待爬取网页,并根据与所述待爬取网页相对应的渲染方式渲染所述待爬取网页;
爬取已渲染完成的所述待爬取网页,获取待爬取网页数据,得到佛学源数据,其中,所述待爬取网页数据是指存储在待爬取网站服务器上,且可以在待爬取网页上显示的内容。
本实施例中,所述获取单元6023具体还用于:
根据所述待爬取网页的网页地址,从爬取配置库中选取与所述待爬取网页对应的爬取配置文件;
根据所选取的爬取配置文件中的待爬取网页数据的位置,爬取所述待爬取网页中的待爬取网页数据。
本实施例中,所述解析模块603具体用于:
预先设置正则表达式;
从所述佛学源数据中提取与所述正则表达式相匹配的文本数据;
根据所述正则表达式和所述解析标签,从所述文本数据中提取关键词及内容值;
建立所述关键词与所述内容值之间的关联关系,得到原始佛学数据。
本实施例中,所述数据去重模块604具体用于:
获取数据访问请求,并提取所述数据访问请求中的特征字段;
对所述特征字段进行清洗,并将清洗后的特征字段进行规范化处理;
对所述特征字段进行拼接,生成特征字段组合,并通过哈希算法对所述特征字段组合进行压缩处理,得到已压缩处理的特征字段;
对所述已压缩处理的特征字段进行识别,并根据识别结果判断所述特征字段是否为重复字段;
若是,则将所述特征字段存储至预设的异常处理队列中,否则输出提示消息,其中,所述提示消息用于提示所述特征字段为正常字段
剔除所述重复字段,得到目标佛学数据,并将所述目标佛学数据存储至预置数据库。
本发明提供一种佛经注解自动生成装置包括:
读取模块605,用于读取用户输入的原始佛经数据;
注解模块606,用于通过所述目标佛学数据收集,对所述原始佛经数据进行佛经注解,得到佛经注解语句;
确定模块607,用于确定所述佛经注解语句中的关键词及与所述关键词对应的注解内容;
输出模块608,用于基于所述佛经注解语句中所有关键词对应的注解内容,输出所述原始佛经数据的佛经注解。
本实施例中,所述佛学数据收集装置,还包括:
标注模块609,用于对语料样本进行预处理,得到字符序列样本,并对所述字符序列样本标注命名实体标签,得到训练字符序列;
预训练模块610,用于基于预设的第一双向语言模型和第一自注意力机制模型分别对所述训练字符序列进行预训练,获得所述训练字符序列对应的字特征向量和字权重向量;基于预设的第二双向语言模型和第二自注意力机制模型分别对所述训练字符序列进行预训练,获得所述训练字符序列对应的词特征向量和词权重向量;
融合模块611,用于对所述训练字符序列对应的字特征向量和字权重向量进行融合获得所述训练字符序列的第一上下文向量;对所述训练字符序列对应的词特征向量和词权重向量进行融合获得所述训练字符序列的第二上下文向量;
训练模块612,用于使用所述训练字符序列的第一上下文向量和第二上下文向量对依次连接的双向神经网络和条件随机场进行,得到命名实体识别模型。
本发明实施例中,获取数据采集需求和解析标签,并根据数据采集需求,确定数据供应方;调用预置数据请求接口,获取佛学源数据,同时,根据解析标签,对佛学源数据进行结构化解析,得到原始佛学数据;对原始佛学数据进行数据去重,得到目标佛学数据,并将目标佛学数据存储至预置数据库,构建佛学知识图谱数据库。对数据进行严格的结构化解析,解决了数据丢失,降低了数据库中数据的冗余率,提升了数据收集系统的稳定性。
上面图6和图7从模块化功能实体的角度对本发明实施例中的佛学数据收集装置进行详细描述,下面从硬件处理的角度对本发明实施例中佛学数据收集设备进行详细描述。
图8是本发明实施例提供的一种佛学数据收集设备的结构示意图,该佛学数据收集设备800可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units, CPU)810(例如,一个或一个以上处理器)和存储器820,一个或一个以上存储应用程序833或数据832的存储介质830(例如一个或一个以上海量存储设备)。其中,存储器820和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对佛学数据收集设备800 中的一系列指令操作。更进一步地,处理器810可以设置为与存储介质830通信,在佛学数据收集设备800上执行存储介质830中的一系列指令操作,以实现上述各方法实施例提供的佛学数据收集方法的步骤。
佛学数据收集设备800还可以包括一个或一个以上电源840,一个或一个以上有线或无线网络接口850,一个或一个以上输入输出接口860,和/或,一个或一个以上操作系统831,例如Windows Serve, Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图8示出的佛学数据收集设备结构并不构成对本申请提供的佛学数据收集设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行上述佛学数据收集方法的步骤。
本发明实施例中的目标佛学数据可以存储在区块链中。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
所述领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种佛学数据收集方法,其特征在于,所述佛学数据收集方法包括:
接收数据采集需求和解析标签,并根据所述数据采集需求,确定数据供应方,其中,所述数据供应方包括:数据库、网页和pdf版本书籍,所述解析标签中包含有结构化信息及半结构化信息;
根据所述数据供应方,调用预置数据请求接口,获取佛学源数据;
根据所述解析标签,对所述佛学源数据进行解析,得到原始佛学数据;
对所述原始佛学数据进行数据去重,得到目标佛学数据,并将所述目标佛学数据存储至预置数据库。
2.根据权利要求1所述的佛学数据收集方法,其特征在于,所述根据所述数据供应方,调用预置数据请求接口,获取佛学源数据包括:
若所述数据供应方为数据库,则对所述数据采集需求进行解析,获取所述数据采集需求中携带的数据存储位置,并根据所述数据存储位置,调用预置数据库请求接口,获取佛学源数据;
若所述数据供应方为pdf版本书籍,则通过预置书籍请求接口读取对应佛学源数据;
若所述数据供应方为网页,则对所述数据采集需求进行解析,获取待爬取网页的网页地址,爬取所述待爬取网页中的待爬取网页数据,得到佛学源数据。
3.根据权利要求2所述的佛学数据收集方法,其特征在于,所述获取待爬取网页的网页地址,爬取所述待爬取网页中的待爬取网页数据,得到佛学源数据包括:
获取待爬取网页的网页地址,根据所述待爬取网页的网页地址,获取所述待爬取网页的对应的有效登录数据;
根据所述有效登录数据,从网络地址库中随机选取可用的网络地址,其中,所述网络地址库是配置在所述网页数据爬取平台中的用于存储不同网络地址的数据库;
对所述有效登录数据进行正确性验证,得到通过所述正确性验证的目标登录数据,并根据所述目标登录数据,登录所述待爬取网页,并根据与所述待爬取网页相对应的渲染方式渲染所述待爬取网页;
爬取已渲染完成的所述待爬取网页,获取待爬取网页数据,得到佛学源数据,其中,所述待爬取网页数据是指存储在待爬取网站服务器上,且可以在待爬取网页上显示的内容。
4.根据权利要求3所述的佛学数据收集方法,其特征在于,所述爬取已渲染完成的所述待爬取网页,获取待爬取网页数据包括:
根据所述待爬取网页的网页地址,从爬取配置库中选取与所述待爬取网页对应的爬取配置文件;
根据所选取的爬取配置文件中的待爬取网页数据的位置,爬取所述待爬取网页中的待爬取网页数据。
5.根据权利要求1所述的佛学数据收集方法,其特征在于,所述根据所述解析标签,对所述佛学源数据进行解析,得到原始佛学数据包括:
预先设置正则表达式;
从所述佛学源数据中提取与所述正则表达式相匹配的文本数据;
根据所述正则表达式和所述解析标签,从所述文本数据中提取关键词及内容值;
建立所述关键词与所述内容值之间的关联关系,得到原始佛学数据。
6.根据权利要求1所述的佛学数据收集方法,其特征在于,所述对所述原始佛学数据进行数据去重,得到目标佛学数据,并将所述目标佛学数据存储至预置数据库包括:
获取数据访问请求,并提取所述数据访问请求中的特征字段;
对所述特征字段进行清洗,并将清洗后的特征字段进行规范化处理;
对所述特征字段进行拼接,生成特征字段组合,并通过哈希算法对所述特征字段组合进行压缩处理,得到已压缩处理的特征字段;
对所述已压缩处理的特征字段进行识别,并根据识别结果判断所述特征字段是否为重复字段;
若是,则将所述特征字段存储至预设的异常处理队列中,否则输出提示消息,其中,所述提示消息用于提示所述特征字段为正常字段
剔除所述重复字段,得到目标佛学数据,并将所述目标佛学数据存储至预置数据库。
7.一种佛学数据收集装置,其特征在于,所述佛学数据收集装置包括:
接收模块,用于接收数据采集需求和解析标签,并根据所述数据采集需求,确定数据供应方,其中,所述数据供应方包括:数据库、网页和pdf版本书籍,所述解析标签中包含有结构化信息及半结构化信息;
调用模块,用于根据所述数据供应方,调用预置数据请求接口,获取佛学源数据;
解析模块,用于根据所述解析标签,对所述佛学源数据进行解析,得到原始佛学数据;
数据去重模块,用于对所述原始佛学数据进行数据去重,得到目标佛学数据,并将所述目标佛学数据存储至预置数据库。
8.根据权利要求7所述的佛学数据收集装置,其特征在于,所述获取单元具体用于:
获取待爬取网页的网页地址,根据所述待爬取网页的网页地址,获取所述待爬取网页的对应的有效登录数据;
根据所述有效登录数据,从网络地址库中随机选取可用的网络地址,其中,所述网络地址库是配置在所述网页数据爬取平台中的用于存储不同网络地址的数据库;
对所述有效登录数据进行正确性验证,得到通过所述正确性验证的目标登录数据,并根据所述目标登录数据,登录所述待爬取网页,并根据与所述待爬取网页相对应的渲染方式渲染所述待爬取网页;
爬取已渲染完成的所述待爬取网页,获取待爬取网页数据,得到佛学源数据,其中,所述待爬取网页数据是指存储在待爬取网站服务器上,且可以在待爬取网页上显示的内容。
9.一种佛学数据收集设备,其特征在于,所述佛学数据收集设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的数据处理程序,所述数据处理程序被所述处理器执行时实现如权利要求1-7中任一项所述的数据处理方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有佛学数据收集程序,所述佛学数据收集程序被处理器执行时实现如权利要求1-7中任一项所述的佛学数据收集方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110301859.6A CN113449115A (zh) | 2021-03-22 | 2021-03-22 | 佛学数据收集方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110301859.6A CN113449115A (zh) | 2021-03-22 | 2021-03-22 | 佛学数据收集方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113449115A true CN113449115A (zh) | 2021-09-28 |
Family
ID=77809166
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110301859.6A Pending CN113449115A (zh) | 2021-03-22 | 2021-03-22 | 佛学数据收集方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113449115A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104881424A (zh) * | 2015-03-13 | 2015-09-02 | 国家电网公司 | 一种基于正则表达式的电力大数据采集、存储及分析方法 |
CN108399229A (zh) * | 2018-02-12 | 2018-08-14 | 安徽千云度信息技术有限公司 | 一种基于大数据的数字图书馆数据库建设方法 |
CN110147360A (zh) * | 2019-04-03 | 2019-08-20 | 深圳价值在线信息科技股份有限公司 | 一种数据整合方法、装置、存储介质和服务器 |
-
2021
- 2021-03-22 CN CN202110301859.6A patent/CN113449115A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104881424A (zh) * | 2015-03-13 | 2015-09-02 | 国家电网公司 | 一种基于正则表达式的电力大数据采集、存储及分析方法 |
CN108399229A (zh) * | 2018-02-12 | 2018-08-14 | 安徽千云度信息技术有限公司 | 一种基于大数据的数字图书馆数据库建设方法 |
CN110147360A (zh) * | 2019-04-03 | 2019-08-20 | 深圳价值在线信息科技股份有限公司 | 一种数据整合方法、装置、存储介质和服务器 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10402163B2 (en) | Intelligent data extraction | |
US8468167B2 (en) | Automatic data validation and correction | |
US10423649B2 (en) | Natural question generation from query data using natural language processing system | |
US8954839B2 (en) | Contract authoring system and method | |
CN100489879C (zh) | 一种对页面数据进行校验的方法、系统和服务器 | |
CN112613917B (zh) | 基于用户画像的信息推送方法、装置、设备及存储介质 | |
CN106599160B (zh) | 一种内容规则库管理系统及其编码方法 | |
CN111125598A (zh) | 数据智能查询方法、装置、设备及存储介质 | |
US20090148048A1 (en) | Information classification device, information classification method, and information classification program | |
CN113707300A (zh) | 基于人工智能的搜索意图识别方法、装置、设备及介质 | |
CN111475700A (zh) | 一种数据提取方法及相关设备 | |
CN112667802A (zh) | 业务信息录入方法、装置、服务器和存储介质 | |
JP7290391B2 (ja) | 情報処理装置及びプログラム | |
RU2632149C2 (ru) | Система, способ и постоянный машиночитаемый носитель для проверки веб-страниц | |
US20130024765A1 (en) | Processing rich text data for storing as legacy data records in a data storage system | |
CN108804889B (zh) | 一种网站注册方法及装置 | |
JP5963310B2 (ja) | 情報処理装置、情報処理方法、及び、情報処理プログラム | |
CN113449115A (zh) | 佛学数据收集方法、装置、设备及存储介质 | |
US7383532B2 (en) | System and method for client-side locale specific numeric format handling in a web environment | |
CN115098619A (zh) | 资讯去重方法、装置、电子设备及计算机可读取存储介质 | |
CN113947510A (zh) | 一种基于文件格式自适应的不动产电子证照管理系统 | |
WO2016060551A1 (en) | A method for mining electronic documents and system thereof | |
CN112818199A (zh) | 网页访问方法、装置、计算机设备及存储介质 | |
JP2012155681A (ja) | フォントサーバ | |
Singh et al. | Intelligent Text Mining Model for English Language Using Deep Neural Network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |