CN112990465A

CN112990465A - 佛学知识萃取方法、装置、设备及存储介质

Info

Publication number: CN112990465A
Application number: CN202110285876.5A
Authority: CN
Inventors: 章林; 文彬; 李剑锋
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-03-17
Filing date: 2021-03-17
Publication date: 2021-06-18

Abstract

本发明涉及数据处理的技术领域，公开了一种佛学知识萃取方法、装置、设备及存储介质，包括：获取佛学相关数据，并对所述佛学相关数据进行标准处理，得到清洗后的数据，对所述清洗后的数据进行分词处理，得到分词后的数据，使用TF‑IDF算法对所述分词后的数据进行提取关键词处理，得到topN的词条，使用MD5算法对所述词条进行去重处理，筛选出佛学领域词，以所述佛学领域词为关键词，搜索佛学相关网站得到问答数据；本发明经过简单的循环步骤可以获得大量经过筛选的所需数据，避免查找佛学问答数据需要佛学专业知识的积累和领域专家支持，互联网海量数据也不需要用户自己去筛选，提高了查找效率，节省了查找的时间成本。

Description

佛学知识萃取方法、装置、设备及存储介质

技术领域

本发明涉及数据处理的技术领域，特别涉及一种佛学知识萃取方法、装置、设备及存储介质。

背景技术

问答数据是问答系统构建的基础，一个较好的问答系统离不开大量的、高质量的问答数据的支持。佛学作为一个需要较高专业知识的领域，构建大量高质量的问答数据是一个耗时耗力的工作。

传统的获取某专业领域的问答数据，需要领域专家的技术支持，同时需要在该领域长时间积累专业数据，数据的获取难度很高。特别是佛学这种专业程度很高的领域，难度更大。在缺乏佛学专业的积累、缺乏专家支持的情况下，不能从互联网的海量数据中较快、较好的获取问答数据。

发明内容

本发明的目的在于提供一种佛学知识萃取方法、装置、设备及存储介质，旨在解决查找佛学问答数据需要佛学专业知识的积累和领域专家支持，从互联网的海量数据中不能快速、有效地获取问答数据的技术问题。

为实现上述目的，本发明第一方面提供一种佛学知识萃取方法，所述佛学知识萃取方法包括：

获取佛学相关数据，并对所述佛学相关数据进行标准处理，得到清洗后的数据；

对所述清洗后的数据进行分词处理，得到分词后的数据；

使用TF-IDF算法对所述分词后的数据进行提取关键词处理，得到topN的词条；

使用MD5算法对所述词条进行去重处理，筛选出佛学领域词；

以所述佛学领域词为关键词，搜索佛学相关网站得到问答数据。

可选的，在本发明第一方面的第一种实现方式中，所述获取佛学相关数据，并对所述佛学相关数据进行标准处理，得到清洗后的数据，包括：

搜索专业的网站、百科和微博得到所述佛学相关网站；

搜索所述佛学相关网站，得到佛学相关文章、资讯和问答的数据；

将得到的所述数据进行去除网站标签、繁简体转换和去停用词的处理，得到清洗后的数据。

可选的，在本发明第一方面的第二种实现方式中，所述使用TF-IDF算法对所述分词后的数据进行提取关键词处理，得到topN的词条，包括：

计算所述分词后的数据的每个词的词频，得到词频；

计算所述分词后的数据的每个词的逆文档频率，得到逆文档频率；

对所述词频和所述逆文档频率进行加权计算并降序排列，得到topN的词条。

可选的，在本发明第一方面的第三种实现方式中，所述使用MD5算法对所述词条进行去重处理，筛选出佛学领域词，包括：

将获取到的词条进行按位填充处理，得到填充后的数据；

记录并存储所述词条的长度，得到补充数据；

将所述补充数据添加在所述填充后的数据之后，得到结果数据；

将所述结果数据进行装入标准幻数处理，得到储存的数据段；

对所述数据段进行四轮循环运算处理和去重处理，得到佛学领域词。

可选的，在本发明第一方面的第四种实现方式中，所述以所述佛学领域词为关键词，搜索佛学相关网站得到问答数据，包括：

取出部分所述问答数据，过滤，得到训练语料；

调用知识萃取工具对所述训练语料中的所述问答数据进行学习，得到分类模型；

使用所述分类模型大规模的筛选所述问答数据，得到筛选后的问答数据。

可选的，在本发明第一方面的第五种实现方式中，在所述以所述佛学领域词为关键词，搜索佛学相关网站得到问答数据之后，还包括：

将所述问答数据进行提取关键词处理和去重处理得到领域词V1版；

将所述领域词与所述领域词V1版进行匹配去重处理，得到领域词V2版。

本发明第二方面提供了一种佛学知识萃取装置，所述佛学知识萃取装置包括：

清洗模块，用于获取佛学相关数据，并对所述佛学相关数据进行标准处理，得到清洗后的数据；

分词模块，用于对所述清洗后的数据进行分词处理，得到分词后的数据；

提取关键词模块，用于使用TF-IDF算法对所述分词后的数据进行提取关键词处理，得到topN的词条；

去重模块，用于使用MD5算法对所述词条进行去重处理，筛选出佛学领域词；

搜索模块，用于以所述佛学领域词为关键词，搜索佛学相关网站得到问答数据。

可选的，在本发明第二方面的第一种实现方式中，所述清洗模块具体用于：

搜索专业的网站、百科和微博得到所述佛学相关网站；

可选的，在本发明第二方面的第二种实现方式中，所述提取关键词模块具体用于：

计算所述分词后的数据的每个词的词频，得到词频；

可选的，在本发明第二方面的第三种实现方式中，所述去重模块具体用于：

填充单元，用于将获取到的词条进行按位填充处理，得到填充后的数据；

存储单元，用于记录并存储所述词条的长度，得到补充数据；

添加单元，用于将所述补充数据添加在所述填充后的数据之后，得到结果数据；

装载单元，用于将结果数据进行装入标准幻数处理，得到储存的数据段；

去重单元，用于对所述数据段进行四轮循环运算处理和去重处理，得到佛学领域词。

可选的，在本发明第二方面的第四种实现方式中，所述搜索模块还具体用于：

取出部分所述问答数据，过滤，得到训练语料；

可选的，在本发明第二方面的第五种实现方式中，所述佛学知识萃取装置还包括更新模块，其具体用于：

本发明第三方面提供了一种佛学知识萃取设备，包括：存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机可读指令，所述计算机可读指令被所述处理器执行时实现如权利要求1-6中任一项所述的佛学知识萃取方法。

本发明第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现如权利要求1-6中任一项所述佛学知识萃取方法。

本发明提供的技术方案中，根据获取佛学相关数据，并对所述佛学相关数据进行标准处理，得到清洗后的数据，对所述清洗后的数据进行分词处理，得到分词后的数据，使用TF-IDF算法对所述分词后的数据进行提取关键词处理，得到topN的词条，使用MD5算法对所述词条进行去重处理，筛选出佛学领域词，以所述佛学领域词为关键词，搜索佛学相关网站得到问答数据，使得经过简单的步骤可以获得大量经过筛选的所需数据，避免查找佛学问答数据需要佛学专业知识的积累和领域专家支持，互联网海量数据也不需要用户自己去筛选，提高了查找效率，节省了查找的时间成本。

附图说明

图1是本发明实施例中的佛学知识萃取方法的第一个实施例示意图；

图2是本发明实施例中的佛学知识萃取方法的第二个实施例示意图；

图3是本发明实施例中的佛学知识萃取方法的第三个实施例示意图；

图4是本发明实施例中的佛学知识萃取方法的第四个实施例示意图；

图5是本发明实施例中的佛学知识萃取方法的第五个实施例示意图；

图6是本发明实施例中的佛学知识萃取方法的第六个实施例示意图

图7是本发明实施例中的佛学知识萃取装置的一个实施例示意图；

图8是本发明实施例中的佛学知识萃取装置的另一个实施例示意图；

图9是本发明实施例中的佛学知识萃取设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种佛学知识萃取方法、装置、设备及介质，根据获取佛学相关数据，并对所述佛学相关数据进行标准处理，得到清洗后的数据，对所述清洗后的数据进行分词处理，得到分词后的数据，使用TF-IDF算法对所述分词后的数据进行提取关键词处理，得到topN的词条，使用MD5算法对所述词条进行去重处理，筛选出佛学领域词，以佛学领域词为关键词，搜索佛学相关网站得到问答数据，使得经过简单的步骤可以获得大量经过筛选的所需数据，避免查找佛学问答数据需要佛学专业知识的积累和领域专家支持，互联网海量数据也不需要用户自己去筛选，提高了查找效率，节省了查找的时间成本。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参照图1，本发明实施例中佛学知识萃取方法的第一个实施例包括：

101，获取佛学相关数据，并对所述佛学相关数据进行标准处理，得到清洗后的数据；

该步骤中的佛学相关数据是指涉及佛学领域的个人或组织经验、信息数据、概念以及原理原则的相关电子化数据。其中信息数据是指不需要进一步解释的事实特征，概念指类别、专有名词、术语以及各类的标签信息，原理原则指包含条件因子、结果以及两者关系的信息，包括规律、原则、法则。

标准处理是指对获取的数据进行去除网站标签、繁简体转换和去停用词处理。

102，对所述清洗后的数据进行分词处理，得到分词后的数据；

在该步骤中的分词处理是指按照预设的分词规则对获取的数据进行将连续的字序列重新组合成词序列的处理过程。

103，使用TF-IDF算法对所述分词后的数据进行提取关键词处理，得到topN的词条；

在该步骤中的TF-IDF算法是指自动提取关键词的算法，TF-IDF＝词频TF*逆文档频率IDF，某个词对文章的重要性越高，它的TF-IDF值越大；TF-IDF与一个词在文档中的出现次数成正比，与该词在整个语言中的出现次数成反比。所以，自动提取关键词的算法就是计算出文档的每个词的TF-IDF值，然后按降序排列，取排在最前面的几个词。

在该步骤中的topN设定N＝100，即获取topN的词条就是获取排在前100位的词条。

104，使用MD5算法对所述词条进行去重处理，筛选出佛学领域词；

在该步骤中MD5算法主要是检查文件完整性的校验，MD5信息摘要算法(MD5Message-Digest Algorithm)，是一种被广泛使用MD5信息摘要算法，一种被广泛使用的密码散列函数，可以产生出一个128位(16字节)的散列值(hash value)，用于确保信息传输完整一致的密码散列函数，可以产生出一个128位(16字节)的散列值，用于确保信息传输完整一致。

105，以所述佛学领域词为关键词，搜索佛学相关网站得到问答数据；

在该步骤中的佛学领域词是指佛学领域内的专业名词，佛学相关网站是指佛学领域的专业性网站、网页，问答数据是指针对佛学的相关问答数据。

在本发明实施例中，获取佛学相关数据，并对所述佛学相关数据进行标准处理，得到清洗后的数据，对所述清洗后的数据进行分词处理，得到分词后的数据，使用TF-IDF算法对所述分词后的数据进行提取关键词处理，得到topN的词条，使用MD5算法对所述词条进行去重处理，筛选出佛学领域词，以佛学领域词为关键词，搜索佛学相关网站得到问答数据，这样就可以采用简单的步骤获取到大量的所需问答数据，提高了查找的效率。

参照图2，本发明实施例中的佛学知识萃取方法的第二个实施例包括：

201，搜索专业的网站、百科和微博得到所述佛学相关网站；

在该步骤中的佛学相关网站是指佛学领域的专业性网站、网页等。

202，搜索所述佛学相关网站，得到佛学相关文章、资讯和问答的数据；

在该步骤中的佛学相关文章、资讯是指网站上刊登发表的文章、新闻报道、日常资讯等，问答数据是指针对佛学的相关问答数据。

203，将得到的所述数据进行去除网站标签、繁简体转换和去停用词的处理，得到清洗后的数据；

在该步骤中的停用词是指在信息检索中，为节省存储空间和提高搜索效率，在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词，这些字或词即被称为StopWords(停用词)。这些停用词都是预先设定、非自动化生成的，生成后的停用词会形成一个停用词表。

对于一个给定的目的，任何一类的词语都可以被选作停用词。通常意义上，停用词大致分为两类。一类是人类语言中包含的功能词，这些功能词极其普遍，与其他词相比，功能词没有什么实际含义，比如‘the’、‘is’、‘at’、‘which’、‘on’等。但是对于搜索引擎来说，当所要搜索的短语包含功能词，特别是像‘The Who’、‘The The’、或‘Take The’等复合名词时，停用词的使用就会导致问题。另一类词包括词汇词，比如‘want’等，这些词应用十分广泛，但是对这样的词搜索引擎无法保证能够给出真正相关的搜索结果，难以帮助缩小搜索范围，同时还会降低搜索的效率，所以通常会把这些词从问题中移去，从而提高搜索性能。

204，对所述清洗后的数据进行分词处理，得到分词后的数据；

在该步骤中的分词处理是指对获取的数据进行将连续的字序列按照一定的规范重新组合成词序列的处理过程。

205，使用TF-IDF算法对所述分词后的数据进行提取关键词处理，得到topN的词条；

206，使用MD5算法对所述词条进行去重处理，筛选出佛学领域词；

207，以所述佛学领域词为关键词，搜索佛学相关网站得到问答数据；

本发明实施例中，通过搜索专业的网站、百科和微博得到所述佛学相关网站，搜索所述佛学相关网站，得到佛学相关文章、资讯和问答的数据，将得到的所述数据进行去除网站标签、繁简体转换和去停用词的处理，得到清洗后的数据，对所述清洗后的数据进行分词处理，得到分词后的数据，使用TF-IDF算法对所述分词后的数据进行统计词频处理，获取topN的词条，使用MD5算法对所述词条进行去重处理，筛选出佛学领域词，以佛学领域词为关键词，搜索佛学相关网站得到问答数据，本发明实施例从专业的网站上搜索数据，提高了数据查找的专业性和实用性，避免了用户查找时需要自己去从中筛选属于佛学专业的数据。

参照图3，本发明实施例中的佛学知识萃取方法的第三个实施例包括：

301，获取佛学相关数据，并对所述佛学相关数据进行标准处理，得到清洗后的数据；

该步骤中的佛学相关数据是指涉及佛学领域的个人或组织经验、信息数据、概念以及原理原则的相关电子化数据。信息数据是指不需要进一步解释的事实特征，概念指类别、专有名词、术语以及各类的标签信息，原理原则指包含条件因子、结果以及两者关系的信息，包括规律、原则、法则。标准处理是指对获取的数据进行去除网站标签、繁简体转换和去停用词处理。

302，对所述清洗后的数据进行分词处理，得到分词后的数据；

303，计算所述分词后的数据的每个词的词频，得到词频；

TF(Term Frequency，缩写为TF)也就是词频，即一个词在文中出现的次数，统计出来就是词频TF。

词频的计算公式为：TF＝某个词在文中出现的次数/文中的总词数。

304，计算所述分词后的数据的每个词的逆文档频率，得到逆文档频率；

对文中的每个词分配一个“重要性”权重，这个权重叫做“逆文档频率”(InverseDocument Frequency，缩写为IDF)，它的大小与一个词的常见程度成反比。

需要一个语料库(corpus)，用来模拟语言的使用环境。逆文档频率的计算公式为：IDF＝log(语料库中的文档总数/包含改词的文档数+1),如果一个词越常见，那么分母就越大，逆文档频率就越小越接近0。分母之所以要加1，是为了避免分母为0(即所有文档都不包含该词)。log表示对得到的值取对数。

实际上，如果一个词条在一个类的文档中频繁出现，则说明该词条能够很好代表这个类的文本的特征，这样的词条应该给它们赋予较高的权重，并选来作为该类文本的特征词以区别与其它类文档。

305，对词频和逆文档频率进行加权计算并降序排列，得到topN的词条；

TF-IDF＝词频TF*逆文档频率IDF，某个词对文章的重要性越高，它的TF-IDF值越大,TF-IDF与一个词在文档中的出现次数成正比，与该词在整个语言中的出现次数成反比。自动提取关键词就是计算出文档的每个词的TF-IDF值，然后按降序排列，取排在最前面的几个词。

306，使用MD5算法对所述词条进行去重处理，筛选出佛学领域词；

307，以所述佛学领域词为关键词，搜索佛学相关网站得到问答数据；

在本发明实施例中，通过获取所述佛学相关数据，对所述佛学相关数据进行清洗、分词处理，计算所述分词后的数据的每个词的词频，得到词频，计算所述分词后的数据的每个词的逆文档频率，得到逆文档频率，对词频和逆文档频率进行加权计算并降序排列，得到topN的词条，使用MD5算法对所述词条进行去重处理，筛选出佛学领域词，以佛学领域词为关键词，搜索佛学相关网站得到问答数据，可简单快速的进行信息检索与数据挖掘处理，同时可以匹配到更为清晰的词条，便于筛选出更为精准的佛学领域词。

参照图4，本发明实施例中佛学知识萃取方法的第四个实施例包括：

401，获取佛学相关数据，并对所述佛学相关数据进行标准处理，得到清洗后的数据；

该步骤中的佛学相关数据是指涉及佛学领域的个人或组织经验、信息数据、概念以及原理原则的相关电子化数据。信息数据指不需要进一步解释的事实特征，概念指类别、专有名词、术语以及各类的标签信息，原理原则指包含条件因子、结果以及两者关系的信息，包括规律、原则、法则。标准处理是指对获取的数据进行去除网站标签，繁简体转换，去停用词处理。

402，对所述清洗后的数据进行分词处理，得到分词后的数据；

403，使用TF-IDF算法对所述分词后的数据进行提取关键词处理，得到topN的词条；

404，将获取到的词条进行按位填充处理，得到填充后的数据；

将词条的输入信息数据按位(bit)进行填充，要求最终的位数对512求模的结果为448。也就是说数据补位后，其位数长度只差64位(bit)就是512的整数倍。即便是这个数据的位数对512求模的结果正好是448也必须进行补位。补位的实现过程：首先在数据后补一个1bit，接着在后面补上一堆0bit，直到整个数据的位数对512求模的结果正好为448。总之，至少补1位，而最多可能补512位。

405，记录并存储所述词条的长度，得到补充数据；

用64位来存储填充词条前的信息长度。

406，将所述补充数据添加在所述填充后的数据之后，得到结果数据；

将64位存储的填充词前的信息长度加在填充后的数据的后面，这样信息长度就变为N*512+448+64＝(N+1)*512位，即将一个表示数据原始长度的64bit数(这是对原始数据没有补位前长度的描述，用二进制来表示)补在最后。当完成补位及补充数据的描述后，得到的结果数据长度正好是512的整数倍，也就是说长度正好是16个(32bit)字的整数倍。

407，将所述结果数据进行装入标准幻数处理，得到储存的数据段；

标准的幻数是(A＝(01234567)16，B＝(89ABCDEF)16，C＝(FEDCBA98)16，D＝(76543210)16)。如果在程序中定义应该是(A＝0X67452301L，B＝0XEFCDAB89L，C＝0X98BADCFEL，D＝0X10325476L)。

408，对所述数据段进行四轮循环运算处理和去重处理，得到佛学领域词；

定义4个非线性函数F、G、H、I，对输入的报文运算以512位数据段为单位进行处理。对每个数据段都要进行4轮的逻辑处理，在4轮中分别使用4个不同的函数F、G、H、I。每一轮以ABCD和当前的512位的块为输入，处理后送入ABCD(128位)，循环的次数是分组的个数(N+1)。

409，以所述佛学领域词为关键词，搜索佛学相关网站得到问答数据；

在本发明实施例中，通过使用MD5算法对词条进行处理，补位、填充数据并储存进行四轮循环运算处理和去重处理筛选得到佛学领域词，以佛学领域词为关键词，搜索佛学相关网站得到问答数据，该方法将数据运算变为另一固定长度值，确保了信息传输的完整性和一致性。

参照图5，本发明实施例中佛学知识萃取方法的第五个实施例包括：

501，获取佛学相关数据，并对所述佛学相关数据进行标准处理，得到清洗后的数据；

该步骤中的佛学相关数据是指涉及佛学领域的个人或组织经验、信息数据、概念以及原理原则的相关电子化数据。信息数据是指不需要进一步解释的事实特征，概念指类别、专有名词、术语以及各类的标签信息，原理原则指包含条件因子、结果以及两者关系的信息，包括规律、原则、法则。

标准处理是指对获取的数据进行去除网站标签，繁简体转换，去停用词处理。

502，对所述清洗后的数据进行分词处理，得到分词后的数据；

503，使用TF-IDF算法对所述分词后的数据进行提取关键词处理，得到topN的词条；

504，使用MD5算法对所述词条进行去重处理，筛选出佛学领域词；

505，以所述佛学领域词为关键词，搜索佛学相关网站得到问答数据。

506，取出部分所述问答数据，过滤，得到训练语料；

在该步骤中的过滤是指对问答数据进行清洗、分词、使用TF-IDF算法、获取topN的词条和去重的处理，筛选出有专业性的、有效的问答数据，训练语料是指经过过滤筛选后得到的问答数据。

507，调用知识萃取工具对所述训练语料中的所述问答数据进行学习，得到分类模型；

该步骤中的知识萃取工具是指根据佛学知识类型，应用与佛学知识类型相对应的知识萃取工具，对训练语料中的问答数据进行学习，得到可以对问答数据进行筛选的分类模型。具体地，知识萃取工具是一种基于训练学习方法获取分类规则的分类模型，它建立对象属性与对象值之间的一种映射，使用许多条规则来表述类别，其中类别规则通过计算机学习获得。知识萃取工具利用自然语言处理技术，让计算机具备文字阅读能力，自动挖掘数据的潜在规律，通过提炼知识的关联结构，构建内容之间的深度联系，通过对文字进行结构化的提取、分析和理解，从语义层面进行关联，精确理解文本含义，提供更智能的检索方式。

在Web文本应用领域普遍存在着层级形式，这种层级形式可以通过一颗决策树来描述，知识萃取工具通过构造决策树来对未标注文本进行分类判别，决策树的根节点表示整个数据集空间，每个子节点是依据单一属性做出的分支判定，该判定将数据集分成两个或两个以上的分支区域。决策树的叶子节点就是相应类别的数据集合。决策树分类模型的一般构建过程：

1.首先将训练数据分成两部分，一部分(训练集A)用于构建初始决策树，另一部分(训练集B)用来对决策树进行剪枝；

2.以训练集A作为树的根节点，找出变异量最大的属性变量作为高层分割标准；以训练集A作为树的根节点，找出变异量最大的属性变量作为高层分割标准；

3.通过对训练集A的学习训练构建一颗初始决策树；通过对训练集A的学习训练构建一颗初始决策树；

4.再通过训练集B对初始决策树进行剪枝操作；再通过训练集B对初始决策树进行剪枝操作；

5.一般还要通过递归的过程来构建一颗稳定的决策树，根据预测结果的正确率及未满足条件，则再对决策树进行分支或剪枝。

决策树的构建过程一般是自上而下的，剪枝的方法有多种，但是具有一致目标，即对目标文本集进行最优分割。

508，使用所述分类模型大规模的筛选所述问答数据，得到筛选后的问答数据；

在该步骤中，利用分类模型筛选问答数据是指分类模型根据训练语料学习到的类别规则来筛选符合类别规则的数据。

在本发明实施例中，通过取出部分问答数据，过滤，得到训练语料，调用知识萃取工具对所述训练语料中的问答数据进行学习，得到分类模型，使用所述分类模型大规模的筛选所述问答数据，得到筛选后的问答数据。本发明实施例利用分类模型对搜索的数据进行大规模的筛选，有效地选择所需的问答数据，提高了查找的效率，节省了查找的时间成本，同时避免了用户自己筛选海量数据。

参照图6，本发明实施例中佛学知识萃取方法的第六个实施例包括：

601，获取佛学相关数据，并对所述佛学相关数据进行标准处理，得到清洗后的数据；

602，对所述清洗后的数据进行分词处理，得到分词后的数据；

603，使用TF-IDF算法对所述分词后的数据进行提取关键词处理，得到topN的词条；

604，使用MD5算法对所述词条进行去重处理，筛选出佛学领域词；

605，以所述佛学领域词为关键词，搜索佛学相关网站得到问答数据；

606，将所述问答数据进行提取关键词处理和去重处理得到佛学领域词V1版；

对问答数据利用TF-IDF算法提取关键词，得到topN的词条，将得到的词条进行去重处理，筛选得到佛学领域词V1版。

607，将所述佛学领域词与所述佛学领域词V1版进行匹配去重处理，得到佛学领域词V2版；

将所述佛学领域词和所述佛学领域词V1版进行匹配相似度处理，筛选去重得到佛学领域词V2版。

608，以所述佛学领域词V2版为关键词，搜索佛学相关网站得到问答数据；

在该步骤中的佛学领域词V2版是指将佛学领域词和佛学领域词V1版进行匹配相似度处理之后，筛选去重得到的佛学领域词V2版，佛学相关网站是指佛学领域的专业性网站、网页，问答数据是指针对佛学的相关问答数据。

在本发明实施例中，通过佛学领域词与佛学领域词V1版进行相似度匹配，筛选得到佛学领域词V2版，以佛学领域词V2版为关键词搜索佛学相关网站得到问答数据，该方法通过二次筛选佛学领域词，扩大了佛学领域词的词库，使得筛选出的问答数据更为全面和详细，同时也增加了搜索出的问答数据的数量。

上面对本发明实施例中的佛学知识萃取方法进行了描述，下面对本发明实施例中的佛学知识萃取装置进行描述，请参照图7，本发明实施例中的佛学知识萃取装置的一个实施例包括：

清洗模块701，用于获取佛学相关数据，并对所述佛学相关数据进行标准处理，得到清洗后的数据；

分词模块702，用于对所述清洗后的数据进行分词处理，得到分词后的数据；

提取关键词模块703，用于使用TF-IDF算法对所述分词后的数据进行提取关键词处理，得到topN的词条；

去重模块704，用于使用MD5算法对所述词条进行去重处理，筛选出佛学领域词；

搜索模块705，用于以佛学领域词为关键词，搜索佛学相关网站得到问答数据。

在本发明实施例中，所述佛学知识萃取装置运行上述佛学知识萃取方法，该方法通过将搜索得到的海量数据利用系统进行清洗、分词、获取词条、筛选等处理，得到处理过可供用户选择的问答数据，这样方法对佛学知识的萃取无需通过用户自己去筛选有效的问答数据，也不需要佛学专业人士的指导，并且搜索速度也快，可以快速获取到有效的问答数据，大大提高了搜索和筛选效率，并且基于当前佛学知识的佛学领域词来进行搜索，其搜索得到的问答数据更加精准。

请参照图8，本发明实施例中的佛学知识萃取装置的另一个实施例包括：

在本实施例中，所述清洗模块701具体用于：

搜索专业的网站、百科和微博得到所述佛学相关网站；

在本实施例中，所述提取关键词模块703具体用于：

计算所述分词后的数据的每个词的词频，得到词频；

对词频和逆文档频率进行加权计算并降序排列，得到topN的词条。

在本实施例中，所述去重模块704包括：

填充单元7041，用于将获取到的词条进行按位填充处理，得到填充后的数据；

存储单元7042，用于记录并存储所述词条的长度，得到补充数据；

添加单元7043，用于将所述补充数据添加在所述填充后的数据之后，得到结果数据；

装载单元7044，用于将结果数据进行装入标准幻数处理，得到储存的数据段；

去重单元7045，用于对所述数据段进行四轮循环运算处理和去重处理，得到佛学领域词。

在本实施例中，所述搜索模块705具体还用于：

取出部分问答数据，过滤，得到训练语料；

调用知识萃取工具对所述训练语料中的问答数据进行学习，得到分类模型；

可选的，所述更新模块706具体用于:

将所述问答数据进行提取关键词和去重处理得到领域词V1版；

在本发明实施例中，通过对上述装置的实施，实现了无需专业人士指导、无需积累专业知识的方法获取大量的有效问答数据，节省了人工成本和搜索、筛选信息的成本，并且这种佛学萃取方法可以快速根据佛学领域词搜索筛选得到所需的问答数据，搜索速度快，并且这里的佛学知识萃取装置简单易用。

上面图7和图8从模块化功能实体的角度对本发明实施例中的佛学知识萃取装置进行详细描述，下面从硬件处理的角度对本发明实施例中佛学知识萃取设备进行详细描述。

图9是本发明实施例提供的一种佛学知识萃取设备的结构示意图，该佛学知识萃取设备900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central process ing units，CPU)910(例如，一个或一个以上处理器)和存储器920，一个或一个以上存储应用程序933或数据932的存储介质930(例如一个或一个以上海量存储设备)。其中，存储器920和存储介质930可以是短暂存储或持久存储。存储在存储介质930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对佛学知识萃取设备900中的一系列指令操作。更进一步地，处理器910可以设置为与存储介质930通信，在佛学知识萃取设备900上执行存储介质930中的一系列指令操作。

佛学知识萃取设备900还可以包括一个或一个以上电源940，一个或一个以上有线或无线网络接口950，一个或一个以上输入输出接口960，和/或，一个或一个以上操作系统931，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图9示出的佛学知识萃取设备结构并不构成对佛学知识萃取设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述佛学知识萃取方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种佛学知识萃取方法，其特征在于，所述佛学知识萃取方法包括：

对所述清洗后的数据进行分词处理，得到分词后的数据；

使用MD5算法对所述词条进行去重处理，筛选出佛学领域词；

2.根据权利要求1所述的佛学知识萃取方法，其特征在于，所述获取佛学相关数据，并对所述佛学相关数据进行标准处理，得到清洗后的数据，包括：

搜索专业的网站、百科和微博得到所述佛学相关网站；

3.根据权利要求1所述的佛学知识萃取方法，其特征在于，所述使用TF-IDF算法对所述分词后的数据进行提取关键词处理，得到topN的词条，包括：

计算所述分词后的数据的每个词的词频，得到词频；

4.根据权利要求1所述的佛学知识萃取方法，其特征在于，所述使用MD5算法对所述词条进行去重处理，筛选出佛学领域词，包括：

将获取到的词条进行按位填充处理，得到填充后的数据；

记录并存储所述词条的长度，得到补充数据；

5.根据权利要求1所述的佛学知识萃取方法，其特征在于，所述以佛学领域词为关键词，搜索佛学相关网站得到问答数据，包括：

取出部分所述问答数据，过滤，得到训练语料；

6.根据权利要求1所述的佛学知识萃取方法，其特征在于，在所述以佛学领域词为关键词，搜索佛学相关网站得到问答数据之后，还包括：

7.一种佛学知识萃取装置，其特征在于，所述佛学知识萃取装置包括：

8.根据权利要求7所述的佛学知识萃取装置，其特征在于，所述去重模块包括：

装载单元，用于将所述结果数据进行装入标准幻数处理，得到储存的数据段；

9.一种佛学知识萃取设备，其特征在于，所述佛学知识萃取设备包括：存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机可读指令，所述计算机可读指令被所述处理器执行时实现如权利要求1-6中任一项所述的佛学知识萃取方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现如权利要求1-6中任一项所述佛学知识萃取方法。