CN110309395A

CN110309395A - 一种基于数据获取技术的专业字典构建方法

Info

Publication number: CN110309395A
Application number: CN201910602576.8A
Authority: CN
Inventors: 彭晶; 吴盛; 段雨廷; 李�昊; 王科; 谭向宇; 邓云坤; 马仪; 陈宇民; 耿英三; 王建华; 刘志远; 闫静
Original assignee: Electric Power Research Institute of Yunnan Power System Ltd
Current assignee: Electric Power Research Institute of Yunnan Power System Ltd
Priority date: 2019-07-05
Filing date: 2019-07-05
Publication date: 2019-10-08

Abstract

本发明公开了一种基于数据获取技术的专业字典构建方法，首先获取查找关键词，根据关键词构建访问链接后对访问链接进行访问，访问的页面与所述待查找关键词相对应，搜索访问页面中与专业词汇相关联的页面内容信息，判断搜索的页面内容信息是否存在与专业词汇相关联的页面内容信息，如果存在则判断该页面与专业词汇相关联，则待查找关键词与专业词汇相关联，将待查找关键词和搜索的页面内容信息合并后组成一个词条，多个词条即生成所述专业词汇的专业字典。本方法构建的专业字典具有高度专业化的词汇，能够根据构建的专业字典在查找缺陷时准确的进行分词操作，显著提高效率和准确度。

Description

一种基于数据获取技术的专业字典构建方法

技术领域

本发明涉及文字识别技术领域，特别涉及一种基于数据获取技术的专业字典构建方法。

背景技术

电网单位在整理台账缺陷数据时，需要找出台账记录中所包含的家族缺陷。人工查找缺陷费时费力，现有技术通过使用自然语言处理技术来自动化地、精确地识别台账记录中的缺陷字段，而这其中涉及到分词技术。所述“字典”一词不是寻常所见之字典，而是在自然语言处理领域中的一种特殊词语集合。利用词典，分词操作中就可利用先验知识对文本段落进行更为准确的词语切割，获得更好的分词结果。分词，常见与中文的文本处理中，其目的在于将长句分割为以词为单位的语句块，便于计算机理解复杂的中文语言。而由于电网单位的台帐文本信息中或含有较多的专业词汇，此时常见的分词字典以及中文分词领域常用工具jieba词库自带的字典就不能很好地进行分词操作，所得结果往往词不达意或者无法返回正确的分词结果。标准字典中不具有高度专业化的词汇，比如电网单位中的一些专有名词，需要另行构建一个专业字典来支持缺陷描述文本数据的处理。

发明内容

本发明的目的旨在克服现有技术存在的不足，提供了一种基于数据获取技术的专业字典构建方法，构建的专业字典具有高度专业化的词汇，能够根据构建的专业字典在查找缺陷时准确的进行分词操作，显著提高效率和准确度。

为了解决上述技术问题本发明提供一种基于数据获取技术的专业字典构建方法，所述方法包括：

获取待查找关键词；

根据所述待查找关键词构造访问链接；

根据所述访问链接访问与所述待查找关键词对应的页面；

判断所述页面中是否存在与专业词汇相关联的页面内容信息；

如果所述页面中存在与所述专业词汇相关联的页面内容信息，获取所述页面中与专业词汇相关联的页面内容信息；

根据所述页面内容信息和所述待查找关键词生成专业字典。

优选的，所述获取待查找关键词包括：

获取字库中的常用字；

将所述字库中的常用字作为所述待查找关键词。优选的，所述爬虫技术为多线程爬虫技术。

优选的，所述字库包含多个单个字符的。

优选的，所述访问链接为包括数字字符、符号字符、汉字字符以及英文字符的字符串。

优选的，更换所述访问连接中的数字字符、符号字符、汉字字符以及英文字符中的任意字符，得到新的所述访问链接；

根据所述新的所述访问链接访问与所述待查找关键词对应的页面。

优选的，所述获取所述页面中与专业词汇相关联的页面内容信息包括：

将所述页面经由JSON格式解析，得到树状结构数据表；

遍历所述树状结构数据表，获取与所述专业词汇相关联的页面内容信息。

优选的，所述待查找关键词包括多个汉字字符；

更换所述待查找关键词中的单个或多个汉字字符，得到新的所述待查找关键词；

根据所述新的所述待查找关键词构造访问链接。

优选的，所述获取待查找关键词之前还包括：

根据所述专业词汇筛选所述待查找关键词。

本申请实施例提供的技术方案的有益效果：所述方法包括：获取待查找关键词，根据所述待查找关键词构造访问链接，根据所述访问链接访问与所述待查找关键词对应的页面，判断所述页面中是否存在与专业词汇相关联的页面内容信息，如果所述页面中存在与所述专业词汇相关联的页面内容信息，获取所述页面中与专业词汇相关联的页面内容信息，根据所述页面内容信息和所述待查找关键词生成专业字典。首先获取查找关键词，根据关键词构建访问链接后对访问链接进行访问，访问的页面与所述待查找关键词相对应，搜索访问页面中与专业词汇相关联的页面内容信息，判断搜索的页面内容信息是否存在与专业词汇相关联的页面内容信息，如果存在则判断该页面与专业词汇相关联，则待查找关键词与专业词汇相关联，将待查找关键词和搜索的页面内容信息合并后组成一个词条，多个词条即生成所述专业词汇的专业字典。本方法构建的专业字典具有高度专业化的词汇，能够根据构建的专业字典在查找缺陷时准确的进行分词操作，显著提高效率和准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的基于数据获取技术的专业字典构建方法的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

具有数据获取功能的程序是一种按照人为既定的规则，自动地获取网络中有关信息的程序。其主要工作流程为从一个或者很多个初始的链接开始，根据一定的搜索策略，不断生成下一个或者下一批所需要访问的链接进行访问。并且在访问时获得访问页面的内容进行过滤、提取等操作以获取所需内容。具有数据获取功能的程序目前在很多领域有着广泛的应用，如互联网经融、搜索引擎等。由于获取对象以及需要获取的信息不同，具有数据获取功能的程序需要被设计成不同的样式，需要不同的架构。

请参阅图1，为本申请实施例提供的基于数据获取技术的专业字典构建方法的流程示意图。所述方法包括：

步骤S101：获取待查找关键词。

其中，所述获取待查找关键词包括：获取字库中的常用字，将所述字库中的常用字作为所述待查找关键词。所述字库可以包含多个单个字符。比如本申请的预先准备一个包含一系列单个字符的查询字典作为页面解析模块构建链接时的关键字获取源。可以采用新华字典中的所有常用字作为关键字保存在本地的文件中作为链接构建时查找的查询字典即字库。另外，为了提高搜索效率可以在获取待查找关键词之前根据所述专业词汇初步筛选所述待查找关键词。筛选过程可以是人为筛选也可以通过计算机程序实现。

步骤S102：根据所述待查找关键词构造访问链接。

步骤S103：根据所述访问链接访问与所述待查找关键词对应的页面。

构建链接，是具有数据获取功能的程序访问每一个页面前所需要做的操作。由于待访问页面链接具有规律和规范，因此可以根据页面链接构建的既定规则构建访问链接获得页面。所述访问链接可以为包括数字字符、符号字符、汉字字符以及英文字符的字符串。也可以在一开始以初始页面进行搜索，比如以术语在线(http://www.termonline.cn/index.htm)作为词汇查询的基本页面，在上一个所述待查找关键词完成查找之后，更改上一个访问链接中的数字字符、符号字符、汉字字符以及英文字符中的任意字符，得到新的所述访问链接。比如访问的网站“术语在线”中的所有页面链接构成中有一项名为“Key”的关键词，可以通过改变这一关键字，实现根据不同字符进行搜索这一操作。

再根据所述新的所述访问链接访问页面。所述待查找关键词包括多个汉字字符；更换所述待查找关键词中的单个或多个汉字字符，得到新的所述待查找关键词；根据所述新的所述待查找关键词构造访问链接。也可以是更改所述待查找关键词中的单个或多个汉字字符，由于访问链接和待查找关键词是相关联的，更改待查找关键词后自动更新了访问链接，程序再根据新的访问链接访问页面。

步骤S104：判断所述页面中是否存在与专业词汇相关联的页面内容信息。具体的，所述获取所述页面中与专业词汇相关联的页面内容信息包括：将所述页面经由JSON格式解析，得到树状结构数据表；遍历所述树状结构数据表，获取与所述专业词汇相关联的页面内容信息。步骤S105：如果所述页面中存在与所述专业词汇相关联的页面内容信息，获取所述页面中与专业词汇相关联的页面内容信息；如果所述页面中不存在与所述专业词汇相关联的页面内容信息，则可以判断所述待查找的关键词不属于专业词汇类别下的关键词，可以将该待查找的关键词舍弃，这样能够实现最后生成的专业字典的高度专业化。

步骤S106：根据所述页面内容信息和所述待查找关键词生成专业字典。经过数次的步骤S101至步骤S105能够得到多个与专业词汇相关联的所述待查找关键词和相关的所述页面内容信息，将多个所述待查找关键词和相关的所述页面内容信息分别合并最后都保存在专业字典中，最后形成高度专业化的专业字典。

比如将“电气工程”作为专业词汇，电气工程，在“术语在线”网站中，与电网单位有关的一类术语学科分类。待查找关键词为“半导体”，根据“半导体”构造访问链接，也可以将术语在线这个网站作为基本页面，在术语在线这个网站基础上构造“半导体”的访问链接，根据构造的访问链接访问与“半导体”对应的页面。获取页面的页面内容信息，判断所述页面内容信息是否包含与“电气工程”相关联的页面内容信息，由于“半导体”与“电气工程”相关联，其页面内容信息必然与“电气工程”相关联，因此可以判断存在与所述专业词汇相关联的页面内容信息。之后获取该页面中的页面内容信息，由于网站页面有可能包含其他不相关联的信息，因此可以在获取之前将页面内容信息进行过滤，最后得到高度专业化的内容信息，将最终的页面内容信息和“半导体”合并为词条进行保存。之后形成的其他词条比如“变压器”、“空气开关”等等，将所有与“电气工程”相关联的词条合并保存，生成“电气工程”领域的专业字典。

相应地，本申请还可以包括一种自动化获取专业主语的具有数据获取功能的程序。该程序包括如下模块：IP代理处理模块、页面解析模块、存取模块、过滤模块。IP代理处理模块负责解决由于触犯目标网站服务器所设置的访问频率等限制而引起的由于IP封禁不能继续访问的问题；页面解析模块负责解析提取页面内容，生成访问链接；存取模块负责从本地提取关键字输送到页面解析模块中生成访问链接，将得到内容进行存取操作；过滤模块负责清理无效IP地址，字典去重。所述IP代理处理模块通过调用外部API获取可靠有用的IP地址。以此在当前所用IP被目标服务器封禁而导致程序不能继续运行时能够更换IP以达到继续运行程序的目的。所述页面解析模块可以自动生成所需要访问的链接进行访问并且获得“电气工程专业词汇”页面进行处理，过滤掉空页面进行内容提取。返回的网页内容信息主要是以JSON格式进行组织，通过解析JSON格式数据即可遍历获取单个获取页面的所需信息。所述存取模块会从本地已经保存筛选好的关键字词典中提取关键字输送给页面解析模块以构成访问链接，同时，页面解析模块所获取的内容通过存取模块保存到本地。所述过滤模块可以在页面解析模块执行访问操作中记录下已失效IP地址，在IP代理模块获得IP时自动识别并且过滤已经无效的IP。过滤模块包含一个周期值，在一个周期结束时对已经获取到的字典内容进行一次去重操作，清洗重复条目。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种基于数据获取技术的专业字典构建方法，其特征在于，所述方法包括：

获取待查找关键词；

根据所述待查找关键词构造访问链接；

根据所述访问链接访问与所述待查找关键词对应的页面；

根据所述页面内容信息和所述待查找关键词生成专业字典。

2.如权利要求1所述的基于数据获取技术的专业字典构建方法，其特征在于，所述获取待查找关键词包括：

获取字库中的常用字；

将所述字库中的常用字作为所述待查找关键词。

3.如权利要求2所述的基于数据获取技术的专业字典构建方法，其特征在于，所述字库包含多个单个字符。

4.如权利要求1所述的基于数据获取技术的专业字典构建方法，其特征在于，所述访问链接为包括数字字符、符号字符、汉字字符以及英文字符的字符串。

5.如权利要求4所述的基于数据获取技术的专业字典构建方法，其特征在于，更换所述访问连接中的数字字符、符号字符、汉字字符以及英文字符中的任意字符，得到新的所述访问链接；

6.如权利要求1所述的基于数据获取技术的专业字典构建方法，其特征在于，所述获取所述页面中与专业词汇相关联的页面内容信息包括：

将所述页面经由JSON格式解析，得到树状结构数据表；

7.如权利要求1所述的基于数据获取技术的专业字典构建方法，其特征在于，所述待查找关键词包括多个汉字字符；

根据所述新的所述待查找关键词构造访问链接。

8.如权利要求1所述的基于数据获取技术的专业字典构建方法，其特征在于，所述获取待查找关键词之前还包括：

根据所述专业词汇初步筛选所述待查找关键词。