CN110633471A

CN110633471A - 一种基于PubMed数据库的英文分词处理系统及方法

Info

Publication number: CN110633471A
Application number: CN201910882780.XA
Authority: CN
Inventors: 马子睿; 海强; 何玉洁; 吴嘉敏
Original assignee: Ningxia University
Current assignee: Ningxia University
Priority date: 2019-09-18
Filing date: 2019-09-18
Publication date: 2019-12-31

Abstract

本发明属于数据挖掘技术领域，公开了一种基于PubMed数据库的英文分词处理系统及方法，利用现有的中英文分词技术对英文分词；基于分词结果的文本相似度计算；将每篇文章向量化，要实现文本向量化就要将原始文献做预处理，预处理中所用到的就是上面所述的英文分词方法；使用word2vec模型挖掘整个文献中词与词之间的关系，找出有利于的数据和其中的关联关系。系统包括：英文分词模块、文本相似度计算模块、数据和关联关系确定模块。本发明增加了数据的可读性，帮助研究人员快速筛选自己想要的文献，提高了文献的利用率；处理后的文献数据为医学研究提供良好的数据基础。

Description

一种基于PubMed数据库的英文分词处理系统及方法

技术领域

本发明属于数据挖掘技术领域，尤其涉及一种基于PubMed数据库的英文分词处理系统及方法。

背景技术

目前，最接近的现有技术：在这个数据和互联网已渗透到每个角落的时代里,分词作为数据挖掘技术的前期数据准备工作，在各个领域的利用愈来愈普遍。目前，网络上充斥着大量涉及各研究领域的英文文献，这些文献中包含了丰富的知识，对于科学研究有着及其重要的意义。但长文本的非结构化数据格式使得文献中的知识难以被直接利用，因此需要有效的数据抽取和挖掘分析方法实现知识的获取。分词是数据挖掘分析的前期工作，好的分词方法将为后续的研究工作提供良好的数据基础。相对于中文分词，英文语句中词与词之间存在着天然的空格，根据空格分词相对简单。但直接按照空格分词会带来很多问题：空格分词只是对单词的划分，面向领域的语句中包含很多由多个单词组成的词组、术语，需要设计方法实现词组的抽取；常用的停用词表和标点符号的处理无法满足应用领域的要求，需要针对领域专门设计。基于此，本论文设计实现了基于PubMed数据库的英文分词系统。

目前主流的中文分词算法有两类：基于词典匹配和基于字标注。其中，基于词典匹配的分词方法以词作为预测单位来判断局部字符串序列是否构成一个词。基于字标注的分词方法则是以单个字符作为基本处理单元，分词过程被表述为判断一个字符位于一个词语的开头、中间，还是结尾。但基于词典的匹配的方法预先需要建立大规模词典，词典的存储和查找都会带来额外的系统开销和负担。基于字标注的方法将分词问题看作为字符的分类问题，取得了较好的分词效果。但这种方法需要预先进行大量的训练得到分词模型，需要耗费大量的时间，且得到的模型太过复杂、难以理解。

目前简单的英文分词已经达到很高的准确率。研究者在英文分词处理和词性标注进行了深入研究，取得的研究成果尤为突出。特别是将深度学习技术应用在自然语言处理的研究中，在分词时更好地联系文本中的上下文信息，提出了skip-gram等分词模型，发布了开源工具word2vec，获得了广泛应用。

本文所处理的分词是面向医学知识领域的英文分词，由于来自PubMed的数据格式不规范，语义表述方式各异，因此无法仅用简单的英文分词方法进行分词，需要借助中文分词的思路，但避免了目前方法中存在的开销大、效率低等问题，并在此基础上实现了分词结果的相似度分析。

综上所述，现有技术存在的问题是：PubMed数据库现成为了从事医学研究的人员查找和获取医学文献的首选，但是获取后的医学文献存在很多格式和内容不规范的问题，再加上数据量的庞大，一方面大大降低了数据的可读性，另一方面为数据处理和和后期的数据分析带来了很大的阻碍。

解决上述技术问题的难度：

PubMed数据库核心主题为医学，但也包括医学相关护理学或者其他健康学科，其数据来源于各种医学文献，因此数据格式不统一，语义表述方式各异，且数据量庞大，在分词时需要结合已有的中英文分词方法，克服存在的数据不规范、预训练、系统开销大等问题，设计并实现高效准确的分词方法。

解决上述技术问题的意义：

医学文献中包含了丰富的医学知识，高效的英文分词方法可以帮助医学工作者和相关人员快速获取需要的知识，提高文献的利用率，为智能的自然语言处理分析奠定良好基础。

发明内容

针对现有技术存在的问题，本发明提供了一种基于PubMed数据库的英文分词处理系统及方法。

本发明是这样实现的，一种基于PubMed数据库的英文分词处理方法，所述基于PubMed数据库的英文分词处理方法包括以下步骤：

第一步，利用现有的中英文分词技术对英文分词；

第二步，基于分词结果的文本相似度计算；将每篇文章向量化，要实现文本向量化就要将原始文献做预处理，预处理中所用到的就是上面所述的英文分词方法；

第三步，使用word2vec模型挖掘整个文献中词与词之间的关系，找出有利于的数据和其中的关联关系。

进一步，所述第一步利用现有的中英文分词技术对英文分词具体包括：

(1)获取固定词组和专业知识，设计出词典和停用词并写入文件；

(2)在用户界面中获取用户添加的词典并与默认词典合并放入列表，在启动和关闭时都会自动更新词典；

(3)在用户界面中获取用户添加的停用词并与默认词典合并放入列表，系统在启动和关闭时都会自动更新停用词文件；

(4)用户点击开始分词按钮后，读入原始文件，去掉原始数据中的标点符号并读入停用词和词典；根据空格分词并统计词频，与此同时每处理一篇英文文献就将其结果写入Excel中；最后界面显示所有文献的高权重单词，用户通过全局的角度来分析整个英文文献；

(5)将分词结果以词云的方式展现并保存，每篇文献自动保存到Excel中，且整个英文文献的分词结果保存至文本文件中。

进一步，所述第二步基于分词结果的文本相似度计算包括：

(1)由于原始文献都在一个文本文件中，实现文本相似度的计算就要将每篇文献分割开来，选定目标文献与原始文献；使用python语言，将每篇文献自动分割到一个文本文件中，并且用文献的作者来命名；

(2)使用者自动导入目标文献与数据集，并以可视化的方式展示；

(3)利用上面的分词方法，将目标文献与所有文献分词，将结果写入临时列表；

(4)使用TF-IDF技术从临时列表中分别读入目标文献与所有文献分词结果并计算词向量的值，释放列表内存，并将词向量的值写入文本文件与临时列表与后面的计算作对比；

(5)使用余弦相似度公式循环计算目标文献与每篇文献的余弦值，计算过程中使用三个数组实现，第一个数组放入目标文献与待计算文献的所有关键字，第二个数组放入目标文献的词频向量，第三个数组放入待计算文献的词频向量，如此循环，直至计算完所有目标文献与待计算文献的余弦值，余弦值越接近1，说明两篇文献越相似。

进一步，所述第三步使用word2vec模型挖掘整个文献中词与词之间的关系，找出有利于的数据和其中的关联关系包括：

将数据做处理，其中包括分词、词的向量化、训练数据，计算文本相似度中所用的词向量是一维的；用word2vec中自带的词向量工具生成的n维向量空间；

在训练前，根据数据量的大小和环境的限制对训练的参数进行调整，将word2vec中的参数sg设置为1，表示使用skip-gram模型训练；参数min_count，用来控制词频小于预设值则剔除该词，根据数据量的大小将其默认为3，当数据变化时，做出改变；参数windows，表示当前词与预测词在一个句子中的最大距离是多少，默认为5；参数workers，控制训练的并行数，根据个人的计算机性能，将其设置为4；

然后开始训练，得到训练结果就可以通过输入测试数据进行测试，当结果与实际偏差较大时，通过更改参数再训练，直至得到满意的结果。

本发明的另一目的在于提供一种运行所述基于PubMed数据库的英文分词处理方法的基于PubMed数据库的英文分词处理系统，所述基于PubMed数据库的英文分词处理系统包括：

英文分词模块，用于利用现有的中英文分词技术对英文分词；

文本相似度计算模块，用于基于分词结果的文本相似度计算；

数据和关联关系确定模块，用于使用word2vec模型挖掘整个文献中词与词之间的关系，找出有利于的数据和其中的关联关系。

本发明的另一目的在于提供一种实现所述基于PubMed数据库的英文分词处理方法的计算机程序。

本发明的另一目的在于提供一种实现所述基于PubMed数据库的英文分词处理方法的信息数据处理终端。

本发明的另一目的在于提供一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行所述的基于PubMed数据库的英文分词处理方法。

综上所述，本发明的优点及积极效果为：本发明致力于解决上述问题，在借鉴研究了相关的中文分词方法和对现有的PubMed上关于医学文献数据分析的基础上，设计并实现了基于特定数据的英文分词系统。在当今社会，自动问答系统、搜索引擎、自动检索等范畴都需要分词技术。高效准确的分词结果对系统产生的最终结果具有很重要的意义。以自动问答系统为例，需要对输入的中英文语句先进行分词工作，只有进行准确、有效分词，机器人对输入语句的辨别才能更加高效，才能更加实时地回答问题。

医学文献是医学研究的重要部分，医生通过查找文献来获取有用的信息。但是医学文献阅读起来也很烦琐，而医学文献英文分词系统可以提取医学文献里重要的部分和关键字，并以可视化的方式展现给医生，这样就可以很好的帮助医生来阅读和筛选医学文献，并且医生可以快速的得到自己想要的东西，大大的提高了医生阅读文献的效率。

本发明通过爬虫获取到的大量文献存在格式不规范等问题，通过自然语言处理的方法将数据表示为医学研究人员想要的格式，一方面增加了数据的可读性，帮助研究人员快速筛选自己想要的文献，提高了文献的利用率；另一方面，处理后的文献数据为医学研究提供良好的数据基础，可使科研人员通过数据分析和处理的方法得到数据之间的关联关系，从中挖掘出更具有价值的东西。比如：从肺癌数据中可以得到肺癌的多发病人群、导致肺癌的外部因素和内部基因、已经治疗肺癌的方法等，对我国预防和治疗肺癌相关的疾病有很大的帮助。

附图说明

图1是本发明实施例提供的基于PubMed数据库的英文分词处理方法的流程图。

图2是本发明实施例提供的基于PubMed数据库的英文分词处理系统的结构示意图；

图中：1、英文分词模块；2、文本相似度计算模块；3、数据和关联关系确定模块。

图3是本发明实施例提供的原始数据示意图。

图4是本发明实施例提供的分词结果示意图。

图5是本发明实施例提供的相似度计算结果示意图。

图6是本发明实施例提供的与目标文献作者相似度大于0.5的数据集文献示意图。

图7是本发明实施例提供的预测不合群的词示意图。

图8是本发明实施例提供的词云展示效果图。

图9是本发明实施例提供的分词系统界面示意图。

图10是本发明实施例提供的文本相似度图表示意图。

图11是本发明实施例提供的词频统计结果示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种基于PubMed数据库的英文分词处理系统及方法，下面结合附图对本发明作详细的描述。

如图1所示，本发明实施例提供的基于PubMed数据库的英文分词处理方法包括以下步骤：

S101：利用现有的中英文分词技术对英文分词；

S102：基于分词结果的文本相似度计算；

S103：使用word2vec模型挖掘整个文献中词与词之间的关系，找出有利于的数据和其中的关联关系。

如图2所示，本发明实施例提供的基于PubMed数据库的英文分词处理系统包括：

英文分词模块1，用于利用现有的中英文分词技术对英文分词。

文本相似度计算模块2，用于基于分词结果的文本相似度计算。

数据和关联关系确定模块3，用于使用word2vec模型挖掘整个文献中词与词之间的关系，找出有利于的数据和其中的关联关系。

下面结合附图对本发明的技术方案作进一步的描述。

本发明实施例提供的基于PubMed数据库的英文分词处理方法具体包括以下步骤：

第一步，英文分词设计，利用现有的中英文分词技术对英文分词进行了设计，具体设计步骤如下：

(1)词典和停用词的设计：获取有关肺癌的固定词组和医学专业知识，设计出词典和停用词并将其写入文件。

(2)添加词典：在用户界面中获取用户添加的词典并与默认词典合并放入列表，这样，系统在启动和关闭时都会自动更新词典，以便另一个用户使用。

(3)添加停用词：在用户界面中获取用户添加的停用词并与默认词典合并放入列表，系统在启动和关闭时都会自动更新停用词文件，以便下一个用户使用。

(4)开始分词：用户点击开始分词按钮后，系统首先读入原始文件，然后去掉原始数据中的标点符号并读入停用词和词典，下一步根据空格分词并统计词频，与此同时每处理一篇英文文献就将其结果写入Excel中。写入的结果包括上面提到的五个关键字及其内容和每篇文献的高权重的单词，这样不仅方便使用者阅读和查找文献，而且方便后期的数据分析。最后界面显示所有文献的高权重单词，这样用户就可以通过全局的角度来分析整个英文文献。

(5)分词结果展示及保存：将上述的分词结果以词云的方式展现出来并可以保存。每篇文献可以自动保存到Excel中，且整个英文文献的分词结果可以保存至文本文件中。

分词结果展示：原始数据如图3所示：这是存入一个文本文件中的所有肺癌数据，每篇文章包括：Pmid(ID)、Title(题目)、Authors(作者)、Keywords(关键词)、Abstract(摘要)这五部分。

分词结果如图4所示：

在此excel文件中包含所有文献的分词结果，其中每篇英文文献中包含Pmid、Title、Authors、Keywords和Source这五个关键字，在关键字的右边是每篇文献的高权重单词和对应词的词频。

第二步，基于分词结果的文本相似度计算设计

要实现文本相似度的计算，首先就要将每篇文章向量化，要实现文本向量化就要将原始文献做预处理，预处理中所用到的就是上面所述的英文分词方法。

文本相似度计算步骤如下：

(1)由于原始文献都在一个文本文件中，要实现文本相似度的计算就要将每篇文献分割开来，这样才能选定目标文献与原始文献。这里，使用python语言，将每篇文献自动分割到一个文本文件中，并且用文献的作者来命名，这样就可以方便后面目标文献的选择。

(2)使用者可以自动导入目标文献与数据集，并以可视化的方式展示。

(3)利用上面的分词方法，将目标文献与所有文献分词，将结果写入临时列表。

(4)使用TF-IDF技术从临时列表中分别读入目标文献与所有文献分词结果并计算词向量的值，释放列表内存，并将词向量的值写入文本文件与临时列表中方便与后面的计算作对比。

相似度计算结果如图5所示：计算结果以相似度的值从高到低排序，结果展示与目标文献相似度前十篇文献，每个结果包括文章在整个数据集中的位置、与文献相似度的值和相似文章权重前三的单词和权重。在文本相似度排名的基础上筛选出了与目标文献相似度大于0.5的文献并得出相应的结论，结论中除了展示与待测文献的相似度排名和相似度值外，还预测了待测文献的作者的兴趣爱好和研究方向，其中兴趣爱好和研究方向的词为与目标文献相似度高的文献中的高权重单词，如下图所示。若不存在与待测文献相似度大于0.5的文献则可以认为测试无意义，就可以考虑更换待测文献或数据集。

图6中，展示了与目标文献作者相似度大于0.5的数据集文献，基于此，使用数据集文献中高权重的单词来推测目标文献作者的兴趣爱好或研究方向。最后一行依据相似度的高低来推测与目标文献作者可能相互合作的作者。

第三步，Word2vec模型设计

使用word2vec模型的目的是挖掘整个文献中词与词之间的关系，从而找出一些有利于研究lung cancer的数据和其中的一些关联关系。也需要将数据做处理，其中包括分词、词的向量化、训练数据等，计算文本相似度中所用的词向量是一维的，而这里是用word2vec中自带的词向量工具生成的n维向量空间。在训练前，需要根据数据量的大小和环境的限制对训练的参数进行调整，首先，由于所用语言是python，则将word2vec中的参数sg设置为1，表示使用skip-gram模型训练；其次是参数min_count，用来控制词频小于预设值则剔除该词，根据数据量的大小将其默认为3，当数据变化时，可灵活做出改变；然后是参数windows，表示当前词与预测词在一个句子中的最大距离是多少，默认为5；最后是参数workers，用来控制训练的并行数，根据个人的计算机性能，将其设置为4。然后开始训练，得到训练结果就可以通过输入测试数据进行测试，当结果与实际偏差较大时，可以通过更改参数再训练，直至得到满意的结果。Word2vec模型训练后的结果一共有四种用法，分别是预测单词与单词之间的相似度、与单词相关的词表、单词与句子的对应关系和找出句子中不合群的单词。这里用单词lung和cancer预测之间的相似度、输入cells预测相关词列表、使用global cancer death预测不合群的词，如图7所示：共有预测四个结果，分别是预测单词lung和cancer的相似度、预测单词cells相似的词列表、预测词组lung cancer与death对应关系的词列表、预测句子global cancer death中不合群的单词并分别给出了单词对应的词向量。

本发明相对于中文分词，英文分词相对简单。但面向专业领域的文献数据，英文分词需要针对性的设计。都知道，英文分词中在分词前要做一些工作，通常包括：根据空格拆分单词、删除停用词、最后提取词干，而对于一些特定的数据，以肺癌的数据来举例，需要考虑的问题有很多，例如：以空格分词会不会影响数据本身；设置停用词时存在主观意识，从而将有用的词去掉等。分词方法多种多样，不同的分词方法得到的结果各有千秋，所以，针对于lung cancer的数据，在了解了它的一些专业知识后，在传统的英文分词的基础上设计出一个针对于特定数据的英文分词方法。这种方法包含的基本步骤是：首先在专业知识和用户需求的基础之上，系统预设好词典列表和停用词文件并放入后台中，在系统启动时自动导入。然后，由于关于lung cancer的原始数据在一个大的文本文件中，里面有大量的文献，且每篇文献包括ID、作者、题目、来源、摘要这五个部分，故需要将每一篇文献分割开来，不仅有利于使用者观察，而且方便后期的数据再处理。最后，根据需求和肺癌的有关知识，将摘要确定为最后的分词结果，而忽略其它几个关键字。在传统分词方法的基础上，利用深度学习中特征提取的方法对目标进行分词，得出的结果才会更加贴切现实。

应当注意，本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合例如固件来实现。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于PubMed数据库的英文分词处理方法，其特征在于，所述基于PubMed数据库的英文分词处理方法包括以下步骤：

第一步，利用现有的中英文分词技术对英文分词；

2.如权利要求1所述的基于PubMed数据库的英文分词处理方法，其特征在于，所述第一步利用现有的中英文分词技术对英文分词具体包括：

3.如权利要求1所述的基于PubMed数据库的英文分词处理方法，其特征在于，所述第二步基于分词结果的文本相似度计算包括：

4.如权利要求1所述的基于PubMed数据库的英文分词处理方法，其特征在于，所述第三步使用word2vec模型挖掘整个文献中词与词之间的关系，找出有利于的数据和其中的关联关系包括：

5.一种运行权利要求1所述基于PubMed数据库的英文分词处理方法的基于PubMed数据库的英文分词处理系统，其特征在于，所述基于PubMed数据库的英文分词处理系统包括：

6.一种实现权利要求1～4任意一项所述基于PubMed数据库的英文分词处理方法的计算机程序。

7.一种实现权利要求1～4任意一项所述基于PubMed数据库的英文分词处理方法的信息数据处理终端。

8.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1-4任意一项所述的基于PubMed数据库的英文分词处理方法。