CN113988073A

CN113988073A - 适用于生命科学的文本识别方法和系统

Info

Publication number: CN113988073A
Application number: CN202111247514.3A
Authority: CN
Inventors: 谢伟
Original assignee: Dipbio Biotechnology Shanghai Co ltd
Current assignee: Dipbio Biotechnology Shanghai Co ltd
Priority date: 2021-10-26
Filing date: 2021-10-26
Publication date: 2022-01-28

Abstract

本发明提供了一种适用于生命科学的文本识别方法和系统，包括：步骤1：在生命科学文献数据库中，使用BERT预训练法对所有文献进行语义化训练，得到一个生命科学领域的文献预训练模型，使用预训练模型在文献中识别出关于生命科学的段落；步骤2：对识别出的段落进行预处理，得到待识别文本；步骤3：通过Word2vec模型，对待识别文本中的每个词进行向量表示；步骤4：对得到的词向量以句为单位进行加权平均和主成分分析，得到对应目标向量；步骤5：对目标向量化后的文本，通过余弦相似度进行比对，得到符合预设要求的文本。本发明解决了通过人工识别实验方法中所存在的查找困难、工作量大、成本高、效率低的问题。

Description

适用于生命科学的文本识别方法和系统

技术领域

本发明涉及文本识别技术领域，具体地，涉及一种适用于生命科学的文本识别方法和系统。

背景技术

在生命科学领域，绝大多数的有用信息是以文本的形式存在于专著、文献、会议期刊等杂志中，如何有效的将其中的有用信息抽取出来，转化为科研工作者在基础研究中的实际应用是具有重大价值和意义的。

然而，实际情况确是，生物体的多样性和复杂性决定了生命科学具有高度的专业性。实验方法存在于海量的文本信息中，且生物的实验方法中大量的专业词汇和专业术语使常规识别技术在生命科学领域无法有效发挥作用。

实验方法通常由多个专业词汇和普通词汇组成，且普通词汇在实验方法中的含义与本身的含义大相径庭，同时，生命科学对于实验技术没有标准的命名，科研工作者在文献中所描述的实验方法通常基于自己的习惯叫法进行简写或者缩写，导致文献中出现的实验方法之间有巨大的差异。这更加增大了实验方法的识别难度。

现有的实验方法识别是简单的基于自定义的标准实验方法的表格进行简单的文本匹配，然而，现有的技术是无法穷尽所有的实验方法实体，因此，自定义的标准表存在其固有的局限性和片面性，正确率不超过20％。

生命科学类文献是生物及医药研究者和工作者重要的信息来源。但面对爆发式增长的文献数量，相关人员已无法通过传统的阅读方式来获取生命科学领域中最新的发展状况，更无法对专注领域做出全方位的评价。上述问题已严重影响到了生命科学各领域的研究和研发进程，也大幅增加了相关的风险。

实验方法识别是生命科学领域中各类实体识别的一种。研究人员可以通过该类识别系统快速了解到某类实验方法出现在什么研究课题中，出现的频率如何。也可以通过自身的研究课题掌握到之前的相关研究都使用过什么实验方法等。这些都对加快研究进度，避免重复工作，拓展研究范围和降低研究风险起着非常重要的作用。

专利文献CN111639178A(申请号：CN202010129780.5)公开了一种用于自动分类和解释诸如支持临床试验的生命科学文档之类的文档的计算机实现的工具，所述工具被配置为执行原始文本分析、文档构造分析和图像分析的组合，以通过实现对文档内容的更全面的基于机器的理解来提高分类的准确性。

但目前的实验方法识别仍停留在关键词匹配或实体链接(Entity Linking)SciSpacy等简单的方式中。面对多种多样的方法名和表述方式，这类通过关键词定义和穷举的方式，显然不能满足实验方法识别的需要。在生命科学领域中，目前也有通过词向量或预训练模型的训练BioBert来对生命科学实体进行无差别识别的。但这类通用模型往往对要处理分析的语料和相关应用缺乏针对性，从而导致识别率低下，因此无法应用于实际场景中。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种适用于生命科学的文本识别方法和系统。

根据本发明提供的适用于生命科学的文本识别方法，包括：

步骤1：在生命科学文献数据库中，使用BERT预训练法对所有文献进行语义化训练，得到一个生命科学领域的文献预训练模型，使用预训练模型在文献中识别出关于生命科学的段落；

步骤2：对识别出的段落进行预处理，得到待识别文本；

步骤3：通过Word2vec模型，对待识别文本中的每个词进行向量表示；

步骤4：对得到的词向量以句为单位进行加权平均和主成分分析，得到对应目标向量；

步骤5：对目标向量化后的文本，通过余弦相似度进行比对，得到符合预设要求的文本。

优选的，将文献数据库中已标识的生命科学内容段落作为训练集，对预训练模型进行文本分类微调，并通过微调后的模型对未标识的生命科学内容进行段落识别。

优选的，通过自然语言处理工具包NLTK和生命科学词表，对识别出的段落进行分句、分词和去停用词，并对分词结果进行聚合、去重和表述统一的替换。

优选的，将预处理后的文本以句为单位输入预设词向量模型，得到文本内所有词的相关词向量，再通过对每一维的词向量进行特征中心化、计算协方差矩阵特征值和特征向量，得到降维后的相应词向量，而后通过计算句中已降维词向量的平均值，得到相应的句向量。

优选的，通过余弦相似度比对已知文本名称和相关段落文本中的句子，得到相似度最高的文本，并通过设置阈值的方式过滤不符合预设要求的文本。

根据本发明提供的适用于生命科学的文本识别系统，包括：

模块M1：在生命科学文献数据库中，使用BERT预训练法对所有文献进行语义化训练，得到一个生命科学领域的文献预训练模型，使用预训练模型在文献中识别出关于生命科学的段落；

模块M2：对识别出的段落进行预处理，得到待识别文本；

模块M3：通过Word2vec模型，对待识别文本中的每个词进行向量表示；

模块M4：对得到的词向量以句为单位进行加权平均和主成分分析，得到对应目标向量；

模块M5：对目标向量化后的文本，通过余弦相似度进行比对，得到符合预设要求的文本。

与现有技术相比，本发明具有如下的有益效果：

本发明通过采用一系列自监督训练，及自动化数据清洗的方法，解决了通过人工识别实验方法中所存在的查找困难、工作量大、成本高、效率低的问题；也解决了目前文献内容识别中，需要大量人工标注，且识别速度慢的问题，达到了快速且准确的匹配效果。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明方法流程图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

实施例：

本发明首先通过生物专业团队对专业的文本进行标注，随后使用自然语言处理的方式对已标注的生命科学实验方法进行深度学习，上下文语义的理解，训练出自监督模型及自动化数据清洗的方法，解决了常规技术无法应用于生命科学专业的困境，也解决了传统模式人工查找困难、工作量大、成本高、效率低的问题。本发明可以快速、精准的对文本中的实验技术进行识别，准确率可达到95％。

如图1，识别步骤为：

步骤1、使用微调后的BERT模型在文献中识别出关于实现方法的段落；

步骤2、将识别出的段落进行分句，分词，去停用词及表述统一等一系列预处理，得到清洗后的待识别文本；

步骤3、使用训练出来的Word2Vec模型，对待识别文本中的每个词进行向量表示；

步骤4、对得到的词向量按句为单位进行加权平均句向量和主成分分析，从而得到相关的目标向量；

步骤5、对已整理出的，目标向量化后的实验方法通过余弦相似度进行比对，找出最为相似的实验方法，并通过设置阈值的方式过滤不相匹配的方法。

本发明通过训练词向量模型，对生命科学文献中有关实验方法的段落进行识别，缩小识别范围，大幅提高识别精度。利用生命科学词表和自然语言处理工具，对识别出的段落进行数据清洗，去除影响模型学习的干扰因素，显著提高模型识别准确率。对识别并清洗过的段落文本，进行向量化训练，通过计算加权平均句向量和主成分分析快速、准确识别出相关的实验实体。

具体的，根据本发明提供的适用于生命科学实验的实体识别方法，包括如下步骤：

步骤一：在生命科学文献数据库中，使用BERT预训练方法对所有文献进行语义化训练，得到一个生命科学领域的文献预训练模型；

BERT即Bidirectional Encoder Representations from Transformers的缩写。来自Google的论文Pre-training ofDeep Bidirectional Transformers for LanguageUnderstanding。是一种自编码语言模型，可通过自监督学习来获得字符级、词级、句子级及句间关系等文本特征。

对于BERT预训练模型，在数据库中提取了之前在PubMed Central上获取的380万篇生命科学领域的文献全文作为训练语料。使用含4.6亿词汇的自有生命科学名词词典，通过NLTK工具对所有语料进行了分句、分词等预处理。将分词结果聚合、去重后，自建了模型词典及相关编码。之后在前述步骤的基础上构建了一个12层*768维的BERT模型，在16块英伟达V100显卡上，通过27天的训练得到了此预训练模型。

步骤二：将文献库中有实验方法段落标识的文献作为训练集，对步骤一中得出的预训练模型进行文本分类微调，并通过微调后的模型对未标识实验方法的文献进行方法段落识别；

将数据库中已标识的20万方法段落作为正样本。并随机抽取20万非方法段落作为负样本。按6：2：2，正负样本各50％的比例，将所有样本随机划分为训练集，验证集和测试集。为保证输入长度的统一，截取每段前300个词作为输入文本。通过上一步骤所使用的词典生成词向量，并对同一步骤得到的预训练模型的后4层进行有监督的二分类微调训练。训练完成后，输入某一段落的文本，通过所得到的模型，即可识别出该段落是否是关于实验方法的。实验显示，通过对测试集的预测，F1 Score可达到0.96，模型高可用。

F1分数(F1 Score)是统计学中用来衡量二分类模型精确度的一种指标。它同时兼顾了分类模型的精确率和召回率。该分数可以看作是模型精确率和召回率的一种调和平均。

步骤三：使用NLP工具及生命科学词表，对识别出的方法段落进行分句、分词、去停用词，并对分词结果进行表述统一的替换；

停用词即在文本中，对所要进行的自然语言处理任务，没有任何相关语义方面的作用或会起干扰作用的一些词汇，比如the,is,at,that,on等。去停用词可提高所处理文本的特征质量，以及提升处理的效率。

另外，在生命科学领域，类似于基因、种属等各类别的名词，通常存在着多种命名方式的问题。比如：sonic hedgehog signaling molecule基因的缩写名为SHH，同时也有HHG1,HLP3,HPE3,MCOPCB5,SMMCI,ShhNC,TPT,TPTPS等别名。同一实体的不同表述会严重干扰NLP模型在语义方面的理解。

对于停用词和表述统一的处理，首先通过DeepBio的生命科学通用停用词表对步骤二中已识别，并已分句、分词的方法段落进行停用词的去除。然后，将去停用词后的语料中所含的基因、种属等名词，通过DeepBio别名表把各类名词的别名均统一成标准名，以供后续步骤使用。

步骤四：使用Word2Vec技术，以段落为单位对所有词语进行向量化训练，得到方法词向量模型；

Word2Vec(Wordto Vector)是一个将单词转换成向量形式的工具。可以把对文本内容的处理简化为向量空间中的向量运算，计算出向量空间上的相似度，来表示文本语义上的相似度。

采用cbow即Continuous Bag-of-Words模型将步骤三中得到的方法段落语料进行Word2Vec的训练。取词向量维度为200，上下文大小值为5，并忽略低于词频为3的词。经过20个epochs的训练后得到了相应的方法词向量模型。

步骤五：使用方法词向量模型，通过加权平均句向量和主成分分析的方法生成目标向量，并利用余弦相似度对各文献内方法相似度进行比对、识别。

为识别一篇文献中的实验方法，首先对文献中相关的方法段落进行分句、分词，去停用词和表述统一的预处理。然后将预处理后的文本以句为单位输入训练好的方法词向量模型得到文本内所有词的相关词向量。再通过对每一维的词向量进行特征中心化，计算协方差矩阵特征值和特征向量等一系列主成分分析步骤，得到降维后的相应词向量。而后通过求句中已降维词向量的平均值，得到相应的句向量。

如果需要识别出段落中具体是用了哪种实验方法，需要对DeepBio方法表中的所有方法和别名进行类似的主成分分析处理，得到每个方法名的句向量。而后通过计算余弦相似度对已知方法名和相关段落文本中的句子进行两两比较，得出得分最高且超过设定阈值者即最相似方法名，从而达到识别的目的。

主成分分析(Principal ComponentAnalysis，PCA)，是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量，转换后的这组变量叫主成分。可用于样本分类处理。

余弦相似度即通过测量两个向量的夹角的余弦值来度量它们之间的相似性。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种适用于生命科学的文本识别方法，其特征在于，包括：

步骤2：对识别出的段落进行预处理，得到待识别文本；

2.根据权利要求1所述的适用于生命科学的文本识别方法，其特征在于，将文献数据库中已标识的生命科学内容段落作为训练集，对预训练模型进行文本分类微调，并通过微调后的模型对未标识的生命科学内容进行段落识别。

3.根据权利要求1所述的适用于生命科学的文本识别方法，其特征在于，通过自然语言处理工具包NLTK和生命科学词表，对识别出的段落进行分句、分词和去停用词，并对分词结果进行聚合、去重和表述统一的替换。

4.根据权利要求1所述的适用于生命科学的文本识别方法，其特征在于，将预处理后的文本以句为单位输入预设词向量模型，得到文本内所有词的相关词向量，再通过对每一维的词向量进行特征中心化、计算协方差矩阵特征值和特征向量，得到降维后的相应词向量，而后通过计算句中已降维词向量的平均值，得到相应的句向量。

5.根据权利要求1所述的适用于生命科学的文本识别方法，其特征在于，通过余弦相似度比对已知文本名称和相关段落文本中的句子，得到相似度最高的文本，并通过设置阈值的方式过滤不符合预设要求的文本。

6.一种适用于生命科学的文本识别系统，其特征在于，包括：

模块M2：对识别出的段落进行预处理，得到待识别文本；

7.根据权利要求6所述的适用于生命科学的文本识别系统，其特征在于，将文献数据库中已标识的生命科学内容段落作为训练集，对预训练模型进行文本分类微调，并通过微调后的模型对未标识的生命科学内容进行段落识别。

8.根据权利要求6所述的适用于生命科学的文本识别系统，其特征在于，通过自然语言处理工具包NLTK和生命科学词表，对识别出的段落进行分句、分词和去停用词，并对分词结果进行聚合、去重和表述统一的替换。

9.根据权利要求6所述的适用于生命科学的文本识别系统，其特征在于，将预处理后的文本以句为单位输入预设词向量模型，得到文本内所有词的相关词向量，再通过对每一维的词向量进行特征中心化、计算协方差矩阵特征值和特征向量，得到降维后的相应词向量，而后通过计算句中已降维词向量的平均值，得到相应的句向量。

10.根据权利要求6所述的适用于生命科学的文本识别系统，其特征在于，通过余弦相似度比对已知文本名称和相关段落文本中的句子，得到相似度最高的文本，并通过设置阈值的方式过滤不符合预设要求的文本。