CN113988073A - 适用于生命科学的文本识别方法和系统 - Google Patents
适用于生命科学的文本识别方法和系统 Download PDFInfo
- Publication number
- CN113988073A CN113988073A CN202111247514.3A CN202111247514A CN113988073A CN 113988073 A CN113988073 A CN 113988073A CN 202111247514 A CN202111247514 A CN 202111247514A CN 113988073 A CN113988073 A CN 113988073A
- Authority
- CN
- China
- Prior art keywords
- text
- life science
- word
- training
- vectors
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 239000013598 vector Substances 0.000 claims abstract description 69
- 238000012549 training Methods 0.000 claims abstract description 46
- 238000000513 principal component analysis Methods 0.000 claims abstract description 11
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 230000011218 segmentation Effects 0.000 claims description 19
- 238000003058 natural language processing Methods 0.000 claims description 9
- 230000014509 gene expression Effects 0.000 claims description 8
- 230000009467 reduction Effects 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 5
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 abstract description 30
- 230000000875 corresponding effect Effects 0.000 description 9
- 102100021796 Sonic hedgehog protein Human genes 0.000 description 7
- 238000011160 research Methods 0.000 description 7
- 101000616465 Homo sapiens Sonic hedgehog protein Proteins 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 238000004140 cleaning Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 101710113849 Sonic hedgehog protein Proteins 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 108090000623 proteins and genes Proteins 0.000 description 2
- 241000894007 species Species 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- 101000902418 Dictyostelium discoideum Decaprenyl-diphosphate synthase Proteins 0.000 description 1
- 101000902409 Homo sapiens All trans-polyprenyl-diphosphate synthase PDSS1 Proteins 0.000 description 1
- 101000666874 Homo sapiens Visinin-like protein 1 Proteins 0.000 description 1
- -1 MCPCB 5 Proteins 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 208000008803 holoprosencephaly 3 Diseases 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000012847 principal component analysis method Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 208000012141 solitary median maxillary central incisor Diseases 0.000 description 1
- 208000011626 solitary median maxillary central incisor syndrome Diseases 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种适用于生命科学的文本识别方法和系统,包括:步骤1:在生命科学文献数据库中,使用BERT预训练法对所有文献进行语义化训练,得到一个生命科学领域的文献预训练模型,使用预训练模型在文献中识别出关于生命科学的段落;步骤2:对识别出的段落进行预处理,得到待识别文本;步骤3:通过Word2vec模型,对待识别文本中的每个词进行向量表示;步骤4:对得到的词向量以句为单位进行加权平均和主成分分析,得到对应目标向量;步骤5:对目标向量化后的文本,通过余弦相似度进行比对,得到符合预设要求的文本。本发明解决了通过人工识别实验方法中所存在的查找困难、工作量大、成本高、效率低的问题。
Description
技术领域
本发明涉及文本识别技术领域,具体地,涉及一种适用于生命科学的文本识别方法和系统。
背景技术
在生命科学领域,绝大多数的有用信息是以文本的形式存在于专著、文献、会议期刊等杂志中,如何有效的将其中的有用信息抽取出来,转化为科研工作者在基础研究中的实际应用是具有重大价值和意义的。
然而,实际情况确是,生物体的多样性和复杂性决定了生命科学具有高度的专业性。实验方法存在于海量的文本信息中,且生物的实验方法中大量的专业词汇和专业术语使常规识别技术在生命科学领域无法有效发挥作用。
实验方法通常由多个专业词汇和普通词汇组成,且普通词汇在实验方法中的含义与本身的含义大相径庭,同时,生命科学对于实验技术没有标准的命名,科研工作者在文献中所描述的实验方法通常基于自己的习惯叫法进行简写或者缩写,导致文献中出现的实验方法之间有巨大的差异。这更加增大了实验方法的识别难度。
现有的实验方法识别是简单的基于自定义的标准实验方法的表格进行简单的文本匹配,然而,现有的技术是无法穷尽所有的实验方法实体,因此,自定义的标准表存在其固有的局限性和片面性,正确率不超过20%。
生命科学类文献是生物及医药研究者和工作者重要的信息来源。但面对爆发式增长的文献数量,相关人员已无法通过传统的阅读方式来获取生命科学领域中最新的发展状况,更无法对专注领域做出全方位的评价。上述问题已严重影响到了生命科学各领域的研究和研发进程,也大幅增加了相关的风险。
实验方法识别是生命科学领域中各类实体识别的一种。研究人员可以通过该类识别系统快速了解到某类实验方法出现在什么研究课题中,出现的频率如何。也可以通过自身的研究课题掌握到之前的相关研究都使用过什么实验方法等。这些都对加快研究进度,避免重复工作,拓展研究范围和降低研究风险起着非常重要的作用。
专利文献CN111639178A(申请号:CN202010129780.5)公开了一种用于自动分类和解释诸如支持临床试验的生命科学文档之类的文档的计算机实现的工具,所述工具被配置为执行原始文本分析、文档构造分析和图像分析的组合,以通过实现对文档内容的更全面的基于机器的理解来提高分类的准确性。
但目前的实验方法识别仍停留在关键词匹配或实体链接(Entity Linking)SciSpacy等简单的方式中。面对多种多样的方法名和表述方式,这类通过关键词定义和穷举的方式,显然不能满足实验方法识别的需要。在生命科学领域中,目前也有通过词向量或预训练模型的训练BioBert来对生命科学实体进行无差别识别的。但这类通用模型往往对要处理分析的语料和相关应用缺乏针对性,从而导致识别率低下,因此无法应用于实际场景中。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种适用于生命科学的文本识别方法和系统。
根据本发明提供的适用于生命科学的文本识别方法,包括:
步骤1:在生命科学文献数据库中,使用BERT预训练法对所有文献进行语义化训练,得到一个生命科学领域的文献预训练模型,使用预训练模型在文献中识别出关于生命科学的段落;
步骤2:对识别出的段落进行预处理,得到待识别文本;
步骤3:通过Word2vec模型,对待识别文本中的每个词进行向量表示;
步骤4:对得到的词向量以句为单位进行加权平均和主成分分析,得到对应目标向量;
步骤5:对目标向量化后的文本,通过余弦相似度进行比对,得到符合预设要求的文本。
优选的,将文献数据库中已标识的生命科学内容段落作为训练集,对预训练模型进行文本分类微调,并通过微调后的模型对未标识的生命科学内容进行段落识别。
优选的,通过自然语言处理工具包NLTK和生命科学词表,对识别出的段落进行分句、分词和去停用词,并对分词结果进行聚合、去重和表述统一的替换。
优选的,将预处理后的文本以句为单位输入预设词向量模型,得到文本内所有词的相关词向量,再通过对每一维的词向量进行特征中心化、计算协方差矩阵特征值和特征向量,得到降维后的相应词向量,而后通过计算句中已降维词向量的平均值,得到相应的句向量。
优选的,通过余弦相似度比对已知文本名称和相关段落文本中的句子,得到相似度最高的文本,并通过设置阈值的方式过滤不符合预设要求的文本。
根据本发明提供的适用于生命科学的文本识别系统,包括:
模块M1:在生命科学文献数据库中,使用BERT预训练法对所有文献进行语义化训练,得到一个生命科学领域的文献预训练模型,使用预训练模型在文献中识别出关于生命科学的段落;
模块M2:对识别出的段落进行预处理,得到待识别文本;
模块M3:通过Word2vec模型,对待识别文本中的每个词进行向量表示;
模块M4:对得到的词向量以句为单位进行加权平均和主成分分析,得到对应目标向量;
模块M5:对目标向量化后的文本,通过余弦相似度进行比对,得到符合预设要求的文本。
优选的,将文献数据库中已标识的生命科学内容段落作为训练集,对预训练模型进行文本分类微调,并通过微调后的模型对未标识的生命科学内容进行段落识别。
优选的,通过自然语言处理工具包NLTK和生命科学词表,对识别出的段落进行分句、分词和去停用词,并对分词结果进行聚合、去重和表述统一的替换。
优选的,将预处理后的文本以句为单位输入预设词向量模型,得到文本内所有词的相关词向量,再通过对每一维的词向量进行特征中心化、计算协方差矩阵特征值和特征向量,得到降维后的相应词向量,而后通过计算句中已降维词向量的平均值,得到相应的句向量。
优选的,通过余弦相似度比对已知文本名称和相关段落文本中的句子,得到相似度最高的文本,并通过设置阈值的方式过滤不符合预设要求的文本。
与现有技术相比,本发明具有如下的有益效果:
本发明通过采用一系列自监督训练,及自动化数据清洗的方法,解决了通过人工识别实验方法中所存在的查找困难、工作量大、成本高、效率低的问题;也解决了目前文献内容识别中,需要大量人工标注,且识别速度慢的问题,达到了快速且准确的匹配效果。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明方法流程图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
实施例:
本发明首先通过生物专业团队对专业的文本进行标注,随后使用自然语言处理的方式对已标注的生命科学实验方法进行深度学习,上下文语义的理解,训练出自监督模型及自动化数据清洗的方法,解决了常规技术无法应用于生命科学专业的困境,也解决了传统模式人工查找困难、工作量大、成本高、效率低的问题。本发明可以快速、精准的对文本中的实验技术进行识别,准确率可达到95%。
如图1,识别步骤为:
步骤1、使用微调后的BERT模型在文献中识别出关于实现方法的段落;
步骤2、将识别出的段落进行分句,分词,去停用词及表述统一等一系列预处理,得到清洗后的待识别文本;
步骤3、使用训练出来的Word2Vec模型,对待识别文本中的每个词进行向量表示;
步骤4、对得到的词向量按句为单位进行加权平均句向量和主成分分析,从而得到相关的目标向量;
步骤5、对已整理出的,目标向量化后的实验方法通过余弦相似度进行比对,找出最为相似的实验方法,并通过设置阈值的方式过滤不相匹配的方法。
本发明通过训练词向量模型,对生命科学文献中有关实验方法的段落进行识别,缩小识别范围,大幅提高识别精度。利用生命科学词表和自然语言处理工具,对识别出的段落进行数据清洗,去除影响模型学习的干扰因素,显著提高模型识别准确率。对识别并清洗过的段落文本,进行向量化训练,通过计算加权平均句向量和主成分分析快速、准确识别出相关的实验实体。
具体的,根据本发明提供的适用于生命科学实验的实体识别方法,包括如下步骤:
步骤一:在生命科学文献数据库中,使用BERT预训练方法对所有文献进行语义化训练,得到一个生命科学领域的文献预训练模型;
BERT即Bidirectional Encoder Representations from Transformers的缩写。来自Google的论文Pre-training ofDeep Bidirectional Transformers for LanguageUnderstanding。是一种自编码语言模型,可通过自监督学习来获得字符级、词级、句子级及句间关系等文本特征。
对于BERT预训练模型,在数据库中提取了之前在PubMed Central上获取的380万篇生命科学领域的文献全文作为训练语料。使用含4.6亿词汇的自有生命科学名词词典,通过NLTK工具对所有语料进行了分句、分词等预处理。将分词结果聚合、去重后,自建了模型词典及相关编码。之后在前述步骤的基础上构建了一个12层*768维的BERT模型,在16块英伟达V100显卡上,通过27天的训练得到了此预训练模型。
步骤二:将文献库中有实验方法段落标识的文献作为训练集,对步骤一中得出的预训练模型进行文本分类微调,并通过微调后的模型对未标识实验方法的文献进行方法段落识别;
将数据库中已标识的20万方法段落作为正样本。并随机抽取20万非方法段落作为负样本。按6:2:2,正负样本各50%的比例,将所有样本随机划分为训练集,验证集和测试集。为保证输入长度的统一,截取每段前300个词作为输入文本。通过上一步骤所使用的词典生成词向量,并对同一步骤得到的预训练模型的后4层进行有监督的二分类微调训练。训练完成后,输入某一段落的文本,通过所得到的模型,即可识别出该段落是否是关于实验方法的。实验显示,通过对测试集的预测,F1 Score可达到0.96,模型高可用。
F1分数(F1 Score)是统计学中用来衡量二分类模型精确度的一种指标。它同时兼顾了分类模型的精确率和召回率。该分数可以看作是模型精确率和召回率的一种调和平均。
步骤三:使用NLP工具及生命科学词表,对识别出的方法段落进行分句、分词、去停用词,并对分词结果进行表述统一的替换;
停用词即在文本中,对所要进行的自然语言处理任务,没有任何相关语义方面的作用或会起干扰作用的一些词汇,比如the,is,at,that,on等。去停用词可提高所处理文本的特征质量,以及提升处理的效率。
另外,在生命科学领域,类似于基因、种属等各类别的名词,通常存在着多种命名方式的问题。比如:sonic hedgehog signaling molecule基因的缩写名为SHH,同时也有HHG1,HLP3,HPE3,MCOPCB5,SMMCI,ShhNC,TPT,TPTPS等别名。同一实体的不同表述会严重干扰NLP模型在语义方面的理解。
对于停用词和表述统一的处理,首先通过DeepBio的生命科学通用停用词表对步骤二中已识别,并已分句、分词的方法段落进行停用词的去除。然后,将去停用词后的语料中所含的基因、种属等名词,通过DeepBio别名表把各类名词的别名均统一成标准名,以供后续步骤使用。
步骤四:使用Word2Vec技术,以段落为单位对所有词语进行向量化训练,得到方法词向量模型;
Word2Vec(Wordto Vector)是一个将单词转换成向量形式的工具。可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度。
采用cbow即Continuous Bag-of-Words模型将步骤三中得到的方法段落语料进行Word2Vec的训练。取词向量维度为200,上下文大小值为5,并忽略低于词频为3的词。经过20个epochs的训练后得到了相应的方法词向量模型。
步骤五:使用方法词向量模型,通过加权平均句向量和主成分分析的方法生成目标向量,并利用余弦相似度对各文献内方法相似度进行比对、识别。
为识别一篇文献中的实验方法,首先对文献中相关的方法段落进行分句、分词,去停用词和表述统一的预处理。然后将预处理后的文本以句为单位输入训练好的方法词向量模型得到文本内所有词的相关词向量。再通过对每一维的词向量进行特征中心化,计算协方差矩阵特征值和特征向量等一系列主成分分析步骤,得到降维后的相应词向量。而后通过求句中已降维词向量的平均值,得到相应的句向量。
如果需要识别出段落中具体是用了哪种实验方法,需要对DeepBio方法表中的所有方法和别名进行类似的主成分分析处理,得到每个方法名的句向量。而后通过计算余弦相似度对已知方法名和相关段落文本中的句子进行两两比较,得出得分最高且超过设定阈值者即最相似方法名,从而达到识别的目的。
主成分分析(Principal ComponentAnalysis,PCA),是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。可用于样本分类处理。
余弦相似度即通过测量两个向量的夹角的余弦值来度量它们之间的相似性。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以,本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件,而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构;也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。
Claims (10)
1.一种适用于生命科学的文本识别方法,其特征在于,包括:
步骤1:在生命科学文献数据库中,使用BERT预训练法对所有文献进行语义化训练,得到一个生命科学领域的文献预训练模型,使用预训练模型在文献中识别出关于生命科学的段落;
步骤2:对识别出的段落进行预处理,得到待识别文本;
步骤3:通过Word2vec模型,对待识别文本中的每个词进行向量表示;
步骤4:对得到的词向量以句为单位进行加权平均和主成分分析,得到对应目标向量;
步骤5:对目标向量化后的文本,通过余弦相似度进行比对,得到符合预设要求的文本。
2.根据权利要求1所述的适用于生命科学的文本识别方法,其特征在于,将文献数据库中已标识的生命科学内容段落作为训练集,对预训练模型进行文本分类微调,并通过微调后的模型对未标识的生命科学内容进行段落识别。
3.根据权利要求1所述的适用于生命科学的文本识别方法,其特征在于,通过自然语言处理工具包NLTK和生命科学词表,对识别出的段落进行分句、分词和去停用词,并对分词结果进行聚合、去重和表述统一的替换。
4.根据权利要求1所述的适用于生命科学的文本识别方法,其特征在于,将预处理后的文本以句为单位输入预设词向量模型,得到文本内所有词的相关词向量,再通过对每一维的词向量进行特征中心化、计算协方差矩阵特征值和特征向量,得到降维后的相应词向量,而后通过计算句中已降维词向量的平均值,得到相应的句向量。
5.根据权利要求1所述的适用于生命科学的文本识别方法,其特征在于,通过余弦相似度比对已知文本名称和相关段落文本中的句子,得到相似度最高的文本,并通过设置阈值的方式过滤不符合预设要求的文本。
6.一种适用于生命科学的文本识别系统,其特征在于,包括:
模块M1:在生命科学文献数据库中,使用BERT预训练法对所有文献进行语义化训练,得到一个生命科学领域的文献预训练模型,使用预训练模型在文献中识别出关于生命科学的段落;
模块M2:对识别出的段落进行预处理,得到待识别文本;
模块M3:通过Word2vec模型,对待识别文本中的每个词进行向量表示;
模块M4:对得到的词向量以句为单位进行加权平均和主成分分析,得到对应目标向量;
模块M5:对目标向量化后的文本,通过余弦相似度进行比对,得到符合预设要求的文本。
7.根据权利要求6所述的适用于生命科学的文本识别系统,其特征在于,将文献数据库中已标识的生命科学内容段落作为训练集,对预训练模型进行文本分类微调,并通过微调后的模型对未标识的生命科学内容进行段落识别。
8.根据权利要求6所述的适用于生命科学的文本识别系统,其特征在于,通过自然语言处理工具包NLTK和生命科学词表,对识别出的段落进行分句、分词和去停用词,并对分词结果进行聚合、去重和表述统一的替换。
9.根据权利要求6所述的适用于生命科学的文本识别系统,其特征在于,将预处理后的文本以句为单位输入预设词向量模型,得到文本内所有词的相关词向量,再通过对每一维的词向量进行特征中心化、计算协方差矩阵特征值和特征向量,得到降维后的相应词向量,而后通过计算句中已降维词向量的平均值,得到相应的句向量。
10.根据权利要求6所述的适用于生命科学的文本识别系统,其特征在于,通过余弦相似度比对已知文本名称和相关段落文本中的句子,得到相似度最高的文本,并通过设置阈值的方式过滤不符合预设要求的文本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111247514.3A CN113988073A (zh) | 2021-10-26 | 2021-10-26 | 适用于生命科学的文本识别方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111247514.3A CN113988073A (zh) | 2021-10-26 | 2021-10-26 | 适用于生命科学的文本识别方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113988073A true CN113988073A (zh) | 2022-01-28 |
Family
ID=79741557
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111247514.3A Pending CN113988073A (zh) | 2021-10-26 | 2021-10-26 | 适用于生命科学的文本识别方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113988073A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116050419A (zh) * | 2023-03-30 | 2023-05-02 | 西南科技大学 | 一种面向科学文献知识实体的无监督识别方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109299467A (zh) * | 2018-10-23 | 2019-02-01 | 北京惠每云科技有限公司 | 医学文本识别方法及装置、语句识别模型训练方法及装置 |
CN111427995A (zh) * | 2020-02-26 | 2020-07-17 | 平安科技(深圳)有限公司 | 基于内部对抗机制的语义匹配方法、装置及存储介质 |
CN112417863A (zh) * | 2020-11-27 | 2021-02-26 | 中国科学院电子学研究所苏州研究院 | 基于预训练词向量模型与随机森林算法的中文文本分类方法 |
CN112420145A (zh) * | 2020-12-08 | 2021-02-26 | 医惠科技有限公司 | 电子病历文书数据处理方法、装置及计算机可读存储介质 |
CN112632997A (zh) * | 2020-12-14 | 2021-04-09 | 河北工程大学 | 基于BERT和Word2Vec向量融合的中文实体识别方法 |
CN112800766A (zh) * | 2021-01-27 | 2021-05-14 | 华南理工大学 | 基于主动学习的中文医疗实体识别标注方法及系统 |
CN113378024A (zh) * | 2021-05-24 | 2021-09-10 | 哈尔滨工业大学 | 一种基于深度学习面向公检法领域的相关事件识别方法 |
-
2021
- 2021-10-26 CN CN202111247514.3A patent/CN113988073A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109299467A (zh) * | 2018-10-23 | 2019-02-01 | 北京惠每云科技有限公司 | 医学文本识别方法及装置、语句识别模型训练方法及装置 |
CN111427995A (zh) * | 2020-02-26 | 2020-07-17 | 平安科技(深圳)有限公司 | 基于内部对抗机制的语义匹配方法、装置及存储介质 |
CN112417863A (zh) * | 2020-11-27 | 2021-02-26 | 中国科学院电子学研究所苏州研究院 | 基于预训练词向量模型与随机森林算法的中文文本分类方法 |
CN112420145A (zh) * | 2020-12-08 | 2021-02-26 | 医惠科技有限公司 | 电子病历文书数据处理方法、装置及计算机可读存储介质 |
CN112632997A (zh) * | 2020-12-14 | 2021-04-09 | 河北工程大学 | 基于BERT和Word2Vec向量融合的中文实体识别方法 |
CN112800766A (zh) * | 2021-01-27 | 2021-05-14 | 华南理工大学 | 基于主动学习的中文医疗实体识别标注方法及系统 |
CN113378024A (zh) * | 2021-05-24 | 2021-09-10 | 哈尔滨工业大学 | 一种基于深度学习面向公检法领域的相关事件识别方法 |
Non-Patent Citations (5)
Title |
---|
丁龙 等: "基于预训练BERT字嵌入模型的领域实体识别" * |
叶雪梅 等: "文本分类TF-IDF算法的改进研究" * |
曹祺 著: "《大数据时代图书馆信息系统的系统分析与设计》", 31 May 2020, 武汉大学出版社 * |
王远志 等: "Bert-BLSTM-CRF模型的中文命名实体识别", 《安庆师范大学学报(自然科学版)》 * |
马费成,等编著: "信息管理学基础", 武汉大学出版社 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116050419A (zh) * | 2023-03-30 | 2023-05-02 | 西南科技大学 | 一种面向科学文献知识实体的无监督识别方法及系统 |
CN116050419B (zh) * | 2023-03-30 | 2023-06-02 | 西南科技大学 | 一种面向科学文献知识实体的无监督识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yu et al. | Learning composition models for phrase embeddings | |
WO2022110637A1 (zh) | 问答对话评测方法、装置、设备及存储介质 | |
CN109002473B (zh) | 一种基于词向量与词性的情感分析方法 | |
CN108536870A (zh) | 一种融合情感特征和语义特征的文本情感分类方法 | |
CN110134777B (zh) | 问题去重方法、装置、电子设备和计算机可读存储介质 | |
Qimin et al. | Text clustering using VSM with feature clusters | |
CN110895559A (zh) | 模型训练、文本处理方法、装置以及设备 | |
CN112686043B (zh) | 一种基于词向量的企业所属新兴产业分类方法 | |
WO2020091618A1 (ru) | Система определения именованных сущностей с динамическими параметрами | |
CN113988073A (zh) | 适用于生命科学的文本识别方法和系统 | |
Dotan et al. | Effect of tokenization on transformers for biological sequences | |
US11580499B2 (en) | Method, system and computer-readable medium for information retrieval | |
CN116881463A (zh) | 基于数据的艺术多模态语料库构建系统 | |
Siddique et al. | Bilingual word embeddings for cross-lingual personality recognition using convolutional neural nets | |
Nwet et al. | Machine learning algorithms for Myanmar news classification | |
CN114676699A (zh) | 实体情感分析方法、装置、计算机设备和存储介质 | |
Cao et al. | Investigating Stroke-Level Information for Learning Chinese Word Embeddings. | |
WO2021221535A1 (ru) | Система и способ аугментации обучающей выборки для алгоритмов машинного обучения | |
CN112257416A (zh) | 一种稽查新词发现方法及系统 | |
Elema | Developing Amharic Question Answering Model Over Unstructured Data Source Using Deep Learning Approach | |
Wen et al. | Entity Extraction with Knowledge from Web Scale Corpora | |
Cherrat et al. | Sentiment Analysis from Texts Written in Standard Arabic and Moroccan Dialect based on Deep Learning Approaches. | |
Qi et al. | Bie—Modernism with Cultural Calculations in Multiple Dimensions | |
CN115563311B (zh) | 一种文档标注和知识库管理方法及知识库管理系统 | |
CN114969339B (zh) | 一种文本匹配方法、装置、电子设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220128 |
|
RJ01 | Rejection of invention patent application after publication |