CN114912452A - 一种实体识别、信息抽取的方法和装置 - Google Patents

一种实体识别、信息抽取的方法和装置 Download PDF

Info

Publication number
CN114912452A
CN114912452A CN202110169790.6A CN202110169790A CN114912452A CN 114912452 A CN114912452 A CN 114912452A CN 202110169790 A CN202110169790 A CN 202110169790A CN 114912452 A CN114912452 A CN 114912452A
Authority
CN
China
Prior art keywords
text
information
entity
encoder
microorganism
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110169790.6A
Other languages
English (en)
Inventor
张奇
孙晋权
王宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN202110169790.6A priority Critical patent/CN114912452A/zh
Publication of CN114912452A publication Critical patent/CN114912452A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Character Discrimination (AREA)

Abstract

本申请实施例公开了一种实体识别、信息抽取的方法和装置。所述方法包括:基于对应于单分类领域的第一文本,以及对应于多分类领域的第二文本,训练用于单分类领域进行文本特征提取的编码器;使用所述编码器提取所述单分类领域的样本文本中的词的文本特征;根据所述样本文本标记的实体识别结果以及所述样本文本中的词的文本特征,训练实体识别模型;基于所获得的实体识别模型,识别所述单分类领域的目标文本中作为实体的词以及至少两种实体之间的关系数据。不依赖于大规模的标注数据,对标注数据的质量也没有特别要求。在第一文本标注数量确定的情况下,本申请的方案可以提高编码器提取特征的准确性。

Description

一种实体识别、信息抽取的方法和装置
技术领域
本申请涉及数据处理技术领域,具体涉及一种实体识别方法和装置、一种信息抽取方法和装置、一种计算机设备、一种计算机可读存储介质。
背景技术
信息抽取(Information Extraction:IE)是对原始文本里包含的信息进行结构化处理,输出的是固定格式的信息集合。信息抽取在各专业领域具有重要的应用价值,以微生物领域为例,该领域中海量资料文献中包含着大量知识,如果能够将这些知识结构化,不仅利于计算机存储,也可以为下游的检索、问答等诸多应用提供便利。
通常使用预先训练的模型对文本进行信息抽取,而针对微生物领域收集的样本存在标注数据不足的问题,导致信息抽取模型容易过拟合,泛化能力较差,预测准确性较低。
发明内容
鉴于上述问题,提出了本申请以便提供一种克服上述问题或者至少部分地解决上述问题的图像处理方法、图像搜索方法、对象搜索方法以及计算机设备、计算机可读存储介质。
依据本申请的一个方面,提供了一种实体识别方法,包括:
基于对应于单分类领域的第一文本,以及对应于多分类领域的第二文本,训练用于单分类领域进行文本特征提取的编码器;
使用所述编码器提取所述单分类领域的样本文本中的词的文本特征;
根据所述样本文本标记的实体识别结果以及所述样本文本中的词的文本特征,训练实体识别模型;
基于所获得的实体识别模型,识别所述单分类领域的目标文本中作为实体的词以及至少两种实体之间的关系数据。
依据本申请的另一个方面,提供了一种实体识别模型的处理方法,包括:
基于对应于单分类领域的第一文本,以及对应于多分类领域的第二文本,训练对应于单分类领域进行文本特征提取的编码器;
使用所述编码器提取所述单分类领域的样本文本中的词的文本特征;
根据所述样本文本标记的实体识别结果以及所述样本文本中的词的文本特征,训练实体识别模型,所述实体识别模型用于识别所述单分类领域的目标文本中作为实体的词以及至少两种实体之间的关系数据。
依据本申请的另一个方面,提供了一种信息抽取方法,包括:
获取目标文本;
基于实体识别模型,识别所述单分类领域的目标文本中作为实体的词以及至少两种实体之间的关系数据;所述实体识别模型训练时所依据的样本文本中词的文本特征使用编码器提取,所述编码器基于对应于单分类领域的第一文本,以及对应于多分类领域的第二文本训练得到;
将文本片段对应识别到的实体和实体之间的关系数据组织为结构化数据,作为所述文本片段对应的信息抽取结果;
按照多个文本片段的位置,将文本片段对应的信息抽取结果拼接为所述目标文本对应的信息抽取结果。
依据本申请的另一个方面,提供了一种信息检索方法,包括:
接收针对至少一种目标实体的检索请求;
检索所述目标实体与其他实体之间的关系数据;其中,预置有基于实体识别模型识别的、单分类领域的多个文本中的实体以及至少两种实体之间的关系数据,所述实体识别模型训练所依据的样本文本中词的文本特征使用编码器提取,所述编码器基于对应于单分类领域的第一文本,以及对应于多分类领域的第二文本训练得到;
提供所述关系数据作为检索结果。
依据本申请的另一个方面,提供了一种微生物信息的识别方法,包括:
基于对应于微生物领域的专业文章摘要,以及对应于多分类领域的第二文本,训练对应于微生物领域进行文本特征提取的编码器;
使用所述编码器提取所述微生物领域的样本文本中的词的文本特征;
根据所述样本文本标记的微生物信息识别结果以及所述样本文本中的词的文本特征,训练微生物信息识别模型;
基于所获得的微生物信息识别模型,识别所述微生物领域的目标文本中的微生物信息以及至少两种微生物信息之间的关系数据。
依据本申请的另一个方面,提供了一种微生物识别模型的处理方法,包括:
基于对应于微生物领域的专业文章摘要,以及对应于多分类领域的第二文本,训练对应于微生物领域进行文本特征提取的编码器;
使用所述编码器提取所述微生物领域的样本文本中的词的文本特征;
根据所述样本文本标记的微生物信息识别结果以及所述样本文本中的词的文本特征,训练微生物信息识别模型,所述微生物信息识别模型用于识别所述微生物领域的目标文本中的微生物信息以及至少两种微生物信息之间的关系数据,
依据本申请的另一个方面,提供了一种微生物文本的信息抽取方法,包括:
获取目标文本;
基于所获得的微生物信息识别模型,识别所述微生物领域的目标文本中的微生物信息以及至少两种微生物信息之间的关系数据;所述微生物信息识别模型训练时所依据的样本文本中词的文本特征使用编码器提取,所述编码器基于对应于微生物领域的专业文章摘要,以及对应于多分类领域的第二文本训练得到;
将文本片段对应识别到的微生物信息和微生物信息之间的关系数据组织为结构化数据,作为所述文本片段对应的信息抽取结果;
按照多个文本片段的位置,将文本片段对应的信息抽取结果拼接为所述目标文本对应的信息抽取结果。
依据本申请的另一个方面,提供了一种微生物信息图谱的构建方法,包括:
获取多个目标文本;
基于微生物信息识别模型,识别所述微生物领域的目标文本中的微生物信息以及至少两种微生物信息之间的关系数据;所述微生物信息识别模型训练时所依据的样本文本中词的文本特征使用编码器提取,所述编码器基于对应于微生物领域的专业文章摘要,以及对应于多分类领域的第二文本训练得到;
根据多个目标文本识别的微生物信息之间的层级结构关系,将所述微生物信息以及至少两种微生物信息之间的关系数据构建为微生物信息图谱。
依据本申请的另一个方面,提供了一种微生物信息检索方法,包括:
接收针对至少一种目标微生物信息的检索请求;
检索所述目标微生物信息与其他微生物信息之间的关系数据;其中,预置有基于实体识别模型识别的、微生物领域的多个文本中的微生物信息以及至少两种微生物信息之间的关系数据,所述微生物信息识别模型训练时所依据的样本文本中词的文本特征使用编码器提取,所述编码器基于对应于微生物领域的专业文章摘要,以及对应于多分类领域的第二文本训练得到;
提供所述关系数据作为检索结果。
依据本申请的另一个方面,提供了一种微生物信息的互动方法,包括:
接收包括目标微生物信息的问题;
检索所述目标微生物信息与其他微生物信息之间的关系数据;其中,预置有有基于实体识别模型识别的、微生物领域的多个文本中的微生物信息以及至少两种微生物信息之间的关系数据,所述微生物信息识别模型训练时所依据的样本文本中词的文本特征使用编码器提取,所述编码器基于对应于微生物领域的专业文章摘要,以及对应于多分类领域的第二文本训练得到;
将所述目标微生物信息与其他微生物信息之间的关系数据组织为问题答案;
提供所述问题答案。
依据本申请的另一个方面,提供了一种电子设备,包括:处理器;和
存储器,其上存储有可执行代码,当所述可执行代码被执行时,使得所述处理器执行如上述任一项所述的方法。
依据本申请的另一个方面,提供了一个或多个机器可读介质,其上存储有可执行代码,当所述可执行代码被执行时,使得处理器执行上述任一项所述的方法。
依据本申请实施例,预先获取基于对应于单分类领域的第一文本,以及对应于多分类领域的第二文本,基于两种文本预料训练编码器,并使用该编码器提取单分类领域的样本文本中的词的文本特征,进一步依据样本文本标记的实体识别结果以及所述样本文本中的词的文本特征训练实体识别模型,基于所获得的实体识别模型可以识别单分类领域的目标文本中的实体以及至少两种实体之间的关系数据。由于本申请将第二文本结合第一文本进行编码器的训练,能够将第二文本的特征提取迁移到编码器的训练中,从而降低了对第一文本的标注数量的要求,不依赖于大规模的标注数据,对标注数据的质量也没有特别要求,也即是说,基于本申请中多分类领域对单分类领域进行文本特征迁移的方案设计,可以仅使用少量标注的第一文本进行编码器的训练,即可获得具有在单分类领域进行文本特征抽取的能力。可以理解的是,在第一文本标注数量确定的情况下,本申请的方案可以提高编码器提取特征的准确性,据此进一步训练的实体识别模型可以提高实体识别结果的预测性能。
本申请在提取样本文本的文本特征时结合自注意力机制实现,即关注文本内部的数据相关性,同时提取词在样本文本中的上下文关联特征,从而可以结合文本来表征词的文本特性,编码器有更强的表达能力,提取的文本特征相比于一般的编码器提取的文本特征更具有代表性,进而使得基于文本特征训练的实体识别模型可以更准确地进行实体识别。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本申请的一种实体识别方法的一个具体示例;
图2示出了根据本申请实施例一的一种实体识别方法的流程图;
图3示出了根据本申请实施例二的一种实体识别模型的处理方法的流程图;
图4示出了根据本申请实施例三的一种信息抽取方法的流程图;
图5示出了根据本申请实施例四的一种信息检索方法的流程图;
图6示出了根据本申请实施例五的一种微生物信息的识别方法的流程图;
图7示出了根据本申请实施例六的一种微生物识别模型的处理方法的流程图;
图8示出了根据本申请实施例七的一种微生物文本的信息抽取方法的流程图;
图9示出了根据本申请实施例八的一种微生物信息图谱的构建方法的流程图;
图10示出了根据本申请实施例九的一种微生物信息检索方法的流程图;
图11示出了根据本申请实施例十的一种微生物信息的互动方法的流程图;
图12示出了根据本申请实施例十一的一种实体识别装置的结构框图;
图13示出了根据本申请实施例十二的一种实体识别模型的处理装置的结构框图;
图14示出了根据本申请实施例十三的一种信息抽取的装置结构框图;
图15示出了根据本申请实施例十四的一种信息检索装置的结构框图;
图16示出了根据本申请实施例十五的一种微生物信息的识别装置的结构框图;
图17示出了根据本申请实施例十六的一种微生物识别模型的处理装置的结构框图;
图18示出了根据本申请实施例十七的一种微生物文本的信息抽取装置的结构框图;
图19示出了根据本申请实施例十八的一种微生物信息图谱的构建装置的结构框图;
图20示出了根据本申请实施例十九的一种微生物信息检索装置的结构框图;
图21示出了根据本申请实施例二十的一种微生物信息的互动装置的结构框图;
图22示出了可被用于实现本公开中所述的各个实施例的示例性系统。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本申请实施例提供了实体识别方案以及实体识别在信息抽取、模型处理、信息检索等方面的应用方案。其中,实体也可以称为命名实体,实体识别也即是识别实体的边界和类别。以新闻信息中的实体识别为例,即从报章等非结构化文本中抽取关于目标信息的结构化信息,例如人名、地名、组织机构名、时间以及日期、货币量、百分比等数字表达。以微生物领域的实体识别为例,实体可以是微生物、微生物群落,也可以是微生物性状、微生物聚集位置等与微生物相关的其他属性等。
实体识别还包括对实体之间的关系数据的识别,关系数据用于表述实体之间在文本中的联系,例如,“Changsha is Hunan's fast-growing provincial capital”一句中,包括了两个实体“Changsha”以及“Hunan”,两者之间的关系数据为“capital”,采用预定义的关系数据可以表述“contains”。实体识别的结果可以表述为设定的样式,比如上述可以表述为location-location-contains(即地点-地点-包含关系)。在具体的实体识别中,可以根据实际需要定义识别的实体种类以及实体之间的关系数据,本申请对此不做限制。
实体识别的对象是预先收集的文本,可以是结构化数据、半结构化数据或无结构数据。结构化数据和半结构化数据带有一定的格式信息,无结构数据主要指完全没有结构信息的自由文本(Free Text)。本申请所涉及识别的实体识别可以针对任意一种文本进行,或者可以是上述一种或多种文本的集合。
本申请实施例中,采用实体识别模型识别单分类领域的目标文本中的实体以及实体的关系数据,以微生物领域为例,可以训练针对该微生物领域的实体识别模型,以用于对微生物领域中的论文进行实体识别以及实体关系数据的抽取。
该实体识别模型依据针对样本标记的实体识别结果以及样本文本中词的文本特征训练得到,样本文本中词的文本特征可以依据训练的编码器获得,该编码器对应于单分类领域的文本特征提取。文本特征用于表征文本中的词,可以是一个或多个维度对应的特征,可以采用向量的方式表征。
本申请实施例在编码器的训练中,使用了对应于单分类领域的第一文本,以及对应于多分类领域的第二文本。单分类领域也即是单个分类领域(应用领域,比如微生物领域),第一文本可以是教科书、专业期刊、论文、专利文件、工具书、网页内容等与单分类领域相关的文章,也可以是从单分类领域的相关网页内容,或是单分类领域的数据库中的文本。
多分类领域即是多个分类领域(多个应用领域),第二文本对应于多分类领域,包括上述的单分类领域以及其他至少一种单分类领域,例如可以来源于BookCorpus(图书语料库)这种大型文本语料库、English Wikipedia(维基百科)、一些公共数据库等。上述文本可以通过网络爬虫在网页抓取或是访问数据库获得,作为编码器的训练语料。
通过结合第一文本和第二文本进行编码器训练,可以将通用领域或任务上学习到的知识或模式应用到不同但相关的领域中,也即是能够将第二文本的特征提取迁移到编码器的训练中,从而降低了对第一文本的标注数量的要求,不依赖于大规模的标注数据,对标注数据的质量也没有特别要求,也即是说,基于本申请中多分类领域对单分类领域进行文本特征迁移的方案设计,可以仅使用少量标注的第一文本进行编码器的训练,即可获得具有在单分类领域进行文本特征抽取的能力。可以理解的是,在第一文本标注数量确定的情况下,本申请的方案可以提高编码器提取特征的准确性,据此进一步训练的实体识别模型可以提高实体识别结果的预测性能。
本申请所涉及的词可以是单个单词,也可以是构成实体名称的短语,即可以包括多个单词。
本申请的方案可以应用于各种场景下的实体识别,例如可以应用于微生物领域、医学领域的文本识别,进一步可以应用于该领域下的文本信息抽取、数据库或知识图谱的构建、基于抽取结果的检索或问答等应用;如可以抽取医学领域的通用知识图谱,囊括该领域的各种疾病、药物、医疗服务流程等各种知识,并在此基础上搭建知识检索、知识问答等服务,通过该服务交互为基层医生或病患提供答疑,问答服务可以结合入各种药物网购、外卖、医生问答等应用,相比于检索应用,可以直接返回答案而不是返回网页路径,获取知识的效率大为提高。
一种可选的实施例中,可以通过网络爬虫抓取对应于单分类领域的第一文本,或,访问网络数据库获取对应于单分类领域的第一文本。
一种可选的实施例中,第一文本可以包括单分类领域的专业网站发表的专业文章的摘要内容,通过网络爬虫抓取对应于单分类领域的第一文本时,可以通过网络爬虫抓取单分类领域的专业网站发表的专业文章,提取专业文章的摘要内容作为单分类领域的第一文本。例如,针对微生物领域,可以获取PubMed(公共医疗)网站的摘要,该网站提供生物医学方面的论文搜寻以及摘要检索,可以调用网络爬虫抓取该网站的论文摘要。
在获得第一文本和第二文本或可以混合作为编码器的训练语料,并进行预处理,包括关键词筛选,或是去除第一文本中与单分类领域无关的内容。
上述第一文本和第二文本可以形成standoff格式,可以加快后续的处理流程。
本申请实施例的编码器可以包括双向编码器Bert(Bidirectional EncoderRepresentations from Transformers,来自Transformer的双向编码器),在实现时采用双向Transformer的自注意力机制(self-attention),在两个方向上都执行自注意力,也即是在编码中可以充分利用到上下文的信息,关注文本内容的数据相关性,相应的,在使用编码器提取单分类领域的样本文本中的词的文本特征时,可以提取样本文本中的词在样本文本中的上下文关联特征,从而可以结合文本来表征词的文本特性,编码器有更强的表达能力,提取的文本特征相比于一般的编码器提取的文本特征更具有代表性,进而使得基于文本特征训练的实体识别模型可以更准确地进行实体识别。
上述Bert编码器在训练时,可以执行两个预训练任务,第一个任务是随机地扣掉一定比例的屏蔽掉的单词,用一个掩码mask代替,利用编码器预测mask掉的单词。第二个任务是,将训练样本配置为上下句,有设定比例的样本的下句和上句是真实的,剩余样本的下句和上句是无关的,通过编码器去预测两句之间的关系。此外,两个训练任务可以各有一个损失函数,将这两个损失函数叠加起来作为总的损失函数进行优化。
上述Bert编码器被训练为执行对应的语言识别任务,其基本架构包括由多个编码组件构成的编码层和多个解码组件构成的解码层,在编码层之前还包括一个selfattention自注意力层和前馈神经网络层(feed forward),用于在编码之前关注文本的其他词,实际应用中还可以包括embedoing嵌入层、一个或多个layer norm范数层等。本申请实施例使用了该双向编码器的编码层的输出结果,在使用双向编码器提取单分类领域的样本文本中的词的文本特征时,可以将样本文本输入双向编码器并执行双向编码器对应的语言识别任务,进一步提取样本文本中的词在双向编码器的最后一层的隐藏状态数据,作为词对应的文本特征,此处的文本特征为经过第一文本和第二文本上迁移学习后词在句子中的上下文特征。
本申请的一种实施例中,文本特征可以包括标点符号特征、大小写特征、词性标注特征、句法依赖特征中至少一种文本特征,相应的,还可以提取单分类领域的样本文本中的词的标点符号特征、大小写特征、词性标注特征、句法依赖特征中至少一种文本特征。标点符号特征表明该词语中是否包含该标点符号,大小写特征描述该单词是否以大写字母开头、词性标注特征表征词的词性,是词性标注工具在该句子上的输出,句法依赖特征表征词所在句子的句法,是句法分析工具在该句子上的输出。上述细粒度的文本特征,经过实验测试证明能够更好地适应各领域的实体识别以及实体关系抽取任务,当然,实际应用中可以根据需求设定词的文本特征的种类。
本申请实施例中,将实体识别模型划分为实体识别层和关系抽取层,实体识别层用于识别目标文本中作为实体的词,关系抽取层用于识别实体之间的关系数据。在基于所获得的实体识别模型,识别单分类领域的目标文本中作为实体的词以及至少两种实体之间的关系数据时,可以基于实体识别模型的实体识别层,识别单分类领域的目标文本中作为实体的词;基于实体识别模型的关系抽取层以及实体在多个维度的关联信息,识别至少两种实体之间的关系数据。
上述实体识别模型可以采用一种多种类型的模型实现,例如,可以是隐马尔科夫模型(HMM,Hidden Markov Model)、最大熵隐马尔科夫模型、双向长短时记忆网络(Bi-LSTM,Bi-directional Long Short-Term Memory)等等,具体的模型种类可以根据实际需求选择,本申请对此并不做限制。
一种可选的实施例中,可以采用条件随机场训练实体识别层,采用多头注意力机制(也即是多头选择机制)的神经网络模型(例如循环神经网络RNN、卷积神经网络CNN等)训练关系抽取层,其中,可以采用log likelihood最大似然估计进行结果预测。
隐马尔科夫模型的使用中,由于其输出独立性假设,导致其不能考虑上下文的特征,限制了特征的选择,基于其改进的最大熵隐马尔科夫模型虽然解决该一问题,可以任意选择特征,但由于其在每一节点都要进行归一化,所以只能找到局部的极值,同时也带来了标记偏见的问题,即凡是训练语料中未出现的情况全都忽略掉,而条件随机场并不在每一个节点进行归一化,而是所有特征进行全局归一化,因此可以求得全局的极值。采用条件随机场训练实体识别层可以使得实体的识别可以更好地结合目标文本的全局特征,使得实体识别结果更为准确。
相比于单头注意力机制,多头注意力机制可以关注多个维度的信息,不同头关注的维度也是不同的,采用多头注意力机制的神经网络模型训练关系抽取层可以使得关系抽取可以结合目标文本多个维度的特征,使得实体关系的识别更为准确。
根据条件随机场进行实体识别时,可以将每个词的特征输入softmax分类器中,分类器的分类集合即为实体类型的标签集合,若将句子中第i个单词wi的标签预测结果为
Figure BDA0002938637770000121
使用
Figure BDA0002938637770000128
来表示整个序列的转移概率分数,可以做如下定义:
Figure BDA0002938637770000122
其中,
Figure BDA0002938637770000123
表示yi-1到yi的转移概率。
分类概率E可以被定义为:
Figure BDA0002938637770000124
整个序列的条件随机场分数
Figure BDA0002938637770000125
可以定义如下:
Figure BDA0002938637770000126
条件概率P可以定义如下:
Figure BDA0002938637770000127
采用多头注意力机制的神经网络模型进行实体关系识别时,以实体对应抽取的特征作为输入,预测以单词wi结尾的微生物实体和另一个以单词wj结尾的实体存在关系类型r的分数为:
Ri,j,r=σ(Wrf(Hr*Vi+Tr*Vj+br))
其中,Wr、Hr、Tr、br是与特定关系r相关的参数矩阵。f是激活函数RELU,通过σ将分数归一为概率。Vi表示句子中第i个单词经过神经网络抽取的特征向量,Vj表示句子中第j个单词经过神经网络抽取的特征向量。
在对上述实体识别模型进行整体训练时,可以采用多任务学习的方式,也即是将实体识别模型划分为多层并行进行训练,以划分为实体识别层和关系抽取层为例,分别对实体识别层和关系抽取层进行学习,最后通过对实体识别层和关系抽取层的学习结果建立实体识别模型这个整体复杂问题的数学模型,多任务学习使得多个任务并行学习的同时,其结果可以互相影响,利用了任务之间的相关信息,通过联合学习既考虑到了任务之间的差别,又考虑到任务之间的联系,从而使得训练的模型兼顾了实体识别层和关系抽取层分别对应的训练精度的需求,适用于多种复杂的应用场景的模型训练。
相应的,对上述实体识别模型的训练中,各层分别配置有对应的损失函数,进一步根据各层分别确定的损失函数,综合得到整个实体识别模型的损失函数,利用该损失函数更新模型的所有参数。具体可以将各层的损失函数加和作为实体识别模型的损失函数,也可以将各层损失函数与对应的权重系数进行加权确定实体识别模型的损失函数。以实体识别模型包括用于实体识别的实体识别层以及用于关系数据识别的关系抽取层为例,可以根据第一损失函数和第二损失函数确定实体识别模型的综合损失函数,进一步根据综合损失函数对实体识别模型进行迭代训练。
如下给出一种示例,实体识别层的第一损失函数可以定义如下:
Lner=-logP(yS|S)
关系抽取层的第二损失函数可以定义如下:
Figure BDA0002938637770000131
实体识别模型的综合损失函数可以为L=Lner+Lrel
本申请实施例中,根据上述方案识别的实体以及实体之间的关系数据可以进一步建立单分类领域的实体关系数据库,在实体关系数据库中,对实体、至少两种实体之间的关系数据关联存储,以便于后续基于实体或关系数据进行数据检索。
相应的,可以通过客户端或网页入口接收针对至少一种目标实体的检索请求;从实体关系数据库中检索所述目标实体与其他实体之间的关系数据,并提供关系数据作为检索结果。
一种可选的实施例中,还可以将目标领域的第一文本关联存储在实体关系数据库中,即在实体关系数据库中对实体、至少两种实体之间的关系数据以及单分类领域的第一文本进行关联存储,在检索时可以同时提供与目标实体对应的第一文本作为检索结果。
上述识别的实体以及实体之间的关系数据组成的信息抽取结果可以表示为三元组的形式,即实体-实体-关系数据的三元组。以微生物领域为例,抽取和微生物有关的三元组可以是微生物-属性-属性值,微生物的属性可以是微生物的性状信息、聚集地等,例如文本片段为“大肠杆菌的聚集地包括下水道的周边”,抽取的三元组可以是大肠杆菌-聚集地-下水道周边。
实际情况中,当然还可以是两个以上实体以及实体之间的关系数据组成的多元组,本申请对此不做限制。
本申请的一种可选实施例中,上述可以对抽取的实体与实体之间的关系数据做结构化处理,具体可以将文本片段对应识别到的实体和实体之间的关系数据组织为结构化数据,作为文本片段对应的信息抽取结果,文本片段可以是一个句子或是几个句子组成的段落,进一步可以按照多个文本片段的位置,将文本片段对应的信息抽取结果拼接为目标文本对应的信息抽取结果。例如,可以是按照文本片段的顺序对文本片段的信息抽取结果直接进行顺序拼接,获得目标文本的信息抽取结果。
可以采用基于序列标注的方式表述文本片段的信息抽取结果,采用编码BIO分别表示实体的开头、实体内部以及实体外部。例如,Hunan's fast-growing provincialcapital Changsha,存在两个实体及其之间的关系数据Hunan,Changsha,contains,采用序列表述可以表述为B-LOC-contains O O O B-LOC-contains,其中,B代表开头,loc是实体类别地名,contains是包含关系,三个O表示词语和实体没有关系。
实际应用中,一个文本片段中一个实体可能与另一个实体具有关系数据,也可能与多个实体具有关系数据,采用上述序列标注的方式无法处理存在实体重叠关系的情况,例如,Hunan's fast-growing provincial capital,Changsha is the birthplace ofZeng Guofan,这句话中存在两个三元组:Hunan,Changsha,contains,以及,Zeng Guofan,Changsha,place_of_birth,则该情况无法使用上述序列标注的方式表述该文本片段。
本申请的一种可选实施例中,针对实体对应的文本片段对应一个实体与多个实体的关系数据的情况,在将文本片段对应识别到的实体和实体之间的关系数据组织为结构化数据时,可以构建第一实体、第二实体、关系数据的多维矩阵,作为结构化数据,从而有效解决了存在重叠实体的情况下的信息表述问题。例如,针对头实体(在先实体)输出的多维矩阵中,第一个维度是尾实体(在后实体)的位置,第二个维度是头实体和尾实体的关系数据。
上述结构化数据的表示方式,可以使得模型在输出实体以及实体之间关系数据时,采用一组编码即可表达本次预测的医学实体以及医学实体之间的关系数据,适用于具有重叠实体的情况。
需要说明的是,本申请方案对应可以实施为应用程序、服务、实例、软件形态的功能模块、虚拟机(Virtual Machine,VM)或容器,或者也可以实现为具有图像处理功能的硬件设备(如服务器或终端设备)或硬件芯片(如CPU、GPU或FPGA)等。可以由软件方或提供计算或存储资源的平台方来实现。以平台提供Saas软件即服务(Software-as-a-Service)为例,平台可以利用自身的计算资源提供编码器训练、文本样本的特征提取、实体识别模型的训练以及实体和实体关系数据的识别的等功能,具体的应用架构可以根据服务需求进行搭建。例如平台可以向使用平台资源的软件方或个人提供基于文本训练实体识别模型的服务、基于提交的目标文本进行信息抽取的服务、基于多个文本进行信息抽取并创建数据库或知识图谱的服务、基于对目标实体的检索请求提供检索结果或问题答复的服务等,对应在下述各个实施例体现。
参考图1给出了本申请的一种实体识别方法的一个示例。如图所示,从百科网站或图书语料库中收集第二文本,从微生物网站收集论文摘要作为第一文本,将第二文本的特征提取迁移到微生物领域的编码器的训练中,训练得到基于transformer的Bert双向编码器,如图可见,Bert编码器中输入语句sentence后,进入embedoing嵌入层、self attention自注意力层、layer norm范数层、feed forward前馈神经网络层、layer norm范数层,在最后一层范数层输出的hidden state隐藏状态数据作为词的文本特征,可以包括上下文关联特征、标点符号特征、大小写特征、词性标注特征、句法依赖特征等。将样本文本输入该编码器可以进一步训练实体识别模型,其中至少包括实体识别层和关系抽取层,实体识别层采用条件随机场训练(采用soft max进行分类,通过CRF loss layer损失函数层进行依据损失函数的迭代训练),关系抽取层采用多头注意力机制的神经网络模型训练(采用loglikelihood最大似然估计进行结果预测),训练好的模型可以用于目标文本的实体识别和实体关系的抽取。
参照图2,示出了根据本申请实施例一的一种实体识别方法的流程图,该方法具体可以包括以下步骤:
步骤101,基于对应于单分类领域的第一文本,以及对应于多分类领域的第二文本,训练对应于单分类领域进行文本特征提取的编码器;
步骤102,使用所述编码器提取所述单分类领域的样本文本中的词的文本特征;
步骤103,根据所述样本文本标记的实体识别结果以及所述样本文本中的词的文本特征,训练实体识别模型;
步骤104,基于所获得的实体识别模型,识别所述单分类领域的目标文本中作为实体的词以及至少两种实体之间的关系数据。
依据本申请实施例,预先获取基于对应于单分类领域的第一文本,以及对应于多分类领域的第二文本,基于两种文本预料训练编码器,并使用该编码器提取单分类领域的样本文本中的词的文本特征,进一步依据样本文本标记的实体识别结果以及所述样本文本中的词的文本特征训练实体识别模型,基于所获得的实体识别模型可以识别单分类领域的目标文本中的实体以及至少两种实体之间的关系数据。由于本申请将第二文本结合第一文本进行编码器的训练,能够将第二文本的特征提取迁移到编码器的训练中,从而降低了对第一文本的标注数量的要求,不依赖于大规模的标注数据,对标注数据的质量也没有特别要求,也即是说,基于本申请中多分类领域对单分类领域进行文本特征迁移的方案设计,可以仅使用少量标注的第一文本进行编码器的训练,即可获得具有在单分类领域进行文本特征抽取的能力。可以理解的是,在第一文本标注数量确定的情况下,本申请的方案可以提高编码器提取特征的准确性,据此进一步训练的实体识别模型可以提高实体识别结果的预测性能。
一种可选的实施例中,所述方法还包括:
通过网络爬虫抓取对应于单分类领域的第一文本,或,访问网络数据库获取对应于单分类领域的第一文本。
所述通过网络爬虫抓取对应于单分类领域的第一文本包括:
通过网络爬虫抓取单分类领域的专业网站发表的专业文章,提取所述专业文章的摘要内容作为单分类领域的第一文本。
一种可选的实施例中,所述方法还包括:
去除所述第一文本中与单分类领域无关的内容。
一种可选的实施例中,所述编码器包括双向编码器,所述使用所述编码器提取所述单分类领域的样本文本中的词的文本特征包括:
提取所述样本文本中的词在所述样本文本中的上下文关联特征。
本申请在提取样本文本的文本特征时结合自注意力机制实现,即关注文本内部的数据相关性,同时提取词在样本文本中的上下文关联特征,从而可以结合文本来表征词的文本特性,编码器有更强的表达能力,提取的文本特征相比于一般的编码器提取的文本特征更具有代表性,进而使得基于文本特征训练的实体识别模型可以更准确地进行实体识别。
一种可选的实施例中,所述使用所述编码器提取所述单分类领域的样本文本中的词的文本特征包括:
将所述样本文本输入所述双向编码器并执行所述双向编码器对应的语言识别任务;
提取样本文本中的词在所述双向编码器的最后一层的隐藏状态数据,作为所述词对应的文本特征。
一种可选的实施例中,所述方法还包括:
提取所述单分类领域的样本文本中的词的标点符号特征、大小写特征、词性标注特征、句法依赖特征中至少一种文本特征。
一种可选的实施例中,所述根据所述样本文本标记的实体识别结果以及所述样本文本中的词的文本特征,训练实体识别模型包括:
根据用于实体识别的实体识别层对应的第一损失函数,以及用于关系数据识别的关系抽取层对应的第二损失函数,确定所述实体识别模型的综合损失函数;
根据所述综合损失函数对所述实体识别模型进行迭代训练。
一种可选的实施例中,所述基于所获得的实体识别模型,识别所述单分类领域的目标文本中作为实体的词以及至少两种实体之间的关系数据包括:
基于所述实体识别模型的实体识别层,识别所述单分类领域的目标文本中作为实体的词;
基于所述实体识别模型的关系抽取层以及所述实体在多个维度的关联信息,识别所述至少两种实体之间的关系数据。
一种可选的实施例中,所述方法还包括:
根据识别的实体以及实体之间的关系数据建立所述单分类领域的实体关系数据库,所述实体关系数据库中实体、至少两种实体之间的关系数据关联存储。
一种可选的实施例中,所述方法还包括:
接收针对至少一种目标实体的检索请求;
从所述实体关系数据库中检索所述目标实体与其他实体之间的关系数据,并提供所述关系数据作为检索结果。
一种可选的实施例中,所述方法还包括:
所述实体关系数据库中实体、至少两种实体之间的关系数据以及所述单分类领域的第一文本关联存储;
一种可选的实施例中,所述方法还包括:
同时提供与所述目标实体对应的第一文本作为检索结果。
一种可选的实施例中,所述方法还包括:
将文本片段对应识别到的实体和实体之间的关系数据组织为结构化数据,作为所述文本片段对应的信息抽取结果;
按照多个文本片段的位置,将文本片段对应的信息抽取结果拼接为所述目标文本对应的信息抽取结果。
一种可选的实施例中,所述实体对应的文本片段对应一个实体与多个实体的关系数据时,所述将文本片段对应识别到的实体和实体之间的关系数据组织为结构化数据包括:
构建第一实体、第二实体、关系数据的多维矩阵,作为所述结构化数据。
与上述内容相应的,本申请可以应用于对实体模型的处理中,参照图3,示出了根据本申请实施例二的一种实体识别模型的处理方法的流程图,该方法具体可以包括以下步骤:
步骤201,基于对应于单分类领域的第一文本,以及对应于多分类领域的第二文本,训练对应于单分类领域进行文本特征提取的编码器;
步骤202,使用所述编码器提取所述单分类领域的样本文本中的词的文本特征;
步骤203,根据所述样本文本标记的实体识别结果以及所述样本文本中的词的文本特征,训练实体识别模型,所述实体识别模型用于识别所述单分类领域的目标文本中作为实体的词以及至少两种实体之间的关系数据。
依据本申请实施例,预先获取基于对应于单分类领域的第一文本,以及对应于多分类领域的第二文本,基于两种文本预料训练编码器,并使用该编码器提取单分类领域的样本文本中的词的文本特征,进一步依据样本文本标记的实体识别结果以及所述样本文本中的词的文本特征训练实体识别模型,基于所获得的实体识别模型可以识别单分类领域的目标文本中的实体以及至少两种实体之间的关系数据。由于本申请将第二文本结合第一文本进行编码器的训练,能够将第二文本的特征提取迁移到编码器的训练中,从而降低了对第一文本的标注数量的要求,不依赖于大规模的标注数据,对标注数据的质量也没有特别要求,也即是说,基于本申请中多分类领域对单分类领域进行文本特征迁移的方案设计,可以仅使用少量标注的第一文本进行编码器的训练,即可获得具有在单分类领域进行文本特征抽取的能力。可以理解的是,在第一文本标注数量确定的情况下,本申请的方案可以提高编码器提取特征的准确性,据此进一步训练的实体识别模型可以提高实体识别结果的预测性能。
上述方案还可以进一步应用于文本信息的抽取中,参照图4,示出了根据本申请实施例三的一种信息抽取方法的流程图,该方法具体可以包括以下步骤:
步骤301,获取目标文本;
步骤302,基于实体识别模型,识别所述单分类领域的目标文本中作为实体的词以及至少两种实体之间的关系数据;所述实体识别模型训练时所依据的样本文本中词的文本特征使用编码器提取,所述编码器基于对应于单分类领域的第一文本,以及对应于多分类领域的第二文本训练得到;
步骤303,将文本片段对应识别到的实体和实体之间的关系数据组织为结构化数据,作为所述文本片段对应的信息抽取结果;
步骤304,按照多个文本片段的位置,将文本片段对应的信息抽取结果拼接为所述目标文本对应的信息抽取结果。
依据本申请实施例,预先获取基于对应于单分类领域的第一文本,以及对应于多分类领域的第二文本,基于两种文本预料训练编码器,并使用该编码器提取单分类领域的样本文本中的词的文本特征,进一步依据样本文本标记的实体识别结果以及所述样本文本中的词的文本特征训练实体识别模型,基于所获得的实体识别模型可以识别单分类领域的目标文本中的实体以及至少两种实体之间的关系数据。由于本申请将第二文本结合第一文本进行编码器的训练,能够将第二文本的特征提取迁移到编码器的训练中,从而降低了对第一文本的标注数量的要求,不依赖于大规模的标注数据,对标注数据的质量也没有特别要求,也即是说,基于本申请中多分类领域对单分类领域进行文本特征迁移的方案设计,可以仅使用少量标注的第一文本进行编码器的训练,即可获得具有在单分类领域进行文本特征抽取的能力。可以理解的是,在第一文本标注数量确定的情况下,本申请的方案可以提高编码器提取特征的准确性,据此进一步训练的实体识别模型可以提高实体识别结果的预测性能。
基于大量文本抽取的信息可以进一步创建信息数据库,用于信息检索中,参照图5,示出了根据本申请实施例四的一种信息检索方法的流程图,该方法具体可以包括以下步骤:
步骤401,接收针对至少一种目标实体的检索请求;
步骤402,检索所述目标实体与其他实体之间的关系数据;其中,预置有基于实体识别模型识别的、单分类领域的多个文本中的实体以及至少两种实体之间的关系数据,所述实体识别模型训练所依据的样本文本中词的文本特征使用编码器提取,所述编码器基于对应于单分类领域的第一文本,以及对应于多分类领域的第二文本训练得到;
步骤403,提供所述关系数据作为检索结果。
一种可选的实施例总,上述方法还可以包括:
基于识别到的单分类领域的多个文本中的实体以及至少两种实体之间的关系数据,生成实体关系数据库;
所述检索所述目标实体与其他实体之间的关系数据包括:
从所述实体关系数据库中检索所述目标实体与其他实体之间的关系数据。
依据本申请实施例,预先获取基于对应于单分类领域的第一文本,以及对应于多分类领域的第二文本,基于两种文本预料训练编码器,并使用该编码器提取单分类领域的样本文本中的词的文本特征,进一步依据样本文本标记的实体识别结果以及所述样本文本中的词的文本特征训练实体识别模型,基于所获得的实体识别模型可以识别单分类领域的目标文本中的实体以及至少两种实体之间的关系数据。由于本申请将第二文本结合第一文本进行编码器的训练,能够将第二文本的特征提取迁移到编码器的训练中,从而降低了对第一文本的标注数量的要求,不依赖于大规模的标注数据,对标注数据的质量也没有特别要求,也即是说,基于本申请中多分类领域对单分类领域进行文本特征迁移的方案设计,可以仅使用少量标注的第一文本进行编码器的训练,即可获得具有在单分类领域进行文本特征抽取的能力。可以理解的是,在第一文本标注数量确定的情况下,本申请的方案可以提高编码器提取特征的准确性,据此进一步训练的实体识别模型可以提高实体识别结果的预测性能。
上述实施例还可以进一步用于微生物信息的识别中,此处的微生物信息也即是微生物实体,可以是微生物名称、微生物相关的性状信息、聚集地信息等。参照图6,示出了根据本申请实施例五的一种微生物信息的识别方法的流程图,该方法具体可以包括以下步骤:
步骤501,基于对应于微生物领域的专业文章摘要,以及对应于多分类领域的第二文本,训练对应于微生物领域进行文本特征提取的编码器;
步骤502,使用所述编码器提取所述微生物领域的样本文本中的词的文本特征;
步骤503,根据所述样本文本标记的微生物信息识别结果以及所述样本文本中的词的文本特征,训练微生物信息识别模型;
步骤504,基于微生物信息识别模型,识别所述微生物领域的目标文本中的微生物信息以及至少两种微生物信息之间的关系数据。
依据本申请实施例,预先获取基于对应于单分类领域的第一文本,以及对应于多分类领域的第二文本,基于两种文本预料训练编码器,并使用该编码器提取单分类领域的样本文本中的词的文本特征,进一步依据样本文本标记的实体识别结果以及所述样本文本中的词的文本特征训练实体识别模型,基于所获得的实体识别模型可以识别单分类领域的目标文本中的实体以及至少两种实体之间的关系数据。由于本申请将第二文本结合第一文本进行编码器的训练,能够将第二文本的特征提取迁移到编码器的训练中,从而降低了对第一文本的标注数量的要求,不依赖于大规模的标注数据,对标注数据的质量也没有特别要求,也即是说,基于本申请中多分类领域对单分类领域进行文本特征迁移的方案设计,可以仅使用少量标注的第一文本进行编码器的训练,即可获得具有在单分类领域进行文本特征抽取的能力。可以理解的是,在第一文本标注数量确定的情况下,本申请的方案可以提高编码器提取特征的准确性,据此进一步训练的实体识别模型可以提高实体识别结果的预测性能。
上述方案还可以应用于微生物领域的微生物识别模型的创建中,参照图7,示出了根据本申请实施例六的一种微生物识别模型的处理方法的流程图,该方法具体可以包括以下步骤:
步骤601,基于对应于微生物领域的专业文章摘要,以及对应于多分类领域的第二文本,训练对应于微生物领域进行文本特征提取的编码器;
步骤602,使用所述编码器提取所述微生物领域的样本文本中的词的文本特征;
步骤603,根据所述样本文本标记的微生物信息识别结果以及所述样本文本中的词的文本特征,训练微生物信息识别模型,所述微生物信息识别模型用于识别所述单分类领域的目标文本中的微生物信息以及至少两种微生物信息之间的关系数据,
依据本申请实施例,预先获取基于对应于微生物领域的第一文本,以及对应于多分类领域的第二文本,基于两种文本预料训练编码器,并使用该编码器提取微生物领域的样本文本中的词的文本特征,进一步依据样本文本标记的微生物信息识别结果以及所述样本文本中的词的文本特征训练微生物信息识别模型,基于微生物信息识别模型可以识别微生物领域的目标文本中的微生物信息以及至少两种微生物信息之间的关系数据。由于本申请将第二文本结合第一文本进行编码器的训练,能够将第二文本的特征提取迁移到编码器的训练中,从而降低了对第一文本的标注数量的要求,不依赖于大规模的标注数据,对标注数据的质量也没有特别要求,也即是说,基于本申请中多分类领域对微生物领域进行文本特征迁移的方案设计,可以仅使用少量标注的第一文本进行编码器的训练,即可获得具有在微生物领域进行文本特征抽取的能力。可以理解的是,在第一文本标注数量确定的情况下,本申请的方案可以提高编码器提取特征的准确性,据此进一步训练的微生物信息识别模型可以提高微生物信息识别结果的预测性能。
微生物信息的识别可以进一步用于对微生物领域的文本的信息抽取中,参照图8,示出了根据本申请实施例七的一种微生物文本的信息抽取方法的流程图,该方法具体可以包括以下步骤:包括:
步骤701,获取目标文本;
步骤702,基于微生物信息识别模型,识别所述单分类领域的目标文本中的微生物信息以及至少两种微生物信息之间的关系数据;所述微生物信息识别模型训练时所依据的样本文本中词的文本特征使用编码器提取,所述编码器基于对应于微生物领域的专业文章摘要,以及对应于多分类领域的第二文本训练得到;
步骤703,将文本片段对应识别到的微生物信息和微生物信息之间的关系数据组织为结构化数据,作为所述文本片段对应的信息抽取结果;
步骤704,按照多个文本片段的位置,将文本片段对应的信息抽取结果拼接为所述目标文本对应的信息抽取结果。
依据本申请实施例,预先获取基于对应于微生物领域的第一文本,以及对应于多分类领域的第二文本,基于两种文本预料训练编码器,并使用该编码器提取微生物领域的样本文本中的词的文本特征,进一步依据样本文本标记的微生物信息识别结果以及所述样本文本中的词的文本特征训练微生物信息识别模型,基于微生物信息识别模型可以识别微生物领域的目标文本中的微生物信息以及至少两种微生物信息之间的关系数据。由于本申请将第二文本结合第一文本进行编码器的训练,能够将第二文本的特征提取迁移到编码器的训练中,从而降低了对第一文本的标注数量的要求,不依赖于大规模的标注数据,对标注数据的质量也没有特别要求,也即是说,基于本申请中多分类领域对微生物领域进行文本特征迁移的方案设计,可以仅使用少量标注的第一文本进行编码器的训练,即可获得具有在微生物领域进行文本特征抽取的能力。可以理解的是,在第一文本标注数量确定的情况下,本申请的方案可以提高编码器提取特征的准确性,据此进一步训练的微生物信息识别模型可以提高微生物信息识别结果的预测性能。
基于大量微生物领域的文本信息抽取,可以创建相应的微生物信息数据库,或是创建相应的微生物信息图谱,参照图9,示出了根据本申请实施例八的一种微生物信息图谱的构建方法的流程图,该方法具体可以包括以下步骤:
步骤801,获取多个目标文本;
步骤802,基于微生物信息识别模型,识别所述单分类领域的目标文本中的微生物信息以及至少两种微生物信息之间的关系数据;所述微生物信息识别模型训练时所依据的样本文本中词的文本特征使用编码器提取,所述编码器基于对应于微生物领域的专业文章摘要,以及对应于多分类领域的第二文本训练得到;
步骤803,根据多个目标文本识别的微生物信息之间的层级结构关系,将所述微生物信息以及至少两种微生物信息之间的关系数据构建为微生物信息图谱。
依据本申请实施例,预先获取基于对应于微生物领域的第一文本,以及对应于多分类领域的第二文本,基于两种文本预料训练编码器,并使用该编码器提取微生物领域的样本文本中的词的文本特征,进一步依据样本文本标记的微生物信息识别结果以及所述样本文本中的词的文本特征训练微生物信息识别模型,基于微生物信息识别模型可以识别微生物领域的目标文本中的微生物信息以及至少两种微生物信息之间的关系数据。由于本申请将第二文本结合第一文本进行编码器的训练,能够将第二文本的特征提取迁移到编码器的训练中,从而降低了对第一文本的标注数量的要求,不依赖于大规模的标注数据,对标注数据的质量也没有特别要求,也即是说,基于本申请中多分类领域对微生物领域进行文本特征迁移的方案设计,可以仅使用少量标注的第一文本进行编码器的训练,即可获得具有在微生物领域进行文本特征抽取的能力。可以理解的是,在第一文本标注数量确定的情况下,本申请的方案可以提高编码器提取特征的准确性,据此进一步训练的微生物信息识别模型可以提高微生物信息识别结果的预测性能。
基于大量微生物领域的文本的信息抽取,可以创建相应的微生物信息数据库,进一步用于微生物信息的检索,参照图10,示出了根据本申请实施例九的一种微生物信息检索方法的流程图,该方法具体可以包括以下步骤:
步骤901,接收针对至少一种目标微生物信息的检索请求;
步骤902,检索所述目标微生物信息与其他微生物信息之间的关系数据;其中,预置有基于实体识别模型识别的、微生物领域的多个文本中的微生物信息以及至少两种微生物信息之间的关系数据,所述微生物信息识别模型训练时所依据的样本文本中词的文本特征使用编码器提取,所述编码器基于对应于微生物领域的专业文章摘要,以及对应于多种微生物领域的第二文本训练得到;
步骤903,提供所述关系数据作为检索结果。
依据本申请实施例,预先获取基于对应于微生物领域的第一文本,以及对应于多分类领域的第二文本,基于两种文本预料训练编码器,并使用该编码器提取微生物领域的样本文本中的词的文本特征,进一步依据样本文本标记的微生物信息识别结果以及所述样本文本中的词的文本特征训练微生物信息识别模型,基于微生物信息识别模型可以识别微生物领域的目标文本中的微生物信息以及至少两种微生物信息之间的关系数据。由于本申请将第二文本结合第一文本进行编码器的训练,能够将第二文本的特征提取迁移到编码器的训练中,从而降低了对第一文本的标注数量的要求,不依赖于大规模的标注数据,对标注数据的质量也没有特别要求,也即是说,基于本申请中多分类领域对微生物领域进行文本特征迁移的方案设计,可以仅使用少量标注的第一文本进行编码器的训练,即可获得具有在微生物领域进行文本特征抽取的能力。可以理解的是,在第一文本标注数量确定的情况下,本申请的方案可以提高编码器提取特征的准确性,据此进一步训练的微生物信息识别模型可以提高微生物信息识别结果的预测性能。
基于大量微生物领域的文本的信息抽取,可以创建相应的微生物信息数据库,进一步用于线上微生物信息的问答交互中,参照图11,示出了根据本申请实施例十的一种微生物信息的互动方法的流程图,该方法具体可以包括以下步骤:
步骤1001,接收包括目标微生物信息的问题;
步骤1002,检索所述目标微生物信息与其他微生物信息之间的关系数据;其中,预置有基于实体识别模型识别的、微生物领域的多个文本中的微生物信息以及至少两种微生物信息之间的关系数据,所述微生物信息识别模型训练时所依据的样本文本中词的文本特征使用编码器提取,所述编码器基于对应于微生物领域的专业文章摘要,以及对应于多种微生物领域的第二文本训练得到;
步骤1003,将所述目标微生物信息与其他微生物信息之间的关系数据组织为问题答案;
步骤1004,提供所述问题答案。
依据本申请实施例,预先获取基于对应于微生物领域的第一文本,以及对应于多分类领域的第二文本,基于两种文本预料训练编码器,并使用该编码器提取微生物领域的样本文本中的词的文本特征,进一步依据样本文本标记的微生物信息识别结果以及所述样本文本中的词的文本特征训练微生物信息识别模型,基于微生物信息识别模型可以识别微生物领域的目标文本中的微生物信息以及至少两种微生物信息之间的关系数据。由于本申请将第二文本结合第一文本进行编码器的训练,能够将第二文本的特征提取迁移到编码器的训练中,从而降低了对第一文本的标注数量的要求,不依赖于大规模的标注数据,对标注数据的质量也没有特别要求,也即是说,基于本申请中多分类领域对微生物领域进行文本特征迁移的方案设计,可以仅使用少量标注的第一文本进行编码器的训练,即可获得具有在微生物领域进行文本特征抽取的能力。可以理解的是,在第一文本标注数量确定的情况下,本申请的方案可以提高编码器提取特征的准确性,据此进一步训练的微生物信息识别模型可以提高微生物信息识别结果的预测性能。
参照图12,示出了根据本申请实施例十一的一种实体识别装置的结构框图,该装置具体可以包括:
编码器训练模块1101,用于基于对应于单分类领域的第一文本,以及对应于多分类领域的第二文本,训练对应于单分类领域进行文本特征提取的编码器;
第一特征提取模块1102,用于使用所述编码器提取所述单分类领域的样本文本中的词的文本特征;
实体识别模型训练模块1103,用于根据所述样本文本标记的实体识别结果以及所述样本文本中的词的文本特征,训练实体识别模型;
实体识别模块1104,用于基于所获得的实体识别模型,识别所述单分类领域的目标文本中作为实体的词以及至少两种实体之间的关系数据。
一种可选的实施例中,所述装置还包括:
文本抓取模块,用于通过网络爬虫抓取对应于单分类领域的第一文本,所述第一文本包括单分类领域的专业网站发表的专业文章的摘要内容;
或,数据库访问模块,用于访问网络数据库获取对应于单分类领域的第一文本。
一种可选的实施例中,所述装置还包括:
内容去除模块,用于去除所述第一文本中与单分类领域无关的内容。
一种可选的实施例中,所述编码器包括双向编码器,所述第一特征提取模块,具体用于提取所述样本文本中的词在所述样本文本中的上下文关联特征。
一种可选的实施例中,所述第一特征提取模块包括:
任务执行子模块,用于将所述样本文本输入所述双向编码器并执行所述双向编码器对应的语言识别任务;
输出提取子模块,用于提取样本文本中的词在所述双向编码器的最后一层的隐藏状态数据,作为所述词对应的文本特征。
一种可选的实施例中,所述装置还包括:
第二特征提取模块,用于提取所述单分类领域的样本文本中的词的标点符号特征、大小写特征、词性标注特征、句法依赖特征中至少一种文本特征。
一种可选的实施例中,所述实体识别模块训练模块包括:
损失函数确定模块,用于根据用于实体识别的实体识别层对应的第一损失函数,以及用于关系数据识别的关系抽取层对应的第二损失函数,确定所述实体识别模型的综合损失函数;
迭代训练模块,用于根据所述综合损失函数对所述实体识别模型进行迭代训练。
一种可选的实施例中,所述实体识别模块包括:
词识别子模块,用于基于所述实体识别模型的实体识别层,识别所述单分类领域的目标文本中作为实体的词;
关系数据识别子模块,用于基于所述实体识别模型的关系抽取层以及所述实体在多个维度的关联信息,识别所述至少两种实体之间的关系数据。
一种可选的实施例中,所述装置还包括:
数据库创建模块,用于根据识别的实体以及实体之间的关系数据建立所述单分类领域的实体关系数据库,所述实体关系数据库中实体、至少两种实体之间的关系数据关联存储。
一种可选的实施例中,所述装置还包括:
检索请求接收模块,用于接收针对至少一种目标实体的检索请求;
检索模块,用于从所述实体关系数据库中检索所述目标实体与其他实体之间的关系数据;
检索结果提供模块,用于提供所述关系数据作为检索结果。
一种可选的实施例中,所述实体关系数据库中实体、至少两种实体之间的关系数据以及所述单分类领域的第一文本关联存储;
所述装置还包括:
文本提供模块,用于同时提供与所述目标实体对应的第一文本作为检索结果。
一种可选的实施例中,所述装置还包括:
数据结构化模块,用于将文本片段对应识别到的实体和实体之间的关系数据组织为结构化数据,作为所述文本片段对应的信息抽取结果;
数据拼接模块,用于按照多个文本片段的位置,将文本片段对应的信息抽取结果拼接为所述目标文本对应的信息抽取结果。
一种可选的实施例中,所述数据结构化模块,具体用于构建第一实体、第二实体、关系数据的多维矩阵,作为所述结构化数据。
依据本申请实施例,预先获取基于对应于单分类领域的第一文本,以及对应于多分类领域的第二文本,基于两种文本预料训练编码器,并使用该编码器提取单分类领域的样本文本中的词的文本特征,进一步依据样本文本标记的实体识别结果以及所述样本文本中的词的文本特征训练实体识别模型,基于所获得的实体识别模型可以识别单分类领域的目标文本中的实体以及至少两种实体之间的关系数据。由于本申请将第二文本结合第一文本进行编码器的训练,能够将第二文本的特征提取迁移到编码器的训练中,从而降低了对第一文本的标注数量的要求,不依赖于大规模的标注数据,对标注数据的质量也没有特别要求,也即是说,基于本申请中多分类领域对单分类领域进行文本特征迁移的方案设计,可以仅使用少量标注的第一文本进行编码器的训练,即可获得具有在单分类领域进行文本特征抽取的能力。可以理解的是,在第一文本标注数量确定的情况下,本申请的方案可以提高编码器提取特征的准确性,据此进一步训练的实体识别模型可以提高实体识别结果的预测性能。
本申请在提取样本文本的文本特征时结合自注意力机制实现,即关注文本内部的数据相关性,同时提取词在样本文本中的上下文关联特征,从而可以结合文本来表征词的文本特性,编码器有更强的表达能力,提取的文本特征相比于一般的编码器提取的文本特征更具有代表性,进而使得基于文本特征训练的实体识别模型可以更准确地进行实体识别。
参照图13,示出了根据本申请实施例十二的一种实体识别模型的处理装置的结构框图,该装置具体可以包括:
编码器训练模块1201,用于基于对应于单分类领域的第一文本,以及对应于多分类领域的第二文本,训练对应于单分类领域进行文本特征提取的编码器;
特征提取模块1202,用于使用所述编码器提取所述单分类领域的样本文本中的词的文本特征;
实体识别模型训练模块1203,用于根据所述样本文本标记的实体识别结果以及所述样本文本中的词的文本特征,训练实体识别模型,所述实体识别模型用于识别所述单分类领域的目标文本中作为实体的词以及至少两种实体之间的关系数据。
依据本申请实施例,预先获取基于对应于单分类领域的第一文本,以及对应于多分类领域的第二文本,基于两种文本预料训练编码器,并使用该编码器提取单分类领域的样本文本中的词的文本特征,进一步依据样本文本标记的实体识别结果以及所述样本文本中的词的文本特征训练实体识别模型,基于所获得的实体识别模型可以识别单分类领域的目标文本中的实体以及至少两种实体之间的关系数据。由于本申请将第二文本结合第一文本进行编码器的训练,能够将第二文本的特征提取迁移到编码器的训练中,从而降低了对第一文本的标注数量的要求,不依赖于大规模的标注数据,对标注数据的质量也没有特别要求,也即是说,基于本申请中多分类领域对单分类领域进行文本特征迁移的方案设计,可以仅使用少量标注的第一文本进行编码器的训练,即可获得具有在单分类领域进行文本特征抽取的能力。可以理解的是,在第一文本标注数量确定的情况下,本申请的方案可以提高编码器提取特征的准确性,据此进一步训练的实体识别模型可以提高实体识别结果的预测性能。
参照图14,示出了根据本申请实施例十三的一种信息抽取的装置结构框图,该装置具体可以包括:
文本获取模块1301,用于获取目标文本;
实体识别模块1302,用于基于实体识别模型,识别所述单分类领域的目标文本中作为实体的词以及至少两种实体之间的关系数据;所述实体识别模型训练时所依据的样本文本中词的文本特征使用编码器提取,所述编码器基于对应于单分类领域的第一文本,以及对应于多分类领域的第二文本训练得到;
数据结构化模块1303,用于将文本片段对应识别到的实体和实体之间的关系数据组织为结构化数据,作为所述文本片段对应的信息抽取结果;
数据拼接模块1304,用于按照多个文本片段的位置,将文本片段对应的信息抽取结果拼接为所述目标文本对应的信息抽取结果。
依据本申请实施例,预先获取基于对应于单分类领域的第一文本,以及对应于多分类领域的第二文本,基于两种文本预料训练编码器,并使用该编码器提取单分类领域的样本文本中的词的文本特征,进一步依据样本文本标记的实体识别结果以及所述样本文本中的词的文本特征训练实体识别模型,基于所获得的实体识别模型可以识别单分类领域的目标文本中的实体以及至少两种实体之间的关系数据。由于本申请将第二文本结合第一文本进行编码器的训练,能够将第二文本的特征提取迁移到编码器的训练中,从而降低了对第一文本的标注数量的要求,不依赖于大规模的标注数据,对标注数据的质量也没有特别要求,也即是说,基于本申请中多分类领域对单分类领域进行文本特征迁移的方案设计,可以仅使用少量标注的第一文本进行编码器的训练,即可获得具有在单分类领域进行文本特征抽取的能力。可以理解的是,在第一文本标注数量确定的情况下,本申请的方案可以提高编码器提取特征的准确性,据此进一步训练的实体识别模型可以提高实体识别结果的预测性能。
参照图15,示出了根据本申请实施例十四的一种信息检索装置的结构框图,该装置具体可以包括:
检索接收模块1401,用于接收针对至少一种目标实体的检索请求;
检索模块1402,用于检索所述目标实体与其他实体之间的关系数据;其中,预置有基于实体识别模型识别的、单分类领域的多个文本中的实体以及至少两种实体之间的关系数据,所述实体识别模型训练所依据的样本文本中词的文本特征使用编码器提取,所述编码器基于对应于单分类领域的第一文本,以及对应于多分类领域的第二文本训练得到;
检索结果提供模块1403,用于提供所述关系数据作为检索结果。
一种可选的实施例中,上述装置还可以包括:
数据库生成模块,用于基于识别到的单分类领域的多个文本中的实体以及至少两种实体之间的关系数据,生成实体关系数据库;
所述检索模块,具体用于从所述实体关系数据库中检索所述目标实体与其他实体之间的关系数据。
依据本申请实施例,预先获取基于对应于单分类领域的第一文本,以及对应于多分类领域的第二文本,基于两种文本预料训练编码器,并使用该编码器提取单分类领域的样本文本中的词的文本特征,进一步依据样本文本标记的实体识别结果以及所述样本文本中的词的文本特征训练实体识别模型,基于所获得的实体识别模型可以识别单分类领域的目标文本中的实体以及至少两种实体之间的关系数据。由于本申请将第二文本结合第一文本进行编码器的训练,能够将第二文本的特征提取迁移到编码器的训练中,从而降低了对第一文本的标注数量的要求,不依赖于大规模的标注数据,对标注数据的质量也没有特别要求,也即是说,基于本申请中多分类领域对单分类领域进行文本特征迁移的方案设计,可以仅使用少量标注的第一文本进行编码器的训练,即可获得具有在单分类领域进行文本特征抽取的能力。可以理解的是,在第一文本标注数量确定的情况下,本申请的方案可以提高编码器提取特征的准确性,据此进一步训练的实体识别模型可以提高实体识别结果的预测性能。
参照图16,示出了根据本申请实施例十五的一种微生物信息的识别装置的结构框图,该装置具体可以包括:
编码器训练模块1501,用于基于对应于微生物领域的专业文章摘要,以及对应于多分类领域的第二文本,训练对应于微生物领域进行文本特征提取的编码器;
特征提取模块1502,用于使用所述编码器提取所述微生物领域的样本文本中的词的文本特征;
微生物信息识别模型训练模块1503,用于根据所述样本文本标记的微生物信息识别结果以及所述样本文本中的词的文本特征,训练微生物信息识别模型;
微生物信息识别模块1504,用于基于所获得的微生物信息识别模型,识别所述微生物领域的目标文本中的微生物信息以及至少两种微生物信息之间的关系数据。
依据本申请实施例,预先获取基于对应于微生物领域的第一文本,以及对应于多分类领域的第二文本,基于两种文本预料训练编码器,并使用该编码器提取微生物领域的样本文本中的词的文本特征,进一步依据样本文本标记的微生物信息识别结果以及所述样本文本中的词的文本特征训练微生物信息识别模型,基于所获得的微生物信息识别模型可以识别微生物领域的目标文本中的微生物信息以及至少两种微生物信息之间的关系数据。由于本申请将第二文本结合第一文本进行编码器的训练,能够将第二文本的特征提取迁移到编码器的训练中,从而降低了对第一文本的标注数量的要求,不依赖于大规模的标注数据,对标注数据的质量也没有特别要求,也即是说,基于本申请中多分类领域对微生物领域进行文本特征迁移的方案设计,可以仅使用少量标注的第一文本进行编码器的训练,即可获得具有在微生物领域进行文本特征抽取的能力。可以理解的是,在第一文本标注数量确定的情况下,本申请的方案可以提高编码器提取特征的准确性,据此进一步训练的微生物信息识别模型可以提高微生物信息识别结果的预测性能。
参照图17,示出了根据本申请实施例十六的一种微生物识别模型的处理装置的结构框图,该装置具体可以包括:
编码器训练模块1601,基于对应于微生物领域的专业文章摘要,以及对应于多分类领域的第二文本,训练对应于微生物领域进行文本特征提取的编码器;
特征提取模块1602,用于使用所述编码器提取所述微生物领域的样本文本中的词的文本特征;
微生物识别模型训练模块1603,用于根据所述样本文本标记的微生物信息识别结果以及所述样本文本中的词的文本特征,训练微生物信息识别模型,所述微生物信息识别模型用于识别所述单分类领域的目标文本中的微生物信息以及至少两种微生物信息之间的关系数据,
依据本申请实施例,预先获取基于对应于微生物领域的第一文本,以及对应于多分类领域的第二文本,基于两种文本预料训练编码器,并使用该编码器提取微生物领域的样本文本中的词的文本特征,进一步依据样本文本标记的微生物信息识别结果以及所述样本文本中的词的文本特征训练微生物信息识别模型,基于所获得的微生物信息识别模型可以识别微生物领域的目标文本中的微生物信息以及至少两种微生物信息之间的关系数据。由于本申请将第二文本结合第一文本进行编码器的训练,能够将第二文本的特征提取迁移到编码器的训练中,从而降低了对第一文本的标注数量的要求,不依赖于大规模的标注数据,对标注数据的质量也没有特别要求,也即是说,基于本申请中多分类领域对微生物领域进行文本特征迁移的方案设计,可以仅使用少量标注的第一文本进行编码器的训练,即可获得具有在微生物领域进行文本特征抽取的能力。可以理解的是,在第一文本标注数量确定的情况下,本申请的方案可以提高编码器提取特征的准确性,据此进一步训练的微生物信息识别模型可以提高微生物信息识别结果的预测性能。
参照图18,示出了根据本申请实施例十七的一种微生物文本的信息抽取装置的结构框图,该装置具体可以包括:
目标文本获取模块1701,用于获取目标文本;
微生物信息识别模块1702,用于基于微生物信息识别模型,识别所述单分类领域的目标文本中的微生物信息以及至少两种微生物信息之间的关系数据;所述微生物信息识别模型训练时所依据的样本文本中词的文本特征使用编码器提取,所述编码器基于对应于微生物领域的专业文章摘要,以及对应于多分类领域的第二文本训练得到;
数据结构化模块1703,用于将文本片段对应识别到的微生物信息和微生物信息之间的关系数据组织为结构化数据,作为所述文本片段对应的信息抽取结果;
数据拼接模块1704,用于按照多个文本片段的位置,将文本片段对应的信息抽取结果拼接为所述目标文本对应的信息抽取结果。
依据本申请实施例,预先获取基于对应于微生物领域的第一文本,以及对应于多分类领域的第二文本,基于两种文本预料训练编码器,并使用该编码器提取微生物领域的样本文本中的词的文本特征,进一步依据样本文本标记的微生物信息识别结果以及所述样本文本中的词的文本特征训练微生物信息识别模型,基于所获得的微生物信息识别模型可以识别微生物领域的目标文本中的微生物信息以及至少两种微生物信息之间的关系数据。由于本申请将第二文本结合第一文本进行编码器的训练,能够将第二文本的特征提取迁移到编码器的训练中,从而降低了对第一文本的标注数量的要求,不依赖于大规模的标注数据,对标注数据的质量也没有特别要求,也即是说,基于本申请中多分类领域对微生物领域进行文本特征迁移的方案设计,可以仅使用少量标注的第一文本进行编码器的训练,即可获得具有在微生物领域进行文本特征抽取的能力。可以理解的是,在第一文本标注数量确定的情况下,本申请的方案可以提高编码器提取特征的准确性,据此进一步训练的微生物信息识别模型可以提高微生物信息识别结果的预测性能。
参照图19,示出了根据本申请实施例十八的一种微生物信息图谱的构建装置的结构框图,该装置具体可以包括:
目标文本获取模块1801,用于获取多个目标文本;
微生物信息识别模块1802,用于基于微生物信息识别模型,识别所述单分类领域的目标文本中的微生物信息以及至少两种微生物信息之间的关系数据;所述微生物信息识别模型训练时所依据的样本文本中词的文本特征使用编码器提取,所述编码器基于对应于微生物领域的专业文章摘要,以及对应于多分类领域的第二文本训练得到;
微生物信息图谱构建模块1803,用于根据多个目标文本识别的微生物信息之间的层级结构关系,将所述微生物信息以及至少两种微生物信息之间的关系数据构建为微生物信息图谱。
依据本申请实施例,预先获取基于对应于微生物领域的第一文本,以及对应于多分类领域的第二文本,基于两种文本预料训练编码器,并使用该编码器提取微生物领域的样本文本中的词的文本特征,进一步依据样本文本标记的微生物信息识别结果以及所述样本文本中的词的文本特征训练微生物信息识别模型,基于所获得的微生物信息识别模型可以识别微生物领域的目标文本中的微生物信息以及至少两种微生物信息之间的关系数据。由于本申请将第二文本结合第一文本进行编码器的训练,能够将第二文本的特征提取迁移到编码器的训练中,从而降低了对第一文本的标注数量的要求,不依赖于大规模的标注数据,对标注数据的质量也没有特别要求,也即是说,基于本申请中多分类领域对微生物领域进行文本特征迁移的方案设计,可以仅使用少量标注的第一文本进行编码器的训练,即可获得具有在微生物领域进行文本特征抽取的能力。可以理解的是,在第一文本标注数量确定的情况下,本申请的方案可以提高编码器提取特征的准确性,据此进一步训练的微生物信息识别模型可以提高微生物信息识别结果的预测性能。
参照图20,示出了根据本申请实施例十九的一种微生物信息检索装置的结构框图,该装置具体可以包括:
检索请求接收模块1901,用于接收针对至少一种目标微生物信息的检索请求;
检索模块1902,用于检索所述目标微生物信息与其他微生物信息之间的关系数据;其中,预置有基于实体识别模型识别的、微生物领域的多个文本中的微生物信息以及至少两种微生物信息之间的关系数据,所述微生物信息识别模型训练时所依据的样本文本中词的文本特征使用编码器提取,所述编码器基于对应于微生物领域的专业文章摘要,以及对应于多分类领域的第二文本训练得到;
检索结果提供模块1903,用于提供所述关系数据作为检索结果。
依据本申请实施例,预先获取基于对应于微生物领域的第一文本,以及对应于多分类领域的第二文本,基于两种文本预料训练编码器,并使用该编码器提取微生物领域的样本文本中的词的文本特征,进一步依据样本文本标记的微生物信息识别结果以及所述样本文本中的词的文本特征训练微生物信息识别模型,基于所获得的微生物信息识别模型可以识别微生物领域的目标文本中的微生物信息以及至少两种微生物信息之间的关系数据。由于本申请将第二文本结合第一文本进行编码器的训练,能够将第二文本的特征提取迁移到编码器的训练中,从而降低了对第一文本的标注数量的要求,不依赖于大规模的标注数据,对标注数据的质量也没有特别要求,也即是说,基于本申请中多分类领域对微生物领域进行文本特征迁移的方案设计,可以仅使用少量标注的第一文本进行编码器的训练,即可获得具有在微生物领域进行文本特征抽取的能力。可以理解的是,在第一文本标注数量确定的情况下,本申请的方案可以提高编码器提取特征的准确性,据此进一步训练的微生物信息识别模型可以提高微生物信息识别结果的预测性能。
参照图21,示出了根据本申请实施例二十的一种微生物信息的互动装置的结构框图,该装置具体可以包括:
问题接收模块2001,用于接收包括目标微生物信息的问题;
数据检索模块2002,用于检索所述目标微生物信息与其他微生物信息之间的关系数据;其中,预置有基于实体识别模型识别的、微生物领域的多个文本中的微生物信息以及至少两种微生物信息之间的关系数据,所述微生物信息识别模型训练时所依据的样本文本中词的文本特征使用编码器提取,所述编码器基于对应于微生物领域的专业文章摘要,以及对应于多分类领域的第二文本训练得到;
答案组织模块2003,用于将所述目标微生物信息与其他微生物信息之间的关系数据组织为问题答案;
答案提供模块2004,用于提供所述问题答案。
依据本申请实施例,预先获取基于对应于微生物领域的第一文本,以及对应于多分类领域的第二文本,基于两种文本预料训练编码器,并使用该编码器提取微生物领域的样本文本中的词的文本特征,进一步依据样本文本标记的微生物信息识别结果以及所述样本文本中的词的文本特征训练微生物信息识别模型,基于所获得的微生物信息识别模型可以识别微生物领域的目标文本中的微生物信息以及至少两种微生物信息之间的关系数据。由于本申请将第二文本结合第一文本进行编码器的训练,能够将第二文本的特征提取迁移到编码器的训练中,从而降低了对第一文本的标注数量的要求,不依赖于大规模的标注数据,对标注数据的质量也没有特别要求,也即是说,基于本申请中多分类领域对微生物领域进行文本特征迁移的方案设计,可以仅使用少量标注的第一文本进行编码器的训练,即可获得具有在微生物领域进行文本特征抽取的能力。可以理解的是,在第一文本标注数量确定的情况下,本申请的方案可以提高编码器提取特征的准确性,据此进一步训练的微生物信息识别模型可以提高微生物信息识别结果的预测性能。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本公开的实施例可被实现为使用任意适当的硬件,固件,软件,或及其任意组合进行想要的配置的系统。图22示意性地示出了可被用于实现本公开中所述的各个实施例的示例性系统(或装置)2100。
对于一个实施例,图21示出了示例性系统2100,该系统具有一个或多个处理器2102、被耦合到(一个或多个)处理器2102中的至少一个的系统控制模块(芯片组)2104、被耦合到系统控制模块2104的系统存储器2106、被耦合到系统控制模块2104的非易失性存储器(NVM)/存储设备2108、被耦合到系统控制模块2104的一个或多个输入/输出设备2110,以及被耦合到系统控制模块2106的网络接口2112。
处理器2102可包括一个或多个单核或多核处理器,处理器2102可包括通用处理器或专用处理器(例如图形处理器、应用处理器、基频处理器等)的任意组合。在一些实施例中,系统2100能够作为本申请实施例中所述的浏览器。
在一些实施例中,系统2100可包括具有指令的一个或多个计算机可读介质(例如,系统存储器2106或NVM/存储设备2108)以及与该一个或多个计算机可读介质相合并被配置为执行指令以实现模块从而执行本公开中所述的动作的一个或多个处理器2102。
对于一个实施例,系统控制模块2104可包括任意适当的接口控制器,以向(一个或多个)处理器2102中的至少一个和/或与系统控制模块2104通信的任意适当的设备或组件提供任意适当的接口。
系统控制模块2104可包括存储器控制器模块,以向系统存储器2106提供接口。存储器控制器模块可以是硬件模块、软件模块和/或固件模块。
系统存储器2106可被用于例如为系统2100加载和存储数据和/或指令。对于一个实施例,系统存储器2106可包括任意适当的易失性存储器,例如,适当的DRAM。在一些实施例中,系统存储器2106可包括双倍数据速率类型四同步动态随机存取存储器(DDR4SDRAM)。
对于一个实施例,系统控制模块2104可包括一个或多个输入/输出控制器,以向NVM/存储设备2108及(一个或多个)输入/输出设备2110提供接口。
例如,NVM/存储设备2108可被用于存储数据和/或指令。NVM/存储设备2108可包括任意适当的非易失性存储器(例如,闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如,一个或多个硬盘驱动器(HDD)、一个或多个光盘(CD)驱动器和/或一个或多个数字通用光盘(DVD)驱动器)。
NVM/存储设备2108可包括在物理上作为系统2100被安装在其上的设备的一部分的存储资源,或者其可被该设备访问而不必作为该设备的一部分。例如,NVM/存储设备2108可通过网络经由(一个或多个)输入/输出设备2110进行访问。
(一个或多个)输入/输出设备2110可为系统2100提供接口以与任意其他适当的设备通信,输入/输出设备2110可以包括通信组件、音频组件、传感器组件等。网络接口2112可为系统2100提供接口以通过一个或多个网络通信,系统2100可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信,例如接入基于通信标准的无线网络,如WiFi、2G、3G、4G或5G,或它们的组合进行无线通信。
对于一个实施例,(一个或多个)处理器2102中的至少一个可与系统控制模块2104的一个或多个控制器(例如,存储器控制器模块)的逻辑封装在一起。对于一个实施例,(一个或多个)处理器2102中的至少一个可与系统控制模块2104的一个或多个控制器的逻辑封装在一起以形成系统级封装(SiP)。对于一个实施例,(一个或多个)处理器2102中的至少一个可与系统控制模块2104的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例,(一个或多个)处理器2102中的至少一个可与系统控制模块2104的一个或多个控制器的逻辑集成在同一模具上以形成片上系统(SoC)。
在各个实施例中,系统2100可以但不限于是:浏览器、工作站、台式计算设备或移动计算设备(例如,膝上型计算设备、手持计算设备、平板电脑、上网本等)。在各个实施例中,系统2100可具有更多或更少的组件和/或不同的架构。例如,在一些实施例中,系统2100包括一个或多个摄像机、键盘、液晶显示器(LCD)屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(ASIC)和扬声器。
其中,如果显示器包括触摸面板,显示屏可以被实现为触屏显示器,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还识别与所述触摸或滑动操作相关的持续时间和压力。
本申请实施例还提供了一种非易失性可读存储介质,该存储介质中存储有一个或多个模块(programs),该一个或多个模块被应用在终端设备时,可以使得该终端设备执行本申请实施例中各方法步骤的指令(instructions)。
在一个示例中提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如本申请实施例的方法。
在一个示例中还提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如本申请实施例的一个或多个的方法。
虽然某些实施例是以说明和描述为目的的,各种各样的替代、和/或、等效的实施方案、或计算来达到同样的目的实施例示出和描述的实现,不脱离本申请的实施范围。本申请旨在覆盖本文讨论的实施例的任何修改或变化。因此,显然本文描述的实施例仅由权利要求和它们的等同物来限定。

Claims (25)

1.一种实体识别方法,其特征在于,包括:
基于对应于单分类领域的第一文本,以及对应于多分类领域的第二文本,训练用于单分类领域进行文本特征提取的编码器;
使用所述编码器提取所述单分类领域的样本文本中的词的文本特征;
根据所述样本文本标记的实体识别结果以及所述样本文本中的词的文本特征,训练实体识别模型;
基于所获得的实体识别模型,识别所述单分类领域的目标文本中作为实体的词以及至少两种实体之间的关系数据。
2.根据权利要求1所述的方法,其特征在于,还包括:
通过网络爬虫抓取对应于单分类领域的第一文本,所述第一文本包括单分类领域的专业网站发表的专业文章的摘要内容;
或,访问网络数据库获取对应于单分类领域的第一文本。
3.根据权利要求1所述的方法,其特征在于,还包括:
去除所述第一文本中与单分类领域无关的内容。
4.根据权利要求1所述的方法,其特征在于,所述编码器包括双向编码器,所述使用所述编码器提取所述单分类领域的样本文本中的词的文本特征包括:
提取所述样本文本中的词在所述样本文本中的上下文关联特征。
5.根据权利要求4所述的方法,其特征在于,所述使用所述编码器提取所述单分类领域的样本文本中的词的文本特征包括:
将所述样本文本输入所述双向编码器并执行所述双向编码器对应的语言识别任务;
提取样本文本中的词在所述双向编码器的最后一层的隐藏状态数据,作为所述词对应的文本特征。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
提取所述单分类领域的样本文本中的词的标点符号特征、大小写特征、词性标注特征、句法依赖特征中至少一种文本特征。
7.根据权利要求1所述的方法,其特征在于,所述根据所述样本文本标记的实体识别结果以及所述样本文本中的词的文本特征,训练实体识别模型包括:
根据用于实体识别的实体识别层对应的第一损失函数,以及用于关系数据识别的关系抽取层对应的第二损失函数,确定所述实体识别模型的综合损失函数;
根据所述综合损失函数对所述实体识别模型进行迭代训练。
8.根据权利要求1所述的方法,其特征在于,所述基于所获得的实体识别模型,识别所述单分类领域的目标文本中作为实体的词以及至少两种实体之间的关系数据包括:
基于所述实体识别模型的实体识别层,识别所述单分类领域的目标文本中作为实体的词;
基于所述实体识别模型的关系抽取层以及所述实体在多个维度的关联信息,识别所述至少两种实体之间的关系数据。
9.根据权利要求1所述的方法,其特征在于,还包括:
根据识别的实体以及实体之间的关系数据建立所述单分类领域的实体关系数据库,所述实体关系数据库中实体、至少两种实体之间的关系数据关联存储。
10.根据权利要求9所述的方法,其特征在于,还包括:
接收针对至少一种目标实体的检索请求;
从所述实体关系数据库中检索所述目标实体与其他实体之间的关系数据,并提供所述关系数据作为检索结果。
11.根据权利要求10所述的方法,其特征在于,所述实体关系数据库中实体、至少两种实体之间的关系数据以及所述单分类领域的第一文本关联存储;
所述方法还包括:
同时提供与所述目标实体对应的第一文本作为检索结果。
12.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将文本片段对应识别到的实体和实体之间的关系数据组织为结构化数据,作为所述文本片段对应的信息抽取结果;
按照多个文本片段的位置,将文本片段对应的信息抽取结果拼接为所述目标文本对应的信息抽取结果。
13.根据权利要求12所述的方法,其特征在于,所述实体对应的文本片段对应一个实体与多个实体的关系数据时,所述将文本片段对应识别到的实体和实体之间的关系数据组织为结构化数据包括:
构建第一实体、第二实体、关系数据的多维矩阵,作为所述结构化数据。
14.一种实体识别模型的处理方法,其特征在于,包括:
基于对应于单分类领域的第一文本,以及对应于多分类领域的第二文本,训练对应于单分类领域进行文本特征提取的编码器;
使用所述编码器提取所述单分类领域的样本文本中的词的文本特征;
根据所述样本文本标记的实体识别结果以及所述样本文本中的词的文本特征,训练实体识别模型,所述实体识别模型用于识别所述单分类领域的目标文本中作为实体的词以及至少两种实体之间的关系数据。
15.一种信息抽取方法,其特征在于,包括:
获取目标文本;
基于实体识别模型,识别所述单分类领域的目标文本中作为实体的词以及至少两种实体之间的关系数据;所述实体识别模型训练时所依据的样本文本中词的文本特征使用编码器提取,所述编码器基于对应于单分类领域的第一文本,以及对应于多分类领域的第二文本训练得到;
将文本片段对应识别到的实体和实体之间的关系数据组织为结构化数据,作为所述文本片段对应的信息抽取结果;
按照多个文本片段的位置,将文本片段对应的信息抽取结果拼接为所述目标文本对应的信息抽取结果。
16.一种信息检索方法,其特征在于,包括:
接收针对至少一种目标实体的检索请求;
检索所述目标实体与其他实体之间的关系数据;其中,预置有基于实体识别模型识别的、单分类领域的多个文本中的实体以及至少两种实体之间的关系数据,所述实体识别模型训练所依据的样本文本中词的文本特征使用编码器提取,所述编码器基于对应于单分类领域的第一文本,以及对应于多分类领域的第二文本训练得到;
提供所述关系数据作为检索结果。
17.根据权利要求16所述的方法,其特征在于,还包括:
基于识别到的单分类领域的多个文本中的实体以及至少两种实体之间的关系数据,生成实体关系数据库;
所述检索所述目标实体与其他实体之间的关系数据包括:
从所述实体关系数据库中检索所述目标实体与其他实体之间的关系数据。
18.一种微生物信息的识别方法,其特征在于,包括:
基于对应于微生物领域的专业文章摘要,以及对应于多分类领域的第二文本,训练对应于微生物领域进行文本特征提取的编码器;
使用所述编码器提取所述微生物领域的样本文本中的词的文本特征;
根据所述样本文本标记的微生物信息识别结果以及所述样本文本中的词的文本特征,训练微生物信息识别模型;
基于所获得的微生物信息识别模型,识别所述微生物领域的目标文本中的微生物信息以及至少两种微生物信息之间的关系数据。
19.一种微生物识别模型的处理方法,其特征在于,包括:
基于对应于微生物领域的专业文章摘要,以及对应于多分类领域的第二文本,训练对应于微生物领域进行文本特征提取的编码器;
使用所述编码器提取所述微生物领域的样本文本中的词的文本特征;
根据所述样本文本标记的微生物信息识别结果以及所述样本文本中的词的文本特征,训练微生物信息识别模型,所述微生物信息识别模型用于识别所述微生物领域的目标文本中的微生物信息以及至少两种微生物信息之间的关系数据。
20.一种微生物文本的信息抽取方法,其特征在于,包括:
获取目标文本;
基于所获得的微生物信息识别模型,识别所述微生物领域的目标文本中的微生物信息以及至少两种微生物信息之间的关系数据;所述微生物信息识别模型训练时所依据的样本文本中词的文本特征使用编码器提取,所述编码器基于对应于微生物领域的专业文章摘要,以及对应于多分类领域的第二文本训练得到;
将文本片段对应识别到的微生物信息和微生物信息之间的关系数据组织为结构化数据,作为所述文本片段对应的信息抽取结果;
按照多个文本片段的位置,将文本片段对应的信息抽取结果拼接为所述目标文本对应的信息抽取结果。
21.一种微生物信息图谱的构建方法,其特征在于,包括:
获取多个目标文本;
基于微生物信息识别模型,识别所述微生物领域的目标文本中的微生物信息以及至少两种微生物信息之间的关系数据;所述微生物信息识别模型训练时所依据的样本文本中词的文本特征使用编码器提取,所述编码器基于对应于微生物领域的专业文章摘要,以及对应于多分类领域的第二文本训练得到;
根据多个目标文本识别的微生物信息之间的层级结构关系,将所述微生物信息以及至少两种微生物信息之间的关系数据构建为微生物信息图谱。
22.一种微生物信息检索方法,其特征在于,包括:
接收针对至少一种目标微生物信息的检索请求;
检索所述目标微生物信息与其他微生物信息之间的关系数据;其中,预置有基于实体识别模型识别的、微生物领域的多个文本中的微生物信息以及至少两种微生物信息之间的关系数据,所述微生物信息识别模型训练时所依据的样本文本中词的文本特征使用编码器提取,所述编码器基于对应于微生物领域的专业文章摘要,以及对应于多分类领域的第二文本训练得到;
提供所述关系数据作为检索结果。
23.一种微生物信息的互动方法,其特征在于,包括:
接收包括目标微生物信息的问题;
检索所述目标微生物信息与其他微生物信息之间的关系数据;其中,预置有有基于实体识别模型识别的、微生物领域的多个文本中的微生物信息以及至少两种微生物信息之间的关系数据,所述微生物信息识别模型训练时所依据的样本文本中词的文本特征使用编码器提取,所述编码器基于对应于微生物领域的专业文章摘要,以及对应于多分类领域的第二文本训练得到;
将所述目标微生物信息与其他微生物信息之间的关系数据组织为问题答案;
提供所述问题答案。
24.一种电子设备,其特征在于,包括:处理器;和
存储器,其上存储有可执行代码,当所述可执行代码被执行时,使得所述处理器执行如权利要求1-23中任一项所述的方法。
25.一个或多个机器可读介质,其上存储有可执行代码,当所述可执行代码被执行时,使得处理器执行如权利要求1-23中任一项所述的方法。
CN202110169790.6A 2021-02-07 2021-02-07 一种实体识别、信息抽取的方法和装置 Pending CN114912452A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110169790.6A CN114912452A (zh) 2021-02-07 2021-02-07 一种实体识别、信息抽取的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110169790.6A CN114912452A (zh) 2021-02-07 2021-02-07 一种实体识别、信息抽取的方法和装置

Publications (1)

Publication Number Publication Date
CN114912452A true CN114912452A (zh) 2022-08-16

Family

ID=82761922

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110169790.6A Pending CN114912452A (zh) 2021-02-07 2021-02-07 一种实体识别、信息抽取的方法和装置

Country Status (1)

Country Link
CN (1) CN114912452A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115495593A (zh) * 2022-10-13 2022-12-20 中原工学院 基于大数据的数学知识图谱构建方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110135457A (zh) * 2019-04-11 2019-08-16 中国科学院计算技术研究所 基于自编码器融合文档信息的事件触发词抽取方法及系统
CN110263159A (zh) * 2019-05-28 2019-09-20 电子科技大学 一种基于单分类器多任务网络的隐式句间关系分析方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110135457A (zh) * 2019-04-11 2019-08-16 中国科学院计算技术研究所 基于自编码器融合文档信息的事件触发词抽取方法及系统
CN110263159A (zh) * 2019-05-28 2019-09-20 电子科技大学 一种基于单分类器多任务网络的隐式句间关系分析方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115495593A (zh) * 2022-10-13 2022-12-20 中原工学院 基于大数据的数学知识图谱构建方法

Similar Documents

Publication Publication Date Title
US10754851B2 (en) Question answering for data visualizations
CN111027327A (zh) 机器阅读理解方法、设备、存储介质及装置
CN112131393A (zh) 一种基于bert和相似度算法的医疗知识图谱问答系统构建方法
CN112287089B (zh) 用于自动问答系统的分类模型训练、自动问答方法及装置
CN110990597B (zh) 基于文本语义映射的跨模态数据检索系统及其检索方法
Peng et al. Word-to-region attention network for visual question answering
WO2020074017A1 (zh) 基于深度学习的医学文献中关键词筛选方法及装置
WO2021190662A1 (zh) 医学文献排序方法、装置、电子设备及存储介质
CN114416995A (zh) 信息推荐方法、装置及设备
CN115827819A (zh) 一种智能问答处理方法、装置、电子设备及存储介质
CN115203338A (zh) 一种标签及标签实例推荐方法
WO2023134085A1 (zh) 问题答案的预测方法、预测装置、电子设备、存储介质
Kovvuri et al. Pirc net: Using proposal indexing, relationships and context for phrase grounding
CN115587583A (zh) 噪声的检测方法、装置及电子设备
Chai Design and implementation of English intelligent communication platform based on similarity algorithm
Tarride et al. A comparative study of information extraction strategies using an attention-based neural network
Poornima et al. Multi-modal features and correlation incorporated Naive Bayes classifier for a semantic-enriched lecture video retrieval system
Akdemir et al. A review on deep learning applications with semantics
CN113377844A (zh) 面向大型关系型数据库的对话式数据模糊检索方法及装置
CN114912452A (zh) 一种实体识别、信息抽取的方法和装置
CN113051910A (zh) 一种用于预测人物角色情绪的方法和装置
CN117350291A (zh) 一种电子病历命名实体识别方法、装置、设备及存储介质
CN117131155A (zh) 多类目识别方法、装置、电子设备及储存介质
CN109255098B (zh) 一种基于重构约束的矩阵分解哈希方法
CN117216617A (zh) 文本分类模型训练方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination