CN112989828A - 命名实体识别模型的训练方法、装置、介质及电子设备 - Google Patents
命名实体识别模型的训练方法、装置、介质及电子设备 Download PDFInfo
- Publication number
- CN112989828A CN112989828A CN201911303899.3A CN201911303899A CN112989828A CN 112989828 A CN112989828 A CN 112989828A CN 201911303899 A CN201911303899 A CN 201911303899A CN 112989828 A CN112989828 A CN 112989828A
- Authority
- CN
- China
- Prior art keywords
- corpus
- model
- training
- language
- named entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 231
- 238000000034 method Methods 0.000 title claims abstract description 52
- 239000013598 vector Substances 0.000 claims abstract description 160
- 238000013507 mapping Methods 0.000 claims abstract description 70
- 239000000463 material Substances 0.000 claims description 48
- 230000011218 segmentation Effects 0.000 claims description 27
- 238000012545 processing Methods 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000005070 sampling Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 9
- 201000010099 disease Diseases 0.000 claims description 9
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 9
- 238000012216 screening Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 14
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 8
- 238000000605 extraction Methods 0.000 description 7
- 230000015654 memory Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 239000000126 substance Substances 0.000 description 4
- 230000002457 bidirectional effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000036541 health Effects 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 208000027418 Wounds and injury Diseases 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008033 biological extinction Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 206010012601 diabetes mellitus Diseases 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
本公开提供了一种命名实体识别模型的训练方法、命名实体识别模型的训练装置、计算机可读介质及电子设备,涉及自然语言处理技术领域。该方法包括:从语料库中提取用于进行模型训练的语料集,语料集中包括多个语料子集,各语料子集中包括对应同一意义的多种语言的语料;通过多种语言分别对应的文本信息集和语料集训练向量映射模型和预训练模型;通过训练后的向量映射模型和预训练模型获取样本信息的样本特征,并根据样本特征训练命名实体识别模型;其中,命名实体识别模型用于识别多种语言的命名实体。本公开中的命名实体识别模型的训练方法能够在一定程度上扩大命名实体识别模型的应用范围,提升命名实体识别模型的识别效果。
Description
技术领域
本公开涉及自然语言处理技术领域,具体而言,涉及一种命名实体识别模型的训练方法、命名实体识别模型的训练装置、计算机可读介质及电子设备。
背景技术
命名实体识别(Named Entity Recognition,NER),又可以称为专名识别,是指识别文本中具有特定意义的命名实体,包括人名、地名、机构名以及专有名词等。通常情况下,对于命名实体识别的方式可以为,通过已标注的数据对识别模型进行训练,以使得识别模型能够识别输入文本中的命名实体。目前,命名实体的识别模型通常只能识别一种语言的命名实体,其应用范围不够广泛。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种命名实体识别模型的训练方法、命名实体识别模型的训练装置、计算机可读介质及电子设备,至少在一定程度上扩大命名实体识别模型的应用范围,提升命名实体识别模型的识别效果。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
本公开的第一方面提供了一种命名实体识别模型的训练方法,包括:
从语料库中提取用于进行模型训练的语料集,语料集中包括多个语料子集,各语料子集中包括对应同一意义的多种语言的语料;
通过多种语言分别对应的文本信息集和语料集训练向量映射模型和预训练模型;
通过训练后的向量映射模型和预训练模型获取样本信息的样本特征,并根据样本特征训练命名实体识别模型;其中,命名实体识别模型用于识别多种语言的命名实体。
在本公开的一种示例性实施例中,通过多种语言分别对应的文本信息集和语料集训练向量映射模型,包括:
根据预设切词规则对多种语言分别对应的文本信息集进行切词处理,并计算切词结果对应的词向量;
对语料集进行信息提取,得到多语言词典;其中,多语言词典用于通过多种语言的词汇表示同一意义;
根据词向量和多语言词典训练向量映射模型。
在本公开的一种示例性实施例中,对语料集进行信息提取,得到多语言词典之后,还包括:
根据多语言词典在语料集中的出现频次对多语言词典进行筛选,以使得筛选后的多语言词典应用于向量映射模型的训练。
在本公开的一种示例性实施例中,通过多种语言分别对应的文本信息集和语料集训练所述预训练模型,包括:
对各语料集中的单语言语料进行混合,得到包括多种语言的混合语料;
对混合语料进行采样处理和遮盖处理并输入预训练模型;
通过预训练模型对遮盖部分进行预测,并通过预测结果与混合语料中的实际结果的比对调整预训练模型的参数。
在本公开的一种示例性实施例中,对各语料集中的单语言语料进行混合,包括:
对各语料集中的单语言语料进行词粒度混合和句粒度混合;
其中,语料集中的单语言语料为语句,对各语料集中的单语言语料进行词粒度混合的方式为:根据预设混合规则确定第一目标语言的语句中的待替换词汇,并将待替换词汇替换为第二目标语言的语句中相对应的词汇;其中,第一目标语言的语句与第二目标语言的语句意义相同,多种语言包括第一目标语言和第二目标语言;
对语料集中的语料进行句粒度混合的方式为:将第一目标语言的语句与第二目标语言的语句进行拼接。
在本公开的一种示例性实施例中,通过训练后的向量映射模型和预训练模型获取样本信息的样本特征,并根据样本特征训练命名实体识别模型,包括:
通过训练后的预训练模型计算第一目标语言的样本信息对应的第一编码以及第二目标语言的样本信息对应的第二编码;其中,多种语言包括第一目标语言和第二目标语言;
计算第一目标语言的样本信息对应的第一向量,并根据训练后的向量计算模型计算第二目标语言的样本信息对应的第二向量;样本特征包括第一编码、第二编码、第一向量和第二向量;
通过第一编码和第一向量调整命名实体识别模型的参数;其中,命名实体识别模型包括预训练模型和向量映射模型;
通过第二编码和第二向量对调整参数后的命名实体识别模型进行参数调整。
在本公开的一种示例性实施例中,语料库中包括国际疾病分类编码、医学信息数据库、医学主题词表以及英汉汉英医学词典中至少一种。
根据本公开的第二方面,提供一种命名实体识别模型的训练装置,包括语料集提取单元和模型训练单元,其中:
语料集提取单元,用于从语料库中提取用于进行模型训练的语料集,语料集中包括多个语料子集,各语料子集中包括对应同一意义的多种语言的语料;
模型训练单元,用于通过多种语言分别对应的文本信息集和语料集训练向量映射模型和预训练模型;
模型训练单元,还用于通过训练后的向量映射模型和预训练模型获取样本信息的样本特征,并根据样本特征训练命名实体识别模型;其中,命名实体识别模型用于识别多种语言的命名实体。
在本公开的一种示例性实施例中,模型训练单元通过多种语言分别对应的文本信息集和语料集训练向量映射模型的方式具体可以为:
模型训练单元根据预设切词规则对多种语言分别对应的文本信息集进行切词处理,并计算切词结果对应的词向量;
模型训练单元对语料集进行信息提取,得到多语言词典;其中,多语言词典用于通过多种语言的词汇表示同一意义;
模型训练单元根据词向量和多语言词典训练向量映射模型。
在本公开的一种示例性实施例中,模型训练单元,还用于在对语料集进行信息提取,得到多语言词典之后,根据多语言词典在语料集中的出现频次对多语言词典进行筛选,以使得筛选后的多语言词典应用于向量映射模型的训练。
在本公开的一种示例性实施例中,模型训练单元通过多种语言分别对应的文本信息集和语料集训练所述预训练模型的方式具体可以为:
模型训练单元对各语料集中的单语言语料进行混合,得到包括多种语言的混合语料;
模型训练单元对混合语料进行采样处理和遮盖处理并输入预训练模型;
模型训练单元通过预训练模型对遮盖部分进行预测,并通过预测结果与混合语料中的实际结果的比对调整预训练模型的参数。
在本公开的一种示例性实施例中,模型训练单元对各语料集中的单语言语料进行混合的方式具体可以为:
模型训练单元对各语料集中的单语言语料进行词粒度混合和句粒度混合;
其中,语料集中的单语言语料为语句,模型训练单元对各语料集中的单语言语料进行词粒度混合的方式为:模型训练单元根据预设混合规则确定第一目标语言的语句中的待替换词汇,并将待替换词汇替换为第二目标语言的语句中相对应的词汇;其中,第一目标语言的语句与第二目标语言的语句意义相同,多种语言包括第一目标语言和第二目标语言;
模型训练单元对语料集中的语料进行句粒度混合的方式为:模型训练单元将第一目标语言的语句与第二目标语言的语句进行拼接。
在本公开的一种示例性实施例中,模型训练单元通过训练后的向量映射模型和预训练模型获取样本信息的样本特征,并根据样本特征训练命名实体识别模型的方式具体可以为:
模型训练单元通过训练后的预训练模型计算第一目标语言的样本信息对应的第一编码以及第二目标语言的样本信息对应的第二编码;其中,多种语言包括第一目标语言和第二目标语言;
模型训练单元计算第一目标语言的样本信息对应的第一向量,并根据训练后的向量计算模型计算第二目标语言的样本信息对应的第二向量;样本特征包括第一编码、第二编码、第一向量和第二向量;
模型训练单元通过第一编码和第一向量调整命名实体识别模型的参数;其中,命名实体识别模型包括预训练模型和向量映射模型;
模型训练单元通过第二编码和第二向量对调整参数后的命名实体识别模型进行参数调整。
在本公开的一种示例性实施例中,语料库中包括国际疾病分类编码、医学信息数据库、医学主题词表以及英汉汉英医学词典中至少一种。
根据本公开的第三方面,提供了一种计算机可读介质,其上存储有计算机程序,程序被处理器执行时实现如上述实施例中第一方面所述的命名实体识别模型的训练方法。
根据本公开的第四方面,提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器实现如上述实施例中第一方面所述的命名实体识别模型的训练方法。
本公开提供的技术方案可以包括以下有益效果:
在本公开的实施例所提供的技术方案中,可以从语料库中提取用于进行模型训练的语料集,该语料集中包括多个语料子集,各语料子集中包括对应同一意义的多种语言的语料,举例来说,语料子集中包括语料“我喜欢苹果”和语料“I like apple”,这两种语料的语言不同但是对应的意义相同。进而,通过对多种语言分别对应的文本信息集(如,英文对应的词典和中文对应的词典)和语料集训练向量映射模型和预训练模型,通过训练后的向量映射模型和预训练模型可以获取样本信息的样本特征,根据样本特征可以训练命名实体识别模型。依据上述方案描述,本公开一方面能够在一定程度上扩大命名实体识别模型的应用范围,使得本申请不仅能够应用于单语言环境下的命名实体识别,也可以应用于多语言环境下的命名实体识别;另一方面,能够通过多语言语料集训练一个预训练模型和向量映射模型,通过预训练模型和向量映射模型先对输入的文本信息进行预处理,再对其进行命名实体识别,以提升模型的识别效果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示出了根据本公开一示例性实施例的一种命名实体识别模型的训练方法的流程示意图;
图2示出了根据本公开一示例性实施例的命名实体识别模型的架构示意图;
图3示出了根据本公开一示例性实施例的另一种命名实体识别模型的训练方法的流程示意图;
图4示出了根据本公开一示例性实施例的命名实体识别模型的训练装置的结构框图;
图5示出了适于用来实现本公开一示例性实施例的电子设备的计算机系统的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的命名实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
请参阅图1,图1示出了根据本公开一示例性实施例的一种命名实体识别模型的训练方法的流程示意图,该命名实体识别模型的训练方法可以由服务器或终端设备来实现。
如图1所示,根据本公开的一个实施例的命名实体识别模型的训练方法,包括如下步骤S110、步骤S120以及步骤S130,其中:
步骤S110:从语料库中提取用于进行模型训练的语料集,语料集中包括多个语料子集,各语料子集中包括对应同一意义的多种语言的语料。
步骤S120:通过多种语言分别对应的文本信息集和语料集训练向量映射模型和预训练模型。
步骤S130:通过训练后的向量映射模型和预训练模型获取样本信息的样本特征,并根据样本特征训练命名实体识别模型;其中,命名实体识别模型用于识别多种语言的命名实体。
需要说明的是,本公开可以应用于多语言的医学领域、生物领域、化学领域以及数学领域等多种领域的命名实体识别。
以下对各步骤进行详细说明:
在步骤S110中,从语料库中提取用于进行模型训练的语料集,语料集中包括多个语料子集,各语料子集中包括对应同一意义的多种语言的语料。
其中,当本公开应用于医学领域时,语料库可以包括国际疾病分类编码、医学信息数据库、医学主题词表以及英汉汉英医学词典中至少一种,并且,语料库还可以包括其他医疗知识库,本公开实施例不作限定;当本公开应用于生物领域时,语料库可以包括生物知识库;当本公开应用于化学领域时,语料库可以包括化学知识库;当本公开应用于数学领域时,语料库可以包括数学知识库。
另外,命名实体可以为英文命名实体,也可以为中文命名实体,也可以为其他语言的命名实体,本公开实施例不作限定。
另外,各语料子集中所包括的对应同一意义的多种语言的语料可以理解为平行语料,举例来说,通过英文语料、法文语料、德文语料以及日文语料表示“患者患有糖尿病”,那么,该英文语料、法文语料、德文语料以及日文语料为平行语料,在本公开实施例中,平行语料为至少两个。
另外,语料集中的语料可以为字、词、句、一段文本信息或一篇文章等,本公开实施例不作限定。
另外,对于多个语料子集而言,各语料子集中包含的语言种类相同,举例来说,语料库中包括语料子集A、语料子集B以及语料子集C,语料子集A中包括中文和英文的平行语料,语料子集B中也包括中文和英文的平行语料,语料子集C中也包括中文和英文的平行语料。
具体地,国际疾病分类编码(International Classification of DiseasesCode,ICD编码)是由世界卫生组织主持编写并发布的一种疾病分类方法,是卫生信息标准体系的重要组成部分,供世界范围内的临床研究、医疗监测、卫生事业管理部门应用。完整的ICD的统计范畴涵盖了死因、疾病、伤害、症状、就诊原因、疾病的外部原因等方面,被广泛应用于临床研究、医疗监测。另外,医学信息数据库可以为PubMed数据库,PubMed数据库是一个提供生物医学方面的论文搜寻以及摘要的数据库,其核心主题为医学。另外,医学主题词表(Medical Subject Headings,MeSH),是美国国立医学图书馆编制的权威性主题词表。它是一部规范化的可扩充的动态性叙词表。
依据上述说明,可选的,从语料库中提取用于进行模型训练的语料集的方式具体可以为:从ICD编码、PubMed数据库、MeSH以及英汉汉英医学词典中分别提取用于进行模型训练的语料,以组成语料集。
若语料库中包括ICD编码,从ICD编码中提取用于进行模型训练的语料的方式具体可以展开为以下步骤:
获取语料库中的多个语言版本的ICD编码,并根据当前的训练需求从多个语言版本的ICD编码中确定出目标ICD编码(如,最新英文版本的ICD编码和最新中文版本的ICD编码);从目标ICD编码中提取用于进行模型训练的语料。这样可以根据实际需求在对应的目标ICD编码中提取语料集,由于ICD编码可能存在多语言多版本,因此,通过该实施方式能够一定程度上避免对于计算资源的浪费,并且提升提取出语料集的效率。
需要说明的是,目标ICD编码可以为一个或多个,本公开实施例不作限定,举例来说,多个语言版本可以包括英文版本1.1、英文版本1.2、英文版本2.0、中文版本1.1、中文版本2.0以及中文版本2.2,其中,中文版本2.2为中文版本中最新的版本,英文版本2.0为英文版本中最新的版本。另外,训练需求用于表示对于模型的训练要求,举例来说,训练需求可以为在N种语言环境下识别命名实体,N为大于1的正整数。
进一步地,若目标ICD编码为最新英文版本的ICD编码和最新中文版本的ICD编码,那么,从目标ICD编码中提取用于进行模型训练的语料的方式具体可以为:
从最新英文版本的ICD编码中确定英文语料,并根据最新英文版本的ICD编码和最新中文版本的ICD编码的语料对应关系,从最新中文版本的ICD编码中确定出中文语料,将该英文语料和该中文语料作为一个语料子集中的平行语料,遍历最新英文版本的ICD编码和最新中文版本的ICD编码直到确定出所有的平行语料,将所有平行语料确定为用于进行模型训练的语料;或者,
从最新中文版本的ICD编码中确定中文语料,并根据最新英文版本的ICD编码和最新中文版本的ICD编码的语料对应关系,从最新英文版本的ICD编码中确定出英文语料,将该英文语料和该中文语料作为一个语料子集中的平行语料,遍历最新英文版本的ICD编码和最新中文版本的ICD编码直到确定出所有的平行语料,将所有平行语料确定为用于进行模型训练的语料。
若语料库中还包括PubMed数据库,从PubMed数据库中提取用于进行模型训练的语料的方式具体可以展开为以下步骤:
通过爬虫技术爬取PubMed数据库中的医学摘要信息,以获取段落级别的多语言语料信息,将用于表示同一医学摘要信息的多语言语料确定为平行语料,将所有平行语料确定为用于进行模型训练的语料。如果语料库中除了包括ICD编码之外还包括PubMed数据库,则可以通过PubMed数据库丰富获取到的语料集,进而可以提升对于命名实体识别模型的训练效果,优化模型的识别准确率。
若语料库中还包括MeSH,从MeSH中提取用于进行模型训练的语料的方式具体可以展开为以下步骤:
根据已提取到的语料对MeSH进行比对,根据比对结果将MeSH中与已提取到的语料不重合的部分进行提取,作为新的语料补充至语料集中。这样可以进一步丰富语料集,以提升模型的训练效果。
若语料库中还包括英汉汉英医学词典,从英汉汉英医学词典中提取用于进行模型训练的语料的方式具体可以展开为以下步骤:
根据英汉汉英医学词典校对已提取到的语料,并根据校对结果对已提取到的语料进行更新。这样能够提升语料集中平行语料的正确度,进而提升模型的训练效果。
在步骤S120中,通过多种语言分别对应的文本信息集和语料集训练向量映射模型和预训练模型。
当本公开应用于医学领域且多种语言包括汉语和英语时,汉语对应的文本信息集可以为中文医疗文本,英语对应的文本信息集可以为英文电子病历数据集。当本公开应用于生物领域且多种语言包括汉语和英语时,汉语和英语分别对应的文本信息集可以为各类生物数量的发展历史数据,本公开可以依据文本信息集预测现存生物的未来数量变化,以便人们根据该数量变化对需要保护的生物进行人为干预保护,以降低生物的灭绝速度。当本公开应用于化学领域且多种语言包括汉语和英语时,汉语和英语分别对应的文本信息集可以为各类化学实验的反应周期以及元素半衰期等,本公开可以依据文本信息集预测将要进行的化学实验可能出现的实验结果以及反应周期,使得人们提前得知化学反应可能得到的结果,以便做好相应的防护措施,降低化学实验可能发生的危险对人们人身安全造成的威胁。当本公开应用于数学领域且多种语言包括汉语和英语时,汉语和英语分别对应的文本信息集可以为学生在各学年阶段的数学成绩,本公开可以依据文本信息集预测学生未来的数学成绩走向,以便老师根据该数据成绩走向对学生进行针对性的辅导,进而提升学生的学习成绩。
在一个可选的实施例中,通过多种语言分别对应的文本信息集和语料集训练向量映射模型,可以包括以下步骤:
根据预设切词规则对多种语言分别对应的文本信息集进行切词处理,并计算切词结果对应的词向量;
对语料集进行信息提取,得到多语言词典;其中,多语言词典用于通过多种语言的词汇表示同一意义;
根据词向量和多语言词典训练向量映射模型。
具体地,对语料集进行信息提取,得到多语言词典之后,还可以包括以下步骤:
根据多语言词典在语料集中的出现频次对多语言词典进行筛选,以使得筛选后的多语言词典应用于向量映射模型的训练。这样可以减少训练语料较少的语言出现的频率。例如,可以将多语言词典中出现频率低于20次的语料筛除。
其中,预设切词规则用于规定将句切分为词的方式,该方式可以为双字节编码方式、单字节编码方式、多字节编码方式或前述所有编码方式中至少两种编码方式的结合,本公开实施例不作限定,特别地,当本公开实施例使用双字节编码方式进行切词处理时,能够实现对多语言词典大小的缩减,并解决未登录词和罕见词问题;其中,未登录词,即没有被收录在分词词表中但必须切分出来的词,包括各类专有名词(人名、地名、企业名等)、缩写词、新增词汇等。
需要说明的是,字符是各种文字和符号的总称,包括各国家文字、标点符号、图形符号以及数字等,一个字节表示一个字符,ASCII码中的字符是单字节编码,双字节编码是需要用两个字节表示一个字符的编码,如,汉字的GBK,GB2312编码,多字节编码是需要用多个字节(即,两个以上字节)表示一个字符的编码,如,Unicode,UTF-8编码。
另外,切词结果用于表示将句切分后得到的多个词,举例来说,将“我喜欢苹果”进行切分后可以得到切词结果“我”、“喜欢”和“苹果”,将“I like apple”进行切分后可以得到切词结果“I”、“like”和“apple”。切词结果中个个词汇存在与其对应的词向量,词向量是词汇在计算机中的分布式表示。
具体地且可选地,计算切词结果对应的词向量的方式可以为:
计算指定尺寸窗口内各个词汇的共现次数,根据各个词汇周边词汇的共现次数作为该词汇的向量,对各个词汇的向量进行降维,得到切词结果对应的稠密的连续词向量,对于该稠密的连续词向量对应的矩阵反映在向量空间中可以体现各词汇之间的语义相似度。
另外,对语料集进行信息提取,得到多语言词典,可以理解为,提取语料集中的词汇信息,将不同语言同一意义的词汇信息确定为平行语料信息,进而得到多语言词典。在多语言词典中,包含多种意义的词汇,每个词汇对应多种语言的语料。可选的,对语料集进行信息提取,得到多语言词典的方式具体可以为:通过双向对齐技术对语料集进行对称化,得到多语言词典。
具体地且可选地,根据词向量和多语言词典训练向量映射模型的方式具体可以为:
根据词向量确定多语言词典中同一意义不同语言的语料对应的目标词向量,并将同一意义不同语言的语料对应的目标词向量拟合至相似的向量空间或相同的向量空间,根据向量空间确定同一意义不同语言的语料对应的目标词向量之间的映射关系,并依据该映射关系构建一向量映射模型;其中,向量映射模型用于表征相同意义不同语言的语料之间的向量映射关系。
另外,在对语料集进行信息提取,得到多语言词典之后,还可以包括以下步骤:根据预置翻译器对多语言词典进行校对。这样可以提升多语言词典中相同意义的各语言语料的准确率,进而提升对于向量映射模型的训练效果。
可见,实施该可选的实施例,能够通过对向量映射模型的训练,提升命名实体识别模型在多语言环境下的识别效率以及识别效果。
在另一个可选的实施例中,通过多种语言分别对应的文本信息集和语料集训练所述预训练模型,可以包括以下步骤:
对各语料集中的单语言语料进行混合,得到包括多种语言的混合语料;
对混合语料进行采样处理和遮盖处理并输入预训练模型;
通过预训练模型对遮盖部分进行预测,并通过预测结果与混合语料中的实际结果的比对调整预训练模型的参数。
具体地,对各语料集中的单语言语料进行混合,包括:
对各语料集中的单语言语料进行词粒度混合和句粒度混合;
其中,语料集中的单语言语料为语句,对各语料集中的单语言语料进行词粒度混合的方式为:根据预设混合规则确定第一目标语言的语句中的待替换词汇,并将待替换词汇替换为第二目标语言的语句中相对应的词汇;其中,第一目标语言的语句与第二目标语言的语句意义相同,多种语言包括第一目标语言和第二目标语言;
对语料集中的语料进行句粒度混合的方式为:将第一目标语言的语句与第二目标语言的语句进行拼接。
其中,单语言语料用于表示该语料仅由一种语言进行表示,混合预料用于表示该语料由两种或两种以上的语言进行表示;其中,单语言语料的数量和混合语料的数量均可以为多个。
具体地且可选地,对各语料集中的单语言语料进行混合的方式可以为:对各语料集中相同意义的单语言语料进行混合。
以及,对混合语料进行采样处理和遮盖处理并输入预训练模型的方式可以为:根据采样规则(如,仅使用医疗领域的语料)对得到的混合语料进行采样;进而,针对采样结果,可以将混合语料中被替换为另一语言的词汇进行遮盖,也可以随机选择混合语料中的词汇进行遮盖,本公开实施例不作限定;进而,可以将遮盖结果输入预训练模型中,基于Transformer结构训练该预训练模型;
其中,基于Transformer结构训练该预训练模型的方式可以为:根据编码器对遮盖后的混合语料进行编码并计算编码后混合语料中个词汇的词向量的加权和,通过解码器对加权和进行解码,并根据解码结果与遮盖前的混合语料的比对确定损失函数,以根据该损失函数调整向量映射模型的参数,使得向量映射模型学习相同意义不同语言的语料之间的关系。其中,Transformer是一种翻译模型,可以包括多个编码器和多个解码器。
另外,在对各语料集中的单语言语料进行词粒度混合和句粒度混合时,语料集中的单语言语料还可以为段落。
其中,上述的预设混合规则可以为随机替换相同意义不同语言的语句中的词汇,也可以为将相同意义不同语言的语句中的动词进行相互替换,也可以为其他混合方式,本公开实施例不作限定。另外,多种语言除了包括第一目标语言和第二目标语言之外,还可以包括其他语言,本公开实施例不作限定。
举例来说,针对上述的对各语料集中的单语言语料进行词粒度混合的方式而言,若第一目标语言的语句为“我喜欢苹果”,第二目标语言的语句为“I like apple”,预设混合规则为随机选择待替换词汇,而待替换词汇为“苹果”,那么,将“苹果”在第二目标语言的语句中对应的“apple”替换“我喜欢苹果”中的“苹果”,替换后的混合语料则为“我喜欢apple”。另外,针对上述的对语料集中的语料进行句粒度混合的方式尔而言,将第一目标语言的语句与第二目标语言的语句进行拼接,可以得到“我喜欢苹果I like apple”。
可见,实施该可选的实施例,能够训练上述的预训练模型在一定程度上克服信息不互通的问题,使得预训练模型学习不同语言的语料之间的关系,进而提升命名实体识别模型的识别准确率,使得命名实体识别模型在识别某些语料较少的语言时可以利用预训练模型中不同语言的语料之间的关系从其他语言的语料中学习信息,进而提升识别效率。
在步骤S130中,通过训练后的向量映射模型和预训练模型获取样本信息的样本特征,并根据样本特征训练命名实体识别模型;其中,命名实体识别模型用于识别多种语言的命名实体。
其中,样本特征用于通过计算机语言表征样本信息,样本信息可以为一种多语言的混合语料,也可以为单语言语料,本公开实施例不作限定。
在一个可选的实施例中,通过训练后的向量映射模型和预训练模型获取样本信息的样本特征,并根据样本特征训练命名实体识别模型,可以包括以下步骤:
通过训练后的预训练模型计算第一目标语言的样本信息对应的第一编码以及第二目标语言的样本信息对应的第二编码;其中,多种语言包括第一目标语言和第二目标语言;
计算第一目标语言的样本信息对应的第一向量,并根据训练后的向量计算模型计算第二目标语言的样本信息对应的第二向量;样本特征包括第一编码、第二编码、第一向量和第二向量;
通过第一编码和第一向量调整命名实体识别模型的参数;其中,命名实体识别模型包括预训练模型和向量映射模型;
通过第二编码和第二向量对调整参数后的命名实体识别模型进行参数调整。
其中,计算第一目标语言的样本信息对应的第一向量的方式可以为:根据向量生成模型计算第一目标语言的样本信息对应的第一向量。根据训练后的向量计算模型计算第二目标语言的样本信息对应的第二向量的方式可以为:根据向量生成模型和训练后的向量计算模型计算第二目标语言的样本信息对应的第二向量。其中,向量生成模型可以为Word2Vec,Word2Vec是一种用于计算词向量的模型。
举例来说,第一目标语言的样本信息为“我喜欢苹果”,第二目标语言的样本信息为“I like apple”,通过“我喜欢苹果”的编码和向量可以对命名实体识别模型进行参数调整,以提升该模型的识别准确率。对于“I like apple”而言,计算其向量需要借助中文词向量和英文词向量之间的映射关系,以确定相同/相似向量空间中“I like apple”对应的向量,进而通过“I like apple”的编码和向量对命名实体识别模型进行参数调整,以提升该模型的识别准确率。
请参见图2,图2示出了根据本公开一示例性实施例的命名实体识别模型的架构示意图。
如图2所示,待输入的词汇可以包括词汇1 201、词汇2 202、词汇3 203、…、词汇n204,其中,n为正整数。通过词嵌入层217可以将词汇1 201、词汇2 202、词汇3 203、…、词汇n 204由高维向量空间映射到低维向量空间;进而通过向量计算模型205计算词汇1 201、词汇2 202、词汇3 203、…、词汇n 204的词向量,也可以依据上述的向量映射模型结合向量计算模型205计算词汇1 201、词汇2 202、词汇3203、…、词汇n 204的词向量;进而,可以通过预训练模型206对词汇1 201、词汇2 202、词汇3 203、…、词汇n 204进行识别,并将识别结果输入双向长短期记忆网络207,在,双向长短期记忆网络207中,通过正向传播和反向传播,能够得出词汇1 201、词汇2 202、词汇3203、…、词汇n 204分别对应的词汇特征1 208、词汇特征2 209、词汇特征3 210、…、词汇特征n 211;进而,通过条件随机场模型212根据词汇特征1 208、词汇特征2 209、词汇特征3 210、…、词汇特征n211识别出词汇1 201、词汇2202、词汇3 203、…、词汇n 204中的命名实体,在图2中,是通过识别结果1 213、识别结果2214、识别结果3 215、…、识别结果n 216来体现的,识别结果可以用于表示该词汇是否为命名实体。
其中,需要说明的是,条件随机场模型(conditional random field,CRF),是一种鉴别式机率模型,是随机场的一种,常用于标注或分析序列资料,如,自然语言文字或生物序列。长短期记忆网络(Long Short-Term Memory,LSTM)是一种时间循环神经网络,用于解决一般的RNN(循环神经网络)存在的长期依赖问题。
可见,实施该可选的实施例,能够通过向量映射模型和预训练模型对命名实体识别模型进行训练,提升训练效率和训练效果,使得命名实体识别模型能够在多语言环境下进行命名实体识别,扩大了命名实体识别模型的应用范围。
可见,实施图1所示的命名实体识别模型的训练方法,能够在一定程度上扩大命名实体识别模型的应用范围,使得本申请不仅能够应用于单语言环境下的命名实体识别,也可以应用于多语言环境下的命名实体识别;以及,能够通过多语言语料集训练一个预训练模型和向量映射模型,通过预训练模型和向量映射模型先对输入的文本信息进行预处理,再对其进行命名实体识别,以提升模型的识别效果。
请参阅图3,图3示出了根据本公开一示例性实施例的另一种命名实体识别模型的训练方法的流程示意图。如图3所示,另一种命名实体识别模型的训练方法包括步骤S300~步骤S320,其中:
步骤S300:从语料库中提取用于进行模型训练的语料集,语料集中包括多个语料子集,各语料子集中包括对应同一意义的多种语言的语料。
步骤S302:根据预设切词规则对多种语言分别对应的文本信息集进行切词处理,并计算切词结果对应的词向量。
步骤S304:对语料集进行信息提取,得到多语言词典;其中,多语言词典用于通过多种语言的词汇表示同一意义。
步骤S306:根据多语言词典在语料集中的出现频次对多语言词典进行筛选,以使得筛选后的多语言词典应用于向量映射模型的训练。
步骤S308:对各语料集中的单语言语料进行词粒度混合和句粒度混合,得到包括多种语言的混合语料。
步骤S310:对混合语料进行采样处理和遮盖处理并输入预训练模型。
步骤S312:通过预训练模型对遮盖部分进行预测,并通过预测结果与混合语料中的实际结果的比对调整预训练模型的参数。
步骤S314:通过训练后的预训练模型计算第一目标语言的样本信息对应的第一编码以及第二目标语言的样本信息对应的第二编码;其中,多种语言包括第一目标语言和第二目标语言。
步骤S316:计算第一目标语言的样本信息对应的第一向量,并根据训练后的向量计算模型计算第二目标语言的样本信息对应的第二向量;样本特征包括第一编码、第二编码、第一向量和第二向量。
步骤S318:通过第一编码和第一向量调整命名实体识别模型的参数;其中,命名实体识别模型包括预训练模型和向量映射模型,命名实体识别模型用于识别多种语言的命名实体。
步骤S320:通过第二编码和第二向量对调整参数后的命名实体识别模型进行参数调整。
其中,上述步骤耳朵具体实施方式在图1各步骤对应的实施例中均有详细解释说明,此处不再赘述。另外,本公开实施例不限定各步骤之间的先后顺序,上述步骤S300~步骤S320仅为本公开的示例性示出,通过实施步骤S300~步骤S320,能够在一定程度上扩大命名实体识别模型的应用范围,使得本申请不仅能够应用于单语言环境下的命名实体识别,也可以应用于多语言环境下的命名实体识别;以及,能够通过多语言语料集训练一个预训练模型和向量映射模型,通过预训练模型和向量映射模型先对输入的文本信息进行预处理,再对其进行命名实体识别,以提升模型的识别效果。
请参阅图4,图4示出了根据本公开一示例性实施例的命名实体识别模型的训练装置的结构框图。该命名实体识别模型的训练装置包括语料集提取单元401和模型训练单元402,其中:
语料集提取单元401,用于从语料库中提取用于进行模型训练的语料集,语料集中包括多个语料子集,各语料子集中包括对应同一意义的多种语言的语料;
模型训练单元402,用于通过多种语言分别对应的文本信息集和语料集训练向量映射模型和预训练模型;
模型训练单元402,还用于通过训练后的向量映射模型和预训练模型获取样本信息的样本特征,并根据样本特征训练命名实体识别模型;其中,命名实体识别模型用于识别多种语言的命名实体。
其中,语料库中包括国际疾病分类编码、医学信息数据库、医学主题词表以及英汉汉英医学词典中至少一种。
可见,实施图4所示的命名实体识别模型的训练装置,能够在一定程度上扩大命名实体识别模型的应用范围,使得本申请不仅能够应用于单语言环境下的命名实体识别,也可以应用于多语言环境下的命名实体识别;以及,能够通过多语言语料集训练一个预训练模型和向量映射模型,通过预训练模型和向量映射模型先对输入的文本信息进行预处理,再对其进行命名实体识别,以提升模型的识别效果。
作为一种示例性实施例,模型训练单元402通过多种语言分别对应的文本信息集和语料集训练向量映射模型的方式具体可以为:
模型训练单元402根据预设切词规则对多种语言分别对应的文本信息集进行切词处理,并计算切词结果对应的词向量;
模型训练单元402对语料集进行信息提取,得到多语言词典;其中,多语言词典用于通过多种语言的词汇表示同一意义;
模型训练单元402根据词向量和多语言词典训练向量映射模型。
其中,模型训练单元402,还用于在对语料集进行信息提取,得到多语言词典之后,根据多语言词典在语料集中的出现频次对多语言词典进行筛选,以使得筛选后的多语言词典应用于向量映射模型的训练。
可见,实施该示例性实施例,能够通过对向量映射模型的训练,提升命名实体识别模型在多语言环境下的识别效率以及识别效果。
作为另一种示例性实施例,模型训练单元402通过多种语言分别对应的文本信息集和语料集训练所述预训练模型的方式具体可以为:
模型训练单元402对各语料集中的单语言语料进行混合,得到包括多种语言的混合语料;
模型训练单元402对混合语料进行采样处理和遮盖处理并输入预训练模型;
模型训练单元402通过预训练模型对遮盖部分进行预测,并通过预测结果与混合语料中的实际结果的比对调整预训练模型的参数。
其中,模型训练单元402对各语料集中的单语言语料进行混合的方式具体可以为:
模型训练单元402对各语料集中的单语言语料进行词粒度混合和句粒度混合;
其中,语料集中的单语言语料为语句,模型训练单元402对各语料集中的单语言语料进行词粒度混合的方式为:模型训练单元402根据预设混合规则确定第一目标语言的语句中的待替换词汇,并将待替换词汇替换为第二目标语言的语句中相对应的词汇;其中,第一目标语言的语句与第二目标语言的语句意义相同,多种语言包括第一目标语言和第二目标语言;
模型训练单元402对语料集中的语料进行句粒度混合的方式为:模型训练单元将第一目标语言的语句与第二目标语言的语句进行拼接。
可见,实施该示例性实施例,能够训练上述的预训练模型在一定程度上克服信息不互通的问题,使得预训练模型学习不同语言的语料之间的关系,进而提升命名实体识别模型的识别准确率,使得命名实体识别模型在识别某些语料较少的语言时可以利用预训练模型中不同语言的语料之间的关系从其他语言的语料中学习信息,进而提升识别效率。
作为又一种示例性实施例,模型训练单元402通过训练后的向量映射模型和预训练模型获取样本信息的样本特征,并根据样本特征训练命名实体识别模型的方式具体可以为:
模型训练单元402通过训练后的预训练模型计算第一目标语言的样本信息对应的第一编码以及第二目标语言的样本信息对应的第二编码;其中,多种语言包括第一目标语言和第二目标语言;
模型训练单元402计算第一目标语言的样本信息对应的第一向量,并根据训练后的向量计算模型计算第二目标语言的样本信息对应的第二向量;样本特征包括第一编码、第二编码、第一向量和第二向量;
模型训练单元402通过第一编码和第一向量调整命名实体识别模型的参数;其中,命名实体识别模型包括预训练模型和向量映射模型;
模型训练单元402通过第二编码和第二向量对调整参数后的命名实体识别模型进行参数调整。
可见,实施该示例性实施例,能够通过向量映射模型和预训练模型对命名实体识别模型进行训练,提升训练效率和训练效果,使得命名实体识别模型能够在多语言环境下进行命名实体识别,扩大了命名实体识别模型的应用范围。
由于本公开的示例实施例的命名实体识别模型的训练装置的各个功能模块与上述命名实体识别模型的训练方法的示例实施例的步骤对应,因此对于本公开装置实施例中未披露的细节,请参照本公开上述的命名实体识别模型的训练方法的实施例。
请参阅图5,图5示出了适于用来实现本公开一示例性实施例的电子设备的计算机系统500的结构示意图。图5示出的电子设备的计算机系统500仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图5所示,计算机系统500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有系统操作所需的各种程序和数据。CPU501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时,执行本申请的系统中限定的上述功能。
需要说明的是,本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现如上述实施例中所述的命名实体识别模型的训练方法。
例如,所述的电子设备可以实现如图1中所示的:步骤S110:从语料库中提取用于进行模型训练的语料集,语料集中包括多个语料子集,各语料子集中包括对应同一意义的多种语言的语料;步骤S120:通过多种语言分别对应的文本信息集和语料集训练向量映射模型和预训练模型;步骤S130:通过训练后的向量映射模型和预训练模型获取样本信息的样本特征,并根据样本特征训练命名实体识别模型;其中,命名实体识别模型用于识别多种语言的命名实体。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开的实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本公开的实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (10)
1.一种命名实体识别模型的训练方法,其特征在于,所述方法包括:
从语料库中提取用于进行模型训练的语料集,所述语料集中包括多个语料子集,各所述语料子集中包括对应同一意义的多种语言的语料;
通过所述多种语言分别对应的文本信息集和所述语料集训练向量映射模型和预训练模型;
通过训练后的向量映射模型和预训练模型获取样本信息的样本特征,并根据所述样本特征训练命名实体识别模型;其中,所述命名实体识别模型用于识别所述多种语言的命名实体。
2.根据权利要求1所述的方法,其特征在于,通过所述多种语言分别对应的文本信息集和所述语料集训练所述向量映射模型,包括:
根据预设切词规则对所述多种语言分别对应的文本信息集进行切词处理,并计算切词结果对应的词向量;
对所述语料集进行信息提取,得到多语言词典;其中,所述多语言词典用于通过所述多种语言的词汇表示同一意义;
根据所述词向量和所述多语言词典训练向量映射模型。
3.根据权利要求2所述的方法,其特征在于,对所述语料集进行信息提取,得到多语言词典之后,所述方法还包括:
根据所述多语言词典在所述语料集中的出现频次对所述多语言词典进行筛选,以使得筛选后的多语言词典应用于所述向量映射模型的训练。
4.根据权利要求1所述的方法,其特征在于,通过所述多种语言分别对应的文本信息集和所述语料集训练所述预训练模型,包括:
对各所述语料集中的单语言语料进行混合,得到包括所述多种语言的混合语料;
对所述混合语料进行采样处理和遮盖处理并输入所述预训练模型;
通过所述预训练模型对遮盖部分进行预测,并通过预测结果与混合语料中的实际结果的比对调整所述预训练模型的参数。
5.根据权利要求4所述的方法,其特征在于,对各所述语料集中的单语言语料进行混合,包括:
对各所述语料集中的单语言语料进行词粒度混合和句粒度混合;
其中,所述语料集中的单语言语料为语句,对各所述语料集中的单语言语料进行词粒度混合的方式为:根据预设混合规则确定第一目标语言的语句中的待替换词汇,并将所述待替换词汇替换为第二目标语言的语句中相对应的词汇;其中,所述第一目标语言的语句与所述第二目标语言的语句意义相同,所述多种语言包括所述第一目标语言和所述第二目标语言;
对所述语料集中的语料进行句粒度混合的方式为:将所述第一目标语言的语句与所述第二目标语言的语句进行拼接。
6.根据权利要求1所述的方法,其特征在于,通过训练后的向量映射模型和预训练模型获取样本信息的样本特征,并根据所述样本特征训练命名实体识别模型,包括:
通过训练后的预训练模型计算第一目标语言的样本信息对应的第一编码以及第二目标语言的样本信息对应的第二编码;其中,所述多种语言包括所述第一目标语言和所述第二目标语言;
计算所述第一目标语言的样本信息对应的第一向量,并根据训练后的向量计算模型计算所述第二目标语言的样本信息对应的第二向量;所述样本特征包括所述第一编码、所述第二编码、所述第一向量和所述第二向量;
通过所述第一编码和所述第一向量调整所述命名实体识别模型的参数;其中,所述命名实体识别模型包括所述预训练模型和所述向量映射模型;
通过所述第二编码和所述第二向量对调整参数后的命名实体识别模型进行参数调整。
7.根据权利要求1所述的方法,其特征在于,所述语料库中包括国际疾病分类编码、医学信息数据库、医学主题词表以及英汉汉英医学词典中至少一种。
8.一种命名实体识别模型的训练装置,其特征在于,包括:
语料集提取单元,用于从语料库中提取用于进行模型训练的语料集,所述语料集中包括多个语料子集,各所述语料子集中包括对应同一意义的多种语言的语料;
模型训练单元,用于通过所述多种语言分别对应的文本信息集和所述语料集训练向量映射模型和预训练模型;
所述模型训练单元,还用于通过训练后的向量映射模型和预训练模型获取样本信息的样本特征,并根据所述样本特征训练命名实体识别模型;其中,所述命名实体识别模型用于识别所述多种语言的命名实体。
9.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1~7中任一项所述的命名实体识别模型的训练方法。
10.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1~7中任一项所述的命名实体识别模型的训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911303899.3A CN112989828A (zh) | 2019-12-17 | 2019-12-17 | 命名实体识别模型的训练方法、装置、介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911303899.3A CN112989828A (zh) | 2019-12-17 | 2019-12-17 | 命名实体识别模型的训练方法、装置、介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112989828A true CN112989828A (zh) | 2021-06-18 |
Family
ID=76342540
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911303899.3A Pending CN112989828A (zh) | 2019-12-17 | 2019-12-17 | 命名实体识别模型的训练方法、装置、介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112989828A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113255328A (zh) * | 2021-06-28 | 2021-08-13 | 北京京东方技术开发有限公司 | 语言模型的训练方法及应用方法 |
CN114612912A (zh) * | 2022-03-09 | 2022-06-10 | 中译语通科技股份有限公司 | 基于智能语料库的图像文字识别方法、系统及设备 |
CN115081453A (zh) * | 2022-08-23 | 2022-09-20 | 北京睿企信息科技有限公司 | 一种命名实体的识别方法及系统 |
CN115346657A (zh) * | 2022-07-05 | 2022-11-15 | 深圳市镜象科技有限公司 | 利用迁移学习提升老年痴呆的识别效果的训练方法及装置 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20040038559A (ko) * | 2002-11-01 | 2004-05-08 | 한국전자통신연구원 | 텍스트 문서집합에서 반복학습을 통한 개체명 인식 및의미범주 분류 장치 및 그 방법 |
US20080310718A1 (en) * | 2007-06-18 | 2008-12-18 | International Business Machines Corporation | Information Extraction in a Natural Language Understanding System |
US20150286629A1 (en) * | 2014-04-08 | 2015-10-08 | Microsoft Corporation | Named entity recognition |
US20160379289A1 (en) * | 2015-06-26 | 2016-12-29 | Wal-Mart Stores, Inc. | Method and system for attribute extraction from product titles using sequence labeling algorithms |
CN106933809A (zh) * | 2017-03-27 | 2017-07-07 | 三角兽(北京)科技有限公司 | 信息处理装置及信息处理方法 |
US20170364503A1 (en) * | 2016-06-17 | 2017-12-21 | Abbyy Infopoisk Llc | Multi-stage recognition of named entities in natural language text based on morphological and semantic features |
US20180307679A1 (en) * | 2017-04-23 | 2018-10-25 | Voicebox Technologies Corporation | Multi-lingual semantic parser based on transferred learning |
CN110083831A (zh) * | 2019-04-16 | 2019-08-02 | 武汉大学 | 一种基于BERT-BiGRU-CRF的中文命名实体识别方法 |
US20190286697A1 (en) * | 2018-03-15 | 2019-09-19 | International Business Machines Corporation | Unsupervised on-the-fly named entity resolution in dynamic corpora |
CN110287479A (zh) * | 2019-05-20 | 2019-09-27 | 平安科技(深圳)有限公司 | 命名实体识别方法、电子装置及存储介质 |
-
2019
- 2019-12-17 CN CN201911303899.3A patent/CN112989828A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20040038559A (ko) * | 2002-11-01 | 2004-05-08 | 한국전자통신연구원 | 텍스트 문서집합에서 반복학습을 통한 개체명 인식 및의미범주 분류 장치 및 그 방법 |
US20080310718A1 (en) * | 2007-06-18 | 2008-12-18 | International Business Machines Corporation | Information Extraction in a Natural Language Understanding System |
US20150286629A1 (en) * | 2014-04-08 | 2015-10-08 | Microsoft Corporation | Named entity recognition |
US20160379289A1 (en) * | 2015-06-26 | 2016-12-29 | Wal-Mart Stores, Inc. | Method and system for attribute extraction from product titles using sequence labeling algorithms |
US20170364503A1 (en) * | 2016-06-17 | 2017-12-21 | Abbyy Infopoisk Llc | Multi-stage recognition of named entities in natural language text based on morphological and semantic features |
CN106933809A (zh) * | 2017-03-27 | 2017-07-07 | 三角兽(北京)科技有限公司 | 信息处理装置及信息处理方法 |
US20180307679A1 (en) * | 2017-04-23 | 2018-10-25 | Voicebox Technologies Corporation | Multi-lingual semantic parser based on transferred learning |
US20190286697A1 (en) * | 2018-03-15 | 2019-09-19 | International Business Machines Corporation | Unsupervised on-the-fly named entity resolution in dynamic corpora |
CN110083831A (zh) * | 2019-04-16 | 2019-08-02 | 武汉大学 | 一种基于BERT-BiGRU-CRF的中文命名实体识别方法 |
CN110287479A (zh) * | 2019-05-20 | 2019-09-27 | 平安科技(深圳)有限公司 | 命名实体识别方法、电子装置及存储介质 |
Non-Patent Citations (8)
Title |
---|
唐国强;高大启;阮彤;叶琪;王祺;: "融入语言模型和注意力机制的临床电子病历命名实体识别", 计算机科学, no. 03, 22 November 2019 (2019-11-22) * |
张振;苏依拉;牛向华;高芬;赵亚平;仁庆道尔吉;: "域信息共享的方法在蒙汉机器翻译中的应用", 计算机工程与应用, no. 10, 18 July 2019 (2019-07-18) * |
杨飘;董文永;: "基于BERT嵌入的中文命名实体识别方法", 计算机工程, no. 04, 30 May 2019 (2019-05-30) * |
林广和;张绍武;林鸿飞;: "基于细粒度词表示的命名实体识别研究", 中文信息学报, no. 11, 15 November 2018 (2018-11-15) * |
王磊,: "基于概念语义空间的语义查询扩展技术研究", 中国优秀硕士学位论文全文数据库(电子期刊), 15 April 2013 (2013-04-15) * |
苏立新;郭嘉丰;范意兴;兰艳艳;徐君;程学旗;: "面向多片段答案的抽取式阅读理解模型", 计算机学报, no. 05, 19 August 2019 (2019-08-19) * |
黄佳佳;李鹏伟;彭敏;谢倩倩;徐超;: "基于深度学习的主题模型研究", 计算机学报, no. 05, 31 October 2019 (2019-10-31) * |
龚军,孙喆,向天雨,王惠来: "医疗大数据平台研究与实践", 重庆医学, 28 July 2019 (2019-07-28) * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113255328A (zh) * | 2021-06-28 | 2021-08-13 | 北京京东方技术开发有限公司 | 语言模型的训练方法及应用方法 |
CN113255328B (zh) * | 2021-06-28 | 2024-02-02 | 北京京东方技术开发有限公司 | 语言模型的训练方法及应用方法 |
CN114612912A (zh) * | 2022-03-09 | 2022-06-10 | 中译语通科技股份有限公司 | 基于智能语料库的图像文字识别方法、系统及设备 |
CN115346657A (zh) * | 2022-07-05 | 2022-11-15 | 深圳市镜象科技有限公司 | 利用迁移学习提升老年痴呆的识别效果的训练方法及装置 |
CN115346657B (zh) * | 2022-07-05 | 2023-07-28 | 深圳市镜象科技有限公司 | 利用迁移学习提升老年痴呆的识别效果的训练方法及装置 |
CN115081453A (zh) * | 2022-08-23 | 2022-09-20 | 北京睿企信息科技有限公司 | 一种命名实体的识别方法及系统 |
CN115081453B (zh) * | 2022-08-23 | 2022-11-04 | 北京睿企信息科技有限公司 | 一种命名实体的识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110489555B (zh) | 一种结合类词信息的语言模型预训练方法 | |
CN108920453B (zh) | 数据处理方法、装置、电子设备及计算机可读介质 | |
CN112989828A (zh) | 命名实体识别模型的训练方法、装置、介质及电子设备 | |
Bharadiya | A comprehensive survey of deep learning techniques natural language processing | |
CN110532573B (zh) | 一种翻译方法和系统 | |
CN109522552B (zh) | 一种医疗信息的归一化方法、装置、介质及电子设备 | |
CN110609910B (zh) | 医学知识图谱构建方法及装置、存储介质和电子设备 | |
US11941361B2 (en) | Automatically identifying multi-word expressions | |
CN113128227A (zh) | 实体抽取方法及装置 | |
CN111597807B (zh) | 分词数据集生成方法、装置、设备及其存储介质 | |
Akinci D'Antonoli et al. | Large language models in radiology: fundamentals, applications, ethical considerations, risks, and future directions | |
Mammadzada | A review of existing transliteration approaches and methods | |
Moreno-Fernandez-de-Leceta et al. | A novel methodology for clinical semantic annotations assessment | |
Nowakowski et al. | Mingmatch—a fast n-gram model for word segmentation of the ainu language | |
CN111488743A (zh) | 一种文本辅助处理方法和系统 | |
WO2022180989A1 (ja) | モデル生成装置及びモデル生成方法 | |
WO2022180990A1 (ja) | 質問生成装置 | |
CN115034209A (zh) | 文本分析方法、装置、电子设备以及存储介质 | |
CN114676699A (zh) | 实体情感分析方法、装置、计算机设备和存储介质 | |
Sharma et al. | A French to English language translator using recurrent neural network with attention mechanism | |
Peterson et al. | An examination of the statistical laws of semantic change in clinical notes | |
Dobreva et al. | Improving NER performance by applying text summarization on pharmaceutical articles | |
Alvi et al. | Count Me Too: Sentiment Analysis of Roman Sindhi Script | |
CN110795928B (zh) | 一种基于神经网络的语言句子切分方法及装置 | |
Athukorala et al. | Swa Bhasha: Message-Based Singlish to Sinhala Transliteration |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |