CN110147551B - 多类别实体识别模型训练、实体识别方法、服务器及终端 - Google Patents

多类别实体识别模型训练、实体识别方法、服务器及终端 Download PDF

Info

Publication number
CN110147551B
CN110147551B CN201910397908.3A CN201910397908A CN110147551B CN 110147551 B CN110147551 B CN 110147551B CN 201910397908 A CN201910397908 A CN 201910397908A CN 110147551 B CN110147551 B CN 110147551B
Authority
CN
China
Prior art keywords
entity
category
information
feature
corpus information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910397908.3A
Other languages
English (en)
Other versions
CN110147551A (zh
Inventor
陈磊
刘祺
刘书凯
张博
王良栋
刘毅
孙振龙
丘志杰
苏舟
饶君
林乐宇
梁铭霏
商甜甜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910397908.3A priority Critical patent/CN110147551B/zh
Publication of CN110147551A publication Critical patent/CN110147551A/zh
Application granted granted Critical
Publication of CN110147551B publication Critical patent/CN110147551B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种多类别实体识别模型训练、实体识别方法、服务器及终端,所述多类别实体识别模型训练方法包括:对语料信息进行实体和实体类别标签,得到包括实体和实体类别标签的目标标注语料信息;对目标标注语料信息中的语料信息进行多维度特征分析处理,得到目标标注语料信息的多维度信息;基于多维度信息和目标标注语料信息中实体和实体类别标签对预设深度学习模型进行多类别实体识别训练,得到多类别实体识别模型;其中,所述预设深度学习模型包括特征输入转换层、语义序列表征层、实体特征筛选层和类别实体输出层。利用本申请提供的技术方案可以快速准确的识别出语料信息中的实体和实体类别,实现多类别实体的识别。

Description

多类别实体识别模型训练、实体识别方法、服务器及终端
技术领域
本申请涉及人工智能技术领域,尤其涉及一种多类别实体识别模型训练、实体识别方法、服务器及终端。
背景技术
随着人工智能和大数据技术的发展,对于自然语言处理的技术需求不断提高,其中,命名实体识别作为语义理解、语音合成等任务的必要前操作,在自然语言理解中具有重要的作用。
在现有的命名实体(以下简称实体)识别方法中,应用较广泛的是基于条件随机场模型的实体识别方法。该方法可以基于某一领域的训练数据对模型进行训练,在训练过程中可以结合文本中的上下文信息辅助该领域的实体的识别。但上述现有的方案中实体识别的效果完全依赖于训练数据的选择和设计,无法应用到不同领域。在实际应用中,往往需要对包括人名、地名、机构名、视频、汽车、游戏等多个领域的不同类别的实体进行识别,导致在实际应用中实体识别的准确率低。因此,需要提供更可靠或更有效的方案。
发明内容
本申请提供了一种多类别实体识别模型训练、实体识别方法、服务器及终端,可以快速准确的识别出语料信息中的实体和实体类别,实现多类别实体的识别。
一方面,本申请提供了一种多类别实体识别模型训练方法,所述方法包括:
对语料信息进行实体和实体类别标签,得到目标标注语料信息,所述目标标注语料信息为包括实体和实体类别标签的语料信息;
对所述目标标注语料信息中的语料信息进行多维度特征分析处理,得到所述目标标注语料信息的多维度信息;
基于所述多维度信息和所述目标标注语料信息中实体和实体类别标签对预设深度学习模型进行多类别实体识别训练,得到多类别实体识别模型;
其中,所述预设深度学习模型包括特征输入转换层、语义序列表征层、实体特征筛选层和类别实体输出层。
另一方面提供了一种多类别实体识别模型服务器,所述服务器包括:
标注模块,用于对语料信息进行实体和实体类别标签,得到目标标注语料信息,所述目标标注语料信息为包括实体和实体类别标签的语料信息;
第一多维度特征分析处理模块,用于对所述目标标注语料信息中的语料信息进行多维度特征分析处理,得到所述目标标注语料信息的多维度信息;
多类别实体识别训练模块,用于基于所述多维度信息和所述目标标注语料信息中实体和实体类别标签对预设深度学习模型进行多类别实体识别训练,得到多类别实体识别模型;
其中,所述预设深度学习模型包括特征输入转换层、语义序列表征层、实体特征筛选层和类别实体输出层。
另一方面提供了一种多类别实体识别模型训练服务器,所述服务器包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述的多类别实体识别模型训练方法。
另一方面提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述的多类别实体识别模型训练方法。
另一方面,本申请提供了一种多类别实体识别方法,所述方法包括:
获取目标语料信息;
对所述目标语料信息进行多维度特征分析处理,得到所述目标语料信息的多维度信息;
基于多类别实体识别模型对所述目标语料信息的多维度信息进行多类别实体识别,得到所述目标语料信息的实体和实体类别标签;
其中,所述多类别实体识别模型包括特征输入转换层、语义序列表征层、实体特征筛选层和类别实体输出层。
另一方面,本申请提供了一种多类别命名实体识别终端,所述终端包括:
目标语料信息获取模块,用于获取目标语料信息;
第二多维度特征分析处理模块,用于对所述目标语料信息进行多维度特征分析处理,得到所述目标语料信息的多维度信息;
多类别实体识别模块,用于基于多类别实体识别模型对所述目标语料信息的多维度信息进行多类别实体识别,得到所述目标语料信息的实体和实体类别标签;
其中,所述多类别实体识别模型包括特征输入转换层、语义序列表征层、实体特征筛选层和类别实体输出层。
另一方面提供了一种多类别实体识别终端,所述终端包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述的多类别实体识别方法。
另一方面提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述的多类别实体识别方法。
本申请提供的多类别实体识别模型训练、实体识别方法、服务器及终端,具有如下技术效果:
本申请能够通过对语料信息进行实体和实体类别标签,得到包括实体和实体类别标签的语料信息;接着,对所述语料信息进行多维度特征分析处理,得到可以从更多的维度来表征语料信息的多维度信息,提高了对目标语料信息的表征能力;最后,基于所述多维度信息、相应的实体和实体类别标签对包括特征输入转换层、语义序列表征层、实体特征筛选层和类别实体输出层的预设深度学习模型进行多类别实体识别训练,得到能够快速准确识别出语料信息中实体和实体类别的多类别实体识别模型。在多类别实体识别时,通过对获取的目标语料信息进行多维度特征分析处理,得到可以从更多的维度来表征目标语料信息的多维度信息,提高了对目标语料信息的表征能力;然后,将多维度特征分析处理后的多维度信息输入训练好的多类别实体识别模型进行多类别实体的识别,可以快速准确的识别目标语料信息中的实体和实体类别,实现多类别实体的识别。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是本申请实施例提供的一种应用环境的示意图;
图2是本申请实施例提供的一种多类别实体识别模型训练方法的流程示意图;
图3是本申请实施例提供的一种对语料数据进行实体和实体类别标签,得到标注语料信息方法的流程示意图;
图4是本申请实施例提供的一种对所述目标标注语料信息中的语料信息进行多维度特征分析处理,得到所述目标标注语料信息的多维度信息方法的流程示意图;
图5是本申请实施例提供的一种多类别实体识别方法的流程示意图;
图6是本申请实施例提供的一种基于多类别实体识别模型对所述目标语料信息的多维度信息进行多类别实体识别,得到所述目标语料信息的实体和实体类别标签方法的流程示意图;
图7是本申请实施例提供的一种基于多类别实体识别模型对目标语料信息的多维度信息进行多类别实体识别,得到目标语料信息的实体和实体类别标签的示意图;
图8是本申请实施例提供的一种多类别实体识别模型训练服务器的结构示意图;
图9是本申请实施例提供的一种多类别实体识别终端的结构示意图;
图10是本申请实施例提供的一种服务器的结构示意图;
图11是本申请实施例提供的一种基于多类别实体识别模型进行多种类别实体识别的应用场景示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
请参阅图1,图1是本申请实施例提供的一种应用环境的示意图,如图1所示,该应用环境至少可以包括服务器01和终端02。
本说明书实施例中,所述服务器01可以包括一个独立运行的服务器,或者分布式服务器,或者由多个服务器组成的服务器集群。具体的,所述服务器01可以用于进行多类别实体识别模型训练。
本说明书实施例中,所述终端02可以包括智能手机、台式电脑、平板电脑、笔记本电脑、数字助理、智能可穿戴设备等类型的实体设备,也可以包括运行于实体设备中的软体,例如应用程序、网站等。本申请实施例中终端上运行的操作系统可以包括但不限于安卓系统、IOS系统、linux、windows等。具体的,所述终端02可以用于基于服务器01训练得到的多类别实体识别模型进行多类别实体识别。
以下介绍本申请多类别实体识别模型训练方法,图2是本申请实施例提供的一种多类别实体识别模型训练方法的流程示意图,本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或服务器产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图2所示,所述方法可以包括:
S201:对语料信息进行实体和实体类别标签,得到目标标注语料信息。
在实际应用中,语料信息中往往有多个实体,且多个实体对应着不同的类别。本说明书实施例中,对语料信息进行实体和实体类别标签,得到目标标注语料信息。具体的,所述目标标注语料信息可以为包括实体和实体类别标签的语料信息。所述目标标注语料信息用于训练可以进行多类型实体识别的模型。
在一个具体的实施例中,如图3所示,对语料数据进行实体和实体类别标签,得到标注语料信息可以包括:
S2011:基于实体词典库对样本语料信息进行匹配标注,得到初始标注语料信息。
本说明书实施例中,所述实体词典库可以包括多种类别的实体库,每一类别的实体库中包括大量该类别的实体。所述样本语料信息可以包括大量各个领域的语料信息。
在实际应用中,语料信息中包括一个个词语,一些词语就是一个实体,相应的,当语料信息中的词语与多种类别的实体库中的实体相匹配(即一致)时,可以将语料信息中的该词语标注为相应类别的此题,进而得到初始标注语料信息。本说明书实施例中,所述初始标注语料信息为包括实体词典库对样本语料信息进行匹配标注后得到的实体和实体类别标签的语料信息。
本说明书实施例中,所述实体类别可以包括但不限于人名、地名、机构名、视频、汽车、游戏等实体类别。
S2013:对所述初始标注语料信息进行多次验证标注,得到多次验证标注后的标注语料信。
在实际应用中,为了保证数据的准确性,可以按照一定标注冗余度,即验证标注的次数,对所述初始标注语料信息进行多次验证标注,得到多次验证标注后的标注语料信。具体的,可以通过多个预先训练好的验证标注模型进行述初始标注语料信息的验证标识,即验证语料信息中的实体以及实体类别的标注是否准确。
在另一些实施例中,还可以通过人工验证标注的方式,实现对初始标注语料信息的验证标注,即每个初始标注语料信息会被多个不同标注工作者标注。在标注过程中,标注工作者只需对错标注和漏标注进行修改和添加,对标注准确的内容可快速过审,大大节省标注人力成本。
S2015:基于可信度分析模型对多次验证标注后的标注语料信息进行可信度分析,得到每次验证标注的可信度。
本说明书实施例中,所述可信度可以包括能够反映验证标注后标注语料信息中标注的实体和实体类型的准确程度所对应的一特定值,该特定值为准确程度的字符化表征通过预设的规则量化的数值;当验证标注后标注语料信息中标注的实体和实体类型的准确程度越高,该特定值越大;反之,当验证标注后标注语料信息中标注的实体和实体类型的准确程度越低,该特定值越小。
本说明书实施例中,所述可信度分析模型可以对每次验证标注后的标注语料信息进行可信度分析,得到每次验证标注的可信度。在一个具体的实施例中,所述可信度分析模型可以包括但不限于基于LCA(Latent credibility analysis,潜在可信度分析)率算法的模型。
此外,在实际应用中,还可以基于每次验证标注的可信度对标注工作者或验证标注模型的标注权威度(准确度)进行设置,后续可以优先采用准确度高的验证标注模型进行验证标注,或可以优先选用权威度的标注工作者进行验证标注。
S2017:基于所述可信度从所述多次验证标注后的标注语料信息中确定所述目标标注语料信息。
本说明书实施例中,可以将多次验证标注后的标注语料信息中可信度最高的标注语料信息作为目标标注语料信息。
本说明书实施例中,通过对大量语料信息进行实体和实体类别的标注,为多类别实体识别模型的训练提供了数据基础。
S203:对所述目标标注语料信息中的语料信息进行多维度特征分析处理,得到所述目标标注语料信息的多维度信息训练。
在实际应用中,汉语分词工具在多领域的语料信息的分词处理过程中,往往存在分词效果差等问题,导致实体识别的错误。本说明书实施例中,可以语料信息进行多维度特征分析处理,从多个维度对语料信息进行特征分析,保证对语料信息的正确表征。
本说明书实施例中,如图4所示,对所述目标标注语料信息中的语料信息进行多维度特征分析处理,得到所述目标标注语料信息的多维度信息可以包括:
S2031:对所述目标标注语料信息中的语料信息进行分词处理,得到所述目标标注语料信息的分词信息。
本说明书实施例中,可以结合自然语言处理算法对目标标注语料信息中的语料信息进行分词处理,得到的分词后的多个词语可以作为该目标标注语料信息的分词信息。
在一个具体的实施例中,例如目标标注语料信息为:国家领导出访国外,相应的,分词信息可以包括国家、领导、出访、国外四个词语。
S2033:对所述分词信息进行分字处理,得到所述标注语料信息的分字信息。
本说明书实施例中,对所述分词信息进行分字处理可以包括将每一词语按字进行划分,例如分词装置中包括国家,分字处理后为国、家两个字。
S2035:对所述分词信息进行词性分析,得到所述标注语料信息的词性信息。
在实际应用中,分词信息中不同的词语往往具有不同的词性,具体的,词语的词性可以指以词的特点作为划分词类的根据。例如,国家的词性为名词。
S2037:将所述分词信息、分字信息和所述词性信息作为所述目标标注语料信息的多维度信息。
本说明书实施例中,通过对语料信息进多维度特征分析,得到分词信息、分字信息和所述词性信息的多维度信息,实现从更多的维度来表征语料信息,可以更好的表征语料信息,进而提高后续确定出的多类别实体的准确性。
S205:基于所述多维度信息和所述目标标注语料信息中实体和实体类别标签对预设深度学习模型进行多类别实体识别训练,得到多类别实体识别模型。
本说明书实施例中,所述预设深度学习模型可以包括循环神经网络(RecurrentNeural Network,RNN):是一类具有短期记忆能力的神经网络。在循环神经网络中,神经元不但可以接受其它神经元的信息,也可以接受自身的信息,形成具有环路的网络结构。在一个具体的实施例中,所述预设深度学习模型包括特征输入转换层、语义序列表征层、实体特征筛选层和类别实体输出层。
具体的,所述特征输入转换层可以用于将输入的信息转换成特征向量,本说明书实施例中,特征输入转换层可以包括但不限于Word2vec等自然语言模型。
具体的,所述语义序列表征层可以用于对特征输入转换层输出的特征向量进行序列语义建模,获得各特征向量的长距离上下文依赖信息,得到语义特征向量;另外,特征输入转换层输出的特征向量为多维度的特征向量时,可以将多种特征向量的语义特征向量进行拼接后输出,得到综合多种特征向量的信息的语义特征向量。本说明书实施例中,语义序列表征层可以包括但不限于双向长短时记忆网络(Long Short-Term Memory,LSTM)+concat(拼接)层。双向长短时记忆网络(Bi-directional Long Short-Term Memory,BiLSTM)是由前向LSTM与后向LSTM组合而成。
具体的,所述实体特征筛选层可以用于对语义序列表征层输出的语义特征向量多角度、多层次地进行实体类别特征筛选,得到实体类别特征向量;本说明书实施例中,所述实体特征筛选层可以包括但不限于多头注意力机制(Multi-head Attention)层。本说明书实施例中,通过在模型中增加实体特征筛选层可以增强对不同实体类别分辨能力,进而提升训练出来的多类别实体模型的识别效果。
具体的,所述类别实体输出层可以用于记录输入到特征输入转换层的信息的全局特征,结合语义序列表征层输出的语义特征向量和实体特征筛选层输出的实体类别特征向量进行多类别实体的识别,得到实体和实体类别的标签。本说明书实施例中,所述类别实体输出层可以包括但不限于条件随机场(Conditional Random Fields,CRF)层。
本说明书实施例中,在基于BiLSTM-CRF框架算法加入multi-head self-attention层作为预设深度学习模型,以进行多类别实体模型的训练,可以在保留了BiLSTM-CRF既有优势,缓解人工特征工程和信息长距离依赖的问题的同时,又解决了BiLSTM-CRF框架应用于多类别实体识别时处理速度和效果不能兼顾的问题,可以在保证处理速度的情况下,通过融合多头注意力机制的方法提升模型的识别效果。且以multi-headself-attention层作为实体特征的筛选层,实现在多个不同空间捕获上下文相关信息,筛选不同类别实体的重要特征,增强对实体类别分辨能力,进而提升训练出来的多类别实体模型的识别效果。
在一个具体的实施例中,基于所述多维度信息和所述目标标注语料信息中实体和实体类别标签对预设深度学习模型进行多类别实体识别训练,得到多类别实体识别模型可以包括:
1)基于所述多维度信息和所述目标标注语料信息中实体和实体类别标签确定第一数量的训练标注语料信息和第二数量的验证标注语料信息。
基于本说明书实施例提供的实体和实体类别的标注方法,可以得到大量的目标标注语料信息。本说明书实施例中,目标标注语料信息中语料信息对应着多维度信息、以及该语料信息的实体和实体类别标签;相应的,可以基于目标标注语料信息中语料信息对应的多维度信息和相应的实体和实体类别标签确定第一数量的训练标注语料信息和第二数量的验证标注语料信息。具体的,这里的训练标注语料信息和验证标注语料信息可以包括一一对应的多维度信息,以及实体和实体类别标签。其中,训练标注语料信息可以用于训练多类别实体识别模型;验证标注语料信息可以用于对多类别实体识别模型的识别结果进行验证;另外,在一些实施例中,还可以基于目标标注语料信息中语料信息对应的多维度信息和相应的实体和实体类别标签确定出第三数量的测试标注语料信息,该测试标注语料信息可以包括一一对应的多维度信息,以及实体和实体类别标签,测试标注语料信息可以用于对多类别实体识别模型的识别效果进行测试。
在实际应用中,训练标注语料信息、验证标注语料信息和测试标注语料信息中的数据互不重叠,如表1所示,表1为包括多类别实体的训练标注语料信息(训练集)、验证标注语料信息(验证集)和测试标注语料信息(测试集)的一种示例:
表格1
实体类别\数据集 训练集 验证集 测试集 合计
人名 112243 21928 27604 161775
地名 50843 8326 12569 71738
机构 29997 3345 9608 42950
影视 31964 3705 9053 44722
汽车 17431 2745 3625 23801
游戏 7898 1148 2777 11823
2)基于所述第一数量的训练标注语料信息对所述预设深度学习模型进行多类别实体识别训练,得到拟用多类别实体识别模型。
本说明书实施例中,可以结合标注工作者的验证标注的结果(即错标注和漏标注的情况)对模型效果进行评估,记录出每轮模型迭代的效果。
3)将所述第二数量的验证标注语料信息中的多维度信息输入所述拟用多类别实体识别模型进行多类别实体识别,得到第一识别结果。
具体的,这里的第一识别结果可以包括实体和实体类别的标签,或非实体的标签。
4)当所述第一识别结果与输入的多维度信息对应的实体和实体类别标签相匹配时,将所述拟用多类别实体识别模型作为所述多类别实体识别模型。
具体的,这里的第一识别结果与输入的多维度信息对应的实体和实体类别标签相匹配可以为第一识别结果对应的实体和实体类别标签,与输入的多维度信息对应的实体和实体类别标签一致。
5)当所述第一识别结果与输入的多维度信息对应的实体和实体类别标签不匹配时,调整所述拟用多类别实体识别模型中的模型参数,基于所述第一数量的训练标注语料信息对所述调整后的拟用多类别实体识别模型进行实体类别预测训练,至拟用多类别实体识别模型输出的第一识别结果与输入的多维度信息对应的实体和实体类别标签相匹配。
在一些实施例中,基于所述第一数量的训练标注语料信息对所述预设深度学习模型进行多类别实体识别训练,得到拟用多类别实体识别模型可以包括:
1)将所述第一数量的训练标注语料信息中的多维度信息输入所述预设深度学习模型的特征输入转换层进行特征转化处理,得到多维度的特征向量。
2)将所述多维度的特征向量输入所述预设深度学习模型的语义序列表征层进行实体语义特征表征和实体语义表征特征的拼接处理,得到多维度的语义特征向量。
在一个具体的实施例中,当语义序列表征层为双向长短时记忆网络时,LSTM中包括记忆单元。记忆单元可以用于对当前的观测状态以前的每个时间观测到的输入进行内存编码。这也是LSTM善于利用长距离依赖的原因。本说明书实施例中,通过调整记忆单元使得网络能够学习到何时对先前的信息进行遗忘掉并且学会何时根据当前的输入词更新当前的记忆单元。进而可以学习并利用更长距离的上下文信息,使得在多类别实体识别时,可以利用更大范围、更全面的上下文信息,利于识别长串的实体。
3)将所述多维度的语义特征向量输入所述预设深度学习模型的实体特征筛选层进行实体类别特征筛选,得到实体类别特征向量。
在一个具体的实施例中,当所述实体特征筛选层为注意力机制层时,可以将多维度的语义特征向量中每个语义特征向量看作qi;然后,将多维度的语义特征向量对应的语料信息看作k,计算每个qi与k的相关性得分,最后,将qi相对于k的相关性得分进行加权求和,在加权求和过程中,通过对权重的分配,将较高的权重分配给对识别实体的起重要作用的特征,将较低的权重分配给识别实体无关的特征,然后,通过将加权实现对重要特征的关注,筛选出可以表征不同类别实体的特征信息的实体类别特征向量。
本说明书实施例中,当所述实体特征筛选层为多头注意力机制层时,可以将特征重复进行不同的映射,具体的,这里的将特征重复进行不同的映射可以包括在权重的分配时,调整不同qi相对于k的相关性的权重。使得其可以从多角度、多层面的捕获到不同类别实体的重要特征信息。
4)将所述多维度的语义特征向量和所述实体类别特征向量输入所述预设深度学习模型的类别实体输出层进行多类别实体识别,得到第二识别结果。
本说明书实施例中,标签可以包括但不限于B、I、O、S的标签,其中B表示实体的头部,I表示实体非头部部分,O表示非实体,S表示单个完整实体。本说明书实施例中,不同类型的实体与标签体系与多类别实体叉乘,O标签为共用,其他B、I、S标签使用时结合实体类型。
在一个具体的实施例中,当所述类别实体输出层为条件随机场层时,可以对语义序列表征层和实体特征筛选层输出的向量进行分析,并通过CRF中的标准维特比算法预测全局最优标签。
具体的,所述第二识别结果包括实体和实体类别的标签,或非实体的标签。本说明书实施例中,所述实体和实体类别的标签可以包括B、I、S与实体类别组合的标签。
5)基于所述第二识别结果与所述第一数量的训练标注语料信息中的实体和实体类别标签调整所述预设深度学习模型中的模型参数,得到拟用多类别实体识别模型。
具体的,当所述第二识别结果与所述第一数量的训练标注语料信息中的实体和实体类别标签相匹配(标签一致)时,将当前的预设深度学习模型作为拟用多类别实体识别模型。反之,当所述第一识别结果与输入的多维度信息对应的实体和实体类别标签不匹配时,调整所述预设深度学习模型中的模型参数,基于所述第一数量的训练标注语料信息对所述调整后的预设深度学习模型进行实体类别预测训练,至预设深度学习模型输出的第二识别结果与所述第一数量的训练标注语料信息中的实体和实体类别标签相匹配。
由以上本说明书实施例提供的技术方案可见,本说明书通过对语料信息进行实体和实体类别标签,得到包括实体和实体类别标签的语料信息;接着,对所述语料信息进行多维度特征分析处理,得到可以从更多的维度来表征语料信息的多维度信息,提高了对目标语料信息的表征能力;最后,基于所述多维度信息、相应的实体和实体类别标签对包括特征输入转换层、语义序列表征层、实体特征筛选层和类别实体输出层的预设深度学习模型进行多类别实体识别训练,得到能够快速准确识别出语料信息中实体和实体类别的多类别实体识别模型。
基于上述实施例训练得到的多类别实体识别模型,以下介绍本申请一种多类别实体识别方法的实施例,图5是本申请实施例提供的一种多类别实体识别方法的流程示意图,本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或服务器产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图5所示,所述方法可以包括:
S501:获取目标语料信息。
本说明书实施例中,所述目标语料信息可以包括需要识别出实体和实体类别的语料信息。
S503:对所述目标语料信息进行多维度特征分析处理,得到所述目标语料信息的多维度信息。
本说明书实施例中,所述对所述目标语料信息进行多维度特征分析处理,得到多维度信息可以包括:对所述目标语料信息进行分词处理,得到分词信息;对所述分词信息进行分字处理,得到分字信息;对所述分词信息进行词性分析,得到词性信息;将所述分词信息、分字信息和所述词性信息作为所述多维度信息。
具体的,这里对所述目标语料信息进行多维度特征分析处理的详细描述可以参见上述对目标标注语料信息中的语料信息进行多维度特征分析处理的相关步骤,在此不再赘述。
本说明书实施例中,通过对目标语料信息进多维度特征分析,得到分词信息、分字信息和所述词性信息的多维度信息,实现从更多的维度来表征目标语料信息,可以更好的表征目标语料信息,进而提高后续对多类别实体识别的准确性。
S505:基于多类别实体识别模型对所述目标语料信息的多维度信息进行多类别实体识别,得到所述目标语料信息的实体和实体类别标签。
本说明书实施例中,所述多类别实体识别模型包括特征输入转换层、语义序列表征层、实体特征筛选层和类别实体输出层。
具体的实施例中,如图6所示,基于多类别实体识别模型对所述目标语料信息的多维度信息进行多类别实体识别,得到所述目标语料信息的实体和实体类别标签可以包括:
S5051:将所述多维度信息输入所述多类别实体识别模型的特征输入转换层进行特征转化处理,得到多维度的特征向量。
S5053:将所述多维度的特征向量输入所述多类别实体识别模型的语义序列表征层进行实体语义特征表征和实体语义表征特征的拼接处理,得到多维度的语义特征向量。
S5055:将所述多维度的语义特征向量输入所述多类别实体识别模型的实体特征筛选层进行实体类别特征筛选,得到实体类别特征向量。
S5057:将所述多维度的语义特征向量和所述实体类别特征向量输入所述多类别实体识别模型的类别实体输出层进行多类别实体识别,得到所述目标语料信息的实体和实体类别标签。
在一个具体的实施例中,假设目标语料信息为xx(某公司名称)手游xx(某手游名称)盈利。如图7所示,图7是本申请实施例提供的一种基于多类别实体识别模型对目标语料信息的多维度信息进行多类别实体识别,得到目标语料信息的实体和实体类别标签的示意图;从图7可见,目标语料信息的多维度信息中的分词信息(Word)可以包括:腾讯、手游、王者荣耀以及盈利;分字信息(char)依次可以包括:腾/讯、手/游、王/者/荣/耀以及盈/利;词性信息(pos)依次可以包括:n(名词)、n(名词)、n(名词)和n(名词)。
相应的,可以将xx、x/x、n;手游、手/游、n;xxxx、x/x/x/x、n;盈利、盈/利、n输入特征输入转换层进行特征转化处理;然后,将特征转化处理后的多维度特征向量输入语义序列表征层(LSTM和Concat)进行实体语义特征表征和实体语义表征特征的拼接处理;接着,将语义序列表征层的输出作为实体特征筛选层的输入,进行实体类别特征筛选;最后,将语义序列表征层的输出和实体特征筛选层的输出作为类别实体输出层的输入,进行多类别实体识别,得到腾讯手游王者荣耀盈利的实体和实体类别标签可以为:xx(S-ORG)手游(O)xxxx(S-GAME)盈利(O)。其中,标签(S-ORG)表示xx为实体,且实体类别为机构名;(S-GAME)表示xxxx为实体,且实体类别为游戏。
由以上本说明书实施例提供技术方案可见,本说明书实施例中通过对获取的目标语料信息进行多维度特征分析处理,得到可以从更多的维度来表征目标语料信息的多维度信息,提高了对目标语料信息的表征能力;然后,将多维度特征分析处理后的多维度信息输入训练好的多类别实体识别模型进行多类别实体的识别,可以快速准确的识别目标语料信息中的实体和实体类别,实现多类别实体的识别。
本申请实施例还提供了多类别实体识别模型训练服务器,如图8所示,所述服务器可以包括:
标注模块810,用于对语料信息进行实体和实体类别标签,得到目标标注语料信息,所述目标标注语料信息为包括实体和实体类别标签的语料信息;
第一多维度特征分析处理模块820,用于对所述目标标注语料信息中的语料信息进行多维度特征分析处理,得到所述目标标注语料信息的多维度信息;
多类别实体识别训练模块830,用于基于所述多维度信息和所述目标标注语料信息中实体和实体类别标签对预设深度学习模型进行多类别实体识别训练,得到多类别实体识别模型;
其中,所述预设深度学习模型包括特征输入转换层、语义序列表征层、实体特征筛选层和类别实体输出层。
在一些实施例中,所述标注模块810可以包括:
匹配标注单元,用于基于实体词典库对样本语料信息进行匹配标注,得到初始标注语料信息;
多次验证标注单元,用于对所述初始标注语料信息进行多次验证标注,得到多次验证标注后的标注语料信;
可信度分析单元,用于基于可信度分析模型对多次验证标注后的标注语料信息进行可信度分析,得到每次验证标注的可信度;
目标标注语料信息确定单元,用于基于所述可信度从所述多次验证标注后的标注语料信息中确定所述目标标注语料信息。
在一些实施例中,所述多类别实体识别训练模块830可以包括:
数据处理单元,用于基于所述多维度信息和所述目标标注语料信息中实体和实体类别标签确定第一数量的训练标注语料信息和第二数量的验证标注语料信息;
第一多类别实体识别训练单元,用于基于所述第一数量的训练标注语料信息对所述预设深度学习模型进行多类别实体识别训练,得到拟用多类别实体识别模型;
第一识别结果获取单元,用于将所述第二数量的验证标注语料信息中的多维度信息输入所述拟用多类别实体识别模型进行多类别实体识别,得到第一识别结果;
多类别实体识别模型确定单元,用于当所述第一识别结果与输入的多维度信息对应的实体和实体类别标签相匹配时,将所述拟用多类别实体识别模型作为所述多类别实体识别模型;
模型调整处理单元,用于当所述第一识别结果与输入的多维度信息对应的实体和实体类别标签不匹配时,调整所述拟用多类别实体识别模型中的模型参数,基于所述第一数量的训练标注语料信息对所述调整后的拟用多类别实体识别模型进行实体类别预测训练,至拟用多类别实体识别模型输出的第一识别结果与输入的多维度信息对应的实体和实体类别标签相匹配。
在一些实施例中,所述第一多类别实体识别训练单元包括:
第一特征转化处理单元,用于将所述第一数量的训练标注语料信息中的多维度信息输入所述预设深度学习模型的特征输入转换层进行特征转化处理,得到多维度的特征向量;
第一语义特征处理单元,用于将所述多维度的特征向量输入所述预设深度学习模型的语义序列表征层进行实体语义特征表征和实体语义表征特征的拼接处理,得到多维度的语义特征向量;
第一实体类别特征筛选单元,用于将所述多维度的语义特征向量输入所述预设深度学习模型的实体特征筛选层进行实体类别特征筛选,得到实体类别特征向量;
第二识别结果获取单元,用于将所述多维度的语义特征向量和所述实体类别特征向量输入所述预设深度学习模型的类别实体输出层进行多类别实体识别,得到第二识别结果;
拟用多类别实体识别模型确定单元,用于基于所述第二识别结果与所述第一数量的训练标注语料信息中的实体和实体类别标签调整所述预设深度学习模型中的模型参数,得到拟用多类别实体识别模型。
在一些实施例中,所述第一多维度特征分析处理模块820可以包括:
第一分词处理单元,用于对所述目标标注语料信息中的语料信息进行分词处理,得到所述目标标注语料信息的分词信息;
第一分字处理单元,用于对所述分词信息进行分字处理,得到所述目标标注语料信息的分字信息;
第一词性分析单元,用于对所述分词信息进行词性分析,得到所述目标标注语料信息的词性信息;
第一多维度信息确定单元,用于将所述分词信息、分字信息和所述词性信息作为所述目标标注语料信息的多维度信息。
所述的服务器实施例与方法实施例基于同样地申请构思。
本申请实施例提供了一种多类别实体识别训练服务器,该多类别实体识别训练包括处理器和存储器,该存储器中存储有至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现如上述方法实施例所提供的多类别实体识别训练方法。
本申请实施例还提供了一种多类别命名实体识别终端,如图9所示,所述终端可以包括:
目标语料信息获取模块910,用于获取目标语料信息;
第二多维度特征分析处理模块920,用于对所述目标语料信息进行多维度特征分析处理,得到所述目标语料信息的多维度信息;
多类别实体识别模块930,用于基于多类别实体识别模型对所述目标语料信息的多维度信息进行多类别实体识别,得到所述目标语料信息的实体和实体类别标签;
其中,所述多类别实体识别模型包括特征输入转换层、语义序列表征层、实体特征筛选层和类别实体输出层。
在一些实施例中,所述第二多维度特征分析处理模块920包括:
第二分词处理单元,用于对所述目标语料信息进行分词处理,得到分词信息;
第二分字处理单元,用于对所述分词信息进行分字处理,得到分字信息;
第二词性分析单元,用于对所述分词信息进行词性分析,得到词性信息;
第二多维度信息确定单元,用于将所述分词信息、分字信息和所述词性信息作为所述多维度信息。
在一些实施例中,所述多类别实体识别模块930包括:
第二特征转化处理单元,用于将所述多维度信息输入所述多类别实体识别模型的特征输入转换层进行特征转化处理,得到多维度的特征向量;
第二语义特征处理单元,用于将所述多维度的特征向量输入所述多类别实体识别模型的语义序列表征层进行实体语义特征表征和实体语义表征特征的拼接处理,得到多维度的语义特征向量;
第二实体类别特征筛选单元,用于将所述多维度的语义特征向量输入所述多类别实体识别模型的实体特征筛选层进行实体类别特征筛选,得到实体类别特征向量;
第三识别结果获取单元,用于将所述多维度的语义特征向量和所述实体类别特征向量输入所述多类别实体识别模型的类别实体输出层进行多类别实体识别,得到所述目标语料信息的实体和实体类别标签。
所述的终端实施例中的装置与方法实施例基于同样地申请构思。
本申请实施例提供了一种多类别命名实体识别终端,该多类别实体识别终端包括处理器和存储器,该存储器中存储有至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现如上述方法实施例所提供的多类别实体识别方法。
本说明书实施例中,存储器可用于存储软件程序以及模块,处理器通过运行存储在存储器的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、功能所需的应用程序等;存储数据区可存储根据所述设备的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器还可以包括存储器控制器,以提供处理器对存储器的访问。
本申请实施例所提供的多类别实体识别训练方法或多类别命名实体识别方法实施例均可以在移动终端、计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例,图10是本申请实施例提供的一种多类别命名实体识别方法的服务器的硬件结构框图。如图10所示,该服务器1000可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(Central Processing Units,CPU)1010(处理器1010可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器1030,一个或一个以上存储应用程序1023或数据1022的存储介质1020(例如一个或一个以上海量存储设备)。其中,存储器1030和存储介质1020可以是短暂存储或持久存储。存储在存储介质1020的程序可以包括一个或一个以上模块,每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1010可以设置为与存储介质1020通信,在服务器1000上执行存储介质1020中的一系列指令操作。服务器1000还可以包括一个或一个以上电源1060,一个或一个以上有线或无线网络接口1050,一个或一个以上输入输出接口1040,和/或,一个或一个以上操作系统1021,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
输入输出接口1040可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器1000的通信供应商提供的无线网络。在一个实例中,输入输出接口1040包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,输入输出接口1040可以为射频(RadioFrequency,RF)模块,其用于通过无线方式与互联网进行通讯。
本领域普通技术人员可以理解,图10所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,服务器1000还可包括比图10中所示更多或者更少的组件,或者具有与图10所示不同的配置。
本申请的实施例还提供了一种存储介质,所述存储介质可设置于服务器或终端之中以保存用于实现方法实施例中一种多类别实体识别模型训练方法或一种多类别实体识别方法相关的至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现上述方法实施例提供的多类别实体识别模型训练方法或多类别实体识别方法。
可选地,在本实施例中,上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以下结合需要文档中实体的识别向用户推荐文档的一种实施例。
具体的,从图中可见,可以基于本说明书实施例提供的多类别实体识别模型从需要推荐的文档中识别出多种类别的实体;另外,获取用户的画像信息,基于识别出的实体和用户画像中用户感兴趣的实体来拉取具有相同实体词的文档,来召回用户感兴趣的文档(召回逻辑);接着,需要对都是对给定的召回的文档进行打分排序,具体的,文档所包含的实体是文档的重要特征,实体会作为排序时逻辑的重要特征,相应的,可以提取实体特征,结合文档CTR(Click-Through-Rate,点击通过率),来预估文档在特定用户请求时的文档排序(rank),进而根据排序来向用户推荐文档。
利用本说明书实施例提供的方案,可以快速准确的识别包含多种类别的实体的文档中的实体,进而准确定位出用户感兴趣的文档,且结合文档的重要特征:实体特征,进行召回文档的排序,可以提高推荐给用户的文档与用户需求的匹配程度,有效改善用户体验。
需要说明的是:上述本申请实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于终端、服务器和存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (19)

1.一种多类别实体识别模型训练方法,其特征在于,所述方法包括:
对语料信息进行实体和实体类别标签,得到目标标注语料信息,所述目标标注语料信息为包括实体和实体类别标签的语料信息;
对所述目标标注语料信息中的语料信息进行多维度特征分析处理,得到所述目标标注语料信息的多维度信息;
基于所述多维度信息和所述目标标注语料信息中实体和实体类别标签对预设深度学习模型进行多类别实体识别训练,得到多类别实体识别模型;
其中,所述预设深度学习模型包括特征输入转换层、语义序列表征层、实体特征筛选层和类别实体输出层,所述实体特征筛选层用于对所述语义序列表征层输出的语义特征向量进行实体类别特征筛选,得到实体类别特征向量,所述实体类别特征向量表征不同类别实体的特征信息。
2.根据权利要求1所述的方法,其特征在于,所述对语料数据进行实体和实体类别标签,得到目标标注语料信息包括:
基于实体词典库对样本语料信息进行匹配标注,得到初始标注语料信息;
对所述初始标注语料信息进行多次验证标注,得到多次验证标注后的标注语料信;
基于可信度分析模型对多次验证标注后的标注语料信息进行可信度分析,得到每次验证标注的可信度;
基于所述可信度从所述多次验证标注后的标注语料信息中确定所述目标标注语料信息。
3.根据权利要求1所述的方法,其特征在于,所述基于所述多维度信息和所述目标标注语料信息中实体和实体类别标签对预设深度学习模型进行多类别实体识别训练,得到多类别实体识别模型包括:
基于所述多维度信息和所述目标标注语料信息中实体和实体类别标签确定第一数量的训练标注语料信息和第二数量的验证标注语料信息;
基于所述第一数量的训练标注语料信息对所述预设深度学习模型进行多类别实体识别训练,得到拟用多类别实体识别模型;
将所述第二数量的验证标注语料信息中的多维度信息输入所述拟用多类别实体识别模型进行多类别实体识别,得到第一识别结果;
当所述第一识别结果与输入的多维度信息对应的实体和实体类别标签相匹配时,将所述拟用多类别实体识别模型作为所述多类别实体识别模型;
当所述第一识别结果与输入的多维度信息对应的实体和实体类别标签不匹配时,调整所述拟用多类别实体识别模型中的模型参数,基于所述第一数量的训练标注语料信息对所述调整后的拟用多类别实体识别模型进行实体类别预测训练,至拟用多类别实体识别模型输出的第一识别结果与输入的多维度信息对应的实体和实体类别标签相匹配。
4.根据权利要求3所述的方法,其特征在于,所述基于所述第一数量的训练标注语料信息对所述预设深度学习模型进行多类别实体识别训练,得到拟用多类别实体识别模型包括:
将所述第一数量的训练标注语料信息中的多维度信息输入所述预设深度学习模型的特征输入转换层进行特征转化处理,得到多维度的特征向量;
将所述多维度的特征向量输入所述预设深度学习模型的语义序列表征层进行实体语义特征表征和实体语义表征特征的拼接处理,得到多维度的语义特征向量;
将所述多维度的语义特征向量输入所述预设深度学习模型的实体特征筛选层进行实体类别特征筛选,得到实体类别特征向量;
将所述多维度的语义特征向量和所述实体类别特征向量输入所述预设深度学习模型的类别实体输出层进行多类别实体识别,得到第二识别结果;
基于所述第二识别结果与所述第一数量的训练标注语料信息中的实体和实体类别标签调整所述预设深度学习模型中的模型参数,得到拟用多类别实体识别模型。
5.根据权利要求1所述的方法,其特征在于,所述对所述目标标注语料信息中的语料信息进行多维度特征分析处理,得到所述目标标注语料信息的多维度信息包括:
对所述目标标注语料信息中的语料信息进行分词处理,得到所述目标标注语料信息的分词信息;
对所述分词信息进行分字处理,得到所述目标标注语料信息的分字信息;
对所述分词信息进行词性分析,得到所述目标标注语料信息的词性信息;
将所述分词信息、分字信息和所述词性信息作为所述目标标注语料信息的多维度信息。
6.一种多类别实体识别方法,其特征在于,所述方法包括:
获取目标语料信息;
对所述目标语料信息进行多维度特征分析处理,得到所述目标语料信息的多维度信息;
基于多类别实体识别模型对所述目标语料信息的多维度信息进行多类别实体识别,得到所述目标语料信息的实体和实体类别标签;
其中,所述多类别实体识别模型包括特征输入转换层、语义序列表征层、实体特征筛选层和类别实体输出层,所述实体特征筛选层用于对所述语义序列表征层输出的语义特征向量进行实体类别特征筛选,得到实体类别特征向量,所述实体类别特征向量表征不同类别实体的特征信息。
7.根据权利要求6所述的方法,其特征在于,所述对所述目标语料信息进行多维度特征分析处理,得到多维度信息包括:
对所述目标语料信息进行分词处理,得到分词信息;
对所述分词信息进行分字处理,得到分字信息;
对所述分词信息进行词性分析,得到词性信息;
将所述分词信息、分字信息和所述词性信息作为所述多维度信息。
8.根据权利要求6所述的方法,其特征在于,所述基于多类别实体识别模型对所述目标语料信息的多维度信息进行多类别实体识别,得到所述目标语料信息的实体和实体类别标签包括:
将所述多维度信息输入所述多类别实体识别模型的特征输入转换层进行特征转化处理,得到多维度的特征向量;
将所述多维度的特征向量输入所述多类别实体识别模型的语义序列表征层进行实体语义特征表征和实体语义表征特征的拼接处理,得到多维度的语义特征向量;
将所述多维度的语义特征向量输入所述多类别实体识别模型的实体特征筛选层进行实体类别特征筛选,得到实体类别特征向量;
将所述多维度的语义特征向量和所述实体类别特征向量输入所述多类别实体识别模型的类别实体输出层进行多类别实体识别,得到所述目标语料信息的实体和实体类别标签。
9.一种多类别实体识别模型训练服务器,其特征在于,所述服务器包括:
标注模块,用于对语料信息进行实体和实体类别标签,得到目标标注语料信息,所述目标标注语料信息为包括实体和实体类别标签的语料信息;
第一多维度特征分析处理模块,用于对所述目标标注语料信息中的语料信息进行多维度特征分析处理,得到所述目标标注语料信息的多维度信息;
多类别实体识别训练模块,用于基于所述多维度信息和所述目标标注语料信息中实体和实体类别标签对预设深度学习模型进行多类别实体识别训练,得到多类别实体识别模型;
其中,所述预设深度学习模型包括特征输入转换层、语义序列表征层、实体特征筛选层和类别实体输出层,所述实体特征筛选层用于对所述语义序列表征层输出的语义特征向量进行实体类别特征筛选,得到实体类别特征向量,所述实体类别特征向量表征不同类别实体的特征信息。
10.根据权利要求9所述的服务器,其特征在于,所述标注模块包括:
匹配标注单元,用于基于实体词典库对样本语料信息进行匹配标注,得到初始标注语料信息;
多次验证标注单元,用于对所述初始标注语料信息进行多次验证标注,得到多次验证标注后的标注语料信;
可信度分析单元,用于基于可信度分析模型对多次验证标注后的标注语料信息进行可信度分析,得到每次验证标注的可信度;
目标标注语料信息确定单元,用于基于所述可信度从所述多次验证标注后的标注语料信息中确定所述目标标注语料信息。
11.根据权利要求9所述的服务器,其特征在于,所述第一多维度特征分析处理模块包括:
第一分词处理单元,用于对所述目标标注语料信息中的语料信息进行分词处理,得到所述目标标注语料信息的分词信息;
第一分字处理单元,用于对所述分词信息进行分字处理,得到所述目标标注语料信息的分字信息;
第一词性分析单元,用于对所述分词信息进行词性分析,得到所述目标标注语料信息的词性信息;
第一多维度信息确定单元,用于将所述分词信息、分字信息和所述词性信息作为所述目标标注语料信息的多维度信息。
12.根据权利要求9所述的服务器,其特征在于,所述多类别实体识别训练模块包括:
数据处理单元,用于基于所述多维度信息和所述目标标注语料信息中实体和实体类别标签确定第一数量的训练标注语料信息和第二数量的验证标注语料信息;
第一多类别实体识别训练单元,用于基于所述第一数量的训练标注语料信息对所述预设深度学习模型进行多类别实体识别训练,得到拟用多类别实体识别模型;
第一识别结果获取单元,用于将所述第二数量的验证标注语料信息中的多维度信息输入所述拟用多类别实体识别模型进行多类别实体识别,得到第一识别结果;
多类别实体识别模型确定单元,用于当所述第一识别结果与输入的多维度信息对应的实体和实体类别标签相匹配时,将所述拟用多类别实体识别模型作为所述多类别实体识别模型;
模型调整处理单元,用于当所述第一识别结果与输入的多维度信息对应的实体和实体类别标签不匹配时,调整所述拟用多类别实体识别模型中的模型参数,基于所述第一数量的训练标注语料信息对所述调整后的拟用多类别实体识别模型进行实体类别预测训练,至拟用多类别实体识别模型输出的第一识别结果与输入的多维度信息对应的实体和实体类别标签相匹配。
13.根据权利要求12所述的服务器,其特征在于,所述第一多类别实体识别训练单元包括:
第一特征转化处理单元,用于将所述第一数量的训练标注语料信息中的多维度信息输入所述预设深度学习模型的特征输入转换层进行特征转化处理,得到多维度的特征向量;
第一语义特征处理单元,用于将所述多维度的特征向量输入所述预设深度学习模型的语义序列表征层进行实体语义特征表征和实体语义表征特征的拼接处理,得到多维度的语义特征向量;
第一实体类别特征筛选单元,用于将所述多维度的语义特征向量输入所述预设深度学习模型的实体特征筛选层进行实体类别特征筛选,得到实体类别特征向量;
第二识别结果获取单元,用于将所述多维度的语义特征向量和所述实体类别特征向量输入所述预设深度学习模型的类别实体输出层进行多类别实体识别,得到第二识别结果;
拟用多类别实体识别模型确定单元,用于基于所述第二识别结果与所述第一数量的训练标注语料信息中的实体和实体类别标签调整所述预设深度学习模型中的模型参数,得到拟用多类别实体识别模型。
14.一种多类别实体识别模型训练服务器,其特征在于,所述服务器包括:处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至5中任一项所述的多类别实体识别模型训练方法。
15.一种多类别命名实体识别终端,其特征在于,所述终端包括:
目标语料信息获取模块,用于获取目标语料信息;
第二多维度特征分析处理模块,用于对所述目标语料信息进行多维度特征分析处理,得到所述目标语料信息的多维度信息;
多类别实体识别模块,用于基于多类别实体识别模型对所述目标语料信息的多维度信息进行多类别实体识别,得到所述目标语料信息的实体和实体类别标签;
其中,所述多类别实体识别模型包括特征输入转换层、语义序列表征层、实体特征筛选层和类别实体输出层,所述实体特征筛选层用于对所述语义序列表征层输出的语义特征向量进行实体类别特征筛选,得到实体类别特征向量,所述实体类别特征向量表征不同类别实体的特征信息。
16.根据权利要求15所述的终端,其特征在于,所述第二多维度特征分析处理模块包括:
第二分词处理单元,用于对所述目标语料信息进行分词处理,得到分词信息;
第二分字处理单元,用于对所述分词信息进行分字处理,得到分字信息;
第二词性分析单元,用于对所述分词信息进行词性分析,得到词性信息;
第二多维度信息确定单元,用于将所述分词信息、分字信息和所述词性信息作为所述多维度信息。
17.根据权利要求15所述的终端,其特征在于,所述多类别实体识别模块包括:
第二特征转化处理单元,用于将所述多维度信息输入所述多类别实体识别模型的特征输入转换层进行特征转化处理,得到多维度的特征向量;
第二语义特征处理单元,用于将所述多维度的特征向量输入所述多类别实体识别模型的语义序列表征层进行实体语义特征表征和实体语义表征特征的拼接处理,得到多维度的语义特征向量;
第二实体类别特征筛选单元,用于将所述多维度的语义特征向量输入所述多类别实体识别模型的实体特征筛选层进行实体类别特征筛选,得到实体类别特征向量;
第三识别结果获取单元,用于将所述多维度的语义特征向量和所述实体类别特征向量输入所述多类别实体识别模型的类别实体输出层进行多类别实体识别,得到所述目标语料信息的实体和实体类别标签。
18.一种多类别实体识别终端,其特征在于,所述终端包括:处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求6至8中任一项所述的多类别实体识别方法。
19.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至5中任一项所述的多类别实体识别模型训练方法,或实现如权利要求6至8中任一项所述的多类别实体识别方法。
CN201910397908.3A 2019-05-14 2019-05-14 多类别实体识别模型训练、实体识别方法、服务器及终端 Active CN110147551B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910397908.3A CN110147551B (zh) 2019-05-14 2019-05-14 多类别实体识别模型训练、实体识别方法、服务器及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910397908.3A CN110147551B (zh) 2019-05-14 2019-05-14 多类别实体识别模型训练、实体识别方法、服务器及终端

Publications (2)

Publication Number Publication Date
CN110147551A CN110147551A (zh) 2019-08-20
CN110147551B true CN110147551B (zh) 2023-07-11

Family

ID=67594240

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910397908.3A Active CN110147551B (zh) 2019-05-14 2019-05-14 多类别实体识别模型训练、实体识别方法、服务器及终端

Country Status (1)

Country Link
CN (1) CN110147551B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110750991B (zh) * 2019-09-18 2022-04-15 平安科技(深圳)有限公司 实体识别方法、装置、设备及计算机可读存储介质
CN110688856B (zh) * 2019-10-08 2020-09-18 杭州费尔斯通科技有限公司 一种裁判文书信息提取方法
CN111178055B (zh) * 2019-12-18 2022-07-29 华为技术有限公司 语料识别方法、装置、终端设备和介质
CN111090987B (zh) * 2019-12-27 2021-02-05 北京百度网讯科技有限公司 用于输出信息的方法和装置
CN111079854B (zh) * 2019-12-27 2024-04-23 联想(北京)有限公司 信息识别方法、设备及存储介质
CN111222338A (zh) * 2020-01-08 2020-06-02 大连理工大学 基于预训练模型和自注意力机制的生物医学关系抽取方法
CN111259658B (zh) * 2020-02-05 2022-08-19 中国科学院计算技术研究所 一种基于类别稠密向量表示的通用文本分类方法及系统
CN111291569B (zh) * 2020-04-15 2021-01-29 智者四海(北京)技术有限公司 多类别实体识别模型的训练方法及装置
CN111597804B (zh) * 2020-05-15 2023-03-10 腾讯科技(深圳)有限公司 一种实体识别模型训练的方法以及相关装置
CN111625638B (zh) * 2020-06-02 2023-06-06 深圳追一科技有限公司 一种问句处理方法、装置、设备及可读存储介质
CN111666379B (zh) * 2020-06-11 2023-09-22 腾讯科技(深圳)有限公司 一种事件元素提取方法和装置
CN112685549B (zh) * 2021-01-08 2022-07-29 昆明理工大学 融入篇章语义的涉案新闻要素实体识别方法及系统
CN113139069B (zh) * 2021-05-14 2022-10-18 上海交通大学 一种文本实体识别方法及系统
CN113408273B (zh) * 2021-06-30 2022-08-23 北京百度网讯科技有限公司 文本实体识别模型的训练与文本实体识别方法、装置
CN113626592A (zh) * 2021-07-08 2021-11-09 中汽创智科技有限公司 一种基于语料的分类方法、装置,电子设备及存储介质
CN113704519B (zh) * 2021-08-26 2024-04-12 北京市商汤科技开发有限公司 一种数据集的确定方法、装置、计算机设备以及存储介质
WO2023226367A1 (zh) * 2022-05-23 2023-11-30 华为云计算技术有限公司 样本标注的校对方法、装置、计算设备集群和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108536679A (zh) * 2018-04-13 2018-09-14 腾讯科技(成都)有限公司 命名实体识别方法、装置、设备及计算机可读存储介质
CN108920460A (zh) * 2018-06-26 2018-11-30 武大吉奥信息技术有限公司 一种多类型实体识别的多任务深度学习模型的训练方法及装置
CN109344401A (zh) * 2018-09-18 2019-02-15 深圳市元征科技股份有限公司 命名实体识别模型训练方法、命名实体识别方法及装置
CN109359293A (zh) * 2018-09-13 2019-02-19 内蒙古大学 基于神经网络的蒙古文命名实体识别方法及其识别系统
CN109657239A (zh) * 2018-12-12 2019-04-19 电子科技大学 基于注意力机制和语言模型学习的中文命名实体识别方法
CN109657230A (zh) * 2018-11-06 2019-04-19 众安信息技术服务有限公司 融合词向量和词性向量的命名实体识别方法及装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102402713B (zh) * 2010-09-09 2015-11-25 富士通株式会社 机器学习方法和装置
CN102541838B (zh) * 2010-12-24 2015-03-11 日电(中国)有限公司 用于优化情感分类器的方法和设备
CN102662930B (zh) * 2012-04-16 2015-04-22 乐山师范学院 一种语料标注方法及装置
US9971763B2 (en) * 2014-04-08 2018-05-15 Microsoft Technology Licensing, Llc Named entity recognition
CN108446286B (zh) * 2017-02-16 2023-04-25 阿里巴巴集团控股有限公司 一种自然语言问句答案的生成方法、装置及服务器
CN108520223B (zh) * 2018-04-02 2021-11-12 广州方硅信息技术有限公司 视频图像的分割方法、分割装置、存储介质和终端设备
CN108875821A (zh) * 2018-06-08 2018-11-23 Oppo广东移动通信有限公司 分类模型的训练方法和装置、移动终端、可读存储介质
CN108829678A (zh) * 2018-06-20 2018-11-16 广东外语外贸大学 一种汉语国际教育领域命名实体识别方法
CN109190120B (zh) * 2018-08-31 2020-01-21 第四范式(北京)技术有限公司 神经网络训练方法和装置及命名实体识别方法和装置
CN109446302B (zh) * 2018-09-25 2023-08-22 中国平安人寿保险股份有限公司 基于机器学习的问答数据处理方法、装置和计算机设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108536679A (zh) * 2018-04-13 2018-09-14 腾讯科技(成都)有限公司 命名实体识别方法、装置、设备及计算机可读存储介质
CN108920460A (zh) * 2018-06-26 2018-11-30 武大吉奥信息技术有限公司 一种多类型实体识别的多任务深度学习模型的训练方法及装置
CN109359293A (zh) * 2018-09-13 2019-02-19 内蒙古大学 基于神经网络的蒙古文命名实体识别方法及其识别系统
CN109344401A (zh) * 2018-09-18 2019-02-15 深圳市元征科技股份有限公司 命名实体识别模型训练方法、命名实体识别方法及装置
CN109657230A (zh) * 2018-11-06 2019-04-19 众安信息技术服务有限公司 融合词向量和词性向量的命名实体识别方法及装置
CN109657239A (zh) * 2018-12-12 2019-04-19 电子科技大学 基于注意力机制和语言模型学习的中文命名实体识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
An attention-based BiLSTM-CRF approach to document-level chemical named entity recognition;Ling Luo等;Bioinformatics;第34卷(第8期);1381-1388 *
融入自注意力机制的社交媒体命名实体识别;李明扬 等;清华大学学报(自然科学版);第59卷(第6期);461-467 *

Also Published As

Publication number Publication date
CN110147551A (zh) 2019-08-20

Similar Documents

Publication Publication Date Title
CN110147551B (zh) 多类别实体识别模型训练、实体识别方法、服务器及终端
CN112632385B (zh) 课程推荐方法、装置、计算机设备及介质
CN111444320B (zh) 文本检索方法、装置、计算机设备和存储介质
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
WO2021159632A1 (zh) 智能问答方法、装置、计算机设备及计算机存储介质
CN109376222B (zh) 问答匹配度计算方法、问答自动匹配方法及装置
US20170147910A1 (en) Systems and methods for fast novel visual concept learning from sentence descriptions of images
CN109800307B (zh) 产品评价的分析方法、装置、计算机设备及存储介质
CN108304373B (zh) 语义词典的构建方法、装置、存储介质和电子装置
CN110704640A (zh) 一种知识图谱的表示学习方法及装置
CN110019736B (zh) 基于语言模型的问答匹配方法、系统、设备及存储介质
CN112819023A (zh) 样本集的获取方法、装置、计算机设备和存储介质
CN109086265B (zh) 一种语义训练方法、短文本中多语义词消歧方法
CN111259647A (zh) 基于人工智能的问答文本匹配方法、装置、介质及电子设备
CN111914159A (zh) 一种信息推荐方法及终端
CN112380421A (zh) 简历的搜索方法、装置、电子设备及计算机存储介质
CN113821527A (zh) 哈希码的生成方法、装置、计算机设备及存储介质
CN113343091A (zh) 面向产业和企业的科技服务推荐计算方法、介质及程序
CN111324724B (zh) 数据处理方法及装置、电子设备和计算机可读存储介质
CN112131261A (zh) 基于社区网络的社区查询方法、装置和计算机设备
CN110929169A (zh) 基于改进Canopy聚类协同过滤算法的职位推荐方法
CN113656699B (zh) 用户特征向量确定方法、相关设备及介质
CN111145914A (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN113297351A (zh) 文本数据标注方法及装置、电子设备及存储介质
CN113569018A (zh) 问答对挖掘方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant