CN112988979A - 实体识别方法、装置、计算机可读介质及电子设备 - Google Patents

实体识别方法、装置、计算机可读介质及电子设备 Download PDF

Info

Publication number
CN112988979A
CN112988979A CN202110471896.1A CN202110471896A CN112988979A CN 112988979 A CN112988979 A CN 112988979A CN 202110471896 A CN202110471896 A CN 202110471896A CN 112988979 A CN112988979 A CN 112988979A
Authority
CN
China
Prior art keywords
entity
character
sample
word
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110471896.1A
Other languages
English (en)
Other versions
CN112988979B (zh
Inventor
杨韬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110471896.1A priority Critical patent/CN112988979B/zh
Publication of CN112988979A publication Critical patent/CN112988979A/zh
Application granted granted Critical
Publication of CN112988979B publication Critical patent/CN112988979B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Machine Translation (AREA)

Abstract

本申请的实施例提供了一种实体识别方法、装置、计算机可读介质及电子设备。该实体识别方法包括:对待识别文本进行特征提取处理,以获得待识别文本中各个文字对应的字特征向量;将各个文字对应的字特征向量输入实体识别模型,实体识别模型是根据训练样本中各个样本文字针对各个实体标签的第一输出概率和训练样本中各个样本分词针对各个实体类型的第二输出概率训练得到的;获取实体识别模型输出的各个文字针对各个实体标签的第一预测概率,以及待识别文本中各个分词针对各个实体类型的第二预测概率;根据第一预测概率和第二预测概率,确定待识别文本的实体识别结果。本申请实施例的技术方案能够解决嵌套实体识别的问题,提升了实体识别的准确度。

Description

实体识别方法、装置、计算机可读介质及电子设备
技术领域
本申请涉及计算机及通信技术领域,具体而言,涉及一种实体识别方法、装置、计算机可读介质及电子设备。
背景技术
自然语言处理(Nature Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。实体识别是自然语言处理的一个分支,是指识别文本中具有特定意义的实体,例如歌名、人名及地名等。
然而在相关技术提供的方案中,难以实现嵌套实体的识别处理。例如,文本“A城市自由大学的B区研究中心下辖六大研究院系”,其中,“A城市自由大学”和“B区研究中心”是两个机构实体,但是,这两个实体里还蕴含两个嵌套实体“A城市”和“B区”,而相关技术提供的方案难以识别出文本中的嵌套实体,导致实体识别准确度不高。
发明内容
本申请的实施例提供了一种实体识别方法、装置、计算机可读介质及电子设备,进而在一定程度上能够实现对待识别文本中任意层次的嵌套实体进行识别,提升了文本中实体识别的准确度。
本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
根据本申请实施例的一个方面,提供了一种实体识别方法,包括:对待识别文本进行特征提取处理,以获得所述待识别文本中各个文字对应的字特征向量;将所述各个文字对应的字特征向量输入实体识别模型,所述实体识别模型是根据训练样本中各个样本文字针对各个实体标签的第一输出概率和所述训练样本中各个样本分词针对各个实体类型的第二输出概率训练得到的;获取所述实体识别模型输出的所述各个文字针对所述各个实体标签的第一预测概率,以及所述待识别文本中各个分词针对所述各个实体类型的第二预测概率;根据所述第一预测概率和所述第二预测概率,确定所述待识别文本的实体识别结果。
根据本申请实施例的一个方面,提供了一种实体识别装置,包括:提取处理单元,配置为对待识别文本进行特征提取处理,以获得所述待识别文本中各个文字对应的字特征向量;第一输入单元,配置为将所述各个文字对应的字特征向量输入实体识别模型,所述实体识别模型是根据训练样本中各个样本文字针对各个实体标签的第一输出概率和所述训练样本中各个样本分词针对各个实体类型的第二输出概率训练得到的;获取单元,配置为获取所述实体识别模型输出的所述各个文字针对所述各个实体标签的第一预测概率,以及所述待识别文本中各个分词针对所述各个实体类型的第二预测概率;确定单元,配置为根据所述第一预测概率和所述第二预测概率,确定针对所述待识别文本的实体识别结果。
在本申请的一些实施例中,基于前述方案,所述确定单元配置为:将所述各个文字针对所述各个实体标签的第一预测概率中的最大预测概率所对应的实体标签作为所述各个文字对应的目标实体标签,将所述目标实体标签指示为同一实体类型且位置连续的文字识别为同一个实体,得到所述待识别文本的第一实体识别结果;将所述各个分词针对所述各个实体类型的第二预测概率中的最大预测概率所对应的实体类型作为所述各个分词对应的目标实体类型,根据所述各个分词对应的目标实体类型,确定所述待识别文本的第二实体识别结果;合并所述第一实体识别结果以及所述第二实体识别结果,得到所述待识别文本的实体识别结果。
在本申请的一些实施例中,基于前述方案,所述装置还包括:第二输入单元,配置为将所述训练样本输入所述实体识别模型,得到所述实体识别模型的输出结果,所述输出结果中包含所述各个样本文字针对各个实体标签的第一输出概率和所述各个样本分词针对各个实体类型的第二输出概率;第一构建单元,配置为根据所述各个样本文字对应的标注实体标签和所述第一输出概率构建第一损失函数,并根据所述各个样本分词对应的标注实体类型和所述第二输出概率构建第二损失函数;第二构建单元,配置为根据所述第一损失函数和所述第二损失函数构建联合损失函数,基于所述联合损失函数训练所述实体识别模型,得到训练好的实体识别模型。
在本申请的一些实施例中,基于前述方案,所述第一构建单元包括:第一确定子单元,配置为根据所述各个样本文字对应的标注实体标签,确定与所述标注实体标签相同的实体标签对应的第一输出概率;第一处理子单元,配置为将与所述标注实体标签相同的实体标签对应的第一输出概率,作为所述各个样本文字的目标概率;第一构建子单元,配置为根据所述各个样本文字的目标概率,构建所述第一损失函数。
在本申请的一些实施例中,基于前述方案,所述第一构建子单元配置为:对所述各个样本文字的目标概率进行对数运算,得到多个运算结果;根据所述多个运算结果的运算结果之和,确定所述第一损失函数。
在本申请的一些实施例中,基于前述方案,所述第一构建单元还包括:第二确定子单元,配置为根据所述各个样本分词对应的标注实体类型,确定与所述标注实体类型相同的实体类型对应的第二输出概率;第二处理子单元,配置为将与所述标注实体类型相同的实体类型对应的第二输出概率,作为所述各个样本分词的目标概率;第二构建子单元,配置为根据所述各个样本分词的目标概率,构建所述第二损失函数。
在本申请的一些实施例中,基于前述方案,所述第二构建子单元配置为:对所述各个样本分词的目标概率进行对数运算,得到多个运算结果;根据所述多个运算结果的运算结果之和,确定所述第二损失函数。
在本申请的一些实施例中,基于前述方案,所述第二输入单元包括:获取子单元,配置为获取所述各个样本文字对应的字特征向量,并根据所述各个样本文字对应的字特征向量,生成所述各个样本分词对应的词特征向量;第一输入子单元,配置为将所述各个样本文字对应的字特征向量输入所述实体识别模型的第一处理网络,以获得所述第一处理网络输出的所述各个样本文字针对各个实体标签的第一输出概率;第二输入子单元,配置为将所述各个样本分词对应的词特征向量输入所述实体识别模型的第二处理网络,以获得所述第二处理网络输出的所述各个样本分词针对各个实体类型的第二输出概率。
在本申请的一些实施例中,基于前述方案,所述获取子单元配置为:根据所述各个样本文字对应的字特征向量,确定所述各个样本分词中包含的目标样本文字对应的字特征向量;根据所述目标样本文字对应的字特征向量,生成所述目标样本文字对应的特征分数值;对所述目标样本文字对应的特征分数值进行归一化处理,得到归一化处理结果,并根据所述归一化处理结果以及所述目标样本文字对应的字特征向量,生成所述各个样本分词对应的词特征向量。
在本申请的一些实施例中,基于前述方案,所述提取处理单元包括:向量化处理子单元,配置为对所述待识别文本中各个文字进行向量化处理,以获得所述各个文字对应的第一特征向量;第一生成子单元,配置为根据预先获取到的实体信息表,对所述各个文字进行特征提取处理,以生成所述各个文字对应的第二特征向量;第二生成子单元,配置为根据所述各个文字对应的第一特征向量以及所述各个文字对应的第二特征向量,生成所述各个文字对应的字特征向量。
在本申请的一些实施例中,基于前述方案,所述第二生成子单元配置为:将所述各个文字对应的第二特征向量的维度转换为与所述第一特征向量的维度相同的维度,得到转换后的第二特征向量;将所述各个文字对应的第一特征向量与所述各个文字对应的转换后的第二特征向量相加,得到相加后的特征向量,并根据相加后的特征向量,生成所述各个文字对应的字特征向量。
在本申请的一些实施例中,基于前述方案,所述第一生成子单元配置为:根据所述实体信息表,对所述各个文字进行实体信息查询,以获得所述各个文字对应的查询结果,所述查询结果用于指示查询的文字所属实体的实体类型以及查询的文字在所属实体中的位置,或者用于指示查询的文字不属于任何实体类型;根据所述各个文字对应的查询结果,确定所述各个文字对应的第二特征向量。
根据本申请实施例的一个方面,提供了一种计算机可读介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述实施例中所述的实体识别方法。
根据本申请实施例的一个方面,提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述实施例中所述的实体识别方法。
根据本申请实施例的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实施例中提供的实体识别方法。
在本申请的一些实施例所提供的技术方案中,通过将待识别文本中各个文字对应的字特征向量输入实体识别模型,实体识别模型在对待识别文本进行识别时,不仅可以输出待识别文本中各个文字针对各个实体标签的第一预测概率,还可以输出待识别文本中各个分词针对各个实体类型的第二预测概率,进一步根据第一预测概率和第二预测概率,确定出待识别文本的实体识别结果。本申请实施例的技术方案通过实体识别模型对待识别文本进行实体识别处理,实体识别模型是根据训练样本中各个样本文字针对各个实体标签的第一输出概率以及训练样本中各个样本分词针对各个实体类型的第二输出概率训练得到的,在训练过程执行文字和分词多任务的联合学习,使得训练得到的实体识别模型能够实现对待识别文本中任意层次的嵌套实体进行识别,提升了文本中实体识别的准确度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请的一个实施例提供的实体识别方法的应用环境示意图。
图2是本申请的一个实施例提供的实体识别方法的流程图。
图3是本申请的一个实施例提供的步骤S210的详细流程图。
图4是本申请的一个实施例提供的步骤S240的详细流程图。
图5示例性示出了一种实体识别模型的结构图。
图6是本申请的一个实施例提供的实体识别模型训练方法的流程图。
图7是本申请的一个实施例提供的步骤S610的详细流程图。
图8是本申请的一个实施例提供的第一损失函数构建方法的流程图。
图9是本申请的一个实施例提供的第二损失函数构建方法的流程图。
图10是本申请的一个实施例提供的实体识别装置的框图。
图11示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本申请将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本申请的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。
需要说明的是,本申请的说明书和权利要求书及上述附图中使用的术语仅用于描述实施例,并不旨在限制本申请的范围。应该理解的是,术语“包括”、“包含”、“具有”等在本文中使用时指定存在所陈述的特点、整体、步骤、操作、元件、组件和/或其群组,但并不排除存在或添加其他特点、整体、步骤、操作、元件、组件和/或其群组中的一个或多个。
将进一步理解的是,尽管术语“第一”、“第二”、“第三”等可以在本文中用于描述各种元件,但是这些元件不应受这些术语的限制。这些术语仅用于区分一个元件和另一个元件。例如,在不脱离本发明的范围的情况下,第一元件可以被称为第二元件。类似地,第二元件可以被称为第一元件。如本文所使用的,术语“和/或”包含关联的列出的项目中的一个或多个的任何和所有组合。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
实体:现实世界中具有可区别性且独立存在的某种事务,例如:人名、地名、游戏名称等。
嵌套实体:指整体上构成一个实体,同时其内部还包含了若干个简单实体的情况。例如,文本“A城市自由大学的B区研究中心下辖六大研究院系”,其中,“A城市自由大学”和“B区研究中心”是两个机构实体,但是,这两个实体里还蕴含两个嵌套实体“A城市”和“B区”。
BIEOS标注体系:对文本(或称文本句)中的元素进行标注的一种方式,将元素标注为“B-X”、“I-X”、“E-X”、“S”或者“O”,其中,“B-X”中的“B”表示该元素的实体位置为首位,“I-X”中的“I”表示该元素的实体位置为中间位,“E-X”中的“E”表示该元素的实体位置为末位,“B-X”、“I-X”和“E-X”中的“X”表示该元素的实体类型为X类型,“S”表示该元素为单元素实体,“O”表示该元素不属于任何实体类型,即无关元素。其中,元素可为文本中的字。
实体识别(Named Entity Recognition,NER):是指识别文本中的实体。
BERT模型:由谷歌在2018年发布的一种语言模型,该模型通过联合所有层中的双向转换器来训练深度双向表示。BERT模型融合了众多自然语言处理模型的优点,在多项自然语言处理任务中均取得较优效果。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
自然语言处理(Nature Language processing,简称NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,简称ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
本申请实施例提供的方案涉及人工智能的自然语言处理、机器学习等技术,具体通过如下实施例进行说明:
根据本申请实施例的一个方面,提供了一种实体识别方法,可选地,作为一种可选的实施方式,上述实体识别方法可以但不限于应用于如图1所示的环境中。该应用环境中包括终端设备101和服务器102。其中,终端设备101与服务器102之间通过通信网络进行数据通信,可选地,通信网络可以是有线网络也可以是无线网络,且该通信网络可以是局域网、城域网以及广域网中的至少一种。
终端设备101可以是智能手机、平板电脑、膝上便携式笔记本电脑等移动终端,也可以是台式电脑、投影式电脑等终端,本申请实施例对此不做限定。
服务器102可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络 (Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
在本申请的一个实施例中,服务器102中设置有实体识别模型,该实体识别模型是根据训练样本中各个样本文字针对各个实体标签的第一输出概率和训练样本中各个样本分词针对各个实体类型的第二输出概率训练得到的,这里,实体标签用于指示样本文字所属实体的实体类型以及在所属实体中所处的位置,或者用于指示样本文字不属于任何实体类型。
终端设备101向服务器102发送待识别文本后,服务器102可以对待识别文本进行特征提取处理,以获得待识别文本中各个文字对应的字特征向量,然后,服务器102可以将各个文字对应的字特征向量输入实体识别模型,并获取实体识别模型输出的各个文字针对各个实体标签的第一预测概率以及待识别文本中各个分词针对各个实体类型的第二预测概率,最后,服务器102可以根据第一预测概率和第二预测概率,确定待识别文本的实体识别结果。
在其他可能的实施方式中,上述实体识别模型也可以由服务器102下发至终端设备101,由终端设备101利用实体识别模型对待识别文本进行实体识别,本实施例对此不作限定。
需要说明的一点是,本申请提供的实体识别模型,可以广泛应用于各个领域。例如,应答场景、视频播放场景或音乐播放场景等。
以应答场景为例,终端设备101可以采集用户的语音询问语句,并对语音询问语句进行语音识别,以获得相应的文本;终端设备101将文本发送至服务器102;服务器102对文本进行实体识别,获得相应的实体和实体类型,并在知识图谱中进行查询,得到应答语句,并将应答语句发送至终端设备101;终端设备101以语音播报的形式播报应答语句。
或者,终端设备101可以采集用户的语音询问语句,并对语音询问语句进行语音识别,以获得相应的文本;终端设备101调用实体识别模型对文本进行识别,获得相应的实体和实体类型,并在知识图谱中进行查询,得到应答语句,以语音播报的形式播报应答语句。
当然,本申请中的实体识别方法还可以运用于其它各个场景中,在此不一一举例。
为了便于说明,在下述方法实施例中,仅以各步骤的执行主体为计算机设备为例进行介绍说明,计算机设备可以是任何具备计算和存储能力的电子设备。例如,该计算机设备可以是服务器102,也可以是终端设备101,需要说明的一点是,在本申请实施例中,各步骤的执行主体可以是同一计算机设备,也可以由多个不同的计算机设备交互配合执行,此处不作限定。还需要说明的一点是,在本申请实施例中,下述实体识别方法的执行主体与下述实体识别模型的训练方法的执行主体可以是相同的计算机设备,也可以是不同的计算机设备,本申请实施例对此不作限定。
以下对本申请实施例的技术方案的实现细节进行详细阐述:
图2示出了根据本申请的一个实施例的实体识别方法的流程图,参照图2所示,实体识别方法包括:
步骤S210、对待识别文本进行特征提取处理,以获得待识别文本中各个文字对应的字特征向量;
步骤S220、将各个文字对应的字特征向量输入实体识别模型,实体识别模型是根据训练样本中各个样本文字针对各个实体标签的第一输出概率和训练样本中各个样本分词针对各个实体类型的第二输出概率训练得到的,实体标签用于指示样本文字所属实体的实体类型以及在所属实体中所处的位置;
步骤S230、获取实体识别模型输出的各个文字针对各个实体标签的第一预测概率,以及待识别文本中各个分词针对各个实体类型的第二预测概率;
步骤S240、根据第一预测概率和第二预测概率,确定待识别文本的实体识别结果。
下面对这些步骤进行详细描述。
在步骤S210中,对待识别文本进行特征提取处理,以获得待识别文本中各个文字对应的字特征向量。
其中,待识别文本是需要进行实体识别的文本数据。文本数据是多个文本字符按照顺序构成的字符组。比如,可以包括多个文字,还可以包括文字、数字、字母或者标点符号组成的字符组。待识别文本比如“model 3是什么时间发布的”、“MIUI13新消息,可能与小米MIX4一同发布”等。
在本实施例中,计算机设备在进行实体识别之前,获取待识别文本。可选地,待识别文本可以是实时获取的文本,也可以是之前获取并存储在计算机设备中的文本。
在一种可能的实施方式中,计算机设备可提供输入界面,以获取用户通过输入界面输入的需要进行识别的文本数据,将获取的文本数据作为待识别文本。在另一种可能的实施方式中,由计算机设备主动获取上述待识别文本。可选地,计算机设备可以按照一定的时间间隔从网络环境中获取上述待识别文本。
计算机设备在获取待识别文本之后,可以对待识别文本进行特征提取处理,以获得待识别文本中各个文字对应的字特征向量。
在一些实施例中,计算机设备可以查询获得待识别文本中每个文字对应的字特征向量。作为示例,计算机设备中包括一个向量信息表,在该向量信息表中可以查询到每个文字对应的字特征向量,本实施例根据向量信息表准确提取待识别文本中每个文字对应的字特征向量,提高了后续进行实体识别的准确性。
在一些实施例中,计算机设备还可以将待识别文本输入至特征提取网络,以获取特征提取网络输出的各个文字对应的向量表示,将各个文字对应的向量表示作为各个文字对应的字特征向量。
示意性地,特征提取网络可以是双向编码器表征 (Bidirectional EncoderRepresentation from Transformers,BERT),还可以是长短期记忆人工神经网络(LongShort-Term Memory,LSTM),也可以是门控循环单元(Gate Recurrent Unit,GRU),本申请实施例在此不做具体限定。
以待识别文本是“小明的偶像是张三”为例,对待识别文本进行特征抽取处理,以获得对应于“小”的字特征向量、对应于“明”的字特征向量、对应于“的”的字特征向量、对应于“偶”的字特征向量、对应于“像”的字特征向量、对应于“是”的字特征向量、对应于“张”的字特征向量、对应于“三”的字特征向量。
在步骤S220中,将各个文字对应的字特征向量输入实体识别模型,实体识别模型是根据训练样本中各个样本文字针对各个实体标签的第一输出概率和训练样本中各个样本分词针对各个实体类型的第二输出概率训练得到的。
其中,实体识别模型可以是预先利用预设的训练样本进行训练得到的模型,经过训练得到的实体识别模型具有实体识别能力。
具体地,实体识别模型可以是根据训练样本中各个样本文字针对各个实体标签的第一输出概率和训练样本中各个样本分词针对各个实体类型的第二输出概率训练得到的。这里,实体标签用于指示样本文字所属实体的实体类型以及在所属实体中所处的位置,或者用于指示样本文字不属于任何实体类型。例如,实体标签“B-PER”表征该样本文字所属实体的实体类型为人物类,且该样本文字在所属实体中的位置是首位;标签“I-PER”表征该样本文字所属实体的实体类型为人物类,且该样本文字在所属实体中的位置是中间位;标签“O”表征该样本文字不属于任何实体类型、且不属于任何实体,即无关字符。这里的实体类型也即是样本分词所属实体的类型,实体类型包括以下至少之一:音乐类;视频类;电台类;地名类;人物类;机构类等等。
在一些实施例中,实体识别模型可以包括第一处理网络和第二处理网络,通过第一处理网络的输入层接收训练样本中各个样本文字对应的字特征向量,并传播到第一处理网络的隐层,通过第一处理网络的隐层的激活函数对各个样本文字对应的字特征向量进行映射,并将映射得到的向量继续在隐层中进行正向传播;通过第一处理网络的输出层接收隐层传播的向量,并通过输出层的激活函数映射为属于不同实体标签的第一输出概率。
同时,通过第二处理网络的输入层接收训练样本中各个样本文字对应的字特征向量,在接收各个样本文字对应的字特征向量之后,需要根据各个样本文字对应的字特征向量转换得到训练样本中各个样本分词对应的词特征向量,然后,通过第二处理网络的隐层的激活函数对各个样本分词的词特征向量进行映射,最后,通过输出层的激活函数映射为属于不同实体类型的第二输出概率。
作为示例,第一处理网络可以是序列标注模型,例如隐马尔可夫模型(HiddenMarkov Model,HMM),最大熵模型(The Maximum Entropy Principle)和条件随机场(Conditional Random Field,CRF),第二处理网络可以是基于span预测的Spanner模型,它采用的是Spanner架构。
在训练好实体识别模型之后,计算机设备可以将上述待识别文本中各个文字对应的字特征向量输入至实体识别模型,并根据实体识别模型对待识别文本进行实体识别处理。
在步骤S230中,获取实体识别模型输出的各个文字针对各个实体标签的第一预测概率,以及待识别文本中各个分词针对各个实体类型的第二预测概率。
具体地,计算机设备将待识别文本中各个文字对应的字特征向量输入至实体识别模型之后,一方面,实体识别模型可以直接对接收到的字特征向量进行运算,输出各个文字针对各个实体标签的第一预测概率,各个文字针对各个实体标签的第一预测概率之和为固定值,比如为1;另一方面,实体识别模型可以根据接收到的字特征向量,转换得到待识别文本中各个分词对应的词特征向量,然后,对各个分词的词特征向量进行运算,输出各个分词针对各个实体类型的第二预测概率,各个分词针对各个实体类型的第二预测概率之和也为固定值,比如为1。
需要说明的是,根据接收到的字特征向量,转换得到待识别文本中各个分词对应的词特征向量的方式可以是:首先设定分词的最大长度,然后根据接收到的字特征向量,转换获得所有长度小于或者等于最大长度的分词对应的词特征向量。以待识别文本为“播放歌曲稻香”为例,假设设定分词的最大长度为3,则分词可以包括:“播放”、“播放歌”、“放歌”、“放歌曲”、“歌曲”、“歌曲稻”、“曲稻”、“曲稻香”和“稻香”。
还需要说明的是,实体标签以及实体类型都是预先设置的,这里不对实体标签和实体类型进行具体限定,实体标签和实体类型可在通过训练样本进行训练实体识别模型时设置。实体标签和实体类型的含义同前述,实体标签用于指示文字所属实体的实体类型以及在所属实体中所处的位置,或者用于指示文字不属于任何实体类型。实体类型也即是分词所属实体的类型,实体类型包括以下至少之一:音乐类;视频类;电台类;地名类;人物类;机构类等等。
在步骤S240中,根据第一预测概率和第二预测概率,确定待识别文本的实体识别结果。
具体地,计算机设备在获取到实体识别模型输出的第一预测概率以及第二预测概率之后,则可以根据第一预测概率确定各个文字对应的实体标签,并根据第二预测概率确定各个分词对应的实体类型,最后,根据各个文字对应的实体标签以及各个分词对应的实体类型可以确定出待识别文本的实体识别结果。
在一些实施例中,计算机设备可以根据第一预测概率以及相应权重,计算各个文字针对各个实体标签的第一预测值,然后将最大的第一预测值对应的实体标签作为各个文字对应的实体标签。其中,第一预测概率相应的权重,可以是得到第一预测概率的方式的准确率与得到第一预测概率的方式和得到第二预测概率的方式的准确率之和的占比。
同理,计算机设备还可以根据第二预测概率以及相应权重,计算各个分词针对各个实体类型的第二预测值,然后将最大的第二预测值对应的实体类型作为各个分词对应的实体类型。其中,第二预测概率相应的权重,可以是得到第二预测概率的方式的准确率与得到第一预测概率的方式和得到第二预测概率的方式的准确率之和的占比。
在一些实施例中,在确定出各个文字对应的实体标签以及各个分词对应的实体类型之后,计算机设备可以根据各个文字对应的实体标签以及各个分词对应的实体类型确定出待识别文本的实体识别结果,具体地,计算机设备可以将实体标签指示为同一实体类型且位置连续的文字识别为同一实体,同时与各个分词对应的实体类型的实体识别结果进行合并,得到待识别文本的实体识别结果。
基于以上实施例的技术方案,通过实体识别模型对待识别文本进行实体识别处理,实体识别模型是根据训练样本中各个样本文字针对各个实体标签的第一输出概率以及训练样本中各个样本分词针对各个实体类型的第二输出概率训练得到的,在训练过程执行文字和分词多任务的联合学习,使得训练得到的实体识别模型能够实现对待识别文本中任意层次的嵌套实体进行识别,提升了文本中实体识别的准确度。
在本申请的一个实施例中,针对上述待识别文本中各个文字对应的字特征向量的获取步骤,可以进一步融合实体信息表,根据实体信息表进行特征表示,从而获得待识别文本中各个文字对应的字特征向量,在该实施例中,如图3所示,步骤S210可以包括步骤S310-步骤S330,说明如下:
步骤S310、对待识别文本中各个文字进行向量化处理,以获得各个文字对应的第一特征向量。
在一些实施例中,计算机设备对待识别文本中各个文字进行向量化处理的方式可以是通过查询向量信息表的方式。向量信息表中包含有文字对应的特征向量,因此,通过查询向量信息表可以直接获取到待识别文本中各个文字对应的特征向量。
作为示例,计算机设备中可以包括一个向量信息表,在该向量信息表中可以查询得到每个文字对应的特征向量,计算机设备可以将查询得到的每个文字对应的特征向量,作为各个文字对应的第一特征向量。
步骤S320、根据预先获取到的实体信息表,对各个文字进行特征提取处理,以生成各个文字对应的第二特征向量。
除了获取各个文字对应的第一特征向量之外,计算机设备还可以融合预先获取到的实体信息表,进行特征提取处理,以生成各个文字对应的第二特征向量。
其中,实体信息表中包含有多种实体类型的信息,如人名类“张三”、“李四”,地名类“深圳”、“香港”,影视剧名类“彩云曲”等等,并且,实体信息表中可以包含有用户自定义添加的新出现的实体,例如,人名类新出现实体“乔治亚”。
在一些实施例中,计算机设备可以在实体信息表中查询各个文字对应的实体信息,查询到的实体信息可以包括查询的文字是否属于实体以及属于何种类型的实体,例如,查询的文字“肯”对应的实体信息为“肯”属于人名类;进一步,计算机设备可以将查询到的各个文字对应的实体信息转换为向量的形式,以获得各个文字对应的特征向量,并将获得的特征向量,作为各个文字对应的第二特征向量。
在一些实施例中,计算机设备可以在实体信息表中查询各个文字对应的实体信息,以获得各个文字对应的查询结果,查询结果可以用于指示查询的文字所属实体的实体类型以及查询的文字在所属实体中的位置,或者用于指示查询的文字不属于任何实体类型。进而,计算机设备可以根据各个文字对应的查询结果,确定各个文字对应的第二特征向量。
在该实施例中,具体而言,各个文字对应的查询结果可以使用BIEOS标注体系的方式进行表示,将文字标注为“B-X”、“I-X”、“E-X”、“S”或者“O”,其中,“B-X”中的“B”表示该文字的实体位置为首位,“I-X”中的“I”表示该文字的实体位置为中间位,“E-X”中的“E”表示该文字的实体位置为末位,“B-X”、“I-X”和“E-X”中的“X”表示该文字的实体类型为X类型,“S”表示该文字为单文字实体,“O”表示该文字不属于任何实体类型。若实体信息表中包含有N种实体类型,则各个文字对应的第二特征向量的维度是3*N+2。
举例说明,假设待识别文本为“这里的张三研究中心”,且实体信息表中仅包含有2种实体类型,即人名类(PER)和机构类(ORG),若对于待识别文本中文字“张”的查询结果为“B-PER”,则可以根据查询结果确定“B-PER”为1,“I-PER”为0,“E-PER”为0,“B-ORG”为0,“I-ORG”为0,“E-ORG”为0,“S”为0,“O”为0,从而得到文字“张”对应的第二特征向量为(1,0,0,0,0,0,0,0)。
需要说明的是,若查询结果指示查询的文字所属实体的实体类型包括两个或者两个以上,则可以随机选择一种实体类型,确定查询的文字对应的第二特征向量。
继续上面的例子进行说明,若文字“张”的查询结果为“B-PER”和“B-ORG”,则在确定“张”对应的第二特征向量时,可以是根据查询结果“B-PER”确定,得到“张”对应的第二特征向量为(1,0,0,0,0,0,0,0),或者也可以是根据查询结果“B-ORG”确定,得到“张”对应的第二特征向量为(0,0,0,1,0,0,0,0)。
步骤S330、根据各个文字对应的第一特征向量以及各个文字对应的第二特征向量,生成各个文字对应的字特征向量。
接下来,计算机设备可以根据各个文字对应的第一特征向量以及各个文字对应的第二特征向量,生成各个文字对应的字特征向量。
在一些实施例中,若第一特征向量和第二特征向量的维度相同,计算结设备可以直接将第一特征向量和第二特征向量相加,将相加之后得到的特征向量作为各个文字对应的字特征向量。
在一些实施例中,若第一特征向量和第二特征向量的维度不相同,计算机设备则可以首先将各个文字对应的第二特征向量的维度转换为与第一特征向量的维度相同的维度,得到转换后的第二特征向量。
在该实施例中,计算机设备可以将各个文字对应的第二特征向量乘以一个矩阵转换为与第一特征向量的维度相同的维度,得到转换后的第二特征向量;然后,将各个文字对应的第一特征向量与各个文字对应的转换后的第二特征向量相加,得到相加后的特征向量,最后,可以根据相加后的特征向量,生成各个文字对应的字特征向量。
可选地,计算机设备可以将相加后的特征向量作为各个文字对应的字特征向量,也可以将相加后的特征向量输入网络模型中,获取网络模型输出的向量表示,将输出的向量表示作为各个文字对应的字特征向量。
请参见图4,在本申请的一个实施例中,在获取到实体识别模型输出的第一预测概率和第二预测概率之后,计算机设备则可以根据第一预测概率和第二预测概率,确定待识别文本的实体识别结果,如图4所示,步骤S240可以具体包括步骤S410-步骤S430,详细说明如下:
步骤S410、将各个文字针对各个实体标签的第一预测概率中的最大预测概率所对应的实体标签作为各个文字对应的目标实体标签,将目标实体标签指示为同一实体类型且位置连续的文字识别为同一个实体,得到待识别文本的第一实体识别结果。
具体而言,计算机设备可以将各个文字针对各个实体标签的第一预测概率中的最大预测概率所对应的实体标签作为各个文字对应的目标实体标签,进一步,将目标实体标签指示为同一实体类型且位置连续的文字识别为同一个实体,得到待识别文本的第一实体识别结果。
作为示例,当待识别文本“这里的张三研究中心”中的“张”针对实体标签“B-PER”的第一预测概率是0.4、针对实体标签“I-PER”的第一预测概率是0.05,针对实体标签“E-PER”的第一预测概率是0.05,针对实体标签“B-ORG”的第一预测概率是0.2,针对实体标签“I-ORG”的第一预测概率是0.15,针对实体标签“E-ORG”的第一预测概率是0.05,针对实体标签“S”的第一预测概率是0.05以及针对实体标签“O”的概率是0.05时,可以确定第一预测概率中最大预测概率所对应的实体标签“B-PER”为“张”所对应的目标实体标签。
如此,便能够确定待识别文本“这里的张三研究中心”中各个文字所对应的目标实体标签,后续即可将目标实体标签指示为同一实体类型且位置连续的文字识别为同一个实体,得到待识别文本“这里的张三研究中心”的第一实体识别结果。例如,假设文字“张”所对应的目标实体标签是“B-PER”,文字“三”所对应的目标实体标签是“E-PER”,则第一实体识别结果可以包括“张三是实体,且实体类型是人名类”。
步骤S420、将各个分词针对各个实体类型的第二预测概率中的最大预测概率所对应的实体类型作为各个分词对应的目标实体类型,根据各个分词对应的目标实体类型,确定待识别文本的第二实体识别结果。
在获取到实体识别模型输出的各个分词针对各个实体类型的第二预测概率之后,计算机设备可以将各个分词针对各个实体类型的第二预测概率中的最大预测概率所对应的实体类型作为各个分词对应的目标实体类型,然后,可以根据各个分词对应的目标实体类型,确定待识别文本的第二实体识别结果,也即是将各个分词以及各个分词对应的目标实体类型作为待识别文本的第二实体识别结果。
作为示例,当待识别文本“这里的张三研究中心”中的“张三”针对实体类型“人名类”的第二预测概率是0.8,针对实体类型“机构类”的第二预测概率是0.2时,可以确定第二预测概率中最大预测概率所对应的实体类型“人名类”为分词“张三”的目标实体类型。
如此,便能够确定待识别文本“这里的张三研究中心”中各个分词所对应的目标实体类型,后续即可根据各个分词对应的目标实体类型,得到待识别文本的第二实体识别结果。
例如,假设可以确定出分词“张三”所对应的目标实体类型是人名类,分词“张三研究中心”所对应的目标实体类型是机构类,则第二实体识别结果可以是“张三是实体,且实体类型是人名类”、“张三研究中心是实体,且实体类型是机构类”。
步骤S430、合并第一实体识别结果以及第二实体识别结果,得到待识别文本的实体识别结果。
具体地,在得到待识别文本的第一实体识别结果以及第二实体识别结果之后,计算机设备可以直接合并第一实体识别结果和第二实体识别结果,从而将合并后的实体识别结果作为待识别文本的实体识别结果。
继续上述举例说明,在得到待识别文本“这里的张三研究中心”的第一实体识别结果是“张三是实体,且实体类型是人名类”以及第二实体识别结果是“张三是实体,且实体类型是人名类”、“张三研究中心是实体,且实体类型是机构类”之后,计算机设备可以通过合并第一实体识别结果和第二实体识别结果,得到待识别文本的实体识别结果,也即得到的实体识别结果为“张三是实体,且实体类型是人名类”和“张三研究中心是实体,且实体类型是机构类”。
上文是针对实体识别方法的详细介绍,上述实体识别任务是由实体识别模型进行处理的。
示例性地,参考图5,图5示例性示出了一种实体识别模型的结构图,实体识别模型50包括Bert模型501、序列标注模型502以及Spanner模型503。Bert模型501用于抽取词法、句法以及双向语义特征,学习上下文信息。序列标注模型502用于对文本中各个文字进行实体识别,输出各个文字针对各个实体标签的概率分布,Spanner模型503用于对文本中各个分词进行分类,输出各个分词针对各个实体类型的概率分布。
在本实施例提供的实体识别模型50的基础上,对待识别文本进行实体识别的过程可以描述如下:
首先,通过Bert模型501对待识别文本进行特征提取处理,以获得待识别文本中各个文字对应的字特征向量。下面对这一过程进行详细说明:
在通过Bert模型501对待识别文本进行特征提取处理的过程中,先对待识别文本中各个文字进行向量化处理,以获得各个文字对应的第一特征向量;其次,根据实体信息表,对待识别文本中各个文字进行特征提取处理,以生成各个文字对应的第二特征向量,如图5所示,假设根据实体信息表查询到“张三”是实体,且实体类型是人物类(PERSON),也即获得“张”的查询结果为“B-PER”,“三”的查询结果为“E-PER”,且实体信息表中只包含两种实体类型,即人物类(PER)和机构类(ORG),则可以根据查询结果,确定“张”对应的第二特征向量为(1,0,0,0,0,0,0,0),“三”对应的第二特征向量为(0,0,1,0,0,0,0,0);进一步,将各个文字对应的第二特征向量的维度转换为与第一特征向量的维度相同的维度,得到转换后的第二特征向量,将各个文字对应的第一特征向量与各个文字对应的转换后的第二特征向量相加,得到各个文字对应的相加后的特征向量,在相加后的特征向量的前面和后面分别加上特殊字符“[CLS]”和“[SEP]”,作为Bert模型501的输入,Bert模型501中设置有若干层编码网络(即Transfomer),且每层编码网络中包含多头注意力层以及前馈神经网络层,多头注意力层和前馈神经网络层之后均连接求和层与归一化层,最终通过Bert模型501可以得到各个文字对应的字特征向量。
进一步地,在获得各个文字对应的字特征向量之后,可以将各个文字对应的字特征向量输入序列标注模型502,序列标注模型502可以根据各个文字对应的字特征向量输出各个文字针对各个实体标签的概率,实体标签用于指示样本文字所属实体的实体类型以及在所属实体中所处的位置,或者用于指示样本文字不属于任何实体类型。
同时,将各个文字对应的字特征向量输入Spanner模型503,Spanner模型503可以根据各个文字对应的字特征向量输出各个分词针对各个实体类型的概率。具体而言,各个文字对应的字特征向量输入至Spanner模型503后,Spanner模型503会根据设定的长度L,对待识别文本中所有长度小于或者等于L的分词进行分类,输出各个分词针对各个实体类型的概率。更具体而言,Spanner模型503会采用自注意力方式,根据各个文字对应的字特征向量获得各个分词对应的向量表示,然后将各个分词对应的向量表示通过前馈网络得到各个分词对应的新的向量表示,进而将各个分词对应的新的向量表示通过分类器进行分类,输出各个分词针对各个实体类型的概率。
需要说明的是,在通过实体识别模型对待识别文本进行实体识别之前,需要预先通过训练样本对实体识别模型进行训练,训练后的模型才具有实体识别处理能力。
请参考图6,其示出了本申请一个实施例提供的实体识别模型的训练方法的流程图。该方法可以包括步骤S610-步骤S630,详细说明如下:
步骤S610、将训练样本输入实体识别模型,得到实体识别模型的输出结果,输出结果中包含各个样本文字针对各个实体标签的第一输出概率和各个样本分词针对各个实体类型的第二输出概率。
在训练过程中,计算机设备可以将训练样本输入实体识别模型,以对实体识别模型进行训练。
这里的实体识别模型是还未经过训练的模型,实体识别模型的结构可以是如图5所示的Bert模型、序列标注模型和Spanner模型的结构,也可以是其他模型结构,如序列标注模型和Spanner模型的结构、或者长短期记忆人工神经网络(Long Short-Term Memory,LSTM)、序列标注模型和Spanner模型的结构、或者门控循环单元(Gate Recurrent Unit,GRU)、序列标注模型和Spanner模型的结构,本实施例在此不做具体限定。
具体地,计算机设备可以对训练样本进行特征提取处理,获取训练样本中各个样本文字对应的字特征向量,然后将各个样本文字对应的字特征向量输入实体识别模型,实体识别模型可以将接收到训练样本中各个样本文字对应的字特征向量传播到实体识别模型的隐层,通过隐层的激活函数对各个样本文字对应的字特征向量进行映射,并将映射得到的向量继续在隐层中进行正向传播;通过实体识别模型的输出层接收隐层传播的向量,并通过输出层的激活函数映射为属于不同实体标签的第一输出概率。
同时,实体识别模型在接收各个样本文字对应的字特征向量之后,可以根据各个样本文字对应的字特征向量转换得到训练样本中各个样本分词对应的词特征向量,然后通过隐层的激活函数对各个样本分词的词特征向量进行映射,最后通过输出层的激活函数映射为属于不同实体类型的第二输出概率。
在本申请的一个实施例中,实体识别模型可以包括第一处理网络和第二处理网络,如图7所示,将训练样本输入实体识别模型,得到实体识别模型的输出结果可以具体包括步骤S710-步骤S730,详细说明如下:
步骤S710、获取各个样本文字对应的字特征向量,并根据各个样本文字对应的字特征向量,生成各个样本分词对应的词特征向量。
在本实施例中,在将训练样本输入实体识别模型时,可以预先对训练样本进行特征提取处理,以获得训练样本中各个样本文字对应的字特征向量,其中,字特征向量的获取方法具体可以参考前述待识别文本中各个文字对应的字特征向量的获取方式,在此不再赘述。
需要说明的是,本申请技术方案可以通过融合实体信息表的方式生成各个样本文字的字特征向量,而实体信息表中可以包含有用户自定义添加的新出现的实体,因此,通过这种方式生成各个样本文字的字特征向量而训练得到的实体识别模型可以很好地解决新实体问题,针对新出现的实体,不需要重新训练实体识别模型,可以显著提高新实体的识别效果。
在获取各个样本文字对应的字特征向量之后,进一步,计算机设备可以根据各个样本文本对应的字特征向量,生成训练样本中各个样本分词对应的词特征向量。
可选地,生成各个样本分词对应的词特征向量的方式可以具体包括:
首先,根据各个样本文字对应的字特征向量,确定各个样本分词中包含的目标样本文字对应的字特征向量;然后,根据目标样本文字对应的字特征向量,生成目标样本文字对应的特征分数值;接着,对目标样本文字对应的特征分数值进行归一化处理,得到归一化处理结果,并根据归一化处理结果以及目标样本文字对应的字特征向量,生成各个样本分词对应的词特征向量。具体地,各个样本分词对应的词特征向量
Figure 974283DEST_PATH_IMAGE001
可以通过公式(1)、公式(2)、公式(3)运算得到:
Figure 731017DEST_PATH_IMAGE002
其中,
Figure 227858DEST_PATH_IMAGE003
为样本分词中包含的目标样本文字的数量,
Figure 143861DEST_PATH_IMAGE004
是第
Figure 927009DEST_PATH_IMAGE003
个目标样本文字对应的字特征向量,
Figure 295674DEST_PATH_IMAGE005
是参数,
Figure 471571DEST_PATH_IMAGE006
表示转置,
Figure 242081DEST_PATH_IMAGE007
是激活函数,
Figure 337076DEST_PATH_IMAGE008
是参数,
Figure 317671DEST_PATH_IMAGE009
是第
Figure 421893DEST_PATH_IMAGE003
个目标样本文字对应的特征分数值,
Figure 653767DEST_PATH_IMAGE010
是所有目标样本文字对应的特征分数值,
Figure 919663DEST_PATH_IMAGE011
是目标样本文字对应的字特征向量的矩阵。
步骤S720、将各个样本文字对应的字特征向量输入实体识别模型的第一处理网络,以获得第一处理网络输出的各个样本文字针对各个实体标签的第一输出概率。
具体地,可以通过第一处理网络的输入层接收训练样本中各个样本文字对应的字特征向量,并传播到第一处理网络的隐层,通过第一处理网络的隐层的激活函数对各个样本文字对应的字特征向量进行映射,并将映射得到的向量继续在隐层中进行正向传播;通过第一处理网络的输出层接收隐层传播的向量,并通过输出层的激活函数映射为属于不同实体标签的第一输出概率。
作为示例,第一处理网络可以是序列标注模型,例如隐马尔可夫模型(HiddenMarkov Model,HMM),最大熵模型(The Maximum Entropy Principle)和条件随机场(Conditional Random Field,CRF)。
步骤S730、将各个样本分词对应的词特征向量输入实体识别模型的第二处理网络,以获得第二处理网络输出的各个样本分词针对各个实体类型的第二输出概率。
同时,可以通过第二处理网络的输入层接收训练样本中各个样本分词对应的词特征向量,然后,通过第二处理网络的隐层的激活函数对各个样本分词的词特征向量进行映射,最后,通过输出层的激活函数映射为属于不同实体类型的第二输出概率。
示例性地,第二处理网络可以是基于span预测的Spanner模型,它采用的是Spanner架构。
在本申请的一个实施例中,在生成训练样本中各个样本分词对应的词特征向量之后,可以进一步通过前馈网络生成各个样本分词对应的新的词特征向量,然后,将新的词特征向量输入第二处理网络,以获取第二处理网络输出的各个样本分词针对各个实体类型的第二输出概率。
示意性地,根据各个样本分词对应的词特征向量,生成各个样本分词对应的新的词特征向量的方式可以是如下公式(4)的方式:
Figure 262919DEST_PATH_IMAGE012
其中,
Figure 29887DEST_PATH_IMAGE013
是样本分词对应的新的词特征向量,
Figure 774989DEST_PATH_IMAGE008
是参数,
Figure 87153DEST_PATH_IMAGE014
是参数,
Figure 652127DEST_PATH_IMAGE001
是样本分词对应的词特征向量,
Figure 98151DEST_PATH_IMAGE015
是激活函数。
继续参见图6,步骤S620、根据各个样本文字对应的标注实体标签和第一输出概率构建第一损失函数,并根据各个样本分词对应的标注实体类型和第二输出概率构建第二损失函数。
在获得各个样本文字针对各个实体标签的第一输出概率以及各个样本分词针对各个实体类型的第二输出概率后,计算机设备可以根据各个样本文字对应的标注实体标签和第一输出概率构建一个损失函数,也即第一损失函数,并根据各个样本分词对应的标注实体类型和第二输出概率构建一个损失函数,也即第二损失函数。
在本申请的一个实施例中,如图8所示,根据各个样本文字对应的标注实体标签和第一输出概率构建第一损失函数可以具体包括步骤S810-步骤S830,详细说明如下:
步骤S810、根据各个样本文字对应的标注实体标签,确定与标注实体标签相同的实体标签对应的第一输出概率。
在将训练样本输入实体识别模型之后,实体识别模型可以输出各个样本文字针对各个实体标签的第一输出概率。其中,实体标签是预先设置好的,举例说明,假设预先设置的实体标签包括四种,则通过实体识别模型可以输出得到各个样本文字分别属于这四种实体标签的第一输出概率。
同时,由于各个样本文字都对应有标注实体标签,因而,根据各个样本文字对应的标注实体标签,可以确定出与标注实体标签相同的实体标签对应的第一输出概率。
例如,预先设置的实体标签包括A1、B1、C1和D1,样本文字S对应的标注实体标签为B1,实体识别模型输出的样本文字S分别属于这四种实体标签的第一输出概率分别为0.2、0.1、0.5和0.2,则可以确定与标注实体标签B1相同的实体标签对应的第一输出概率为0.1。
步骤S820、将与标注实体标签相同的实体标签对应的第一输出概率,作为各个样本文字的目标概率。
步骤S830、根据各个样本文字的目标概率,构建第一损失函数。
在一些实施例中,根据各个样本文字的目标概率,构建第一损失函数可以具体包括:首先,对各个样本文字的目标概率进行对数运算,得到多个运算结果;然后,根据多个运算结果的运算结果之和,确定第一损失函数。第一损失函数
Figure 556815DEST_PATH_IMAGE016
的表达式可以如公式(5)所示:
Figure 164513DEST_PATH_IMAGE017
其中,
Figure 92149DEST_PATH_IMAGE018
是样本文字的个数,
Figure 76286DEST_PATH_IMAGE019
是样本文字的目标概率。
在本申请的一个实施例中,如图9所示,根据各个样本分词对应的标注实体类型和第二输出概率构建第二损失函数可以具体包括步骤S910-步骤S930,详细说明如下:
步骤S910、根据各个样本分词对应的标注实体类型,确定与标注实体类型相同的实体类型对应的第二输出概率。
在将训练样本输入实体识别模型之后,实体识别模型可以输出各个样本分词针对各个实体类型的第二输出概率。其中,实体类型也是预先设置好的,举例说明,假设预先设置的实体类型包括三种,则通过实体识别模型可以输出得到各个样本分词分别属于这四种实体类型的第二输出概率。
同时,由于各个样本分词都对应有标注实体类型,因而,根据各个样本文字对应的标注实体类型,可以确定出与标注实体类型相同的实体类型对应的第二输出概率。
例如,预先设置的实体类型包括A2、B2、C2和D2,样本分词W对应的标注实体类型为B2,实体识别模型输出的样本分词W分别属于这四种实体类型的第二输出概率分别为0.4、0.2、0.3和0.1,则可以确定与标注实体类型B2相同的实体类型对应的第二输出概率为0.2。
步骤S920、将与标注实体类型相同的实体类型对应的第二输出概率,作为各个样本分词的目标概率。
步骤S930、根据各个样本分词的目标概率,构建第二损失函数。
在一些实施例中,根据各个样本分词的目标概率,构建第二损失函数可以具体包括:首先,对各个样本文字的目标概率进行对数运算,得到多个运算结果;然后,根据多个运算结果的运算结果之和,确定第二损失函数。第二损失函数的表达式可以如公式(6)所示:
Figure 655035DEST_PATH_IMAGE020
其中,
Figure 699214DEST_PATH_IMAGE018
是样本分词的个数,
Figure 238780DEST_PATH_IMAGE021
是样本分词
Figure 636394DEST_PATH_IMAGE022
的目标概率。
继续参见图6,步骤S630、根据第一损失函数和第二损失函数构建联合损失函数,基于联合损失函数训练实体识别模型,得到训练好的实体识别模型。
进一步,在构建得到第一损失函数和第二损失函数之后,计算机设备可以根据第一损失函数和第二损失函数构建联合损失函数,按照最小化联合损失函数的方向调整实体识别模型的模型参数,通过更新模型参数缩小联合损失函数,不断优化统计实体识别模型的模型参数,采用最小化原则确定使联合损失函数最小的模型参数,得到训练好的实体识别模型。
示意性地,联合损失函数
Figure 210595DEST_PATH_IMAGE023
的表达式可以如公式(7)所示:
Figure 284730DEST_PATH_IMAGE024
其中,
Figure 311592DEST_PATH_IMAGE025
为调节因子,用于调节
Figure 637531DEST_PATH_IMAGE016
Figure 696533DEST_PATH_IMAGE023
所占的比重,
Figure 82515DEST_PATH_IMAGE025
的值可以根据实际情况进行设定。
以下介绍本申请的装置实施例,可以用于执行本申请上述实施例中的实体识别方法。对于本申请装置实施例中未披露的细节,请参照本申请上述的实体识别方法的实施例。
图10示出了根据本申请的一个实施例的实体识别装置的框图,参照图10所示,根据本申请的一个实施例的实体识别装置1000,包括:提取处理单元1002、第一输入单元1004、获取单元1006和确定单元1008。
其中,所述提取处理单元1002,配置为对待识别文本进行特征提取处理,以获得所述待识别文本中各个文字对应的字特征向量;所述第一输入单元1004,配置为将所述各个文字对应的字特征向量输入实体识别模型,所述实体识别模型是根据训练样本中各个样本文字针对各个实体标签的第一输出概率和所述训练样本中各个样本分词针对各个实体类型的第二输出概率训练得到的;所述获取单元1006,配置为获取所述实体识别模型输出的所述各个文字针对所述各个实体标签的第一预测概率,以及所述待识别文本中各个分词针对所述各个实体类型的第二预测概率;所述确定单元1008,配置为根据所述第一预测概率和所述第二预测概率,确定针对所述待识别文本的实体识别结果。
在本申请的一些实施例中,所述确定单元1008配置为:将所述各个文字针对所述各个实体标签的第一预测概率中的最大预测概率所对应的实体标签作为所述各个文字对应的目标实体标签,将所述目标实体标签指示为同一实体类型且位置连续的文字识别为同一个实体,得到所述待识别文本的第一实体识别结果;将所述各个分词针对所述各个实体类型的第二预测概率中的最大预测概率所对应的实体类型作为所述各个分词对应的目标实体类型,根据所述各个分词对应的目标实体类型,确定所述待识别文本的第二实体识别结果;合并所述第一实体识别结果以及所述第二实体识别结果,得到所述待识别文本的实体识别结果。
在本申请的一些实施例中,所述装置还包括:第二输入单元,配置为将所述训练样本输入所述实体识别模型,得到所述实体识别模型的输出结果,所述输出结果中包含所述各个样本文字针对各个实体标签的第一输出概率和所述各个样本分词针对各个实体类型的第二输出概率;第一构建单元,配置为根据所述各个样本文字对应的标注实体标签和所述第一输出概率构建第一损失函数,并根据所述各个样本分词对应的标注实体类型和所述第二输出概率构建第二损失函数;第二构建单元,配置为根据所述第一损失函数和所述第二损失函数构建联合损失函数,基于所述联合损失函数训练所述实体识别模型,得到训练好的实体识别模型。
在本申请的一些实施例中,所述第一构建单元包括:第一确定子单元,配置为根据所述各个样本文字对应的标注实体标签,确定与所述标注实体标签相同的实体标签对应的第一输出概率;第一处理子单元,配置为将与所述标注实体标签相同的实体标签对应的第一输出概率,作为所述各个样本文字的目标概率;第一构建子单元,配置为根据所述各个样本文字的目标概率,构建所述第一损失函数。
在本申请的一些实施例中,所述第一构建子单元配置为:对所述各个样本文字的目标概率进行对数运算,得到多个运算结果;根据所述多个运算结果的运算结果之和,确定所述第一损失函数。
在本申请的一些实施例中,所述第一构建单元还包括:第二确定子单元,配置为根据所述各个样本分词对应的标注实体类型,确定与所述标注实体类型相同的实体类型对应的第二输出概率;第二处理子单元,配置为将与所述标注实体类型相同的实体类型对应的第二输出概率,作为所述各个样本分词的目标概率;第二构建子单元,配置为根据所述各个样本分词的目标概率,构建所述第二损失函数。
在本申请的一些实施例中,所述第二构建子单元配置为:对所述各个样本分词的目标概率进行对数运算,得到多个运算结果;根据所述多个运算结果的运算结果之和,确定所述第二损失函数。
在本申请的一些实施例中,所述第二输入单元包括:获取子单元,配置为获取所述各个样本文字对应的字特征向量,并根据所述各个样本文字对应的字特征向量,生成所述各个样本分词对应的词特征向量;第一输入子单元,配置为将所述各个样本文字对应的字特征向量输入所述实体识别模型的第一处理网络,以获得所述第一处理网络输出的所述各个样本文字针对各个实体标签的第一输出概率;第二输入子单元,配置为将所述各个样本分词对应的词特征向量输入所述实体识别模型的第二处理网络,以获得所述第二处理网络输出的所述各个样本分词针对各个实体类型的第二输出概率。
在本申请的一些实施例中,所述获取子单元配置为:根据所述各个样本文字对应的字特征向量,确定所述各个样本分词中包含的目标样本文字对应的字特征向量;根据所述目标样本文字对应的字特征向量,生成所述目标样本文字对应的特征分数值;对所述目标样本文字对应的特征分数值进行归一化处理,得到归一化处理结果,并根据所述归一化处理结果以及所述目标样本文字对应的字特征向量,生成所述各个样本分词对应的词特征向量。
在本申请的一些实施例中,所述提取处理单元1002包括:向量化处理子单元,配置为对所述待识别文本中各个文字进行向量化处理,以获得所述各个文字对应的第一特征向量;第一生成子单元,配置为根据预先获取到的实体信息表,对所述各个文字进行特征提取处理,以生成所述各个文字对应的第二特征向量;第二生成子单元,配置为根据所述各个文字对应的第一特征向量以及所述各个文字对应的第二特征向量,生成所述各个文字对应的字特征向量。
在本申请的一些实施例中,所述第二生成子单元配置为:将所述各个文字对应的第二特征向量的维度转换为与所述第一特征向量的维度相同的维度,得到转换后的第二特征向量;将所述各个文字对应的第一特征向量与所述各个文字对应的转换后的第二特征向量相加,得到相加后的特征向量,并根据相加后的特征向量,生成所述各个文字对应的字特征向量。
在本申请的一些实施例中,所述第一生成子单元配置为:根据所述实体信息表,对所述各个文字进行实体信息查询,以获得所述各个文字对应的查询结果,所述查询结果用于指示查询的文字所属实体的实体类型以及查询的文字在所属实体中的位置,或者用于指示查询的文字不属于任何实体类型;根据所述各个文字对应的查询结果,确定所述各个文字对应的第二特征向量。
图11示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
需要说明的是,图11示出的电子设备的计算机系统1100仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图11所示,计算机系统1100包括中央处理单元(Central Processing Unit,CPU)1101,其可以根据存储在只读存储器(Read-Only Memory,ROM)1102中的程序或者从存储部分1108加载到随机访问存储器(Random Access Memory,RAM)1103中的程序而执行各种适当的动作和处理,例如执行上述实施例中所述的方法。在RAM 1103中,还存储有系统操作所需的各种程序和数据。CPU 1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(Input /Output,I/O)接口1105也连接至总线1104。
以下部件连接至I/O接口1105:包括键盘、鼠标等的输入部分1106;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分1107;包括硬盘等的存储部分1108;以及包括诸如LAN(Local AreaNetwork,局域网)卡、调制解调器等的网络接口卡的通信部分1109。通信部分1109经由诸如因特网的网络执行通信处理。驱动器1110也根据需要连接至I/O接口1105。可拆卸介质1111,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1110上,以便于从其上读出的计算机程序根据需要被安装入存储部分1108。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的计算机程序。在这样的实施例中,该计算机程序可以通过通信部分1109从网络上被下载和安装,和/或从可拆卸介质1111被安装。在该计算机程序被中央处理单元(CPU)1101执行时,执行本申请的系统中限定的各种功能。
需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现上述实施例中所述的方法。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的实施方式后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims (15)

1.一种实体识别方法,其特征在于,所述方法包括:
对待识别文本进行特征提取处理,以获得所述待识别文本中各个文字对应的字特征向量;
将所述各个文字对应的字特征向量输入实体识别模型,所述实体识别模型是根据训练样本中各个样本文字针对各个实体标签的第一输出概率和所述训练样本中各个样本分词针对各个实体类型的第二输出概率训练得到的;
获取所述实体识别模型输出的所述各个文字针对所述各个实体标签的第一预测概率,以及所述待识别文本中各个分词针对所述各个实体类型的第二预测概率;
根据所述第一预测概率和所述第二预测概率,确定所述待识别文本的实体识别结果。
2.根据权利要求1所述的方法,其特征在于,根据所述第一预测概率和所述第二预测概率,确定所述待识别文本的实体识别结果,包括:
将所述各个文字针对所述各个实体标签的第一预测概率中的最大预测概率所对应的实体标签作为所述各个文字对应的目标实体标签,将所述目标实体标签指示为同一实体类型且位置连续的文字识别为同一个实体,得到所述待识别文本的第一实体识别结果;
将所述各个分词针对所述各个实体类型的第二预测概率中的最大预测概率所对应的实体类型作为所述各个分词对应的目标实体类型,根据所述各个分词对应的目标实体类型,确定所述待识别文本的第二实体识别结果;
合并所述第一实体识别结果以及所述第二实体识别结果,得到所述待识别文本的实体识别结果。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述训练样本输入所述实体识别模型,得到所述实体识别模型的输出结果,所述输出结果中包含所述各个样本文字针对各个实体标签的第一输出概率和所述各个样本分词针对各个实体类型的第二输出概率;
根据所述各个样本文字对应的标注实体标签和所述第一输出概率构建第一损失函数,并根据所述各个样本分词对应的标注实体类型和所述第二输出概率构建第二损失函数;
根据所述第一损失函数和所述第二损失函数构建联合损失函数,基于所述联合损失函数训练所述实体识别模型,得到训练好的实体识别模型。
4.根据权利要求3所述的方法,其特征在于,根据所述各个样本文字对应的标注实体标签和所述第一输出概率构建第一损失函数,包括:
根据所述各个样本文字对应的标注实体标签,确定与所述标注实体标签相同的实体标签对应的第一输出概率;
将与所述标注实体标签相同的实体标签对应的第一输出概率,作为所述各个样本文字的目标概率;
根据所述各个样本文字的目标概率,构建所述第一损失函数。
5.根据权利要求4所述的方法,其特征在于,根据所述各个样本文字的目标概率,构建所述第一损失函数,包括:
对所述各个样本文字的目标概率进行对数运算,得到多个运算结果;
根据所述多个运算结果的运算结果之和,确定所述第一损失函数。
6.根据权利要求3所述的方法,其特征在于,根据所述各个样本分词对应的标注实体类型和所述第二输出概率构建第二损失函数,包括:
根据所述各个样本分词对应的标注实体类型,确定与所述标注实体类型相同的实体类型对应的第二输出概率;
将与所述标注实体类型相同的实体类型对应的第二输出概率,作为所述各个样本分词的目标概率;
根据所述各个样本分词的目标概率,构建所述第二损失函数。
7.根据权利要求6所述的方法,其特征在于,根据所述各个样本分词的目标概率,构建所述第二损失函数,包括:
对所述各个样本分词的目标概率进行对数运算,得到多个运算结果;
根据所述多个运算结果的运算结果之和,确定所述第二损失函数。
8.根据权利要求3所述的方法,其特征在于,将所述训练样本输入所述实体识别模型,得到所述实体识别模型的输出结果,包括:
获取所述各个样本文字对应的字特征向量,并根据所述各个样本文字对应的字特征向量,生成所述各个样本分词对应的词特征向量;
将所述各个样本文字对应的字特征向量输入所述实体识别模型的第一处理网络,以获得所述第一处理网络输出的所述各个样本文字针对各个实体标签的第一输出概率;
将所述各个样本分词对应的词特征向量输入所述实体识别模型的第二处理网络,以获得所述第二处理网络输出的所述各个样本分词针对各个实体类型的第二输出概率。
9.根据权利要求8所述的方法,其特征在于,根据所述各个样本文字对应的字特征向量,生成所述各个样本分词对应的词特征向量,包括:
根据所述各个样本文字对应的字特征向量,确定所述各个样本分词中包含的目标样本文字对应的字特征向量;
根据所述目标样本文字对应的字特征向量,生成所述目标样本文字对应的特征分数值;
对所述目标样本文字对应的特征分数值进行归一化处理,得到归一化处理结果,并根据所述归一化处理结果以及所述目标样本文字对应的字特征向量,生成所述各个样本分词对应的词特征向量。
10.根据权利要求1至9中任一项所述的方法,其特征在于,对待识别文本进行特征提取处理,以获得所述待识别文本中各个文字对应的字特征向量,包括:
对所述待识别文本中各个文字进行向量化处理,以获得所述各个文字对应的第一特征向量;
根据预先获取到的实体信息表,对所述各个文字进行特征提取处理,以生成所述各个文字对应的第二特征向量;
根据所述各个文字对应的第一特征向量以及所述各个文字对应的第二特征向量,生成所述各个文字对应的字特征向量。
11.根据权利要求10所述的方法,其特征在于,根据所述各个文字对应的第一特征向量以及所述各个文字对应的第二特征向量,生成所述各个文字对应的字特征向量,包括:
将所述各个文字对应的第二特征向量的维度转换为与所述第一特征向量的维度相同的维度,得到转换后的第二特征向量;
将所述各个文字对应的第一特征向量与所述各个文字对应的转换后的第二特征向量相加,得到相加后的特征向量,并根据相加后的特征向量,生成所述各个文字对应的字特征向量。
12.根据权利要求10所述的方法,其特征在于,根据预先获取到的实体信息表,对所述各个文字进行特征提取处理,以生成所述各个文字对应的第二特征向量,包括:
根据所述实体信息表,对所述各个文字进行实体信息查询,以获得所述各个文字对应的查询结果,所述查询结果用于指示查询的文字所属实体的实体类型以及查询的文字在所属实体中的位置,或者用于指示查询的文字不属于任何实体类型;
根据所述各个文字对应的查询结果,确定所述各个文字对应的第二特征向量。
13.一种实体识别装置,其特征在于,所述装置包括:
提取处理单元,配置为对待识别文本进行特征提取处理,以获得所述待识别文本中各个文字对应的字特征向量;
第一输入单元,配置为将所述各个文字对应的字特征向量输入实体识别模型,所述实体识别模型是根据训练样本中各个样本文字针对各个实体标签的第一输出概率和所述训练样本中各个样本分词针对各个实体类型的第二输出概率训练得到的;
获取单元,配置为获取所述实体识别模型输出的所述各个文字针对所述各个实体标签的第一预测概率,以及所述待识别文本中各个分词针对所述各个实体类型的第二预测概率;
确定单元,配置为根据所述第一预测概率和所述第二预测概率,确定针对所述待识别文本的实体识别结果。
14.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至12中任一项所述的实体识别方法。
15.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至12中任一项所述的实体识别方法。
CN202110471896.1A 2021-04-29 2021-04-29 实体识别方法、装置、计算机可读介质及电子设备 Active CN112988979B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110471896.1A CN112988979B (zh) 2021-04-29 2021-04-29 实体识别方法、装置、计算机可读介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110471896.1A CN112988979B (zh) 2021-04-29 2021-04-29 实体识别方法、装置、计算机可读介质及电子设备

Publications (2)

Publication Number Publication Date
CN112988979A true CN112988979A (zh) 2021-06-18
CN112988979B CN112988979B (zh) 2021-10-08

Family

ID=76336575

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110471896.1A Active CN112988979B (zh) 2021-04-29 2021-04-29 实体识别方法、装置、计算机可读介质及电子设备

Country Status (1)

Country Link
CN (1) CN112988979B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113486178A (zh) * 2021-07-12 2021-10-08 恒安嘉新(北京)科技股份公司 文本识别模型训练方法、文本识别方法、装置以及介质
CN113609850A (zh) * 2021-07-02 2021-11-05 北京达佳互联信息技术有限公司 分词处理方法、装置、电子设备及存储介质
CN113656555A (zh) * 2021-08-19 2021-11-16 云知声智能科技股份有限公司 嵌套命名实体识别模型的训练方法、装置、设备和介质
CN114741483A (zh) * 2022-06-09 2022-07-12 浙江香侬慧语科技有限责任公司 数据识别的方法和装置
CN114841162A (zh) * 2022-05-20 2022-08-02 中国电信股份有限公司 文本处理方法、装置、设备及介质
CN115620722A (zh) * 2022-12-15 2023-01-17 广州小鹏汽车科技有限公司 语音交互方法、服务器及计算机可读存储介质
WO2023116561A1 (zh) * 2021-12-24 2023-06-29 中电信数智科技有限公司 一种实体提取方法、装置、电子设备及存储介质
CN114386436B (zh) * 2022-01-21 2023-07-18 平安科技(深圳)有限公司 文本数据的分析方法、模型训练方法、装置及计算机设备

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140280353A1 (en) * 2013-03-12 2014-09-18 Nuance Communications, Inc. Methods and apparatus for entity detection
CN109710925A (zh) * 2018-12-12 2019-05-03 新华三大数据技术有限公司 命名实体识别方法及装置
CN110517693A (zh) * 2019-08-01 2019-11-29 出门问问(苏州)信息科技有限公司 语音识别方法、装置、电子设备和计算机可读存储介质
CN111241832A (zh) * 2020-01-15 2020-06-05 北京百度网讯科技有限公司 核心实体标注方法、装置及电子设备
CN111611395A (zh) * 2019-02-25 2020-09-01 北京嘀嘀无限科技发展有限公司 一种实体关系的识别方法及装置
CN111695345A (zh) * 2020-06-12 2020-09-22 腾讯科技(深圳)有限公司 文本中实体识别方法、以及装置
US20200320086A1 (en) * 2018-01-08 2020-10-08 Alibaba Group Holding Limited Method and system for content recommendation
CN111753545A (zh) * 2020-06-19 2020-10-09 科大讯飞(苏州)科技有限公司 嵌套实体识别方法、装置、电子设备和存储介质
CN112307820A (zh) * 2019-07-29 2021-02-02 北京易真学思教育科技有限公司 文本识别方法、装置、设备和计算机可读介质
CN112487812A (zh) * 2020-10-21 2021-03-12 上海旻浦科技有限公司 一种基于边界识别的嵌套实体识别方法及系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140280353A1 (en) * 2013-03-12 2014-09-18 Nuance Communications, Inc. Methods and apparatus for entity detection
US20200320086A1 (en) * 2018-01-08 2020-10-08 Alibaba Group Holding Limited Method and system for content recommendation
CN109710925A (zh) * 2018-12-12 2019-05-03 新华三大数据技术有限公司 命名实体识别方法及装置
CN111611395A (zh) * 2019-02-25 2020-09-01 北京嘀嘀无限科技发展有限公司 一种实体关系的识别方法及装置
CN112307820A (zh) * 2019-07-29 2021-02-02 北京易真学思教育科技有限公司 文本识别方法、装置、设备和计算机可读介质
CN110517693A (zh) * 2019-08-01 2019-11-29 出门问问(苏州)信息科技有限公司 语音识别方法、装置、电子设备和计算机可读存储介质
CN111241832A (zh) * 2020-01-15 2020-06-05 北京百度网讯科技有限公司 核心实体标注方法、装置及电子设备
CN111695345A (zh) * 2020-06-12 2020-09-22 腾讯科技(深圳)有限公司 文本中实体识别方法、以及装置
CN111753545A (zh) * 2020-06-19 2020-10-09 科大讯飞(苏州)科技有限公司 嵌套实体识别方法、装置、电子设备和存储介质
CN112487812A (zh) * 2020-10-21 2021-03-12 上海旻浦科技有限公司 一种基于边界识别的嵌套实体识别方法及系统

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113609850A (zh) * 2021-07-02 2021-11-05 北京达佳互联信息技术有限公司 分词处理方法、装置、电子设备及存储介质
CN113609850B (zh) * 2021-07-02 2024-05-17 北京达佳互联信息技术有限公司 分词处理方法、装置、电子设备及存储介质
CN113486178A (zh) * 2021-07-12 2021-10-08 恒安嘉新(北京)科技股份公司 文本识别模型训练方法、文本识别方法、装置以及介质
CN113486178B (zh) * 2021-07-12 2023-12-01 恒安嘉新(北京)科技股份公司 文本识别模型训练方法、文本识别方法、装置以及介质
CN113656555A (zh) * 2021-08-19 2021-11-16 云知声智能科技股份有限公司 嵌套命名实体识别模型的训练方法、装置、设备和介质
CN113656555B (zh) * 2021-08-19 2024-03-12 云知声智能科技股份有限公司 嵌套命名实体识别模型的训练方法、装置、设备和介质
WO2023116561A1 (zh) * 2021-12-24 2023-06-29 中电信数智科技有限公司 一种实体提取方法、装置、电子设备及存储介质
CN114386436B (zh) * 2022-01-21 2023-07-18 平安科技(深圳)有限公司 文本数据的分析方法、模型训练方法、装置及计算机设备
CN114841162B (zh) * 2022-05-20 2024-01-05 中国电信股份有限公司 文本处理方法、装置、设备及介质
CN114841162A (zh) * 2022-05-20 2022-08-02 中国电信股份有限公司 文本处理方法、装置、设备及介质
CN114741483A (zh) * 2022-06-09 2022-07-12 浙江香侬慧语科技有限责任公司 数据识别的方法和装置
CN114741483B (zh) * 2022-06-09 2022-09-16 浙江香侬慧语科技有限责任公司 数据识别的方法和装置
CN115620722A (zh) * 2022-12-15 2023-01-17 广州小鹏汽车科技有限公司 语音交互方法、服务器及计算机可读存储介质

Also Published As

Publication number Publication date
CN112988979B (zh) 2021-10-08

Similar Documents

Publication Publication Date Title
CN112988979B (zh) 实体识别方法、装置、计算机可读介质及电子设备
CN111444340B (zh) 文本分类方法、装置、设备及存储介质
CN107220352B (zh) 基于人工智能构建评论图谱的方法和装置
CN112164391B (zh) 语句处理方法、装置、电子设备及存储介质
WO2022022421A1 (zh) 语言表示模型系统、预训练方法、装置、设备及介质
CN111897941A (zh) 对话生成方法、网络训练方法、装置、存储介质及设备
CN111046275B (zh) 基于人工智能的用户标签确定方法及装置、存储介质
CN111666416B (zh) 用于生成语义匹配模型的方法和装置
CN113254785B (zh) 推荐模型训练方法、推荐方法和相关设备
CN112069302A (zh) 会话意图识别模型的训练方法、会话意图识别方法及装置
CN113761190A (zh) 文本识别方法、装置、计算机可读介质及电子设备
CN112214591A (zh) 一种对话预测的方法及装置
CN113761153A (zh) 基于图片的问答处理方法、装置、可读介质及电子设备
CN113392179A (zh) 文本标注方法及装置、电子设备、存储介质
CN113779225A (zh) 实体链接模型的训练方法、实体链接方法及装置
CN115269828A (zh) 用于生成评论回复的方法、设备和介质
CN115129862A (zh) 语句实体处理方法、装置、计算机设备及存储介质
CN113821588A (zh) 文本处理方法、装置、电子设备及存储介质
CN116957128A (zh) 业务指标预测方法、装置、设备和存储介质
CN114398903B (zh) 意图识别方法、装置、电子设备及存储介质
CN113392190B (zh) 一种文本识别方法、相关设备及装置
CN112417260B (zh) 本地化推荐方法、装置及存储介质
CN113657092A (zh) 识别标签的方法、装置、设备以及介质
CN113421551B (zh) 语音识别方法、装置、计算机可读介质及电子设备
CN116089602B (zh) 信息处理方法、装置、电子设备、存储介质和程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40047314

Country of ref document: HK