CN117574906A - 命名实体识别方法、装置及设备 - Google Patents

命名实体识别方法、装置及设备 Download PDF

Info

Publication number
CN117574906A
CN117574906A CN202410050760.7A CN202410050760A CN117574906A CN 117574906 A CN117574906 A CN 117574906A CN 202410050760 A CN202410050760 A CN 202410050760A CN 117574906 A CN117574906 A CN 117574906A
Authority
CN
China
Prior art keywords
data
training
initial
deep learning
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410050760.7A
Other languages
English (en)
Other versions
CN117574906B (zh
Inventor
陈德坤
姜进华
陈冠英
杨学平
崔曙光
熊小康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chinese University Of Hong Kong Shenzhen Future Intelligent Network Research Institute
Shenzhen Klook Network Technology Co ltd
Original Assignee
Chinese University Of Hong Kong Shenzhen Future Intelligent Network Research Institute
Shenzhen Klook Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chinese University Of Hong Kong Shenzhen Future Intelligent Network Research Institute, Shenzhen Klook Network Technology Co ltd filed Critical Chinese University Of Hong Kong Shenzhen Future Intelligent Network Research Institute
Priority to CN202410050760.7A priority Critical patent/CN117574906B/zh
Priority claimed from CN202410050760.7A external-priority patent/CN117574906B/zh
Publication of CN117574906A publication Critical patent/CN117574906A/zh
Application granted granted Critical
Publication of CN117574906B publication Critical patent/CN117574906B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例提供的一种命名实体识别方法、装置及设备,先基于通用模型对待识别数据进行识别处理,得到初始预测数据,基于第N深度学习模型对待识别数据进行识别处理,得到第N预测数据,第N深度学习模型由初始模型基于第N训练数据训练所得到,N为正整数;然后根据初始预测数据和第N预测数据确定第N+1训练数据;基于第N+1训练数据对初始模型训练,得到第N+1深度学习模型,第N+1深度学习模型用于对待识别数据进行识别处理。本申请实施例中,通过多次迭代不断更新训练数据,每次更新后训练数据所包含的泛化实体减少,以此训练数据对初始模型进行训练所得到的训练模型在客体识别时能够更好的去除泛化实体。

Description

命名实体识别方法、装置及设备
技术领域
本申请涉及计算机技术领域,具体地涉及一种命名实体识别方法、装置及设备。
背景技术
在自然语言处理领域,旅游评论数据中的命名实体识别问题备受关注。旅游评论数据中通常包含了丰富的实体信息,如地理位置、餐馆、景点等,准确地识别这些实体对于旅游行业和信息提供商至关重要。然而,旅游评论数据具有多样性,并且可能伴随随机噪声,这使得传统的命名实体识别方法难以实现高准确性的识别。此外,评论数据中包含大量泛化实体,如“沙滩”或“酒店”,它们属于旅游相关的实体,但并不提供具体的信息,从后续信息利用的角度来看,它们显得多余。
目前一种常见的方法是使用预训练语言表征模型(Bidirectional EncoderRepresentation from Transformers,BERT)来进行文本嵌入,接着使用双向长短时记忆网络(Long Short-Term Memory,LSTM)来提取和总结上下文信息,最后采用条件随机场(Conditional Random Field,CRF)算法来执行命名实体识别。然而,深度学习模型对训练数据的数量和质量要求较高,标注训练数据需要耗费大量人工成本。此外,在旅游领域中,尚未建立一套高效完备的命名实体识别流程,现有的方法也未能有效区分泛化实体和包含实际信息的非泛化实体,这导致最终的结果难以直接用于后续任务。
发明内容
有鉴于此,本申请提供一种命名实体识别方法、装置及设备,以利于解决现有技术中识别后的数据中包含大量泛化实体的问题。
第一方面,本申请实施例提供了一种命名实体识别方法,包括:
基于通用模型对待识别数据进行识别处理,得到初始预测数据;
基于第N深度学习模型对所述待识别数据进行识别处理,得到第N预测数据,所述第N深度学习模型由初始模型基于第N训练数据训练所得到,N为正整数;
根据所述初始预测数据和所述第N预测数据确定第N+1训练数据;
基于所述第N+1训练数据对所述初始模型训练,得到第N+1深度学习模型,所述第N+1深度学习模型用于实体识别处理。
一种可选的实施例中,所述基于通用模型对待识别数据进行识别处理,得到初始预测数据之后,所述方法还包括:
响应于用户的选择操作,在所述初始预测数据中确定初始泛化词表;
基于所述初始泛化词表在所述初始预测数据中进行筛选,得到第1训练数据,其中,所述第1训练数据用于对所述初始模型进行训练,得到第1深度学习模型。
一种可选的实施例中,所述根据所述初始预测数据和所述第N预测数据确定第N+1训练数据,包括:
确定所述初始预测数据和所述第N预测数据之间的第N差异数据;
响应于用户的选择操作,在所述第N差异数据中确定第N泛化词表;
基于所述第N泛化词表对所述初始预测数据进行筛选,得到所述第N+1训练数据。
一种可选的实施例中,所述确定所述初始预测数据和所述第N预测数据之间的第N差异数据,包括:
将所述初始预测数据与所述第N预测数据相减,得到所述第N差异数据。
一种可选的实施例中,所述第N+1训练数据中所包含的非泛化实体的个数大于所述第N预测数据中所包含的非泛化实体的个数。
一种可选的实施例中,所述第N+1训练数据中所包含的泛化实体的个数大于所述第N训练数据中所包含的泛化实体的个数。
一种可选的实施例中,所述基于通用模型对待识别数据进行识别处理,得到初始预测数据之前,所述方法还包括:
获取评论数据;
基于用户评分和数据长度对所述评论数据进行排序;
按排列顺序均匀提取预设数量的评论数据,得到所述待识别数据。
第二方面,本申请实施例提供了一种命名实体识别装置,包括:
处理模块,用于基于通用模型对待识别数据进行识别处理,得到初始预测数据;
所述处理模块,还用于基于第N深度学习模型对所述待识别数据进行识别处理,得到第N预测数据,所述第N深度学习模型由初始模型基于第N训练数据训练所得到,N为正整数;
确定模块,用于根据所述初始预测数据和所述第N预测数据确定第N+1训练数据;
训练模块,用于基于所述第N+1训练数据对所述初始模型训练,得到第N+1深度学习模型,所述第N+1深度学习模型用于实体识别处理。
第三方面,本申请实施例提供了一种电子设备,包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被所述处理器执行时,触发所述电子设备执行上述第一方面任一项所述的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行第一方面任一项所述的方法。
第五方面,本申请实施例提供了一种计算机程序产品,所述计算机程序产品包含可执行指令,当所述可执行指令在计算机上执行时,使得计算机执行第一方面任一项所述的方法。
采用本申请实施例所提供的方案,先基于通用模型对待识别数据进行识别处理,得到初始预测数据,基于第N深度学习模型对待识别数据进行识别处理,得到第N预测数据,第N深度学习模型由初始模型基于第N训练数据训练所得到,N为正整数;然后根据初始预测数据和第N预测数据确定第N+1训练数据;基于第N+1训练数据对初始模型训练,得到第N+1深度学习模型,第N+1深度学习模型用于对待识别数据进行识别处理。本申请实施例中,通过多次迭代不断更新训练数据,每次更新后训练数据所包含的泛化实体减少,以此训练数据对初始模型进行训练所得到的训练模型在预测时能够更好的去除泛化实体。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本申请实施例提供的一种命名实体识别方法的流程示意图;
图2为本申请实施例提供的另一种命名实体识别方法的流程示意图;
图3为本申请实施例提供的一种命名实体识别装置的结构示意图;
图4为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为了更好的理解本申请的技术方案,下面结合附图对本申请实施例进行详细描述。
应当明确,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,甲和/或乙,可以表示:单独存在甲,同时存在甲和乙,单独存在乙这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
在如今的自然语言处理领域中,对网络上的评论数据进行命名实体识别可为人们提供重要的信息,例如,通过对旅游评论数据的识别可得到某些酒店的地理位置、口味,或者可得到某些景点的体验。通过构建深度学习模型对评论数据识别是一种常见的识别方法,常见的步骤为使用BERT来进行文本嵌入,接着使用LSTM来提取和总结上下文信息,最后采用CRF算法来执行命名实体识别。然而,深度学习模型对训练数据的数量和质量要求较高,例如,训练数据中应尽量减少泛化实体的数量,增大非泛化实体的数量。如此,模型训练完成后才能够更倾向于识别非泛化实体,有效去除泛化实体的影响。但是,标注训练数据需要耗费大量人工成本,如今尚未建立一套高效完备的命名实体识别流程,现有的方法也未能有效区分泛化实体和包含实际信息的实体,这导致最终的结果难以直接用于后续任务。
针对当前命名客体识别中包含大量泛化实体,影响用户获取重要信息的问题,本申请实施例提供了一种命名客体识别方法,通过多次迭代更新训练数据,以实现逐渐降低训练数据中泛化实体的数量和比例,最终得到较为理想的深度学习模型。
本申请实施例的方法主要包括两部分:(1)数据的获取与标注;(2)深度学习模型的多次迭代训练。
在第一部分中,用户首先要获取待识别数据,以旅游评论数据为例,用户可通过网络爬虫技术从各大旅游网站中获取特定地区的景点、酒店、餐厅等元素的评论信息,并同时记录用户在评论中所给的评分。然后,本申请对所有旅游评论数据按照两个关键因素(用户评分和评论长度)进行排序,,随后从中均匀地抽取出预设数量(如7000条)的旅游评论数据,得到待识别数据。通过均匀提取旅游评论数据,可增加待识别数据的多样性,从而提高深度学习模型的鲁棒性。
获取上述待识别数据后,用户利用通用大型模型(如大语言模型ChatGPT)对待识别数据进行初步的识别处理,得到初始预测数据。用户可根据需求自行设计模型输出的数据格式。例如,数据格式可为“实体名称-实体标签”,输出的具体数据可包括:“A城市-地点”、“非常好玩-评价”、“炸鸡套餐-食物名称”、“拍照-活动”等。
用户利用通用大型模型所获得的初始预测数据中可能存在很多像“沙滩”、“酒店”、“公园”这样的词汇,它们虽然被通用大型模型标注为实体,但实际上缺乏具体信息,对于下游任务没有实际用处。因此,本申请将这类词汇归类为“泛化实体”,而像“A沙滩”、“B酒店”和“C公园”这样的词汇包含具体的信息,本申请将这类词汇归类为“非泛化实体”。
在第二部分中,本申请希望通过n次迭代训练尽可能地过滤掉这些泛化实体,以便训练的模型能够识别并排除这些无意义的实体。具体步骤可如图1所示,包括:
步骤101,通用大型模型对待识别数据进行识别处理,得到初始预测数据;
步骤102,人工确定初始泛化词表;
步骤103,基于初始泛化词表筛选初始预测数据,得到第1训练数据;
步骤104,基于第1训练数据训练初始模型,得到第1深度学习模型;
步骤105,第1深度学习模型对待识别数据进行识别处理,得到第1预测数据;
步骤106,将初始预测数据和第1预测数据相减,得到第1差异数据;
步骤107,人工确定第1泛化词表;
步骤108,基于第1泛化词表筛选初始预测数据,得到第2训练数据;
步骤109,基于第2训练数据训练初始模型,得到第2深度学习模型;
步骤110,第2深度学习模型对待识别数据进行识别处理,得到第2预测数据;
步骤111,第n深度学习模型对待识别数据进行识别处理,得到第n预测数据;
步骤112,将初始预测数据和第n预测数据相减,得到第n差异数据;
步骤113,人工确定第n泛化词表;
步骤114,基于第n泛化词表筛选初始预测数据,得到第n+1训练数据;
步骤115,基于第n+1训练数据训练初始模型,得到第n+1深度学习模型。
在步骤101中由通用大型模型所识别的初始预测数据中通常包含大量泛化实体,用户人工在初始预测数据中进行筛选,确定初始泛化词表。初始泛化词表中包含常见的高频泛化实体,用户基于该初始泛化词表对初始预测数据进行过滤,可得到第1训练数据。具体的,将同时存在于初始泛化词表和初始预测数据中的泛化实体从初始预测数据中删除。经过初始泛化词表的过滤后,第1训练数据中包含的泛化实体的数量远小于初始预测数据中包含的泛化实体的数量。
基于第1训练数据对初始模型进行训练,可得到第1深度学习模型。模型训练完成后,第1深度学习模型对待识别数据进行识别处理,得到第1预测数据。由于深度学习模型存在偏向性(训练过程更倾向于挖掘占比更高的带名字实体),所以第1预测数据中的泛化实体的数量比第1训练数据中的泛化实体的数量更少。上述过程为第1次迭代所包含的步骤。
自步骤105进入第2次迭代,首先将初始预测数据和第1预测数据相减,得到第1差异数据。例如,初始预测数据为,第1预测数据为,则/>。初始预测数据中的非泛化实体的数量与第1预测数据中的非泛化实体的数量相近,而第1预测数据中的泛化实体的数量远小于初始预测数据中的泛化实体的数量。二者相减,第1差异数据中绝大多数为泛化实体,少数为非泛化实体。
之后用户人工确定第1泛化词表,具体的,基于第1差异数据中的泛化实体可确定第1泛化词表。基于第1泛化词表筛选初始预测数据,可得到第2训练数据,由于第1泛化词表中包含的泛化实体的数量大于初始泛化词表中包含的泛化实体的数量,因此,第2训练数据中的泛化实体的数量小于第1训练数据中的泛化实体的数量。基于第2训练数据对初始模型进行训练,可得到第2深度学习模型,由于第2训练数据的质量更高(泛化实体更少),第2深度学习模型的预测能力高于第1深度学习模型。至步骤109,第2次迭代完成。
后续迭代所执行的步骤与第2次类似,步骤110进入第3次迭代,步骤111进入第n次迭代,第n深度学习模型对待识别数据进行识别处理,得到第n预测数据。将初始预测数据与第n预测数据相减,得到第n差异数据,用户基于第n差异数据中的泛化实体确定第n泛化词表,第n泛化词表中的泛化实体的数量大于第n-1泛化词表中的泛化实体的数量。基于第n泛化词表筛选初始预测数据,可得到第n+1训练数据,基于第n+1训练数据训练初始模型,可得到第n+1深度学习模型。伴随着每次迭代,训练数据的质量不断升高,基于训练数据训练生成的深度学习模型的能力也随之升高,第n+1深度学习模型的能力符合预期,可用于对其他评论数据进行实体识别。
以下以具体实施例对上述迭代过程做进一步说明,迭代中具体数据可如表1所示:
表1
第1次迭代中,由通用大型模型对待识别数据识别之后,得到初始预测数据,其中包含500个非泛化实体、300个泛化实体。用户人工从300个泛化实体中选中150个高频泛化实体,生成初始泛化词表。高频泛化实体出现次数较多,用户耗费较少时间即可确定初始泛化词表。基于初始泛化词表过滤初始化预测数据,得到第1训练数据,第1训练数据中删除了上述150个高频泛化实体。使用第1训练数据训练初始模型可得到第1深度学习模型,相比于通用大型模型,第1深度学习模型进行命名客体识别时,能够更好的除去泛化实体。
第2次迭代中,第1深度学习模型对待识别数据进行预测后得到第1预测数据,其中包含450个非泛化实体和50个泛化实体。由于深度学习模型训练过程更倾向于挖掘占比更高的非泛化实体,因此第1预测数据中的泛化实体的数量会大于第1训练数据中泛化实体的数量。第1预测数据中非泛化实体由500减少到450,为了消除此影响,可将初始预测数据与第1预测数据相减,得到第1差异数据,第1差异数据中包含50个非泛化实体和250个泛化实体。用户人工花费较少时间即可将第1差异数据中的非泛化实体筛过滤,生成第1泛化词表,第1泛化词表中仅包含250个泛化实体。基于第1泛化词表筛选初始预测数据即可得到的2训练数据,第2训练数据中包含500个非泛化实体和50个泛化实体。与第1预测数据相比,第2训练数据中非泛化实体的数量重新返回500,可用于对初始模型训练得到第2深度学习模型。
第3次迭代中,由训练完成的第2深度学习模型对待识别数据进行识别处理,得到第2预测数据,与第1预测数据相比,第2预测数据包含更多的非泛化实体和更少的泛化实体。将第2预测数据与初始预测数据相减得到第2差异数据,用户人工删除第2差异数据中的20个非泛化实体,得到第2泛化词表。基于第2泛化词表过滤初始预测数据可得到第3训练数据,与第2训练数据相比,第3训练数据包含相同数量的非泛化实体,包含更少数量的泛化实体。
后续每次迭代,训练数据中的泛化实体的数量会持续减少,训练所得的深度学习模型在识别其他评论数据时会更倾向于输出非泛化实体,给用户提供更多有价值的信息。
在一个具体实施例中,用户重新采集评论数据,分别使用三种方式进行客体识别:(1)仅用通用大型模型进行识别;(2)使用通用大型模型输出的初始预测数据训练深度学习模型,再使用深度学习模型进行识别;(3)使用本申请实施例提供的命名客体识别方法,通过多次迭代后所生成的深度学习模型进行识别。
第一种方式的识别结果与正确结果对比如表2所示,第二种方式的识别结果与正确结果对比如表3所示,第三种方式的识别结果与正确结果对比如表4所示:
表2
表3
表4
由上表可知,仅用通用大型模型进行识别的结果最差,其精确率、召回率和F1分数最低;使用通用大型模型输出的初始预测数据训练深度学习模型,再使用深度学习模型进行识别的结果较好,精确率、召回率和F1分数有所提升;使用本申请实施例提供的命名客体识别方法,通过多次迭代后所生成的深度学习模型进行识别的结果最好,其精确率、召回率和F1分数有明显提高。其中,F1=2(精确率*召回率)/( 精确率+召回率)。
图2为本申请实施例提供的另一种命名实体识别方法的流程示意图。该方法可应用于电子设备,如图2所示,该方法具体可包括:
步骤201,基于通用模型对待识别数据进行识别处理,得到初始预测数据;
步骤202,基于第N深度学习模型对待识别数据进行识别处理,得到第N预测数据;
步骤203,根据所述初始预测数据和第N预测数据确定第N+1训练数据;
步骤204,基于所述第N+1训练数据对初始模型训练,得到第N+1深度学习模型。
各步骤之间的具体细节可参照上述图1中的描述,基于上述流程,电子设备最终基于第N+1训练数据对初始模型进行训练后,可得到第N+1深度学习模型。第N+1深度学习模型可用于对其他文本数据进行命名实体识别,其输出结果会包含较少的泛化实体,大部分为非泛化实体,能够给用户提供有价值的信息。
图3为本申请实施例提供的一种命名实体识别装置的结构示意图。该装置可部署于电子设备,如图3所示,该装置可包括:处理模块310、确定模块320和训练模块330。
处理模块310,用于基于通用模型对待识别数据进行识别处理,得到初始预测数据;
处理模块310,还用于基于第N深度学习模型对待识别数据进行识别处理,得到第N预测数据;
确定模块320,根据所述初始预测数据和第N预测数据确定第N+1训练数据;
训练模块330,基于所述第N+1训练数据对初始模型训练,得到第N+1深度学习模型。
具体流程可参照上述方法流程图中的描述。
与上述实施例相对应,本申请还提供了一种电子设备。图4为本申请实施例提供的一种电子设备的结构示意图,所述电子设备400可以包括:处理器401、存储器402及通信单元403。这些组件通过一条或多条总线进行通信,本领域技术人员可以理解,图中示出的电子设备的结构并不构成对本申请实施例的限定,它既可以是总线形结构,也可以是星型结构,还可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
其中,所述通信单元403,用于建立通信信道,从而使所述电子设备可以与其它设备进行通信。接收其他设备发是的用户数据或者向其他设备发送用户数据。
所述处理器401,为电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器402内的软件程序、指令、和/或模块,以及调用存储在存储器内的数据,以执行电子设备的各种功能和/或处理数据。所述处理器可以由集成电路(integrated circuit,IC) 组成,例如可以由单颗封装的IC 所组成,也可以由连接多颗相同功能或不同功能的封装IC而组成。举例来说,处理器401可以仅包括中央处理器(central processing unit,CPU)。在本申请实施方式中,CPU可以是单运算核心,也可以包括多运算核心。
所述存储器402,用于存储处理器401的执行指令,存储器402可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
当存储器402中的执行指令由处理器401执行时,使得电子设备400能够执行图1所示实施例中的部分或全部步骤。
具体实现中,本申请还提供一种计算机存储介质,其中,该计算机存储介质可存储有程序,该程序执行时可包括本申请提供的命名实体识别方法的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory,ROM)或随机存储记忆体(random access memory,RAM)等。
具体实现中,本申请还提供一种计算机程序产品,其中,计算机程序产品包含可执行指令,当所述可执行指令在计算机上执行时,使得计算机执行本申请提供的命名实体识别方法的各实施例中的部分或全部步骤。
本申请实施例还提供一种非临时性计算机可读存储介质,上述非临时性计算机可读存储介质存储计算机指令,上述计算机指令使上述计算机执行本申请实施例提供的命名实体识别方法。
上述非临时性计算机可读存储介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(Read Only Memory;以下简称:ROM)、可擦式可编程只读存储器(ErasableProgrammable Read Only Memory;以下简称:EPROM)或闪存、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
本领域的技术人员可以清楚地了解到本申请实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中各个实施例之间相同相似的部分互相参见即可。尤其,对于装置实施例和终端实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例中的说明即可。

Claims (10)

1.一种命名实体识别方法,其特征在于,包括:
基于通用模型对待识别数据进行识别处理,得到初始预测数据;
基于第N深度学习模型对所述待识别数据进行识别处理,得到第N预测数据,所述第N深度学习模型由初始模型基于第N训练数据训练所得到,N为正整数;
根据所述初始预测数据和所述第N预测数据确定第N+1训练数据;
基于所述第N+1训练数据对所述初始模型训练,得到第N+1深度学习模型,所述第N+1深度学习模型用于实体识别处理。
2.根据权利要求1所述的方法,其特征在于,所述基于通用模型对待识别数据进行识别处理,得到初始预测数据之后,所述方法还包括:
响应于用户的选择操作,在所述初始预测数据中确定初始泛化词表;
基于所述初始泛化词表在所述初始预测数据中进行筛选,得到第1训练数据,其中,所述第1训练数据用于对所述初始模型进行训练,得到第1深度学习模型。
3.根据权利要求1所述的方法,其特征在于,所述根据所述初始预测数据和所述第N预测数据确定第N+1训练数据,包括:
确定所述初始预测数据和所述第N预测数据之间的第N差异数据;
响应于用户的选择操作,在所述第N差异数据中确定第N泛化词表;
基于所述第N泛化词表对所述初始预测数据进行筛选,得到所述第N+1训练数据。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述确定所述初始预测数据和所述第N预测数据之间的第N差异数据,包括:
将所述初始预测数据与所述第N预测数据相减,得到所述第N差异数据。
5.根据权利要求1至3任一项所述的方法,其特征在于,所述第N+1训练数据中所包含的非泛化实体的个数大于所述第N预测数据中所包含的非泛化实体的个数。
6.根据权利要求1至3任一项所述的方法,其特征在于,所述第N+1训练数据中所包含的泛化实体的个数大于所述第N训练数据中所包含的泛化实体的个数。
7.根据权利要求1所述的方法,其特征在于,所述基于通用模型对待识别数据进行识别处理,得到初始预测数据之前,所述方法还包括:
获取评论数据;
基于用户评分和数据长度对所述评论数据进行排序;
按排列顺序均匀提取预设数量的评论数据,得到所述待识别数据。
8.一种命名实体识别装置,其特征在于,包括:
处理模块,用于基于通用模型对待识别数据进行识别处理,得到初始预测数据;
所述处理模块,还用于基于第N深度学习模型对所述待识别数据进行识别处理,得到第N预测数据,所述第N深度学习模型由初始模型基于第N训练数据训练所得到,N为正整数;
确定模块,用于根据所述初始预测数据和所述第N预测数据确定第N+1训练数据;
训练模块,用于基于所述第N+1训练数据对所述初始模型训练,得到第N+1深度学习模型,所述第N+1深度学习模型用于实体识别处理。
9.一种电子设备,其特征在于,包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被所述处理器执行时,使所述电子设备执行权利要求1至7任意一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至7中任意一项所述的方法。
CN202410050760.7A 2024-01-15 命名实体识别方法、装置及设备 Active CN117574906B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410050760.7A CN117574906B (zh) 2024-01-15 命名实体识别方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410050760.7A CN117574906B (zh) 2024-01-15 命名实体识别方法、装置及设备

Publications (2)

Publication Number Publication Date
CN117574906A true CN117574906A (zh) 2024-02-20
CN117574906B CN117574906B (zh) 2024-05-24

Family

ID=

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111738004A (zh) * 2020-06-16 2020-10-02 中国科学院计算技术研究所 一种命名实体识别模型的训练方法及命名实体识别的方法
CN112329466A (zh) * 2020-10-13 2021-02-05 北京三快在线科技有限公司 命名实体识别模型的构建方法、装置、设备以及存储介质
CN112364649A (zh) * 2020-09-08 2021-02-12 平安医疗健康管理股份有限公司 命名实体的识别方法、装置、计算机设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111738004A (zh) * 2020-06-16 2020-10-02 中国科学院计算技术研究所 一种命名实体识别模型的训练方法及命名实体识别的方法
CN112364649A (zh) * 2020-09-08 2021-02-12 平安医疗健康管理股份有限公司 命名实体的识别方法、装置、计算机设备及存储介质
CN112329466A (zh) * 2020-10-13 2021-02-05 北京三快在线科技有限公司 命名实体识别模型的构建方法、装置、设备以及存储介质

Similar Documents

Publication Publication Date Title
CN110164435A (zh) 语音识别方法、装置、设备及计算机可读存储介质
CN111079408B (zh) 一种语种识别方法、装置、设备及存储介质
CN107943914A (zh) 语音信息处理方法和装置
CN112966106A (zh) 文本的情绪识别方法、装置、设备及存储介质
CN110738055A (zh) 文本的实体识别方法、设备及存储介质
CN111223476B (zh) 语音特征向量的提取方法、装置、计算机设备和存储介质
CN112199473A (zh) 一种知识问答系统中的多轮对话方法与装置
CN111767394A (zh) 一种基于人工智能专家系统的摘要提取方法及装置
CN111832318A (zh) 单语句自然语言处理方法、装置、计算机设备及可读存储介质
TWI752406B (zh) 語音辨識方法、語音辨識裝置、電子設備、電腦可讀存儲介質及電腦程式產品
CN111428011B (zh) 词语的推荐方法、装置、设备及存储介质
US20210201895A1 (en) Method and apparatus for outputting analysis abnormality information in spoken language understanding
CN110675865B (zh) 用于训练混合语言识别模型的方法和装置
CN117574906B (zh) 命名实体识别方法、装置及设备
CN111063337B (zh) 可快速更新语言模型的大规模语音识别方法及系统
CN111477212B (zh) 内容识别、模型训练、数据处理方法、系统及设备
CN114386407B (zh) 文本的分词方法及装置
CN117574906A (zh) 命名实体识别方法、装置及设备
CN113689860B (zh) 语音识别模型的训练、语音识别方法、装置及设备
CN108664511B (zh) 获取网页信息方法和装置
CN114860872A (zh) 数据处理方法、装置、设备以及存储介质
CN114706943A (zh) 意图识别的方法、装置、设备和介质
CN114595332A (zh) 文本分类的预测方法、装置和电子设备
CN114626388A (zh) 意图识别方法、装置、电子设备及存储介质
CN110502741B (zh) 中文文本的识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant