CN116842951A - 命名实体识别方法、装置、电子设备及存储介质 - Google Patents
命名实体识别方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116842951A CN116842951A CN202310762747.XA CN202310762747A CN116842951A CN 116842951 A CN116842951 A CN 116842951A CN 202310762747 A CN202310762747 A CN 202310762747A CN 116842951 A CN116842951 A CN 116842951A
- Authority
- CN
- China
- Prior art keywords
- entity
- target
- text
- large language
- language models
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000012549 training Methods 0.000 claims description 65
- 238000004590 computer program Methods 0.000 claims description 17
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 10
- 238000012545 processing Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000008520 organization Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及人工智能技术领域,提供了一种命名实体识别方法、装置、电子设备及存储介质。该方法包括:获取待识别文本;通过预先设置的N个大语言模型,对所述待识别文本的命名实体进行识别,得到N个备选实体识别结果,其中N个大语言模型所对应的权重不同;根据所述N个备选实体识别结果和所述N个大语言模型分别对应的权重,得到目标实体识别结果。本实施例提高了命名实体的识别准确性。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种命名实体识别方法、装置、电子设备及存储介质。
背景技术
命名实体识别是自然语言处理中一项基础性的关键任务,是关系抽取、事件抽取、知识图谱、信息提取、问答系统、机器翻译等诸多自然语言处理任务的基础,被广泛应用在自然语言处理领域,在自然语言处理技术走向实用化的过程中占据重要地位。命名实体一般有两种划分:三大类和七小类;三大类是指实体类、时间类和数字类。七小类是指人名、地名、组织机构名、时间、日期、货币量和百分数。随着智能化和数字化技术的发展,智能化的设备也深入便捷人们生活,例如智能手机智能机器人都支持语音对话,在不同场合下会使用到不同的命名实体,可见命名实体在对话中一般都是十分重要的一部分,如果不能正确的理解与匹配,会阻碍人机对话给用户带来不好的体验。
当前,常用的命名实体识别的方法主要是基于词典的方法,但词典标注老旧,容易覆盖不全,又经常有许多新的命名实体的涌现,在实际的应用中,会出现命名实体识别不准确的问题。
所以,现有技术中存在对命名实体识别准确率不高的问题。
发明内容
有鉴于此,本申请实施例提供了一种命名实体识别方法、装置、电子设备及存储介质,以解决现有技术中存在对命名实体识别准确率不高的问题。
本申请实施例的第一方面,提供了一种命名实体识别方法,包括:
获取待识别文本;
通过预先设置的N个大语言模型,对所述待识别文本的命名实体进行识别,得到N个备选实体识别结果,其中N个大语言模型所对应的权重不同;
根据所述N个备选实体识别结果和所述N个大语言模型分别对应的权重,得到目标实体识别结果。
本申请实施例的第二方面,提供了一种命名实体装置,包括:
获取模块,用于获取待识别文本;
识别模块,用于通过预先设置的N个大语言模型,对所述待识别文本的命名实体进行识别,得到N个备选实体识别结果,其中N个大语言模型所对应的权重不同;
确定模块,用于根据所述N个备选实体识别结果和所述N个大语言模型分别对应的权重,得到目标实体识别结果。
本申请实施例的第三方面,提供了一种电子设备,包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述方法的步骤。
本申请实施例的第四方面,提供了一种可读存储介质,该可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
本申请实施例的有益效果是:
通过预先设置的N个大语言模型,对待识别文本的命名实体进行识别,得到N个备选实体识别结果,其中N个大语言模型所对应的权重不同,根据N个备选实体识别结果和N个大语言模型分别对应的权重,得到目标实体识别结果。由于预先设置的N个大语言模型的权重不同,且每个大语言模型均能够得到一个备选实体识别结果,充分利用了大语言模型的能力,且实现了对待识别文本利用N个备选实体识别结果以及权重得到目标实体识别结果,提高了命名实体识别的能力,从而解决了现有技术中对命名实体识别准确率不高的问题。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本申请实施例提供的一种命名实体的识别方法的流程示意图;
图2是本申请实施例提供的一种命名实体的识别装置的结构示意图;
图3是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
此外,需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
图1是本申请实施例提供的一种命名实体的识别方法的流程示意图。如图1所示,该命名实体的识别方法包括:
步骤101,获取待识别文本;
具体地,在命名实体识别应用过程中,首先需要获取待识别文本。本申请在此不对待识别文本的具体领域做出限制和要求。
待识别文本中可以包括待识别的命名实体。作为一个示例,命名实体可以包括人名、地名、日期、数字等。
步骤102,通过预先设置的N个大语言模型,对待识别文本的命名实体进行识别,得到N个备选实体识别结果,其中N个大语言模型所对应的权重不同。
具体地,N大于等于2。预先设置的N个大语言模型为预先根据不同的预设规则,通过训练数据集进行训练得到。
N个大语言模型所对应的权重不同,这使得N个备选实体识别结果对应的权重也不相同,从而使得能够根据该权重确定每个备选实体识别结果的可参考程度,需要说明的是,权重越高,说明备选实体识别结果的准确性越高,该备选实体识别结果的可参考程度越高。
此外,通过预先设置的N个大语言模型,对待识别文本的命名实体进行识别时,可以将待识别文本分别输入至N个大语言模型,得到每个大语言模型输出的实体识别结果,该实体识别结果即为备选实体识别结果。
这样,通过得到N个大语言模型所对应的备选实体识别结果,使得能够通过多个备选实体识别结果为目标实体识别结果提供参考,从而提高了命名实体识别的准确率。
步骤103,根据N个备选实体识别结果和N个大语言模型分别对应的权重,得到目标实体识别结果。
具体地,本步骤可以根据N个大语言模型分别对应的权重,将N个备选实体识别结果进行相应的分析聚合处理,得到最终的目标实体识别结果。
这样由于每个备选实体识别结果均具有一定的可参考性,在此基础上,通过每个大语言模型分别对应的权重和N个备选实体识别结果得到目标实体识别结果,实现了结合多个备选实体识别结果确定最终的目标实体识别结果,从而提高了目标实体识别结果的准确性。
这样,本实施例根据N个大语言模型对待识别文本分别进行命名实体识别,然后结合大语言模型的权重,将得到的N个备选实体识别结果进行分析聚合处理,从而提高了命名实体识别的能力,解决了现有技术中对命名实体识别准确率不高的问题。
此外,在使用大语言模型之前,还需要对大语言模型进行训练,下面对训练过程进行说明。
在一些实施例中,通过预先设置的N个大语言模型,对待识别文本的命名实体进行识别,得到N个备选实体识别结果之前,还包括:
获取训练数据集,其中所述训练数据集包括训练样本和训练样本对应的标签,所述标签为所述训练样本中的命名实体所对应的实体类型;
按照N个大语言模型针对输入文本和/或输出文本的预设规则,将训练样本和/或标签转换为N个目标训练样本和/或目标标签,其中N个目标训练样本和/或目标标签分别满足N个大预言模型所对应的预设规则;
根据目标训练样本和/或目标标签,对目标训练样本和/或目标标签所对应的大语言模型进行训练,得到N个大语言模型。
具体地,训练样本中包括命名实体,例如该命名实体可以为人名、地名、日期等。训练样本对应的标签为命名实体所对应的实体类型,该实体类型可以包括人名类型、地名类型、日期类型等,在此不对此进行具体限定。
例如,作为一个示例,训练样本可以为:“南京市长江大桥在1988年进行了修缮”,标签为{(1988年:date),(长江大桥:place),(place:南京市)}。
此外,为了保证大语言模型的训练准确率,训练样本的数量可以设置较多条,例如,训练样本的条数可以为至少在2000条;此外训练样本中命名实体的实体类型可以设置较多类型且较多类型较为平衡,也就是命名实体的三大类和七小类尽量兼顾。
N个大预言模型对应有不同的预设规则,该预设规则在本申请中为针对输入文本和/或输出文本所构建。根据该大语言模型针对输入文本和/或输出文本的预设规则,将训练样本和/或标签转换为对应大语言模型预设规则下的目标训练样本和/或目标标签;然后根据得到的目标训练样本和/或目标标签,对所对应的大语言模型进行训练,直到模型收敛,得到对应的大语言模型。
在实际应用中,对应有多少个预设规则,则会得到相应数量的大语言模型。例如,有3种针对输入文本和/或输出文本的预设规则,最终可训练得到3个大语言模型。
按照N个大语言模型针对输入文本和/或输出文本的预设规则,将训练样本和/或标签转换为N个目标训练样本和/或目标标签,使得通过训练能够得到N个不同的大语言模型。
在一些实施例中,N个大语言模型包括第一大语言模型、第二大语言模型和第三大语言模型;
第一大语言模型所对应的预设规则包括:输入文本包括训练样本和提示文本的情况下,提示文本的输入语言包括至少两种语言;
第二大语言模型所对应的预设规则包括:输出文本的输出格式为预设结构化数据格式;
第三大语言模型所对应的预设规则包括:输入文本和输出文本的文本格式均为代码格式。
第一大语言模型所对应的预设规则为:在输入大语言模型的输入文本包括训练样本和提示文本的情况下,提示文本的输入语言至少包括两种语言。具体的,对于大语言模型的使用,一个好的提示文本可以让模型更好的理解问题并且生成需要的结果。不同的提示文本输入,可以有不同的效果。当前的大语言模型,可以用自然语言对输入文本进行描述,得到希望的结果。但采用自然语言需要考虑到语种的问题,而受到模型的开发者和训练数据的影响,一般而言,英文的数据和效果都比较好,因此选择语言描述的时候可以考虑使用英文。
例如,提示文本的输入语言可以设置为英文与中文,作为一个示例,提示文本为英文时,输入文本可以为{extract named entities from the input_text.input_text is"南京市长江大桥在1988年进行了修缮。"},提示文本为中文时,输入文本可以为{对输入的文本进行命名实体识别的处理。输入的文本是"南京市长江大桥在1988年进行了修缮。"}。需要说明的是,提示文本的输入语言还可以是法语、俄语、日语等,根据具体情况而定,提示文本的输入语言的语种在此不作限制。此时,命名实体识别的结果可以为地点:南京市、长江大桥;时间:1988年。
第二大语言模型所对应的预设规则为:输出文本的输出格式为预设结构化数据格式,即将大语言模型的输出文本的输出格式转化为预设结构化数据格式。具体的,大语言模型本身很多时候对于输出的结果(内容和结构)并不可控,有时候会得到不合适的结果,因此需要对输出的结果进行限制。但是对于结果的限制,语言描述比较繁琐和复杂,此时可以采用常用的预设结构化数据格式其中,预设数据格式可以包括轻量级的数据交互格式(JavaScript Object Notation,json)、可拓展标记语言(Extensible Markup Language,xml)或key-value格式等。
例如,作为一个示例,输入文本为{对输入的文本进行命名实体识别的处理。并且返回的格式需要是json格式。输入的文本是"南京市长江大桥在1988年进行了修缮。"},则输出文本可以为{"entities":[{"name":"南京市","type":"Location"},{"name":"长江大桥","type":"Location"},{"name":"1988年","type":"Date"}]}。需要说明的是,将输出文本的输出格式具体设置为哪一种还需结合具体需求做出选择,例如若对输出文本的描述性要求较高,则预设结构化数据格式为xml结构。
当前的大语言模型不仅有普通的文本的数据的训练,还有利用了大量的代码的训练(例如来自各种开源的项目)。通过代码的训练,模型本身获得比较长程的理解能力和思维链能力。代码的形式能在模型中体现出来,所以可以使用代码来描述命名体识别的任务,进而继续补充结果。因此本申请中第三大语言模型所对应的预设规则为:输入文本和所述输出文本的文本格式均为代码格式,即将输入文本和输出文本的文本格式均转化为用计算机语言描述,其中计算机语言包括Python、java、perl等语言。
由于python语言是一门解释型语言加上其在计算机领域的广泛使用,可以选择将大语言模型的输入文本和输出文本转化为用Python描述。
例如,作为一个示例,输入文本为:
def named_entity_recognition(input_text):
#extract named entities form the input_text
input_text="南京市长江大桥在1988年进行了修缮。."
nentity_list={}
#extracted named entities
输出结果为:
nentity_list["place"]=["南京市","长江大桥"]
nentity_list["time"]=["1988年"]
return entity_list
这样通过上述预设规则,提高了大语言模型的识别准确率。
此外,在一些实施例中,根据目标训练样本和/或目标标签,对目标训练样本和/或目标标签所对应的大语言模型进行训练,得到N个大语言模型之后,还包括:
根据标签和N个大语言模型的输出文本,确定N个大语言模型对命名实体的识别准确率;根据识别准确率,确定N个大语言模型所对应的权重,其中权重与识别准确率成正比。
具体地,根据标签和N个大语言模型的输出文本,确定N个大语言模型对命名实体的识别准确率时,可以确定与标签相同的输出文本与所有输出文本的比值,并将该比值确定为大语言识别模型的识别准确率。
此外,本实施例根据识别准确率,确定N个大语言模型所对应的权重时,可以将识别准确率之间的比值确定为N个大语言模型所对应权重之间的比值,还可以将识别准确率进行归一化,并将归一化后的值确定为大语言模型的权重。
权重越大,表示影响越大,代表了大语言模型的可信度,因此一个大语言模型的权重与其识别准确率成正比,即大语言模型对应的识别准确率越高,大语言模型对应的权重越高。
这样根据大语言模型的识别准确率确定N个大语言模型所对应的权重,使得所确定的权重能够反应大语言识别模型的重要性以及准确性。
在一些实施例中,通过预先设置的N个大语言模型,对待识别文本的命名实体进行识别,得到N个备选实体识别结果之前,还包括:
根据待识别文本,得到与N个大语言模型的预设规则对应的N个目标输入文本;将每个目标输入文本分别输入至与每个目标输入文本所对应的大语言模型中,得到每个大语言模型输出的备选实体识别结果。
具体地,N个目标输入文本为待识别文本分别根据N个大语言模型的预设规则所得到的。在有三种对应预设规则的情况下,可以得到三个目标输入文本,此时三个目标输入文本可以分别为第一目标输入文本、第二目标输入文本和第三目标输入文本。
将第一目标输入文本、第二目标输入文本和第三目标输入文本分别输入至对应的第一大语言模型、第二大语言模型和第三大语言模型,得到每个大语言模型输出的备选实体识别结果。
在一些实施例中,备选实体识别结果包括待识别文本中至少一个命名实体所对应的实体类型;
根据N个备选实体识别结果和N个大语言模型分别对应的权重,得到目标实体识别结果,包括:
根据每个大语言模型分别对应的权重,确定所有备选实体识别结果中每个实体类型所对应的分数值;根据每个实体类型所对应的分数值,确定所述目标实体识别结果。
具体地,备选实体识别结果包括待识别文本中的至少一个命名实体以及所对应的实体类型。例如,假设待识别文本为“南京市长江大桥在1988年进行了修缮”,通过第一大语言模型得到的备选命名实体结果为{(1988年:date),(南京市长江大桥:place)};通过第二大语言模型得到的备选命名实体结果为{(1988年:date),(南京市长江大桥:person)}。
对于任何一个待识别文本,输出的结果可以汇总转化为key-value的结果。key值为句子中的命名实体,value为实体类型。每个key-value对都对应有权重,该权重为大语言模型对应的权重。此时,根据每个大语言模型分别对应的权重,确定所有备选实体识别结果中每个实体类型所对应的分数值时,可以将同一个命名实体的实体类型所对应权重进行加和,并将和值作为分数值,然后将最高分数值对应的实体类型作为最终的识别结果;当然还可以将实体类型所对应权重作为分数值,并将最大分数值对应的实体类型作为最终的识别结果。
分数值在本申请中可被理解为权重的数字化表达。每个大语言模型经测试后都能得到其对应的权重与分数值。
例如,接续上述示例,假设第一大语言模型所得的备选实体识别结果的分数值为0.8,第二大语言模型所得的备选实体识别结果分数值为0.7,汇总计算后,(1988年:date)得分为1.5,(南京市长江大桥:place)得分为0.8,(南京市长江大桥:person)得分为0.7,此时可以确定南京市长江大桥识别为place的得分更高,因此可以目标实体识别结果为(1988年:date)和(南京市长江大桥:place)。
通过N个大语言模型输出的N个备选实体识别结果和每个实体类型所对应的分数值,确定目标实体识别结果,实现了多个备选实体识别结果以及其所对应的分数值为目标实体识别结果的确定提供了参考,增加了命名实体识别的准确率。
在一些实施例中,根据N个备选实体识别结果和N个大语言模型分别对应的权重,得到目标实体识别结果之后,还包括:
针对目标命名实体识别结果中的每个命名实体,将命名实体和预设类型作为搜索词对所述命名实体进行网络搜索,得到命名实体为所述预设类型的第一结果条数;
将命名实体和用于提示未知类型的提示词作为搜索词对所述命名实体进行网络搜索,得到第二结果条数;
根据第一结果条数和所述第二结果条数,确定目标实体识别结果的置信度;
在所述置信度大于预设阈值的情况下,将目标实体识别结果确定为最终实体结果。
具体地,上述预设类型根据实际情况进行设定,例如,预设类型可以为人物、地点、时间等,本申请对此不做过多限制;上述第一结果条数可以用来表示该命名实体为该预设类型的热度频次;上述未知类型可以直接设置为“什么”,则相应的将命名实体和用于提示未知类型的提示词为“该命名实体是什么”。例如,作为一个示例,可以以“命名实体是个人物”为搜索词,利用互联网搜索引进行搜索,返回找到的相关结果数,该数值表征了命名实体可能是个人名的热度频次;以“命名实体是个地点”为搜索词进行搜索,返回相关结果数,该数值表征了命名实体可能是个地名的热度频次;以“命名实体是个组织”为搜索词进行搜索,返回找到的相关结果数,该数值表征了命名实体可能是个机构名的热度频次;以“命名实体是个什么”为搜索词进行搜索,返回找到的相关结果数,该数值表征了命名实体是个普通词的热度频次。
置信度可以理解为可信度。根据第一结果条数和第二结果条数确定目标实体识别结果的置信度时,在预设类型为多个的情况下,可以从多个预设类型对应的多个第一结果条数中选择最大值,并计算该最大值与第二结果条数的比值,该比值表示了一种可能性关系,当该比值小于预设比值时,可以确定其相应的置信度大于预设阈值。例如,预设比值可以设置为0.01,相应的置信度为95%,此时将目标实体识别结果确定为最终实体结果。
在得到目标实体识别结果后,通过获取置信度,再根据置信度判断目标实体识别结果是否为最终实体结果,实现了对目标实体识别结果的进一步验证,提高了命名实体识别的准确率。
上述所有可选技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
图2是本申请实施例提供的一种命名实体识别装置的示意图。如图2所示,该命名实体识别装置包括:
获取模块201,用于获取待识别文本;
识别模块202,用于通过预先设置的N个大语言模型,对所述待识别文本的命名实体进行识别,得到N个备选实体识别结果,其中N个大语言模型所对应的权重不同;
确定模块203,用于根据所述N个备选实体识别结果和所述N个大语言模型分别对应的权重,得到目标实体识别结果。
根据本申请实施例提供的技术方案,通过获取模块201获取待识别文本,;在通过识别模块202根据预先设置的N个大语言模型,对待识别文本的命名实体进行识别,得到N个备选实体识别结果,其中N个大语言模型所对应的权重不同;确定模块203用于根据N个备选实体识别结果和N个大语言模型分别对应的权重,得到目标实体识别结果,提高了命名实体识别的能力,从而解决现有技术中对命名实体识别准确率不高的问题。
在一些实施例中,命名实体识别装置还包括训练模块,用于获取训练数据集,其中训练数据集包括训练样本和训练样本对应的标签,所述标签为所述训练样本中的实体所对应的实体类型;按照N个所述大语言模型针对输入文本和/或输出文本的预设规则,将训练样本和/或标签转换为N个目标训练样本和/或目标标签,其中N个目标训练样本和/或目标标签分别满足N个大预言模型所对应的预设规则;根据目标训练样本和/或目标标签,对目标训练样本和/或目标标签所对应的大语言模型进行训练,得到N个大语言模型。
在一些实施例中,N个大语言模型包括第一大语言模型、第二大语言模型和第三大语言模型;第一大语言模型所对应的预设规则包括:输入文本包括训练样本和提示文本的情况下,提示文本的输入语言包括至少两种语言;第二大语言模型所对应的预设规则包括:输出文本的输出格式为预设结构化数据格式;第三大语言模型所对应的预设规则包括:输入文本和所述输出文本的文本格式均为代码格式。
在一些实施例中,命名实体识别装置还包括权重获取模块,用于根据标签和N个大语言模型的输出文本,确定N个大语言模型对命名实体的识别准确率;根据识别准确率,确定N个大语言模型所对应的权重,其中权重与识别准确率成正比。
在一些实施例中,命名实体识别装置还包括文本转换模块,用于根据待识别文本,得到与N个大语言模型的预设规则对应的N个目标输入文本;将每个目标输入文本分别输入至与每个目标输入文本所对应的大语言模型中,得到每个大语言模型输出的备选实体识别结果。
在一些实施例中,备选实体识别结果包括待识别文本中至少一个实体所对应的实体类型;所述确定模块具体用于,根据每个大语言模型分别对应的权重,确定所有备选实体识别结果中每个实体类型所对应的分数值;根据每个实体类型所对应的分数值,确定目标实体识别结果。
在一些实施例中,命名实体识别装置还包括验证模块,用于针对目标实体识别结果中的每个命名实体,将命名实体和预设类型作为搜索词对实体进行网络搜索,得到命名实体为预设类型的第一结果条数;将命名实体和用于提示未知类型的提示词作为搜索词对命名实体进行网络搜索,得到第二结果条数;根据第一结果条数和第二结果条数,确定目标实体识别结果的置信度;在置信度大于预设阈值的情况下,将目标实体识别结果确定为最终实体结果。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
图3是本申请实施例提供的电子设备3的示意图。如图3所示,该实施例的电子设备3包括:处理器301、存储器302以及存储在该存储器302中并且可在处理器301上运行的计算机程序303。处理器301执行计算机程序303时实现上述各个方法实施例中的步骤。或者,处理器301执行计算机程序303时实现上述各装置实施例中各模块/单元的功能。
电子设备3可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子设备。电子设备3可以包括但不仅限于处理器301和存储器302。本领域技术人员可以理解,图3仅仅是电子设备3的示例,并不构成对电子设备3的限定,可以包括比图示更多或更少的部件,或者不同的部件。
处理器301可以是中央处理单元(Central Processing Unit,CPU),也可以是其它通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
存储器302可以是电子设备3的内部存储单元,例如,电子设备3的硬盘或内存。存储器302也可以是电子设备3的外部存储设备,例如,电子设备3上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。存储器302还可以既包括电子设备3的内部存储单元也包括外部存储设备。存储器302用于存储计算机程序以及电子设备所需的其它程序和数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可以存储在可读存储介质中,该计算机程序在被处理器执行时,可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是,可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如,在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种命名实体的识别方法,其特征在于,包括:
获取待识别文本;
通过预先设置的N个大语言模型,对所述待识别文本的命名实体进行识别,得到N个备选实体识别结果,其中N个大语言模型所对应的权重不同;
根据所述N个备选实体识别结果和所述N个大语言模型分别对应的权重,得到目标实体识别结果。
2.根据权利要求1所述的方法,其特征在于,所述通过预先设置的N个大语言模型,对所述待识别文本的命名实体进行识别,得到N个备选实体识别结果之前,还包括:
获取训练数据集,其中所述训练数据集包括训练样本和所述训练样本对应的标签,所述标签为所述训练样本中的命名实体所对应的实体类型;
按照N个所述大语言模型针对输入文本和/或输出文本的预设规则,将所述训练样本和/或所述标签转换为N个目标训练样本和/或目标标签,其中N个所述目标训练样本和/或所述目标标签分别满足N个所述大预言模型所对应的预设规则;
根据所述目标训练样本和/或目标标签,对所述目标训练样本和/或目标标签所对应的大语言模型进行训练,得到所述N个大语言模型。
3.根据权利要求2所述的方法,其特征在于,N个所述大语言模型包括第一大语言模型、第二大语言模型和第三大语言模型;
所述第一大语言模型所对应的预设规则包括:所述输入文本包括训练样本和提示文本的情况下,所述提示文本的输入语言包括至少两种语言;
所述第二大语言模型所对应的预设规则包括:所述输出文本的输出格式为预设结构化数据格式;
所述第三大语言模型所对应的预设规则包括:所述输入文本和所述输出文本的文本格式均为代码格式。
4.根据权利要求2所述的方法,其特征在于,所述根据所述目标训练样本和/或目标标签,对所述目标训练样本和/或所述目标标签所对应的大语言模型进行训练,得到所述N个大语言模型之后,还包括:
根据所述标签和所述N个大语言模型的输出文本,确定所述N个大语言模型对所述命名实体的识别准确率;
根据所述识别准确率,确定N个所述大语言模型所对应的权重,其中所述权重与所述识别准确率成正比。
5.根据权利要求2或3所述的方法,其特征在于,所述通过预先设置的N个大语言模型,对所述待识别文本的命名实体进行识别,得到N个备选实体识别结果之前,还包括:
根据所述待识别文本,得到与N个所述大语言模型的预设规则对应的N个目标输入文本;
将每个所述目标输入文本分别输入至与每个所述目标输入文本所对应的大语言模型中,得到每个所述大语言模型输出的备选实体识别结果。
6.根据权利要求1或4所述的方法,其特征在于,所述备选实体识别结果包括所述待识别文本中至少一个命名实体所对应的实体类型;
所述根据所述N个备选实体识别结果和所述N个大语言模型分别对应的权重,得到目标实体识别结果,包括:
根据每个所述大语言模型分别对应的权重,确定所有所述备选实体识别结果中每个所述实体类型所对应的分数值;
根据每个所述实体类型所对应的分数值,确定所述目标实体识别结果。
7.根据权利要求1所述的方法,其特征在于,所述根据所述N个备选实体识别结果和所述N个大语言模型分别对应的权重,得到目标实体识别结果之后,还包括:
针对所述目标实体识别结果中的每个命名实体,将所述命名实体和预设类型作为搜索词对所述命名实体进行网络搜索,得到所述命名实体为所述预设类型的第一结果条数;
将所述命名实体和用于提示未知类型的提示词作为搜索词对所述命名实体进行网络搜索,得到第二结果条数;
根据所述第一结果条数和所述第二结果条数,确定所述目标实体识别结果的置信度;
在所述置信度大于预设阈值的情况下,将所述目标实体识别结果确定为最终实体结果。
8.一种命名实体的识别装置,其特征在于,包括:
获取模块,用于获取待识别文本;
识别模块,用于通过预先设置的N个大语言模型,对所述待识别文本的命名实体进行识别,得到N个备选实体识别结果,其中N个大语言模型所对应的权重不同;
确定模块,用于根据所述N个备选实体识别结果和所述N个大语言模型分别对应的权重,得到目标实体识别结果。
9.一种电子设备,包括存储器、处理器以及存储在所述存储器中并且可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述方法的步骤。
10.一种可读存储介质,所述可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310762747.XA CN116842951A (zh) | 2023-06-26 | 2023-06-26 | 命名实体识别方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310762747.XA CN116842951A (zh) | 2023-06-26 | 2023-06-26 | 命名实体识别方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116842951A true CN116842951A (zh) | 2023-10-03 |
Family
ID=88169996
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310762747.XA Pending CN116842951A (zh) | 2023-06-26 | 2023-06-26 | 命名实体识别方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116842951A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117151829A (zh) * | 2023-10-31 | 2023-12-01 | 阿里健康科技(中国)有限公司 | 导购决策树的构建方法、装置、设备和存储介质 |
CN117633174A (zh) * | 2023-11-22 | 2024-03-01 | 北京万物可知技术有限公司 | 一种基于多个大模型对话的表决共识系统 |
CN117744837A (zh) * | 2023-12-29 | 2024-03-22 | 支付宝(杭州)信息技术有限公司 | 一种模型训练、文本检测方法、装置、存储介质及设备 |
-
2023
- 2023-06-26 CN CN202310762747.XA patent/CN116842951A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117151829A (zh) * | 2023-10-31 | 2023-12-01 | 阿里健康科技(中国)有限公司 | 导购决策树的构建方法、装置、设备和存储介质 |
CN117151829B (zh) * | 2023-10-31 | 2024-02-13 | 阿里健康科技(中国)有限公司 | 导购决策树的构建方法、装置、设备和存储介质 |
CN117633174A (zh) * | 2023-11-22 | 2024-03-01 | 北京万物可知技术有限公司 | 一种基于多个大模型对话的表决共识系统 |
CN117744837A (zh) * | 2023-12-29 | 2024-03-22 | 支付宝(杭州)信息技术有限公司 | 一种模型训练、文本检测方法、装置、存储介质及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110781276B (zh) | 文本抽取方法、装置、设备及存储介质 | |
CN108121700B (zh) | 一种关键词提取方法、装置及电子设备 | |
US20200058291A1 (en) | Method and apparatus for identifying key phrase in audio, device and medium | |
CN110727779A (zh) | 基于多模型融合的问答方法及系统 | |
CN116842951A (zh) | 命名实体识别方法、装置、电子设备及存储介质 | |
CN111046656B (zh) | 文本处理方法、装置、电子设备及可读存储介质 | |
CN110334186B (zh) | 数据查询方法、装置、计算机设备及计算机可读存储介质 | |
KR20110083623A (ko) | 음역을 위한 기계 학습 | |
CN112632226B (zh) | 基于法律知识图谱的语义搜索方法、装置和电子设备 | |
Sun et al. | Chinese new word identification: a latent discriminative model with global features | |
Jayan et al. | A hybrid statistical approach for named entity recognition for malayalam language | |
CN112148862B (zh) | 一种问题意图识别方法、装置、存储介质及电子设备 | |
CN113220835A (zh) | 文本信息处理方法、装置、电子设备以及存储介质 | |
CN112036186A (zh) | 语料标注方法、装置、计算机存储介质及电子设备 | |
CN112528653B (zh) | 短文本实体识别方法和系统 | |
CN110705285B (zh) | 一种政务文本主题词库构建方法、装置、服务器及可读存储介质 | |
CN110750967B (zh) | 一种发音的标注方法、装置、计算机设备和存储介质 | |
CN117371406A (zh) | 基于大型语言模型的注释生成方法、装置、设备及介质 | |
Chopra et al. | Named entity recognition in Punjabi using hidden Markov model | |
US20220366135A1 (en) | Extended open information extraction system | |
Sun et al. | Detecting new words from Chinese text using latent semi-CRF models | |
CN115470790A (zh) | 一种识别文件中的命名实体的方法和装置 | |
CN114842982A (zh) | 一种面向医疗信息系统的知识表达方法、装置及系统 | |
CN114818716A (zh) | 一种风险主体的识别方法、装置、存储介质及设备 | |
CN111401034B (zh) | 文本的语义分析方法、语义分析装置及终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |