CN113378570B - 一种实体识别模型的生成方法、计算设备及可读存储介质 - Google Patents
一种实体识别模型的生成方法、计算设备及可读存储介质 Download PDFInfo
- Publication number
- CN113378570B CN113378570B CN202110617986.7A CN202110617986A CN113378570B CN 113378570 B CN113378570 B CN 113378570B CN 202110617986 A CN202110617986 A CN 202110617986A CN 113378570 B CN113378570 B CN 113378570B
- Authority
- CN
- China
- Prior art keywords
- entity
- data set
- recognition model
- entity recognition
- annotation data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 238000002372 labelling Methods 0.000 claims abstract description 44
- 238000012549 training Methods 0.000 claims abstract description 37
- 230000015654 memory Effects 0.000 claims description 21
- 239000013598 vector Substances 0.000 claims description 18
- 238000012360 testing method Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 6
- 102100033814 Alanine aminotransferase 2 Human genes 0.000 claims description 5
- 101710096000 Alanine aminotransferase 2 Proteins 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000004891 communication Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000009193 crawling Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000007723 transport mechanism Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 238000011068 loading method Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Animal Behavior & Ethology (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种实体识别模型的生成方法,在计算设备中执行,包括步骤:基于知识图谱生成实体集合以及实体集合中各实体之间的关系;每次从实体集合中获取至少一个目标实体,将目标实体以及目标实体之间的关系输入到文本生成模型,以生成包含目标实体的文本语句,从而得到多个文本语句;基于多个文本语句生成第一标注数据集;以及基于第一标注数据集,对待训练的实体识别模型进行训练,得到训练好的实体识别模型。本发明一并公开了相应的计算设备及可读存储介质。
Description
技术领域
本发明涉及自然语言处理领域,尤其涉及一种实体识别模型的生成方法、计算设备及可读存储介质。
背景技术
近年来,随着知识图谱的应用在各个垂直领域的兴起,积累了包含大量知识量的知识图谱。在数据量的爆炸式增长的背景下,需要持续地从大量的非结构化的数据中挖掘出新的知识对知识图谱进行完善。在知识图谱领域中,命名实体识别是信息抽取、信息检索、机器翻译、以及问答系统等多种自然语言处理技术必不可少的技术。
传统的命名实体识别大多采用有监督的机器学习,其实体标注的训练主要来源于人工标注,会耗费大量的人力和时间成本。当前的采用远监督的方法生成实体标注训练集的方法,例如对百度百科等网页数据进行爬取,然后进行人为统计和分析数据,从而通过规则处理生成训练集,该方法虽然能够节约一定人力和时间成本,但是会由于统计的规则不全等因素导致脏数据的出现,以及训练数据的来源单一,致使命名实体识别在实际应用中的效果不理想。
因此,需要一种能够依赖较少已标注数据集就可以提供较高精确率的实体识别模型的生成方法。
发明内容
为此,本发明提供了一种实体识别模型的生成方法、计算设备及可读存储介质,以力图解决或者至少缓解上面存在的至少一个问题。
根据本发明的一个方面,提供了一种实体识别模型的生成方法,在计算设备中执行,包括步骤:基于知识图谱生成实体集合以及所述实体集合中各实体之间的关系;每次从所述实体集合中获取至少一个目标实体,将目标实体以及目标实体之间的关系输入到文本生成模型,以生成包含目标实体的文本语句,从而得到多个文本语句;基于所述多个文本语句生成第一标注数据集;以及基于所述第一标注数据集,对待训练的实体识别模型进行训练,得到训练好的实体识别模型。
可选地,在根据本发明的实体识别模型的生成方法中,还包括:利用训练好的实体识别模型分别对真实语料库中的各文本语句进行实体识别;基于实体识别结果生成第二标注数据集;利用第二标注数据集对第一标注数据集进行扩充;基于扩充后的第一标注数据集,对所述训练好的实体识别模型进行进一步训练,得到最终的实体识别模型。
可选地,在根据本发明的实体识别模型的生成方法中,所述文本生成模型为LSTM、GAN、GPT-2中的任一个。
可选地,在根据本发明的实体识别模型的生成方法中,所述基于所述多个文本语句生成第一标注数据集的步骤,包括:将目标实体与文本语句进行字符串匹配,以确定目标实体在文本语句中的位置;对所述多个文本语句进行目标实体位置的标注;将标注好的文本语句添加到所述第一标注数据集。
可选地,在根据本发明的实体识别模型的生成方法中,所述实体识别模型包括BERT层、BiLSTM层以及CRF层。
可选地,在根据本发明的实体识别模型的生成方法中,所述利用第二标注数据集对第一标注数据集进行扩充的步骤包括:针对第一标注数据集和第二标注数据集中的每个文本语句,将所述每个文本语句中的实体替换为该实体对应的实体类型,分别得到第一标注数据集和第二标注数据集的模式语句;利用特征提取模型分别从第一标注数据集的模式语句和第二标注数据集的模式语句中提取语义特征向量;将第一标注数据集对应的语义特征向量和第二标注数据集的对应的语义特征向量两两进行相似度计算;如果相似度计算得分大于第一预定值,则将该第二标注数据集的模式语句对应的标注数据添加到所述第一标注数据集。
可选地,在根据本发明的实体识别模型的生成方法中,所述相似度采用余弦相似度。
可选地,在根据本发明的实体识别模型的生成方法中,所述特征提取模型为BERT模型。
可选地,在根据本发明的实体识别模型的生成方法中,所述基于扩充后的第一标注数据集,对所述训练好的实体识别模型进行进一步训练,得到最终的实体识别模型的步骤,包括:将扩充后的第一标注数据集作为训练集,对所述训练好的实体识别模型进行进一步训练;选取扩充前的第一标注数据集中的一部分标注数据作为测试数据集,对进一步训练的实体识别模型进行测试,得到F1值;当对对所述训练好的实体识别模型进行进一步训练的迭代次数达到预设次数,或者,F1值小于第二预定值时,停止进一步训练,得到最终的实体识别模型。
根据本发明的另一个方面,提供一种计算设备,包括:一个或多个处理器;和存储器;一个或多个程序,其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行上述实体识别模型的生成方法的指令。
根据本发明的还有一个方面,还提供一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当计算设备执行时,使得所述计算设备执行上述实体识别模型的生成方法。
根据本发明的实体识别模型的生成方法,基于知识图谱提取实体和各实体之间的关系,通过文本生成模型生成文本语句,并进一步生成第一标注数据集,以训练待训练的实体识别模型;在实体识别模型的生成和训练过程中,无需人工进行实体识别训练集的标注,有效节省了人力和时间成本。在基于知识图谱生成的训练好的实体识别模型的基础上,进一步对该模型进行训练,以达到更好的模型识别准确度。
另外,通过将获取的真实语料库中的文本输入到训练好的实体识别模型,利用实体识别的结果生成第二标注数据集,经过筛选,对训练集(第一标注数据集)进行不断地扩充,通过扩充后的训练集对训练好的实体识别模型进行训练,使实体识别模型不断地迭代优化,提高实体识别模型识别的精确度。本方案采用了真实语料库加入模型的训练,提高了实体识别模型对在真实文本中进行识别的精确度。
附图说明
为了实现上述以及相关目的,本文结合下面的描述和附图来描述某些说明性方面,这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述,本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开,相同的附图标记通常指代相同的部件或元素。
图1示出了根据本发明一个实施例的计算设备100的示意图;
图2示出了根据本发明一个实施例的实体识别模型的生成方法200的流程图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了根据本发明一个实施例的计算设备100的示意图。需要说明的是,图1所示的计算设备100仅为一个示例,在实践中,用于实施本发明的数据搜索方法的计算设备可以是任意型号的设备,其硬件配置情况可以与图1所示的计算设备100相同,也可以与图1所示的计算设备100不同。实践中用于实施本发明的数据搜索方法的计算设备可以对图1所示的计算设备100的硬件组件进行增加或删减,本发明对计算设备的具体硬件配置情况不做限制。
如图1所示,在基本的配置102中,计算设备100典型地包括系统存储器106和一个或者多个处理器104。存储器总线108可以用于在处理器104和系统存储器106之间的通信。
取决于期望的配置,处理器104可以是任何类型的处理,包括但不限于:微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器104可以包括诸如一级高速缓存110和二级高速缓存112之类的一个或者多个级别的高速缓存、处理器核心114和寄存器116。示例的处理器核心114可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器118可以与处理器104一起使用,或者在一些实现中,存储器控制器118可以是处理器104的一个内部部分。
取决于期望的配置,系统存储器106可以是任意类型的存储器,包括但不限于:易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。系统存储器106可以包括操作系统120、一个或者多个应用122以及程序数据124。在一些实施方式中,应用122可以布置为在操作系统上由一个或多个处理器104利用程序数据124执行指令。操作系统120例如可以是Linux、Windows等,其包括用于处理基本系统服务以及执行依赖于硬件的任务的程序指令。应用122包括用于实现各种用户期望的功能的程序指令,应用122例如可以是浏览器、即时通讯软件、软件开发工具(例如集成开发环境IDE、编译器等)等,但不限于此。当应用122被安装到计算设备100中时,可以向操作系统120添加驱动模块。
在计算设备100启动运行时,处理器104会从存储器106中读取操作系统120的程序指令并执行。应用122运行在操作系统120之上,利用操作系统120以及底层硬件提供的接口来实现各种用户期望的功能。当用户启动应用122时,应用122会加载至存储器106中,处理器104从存储器106中读取并执行应用122的程序指令。
计算设备100还包括储存设备132,储存设备132包括可移除储存器136和不可移除储存器138,可移除储存器136和不可移除储存器138均与储存接口总线134连接。
计算设备100还可以包括有助于从各种接口设备(例如,输出设备142、外设接口144和通信设备146)到基本配置102经由总线/接口控制器130的通信的接口总线140。示例的输出设备142包括图形处理单元148和音频处理单元150。它们可以被配置为有助于经由一个或者多个A/V端口152与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口144可以包括串行接口控制器154和并行接口控制器156,它们可以被配置为有助于经由一个或者多个I/O端口158和诸如输入设备(例如,键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备146可以包括网络控制器160,其可以被布置为便于经由一个或者多个通信端口164与一个或者多个其他计算设备162通过网络通信链路的通信。
网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块,并且可以包括任何信息递送介质。“调制数据信号”可以这样的信号,它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例,通信介质可以包括诸如有线网络或者专线网络之类的有线介质,以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。
计算设备100可以实现为包括桌面计算机和笔记本计算机配置的个人计算机,也可以实现为服务器,例如文件服务器、数据库服务器、应用程序服务器和WEB服务器等。当然,计算设备100也可以实现为小尺寸便携(或者移动)电子设备的一部分。在根据本发明的实施例中,计算设备100被配置为执行根据本发明的实体识别模型的生成方法200。计算设备100的应用122中包含执行根据本发明的方法200的多条程序指令。
图2示出了根据本发明一个实施例的实体识别模型的生成方法200的流程图。方法200适于在如上所述的计算设备100中执行。如图2所示,方法200始于步骤S210。
在步骤S210中,基于知识图谱生成实体集合以及实体集合中各实体之间的关系。
具体地,由于目前各个垂直领域都积累了大量的包含丰富知识量的知识图谱,在此可以根据需要搭建的实体识别模型的应用场景,选取目标的垂直领域的现有的知识图谱。其中,知识图谱由节点和连接不同节点的边构成,当中包含大量的实体以及不同实体之间的关系的信息。可以从所选取的知识图谱中,提取节点当中的实体,生成一个实体集合,并通过节点与节点之间连接的边,提取知识图谱当中各实体之间的关系。
另外,生成的实体集合中的每个实体都有对应的实体类型。例如,在汽车领域,<宝马>是<品牌>这一实体类型下的一个实体,<宝马X3>是<车系>这一实体类型下的一个实体。在知识图谱的schema层中,<车系>是<品牌>的一个子集,且一个<品牌>实体类型对应有多个<车系>实体类型。通过知识图谱可以提取得到某一实体对应的实体类型。
在步骤S220中,每次从实体集合中获取至少一个目标实体,将目标实体以及目标实体之间的关系输入到文本生成模型,以生成包含目标实体的文本语句,从而得到多个文本语句。其中,目标实体之间的关系可以从知识图谱中提取得到。如果只选取一个目标实体或目标实体之间不存在关系,则只将目标实体输入到文本生成模型。
其中,文本生成模型可以选取LSTM、GAN、GPT-2中的任一个。以GPT-2模型为例,利用一个预训练好的GPT-2模型,向模型中输入预定好的起始词语,即输入从实体集合中获取的至少一个目标实体,预训练好的文本生成模型随机生成包含该至少一个目标实体的文本语句。可以对文本生成模型进行微调,使模型生成特定风格或符合特定语境下的文本。
从实体集合中获取至少一个目标实体,将目标实体以及目标实体之间的关系输入到文本生成模型,得到包含目标实体的文本语句。重复这一步骤,每次从实体集合获取至少一个目标实体,将目标实体以及目标实体之间的关系输入到文本生成模型,得到包含目标实体的文本语句,可以得到多个文本语句。下面以一个例子对其进行说明,从包含实体<宝马X3>和实体<宝马>的实体集合中,获取至少一个目标实体(目标实体例如选取<宝马X3>和<宝马>),将目标实体以及目标实体之间的关系(<宝马X3>是<宝马>的一个车系)输入到文本生成模型,得到文本语句“宝马X3是宝马旗下的一款SUV”。重复这一步骤,从实体集合中获取至少一个目标实体(例如选取<宝马>)输入到文本生成模型,得到文本语句“宝马是一个德国汽车品牌”。经过两次目标实体输入文本生成模型得到文本语句的步骤之后,得到多个文本语句,“宝马X3是宝马旗下的一款SUV”和“宝马是一个德国汽车品牌”。
在步骤S230中,基于多个文本语句生成第一标注数据集。
将目标实体与文本语句进行字符串匹配,以确定目标实体在文本语句中的位置。
具体地,针对获得的多个文本语句,对每个文本语句与该文本语句对应的目标实体进行字符串匹配,检索确定目标实体在文本语句中的位置。利用实体集合中包含的目标实体对多个文本语句进行字符串匹配,例如,通过字符串匹配,利用目标实体<宝马X3>和<宝马>,对该目标实体输入文本生成模型生成的文本语句“宝马是一个德国汽车品牌”进行字符串匹配,以确定目标实体的位置。可选地,字符串匹配可以采用Brute Force、Robin-Karp、KMP算法。
可选地,采用BIO(B-begin,I-inside,O-outside)、BIOES(B-begin,I-inside,O-outside,E-end,S-single)或BMEO的实体标注方法对多个文本语句进行实体位置的标注。
在一种实施例中,采用BMEO的实体标注方法对多个文本语句进行实体位置的标注。下面以一个文本语句为例进行说明,采用BMEO的实体标注方法在文本语句中对所确定的实体位置进行标注。具体地,将文本语句中实体的开始位置标注为B;将文本语句中实体的中间位置标注为M;将文本语句中实体的结束位置标注为E;将文本语句中没有实体的位置标注为O;同时,在实体的开始位置、中间位置和结束位置标注该实体所属的实体类型。在一种实施例中,标签B-series代表实体类型<车系>对应的某一实体的开始位置,标签M-series代表实体类型<车系>对应的某一实体的中间位置,标签E-series代表实体类型<车系>对应的某一实体的结束位置,标签B-brand代表实体类型<品牌>对应的某一实体的开始位置,标签M-brand代表实体类型<品牌>对应的某一实体的中间位置,标签E-brand代表实体类型<品牌>对应的某一实体的结束位置。例如,根据实体<宝马X3>(属于实体类型<车系>)和实体<宝马>(属于实体类型<品牌>)以及实体之间的关系(宝马X3属于宝马的一个车系)生成含有<宝马X3>和<宝马>的文本语句“宝马X3是宝马旗下一款SUV车系,独具个性。”。根据BMEO的实体标注方法对该文本语句进行实体标注,标注后的文本语句如下:
B_series M_series M_series E_series O B_brand E_brand O O O O O O O OO...
宝马X3是宝马旗下一款SUV车系...
然后,采用同样的方法对多个文本语句进行实体位置的标注,标注后的多个文本语句作为第一标注数据集。
随后,在步骤S240中,基于第一标注数据集,对待训练的实体识别模型进行训练,得到训练好的实体识别模型。具体地,将第一标注数据集中包含的标注后的文本语句输入待训练的实体识别模型。
其中,待训练的实体识别模型由BERT层、BiLSTM层以及CRF层构成。实体识别模型的第一层是Bert层,该层对输入实体识别模型的文本语句进行向量表示,将文本语句转换为词嵌入向量。
实体识别模型的第二层是BiLSTM层,该层由正向和反向的长短时记忆网络(LSTM)组成。正向LSTM和反向LSTM接收BERT层输出的特征向量作为输入,分别对当前时刻的上文和下文信息进行编码,得到的编码信息合并构成待解码的得分信息,该得分信息为文本语句中每个单词对应的每个所标注的标签的得分。具体地,BiLSTM层输出的得分信息例如为,对于文本语句的一个单词,得分为1.5(B_series),0.9(M_series),0.7(E_series),0.30(B_brand),0.2(M_brand),0.2(E_brand),0.05(O);同理,对于文本语句的每一个单词,均会得到一个得分序列,得分序列包括每一个标签对应的得分;针对一个文本语句,其中,文本语句的每个单词可以得到一个得分序列。
实体识别模型的第三层为CRF层,该层的输入为第二层输出的得分信息。这一层引入了转移矩阵,在实体识别模型训练之前,可以随机初始化转移矩阵中的所有参数,在训练过程中,所有参数将会自动更新,因此无需手动构建该矩阵,随着训练迭代次数的增加,转移矩阵的参数会趋于最佳。在这一层,在文本语句中,为每个单词选择得分最高的标签,作为实体识别模型识别结果中该单词的最佳的输出。
在步骤S250中,利用训练好的实体识别模型分别对真实语料库中的各文本语句进行实体识别。其中,真实语料库可以来自于网页数据的爬取,即通过程序自动获取一些网页的内容。
随后,在步骤S260中,基于实体识别结果生成第二标注数据集。
具体地,将真实语料库中的各文本语句输入到训练好的实体识别模型得到的实体识别结果。其中,实体识别结果包括训练好的实体识别模型识别出的实体。
然后,利用识别出的实体与该实体对应的文本语句进行字符串匹配,确定该实体在文本语句中的位置;在文本语句中进行该实体位置的标注。将标注后的文本语句作为第二标注数据集的标注数据,添加到第二标注数据集中。具体的字符串匹配和标注方法记载于步骤S230中,本方案在此不做赘述。
在步骤S270中,利用第二标注数据集对第一标注数据集进行扩充。
针对第一标注数据集和第二标注数据集中的每个文本语句,将每个文本语句中的实体替换为该实体对应的实体类型,分别得到第一标注数据集和第二标注数据集的模式语句。例如,针对文本语句“宝马X3是宝马旗下一款SUV车系,独具个性。”,其中,<宝马X3>是实体类型<车系>的一个实体,<宝马>是实体类型<品牌>的一个实体,那么,将文本语句中的实体<宝马X3>替换成其对应的实体类型<车系>,将文本语句中的实体<宝马>替换成实体类型<品牌>,可以获得句子模式“车系是品牌旗下一款SUV车系,独具个性。”,同理,对各个文本语句中的实体进行实体类别的替换,得到第一标注数据集和第二标注数据集的模式语句。
然后,利用特征提取模型分别从第一标注数据集的模式语句和第二标注数据集的模式语句中提取语义特征向量,将从第一标注数据集的模式语句和第二标注数据集的模式语句中提取的语义特征向量两两进行相似度计算,即,选取的一个第一标注数据集所对应的语义特征向量与选取的。
根据一种实施例,采用BERT模型提取模式语句的语义特征向量。然后,使用余弦相似度计算两个语义特征的相似度,相似度按照以下公式确定:
其中,a为第一标注数据集的模式语句的语义特征向量,b为第二标注数据集的模式语句的语义特征向量;或者,a为第二标注数据集的模式语句的语义特征向量,b为第一标注数据集的模式语句的语义特征向量。
如果相似度计算的得分大于第一预定值,则将该第二标注数据集的模式语句对应的标注数据添加到第一标注数据集,以对第一标注数据集进行扩充。可选地,根据本方案的实施例,针对所选取的汽车领域的数据集,设定第一预定值为0.85。其中,对于第一预定值的选取本发明不作限定,在具体的实施例中,本领域的技术人员可以根据实际需要进行设定。
在步骤S280中,基于扩充后的第一标注数据集,对训练好的实体识别模型进行进一步训练,得到最终的实体识别模型。
将扩充后的第一标注数据集作为训练集,对所述训练好的实体识别模型进行进一步训练。
选取扩充前的第一标注数据集中的一部分标注数据作为测试数据集,或选取其他具有准确的实体识别结果的多个文本语句作为测试数据集。优选地,选取第一标注数据集中未被模型使用过(模型未训练过)的部分作为测试数据集。可选地,在扩充前的第一标注数据集中选取一部分数据作为验证数据集。
然后,利用扩充后的第一标注数据集,将扩充后的第一标注数据集中的文本语句输入到训练好的实体识别模型进行进一步训练,使实体识别模型不断地迭代优化,提高实体识别模型识别的精确度。
此外,在一些实施方式中,实体识别模型的训练可以采用交叉熵作为损失函数,应当指出,还可以采用其他损失函数,本发明实施例对此不做限制。
之后,基于所选取的测试数据集对进一步训练的实体识别模型进行测试,得到F1值,适于对该实体识别模型的效果进行评估。对训练好的实体识别模型进一步训练直至满足一定迭代次数或F1值足够小。当对对所述训练好的实体识别模型进行进一步训练的迭代次数达到预设次数,或者,F1值小于第二预定值时,停止进一步训练,得到最终的实体识别模型。
具体地,将F1值小于第二预定值时的实体识别模型作为最终的实体识别模型。其中,对于迭代次数和第二预定值本发明不作限定,在具体的实施例中,本领域的技术人员可以根据实际需要进行设定。可选地,采用准确率、精确率、召回率对模型的效果进行评估,使模型迭代至较好的效果,例如准确率、精确率、召回率达到一定的预定值。
根据本发明的实体识别模型的生成方法,基于知识图谱提取实体和各实体之间的关系,通过文本生成模型生成文本语句,并进一步生成第一标注数据集,以训练待训练的实体识别模型;在实体识别模型的生成和训练过程中,无需人工进行实体识别训练集的标注,有效节省了人力和时间成本。在基于知识图谱生成的训练好的实体识别模型的基础上,进一步对该模型进行训练,以达到更好的模型识别准确度。
另外,通过将获取的真实语料库中的文本输入到训练好的实体识别模型,利用实体识别的结果生成第二标注数据集,经过筛选,对训练集(第一标注数据集)进行不断地扩充,通过扩充后的训练集对训练好的实体识别模型进行训练,使实体识别模型不断地迭代优化,提高实体识别模型识别的精确度。本方案采用了真实语料库加入模型的训练,提高了实体识别模型对在真实文本中进行识别的精确度。
这里描述的各种技术可结合硬件或软件,或者它们的组合一起实现。从而,本发明的方法和设备,或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介,例如可移动硬盘、U盘、软盘、CD-ROM或者其它任意机器可读的存储介质中的程序代码(即指令)的形式,其中当程序被载入诸如计算机之类的机器,并被所述机器执行时,所述机器变成实践本发明的设备。
在程序代码在可编程计算机上执行的情况下,计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件),至少一个输入装置,和至少一个输出装置。其中,存储器被配置用于存储程序代码;处理器被配置用于根据该存储器中存储的所述程序代码中的指令,执行本发明的文档加载方法。
以示例而非限制的方式,可读介质包括可读存储介质和通信介质。可读存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据,并且包括任何信息传递介质。以上的任一种的组合也包括在可读介质的范围之内。
在此处所提供的说明书中,算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与本发明的示例一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中,或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
此外,所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此,具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外,装置实施例的在此所述的元素是如下装置的例子:该装置用于实施由为了实施该发明的目的的元素所执行的功能。
如在此所使用的那样,除非另行规定,使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例,并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。
Claims (9)
1.一种实体识别模型的生成方法,在计算设备中执行,包括步骤:
基于知识图谱生成实体集合以及所述实体集合中各实体之间的关系;
每次从所述实体集合中获取至少一个目标实体,将目标实体以及目标实体之间的关系输入到文本生成模型,以生成包含目标实体的文本语句,从而得到多个文本语句;
基于所述多个文本语句生成第一标注数据集;
基于所述第一标注数据集,对待训练的实体识别模型进行训练,得到训练好的实体识别模型;
利用训练好的实体识别模型分别对真实语料库中的各文本语句进行实体识别;
基于实体识别结果生成第二标注数据集;
利用第二标注数据集对第一标注数据集进行扩充;
基于扩充后的第一标注数据集,对所述训练好的实体识别模型进行进一步训练,得到最终的实体识别模型;
其中,所述利用第二标注数据集对第一标注数据集进行扩充的步骤包括:
针对第一标注数据集和第二标注数据集中的每个文本语句,将所述每个文本语句中的实体替换为该实体对应的实体类型,分别得到第一标注数据集和第二标注数据集的模式语句;
利用特征提取模型分别从第一标注数据集的模式语句和第二标注数据集的模式语句中提取语义特征向量;
将第一标注数据集对应的语义特征向量和第二标注数据集的对应的语义特征向量两两进行相似度计算;
如果相似度计算得分大于第一预定值,则将该第二标注数据集的模式语句对应的标注数据添加到所述第一标注数据集。
2.如权利要求1所述的方法,其中,所述文本生成模型为LSTM、GAN、GPT-2中的任一个。
3.如权利要求1或2所述的方法,其中,所述基于所述多个文本语句生成第一标注数据集的步骤,包括:
将目标实体与文本语句进行字符串匹配,以确定目标实体在文本语句中的位置;
对所述多个文本语句进行目标实体位置的标注;
将标注好的文本语句添加到所述第一标注数据集。
4.如权利要求1或2所述的方法,其中,所述实体识别模型包括BERT层、BiLSTM层以及CRF层。
5.如权利要求1或2所述的方法,其中,所述相似度采用余弦相似度。
6.如权利要求1或2所述的方法,其中,所述特征提取模型为BERT模型。
7.如权利要求1或2所述的方法,其中,所述基于扩充后的第一标注数据集,对所述训练好的实体识别模型进行进一步训练,得到最终的实体识别模型的步骤,包括:
将扩充后的第一标注数据集作为训练集,对所述训练好的实体识别模型进行进一步训练;
选取扩充前的第一标注数据集中的一部分标注数据作为测试数据集,对进一步训练的实体识别模型进行测试,得到F1值;
当对所述训练好的实体识别模型进行进一步训练的迭代次数达到预设次数,或者,F1值小于第二预定值时,停止进一步训练,得到最终的实体识别模型。
8.一种计算设备,包括:
一个或多个处理器;和
存储器;
一个或多个程序,其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行根据权利要求1-7所述方法中的任一方法的指令。
9.一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当计算设备执行时,使得所述计算设备执行根据权利要求1-7所述的方法中的任一方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110617986.7A CN113378570B (zh) | 2021-06-01 | 2021-06-01 | 一种实体识别模型的生成方法、计算设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110617986.7A CN113378570B (zh) | 2021-06-01 | 2021-06-01 | 一种实体识别模型的生成方法、计算设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113378570A CN113378570A (zh) | 2021-09-10 |
CN113378570B true CN113378570B (zh) | 2023-12-12 |
Family
ID=77575651
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110617986.7A Active CN113378570B (zh) | 2021-06-01 | 2021-06-01 | 一种实体识别模型的生成方法、计算设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113378570B (zh) |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106294762A (zh) * | 2016-08-11 | 2017-01-04 | 齐鲁工业大学 | 一种基于学习的实体识别方法 |
KR101724398B1 (ko) * | 2016-01-07 | 2017-04-18 | 서강대학교산학협력단 | 지식베이스를 이용한 개체명 인식 코퍼스 생성 시스템 및 방법 |
WO2018072563A1 (zh) * | 2016-10-18 | 2018-04-26 | 中兴通讯股份有限公司 | 一种知识图谱构建方法、装置及系统 |
CN110209836A (zh) * | 2019-05-17 | 2019-09-06 | 北京邮电大学 | 远程监督关系抽取方法及装置 |
CN110276075A (zh) * | 2019-06-21 | 2019-09-24 | 腾讯科技(深圳)有限公司 | 模型训练方法、命名实体识别方法、装置、设备及介质 |
CN110807324A (zh) * | 2019-10-09 | 2020-02-18 | 四川长虹电器股份有限公司 | 一种基于IDCNN-crf与知识图谱的影视实体识别方法 |
CN111832294A (zh) * | 2020-06-24 | 2020-10-27 | 平安科技(深圳)有限公司 | 标注数据的选择方法、装置、计算机设备和存储介质 |
CN111859966A (zh) * | 2020-06-12 | 2020-10-30 | 中国科学院信息工程研究所 | 一种面向网络威胁情报的标注语料生成方法及电子装置 |
CN111950288A (zh) * | 2020-08-25 | 2020-11-17 | 海信视像科技股份有限公司 | 一种命名实体识别中的实体标注方法及智能设备 |
CN111950269A (zh) * | 2020-08-21 | 2020-11-17 | 清华大学 | 文本语句处理方法、装置、计算机设备和存储介质 |
CN112052682A (zh) * | 2020-09-02 | 2020-12-08 | 平安资产管理有限责任公司 | 事件实体联合抽取方法、装置、计算机设备及存储介质 |
CN112347769A (zh) * | 2020-10-30 | 2021-02-09 | 北京百度网讯科技有限公司 | 实体识别模型的生成方法、装置、电子设备及存储介质 |
CN112364166A (zh) * | 2020-11-02 | 2021-02-12 | 北京中科凡语科技有限公司 | 关系抽取模型的建立方法以及关系抽取方法 |
CN112487814A (zh) * | 2020-11-27 | 2021-03-12 | 北京百度网讯科技有限公司 | 实体分类模型训练方法、实体分类方法、装置及电子设备 |
CN112560486A (zh) * | 2020-11-25 | 2021-03-26 | 国网江苏省电力有限公司电力科学研究院 | 基于多层神经网络的电力实体识别方法、存储介质和设备 |
-
2021
- 2021-06-01 CN CN202110617986.7A patent/CN113378570B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101724398B1 (ko) * | 2016-01-07 | 2017-04-18 | 서강대학교산학협력단 | 지식베이스를 이용한 개체명 인식 코퍼스 생성 시스템 및 방법 |
CN106294762A (zh) * | 2016-08-11 | 2017-01-04 | 齐鲁工业大学 | 一种基于学习的实体识别方法 |
WO2018072563A1 (zh) * | 2016-10-18 | 2018-04-26 | 中兴通讯股份有限公司 | 一种知识图谱构建方法、装置及系统 |
CN110209836A (zh) * | 2019-05-17 | 2019-09-06 | 北京邮电大学 | 远程监督关系抽取方法及装置 |
CN110276075A (zh) * | 2019-06-21 | 2019-09-24 | 腾讯科技(深圳)有限公司 | 模型训练方法、命名实体识别方法、装置、设备及介质 |
CN110807324A (zh) * | 2019-10-09 | 2020-02-18 | 四川长虹电器股份有限公司 | 一种基于IDCNN-crf与知识图谱的影视实体识别方法 |
CN111859966A (zh) * | 2020-06-12 | 2020-10-30 | 中国科学院信息工程研究所 | 一种面向网络威胁情报的标注语料生成方法及电子装置 |
CN111832294A (zh) * | 2020-06-24 | 2020-10-27 | 平安科技(深圳)有限公司 | 标注数据的选择方法、装置、计算机设备和存储介质 |
CN111950269A (zh) * | 2020-08-21 | 2020-11-17 | 清华大学 | 文本语句处理方法、装置、计算机设备和存储介质 |
CN111950288A (zh) * | 2020-08-25 | 2020-11-17 | 海信视像科技股份有限公司 | 一种命名实体识别中的实体标注方法及智能设备 |
CN112052682A (zh) * | 2020-09-02 | 2020-12-08 | 平安资产管理有限责任公司 | 事件实体联合抽取方法、装置、计算机设备及存储介质 |
CN112347769A (zh) * | 2020-10-30 | 2021-02-09 | 北京百度网讯科技有限公司 | 实体识别模型的生成方法、装置、电子设备及存储介质 |
CN112364166A (zh) * | 2020-11-02 | 2021-02-12 | 北京中科凡语科技有限公司 | 关系抽取模型的建立方法以及关系抽取方法 |
CN112560486A (zh) * | 2020-11-25 | 2021-03-26 | 国网江苏省电力有限公司电力科学研究院 | 基于多层神经网络的电力实体识别方法、存储介质和设备 |
CN112487814A (zh) * | 2020-11-27 | 2021-03-12 | 北京百度网讯科技有限公司 | 实体分类模型训练方法、实体分类方法、装置及电子设备 |
Non-Patent Citations (5)
Title |
---|
Named Entity Extraction for Knowledge Graphs: A Literature Overview;Tareq Al-Moslmi et al;IEEE Access;第8卷;32862 - 32881 * |
Semi-supervised learning for named entity recognition using weakly labeled training data;Atefeh Zafarian et al;2015 The International Symposium on Artificial Intelligence and Signal Processing;129-135 * |
基于在线百科的弱监督命名实体识别技术研究与实现;李茂龙;中国优秀硕士学位论文全文数据库信息科技辑(第2期);I138-2989 * |
面向少量标注数据的中文命名实体识别技术研究;孔玲玲;中国优秀硕士学位论文全文数据库信息科技辑(第8期);I138-1414 * |
面向用户生成内容的命名实体识别研究;杨鹏程;中国优秀硕士学位论文全文数据库信息科技辑(第2期);I138-2670 * |
Also Published As
Publication number | Publication date |
---|---|
CN113378570A (zh) | 2021-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11244207B2 (en) | Deep learning tag-based font recognition utilizing font classification | |
CN106649818B (zh) | 应用搜索意图的识别方法、装置、应用搜索方法和服务器 | |
CN108319627B (zh) | 关键词提取方法以及关键词提取装置 | |
CN108804423B (zh) | 医疗文本特征提取与自动匹配方法和系统 | |
CN112818093B (zh) | 基于语义匹配的证据文档检索方法、系统及存储介质 | |
CN111444320A (zh) | 文本检索方法、装置、计算机设备和存储介质 | |
CN112395385B (zh) | 基于人工智能的文本生成方法、装置、计算机设备及介质 | |
CN111651990B (zh) | 一种实体识别方法、计算设备及可读存储介质 | |
CN107967256B (zh) | 词语权重预测模型生成方法、职位推荐方法及计算设备 | |
CN111444719B (zh) | 一种实体识别方法、装置和计算设备 | |
CN111930929A (zh) | 一种文章标题生成方法、装置及计算设备 | |
CN102955773B (zh) | 用于在中文文档中识别化学名称的方法及系统 | |
CN112100326A (zh) | 一种抗干扰的融合检索和机器阅读理解的知识库问答方法及系统 | |
CN111523312B (zh) | 一种基于释义消歧的查词显示方法、装置和计算设备 | |
CN112990887B (zh) | 一种简历和岗位匹配的方法及计算设备 | |
CN110866098A (zh) | 基于transformer和lstm的机器阅读方法、装置及可读存储介质 | |
WO2023109436A1 (zh) | 词性感知嵌套命名实体识别方法、系统、设备和存储介质 | |
CN103823857A (zh) | 基于自然语言处理的空间信息检索方法 | |
CN107169011B (zh) | 基于人工智能的网页原创性识别方法、装置及存储介质 | |
CN113449089B (zh) | 一种查询语句的意图识别方法、问答方法及计算设备 | |
CN111191011B (zh) | 一种文本标签的搜索匹配方法、装置、设备及存储介质 | |
CN113378570B (zh) | 一种实体识别模型的生成方法、计算设备及可读存储介质 | |
CN116680381A (zh) | 文档检索方法、装置、电子设备和存储介质 | |
CN116702777A (zh) | 中文命名实体识别方法、装置、电子设备及存储介质 | |
CN111062219A (zh) | 一种基于张量的潜在语义分析文本处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |