CN108845988B - 一种实体识别方法、装置、设备及计算机可读存储介质 - Google Patents

一种实体识别方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN108845988B
CN108845988B CN201810581154.2A CN201810581154A CN108845988B CN 108845988 B CN108845988 B CN 108845988B CN 201810581154 A CN201810581154 A CN 201810581154A CN 108845988 B CN108845988 B CN 108845988B
Authority
CN
China
Prior art keywords
current
training
model
data set
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810581154.2A
Other languages
English (en)
Other versions
CN108845988A (zh
Inventor
陈文亮
杨耀晟
张民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN201810581154.2A priority Critical patent/CN108845988B/zh
Publication of CN108845988A publication Critical patent/CN108845988A/zh
Application granted granted Critical
Publication of CN108845988B publication Critical patent/CN108845988B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种实体识别方法、装置、设备及计算机可读存储介质,该方法包括:获取训练数据集为当前数据集;利用当前数据集训练当前识别模型得到当前识别模型,判断其识别准确度是否达到准确度阈值,若是,则确定完成训练,若否,则调整当前识别模型的参数得到当前识别模型,将当前数据集中每个训练样本的样本特征输入至当前选取模型,计算当前选取模型输出的决策的分数,基于该分数调整当前选取模型的参数得到当前选取模型;将包括有决策为保留的全部训练样本的数据集作为当前数据集,返回执行训练当前识别模型的步骤;利用实体识别模型实现实体识别,基于识别到的实体实现对应产品的推荐。保证实体识别模型识别性能较好,实现产品的准确推荐。

Description

一种实体识别方法、装置、设备及计算机可读存储介质
技术领域
本发明涉及实体识别技术领域,更具体地说,涉及一种实体识别方法、装置、设备及计算机可读存储介质。
背景技术
在电商领域中,一般出现在文本中的实体主要包括品牌、产品、型号、规格及材质等;为了能够在需要时将电商领域内实体对应的产品推荐给用户,通常需要对电商领域的文本进行实体识别,进而基于识别出的实体进行对应产品的推荐。
目前,用于在电商领域实现实体识别的技术方案通常是将实体识别任务抽象成一个序列标注问题,如图1所示,给定一个文本序列并将其输入至实体识别模型中,实体识别模型会为输入的文本序列中每一个字符预测一个标签(即图中的“O”、“B-PDT”等),最后根据特定的标签组合判断一个词语是否为所需实体;比如图1中的B-PDT表示一个实体的第一个字,I-PDT表示一个实体的末尾,这样就能判断出文本中的“皮带”和“皮鞋”为所需实体,文本序列中其它部分不是实体。常用的实体识别模型为深度神经网络模型,具体来说,深度神经网络模型的训练过程一般包括:用远程监督技术快速获取大规模训练语料,来解决语料匮乏的问题,然后利用训练语料训练深度神经网络模型。但是,在使用的训练语料中,很可能出现由于训练语料中文本序列的标注质量很差,如图2中存在两种标注错误:第一种为图2的(b)中标注不完整(漏标),漏标了“皮带”;第二种为图2的(c)中标注错误(错标),把“工装鞋”标成了“工装”,使得训练得到的实体识别模型的识别性能较差,进而导致实体对应产品推荐有误的情况存在。
综上所述,现有技术中用于实现电商领域实体识别的技术方案存在用于实现实体识别的模型识别性能较差进而导致实体对应产品推荐有误的问题。
发明内容
本发明的目的是提供一种实体识别方法、装置、设备及计算机可读存储介质,以提高实现电商领域的实体识别的模型的识别性能,进而提高实体对应产品推荐的准确性。
为了实现上述目的,本发明提供如下技术方案:
一种实体识别方法,包括:
获取训练数据集为当前数据集,所述训练数据集中的训练样本包括电商领域的文本序列及识别对应文本序列中实体后标注所得的标签序列;
获取初始实体识别模型及初始样本选取模型分别为当前识别模型及当前选取模型;利用当前数据集对当前识别模型进行训练得到当前识别模型,判断当前识别模型的识别准确度是否达到准确度阈值,如果是,则确定当前识别模型为训练完成的实体识别模型,如果否,则对当前识别模型的参数进行调整得到当前识别模型,并将当前数据集中每个训练样本的样本特征输入至当前选取模型,按照预设原则计算当前选取模型输出的对每个训练样本是否保留的决策的分数,基于该分数调整当前选取模型的参数得到当前选取模型;将包括有所述决策为保留的全部训练样本的数据集作为当前数据集,返回执行利用当前数据集对当前识别模型进行训练得到当前识别模型的步骤;
利用训练完成的实体识别模型实现未进行标注的电商领域内的文本序列的实体识别,并基于识别到的实体实现对应产品的推荐。
优选的,获取训练数据集,包括:
获取人工得到对应标签序列的第一文本序列;
利用所述第一文本序列中的实体构建实体词表,利用所述实体词表在第二文本序列中进行匹配,并基于匹配结果得到所述第二文本序列的标签序列;
获取包括有所述第一文本序列及所述第二文本序列的训练数据集,其中,所述第二文本序列的数量大于所述第一文本序列的数量。
优选的,将包括有所述决策为保留的全部训练样本的数据集作为当前数据集,包括:
将包括有全部第一文本序列对应训练样本及所述决策为保留的全部第二文本序列对应训练样本的数据集作为当前数据集。
优选的,将当前数据集中每个训练样本的样本特征输入至当前选取模型,包括:
将当前数据集中每个训练样本的样本特征输入至当前选取模型,所述样本特征为将训练样本输入至当前识别模型中包含的BiLSTM及全连接层后得到的数据信息。
优选的,利用当前数据集对当前识别模型进行训练,包括:
利用当前数据集基于下列条件概率计算公式对当前识别模型进行训练:
Figure GDA0003523479500000031
其中,x表示训练当前识别模型的过程中输入至当前识别模型的任一文本序列,z表示x中已确定为实体的标签不变、其他标签可为任意标签时得到的全部标签序列的集合,p(z|x)表示z的条件概率值,
Figure GDA0003523479500000032
表示z中的每个标签序列,
Figure GDA0003523479500000033
表示
Figure GDA0003523479500000034
的条件概率值,Yx表示x中所有标签均可为任意标签时得到的全部标签序列的集合,
Figure GDA0003523479500000035
表示Yx中的每个标签序列,e为自然常数,
Figure GDA0003523479500000036
Figure GDA0003523479500000037
均为预设得分函数。
优选的,按照预设原则计算当前选取模型输出的对每个训练样本是否保留的决策的分数,包括:
按照下列公式计算当前选取模型输出的对每个训练样本是否保留的决策的分数:
Figure GDA0003523479500000038
Figure GDA0003523479500000039
Figure GDA00035234795000000310
其中,r表示xj对应的分数,
Figure GDA00035234795000000311
表示决策为保留的全部训练样本的集合,xj表示
Figure GDA00035234795000000312
中的某个训练样本的文本序列,f表示
Figure GDA00035234795000000313
中已确定为实体的标签不变、其他标签可为任意标签时得到的全部标签序列的集合,p(f|xj)表示f的条件概率值;
Figure GDA00035234795000000314
表示第一文本序列对应训练样本的集合,xk表示
Figure GDA00035234795000000315
中的某个训练样本的文本序列,y表示xk中已确定为实体的标签不变、其他标签可为任意标签时得到的全部标签序列的集合,p(y|xk)表示y的条件概率值。
优选的,基于计算所得分数调整当前选取模型的参数,包括:
将全部训练样本分成多个集合,并将每个集合包含的训练样本对应分数的平均值作为该集合的集合分数;
依次基于每个所述集合分数调整当前选取模型的参数,得到当前选取模型;其中,基于每个集合分数调整当前选取模型的参数包括:按照下列公式基于每个集合分数调整当前选取模型的参数:
Figure GDA0003523479500000041
其中,θ是一个变量,表示当前选取模型的参数;α是一个指定的0到1之间的小数,
Figure GDA0003523479500000042
表示任一集合分数对应的集合,at及Aθ(st,at)均表示当前选取模型对全部训练样本组成的集合A中的第t个训练样本对应文本序列做出的决策,r(at)表示at对应的分数,st表示集合A中第t个训练样本的样本特征,
Figure GDA0003523479500000043
表示对θ求偏导。
一种实体识别装置,包括:
获取模块,用于:获取训练数据集为当前数据集,所述训练数据集中的训练样本包括电商领域的文本序列及识别对应文本序列中实体后标注所得的标签序列;
训练模块,用于:获取初始实体识别模型及初始样本选取模型分别为当前识别模型及当前选取模型;利用当前数据集对当前识别模型进行训练得到当前识别模型,判断当前识别模型的识别准确度是否达到准确度阈值,如果是,则确定当前识别模型为训练完成的实体识别模型,如果否,则对当前识别模型的参数进行调整得到当前识别模型,并将当前数据集中每个训练样本的样本特征输入至当前选取模型,按照预设原则计算当前选取模型输出的对每个训练样本是否保留的决策的分数,基于该分数调整当前选取模型的参数得到当前选取模型;将包括有所述决策为保留的全部训练样本的数据集作为当前数据集,返回执行利用当前数据集对当前识别模型进行训练得到当前识别模型的步骤;
识别模块,用于:利用训练完成的实体识别模型实现未进行标注的电商领域内的文本序列的实体识别,并基于识别到的实体实现对应产品的推荐。
一种实体识别设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上任一项所述实体识别方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上任一项所述实体识别方法的步骤。
本发明提供了一种实体识别方法、装置、设备及计算机可读存储介质,其中该方法包括:获取训练数据集为当前数据集,所述训练数据集中的训练样本包括电商领域的文本序列及识别对应文本序列中实体后标注所得的标签序列;获取初始实体识别模型及初始样本选取模型分别为当前识别模型及当前选取模型;利用当前数据集对当前识别模型进行训练得到当前识别模型,判断当前识别模型的识别准确度是否达到准确度阈值,如果是,则确定当前识别模型为训练完成的实体识别模型,如果否,则对当前识别模型的参数进行调整得到当前识别模型,并将当前数据集中每个训练样本的样本特征输入至当前选取模型,按照预设原则计算当前选取模型输出的对每个训练样本是否保留的决策的分数,基于该分数调整当前选取模型的参数得到当前选取模型;将包括有所述决策为保留的全部训练样本的数据集作为当前数据集,返回执行利用当前数据集对当前识别模型进行训练得到当前识别模型的步骤;利用训练完成的实体识别模型实现未进行标注的电商领域内的文本序列的实体识别,并基于识别到的实体实现对应产品的推荐。本发明公开的技术方案中,在利用包含电商领域的文本序列及识别对应文本序列中实体后标注所得标签序列的训练数据集对实体识别模型进行训练的过程中,对训练数据集中的训练样本进行筛选,并且将筛选得到的保留的训练样本用于实体识别模型的训练,从而通过这种方式,使得用于实现实体识别模型训练的训练样本为具有较高质量的训练样本,进而保证了训练得到的实体识别模型在实现电商领域内实体识别时具有较高的识别性能,使得基于实体训练模型识别得到的实体实现对应产品的推荐具有较高的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为背景技术中将实体识别任务抽象成序列标注问题的示例图;
图2为背景技术中标注错误的示例图;
图3为本发明实施例提供的一种实体识别方法的流程图;
图4为本发明实施例提供的一种实体识别方法中实体识别模型和样本选取模型的框架图;
图5为本发明实施例提供的一种实体识别方法中z的示例图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图3,其示出了本发明实施例提供的一种实体识别方法的流程图,可以包括以下步骤:
S11:获取训练数据集为当前数据集,训练数据集中的训练样本包括电商领域的文本序列及识别对应文本序列中实体后标注所得的标签序列。
需要说明的是,文本序列为包括对对应文本进行分词后得到的从左到右的每个字符,而标签序列则为与对应文本中从左到右每个字符对应的标签,文本序列中每个字符对应对应的标签序列中的一个标签,不同的标签表示不同的含义,而标签与含义的对应关系可以根据实际需要进行设定,如图1中,0表示非实体,B-PDT一个实体的第一个字,I-PDT表示一个实体的末尾,而皮鞋、皮带等则可以认为属于电商领域的实体中的产品;另外,本申请公开的技术方案也可以根据实际需要应用于其他需要进行实体识别的领域中,均在本发明的保护范围之内。
S12:获取初始实体识别模型及初始样本选取模型分别为当前识别模型及当前选取模型;利用当前数据集对当前识别模型进行训练得到当前识别模型,判断当前识别模型的识别准确度是否达到准确度阈值,如果是,则确定当前识别模型为训练完成的实体识别模型,如果否,则对当前识别模型的参数进行调整得到当前识别模型,并将当前数据集中每个训练样本的样本特征输入至当前选取模型,按照预设原则计算当前选取模型输出的对每个训练样本是否保留的决策的分数,基于该分数调整当前选取模型的参数得到当前选取模型;将包括有决策为保留的全部训练样本的数据集作为当前数据集,返回执行利用当前数据集对当前识别模型进行训练得到当前识别模型的步骤。
其中,样本选取模型采用强化学习的思路实现,具体来说,可以将样本选取模型得到输入的样本特征的决策过程抽象成“马尔科夫决策过程”,从而通过这种方式自动抛弃质量差的训练样本(即噪音样本,如背景技术中所述的错标的数据),专注于挑选高质量的训练样本作为实现实体识别模型训练的样本。具体来说,将对训练样例的挑选过程(即获取训练样本对应决策的过程)抽象成“马尔科夫决策过程”,即样本选取模型对当前输入的训练样本对应样本特征作出判断:保留(当样本选取模型输出为1)或抛弃(当样本选取模型输出为0),从而实现训练样本是否保留的决策。
需要说明的是,在调整实体识别模型参数的过程中,样本选取模型的参数保持不变;而在调整样本选取模型的参数的过程中,实体识别模型的参数保持不变。另外,准确度阈值可以根据实际需要进行设定,获取当前识别模型的准确度可以是将多个文本序列输入至当前识别模型,得到输出的每个文本序列对应的标签序列,将对应标签序列正确的文本序列个数与全部文本个数的比值百分比作为当前识别模型的准确度,当然也可以根据实际需要选取其他方法进行计算,均在本发明的保护范围之内。
S13:利用训练完成的实体识别模型实现未进行标注的电商领域内的文本序列的实体识别,并基于识别到的实体实现对应产品的推荐。
利用训练完成的实体识别模型进行实体识别的过程与现有技术中对应识别过程的实现原理一致,在此不再赘述。需要说明的是,在预测过程中实体识别模型的参数是不发生任何改变的。另外,本申请中的实体识别模型可以为LSTM-CRF模型,也可以为根据实际需要选取的其他模型,均在本发明的保护范围之内;当实体识别模型为LSTM-CRF模型时,对应的实体识别模型和样本选取模型的框架图可以如图4所示,其中LSTM-CRF模型及其训练过程与现有技术中对应训练过程实现原理一致,在此不再赘述。另外,本申请中获取到的文本序列可以为卖家编辑的产品的标题、买家在搜索框里输入的搜索内容等,而实现的产品推荐可以是电商系统(实现电商的软件)利用本申请中训练完成的实体识别模型识别产品的标题,识别出标题中存在的实体后,自动将该产品推荐给购买或者搜索过具有识别出的实体对应任意产品的买家;也可以是电商系统利用本申请中训练完成的实体识别模型识别搜索内容,识别出搜索内容中存在的实体后,自动将预先识别出的产品标题中存在识别出的实体的产品推荐给买家,当然也可以利用识别出的实体进行其他具体应用,均在本发明的保护范围之内。
本发明公开的技术方案中,在利用包含电商领域的文本序列及识别对应文本序列中实体后标注所得标签序列的训练数据集对实体识别模型进行训练的过程中,对训练数据集中的训练样本进行筛选,并且将筛选得到的保留的训练样本用于实体识别模型的训练,从而通过这种方式,使得用于实现实体识别模型训练的训练样本为具有较高质量的训练样本,进而保证了训练得到的实体识别模型在实现电商领域内实体识别时具有较高的识别性能,使得基于实体训练模型识别得到的实体实现对应产品的推荐具有较高的准确性。
本发明实施例提供的一种实体识别方法,获取训练数据集,可以包括:
获取人工得到对应标签序列的第一文本序列;
利用第一文本序列中的实体构建实体词表,利用实体词表在第二文本序列中进行匹配,并基于匹配结果得到第二文本序列的标签序列;
获取包括有第一文本序列及第二文本序列的训练数据集,其中,第二文本序列的数量大于第一文本序列的数量。
简单来说,本申请通过小规模的人工标注数据+自动化构建的远程监督训练数据实现训练样本的获取。将人工标注的第一文本序列中的实体抽取出来,并且构建包含有这些实体的实体词表,然后将大规模未标注的第二文本序列中匹配,匹配的过程即为判断未标注的第二文本序列中是否存在实体词表中任一实体的过程,进而按照匹配得到的结果对第二文本序列进行标注即可得到对应标签序列。通过这种方式,不仅可以快速获取大量的训练样本,且由于是基于人工标注的实体实现的匹配过程,也能够在人工标注存在准确度高的基础上一定程度提高获取的训练数据集的标注准确性。
本发明实施例提供的一种实体识别方法,将包括有决策为保留的全部训练样本的数据集作为当前数据集,可以包括:
将包括有全部第一文本序列对应训练样本及决策为保留的全部第二文本序列对应训练样本的数据集作为当前数据集。
由于第一文本序列为由人工标注,是具有高准确度的训练样本,因此每次训练实体识别模型的数据集中均包括这部分样本,另外还包括最近一次得到的决策为保留的全部第二文本序列对应训练样本,从而进一步保证了训练所得实体识别模型的识别准确性。
本发明实施例提供的一种实体识别方法,将当前数据集中每个训练样本的样本特征输入至当前选取模型,可以包括:
将当前数据集中每个训练样本的样本特征输入至当前选取模型,样本特征为将训练样本输入至当前识别模型中包含的BiLSTM及全连接层后得到的数据信息。
如图4所示,样本特征可以指训练样本输入至实体识别模型后经过实体识别模型包含的BiLSTM及全连接层后得到的数据信息,由于经过这两层后得到的数据信息能较准确的表现出训练样本的特征,因此能够使得训练样本的筛选结果更加准确。当然也可以根据实际需要进行其他设定,均在本发明的保护范围之内。
本发明实施例提供的一种实体识别方法,利用当前数据集对当前识别模型进行训练,可以包括:
利用当前数据集基于下列条件概率计算公式对当前识别模型进行训练:
Figure GDA0003523479500000091
其中,x表示训练当前识别模型的过程中输入至当前识别模型的任一文本序列,如图5中:我想买皮鞋皮带;z表示x中已确定为实体的标签不变、其他标签可为任意标签时得到的全部标签序列的集合,如图5中,只有“皮鞋”的标签确定,其他的部分都可以被标成任意标签,那么对应的标签序列的结果就不是唯一的,比如“O,O,O,B-PDT,I-PDT,O,O”、“B-PDT,O,O,B-PDT,I-PDT,O,O”等等都是合法的标签序列;p(z|x)表示z的条件概率值,
Figure GDA0003523479500000101
表示z中的每个标签序列,
Figure GDA0003523479500000102
表示
Figure GDA0003523479500000103
的条件概率值,Yx表示x中所有标签均可为任意标签时得到的全部标签序列的集合,
Figure GDA0003523479500000104
表示Yx中的每个标签序列,e为自然常数,
Figure GDA0003523479500000105
Figure GDA0003523479500000106
均为预设得分函数。
而预设得分函数与现有技术的条件概率计算公式中得分函数是相同的,具体来说,预设得分函数可以为下列公式:
Figure GDA0003523479500000107
其中,a和b为变量,如
Figure GDA0003523479500000108
中a为x、b为
Figure GDA0003523479500000109
Figure GDA00035234795000001010
中a为x、b为
Figure GDA00035234795000001011
o表示将文本序列a输入至当前识别模型中后当前识别模型包含的“全连接层”的输出,是一个n×d的矩阵,n是文本序列a的句长,d是预设标签集的大小(预设标签集的大小为预设标签集中共包含多少个不同的标签),预设标签集为进行与训练当前识别模型的训练数据集对应的可能出现的所有标签的集合;
Figure GDA00035234795000001012
表示文本序列a中第t个字符的标签是bt的概率;T也是一个矩阵,称为“转移矩阵”,
Figure GDA00035234795000001013
是指标签bt-1转移到bt的概率,标签bt-1转移到bt指文本序列a第t-1个字符标签为bt-1时、第t个字符标签为bt的概率,可以在T中加入两个表示开头和结尾的标志位,使得T成为一个大小为d+2的方阵;另外,bt表示标签序列b中第t个标签,bt-1表示标签序列b中第t-1个标签。
简单来说,通过上述公式使用的为“部分学习”的方式实现实体识别模型的训练,能够有效处理“漏标”问题,“漏标”即为在标注时错误的将属于实体的字符标注为了非实体;而条件概率公式在实体识别模型的训练中所起到的作用与现有技术中对应技术方案的实现原理一致,在此不再赘述。
具体来说,在全标注学习中,每个训练样本都对应一个唯一的标签序列,但本申请在构建训练数据集的过程中只能确定文本序列中一部分实体的标签(上面说到的漏标问题),将未确定部分都当做非实体来处理会带来很多噪音,所以如上文采用的策略是“部分学习”:如图5所示,未被匹配的字符可能对应任意一个标签,只有一部分字符(如图中的“皮、鞋、皮、带”)的标签被唯一确定。通过这种方式,实体识别模型专注于学习确定可靠的局部特征,因为本申请给出的并不是一个唯一的标签序列,而是一个路径子集合,所以每一个训练样本对应的条件概率计算公式如上所示。从该公式中也可以看出,全标注其实是部分标注的一个特殊情况,即标签序列中每一个字符的标签都被唯一确定。上述公式一共包括三个小的分式(以等号为分割点),这三个分式的关系是相等的,其实这三个分式从左到右就是在一步步展开具体化。
本发明实施例提供的一种实体识别方法,按照预设原则计算当前选取模型输出的对每个训练样本是否保留的决策的分数,可以包括:
按照下列公式计算当前选取模型输出的对每个训练样本是否保留的决策的分数:
Figure GDA0003523479500000111
Figure GDA0003523479500000112
Figure GDA0003523479500000113
其中,r表示xj对应的分数,
Figure GDA0003523479500000114
表示决策为保留的全部训练样本的集合,xj表示
Figure GDA0003523479500000115
中的某个训练样本的文本序列,f表示
Figure GDA0003523479500000116
中已确定为实体的标签不变、其他标签可为任意标签时得到的全部标签序列的集合,p(f|xj)表示f的条件概率值;
Figure GDA0003523479500000117
表示第一文本序列对应训练样本的集合,xk表示
Figure GDA0003523479500000118
中的某个训练样本的文本序列,y表示xk中已确定为实体的标签不变、其他标签可为任意标签时得到的全部标签序列的集合,p(y|xk)表示y的条件概率值。
本发明实施例提供的一种实体识别方法,基于计算所得分数调整当前选取模型的参数,可以包括:
将全部训练样本分成多个集合,并将每个集合包含的训练样本对应分数的平均值作为该集合的集合分数;
依次基于每个所述集合分数调整当前选取模型的参数,得到当前选取模型;其中,基于每个集合分数调整当前选取模型的参数包括:按照下列公式基于每个集合分数调整当前选取模型的参数:
Figure GDA0003523479500000119
其中,θ是一个变量,表示当前选取模型的参数;α是一个指定的0到1之间的小数,
Figure GDA00035234795000001110
表示任一集合分数对应的集合,at及Aθ(st,at)均表示当前选取模型对全部训练样本组成的集合A中的第t个训练样本对应文本序列做出的决策,r(at)表示at对应的分数,st表示集合A中第t个训练样本的样本特征,
Figure GDA0003523479500000121
表示对θ求偏导。
需要说明的是,本申请中可以每个文本序列计算对应分数后均按照上式调整当前选取模型的参数,但是这样工作量未免太大,因此为了减少工作量,本申请中将全部训练样本分成多个集合,而每个集合仅仅对应一次参数的调整;另外,将全部训练样本分成多个集合可以是平均划分的、也可以根据实际需要按照其他方式划分,均在本发明的保护范围之内。
需要说明的是,利用上述公式实现计算当前选取模型输出的对每个训练样本是否保留的决策的分数及基于分数调整当前选取模型的参数的过程即为强化学习的过程,其中基于分数调整当前选取模型的参数的抽象为:根据样本选取模型做出的决策和它相对应得到的分数(奖赏值)相乘,然后来更新样本选取模型的参数。从而通过联合使用部分学习和强化学习的方法,构建了一个适合实体识别任务的新模型,能够有效利用远程监督噪音数据。
具体来说,上述样本选取模型的决策和训练过程如下:
(1)根据当前输入训练样本的样本特征(即模型图中左侧虚线框),及当前这个训练样本的标签序列作出决策;
(2)每当样本选取模型作出一个决策后,都可以根据下面定义好的函数,计算出一个分数,以当前样本选取模型的预测能力为评判基准,代表着当前这个决策是否合理:
Figure GDA0003523479500000122
Figure GDA0003523479500000123
Figure GDA0003523479500000124
优化样本选取模型的目标就在于最大化所有决策的分数,即样本选取模型做出的所有决策有助于提升实体识别模型的预测能力。
(3)对于样本选取模型单独的参数更新过程,使用策略梯度的方法来优化策略网络,优化的方法如下:
Figure GDA0003523479500000125
另外,在电商数据领域上验证本申请公开的技术方案中实体识别模型的性能,在该数据领域中,使用1200人工标注训练样本并基于此构建实体词表,在大规模未标注文本序列上分别匹配得到2500句远程监督数据。
通过以上方法,得到以下的实验结果:
电商数据表:
Figure GDA0003523479500000131
其中,上述表格中的第一列是现有技术及本申请公开的技术方案中几种方法的组合,其中第三行为本申请公开的技术方案对应的数据,Dict-based是指用实体词表直接去匹配测试数据集;SL为强化学习方法,PA为部分学习方法;评价指标包括基于P(准确率)、R(召回率)计算得到的F1=2*P*R/(P+R);由上述电商数据表可以看到本申请提出的联合使用PA和SL取得了积极正面的效果。
本申请公开的上述技术方案中,利用人工标注的训练样本构建实体词表,进而基于实体词表匹配得到更多的训练样本,因此训练数据集中存在噪声,不能当作全标注数据来使用,只能作为部分标注数据来用;另外这些数据中有些数据是噪声数据,质量很差,需要将它抛弃;而本申请公开的技术方案不仅能够用于全标注语料,还能够在部分标注语料上进行训练,同时还具有数据挑选能力;简单来说,本申请主要有以下特点:1.能够快速购构建大规模语料,但质量差,只能作为部分标注语料。2,能够使用部分标注语料来专注于学习确定的特征,并且对语料有挑选能力。
本发明实施例还提供了一种实体识别装置,可以包括:
获取模块,用于:获取训练数据集为当前数据集,训练数据集中的训练样本包括电商领域的文本序列及识别对应文本序列中实体后标注所得的标签序列;
训练模块,用于:获取初始实体识别模型及初始样本选取模型分别为当前识别模型及当前选取模型;利用当前数据集对当前识别模型进行训练得到当前识别模型,判断当前识别模型的识别准确度是否达到准确度阈值,如果是,则确定当前识别模型为训练完成的实体识别模型,如果否,则对当前识别模型的参数进行调整得到当前识别模型,并将当前数据集中每个训练样本的样本特征输入至当前选取模型,按照预设原则计算当前选取模型输出的对每个训练样本是否保留的决策的分数,基于该分数调整当前选取模型的参数得到当前选取模型;将包括有决策为保留的全部训练样本的数据集作为当前数据集,返回执行利用当前数据集对当前识别模型进行训练得到当前识别模型的步骤;
识别模块,用于:利用训练完成的实体识别模型实现未进行标注的电商领域内的文本序列的实体识别,并基于识别到的实体实现对应产品的推荐。
本发明实施例还提供了一种实体识别设备,可以包括:
存储器,用于存储计算机程序;
处理器,用于执行计算机程序时实现如上任一项实体识别方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,其特征在于,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上任一项实体识别方法的步骤。
需要说明的是,本发明实施例提供的一种实体识别装置、设备及计算机可读存储介质中相关部分的说明请参见本发明实施例提供的一种实体识别方法中对应部分的详细说明,在此不再赘述。另外本发明实施例提供的上述技术方案中与现有技术中对应技术方案实现原理一致的部分并未详细说明,以免过多赘述。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (9)

1.一种实体识别方法,其特征在于,包括:
获取训练数据集为当前数据集,所述训练数据集中的训练样本包括电商领域的文本序列及识别对应文本序列中实体后标注所得的标签序列;
获取初始实体识别模型及初始样本选取模型分别为当前识别模型及当前选取模型;利用当前数据集对当前识别模型进行训练得到当前识别模型,判断当前识别模型的识别准确度是否达到准确度阈值,如果是,则确定当前识别模型为训练完成的实体识别模型,如果否,则对当前识别模型的参数进行调整得到当前识别模型,并将当前数据集中每个训练样本的样本特征输入至当前选取模型,按照预设原则计算当前选取模型输出的对每个训练样本是否保留的决策的分数,基于该分数调整当前选取模型的参数得到当前选取模型;将包括有所述决策为保留的全部训练样本的数据集作为当前数据集,返回执行利用当前数据集对当前识别模型进行训练得到当前识别模型的步骤;
利用训练完成的实体识别模型实现未进行标注的电商领域内的文本序列的实体识别,并基于识别到的实体实现对应产品的推荐;
按照预设原则计算当前选取模型输出的对每个训练样本是否保留的决策的分数,包括:
按照下列公式计算当前选取模型输出的对每个训练样本是否保留的决策的分数:
Figure FDA0003523479490000011
Figure FDA0003523479490000012
Figure FDA0003523479490000013
其中,r表示xj对应的分数,
Figure FDA0003523479490000014
表示决策为保留的全部训练样本的集合,xj表示
Figure FDA0003523479490000015
中的某个训练样本的文本序列,f表示
Figure FDA0003523479490000016
中已确定为实体的标签不变、其他标签可为任意标签时得到的全部标签序列的集合,p(f|xj)表示f的条件概率值;
Figure FDA0003523479490000017
表示第一文本序列对应训练样本的集合,xk表示
Figure FDA0003523479490000018
中的某个训练样本的文本序列,y表示xk中已确定为实体的标签不变、其他标签可为任意标签时得到的全部标签序列的集合,p(y|xk)表示y的条件概率值。
2.根据权利要求1所述的方法,其特征在于,获取训练数据集,包括:
获取人工得到对应标签序列的第一文本序列;
利用所述第一文本序列中的实体构建实体词表,利用所述实体词表在第二文本序列中进行匹配,并基于匹配结果得到所述第二文本序列的标签序列;
获取包括有所述第一文本序列及所述第二文本序列的训练数据集,其中,所述第二文本序列的数量大于所述第一文本序列的数量。
3.根据权利要求2所述的方法,其特征在于,将包括有所述决策为保留的全部训练样本的数据集作为当前数据集,包括:
将包括有全部第一文本序列对应训练样本及所述决策为保留的全部第二文本序列对应训练样本的数据集作为当前数据集。
4.根据权利要求3所述的方法,其特征在于,将当前数据集中每个训练样本的样本特征输入至当前选取模型,包括:
将当前数据集中每个训练样本的样本特征输入至当前选取模型,所述样本特征为将训练样本输入至当前识别模型中包含的BiLSTM及全连接层后得到的数据信息。
5.根据权利要求2所述的方法,其特征在于,利用当前数据集对当前识别模型进行训练,包括:
利用当前数据集基于下列条件概率计算公式对当前识别模型进行训练:
Figure FDA0003523479490000021
其中,x表示训练当前识别模型的过程中输入至当前识别模型的任一文本序列,z表示x中已确定为实体的标签不变、其他标签可为任意标签时得到的全部标签序列的集合,p(z|x)表示z的条件概率值,
Figure FDA0003523479490000022
表示z中的每个标签序列,
Figure FDA0003523479490000023
表示
Figure FDA0003523479490000024
的条件概率值,Yx表示x中所有标签均可为任意标签时得到的全部标签序列的集合,
Figure FDA0003523479490000025
表示Yx中的每个标签序列,e为自然常数,
Figure FDA0003523479490000026
Figure FDA0003523479490000027
均为预设得分函数。
6.根据权利要求5所述的方法,其特征在于,基于计算所得分数调整当前选取模型的参数,包括:
将全部训练样本分成多个集合,并将每个集合包含的训练样本对应分数的平均值作为该集合的集合分数;
依次基于每个所述集合分数调整当前选取模型的参数,得到当前选取模型;其中,基于每个集合分数调整当前选取模型的参数包括:按照下列公式基于每个集合分数调整当前选取模型的参数:
Figure FDA0003523479490000031
其中,θ是一个变量,表示当前选取模型的参数;α是一个指定的0到1之间的小数,
Figure FDA0003523479490000032
表示任一集合分数对应的集合,at表示当前选取模型对全部训练样本组成的集合A中的第t个训练样本对应文本序列做出的决策,Aθ(st,at)表示做出决策at的概率,r(at)表示at对应的分数,st表示集合A中第t个训练样本的样本特征,
Figure FDA0003523479490000033
表示对θ求偏导。
7.一种实体识别装置,其特征在于,包括:
获取模块,用于:获取训练数据集为当前数据集,所述训练数据集中的训练样本包括电商领域的文本序列及识别对应文本序列中实体后标注所得的标签序列;
训练模块,用于:获取初始实体识别模型及初始样本选取模型分别为当前识别模型及当前选取模型;利用当前数据集对当前识别模型进行训练得到当前识别模型,判断当前识别模型的识别准确度是否达到准确度阈值,如果是,则确定当前识别模型为训练完成的实体识别模型,如果否,则对当前识别模型的参数进行调整得到当前识别模型,并将当前数据集中每个训练样本的样本特征输入至当前选取模型,按照预设原则计算当前选取模型输出的对每个训练样本是否保留的决策的分数,基于该分数调整当前选取模型的参数得到当前选取模型;将包括有所述决策为保留的全部训练样本的数据集作为当前数据集,返回执行利用当前数据集对当前识别模型进行训练得到当前识别模型的步骤;
识别模块,用于:利用训练完成的实体识别模型实现未进行标注的电商领域内的文本序列的实体识别,并基于识别到的实体实现对应产品的推荐;
所述训练模块按照预设原则计算当前选取模型输出的对每个训练样本是否保留的决策的分数具体包括:
按照下列公式计算当前选取模型输出的对每个训练样本是否保留的决策的分数:
Figure FDA0003523479490000041
Figure FDA0003523479490000042
Figure FDA0003523479490000043
其中,r表示xj对应的分数,
Figure FDA0003523479490000044
表示决策为保留的全部训练样本的集合,xj表示
Figure FDA0003523479490000045
中的某个训练样本的文本序列,f表示
Figure FDA0003523479490000046
中已确定为实体的标签不变、其他标签可为任意标签时得到的全部标签序列的集合,p(f|xj)表示f的条件概率值;
Figure FDA0003523479490000047
表示第一文本序列对应训练样本的集合,xk表示
Figure FDA0003523479490000048
中的某个训练样本的文本序列,y表示xk中已确定为实体的标签不变、其他标签可为任意标签时得到的全部标签序列的集合,p(y|xk)表示y的条件概率值。
8.一种实体识别设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至6任一项所述实体识别方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述实体识别方法的步骤。
CN201810581154.2A 2018-06-07 2018-06-07 一种实体识别方法、装置、设备及计算机可读存储介质 Active CN108845988B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810581154.2A CN108845988B (zh) 2018-06-07 2018-06-07 一种实体识别方法、装置、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810581154.2A CN108845988B (zh) 2018-06-07 2018-06-07 一种实体识别方法、装置、设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN108845988A CN108845988A (zh) 2018-11-20
CN108845988B true CN108845988B (zh) 2022-06-10

Family

ID=64211331

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810581154.2A Active CN108845988B (zh) 2018-06-07 2018-06-07 一种实体识别方法、装置、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN108845988B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109614614B (zh) * 2018-12-03 2021-04-02 焦点科技股份有限公司 一种基于自注意力的bilstm-crf产品名称识别方法
CN109801151B (zh) * 2019-01-07 2023-09-05 平安科技(深圳)有限公司 财务造假风险监控方法、装置、计算机设备和存储介质
CN110209770B (zh) * 2019-06-03 2022-04-15 北京邮电大学 一种基于策略价值网络和树搜索增强的命名实体识别方法
CN110826320B (zh) * 2019-11-28 2023-10-13 上海观安信息技术股份有限公司 一种基于文本识别的敏感数据发现方法及系统
CN113052191A (zh) * 2019-12-26 2021-06-29 航天信息股份有限公司 一种神经语言网络模型的训练方法、装置、设备及介质
CN112069329B (zh) * 2020-09-11 2024-03-15 腾讯科技(深圳)有限公司 文本语料的处理方法、装置、设备及存储介质
CN112950352A (zh) * 2021-02-08 2021-06-11 北京淇瑀信息科技有限公司 用户筛选策略生成方法、装置及电子设备
CN114004233B (zh) * 2021-12-30 2022-05-06 之江实验室 一种基于半训练和句子选择的远程监督命名实体识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103034726A (zh) * 2012-12-18 2013-04-10 上海电机学院 文本过滤系统及方法
CN106202177A (zh) * 2016-06-27 2016-12-07 腾讯科技(深圳)有限公司 一种文本分类方法及装置
CN106570179A (zh) * 2016-11-10 2017-04-19 中国科学院信息工程研究所 一种面向评价性文本的核心实体识别方法及装置
CN107908614A (zh) * 2017-10-12 2018-04-13 北京知道未来信息技术有限公司 一种基于Bi‑LSTM的命名实体识别方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9753968B1 (en) * 2016-03-06 2017-09-05 SparkBeyond Ltd. Systems and methods for detection of anomalous entities
CN107958270B (zh) * 2017-12-05 2020-07-31 北京小度信息科技有限公司 类别识别方法、装置、电子设备及计算机可读存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103034726A (zh) * 2012-12-18 2013-04-10 上海电机学院 文本过滤系统及方法
CN106202177A (zh) * 2016-06-27 2016-12-07 腾讯科技(深圳)有限公司 一种文本分类方法及装置
CN106570179A (zh) * 2016-11-10 2017-04-19 中国科学院信息工程研究所 一种面向评价性文本的核心实体识别方法及装置
CN107908614A (zh) * 2017-10-12 2018-04-13 北京知道未来信息技术有限公司 一种基于Bi‑LSTM的命名实体识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Deep Active Learning for Named Entity Recognition;Yanyao Shen 等;《Computation and Language》;20180204;第1-15页 *
开放域命名实体识别及其层次化类别获取;付瑞吉;《信息科技辑》;20140701;第1-116页 *

Also Published As

Publication number Publication date
CN108845988A (zh) 2018-11-20

Similar Documents

Publication Publication Date Title
CN108845988B (zh) 一种实体识别方法、装置、设备及计算机可读存储介质
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN111444320B (zh) 文本检索方法、装置、计算机设备和存储介质
CN111104526A (zh) 一种基于关键词语义的金融标签提取方法及系统
CN110188197B (zh) 一种用于标注平台的主动学习方法及装置
CN112070138B (zh) 多标签混合分类模型的构建方法、新闻分类方法及系统
CN111159414B (zh) 文本分类方法及系统、电子设备、计算机可读存储介质
CN111159485B (zh) 尾实体链接方法、装置、服务器及存储介质
CN107239564B (zh) 一种基于监督主题模型的文本标签推荐方法
CN108846097B (zh) 用户的兴趣标签表示方法、文章推荐方法、及装置、设备
CN112100529A (zh) 搜索内容排序方法、装置、存储介质和电子设备
CN110348012B (zh) 确定目标字符的方法、装置、存储介质及电子装置
CN110807086A (zh) 文本数据标注方法及装置、存储介质、电子设备
CN110751234A (zh) Ocr识别纠错方法、装置及设备
EP3929800A1 (en) Skill word evaluation method and device, electronic device, and computer readable medium
CN112188312A (zh) 用于确定新闻的视频素材的方法和装置
CN112699945A (zh) 数据标注方法及装置、存储介质及电子装置
CN112417862A (zh) 知识点预测方法、系统和可读存储介质
CN113486173A (zh) 文本标注神经网络模型及其标注方法
CN110347821B (zh) 一种文本类别标注的方法、电子设备和可读存储介质
CN112181814B (zh) 一种针对于缺陷报告的多标签标记方法
CN116186257A (zh) 一种基于混合特征对短文本进行分类的方法及系统
CN115203532A (zh) 一种项目推荐方法、装置、电子设备及存储介质
CN114372148A (zh) 一种基于知识图谱技术的数据处理方法及终端设备
CN110543636B (zh) 一种对话系统的训练数据选择方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant