CN112732917A - 一种实体链指结果的确定方法和装置 - Google Patents
一种实体链指结果的确定方法和装置 Download PDFInfo
- Publication number
- CN112732917A CN112732917A CN202110043192.4A CN202110043192A CN112732917A CN 112732917 A CN112732917 A CN 112732917A CN 202110043192 A CN202110043192 A CN 202110043192A CN 112732917 A CN112732917 A CN 112732917A
- Authority
- CN
- China
- Prior art keywords
- entity
- candidate
- target
- text
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 239000013598 vector Substances 0.000 claims description 155
- 238000004891 communication Methods 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 238000012549 training Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 2
- 240000002853 Nelumbo nucifera Species 0.000 description 1
- 235000006508 Nelumbo nucifera Nutrition 0.000 description 1
- 235000006510 Nelumbo pentapetala Nutrition 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 101150035983 str1 gene Proteins 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本申请提供了一种实体链指结果的确定方法和装置,属于实体链指技术领域。所述方法包括:确定目标文本中的目标实体,并从知识库中获取所述目标实体对应的候选实体;根据所述目标文本和所述候选实体所在的候选文本,得到多个候选特征,其中,所述候选文本为所述候选实体所在的上下文本;将所述多个候选特征输入感知器,得到所述感知器输出的每个候选实体的特征值;在多个所述特征值中的最大特征值不小于预设阈值的情况下,将所述最大特征值对应的候选实体作为所述目标实体的实体链指结果。本申请提高了链指结果的准确性。
Description
技术领域
本申请涉及实体链指技术领域,尤其涉及一种实体链指结果的确定方法和装置。
背景技术
近年来,随着深度学习技术的发展和数据、算力的快速提升,自然语言处理领域迎来了蓬勃的发展,知识图谱作为NLP领域的一个重要技术,在工业界和学术界也成为人们关注的焦点。而在构建知识图谱的过程中,由于数据越来越庞大,图谱的规模也不断的扩大,目前最大的中文知识图谱已经拥有数亿实体和千亿事实,具备丰富的知识标注与关联能力。在构建图谱中的实体链指问题,也成为了提成图谱质量的关键。实体链指,简称EL(Entity Linking),即对于给定的一个中文短文本(如搜索Query、微博、对话内容、文章/视频/图片的标题等),将其中的实体与给定知识库中对应的实体进行关联。
目前的实体链指只关注中文短文本中的实体本身,并没有考虑到实体所在的上下文,即实体所在的语境,这样会导致实体链指的结果不准确。
发明内容
本申请实施例的目的在于提供一种实体链指结果的确定方法和装置,以解决实体链指的结果不准确的问题。具体技术方案如下:
第一方面,提供了一种实体链指结果的确定方法,所述方法包括:
确定目标文本中的目标实体,并从知识库中获取所述目标实体对应的候选实体;
根据所述目标文本和所述候选实体所在的候选文本,得到多个候选特征,其中,所述候选文本为所述候选实体所在的上下文本;
将所述多个候选特征输入感知器,得到所述感知器输出的每个候选实体的特征值;
在多个所述特征值中的最大特征值不小于预设阈值的情况下,将所述最大特征值对应的候选实体作为所述目标实体的实体链指结果。
可选地,所述候选特征包括类型特征,根据所述目标文本得到多个候选特征包括:
将所述目标文本输入语言表征模型,得到所述语言表征模型输出的所述目标实体在所述目标文本中的起始位置对应的起始向量、结束位置对应的结束向量和所述目标实体在所述目标文本中的含义对应的第一含义向量;
将所述起始向量、所述结束向量和所述第一含义向量进行向量连接,得到第一向量;
将所述第一向量输入分类识别模型,得到所述目标实体对应的类型特征。
可选地,所述候选特征包括匹配特征,根据所述目标文本和所述候选实体所在的候选文本,得到多个候选特征包括:
将所述目标文本和所述候选文本输入语言表征模型,得到所述语言表征模型输出的所述目标实体在所述目标文本中的起始位置对应的起始向量、结束位置对应的结束向量和所述目标实体在所述目标文本中的含义对应的第二含义向量;
将所述起始向量、所述结束向量和所述第二含义向量进行向量连接,得到第二向量;
将所述第二向量输入匹配模型,得到所述目标实体和所述候选实体的匹配特征。
可选地,所述候选特征包括损失,根据所述目标文本和所述候选实体所在的候选文本,得到多个候选特征包括:
分别将所述目标文本和所述候选文本输入语言表征模型,得到所述语言表征模型输出的所述目标文本对应的目标文本向量和所述候选文本对应的候选文本向量;
在所述目标文本向量中选取所述目标实体对应的目标向量,并在所述候选文本向量中选取所述候选实体对应的候选向量;
确定所述目标向量和所述候选向量之间的余弦距离损失值;
将所述余弦距离损失值作为损失特征。
可选地,所述候选特征包括共现特征,所述根据所述目标文本和所述候选实体所在的候选文本,得到多个候选特征包括:
确定所述目标文本中除所述目标实体之外的第一实体和所述候选文本中除所述候选实体之外的第二实体;
若所述第一实体和所述第二实体存在交集,则确定所述共现特征是为1的数值;
若所述第一实体和所述第二实体不存在交集,则确定所述共现特征值是为0的数值。
可选地,得到所述感知器输出的每个候选实体的特征值之后,所述方法还包括:
在多个所述特征值中的最大特征值小于所述预设阈值的情况下,确定实体链指结果为空;
确定所述目标实体对应的目标类型;
将所述目标实体和所述目标类型加入所述知识库中。
可选地,所述候选特征还包括所述目标实体的独立特征,其中,所述独立特征包括所述目标实体在所述知识库中的出现频次、所述目标实体的访问频率和所述目标实体的解释项的数量。
第二方面,提供了一种实体链指结果的确定装置,所述装置包括:
确定模块,用于确定目标文本中的目标实体,并从知识库中获取所述目标实体对应的候选实体;
得到模块,用于根据所述目标文本和所述候选实体所在的候选文本,得到多个候选特征,其中,所述候选文本为所述候选实体所在的上下文本;
输入输出模块,用于将所述多个候选特征输入感知器,得到所述感知器输出的每个候选实体的特征值;
作为模块,用于在多个所述特征值中的最大特征值不小于预设阈值的情况下,将所述最大特征值对应的候选实体作为所述目标实体的实体链指结果。
第三方面,提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现任一所述的方法步骤。
第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现任一所述的方法步骤。
本申请实施例有益效果:
本申请实施例提供了一种实体链指结果的确定方法,方法包括:服务器确定目标文本中的目标实体,并从知识库中获取目标实体对应的候选实体,然后根据目标文本和候选实体所在的候选文本,得到多个候选特征,再将多个候选特征输入感知器,得到感知器输出的每个候选实体的特征值,最后在多个特征值中的最大特征值不小于预设阈值的情况下,将最大特征值对应的候选实体作为目标实体的实体链指结果。在本申请中,服务器采用目标实体所在的目标文本和候选实体所在的候选文本,考虑了实体的上下文,使实体含义表述更准确,提高了链指结果的准确性。
当然,实施本申请的任一产品或方法并不一定需要同时达到以上的所有优点。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种实体链指结果的确定方法硬件环境示意图;
图2为本申请实施例提供的一种实体链指结果的确定的方法流程图;
图3为本申请实施例提供的得到类型特征的流程示意图;
图4为本申请实施例提供的得到匹配特征的流程示意图;
图5为本申请实施例提供的得到损失特征的流程示意图;
图6为本申请实施例提供的实体链指结果的确定的处理流程图;
图7为本申请实施例提供的一种实体链指结果的确定装置的结构示意图;
图8为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本申请的说明,其本身并没有特定的意义。因此,“模块”与“部件”可以混合地使用。
为了解决背景技术中提及的问题,根据本申请实施例的一方面,提供了一种实体链指结果的确定方法的实施例。
可选地,在本申请实施例中,上述实体链指结果的确定方法可以应用于如图1所示的由终端101和服务器103所构成的硬件环境中。如图1所示,服务器103通过网络与终端101进行连接,可用于为终端或终端上安装的客户端提供服务,可在服务器上或独立于服务器设置数据库105,用于为服务器103提供数据存储服务,上述网络包括但不限于:广域网、城域网或局域网,终端101包括但不限于PC、手机、平板电脑等。
本申请实施例中的一种实体链指结果的确定方法可以由服务器103来执行,还可以是由服务器103和终端101共同执行。
本申请实施例提供了一种实体链指结果的确定方法,可以应用于服务器,用于提高实体链指的准确率。
下面将结合具体实施方式,对本申请实施例提供的一种实体链指结果的确定方法进行详细的说明,如图2所示,具体步骤如下:
步骤201:确定目标文本中的目标实体,并从知识库中获取目标实体对应的候选实体。
在本申请实施例中,服务器首先确定目标文本,目标文本可以为一个短文本,示例性地,目标文本可以为微博内容、文章或视频的标题、对话内容等。目标实体为目标文本中的一个短语或词语,可以为称为mention实体。
服务器根据目标实体,从知识库中选取与目标实体含义相同或相似的候选实体,其中,候选实体可以为目标实体的缩写、同名词、别名词或同义词等。示例性地,目标实体表示海绵宝宝这个角色,同名词的候选实体表示海绵宝宝这部动画片,目标实体和候选实体的名称相同但表示的含义不同;目标实体为荷花,别名词的候选实体为芙渠,目标实体和候选实体的含义相同但名称完全不同;目标实体为内蒙古,同义词的候选实体为内蒙古自治区,目标实体和候选实体的含义相同但名称却部分不同。
步骤202:根据目标文本和候选实体所在的候选文本,得到多个候选特征。
其中,候选文本为候选实体所在的上下文本。
一个目标实体可能会对应知识库中的多个候选实体,长尾或者丰富度较小的候选实体则会引入噪声,影响链指结果的准确度和处理性能,因此需要确定候选实体的候选特征,并对候选特征进行过滤噪声处理。
候选特征包括目标实体的context相关特征,其中,相关特征包括采用DeepType算法得到的类型特征、采用DeepMatch算法得到的匹配特征、采用DeepCosine算法得到的损失特征、共线特征和协同推理特征。
服务器根据目标文本和目标实体得到目标实体的类型特征;根据目标文本和候选文本,得到目标实体和候选实体的匹配特征;根据目标实体和候选实体得到损失特征;根据目标文本中除目标实体外的第一实体和候选文本中除候选实体外的第二实体得到共现特征;根据目标文本和候选文本得到协同推理特征。
步骤203:将多个候选特征输入感知器,得到感知器输出的每个候选实体的特征值。
服务器将候选实体的多个候选特征输入感知器,得到感知器输出的每个候选实体的特征值。其中,感知器可以为MLP(Multilayer Perceptron,多层感知机)。
步骤204:在多个特征值中的最大特征值不小于预设阈值的情况下,将最大特征值对应的候选实体作为目标实体的实体链指结果。
服务器将多个候选实体的特征值进行由大到小的rank排序,确定排序在第一位的最大特征值,若服务器确定最大特征值不小于预设阈值,则将最大特征值对应的候选实体作为目标实体的实体链指结果,链指到该最大特征值对应的候选实体。
若服务器确定最大特征值小于预设阈值,则确定实体链指结果为空,该链指实体为NULL实体,服务器采用DeepType确定目标实体对应的目标类型,然后将目标实体和目标类型加入知识库中,这样知识库中的实体均含有对应的实体类型。
在本申请中,服务器采用目标实体所在的目标文本和候选实体所在的候选文本,考虑了实体的上下文,使实体含义表述更准确,提高了链指结果的准确性。候选特征可以作为训练集数据,提高模型训练准确性。另外,本申请在知识库中增加了没有链指结果的NULL实体,将NULL实体和实体类型加入知识库中,扩充了知识库数据,便于利用知识库进行后续的模型训练,提高了模型训练的准确率。
作为一种可选的实施方式,如图3所示,候选特征包括类型特征,根据目标文本得到多个候选特征包括:将目标文本输入语言表征模型,得到语言表征模型输出的目标实体在目标文本中的起始位置对应的起始向量、结束位置对应的结束向量和目标实体在目标文本中的含义对应的第一含义向量;将起始向量、结束向量和第一含义向量进行向量连接,得到第一向量;将第一向量输入分类识别模型,得到目标实体对应的类型特征。
在本申请实施例中,语言表征模型可以为BERT模型,如图3所示,大框表示BERT模型,大框外的方框表示目标文本中的多个分词,目标文本输入BERT模型,BERT模型对目标文本进行编码再解码,得到图框中第一行的方框,每个方框表示各分词的向量,entity span表示目标文本。BERT模型输出目标实体在目标文本中的起始位置对应的起始向量、目标实体在目标文本中的结束位置对应的结束向量和目标实体在目标文本中的含义对应的第一含义向量,第一含义向量为CRF((conditional random field,条件随机场)位置的向量。
服务器将起始向量、结束向量和第一含义向量进行向量连接,得到第一向量,然后将第一向量输入分类识别模型,通过softmax得到目标实体在各个类型的分数,然后选取分数最高的类型作为目标实体对应的类型特征。
在本申请中,通过DeepType算法将类型特征作为实体链指的一个指标,考虑了目标实体与上下文之间的关系,提高了实体链指的准确度。
作为一种可选的实施方式,候选特征包括匹配特征,如图4所示,根据目标文本和候选实体所在的候选文本,得到多个候选特征包括:将目标文本和候选文本输入语言表征模型,得到语言表征模型输出的目标实体在目标文本中的起始位置对应的起始向量、结束位置对应的结束向量和目标实体在目标文本中的含义对应的第二含义向量;将起始向量、结束向量和第二含义向量进行向量连接,得到第二向量;将第二向量输入匹配模型,得到目标实体和候选实体的匹配特征。
在本申请实施例中,语言表征模型可以为BERT模型,如图4所示,大框表示BERT模型,大框外的方框表示目标文本和候选文本中的每句话,目标文本和候选文本输入BERT模型,BERT模型对目标文本和候选文本进行编码再解码,得到图框中第一行的方框,每个方框表示编解码后的目标文本和候选文本中的每句话。BERT模型用于计算目标文本和候选文本的相关性。
BERT模型输出目标实体在目标文本中的起始位置对应的起始向量、目标实体在目标文本中的结束位置对应的结束向量和目标实体在目标文本中的含义对应的第二含义向量,由于图4中BERT模型的输入和图3中BERT模型的输入不同,因此,第一含义向量和第二含义向量也不同,第二含义向量还考虑到了候选文本。
在图4中,CLS表示第二含义向量,start表示起始向量,end表示结束向量,服务器将起始向量、结束向量和第二含义向量进行向量连接concat,得到第二向量,然后将第二向量输入匹配模型,得到目标实体和候选实体的匹配特征。其中,CONCAT(str1,str2,…)返回结果为连接参数产生的字符串。如有任何一个参数为NULL,则返回值为NULL。匹配模型中采用到了dense全连接层神经网络和Sigmoid激活函数,Dense网络可以有效解决梯度消失问题、强化特征传播、支持特征重用和大幅度减少参数数量。sigmod函数实现简单,导数易获得。另外其输出在[0,1],所以可以用作输出层,表示概率,具有最大熵模型,受噪声数据影响较小。Dropoout能够防止过拟合。
可选地,知识库中的候选文本为SPO三元组,即主语Subject+谓语Predicate+宾语Object,其中,候选实体为主语。
在本申请中,采用DeepMatch算法,将把实体链指转化为实体文本和候选文本的匹配问题,确定实体文本和候选文本的相关性,有效提高了实体链指的准确性。
作为一种可选的实施方式,如图5所示,根据目标文本和候选实体所在的候选文本,得到多个候选特征包括:分别将目标文本和候选文本输入语言表征模型,得到语言表征模型输出的目标文本对应的目标文本向量和候选文本对应的候选文本向量;在目标文本向量中选取目标实体对应的目标向量,并在候选文本向量中选取候选实体对应的候选向量;确定目标向量和候选向量之间的余弦距离损失值;将余弦距离损失值作为损失特征。
在本申请实施例中,在本申请实施例中,语言表征模型可以为BERT模型,如图5所示,大框表示BERT模型,大框外的方框表示目标文本和候选文本中的每句话,目标文本和候选文本输入BERT模型,BERT模型对目标文本和候选文本进行编码再解码,得到图框中第一行的方框,每个方框表示目标文本中每个实体的向量或候选文本中的每个实体的向量。服务器确定目标实体对应的目标向量和候选实体对应的候选向量,然后计算目标向量和候选向量之间的余弦距离损失值,将余弦距离损失值作为损失特征。
在本申请中,采用DeepCosine算法计算目标向量和候选向量之间的余弦距离损失值,构建实体之间的相关性用于训练。
作为一种可选的实施方式,候选特征包括共现特征,根据目标文本和候选实体所在的候选文本,得到多个候选特征包括:确定目标文本中除目标实体之外的第一实体和候选文本中除候选实体之外的第二实体;若第一实体和第二实体存在交集,则确定共现特征是为1的数值;若第一实体和第二实体不存在交集,则确定共现特征值是为0的数值。
服务器确定目标文本的目标实体后,将目标文本中的其他实体作为第一实体,服务器确定候选文本中的候选实体后,将候选文本中的其他实体作为第二实体,服务器确定第一实体和第二实体是否存在交集,若服务器确定第一实体和第二实体存在交集,表明第一实体和第二实体为类型相同,则目标实体和候选实体类型相同的可能性也很大,则共现特征是为1;若服务器确定第一实体和第二实体不存在交集,表明第一实体和第二实体为类型可能不相同,则目标实体和候选实体类型相同的可能性不大,则共现特征是为0。
示例性地,目标文本为“A和B都是我喜欢的角色”,其中,“A”为目标实体,“B”为第一实体;候选文本为“A和C都是我喜欢的动画片”,其中,“A”为候选实体,“C”为第二实体。“B”和“C”的交集为0,表示“B”和“C”的所属类型不同,则共现特征为0。
作为一种可选的实施方式,候选特征还包括协同推理特征,若有多个候选实体对应同一个目标实体,则系统推理特征为1,若仅有一个候选实体对应同一个目标实体,则系统推理特征为0。
作为一种可选的实施方式,候选特征还包括目标实体的独立特征,其中,独立特征包括目标实体在知识库中的出现频次(流行度)、目标实体的访问频率(热度)和目标实体的解释项的数量(丰富度)。候选特征用于根据上下文消除实体歧义,使目标实体和候选实体的含义相同,提高链指结果的准确性。
在本申请中,服务器通过BERT预训练模型构建了context相关特征,实现了类型特征、匹配特征、损失特征,配合context独立特征共同参与训练过程,提升了实体链指结果的准确性。
作为一种可选的实施方式,确定目标文本中的目标实体包括:通过开源工具对目标文本进行切词处理,得到多个分词;通过命名实体识别方案合并多个分词,得到包含多个分词的列表;从列表中选取目标实体,其中,目标实体为多个分词中的一个。
服务器利用开源工具,采用知识图谱中已有的词条名以及开放文本整合得到的词典,配合维特比算法对目标文本进行切词处理,得到多个分词。然后采用BERT+CRF来做命名实体识别,合并多个分词,得到包含多个分词的列表,最后从列表中选取目标实体。命名实体识别方案可以解决目标文本有多个实体词但是只有一部分被识别的问题,提高实体词的识别率,防止实体词识别遗漏。其中,开源工具可以为jieba分词。
可选的,本申请实施例还提供了实体链指结果的确定的处理流程图,如图6所示,具体步骤如下。
1.通过切词工具和命名实体识别得到目标文本中的目标实体。
2.从知识库中选取目标实体对应的候选实体。
3.构建候选特征,候选特征包括context独立特征和context相关特征,context独立特征包括实体热度和实体丰富度,context相关特征包括采用DeepType算法得到的类型特征、采用DeepMatch算法得到的匹配特征、采用DeepCosine算法得到的损失特征。
4.将多个候选特征输入MLP,得到每个候选实体的特征值。
5.将多个候选实体的特征值进行由大到小的rank排序,选取最大特征值。
6.判断特征值是否不小于预设阈值,若是,则执行步骤7,若不是,
则执行步骤8。
7.链指到该最大特征值对应的候选实体。
8.确定链指实体为NULL实体,将该目标实体和对应的目标类型加入知识库中。
基于相同的技术构思,本申请实施例还提供了一种实体链指结果的确定装置,如图7所示,该装置包括:
第一确定模块701,用于确定目标文本中的目标实体,并从知识库中获取目标实体对应的候选实体;
得到模块702,用于根据目标文本和候选实体所在的候选文本,得到多个候选特征,其中,候选文本为候选实体所在的上下文本;
输入输出模块703,用于将多个候选特征输入感知器,得到感知器输出的每个候选实体的特征值;
作为模块704,用于在多个特征值中的最大特征值不小于预设阈值的情况下,将最大特征值对应的候选实体作为目标实体的实体链指结果。
可选地,候选特征包括类型特征,得到模块702包括:
第一输入输出单元,用于将目标文本输入语言表征模型,得到语言表征模型输出的目标实体在目标文本中的起始位置对应的起始向量、结束位置对应的结束向量和目标实体在目标文本中的含义对应的第一含义向量;
第一连接单元,用于将起始向量、结束向量和第一含义向量进行向量连接,得到第一向量;
第二输入输出单元,用于将第一向量输入分类识别模型,得到目标实体对应的类型特征。
可选地,候选特征包括匹配特征,得到模块702包括:
第三输入输出单元,用于将目标文本和候选文本输入语言表征模型,得到语言表征模型输出的目标实体在目标文本中的起始位置对应的起始向量、结束位置对应的结束向量和目标实体在目标文本中的含义对应的第二含义向量;
第二连接单元,用于将起始向量、结束向量和第二含义向量进行向量连接,得到第二向量;
第四输入输出单元,用于将第二向量输入匹配模型,得到目标实体和候选实体的匹配特征。
可选地,候选特征包括损失,得到模块702包括:
第五输入输出单元,用于分别将目标文本和候选文本输入语言表征模型,得到语言表征模型输出的目标文本对应的目标文本向量和候选文本对应的候选文本向量;
选取单元,用于在目标文本向量中选取目标实体对应的目标向量,并在候选文本向量中选取候选实体对应的候选向量;
第一确定单元,用于确定目标向量和候选向量之间的余弦距离损失值;
作为单元,用于将余弦距离损失值作为损失特征。
可选地,候选特征包括共现特征,得到模块702包括:
第二确定单元,用于确定目标文本中除目标实体之外的第一实体和候选文本中除候选实体之外的第二实体;
第三确定单元,用于若第一实体和第二实体存在交集,则确定共现特征是为1的数值;
第四确定单元,用于若第一实体和第二实体不存在交集,则确定共现特征值是为0的数值。
可选地,该装置还包括:
第二确定模块,用于在多个特征值中的最大特征值小于预设阈值的情况下,确定实体链指结果为空;
第三确定模块,用于确定目标实体对应的目标类型;
加入模块,用于将目标实体和目标类型加入知识库中。
可选地,候选特征还包括目标实体的独立特征,其中,独立特征包括目标实体在知识库中的出现频次、目标实体的访问频率和目标实体的解释项的数量。
根据本申请实施例的另一方面,本申请提供了一种电子设备,如图8所示,包括存储器803、处理器801、通信接口802及通信总线804,存储器803中存储有可在处理器801上运行的计算机程序,存储器803、处理器801通过通信接口802和通信总线804进行通信,处理器801执行计算机程序时实现上述方法的步骤。
上述电子设备中的存储器、处理器通过通信总线和通信接口进行通信。所述通信总线可以是外设部件互连标准(Peripheral Component Interconnect,简称PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
根据本申请实施例的又一方面还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质。
可选地,在本申请实施例中,计算机可读介质被设置为存储用于所述处理器执行上述方法步骤的程序代码。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
本申请实施例在具体实现时,可以参阅上述各个实施例,具有相应的技术效果。
可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(ApplicationSpecific Integrated Circuits,ASIC)、数字信号处理器(Digital Signal Processing,DSP)、数字信号处理设备(DSP Device,DSPD)、可编程逻辑设备(Programmable LogicDevice,PLD)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。
对于软件实现,可通过执行本文所述功能的单元来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本申请的具体实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种实体链指结果的确定方法,其特征在于,所述方法包括:
确定目标文本中的目标实体,并从知识库中获取所述目标实体对应的候选实体;
根据所述目标文本和所述候选实体所在的候选文本,得到多个候选特征,其中,所述候选文本为所述候选实体所在的上下文本;
将所述多个候选特征输入感知器,得到所述感知器输出的每个候选实体的特征值;
在多个所述特征值中的最大特征值不小于预设阈值的情况下,将所述最大特征值对应的候选实体作为所述目标实体的实体链指结果。
2.根据权利要求1所述的方法,其特征在于,所述候选特征包括类型特征,根据所述目标文本得到多个候选特征包括:
将所述目标文本输入语言表征模型,得到所述语言表征模型输出的所述目标实体在所述目标文本中的起始位置对应的起始向量、结束位置对应的结束向量和所述目标实体在所述目标文本中的含义对应的第一含义向量;
将所述起始向量、所述结束向量和所述第一含义向量进行向量连接,得到第一向量;
将所述第一向量输入分类识别模型,得到所述目标实体对应的类型特征。
3.根据权利要求1所述的方法,其特征在于,所述候选特征包括匹配特征,根据所述目标文本和所述候选实体所在的候选文本,得到多个候选特征包括:
将所述目标文本和所述候选文本输入语言表征模型,得到所述语言表征模型输出的所述目标实体在所述目标文本中的起始位置对应的起始向量、结束位置对应的结束向量和所述目标实体在所述目标文本中的含义对应的第二含义向量;
将所述起始向量、所述结束向量和所述第二含义向量进行向量连接,得到第二向量;
将所述第二向量输入匹配模型,得到所述目标实体和所述候选实体的匹配特征。
4.根据权利要求1所述的方法,其特征在于,所述候选特征包括损失,根据所述目标文本和所述候选实体所在的候选文本,得到多个候选特征包括:
分别将所述目标文本和所述候选文本输入语言表征模型,得到所述语言表征模型输出的所述目标文本对应的目标文本向量和所述候选文本对应的候选文本向量;
在所述目标文本向量中选取所述目标实体对应的目标向量,并在所述候选文本向量中选取所述候选实体对应的候选向量;
确定所述目标向量和所述候选向量之间的余弦距离损失值;
将所述余弦距离损失值作为损失特征。
5.根据权利要求1所述的方法,其特征在于,所述候选特征包括共现特征,所述根据所述目标文本和所述候选实体所在的候选文本,得到多个候选特征包括:
确定所述目标文本中除所述目标实体之外的第一实体和所述候选文本中除所述候选实体之外的第二实体;
若所述第一实体和所述第二实体存在交集,则确定所述共现特征是为1的数值;
若所述第一实体和所述第二实体不存在交集,则确定所述共现特征值是为0的数值。
6.根据权利要求1所述的方法,其特征在于,得到所述感知器输出的每个候选实体的特征值之后,所述方法还包括:
在多个所述特征值中的最大特征值小于所述预设阈值的情况下,确定实体链指结果为空;
确定所述目标实体对应的目标类型;
将所述目标实体和所述目标类型加入所述知识库中。
7.根据权利要求1所述的方法,其特征在于,所述候选特征还包括所述目标实体的独立特征,其中,所述独立特征包括所述目标实体在所述知识库中的出现频次、所述目标实体的访问频率和所述目标实体的解释项的数量。
8.一种实体链指结果的确定装置,其特征在于,所述装置包括:
确定模块,用于确定目标文本中的目标实体,并从知识库中获取所述目标实体对应的候选实体;
得到模块,用于根据所述目标文本和所述候选实体所在的候选文本,得到多个候选特征,其中,所述候选文本为所述候选实体所在的上下文本;
输入输出模块,用于将所述多个候选特征输入感知器,得到所述感知器输出的每个候选实体的特征值;
作为模块,用于在多个所述特征值中的最大特征值不小于预设阈值的情况下,将所述最大特征值对应的候选实体作为所述目标实体的实体链指结果。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-7任一所述的方法步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-7任一所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110043192.4A CN112732917B (zh) | 2021-01-13 | 2021-01-13 | 一种实体链指结果的确定方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110043192.4A CN112732917B (zh) | 2021-01-13 | 2021-01-13 | 一种实体链指结果的确定方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112732917A true CN112732917A (zh) | 2021-04-30 |
CN112732917B CN112732917B (zh) | 2024-08-30 |
Family
ID=75593112
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110043192.4A Active CN112732917B (zh) | 2021-01-13 | 2021-01-13 | 一种实体链指结果的确定方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112732917B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114118087A (zh) * | 2021-10-18 | 2022-03-01 | 广东明创软件科技有限公司 | 实体确定方法、装置、电子设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107608960A (zh) * | 2017-09-08 | 2018-01-19 | 北京奇艺世纪科技有限公司 | 一种命名实体链接的方法和装置 |
CN110569496A (zh) * | 2018-06-06 | 2019-12-13 | 腾讯科技(深圳)有限公司 | 实体链接方法、装置及存储介质 |
CN110991187A (zh) * | 2019-12-05 | 2020-04-10 | 北京奇艺世纪科技有限公司 | 一种实体链接的方法、装置、电子设备及介质 |
CN111401049A (zh) * | 2020-03-12 | 2020-07-10 | 京东方科技集团股份有限公司 | 一种实体链接方法及装置 |
CN111428507A (zh) * | 2020-06-09 | 2020-07-17 | 北京百度网讯科技有限公司 | 实体链指方法、装置、设备以及存储介质 |
CN111695350A (zh) * | 2019-03-14 | 2020-09-22 | 北京嘀嘀无限科技发展有限公司 | 一种文本的分词方法及分词装置 |
-
2021
- 2021-01-13 CN CN202110043192.4A patent/CN112732917B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107608960A (zh) * | 2017-09-08 | 2018-01-19 | 北京奇艺世纪科技有限公司 | 一种命名实体链接的方法和装置 |
CN110569496A (zh) * | 2018-06-06 | 2019-12-13 | 腾讯科技(深圳)有限公司 | 实体链接方法、装置及存储介质 |
CN111695350A (zh) * | 2019-03-14 | 2020-09-22 | 北京嘀嘀无限科技发展有限公司 | 一种文本的分词方法及分词装置 |
CN110991187A (zh) * | 2019-12-05 | 2020-04-10 | 北京奇艺世纪科技有限公司 | 一种实体链接的方法、装置、电子设备及介质 |
CN111401049A (zh) * | 2020-03-12 | 2020-07-10 | 京东方科技集团股份有限公司 | 一种实体链接方法及装置 |
CN111428507A (zh) * | 2020-06-09 | 2020-07-17 | 北京百度网讯科技有限公司 | 实体链指方法、装置、设备以及存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114118087A (zh) * | 2021-10-18 | 2022-03-01 | 广东明创软件科技有限公司 | 实体确定方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112732917B (zh) | 2024-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200012953A1 (en) | Method and apparatus for generating model | |
CN108829822B (zh) | 媒体内容的推荐方法和装置、存储介质、电子装置 | |
CN111259127B (zh) | 一种基于迁移学习句向量的长文本答案选择方法 | |
WO2019153737A1 (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
CN110309267A (zh) | 基于预训练模型的语义检索方法和系统 | |
CA3009758A1 (en) | Systems and methods for suggesting emoji | |
CN111159485B (zh) | 尾实体链接方法、装置、服务器及存储介质 | |
WO2020005601A1 (en) | Semantic parsing of natural language query | |
CN109635157B (zh) | 模型生成方法、视频搜索方法、装置、终端及存储介质 | |
CN113392209B (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
CN109376222A (zh) | 问答匹配度计算方法、问答自动匹配方法及装置 | |
US20220114340A1 (en) | System and method for an automatic search and comparison tool | |
CN113761890B (zh) | 一种基于bert上下文感知的多层级语义信息检索方法 | |
US20230153522A1 (en) | Image captioning | |
Liu et al. | Open intent discovery through unsupervised semantic clustering and dependency parsing | |
Başarslan et al. | Sentiment analysis on social media reviews datasets with deep learning approach | |
US20230094730A1 (en) | Model training method and method for human-machine interaction | |
CN116258137A (zh) | 文本纠错方法、装置、设备和存储介质 | |
Mitroi et al. | Sentiment analysis using topic-document embeddings | |
CN111931516A (zh) | 一种基于强化学习的文本情感分析方法及系统 | |
Pu et al. | Lexical knowledge enhanced text matching via distilled word sense disambiguation | |
CN111274366A (zh) | 搜索推荐方法及装置、设备、存储介质 | |
CN114626367A (zh) | 基于新闻文章内容的情感分析方法、系统、设备及介质 | |
CN117670017B (zh) | 一种基于事件的风险识别方法、装置以及电子设备 | |
CN112732917A (zh) | 一种实体链指结果的确定方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |