CN113221573A - 一种实体分类的方法、装置、计算设备及存储介质 - Google Patents
一种实体分类的方法、装置、计算设备及存储介质 Download PDFInfo
- Publication number
- CN113221573A CN113221573A CN202110603261.2A CN202110603261A CN113221573A CN 113221573 A CN113221573 A CN 113221573A CN 202110603261 A CN202110603261 A CN 202110603261A CN 113221573 A CN113221573 A CN 113221573A
- Authority
- CN
- China
- Prior art keywords
- entity
- question
- group
- predicted
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
本申请提供一种实体分类方法、装置、计算设备及存储介质,所述方法包括:获取第一文本中的待预测实体与至少一个已知实体;分别根据待预测实体与至少一个已知实体中的每个已知实体构造问答对话,得到至少一组问答对话;将至少一组问答对话输入至训练好的分类模型,得到待预测实体对应的至少一组预测概率分布;根据至少一组预测概率分布确定待预测实体所属的类别。本申请通过构造问答对话的方式,将上下文中已知实体的先验知识引入来扩充信息量,能够提高对短文本中待预测实体分类的准确性。
Description
技术领域
本申请涉及自然语言处理领域,尤其涉及一种实体分类的方法、装置、计算设备及存储介质。
背景技术
实体链接任务是近年来自然语言处理方法研究和应用领域的一个热点,在知识图谱的构建等场景中非常有用。实体链接旨在将短文本中存在的实体与知识图谱中的某个对应实体进行关联,从而达到对于短文本中实体解释和消歧的目的。现有的知识图谱广泛收纳了大量实体并且在不断扩充之中,尽管如此,仍然存在一些生僻的实体不存在知识图谱之中,对于这些生僻实体,我们可以按照其特征进行类型的划分,通过实体分类任务一定程度上达到实体消歧的目的。但包含生僻实体的短文本往往存在信息不足和语义不清等问题,对于正确预测其中的实体类型提出了很大的挑战。
发明内容
本申请提供一种实体分类方法,利用短文本中的多个存在于知识图谱中的已知实体,从知识图谱中获取已知实体的先验知识作为上下文的补充,根据每个已知实体的补充信息对一个待预测实体构建多组问答对话,输出根据每组问答对话得到的多个分类预测,最终得到对待预测实体的分类预测结果。通过将上下文中已知实体的先验知识引入模型输入来扩充信息量,能够提高分类模型对短文本中待预测实体分类的准确度。
第一方面,本申请提供一种实体分类方法,方法包括:获取第一文本中的待预测实体与至少一个已知实体,待预测实体为知识图谱中不存在的实体,至少一个已知实体为知识图谱中已存在的实体;分别根据待预测实体与至少一个已知实体中的每个已知实体构造问答对话,得到至少一组问答对话,其中,每个已知实体对应一组问答对话;分别将至少一组问答对话输入至训练好的分类模型,得到待预测实体对应的至少一组预测概率分布,其中,至少一组预测概率分布中的每组预测概率分布包括分类模型预测的待预测实体属于每个类别的概率,一组问答对话对应一组预测概率分布;根据至少一组预测概率分布确定待预测实体所属的类别。在短文本中,存在一些生僻的实体名不存在于知识图谱之中,对于这些未知的实体,不能将其与知识图谱中的某个实体相关联,但可以按照其特征进行实体分类。短文本的实体分类最大的问题在于上下文信息量的不足导致预测结果不准确,将待预测实体与已知实体一一结合,将原本的一组输入扩展为多组,最后对多组输入的输出结果融合得到最终的预测结果。
在一种可能的实现方式中,分别根据待预测实体与至少一个已知实体中的每个已知实体构造问答对话,得到至少一组问答对话,包括:根据第一文本与待预测实体构造问题文本;获取每个已知实体对应的先验知识,先验知识包括实体所属的类别;根据问题文本与每个已知实体对应的先验知识,得到至少一组问答对话,至少一组问答对话中的每组问答对话包括问题文本与一个已知实体对应的先验知识。
在原本的输入文本以外,以问答对话的构造方式加入已知实体的先验知识进行上下文的信息补充,相当于在输入中添加人工标注的信息补充,使得模型能够捕捉更多语义信息与类型特征,以实现对待预测实体更加准确的预测。
在一种可能的实现方式中,每组问答对话的问题文本前包括标识符,分别将至少一组问答对话输入至训练好的分类模型,得到待预测实体对应的至少一组预测概率分布包括:将每组问答对话转化为表征向量;对表征向量进行特征提取得到第一特征向量;将第一特征向量中标识符对应位置的特征向量和第一特征向量中待预测实体对应位置的特征向量进行拼接得到第二特征向量;根据第二特征向量输出待预测实体属于每个类别的概率,得到待预测实体对应的至少一组预测概率分布。
每个文本对应的特征向量都包含了上下文语境以及文本本身的信息,标识符位置的特征向量包含了整个句子对的信息。因此,选择标识符和<待预测实体>对应位置的特征向量进行均值拼接作为分类预测使用的第二特征向量。
在一种可能的实现方式中,根据至少一组预测概率分布确定待预测实体所属的类别包括:获取每组预测概率分布中待预测实体属于目标类别的预测概率,确定待预测实体属于目标类别的预测概率均值,目标类别为预测概率分布中实体类别中的任意一种;根据待预测实体属于每个类别的预测概率均值,得到待预测实体对应的预测概率均值分布,确定最大预测概率均值对应的类别为待预测实体所属的类别,预测概率均值分布包括待预测实体属于每个类别的预测概率均值。
对于一个待预测实体,可结合第一文本中的N个已知实体构造N组问答对话,构造的N组问答对话经过分类模型预测后得到N组待预测实体的预测概率分布。根据N组预测概率分布对每个类别求待预测实体属于该类别的预测概率均值,得到待预测实体的预测概率均值分布作为预测结果。根据预测概率均值分布,确定最大预测概率均值对应的类别为待预测实体的预测结果。
在一种可能的实现方式中,获取第一文本中的待预测实体与至少一个已知实体包括:对第一文本进行分词,得到多个实体;将多个实体与知识图谱中的实体进行匹配,确定第一文本中的多个实体在知识图谱中对应的实体,将在知识图谱中匹配到对应实体的第一文本中的至少一个实体作为已知实体,将未在知识图谱中匹配到对应实体的第一文本中的至少一个实体作为待预测实体。
在一种可能的实现方式中,将每组问答对话输入至训练好的分类模型之前,还包括:获取第二文本,第二文本中包括多个实体;分别将第二文本中多个实体中的一个实体作为标签实体,将多个实体中除标签实体外的其他实体作为第二文本中标签实体对应的已知实体;分别根据标签实体与标签实体对应的每个已知实体构造问答对话,得到标签实体对应的至少一组问答对话,其中,标签实体对应的每个已知实体对应一组问答对话;将标签实体对应的至少一组问答对话输入至待训练的分类模型进行训练,得到训练好的分类模型。
根据至少一组预测概率分布计算模型损失,其中,模型损失用来表示分类模型的预测结果与真实结果之间的误差。可以根据标签实体的每组预测概率分布与标签实体的实际概率分布计算模型损失,也可以根据标签实体的预测概率均值分布与标签实体的实际概率分布计算模型损失。根据模型损失更新分类模型参数,使得更新模型参数后的分类模型的模型损失减小,对待预测实体的类别预测更准确。
在一种可能的实现方式中,分别根据标签实体与标签实体对应的每个已知实体构造问答对话,,得到标签实体对应的至少一组问答对话包括:根据第二文本与标签实体构造问题文本;获取每个已知实体对应的先验知识和标签实体对应的先验知识;根据第二文本与标签实体构造的问题文本、标签实体对应的每个已知实体对应的先验知识与标签实体对应的先验知识,得到标签实体对应的至少一组问答对话,标签实体对应的至少一组问答对话中的每组问答对话包括第二文本与标签实体构造的问题文本、标签实体对应的一个已知实体对应的先验知识与标签实体对应的先验知识。
第二方面,本申请提供一种实体分类装置,装置包括:识别单元、问答对话构造单元和分类预测单元;识别单元,用于获取第一文本中的待预测实体与至少一个已知实体,待预测实体为知识图谱中不存在的实体,至少一个已知实体为知识图谱中已存在的实体;构造单元,用于分别根据待预测实体与至少一个已知实体中的每个已知实体构造问答对话,得到至少一组问答对话,其中,每个已知实体对应一组问答对话;分类预测单元,用于将至少一组问答对话输入至训练好的分类模型,得到待预测实体对应的至少一组预测概率分布,其中,至少一组预测概率分布中的每组预测概率分布包括分类模型预测的待预测实体属于每个类别的概率,一组问答对话对应一组预测概率分布;根据至少一组预测概率分布确定待预测实体所属的类别。
第三方面,本申请提供一种计算设备,包括处理器和存储器;所述存储器用于存储指令,所述处理器用于执行所述指令,当所述处理器执行所述指令时,所述计算设备执行如第一方面或第一方面任意可能的实现方式中所述的方法。
第四方面,本申请一种计算机存储介质,计算机存储介质存储有计算机程序,计算机程序被处理器执行时实现如第一方面或第一方面任意可能的实现方式中所述的方法。
本申请通过将文本中的已知实体与待预测实体结合构造问答对话,根据已知实体对短文本知识进行上下文的补充,使分类模型能够借助已知实体的类型来对待预测实体进行判断,一个短文本可以根据其中的n个已知实体扩充为n个模型输入,将多个输出结果融合判断,提高了预测的准确率与泛化能力。
附图说明
图1为本申请实施例提供的一种实体分类方法流程图;
图2为本申请实施例提供的一种问答对话构造的流程示意图;
图3为本申请实施例提供的一种实体分类模型的结构示意图;
图4为本申请实施例提供的一种实体分类的流程示意图;
图5为本申请实施例提供的一种分类模型训练的了流程示意图;
图6为本申请是实施例提供的一种实体分类模型的结构示意图;
图7是本申请实施例提供的一种计算设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
首先介绍本申请的应用场景。实体是指现实世界中客观存在的并可以相互区分的对象或事物,可以是具体的人事物,也可以是抽象的概念、联系。实体分类任务旨在将不存在于知识图谱中的实体正确地划分为多种类型。例如,可将实体划分为包括事件、人物、作品、区域场所、时间历法、品牌、自然地理、游戏、生物、药物、食物、软件、车辆、网站平台、疾病症状、组织机构、奖项、教育、文化、星座、法律法规、虚拟事物、诊断治疗方案和其他的24种类型。
传统的实体分类任务中,直接将文本输入分类模型进行实体分类预测,模型训练时也只是标注文本中目标实体的类别后输入模型进行训练,这种方法一定程度上利用了上下文的信息,能够解决一些实体的分类任务,但是对于短文本的预测准确度较低。如短文本“乔治佩奇坐校车去上学了,半路汽车没油了,超级飞侠来拯救他们了”,对其中的待预测实体“超级飞侠”进行预测,基于短文本中的上下文信息很可能将“超级飞侠”预测为“人物”类型,而“超级飞侠”的实际分类应为“虚拟事物”。短文本的预测不准确核心问题在于信息量不足,,导致分类模型的分类准确性较低。
为了解决上述问题,本申请实施例通过从知识图谱中获取短文本中已知实体的信息对短文本进行补充。由于短文本中有多个存在于知识图谱中的已知实体,将待预测实体与已知实体逐一结合构造多组问答对话,问答对话包含已知实体在知识图谱中的先验知识。将问答对话输入分类模型中进行分类预测,对同一待预测实体的多个预测结果进行融合作为最终的预测结果。其中,知识图谱包括互相有联系的实体和它们的先验知识,示例性的,知识图谱中记录的一个实体信息如下:
{"alias":[],
"subject_id":"10051",
"data":[
{"predicate":"摘要","object":"《海市蜃楼》是由熊先璟作词并作曲,吴陌川演唱的一首歌曲。"},
{"predicate":"义项描述","object":"吴陌川演唱歌曲"}],
"type":"作品",
"subject":"海市蜃楼"}
其中"alias","subject_id","data","type","subject"分别指代“实体别名”,“实体编号”,“详细信息”,“实体类型”以及“实体名”。
下面介绍本申请提供的一种实体分类方法,参见图1,图1为本申请实施例提供的一种实体分类方法流程图。
S101、获取第一文本中的待预测实体与至少一个已知实体。
其中,待预测实体为知识图谱中不存在的实体,已知实体为知识图谱中已存在的实体。
在获取第一文本后,首先需要确定第一文本包含的多个实体,并确定这多个实体中的待预测实体与已知实体。本申请实施例中,能够通过实体链接的方式确定第一文本中的待预测实体与已知实体,其中,实体链接是将一段文本中的某些字符串映射到知识图谱中对应的实体上。具体的,首先通过分词方法获取第一文本中的多个实体,然后将这多个实体中的每个实体与知识图谱进行实体链接,确定第一文本中的多个实体在知识图谱中对应的实体,将在知识图谱中找到对应实体的实体作为已知实体,未找到对应实体的为知识图谱中未收录的待预测实体,需要通过分类模型预测其类别。
上述分词方法可以是基于词表的分词方法,也可以是基于字的分词方法。本申请实施例不作具体限制。其中,基于词表的分词方法先把句子按照字典切分成词,再寻找词的最佳组合方式;基于字的分词方法即由字构词,先把句子分成一个个字,再将字组合成词,寻找最优的切分策略,同时也可以转化成序列标注问题。
S102、分别根据待预测实体与至少一个已知实体中的每个已知实体构造问答对话,得到至少一组问答对话。
其中,每个已知实体对应一组问答对话。
参见图2,第一文本中的每个已知实体都可以从知识图谱中获取额外的补充信息,根据待预测实体与每个已知实体的补充信息构造一组问答对话,第一文本中有多个实体可得到多组问答对话。
在一种可能的实现方式中,每组问答对话包括问题文本与一个已知实体的先验知识,其中,先验知识包括实体所属的类别。根据待预测实体与至少一个已知实体中的每个已知实体构造问答对话时,首先,根据第一文本与待预测实体构造问题文本,然后获取每个已知实体对应的先验知识。根据问题文本与每个已知实体对应的先验知识,得到第一文本对应的至少一组问答对话,其中每组问答对话包括问题文本与一个已知实体对应的先验知识。
示例性的,问答对话的一种构造方法如下:
当第一文本为“乔治佩奇坐校车去上学了,半路汽车没油了,超级飞侠来拯救他们了”时,其中的待预测实体为“超级飞侠”,已知实体为“乔治”、“佩奇”、“校车”、“上学”、“汽车”和“油”,根据“超级飞侠”分别与已知实体构造问答对话。以已知实体“乔治”为例,从知识图谱中获得“乔治”的先验知识为“乔治是动画《小猪佩奇》中的角色,乔治的类型是虚拟事物”,则可得到一组问答对话:
[“乔治佩奇坐校车去上学了,半路汽车没油了,超级飞侠来拯救他们了,<超级飞侠>是什么类型?”,
“乔治是动画《小猪佩奇》中的角色,乔治的类型是虚拟事物”]。
根据待预测实体“超级飞侠”与其他已知实体按照上述结构分别构造问答对话,在此不再赘述。
S103、将至少一组问答对话输入至训练好的分类模型,得到待预测实体对应的至少一组预测概率分布。
将根据上述S102中得到的第一文本对应的至少一组问答对话分别输入至训练好的分类模型,得到待预测实体对应的至少一组预测概率分布。其中,至少一组预测概率分布中的每组预测概率分布包括分类模型根据一组问答对话预测的待预测实体属于每个类别的概率,每组问答对话对应一组预测概率分布。例如,分类模型需要将待预测实体识别为24个类别中的一类,则每组预测概率分布包括24个概率值,每个概率值表示待预测实体属于对应类别的概率。
在一种可能的实现方式中,分类模型对问答对话的处理参见图3,图3为本申请实施例提供的一种实体分类模型的结构示意图。分类模型包括基于转换器的双向编码(Bidirectional Encoder Representation from Transformers,BERT)模型和一个SOFTMAX层。
在每组问答对话的问题文本前添加标识符[CLS]后输入BERT模型,在输入层将输入的问答对话转化为表征向量,对表征向量进行特征提取得到问答对话中每个字符对应位置的特征向量,作为第一特征向量输出。其中,每个字符对应位置的特征向量都包含了上下文语境以及字符本身的信息,标识符[CLS]位置的特征向量包含了整个句子对的信息。因此,选择标识符[CLS]和<待预测实体>对应位置的特征向量进行分类预测。将输出的第一特征向量中标识符和<待预测实体>对应位置的特征向量进行拼接得到第二特征向量输入SOFTMAX层,SOFTMAX层根据第二特征向量输出待预测实体属于每个类别的概率,输出待预测实体的一组预测概率分布。其中,预测概率分布为分类模型预测待预测实体属于每个类别的概率。
S104、根据至少一组预测概率分布确定待预测实体所属的类别。
根据一个待预测实体和多个已知实体构造多组问答对话,根据多组组问答对话可得到多组预测概率分布,每组预测概率分布包含待预测实体属于每个类别的预测概率值,根据多组预测概率分布中待预测实体属于每个类别的预测概率值计算平均值,最终确定待预测实体所属的类别。
在一种可能的实现方式中,对于一个待预测实体,可结合第一文本中的N个已知实体构造N组问答对话,构造的N组问答对话经过分类模型预测后得到N组待预测实体的预测概率分布。其中预测概率分布包含待预测实体属于每个类别的预测概率值,对于目标类别,根据N组预测概率分布中待预测实体属于目标类别的N个预测概率值计算平均值,得到待预测实体属于目标类别的预测概率均值,目标类别为预测概率分布中实体类别中的任意一个。根据至少一组预测概率分布计算待预测实体属于每个类别的预测概率均值,得到待预测实体的预测概率均值分布。根据预测概率均值分布,确定最大预测概率均值对应的类别为待预测实体所属的类别。
下面以一个例子说明上述实体分类方法。对第一文本“乔治佩奇坐校车去上学了,半路汽车没油了,超级飞侠来拯救他们了”进行实体分类。参见图4,图4为本申请实施例提供的一种实体分类的流程示意图。
对第一文本进行分词处理,确定短文本中的实体为“乔治”、“佩奇”、“校车”、“上学”、“汽车”、“油”和“超级飞侠”。
根据知识图谱构建匹配模型,如AC状态机等,依次将实体输入匹配模型进行实体匹配,输出结果如下:
{"text":"乔治佩奇坐校车去上学了,半路汽车没油了,超级飞侠来拯救他们了",
"mention_data":
[{"kb_id":"126702","mention":"乔治","offset":"0"},
{"kb_id":"175787","mention":"佩奇","offset":"2"},
{"kb_id":"175717","mention":"校车","offset":"5"},
{"kb_id":"160800","mention":"上学","offset":"8"},
{"kb_id":"11954","mention":"汽车","offset":"14"},
{"kb_id":"20376","mention":"油","offset":"17"},
{"kb_id":"NIL_VirtualThings","mention":"超级飞侠","offset":"20"}]}。
其中,text指第一文本,mention_data指第一文本中包含的实体,kb_id和mention分别指代实体在知识图谱中对应实体的编号和实体名,offset指代实体在第一文本中的起始位置。
实体“乔治”、“佩奇”、“校车”、“上学”、“汽车”和“油”在知识图谱中匹配到对应的实体,将其确定为已知实体;实体“超级飞侠”未在知识图谱中匹配到对应的实体,将其确定为待预测实体。
知识图谱中的实体被划分为24种类型,包括事件、人物、作品、区域场所、时间历法、品牌、自然地理、游戏、生物、药物、食物、软件、车辆、网站平台、疾病症状、组织机构、奖项、教育、文化、星座、法律法规、虚拟事物、诊断治疗方案和其他。“超级飞侠”的类型为虚拟事物,需要通过上下文已知实体的信息对“超级飞侠”的类型做正确的预测。
对于第一文本“乔治佩奇坐校车去上学了,半路汽车没油了,超级飞侠来拯救他们了”,我们用待预测实体“超级飞侠”分别与已知实体“乔治”、“佩奇”、“校车”、“上学”、“汽车”和“油”结合构造问答对话如下:
问答对话1:[“乔治佩奇坐校车去上学了,半路汽车没油了,超级飞侠来拯救他们了,<超级飞侠>是什么类型?”,
“乔治是动画《小猪佩奇》中的角色,乔治的类型是虚拟事物”];
问答对话2:[“乔治佩奇坐校车去上学了,半路汽车没油了,超级飞侠来拯救他们了,<超级飞侠>是什么类型?”,
“佩奇是动画《小猪佩奇》中的角色,佩奇的类型是虚拟事物”];
……
问答对话6:[“乔治佩奇坐校车去上学了,半路汽车没油了,超级飞侠来拯救他们了,<超级飞侠>是什么类型?”,
“油是常温下为液体憎水性物质总称,油的类型是其他”]。
以第一组问答对话为例,将问答对话[“乔治佩奇坐校车去上学了,半路汽车没油了,超级飞侠来拯救他们了,<超级飞侠>是什么类型?”,“乔治是动画片《小猪佩奇》角色,乔治的类型是虚拟事物”]输入分类模型。其中,BERT模型将输入的文本转化为表征向量,然后对表征向量进行特征提取得到第一特征向量输出。选择[CLS]和待预测实体<超级飞侠>所在位置的特征向量进行均值拼接得到第二特征向量输入SOFTMAX层,SOFTMAX层根据第二特征向量对待预测实体<超级飞侠>进行分类预测,得到一组<超级飞侠>属于24个类别的预测概率分布。
对于第一文本“乔治佩奇坐校车去上学了,半路汽车没油了,超级飞侠来拯救他们了”,以待预测实体“超级飞侠”分别与第一文本中的已知实体“乔治”、“佩奇”、“校车”、“上学”、“汽车”和“油”结合构造六组问答对话,经过分类模型预测后输出六组待预测实体的预测概率分布:
乔治[P10,P11,P12,P13,……,P123];
佩奇[P20,P21,P22,P23,……,P223];
……
油[P60,P61,P62,P63,……,P623]。
P10表示在待预测实体“超级飞侠”与已知实体“乔治”组合构造的问答对话中,分类模型预测待预测实体属于第一种类别的预测概率;P11表示在待预测实体“超级飞侠”与已知实体“乔治”组合构造的问答对话中,分类模型预测待预测实体属于第二种类别的预测概率;P20表示在待预测实体“超级飞侠”与已知实体“佩奇”组合构造的问答对话中,分类模型预测待预测实体属于第一种类别的预测概率。
对于每个类别,根据所有预测概率分布计算待预测实体属于该类别的概率均值,如根据所有预测概率分布中待预测实体属于第一种类别的概率P10-P60计算得到概率均值P0。最终可得到待预测实体属于每个类别的预测概率均值分布:
超级飞侠[P0,P1,P2,P3,……,P23]。
在24个预测概率均值中确定其中最大预测概率均值对应的类别为待预测实体“超级飞侠”所属于的类别,输出作为分类模型对“超级飞侠”类别的预测结果。
本申请通过将文本中的已知实体与待预测实体结合构造问答对话,根据已知实体对短文本知识进行上下文的补充,使分类模型能够借助已知实体的类型来对待预测实体进行判断,一个短文本可以根据其中的N个已知实体扩充为N个模型输入,将多个输出结果融合判断,提高了预测的准确率与泛化能力。
本申请实施例还提供一种分类模型的训练方法,参见图5,将每组问答对话输入至训练好的分类模型之前,使用第二文本对分类模型进行训练。
S501、获取第二文本,第二文本包括多个实体。
第二文本为包含多个已知实体的训练样本,第二文本中的每个实体均为知识图谱中存在的实体。
S502、分别将第二文本中多个实体中的一个实体作为标签实体,将多个实体中除标签实体外的其他实体作为第二文本中标签实体对应的已知实体。
分别将第二文本中的每个实体作为标签实体,其余实体作为已知实体,可以将一个第二文本扩展为多组训练样本进行训练。
示例性的,使用第二文本“乔治佩奇坐校车去上学了,半路汽车没油了,超级飞侠来拯救他们了”对分类模型进行训练。其中的实体“乔治”、“佩奇”、“校车”、“上学”、“汽车”、“油”和“超级飞侠”均为知识库中已存在的实体。
将“乔治”作为标签实体,则“佩奇”、“校车”、“上学”、“汽车”、“油”和“超级飞侠”为六个已知实体,得到第一组训练样本;将“佩奇”作为待预测实体,则“乔治”、“校车”、“上学”、“汽车”、“油”和“超级飞侠”为六个已知实体,得到第二组训练样本。将第二文本中的每个实体分别作为待预测实体可得到七组训练样本,对分类模型进行训练,其中,每组训练样本包括根据一个带预测实体与六个已知实体构造的六个问答对话。
S503、分别根据标签实体与标签实体对应的每个已知实体构造问答对话,得到至少一组问答对话。
其中,每个已知实体对应一组问答对话。问答对话包括问题文本与先验知识,根据第二文本与一个待预测实体构造问题文本;获取每个已知实体对应的先验知识和一个待预测实体对应的先验知识,先验知识包括实体所属的类别;根据问题文本、每个已知实体对应的先验知识与一个待预测实体对应的先验知识,得到至少一组问答对话,至少一组问答对话中的每组问答对话包括问题文本、一个已知实体对应的先验知识与一个待预测实体对应的先验知识。
示例性的,以S501中第一组训练样本为例,将“乔治”作为标签实体,“乔治”的实际类别为虚拟事物,将标签实体的实际类别作为先验知识加入问答对话。则标签实体“乔治”与已知实体“佩奇”组合构造的一组问答对话为:
[“乔治佩奇坐校车去上学了,半路汽车没油了,超级飞侠来拯救他们了,<乔治>是什么类型?”,
“佩奇是动画《小猪佩奇》中的角色,佩奇的类型是虚拟事物,乔治的类型是虚拟事物”]。
S504、将标签实体对应的至少一组问答对话输入至待训练的分类模型进行训练,得到训练好的分类模型。
分别将至少一组问答对话输入至分类模型,得到标签实体对应的至少一组预测概率分布,其中,至少一组预测概率分布中的每组预测概率分布包括分类模型预测的标签实体属于每个类别的概率,每组预测概率分布对应一组问答对话。
根据至少一组预测概率分布计算模型损失,其中,模型损失用来表示分类模型的预测结果与真实结果之间的误差。在本申请实施例中,能够根据标签实体的每组预测概率分布与标签实体的实际概率分布计算模型损失,也能够根据标签实体的预测概率均值分布与标签实体的实际概率分布计算模型损失。以S503中可根据标签实体“乔治”与已知实体“佩奇”、“校车”、“上学”、“汽车”、“油”和“超级飞侠”构造六组问答对话为例,得到六组预测概率分布。可以根据每组预测概率分布可计算得到一组模型损失,共得到六组模型损失,分别根据每组模型损失更新分类模型参数。也可以根据六组预测概率分布计算标签实体“乔治”属于每个类别的预测概率均值分布,根据预测概率均值分布计算得到一组模型损失,根据模型损失更新分类模型参数。
根据模型损失更新分类模型参数,使得更新模型参数后的分类模型的模型损失减小,对待预测实体的类别预测更准确。使用训练好的分类模型执行如上述步骤S103-S104中的方法,对待预测实体的类别进行预测。
下面介绍本申请实施例提供的一种实体分类装置,参见图6。实体分类装置600包括识别单元610、构造单元620和分类预测单元630;
识别单元610,用于获取第一文本中的待预测实体与至少一个已知实体,待预测实体为知识图谱中不存在的实体,至少一个已知实体为知识图谱中已存在的实体。识别单元610用于执行如上述步骤S101所述的操作。
构造单元620,用于分别根据待预测实体与至少一个已知实体中的每个已知实体构造问答对话,得到至少一组问答对话,其中,每个已知实体对应一组问答对话。构造单元620用于执行如上述步骤S102所述的操作。
分类预测单元630,用于将至少一组问答对话输入至训练好的分类模型,得到待预测实体对应的至少一组预测概率分布,其中,至少一组预测概率分布中的每组预测概率分布包括分类模型预测的待预测实体属于每个类别的概率,每组预测概率分布对应一组问答对话;根据至少一组预测概率分布确定待预测实体所属的类别。分类预测单元630用于执行如上述步骤S103-S104所述的操作。
下面介绍本申请实施例提供的一种计算设备的结构示意图,参见图7。计算设备700包括用于实现实体分类模型训练方法的操作的模块,包括:一个或者多个处理器710、通信接口720以及存储器730。可选的,所述处理器710、通信接口720以及存储器730通过总线750相互连接,其中,所述处理器710用于执行上述图1中S101-S104中所执行的步骤,在此不再赘述。
处理器710可以有多种具体实现形式,例如处理器710可以为中央处理器或图像处理器,处理器710还可以是单核处理器或多核处理器,处理器710还可以由CPU和硬件芯片的组合。
通信接口720可以为有线接口或无线接口,用于与其他模块或设备进行通信,有线接口可以是以太接口、局域互联网络(local interconnect network,LIN)等,无线接口可以是蜂窝网络接口或使用无线局域网接口等。
存储器730可以是非易失性存储器,例如,只读存储器(read-only memory,ROM)、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。存储器730也可以是易失性存储器,易失性存储器可以是随机存取存储器(random access memory,RAM),其用作外部高速缓存。
存储器730也可用于存储指令和数据,以便于处理器710调用存储器730中存储的指令实现上述S101-S104中执行的操作。此外,计算设备700可能包含相比于图7展示的更多或者更少的组件,或者有不同的组件配置方式。
总线750可以是外设部件互连标准(peripheral component interconnect,PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。所述总线750可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选地,该计算设备700还可以包括输入/输出接口740,输入/输出接口740连接有输入/输出设备,用于接收输入的信息,输出操作结果。
本申请实施例还提供一种非瞬态计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,当计算机程序在处理器上运行时,可以实现上述方法实施例中执行的方法步骤,所述计算机存储介质的处理器在执行上述方法步骤的具体实现可参照上述方法实施例中S101-S104的具体操作,在此不再赘述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置、电子设备和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置、电子设备和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种实体分类方法,其特征在于,所述方法包括:
获取第一文本中的待预测实体与至少一个已知实体,所述待预测实体为知识图谱中不存在的实体,所述至少一个已知实体为知识图谱中已存在的实体;
分别根据所述待预测实体与所述至少一个已知实体中的每个已知实体构造问答对话,得到至少一组问答对话,其中,所述每个已知实体对应一组问答对话;
分别将所述至少一组问答对话输入至训练好的分类模型,得到所述待预测实体对应的至少一组预测概率分布,其中,所述至少一组预测概率分布中的每组预测概率分布包括所述分类模型预测的所述待预测实体属于每个类别的概率,一组问答对话对应一组预测概率分布;
根据所述至少一组预测概率分布确定所述待预测实体所属的类别。
2.根据权利要求1所述的方法,其特征在于,所述分别根据所述待预测实体与所述至少一个已知实体中的每个已知实体构造问答对话,得到至少一组问答对话,包括:
根据所述第一文本与所述待预测实体构造问题文本;
获取所述每个已知实体对应的先验知识,所述先验知识包括实体所属的类别;
根据所述问题文本与所述每个已知实体对应的先验知识,得到所述至少一组问答对话,所述至少一组问答对话中的每组问答对话包括所述问题文本与一个已知实体对应的先验知识。
3.根据权利要求2所述的方法,其特征在于,所述每组问答对话的问题文本前包括标识符,所述分别将所述至少一组问答对话输入至训练好的分类模型,得到所述待预测实体对应的至少一组预测概率分布包括:
将每组问答对话转化为表征向量;
对所述表征向量进行特征提取得到第一特征向量;
将所述第一特征向量中标识符对应位置的特征向量和所述第一特征向量中所述待预测实体对应位置的特征向量进行拼接得到第二特征向量;
根据所述第二特征向量输出所述待预测实体属于每个类别的概率,得到所述待预测实体对应的至少一组预测概率分布。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述根据所述至少一组预测概率分布确定所述待预测实体所属的类别包括:
获取每组预测概率分布中所述待预测实体属于目标类别的预测概率,确定所述待预测实体属于所述目标类别的预测概率均值,所述目标类别为所述预测概率分布中实体类别中的任意一种;
根据所述待预测实体属于每个类别的预测概率均值,得到所述待预测实体对应的预测概率均值分布,确定最大预测概率均值对应的类别为所述待预测实体所属的类别,所述预测概率均值分布包括所述待预测实体属于每个类别的预测概率均值。
5.根据权利要求4所述的方法,其特征在于,所述获取第一文本中的待预测实体与至少一个已知实体包括:
对所述第一文本进行分词,得到多个实体;
将所述多个实体与知识图谱中的实体进行匹配,确定第一文本中的多个实体在所述知识图谱中对应的实体,将在知识图谱中匹配到对应实体的所述第一文本中的至少一个实体作为已知实体,将未在知识图谱中匹配到对应实体的所述第一文本中的至少一个实体作为待预测实体。
6.根据权利要求4所述的方法,其特征在于,所述将每组所述问答对话输入至所述训练好的分类模型之前,还包括:
获取第二文本,所述第二文本中包括多个实体;
分别将所述第二文本中多个实体中的一个实体作为标签实体,将所述多个实体中除所述标签实体外的其他实体作为所述第二文本中所述标签实体对应的已知实体;
分别根据所述标签实体与所述标签实体对应的每个已知实体构造所述问答对话,得到所述标签实体对应的至少一组问答对话,其中,所述标签实体对应的每个已知实体对应一组问答对话;
将所述标签实体对应的至少一组问答对话输入至待训练的分类模型进行训练,得到训练好的分类模型。
7.根据权利要求6所述的方法,其特征在于,所述分别根据所述标签实体与所述标签实体对应的每个已知实体构造所述问答对话,,得到所述标签实体对应的至少一组问答对话包括:
根据所述第二文本与所述标签实体构造问题文本;
获取所述每个已知实体对应的先验知识和所述标签实体对应的先验知识;
根据所述第二文本与所述标签实体构造的所述问题文本、所述标签实体对应的每个已知实体对应的先验知识与所述标签实体对应的先验知识,得到所述标签实体对应的至少一组问答对话,所述标签实体对应的至少一组问答对话中的每组问答对话包括所述第二文本与所述标签实体构造的问题文本、所述标签实体对应的一个已知实体对应的先验知识与所述标签实体对应的先验知识。
8.一种实体分类装置,其特征在于,所述装置包括:识别单元、问答对话构造单元和分类预测单元;
所述识别单元,用于获取第一文本中的待预测实体与至少一个已知实体,所述待预测实体为知识图谱中不存在的实体,所述至少一个已知实体为知识图谱中已存在的实体;
所述构造单元,用于分别根据所述待预测实体与所述至少一个已知实体中的每个已知实体构造问答对话,得到至少一组问答对话,其中,所述每个已知实体对应一组问答对话;
所述分类预测单元,用于将所述至少一组问答对话输入至训练好的分类模型,得到所述待预测实体对应的至少一组预测概率分布,其中,所述至少一组预测概率分布中的每组预测概率分布包括所述分类模型预测的所述待预测实体属于每个类别的概率,一组问答对话对应一组预测概率分布;
根据所述至少一组预测概率分布确定所述待预测实体所属的类别。
9.一种计算设备,其特征在于,包括处理器和存储器;所述存储器用于存储指令,所述处理器用于执行所述指令,当所述处理器执行所述指令时,所述计算设备执行如权利要求1至7任一项所述的方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110603261.2A CN113221573A (zh) | 2021-05-31 | 2021-05-31 | 一种实体分类的方法、装置、计算设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110603261.2A CN113221573A (zh) | 2021-05-31 | 2021-05-31 | 一种实体分类的方法、装置、计算设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113221573A true CN113221573A (zh) | 2021-08-06 |
Family
ID=77082149
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110603261.2A Pending CN113221573A (zh) | 2021-05-31 | 2021-05-31 | 一种实体分类的方法、装置、计算设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113221573A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114201603A (zh) * | 2021-11-04 | 2022-03-18 | 阿里巴巴(中国)有限公司 | 实体分类方法、装置、存储介质、处理器及电子装置 |
-
2021
- 2021-05-31 CN CN202110603261.2A patent/CN113221573A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114201603A (zh) * | 2021-11-04 | 2022-03-18 | 阿里巴巴(中国)有限公司 | 实体分类方法、装置、存储介质、处理器及电子装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107679234B (zh) | 客服信息提供方法、装置、电子设备、存储介质 | |
CN108363790B (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
CN107908635B (zh) | 建立文本分类模型以及文本分类的方法、装置 | |
CN111914568B (zh) | 文本修辞句的生成方法、装置、设备及可读存储介质 | |
CN107193865B (zh) | 人机交互中自然语言意图理解方法及装置 | |
US11861307B2 (en) | Request paraphrasing system, request paraphrasing model and request determining model training method, and dialogue system | |
Parra et al. | A methodology for the classification of quality of requirements using machine learning techniques | |
CN111651996B (zh) | 摘要生成方法、装置、电子设备及存储介质 | |
CN110309514A (zh) | 一种语义识别方法及装置 | |
CN110457708B (zh) | 基于人工智能的词汇挖掘方法、装置、服务器及存储介质 | |
JP2016513269A (ja) | 音響言語モデルトレーニングのための方法およびデバイス | |
CN113326380B (zh) | 基于深度神经网络的设备量测数据处理方法、系统及终端 | |
US11270082B2 (en) | Hybrid natural language understanding | |
CN111339292A (zh) | 文本分类网络的训练方法、系统、设备及存储介质 | |
WO2018174816A1 (en) | Method and apparatus for semantic coherence analysis of texts | |
CN112256845A (zh) | 意图识别方法、装置、电子设备和计算机可读存储介质 | |
CN115359799A (zh) | 语音识别方法、训练方法、装置、电子设备及存储介质 | |
CN110377691A (zh) | 文本分类的方法、装置、设备及存储介质 | |
CN113221573A (zh) | 一种实体分类的方法、装置、计算设备及存储介质 | |
US8666987B2 (en) | Apparatus and method for processing documents to extract expressions and descriptions | |
CN114139610B (zh) | 基于深度学习的中医药临床文献数据结构化方法及装置 | |
US11620127B2 (en) | Measuring documentation completeness in multiple languages | |
WO2022251720A1 (en) | Character-level attention neural networks | |
US11842165B2 (en) | Context-based image tag translation | |
CN114462418A (zh) | 事件检测方法、系统、智能终端及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |