CN111813942B - 实体分类方法和装置 - Google Patents

实体分类方法和装置 Download PDF

Info

Publication number
CN111813942B
CN111813942B CN202010728250.2A CN202010728250A CN111813942B CN 111813942 B CN111813942 B CN 111813942B CN 202010728250 A CN202010728250 A CN 202010728250A CN 111813942 B CN111813942 B CN 111813942B
Authority
CN
China
Prior art keywords
entity
training
sample set
target language
classification model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010728250.2A
Other languages
English (en)
Other versions
CN111813942A (zh
Inventor
缪庆亮
施淼元
钟丽娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sipic Technology Co Ltd
Original Assignee
Sipic Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sipic Technology Co Ltd filed Critical Sipic Technology Co Ltd
Priority to CN202010728250.2A priority Critical patent/CN111813942B/zh
Publication of CN111813942A publication Critical patent/CN111813942A/zh
Application granted granted Critical
Publication of CN111813942B publication Critical patent/CN111813942B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种实体分类方法和装置,其中,实体分类方法,包括:训练第一类别分类模型;收集与第一实体的对应的第二实体,确定第一实体与第二实体的第一对应关系;基于第一对应关系将第二实体与知识库做映射;将第一实体已分类的类别赋予第二实体以获得与第二实体对应的标记好类别的第一样本集合;利用机器翻译技术,将第一实体的名称翻译到目标语言中形成第三实体,确定第一实体和第三实体的第二对应关系,基于第二对应关系将第三实体与知识库做映射以获得与第三实体对应的标记好类别的第二样本集合;将第一样本集合作为训练集,训练目标语言中的第二类别分类模型,并利用第二样本集合对第二类别分类模型进行迭代训练。

Description

实体分类方法和装置
技术领域
本发明属于实体分类技术领域,尤其涉及实体分类方法和装置。
背景技术
目前已有的识别知识图谱中实体类别的方法主要根据分类模型,将实体分为预定义好的类别,如人物,机构,地点,植物,动物等等。如果换一种语言需要重新标注训练数据,重新训练分类模型。
发明内容
本发明实施例提供一种实体分类方法及装置,用于至少解决上述技术问题之一。
第一方面,本发明实施例提供一种实体分类方法,包括:在源语言S中训练第一类别分类模型;收集与所述源语言S中的第一实体的对应的目标语言T中的第二实体,确定所述第一实体与所述第二实体的第一对应关系;基于所述第一对应关系将所述第二实体与所述目标语言T的知识库做映射;将所述第一实体已分类的类别赋予所述第二实体以获得与所述第二实体对应的标记好类别的第一样本集合;利用机器翻译技术,将所述源语言S中的第一实体的名称翻译到目标语言中形成第三实体,确定所述第一实体和所述第三实体的第二对应关系,基于所述第二对应关系将所述第三实体与所述目标语言T的知识库做映射以获得与所述第三实体对应的标记好类别的第二样本集合;将所述第一样本集合作为训练集,训练所述目标语言中的第二类别分类模型,并利用所述第二样本集合对所述第二类别分类模型进行迭代训练。
第二方面,本发明实施例提供一种实体分类装置,包括:训练模块,配置为在源语言S中训练第一类别分类模型;收集确定模块,配置为收集与所述源语言S中的第一实体的对应的目标语言T中的第二实体,确定所述第一实体与所述第二实体的第一对应关系;映射模块。配置为基于所述第一对应关系将所述第二实体与所述目标语言T的知识库做映射;赋予模块,配置为将所述第一实体已分类的类别赋予所述第二实体以获得与所述第二实体对应的标记好类别的第一样本集合;翻译模块,配置为利用机器翻译技术,将所述源语言S中的第一实体的名称翻译到目标语言中形成第三实体,确定所述第一实体和所述第三实体的第二对应关系,基于所述第二对应关系将所述第三实体与所述目标语言T的知识库做映射以获得与所述第三实体对应的标记好类别的第二样本集合;训练迭代模块,配置为将所述第一样本集合作为训练集,训练所述目标语言中的第二类别分类模型,并利用所述第二样本集合对所述第二类别分类模型进行迭代训练。
第三方面,提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行第一方面所述的实体分类方法的步骤。
第四方面,本发明实施例还提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面所述方法的步骤。
本申请实施例提供的方法通过在一种语言上收集训练数据,训练分类模型,然后识别其他语言的实体类别,不需要重新在新语言上标注数据训练模型,从而可以实现跨语言实体分类的能力。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的一种实体分类方法的流程图;
图2为本发明一实施例提供的另一种实体分类方法的流程图;
图3是本发明实施例的实体分类的方案一具体实施例的系统流程图;
图4是本发明实施例的实体分类的方案一具体实施例的指代关系图;
图5是本发明实施例的实体分类的方案一具体实施例的实体infobox中跨语言信息图;
图6时本发明一实施例提供的一种实体分类装置的框图;
图7是本发明一实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,其示出了本发明的一种实体分类方法的一实施例的流程图。
如图1所示,在步骤101中,在源语言S中训练第一类别分类模型;
在步骤102中,收集与所述源语言S中的第一实体的对应的目标语言T中的第二实体,确定所述第一实体与所述第二实体的第一对应关系;
在步骤103中,基于所述第一对应关系将所述第二实体与所述目标语言T的知识库做映射;
在步骤104中,将所述第一实体已分类的类别赋予所述第二实体以获得与所述第二实体对应的标记好类别的第一样本集合;
在步骤105中,利用机器翻译技术,将所述源语言S中的第一实体的名称翻译到目标语言中形成第三实体,确定所述第一实体和所述第三实体的第二对应关系,基于所述第二对应关系将所述第三实体与所述目标语言T的知识库做映射以获得与所述第三实体对应的标记好类别的第二样本集合;
在步骤106中,将所述第一样本集合作为训练集,训练所述目标语言中的第二类别分类模型,并利用所述第二样本集合对所述第二类别分类模型进行迭代训练。
在本实施例中,对于步骤101,实体分类装置在源语言S中训练第一类别分类模型,例如,对源语言S中的实体类别进行定义、为每一个类别收集训练数据和在源语言S中训练实体类别分类模型。
对于步骤102,实体分类装置收集与源语言S中的第一实体的对应的目标语言T中的第二实体,确定第一实体与第二实体的第一对应关系,例如,中文为源语言,目标语言为英文,第一实体是姚明,第二实体是Yao Ming。
对于步骤103,实体分类装置基于第一对应关系将第二实体与目标语言T的知识库做映射,例如,源语言为中文,第一实体是姚明,类别为篮球运动员,第二实体是Yao Ming,将源语言S中的第一实体已经分类好的类别赋予目标语言T中的第二实体的类别,那么第二实体的类别也是篮球运动员。
对于步骤104,实体分类装置将第一实体已分类的类别赋予第二实体以获得与第二实体对应的标记好类别的第一样本集合,例如,源语言为中文,第一实体是姚明,类别为篮球运动员,第二实体是Yao Ming,将源语言S中的第一实体已经分类好的类别赋予目标语言T中的第二实体的类别,那么第二实体的类别也是篮球运动员,这样就得到与所述第二实体对应的标记好类别的第一样本集合。
对于步骤105,实体分类装置利用机器翻译技术,将源语言S中的第一实体的名称翻译到目标语言中形成第三实体,确定第一实体和第三实体的第二对应关系,基于第二对应关系将所述第三实体与所述目标语言T的知识库做映射以获得第三实体对应的标记好类别的第二样本集合。
对于步骤106,实体分类装置将第一样本集合作为训练集,训练目标语言中的第二类别分类模型,并利用第二样本集合对第二类别分类模型进行迭代训练,例如,第二样本集合中的某个第三实体类别为植物,通过第一样本集合训练得到的分类模型也将第三实体类别判定为植物,那么将第三实体加入到第一样本集合中,进行下一轮迭代。
在本实施例的方案中,通过跨语言实体链接,将源语言S中的第一实体和目标语言T中的第二实体建立映射关系。从而将源语言S中的实体类别信息传递到目标语言T中,利用目标语言T中传递过来的实体类别信息,通过远监督学习的方法,扩展某一类第三实体的训练样本,达到一定数量后,进行自动的分类模型训练,从而得到源语言S中实体类别的分类模型。
请参考图2,其示出了本发明一实施例提供的另一种实体分类方法的流程图,该流程图主要是针对流程图图1中步骤106“所述将所述第一样本集合作为训练集,训练所述目标语言中的第二类别分类模型,并利用所述第二样本集合对所述第二类别分类模型进行迭代训练”进一步限定的步骤的流程图。
如图2所示,在步骤201中,将第一样本集合作为训练集,训练所述目标语言中的第二实体类别分类模型;
在步骤202中,用所述第二实体类别分类模型对所述第二样本集合进行分类;
在步骤203中,若对于所述第二样本集合的某个实体的分类结果与所述第二样本集合通过映射得到的类别一致,将所述某个实体加入所述第一样本集合形成新的第一样本集合;
在步骤204中,利用所述新的样本集合重新训练第二类别分类模型并利用所述第二样本集合再次进行迭代直至所述第一样本集合中的实体不再增加为止。
在本实施例中,对于步骤201,实体分类装置将第一样本集合作为训练集,训练目标语言中的第二实体类别分类模型;然后,对于步骤202,实体分类装置用第二实体类别分类模型对第二样本集合进行分类;之后,对于步骤203,实体分类装置若判断对于第二样本集合的某个实体的分类结果与第二样本集合通过映射得到的类别一致,将某个实体加入第一样本集合形成新的第一样本集合;最后,对于步骤204,实体分类装置利用新的样本集合重新训练第二类别分类模型并利用第二样本集合再次进行迭代直至第一样本集合中的实体不再增加为止。
在本实施例的方案中,通过利用目标语言T中传递过来的实体类别信息,通过远监督学习的方法,扩展某一类第三实体的训练样本,达到一定数量后,从而可以实现进行自动的分类模型训练。
在一些可选的实施例中,所述收集与所述源语言S中的第一实体的对应的目标语言T中的第二实体包括:实体分类装置利用所述源语言S的知识库中所述第一实体的关联关系收集所述第二实体,所述关联关系包括:等价关系、重定向关系、别称关系;和/或利用所述源语言S中所述第一实体的文本中含有特定模式的指定关系收集所述第二实体,例如,IBM(国际商业机器股份有限公司)和中国农业银行(Agricultural Bank of China);和/或利用所述源语言S中所述第一实体的实体分类信息平台中的跨语言信息收集所述第二实体,例如,苹果的英文名Apple;和/或利用Web页面中的锚文本与所述第一实体的链接关系收集所述第二实体。例如,点击网页的华盛顿链接到英文百科中的Washington,DC。
在本实施例的方案中,通过利用源语言S的知识库中第一实体的关联关系收集第二实体、源语言S中第一实体的文本中含有特定模式的指定关系、利用源语言S中第一实体的实体分类信息平台中的跨语言信息和利用Web页面中的锚文本与第一实体的链接关系,从而可以实现收集源语言S中的第一实体和目标语言中的第二实体之间的对应关系。
在一些可选的实施例中,所述基于所述第一对应关系将所述第二实体与所述目标语言T的知识库做映射,还包括:为各实体中每一种实体类型选择最具区分力的属性集合P;比较所述第一实体和所述第二实体在所述最具区分力的属性集合P中的属性值相似度;若所述属性值相似度达到设定阈值,则确定所述第一实体和所述第二实体具有第一对应关系;基于所述第一对应关系将所述第二实体与所述目标语言T的知识库做映射。
所述基于所述第二对应关系将所述第三实体与所述目标语言T的知识库做映射包括:为各实体中每一种实体类型选择最具区分力的属性集合P;比较所述第一实体和所述第三实体在所述最具区分力的属性集合P中的属性值相似度;若所述属性值相似度达到设定阈值,则确定所述第一实体和所述第三实体具有第二对应关系;基于所述第二对应关系将所述第三实体与所述目标语言T的知识库做映射。
例如,第一实体为姚明,第二实体为Yao ming,那么选择一个最具区分力的属性集合P,例如姚明的年龄属性是否与Yao ming的age属性一致,如果P中的属性值一致度达到设定的阈值,那么可以认为姚明与Yao ming是相同的实体,其中,第一实体与第三实体也可以得到映射关系。
在本实施例的方案中,通过为各实体中每一种实体类型选择最具区分力的属性集合P,比较第一实体和第二实体在最具区分力的属性集合P中的属性值相似度,从而可以实现获取更多的第一样本集合与第二样本集合。
在上述实施例所述的方法中,所述为各实体中每一种实体类型选择最具区分力的属性集合P包括:对某一类候选实体集合,对于所述候选实体集合中的每个候选实体ei具有m(ei)个属性,m(ei)个属性值;统计所述候选实体集合中每个属性p的频率f(p),f(p)为属性在所述候选实体集合所有属性中出现的频率,设定阈值δ,大于δ的属性保留在所述属性集合P中。
在一些可选的实施例中,所述在源语言S中训练第一类别分类模型包括:通过对源语言进行实体类型定义,例如,人物、机构、地点、动物、植物、汉字、成语等;为每一个类型收集训练数据,例如,可以通过人工标注的方法或通过已有的知识库获得部分实体类别信息;在所述源语言中训练所述实体类型模型,例如,具体的方法可以采用SVM、决策树或深度学习方法CNNLSTM和BERT等方法。
在本实施例的方案中,通过对源语言进行实体类型定义、为每一个类型收集训练数据和为每一个类型收集训练数据,从而可以实现得到一个已经训练好的源语言S的实体类别分类模型。
下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明,以使本领域技术人员更好地理解本申请的方案。
发明人在实现本发明的过程中发现这些相似技术的缺陷:
如果换一种语言需要重新标注训练数据,重新训练分类模型,在一种语言上的分类模型不能用到其他语言中,领域移植能力较差。
发明人在实现本发明的过程中发现为什么不容易想到原因:
通常做法是先定义好实体类别集合,比如人物,机构,地点,动物,植物等,然后收集每个类别下的训练数据,然后设计分类特征,或用深度学习方法对训练数据建模,抽取高位特征,训练分类模型。该分类模型可以对预定义好的类别进行分类。当换其他语言时,需要重复上述步骤,比如我们已经有了中文的实体分类模型,那么在英文实体进行分类时,不能直接使用中文实体分类模型对英文实体进行分类。主要缺点是从收集分析到建模需要花费大量的时间,耗费大量的人力物力。
本申请实施例的方案通过以下方案解决上述现有技术中存在的技术问题:
本发明提出一种基于跨语言实体链接的方法,通过跨语言实体链接,将源语言S中的实体和目标语言T中的实体建立映射关系。从而将语言S中的实体类别信息传递到目标语言T中。那么利用T中传递过来的实体类别信息,通过远监督学习的方法,扩展某一类实体C的训练样本,达到一定数量后,进行自动的分类模型训练,从而得到S中实体类别的分类模型。
本发明的技术创新点:
基于实体画像的跨语言实体链接方法;
基于远监督学习的目标语言实体类型标签传播算法;
跨语言实体类别识别模型的训练方法。
该方法的流程如图3所示:
第一步,对源语言S中的实体类别进行定义,比如,人物,机构,地点,动物,植物,汉字,成语等。
第二步,为每一个类别收集训练数据,可以通过人工标注的方法或者通过已有的知识库获得部分实体类别信息。
第三步,在源语言S中训练实体类别分类模型,具体的方法可以采用SVM,决策树或深度学习方法CNN,LSTM,BERT等方法。
第四步,跨语言实体链接,即确定源语言S中的实体Es和目标语言中的实体ET的对应关系。比如以中文为源语言,Es=”姚明”,ET=“Yao Ming”。
第四步包括三个步骤,根据以下方式收集源语言S中的实体Es和目标语言中的实体ET的对应关系。
利用知识库中的等价关系,重定向关系,别称关系等找到目标语言中实体的名称。
文本中含有特定模式的指代关系,如图4所示,例如,“IBM(国际商业机器股份有限公司)”“中国农业银行(Agricultural Bank of China)”。
实体infobox中跨语言信息,例如,如图5所示,苹果,英文名,Apple。
Web页面中的锚文本与实体的链接关系,如点击网页的某个词“华盛顿”链接到英文百科中的“Washington,DC”的。
通过以上4种方式,可以收集到源语言S中的实体Es和目标语言中的实体ET的对应关系,通过实体ET与目标语言知识库做映射。并将源语言S中的实体Es已经分类好的类别赋予目标语言中的实体ET的类别。例如中文为源语言,Es=“姚明”,类别为“篮球运动员”,ET=“Yao Ming”,类别为“篮球运动员”。
这样在目标语言中就有了一些标记好类别的样本集合TS1。
然后利用机器翻译技术,将源语言S中的实体Es的名称翻译到目标语言中得到ET*,通过实体ET*与目标语言知识库做映射。这样在目标语言中就有了一些标记好类别的样本集合TS2。
第五步的映射方法如下:
为每一种实体类型选择最具区分力的属性集合P。对某一类候选实体集合E,对于E中的每个候选实体ei具有m(ei)个属性,m(ei)个属性值。统计E中每个属性p的频率f(p),f(p)为属性在集合E所有属性中出现的频率,可以设定阈值δ,大于δ的属性保留在属性集合中。
比较Es和ET在最具区分力的属性集合P中的属性值相似度,比如姚明的年龄属性和Yao ming的age属性值是否一致。如果P中属性值一致度达到设定的阈值,那么认为Es和ET为相同的实体。同理Es和ET*也可以得到映射关系。
通过以上2步,可以得到样本集合TS1和TS2。
第六步,将TS1作为训练集,训练目标语言中的分类模型,然后对TS2中样本进行分类,如果TS2中的样本分类结果和该样本通过映射得到的类别一致,那么将该样本加入到训练集TS1。然后利用TS1重新训练分类模型,再进行第二次迭代,直到TS1中的样本不再增加为止。举个例子,比如TS2中的某个实体e*类别为植物,通过TS1训练得到的分类模型也将e*类别判定为植物,那么将e*加入到TS1中,进行下一轮迭代。
请参考图6,其示出了本发明一实施例提供的一种实体分类装置的框图。
如图6所示,实体分类装置600,包括:训练模块610、收集确定模块620、映射模块630、赋予模块640、翻译模块650和训练迭代模块660。
其中,训练模块610,配置为在源语言S中训练第一类别分类模型;收集确定模块620,配置为收集与所述源语言S中的第一实体的对应的目标语言T中的第二实体,确定所述第一实体与所述第二实体的第一对应关系;映射模块630。配置为基于所述第一对应关系将所述第二实体与所述目标语言T的知识库做映射;赋予模块640,配置为将所述第一实体已分类的类别赋予所述第二实体以获得与所述第二实体对应的标记好类别的第一样本集合;翻译模块650,配置为利用机器翻译技术,将所述源语言S中的第一实体的名称翻译到目标语言中形成第三实体,确定所述第一实体和所述第三实体的第二对应关系,基于所述第二对应关系将所述第三实体与所述目标语言T的知识库做映射以获得与所述第三实体对应的标记好类别的第二样本集合;训练迭代模块660,配置为将所述第一样本集合作为训练集,训练所述目标语言中的第二类别分类模型,并利用所述第二样本集合对所述第二类别分类模型进行迭代训练。
应当理解,图6中记载的诸模块与参考图1和图2中描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作和特征以及相应的技术效果同样适用于图6中的诸模块,在此不再赘述。
值得注意的是,本申请的实施例中的模块并不用于限制本申请的方案,例如训练模块可以描述为在源语言S中训练第一类别分类模型,另外,还可以通过硬件处理器来实现相关功能模块,例如训练模块也可以用处理器实现,在此不再赘述。
在另一些实施例中,本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的实体分类方法;
作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
在源语言S中训练第一类别分类模型;
收集与所述源语言S中的第一实体的对应的目标语言T中的第二实体,确定所述第一实体与所述第二实体的第一对应关系;
基于所述第一对应关系将所述第二实体与所述目标语言T的知识库做映射;
将所述第一实体已分类的类别赋予所述第二实体以获得与所述第二实体对应的标记好类别的第一样本集合;
利用机器翻译技术,将所述源语言S中的第一实体的名称翻译到目标语言中形成第三实体,确定所述第一实体和所述第三实体的第二对应关系,基于所述第二对应关系将所述第三实体与所述目标语言T的知识库做映射以获得与所述第三实体对应的标记好类别的第二样本集合;
将所述第一样本集合作为训练集,训练所述目标语言中的第二类别分类模型,并利用所述第二样本集合对所述第二类别分类模型进行迭代训练。
非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据实体分类装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至实体分类装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本发明实施例还提供一种计算机程序产品,计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,使计算机执行上述任一项实体分类方法。
图7是本发明实施例提供的电子设备的结构示意图,如图7所示,该设备包括:一个或多个处理器710以及存储器720,图7中以一个处理器710为例。用于实体分类方法的设备还可以包括:输入装置730和输出装置740。处理器710、存储器720、输入装置730和输出装置740可以通过总线或者其他方式连接,图7中以通过总线连接为例。存储器720为上述的非易失性计算机可读存储介质。处理器710通过运行存储在存储器720中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例用于实体分类装置方法。输入装置730可接收输入的数字或字符信息,以及产生与用于实体分类装置的用户设置以及功能控制有关的键信号输入。输出装置740可包括显示屏等显示设备。
上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。
作为一种实施方式,上述电子设备应用于实体分类装置中,包括:
至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:
在源语言S中训练第一类别分类模型;
收集与所述源语言S中的第一实体的对应的目标语言T中的第二实体,确定所述第一实体与所述第二实体的第一对应关系;
基于所述第一对应关系将所述第二实体与所述目标语言T的知识库做映射;
将所述第一实体已分类的类别赋予所述第二实体以获得与所述第二实体对应的标记好类别的第一样本集合;
利用机器翻译技术,将所述源语言S中的第一实体的名称翻译到目标语言中形成第三实体,确定所述第一实体和所述第三实体的第二对应关系,基于所述第二对应关系将所述第三实体与所述目标语言T的知识库做映射以获得与所述第三实体对应的标记好类别的第二样本集合;
将所述第一样本集合作为训练集,训练所述目标语言中的第二类别分类模型,并利用所述第二样本集合对所述第二类别分类模型进行迭代训练。
本申请实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器,掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子装置。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种实体分类方法,包括:
在源语言中训练第一类别分类模型;
收集与所述源语言中的第一实体的对应的目标语言中的第二实体,确定所述第一实体与所述第二实体的第一对应关系;
基于所述第一对应关系将所述第二实体与所述目标语言的知识库做映射;
将所述第一实体已分类的类别赋予所述第二实体以获得与所述第二实体对应的标记好类别的第一样本集合;
利用机器翻译技术,将所述源语言中的第一实体的名称翻译到所述目标语言中形成第三实体,确定所述第一实体和所述第三实体的第二对应关系,基于所述第二对应关系将所述第三实体与所述目标语言的知识库做映射以获得与所述第三实体对应的标记好类别的第二样本集合;
将所述第一样本集合作为训练集,训练所述目标语言中的第二类别分类模型,并利用所述第二样本集合对所述第二类别分类模型进行迭代训练。
2.根据权利要求1所述的方法,其中,所述将所述第一样本集合作为训练集,训练所述目标语言中的第二类别分类模型,并利用所述第二样本集合对所述第二类别分类模型进行迭代训练包括:
将第一样本集合作为训练集,训练所述目标语言中的第二实体类别分类模型;
用所述第二实体类别分类模型对所述第二样本集合进行分类;
若对于所述第二样本集合的某个实体的分类结果与所述第二样本集合通过映射得到的类别一致,将所述某个实体加入所述第一样本集合形成新的第一样本集合;
利用所述新的第一样本集合重新训练第二类别分类模型并利用所述第二样本集合再次进行迭代直至所述第一样本集合中的实体不再增加为止。
3.根据权利要求1所述的方法,其中,所述收集与所述源语言中的第一实体的对应的目标语言中的第二实体包括:
利用所述源语言的知识库中所述第一实体的关联关系收集所述第二实体,所述关联关系包括:等价关系、重定向关系、别称关系;和/或
利用所述源语言中所述第一实体的文本中含有特定模式的指定关系收集所述第二实体;和/或
利用所述源语言中所述第一实体的实体分类信息平台中的跨语言信息收集所述第二实体;和/或
利用Web页面中的锚文本与所述第一实体的链接关系收集所述第二实体。
4.根据权利要求1所述的方法,其中,所述基于所述第一对应关系将所述第二实体与所述目标语言的知识库做映射包括:
为各实体中每一种实体类型选择最具区分力的属性集合P;
比较所述第一实体和所述第二实体在所述最具区分力的属性集合P中的属性值相似度;
若所述属性值相似度达到设定阈值,则确定所述第一实体和所述第二实体具有第一对应关系;
基于所述第一对应关系将所述第二实体与所述目标语言的知识库做映射;
所述基于所述第二对应关系将所述第三实体与所述目标语言的知识库做映射包括:
为各实体中每一种实体类型选择最具区分力的属性集合P;
比较所述第一实体和所述第三实体在所述最具区分力的属性集合P中的属性值相似度;
若所述属性值相似度达到设定阈值,则确定所述第一实体和所述第三实体具有第二对应关系;
基于所述第二对应关系将所述第三实体与所述目标语言的知识库做映射。
5.根据权利要求4所述的方法,其中,所述为各实体中每一种实体类型选择最具区分力的属性集合P包括:
对某一类候选实体集合,对于所述候选实体集合中的每个候选实体ei具有m(ei)个属性,m(ei)个属性值;
统计所述候选实体集合中每个属性p的频率f(p),f(p)为属性在所述候选实体集合所有属性中出现的频率,设定阈值δ,大于δ的属性保留在所述属性集合P中。
6.根据权利要求1-5中任一项所述的方法,其中,所述在源语言中训练第一类别分类模型包括:
通过对源语言进行实体类型定义,为每一个类型收集训练数据,在所述源语言中训练实体类型模型。
7.一种实体分类装置,包括:
训练模块,配置为在源语言中训练第一类别分类模型;
收集确定模块,配置为收集与所述源语言中的第一实体的对应的目标语言中的第二实体,确定所述第一实体与所述第二实体的第一对应关系;
映射模块,配置为基于所述第一对应关系将所述第二实体与所述目标语言T的知识库做映射;
赋予模块,配置为将所述第一实体已分类的类别赋予所述第二实体以获得与所述第二实体对应的标记好类别的第一样本集合;
翻译模块,配置为利用机器翻译技术,将所述源语言中的第一实体的名称翻译到所述目标语言中形成第三实体,确定所述第一实体和所述第三实体的第二对应关系,基于所述第二对应关系将所述第三实体与所述目标语言的知识库做映射以获得与所述第三实体对应的标记好类别的第二样本集合;
训练迭代模块,配置为 将所述第一样本集合作为训练集,训练所述目标语言中的第二类别分类模型,并利用所述第二样本集合对所述第二类别分类模型进行迭代训练。
8.根据权利要求7所述的装置,其中,所述训练迭代模块还配置为:
将第一样本集合作为训练集,训练所述目标语言中的第二实体类别分类模型;
用所述第二实体类别分类模型对所述第二样本集合进行分类;
若对于所述第二样本集合的某个实体的分类结果与所述第二样本集合通过映射得到的类别一致,将所述某个实体加入所述第一样本集合形成新的第一样本集合;
利用所述新的样本集合重新训练第二类别分类模型并利用所述第二样本集合再次进行迭代直至所述第一样本集合中的实体不再增加为止。
9.一种存储介质,其上存有计算机程序,所述计算机程序被处理器执行时实现权利要求1-6中任一项所述方法的步骤。
10.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至6任一项所述方法的步骤。
CN202010728250.2A 2020-07-23 2020-07-23 实体分类方法和装置 Active CN111813942B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010728250.2A CN111813942B (zh) 2020-07-23 2020-07-23 实体分类方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010728250.2A CN111813942B (zh) 2020-07-23 2020-07-23 实体分类方法和装置

Publications (2)

Publication Number Publication Date
CN111813942A CN111813942A (zh) 2020-10-23
CN111813942B true CN111813942B (zh) 2022-07-12

Family

ID=72861362

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010728250.2A Active CN111813942B (zh) 2020-07-23 2020-07-23 实体分类方法和装置

Country Status (1)

Country Link
CN (1) CN111813942B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112214604A (zh) * 2020-11-04 2021-01-12 腾讯科技(深圳)有限公司 文本分类模型的训练方法、文本分类方法、装置及设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110888940A (zh) * 2019-10-18 2020-03-17 平安科技(深圳)有限公司 文本信息提取方法、装置、计算机设备及存储介质
CN111144102A (zh) * 2019-12-26 2020-05-12 联想(北京)有限公司 用于识别语句中实体的方法、装置和电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8751505B2 (en) * 2012-03-11 2014-06-10 International Business Machines Corporation Indexing and searching entity-relationship data

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110888940A (zh) * 2019-10-18 2020-03-17 平安科技(深圳)有限公司 文本信息提取方法、装置、计算机设备及存储介质
CN111144102A (zh) * 2019-12-26 2020-05-12 联想(北京)有限公司 用于识别语句中实体的方法、装置和电子设备

Also Published As

Publication number Publication date
CN111813942A (zh) 2020-10-23

Similar Documents

Publication Publication Date Title
CN110837550B (zh) 基于知识图谱的问答方法、装置、电子设备及存储介质
CN110287479B (zh) 命名实体识别方法、电子装置及存储介质
CN107679039B (zh) 用于确定语句意图的方法和装置
CN107492379B (zh) 一种声纹创建与注册方法及装置
US12039447B2 (en) Information processing method and terminal, and computer storage medium
US10664505B2 (en) Method for deducing entity relationships across corpora using cluster based dictionary vocabulary lexicon
WO2021073298A1 (zh) 一种语音信息的处理方法、装置、智能终端以及存储介质
CN109902672B (zh) 图像标注方法及装置、存储介质、计算机设备
CN114416927A (zh) 智能问答方法、装置、设备及存储介质
CN111177569A (zh) 基于人工智能的推荐处理方法、装置及设备
CN108664599B (zh) 智能问答方法、装置、智能问答服务器及存储介质
CN113011186B (zh) 命名实体识别方法、装置、设备及计算机可读存储介质
CN111144102B (zh) 用于识别语句中实体的方法、装置和电子设备
CN115099239B (zh) 一种资源识别方法、装置、设备以及存储介质
CN107330009B (zh) 主题词分类模型创建方法、创建装置及存储介质
CN113051914A (zh) 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
CN112784591B (zh) 数据的处理方法、装置、电子设备和存储介质
CN112528658A (zh) 层次化分类方法、装置、电子设备和存储介质
CN111782793A (zh) 智能客服处理方法和系统及设备
CN103631874A (zh) 社交平台的ugc标签类别确定方法和装置
CN111553138A (zh) 用于规范内容结构文档的辅助写作方法及装置
CN113569018A (zh) 问答对挖掘方法及装置
CN114299196A (zh) 海报自动生成方法及系统、存储介质、终端设备
CN110647613A (zh) 一种课件构建方法、装置、服务器和存储介质
JP2023554210A (ja) インテリジェント推奨用のソートモデルトレーニング方法及び装置、インテリジェント推奨方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Applicant after: Sipic Technology Co.,Ltd.

Address before: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Applicant before: AI SPEECH Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant