CN111258995B - 数据处理方法、装置、存储介质及设备 - Google Patents

数据处理方法、装置、存储介质及设备 Download PDF

Info

Publication number
CN111258995B
CN111258995B CN202010037213.7A CN202010037213A CN111258995B CN 111258995 B CN111258995 B CN 111258995B CN 202010037213 A CN202010037213 A CN 202010037213A CN 111258995 B CN111258995 B CN 111258995B
Authority
CN
China
Prior art keywords
attribute
classification model
key information
target
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010037213.7A
Other languages
English (en)
Other versions
CN111258995A (zh
Inventor
吴旭辉
荆宁
张红林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010037213.7A priority Critical patent/CN111258995B/zh
Publication of CN111258995A publication Critical patent/CN111258995A/zh
Application granted granted Critical
Publication of CN111258995B publication Critical patent/CN111258995B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Quality & Reliability (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种数据处理的方法、装置、存储介质及设备,包括:将待识别的目标对象的关键信息集合输入至父分类模型,该父分类模型与至少两个子分类模型之间具有类别映射关系,采用该父分类模型对该目标对象的关键信息集合进行领域属性识别,得到该目标对象的领域属性类别,根据该类别映射关系从该至少两个子分类模型中选择与该目标对象的领域属性类别匹配的子分类模型,作为目标子分类模型,采用该目标子分类模型对该目标对象的关键信息集合进行对象属性识别,得到该目标对象的对象属性类别。通过本申请实例能够提高获取对象的类别信息的效率和准确度。

Description

数据处理方法、装置、存储介质及设备
技术领域
本申请涉及人工智能技术领域,尤其涉及一种数据处理方法、装置、存储介质及设备。
背景技术
人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术、机器学习以及深度学习等几大方向。其中,自然语言处理技术是实现人与计算机之间用自然语言进行有效通信的各种理论和方法,被广泛应用于机器翻译、语音搜索、语音输入、语音对话、智能问答等各个领域。知识图谱是自然语言处理技术的核心模块之一,是一种语义网络的知识库,即具有有向图结构的一个知识库,其中图的节点代表实体,而图的边代表实体之间的各种语义关系。所谓实体是指具有可区别性且独立存在的某种事物,用于表示对象的类别,如人物、地名、植物、商品、概念等等,概念是指具有同种类别、种类的对象构成的集合,如书籍等;语义关系可以包括从属关系、对等关系等。通常在建立知识图谱的过程中,需要获取对象进行类别信息,从而根据对象的类别信息确定各个实体之间的语义关系。目前,主要是采用人工分类的方式来获取对象的类别信息,导致获取对象的类别信息的效率较低,并且,分类人员所熟悉的知识领域有限,导致获取到的类别信息的准确度不高。
申请内容
本申请实施例所要解决的技术问题在于,提供一种数据处理方法、装置、存储介质及设备,能够提高获取对象的类别信息的效率和准确度。
本申请实施例一方面提供一种数据处理方法,包括:
将待识别的目标对象的关键信息集合输入至父分类模型,该父分类模型与至少两个子分类模型之间具有类别映射关系;
采用该父分类模型对该目标对象的关键信息集合进行领域属性识别,得到该目标对象的领域属性类别;
根据该类别映射关系从该至少两个子分类模型中选择与该目标对象的领域属性类别匹配的子分类模型,作为目标子分类模型;
采用该目标子分类模型对该目标对象的关键信息集合进行对象属性识别,得到该目标对象的对象属性类别。
本申请实施例一方面提供一种数据处理方法,包括:
将第一样本对象的关键信息集合输入到初始父分类模型中进行领域属性预测,得到该第一样本对象的预测领域属性类别,该初始父分类模型与至少两个初始子分类模型之间具有类别映射关系;
采用该第一样本对象的标注领域属性类别和预测领域属性类别对该初始父分类模型进行调整,将调整后的该初始父分类模型作为父分类模型;
根据该类别映射关系从该至少两个初始子分类模型中选择与该第一样本对象的预测领域属性类别匹配的初始子分类模型,作为目标初始子分类模型;
将该第一样本对象的关键信息集合输入到该目标初始子分类模型中进行对象属性预测,得到该第一样本对象的预测对象属性类别;
采用该第一样本对象的标注对象属性类别和预测对象属性类别对该目标初始子分类模型进行调整,将调整后的该目标初始子分类模型作为目标子分类模型。
本申请实施例一方面提供一种数据处理装置,包括:
输入模块,用于将待识别的目标对象的关键信息集合输入至父分类模型,该父分类模型与至少两个子分类模型之间具有类别映射关系;
识别模块,用于采用该父分类模型对该目标对象的关键信息集合进行领域属性识别,得到该目标对象的领域属性类别;
选择模块,用于根据该类别映射关系从该至少两个子分类模型中选择与该目标对象的领域属性类别匹配的子分类模型,作为目标子分类模型;
该识别模块,还用于采用该目标子分类模型对该目标对象的关键信息集合进行对象属性识别,得到该目标对象的对象属性类别。
可选的,选择模块,具体用于获取知识图谱,该知识图谱包括父分类层级和子分类层级,该父分类层级与该父分类模型对应,该子分类层级与该至少两个子分类模型对应,该父分类层级包括至少两个领域属性类别,该知识图谱用于指示该至少两个子分类模型中的每个子分类模型与该父分类层级中的领域属性类别之间的类别映射关系;根据该知识图谱从该至少两个子分类模型中选择与该目标对象的领域属性类别具有类别映射关系的子分类模型,作为该目标子分类模型。
可选的,该装置还包括:
建立模块,用于建立该关键词分别与该目标对象的领域属性类别和对象属性类别之间的词映射关系;
添加模块,用于根据该词映射关系将该关键词添加至该知识图谱中。
可选的,该父分类模型包括至少两个输出接口,该父分类模型通过该输出接口与每个该子分类模型相连接;选择模块,具体用于从该至少两个输出接口中获取输出该目标对象的领域属性类别的输出接口,作为目标输出接口;将与该目标输出接口相连接的子分类模型,作为目标子分类模型。
可选的,识别模块,具体用于调用该父分类模型对该目标对象的关键信息集合进行特征提取,得到该目标对象的关键信息集合对应的特征向量;调用该父分类模型对该目标对象的关键信息集合对应的特征向量进行领域属性识别,得到该目标对象的领域属性类别。
可选的,该目标对象的关键信息集合包括基础关键信息、结构化关键信息以及属性关键信息,该父分类模型包括全量词向量层和关键词向量层;识别模块,具体用于调用该全量词向量层对该基础关键信息、该结构化关键信息以及该属性关键信息进行全量特征提取,得到该基础关键信息对应的全量词向量、该结构化关键信息对应的全量词向量以及该属性关键信息对应的全量词向量;调用该关键词向量层提取该属性关键信息中的属性关键词,对该属性关键词进行特征提取,得到该属性关键信息对应的属性关键词向量;将该基础关键信息对应的全量词向量、该结构化关键信息对应的全量词向量、该属性关键信息对应的全量词向量以及该属性关键词向量,作为该目标对象的关键信息集合对应的特征向量。
可选的,该父分类模型包括拼接层和分类层,识别模块,具体用于调用该拼接层对该基础关键信息对应的全量词向量、该结构化关键信息对应的全量词向量、该属性关键信息对应的全量词向量以及该属性关键词向量进行拼接处理,得到目标特征向量;调用该分类层对该目标特征向量进行领域属性识别,得到该目标对象的领域属性类别。
可选的,识别模块,具体用于将该父分类模型进行特征提取得到的该目标对象的关键信息集合对应的特征向量,作为父特征向量;调用该目标子分类模型对该目标对象的关键信息集合进行特征提取,得到该目标对象的关键信息集合对应的特征向量,作为子特征向量;调用该目标子分类模型对该父特征向量和该子特征向量进行对象属性识别,得到该目标对象的对象属性类别。
本申请实施例一方面提供一种数据处理装置,包括:
输入模块,用于将第一样本对象的关键信息集合输入到初始父分类模型中进行领域属性预测,得到该第一样本对象的预测领域属性类别,该初始父分类模型与至少两个初始子分类模型之间具有类别映射关系;
调整模块,用于采用该第一样本对象的标注领域属性类别和预测领域属性类别对该初始父分类模型进行调整,将调整后的该初始父分类模型作为父分类模型;
选择模块,用于根据该类别映射关系从该至少两个初始子分类模型中选择与该第一样本对象的预测领域属性类别匹配的初始子分类模型,作为目标初始子分类模型;
该输入模块,还用于将该第一样本对象的关键信息集合输入到该目标初始子分类模型中进行对象属性预测,得到该第一样本对象的预测对象属性类别;
该调整模块,还用于采用该第一样本对象的标注对象属性类别和预测对象属性类别对该目标初始子分类模型进行调整,将调整后的该目标初始子分类模型作为目标子分类模型。
可选的,该装置还包括:查找模块,用于查找该知识图谱中新增的领域属性类别;
获取模块,用于获取第二样本对象的关键信息集合,该第二样本对象的标注领域属性类别为该新增的领域属性类别;
更新模块,用于根据该第二样本对象的关键信息集合和该第二样本对象的标注领域属性类别更新该父分类模型;
建立模块,用于建立与该第二样本对象的标注领域属性类别匹配的新增初始子分类模型;
训练模块,用于采用该第二样本对象的关键信息集合和该第二样本对象的标注对象属性类别对该新增初始子分类模型进行训练,得到与该第二样本对象的标注领域属性类别匹配的子分类模型。
可选的,更新模块,用于接收对该目标子分类模型的更新请求,该更新请求携带样本集合,该样本集合包括多个待选择样本对象、每个该待选择样本对象的关键信息集合、每个该待选择样本对象的标注领域属性类别以及每个该待选择样本对象的标注对象属性类别;根据每个该待选择样本对象的标注领域属性类别,筛选出与该第一样本对象的标注领域属性类别相同的待选择样本对象,作为第三样本对象;采用该第三样本对象的关键信息集合和该第三样本对象的标注对象属性类别对该目标子分类模型进行更新。
本申请一方面提供了一种计算机设备,包括:处理器及存储器;
其中,上述存储器用于存储计算机程序,上述处理器用于调用上述计算机程序,以执行本申请实施例中上述一方面中的方法。
本申请实施例一方面提供了一种计算机可读存储介质,上述计算机可读存储介质存储有计算机程序,上述计算机程序包括程序指令,上述程序指令当被处理器执行时,以执行如本申请实施例中的方法。
本发明实施例中,计算机设备可以采用父分类模型对目标对象的关键信息集合进行领域属性识别,得到目标对象的领域属性类别,该父分类模型与至少两个子分类模型具有类别映射关系,即该类别映射关系用于指示子分类模型擅长对哪些领域属性类别的对象进行对象属性识别。计算机设备可根据该类别映射关系从至少两个子分类模型中选择与目标对象的领域属性类别匹配的子分类模型;也就是说,按照子分类模型的对象属性识别能力,从至少两个子分类模型中选择与目标对象的领域属性类别匹配的子分类模型,作为目标子分类模型,即该目标子分类模型擅长对目标对象进行对象属性识别。通过采用目标子分类模型对目标对象的关键信息集合进行对象属性识别,得到目标对象的对象属性类别,通过目标子分类模型可实现对目标对象的对象属性类别进行更精细化的识别,提高获取目标对象的类别信息准确度。另外,通过采用父分类模型及子分类模型对目标对象进行识别,不需要人工参与,可节省人力资源,可提高获取目标对象的类别信息的效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种建立知识图谱的流程示意图;
图2a是本申请实施例提供的一种数据处理系统的架构图;
图2b是本申请实施例提供的一种知识图谱的示意图;
图2c是本申请实施例提供的一种数据处理方法的场景应用图;
图2d是本申请实施例提供的一种数据处理方法的场景应用图;
图3是本申请实施例提供的一种知识图谱与分类模型的关系示意图;
图4是本申请实施例提供的一种父分类模型与子分类模型之间的连接关系示意图;
图5是本申请实施例提供的一种数据处理方法的流程示意图;
图6是本申请实施例提供的一种父分类模型的层级结构示意图;
图7是本申请实施例提供的一种全量词向量层的结构示意图;
图8是本申请实施例提供的一种识别目标对象的对象属性类别的流程示意图;
图9是本申请实施例提供的一种数据处理方法的场景应用图;
图10是本申请实施例提供的一种数据处理方法的场景应用图;
图11是本申请实施例提供的一种数据处理方法的流程示意图;
图12是本申请实施例提供的一种数据处理装置的结构示意图;
图13是本申请实施例提供的一种数据处理装置的结构示意图;
图14是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术涉及的技术领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。自然语言处理(Nature Language processing, NLP)是计算机科学领域与人工智能领域中的一个重要方向,能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
其中,自然语言处理技术中涉及的知识图谱是一种语义网络的知识库,即具有有向图结构的一个知识库,其中图的节点代表实体,而图的边代表实体之间的各种语义关系。如图1所示,知识图谱的构建过程通常包括如下七个阶段:
1、数据抽取阶段,是指获取的待识别的目标对象的原始数据阶段,原始数据用于描述目标对象的属性特征的信息。具体的,计算机设备可以利用爬虫技术从第三方网站的网页中获取目标对象的原始数据;或者,从合作方所提供的数据中获取目标对象的原始数据;或者,从本地存储中获取目标对象的原始数据。在获取到目标对象的原始数据后,可以将目标对象的原始数据进行归一化处理,得到归一化数据。归一化处理可以是指对原始数据进行格式归一化处理以及长度归一化处理等。
2、数据解析阶段,是指提取归一化数据中的关键信息的阶段。具体的,计算机设备可以对归一化数据进行解析,以从归一化数据中提取关键信息,得到目标对象的关键信息集合,即过滤掉归一化数据中的冗余数据,得到目标对象的关键信息集合,采用信息框、数据解析表等形式展示目标对象的关键信息集合。
3、分类对齐阶段,是指根据关键信息集合确定目标对象的类别信息,类别类信息用于指示目标对象的领域属性别和对象属性类别等。领域属性类别用于指示目标对象所属的领域,对象属性类别可以用于指示目标对象在对应领域内的属性类别,即对象属性类别可以是指目标对象所属的子领域。例如,该目标对象为视频数据,则此时该目标对象的领域属性类别可以为视频,该目标对象的对象属性类别可以是指电影、动漫或电视剧等;若该目标对象为明星,则此时该目标对象的领域属性类别可以为人物,该目标对象的对象属性类别可以是指歌手、演员或导演等;若该目标对象为应用程序,则此时该目标对象的领域属性类别可以为软件,该目标对象的对象属性类别可以是指游戏应用程序、社交应用程序或办公应用程序等。
4、数据清洗阶段,是指对目标对象的类别信息进行验证的阶段,具体的,根据数据清洗规则验证目标对象的类别信息中是否包括错误信息、冗余信息以缺失信息等,即对目标对象的类别信息中的缺省信息进行填充处理,对目标对象的类别信息中的错误信息进行替换处理,以及对目标对象的类别信息中的冗余信息进行过滤处理等等。
5、对象融合阶段,是指对目标对象的领域进行融合,即计算目标对象的类别信息与知识图谱中的类别信息之间的相似度,从知识图谱中确定与目标对象的类别信息的相似度大于相似度阈值的类别信息,作为目标类别信息。对目标对象的类别信息和该目标类别信息进行融合,得到目标对象的最终类别信息,此处融合是指对目标对象的类别信息与目标类别信息进行归一化命名等等。
6、关系建设阶段,是指将目标对象对应关键词添加至知识图谱的阶段。具体的,计算机设备可以提取目标对象的关键信息集合中的关键词,如关键词可包括目标对象的标识,名称、ID等,建立关键词与目标对象的最终类别信息之间的词映射关系,根据该词映射关系将目标对象的关键词添加至知识图谱中。
7、对象出库阶段。在将目标对象的关键词添加至知识图谱中后,即完成建立目标对象的知识图谱,可以将知识图谱存储至数据库中,数据库可包括数据仓库(hive)、图形数据库(Neo4j)、数据库(DB)等等。
根据以上七个阶段可知,该目标对象的类别信息的准确度对知识图谱的准确度的影响较大,因此,分类对齐阶段是构建知识图谱的关键阶段之一。基于目前,获取目标对象的类别信息的效率和准确度较低的问题,本申请实施例提供了一种数据处理方法,通过分类模型来获取待识别的目标对象的类别信息,能够提高获取目标对象的类别信息的准确度和效率。首先介绍本申请实施例提供的数据处理系统,图2a示出了本申请一个示例性实施例提供的一种数据处理系统的结构示意图,数据处理系统包括服务器10及至少一个终端,图2a中以两个终端为例,分别为终端11和终端12,上述计算机设备可以是指服务器10或任一终端。
其中,终端是指面向用户的终端,具体可以是智能手机、平板电脑、便携式个人计算机、智能手表、手环及智能电视等智能设备。服务器可以是一台独立的服务器、或由若干台服务器组成的服务器集群、或云计算中心。
在本申请的一个示例性实施例中,终端可以用于获取目标对象的关键信息集合;而服务器可以作为分类处理设备,即该服务器可以包括用于进行分类的分类模型,服务器采用分类模型对终端获取的关键信息集合进行识别处理,得到目标对象的类别信息。在本申请的另一个示例性实施例中,服务器可以将分类模型发送至终端,那么,终端既可以用于获取目标对象的关键信息集合,又可以作为分类处理设备直接采用分类模型对关键信息集合进行识别处理,得到目标对象的类别信息。
其中,上述分类模型可以包括父分类模型和至少两个子分类模型,父分类模型可以是指识别目标对象的领域属性类别的分类模型,子分类模型是指用于识别目标对象的对象属性类别的分类模型。不同子分类模型的对象属性识别能力不一致,例如,某一子分类模型擅长对视频领域的对象进行对象属性识别,另一子分类模型擅长对人物领域的对象进行对象属性识别等。此处擅长是指子分类模型能够对某一个或多个领域属性类别的对象进行对象属性识别,且识别的准确度比较高。由于父分类模型能够进行领域属性识别,因此可以建立该父分类模型与至少两个子分类模型之间的类别映射关系,即该类别映射关系可用于指示子分类模型擅长对哪些领域属性类别的对象进行对象属性识别,以及父分类模型能够对哪些领域属性类别的对象进行领域属性识别。
当服务器采用子分类模型和父分类模型获取目标对象的类别信息时,请参见图2a,服务器可采用父分类模型对该目标对象的关键信息集合进行领域属性识别,得到该目标对象的领域属性类别。根据该父分类模型与至少两个子分类模型之间的类别映射关系选择与目标对象的领域属性类别匹配的子分类模型,作为目标子分类模型;也就是说,按照子分类模型的对象属性识别能力,从至少两个子分类模型中选择与目标对象的领域属性类别匹配的子分类模型,作为目标子分类模型,即该目标子分类模型为擅长对目标对象进行对象属性识别的子分类模型。因此,可采用该目标子分类模型对目标对象的关键信息集合进行对象属性识别,得到该目标对象的对象属性类别,通过目标子分类模型可实现对目标对象的对象属性类别进行更精细化的识别,提高获取目标对象的类别信息准确度。另外,通过采用父分类模型及子分类模型对目标对象进行识别,不需要人工参与,可节省人力资源,可提高获取目标对象的类别信息的效率。
在获取到目标对象的领域属性类别和对象属性类别之后,可根据目标对象的领域属性类别和对象属性类别将目标对象的关键词添加至知识图谱。所谓知识图谱包括父分类层级和子分类层级,该知识图谱包括父分类层级和子分类层级,父分类层级用于表示对象的领域属性类别,子分类层级用于表示对象属性类别集合。每个对象属性类别集合属于一个领域属性类别对应,即对象属性类别集合中包括属于领域属性类别的各个对象属性类别,对象属性类别为对应领域属性类别的子领域。知识图谱通过一个有向图将父分类层级的领域属性类别与子分类层级中的对象属性类别相连接,即有向图的节点为领域属性类别、对象属性类别,有向图的边表示领域属性类别与对象属性类别之间的语义关系,该语义关系包括对等关系或从属关系。
该知识图谱可以应用于智能问答、信息搜索等场景。以智能问答场景为例,在将目标对象的关键词添加至知识图谱之前,如图2b所示,该知识图谱的父类层级包括视频、人物以及软件三个领域属性类别,领域属性类别-视频对应的对象属性类别集合包括电影、动漫,即电影、动漫属于领域属性类别-视频的子领域。领域属性类别-人物对应的对象属性类别集合包括歌手、导演,即歌手、导演属于领域属性类别-人物的子领域。领域属性类别-软件对应的对象属性类别集合包括游戏、社交,即游戏(即软件应用程序)、社交(社交应用程序)属于领域属性类别-软件的子领域。
如图2c所示,假设该目标对象可以是指名称为“快乐生活”的视频数据,该目标对象的领域属性类别为视频,该目标对象的对象属性类别为电影,即表明该目标对象为一部电影。从目标对象的关键信息集合中获取关键词,如关键词包括视频数据的名称“快乐生活”、视频数据的拍摄年份1993以导演用户A。可建立该关键词分别与领域属性类别-视频、对象属性类别-电影之间的词映射关系,根据该词映射关系将关键词添加至知识图谱中,即将目标对象的关键词添加至知识图谱中领域属性类别-视频与对象属性类别-电影所在的边上,或将目标对象的关键词添加至知识图谱中领域属性类别-视频与对象属性类别-电影所在的边上延长线上。可以将该添加目标对象的关键词的知识图谱应用于智能问答场景中,如图2d中,当用户需要搜索“快乐生活”是哪年拍摄时,终端可以向服务器发送搜索请求,该搜索请求用于指示服务器返回“快乐生活”的拍摄年份,该搜索请求可以包括“快乐生活”的名称、领域属性类别或对象属性类别等等。服务器接收到该搜索请求后,可以根据搜索请求中携带的信息从知识图谱查询“快乐生活”的拍摄年份,如查询结果为1993,服务器可以将查询结果返回给终端。
其中,父分类模型与子分类模型之间的类别映射关系具体可以是通过类别映射表、知识图谱、父分类模型与子分类模型之间的连接关系等来呈现。
表1:
Figure 262977DEST_PATH_IMAGE001
在一个实施例中,可通过类别映射表来呈现父分类模型与子分类模型之间的类别映射关系。例如,该类别映射表可参见表1,从该类别映射表可知,父分类模型与三个子分类模型之间具有类别映射关系,三个子分类模型分别为子分类模型1、子分类模型2以及子分类模型3。父分类模型能够对领域属性类别为视频、人物以及软件的对象进行领域属性识别,子分类模型1擅长对领域属性类别为视频的对象进行对象属性识别,即父分类模型与子分类模型1之间通过领域属性类别-视频进行类别映射。子分类模型2擅长对领域属性类别为人物的对象进行对象属性识别,即父分类模型与子分类模型2之间通过领域属性类别-人物进行类别映射。子分类模型3擅长对领域属性类别为软件的对象进行对象属性识别,即父分类模型与子分类模型3之间通过领域属性类别-软件进行类别映射。
在一个实施例中,可通过知识图谱来呈现父分类模型与子分类模型之间的类别映射关系;该知识图谱包括父分类层级和子分类层级,父分类层级用于表示对象的领域属性类别,子分类层级用于表示对象的对象属性类别。该父分类层级与父分类模型对应,子分类层级与至少两个子分类模型对应,该知识图谱用于指示每个子分类模型与父分类层级中的一个领域属性类别对应。例如,如图3所示,该父类层级包括视频、人物以及软件三个领域属性类别,即父分类模型能够对父分类层级中的领域属性类别的对象进行领域属性识别。子分类模型1与领域属性类别-视频对应,即子分类模型1擅长对领域属性类别为视频的对象进行对象属性识别;子分类模型2与领域属性类别-人物对应,即子分类模型擅长2对领域属性类别为人物的对象进行对象属性识别;子分类模型3与领域属性类别-软件对应,即子分类模型3擅长对领域属性类别为软件的对象进行对象属性识别。
在另一个实施例中,可通过父分类模型与子分类模型之间的连接关系呈现父分类模型与子分类模型之间的类别映射关系。父分类模型包括至少两个输出接口,一个输出接口与一种领域属性类别对应,即每个输出接口用于输出一种领域属性类别,一个输出接口与一个子分类模型相连接。例如,如图4所示,父分类模型包括输出接口1、输出接口2、输出接口3,输出接口1用于输出领域属性类别-视频,输出接口2用于输出领域属性类别-人物,输出接口1用于输出领域属性类别-软件;表明父分类模型能够对视频、人物、软件等领域属性类别的对象进行领域属性识别。输出接口1与子分类模型1相连接,即表明子分类模型1擅长对领域属性类别为视频的对象进行对象属性识别;输出接口2与子分类模型2相连接,即表明子分类模型2擅长对领域属性类别为软件的对象进行对象属性识别。输出接口3与子分类模型3相连接,即表明子分类模型3擅长对领域属性类别为软件的对象进行对象属性识别。需要说明的是,一个输出接口1可以与多个属性领域属性类别相对应,即子分类模型可以擅长对多个领域属性类别的对象进行对象属性识别,本申请对此不做限定。
其中,父分类模型和子分类模型具体可以是指基于CNN(Convolutional NeuralNetworks,卷积神经网络)所构建的分类模型,例如:TextCNN(文本卷积神经网络) 、VGGNet网络(Visual Geometry GroupNetwork,一种卷积神经网络)、ResNet网络(残差网络)以及AlexNet网络(一种卷积神经网络),等等;也可以是基于FCN(Fully ConvolutionalNetworks,全神经网络)所构建的分类模型,对此不作限定;父类型模型与子分类模型的层级结构可以相同,也可以不相同。
基于上述描述,本申请实施例提出的数据处理方法可参见图5,该数据处理方法可以是由计算机设备来执行,该计算机设备例如可以是图2a所示的服务器或终端。如图5所示,该数据处理方法可以如下步骤S101-S104:
S101、将待识别的目标对象的关键信息集合输入至父分类模型,该父分类模型与至少两个子分类模型之间具有类别映射关系。
目标对象可以是指需要识别的对象,可以是指人物、地名、植物、商品、概念、视频数据、图像数据以及书籍等等。为了建立目标对象的知识图谱,计算机设备可以从第三方网站、本地存储或合作方获取目标对象的关键属性信息。目标对象的关键信息集合是指用于描述目标对象的属性特征的信息集合,可包括但不限于:目标对象的基本关键信息、结构化关键信息以及属性关键信息等等;目标对象的基本关键信息可以包括目标对象的简介,用于描述目标对象的基本信息;结构化关键信息可以包括目标对象的KV对,KV对是指属性-属性值,可用于描述目标对象的属性与属性值之间的对应关系;属性关键信息可以包括目标对象的属性,用于描述目标对象具有的属性。
其中,基本关键信息与结构化关键信息可以部分重叠,如基本关键信息包括的目标对象的属性值与结构化关键信息包括的目标对象的属性值可以部分相同,也可以完全不同。结构化关键信息与属性关键信息可以部分重叠,即属性关键信息包括的目标对象的属性与结构化关键信息包括的目标对象的属性可以部分相同,也可以完全不同。例如,目标对象可以是指名称为“快乐生活”的视频数据,则该视频数据的基本关键信息可以包括:“《快乐生活》是由用户A执导,用户B编剧,用户C、用户D主演的记录片,于1993年1月1日在中国上映。该片记录了生活在F地的人民的生活……”,即该视频数据的基本关键信息描述了该视频数据的名称、讲述的内容、上映时间、拍摄人以及主演等等。目标对象的结构化关键信息可参见如下表2,从表2中可知该视频数据的属性与属性值之间的对应关系,如中文名称与“快乐生活”对应,外文名称与“Happy life”对应等等。目标对象的属性关键信息可包括中文名称、外文名称、出品公司、出品时间、主演以及发行公司等等。
表2:
属性 属性值
中文名称 快乐生活
外文名称 Happy life
在线播放平台 平台1、平台2
出品公司 W电影公司
出品时间 2001
主演 用户C、用户D
片长 70分钟
…… ……
计算机设备获取到目标对象的关键信息集合后,可以将该目标对象的关键信息集合输入到父分类模型中。
S102、采用该父分类模型对该目标对象的关键信息集合进行领域属性识别,得到该目标对象的领域属性类别。
计算机设备可以采用该父分类模型对该目标对象的关键信息集合进行特征提取,得到目标对象的关键信息集合对应特征向量,对目标对象的关键信息集合对应特征向量进行领域属性识别,得到该目标对象的领域属性类别。
S103、根据该类别映射关系从该至少两个子分类模型中选择与该目标对象的领域属性类别匹配的子分类模型,作为目标子分类模型。
由于不同子分类模型擅长对不同的领域属性类别的对象进行对象属性识别,因此,为了提高对象属性识别的准确度,计算机设备可以根据该类别映射关系从该至少两个子分类模型中选择与该目标对象的领域属性类别匹配的子分类模型,作为目标子分类模型,即目标子分类模型为擅长对目标对象进行对象属性识别的子分类模型。具体的,计算机设备可以通过上述类别映射表、知识图谱或父分类模型与子分类模型之间的连接关系,从该至少两个子分类模型中选择与该目标对象的领域属性类别匹配的子分类模型,作为目标子分类模型。
S104、采用该目标子分类模型对该目标对象的关键信息集合进行对象属性识别,得到该目标对象的对象属性类别。
计算机设备可以采用目标子分类模型对该目标对象的关键信息集合进行对象属性识别,得到该目标对象的对象属性类别,能够提高对目标对象进行类别识别的准确度。
本发明实施例中,计算机设备可以采用父分类模型对目标对象的关键信息集合进行领域属性识别,得到目标对象的领域属性类别,该父分类模型与至少两个子分类模型具有类别映射关系,即该类别映射关系用于指示子分类模型擅长对哪些领域属性类别的对象进行对象属性识别。计算机设备可根据该类别映射关系从至少两个子分类模型中选择与目标对象的领域属性类别匹配的子分类模型;也就是说,按照子分类模型的对象属性识别能力,从至少两个子分类模型中选择与目标对象的领域属性类别匹配的子分类模型,作为目标子分类模型,即该目标子分类模型擅长对目标对象进行对象属性识别。通过采用目标子分类模型对目标对象的关键信息集合进行对象属性识别,得到目标对象的对象属性类别,通过目标子分类模型可实现对目标对象的对象属性类别进行更精细化的识别,提高获取目标对象的类别信息准确度。另外,通过采用父分类模型及子分类模型对目标对象进行识别,不需要人工参与,可节省人力资源,可提高获取目标对象的类别信息的效率。
在一个实施例中,上述步骤S102可包括如下步骤s11~s12。
s11、调用该父分类模型对该目标对象的关键信息集合进行特征提取,得到该目标对象的关键信息集合对应的特征向量。
s12、调用该父分类模型对该目标对象的关键信息集合对应的特征向量进行领域属性识别,得到该目标对象的领域属性类别。
在步骤s11~s12中,计算机设备可以调用父分类模型对该目标对象的关键信息集合进行特征提取,得到该目标对象的关键信息集合对应的特征向量,此处特征提取是指将文本格式的关键信息集合转换为二进制格式的特征向量。进一步,计算机设备可以调用该父分类模型对该目标对象的关键信息集合对应的特征向量进行领域属性识别,得到该目标对象的领域属性类别。具体的,可调用该父分类模型对该目标对象的关键信息集合对应的特征向量进行领域属性识别,得到该目标对象的多个候选领域属性类别,以及每个候选领域属性类别的概率;每个候选领域属性类别的概率是指目标对象的领域属性类别为该候选领域属性类别的概率,该概率可用于指示领域属性识别的准确度,即概率越大,领域属性识别的准确度越高,相反,概率越低,领域属性识别的准确度越低。因此,可从该多个候选领域属性类别中选择概率最高的候选属性类别作为目标对象的领域属性类别。
在此实施例中,该目标对象的关键信息集合包括基础关键信息、结构化关键信息以及属性关键信息,该父分类模型包括全量词向量层和关键词向量层;上述s11可包括如下步骤s21~s23。
s21、调用该全量词向量层对该基础关键信息、该结构化关键信息以及该属性关键信息进行全量特征提取,得到该基础关键信息对应的全量词向量、该结构化关键信息对应的全量词向量以及该属性关键信息对应的全量词向量。
s22、调用该关键词向量层提取该属性关键信息中的属性关键词,对该属性关键词进行特征提取,得到该属性关键信息对应的属性关键词向量。
s23、将该基础关键信息对应的全量词向量、该结构化关键信息对应的全量词向量、该属性关键信息对应的全量词向量以及该属性关键词向量,作为该目标对象的关键信息集合对应的特征向量。
在步骤s21~s23中,父分类模型包括全量词向量层和关键词向量层,全量词向量层用于提取对应关键信息集合的全量词向量。关键词向量层用于提取关键信息集合的关键词向量,即用于提取该属性关键信息对应的属性关键词向量。其中,全量词向量层的数量可以一个或多个,当全量词向量层的数量为一个时,由该全量词向量层分别提取该基础关键信息对应的全量词向量、该结构化关键信息对应的全量词向量以及该属性关键信息对应的全量词向量。当该全量词向量层的数量为多个时,该父分类模型还可包括词映射层和属性映射层,该词映射层与多个全量词向量层相连接,属性映射层与关键词向量层相连接。词映射层用于接收基础关键信息、结构化关键信息以及该属性关键信息,以及用于将各种关键信息输入到对应的全量词向量层,由各个全量词向量层提取对应关键信息的全量词向量;属性映射层用于接收属性关键信息,将属性关键信息输入至关键词向量层,由关键词向量层提取属性关键信息对应的属性关键词向量。
请参见图6,图6中以三个全量词向量层为例,当采用父分类模型识别目标对象的领域属性类别时,计算机设备可以将基础关键信息、结构化关键信息以及该属性关键信息输入至词映射层,该词映射层可根据全量词向量层与关键信息之间的对应关系,将基础关键信息、结构化关键信息以及该属性关键信息分别输入至对应的全量词向量层。如图6中,可将基础关键信息输入至全量词向量层1中,由全量词向量层1对基础关键信息进行全量特征提取,得到基础关键信息对应的全量词向量;将结构化关键信息输入至全量词向量层2中,由全量词向量层2对结构化关键信息进行全量特征提取,得到结构化关键信息对应的全量词向量;将属性关键信息输入至全量词向量层3中;由全量词向量层3对属性关键信息进行全量特征提取,得到属性关键信息对应的全量词向量。在获取到全量词向量后,计算机设备可以将属性关键信息输入至关键词向量层,由关键词向量层提取属性关键信息中的属性关键词,属性关键词是指属性关键信息中能够影响目标对象的领域属性识别的属性。例如,该目标对象为视频数据,该目标对象的属性关键信息中的线播放平台能够表明目标对象为领域属性类别为视频或音频等,即该在线播放平台能够影响对目标对象的领域属性识别,即可称在线播放平台为该目标对象的属性关键信息中的属性关键词。计算机设备在获取到属性关键词后,可对属性关键词进行特征提取,得到该属性关键信息对应的属性关键词向量。进一步,将该基础关键信息对应的全量词向量、该结构化关键信息对应的全量词向量、该属性关键信息对应的全量词向量以及该属性关键词向量,作为该目标对象的关键信息集合对应的特征向量。
其中,该全量词向量词层为基于CNN模型构成的全量词向量层。例如,如图7所示,该全量词向量词层为基于TextCNN模型构成的全量词向量层,TextCNN模型可包括输入层、卷积层、池化层以及全连接层。输入层用于输入目标对象的关键信息集合,卷积层用于使用卷积核对目标对象的关键信息集合进行卷积处理,池化层用于对卷积处理后目标对象的关键信息集合进行降维处理,全连接层用于将降维处理后的目标对象的关键信息集合转为为全量词向量。该关键词向量层可以是指池化层,该池化层可以包括但不限于:加和池化(SumPooling)、最大池化(Max Pooling)、平均池化(Average Pooling),等等。
在此实施例中,该父分类模型包括拼接层和分类层,上述s12可包括如下步骤s31~s32。
s31、调用该拼接层对该基础关键信息对应的全量词向量、该结构化关键信息对应的全量词向量、该属性关键信息对应的全量词向量以及该属性关键词向量进行拼接处理,得到目标特征向量。
s32、调用该分类层对该目标特征向量进行领域属性识别,得到该目标对象的领域属性类别。
在步骤s31~s32中,再请参见图6,该父分类模型可以包括拼接层和分类层,该拼接层用于对目标对象的关键信息集合的特征向量进行拼接处理,分类层用于识别目标对象的领域属性类别。在获取到目标对象的关键信息集合对应的特征向量后,计算机设备可以调用该拼接层对该基础关键信息对应的全量词向量、该结构化关键信息对应的全量词向量、该属性关键信息对应的全量词向量以及该属性关键词向量进行拼接处理,得到目标特征向量。拼接处理可以是指将多个向量合并为一个向量,例如,该基础关键信息对应的全量词向量、该结构化关键信息对应的全量词向量、该属性关键信息对应的全量词向量以及该属性关键词向量分别为200维的向量,则目标特征向量可以为800维的向量。或者,拼接处理可以是指将多个向量进行合并进行降维处理得到一个向量,例如,基础关键信息对应的全量词向量、该结构化关键信息对应的全量词向量、该属性关键信息对应的全量词向量以及该属性关键词向量分别为200维的向量,将这些向量进行合并,得到800维的向量,对该800维的向量进行降维处理,得到200维的向量,作为目标特征向量。进一步,计算机设备可以调用该分类层对该目标特征向量进行领域属性识别,得到该目标对象的领域属性类别。上述通过将基础关键信息、结构化关键信息以及该属性关键信息输入至父分类模型中进行识别处理,得到目标对象的领域属性类别,也就是说,通过将目标对象多个维度(即多个通道)的信息输入至父分类模型中进行识别处理,能够提高获取目标对象的类别信息的准确度。另外,通过将目标对象多个通道的信息输入至父分类模型中进行识别处理,使该父分类模型不容易受某一通道中的噪声影响,而降低父分类模型的领域属性识别的准确度,可提高父分类模型的健壮性。
需要说明的是,子分类模型的层级结构与父分类模型的层级结构可以相同,例如,子分类模型的层级结构可以参见图6中父分类模型的层级结构,这时子分类模型的各个层级的权重参数与父分类模型对应层级的权重参数可以不同,进而使子分类模型与父分类模型的处理能力不一致。例如,父分类模型能够对目标对象的关键信息进行粗略的识别处理,得到目标对象的领域属性类别,子分类模型能够对目标对象的关键信息进行精细的识别处理,得到目标对象的对象属性类别。如果子分类模型的层级结构与父分类模型的层级结构相同,计算机设备可以生成父分类模型的模板,该模板中包括父分类模型对应代码程序,以及父分类模型的各个层级结构的初始权值参数等。可根据该模板生成初始子分类模型,采用样本数据对初始子分类模型进行训练得到子分类模型,即不需要重新编写初始子分类模型的代码程序,可提高建立子分类模型的效率,节约成本。当子分类模型的层级结构与父分类模型的层级结构相同时,目标子分类模型对该目标对象的关键信息集合进行对象属性识别,得到该目标对象的对象属性类别的具体实现方式,可以参见上述父分类模型对该目标对象的关键信息集合进行领域属性识别,得到目标对象的领域属性类别的具体实现方式,重复之处不再赘述。特别地,子分类模型的层级结构与父分类模型的层级结构也可以不相同,例如,父分类模型可以为基于CNN所构建的分类模型,子分类模型可以是基于FCN所构建的分类模型。
在此实施例中,步骤S104可以包括如下步骤s41~s43。
s41、将该父分类模型进行特征提取得到的该目标对象的关键信息集合对应的特征向量,作为父特征向量。
s42、调用该目标子分类模型对该目标对象的关键信息集合进行特征提取,得到该目标对象的关键信息集合对应的特征向量,作为子特征向量。
s43、调用该目标子分类模型对该父特征向量和该子特征向量进行对象属性识别,得到该目标对象的对象属性类别。
在步骤s41~s43中,请参见图8所示,计算设备可以将父分类模型进行特征提取到的该目标对象的关键信息集合对应的特征向量,作为父特征向量,调用该目标子分类模型对目标对象的关键信息集合进行特征提取,得到目标对象的关键信息集合对应特征向量,作为子特征向量。父特征向量能够粗略地描述目标对象的属性特征,子特征向量能够精细地描述目标对象的属性特征,父特征向量可包括子特征向量中不具备的信息;因此,计算设备可以调用该目标子分类模型对该父特征向量和子特征向量进行拼接处理,对拼接处理后的特征向量进行对象属性识别,得到该目标对象的对象属性类别,也就是说,采用目标子分类模型对目标对象更加丰富、完整的信息进行对象属性识别,可提高获取目标对象的对象属性类别的准确度,即可提高获取目标对象的类别信息的准确度。
在一个实施例中,步骤S103可包括如下步骤s51~s52。
s51、获取知识图谱,该知识图谱包括父分类层级和子分类层级,该父分类层级与该父分类模型对应,该子分类层级与该至少两个子分类模型对应,该父分类层级包括至少两个领域属性类别,该知识图谱用于指示该至少两个子分类模型中的每个子分类模型与该父分类层级中的领域属性类别之间的类别映射关系。
s52、根据该知识图谱从该至少两个子分类模型中选择与该目标对象的领域属性类别具有类别映射关系的子分类模型,作为该目标子分类模型。
在步骤s51~s52中,计算机设备可以从本地存储、第三方网站或合作方获取知识图谱,根据该知识图谱从该至少两个子分类模型中选择与该目标对象的领域属性类别具有类别映射关系的子分类模型,作为目标子分类模型,即该目标子分类模型为擅长识别目标对象的对象属性类别的子分类模型。例如,如图3所示,若目标对象的领域属性类别为视频,该知识图谱指示子分类模型1与领域属性类别-视频对应,因此,计算机设备可以将子分类模型1作为目标子分类模型。
在此实施例中,该目标对象的关键信息集合包括关键词,该方法还包括如下步骤s61~s62。
s61、建立该关键词分别与该目标对象的领域属性类别和对象属性类别之间的词映射关系。
s62、根据该词映射关系将该关键词添加至该知识图谱中。
在步骤s61~s62中,计算机设备可以提取该目标对象的关键信息集合中的关键词,该关键词可以包括目标对象的特征属性等,例如,该目标对象为一个电影,关键词可以包括电影的名称、电影的播放时长以及电影的拍摄时间等。进一步,计算机设备可以建立该关键词分别与该目标对象的领域属性类别和对象属性类别之间的词映射关系,根据该映射关系将该关键词添加至该知识图谱中,以便可以根据该知识图谱查询到与该目标对象的特征属性。
在另一个实施例中,该父分类模型包括至少两个输出接口,该父分类模型通过该输出接口与每个该子分类模型相连接;步骤S103可包括如下步骤s71~s72。
s71、从该至少两个输出接口中获取输出该目标对象的领域属性类别的输出接口,作为目标输出接口。
s72、将与该目标输出接口相连接的子分类模型,作为目标子分类模型。
在步骤s71~s72中,父分类模型包括至少两个输出接口,该父分类模型通过输出接口与每个子分类模型相连接,每个输出接口用于输出一种领域属性类别。计算机设备可以从至少两个输出接口中获取输出该目标对象的领域属性类别的输出接口,作为目标输出接口,将与该目标输出接口相连接的子分类模型作为目标子分类模型。例如,如图4所示,若目标对象的领域属性类别为视频,父分类模型的输出接口1用于输出领域属性类别-视频,该输出接口1与子分类模型1相连接,因此,计算机设备可以将子分类模型1作为目标子分类模型。
本申请实施例以目标对象是指名称为“快乐生活”的视频数据为例,对本申请实施例中的数据处理方法进行说明。假设该父分类模型与三个子分类模型之间具有类别映射关系,该三个子分类模型分别为子分类模型1、子分类模型2以及子分类模型3,该类别映射关系是通过如图4所示的父分类模型与子分类模型之间的连接关系来呈现的。父分类模型的层级结构可以参见上述图6,子分类模型的层级结构与父分类模型的层级结构相同,即子分类模型包括词映射层、属性映射层、全量词向量层、关键词向量层、拼接层以及分类层。如图9和图10所示,该数据处理方法包括:
请参见9,计算机设备可以从网页上获取该目标对象的关键信息集合,该关键信息集合包括该目标对象的简介、KV对以及属性。调用父分类模型的全量词向量层对该目标对象的简介、KV对以及属性进行全量特征提取,得到该目标对象的简介对应的全量词向量、KV对对应的全量词向量以及属性对应全量词向量,调用父分类模型的关键词向量层提取目标对象的属性中的关键属性,对关键属性进行特征提取,得到关键属性对应的关键词向量。调用父分类模型的拼接层对该目标对象的简介对应的全量词向量、KV对对应的全量词向量、属性对应全量词向量、关键属性对应的关键词向量进行拼接处理,得到目标特征向量。调用父分类模型的分类层对该目标特征向量进行领域属性识别,得到该目标对象的领域属性类别,该目标对象的领域属性类别为视频,即表明目标对象属于视频领域。
再请参见9,计算机设备可以获取输出目标对象的领域属性类别-视频的输出接口,该输出接口为父分类模型的输出接口1,将与该输出接口1相连接的子分类模型1作为目标子分类模型,即子分类模型1为擅长对属于领域属性类别-视频的对象进行对象属性识别的子分类模型。
再请参见9,计算机设备获取到目标子分类模型后,调用目标子分类模型的全量词向量层对该目标对象的简介、KV对以及属性进行全量特征提取,得到该目标对象的简介对应的全量词向量、KV对对应的全量词向量、属性对应全量词向量;调用目标子分类模型的关键词向量层提取目标对象的属性中关键属性,对该关键属性进行特征提取,得到该关键属性对应的关键词向量。调用目标子分类模型的拼接层对目标对象的简介对应的全量词向量、KV对对应的全量词向量、属性对应全量词向量以及属性对应关键词向量进行拼接处理,得到子特征向量。调用目标子分类模型对子特征向量进行对象属性识别,得到目标对象的对象属性类别,如该目标对象的对象属性类别为电影,即表明目标对象为一部电影。
再请参见10,计算机设备获取到目标对象的领域属性类别和对象领域属性类别后,从目标对象的关键信息集合中获取关键词,如关键词包括视频数据的名称“快乐生活”、视频数据的拍摄年份1993以导演用户A。可建立该关键词分别与领域属性类别-视频、对象属性类别-电影之间的词映射关系,根据该词映射关系将关键词添加至知识图谱中。该知识图谱可以用于智能问答、信息搜索等领域,以应用于信息搜索为例,当用户在使用了该知识图谱的搜索应用程序中搜索“视频快乐生活”,则该搜索应用程序能够为用户呈现与“快乐生活”的视频数据相关的词条,词条中可包括该视频数据的名称“快乐生活”、视频数据的拍摄年份1993以导演用户A,以及该视频数据的对象属性类别-电影等等。
基于上述描述,本申请实施例提出的模型训练方法可参见图11,模型训练方法可以是由计算机设备来执行,该计算机设备例如可以是图2a所示的服务器或终端。如图11所示,该数据处理方法可以如下步骤S201-S205:
S201、将第一样本对象的关键信息集合输入到初始父分类模型中进行领域属性预测,得到该第一样本对象的预测领域属性类别,该初始父分类模型与至少两个初始子分类模型之间具有类别映射关系。
S202、采用该第一样本对象的标注领域属性类别和预测领域属性类别对该初始父分类模型进行调整,将调整后的该初始父分类模型作为父分类模型。
步骤S201~S202中,为了提高父分类模型的准确度,计算机设备可以对初始父分类模型进行调整,得到父分类模型。具体的,可将第一样本对象的关键信息集合输入到初始父分类模型中进行领域属性预测,得到该第一样本对象的预测领域属性类别,此处第一样本对象是指标注领域属性类别与目标对象的领域属性类别相同的样本对象。计算设备可获取初始父分类模型的损失函数,根据第一样本对象的预测领域属性类别和标注领域属性类别计算初始父分类模型的损失函数的值。若初始父分类模型的损失函数的值大于第一阈值,则对初始父分类模型的权重参数进行调整,直至该初始父分类模型的损失函数的值小于第一阈值,将调整后的初始父分类模型作为父分类模型。初始父分类模型为领域属性识别准确度较低的分类模型,父分类模型为领域属性识别准确度较高的分类模型;第一样本对象的标注领域属性类别可以是指人工对第一样本对象进行领域属性类别标注得到的。第一阈值可以是目标对象的类别信息的应用场景设置的,或者,是根据用户的个人需求设置的。
需要说明的是,计算机设备可以采用大量样本对象的关键信息集合来训练初始父分类模型,此处大量样本对象可以是指多种领域属性类别的样本对象,这样可以提高父分类模型的泛化能力,此处泛化能力是指父分类模型能够对多种领域属性类别的对象进行领域属性识别,即父分类模型具有对多种领域属性类别的对象进行领域属性识别的能力。
S203、根据该类别映射关系从该至少两个初始子分类模型中选择与该第一样本对象的预测领域属性类别匹配的初始子分类模型,作为目标初始子分类模型。
此处类别映射关系可以采用上述类别映射表、知识图谱、或初始子分类模型与初始父分类模型之间的连接关系来呈现的,因此,计算机设备可以根据类别映射表、知识图谱或初始子分类模型与初始父分类模型之间的连接关系从至少两个初始子分类模型中选择与第一样本对象的预测领域属性类别匹配的初始子分类模型,作为目标初始子分类模型。
S204、将该第一样本对象的关键信息集合输入到该目标初始子分类模型中进行对象属性预测,得到该第一样本对象的预测对象属性类别。
S205、采用该第一样本对象的标注对象属性类别和预测对象属性类别对该目标初始子分类模型进行调整,将调整后的该目标初始子分类模型作为目标子分类模型。
在步骤S204~S205中,为了提高子分类模型的准确度,计算机设备可以对初始目标子分类模型进行调整,得到目标子分类模型。具体的,可将该第一样本对象的关键信息集合输入到该目标初始子分类模型中进行对象属性预测,得到该第一样本对象的预测对象属性类别,获取目标初始子分类模型的损失函数,根据第一样本对象的预测对象属性类别和标注对象属性类别计算目标初始子分类模型的损失函数的值。当该目标初始子分类模型的损失函数的值大于第二阈值,则对目标初始子分类模型的权重参数进行调整,直至该目标初始子分类模型的损失函数的值小于第二阈值,将调整后的该目标初始子分类模型作为目标子分类模型。采用该第一样本对象的关键信息集合对目标初始子分类模型进行训练,能够使目标子分类模型能够更加精细化地对某一种预测领域属性类别(即属于第一样本对象的预测领域属性类别)的对象进行对象属性识别。其中,目标初始子分类模型为对象属性识别准确度较低的分类模型,目标子分类模型为对象属性识别准确度较高的分类模型。
本申请实施例中,计算机设备可以将第一样本对象的关键信息集合输入到初始父分类模型中进行领域属性预测,得到该第一样本对象的预测领域属性类别,采用该第一样本对象的标注领域属性类别和预测领域属性类别对该初始父分类模型进行调整,将调整后的该初始父分类模型作为父分类模型,可提高父分类模型的领域属性识别的准确度。进一步,可根据该类别映射关系从该至少两个初始子分类模型中选择与该第一样本对象的预测领域属性类别匹配的初始子分类模型,作为目标初始子分类模型,将该第一样本对象的关键信息集合输入到该目标初始子分类模型中进行对象属性预测,得到该第一样本对象的预测对象属性类别。可采用该第一样本对象的标注对象属性类别和预测对象属性类别对该目标初始子分类模型进行调整,将调整后的该目标初始子分类模型作为目标子分类模型。通过采用第一样本对象关键信息集合对目标初始子分类模型进行训练,能够使目标子分类模型能够更加精细化地对属于某一种预测领域属性类别(即属于第一样本对象的预测领域属性类别)的对象进行对象属性识别,即使目标子分类模型擅长对属于某一预测领域属性类别的对象进行对象属性识别,提高目标子分类模型的对象属性识别的准确度。
在一个实施例中,该方法还可以包括如下步骤s71~s75。
s71、查找该知识图谱中新增的领域属性类别。
s72、获取第二样本对象的关键信息集合,该第二样本对象的标注领域属性类别为该新增的领域属性类别。
s73、根据该第二样本对象的关键信息集合和该第二样本对象的标注领域属性类别更新该父分类模型。
s74、建立与该第二样本对象的标注领域属性类别匹配的新增初始子分类模型。
s75、采用该第二样本对象的关键信息集合和该第二样本对象的标注对象属性类别对该新增初始子分类模型进行训练,得到与该第二样本对象的标注领域属性类别匹配的子分类模型。
在步骤s71~s75中,计算机设备可以周期性地查找知识图谱中是否有新增的领域属性类别,若查找到该知识图谱中新增的领域属性类别,则表明需要新增分类模型来对属于新增的领域属性类别的对象进行识别,可获取第二样本对象的关键信息集合,该第二样本对象的标注领域属性类别为该新增的领域属性类别。可根据该第二样本对象的关键信息集合和该第二样本对象的标注领域属性类别更新该父分类模型,以使更新后父分类模型能够对属于新增的领域属性类别的对象进行领域属性识别。进一步,可建立与该第二样本对象的标注领域属性类别匹配的新增初始子分类模型,调用新增初始子分类模型对该第二样本对象的关键信息集合进行对象属性预测,得到第二样本对象的预测对象属性类别。
采用第二样本对象的预测对象属性类别和该第二样本对象的标注对象属性类别对该新增初始子分类模型进行调整,将调整后的新增初始子分类模型作为与该第二样本对象的标注领域属性类别匹配的子分类模型。可见,在知识图谱中新增领域属性类别时,只需要对父分类模型进行调整,不需要重新建立父分类模型,降低资源消耗,降低成本;同时,在知识图谱中新增领域属性类别时,通过新增初始子分类模型,采用属于新增的领域属性类别的样本对象的关键信息集合对新增初始子分类模型进行训练,该新增初始子分类模型不会影响其他子分类模型的对象属性识别性能,即此种模型训练方法对子分类模型是透明的,提高分类模型的可扩展性。
在一个实施例中,该方法还可以包括如下步骤s81~s83。
s81、接收对该目标子分类模型的更新请求,该更新请求携带样本集合,该样本集合包括多个待选择样本对象、每个该待选择样本对象的关键信息集合、每个该待选择样本对象的标注领域属性类别以及每个该待选择样本对象的标注对象属性类别。
s82、根据每个该待选择样本对象的标注领域属性类别,筛选出与该第一样本对象的标注领域属性类别相同的待选择样本对象,作为第三样本对象。
s83、采用该第三样本对象的关键信息集合和该第三样本对象的标注对象属性类别对该目标子分类模型进行更新。
在步骤s81~s83中,计算机设备可以接收对该目标子分类模型的更新请求,响应该更新请求,每个该待选择样本对象的标注领域属性类别与该第一样本对象的标注领域属性类别进行比对,从多个待选择样本对象中筛选出与该第一样本对象的标注领域属性类别相同的待选择样本对象,作为第三样本对象。可采用该第三样本对象的关键信息集合和该第三样本对象的标注对象属性类别对该目标子分类模型进行更新。这样可使更新后的目标子分类模型专注于对某一领域属性类别(即第一样本对象的领域属性类别)的对象进行对象属性识别,能够提高更新后的目标子分类模型的对象属性识别的准确度;另外,通过筛选出与该第一样本对象的标注领域属性类别相同的待选择样本对象,作为第三样本对象,使更新后的目标子分类模型不受其他领域属性类别的对象的关键信息集合的影响,提高更新后目标子分类模型的健壮性。
请参见图12,是本申请实施例提供的一种数据处理装置的结构示意图。该数据处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该数据处理装置为一个应用软件;该装置可以用于执行本申请实施例提供的方法中的相应步骤。如图12所示,该数据处理装置1可以包括:
输入模块11,用于将待识别的目标对象的关键信息集合输入至父分类模型,该父分类模型与至少两个子分类模型之间具有类别映射关系;
识别模块12,用于采用该父分类模型对该目标对象的关键信息集合进行领域属性识别,得到该目标对象的领域属性类别;
选择模块13,用于根据该类别映射关系从该至少两个子分类模型中选择与该目标对象的领域属性类别匹配的子分类模型,作为目标子分类模型;
该识别模块12,还用于采用该目标子分类模型对该目标对象的关键信息集合进行对象属性识别,得到该目标对象的对象属性类别。
可选的,选择模块13,具体用于获取知识图谱,该知识图谱包括父分类层级和子分类层级,该父分类层级与该父分类模型对应,该子分类层级与该至少两个子分类模型对应,该父分类层级包括至少两个领域属性类别,该知识图谱用于指示该至少两个子分类模型中的每个子分类模型与该父分类层级中的领域属性类别之间的类别映射关系;根据该知识图谱从该至少两个子分类模型中选择与该目标对象的领域属性类别具有类别映射关系的子分类模型,作为该目标子分类模型。
可选的,该装置还包括:
建立模块14,用于建立该关键词分别与该目标对象的领域属性类别和对象属性类别之间的词映射关系;
添加模块15,用于根据该词映射关系将该关键词添加至该知识图谱中。
可选的,该父分类模型包括至少两个输出接口,该父分类模型通过该输出接口与每个该子分类模型相连接;选择模块13,具体用于从该至少两个输出接口中获取输出该目标对象的领域属性类别的输出接口,作为目标输出接口;将与该目标输出接口相连接的子分类模型,作为目标子分类模型。
可选的,识别模块12,具体用于调用该父分类模型对该目标对象的关键信息集合进行特征提取,得到该目标对象的关键信息集合对应的特征向量;调用该父分类模型对该目标对象的关键信息集合对应的特征向量进行领域属性识别,得到该目标对象的领域属性类别。
可选的,该目标对象的关键信息集合包括基础关键信息、结构化关键信息以及属性关键信息,该父分类模型包括全量词向量层和关键词向量层;识别模块12,具体用于调用该全量词向量层对该基础关键信息、该结构化关键信息以及该属性关键信息进行全量特征提取,得到该基础关键信息对应的全量词向量、该结构化关键信息对应的全量词向量以及该属性关键信息对应的全量词向量;调用该关键词向量层提取该属性关键信息中的属性关键词,对该属性关键词进行特征提取,得到该属性关键信息对应的属性关键词向量;将该基础关键信息对应的全量词向量、该结构化关键信息对应的全量词向量、该属性关键信息对应的全量词向量以及该属性关键词向量,作为该目标对象的关键信息集合对应的特征向量。
可选的,该父分类模型包括拼接层和分类层,识别模块12,具体用于调用该拼接层对该基础关键信息对应的全量词向量、该结构化关键信息对应的全量词向量、该属性关键信息对应的全量词向量以及该属性关键词向量进行拼接处理,得到目标特征向量;调用该分类层对该目标特征向量进行领域属性识别,得到该目标对象的领域属性类别。
可选的,识别模块12,具体用于将该父分类模型进行特征提取得到的该目标对象的关键信息集合对应的特征向量,作为父特征向量;调用该目标子分类模型对该目标对象的关键信息集合进行特征提取,得到该目标对象的关键信息集合对应的特征向量,作为子特征向量;调用该目标子分类模型对该父特征向量和该子特征向量进行对象属性识别,得到该目标对象的对象属性类别。
本发明实施例中,计算机设备可以采用父分类模型对目标对象的关键信息集合进行领域属性识别,得到目标对象的领域属性类别,该父分类模型与至少两个子分类模型具有类别映射关系,即该类别映射关系用于指示子分类模型擅长对哪些领域属性类别的对象进行对象属性识别。计算机设备可根据该类别映射关系从至少两个子分类模型中选择与目标对象的领域属性类别匹配的子分类模型;也就是说,按照子分类模型的对象属性识别能力,从至少两个子分类模型中选择与目标对象的领域属性类别匹配的子分类模型,作为目标子分类模型,即该目标子分类模型擅长对目标对象进行对象属性识别。通过采用目标子分类模型对目标对象的关键信息集合进行对象属性识别,得到目标对象的对象属性类别,通过目标子分类模型可实现对目标对象的对象属性类别进行更精细化的识别,提高获取目标对象的类别信息准确度。另外,通过采用父分类模型及子分类模型对目标对象进行识别,不需要人工参与,可节省人力资源,可提高获取目标对象的类别信息的效率。
请参见图13,是本申请实施例提供的一种数据处理装置的结构示意图。该数据处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该数据处理装置为一个应用软件;该装置可以用于执行本申请实施例提供的方法中的相应步骤。如图13所示,该数据处理装置2可以包括:
输入模块21,用于将第一样本对象的关键信息集合输入到初始父分类模型中进行领域属性预测,得到该第一样本对象的预测领域属性类别,该初始父分类模型与至少两个初始子分类模型之间具有类别映射关系;
调整模块22,用于采用该第一样本对象的标注领域属性类别和预测领域属性类别对该初始父分类模型进行调整,将调整后的该初始父分类模型作为父分类模型;
选择模块23,用于根据该类别映射关系从该至少两个初始子分类模型中选择与该第一样本对象的预测领域属性类别匹配的初始子分类模型,作为目标初始子分类模型;
该输入模块21,还用于将该第一样本对象的关键信息集合输入到该目标初始子分类模型中进行对象属性预测,得到该第一样本对象的预测对象属性类别;
该调整模块22,还用于采用该第一样本对象的标注对象属性类别和预测对象属性类别对该目标初始子分类模型进行调整,将调整后的该目标初始子分类模型作为目标子分类模型。
可选的,该装置还包括:查找模块24,用于查找该知识图谱中新增的领域属性类别;
获取模块25,用于获取第二样本对象的关键信息集合,该第二样本对象的标注领域属性类别为该新增的领域属性类别;
更新模块26,用于根据该第二样本对象的关键信息集合和该第二样本对象的标注领域属性类别更新该父分类模型;
建立模块27,用于建立与该第二样本对象的标注领域属性类别匹配的新增初始子分类模型;
训练模块28,用于采用该第二样本对象的关键信息集合和该第二样本对象的标注对象属性类别对该新增初始子分类模型进行训练,得到与该第二样本对象的标注领域属性类别匹配的子分类模型。
可选的,更新模块26,用于接收对该目标子分类模型的更新请求,该更新请求携带样本集合,该样本集合包括多个待选择样本对象、每个该待选择样本对象的关键信息集合、每个该待选择样本对象的标注领域属性类别以及每个该待选择样本对象的标注对象属性类别;根据每个该待选择样本对象的标注领域属性类别,筛选出与该第一样本对象的标注领域属性类别相同的待选择样本对象,作为第三样本对象;采用该第三样本对象的关键信息集合和该第三样本对象的标注对象属性类别对该目标子分类模型进行更新。
本申请实施例中,计算机设备可以将第一样本对象的关键信息集合输入到初始父分类模型中进行领域属性预测,得到该第一样本对象的预测领域属性类别,采用该第一样本对象的标注领域属性类别和预测领域属性类别对该初始父分类模型进行调整,将调整后的该初始父分类模型作为父分类模型,可提高父分类模型的领域属性识别的准确度。进一步,可根据该类别映射关系从该至少两个初始子分类模型中选择与该第一样本对象的预测领域属性类别匹配的初始子分类模型,作为目标初始子分类模型,将该第一样本对象的关键信息集合输入到该目标初始子分类模型中进行对象属性预测,得到该第一样本对象的预测对象属性类别。可采用该第一样本对象的标注对象属性类别和预测对象属性类别对该目标初始子分类模型进行调整,将调整后的该目标初始子分类模型作为目标子分类模型。通过采用第一样本对象关键信息集合对目标初始子分类模型进行训练,能够使目标子分类模型能够更加精细化地对属于某一种预测领域属性类别(即属于第一样本对象的预测领域属性类别)的对象进行对象属性识别,即使目标子分类模型擅长对属于某一预测领域属性类别的对象进行对象属性识别,提高目标子分类模型的对象属性识别的准确度。
请参见图14,是本申请实施例提供的一种计算机设备的结构示意图。如图14所示,该计算机设备可以为图2a中的终端或服务器,上述计算机设备2000可以包括:处理器2001,网络接口2004和存储器2005,此外,上述计算机设备2000还可以包括:用户接口2003,和至少一个通信总线2002。其中,通信总线2002用于实现这些组件之间的连接通信。其中,用户接口2003可以包括显示屏(Display)、键盘(Keyboard),可选用户接口2003还可以包括标准的有线接口、无线接口。网络接口2004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器2005可以是高速RAM存储器,也可以是非易失性的存储器(non-volatilememory),例如至少一个磁盘存储器。存储器2005可选的还可以是至少一个位于远离前述处理器2001的存储装置。如图12所示,作为一种计算机可读存储介质的存储器2005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在图12所示的计算机设备2000中,网络接口2004可提供网络通讯功能;而用户接口2003主要用于为用户提供输入的接口;而处理器2001可以用于调用存储器2005中存储的设备控制应用程序,以实现:
将待识别的目标对象的关键信息集合输入至父分类模型,该父分类模型与至少两个子分类模型之间具有类别映射关系;
采用该父分类模型对该目标对象的关键信息集合进行领域属性识别,得到该目标对象的领域属性类别;
根据该类别映射关系从该至少两个子分类模型中选择与该目标对象的领域属性类别匹配的子分类模型,作为目标子分类模型;
采用该目标子分类模型对该目标对象的关键信息集合进行对象属性识别,得到该目标对象的对象属性类别。
可选的,处理器2001可以用于调用存储器2005中存储的设备控制应用程序,以实现:
获取知识图谱,该知识图谱包括父分类层级和子分类层级,该父分类层级与该父分类模型对应,该子分类层级与该至少两个子分类模型对应,该父分类层级包括至少两个领域属性类别,该知识图谱用于指示该至少两个子分类模型中的每个子分类模型与该父分类层级中的领域属性类别之间的类别映射关系;
根据该知识图谱从该至少两个子分类模型中选择与该目标对象的领域属性类别具有类别映射关系的子分类模型,作为该目标子分类模型。
可选的,处理器2001可以用于调用存储器2005中存储的设备控制应用程序,以实现:
建立该关键词分别与该目标对象的领域属性类别和对象属性类别之间的词映射关系;
根据该词映射关系将该关键词添加至该知识图谱中。
可选的,处理器2001可以用于调用存储器2005中存储的设备控制应用程序,以实现:
从该至少两个输出接口中获取输出该目标对象的领域属性类别的输出接口,作为目标输出接口;
将与该目标输出接口相连接的子分类模型,作为目标子分类模型。
可选的,处理器2001可以用于调用存储器2005中存储的设备控制应用程序,以实现:
调用该父分类模型对该目标对象的关键信息集合进行特征提取,得到该目标对象的关键信息集合对应的特征向量;
调用该父分类模型对该目标对象的关键信息集合对应的特征向量进行领域属性识别,得到该目标对象的领域属性类别。
可选的,处理器2001可以用于调用存储器2005中存储的设备控制应用程序,以实现:
该调用该父分类模型对该目标对象的关键信息集合进行特征提取,得到该目标对象的关键信息集合对应的特征向量,包括:
调用该全量词向量层对该基础关键信息、该结构化关键信息以及该属性关键信息进行全量特征提取,得到该基础关键信息对应的全量词向量、该结构化关键信息对应的全量词向量以及该属性关键信息对应的全量词向量;
调用该关键词向量层提取该属性关键信息中的属性关键词,对该属性关键词进行特征提取,得到该属性关键信息对应的属性关键词向量;
将该基础关键信息对应的全量词向量、该结构化关键信息对应的全量词向量、该属性关键信息对应的全量词向量以及该属性关键词向量,作为该目标对象的关键信息集合对应的特征向量。
可选的,处理器2001可以用于调用存储器2005中存储的设备控制应用程序,以实现:
调用该拼接层对该基础关键信息对应的全量词向量、该结构化关键信息对应的全量词向量、该属性关键信息对应的全量词向量以及该属性关键词向量进行拼接处理,得到目标特征向量;
调用该分类层对该目标特征向量进行领域属性识别,得到该目标对象的领域属性类别。
可选的,处理器2001可以用于调用存储器2005中存储的设备控制应用程序,以实现:
将该父分类模型进行特征提取得到的该目标对象的关键信息集合对应的特征向量,作为父特征向量;
调用该目标子分类模型对该目标对象的关键信息集合进行特征提取,得到该目标对象的关键信息集合对应的特征向量,作为子特征向量;
调用该目标子分类模型对该父特征向量和该子特征向量进行对象属性识别,得到该目标对象的对象属性类别。
可选的,处理器2001可以用于调用存储器2005中存储的设备控制应用程序,以实现:
将第一样本对象的关键信息集合输入到初始父分类模型中进行领域属性预测,得到该第一样本对象的预测领域属性类别,该初始父分类模型与至少两个初始子分类模型之间具有类别映射关系;
采用该第一样本对象的标注领域属性类别和预测领域属性类别对该初始父分类模型进行调整,将调整后的该初始父分类模型作为父分类模型;
根据该类别映射关系从该至少两个初始子分类模型中选择与该第一样本对象的预测领域属性类别匹配的初始子分类模型,作为目标初始子分类模型;
将该第一样本对象的关键信息集合输入到该目标初始子分类模型中进行对象属性预测,得到该第一样本对象的预测对象属性类别;
采用该第一样本对象的标注对象属性类别和预测对象属性类别对该目标初始子分类模型进行调整,将调整后的该目标初始子分类模型作为目标子分类模型。
可选的,处理器2001可以用于调用存储器2005中存储的设备控制应用程序,以实现:
查找该知识图谱中新增的领域属性类别;
获取第二样本对象的关键信息集合,该第二样本对象的标注领域属性类别为该新增的领域属性类别;
根据该第二样本对象的关键信息集合和该第二样本对象的标注领域属性类别更新该父分类模型;
建立与该第二样本对象的标注领域属性类别匹配的新增初始子分类模型;
采用该第二样本对象的关键信息集合和该第二样本对象的标注对象属性类别对该新增初始子分类模型进行训练,得到与该第二样本对象的标注领域属性类别匹配的子分类模型。
可选的,处理器2001可以用于调用存储器2005中存储的设备控制应用程序,以实现:
接收对该目标子分类模型的更新请求,该更新请求携带样本集合,该样本集合包括多个待选择样本对象、每个该待选择样本对象的关键信息集合、每个该待选择样本对象的标注领域属性类别以及每个该待选择样本对象的标注对象属性类别;
根据每个该待选择样本对象的标注领域属性类别,筛选出与该第一样本对象的标注领域属性类别相同的待选择样本对象,作为第三样本对象;
采用该第三样本对象的关键信息集合和该第三样本对象的标注对象属性类别对该目标子分类模型进行更新。
本发明实施例中,计算机设备可以采用父分类模型对目标对象的关键信息集合进行领域属性识别,得到目标对象的领域属性类别,该父分类模型与至少两个子分类模型具有类别映射关系,即该类别映射关系用于指示子分类模型擅长对哪些领域属性类别的对象进行对象属性识别。计算机设备可根据该类别映射关系从至少两个子分类模型中选择与目标对象的领域属性类别匹配的子分类模型;也就是说,按照子分类模型的对象属性识别能力,从至少两个子分类模型中选择与目标对象的领域属性类别匹配的子分类模型,作为目标子分类模型,即该目标子分类模型擅长对目标对象进行对象属性识别。通过采用目标子分类模型对目标对象的关键信息集合进行对象属性识别,得到目标对象的对象属性类别,通过目标子分类模型可实现对目标对象的对象属性类别进行更精细化的识别,提高获取目标对象的类别信息准确度。另外,通过采用父分类模型及子分类模型对目标对象进行识别,不需要人工参与,可节省人力资源,可提高获取目标对象的类别信息的效率。
应当理解,本申请实施例中所描述的计算机设备2000可执行前文图3所对应实施例中对上述数据处理方法的描述,也可执行前文图12或13所对应实施例中对上述基于数据处理装置的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本申请实施例还提供了一种计算机可读存储介质,且上述计算机可读存储介质中存储有前文提及的数据处理装置1以及基于数据处理装置2所执行的计算机程序,且上述计算机程序包括程序指令,当上述处理器执行上述程序指令时,能够执行前文图5对应实施例中对上述数据处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,上述的存储介质可为磁盘、光盘、只读存储器(Read-Only Memory,ROM)或随机存储器(Random Access Memory,RAM)等。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (14)

1.一种数据处理方法,其特征在于,包括:
将待识别的目标对象的关键信息集合输入至父分类模型,所述父分类模型与至少两个子分类模型之间具有类别映射关系;所述目标对象的关键信息集合包括文本类型的基础关键信息、文本类型的结构化关键信息以及文本类型的属性关键信息,所述基础关键信息用于描述所述目标对象的基本信息,所述结构化关键信息用于描述所述目标对象的属性与属性值之间的对应关系,所述属性关键信息用于描述所述目标对象具有的属性;
采用所述父分类模型对所述目标对象的关键信息集合进行领域属性识别,得到所述目标对象的领域属性类别;
根据所述类别映射关系从所述至少两个子分类模型中选择与所述目标对象的领域属性类别匹配的子分类模型,作为目标子分类模型;
将所述父分类模型进行特征提取得到的所述目标对象的关键信息集合对应的特征向量,作为父特征向量;所述父特征向量用于粗略地描述目标对象的属性特征;所述父特征向量是根据所述基础关键信息对应的全量词向量、所述结构化关键信息对应的全量词向量、所述属性关键信息对应的全量词向量以及属性关键词向量确定得到的,所述基础关键信息对应的全量词向量、所述结构化关键信息对应的全量词向量、所述属性关键信息对应的全量词向量是由所述父分类模型的全量词向量层分别对所述基础关键信息、所述结构化关键信息以及所述属性关键信息进行全量特征提取得到的,所述属性关键词向量是由所述父分类模型的关键词向量层对所述属性关键信息进行特征提取得到的;
调用所述目标子分类模型对所述目标对象的关键信息集合进行特征提取,得到所述目标对象的关键信息集合对应的特征向量,作为子特征向量;所述子特征向量用于精细地描述目标对象的属性特征;
调用所述目标子分类模型对所述父特征向量和所述子特征向量进行对象属性识别,得到所述目标对象的对象属性类别。
2.如权利要求1所述的方法,其特征在于,所述根据所述类别映射关系从所述至少两个子分类模型中选择与所述目标对象的领域属性类别匹配的子分类模型,作为目标子分类模型,包括:
获取知识图谱,所述知识图谱包括父分类层级和子分类层级,所述父分类层级与所述父分类模型对应,所述子分类层级与所述至少两个子分类模型对应,
所述父分类层级包括至少两个领域属性类别,所述知识图谱用于指示所述至少两个子分类模型中的每个子分类模型与所述父分类层级中的领域属性类别之间的类别映射关系;
根据所述知识图谱从所述至少两个子分类模型中选择与所述目标对象的领域属性类别具有类别映射关系的子分类模型,作为所述目标子分类模型。
3.如权利要求2所述的方法,其特征在于,所述目标对象的关键信息集合包括关键词,所述方法还包括:
建立所述关键词分别与所述目标对象的领域属性类别和对象属性类别之间的词映射关系;
根据所述词映射关系将所述关键词添加至所述知识图谱中。
4.如权利要求1所述的方法,其特征在于,所述父分类模型包括至少两个输出接口,所述父分类模型通过所述输出接口与每个所述子分类模型相连接;所述根据所述类别映射关系从所述至少两个子分类模型中选择与所述目标对象的领域属性类别匹配的子分类模型,作为目标子分类模型,包括:
从所述至少两个输出接口中获取输出所述目标对象的领域属性类别的输出接口,作为目标输出接口;
将与所述目标输出接口相连接的子分类模型,作为目标子分类模型。
5.如权利要求1所述的方法,其特征在于,所述采用所述父分类模型对所述目标对象的关键信息集合进行领域属性识别,得到所述目标对象的领域属性类别,包括:
调用所述父分类模型对所述目标对象的关键信息集合进行特征提取,得到所述目标对象的关键信息集合对应的特征向量;
调用所述父分类模型对所述目标对象的关键信息集合对应的特征向量进行领域属性识别,得到所述目标对象的领域属性类别。
6.如权利要求5所述的方法,其特征在于,所述目标对象的关键信息集合包括基础关键信息、结构化关键信息以及属性关键信息,所述父分类模型包括全量词向量层和关键词向量层;
所述调用所述父分类模型对所述目标对象的关键信息集合进行特征提取,得到所述目标对象的关键信息集合对应的特征向量,包括:
调用所述全量词向量层对所述基础关键信息、所述结构化关键信息以及所述属性关键信息进行全量特征提取,得到所述基础关键信息对应的全量词向量、所述结构化关键信息对应的全量词向量以及所述属性关键信息对应的全量词向量;
调用所述关键词向量层提取所述属性关键信息中的属性关键词,对所述属性关键词进行特征提取,得到所述属性关键信息对应的属性关键词向量;
将所述基础关键信息对应的全量词向量、所述结构化关键信息对应的全量词向量、所述属性关键信息对应的全量词向量以及所述属性关键词向量,作为所述目标对象的关键信息集合对应的特征向量。
7.如权利要求6所述的方法,其特征在于,所述父分类模型包括拼接层和分类层,所述调用所述父分类模型对所述目标对象的关键信息集合对应的特征向量进行领域属性识别,得到所述目标对象的领域属性类别,包括:
调用所述拼接层对所述基础关键信息对应的全量词向量、所述结构化关键信息对应的全量词向量、所述属性关键信息对应的全量词向量以及所述属性关键词向量进行拼接处理,得到目标特征向量;
调用所述分类层对所述目标特征向量进行领域属性识别,得到所述目标对象的领域属性类别。
8.一种数据处理方法,其特征在于,包括:
将第一样本对象的关键信息集合输入到初始父分类模型中进行领域属性预测,得到所述第一样本对象的预测领域属性类别,所述初始父分类模型与至少两个初始子分类模型之间具有类别映射关系;
采用所述第一样本对象的标注领域属性类别和预测领域属性类别对所述初始父分类模型进行调整,将调整后的所述初始父分类模型作为如权利要求1-7中任一项中的父分类模型;
根据所述类别映射关系从所述至少两个初始子分类模型中选择与所述第一样本对象的预测领域属性类别匹配的初始子分类模型,作为目标初始子分类模型;
将所述第一样本对象的关键信息集合输入到所述目标初始子分类模型中进行对象属性预测,得到所述第一样本对象的预测对象属性类别;
采用所述第一样本对象的标注对象属性类别和预测对象属性类别对所述目标初始子分类模型进行调整,将调整后的所述目标初始子分类模型作为如权利要求1-7中任一项中的目标子分类模型。
9.如权利要求8所述的方法,其特征在于,所述方法还包括:
查找知识图谱中新增的领域属性类别;所述知识图谱包括父分类层级和子分类层级,所述父分类层级与所述父分类模型对应,所述子分类层级与所述至少两个子分类模型对应,所述父分类层级包括至少两个领域属性类别,所述知识图谱用于指示所述至少两个子分类模型中的每个子分类模型与所述父分类层级中的领域属性类别之间的类别映射关系;
获取第二样本对象的关键信息集合,所述第二样本对象的标注领域属性类别为所述新增的领域属性类别;
根据所述第二样本对象的关键信息集合和所述第二样本对象的标注领域属性类别更新所述父分类模型;
建立与所述第二样本对象的标注领域属性类别匹配的新增初始子分类模型;
采用所述第二样本对象的关键信息集合和所述第二样本对象的标注对象属性类别对所述新增初始子分类模型进行训练,得到与所述第二样本对象的标注领域属性类别匹配的子分类模型。
10.如权利要求8所述的方法,其特征在于,所述方法还包括:
接收对所述目标子分类模型的更新请求,所述更新请求携带样本集合,所述样本集合包括多个待选择样本对象、每个所述待选择样本对象的关键信息集合、每个所述待选择样本对象的标注领域属性类别以及每个所述待选择样本对象的标注对象属性类别;
根据每个所述待选择样本对象的标注领域属性类别,筛选出与所述第一样本对象的标注领域属性类别相同的待选择样本对象,作为第三样本对象;
采用所述第三样本对象的关键信息集合和所述第三样本对象的标注对象属性类别对所述目标子分类模型进行更新。
11.一种数据处理装置,其特征在于,包括:
输入模块,用于将待识别的目标对象的关键信息集合输入至父分类模型,所述父分类模型与至少两个子分类模型之间具有类别映射关系;所述目标对象的关键信息集合包括文本类型的基础关键信息、文本类型的结构化关键信息以及文本类型的属性关键信息,所述基础关键信息用于描述所述目标对象的基本信息,所述结构化关键信息用于描述所述目标对象的属性与属性值之间的对应关系,所述属性关键信息用于描述所述目标对象具有的属性;
识别模块,用于采用所述父分类模型对所述目标对象的关键信息集合进行领域属性识别,得到所述目标对象的领域属性类别;
选择模块,用于根据所述类别映射关系从所述至少两个子分类模型中选择与所述目标对象的领域属性类别匹配的子分类模型,作为目标子分类模型;
所述识别模块,还用于将所述父分类模型进行特征提取得到的所述目标对象的关键信息集合对应的特征向量,作为父特征向量;所述父特征向量用于粗略地描述目标对象的属性特征,所述父特征向量是根据所述基础关键信息对应的全量词向量、所述结构化关键信息对应的全量词向量、所述属性关键信息对应的全量词向量以及属性关键词向量确定得到的,所述基础关键信息对应的全量词向量、所述结构化关键信息对应的全量词向量、所述属性关键信息对应的全量词向量是由所述父分类模型的全量词向量层分别对所述基础关键信息、所述结构化关键信息以及所述属性关键信息进行全量特征提取得到的,所述属性关键词向量是由所述父分类模型的关键词向量层对所述属性关键信息进行特征提取得到的;
所述识别模块,还用于调用所述目标子分类模型对所述目标对象的关键信息集合进行特征提取,得到所述目标对象的关键信息集合对应的特征向量,作为子特征向量;所述子特征向量用于精细地描述目标对象的属性特征;调用所述目标子分类模型对所述父特征向量和所述子特征向量进行对象属性识别,得到所述目标对象的对象属性类别。
12.一种数据处理装置,其特征在于,包括:
输入模块,用于将第一样本对象的关键信息集合输入到初始父分类模型中进行领域属性预测,得到所述第一样本对象的预测领域属性类别,所述初始父分类模型与至少两个初始子分类模型之间具有类别映射关系;
调整模块,用于采用所述第一样本对象的标注领域属性类别和预测领域属性类别对所述初始父分类模型进行调整,将调整后的所述初始父分类模型作为如权利要求1-7中任一项的父分类模型;
选择模块,用于根据所述类别映射关系从所述至少两个初始子分类模型中选择与所述第一样本对象的预测领域属性类别匹配的初始子分类模型,作为目标初始子分类模型;
所述输入模块,还用于将所述第一样本对象的关键信息集合输入到所述目标初始子分类模型中进行对象属性预测,得到所述第一样本对象的预测对象属性类别;
所述调整模块,还用于采用所述第一样本对象的标注对象属性类别和预测对象属性类别对所述目标初始子分类模型进行调整,将调整后的所述目标初始子分类模型作为如权利要求1-7中任一项的目标子分类模型。
13.一种计算机设备,其特征在于,包括:处理器及存储器;
其中,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,以执行如权利要求1至10任一项所述的方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,执行如权利要求1至10中任一项所述方法的步骤。
CN202010037213.7A 2020-01-14 2020-01-14 数据处理方法、装置、存储介质及设备 Active CN111258995B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010037213.7A CN111258995B (zh) 2020-01-14 2020-01-14 数据处理方法、装置、存储介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010037213.7A CN111258995B (zh) 2020-01-14 2020-01-14 数据处理方法、装置、存储介质及设备

Publications (2)

Publication Number Publication Date
CN111258995A CN111258995A (zh) 2020-06-09
CN111258995B true CN111258995B (zh) 2022-11-11

Family

ID=70950460

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010037213.7A Active CN111258995B (zh) 2020-01-14 2020-01-14 数据处理方法、装置、存储介质及设备

Country Status (1)

Country Link
CN (1) CN111258995B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111859011A (zh) * 2020-07-16 2020-10-30 腾讯音乐娱乐科技(深圳)有限公司 音频处理方法、装置、存储介质及电子设备
CN111898528B (zh) * 2020-07-29 2023-11-10 腾讯科技(深圳)有限公司 数据处理方法、装置、计算机可读介质及电子设备
CN112035679B (zh) * 2020-09-10 2021-02-23 广东新禾道信息科技有限公司 一种遥感监测自然灾害数据处理方法及装置
CN113656589B (zh) * 2021-04-19 2023-07-04 腾讯科技(深圳)有限公司 对象属性确定方法、装置、计算机设备及存储介质
CN114329051B (zh) * 2021-12-31 2024-03-05 腾讯科技(深圳)有限公司 数据信息识别方法、装置、设备、存储介质及程序产品
CN114820225B (zh) * 2022-06-28 2022-09-13 成都秦川物联网科技股份有限公司 基于关键词识别和处理制造问题的工业物联网及控制方法
CN115050085B (zh) * 2022-08-15 2022-11-01 珠海翔翼航空技术有限公司 基于图谱的模拟机管理系统对象识别方法、系统及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108182245A (zh) * 2017-12-28 2018-06-19 北京锐安科技有限公司 人对象属性分类知识图谱的构建方法及装置
CN109919177A (zh) * 2019-01-23 2019-06-21 西北工业大学 基于层次化深度网络的特征选择方法
CN110162639A (zh) * 2019-04-16 2019-08-23 深圳壹账通智能科技有限公司 识图知意的方法、装置、设备及存储介质
WO2019229510A1 (en) * 2018-05-29 2019-12-05 Sigtuple Technologies Private Limited Method and system for performing hierarchical classification of objects in microscopic image

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10846555B2 (en) * 2017-06-26 2020-11-24 Verizon Patent And Licensing Inc. Object recognition based on hierarchical domain-based models

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108182245A (zh) * 2017-12-28 2018-06-19 北京锐安科技有限公司 人对象属性分类知识图谱的构建方法及装置
WO2019229510A1 (en) * 2018-05-29 2019-12-05 Sigtuple Technologies Private Limited Method and system for performing hierarchical classification of objects in microscopic image
CN109919177A (zh) * 2019-01-23 2019-06-21 西北工业大学 基于层次化深度网络的特征选择方法
CN110162639A (zh) * 2019-04-16 2019-08-23 深圳壹账通智能科技有限公司 识图知意的方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN111258995A (zh) 2020-06-09

Similar Documents

Publication Publication Date Title
CN111258995B (zh) 数据处理方法、装置、存储介质及设备
CN111444428B (zh) 基于人工智能的信息推荐方法、装置、电子设备及存储介质
US20190103111A1 (en) Natural Language Processing Systems and Methods
US12001474B2 (en) Information determining method and apparatus, computer device, and storage medium
CN111626049B (zh) 多媒体信息的标题修正方法、装置、电子设备及存储介质
CN110909182B (zh) 多媒体资源搜索方法、装置、计算机设备及存储介质
US20230386238A1 (en) Data processing method and apparatus, computer device, and storage medium
CN113705299A (zh) 一种视频识别的方法、装置及存储介质
CN111368141B (zh) 视频标签的扩展方法、装置、计算机设备和存储介质
CN111611436A (zh) 一种标签数据处理方法、装置以及计算机可读存储介质
CN113254711B (zh) 一种互动图像的显示方法、装置、计算机设备和存储介质
CN114328807A (zh) 一种文本处理方法、装置、设备及存储介质
CN112650842A (zh) 基于人机交互的客服机器人意图识别方法及相关设备
CN111324773A (zh) 一种背景音乐构建方法、装置、电子设备和存储介质
CN113919360A (zh) 语义理解方法、语音交互方法、装置、设备及存储介质
CN116738250A (zh) 提示文本扩展方法、装置、电子设备和存储介质
CN116977701A (zh) 视频分类模型训练的方法、视频分类的方法和装置
CN114547257B (zh) 类案匹配方法、装置、计算机设备及存储介质
CN115909390B (zh) 低俗内容识别方法、装置、计算机设备以及存储介质
CN116976327A (zh) 一种数据处理方法、装置、计算机设备以及可读存储介质
CN117009577A (zh) 一种视频数据处理方法、装置、设备及可读存储介质
CN114662002A (zh) 对象推荐方法、介质、装置和计算设备
CN111222011B (zh) 一种视频向量确定方法和装置
CN114282606A (zh) 对象识别方法、装置、计算机可读存储介质及计算机设备
CN115618873A (zh) 数据处理方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40024828

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant