CN107330021A - 基于多叉树的数据分类方法、装置及设备 - Google Patents

基于多叉树的数据分类方法、装置及设备 Download PDF

Info

Publication number
CN107330021A
CN107330021A CN201710471789.2A CN201710471789A CN107330021A CN 107330021 A CN107330021 A CN 107330021A CN 201710471789 A CN201710471789 A CN 201710471789A CN 107330021 A CN107330021 A CN 107330021A
Authority
CN
China
Prior art keywords
node
classification
training
tree
disaggregated model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710471789.2A
Other languages
English (en)
Inventor
李德彦
晋耀红
杨凯程
郝思洋
席丽娜
蒋宏飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Science And Technology (beijing) Co Ltd
Beijing Shenzhou Taiyue Software Co Ltd
Original Assignee
China Science And Technology (beijing) Co Ltd
Beijing Shenzhou Taiyue Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Science And Technology (beijing) Co Ltd, Beijing Shenzhou Taiyue Software Co Ltd filed Critical China Science And Technology (beijing) Co Ltd
Priority to CN201710471789.2A priority Critical patent/CN107330021A/zh
Publication of CN107330021A publication Critical patent/CN107330021A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于多叉树的数据分类方法、装置及设备,属于信息处理技术领域。所述方法包括:获取分类树,分类树包含至少两层,且分类树中各个节点对应各自的分类类型;根据分类树中各个节点存储的训练语料,训练各个父节点各自对应的分类模型,训练语料预先经过类型标注并存储在对应的节点中,父节点对应至少一个子节点,分类模型用于将语料划分到对应的子节点;获取目标数据,目标数据为未知分类类型的待预测数据;通过分类树中的分类模型对目标数据进行逐级分类。本发明实施例利用分类树实现对信息的逐级分类,降低了利用单个分类模型进行分类的难度,从而加快了分类速度,提高了分类效率。

Description

基于多叉树的数据分类方法、装置及设备
技术领域
本发明实施例涉及信息处理技术领域,特别涉及一种基于多叉树的数据分类方法、装置及设备。
背景技术
随着互联网的不断普及,人类步入了海量信息时代。为了有针对性地对海量信息数据(或称为语料)进行加工,从而挖掘出有价值的信息,对海量信息进行分类必不可少。
为了提高信息分类的效率,通常采用机器学习算法对海量信息进行自动化分类。采用机器学习算法进行自动化分类过程中,首先需要通过人工标注的方式预先对用于训练的信息进行分类,然后将标注后的信息作为机器学习算法的输入,通过机器学习算法自动训练出相应的分类模型,进而使用训练出的分类模型对未标注的信息进行自动化分类。
然而,相关技术中训练出的分类模型仅能够实现对信息的一级分类,导致利用该分类模型进行分类的效率较低。
发明内容
为了解决现有技术中训练出的分类模型仅能够实现对信息的一级分类,导致利用该分类模型进行分类的效率较低的问题,本发明实施例提供了一种基于多叉树的数据分类方法、装置及设备。所述技术方案如下:
根据本发明实施例的第一方面,提供一种基于多叉树的数据分类方法,该方法包括:
获取分类树,分类树为多叉树,包含至少两层,且分类树中各个节点对应各自的分类类型;
根据分类树中各个节点存储的训练语料,训练各个父节点各自对应的分类模型,训练语料预先经过类型标注并存储在对应的节点中,父节点对应至少一个子节点,分类模型用于将语料划分到对应的子节点;
获取目标数据,目标数据为未知分类类型的待预测数据;
通过分类树中各个节点的分类模型对目标数据进行逐级分类。
根据本发明实施例的第二方面,提供一种基于多叉树的数据分类装置,该装置包括:
第一获取模块,用于获取分类树,分类树为多叉树,包含至少两层,且分类树中各个节点对应各自的分类类型;
训练模块,用于根据分类树中各个节点存储的训练语料,训练各个父节点各自对应的分类模型,训练语料预先经过类型标注并存储在对应的节点中,父节点对应至少一个子节点,分类模型用于将语料划分到对应的子节点;
第二获取模块,用于获取目标数据,目标数据为未知分类类型的待预测数据;
分类模块,用于通过分类树中各个节点的分类模型对所述目标数据进行逐级分类。
根据本发明实施例的第三方面,提供一种基于多叉树的数据分类设备,该设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述指令由所述处理器加载并执行以实现如上述第一方面所述的数据分类方法。
根据本发明实施例的第四方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现如上述第一方面所述的数据分类方法。
本发明实施例提供的技术方案带来的有益效果是:
本发明实施例中,通过获取分类树,并根据分类树中各个节点存储的训练语料,训练各个父节点各自对应的分类模型,从而在获取目标数据时,通过分类树中的分类模型对目标数据进行逐级分类,实现对语料的自动化分类;相较于现有技术中仅能够实现对信息的一级分类,本发明实施例利用分类树实现对信息的逐级分类,降低了利用单个分类模型进行分类的难度,从而加快了分类速度,提高了分类效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例提供的分类树的结构示意图;
图2是本发明一个实施例提供的数据分类方法的流程图;
图3是本发明一个实施例提供的分类树的示意图;
图4是本发明另一个实施例提供的数据分类方法的流程图;
图5A是分类树中新增节点过程的实施示意图;
图5B是分类树中删除节点过程的实施示意图;
图6是训练语料管理界面的界面示意图;
图7是分类模型训练界面的界面示意图;
图8是数据分类方法所涉及的训练任务执行过程的流程图;
图9是数据分类方法所涉及的分类模型状态设置过程的流程图;
图10示出了本发明一个实施例提供的数据分类装置的结构方框图;
图11示出了本发明一个实施例提供的服务器的结构框架图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
为了方便理解,下面对本发明实施例中涉及的名词进行解释。
分类树:一种以树状结构体现层级关系的分类体系,包含至少两层树状结构,并由若干个父节点和子节点构成。示意性的,图1所示的分类树中包括4层树状结构,其中,节点1为节点2、3、4的父节点(相应的,节点2、3、4均为节点1的子节点),节点2为节点5、6、7的父节点(相应的,节点5、6、7均为节点2的子节点),节点5为节点12、13、14的父节点(相应的,节点12、13、14均为节点5的子节点)。由于位于第一层的节点1没有对应的父节点,因此节点1又被称为分类树的根节点;由于位于第三层的节点6、7、9、10、11,以及第四层的节点12、13、14、15、16不包含对应的子节点,因此节点6、7、9、10、11、12、13、14、15、16又被称为分类树的终端节点。
本发明实施例中,分类树为多叉树,分类树中各个节点对应各自的分类类型,且子节点的分类类型是对应的父节点的分类类型的子类。比如,图1中,节点5对应的分类类型为球类运动,其子节点12对应的分类类型为篮球,子节点13对应的分类类型为足球,子节点14对应的分类类型为排球。
语料:采用自然语言表达的语言实例,在互联网中,语料通常包括新闻、论文、评论等等。本发明实施例中涉及的语料包括训练语料和目标数据,其中,训练语料是用于训练分类模型的基础语料,预先经过类型标注的语料,比如,训练语料中包括被标注为“篮球”的语料A、B、C,被标注为“足球”的语料D、E,以及被标注为“排球”的语料F、G;目标数据或目标语料为未知分类类型的待预测数据,是需要利用分类模型进行分类,而未经过类型标注的语料。
分类模型:用于根据语料内容对语料进行分类的模型。可选的,分类模型还具有类型标注功能,用于为经过分类的语料添加相应的类型标注。本发明实施例中,分类模型存储在分类树的父节点中,用于对输入父节点的语料进行分类,根据分类结果输出到对应的子节点中。
现有技术中,利用定制开发的一级分类模型进行数据分类时,由于只会进行一级分类,因此在分类类型较多的情况下效率较低;并且,由于分类模型的开发与应用分离,实际应用中无法根据实际需求,对分类模型进行修改变更,导致定制开发的分类模型的适用范围较小,且灵活性较差。
而本发明各个实施例中,分类模型的训练(开发)和应用整合在一起,利用分类树训练并存储分类模型,在进行数据分类时,利用分类树中各个父节点中存储的分类模型实现语料的逐级分类,即使在分类类型较多的情况下,也能够达到较高的效率;同时,当实际需求发生变化时,通过对分类树进行横向或纵向扩展,并根据扩展后的分类树进行重新训练,提高了分类模型的适用范围和灵活性,进而提高了分类结果的准确性。下面采用示意性的实施例进行说明。
请参考图2,其示出了本发明一个实施例提供的数据分类方法的流程图,本实施例以该数据分类方法用于数据分类设备为例进行说明。该数据分类方法包括:
步骤201,获取分类树,分类树为多叉树,包含至少两层,且分类树中各个节点对应各自的分类类型。
其中,该分类树根据人为设置的分类体系构建而成,且每个节点对应各自的分类类型,其中,父节点的分类类型是对应的各个子节点的分类类型的父类。
在一种可能的实施方式中,数据分类设备提供分类树设置界面供用户进行分类树设置,设置分类树包括添加分类树、删除分类树、组合分类树、删除分类树中节点、增加分类树中节点、移动分类树中节点、合并分类树节点等等。
示意性的,数据分类设备获取到的分类树如图3所示。该分类树包含4层,其中,新闻节点为根节点,本地时政节点、外地时政节点、美元节点、欧元节点、足球节点、篮球节点和排球节点为终端节点。
步骤202,根据分类树中各个节点存储的训练语料,训练各个父节点各自对应的分类模型,训练语料预先经过类型标注并存储在对应的节点中,父节点对应至少一个子节点,分类模型用于将语料划分到对应的子节点。
本发明实施例中,数据分类设备获取到的分类树的各个节点中还存储有用于训练分类模型的训练语料,该训练语料为预先经过类型标注的语料,并添加到对应的节点中,具体的,节点中存储的训练语料的类型与节点对应的分类类型相匹配,且父节点中存储的训练语料为各个子节点中存储的训练语料的合集。
可选的,数据分类设备中包含支持扩展的预设算法池,其中,该预设算法池中包括SVM(Support Vector Machine,支持向量机)算法、KNN(k-NearestNeighbor,k最近邻)算法、决策树算法和NBM(Naive Bayesian Model,朴素贝叶斯)算法等机器学习算法。在训练分类模型时,数据分类设备即从预设算法池中选取至少一种算法进行分类模型训练。
对于训练得到的分类模型,数据分类设备将该分类模型存储在对应的父节点中,以便后续进行数据分类时使用。
可选的,对于同一个父节点,数据分类设备可以采用不同的算法、不同数量的训练语料,多次训练得到多个分类模型,并进一步测试各个分类模型的分类准确度。开发人员可以从训练时间、分类准确度和训练语料数量等维度进行筛选,并选择其中一个分类模型作为目标分类模型用于数据分类。
步骤203,获取目标数据,目标数据为未知分类类型的待预测数据。
经过上述步骤201和202,数据分类设备完成了分类树构建。在实际数据分类过程中,数据分类设备获取未经类型标注的目标数据,其中,该目标数据为互联网中的语料资源或数据分类设备本地存储的语料资源。本发明实施例并不对目标数据的来源进行限定。
步骤204,通过分类树中各个节点的分类模型对目标数据进行逐级分类。
在一种可能的实施方式中,数据分类设备将获取到的目标数据输入分类树的根节点,通过根节点中存储的分类模型进行第一级分类,并将分类后的语料输入对应的子节点;子节点接收到根节点输出的语料后,通过自身存储的分类模型进行第二级分类,并将分类后的语料输入对应的子节点。如此进行逐级分类,直至将目标数据划分至分类树中的终端节点。
可选的,分类模型还具有标注功能,语料经过分类模型分类后,被添加上相应的类型标注。比如,目标数据A经过分类树逐级分类,最终分类至足球节点时,目标数据A中包含类型标注新闻、体育、球类、足球。
综上所述,本实施例中,通过获取分类树,并根据分类树中各个节点存储的训练语料,训练各个父节点各自对应的分类模型,从而在获取目标数据时,通过分类树中的分类模型对目标数据进行逐级分类,实现对语料的自动化分类;相较于现有技术中仅能够实现对信息的一级分类,利用分类树实现对信息的逐级分类,降低了利用单个分类模型进行分类的难度,从而加快了分类速度,提高了分类效率。
在实际实施过程中,数据分类设备中构建有可视化数据分类平台,通过该数据分类平台,开发人员可以根据实际需求在分类树中逐层添加节点,完成分类树的构建,并可以对已有分类树的节点和层级进行编辑修改。完成分类树构建后,开发人员进一步通过数据分类平台将训练语料存储到分类树的各个节点,并启动训练进程训练各个父节点的分类模型。最终,当开发人员将待分类的目标数据输入数据分类平台时,数据分类平台即通过分类树中的分类模型对目标数据进行逐层分类。整个训练以及应用过程中,开发人员在数据分类平台中执行可视化操作,操作灵活且简单。下面采用示意性的实施例进行说明。
请参考图4,其示出了本发明另一个实施例提供的数据分类方法的流程图,本实施例以该数据分类方法用于数据分类设备为例进行说明。该数据分类方法包括:
步骤401,接收分类树构建指令,分类树构建指令包括新增节点指令、删除节点指令、移动节点指令和编辑节点指令中的至少一种。
在一种可能的实施方式中,数据分类设备中构建的可视化数据分类平台包括分类树建模功能模块。开发人员在该分类树建模功能模块中,即可根据分类标准,通过触发分类树构建指令,指示数据分类平台完成分类树的构建。其中,分类树构建指令通过点击可视化菜单控件触发,分类树构建指令包括:指示在当前节点下新增子节点的新增节点指令,指示删除当前节点的删除节点指令,指示移动当前节点的移动节点指令,指示编辑当前节点的节点信息的编辑节点指令。本发明实施例仅以上述分类树构建指令为了进行示意性说明,但并不对此构成限定。
步骤402,根据分类树构建指令构建分类树。
相应的,根据接收到的分类树构建指令,数据分类设备逐层构建分类树。
在具体实施过程中,当接收到新增节点指令时,数据分类设备即根据新增节点指令所指示的节点位置,新增一个节点,并接收开发人员设置的节点属性,该节点属性包括节点名称、分类类型等等。示意性的,如图5A所示,开发人员选中球类节点,并点击操作菜单51中的“新增节点”选项,从而在球类节点下添加排球节点。
当接收到删除节点指令时,数据分类设备即根据删除节点指令所指示的节点位置,删除该节点。若该节点包含对应的子节点,数据分类设备将该子节点一并删除。示意性的,如图5B所示,开发人员选中球类节点,并点击操作菜单51中的“删除节点”选项,从而将球类节点以及对应的子节点(足球节点和篮球节点)删除。
当接收到移动节点指令时,数据分类设备即根据移动节点指令所指示的节点位置,将该节点进行上移或下移。可选的,数据分类设备还可以根据新增节点指令所指示的目标节点位置,将该节点以及节点对应的子节点移动至目标节点位置。
当接收到编辑节点指令时,数据分类设备即根据编辑节点指令所指示的节点位置,对该节点的节点名称、分类类型等节点信息进行编辑,该节点对应的子节点保持不变。
步骤403,接收训练语料操作指令,训练语料操作指令包括添加训练语料指令、删除训练语料指令和编辑训练语料指令中的至少一种。
通过上述步骤401至402构建完成分类树后,开发人员进一步指示数据分类设备将训练语料添加到该分类树的各个节点中。
在一种可能的实施方式中,开发人员在该分类树建模功能模块中,通过触发训练语料操作指令,指示数据分类平台对分类树各个节点中的训练语料进行编辑。其中,训练语料操作指令通过点击可视化菜单控件触发,训练语料操作指令包括:指示向当前节点中添加训练语料的添加训练语料指令、指示删除当前节点中训练语料的删除训练语料指令,指示对当前节点中已有训练语料进行编辑的编辑训练语料指令。
步骤404,根据训练语料操作指令将训练语料存储到对应的节点中。
相应的,根据接收到的训练语料操作指令,数据分类设备将训练语料存储到对应的节点中。
在具体实施过程中,当接收到添加训练语料指令时,数据分类设备即根据添加训练语料指令所指示的节点,将用户选择的训练语料添加到该节点中。示意性的,如图6所示,当用户选中分类树中的股票节点,并点击添加语料按钮61时,即可将选中的训练语料添加到股票节点中。
当接收到删除训练语料指令时,数据分类设备获取用户选中的当前节点中存储的训练语料,并进行删除。示意性的,如图6所示,当用户需要删除股票节点中的部分训练语料时,即通过点击删除语料按钮62将选中的训练语料删除。
当接收到编辑训练语料指令时,数据分类设备对用户选中的待编辑训练语料进行显示,并将用户输入的语料内容写入待编辑训练语料。示意性的,如图6所示,当用户需要编辑股票节点中的部分训练语料时,即选中待编辑训练语料,并通过点击编辑语料按钮63输入语料内容。
在其他可能的实施方式中,数据分类设备获取到训练语料后,根据训练语料对应的类型以及分类树中各个节点对应的分类类型,自动将训练语料添加到相应的节点中(训练语料的类型与节点的分类类型相匹配),本发明实施例并不对此进行限定。
通过上述步骤401至405完成分类树构建后,数据分类设备进一步通过下述步骤405至408训练分类树中各个节点对应的分类模型。
步骤405,获取分类树,分类树包含至少两层,且分类树中各个节点对应各自的分类类型。
本步骤的实施方式与上述步骤201相似,本实施例在此不再赘述。
步骤406,获取当前父节点对应的各个子节点中存储的训练语料,以及各个子节点对应的分类类型。
在一种可能的实施方式中,数据分类设备中构建的可视化数据分类平台包括分类模型训练功能模块。开发人员在该分类模型训练功能模块中,选中需要训练的节点,触发数据分类设备对该节点进行分类模型训练。
需要说明的是,数据分类设备只能对分类树中的父节点进行分类模型进行训练(因为父节点包含对应的子节点,能够进行分类),对于分类树中的终端节点,数据分类设备无法进行分类模型训练(因为终端节点不包含对应的子节点,无法进行分类)。示意性的,如图3所示,数据分类设备只能对除本地时政节点、外地时政节点、美元节点、欧元节点、足球节点、篮球节点和排球节点以外的节点进行分类模型训练。
对于分类树中的各个父节点,数据分类获取当前父节点对应的各个子节点中存储的训练语料,以及子节点各自对应的分类类型。
示意性的,如图7所示,用户选中分类树中的房地产节点,并点击训练按钮71时,数据分类设备即获取新房节点以及二手房节点中存储的训练语料。具体的,数据分类设备获取到的训练语料与分类类型的对应关系如表一所示。
表一
分类类型 训练语料
新房 训练语料A、训练语料B、训练语料C
二手房 训练语料D、训练语料E、训练语料F
步骤407,根据各个子节点中存储的训练语料以及各个子节点对应的分类类型,通过预设模型训练算法训练当前父节点对应的分类模型,预设模型训练算法包括SVM算法、KNN算法、决策树算法和NBM算法中的至少一种。
在一种可能的实施方式中,数据分类设备接收用户从算法池中选择的模型训练算法,并将上述步骤406获取到的训练语料和分类类型作为模型训练算法的输入,利用模型训练算法训练当前父节点的分类模型。其中,利用模型训练算法训练分类模型可采用现有的成熟技术,本发明实施例在此不再赘述。
可选的,用户可以使用不同的模型训练算法、不同的训练语料数量,多次训练分类模型,本发明实施例并不对此进行限定。
示意性的,如图7所示,用户可以通过点击删除按钮72删除选中的训练任务,也可以通过点击中断按钮73中断正在执行中的训练任务。
需要说明的是,本发明实施例中,同一层级中,各个父节点分类模型的训练过程相互独立,彼此之间互不产生影响。
步骤408,将训练得到的分类模型存储到当前父节点中。
比如,如图7所示,利用模型训练算法训练得到房地产节点对应的分类模型,该分类模型即用于划分出属于新房的语料以及属于二手房的语料;又比如,利用模型训练算法训练得到财经节点对应的分类模型,该分类模型即用于划分出属于股票的语料、属于外汇的语料、属于期货的语料以及属于黄金的语料。
训练得到分类模型后,数据分类设备将分类模型存储到当前父节点中,以便后续数据分类时使用。
在一种可能的实施方式中,训练出分类模型后,数据分类设备对分类模型的分类准确度进行自检测。具体的,对当前父节点的分类模型进行自检测时,将当前父节点中存储的训练语料输入到分类模型中,由该分类模型对训练语料进行分类。得到分类结果后,数据分类设备进一步将分类结果与各个子节点中训练语料的匹配度,确定为该分类模型的分类准确度。
步骤409,获取目标数据,目标数据为未知分类类型的待预测数据。
通过上述步骤401至408对分类树中各个父节点进行分类模型训练后,数据分类设备进一步获取未经类型标注的目标数据,并利用分类树对目标数据进行逐级分类。
步骤410,通过分类树中第1层节点对应的分类模型,对目标数据进行第1级分类,第1层节点位于分类树的第1层。
在一种可能的实施方式中,数据分类设备将获取到的目标数据输入分类树的根节点(即分类树中的第1层节点),通过根节点中存储的分类模型进行第一级分类。
示意性的,如图3所示,数据分类设备将获取到的目标数据输入到新闻节点,由新闻节点中存储的分类模型进行第1级分类,从而将目标数据划分至时政节点、财经节点、房地产节点以及体育节点。
步骤411,通过分类树中第i层节点对应的分类模型,对第i-1层节点划分出的数据进行第i级分类,第i层节点是第i-1层节点的子节点,i≥2,i为整数。
对于分类树中除根节点以外的其他父节点,该父节点获取上一层父节点划分出的数据,利用存储的分类模型将该数据划分至下一层节点,直至最终将数据划分至分类树的终端节点。
示意性的,如图3所示,时政节点获取到新闻节点输入的语料后,通过本地存储的分类模型将该语料划分至国内时政节点和国外时政节点。由于国外时政节点中不包含分类模型,因此语料达到国外时政节点后不再进行划分;由于国内时政节点中包含分类模型,因此语料达到国内时政节点后,进一步划分至本地时政节点和外地时政节点。
综上所述,本实施例中,通过获取分类树,并根据分类树中各个节点存储的训练语料,训练各个父节点各自对应的分类模型,从而在获取目标数据时,通过分类树中的分类模型对目标数据进行逐级分类,实现对语料的自动化分类;相较于现有技术中仅能够实现对信息的一级分类,利用分类树实现对信息的逐级分类,降低了利用单个分类模型进行分类的难度,从而加快了分类速度,提高了分类效率。
本发明实施例中,用户可以根据实际需求,对分类树进行纵向和横向扩展,并可以对节点中的训练语料进行更新,确保训练得到的分类模型符合实际需求,并保证了后续利用该分类模型进行数据分类的准确性;同时,用户通过可视化操作完成训练和应用,操作简单且效率较高。
在一种可能的实施方式中,数据分类设备可以同时训练多个父节点的分类模型,即多个训练任务并行执行,为了减轻数据分类设备的并行处理压力,如图8所示,上述步骤406之前还包括如下步骤。
步骤412,将训练任务添加到等待队列中,训练任务用于指示训练父节点对应的分类模型。
对于新创建的训练任务(训练父节点的分类模型),数据分类设备并非直接执行该训练任务,而是将该训练任务添加到等待队列中。其中,该等待队列的长度(即队列中训练任务的数量)由用户设置。
需要说明的是,用户可以通过可视化界面查看等待队列中的训练任务,并对训练任务进行删除,本发明实施并不对此进行限定。
步骤413,检测执行队列中训练任务的数量是否小于阈值。
进一步的,数据分类设备检测执行队列中训练任务的数量是否小于阈值,若执行队列中训练任务的数量小于阈值,则执行步骤406;若执行队列中训练任务的数量大于等于阈值,则每隔预定时间间隔进行下一次检测。其中,执行队列中的训练任务即正在执行的任务(即正在训练分类模型),且为了降低数据分类设备的并行处理压力,该阈值被设置的较小,而等待队列的长度被设置的较大(该阈值小于等待队列的长度)。比如,该阈值被设置为2,即数据分类设备最大允许同时训练两个父节点的分类模型(即同时执行两个训练任务)。
步骤406,若执行队列中训练任务的数量小于阈值,则将等待队列中的训练任务添加到执行队列中,并执行获取当前父节点对应的各个子节点中存储的训练语料,以及各个子节点对应的分类类型。
当执行队列中训练任务的数量小于阈值时,数据分类设备根据等待队列中训练任务的添加时间,按照由早到晚的顺序,将训练任务添加到执行队列中,并执行该训练任务。
本实施例中,通过设置等待队列和执行队列,并将少量训练任务添加到执行队列中,将大量训练任务添加到等待队列中,从而减轻数据分类设备并行训练的压力。
在具体实施过程中,当父节点中存储有至少两个分类模型时,数据分类设备在可视化界面中对各个分类模型的模型信息进行显示,并根据用户选择,将其中一个分类模型设置为有效状态,并将其余分类模型设置为无效状态,从而利用有效状态的分类模型进行后续数据分类。在一种可能的实施方式中,如图9所示,上述步骤407之后,还包括如下步骤。
步骤414,对至少两个分类模型各自对应的模型信息进行显示,模型信息包括训练时间、分类准确度和训练语料数量中的至少一种。
在一种可能的实施方式中,数据分类设备中构建的可视化数据分类平台包括分类模型管理功能模块。该分类模型管理功能模块中,显示有当前选中的父节点中存储的各个分类模型的模型信息。示意性的,该模型信息如表二所示。
表二
在其他可能的实施方式中,显示的模型信息中还可以包括诸如采用训练模型算法等信息,本发明实施例并不对此进行限定。
步骤415,接收模型状态设置指令,模型状态设置指令用于指示将选中的目标分类模型设置为有效状态。
在一种可能的实施方式中,该模型状态设置指令通过点击可视化菜单控件触发。比如,数据分类设备上显示的各条模型信息包含对应的状态设置控件,通过点击该控件,即可设置处于无效状态的分类模型为有效状态。
需要说明的是,同一节点中存储的多个分类模型中,仅包含一个处于有效状态的分类模型,且默认的处于有效状态的分类模型为最近训练得到的分类模型。
步骤416,根据模型状态设置指令,将目标分类模型设置为有效状态,并将至少两个分类模型中其他的分类模型设置为无效状态。
进一步的,数据分类设备根据该模型状态设置指令,将用户选中的目标分类模型设置为有效状态,并将其余的分类模型均设置为无效状态。
后续过程中,当前父节点即使用处于有效状态的分类模型对语料进行分类。
本发明实施例中,当父节点中存储有至少两个分类模型时,数据分类设备在可视化界面中对各个分类模型的模型信息进行显示,从而根据用户选择,将其中一个分类模型设置为有效状态,并以便后续利用有效状态的分类模型进行后续数据分类。
下述为本发明装置实施例,对于装置实施例中未详尽描述的细节,可以参考上述一一对应的方法实施例。
请参考图10,其示出了本发明一个实施例提供的数据分类装置的结构方框图。该数据分类装置通过硬件或者软硬件的结合实现成为数据分类设备的全部或者一部分。该数据分类装置包括:
第一获取模块1010,用于获取分类树,所述分类树为多叉树,包含至少两层,且所述分类树中各个节点对应各自的分类类型;
训练模块1020,用于根据所述分类树中各个节点存储的训练语料,训练各个父节点各自对应的分类模型,所述训练语料预先经过类型标注并存储在对应的节点中,所述父节点对应至少一个子节点,所述分类模型用于将语料划分到对应的子节点;
第二获取模块1030,用于获取目标数据,所述目标数据为未知分类类型的待预测数据;
分类模块1040,用于通过所述分类树中各个节点的所述分类模型对所述目标数据进行逐级分类。
可选的,所述训练模块1020,包括:
获取单元,用于获取当前父节点对应的各个子节点中存储的所述训练语料,以及各个子节点对应的分类类型;
训练单元,用于根据各个子节点中存储的所述训练语料以及各个子节点对应的分类类型,通过预设模型训练算法训练当前父节点对应的分类模型,所述预设模型训练算法包括支持向量机SVM算法、K最邻近分类KNN算法、决策树算法和朴素贝叶斯NBM算法中的至少一种;
存储单元,用于将训练得到的分类模型存储到当前父节点中。
可选的,所述训练模块1020,还包括:
添加单元,用于将训练任务添加到等待队列中,所述训练任务用于指示训练父节点对应的分类模型;
检测单元,用于检测执行队列中训练任务的数量是否小于阈值;
所述获取单元,还用于当执行队列中训练任务的数量小于所述阈值时,将所述等待队列中的训练任务添加到所述执行队列中,并执行所述获取当前父节点对应的各个子节点中存储的所述训练语料,以及各个子节点对应的分类类型的步骤。
可选的,所述装置,还包括:
第一接收模块,用于接收分类树构建指令,所述分类树构建指令包括新增节点指令、删除节点指令、移动节点指令和编辑节点指令中的至少一种;
构建模块,用于根据所述分类树构建指令构建所述分类树;
第二接收模块,用于接收训练语料操作指令,所述训练语料操作指令包括添加训练语料指令、删除训练语料指令和编辑训练语料指令中的至少一种;
存储模块,用于根据所述训练语料操作指令将所述训练语料存储到对应的节点中。
可选的,所述分类模块1040,包括:
第一分类单元,用于通过所述分类树中第1层节点对应的分类模型,对所述目标数据进行第1级分类,所述第1层节点位于所述分类树的第1层;
第二分类单元,用于通过所述分类树中第i层节点对应的分类模型,对第i-1层节点划分出的数据进行第i级分类,所述第i层节点是所述第i-1层节点的子节点,i≥2,i为整数。
可选的,当前父节点中存储有至少两个分类模型,所述装置,还包括:
显示模块,用于对所述至少两个分类模型各自对应的模型信息进行显示,所述模型信息包括训练时间、分类准确度和训练语料数量中的至少一种;
第三接收模块,用于接收模型状态设置指令,所述模型状态设置指令用于指示将选中的目标分类模型设置为有效状态;
设置模块,用于根据所述模型状态设置指令,将所述目标分类模型设置为有效状态,并将所述至少两个分类模型中其他的分类模型设置为无效状态;
其中,处于有效状态的分类模型用于对数据进行分类。
综上所述,本实施例中,通过获取分类树,并根据分类树中各个节点存储的训练语料,训练各个父节点各自对应的分类模型,从而在获取目标数据时,通过分类树中的分类模型对目标数据进行逐级分类,实现对语料的自动化分类;相较于现有技术中仅能够实现对信息的一级分类,利用分类树实现对信息的逐级分类,降低了利用单个分类模型进行分类的难度,从而加快了分类速度,提高了分类效率。
本发明实施例中,用户可以根据实际需求,对分类树进行纵向和横向扩展,并可以对节点中的训练语料进行更新,确保训练得到的分类模型符合实际需求,并保证了后续利用该分类模型进行数据分类的准确性;同时,用户通过可视化操作完成训练和应用,操作简单且效率较高。
本实施例中,通过设置等待队列和执行队列,并将少量训练任务添加到执行队列中,将大量训练任务添加到等待队列中,从而减轻数据分类设备并行训练的压力。
本发明实施例中,当父节点中存储有至少两个分类模型时,数据分类设备在可视化界面中对各个分类模型的模型信息进行显示,从而根据用户选择,将其中一个分类模型设置为有效状态,并以便后续利用有效状态的分类模型进行后续数据分类。
需要说明的是,上述实施例提供的数据分类装置,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将数据分类设备内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的数据分类装置与数据分类方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
请参考图11,其示出了本发明一个实施例提供的服务器的结构框架图。该服务器可是实现成为数据分类设备。
所述服务器600包括中央处理单元(CPU)601、包括随机存取存储器(RAM)602和只读存储器(ROM)603的系统存储器604,以及连接系统存储器604和中央处理单元601的系统总线605。所述服务器600还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)606,和用于存储操作系统613、应用程序66和其他程序模块66的大容量存储设备607。
所述基本输入/输出系统606包括有用于显示信息的显示器608和用于用户输入信息的诸如鼠标、键盘之类的输入设备609。其中所述显示器608和输入设备609都通过连接到系统总线605的输入输出控制器610连接到中央处理单元601。所述基本输入/输出系统606还可以包括输入输出控制器610以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器610还提供输出到显示屏、打印机或其他类型的输出设备。
所述大容量存储设备607通过连接到系统总线605的大容量存储控制器(未示出)连接到中央处理单元601。所述大容量存储设备607及其相关联的计算机可读介质为服务器600提供非易失性存储。也就是说,所述大容量存储设备607可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。
不失一般性,所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术,CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器604和大容量存储设备607可以统称为存储器。
根据本发明的各种实施例,所述服务器600还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器600可以通过连接在所述系统总线605上的网络接口单元611连接到网络612,或者说,也可以使用网络接口单元611来连接到其他类型的网络或远程计算机系统(未示出)。
所述存储器还包括一个或者一个以上的程序,所述一个或者一个以上程序存储于存储器中,所述一个或者一个以上程序包含用于进行本发明实施例提供的数据分类方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的文本情感分析方法中全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于多叉树的数据分类方法,其特征在于,所述方法包括:
获取分类树,所述分类树为多叉树,包含至少两层,且所述分类树中各个节点对应各自的分类类型;
根据所述分类树中各个节点存储的训练语料,训练各个父节点各自对应的分类模型,所述训练语料预先经过类型标注并存储在对应的节点中,所述父节点对应至少一个子节点,所述分类模型用于将语料划分到对应的子节点;
获取目标数据,所述目标数据为未知分类类型的待预测数据;
通过所述分类树中各个节点的所述分类模型对所述目标数据进行逐级分类。
2.根据权利要求1所述的方法,其特征在于,所述根据所述分类树中各个节点存储的训练语料,训练各个父节点各自对应的分类模型,包括:
获取当前父节点对应的各个子节点中存储的所述训练语料,以及各个子节点对应的分类类型;
根据各个子节点中存储的所述训练语料以及各个子节点对应的分类类型,通过预设模型训练算法训练当前父节点对应的分类模型,所述预设模型训练算法包括支持向量机SVM算法、K最邻近分类KNN算法、决策树算法和朴素贝叶斯NBM算法中的至少一种;
将训练得到的分类模型存储到当前父节点中。
3.根据权利要求2所述的方法,其特征在于,所述根据所述分类树中各个节点存储的训练语料,训练各个父节点各自对应的分类模型,还包括:
将训练任务添加到等待队列中,所述训练任务用于指示训练父节点对应的分类模型;
检测执行队列中训练任务的数量是否小于阈值;
若执行队列中训练任务的数量小于所述阈值,则将所述等待队列中的训练任务添加到所述执行队列中,并执行所述获取当前父节点对应的各个子节点中存储的所述训练语料,以及各个子节点对应的分类类型的步骤。
4.根据权利要求1至3任一所述的方法,其特征在于,所述获取分类树之前,还包括:
接收分类树构建指令,所述分类树构建指令包括新增节点指令、删除节点指令、移动节点指令和编辑节点指令中的至少一种;
根据所述分类树构建指令构建所述分类树;
接收训练语料操作指令,所述训练语料操作指令包括添加训练语料指令、删除训练语料指令和编辑训练语料指令中的至少一种;
根据所述训练语料操作指令将所述训练语料存储到对应的节点中。
5.根据权利要求1至3任一所述的方法,其特征在于,所述通过所述分类树中各个节点的所述分类模型对所述目标数据进行逐级分类,包括:
通过所述分类树中第1层节点对应的分类模型,对所述目标数据进行第1级分类,所述第1层节点位于所述分类树的第1层;
通过所述分类树中第i层节点对应的分类模型,对第i-1层节点划分出的数据进行第i级分类,所述第i层节点是所述第i-1层节点的子节点,i≥2,i为整数。
6.根据权利要求1至3任一所述的方法,其特征在于,当前父节点中存储有至少两个分类模型,所述根据所述分类树中各个节点存储的训练语料,训练各个父节点各自对应的分类模型之后,还包括:
对所述至少两个分类模型各自对应的模型信息进行显示,所述模型信息包括训练时间、分类准确度和训练语料数量中的至少一种;
接收模型状态设置指令,所述模型状态设置指令用于指示将选中的目标分类模型设置为有效状态;
根据所述模型状态设置指令,将所述目标分类模型设置为有效状态,并将所述至少两个分类模型中其他的分类模型设置为无效状态;
其中,处于有效状态的分类模型用于对数据进行分类。
7.一种基于多叉树的数据分类装置,其特征在于,所述装置包括:
第一获取模块,用于获取分类树,所述分类树为多叉树,包含至少两层,且所述分类树中各个节点对应各自的分类类型;
训练模块,用于根据所述分类树中各个节点存储的训练语料,训练各个父节点各自对应的分类模型,所述训练语料预先经过类型标注并存储在对应的节点中,所述父节点对应至少一个子节点,所述分类模型用于将语料划分到对应的子节点;
第二获取模块,用于获取目标数据,所述目标数据为未知分类类型的待预测数据;
分类模块,用于通过所述分类树中各个节点的所述分类模型对所述目标数据进行逐级分类。
8.根据权利要求7所述的装置,其特征在于,所述训练模块,包括:
获取单元,用于获取当前父节点对应的各个子节点中存储的所述训练语料,以及各个子节点对应的分类类型;
训练单元,用于根据各个子节点中存储的所述训练语料以及各个子节点对应的分类类型,通过预设模型训练算法训练当前父节点对应的分类模型,所述预设模型训练算法包括支持向量机SVM算法、K最邻近分类KNN算法、决策树算法和朴素贝叶斯NBM算法中的至少一种;
存储单元,用于将训练得到的分类模型存储到当前父节点中。
9.一种基于多叉树的数据分类设备,其特征在于,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述指令由所述处理器加载并执行以实现如权利要求1至6任一所述的数据分类方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现如权利要求1至6任一所述的数据分类方法。
CN201710471789.2A 2017-06-20 2017-06-20 基于多叉树的数据分类方法、装置及设备 Pending CN107330021A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710471789.2A CN107330021A (zh) 2017-06-20 2017-06-20 基于多叉树的数据分类方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710471789.2A CN107330021A (zh) 2017-06-20 2017-06-20 基于多叉树的数据分类方法、装置及设备

Publications (1)

Publication Number Publication Date
CN107330021A true CN107330021A (zh) 2017-11-07

Family

ID=60195454

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710471789.2A Pending CN107330021A (zh) 2017-06-20 2017-06-20 基于多叉树的数据分类方法、装置及设备

Country Status (1)

Country Link
CN (1) CN107330021A (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108416681A (zh) * 2017-11-28 2018-08-17 中国平安财产保险股份有限公司 一种保险报价信息的展示方法、存储介质和服务器
CN108509484A (zh) * 2018-01-31 2018-09-07 腾讯科技(深圳)有限公司 分类器构建及智能问答方法、装置、终端及可读存储介质
CN109194705A (zh) * 2018-07-10 2019-01-11 安徽云软信息科技有限公司 一种高效的数据库云存储系统及方法
CN109241256A (zh) * 2018-08-20 2019-01-18 百度在线网络技术(北京)有限公司 对话处理方法、装置、计算机设备和可读存储介质
CN109740693A (zh) * 2019-01-18 2019-05-10 北京细推科技有限公司 数据识别方法和装置
CN110309888A (zh) * 2019-07-11 2019-10-08 南京邮电大学 一种基于分层多任务学习的图像分类方法与系统
CN110659356A (zh) * 2019-09-09 2020-01-07 联想(北京)有限公司 一种信息匹配方法、装置及存储介质
CN110968742A (zh) * 2018-09-30 2020-04-07 北京国双科技有限公司 数据过滤方法和装置
CN110990050A (zh) * 2019-11-25 2020-04-10 泰康保险集团股份有限公司 一种模型类属性值打印控制方法、装置、介质和设备
CN111144495A (zh) * 2019-12-27 2020-05-12 浙江宇视科技有限公司 一种业务分发方法、装置及介质
CN111179304A (zh) * 2018-11-09 2020-05-19 北京京东尚科信息技术有限公司 目标关联方法、装置和计算机可读存储介质
CN111274504A (zh) * 2020-01-20 2020-06-12 浙江中国轻纺城网络有限公司 电商平台的商品分类方法、装置及设备
WO2020124284A1 (zh) * 2018-12-16 2020-06-25 吉安市井冈山开发区金庐陵经济发展有限公司 信息存储装置
CN111367874A (zh) * 2020-02-28 2020-07-03 北京神州绿盟信息安全科技股份有限公司 一种日志处理方法、装置、介质和设备
CN111782898A (zh) * 2020-07-07 2020-10-16 华青融天(北京)软件股份有限公司 数据源搜索方法、装置和电子设备
CN112015893A (zh) * 2020-08-12 2020-12-01 北京字节跳动网络技术有限公司 数据处理方法及装置
CN112035659A (zh) * 2020-08-12 2020-12-04 北京字节跳动网络技术有限公司 数据处理方法及装置
CN112883238A (zh) * 2021-01-25 2021-06-01 同济大学 一种面向交通信息应用的多叉树数据存储系统及方法
CN112950081A (zh) * 2021-04-06 2021-06-11 张今非 用于大纲的计算方法及装置
WO2022194080A1 (zh) * 2021-03-19 2022-09-22 影石创新科技股份有限公司 数据标注方法、装置、计算机设备和存储介质
CN115619292A (zh) * 2022-12-19 2023-01-17 云账户技术(天津)有限公司 一种问题管理的方法及装置
CN116861161A (zh) * 2023-09-05 2023-10-10 中国西安卫星测控中心 一种基于多叉树结构的航天测量数据实时统计方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1716256A (zh) * 2004-06-30 2006-01-04 微软公司 自动分类法的生成
CN102193928A (zh) * 2010-03-08 2011-09-21 三星电子(中国)研发中心 基于多层文本分类器的轻量级本体匹配方法
US20140214835A1 (en) * 2013-01-29 2014-07-31 Richard Thomas Oehrle System and method for automatically classifying documents
CN104978328A (zh) * 2014-04-03 2015-10-14 北京奇虎科技有限公司 一种获取层级分类器以及文本分类的方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1716256A (zh) * 2004-06-30 2006-01-04 微软公司 自动分类法的生成
CN102193928A (zh) * 2010-03-08 2011-09-21 三星电子(中国)研发中心 基于多层文本分类器的轻量级本体匹配方法
US20140214835A1 (en) * 2013-01-29 2014-07-31 Richard Thomas Oehrle System and method for automatically classifying documents
CN104978328A (zh) * 2014-04-03 2015-10-14 北京奇虎科技有限公司 一种获取层级分类器以及文本分类的方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
刘启华: "《泛在商务环境下的信息聚合与推荐》", 30 November 2014, 复旦大学出版社 *
徐虹: "《操作系统实验指导—基于Linux内核》", 30 November 2004, 清华大学出版社 *
肖明: "《信息计量学》", 31 August 2014, 中国铁道出版社 *

Cited By (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108416681A (zh) * 2017-11-28 2018-08-17 中国平安财产保险股份有限公司 一种保险报价信息的展示方法、存储介质和服务器
CN108509484A (zh) * 2018-01-31 2018-09-07 腾讯科技(深圳)有限公司 分类器构建及智能问答方法、装置、终端及可读存储介质
CN108509484B (zh) * 2018-01-31 2022-03-11 腾讯科技(深圳)有限公司 分类器构建及智能问答方法、装置、终端及可读存储介质
CN109194705A (zh) * 2018-07-10 2019-01-11 安徽云软信息科技有限公司 一种高效的数据库云存储系统及方法
CN109241256A (zh) * 2018-08-20 2019-01-18 百度在线网络技术(北京)有限公司 对话处理方法、装置、计算机设备和可读存储介质
CN109241256B (zh) * 2018-08-20 2022-09-27 百度在线网络技术(北京)有限公司 对话处理方法、装置、计算机设备和可读存储介质
CN110968742A (zh) * 2018-09-30 2020-04-07 北京国双科技有限公司 数据过滤方法和装置
CN111179304A (zh) * 2018-11-09 2020-05-19 北京京东尚科信息技术有限公司 目标关联方法、装置和计算机可读存储介质
CN111179304B (zh) * 2018-11-09 2024-04-05 北京京东尚科信息技术有限公司 目标关联方法、装置和计算机可读存储介质
WO2020124284A1 (zh) * 2018-12-16 2020-06-25 吉安市井冈山开发区金庐陵经济发展有限公司 信息存储装置
CN109740693A (zh) * 2019-01-18 2019-05-10 北京细推科技有限公司 数据识别方法和装置
CN109740693B (zh) * 2019-01-18 2021-05-18 北京细推科技有限公司 数据识别方法和装置
CN110309888A (zh) * 2019-07-11 2019-10-08 南京邮电大学 一种基于分层多任务学习的图像分类方法与系统
CN110659356A (zh) * 2019-09-09 2020-01-07 联想(北京)有限公司 一种信息匹配方法、装置及存储介质
CN110659356B (zh) * 2019-09-09 2022-07-26 联想(北京)有限公司 一种信息匹配方法、装置及存储介质
CN110990050A (zh) * 2019-11-25 2020-04-10 泰康保险集团股份有限公司 一种模型类属性值打印控制方法、装置、介质和设备
CN110990050B (zh) * 2019-11-25 2023-10-13 泰康保险集团股份有限公司 一种模型类属性值打印控制方法、装置、介质和设备
CN111144495A (zh) * 2019-12-27 2020-05-12 浙江宇视科技有限公司 一种业务分发方法、装置及介质
CN111144495B (zh) * 2019-12-27 2024-03-22 浙江宇视科技有限公司 一种业务分发方法、装置及介质
CN111274504B (zh) * 2020-01-20 2023-09-26 浙江中国轻纺城网络有限公司 电商平台的商品分类方法、装置及设备
CN111274504A (zh) * 2020-01-20 2020-06-12 浙江中国轻纺城网络有限公司 电商平台的商品分类方法、装置及设备
CN111367874A (zh) * 2020-02-28 2020-07-03 北京神州绿盟信息安全科技股份有限公司 一种日志处理方法、装置、介质和设备
CN111367874B (zh) * 2020-02-28 2023-11-14 绿盟科技集团股份有限公司 一种日志处理方法、装置、介质和设备
CN111782898A (zh) * 2020-07-07 2020-10-16 华青融天(北京)软件股份有限公司 数据源搜索方法、装置和电子设备
CN111782898B (zh) * 2020-07-07 2024-05-24 华青融天(北京)软件股份有限公司 数据源搜索方法、装置和电子设备
CN112035659A (zh) * 2020-08-12 2020-12-04 北京字节跳动网络技术有限公司 数据处理方法及装置
CN112015893A (zh) * 2020-08-12 2020-12-01 北京字节跳动网络技术有限公司 数据处理方法及装置
CN112883238A (zh) * 2021-01-25 2021-06-01 同济大学 一种面向交通信息应用的多叉树数据存储系统及方法
CN112883238B (zh) * 2021-01-25 2024-02-09 同济大学 一种面向交通信息应用的多叉树数据存储系统及方法
CN115114888A (zh) * 2021-03-19 2022-09-27 影石创新科技股份有限公司 数据标注方法、装置、计算机设备和存储介质
WO2022194080A1 (zh) * 2021-03-19 2022-09-22 影石创新科技股份有限公司 数据标注方法、装置、计算机设备和存储介质
CN112950081A (zh) * 2021-04-06 2021-06-11 张今非 用于大纲的计算方法及装置
CN115619292B (zh) * 2022-12-19 2023-03-21 云账户技术(天津)有限公司 一种问题管理的方法及装置
CN115619292A (zh) * 2022-12-19 2023-01-17 云账户技术(天津)有限公司 一种问题管理的方法及装置
CN116861161A (zh) * 2023-09-05 2023-10-10 中国西安卫星测控中心 一种基于多叉树结构的航天测量数据实时统计方法
CN116861161B (zh) * 2023-09-05 2023-11-17 中国西安卫星测控中心 一种基于多叉树结构的航天测量数据实时统计方法

Similar Documents

Publication Publication Date Title
CN107330021A (zh) 基于多叉树的数据分类方法、装置及设备
CN107103057B (zh) 一种资源推送方法及装置
US11422776B2 (en) Intelligent assistant for automating recommendations for analytics programs
CN110533097A (zh) 一种图像清晰度识别方法、装置、电子设备及存储介质
CN108351986A (zh) 学习系统、学习装置、学习方法、学习程序、训练数据生成装置、训练数据生成方法、训练数据生成程序、终端装置以及阈值变更装置
Galantucci et al. Assembly and disassembly planning by using fuzzy logic & genetic algorithms
CN110377814A (zh) 题目推荐方法、装置及介质
US10896294B2 (en) Script writing and content generation tools and improved operation of same
CN105989408A (zh) 用于将神经网络映射到神经突触基板上的系统和方法
US20030083760A1 (en) Programming toolkit for use in the development of knowledge enhanced electronic logic programs
CN104246656A (zh) 建议的视频编辑的自动检测
WO2018134248A1 (en) Classifying data
CN109918499A (zh) 一种文本分类方法、装置、计算机设备及存储介质
CN110598065A (zh) 一种数据挖掘方法、装置和计算机可读存储介质
KR20210125588A (ko) 머신 러닝 기반의 사용자 맞춤형 특허 문헌 자동 분류 방법, 장치 및 시스템
CN108008942A (zh) 对数据记录进行处理的方法及系统
CN108259547A (zh) 消息推送方法、设备及可编程设备
CN115526093A (zh) Smt印刷参数优化模型的训练方法、设备和存储介质
CN114780742B (zh) 一种灌区流量调度知识图谱问答系统构建与使用方法
CN107644268B (zh) 一种基于多特征的开源软件项目孵化状态预测方法
CN109299463A (zh) 一种情感得分的计算方法以及相关设备
CN110705889A (zh) 一种企业筛选方法、装置、设备及存储介质
CN114297498B (zh) 一种基于关键传播结构感知的意见领袖识别方法和装置
CN116089595A (zh) 基于科技成果的数据处理推送方法、装置及介质
CN115660645A (zh) 一种维修人员技能评估方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20171107