CN111737473B - 文本分类方法、装置及设备 - Google Patents

文本分类方法、装置及设备 Download PDF

Info

Publication number
CN111737473B
CN111737473B CN202010690569.0A CN202010690569A CN111737473B CN 111737473 B CN111737473 B CN 111737473B CN 202010690569 A CN202010690569 A CN 202010690569A CN 111737473 B CN111737473 B CN 111737473B
Authority
CN
China
Prior art keywords
text
classification
features
description
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010690569.0A
Other languages
English (en)
Other versions
CN111737473A (zh
Inventor
王君吉
张朝胜
徐琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Koubei Network Technology Co Ltd
Original Assignee
Zhejiang Koubei Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Koubei Network Technology Co Ltd filed Critical Zhejiang Koubei Network Technology Co Ltd
Priority to CN202010690569.0A priority Critical patent/CN111737473B/zh
Publication of CN111737473A publication Critical patent/CN111737473A/zh
Application granted granted Critical
Publication of CN111737473B publication Critical patent/CN111737473B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种文本分类方法、装置及设备,涉及文本分类技术领域,使得网络平台能够准确对餐品描述信息所形成的文本进行分类,提高文本分类效果。其中方法包括:获取对餐品描述信息进行处理后所形成的文本特征;将所述文本特征分别输入至预先训练具有不同网络结构的文本分类模型中进行预测,得到文本特征映射的多个分类结果,所述文本分类模型用于预测文本特征在各个类目上的概率值,所述分类结果为预测得到概率值最高时对应文本特征的类目;通过统计所述文本特征映射的多个分类结果中类目的占比值,将占比值最高的类目确定为所述文本特征映射的最终分类结果。

Description

文本分类方法、装置及设备
技术领域
本申请涉及文本分类技术领域,尤其是涉及到一种文本分类方法、装置及设备。
背景技术
随着互联网技术的不断发展,网络往早已成为现代人生活不可或缺的部分,网上订餐由于其独有的便捷性和直观性而受到用户的欢迎。为了便于用户浏览,网络平台端会对线上实体对象提供的餐品描述信息进行分类整理,并将分类整理后的餐品描述信息投放至网络平台,进而在网络平台中展示餐品描述信息,以供用户选取。
通常情况下,网络平台在对线上实体对象提供的餐品描述信息进行分类整理的过程可以转行为对餐品描述信息中文本进行分类的过程,具体可以通过使用深度学习的分类算法来对餐品描述信息形成的文本进行分类,从而判断出餐品对象所属的类目。然而,针对同一个餐品对象,由于线上实体对象所经营的类型不同,该餐品对象在不同线上实体对象所属的类目不同,例如,针对餐品“金针菇”而言,在烧烤实体对象中所属类目“烧烤>菌菇类”为,而在炒菜实体对象中所属的类目为“菜品>热菜”,另外还有对于实体对象为了吸引用户自命名的餐品,对于上述餐品对象类目划分模糊以及文本命名规则不规范的餐品描述信息,仅通过餐品描述信息形成的文本可能很难去判别餐品对象所属的类目,使得网络平台无法准确对餐品描述信息所形成的文本信息进行分类,导致文本分类效果不理想。
发明内容
有鉴于此,本申请提供了一种文本分类方法、装置及设备,主要目的在于解决现有技术中网络平台无法准确对餐品描述信息所形成的文本进行分类,导致文本分类效果不理想的问题。
根据本申请的第一个方面,提供了一种文本分类方法,该方法包括:
获取对餐品描述信息进行处理后所形成的文本特征;
将所述文本特征分别输入至预先训练具有不同网络结构的文本分类模型中进行预测,得到文本特征映射的多个分类结果,所述文本分类模型用于预测文本特征在各个类目上的概率值,所述分类结果为预测得到概率值最高时对应文本特征的类目;
通过统计所述文本特征映射的多个分类结果中类目的占比值,将占比值最高的类目确定为所述文本特征映射的最终分类结果。
在本发明另一实施例中,所述具有不同网络分类结果的文本分类模型中包括具有深度神经网络结构的第一分类模型、具有浅层网络结构的第二分类模型、具有卷积神经网络结构的第三分类模型,所述将所述文本特征分别输入至预先训练具有不同网络结构的文本分类模型中进行预测,得到文本特征映射的多个分类结果,具体包括:
将所述文本特征输入至第一分类模型中进行预测,得到文本特征映射的第一分类结果;
将所述文本特征输入至第二分类模型中进行预测,得到文本特征映射的第二分类结果;
将所述文本特征输入至第三分类模型中进行预测,得到文本特征映射的第三分类结果。
在本发明另一实施例中,所述第一分类模型包括用于对文本特征中不同的描述特征进行预测的分类子模型,所述将所述文本特征输入至第一分类模型中进行预测,得到文本特征映射的第一分类结果,具体包括:
通过分析所述文本特征描述对象的维度信息,将所述文本特征划分为不同的描述特征;
确定所述不同的描述特征在第一分类模型所映射的分类子模型;
将所述不同的描述特征分别输入至第一分类模型所映射的分类子模型中进行预测,输出不同的描述特征在实体对象中所映射的类目;
通过汇总所述不同的描述特征在实体对象中所映射的类目,得到文本特征映射的第一分类结果。
在本发明另一实施例中,所述通过分析所述文本特征描述对象的维度信息,将所述文本特征划分为不同的描述特征,具体包括:
通过分析所述文本特征描述对象的维度信息,提取从不同维度上描述对象的描述特征;
将所述从不同维度上描述对象的描述特征划分为对象文本的描述特征、实体对象文本的描述特征、对象图片的描述特征。
在本发明另一实施例中,所述第二分类模型包括用于对文本特征中对象文本的描述特征进行预测的单层分类子模型,所述将所述文本特征输入至第二分类模型中进行预测,得到文本特征映射的第二分类结果,具体包括:
从所述文本特征中提取对象文本的描述特征,将所述对象文本的描述特征进行加权平均后输入至第二分类模型的单层分类子模型中进行预测,输出对象文本的描述特征在实体对象中所映射的类目;
基于预先整理实体对象中的类目映射表,对所述描述特征在实体对象中所映射的类目进行校正,得到文本特征映射的第二分类结果。
在本发明另一实施例中,所述第三分类模型包括用于对文本特征中对象文本的描述特征进行预测的卷积分类子模型,所述将所述文本特征输入至第三分类模型中进行预测,得到文本特征映射的第三分类结果,具体包括:
从所述文本特征中提取对象文本的描述特征,将所述对象文本的描述特征输入至第三分类模型的卷积分类子模型中进行预测,输出对象文本的描述特征在实体对象中所映射的类目;
基于预先整理实体对象中的类目映射表,对所述描述特征在实体对象中所映射的类目进行校正,得到文本特征映射的第三分类结果。
在本发明另一实施例中,若所述多个分类结果中类目的占比值相同,则在所述通过统计所述文本特征映射的多个分类结果中类目的占比值,将占比值最高的类目确定为所述文本特征映射的最终分类结果之前,所述方法还包括:
基于所述具有不同网络结构的文本分类模型在历史预测过程中分类结果对应的准确率,设置所述具有不同网络结构的文本分类模型对应的权重值。
在本发明另一实施例中,所述通过统计所述文本特征映射的多个分类结果中类目的占比值,将占比值最高的类目确定为所述文本特征映射的最终分类结果,具体包括:
获取所述具有不同网络结构的文本分类模型所预测得到的最高概率值;
基于所述具有不同网络结构的文本分类模型对应的权重值和相应文本分类模型所预测得到的最高概率值,计算所述分类结果中类目作为最终分类结果的预测值;
选取所述预测值最高的类目确定为所述文本特征映射的最终分类结果。
根据本申请的第二个方面,一种文本分类装置,该装置包括:
获取单元,用于获取对餐品描述信息进行处理后所形成的文本特征;
预测单元,用于将所述文本特征分别输入至预先训练具有不同网络结构的文本分类模型中进行预测,得到文本特征映射的多个分类结果,所述文本分类模型用于预测文本特征在各个类目上的概率值,所述分类结果为预测得到概率值最高时对应文本特征的类目;
确定单元,用于通过统计所述文本特征映射的多个分类结果中类目的占比值,将占比值最高的类目确定为所述文本特征映射的最终分类结果。
在本发明另一实施例中,所述具有不同网络分类结果的文本分类模型中包括具有深度神经网络结构的第一分类模型、具有浅层网络结构的第二分类模型、具有卷积神经网络结构的第三分类模型,所述预测单元包括:
第一预测模块,用于将所述文本特征输入至第一分类模型中进行预测,得到文本特征映射的第一分类结果;
第二预测模块,用于将所述文本特征输入至第二分类模型中进行预测,得到文本特征映射的第二分类结果;
第三预测模块,用于将所述文本特征输入至第三分类模型中进行预测,得到文本特征映射的第三分类结果。
在本发明另一实施例中,所述第一分类模型包括用于对文本特征中不同的描述特征进行预测的分类子模型,所述第一预测模块包括:
分析子模块,用于通过分析所述文本特征描述对象的维度信息,将所述文本特征划分为不同的描述特征;
确定子模块,用于确定所述不同的描述特征在第一分类模型所映射的分类子模型;
第一预测子模块,用于将所述不同的描述特征分别输入至第一分类模型所映射的分类子模型中进行预测,输出不同的描述特征在实体对象中所映射的类目;
汇总子模块,用于通过汇总所述不同的描述特征在实体对象中所映射的类目,得到文本特征映射的第一分类结果。
在本发明另一实施例中,所述分析子模块,具体用于通过分析所述文本特征描述对象的维度信息,提取从不同维度上描述对象的描述特征;
所述分析子模块,具体还用于将所述从不同维度上描述对象的描述特征划分为对象文本的描述特征、实体对象文本的描述特征、对象图片的描述特征。
在本发明另一实施例中,所述第二分类模型包括用于对文本特征中对象文本的描述特征进行预测的单层分类子模型,所述第二预测模块包括:
第二预测子模块,用于从所述文本特征中提取对象文本的描述特征,将所述对象文本的描述特征进行加权平均后输入至第二分类模型的单层分类子模型中进行预测,输出对象文本的描述特征在实体对象中所映射的类目;
第一校正子模块,用于基于预先整理实体对象中的类目映射表,对所述描述特征在实体对象中所映射的类目进行校正,得到文本特征映射的第二分类结果。
在本发明另一实施例中,所述第三分类模型包括用于对文本特征中对象文本的描述特征进行预测的卷积分类子模型,所述第三预测模块包括:
第三预测子模块,用于从所述文本特征中提取对象文本的描述特征,将所述对象文本的描述特征输入至第三分类模型的卷积分类子模型中进行预测,输出对象文本的描述特征在实体对象中所映射的类目;
第二校正子模块,用于基于预先整理实体对象中的类目映射表,对所述描述特征在实体对象中所映射的类目进行校正,得到文本特征映射的第三分类结果。
在本发明另一实施例中,若所述多个分类结果中类目的占比值相同,则所述装置还包括:
设置单元,用于在所述通过统计所述文本特征映射的多个分类结果中类目的占比值,将占比值最高的类目确定为所述文本特征映射的最终分类结果之前,基于所述具有不同网络结构的文本分类模型在历史预测过程中分类结果对应的准确率,设置所述具有不同网络结构的文本分类模型对应的权重值。
在本发明另一实施例中,所述确定单元包括:
获取模块,用于获取所述具有不同网络结构的文本分类模型所预测得到的最高概率值;
计算模块,用于基于所述具有不同网络结构的文本分类模型对应的权重值和相应文本分类模型所预测得到的最高概率值,计算所述分类结果中类目作为最终分类结果的预测值;
选取模块,用于选取所述预测值最高的类目确定为所述文本特征映射的最终分类结果。
根据本申请的第三个方面,提供了一种存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述文本分类方法。
根据本申请的第四个方面,提供了一种文本分类设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述文本分类方法。
借由上述技术方案,本申请提供的一种文本分类方法、装置及设备,与目前现有方式中使用深度学习的分类算法来对餐品描述信息形成的文本进行分类的方式相比,本申请通过获取对餐品描述信息进行处理后所形成的文本特征,将文本特征分别输入至预先训练具有不同网络结构的文本分类模型中进行预测,得到文本特征映射的多个分类结果,该分类结果为预测得到概率值最高时对应文本特征的类目,通过使用多模态模型最大限度的引入和餐品类目相关的文本特征,并统计文本特征映射的多个分类结果中类目的占比值,进而融合多个分类结果的类目,将占比值最高的类目确定为文本特征映射的最终分类结果,发挥了不同网络结构的文本分类模型各自的优势,使得网络平台能够准确对餐品描述信息所形成的文本进行分类,提高文本分类效果。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1示出了本申请实施例提供的一种文本分类方法的流程示意图;
图2示出了本申请实施例提供的另一种文本分类方法的流程示意图;
图3示出了本申请实施例提供的第一分类模型的结构框架图;
图4示出了本申请实施例提供的另一种文本分类方法的流程示意图;
图5示出了本申请实施例提供的一种文本分类装置的结构示意图;
图6示出了本申请实施例提供的另一种文本分类装置的结构示意图;
图7示出了本申请实施例提供的另一种文本分类装置的结构示意图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本申请。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
通常情况下,网络平台在对线上实体对象提供的餐品描述信息进行分类整理的过程可以转行为对餐品描述信息中文本进行分类的过程,具体可以通过使用深度学习的分类算法来对餐品描述信息形成的文本进行分类,从而判断出餐品对象所属的类目。上述方法对于一些命名规范的餐品对象,例如“番茄炒蛋”、“珍珠奶茶”等都能够分类正确,然而,针对同一个餐品对象,由于线上实体对象所经营的类型不同,该餐品对象在不同线上实体对象所属的类目不同,例如,针对餐品对象“芹菜猪肉”而言,在炒菜实体对象中所属类目为“菜品>热菜类”,而在饺子实体对象中所属的类目为“菜品>饺子类”,另外还有对于实体对象为了吸引用户自命名的餐品,例如,针对餐品对象“美国队长”、“多肉葡萄”等仅通过餐品对象本身很难判断其类目,需要借助餐品对象形成的图片进行判断,使得网络平台无法准确对餐品描述信息所形成的文本信息进行分类,导致文本分类效果不理想。
为了解决该问题,本实施例提供了一种文本分类方法,如图1所示,包括如下步骤:
101、获取对餐品描述信息进行处理后所形成的文本特征。
其中,餐品对象描述信息可以为从网络平台页面中所提取关于餐品对象的描述信息,包括但不局限于餐品对象的描述文本、实体对象的描述文本、餐品对象的图像等,对于餐品对象的描述文本可以包括餐品对象的名称、口味、食材等,对于实体对象的描述文本可以包括实体对象名称、实体对象所经营餐品类型、实体对象位置等,对于餐品对象的图像可以包括餐品制作过程中的图像、餐品成形图像、餐品的食材图像等。
应说明的是,本发明实施例中对餐品描述信息进行处理的过程主要为对餐品描述信息中提取出特征词进行量化的过程,进而将量化后的特征词来表示文本特征,通常采用向量空间模型来描述文本特征,为了更好地对餐品描述信息中的文本特征进行提取,可以使用分词算法和词频统计方法得到特征项来表征餐品描述信息中各个维度上的特征,形成文本特征,这里对分词算法和词频统计的方式不进行限定,可以使用分词工具如结巴分词、LTP、HanLP等分词模型。
可以理解的是,在利用分词模型对餐品描述信息进行处理的过程中,分词模型除了可以输出餐品描述信息中的文本分词之外,还可以标注文本分词的位置以及词性等分词信息,例如,针对语句“番茄炒蛋”,分词处理后的结果为:“番茄/n、炒/v、蛋/n”,针对每个文本分词都标注有词性。
对于本实施例的执行主体可以为文本分类装置或设备,可以配置在网络平台的服务端,通过服务端触发餐品描述信息的收集指令,从各个网络平台页面中收集实体对象投放至页面中的餐品描述信息,进一步为了更好的挖掘文本特征,可以对餐品描述信息进行处理后形成文本特征,将文本特征作为文本分类依据,提高后续文本分类的准确性。
102、将所述文本特征分别输入至预先训练具有不同网络结构的文本分类模型中进行预测,得到文本特征映射的多个分类结果。
由于单一文本分类模型所得到的分类结果在一定角度上存在偏差,通过预先训练具有不同网络结构的文本分类模型,将文本特征输入至具有不同网络结构的文本分类模型中进行预测,可以得到文本特征映射的多个分类结果,每个分类结果都发挥不同文本分类模型的结构优势,能够从一定程度上预测出更符合文本特征的分类结果。
在本发明实施例中,具有不同网络结构的文本分类模型可以包括深度神经网络结构的DNN模型、多模态网络结构的VL-BERT模型、浅层网络结构的FastText模型、卷积神经网络结构的TextCnn模型等等。由于文本特征中可能包括反映餐品对象不同维度的描述特征,而针对某一维度的描述特征输入至不同网络结构的文本分类识别模型会得到不同的预测效果,说明该维度的描述特征并非适用于所有文本分类模型,例如,针对餐品图像的描述特征比较适用于卷积神经网络结构的TextCnn模型,而针对实体对象的描述特征比较适用于深度神经网络结构的DNN模型。为了实现更好的文本分类效果,可以在训练文本分类模型的过程中,针对文本分类模型所对应的网络结构,确定适合输入至文本分类模型中的文本特征部分。当然如果文本分类模型的网络结构适合对文本特征中所有部分进行预测,还可以将文本特征整体输入至文本分类模型中进行预测。
具体在针对分类模型所对应的网络结构,确定适合输入至文本分类模型中的文本特征部分的过程中,可以将文本特征不同部分输入至文本分类模型所输出的类目与真实类目进行比对,通过统计比对结果,得到文本特征不同部分对应的预测精度,对于预测精度较高的文本特征部分,说明文本分类模型更适合对该文本特征部分进行预测,进而确定适合输入至文本分类模型中的文本特征部分。
在本发明实施例中,文本分类模型用于预测文本特征在各个类目上的概率值,对于概率值越高,说明文本特征属于该类目上的概率越高,分类结果为预测得到概率值最高时对应文本特征的类目,例如,文本分类模型预测所得到文本特征在“菜品>热菜”类目上的概率值为0.97,在“主食>面>盖浇面”类目上的概率值为0.01,在“主食>饭>盖浇饭”类目上的概率值为0.01,其他类目上的概率值为0,则说明文本特征对应的分类结果为“菜品>热菜”类目。
103、通过统计所述文本特征映射的多个分类结果中类目的占比值,将占比值最高的类目确定为所述文本特征映射的最终分类结果。
在本发明实施例中,使用具有不同网络结构的文本分类模型进行预测后的多个分类结果中类目可能相同,也可能不相同,这里可以通过统计文本特征映射的多个分类结果中类目的占比值,占比值越高说明该类目为正确分类结果的概率越高,进而将占比值最高的类目确定为文本特征映射的最终分类结果。例如,如果三个分类模型中至少两个文本分类模型预测得到的分类结果中类目相同,则将该类目作为最终分类结果。
可以理解的是,对于分类结果中类目相同的情况,说明该分类结果得到了所有文本分类模型的认可,可直接将该分类结果中类目确定为文本特征映射的最终分类结果;而对于分了结果中类目不相同的情况,说明各个文本分类模型预测出多个不同的类目,如果多个不同的类目当中覆盖有相同的类目,则进一步计算相同类目的占比值,将占比值最高的类目作为最终分类结果,特殊情况下,如果多个不同的类目占比值相同,则说明每个类目存在可能作为最终分类结果的理由,进一步可以针对每种文本分类模型对文本特征进行类目预测的精度来决定输出哪个类目作为最终分类结果。
本申请实施例提供的文本分类方法,与目前现有方式中使用深度学习的分类算法来对餐品描述信息形成的文本进行分类的方式相比,本申请通过获取对餐品描述信息进行处理后所形成的文本特征,将文本特征分别输入至预先训练具有不同网络结构的文本分类模型中进行预测,得到文本特征映射的多个分类结果,该分类结果为预测得到概率值最高时对应文本特征的类目,通过使用多模态模型最大限度的引入和餐品类目相关的文本特征,并统计文本特征映射的多个分类结果中类目的占比值,进而融合多个分类结果的类目,将占比值最高的类目确定为文本特征映射的最终分类结果,发挥了不同网络结构的文本分类模型各自的优势,使得网络平台能够准确对餐品描述信息所形成的文本进行分类,提高文本分类效果。
进一步的,作为上述实施例具体实施方式的细化和扩展,为了完整说明本实施例的具体实施过程,本实施例提供了另一种文本分类方法,如图2所示,该方法包括:
201、获取对餐品描述信息进行处理后所形成的文本特征。
在本发明实施例中,在实际对餐品描述信息进行处理之前,由于原始信息中经常会存在许多影响分类效果的文本部分,为了保证文本的分类效果,可以预先对餐品描述信息进行清洗,具体可以包含对餐品描述信息进行缺省值处理、去重处理和噪声处理等,对于非文本数据,例如,HTML标签、URL地址等,需要清除该部分文本,对于长串数字或者字母,例如,手机号码、车牌号、用户ID等文本,在非特定的文本类情境下可以去除,或者将其转换为归一化的特征,例如,转换为是否出现长串数字的布尔值特征。
202a、将所述文本特征输入至第一分类模型中进行预测,得到文本特征映射的第一分类结果。
在本发明实施例中,这里的第一分类模型适用于对文本特征中所有部分进行预测,具体可以包括用于对文本特征中不同的描述特征进行预测的分类子模型,每个分类子模型用于对文本特征中相应部分进行预测。如果文本特征中包含三个部分,则可以将文本特征中三个部分分别输入至相应的分类子模型,进而针对文本特征每个部分进行预测,得到每个部分预测所得到的分类结果。
由于文本特征中不同描述特征适用于分类子模型不同,具体可以通过分析文本特征描述对象的维度特征,将文本特征划分为不同的描述特征,确定不同描述特征在第一分类模型中所映射的分类子模型,进而将不同的描述特征分别输入至第一分类模型所映射的分类子模型中进行预测,输出不同的描述特征在实体对象中所映射的类目,通过汇总不同的描述特征在实体对象中所映射的类目,得到文本特征映射的第一分类结果。
由于餐品描述信息中的文本分类受到餐品对象信息、实体对象中餐品信息和餐品对象的图像信息等影响,具体在通过分析文本特征描述对象的维度特征,将文本特征划分为不同的描述特征的过程中,可以通过分析文本特征描述对象的维度信息,这里的维度信息可以包括页面中对餐品对象和实体对象进行描述的任何维度,例如,餐品对象的名称、餐品对象的口味、实体对象中餐品对象类型、实体对象中餐品对象资源参数等,进一步提取从不同维度上描述对象的描述特征,并将从不同维度上描述对象的描述特征划分为对象文本的描述特征、实体对象文本的描述特征、对象图片的描述特征。
具体应用场景中,第一分类模型A为Multi-modal DNN模型, Multi-modal DNN结构如图3所示,具体通过第一分类模型对文本特征进行预测的过程可以通过将对象文本的描述特征、实体对象文本的描述特征、对象图片的描述特征分别输入第一分类模型A中三个分类子模型中(A1、A2、A3)进行预测后,得到每个分类子模型输出描述特征在每个类目上的概率分布,将多个子模型输出的描述特征在每个类目上的概率分布汇总后形成特征向量,输出得到每个类目上的概率,并选取概率最高的类目作为文本特征映射的第一分类结果。
针对适用于对象文本的描述特征进行预测的分类子模型A1,可以为BERT模型,该BERT模型为通过海量的维基百科、新闻等语料训练而得到的预训练模型,具体可以将对象文本的描述特征表示为向量后通过BERT模型进行预测,输出768维度对象文本的描述特征在每个类目上的概率分布;针对适用于实体对象文本的描述特征进行预测的分类子模型A2,同样可以为BERT模型,具体可以将实体对象文本的描述特征表示为向量后通过BERT模型进行预测,输出768维度实体对象文本的描述特征在每个类目上的概率分布;针对适用于对象图像的描述特征进行预测的分类子模型A3,可以为Resnet34模型,具体可以将对象图像的描述特征表示为向量后通过Resnet34模型进行预测,输出512维度对象图像的描述特征在每个类目上的概率分布;通过汇总描述特征在每个类目上的概率分布,通过两个全连接层进行分类经过Softmax输出得到每个类目的概率,选取概率最高类目作为文本特征映射的第一分类结果,可以理解的是,这里的第一分类结果反映综合文本与图像多模态特征进行预测所得到对象在各个类目上的概率值。
可以理解的是,针对实体对象文本的描述特征中实体对象的名称文本,大多数实体对象文本的名称,括号内多为分店信息等,例如,xx门店(xx路店)等,该分店信息对于类目预测并没有任何作用,本发明实施例可以将对类目预测没有任何作用的文本,也就是实体对象名称中括号内的字符串进行过滤;针对实体对象文本的描述特征中实体对象的描述文本,可以挖掘到与实体对象所包含类目的相关信息,但同时实体对象的描述文本中会存在广告性质的文本,本发明实施例可以在将实体对象文本的描述特征输入至分类子模型之前,利用预先携带有广告性质的文本训练二分类模型对实体对象描述文本中广告性质的文本进行过滤;针对实体对象文本的描述特征中所包含对象文本,对象的类目与其在实体对象内排名高度相关,对于排名靠前的对象文本往往权重加高,应说明的是,这里的排名可以是对象在实体对象中的资源参数排名、对象的创建时间或者对象的字母排名,字母排名主要是为了保证在资源参数和创建时间相同的情况下分类子模型能够输出稳定的预测结果,例如,针对90天资源参数排名前10的对象(按字母排序),针对创建时间前10的对象(按字母排序),但是,对于一些特殊类目的对象,例如“餐具”、“调料”等往往排名靠前,本发明实施例可以对一些特殊类目进行过滤,将剩下对象的排名作为实体对象文本的描述特征中所包含的对象文本输入至分类子模型中。
202b、将所述文本特征输入至第二分类模型中进行预测,得到文本特征映射的第二分类结果。
在本发明实施例中,这里的第二分类模型适用于对文本特征中对象文本的描述特征进行预测,可以包括用于对文本特征中对象文本的描述特征进行预测的单层分类子模型,具体应用场景中,第二分类模型B为FastText分类模型,FastText为单层网络结构,适用于分类速度要求较高的场合,具体可以从文本特征中提取对象文本的描述特征,将对象文本的描述特征进行加权平均后输入至第二分类模型的单层分类子模型中进行预测,输出对象文本的描述特征在实体对象中所映射的类目,由于对象文本在实体对象中所映射的类目受到实体对象所包含对象类型的影响,进一步基于预先整理实体对象中类目映射表,对文本特征在实体对象中所映射的类目进行校正,得到文本特征映射的第二分类结果。
例如,对于FastText模型预测所得到文本特征映射的第二分类结果为“火锅/串串/麻辣烫/沙拉自选>配菜>菌菇类目”,而实体对象所映射的类目为“小吃夜宵>烧烤”,则将文本特征映射的第二分类结果修正为“烧烤>菌菇类目”。
202c、将所述文本特征输入至第三分类模型中进行预测,得到文本特征映射的第三分类结果。
在本发明实施例中,这里的第三分类模型适用于对文本特征中对象文本的描述特征进行预测,可以包括用于对文本特征中对象文本的描述特征进行预测的卷积分类子模型,具体应用场景中,第三分类模型C为TextCnn分类模型,TextCnn为卷积网络结构,相比FastText结构复杂,利用卷积神经网络进行文本分类的算法,其捕获关键词能力同样适用于描述对象的短文本,具体可以从文本特征中提取对象文本的描述特征,将对象文本的描述特征输入至第三分类模型的卷积分类子模型中进行预测,输出对象文本的描述特征在实体对象中所映射的类目,同样如步骤202b中所述,由于对象文本在实体对象中所映射的类目受到实体对象所包含对象类型的影响,进一步基于预先整理实体对象中类目映射表,对文本特征在实体对象中所映射的类目进行校正,得到文本特征映射的第三分类结果。
203、通过统计所述文本特征映射的多个分类结果中类目的占比值,将占比值最高的类目确定为所述文本特征映射的最终分类结果。
具体应用过程中,对于给定输入
Figure RE-48609DEST_PATH_IMAGE001
,经过3个分类模型后分别输出不同的分类结果,分类模型A输出的第一分类结果为
Figure RE-416136DEST_PATH_IMAGE002
,分类模型B输出的分类结果为
Figure RE-657762DEST_PATH_IMAGE003
,经过校正规则处理后输出的第二分类结果为
Figure RE-932885DEST_PATH_IMAGE004
,分类模型C输出的分类结果为
Figure RE-763307DEST_PATH_IMAGE005
,经过校正规则处理后输出的第三分类结果为
Figure RE-98473DEST_PATH_IMAGE006
可以理解的是,对于文本特征映射的多个分类结果中类目的占比值不同的情况下,如果3个分类模型预测的分类结果中类目一致,则输出该类目作为最终分类结果,如果3个分类模型预测的分类结果中类目不一致,其中有两个分类结果中类目一致,则该类目的占比值高于另一个类目,将两个分类结果中一致的类目作为最终输出的分类结果;如果3个分类模型预测的分类结果中类目不一致,且每个分类结果对应一个类目,则产生文本特征映射的多个分类结果中类目的占比值相同的情况下,无法通过类目的占比值确定文本特征映射的最终分类结果,需要利用分类模型的预测精度进一步来选取适用于作为最终分类结果的类目。
对于无法通过类目的占比值确定文本特征映射的最终分类结果,具体在步骤202a、202b、202c之后,如图4所示,本发明实施例具体还包括如下步骤:
204、若所述多个分类结果中类目的占比值相同,基于所述具有不同网络结构的文本分类模型在历史预测过程中分类结果对应的准确率,设置所述具有不同网络结构的文本分类模型对应的权重值。
在本发明实施例中,具有不同网络结构的文本分类模型在历史预测过程中分类结果对应的误差率可以通过分析文本分类模型的验证集,统计在历史预测过程的分类结果与文本特征对应的真实类目的比对结果,进而根据比对结果确定文本分类模型对应预测的准确率,将文本模型对应预测的准确率作为文本分类模型对应的权重值。
205、获取所述具有不同网络结构的文本分类模型所预测得到的最高概率值。
由于每种网络结构的文本分类模型都会预测得到文本特征在各个类目上的概率值,而最高概率值最能够反映文本特征对应的类目,从而选取具有不同网络结构的文本分类模型所预测得到的最高概率值。
206、基于所述具有不同网络结构的文本分类模型对应的权重值和相应文本分类模型所预测得到的最高概率值,计算所述分类结果中类目作为最终分类结果的预测值。
可以理解的是,这里计算分类结果中类目作为最终分类结果的预测值可以通过将具有不同网络结构的文本分类模型对应的权重值和相应文本分类模型所预测得到的最高概率值进行加权处理,得到针对不用网络结构的文本分类模型所输出分类结果中类目作为最终分类结果的预测值。
207、选取所述预测值最高的类目确定为所述文本特征映射的最终分类结果。
具体在实际应用的过程中,文本分类模型A对应的权重值为0.6,说明文本分类模型A在100次预测中60次可以正确预测餐品对象所属类目,那么文本分类模型A预测的准确率为0.6,对应的权重值为0.6;文本分类模型B对应的权重值为0.9,说明文本分类模型B在100次预测中90次可以正确预测餐品对象所属类目,那么文本分类模型B预测的准确率为0.9,对应的权重值为0.9;文本分类模型C对应的权重值为0.6,说明文本分类模型C在100次预测中60可以正确预测餐品对象所属类目,那么文本分类模型C预测的准确率为0.6,对应的权重值为0.6。而文本分类模型A映射的类目为“主食>面>汤面”,对应最高概率值为0.8,文本分类模型B映射的类目为“主食>面>拌面”,对应最高概率值为0.7,文本分类模型C映射的类目为“其他>浇头”,对应最高概率值为0.5,进一步计算类目主食>面>汤面作为最终分类结果的预测值为0.6*0.8=0.48,计算类目主食>面>拌面作为最终分类结果的预测值为0.9*0.7=0.63,计算类目其他>浇头作为最终分类结果的预测值为0.6*0.5=0.3,进而选取预测值最高的类目主食>面>拌面作为最终分类结果。
通过上述文本分类步骤,在图文多模态模型中最大限度的利用了文本特征所包含的对象文本的描述特征、实体对象文本的描述特征、对象图片的描述特征,充分发挥了不同文本分类模型的优势,对于相同餐品对象在不同类型实体对象对应的类目不同的情况,文本分类模型A通过在深度学习模型中加入了实体对象文本的描述特征,可以针对实体对象所覆盖对象类型确定文本特征所映射的类目,文本分类模型B和文本分类模型C通过加入实体对象映射规则表来对预测类目进行校正,进一步调整文本特征所映射的类目;对于餐品对象命名不规范的情况,可以通过文本分类模型A中加入对象图像的描述特征来进一步判断文本特征所映射的类目,从而提高文本分类精度。
进一步的,作为图1和图2方法的具体实现,本申请实施例提供了一种文本分类装置,如图5所示,该装置包括:获取单元31、预测单元32、确定单元33。
获取单元31,可以用于获取对餐品描述信息进行处理后所形成的文本特征;
预测单元32,可以用于将所述文本特征分别输入至预先训练具有不同网络结构的文本分类模型中进行预测,得到文本特征映射的多个分类结果,所述文本分类模型用于预测文本特征在各个类目上的概率值,所述分类结果为预测得到概率值最高时对应文本特征的类目;
确定单元33,可以用于通过统计所述文本特征映射的多个分类结果中类目的占比值,将占比值最高的类目确定为所述文本特征映射的最终分类结果。
本发明实施例提供的文本分类装置,与目前现有方式中使用深度学习的分类算法来对餐品描述信息形成的文本进行分类的方式相比,本申请通过获取对餐品描述信息进行处理后所形成的文本特征,将文本特征分别输入至预先训练具有不同网络结构的文本分类模型中进行预测,得到文本特征映射的多个分类结果,该分类结果为预测得到概率值最高时对应文本特征的类目,通过使用多模态模型最大限度的引入和餐品类目相关的文本特征,并统计文本特征映射的多个分类结果中类目的占比值,进而融合多个分类结果的类目,将占比值最高的类目确定为文本特征映射的最终分类结果,发挥了不同网络结构的文本分类模型各自的优势,使得网络平台能够准确对餐品描述信息所形成的文本进行分类,提高文本分类效果。
在具体的应用场景中,如图6所示,所述具有不同网络分类结果的文本分类模型中包括具有深度神经网络结构的第一分类模型、具有浅层网络结构的第二分类模型、具有卷积神经网络结构的第三分类模型,所述预测单元32包括:
第一预测模块321,可以用于将所述文本特征输入至第一分类模型中进行预测,得到文本特征映射的第一分类结果;
第二预测模块322,可以用于将所述文本特征输入至第二分类模型中进行预测,得到文本特征映射的第二分类结果;
第三预测模块323,可以用于将所述文本特征输入至第三分类模型中进行预测,得到文本特征映射的第三分类结果。
在具体的应用场景中,如图6所示,所述第一分类模型包括用于对文本特征中不同的描述特征进行预测的分类子模型,所述第一预测模块321包括:
分析子模块3211,可以用于通过分析所述文本特征描述对象的维度信息,将所述文本特征划分为不同的描述特征;
确定子模块3212,可以用于确定所述不同的描述特征在第一分类模型所映射的分类子模型;
第一预测子模块3213,可以用于将所述不同的描述特征分别输入至第一分类模型所映射的分类子模型中进行预测,输出不同的描述特征在实体对象中所映射的类目;
汇总子模块3214,可以用于通过汇总所述不同的描述特征在实体对象中所映射的类目,得到文本特征映射的第一分类结果。
在具体的应用场景中,所述分析子模块3211,具体可以用于通过分析所述文本特征描述对象的维度信息,提取从不同维度上描述对象的描述特征;
所述分析子模块3211,具体还可以用于将所述从不同维度上描述对象的描述特征划分为对象文本的描述特征、实体对象文本的描述特征、对象图片的描述特征。
在具体的应用场景中,如图6所示,所述第二分类模型包括用于对文本特征中对象文本的描述特征进行预测的单层分类子模型,所述第二预测模块322包括:
第二预测子模块3221,可以用于从所述文本特征中提取对象文本的描述特征,将所述对象文本的描述特征进行加权平均后输入至第二分类模型的单层分类子模型中进行预测,输出对象文本的描述特征在实体对象中所映射的类目;
第一校正子模块3222,可以用于基于预先整理实体对象中的类目映射表,对所述描述特征在实体对象中所映射的类目进行校正,得到文本特征映射的第二分类结果。
在具体的应用场景中,如图6所示,所述第三分类模型包括用于对文本特征中对象文本的描述特征进行预测的卷积分类子模型,所述第三预测模块323包括:
第三预测子模块3231,可以用于从所述文本特征中提取对象文本的描述特征,将所述对象文本的描述特征输入至第三分类模型的卷积分类子模型中进行预测,输出对象文本的描述特征在实体对象中所映射的类目;
第二校正子模块3232,可以用于基于预先整理实体对象中的类目映射表,对所述描述特征在实体对象中所映射的类目进行校正,得到文本特征映射的第三分类结果。
在具体的应用场景中,如图7所示,若所述多个分类结果中类目的占比值相同,则所述装置还包括:
设置单元34,可以用于在所述通过统计所述文本特征映射的多个分类结果中类目的占比值,将占比值最高的类目确定为所述文本特征映射的最终分类结果之前,基于所述具有不同网络结构的文本分类模型在历史预测过程中分类结果对应的准确率,设置所述具有不同网络结构的文本分类模型对应的权重值。
在具体的应用场景中,如图7所示,所述确定单元33包括:
获取模块331,可以用于获取所述具有不同网络结构的文本分类模型所预测得到的最高概率值;
计算模块332,可以用于基于所述具有不同网络结构的文本分类模型对应的权重值和相应文本分类模型所预测得到的最高概率值,计算所述分类结果中类目作为最终分类结果的预测值;
选取模块333,可以用于选取所述预测值最高的类目确定为所述文本特征映射的最终分类结果。
需要说明的是,本实施例提供的一种文本分类装置所涉及各功能单元的其它相应描述,可以参考图1、图2、图4中的对应描述,在此不再赘述。
基于上述如图1、图2、图4所示方法,相应的,本申请实施例还提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述如图1、图2、图4所示的文本分类方法。
基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景所述的方法。
基于上述如图1、图2、图4所示的方法,以及图5-图7所示的虚拟装置实施例,为了实现上述目的,本申请实施例还提供了一种文本分类设备,具体可以为计算机,服务器,或者其他网络设备等,该实体设备包括存储介质和处理器;存储介质,用于存储计算机程序;处理器,用于执行计算机程序以实现上如图1、图2、图4所示的文本分类方法。
可选的,上述实体设备都还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency,RF)电路,传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等,可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)等。
本领域技术人员可以理解,本实施例提供的一种文本分类的实体设备结构并不构成对该实体设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。
存储介质中还可以包括操作系统、网络通信模块。操作系统是管理上述店铺搜索信息处理的实体设备硬件和软件资源的程序,支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信,以及与信息处理实体设备中其它硬件和软件之间通信。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现,也可以通过硬件实现。通过应用本申请的技术方案,与目前现有方式相比,本申请通过使用多模态模型最大限度的引入和餐品类目相关的文本特征,并统计文本特征映射的多个分类结果中类目的占比值,进而融合多个分类结果的类目,将占比值最高的类目确定为文本特征映射的最终分类结果,发挥了不同网络结构的文本分类模型各自的优势,使得网络平台能够准确对餐品描述信息所形成的文本进行分类,提高文本分类效果。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请序号仅仅为了描述,不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims (10)

1.一种文本分类方法,其特征在于,包括:
获取对餐品描述信息进行处理后所形成的文本特征,所述餐品描述信息由线上实体对象提供,所述文本特征包括反映餐品对象不同维度的描述特征;
将所述文本特征分别输入至预先训练具有不同网络结构的文本分类模型中进行预测,得到文本特征映射的多个分类结果,所述文本分类模型用于预测文本特征在各个类目上的概率值,所述分类结果为预测得到概率值最高时对应文本特征的类目,所述文本分类模型包括第一分类模型和第二分类模型和第三分类模型,所述第一分类模型包括用于对文本特征中不同的描述特征进行预测的分类子模型,并分别将不同的描述特征分别输入至第一分类分型所映射的分类子模型中进行预测,所述第二分类模型和所述第三分类模型用于对文本特征中对象文本的描述特征进行预测,并基于预先整理实体对象中类目映射表对文本特征在实体对象中所映射的类目进行校正,得到文本特征映射的分类结果,所述不同的描述特征包括对象文本的描述特征、实体对象文本的描述特征和对象图片的描述特征;
通过统计所述文本特征映射的多个分类结果中类目的占比值,将占比值最高的类目确定为所述文本特征映射的最终分类结果。
2.根据权利要求1所述的方法,其特征在于,所述具有不同网络结构的文本分类模型中包括具有深度神经网络结构的第一分类模型、具有浅层网络结构的第二分类模型和具有卷积神经网络结构的第三分类模型,所述将所述文本特征分别输入至预先训练具有不同网络结构的文本分类模型中进行预测,得到文本特征映射的多个分类结果,具体包括:
将所述文本特征输入至第一分类模型中进行预测,得到文本特征映射的第一分类结果;
将所述文本特征输入至第二分类模型中进行预测,得到文本特征映射的第二分类结果;
将所述文本特征输入至第三分类模型中进行预测,得到文本特征映射的第三分类结果。
3.根据权利要求2所述的方法,其特征在于,所述第一分类模型包括用于对文本特征中不同的描述特征进行预测的分类子模型,所述将所述文本特征输入至第一分类模型中进行预测,得到文本特征映射的第一分类结果,具体包括:
通过分析所述文本特征描述对象的维度信息,将所述文本特征划分为不同的描述特征;
确定所述不同的描述特征在第一分类模型所映射的分类子模型;
将所述不同的描述特征分别输入至第一分类模型所映射的分类子模型中进行预测,输出不同的描述特征在实体对象中所映射的类目;
通过汇总所述不同的描述特征在实体对象中所映射的类目,得到文本特征映射的第一分类结果。
4.根据权利要求3所述的方法,其特征在于,所述通过分析所述文本特征描述对象的维度信息,将所述文本特征划分为不同的描述特征,具体包括:
通过分析所述文本特征描述对象的维度信息,提取从不同维度上描述对象的描述特征;
将所述从不同维度上描述对象的描述特征划分为对象文本的描述特征、实体对象文本的描述特征、对象图片的描述特征。
5.根据权利要求2所述的方法,其特征在于,所述第二分类模型包括用于对文本特征中对象文本的描述特征进行预测的单层分类子模型,所述将所述文本特征输入至第二分类模型中进行预测,得到文本特征映射的第二分类结果,具体包括:
从所述文本特征中提取对象文本的描述特征,将所述对象文本的描述特征进行加权平均后输入至第二分类模型的单层分类子模型中进行预测,输出对象文本的描述特征在实体对象中所映射的类目;
基于预先整理实体对象中的类目映射表,对所述描述特征在实体对象中所映射的类目进行校正,得到文本特征映射的第二分类结果。
6.根据权利要求2所述的方法,其特征在于,所述第三分类模型包括用于对文本特征中对象文本的描述特征进行预测的卷积分类子模型,所述将所述文本特征输入至第三分类模型中进行预测,得到文本特征映射的第三分类结果,具体包括:
从所述文本特征中提取对象文本的描述特征,将所述对象文本的描述特征输入至第三分类模型的卷积分类子模型中进行预测,输出对象文本的描述特征在实体对象中所映射的类目;
基于预先整理实体对象中的类目映射表,对所述描述特征在实体对象中所映射的类目进行校正,得到文本特征映射的第三分类结果。
7.根据权利要求1-6中任一项所述的方法,其特征在于,若所述多个分类结果中类目的占比值相同,则在所述通过统计所述文本特征映射的多个分类结果中类目的占比值,将占比值最高的类目确定为所述文本特征映射的最终分类结果之前,所述方法还包括:
基于所述具有不同网络结构的文本分类模型在历史预测过程中分类结果对应的准确率,设置所述具有不同网络结构的文本分类模型对应的权重值。
8.一种文本分类装置,其特征在于,包括:
获取单元,用于获取对餐品描述信息进行处理后所形成的文本特征,所述餐品描述信息由线上实体对象提供,所述文本特征包括反映餐品对象不同维度的描述特征;
预测单元,用于将所述文本特征分别输入至预先训练具有不同网络结构的文本分类模型中进行预测,得到文本特征映射的多个分类结果,所述文本分类模型用于预测文本特征在各个类目上的概率值,所述分类结果为预测得到概率值最高时对应文本特征的类目,所述不同维度的描述特征适用于不同文本分类模型,所述文本分类模型包括第一分类模型和第二分类模型和第三分类模型,所述第一分类模型包括用于对文本特征中不同的描述特征进行预测的分类子模型,并分别将不同的描述特征分别输入至第一分类分型所映射的分类子模型中进行预测,所述第二分类模型和所述第三分类模型用于对文本特征中对象文本的描述特征进行预测,并基于预先整理实体对象中类目映射表对文本特征在实体对象中所映射的类目进行校正,得到文本特征映射的分类结果,所述不同的描述特征包括对象文本的描述特征、实体对象文本的描述特征和对象图片的描述特征;
确定单元,用于通过统计所述文本特征映射的多个分类结果中类目的占比值,将占比值最高的类目确定为所述文本特征映射的最终分类结果。
9.一种存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至7中任一项所述的文本分类方法。
10.一种文本分类设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至7中任一项所述的文本分类方法。
CN202010690569.0A 2020-07-17 2020-07-17 文本分类方法、装置及设备 Active CN111737473B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010690569.0A CN111737473B (zh) 2020-07-17 2020-07-17 文本分类方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010690569.0A CN111737473B (zh) 2020-07-17 2020-07-17 文本分类方法、装置及设备

Publications (2)

Publication Number Publication Date
CN111737473A CN111737473A (zh) 2020-10-02
CN111737473B true CN111737473B (zh) 2022-04-26

Family

ID=72654836

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010690569.0A Active CN111737473B (zh) 2020-07-17 2020-07-17 文本分类方法、装置及设备

Country Status (1)

Country Link
CN (1) CN111737473B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112528031A (zh) * 2021-02-09 2021-03-19 中关村科学城城市大脑股份有限公司 一种工单智能派发方法和系统
CN113901253A (zh) * 2021-09-22 2022-01-07 成都飞机工业(集团)有限责任公司 一种零组件工艺路线确定方法、装置、设备及存储介质
CN114238643A (zh) * 2022-02-17 2022-03-25 苏州浪潮智能科技有限公司 敏感信息识别模型的构建、敏感信息识别方法及装置
CN117150245B (zh) * 2023-10-30 2024-02-13 北京大学深圳研究生院 一种企业智能诊断信息生成方法、装置、设备和存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106897428B (zh) * 2017-02-27 2022-08-09 腾讯科技(深圳)有限公司 文本分类特征提取方法、文本分类方法及装置
CN109582792A (zh) * 2018-11-16 2019-04-05 北京奇虎科技有限公司 一种文本分类的方法及装置
CN109522556B (zh) * 2018-11-16 2024-03-12 北京九狐时代智能科技有限公司 一种意图识别方法及装置
CN110674297B (zh) * 2019-09-24 2022-04-29 支付宝(杭州)信息技术有限公司 舆情文本分类模型构建和舆情文本分类方法、装置及设备
CN111078876A (zh) * 2019-12-04 2020-04-28 国家计算机网络与信息安全管理中心 一种基于多模型集成的短文本分类方法和系统

Also Published As

Publication number Publication date
CN111737473A (zh) 2020-10-02

Similar Documents

Publication Publication Date Title
CN111737473B (zh) 文本分类方法、装置及设备
CN109165249B (zh) 数据处理模型构建方法、装置、服务器和用户端
CN107578060B (zh) 一种基于可判别区域的深度神经网络用于菜品图像分类的方法
CN107330750B (zh) 一种推荐产品配图方法及装置,电子设备
CN109118336B (zh) 信息推荐方法、装置、计算机设备及存储介质
CN110909182B (zh) 多媒体资源搜索方法、装置、计算机设备及存储介质
WO2019223552A1 (zh) 文章推荐方法、装置、计算机设备及存储介质
CN111400507B (zh) 实体匹配方法及其装置
CN109508406B (zh) 一种信息处理方法、装置及计算机可读存储介质
US10572929B2 (en) Decision factors analyzing device and decision factors analyzing method
CN109598307B (zh) 数据筛选方法、装置、服务器及存储介质
CN107766349B (zh) 一种生成文本的方法、装置、设备及客户端
CN108734159B (zh) 一种图像中敏感信息的检测方法及系统
CN111931055B (zh) 对象推荐方法、对象推荐装置和电子设备
CN108665148B (zh) 一种电子资源质量评价方法、装置和存储介质
CN107203558B (zh) 对象推荐方法和装置、推荐信息处理方法和装置
CN110119479A (zh) 一种餐馆推荐方法、装置、设备及可读存储介质
CN110209928A (zh) 一种信息推荐方法、装置及存储介质
CN117273003B (zh) 文本数据处理方法、模型训练方法以及命名实体识别方法
CN111310037A (zh) 家居素材的推荐方法、装置及电子设备
CN112417848A (zh) 语料生成方法、装置及计算机设备
CN112131322A (zh) 时间序列分类方法及装置
CN112100221A (zh) 一种资讯推荐方法、装置、推荐服务器及存储介质
CN116049536A (zh) 一种推荐方法及相关装置
CN114637920A (zh) 对象推荐方法以及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant