CN110955772A - 文本结构化模型组件部署方法、装置、设备及存储介质 - Google Patents
文本结构化模型组件部署方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN110955772A CN110955772A CN201811123180.7A CN201811123180A CN110955772A CN 110955772 A CN110955772 A CN 110955772A CN 201811123180 A CN201811123180 A CN 201811123180A CN 110955772 A CN110955772 A CN 110955772A
- Authority
- CN
- China
- Prior art keywords
- text
- user
- model
- keyword extraction
- model component
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种文本结构化模型组件部署方法、装置、设备及存储介质。该方法包括:向用户提供由多级类目构成的类目结构;基于用户在类目结构中所选择的类目,训练针对用户的文本结构化模型组件,文本结构化模型组件至少包括用于对用户输入的文本数据进行分类的文本分类模型;部署文本结构化模型组件,以供用户调用。根据本发明实施例的文本结构化模型组件部署方法,可以基于由多级类目构成的类目结构以及用户在该类目结构中所选择的类目,训练针对用户的包括文本分类模型的文本结构化模型组件,利用该文本分类模型对用户输入的文本数据进行分类,可以进行个性化分类。
Description
技术领域
本发明涉及计算机网络技术领域,尤其涉及一种文本结构化模型组件部署方法、装置、设备及存储介质。
背景技术
文本分类用计算机对文本集(或其他实体或物件)按照一定的分类体系或标准进行自动分类标记。
目前的文本分类仅能进行粗粒度的分类,而不能更精细化的分类。另外,目前的类目都是产品提供方已经定义好的类目,用户没有办法选择其所需求的类目,不能进行个性化分类。其中,上述类目指分类、类别。比如:女装、男鞋、化妆品、电子产品等。
发明内容
本发明实施例提供一种文本结构化模型组件部署方法、装置、设备及存储介质,可以针对不同用户进行个性化分类。
根据本发明实施例的一个方面,提供一种文本结构化模型组件部署方法,包括:
向用户提供由多级类目构成的类目结构;
基于用户在类目结构中所选择的类目,训练针对用户的文本结构化模型组件,文本结构化模型组件至少包括用于对用户输入的文本数据进行分类的文本分类模型;
部署文本结构化模型组件,以供用户调用。
根据本发明实施例的一个方面,提供一种文本结构化模型组件部署装置,包括:
提供模块,用于向用户提供由多级类目构成的类目结构;
训练模块,用于基于用户在类目结构中所选择的类目,训练针对用户的文本结构化模型组件,文本结构化模型组件至少包括用于对用户输入的文本数据进行分类的文本分类模型;
部署模块,用于部署文本结构化模型组件,以供用户调用。
根据本发明实施例的一个方面,提供一种文本结构化模型组件部署设备,包括:存储器和处理器;存储器用于存储可执行程序代码;处理器用于读取存储器中存储的可执行程序代码以执行本发明实施例提供的文本结构化模型组件部署方法。
根据本发明实施例的一个方面,提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序指令;计算机程序指令被处理器执行时实现本发明实施例提供的文本结构化模型组件部署方法。
根据本发明实施例的一个方面,提供一种文本分类方法,包括:
调用包括文本分类模型的文本结构化模型组件,文本分类模型用于对目标用户输入的文本数据进行分类,文本结构化模型组件为基于目标用户从由多级类目构成的类目结构中所选择的类目训练得到的;
利用文本分类模型对目标用户输入的文本数据进行分类。
根据本发明实施例的一个方面,提供一种文本分类装置,包括:
调用模块,用于调用包括文本分类模型的文本结构化模型组件,文本分类模型用于对目标用户输入的文本数据进行分类,文本结构化模型组件为基于目标用户从由多级类目构成的类目结构中所选择的类目训练得到的;
分类模块,用于利用文本分类模型对目标用户输入的文本数据进行分类。
根据本发明实施例的一个方面,提供一种文本分类设备,包括:存储器和处理器;存储器用于存储可执行程序代码;处理器用于读取存储器中存储的可执行程序代码以执行本发明实施例提供的文本分类方法。
根据本发明实施例的一个方面,提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序指令;计算机程序指令被处理器执行时实现本发明实施例提供的文本分类方法。
根据本发明实施例的文本结构化模型组件部署方法、装置、设备及存储介质,可以对文本数据进行精细化分类,提高分类的准确性,还可以针对不同用户进行个性化分类。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获取其他的附图。
图1示出本发明实施例提供的树形结构的类目结构的部分示意图;
图2示出本发明实施例提供的用户所选择的类目的示意图;
图3示出本发明实施例提供的个性化类目树的示意图;
图4示出了本发明实施例提供的文本结构化模型组件部署方法及文本分类方法的一种应用场景的示意图;
图5示出了本发明实施例提供的文本结构化模型组件部署方法的流程示意图;
图6示出了本发明实施例提供的文本结构化模型组件部署装置的流程示意图;
图7示出了能够实现根据本发明实施例的文本结构化模型组件部署方法及装置的计算设备的示例性硬件架构的结构图;
图8示出了本发明实施例提供的文本分类方法的流程示意图;
图9示出了本发明实施例提供的文本分类装置的流程示意图;
图10示出了能够实现根据本发明实施例的文本分类方法及装置的计算设备的示例性硬件架构的结构图。
具体实施方式
下面将详细描述本发明的各个方面的特征和示例性实施例,为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本发明,并不被配置为限定本发明。对于本领域技术人员来说,本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
目前的文本分类仅能进行粗粒度的分类,而不能更精细化的分类。另外,目前的类目都是产品提供方已经定义好的类目,用户没有办法选择其所需求的类目,不能进行个性化分类。
为了解决上述问题,本发明实施例提供一种文本结构化模型组件部署方法、装置、设备及存储介质,来进行更精细化的分类,提高分类的准确性以及个性化分类。
在一个实施例中,可以首先从网络中爬取类目以及类目的上下级关系。比如爬取到的类目有:家用电器、电视、空调、电子设备、手机、相机、家居、厨具、家纺、生活用品、灯具、吸顶灯和吊灯等等;电视和空调的上一级为家用电器,手机和相机的上一级为电子设备,厨具、家纺、生活用品和灯具的上一级为家居,吸顶灯和吊灯的上一级为灯具。
在一个实施例中,可以利用网络爬虫从网络中爬取类目以及类目的上下级关系。网络爬虫是一种按照一定的规则自动地抓取万维网信息的程序或者脚本。
基于爬取到的类目以及类目的上下级关系,构建可供用户进行类目选择的、由多级类目构成的类目结构。
在一个实施例中,该类目结构可以为树形结构。其中,树形结构是指一种数据结构。构建的树形结构的类目结构如图1所示,图1示出本发明实施例提供的树形结构的类目结构的部分示意图。
将该类目结构提供给用户,以便用户在该类目结构中选择类目。
用户从图1所示的树形结构的类目结构中选择类目如图2所示,其中,图2中打“√”的类目为用户选择的类目。基于用户从图1所示的树形结构的类目结构中选择的类目,生成针对用户的个性化类目树如图3所示。
基于该个性化类目树,训练针对用户的包括用于对用户输入的文本数据进行分类的文本分类模型的文本结构化模型组件。
在一个实施例中,在训练针对用户的文本结构化模型组件包括的文本分类模型时,可以采用每层局部分类器(Local Classifier Per Level,LCPL)技术、每节点局部分类器(Local Classifier Per Node,LCPN)或全局分类器(Global Classifier,GC)技术。当然也可以采用其他分类器技术,训练针对用户的文本结构化模型组件包括的文本分类模型。本发明实施例并不对训练针对用户的文本结构化模型组件包括的文本分类模型所采用的分类器进行限定,任何可用的分类器技术均可应用于本发明实施例中。
其中,采用LCPL技术所训练得到的文本分类模型,个性化类目树中每一层类目都对应一个分类器。采用LCPN技术所训练得到的文本分类模型,类目树中每个叶子结点都对应一个分类器。采用GC技术所训练得到的文本分类模型,该文本分类模型对应一个分类器,该分类器完成所有类目的分类。
在一个实施例中,优选可以采用LCPL技术,针对用户在类目结构中所选择的类目中的每层类目进行训练文本分类模型,得到文本分类模型。采用LCPL技术所训练得到的文本分类模型,相较于采用LCPN技术和GC技术所训练得到的文本分类模型。由于采用LCPL技术所训练得到的文本分类模型,个性化类目树中每一层类目都对应一个分类器,能够减少由于上一层类目分类错误,而把错误率传播到下一层类目分类的概率,提高文本分类的准确性。
在一个实施例中,在采用LCPL技术,训练出个性化类目树中每一层类目都对应的一个分类器后,还可以对个性化类目树中每一层类目都对应的一个分类器进行全局调整,以提高文本分类模型分类的准确性。
该文本分类模型训练完成后,可以计算该文本分类模型对应的评价指标。若该文本分类模型对应的评价指标不满足用户需求,则调整训练该分类模型所使用的分类样本,基于调整后的分类样本,重新训练文本分类模型,直至训练出的文本分类模型对应的评价指标满足用户需求。
本发明实施例中的评价指标包括但不限于:准确率、精确率(又称查准率)、召回率(又称查全率)和F值等。其中,准确率为正确被预测的样本占所有样本的比例;精确率为预测为正的样本中真正为正的比例;召回率为所有正样本中被正确预测的比例;F值为精确率和召回率的调和平均数。
在一个实施例中,分类样本可以为用户在类目结构中所选择的类目对应的样本。当然,用户还可以自己提供分类样本。
在一个实施例中,在确定文本分类模型对应的评价指标是否满足用户需求时,可以接收用户输入的其所需求对应的评价指标值。比较计算得到的评价指标值与所接收到的评价指标值,来确定文本分类模型对应的评价指标是否满足用户需求。
在一个实施例中,在确定文本分类模型对应的评价指标是否满足用户需求时,还可以将计算得到的评价指标值展示给用户。用户通过直觉判断文本分类模型对应的评价指标是否满足其自身需求,进而反馈是否满足其自身需求的信息。根据用户反馈的信息来确定文本分类模型对应的评价指标是否满足用户需求。
该文本分类模型训练完成,上线部署包括该文本分类模型的文本结构化模型组件,以供用户调用,进而利用文本结构化模型组件包括的文本分类模型对用户输入的文本数据进行分类。
本发明实施例可以基于由多级类目构成的类目结构以及用户在该类目结构中所选择的类目,训练针对用户的包括文本分类模型的文本结构化模型组件,进而用户可以调用该文本结构化模型组件包括的文本分类模型对其输入的文本数据进行分类,因此能够进行个性化分类,满足用户个性化需求。另外,由于类目结构具有多级类目,因此,能够提供更精细化的分类,提高分类的准确性。
在一个实施例中,文本结构化模型组件还可以包括用于从文本数据中提取关键字的关键字提取模型。相应的,还可以利用文本分类模型预测用于训练关键字提取模型所使用的关键字提取样本所属多个类目中的每个类目的概率;基于预测出的概率以及关键字提取样本,训练关键字提取模型。
示例性,针对关键字提取样本1,假设利用文本分类模型预测出该关键字提取样本1属于家居的概率为100%,属于生活用品的概率为5%,属于灯具的概率为95%,属于吸顶灯的概率为1%,属于吊灯的概率为2%,属于台灯的概率为1%,属于筒灯的概率为91%。针对关键字提取样本2,假设利用文本分类模型预测出该关键字提取样本2属于家居的概率为100%,属于生活用品的概率为95%,属于灯具的概率为5%,属于吸顶灯的概率为1%,属于吊灯的概率为2%,属于台灯的概率为1%,属于筒灯的概率为1%。……,针对关键字提取样本N,假设利用文本分类模型预测出该关键字提取样本N属于家居的概率为100%,属于生活用品的概率为89%,属于灯具的概率为11%,属于吸顶灯的概率为3%,属于吊灯的概率为2%,属于台灯的概率为2.5%,属于筒灯的概率为3.5%。
则基于上述预测出每个关键字样本所属多个类目中的每个类目的概率以及上述N个关键字提取样本,训练关键字提取模型。
本发明实施例的基于关键字提取样本所属多个类目中的每个类目的概率以及关键字提取样本,训练关键字提取模型,相较于基于关键字提取样本以及关键字提取样本所属多个类目中的每个类目的概率中的最大概率,训练用于关键字提取模型,能够充分体现类目的作用,关键字提取时,能够与类目自适应。
在一个实施例中,该关键字提取模型训练完成后,可以计算该关键字提取模型对应的评价指标。若该关键字提取模型对应的评价指标不满足用户需求,则调整训练该关键字提取模型所使用的样本数据,基于调整后的样本数据,重新训练关键字提取模型,直至训练出的关键字提取模型对应的评价指标满足用户需求。
在一个实施例中,在确定关键字提取模型对应的评价指标是否满足用户需求时,可以接收用户输入的其所需求对应的评价指标值。比较计算得到的评价指标值与所接收到的评价指标值,来确定关键字提取模型对应的评价指标是否满足用户需求。
在一个实施例中,在确定关键字提取模型对应的评价指标是否满足用户需求时,还可以将计算得到的评价指标值展示给用户。用户通过直觉判断关键字提取模型对应的评价指标是否满足其自身需求,进而反馈是否满足其自身需求的信息。根据用户反馈的信息来确定关键字提取模型对应的评价指标是否满足用户需求。
在一个实施例中,训练关键字提取模型所使用的关键字提取样本可以为用户从关键字提取样本集合中所选择的样本,关键字提取样本集合包括用于训练关键字提取模型的样本。当然,训练关键字提取模型所使用的样本还可以为用户提供的样本。
当训练关键字提取模型所使用的样本为用户提供的样本时,在训练关键字提取模型之前,需要对用户提供的样本进行标注,比如,将“南方的小米又大又香”中的“小米”标注为:产品词;再比如,将“此款小米手机性能较佳”中的“小米”标注为:品牌词,等等。
可以理解的是,关键字样本数据集合包括的用于训练关键字提取模型的样本已标注。
本发明实施例并不对样本标注的方法进行限定,任何可用的样本标注方法均可应用于本发明实施例中。
该关键字提取模型训练完成,上线部署包括文本分类模型和关键字提取模型的文本结构化模型组件,以供用户调用,进而利用文本结构化模型组件包括的文本分类模型对用户输入的文本数据进行分类,利用关键字提取模型从用户输入的文本数据中提取关键字。利用所提取的关键字对用户输入的数据进行标记。
图4示出了本发明实施例提供的文本结构化模型组件部署方法及文本分类方法的一种应用场景的示意图。该应用场景中可以包括:用户客户端100和服务器200,用户客户端100与服务器200耦合。该应用场景中可以有一个或者多个用户客户端100。
在一个实施例中,用户客户端100可以是可移动设备。例如,可以是手机、平板电脑等。用户客户端100还可以是桌面设备,例如:一体机、电脑等。
在一个实施例中,上述服务器200构建有由多级类目构成的类目结构,包括文本分类模型和关键字提取模型的通用文本结构化模型组件,训练文本分类模型所使用的分类样本和训练关键字提取模型所使用的关键字提取样本。该服务器200上还设置用户接口,通过该用户接口,用户可以调用该通用文本结构化模型组件、从类目结构中选择类目以及调用基于所选择的类目训练得到的针对用户的文本结构化模型组件。
在该实施例中,当用户通过上述用户接口调用服务器200中的通用文本结构化模型组件时,计算该通用文本结构化模型组件包括的文本分类模型和关键字提取模型分别对应的评价指标,若该评价指标满足用户需求,则利用该文本分类模型对用户输入的文本数据进行分类,利用该关键字提取模型从用户输入的文本数据中提取关键字,进而利用提取的关键字对用户输入的文本数据进行标记。若该评价指标不满足用户需求,则调整训练该文本分类模型所使用的分类样本和训练该关键字提取模型所使用的关键字提取样本,基于调整后的分类样本和关键字提取样本,重新训练,直至训练出的文本分类模型和关键字提取模型分别对应的评价指标满足用户需求,利用该文本分类模型对用户输入的文本数据进行分类,利用该关键字提取模型从用户输入的文本数据中提取关键字,进而利用提取的关键字对用户输入的文本数据进行标记。
当用户通过该用户接口从类目结构中选择类目时,基于所选择的类目,训练针对用户的包括文本分类模型和关键字提取模型的个性化文本结构模型,然后计算所训练得到的个性化文本结构模型包括的文本分类模型和关键字提取模型分别对应的评价指标,若该评价指标满足用户需求,则利用该文本分类模型对用户输入的文本数据进行分类,利用该关键字提取模型从用户输入的文本数据中提取关键字,进而利用提取的关键字对用户输入的文本数据进行标记。若该评价指标不满足用户需求,则调整训练该文本分类模型所使用的分类样本和训练该关键字提取模型所使用的关键字提取样本,基于调整后的分类样本和关键字提取样本,重新训练,直至训练出的文本分类模型和关键字提取模型分别对应的评价指标满足用户需求,利用该文本分类模型对用户输入的文本数据进行分类,利用该关键字提取模型从用户输入的文本数据中提取关键字,进而利用提取的关键字对用户输入的文本数据进行标记。
在一个实施例中,利用该关键字提取模型从用户输入的文本数据中提取关键字时,可以利用针对用户的个性化文本结构模型中的文本分类模型预测用户输入的文本数据所属多个类目中的每个类目的概率,基于所预测得到的概率与该关键字提取模型,从用户输入的文本数据中提取关键字。
利用针对用户的个性化文本结构模型中的文本分类模型预测用户输入的文本数据所属多个类目中的每个类目的概率与上述利用文本分类模型预测用于训练关键字提取模型所使用的关键字提取样本所属多个类目中的每个类目的概率的过程相似,本发明实施例在此不对其进行赘述。
下面结合图5,描述根据本发明另一实施例的文本结构化模型组件部署方法。图5示出了本发明实施例提供的文本结构化模型组件部署方法的流程示意图。如图5所示,文本结构化模型组件部署方法500,可以包括:
步骤S510,向用户提供由多级类目构成的类目结构。
步骤S520,基于用户在类目结构中所选择的类目,训练针对用户的文本结构化模型组件。
文本结构化模型组件至少包括用于对用户输入的文本数据进行分类的文本分类模型。
步骤S530,部署文本结构化模型组件,以供用户调用。
在一个实施例中,步骤S510具体可以包括:
从网络中爬取类目以及类目的上下级关系;基于类目以及类目的上下级关系,构建类目结构;向用户提供类目结构。
在一个实施例中,步骤S520具体可以包括:
采用每层局部分类器LCPL技术,针对用户在类目结构中所选择的类目中的每层类目进行训练,得到文本分类模型。
在一个实施例中,文本结构化模型组件部署方法500还可以包括:
计算文本分类模型对应的评价指标;
若评价指标不满足用户需求,调整训练文本分类模型所使用的分类样本;
基于调整后的分类样本,重新训练文本分类模型,直至评价指标满足用户需求。
在一个实施例中,分类样本为用户在类目结构中所选择的类目对应的样本,和/或,用户提供的样本。
在一个实施例中,文本结构化模型组件还包括用于从文本数据中提取关键字的关键字提取模型;步骤S520还可以包括:
利用文本分类模型预测用于训练关键字提取模型所使用的关键字提取样本所属多个类目中的每个类目的概率;
基于概率以及关键字提取样本,训练关键字提取模型。
在一个实施例中,文本结构化模型组件部署方法500还可以包括:
计算关键字提取模型对应的评价指标;
若评价指标不满足用户需求,调整训练关键字提取模型所使用的关键字提取样本;
基于调整后的关键字提取样本,重新训练关键字提取模型,直至评价指标满足用户需求。
在一个实施例中,关键字提取样本为用户从关键字提取样本集合中所选择的样本,和/或,用户提供的样本;关键字提取样本集合包括用于训练关键字提取模型的样本。
在一个实施例中,类目结构为树形结构。
图6示出了根据本发明一实施例提供的文本结构化模型组件部署装置的结构示意图。如图6所示,文本结构化模型组件部署装置600可以包括:
提供模块610,用于向用户提供由多级类目构成的类目结构。
训练模块620,用于基于用户在类目结构中所选择的类目,训练针对用户的文本结构化模型组件。
文本结构化模型组件至少包括用于对用户输入的文本数据进行分类的文本分类模型。
部署模块630,用于部署文本结构化模型组件,以供用户调用。
在一个实施例中,提供模块610具体用于:
从网络中爬取类目以及类目的上下级关系;
基于类目以及类目的上下级关系,构建类目结构;
向用户提供类目结构。
在一个实施例中,训练模块620具体用于:
采用每层局部分类器LCPL技术,针对用户在类目结构中所选择的类目中的每层类目进行训练,得到文本分类模型。
在一个实施例中,训练模块620还用于:
计算文本分类模型对应的评价指标;
若评价指标不满足用户需求,调整训练文本分类模型所使用的分类样本;
基于调整后的分类样本,重新训练文本分类模型,直至评价指标满足用户需求。
在一个实施例中,分类样本为用户在类目结构中所选择的类目对应的样本,和/或,用户提供的样本。
在一个实施例中,文本结构化模型组件还包括用于从文本数据中提取关键字的关键字提取模型;训练模块620还用于:
利用文本分类模型预测用于训练关键字提取模型所使用的关键字提取样本所属多个类目中的每个类目的概率;
基于概率以及关键字提取样本,训练关键字提取模型。
在一个实施例中,训练模块620还用于:
计算关键字提取模型对应的评价指标;
若评价指标不满足用户需求,调整训练关键字提取模型所使用的关键字提取样本;
基于调整后的关键字提取样本,重新训练关键字提取模型,直至评价指标满足用户需求。
在一个实施例中,关键字提取样本为用户从关键字提取样本集合中所选择的样本,和/或,用户提供的样本;关键字提取样本集合包括用于训练关键字提取模型的样本。
在一个实施例中,类目结构为树形结构。
图7示出了能够实现根据本发明实施例的文本结构化模型组件部署方法及装置的计算设备的示例性硬件架构的结构图。如图7所示,计算设备700包括输入设备701、输入接口702、中央处理器703、存储器704、输出接口705、以及输出设备706。其中,输入接口702、中央处理器703、存储器704、以及输出接口705通过总线710相互连接,输入设备701和输出设备706分别通过输入接口702和输出接口705与总线710连接,进而与计算设备700的其他组件连接。具体地,输入设备701接收来自外部的输入信息,并通过输入接口702将输入信息传送到中央处理器703;中央处理器703基于存储器704中存储的计算机可执行指令对输入信息进行处理以生成输出信息,将输出信息临时或者永久地存储在存储器704中,然后通过输出接口705将输出信息传送到输出设备706;输出设备706将输出信息输出到计算设备700的外部供用户使用。
也就是说,图7所示的计算设备也可以被实现为文本结构化模型组件部署设备,该文本结构化模型组件部署设备可以包括:存储有计算机可执行指令的存储器,以及处理器;该处理器在执行计算机可执行指令时可以实现结合图1至图6描述的文本结构化模型组件部署方法及装置。
本发明实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现本发明实施例提供的文本结构化模型组件部署方法。
下面结合图8,描述根据本发明另一实施例的文本分类方法。图8示出了本发明实施例提供的文本分类方法的流程示意图。如图8所示,文本分类方法800,可以包括:
步骤S810:调用包括文本分类模型的文本结构化模型组件。
文本分类模型用于对目标用户输入的文本数据进行分类,文本结构化模型组件为基于目标用户从由多级类目结构的类目结构中所选择的类目训练得到的。
步骤S820:利用文本分类模型对目标用户输入的文本数据进行分类。
在一个实施例中,文本结构化模型组件还包括用于从文本数据中提取关键字的关键字提取模型;文本分类方法800还包括:
利用文本分类模型预测文本数据所属多个类目中的每个类目的概率;
基于概率以及关键字提取模型,从文本数据中提取关键字。
在一个实施例中,文本分类方法800还包括:
利用关键字对文本数据进行标记。
图9示出了根据本发明一实施例提供的文本分类装置的结构示意图。如图9所示,文本分类装置900可以包括:
调用模块910,用于调用包括文本分类模型的文本结构化模型组件。
文本分类模型用于对目标用户输入的文本数据进行分类,文本结构化模型组件为基于目标用户从由多级类目结构的类目结构中所选择的类目训练得到的。
分类模块920,用于利用文本分类模型对目标用户输入的文本数据进行分类。
在一个实施例中,文本结构化模型组件还包括用于从文本数据中提取关键字的关键字提取模型;文本分类装置900还包括:
预测模块,用于利用文本分类模型预测文本数据所属多个类目中的每个类目的概率;
提取模块,用于基于概率以及关键字提取模型,从文本数据中提取关键字。
在一个实施例中,文本分类装置900还包括:
标记模块,用于利用关键字对文本数据进行标记。
图10示出了能够实现根据本发明实施例的文本分类方法及装置的计算设备的示例性硬件架构的结构图。如图10所示,计算设备1000包括输入设备1001、输入接口1002、中央处理器1003、存储器1004、输出接口1005、以及输出设备1006。其中,输入接口1002、中央处理器1003、存储器1004、以及输出接口1005通过总线1010相互连接,输入设备1001和输出设备1006分别通过输入接口1002和输出接口1005与总线1010连接,进而与计算设备1000的其他组件连接。具体地,输入设备1001接收来自外部的输入信息,并通过输入接口1002将输入信息传送到中央处理器1003;中央处理器1003基于存储器1004中存储的计算机可执行指令对输入信息进行处理以生成输出信息,将输出信息临时或者永久地存储在存储器1004中,然后通过输出接口1005将输出信息传送到输出设备1006;输出设备1006将输出信息输出到计算设备1000的外部供用户使用。
也就是说,图10所示的计算设备也可以被实现为文本分类设备,该文本分类设备可以包括:存储有计算机可执行指令的存储器,以及处理器;该处理器在执行计算机可执行指令时可以实现结合图4、图8和图9描述的文本分类方法及装置。
本发明实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现本发明实施例提供的文本分类方法。
需要明确的是,本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本发明中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本发明不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
以上所述,仅为本发明的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。
Claims (21)
1.一种文本结构化模型组件部署方法,包括:
向用户提供由多级类目构成的类目结构;
基于所述用户在所述类目结构中所选择的类目,训练针对所述用户的文本结构化模型组件,所述文本结构化模型组件至少包括用于对所述用户输入的文本数据进行分类的文本分类模型;
部署所述文本结构化模型组件,以供所述用户调用。
2.根据权利要求1所述的文本结构化模型组件部署方法,所述向用户提供由多级类目构成的类目结构,包括:
从网络中爬取类目以及类目的上下级关系;
基于所述类目以及所述类目的上下级关系,构建所述类目结构;
向所述用户提供所述类目结构。
3.根据权利要求1所述的文本结构化模型组件部署方法,所述基于所述用户在所述类目结构中所选择的类目,训练针对所述用户的文本结构化模型组件,包括:
采用每层局部分类器LCPL技术,针对所述用户在所述类目结构中所选择的类目中的每层类目进行训练,得到所述文本分类模型。
4.根据权利要求1所述的文本结构化模型组件部署方法,还包括:
计算所述文本分类模型对应的评价指标;
若所述评价指标不满足用户需求,调整训练所述文本分类模型所使用的分类样本;
基于调整后的分类样本,重新训练所述文本分类模型,直至所述评价指标满足所述用户需求。
5.根据权利要求4所述的文本结构化模型组件部署方法,其中,
所述分类样本为所述用户在所述类目结构中所选择的类目对应的样本,和/或,所述用户提供的样本。
6.根据权利要求1所述的文本结构化模型组件部署方法,所述文本结构化模型组件还包括用于从所述文本数据中提取关键字的关键字提取模型;
所述基于所述用户在所述类目结构中所选择的类目,训练针对所述用户的文本结构化模型组件,还包括:
利用所述文本分类模型预测用于训练所述关键字提取模型所使用的关键字提取样本所属多个类目中的每个类目的概率;
基于所述概率以及所述关键字提取样本,训练所述关键字提取模型。
7.根据权利要求6所述的文本结构化模型组件部署方法,还包括:
计算所述关键字提取模型对应的评价指标;
若所述评价指标不满足用户需求,调整训练所述关键字提取模型所使用的关键字提取样本;
基于调整后的关键字提取样本,重新训练所述关键字提取模型,直至所述评价指标满足所述用户需求。
8.根据权利要求6所述的文本结构化模型组件部署方法,其中,
所述关键字提取样本为所述用户从关键字提取样本集合中所选择的样本,和/或,所述用户提供的样本;所述关键字提取样本集合包括用于训练关键字提取模型的样本。
9.根据权利要求1所述的文本结构化模型组件部署方法,所述类目结构为树形结构。
10.一种文本分类方法,包括:
调用包括文本分类模型的文本结构化模型组件,所述文本分类模型用于对目标用户输入的文本数据进行分类,所述文本结构化模型组件为基于所述目标用户从由多级类目构成的类目结构中所选择的类目训练得到的;
利用所述文本分类模型对所述目标用户输入的文本数据进行分类。
11.根据权利要求10所述的文本分类方法,所述文本结构化模型组件还包括用于从所述文本数据中提取关键字的关键字提取模型;
所述方法还包括:
利用所述文本分类模型预测所述文本数据所属多个类目中的每个类目的概率;
基于所述概率以及所述关键字提取模型,从所述文本数据中提取关键字。
12.根据权利要求11所述的文本分类方法,还包括:
利用所述关键字对所述文本数据进行标记。
13.一种文本结构化模型组件部署装置,包括:
提供模块,用于向用户提供由多级类目构成的类目结构;
训练模块,用于基于所述用户在所述类目结构中所选择的类目,训练针对所述用户的文本结构化模型组件,所述文本结构化模型组件至少包括用于对所述用户输入的文本数据进行分类的文本分类模型;
部署模块,用于部署所述文本结构化模型组件,以供所述用户调用。
14.根据权利要求13所述的文本结构化模型组件部署装置,所述文本结构化模型组件还包括用于从所述文本数据中提取关键字的关键字提取模型;
所述训练模块还用于:
利用所述文本分类模型预测用于训练所述关键字提取模型所使用的关键字提取样本所属多个类目中的每个类目的概率;
基于所述概率以及所述关键字提取样本,训练所述关键字提取模型。
15.一种文本分类装置,装置包括:
调用模块,用于调用包括文本分类模型的文本结构化模型组件,所述文本分类模型用于对目标用户输入的文本数据进行分类,所述文本结构化模型组件为基于所述目标用户从由多级类目构成的类目结构中所选择的类目训练得到的;
分类模块,用于利用所述文本分类模型对所述目标用户输入的文本数据进行分类。
16.根据权利要求15所述的文本分类装置,所述文本结构化模型组件还包括用于从所述文本数据中提取关键字的关键字提取模型;
所述装置还包括:
预测模块,用于利用所述文本分类模型预测所述文本数据所属多个类目中的每个类目的概率;
提取模块,用于基于所述概率以及所述关键字提取模型,从所述文本数据中提取关键字。
17.根据权利要求16所述的文本分类装置,所述装置还包括:
标记模块,用于利用所述关键字对所述文本数据进行标记。
18.一种文本结构化模型组件部署设备,包括:存储器和处理器;
所述存储器用于存储可执行程序代码;
所述处理器用于读取所述存储器中存储的可执行程序代码以执行权利要求1-9任意一项所述的文本结构化模型组件部署方法。
19.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序指令;所述计算机程序指令被处理器执行时实现如权利要求1-9任意一项所述的文本结构化模型组件部署方法。
20.一种文本分类设备,包括:存储器和处理器;
所述存储器用于存储可执行程序代码;
所述处理器用于读取所述存储器中存储的可执行程序代码以执行权利要求10-12任意一项所述的文本分类方法。
21.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序指令;所述计算机程序指令被处理器执行时实现如权利要求10-12任意一项所述的文本分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811123180.7A CN110955772B (zh) | 2018-09-26 | 2018-09-26 | 文本结构化模型组件部署方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811123180.7A CN110955772B (zh) | 2018-09-26 | 2018-09-26 | 文本结构化模型组件部署方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110955772A true CN110955772A (zh) | 2020-04-03 |
CN110955772B CN110955772B (zh) | 2023-06-06 |
Family
ID=69964341
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811123180.7A Active CN110955772B (zh) | 2018-09-26 | 2018-09-26 | 文本结构化模型组件部署方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110955772B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114328797A (zh) * | 2021-11-09 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 内容搜索方法、装置、电子设备、存储介质及程序产品 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004334766A (ja) * | 2003-05-12 | 2004-11-25 | Oki Electric Ind Co Ltd | 単語分類装置、単語分類方法及び単語分類プログラム |
US20100169243A1 (en) * | 2008-12-27 | 2010-07-01 | Kibboko, Inc. | Method and system for hybrid text classification |
CN102236663A (zh) * | 2010-04-30 | 2011-11-09 | 阿里巴巴集团控股有限公司 | 一种基于垂直搜索的查询方法、系统和装置 |
CN103310343A (zh) * | 2012-03-15 | 2013-09-18 | 阿里巴巴集团控股有限公司 | 商品信息发布方法和装置 |
CN103914478A (zh) * | 2013-01-06 | 2014-07-09 | 阿里巴巴集团控股有限公司 | 网页训练方法及系统、网页预测方法及系统 |
CN104063383A (zh) * | 2013-03-19 | 2014-09-24 | 北京三星通信技术研究有限公司 | 信息推荐方法及装置 |
US20150019569A1 (en) * | 2011-11-04 | 2015-01-15 | BigML, Inc. | Interactive visualization of big data sets and models including textual data |
CN107301225A (zh) * | 2017-06-20 | 2017-10-27 | 挖财网络技术有限公司 | 短文本分类方法及装置 |
-
2018
- 2018-09-26 CN CN201811123180.7A patent/CN110955772B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004334766A (ja) * | 2003-05-12 | 2004-11-25 | Oki Electric Ind Co Ltd | 単語分類装置、単語分類方法及び単語分類プログラム |
US20100169243A1 (en) * | 2008-12-27 | 2010-07-01 | Kibboko, Inc. | Method and system for hybrid text classification |
CN102236663A (zh) * | 2010-04-30 | 2011-11-09 | 阿里巴巴集团控股有限公司 | 一种基于垂直搜索的查询方法、系统和装置 |
US20150019569A1 (en) * | 2011-11-04 | 2015-01-15 | BigML, Inc. | Interactive visualization of big data sets and models including textual data |
CN103310343A (zh) * | 2012-03-15 | 2013-09-18 | 阿里巴巴集团控股有限公司 | 商品信息发布方法和装置 |
CN103914478A (zh) * | 2013-01-06 | 2014-07-09 | 阿里巴巴集团控股有限公司 | 网页训练方法及系统、网页预测方法及系统 |
CN104063383A (zh) * | 2013-03-19 | 2014-09-24 | 北京三星通信技术研究有限公司 | 信息推荐方法及装置 |
CN107301225A (zh) * | 2017-06-20 | 2017-10-27 | 挖财网络技术有限公司 | 短文本分类方法及装置 |
Non-Patent Citations (1)
Title |
---|
樊康新;: "基于多种特征选择的NB组合文本分类器设计" * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114328797A (zh) * | 2021-11-09 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 内容搜索方法、装置、电子设备、存储介质及程序产品 |
CN114328797B (zh) * | 2021-11-09 | 2024-03-19 | 腾讯科技(深圳)有限公司 | 内容搜索方法、装置、电子设备、存储介质及程序产品 |
Also Published As
Publication number | Publication date |
---|---|
CN110955772B (zh) | 2023-06-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10783206B2 (en) | Method and system for recommending text content, and storage medium | |
CN106027614B (zh) | 信息推送的方法、装置和系统 | |
CN102567511B (zh) | 一种应用自动推荐的方法及装置 | |
TWI703862B (zh) | 內容推薦方法及裝置 | |
US20160188169A1 (en) | Least touch mobile device | |
CN103455559A (zh) | 一种应用自动推荐的方法及装置 | |
US10671615B2 (en) | Methods and systems for assigning affinity scores to contacts | |
US10504028B1 (en) | Techniques to use machine learning for risk management | |
CN110909222B (zh) | 基于聚类的用户画像建立方法、装置、介质及电子设备 | |
CN104598511A (zh) | 搜索结果推荐方法、装置及系统 | |
US11048764B2 (en) | Managing under—and over-represented content topics in content pools | |
CN105531701A (zh) | 个性化趋势图像搜索建议 | |
CN111339406B (zh) | 个性化推荐方法、装置、设备及存储介质 | |
US20180300414A1 (en) | Techniques for ranking of selected bots | |
CN110059172B (zh) | 基于自然语言理解的推荐答案的方法和装置 | |
CN117273003B (zh) | 文本数据处理方法、模型训练方法以及命名实体识别方法 | |
CN114547439A (zh) | 基于大数据和人工智能的业务优化方法及电子商务ai系统 | |
CN110955772B (zh) | 文本结构化模型组件部署方法、装置、设备及存储介质 | |
CN113327151A (zh) | 商品对象推荐方法、装置、计算机设备及存储介质 | |
CN111241225A (zh) | 常驻区域变更的判断方法、装置、设备及存储介质 | |
CN113326436B (zh) | 确定推荐资源的方法、装置、电子设备和存储介质 | |
WO2021204039A1 (zh) | 用于推送信息的方法和装置 | |
EP4348525A1 (en) | Machine learning aided automatic taxonomy for marketing automation and customer relationship management systems | |
CN113792952A (zh) | 用于生成模型的方法和装置 | |
CN115082844A (zh) | 相似人群扩展方法、装置、电子设备和可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |