CN114579740A - 文本分类方法、装置、电子设备及存储介质 - Google Patents

文本分类方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114579740A
CN114579740A CN202210083811.7A CN202210083811A CN114579740A CN 114579740 A CN114579740 A CN 114579740A CN 202210083811 A CN202210083811 A CN 202210083811A CN 114579740 A CN114579740 A CN 114579740A
Authority
CN
China
Prior art keywords
text
sentence
sample
target
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210083811.7A
Other languages
English (en)
Other versions
CN114579740B (zh
Inventor
吕乐宾
蒋宁
王洪斌
吴海英
权佳成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mashang Xiaofei Finance Co Ltd
Original Assignee
Mashang Xiaofei Finance Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mashang Xiaofei Finance Co Ltd filed Critical Mashang Xiaofei Finance Co Ltd
Priority to CN202210083811.7A priority Critical patent/CN114579740B/zh
Publication of CN114579740A publication Critical patent/CN114579740A/zh
Application granted granted Critical
Publication of CN114579740B publication Critical patent/CN114579740B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本申请公开一种文本分类方法、装置、电子设备及存储介质,包括:将待识别文本输入到预先根据预训练模型训练而得到的文本分类模型。在文本分类模型中,确定待识别文本的目标主类别,再确定与目标主类别对应的文本识别算法。在文本分类模型内,根据文本识别算法确定待识别文本是否属于目标子类别并得到分类结果。本申请实施例中到的文本分类模型在确定待识别文本的主类别后,再根据该主类别对应的算法确定待识别文本所属的文本子类别。本申请中的文本分类模型具有区分不同主类别类型文本的特征,因此能够更加准确地识别出多个主类别文本的子类别。

Description

文本分类方法、装置、电子设备及存储介质
技术领域
本申请涉及人工智能技术领域,尤其涉及一种文本分类方法、装置、电子设备及存储介质。
背景技术
文本分类广泛应用在资源推送/查询场景中,例如新闻资讯、论文等不同类别的文本内容的推送/查询。实践中发现文本分类的准确度较低,资源推送/查询的效率低,给用户带来的体验较差。因此,如何提高文本分类的准确度是现有技术中亟待解决的技术问题。
发明内容
鉴于上述问题,本申请提出了一种文本分类方法、装置、电子设备及存储介质,能解决上述问题。
第一方面,本申请实施例提供了一种文本分类方法,所述方法包括:获取待识别文本;将所述待识别文本输入文本分类模型进行分类处理,输出分类结果;其中,在所述分类处理中,所述文本分类模型具体用于:确定待识别文本的目标主类别;根据文本识别算法确定所述待识别文本是否属于目标子类别,得到所述分类结果,所述文本识别算法与所述目标主类别相对应。
可以看出,在本申请实施例中,由于文本识别算法与目标主类别相对应,所以在确定待识别文本是否属于子类别的时候,所使用的文本识别算法是根据待识别文本的主类别类型而确定的,从而能够避免针对所有类型的文本,在确定该文本是否为目标子类别的时候,都使用相同的文本识别算法进行分类,进而能够提高分类的准确度。
第二方面,本申请实施例提供了一种文本分类模型的训练方法,所述方法包括:获取训练数据集,所述训练数据集包括多个样本文本、多个主类别以及目标子类别的判定标签,其中,每个样本文本对应于一个主类别和一个判定标签,每个主类别对应一个判定标签;将所述训练数据集输入预训练模型中进行迭代训练,得到文本分类模型;其中,在每次迭代训练过程中,所述预训练模型具体用于:确定每个所述样本文本的预测主类别;根据预测识别算法确定每个所述样本文本是否属于所述目标子类别,得到预测结果,所述预测识别算法与所述预测主类别相对应;当所述预测主类别与该样本文本对应的主类别之间的误差小于第一预设误差,并且所述预测结果与该样本文本对应的判定标签之间的误差小于第二预设误差,完成迭代训练,得到所述文本分类模型。
可以看出,在本申请实施例中,每次迭代训练中可以得到预训练模型对样本文本预测的预测主类别,以及属于/不属于目标子类别的预测结果,其中,预测结果可以使用预测主类别对应的预测识别算法来确定。最后,将模型预测的预测主类别和预测结果与标注的主类别和判别标签分别进行比较,得出预测的误差,通过不断调整预训练模型的参数,使识别误差减小,最终完成迭代训练。这样,由于不同的预测识别算法对应不同的预测主类别,因此本申请针对性地对不同的预测主类别使用不同的预测识别算法进行目标子类别的识别,在迭代训练的过程中,可以使预训练模型逐渐能够区分各个目标主类别的文本,降低预测值与标准值之间的误差,使训练完成的文本分类模型能够更加准确地识别出多个目标主类别文本的子类别。
第三方面,本申请实施例提供了一种文本分类装置,所述装置包括:文本获取模块以及分类处理模块。其中,文本获取模块用于获取待识别文本;分类处理模块用于将所述待识别文本输入文本分类模型进行分类处理,输出分类结果;其中,在所述分类处理中,所述文本分类模型具体用于:确定待识别文本的目标主类别;根据文本识别算法确定所述待识别文本是否属于目标子类别,得到所述分类结果,所述文本识别算法与所述目标主类别相对应。
第四方面,本申请实施例提供了一种文本分类模型的训练装置,所述装置包括:样本获取模块以及迭代训练模块。其中,样本获取模块用于获取训练数据集,所述训练数据集包括多个样本文本、多个主类别以及目标子类别的判定标签,其中,每个样本文本对应于一个主类别和一个判定标签,每个主类别对应一个判定标签;迭代训练模块用于将所述训练数据集输入预训练模型中进行迭代训练,得到文本分类模型;其中,在每次迭代训练过程中,所述预训练模型具体用于:确定每个所述样本文本的预测主类别;根据预测识别算法确定每个所述样本文本是否属于所述目标子类别,得到预测结果,所述预测识别算法与所述预测主类别相对应;当所述预测主类别与该样本文本对应的主类别之间的误差小于第一预设误差,并且所述预测结果与该样本文本对应的判定标签之间的误差小于第二预设误差,停止迭代训练,得到所述文本分类模型。
第五方面,本申请实施例提供了一种电子设备,包括:一个或多个处理器;存储器;一个或多个应用程序,其中,所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个应用程序配置用于执行上述方法。
第六方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有程序代码,所述程序代码可被处理器调用执行上述方法。
第七方面,本申请实施例提供了一种包含指令的计算机程序产品,其特征在于,所述计算机程序产品中存储有指令,当其在计算机上运行时,使得计算机实现上述方法。
可以看出,在本申请实施例中,目标主类别所涉及的文本各自具有不同的特点,因此可以先使用预训练模型训练而得到文本分类模型识别出待识别文本的目标主类别,在文本分类模型中确定待识别文本是否属于子类别的时候,对包含不同目标主类别的待识别文本使用不同的文本识别算法。所使用的文本识别算法是根据待识别文本的主类别类型而确定的,从而能够避免针对所有类型的文本,在确定该文本是否为目标子类别的时候,都使用相同的文本识别算法进行分类,进而能够提高分类的准确度。
本申请的这些方面或其他方面在以下实施例的描述中会更加简明易懂。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请一实施例提供的文本分类方法的一种应用环境示意图;
图2示出了本申请一实施例提供的文本分类方法的流程示意图;
图3示出了本申请又一实施例提供的文本分类方法的流程示意图;
图4示出了本申请一实施例提供的一种文本分类模型的处理过程示意图;
图5示出了本申请又一实施例提供的第一目标文本的示意图;
图6示出了本申请另一实施例提供的文本分类方法的流程示意图;
图7示出了本申请一实施例提供的文本分类模型的训练方法的流程示意图;
图8示出了本申请一实施例提供的训练数据集的示意图;
图9示出了本申请又一实施例提供的文本分类模型的训练方法的流程示意图;
图10示出了本申请另一实施例提供的文本分类模型的训练方法的流程示意图;
图11示出了本申请又一实施例提供的文本分类模型的处理过程示意图。
图12示出了本申请一实施例提供的文本分类装置的模块框图;
图13示出了本申请一实施例提供的文本分类模型的训练装置的模块框图;
图14示出了本申请一实施例提供的电子设备的结构框图;
图15示出了本申请一实施例提供的计算机可读存储介质的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
自然语言处理(Natural Language Processing,NLP)以语言为对象,利用计算机技术来分析、理解和处理自然语言的一门学科,其把计算机作为语言研究的强大工具,在计算机的支持下对语言信息进行定量化的研究,并提供可供人与计算机之间能共同使用的语言描写。包括自然语言理解(Natural Language Understanding,NLU)和自然语言生成(Natural Language Generation,NLG)两部分。
文本分类广泛应用在资源推送/查询场景中,例如新闻资讯推送/查询、论文查询等。文本分类中的一个重要环节是自然语言理解,通过自然语言理解技术来使计算机设备理解文本的语义,以此为基础进行文本分类。相关技术中存在文本分类准确度较低的问题,如果是在内容推荐的场景下,文本分类的准确率低会出现向用户推荐的内容无法满足用户的需求的情况,给用户带来的体验较差。
为解决上述问题,本申请发明人经过仔细研究后发现,各个领域的文本内容通常包含不同的主类别的知识,具有不同的特征,若仅仅使用一种固定算法的模型来识别各个主类别的文本内容的子类别,分类结果存在很大的误差。此外,当需要对新主类别的文本内容进行识别时,就要重新构建大量新主类别类型的数据集来训练模型,这一过程费时费力。
因此,发明人提出,可以首先使文本分类模型识别出待识别文本的主类别,再根据主类别对应的文本识别算法来确定待识别文本的子类别,由此可以使文本分类模型在确定了待识别文本的主类别后,再根据该主类别对应的文本算法确定待识别文本所属的文本类别。由于文本识别算法与目标主类别相对应,所以在确定待识别文本是否属于子类别的时候,所使用的文本识别算法是根据待识别文本的主类别类型而确定的,从而能够避免针对所有类型的文本,在确定该文本是否为目标子类别的时候,都使用相同的文本识别算法进行分类,进而能够提高分类的准确度。
为了更好理解本申请实施例提供的一种文本分类方法、装置、电子设备及存储介质,下面先对适用于本申请实施例的应用环境进行描述。
请参阅图1,图1示出了本申请一实施例提供的文本分类方法的一种应用环境示意图。示例性地,本申请实施例提供的文本分类方法、装置、电子设备及存储介质可以应用电子设备,其中,电子设备可以是如图1中所示的服务器110,服务器110可以通过网络120与终端设备(如图1中所示智能手机131、平板电脑132和便携式计算机133中的一种或多种,当然也可以是台式计算机等)相连。其中,网络120用以在服务器110和终端设备之间提供通信链路的介质。网络可以包括各种连接类型,例如有线通信链路、无线通信链路等等,本申请实施例对此不作限制。可选地,在另一些实施例中,电子设备也可以是智能手机、笔记本电脑等等。
应该理解,图1中的服务器110、网络120和终端设备数目仅仅是示意性的。根据实现需要,可以具有任意数目的服务器、网络和终端设备。示例性地,服务器110可以是物理服务器,也可以是由多个服务器组成的服务器集群等。可以理解的是,本申请的实施例还可以允许多台终端设备同时接入服务器110。
在本申请的一些实施例中,该文本分类方法可以由服务器110执行。在一些实施例中,终端设备可以通过网络120向服务器110发送文本数据,在服务器110接收到这些文本数据后,可以通过本申请实施例所述的文本分类方法对这些文本数据进行分类。可选地,服务器110还可以接收终端设备发送的语音数据或包含文本的图片数据等,服务器110将这些语音数据或图片数据识别为文本后,再对这些文本进行分类。
例如,在用户通过终端设备浏览新闻网站时,可以将浏览的新闻页面发送给服务器110,然后服务器110可以通过识别该新闻页面内的文字、图像等内容,识别出该新闻页面所显示的新闻的类型,例如可以识别为军事新闻、财经新闻、体育新闻、金融科技新闻等等。进一步地,可以通过分析用户经常浏览的新闻类型,对用户进行精准地新闻推荐等等。除此之外,本方法还可以用于检测图像或音频,例如根据图像中的文本内容对图像进行分类或者对音频内容进行分类等等。
上述应用环境仅为方便理解所作的示例,可以理解的是,本申请实施例不仅局限于上述应用环境。
下面将通过具体实施例对本申请实施例提供的文本分类方法、装置、电子设备及存储介质进行详细说明。
请参阅图2,其示出了本申请一实施例提供的文本分类方法的流程示意图。下面将针对图2所示的流程进行详细的阐述,所述文本分类方法具体可以包括如下步骤:
步骤S210:获取待识别文本。
在一些实施例中,待识别文本可以包括图像、视频、音频或文字等等类型的数据。其中,待分类数据可从终端设备中获取。可选地,待分类数据可以用户通过终端设备浏览的新闻页面、文章、论文等等文本数据。可选地,待识别文本也可以是由终端设备获取的用户输入的文本数据。
可以理解的是,若待识别文本为图像、视频或音频类型的数据,则可以识别出其中的文本数据后,再对待识别数据中的文本数据进行分类。
步骤S220:将所述待识别文本输入文本分类模型进行分类处理,输出分类结果。其中,在所述分类处理中,所述文本分类模型具体用于:确定待识别文本的目标主类别;根据文本识别算法确定所述待识别文本是否属于目标子类别,得到所述分类结果,所述文本识别算法与所述目标主类别相对应。
在本申请的实施例中,可以使用文本分类模型来对待识别模型进行分类处理。其中,本申请实施例中的文本分类模型可以预先根据预训练模型训练而得到。
预训练通过自监督学习可以从大规模数据中获得与具体任务无关的预训练模型。通过预训练模型对文本数据提取的特征可以体现某一个词在一个特定上下文中的语义表征。预训练模型的训练数据可以是文本、文本-图像对、文本-视频对等等。预训练模型的训练方法可使用自监督学习技术(如自回归的语言模型和自编码技术)。预训练模型利用大量的文本,学习输入句子内每个词的上下文相关的表示,由此可以学习到通用的语法语义知识。通过预训练模型训练而来的文本分类模型也可以学习到文本中上下文相关的语义特征,对文本的理解更加透彻,因此在进行分类处理时可得到更加准确的分类结果。
可选地,在本实施例的分类处理的过程中,文本分类模型可以用于确定待识别文本的目标主类别,接着根据文本识别算法确定待识别文本是否属于目标子类别,得到分类结果,其中,文本识别算法与目标主类别相对应。
在本实施例中,不同的目标主类别涉及不同领域的知识,具有不同的文本描述方式。可以理解的是,在对不同领域的文本内容进行识别时,若仅仅使用一种固定算法的模型来识别各个领域的文本内容的类别,分类结果将存在很大的误差。此外,当需要对新领域的文本内容进行识别时,需要重新构建大量新领域的数据集来训练模型,这一过程费时费力。
因此,在本申请的实施例中,在将待识别文本输入到上述文本分类模型后,在该文本分类模型中,首先可以识别出待识别文本的目标主类别,即确定该待识别文本涉及的领域,进而确定该待识别文本涉及的领域知识和文本描述方式。因此,在文本分类模型进一步对待识别文本进行分类时,可以利用该领域知识和文本描述方式得出该待识别文本的文本子类别,从而得到分类结果。
在本申请实施例中的文本分类模型中,可以根据目标主类别确定文本识别算法。在一些实施例中,对属于不同目标主类别的待识别文本,可以采用不同的文本识别算法。可选地,由于每种目标主类别涉及不同的领域知识且具有不同的文本描述方式,因此,确定了目标主类别,即确定了该待识别文本所及的领域知识和文本描述方式,进而可以对包含不同领域知识和文本描述方式的待识别文本使用不同的文本识别算法。
示例性地,以金融新闻为例,金融新闻所涉及的目标主类别可以包括“监管政策”(“监管政策”主要关注政府的相关机构发布的政策和领导讲话)、“保险相关”(“保险相关”主要关注保险公司发布的有关新闻)、“金融巨头”(“金融巨头”主要关注银行等金融巨头发布的有关新闻)、“投融资”(“投融资”主要关注各大公司的投融资动态)等等。可以理解的是,这些目标主类别所涉及的新闻各自具有不同的特点,所涉及的领域知识和文本描述方式差别较大。因此,对属于不同目标主类别的新闻,可以采用不同的文本识别算法。例如,对于“监管政策”这一目标主类别可以采用一种文本识别算法,例如算法1,若对输入的新闻识别出目标主类别为“监管政策”,则可以进一步使用算法1识别该新闻的子类别,进而得到分类结果。
在一些实施例中,只关注某一特定类型的文本,可选地,可以使用目标子类别来表示该特定类型。因此,可以根据上述文本识别算法确定该待识别文本是否属于目标子类别,进而得到分类结果。可以理解的是,分类结果可以包括“该待识别文本属于目标子类别”或“该待识别文本不属于目标子类别”中的一种。此外,由于前述步骤中可以确定出待识别文本的主类别,因此,分类结果还可以包括待识别文本所属的目标主类别。
示例性地,以金融新闻为例,目标主类别可以为金融科技新闻。也就是说,金融新闻所涉及的各个目标主类别中,可能包含金融科技新闻,也可能不包含金融科技新闻,因而可以采用本申请实施例的文本分类方法对输入的新闻进行分类,从而确定输入的新闻是金融科技新闻或不是金融科技新闻。可以理解的是,对于科技公司的投融资相关的新闻(可以确定其目标主类别为“投融资”,且该新闻属于金融科技新闻),对该新闻的分类结果可以是“该新闻是金融科技新闻”,也可以是“该新闻是涉及投融资的金融科技新闻”。由此可知,该模型具备区分各个领域知识和不同领域新闻的能力,通过模型可以准确地从不同领域的金融新闻中挑选出与金融科技相关的新闻,进而可以将这些金融科技新闻推送给用户。
在另一些实施例中,可以识别多种类型的文本,可选地,目标子类别可以是多种子类别中的一种。因此,可以根据前述步骤中确定的文本识别算法确定该待识别文本所属的目标子类别,进而得到分类结果。因此,分类结果对应可以是该待识别文本属于目标子类别。
综上所述,本实施例提供的文本分类方法,可以将待识别文本输入到文本分类模型中。在文本分类模型中,首先确定待识别文本的目标主类别,再确定与目标主类别对应的文本识别算法。接着,在文本分类模型中,根据文本识别算法确定待识别文本是否属于目标子类别并得到分类结果。由于文本识别算法与目标主类别相对应,所以在确定待识别文本是否属于子类别的时候,所使用的文本识别算法是根据待识别文本的主类别类型而确定的,从而能够避免针对所有类型的文本,在确定该文本是否为目标子类别的时候,都使用相同的文本识别算法进行分类,进而能够提高分类的准确度。
在本申请的一些实施方式中,可选地,本实施例在上述实施例的基础上,文本分类模型可以包括第一生成器。本实施例中,第一生成器可以用于对待识别文本添加第一语句得到第一目标文本,其中,第一语句是将第一判别语句中表征目标主类别的第一文本内容掩盖之后的语句,第一生成器还可以用于预测第一目标文本中被掩盖的第一文本内容得到第一预测文本,本实施例可以根据第一预测文本确定待识别文本的目标主类别。
具体地,请参阅图3,其示出了本申请又一实施例提供的文本分类方法的流程示意图。所述文本分类模型包括第一生成器,该第一生成器具体可以用于执行如下步骤:
步骤S410:对待识别文本添加第一语句得到第一目标文本,其中,所述第一语句为第一判别语句中的用于表征目标主类别的第一文本内容被掩盖之后的语句。
在本申请的实施例中,第一判别语句是用于判断待识别文本属于哪个主类别的语句。在本实施例中,通过对待识别文本添加第一判别语句可以得到第一目标文本,此外,本实施例还将第一判别语句中表征目标主类别的第一文本内容掩盖,然后通过待识别文本预测第一判别语句中的第一文本内容,来得到待识别文本所属的目标主类别。
可选地,可以在待识别文本的末尾添加第一语句,进而得到第一目标文本。可选地,在对第一判别语句中表征目标主类别的第一文本内容进行掩盖时,可以将第一判别语句中的第一文本内容替换为MASK,从而得到第一语句。示例性地,若掩盖前的第一判别语句为“这是属于XX领域”,则掩盖后得到的第一语句为“这是属于[MASK]领域”。
步骤S420:预测第一目标文本中被掩盖的第一文本内容,得到第一预测文本,根据所述第一预测文本确定所述目标主类别。
在第一生成器中,可以提取出第一目标文本的上下文语义特征,该上下文语义特征例如可以包括待识别文本的语义特征和第一语句的语义特征,然后根据上下文语义特征预测第一目标文本中被掩盖的第一文本内容,即可得到第一预测文本,接着,根据第一预测文本确定待识别文本的目标主类别。可以理解的是,第一预测文本是由第一生成器预测得到的用于表征目标主类别的第一文本内容所处位置的文本信息,因此,第一预测文本也可以表征目标主类别。在一些实施方式中,可以使用文本匹配的方式确定与第一预测文本相匹配的目标主类别。例如,若第一预测文本为“投融资”,则根据文本匹配的方式,可以得到目标主类别为“投融资”。
示例性地,该第一生成器可以是领域生成器。如图4所示,第一语句可以是“这是属于____领域”,其中,下划线部分为被掩盖的第一文本内容。在对输入的新闻添加该第一语句得到第一目标文本后,领域生成器可以对第一目标文本进行特征抽取,得到上下文语义特征,然后根据该上下文语义特征可以预测得到第一目标文本中下划线部分的内容,即得到被掩盖的第一文本内容,得到第一预测文本。例如,对于图5中的新闻,在添加了第一语句之后可以得到第一目标文本,如图5所示,则通过领域生成器可以预测得到第一预测文本为“投融资”,则完整的第一语句是“这是属于投融资领域”,也就是说,可以新闻所属的目标主类别为“投融资”。其中,图5中的目标域可以指实际应用中需要识别的文本的集合,即待识别文本所属的文本集合。
应当说明,通过对待识别文本添加第一判别语句得到第一目标文本,并且将第一判别语句中表征目标主类别的第一文本内容掩盖,则可以在第一生成器中,通过待识别文本预测第一判别语句中的第一文本内容,来得到待识别文本所属的目标主类别。这样,可以使文本分类模型中的第一生成器具有区分不同主类别的文本知识和各种主类别的文本描述方式的能力。
在本申请的一些实施方式中,可选地,本实施例在上述实施例的基础上,文本分类模型可以包括第二生成器。本实施例中,第二生成器可以用于对待识别文本添加第二语句得到第二目标文本,其中,第二语句是将第二判别语句中目标子类别的判定词掩盖之后的语句。第二生成器也可以用于根据文本识别算法预测第二目标文本中被掩盖的判定词得到第二预测文本。本实施例中,第二生成器还可以用于根据第二预测文本确定待识别文本的分类结果。
具体地,请参阅图6,其示出了本申请另一实施例提供的文本分类方法的流程示意图。所述文本分类模型包括第二生成器,该第二生成器具体可以用于执行如下步骤:
步骤S710:对所述待识别文本添加第二语句得到第二目标文本,其中,所述第二语句为第二判别语句中的目标子类别的判定词被掩盖之后的语句。
在本申请的实施例中,第二判别语句是用于判断待识别文本是否属于目标子类别的语句。在本实施例中,通过对待识别文本添加第二判别语句可以得到第二目标文本,此外,本实施例还将第二判别语句中目标子类别的判定词掩盖,接着可以在第二生成器中,通过待识别文本预测第二判别语句中的判别词,进而根据判别词确定待识别文本是否属于该目标子类别。
可选地,可以在待识别文本的末尾添加第二语句,进而得到第二目标文本。可选地,也可以对前述实施例中生成的第一目标文本添加第二语句,得到第二目标文本。例如,在第一目标文本的末尾添加第二语句等等。
可选地,在对第二判别语句中目标子类别的判定词进行掩盖时,可以将第二判别语句中的判定词替换为MASK,从而得到第二语句。示例性地,若目标子类别为金融科技新闻,掩盖前的第二判别语句是“这是属于金融科技新闻”或“这不是属于金融科技新闻”,则掩盖后得到的第二语句为“这[MASK]属于金融科技新闻”。
步骤S720:根据文本识别算法预测第二目标文本中被掩盖的判定词,得到第二预测文本,根据所述第二预测文本确定所述分类结果。
在第二生成器中,同样可以提取出第二目标文本的上下文语义特征,该上下文语义特征例如可以包括待识别文本的语义特征、第一语句的语义特征以及第二语句的语义特征等等。随后,在第二生成器内,根据上下文语义特征预测第二目标文本中被掩盖的判定词,即可得到第二预测文本,最后根据第二预测文本确定分类结果。
需要说明的是,由于前述步骤中可以根据目标主类别确定出文本识别算法,因此,在一些实施方式中,可以在第二生成器中调用该文本识别算法来预测第二目标文本中被掩盖的判定词,进而得到第二预测文本。由此,通过该文本识别算法,可以在第二生成器,利用第一生成器中确定的领域知识和文本描述方式来对第二目标文本进行特征抽取,得到更加准确的第二目标文本的上下文语义特征。
示例性地,该第二生成器可以是标签生成器。请再次参见图4,若目标子类别为金融科技新闻,第二语句可以是“这___属于金融科技新闻”,其中,下划线部分为被掩盖的判定词。在对输入的新闻添加该第二语句得到第二目标文本后,标签生成器可以利用文本识别算法对第二目标文本进行特征抽取,得到上下文语义特征,随后根据该上下文语义特征预测得到第二目标文本中下划线部分的内容,即得到被掩盖的判定词,进而得到第二预测文本。例如,请再次参见图5,对于图5中的新闻,对第一目标文本添加了第二语句之后可以得到第二目标文本,如图5所示,则通过标签生成器可以预测得到第二预测文本为“是”,则完整的第二语句是“这是属于金融科技新闻”,即是说,可以确定该新闻属于金融科技新闻,分类结果例如可以为“该新闻是金融科技新闻”。
应当说明,在第二生成器中,通过对待识别文本添加第二判别语句得到第二目标文本,并且将第二判别语句中目标子类别的判别词掩盖,可以利用文本识别算法预测第二判别语句中的判别词,由此确定待识别文本属于目标子类别还是不属于目标子类别。这样,通过添加判别语句的方式,在第二生成器内利用该文本识别算法,则可以利用第一生成器中确定的不同主类别类型的文本知识和文本描述方式对待识别文本提取得到更加准确的语义特征,因而在对待识别文本进行文本分类时可以使第二生成器输出的分类结果更加准确。
需要说明的是,在预训练阶段,预训练模型可以采用生成任务的方式训练而得到,因此,为了更好地发挥预训练模型的性能优势,根据预训练模型训练而得到文本分类模型也可以采用生成任务的方式进行文本分类。
在一些典型的实施方式中,前述实施例中的预训练模型可以基于预训练语料训练而得到,其中,预训练语料可以包括多条被随机掩盖掉文本内容的预训练文本以及表征被掩盖掉的文本内容的文本标签。
在另一些实施方式中,在预训练模型的预训练阶段,可以将预训练语料中的每条完整的(未被掩盖的)预训练文本划分为多条连续的文本片段,使用这些连续的文本片段对预训练模型进行训练,可以使预训练模型学到各个连续的文本片段之间的关系。
其中,若第一生成器和第二生成器均基于预训练模型而构建,则对待识别文本添加第一语句和第二语句,然后使用第一生成器预测第一语句中被掩盖的内容,以及使用第二生成器预测第二语句中的判别词,则可以使根据生成任务得到预训练模型具有更好地适应性,省去了适应新任务(例如分类任务)的过程。由此,不仅可以在训练阶段节省训练时间,还可以更好地发挥预训练模型的性能优势,使文本分类更加准确。此外,在使用本实施例的文本分类模型识别新领域的文本时,可以使用少量新领域的文本对文本分类模型进行微调即可实现跨领域的文本分类,可以使模型具有更强的适应能力。
可选地,上述预训练模型可以为bert模型。
在本申请的一些实施方式中,可以使用训练数据集训练预训练模型以得到前述实施例中的文本分类模型,请参阅图7,其示出了本申请一实施例提供的文本分类模型的训练方法的流程示意图。可选地,在训练得到文本分类模型后,可以将该文本分类模型应用于前述实施例中的文本分类方法中。模型训练的过程具体可以包括如下步骤:
步骤S810:获取训练数据集,所述训练数据集包括多个样本文本、多个主类别以及目标子类别的判定标签,其中,每个样本文本对应于一个主类别和一个判定标签,每个主类别对应一个判定标签。
在本申请的实施例中,判定标签用于表示该样本文本属于目标子类别或者该样本文本不属于目标子类别。可以理解的是,每个样本文本可以对应一个主类别和一个判定标签,即每个样本文本可以属于一种主类别,可以属于目标子类别或不属于目标子类别。
示例性地,以金融新闻为例,如图8所示,训练数据集中不仅包括新闻,还包括与每条新闻相对于的主类别和判定标签,其中,目标子类别例如可以是金融科技新闻,则判定标签用于确定该新闻属于金融科技新闻或该新闻不属于金融科技新闻。其中,源域可以指用于训练文本分类模型的训练数据集(可能属于多个领域,这多个领域的文本集合统称为源域)。
步骤S820:将所述训练数据集输入预训练模型中进行迭代训练,得到文本分类模型;其中,在每次迭代训练过程中,预训练模型具体用于:确定每个样本文本的预测主类别;根据预测识别算法确定每个样本文本是否属于目标子类别,得到预测结果,预测识别算法与预测主类别相对应;当预测主类别与该样本文本对应的主类别之间的误差小于第一预设误差,并且预测结果与该样本文本对应的判定标签之间的误差小于第二预设误差,完成迭代训练,得到文本分类模型。
在一些实施方式中,文本分类模型是根据预训练模型训练而得到的。在本申请的实施例的模型训练阶段,可以将训练数据集输入到预训练模型中进行迭代训练。可选地,在每次迭代训练过程中,预训练模型可以用于确定每个样本文本的预测主类别,接着根据与预测主类别相对于的预测识别算法确定每个样本文本是否属于目标子类别,得到预测结果,然后当预测主类别与该样本文本对应的主类别之间的误差小于第一预设误差,并且预测结果与该样本文本对应的判定标签之间的误差小于第二预设误差,完成迭代训练,得到文本分类模型。
可选地,上述预训练模型还可以用于构建第一生成器,在每次迭代训练过程中,第一生成器可以用于对每个样本文本添加第一语句得到第一样本文本,其中,第一语句为第一判别语句中的用于表征预测主类别的第一样本内容被掩盖之后的语句。第一生成器还可以用于预测第一样本文本中被掩盖的第一样本内容,得到第三预测文本,根据第三预测文本确定所述预测主类别。
具体地,请参阅图9,其示出了本申请又一实施例提供的文本分类模型的训练方法的流程示意图。在每次迭代训练过程中,第一生成器具体可以用于执行如下步骤:
步骤S1110:对每个所述样本文本添加第一语句得到第一样本文本,其中,所述第一语句为第一判别语句中的用于表征预测主类别的第一样本内容被掩盖之后的语句。
与前述实施例类似,在本申请的实施例中,第一判别语句是用于判断样本文本属于哪个主类别的语句。在本实施例中,通过对样本文本添加第一判别语句得到第一样本文本,并且将第一判别语句中表征预测主类别的第一样本内容掩盖,则可以通过样本文本预测第一判别语句中的第一样本内容,来得到样本文本所属的预测主类别。
可选地,可以在样本文本的末尾添加第一语句,进而得到第一样本文本。可选地,在对第一判别语句中表征目预测主类别的第一样本内容进行掩盖时,可以将第一判别语句中的第一样本内容替换为MASK,从而得到第一语句。示例性地,若掩盖前的第一判别语句为“这是属于XX领域”,则掩盖后得到的第一语句为“这是属于[MASK]领域”。
在一些典型的实施例中,可以在模型训练之前对样本文本添加第一语句,得到第一样本文本,如图9所示,随后将每个样本文本对应的第一样本文本,以及对应的主类别和判定标签,作为训练数据集。接着,在使用训练数据集对预训练模型进行训练时,可以直接将训练数据集中的第一样本文本输入第一生成器,而无需再进行掩盖处理。
步骤S1120:预测所述第一样本文本中被掩盖的第一样本内容,得到第三预测文本,根据所述第三预测文本确定所述预测主类别。
在第一生成器中,可以提取出第一样本文本的上下文语义特征,该上下文语义特征例如可以包括样本文本的语义特征和第一语句的语义特征,然后在第一生成器内根据上下文语义特征预测第一样本文本中被掩盖的第一样本内容,得到第三预测文本,然后根据第三预测文本确定样本文本的预测主类别。可以理解的是,该第一生成器可以是领域生成器。
可以理解的是,第三预测文本是由第一生成器预测得到的用于表征预测主类别的第一样本内容所处位置的文本信息,因此,第三预测文本也可以表征预测主类别。在一些实施方式中,可以使用文本匹配的方式确定与第三预测文本相匹配的预测主类别。例如,若第三预测文本为“投融资”,则根据文本匹配的方式,可以得到预测主类别为“投融资”。
在一些实施方式中,若只关注一种特征类型的文本,则可以使用目标子类别表示该特征类型。因此,该预测结果可以是“该样本文本属于目标子类别”或“该样本文本不属于目标子类别”中的一种。
在另一些实施例中,可以识别多个类型的文本,因此目标子类别可以是多种子类别中的一种。因此,根据预测识别算法可以确定该样本文本所属的目标子类别,进而得到分类结果。因此,分类结果对应可以是该样本文本属于目标子类别。
可选地,上述预训练模型还可以用于构建第二生成器,在每次迭代训练过程中,第二生成器可以用于对每个样本文本添加第二语句得到第二样本文本,其中,第二语句为第二判别语句中的预测子类别的判定词被掩盖之后的语句。第二生成器还可以用于根据预测识别算法预测第二样本文本中被掩盖的判定词,得到第四预测文本,根据第四预测文本确定所述预测结果。
具体地,请参阅图10,其示出了本申请另一实施例提供的文本分类模型的训练方法的流程示意图。可在每次迭代训练过程中,第二生成器具体可以用于执行如下步骤:
步骤S1210:对每个所述样本文本添加第二语句得到第二样本文本,其中,所述第二语句为第二判别语句中的预测子类别的判定词被掩盖之后的语句。
与前述实施例类似,在本申请的实施例中,第二判别语句是用于判断样本文本是否属于目标子类别的语句。在本实施例中,通过对样本文本添加第二判别语句得到第二样本文本,并且将第二判别语句中目标子类别的判定词掩盖,则可以通过样本文本预测第二判别语句中的判定词,进而根据判定词确定样本文本是否属于该目标子类别。
可选地,可以在样本文本的末尾添加第二语句,进而得到第二样本文本。可选地,也可以在前述实施例中的第一样本文本的基础上添加第二语句,得到第二样本文本。例如,在第一样本文本的末尾添加第二语句等等。
可选地,在对第二判别语句中目标子类别的判定词进行掩盖时,可以将第二判别语句中的第二样本内容替换为MASK,从而得到第二语句。示例性地,若掩盖前的第二判别语句是“这是属于金融科技新闻”或“这不是属于金融科技新闻”,则掩盖后得到的第二语句为“这[MASK]属于金融科技新闻”。
同样地,在一些典型的实施例中,可以在模型训练之前对样本文本添加第二语句,得到第二样本文本。可选地,可以在第一样本文本的基础上添加第二语句,得到第二样本文本。请再次参见图9,随后将每个样本文本对应的第二样本文本,以及对应的主类别和判定标签,作为训练数据集。接着,在使用训练数据集对预训练模型进行训练时,可以直接将训练数据集中的第二样本文本输入第二生成器,而无需再进行掩盖处理。
步骤S1220:根据所述预测识别算法预测所述第二样本文本中被掩盖的判定词,得到第四预测文本,根据所述第四预测文本确定所述预测结果。
在第二生成器中,同样可以提取出第二样本文本的上下文语义特征,该上下文语义特征例如可以包括样本文本的语义特征、第一语句的语义特征以及第二语句的语义特征等等,,然后根据上下文语义特征预测第二样本文本中被掩盖的判定词,即可得到第四预测文本,最后根据第四预测文本确定预测结果。其中,若第四预测文本为“是”,对应的预测结果为“该样本文本属于目标子类别”;若第四预测文本为“否”,对应的预测结果为“该样本文本不属于目标子类别”。可以理解的是,该第二生成器可以是标签生成器。
可选地,本申请实施例中的预训练模型可以通过生成任务训练而得到。示例性地,在预训练模型的预训练阶段,可以基于预训练语料训练该预训练模型,其中,预训练语料可以包括多条被随机掩盖掉文本内容的预训练文本以及表征被掩盖掉的文本内容的文本标签。在一些典型的实施例中,该预训练模型可以为bert模型。
在本申请的实施方式中,通过上述第一生成器可以预测得到样本文本的预测主类别,通过上述第二生成器可以预测得到样本文本的预测结果,即该样本文本属于目标子类别还是不属于目标子类别。因此,通过将预测主类别与该样本文本对应的主类别进行对比,可以得到预测主类别与该样本文本对应的主类别之间的第一误差;通过将预测结果与该样本文本对应的判定标签进行对比,可以得到预测结果与判定标签之间的第二误差。为了使第一误差小于第一预设误差,同时使第二误差小于第二预设误差,因此,基于第一误差和第二误差调整该预训练模型的参数。可选地,可以基于第一误差迭代调整第一生成器的参数,基于第二误差迭代调整第二生成器的参数。进一步地,当达到第一误差小于第一预设误差,同时第二误差小于第二预设误差时,可以完成迭代训练,固定第一生成器及第二生成器的参数,从而得到文本分类模型。
在一些实施方式中,可以构建第一损失函数来表示第一误差,构建第二损失函数来表示第二误差,通过迭代调整第一生成器与第二生成器的参数,直到第一损失函数与第二损失函数均收敛,即可将第一生成器和第二生成器组合得到文本分类模型。
应当说明,本实施例利用预训练模型构建的第一生成器和第二生成器,对样本文本添加第一语句和第二语句,然后使用第一生成器预测第一语句中被掩盖的内容,使用第二生成器预测第二语句中的判别词,则可以保留预训练模型的生成任务,不用适应新任务,可以更好地发挥预训练模型的预测能力。
可选地,在训练得到文本分类模型之后,可以使用该文本分类模型对输入的待识别文本进行文本分类。如图11所示,以金融新闻为例,通过对输入的新闻添加第一语句和第二语句,再使用领域生成器可以对输入的新闻进行特征提取,进而得到该新闻的特征(如新闻内容的上下文语义特征),则可以根据该特征确定该新闻所属的主类别(例如可以识别出监管政策/保险相关/金融巨头/投融资等领域)。同时,由于在模型训练过程中,文本分类模型具有了区分各个领域知识和不同领域新闻的能力,因此,在使用标签生成器对输入的新闻进行特征提取时,可以更加准确地得到该新闻的特征,因此标签生成器对该新闻进行文本分类,则可以得到更加准确的分类结果,从而可以从不同领域的金融新闻中识别出所需的金融科技新闻。
请参阅图12,示出了本申请一实施例提供的文本分类装置的模块框图。具体地,该文本分类装置可以包括:文本获取模块1410、分类处理模块1420。
其中,文本获取模块1410,用于获取待识别文本;分类处理模块1420,用于将所述待识别文本输入文本分类模型进行分类处理,输出分类结果;其中,在所述分类处理中,所述文本分类模型具体用于:确定待识别文本的目标主类别;根据文本识别算法确定所述待识别文本是否属于目标子类别,得到所述分类结果,所述文本识别算法与所述目标主类别相对应。
在一些实施方式中,上述文本分类模型包括第一生成器,基于此,在分类处理中,第一生成器可以用于:对待识别文本添加第一语句得到第一目标文本,其中,所述第一语句为第一判别语句中的用于表征目标主类别的第一文本内容被掩盖之后的语句;预测第一目标文本中被掩盖的第一文本内容,得到第一预测文本,根据所述第一预测文本确定所述目标主类别。
在一些实施方式中,上述文本分类模型包括第二生成器,在分类处理中,第二生成器可以用于:对所述待识别文本添加第二语句得到第二目标文本,其中,所述第二语句为第二判别语句中的目标子类别的判定词被掩盖之后的语句;根据文本识别算法预测第二目标文本中被掩盖的判定词,得到第二预测文本,根据所述第二预测文本确定所述分类结果。
请参阅图13,示出了本申请一实施例提供的文本分类模型的训练装置的模块框图。具体地,该文本分类模型的训练装置可以包括:样本获取模块1510、迭代训练模块1520。
样本获取模块1510,用于获取训练数据集,所述训练数据集包括多个样本文本、多个主类别以及目标子类别的判定标签,其中,每个样本文本对应于一个主类别和一个判定标签,每个主类别对应一个判定标签;迭代训练模块1520,用于将所述训练数据集输入预训练模型中进行迭代训练,得到文本分类模型;其中,在每次迭代训练过程中,所述预训练模型具体用于:确定每个所述样本文本的预测主类别;根据所述预测识别算法确定每个所述样本文本是否属于所述目标子类别,得到预测结果,所述预测识别算法与所述预测主类别相对应;当所述预测主类别与该样本文本对应的主类别之间的误差小于第一预设误差,并且所述预测结果与该样本文本对应的判定标签之间的误差小于第二预设误差,完成迭代训练,得到所述文本分类模型。
可选地,上述在每次迭代过程中,上述预训练模型还可以用于构建第一生成器,在每次迭代训练过程中,第一生成器可以用于:对每个所述样本文本添加第一语句得到第一样本文本,其中,所述第一语句为第一判别语句中的用于表征预测主类别的第一样本内容被掩盖之后的语句;预测所述第一样本文本中被掩盖的第一样本内容,得到第三预测文本,根据所述第三预测文本确定所述预测主类别。
可选地,上述在每次迭代过程中,上述预训练模型还可以用于构建第二生成器,在每次迭代训练过程中,第二生成器可以用于:对每个所述样本文本添加第二语句得到第二样本文本,其中,所述第二语句为第二判别语句中的预测子类别的判定词被掩盖之后的语句;根据所述预测识别算法预测所述第二样本文本中被掩盖的判定词,得到第四预测文本,根据所述第四预测文本确定所述预测结果。
在一些典型的实施例中,上述预训练模型基于预训练语料训练而得到,所述预训练语料包括多条被随机掩盖掉文本内容的预训练文本以及表征被掩盖掉的文本内容的文本标签。
其中,可选地,所述预训练模型可以为bert模型。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述装置中模块/单元/子单元/组件的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,所显示或讨论的模块相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
请参阅图14,其示出了本申请一实施例提供的电子设备的结构框图。本实施例中的所述电子设备可以包括一个或多个如下部件:处理器1610、存储器1620以及一个或多个应用程序,其中一个或多个应用程序可以被存储在存储器1620中并被配置为由一个或多个处理器1610执行,一个或多个应用程序配置用于执行如前述方法实施例所描述的方法。
其中,电子设备可以为移动、便携式并执行无线通信的各种类型的计算机系统设备中的任何一种。具体的,电子设备可以为移动电话或智能电话(例如,基于iPhone TM,基于Android TM的电话)、便携式游戏设备(例如Nintendo DS TM,PlayStation PortableTM,Gameboy Advance TM,iPhone TM)、膝上型电脑、PDA、便携式互联网设备、音乐播放器以及数据存储设备,其他手持设备以及诸如智能手表、智能手环、耳机、吊坠等,电子设备还可以为其他的可穿戴设备(例如,诸如电子眼镜、电子衣服、电子手镯、电子项链、电子纹身、电子设备或头戴式设备(HMD))。
电子设备还可以是多个电子设备中的任何一个,多个电子设备包括但不限于蜂窝电话、智能电话、智能手表、智能手环、其他无线通信设备、个人数字助理、音频播放器、其他媒体播放器、音乐记录器、录像机、照相机、其他媒体记录器、收音机、医疗设备、车辆运输仪器、计算器、可编程遥控器、寻呼机、膝上型计算机、台式计算机、打印机、上网本电脑、个人数字助理(PDA)、便携式多媒体播放器(PMP)、运动图像专家组(MPEG-1或MPEG-2)音频层3(MP3)播放器,便携式医疗设备以及数码相机及其组合。
在一些情况下,电子设备可以执行多种功能(例如,播放音乐,显示视频,存储图片以及接收和发送电话呼叫)。如果需要,电子设备可以是诸如蜂窝电话、媒体播放器、其他手持设备、腕表设备、吊坠设备、听筒设备或其他紧凑型便携式设备。
可选地,电子设备也可以是服务器,例如可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(ContentDelivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器,还可以是提供人脸识别、自动驾驶、工业互联网服务、数据通信(如4G、5G等)等专门或平台服务器。
处理器1610可以包括一个或者多个处理核。处理器1610利用各种接口和线路连接整个电子设备内的各个部分,通过运行或执行存储在存储器1620内的指令、应用程序、代码集或指令集,以及调用存储在存储器1620内的数据,执行电子设备的各种功能和处理数据。可选地,处理器1610可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(ProgrammableLogic Array,PLA)中的至少一种硬件形式来实现。处理器1610可集成中央处理器(CentralProcessing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器1610中,单独通过一块通信芯片进行实现。
存储器1620可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。存储器1620可用于存储指令、应用程序、代码、代码集或指令集。存储器1620可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以电子设备在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的电子设备的处理器1610、存储器1620的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
请参考图15,其示出了本申请一实施例提供的计算机可读存储介质的结构框图。该计算机可读存储介质1700中存储有程序代码,所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。
计算机可读存储介质1700可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地,计算机可读存储介质1700包括非易失性计算机可读存储介质(non-transitory computer-readable storage medium)。计算机可读存储介质1700具有执行上述方法中的任何方法步骤的程序代码1710的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码1710可以例如以适当形式进行压缩。其中,计算机可读存储介质1700可以是如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random AccessMemory,简称RAM)、SSD、带电可擦可编程只读存储器(Electrically ErasableProgrammable read only memory,简称EEPROM)或快闪存储器(Flash Memory,简称Flash)等。
在一些实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、SSD、Flash)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例的方法。
本申请提供的文本分类方法、装置、电子设备及存储介质,可以将待识别文本输入到文本分类模型中。在文本分类模型中,首先确定待识别文本的目标主类别,再确定与目标主类别对应的文本识别算法。接着,在文本分类模型中,根据文本识别算法确定待识别文本是否属于目标子类别并得到分类结果。本申请实施例首先使文本分类模型识别出待识别文本的主类别,再根据主类别对应的文本识别算法来确定待识别文本的子类别,由此可以使文本分类模型在确定了待识别文本的主类别后,再根据该主类别对应的算法确定待识别文本所属的文本类别。由于文本识别算法与目标主类别相对应,所以在确定待识别文本是否属于子类别的时候,所使用的文本识别算法是根据待识别文本的主类别类型而确定的,从而能够避免针对所有类型的文本,在确定该文本是否为目标子类别的时候,都使用相同的文本识别算法进行分类,进而能够提高分类的准确度。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (10)

1.一种文本分类方法,其特征在于,所述方法包括:
获取待识别文本;
将所述待识别文本输入文本分类模型进行分类处理,输出分类结果;
其中,在所述分类处理中,所述文本分类模型具体用于:
确定待识别文本的目标主类别;
根据文本识别算法确定所述待识别文本是否属于目标子类别,得到所述分类结果,所述文本识别算法与所述目标主类别相对应。
2.根据权利要求1所述的方法,其特征在于,所述文本分类模型包括第一生成器,所述第一生成器用于:
对所述待识别文本添加第一语句得到第一目标文本,其中,所述第一语句为第一判别语句中的用于表征目标主类别的第一文本内容被掩盖之后的语句;
预测第一目标文本中被掩盖的第一文本内容,得到第一预测文本,根据所述第一预测文本确定所述目标主类别。
3.根据权利要求1所述的方法,其特征在于,所述文本分类模型包括第二生成器,所述第二生成器用于:
对所述待识别文本添加第二语句得到第二目标文本,其中,所述第二语句为第二判别语句中的目标子类别的判定词被掩盖之后的语句;
根据所述文本识别算法预测所述第二目标文本中被掩盖的判定词,得到第二预测文本,根据所述第二预测文本确定所述分类结果。
4.一种文本分类模型的训练方法,其特征在于,所述方法包括:
获取训练数据集,所述训练数据集包括多个样本文本、多个主类别以及目标子类别的判定标签,其中,每个样本文本对应于一个主类别和一个判定标签,每个主类别对应一个判定标签;
将所述训练数据集输入预训练模型中进行迭代训练,得到文本分类模型;
其中,在每次迭代训练过程中,所述预训练模型具体用于:
确定每个所述样本文本的预测主类别;
根据所述预测识别算法确定每个所述样本文本是否属于所述目标子类别,得到预测结果,所述预测识别算法与所述预测主类别相对应;
当所述预测主类别与该样本文本对应的主类别之间的误差小于第一预设误差,并且所述预测结果与该样本文本对应的判定标签之间的误差小于第二预设误差,完成迭代训练,得到所述文本分类模型。
5.根据权利要求4所述的方法,其特征在于,所述预训练模型还用于构建第一生成器,在每次迭代训练过程中,所述第一生成器用于:
对每个所述样本文本添加第一语句得到第一样本文本,其中,所述第一语句为第一判别语句中的用于表征预测主类别的第一样本内容被掩盖之后的语句;
预测所述第一样本文本中被掩盖的第一样本内容,得到第三预测文本,根据所述第三预测文本确定所述预测主类别。
6.根据权利要求4所述的方法,其特征在于,所述预训练模型还用于构建第二生成器,在每次迭代训练过程中,所述第二生成器用于:
对每个所述样本文本添加第二语句得到第二样本文本,其中,所述第二语句为第二判别语句中的预测子类别的判定词被掩盖之后的语句;
根据所述预测识别算法预测所述第二样本文本中被掩盖的判定词,得到第四预测文本,根据所述第四预测文本确定所述预测结果。
7.一种文本识别装置,其特征在于,所述装置包括:
文本获取模块,用于获取待识别文本;
分类处理模块,用于将所述待识别文本输入文本分类模型进行分类处理,输出分类结果;
其中,在所述分类处理中,所述文本分类模型具体用于:
确定待识别文本的目标主类别;
根据文本识别算法确定所述待识别文本是否属于目标子类别,得到所述分类结果,所述文本识别算法与所述目标主类别相对应。
8.一种文本识别模型的训练装置,其特征在于,所述装置包括:
样本获取模块,用于获取训练数据集,所述训练数据集包括多个样本文本、多个主类别以及目标子类别的判定标签,其中,每个样本文本对应于一个主类别和一个判定标签,每个主类别对应一个判定标签;
迭代训练模块,用于将所述训练数据集输入预训练模型中进行迭代训练,得到文本分类模型;
其中,在每次迭代训练过程中,所述预训练模型具体用于:
确定每个所述样本文本的预测主类别;
根据预测识别算法确定每个所述样本文本是否属于所述目标子类别,得到预测结果,所述预测识别算法与所述预测主类别相对应;
当所述预测主类别与该样本文本对应的主类别之间的误差小于第一预设误差,并且所述预测结果与该样本文本对应的判定标签之间的误差小于第二预设误差,停止迭代训练,得到所述文本分类模型。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器;
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行如权利要求1至3任一项所述的方法,或者,如权利要求4至6任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有程序代码,所述程序代码可被处理器调用执行如权利要求1至3任一项所述的方法,或者,如权利要求4至6任一项所述的方法。
CN202210083811.7A 2022-01-20 2022-01-20 文本分类方法、装置、电子设备及存储介质 Active CN114579740B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210083811.7A CN114579740B (zh) 2022-01-20 2022-01-20 文本分类方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210083811.7A CN114579740B (zh) 2022-01-20 2022-01-20 文本分类方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN114579740A true CN114579740A (zh) 2022-06-03
CN114579740B CN114579740B (zh) 2023-12-05

Family

ID=81769075

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210083811.7A Active CN114579740B (zh) 2022-01-20 2022-01-20 文本分类方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114579740B (zh)

Citations (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104731770A (zh) * 2015-03-23 2015-06-24 中国科学技术大学苏州研究院 基于规则和统计模型的中文微博情感分析方法
CN105787461A (zh) * 2016-03-15 2016-07-20 浙江大学 基于文本分类和条件随机场的中药文献不良反应实体识别方法
CN107229684A (zh) * 2017-05-11 2017-10-03 合肥美的智能科技有限公司 语句分类方法、系统、电子设备、冰箱及存储介质
CN107797981A (zh) * 2016-08-31 2018-03-13 科大讯飞股份有限公司 一种目标文本识别方法及装置
CN107943941A (zh) * 2017-11-23 2018-04-20 珠海金山网络游戏科技有限公司 一种可迭代更新的垃圾文本识别方法和系统
CN108549692A (zh) * 2018-04-13 2018-09-18 重庆邮电大学 Spark框架下的稀疏多元逻辑回归模型对文本情感分类的方法
CN109582791A (zh) * 2018-11-13 2019-04-05 阿里巴巴集团控股有限公司 文本的风险识别方法及装置
CN109739985A (zh) * 2018-12-26 2019-05-10 斑马网络技术有限公司 文本自动分类方法、设备及存储介质
CN109857868A (zh) * 2019-01-25 2019-06-07 北京奇艺世纪科技有限公司 模型生成方法、文本分类方法、装置及计算机可读存储介质
CN109902175A (zh) * 2019-02-20 2019-06-18 上海方立数码科技有限公司 一种基于神经网络结构模型的文本分类方法及分类系统
CN110162624A (zh) * 2019-04-16 2019-08-23 腾讯科技(深圳)有限公司 一种文本处理方法、装置以及相关设备
CN110232123A (zh) * 2019-05-28 2019-09-13 第四范式(北京)技术有限公司 文本的情感分析方法及其装置、计算设备与可读介质
CN110457481A (zh) * 2019-08-20 2019-11-15 腾讯科技(深圳)有限公司 一种分类模型训练的方法、装置、设备以及存储介质
CN110516073A (zh) * 2019-08-30 2019-11-29 北京百度网讯科技有限公司 一种文本分类方法、装置、设备和介质
US20190370331A1 (en) * 2018-05-31 2019-12-05 Siemens Aktiengesellschaft Automatized text analysis
CN110580290A (zh) * 2019-09-12 2019-12-17 北京小米智能科技有限公司 用于文本分类的训练集的优化方法及装置
US20200005032A1 (en) * 2018-07-01 2020-01-02 International Business Machines Corporation Classifying digital documents in multi-document transactions based on embedded dates
CN110825875A (zh) * 2019-11-01 2020-02-21 科大讯飞股份有限公司 文本实体类型识别方法、装置、电子设备和存储介质
CN110851604A (zh) * 2019-11-12 2020-02-28 中科鼎富(北京)科技发展有限公司 一种文本分类方法、装置、电子设备及存储介质
CN110990562A (zh) * 2019-10-29 2020-04-10 新智认知数字科技股份有限公司 警情分类方法及其系统
US20200286002A1 (en) * 2019-03-05 2020-09-10 Kensho Technologies, Llc Dynamically updated text classifier
CN111753498A (zh) * 2020-08-10 2020-10-09 腾讯科技(深圳)有限公司 文本处理方法、装置、设备及存储介质
WO2020232382A1 (en) * 2019-05-15 2020-11-19 Captricity, Inc. Few-shot language model training and implementation
CN112069310A (zh) * 2020-06-18 2020-12-11 中国科学院计算技术研究所 基于主动学习策略的文本分类方法及系统
CN112528605A (zh) * 2020-11-11 2021-03-19 北京百度网讯科技有限公司 文本风格处理方法、装置、电子设备和存储介质
CN113569043A (zh) * 2021-01-27 2021-10-29 腾讯科技(深圳)有限公司 一种文本类别确定方法和相关装置

Patent Citations (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104731770A (zh) * 2015-03-23 2015-06-24 中国科学技术大学苏州研究院 基于规则和统计模型的中文微博情感分析方法
CN105787461A (zh) * 2016-03-15 2016-07-20 浙江大学 基于文本分类和条件随机场的中药文献不良反应实体识别方法
CN107797981A (zh) * 2016-08-31 2018-03-13 科大讯飞股份有限公司 一种目标文本识别方法及装置
CN107229684A (zh) * 2017-05-11 2017-10-03 合肥美的智能科技有限公司 语句分类方法、系统、电子设备、冰箱及存储介质
CN107943941A (zh) * 2017-11-23 2018-04-20 珠海金山网络游戏科技有限公司 一种可迭代更新的垃圾文本识别方法和系统
CN108549692A (zh) * 2018-04-13 2018-09-18 重庆邮电大学 Spark框架下的稀疏多元逻辑回归模型对文本情感分类的方法
US20190370331A1 (en) * 2018-05-31 2019-12-05 Siemens Aktiengesellschaft Automatized text analysis
US20200005032A1 (en) * 2018-07-01 2020-01-02 International Business Machines Corporation Classifying digital documents in multi-document transactions based on embedded dates
CN109582791A (zh) * 2018-11-13 2019-04-05 阿里巴巴集团控股有限公司 文本的风险识别方法及装置
CN109739985A (zh) * 2018-12-26 2019-05-10 斑马网络技术有限公司 文本自动分类方法、设备及存储介质
CN109857868A (zh) * 2019-01-25 2019-06-07 北京奇艺世纪科技有限公司 模型生成方法、文本分类方法、装置及计算机可读存储介质
CN109902175A (zh) * 2019-02-20 2019-06-18 上海方立数码科技有限公司 一种基于神经网络结构模型的文本分类方法及分类系统
US20200286002A1 (en) * 2019-03-05 2020-09-10 Kensho Technologies, Llc Dynamically updated text classifier
CN110162624A (zh) * 2019-04-16 2019-08-23 腾讯科技(深圳)有限公司 一种文本处理方法、装置以及相关设备
WO2020232382A1 (en) * 2019-05-15 2020-11-19 Captricity, Inc. Few-shot language model training and implementation
CN110232123A (zh) * 2019-05-28 2019-09-13 第四范式(北京)技术有限公司 文本的情感分析方法及其装置、计算设备与可读介质
CN110457481A (zh) * 2019-08-20 2019-11-15 腾讯科技(深圳)有限公司 一种分类模型训练的方法、装置、设备以及存储介质
CN110516073A (zh) * 2019-08-30 2019-11-29 北京百度网讯科技有限公司 一种文本分类方法、装置、设备和介质
CN110580290A (zh) * 2019-09-12 2019-12-17 北京小米智能科技有限公司 用于文本分类的训练集的优化方法及装置
CN110990562A (zh) * 2019-10-29 2020-04-10 新智认知数字科技股份有限公司 警情分类方法及其系统
CN110825875A (zh) * 2019-11-01 2020-02-21 科大讯飞股份有限公司 文本实体类型识别方法、装置、电子设备和存储介质
CN110851604A (zh) * 2019-11-12 2020-02-28 中科鼎富(北京)科技发展有限公司 一种文本分类方法、装置、电子设备及存储介质
CN112069310A (zh) * 2020-06-18 2020-12-11 中国科学院计算技术研究所 基于主动学习策略的文本分类方法及系统
CN111753498A (zh) * 2020-08-10 2020-10-09 腾讯科技(深圳)有限公司 文本处理方法、装置、设备及存储介质
CN112528605A (zh) * 2020-11-11 2021-03-19 北京百度网讯科技有限公司 文本风格处理方法、装置、电子设备和存储介质
CN113569043A (zh) * 2021-01-27 2021-10-29 腾讯科技(深圳)有限公司 一种文本类别确定方法和相关装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
刘芳;李春旺;: "基于上下文的个人信息管理研究", 图书馆学研究, no. 19, pages 52 - 56 *
曾曦;阳红;常明芳;冯骁骋;赵妍妍;秦兵;: "基于主题模型的短文本关键词抽取及扩展", 山西大学学报(自然科学版), no. 02, pages 37 - 45 *
韦人予;蒙祖强;: "基于注意力特征自适应校正的图像描述模型", 计算机应用, no. 1, pages 50 - 55 *

Also Published As

Publication number Publication date
CN114579740B (zh) 2023-12-05

Similar Documents

Publication Publication Date Title
CN110444198B (zh) 检索方法、装置、计算机设备和存储介质
CN110020009B (zh) 在线问答方法、装置及系统
CN114357973B (zh) 意图识别方法、装置、电子设备及存储介质
CN110659366A (zh) 语义解析方法、装置、电子设备以及存储介质
CN110765294B (zh) 图像搜索方法、装置、终端设备及存储介质
CN112052333B (zh) 文本分类方法及装置、存储介质和电子设备
CN112507704A (zh) 多意图识别方法、装置、设备及存储介质
CN112101042A (zh) 文本情绪识别方法、装置、终端设备和存储介质
CN114399396A (zh) 保险产品推荐方法、装置、计算机设备及存储介质
CN114706945A (zh) 意图识别方法、装置、电子设备及存储介质
CN114817478A (zh) 基于文本的问答方法、装置、计算机设备及存储介质
CN112667803A (zh) 一种文本情感分类方法及装置
CN117312535A (zh) 基于人工智能的问题数据处理方法、装置、设备及介质
CN114579740B (zh) 文本分类方法、装置、电子设备及存储介质
CN115169345A (zh) 文本情感分析模型的训练方法、装置、设备及存储介质
CN115576789A (zh) 流失用户识别方法和系统
CN115270818A (zh) 一种意图识别方法及装置、存储介质、计算机设备
CN112364649B (zh) 命名实体的识别方法、装置、计算机设备及存储介质
CN115134660A (zh) 视频剪辑方法、装置、计算机设备及存储介质
CN113434695A (zh) 金融事件抽取方法、装置、电子设备及存储介质
CN114139031B (zh) 数据分类方法、装置、电子设备及存储介质
CN112149389A (zh) 简历信息结构化处理方法、装置、计算机设备和存储介质
CN111368083A (zh) 基于意图混淆的文本分类方法、装置、设备及存储介质
CN112632962B (zh) 人机交互系统中实现自然语言理解方法和装置
CN117093715B (zh) 词库扩充方法、系统、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant