CN112214605A - 一种文本分类方法和相关装置 - Google Patents

一种文本分类方法和相关装置 Download PDF

Info

Publication number
CN112214605A
CN112214605A CN202011222967.6A CN202011222967A CN112214605A CN 112214605 A CN112214605 A CN 112214605A CN 202011222967 A CN202011222967 A CN 202011222967A CN 112214605 A CN112214605 A CN 112214605A
Authority
CN
China
Prior art keywords
text
sample
classification model
language
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011222967.6A
Other languages
English (en)
Inventor
缪畅宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202011222967.6A priority Critical patent/CN112214605A/zh
Publication of CN112214605A publication Critical patent/CN112214605A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种文本分类方法和相关装置,至少涉及人工智能中的自然语言处理和机器学习,获取对应第一语言的第一样本集合和对应第二语言的第二样本集合,第一样本集合中的第一文本样本和第二样本集合中的第二文本样本具有基于相同标注规则得到的标注标签,由此将第一样本集合和第二样本集合混合,以生成训练样本集合,并基于训练样本集合训练初始通用分类模型,训练过程中,第一文本样本和第二文本样本以类似交替的方式作为初始通用分类模型的输入数据,使得初始通用分类模型学习到与语言本身无关的分类特性。由此实现了借助大量准确的第一文本样本训练出可适用于在第二语言下进行文本分类的通用分类模型,提高了产品扩展业务的迭代速度。

Description

一种文本分类方法和相关装置
技术领域
本申请涉及数据处理领域,特别是涉及一种文本分类方法和相关装置。
背景技术
文本分类常被应用在与文本内容相关的产品中,比如新闻分类、文章分类、意图分类等等,一般通过分类模型对新闻、文章、朋友圈、评论中的文本进行内容识别,分类来实现。
一般情况下,用于文本分类的分类模型多是针对某一语言的文本,比如中文、英文等等,但当产品需要拓展其他语言业务时,原本实用的网络模型将无法在新语言场景中使用,只能重新训练适用于新语言场景的分类模型。
然而,在扩展语言业务的初期,用于训练分类模型所需的标注文本数量很少,只能通过人工标注的方式慢慢积累才能达到实现模型训练的样本体量,由此导致训练分类模型的周期很长,不利于产品的快速迭代。
发明内容
为了解决上述技术问题,本申请提供了一种文本分类方法和相关装置,不再需要等待人工标注出足量新语言文本样本的时间,提高了产品扩展业务的迭代速度。
本申请实施例公开了如下技术方案:
一方面,本申请提供一种文本分类方法,所述方法包括:
获取对应第一语言的第一样本集合和对应第二语言的第二样本集合,所述第一样本集合包括第一数量的第一文本样本,所述第二样本集合包括第二数量的第二文本样本,所述第一文本样本和所述第二文本样本具有基于相同标注规则得到的标注标签,所述第一数量大于所述第二数量;
根据所述第一样本集合和所述第二样本集合生成训练样本集合;
基于所述训练样本集合训练初始通用分类模型,得到通用分类模型,在训练所述初始通用分类模型时,用于输入所述初始通用分类模型的输入序列中所述第一文本样本和所述第二文本样本混合排列;
通过所述通用分类模型对未标注文本进行分类标注,所述未标注文本为对应所述第二语言的文本。
另一方面,本申请提供一种文本分类装置,所述装置包括:获取单元、生成单元、训练单元和分类单元;
所述获取单元,用于获取对应第一语言的第一样本集合和对应第二语言的第二样本集合,所述第一样本集合包括第一数量的第一文本样本,所述第二样本集合包括第二数量的第二文本样本,所述第一文本样本和所述第二文本样本具有基于相同标注规则得到的标注标签,所述第一数量大于所述第二数量;
所述生成单元,用于根据所述第一样本集合和所述第二样本集合生成训练样本集合;
所述训练单元,用于基于所述训练样本集合训练初始通用分类模型,得到通用分类模型,在训练所述初始通用分类模型时,用于输入所述初始通用分类模型的输入序列中所述第一文本样本和所述第二文本样本混合排列;
所述分类单元,用于通过所述通用分类模型对未标注文本进行分类标注,所述未标注文本为对应所述第二语言的文本。
另一方面,本申请提供一种计算机设备,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行上述方面所述的方法。
另一方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行上述方面所述的方法。
另一方面,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方面所述的方法。
由上述技术方案可以看出,当业务从第一语言的文本环境向第二语言的文本环境扩展时,第二语言对应的、具有标注标签的第二文本样本数量一般不足以实现分类模型的训练,故可以获取对应第一语言的第一样本集合和对应第二语言的第二样本集合。由于基于第一语言的文本环境可以获取大量的具有标注标签的第一文本样本,故第一样本集合所包括第一文本样本的数量会大于第二文本集合所包括第二文本样本的数量。由于第一文本样本和第二文本样本具有基于相同标注规则得到的标注标签,即具有统一的分类目的,故即使语言不通,所确定出的标注标签的标识含义是通用的,由此可以将第一样本集合和第二样本集合混合,以生成训练样本集合,并基于既包括第一文本样本,也包括第二文本样本的训练样本集合训练初始通用分类模型,训练过程中,第一文本样本和第二文本样本会以类似交替的方式作为初始通用分类模型的输入数据,使得初始通用分类模型在训练过程中,不仅可以充分吸纳两种语言的文本特征与标注标签间的关联,从而学习到与语言本身无关的分类特性,而且也不会出现因为训练时持续输入第一文本样本导致模型先拟合了第一语言的关联知识,反而降低对第二语言文本的分类能力的问题。由此实现了借助大量准确的第一文本样本训练出可适用于在第二语言下进行文本分类的通用分类模型,不再需要等待人工标注出足量第二文本样本的时间,提高了产品扩展业务的迭代速度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的文本分类方法的应用场景示意图;
图2为本申请实施例提供的一种文本分类方法的流程图;
图3为不同语言对应文本的示意图;
图4为本申请实施例提供的一种通用分类模型训练框架的示意图;
图5为本申请实施例提供的一种通用分类模型训练过程的示意图;
图6为本申请实施例提供的一种通用分类模型训练过程的示意图;
图7为本申请实施例提供的一种文本分类方法的流程图;
图8为本申请实施例提供的一种文本分类装置的示意图;
图9为本申请实施例提供的服务器的结构示意图;
图10为本申请实施例提供的终端设备的结构示意图。
具体实施方式
下面结合附图,对本申请的实施例进行描述。
鉴于相关技术中,在第一语言向第二语言扩展语言业务的初期,用于训练第二语言对应的分类模型所需的具有标注标签的第二文本样本数量很少的问题,本申请提出一种文本分类方法和相关装置,实现了借助大量第一语言对应的、具有标注标签的第一文本样本训练出可适用于在第二语言下进行文本分类的通用分类模型。
本申请实施例提供的文本分类方法是基于人工智能实现的,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
在本申请实施例中,主要涉及的人工智能软件技术包括上述自然语言处理、机器学习/深度学习等方向。例如,可以涉及自然语言处理(Nature Language processing,NLP)中的文本预处理(Text preprocessing)、语义理解(Semantic understanding),也可以涉及机器学习(Machine learning,ML)中的深度学习(Deep Learning)、迁移学习(transferlearning),包括各类人工神经网络(Artificial Neural Network,ANN)。
本申请提供的文本分类方法可以应用于具有数据处理能力的文本分类设备,如终端设备、服务器。其中,终端设备具体可以为智能手机、台式计算机、笔记本电脑、平板电脑、智能音箱、智能手表等,但并不局限于此等;服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
该文本分类设备可以具备实施自然语言处理的能力,NLP是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。在本申请实施例中,文本分类设备可以通过自然语言处理中的文本预处理、语义理解等技术对文本进行处理。
该文本分类设备可以具备机器学习能力。机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络等技术。
在本申请实施例提供的文本分类方法中采用的人工智能模型主要涉及对神经网络的应用,通过神经网络实现对文本的分类标注。
为了便于理解本申请的技术方案,下面结合实际应用场景,以服务器作为文本分类设备对本申请实施例提供的文本分类方法进行介绍。
参见图1,图1为本申请实施例提供的文本分类方法的应用场景示意图。该实际应用场景为针对于新闻阅读产品,从中文市场推广至英文市场时,需要具备对所涉及的英文文本进行分类标注的能力,例如可以确定英文新闻对应的标注标签等,例如标注标签可以是娱乐新闻、体育新闻、财经新闻等。
服务器100获取对应第一语言的第一样本集合201和对应第二语言的第二样本集合202。在本实施例中,第一语言为中文,第一样本集合201包括第一数量例如10000个第一文本样本<X_A,Y>,X_A表示第一文本样本的文本内容,Y表示该文本内容对应的标注标签,第二语言为英文,第二样本集合202包括第二数量例如100个第二文本样本<X_B,Y>,X_B表示第二文本样本的文本内容,Y表示该文本内容对应的标注标签。
可以看出第一文本样本<X_A,Y>和第二文本样本<X_B,Y>具有基于相同标注规则得到的标注标签Y,标注标签Y可以通过不同的数字表示不同的类别,例如,Y=0表示娱乐新闻,Y=1表示体育新闻,Y=2表示财经新闻。
虽然中文和英文属于不同的语言,但是第一文本样本<X_A,Y>和第二文本样本<X_B,Y>对应的标注标签Y的标识含义是通用的。由此可以将第一样本集合201和第二样本集合202混合,以生成训练样本集合203。如图1所示,根据包括10000个第一文本样本<X_A,Y>的第一样本集合201和包括100个第二文本样本<X_B,Y>的第二样本集合202确定出训练样本集合203。
训练过程中,用于输入初始通用分类模型的输入序列中第一文本样本<X_A,Y>和第二文本样本<X_B,Y>混合排列,该输入序列标识基于第一文本样本<X_A,Y>和第二文本样本<X_B,Y>作为输入数据训练初始通用模型的次序。混合排列的目的在于避免初始通用分类模型先在第一语言拟合,这样会导致通用分类模型对第二语言文本的分类能力降低。由此,在上述训练过程中,训练样本集合203中的第一文本样本<X_A,Y>和第二文本样本<X_B,Y>会以类似交替的方式作为初始通用分类模型的输入数据。例如,训练完两个第一文本样本<X_A,Y>后,再训练一个第二文样本<X_B,Y>,然后再训练一个第一文本样本<X_A,Y>、···,直至对初始通用分类模型训练完毕,得到通用分类模型。
初始通用分类模型在训练过程中,不仅可以充分吸纳中文和英文的文本特征与标注标签间的关联,从而学习到与语言本身无关的分类特性,而且也不会出现因为训练时持续输入第一文本样本<X_A,Y>导致模型先拟合了第一语言的关联知识,反而降低对第二语言文本的分类能力的问题。
由此,将没有标注的英文文本<X_B>输入至训练好的通用分类模型中,从而获得该没有标注的英文文本<X_B>对应的标签Y的类别,实现了借助大量准确的中文样本训练出可适用于在英文下进行文本分类的通用分类模型,不再需要等待人工标注出足量英文样本的时间,提高了新闻阅读产品扩展业务的迭代速度。
下面结合附图,以服务器作为文本分类设备,对本申请实施例提供的一种文本分类方法进行介绍。
参见图2,该图为本申请实施例提供的一种文本分类方法的流程图。如图2所示,该文本分类方法包括以下步骤:
S201:获取对应第一语言的第一样本集合和对应第二语言的第二样本集合。
当产品的业务从第一语言的文本环境向第二语言的文本环境扩展时,在第二语言文本环境扩展的初期,第二语言对应的第二样本集合中具有标注标签的第二文本样本的数量较少,若仅采用少量的第二文本样本训练第二语言所需的分类模型,分类模型将无法得到充分的训练,训练后的分类模型泛化性差。若通过人工的方式慢慢对第二语言的文本进行标注,获得具有标注标签的第二文本样本,不仅浪费人力,而且导致训练第二语言所需的分类模型的周期很长,不利于产品的快速迭代。
基于此,在对第二语言所需的分类模型进行训练时,为了训练出的分类模型更加准确且时间较短,可以获取较多的文本样本对第二语言所需的分类模型进行训练。由此,本申请实施例不仅采用对应第二语言的第二样本集合,还采用对应第一语言的第一样本集合。第一样本集合包括第一数量的第一文本样本,第二样本集合包括第二数量的第二文本样本。由于产品的业务在第一语言的文本环境较为成熟,故可以获取到大量的具有标注标签的第一文本样本,可以理解的是,第一数量会大于第二数量。
进一步,第一文本样本和第二文本样本虽然分别对应于第一语言和第二语言,其文本内容不同,但是第一文本样本和第二文本样本具有基于相同标注规则得到的标注标签,即具有统一分类的目的,其确定出的标注标签的标识含义是通用的,与语言种类无关,故即使第一语言和第二语言的文本内容不同,也可以借助第一样本集合中具有标注标签的第一文本样本训练第二语言所需的分类模型。
由此,可以获取对应第一语言的第一样本集合和对应第二语言的第二样本集合。参见图3,该图为不同语言对应文本的示意图。在该图中,左侧的图形a表示第一样本集合,包括具有标注标签的第一样本文本,中间的图形b表示第二样本集合,包括具有标注标签的第二样本文本,右侧的图形c表示第二语言对应的未标注文本,用于后续进行分类标注。从图3可以看出,第一样本集合中第一文本样本的数量大于第二样本集合中第二文本样本的数量。
S202:根据所述第一样本集合和所述第二样本集合生成训练样本集合。
虽然可以借助第一样本集合中具有标注标签的第一文本样本训练第二语言所需的通用分类模型,但是不能仅使用第一样本集合去训练初始通用分类模型,因为仅使用第一样本集合去训练初始通用分类模型,该初始通用分类模型仅能学习到关于第一语言的文本特征,难以学习到第一语言中文本特征与第二语言中文本特征之间在分类中的关联,在第二语言环境下泛化性较差,而无法在第二语言的文本环境中使用。
基于此,本申请实施例将第一样本集合和第二样本集合混合生成训练样本集合,使用训练样本集合去训练第二语言所需的通用分类模型,以便该通用分类模型不仅能够学习到关于第一语言的文本特征,还能够学习到关于第二语言的文本特征,从而使通用分类模型能够在第二语言的文本环境中使用,且具有较好的泛化性。
S203:基于所述训练样本集合训练初始通用分类模型,得到通用分类模型。
如果在使用训练样本集合训练初始通用分类模型时,采用先利用训练样本集合中的第一样本集合训练初始通用分类模型,再使用训练样本集合中的第二样本集合继续训练该初始通用分类模型的方式,由于第一样本集合的数量较多,会使初始通用分类模型先基于第一语言的文本特征拟合,甚至出现过拟合的情况,导致再使用第二样本集合继续训练初始通用分类模型时,该基于第一样本集合预先训练的初始通用分类模型由于先基于第一语言的文本特征拟合,仅适用于第一语言的文本环境,从而无法充分学习第二样本集合中第二文本样本的文本特征,甚至是无法学习第二样本集合中第二文本样本的文本特征,降低了该初始通用分类模型对第二语言的分类识别精度,从而无法在后续训练过程中较好的学习到第二语言的文本特征。
为了避免上述情况的出现,可以避免将第一样本集合持续输入至初始通用分类模型中。在训练初始通用分类模型时,将第一文本样本与第二文本样本混合,例如类似交替的方式输入至初始通用分类模型中,该初始通用分类模型会同时学习第一语言的文本特征和第二语言的文本特征。其中,初始通用分类模型是初始化的模型,即该初始通用分类模型是没有被训练过的,不是基于第一样本集合预先训练完毕后,再使用第二样本集合调节参数的分类模型。初始通用分类模型的输入序列中第一文本样本和第二文本样本混合排列,该输入序列标识基于第一文本样本和第二文本样本作为输入数据训练初始通用模型的次序,从而保证在训练初始通用分类模型时,初始通用分类模型在充分学习第一语言的文本特征与标注标签间的关联的同时,还能够充分学习第二语言的文本特征与标注标签间的关联,从而使训练得到的通用分类模型学习到与语言种类无关的分类特性,从而适用于第二语言的文本环境。
虽然第一语言和第二语言在语言领域存在差异,但是对于文本分类任务而言,第一语言和第二语言对于文本的分类标签是共通的,也就是说,在不同语言中,具有相同含义的文本以文本特征的形式进行表示后,例如,文本特征可以为字向量、词向量、句向量等数据结构,具有相同含义的文本特征在各自语言空间里面的分布是类似的。采用迁移学习的思想,可以找出第一语言领域与第二语言领域之间具有相同含义的文本特征,然后利用这些文本特征进行知识迁移,将第一语言领域和第二语言领域的文本特征从原始空间映射到新的特征空间中。这样,在新的特征空间中,第一语言与第二语言的文本特征分布相似,从而可以在新的特征空间中,更好地利用第一语言领域中具有标注标签的第一文本样本进行分类训练,使训练好的通用分类模型确定第一语言和第二语言的文本特征分别对应的空间分布信息,以及第一语言和第二语言中具有相同含义的文本所对应的空间映射关系,最终实现对第二语言领域中未标注文本进行文本分类。且该训练得到的通用分类模型不仅适用于第二语言的文本环境,还适用于第一语言的文本环境,在有需要时,可以使用该通用分类模型对第一语言领域中未标注文本进行文本分类。
为了方便说明,下面以第一语言为中文,第二语言为英文,以两个示例进行说明。
示例一:在分析用户对于产品的评论时,初始通用分类模型在训练过程中可以学习到中文用“好”、“优秀”等词汇的含义表达正面情感,英文中用“good”“excellent”等词汇的含义表达正面情感,中文用“不好”“差劲”等词汇的含义表达负面情感,英文中用“bad”“poor”等词汇的含义表达负面情感等。通用分类模型通过训练可以知道在中文中,正面情感这个含义类别下的文本特征,分布在特征空间中的R1区域,负面情感这个含义类别下的文本特征,分布在特征空间中的R2区域。在英文中,正面情感这个含义类别下的文本特征,分布在特征空间中的R3区域,负面情感这个含义类别下的文本特征,分布在特征空间中的R4区域。而且,通过训练通用分类模型还可以学习到R1区域与R3区域的空间映射关系,R3区域与R1区域中的文本特征均表达正面情感,R2区域与R4区域的空间映射关系,R2区域与R4区域的文本特征均表达负面情感。
这样,在基于获得的通用分类模型对未标注文本进行分类标注时,当输入通用分类模型的一个第二语言的文本之前未出现在第二文本样本中,该通用分类模型即使尚未学习到该文本的含义,也可以通过基于前述迁移学习得到空间分布信息和空间映射关系来获得该文本的含义类别。例如,当输入通用分类模型的文本“not good”是之前通用分类模型在训练中未学习到的陌生文本时,通用分类模型会通过“not good”的文本特征在特征空间中所处区域来确定该文本可能的含义,例如若所处区域为R4区域,通用分类模型可以基于R4区域所体现的含义类型,R4区域与R2区域具有空间映射关系,均表达负面情感,从而确定该文本“not good”应该属于的含义分类为负面情感的文本。
示例二:在对新闻对应的标注标签进行分类时,初始通用分类模型在训练过程中可以学习到中文中“苹果”“西瓜”等词汇的含义属于水果类词汇,“白菜”“茄子”等词汇的含义属于蔬菜类词汇,“鸡肉”等词汇的含义属于肉类词汇。英文中“Apple”“watermelon”等词汇的含义属于水果类词汇,“Chinese cabbage”“eggplant”等词汇的含义属于蔬菜类词汇。不管中文、英文,在各自的语言体系里特征分布都是接近的,所以,在中文中,词汇含义属于水果类别下的文本特征,分布在特征空间中的R5区域,词汇含义属于蔬菜类别下的文本特征,分布在特征空间中的R6区域,词汇含义属于肉类别下的文本特征,分布在特征空间中的R7区域。在英文的特征空间中,词汇含义属于水果类别下的文本特征,分布在特征空间中的R8区域,词汇含义属于蔬菜类别下的文本特征,分布在特征空间中的R9区域。虽然中文与英文是不同的语言,但是两种语言均是用于针对新闻对应的标注标签进行分类,不管中文还是英文,在新闻类中出现的词汇基本固定,所以初始通用分类模型在训练过程中还能够学习到中文的文本特征和英文的文本特征具有相同含义的文本所对应的空间映射关系,例如,R5区域与R8区域具有空间映射关系,R6区域与R9区域具有空间映射关系。
这样,当输入通用分类模型的文本“beef”是之前通用分类模型在训练中未学习到的陌生文本时,通用分类模型会根据“beef”的文本特征判断出该文本特征分布在英文特征空间中的R10区域,通过比对中文的特征空间与英文的特征空间的空间分布信息和已经确定的中文的文本特征和英文的文本特征具有相同含义的文本所对应的空间映射关系,例如,在英文的特征空间中,R8区域、R9区域和R10区域的空间分布信息与在中文的特征空间中,R5区域、R6区域和R7区域的空间分布信息相似,且R5区域与R8区域具有空间映射关系,R6区域与R9区域具有空间映射关系,由此可以判断出R10区域与R7区域具有空间映射关系,其中R7区域的文本特征在中文的特征空间中属于的含义分类为肉类,由此,R10区域的文本特征在英文的特征空间中属于的含义分类应该为肉类,“beef”的标注标签为肉类。
S204:通过所述通用分类模型对未标注文本进行分类标注,所述未标注文本为对应所述第二语言的文本。
将对应于第二语言的未标注文本输入到训练好的通用分类模型中,从而获得未标注文本对应的分类标注。由此,虽然第二文本样本的标注标签较少,但是可以借助第一文本样本的标注标签,第一文本样本的标注标签不仅数量较多而且准确度较高,第一样本集合和第二样本集合混合共同训练出可适用于在第二语言下进行文本分类的通用分类模型,不再需要等待人工标注出足量第二文本样本的时间,提高了产品扩展业务的迭代速度。
可见,当对应第二语言的第二文本样本数量较少时,可以基于既包括第一文本样本,也包括第二文本样本的训练样本集合训练初始通用分类模型,训练过程中,第一文本样本和第二文本样本会以类似交替的方式作为初始通用分类模型的输入数据,使得初始通用分类模型在训练过程中,不仅可以充分吸纳两种语言的文本特征与标注标签间的关联,学习到与语言本身无关的分类特性,而且也不会出现因为训练时持续输入第一文本样本导致模型先拟合了第一语言的关联知识,反而降低对第二语言文本的分类能力的问题。由此实现了借助大量准确的第一文本样本训练出可适用于在第二语言下进行文本分类的通用分类模型,不再需要等待人工标注出足量第二文本样本的时间,提高了产品扩展业务的迭代速度。
为了避免初始通用分类模型先在第一语言拟合,导致通用分类模型对第二语言的文本分类能力降低的情况出现,用于输入初始通用分类模型的输入序列中的第一文本样本和第二文本样本混合排列,下面介绍基于混合排列的第一文本样本和第二文本样本作为输入,初始通用分类模型的三种训练方式。
方式一:在训练样本集合中,将第一文本样本和第二文本样本混合排列,然后基于训练样本集合训练初始通用分类模型,例如,可以将训练样本集合中的文本样本顺序输入至初始通用分类模型,得到通用分类模型。
方式二:从训练样本集合中随机抽取第一文本样本或第二文本样本作为初始通用分类模型输入,保证第一文本样本不会持续输入至初始通用分类模型,以对初始通用分类模型进行训练,得到通用分类模型。
方式三:不仅使用方式一,还使用方式二。具体地,在训练样本集合中,将第一文本样本和第二文本样本混合,随机抽取第一文本样本或第二文本样本作为初始通用分类模型输入,以对初始通用分类模型进行训练,得到通用分类模型。
在实际应用中,可能会出现第一样本集合中的第一文本样本数量远远大于第二样本集合中的第二文本样本数量,即第一数量远远大于第二数量。为了避免在后续训练过程中,即使混合输入第一文本样本和第二文本样本至初始通用分类模型中,初始通用分类模型还是会学习到太多针对于第一语言的文本特征,从而出现训练得到的通用分类模型不适用于第二语言的文本环境的情况,由此,可以基于第一数量,适当增加第二样本集合中第二文本样本的数量,基于第一样本集合和扩充后的第二样本集合生成训练样本集合,从而平衡训练样本集合中第一样本集合中的第一文本样本数量和第二样本集合的第二文本样本数量,使第一数量和第二数量相同或相近,根据扩充后的第二样本集合和第一样本集合生成训练样本集合,从而使初始通用分类模型学习到的第一语言的文本特征和第二语言的文本特征比重相同或相近,避免初始通用分类模型在训练过程中学习到太多关于第一语言的文本特征,在第一语言上拟合,降低该分类模型对第二语言的分类识别精度。
例如,在训练样本集合中,第一样本集合中第一文本样本的数量为1000个,第二样本集合中第二文本样本的数量为100个,基于第一数量1000个,将第二文本样本进行复制,将其从100个复制到1000个,从而使扩充后的第二样本集合中第二文本样本的数量也为1000个,将第一样本集合和扩充后的第二样本集合混合,生成训练样本集合,此时,训练样本集合中第二文本样本的数量与第一文本样本的数量相同。
为了本领域技术人更加清楚本申请的技术方案,下面结合图4-图6对初始通用分类模型的训练过程进行说明。
参见图4,该图为本申请实施例提供的一种通用分类模型训练框架的示意图。该训练框架中包括三个模型,分别为第一特征模型、第二特征模型和初始通用分类模型。其中,第一特征模型用于提取第一样本集合中第一文本样本的文本特征,例如第一文本样本的字向量、词向量、句子向量等。第二特征模型用于提取第二样本集合中第二文本样本的文本特征,例如第二文本样本的字向量、词向量、句子向量等。初始通用分类模型用于获得第一文本样本和第二文本样本分别对应的待定标签,由前述可知,第一语言和第二语言的文本分类目标是相同的,所以可以使用同一个初始通用分类模型进行训练,从而训练获得与语言种类无关的通用分类模型。
本申请实施例不具体限定第一特征模型和第二特征模型,例如可以为基于变形的双向编码表征(Bidirectional Encoder Representations from Transformers,BERT)模型、用于语言理解的广义自回归预训练(Generalized Autoregressive Pretraining forLanguage Understanding,XLNet)模型、鲁棒优化的BERT预训练(Robustly OptimizedBERT Pretraining Approach,RoBERTa)模型等模型。
需要说明的是,在训练框架中,第一特征模型和第二特征模型为训练好的模型。例如,在训练初始通用分类模型之前通过GPU集群利用第一文本样本训练出第一特征模型,利用第二文本样本训练出第二特征模型,从而通过训练好的第一特征模型和第二特征模型可以分别提取第一文本样本和第二文本样本分别对应的文本特征。
由前述可知,训练样本集合中既包括第一文本样本,又包括第二文本样本,在基于训练样本集合进行训练时,如果遇到第一文本样本,可以利用图5所示的训练过程训练初始通用模型,如果遇到第二文本样本,可以利用图6所示的训练过程训练初始通用模型,下面分别进行介绍。
参见图5,该图为本申请实施例提供的一种通用分类模型训练过程的示意图。
针对从训练样本集合中提取的第一文本样本,将其输入至第一特征模型中,从而通过第一特征模型提取第一文本样本的文本特征。将第一文本样本的文本特征输入至初始通用分类模型中,通过初始通用分类模型得到第一文本样本对应的第一待定标签。根据第一待定标签和第一文本样本对应的标注标签调整初始通用分类模型的参数。
参见图6,该图为本申请实施例提供的一种通用分类模型训练过程的示意图。
针对从训练样本集合中提取的第二文本样本,将其输入至第二特征模型中,从而通过第二特征模型提取二文本样本的文本特征。将第二文本样本的文本特征输入至初始通用分类模型中,通过初始通用分类模型得到第二文本样本对应的第二待定标签。根据第二待定标签和第二文本样本对应的标注标签调整初始通用分类模型的参数。
由此,第一文本样本通过第一特征模型进行提取,第二文本样本通过第二特征模型进行提取,二者不会互相混淆。例如,当第一文本样本为一篇文章时,通过第一特征模型可以提取该文章的词向量,然后输入到初始通用分类模型继续进行训练。从而可以有针对性的提取不同语言文本样本的文本特征,更好地训练初始通用分类模型。
为了保证初始通用分类模型的训练过程具有一致性,可以在训练初始通用分类模型过程中,仅调整初始通用分类模型的参数,固定第一特征模型和第二特征模型的参数不变。在训练过程中,第一特征模型和第二特征模型的参数不变,可以保证提取的文本特征的规则是相同的,即使提取到的文本特征存在误差,该误差也是相同的,不会发生变化。从而初始通用分类模型在训练时能够较好的关注文本特征在对应语言中的空间分布信息,以及第一语言和第二语言的文本特征间的空间映射关系,进而训练出的通用分类模型能够具有与语言本身无关的分类特性,得到较好的分类结果。
本申请提供的技术方案可以应用到各类涉及文本内容的产品中,例如信息流产品、论坛产品、社区产品、电商产品等。以新闻阅读产品为例,第一文本样本或第二文本样本的标注标签用于标识所对应文本样本的文本类别,如娱乐新闻、体育新闻等,通过通用分类模型可以对第二语言中未标注文本进行分类标注,以通过确定的标注标签标识未标注文本的文本类别。从而实现确定第二语言新闻对应的文本类别。
进一步的,在第二语言文本环境扩展的初期,可以先使用通用分类模型作为跨语言的应急措施,当获得了较多第二语言中未标注文本对应标注标签后,例如通过人工运营的方式慢慢积累未标注文本对应标注标签,又或者通过通用分类模型获得未标注文本对应标注标签,可以根据确定了标注标签的未标注文本和第二样本集合,训练对应第二语言的分类模型,从而使第二该分类模型在第二语言对应的文本环境下更具有针对性,提高该分类模型对第二语言的分类识别精度。
当产品的业务继续向第三语言进行扩展时,可以利用相同的方式(参见上述获得对第二语言中未标注文本进行分类的通用分类模型实施例的部分说明即可),帮助产品的业务在第三语言文本环境通过通用分类模型度过扩展的初期。具体地,获取对应第三语言的第三样本集合,第三样本集合包括第三数量的第三文本样本,第三文本样本和第一文本样本、第二样本集合具有基于相同标注规则得到的标注标签,第一数量大于第三数量,本申请不限定第二数量和第三数量的关系。然后根据第一样本集合、第二样本集合和第三样本集合生成训练样本集合。在基于训练样本集合训练初始通用分类模型时,用于输入所述初始通用分类模型的输入序列中第一文本样本、第二文本样本和第三文本样本混合排列,从而得到通用分类模型。由此,可以借助第一语言具有标注标签的第一文本样本和第二语言中的具有标注标签的第二文本样本获得通用分类模型,从而对第三语言中未标注文本进行分类标注。
接下来,将结合具体场景对本申请实施例提供的文本分类方法进行介绍。该场景为某公司将该公司的某聊天应用程序产品APP从中文市场推广至英文市场,即第一语言是中文,第二语言是英文。该公司希望通过英文用户对该APP的用户评论进行情感极性分析,分析出用户是否喜欢或者不喜欢该APP,以便改进该APP,提升用户体验。参见图7,该图为本申请实施例提供的一种文本分类方法的流程图,该方法包括:
S701:获取对应中文的中文样本集合和对应英文的英文样本集合。
由于推广初期,英文文本样本的数量较少,无法训练出泛化性较强的情感极性分类模型,而且通过人工标注提升英文文本样本的数量,不仅浪费人力,还会导致训练英文所需的情感极性分类模型的周期较长,不利于该APP快速推广至英文市场。
基于此,可以获取具有标注标签的中文文本样本,帮助训练英文所需的情感极性分类模型,中文样本集合中包括第一数量的中文文本样本,英文样本集合包括第二数量的英文文本样本,不论中文文本样本的标注标签还是英文文本样本的标注标签,均是具有相同的标注规则进行标注的。可以理解的是,第一数量大于第二数量。
S702:将英文样本集合中的英文文本样本进行复制,将英文文本样本的数量扩充至第一数量,得到扩充后的英文样本集合。
由于在实际推广过程中,中文文本样本的数量一般远远大于英文文本样本的数量。为了避免后续在训练过程中,初始通用情感极性分类模型学习到太多关于中文的文本特征,降低了对英文的文本特征的分类识别精度,需要平衡英文文本样本的数量和中文文本样本的数量,由此,可以基于第一数量,对英文文本样本进行复制,使扩充后的英文样本集合中的数量达到第一数量。
S703:根据中文样本集合和扩充后的英文样本集合生成训练样本集合。
将中文文本样本和扩充后的英文文本样本进行混合,生成训练样本集合,使得在训练初始通用情感极性分类模型时,输入至该分类模型的中文文本样本和英文文本样本的数量相同,使得该分类模型不仅能够学习到关于中文的文本特征,还能够学习到关于英文的文本特征,从而使通用情感极性分类模型能够在英文的文本环境中使用,且具有较好的泛化性。
S704:基于训练样本集合训练初始通用情感极性分类模型,得到通用情感极性分类模型。
在训练过程中,中文文本样本和英文文本样本混合排列输入至初始通用情感极性分类模型,以避免初始通用情感极性分类模型针对中文先拟合。
在训练时,如果从训练样本集合中提取是的中文文本样本,通过第一特征模型提取中文文本样本的文本特征,根据中文文本样本的文本特征,通过初始通用情感极性分类模型得到对应的第一待定标签,根据第一待定标签和中文文本样本对应的标注标签调整初始通用情感极性分类模型的模型参数。
如果从训练样本集合中提取的是英文文本样本,通过第二特征模型提取英文文本样本的文本特征,根据英文文本样本的文本特征,通过初始通用情感极性分类模型得到对应的第二待定标签,根据第二待定标签和英文文本样本对应的标注标签调整初始通用情感极性分类模型的模型参数。
初始通用情感极性分类模型可以采取如前述所述的三种训练方式,在此不再赘述。
S705:通过通用情感极性分类模型对英文中未标注文本进行分类标注,以通过确定的标注标签标识未标注文本的情感极性。
将对应于英文的未标注文本输入到训练好的通用情感极性分类模型中,从而获得英文中未标注文本对应的分类标注。其中,分类标注可以为正面情感类型和负面情感类型。由此,虽然英文文本样本的标注标签较少,但是可以借助大量的中文文本样本的标注标签,将中文样本集合和英文样本集合混合后,共同训练出可适用于对英文中未标注进行文本分类的通用情感极性分类模型,从而不再需要等待人工标注出足量英文文本样本的时间,提高了产品扩展业务的迭代速度。
S706:根据确定了标注标签的未标注文本和英文样本集合,训练对应英文的情感极性分类模型。
由此,该APP在从中文市场推向英文市场时,可以利用大量中文文本样本的标注标签和少量英文文本样本的标注标签共同训练通用情感极性分类模型,从而利用通用情感极性分类模型分析英文用户评论中没有标注标签的文本的情感极性。通过通用情感极性分类模型获得大量的具有标注标签的英文文本样本后,可以训练专用于对应英文的情感极性分类模型,从而通过通用情感极性分类模型帮助该APP在推广初期,快速分析英文用户评论的情感极性,在推广后期,根据足量的英文文本样本训练对应英文的情感极性分类模型,从而改进该APP,使该APP快速迭代,提升用户体验。
针对上述实施例提供的文本分类方法,本申请实施例还提供了一种文本分类装置。
参见图8,图8为本申请实施例提供的一种文本分类装置的示意图。如图8所示,该文本分类装置800,包括获取单元801、生成单元802、训练单元803和分类单元804:
所述获取单元801,用于获取对应第一语言的第一样本集合和对应第二语言的第二样本集合,所述第一样本集合包括第一数量的第一文本样本,所述第二样本集合包括第二数量的第二文本样本,所述第一文本样本和所述第二文本样本具有基于相同标注规则得到的标注标签,所述第一数量大于所述第二数量;
所述生成单元802,用于根据所述第一样本集合和所述第二样本集合生成训练样本集合;
所述训练单元803,用于基于所述训练样本集合训练初始通用分类模型,得到通用分类模型,在训练所述初始通用分类模型时,用于输入所述初始通用分类模型的输入序列中所述第一文本样本和所述第二文本样本混合排列;
所述分类单元804,用于通过所述通用分类模型对未标注文本进行分类标注,所述未标注文本为对应所述第二语言的文本。
作为一种可能的实现方式,所述训练单元803的训练方式包括以下任一方式,或多种方式的组合:
方式一:将所述训练样本集合中的所述第一文本样本和所述第二文本样本混合排列,并基于所述训练样本集合训练所述初始通用分类模型,得到通用分类模型;或,
方式二:从所述训练样本集合中随机抽取所述第一文本样本或所述第二文本样本作为所述初始通用分类模型输入,以对所述初始通用分类模型进行训练,得到通用分类模型。
作为一种可能的实现方式,所述生成单元802,用于:
基于所述第一数量,根据所述第二文本样本对所述第二样本集合进行样本数量扩充,得到扩充后的第二样本集合;
根据所述第一样本集合和所述扩充后的第二样本集合生成训练样本集合。
作为一种可能的实现方式,所述训练单元803在训练的过程中,用于:
针对从所述训练样本集合中提取的第一文本样本,通过第一特征模型提取所述第一文本样本的文本特征;
根据所述第一文本样本的文本特征,通过所述初始通用分类模型得到对应的第一待定标签;
根据所述第一待定标签和所述第一文本样本对应的标注标签调整所述初始通用分类模型的模型参数;
针对从所述训练样本集合中提取的第二文本样本,通过第二特征模型提取所述第二文本样本的文本特征;
根据所述第二文本样本的文本特征,通过所述初始通用分类模型得到对应的第二待定标签;
根据所述第二待定标签和所述第二文本样本对应的标注标签调整所述初始通用分类模型的模型参数。
作为一种可能的实现方式,所述通用分类模型通过所述训练确定所述第一语言和所述第二语言的文本特征分别对应的空间分布信息,以及所述第一语言和所述第二语言中具有相同含义的文本所对应文本特征间的空间映射关系。
作为一种可能的实现方式,所述第一文本样本或所述第二文本样本的标注标签用于标识所对应文本样本的文本类别,所述分类单元804,用于:
通过所述通用分类模型对未标注文本进行分类标注,以通过确定的标注标签标识所述未标注文本的文本类别。
作为一种可能的实现方式,所述装置还包括第二语言的分类模型生成单元,用于:
根据确定了标注标签的所述未标注文本和所述第二样本集合,训练对应所述第二语言的分类模型。
作为一种可能的实现方式,所述装置还包括多种语言的通用模型生成单元,用于:
获取对应第三语言的第三样本集合,所述第三样本集合包括第三数量的第三文本样本,所述第三文本样本和所述第一文本样本具有基于相同标注规则得到的标注标签,所述第一数量大于所述第三数量;
根据所述第一样本集合、所述第二样本集合和所述第三样本集合生成所述训练样本集合;
在所述基于所述训练样本集合训练初始通用分类模型,得到通用分类模型,在训练所述初始通用分类模型时,用于输入所述初始通用分类模型的输入序列中所述第一文本样本、所述第二文本样本和所述第三文本样本混合排列;
在所述通过所述通用分类模型对未标注文本进行分类标注时,所述未标注文本还包括对应所述第三语言的文本。
上述实施例提供的文本分类装置,基于既包括第一文本样本,也包括第二文本样本的训练样本集合训练初始通用分类模型,训练过程中,第一文本样本和第二文本样本会以类似交替的方式作为初始通用分类模型的输入数据,使得初始通用分类模型在训练过程中,不仅可以充分吸纳两种语言的文本特征与标注标签间的关联,从而学习到与语言本身无关的分类特性,而且也不会出现因为训练时持续输入第一文本样本导致模型先拟合了第一语言的关联知识,反而降低对第二语言文本的分类能力的问题。由此实现了借助大量准确的第一文本样本训练出可适用于在第二语言下进行文本分类的通用分类模型,不再需要等待人工标注出足量第二文本样本的时间,提高了产品扩展业务的迭代速度。
本申请实施例还提供了一种计算机设备,下面将从硬件实体化的角度对本申请实施例提供的计算机设备进行介绍。
参见图9,图9是本申请实施例提供的一种服务器结构示意图,该服务器1400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(centralprocessing units,CPU)1422(例如,一个或一个以上处理器)和存储器1432,一个或一个以上存储应用程序1442或数据1444的存储介质1430(例如一个或一个以上海量存储设备)。其中,存储器1432和存储介质1430可以是短暂存储或持久存储。存储在存储介质1430的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1422可以设置为与存储介质1430通信,在服务器1400上执行存储介质1430中的一系列指令操作。
服务器1400还可以包括一个或一个以上电源1426,一个或一个以上有线或无线网络接口1450,一个或一个以上输入输出接口1458,和/或,一个或一个以上操作系统1441,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由服务器所执行的步骤可以基于该图9所示的服务器结构。
其中,CPU 1422用于执行如下步骤:
获取对应第一语言的第一样本集合和对应第二语言的第二样本集合,所述第一样本集合包括第一数量的第一文本样本,所述第二样本集合包括第二数量的第二文本样本,所述第一文本样本和所述第二文本样本具有基于相同标注规则得到的标注标签,所述第一数量大于所述第二数量;
根据所述第一样本集合和所述第二样本集合生成训练样本集合;
基于所述训练样本集合训练初始通用分类模型,得到通用分类模型,在训练所述初始通用分类模型时,用于输入所述初始通用分类模型的输入序列中所述第一文本样本和所述第二文本样本混合排列;
通过所述通用分类模型对未标注文本进行分类标注,所述未标注文本为对应所述第二语言的文本。
可选的,CPU 1422还可以执行本申请实施例中文本分类方法任一具体实现方式的方法步骤。
针对上文描述的文本分类方法,本申请实施例还提供了一种用于文本分类的终端设备,以使上述文本分类方法在实际中实现以及应用。
参见图10,图10为本申请实施例提供的一种终端设备的结构示意图。为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请实施例方法部分。该终端设备可以为包括手机、平板电脑、个人数字助理(Personal DigitalAssistant,简称PDA)等任意终端设备,以终端设备为手机为例:
图10示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图10,该手机包括:射频(Radio Frequency,简称RF)电路1510、存储器1520、输入单元1530、显示单元1540、传感器1550、音频电路1560、无线保真(wireless fidelity,简称WiFi)模块1570、处理器1580、以及电源1590等部件。本领域技术人员可以理解,图10中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图10对手机的各个构成部件进行具体的介绍:
RF电路1510可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器1580处理;另外,将设计上行的数据发送给基站。通常,RF电路1510包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier,简称LNA)、双工器等。此外,RF电路1510还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(Global System of Mobile communication,简称GSM)、通用分组无线服务(GeneralPacket Radio Service,简称GPRS)、码分多址(Code Division Multiple Access,简称CDMA)、宽带码分多址(Wideband Code Division Multiple Access,简称WCDMA)、长期演进(Long Term Evolution,简称LTE)、电子邮件、短消息服务(Short Messaging Service,简称SMS)等。
存储器1520可用于存储软件程序以及模块,处理器1580通过运行存储在存储器1520的软件程序以及模块,从而实现手机的各种功能应用以及数据处理。存储器1520可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1520可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元1530可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元1530可包括触控面板1531以及其他输入设备1532。触控面板1531,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1531上或在触控面板1531附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板1531可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器1580,并能接收处理器1580发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1531。除了触控面板1531,输入单元1530还可以包括其他输入设备1532。具体地,其他输入设备1532可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元1540可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1540可包括显示面板1541,可选的,可以采用液晶显示器(LiquidCrystal Display,简称LCD)、有机发光二极管(Organic Light-Emitting Diode,简称OLED)等形式来配置显示面板1541。进一步的,触控面板1531可覆盖显示面板1541,当触控面板1531检测到在其上或附近的触摸操作后,传送给处理器1580以确定触摸事件的类型,随后处理器1580根据触摸事件的类型在显示面板1541上提供相应的视觉输出。虽然在图10中,触控面板1531与显示面板1541是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板1531与显示面板1541集成而实现手机的输入和输出功能。
手机还可包括至少一种传感器1550,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板1541的亮度,接近传感器可在手机移动到耳边时,关闭显示面板1541和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路1560、扬声器1561,传声器1562可提供用户与手机之间的音频接口。音频电路1560可将接收到的音频数据转换后的电信号,传输到扬声器1561,由扬声器1561转换为声音信号输出;另一方面,传声器1562将收集的声音信号转换为电信号,由音频电路1560接收后转换为音频数据,再将音频数据输出处理器1580处理后,经RF电路1510以发送给比如另一手机,或者将音频数据输出至存储器1520以便进一步处理。
WiFi属于短距离无线传输技术,手机通过WiFi模块1570可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图10示出了WiFi模块1570,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器1580是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器1520内的软件程序和/或模块,以及调用存储在存储器1520内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器1580可包括一个或多个处理单元;优选的,处理器1580可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1580中。
手机还包括给各个部件供电的电源1590(比如电池),优选的,电源可以通过电源管理系统与处理器1580逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本申请实施例中,该手机所包括的存储器1520可以存储程序代码,并将所述程序代码传输给所述处理器。
该手机所包括的处理器1580可以根据所述程序代码中的指令执行上述实施例提供的文本分类方法。
本申请实施例还提供一种计算机可读存储介质,用于存储计算机程序,该计算机程序用于执行上述实施例提供的文本分类方法。
本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方面的各种可选实现方式中提供的文本分类方法。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质可以是下述介质中的至少一种:只读存储器(英文:read-only memory,缩写:ROM)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备及系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本申请的一种具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

Claims (11)

1.一种文本分类方法,其特征在于,所述方法包括:
获取对应第一语言的第一样本集合和对应第二语言的第二样本集合,所述第一样本集合包括第一数量的第一文本样本,所述第二样本集合包括第二数量的第二文本样本,所述第一文本样本和所述第二文本样本具有基于相同标注规则得到的标注标签,所述第一数量大于所述第二数量;
根据所述第一样本集合和所述第二样本集合生成训练样本集合;
基于所述训练样本集合训练初始通用分类模型,得到通用分类模型,在训练所述初始通用分类模型时,用于输入所述初始通用分类模型的输入序列中所述第一文本样本和所述第二文本样本混合排列;
通过所述通用分类模型对未标注文本进行分类标注,所述未标注文本为对应所述第二语言的文本。
2.根据权利要求1所述的方法,其特征在于,所述基于所述训练样本集合训练初始通用分类模型,得到通用分类模型,包括以下任一方式,或多种方式的组合:
方式一:将所述训练样本集合中的所述第一文本样本和所述第二文本样本混合排列,并基于所述训练样本集合训练所述初始通用分类模型,得到通用分类模型;或,
方式二:从所述训练样本集合中随机抽取所述第一文本样本或所述第二文本样本作为所述初始通用分类模型输入,以对所述初始通用分类模型进行训练,得到通用分类模型。
3.根据权利要求1所述的方法,其特征在于,所述根据所述第一样本集合和所述第二样本集合生成训练样本集合,包括:
基于所述第一数量,根据所述第二文本样本对所述第二样本集合进行样本数量扩充,得到扩充后的第二样本集合;
根据所述第一样本集合和所述扩充后的第二样本集合生成训练样本集合。
4.根据权利要求1所述的方法,其特征在于,在所述基于所述训练样本集合训练初始通用分类模型的过程中,包括:
针对从所述训练样本集合中提取的第一文本样本,通过第一特征模型提取所述第一文本样本的文本特征;
根据所述第一文本样本的文本特征,通过所述初始通用分类模型得到对应的第一待定标签;
根据所述第一待定标签和所述第一文本样本对应的标注标签调整所述初始通用分类模型的模型参数;
针对从所述训练样本集合中提取的第二文本样本,通过第二特征模型提取所述第二文本样本的文本特征;
根据所述第二文本样本的文本特征,通过所述初始通用分类模型得到对应的第二待定标签;
根据所述第二待定标签和所述第二文本样本对应的标注标签调整所述初始通用分类模型的模型参数。
5.根据权利要求1-4任意一项所述的方法,其特征在于,所述通用分类模型通过所述训练确定所述第一语言和所述第二语言的文本特征分别对应的空间分布信息,以及所述第一语言和所述第二语言中具有相同含义的文本所对应文本特征间的空间映射关系。
6.根据权利要求1所述的方法,其特征在于,所述第一文本样本或所述第二文本样本的标注标签用于标识所对应文本样本的文本类别,所述通过所述通用分类模型对未标注文本进行分类标注,包括:
通过所述通用分类模型对未标注文本进行分类标注,以通过确定的标注标签标识所述未标注文本的文本类别。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
根据确定了标注标签的所述未标注文本和所述第二样本集合,训练对应所述第二语言的分类模型。
8.根据权利要求1-4任意一项所述的方法,其特征在于,所述方法还包括:
获取对应第三语言的第三样本集合,所述第三样本集合包括第三数量的第三文本样本,所述第三文本样本和所述第一文本样本具有基于相同标注规则得到的标注标签,所述第一数量大于所述第三数量;
所述根据所述第一样本集合和所述第二样本集合生成训练样本集合,包括:
根据所述第一样本集合、所述第二样本集合和所述第三样本集合生成所述训练样本集合;
在所述基于所述训练样本集合训练初始通用分类模型,得到通用分类模型,在训练所述初始通用分类模型时,用于输入所述初始通用分类模型的输入序列中所述第一文本样本、所述第二文本样本和所述第三文本样本混合排列;
在所述通过所述通用分类模型对未标注文本进行分类标注时,所述未标注文本还包括对应所述第三语言的文本。
9.一种文本分类装置,其特征在于,所述装置包括:获取单元、生成单元、训练单元和分类单元;
所述获取单元,用于获取对应第一语言的第一样本集合和对应第二语言的第二样本集合,所述第一样本集合包括第一数量的第一文本样本,所述第二样本集合包括第二数量的第二文本样本,所述第一文本样本和所述第二文本样本具有基于相同标注规则得到的标注标签,所述第一数量大于所述第二数量;
所述生成单元,用于根据所述第一样本集合和所述第二样本集合生成训练样本集合;
所述训练单元,用于基于所述训练样本集合训练初始通用分类模型,得到通用分类模型,在训练所述初始通用分类模型时,用于输入所述初始通用分类模型的输入序列中所述第一文本样本和所述第二文本样本混合排列;
所述分类单元,用于通过所述通用分类模型对未标注文本进行分类标注,所述未标注文本为对应所述第二语言的文本。
10.一种计算机设备,其特征在于,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1-8任意一项所述的方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行权利要求1-8任意一项所述的方法。
CN202011222967.6A 2020-11-05 2020-11-05 一种文本分类方法和相关装置 Pending CN112214605A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011222967.6A CN112214605A (zh) 2020-11-05 2020-11-05 一种文本分类方法和相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011222967.6A CN112214605A (zh) 2020-11-05 2020-11-05 一种文本分类方法和相关装置

Publications (1)

Publication Number Publication Date
CN112214605A true CN112214605A (zh) 2021-01-12

Family

ID=74058334

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011222967.6A Pending CN112214605A (zh) 2020-11-05 2020-11-05 一种文本分类方法和相关装置

Country Status (1)

Country Link
CN (1) CN112214605A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113177119A (zh) * 2021-05-07 2021-07-27 北京沃东天骏信息技术有限公司 文本分类模型训练、分类方法和系统及数据处理系统
CN113312899A (zh) * 2021-06-18 2021-08-27 网易(杭州)网络有限公司 文本分类方法、装置和电子设备
CN113468108A (zh) * 2021-09-06 2021-10-01 辰风策划(深圳)有限公司 基于特征数据识别的企业策划方案智能管理分类系统
CN113535964A (zh) * 2021-09-15 2021-10-22 深圳前海环融联易信息科技服务有限公司 企业分类模型智能构建方法、装置、设备及介质
CN114372462A (zh) * 2021-12-15 2022-04-19 城云科技(中国)有限公司 事件陈述文本的关键信息提取方法、装置及应用

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113177119A (zh) * 2021-05-07 2021-07-27 北京沃东天骏信息技术有限公司 文本分类模型训练、分类方法和系统及数据处理系统
CN113177119B (zh) * 2021-05-07 2024-02-02 北京沃东天骏信息技术有限公司 文本分类模型训练、分类方法和系统及数据处理系统
CN113312899A (zh) * 2021-06-18 2021-08-27 网易(杭州)网络有限公司 文本分类方法、装置和电子设备
CN113312899B (zh) * 2021-06-18 2023-07-04 网易(杭州)网络有限公司 文本分类方法、装置和电子设备
CN113468108A (zh) * 2021-09-06 2021-10-01 辰风策划(深圳)有限公司 基于特征数据识别的企业策划方案智能管理分类系统
CN113535964A (zh) * 2021-09-15 2021-10-22 深圳前海环融联易信息科技服务有限公司 企业分类模型智能构建方法、装置、设备及介质
CN113535964B (zh) * 2021-09-15 2021-12-24 深圳前海环融联易信息科技服务有限公司 企业分类模型智能构建方法、装置、设备及介质
CN114372462A (zh) * 2021-12-15 2022-04-19 城云科技(中国)有限公司 事件陈述文本的关键信息提取方法、装置及应用

Similar Documents

Publication Publication Date Title
KR102646667B1 (ko) 이미지 영역을 찾기 위한 방법, 모델 훈련 방법 및 관련 장치
CN111553162B (zh) 一种意图识别的方法以及相关装置
CN112214605A (zh) 一种文本分类方法和相关装置
CN110795528A (zh) 一种数据查询方法、装置、电子设备及存储介质
CN111177371B (zh) 一种分类方法和相关装置
CN113821589B (zh) 一种文本标签的确定方法及装置、计算机设备和存储介质
CN110852109A (zh) 语料生成方法、语料生成装置、和存储介质
CN111597804B (zh) 一种实体识别模型训练的方法以及相关装置
CN112749252B (zh) 一种基于人工智能的文本匹配方法和相关装置
CN110209810A (zh) 相似文本识别方法以及装置
CN109543014B (zh) 人机对话方法、装置、终端及服务器
CN114357278B (zh) 一种话题推荐方法、装置及设备
CN114328852A (zh) 一种文本处理的方法、相关装置及设备
CN111651604A (zh) 基于人工智能的情感分类方法和相关装置
CN112862021B (zh) 一种内容标注方法和相关装置
CN113822038B (zh) 一种摘要生成方法和相关装置
CN113269279B (zh) 一种多媒体内容分类方法和相关装置
CN116975295B (zh) 一种文本分类方法、装置及相关产品
CN114328908A (zh) 一种问答语句质检方法、装置及相关产品
CN111738000B (zh) 一种短语推荐的方法以及相关装置
CN110781274A (zh) 一种问答对生成的方法与装置
CN112036135B (zh) 一种文本处理方法和相关装置
CN113569043A (zh) 一种文本类别确定方法和相关装置
CN113703883A (zh) 一种交互方法和相关装置
CN116259083A (zh) 一种图像质量识别模型的确定方法和相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40038206

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination