CN112052333B

CN112052333B - 文本分类方法及装置、存储介质和电子设备

Info

Publication number: CN112052333B
Application number: CN202010843450.2A
Authority: CN
Inventors: 刘曙铭
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd; Shenzhen Huantai Technology Co Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd; Shenzhen Huantai Technology Co Ltd
Priority date: 2020-08-20
Filing date: 2020-08-20
Publication date: 2024-04-30
Anticipated expiration: 2040-08-20
Also published as: CN112052333A

Abstract

本公开提供一种文本分类方法、文本分类装置、存储介质和电子设备，涉及计算机技术领域。该文本分类方法包括：获取待分类的文本数据，并将所述待分类的文本数据转化为多个类型的编码特征；通过对所述多个类型的编码特征进行共同编码，得到所述待分类的文本数据的公共分类向量；对所述公共分类向量进行分类处理，得到所述公共分类向量对应的初次分类结果；结合关键词匹配方式，对所述初次分类结果进行再次分类，以得到所述待分类的文本数据对应的类别标签。本公开实施例能够提高文本分类的准确性。

Description

文本分类方法及装置、存储介质和电子设备

技术领域

本公开涉及计算机技术领域，具体而言，涉及一种文本分类方法、文本分类装置、计算机可读存储介质和电子设备。

背景技术

对于能够表现用户兴趣的文本数据的理解过程中而言，根据用户的行为来理解用户的意图，并且给用户打上兴趣标签尤为重要。

相关技术中，可以根据不同的标签获取一批关键词，然后通过关键词匹配的方法给用户的搜索和观看的内容打上标签。在这种方式中，由于文本数据本身具有歧义性，仅通过关键词匹配的方法来对文本数据进行分类时，其分类准确率较低。并且仅仅在某种特定领域或者是特定场景使用才有效，具有一定的使用局限性且通用性较差。

发明内容

本公开提供一种文本分类方法、文本分类装置、计算机可读存储介质和电子设备，进而至少在一定程度上克服分类结果准确性差的问题。

根据本公开的一个方面，提供一种文本分类方法，包括：获取待分类的文本数据，并将所述待分类的文本数据转化为多个类型的编码特征；通过对所述多个类型的编码特征进行共同编码，得到所述待分类的文本数据的公共分类向量；对所述公共分类向量进行分类处理，得到所述公共分类向量对应的初次分类结果；结合关键词匹配方式，对所述初次分类结果进行再次分类，以得到所述待分类的文本数据对应的类别标签。

根据本公开的一个方面，提供一种文本分类装置，包括：数据获取模块，用于获取待分类的文本数据，并将所述待分类的文本数据转化为多个类型的编码特征；编码模块，用于通过对所述多个类型的编码特征进行共同编码，得到所述待分类的文本数据的公共分类向量；初次分类模块，用于对所述公共分类向量进行分类处理，得到所述公共分类向量对应的初次分类结果；标签确定模块，用于结合关键词匹配方式，对所述初次分类结果进行再次分类，以得到所述待分类的文本数据对应的类别标签。

根据本公开的一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任意一项所述的文本分类方法。

根据本公开的一个方面，提供一种电子设备，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的文本分类方法。

在本公开的一些实施例所提供的文本分类方法、装置、计算机可读存储介质和电子设备中，一方面，通过一级分类器对待分类的文本数据经过共同编码得到的公共分类向量进行分类处理，得到所述公共分类向量对应的初次分类结果；进一步结合关键词匹配方式来对初次分类结果进行再次分类，得到待分类的文本数据的类别。由于通过了一级分类器的初次分类，并且结合关键词匹配方式进行了再次分类，通过多次分类方式使得获取的分类结果更准确。另一方面，通过分类器和关键词匹配方式的结合，能够选择合适的方式来对待分类的文本数据进行分类识别，在保证编码器模型的分类效果的同时，能使模型的预测性能大幅度提高，并且在任意领域和场景下都能够对待分类的文本数据进行准确分类，避免了局限性，增加了通用性以及应用范围，提高了分类效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示出了可以应用本公开实施例的文本分类方法的系统架构的示意图；

图2示出了适于用来实现本公开实施例的电子设备的结构示意图；

图3示出了本公开实施例中文本分类方法的流程示意图；

图4示出了本公开实施例中待分类的文本数据的数据源的示意图；

图5示出了本公开实施例中双向编码器模型的结构示意图；

图6示出了本公开实施例中下游任务改造的示意图；

图7示出了本公开实施例中双向编码器模型的训练过程的流程图；

图8示出了本公开实施例中使用双向编码器模型进行预测的流程图；

图9示出了本公开实施例中线上预测的整体流程图；

图10示意性示出了双向编码器模型的结构示意图；

图11示意性示出了双向编码器模型的编码层的结构示意图；

图12示意性示出了本公开示例性实施例中文本分类装置的方框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的步骤。例如，有的步骤还可以分解，而有的步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。另外，下面所有的术语“第一”、“第二”仅是为了区分的目的，不应作为本公开内容的限制。

图1示出了可以应用本公开实施例的文本分类方法或文本分类装置的系统架构的示意图。

该文本分类方法可以应用于对用户进行信息推荐的应用场景中，此处的信息推荐可以为多种类型的信息，例如广告、商品、浏览内容、应用程序等等。如图1所示，用户在终端101上使用应用程序浏览内容，服务器103通过网络102，从终端101获取用户的浏览内容对应的数据作为待分类的文本数据。服务器103在获取到待分类的文本数据后，可以采用训练好的编码器模型来对待分类的文本数据进行编码，得到公共分类向量。进一步地，服务器可以对其进行初次分类，并结合关键词匹配方式对初次分类结果进行再次分类，从而确定从客户端获取的待分类的文本数据的类别。

例如，在进行广告推广的场景中，服务器首先获取用户在客户端上搜索的内容作为待分类的文本数据。待分类的文本数据可以对应于不同的标签。然后，服务器可以将待分类的文本数据转换为对应的多个类型的编码特征。进一步地，可以通过双向编码器模型的编码层来对多个标签的数据进行共同编码，只通过一个编码层进行编码来减少编码所消耗的时间，提高编码效率。并且，可以通过双向编码器模型中的分类层将编码得到的公共分类向量进行初次分类，得到用于表示一级类目的初次分类结果。进一步地，为了提高分类结果的准确性，实现精细分类，可以结合关键词匹配方式来对初次分类结果进行再次分类，从而得到用于表示非一级类目的类别标签。

需要说明的是，本公开实施例所提供的文本分类方法可以完全由服务器来执行，也可以完全由终端来执行。相应地，文本分类装置可设置于终端或者是服务器中。

图2示出了适于用来实现本公开示例性实施方式的一种电子设备的示意图。需要说明的是，图2示出的电子设备仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

本公开的电子设备至少包括处理器和存储器，存储器用于存储一个或多个程序，当一个或多个程序被处理器执行时，使得处理器可以实现本公开示例性实施方式的文本分类方法。

具体的，如图2所示，电子设备200可以包括：处理器210、内部存储器221、外部存储器接口222、通用串行总线(Universal Serial Bus，USB)接口230、充电管理模块240、电源管理模块241、电池242、天线1、天线2、移动通信模块250、无线通信模块260、音频模块270、扬声器271、受话器272、麦克风273、耳机接口274、传感器模块280、显示屏290、摄像模组291、指示器292、马达293、按键294以及用户标识模块(Subscriber IdentificationModule，SIM)卡接口295等。其中传感器模块280可以包括深度传感器2801、压力传感器2802、陀螺仪传感器2803、气压传感器2804、磁传感器2805、加速度传感器2806、距离传感器2807、接近光传感器2808、指纹传感器2809、温度传感器2810、触摸传感器2811、环境光传感器2812及骨传导传感器2813等。

可以理解的是，本申请实施例示意的结构并不构成对电子设备200的具体限定。在本申请另一些实施例中，电子设备200可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件、软件或软件和硬件的组合实现。

处理器210可以包括一个或多个处理单元，例如：处理器210可以包括应用处理器(Application Processor，AP)、调制解调处理器、图形处理器(Graphics ProcessingUnit，GPU)、图像信号处理器(Image Signal Processor，ISP)、控制器、视频编解码器、数字信号处理器(Digital Signal Processor，DSP)、基带处理器和/或神经网络处理器(Neural-etwork Processing Unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。另外，处理器210中还可以设置存储器，用于存储指令和数据。

USB接口230是符合USB标准规范的接口，具体可以是MiniUSB接口，MicroUSB接口，USBTypeC接口等。USB接口230可以用于连接充电器为电子设备200充电，也可以用于电子设备200与外围设备之间传输数据。也可以用于连接耳机，通过耳机播放音频。该接口还可以用于连接其他电子设备，例如AR设备等。

充电管理模块240用于从充电器接收充电输入。其中，充电器可以是无线充电器，也可以是有线充电器。电源管理模块241用于连接电池242、充电管理模块240与处理器210。电源管理模块241接收电池242和/或充电管理模块240的输入，为处理器210、内部存储器221、显示屏290、摄像模组291和无线通信模块260等供电。

电子设备200的无线通信功能可以通过天线1、天线2、移动通信模块250、无线通信模块260、调制解调处理器以及基带处理器等实现。

移动通信模块250可以提供应用在电子设备200上的包括2G/3G/4G/5G等无线通信的解决方案。

无线通信模块260可以提供应用在电子设备200上的包括无线局域网(WirelessLocal Area Networks，WLAN)(如无线保真(Wireless Fidelity，Wi-Fi)网络)、蓝牙(Bluetooth，BT)、全球导航卫星系统(Global Navigation Satellite System，GNSS)、调频(Frequency Modulation，FM)、近距离无线通信技术(Near Field Communication，NFC)、红外技术(Infrared，IR)等无线通信的解决方案。

电子设备200通过GPU、显示屏290及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏290和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器210可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

电子设备200可以通过ISP、摄像模组291、视频编解码器、GPU、显示屏290及应用处理器等实现拍摄功能。在一些实施例中，电子设备200可以包括1个或N个摄像模组291，N为大于1的正整数，若电子设备200包括N个摄像头，N个摄像头中有一个是主摄像头，其他可以为副摄像头，例如长焦摄像头。

内部存储器221可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。内部存储器221可以包括存储程序区和存储数据区。外部存储器接口222可以用于连接外部存储卡，例如Micro SD卡，实现扩展电子设备200的存储能力。

电子设备200可以通过音频模块270、扬声器271、受话器272、麦克风273、耳机接口274及应用处理器等实现音频功能。例如音乐播放、录音等。

音频模块270用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块270还可以用于对音频信号编码和解码。在一些实施例中，音频模块270可以设置于处理器210中，或将音频模块270的部分功能模块设置于处理器210中。

扬声器271，用于将音频电信号转换为声音信号。电子设备200可以通过扬声器271收听音乐，或收听免提通话。受话器272，也称“听筒”，用于将音频电信号转换成声音信号。当电子设备200接听电话或语音信息时，可以通过将受话器272靠近人耳接听语音。麦克风273，也称“话筒”，“传声器”，用于将声音信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风273发声，将声音信号输入到麦克风273。电子设备200可以设置至少一个麦克风273。耳机接口274用于连接有线耳机。

针对电子设备200包括的传感器，深度传感器2801用于获取景物的深度信息。压力传感器2802用于感受压力信号，可以将压力信号转换成电信号。陀螺仪传感器2803可以用于确定电子设备200的运动姿态。气压传感器2804用于测量气压。磁传感器2805包括霍尔传感器。电子设备200可以利用磁传感器2805检测翻盖皮套的开合。加速度传感器2806可检测电子设备200在各个方向上(一般为三轴)加速度的大小。距离传感器2807用于测量距离。接近光传感器2808可以包括例如发光二极管(LED)和光检测器，例如光电二极管。指纹传感器2809用于采集指纹。温度传感器2810用于检测温度。触摸传感器2811可以将检测到的触摸操作传递给应用处理器，以确定触摸事件类型。可以通过显示屏290提供与触摸操作相关的视觉输出。环境光传感器2812用于感知环境光亮度。骨传导传感器2813可以获取振动信号。

按键294包括开机键，音量键等。按键294可以是机械按键。也可以是触摸式按键。马达293可以产生振动提示。马达293可以用于来电振动提示，也可以用于触摸振动反馈。指示器292可以是指示灯，可以用于指示充电状态，电量变化，也可以用于指示消息，未接来电，通知等。SIM卡接口295用于连接SIM卡。电子设备200通过SIM卡和网络交互，实现通话以及数据通信等功能。

本申请还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读存储介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如下述实施例中所述的方法。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

相关技术中，在进行文本分类时，一般包括以下几种情况：一、通过关键词匹配的方法给文本数据分类，第一步是获取分类对应的关键词。这一部分可以通过人工确定，然后使用爬虫获取对应关键词相关的语料。第二步是通过关键词匹配算法给文本分类。如果文本中包含对应的关键词，则该文本属于某一类。二、通过主题模型的方法进行文本分类。首先构建主题文档库，通过主题模型可以获得文本和主题的关联；然后将主题映射到分类中构建主题和分类的关联；最后就能得到文本和分类的关联，从而实现文本分类的目的。三、通过深度学习的方法来进行文本分类。先通过自然语言处理中文本的表示方法来获取语义的表达，得到词语之间的向量表示形式；然后通过计算空间中向量的距离来理解语义的相似度；最后通过分类中已知的词来找语义相近的词从而达到文本分类的目的。

为了解决相关技术中描述的技术方案分类结果准确性较差的问题，本公开实施例中提供了一种文本分类方法。图3示意性示出了本公开的示例性实施方式的文本分类方法的流程图，该文本分类方法可以应用于任何场景、任何领域的文本识别的场景中。文本分类的场景例如可以为推荐场景等等。参考图3所示，以服务器作为执行主体，该文本分类方法可以包括步骤S310至步骤S340，详细介绍如下：

在步骤S310中，获取待分类的文本数据，并将所述待分类的文本数据转化为多个类型的编码特征。

本公开实施例中，应用场景可以为信息推广等任意场景，例如可以为广告推荐场景。待分类的文本数据可以为根据用户关联的行为数据而得到，具体可以从一个数据源或者是从多个不同的数据源融合得到。当为一个数据源时，待分类的文本数据例如可以根据浏览数据或者是其他行为数据得到。为了保证计算效率以有效性，本公开实施例中，以从页面浏览量较高的页面获取的行为数据作为待分类的文本数据。例如，选择页面浏览量较高的用户搜索和资讯点击页面的数据，且这些数据能够覆盖更多的用户，以提高覆盖率和全面性。待分类的文本数据可以为某一个用户一段时间内的搜索数据或者是浏览数据等等，且待分类的文本数据可以对应多种类型的多个标签。例如对应游戏、新闻等等。

用户关联的行为数据可以通过用户搜索数据流来表示。为了避免用户搜索数据流中的无用数据对识别过程的干扰，可以对行为数据进行过滤，以得到待分类的文本数据。具体地，线上服务时，通过低俗二分类器对获取的用户搜索数据流进行过滤。由于用户搜索中会存在部分低俗的数据，这部分数据对于用户兴趣打标没有任何意义，甚至还会对模型产生干扰。所以在数据流最开始时将这一部分低俗数据过滤，可以减少下游真正有用的分类器需要预测的数据量，并且能够提升模型预测的效果。进一步地，可以将过滤后的行为数据作为有价值的用户搜索文本数据，以获取待分类的文本数据。

对于用户兴趣挖掘来说，还可以通过多种数据源融合，立体的从多个维度来认识用户，从而基于更多维度来刻画用户兴趣标签，使得得到的用户标签更准确更全面。参考图4中所示，多个数据源，例如可以为识别应用程序的描述等等。通过动态数据源融合的方式接入更多的数据源，以刻画用户的兴趣标签。

在得到待分类的文本数据之后，可以将待分类的文本数据转化为多个类型的编码特征，以便于对待分类的文本数据进行处理。本公开实施例中，可以通过双向编码器模型来将待分类的文本数据进行转化。双向编码器模型具体可以为BERT模型。其中，BERT模型(BidirectionalEncoder Representations from Transformer，来自变换器的双向编码器表征量)。BERT模型的目标是利用大规模无标注语料训练、获得文本的包含丰富语义信息的文本的语义表示，然后将文本的语义表示在特定自然语言处理任务中作微调，最终应用于该自然语言处理任务。

BERT双向编码器模型是典型的两阶段模型，分成Pre-training预训练阶段和Fine-tuning微调阶段。参考图5中所示，预训练阶段是通过无监督方式学习大量的文本知识来获取语言学知识；微调阶段则是将预训练得到的模型根据实际的任务来进行微调，从而满足下游不同的任务，可以支持分类、翻译、问答等等任务，应用范围极广。

对于不同的自然语言处理任务，可以很容易的进行改造即可完成下游任务。下游任务可以为句子关系类任务、句子分类任务以及序列标注任务等等。对于句子关系类任务而言，输入部分只需要在句子开始和结束的地方加上特殊的符号，句子之间加上分隔符即可完成改造。而模型输出的部分则需要把第一个起始符号对应的Transformer最后一层添加一个softmax层进行分类即可。句子分类任务和句子关系类任务类似。对于序列标注任务而言，输入和句子关系类任务一样，输出则在每个单词后面都进行分类。参考图6中所示，可以改造BERT模型从而去完成各种类型的自然语言处理任务。具体地，图6中的图a为句子关系类任务，图6中的图b为单句分类任务，图6中的图c为阅读理解任务，图6中的图d为序列标注类任务。

在获取到待分类的文本数据之后，可以通过双向编码器模型将所述待分类的文本转换为词编码、位置编码以及句子对编码组成的多个类型的编码特征。对于文本分类任务而言，BERT模型会将文本数据转化成三层嵌入层Embedding，其中一层是词编码，用来表示词，对于中文来说BERT模型的底层会对字进行编码。还有一层是位置编码，用来记录词的位置信息。由于在文本理解中语句的顺序至关重要，相同的几个词因为顺序不同可能表达的语义完全不同。因为对于语句关系类任务两个句子是否有序对于模型的预测能力影响重大，因此最后一层编码是句子对编码。多词编码、位置编码以及句子对编码即可以作为多个类型的编码特征，且可以作为模型的特征输入至BERT模型。

在步骤S320中，通过对所述多个类型的编码特征进行共同编码，得到所述待分类的文本数据的公共分类向量。

本公开实施例中，在得到多个类型的编码特征之后，可以使用双向编码器模型的编码层来对多个类型的编码特征进行共同编码，以得到待分类的文本数据的公共分类向量。双向编码器模型可以包括一个编码层以及多个分类层，且分类层的数量可以根据标签的数量而确定。标签的数量可以根据实际需求而设置，具体可以为可能要识别的一级类目的类型的数量，共同编码指的是通过相同的编码层来对待分类的文本数据进行特征提取，得到待分类的文本数据共同的公共分类向量。本公开实施例中，对于所有标签而言，只需经过相同的编码层来进行特征提取，而不需要分别经过每个标签对应的编码层进行特征提取，因此减少了特征提取的步骤，并且提高了特征提取的效率，减少了计算资源消耗。将数据转化成特征和经过BERT编码层进行统一操作，最后各个分类器只经过softmax分类层，且经过各个分类层的数据相同，因此通过设置一个编码层以及多个分类层的模型结构，可以最大程度的提升模型的运行效率，节约资源。

进一步地，为了提高准确性，在将编码特征输入至双向编码器模型之前，可以对其进行训练，以得到训练好的双向编码器模型，从而使用训练好的双向编码器模型来对编码特征进行处理。

图7中示意性示出了训练双向编码器模型的流程图，参考图7中所示，主要包括以下步骤：

在步骤S710中，获取样本数据以及所述样本数据的真实标签。

本步骤中，可以将样本数据划分为训练集和验证集，训练集和验证集的比例可以根据实际需求进行设置。具体地，可以通过人工标注获取一批语料作为样本数据。也可以通过一些没有歧义的关键词来获得一批正负样本数据。样本数据可以为已经确定真实标签的文本数据。因为文本分类任务是有监督任务，所以样本数据包括正样本数据以及负样本数据，即需要训练集中的正负样本数据来作为训练语料，以保证训练数据的完整性和全面性。

在步骤S720中，通过所述双向编码器模型，将所述样本数据表示为对应的样本编码特征。

本步骤中，将样本数据输入至双向编码器模型BERT中的预训练模型，以便于对样本数据进行转换，得到样本数据对应的多个类型的样本编码特征。多个类型的样本编码特征包括多词编码、位置编码以及句子对编码。

在步骤S730中，通过所述双向编码器模型对所述样本编码特征进行文本分类，得到所述样本编码特征的预测标签，以对所述语言模型进行训练，得到训练好的双向编码器模型。

本步骤中，通过双向编码器模型中的编码器，通过softmax层对样本编码特征来进行文本分类，以得到样本数据对应的预测标签。具体地，采用BERT编码器对样本数据对应的样本编码特征进行编码，得到样本公共分类向量，然后通过softmax层来对样本公共分类向量进行预测处理，以得到其对应的预测标签。从而实现对双向编码器模型进行训练的过程。

具体而言，可以根据样本数据的真实标签和预测标签来对双向编码器模型进行训练，调整双向编码器模型的权重参数，直至样本数据的预测标签与真实标签一致为止，得到训练好的双向编码器模型。通过对双向编码器模型进行训练，能够提高模型的准确性、稳定性和可靠性。

在步骤S740中，对训练好的双向编码器模型进行存储，以用于模型线上预测。

在步骤S750中，对所述训练好的双向编码器模型进行测试验证。

本步骤中，样本数据可以包括训练集和测试集。在使用训练集得到双向编码器模型之后，可以使用测试集对训练好的双向编码器模型进行测试验证，以验证训练好的双向编码器模型的分类能力。具体地，可以使用训练好的双向编码器模型对测试集中的样本数据进行预测，以得到其预测标签。如果预测标签与真实标签一致，则认为验证成功。进一步地，可以使用验证成功的样本数据与测试集中所有样本数据的比值来描述其分类能力。若用于表示分类能力比值大于等于预设阈值，则直接使用该训练好的双向编码器模型即可。若用于表示分类能力的比值小于预设阈值，则对训练好的双向编码器模型再次进行训练，以使其满足预设阈值。

通过图7中的技术方案，能够得到准确的双向编码器模型，从而提高准确性。

基于上述训练好的双向编码器模型，可以通过训练好的双向编码器模型的编码器，将待分类的文本数据对应的多个类型的编码特征进行编码，得到编码特征对应的向量，并将这些向量作为公共分类向量。双向编码器模型的编码器可以为多个，例如12个。通过按照编码方式分别对词编码、位置编码以及句子对编码进行编码，得到对应的向量作为公共分类向量，即双向编码器模型的输出为公共分类向量。

在步骤S330中，对所述公共分类向量进行分类处理，得到所述公共分类向量对应的初次分类结果。

本公开实施例中，在文本分类的应用场景中，由于广告主多种多样，服务于广告主的兴趣类目体系也非常复杂。类目体系可以为树状结构，从最上游的一级类目开始，从上到下一共有四级，会存在多个兴趣类目。一级类目可以包括但不限于游戏、金融、医疗健康、电商等等，且不同类目之间可能会有交集。因此识别复杂的类目体系的文本分类器非常复杂。基于此，构建分类器线上服务的主要目标可以为：在复杂的类目体系中既满足分类效果，又要满足线上日度分类的实时性。

用户搜索和观看资讯的识别可以看作是文本分类任务。基于此，本公开实施例中，可以通过构建多分类器或者是构建N个二分类器的方式来进行文本分类。如果构建多分类器，虽然可以同时识别多个标签。但是存在以下几个问题：首先多分类器的效果比二分类器差，因为模型同时识别多个分类比仅识别两个分类的分类能力要好，这个已经通过实验证明；然后多分类器随着分类数目的增加训练语料数量迅速变大，在机器资源固定的情况下模型训练时间特别长，并且还容易出现内存不足的问题。构建N个二分类器时，二分类器的数量与多个类别的数量相同，但是分类效果好，而且非常灵活。并且可以根据业务需求动态调整二分类器的数量(例如增加二分类器或者是减少二分类器)，通过脚本化的方式可以批量实现，从而弥补了多个类别就要构建多个二分类器操作步骤繁琐的缺点。在机器资源有限并且对文本分类有时效性的前提下，通过使用N个二分类器的模型识别效果优于多分类器，最大提升模型的准确率。因此，本公开实施例中以构建N个二分类器的方式为例进行说明。

在经过双向编码器模型的编码器得到公共分类向量后，可以基于公共分类向量来进行初次分类，得到对应的初次分类结果。初次分类也可以理解为一级分类。初次分类结果可以用一级类目或者是一级标签来表示。例如，待分类的文本数据在整个文本分类过程中，可能存在多次分类过程。

在进行初次分类时，会分别通过各个一级分类器的softmax层进行分类。由于经过各个分类器的数据都是一样的，因此通过多个一级分类器可以最大效率提升模型线上服务的效率，节约计算资源。

图8中示意性示出了使用二分类器进行预测的流程图，参考图8中所示，主要包括以下步骤：

在步骤S810中，获取线上预测数据。此处的线上预测数据可以为上述步骤中所述的待分类的文本数据。在计算资源有限的情况下，模型每天预测的数据量是有限的，所以待分类的文本数据选择页面浏览量较高的用户搜索和资讯点击页面来确定，以使得待分类的文本数据能覆盖更多的用户。

在步骤S820中，导入训练好的双向编码器模型。具体导入训练好的双向编码器模型的权重，这里的权重是通过图6中所示的模型训练过程得到的。

在步骤S830中，通过训练好的双向编码器模型对输入的待分类的文本数据进行预测，以得到其对应的初次分类结果。使用导入的训练好的双向编码器模型预测线上的待分类的文本数据，得到其对应的文本分类数据作为初次分类结果，即确定待分类的文本数据的一级类目对应的标签。例如游戏、短视频等等。

在步骤S840中，预测结果进行融合。将每个分类器得到的预测结果进行组合，并且持久化到数据仓库中提供给下游任务使用。

图8中的技术方案，是单个分类器的线上预测流程，且涉及到线上日度预测的方案。在机器资源有限的情况下，需要尽可能耗时少高效的进行线上服务，以提高效率。

在步骤S340中，结合关键词匹配方式，对所述初次分类结果进行再次分类，以得到所述待分类的文本数据对应的类别标签。

本公开实施例中，经过一级分类器后，可以确定待分类的文本数据的一级类目。由于一个场景中可能存在多个一级类目，且每个一级类目可以对应多个二级类目以及三级类目等等。为了准确地识别用户的画像标签，可以在一级类目的基础上继续识别更详细的类目，以便于为用户推荐更合适的广告信息等。在得到初次分类结果之后，可以对初次分类结果进行再次分类，得到非一级类目的标签作为其类别标签。

为了准确识别一级类目以外的其他类目，可以在一级类目的范围内，以一级类目的初次分类结果为基础，结合关键词匹配方式继续进行再次分类，从而得到其二级类目、三级类目或者是四级类目等非一级类目的标签。

具体地，获取用于表示是否能够使用关键词匹配的判断结果；根据所述判断结果对应的分类方式对所述初次分类结果进行再次分类，以得到所述待分类的文本数据对应的类别标签。其中，可以根据要实现的目标标签来获取是否能够使用关键词匹配的判断结果。要实现的目标标签指的是用户要搜索的非一级类目的目标标签。例如一级类目游戏对应的三级类目游戏攻略。具体可以根据目标标签的关键词的属性信息来确定判断结果。属性信息可以为关键词数据库中该目标标签的关键词的数量或者是数量占比，属性信息也可以根据实际需求而设置，此处不做限定。基于此，可根据属性信息是否满足数量条件，来确定判断结果。具体地，若判断结果为第一类型结果，即关键词的数量满足数量条件，则其分类方式可以为关键词匹配的分类方式。若判断结果为第二类型结果，即关键词的数量不满足数量条件，则其分类方式可以为分类器分类。

基于上述步骤，结合关键词匹配方式，对所述初次分类结果进行再次分类，以得到所述待分类的文本数据对应的类别标签包括：若所述判断结果为第一类型结果，则使用关键词匹配的分类方式对所述第一分类结果进行分类；若所述判断结果为第二类型结果，则通过分类器模型对所述第一分类结果进行分类。

也就是说，如果一级分类器下面的子分类器(非一级分类器)可以通过明显的关键词进行分类，则通过关键词匹配的方法进行分类。关键词虽然有歧义，但是在特定的情况下能达到很好的分类效果。因为某些关键词在特殊场景下具有很强的分类能力，经过一级分类器之后就能进行用户搜索分流，在某个分类器下的用户搜索则代表一种特殊场景，在这种情况下使用关键词效果会很好。如果某个一级类目下子类目无法通过关键词匹配的方法进行细分，则会继续按照一级类目的流程进行分类。

在进行关键词匹配时，首先获取分类对应的关键词。然后通过关键词匹配算法给文本分类。如果待分类的文本数据中包含对应的关键词，则该待分类的文本数据属于该关键词对应的类别。如果待分类的文本数据中不包含对应的关键词，则该待分类的文本数据不属于该关键词对应的类别。

在使用分类器模型进行分类时，二分类器模型可以为逻辑回归模型、支持向量机、随机森林、卷积神经网络等等。可以根据分类器模型确定待分类的文本数据属于每一个类别的概率，进而可以将概率较大的类别确定为该待分类的文本数据的类别标签。

图9示意性示出了线上预测的流程图，参考图9所示，主要包括以下步骤：

在步骤S901中，获取待分类的文本数据，例如新闻等等。

在步骤S902中，提取待分类的文本数据的特征，得到词编码、位置编码以及句子对编码。

在步骤S903中，将特征输入双向编码器模型的编码层，得到公共分类向量。

在步骤S904中，将公共分类向量输入至多个一级分类器的softmax层进行初次分类，得到一级类目表示的初次分类结果。

在步骤S905中，判断是否满足关键词匹配。若否，则转至步骤S906；若是，则转至步骤S907。

在步骤S906中，通过非一级分类器对初次分类结果再次进行分类，以得到待分类的文本数据的类别标签。

在步骤S907中，通过非一级标签表示的关键词对初次分类结果再次进行分类，以得到待分类的文本数据的类别标签。

在步骤S908中，将所有的类别标签(一级类目和非一级类目)进行融合，以持久化至数据仓库。

通过图9中的技术方案，由于线上服务主要的耗时集中在模型转化成特征和经过BERT编码器环节，而经过softmax层耗时较少，所以通过这种线上服务设计方案可以既保证模型的分类效果，还能使模型的预测性能大幅度提高，从而保证分类的性能和准确率。

图10示意性示出了双向编码器模型的结构示意图，参考图10中所示，Input-Token和Input-Segment是输入层特征，分别代表词向量和句子对特征向量。bert_model就是导入的预训练模型，这个模型中存储着文本语义相关的信息。然后会通过lambda_1层获得分类的向量，最后连接一层分类层来进行二分类任务。其中bert_model的网络结构可以参考图11中所示。双向编码器模型的输入层是Input-Token和Input-Segment，然后经过词编码、句子对编码和位置编码，然后会经过Dropout丢弃操作和归一化操作，然后分别经过12个编码器。Dropout丢弃操作是指在深度学习网络的训练过程中，对于神经网络单元，按照一定的概率将其暂时从网络中丢弃，以减少计算量以及防止过拟合。

在得到类别标签后，可以将各个分类器和关键词匹配得到的打标数据融合存储到数据仓库中提供给下游使用。

通过上面的N个二分类器和关键词匹配组合的线上文本数据源分类方法，可以很好的识别用户搜索和观看的资讯数据源，从而能帮助更好的理解用户的意图，给用户打上兴趣标签，并且可以基于每个用户的兴趣标签为每一个广告数据确定合适的目标用户进行推广，实现为广告主提供最合适的人群，达到更好的广告转化效果。在广告场景下，为了满足各式各样广告主的需求，需要制定复杂多样的兴趣类目体系。这个类目体系不仅包含成百上千中兴趣，而且还存在类目交叉。通过使用基于BERT算法的N个二分类器和关键词匹配算法相结合的策略，不仅可以满足线上成百上千个标签日度的文本标签的分类任务需求，还能最大发挥分类器的识别效果。通过一级分类器对用户搜索和浏览资讯数据进行分流，然后在一级类目对应的特定场景下使用对应的关键词匹配算法，利用特定场景下关键词的精确识别能力提升线上服务的运行效率，最大程度的发挥关键词匹配算法的能力。

应当注意，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

图12示意性示出了本公开的示例性实施方式的文本分类装置的方框图。参考图12所示，根据本公开的示例性实施方式的文本分类装置1200可以包括以下模块：

数据获取模块1201，用于获取待分类的文本数据，并将所述待分类的文本数据转化为多个类型的编码特征；

编码模块1202，用于通过对所述多个类型的编码特征进行共同编码，得到所述待分类的文本数据的公共分类向量；

初次分类模块1203，用于对所述公共分类向量进行分类处理，得到所述公共分类向量对应的初次分类结果；

标签确定模块1204，用于结合关键词匹配方式，对所述初次分类结果进行再次分类，以得到所述待分类的文本数据对应的类别标签。

在本公开的一种示例性实施例中，数据获取模块包括：数据转化模块，用于将所述待分类的文本数据转换为词编码、位置编码以及句子对编码组成的多个类型的编码特征。

在本公开的一种示例性实施例中，编码模块包括：共同编码模块，用于通过训练好的双向编码器模型的编码层，将所述多个类型的编码特征进行共同编码得到所述编码特征对应的向量，并将所述向量作为所述公共分类向量。

在本公开的一种示例性实施例中，所述装置还包括：样本数据获取模块，用于获取样本数据以及所述样本数据的真实标签；特征确定模块，用于通过所述双向编码器模型，将所述样本数据表示为对应的样本编码特征；模型训练模块，用于通过所述双向编码器模型对所述样本编码特征进行文本分类，得到所述样本编码特征的预测标签，以对所述双向编码器模型进行训练，得到训练好的双向编码器模型；模型验证模块，用于对所述训练好的双向编码器模型进行测试验证。

在本公开的一种示例性实施例中，初次分类模块被配置为：通过双向编码器模型的分类层，对所述公共分类向量进行分类处理，得到一级类目对应的初次分类结果。

在本公开的一种示例性实施例中，标签确定模块包括：判断结果确定模块，用于根据初次分类结果对应的目标标签的关键词的属性信息，获取用于表示是否能够使用关键词匹配的判断结果；再次分类模块，用于根据所述判断结果对应的分类方式对所述初次分类结果进行再次分类，以得到所述待分类的文本数据对应的非一级类目的类别标签。

在本公开的一种示例性实施例中，再次分类模块包括：第一分类模块，用于若所述判断结果为第一类型结果，则使用关键词匹配的分类方式对所述第一分类结果进行分类，以得到所述类别标签；第二分类模块，用于若所述判断结果为第二类型结果，则通过分类器模型对所述第一分类结果进行分类，以得到所述类别标签。

需要说明的是，由于本公开实施方式的文本分类装置的各个功能模块与上述文本分类方法的实施方式中相同，因此在此不再赘述。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。

此外，上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

本领域技术人员在考虑说明书及实践这里公开的内容后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。

Claims

1.一种文本分类方法，其特征在于，包括：

获取待分类的文本数据，并将所述待分类的文本数据转化为多个类型的编码特征；

通过对所述多个类型的编码特征进行共同编码，得到所述待分类的文本数据的公共分类向量；

对所述公共分类向量进行分类处理，得到所述公共分类向量对应的初次分类结果；

根据所述初次分类结果对应的目标标签的关键词的属性信息，获取用于表示是否能够使用关键词匹配的判断结果；

根据所述判断结果对应的分类方式对所述初次分类结果进行再次分类，以得到所述待分类的文本数据对应的类别标签。

2.根据权利要求1所述的文本分类方法，其特征在于，所述将所述待分类的文本数据转化为多个类型的编码特征，包括：

将所述待分类的文本数据转换为词编码、位置编码以及句子对编码组成的多个类型的编码特征。

3.根据权利要求1所述的文本分类方法，其特征在于，所述通过对所述多个类型的编码特征进行编码，得到所述待分类的文本数据的公共分类向量，包括：

通过训练好的双向编码器模型的编码层，将所述多个类型的编码特征进行共同编码得到所述编码特征对应的向量，并将所述向量作为所述公共分类向量。

4.根据权利要求3所述的文本分类方法，其特征在于，所述方法还包括：

获取样本数据以及所述样本数据的真实标签；

通过所述双向编码器模型，将所述样本数据表示为对应的样本编码特征；

通过所述双向编码器模型对所述样本编码特征进行文本分类，得到所述样本编码特征的预测标签，以对所述双向编码器模型进行训练，得到训练好的双向编码器模型；

对所述训练好的双向编码器模型进行测试验证。

5.根据权利要求1所述的文本分类方法，其特征在于，所述对所述公共分类向量进行分类处理，得到所述公共分类向量对应的初次分类结果，包括：

通过双向编码器模型的分类层，对所述公共分类向量进行分类处理，得到一级类目对应的初次分类结果。

6.根据权利要求1所述的文本分类方法，其特征在于，所述根据所述判断结果对应的分类方式进行再次分类，以得到所述待分类的文本数据对应的类别标签，包括：

若所述判断结果为第一类型结果，则使用关键词匹配的分类方式对所述初次分类结果进行分类，以得到所述类别标签；

若所述判断结果为第二类型结果，则通过分类器模型对所述初次分类结果进行分类，以得到所述类别标签。

7.一种文本分类装置，其特征在于，包括：

数据获取模块，用于获取待分类的文本数据，并将所述待分类的文本数据转化为多个类型的编码特征；

编码模块，用于通过对所述多个类型的编码特征进行共同编码，得到所述待分类的文本数据的公共分类向量；

初次分类模块，用于对所述公共分类向量进行分类处理，得到所述公共分类向量对应的初次分类结果；

标签确定模块，用于根据所述初次分类结果对应的目标标签的关键词的属性信息，获取用于表示是否能够使用关键词匹配的判断结果；根据所述判断结果对应的分类方式对所述初次分类结果进行再次分类，以得到所述待分类的文本数据对应的类别标签。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-6任意一项所述的文本分类方法。

9.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1-6任意一项所述的文本分类方法。