CN112948580B

CN112948580B - 一种文本分类的方法和系统

Info

Publication number: CN112948580B
Application number: CN202110154293.9A
Authority: CN
Inventors: 彭爽; 杨明晖
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2021-02-04
Filing date: 2021-02-04
Publication date: 2023-05-12
Anticipated expiration: 2041-02-04
Also published as: CN112948580A

Abstract

本说明书实施例提供了一种文本分类的方法和系统。所述方法包括：获取待分类文本；确定所述待分类文本中的至少一个关键词；通过文本分类模型处理所述至少一个关键词及所述待分类文本，确定所述待分类文本的类别。可以通过文本分类模型，基于待分类文本及待分类文本对应的至少一个关键词的特征信息确定待分类文本的类别，可以实现在待分类文本中融合上关键词嵌入信息，从而更准确地完成文本分类。

Description

一种文本分类的方法和系统

技术领域

本说明书涉及计算机技术领域，特别涉及文本分类的方法和系统。

背景技术

随着科技的飞速前进，互联网的不断发展及信息的不断增长，如何对各种生活、业务等场景的文本数据进行快速、准确地分类是一个非常重要的课题，其有着广泛的应用。例如，在智能客服机器人提供智能问答或智能咨询等服务场景中，需要对发起咨询、提问等服务请求的用户的文本数据进行分类，得到问句文本对应的一种或多种类别后，可以进一步智能地对问句文本匹配对应的答案。

因此，亟需一种文本分类的方法和系统。

发明内容

本说明书一个方面提供一种文本分类的方法，包括：获取待分类文本；确定所述待分类文本中的至少一个关键词；通过文本分类模型处理所述至少一个关键词及所述待分类文本，确定所述待分类文本的类别。

本说明书另一个方面提供一种文本分类的系统，包括：文本获取模块：用于获取待分类文本；关键词确定模块：用于确定所述待分类文本中的至少一个关键词；文本分类模块：用于通过文本分类模型处理所述至少一个关键词及所述待分类文本，确定所述待分类文本的类别；所述文本分类模块进一步包括：特征获取单元：用于获取所述至少一个关键词的特征信息及所述待分类文本的特征信息；其中，所述待分类文本的特征信息包括所述待分类文本中字符的类型向量表示，所述类型向量表示指示所述字符是否为关键词中的字符；特征处理单元：用于基于所述至少一个关键词的特征信息及所述待分类文本的特征信息确定所述待分类文本的类别。

本说明书另一个方面提供一种文本分类的装置，包括至少一个存储介质和至少一个处理器，所述至少一个存储介质用于存储计算机指令；所述至少一个处理器用于执行所述计算机指令以实现所述文本分类的方法。

附图说明

本说明书将以示例性实施例的方式进一步说明，这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的，在这些实施例中，相同的编号表示相同的结构，其中：

图1是根据本说明书一些实施例所示的文本分类的系统的应用场景示意图；

图2是根据本说明书一些实施例所示的一种文本分类的系统的框图；

图3是根据本说明书一些实施例所示的一种文本分类的方法的示例性流程图；

图4是根据本说明书一些实施例所示的一种文本分类模型处理至少一个关键词及待分类文本的方法的示例性示意图。

具体实施方式

为了更清楚地说明本说明书实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本说明书的一些示例或实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明，图中相同标号代表相同结构或操作。

应当理解，本说明书中所使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而，如果其他词语可实现相同的目的，则可通过其他表达来替换所述词语。

如本说明书和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其它的步骤或元素。

本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是，前面或后面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各个步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

图1是根据本说明书的一个或多个实施例所示的文本分类的系统的应用场景示意图。

本说明书的一些实施例所示的文本分类的系统100可以应用在各中软件、系统、平台中，实现对各种生活、业务等场景的文本数据进行文本分类。例如，可以是在智能客服机器人提供智能问答或智能咨询等服务场景中，发起咨询、提问等服务请求的用户的文本数据，也可以是在教学场景中，进行咨询、提问等发言的用户(如学生、家长、老师等)的文本数据。

在一些实施例中，文本分类可以是对问句文本的分类。对于各种生活、业务等场景的问句文本，其对应有多种不同的类别，例如与诊断有关的问题、与治疗有关的问题等，对问句文本进行分类可以对问句文本进行处理，判断其是否属于某一种类别(如二分类问题)，或者判断其属于多种不同类别中的哪些类别(如多标签分类问题)。得到问句文本对应的一种或多种类别后，可以进一步智能地对问句文本匹配对应的答案。例如保险客服机器人(健康险领域)为了解决用户在终端购买保险产品时候遇到的问题(比如用户曾经得过某种疾病能不能投保等类似问题)，首先要做的就是将用户的问题关联到对应的知识库或者知识库下某一类标签下的标问集合上，然后从相应的知识库或标问集合中匹配对应的问题解答。其中，将用户的问题关联到对应的知识库或者知识库下某一类标签下的标问集合这一过程即可以通过文本分类实现。

在一些应用场景中，用户的咨询或问题描述中涉及内容较多，如保险领域、医疗健康领域等专业领域，用户在提出问题前会有相关背景的描述。例如，用户提问“打了预防针吃了糖丸，9天后发烧，烧了两天后身上起了红色的小点点，第一天出的不多，第二天全身都是。小诊所说是过敏。我怀疑是麻疹。宝宝精神状态还行。到底是不是麻疹？”。在对这类内容较多的问句文本进行分类时，如果分类方法不能兼顾到文本中多种不同的描述事项(如症状描述、病历描述等)，则难以较好地确定问句文本的一种或多种类别。

在本说明书中，提出可以通过文本分类模型，基于待分类文本及待分类文本对应的至少一个关键词的特征信息确定待分类文本的类别，可以实现在待分类文本中融合上关键词嵌入信息，从而更准确地完成文本分类。其中，文本分类模型可以通过基于待分类文本的关键词的特征信息、待分类文本的特征信息(包括待分类文本中字符是否是关键词中字符的相关信息)确定待分类文本的类别，可以帮助模型更好的捕捉问句中的关键词信息，进一步提升文本分类的准确性。

如图1所示，文本分类的系统100可以包括处理设备110、网络120、存储设备130、和用户终端140。

在一些实施例中，处理设备110可以获取待分类文本，确定所述待分类文本中的至少一个关键词，通过文本分类模型处理所述至少一个关键词及所述待分类文本，确定所述待分类文本的类别。在处理过程中，处理设备110可以从存储设备130获取数据(如待分类文本)或将数据(如待分类文本的类别)保存到存储设备130，也可以通过网络120从用户终端140等其他来源读取数据(如咨询问题文本)或将数据(如针对用户提问的反馈或答案)输出至用户终端140。

处理设备110可以用于处理来自系统100的至少一个组件或外部数据源(例如，云数据中心)的数据和/或信息。在一些实施例中，处理设备110可以是单一服务器或服务器组。该服务器组可以是集中式或分布式的(例如，处理设备110可以是分布式系统)。在一些实施例中，处理设备110可以是区域的或者远程的。在一些实施例中，处理设备110可以在云平台上实施，或者以虚拟方式提供。仅作为示例，云平台可以包括私有云、公共云、混合云、社区云、分布云、内部云、多层云等或其任意组合。

存储设备130可以用于存储数据(如文本分类模型、训练样本或用户输入的文本数据等)和/或指令。存储设备130可以包括一个或多个存储组件，每个存储组件可以是一个独立的设备，也可以是其他设备的一部分。在一些实施例中，存储设备130可包括随机存取存储器(RAM)、只读存储器(ROM)、大容量存储器、可移动存储器、易失性读写存储器等或其任意组合。示例性地，大容量储存器可以包括磁盘、光盘、固态磁盘等。在一些实施例中，存储设备130可在云平台上实现。仅作为示例，云平台可以包括私有云、公共云、混合云、社区云、分布云、内部云、多层云等或其任意组合。在一些实施例中，存储设备130可以集成或包括在系统100的一个或多个其他组件(例如，处理设备110、用户终端140或其他可能的组件)中。

用户终端140指用户所使用的一个或多个终端设备或软件。在一些实施例中，用户可以使用用户终端140通过网络120与处理设备110通信，将咨询问题发送到处理设备110，并接收处理设备110反馈的答案。在一些实施例中，用户终端140可以是移动设备140-1、平板计算机140-2、膝上型计算机140-3、台式计算机140-4、其他具有输入和/或输出功能的设备等或其任意组合。上述示例仅用于说明所述用户终端140设备范围的广泛性而非对其范围的限制。

网络120可以连接系统的各组成部分和/或连接系统与外部部分。网络120使得系统各组成部分之间以及与系统与外部部分之间可以进行通讯，促进数据和/或信息的交换。在一些实施例中，网络120可以是有线网络或无线网络中的任意一种或多种。例如，网络120可以包括电缆网络、光纤网络、电信网络、互联网、局域网络(LAN)、广域网络(WAN)、无线局域网络(WLAN)、城域网(MAN)、公共交换电话网络(PSTN)、蓝牙网络、紫蜂网络(ZigBee)、近场通信(NFC)、设备内总线、设备内线路、线缆连接等或其任意组合。在一些实施例中，系统各部分之间的网络连接可以采用上述一种方式，也可以采取多种方式。在一些实施例中，网络120可以是点对点的、共享的、中心式的等各种拓扑结构或者多种拓扑结构的组合。在一些实施例中，网络120可以包括一个或以上网络接入点。例如，网络120可以包括有线或无线网络接入点，例如基站和/或网络交换点120-1、120-2、…，通过这些网络接入点，系统100的一个或多个组件可连接到网络120以交换数据和/或信息。

图2是根据本说明书一些实施例所示的一种文本分类的系统的框图。

在一些实施例中，文本分类的系统200可以实现于处理设备110上，其可以包括文本获取模块210、关键词确定模块220、文本分类模块230，在一些实施例中，文本分类模块230可以包括特征获取单元231和特征处理单元232。

在一些实施例中，文本获取模块210可以用于获取待分类文本。

在一些实施例中，关键词确定模块220可以用于确定所述待分类文本中的至少一个关键词。

在一些实施例中，文本分类模块230可以用于通过文本分类模型处理所述至少一个关键词及所述待分类文本，确定所述待分类文本的类别。

在一些实施例中，特征获取单元231可以用于获取所述至少一个关键词的特征信息及所述待分类文本的特征信息；其中，所述待分类文本的特征信息包括所述待分类文本中字符的类型向量表示，所述类型向量表示指示所述字符是否为关键词中的字符。

在一些实施例中，所述关键词的特征信息包括以下信息中的一种或多种的组合：关键词中字符的字符向量表示、关键词中字符的所属句子向量表示以及关键词中字符的在所属句子中的位置向量表示；所述待分类文本的特征信息还包括以下信息中的一种或多种的组合：待分类文本中字符的字符向量表示、待分类文本中字符的所属句子向量表示以及待分类文本中字符的在所属句子中的位置向量表示。

在一些实施例中，关键词的特征信息包括关键词中各字符的字符向量表示、所属句子向量表示以及在所属句子中的位置向量表示对应相加的结果；所述待分类文本的特征信息包括待分类文本中各字符的类型向量表示、字符向量表示、所属句子向量表示以及在所属句子中的位置向量表示对应相加的结果。

在一些实施例中，特征处理单元232可以用于基于所述至少一个关键词的特征信息及所述待分类文本的特征信息确定所述待分类文本的类别。

在一些实施例中，特征处理单元232还可以用于基于所述至少一个关键词的特征信息及所述待分类文本的特征信息生成预测向量；基于所述预测向量确定所述待分类文本分别属于一个或多个预设类别中的每一个的概率值。

在一些实施例中，文本分类模型可以包括BERT模型、BERT-Large模型、RoBERTa模型、ALBERT模型或者XL-Net模型。

应当理解，所示的系统及其模块可以利用各种方式来实现。例如，在一些实施例中，系统及其模块可以通过硬件、软件或者软件和硬件的结合来实现。其中，硬件部分可以利用专用逻辑来实现；软件部分则可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域技术人员可以理解上述的方法和系统可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本说明书的系统及其模块不仅可以有诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用例如由各种类型的处理器所执行的软件实现，还可以由上述硬件电路和软件的结合(例如，固件)来实现。

需要注意的是，以上对于文本分类的系统200及其模块的描述，仅为描述方便，并不能把本说明书限制在所举实施例范围之内。可以理解，对于本领域的技术人员来说，在了解该系统的原理后，可能在不背离这一原理的情况下，对各个模块进行任意组合，或者构成子系统与其他模块连接。例如，系统200还可以包括文本预处理模块诸如此类的变形，均在本说明书的保护范围之内。

图3是根据本说明书的一些实施例所示的一种文本分类的方法的示例性流程图。

如图3所示，该文本分类流程300可以包括：

步骤310，获取待分类文本。

具体的，该步骤310可以由文本获取模块210执行。

待分类文本是指需要对其进行分类的文本，其中，文本可以是各种类型的句子或由各种类型的句子构成的段落。句子的类型可以包括但不限于疑问句、祈使句、感叹句、反问句、设问句、陈述句等等。

在一些实施例中，待分类的文本可以来源于各种生活、业务等场景。例如，可以是在智能客服机器人提供智能问答或智能咨询等服务场景中，发起咨询、提问等服务请求的用户的文本数据，也可以是在教学场景中，进行咨询、提问等发言的用户(如学生、家长、老师等)的文本数据。

在一些实施例中，可以通过用户直接输入文本数据的方式来获取待分类文本。还可以通过对用户输入的其它各种形式的数据(如语音、图像、视频等)进行识别并提取文本数据的方式来获取待分类文本。还可以通过从存储有文本数据的存储空间中读取的方式来获取待分类文本。本实施例对获取的方式不做限制。

用户在输入文本数据时因为笔误或者对用户输入的其他形式数据进行文本转化时，得到的文本数据中可能存在一些与表述内容无关，甚至干扰表述的多余符号。因此，在一些实施例中，还可以对待分类文本进行预处理，得到去除无用、干扰字符或符号后的待分类文本。例如，可以对待分类文本进行HTML富文本标记、重复的标点符号、句子中的空格和制表符等无用、干扰字符或符号进行去除。通过本实施例，对待分类文本进行预处理后，可以减少待分类文本的干扰信息，能够提升后续模型处理待分类文本并预测其类别的效果。

步骤320，确定所述待分类文本中的至少一个关键词。

具体的，该步骤320可以由关键词确定模块220执行。

关键词是指能够反映文本数据主要信息的字符或词汇，可以是从文本数据中抽取的字符或词汇，或者也可以是基于文本数据概括、提炼的字符或词汇。通过关键词可以获取到文本数据的重要信息或主要信息。例如，在智能客服机器人提供智能咨询的服务场景中，获取到用户输入的关于医疗健康的问句文本QT：“打了预防针吃了糖丸，9天后发烧，烧了两天后身上起了红色的小点点，第一天出的不多，第二天全身都是。小诊所说是过敏。我怀疑是麻疹。宝宝精神状态还行。到底是不是麻疹？”，该问句文本的关键词可以包括：过敏、麻疹、发烧、红点等，这些关键词可以反映问句中的症状、病情等主要信息。

在一些实施例中，待分类文本的关键词可以包括一个或多个(如2个、3个、4个等)。

在一些实施例中，可以通过TF/IDF算法、Topic Model算法、Textrank算法或rake算法等关键词提取算法从待分类文本中提取关键词。以Textrank算法为例，可以将前述待分类文本QT：“打了预防针吃了糖丸，9天后发烧…小诊所说是过敏。我怀疑是麻疹。宝宝精神状态还行。到底是不是麻疹？”以句子为单位进行分割，得到多个句子，并对每个句子进行分词和词性标注(如名词、动词、形容词等)，得到多个词汇，基于多个词汇构建对应的图数据，得到多个词汇对应的图数据后，对其进行处理，迭代传播各节点的权重，直至收敛，基于节点的权重即可得到待分类文本的一个或多个关键词。在一些实施例中，可以对节点权重进行倒序排序，得到排名为TopN(N为大于等于1的整数)的词汇作为待分类文本的关键词，如取N为3，则得到关键词为过敏、麻疹和发烧。其中，图数据中节点基于词汇构建，连接2个节点的边可以基于词汇共现关系(co-occurrence)构建，共现关系是指两个节点对应的词汇在长度为K的窗口中共同出现，K表示窗口大小，即最多共现K个单词。两个节点对应的词汇之间具备共现关系时，两个节点之间存在边，边特征可以包括共现关系的相关信息，例如三个句子的分词结果如下：a/b/c，b/a/f，a/d/c，窗口大小为3(即共现关系考虑的窗口(词汇范围)为3个词汇)，共现关系的相关信息可以包括词汇a和b共现2次，词汇a和c共现2次。

步骤330，通过文本分类模型处理所述至少一个关键词及所述待分类文本，确定所述待分类文本的类别。

具体的，该步骤330可以由文本分类模块230执行。

待分类文本的类别是指根据待分类文本的语义确定的待分类文本的类型。例如，对于医疗健康的问句，待分类文本的类别可以包括：类别A-与诊断有关的问题、类别B-与治疗有关的问题、类别C-与解剖学/生理学有关的问题、类别D-与流行病学有关的问题、类别E-与健康生活方式有关的问题、类别F-与择医有关的问题等。

在一些实施例中，待分类文本的类别可以是二分类对应的类别，例如待分类文本是类别A或待分类文本不是类别A。

在一些实施例中，待分类文本的类别可以是互斥的多分类对应的类别，例如待分类文本是类别A的概率为a，是类别B的概率为b，是类别C的概率为c，其中a+b+c＝1。

在一些实施例中，待分类文本的类别可以是不互斥的多分类对应的类别，即多标签分类问题，例如待分类文本是类别A的概率为a，是类别B的概率为b，是类别C的概率为c，其中a、b、c的值互不影响。换句话说，待分类文本可以高概率的属于三类类别中的两类或以上。

在一些实施例中，可以将待分类文本和待分类文本对应的至少一个关键词输入文本分类模型，文本分类模型可以输出得到待分类文本对应的类别。

在一些实施例中，可以将至少一个关键词与待分类文本进行拼接，并将拼接了关键词的待分类文本输入文本分类模型。在一些实施例中，至少一个关键词可以拼接在待分类文本的句首(即首字符前)、句尾(即末尾字符后)。在一些实施例中，有多个关键词时，可以对多个关键词任意排序构成关键词组(可看成与待分类文本不同的句子)再与待分类文本进行后续拼接，其中，多个关键词之间可以用单竖线、斜线、顿号等常用的分隔符号进行分隔。在一些实施例中，有多个关键词时，也可以将各个关键词分散地与待分类文本进行拼接，例如将关键词“过敏”拼接在待分类文本QT的句首，将关键词“麻疹”拼接在待分类文本QT的句尾。

在一些实施例中，至少一个关键词与待分类文本之间加有表示句子位置或句子分隔的句子分隔符号，例如[SEP]。句子分隔符号[SEP]可以表示句子开始(即句首)或句子结束(即句尾)，可以用于分开关键词与待分类文本。

在一些实施例中，步骤330可以进一步包括：获取至少一个关键词的特征信息及待分类文本的特征信息，该步骤可以由特征获取单元231执行。

至少一个关键词的特征信息和待分类文本的特征信息分别指至少一个关键词和待分类文本的字符信息、语义信息等文本相关信息。特征信息可以用向量表示。

在一些实施例中，待分类文本的特征信息可以包括待分类文本中字符的类型向量表示，类型向量表示指示字符是否为关键词中的字符。例如，如图4中所示，关键词KT中包括字符KT₁-如字符“过”、KT₂-如字符“敏”(图中未示出)、KT₃-如字符“麻”(图中未示出)、KT₄-如字符“疹”(图中未示出)等m个字符，待分类文本中包括字符QT₁-如字符“说”、QT₂-如字符“是”、QT₃-如字符“过”(图中未示出)、QT₄-如字符“敏”(图中未示出)等n个字符，其中，QT₁-字符“说”的类型向量表示可以用E_t1表示，E_t1对应为指示字符不是关键词中字符的向量表示，QT₂字符“是”的类型向量表示可以用E_t2表示，E_t2对应为指示字符不是关键词中字符的向量表示，QT₃-字符“过”的类型向量表示可以用E_t3表示(图中未示出)，E_t3对应为指示字符是关键词中字符的向量表示，QT₁-字符“敏”的类型向量表示可以用E_t4表示(图中未示出)，E_t4对应为指示字符是关键词中字符的向量表示。

在一些实施例中，可以用向量的取值来对应指示字符是否为关键词中的字符。例如，指示字符不是关键词中字符的向量表示取值为0等，指示字符是关键词中字符的向量表示取值为1等。其中，指示字符是关键词中字符的向量表示与指示字符不是关键词中字符的向量表示不同即可。

在一些实施例中，关键词中的字符也对应有类型向量表示。对关键词中的字符，可以将其类型向量表示设置为初始值，例如图4中的E_t0，初始值可以为0或其他常向量。

基于至少一个关键词及待分类文本的特征信息确定待分类文本的类别，可以通过基于待分类文本的关键词的特征信息、待分类文本的特征信息(包括待分类文本中字符是否是关键词中字符的相关信息)来确定。可以实现在待分类文本中融合上关键词嵌入信息来帮助模型更好的捕捉问句中的关键词信息，从而更准确地完成文本分类。

在一些实施例中，关键词的特征信息还可以包括以下信息中的一种或多种的组合：关键词中字符的字符向量表示、关键词中字符的所属句子向量表示以及关键词中字符的在所属句子中的位置向量表示。

关键词中字符的字符向量表示用于表示字符的特征信息，例如字符类型(动词、名词、形容词、副词、连词等)、字符语义、字符字体等字符本身的相关信息。如图4中所示，E_KT1、E_KT2(图中未示出)、E_KT3(图中未示出)、E_KT4(图中未示出)可以分别表示关键词中字符KT₁-如字符“过”、KT₂-如字符“敏”、KT₃-如字符“麻”、KT₄-如字符“疹”的字符向量表示。字符的字符向量表示可以通过查询词表获得，词表中包括不同字符及其对应的字符向量表示。

关键词中字符的所属句子向量表示用于指示字符所属的句子，一个句子可以对应一个句子向量表示，字符所属的句子不同，对应的所属句子向量表示不同。继续以前述关键词KT为例，如图4中所示，关键词对应的关键词句子A对应的句子向量表示可以为E_A，关键词中字符KT₁-如字符“过”、KT₂-如字符“敏”、KT₃-如字符“麻”、KT₄-如字符“疹”的所属句子都为关键词句子A，则其对应的所属句子向量表示都为E_A。

关键词中字符的在所属句子中的位置向量表示用于表示字符在所属句子中的位置信息，例如字符在所属句子中的第N个字符，N为大于等于0的整数。继续以前述关键词KT为例，如图4中所示，关键词中字符KT₁-如字符“过”、KT₂-如字符“敏”、KT₃-如字符“麻”、KT₄-如字符“疹”分别对应的在所属句子中的位置向量表示为E₁、E₂、E₃。E₁可以为表示字符为关键词句子A中第一个字符的向量表示，E₂可以为表示字符为关键词句子A中第二个字符的向量表示，E₃可以为表示字符为关键词句子A中第三个字符的向量表示。

在一些实施例中，待分类文本的特征信息还包括以下信息中的一种或多种的组合：待分类文本中字符的字符向量表示、待分类文本中字符的所属句子向量表示以及待分类文本中字符的在所属句子中的位置向量表示。

待分类文本中字符的字符向量表示用于表示字符的特征信息，例如字符类型(动词、名词、形容词、副词、连词等)、字符语义、字符字体等字符本身的相关信息。继续以前述待分类文本QT为例，如图4中所示，E_QT1、E_QT2、E_QT3(图中未示出)、E_QT4(图中未示出)可以分别表示待分类文本中字符QT₁-字符“说”、QT₂-字符“是”、QT₃-字符“过”、QT₄-字符“敏”的字符向量。字符的字符向量表示可以通过查询词表获得，词表中包括不同字符及其对应的字符向量表示。

待分类文本中字符的所属句子向量表示用于指示字符所属的句子，一个句子可以对应一个句子向量表示，字符所属的句子不同，对应的所属句子向量表示不同。继续以前述待分类文本QT为例，如图4中所示，待分类文本对应的待分类文本句子B对应的句子向量表示可以为E_B，待分类文本中字符QT₁-字符“说”、QT₂-字符“是”、QT₃-字符“过”、QT₄-字符“敏”的所属句子都为句子B，则其对应的所属句子向量表示都为E_B。

待分类文本中字符的在所属句子中的位置向量表示用于表示字符在所属句子中的位置信息，例如字符在所属句子中的第N个字符，N为大于等于0的整数。继续以前述待分类文本QT为例，如图4中所示，待分类文本中字符QT₁-字符“说”、QT₂-字符“是”、QT₃-字符“过”、QT₄-字符“敏”分别对应的在所属句子中的位置向量表示为E₁、E₂、E₃(图中未示出)、E₄(图中未示出)。E₁可以为表示字符为句子B中第一个字符的向量表示，E₂可以为表示字符为句子B中第二个字符的向量表示，E₃可以为表示字符为句子B中第三个字符的向量表示，E₄可以为表示字符为句子B中第四个字符的向量表示。

在一些实施例中，输入文本分类模型的至少一个关键词和待分类文本中，包括的字符分隔符号、句子分隔符号等标识符号也可以有对应的类型向量表示、字符向量表示、所属句子向量表示、在所属句子中的位置向量表示。

在一些实施例中，对于输入文本分类模型的数据中的标识符号，其对应的类型向量表示可以置为初始值。例如，图4中包括标识符号[CLS]、[SEP]，其中，标识符号[CLS]用于放在输入文本分类模型的文本的第一个句子的首位，经过文本分类模型得到的标识符号[CLS]对应的表征向量可以用于后续的分类任务。标识符号[SEP]所标识信息可以参见前述将至少一个关键词与待分类文本进行拼接的相关内容，此处不再赘述，标识符号[CLS]、[SEP]对应的类型向量表示E_t0，初始值如E_t0可以为0，标识符号[CLS]对应的字符向量表示为E_[CLS]，标识符号[SEP]对应的字符向量表示为E_[SEP]，标识符号[CLS]所属句子为关键词句子A，对应的所属句子向量表示为E_A，标识符号[SEP]所属句子为句子B，对应的所属句子向量表示为E_B，标识符号[CLS]对应的在所属句子中的位置向量表示为E₀，表示标识符号[CLS]所代表的标识位置信息，标识符号[SEP]对应的在所属句子中的位置向量表示为E_x，表示标识符号[SEP]所代表的标识位置信息。其中，标识符号[CLS]、[SEP]可以看作特殊的字符，可以设为固定的向量表示或者也可以通过查询词表获得，词表中包括不同字符及其对应的字符向量表示。E₀、E_x可以设为预设的固定的值，如0或1等。

在一些实施例中，可以基于上述方式确定各字符或标识符号的向量表示，并将其作为初始向量表示输入到文本分类模型中。

在一些实施例中，文本分类模型可以将关键词中各字符的字符向量表示、所属句子向量表示以及在所属句子中的位置向量表示对应相加，将相加结果作为关键词的特征信息。在一些实施例中，还可以将关键词中各字符的类型向量表示、字符向量表示、所属句子向量表示以及在所属句子中的位置向量表示对应相加，将相加结果作为关键词的特征信息其中，相加可以是对关键词中各字符的类型向量表示、字符向量表示、所属句子向量表示以及在所属句子中的位置向量表示进行直接相加，令一个字符得到一个对应的特征向量，至少一个关键词中各个字符对应的各个特征向量作为关键词的特征信息，或者对字符向量表示、所属句子向量表示以及在所属句子中的位置向量表示进行加权后相加，令一个字符得到一个对应的特征向量，至少一个关键词中各个字符对应的各个特征向量作为关键词的特征信息。其中，权重可以是根据实际需求进行设置或作为模型的参数，经训练确定。在一些实施例中，关键词中各字符的类型向量表示也可以与前述三类向量表示进行相加。

在一些实施例中，文本分类模型可以将待分类文本中各字符的类型向量表示、字符向量表示、所属句子向量表示以及在所属句子中的位置向量表示对应相加，将结果作为待分类文本的特征信息。其中，相加可以是对待分类文本中各字符的字符向量表示、所属句子向量表示以及在所属句子中的位置向量表示进行直接相加，令一个字符得到一个对应的特征向量，待分类文本中各个字符对应的各个特征向量作为待分类文本的特征信息，或者对字符向量表示、所属句子向量表示以及在所属句子中的位置向量表示进行加权后相加，令一个字符得到一个对应的特征向量，待分类文本中各个字符对应的各个特征向量作为待分类文本的特征信息。其中，权重可以是根据实际需求进行设置或者作为模型的参数，经训练确定。

在一些实施例中，对于输入文本分类模型的数据中的标识符号，其对应的类型向量表示对应的类型向量表示、字符向量表示、所属句子向量表示以及在所属句子中的位置向量表示也可以按照前述方法对应相加，得到各个标识符号对应的各个特征向量。

在一些实施例中，步骤330还可以包括：基于特征信息确定待分类文本的类别，该步骤可以由特征处理单元232执行。在一些实施例中，基于特征信息确定待分类文本的类别，可以包括基于特征信息生成预测向量；以及基于所述预测向量确定待分类文本分别属于一个或多个预设类别中的每一个的概率值。

基于特征信息生成预测向量可以是对得到的各个字符、标识符号对应的前述特征向量，进行处理，如编码，输出得到各个字符、标识符号对应的输出向量，如图4中T₀、T₁、T₂、T₃、T₄、T₅、T₆、T₇、T₈、…、T_m+n+3。

在一些实施例中，可以对多个输出向量进行池化处理(例如均值池化、最大值池化等)得到一个向量，将其作为预测向量，或者直接指定[CLS]对应的输出向量为预测向量。在一些实施例中，并可以基于该预测向量确定所述待分类文本分别属于一个或多个预设类别中的每一个的概率值。

继续以前述待分类文本QT为例，其对应的属于一个或多个预设类别中的每一个的概率值可以包括：属于类别A-与诊断有关的问题的概率值为0.4、类别B-与治疗有关的问题的概率值为0.4、类别C-与解剖学/生理学有关的问题的概率值为0.1、类别D-与流行病学有关的问题的概率值为0.2、类别E-与健康生活方式有关的问题的概率值为0.1、类别F-与择医有关的问题的概率值为0.7。

在一些实施例中，文本分类模型可以包括BERT模型、BERT-Large模型、RoBERTa模型、ALBERT模型或者XL-Net模型等。

以采用BERT模型为例，文本分类模型可以包括特征输入层，用于接收至少一个关键词和待分类文本，以及各字符的前述各种向量表示。特征输入层可以进一步基于各个字符、标识符号对应的各类向量表示得到各个字符、标识符号对应的特征向量，并将各个字符、标识符号对应的特征向量输入编码层进行编码，输出得到各个字符、标识符号对应的输出向量。

文本分类模型还包括池化层，用于对各输出向量进行下采样，得到一个预测向量。仅作为示例，所述各输出向量可以是768维的向量，池化层经过均值池化或最大值池化，得到一个768维的预测向量。在一些实施例中，可以直接指定[CLS]对应的输出向量为预测向量，此时池化层可以省略。在一些实施例中，文本分类模型还可以包括对预测向量进行降维处理，输出一个低维向量，如将768维的预测向量进行处理，得到一个6维向量(加入总类别数为6)。例如，可以通过线性层进行降维，最后，将低维向量的每一个元素分别输入sigmoid函数进行计算，得到6个相互独立的概率值，即得到待分类文本分别属于一个或多个预设类别中的每一个的概率值。

在一些实施例中，文本分类模型可以通过对初始文本分类模型进行训练得到，所述训练方法可以包括：将已知标签(对应所属的类别和/或所属类别的概率值)的待分类文本样本按照流程300进行处理，得到该样本属于不同类别的概率预测值，基于概率预测值与样本标签确定损失函数，对所述初始文本分类模型的参数进行迭代更新，以减小损失函数值，进而得到所述文本分类模型。其中，所述损失函数可以为二分类交叉熵损失函数。

以损失函数为二分类交叉熵损失函数为例，损失函数可以表示为H_p(q)，表达式如下：

其中，q代表样本数据，y_i表示样本q属于第i类别的标签(属于该类别为1，不属于为0)，p(y_i)是样本q属于第i类别的预测概率，N为类别总数，如取6。H_p(q)越小，意味着模型的预测结果越接近样本标签。

本说明书实施例还提供一种文本分类的装置，包括至少一个存储介质和至少一个处理器，所述至少一个存储介质用于存储计算机指令；所述至少一个处理器用于执行所述计算机指令以实现如下方法：获取待分类文本；确定所述待分类文本中的至少一个关键词；通过文本分类模型处理所述至少一个关键词及所述待分类文本，确定所述待分类文本的类别。

本说明书实施例可能带来的有益效果包括但不限于：(1)通过文本分类模型，基于至少一个关键词及待分类文本的特征信息确定待分类文本的类别，可以实现在待分类文本中融合上关键词嵌入信息，从而更准确地完成文本分类；(2)文本分类模型的输入引入了待分类文本各字符的类型向量表示，以指示该字符是否属于关键词，可以帮助模型更好的捕捉问句中的关键词信息，进一步提升文本分类的准确性。需要说明的是，不同实施例可能产生的有益效果不同，在不同的实施例里，可能产生的有益效果可以是以上任意一种或几种的组合，也可以是其他任何可能获得的有益效果。

上文已对基本概念做了描述，显然，对于本领域技术人员来说，上述详细披露仅仅作为示例，而并不构成对本说明书的限定。虽然此处并没有明确说明，本领域技术人员可能会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议，所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。

同时，本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此，应强调并注意的是，本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外，本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。

此外，本领域技术人员可以理解，本说明书的各方面可以通过若干具有可专利性的种类或情况进行说明和描述，包括任何新的和有用的工序、机器、产品或物质的组合，或对他们的任何新的和有用的改进。相应地，本说明书的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外，本说明书的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品，该产品包括计算机可读程序编码。

计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号，例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式，包括电磁形式、光形式等，或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质，该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播，包括无线电、电缆、光纤电缆、RF、或类似介质，或任何上述介质的组合。

本说明书各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写，包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等，常规程序化编程语言如C语言、Visual Basic、Fortran2003、Perl、COBOL2002、PHP、ABAP，动态编程语言如Python、Ruby和Groovy，或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或处理设备上运行。在后种情况下，远程计算机可以通过任何网络形式与用户计算机连接，比如局域网(LAN)或广域网(WAN)，或连接至外部计算机(例如通过因特网)，或在云计算环境中，或作为服务使用如软件即服务(SaaS)。

此外，除非权利要求中明确说明，本说明书所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用，并非用于限定本说明书流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例，但应当理解的是，该类细节仅起到说明的目的，附加的权利要求并不仅限于披露的实施例，相反，权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如，虽然以上所描述的系统组件可以通过硬件设备实现，但是也可以只通过软件的解决方案得以实现，如在现有的处理设备或移动设备上安装所描述的系统。

同理，应当注意的是，为了简化本说明书披露的表述，从而帮助对一个或多个发明实施例的理解，前文对本说明书实施例的描述中，有时会将多种特征归并至一个实施例、附图或对其的描述中。但是，这种披露方法并不意味着本说明书对象所需要的特征比权利要求中提及的特征多。实际上，实施例的特征要少于上述披露的单个实施例的全部特征。

一些实施例中使用了描述成分、属性数量的数字，应当理解的是，此类用于实施例描述的数字，在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明，“大约”、“近似”或“大体上”表明所述数字允许有±20％的变化。相应地，在一些实施例中，说明书和权利要求中使用的数值参数均为近似值，该近似值根据个别实施例所需特点可以发生改变。在一些实施例中，数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本说明书一些实施例中用于确认其范围广度的数值域和参数为近似值，在具体实施例中，此类数值的设定在可行范围内尽可能精确。

针对本说明书引用的每个专利、专利申请、专利申请公开物和其他材料，如文章、书籍、说明书、出版物、文档等，特此将其全部内容并入本说明书作为参考。与本说明书内容不一致或产生冲突的申请历史文件除外，对本说明书权利要求最广范围有限制的文件(当前或之后附加于本说明书中的)也除外。需要说明的是，如果本说明书附属材料中的描述、定义、和/或术语的使用与本说明书所述内容有不一致或冲突的地方，以本说明书的描述、定义和/或术语的使用为准。

最后，应当理解的是，本说明书中所述实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书的范围。因此，作为示例而非限制，本说明书实施例的替代配置可视为与本说明书的教导一致。相应地，本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。

Claims

1.一种文本分类的方法，包括：

获取待分类文本；

确定所述待分类文本中的至少一个关键词；

通过文本分类模型处理所述至少一个关键词及所述待分类文本，确定所述待分类文本的类别，所述文本分类模型的处理进一步包括：

获取所述至少一个关键词的特征信息及所述待分类文本的特征信息；其中，所述待分类文本的特征信息包括所述待分类文本中字符的类型向量表示，所述类型向量表示指示所述字符是否为关键词中的字符；

基于所述至少一个关键词的特征信息及所述待分类文本的特征信息确定所述待分类文本的类别。

2.如权利要求1所述的方法，关键词的特征信息包括关键词中字符的字符向量表示；

所述待分类文本的特征信息还包括以下信息中的一种或多种的组合：待分类文本中字符的字符向量表示、待分类文本中字符的所属句子向量表示以及待分类文本中字符的在所属句子中的位置向量表示。

3.如权利要求2所述的方法，所述关键词的特征信息还包括关键词中字符的所属句子向量表示、关键词中字符的在所属句子中的位置向量表示以及关键词中字符的类型向量表示，所述关键词中字符的类型向量表示为预设的常向量。

4.如权利要求3所述的方法，所述文本分类模型包括BERT模型、BERT-Large模型、RoBERTa模型、ALBERT模型或者XL-Net模型；

所述关键词的特征信息包括关键词中各字符的类型向量表示、字符向量表示、所属句子向量表示以及在所属句子中的位置向量表示对应相加的结果；

所述待分类文本的特征信息包括待分类文本中各字符的类型向量表示、字符向量表示、所属句子向量表示以及在所属句子中的位置向量表示对应相加的结果。

5.如权利要求1所述的方法，所述基于所述至少一个关键词的特征信息及所述待分类文本的特征信息确定所述待分类文本的类别，包括：

基于所述至少一个关键词的特征信息及所述待分类文本的特征信息生成预测向量；

基于所述预测向量确定所述待分类文本分别属于一个或多个预设类别中的每一个的概率值。

6.一种文本分类的系统，包括：

文本获取模块：用于获取待分类文本；

关键词确定模块：用于确定所述待分类文本中的至少一个关键词；

文本分类模块：用于通过文本分类模型处理所述至少一个关键词及所述待分类文本，确定所述待分类文本的类别，所述文本分类模块进一步包括：

特征获取单元：用于获取所述至少一个关键词的特征信息及所述待分类文本的特征信息；其中，所述待分类文本的特征信息包括所述待分类文本中字符的类型向量表示，所述类型向量表示指示所述字符是否为关键词中的字符；

特征处理单元：用于基于所述至少一个关键词的特征信息及所述待分类文本的特征信息确定所述待分类文本的类别。

7.如权利要求6所述的系统，关键词的特征信息包括关键词中字符的字符向量表示；

8.如权利要求7所述的系统，所述关键词的特征信息还包括关键词中字符的所属句子向量表示、关键词中字符的在所属句子中的位置向量表示以及关键词中字符的类型向量表示，所述关键词中字符的类型向量表示为预设的常向量。

9.如权利要求8所述的系统，所述文本分类模型包括BERT模型、BERT-Large模型、RoBERTa模型、ALBERT模型或者XL-Net模型；

10.如权利要求6所述的系统，所述特征处理单元还用于：

11.一种文本分类的装置，包括至少一个存储介质和至少一个处理器，所述至少一个存储介质用于存储计算机指令；所述至少一个处理器用于执行所述计算机指令以实现如权利要求1～5任一项所述的方法。