CN107908635B

CN107908635B - 建立文本分类模型以及文本分类的方法、装置

Info

Publication number: CN107908635B
Application number: CN201710882685.0A
Authority: CN
Inventors: 夏源; 周景博; 董维山; 范伟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2017-09-26
Filing date: 2017-09-26
Publication date: 2021-04-16
Anticipated expiration: 2037-09-26
Also published as: CN107908635A; US10783331B2; US20190095432A1

Abstract

本发明提供一种建立文本分类模型与文本分类的方法、装置，建立方法包括：获取训练样本；基于实体词典对文本进行切词后获取对应的向量矩阵；利用文本的向量矩阵以及文本的分类，训练第一分类模型和第二分类模型；在训练过程中，利用第一分类模型与第二分类模型的损失函数得到文本分类模型的损失函数，并利用文本分类模型的损失函数对第一和第二分类模型调整参数，得到由第一和第二分类模型构成的文本分类模型。文本分类的方法包括：获取待分类的文本；基于实体词典对文本进行切词后获取文本对应的向量矩阵；将向量矩阵输入文本分类模型，根据文本分类模型的输出，得到该文本的分类结果。通过本发明所提供的技术方案，能够提高文本分类的效果。

Description

建立文本分类模型以及文本分类的方法、装置

【技术领域】

本发明涉及自然语言处理技术，尤其涉及一种建立文本分类模型以及文本分类的方法、装置。

【背景技术】

在互联网时代，文本自动分类的方法应用于互联网领域的各个方面，包括网页分类、微博情感分析、用户评论挖掘等。目前，文本分类在广泛领域的精度已经达到很高的程度，但是在垂直领域的分类仍具有一定的缺陷，例如医疗领域、法律领域、科技领域等。现有技术通常采用单一模型对文本进行分类，已有的模型各有优缺点，例如对短文本分类效果不好、鲁棒性和泛化性能不佳，等等。因此将单一模型应用于垂直领域的文本分类往往无法达到很好的分类效果。

【发明内容】

有鉴于此，本发明提供了一种建立文本分类模型以及文本分类的方法和装置，用于提高文本分类的效果。

本发明为解决技术问题所采用的技术方案是提供一种建立文本分类模型的方法，所述方法包括：获取训练样本，所述训练样本包括：文本及其对应的分类；基于实体词典对所述文本进行切词后，获取所述文本对应的向量矩阵；利用所述文本对应的向量矩阵以及所述文本的分类，分别训练第一分类模型和第二分类模型；在所述训练过程中，利用第一分类模型的损失函数以及所述第二分类模型的损失函数得到文本分类模型的损失函数，并利用文本分类模型的损失函数对所述第一分类模型和第二分类模型进行参数调整，得到由第一分类模型和第二分类模型构成的文本分类模型。

根据本发明一优选实施例，所述文本分类模型用于医疗文本的分类。

根据本发明一优选实施例，所述第一分类模型和第二分类模型的训练目标为最小化所述文本分类模型的损失函数。

根据本发明一优选实施例，所述第一分类模型为基于概率的分类模型.

根据本发明一优选实施例，所述第一分类模型包括基于双向长度记忆单元和卷积神经网络组合的分类模型。

根据本发明一优选实施例，训练第一分类模型包括：将所述文本作为输入，所述文本的分类作为输出，训练第一分类模型。

根据本发明一优选实施例，所述第二分类模型为基于相似度的分类模型。

根据本发明一优选实施例，所述第二分类模型包括基于深度神经网络的分类模型。

根据本发明一优选实施例，训练第二分类模型包括：将所述文本以及与该文本的分类对应的专家数据作为输入，将文本与专家数据的相似度作为输出，训练第二分类模型。

根据本发明一优选实施例，所述利用第一分类模型的损失函数以及所述第二分类模型的损失函数得到文本分类模型的损失函数包括：使用预设组合形式，对第一分类模型的损失函数以及第二分类模型的损失函数进行整合，得到文本分类模型的损失函数。

本发明为解决技术问题而采用的技术方案是提供一种建立文本分类模型的装置，所述装置包括：第一获取单元，用于获取训练样本，所述训练样本包括：文本及其对应的分类；第二获取单元，用于基于实体词典对所述文本进行切词后，获取所述文本对应的向量矩阵；训练单元，用于利用所述文本对应的向量矩阵以及所述文本的分类，分别训练第一分类模型和第二分类模型；其中，在所述训练过程中，利用第一分类模型的损失函数以及所述第二分类模型的损失函数得到文本分类模型的损失函数，并利用文本分类模型的损失函数对所述第一分类模型和第二分类模型进行参数调整，得到由第一分类模型和第二分类模型构成的文本分类模型。

根据本发明一优选实施例，所述训练单元在训练第一分类模型和第二分类模型的目标为最小化所述文本分类模型的损失函数。

根据本发明一优选实施例，所述训练单元在训练第一分类模型时，具体执行：将所述文本作为输入，所述文本的分类作为输出，训练第一分类模型。

根据本发明一优选实施例，所述训练单元在训练第二分类模型时，具体执行：将所述文本以及与该文本的分类对应的专家数据作为输入，将文本与专家数据的相似度作为输出，训练第二分类模型。

根据本发明一优选实施例，所述训练单元在利用第一分类模型的损失函数以及所述第二分类模型的损失函数得到文本分类模型的损失函数时，具体执行：使用预设组合形式，对第一分类模型的损失函数以及第二分类模型的损失函数进行整合，得到文本分类模型的损失函数。

本发明为解决技术问题而采用的技术方案是提供一种文本分类的方法，所述方法包括：获取待分类的文本；基于实体词典对所述文本进行切词后，获取所述文本对应的向量矩阵；将所述向量矩阵输入文本分类模型，根据所述文本分类模型的输出，得到该文本的分类结果。

本发明为解决技术问题而采用的技术方案是提供一种文本分类的装置，所述装置包括：第三获取单元，用于获取待分类的文本；第四获取单元，用于基于实体词典对所述文本进行切词后，获取所述文本对应的向量矩阵；分类单元，用于将所述向量矩阵输入文本分类模型，根据所述文本分类模型的输出，得到该文本的分类结果。

由以上技术方案可以看出，本发明通过使用新构造的损失函数来整合两个分类模型以得到文本分类模型，从而在使用该文本分类模型进行文本分类时，能够提高文本分类的效果。

【附图说明】

图1为本发明一实施例提供的建立文本分类模型的结构图。

图2为本发明一实施例提供的对文本进行分类的方法流程图。

图3为本发明一实施例提供的建立文本分类模型的装置结构图。

图4为本发明一实施例提供的对文本进行分类的装置结构图。

图5为本发明一实施例提供的计算机系统/服务器的框图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

本发明的核心思想在于，如图1中所示：创建一种包括多种分类模型的文本分类模型以用于文本的分类，并且利用整合构成的损失函数对多种分类模型进行训练，使得由多种分类模型构成的文本分类模型能够同时考虑多种分类模型的相关程度；更进一步地，可以在训练过程中引入专家数据，使得该文本分类模型能够对文本进行更加准确地分类。该文本分类模型可以用于各种垂直领域，例如医疗领域、科技领域、法律领域等，本文以文本分类模型应用于医疗领域为例进行说明。

首先对建立文本分类模型的过程进行描述。在本发明中，文本分类模型包括多种分类模型，可以为两种、三种或者更多种，本文以由两种分类模型构成文本分类模型为例进行说明。

具体地，文本分类模型可以采用以下训练方式得到：

1)获取训练样本，所获取的训练样本包括：文本及其对应的分类。

在本步骤中，所获取的训练样本中包括的医疗文本为已标注分类的医疗文本，即根据医疗文本的标注结果能够获得该医疗文本的分类。

2)基于实体词典对文本进行切词后，获取文本对应的向量矩阵。

在本步骤中，首先基于实体词典对文本进行切词处理，然后对切词结果进行词向量化处理，最后将所得到的词向量进行拼接，从而得到文本的向量矩阵。

其中，实体词典为包含各领域专业名称的词典。在实施例中所使用的实体词典为医学实体词典，其包含有各种医学实体的专业名称，例如各种药品的名称、各种疾病的名称或者各种症状的名称等。同理可知，科技实体词典包含有各种科技实体的专业名称，法律词典包含有各种法律实体的专业名称。因此在本步骤中，基于医学实体词典对医疗文本进行切词，能够有效地避免对医疗文本进行错误切词的情形。这是因为，不同领域的文本会包含不同领域的专业名称，例如医疗文本中包含非常长或者非常复杂的药物名称，而在使用普通的切词方法时，如果无法对专业名称进行区分，则可能会出现将某一完整的名称切分成不同部分的情形。因此，本步骤中使用实体词典对文本进行切词，能够尽可能地保证对文本进行正确地切词处理。

在对医疗文本进行切词处理后，对切词结果进行词向量化处理，即将各词语表示为向量，可以使用例如Word2Vec、GloVe等方法将词语映射到向量。然后，对所获得的向量进行拼接，从而得到对应医疗文本的向量矩阵。

3)利用所述文本对应的向量矩阵以及所述文本的分类，分别训练第一分类模型和第二分类模型。

首先对第一分类模型的训练过程进行描述：

在本步骤中，第一分类模型为基于概率的分类模型，其可以包括基于双向长度记忆单元和卷积神经网络组合的分类模型，也可以为双向长度记忆单元和深度神经网络组合的分类模型，还可以为卷积神经网络和深度神经网络组合的分类模型。

在训练第一分类模型的时候，将医疗文本作为输入，医疗文本的分类作为输出，训练第一分类模型。而第一分类模型的训练目标为最小化文本分类模型的损失函数，根据文本分类模型的损失函数对第一分类模型的参数进行调整。对于文本分类模型的损失函数将在下文详述。

然后对第二分类模型的训练过程进行详述：

在本步骤中，第二分类模型为基于相似度的分类模型，其可以包括基于深度神经网络的分类模型，还可以为基于卷积神经网络的分类模型。

在训练第二分类模型的时候，将医疗文本以及与该医疗文本的分类对应的医疗领域专家数据作为输入，将该医疗文本与该医疗领域专家数据的相似度作为输出，训练第二分类模型。

其中，专家数据为各专业领域相关的书籍、论文或者报告中的至少一种，在本步骤中使用的医疗领域专家数据即为与医疗领域相关的书籍、论文或者报告中的至少一种。此外，各领域专家数据会预先标注分类，即通过标注可以得到该专家数据的分类。例如在医疗领域专家数据中，标注为“药理学”的医疗领域专家数据可以包括书籍A、报告B、论文C等，标注为“呼吸科”的医疗领域专家数据可以包括书籍E、书籍F等。这是因为各种专业领域的书籍、报告或者论文都是由各领域专家编撰，其中包含有细粒度的章节、摘要、介绍等，可以将这些细粒度的章节、摘要等提取，以作为各领域专家数据标注的分类。

此外，本步骤中所使用的与医疗文本对应的医疗领域专家数据，即为分类与医疗文本的分类一致的医疗领域专家数据。例如，若某医疗文本的分类为“药理学”，则与该医疗文本一致的医疗领域专家数据为书籍A、报告B、论文C，其相似度标注结果为1。

与第一分类模型的训练目标一致，第二分类模型的训练目标也为最小化文本分类模型的损失函数，根据该损失函数对第二分类模型的参数进行调整。

4)在所述训练过程中，利用第一分类模型的损失函数以及所述第二分类模型的损失函数得到文本分类模型的损失函数，并利用文本分类模型的损失函数对所述第一分类模型和第二分类模型进行参数调整，得到由第一分类模型和第二分类模型构成的文本分类模型。

在本步骤中，首先构建上述两种模型在训练过程中使用的损失函数：

在通常情况下，不同模型根据其自身所对应的损失函数进行模型参数的调整。但是在垂直领域的文本分类中，例如说医疗文本，由于医疗文本自身的复杂性，使用单独的模型对其进行分类的效果不够好。因此，本发明通过建立一个新的损失函数，同时对上述两个模型的训练过程进行监督，从而提高文本分类的准确性。使用预设组合形式，对第一分类模型和第二分类模型的损失函数进行整合，以获取文本分类模型的损失函数。

在本实施例中，假设第一分类模型的损失函数为Q_cls，第二分类模型的损失函数为Q_match，则可以使用下面的公式得到文本分类模型的损失函数Loss：

Loss＝G(Q_cls,Q_match)

在公式中：Loss为文本分类模型的损失函数，Q_cls为第一分类模型的损失函数，Q_match为第二分类模型的损失函数，G为两类损失函数的组合形式。

下面对上述文本分类模型的损失函数可能的组合形式进行列举，即G可能存在的形式，可以理解的是，文本分类模型的损失函数并不限于以下所列举的组合形式：

Loss＝λ·Q_cls+(1-λ)·Q_match或者；

Loss＝λ·Q_cls·Q_match或者；

Loss＝λ·Q² _cls+(1-λ)·Q² _match

在公式中：Loss为文本分类模型的损失函数，Q_cls为第一分类模型的损失函数，Q_match为第二分类模型的损失函数，λ为权重参数。

因此，在上述步骤中对第一分类模型和第二分类模型的参数进行调整时，所使用的损失函数就是由上述公式所获取的Loss。在同时使用文本分类模型的损失函数对第一分类模型和第二分类模型的参数进行调整，能够使得两种模型所得到的结果更加准确。这是因为，在单独使用基于概率的文本分类模型时，虽然对于粗粒度的文本分类取得了很好的效果，但由于没有引入专家数据作为约束，在细粒度的领域分类还存在问题；而在单独使用基于相似度的分类模型时也存在缺陷，该模型没有利用文本的多元标签，仅仅利用二元标签(是否相似)进行文本的分类，从而导致模型的召回率较低。

例如，若输入的文本为医疗文本，该医疗文本是某道医学试题，利用第一分类模型得到该试题的类别为“药理学”，但第二分类模型却得到该试题与药理学的医疗领域专家数据不相似，因此无法判断哪个模型的输出为正确结果；但是，当第一分类模型得到该试题的类别为“药理学”，且第二分类模型得到该试题与药理学的医疗领域专家数据相似，则可以确定该医疗文本的分类为“药理学”。使得两个模型在训练过程中互相约束，所输出的分类结果一致，而这也是使用同一个损失函数对两个模型进行优化来获取文本分类模型的目的。

图2为本发明一实施例提供的一种文本分类的方法流程图，如图1中所示，所述方法包括：

在201中，获取待分类的文本。

在本步骤中，所获取的文本可以为各领域的文本，例如医学、科技、法律等领域。本发明以获取的待分类文本为医学领域的文本进行举例说明，例如所获取的文本可以为医学文献、电子病历文本、医学考试试题等。

在202中，基于实体词典对所述文本进行切词后，获取所述文本对应的向量矩阵。

在本步骤中，对由步骤201所获取的医疗文本进行切词，获取对应该医疗文本的向量矩阵。其中，基于实体词典对文本的切词处理为基于医学实体词典对医疗文本进行切词，然后对切词结果进行词向量化处理，最后将词向量进行拼接处理，得到该医疗文本的向量矩阵。本步骤中进行的切词处理、词向量化处理以及拼接处理与上述步骤中对训练样本中的文本进行的处理过程一致，在此不再进行赘述。

在203中，将所述向量矩阵输入文本分类模型，根据所述文本分类模型的输出，得到该文本的分类结果。

在本步骤中，将由步骤202所得到的对应医疗文本的向量矩阵，输入预先训练得到的文本分类模型中，根据该文本分类模型的输出，得到该医疗文本的分类结果。

具体来说，在本步骤中由文本分类模型所得到的医疗文本的分类结果包括两部分：一部分是由第一分类模型得到的该医疗文本的分类结果，另一部分是由第二分类模型得到的该医疗文本与该医疗文本的分类所对应的医疗领域专家数据的相似度。

因此，利用上述方法能够实现对不同领域的文本进行更加精确地分类，可以用于实现自动地对不同领域的文本进行归类，例如对医疗文献、医学考试试题、电子病历的问诊信息等进行归类；另外，由于在模型的训练过程中引入了专家数据，因此利用本发明还能够根据分类结果，对不同领域的文本建立专家数据的索引，例如对医疗文献、医学考试试题等建立医疗领域专家数据的索引。

图3为本发明一实施例提供建立文本分类模型的装置结构图，如图3中所述，该装置包括：第一获取单元31、第二获取单元32、训练单元33。

第一获取单元31，用于获取训练样本，所述训练样本包括：文本及其对应的分类。

第一获取单元31所获取的训练样本中包括的医疗文本为已标注分类的医疗文本，即根据医疗文本的标注结果能够获得该医疗文本的分类。

第二获取单元32，用于基于实体词典对所述文本进行切词后，获取所述文本对应的向量矩阵。

第二获取单元32首先基于实体词典对文本进行切词处理，然后对切词结果进行词向量化处理，最后将所得到的词向量进行拼接，从而得到文本的向量矩阵。

其中，实体词典为包含各领域专业名称的词典。第二获取单元32所使用的实体词典为医学实体词典，其包含有各种医学实体的专业名称，例如各种药品的名称、各种疾病的名称或者各种症状的名称等。同理可知，科技实体词典包含有各种科技实体的专业名称，法律词典包含有各种法律实体的专业名称。

第二获取单元32基于医学实体词典对医疗文本进行切词，能够有效地避免对医疗文本进行错误切词的情形，尽可能地保证对医疗文本进行正确地切词处理。

在对医疗文本进行切词处理后，第二获取单元32对切词结果进行词向量化处理，即将各词语表示为向量，可以使用例如Word2Vec、GloVe等方法将词语映射到向量。然后，第二获取单元32对所获得的向量进行拼接，从而得到对应医疗文本的向量矩阵。

训练单元33，用于利用所述文本对应的向量矩阵以及所述文本的分类，分别训练第一分类模型和第二分类模型。

训练单元33包括两个训练过程，下面对这两个训练过程分别描述：

(1)训练单元33可以采用如下方式，对第一分类模型进行训练：

训练单元33所训练的第一分类模型为基于概率的分类模型，其可以包括基于双向长度记忆单元和卷积神经网络组合的分类模型，也可以为双向长度记忆单元和深度神经网络组合的分类模型，还可以为卷积神经网络和深度神经网络组合的分类模型。

在训练单元33训练第一分类模型的时候，将医疗文本作为输入，医疗文本的分类作为输出，来训练第一分类模型。而第一分类模型的训练目标为最小化文本分类模型的损失函数。对于文本分类模型的损失函数将在下文详述。

(2)训练单元33可以采用以下方式，对第二分类模型进行训练：

训练单元33所训练的第二分类模型为基于相似度的分类模型，其可以包括基于深度神经网络的分类模型，还可以为基于卷积神经网络的分类模型。

在训练单元33训练第二分类模型的时候，将医疗文本以及与该医疗文本的分类对应的医疗领域专家数据作为输入，将该医疗文本与该医疗领域专家数据的相似度作为输出，来训练第二分类模型。

其中，专家数据为各专业领域相关的书籍、论文或者报告中的至少一种，并且各领域专家数据会预先标注分类，即通过标注可以得到该专家数据的分类。这是因为各种专业领域的书籍、报告或者论文都是由各领域专家编撰，其中包含有细粒度的章节、摘要、介绍等，可以将这些细粒度的章节、摘要等提取，以作为各领域专家数据标注的分类。

训练单元33使用的医疗领域专家数据即为与医疗领域相关的书籍、论文或者报告中的至少一种。例如在医疗领域专家数据中，标注为“药理学”的医疗领域专家数据可以包括书籍A、报告B、论文C等，标注为“呼吸科”的医疗领域专家数据可以包括书籍E、书籍F等。

此外，训练单元33所使用的与医疗文本对应的医疗领域专家数据，即为分类与医疗文本的分类一致的医疗领域专家数据。例如，若某医疗文本的分类为“药理学”，则与该医疗文本一致的医疗领域专家数据为书籍A、报告B、论文C，其相似度标注结果为1。

与第一分类模型的训练目标一致，训练单元33对第二分类模型的训练目标也为最小化文本分类模型的损失函数。

其中，在所述训练过程中，训练单元33利用第一分类模型的损失函数以及所述第二分类模型的损失函数得到文本分类模型的损失函数，并利用文本分类模型的损失函数对所述第一分类模型和第二分类模型进行参数调整，得到由第一分类模型和第二分类模型构成的文本分类模型。

训练单元33首先构建上述两种模型在训练过程中使用的损失函数。

训练单元33使用预设组合形式，对第一分类模型和第二分类模型的损失函数进行整合，以获取文本分类模型的损失函数。在本实施例中，假设第一分类模型的损失函数为Q_cls，第二分类模型的损失函数为Q_match，训练单元33则可以使用以下公式得到文本分类模型的损失函数Loss：

Loss＝G(Q_cls,Q_match)

Loss＝λ·Q_cls+(1-λ)·Q_match或者；

Loss＝λ·Q_cls·Q_match或者；

Loss＝λ·Q² _cls+(1-λ)·Q² _match

因此，训练单元33在对第一分类模型和第二分类模型的参数进行调整时，所使用的损失函数就是由上述公式所获取的Loss，在训练完毕后得到由第一分类模型和第二分类模型所构成的文本分类模型，使用该文本分类模型能够获取更为准确的文本分类的结果。

图4为本发明一实施例提供的文本分类的装置结构图，如图4中所示，该装置包括：第三获取单元41、第四获取单元42以及分类单元43。

第三获取单元41，用于获取待分类的文本。

第三获取单元41所获取的文本可以为各领域的文本，例如医学领域、科技领域、法律领域等。本实施例以获取的待分类文本为医学领域的文本进行举例说明，则第三获取单元41所获取的文本可以为医学文献、电子病历文本、医学考试试题等。

第四获取单元42，用于基于实体词典对所述文本进行切词后，获取所述文本对应的向量矩阵。

第四获取单元42对由第三获取单元41所获取的医疗文本进行切词，获取对应该医疗文本的向量矩阵。具体地，第四获取单元42基于医学实体词典对医疗文本进行切词，然后对切词结果进行词向量化处理，最后将词向量进行拼接处理，得到该医疗文本的向量矩阵。第四获取单元42所进行的切词处理、词向量化处理以及拼接处理与上述第二获取单元32所进行处理的过程一致，在此不再进行赘述。

分类单元43，用于将所述向量矩阵输入文本分类模型，根据所述文本分类模型的输出，得到该文本的分类结果。

分类单元43将由第四获取单元42所得到的对应医疗文本的向量矩阵，输入预先训练得到的文本分类模型中，根据该文本分类模型的输出，得到该医疗文本的分类结果。

具体来说，分类单元43所得到的医疗文本的分类结果包括两部分：一部分是由第一分类模型得到的该医疗文本的分类结果，另一部分是由第二分类模型得到的该医疗文本与该医疗文本的分类所对应的医疗领域专家数据的相似度。

图5示出了适于用来实现本发明实施方式的示例性计算机系统/服务器012的框图。图5显示的计算机系统/服务器012仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图5所示，计算机系统/服务器012以通用计算设备的形式表现。计算机系统/服务器012的组件可以包括但不限于：一个或者多个处理器或者处理单元016，系统存储器028，连接不同系统组件(包括系统存储器028和处理单元016)的总线018。

总线018表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机系统/服务器012典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器012访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器028可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)030和/或高速缓存存储器032。计算机系统/服务器012可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统034可以用于读写不可移动的、非易失性磁介质(图5未显示，通常称为“硬盘驱动器”)。尽管图5中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线018相连。存储器028可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块042的程序/实用工具040，可以存储在例如存储器028中，这样的程序模块042包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块042通常执行本发明所描述的实施例中的功能和/或方法。

计算机系统/服务器012也可以与一个或多个外部设备014(例如键盘、指向设备、显示器024等)通信，在本发明中，计算机系统/服务器012与外部雷达设备进行通信，还可与一个或者多个使得用户能与该计算机系统/服务器012交互的设备通信，和/或与使得该计算机系统/服务器012能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口022进行。并且，计算机系统/服务器012还可以通过网络适配器020与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器020通过总线018与计算机系统/服务器012的其它模块通信。应当明白，尽管图中未示出，可以结合计算机系统/服务器012使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元016通过运行存储在系统存储器028中的程序，从而执行各种功能应用以及数据处理，例如实现一种建立文本分类模型的方法，可以包括：

获取训练样本，所述训练样本包括：文本及其对应的分类；

基于实体词典对所述文本进行切词后，获取所述文本对应的向量矩阵；

利用所述文本对应的向量矩阵以及所述文本的分类，分别训练第一分类模型和第二分类模型；

在所述训练过程中，利用第一分类模型的损失函数以及所述第二分类模型的损失函数得到文本分类模型的损失函数，并利用文本分类模型的损失函数对所述第一分类模型和第二分类模型进行参数调整，得到由第一分类模型和第二分类模型构成的文本分类模型。

又或者例如实现一种文本分类的方法，可以包括：

获取待分类的文本；

将所述向量矩阵输入文本分类模型，根据所述文本分类模型的输出，得到该文本的分类结果。

上述的计算机程序可以设置于计算机存储介质中，即该计算机存储介质被编码有计算机程序，该程序在被一个或多个计算机执行时，使得一个或多个计算机执行本发明上述实施例中所示的方法流程和/或装置操作。例如，被上述一个或多个处理器执行的方法流程，可以包括：

获取训练样本，所述训练样本包括：文本及其对应的分类；

或者还可以包括：

获取待分类的文本；

随着时间、技术的发展，介质含义越来越广泛，计算机程序的传播途径不再受限于有形介质，还可以直接从网络下载等。可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

利用本发明所提供的技术方案，通过使用新构造的损失函数来整合两个分类模型以得到文本分类模型，从而在使用该文本分类模型进行文本分类时，能够提高文本分类的效果。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种建立文本分类模型的方法，其特征在于，所述方法包括：

获取训练样本，所述训练样本包括：文本及其对应的分类；

2.根据权利要求1所述的方法，其特征在于，所述文本分类模型用于医疗文本的分类。

3.根据权利要求1所述的方法，其特征在于，所述第一分类模型和第二分类模型的训练目标为最小化所述文本分类模型的损失函数。

4.根据权利要求1所述的方法，其特征在于，所述第一分类模型为基于概率的分类模型。

5.根据权利要求4所述的方法，其特征在于，所述第一分类模型包括基于双向长度记忆单元和卷积神经网络组合的分类模型。

6.根据权利要求4所述的方法，其特征在于，训练第一分类模型包括：

将所述文本作为输入，所述文本的分类作为输出，训练第一分类模型。

7.根据权利要求1所述的方法，其特征在于，所述第二分类模型为基于相似度的分类模型。

8.根据权利要求7所述的方法，其特征在于，所述第二分类模型包括基于深度神经网络的分类模型。

9.根据权利要求7所述的方法，其特征在于，训练第二分类模型包括：

将所述文本以及与该文本的分类对应的专家数据作为输入，将文本与专家数据的相似度作为输出，训练第二分类模型。

10.根据权利要求1所述的方法，其特征在于，所述利用第一分类模型的损失函数以及所述第二分类模型的损失函数得到文本分类模型的损失函数包括：

使用预设组合形式，对第一分类模型的损失函数以及第二分类模型的损失函数进行整合，得到文本分类模型的损失函数。

11.一种文本分类的方法，其特征在于，所述方法包括：

获取待分类的文本；

将所述向量矩阵输入文本分类模型，根据所述文本分类模型的输出，得到该文本的分类结果；

其中，所述文本分类模型根据如权利要求1至10任一权项所述的方法预先建立。

12.一种建立文本分类模型的装置，其特征在于，所述装置包括：

第一获取单元，用于获取训练样本，所述训练样本包括：文本及其对应的分类；

第二获取单元，用于基于实体词典对所述文本进行切词后，获取所述文本对应的向量矩阵；

训练单元，用于利用所述文本对应的向量矩阵以及所述文本的分类，分别训练第一分类模型和第二分类模型；其中，在所述训练过程中，利用第一分类模型的损失函数以及所述第二分类模型的损失函数得到文本分类模型的损失函数，并利用文本分类模型的损失函数对所述第一分类模型和第二分类模型进行参数调整，得到由第一分类模型和第二分类模型构成的文本分类模型。

13.根据权利要求12所述的装置，其特征在于，所述训练单元在训练第一分类模型和第二分类模型的目标为最小化所述文本分类模型的损失函数。

14.根据权利要求12所述的装置，其特征在于，所述训练单元在训练第一分类模型时，具体执行：

15.根据权利要求12所述的装置，其特征在于，所述训练单元在训练第二分类模型时，具体执行：

16.根据权利要求12所述的装置，其特征在于，所述训练单元在利用第一分类模型的损失函数以及所述第二分类模型的损失函数得到文本分类模型的损失函数时，具体执行：

17.一种文本分类的装置，其特征在于，所述装置包括：

第三获取单元，用于获取待分类的文本；

第四获取单元，用于基于实体词典对所述文本进行切词后，获取所述文本对应的向量矩阵；

分类单元，用于将所述向量矩阵输入文本分类模型，根据所述文本分类模型的输出，得到该文本的分类结果；

其中，所述文本分类模型根据如权利要求12至16任一权项所述的装置预先建立。

18.一种设备，其特征在于，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-11中任一所述的方法。

19.一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-11中任一所述的方法。