CN110427486A

CN110427486A - 身体病况文本的分类方法、装置及设备

Info

Publication number: CN110427486A
Application number: CN201910675905.1A
Authority: CN
Inventors: 陈俊
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-07-25
Filing date: 2019-07-25
Publication date: 2019-11-08
Anticipated expiration: 2039-07-25
Also published as: CN110427486B

Abstract

本发明实施例提供的身体病况文本的分类方法、装置及设备，该方法包括：获取身体病况文本；对身体病况文本进行分词处理，得到分词结果，分词结果包括多个中文词和多个医疗实体词；将多个中文词和多个医疗实体词输入深度学习模型，得到深度学习模型的输出结果，所述输出结果用于指示各种症状类型的概率分布；根据所述输出结果，确定所述身体病况文本对应的症状类型。通过利用深度学习模型根据身体病况文本中的中文词和医疗实体词进行预测，得到各种症状类型的概率分布，进而确定身体病况文本对应的症状类型，一方面提高了身体病况文本分类结果的准确率，另一方面，不受规则表达的限制，无需医学专家整理规则，降低了时间成本和人力成本。

Description

身体病况文本的分类方法、装置及设备

技术领域

本发明实施例涉及智能医疗技术领域，尤其涉及一种身体病况文本的分类方法、装置及设备。

背景技术

目前人工智能已经渗透到医疗行业。有些场景中，需要对身体病况文本进行分类，例如根据身体病况文本中描述的症状信息所属的症状类型，对身体病况文本进行分类。对身体病况文本进行分类一方面可用于病人进行初步自筛，另一方面也可用于基层医院的院内系统，辅助医疗人员进行症状类型预测和医学研究，从而缓解医疗资源紧缺的现状。

目前，在对身体病况文本进行分类时，主要采用基于规则的专家系统，以大量医学专家整理的预测规则为主，建立规则到症状类型的映射关系，当身体病况符合某一规则时，将该规则对应的症状类型作为身体病况文本对应的类别。

但是，由于预测规则很难穷举，症状类型的病况表现各不相同，即使同一症状类型的不同对象也可能呈现不同的病况，预测规则不可能覆盖每一种情况，使得身体病况文本分类的准确率较低。另一方面，预测规则的整理完全依赖于医学专家人工整理，人力成本非常高。

发明内容

本发明实施例提供一种身体病况文本的分类方法、装置及设备，用以提高身体病况文本分类结果的准确率，并降低人力成本。

第一方面，本发明实施例提供一种身体病况文本的分类方法，包括：

获取身体病况文本，所述身体病况文本用于描述症状信息；

对所述身体病况文本进行分词处理，得到分词结果，所述分词结果包括多个中文词和多个医疗实体词；

将所述多个中文词和所述多个医疗实体词输入深度学习模型，得到所述深度学习模型的输出结果，所述输出结果用于指示所述身体病况文本对应的各种症状类型的概率分布；

根据所述输出结果，确定所述身体病况文本对应的症状类型。

可选的，所述身体病况文本包括至少一个文本片段，所述对所述身体病况文本进行分词处理，得到分词结果，包括：

对各所述文本片段进行中文分词，得到各所述文本片段对应的多个中文词；

对所述身体病况文本进行自然语言理解，得到所述身体病况文本对应的多个医疗实体词。

可选的，所述将所述多个中文词和所述多个医疗实体词输入深度学习模型，得到所述深度学习模型的输出结果，包括：

根据各所述文本片段对应的多个中文词和符号映射表，得到各所述文本片段对应的第一符号序列，其中，所述符号映射表包括标准中文词和根据所述标准中文词的词频确定的符号；

根据所述身体病况文本对应的多个医疗实体词和医疗实体词典，得到所述身体病况文本对应的第二符号序列，其中，所述医疗实体词典包括根据词频确定标准医疗实体词；

将所述第一符号序列和所述第二符号序列输入至所述深度学习模型，得到输出结果。

可选的，所述深度学习模型包括至少一个卷积层和一个全连接层，所述将所述第一符号序列和所述第二符号序列输入至所述深度学习模型，得到输出结果，包括：

将各所述文本片段对应的第一符号序列输入至所述各所述卷积层，并将所述身体病况文本对应的第二符号序列输入至所述全连接层，得到输出结果。

可选的，所述将所述多个中文词和所述多个医疗实体词输入深度学习模型，得到所述深度学习模型的输出结果之前，还包括：

对训练数据进行平衡采样，得到多个训练样本，每个所述训练样本包括症状类型和一个身体病况样本；

以各所述身体病况样本对应的第一符号序列和第二符号序列作为深度学习模型的输入，以所述症状类型为真实标签，对所述深度学习模型进行训练，得到训练后的深度学习模型。

可选的，所述以各所述身体病况样本对应的第一符号序列和第二符号序列作为深度学习模型的输入，以所述症状类型为真实标签，对所述深度学习模型进行训练，得到训练后的深度学习模型，包括：

针对每个所述训练样本，将所述训练样本的身体病况样本对应的第一符号序列输入至深度学习模型的卷积层，将所述训练样本的身体病况样本对应的第二符号序列输入至深度学习模型的全连接层，获取所述深度学习模型输出的预测结果；

根据各所述训练样本的所述真实标签和所述预测结果，获取代价函数，并根据所述代价函数对所述深度学习模型的参数进行调整，直至达到训练结束条件。

可选的，所述训练数据包括至少一个实例，每个实例包括症状类型和身体病况样本，所述对训练数据进行平衡采样，得到多个训练样本，包括：

针对每种症状类型，获取所述症状类型对应的实例数量，若所述实例数量小于第一阈值，则对所述症状类型对应的实例进行过采样；若所述实例数量大于第二阈值，则对所述症状类型对应的实例进行欠采样；若所述实例数量大于等于所述第一阈值且小于等于所述第二阈值，则对所述症状类型对应的实例全采样；其中，所述第一阈值小于所述第二阈值；

将采样后的各所述症状类型对应的实例作为训练样本。

第二方面，本发明实施例提供一种身体病况文本的分类装置，包括：

获取模块，用于获取身体病况文本，所述身体病况文本用于描述症状信息；

分词模块，用于对所述身体病况文本进行分词处理，得到分词结果，所述分词结果包括多个中文词和多个医疗实体词；

预测模块，用于将所述多个中文词和所述多个医疗实体词输入深度学习模型，得到所述深度学习模型的输出结果，所述输出结果用于指示所述身体病况文本对应的各种症状类型的概率分布；

所述预测模块，还用于根据所述输出结果，确定所述身体病况文本对应的症状类型。

可选的，身体病况文本包括至少一个文本片段，所述分词模块具体用于：

可选的，所述预测模块具体用于：

可选的，所述深度学习模型包括至少一个卷积层和一个全连接层，所述预测模块具体用于：

可选的，所述装置还包括：训练模块，所述训练模块用于：

可选的，所述训练模块具体用于：

可选的，所述训练数据包括至少一个实例，每个实例包括症状类型和身体病况样本，所述训练模块具体用于：

将采样后的各所述症状类型对应的实例作为训练样本。

第三方面，本发明实施例提供一种身体病况文本的分类设备，包括：存储器、处理器以及计算机程序，所述计算机程序存储在所述存储器中，所述处理器运行所述计算机程序执行如第一方面任一项所述的方法。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质包括计算机程序，所述计算机程序被处理器执行时实现如第一方面任一项所述的方法。

本发明实施例提供的身体病况文本的分类方法、装置及设备，该方法包括：获取身体病况文本，所述身体病况文本用于描述症状信息；对所述身体病况文本进行分词处理，得到分词结果，所述分词结果包括多个中文词和多个医疗实体词；将所述多个中文词和所述多个医疗实体词输入深度学习模型，得到深度学习模型的输出结果，所述输出结果用于指示所述身体病况文本对应的各种症状类型的概率分布；根据所述输出结果，确定所述身体病况文本对应的症状类型。通过利用深度学习模型根据身体病况文本中的中文词和医疗实体词进行预测，得到各种症状类型的概率分布，一方面提高了身体病况文本分类结果的准确率，另一方面，不受规则表达的限制，无需医学专家整理规则，降低了时间成本和人力成本。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例适用的应用场景示意图；

图2为本发明一实施例提供的身体病况文本的分类方法的流程示意图；

图3为本发明另一实施例提供的身体病况文本的分类方法的流程示意图；

图4为本发明实施例提供的医疗实体词空间的示意图；

图5为本发明实施例提供的深度学习模型的结构示意图；

图6为本发明一实施例提供的深度学习模型的训练过程的示例图；

图7为本发明一实施例提供的身体病况文本的分类装置的结构示意图；

图8为本发明另一实施例提供的身体病况文本的分类装置的结构示意图；

图9为本发明一实施例提供的身体病况文本的分类设备的硬件结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

有些场景中，需要对身体病况文本进行分类，例如根据身体病况文本中描述的症状信息所属的症状类型，对身体病况文本进行分类。现有技术中，在对身体病况文本进行分类时，主要采用基于规则的专家系统，以大量医学专家整理的预测规则为主，建立规则到症状类型的映射关系，当身体病况符合某一规则时，将该规则对应的症状类型作为身体病况文本对应的类别。

但是，由于预测规则很难穷举，症状类型对应的病况表现各不相同，即使同一症状类型的不同对象也可能呈现不同的病况，预测规则不可能覆盖每一种情况。另一方面，预测规则的整理完全依赖于医学专家人工整理，人力成本非常高，导致其可扩展性低。

为了解决上述技术问题中的至少一个，本发明实施例提供一种身体病况文本的分类方法。利用训练好的深度学习模型对身体病况文本中的多个中文词和多个医疗实体词进行预测，得到各种症状类型的概率分布，进而确定身体病况文本对应的症状类型。本实施例在对身体病况文本进行分类时，不仅考虑身体病况文本的中文分词结果，还考虑了身体病况文本中的医疗实体词，使得身体病况文本的分类结果更加准确。

图1为本发明实施例适用的应用场景示意图，如图1所示，将身体病况文本输入分类装置中，分类装置利用深度学习模型对身体病况文本进行预测，得到各种症状类型的概率分布，进而确定身体病况文本对应的症状类型。其中，深度学习模型是根据对不同症状类型对应的多个身体病况文本进行深度学习得到的。一方面，提高了身体病况文本的分类结果的准确率；另一方面，不受规则表达的限制，无需医学专家整理规则，降低了时间成本和人力成本。

一种可能的应用场景中，医疗人员将患者的身体病况文本输入本实施例的分类装置后，分类装置能够自动输出身体病况文本对应的症状类型，为医疗人员的医学研究和症状类型预测提供参考依据。

另一种可能的应用场景中，患者将自身的身体病况文本输入本实施例的分类装置后，分类装置能够自动输出身体病况文本对应的症状类型，为患者进行症状类型自查提供方便。

下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图2为本发明一实施例提供的身体病况文本的分类方法的流程示意图。本实施例的执行主体为身体病况文本的分类装置，该装置可以为软件和/或硬件的形式。

如图2所示，本实施例的方法，包括：

S201：获取身体病况文本，所述身体病况文本用于描述症状信息。

其中，身体病况文本是指描述患者症状信息的文本。本实施例的身体病况文本可以是一个文本片段，也可以是多个文本片段。每个文本片段可以是但不限于下述中的任一：患者主诉、现病史、体格检查结果、辅助检查结果。

本实施例中的身体病况文本可以是患者自身对患病情况的描述，也可以是医疗人员对于患者患病情况的描述。

S202：对所述身体病况文本进行分词处理，得到分词结果，所述分词结果包括多个中文词和多个医疗实体词。

S203：将所述多个中文词和所述多个医疗实体词输入深度学习模型，得到所述深度学习模型的输出结果，所述输出结果用于指示所述身体病况文本对应的各种症状类型的概率分布。

S204：根据所述输出结果，确定所述身体病况文本对应的症状类型。

本实施例中的深度学习模型是指利用深度学习算法训练得到的模型。其中，深度学习算法可以是现有的机器学习算法。一种可能的实施方式中，深度学习模型可以是神经网络(Neural Networks，NN)模型。

深度学习模型可以具体是根据大量的身体病况样本和症状类型之间的关联关系进行深度学习得到的。具体的，以身体病况样本作为深度学习模型的输入，以已知症状类型为标签，对深度学习模型进行训练，从而得到训练好的深度学习模型。本实施例对于深度模型的训练过程不作具体限定，一种可能的训练方式可以参见后续实施例的详细描述。

具体的，对身体病况文本进行分词处理，得到多个中文词和多个医疗实体词。其中，中文词是指对身体病况文本进行中文分词得到的词汇。而医疗实体词是指身体病况文本中的医学专用词汇。可以理解的，多个中文词和多个医疗实体词可以存在交集。

可以理解的，对身体病况文本进行分词处理可以有多种方式。可以采用现有的分词工具进行分词，例如：jieba、NLPC等，还可以基于自然语言理解结果进行分词。无论何种分词方式，在分词过程中可以过滤掉纯数字或者标点符号等停用词。

本实施例中，深度学习模型根据多个中文词和多个医疗实体词进行症状类型预测，得到各种症状类型的概率分布。具体的，可以将最大概率对应的症状类型作为身体病况文本对应的症状类型。其中，由于身体病况文本的分词结果，能够表示身体病况文本的语义信息，更利于深度学习模型对身体病况文本进行分类预测。

进一步的，本实施例中深度学习模型在对身体病况文本进行分类预测时，不仅考虑了身体病况文本中的中文词，还考虑了身体病况文本中的医疗实体词。可以理解的，身体病况文本中的医疗实体词的数量以及内容对症状类型预测有重要作用，因此，能够提高身体病况文本的分类结果的准确率。

本实施例提供的身体病况文本的分类方法，包括：获取身体病况文本，所述身体病况文本用于描述症状信息；对所述身体病况文本进行分词处理，得到分词结果，所述分词结果包括多个中文词和多个医疗实体词；将所述多个中文词和所述多个医疗实体词输入深度学习模型，得到深度学习模型的输出结果，所述输出结果用于指示所述身体病况文本对应的各种症状类型的概率分布；根据所述输出结果，确定所述身体病况文本对应的症状类型。通过利用深度学习模型根据身体病况文本中的中文词和医疗实体词进行预测，得到各种症状类型的概率分布，进而确定出身体病况文本对应的症状类型，一方面提高了身体病况文本分类结果的准确率，另一方面，不受规则表达的限制，无需医学专家整理规则，降低了时间成本和人力成本。

图3为本发明另一实施例提供的身体病况文本分类方法的流程示意图。本实施例是对上一实施例中身体病况文本分类过程的进一步细化。

如图3所示，本实施例的方法，包括：

S301：获取身体病况文本，所述身体病况文本包括至少一个文本片段。

其中，每个文本片段可以是一个或者多个段落，还可以是一个句子。

S302：对各所述文本片段进行中文分词，得到各所述文本片段对应的多个中文词。

具体的，利用分词工具对各文本片段进行中文分词，去掉停用词，得到每个文本片段对应的多个中文词的序列。可以理解的，各个中文词之间的顺序与其在文本片段中的顺序一致。

示例性的，假设文本片段为“头晕,咳嗽3天,咳痰较少,为白色痰”，进行中文分词后得到的中文词的序列为(头晕、咳嗽、咳痰、白色痰)。

S303：对所述身体病况文本进行自然语言理解，得到所述身体病况文本对应的多个医疗实体词。

本实施例中，在获取身体病况文本中的医疗实体词时，不直接使用中文分词工具，而是通过对身体病况文本进行自然语言理解，得到医疗实体词，使得分词结果更加准确。

具体的，可以使用医疗自然语言理解(Natural Language Understanding，NLU)算法进行医疗实体词的提取，在提取中过滤掉非医疗词汇。进一步的，在医疗实体词的提取过程中，还可以对医疗实体词进行归一化处理，将表达同一含义的不同医疗实体进行归一化。示例性的，“肚子痛”归一化至“腹痛”，“拉肚子”归一化至“腹泻”等。

经过步骤S302和S303的分词处理后，本实施例中，对提取到的中文词和医疗实体词进行符号化(Token)处理，以方便深度学习模型的学习和计算过程。具体的，对中文词进行符号化的过程可以参见S304。对医疗实体词进行符号化的过程可以参见S305。

S304：根据各所述文本片段对应的多个中文词和符号映射表，得到各所述文本片段对应的第一符号序列，其中，所述符号映射表包括标准中文词和根据所述标准中文词的词频确定的符号。

其中，符号映射表也可以称为中文词典。符号映射表记录了各个标准中文词对应的符号。一种可能的实施方式中，符号映射表中记录了各个标准中文词对应的数字ID。示例性的：<标准中文词1、1>，<标准中文词2、2>、<标准中文词3、3>…，也就是说，标准中文词1对应的符号为1，标准中文词2对应的符号为2，标准中文词3对应的符号为3。

具体的，S302中得到各个文本片段对应的中文词序列之后，按照符号映射表对各个中文词进行符号映射，从而得到中文词序列对应的第一符号序列。示例性的，上述举例中，中文词序列(头晕、咳嗽、咳痰、白色痰)对应的第一符号序列可能为(43、25、30、78)。即，“头晕”在符号映射表中的符号为43、“咳嗽”在符号映射表中的符号为25、等等。

本实施例中，符号映射表中的每个标准中文词对应的符号，可以是根据该标准中文词的词频确定的。下面结合一种可能的实施方式介绍符号映射表的生成过程。

首先准备医疗语料文本。医疗语料文本可以包括从电子病历中获取的文本，例如：主诉、现病史、体格检查、辅助检查、既往史、个人史等。医疗语料文本也可以包括从权威医学书籍中获取的文本，例如：医学教材、临床诊疗指南等。医疗语料文本还可以包括医疗实体的百科页面的文本。从上述医疗语料文本中抽取出大量的句子集合作为分词语料。

使用中文分词工具对上述的分词语料进行分词处理，得到所有的中文分词。其中，分词工具可使用jieba、NLPC等。在分词过程中过滤掉停用词。

基于上述的分词结果，计算每个中文分词在医疗语料中出现的频次，按照从高到低的顺序对各个中文分词设置数字ID。选择频次高的前N个中文词作为标准中文词(例如N＝100000)。将每个标准中文词与其与数字ID(0至N-1)关联，建立得到符号映射表。

S305：根据所述身体病况文本对应的多个医疗实体词和医疗实体词典，得到所述身体病况文本对应的第二符号序列，其中，所述医疗实体词典包括根据词频确定标准医疗实体词。

其中，医疗实体词典是指标准医疗实体词的集合。假设医疗实体词典中包括M个标准医疗实体词。步骤S305可以将身体病况文本转化为一个M维长度的第二符号序列。其中每个符号(0或1)对应一个标准医疗实体词在该身体病况文本中是否出现。

本实施例中，医疗实体词典是根据医疗语料文本建立的一个重要医疗实体词空间，以方便基于该医疗实体词典对身体病况文本进行表示和计算。下面结合一种可能的实施方式详细描述医疗实体词典的生成过程。

首先准备医疗语料文本，与S304中的医疗语料文本类似，此处不再赘述。

根据医疗文本语料构建医疗实体词空间。图4为本发明实施例提供的医疗实体词空间的示意图。如图4所示，使用NLU对医疗语料文本进行医疗实体词提取，得到全体医疗实体词及其各医疗实体词出现的频次，构成如图4所示的全体医疗实体词空间。

基于全体医疗实体词空间，按照各医疗实体词出现的频次，由高至低，选择前M(例如M＝10000)个医疗实体词构成重要医疗实体词空间，过滤掉其余低频的非重要医疗实体词。本实施例中，如图4所示的重要医疗实体词空间称为标准医疗词典。每个重要医疗实体词称为标准医疗实体词。图4中矩形框表示的一个身体病况文本对应的医疗实体词。可见，每个身体病况文本对应一个重要医疗实体空间的子集。

得到如图4所示的重要医疗实体词空间(标准医疗词典)之后，根据身体病况文本中是否出现各个标准医疗实体词，得到身体病况文本对应的第二符号序列。

S306：将所述第一符号序列和所述第二符号序列输入至所述深度学习模型，得到输出结果，所述输出结果用于指示所述身体病况文本对应的各种症状类型的概率分布。

S307：根据所述输出结果，确定所述身体病况文本对应的症状类型。

具体的，第一符号序列表示了身体病况文本的语义信息，第二符号序列表示了身体病况文本中的医疗信息。深度学习模型通过对第一符号序列和第二符号序列进行学习，得到症状类型预测结果。

一种可能的实施方式中，深度学习模型包括至少一个卷积层和一个全连接层。图5为本发明实施例提供的深度学习模型的结构示意图。如图5所示，深度学习模型中包括x个卷积层和1个全连接层。其中，x与身体病况文本中的文本片段的数量一致。示例性的，若身体病况文本中有5个文本片段，则深度学习模型有5个卷积层。即一个文本片段对应一个卷积层。

将各所述文本片段对应的第一符号序列输入至所述各所述卷积层，并将所述身体病况文本对应的第二符号序列输入至所述全连接层，得到深度学习模型的输出结果。

具体的，每个卷积层拥有相同的结构。如图5所示，每个卷积层中由下至上分别是词向量子层(embedding)、卷积子层(convolution)和最大池化子层(max pooling&flatten)。每个卷积层分别用三个不同尺寸的卷积核进行卷积操作，例如：三个卷积核宽度分别为3、4和5。卷积层和全连接层的输出结果进行拼接，依次通过随机采样层(dropout)和输出分类层(softmax)，最终输出K维的概率分布，K为症状类型的数量。即，深度学习模型最终预测得到患每种症状类型的概率。

进一步的，可以将概率最大的症状类型作为身体病况文本对应的症状类型。

本实施例的身体病况文本的分类方法，通过利用深度学习模型根据身体病况文本中的中文词和医疗实体词进行预测，得到各种症状类型的概率分布，进而确定身体病况文本的症状类型，一方面提高了身体病况文本分类结果的准确率，另一方面，不受规则表达的限制，无需医学专家整理规则，降低了时间成本和人力成本。

图6为本发明一实施例提供的深度学习模型的训练过程的示例图。本实施例的方法可以由分类装置执行，也可以由独立于分类装置的其他装置执行。当由其他装置执行时，训练得到深度学习模型后，可以将训练好的深度学习模型设置到分类装置中。

如图6所示，本实施例的方法，包括：

S601：对训练数据进行采样，得到多个训练样本，每个所述训练样本包括症状类型和一个身体病况样本。

本实施例中的训练数据包括至少一个实例，每个实例包括症状类型和身体病况样本。示例性的，对于每种症状类型，可以存在多个<症状类型,身体病况样本>的实例。每个实例可理解为同一症状类型在不同患者人次下的病况情况。身体病况样本是描述患者当前患病情况的文本，可以是一个文本片段，也可以是多个文本字段。每个文本字段可以是但不限于下述中的任一：患者主诉、现病史、体格检查结果、辅助检查结果。

本实施例中，在保持各种症状类型对应的实例数量的大小关系不变的情况下，对各症状类型进行平衡采样，平衡采样的目的是使得每种症状类型的实例数量的差异控制在一定范围内。

一种可能的实施方式中，对高频症状类型进行欠采样，对低频症状类型对应的进行过采样。具体的，针对每种症状类型，获取所述症状类型对应的实例数量，若所述实例数量小于第一阈值，则对所述症状类型对应的实例进行过采样；若所述实例数量大于第二阈值，则对所述症状类型对应的实例进行欠采样；若所述实例数量大于等于所述第一阈值且小于等于所述第二阈值，则对所述症状类型对应的实例全采样；其中，所述第一阈值小于所述第二阈值；将采样后的各所述症状类型对应的实例作为训练样本。下面结合举例说明。

假设症状类型1对应有L个实例，即存在L个二元组：<症状类型1,身体病况样本1>、<症状类型1,身体病况样本2>、……、<症状类型1,身体病况样本L>。

计算L的P分位数v，例如P＝50％，则v表示L的中位数；定义最大采样倍率max_ratio和最小采样倍率min_ratio。对于症状类型1的实例的平衡采样过程如下：

若min_ratio*v≤L≤max_ratio*v，则L个实例进行全采样，即L个实例均作为训练样本；若L<min_ratio*v，则从L个实例中可重复的随机采样min_ratio*v个实例作为训练样本，即进行过采样；若L>max_ratio*v，则从L个实例中不可重复的随机采样max_ratio*v个实例作为训练样本，即进行欠采样。

通过以上采样方式得到的训练样本集，可以有效缓解各症状类型对应的训练样本分布不均的情况，有助于深度学习模型更好的学习到不同症状类型的判定方式。

经过上述平衡采样过程，得到训练样本后，执行S602和S603的模型训练过程，以各所述身体病况样本对应的第一符号序列和第二符号序列作为深度学习模型的输入，以所述症状类型为真实标签，对所述深度学习模型进行训练，得到训练后的深度学习模型。

S602：针对每个所述训练样本，将所述训练样本的身体病况样本对应的第一符号序列输入至深度学习模型的卷积层，将所述训练样本的身体病况样本对应的第二符号序列输入至深度学习模型的全连接层，获取所述深度学习模型输出的预测结果。

可以理解的，本实施例中各训练样本的身体病况样本对应的第一符号序列和第二符号序列的获取方式与图3所示的实施例类似，此处不再赘述。本实施例中深度学习模型的结构可以参见图5，此处不再赘述。

一种可能的实施方式中，当获取身体病况样本对应的第一符号序列后，对第一符号序列进行语义表达，然后输入至深度学习模型的卷积层。可选的，可以对第一符号序列进行词向量学习，得到对应的语义。示例性的，采用Word2Vec方法计算特征向量，向量长度定义为100维。

S603：根据各所述训练样本的所述真实标签和所述预测结果，获取代价函数，并根据所述代价函数对所述深度学习模型的参数进行调整，直至达到训练结束条件。

在本实施例的深度学习模型的训练过程中，以代价函数为训练目标。其中，代价函数用于衡量模型预测结果与真实标签之间的差异，如果存在多个训练样本，代价函数应该为所有样本的差异之和。代价函数是模型最终达到期望效果的衡量指标。代价函数可以有多种形式，一种可能的实施方式中，使用交叉熵作为代价函数。

本实施例中，对深度学习模型进行训练时，可以采用多种模型优化算法。一种可能的实施方式中，采用Adam算法作为深度学习模型的优化器。Adam是一种可以替代传统随机梯度下降过程的一阶优化算法，它能基于训练数据迭代地更新神经网络权重。

本实施例中，采用深度学习算法进行对训练数据进行训练，得到深度学习模型，相对于现有技术中的预测规则，深度学习模型具有较好的泛化能力；并且，深度学习模型不受限于规则表达的限制，仅需要输入身体病况文本即可。

图7为本发明一实施例提供的身体病况文本的分类装置的结构示意图。如图7所示，本实施例提供的身体病况文本的分类装置700，包括：获取模块701、分词模块702和预测模块703。

其中，获取模块701，用于获取身体病况文本，所述身体病况文本用于描述症状信息；

分词模块702，用于对所述身体病况文本进行分词处理，得到分词结果，所述分词结果包括多个中文词和多个医疗实体词；

预测模块703，用于将所述多个中文词和所述多个医疗实体词输入深度学习模型，得到所述深度学习模型的输出结果，所述输出结果用于指示所述身体病况文本对应的各种症状类型的概率分布；

所述预测模块703，还用于根据所述输出结果，确定所述身体病况文本对应的症状类型。

本实施例的身体病况文本的分类装置，可用于执行如图2所示的方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图8为本发明另一实施例提供的身体病况文本的分类装置的结构示意图。在图7所示实施例的基础上，本实施例的身体病况文本的分类装置700，还包括训练模块704。

可选的，身体病况文本包括至少一个文本片段，所述分词模块702具体用于：

可选的，所述预测模块703具体用于：

可选的，所述深度学习模型包括至少一个卷积层和一个全连接层，所述预测模块703具体用于：

可选的，所述训练模块704用于：

可选的，所述训练模块704具体用于：

可选的，所述训练数据包括至少一个实例，每个实例包括症状类型和身体病况样本，所述训练模块704具体用于：

针对每种症状类型，获取所述症状类型对应的实例数量，若所述实例数量小于第一阈值，则对所述症状类型对应的实例进行过采样；若所述实例数量大于第二阈值，则对所述症状类型对应的实例进行欠采样；若所述实例数量大于等于所述第一阈值且小于等于所述第二阈值，则所述症状类型对应的实例全采样；其中，所述第一阈值小于所述第二阈值；

将采样后的各所述症状类型对应的实例作为训练样本。

本实施例的身体病况文本的分类装置，可用于执行上述任一方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图9为本发明一实施例提供的身体病况文本的分类设备的硬件结构示意图。如图9所示，本实施例的身体病况文本的分类设备900，包括：处理器901以及存储器902；其中，存储器902，用于存储计算机程序；处理器901，用于执行存储器存储的计算机程序，以实现上述实施例中的身体病况文本的分类方法。具体可以参见前述方法实施例中的相关描述。

可选地，存储器902既可以是独立的，也可以跟处理器901集成在一起。

当所述存储器902是独立于处理器901之外的器件时，所述身体病况文本的分类设备900还可以包括：总线903，用于连接所述存储器902和处理器901。

本实施例提供的身体病况文本的分类设备，可用于执行上述任一方法实施例中的技术方案，其实现原理和技术效果类似，本实施例此处不再赘述。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质包括计算机程序，所述计算机程序用于实现如上任一方法实施例中的技术方案。

本发明实施例还提供一种芯片，包括：存储器、处理器以及计算机程序，所述计算机程序存储在所述存储器中，所述处理器运行所述计算机程序执行上述任一方法实施例中的技术方案。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个单元中。上述模块成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能模块的形式实现的集成的模块，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(英文：processor)执行本发明各个实施例所述方法的部分步骤。

应理解，上述处理器可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：Application Specific Integrated Circuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合申请所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器，还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。

总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component，PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本发明附图中的总线并不限定仅有一根总线或一种类型的总线。

上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits，简称：ASIC)中。当然，处理器和存储介质也可以作为分立组件存在于电子设备或主控设备中。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种身体病况文本的分类方法，其特征在于，包括：

获取身体病况文本，所述身体病况文本用于描述症状信息；

2.根据权利要求1所述的方法，其特征在于，所述身体病况文本包括至少一个文本片段，所述对所述身体病况文本进行分词处理，得到分词结果，包括：

3.根据权利要求2所述的方法，其特征在于，所述将所述多个中文词和所述多个医疗实体词输入深度学习模型，得到所述深度学习模型的输出结果，包括：

4.根据权利要求3所述的方法，其特征在于，所述深度学习模型包括至少一个卷积层和一个全连接层，所述将所述第一符号序列和所述第二符号序列输入至所述深度学习模型，得到输出结果，包括：

5.根据权利要求1至4任一项所述的方法，其特征在于，所述将所述多个中文词和所述多个医疗实体词输入深度学习模型，得到所述深度学习模型的输出结果之前，还包括：

6.根据权利要求5所述的方法，其特征在于，所述以各所述身体病况样本对应的第一符号序列和第二符号序列作为深度学习模型的输入，以所述症状类型为真实标签，对所述深度学习模型进行训练，得到训练后的深度学习模型，包括：

7.根据权利要求5所述的方法，其特征在于，所述训练数据包括至少一个实例，每个实例包括症状类型和身体病况样本，所述对训练数据进行平衡采样，得到多个训练样本，包括：

将采样后的各所述症状类型对应的实例作为训练样本。

8.一种身体病况文本的分类装置，其特征在于，包括：

9.根据权利要求8所述的装置，其特征在于，身体病况文本包括至少一个文本片段，所述分词模块具体用于：

10.根据权利要求9所述的装置，其特征在于，所述预测模块具体用于：

11.根据权利要求10所述的装置，其特征在于，所述深度学习模型包括至少一个卷积层和一个全连接层，所述预测模块具体用于：

12.根据权利要求8至11任一项所述的装置，其特征在于，所述装置还包括：训练模块，所述训练模块用于：

13.根据权利要求12所述的装置，其特征在于，所述训练模块具体用于：

14.根据权利要求12所述的装置，其特征在于，所述训练数据包括至少一个实例，每个实例包括症状类型和身体病况样本，所述训练模块具体用于：

将采样后的各所述症状类型对应的实例作为训练样本。

15.一种身体病况文本的分类设备，其特征在于，包括：存储器、处理器以及计算机程序，所述计算机程序存储在所述存储器中，所述处理器运行所述计算机程序执行如权利要求1至7任一项所述的方法。

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。