CN111339777A

CN111339777A - 基于神经网络的医学相关意图识别方法及系统

Info

Publication number: CN111339777A
Application number: CN202010111949.4A
Authority: CN
Inventors: 罗冠; 吴超尘; 胡卫明
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2020-02-24
Filing date: 2020-02-24
Publication date: 2020-06-26

Abstract

本发明涉及一种基于神经网络的医学相关意图识别方法及系统，所述识别方法包括：获取历史的用户医学问题，得到问题文本；对所述问题文本进行标注，得到标注文本，所述标注文本包括原始标注文本及实体替换标注文本；根据所述问题文本及标注文本，训练初始神经网络，得到最优超参数集下的优化神经网络；基于所述优化神经网络，根据当前用户的医学问题，确定该当前用户的意图。本发明通过对用户医学问题进行标注，得到原始标注文本及实体替换标注文本，从而可提供大量的标注文本信息，并进一步基于标注文本及问题文本，对初始神经网络进行训练，得到可以确定用户意图的优化神经网络，分析速度快，准确度高。

Description

基于神经网络的医学相关意图识别方法及系统

技术领域

本发明涉及一种数据处理与数据挖掘技术领域，特别涉及一种基于神经网络的医学相关意图识别方法及系统。

背景技术

随着计算机技术发展，越来越多的用户希望在网络上获取自动化的医疗服务。而医疗机构也希望能使用自动化的方法降低人工成本。为了实现自动化的医疗服务，我们首先需要正确理解用户问题所表达的意图，并将意图转换为机器可以识别的标签形式。

而传统的意图识别技术包括：设置规则，并用规则匹配用户问题文本；通过一些机器学习方法对标注好的文本进行训练，并用训练好的机器学习模型识别新的用户文本。可是这些方法在复杂多变的用户医学问题上常常准确度不高，并不能满足高质量的医学服务的需要。

随着深度学习技术的广泛发展与应用，我们可以通过深度学习的方法准确并高效的识别用户医学问题相关的意图。但是值得注意的是一些神经网络模型过大、运行效率较差，尽管对医学相关问题的意图识别也有较高的准确度，可是不合适在小服务器上进行部署。在高性能服务器上部署时也会占用过多系统资源而且运行速度较慢，这样会造成较久的延迟，影响用户体验。此外，由于医学文本包含较多专业内容与复杂医学词汇，这样会导致现有的一些基于神经网络的中文意图识别方法不能很好的识别中文医学文本。

发明内容

为了解决现有技术中的上述问题，即为了提高对用户医学相关文本的意图识别的准确性，本发明的目的在于提供一种基于神经网络的医学相关意图识别方法及系统。

为解决上述技术问题，本发明提供了如下方案：

一种基于神经网络的医学相关意图识别方法，所述识别方法包括：

获取历史的用户医学问题，得到问题文本；

对所述问题文本进行标注，得到标注文本，所述标注文本包括原始标注文本及实体替换标注文本；

根据所述问题文本及标注文本，训练初始神经网络，得到最优超参数集下的优化神经网络；

基于所述优化神经网络，根据当前用户的医学问题，确定该当前用户的意图。

可选地，所述对所述问题文本进行标注，得到标注文本，具体包括：

对所述问题文本进行数据清洗和筛选，得到参考文本；

基于预设的分布式词向量表示方法，对所述参考文本中的语料使用多个字符训练预设的分布式词向量模型，得到每个字符对应的分布式词向量，各分布式词向量构成原始标注文本。

可选地，所述对所述问题文本进行标注，得到标注文本，还包括：

获取医学实体及对应的类别；

识别原始标注文本中的实体及类别；

基于同一类别，替换原始标注文本中的实体，自动生成实体替换标注文本。

可选地，所述医学实体包括疾病实体、药物实体及症状实体中至少一者。

可选地，所述对所述问题文本进行数据清洗和筛选，得到参考文本，具体包括：

对所述问题文本进行数据清洗，删除所述问题文本中不相关的字符和/或字符串；

设置筛选条件，对清洗后的问题文本进行条件筛选，得到参考文本。

可选地，所述获取历史的用户医学问题，得到问题文本，具体为通过网络抓取和/或调取医学应用服务器中的用户问题。

可选地，所述初始神经网络为卷积神经网络、多层感知机及循环神经网络中任意一者。

为解决上述技术问题，本发明还提供了如下方案：

一种基于神经网络的医学相关意图识别系统，其特征在于，所述识别系统包括：

获取单元，用于获取历史的用户医学问题，得到问题文本；

标注单元，用于对所述问题文本进行标注，得到标注文本，所述标注文本包括原始标注文本及实体替换标注文本；

训练单元，用于根据所述问题文本及标注文本，训练初始神经网络，得到最优超参数集下的优化神经网络；

确定单元，用于基于所述优化神经网络，根据当前用户的医学问题，确定该当前用户的意图。

为解决上述技术问题，本发明还提供了如下方案：

一种基于神经网络的医学相关意图识别系统，包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行以下操作：

获取历史的用户医学问题，得到问题文本；

为解决上述技术问题，本发明还提供了如下方案：

一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行以下操作：

获取历史的用户医学问题，得到问题文本；

根据本发明的实施例，本发明公开了以下技术效果：

本发明通过对用户医学问题进行标注，得到原始标注文本及实体替换标注文本，从而可提供大量的标注文本信息，并进一步基于标注文本及问题文本，对初始神经网络进行训练，得到可以确定用户意图的优化神经网络，分析速度快，准确度高。

附图说明

图1是本发明基于神经网络的医学相关意图识别方法的流程图；

图2是本发明基于神经网络的医学相关意图识别系统的模块结构示意图。

符号说明：

获取单元—1，标注单元—2，训练单元—3，确定单元—4。

具体实施方式

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

本发明的目的在于提供一种基于神经网络的医学相关意图识别方法，通过对用户医学问题进行标注，得到原始标注文本及实体替换标注文本，从而可提供大量的标注文本信息，并进一步基于标注文本及问题文本，对初始神经网络进行训练，得到可以确定用户意图的优化神经网络，分析速度快，准确度高。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，本发明基于神经网络的医学相关意图识别方法包括：

步骤100：获取历史的用户医学问题，得到问题文本；

步骤200：对所述问题文本进行标注，得到标注文本，所述标注文本包括原始标注文本及实体替换标注文本；

步骤300：根据所述问题文本及标注文本，训练初始神经网络，得到最优超参数集下的优化神经网络；

步骤400：基于所述优化神经网络，根据当前用户的医学问题，确定该当前用户的意图。

在步骤100中，所述获取历史的用户医学问题，得到问题文本，具体为通过网络抓取和/或调取医学应用服务器中的用户问题。

具体地，在预设的网站中通过Python的urllib库抓取网页。为了提高内容的相关性，先抓取包含问答URL的列表页，然后从URL访问问答网页并抓取文本。在完成网页抓取以后，通过Python的Beautifulsoup库对抓取的网页进行解析，将解析后的用户问的完整问题提取并存储到文件中。除了网页抓取途径，也通过一些网络医学应用的服务器中批量提取用户问题，并保存到csv、txt等格式的文件里。

其中，预设网站包括但并不限定于家庭医生在线、拇指医生、春雨医生等。

在步骤200中，所述对所述问题文本进行标注，得到标注文本，具体包括：

步骤201：对所述问题文本进行数据清洗和筛选，得到参考文本。具体为：

步骤201a：对所述问题文本进行数据清洗，删除所述问题文本中不相关的字符和/或字符串。

网络中抓下来的数据会有很多不相关的字符串，例如很多emoji或者外文(非英文)字符，这些字符出现频率很低而且与后续神经网络的效果没有很明显的关系，反而需要更多的存储空间。本发明通过Python的正则表达式库re把不需要的字符和/或字符串从问题文本中删除。

步骤201b：设置筛选条件，对清洗后的问题文本进行条件筛选，得到参考文本。

网络中的信息非常混杂，在抓取的文本中会有一些文本不符合需要。例如有些文本过短(文本清洗后小于2个字符)，这些过短的文本没有足够的信息，而一般被认为没有任何有效的意图，需要过滤掉这些短文本。另外有些文本长度太长，有的字符长度超过了100，尽管这种长句子含有有效信息但是过长的句子会导致后续所用的模型参数过多消耗更多训练资源与时间。另外也有些文本与医学无关，也需要将其滤除。本发明设置筛选条件，通过Python的正则表达式库re与len方法过滤不需要的内容。

步骤202：基于预设的分布式词向量表示方法，对所述参考文本中的语料使用多个字符训练预设的分布式词向量模型，得到每个字符对应的分布式词向量，各分布式词向量构成标注文本。

在本发明中，可随机选取一部分的文本用于意图标注。在确定好意图标签以后，将文本导入到标注程序，并让标注人员进行人工标注。标注程序可以使用简单的文本编辑器，例如notepad、notepad++、visual studio code，也能使用一些表格工具例如Excel。标注员需要有相关医学基本知识，并通过搜素引擎查询不理解的词汇。标注完成以后，在通过一位有经验的标准员检查其他标注员的标注内容，确保标注质量并维持统一的标注标准。但是人工标注效率低，成本高。

为了可以提升意图识别准确度和效率，本发明基于大量语料预训练的分布式词向量表示方法，对所述参考文本中的语料使用多个字符训练预设的分布式词向量模型，得到每个字符对应的分布式词向量，各分布式词向量构成标注文本。其中，分布式词向量模型可以使用word2vec也能使用GloVe。

此外，与英文不同的是，中文语句中不存在分词符，因此本发明选择不分词，而直接使用字符。

进一步地，在步骤200中，所述对所述问题文本进行标注，得到标注文本，还包括：

步骤211：获取医学实体及对应的类别；所述医学实体包括疾病实体、药物实体及症状实体中至少一者。

步骤212：识别标注文本中的实体及类别。

步骤213：基于同一类别，替换原始标注文本中的实体，自动生成大量的实体替换标注文本。

通过实体替换标注文本及原始标注文本，可丰富标注文本的信息，提高意图识别的准确度。

具体地，首先从特定网站(例如百度百科、A+医学百科)，特定书籍(例如《简明中成药辞典》)，医学数据库(或知识库、知识图谱)等来源获取医学实体及其类别。例如，疾病实体包括高血压与冠心病；药物实体包括二甲双胍片与硝酸甘油片；症状实体包括失眠与心悸。然后识别标注文本中的实体，并标明实体的类别。具体可以是基于文本搜索进行识别，例如使用Python的re库与字符串的search()算法，也可使用基于机器学习进行识别，例如条件随机场(CRF)，双向长短期记忆网络(BiLSTM)，双向长短期记忆网络加条件随机场(BiLSTM-CRF)。在识别了标注文本中的实体后，进一步通过相同类型的其他实体替代识别出的实体。例如，标注“得了高血压怎么办？”这句为“治疗”意图，识别出这句话有一个疾病医学实体——“高血压”，然后使用实体库中的疾病实体“冠心病”替代“高血压”并生成新的标注过的语句：“得了冠心病怎么办？”。新生成的语句与原来的语句有相同的意图标签，所以在无需额外人工标注的方法就能获取大量的标注过的语料。

其中，本发明可通过PyTorch，Tensorflow，Keras等深度学习框架实现神经网络模型。首先将训练集中所有字符或者词汇构建字典，并用数字作为字典中所有内容的索引。

文本序列(字符或者词汇或者字符加词汇)首先被转换成字典中的索引序列。例如，将“我得了高血压”这句话的字符输入到长度为10的模型中。索引序列则是[1,3,4,5,2,6,0,0,0,0],其中0是一个特殊字符<PADDING>的索引，用这个字符补齐不到规定长度的序列，而用<UNKOWN>字符代表所有没有在字典中出现过的字符。

通过深度学习框架中的词嵌入层将索引序列转换为分布式词向量序列。词嵌入层的参数权重可以采用我们之前预训练的分布式词向量模型，也能使用随机初始化的参数。在训练过程中我们可以固定词嵌入层的参数，也可以让其随着训练变化。

此外，可以选择多种初始神经网络模型实现意图识别：所述初始神经网络可为卷积神经网络、多层感知机及循环神经网络中任意一者。

第一种是卷积神经网络(CNN，Convolutional Neural Network)。对于词嵌入层产生的向量序列，使用不同长度的卷积核与向量序列进行运算，并使用池化层抽取特征，最后产生的向量输入全连接层进行计算。全连接层的输出为一个维度等于意图识别标签数量的向量，对其进行Sigmoid计算得到每一个维值都在0到1的向量(标签向量)。

第二种为多层感知机(MLP，Multilayer Perceptron)。对词向量序列进行累加或者平均计算得到一个与词向量(或者字符向量)相同维度的语句向量。然后通过一系列的全连接层和激活函数(例如线性整流函数)计算得到一个维度等于意图识别标签数量的向量，并使用Sigmoid函数进行处理获取标签向量。

第三种为循环神经网络(RNN，Recurrent Neural Network)。我们将向量序列输入到循环神经网络中，循环神经网络可以是单向循环神经网络，也可以是双向循环神经网络，也可以使用长短期记忆网络(LSTM，Long Short-Term Memory)或者门控循环单元网络(GRU，Gated Recurrent Unit)处理长距离依赖问题。可以使用自注意力(Self-Attention)机制处理循环神经网络的隐藏状态(hidden state)，并获取标注矩阵，并用标注矩阵与隐藏状态相乘获取语句嵌入向量，再用全连接层和Sigmoid函数获取标签向量。

对于标签向量，每一个维度对应一个意图标签，如果一个维度越接近1，那么这句话就越有可能包含此维度所对应的意图标签。因为一句话可能有多个意图标签所以这是一个多标签分类问题(Multi-label Classification)。

本发明通过二元交叉熵(binary cross entropy)作为损失函数进行训练。优化算法可以使用Adam、SGD等。可以加入正则化或者Dropout层防止训练出现过拟合现象。通过一个临界值将标签向量转化为标签，例如我们有三个标签：标签1、标签2、标签3，得到标签向量为[0.84,0.01,0.65]，如果选取0.5作为预先设定的阈值，则标签向量表示句子包含标签1和标签2。

进一步将之前标注的数据分为训练集、验证集、测试集。通过调整不同的超参数使模型在验证集上取的最好的结果，并用测试集评估模型的意图识别能力。可以用准确度(Accuracy)、micro-averaged F1、macro-averaged F1评估模型的效果。

在完成优化神经网络训练以后进一步可以将优化神经网络部署到服务器上。在一个特定实施例中，使用中文字符序列作为输入，选取卷积神经网络作为模型。使用PyTorch作为框架实现卷积神经网络模型，并用word2vec预训练分布式词向量。优化神经网络训练时采用GPU加速，使用NVIDIA GeFroce GTX1050Ti Max-Q显卡做计算。在服务器部署时，可以不用GPU加速而只是用CPU版本的模型，所以本发明优化神经网络可以运行在没有显卡的服务器上。

进一步地，本发明还提供一种基于神经网络的医学相关意图识别系统，可提高对用户医学相关文本的意图识别的准确性。

如图2所示，本发明基于神经网络的医学相关意图识别系统包括获取单元1、标注单元2、训练单元3及确定单元4。

其中，所述获取单元1用于获取历史的用户医学问题，得到问题文本；所述标注单元2用于对所述问题文本进行标注，得到标注文本，所述标注文本包括原始标注文本及实体替换标注文本；所述训练单元3用于根据所述问题文本及标注文本，训练初始神经网络，得到最优超参数集下的优化神经网络；所述确定单元4用于基于所述优化神经网络，根据当前用户的医学问题，确定该当前用户的意图。

进一步地，本发明还提供一种基于神经网络的医学相关意图识别系统，包括：

处理器；以及

获取历史的用户医学问题，得到问题文本；

进一步地，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行以下操作：

获取历史的用户医学问题，得到问题文本；

相对于现有技术，本发明基于神经网络的医学相关意图识别系统、计算机可读存储介质与上述基于神经网络的医学相关意图识别方法的有益效果相同，在此不再赘述。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于神经网络的医学相关意图识别方法，其特征在于，所述识别方法包括：

获取历史的用户医学问题，得到问题文本；

2.根据权利要求1所述的基于神经网络的医学相关意图识别方法，其特征在于，所述对所述问题文本进行标注，得到标注文本，具体包括：

对所述问题文本进行数据清洗和筛选，得到参考文本；

3.根据权利要求1或2所述的基于神经网络的医学相关意图识别方法，其特征在于，所述对所述问题文本进行标注，得到标注文本，还包括：

获取医学实体及对应的类别；

识别原始标注文本中的实体及类别；

4.根据权利要求3所述的基于神经网络的医学相关意图识别方法，其特征在于，所述医学实体包括疾病实体、药物实体及症状实体中至少一者。

5.根据权利要求2所述的基于神经网络的医学相关意图识别方法，其特征在于，所述对所述问题文本进行数据清洗和筛选，得到参考文本，具体包括：

6.根据权利要求1所述的基于神经网络的医学相关意图识别方法，其特征在于，所述获取历史的用户医学问题，得到问题文本，具体为通过网络抓取和/或调取医学应用服务器中的用户问题。

7.根据权利要求1所述的基于神经网络的医学相关意图识别方法，其特征在于，所述初始神经网络为卷积神经网络、多层感知机及循环神经网络中任意一者。

8.一种基于神经网络的医学相关意图识别系统，其特征在于，所述识别系统包括：

获取单元，用于获取历史的用户医学问题，得到问题文本；

9.一种基于神经网络的医学相关意图识别系统，包括：

处理器；以及

获取历史的用户医学问题，得到问题文本；

10.一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行以下操作：

获取历史的用户医学问题，得到问题文本；