CN109543179A

CN109543179A - 口语化症状归一化的方法及系统

Info

Publication number: CN109543179A
Application number: CN201811309435.9A
Authority: CN
Inventors: 霍华荣
Original assignee: Beijing Kang Master Technology Co Ltd
Current assignee: Beijing Kang Master Technology Co Ltd
Priority date: 2018-11-05
Filing date: 2018-11-05
Publication date: 2019-03-29

Abstract

本发明实施例提供一种口语化症状归一化的方法，该方法包括：接收用户输入的口语化症状；将该口语化症状映射至预存的标准症状集合中；以及获取所述标准症状集合中与所述口语化症状的字向量余弦相似度得分最高的标准症状，并将该得分最高的标准症状设定为该口语化症状的归一化后症状。将用户输入的口语化症状映射至预存的标准症状集合中，直接将与口语化症状的字向量余弦相似度得分最高的标准症状作为口语化症状的归一化后症状。避免了用户输入的内容无法通过智能终端进行信息处理。同时避免了耗费大量人力时间进行人工标注。症状归一化为标准形式以后，将非常有利于医疗记录标准化、基于医疗图谱的推理、电子信息交换等等应用。

Description

口语化症状归一化的方法及系统

技术领域

本发明涉及自然语言处理技术，具体地涉及一种口语化症状归一化的方法。

背景技术

目前自然语言处理技术作为人工智能最重要的一个领域之一，已经在搜索、广告、对话等方向体现了巨大的价值。在医疗领域，海量的医疗病历文本、教材、论文、问答等医疗数据，亟待自然语言处理技术的开发。语义理解技术是实现人工智能的关键技术，它能将各种不同的用户表达，理解为计算机能够处理的标准表示。现有的类似技术都用于解决非医疗领域的问题，无法直接移植到医疗行业。

目前的术语归一化，主要是基于词典的关键字匹配方法。存在以下问题：

1、建立术语词典需要大量的专家知识和人工标注，费时费力，而且容易发生冲突。

2、用户的口语化表达千变万化，关键字匹配只能包括其中很少一部分，严重限制了归一化的覆盖面。

发明内容

本发明实施例的目的是提供一种口语化症状归一化的方法，该方法可以通过将用户输入的口语化症状映射至预存的标准症状集合中，直接将与口语化症状的字向量余弦相似度得分最高的标准症状作为口语化症状的归一化后症状。避免了用户输入的内容无法通过智能终端进行信息处理。同时避免了耗费大量人力时间进行人工标注。

为了实现上述目的，本发明实施例提供一种口语化症状归一化的方法，该方法包括：

接收用户输入的口语化症状；

将该口语化症状映射至预存的标准症状集合中；以及

获取所述标准症状集合中与所述口语化症状的字向量余弦相似度得分最高的标准症状，并将该得分最高的标准症状设定为该口语化症状的归一化后症状。

可选的，所述将该口语化症状映射至预存的标准症状集合中包括：

分别提取所述标准症状集合中的标准症状；

将该口语化症状以及由所述标准症状集合中提取的相应标准症状按照字粒度的形式映射为一个字嵌入层，其中，该口语化症状和标准症状中每个字被映射为一个定长的向量，每个症状被表示为一个矩阵。

可选的，该方法还包括：

在工作人员进行人工审定口语化症状的归一化后症状错误的情况下，判断所述口语化症状的归一化后症状异常；

在设定的所述口语化症状的归一化后症状异常的情况下，添加人工标注的归一化症状词对，其中，所述人工标注的归一化症状词对包括本次出现归一化异常的口语化症状及相对应的标准症状；

将该归一化异常的口语化症状相对应的标准症状添加至所述标准症状集合，并将该归一化异常的口语化症状与相对应的标准症状的余弦相似度设置为最高值。

可选的，该方法还包括在进行口语化症状归一化前通过训练模型进行数据训练，该数据训练包含：

根据正样本与多个负样本中任一者分别建立相应数量的训练数据，其中，所述正样本为所述人工标注的可归一症状对，所述负样本为由预存的症状集合中随机获取的症状；

分别计算所述训练数据的正向得分及负向得分，其中，所述正向得分为所述标准症状向量与所述正样本向量的余弦相似度，所述负向得分为所述标准症状向量与所述负样本向量的余弦相似度；

根据以下公式计算训练得分：训练得分＝(正向得分-负向得分)/2，其中，该训练得分存在的区间为[-1,1]；

根据以下公式计算损失函数：损失函数＝(1-训练得分)/2，其中，该损失函数的区间为[0,1]；以及

经多次数据训练以使所述损失函数最小化。

本发明实施例还提供一种一种口语化症状归一化系统，该系统包括预测模型，该预测模型包括：

输入层，用于接收用户输入的口语化症状；

嵌入层，用于将该口语化症状映射至预存的标准症状集合中；以及

输出层，获取所述标准症状集合中与所述口语化症状的字向量余弦相似度得分最高的标准症状，并将该得分最高的标准症状设定为该口语化症状的归一化后症状。

所述嵌入层分别提取所述标准症状集合中的标准症状；

所述嵌入层将该口语化症状以及由所述标准症状集合中提取的相应标准症状按照字粒度的形式映射为一个字嵌入层，其中，该口语化症状和标准症状中每个字被映射为一个定长的向量，每个症状被表示为一个矩阵。

可选的，该系统还可以包括：

隐藏层，用于将所述嵌入层输出的所述定长的向量转变为128维的语义向量。

可选的，该系统还包括校正单元，

该校正单元在设定的所述口语化症状的归一化后症状异常的情况下，接收管理员上传的人工标注的归一化症状词对，其中，所述人工标注的归一化症状词对包括本次出现归一化异常的口语化症状及相对应的标准症状；

可选的，该系统还包括训练模型，在所述预测模型进行口语化症状归一化前通过该训练模型进行数据训练，该训练模型包括：

训练输入层，用于接收训练数据，其中根据正样本与多个负样本中任一者分别建立相应数量的训练数据，所述正样本为所述人工标注的可归一症状对，所述负样本为由预存的症状集合中随机获取的症状；

训练嵌入层，用于将训练输入层的症状，按照字粒度的形式映射为一个字嵌入层，将每个症状中的每个字映射为定长的向量，将每个症状表示为一个矩阵；

训练隐藏层，用于将所述训练嵌入层输出的所述定长的向量转变为128维的语义向量；

训练输出层，用于分别计算所述训练数据的正向得分及负向得分，其中，所述正向得分为所述标准症状向量与所述正样本向量的余弦相似度，所述负向得分为所述标准症状向量与所述负样本向量的余弦相似度；

经多次数据训练以使所述损失函数最小化。

通过上述技术方案，将用户输入的口语化症状映射至预存的标准症状集合中，直接将与口语化症状的字向量余弦相似度得分最高的标准症状作为口语化症状的归一化后症状，避免了用户输入的内容无法通过智能终端进行信息处理，同时避免了耗费大量人力时间进行人工标注。症状归一化为标准形式以后，将非常有利于医疗记录标准化、基于医疗图谱的推理、电子信息交换等等应用。

本发明实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明实施例，但并不构成对本发明实施例的限制。在附图中：

图1是本发明实施例提供的一种口语化症状归一化的训练过程示意图；

图2是本发明实施例提供的一种口语化症状归一化的预测流程示意图；

图3是本发明实施例提供的一种口语化症状归一化的预测过程示意图。

具体实施方式

以下结合附图对本发明实施例的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明实施例，并不用于限制本发明实施例。

在本发明实施例中，在未作相反说明的情况下，使用的方位词如“上、下、左、右”、“内、外”、“远、近”是指参考附图的方向，因此，使用方向用语是用来说明并非来限制本发明。

用户在与智能终端交互过程中，需将预想的症状信息输入并提供至智能终端，该智能终端针对用户输入的口语化症状进行相应处理，然而不同的用户根据自身不同的理解与习惯，智能终端为对信息的统一管理需将不同用户输入的口语化症状进行归一化处理。具体地，接收用户输入的口语化症状并将该口语化症状映射至预存的标准症状中。获取所述标准症状集合中与所述口语化症状的字向量余弦相似度得分最高的标准症状，并将该得分最高的标准症状设定为该口语化症状的归一化后症状。即将用户的口语化症状转变为规范化的医学标准症状。例如，将用户输入的日常用语『发烧』转变为在医学上称为『发热』的症状表达。尊重患者和医生的语言习惯，无论他们如何表达，通过口语化症状归一化的方法将口语化症状转变为标准症状。

图1示出了本发明实施例提供的一种口语化症状归一化的训练过程示意图，如图1所示，通过建立训练模型进行数据训练，该训练模型为如图1所示的一个多层神经网络模型，训练数据由正样本和负样本组成。根据正样本与多个负样本中任一者分别建立相应数量的训练数据，其中，所述正样本为所述人工标注的可归一症状对，所述负样本为由预存的症状集合中随机获取的症状。例如『晚上睡不着觉』和『失眠』组成一条可归一数据，作为训练的正样本。从所有症状集合中随机抽取20条症状，与正样本中的标准症状组成一对，作为训练的负样本。一条正样本和一条负样本组成一条完整训练数据。如此，一个可归一的症状对可以得到20条训练数据。训练数据格式如表1所示。

表1

正样本	标准症状	负样本
			晚上睡不着觉	失眠	总是睡不醒

该训练模型可以包括：训练输入层、训练字嵌入层、训练隐藏层以及训练输出层。

该训练输入层为固定格式的训练数据，从左到右，分别为正样本、标准症状、负样本。症状最大程度限定为10个字。

将训练输入层的症状，按照字粒度的形式映射为一个字嵌入层(Embedding)，每个字会被映射为一个长度为64的向量。因此每一个症状会被表示成一个形状为10*64的矩阵。

字的向量可以包括以下三种学习方式：

1、初始化为0，在训练过程中跟随网络参数一起学习。

2、利用网上轻问诊和病历数据，使用word2vec方法预训练的字粒度向量进行初始化，在本网络训练过程中，字向量保持不变。

3、利用网上轻问诊和病历数据，使用word2vec方法预训练的字粒度向量进行初始化，字向量在训练过程中跟随网络参数一起学习。

训练隐藏层为一个双向RNN模型，其中RNN模型采用它的一种子类，LSTM模型，能够较好地捕获长距离信息。GRU层设定为128维。经过训练隐藏层之后，标准症状、正样本、负样本分别被表示成了一个128维的语义向量表示。

训练输出层分别计算所述训练数据的正向得分(PosScore)及负向得分(NegScore)，其中，所述正向得分为所述标准症状向量与所述正样本向量的余弦相似度，所述负向得分为所述标准症状向量与所述负样本向量的余弦相似度。根据以下公式计算训练得分：训练得分(Score)＝(正向得分-负向得分)/2，其中，该训练得分存在的区间为[-1,1]。数据训练的目的在于最大化正向得分(PosScore)，且最小化负向得分(NegScore)，因此可以统一为最大化Score的值。

该训练输出层再根据以下公式计算损失函数：损失函数＝(1-训练得分)/2，其中，该损失函数的区间为[0,1]。神经网络模型的目标是优化模型的损失函数，即经多次数据训练以使所述损失函数最小化。

图2示出了本发明实施例提供的一种口语化症状归一化的预测流程示意图，在经多次数据训练以使所述损失函数最小化后，即可通过相应方式进行口语化症状相应归一化后的症状的预测。接收用户输入的口语化症状并将该口语化症状映射至预存的标准症状中。获取所述标准症状集合中与所述口语化症状的字向量余弦相似度得分最高的标准症状，并将该得分最高的标准症状设定为该口语化症状的归一化后症状。即将用户的口语化症状转变为规范化的医学标准症状。

图3示出了本发明实施例提供的一种口语化症状归一化的预测过程示意图，如图3所示，通过经过训练后的模型(预测模型)以相应方式进行口语化症状相应归一化后的症状的预测，具体如下：

首先，输入层接收用户输入的的口语化症状q以及由标准症状集合中提取的标准症状c。将输入层的症状，按照字粒度的形式映射为一个字嵌入层(Embedding)，每个字会被映射为一个长度为64的向量。因此每一个症状会被表示成一个形状为10*64的矩阵。经过隐藏层之后，口语化症状q和标准症状c分别被表示成了一个128维的语义向量表示。

其次，输出层计算口语化症状向量vq与由标准症状集合中提取的标准症状向量vc的余弦相似度。

重复以上过程，计算口语化症状向量vq与标准症状集合中的所有症状向量vc的余弦相似度得分。获取得分最高的标准症状设定为该口语化症状的归一化后症状。

为了获得更好的效果，还可以接收用户对口语化症状的归一化结果的反馈信息，例如，用户判断口语化症状归一化的预测结果明显错误或不符合用户预想，用户可以发送反馈信息。在工作人员进行人工审定口语化症状的归一化后症状错误的情况下，判断所述口语化症状的归一化后症状异常。在设定的所述口语化症状的归一化后症状异常的情况下，该校正单元接收管理员上传的人工标注的归一化症状词对，其中，所述人工标注的归一化症状词对包括本次出现归一化异常的口语化症状及相对应的标准症状。校正单元将该归一化异常的口语化症状相对应的标准症状添加至所述标准症状集合，并将该归一化异常的口语化症状与相对应的标准症状的余弦相似度设置为最高值。例如，用户输入的口语化症状为『晚上打呼噜』，然而在预测结果错误或不符合用户预想的情况下，可以添加人工标注的归一化症状词对『晚上打呼噜』与『打鼾』。并将『晚上打呼噜』向量与『打鼾』向量的余弦相似度设置为最高值(最高值为：1)。同样可以省去再一次数据训练的过程，相应的减少了工作量。

通过机器学习和人工干预的有机结合，在充分利用机器学习的高覆盖和自动化学习优势的情况下，使用人工总结的高准确规则干预结果，并提高机器学习的泛化能力。

在实施例中，该方法可以应用在以下任何载体上：智能手机APP微信公众号、小程序、智能音响、电视、药店机器人、医院机器人。

以上结合附图详细描述了本发明实施例的可选实施方式，但是，本发明实施例并不限于上述实施方式中的具体细节，在本发明实施例的技术构思范围内，可以对本发明实施例的技术方案进行多种简单变型，这些简单变型均属于本发明实施例的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本发明实施例对各种可能的组合方式不再另行说明。

本领域技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得单片机、芯片或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

此外，本发明实施例的各种不同的实施方式之间也可以进行任意组合，只要其不违背本发明实施例的思想，其同样应当视为本发明实施例所公开的内容。

Claims

1.一种口语化症状归一化的方法，其特征在于，该方法包括：

接收用户输入的口语化症状；

将该口语化症状映射至预存的标准症状集合中；以及

2.根据权利要求1所述的方法，其特征在于，所述将该口语化症状映射至预存的标准症状集合中包括：

分别提取所述标准症状集合中的标准症状；

3.根据权利要求1所述的方法，其特征在于，该方法还包括：

4.根据权利要求1所述的方法，其特征在于，该方法还包括在进行口语化症状归一化前通过训练模型进行数据训练，该数据训练包含：

经多次数据训练以使所述损失函数最小化。

5.一种口语化症状归一化系统，其特征在于，该系统包括预测模型，该预测模型包括：

输入层，用于接收用户输入的口语化症状；

6.根据权利要求5所述的系统，其特征在于，所述将该口语化症状映射至预存的标准症状集合中包括：

所述嵌入层分别提取所述标准症状集合中的标准症状；

7.根据权利要求6所述的系统，其特征在于，该系统还可以包括：

8.根据权利要求5所述的系统，其特征在于，该系统还包括校正单元，

9.根据权利要求5所述的系统，其特征在于，该系统还包括训练模型，在所述预测模型进行口语化症状归一化前通过该训练模型进行数据训练，该训练模型包括：

经多次数据训练以使所述损失函数最小化。