CN112182213A

CN112182213A - 一种基于异常流泪特征认知的建模方法

Info

Publication number: CN112182213A
Application number: CN202011034647.8A
Authority: CN
Inventors: 杜登斌
Original assignee: Zhongrun Puda Shiyan Big Data Center Co ltd
Current assignee: Wuzheng Intelligent Technology Beijing Co ltd
Priority date: 2020-09-27
Filing date: 2020-09-27
Publication date: 2021-01-05
Anticipated expiration: 2040-09-27
Also published as: CN112182213B

Abstract

本发明提供了一种基于异常流泪特征认知的建模方法，包括采集泪液分泌异常的症状及相关文献，获取导致泪液分泌异常的各种症状及所有可能的原因的特征信息；针对泪液分泌异常的各种症状及各症状原因的特征信息进行分词；对分词后的内容进行TF—IWF筛选，删除其中的停用词，并提取关键词；将提取的关键词作为测试数据和类别标签，标签构建样本库；利用原型网络进行小样本学习，将样本库分为训练集和测试集，求取类别标签对应的原型和测试数据属于某一类别标签的概率；对进行了类别标签关联的测试数据和类别标签的关键词，采用自适应增强学习算法进一步进行分类训练和优化。

Description

一种基于异常流泪特征认知的建模方法

技术领域

本发明涉及大数据分析技术领域，尤其涉及一种基于异常流泪特征认知的建模方法。

背景技术

泪液分泌异常是由多种可能因素引发的现象，除了精神受到外部刺激和异物的反射刺激外，某些药物的刺激、眼部疾病如青光眼、眼睑、结膜或者虹膜疾病，以及三叉神经、面神经受刺激也会导致泪分泌异常；另外，泪液的排泄系统异常，如泪小点位置异常、鼻泪管堵塞、泪道功能不全，以及气候、环境以及过敏等都会导致泪液分泌异常。泪液分泌异常作为一种外在表现，通常是由一种原因诱发或者多种原因共同诱发。

分类技术是机器学习中非常重要的技术之一，其目标是根据数据的特征将数据归属到相应的标签类型中，在传统的分类中，一个数据仅划分一个标签类别，这种划分并不够精确。随着数据包含的信息越来越丰富，数据内容也越来越复杂和多样。为充分表达数据的多样性和多义性，采用多个标签描述数据是很常见的手段。通过对异常流泪表达获取的症状描述和内因数据是典型的多种标签输出类型，利用对其数据实现机器学习，提高对多标签数据分类的准确度，对复杂输入的精确表达具有较大帮助。

发明内容

有鉴于此，本发明提出了一种基于异常流泪特征，且能对采集文本有效取词并提取关键字、筛选高频关键词进行小样本训练，并对训练结果进行优化的认知的建模方法。

本发明的技术方案是这样实现的：本发明提供了一种基于异常流泪特征认知的建模方法，包括如下步骤：

S1：采集泪液分泌异常的症状及相关文献，获取导致泪液分泌异常的各种症状及所有可能的原因的特征信息；

S2：针对泪液分泌异常的各种症状及各症状原因的特征信息进行分词；

S3：对上一步分词后的内容进行TF—IWF筛选，删除其中的停用词，并提取关键词；

S4：对上一步提取的泪液分泌异常的各种症状关键词作为测试数据，各症状原因关键词作为测试数据的类别标签，利用测试数据和类别标签构建样本库；

S5：利用原型网络进行小样本学习，将样本库分为训练集和测试集，求取类别标签对应的原型和测试数据属于某一类别标签的概率；

S6：对上一步进行了类别标签关联的测试数据和类别标签的关键词，采用自适应增强学习算法进一步进行分类训练和优化。

在以上技术方案的基础上，优选的，所述针对泪液分泌异常的各种症状及各症状原因的特征信息进行分词，是基于词典的分词，采用逆向最大匹配法；每次去句子末端的四个字作为匹配字段，如果匹配失败，则去掉匹配字段最前面的一个字继续与词典匹配，直到完成特征信息的分词。

进一步优选的，所述对分词后的内容进行TF—IWF筛选，是统计分词后的各词语在各种症状及各症状原因的特征信息中出现的频率，以及特定的词语的逆向文件频率；

两者的积TF*IWF为各词语在分词后的内容中的重要度，根据《中文停用词词表》删除停用词后，根据上述重要度排序选取剩余分词后的词语内容的10％—20％作为关键字。

进一步优选的，所述基于词典的分词，其采用的词典是自建的中文分词词典，或者汉字词法分析系统ICTCLAS。

更进一步优选的，所述利用原型网络进行小样本学习，是设定投影空间和嵌入函数f_θ(x)，为样本库的类别标签设定为与嵌入函数f_θ(x)的原型表示，将训练集的测试数据转换为样本向量通过嵌入函数f_θ(x)映射到投影空间中，计算样本向量在投影空间中与各标签对应的原型表示的距离，判断测试数据对应的标签，其中

其中c_k是类别标签k基于嵌入函数f_θ(x)的原型表示；S_k是以为小样本测试数据集合，(x,y)为该小样本测试数据集合内的测试数据；类别标签数量为k，参数θ是与投影空间位置的变量；x是各测试数据；y为测试数据对应的类别标签；通过上式求解所有测试数据对应的类别标签后，

利用Softmax回归函数作为分类函数，得到测试数据x属于类别标签y为k的概率：

P(y＝k|x)回归函数是使回归函数取值在(-∞,0]区间取值趋于0，回归函数取值[0,+∞)区间的取值趋于1，求取类别标签y为k概率；d((f_θ(x),c_k)和d((f_θ(x),c_j)是距离函数，即f_θ(x)与c_k或者c_j的距离。

更进一步的优选的，所述将样本库分为训练集和测试集，是将样本库按80％的内容作为训练集，剩余20％作为测试集。

再进一步的优选的，所述采用自适应增强学习算法进行进一步进行分类训练和优化，是给定训练集{(x₁,y₁),…(x_N,y_N)}，x_i是测试数据转换成的样本向量，x_i∈(x₁,x₂…x_N)，样本向量的数量为N；y_i∈(y₁,y₂…y_N)表示样本向量对应的类别标签的真假，(y₁,y₂…y_N)∈(1,-1)，类别标签对应结果为真是值为1，为假是值为—1；

初始化测试数据的权重分布，给每个样本向量一个权重，初始化权重为1/N；令D₁＝(w₁₁,w₁₂,…w_1i…w_1N)，w_1i＝1/N，i＝1,2,3…N；D₁表示第一次迭代时每个样本的权值，N为测试数据转换成的样本向量的个数；

使用拥有权值分布D_m(m＝1,2,3…N)的训练样本进行m次迭代，得到若干个弱分类器G_m(x_i)，弱分类器的性能指标通过误差函数ε表示：

为每个弱分类器分配一个权值α，

更新训练样本的权值分布；D_m+1＝(w_m+1,1,w_m+1,2,…w_m+1,i…w_m+1,N)；

w_m+1,i是下一次迭代时，第i个样本向量的权值，Z_m是归一化因子，

组合各弱分类器，对所有迭代过的弱分类器加权求和得到强分类器：

再用sgn符号函数判断弱分类器加权求和结果，

判断结果的正负号，当判断结果为正数时，返回1；当判断结果为0时，返回0；当判断结果为负数时，返回—1，将返回的判断结果赋给弱分类器加权求和得到的强分类器；改变投影空间位置的变量的参数θ，重复上述过程。

本发明提供的一种基于异常流泪特征认知的建模方法，相对于现有技术，具有以下有益效果：

(1)本发明通过广泛获取泪液分泌异常的症状及相关知识，包含广泛的文本描述及模糊的原因，以便后续分词步骤使用；

(2)分词采用短句的字段按顺序逐个字比较，选出所有的词语，删除无用的停用词，对剩余词语根据出现频次和重要度的筛选，获取与症状及原因相关的核心词语，再精简提取部分核心词语作为关键字；

(3)利用各种症状关键词和原因的关键字构建较小样本的样本库，内容有限，可以节省计算资源，提高迭代和计算效率；

(4)原型网络进行基于小样本的样本库的学习，通过计算样本向量在投影空间中与各标签对应的原型表示的距离，进而推断测试数据可能对应的类别标签；

(5)通过初步确定的类别标签和测试数据的对应关系，进一步进行自适应增强学习算法进行进一步进行分类训练和优化，重复进行类别标签和测试数据的关联关系评价和迭代，提高对多标签数据的分类的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种基于异常流泪特征认知的建模方法的流程图。

具体实施方式

下面将结合本发明实施方式，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式仅仅是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

如图1所示，本发明提供了本发明提供了一种基于异常流泪特征认知的建模方法，包括如下步骤：

S1：采集泪液分泌异常的症状及相关文献，获取导致泪液分泌异常的各种症状及所有可能的原因的特征信息。

S2：针对泪液分泌异常的各种症状及各症状原因的特征信息进行分词。

其中，针对泪液分泌异常的各种症状及各症状原因的特征信息进行分词，是基于词典的分词，采用逆向最大匹配法；每次去句子末端的四个字作为匹配字段，如果匹配失败，则去掉匹配字段最前面的一个字继续与词典匹配，直到完成特征信息的分词。此处的逆向最大匹配，是采用四字短语作为一个分隔区间，将句子进行分割，汉语常用词组不超过四字短语，进行逐段筛查，直至完成句子的分词语义识别。

上述内容中，基于词典的分词，其采用的词典是自建的中文分词词典，或者汉字词法分析系统ICTCLAS。也可以采用现有的词典，如ansj分词.ict，来源网址是https://github.com/NLPchina/ansj_seg。

其中，对分词后的内容进行TF—IWF筛选，是统计分词后的各词语在各种症状及各症状原因的特征信息中出现的频率，以及特定的词语的逆向文件频率；

两者的积TF*IWF为各词语在分词后的内容中的重要度，根据《中文停用词词表》删除停用词后，根据上述重要度排序选取剩余分词后的词语内容10％—20％作为关键字。

上一步选取作为关键字的内容比较少，故构建的样本库的容量也比较少，可以节省算力。

S5：利用原型网络进行小样本学习，将样本库分为训练集和测试集，求取类别标签对应的原型和测试数据属于某一类别标签的概率；作为一种优选方式，将样本库分为训练集和测试集，是将样本库按80％的内容作为训练集，剩余20％作为测试集。

小样本学习由于数据过少，会产生过拟合问题，故采用原型网络进行小样本学习，具体内容是：设定投影空间和嵌入函数f_θ(x)，为样本库的类别标签设定为与嵌入函数f_θ(x)的原型表示，将训练集的测试数据转换为样本向量通过嵌入函数f_θ(x)映射到投影空间中，计算样本向量在投影空间中与各标签对应的原型表示的距离，此处的距离可以是欧式距离，也可以是曼哈顿距离，以曼哈顿距离为准；判断测试数据对应的标签，其中

采用自适应增强学习算法进行进一步进行分类训练和优化，其内容是给定训练集{(x₁,y₁),…(x_N,y_N)}，x_i是测试数据转换成的样本向量，x_i∈(x₁,x₂…x_N)，样本向量的数量为N；y_i∈(y₁,y₂…y_N)表示样本向量对应的类别标签的真假，(y₁,y₂…y_N)∈(1,-1)，类别标签对应结果为真是值为1，为假是值为—1；

为每个弱分类器分配一个权值α，

再用sgn符号函数判断弱分类器加权求和结果，

判断结果的正负号，当判断结果为正数时，返回1；当判断结果为0时，返回0；当判断结果为负数时，返回—1，将返回的判断结果赋给弱分类器加权求和得到的强分类器；改变投影空间位置的变量的参数θ，重复上述过程，通过改变参数θ，重复步骤S4和S5，不断改进机器学习的结果和测试数据与样本标签的对应关系，使得其描述多标签类数据时的分类更加可信。

以上所述仅为本发明的较佳实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于异常流泪特征认知的建模方法，其特征在于：包括如下步骤：

S5：利用原型网络进行小样本学习，将样本库分为训练集和测试集，求取类别标签对应的原型和测试数据属于某一类别标签的概率；shuomings

2.如权利要求1所述的一种基于异常流泪特征认知的建模方法，其特征在于：所述针对泪液分泌异常的各种症状及各症状原因的特征信息进行分词，是基于词典的分词，采用逆向最大匹配法；每次去句子末端的四个字作为匹配字段，如果匹配失败，则去掉匹配字段最前面的一个字继续与词典匹配，直到完成特征信息的分词。

3.如权利要求2所述的一种基于异常流泪特征认知的建模方法，其特征在于：所述对分词后的内容进行TF—IWF筛选，是统计分词后的各词语在各种症状及各症状原因的特征信息中出现的频率，以及特定的词语的逆向文件频率；

4.如权利要求2所述的一种基于异常流泪特征认知的建模方法，其特征在于：所述基于词典的分词，其采用的词典是自建的中文分词词典，或者汉字词法分析系统ICTCLAS。

5.如权利要求3所述的一种基于异常流泪特征认知的建模方法，其特征在于：所述利用原型网络进行小样本学习，是设定投影空间和嵌入函数f_θ(x)，为样本库的类别标签设定为与嵌入函数f_θ(x)的原型表示，将训练集的测试数据转换为样本向量通过嵌入函数f_θ(x)映射到投影空间中，计算样本向量在投影空间中与各标签对应的原型表示的距离，判断测试数据对应的标签，其中

6.如权利要求5所述的一种基于异常流泪特征认知的建模方法，其特征在于：所述将样本库分为训练集和测试集，是将样本库按80％的内容作为训练集，剩余20％作为测试集。

7.如权利要求5所述的一种基于异常流泪特征认知的建模方法，其特征在于：所述采用自适应增强学习算法进行进一步进行分类训练和优化，是给定训练集{(x₁,y₁),…(x_N,y_N)}，x_i是测试数据转换成的样本向量，x_i∈(x₁,x₂…x_N)，样本向量的数量为N；y_i∈(y₁,y₂…y_N)表示样本向量对应的类别标签的真假，(y₁,y₂…y_N)∈(1,-1)，类别标签对应结果为真是值为1，为假是值为—1；

为每个弱分类器分配一个权值α，

再用sgn符号函数判断弱分类器加权求和结果，