CN114596960A

CN114596960A - 基于神经网络和自然对话的阿尔兹海默症风险预估方法

Info

Publication number: CN114596960A
Application number: CN202210196124.6A
Authority: CN
Inventors: 王欣; 彭同艳; 黄松键; 王安琪; 陈泽森; 姚清河
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2022-03-01
Filing date: 2022-03-01
Publication date: 2022-06-07
Anticipated expiration: 2042-03-01
Also published as: CN114596960B

Abstract

本发明公开一种基于神经网络和自然对话的阿尔兹海默症风险预估方法，属于人工智能识别、语言学分析领域。其包括采集测试者的有效自由表达，使用语言处理软件ELAN对语料进行转写、切分和标注；利用Token embedding将处理内容转化为数据并建立多模态语料库；利用CNN神经网络模型与LSTM神经网络模型进行文本分析，作为预估阿尔兹海默症的数据。本发明采用Token embedding方法实现语料信息的特征提取，为识别模型增加多模态的语言标志物和语言模式作为输入因素；因此具有较高的识别准确率和抗人为因素干扰的能力。本发明可减轻患者检查时的身体和心理负担，缩短检查周期，降低实验成本，有利于大规模推广。

Description

基于神经网络和自然对话的阿尔兹海默症风险预估方法

技术领域

本发明涉及人工智能识别、语言学分析领域，更具体地，涉及一种基于神经网络和自然对话的阿尔兹海默症风险预估方法。

背景技术

阿尔兹海默症是一种起病隐匿的进行性发展的神经系统退行性疾病。年龄每增加五岁，阿尔兹海默症的患病率约增加一倍。随着人口的老龄化，阿尔兹海默症的发病率逐年上升，严重危害老年人的身心健康和生活质量，给患者及家人造成了深重的痛苦，也给家庭和社会带来负担，成为严重的社会问题。

但与此同时，阿尔兹海默症的潜伏期极长，且病因迄今未明，目前也没有确定的技术手段可以完全治愈该疾病。因此，阿尔兹海默症的预测成了控制该疾病的关键手段。

目前，针对阿尔兹海默症的预测方法主要有神经影像学检查、相关基因的检查预测等，但这些预测方法普遍检查周期长、工程量大而且可能会对患者造成严重的生理及心理负担，在大规模应用上具有一定的难度。

为减轻患者检查的生理及心里负担，进一步考虑低侵入性的手段。中国专利“CN113951834A基于视觉Transformer算法的阿尔兹海默症分类预测方法”通过对阿尔兹海默症患者的核磁共振成像的图像样本进行AC-PC矫正等预处理，进而通过训练好的卷积神经网络模型进行分类预测，实现了对阿尔兹海默症的分类预测，但其算法存在手动提取特征带来的主观性问题。

中国专利“CN113935330A基于语音的疾病预警方法、装置、设备及存储介质”，通过对收集的目标语音数据进行切片、编码、转换，实现对语义的提取，并通过统计学方法实现对早期的阿尔兹海默症潜在患者的筛查，但通过统计学方法进行处理，需要大量的实验样本，成本较大。

发明内容

为解决背景技术提出的问题，如针对手动提取特征可能带来的主观性问题和统计方法的高成本问题，本发明提出了一种基于神经网络和自然对话的阿尔兹海默症风险预估方法。

为实现上述目的，本发明的技术方案如下；

本发明基于神经网络和自然对话的阿尔兹海默症风险预估方法，包括采集阿尔兹海默症测试者的自由表达语料，使用语言处理软件ELAN对语料进行转写、切分和标注；利用目前通用的语音、图像识别文字转化系统和标记嵌入(Token embedding)将文本内容转化为数据并建立多模态语料库；利用卷积神经网络(CNN)模型与长短期记忆神经网络(LSTM)模型用于文本分析，作为预估阿尔兹海默症的数据。

上述基于神经网络和自然对话的阿尔兹海默症风险预估方法具体包括以下步骤：

S1.采集至少20名阿尔兹海默症测试者10分钟的有效自由表达语料，利用标记嵌入(Token embedding)将文本内容转化为数据；

S2.根据S1中的数据制成数据集，进行预处理及归一化得到特征数据集，将其按照3:1随机分配成训练数据集、测试数据集；

其中特征数据集规模为E个的一维张量，E为整数，表示语义、语法、顺序、句法等语言标志物和语言模式；

S3.根据数据集规模和输出要求构建CNN神经网络模型，应用S2中的训练数据集进行训练进一步应用测试数据集对此模型进行测试检验；

S4.将S1中的数据进行随机处理，得到含有时间序列的训练样本数据集、测试样本数据集，其中，数据集规模为F个二维张量，其中F为整数，表示包含有时间序列的语义、语法、顺序、句法等语言标志物和语言模式；

S5.根据数据集规模和输出要求构建LSTM神经网络模型，应用S4中的训练样本数据集进行训练，进一步应用测试样本数据集对此模型进行测试检验；

S6.将通过步骤S3中的CNN神经网络模型处理的输出值及通过步骤S5中的LSTM神经网络模型处理的输出值并列组成矩阵，作为输入值，进行一层全连接层处理，通过两层隐藏层，输出最终结果以one-hot形式表达，作为预估阿尔兹海默症的数据，辅助医生对阿尔兹海默症的诊断。

上述基于神经网络和自然对话的阿尔兹海默症风险预估方法的步骤S1中所述阿尔兹海默症测试者的要求是：老年和老年前期的人群，主要为60-65岁的老年群体，能够进行语言表达，身体状况基本良好，测试者男女基本比例为1：1。

另外所述采集到的有效自由表达语料，先利用目前通用的语音、图像识别文字转化系统转化得到多个包含语料信息的语言文本文档，再应用Token embedding方法将文本内容转化为数据。

所述应用Token embedding方法将文本内容转化为数据即应用Token embedding方法对语料信息进行特征提取，得到语言文本的矩阵，具体为包括：

S11.依据采集到的语料信息确定文本中的句子最大长度,对于文本中长度不同的文本句子进行长裁短补，生成词典；

S12.将词典的词做个词频排列，得到规模为n×1的单词组合，针对每个单词进行数值赋值，赋值保证每个单词对应不同的数字；

S13.将每个数字转化成规模为1×m浮点数组合，从而得到一个n×m形式的矩阵；将每个维度作为一个特征，其相应的强烈程度决定了小数的大小、正负；

S14.将句子的每个词对应的数字的行取出，按顺序转置为列，得到语言文本的矩阵。

上述基于神经网络和自然对话的阿尔兹海默症风险预估方法的步骤S3中所述构建CNN神经网络模型是:针对于步骤S2得到的数据及集规模构建多个卷积层，具体参数如下：卷积核为32个随机的m×1矩阵,步长为1,不进行插空卷积，通过如上卷积层得到32个二维张量，通过对每个张量进行比较得到每个的全局最大值，以全局最大值为依据设计全连接层的分配权重，将卷积后得到的二维张量通过全连接层和两层隐藏层处理，得到one-hot形式的输出结果。

上述基于神经网络和自然对话的阿尔兹海默症风险预估方法的步骤S3中所述训练CNN神经网络模型是将步骤S2中的训练数据集放入构建好的CNN神经网络模型中进行训练，通过梯度下降法不断调整权重和偏置，使代价函数最终波动在误差允许范围内，此时即生成了适宜的CNN神经网络模型。

上述基于神经网络和自然对话的阿尔兹海默症风险预估方法的步骤S3中所述测试是将测试数据集放入生成的CNN神经网络模型中进行检测，检验测试效果；若测试得到的误差，在训练误差周围波动，即测试效果良好；反之，则进一步调整CNN神经网络模型的结构或参数。

上述基于神经网络和自然对话的阿尔兹海默症风险预估方法的步骤S5中构建LSTM神经网络模型：对步骤S1中数据进行归一化如下处理：

其中，

是第i个平均值，σ_i是第i个标准差，形成训练样本数据集。

上述基于神经网络和自然对话的阿尔兹海默症风险预估方法的步骤S5中训练LSTM神经网络模型：将步骤S4中的训练样本数据集放入构建的LSTM神经网络模型中进行训练，最终生成LSTM神经网络模型；再将测试数据集放入训练LSTM神经网络模型中进行检测，若测试得到的误差，在训练误差周围波动，即测试效果良好；反之，则调整LSTM神经网络模型的结构或参数。

目前多数语音识别系统采用词袋方法将文字转化为数字，即在信息检索中，假定对于一个文档，忽略它的单词顺序和语法、句法等要素，将其仅仅看作是若干个词汇的集合，认为文档中每个单词的出现都是独立的，不依赖于其它单词是否出现。此方法虽然对文字内容的长度不限制，但由于无法判别文本单词顺序，难以进行文本分析。故为考虑阿尔兹海默症患者语言的连贯、语法、停顿等影响因素，本发明采用Token embedding，并基于此建立多模态语料库语料库，实现对阿尔兹海默症风险的初步预估。

与现有技术相比，本发明基于神经网络和自然对话的阿尔兹海默症风险预估方法具有如下优点及有益效果：

1、本发明基于神经网络和自然对话的阿尔兹海默症风险预估方法在自然对话过程的语音信息的基础上，经过多模态语料库和算法处理，对录音者进行阿尔兹海默症的定量风险评估。

2、本发明采用Token embedding，并基于此建立多模态语料库，考虑了阿尔兹海默症患者语言的连贯、语法、停顿等影响因素，实现对阿尔兹海默症风险的初步预估。

3、本发明相对于传统的阿尔兹海默症预测方法而言，可减轻患者检查时的身体和心理负担，缩短检查周期，降低实验成本，有利于大规模推广。

附图说明

图1为本发明基于神经网络和自然对话的阿尔兹海默症风险预估方法流程图；

图2为Token embedding流程示意图；

图3为CNN网络结构图；

图4为LSTM网络结构图；

图5为CNN-LSTM结合图；

图6为LSTM具体神经元图解；

图7为DNN网络结构。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

在本说明书中，对某些术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、步骤、方法或者特点可以在任一个或多个实施例或示例中以合适的方式结合。

下面结合图1至图7和实施例对本发明的技术方案做进一步的说明。

图1为本发明基于神经网络和自然对话的阿尔兹海默症风险预估方法流程图。

图2为Token embedding流程示意图；通过语音、图像识别文字转化系统得到的一个语言文本文档，对文本中长度不同的句子进行长裁短补，生成有词频排列的词典，将词典中的每个词转化成一串小数来表示，如在附图2中将like等词转化成了一串小数。

图3为CNN网络结构图；数据通过卷积层提取输入信号中的隐藏特征，再经过池化层压缩输入的特征，减小计算量，接着通过全连接层输出T个元素，再用softmax函数作为激活函数，把每一个元素的范围都限定在0～1内，且所有的元素之和为1，从而得到CNN神经网络模型，经过训练数据集的不断训练，根据训练误差判定模型构建是否合格，如果合格则用于测试集测试，如果不合格，则重新构建网络模型，重新进行CNN神经网络模型训练。

图4为LSTM网络结构图；将数据归一化得到样本数据，让样本数据经过LSTM模块中的遗忘门、输入门、输出门、细胞门进行训练，再经过全连接层通过softmax函数进行激活，得到相应的LSTM神经网络模型，训练误差如果合格，则模型建立成功，不合格则重新构建网络模型进行训练。

图5为CNN-LSTM结合图；对于经过从CNN神经网络模型中输出的结果与从LSTM神经网络模型中输出的结果，经过一层全连接层DNN处理，再用softmax函数激活，输出最终结果作为预测阿尔兹海默症的依据。

图6为LSTM具体神经元图解；LSTM具体神经元公式和图解：

i^t＝σ(W_xix^t+W_hih^t-1+W_ciC^t-1+b_i)

f^t＝σ(W_xfx^t+W_hfh^t-1+W_cfC^t-1+b_f)

C^t＝f^tC^t-1+i^ttanh(W_xcx^t+W_hch^t+b_c)

o^t＝σ(W_xox^t+W_hoh^t-1+W_coC^t+b_o)

h^t＝o^ttanh(C^t)

图7为DNN网络结构。

实施例1

本实施例基于神经网络和自然对话的阿尔兹海默症风险预估方法，主要包括以下步骤：

S1.采集至少20名阿尔兹海默症测试者10分钟的有效自由表达语料，利用标记嵌入(Token embedding)将文本内容转化为数据。

S2.根据S1中的数据制成数据集，进行预处理及归一化得到特征数据集，将其按照3：1随机分配成训练数据集、测试数据集；

其中特征数据集规模为E个的一维张量，E为整数，表示语义、语法、顺序、句法等语言标志物和语言模式。

S3.根据数据集规模和输出要求，构建CNN神经网络模型，作为阿尔兹海默症语料数据训练网络模型；并运用S2中的训练数据集进行训练，生成训练CNN神经网络模型，再应用测试数据集对此模型进行测试检验。

S4.将S1中的数据进行随机处理，得到含有时间序列的训练样本数据集、测试样本数据集，其中，数据集规模为F个二维张量，其中F为整数，表示包含有时间序列的语义、语法、顺序、句法等语言标志物和语言模式。

S5.根据数据集规模和输出要求，构建LSTM神经网络模型；并运用S4中的训练样本数据集进行训练，生成训练LSTM神经网络模型，再应用测试样本数据集对此模型进行测试检验。

构建LSTM神经网络模型：对步骤S1中数据进行归一化如下处理：

其中，

是第i个平均值，σ_i是第i个标准差，形成训练样本数据集。

进而进行LSTM神经网络模型处理：

i^t＝σ(W_xix^t+W_hih^t-1+W_ciC^t-1+b_i)

f^t＝σ(W_xfx^t+W_hfh^t-1+W_cfC^t-1+b_f)

C^t＝f^tC^t-1+i^ttanh(W_xcx^t+W_hch^t+b_c)，

σ是sigmoid函数，W_xi、W_hi、W_ci分别遗忘门、输出门、细胞门与输出门之间的权重；W_xf、W_hf、W_cf分别是输入门、输出门、细胞门与遗忘门之间的权重，Wxc、Whc是记忆细胞和其他门之间的权重，C_t-1是上一个细胞状态；b_i、b_f、b_c分别为两个门及记忆细胞的偏置。

具体的，单个LSTM模块的输出ht由tanh函数确定，具体公式为：

o^t＝σ(W_xox^t+W_hoh^t-1+W_coC^t+b_o)

h^t＝o^ttanh(C^t)

式中，W_xo为遗忘门和输出门的权重，W_ho为输出门和输出门的权重，W_co为细胞门和输出门的权重，b_o是输出门和记忆细胞的偏置，下标o代指i、f、c。

得到的输出通过全连接层DNN处理(如图7)，并由softmax函数激活，将向量进行相同维度的压缩，且每个元素之和为1，范围均在(0，1)，最后输出结果

实施例2

在本实施例中，更具体提供一种基于神经网络和自然对话的阿尔兹海默症风险预估方法，其具体包括以下步骤：

S1:走访广东某老人院，在得到受访老年人允许的情况下，通过摄像机完整记录不少于10分钟的现场即席自然会话。在通过ELAN将多模态语料进行转写、切分、标注后，结合利用语音、图像识别文字转化系统得到的文本内容，采取Token embedding方法提取语义、语法、顺序、节律及停顿等语言标志物和语言模式，进一步应用矩阵保存数据。

S2：根据S1中的数据制成数据集，进行预处理及归一化得到特征数据集，归一化处理之后矩阵的数据范围比较接近，对于网络误差降低较有帮助；归一化之后数据结构和存储量大小不变。再将其按照3:1随机分配成训练数据集，测试数据集。

S3：根据输入矩阵规模和输出要求，构建CNN神经网络模型，作为阿尔兹海默症语料数据训练网络模型。

将S2中的训练数据集放入S3中的CNN神经网络模型中进行训练，通过梯度下降法不断调整权重和偏置，当最终误差达到特征数目的1/10000或者训练次数超过10000次,停止训练。对训练后的网络利用训练样本集进行正确率交叉检验，在训练样本随机抽取20％的数据进行交叉验证，训练集正确率越接近100％，理论分类效果越好。若未达到90％，则修改网络参数重新训练。

将测试数据集放入生成的CNN网络模型中进行检测，检验测试效果。若测试得到的误差，在训练误差周围波动，即测试效果良好；反之，则需要进一步调整CNN神经网络模型的结构或参数，可相应地增加卷积层的数目，调整卷积核的大小、步长等。

S4：进一步考虑录音时的时间序列，利用embedding方法提取将时间、语义、语法、顺序、节律、停顿等语言标志物和语言模式，进一步应用矩阵保存数据。将得到的数据进行预处理及归一化得到特征数据集，再将其按照3:1随机分配成训练数据集，测试数据集。

S5：根据数据集规模和输出要求构建多层LSTM神经网络模型作为阿尔兹海默症风险预估的训练模型。

将S4中的训练样本数据集放入多层LSTM神经网络模型中进行训练，当最终误差达到特征数目的1/10000或者训练次数超过1000次,停止训练。对训练后的网络利用训练样本集进行正确率交叉检验，在训练样本随机抽取20％的数据进行交叉验证，训练集正确率越接近100％，理论分类效果越好。若未达到90％，则修改网络参数重新训练。最终生成多层LSTM神经网络模型。

将测试数据集放入LSTM神经网络模型中进行检测。若测试得到的误差，在训练误差周围波动，即测试效果良好；反之，则需要进一步调整LSTM神经网络模型的结构或参数，可相应地增加LSTM的时间步长，修改的LSTM单元的公式等。

S6：把S3输出值及S5输出值作为输入值，进行一层全连接层处理，通过两层隐藏层，输出one-hot形式的最终结果，作为预估阿尔兹海默症风险的定量数据，辅助医生对阿尔兹海默症的诊断。

实施例3

本实施例在实施例1的基础上，应用Token embedding方法对语料信息进行特征提取，得到语言文本的矩阵，具体为包括：

应用Token embedding方法对语料信息进行特征提取。依据采集到的信息确定文本中的句子最大长度,对于文本中长度不同的文本句子进行长裁短补，生成词典，将所有文档的词做个词频排列，得到规模为n×1的单词组合，针对每个单词进行数值赋值，赋值仅需要保证每个单词对应不同的数字即可，进一步将每个数字转化成规模为1×m浮点数组合，从而得到一个n×m形式的矩阵。将每个维度作为一个特征，其相应的强烈程度决定了小数的大小、正负。将句子的每个词对应的数字的行取出，按顺序转置为列，得到语言文本的矩阵表示,如图2所示。

此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

值得说明的是，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.基于神经网络和自然对话的阿尔兹海默症风险预估方法，其特征在于：采集阿尔兹海默症测试者的有效自由表达语料，使用语言处理软件ELAN对语料进行转写、切分和标注；利用目前通用的语音、图像识别文字转化系统和标记嵌入(Token embedding)将文本内容转化为数据并建立多模态语料库；利用卷积神经网络(CNN)模型与长短期记忆神经网络(LSTM)模型的复合模型进行文本分析，作为预估阿尔兹海默症的数据。

2.根据权利要求1所述的方法，其特征在于：具体包括以下步骤：

S1.采集至少20名阿尔兹海默症测试者10分钟的有效自由表达语料，将语料载入ELAN，进行话语转写、切分和标注，利用Token embedding将文本内容转化为数据，形成多模态语料库；

其中特征数据集规模为E个的一维张量，E为整数，表示语言标志物和语言模式；

S4.将S1中的数据进行随机处理，得到含有时间序列的训练样本数据集、测试样本数据集，其中，数据集规模为F个二维张量，其中F为整数，表示包含有时间序列的语言标志物和语言模式；

S6.将通过步骤S3中的CNN神经网络模型处理的输出值及通过步骤S5中的LSTM神经网络模型处理的输出值并列组成矩阵，作为输入值，进行一层全连接层处理，通过两层隐藏层，输出最终结果以热点分布(one-hot)形式表达，作为预估阿尔兹海默症的数据，辅助医生对阿尔兹海默症的诊断。

3.根据权利要求2所述的方法，其特征在于：步骤S1中所述阿尔兹海默症测试者的要求是：老年和老年前期的人群，主要为60-65岁的老年群体，能够进行语言表达，身体状况基本良好，测试者男女基本比例为1：1。

4.根据权利要求2所述的方法，其特征在于：步骤S1中所述采集到的有效自由表达语料，先利用目前通用的语音、图像识别文字转化系统转化得到多个包含语料信息的语言文本文档，再应用Token embedding方法将文本内容转化为数据。

5.根据权利要求4所述的方法，其特征在于：所述应用Token embedding方法将文本内容转化为数据即应用Token embedding方法对语料信息进行特征提取，得到语言文本的矩阵，具体为包括：

6.根据权利要求2所述的方法，其特征在于：步骤S3中所述构建CNN神经网络模型是:针对于步骤S2得到的数据及集规模构建多个卷积层，具体参数如下：卷积核为32个随机的m×1矩阵,步长为1,不进行插空卷积，通过如上卷积层得到32个二维张量，通过对每个张量进行比较得到每个的全局最大值，以全局最大值为依据设计全连接层的分配权重，将卷积后得到的二维张量通过全连接层和两层隐藏层处理，得到one-hot形式的输出结果。

7.根据权利要求2所述的方法，其特征在于：步骤S3中所述训练CNN神经网络模型是将步骤S2中的训练数据集放入构建好的CNN神经网络模型中进行训练，通过梯度下降法不断调整权重和偏置，使代价函数最终波动在误差允许范围内，此时即生成了适宜的CNN神经网络模型。

8.根据权利要求2所述的方法，其特征在于：步骤S3中所述测试是将测试数据集放入生成的CNN神经网络模型中进行检测，检验测试效果；若测试得到的误差，在训练误差周围波动，即测试效果良好；反之，则进一步调整CNN神经网络模型的结构或参数。

9.根据权利要求2所述的方法，其特征在于：步骤S5中构建LSTM神经网络模型：对步骤S1中数据进行归一化如下处理：

其中，

是第i个平均值，σ_i是第i个标准差，形成训练样本数据集。

10.根据权利要求2所述的方法，其特征在于：步骤S5中训练LSTM神经网络模型：将步骤S4中的训练样本数据集放入构建的LSTM神经网络模型中进行训练，最终生成LSTM神经网络模型；再将测试数据集放入LSTM神经网络模型中进行检测，若测试得到的误差，在训练误差周围波动，即测试效果良好；反之，则调整LSTM神经网络模型的结构或参数。