CN113744872A

CN113744872A - 一种智能交互的阿尔兹海默症辅助筛查系统

Info

Publication number: CN113744872A
Application number: CN202111106419.1A
Authority: CN
Inventors: 乐卫东; 宋井宽; 杨森; 余杭; 赵启轲; 向阳; 杨翠; 陈敏; 缪岚芯
Original assignee: Sichuan Academy Of Medical Sciences Sichuan Provincial People's Hospital; University of Electronic Science and Technology of China
Current assignee: Sichuan Academy Of Medical Sciences Sichuan Provincial People's Hospital; University of Electronic Science and Technology of China
Priority date: 2021-09-22
Filing date: 2021-09-22
Publication date: 2021-12-03
Anticipated expiration: 2041-09-22
Also published as: CN113744872B

Abstract

本发明公开了一种智能交互的阿尔兹海默症辅助筛查系统，涉及语音识别、图像处理技术领域，包括基于语音识别的可交互单元测试模块和基于事实的智能分析模块，单元测试模块用与交互式地收集MoCA测试数据，包括1)视空间和执行功能测试模块、2)语言和抽象功能测试模块以及3)记忆和定向功能测试模块；智能分析模块用于智能地处理和分析多模态数据，包括1)语音识别模块、2)手绘图识别模块和3)决策模块。采用本发明的技术方案集成了MoCA测试项目，大大简化了测试流程，并且统一、系统和完备的测试标准，确保了筛查结果的可靠性、真实性。

Description

一种智能交互的阿尔兹海默症辅助筛查系统

技术领域

本发明涉及语音识别、图像处理技术领域，尤其涉及一种智能交互的阿尔兹海默症辅助筛查系统。

背景技术

阿尔茨海默病(Alzheimer's disease,AD)是一种起病隐匿的、进行性发展的神经系统退行性疾病。临床上以记忆障碍、失语、失认、执行功能障碍、视空间技能损害以及人格和行为改变等全面性痴呆表现为特征，多发于老年人。

目前，中国阿尔茨海默病患者人数已居世界第一。对于早期的阿尔茨海默症可通过药物进行治疗和控制，一定程度上能够帮助患者改善认知功能、延缓临床病程10-15年。因此，阿尔兹海默症的早期筛查对控制疾病的发展具有重要意义。

当前，随着机器学习和深度学习技术在图像识别领域的发展，利用磁共振成像(MRI)、正电子发射型计算机断层显像(PET)等方式的临床数据来预测阿尔茨海默病的发生和演变已取得了初步的成果。值得关注的是，蒙特利尔认知评估测试(MoCA)同样是阿尔茨海默病辅助筛查的一种重要手段，并且相较于MRI、PET等方法，MoCA更为经济实惠，因此也更容易被潜在患者所接受。

传统的MoCA测试通常以“患者-医生”面对面、一对一问卷的方式进行。在测试过程中，专业医护人员引导受测者在统一标准的纸质问卷上填写和回答具体测试问题，并据此评估受测者行为能力和发病情况。然而，该筛查方式存在着医护人员负担较大、评价标准不统一、单位时间筛查人数较少、纸质问卷难以进行数字化统计和展示等问题，极大地限制了筛查效率和结果，以及对临床数据的数字化管理。更重要的是，目前暂时没有针对MoCA测试的智能解决方案。

我们提出的技术方案希望利用新的人工智能技术，来更高效和准确地实现阿尔兹海默症的早期预警、初步筛查，以降低阿尔兹海默症对当前社会发展产生的不利影响。

发明内容

本发明意在提供一种在测试方式上更为简洁、在评价体系中更加客观科学、置信度更高的智能交互的阿尔兹海默症筛查系统。

为达到上述目的，本发明提供如下技术方案：

一种智能交互的阿尔兹海默症辅助筛查系统，其特征在于：包括基于语音识别的可交互单元测试模块(IUTM)和基于事实的智能分析模块(IAM)，所述IUTM模块包括视空间和执行功能测试模块、语言和抽象功能测试模块以及记忆和定向功能测试模块，所述IAM模块包括语音识别模块、手绘图识别模块和决策模块；

所述IUTM模块用于交互式地实时采集MoCA测试数据，包括了语音、手绘图图像、逻辑选择和计算结果等信息，为智能识别模块提供标准和可靠的模态信息输入；

所述视空间和执行功能测试模块用于为受试者提供视觉执行相关的测试题并将受试者的手绘图像数据和其他执行信息提交至智能分析模块；

所述语言和抽象功能测试模块用于为受试者提供语言执行测试题并记录受试者回答问题的语音，然后将语音数据提交至智能分析模块；

所述记忆和定向功能测试模块用于为受试者提供记忆和定向能力执行测试题并将语音数据和逻辑信息提交至智能分析模块；

所述智能分析模块用于智能地处理和分析单元测试模块提交的多模态数据；

所述语音识别模块用于将语音数据转化为文本信息并将其提交至决策模块；

所述手绘图识别模块用于识别和处理手绘图像数据并将图像信息提交至决策模块；

所述决策模块用于根据语音识别模块提交的文本信息、手绘图识别模块处理之后的图像信息以及记忆和定向功能测试模块提交的逻辑信息进行处理，并对测试结果进行置信度评分，返回测试结果。

优选地，所述决策模块处理语音识别模块提交的文本信息的方式包括精准匹配模式和语义匹配模式，

所述精准匹配模式用于判定受试者的语音数据是否与系统答案刚性吻合；

所述语义匹配模式用于判断受试者的语音信息与系统答案的匹配度。

一种智能交互的阿尔兹海默症辅助筛查系统，其特征在于：该系统包括以下步骤：

S1：基本信息填写。按照受测者真实情况填写基本信息，并由监护人或医生等辅助检测人员，确定当前测试；

S2：视空间和执行功能测试。测试受试者的视空间与执行能力；

S3：语言和抽象功能测试。测试受试者的视觉感知、注意力能力和语义理解能力；

S4：记忆和定向功能测试。测试受试者的记忆提取能力、定向能力；

S5：将S2～S4中的测试结果经语音识别模块和手绘图识别模块处理后，由决策模块对测试结果进行评分。

优选地，所述S2步骤中，测试内容包括连线测试、临摹立方体测试和手绘指定时刻钟表测试。

优选地，所述S3步骤中，测试内容包括命名测试、记忆测试、敲击测试、语言重述测试、语言流畅性测试和抽象测试。

优选地，所述S4步骤中，测试内容包括延迟回忆测试和填写信息测试。

优选地，所述S5中语言识别模块以受试者的普通话或中文方言的语音作为输入，以16000Hz的采样速度获得PCM无损音频格式文件，然后将该文件进行处理并提取声学特征，通过现有的成熟的基于深度学习的语音转换接口进行处理以获得文本信息，处理后的句子提交至决策模块。

优选地，所述S5中手绘图识别模块将S2～S4中绘制的手绘图图像输入到手绘图数据集上训练的轻量级卷积神经网络(CNN)模型中，来预测所绘手绘图图像是否符合要求，并且将模型得到的预测结果传入决策模块。

优选地，所述手绘图像识别模型的构建方法如下：

a：构建模型训练的数据集。在专业医护人员的引导下，采集了手机拍摄的临床纸质MoCA测试图像，以及不患病志愿者在移动终端临摹的图像，前者被称为Camera-Image(CI，摄像机图像)，后者被称为Screen-Image(SI，屏幕图像)，并对其进行标注和校准工作，形成MoCA数据集，该数据集由“手绘立方体，手绘指定时刻钟表”两类图像构成。

b：数据集预处理。针对CI图像依次进行高斯平滑处理、二值化处理的操作，得到CI*图像。

c：图像增强处理。在实际的训练中，为了提升模型的识别能力，需要对CI*图像和SI图像进行图像增强处理。即利用随机填充、随机伸缩和旋转角度等操作对原始图像数据进行处理，旋转的角度控制在－14°～14°；由于该识别任务旨在判别手绘图的完整性，不同于分类任务，因此不能采用随机裁剪的策略。

d：将增强后的CI*和SI图像作为训练样本输入来构建手绘图像识别模型。

优选地，所述决策模块利用关键字的精准匹配和描述的模糊匹配来对语音识别模块处理的文本信息进行评分，利用逻辑算法来评估受试者的反应能力和其他逻辑执行能力，并结合手绘图识别模块得到的评分，得到综合评分。

本技术方案的原理及有益效果：

IAS系统以人机交互的方式实施MoCA量表的测试工作，摈弃传统“医生语音引导—患者问卷回答”的方式，通过智能识别模块对测试数据进行系统评分，保证了测试分数的可靠性，提升了筛查效率。更好的是，相较于纸质测试档，电子档的测试数据也更易储存，也能给进一步的大数据统计、分析和可视化奠定基础，并且通过临床积累，也可不断迭代优化阿尔茨海默症筛查系统性能。

IAS系统可用于阿尔茨海默症的临床初级筛查，筛查场景包含但不局限于医院诊室、专科诊所，是一款为实现阿尔茨海默症筛查方式智能化、规模化的新型软件产品。

附图说明

图1为本发明实施例1提供的辅助筛查系统的结构框架图；

图2为本发明实施例2提供的数据集部分图像图；

图3为本发明实施例2提供的数据集预处理流程图；

图4为本发明实施例2提供的特征提取网络参数图；

图5为本发明实施例2提供的语义判断网络参数图。

具体实施方式

下面结合附图和实施方式对本发明作进一步的详细说明：

实施例一：

如图1所示的一种智能交互的阿尔兹海默症辅助筛查系统(IAS)，意在提供一种简洁、评价更加客观科学、置信度更高的阿尔茨海默症筛查工具，整个系统结合了1)深度学习、2)以微信小程序框架为基础的前后端开发和设计，将传统的蒙特利尔认知评估量表(MoCA)测试内容搭载到了移动终端设备，并具备了智能交互和评测的优势。该系统通过基于语音识别的可交互单元测试模块(IUTM)以人机交互的方式实施MoCA量表的测试工作，摈弃了从前“医生语音引导——患者问卷回答”的方式，并通过基于实时的智能分析模块(IAM)对测试数据进行评分，保证了测试分数的可靠性，提升了筛查效率；

具体而言，在背景语音提示的引导下，被测者仅需通过一个移动设备就可以在IUTM中独立完成MoCA测试；之后，通过IAM对测试数据进行准确、客观的分析，加之，与传统方法相比，电子系统有利于临床数据的收集和分析，为进一步的病例研究提供依据。

整个筛查过程，被测者可在没有医护人员参与的情况下，仅使用移动设备，在语音提示下完成整个MoCA测试。

该系统包括基于语音识别的可交互单元测试模块(IUTM)和基于事实的智能分析模块(IAM)，所述IUTM模块包括视空间和执行功能测试模块、语言和抽象功能测试模块以及记忆和定向功能测试模块，所述IAM模块包括语音识别模块、手绘图识别模块和决策模块；

所述可交互单元测试模块模块用于交互式地实时采集MoCA测试数据，包括了语音、手绘图图像、逻辑选择和计算结果等信息，为智能识别模块提供标准和可靠的模态信息输入；

所述视空间和执行功能测试模块用于为受试者提供视觉执行相关的测试题并将受试者的手绘图像数据提交至智能分析模块；

所述决策模块用于根据语音识别模块提交的文本信息、手绘图识别模块处理之后的图像信息以及记忆和定向功能测试模块提交的逻辑信息进行处理，并对测试结果的置信度评分，返回测试结果。

所述决策模块处理语音识别模块提交的文本信息的方式包括精准匹配模式和语义匹配模式，

实施例二：

一种智能交互的阿尔兹海默症辅助筛查系统，意在提供一种简洁、评价更加客观科学、置信度更高的阿尔茨海默症筛查工具，以人机交互的方式实施MoCA量表的测试工作，摈弃了从前“医生语音引导——患者问卷回答”的方式，并通过智能识别模块对测试数据进行评分，保证了测试分数的可靠性，提升了筛查效率；

该系统包括以下步骤：

S1：基本信息填写。受测者按实际情况填写基本信息，在需保证测试质量的要求下，可由监护人或医生等辅助检测人员，进一步确定当前测试的姓名、性别、教育程度、出生日期、所在城市和位于场所等信息，填写完毕后，按页面下方“确定”键开始测试。

S2：视空间和执行功能测试。测试受试者的视空间与执行能力，测试内容包括：

S2-1考察视空间与执行能力的连线测试。用‘1、2、3’或者汉字的‘甲、乙、丙’来表示顺序，受测者需按照从数字到汉字，并依次升高的顺序，画一条连续的折线，正确顺序为“1-甲-2-乙-3-丙-4-丁-5-戊”，该测试利用电子屏幕的特性，将测试从纸质书写转移到移动终端，且能随时记录连线顺序和修改痕迹，使得测试结果更准确。

S2-2考察视空间与执行能力的临摹立方体测试。界面左上角适当位置，展示一幅立方体图像，受测者需临摹此立方体图像，并在右边空白画布处绘制相应的图像。

S2-3考察视空间与执行能力的手绘钟表测试。界面提示音告诉受测者需要在位于界面中央空白画布处，绘制一张“时刻为11点10分的圆形钟表图”。

S3：语言和抽象功能测试。测试受试者的视觉感知、注意力能力和语义理解能力，测试内容包括：

S3-1考察视觉感知的命名测试。界面中央依序展示3个动物图像，界面提示音告诉受试者需要一次说出图像中动物的名字，并点击每个图像下方对应的按钮，录入回答语音，正确答案依次是狮子、犀牛、骆驼。

S3-2考察注意力能力的记忆测试。记忆力测验，系统给受测者读几个词，受测者需努力记住，系统读完后，受测者需进行复述，回答时不必按照系统读的顺序；之后系统给受测者读一些数字，受测者需努力记住，系统读完后，受测者需将数字以正序和逆序分别复述。

S3-3考察注意力能力的读‘1’敲击测试。系统读一些数字，受测者需仔细听，当听到指定数字时，轻击界面按钮与系统交互，系统将记录受测者的反应时间。

S3-4考察计算能力的‘100’连续减‘7’测试。受测者需按照‘100’连续减‘7’的要求，在页面指定位置依次填写结果。

S3-5考察注意力能力的语言重述测试。系统读出一个简单的句子，受测者需仔细听，并在系统读完之后，将该单句一字不差重复，即反馈给系统。

S3-6考察语义理解能力的语言流畅性测试。受测者需在规定的1分钟时间内，连续地、尽可能多地说出动物种类的名字。

S3-7考察语义理解能力的抽象测试。系统要求受测者分别说出桔子和香蕉、火车和自行车、手表和尺子在哪方面相类似。

S4：记忆和定向功能测试。测试受试者的记忆提取能力、定向能力，测试内容包括：

S4-1考察记忆提取能力的延迟回忆测试。重述S3步骤中第一项测试内容的动物名字。

S4-2考察定向能力的填写信息测试。受测者需在测试页面指定位置，回答指定信息，包括当天日期、此时地点和所在城市。

语音识别模块对测试内容S3-1、S3-2、S3-5、S3-6、S3-7和S4-1得到的语音数据作为输入，以16000Hz的采样速度获得PCM无损音频格式文件，然后将该文件进行处理并提取声学特征，通过现有的成熟的基于深度学习的语音转换接口进行处理以获得文本信息，处理后的句子提交至决策模块。

手绘图识别模块将S2～S4中绘制的图像信息输入到手绘图像识别模型中，来估计所绘手绘图像是否符合要求，并且将模型得到的预测结果传入决策模块；但手绘图识别模块需先加载手绘图像识别模型，手绘图像识别模型的构建方法如下：

a：构建模型训练的数据集。在专业医护人员的引导下，采集了约1850张手机拍摄的临床纸质MoCA测试图像，以及约450张不患病志愿者在移动终端临摹的图像，前者被称为Camera-Image(CI，摄像机图像)，后者被称为Screen-Image(SI，屏幕图像)。我们先后完成了对数据的采集、标注、校准工作。将构建的MoCA数据集称为Sketch4IAS，该数据集由“手绘立方体，手绘指定时刻钟表”两类构成，其中“立方体”的标注分数为1分，满足基本的立方体的点线关系即可；“钟表”的标注分数为3分，分别将1)外边缘是否为圆形；2)1到12的指针数字是否正确；3)时针和分针表示的时刻是否为11点10分作为标准分数3分的小项。

如图2所示，第一行为CI图像，第二、三行为SI图像，第四行为标记分数。左侧、右侧三列分别表示手绘立方体、手绘指定时刻钟表。

b：数据集预处理。对于CI图像，由于拍摄设备参数不统一，且往往存在噪点，因此我们依次对其进行高斯平滑处理、二值化处理的操作，以消除CI图像中的噪点和亮度差异等因素，如图3所示的第一列为原始图片，第二列为高斯平滑处理后的结果，第三列为二值化处理的结果。此时，处理后的CI*图像同SI图像相差较小。

c：图像增强处理。在实际的训练中，为了提升模型的泛化能力，需要对CI*图像和SI图像进行图像数据增强处理。即利用随机填充、随机伸缩和旋转角度等操作对原始图像数据进行处理，旋转的角度控制在－14°～14°。由于该识别任务旨在判别手绘图的完整性，不同于分类任务，因此不能采用随机裁剪的策略。

d：将增强后的图像作为训练样本输入来构建手绘图像识别模型。

手绘图像识别模块在识别图像时分为了特征提取和语义判断两个部分：

第一部分为特征提取网络，主要有五层网络构成，如图4所示。其中，第一层核大小为15*15，扩大了感受野的范围，能够使得模型更好地习得手绘图形的点、线、面关系，有利于更细致的特征提取。网络输入维度为[1,225,225]，输出维度为[256,7,7]。

第二部分为语义判断网络，主要有三层网络构成，如图5所示。对于“手绘立方体识别”任务，将特征提取网络的输出作为语义判断网络的输入，进而得到最后立方体分类结果。

对于“手绘指定时刻钟表”任务，测试项目中的3分构成分别为钟表是否满圆、数字是否依序、指针朝向是否正确。在实现上，转化为三个正负样本的二分类任务，即将特征提取网络的输出分别输入到三个不同的语义判断网络中，最后分别得到钟表在三个评价指标上的预测值输出。上述分类任务采用的损失函数均为交叉熵损失。将图像增强后的数据加载到上述网络中并进行批次化的训练，并在测试集上测试模型性能，主要的指标是准确率、召回率、训练和测试损失，最后保存效果良好稳定的模型。

决策模块首先采用文本匹配算法处理语音识别模块处理后的文本信息，包括使用关键字的精准匹配来对S3-1、S3-3、S3-5、S3-6、S4-1的文本信息进行评价打分；使用描述的模糊匹配来对S3-7的文本信息进行评价打分；其次，采用逻辑判断算法来评估被受试者的反应能力和其他逻辑执行能力，如S3-3中屏幕的敲击是否有效、S2-2和S2-3中手绘的图像是否连续、S2-1中连线是否符合要求等，最后结合手绘图识别模块对图像信息的评价打分，综合得出最终的综合能力报告，为医务人员的进一步诊断提供了重要参考。

其中，精准匹配将文本结果进行刚性的配对，即文本结果需要和标准答案完全一样。

在模糊匹配，包括叙述“a)桔子和香蕉、b)火车和自行车、c)手表和尺子在哪方面相类似”这三个固定的问题，其中a)对应的关键词语限制为“水果”；b)对应的关键词限制为“交通工具”；c)对应的关键词限制为“文具”。匹配算法采用对文本结果进行遍历的方法，即在文本中出现对应关键词则得分。答对一个问题得一分，共计三分。

以上所述的仅是本发明的实施例，方案中公知的具体技术方案和/或特性等常识在此未作过多描述。应当指出，对于本领域的技术人员来说，在不脱离本发明技术方案的前提下，还可以作出若干变形和改进，这些也应该视为本发明的保护范围，这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准，说明书中的具体实施方式等记载可以用于解释权利要求的内容。

Claims

1.一种智能交互的阿尔兹海默症辅助筛查系统，其特征在于：包括基于语音识别的可交互单元测试模块(IUTM)和基于事实的智能分析模块(IAM)，所述IUTM模块包括视空间和执行功能测试模块、语言和抽象功能测试模块以及记忆和定向功能测试模块，所述IAM模块包括语音识别模块、手绘图识别模块和决策模块；

所述可交互单元测试模块用于交互式地实时采集MoCA测试数据，包括了语音、手绘图图像、逻辑选择和计算结果等信息，为智能识别模块提供标准和可靠的模态信息输入；

所述语言和抽象功能测试模块用于为受试者提供语言执行相关的测试题并记录受试者回答问题的语音，然后将语音数据提交至智能分析模块；

所述记忆和定向功能测试模块用于为受试者提供记忆和定向能力执行相关的测试题并将语音数据和逻辑信息提交至智能分析模块；

2.根据权利要求1所述的智能交互的阿尔兹海默症辅助筛查系统，其特征在于：所述决策模块处理语音识别模块提交的文本信息的方式包括精准匹配模式和语义匹配模式，

3.一种智能交互的阿尔兹海默症辅助筛查系统，其特征在于：该系统包括以下步骤：

4.根据权利要求3所述的智能交互的阿尔兹海默症辅助筛查系统，其特征在于：所述S2步骤中，测试内容包括连线测试、临摹立方体测试和手绘指定时刻钟表测试。

5.根据权利要求3所述的智能交互的阿尔兹海默症辅助筛查系统，其特征在于：所述S3步骤中，测试内容包括命名测试、记忆测试、敲击测试、语言重述测试、语言流畅性测试和抽象测试。

6.根据权利要求3所述的智能交互的阿尔兹海默症辅助筛查系统，其特征在于：所述S4步骤中，测试内容包括延迟回忆测试和填写信息测试。

7.根据权利要求3所述的智能交互的阿尔兹海默症辅助筛查系统，其特征在于：所述S5中语言识别模块以受试者的普通话或中文方言的语音作为输入，以16000Hz的采样速度获得PCM无损音频格式文件，然后将该文件进行处理并提取声学特征，通过现有的成熟的基于深度学习的语音转换接口进行处理以获得文本信息，处理后的句子提交至决策模块。

8.根据权利要求3所述的智能交互的阿尔兹海默症辅助筛查系统，其特征在于：所述S5中手绘图识别模块将S2～S4中绘制的手绘图图像输入到手绘图数据集上训练的轻量级卷积神经网络(CNN)模型中，来预测所绘手绘图图像是否符合要求，并且将模型得到的预测结果传入决策模块。

9.根据权利要求8所述的智能交互的阿尔兹海默症辅助筛查系统，其特征在于：所述手绘图像识别模型的构建方法如下：

a：构建模型训练的数据集，在专业医护人员的引导下，采集了手机拍摄的临床纸质MoCA测试图像，以及不患病志愿者在移动终端临摹的图像，前者被称为Camera-Image(CI，摄像机图像)，后者被称为Screen-Image(SI，屏幕图像)，并对其进行标注和校准工作，形成MoCA数据集，该数据集由“手绘立方体，手绘指定时刻的钟表”两类图像构成；

b：数据集预处理，针对CI图像依次进行高斯平滑处理、二值化处理的操作，得到CI*图像；

c：图像增强处理，在实际的训练中，为了提升模型的识别能力，需要对CI*图像和SI图像进行图像增强处理。即利用随机填充、随机伸缩和旋转角度等操作对原始图像数据进行处理，旋转的角度控制在－14°～14°；由于该识别任务旨在判别手绘图的完整性，不同于分类任务，因此不能采用随机裁剪的策略；

10.根据权利要求3所述的智能交互的阿尔兹海默症辅助筛查系统，其特征在于：所述决策模块利用关键字的精准匹配和描述的模糊匹配来对语音识别模块处理的文本信息进行评分，利用逻辑算法来评估受试者的反应能力和其他逻辑执行能力，并结合手绘图识别模块得到的评分，得到综合评分。