CN113241175A - 基于边缘计算的帕金森症辅助诊断系统和方法 - Google Patents

基于边缘计算的帕金森症辅助诊断系统和方法 Download PDF

Info

Publication number
CN113241175A
CN113241175A CN202110710940.XA CN202110710940A CN113241175A CN 113241175 A CN113241175 A CN 113241175A CN 202110710940 A CN202110710940 A CN 202110710940A CN 113241175 A CN113241175 A CN 113241175A
Authority
CN
China
Prior art keywords
data
terminal
audio
video
edge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110710940.XA
Other languages
English (en)
Other versions
CN113241175B (zh
Inventor
陈益强
李宜兵
蒋鑫龙
王健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN202110710940.XA priority Critical patent/CN113241175B/zh
Publication of CN113241175A publication Critical patent/CN113241175A/zh
Application granted granted Critical
Publication of CN113241175B publication Critical patent/CN113241175B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H40/00ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
    • G16H40/60ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices
    • G16H40/67ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices for remote operation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H80/00ICT specially adapted for facilitating communication between medical practitioners or patients, e.g. for collaborative diagnosis, therapy or health monitoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Evolutionary Computation (AREA)
  • Pathology (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明提供基于边缘计算的帕金森症辅助诊断系统,包括:终端、边缘端,其中,所述终端用于数据采集,数据标注以及数据增量传输;所述边缘端用于接收所述终端采集的音视频数据以及诊断请求,提供音视频数据规整服务、数据管理服务、神经网络模型训练以及神经网络模型推理服务;所述边缘端包括神经网络运算装置,所述神经网络运算装置用于训练模型与预测帕金森症患病概率。本发明还提供利用上述系统的帕金森症的辅助诊断方法。

Description

基于边缘计算的帕金森症辅助诊断系统和方法
技术领域
本发明涉及人工智能辅助疾病诊断技术领域,具体涉及基于边缘计算的帕金森症辅助诊断系统和方法。
背景技术
帕金森症是一种常见的神经退行性疾病。目前,全球50岁以上人群帕金森症的的患病率约为1%;在我国,65岁以上人群帕金森症的患病率约为1.7%。但是接近半数的帕金森症患者无法及时的意识到自己患病,造成了延误确诊与早期医疗干预。特别是在医疗条件匮乏的区域,诊断帕金森症存在很大的困难,许多帕金森症患者还没有被诊断发现,以致患者病情不断加重。
帕金森症患者的临床表现有因为面部表情逐渐缺少而引起的“面具脸”以及因运动-语言中枢的神经损坏所引起的语言障碍。“面具脸”和言语障碍均为临床判定是否患帕金森症的重要指标,使用患者对话时的面部动作与语音信息的音视频数据,可以有效进行帕金森症的辅助诊断。但是,对于音视频的信息处理存在很多困难,如大规模音视频数据处理的运算量、疾病辅助诊断的效率、用户的隐私保护等。特别是采用数据上传云服务器的疾病辅助诊断方式存在多方面的负面影响,包括:第一,被诊断者的音视频对话数据有比较强的隐私性,数据上传容易造成数据泄露或数据滥用,极有可能侵犯个人的隐私;第二,通过音视频数据上传,会占用带宽并存在很大的延时,这将造成疾病诊断的响应速度降低;第三,面对音视频分析的大规模数据处理,云服务器并发处理可靠性低。
发明内容
为解决上述现有技术中存在的问题,提供基于边缘计算的帕金森症辅助诊断系统,包括:终端、边缘端,其中,
所述终端用于数据采集,数据标注以及数据增量传输;
所述边缘端用于接收所述终端采集的音视频数据以及诊断请求,提供音视频数据规整服务、数据管理服务、神经网络模型训练以及神经网络模型推理服务;所述边缘端包括神经网络运算装置,所述神经网络运算装置用于训练模型与预测帕金森症患病概率。
优选的,所述模型基于重复4次的3D深度可分离卷积神经网络提取视频特征,所述3D深度可分离卷积神经网络包括:3*3*3的深度卷积核,第一BN层,第一ReLU激活函数,1*1*1的点卷积核,第二BN层,第二ReLU激活函数,3D最大池化层。
优选的,所述模型基于重复4次的2D深度可分离卷积神经网络提取音频特征,所述2D深度可分离卷积神经网络包括3*3的深度卷积核,第三BN层,第三ReLU激活函数,1*1的点卷积核,第四BN层,第四ReLU激活函数,2D最大池化层。
优选的,所述终端包括触摸屏、音视频采集装置、音频播放装置、第一数据存储装置、第一数据传输装置、数据标注装置;
所述触摸屏用于人机交互,包括获取开始采集音视频数据的指令;
所述音视频采集装置用于根据所述开始采集音视频数据的指令采集用户面部视频及语音数据;
所述音频播放装置用于根据所述开始采集音视频数据的指令,播放预置的引导语音,以引导使用者做出面部表情和发出语音;
所述第一数据存储装置用于存储所述用户面部视频及语音数据;
所述第一数据传输装置用于向所述边缘端传输所述用户面部视频及语音数据;
所述数据标注装置用于对所述用户面部视频及语音数据标注数据标签;
所述边缘端包括第二数据传输装置,数据管理装置,第二数据存储装置,数据规整装置;
所述第二数据传输装置用于接收所述终端发送的音视频数据以及向所述终端返回诊断结果;
所述数据管理装置用于增量式添加音视频数据;
所述第二数据存储装置用于存储音视频数据及规整结果;
所述数据规整装置用于对音视频数据进行规整。
优选的,所述系统还包括云服务器,所述云服务器用于监控所述终端和所述边缘端的状态、数据元信息统计、数据版本控制、模型版本控制以及指定推理服务模型;所述终端还包括第一网络通信装置,用于与所述云服务器通信;所述边缘端还包括第二网络通信装置,用于与所述云服务器通信。
优选的,所述边缘端的第二存储装置基于对象存储管理音视频数据,所述对象存储包括python字典变量,所述python字典变量包括包括音频特征和视频特征两个字段;所述对象存储中还包括规整数据的索引文件,所述规整数据的索引文件包括音视频数据名、音视频数据在对象存储中的路径以及标签信息。
优选的,所述终端基于本地数据索引与边缘端数据索引的比较结果,将变更数据及其对应的元信息同步到边缘端,所述边缘端根据同步数据更新数据索引。
本发明提供一种利用上述系统的帕金森症的辅助诊断方法,包括:
步骤1,基于所述终端采集使用者按照终端指示所完成对话的音视频数据;
步骤2,所述边缘端根据规整后的所述终端传送的使用者的音视频数据,基于预先训练的模型进行帕金森症辅助诊断。
本发明提供一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现上述方法的步骤。
本发明提供一种计算机设备,包括存储器和处理器,在所述存储器上存储有能够在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述方法的步骤。
本发明具有如下特点和有益效果:相比于现有技术,本发明提供的基于边缘计算的帕金森症辅助诊断系统和方法,针对交互式场景,在无需医疗设备介入的情况下,通过自动分析对话语音与面部动作表情的实时联系,辅助诊断帕金森症的患病风险。本发明兼顾用户交互式诊断的低成本与易用性,同时保证了诊断的准确性与可靠性。在长期的使用过程中,通过专业医生的介入来调整数据标签,可使诊断结果的准确率接近或超过专业医生诊断。
附图说明
图1示出了本发明一个实施例的基于边缘计算的帕金森症辅助诊断系统。
图2示出了本发明一个实施例的基于边缘计算的帕金森症辅助诊断系统的流程图。
图3示出了本发明一个实施例的边缘端原始数据。
图4示出了本发明一个实施例的多模态数据规整结果。
图5示出了本发明一个实施例的规整数据的对象存储索引文件。
具体实施方式
下面结合附图和具体实施例对本发明加以说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
发明人在研究中认识到,采用数据上传云服务器的帕金森症辅助诊断方式存在多方面的负面影响,包括:第一,被诊断者的音视频对话数据有比较强的隐私性,数据上传容易造成数据泄露或数据滥用,极有可能侵犯个人的隐私;第二,通过音视频数据上传,会占用带宽并存在很大的延时,这将造成疾病诊断的响应速度降低;第三,面对音视频分析的大规模数据处理,云服务器并发处理的可靠性低。
为解决以上技术问题,本发明提出了一种基于边缘计算的帕金森症辅助诊断系统,包括帕金森疾病诊断终端和提供边缘计算诊断服务的边缘端。通过终端与边缘端通信,可以实现低延时,高稳定性,隐私数据本地化的帕金森症辅助诊断,可完成大范围的帕金森疾病筛查工作,并能够通过本地训练不断提高帕金森症辅助诊断的准确率。本发明将边缘计算引入帕金森症辅助诊断,通过本地AI服务的方式实现快速、低功耗、隐私保护的帕金森病辅助诊断。
根据本发明的一个实施例,系统整体架构如图1所示,包括终端、边缘端与云服务器三部分,构建了一种基于边缘计算的帕金森症辅助诊断系统。
终端包括触摸大屏,音频视频采集装置,音频播放装置,第一数据存储装置,第一数据传输装置,数据标注装置以及第一网络通信装置。其中,触摸大屏用于人机交互;音视频采集装置用于采集用户面部视频及语音对话;音频播放装置用于语音引导与结果报告;数据存储装置用于存储所采集的音视频数据;数据传输装置用于向边缘端传输数据;数据标注装置用于标注数据标签以扩充与优化训练数据;第一网络通信装置用于与云服务器通信。
本发明中,终端主要负责:数据采集,数据标注以及数据增量传输。以下介绍终端的各项职责。
数据采集:终端通过语音提示,引导使用者产生对话,采集对话时的面部视频信息以及声音信息,作为诊断帕金森疾病的多模态数据。使用者通过操作终端,按照终端的语音指示完成对话,对话过程中的音视频数据将被记录,其生成的音视频数据为五段视频,前两段为使用者正常表情讲话的音视频、中间一段为微笑视频、最后两段为微笑讲话的音视频。该音视频数据包括使用者的表情管理的对比信息、面部运动信息、声音语调信息以及声音与面部动作的关联关系。通过设计音视频多模态融合的人工智能算法挖掘音视频数据中包含的上述信息,诊断其患有帕金森症的风险。
数据标注:终端将暂时存放未标注的音视频数据,管理人员可进入终端的数据标注页面根据参与者的原有病例信息或音视频数据判别是否患有帕金森疾病,并给予数据正确标签。可选的,可以选择自动标注功能。使用自动标注功能时,将以未标注数据作为辅助诊断算法的输入数据,自动调用边缘端的诊断推理服务,将未标注数据通过现有模型的诊断结果,自动给出建议的标签。
数据增量传输:在采集音视频数据后,其数据文件保存在终端存储中,在完成数据标注后,需要将标注完的结果传输到边缘端,作为新一轮模型训练的数据集。数据在终端中以文件存储的方式保存,以文件夹作为数据的标签。根据本发明的一个实施例,未标注文件存放在“nolabel”文件夹,标注后的帕金森患者数据存放在“parkinson”文件夹,标注后的正常使用者数据存放在“normal”文件夹。在终端使用文件夹的方式存放数据主要考虑到添加数据的灵活性,在模型训练初期,数据来源并非单纯来源于终端采集,还包括通过手机录像、网络视频裁剪等方式获取。在添加不同来源的训练数据时,只需要将数据按对应文件夹存放,即可通过终端同步到边缘。在防止终端到边缘端数据同步时出现重复传输数据,造成带宽占用、传输效率低的问题,采用增量式数据传输的方法。首先,在终端遍历数据存储的路径,建立本地数据索引列表,保存在内存中。然后通过调用边缘端文件元信息查询的服务,获取边缘端数据索引列表,保存在内存中。最后建立了索引列表的对比分析算法,针对每一个类别的数据筛选出终端相较于边缘端新增的数据和删除的数据,根据两者对比的增删差异进行数据的增量传输。
以上对终端的结构及其职责进行了说明,以下说明边缘端。
根据本发明的一个实施例,边缘端为ARM处理器的嵌入式设备,是具有大规模数据计算能力的智能设备,其中,负责边缘计算的核心硬件为GPU,能够以30瓦功耗在嵌入式模块上获得GPU工作站的性能。边缘端在本方案中用于运行疾病诊断的算法,并提供模型训练、模型推理、数据存储、数据规整等服务。边缘端接收交互终端采集的音视频数据以及诊断请求。边缘端在收到疾病诊断请求后,对音视频数据进行规整,将规整后的数据输入疾病诊断算法推理获得患病风险。目前,常规的边缘计算通常是在GPU服务器训练模型,然后将模型部署到边缘端,实现边缘端的推理服务。这一类边缘计算难以实现模型的快速优化更新、同时涉及数据反复拷贝与部署过程的代码修改。为了解决边缘计算模型更新迭代的问题,本发明中实现了在边缘端进行模型训练,在训练后无需修改部署代码即可实现推理服务发布。
边缘端包括第二数据传输装置,数据管理装置,第二数据存储装置,数据规整装置,神经网络运算装置以及第二网络通信装置。第二数据传输装置用于接收音视频数据与传回诊断结果;数据管理装置用于增量式添加传入的音视频数据用于作为训练数据;第二数据存储装置用于存储音视频数据及规整结果;数据规整装置用于对音视频数据进行规整;神经网络运算装置用于训练与预测帕金森症患病概率。
本发明中边缘端主要负责:数据管理服务,音视频多模态信息规整,神经网络模型训练与神经网络模型推理服务。以下说明边缘端提供的各项服务。
边缘端的数据管理服务:采用对象存储的方式进行数据管理。根据本发明的一个实施例,对象存储基于MinIO实现。MinIO是一个基于Apache License v2.0开源协议的对象存储服务,兼容亚马逊S3云存储服务接口,非常适合于存储大容量非结构化的数据,例如图片、视频、日志文件、备份数据和容器/虚拟机镜像等,而一个对象文件可以是任意大小,从几kb到最大5T不等。MinIO是一个非常轻量的服务,可以很简单地和其他应用结合。通过引入对象存储,开放多模态数据增删查服务,可通过调用边缘端API实现多模态数据的增删查,并实现数据的web管理服务。本发明还建立了多模态数据存储组织形式:不同的终端数据使用不同的“桶”存放。在一个“桶”中原始数据在对象存储中以其标签作为路径标识,如“datasets/normal/1.mp4”,规整后的数据为pkl类型,其内容为一个python字典变量,包括音频特征和视频特征两个字段。存放在对象存储以“feature”为路径标识,如“datasets/feature/train/normal/1.pkl”。同时建立规整数据的索引文件“feature.csv”,其内容包括数据名、在对象存储中的路径、标签等数据元信息。本发明中的多模态数据存储组织形式的优点在于:
1.使用对象存储方式引入“桶”的概念,可以实现多个终端的数据存储,同时在存储原始数据时可以带入元信息,如使用者的姓名、年龄、联系方式等信息。
2.可灵活添加其他多模态数据,例如,除音视频数据外,另外加入运动传感器数据,无需改动数据结构,仅需在规整后的pkl文件中添加新的字段并保存新的模态数据。
3.通过索引文件保存所有数据的元信息,在训练模型时无需遍历或加载所有数据到内存,只需加载索引文件按需加载数据。
边缘端的音视频多模态数据规整:在模型训练前,需要进行数据规整,将音视频数据处理成为规范化矩阵数据。数据规整过程涉及人脸检测与音频特征提取,其过程比较耗时。为了解决人脸检测算法耗时问题,根据本发明的一个实施例,本发明在嵌入式设备上实现了基于TensorRT加速的人脸检测算法,TensorRT是一种神经网络推理的加速工具。为了防止重复对原有数据进行数据规整,根据本发明的一个实施例,本发明在边缘端实现了增量数据规整。音视频原始数据存放于边缘端的对象存储的指定路径中,并生成索引文件记录数据规整后的元信息。在进行数据规整时,本发明解决了异常数据的规整问题,提升数据规整的鲁棒性。在数据规整时需要提取连续时间的人脸数据,然而部分视频中人脸存在侧脸或遮挡,导致算法无法正确检测,本发明中对少量人脸缺失数据进行鲁棒性处理,对于缺失帧数少于5张的视频采用复制前帧的方式生成人脸数据、对人脸缺失帧数严重的数据进行排除,并建立无效数据索引文件“bad.csv”,在后续数据的传输中排除终端上的异常数据。
边缘端的神经网络模型的训练:
训练过程需要从对象存储获取训练数据的索引文件,按照索引文件按需加载数据。
构建适合在ARM架构边缘端训练的多输入卷积神经网络,同时处理时序人脸数据与时序语音信息,在特征层实现音频特征与视频特征的融合分析。
为了实现在嵌入式设备上快速运行神经网络的训练,根据本发明的一个实施例,本发明引入mobilenet中深度可分离卷积神经网络结构,将标准卷积转化为深度卷积+逐点卷积,提高神经网络的运行效率。
根据本发明的一个实施例,使用3D卷积神经网络处理人脸数据,提取与时间关联的视频特征。在视频特征提取部分,构建卷积核大小为3*3*3的3D深度可分离卷积神经网络,其结构为:3*3*3的深度卷积+BN层+ReLU激活函数+1*1*1的点卷积核+BN层+ReLU激活函数+3D Max Pooling,用于替代传统卷积3*3*3卷积+BN+ReLU激活函数+3D Max Pooling。在视频特征提取部分重复进行4次上述3D深度可分离卷积神经网络结构,将特征展成1维向量,然后加入全连接层,产生长度为512维的视频特征。
根据本发明的一个实施例,对于音频特征提取部分,本发明构建了2D卷积神经网络结构,其中同样建立了2D深度可分离卷积神经网络,其结构为3*3的深度卷积+BN层+ReLU激活函数+1*1的点卷积核+BN层+ReLU激活函数+2D Max Pooling,用于替代传统卷积3*3卷积+BN+ReLU激活函数+2D Max Pooling。在音频特征提取部分重复4次上述2D深度可分离卷积神经网络结构,将特征展成1维向量,然后加入全连接层,产生长度为512维的音频特征。
根据本发明的一个实施例,在音频特征与视频特征维度变换至相同后,使用加联合的方式,将对应维度的特征数值相加,融合两种模态数据。然后添加3层全连接分类网络,最终输出二类分类的结果。
训练完成后通过验证集评估结果,筛选最佳模型,加入模型版本库,建立模型版本库与数据索引、数据规整结果的版本化控制。
边缘端的神经网络模型的推理服务:在边缘设备上完成模型训练后可以发布最优模型推理服务,终端可调用推理API实现数据推理,获取诊断结果。根据本发明的一个实施例,本发明通过使用TensorFlow Serving工具实现模型发布服务。Tensorflow Serving是Google开源的一个服务系统,可以直接将训练好的模型上线并提供服务,不需要修改部署代码。因为模型使用挂载的方式,对同一模型的不同版本,TensorFlow Serving自动刷新选择最新的模型版本,更新版本也不需要重启服务。在本发明中,边缘端提供的推理服务,主要由docker容器组合实现,涉及到的docker镜像有对象存储服务、多模态数据规整、神经网络训练、神经网络推理服务发布。使用镜像方式有利于各个功能模块的解耦合,同时实现快速部署。
以上说明了边缘端的构成及其提供的服务,以下说明云服务器。
根据本发明的一个实施例,帕金森症辅助诊断系统结合云服务器运行。云服务器不进行大规模计算,主要进行终端和边缘端的状态监控、数据元信息统计、数据与模型版本控制。以下说明云服务器的各项服务。
状态监控:云服务器可以监控终端设备状态,如软件版本号,终端本地数据量,未标注数据量,是否成功连接边缘端等信息。同时云服务器也对边缘端进行状态监控,如边缘端CPU占用率、GPU显存占用率、内存占用率等硬件信息。
数据元信息统计:云服务器可以统计数据的元信息,但不存储原始数据。在完成一次数据更新时,边缘端向云服务器发出通知,云服务器接收到文件变动的消息通知后进行元信息的数据统计,元信息包括:数据名称;数据在对象存储的路径;被测者的用户信息;信息模态类型,例如音频、视频。
数据与模型版本控制:在进行边缘神经网络训练时,数据与模型权重是一一对应的,云服务器实现了边缘端的数据与模型的版本控制。在完成一次训练后,在边缘端保存元信息文件、对应规整后的数据、对应训练后的模型,形成一个训练版本。在连接云服务器时,向云服务器发送元信息文件与对应训练后的模型,在云服务器实现训练版本控制。同时可以通过云服务器指定用于推理的模型,当边缘端存在该模型时直接进行推理服务发布,当边缘端无该模型时由云服务器下发模型后再进行推理服务发布。
本发明还提供一种基于以上系统的帕金森症辅助诊断方法,图2示出了根据本发明一个实施例的基于上述系统的辅助诊断方法的流程图,其中,包括终端100和边缘端200,终端100的包括用户界面121和数据标注界面122,数据界面121中包括信息展示窗口、推理按钮、采集按钮,数据标注界面122中包括数据标注按钮和推送按钮。边缘端200包含数据规整、模型训练和模型推理3个服务。图2中的虚线箭头示出了训练时的数据流转,实线箭头示出了推理时的数据流转。
根据本发明的一个实施例,该方法包括以下步骤:
1.数据采集阶段
在交互终端上,用户点击采集数据按键,根据本发明的一个实施例,终端通过以下语音提醒用户做动作,并采集音视频数据:
1)请告诉我您的名字;
2)请告诉您的年龄;
3)请正视摄像头并保持微笑;
4)请微笑告诉我您的名字;
5)请微笑告诉我您的年龄
用户按照语音提示完成相关动作后,终端的数据采集模块将采集到5段分离的音视频,将分离的音视频进行拼接,生成一个完整的视频文件。该视频文件没有被标注,作为无标签数据存储在终端存储中。
2.数据标注阶段
1)在交互终端上,由医务人员进行数据标注。通过查看用户的基本信息以及病例信息,结合所采集数据,给出是否患有帕金森症的数据标注。
2)在交互终端上,可选的,使用自动标注功能,通过现有模型自动对未标注数据进行分类,由医务人员二次确认后加入训练集。
3)在交互终端上,完成标注后,点击推送按钮,进行终端数据与边缘端数据同步。其同步过程使用本发明中设计的增量数据传输方式:在终端建立数据索引,并从边缘端获取数据索引,对比分析数据变更,将变更数据及对应元信息同步到边缘端,并在边缘端创建新的数据索引。
4)在边缘端,使用对象存储方式存储原始数据、数据索引及传入的数据元信息。开启数据增删查API接口,并开启web数据管理服务,其中web服务由MinIO对象存储工具实现,可以通过访问网页实现对象存储中数据的增删查。
3.数据规整阶段
1)从对象存储中读取原始数据,将原始视频拆分为音频与视频两部分,分别对两部分数据进行数据规整,获得可以用于训练与推理的规范化数据。
2)对于视频数据,获取视频帧中的人脸信息,对视频帧进行人脸检测。本发明在ARM架构上使用TensorRT加速了MTCNN人脸检测算法,MTCNN算法是一种基于深度学习的人脸检测和人脸对齐方法,它可以同时完成人脸检测和人脸对齐的任务,相比于传统的算法,它的性能更好,检测速度更快。在常用的方法中,通常使用TensorFlow加载MTCNN模型实现人脸检测过程,该方法在嵌入式边缘设备上运行的效率较低,影响数据规整的效率。本发明引入TensorRT加速方案,在具体实施过程中解决了跨编程语言的调用的问题:由于TensorRT仅支持C++接口,因此MTCNN的加速逻辑使用C++实现,数据规整流程由python实现。为实现python调用MTCNN加速逻辑,额外实现了python的调用接口并在ARM平台交叉编译产生动态库,最终实现在ARM平台的人脸检测算法加速。另外本发明对人脸缺失数据进行鲁棒性处理,对于缺失少量人脸的数据进行填充,产生有效数据,对于严重缺失的数据进行排除。
3)对于音频数据,本发明提取了fbank与mfcc两种语音处理中的常用特征。获得语音信号的fbank特征的一般步骤是:预加重、分帧、加窗、短时傅里叶变换(STFT)、mel滤波、去均值等。对fbank做离散余弦变换(DCT)即可获得mfcc特征。经过实验,fbank特征与mfcc特征拼接组合对于帕金森疾病诊断的准确率提升有重要意义。
4)将规整后的多模态数据导出,建立索引,通过对象存储方式存储规整结果。本发明建立了一种多模态数据索引式对象存储的范式,可以此范式添加其他多模态数据。所述范式:在对象存储中,由csv文件存储索引信息,其内容包括多条数据的基本信息,其基本信息为包括但不限于文件名、标签、数据存储位置。其中数据存储位置指向多模态数据导出的pkl文件在对象存储中的位置。pkl文件是python对象保存在硬盘驱动器上的二进制文件,由pickle工具实现文件的导出与读入。pickle用于序列化和反序列化Python对象结构,序列化是指将内存中的对象转换为可以存储在磁盘上或通过网络发送的字节流的过程。之后,这个字符流可以被检索并将其反序列化回Python对象。
4.模型训练阶段
1)从对象存储中读取规范数据索引,根据数据索引构建数据加载迭代器,在训练过程中按需读取各个批次的训练数据。
2)本发明在ARM架构上实现多输入卷积神经网络的训练,通过构建多输入神经网络结构,实现多模态数据的融合分析,学习音视频数据在对应时域的关联关系,提高神经网络的准确性。
3)训练时自动根据验证集评估模型,保留最优模型,其实现过程如下:将训练集1:1的比例随机拆分为训练集,在训练时设置的训练总epoch数为40,在每个训练epoch后,在验证集上验证模型的准确率,将最优模型保存为文件,同时记录最优模型的验证准确率。在完成一次训练后在边缘端保存元信息文件、对应规整后的数据、对应训练后的模型,形成一个训练版本,实现数据与模型的版本控制。
4)向云服务器推送模型版本、训练数据元信息版本,实现资源预览及版本管理。在连接云服务器时向云服务器发送元信息文件与对应训练后的模型,在云服务器实现训练版本控制。
5.诊断推理阶段
1)从对象存储中读取待推理规范数据索引,根据数据索引构建数据加载迭代器,在推理过程中按需读取各个批次的待推理数据。
2)本发明实现ARM架构上的多输入卷积神经网络模型发布,通过使用TensorFlowServing工具实现模型发布服务,可以直接将训练好的模型上线并提供服务,不需要修改部署代码,不需要重启服务,提供灵活的推理服务。
3)通过云服务器查看边缘端数据版本与模型版本,同时可以通过云服务器指模型进行部署。在云服务器上指定一个推理模型时,当边缘端存在该模型时直接进行推理服务发布,当边缘端无该模型时由云服务器下发模型后再进行推理服务发布。
6.用户使用阶段
用户在使用本系统时,其操作过程如下:
1)在交互终端上点击采集按钮,经历以上数据采集阶段;
2)在交互终端上,用户点击推理按钮,终端将采集到的视频文件通过数据传输装置传输到边缘端的数据存储装置。随后终端发起数据数据分析请求并等待数据分析结果的传回;
3)在边缘设备上,对于新增数据经历以上数据规整阶段;
4)在边缘设备上,经历以上诊断推理阶段,并传回诊断结果;
5)在交互终端上,接收诊断结果,通过语音播报或诊断报告的形式导出相应的诊断信息。
为了验证本发明的可行性与有效性,发明人建立了基于边缘计算的帕金森症辅助诊断最小系统,包括终端与边缘端,终端与边缘端的基本配置如表1:
表1终端和边缘端硬件配置
Figure BDA0003133736390000131
1、环境部署
将终端与边缘端置于统一局域网环境中,在终端上安装帕金森症辅助诊断终端应用程序。
在边缘端部署帕金森症辅助诊断边缘计算服务,服务以多个功能独立的docker镜像实现,其中包括MinIO数据对象存储镜像、音视频多模态数据规整镜像、多模态神经网络训练镜像、以及TensorFlow Serving推理镜像。各个镜像通过http协议互联,使用dockercompose实现多个镜像的相互依赖关系以及服务的启停。
2、数据准备
在终端采集200条音视频数据,其中包括帕金森症确诊患者数据100条;正常者对照组数据100条。在终端完成标注工作,并同步到边缘端。边缘端通过对象存储方式存放标注后的原始数据。边缘端提供web数据管理服务,可通过web数据管理服务查看原始数据。
图3示出了本发明一个实施例中,在边缘端通过web端查看的原始数据。在web页面显示的数据内容中,上方路径为正在预览的数据在对象存储中的路径,下方列表展示了部分原始数据。datasets/parkinson存放原始帕金森患者数据;datasets/normal存放原始正常使用者数据。其中,“uict1”为对象存储的桶名,对应一个终端的上传结果。原始的帕金森数据存储在uict1/datasets/parkinson/路径下,文件前缀为“PD”,表示帕金森症,文件的后缀为“.mp4”,表示原始录制的文件格式是mp4。原始的对照组数据存储在uict1/datasets/normal/路径下,文件前缀为“CS”,表示对照组,后缀为“.mp4”,表示原始录制的文件格式是mp4。
完成原始数据准备后,通过调用边缘端多模态数据规整服务接口,可将原始数据规整成为音频和视频特征,并将规整结果存储为pkl文件。同时更新csv索引文件,使边缘设备在模型训练时能够按照索引按需加载训练数据。图4示出了本发明一个实施例的多模态数据规整结果,其中,对照组数据规整结果存储在uict1/datasets/feature/train/normal/路径下,文件名前缀为“CS”,文件后缀为“pkl”。帕金森数据规整结果存储在uict1/datasets/feature/train/parkinson/路径下。图4中数据规整结果与原始数据相同存储在“uict1”桶中,规整的结果保存为pkl文件,分别存放在datasets/feature/train/parkinson与datasets/feature/train/normal中。
图5示出了本发明一个实施例的规整数据的对象存储索引文件。规整数据的对象存储索引文件包括id,Filename,Path,Label字段,其中,id字段记录唯一标识,Filename字段记录文件名称,Path字段记录规整后的数据在对象存储中的路径,可通过该路径按需访问数据,Label字段存储数据的标签信息,根据本发明的一个实施例,该标签信息包括正常和患病两种标签,用0表示正常,用1表示患病。根据本发明的另外一个实施例,该标签信息包括正常、帕金森症轻度、帕金森症中度、帕金森症重度,分别用0表示正常,用1表示帕金森症轻度,用2表示帕金森症中度,用3表示帕金森症重度。数据索引包括id,Filename,Path,Label字段,其中Path字段指向规整后的数据在对象存储中的路径,可按需访问数据;Label字段存储该数据的标签信息。读取索引后,可以从Path字段按需读取具体数据。
3、模型训练
将规整后的数据按照训练集与验证集1:1的比例进行随机分割。分别使用单视频输入卷积神经网络、单音频输入卷积神经网络以及融合音视频的多模态卷积神经网络进行模型训练,训练超参数:批次大小batch size=8,训练循环次数epoch=40,优化器类型optimizer=rmsprop,学习率learnrate=0.01,在验证集上验证,获得实验结果如表2:
表2实验结果及比较
Figure BDA0003133736390000151
从表2可知,融合双通道的模型的准确率达到78.5%,本发明提出的多模态融合的卷积神经网络,在疾病诊断的准确性方面,相较于单输入数据分析有大幅提升。
4、模型部署
完成训练后,在边缘端自动发布服务,无需修改任何代码,实现更新模型时保持连续诊断服务。
5、终端测试
在终端界面点击采集按钮,按照语音提示完成音视频数据采集,点击推理按钮,将数据自动同步到边缘设备,自动触发数据规整,产生多模态数据。数据规整完成后自动调用推理服务,获得单条数据的推理结果,传回终端。终端获取诊断结果后进行结果显示,并给出语音提示。
本发明通过终端与边缘端通信,可以实现低延时,高稳定性,隐私数据本地化的帕金森症辅助诊断。可完成大范围的帕金森症筛查工作,并能够通过本地训练不断提高帕金森症辅助诊断的准确率。
应该注意到并理解,在不脱离后附的权利要求所要求的本发明的精神和范围的情况下,能够对上述详细描述的本发明做出各种修改和改进。因此,要求保护的技术方案的范围不受所给出的任何特定示范教导的限制。

Claims (10)

1.基于边缘计算的帕金森症辅助诊断系统,包括:终端、边缘端,其中,
所述终端用于数据采集,数据标注以及数据增量传输;
所述边缘端用于接收所述终端采集的音视频数据以及诊断请求,提供音视频数据规整服务、数据管理服务、神经网络模型训练以及神经网络模型推理服务;所述边缘端包括神经网络运算装置,所述神经网络运算装置用于训练模型与预测帕金森症患病概率。
2.根据权利要求1所述的系统,所述模型基于重复4次的3D深度可分离卷积神经网络提取视频特征,所述3D深度可分离卷积神经网络包括:3*3*3的深度卷积核,第一BN层,第一ReLU激活函数,1*1*1的点卷积核,第二BN层,第二ReLU激活函数,3D最大池化层。
3.根据权利要求1所述的系统,所述模型基于重复4次的2D深度可分离卷积神经网络提取音频特征,所述2D深度可分离卷积神经网络包括3*3的深度卷积核,第三BN层,第三ReLU激活函数,1*1的点卷积核,第四BN层,第四ReLU激活函数,2D最大池化层。
4.根据权利要求1所述的系统,所述终端包括触摸屏、音视频采集装置、音频播放装置、第一数据存储装置、第一数据传输装置、数据标注装置;
所述触摸屏用于人机交互,包括获取开始采集音视频数据的指令;
所述音视频采集装置用于根据所述开始采集音视频数据的指令采集用户面部视频及语音数据;
所述音频播放装置用于根据所述开始采集音视频数据的指令,播放预置的引导语音,以引导使用者做出面部表情和发出语音;
所述第一数据存储装置用于存储所述用户面部视频及语音数据;
所述第一数据传输装置用于向所述边缘端传输所述用户面部视频及语音数据;
所述数据标注装置用于对所述用户面部视频及语音数据标注数据标签;
所述边缘端包括第二数据传输装置,数据管理装置,第二数据存储装置,数据规整装置;
所述第二数据传输装置用于接收所述终端发送的音视频数据以及向所述终端返回诊断结果;
所述数据管理装置用于增量式添加音视频数据;
所述第二数据存储装置用于存储音视频数据及规整结果;
所述数据规整装置用于对音视频数据进行规整。
5.根据权利要求4所述的系统,还包括云服务器,所述云服务器用于监控所述终端和所述边缘端的状态、数据元信息统计、数据版本控制、模型版本控制以及指定推理服务模型;所述终端还包括第一网络通信装置,用于与所述云服务器通信;所述边缘端还包括第二网络通信装置,用于与所述云服务器通信。
6.根据权利要求4所述的系统,所述边缘端的第二存储装置基于对象存储管理音视频数据,所述对象存储包括python字典变量,所述python字典变量包括包括音频特征和视频特征两个字段;所述对象存储中还包括规整数据的索引文件,所述规整数据的索引文件包括音视频数据名、音视频数据在对象存储中的路径以及标签信息。
7.根据权利要求6所述的系统,所述终端基于本地数据索引与边缘端数据索引的比较结果,将变更数据及其对应的元信息同步到边缘端,所述边缘端根据同步数据更新数据索引。
8.一种利用权利要求1所述系统的帕金森症的辅助诊断方法,包括:
步骤1,基于所述终端采集使用者按照终端指示所完成对话的音视频数据;
步骤2,所述边缘端根据规整后的所述终端传送的使用者的音视频数据,基于预先训练的模型进行帕金森症辅助诊断。
9.一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现根据权利要求8所述方法的步骤。
10.一种计算机设备,包括存储器和处理器,在所述存储器上存储有能够在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求8所述方法的步骤。
CN202110710940.XA 2021-06-25 2021-06-25 基于边缘计算的帕金森症辅助诊断系统和方法 Active CN113241175B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110710940.XA CN113241175B (zh) 2021-06-25 2021-06-25 基于边缘计算的帕金森症辅助诊断系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110710940.XA CN113241175B (zh) 2021-06-25 2021-06-25 基于边缘计算的帕金森症辅助诊断系统和方法

Publications (2)

Publication Number Publication Date
CN113241175A true CN113241175A (zh) 2021-08-10
CN113241175B CN113241175B (zh) 2023-10-27

Family

ID=77140874

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110710940.XA Active CN113241175B (zh) 2021-06-25 2021-06-25 基于边缘计算的帕金森症辅助诊断系统和方法

Country Status (1)

Country Link
CN (1) CN113241175B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113729715A (zh) * 2021-10-11 2021-12-03 山东大学 一种基于手指压力的帕金森病症智能诊断系统
CN115881295A (zh) * 2022-12-06 2023-03-31 首都医科大学附属北京天坛医院 帕金森症状信息检测方法、装置、设备和计算机可读介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107529645A (zh) * 2017-06-29 2018-01-02 重庆邮电大学 一种基于深度学习的心音智能诊断系统及方法
CN110313923A (zh) * 2019-07-05 2019-10-11 昆山杜克大学 基于联合注意能力测试和音视频行为分析的孤独症早期筛查系统
CN111553899A (zh) * 2020-04-28 2020-08-18 湘潭大学 一种基于音视频的帕金森非接触式智能检测方法及系统
CN111833878A (zh) * 2020-07-20 2020-10-27 中国人民武装警察部队工程大学 基于树莓派边缘计算的中文语音交互无感控制系统和方法
WO2020246649A1 (ko) * 2019-06-07 2020-12-10 엘지전자 주식회사 엣지 컴퓨팅 디바이스에서 음성 인식 방법
WO2021003681A1 (en) * 2019-07-09 2021-01-14 LUI, Yat Wan Method and system for neuropsychological performance test
CN112732450A (zh) * 2021-01-22 2021-04-30 清华大学 端-边-云协同框架下的机器人知识图谱生成系统及方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107529645A (zh) * 2017-06-29 2018-01-02 重庆邮电大学 一种基于深度学习的心音智能诊断系统及方法
WO2020246649A1 (ko) * 2019-06-07 2020-12-10 엘지전자 주식회사 엣지 컴퓨팅 디바이스에서 음성 인식 방법
CN110313923A (zh) * 2019-07-05 2019-10-11 昆山杜克大学 基于联合注意能力测试和音视频行为分析的孤独症早期筛查系统
WO2021003681A1 (en) * 2019-07-09 2021-01-14 LUI, Yat Wan Method and system for neuropsychological performance test
CN111553899A (zh) * 2020-04-28 2020-08-18 湘潭大学 一种基于音视频的帕金森非接触式智能检测方法及系统
CN111833878A (zh) * 2020-07-20 2020-10-27 中国人民武装警察部队工程大学 基于树莓派边缘计算的中文语音交互无感控制系统和方法
CN112732450A (zh) * 2021-01-22 2021-04-30 清华大学 端-边-云协同框架下的机器人知识图谱生成系统及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XINLONG JIANG ET AL.: "《WeDA: Designing and Evaluating A Scale-driven Wearable Diagnostic Assessment System for Children with ADHD》", 《CHI \'20: PROCEEDINGS OF THE 2020 CHI CONFERENCE ON HUMAN FACTORS IN COMPUTING SYSTEMS》, pages 1 - 12 *
张腾等: "《基于腕部姿态的帕金森病用药后开-关期检测》", 《 浙江大学学报(工学版)》, vol. 55, no. 4, pages 639 - 647 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113729715A (zh) * 2021-10-11 2021-12-03 山东大学 一种基于手指压力的帕金森病症智能诊断系统
CN115881295A (zh) * 2022-12-06 2023-03-31 首都医科大学附属北京天坛医院 帕金森症状信息检测方法、装置、设备和计算机可读介质
CN115881295B (zh) * 2022-12-06 2024-01-23 首都医科大学附属北京天坛医院 帕金森症状信息检测方法、装置、设备和计算机可读介质

Also Published As

Publication number Publication date
CN113241175B (zh) 2023-10-27

Similar Documents

Publication Publication Date Title
JP2022537170A (ja) 認知ビデオおよび音声検索集約
CN113241175B (zh) 基于边缘计算的帕金森症辅助诊断系统和方法
US11942075B2 (en) System and method for automated digital twin behavior modeling for multimodal conversations
CN112509690B (zh) 用于控制质量的方法、装置、设备和存储介质
US10652454B2 (en) Image quality evaluation
KR20210001419A (ko) 면접 컨설팅 서비스를 제공하기 위한 사용자 단말, 시스템 및 방법
CN112699758B (zh) 动态手势识别的手语翻译方法、装置、计算机设备及介质
US11257571B2 (en) Identifying implied criteria in clinical trials using machine learning techniques
CN114268747A (zh) 基于虚拟数字人的访谈业务处理方法及相关装置
US20240053307A1 (en) Identifying Repetitive Portions of Clinical Notes and Generating Summaries Pertinent to Treatment of a Patient Based on the Identified Repetitive Portions
CN115994212B (zh) 视觉问答处理方法、视觉问答模型的训练方法及装置
US10540440B2 (en) Relation extraction using Q and A
WO2020197942A1 (en) Measuring and increasing the quality of user-provided information
US20190333612A1 (en) Identifying Repetitive Portions of Clinical Notes and Generating Summaries Pertinent to Treatment of a Patient Based on the Identified Repetitive Portions
US11631488B2 (en) Dialogue generation via hashing functions
Zhao et al. Multimodal sentiment system and method based on CRNN-SVM
US11163822B2 (en) Emotional experience metadata on recorded images
US11475335B2 (en) Cognitive data preparation for deep learning model training
Liu et al. Stone needle: A general multimodal large-scale model framework towards healthcare
US10579728B2 (en) Hidden cycle evidence booster
US11295084B2 (en) Cognitively generating information from videos
CN113327657B (zh) 病例报告生成方法、装置、电子设备以及存储介质
CN116821381B (zh) 一种基于空间线索的语音-图像跨模态检索方法及装置
US20230214357A1 (en) Context aware file naming conventions
US20230376968A1 (en) Digital enrollment systems and methods

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant