CN112617755A - 言语功能障碍检测方法、装置、设备、存储介质及系统 - Google Patents
言语功能障碍检测方法、装置、设备、存储介质及系统 Download PDFInfo
- Publication number
- CN112617755A CN112617755A CN202011582090.1A CN202011582090A CN112617755A CN 112617755 A CN112617755 A CN 112617755A CN 202011582090 A CN202011582090 A CN 202011582090A CN 112617755 A CN112617755 A CN 112617755A
- Authority
- CN
- China
- Prior art keywords
- speech dysfunction
- detection
- speech
- audio
- dysfunction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/48—Other medical applications
- A61B5/4803—Speech analysis specially adapted for diagnostic purposes
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/0059—Measuring for diagnostic purposes; Identification of persons using light, e.g. diagnosis by transillumination, diascopy, fluorescence
- A61B5/0077—Devices for viewing the surface of the body, e.g. camera, magnifying lens
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/40—Detecting, measuring or recording for evaluating the nervous system
- A61B5/4058—Detecting, measuring or recording for evaluating the nervous system for evaluating the central nervous system
- A61B5/4064—Evaluating the brain
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7235—Details of waveform analysis
- A61B5/7264—Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
- A61B5/7267—Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems involving training the classification device
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Veterinary Medicine (AREA)
- Pathology (AREA)
- Biomedical Technology (AREA)
- Heart & Thoracic Surgery (AREA)
- Medical Informatics (AREA)
- Molecular Biology (AREA)
- Surgery (AREA)
- Animal Behavior & Ethology (AREA)
- General Health & Medical Sciences (AREA)
- Public Health (AREA)
- Biophysics (AREA)
- Neurology (AREA)
- Artificial Intelligence (AREA)
- Physiology (AREA)
- Psychology (AREA)
- Neurosurgery (AREA)
- Evolutionary Computation (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Psychiatry (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本发明适用于计算机技术领域,提供了一种言语功能障碍检测方法、装置、设备、存储介质及系统,所述方法包括:获取应答音频信号以及口型变换视频;对所述应答音频信号与口型变换视频进行特征提取;根据言语功能障碍音频检测模型以及言语功能障碍图像检测模型分别对特征提取的应答音频信号以及口型变换视频进行处理,得到言语功能障碍音频检测结果与言语功能障碍视频检测结果,并进一步确定言语功能障碍检测结果。本发明提供的言语功能障碍检测方法利用人工智能检测取代人工检测,解决了现有言语功能障碍检测方法依赖于人工参与的问题,并且采用两种规则分别从应答音频与口型变换的角度对言语功能障碍进行检测,并综合判断,实际检测效果准确率高。
Description
技术领域
本发明属于计算机技术领域,尤其涉及一种言语功能障碍检测方法、装置、设备、存储介质及系统。
背景技术
言语功能障碍通常是指人体在说话或表达方面出现一定程度的问题,通常情况下是基于不同的脑部病理原因导致的,主要包括失语症、构语困难、言语困难、口吃等症状。
现有的大所述言语功能障碍通常都是患者与医生对话,医生根据与患者的沟通情况确定患者可能存在的言语功能障碍,在必要的时候还需要结合脑部CT所表征出的病理。然而,这样的言语功能障碍检测需要依赖于医生的经验,此外,大部分言语功能障碍患者通常都具有自闭倾向,面对面与人沟通时往往会存在不同的表现,这也侧面加重了医生判断的难度,导致言语功能障碍检测效率低,效果差。
可见,现有的言语功能障碍检测方法大所述都是基于人工判断的,容易受到外界因素的干扰,导致言语功能障碍检测效率低,效果差。
发明内容
本发明实施例的目的在于提供一种言语功能障碍检测方法,旨在解决现有的言语功能障碍检测方法所存在的容易受到外界因素的干扰,导致言语功能障碍检测效率低,效果差的技术问题。
本发明实施例是这样实现的,一种言语功能障碍检测方法,包括:
获取用户在言语功能障碍检测语句下的应答音频信号以及口型变换视频;
根据预设的音频特征提取模型对所述应答音频信号进行处理生成应答音频特征信息;
根据预设的视频特征提取模型对所述口型变换视频进行处理生成口型变换特征信息;
根据预设的言语功能障碍音频检测模型对所述应答音频特征信息进行处理,生成言语功能障碍音频检测结果;所述言语功能障碍音频检测模型是预先基于循环神经网络模型算法训练生成的;
根据预设的言语功能障碍图像检测模型对所述口型变换特征信息进行处理,生成言语功能障碍视频检测结果;所述言语功能障碍图像检测模型是预先基于卷积神经网络模型算法训练生成的;
根据所述言语功能障碍音频检测结果以及所述言语功能障碍视频检测结果确定言语功能障碍检测结果。
本发明实施例的另一目的在于提供一种言语功能障碍检测装置,包括
言语功能障碍检测信息获取单元,用于获取用户在言语功能障碍检测语句下的应答音频信号以及口型变换视频;
音频特征提取单元,用于根据预设的音频特征提取模型对所述应答音频信号进行处理生成应答音频特征信息;
视频特征提取单元,用于根据预设的视频特征提取模型对所述口型变换视频进行处理生成口型变换特征信息;
音频检测结果确定单元,用于根据预设的言语功能障碍音频检测模型对所述应答音频特征信息进行处理,生成言语功能障碍音频检测结果;所述言语功能障碍音频检测模型是预先基于循环神经网络模型算法训练生成的;
视频检测结果确定单元,用于根据预设的言语功能障碍图像检测模型对所述口型变换特征信息进行处理,生成言语功能障碍视频检测结果;所述言语功能障碍图像检测模型是预先基于卷积神经网络模型算法训练生成的;
言语功能障碍检测结果确定单元,用于根据所述言语功能障碍音频检测结果以及所述言语功能障碍视频检测结果确定言语功能障碍检测结果。
本发明实施例的另一目的在于提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如上述所述言语功能障碍检测方法的步骤。
本发明实施例的另一目的在于提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如上述所述言语功能障碍检测方法的步骤。
本发明实施例的另一目的在于提供一种言语功能障碍检测系统,包括如上述所述的言语功能障碍检测装置以及音频采集终端与图像采集终端;所述音频采集终端用于采集用户在言语功能障碍检测语句下的应答音频信号并发送给所述言语功能障碍检测装置;所述图像采集终端用于采集用户在言语功能障碍检测语句下的口型变换视频并发送给所述言语功能障碍检测装置。
本发明提供的言语功能障碍检测方法,是在机器学习的基础上先预选训练出可以对言语功能障碍进行检测的模型,并在无医师存在的场景下,输出言语功能障碍检测语句,并获取用户在言语功能障碍检测语句下的应答音频信号以及口型变换视频,然后根据预先训练好的模型分别对采集的应答音频信号与口型变换视频进行特征提取与障碍检测,分别得到应答音频的检测结果以及口型变换视频的检测结果,最终基于两者的检测结果综合来确定言语功能障碍。本发明提供的言语功能障碍检测方法,利用人工智能检测取代人工检测,解决了现有言语功能障碍检测方法依赖于人工参与而会对患者产生干扰的问题,并且采用两种规则分别从应答音频与口型变换的角度对言语功能障碍进行检测,并综合判断,实际检测效果准确率高。
附图说明
图1为本发明实施例提供的一种言语功能障碍检测方法的应用环境图;
图2为本发明实施例提供的一种言语功能障碍检测方法的步骤流程图;
图3为本发明实施例提供的一种对应答音频信号进行特征提取的步骤流程图;
图4为本发明实施例提供的一种对口型变换视频进行特征提取的步骤流程图;
图5为本发明实施例提供的另一种言语功能障碍检测方法的步骤流程图;
图6为本发明实施例提供的又一种言语功能障碍检测方法的步骤流程图;
图7为本发明实施例提供的一种言语功能障碍检测装置的结构示意图;
图8为本发明实施例提供的一种执行言语功能障碍检测方法的计算机设备的内部结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,为本发明实施例提供的一种言语功能障碍检测方法的应用环境图,具体也可以理解为一种言语功能障碍检测系统的结构示意图,详述如下。
在本发明实施例中,所述言语功能障碍检测系统包括言语功能障碍检测装置110、音频采集终端120以及图像采集终端130。
其中,所述音频采集终端120用于采集用户在言语功能障碍检测语句下的应答音频信号并发送给所述言语功能障碍检测装置110;所述图像采集终端130用于采集用户在言语功能障碍检测语句下的口型变换视频并发送给所述言语功能障碍检测装置110。
在本发明实施例中,所述音频采集终端120通常是指录音机、手机等能够将采集的声音信息转化为音频信号的终端,当然也可以是指运行于上述终端上的能够将采集的声音信息转化为音频信号的软件程序。同样的,所述图像采集终端130通常是指摄像机、手机等能够拍摄图像的终端,也可以是指运行于上述终端上的能够获取图像的软件程序。本发明对音频采集终端120以及图像采集终端130的具体结构不做限制。
在本发明实施例中,所述言语功能障碍检测装置110通常是指具有一定数据处理能力的中的硬件终端设备,例如手机、电脑等等,言语功能障碍检测装置110在获取到应答音频信号以及口型变换视频后,按照预设的言语功能障碍检测方法进行言语功能障碍检测,其中言语功能障碍检测方法的具体实现过程请参阅后续图2~图6的解释说明。
如图2所示,为本发明实施例提供的一种言语功能障碍检测方法的步骤流程图,该方法主要以运行于如图1所示出的言语功能障碍检测装置110上,具体包括以下步骤:
步骤S202,获取用户在言语功能障碍检测语句下的应答音频信号以及口型变换视频。
在本发明实施例中,所述言语功能障碍检测语句可以是预先基于声音播放终端产生的,可以无需人工的参与,解决了言语功能障碍患者会因为存在自闭而导致难以沟通的问题。
在本发明实施例中,应答音频信号以及口型变换视频是预先基于音频采集终端以及图像采集终端采集并通过无线或者有线的方式传输给言语功能障碍检测装置。
步骤S204,根据预设的音频特征提取模型对所述应答音频信号进行处理生成应答音频特征信息。
在本发明实施例中,所述应答音频信号通常含有噪音,且含有较多的冗余信息,在对应答音频信号进行识别之前通常需要从应答音频信号中提取出与言语功能障碍相关的特征信息以提高识别的准确率,其中具体实现对应答音频信号进行特征提取处理以生成应答音频特征信息的步骤请参阅图3及其解释说明。
步骤S206,根据预设的视频特征提取模型对所述口型变换视频进行处理生成口型变换特征信息。
在本发明实施例中,同样的,需要对口型变换视频进行处理提取出与言语功能障碍相关的特征信息以提高识别的准确率,其中具体实现对口型变换视频进行特征提取处理的步骤请参阅后续图4及其解释说明。
步骤S208,根据预设的言语功能障碍音频检测模型对所述应答音频特征信息进行处理,生成言语功能障碍音频检测结果。
在本发明实施例中,所述言语功能障碍音频检测模型是预先基于循环神经网络模型算法训练生成的。由于言语功能障碍患者的音频信号通常有着明显随时间变化的特征,因此采用能够识别出序列特征的循环神经网络模型算法来训练得到相关的言语功能障碍音频检测模型。
作为本发明的一个优选实施例,考虑到循环神经网络模型算法训练生成言语功能障碍音频检测模型需要大量的样本,而具有言语功能障碍的应答音频信号较难采集,样本数量少,难以得到判断结果准确率高的言语功能障碍音频检测模型,因此,可以预先对具有言语功能障碍的应答音频信号进行频率变换,并输出变换后的应答音频,利用人工标识存在的言语功能障碍,从而实现对样本的扩充。
步骤S210,根据预设的言语功能障碍图像检测模型对所述口型变换特征信息进行处理,生成言语功能障碍视频检测结果。
在本发明实施例中,所述言语功能障碍图像检测模型是预先基于卷积神经网络模型算法训练生成的。通过对口型变换视频中的特征图像进行识别,确定口型变换特征,从而确定出相应的言语功能障碍视频检测结果。
步骤S212,根据所述言语功能障碍音频检测结果以及所述言语功能障碍视频检测结果确定言语功能障碍检测结果。
在本发明实施例中,所述言语功能障碍音频检测结果以及言语功能障碍视频检测结果分别描述了用户存在各种言语功能障碍的概率,基于二者的综合,结合加权值,可以确定更加准确的最终言语功能障碍检测结果。
本发明提供的言语功能障碍检测方法,是在机器学习的基础上先预选训练出可以对言语功能障碍进行检测的模型,并在无医师存在的场景下,输出言语功能障碍检测语句,并获取用户在言语功能障碍检测语句下的应答音频信号以及口型变换视频,然后根据预先训练好的模型分别对采集的应答音频信号与口型变换视频进行特征提取与障碍检测,分别得到应答音频的检测结果以及口型变换视频的检测结果,最终基于两者的检测结果综合来确定言语功能障碍。本发明提供的言语功能障碍检测方法,利用人工智能检测取代人工检测,解决了现有言语功能障碍检测方法依赖于人工参与而会对患者产生干扰的问题,并且采用两种规则分别从应答音频与口型变换的角度对言语功能障碍进行检测,并综合判断,实际检测效果准确率高。
如图3所示,为本发明实施例提供的一种对应答音频信号进行特征提取的步骤流程图,具体包括以下步骤:
步骤S302,根据小波变换对所述应答音频信号进行降噪处理,生成降噪处理后的应答音频信号。
在本发明实施例中,在应答音频信号往往包含了背景等噪音信号,通过小波变化处理能够有效的对应答音频信号进行降噪处理。
步骤S304,确定所述应答音频信号的言语功能障碍音频检测关键信息。
在本发明实施例中,所述言语功能障碍音频检测关键信息至少包括音频持续时长、频率变化信息以及幅度变化信息,所述言语功能障碍音频检测关键信息是指与言语功能障碍音频检测关键信息高度关联的信息,例如口吃患者的音频持续时长较长,频率变化较缓慢,应答音频信号存在大量重复的相似结构,因此,将与言语功能障碍音频检测关键信息高度关联的信息提取出来可以有效提高后续言语功能障碍音频检测模型的检测效果。
步骤S306,按照预设的采样规则对所述应答音频信号进行采样,确定多个采样点的序列。
在本发明实施例中,对于存在不同言语功能障碍的患者,其在发出同样的应答信息时,应答音频信号往往不同,通过采集得到大量的序列采样点,可以表征出患者的发音特点。
步骤S308,根据所述言语功能障碍音频检测关键信息以及所述多个采样点的序列确定应答音频特征信息。
在本发明实施例中,将与言语功能障碍音频检测关键信息高度关联的信息与序列采样点结合所得到的应答音频特征信息更能描述患者发音特征,训练得到的言语功能障碍音频检测模型更佳。
如图4所示,为本发明实施例提供的一种对口型变换视频进行特征提取的步骤流程图,具体包括以下步骤:
步骤S402,根据预设的分帧规则对所述口型变换视频进行分帧处理生成多张口型变换图像。
在本发明实施例中,将口型变换视频中各个口型具有明显变化的图像截取,该图像即描述了患者在发音转换时的特点。
步骤S404,根据时间序列并按照预设的排序规则将所述多张口型变换图像排序生成口型变换排序图像,所述口型变换排序图像即为口型变换特征信息。
在本发明实施例中,将描述了患者在发音转换时的特点图像排序,就可以作为口型变换特征信息,言语功能障碍图像检测模型就能够根据患者在发音转换时的特点确定相应的言语功能障碍。
如图5所示,为本发明实施例提供的另一种言语功能障碍检测方法的步骤流程图,详述如下。
在本发明实施例中,与图2所示出的一种言语功能障碍检测方法的步骤流程图的区别在于,在所述步骤S212之前,还包括:
步骤S502,获取用户在言语功能障碍检测语句下的声带振动信号。
在本发明实施例中,除了通过口型变化视频以及音频信号外,还可以进一步通过声带振动信号来确定部分言语功能障碍,例如部分言语功能障碍是由于身体声带的缺陷而导致的,基于声带振动信号可以较好地识别出该言语功能障碍。
步骤S504,根据预设的声带振动特征提取模型对所述声带振动信号进行处理生成声带振动特征信息。
在本发明实施例中,同样的,需要对声带振动信号进行预处理以获取具有特征性的声带振动信号。
步骤S506,根据预设的言语功能障碍振动检测模型对所述声带振动特征信息进行处理,生成言语功能障碍振动检测结果。
在本发明实施例中,考虑到声带振动序列也同样重要,因此所述言语功能障碍振动检测模型同样也是预先基于循环神经网络模型算法训练生成的。
所述步骤S212具体为:
步骤S508,根据所述言语功能障碍音频检测结果、所述言语功能障碍视频检测结果以及所述言语功能障碍振动检测结果确定言语功能障碍检测结果。
在本发明实施例中,此时通过从音频、口型变换以及声带振动三个角度检测得到的检测结果在用于综合确定言语功能障碍检测结果时更加准确。
如图6所示,为本发明实施例提供的又一种言语功能障碍检测方法的步骤流程图,详述如下。
在本发明实施例中,与图2所示出的一种言语功能障碍检测方法的步骤流程图的区别在于,在所述步骤S212之前,还包括:
步骤S602,获取用户在言语功能障碍检测语句下的应答文本信息。
在本发明实施例中,考虑到某些言语功能障碍的特点是词不达意,因此可以进一步利用对应答文本信息的语义分析来识别此类言语功能障碍。
步骤S604,根据预设的语义分析模型对所述应答文本信息进行语义分析,生成应答文本语义分析结果。
在本发明实施例中,所述语义分析模型是预先基于自然语言处理算法训练生成的。
所述步骤S212具体为:
步骤S606,根据所述言语功能障碍音频检测结果、所述言语功能障碍视频检测结果以及所述应答文本语义分析结果确定言语功能障碍检测结果。
在本发明实施例中,此时通过从音频、口型变换以及语义三个角度检测得到的检测结果在用于综合确定言语功能障碍检测结果时更加准确,进一步的显然,图5以及图6所示出的优选实施例可以综合,即从音频、口型变换、声带振动以及语义等多个角度对言语功能障碍进行全面的检测,从而得到更优的语功能障碍检测效果。
如图7所示,为本发明实施例提供的一种言语功能障碍检测装置的结构示意图,该言语功能障碍检测装置即为图1所示出的言语功能障碍检测系统中的言语功能障碍检测装置110,具体包括以下单元:
言语功能障碍检测信息获取单元710,用于获取用户在言语功能障碍检测语句下的应答音频信号以及口型变换视频。
在本发明实施例中,所述言语功能障碍检测语句可以是预先基于声音播放终端产生的,可以无需人工的参与,解决了言语功能障碍患者会因为存在自闭而导致难以沟通的问题。
在本发明实施例中,应答音频信号以及口型变换视频是预先基于音频采集终端以及图像采集终端采集并通过无线或者有线的方式传输给言语功能障碍检测装置。
音频特征提取单元720,用于根据预设的音频特征提取模型对所述应答音频信号进行处理生成应答音频特征信息。
在本发明实施例中,所述应答音频信号通常含有噪音,且含有较多的冗余信息,在对应答音频信号进行识别之前通常需要从应答音频信号中提取出与言语功能障碍相关的特征信息以提高识别的准确率,其中具体实现对应答音频信号进行特征提取处理以生成应答音频特征信息的步骤请参阅图3及其解释说明。
视频特征提取单元730,用于根据预设的视频特征提取模型对所述口型变换视频进行处理生成口型变换特征信息。
在本发明实施例中,同样的,需要对口型变换视频进行处理提取出与言语功能障碍相关的特征信息以提高识别的准确率,其中具体实现对口型变换视频进行特征提取处理的步骤请参阅后续图4及其解释说明。
音频检测结果确定单元740,用于根据预设的言语功能障碍音频检测模型对所述应答音频特征信息进行处理,生成言语功能障碍音频检测结果。
在本发明实施例中,所述言语功能障碍音频检测模型是预先基于循环神经网络模型算法训练生成的。由于言语功能障碍患者的音频信号通常有着明显随时间变化的特征,因此采用能够识别出序列特征的循环神经网络模型算法来训练得到相关的言语功能障碍音频检测模型。
作为本发明的一个优选实施例,考虑到循环神经网络模型算法训练生成言语功能障碍音频检测模型需要大量的样本,而具有言语功能障碍的应答音频信号较难采集,样本数量少,难以得到判断结果准确率高的言语功能障碍音频检测模型,因此,可以预先对具有言语功能障碍的应答音频信号进行频率变换,并输出变换后的应答音频,利用人工标识存在的言语功能障碍,从而实现对样本的扩充。
视频检测结果确定单元750,用于根据预设的言语功能障碍图像检测模型对所述口型变换特征信息进行处理,生成言语功能障碍视频检测结果。
所述言语功能障碍图像检测模型是预先基于卷积神经网络模型算法训练生成的。
在本发明实施例中,所述言语功能障碍图像检测模型是预先基于卷积神经网络模型算法训练生成的。通过对口型变换视频中的特征图像进行识别,确定口型变换特征,从而确定出相应的言语功能障碍视频检测结果。
言语功能障碍检测结果确定单元760,用于根据所述言语功能障碍音频检测结果以及所述言语功能障碍视频检测结果确定言语功能障碍检测结果。
在本发明实施例中,所述言语功能障碍音频检测结果以及言语功能障碍视频检测结果分别描述了用户存在各种言语功能障碍的概率,基于二者的综合,结合加权值,可以确定更加准确的最终言语功能障碍检测结果。
本发明提供的言语功能障碍检测装置,是在机器学习的基础上先预选训练出可以对言语功能障碍进行检测的模型,并在无医师存在的场景下,输出言语功能障碍检测语句,并获取用户在言语功能障碍检测语句下的应答音频信号以及口型变换视频,然后根据预先训练好的模型分别对采集的应答音频信号与口型变换视频进行特征提取与障碍检测,分别得到应答音频的检测结果以及口型变换视频的检测结果,最终基于两者的检测结果综合来确定言语功能障碍。本发明提供的言语功能障碍检测装置,利用人工智能检测取代人工检测,解决了现有言语功能障碍检测方法依赖于人工参与而会对患者产生干扰的问题,并且采用两种规则分别从应答音频与口型变换的角度对言语功能障碍进行检测,并综合判断,实际检测效果准确率高。
图8示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的言语功能障碍检测装置110。如图8所示,该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现言语功能障碍检测方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行言语功能障碍检测方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的言语功能障碍检测装置可以实现为一种计算机程序的形式,计算机程序可在如图8所示的计算机设备上运行。计算机设备的存储器中可存储组成该言语功能障碍检测装置的各个程序模块,比如,图7所示的言语功能障碍检测信息获取单元710、言语功能障碍检测信息获取单元720以及视频特征提取单元730等等。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的言语功能障碍检测方法中的步骤。
例如,图8所示的计算机设备可以通过如图7所示的言语功能障碍检测装置中的言语功能障碍检测信息获取单元710执行步骤S202;计算机设备可通过言语功能障碍检测信息获取单元720执行步骤S204;计算机设备可通过视频特征提取单元730执行步骤S206。
在一个实施例中,提出了一种计算机设备,所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取用户在言语功能障碍检测语句下的应答音频信号以及口型变换视频;
根据预设的音频特征提取模型对所述应答音频信号进行处理生成应答音频特征信息;
根据预设的视频特征提取模型对所述口型变换视频进行处理生成口型变换特征信息;
根据预设的言语功能障碍音频检测模型对所述应答音频特征信息进行处理,生成言语功能障碍音频检测结果;所述言语功能障碍音频检测模型是预先基于循环神经网络模型算法训练生成的;
根据预设的言语功能障碍图像检测模型对所述口型变换特征信息进行处理,生成言语功能障碍视频检测结果;所述言语功能障碍图像检测模型是预先基于卷积神经网络模型算法训练生成的;
根据所述言语功能障碍音频检测结果以及所述言语功能障碍视频检测结果确定言语功能障碍检测结果。
在一个实施例中,提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时,使得处理器执行以下步骤:
获取用户在言语功能障碍检测语句下的应答音频信号以及口型变换视频;
根据预设的音频特征提取模型对所述应答音频信号进行处理生成应答音频特征信息;
根据预设的视频特征提取模型对所述口型变换视频进行处理生成口型变换特征信息;
根据预设的言语功能障碍音频检测模型对所述应答音频特征信息进行处理,生成言语功能障碍音频检测结果;所述言语功能障碍音频检测模型是预先基于循环神经网络模型算法训练生成的;
根据预设的言语功能障碍图像检测模型对所述口型变换特征信息进行处理,生成言语功能障碍视频检测结果;所述言语功能障碍图像检测模型是预先基于卷积神经网络模型算法训练生成的;
根据所述言语功能障碍音频检测结果以及所述言语功能障碍视频检测结果确定言语功能障碍检测结果。
应该理解的是,虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种言语功能障碍检测方法,其特征在于,包括:
获取用户在言语功能障碍检测语句下的应答音频信号以及口型变换视频;
根据预设的音频特征提取模型对所述应答音频信号进行处理生成应答音频特征信息;
根据预设的视频特征提取模型对所述口型变换视频进行处理生成口型变换特征信息;
根据预设的言语功能障碍音频检测模型对所述应答音频特征信息进行处理,生成言语功能障碍音频检测结果;所述言语功能障碍音频检测模型是预先基于循环神经网络模型算法训练生成的;
根据预设的言语功能障碍图像检测模型对所述口型变换特征信息进行处理,生成言语功能障碍视频检测结果;所述言语功能障碍图像检测模型是预先基于卷积神经网络模型算法训练生成的;
根据所述言语功能障碍音频检测结果以及所述言语功能障碍视频检测结果确定言语功能障碍检测结果。
2.根据权利要求1所述的言语功能障碍检测方法,其特征在于,所述根据预设的音频特征提取模型对所述应答音频信号进行处理生成应答音频特征信息的步骤,具体包括:
根据小波变换对所述应答音频信号进行降噪处理,生成降噪处理后的应答音频信号;
确定所述应答音频信号的言语功能障碍音频检测关键信息;所述言语功能障碍音频检测关键信息至少包括音频持续时长、频率变化信息以及幅度变化信息;
按照预设的采样规则对所述应答音频信号进行采样,确定多个采样点的序列;
根据所述言语功能障碍音频检测关键信息以及所述多个采样点的序列确定应答音频特征信息。
3.根据权利要求1所述的言语功能障碍检测方法,其特征在于,所述根据预设的视频特征提取模型对所述口型变换视频进行处理生成口型变换特征信息的步骤,具体包括:
根据预设的分帧规则对所述口型变换视频进行分帧处理生成多张口型变换图像;
根据时间序列并按照预设的排序规则将所述多张口型变换图像排序生成口型变换排序图像,所述口型变换排序图像即为口型变换特征信息。
4.根据权利要求1所述的言语功能障碍检测方法,其特征在于,在所述根据所述言语功能障碍音频检测结果以及所述言语功能障碍视频检测结果确定言语功能障碍检测结果的步骤之前,还包括:
获取用户在言语功能障碍检测语句下的声带振动信号;
根据预设的声带振动特征提取模型对所述声带振动信号进行处理生成声带振动特征信息;
根据预设的言语功能障碍振动检测模型对所述声带振动特征信息进行处理,生成言语功能障碍振动检测结果;所述言语功能障碍振动检测模型是预先基于循环神经网络模型算法训练生成的;
所述根据所述言语功能障碍音频检测结果以及所述言语功能障碍视频检测结果确定言语功能障碍检测结果的步骤,具体为:
根据所述言语功能障碍音频检测结果、所述言语功能障碍视频检测结果以及所述言语功能障碍振动检测结果确定言语功能障碍检测结果。
5.根据权利要求1所述的言语功能障碍检测方法,其特征在于,在所述根据所述言语功能障碍音频检测结果以及所述言语功能障碍视频检测结果确定言语功能障碍检测结果的步骤之前,还包括:
获取用户在言语功能障碍检测语句下的应答文本信息;
根据预设的语义分析模型对所述应答文本信息进行语义分析,生成应答文本语义分析结果;所述语义分析模型是预先基于自然语言处理算法训练生成的;
所述根据所述言语功能障碍音频检测结果以及所述言语功能障碍视频检测结果确定言语功能障碍检测结果的步骤,具体为:
根据所述言语功能障碍音频检测结果、所述言语功能障碍视频检测结果以及所述应答文本语义分析结果确定言语功能障碍检测结果。
6.根据权利要求1所述的言语功能障碍检测方法,其特征在于,在预先基于循环神经网络模型算法训练生成所述言语功能障碍音频检测模型的过程中,还包括:
确定应答音频特征样本信息;
对所述应答音频特征样本信息按照预设的变换规则进行频率变换;
输出变换后的应答音频特征样本信息并确定言语功能障碍音频检测响应结果。
7.一种言语功能障碍检测装置,其特征在于,包括
言语功能障碍检测信息获取单元,用于获取用户在言语功能障碍检测语句下的应答音频信号以及口型变换视频;
音频特征提取单元,用于根据预设的音频特征提取模型对所述应答音频信号进行处理生成应答音频特征信息;
视频特征提取单元,用于根据预设的视频特征提取模型对所述口型变换视频进行处理生成口型变换特征信息;
音频检测结果确定单元,用于根据预设的言语功能障碍音频检测模型对所述应答音频特征信息进行处理,生成言语功能障碍音频检测结果;所述言语功能障碍音频检测模型是预先基于循环神经网络模型算法训练生成的;
视频检测结果确定单元,用于根据预设的言语功能障碍图像检测模型对所述口型变换特征信息进行处理,生成言语功能障碍视频检测结果;所述言语功能障碍图像检测模型是预先基于卷积神经网络模型算法训练生成的;
言语功能障碍检测结果确定单元,用于根据所述言语功能障碍音频检测结果以及所述言语功能障碍视频检测结果确定言语功能障碍检测结果。
8.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1至6中任一项权利要求所述言语功能障碍检测方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行权利要求1至6中任一项权利要求所述言语功能障碍检测方法的步骤。
10.一种言语功能障碍检测系统,其特征在于,包括如权利要求7所述的言语功能障碍检测装置以及音频采集终端与图像采集终端;所述音频采集终端用于采集用户在言语功能障碍检测语句下的应答音频信号并发送给所述言语功能障碍检测装置;所述图像采集终端用于采集用户在言语功能障碍检测语句下的口型变换视频并发送给所述言语功能障碍检测装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011582090.1A CN112617755A (zh) | 2020-12-28 | 2020-12-28 | 言语功能障碍检测方法、装置、设备、存储介质及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011582090.1A CN112617755A (zh) | 2020-12-28 | 2020-12-28 | 言语功能障碍检测方法、装置、设备、存储介质及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112617755A true CN112617755A (zh) | 2021-04-09 |
Family
ID=75325623
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011582090.1A Pending CN112617755A (zh) | 2020-12-28 | 2020-12-28 | 言语功能障碍检测方法、装置、设备、存储介质及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112617755A (zh) |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102063903A (zh) * | 2010-09-25 | 2011-05-18 | 中国科学院深圳先进技术研究院 | 言语交互训练系统及方法 |
CN105792752A (zh) * | 2013-10-31 | 2016-07-20 | P-S·哈鲁塔 | 用于诊断和治疗语言相关障碍的计算技术 |
CN105982641A (zh) * | 2015-01-30 | 2016-10-05 | 上海泰亿格康复医疗科技股份有限公司 | 一种言语语言听觉障碍多参数诊疗康复设备及云康复系统 |
CN108133709A (zh) * | 2016-12-01 | 2018-06-08 | 奥林巴斯株式会社 | 语音识别装置和语音识别方法 |
CN108320625A (zh) * | 2018-04-17 | 2018-07-24 | 长春大学 | 面向言语康复的震动反馈系统及装置 |
CN108877841A (zh) * | 2018-06-06 | 2018-11-23 | 姜涵予 | 一种评测语言状态的方法及装置 |
CN110223688A (zh) * | 2019-06-08 | 2019-09-10 | 安徽中医药大学 | 一种基于压缩感知的肝豆状核变性言语障碍的自评估系统 |
CN110276259A (zh) * | 2019-05-21 | 2019-09-24 | 平安科技(深圳)有限公司 | 唇语识别方法、装置、计算机设备及存储介质 |
CN110720124A (zh) * | 2017-05-31 | 2020-01-21 | 国际商业机器公司 | 监测患者语言的使用以识别潜在的言语和相关的神经障碍 |
CN110781916A (zh) * | 2019-09-18 | 2020-02-11 | 平安科技(深圳)有限公司 | 视频数据的欺诈检测方法、装置、计算机设备和存储介质 |
CN111178157A (zh) * | 2019-12-10 | 2020-05-19 | 浙江大学 | 一种基于音调的级联序列到序列模型的中文唇语识别方法 |
US20200160881A1 (en) * | 2018-11-15 | 2020-05-21 | Therapy Box Limited | Language disorder diagnosis/screening |
CN111292723A (zh) * | 2020-02-07 | 2020-06-16 | 普强时代(珠海横琴)信息技术有限公司 | 一种语音识别系统 |
CN111489819A (zh) * | 2019-01-29 | 2020-08-04 | 富士施乐株式会社 | 检测认知和语言障碍的方法、服务器和计算机可读介质 |
-
2020
- 2020-12-28 CN CN202011582090.1A patent/CN112617755A/zh active Pending
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102063903A (zh) * | 2010-09-25 | 2011-05-18 | 中国科学院深圳先进技术研究院 | 言语交互训练系统及方法 |
CN105792752A (zh) * | 2013-10-31 | 2016-07-20 | P-S·哈鲁塔 | 用于诊断和治疗语言相关障碍的计算技术 |
CN105982641A (zh) * | 2015-01-30 | 2016-10-05 | 上海泰亿格康复医疗科技股份有限公司 | 一种言语语言听觉障碍多参数诊疗康复设备及云康复系统 |
CN108133709A (zh) * | 2016-12-01 | 2018-06-08 | 奥林巴斯株式会社 | 语音识别装置和语音识别方法 |
CN110720124A (zh) * | 2017-05-31 | 2020-01-21 | 国际商业机器公司 | 监测患者语言的使用以识别潜在的言语和相关的神经障碍 |
CN108320625A (zh) * | 2018-04-17 | 2018-07-24 | 长春大学 | 面向言语康复的震动反馈系统及装置 |
CN108877841A (zh) * | 2018-06-06 | 2018-11-23 | 姜涵予 | 一种评测语言状态的方法及装置 |
US20200160881A1 (en) * | 2018-11-15 | 2020-05-21 | Therapy Box Limited | Language disorder diagnosis/screening |
CN111489819A (zh) * | 2019-01-29 | 2020-08-04 | 富士施乐株式会社 | 检测认知和语言障碍的方法、服务器和计算机可读介质 |
CN110276259A (zh) * | 2019-05-21 | 2019-09-24 | 平安科技(深圳)有限公司 | 唇语识别方法、装置、计算机设备及存储介质 |
CN110223688A (zh) * | 2019-06-08 | 2019-09-10 | 安徽中医药大学 | 一种基于压缩感知的肝豆状核变性言语障碍的自评估系统 |
CN110781916A (zh) * | 2019-09-18 | 2020-02-11 | 平安科技(深圳)有限公司 | 视频数据的欺诈检测方法、装置、计算机设备和存储介质 |
CN111178157A (zh) * | 2019-12-10 | 2020-05-19 | 浙江大学 | 一种基于音调的级联序列到序列模型的中文唇语识别方法 |
CN111292723A (zh) * | 2020-02-07 | 2020-06-16 | 普强时代(珠海横琴)信息技术有限公司 | 一种语音识别系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108492830B (zh) | 声纹识别方法、装置、计算机设备和存储介质 | |
CN110299142B (zh) | 一种基于网络融合的声纹识别方法及装置 | |
CN110853646A (zh) | 会议发言角色的区分方法、装置、设备及可读存储介质 | |
CN110890102A (zh) | 一种基于rnn声纹识别的发动机缺陷检测算法 | |
KR102314572B1 (ko) | 인공지능 기반의 언어 능력 평가 방법 및 시스템 | |
CN111667835A (zh) | 语音识别方法、活体检测方法、模型训练方法及装置 | |
CN112232276B (zh) | 一种基于语音识别和图像识别的情绪检测方法和装置 | |
CN112768070A (zh) | 一种基于对话交流的精神健康评测方法和系统 | |
CN111329494A (zh) | 基于语音关键词检索和语音情绪识别的抑郁症检测方法 | |
US11238289B1 (en) | Automatic lie detection method and apparatus for interactive scenarios, device and medium | |
CN115831352B (zh) | 一种基于动态纹理特征和时间分片权重网络的检测方法 | |
CN116883900A (zh) | 一种基于多维生物特征的视频真伪鉴别方法和系统 | |
CN112617755A (zh) | 言语功能障碍检测方法、装置、设备、存储介质及系统 | |
CN116484224A (zh) | 一种多模态预训练模型的训练方法、装置、介质及设备 | |
CN116434759A (zh) | 一种基于srs-cl网络的说话人识别方法 | |
CN111507124A (zh) | 基于深度学习的非接触式视频测谎方法及系统 | |
CN112699236B (zh) | 一种基于情感识别与瞳孔大小计算的Deepfake检测方法 | |
CN113887339A (zh) | 融合表面肌电信号与唇部图像的无声语音识别系统及方法 | |
CN113113051A (zh) | 音频指纹提取方法、装置、计算机设备和存储介质 | |
Boujnah et al. | Smartphone-captured ear and voice database in degraded conditions | |
CN113012706B (zh) | 一种数据处理方法、装置及电子设备 | |
CN116612746B (zh) | 一种基于人工智能在声学库中进行语音编码识别方法 | |
CN116311538B (zh) | 一种分布式音视频处理系统 | |
CN114399005B (zh) | 一种活体检测模型的训练方法、装置、设备及存储介质 | |
CN116866783B (zh) | 一种智慧教室音频控制系统、方法及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210409 |