CN114783464A - 认知检测方法及相关装置、电子设备和存储介质 - Google Patents
认知检测方法及相关装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN114783464A CN114783464A CN202210459429.1A CN202210459429A CN114783464A CN 114783464 A CN114783464 A CN 114783464A CN 202210459429 A CN202210459429 A CN 202210459429A CN 114783464 A CN114783464 A CN 114783464A
- Authority
- CN
- China
- Prior art keywords
- sample
- target
- voice
- cognitive
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 124
- 230000001149 cognitive effect Effects 0.000 title claims abstract description 114
- 208000010877 cognitive disease Diseases 0.000 claims abstract description 104
- 238000012549 training Methods 0.000 claims abstract description 104
- 208000028698 Cognitive impairment Diseases 0.000 claims description 83
- 238000000034 method Methods 0.000 claims description 53
- 238000000605 extraction Methods 0.000 claims description 11
- 230000015654 memory Effects 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 10
- 230000002596 correlated effect Effects 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 238000012360 testing method Methods 0.000 claims description 5
- 238000003062 neural network model Methods 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 claims description 3
- 230000007170 pathology Effects 0.000 claims description 3
- 230000000306 recurrent effect Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 description 23
- 238000010586 diagram Methods 0.000 description 16
- 230000008569 process Effects 0.000 description 16
- 230000004927 fusion Effects 0.000 description 11
- 230000000875 corresponding effect Effects 0.000 description 10
- 230000001575 pathological effect Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000002372 labelling Methods 0.000 description 6
- 230000009466 transformation Effects 0.000 description 5
- 230000003042 antagnostic effect Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 4
- 230000006998 cognitive state Effects 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 230000008485 antagonism Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000005012 migration Effects 0.000 description 3
- 238000013508 migration Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 230000019771 cognition Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 230000007787 long-term memory Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 238000013526 transfer learning Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 239000000090 biomarker Substances 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000004641 brain development Effects 0.000 description 1
- 210000001175 cerebrospinal fluid Anatomy 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000010287 polarization Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/66—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/48—Other medical applications
- A61B5/4803—Speech analysis specially adapted for diagnostic purposes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Public Health (AREA)
- Signal Processing (AREA)
- Medical Informatics (AREA)
- Epidemiology (AREA)
- Biophysics (AREA)
- Pathology (AREA)
- Biomedical Technology (AREA)
- Heart & Thoracic Surgery (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Surgery (AREA)
- Animal Behavior & Ethology (AREA)
- Veterinary Medicine (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种认知检测方法及相关装置、电子设备和存储介质,其中,认知检测方法包括:基于目标声学模型对目标对象的待测语音进行识别,得到待测语音的音素序列;其中,目标声学模型隐层所输出的特征表示基于目标对象的权重参数加权得到,且目标对象的权重参数基于预先对目标对象采集到的样本目标语音训练得到;并基于音素序列进行解码,得到待测语音的识别文本;再基于识别文本进行认知检测,得到目标对象的认知检测结果;其中,认知检测结果包括目标对象是否存在认知障碍。上述方案,能够在降低检测成本的同时提高认知检测的准确率。
Description
技术领域
本申请涉及智慧医疗技术领域,特别是涉及一种认知检测方法及相关装置、电子设备和存储介质。
背景技术
针对待检测者进行认知检测是为了更好地获取待检测者的身体健康情况,进而确定待检测者是否存在认知障碍的情况。例如,在对幼儿进行认知检测时,通过认知检测结果,有助于进一步了解幼儿的大脑发育情况;或者,在对老年人进行认知检测时,通过认知检测结果,有助于进一步了解老年人的身体健康情况,如此种种,不一而足。
目前,检测认知状态的方法呈现“两极化”,一种对受试体验不友好且成本较高,另一种检测成本较低,但是检测准确率难以保证。有鉴于此,如何在降低检测成本的同时提高认知检测的准确率成为亟待解决的问题。
发明内容
本申请主要解决的技术问题是提供一种认知检测方法及相关装置、电子设备和存储介质,能够在降低检测成本的同时提高认知检测的准确率。
为了解决上述技术问题,本申请第一方面提供了一种认知检测方法,包括:基于目标声学模型对目标对象的待测语音进行识别,得到待测语音的音素序列;其中,目标声学模型隐层所输出的特征表示基于目标对象的权重参数加权得到,且目标对象的权重参数基于预先对目标对象采集到的样本目标语音训练得到;并基于音素序列进行解码,得到待测语音的识别文本;再基于识别文本进行认知检测,得到目标对象的认知检测结果;且认知检测结果包括目标对象是否存在认知障碍。
为了解决上述技术问题,本申请第二方面提供了一种认知检测装置,包括识别模块、解码模块和检测模块,识别模块用于基于目标声学模型对目标对象的待测语音进行识别,得到待测语音的音素序列;其中,目标声学模型隐层所输出的特征表示基于目标对象的权重参数加权得到,且目标对象的权重参数基于预先对目标对象采集到的样本目标语音训练得到;解码模块用于基于音素序列进行解码,得到待测语音的识别文本;检测模块用于基于识别文本进行认知检测,得到目标对象的认知检测结果;且认知检测结果包括目标对象是否存在认知障碍。
为了解决上述技术问题,本申请第三方面提供了一种电子设备,包括相互耦接的存储器和处理器,存储器中存储有程序指令,处理器用于执行程序指令以实现上述第一方面中的认知检测方法。
为了解决上述技术问题,本申请第四方面提供了一种计算机可读存储介质,存储有能够被处理器运行的程序指令,所述程序指令用于实现上述第一方面中的认知检测方法。
上述方案,通过基于目标声学模型对目标对象的待测语音进行识别,得到待测语音的音素序列;目标声学模型隐层所输出的特征表示基于目标对象的权重参数加权得到,且目标对象的权重参数基于预先对目标对象采集到的样本目标语音训练得到;并基于音素序列进行解码,得到待测语音的识别文本;再基于识别文本进行认知检测,得到目标对象的认知检测结果;且认知检测结果包括目标对象是否存在认知障碍,一方面由于目标对象的权重参数是基于预先对目标对象采集到的样本目标语音训练得到,有助于提高待测语音的识别结果,提高认知检测的准确率,另一方面由于是基于识别文本进行认知检测,而无需依赖于生、化等各种检查,有助于尽可能地降低检测成本,提高待检测者的检测体验。故此,能够在降低检测成本的同时提高认知检测的准确率。
附图说明
图1是本申请认知检测方法一实施例的流程示意图;
图2是参考模型一实施例的框架示意图;
图3是图1中步骤S11另一实施例的模型示意图;
图4是图1中步骤S13一实施例的特征融合示意图;
图5是图1中步骤S13另一实施例的特征融合示意图;
图6是本申请认知检测装置一实施例的框架示意图;
图7是本申请电子设备一实施例的框架示意图;
图8是本申请计算机可读存储介质一实施例的框架示意图。
具体实施方式
下面结合说明书附图,对本申请实施例的方案进行详细说明。
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本申请。
本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。此外,本文中的“多”表示两个或者多于两个。
请参阅图1,图1是本申请认知检测方法一实施例的流程示意图。
具体而言,可以包括如下步骤:
步骤S11:基于目标声学模型对目标对象的待测语音进行识别,得到待测语音的音素序列。
在一个实施场景中,目标对象可以是待检测者中其中的一个,示例性地,待检测者可以有N个,目标对象为第i个(i大于0小于等于N),具体目标对象在待检测者中的位置可以根据实际情况进行选择,在此不做具体限定。
在一个实施场景中,音素是根据语音的自然属性划分出来的最小语音单位,若依据音节里的发音动作来分析,一个动作可以构成一个音素。示例性地,汉语音节啊(ā)只有一个音素,爱(ài)有两个音素,代(dài)有三个音素等。待测语音的音素序列可以是待测语音中不同音节组成的音素序列,待测语音的音素序列可以根据实际情况识别,在此不做具体限定。
在一个实施场景中,待测语音的音素序列可以是人工标注进行获取,也可以是基于目标声学模型进行获取,待测语音的音素序列的获取方式可以根据实际情况进行选择,在此不做具体限定。
本公开实施例中,目标声学模型隐层所输出的特征表示基于目标对象的权重参数加权得到,且目标对象的权重参数基于预先对目标对象采集到的样本目标语音训练得到,即为了获取目标对象的权重参数,可以先采集得到目标对象的样本目标语音,再基于目标对象的样本目标语音训练得到目标对象的权重参数;对于目标对象的权重参数进行加权,可以根据每个目标对象的样本目标语音进行训练,进而使目标声学模型在针对不同属性目标对象进行语音识别时,准确率更高。
在一个实施场景中,目标声学模型在预先训练的参考声学模型中添加目标对象的权重参数得到,参考声学模型依次基于以下样本语音训练得到:第一样本对象的样本第一语音、第二样本对象的样本第二语音;且:第一样本对象、第二样本对象均与目标对象具有相同对象属性。示例性地,第一样本对象与第二样本对象均为认知障碍人群,此时,样本第一语音可以是认知障碍人群中认知正常语音数据,样本第二语音可以是认知障碍人群中认知障碍语音数据;或者,第一样本对象可以与目标对象具有相同对象属性且不存在认知障碍,第二样本对象与目标对象具有相同对象属性。例如,第一样本对象是普通人群,第二样本对象是认知障碍人群,此时,样本第一语音是普通语音数据,样本第二语音可以是认知障碍人群中认知障碍语音数据、也可以是认知障碍人群中认知正常语音数据,还可以是两者均有,样本对象的属性可以根据实际情况进行选择,在此不做具体限定。进一步地,目标对象的选择不同,样本对象的选择也有所差异,若目标对象为青少年人群,则样本对象也应为青少年人群,若目标对象为老年人群,则样本对象也应为老年人群,目标对象与样本对象可以根据实际情况进行选择,在此不做具体限定。
在另一个实施场景中,目标声学模型在预先训练的参考声学模型中添加目标对象的权重参数得到,参考声学模型依次基于以下样本语音训练得到:第一样本对象的样本第一语音、第二样本对象的样本第二语音、第三样本对象的样本第三语音;且第二样本对象与目标对象具有相同对象属性且不存在认知障碍,第三样本对象与目标对象具有相同对象属性且存在认知障碍,且第一样本对象与第二样本对象、第三样本对象均不同。示例性地,样本第一语音可以是普通人群的语音数据、样本第二语音可以是认知障碍人群中认知正常语音数据、样本第三语音可以认知障碍人群中认知障碍语音数据,样本语音数据可以根据实际情况进行选择。并且参考声学模型的训练方式可以根据实际情况进行选择,在此不做具体限定。上述方式,通过对参考声学模型中添加权重参数而得到目标声学模型,可以进一步提高目标声学模型的泛化效果,并且参考声学模型依次通过不同的数据训练得到,有助于提高参考声学模型的适用范围。
在一个具体实施场景中,样本目标语音标注有样本音素序列;权重参数的训练步骤可以先基于预先训练的参考声学模型对样本目标语音进行音素识别,得到第一预测序列;且预先训练的参考声学模型隐层所输出的第一样本特征基于权重参数加权得到,且第一预测序列基于第一样本特征预测得到;再基于样本目标语音标注的样本音素序列与第一预测序列之间的差异,维持预先训练的参考声学模型的网络参数,并调整权重参数。示例性地,由于相较于认知正常人来说,患有认知障碍人群说话方式的差异性更大,为了进一步优化患有认知障碍人群的语音识别效果,可以针对目标对象预先训练出适用于目标对象个体的目标声学模型。请参阅图2,图2是参考模型一实施例的框架示意图,如图2所示,图中声学模型为参考声学模型,在利用声学模型处理样本目标语音之前,可以先对样本目标语音提取语音特征(如图2所示的倒谱特征),样本目标语音可以通过目标对象在通过阅读任务上采集得到;此外,示例性地,声学模型可以输出三音素(其具体含义可以参阅关于三音素的技术细节,在此不再赘述),基于声学模型所输出的三音素即可得到第一预测序列(即样本目标语音经声学模型预测得到的音素序列);其中,样本目标语音标注的样本音素序列可以根据人工标注的形式获取,也可以通过对样本目标语音自动进行转写并进行网络识别获取,样本目标语音标注的样本音素序列的获取方式可以根据实际情况进行选择,在此不做具体限定。可以基于预先训练的参考声学模型,对于目标对象i在最后一个隐层l层中添加目标对象的权重向量该隐层对应的输出公式如下所示:
a(c)=2/(1+e-c)
其中,°表示向量的对应元素相乘,为一个非线性变换的过程,也可以理解为一个激活函数,中i代表第i个目标对象,l代表层数,通过a(·)进行加权处理,对进行变换,变换成一个为0至1之间的值,即第l层的输出是基于第l-1层的输出与权重的乘积确定的。需要说明的是,在此过程中,WlT中的网络参数是不会发生改变的,并且的初始值可以根据实际情况进行选择,在此不做具体限定。基于样本目标语音标注的样本音素序列与第一预测序列之间的差异,在维持预先训练的参考声学模型的网络参数前提下,调整权重参数。上述方式,通过基于样本目标语音标注的样本音素序列与第一预测序列之间的差异,在维持预先训练的参考声学模型的网络参数的基础上,调整权重参数,进一步在对目标对象进行语音识别的过程中,提高语音识别的效果,进而提高认知检测的准确率。
在一个实施场景中,训练得到参考声学模型的训练步骤可以是基于样本第一语音训练参考声学模型;再基于样本第二语音训练经样本第一语音训练收敛的参考声学模型。示例性地,样本第一语音可以是普通人群的样本语音数据,通过用普通人群的样本语音数据对参考声学模型进行训练,可以使参考声学模型的通用性更好,样本第二语音可以是认知障碍人群的样本语音数据,基于样本第二语音训练经样本第一语音训练收敛的参考声学模型,可以使参考声学模型进一步提高识别效果。样本语音可以根据实际情况进行选择,在此不做具体限定。在对语音数据进行获取的过程中,可以通过美夹式麦克风进行获取,也可以通过录音设备进行获取,具体获取语音数据的方式可以根据实际情况进行选择,在此不做具体限定。
在另一个实施场景中,为了训练得到参考声学模型,可以先基于样本第一语音训练参考声学模型,可以先基于病理语音数据进行预处理并结合DFCNN(deep fullyconvolutional neural network,全序列卷积神经网络)、LSTM(Long Short Term,可以学习长期依赖信息)等网络结构,基于样本第一语音训练参考声学模型,此时,样本第一语音可以是普通人群语音数据,示例性地,可以是开源语音数据,也可以是公开场合的录音数据,样本第一语音可以根据实际情况进行选择,在此不做具体限定。此时,为了使参考声学模型更适用于认知障碍人群,可以将收集到的病理语音的文本数据根据认知障碍标签进行划分,划分为认知正常与认知障碍两类,其中,认知障碍标签可以根据临床上的生物标记物的检测数据进行区分,例如,脑影像、脑脊液等,认知障碍标签还可以根据做量表的打分情况进行区分,获取认知障碍标签的方式可以根据实际情况进行选择,在此不做具体限定。基于样本第二语音训练经样本第一语音训练收敛的参考声学模型,即在经过样本第一语音训练收敛的参考声学模型的基础上,再基于样本第二语音训练参考声学模型,可以使参考声学模型对认知障碍人群的语音数据进行学习,进而提高最终的识别效果。再基于样本集合语音训练经样本第二语音训练收敛的参考声学模型;且样本集合语音来自样本集合,且样本集合由样本第二语音和样本第三语音合并得到。样本集合可以包括认知障碍人群中区分的认知正常与认知障碍两类样本语音数据,样本就和还可以包括认知正常、认知障碍样本语音数据和普通人群的样本语音数据,样本集合可以根据实际情况进行选择,在此不做具体限定。上述方式,通过对参考声学模型基于不同样本语音进行训练,有助于提高参考声学模型的使用范围,进一步提高样本目标语音的识别效果,进而提高参考声学模型的泛化效果。
需要说明的是,针对认知障碍人群中文语音识别准确率低等问题,可以基于迁移学习、对抗性训练和无监督自适应等方法,通过认知障碍人群中文语音对声学模型进行训练,使面向认知障碍患者领域识别效果可以显著提升,在此过程中迁移学习是把已训练好的模型(预训练模型)参数迁移到新的模型来帮助新模型训练,可以使新模型训练结果的泛化能力更强,对抗性训练可以进一步增强神经网络鲁棒性,即在对抗训练的过程中,样本会被混合一些微小的扰动(改变很小,但是很可能造成误分类),使神经网络适应这种改变,从而对对抗样本具有鲁棒性。因此,基于采集和标注后的样本语音数据,考虑到认知障碍人群与正常成年人群相比而言的言语特异性,以及认知障碍人群体中由于认知状态不同而具有言语表现的差异性,可以基于迁徙学习和对抗性训练声学模型两步自适应方法,优化面向认知障碍人群的声学模型。采集和标注可以通过机器进行转写并标注,也可以通过人工进行采集和标注,由于认知障碍人群的语音识别效果较差,因此对认知障碍人群的样本语音数据进行处理时,可以通过人工进行,进而使采集和标注的效果更好,采集和标注的方式可以根据实际情况进行选择,在此不做具体限定。在收集到样本语音数据后,可以先利用语音增强和语音活动检测技术等预处理技术对收集到的样本语音数据进行处理,预处理可以包括数据降噪、数据增强等,可以对样本语音数据进行增强,进而增加数据量,提高音频质量,还可以对样本语音数据中句子进行断开,使句子表述更加明确。预处理方式可以根据实际情况进行选择,在此不做具体限定。
在一个具体实施场景中,样本集合语音标注有样本音素序列和样本集合语音所属的样本发言对象,样本集合语音标注可以通过特征提取器进行提取,也可以通过人工进行标注,样本集合语音标注方式可以根据实际情况进行选择,在此不做具体限定。基于样本集合语音训练经样本第二语音训练收敛的参考声学模型,可以基于经样本第二语音训练收敛的参考声学模型对样本集合语音进行音素识别,得到第二预测序列;第二预测序列基于第二样本特征预测得到,且第二样本特征为经样本第二语音训练收敛的参考声学模型隐层所输出的特征表示;基于第二样本特征进行对象预测,得到预测发言对象;基于样本集合语音所标注的样本音素序列与第二预测序列之间的第一差异,以及样本发言对象与预测发言对象之间的第二差异,得到总损失;其中,总损失与第一差异正相关,总损失与第二差异负相关;最后基于总损失,调整参考声学模型的网络参数。需要说明的是,在此过程中,结合认知障碍语音数据与认知正常语音数据,使用对抗性训练方法,使参考声学模型的适用性更强,识别结果更加准确。上述方式,通过第一差异与第二差异得到总损失,基于总损失调整参考声学模型的网络参数,可以使调整后的参考声学模型的识别效果更好。
进一步地,请参阅图3,图3是图1中步骤S11另一实施例的模型示意图,如图3所示,基于经样本第二语音训练收敛的参考声学模型对样本集合语音进行音素识别,得到第二预测序列,且第二样本特征为经样本第二语音训练收敛的参考声学模型隐层所输出的特征表示,图中样本集合语音经过特征提取器获取了第二样本特征,此时,根据第二样本特征进行对象预测,即通过话者判别模型对第二样本特征进行提取,得到预测发言对象。在特征提取器Mf(x;θf)、音素分类模型My(x;θy)和话者判别模型Ms(x;θs)中,特征提取器用以提取输入语音帧的特征,在此基础上,音素分类模型和话者判别模型分别用来对所输入的样本结合语音所对应的音素类别、发言对象进行预测。基于样本集合语音所标注的样本音素序列与第二预测序列之间的第一差异,示例性地,第一差异可以通过计算损失值进行确定,即音素分类的损失函数表示为:
其中,x表示输入,θf,θy表示参数,i表示第i个目标对象。在此过程中,为了预测每个发音对应的音素识别更加准确,第一差异值越小,则对应音素识别效果更好。
样本发言对象与预测发言对象之间的第二差异,第二差异可以通过计算损失值进行确定,即话者判别的损失函数表示为:
其中,x表示输入,θf,θs表示参数,i表示第i个目标对象。在此过程中,训练的目的是为了得到预测发言对象中包含与目标对象相关的特征信息更少,因此,第二差异越大,则达到的预测效果更好。通过第一差异与第二差异得到总损失,其中,总损失与第一差异正相关,总损失与第二差异负相关,总损失可以表示为:
其中,λ是音素分类损失和话者判别损失之间的权衡参数,其前面的负号表示针对话者判别进行的对抗性训练,以保证特征提取器的输出中不包含话者信息。需要说明的是,由于基于样本集合语音训练经样本第二语音训练收敛的参考声学模型的最终目的是,使参考声学模型的识别结果尽可能少包含与目标对象相关的特征信息,并尽可能多地包含音素序列相关信息,由此使判别结果可以更加准确的识别音素序列。
步骤S12:基于音素序列进行解码,得到待测语音的识别文本。
在一个实施场景中,在基于音素序列进行解码,得到待测语音的识别文本之前,还可以获取用户在若干解码策略中选择的目标解码策略;且若干解码策略包括一遍解码和二遍解码,在此过程中,用户可以自由选择一遍解码策略或二遍解码策略作为目标解码策略。上述方式,通过使用户自由选择解码策略,进一步提高用户的使用体验。
在一个实施场景中,基于音素序列进行解码,为了得到待测语音的识别文本,可以基于目标解码策略对音素序列进行解码,得到识别文本;且在目标解码策略为一遍解码的情况下,可以基于统计文本概率的情况下进行一遍解码,得到一遍解码的识别文本作为待测语音的识别文本,在目标解码策略为二遍解码的情况下,基于N-Gram语言或神经网络模型对音素序列和一遍解码的识别文本进行二遍解码,得到二遍解码的识别文本作为待测语音的识别文本。对文本数据进行处理的过程可以选择语言模型,也可以直接进行人工统计等,对文本数据进行处理的方式可以根据实际情况进行选择,在此不做具体限定。
在另一个实施场景中,基于音素序列进行解码,为了得到待测语音的识别文本,可以基于目标解码策略对音素序列进行解码,得到识别文本;且在目标解码策略为一遍解码的情况下,基于N-Gram语言模型对音素序列进行一遍解码,得到一遍解码的识别文本作为待测语音的识别文本,在目标解码策略为二遍解码的情况下,基于预训练语言模型对音素序列和一遍解码的识别文本进行二遍解码,得到二遍解码的识别文本作为待测语音的识别文本,且预训练语言模型为神经网络模型。上述方式,通过使用不同语言模型进行解码,进而使用户在提高使用体验的过程中,进一步提高解码结果的准确率。
在一个实施场景中,预训练语言模型依次基于以下样本文本训练得到,第一样本对象的样本第一文本、第二样本对象的样本第二文本;且第一样本对象与目标对象具有相同对象属性且不存在认知障碍,第二样本对象与目标对象具有相同对象属性且存在认知障碍。此时,样本第一文本可以是认知障碍人群中认知正常文本数据,样本第二文本可以是认知障碍人群中存在认知障碍文本数据,具体样本文本数据可以根据实际情况进行选择,在此不做具体限定。
在另一个实施场景中,预训练语言模型依次基于以下样本文本训练得到,第一样本对象的样本第一文本、第二样本对象的样本第二文本、第三样本对象的样本第三文本;且第二样本对象与目标对象具有相同对象属性且不存在认知障碍,第三样本对象与目标对象具有相同对象属性且存在认知障碍,且第一样本对象与第二样本对象、第三样本对象均不同。此时,样本第一文本可以是普通人群的文本数据,样本第二文本可以是认知障碍人群中认知正常文本数据,样本第三文本可以是认知障碍人群中存在认知障碍文本数据,样本第三文本还可以包括认知障碍人群中认知正常文本数据和认知障碍文本数据的集合文本,认知正常文本数据和认知障碍文本均属于认知障碍文本集合,两者不同之处可以是进行区分后的文本数据,例如,可以将认知障碍人群的文本数据根据认知障碍标签进行区分。示例性地,可以针对开源语音数据转写文本语料中15%的词语进行Mask处理,通过掩码语言模型(Masked Language Model,MLM)和后句预测(Next Sentence Prediction,NSP)任务联合训练以得到高精度的预训练语言模型,采用与基于迁移学习和对抗性训练的语言模型两步自适应方法类似的方式,先结合认知障碍人群中认知正常的文本数据开展基于Fine-tune等迁移学习方法,进一步得到适应老年病理语言的预训练语言模型,再结合认知障碍人群中所有样本文本,开展基于对抗性训练方法的训练,以建立自适应的预训练语言模型。具体步骤可以参考前述参考声学模型的训练方法,在此不再赘述。上述方式,通过利用不同样本文本数据对预训练语言模型进行训练,使预训练语言模型的实用性更强,对认知障碍人群文本的识别效果更好。
在一个实施场景中,N-Gram语言模型包括第一N-Gram语言模型和第二N-Gram语言模型,第一N-Gram语言模型基于第一样本对象的样本第一文本建立得到,第二N-Gram语言模型基于第二样本对象的样本第二文本、第三样本对象的样本第三文本中至少一者建立得到,且一遍解码的识别文本基于第一N-Gram语言模型对音素序列的解码结果和第二N-Gram语言模型对音素序列的解码结果加权得到;且第二样本对象与目标对象具有相同对象属性且不存在认知障碍,第三样本对象与目标对象具有相同对象属性且存在认知障碍,且第一样本对象与第二样本对象、第三样本对象均不同。样本第一文本可以是普通人群的文本数据,对认知障碍人群的样本文本进行区分,得到认知障碍人群中正常文本数据,和认知障碍文本数据,此时样本第二文本可以是认知正常文本数据,第三文本可以是认知障碍文本数据。示例性地,第一N-Gram语言模型根据第一样本对象的样本第一文本建立得到,样本第一文本可以是普通人群的样本文本数据,第二N-Gram语言模型根据第二样本对象的样本第二文本建立得到,样本第二文本可以是认知障碍人群的文本数据,针对第一N-Gram语言模型和第二N-Gram语言模型中相同词串的概率按照一定比例进行插值,可以用如下公式表示:
papt(wi|wi-3;i-1)=(1-ρ)pgeneral(wi|wi-3;i-1)+ρpelderly(wi|wi-3;i-1)
其中,其中ρ为插值系数,wi-3;i-1为词串wi-3wi-2wi-1,pqeneral(.)、pelderly(.)和papt(.)分别为第一N-Gram语言模型、第二N-Gram语言模型和N-Gram语言模型中出现词wi的概率,并以降低认知障碍人群中训练数据上的语言混淆度(Perplexity,PPL)为目标,可用如下公式表示:
其中,N为总人数,进而训练得到认知障碍人群的语言模型的插值系数,插值系数是基础模型中的系数,由于模型中普通人群文本数据较多,认知障碍人群文本数据较少,则最终普通人群文本数据训练比较好的,因此,训练得到认知障碍人群的语言模型的插值系数,可以是认识障碍人群的语言训练效果更好。上述方式,通过对语言模型的识别结果进行处理,使语言模型更适用于认知障碍文本数据,进而使最终的解码准确率更高。
步骤S13:基于识别文本进行认知检测,得到目标对象的认知检测结果。
在一个实施场景中,基于识别文本进行认知检测,为了得到目标对象的认知检测结果,可以基于目标声学模型隐层所输出的特征表示,得到声学特征表示,并基于识别文本进行特征提取,得到语言特征表示;基于声学特征表示和语言特征表示进行认知检测,得到认知检测结果。认知检测结果包括目标对象是否存在认知障碍。上述方式,通过基于声学特征表示和语言特征表示进行认知检测,有助于尽可能地降低检测成本,进而使认知检测结果更准确。
在一个具体实施场景中,基于声学特征表示和所述语言特征表示进行认知检测,得到认知检测结果,由于引入了外部知识能有效提升模型准确率和任务的质量,因此,可以将声学特征表示和语言特征表示进行高维拼接,然后利用高维拼接后得到的高维言语特征输入到全连接层中,最终输出得到融合相关外部知识信息的言语特征表示。在得到言语特征表示之后,对言语特征表示进行一系列的非线性变换,最终得到对应的概率值,根据概率值与前述标签内容进行对比,最终得到认知检测结果。示例性地,由于前述标签内容包括0和1,因此将概率值与前述标签内容进行对比时,可以预先设置阈值,例如,阈值设置为0.8,即概率值大于等于0.8则表示认知检测结果目标对象是存在认知障碍,若概率值小于0.8则表示认知检测结果目标对象不存在认知障碍。由于对认知检测过程中使用了集成学习、深度学习等方法构建认知状态分类预测模型,进而通过认知状态分类预测模型对言语特征表示进行一系列的非线性变换,最终得到对应的概率值,进而使认知检测的结果更加准确。
在一个实施场景中,基于目标声学模型隐层所输出的特征表示,为了得到声学特征表示,可以将目标声学模型隐层所输出的特征表示,作为声学特征表示。对声学特征表示的确定方式可以根据实际情况进行确定,在此不做具体限定。
在另一个实施场景中,基于目标声学模型隐层所输出的特征表示,为了得到声学特征表示,可以将目标声学模型隐层所输出的特征表示,作为第一声学特征,以及基于待测语音与参考语音在若干语音层次上关于声学参数的特征差异,得到第二声学特征;且若干语音层次包括以下至少一者:音帧层次、音节层次、短语层次、句子层次,且参考语音包括对与目标对象具有相同对象属性且不存在认知障碍的样本对象采集到的样本语音,其中,参考语音可以是第二样本对象的样本第二样本语音。再基于第一声学特征和第二声学特征进行融合,得到声学特征表示。上述方式,通过基于第一声学特征和第二声学特征进行融合,进而确定声学特征表示,鉴于认知障碍患者与正常人群的发音差异,体现出声学多样性,进而提高认知检测的准确率。
进一步地,请参阅图4,图4是图1中步骤S13一实施例的特征融合示意图,如图4所示,将目标声学模型隐层所输出的特征表示,即通过截取网络全连接层前的最后一层激活特征图谱所输出的特征表示,作为第一声学特征,基于待测语音与参考语音在若干语音层次上关于声学参数的特征差异,得到第二声学特征,从嗓音物理参数如基频、振幅、共振峰、基频微扰、振幅微扰等角度分析认知障碍患者与正常人群的声学特征差异,分别在语音帧、音节、短语和句子层面提取局部及全局的语音声学特征并计算特征统计量,构建第二声学特征,通过老年人病理语音,得到第二声学特征和第一声学特征,此时,第二声学特征参数可以包括频率、能量等,其中频率参数对应的特征可以包括基音频率(Pitch)、共振峰频率(Formant Freq)等,能量参数对应的特征可以包括响度(Loudness)、谐噪比(HNR)等,基音频率对应的统计量可以包括帧/字节/字层级Pitch均值、帧/字节/字层级Pitch最大值、帧/字节/字层级Pitch最小值等;共振峰频率可以包括帧/字节/字层级Formant Freq均值、帧/字节/字层级Formant Freq最大值、帧/字节/字层级Formant Freq最小值等;响度可以包括帧/字节/字层级Loudness均值、帧/字节/字层级Loudness最大值、帧/字节/字层级Loudness最小值等;谐噪比可以包括帧/字节/字层级HNR均值、帧/字节/字层级HNR最大值、帧/字节/字层级HNR最小值等。再将第二声学特征和第一声学特征进行拼接,得到声学特征表示。
在一个实施场景中,基于识别文本进行特征提取,为了得到语言特征表示,可以基于识别文本提取文本特征,得到第一语言特征,其中,文本特征可以是基于词汇句法分析的文本特征表示,示例性地,可以表示为词汇、句法等,词汇可以包括名词数/比例、动词数/比例、代词数/比例、不同词汇数/比例等;句法可以包括谓词性句法个数/比例、体词性句法个数/比例、修饰性句法个数/比例等。基于识别文本中各个分词的词典特征和注释特征,得到第二语言特征;且词典特征基于病理词典知识库得到,注释特征基于注意力约束机制的递归神经网络和长短期记忆网络得到;再基于第一语言特征和第二语言特征进行融合,得到语言特征表示。上述方式,通过对第一语言特征与第二语言特征进行融合,从而使面向认知障碍的语言特征表示更准确,进一步提高认知检测的准确率。
在一个具体实施场景中,基于识别文本中各个分词的词典特征和注释特征,为了得到第二语言特征,可以对于各个分词,基于分词的词典特征和注释特征进行拼接,得到分词的拼接特征;基于各个分词的拼接特征进行注意力处理,得到第二语言特征。上述方式,通过基于语音识别文本表示信息和外部语言学知识信息,进一步得到第二语言特征,进而提高认知检测的准确率。
进一步地,请参阅图5,图5是图1中步骤S13另一实施例的特征融合示意图,如图5所示,首先,开展面向病理语音转写文本的分词工作,并依据病理语言学专家词典知识库,为其中的每个词汇构建一个词典特征向量c(wi)。对于词典中缺失的词汇,则在c(wi)特征向量的各维中采用添加0或插值预测等方法进行补齐。其次,以上述分词结果作为输入,利用预训练模型初始化ACRNN模型中词嵌入层权重,以学习获得语音识别文本中每个词汇的低维空间表示。并将此低维特征向量作为长短时记忆层的输入,从而生成每个单词的高维注释信息表示(h1,h2,...,hT),其中hi为LSTM在时间步长i时的隐藏状态。最后,将单词注释信息特征表示和每个单词的词典特征向量c(wi)作为自注意力层的输入,通过学习二者之间的连接函数,以约束给定文本的注意力分布,从而识别出用于认知障碍风险预测且更符合词汇先验知识的语言特征表示,连接函数可以表示如下:
fc(hi,c(wi))=tanh(Wc[hi||c(wi)]+bc)
其中,||表示拼接操作,Wc和bc是学习参数。在此过程中将hi和wi特征进行融合,即把低维的特征向量与高维的特征表示拼接在一起,然后进行非线性变换。
上述方案,通过基于目标声学模型对目标对象的待测语音进行识别,得到待测语音的音素序列;目标声学模型隐层所输出的特征表示基于目标对象的权重参数加权得到,且目标对象的权重参数基于预先对目标对象采集到的样本目标语音训练得到;并基于音素序列进行解码,得到待测语音的识别文本;再基于识别文本进行认知检测,得到目标对象的认知检测结果;且认知检测结果包括目标对象是否存在认知障碍,一方面由于目标对象的权重参数是基于预先对目标对象采集到的样本目标语音训练得到,有助于提高待测语音的识别结果,提高认知检测的准确率,另一方面由于是基于识别文本进行认知检测,而无需依赖于生、化等各种检查,有助于尽可能地降低检测成本,提高待检测者的检测体验。故此,能够在降低检测成本的同时提高认知检测的准确率。
请参阅图6,图6是本申请认知检测装置一实施例的框架示意图。认知检测装置60包括识别模块61、解码模块62和检测模块63。其中,识别模块61用于基于目标声学模型对目标对象的待测语音进行识别,得到待测语音的音素序列;目标声学模型隐层所输出的特征表示基于目标对象的权重参数加权得到,且目标对象的权重参数基于预先对目标对象采集到的样本目标语音训练得到;解码模块62用于基于音素序列进行解码,得到待测语音的识别文本;检测模块63用于基于识别文本进行认知检测,得到目标对象的认知检测结果;且认知检测结果包括目标对象是否存在认知障碍。
上述方案,一方面由于目标对象的权重参数是基于预先对目标对象采集到的样本目标语音训练得到,有助于提高待测语音的识别结果,提高认知检测的准确率,另一方面由于是基于识别文本进行认知检测,而无需依赖于生、化等各种检查,有助于尽可能地降低检测成本,提高待检测者的检测体验。故此,能够在降低检测成本的同时提高认知检测的准确率。
在一些公开实施例中,目标声学模型在预先训练的参考声学模型中添加目标对象的权重参数得到,参考声学模型依次基于以下样本语音训练得到:第一样本对象的样本第一语音、第二样本对象的样本第二语音、第三样本对象的样本第三语音;且第二样本对象与目标对象具有相同对象属性且不存在认知障碍,第三样本对象与目标对象具有相同对象属性且存在认知障碍,且第一样本对象与第二样本对象、第三样本对象均不同。
因此,通过对参考声学模型中添加权重参数而得到目标声学模型,可以进一步提高目标声学模型的泛化效果,并且参考声学模型依次通过不同的数据训练得到,有助于提高参考声学模型的适用范围。
在一些公开实施例中,识别模块61包括识别子模块,识别子模块用于基于预先训练的参考声学模型对样本目标语音进行音素识别,得到第一预测序列;且预先训练的参考声学模型隐层所输出的第一样本特征基于权重参数加权得到,且第一预测序列基于第一样本特征预测得到;识别模块61还包括调整子模块,调整子模块用于基于样本目标语音标注的样本音素序列与第一预测序列之间的差异,维持预先训练的参考声学模型的网络参数,并调整权重参数。
因此,通过基于样本目标语音标注的样本音素序列与第一预测序列之间的差异,在维持预先训练的参考声学模型的网络参数的基础上,调整权重参数,进一步在对目标对象进行语音识别的过程中,提高语音识别的效果,进而提高认知检测的准确率。
在一些公开实施例中,识别模块61包括第一训练子模块,第一训练子模块用于基于样本第一语音训练参考声学模型;识别模块61包括第二训练子模块,第二训练子模块用于基于样本第二语音训练经样本第一语音训练收敛的参考声学模型;识别模块61还包括第三训练子模块,第三训练子模块用于基于样本集合语音训练经样本第二语音训练收敛的参考声学模型;且样本集合语音来自样本集合,且样本集合由样本第二语音和样本第三语音合并得到。
因此,通过对参考声学模型基于不同样本语音进行训练,有助于提高参考声学模型的使用范围,进一步提高样本目标语音的识别效果,进而提高参考声学模型的泛化效果。
在一些公开实施例中,样本集合语音标注有样本音素序列和样本集合语音所属的样本发言对象;第三训练子模块包括识别单元,识别单元用于基于经样本第二语音训练收敛的参考声学模型对样本集合语音进行音素识别,得到第二预测序列;且第二预测序列基于第二样本特征预测得到,且第二样本特征为经样本第二语音训练收敛的参考声学模型隐层所输出的特征表示;第三训练子模块包括预测单元,预测单元用于基于第二样本特征进行对象预测,得到预测发言对象;第三训练子模块包括获取单元,获取单元用于基于样本集合语音所标注的样本音素序列与第二预测序列之间的第一差异,以及样本发言对象与预测发言对象之间的第二差异,得到总损失;且总损失与第一差异正相关,总损失与第二差异负相关;第三训练子模块还包括调整单元,调整单元用于基于总损失,调整参考声学模型的网络参数。
因此,通过第一差异与第二差异得到总损失,基于总损失调整参考声学模型的网络参数,可以使调整后的参考声学模型的识别效果更好。
在一些公开实施例中,认知检测装置60包括获取模块,获取模块用于获取用户在若干解码策略中选择的目标解码策略;且若干解码策略包括一遍解码和二遍解码;解码模块62包括解码子模块,解码子模块用于基于目标解码策略对音素序列进行解码,得到识别文本;且在目标解码策略为一遍解码的情况下,基于N-Gram语言模型对音素序列进行一遍解码,得到一遍解码的识别文本作为待测语音的识别文本,在目标解码策略为二遍解码的情况下,基于预训练语言模型对音素序列和一遍解码的识别文本进行二遍解码,得到二遍解码的识别文本作为待测语音的识别文本,且预训练语言模型为神经网络模型。
因此,通过使用户自由选择解码策略,提高用户的使用体验并使用不同语言模型进行解码,进而使用户在提高使用体验的过程中,进一步提高解码结果的准确率。
在一些公开实施例中,预训练语言模型依次基于以下样本语音训练得到:第一样本对象的样本第一语音、第二样本对象的样本第二语音、第三样本对象的样本第三语音;且第二样本对象与目标对象具有相同对象属性且不存在认知障碍,第三样本对象与目标对象具有相同对象属性且存在认知障碍,且第一样本对象与第二样本对象、第三样本对象均不同。
因此,通过利用不同样本文本数据对预训练语言模型进行训练,使预训练语言模型的实用性更强,对认知障碍人群文本的识别效果更好。
在一些公开实施例中,N-Gram语言模型包括第一N-Gram语言模型和第二N-Gram语言模型,第一N-Gram语言模型基于第一样本对象的样本第一语音建立得到,第二N-Gram语言模型基于第二样本对象的样本第二语音、第三样本对象的样本第三语音中至少一者建立得到,且一遍解码的识别文本基于第一N-Gram语言模型对音素序列的解码结果和第二N-Gram语言模型对音素序列的解码结果加权得到;第二样本对象与目标对象具有相同对象属性且不存在认知障碍,第三样本对象与目标对象具有相同对象属性且存在认知障碍,且第一样本对象与第二样本对象、第三样本对象均不同。
因此,通过对语言模型的识别结果进行处理,使语言模型更适用于认知障碍文本数据,进而使最终的解码准确率更高。
在一些公开实施例中,检测模块63包括提取子模块,提取子模块用于基于目标声学模型隐层所输出的特征表示,得到声学特征表示,并基于识别文本进行特征提取,得到语言特征表示;检测模块63还包括检测子模块,检测子模块用于基于声学特征表示和语言特征表示进行认知检测,得到认知检测结果。
因此,通过基于声学特征表示和语言特征表示进行认知检测,有助于尽可能地降低检测成本,进而使认知检测结果更准确。
在一些公开实施例中,提取子模块包括输出单元,输出单元用于将目标声学模型隐层所输出的特征表示,作为第一声学特征,以及基于待测语音与参考语音在若干语音层次上关于声学参数的特征差异,得到第二声学特征;且若干语音层次包括以下至少一者:音帧层次、音节层次、短语层次、句子层次,且参考语音包括对与目标对象具有相同对象属性且不存在认知障碍的样本对象采集到的样本语音;提取子模块还包括第一融合单元,第一融合单元用于基于第一声学特征和第二声学特征进行融合,得到声学特征表示。
因此,通过基于第一声学特征和第二声学特征进行融合,进而确定声学特征表示,鉴于认知障碍患者与正常人群的发音差异,体现出声学多样性,进而提高认知检测的准确率。
在一些公开实施例中,提取子模块包括提取单元,提取单元用于基于识别文本提取文本特征,得到第一语言特征,并基于识别文本中各个分词的词典特征和注释特征,得到第二语言特征;且词典特征基于病理词典知识库得到,注释特征基于注意力约束机制的递归神经网络和长短期记忆网络得到;提取子模块还包括第二融合单元,第二融合单元用于基于第一语言特征和第二语言特征进行融合,得到语言特征表示。
因此,通过对第一语言特征与第二语言特征进行融合,从而使面向认知障碍的语言特征表示更准确,进一步提高认知检测的准确率。
在一些公开实施例中,提取单元还用于对于各个分词,基于分词的词典特征和注释特征进行拼接,得到分词的拼接特征;再基于各个分词的拼接特征进行注意力处理,得到第二语言特征。
因此,通过基于语音识别文本表示信息和外部语言学知识信息,进一步得到第二语言特征,进而提高认知检测的准确率。
请参阅图7,图7是本申请电子设备一实施例的框架示意图。电子设备70包括相互耦接的存储器71和处理器72,存储器71中存储有程序指令,处理器72用于执行程序指令以实现上述任一认知检测方法实施例中的步骤。具体地,电子设备70可以包括但不限于:台式计算机、笔记本电脑、服务器、手机、平板电脑等等,在此不做限定。
具体而言,处理器72用于控制其自身以及存储器71以实现上述任一认知检测方法实施例中的步骤。处理器72还可以称为CPU(Central Processing Unit,中央处理单元)。处理器72可能是一种集成电路芯片,具有信号的处理能力。处理器72还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器72可以由集成电路芯片共同实现。
上述方案,一方面由于目标对象的权重参数是基于预先对目标对象采集到的样本目标语音训练得到,有助于提高待测语音的识别结果,提高认知检测的准确率,另一方面由于是基于识别文本进行认知检测,而无需依赖于生、化等各种检查,有助于尽可能地降低检测成本,提高待检测者的检测体验。故此,能够在降低检测成本的同时提高认知检测的准确率。
请参阅图8,图8是本申请计算机可读存储介质一实施例的框架示意图。计算机可读存储介质80存储有能够被处理器运行的程序指令81,程序指令81用于实现上述任一认知检测方法实施例中的步骤。
上述方案,一方面由于目标对象的权重参数是基于预先对目标对象采集到的样本目标语音训练得到,有助于提高待测语音的识别结果,提高认知检测的准确率,另一方面由于是基于识别文本进行认知检测,而无需依赖于生、化等各种检查,有助于尽可能地降低检测成本,提高待检测者的检测体验。故此,能够在降低检测成本的同时提高认知检测的准确率。
在一些实施例中,本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述。
上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以互相参考,为了简洁,本文不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
Claims (15)
1.一种认知检测方法,其特征在于,包括:
基于目标声学模型对目标对象的待测语音进行识别,得到所述待测语音的音素序列;其中,所述目标声学模型隐层所输出的特征表示基于所述目标对象的权重参数加权得到,且所述目标对象的权重参数基于预先对所述目标对象采集到的样本目标语音训练得到;
基于所述音素序列进行解码,得到所述待测语音的识别文本;
基于所述识别文本进行认知检测,得到所述目标对象的认知检测结果;其中,所述认知检测结果包括所述目标对象是否存在认知障碍。
2.根据权利要求1所述的方法,其特征在于,所述目标声学模型在预先训练的参考声学模型中添加所述目标对象的权重参数得到,所述参考声学模型依次基于以下样本语音训练得到:第一样本对象的样本第一语音、第二样本对象的样本第二语音、第三样本对象的样本第三语音;
其中,所述第二样本对象与所述目标对象具有相同对象属性且不存在认知障碍,所述第三样本对象与所述目标对象具有相同对象属性且存在认知障碍,且所述第一样本对象与所述第二样本对象、所述第三样本对象均不同。
3.根据权利要求2所述的方法,其特征在于,所述样本目标语音标注有样本音素序列;所述权重参数的训练步骤包括:
基于预先训练的参考声学模型对所述样本目标语音进行音素识别,得到第一预测序列;其中,预先训练的参考声学模型隐层所输出的第一样本特征基于所述权重参数加权得到,且所述第一预测序列基于所述第一样本特征预测得到;
基于所述样本目标语音标注的样本音素序列与所述第一预测序列之间的差异,维持预先训练的参考声学模型的网络参数,并调整所述权重参数。
4.根据权利要求2所述的方法,其特征在于,所述参考声学模型的训练步骤包括:
基于所述样本第一语音训练所述参考声学模型;
基于所述样本第二语音训练经所述样本第一语音训练收敛的参考声学模型;
基于样本集合语音训练经所述样本第二语音训练收敛的参考声学模型;其中,所述样本集合语音来自样本集合,且所述样本集合由所述样本第二语音和所述样本第三语音合并得到。
5.根据权利要求4所述的方法,其特征在于,所述样本集合语音标注有样本音素序列和所述样本集合语音所属的样本发言对象;所述基于样本集合语音训练经所述样本第二语音训练收敛的参考声学模型,包括:
基于经所述样本第二语音训练收敛的参考声学模型对所述样本集合语音进行音素识别,得到第二预测序列;其中,所述第二预测序列基于第二样本特征预测得到,且所述第二样本特征为经所述样本第二语音训练收敛的参考声学模型隐层所输出的特征表示;
基于所述第二样本特征进行对象预测,得到预测发言对象;
基于所述样本集合语音所标注的样本音素序列与所述第二预测序列之间的第一差异,以及所述样本发言对象与所述预测发言对象之间的第二差异,得到总损失;其中,所述总损失与所述第一差异正相关,所述总损失与所述第二差异负相关;
基于所述总损失,调整所述参考声学模型的网络参数。
6.根据权利要求1所述的方法,其特征在于,在所述基于所述音素序列进行解码,得到所述待测语音的识别文本之前,所述方法还包括:
获取用户在若干解码策略中选择的目标解码策略;其中,所述若干解码策略包括一遍解码和二遍解码;
所述基于所述音素序列进行解码,得到所述待测语音的识别文本,包括:
基于所述目标解码策略对所述音素序列进行解码,得到所述识别文本;其中,在所述目标解码策略为所述一遍解码的情况下,基于N-Gram语言模型对所述音素序列进行一遍解码,得到所述一遍解码的识别文本作为所述待测语音的识别文本,在所述目标解码策略为所述二遍解码的情况下,基于预训练语言模型对所述音素序列和所述一遍解码的识别文本进行二遍解码,得到所述二遍解码的识别文本作为所述待测语音的识别文本,且所述预训练语言模型为神经网络模型。
7.根据权利要求6所述的方法,其特征在于,所述预训练语言模型依次基于以下样本文本训练得到:第一样本对象的样本第一文本、第二样本对象的样本第二文本、第三样本对象的样本第三文本;
其中,所述第二样本对象与所述目标对象具有相同对象属性且不存在认知障碍,所述第三样本对象与所述目标对象具有相同对象属性且存在认知障碍,且所述第一样本对象与所述第二样本对象、所述第三样本对象均不同。
8.根据权利要求6所述的方法,其特征在于,所述N-Gram语言模型包括第一N-Gram语言模型和第二N-Gram语言模型,所述第一N-Gram语言模型基于第一样本对象的样本第一文本建立得到,所述第二N-Gram语言模型基于第二样本对象的样本第二文本、第三样本对象的样本第三文本中至少一者建立得到,且所述一遍解码的识别文本基于第一N-Gram语言模型对所述音素序列的解码结果和所述第二N-Gram语言模型对所述音素序列的解码结果加权得到;
其中,所述第二样本对象与所述目标对象具有相同对象属性且不存在认知障碍,所述第三样本对象与所述目标对象具有相同对象属性且存在认知障碍,且所述第一样本对象与所述第二样本对象、所述第三样本对象均不同。
9.根据权利要求1所述的方法,其特征在于,所述基于所述识别文本进行认知检测,得到所述目标对象的认知检测结果,包括:
基于所述目标声学模型隐层所输出的特征表示,得到声学特征表示,并基于所述识别文本进行特征提取,得到语言特征表示;
基于所述声学特征表示和所述语言特征表示进行认知检测,得到所述认知检测结果。
10.根据权利要求9所述的方法,其特征在于,所述基于所述目标声学模型隐层所输出的特征表示,得到声学特征表示,包括:
将所述目标声学模型隐层所输出的特征表示,作为第一声学特征,以及基于所述待测语音与参考语音在若干语音层次上关于声学参数的特征差异,得到第二声学特征;其中,所述若干语音层次包括以下至少一者:音帧层次、音节层次、短语层次、句子层次,且所述参考语音包括对与所述目标对象具有相同对象属性且不存在认知障碍的样本对象采集到的样本语音;
基于所述第一声学特征和所述第二声学特征进行融合,得到所述声学特征表示。
11.根据权利要求9所述的方法,其特征在于,所述基于所述识别文本进行特征提取,得到语言特征表示,包括:
基于所述识别文本提取文本特征,得到第一语言特征,并基于所述识别文本中各个分词的词典特征和注释特征,得到第二语言特征;其中,所述词典特征基于病理词典知识库得到,所述注释特征基于注意力约束机制的递归神经网络和长短期记忆网络得到;
基于所述第一语言特征和所述第二语言特征进行融合,得到所述语言特征表示。
12.根据权利要求11所述的方法,其特征在于,所述基于所述识别文本中各个分词的词典特征和注释特征,得到第二语言特征,包括:
对于所述各个分词,基于所述分词的词典特征和注释特征进行拼接,得到所述分词的拼接特征;
基于所述各个分词的拼接特征进行注意力处理,得到所述第二语言特征。
13.一种认知检测装置,其特征在于,包括:
识别模块,用于基于目标声学模型对目标对象的待测语音进行识别,得到所述待测语音的音素序列;其中,所述目标声学模型隐层所输出的特征表示基于所述目标对象的权重参数加权得到,且所述目标对象的权重参数基于预先对所述目标对象采集到的样本目标语音训练得到;
解码模块,用于基于所述音素序列进行解码,得到所述待测语音的识别文本;
检测模块,用于基于所述识别文本进行认知检测,得到所述目标对象的认知检测结果;其中,所述认知检测结果包括所述目标对象是否存在认知障碍。
14.一种电子设备,其特征在于,包括相互耦接的存储器和处理器,所述存储器中存储有程序指令,所述处理器用于执行所述程序指令以实现权利要求1至12任一项所述的认知检测方法。
15.一种计算机可读存储介质,其特征在于,存储有能够被处理器运行的程序指令,所述程序指令用于实现权利要求1至12任一项所述的认知检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210459429.1A CN114783464A (zh) | 2022-04-27 | 2022-04-27 | 认知检测方法及相关装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210459429.1A CN114783464A (zh) | 2022-04-27 | 2022-04-27 | 认知检测方法及相关装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114783464A true CN114783464A (zh) | 2022-07-22 |
Family
ID=82432574
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210459429.1A Pending CN114783464A (zh) | 2022-04-27 | 2022-04-27 | 认知检测方法及相关装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114783464A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116189668A (zh) * | 2023-04-24 | 2023-05-30 | 科大讯飞股份有限公司 | 语音分类、认知障碍检测方法、装置、设备及介质 |
CN116687410A (zh) * | 2023-08-03 | 2023-09-05 | 中日友好医院(中日友好临床医学研究所) | 一种慢性病患者的述情障碍评估方法和系统 |
WO2024022541A1 (zh) * | 2022-07-25 | 2024-02-01 | 顺丰科技有限公司 | 语音识别方法、装置、设备及计算机可读存储介质 |
-
2022
- 2022-04-27 CN CN202210459429.1A patent/CN114783464A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024022541A1 (zh) * | 2022-07-25 | 2024-02-01 | 顺丰科技有限公司 | 语音识别方法、装置、设备及计算机可读存储介质 |
CN116189668A (zh) * | 2023-04-24 | 2023-05-30 | 科大讯飞股份有限公司 | 语音分类、认知障碍检测方法、装置、设备及介质 |
CN116687410A (zh) * | 2023-08-03 | 2023-09-05 | 中日友好医院(中日友好临床医学研究所) | 一种慢性病患者的述情障碍评估方法和系统 |
CN116687410B (zh) * | 2023-08-03 | 2023-11-14 | 中日友好医院(中日友好临床医学研究所) | 一种慢性病患者的述情障碍评估方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wei et al. | A new method for mispronunciation detection using support vector machine based on pronunciation space models | |
US10621975B2 (en) | Machine training for native language and fluency identification | |
US9613621B2 (en) | Speech recognition method and electronic apparatus | |
US9711138B2 (en) | Method for building language model, speech recognition method and electronic apparatus | |
O’Shaughnessy | Automatic speech recognition: History, methods and challenges | |
US20150112674A1 (en) | Method for building acoustic model, speech recognition method and electronic apparatus | |
CN114783464A (zh) | 认知检测方法及相关装置、电子设备和存储介质 | |
Arora et al. | Phonological feature-based speech recognition system for pronunciation training in non-native language learning | |
Pimentel et al. | Phonotactic complexity and its trade-offs | |
Devi et al. | Speaker emotion recognition based on speech features and classification techniques | |
Bartelds et al. | A new acoustic-based pronunciation distance measure | |
Coro et al. | Psycho-acoustics inspired automatic speech recognition | |
Berjon et al. | Analysis of French phonetic idiosyncrasies for accent recognition | |
Liu et al. | AI recognition method of pronunciation errors in oral English speech with the help of big data for personalized learning | |
Li et al. | Cost‐Sensitive Learning for Emotion Robust Speaker Recognition | |
Mary et al. | Searching speech databases: features, techniques and evaluation measures | |
Deepa et al. | Speech technology in healthcare | |
Dua et al. | Noise robust automatic speech recognition: review and analysis | |
Rao et al. | Language identification using excitation source features | |
Shufang | Design of an automatic english pronunciation error correction system based on radio magnetic pronunciation recording devices | |
Dai | [Retracted] An Automatic Pronunciation Error Detection and Correction Mechanism in English Teaching Based on an Improved Random Forest Model | |
Ribeiro et al. | Learning word vector representations based on acoustic counts | |
Champion | Anonymizing speech: Evaluating and designing speaker anonymization techniques | |
Bates et al. | Symbolic phonetic features for modeling of pronunciation variation | |
CN112133325A (zh) | 错误音素识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |