CN110495854A

CN110495854A - 特征提取方法、装置、电子设备及存储介质

Info

Publication number: CN110495854A
Application number: CN201910694886.7A
Authority: CN
Inventors: 丁悦; 李云霞; 凌震华; 李鑫
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2019-07-30
Filing date: 2019-07-30
Publication date: 2019-11-26
Anticipated expiration: 2039-07-30
Also published as: CN110495854B

Abstract

本申请实施例公开了一种特征提取方法、装置、电子设备及存储介质，所述方法包括：采集被测试者在注视目标图像时的语音数据和眼动数据；根据所述语音数据和眼动数据确定预设特征，所述预设特征用于反映所述被测试者针对所述目标图像的认知能力。能够通过被测试者的语音数据和眼动数据确定基于视觉和语音的特征数据，拓展了特征数据形式的种类，提高了看图说话测试的准确性。

Description

特征提取方法、装置、电子设备及存储介质

技术领域

本申请涉及认知障碍检测领域，特别是一种特征提取方法、装置、电子设备及存储介质。

背景技术

随着社会的发展，世界各国正面临人口老龄化的严峻挑战，常发于老年人的阿尔兹海默症给国家、社会和家庭都带来了沉重的精神和经济负担。阿尔兹海默症以记忆障碍、语言障碍、失用、失认、视空间技能损害、执行功能障碍以及人格和行为改变等为特征。研究表明，轻度认知功能障碍(Mild Cognition Impairment，MCI)是介于正常衰老和老年痴呆之间的一种状态，患有MCI的老年人是阿尔兹海默症的高危人群，每年大约10％-30％轻度认知功能障碍的患者转变为阿尔兹海默症，如果对老年人的认知障碍情况进行早期筛查，尽早对认知障碍的情况进行确诊，并进行早期干预，可能会延缓阿尔兹海默症的形成，因此针对老年人认知障碍筛查有着重要的意义。

现有的看图说话测试通过考察被试者的语音表现进行分析判断，通过语音处理算法提取声学特征和对话特征，如填充停顿、重复和不完整的单词，语音中断的百分比和数量等，但特征数据形式比较单一，测试结果的准确性不够高。

发明内容

基于上述问题，本申请提出了一种特征提取方法、装置、电子设备及存储介质，可以将语音数据和眼动数据结合进行分析，拓展了特征数据形式的种类，提高了看图说话测试的准确性。

第一方面，本申请实施例提供了一种特征提取方法，应用于电子设备，所述方法包括：

采集被测试者在注视目标图像时的语音数据和眼动数据；

根据所述语音数据和眼动数据确定预设特征，所述预设特征用于反映所述被测试者针对所述目标图像的认知能力。

第二方面，本申请实施例提供了一种特征提取装置，包括处理单元和通信单元，所述处理单元用于：

采集被测试者在注视目标图像时的语音数据和眼动数据；

根据所述语音数据和所述眼动数据确定预设特征，所述预设特征用于反映所述被测试者针对所述目标图像的认知能力。

第三方面，本申请实施例提供了一种电子设备，包括处理器、存储器，以及一个或多个程序，所述一个或多个程序被存储在所述存储器中，并且被配置由所述处理器执行，所述程序包括用于执行如本申请实施例第一方面任一方法中所描述的步骤的指令。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如本申请实施例第一方面任一方法所描述的部分或全部步骤。

第五方面，本申请实施例提供了一种计算机程序产品，其中，上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，上述计算机程序可操作来使计算机执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。

可以看出，本申请实施例中，首先，采集被测试者在注视目标图像时的语音数据和眼动数据；其次，根据所述语音数据和眼动数据确定预设特征，所述预设特征用于反映所述被测试者针对所述目标图像的认知能力。可见，本申请实施例能够通过被测试者的语音数据和眼动数据确定基于视觉和语音的特征数据，拓展了特征数据形式的种类，提高了看图说话测试的准确性。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种特征提取系统的结构示意图；

图2a为本申请实施例提供的一种特征提取方法的流程示意图；

图2b为本申请实施例提供的一种目标图像示意图；

图2c为本申请实施例提供的一种特征提取方法的示意图；

图3为本申请实施例提供的一种电子设备的结构示意图；

图4为本申请实施例提供的一种特征提取装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，图1为本申请实施例中一种特征提取系统100的结构示意图，包括语音采集单元110、眼动采集单元120和特征提取单元130，上述语音采集单元110和上述眼动采集单元120分别连接上述特征提取单元130，其中，上述语音采集单元110用于采集被测试者的语音数据并将上述语音数据发送者上述特征提取单元130，上述眼动采集单元120用于采集被测试者的眼动数据并将上述眼动数据发送至上述特征提取单元130，上述特征提取单元130用于根据上述语音数据和上述眼动数据确定预设特征，上述预设特征用于反映所述被测试者针对所述目标图像的认知能力。该特征提取系统100可以包括集成式单体设备或者多设备，例如包括各种具有无线通信功能的手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其他处理设备，以及各种形式的用户设备(User Equipment，UE)，移动台(Mobile Station，MS)，终端设备(terminal device)等等。

基于此，本申请实施例提出了一种特征提取方法以解决上述问题，下面对本申请实施例进行详细介绍。

如图2a所示，图2a为本申请实施例提供的一种特征提取方法的流程示意图，应用于图1所示的特征提取系统，具体包括以下步骤：

步骤201，特征提取系统采集被测试者在注视目标图像时的语音数据和眼动数据。

其中，上述目标图像可以为符合认知障碍测试标准的任意图像，上述语音数据为被测试者针对上述目标图像的描述性质语音，上述眼动数据为被测试者注视上述目标图像时的眼球移动轨迹等相关信息。

具体实现中，可以通过心理学专业工具包Psychtoolbox调用眼动仪和麦克风在矩阵实验室Matlab环境下同步采集被测试者的上述语音数据和上述眼动数据，也可以通过心理学实验操作平台E-Prime，调用眼动仪和麦克风同步采集被测试者的所述语音数据和所述眼动数据，在此不做具体限定。其中，上述同步采集可以采用时间戳对齐的方法分别完成语音数据的同步和眼动数据的同步，具体的，可以记录上述目标图像出现的时间戳、被测试者开始说话的时间戳、被测试者开始注视上述目标图像的时间戳，通过删去上述目标图像出现的时间戳与被测试者开始说话的时间戳之间的时间差可以完成语音数据的同步，通过删去上述目标图像出现的时间戳与被测试者开始注视上述目标图像的时间戳之间的时间差，可以完成眼动数据的同步。

通过采集被测试者在注视目标图像时的语音数据和眼动数据并同步，可以为后续步骤提供基础，并且可以降低提取的特征数据出现误差的概率。

步骤202，所述特征提取系统根据所述语音数据和眼动数据确定预设特征。

其中，上述预设特征用于反映上述被测试者针对上述目标图像的认知能力，上述预设特征可以包括词语层特征、句子层特征和图像层特征。

在本步骤中，上述特征提取系统可以根据上述语音数据确定上述被测试者的语音描述数据和注视数据，上述语音描述数据用于表示上述被测试者的语言表达内容，上述注视数据用于表示上述被测试者的眼球运动状态；根据上述语音描述数据和上述注视数据确定预设特征。

具体的，得到上述语音描述数据和注视数据需要以下步骤：

首先，需要将上述语音数据转换为文字数据，该文字数据可以包括词语、句子等；其次，根据预设的图像描述近似词映射关系表，确定与上述文字数据对应的语音描述数据，上述语音描述数据包括描述对象、描述起始时间戳、描述中止时间戳；最后，根据上述眼动数据在上述目标图像上的移动轨迹确定对应的上述注视数据，上述注视数据包括注视对象、注视对象起始时间戳、注视对象中止时间戳、注视对象次数。

需要说明的是，用户可以重复注视同一注视对象，当注视位置第一次落入该注视对象的区域范围时，可以确定第一次注视对象起始时间戳，当注视位置第一次离开该注视对象的区域范围时，可以确定第一次注视对象中止时间戳；当注视位置再一次落入该注视对象的区域范围时，可以确定第二次注视对象起始时间戳，当注视位置再一次离开该注视对象的区域范围时，可以确定第二次注视对象中止时间戳，以此类推得到每次注视的注视对象起始时间戳和每次注视的注视对象中止时间戳。

举例来说，如图2b所示，图2b为一种目标图像示意图，具体为基于波士顿诊断性失语症检查中的“偷饼干”图像，需要说明的是，本申请实施例后续的举例都是依据该图像进行说明，该图像中存在三类名词：人物、场景、物品，三类名词对应如下：

人物：妈妈、男孩和女孩；

场景：厨房和窗外；

物品：水龙头、水、水槽、地板、盘子、洗碗台、洗碗台上的餐具、饼干、饼干罐、橱柜、凳子、窗和窗帘。

首先需要将被测试者的语音转换为文字数据；其次，根据预设的图像描述近似词映射关系表，确定与上述文字数据对应的语音描述数据，需要说明的是，对于每个对象，被测试者会使用的词语可能存在个体差异，如提及妈妈时，可能会说“大人”、“女性”、“妇女”、“母亲”、“家长”等。通过预设的图像描述近似词映射关系表，将上述文字数据与上述近似词映射关系表进行对照查找，确定描述对象为上述目标图像中的“妈妈”，并同步记录描述起始时间戳、描述中止时间戳，如15380毫秒至15770毫秒之间被测试者说“母亲”，则描述起始时间戳为15380毫秒，描述中止时间戳为15770毫秒；最后，根据上述眼动数据在上述目标图像上的移动轨迹确定对应的上述注视数据，上述注视数据包括注视对象、注视对象起始时间戳、注视对象中止时间戳、注视对象次数，需要说明的是，上述目标图像的每个对象都会预设一个区域范围，当被测试者注视位置落入区域范围超过一定时长，则确定上述被测试者正在注视该对象，如上述被测试者在12740毫秒时注视位置第一次落进“妈妈”所在的区域范围内，在13380毫秒时注视位置离开“妈妈”所在的区域范围，且在15380毫秒之前注视位置在“妈妈”区域范围停留过3次，则可以确定此时上述被测试者的注视对象为“妈妈”，注视对象起始时间戳为12740毫秒，注视对象中止时间戳为13380毫秒，此时的注视对象次数为3次。

通过根据上述语音数据确定上述被测试者的语音描述数据和注视数据，可以进一步细化测试得到的参数，使得提取到的特征数据更加多样化。

在一个实施例中，上述特征提取系统可以根据上述语音描述数据和上述注视数据确定词语层特征。

具体的，首先，根据所述语音描述数据中的每个描述对象对应的所述描述起始时间戳与第一次注视所述每个描述对象对应的注视对象的注视对象起始时间戳之间的时间差确定描述延迟；其次，根据获取到的在所述描述延迟内所述被测试者对当前描述对象的注视对象次数确定描述难度；最后，根据上述描述延迟和上述描述难度确定上述词语层特征。

举例来说，当被测试者在15380毫秒说出第一个名词“妈妈”，且在12740毫秒注视位置第一次落入“妈妈”对应的区域范围，则可以确定“妈妈”对应的描述延迟为描述起始时间戳与第一次注视“妈妈”的注视对象起始时间戳之间的时间差，即2640毫秒，若在上述描述延迟2640毫秒内上述被测试者对“妈妈”的注视对象次数为3次，则确定“妈妈”对应的描述难度为3次；当被测试者在19750毫秒说出第二个名词“水槽”，且在16550毫秒注视位置第一次落入“水槽”对应的区域范围，则可以确定“水槽”对应的描述延迟为3200毫秒，若在16550毫秒至19750内上述被测试者对“水槽”的注视对象次数为2次，则确定“水槽”对应的描述难度为2次；以此类推其他名词对应的描述延迟和描述难度，未提及的名词设为缺省值，最后，根据全部的描述延迟和描述难度得到一个一维向量，该一维向量即是词语层特征。

在一个实施例中，上述特征提取系统可以根据上述语音描述数据和上述注视数据确定句子层特征。

具体的，首先提取出上述文字数据中的简单句结构，上述简单句结构包括名词状态句型和动作描述句型，上述名词状态句型包括3个名词，上述动作描述句型依照词语顺序包括名词、动词、名词，需要说明的是，此处的简单句结构可以是单独存在的句子也可以是复杂句的一部分，只要复杂句中存在符合上述简单句结构要求的部分，都可以提取出来执行后续步骤；根据上述简单句结构、上述句子中每个词语的描述对象、描述起始时间戳、描述中止时间戳、注视对象、注视对象起始时间戳、注视对象中止时间戳确定句子层特征。

进一步的，当上述简单句结构为名词状态句型时，可以确定在所述描述起始时间戳前与所述描述对象对应的所述注视对象的总注视时长，所述总注视时长为针对所述注视对象的至少一次注视动作的单次注视时长的和，单次注视时长通过注视对象起始时间戳与对应的注视对象中止时间戳确定；

确定所述描述中止时间戳后与所述描述对象对应的所述注视对象的总注视时长；

确定所述描述中止时间戳与下一个描述对象对应的第一次注视的注视对象的注视对象起始时间戳之间的时间差；

根据所述描述起始时间戳前与所述描述对象对应的所述注视对象的总注视时长、所述在描述中止时间戳后与所述描述对象对应的所述注视对象的总注视时长、所述描述中止时间戳与下一个描述对象对应的第一次注视的注视对象的注视对象起始时间戳之间的时间差确定所述句子层特征。

举例来说，若第一个名词状态句型为“碗和杯子在洗碗台上”，该名词状态句型存在“碗”、“杯子”、“洗碗台”3个名词，确定被测试者在说出“碗”之前的总注视时长，该总注视时长为“碗”对应的多次注视的注视起始时间戳与注视对象中止时间戳之间的时间差之和，可以以此类推确定“杯子”对应的总注视时长和“洗碗台”对应的总注视时长；确定上述被测试者在说出“碗”后的总注视时长，该总注视时长为“碗”对应多次注视的注视停留时长，可以以此类推确定“杯子”对应的注视停留时长和“洗碗台”对应的注视停留时长；确定上述被测试者在说出“碗”后到注视位置落入“杯子”的时间差，该时间差为“碗”对应的描述中止时间戳与“杯子”对应的第一次注视“杯子”的注视对象起始时间戳之间的时间差，以此类推可以得到上述被测试者在说出“杯子”后到注视位置落入“洗碗台”的时间差。若上述简单句结构全部为名词状态句型，则依照示例依次计算每个名词状态句型的相关参数，则根据上述注视时长和时间差的均值得到的一维向量即是句子层特征。

需要说明的是，若上述被测试者在说出特定名词前，注视位置未落入与该名词对应的区域范围，则认定该句子为无效数据。

当上述简单句结构为动作描述句型时，可以确定动词前名词的描述起始时间戳之前，所述动词前名词对应的注视对象时长与动词后名词对应的注视对象时长的时间差，所述动词前名词对应的注视对象时长为针对所述动词前名词的至少一次注视动作的单次注视时长的和，单次注视时长通过对所述动词前名词的每次注视的所述注视对象起始时间戳与所述对应的注视对象中止时间戳之间的时间差之和确定，所述动词后名词对应的注视对象时长为针对所述动词后名词的至少一次注视动作的单次注视时长的和，单次注视时长通过对所述动词后名词的每次注视的所述注视对象起始时间戳与所述对应的注视对象中止时间戳之间的时间差之和确定；

确定所述动词前名词的描述中止时间戳与动词对应的描述起始时间戳之间，所述动词前名词对应的注视对象时长与所述动词后名词对应的注视对象时长的时间差；

确定所述动词对应的描述中止时间戳与所述动词后名词对应的描述起始时间戳之间，所述动词前名词对应的注视对象时长与所述动词后名词对应的注视对象时长的时间差；

确定所述动词后名词对应的描述起始时间戳与所述动词后名词对应的描述中止时间戳之间，所述动词前名词对应的注视对象时长与所述动词后名词对应的注视对象时长的时间差；

根据上述4个时间差确定上述句子层特征。

举例来说，当句子为“男孩拿饼干”时，该句子中的动词为“拿”，且“拿”的前后都有名词，可以确定4个时间段内的被测试者对“男孩”注视时长和对“饼干”注视时长之间的时间差，上述4个时间段分别为：

被测试者说出“男孩”前，即“男孩”对应的描述起始时间戳之前的时间段；

上述被测试者说出“男孩”后到说出“拿”，即“男孩”对应的描述中止时间戳与“拿”对应的描述起始时间戳之间的时间段；

上述被测试者说出“拿”后到说出“饼干”，即“拿”对应的描述中止时间戳与“饼干”对应的描述起始时间戳之间的时间段；

上述被测试者说出“饼干”到说完“饼干”，即“饼干”对应的描述起始时间戳与“饼干”对应的描述中止时间戳之间的时间段。

若上述简单句结构全部为动作描述句型，则依照示例依次计算4个时间段内的被测试者对“男孩”注视时长和对“饼干”注视时长之间的时间差，则根据上述时间差的均值得到的一维向量即是句子层特征。

需要说明的是，在动作描述句型和名词状态句型都存在时，可以分别计算两类句型的相关参数，综合后求均值得到的一维向量即是句子层特征。

在一个实施例中，上述特征提取系统可以根据上述语音描述数据和上述注视数据确定图像层特征。

具体的，可以根据注视对象、注视对象起始时间戳和注视对象中止时间戳得到视觉热焦点图像；

根据上述视觉热焦点图像对目标图像进行赋值得到热焦点赋值图像；

通过语音图像配对模型建立上述热焦点赋值图像与上述语音描述数据的映射关系，即通过上述述语音卷积神经网络将所述语音描述数据进行切分得到M段音频数据，通过上述图像卷积神经网络将所述热焦点赋值图像分成N个像素块，M、N为正整数；

将所述M段音频数据与所述N个像素块进行匹配建立特定音频数据与特定像素块的映射关系。；

根据上述视觉热焦点图像与上述映射关系确定上述图像层特征。

举例来说，如图2c所示，图2c为本申请实施例提供的一种图像层特征提取方法的示意图，首先，可以根据被测试者的注视点轨迹和注视时长计算说话全过程中的视觉热焦点图像作为图片整体层的第一个特征，该视觉热焦点图像为目标图片原始长宽大小的二维矩阵。

然后将上述视觉热焦点图像的热力值作为RGB值赋值给上述目标图像，将赋值后的热焦点赋值图像结合同步语音数据，通过语音-图像配对模型，形成语音说明的波形与图像像素之间的关联关系。即给定特定赋值的图像和对应的语音描述，通过模型建立声音与视觉之间关联。具体来说，上述语音-图像配对模型由两个事先训练好的独立的卷积神经网络(VGG-16)构成，该模型用于将语音片段与它们所描述的目标图像的语义相关内容关联起来，该模型直接在图像像素和语音波形上运行，在训练过程中不依赖传统的标签、分段或模式之间的对齐形式的监督。模型中的两个卷积神经网络一个处理图像，另一个处理语音的声谱。模型的最顶层计算两个网络的输出并对语音模式和图像数据进行映射。图像卷积神经网络将目标图像分成了由像素块组成的网格。音频卷积神经网络将声谱图分成几段，比如一秒捕捉一两个词语。模型将网格的第一个单元与第一段音频匹配，然后将同一单元与第二段音频匹配，以此类推，一直贯穿每个网格单元，跨越所有时间段。从而建立特定词语与特定像素块的关联。模型通过输入上述热焦点赋值图像和对应的被测试者的语音声谱图，输出眼动和语音的关联矩阵，用于表征输入的眼动和语音之间的时空相似性。该关联矩阵为一个三维矩阵，此关联矩阵为图片整体层的第二个特征。

通过根据上述语音数据和眼动数据确定预设特征的步骤，可以拓展了特征数据形式的种类，提高了看图说话测试的准确性。

在一个可选的实施例中，上述预设特征可用于认知障碍标签(如正常/轻度认知障碍/痴呆等)分类判决、认知障碍程度回归分析、情绪障碍标签(如焦虑/抑郁等)分类判决及其他疾病(如自闭症等)分类判决等应用。将上述词语层特征、句子层特征和图像层特征整合并用于分类或回归模型时，可将图像层的关联矩阵通过卷积核，转为一维向量，并将视觉热焦点图也转为一维向量，再和词语层和句子层的一维向量合并。当进行分类运算时，也可以考虑将三层特征分别通过分类器输出标签后再投票得出最终结果，在此不做具体限定。

与上述图2a所示的实施例一致的，请参阅图3，图3是本申请实施例提供的一种电子设备300的结构示意图，如图所示，所述电子设备300包括应用处理器310、存储器320、通信接口330以及一个或多个程序321，其中，所述一个或多个程序321被存储在上述存储器320中，并且被配置由上述应用处理器310执行，所述一个或多个程序321包括用于执行以下步骤的指令；

采集被测试者在注视目标图像时的语音数据和眼动数据；

可以看出，电子设备可以同步采集被测试者的语音数据和眼动数据，并根据上述语音数据和眼动数据的结合确定预设特征，将视觉和语音形成统一的判断标准，拓展了特征数据形式的种类，提高了看图说话测试的准确性。

在一个可能的实施例中，在根据所述语音数据和眼动数据确定预设特征方面，所述程序中的指令具体用于执行以下操作：

根据所述语音数据确定所述被测试者的语音描述数据和注视数据，所述语音描述数据用于表示所述被测试者的语言表达内容，所述注视数据用于表示所述被测试者的眼球运动状态；

根据所述语音描述数据和所述注视数据确定预设特征。

在一个可能的实施例中，在所述根据所述语音数据确定所述被测试者的语音描述数据和注视数据方面，所述程序中的指令具体用于执行以下操作：

将所述语音数据转换为文字数据；

根据预设的图像描述近似词映射关系表，确定与所述文字数据对应的语音描述数据，所述语音描述数据包括描述对象、描述起始时间戳、描述中止时间戳；

根据所述眼动数据在所述目标图像上的移动轨迹确定对应的所述注视数据，所述注视数据包括注视对象、注视对象起始时间戳、注视对象中止时间戳、注视对象次数。

在一个可能的实施例中，在所述预设特征包括词语层特征，所述根据所述语音描述数据和所述注视数据确定预设特征方面，所述程序中的指令具体用于执行以下操作：

根据每个名词对应的所述描述起始时间戳与所述注视对象起始时间戳之间的时间差确定描述延迟；

根据获取到的在所述描述延迟内所述被测试者与当前描述对象不同的注视对象次数确定描述难度；

根据所述描述延迟和所述描述难度确定所述词语层特征。

在一个可能的实施例中，在所述预设特征包括句子层特征，所述根据所述语音描述数据和所述注视数据确定预设特征方面，所述程序中的指令具体用于执行以下操作：

提取出所述文字数据中的简单句结构，所述简单句结构包括名词状态句型和动作描述句型，所述名词状态句型包括3个名词，所述动作描述句型依照词语顺序包括名词、动词、名词；根据所述简单句结构、所述句子中每个词语的描述对象、描述起始时间戳、描述中止时间戳、注视对象起始时间戳、注视对象中止时间戳确定句子层特征。

在一个可能的实施例中，在所述简单句结构为名词状态句型；所述根据所述句子中每个词语的描述对象、描述起始时间戳、描述中止时间戳、所述注视数据中的注视对象、注视对象起始时间戳、注视对象中止时间戳确定句子层特征方面，所述程序中的指令具体用于执行以下操作：

确定所述描述起始时间戳前与所述描述对象对应的所述注视对象的总注视时长，所述总注视时长为针对所述注视对象的至少一次注视动作的单次注视时长的和，单次注视时长通过注视对象起始时间戳与对应的注视对象中止时间戳确定；

确定在所述描述中止时间戳后与所述描述对象对应的所述注视对象的总注视时长；

在一个可能的实施例中，在所述简单句结构为动作描述句型；所述根据所述句子中每个词语的描述对象、描述起始时间戳、描述中止时间戳、所述注视数据中的注视对象、注视对象起始时间戳、注视对象中止时间戳确定句子层特征方面，所述程序中的指令具体用于执行以下操作：

确定动词前名词的描述起始时间戳之前，所述动词前名词对应的注视对象时长与动词后名词对应的注视对象时长的时间差，所述动词前名词对应的注视对象时长为针对所述动词前名词的至少一次注视动作的单次注视时长的和，单次注视时长通过对所述动词前名词的每次注视的所述注视对象起始时间戳与所述对应的注视对象中止时间戳之间的时间差之和确定，所述动词后名词对应的注视对象时长为针对所述动词后名词的至少一次注视动作的单次注视时长的和，单次注视时长通过对所述动词后名词的每次注视的所述注视对象起始时间戳与所述对应的注视对象中止时间戳之间的时间差之和确定；

根据上述4个时间差确定所述句子层特征。在一个可能的实施例中，在所述预设特征包括图像层特征；所述根据所述语音描述数据和所述注视数据确定预设特征方面，所述程序中的指令具体用于执行以下操作：

根据所述注视对象、所述注视对象起始时间戳和所述注视对象中止时间戳得到视觉热焦点图像；

根据所述视觉热焦点图像对所述目标图像进行赋值得到热焦点赋值图像；

通过语音图像配对模型建立所述热焦点赋值图像与所述语音描述数据的映射关系；

根据所述视觉热焦点图像与所述映射关系确定所述图像层特征。

在一个可能的实施例中，在所述语音图像配对模型包括语音卷积神经网络和图像卷积神经网络；所述通过语音图像配对模型建立所述热焦点赋值图像与所述语音描述数据的映射关系方面，所述程序中的指令具体用于执行以下操作：

通过所述语音卷积神经网络将所述语音描述数据进行切分得到M段音频数据，通过所述图像卷积神经网络将所述热焦点赋值图像分成N个像素块，M、N为正整数；

将所述M段音频数据与所述N个像素块进行匹配建立特定音频数据与特定像素块的映射关系。

在一个可能的实施例中，在所述采集被测试者的语音数据和眼动数据方面，所述程序中的指令具体用于执行以下操作：

通过心理学专业工具包Psychtoolbox调用眼动仪和麦克风在矩阵实验室Matlab环境下同步采集被测试者的所述语音数据和所述眼动数据，或，通过心理学实验操作平台E-Prime，调用眼动仪和麦克风同步采集被测试者的所述语音数据和所述眼动数据。

上述主要从方法侧执行过程的角度对本申请实施例的方案进行了介绍。可以理解的是，电子设备为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所提供的实施例描述的各示例的单元及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法示例对电子设备进行功能单元的划分，例如，可以对应各个功能划分各个功能单元，也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。需要说明的是，本申请实施例中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

图4是本申请实施例中所涉及的特征提取装置400的功能单元组成框图。该特征提取装置400应用于电子设备，上述特征提取装置包括处理单元401和通信单元402，其中，

上述处理单元401，用于通过通信单元采集被测试者在注视目标图像时的语音数据和眼动数据；以及用于根据所述语音数据和所述眼动数据确定预设特征，所述预设特征用于反映所述被测试者针对所述目标图像的认知能力。

其中，所述特征提取装置400还可以包括存储单元403，用于存储电子设备的程序代码和数据。所述处理单元401可以是处理器，所述通信单元402可以是内部通信接口，存储单元403可以是存储器。

可以看出，本申请实施例中，特征提取装置400可以同步采集被测试者的语音数据和眼动数据，并根据上述语音数据和眼动数据的结合确定预设特征，将视觉和语音形成统一的判断标准，拓展了特征数据形式的种类，提高了看图说话测试的准确性。

在一个可能的实施例中，在根据所述语音数据和眼动数据确定预设特征方面，所述处理单元410具体用于：

根据所述语音描述数据和所述注视数据确定预设特征。

在一个可能的实施例中，在所述根据所述语音数据确定所述被测试者的语音描述数据和注视数据方面，所述处理单元410具体用于：

将所述语音数据转换为文字数据；

在一个可能的实施例中，在所述预设特征包括词语层特征，所述根据所述语音描述数据和所述注视数据确定预设特征方面，所述处理单元410具体用于：

根据所述描述延迟和所述描述难度确定所述词语层特征。

在一个可能的实施例中，在所述预设特征包括句子层特征，所述根据所述语音描述数据和所述注视数据确定预设特征方面，所述处理单元410具体用于：

提取出所述文字数据中的简单句结构，所述简单句结构包括名词状态句型和动作描述句型，所述名词状态句型包括3个名词，所述动作描述句型依照词语顺序包括名词、动词、名词；

根据所述简单句结构、所述句子中每个词语的描述对象、描述起始时间戳、描述中止时间戳、注视对象起始时间戳、注视对象中止时间戳确定句子层特征。

在一个可能的实施例中，在所述简单句结构为名词状态句型；所述根据所述句子中每个词语的描述对象、描述起始时间戳、描述中止时间戳、所述注视数据中的注视对象、注视对象起始时间戳、注视对象中止时间戳确定句子层特征方面，所述处理单元410具体用于：

确定在所述描述起始时间戳前与所述描述对象对应的所述注视对象的总注视时长，所述总注视时长为针对所述注视对象的至少一次注视动作的单次注视时长的和，单次注视时长通过注视对象起始时间戳与对应的注视对象中止时间戳确定；

在一个可能的实施例中，在所述简单句结构为动作描述句型；所述根据所述句子中每个词语的描述对象、描述起始时间戳、描述中止时间戳、所述注视数据中的注视对象、注视对象起始时间戳、注视对象中止时间戳确定句子层特征方面，所述处理单元410具体用于：

根据上述4个时间差确定所述句子层特征。

在一个可能的实施例中，在所述预设特征包括图像层特征；所述根据所述语音描述数据和所述注视数据确定预设特征方面，所述处理单元410具体用于：

根据所述视觉热焦点图像对所述目标图像进行赋值得到热焦点赋值图像；通过语音图像配对模型建立所述热焦点赋值图像与所述语音描述数据的映射关系；

在一个可能的实施例中，在所述语音图像配对模型包括语音卷积神经网络和图像卷积神经网络；所述通过语音图像配对模型建立所述热焦点赋值图像与所述语音描述数据的映射关系方面，所述处理单元410具体用于：

在一个可能的实施例中，在所述采集被测试者的语音数据和眼动数据方面，所述处理单元410具体用于：

本申请实施例还提供一种计算机存储介质，其中，该计算机存储介质存储用于电子数据交换的计算机程序，该计算机程序使得计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤，上述计算机包括电子设备。

本申请实施例还提供一种计算机程序产品，上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，上述计算机程序可操作来使计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。该计算机程序产品可以为一个软件安装包，上述计算机包括电子设备。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例上述方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取器(英文：Random Access Memory，简称：RAM)、磁盘或光盘等。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种特征提取方法，其特征在于，应用于电子设备，所述方法包括：

采集被测试者在注视目标图像时的语音数据和眼动数据；

2.根据权利要求1所述的方法，其特征在于，根据所述语音数据和眼动数据确定预设特征，包括：

根据所述语音描述数据和所述注视数据确定预设特征。

3.根据权利要求1或2所述的方法，其特征在于，所述根据所述语音数据确定所述被测试者的语音描述数据和注视数据，包括：

将所述语音数据转换为文字数据；

4.根据权利要求3所述的方法，其特征在于，所述预设特征包括词语层特征，所述根据所述语音描述数据和所述注视数据确定预设特征，包括：

根据所述语音描述数据中的每个描述对象对应的所述描述起始时间戳与第一次注视所述每个描述对象对应的注视对象的注视对象起始时间戳之间的时间差确定描述延迟；

根据获取到的在所述描述延迟内所述被测试者对当前描述对象的注视对象次数确定描述难度；

根据所述描述延迟和所述描述难度确定所述词语层特征。

5.根据权利要求3所述的方法，其特征在于，所述预设特征包括句子层特征，所述根据所述语音描述数据和所述注视数据确定预设特征，包括：

根据所述句子中每个词语对应的描述对象、描述起始时间戳、描述中止时间戳、注视对象、注视对象起始时间戳、注视对象中止时间戳确定句子层特征。

6.根据权利要求5所述的方法，其特征在于，所述简单句结构为名词状态句型；所述根据所述句子中每个词语对应的描述对象、描述起始时间戳、描述中止时间戳、所述注视数据中的注视对象、注视对象起始时间戳、注视对象中止时间戳确定句子层特征，包括：

7.根据权利要求5所述的方法，其特征在于，所述简单句结构为动作描述句型；所述根据所述句子中每个词语的描述对象、描述起始时间戳、描述中止时间戳、所述注视数据中的注视对象、注视对象起始时间戳、注视对象中止时间戳确定句子层特征，包括：

根据上述4个时间差确定所述句子层特征。

8.根据权利要求3所述的方法，其特征在于，所述预设特征包括图像层特征；所述根据所述语音描述数据和所述注视数据确定预设特征，包括：

9.根据权利要求8所述的方法，其特征在于，所述语音图像配对模型包括语音卷积神经网络和图像卷积神经网络；所述通过语音图像配对模型建立所述热焦点赋值图像与所述语音描述数据的映射关系，包括：

10.根据权利要求1～9所述的方法，其特征在于，所述采集被测试者的语音数据和眼动数据，包括：

11.一种特征提取装置，其特征在于，包括处理单元和通信单元，所述处理单元用于：

采集被测试者在注视目标图像时的语音数据和眼动数据；

12.一种电子设备，其特征在于，包括处理器、存储器，以及一个或多个程序，所述一个或多个程序被存储在所述存储器中，并且被配置由所述处理器执行，所述程序包括用于执行如权利要求1～10任一项所述的方法中的步骤的指令。

13.一种计算机可读存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1～10任一项所述的方法。