CN109284387B - 刻板特异用语检测系统、方法、计算机设备和存储介质 - Google Patents
刻板特异用语检测系统、方法、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN109284387B CN109284387B CN201811220434.7A CN201811220434A CN109284387B CN 109284387 B CN109284387 B CN 109284387B CN 201811220434 A CN201811220434 A CN 201811220434A CN 109284387 B CN109284387 B CN 109284387B
- Authority
- CN
- China
- Prior art keywords
- text
- model
- dependency relationship
- autism
- target person
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 48
- 206010003805 Autism Diseases 0.000 claims abstract description 71
- 208000020706 Autistic disease Diseases 0.000 claims abstract description 71
- 230000006399 behavior Effects 0.000 claims abstract description 58
- 206010042008 Stereotypy Diseases 0.000 claims abstract description 55
- 238000012549 training Methods 0.000 claims abstract description 55
- 230000014509 gene expression Effects 0.000 claims abstract description 47
- 238000012706 support-vector machine Methods 0.000 claims abstract description 45
- 238000000605 extraction Methods 0.000 claims abstract description 18
- 238000004458 analytical method Methods 0.000 claims abstract description 10
- 239000013598 vector Substances 0.000 claims description 40
- 238000000034 method Methods 0.000 claims description 37
- 230000006870 function Effects 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 13
- 230000003111 delayed effect Effects 0.000 claims description 13
- 238000005315 distribution function Methods 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 10
- 238000002474 experimental method Methods 0.000 description 14
- 238000012360 testing method Methods 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 7
- 238000013145 classification model Methods 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 6
- 230000002441 reversible effect Effects 0.000 description 6
- 230000003993 interaction Effects 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 4
- 208000029560 autism spectrum disease Diseases 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000003542 behavioural effect Effects 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 230000036651 mood Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 208000022379 autosomal dominant Opitz G/BBB syndrome Diseases 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000035475 disorder Diseases 0.000 description 1
- 230000004064 dysfunction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001123 neurodevelopmental effect Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003997 social interaction Effects 0.000 description 1
- CJUDSKIRZCSXJA-UHFFFAOYSA-M sodium;3-(n-ethyl-3-methoxyanilino)-2-hydroxypropane-1-sulfonate Chemical compound [Na+].[O-]S(=O)(=O)CC(O)CN(CC)C1=CC=CC(OC)=C1 CJUDSKIRZCSXJA-UHFFFAOYSA-M 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种孤独症刻板特异用语检测系统,包括:采集模块:用于对被测目标人进行录音音频采集;语音识别模块:用于识别采集的所述音频,将所述音频内容转化为文本信息;文本特征提取模块:用于对所述文本信息进行特征提取并标记;训练分类模块:用于利用已标记的所述文本特征集以及文本训练分类器,进行刻板特异用语检测,所述文本训练分类器包括支持向量机模型和最大熵模型;预测模块:用于根据所述训练分类模块得到的检测结果进行判断是否存在孤独症刻板特异用语行为。采用该技术方案,能够通过计算机技术分析实际被测目标人的语言行为来检测被测目标人是否存在孤独症刻板特异用语行为。
Description
技术领域
本申请涉及孤独症检测技术领域,特别是涉及一种孤独症刻板特异用语检测系统、方法、计算机设备和存储介质。
背景技术
孤独症谱系障碍,是近年来患病率不断增高的一种神经发育性障碍。被诊断为孤独症谱系障碍的患者,一般在社交互动、语言交流方面存在一定的障碍,并且经常伴有重复刻板行为动作。
据医学研究显示,患有该疾病的婴幼儿往往在一岁半到两岁时就表现出一些明显的行为外表型特征。并且在国内外医学研究中,早期、及时的语言和行为层面的干预治疗也被证明可以改善和提高孤独症患者在认知和语言表达的能力。正因如此,早期及时的发现孤独症患者就变得尤为重要。但目前国内的大多数孤独症谱系障碍评估方法,都需要依靠专业的医师来进行长时间的观察。因此,我们目前需要设计出一套能够迅速、准确地进行孤独症异常语言用语检测的系统,来为婴幼儿提供帮助。
刻板特异用语指标,被广泛用于孤独症诊断观察表ADOS单元三及其他不同量表中,作为一个重要的评分项。该评分项目主要关注的是被测目标人是否存在特定的语言缺陷,重在评估被测目标人在交互沟通中的语言内容,总体来说,该评分项主要是考察被测目标人是否过度地使用怪异和刻板的单字或短语。刻板特异用语这一评分项,主要是基于对话任务进行评分。在对话任务中,诊断医师根据要求,对被测目标人提出多个问题。在被测目标人对某个问题做出回答后,诊断医生会简单地展开回答内容继续询问。直到询问完所有表中规定问题,任务结束。如何利用现有的语音识别技术以及自然语言处理技术,来开展针对刻板特异用语的检测分类,对于研制计算机智能检测孤独症装置具有显著意义。
发明内容
基于此,有必要针对上述技术问题,提供一种能够检测被测目标人在自然交互和沟通中是否存在孤独症刻板特异用语行为的系统、方法、计算机设备和存储介质。
一种孤独症刻板特异用语检测系统,包括:
采集模块:用于对被测目标人进行录音音频采集;
语音识别模块:用于识别采集的所述音频,将所述音频内容转化为文本信息;
文本特征提取模块:用于对所述文本信息进行特征提取并标记;
训练分类模块:用于利用已标记的所述文本特征集以及文本训练分类器,进行刻板特异用语检测,所述文本训练分类器包括支持向量机模型和最大熵模型;
预测模块:用于根据所述训练分类模块得到的检测结果进行判断是否存在孤独症刻板特异用语行为。
可选地,所述支持向量机模型用于对已标记的所述文本特征集进行分类器训练;所述最大熵模型是通过一系列特征函数fi(w,c)来计算标记结果c与文本中包含的所有词w后验概率P(c|w)的分类方法,计算式方式:
其中λ和Z(w)分别代表权重和配分函数,将被测目标人的说话文本作为模型输入,以最大化后验概率P(c|w)为目标训练最大熵模型。
可选地,选取二元文法为所述最大熵模型的特征函数,公式如下:
函数gi用来描述二元文法(wj,wj+1)和预测结果c之间的联系,通过统计被测目标人文本中所有的二元文法来统计计算gi的值。
设定门限值,当检测分数大于所述门限值时,则判断为存在孤独症刻板特异用语行为。
可选地,所述文本特征提取模块提取文本特征集包括语言模型特征、余弦相似性特征、依存关系特征中任一种或任几种组合。
可选地,所述语言模型特征使用二阶马尔科夫链对语言模型进行化简,即将困惑度P(w1,w2,…,wm)改写为:
其中,含有m个词组成的句子,语言模型描述词序列w1,w2,…,wm为按序联合的概率。
可选地,所述余弦相似性特征用于提取鉴别所述文本信息中是否存在延迟性仿说现象的特征,包括:将文本转化成句向量,对于每一个句向量,计算其与文本中其他句向量的相似性,来判断是否存在延迟性仿说现象,利用句向量间的余弦距离来定义其相似性。
可选地,所述依存关系特征用于比对文本中的依存关系与依存关系数据库中存在的所有依存关系,将所述依存关系数据库与文本中依存关系相同的依存关系统计值作为依存关系特征。
另外,本发明还提供了一种孤独症刻板特异用语检测方法,包括:
对被测目标人进行录音音频采集;
识别采集的所述音频,将所述音频内容转化为文本信息;
对所述文本信息进行特征提取并标记;
利用已标记的所述文本特征集以及文本训练分类器,进行刻板特异用语检测,所述文本训练分类器包括支持向量机模型和最大熵模型;
根据得到的检测结果进行判断是否存在孤独症刻板特异用语行为。
可选地,所述支持向量机模型对已标记的所述文本特征集进行分类器训练;所述最大熵模型是通过一系列特征函数fi(w,c)来计算标记结果c与文本中包含的所有词w后验概率P(c|w)的分类方法,计算式方式:
其中λ和Z(w)分别代表权重和配分函数,将被测目标人的说话文本作为模型输入,以最大化后验概率P(c|w)为目标训练最大熵模型。
可选地,选取二元文法为所述最大熵模型的特征函数,公式如下:
函数gi用来描述二元文法(wj,wj+1)和预测结果c之间的联系,通过统计被测目标人文本中所有的二元文法来统计计算gi的值。
设定门限值,当检测分数大于所述门限值时,则判断为存在孤独症刻板特异用语行为。
可选地,提取文本特征集包括语言模型特征、余弦相似性特征、依存关系特征中任一种或任几种组合。
可选地,所述语言模型特征使用二阶马尔科夫链对语言模型进行化简,即将困惑度P(w1,w2,…,wm)改写为:
其中,含有m个词组成的句子,语言模型描述词序列w1,w2,…,wm为按序联合的概率。
可选地,所述余弦相似性特征:提取鉴别所述文本信息中是否存在延迟性仿说现象的特征,包括:将文本转化成句向量,对于每一个句向量,计算其与文本中其他句向量的相似性,来判断是否存在延迟性仿说现象,利用句向量间的余弦距离来定义其相似性。
可选地,所述依存关系特征为比对文本中的依存关系与依存关系数据库中存在的所有依存关系,将所述依存关系数据库与文本中依存关系相同的依存关系统计值作为依存关系特征。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如下所述方法的步骤:
对被测目标人进行录音音频采集;
识别采集的所述音频,将所述音频内容转化为文本信息;
对所述文本信息进行特征提取并标记;
利用已标记的所述文本特征集以及文本训练分类器,进行刻板特异用语检测,所述文本训练分类器包括支持向量机模型和最大熵模型;
根据得到的检测结果进行判断是否存在孤独症刻板特异用语行为。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如下所述的方法的步骤:
对被测目标人进行录音音频采集;
识别采集的所述音频,将所述音频内容转化为文本信息;
对所述文本信息进行特征提取并标记;
利用已标记的所述文本特征集以及文本训练分类器,进行刻板特异用语检测,所述文本训练分类器包括支持向量机模型和最大熵模型;
根据得到的检测结果进行判断是否存在孤独症刻板特异用语行为。
上述孤独症刻板特异用语检测系统、方法、计算机设备和存储介质,通过基于语音识别和文本分析技术的孤独症刻板特异用语检测系统,旨在通过计算机技术分析实际被测目标人的语言行为,来检测被测目标人是否存在孤独症刻板特异用语行为。具体的,本发明借助语音识别技术和自然语言处理技术,检测语音音频中是否存在孤独症刻板特异用语行为。
附图说明
图1为一个实施例中一种孤独症刻板特异用语检测系统框图;
图2为一个实施例中一种孤独症刻板特异用语检测方法流程示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种孤独症刻板特异用语检测系统,包括依次连接的采集模块10、语音识别模块20、文本特征提取模块30、训练分类模块40和预测模块50,其中,
所述采集模块10用于对被测目标人与正常个体在实际交互和沟通中的音频进行录音采集;可以但不限于,通过麦克风等录音设备进行录音采集。
所述语音识别模块20用于识别采集的所述音频,将所述音频内容转化为文本信息;得到被测目标人的说话内容,可以但不限于,首先对音频进行特征提取,将提取的音频特征输入到基于神经网络的声学模型中,得到该音频在时间上的发音信息,接下来通过解码器对声学信息进行解码识别,获得音频的识别文本。
所述文本特征提取模块30用于对所述文本信息进行特征提取并标记;可以但不限于,在一个实施例中,所述文本特征提取模块提取文本特征集包括语言模型特征、余弦相似性特征、依存关系特征中任一种或任几种组合。
所述语言模型特征使用二阶马尔科夫链对语言模型进行化简,即将困惑度P(w1,w2,…,wm)改写为:
其中,含有m个词组成的句子,语言模型描述词序列w1,w2,…,wm为按序联合的概率。
所述余弦相似性特征用于提取鉴别被测目标人文本中是否存在延迟性仿说现象的特征。使用TF-IDF(Term Frequency-Inverse Document Frequency)算法将文本转化成句向量,通过比较不同文本的句向量来分析文本之间的相似度,相似度高表示延迟性仿说现象存在,该算法的主体是两个统计量的定义,即词频和逆向文件频率。通过计算词频和逆向文件频率,得到文本中所有词的TF-IDF数值,进而将所有的词都置换成TF-IDF数值,把文本中的所有句子转化成了句向量。对于每一个句向量,计算其与被测目标人文本中其他句向量的相似性,来判断是否存在延迟性仿说现象。我们利用句向量间的余弦距离来定义其相似性,作为余弦相似性特征。
所述依存关系特征通过使用依存分析来分析被测目标人文本中是否存在搭配不当的语句和短语,分析词与词之间的依存来理解一个句子的结构。在依存语法理论中,“依存”就是指词与词之间支配与被支配的二元关系,这种关系不是对等的,而是有方向的,处于支配地位的成分叫做支配着,而处于被支配地位的叫做从属者。在分析被测目标人的文本时,比对被测目标人文本中的依存关系和已有大规模依存关系数据库中存在的所有依存关系,将数据库中存在和被测目标人文本中依存关系相同的依存关系统计值作为依存关系特征。
所述的训练分类模块40用于利用已标记的所述文本特征集以及文本训练分类器,进行刻板特异用语检测,所述文本训练分类器包括支持向量机模型和最大熵模型;在一个实施例中,支持向量机模型:使用支持向量机SVM对已标记的特征集(语言模型特征,余弦相似性特征,依存关系特征)进行分类器训练。在训练阶段,被测目标人已知是否存在孤独症刻板特异用语行为,使用特征提取模块30提取的特征以及已知标签,训练支持向量机SVM。另外,使用被测目标人文本的所有二元文法集合,训练最大熵分类模型作为检测系统的分类器。
最大熵模型:最大熵模型算法是通过一系列特征函数fi(w,c)来计算标记结果c与文本中包含的所有词w后验概率P(c|w)的分类方法。计算式由以下式子所示:
其中λ和Z(w)分别代表权重和配分函数,将被测目标人的说话文本作为模型输入,以最大化后验概率P(c|w)为目标训练最大熵模型。
在一个实施例中,选取二元文法为最大熵模型的特征函数,公式如下:
函数gi用来描述二元文法(wj,wj+1)和预测结果c之间的联系。通过统计被测目标人文本中所有的二元文法来统计计算gi的值,可以从用词方向,反映被测目标人交互和沟通时的总体表现。
所述预测模块50用于根据所述训练分类模块得到的检测结果进行判断是否存在孤独症刻板特异用语行为。在预测阶段,所述特征提取模块30提取的特征在训练阶段得到的支持向量机SVM上打分,以及在最大熵分类模型上打分,两个模型得到的分加权后判断是否大于所设门限值,得到预测结果。
在一个实施例中,由训练分类模块得到孤独症刻板特异用语检测模型对测试者音频语音识别后的文本进行测试,所述预测模块分别在支持向量机模型SVM得到的分数和最大熵模型上得到分数结合权值参数α来得到最后的模型检测分数。
得到测试者分数后,基于设定的门限值T,检测该测试者是否存在孤独症刻板特异用语行为。当分数ρi大于T时,预测该测试者存在孤独症刻板特异用语行为,反之,预测该测试者不存在孤独症刻板特异用语行为。
在一个实施例中,所述采集模块10用于采集被测目标人与孤独症诊断医师交互和沟通时的音频录音。本组实验中通过个体佩戴麦克风来采集录音。本组实验中,孤独症刻板特异用语行为用0,1,2三个等级来分别行为严重程度,0代表无刻板特异用语行为,2代表孤独症刻板特异用语行为严重。共采集到一组数据,包含71个小孩,每个小孩进行三次对话任务,主题分别为“朋友与婚姻”,“社交困难与烦恼”,“情绪”,其中等级0有11位,等级1有42位,等级2有18位。本组实验采用二分类,1,2等级都代表存在孤独症刻板特异用语行为,归类在一起。0单独作为一类代表无刻板特异用语行为。按不同主题独立切分开三个任务,共得到213条对话文本。其中149条作为系统模型的训练数据,64条作为本系统的测试数据。
所述语音识别模块20对被测目标人的所有语音进行识别。首先,对音频进行特征提取,本实验使用梅尔倒频谱系数(MFCC),将提取的特征输入到语音声学模型,得到音频在音素级别发音的信息。接下来把音素级别的发音信息输入到语音识别解码器,根据解码器里的字典以及语言模型解码出句子,也就是识别出文本。
所述特征提取模块30对71个被测目标人的识别文本进行特征提取,本组实验中使用语言模型特征,余弦相似性特征,依存关系特征。依次对每个被测目标人的文本提取上述3种特征:
语言模型特征:首先使用语言模型训练工具(如SRILM工具包)处理已有的语料库文本生成三元文法语言模型。基于语料库的语言模型,通过公式计算得到被测目标人文本的困惑度P(w1,w2,…,wm),作为语言模型特征:
余弦相似性特征:通过计算文本里的词频和逆向文件频率,得到文本中所有词的TF-IDF数值,进而将所有的词都置换成TF-IDF数值,把文本中的所有句子转化成了句向量。对于每一个句向量,计算其与被测目标人文本中其他句向量的相似性,实验中利用句向量间的余弦距离来定义其相似性,作为余弦相似性特征。
依存关系特征:首先将已有的语料库文本存在的依存关系统计出来。在分析被测目标人的文本时,比对被测目标人文本中的依存关系和已有大规模依存关系数据库中存在的所有依存关系,将数据库中存在和被测目标人文本中依存关系相同的依存关系统计值作为依存关系特征。
所述分类器训练模块40训练孤独症刻板特异用语行为的判别模型,使用一个二元分类器算法来训练已经标注好的特征。本次实验中,使用支持向量机(supportvectormachine,SVM)对标记的标签进行分类。线性SVM从训练数据中学习到一个边界,使得两种不同类别的特征区分度尽可能大。
所述预测模块50检测被测目标人是否存在孤独症刻板特异用语行为。由训练分类模块得到孤独症刻板特异用语检测模型对测试者音频语音识别后的文本进行测试,分别在支持向量机模型SVM得到的分数和最大熵模型上得到分数结合权值参数α来得到最后的模型检测分数。
得到测试者分数后,基于设定的门限值T,检测该测试者是否存在孤独症刻板特异用语行为。当分数大于T时,预测该测试者存在孤独症刻板特异用语行为,反之预测该测试者不存在孤独症刻板特异用语行为。
实验结果评估方法:
本次实验中,主要使用四个方法来评估实验的模型的表现。除了平时所使用的准确率外,针对检测分类问题,还引入了召回率、精确率和F1分数的概念。召回率、精确率和F1分数,是在二分类问题中三个经典的评估方法,概念的定义如下:
召回率的定义为:
精确率的定义为:
F1分数的定义为:
以上公式中,l代表分类问题中的总类别数,tpi代表,第i类中,被预测正确的样本数。fni代表,实际标签为i,但被预测错误的样本数。fpi则代表,被预测为i,但被预测错误的样本数。
实验结果:
下表1对应了系统中利用不同特征的4种方法的实验结果,4种方法分别在不同特征层面上训练的分类模型,分别是:单最大熵模型MaxEnt,MaxEnt+LIWC,LIWC+语言模型特征+依存关系特征+余弦相似性特征,MaxEnt+LIWC+语言模型特征+依存关系特征+余弦相似性特征,表格1:各模型的实验结果
如表格1所示,系统4在数据集上取得了不错的表现。准确率达到82.8%,F1分数则是达到69.2%。从各项指标来看,系统的SVM部分,即表格中系统3,在测试结果上有更好的表现。下面是系统3和系统4在二分类问题上对64条测试集分类的混淆矩阵。
表2系统<语言模型特征+依存关系特征+余弦相似性特征>二分类混淆矩阵
表3系统<MaxEnt+语言模型特征+依存关系特征+余弦相似性特征>二分类混淆矩阵
可见,基于语音识别和文本分析的孤独症刻板特异用语行为检测系统,借助计算机技术对被测试目标人的语音进行语言表达层面的分析,系统所用特征具有表述孤独症刻板特异用语行为的能力,进而能预测测试人是否存在孤独症刻板特异用语行为。相比于传统的依靠专业医师互动以及沟通分析,可以节约人工成本,在语言表达层面给出更加准确和方便的风险预测。
上述一种孤独症刻板特异用语检测系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,如图2所示,本发明还提供了一种孤独症刻板特异用语检测方法,包括:
S100、对被测目标人进行录音音频采集;可以但不限于,通过麦克风等录音设备进行录音采集。
S200、识别采集的所述音频,将所述音频内容转化为文本信息;可以但不限于,首先对音频进行特征提取,将提取的音频特征输入到基于神经网络的声学模型中,得到该音频在时间上的发音信息,接下来通过解码器对声学信息进行解码识别,获得音频的识别文本。
S300、对所述文本信息进行特征提取并标记;可以但不限于,在一个实施例中,提取文本特征集包括语言模型特征、余弦相似性特征、依存关系特征中任一种或任几种组合。
所述语言模型特征使用二阶马尔科夫链对语言模型进行化简,即将困惑度P(w1,w2,…,wm)改写为:
其中,含有m个词组成的句子,语言模型描述词序列w1,w2,…,wm为按序联合的概率。
所述余弦相似性特征用于提取鉴别被测目标人文本中是否存在延迟性仿说现象的特征。使用TF-IDF(Term Frequency-Inverse Document Frequency)算法将文本转化成句向量,通过比较不同文本的句向量来分析文本之间的相似度,相似度高表示延迟性仿说现象存在,该算法的主体是两个统计量的定义,即词频和逆向文件频率。通过计算词频和逆向文件频率,得到文本中所有词的TF-IDF数值,进而将所有的词都置换成TF-IDF数值,把文本中的所有句子转化成了句向量。对于每一个句向量,计算其与被测目标人文本中其他句向量的相似性,来判断是否存在延迟性仿说现象。我们利用句向量间的余弦距离来定义其相似性,作为余弦相似性特征。
所述依存关系特征通过使用依存分析来分析被测目标人文本中是否存在搭配不当的语句和短语,分析词与词之间的依存来理解一个句子的结构。在依存语法理论中,“依存”就是指词与词之间支配与被支配的二元关系,这种关系不是对等的,而是有方向的,处于支配地位的成分叫做支配着,而处于被支配地位的叫做从属者。如图2所示,图中用带有方向的弧来表示两个词之间的依存关系;在分析被测目标人的文本时,比对被测目标人文本中的依存关系和已有大规模依存关系数据库中存在的所有依存关系,将数据库中存在和被测目标人文本中依存关系相同的依存关系统计值作为依存关系特征。
S400、利用已标记的所述文本特征集以及文本训练分类器,进行刻板特异用语检测,所述文本训练分类器包括支持向量机模型和最大熵模型;在一个实施例中,支持向量机模型:使用支持向量机SVM对已标记的特征集(语言模型特征,余弦相似性特征,依存关系特征)进行分类器训练。在训练阶段,被测目标人已知是否存在孤独症刻板特异用语行为,使用特征提取模块30提取的特征以及已知标签,训练支持向量机SVM。另外,使用被测目标人文本的所有二元文法集合,训练最大熵分类模型作为检测系统的分类器。
S500、根据得到的检测结果进行判断是否存在孤独症刻板特异用语行为。
在一个实施例中,所述支持向量机模型对已标记的所述文本特征集进行分类器训练;所述最大熵模型是通过一系列特征函数fi(w,c)来计算标记结果c与文本中包含的所有词w后验概率P(c|w)的分类方法,计算式方式:
其中λ和Z(w)分别代表权重和配分函数,将被测目标人的说话文本作为模型输入,以最大化后验概率P(c|w)为目标训练最大熵模型。
在一个实施例中,选取二元文法为所述最大熵模型的特征函数,公式如下:
函数gi用来描述二元文法(wj,wj+1)和预测结果c之间的联系,通过统计被测目标人文本中所有的二元文法来统计计算gi的值。
在一个实施例中,根据检测结果进行判断是否存在孤独症刻板特异用语行为,在预测阶段,提取的特征在训练阶段得到的支持向量机SVM上打分,以及在最大熵分类模型上打分,两个模型得到的分加权后判断是否大于所设门限值,得到预测结果,包括:分别在所述支持向量机模型得到的分数和最大熵模型得到分数结合权值参数α得到最后的模型检测分数:
设定门限值,当检测分数大于所述门限值时,则判断为存在孤独症刻板特异用语行为,否则,则判断为不存在孤独症刻板特异用语行为。
在一个实施例中,采集被测目标人与孤独症诊断医师交互和沟通时的音频录音。本组实验中通过个体佩戴麦克风来采集录音。本组实验中,孤独症刻板特异用语行为用0,1,2三个等级来分别行为严重程度,0代表无刻板特异用语行为,2代表孤独症刻板特异用语行为严重。共采集到一组数据,包含71个小孩,每个小孩进行三次对话任务,主题分别为“朋友与婚姻”,“社交困难与烦恼”,“情绪”,其中等级0有11位,等级1有42位,等级2有18位。本组实验采用二分类,1,2等级都代表存在孤独症刻板特异用语行为,归类在一起。0单独作为一类代表无刻板特异用语行为。按不同主题独立切分开三个任务,共得到213条对话文本。其中149条作为系统模型的训练数据,64条作为本系统的测试数据。
对被测目标人的所有语音进行识别。首先,对音频进行特征提取,本实验使用梅尔倒频谱系数(MFCC),将提取的特征输入到语音声学模型,得到音频在音素级别发音的信息。接下来把音素级别的发音信息输入到语音识别解码器,根据解码器里的字典以及语言模型解码出句子,也就是识别出文本。
对71个被测目标人的识别文本进行特征提取,本组实验中使用语言模型特征,余弦相似性特征,依存关系特征。依次对每个被测目标人的文本提取上述3种特征:
语言模型特征:首先使用语言模型训练工具(如SRILM工具包)处理已有的语料库文本生成三元文法语言模型。基于语料库的语言模型,通过公式计算得到被测目标人文本的困惑度P(w1,w2,…,wm),作为语言模型特征:
余弦相似性特征:通过计算文本里的词频和逆向文件频率,得到文本中所有词的TF-IDF数值,进而将所有的词都置换成TF-IDF数值,把文本中的所有句子转化成了句向量。对于每一个句向量,计算其与被测目标人文本中其他句向量的相似性,实验中利用句向量间的余弦距离来定义其相似性,作为余弦相似性特征。
依存关系特征:首先将已有的语料库文本存在的依存关系统计出来。在分析被测目标人的文本时,比对被测目标人文本中的依存关系和已有大规模依存关系数据库中存在的所有依存关系,将数据库中存在和被测目标人文本中依存关系相同的依存关系统计值作为依存关系特征。
训练孤独症刻板特异用语行为的判别模型,使用一个二元分类器算法来训练已经标注好的特征。本次实验中,使用支持向量机(supportvectormachine,SVM)对标记的标签进行分类。线性SVM从训练数据中学习到一个边界,使得两种不同类别的特征区分度尽可能大。
检测被测目标人是否存在孤独症刻板特异用语行为,得到孤独症刻板特异用语检测模型,对测试者音频语音识别后的文本进行测试,分别在支持向量机模型SVM得到的分数和最大熵模型上得到分数结合权值参数α来得到最后的模型检测分数。
得到测试者分数后,基于设定的门限值T,检测该测试者是否存在孤独症刻板特异用语行为。当分数大于T时,预测该测试者存在孤独症刻板特异用语行为,反之预测该测试者不存在孤独症刻板特异用语行为。
实验结果评估方法:
本次实验中,主要使用四个方法来评估实验的模型的表现。除了平时所使用的准确率外,针对检测分类问题,还引入了召回率、精确率和F1分数的概念。召回率、精确率和F1分数,是在二分类问题中三个经典的评估方法,概念的定义如下:
召回率的定义为:
精确率的定义为:
F1分数的定义为:
以上公式中,l代表分类问题中的总类别数,tpi代表,第i类中,被预测正确的样本数。fni代表,实际标签为i,但被预测错误的样本数。fpi则代表,被预测为i,但被预测错误的样本数。
实验结果:
下表1对应了系统中利用不同特征的4种方法的实验结果,4种方法分别在不同特征层面上训练的分类模型,分别是:单最大熵模型MaxEnt,MaxEnt+LIWC,LIWC+语言模型特征+依存关系特征+余弦相似性特征,MaxEnt+LIWC+语言模型特征+依存关系特征+余弦相似性特征,表格1:各模型的实验结果
如表格1所示,系统4在数据集上取得了不错的表现。准确率达到82.8%,F1分数则是达到69.2%。从各项指标来看,系统的SVM部分,即表格中系统3,在测试结果上有更好的表现。下面是系统3和系统4在二分类问题上对64条测试集分类的混淆矩阵。
表2系统<语言模型特征+依存关系特征+余弦相似性特征>二分类混淆矩阵
表3系统<MaxEnt+语言模型特征+依存关系特征+余弦相似性特征>二分类混淆矩阵
可见,基于语音识别和文本分析的孤独症刻板特异用语行为检测方法,借助计算机技术对被测试目标人的语音进行语言表达层面的分析,所用特征具有表述孤独症刻板特异用语行为的能力,进而能预测测试人是否存在孤独症刻板特异用语行为。相比于传统的依靠专业医师互动以及沟通分析,可以节约人工成本,在语言表达层面给出更加准确和方便的风险预测。
应该理解的是,虽然流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种孤独症刻板特异用语检测方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
在一个实施例中,一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如下所述方法的步骤:
S100、对被测目标人进行录音音频采集;
S200、识别采集的所述音频,将所述音频内容转化为文本信息;
S300、对所述文本信息进行特征提取并标记;
S400、利用已标记的所述文本特征集以及文本训练分类器,进行刻板特异用语检测,所述文本训练分类器包括支持向量机模型和最大熵模型;
S500、根据得到的检测结果进行判断是否存在孤独症刻板特异用语行为。
在一个实施例中,一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如下所述的方法的步骤:
S100、对被测目标人进行录音音频采集;
S200、识别采集的所述音频,将所述音频内容转化为文本信息;
S300、对所述文本信息进行特征提取并标记;
S400、利用已标记的所述文本特征集以及文本训练分类器,进行刻板特异用语检测,所述文本训练分类器包括支持向量机模型和最大熵模型;
S500、根据得到的检测结果进行判断是否存在孤独症刻板特异用语行为。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (4)
1.一种孤独症刻板特异用语检测系统,其特征在于,包括:
采集模块:用于对被测目标人进行录音音频采集;
语音识别模块:用于识别采集的所述音频,将所述音频内容转化为文本信息;
文本特征提取模块:用于对所述文本信息进行特征提取并标记;
所述文本特征提取模块提取文本特征集包括语言模型特征、余弦相似性特征、依存关系特征中任一种或任几种组合;
所述语言模型特征使用二阶马尔科夫链对语言模型进行化简,即将困惑度P(w1,w2,…,wm)改写为:
其中,含有m个词组成的句子,语言模型描述词序列w1,w2,…,wm为按序联合的概率;
所述余弦相似性特征用于提取鉴别所述文本信息中是否存在延迟性仿说现象的特征,包括:将文本转化成句向量,对于每一个句向量,计算其与文本中其他句向量的相似性,来判断是否存在延迟性仿说现象,利用句向量间的余弦距离来定义其相似性;
所述依存关系特征用于比对文本中的依存关系与依存关系数据库中存在的所有依存关系,将所述依存关系数据库与文本中依存关系相同的依存关系统计值作为依存关系特征;
训练分类模块:用于利用已标记的所述文本特征集以及文本训练分类器,进行刻板特异用语检测,所述文本训练分类器包括支持向量机模型和最大熵模型;
所述支持向量机模型用于对已标记的所述文本特征集进行分类器训练;所述最大熵模型是通过一系列特征函数fi(w,c)来计算标记结果c与文本中包含的所有词w后验概率P(c|w)的分类方法,计算式方式:
其中λ和Z(w)分别代表权重和配分函数,将被测目标人的说话文本作为模型输入,以最大化后验概率P(c|w)为目标训练最大熵模型;
选取二元文法为所述最大熵模型的特征函数,公式如下:
函数gi用来描述二元文法(wj,wj+1)和预测结果c之间的联系,通过统计被测目标人文本中所有的二元文法来统计计算gi的值;
预测模块:用于根据所述训练分类模块得到的检测结果进行判断是否存在孤独症刻板特异用语行为;
设定门限值,当检测分数大于所述门限值时,则判断为存在孤独症刻板特异用语行为。
2.一种孤独症刻板特异用语检测方法,其特征在于,包括:
对被测目标人进行录音音频采集;
识别采集的所述音频,将所述音频内容转化为文本信息;
对所述文本信息进行特征提取并标记;
提取文本特征集包括语言模型特征、余弦相似性特征、依存关系特征中任一种或任几种组合;
所述语言模型特征使用二阶马尔科夫链对语言模型进行化简,即将困惑度P(w1,w2,…,wm)改写为:
其中,含有m个词组成的句子,语言模型描述词序列w1,w2,…,wm为按序联合的概率;
所述余弦相似性特征:提取鉴别所述文本信息中是否存在延迟性仿说现象的特征,包括:将文本转化成句向量,对于每一个句向量,计算其与文本中其他句向量的相似性,来判断是否存在延迟性仿说现象,利用句向量间的余弦距离来定义其相似性;
所述依存关系特征为比对文本中的依存关系与依存关系数据库中存在的所有依存关系,将所述依存关系数据库与文本中依存关系相同的依存关系统计值作为依存关系特征;
利用已标记的所述文本特征集以及文本训练分类器,进行刻板特异用语检测,所述文本训练分类器包括支持向量机模型和最大熵模型;
所述支持向量机模型对已标记的所述文本特征集进行分类器训练;所述最大熵模型是通过一系列特征函数fi(w,c)来计算标记结果c与文本中包含的所有词w后验概率P(c|w)的分类方法,计算式方式:
其中λ和Z(w)分别代表权重和配分函数,将被测目标人的说话文本作为模型输入,以最大化后验概率P(c|w)为目标训练最大熵模型;
选取二元文法为所述最大熵模型的特征函数,公式如下:
函数gi用来描述二元文法(wj,wj+1)和预测结果c之间的联系,通过统计被测目标人文本中所有的二元文法来统计计算gi的值;
根据得到的检测结果进行判断是否存在孤独症刻板特异用语行为;
设定门限值,当检测分数大于所述门限值时,则判断为存在孤独症刻板特异用语行为。
3.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求2中所述方法的步骤。
4.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求2中所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811220434.7A CN109284387B (zh) | 2018-10-19 | 2018-10-19 | 刻板特异用语检测系统、方法、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811220434.7A CN109284387B (zh) | 2018-10-19 | 2018-10-19 | 刻板特异用语检测系统、方法、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109284387A CN109284387A (zh) | 2019-01-29 |
CN109284387B true CN109284387B (zh) | 2021-06-01 |
Family
ID=65177474
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811220434.7A Active CN109284387B (zh) | 2018-10-19 | 2018-10-19 | 刻板特异用语检测系统、方法、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109284387B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110188202B (zh) * | 2019-06-06 | 2021-07-20 | 北京百度网讯科技有限公司 | 语义关系识别模型的训练方法、装置及终端 |
CN110353703B (zh) * | 2019-07-05 | 2021-11-09 | 昆山杜克大学 | 基于鹦鹉学舌语言范式行为分析的孤独症评估装置及系统 |
CN111241817A (zh) * | 2020-01-20 | 2020-06-05 | 首都医科大学 | 一种基于文本的抑郁症识别方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8938390B2 (en) * | 2007-01-23 | 2015-01-20 | Lena Foundation | System and method for expressive language and developmental disorder assessment |
CN108351862B (zh) * | 2015-08-11 | 2023-08-22 | 科格诺亚公司 | 利用人工智能和用户输入来确定发育进展的方法和装置 |
CN108369521A (zh) * | 2015-09-02 | 2018-08-03 | 埃丹帝弗有限公司 | 智能虚拟助理系统及相关方法 |
WO2017106770A1 (en) * | 2015-12-18 | 2017-06-22 | Cognoa, Inc. | Platform and system for digital personalized medicine |
CN107818141B (zh) * | 2017-10-10 | 2020-07-14 | 大连理工大学 | 融入结构化要素识别的生物医学事件抽取方法 |
CN108628970B (zh) * | 2018-04-17 | 2021-06-18 | 大连理工大学 | 一种基于新标记模式的生物医学事件联合抽取方法 |
-
2018
- 2018-10-19 CN CN201811220434.7A patent/CN109284387B/zh active Active
Non-Patent Citations (1)
Title |
---|
大数据分析应用;樊重俊;《立信会计出版社》;20160131;正文第260-262页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109284387A (zh) | 2019-01-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mirheidari et al. | Detecting Signs of Dementia Using Word Vector Representations. | |
Lee et al. | Emotion recognition using a hierarchical binary decision tree approach | |
Wu et al. | Emotion recognition of affective speech based on multiple classifiers using acoustic-prosodic information and semantic labels | |
Alonso et al. | New approach in quantification of emotional intensity from the speech signal: emotional temperature | |
Koops et al. | Speech as a biomarker for depression | |
Martinc et al. | Tackling the ADReSS Challenge: A Multimodal Approach to the Automated Recognition of Alzheimer's Dementia. | |
US9087519B2 (en) | Computer-implemented systems and methods for evaluating prosodic features of speech | |
CN109284387B (zh) | 刻板特异用语检测系统、方法、计算机设备和存储介质 | |
US20230069935A1 (en) | Dialog system answering method based on sentence paraphrase recognition | |
Levitan et al. | Identifying individual differences in gender, ethnicity, and personality from dialogue for deception detection | |
CN115599901B (zh) | 基于语义提示的机器问答方法、装置、设备及存储介质 | |
Villarreal et al. | From categories to gradience: Auto-coding sociophonetic variation with random forests | |
An et al. | Automatically Classifying Self-Rated Personality Scores from Speech. | |
CN111145903A (zh) | 获取眩晕症问诊文本的方法、装置、电子设备及问诊系统 | |
Wang et al. | Automatic detection of speaker state: Lexical, prosodic, and phonetic approaches to level-of-interest and intoxication classification | |
Fergadiotis et al. | Algorithmic classification of five characteristic types of paraphasias | |
Sechidis et al. | A machine learning perspective on the emotional content of Parkinsonian speech | |
CN111180025A (zh) | 表示病历文本向量的方法、装置及问诊系统 | |
Xu et al. | Automated verbal and non-verbal speech analysis of interviews of individuals with schizophrenia and depression | |
Lopez-Otero et al. | Depression Detection Using Automatic Transcriptions of De-Identified Speech. | |
CN110853669B (zh) | 音频识别方法、装置及设备 | |
Kendall et al. | Considering performance in the automated and manual coding of sociolinguistic variables: Lessons from variable (ING) | |
Escobar-Grisales et al. | Colombian dialect recognition based on information extracted from speech and text signals | |
Danner et al. | Advancing mental health diagnostics: GPT-based method for depression detection | |
Pérez-Toro et al. | Depression assessment in people with Parkinson’s disease: The combination of acoustic features and natural language processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |