CN102339606A - 一种抑郁情绪电话自动语音识别筛查系统 - Google Patents
一种抑郁情绪电话自动语音识别筛查系统 Download PDFInfo
- Publication number
- CN102339606A CN102339606A CN2011101275173A CN201110127517A CN102339606A CN 102339606 A CN102339606 A CN 102339606A CN 2011101275173 A CN2011101275173 A CN 2011101275173A CN 201110127517 A CN201110127517 A CN 201110127517A CN 102339606 A CN102339606 A CN 102339606A
- Authority
- CN
- China
- Prior art keywords
- module
- recognition
- recording
- voice
- evaluation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012216 screening Methods 0.000 title claims abstract description 37
- 238000000034 method Methods 0.000 claims abstract description 48
- 238000011156 evaluation Methods 0.000 claims abstract description 28
- 230000008451 emotion Effects 0.000 claims abstract description 25
- 238000012545 processing Methods 0.000 claims abstract description 25
- 230000008569 process Effects 0.000 claims abstract description 22
- 230000003001 depressive effect Effects 0.000 claims description 26
- 230000004044 response Effects 0.000 claims description 12
- 238000001514 detection method Methods 0.000 claims description 9
- 238000001914 filtration Methods 0.000 claims description 6
- 206010038743 Restlessness Diseases 0.000 claims description 5
- 230000019771 cognition Effects 0.000 claims description 4
- 238000009499 grossing Methods 0.000 claims description 3
- 238000012544 monitoring process Methods 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 3
- 230000008030 elimination Effects 0.000 claims description 2
- 238000003379 elimination reaction Methods 0.000 claims description 2
- 238000012423 maintenance Methods 0.000 claims description 2
- 230000036651 mood Effects 0.000 claims description 2
- 238000004891 communication Methods 0.000 abstract 1
- 230000000994 depressogenic effect Effects 0.000 description 11
- 230000002452 interceptive effect Effects 0.000 description 11
- 230000006870 function Effects 0.000 description 9
- 230000000875 corresponding effect Effects 0.000 description 8
- 230000000694 effects Effects 0.000 description 6
- 208000020401 Depressive disease Diseases 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 208000019901 Anxiety disease Diseases 0.000 description 4
- 230000036506 anxiety Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 201000010099 disease Diseases 0.000 description 4
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 241001672694 Citrus reticulata Species 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 150000001875 compounds Chemical class 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 231100000225 lethality Toxicity 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 208000024891 symptom Diseases 0.000 description 2
- OOIBFPKQHULHSQ-UHFFFAOYSA-N (3-hydroxy-1-adamantyl) 2-methylprop-2-enoate Chemical compound C1C(C2)CC3CC2(O)CC1(OC(=O)C(=C)C)C3 OOIBFPKQHULHSQ-UHFFFAOYSA-N 0.000 description 1
- MQJKPEGWNLWLTK-UHFFFAOYSA-N Dapsone Chemical compound C1=CC(N)=CC=C1S(=O)(=O)C1=CC=C(N)C=C1 MQJKPEGWNLWLTK-UHFFFAOYSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000000556 factor analysis Methods 0.000 description 1
- 238000005111 flow chemistry technique Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000035484 reaction time Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Images
Landscapes
- Telephonic Communication Services (AREA)
Abstract
本发明提供了一种抑郁情绪电话自动语音识别筛查系统,包含:录音/放音模块,用于通过Dialogic语音卡接通电话并进行录音或者放音;语音识别处理模块,用于接收所述录音/放音模块传来的原始语音,调用识别模型库进行语音识别,并将识别结果通过控制模块传给评估模块;评估模块,用于对所述语音识别模块的识别结果并进行评估,通过与数据库中保存的评价等级比较,得出评估结果并传给控制模块,以及最终给出评估评价;和控制模块,用于控制所述抑郁情绪电话自动语音识别筛查系统的工作流程,该模块还负责所述录音/放音模块、语音识别模块和评估模块之间的相互通信;其中,所述数据库保存问卷流程的系统问题、问卷问题、评价等级及评分标准和用户信息。
Description
技术领域
本发明涉及生物和医药技术领域,具体涉及一种抑郁情绪电话自动语音识别筛查系统。
背景技术
抑郁情绪电话自动语音识别筛查系统是交互式语音应答和现代医学的结合。交互式语音应答(Interactive Voice Response,IVR)系统是基于计算机处理过程和语音电话的自动系统,通过电话输入信息即可以和IVR系统进行交互,获得所需的信息。交互式语音应答主要功能是代替人工进行自动语音处理。抑郁症是全球第四大疾病负担。在女性疾病负担中占第四位,在男性疾病负担中占第七位。抑郁症是全球范围内最大的非致死性疾病负担,死亡率到达12%。我国情况不容乐观,北京市抑郁终生患病率为6.87%,时点患病率为3.31%。北京综合医院患者抑郁障碍的现患率为5.23%。将交互式语音应答系统(IVR)与抑郁筛查量表相结合有可能成为在家庭中筛查抑郁障碍的一个新的有效方法。
抑郁症是全球范围内最大的非致死性疾病负担,死亡率到达12%。人们因抑郁问题至医院门诊求助医生的比例较低,原因主要是缺乏简便有效的应用于社区的抑郁筛查工具。
发明内容
本发明的目的在于,为克服现有技术由于缺乏简便有效的应用于社区的抑郁筛查系统,导致针对抑郁对抑郁症患者早期发现晚、干预晚,因而导致了抑郁症患者病情不能及时诊断延误病情的问题,从而提供一种抑郁情绪电话自动语音识别筛查系统。
为实现上述目的,本发明提供的抑郁症电话筛查量表编制和优化,信度、效度测量。开发设计交互式语音识别自动应答程序。将量表、软件、硬件组装成为一个系统,与电话和互连网连接,利用语音识别和语音合成系统将筛查量表应用到社区抑郁障碍的筛查中。
本发明提供一种抑郁情绪电话自动语音识别筛查系统,包含:录音/放音模块,用于通过Dialogic语音卡接通电话并进行录音或者放音,播放系统提示信息及问题录音,录制问题回答的原始语音并通过控制模块传给语音识别模块,或者记录按键输入并传给控制模块;语音识别处理模块,用于接收所述录音/放音模块传来的原始语音,调用识别模型库进行语音识别,并将识别结果通过控制模块传给评估模块;评估模块,用于对所述语音识别模块的识别结果并进行评估,通过与数据库中保存的评价等级比较,得出评估结果并传给控制模块,以及最终给出评估评价;和控制模块,用于控制所述抑郁情绪电话自动语音识别筛查系统的工作流程,该模块还负责所述录音/放音模块、语音识别模块和评估模块之间的相互通信;其中,所述数据库保存问卷流程的系统问题、问卷问题、评价等级及评分标准和用户信息,用Microsoft SQL Server 2000实现。
上述技术方案中,所述的系统还包含:显示模块,用于负责监视界面中录音波形与日志的显示,负责记录每个问题的回答结果。
所述控制模块还用于维护管理所述的数据库;所述录音/放音模块包含的语音卡将用户回答时间设定为3秒。
所述语音识别处理模块进一步包含:PCM格式转换模块,用于将A律语音数据变换为线性PCM语音数据;VAD模块,用于将输入线性PCM语音数据进行静音消除;语音识别模块,根据识别准则判断输入消去静音的PCM语音数据的识别结果;和置信度判断模块,用于判断评价所述语音识别模块得到的识别结果。
所述置信度判断模块进一步包含:若干识别结果存储模块,用于存储每次识别结果的信息;判断模块,用于判断得到的识别结果是否大约置信度阈值,若是则进入下一段语音的处理,否则需再进行若干次针对该段语音的重新识别;大小判断模块,用于判断前后两次得到的识别结果的大小。如果用户回答两次均不能被正确识别时,若两次识别结果相同,则认为该识别结果为正确的,否则继续第三次重复提问;当用户回答三次均不能被正确识别时,若第三次的识别结果与前两次中的任意一个相同,则认为识别结果正确,否则将此题转为按键回答。
所述语音识别处理模块还包含:缓存模块,用于将用户语音进行缓存;和波形显示模块,用于显示线性PCM语音数据的波形。
所述VAD模块进一步包含:语音端点检测模块,采用基于交叉熵顺序统计滤波。
针对上述技术方案所述的系统还提供一种抑郁情绪电话自动语音识别筛查方法,包含:录音/放音步骤,用于通过Dialogic语音卡接通电话并进行录音或者放音;语音识别处理步骤,用于接收所述录音/放音步骤传来的原始语音,进行语音识别;评估步骤,用于对所述语音识别结果并进行评估,通过与数据库中保存的评价等级比较,得出评估结果得出最终给出评估评价;和输出评估结果的步骤,用于输出评估结果;协调控制步骤,用于负责所述录音/放音步骤、语音识别步骤和评估步骤之间的相互通信。
上述技术方案中,所述语音识别处理步骤进一步包含:
录音到缓存的步骤,用于将电话录音进行缓存;上传录音数据到数据库服务器的步骤,将录音数据存放在所述数据库服务器,便于数据的管理、查询及结果输出;PCM格式转换的步骤,用于将存放的A律语音数据进行格式转换,转换为线性PCM语音数据;显示波形的步骤,用于显示线性PCM语音数据的波形;VAD处理的步骤,用于将线性PCM语音数据进行消去静音的处理;语音识别的步骤,用于对消去静音的线性PCM语音数据进行语音识别;置信度判断的步骤,用于对语音识别判断的结果惊醒评估,以便找出最合适的语音识别结果。
所述VAD处理的步骤为:采用一种基于交叉熵顺序统计滤波的语音端点检测算法,先将每帧语音划分成若干子带,计算每个子带与背景噪声之间的交叉熵,将子带交叉熵经过一组顺序统计滤波器进行平滑处理该处理用于得到比较平缓的曲线以方便阈值的选取。
本发明的优点在于,将交互式语音应答系统(IVR)与抑郁筛查量表相结合在家庭评估中筛查抑郁障碍患者将会成为提高抑郁状态早期识别率的一个新的有效系统。
附图说明
图1是本发明的系统模块划分示意图;
图2是本发明的一种抑郁情绪电话自动语音识别筛查系统的组成框图;
图3是本发明的一种抑郁情绪电话自动语音识别筛查方法的流程图;
图4是本发明的一种抑郁情绪电话自动语音识别筛查方法包含的语音识别处理步骤的流程图;
图5是本发明的一种抑郁情绪电话自动语音识别筛查方法包含的语音识别处理置信度判断的流程图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细描述。
如图1所示,该图形象的示意了该系统的组成框图。其中
(1)电话问卷的编制和优化为录音/放音模块播放的内容
1.初选条目池的建立
1.1备选条目池的确定
量表初始问卷的编制主要采用文献研究及临床调研的方法。查阅现有的抑郁量表包括HAMD抑郁量表、MADS抑郁量表、BDI抑郁自评量表、Zung抑郁自评量表、HAMA焦虑量表、Zung焦虑自评量表获得条目。同时,在抑郁门诊了解抑郁相关的症状,咨询专家,编制条目。共获得条目105条。
1.2建立初选条目池
首先将条目按照汉语语言习惯及中国传统文化背景改编。然后进行量表条目重要性的评价。请专家和量表将来的使用者对各个条目的重要性进行评分,计算每个条目的重要性的平均得分,按分数的高低排序从而得到重要性大的条目。请抑郁方面的专家98人,并请专家对量表的条目编制提出修改意见。同时,对初始量表进行小样本预试验,在抑郁门诊调查抑郁症患者45人,要求其选出能反映其症状的通俗易懂的条目。另外,我们也调查了20名的正常人,从条目的可接受程度上进行评定。经核心小组讨论,筛选、删除或者合并重复条目,并对多含义的条目进行拆分,按照少而精的原则,选择出代表性、区分性较好的条目,形成新的条目池。
条目筛选是量表编制中的关键问题。应遵循重要性大、敏感性高、独立性强、代表性好、确定性好的原则,主要采取以下方法选择。1.区分度分析法;2.极端值的临界比;3.相关系数法;4.因子分析法;5.克朗巴赫系数法。共得到条目20条,组合成量表。该量表与“金标准”汉密尔顿抑郁量表、汉密尔顿焦虑量表、抑郁自评量表、焦虑自评量表进行一致性比较,结果肯定。面访问卷与电话量表的一致性对比。筛查门诊的抑郁症患者,面访有专门的神经心理师完成。电话量表由交互式语音筛查系统完成。二者一致性较好。
如图2所示,该图为一种抑郁情绪电话自动语音识别筛查系统的组成框图。
其中,自动语音应答支持用户的语音回答,且能自动根据用户的语音回答进入流程运转,完成相应的问卷。自动语音应答系统是由多个软硬件搭建起来的系统,使用到的硬件主要有:Dialogic语音卡,型号D41JCT;电脑服务器,内存1G以上;使用到的软件主要有:数据库服务器Microsoft SQL Server 2000。使用到的关键技术主要有:VAD(静音检测),连续语音识别及置信度判断。
参考图2对系统主要模块进行简单介绍:
a)控制模块104
控制模块控制整个系统的工作流程。该模块直接控制其他四个模块和对数据库进行维护。
b)录音/放音模块101
录音/放音模块负责通过Dialogic语音卡接通电话并进行录音或者放音。该模块受控于控制模块,播放系统提示信息及问题录音,录制问题回答的原始语音并通过控制模块传给语音识别模块,或者记录按键输入并传给控制模块。
c)语音识别处理模块102
语音识别模块从控制模块接收录音/放音模块传来的原始语音,调用识别模型库进行语音识别,并将识别结果通过控制模块传给评估模块。
d)显示模块108
显示模块负责监视界面中录音波形与日志的显示。
e)评估模块103
评估模块负责接收通过控制模块传来的识别结果并进行评估,通过与数据库中保存的评价等级比较,得出评估结果并传给控制模块,以及最终给出评估评价。
f)数据库105
数据库中保存了问卷流程的系统问题、问卷问题、评价等级及评分标准和用户信息等。数据库用Microsoft SQL Server 2000实现。
用户的语音经过Dialogic电话卡从电话信道录入,最后需要将识别的结果触发其他的流程处理。
如图3所示,该图为本发明提供的一种抑郁情绪电话自动语音识别筛查系统的流程图,具体步骤描述如下:
步骤301:录音/放音步骤,用于通过Dialogic语音卡接通电话并进行录音或者放音;
步骤302:语音识别处理步骤,用于接收所述录音/放音步骤传来的原始语音,进行语音识别;
步骤303:评估步骤,用于对所述语音识别结果并进行评估,通过与数据库中保存的评价等级比较,得出评估结果得出最终给出评估评价;和
步骤304:输出判断结果的步骤,用于输出心境状态评价结果;
此外,还包含协调控制步骤,用于负责所述录音/放音步骤、语音识别步骤和评估步骤之间的相互通信。
作为整个系统中最关键的处理流程,复杂的语音处理流程主要经过以下几步过程:
如图4所示,由于我国电话采用A律PCM编码,录音得到的原始语音数据是非线性的,语音波形的绘制及其后的相应处理均要求是线性PCM数据,故在上传录音数据到服务器(直接保存A律数据)后,将数据格式进行转换,即可依次进行画波形、静音检测(VAD)、语音识别等程序。
其中,用户的语音是通过Dialogic语音卡录入的,Dialogic语音卡提供的录音接口函数为:
int RecordBuffer(char*a_buf,int a_len,int a_maxTime,IO_Format a_format);
int Record(char*a_fileName,int a_maxTime);
分别实现将语音数据录入文件或者录入缓存。录音函数为异步模式,调用时开启录音子线程,当到达设置的录音最大时间时,该线程结束时发出消息TDX_RECORD,表示异步录音的结束。主程序采用事件消息驱动机制,在收到录音结束消息时才进行相应的语音处理。
并且由于用户的语音回答是长度有限的可以预先设定的语音应答,在综合考虑不同用户的回答速度、反应时间和等待时间后,经过测试,所以我们设置用户的回答时间为3秒钟,认为这个时间最适宜用户接受。
所以语音数据的录入方式是,从Dialogic语音卡录入3秒钟的语音数据,将之作为用户的完整回答,进行相应的处理。
如图5所示,为提高系统的稳健性和实用性,对识别结果采取如下策略进行处理:
用户回答两次均不能被正确识别时,若两次识别结果相同,则认为该识别结果为正确的,否则继续第三次重复提问;当用户回答三次均不能被正确识别时,若第三次的识别结果与前两次中的任意一个相同,则认为识别结果正确,否则将此题转为按键回答。
适用于电话信道语音的VAD技术的设计和实现:
在录入用户语音后,进行语音识别之前,为了排除噪声对识别的影响,并减少语音识别的计算量,对语音进行VAD处理。
通常的VAD算法分为两类,一类是基于阈值的方法,一类是基于模型的方法,其中基于阈值的方法更适合于嵌入式语音识别系统。基于电话信道语音的特点,我们提出了一种基于交叉熵顺序统计滤波的语音端点检测算法,先将每帧语音划分成若干子带,计算每个子带与背景噪声之间的交叉熵。为了得到比较平缓的曲线以方便阈值的选取,将子带交叉熵经过一组顺序统计滤波器进行平滑处理。
经过多次对本系统的测试,我们将VAD算法的几个参数取值分别为:帧长为480个采样点,帧移为160个采样点,采样率为8000赫兹,子带数为8。
另外,语音识别具体描述如下:
本系统的语音输入是简单的对话词语,因此语音识别采用你连续语音孤立词识别方法。
在语音识别算法中,人类语言中的最小发音单位--音节--被进一步划分为子词(subword),在汉语中子词即对应汉语的声母(consonant)和韵母(vowel),对于汉语普通话来说,共有22个声母和38个韵母,总计60个子词。对于给定的待识别词条文本,可将其根据发音辞典拆分成子词序列,进而将子词进行简单拼接得到识别词中各词条的识别网络。考虑到汉语中存在的大量含义迥异的多音字,这个网络可能很复杂。
为提高语音识别正确率,减少识别过程中无效的计算,我们精简了在生成网表的过程中使用的字典。该字典原有八千多字,考虑里面有一些不常用的生僻字和多音字,而在识别过程中会影响识别效果,因此将字典减少到四千多字,对语音识别的功能不会有影响,但是提高了识别的准确度和速度。另外,考虑到问卷的内容和答案可能会修改,所以待识别词表可能需要相应更新。在我们的系统中,采用了修改问卷答案时重新生成网表的方法,可以任意改变待识别词表,实现了系统的灵活性。
因为识别的对象是通过电话信道传输的语音,而电话信道传输具有多样性,并且用户语音可能存在方言等多方面的影响,在训练识别模型中,我们选用了triphone三音子模型作为训练模型,使用电话语音库作为训练数据,进行了充分的训练。训练数据覆盖了五大方言区的普通话,这样我们的识别系统可以识别不同地域用户的普通话。
由于在实际应用系统中,对系统存储器资源、CPU计算资源以及处理的速度都有较高的要求,所以,在保证高识别性能的基础上,如何来改进传统的语音识别算法,到达内存和CPU资源利用的高效率是一个关键,具体实现可参考参考申请号为“200910242404.0”,名称为“嵌入式平台大词汇量语音命令词的识别方法”的申请文件。在语音词识别系统中,我们首先利用汉语的语音学发音规则,采用声母右相关的简化的biphone双音子模型来对汉语的声韵模进行建模,得到一套紧凑且区分度较高的模型集合。然后构建树形的解码网络结构来表示搜索空间,压缩所占用的内存资源。为了提高识别速度并且保持识别精度,识别解码过程采用两阶段束搜索识别算法,在一阶段使用模型规模较简单的小规模模型集合进行初略识别,快速地选出前若干候选,然后再利用精细的复杂模型对一阶段的候选进行二次重新识别,得到最佳识别结果。这种基于树形结构的两阶段识别策略在保证识别精度的情况下,提高了识别速度,保证了语音识别的快速完成。
考虑到语音词识别应用于实际系统当中,所以环境和背景噪声的干扰必定存在,保证识别系统在有噪环境下的识别性能也是需要考虑的。我们首先采用基于语音功率谱熵的语音端点检测算法来准确估计语音命令的到达,在一定程度上滤除了无关语音的干扰。然后建立独立的噪声和静音声学模型来吸收一些背景噪声等垃圾语音,从而保证实际应用环境下的识别率,提高系统鲁棒性和稳健性。
可调的置信度的设计与实现,在语音识别中,置信度(Confidence Measure)分析的目的是利用语音识别中尚未被充分利用的有用信息,通过衡量语音模型和观测适量的匹配程度,对识别结果进行验证和分析,从而找出错误所在,判断识别结果是否可信。
虽然连续孤立词语音识别系统已经达到97%的识别率,但是由于用户的语音数据经过了电话信道的传输,加大了噪声,并且可能存在信号干扰、音量过小、用户所处环境嘈杂等条件的影响,为了能加强系统运行的稳健性,我们引入的了置信度的判断。在语音识别后,对识别结果的置信度进行判断,当置信度大于某个阈值时,认为识别结果可靠,否则认为识别结果不可靠。
置信度阈值一共设置了三个,当识别的待选词条小于4时设定一个置信度阈值,当识别的待选词条小于9时设定一个置信度阈值,其余的(即识别的待选词条大于9时)设定一个置信度阈值。在多次实验后,系统设置的三个阈值大小分别为:10,20,25。在这种设置下,对识别结果的判断最佳。
对于置信度阈值,我们还应根据实际环境来适当调节其大小。因为在实际应用中,由于电话信道的传输干扰不可预见,而置信度阈值的大小影响着对语音识别可靠性的判断,所以需要根据实际情况来适当调节其大小。所以自动语音应答系统支持置信度阈值可调。
本发明的系统在具体使用时包含监视系统、管理系统和查询系统三个独立子系统。
将该系统设计拆分为监视系统、管理系统和查询系统三个独立子系统,分工协同完成相应的功能。三个子系统通过数据库来实现数据的共享。监视系统,是控制应答流程的主要系统。管理系统,方便录入问卷,可以根据需要灵活添加修改问卷内容,选定问卷的评价方式,并设定评价的不同分数等级;查询系统,用于查看用户问卷结果的,可以查看用户的留言并回复,查看所有用户的问卷信息,并支持导出单份用户问卷和所有用户信息,还支持播放问题以及用户的回答。下面将会对这三个子系统做更详细的说明。
监视系统:
监视系统支持以下功能:能够同时进行多路电话信号处理,每一路设备可以通过服务器单独开启或关闭;能够自动接听来电,并进入问卷流程;可以根据用户的选择进入筛查流程或者宣教流程;宣教流程中支持用户留言,并可以在用户下次登录时播放相应的医生回答;宣教流程支持转人工回答;系统工作时每一路信号的事件显示在服务器上该路的日志框中,并支持文本形式查看日志;用户可以听到问题描述及备选答案;用户回答的声音波形可在服务器显示,声音文件可上传;支持按键回答功能;问题回答异常时自动重放问题;问卷结束后根据总分给出病情评估及就诊建议。
管理系统,管理系统包括用户管理、问卷管理和系统管理。
管理系统支持以下功能:对系统用户进行管理,添加、修改、删除,该用户是指对抑郁症筛查系统具有使用权限的用户;对问卷进行管理,添加、修改、删除问卷,包括对问卷中各问题的文本内容、答案、答案对应的分数、录音、回答方式的设置;设置系统的声音文件以及日志文件等的存放路径;更改问卷的评价方法,包括平均分、总分和加权平均分;设定评价等级和各级的分数标准查询系统,查询系统用于管理用户留言以及用户的问卷信息。
查询系统支持以下功能:显示所有进行问卷的用户的基本信息,并能将所有用户信息导出到Excel中;可以根据性别、测试日期、得分等来查询出相应的用户;可以查看用户完整的回答记录,并播放记录的声音文件;可以手动给用户添加评估;可以打印单个用户的完整问卷;可以查看用户留言,并给用户留言相应的回答,在用户下次登录后播放。
综上,本发明的抑郁情绪电话自动语音识别筛查系统是现代医学和交互式语音应答的结合。交互式语音应答系统是基于计算机处理过程和语音电话的自动系统,通过电话输入信息即可以和系统进行交互,获得所需的信息。将抑郁筛查量表与交互式语音应答系统相结合在家庭评估中筛查抑郁患者成为提高就诊率的重要方法。自行编制抑郁情绪电话量表,并开发抑郁情绪电话自动语音识别筛查系统,在社区中筛查抑郁症患者及其高危人群,依托社区卫生服务系统,达到对抑郁症患者早期发现、早期干预的目的。
需要说明的是,以上介绍的本发明的实施方案而并非限制。本领域的技术人员应当理解,任何对本发明技术方案的修改或者等同替代都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围内。
Claims (7)
1.一种抑郁情绪电话自动语音识别筛查系统,包含:
录音/放音模块,用于通过Dialogic语音卡接通电话并进行录音或者放音,播放系统提示信息及问题录音,录制问题回答的原始语音并通过控制模块传给语音识别模块,或者记录按键输入并传给控制模块;
语音识别处理模块,用于接收所述录音/放音模块传来的原始语音,调用识别模型库进行语音识别,并将识别结果通过控制模块传给评估模块;
评估模块,用于对所述语音识别模块的识别结果并进行评估,通过与数据库中保存的评价等级比较,得出评估结果并传给控制模块,以及最终给出心境状态的评价;和
控制模块,用于控制所述抑郁情绪电话自动语音识别筛查系统的工作流程,该模块还负责所述录音/放音模块、语音识别模块和评估模块之间的相互通信;
其中,所述数据库保存问卷流程的系统问题、问卷问题、评价等级及评分标准和用户信息;
所述语音识别处理模块进一步包含:PCM格式转换模块,用于将A律语音数据变换为线性PCM语音数据;VAD模块,用于将输入线性PCM语音数据进行静音消除;语音识别模块,根据识别准则判断输入消去静音的PCM语音数据的识别结果;和置信度判断模块,用于判断评价所述语音识别模块得到的识别结果;
所述VAD模块进一步包含:语音端点检测模块,该模块采用基于交叉熵顺序统计滤波;所述采用基于交叉熵顺序统计滤波的方法为:先将每帧语音划分成若干子带,,计算每个子带与背景噪声之间的交叉熵,将子带交叉熵经过一组顺序统计滤波器进行平滑处理该处理用于得到比较平缓的曲线以方便阈值的选取。
2.根据权利要求1所述的抑郁情绪电话自动语音识别筛查系统,其特征在于,所述的系统还包含:
显示模块,用于负责监视界面中录音波形与日志的显示。
3.根据权利要求1所述的抑郁情绪电话自动语音识别筛查系统,其特征在于,所述控制模块还用于维护管理所述的数据库。
4.根据权利要求1所述的抑郁情绪电话自动语音识别筛查系统,其特征在于,所述录音/放音模块包含的语音卡将用户回答时间设定为3秒。
5.根据权利要求1所述的抑郁情绪电话自动语音识别筛查系统,其特征在于,所述置信度判断模块进一步包含:
若干识别结果存储模块,用于存储每次识别结果的信息;
判断模块,用于判断得到的识别结果是否大约置信度阈值,若大于置信度阈值则进入下一段语音的处理,否则需再进行若干次针对该段语音的重新识别;
大小判断模块,用于判断前后两次得到的识别结果的大小。
6.根据权利要求5所述的抑郁情绪电话自动语音识别筛查系统,其特征在于,所述的需再进行若干次针对该段语音的重新识别具体包含如下步骤:
用户回答两次均不能被正确识别时,若两次识别结果相同,则认为该识别结果为正确的,否则继续第三次重复提问;当用户回答三次均不能被正确识别时,若第三次的识别结果与前两次中的任意一个相同,则认为识别结果正确,否则将此题转为按键回答。
7.根据权利要求1所述的抑郁情绪电话自动语音识别筛查系统,其特征在于,所述语音识别处理模块还包含:
缓存模块,用于将用户语音进行缓存;和
波形显示模块,用于显示线性PCM语音数据的波形。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110127517.3A CN102339606B (zh) | 2011-05-17 | 2011-05-17 | 一种抑郁情绪电话自动语音识别筛查系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110127517.3A CN102339606B (zh) | 2011-05-17 | 2011-05-17 | 一种抑郁情绪电话自动语音识别筛查系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102339606A true CN102339606A (zh) | 2012-02-01 |
CN102339606B CN102339606B (zh) | 2014-02-26 |
Family
ID=45515298
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201110127517.3A Expired - Fee Related CN102339606B (zh) | 2011-05-17 | 2011-05-17 | 一种抑郁情绪电话自动语音识别筛查系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102339606B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103514357A (zh) * | 2012-12-31 | 2014-01-15 | Tcl集团股份有限公司 | 远程健康监护方法及其监护系统 |
CN103578470A (zh) * | 2012-08-09 | 2014-02-12 | 安徽科大讯飞信息科技股份有限公司 | 一种电话录音数据的处理方法及系统 |
CN106725532A (zh) * | 2016-12-13 | 2017-05-31 | 兰州大学 | 基于语音特征与机器学习的抑郁症自动评估系统和方法 |
CN106859597A (zh) * | 2017-01-11 | 2017-06-20 | 深圳市心上信息技术有限公司 | 一种远程监护方法和装置 |
CN107274900A (zh) * | 2017-08-10 | 2017-10-20 | 北京灵隆科技有限公司 | 用于控制终端的信息处理方法及其系统 |
CN108652648A (zh) * | 2018-03-16 | 2018-10-16 | 合肥数翼信息科技有限公司 | 一种用于老年人抑郁症的抑郁监控装置 |
CN109920450A (zh) * | 2017-12-13 | 2019-06-21 | 北京回龙观医院 | 信息处理装置及信息处理方法 |
CN110782916A (zh) * | 2019-09-30 | 2020-02-11 | 北京淇瑀信息科技有限公司 | 一种多模态的投诉识别方法、装置和系统 |
CN111048085A (zh) * | 2019-12-18 | 2020-04-21 | 佛山市顺德区美家智能科技管理服务有限公司 | 基于zigbee无线技术的离线式语音控制方法、系统及存储介质 |
-
2011
- 2011-05-17 CN CN201110127517.3A patent/CN102339606B/zh not_active Expired - Fee Related
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103578470A (zh) * | 2012-08-09 | 2014-02-12 | 安徽科大讯飞信息科技股份有限公司 | 一种电话录音数据的处理方法及系统 |
CN103514357A (zh) * | 2012-12-31 | 2014-01-15 | Tcl集团股份有限公司 | 远程健康监护方法及其监护系统 |
CN106725532A (zh) * | 2016-12-13 | 2017-05-31 | 兰州大学 | 基于语音特征与机器学习的抑郁症自动评估系统和方法 |
CN106859597A (zh) * | 2017-01-11 | 2017-06-20 | 深圳市心上信息技术有限公司 | 一种远程监护方法和装置 |
CN107274900A (zh) * | 2017-08-10 | 2017-10-20 | 北京灵隆科技有限公司 | 用于控制终端的信息处理方法及其系统 |
CN107274900B (zh) * | 2017-08-10 | 2020-09-18 | 北京京东尚科信息技术有限公司 | 用于控制终端的信息处理方法及其系统 |
CN109920450A (zh) * | 2017-12-13 | 2019-06-21 | 北京回龙观医院 | 信息处理装置及信息处理方法 |
CN109920450B (zh) * | 2017-12-13 | 2024-08-06 | 北京回龙观医院 | 信息处理装置及信息处理方法 |
CN108652648A (zh) * | 2018-03-16 | 2018-10-16 | 合肥数翼信息科技有限公司 | 一种用于老年人抑郁症的抑郁监控装置 |
CN110782916A (zh) * | 2019-09-30 | 2020-02-11 | 北京淇瑀信息科技有限公司 | 一种多模态的投诉识别方法、装置和系统 |
CN110782916B (zh) * | 2019-09-30 | 2023-09-05 | 北京淇瑀信息科技有限公司 | 一种多模态的投诉识别方法、装置和系统 |
CN111048085A (zh) * | 2019-12-18 | 2020-04-21 | 佛山市顺德区美家智能科技管理服务有限公司 | 基于zigbee无线技术的离线式语音控制方法、系统及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN102339606B (zh) | 2014-02-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102339606B (zh) | 一种抑郁情绪电话自动语音识别筛查系统 | |
Wang et al. | A meta-analysis of the predictability of LENA™ automated measures for child language development | |
Canault et al. | Reliability of the language environment analysis system (LENA™) in European French | |
CN112818892B (zh) | 基于时间卷积神经网络的多模态抑郁症检测方法及系统 | |
US10478111B2 (en) | Systems for speech-based assessment of a patient's state-of-mind | |
CN109785698B (zh) | 用于口语水平评测的方法、装置、电子设备以及介质 | |
Roy | The birth of a word | |
Schuppler et al. | GRASS: the Graz corpus of Read And Spontaneous Speech. | |
CN102231278A (zh) | 实现语音识别中自动添加标点符号的方法及系统 | |
Esposito et al. | On the significance of speech pauses in depressive disorders: results on read and spontaneous narratives | |
Keshet | Automatic speech recognition: A primer for speech-language pathology researchers | |
Jacobi | On variation and change in diphthongs and long vowels of spoken Dutch | |
Schuppler et al. | A corpus of read and conversational Austrian German | |
Cao et al. | [Retracted] Optimization of Intelligent English Pronunciation Training System Based on Android Platform | |
CN106205635A (zh) | 语音处理方法及系统 | |
Tanner et al. | Toward “English” phonetics: Variability in the pre-consonantal voicing effect across English dialects and speakers | |
Wagner et al. | Applying cooperative machine learning to speed up the annotation of social signals in large multi-modal corpora | |
Arla et al. | Multiclass spoken language identification for Indian Languages using deep learning | |
Haderlein et al. | Automatic intelligibility assessment of pathologic speech over the telephone | |
CN108364655A (zh) | 语音处理方法、介质、装置和计算设备 | |
Barrett et al. | Protocol for the connected speech transcription of children with speech disorders: An example from childhood apraxia of speech | |
Liu et al. | AI recognition method of pronunciation errors in oral English speech with the help of big data for personalized learning | |
Han et al. | [Retracted] The Modular Design of an English Pronunciation Level Evaluation System Based on Machine Learning | |
Kumar | A Comprehensive Analysis of Speech Recognition Systems in Healthcare: Current Research Challenges and Future Prospects | |
CN117635785A (zh) | 一种护工数字人生成方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20140226 Termination date: 20170517 |