CN110074759B - 语音数据辅助诊断方法、装置、计算机设备及存储介质 - Google Patents

语音数据辅助诊断方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN110074759B
CN110074759B CN201910326561.3A CN201910326561A CN110074759B CN 110074759 B CN110074759 B CN 110074759B CN 201910326561 A CN201910326561 A CN 201910326561A CN 110074759 B CN110074759 B CN 110074759B
Authority
CN
China
Prior art keywords
voice
doctor
length
fixed
voice information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910326561.3A
Other languages
English (en)
Other versions
CN110074759A (zh
Inventor
王健宗
彭俊清
瞿晓阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910326561.3A priority Critical patent/CN110074759B/zh
Publication of CN110074759A publication Critical patent/CN110074759A/zh
Application granted granted Critical
Publication of CN110074759B publication Critical patent/CN110074759B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/48Other medical applications
    • A61B5/4803Speech analysis specially adapted for diagnostic purposes
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Pathology (AREA)
  • Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Veterinary Medicine (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种语音数据辅助诊断方法、装置、计算机设备及存储介质,其中,该语音数据辅助诊断方法包括:获取客户端发送的声音诊断请求,声音诊断请求包括原始语音信息;对原始语音信息进行处理,获取至少两个定长重叠语音帧;对至少两个定长重叠语音帧进行处理,获取频域光谱图,提取频域光谱图的一阶时间导数图像和二阶时间导数图像;对频域光谱图、一阶时间导数图像和二阶时间导数图像进行处理,获取图像诊断结果;将图像诊断结果发送给医师终端,获取医师终端基于图像诊断结果返回的医师诊断结果。该方法可同时获得服务器给出的图像诊断结果和医师给出的医师诊断结果,保证提供诊疗建议的全面性、灵活性和可靠性。

Description

语音数据辅助诊断方法、装置、计算机设备及存储介质
技术领域
本发明涉及音频处理领域,尤其涉及一种语音数据辅助诊断方法、装置、计算机设备及存储介质。
背景技术
随着社会的发展,医疗行业不仅提供基础的医疗保障,也可以为人们提供远程医疗卫生服务。而出现远程医疗卫生服务,主要包括以下几个原因:(一)专科医生稀少;(二)有时往返偏远地区很困难;(三)遇到市区交通高峰时段可能很难尽快到达医院;(四)日程安排紧张。因此,近年来对远程医疗或移动医疗的研究日益增多。远程医疗框架基本需要以下组件,例如可以从于本实施例那里收集数据的传感器、便携式处理单元和云服务器等。无线通信技术和计算处理能力的快速发展使移动医疗保健能够提供及时、低成本、舒适且无干扰的服务。
医疗领域中语音数据辅助诊断是基于人的喉咙功能进行的声学诊断,用以检查发声功能障碍的程度与范围。如何通过远程医疗及时为声音病理患者提供及时准确的声音诊断结果成为亟待解决的问题。
发明内容
本发明实施例提供一种语音数据辅助诊断方法、装置、计算机设备及存储介质,以解决通过远程医疗及时为声音病理患者提供及时准确的诊断结果的问题。
一种语音数据辅助诊断方法,包括:
获取客户端发送的声音诊断请求,声音诊断请求包括原始语音信息、目标医师ID和原始电子病历;
采用语音去噪工具对原始语音信息进行处理,获取至少两个定长重叠语音帧;
采用域变换工具对至少两个定长重叠语音帧进行处理,获取频域光谱图,提取频域光谱图的一阶时间导数图像和二阶时间导数图像;
采用卷积神经网络对频域光谱图、一阶时间导数图像和二阶时间导数图像进行处理,获取图像诊断结果;
将图像诊断结果发送给目标医师ID对应的医师终端,获取医师终端基于图像诊断结果返回的医师诊断结果;
基于图像诊断结果和医师诊断结果更新原始电子病历,形成更新电子病历,将更新电子病历返回给客户端。
一种语音数据辅助诊断装置,包括:
获取诊断请求模块,用于获取客户端发送的声音诊断请求,声音诊断请求包括原始语音信息、目标医师ID和原始电子病历;
获取定长重叠语音帧模块,用于采用语音去噪工具对原始语音信息进行处理,获取至少两个定长重叠语音帧;
获取频域光谱图模块,用于采用域变换工具对至少两个定长重叠语音帧进行处理,获取频域光谱图,提取频域光谱图的一阶时间导数图像和二阶时间导数图像;
获取处理结果模块,用于采用卷积神经网络对频域光谱图、一阶时间导数图像和二阶时间导数图像进行处理,获取图像诊断结果;
获取诊断结果模块,用于将图像诊断结果发送给目标医师ID对应的医师终端,获取医师终端基于图像诊断结果返回的医师诊断结果;
返回电子病历模块,用于基于图像诊断结果和医师诊断结果更新原始电子病历,形成更新电子病历,将更新电子病历返回给客户端。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述语音数据辅助诊断方法。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述语音数据辅助诊断方法。
上述语音数据辅助诊断方法、装置、计算机设备及存储介质,通过接收客户端通过远程发送的声音诊断请求,对该请求中携带的原始声音信息采用语音去噪工具和卷积神经网络进行自动化分析,得到图像诊断结果,并将图像诊断结果发送给医师终端,用以接收医师终端结合该图像诊断结果返回的医师诊断结果,最后同时将医师诊断结果和图像诊断结果形成的更新电子病历发送给客户端,避免患者到现场进行声音诊断的不便,同时加快诊断速度;采用采用语音去噪工具和卷积神经网络对原始声音信息进行自动化分析,可提高诊疗效率和诊疗准确性;并且,客户端可同时获得服务器提供的包括图像诊断结果和医师给出的医师诊断结果的更新电子病历,提高该系统给客户端提供诊疗建议的全面性、灵活性和可靠性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获取其他的附图。
图1是本发明一实施例中语音数据辅助诊断方法的应用环境示意图;
图2是本发明一实施例中语音数据辅助诊断方法的流程图;
图3是本发明一实施例中语音数据辅助诊断方法的另一流程图;
图4是本发明一实施例中语音数据辅助诊断方法的另一流程图;
图5是本发明一实施例中语音数据辅助诊断方法的另一流程图;
图6是本发明一实施例中语音数据辅助诊断方法的另一流程图;
图7是本发明一实施例中语音数据辅助诊断方法的另一流程图;
图8是本发明一实施例中语音数据辅助诊断方法的另一流程图;
图9是本发明一实施例中语音数据辅助诊断装置的示意图;
图10是本发明一实施例中计算机设备的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获取的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的语音数据辅助诊断方法,可应用在如图1的应用环境中,该语音数据辅助诊断方法应用在语音数据辅助诊断系统中,该语音数据辅助诊断系统包括客户端和服务器,其中,客户端通过网络与服务器进行通信。客户端又称为患者端,是指与服务器相对应,为客户端提供本地服务的程序。该客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备等计算机设备上。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一实施例中,如图2所示,提供一种语音数据辅助诊断方法,以该方法应用在图1中的服务器为例进行说明,具体包括如下步骤:
S10.获取客户端发送的声音诊断请求,声音诊断请求包括原始语音信息、目标医师ID和原始电子病历。
其中,声音诊断请求是患者通过客户端向服务器发送的在线诊断发声障碍病理也即声音病理的诊断请求。
原始语音信息是患者通过诊断仪器采集的自己的包括嗓音和喉音的音频信息。现有的声音诊断仪器通常包括一个声学麦克风和一个喉咙麦克风。具体地,喉咙麦克风已被公认为对噪声具有鲁棒性,即使在嘈杂的环境中,喉咙麦克风的记录也可以提取出关键的喉部信息,而声学麦克风更适合于整体病理声音诊断。
目标医师ID是服务器用以区分不同医师的标识,用以患者通过客户端在线自主选择目标医师ID,或由服务器指定目标医师ID对应的目标医师对患者的原始语音信息进行语音数据辅助诊断。
电子病历是记录患者原始信息的记录本,比如,患者的姓名,年龄,患病史,当前身体状况或药物过敏史等信息。原始电子病历是服务器最初给患者建立电子病历,无医师记录患者患病史的病历。进一步地,当医师给客户端对应的病历添加患病原因或治疗方法等信息时,也即原始电子病历被更新,形成更新电子病历。
进一步地,服务器可通过病历档案库保存每个患者的更新电子病历,利于后续各个医师对患者的患病情况进行病理诊断时,通过更新电子病历记录的该患者过往的患病史,做出更为准确的病理判断;同时,采用电子病历可实现无纸化办公,节约病理诊断成本。其中,病理档案库是服务器给每个登陆过该语音数据辅助诊断系统的患者建立的电子病历数据库。
具体地,当患者嗓音的音量、音调、音质、发音声音持续时间或发音的轻松程度共鸣等出现异常,无法满足日常生活和工作需要时,即称成为嗓音病。长期承受声带压力的群体服务如教师群体、电台播音员、体育评论员等更是嗓音病的高发患者群体。
发音滥用、用声不当及不良的生活习惯、发声器官感染与炎症、全身因素如反流性喉炎或内分泌功能异常亦可导致此病。嗓音病常见症状有声音嘶哑、发音费力、音量减小、音域发声改变、咽部干燥或异物感等。
当患者出现上述症状时,可通过通过诊断仪器采集自己的声音,并将采集到的原始语音信息上传给服务器进行语音数据辅助诊断。同时,患者还可在服务器提供的语音数据辅助诊断界面显示医师信息,由患者通过客户端指定医师进行声音诊断。优选地,服务器可将每一医师按病理诊断领域进行分类后列表显示,由患者按指定筛选规则进行筛选,获取患者选定的医师作为目标医师以及该目标医师对应的目标医师ID。
客户端收集完全原始语音信息、目标医师ID和原始电子病历即可生成声音诊断请求发送给服务器进行语音数据辅助诊断。
步骤S10中,服务器可接收客户端发送的声音诊断请求,为后续服务器基于该声音诊断请求中携带的原始语音信息进行语音数据辅助诊断准备数据基础;服务器可获取由客户端指定的目标医师ID,提高服务器提供病理诊断服务的自主性;同时,服务器给客户端建立对应的电子病历可实现无纸化办公程度。
S20.采用语音去噪工具对原始语音信息进行处理,获取至少两个定长重叠语音帧。
其中,语音去噪工具是将原始语音信息进行降噪的工具。具体地,原始语音信息中的个别时段可能存在噪音过高的情况,为了便于服务器实现准确的病理诊断,应将原始语音信息进行去噪处理。
定长重叠语音帧是构成将原始语音信息进行降噪后的每一帧语音信息。具体地,对原始语音信息进行分析,需要对原始语音信息进行分帧,也就是把原始语音信息进行分帧操作形成一小段一小段,每小段称为一个定长重叠语音帧。分帧操作一般不是简单的切开,而是使用移动窗函数来实现的。
具体地,为了提高声音诊断结果的准确性,服务器应获取至少两个定长重叠语音帧作为输入数据,用以实现声音诊断。服务器可将步骤S10中的原始语音信息中的嗓音进行噪音分析,将嗓音中噪音过高的部分采用同时段的喉音进行替代,从而获得至少两个相对纯净的定长重叠语音帧。
步骤S20中,服务器可采用语音去噪工具将原始语音信息进行降噪,获取纯净的利于进行声音诊断的至少两个定长重叠语音帧,提高诊断结果的准确性。
S30.采用域变换工具对至少两个定长重叠语音帧进行处理,获取频域光谱图,提取频域光谱图的一阶时间导数图像和二阶时间导数图像。
其中,域变换工具为常用的将时域信号比如定长重叠语音帧变成频域信号的工具:傅里叶变换算法。傅里叶变换是将时域信号(定长重叠语音帧)分解为不同频率的正弦信号或余弦函数叠加之和。将傅里叶变换比作一个玻璃棱镜。棱镜是可以将光分解为不同颜色的物理仪器,每个成分的颜色由波长(或频率)来决定。傅里叶变换可以看作是数学上的棱镜,将函数基于频率分解为不同的成分。
对光进行分析,可以讨论它的光谱或频率谱。同样,傅立叶变换使得服务器能通过频率成分来分析一个函数。傅里叶变换的典型用途是将频域信号分解成频域光谱图—显示与频率对应的幅值大小。
具体地,频域光谱图中,x,y轴分别对应成频域光谱图的宽和高,颜色的灰度对应z值,频域光谱图对应的公式:z=f(x,y)。公式中的x,y,z分别映射到坐标系中的x,y,z轴,每个像素点的颜色值是其坐标(x,y)的函数。
一阶时间导数图像对应的公式为:gradf(x,y)。在区域D内具有一阶连续偏导数,则对于每一个属于D的点P(x,y),都可定出一个向量,这个向量称为函数z=f(x,y)在点P处的梯度,记作gradf(x,y)。一般通过求导(微分)来实现的。导数是函数的局部性质,描述了频域光谱图对应的函数在某一点附近的变化率。
二阶时间导数图像对应的公式为:
Figure BDA0002036380770000071
其中,f(x,y)是区域D内在点P处的梯度。
步骤S30中,服务器可采用域变换工具获得频域光谱图,并基于频域光谱图获得对应的一阶时间导数图像和二阶时间导数图像,为后续进行声音诊断准备技术基础。
S40.采用卷积神经网络对频域光谱图、一阶时间导数图像和二阶时间导数图像进行处理,获取图像诊断结果。
其中,图像诊断结果为服务器基于卷积神经网络对所述频域光谱图、一阶时间导数图像和二阶时间导数图像进行分析并进行病理原因分类后得到的诊断结果。
具体地,卷积神经网络由卷积层VGG16Net模型,池化层、激活函数层CaffeeNet和一个全连接层构成。其中,全连接层(fully connected layers,FC)在整个卷积神经网络中起到“分类器”的作用,于本实施例,也即将卷积层、池化层和激活函数层将输入函数进行分析后得到的结果进行分类后得到的病理诊断种类或病理原因。
如果说卷积层、池化层和激活函数层等操作是将原始数据映射到隐层特征空间的话,全连接层则起到将学到的“分布式特征表示”映射到样本标记空间的作用。
本实施例中可采用SOFTMAX层作为全连接层,SOFTMAX层的学习速率可被设置为比其他层更高的值。这是因为其他层的权重已经预先训练,并且模型随着新的训练数据而缓慢地变化。进一步地,步骤S40的实现过程如下:
将频域光谱图、一阶时间导数图像和二阶时间导数分别对应的公式均作为卷积神经网络的输入量,其中,VGG16Net和CaffeeNet的作用是提取图像特征。全连接层SOFTMAX层将前序步骤得到的图像特征进行分类,选取概率最大的节点对应的预设声音障碍原因作为图像诊断结果。
其中,Softmax层采用公式:
Figure BDA0002036380770000081
其中,j=1…K,σ(z)是任意实数的K维向量z“压缩”到另一个K维的实向量,范围为0到1。所有σ(z)的和为1,选取其中分值最高的节点对应的声音障碍的诊断原因作为图像诊断结果。
具体地,声音障碍的诊断原因包括以下几种:
1.喉炎性疾病:常见的有急性喉炎,慢性喉炎,声带炎及一些特异性感染如喉结核等。
2.声带良性增生性病变:此类病变为患者最经常就诊于这是最常见于嗓音专科门诊的病变。常见的有声带息肉、声带小结、声带囊肿、声带任克氏水肿、声带接触性肉芽肿或喉淀粉样变等。
3.喉神经肌肉功能障碍:如喉返神经麻痹,喉上神经麻痹,痉挛性发声障碍、重症肌肉无力等或帕金森氏病。
4.声带机械性运动障碍:如最常见的是环杓关节脱位,风湿性环杓关节炎或环甲关节损伤等。
5.喉部肿瘤:喉乳头状瘤、喉血管瘤为常见良性肿瘤,声带白班、声带角化症为常见的癌前病变,喉声带癌或下咽癌为常见的喉部恶性肿瘤。值得一提是声带白斑虽然不是恶性肿瘤,但有10-15%的患者会发生癌变。
6.功能性发音障碍:精神性发声障碍,如癔症性失声,肌紧张性发音困难,假声发音或功能减弱性发音障碍。
7.先天性疾病:如先天性喉蹼,先天性喉裂或先天性喉软化。
8.其它:如声带沟或老年喉等。
进一步地,服务器还可基于每一声音障碍的诊断原因指定对应的治疗方案,比如建议患者如何进行嗓音养护以及对应诊断原因的建议药物。并将该治疗方案添加到图像诊断结果中。
步骤40中,服务器可采用卷积神经网络对所述频域光谱图、一阶时间导数图像和二阶时间导数图像进行处理,快速获取图像诊断结果,作为声音障碍原因的初步自动化诊断结果。
S50.将图像诊断结果发送给目标医师ID对应的医师终端,获取医师终端基于图像诊断结果返回的医师诊断结果。
其中,医师诊断结果是目标医师ID对应的医师基于图像诊断结果,并结合自身诊疗经验给出的最终声音障碍的诊疗建议等。进一步地,医师诊断结果还可包括治疗措施和对应的治疗药物,以便患者及时根据医师诊断结果实施有效性治疗措施。
步骤S50中,服务器可将步骤S40得到的图像诊断结果发送给目标医师ID对应的医师终端,由医师给出最终的医师诊断结果,可有效提高服务器对患者提出的声音诊断请求的回复准确性、灵活性和可靠性。
S60.基于图像诊断结果和医师诊断结果更新原始电子病历,形成更新电子病历,将更新电子病历返回给客户端。
步骤S60中,服务器接收到医师终端发送的医师诊断结果后可将该医师诊断结果结合图像诊断结果按原始电子病历形成的模板中分别添加到对应的位置,形成更新电子病历,利于患者通过不同角度全面了解病情以及诊断结果。
本实施例提供的语音数据辅助诊断方法中,服务器通过接收客户端通过远程发送的声音诊断请求,对该请求中携带的原始声音信息采用语音去噪工具和卷积神经网络进行自动化分析,得到图像诊断结果,并将图像诊断结果发送给医师终端,用以接收医师终端结合该图像诊断结果返回的医师诊断结果,最后同时将医师诊断结果和图像诊断结果形成的更新电子病历发送给客户端,避免患者到现场进行声音诊断的不便,同时加快诊断速度;采用采用语音去噪工具和卷积神经网络对原始声音信息进行自动化分析,可提高诊疗效率和诊疗准确性;并且,客户端可同时获得服务器提供的包括图像诊断结果和医师给出的医师诊断结果的更新电子病历,提高该系统给客户端提供诊疗建议的全面性、灵活性和可靠性。
在一实施例中,如图3所示,在步骤S20中,即采用语音去噪工具对原始语音信息进行处理,获取至少两个定长重叠语音帧,具体包括如下步骤:
S21.采用语音去噪工具处理原始语音信息,获取优化语音信息。
其中,优化语音信息是将原始语音信息进行噪音分析和降噪处理后得到的语音信息。
步骤S21中,服务器可采用语音去噪工具将原始语音信息进行处理后得到纯净的优化语音信息,利于后续服务器基于该纯净的优化语音信息进行声音诊断,获得更为准确的声音诊断结果。
S22.若优化语音信息对应的优化时长大于指定时长,则按指定时长对优化语音信息进行截断,获取定长语音信息。
其中,指定时长是服务器指定的分析优化语音信息的时间长度,于本实施例,可将该指定时长设置为1秒。也即当优化语音信息的时长大于1秒时,将该优化语音信息可进行截断获得1秒的定长语音信息。
步骤S22中,服务器可将优化语音信息进行截断后获得定长语音信息,给后续进行语音切分准备数据基础。
S23.根据语音切分规则对定长语音信息进行切分,获取至少两个定长重叠语音帧。
其中,语音切分规则是如何将定长语音信息进行连续性切分获得定长重叠语音帧的规则,而不是简单的将定长语音信息按时长进行切分。为了保证语音的连续性,在定长语音信息中,切分相邻的两段语音时长相同的语音信息时,应保证这两个语音信息存在重叠的区间,以下举例进行说明。
语音切分规则:将1秒定长语音信息切分得到至少四个定长重叠语音帧,每相邻的两个定长重叠语音帧存在语音帧长度为语音帧长度的20毫秒的重叠区间。定长语音信息被分成40毫秒的帧长利于后续服务器在捕获音高周期和平滑语音中断之间取得很好的平衡。如果帧长很长,声音会中断,或者导致声带不规则打开和关闭的噪声会逐渐消失。如果帧长较短,则持续效应和基音周期丢失,具体语音切分结果如下:
0秒到40毫秒作为第一个定长重叠语音帧;
20毫秒到60毫秒作为第二个定长重叠语音帧;(第一个定长重叠语音帧和第二个定长重叠语音帧存在从20毫秒到40毫秒的重叠的20毫秒的重叠区间)
40毫秒到80毫秒作为第三个定长重叠语音帧;(第二个定长重叠语音帧和第三个定长重叠语音帧存在从40毫秒到60毫秒的重叠的20毫秒的重叠区间)
60毫秒到100毫秒作为第四个定长重叠语音帧;(第三个定长重叠语音帧和第四个定长重叠语音帧存在从60毫秒到80毫秒的重叠的20毫秒的重叠区间)
步骤S23中,服务器可基于语音切分规则获取至少两个定长重叠语音帧,每两个相邻定长重叠语音帧存在等长的重叠区间,利于后续服务器基于定长重叠语音帧进行分析时,保障语音的连续性。
步骤S21至S23中,服务器可采用语音去噪工具将原始语音信息进行处理后得到纯净的优化语音信息,利于后续服务器基于该纯净的优化语音信息进行声音诊断,获得更为准确的声音诊断结果。服务器可将优化语音信息进行截断后获得定长语音信息,给后续进行语音切分准备数据基础。服务器可基于语音切分规则获取至少两个定长重叠语音帧,每两个相邻定长重叠语音帧存在等长的重叠区间,利于后续服务器基于定长重叠语音帧进行分析时,保障语音的连续性。
在一实施例中,原始语音信息包括嗓部语音信息和喉咙语音信息。如图4所示,在步骤S21中,即采用语音去噪工具处理原始语音信息,获取优化语音信息,具体包括如下步骤:
S211.采用语音去噪工具处理嗓部语音信息,获取嗓部语音信息对应的声学噪音值。
其中,嗓部语音信息是声音诊断仪器采集到的嗓部发出的嗓音信息,喉咙语音信息是声音诊断仪器采集到的喉咙发出的喉咙音信息。
具体地,从物理学来说噪声是波形不规则的声音;从通讯领域来说噪声就是对信号或系统起干扰作用的随机信号。本实施例可采用BR-ZS噪声测试仪作为语音去噪工具获取嗓部语音信息对应的声学噪音值。
BR-ZS噪声测试仪是一款符合GB/T3785-2型和61672-2级标准的要求,针对噪声测试而设计的噪声测试分析仪,内置高灵敏度传感器和数据采集模块。该BR-ZS噪声测试仪可使嗓部语音信息对应的噪音信号不失真的以4~20mA/RS232标准输出,实现对噪声的实时监控。
BR-ZS噪声测试仪的技术参数如下:
单位:分贝(dB);
测量范围:30~130dB(A);
频率范围:20Hz~12.5kHz。
步骤S211中,服务器可采用语音去噪工具处理嗓部语音信息,获取嗓部语音信息对应的声学噪音值,利于后续服务器基于声学噪音值进行去噪。
S212.若存在至少一个目标噪音时段对应的声学噪音值高于预设阈值,则获取嗓部语音信息在至少一个目标噪音时段对应的待替换语音信息,以及喉咙语音信息在至少一个目标噪音时段对应的目标语音信息。
其中,目标噪音时段是声学噪音值超过预设阈值时对应的时段。比如,当第0.6秒至0.8秒时,声学噪音值为90dB,超过预设阈值为80dB,则目标噪音时段为0.6秒至0.8秒。
待替换语音信息为嗓部语音信息在目标噪音时段对应的语音信息,目标语音信息为嗓部语音信息在目标噪音时段对应的语音信息。
步骤S212中,服务器可获取目标噪音时段分别对应的待替换语音信息和目标语音信息,为后续服务器采用目标语音信息替换待替换语音信息准备数据基础。
S213.基于嗓部语音信息,将至少一个目标噪音时段对应的待替换语音信息替换为目标语音信息,获取优化语音信息。
步骤S213中,服务器将每一相同时段的目标语音信息替换嗓部语音信息中的待替换信息,可获得更为纯净的优化语音信息,利于服务器基于纯净的优化语音信息进行声音诊断,获得更为准确的诊断结果。
步骤S211至S213中,服务器可采用语音去噪工具处理嗓部语音信息,获取嗓部语音信息对应的声学噪音值,利于后续服务器基于声学噪音值进行去噪。服务器可获取目标噪音时段分别对应的待替换语音信息和目标语音信息,为后续服务器采用目标语音信息替换待替换语音信息准备数据基础。服务器将每一相同时段的目标语音信息替换嗓部语音信息中的待替换信息,可获得更为纯净的优化语音信息,利于服务器基于纯净的优化语音信息进行声音诊断,获得更为准确的诊断结果。
在一实施例中,如图5所示,在步骤S23中,即根据语音切分规则对定长语音信息进行切分,获取至少两个定长重叠语音帧,具体包括如下步骤:
S231.基于语音切分规则,确定至少两个语音截取时间段,每相邻两个语音截取时间段之间存在重叠时间区间,每一语音截取时间段包括截取起点和截取终点。
其中,语音截取时间段是语音切分规则中预设的截取时间段,比如,将1秒定长语音信息中的20毫秒、40毫秒、60毫秒和80毫秒设定为四个定长重叠语音帧截取起点,将40毫秒、60毫秒、80毫秒和100毫秒设定为四个定长重叠语音帧截取终点。
步骤S231中,服务器可在语音切分规则中设定的每一语音截取时间段的截取起点和截取终点,利于后续服务器可直接对定长语音信息按语音切分规则进行语音切分获得对应的定长重叠语音帧,加快获取定长重叠语音帧的速率。
S232.基于每一语音截取时间段的截取起点和截取终点对定长语音信息进行语音截取,获取至少两个定长重叠语音帧。
步骤S232中,服务器可基于步骤S231中得到的语音截取时间段中的截取起点和截取终点对定长语音信息进行语音截取,截取结果快速准确。
步骤S231至S232中,服务器可在语音切分规则中设定的每一语音截取时间段的截取起点和截取终点,利于后续服务器可直接对定长语音信息按语音切分规则进行语音切分获得对应的定长重叠语音帧,加快获取定长重叠语音帧的速率。服务器可基于步骤S231中得到的语音截取时间段中的截取起点和截取终点对定长语音信息进行语音截取,截取结果快速准确。
在一实施例中,如图6所示,在步骤S30中,即采用域变换工具对至少两个定长重叠语音帧进行处理,获取频域光谱图,具体包括如下步骤:
S31.采用傅里叶变换工具对每一定长重叠语音帧进行变换,获取至少两个频域帧。
步骤S31中,服务器通过傅里叶变换工具将在时域内非周期的连续定长重叠语音帧,转换为在频域内非周期的连续至少两个频域帧,给后续服务器级联所有频域帧准备技术基础。
S32.级联至少两个频域帧,形成原始语音信息对应的频域光谱图。
步骤S32中,服务器将步骤S31中按序得到的每一离散的频域帧进行级联,即可获得连续的频域光谱图,利于服务器后续基于频域光谱图进行分析后得到准确的声音诊断结果。
步骤S31至S32中,服务器通过傅里叶变换工具将在时域内非周期的连续定长重叠语音帧,转换为在频域内非周期的连续至少两个频域帧,给后续服务器级联所有频域帧准备技术基础。服务器将步骤S31中按序得到的每一离散的频域帧进行级联,即可获得连续的频域光谱图,利于服务器后续基于频域光谱图进行分析后得到准确的声音诊断结果。
在一实施例中,如图7所示,在步骤S10之前,即在获取客户端发送的声音诊断请求之前,语音数据辅助诊断方法还具体包括如下步骤:
S101.获取当前时间对应的在线医师列表,在线医师列表包括至少一个在线医师ID。
其中,在线医生列表是当前在语音数据辅助诊断系统上所有在线医生形成的列表。该在线医生列表包括每个在线医生对应的在线医师ID。其中,医师ID是服务器给语音数据辅助诊断系统中给每个医师配置的用以区分不同医师的标识。
步骤S101中,服务器可及时获取至少一个在线医师ID,用以及时处理服务器发送的图像诊断结果进行诊断,提高服务器对声音病理进行诊断的效率。
S102.获取每一在线医师ID对应的待处理诊断数量,按升序排列每一待处理诊断数量对应的在线医师ID,形成第一待选队列。
其中,待处理数量是每个在线医师当前对应的需处理的诊断量。第一待选队列是按从小到大顺序排列的每个在线医师当前的待处理诊断数量的队列。
步骤S102中,服务器可迅速获取每个在线医师对应的待处理诊断数量并形成第一待选队列,利于服务器后续基于该第一待选队列进一步进行医师筛选。
S103.按序提取第一待选队列中预设数量的在线医师ID,形成第二待选队列。
其中,预设数量是服务器设定的每次选定医师的数量,于本实施例,可将该预设数量设置为10等。也即,第二待选队列是第一待选队列中的前十名医师。
步骤S103中,服务器将步骤S102中得到的第一待选队列进行精简可获取第二待选队列,利于后续提高服务器基于第二待选队列对医师进行进一步筛选的效率。
S104.获取第二待选队列中每一在线医师ID对应的能力评级,提取能力评级最高的在线医师ID作为目标医师ID。
其中,能力评级是每个医师对应的综合评分或级别。
步骤S104中,服务器可在第二待选队列中提取能力评级最高的在线医师ID作为目标医师ID分配给客户端,提高客户端的图像诊断结果的处理速度,同时提高语音数据辅助诊断结果的可靠性。
步骤S101至S104中,服务器可及时获取至少一个在线医师ID,用以及时处理服务器发送的图像诊断结果进行诊断,提高服务器对声音病理进行诊断的效率。服务器可迅速获取每个在线医师对应的待处理诊断数量并形成第一待选队列,利于服务器后续基于该第一待选队列进一步进行医师筛选。服务器将步骤S102中得到的第一待选队列进行精简可获取第二待选队列,利于后续提高服务器基于第二待选队列对医师进行进一步筛选的效率。服务器可在第二待选队列中提取能力评级最高的在线医师ID作为目标医师ID分配给客户端,提高客户端的图像诊断结果的处理速度,同时提高语音数据辅助诊断结果的可靠性。
在一实施例中,更新电子病历包括声音复诊建议。如图8所示,在步骤S60之后,即在将更新电子病历返回给客户端之后,语音数据辅助诊断方法还具体包括如下步骤:
S601.若声音复诊建议包括建议复诊时间,则当系统当前时间到达建议复诊时间,向客户端发送声音复诊指令。
其中,声音复诊建议是医师终端记录的复诊建议,比如建议复诊时间等。可以理解地,若更新电子病历存在建议复诊时间,说明患者当前病情较中,还需多加观察多次进行复制。医师可按病情在电子病历上填写建议复诊时间,以利于保持病情观察和诊断的持续性,也利于病情的恢复。
声音复诊指令是服务器向客户端发送的应及时进行复诊的指令。
步骤S601中,服务器可监控建议复诊时间,当系统当前时间到达建议复诊时间时,可向客户端发送声音复诊指令,提高语音数据辅助诊断系统的诊断可靠性和可持续性。
S602.获取客户端基于声音复诊指令返回的声音复诊请求,声音复诊请求包括复诊语音信息、目标医师ID和更新电子病历。
其中,复诊语音信息相当于原始语音信息,区别在于,复诊语音信息不是第一次向语音数据辅助诊断系统发送的声音信息,是经过初步诊断后再次或第三次等发送的语音信息。
步骤602中,服务器可接受客户端发送的声音复诊请求中的复诊语音信息,利于后续服务器基于该复诊语音信息再进行分析获取声音诊断结果,可有效判定患者的病情是否好转。
S603.采用语音去噪工具对复诊语音信息进行处理,获取至少两个定长重叠语音帧。
本步骤S603与步骤S20相同,为了避免重复,此处不再赘述。
S604.执行采用域变换工具对至少两个定长重叠语音帧进行处理,获取频域光谱图,提取频域光谱图的一阶时间导数图像和二阶时间导数图像的步骤。
步骤S604与步骤S30至S60相同,为了避免重复,此处不再赘述。
步骤S601至S604中,服务器可监控建议复诊时间,当系统当前时间到达建议复诊时间时,可向客户端发送声音复诊指令,提高语音数据辅助诊断系统的诊断可靠性和可持续性。服务器可接受客户端发送的声音复诊请求中的复诊语音信息,利于后续服务器基于该复诊语音信息再进行分析获取声音诊断结果,可有效判定患者的病情是否好转。
本实施例提供的语音数据辅助诊断方法中,服务器通过接收客户端通过远程发送的声音诊断请求,对该请求中携带的原始声音信息采用语音去噪工具和卷积神经网络进行自动化分析,得到图像诊断结果,并将图像诊断结果发送给医师终端,用以接收医师终端结合该图像诊断结果返回的医师诊断结果,最后同时将医师诊断结果和图像诊断结果形成的更新电子病历发送给客户端,避免患者到现场进行声音诊断的不便,同时加快诊断速度;采用采用语音去噪工具和卷积神经网络对原始声音信息进行自动化分析,可提高诊疗效率和诊疗准确性;并且,客户端可同时获得服务器提供的包括图像诊断结果和医师给出的医师诊断结果的更新电子病历,提高该系统给客户端提供诊疗建议的全面性、灵活性和可靠性。
优选地,服务器可采用语音去噪工具将原始语音信息进行处理后得到纯净的优化语音信息,利于后续服务器基于该纯净的优化语音信息进行声音诊断,获得更为准确的声音诊断结果。服务器可将优化语音信息进行截断后获得定长语音信息,给后续进行语音切分准备数据基础。服务器可基于语音切分规则获取至少两个定长重叠语音帧,每两个相邻定长重叠语音帧存在等长的重叠区间,利于后续服务器基于定长重叠语音帧进行分析时,保障语音的连续性。
优选地,服务器可采用语音去噪工具处理嗓部语音信息,获取嗓部语音信息对应的声学噪音值,利于后续服务器基于声学噪音值进行去噪。服务器可获取目标噪音时段分别对应的待替换语音信息和目标语音信息,为后续服务器采用目标语音信息替换待替换语音信息准备数据基础。服务器将每一相同时段的目标语音信息替换嗓部语音信息中的待替换信息,可获得更为纯净的优化语音信息,利于服务器基于纯净的优化语音信息进行声音诊断,获得更为准确的诊断结果。
优选地,服务器可在语音切分规则中设定的每一语音截取时间段的截取起点和截取终点,利于后续服务器可直接对定长语音信息按语音切分规则进行语音切分获得对应的定长重叠语音帧,加快获取定长重叠语音帧的速率。服务器可基于步骤S231中得到的语音截取时间段中的截取起点和截取终点对定长语音信息进行语音截取,截取结果快速准确。
优选地,服务器通过傅里叶变换工具将在时域内非周期的连续定长重叠语音帧,转换为在频域内非周期的连续至少两个频域帧,给后续服务器级联所有频域帧准备技术基础。服务器将步骤S31中按序得到的每一离散的频域帧进行级联,即可获得连续的频域光谱图,利于服务器后续基于频域光谱图进行分析后得到准确的声音诊断结果。
优选地,服务器可及时获取至少一个在线医师ID,用以及时处理服务器发送的图像诊断结果进行诊断,提高服务器对声音病理进行诊断的效率。服务器可迅速获取每个在线医师对应的待处理诊断数量并形成第一待选队列,利于服务器后续基于该第一待选队列进一步进行医师筛选。服务器将步骤S102中得到的第一待选队列进行精简可获取第二待选队列,利于后续提高服务器基于第二待选队列对医师进行进一步筛选的效率。服务器可在第二待选队列中提取能力评级最高的在线医师ID作为目标医师ID分配给客户端,提高客户端的图像诊断结果的处理速度,同时提高语音数据辅助诊断结果的可靠性。
优选地,服务器可监控建议复诊时间,当系统当前时间到达建议复诊时间时,可向客户端发送声音复诊指令,提高语音数据辅助诊断系统的诊断可靠性和可持续性。服务器可接受客户端发送的声音复诊请求中的复诊语音信息,利于后续服务器基于该复诊语音信息再进行分析获取声音诊断结果,可有效判定患者的病情是否好转。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种语音数据辅助诊断装置,该语音数据辅助诊断装置与上述实施例中语音数据辅助诊断方法一一对应。如图9所示,该语音数据辅助诊断装置包括获取诊断请求模块10、获取定长重叠语音帧模块20、获取频域光谱图模块30、获取处理结果模块40、获取诊断结果模块50和返回电子病历模块60。各功能模块详细说明如下:
获取诊断请求模块10,用于获取客户端发送的声音诊断请求,声音诊断请求包括原始语音信息、目标医师ID和原始电子病历。
获取定长重叠语音帧模块20,用于采用语音去噪工具对原始语音信息进行处理,获取至少两个定长重叠语音帧。
获取频域光谱图模块30,用于采用域变换工具对至少两个定长重叠语音帧进行处理,获取频域光谱图,提取频域光谱图的一阶时间导数图像和二阶时间导数图像。
获取处理结果模块40,用于采用卷积神经网络对频域光谱图、一阶时间导数图像和二阶时间导数图像进行处理,获取图像诊断结果。
获取诊断结果模块50,用于将图像诊断结果发送给目标医师ID对应的医师终端,获取医师终端基于图像诊断结果返回的医师诊断结果。
返回电子病历模块60,用于基于图像诊断结果和医师诊断结果更新原始电子病历,形成更新电子病历,将更新电子病历返回给客户端。
优选地,该获取定长重叠语音帧模块包括获取优化信息单元、获取语音信息单元和获取定长重叠语音帧单元。
获取优化信息单元,用于采用语音去噪工具处理原始语音信息,获取优化语音信息。
获取语音信息单元,用于若优化语音信息对应的优化时长大于指定时长,则按指定时长对优化语音信息进行截断,获取定长语音信息。
获取定长重叠语音帧单元,用于根据语音切分规则对定长语音信息进行切分,获取至少两个定长重叠语音帧。
优选地,该获取优化信息单元包括获取声学噪音值子单元、获取待替换信息子单元和获取优化信息子单元。
获取声学噪音值子单元,用于采用语音去噪工具处理嗓部语音信息,获取嗓部语音信息对应的声学噪音值。
获取待替换信息子单元,用于若存在至少一个目标噪音时段对应的声学噪音值高于预设阈值,则获取嗓部语音信息在至少一个目标噪音时段对应的待替换语音信息,以及喉咙语音信息在至少一个目标噪音时段对应的目标语音信息。
获取优化信息子单元,用于基于嗓部语音信息,将至少一个目标噪音时段对应的待替换语音信息替换为目标语音信息,获取优化语音信息。
优选地,该获取定长重叠语音帧单元包括确定语音时间段子单元和获取定长重叠语音帧子单元。
确定语音时间段子单元,用于基于语音切分规则,确定至少两个语音截取时间段,每相邻两个语音截取时间段之间存在重叠时间区间,每一语音截取时间段包括截取起点和截取终点。
获取定长重叠语音帧子单元,用于基于每一语音截取时间段的截取起点和截取终点对定长语音信息进行语音截取,获取至少两个定长重叠语音帧。
优选地,该获取频域光谱图模块包括获取频域帧单元和形成频域光谱图单元。
获取频域帧单元,用于采用傅里叶变换工具对每一定长重叠语音帧进行变换,获取至少两个频域帧。
形成频域光谱图单元,用于级联至少两个频域帧,形成原始语音信息对应的频域光谱图。
优选地,该语音数据辅助诊断装置还包括获取医师列表模块、获取诊断数量模块、形成第二队列模块和提取目标医师模块。
获取医师列表模块,用于获取当前时间对应的在线医师列表,在线医师列表包括至少一个在线医师ID。
获取诊断数量模块,用于获取每一在线医师ID对应的待处理诊断数量,按升序排列每一待处理诊断数量对应的在线医师ID,形成第一待选队列。
形成第二队列模块,用于按序提取第一待选队列中预设数量的在线医师ID,形成第二待选队列。
提取目标医师模块,用于获取第二待选队列中每一在线医师ID对应的能力评级,提取能力评级最高的在线医师ID作为目标医师ID。
优选地,该语音数据辅助诊断装置还包括发送复制指令模块、获取复制请求模块、处理复诊信息模块、执行处理定长重叠语音帧模块和添加病历档案库模块。
发送复制指令模块,用于若声音复诊建议包括建议复诊时间,则当系统当前时间到达建议复诊时间,向客户端发送声音复诊指令。
获取复制请求模块,用于获取客户端基于声音复诊指令返回的声音复诊请求,声音复诊请求包括复诊语音信息、目标医师ID和更新电子病历。
处理复诊信息模块,用于采用语音去噪工具对复诊语音信息进行处理,获取至少两个定长重叠语音帧。
执行处理定长重叠语音帧模块,用于执行采用域变换工具对至少两个定长重叠语音帧进行处理,获取频域光谱图,提取频域光谱图的一阶时间导数图像和二阶时间导数图像的步骤。
关于语音数据辅助诊断装置的具体限定可以参见上文中对于语音数据辅助诊断方法的限定,在此不再赘述。上述语音数据辅助诊断装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于语音数据辅助诊断方法相关的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音数据辅助诊断方法。
在一实施例中,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例语音数据辅助诊断方法,例如图2所示S10至步骤S60。或者,处理器执行计算机程序时实现上述实施例中语音数据辅助诊断装置的各模块/单元的功能,例如图9所示模块10至模块60的功能。为避免重复,此处不再赘述。
在一实施例中,提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例语音数据辅助诊断方法,例如图2所示S10至步骤S60。或者,该计算机程序被处理器执行时实现上述装置实施例中语音数据辅助诊断装置中各模块/单元的功能,例如图9所示模块10至模块60的功能。为避免重复,此处不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (15)

1.一种语音数据辅助诊断装置,其特征在于,包括:
获取诊断请求模块,用于获取客户端发送的声音诊断请求,所述声音诊断请求包括原始语音信息、目标医师ID和原始电子病历,所述原始语音信息包括嗓音和喉音;
获取定长重叠语音帧模块,用于采用语音去噪工具对所述原始语音信息中的嗓音进行噪音分析,将嗓音中噪音过高的部分采用同时段的喉音进行替换,获取至少两个定长重叠语音帧;
获取频域光谱图模块,用于采用域变换工具对至少两个所述定长重叠语音帧进行处理,获取频域光谱图,提取所述频域光谱图的一阶时间导数图像和二阶时间导数图像;
获取处理结果模块,用于采用卷积神经网络对所述频域光谱图、一阶时间导数图像和二阶时间导数图像进行处理,获取图像诊断结果;
获取诊断结果模块,用于将所述图像诊断结果发送给所述目标医师ID对应的医师终端,获取所述医师终端基于所述图像诊断结果返回的医师诊断结果;
返回电子病历模块,用于基于所述图像诊断结果和所述医师诊断结果更新所述原始电子病历,形成更新电子病历,将所述更新电子病历返回给所述客户端。
2.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如下语音数据辅助诊断方法:
获取客户端发送的声音诊断请求,所述声音诊断请求包括原始语音信息、目标医师ID和原始电子病历,所述原始语音信息包括嗓音和喉音;
采用语音去噪工具对所述原始语音信息中的嗓音进行噪音分析,将嗓音中噪音过高的部分采用同时段的喉音进行替换,获取至少两个定长重叠语音帧;
采用域变换工具对至少两个所述定长重叠语音帧进行处理,获取频域光谱图,提取所述频域光谱图的一阶时间导数图像和二阶时间导数图像;
采用卷积神经网络对所述频域光谱图、一阶时间导数图像和二阶时间导数图像进行处理,获取图像诊断结果;
将所述图像诊断结果发送给所述目标医师ID对应的医师终端,获取所述医师终端基于所述图像诊断结果返回的医师诊断结果;
基于所述图像诊断结果和所述医师诊断结果更新所述原始电子病历,形成更新电子病历,将所述更新电子病历返回给所述客户端。
3.如权利要求2所述的计算机设备,其特征在于,所述采用语音去噪工具对所述原始语音信息进行处理,获取至少两个定长重叠语音帧,包括:
采用语音去噪工具处理所述原始语音信息,获取优化语音信息;
若所述优化语音信息对应的优化时长大于指定时长,则按所述指定时长对所述优化语音信息进行截断,获取定长语音信息;
根据语音切分规则对所述定长语音信息进行切分,获取至少两个所述定长重叠语音帧。
4.如权利要求3所述的计算机设备,其特征在于,所述采用语音去噪工具处理所述原始语音信息,获取优化语音信息,包括:
采用语音去噪工具处理所述嗓音,获取所述嗓音对应的声学噪音值;
若存在至少一个目标噪音时段对应的声学噪音值高于预设阈值,则获取所述嗓音在至少一个所述目标噪音时段对应的待替换语音信息,以及所述喉音在至少一个所述目标噪音时段对应的目标语音信息;
基于所述嗓音,将至少一个所述目标噪音时段对应的所述待替换语音信息替换为所述目标语音信息,获取所述优化语音信息。
5.如权利要求3所述的计算机设备,其特征在于,所述根据语音切分规则对所述定长语音信息进行切分,获取至少两个所述定长重叠语音帧,包括:
基于所述语音切分规则,确定至少两个语音截取时间段,每相邻两个所述语音截取时间段之间存在重叠时间区间,每一所述语音截取时间段包括截取起点和截取终点;
基于每一所述语音截取时间段的截取起点和截取终点对所述定长语音信息进行语音截取,获取至少两个所述定长重叠语音帧。
6.如权利要求2所述的计算机设备,其特征在于,所述采用域变换工具对至少两个所述定长重叠语音帧进行处理,获取频域光谱图,包括:
采用傅里叶变换工具对每一所述定长重叠语音帧进行变换,获取至少两个频域帧;
级联至少两个所述频域帧,形成所述原始语音信息对应的所述频域光谱图。
7.如权利要求2所述的计算机设备,其特征在于,在所述获取客户端发送的声音诊断请求之前,所述语音数据辅助诊断方法还包括:
获取当前时间对应的在线医师列表,所述在线医师列表包括至少一个在线医师ID;
获取每一所述在线医师ID对应的待处理诊断数量,按升序排列每一所述待处理诊断数量对应的在线医师ID,形成第一待选队列;
按序提取所述第一待选队列中预设数量的在线医师ID,形成第二待选队列;
获取所述第二待选队列中每一在线医师ID对应的能力评级,提取能力评级最高的在线医师ID作为目标医师ID。
8.如权利要求2所述的计算机设备,其特征在于,所述更新电子病历包括声音复诊建议;
在所述将所述更新电子病历返回给所述客户端之后,所述语音数据辅助诊断方法还包括:
若所述声音复诊建议包括建议复诊时间,则当系统当前时间到达所述建议复诊时间,向所述客户端发送声音复诊指令;
获取所述客户端基于所述声音复诊指令返回的声音复诊请求,所述声音复诊请求包括复诊语音信息、目标医师ID和更新电子病历;
采用语音去噪工具对所述复诊语音信息进行处理,获取至少两个定长重叠语音帧;
执行采用域变换工具对至少两个所述定长重叠语音帧进行处理,获取频域光谱图,提取所述频域光谱图的一阶时间导数图像和二阶时间导数图像的步骤。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如下语音数据辅助诊断方法:获取客户端发送的声音诊断请求,所述声音诊断请求包括原始语音信息、目标医师ID和原始电子病历,所述原始语音信息包括嗓音和喉音;
采用语音去噪工具对所述原始语音信息中的嗓音进行噪音分析,将嗓音中噪音过高的部分采用同时段的喉音进行替换,获取至少两个定长重叠语音帧;
采用域变换工具对至少两个所述定长重叠语音帧进行处理,获取频域光谱图,提取所述频域光谱图的一阶时间导数图像和二阶时间导数图像;
采用卷积神经网络对所述频域光谱图、一阶时间导数图像和二阶时间导数图像进行处理,获取图像诊断结果;
将所述图像诊断结果发送给所述目标医师ID对应的医师终端,获取所述医师终端基于所述图像诊断结果返回的医师诊断结果;
基于所述图像诊断结果和所述医师诊断结果更新所述原始电子病历,形成更新电子病历,将所述更新电子病历返回给所述客户端。
10.如权利要求9所述的计算机可读存储介质,其特征在于,所述采用语音去噪工具对所述原始语音信息进行处理,获取至少两个定长重叠语音帧,包括:
采用语音去噪工具处理所述原始语音信息,获取优化语音信息;
若所述优化语音信息对应的优化时长大于指定时长,则按所述指定时长对所述优化语音信息进行截断,获取定长语音信息;
根据语音切分规则对所述定长语音信息进行切分,获取至少两个所述定长重叠语音帧。
11.如权利要求10所述的计算机可读存储介质,其特征在于,所述采用语音去噪工具处理所述原始语音信息,获取优化语音信息,包括:
采用语音去噪工具处理所述嗓音,获取所述嗓音对应的声学噪音值;
若存在至少一个目标噪音时段对应的声学噪音值高于预设阈值,则获取所述嗓音在至少一个所述目标噪音时段对应的待替换语音信息,以及所述喉音在至少一个所述目标噪音时段对应的目标语音信息;
基于所述嗓音,将至少一个所述目标噪音时段对应的所述待替换语音信息替换为所述目标语音信息,获取所述优化语音信息。
12.如权利要求10所述的计算机可读存储介质,其特征在于,所述根据语音切分规则对所述定长语音信息进行切分,获取至少两个所述定长重叠语音帧,包括:
基于所述语音切分规则,确定至少两个语音截取时间段,每相邻两个所述语音截取时间段之间存在重叠时间区间,每一所述语音截取时间段包括截取起点和截取终点;
基于每一所述语音截取时间段的截取起点和截取终点对所述定长语音信息进行语音截取,获取至少两个所述定长重叠语音帧。
13.如权利要求9所述的计算机可读存储介质,其特征在于,所述采用域变换工具对至少两个所述定长重叠语音帧进行处理,获取频域光谱图,包括:
采用傅里叶变换工具对每一所述定长重叠语音帧进行变换,获取至少两个频域帧;
级联至少两个所述频域帧,形成所述原始语音信息对应的所述频域光谱图。
14.如权利要求9所述的计算机可读存储介质,其特征在于,在所述获取客户端发送的声音诊断请求之前,所述语音数据辅助诊断方法还包括:
获取当前时间对应的在线医师列表,所述在线医师列表包括至少一个在线医师ID;
获取每一所述在线医师ID对应的待处理诊断数量,按升序排列每一所述待处理诊断数量对应的在线医师ID,形成第一待选队列;
按序提取所述第一待选队列中预设数量的在线医师ID,形成第二待选队列;
获取所述第二待选队列中每一在线医师ID对应的能力评级,提取能力评级最高的在线医师ID作为目标医师ID。
15.如权利要求9所述的计算机可读存储介质,其特征在于,所述更新电子病历包括声音复诊建议;
在所述将所述更新电子病历返回给所述客户端之后,所述语音数据辅助诊断方法还包括:
若所述声音复诊建议包括建议复诊时间,则当系统当前时间到达所述建议复诊时间,向所述客户端发送声音复诊指令;
获取所述客户端基于所述声音复诊指令返回的声音复诊请求,所述声音复诊请求包括复诊语音信息、目标医师ID和更新电子病历;
采用语音去噪工具对所述复诊语音信息进行处理,获取至少两个定长重叠语音帧;
执行采用域变换工具对至少两个所述定长重叠语音帧进行处理,获取频域光谱图,提取所述频域光谱图的一阶时间导数图像和二阶时间导数图像的步骤。
CN201910326561.3A 2019-04-23 2019-04-23 语音数据辅助诊断方法、装置、计算机设备及存储介质 Active CN110074759B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910326561.3A CN110074759B (zh) 2019-04-23 2019-04-23 语音数据辅助诊断方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910326561.3A CN110074759B (zh) 2019-04-23 2019-04-23 语音数据辅助诊断方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN110074759A CN110074759A (zh) 2019-08-02
CN110074759B true CN110074759B (zh) 2023-06-06

Family

ID=67416169

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910326561.3A Active CN110074759B (zh) 2019-04-23 2019-04-23 语音数据辅助诊断方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN110074759B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113643728B (zh) * 2021-08-12 2023-08-22 荣耀终端有限公司 一种音频录制方法、电子设备、介质及程序产品
CN116473521B (zh) * 2023-06-21 2023-08-18 四川大学华西医院 疑似环杓关节脱位声音频谱识别方法及系统

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060066416A (ko) * 2004-12-13 2006-06-16 한국전자통신연구원 음성 코덱을 이용한 후두 원격 진단 서비스 장치 및 그 방법
US20080300867A1 (en) * 2007-06-03 2008-12-04 Yan Yuling System and method of analyzing voice via visual and acoustic data
RU2466468C1 (ru) * 2011-06-30 2012-11-10 Даниил Александрович Кочаров Система и способ распознавания речи
CN103093759B (zh) * 2013-01-16 2014-12-10 东北大学 一种基于移动终端的嗓音检测评估装置及方法
US9058820B1 (en) * 2013-05-21 2015-06-16 The Intellisis Corporation Identifying speech portions of a sound model using various statistics thereof
CN103730130B (zh) * 2013-12-20 2019-03-01 中国科学院深圳先进技术研究院 一种病理嗓音的检测系统
US9640186B2 (en) * 2014-05-02 2017-05-02 International Business Machines Corporation Deep scattering spectrum in acoustic modeling for speech recognition
JP6336543B2 (ja) * 2014-08-01 2018-06-06 キヤノンマーケティングジャパン株式会社 情報処理装置およびその制御方法、情報処理システム、並びにプログラム
CN104992393A (zh) * 2015-07-18 2015-10-21 深圳市前海安测信息技术有限公司 O2o模式下的电子诊疗单生成方法和网络医院平台
CN107910011B (zh) * 2017-12-28 2021-05-04 科大讯飞股份有限公司 一种语音降噪方法、装置、服务器及存储介质

Also Published As

Publication number Publication date
CN110074759A (zh) 2019-08-02

Similar Documents

Publication Publication Date Title
Hossain et al. Smart healthcare monitoring: a voice pathology detection paradigm for smart cities
US20210145306A1 (en) Managing respiratory conditions based on sounds of the respiratory system
CN110772235A (zh) 基于云计算和移动平台的中医智能健康分析系统
CN113436723A (zh) 视频问诊方法、装置、设备及存储介质
CN110074759B (zh) 语音数据辅助诊断方法、装置、计算机设备及存储介质
CN111248859A (zh) 基于卷积神经网络的睡眠呼吸暂停自动检测方法
CN113160988A (zh) 一种基于大数据分析的健康管理系统
CN202815842U (zh) 基于云计算的中医数据采集诊断中间系统
CN110755091A (zh) 一种个人心理健康监测系统及方法
CN115862868A (zh) 心理测评系统、平台、电子设备及存储介质
Li et al. Improvement on speech depression recognition based on deep networks
Ali et al. An IoT-based smart healthcare system to detect dysphonia
US20240138780A1 (en) Digital kiosk for performing integrative analysis of health and disease condition and method thereof
CN116723793A (zh) 基于语音分析的自动生理和病理评定
CN113764099A (zh) 基于人工智能的心理状态分析方法、装置、设备及介质
CN113693611A (zh) 基于机器学习的心电数据分类方法及装置
US20220005494A1 (en) Speech analysis devices and methods for identifying migraine attacks
CN109215773B (zh) 一种基于大数据的日常检测方法
CN111048202A (zh) 一种智能化中医诊断系统及其方法
CN110809037A (zh) 一种基于深度多元特征的物联网皮肤镜系统
CN115691793A (zh) 一种舌象数据处理方法、装置及相关设备
Abdelkhalek et al. Investigating the relationship between cough detection and sampling frequency for wearable devices
CN113921098A (zh) 一种医疗服务评价方法和系统
US11810579B2 (en) Systems and methods for tracking biomarkers in subjects
Fong et al. Longitudinal ambient mobile sensor monitoring for tcm-oriented healthcare assessments: Framework, challenges and applications

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant