CN112739253A - 用于肺部状况监测与分析的系统和方法 - Google Patents

用于肺部状况监测与分析的系统和方法 Download PDF

Info

Publication number
CN112739253A
CN112739253A CN201980061911.6A CN201980061911A CN112739253A CN 112739253 A CN112739253 A CN 112739253A CN 201980061911 A CN201980061911 A CN 201980061911A CN 112739253 A CN112739253 A CN 112739253A
Authority
CN
China
Prior art keywords
speech
phrase
electronic device
analysis
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201980061911.6A
Other languages
English (en)
Other versions
CN112739253B (zh
Inventor
易卜拉欣·内马提奥塞纳巴迪
麦德·马布布尔·拉曼
维斯瓦姆·纳特汉
科罗什·瓦坦帕瓦
况吉龙
高军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN112739253A publication Critical patent/CN112739253A/zh
Application granted granted Critical
Publication of CN112739253B publication Critical patent/CN112739253B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/66Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/08Detecting, measuring or recording devices for evaluating the respiratory organs
    • A61B5/0823Detecting or evaluating cough events
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/48Other medical applications
    • A61B5/4803Speech analysis specially adapted for diagnostic purposes
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7235Details of waveform analysis
    • A61B5/7264Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
    • A61B5/7267Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems involving training the classification device
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Veterinary Medicine (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Physiology (AREA)
  • Pulmonology (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Psychiatry (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

一种用于肺部状况监测的方法,其包括从电子装置的用户的话语中选择短语,其中短语匹配多个短语的条目。识别短语内的与一个或更多肺部状况相关联的至少一个言语特征。基于对至少一个言语特征的分析来确定肺部状况。

Description

用于肺部状况监测与分析的系统和方法
技术领域
一个或更多实施例总体上涉及健康监测,具体地,涉及包括语音助理的肺部状况监测。
背景技术
目前,美国患有慢性阻塞性肺部疾病(COPD)的成人数量超过1200万。当涉及到哮喘患者时,这个数字上升至2500万。连续地监测这些患者可能是预测和防止急性恶化事件的关键方法。如果不及时治疗,那么这些事件可能会导致长期住院治疗和死亡。一般来说,在美国治疗肺部疾病的费用为每年约$1540亿,而每年增长6%。及早检测出慢性肺病患者的肺恶化将极大地减少再次住院、改善患者预后和他们的生活质量。
发明内容
技术问题
对患者的基于音频的远程监测似乎是用于检测诸如咳嗽、言语模式改变、呼吸短促等症状的一种便宜且有效的方法。尽管连续记录音频可以有助于这些症状的检测和分析,但它带来了几个主要问题:1-用户的隐私;2-数据不一致,这使得很难检测言语模式辨识的改变;3-移动装置上的资源的限制,诸如电池、处理功率和存储器;以及4-诸如环境噪声的音频噪声源对目标症状声音的干扰,这使得现场被动感测极具挑战性。
问题的解决方案
一个或更多实施例总体上涉及健康状况监测。在一个实施例中,用于肺部状况监测的方法包括从电子装置的用户的话语中选择短语,其中短语匹配多个短语的条目。识别短语内的与一个或更多肺部状况相关联的至少一个言语特征。基于对至少一个言语特征的分析来确定肺部状况。
在一些实施例中,电子装置包括存储指令的存储器。至少一个处理器执行指令,该指令包括过程,该过程被配置为:从电子装置的用户的话语中选择短语,其中短语匹配多个短语的条目;识别短语内的与一个或更多肺部状况相关联的至少一个言语特征;以及基于对至少一个言语特征的分析来确定肺部状况。
在一个或更多实施例中,非暂时性处理器可读介质包括程序,该程序在被处理器执行时执行方法,该方法包括从电子装置的用户的话语中选择短语,其中短语匹配多个短语的条目。识别短语内的与一个或更多肺部状况相关联的至少一个言语特征。基于对至少一个言语特征的分析来确定肺部状况。
一个或更多实施例的这些和其他方面和优点将从以下详细描述中变得显而易见,所述详细描述在结合附图时以示例方式说明了一个或更多实施例的原理。
发明的有益效果
在一些实施例中,除了语音数据外,还可以将其他来源用于肺部评估(以及在更宽的范围内,一般健康评估)。来自语音助理的诸如使用频率、使用模式和使用时间的装置使用信息可以有益于上下文信息。例如,患者使用语音助理的频率的改变可以指示患者的症状变坏。在一些实施例中,患者执行的命令的内容可以用作他/她的肺部疾病状态的指示器。例如,搜索关于特定疾病的特定药物或特定症状。该信息可以容易使用语音助理API和言语转文本处理来提取。
附图说明
为了更全面地理解实施例的性质和优点以及优选的使用模式,应当参考以下结合附图阅读的详细描述,在附图中:
图1示出了根据一些实施例的通信系统的示意图;
图2示出了根据一些实施例的用于能够单独地或组合地执行语音助理健康监测处理的系统的架构的框图,所述系统包括电子装置和云或服务器环境;
图3示出了根据一些实施例的用于基于语音助理的健康监测的架构;
图4示出了针对语音助理实施的言语辨识中的示例性言语转文本过程;
图5示出了根据一些实施例的用于健康评估的短语检出标准的过程流程;
图6示出了根据一些实施例的用于捕获检出的短语、上下文信息与来自短语的重要提取特征之间的个人化相关性和依赖性的纵向模型架构;
图7A示出了展示检测到的言语和停顿时间片段的单个受试者的波形的示例;
图7B示出了展示言语信号的元音和非元音部分的波形的示例;
图8示出了根据一些实施例的对于形成个人化纵向模型的检出的短语(状态模型)在不同上下文下生成的特征的示例;
图9示出了根据一些实施例的用于通过将估计的数据馈送回到输入来提高模型估计和特征评估准确率的示例;
图10示出了根据一些实施例的用于特征生成的框图;
图11示出了根据一些实施例的用于针对健康监测来分析短语和确定严重度分数并施加动作的示例性使用情况;
图12A示出了根据一些实施例的用于针对不模糊的音频数据使用随机森林进行咳嗽/语言/无分类的示例性混淆矩阵;
图12B示出了根据一些实施例的用于针对模糊的音频数据使用随机森林进行咳嗽/语言/无分类的示例性混淆矩阵;
图13A示出了示例性言语波形(顶部)和频谱图(底部);
图13B示出了示例性咳嗽波形(顶部)和频谱图(底部);
图14示出了根据一些实施例的用于咳嗽检测处理的架构的框图;
图15示出了根据一些实施例的用于使用语音助理对肺病患者进行检测、分析和动作的过程的框图;以及
图16是示出信息处理系统的高级框图,所述信息处理系统包括实施一个或更多实施例的计算系统。
具体实施方式
以下描述是为了说明一个或更多实施例的一般原理而做出的,而不打算限制本文要求保护的发明构思。此外,本文描述的特定特征可以在各种可能的组合和排列的每一个中与其他描述的特征结合使用。除非本文另有明确定义,否则应给所有术语最广泛的解释,包括从说明书中隐含的含义以及本领域的技术人员所理解的含义和/或如字典、专著等所定义的那些。
应当注意,术语“中的至少一者”指的是所伴随元素中的一者或一者以上。例如,“a、b、c中的至少一者或其组合”可以解释为单独的“a”、“b”或“c”;或者组合在一起的“a”和“b”、组合在一起的“b”和“c”、组合在一起的“a”和“c”;或者组合在一起的“a”、“b”和“c”。
针对肺部状况监测提供了一个或更多实施例。一些实施例包括一种方法,所述方法包括从电子装置的用户的话语中选择短语,其中短语匹配多个短语的条目。识别短语内的与一个或更多肺部状况相关联的至少一个言语特征。基于对至少一个言语特征的分析来确定肺部状况。
一些实施例利用了语音助理(例如,个人助理(PA)、虚拟助理等),从而采用诸如记录的语音、使用信息和上下文数据的特征来生成稀疏但私密且一致的数据源,以用于患者(诸如肺病患者等)的半连续监测。数据挖掘和机器学习处理用来分析这些数据源并且跟踪健康症状的改变并在需要时警告患者和看护者。在一个或更多实施例中,将用来与语音助理通信和交互的音频命令用作患者的健康状态评估以及例如肺部相关致命事件(诸如哮喘发作和COPD恶化)的预测的来源。语音助理提供唯一的数据源。在一些实施例中,对“短语检出”的处理基于初判和从患者状态的纵向分析检索的反馈来选择特定短语。将这些选择的短语用作言语特征生成和数据分析的来源。存储这些选择的短语中的元音、停顿模式和音节片段的特性(例如,存储在短语库、知识库等中)并且将其用来生成用于定位短语的感兴趣部分的模型。模型在反复接收到相同短语时不断地更新自身。具有这些短语的一致连续流确保这个模型针对每个受试者(即,电子装置的用户、肺病患者等)收敛到一致状态,由此实现个人化模型。
在一些实施例中,用于定位的模型使用在线学习方案来不断地更新自身。不断地更新的模型还用于检测音频的元音、停顿模式和音节片段,所述音频然后被馈送到言语特征生成处理。这些特征然后被馈送到纵向分析处理,其中估计患者状态偏差。如果患者状态的这些变化似乎令人担忧,则将向临床医生发送通知,并且如有必要,临床医生将介入任何可能危险的健康相关事件。在一个或更多实施例中,解决了被动音频收集的问题中的一些。与连续地记录的被动音频数据相比,语音助理音频数据并不是隐私敏感的。它是受试者愿意发布的音频数据,并且内容通常是许多语音命令,所述语音命令不是私密和敏感材料。被动地记录的音频数据伴随各种语音短语和词语。然而,当与该组语音助理音频命令相比时,一致的重复短语的比例要低得多。因此,当涉及到语音助理音频数据时,跟踪言语特征偏差更容易。就电池寿命、处理和数据存储而言,运行被动连续音频收集的需求也可能相对较高。另一方面,如果利用语音助理数据,则仅需要有限的一组智能地选择的短语。此外,关于音频的某些特定部分的信息的收集不要求收集整个音频流。应注意,与被动音频记录数据相比,语音助理音频数据不是隐私敏感的。语音助理音频包括受试者愿意发布的音频数据,并且内容通常是一些语音命令,所述语音命令不是私密和敏感材料。不同于常规系统,一个或更多实施例利用用户已经同意记录针对语音助理的语音的事实。因此,不需要另外的记录许可(例如,依赖于记录现有的语音命令而不是一直记录患者)。
被动音频收集的另一大挑战是处理各种不同的音频噪声源。当涉及到检测症状和语音的特征时,这些可以增加假阳性和假阴性。另一方面,与语音助理的交互通常不受这个问题妨碍。原因在于,为了与语音助理交互,用户本能地确保在他或她与语音助理交流时没有干扰(例如,将电视音频静音等)。用户在说出命令时还自动地确保足够靠近语音助理。一些实施例具有跨平台且普遍深入的优点:它们不限于特定装置;可以使用配备有语音助理的任何装置。
一些实施例利用现有平台,诸如个人助理(例如,
Figure BDA0002985990010000051
的Bixby)或智能电话,以开发新服务,例如肺病患者监测。健康监测处理使用现有平台来限定用于肺部应用的新数据流源。在一些实施例中,实施短语检出以用于与例如肺部健康评估相关的一组选择性短语而不是整个语音的检测和分析。在一个或更多实施例中,健康检测处理使用患者状态的纵向分析的结果来不断地更新模型。
一些实施例对一致的更标准音频输入数据而不是整个语音执行分析,这使得特征偏差的检测更具价值且值得信赖。与连续音频记录相比,语音助理在电池、存储和处理方面的限制更少。使用语音助理的很多装置都不是便携的。因此,在一个或更多实施例中,在装置而不是服务器或云环境上执行许多处理,这使得感测更稳健且安全。
图1是根据一个实施例的通信系统10的示意图。通信系统10可以包括通信网络110和发起传出通信操作的通信装置(发射装置12),发射装置12可以使用所述通信网络来发起和执行与通信网络110内的其他通信装置的通信操作。例如,通信系统10可以包括从发射装置12接收通信操作的通信装置(接收装置11)。尽管通信系统10可以包括多个发射装置12和接收装置11,但图1中仅示出了每一者的一个以简化附图。
可以使用可操作成用于创建通信网络的任何合适的电路、装置、系统或这些的组合(例如,包括通信塔和电信服务器的无线通信基础设施)来创建通信网络110。通信网络110可以能够使用任何合适的通信协议来提供通信。在一些实施例中,通信网络110可以支持例如传统电话线、电缆电视、Wi-Fi(例如,IEEE 802.11协议)、
Figure BDA0002985990010000061
高频系统(例如,900MHz、2.4GHz和5.6GHz通信系统)、红外、其他相对局部的无线通信协议,或者它们的任何组合。在一些实施例中,通信网络110可以支持由无线和蜂窝电话以及个人电子邮件装置(例如,
Figure BDA0002985990010000062
)使用的协议。此类协议可以包括例如GSM、GSM+EDGE、CDMA、quadband以及其他蜂窝协议。在另一示例中,远程通信协议可以包括Wi-Fi以及用于使用VOIP、LAN、WAN来拨打或接听电话的协议或其他基于TCP-IP的通信协议。当位于通信网络110内时,发射装置12和接收装置11可以通过双向通信路径(诸如路径13)或通过两条单向通信路径进行通信。发射装置12和接收装置11两者能够发起通信操作和接收所发起的通信操作。
发射装置12和接收装置11可以包括用于发送和接收通信操作的任何合适的装置。例如,发射装置12和接收装置11可以包括但不限于包括语音助理(个人助理、虚拟助理等)的装置,诸如移动电话装置、电视(TV)系统、智能TV系统、相机、摄像机、具有音频视频功能的装置、平板电脑、可穿戴装置、智能家电、智能相框、以及任何其他能够无线通信(在有或没有支持无线的附件系统的帮助下)或经由有线路径(例如,使用传统电话线)进行通信的装置。通信操作可以包括任何合适的通信形式,包括例如语音通信(例如,电话呼叫)、数据通信(例如,数据和控制消息、电子邮件、文本消息、文本消息)、视频通信,或者这些的组合(例如,视频会议)。
图2示出了能够使用电子装置120(例如,移动电话装置、TV系统、相机、摄像机、具有音频视频功能的装置、平板电脑、平板装置、可穿戴装置、智能家电、智能相框、智能照明等)、云或服务器140或者电子装置120和云计算(例如,可配置的计算系统资源和较高级服务的共享池等)或服务器(例如,管理网络资源等的计算机、装置或程序)140的组合来执行健康状况(例如,肺部状况)监测的系统100的架构的框图。发射装置12(图1)和接收装置11两者可以包括电子装置120的特征中的一些或全部。在一些实施例中,电子装置120可以包括显示器121、麦克风122、音频输出123、输入机构124、通信电路125、控制电路126、相机128、处理和存储器129、语音助理健康(例如,肺部等)监测处理130和/或131(用于在电子装置120上、在云/服务器140上、在电子装置120和云/服务器140的组合上处理、与通信电路125通信以获得信息/将其信息提供给云或服务器140);并且可以包括用于但不限于如下所述的示例的处理中的任一个以及任何其他合适的部件。提供了应用1至N127并且可以从云或服务器140、通信网络110(图1)等获得所述应用,其中N是等于或大于1的正整数。
在一些实施例中,音频输出123、显示器121、输入机构124、通信电路125和麦克风122所采用的所有应用可以由控制电路126互连和管理。在一个示例中,能够将音乐传输到其他调谐装置的手持式音乐播放器可以结合到电子装置120中。
在一些实施例中,音频输出123可以包括用于将音频提供给电子装置120的用户的任何合适的音频部件。例如,音频输出123可以包括构建到电子装置120中的一个或更多扬声器(例如,单声道或立体声扬声器)。在一些实施例中,音频输出123可以包括远程地联接到电子装置120的音频部件。例如,音频输出123可以包括可以有线地(例如,联接到具有插口的电子装置120)或无线地(例如,
Figure BDA0002985990010000081
耳机或
Figure BDA0002985990010000082
耳麦)联接到通信装置的耳麦、耳机或耳塞。
在一些实施例中,显示器121可以包括用于提供对用户可见的显示的任何合适的屏幕或投影系统。例如,显示器121可以包括结合在电子装置120中的屏幕(例如,LCD屏、LED屏、OLED屏等)。作为另一示例,显示器121可以包括用于在远离电子装置120的表面上提供内容的显示的可移动显示器或投影系统(例如,视频投影仪)。显示器121可以操作以在控制线路126的指导下显示内容(例如,有关通信操作的信息或有关可用媒体选择的信息)。
在一些实施例中,输入机构124可以是用于将用户输入或指令提供到电子装置120的任何合适的机构或用户接口。输入机构124可以采取多种形式,诸如按钮、小键盘、拨盘、点击式转盘、鼠标、视觉指示器、遥控、一个或更多传感器(例如,相机或视觉传感器、光传感器、接近传感器等)或触摸屏。输入机构124可以包括多点触摸屏。
在一些实施例中,通信电路125可以是可操作以连接到通信网络(例如,图1的通信网络110)并且将通信操作和媒体从电子装置120传输到通信网络内的其他装置的任何合适的通信电路。通信电路125可以操作以使用任何合适的通信协议与通信网络交互,例如,所述通信协议诸如Wi-Fi(例如,IEEE 802.11协议)、
Figure BDA0002985990010000083
高频系统(例如,900MHz、2.4GHz和5.6GHz通信系统)、红外、GSM、GSM+EDGE、CDMA、quadband以及其他蜂窝协议、VOIP、TCP-IP或任何其他合适的协议。
在一些实施例中,通信电路125可以操作成使用任何合适的通信协议来创建通信网络。例如,通信电路125可以使用短程通信协议来创建短程通信网络以连接到其他通信装置。例如,通信电路125可以操作以使用
Figure BDA0002985990010000084
协议来创建局部通信网络以将电子装置120与
Figure BDA0002985990010000085
耳麦联接。
在一些实施例中,控制电路126可以操作以控制电子装置120的操作和性能。控制电路126可以包括例如处理器、总线(例如,用于将指令发送到电子装置120的其他部件)、存储器、存储设备,或者用于控制电子装置120的操作的任何其他合适的部件。在一些实施例中,(例如,处理和存储器129中的)一个或更多处理器可以驱动显示器和从用户接口接收到的过程输入。存储器和存储设备可以包括例如高速缓存、快闪存储器、ROM、和/或RAM/DRAM。在一些实施例中,存储器可以专门用于存储固件(例如,用于装置应用,诸如操作系统、用户接口功能和处理器功能)。在一些实施例中,存储器可以操作以存储与电子装置120与其执行通信操作的其他装置相关的信息(例如,保存与通信操作相关的联系信息或者存储与用户选择的不同媒体类型和媒体项相关的信息)。
在一些实施例中,控制电路126可以操作以执行在电子装置120上实施的一个或更多应用的操作。可以实施任何合适数量或类型的应用。尽管以下讨论将枚举不同的应用,但将理解,应用中的一些或全部可以组合到一个或更多应用中。例如,电子装置120可以包括应用1至N 127,所述应用包括,但不限于:自动言语辨识(ASR)应用、OCR应用、对话应用、地图应用、媒体应用(例如,QuickTime、MobileMusic.app或MobileVideo.app)、社交网络应用(例如,
Figure BDA0002985990010000091
Figure BDA0002985990010000092
等)、日历应用(例如,用于管理事件、约会等的日历)、互联网浏览应用、推荐应用等。在一些实施例中,电子装置120可以包括可操作以执行通信操作的一个或更多应用。例如,电子装置120可以包括消息应用、电子邮件应用、语音邮件应用、即时消息应用(例如,用于聊天)、视频会议应用、传真应用,或者用于执行任何合适的通信操作的任何其他合适的应用。
在一些实施例中,电子装置120可以包括麦克风122。例如,电子装置120可以包括麦克风122,以在通信操作期间或作为建立通信操作的手段或作为使用物理用户接口的替代方案,允许用户传输用于应用1至N127的言语控制和导航的音频(例如,语音音频)。麦克风122可以结合在电子装置120中,或者可以远程联接到电子装置120。例如,麦克风122可以结合在有线耳机中,麦克风122可以结合在无线耳塞中,麦克风122可以结合在远程控制装置中等。
在一些实施例中,相机模块128包括一个或更多相机装置,所述一个或更多相机装置包括用于捕获静态和视频图像的功能、编辑功能、用于对照片/视频进行发送、共享等的通信互操作性等。
在一些实施例中,电子装置120可以包括适合于执行通信操作的任何其他部件。例如,电子装置120可以包括电源、端口,或者用于联接到主机装置、辅助输入机构(例如,ON/OFF开关)或任何其他合适部件的接口。
图3示出了根据一些实施例的基于语音助理的健康(例如,肺部等)监测(例如,图2的语音助理健康监测处理131)的架构300。架构300包括短语检出处理310、基线(纵向)模型320、短语库/词典(知识库)330、特征生成器340以及纵向分析处理350。在一些实施例中,由包括在装置120中的语音助理接收来自用户305的一致的非敏感语音数据。语音助理将言语转换为输入到短语检出处理310的语音数据,并且确定上下文360(例如,装置使用、命令内容、环境、天气等),所述上下文输入到纵向分析处理350。短语检出处理310确定存储在短语库/词典330中的选择(检出)的短语315。短语和特征317的阵列(诸如从特征生成器340提供的言语、声音事件、元音位置等)输入到基线模型320。特征生成器340包括元音检测处理341、闪烁处理342、停顿检测处理343、抖动处理344以及其他肺部(或其他健康问题)言语特征检测处理345。基线模型320提供输入到特征生成器340的短语数据316。从特征生成器输出的特征317输入到纵向分析处理350。纵向分析处理输出纵向结果变化,所述纵向结果变化输入到短语检出处理310,并且输出患者结果370。下面进一步详细地描述用于架构300的处理。
图4示出了针对一个或更多实施例所采用的语音助理实施的言语辨识中的言语转文本过程400。语音助理典型地由来自用户的某些命令或命令集(例如,特定词语或短语等)触发。在言语转文本过程400中,言语410由频谱分析处理420进行分析和分段。每个片段映射到字符,并且最终,字符的组合形成词语470。根据每个字符的概率估计处理430鉴于发音(来自发音模型440)、语法(来自语法处理460)和语义(来自解码处理450)来执行映射。言语转文本过程400的处理是语音助理中的基本步骤。可以实施使用隐马尔可夫模型(HiddenMarkov Model)和深度神经网络的各种算法或处理以捕获言语的模式和转换至文本。
返回图3,如先前在上文讨论,用语音助理传达的命令或命令集是有限的。因此,一些实施例将常见的重要短语(词语的组合)存储在短语库/词典330中,作为生长基线模型320的参考。换句话说,一些实施例使得不仅能够捕获常规模式,而且能够相对于短语库/词典330中的每个记录的短语捕获患者的言语和声音事件与模式基线的偏差。
图5示出了根据一些实施例的用于健康评估的短语检出标准(用于图3的短语检出过程310)的过程流程。在一些实施例中,关注的是肺病患者。因此,需要(通过图3的短语检出处理310)检出对于特征提取(通过图3的特征生成器340)和识别用户的肺部状况来说有益的特定短语316。在一个或更多实施例中,使用特定的初始短语标准520(诸如停顿时间、发音、呼吸时间、音量、言语特征(抖动和闪烁))来选择使用语音助理(通过短语检出处理310)检出的短语。应注意,闪烁是指浊音的局部语音振幅的一致性,并且抖动是指发出的声音的局部周期性的一致性。这些初始短语标准520将以一定方式设计,使得(来自短语库/词典330的)短语的选择对于肺部评估来说提供更多信息。示例可以是具有高百分比的元音或停顿时间的短语。在一些实施例中,在纵向模型530随时间生长时,短语标准520随时间更新。
图6示出了根据一些实施例的用于捕获选择(检出)的短语315、上下文信息360与来自短语316(图3和图5)的重要提取特征317之间的个人化相关性和依赖性的纵向模型530架构。除了诸如咳嗽、喘息和清嗓的声音事件外,针对肺部应用的言语分析也是有效的。指示肺部健康的一个常见特征是停顿时间模式及其频率。人类言语由发声之前的强烈吸入接着是声音产生期间的连续呼出组成。当呼吸功能受损时,这可能导致更长的吸入时间和/或更频繁的吸入停顿。言语的韵律特征(诸如闪烁和抖动)的改变也可以是肺部疾病的症状。当声带受到肺部疾病影响时,它可能导致增加的闪烁和抖动。一些实施例进行初步处理以生成针对肺部评估的言语特征生成的基线。
在一个或更多实施例中,实施初步基于能量阈值的过程以检测言语的停顿时间。图7A示出了展示检测到的言语和停顿时间片段的单个受试者的波形730的示例。示例性波形730示出波形可以如何用于成功地区分来自单个受试者的1分钟言语样本的言语和停顿时间。一些实施例提高处理的普遍性和复杂性,以便处理更现实环境场景中的背景噪声。表I描绘了基于来自收集的数据的测量结果的、健康与肺部相关患者之间的差异。
【表1】
Figure BDA0002985990010000121
言语的闪烁和抖动特征分别表示言语的稳定性和一致性。对于肺病患者,包括哮喘和COPD患者,个体趋向于显示出闪烁和抖动的相对较高值。表2示出了健康和肺病患者受试者在进行“A-元音”测试时的闪烁和抖动的测量值。A-元音是参与者尽可能长时间地发出持续的元音声音(“/a/”)的测试,其中进行多次重复。
【表2】
Figure BDA0002985990010000122
Figure BDA0002985990010000131
尽管使用诸如“A-元音”测试的元音测试来区分健康和不健康个体可能似乎是可行的,但当将言语流而不是单个长元音用作分析的输入时,问题一点都不小。在没有清楚地区分元音和辅音部分的言语流中,闪烁和抖动估计可能有严重误导。因此,有必要首先发现言语的元音部分并且然后仅测量那些部分上的闪烁/抖动。然而,这种解决方案并非无足轻重,并且对于自然言语来说,浊音(即,元音)的分段很难。
图7B示出了展示言语信号的元音710/711和非元音720/721部分的波形的示例。一些实施例执行基于机器学习的处理,以使用被称为TIMIT(不同性别和方言的美语使用者的音素和词汇转录言语的语料库)的已知数据库来对元音和非元音进行分类。使用20个梅尔倒频谱系数(MFCC,Mel Frequency Cepstral Coefficient)特征,一些实施例在元音的分类上实现了约85%的准确率。这些结果是针对在噪声的影响最小的受控环境下收集的数据。然而,对于自然言语数据收集,在来自用户的环境的噪声的类型、程度和强度方面没有控制。因此,在一些实施例中,通过将语音助理用作输入解决了这些问题。
返回图6,在一些实施例中,对于基线模型320(图3),使用在线学习来生成针对参与者(肺病患者)个人化的基线模型320。基线模型320捕获由语音助理捕获到的纵向数据系列。数据包含上下文信息360以及从在检出常见短语(检出的短语315)之后的言语和声音事件提取的特征317。在线学习鉴于训练数据来优化基线模型320参数,所述训练数据是通过语音助理的检出的短语315。鉴于上下文信息360的状况,从检出的短语315提取特征317。在给定的状况下,基线模型320捕获提取的特征317与检出的短语315之间的相关性和依赖性。由于作为患者与语音助理之间的交互的结果而生成检出的短语315,因此纵向模型530变得个人化。在一个或更多实施例中,使用参与方案来训练基线模型320。在这个参与方案中,代替等待患者表达某些短语和使用检出的短语315来训练基线模型320或除此之外,数据收集装置(例如,智能手表和智能电话)或甚至语音助理本身主动地要求患者提供感兴趣的语句。然后将用主动性参与方案获得的提供的语句提供作为基线模型320的训练数据以提高准确率。
图8示出了根据一些实施例的对于形成个人化纵向模型530(图5和图6)的检出的短语315(状态模型)在不同上下文下生成的特征317的示例。在一个或更多实施例中,肺部相关特征317在各种上下文中捕获肺病患者的状态,这将可用于评估与患者的声带、肺和其他方面相关的患者健康。
图9示出了根据一些实施例的用于通过将估计的特征917数据馈送回到输入来提高个人化纵向模型530(图5和图6)估计和特征评估的准确率的示例。在一些实施例中,可用实现在线学习功能的各种处理算法。隐马尔可夫模型、强化学习和科尔曼滤波器可以用于各种纵向数据以捕获人类、车辆等的逐渐改变行为的统计信息。在运行时通过馈送更多的最新数据来进一步训练所生成的个人化纵向模型530。调整统计参数和现有短语与上下文信息之间的依赖性。将新检出的短语315和状况逐渐地插入个人化纵向模型530中以捕获更广阔的场景。
在一些实施例中,对言语和声音事件的特征317的评估不是确定过程并且涉及任何模型中未预见的变化和依赖性。个人化纵向模型530的更新过程使用在个人化纵向模型530中捕获的当前统计信息以针对将来检出的短语315更准确地评估特征317。常规的言语辨识技术可以适应于用户的个人化发音,以便使言语辨识更加准确。在一个或更多实施例中,个人化纵向模型530不仅将有助于更准确的言语辨识,而且有助于更准确的症状识别和言语特征317提取。例如,检出的短语315中的元音位置的概率分布940可以帮助言语辨识系统更准确地识别短语,并且也针对诸如停顿时间、闪烁、抖动等言语特征评估而更准确地定位元音(例如,最可能的点945)。
一些实施例涉及自回归模型,所述自回归模型利用过去短语的估计输出作为用于将来训练和预测的输入。过去的估计到将来输入的这种反馈机制有助于个人化纵向模型530随时间而适应言语辨识和特征提取的固有错误,而无需任何显著的额外计算能力。在一个或更多实施例中,个人化纵向模型530进一步个人化并且输出将更准确。在一些实施例中,这个机制可以在时间序列数据预测中用作递归神经网络、具有外部输入的非线性自回归(NARX)等的部分。
在一些实施例中,将生成的基线模型320(图3)用作用于在与语音助理的交互期间鉴于未预见的状况(上下文信息360)来预测受试者的状态的基线。预测有助于预见与基线模型320中的已经捕获的特征的任何显著偏差。例如,从特定上下文中的检出的短语315提取的言语特征317与基线模型320(经训练模型)的严重偏差可以是哮喘患者的恶化的标志。可以预测或甚至防止这种情形。与基线的偏差的阈值非常依赖于每个人及他们对各种状况的忍受度。在基线模型320中捕获的统计信息使得能够评估人对各种状况的忍受度并且相应地做出动作。
在一个或更多实施例中,除了基于言语的肺部评估外,还可以实施基于对相关肺音的检测的评估。在一些实施例中,实施使用装置120(图2)来检测诸如咳嗽、喘息等的肺音,包括处理咳嗽分类。在与语音助理的交互期间的记录音频中捕获的任何声音事件提供使得能够识别肺病患者健康状况的有用特征。
图10示出了根据一些实施例的特征生成器340的框图。在一些实施例中,来自框1010的言语信号输入到预处理框1020,所述预处理框1020包括语音活动检测。从预处理框1020,框1025处理包括基于模式匹配(例如参见图7B)的候选元音槽(candidate vowelslot)的粗粒度定位(coarse-grained location)。框1030的处理包括基于经训练的能量和周期参数的元音框架的精确选择,这使用来自包括个人化元音-停顿模型的框1040的处理的输入。从框1030,输出最终(分类)标签1080(即,元音标签:元音或非元音)。另外地,框1050从框1010接收言语信号并且执行包括参数训练的处理(例如,静默时段能量)。在框1060中,处理包括基于经训练能量阈值的决策规则。框1070包括来自框1060和1040的输出,并且包括后处理(例如,输出框架决策的平滑化)。从框1070,输出最终(分类)标签1081(即,停顿标签:停顿或非停顿)。
图11示出了根据一些实施例的用于针对健康监测来分析短语1105和确定严重度分数并施加动作的示例性使用情况。在一些实施例中,示例以用户305提供言语1105“HiBixby.How is the weather today(你好Bixby,今天天气怎么样?)”开始,所述言语由电子装置120(图2)的语音助理接收。语音助理健康监测处理131(图2)将来自接收到的言语1105的言语信号输入到基线元音/停顿模型320中并且还输入到元音/停顿位置测量处理1110中。来自用于波形1120的基线元音/停顿模型320和元音/停顿位置测量处理1110的输出得出估计的言语特征917,所述估计的言语特征输入到纵向评估处理350,所述纵向评估处理也取得言语特征的历史数据1140作为输入。从纵向评估处理350生成的结果是严重度分数1150。严重度分数1150用于引起动作的施加,如下。在一些实施例中,如果(从基线分数的)严重度改变超过预定义阈值,那么可以发生以下动作中的一个或更多:通知患者(例如,在电子装置120上);通过患者的现场参与来发起更多测量;以及如有需要,通知临床医生。如果严重度改变小于预定义阈值,那么可以发生记录言语特征以及更新模型这些动作中的一个或更多。如果纵向评估350指示出现恶化事件,那么可以发生以下动作中的一个或更多:通知患者使用呼吸机;通知临床医生进行快速介入;以及如有需要,拨打911。
图12A示出了根据一些实施例的用于针对原始声音(不模糊的音频数据)使用随机森林进行咳嗽/语言/无分类的示例性混淆矩阵1210。图12B示出了根据一些实施例的用于针对模糊的声音(音频数据)使用随机森林进行咳嗽/语言/无分类的示例性混淆矩阵1220。在一个实施例中,使用保护隐私的处理来过滤记录的数据,并且然后上传到远程服务器(例如,图2的云/服务器140)以用于存储和分析。过滤处理以10ms的步长在30ms音频帧上操作。对于每个音频帧线性预测编码(LPC)系数,计算增益和是否说出该帧。对于说出的帧,针对预先记录的元音声音,用随机地选择的系数集来替代LPC系数。因此,言语是模糊的并且变得不可理解。
在一些实施例中,模糊处理不会显著地影响分类性能,并且呈现框架的可行框以用于隐私保护咳嗽检测。就类内退化(intra-class deterioration)而言,应注意,“言语”和“咳嗽”不像“无”类别(仅约8%)那样受影响。这因为以下事实而是令人鼓舞的:最终在进入模糊和分类处理之前,许多“无”类别片段无论如何都将被“声音事件检测器”过滤掉。
图13A示出了示例性言语波形1310(顶部)和频谱图1320(底部)。图13B示出了示例性咳嗽波形1315(顶部)和频谱图1325(底部)。频谱图是声音的频谱随时间变化的视觉表示。可以看出,这些音频事件具有特定特性,这使得能够区分这两者。在图14中可以看出感测架构1400。在一些实施例中,“声音事件检测器”1440(图14)过滤掉音频的非感兴趣部分。然后,通过咳嗽/言语/无分类处理1450(图14)来执行“咳嗽”相对“言语”相对“无”的分类。最终,多数投票处理1460(图14)使分类器的输出标签平滑化。使用这种结构,以相对高的准确率执行咳嗽、言语与其他声音事件之间的分类。
为了能够检测咳嗽模式并进行建模,一些实施例首先观察咳嗽波形并将其频率分量可视化。使用频谱图(例如,示例性频谱图1325)以观察来自音频流的咳嗽表现。言语波形1310具有10秒持续时间,并且咳嗽样本波形1315包括两个咳嗽事件并被选择为具有1秒持续时间以便咳嗽阶段的更佳可视化。尽管不同的个体和疾病状态之间可以存在变化,但咳嗽反射由四个主要阶段组成,一般如下:初始大量吸入和声门闭合;隔膜和肋间外肌对闭合的声门收缩;声带反射和爆炸式的突发空气离开肺;以及在呼出继续时发出声音。
波形1315清楚地表明,咳嗽的突发和发声部分可以在音频信号中被识别到,并且因此可以由一个或更多实施例自动地检测。这两个部分的累计持续时间在个体之间不同并且在300至500ms之间变化。除了持续时间外,咳嗽具有其他唯一特性,诸如声音强度和特定频率范围。这也可以在咳嗽的频谱图1325中观察到。显然,咳嗽的响度和频率分量与正常言语的那些大有不同。为了能够检测到这些唯一特征,在架构1400(图14)中实施层级结构。
图14示出了根据一些实施例的用于咳嗽检测处理的架构1400的框图。原始音频1410和音频的模糊版本(模糊的音频1420)两者都可以馈送到架构1400以用于咳嗽检测。在输入音频的分段和预处理1430之后,使用声音事件检测器1440来发现具有明显音频事件的片段(第一级)。然后,通过咳嗽/言语/无分类处理1450来执行“咳嗽”相对“言语”相对“无”的分类(第二级),并且最终基于多数投票算法的多数投票处理1460(第三级)基于经处理时间窗口中的每个帧的分类结果来选择最终标签1470。架构1400的三级结构的益处在于,在经过第一级之后将丢弃音频的大部分。这仅留下小部分在第二和第三级(所述级消耗更多的处理功率和能量)中进一步处理。总的来说,这有助于使整个咳嗽检测处理耗电少且不太费时间,从而使得它适合于在移动装置上实施。
每天收集的音频的大部分可能携带不感兴趣的信息。这可以包括环境室外噪声、TV声音以及在装置(例如,电子装置120)周围谈话的人的声音。在一些实施例中,声音事件检测器1440的目标是过滤掉音频的这些部分,以便能够减轻接下来的级的负担。另一方面,过程中不应拒绝感兴趣的声音事件。咳嗽、言语和感兴趣的类似事件通常携带较高的能量和突然的振幅改变。然而,例如,在背景中运行的风扇携带较低的能量和较平缓的信号振幅。尽管常规算法中的一些仅使用某一时间帧内的能量或标准偏差(STD)来过滤掉这些部分,但重要的是意识到所述帧本身的能量不足以检测声音事件。风扇可能非常靠近记录装置运行,从而使得信号的振幅及其能量较高,但这不应被视为事件。无法使用相同的能量阈值来过滤掉音频文件的非感兴趣部分。相反,在一些实施例中,声音事件检测器1440使用相对能量和STD(公式1)。
相对能量:
Figure BDA0002985990010000181
相对STD:
Figure BDA0002985990010000182
其中,ai表示波矢量中的样本,并且a-是所选择的时间窗口的矢量的平均值。N和M是结合来满足这个相对概念的两个参数(N是时间窗口中的样本数量并且M是大小为多个时间窗口的时间窗口周围的样本的数量)。在一些实施例中,N被选择为1秒(其表示声音事件的最大持续时间)内的样本的数量。在一些实施例中,M被选择为10秒;其足够宽以表示用户所在的环境的一般能量水平和STD,而同时没有宽至与对应的声音事件无关。如果时间窗口用事件标记,则在这之前的一个窗口(500ms)和在这之后的一个窗口也被视为事件,以确保不错过任何重要的信息片段。使用这个处理,将在第一级中移除音频的静默部分,以及被视作“非事件”的具有足够低的能量的部分(环境噪声)。
在一些实施例中,一旦事件被声音事件检测器1440辨识出,它们就需要作为潜在咳嗽事件进行分析。在一些实施例中,可以对此实施监督式机器学习。由于架构1400的处理目标主要是室内咳嗽检测,因此假设除了环境非感兴趣部分,主要声音来源是咳嗽(或类似于咳嗽症状,诸如喷嚏)和言语。因此,对咳嗽、言语与无(两者都不是)之间的分类任务进行分类(经由咳嗽/言语/无分类处理1450)。
在一些实施例中,对于分段和预处理1430以及特征提取,使用转角频率为200Hz的高通滤波器对咳嗽、言语和无波源进行去噪(以解出咳嗽和言语的频率范围)。然后,使用具有500ms窗口大小(咳嗽事件的最大持续时间)和50ms跳跃大小以及哈明(Hamming)窗口函数的滑动窗口算法对数据进行分段。在一个示例中,生成总共61个特征,包括42个MFCC特征、总能量、零交叉以及一些其他频谱特征,诸如频谱方差、峰度和偏斜度。然后将这些特征标准化并馈送到机器学习算法。
在一些实施例中,对于咳嗽/言语/无分类处理1450,可以实施随机森林分类器。在其他实施例中,可以实施其他分类器,诸如逻辑回归、SVM、多层感知器(MLP)等。在第一级(声音事件检测器1440)中,评估每个一秒窗口包含声音事件的可能性。将具有声音事件的一秒窗口馈送到第二级中的咳嗽/言语/无分类处理1450。在第二级中的分段之后,每个一秒窗口包含十个500ms帧。使用第二级中的分类对帧中的每一个加标签。第三级(多数投票处理1460)的目的是基于构成短语的单个类别来确定一秒窗口是咳嗽、言语还是无。该第三级在分类器的经常矛盾的结果序列上应用平滑函数。作为示例,在一秒窗口时间中,分类结果(其具有50ms的分辨率)可能具有六个咳嗽标签。这并不意味着在该1秒内存在六次咳嗽。
图15示出了根据一些实施例的用于使用语音助理对肺病患者进行检测、分析和动作的过程1500的框图。在一些实施例中,过程1500的框1510用于从电子装置(例如,图2的电子装置120、图16的系统1600等)的话语中选择短语(例如,使用图3的短语检出处理310)。短语匹配多个短语(例如,在图3的短语库/词典330中)的条目。过程1500的框1520用于识别短语内的与一个或更多肺部状况相关联的至少一个言语特征(例如,来自图3和图10的特征生成器340)。过程1500的框1530用于基于对至少一个言语特征的分析(例如,图3的纵向分析350)来确定肺部状况。
在一些实施例中,在过程1500中,至少一个言语特征包括短语内的停顿、短语内的元音中的一项或它们的组合。至少一个言语特征的分析包括将言语特征与知识库(例如,图3的短语库/词典330)进行比较。在一些实施例中,过程1500可以包括基于确定的肺部状况来确定、触发和/或施加动作(例如,图11的施加动作处理1160)。
在一个或更多实施例中,过程1500可以包括作为至少一个言语特征的分析结果来更新知识库。过程1500可以另外地包括基于知识库来检索至少一个言语片段的预期位置、基于预期的位置来确定至少一个言语片段的位置,以及生成至少一个言语片段的至少一个言语特征。
在一些实施例中,过程1500还可以包括识别短语内的至少一个停顿,以及基于至少一个停顿的停顿持续时间和停顿模式的分析来确定肺部状况。过程1500可以另外地包括接收伴随话语的上下文(例如,图3和图6的上下文360),以及鉴于上下文基于对至少一个言语特征的分析来确定肺部状况(例如,经由图3和图11的纵向分析处理350)。
在一个或更多实施例中,在过程1500中,被动地或主动地从电子装置的用户获得话语。基线模型(例如,图3和图11的基线模型320)针对状况来捕获一个或更多言语特征与选择的短语之间的相关性和依赖性。作为电子装置的用户与连接到电子装置的语音助理之间的交互的结果,将基线模型个人化(例如,图6的个人化纵向模型530)。
在一些实施例中,过程1500可以包括检测来自话语的咳嗽、分析咳嗽的特征(参见例如架构1400)。在一个或更多实施例中,确定肺部状况是进一步基于对咳嗽的特征的分析来进行的。
在一些实施例中,除了语音数据外,还可以将其他来源用于肺部评估(以及在更宽的范围内,一般健康评估)。来自语音助理的装置使用信息(诸如使用频率、使用模式和使用时间)可以有益于上下文信息。例如,患者使用语音助理的频率的改变可以指示患者的症状变坏。在一些实施例中,患者执行的命令的内容可以用作他/她的肺部疾病状态的指示器。例如,搜索关于特定疾病的特定药物或特定症状。这个信息可以容易使用语音助理API和言语转文本处理来提取。
在一个或更多实施例中,检出短语或触发命令的位置是上下文信息,该上下文信息将使得处理能够具有患者所在的环境的先验知识。例如,空气质量、噪声水平、区域中的人口、房间大小等是可以影响肺病患者状况的环境的主要特征。室温、压力和环境照明是限定患者所在的环境的当前状况的其他感测数据。适时地,可以结合来自其他装置的生理数据,诸如来自智能手表的心率,以理解患者的当前上下文,特别是在用户因变坏状况而减少使用与系统的交互时。上下文信息将提供会影响患者言语模式和关于他们的肺部状况的症状的更多特征。在没有上下文的情况下分析音频数据限制了具有用于每个患者的准确纵向分析模型的能力。此外,模型提供了在未预见的环境中预测参与者的状况,以便在任何严重和危险状况出现之前介入并警告参与者。
在一个或更多实施例中,在参与者使用语音助理后,以被动方式收集音频。这样一来,数据收集方案是机会性的而不是参与性的。这自动地移除关于参与者依从性的所有复杂情况。另外,作为被动感测的结果,收集的言语不是人工的(以自然方式获得)。在一些实施例中,在参与方案中实施架构300(图3)和1400(图14)。在这个参与方案中,代替等待患者表达某些短语,数据收集装置(例如,智能手表和智能电话)或甚至语音助理本身主动地要求患者指示那些感兴趣的语句。以此方式,感兴趣数据点的数量将依赖于需求程度线性地增加。然而,这将增加患者负担并且可能引起许多隐私相关问题。在一些实施例中,主动处理可以在不同的时间和位置偶尔弹出某些通知(基于参与的患者的感兴趣水平)并且要求患者表达对所提议的被动感测处理有兴趣的语句。
图16是示出信息处理系统的示例性高级框图,所述信息处理系统包括实施一个或更多实施例的计算系统。系统1600包括一个或更多处理器1611(例如,ASIC、CPU等),并且还可以包括电子显示装置1612(用于显示图形、文本和其他数据)、主存储器1613(例如,随机存取存储器(RAM)、高速缓存装置等)、存储装置1614(例如,硬盘驱动器)、可移除存储装置1615(例如,可移除存储驱动器、可移除存储器、磁带驱动器、光盘驱动器、存储有计算机软件和/或数据的计算机可读介质)、用户接口装置1616(例如,键盘、触摸屏、小键盘、定点装置)、以及通信接口1617(例如,调制解调器、无线收发器(诸如Wi-Fi、移动电话)、网络接口(诸如以太网卡)、通信端口或PCMCIA插槽和卡)。
通信接口1617允许在计算机系统与外部装置之间通过互联网1650、移动电子装置1651、服务器1652、网络1653等传送软件和数据。系统1600还包括通信基础设施1618(例如,通信总线、交叉条或网络),前述装置1611至1617连接到所述通信基础设施1618。
经由通信接口1617传送的信息可以呈信号的形式,诸如电子、电磁、光学或其他能够由通信接口1617经由通信链路接收的信号,所述通信链路携载信号并且可以使用电线或电缆、光纤、电话线、蜂窝电话链路、射频(RF)链路和/或其他通信信道来实施。
在电子装置(例如,图2的电子装置120)的一个或更多实施例的一个实施方式中,系统1600还包括图像捕获装置1620,诸如相机128(图2),以及包括音频捕获装置1619,诸如麦克风122(图2)。系统1600还可以包括应用处理或处理器,如MMS 1621、SMS 1622、电子邮件1623、社交网络接口(SNI)1624、音频/视频(AV)播放器1625、web浏览器1626、图像捕获1627等。
在一个实施例中,如上所述,系统1600包括可以实施类似于关于架构300(图3)、架构1400(图14)和过程1500(图15)所述的处理的语音助理健康监测处理1630。在一个实施例中,语音助理健康监测处理1630以及操作系统1629可以被实施为驻留在系统1600的存储器中的可执行代码。在另一个实施例中,语音助理健康监测处理1630可以设置在硬件、固件等中。
在一个实施例中,主存储器1613、存储装置1614和可移除存储装置1615可以各自或以任何组合存储用于上述实施例的指令,所述指令可以由一个或更多处理器1611执行。
如本领域技术人员已知,上文所描述的前述示例性架构(根据所述架构)可以以多种方式实施,诸如作为用于由处理器执行的程序指令、作为软件模块、微代码、作为计算机可读介质上的计算机程序产品、作为模拟/逻辑电路、作为专用集成电路、作为固件、作为消费者电子装置、AV装置、无线/有线发射器、无线/有线接收器、网络、多媒体装置等。此外,所述架构的一些实施例可以采取完全硬件实施例、完全软件实施例或包含硬件元素和软件元素两者的实施例的形式。
已经根据一个或更多实施例参考方法、设备(系统)和计算机程序产品的流程图和/或框图描述了一个或更多实施例。此类图示/图表的每个框或其组合可以由计算机程序指令来实施。计算机程序指令在被提供给处理器时产生机器,使得经由处理器执行的指令创建用于实施流程图和/或框图中指定的功能/操作的装置。流程图/框图中的每个框可以表示实施一个或更多实施例的硬件和/或软件模块或逻辑。在替代实施方式中,框中标注的功能可以不按图中标注的次序发生、可以同时发生、等等。
术语“计算机程序介质”、“计算机可用介质”、“计算机可读介质”和“计算机程序产品”通常用来指代介质,诸如主存储器、辅助存储器、可移除存储驱动器、安装在硬盘驱动器中的硬盘。这些计算机程序产品是用于向计算机系统提供软件的手段。计算机可读介质允许计算机系统从计算机可读介质读取数据、指令、消息或消息分组以及其他计算机可读信息。例如,计算机可读介质可以包括非易失性存储器,诸如软盘、ROM、快闪存储器、磁盘驱动器存储器、CD-ROM和其他永久性存储设备。例如,这对于在计算机系统之间传输信息(诸如数据和计算机指令)是有用的。计算机程序指令可以存储在计算机可读介质中,所述计算机可读介质可以指示计算机、其他可编程数据处理设备或其他装置以特定方式起作用,使得存储在计算机可读介质中的指令产生制品,制品包括实施流程图和/或框图的一个或更多框中指定的功能/动作的指令。
代表本文的框图和/或流程图的计算机程序指令可以被加载到计算机、可编程数据处理设备或处理装置上以致使在其上执行一系列操作,从而产生计算机实施过程。计算机程序(即,计算机控制逻辑)存储在主存储器和/或辅助存储器中。也可以经由通信接口来接收计算机程序。此类计算机程序在执行时使得计算机系统能够执行如本文所讨论的实施例的特征。特别地,计算机程序在执行时使得处理器和/或多核处理器执行计算机系统的特征。此类计算机程序代表计算机系统的控制器。计算机程序产品包括可由计算机系统读取且存储用于由计算机系统执行以执行一个或更多实施例的方法的指令的有形存储介质。
尽管已经参照其某些版本描述了实施例;然而,其他版本也是可能的。因此,所附权利要求书的精神和范围不应限于对本文所包含的优选版本的描述。

Claims (15)

1.一种用于肺部状况监测的方法,包括:
从电子装置的用户的话语中选择短语,其中所述短语匹配多个短语的条目;
识别所述短语内的与一个或更多肺部状况相关联的至少一个言语特征;以及
基于对所述至少一个言语特征的分析来确定肺部状况。
2.如权利要求1所述的方法,其中:
所述至少一个言语特征包括所述短语内的停顿和所述短语内的元音中的一项或它们的组合;以及
对所述至少一个言语特征的分析包括将所述言语特征与知识库进行比较。
3.如权利要求2所述的方法,还包括:
作为对所述至少一个言语特征的分析的结果,更新所述知识库。
4.如权利要求1所述的方法,还包括:
基于知识库来检索至少一个言语片段的预期位置;以及
基于所述预期位置来确定所述至少一个言语片段的位置并且生成针对所述至少一个言语片段的所述至少一个言语特征。
5.如权利要求2所述的方法,还包括:
识别所述短语内的至少一个停顿;以及
基于对所述至少一个停顿的停顿持续时间和停顿模式的分析来确定所述肺部状况。
6.如权利要求1所述的方法,还包括:
接收伴随所述话语的上下文;以及
鉴于所述上下文基于对所述至少一个言语特征的分析来确定所述肺部状况。
7.如权利要求1所述的方法,其中:
被动地或主动地从所述电子装置的用户获得所述话语;
基线模型针对状况来捕获一个或更多言语特征与所选择的短语之间的相关性和依赖性;以及
作为所述电子装置的用户与联接到所述电子装置的语音助理之间的交互的结果,将所述基线模型个人化。
8.如权利要求1所述的方法,还包括:
检测来自所述话语的咳嗽;以及
分析所述咳嗽的特征;
其中,进一步基于对所述咳嗽的特征的分析来确定所述肺部状况。
9.一种电子装置,包括:
存储器,存储有指令;以及
至少一个处理器,执行所述指令,所述指令包括过程,所述过程被配置为:
从话语中选择短语,其中所述短语匹配多个短语的条目;
识别所述短语内的与一个或更多肺部状况相关联的至少一个言语特征;以及
基于对所述至少一个言语特征的分析来确定肺部状况。
10.如权利要求9所述的电子装置,其中:
所述至少一个言语特征包括所述短语内的停顿和所述短语内的元音中的一项或它们的组合;以及
对所述至少一个言语特征的分析包括将所述言语特征与知识库进行比较。
11.如权利要求9所述的电子装置,其中,所述过程还配置为:
作为对所述至少一个言语特征的分析的结果,更新所述知识库;
基于所述知识库来检索至少一个言语片段的预期位置;以及
基于所述预期位置来确定所述至少一个言语片段的位置,并且生成针对所述至少一个言语片段的所述至少一个言语特征。
12.如权利要求10所述的电子装置,其中,所述过程还配置为:
识别所述短语内的至少一个停顿;以及
基于对所述至少一个停顿的停顿持续时间和停顿模式的分析来确定所述肺部状况。
13.如权利要求9所述的电子装置,其中,所述过程还配置为:
接收伴随所述话语的上下文;以及
鉴于所述上下文基于对所述至少一个言语特征的分析来确定所述肺部状况。
14.如权利要求9所述的电子装置,其中:
被动地或主动地从所述电子装置的用户获得所述话语;
基线模型针对状况来捕获一个或更多言语特征与所选择的短语之间的相关性和依赖性;以及
作为所述电子装置的用户与联接到所述电子装置的语音助理之间的交互的结果,将所述基线模型个人化。
15.如权利要求9所述的电子装置,其中,所述过程还配置为:
检测来自所述话语的咳嗽;以及
分析所述咳嗽的特征;
其中,进一步基于对所述咳嗽的特征的分析来确定所述肺部状况。
CN201980061911.6A 2018-09-20 2019-09-20 用于肺部状况监测与分析的系统和方法 Active CN112739253B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201862733911P 2018-09-20 2018-09-20
US62/733,911 2018-09-20
US16/247,384 2019-01-14
US16/247,384 US11380351B2 (en) 2018-09-20 2019-01-14 System and method for pulmonary condition monitoring and analysis
PCT/KR2019/012240 WO2020060290A1 (en) 2018-09-20 2019-09-20 System and method for pulmonary condition monitoring and analysis

Publications (2)

Publication Number Publication Date
CN112739253A true CN112739253A (zh) 2021-04-30
CN112739253B CN112739253B (zh) 2024-07-02

Family

ID=69883282

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980061911.6A Active CN112739253B (zh) 2018-09-20 2019-09-20 用于肺部状况监测与分析的系统和方法

Country Status (4)

Country Link
US (1) US11380351B2 (zh)
EP (1) EP3852611A4 (zh)
CN (1) CN112739253B (zh)
WO (1) WO2020060290A1 (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11380351B2 (en) * 2018-09-20 2022-07-05 Samsung Electronics Co., Ltd. System and method for pulmonary condition monitoring and analysis
US20200152330A1 (en) 2018-11-13 2020-05-14 CurieAI, Inc. Scalable Personalized Treatment Recommendation
US11741986B2 (en) 2019-11-05 2023-08-29 Samsung Electronics Co., Ltd. System and method for passive subject specific monitoring
US11468908B2 (en) 2020-04-15 2022-10-11 Optum, Inc. Hybrid input machine learning frameworks
US11219386B2 (en) 2020-06-15 2022-01-11 Cirrus Logic, Inc. Cough detection
US11134354B1 (en) 2020-06-15 2021-09-28 Cirrus Logic, Inc. Wear detection
US11417342B2 (en) * 2020-06-29 2022-08-16 Cordio Medical Ltd. Synthesizing patient-specific speech models
US12023146B2 (en) * 2020-10-08 2024-07-02 International Business Machines Corporation Multi-modal lung capacity measurement for respiratory illness prediction
US11862188B2 (en) * 2020-10-22 2024-01-02 Google Llc Method for detecting and classifying coughs or other non-semantic sounds using audio feature set learned from speech
US20220257175A1 (en) * 2021-02-11 2022-08-18 Samsung Electronics Co., Ltd Speech-based pulmonary assessment
US11908475B1 (en) 2023-02-10 2024-02-20 Cephable Inc. Systems, methods and non-transitory computer readable media for human interface device accessibility

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7529670B1 (en) * 2005-05-16 2009-05-05 Avaya Inc. Automatic speech recognition system for people with speech-affecting disabilities
US20120265024A1 (en) * 2010-10-05 2012-10-18 University Of Florida Research Foundation, Incorporated Systems and methods of screening for medical states using speech and other vocal behaviors
CN104321015A (zh) * 2012-03-29 2015-01-28 昆士兰大学 用于处理患者声音的方法与装置
US9070367B1 (en) * 2012-11-26 2015-06-30 Amazon Technologies, Inc. Local speech recognition of frequent utterances
US20150318002A1 (en) * 2014-05-02 2015-11-05 The Regents Of The University Of Michigan Mood monitoring of bipolar disorder using speech analysis
US20160081611A1 (en) * 2014-09-24 2016-03-24 International Business Machines Corporation System and method to measure, analyze, and model pulmonary function and disease utilizing temporal, spatial, and contextual data
CN108135485A (zh) * 2015-10-08 2018-06-08 康迪欧医疗有限公司 通过语音分析评估肺部病症
US20180240535A1 (en) * 2016-11-10 2018-08-23 Sonde Health, Inc. System and method for activation and deactivation of cued health assessment

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6055499A (en) * 1998-05-01 2000-04-25 Lucent Technologies Inc. Use of periodicity and jitter for automatic speech recognition
FI981508A (fi) 1998-06-30 1999-12-31 Nokia Mobile Phones Ltd Menetelmä, laite ja järjestelmä käyttäjän tilan arvioimiseksi
GB0107689D0 (en) * 2001-03-28 2001-05-16 Ncr Int Inc Self service terminal
JP4085130B2 (ja) * 2006-06-23 2008-05-14 松下電器産業株式会社 感情認識装置
EP2227765A1 (en) 2007-11-02 2010-09-15 Siegbert Warkentin System and methods for assessment of the aging brain and its brain disease induced brain dysfunctions by speech analysis
WO2011011413A2 (en) * 2009-07-20 2011-01-27 University Of Florida Research Foundation, Inc. Method and apparatus for evaluation of a subject's emotional, physiological and/or physical state with the subject's physiological and/or acoustic data
AU2011207344B2 (en) * 2010-01-21 2015-05-21 Asthma Signals, Inc. Early warning method and system for chronic disease management
EP2744408B1 (en) 2011-10-20 2022-02-16 Koninklijke Philips N.V. A system for characterizing an upper airway using speech characteristics
JP6272308B2 (ja) * 2012-05-10 2018-01-31 ユニバーシティ オブ ワシントン スルー イッツ センター フォー コマーシャリゼーション 音ベースの肺活量測定のデバイス、システムおよび方法
US10561361B2 (en) * 2013-10-20 2020-02-18 Massachusetts Institute Of Technology Using correlation structure of speech dynamics to detect neurological changes
US20170231528A1 (en) * 2014-03-12 2017-08-17 Smart Monitor Corp Method and system for continuous monitoring of a medical condition in patients
US20150364146A1 (en) * 2014-06-11 2015-12-17 David Larsen Method for Providing Visual Feedback for Vowel Quality
JP2017532082A (ja) * 2014-08-22 2017-11-02 エスアールアイ インターナショナルSRI International 患者の精神状態のスピーチベース評価のためのシステム
US20180184963A1 (en) 2015-05-19 2018-07-05 Beyond Verbal Communication Ltd System and method for improving emotional well-being by vagal nerve stimulation
US11504038B2 (en) * 2016-02-12 2022-11-22 Newton Howard Early detection of neurodegenerative disease
US10799186B2 (en) * 2016-02-12 2020-10-13 Newton Howard Detection of disease conditions and comorbidities
US10515629B2 (en) * 2016-04-11 2019-12-24 Sonde Health, Inc. System and method for activation of voice interactive services based on user state
US20170367676A1 (en) 2016-06-23 2017-12-28 Medvoice Biotech Corp. System for detecting disease of the internal organs from voice, waveform and physiological changes
KR20190113968A (ko) * 2017-02-12 2019-10-08 카디오콜 엘티디. 심장병에 대한 언어적 정기 검사
WO2018204934A1 (en) * 2017-05-05 2018-11-08 Canary Speech, LLC Selecting speech features for building models for detecting medical conditions
US11545173B2 (en) * 2018-08-31 2023-01-03 The Regents Of The University Of Michigan Automatic speech-based longitudinal emotion and mood recognition for mental health treatment
US11380351B2 (en) * 2018-09-20 2022-07-05 Samsung Electronics Co., Ltd. System and method for pulmonary condition monitoring and analysis

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7529670B1 (en) * 2005-05-16 2009-05-05 Avaya Inc. Automatic speech recognition system for people with speech-affecting disabilities
US20120265024A1 (en) * 2010-10-05 2012-10-18 University Of Florida Research Foundation, Incorporated Systems and methods of screening for medical states using speech and other vocal behaviors
CN104321015A (zh) * 2012-03-29 2015-01-28 昆士兰大学 用于处理患者声音的方法与装置
US9070367B1 (en) * 2012-11-26 2015-06-30 Amazon Technologies, Inc. Local speech recognition of frequent utterances
US20150318002A1 (en) * 2014-05-02 2015-11-05 The Regents Of The University Of Michigan Mood monitoring of bipolar disorder using speech analysis
US20160081611A1 (en) * 2014-09-24 2016-03-24 International Business Machines Corporation System and method to measure, analyze, and model pulmonary function and disease utilizing temporal, spatial, and contextual data
CN108135485A (zh) * 2015-10-08 2018-06-08 康迪欧医疗有限公司 通过语音分析评估肺部病症
US20180240535A1 (en) * 2016-11-10 2018-08-23 Sonde Health, Inc. System and method for activation and deactivation of cued health assessment

Also Published As

Publication number Publication date
CN112739253B (zh) 2024-07-02
EP3852611A1 (en) 2021-07-28
US11380351B2 (en) 2022-07-05
US20200098384A1 (en) 2020-03-26
WO2020060290A1 (en) 2020-03-26
EP3852611A4 (en) 2021-11-17

Similar Documents

Publication Publication Date Title
CN112739253B (zh) 用于肺部状况监测与分析的系统和方法
US20180018974A1 (en) System and method for detecting tantrums
US10529328B2 (en) Processing speech signals in voice-based profiling
CN112074900B (zh) 用于自然语言处理的音频分析
WO2020046831A1 (en) Interactive artificial intelligence analytical system
Mariooryad et al. Compensating for speaker or lexical variabilities in speech for emotion recognition
US9047866B2 (en) System and method for identification of a speaker by phonograms of spontaneous oral speech and by using formant equalization using one vowel phoneme type
EP2363852B1 (en) Computer-based method and system of assessing intelligibility of speech represented by a speech signal
US20130211826A1 (en) Audio Signals as Buffered Streams of Audio Signals and Metadata
US20140025381A1 (en) Evaluating text-to-speech intelligibility using template constrained generalized posterior probability
CN114051639A (zh) 使用说话者基线进行情绪检测
CN110428806B (zh) 基于麦克风信号的语音交互唤醒电子设备、方法和介质
CN110097875B (zh) 基于麦克风信号的语音交互唤醒电子设备、方法和介质
CN110223711B (zh) 基于麦克风信号的语音交互唤醒电子设备、方法和介质
CN108399914B (zh) 一种语音识别的方法和装置
US11398219B2 (en) Speech synthesizer using artificial intelligence and method of operating the same
KR102628211B1 (ko) 전자 장치 및 그 제어 방법
US20210065582A1 (en) Method and System of Providing Speech Rehearsal Assistance
US11417313B2 (en) Speech synthesizer using artificial intelligence, method of operating speech synthesizer and computer-readable recording medium
Salekin et al. Distant emotion recognition
KR20210042523A (ko) 전자 장치 및 이의 제어 방법
Guo et al. Robust speaker identification via fusion of subglottal resonances and cepstral features
CN110728993A (zh) 一种变声识别方法及电子设备
CN115148185A (zh) 语音合成方法及装置、电子设备及存储介质
KR102114365B1 (ko) 음성인식 방법 및 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant