CN114080649A - 智能计算机辅助决策支持系统 - Google Patents

智能计算机辅助决策支持系统 Download PDF

Info

Publication number
CN114080649A
CN114080649A CN202080049560.XA CN202080049560A CN114080649A CN 114080649 A CN114080649 A CN 114080649A CN 202080049560 A CN202080049560 A CN 202080049560A CN 114080649 A CN114080649 A CN 114080649A
Authority
CN
China
Prior art keywords
random variables
samples
probability distribution
variables
random
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080049560.XA
Other languages
English (en)
Inventor
拉尔斯·莫勒
安德里亚斯·克莱韦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Corti Co ltd
Original Assignee
Corti Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Corti Co ltd filed Critical Corti Co ltd
Publication of CN114080649A publication Critical patent/CN114080649A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/48Other medical applications
    • A61B5/4803Speech analysis specially adapted for diagnostic purposes
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/74Details of notification to user or communication with user or patient ; user input means
    • A61B5/7465Arrangements for interactive communication between patient and care services, e.g. by using a telephone network
    • A61B5/747Arrangements for interactive communication between patient and care services, e.g. by using a telephone network in case of emergency, i.e. alerting emergency services
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B7/00Instruments for auscultation
    • A61B7/003Detecting lung or respiration noise
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H40/00ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
    • G16H40/20ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the management or administration of healthcare resources or facilities, e.g. managing hospital staff or surgery rooms
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H80/00ICT specially adapted for facilitating communication between medical practitioners or patients, e.g. for collaborative diagnosis, therapy or health monitoring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M11/00Telephonic communication systems specially adapted for combination with other electrical systems
    • H04M11/04Telephonic communication systems specially adapted for combination with other electrical systems with alarm systems, e.g. fire, police or burglar alarm systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • H04M3/51Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing
    • H04M3/5116Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing for emergency applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • H04M3/527Centralised call answering arrangements not requiring operator intervention
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G5/00Traffic control systems for aircraft, e.g. air-traffic control [ATC]
    • G08G5/0004Transmission of traffic-related information to or from an aircraft
    • G08G5/0013Transmission of traffic-related information to or from an aircraft with a ground station
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G5/00Traffic control systems for aircraft, e.g. air-traffic control [ATC]
    • G08G5/0017Arrangements for implementing traffic-related aircraft activities, e.g. arrangements for generating, displaying, acquiring or managing traffic information
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G5/00Traffic control systems for aircraft, e.g. air-traffic control [ATC]
    • G08G5/0017Arrangements for implementing traffic-related aircraft activities, e.g. arrangements for generating, displaying, acquiring or managing traffic information
    • G08G5/0026Arrangements for implementing traffic-related aircraft activities, e.g. arrangements for generating, displaying, acquiring or managing traffic information located on the ground
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G5/00Traffic control systems for aircraft, e.g. air-traffic control [ATC]
    • G08G5/0047Navigation or guidance aids for a single aircraft
    • G08G5/0056Navigation or guidance aids for a single aircraft in an emergency situation, e.g. hijacking
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/66Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/20ICT specially adapted for the handling or processing of patient-related medical or healthcare data for electronic clinical trials or questionnaires
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H40/00ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
    • G16H40/60ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices
    • G16H40/67ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices for remote operation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2203/00Aspects of automatic or semi-automatic exchanges
    • H04M2203/55Aspects of automatic or semi-automatic exchanges related to network data storage and management
    • H04M2203/555Statistics, e.g. about subscribers but not being call statistics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/90Services for handling of emergency or hazardous situations, e.g. earthquake and tsunami warning systems [ETWS]

Abstract

本发明涉及一种用于协助问询方响应于该问询方与被问询方之间的问询而决定响应行动的方法。该方法包括:提供处理单元并且将被问询方的话音作为电子信号输入到处理单元中;与发生问询并行地,借助于所述处理单元对所述电子信号进行处理。该方法还包括异态例行程序,所述异态例行程序包含统计学习模型,以及借助于所述统计学习模型来确定所述样本序列的相应的样本数量是所述统计学习模型的异态并且返回到所述异态例行程序以由所述异态例行程序对所述样本序列的后续样本数量进行处理。

Description

智能计算机辅助决策支持系统
发明内容
本说明书涉及一种通过计算机协助问询方(interviewing party)使得问询方可以更快或更可靠地决定响应行动(response action)的方法。统计学习模型被设想用于协助问询方。
该场景(setting)可以是紧急情况,诸如交通事故、心脏骤停或飞机遭遇的问题。
本说明书设想的另一种场景可以是其中患者和医生会面以做出有关患者护理的决定的医生办公室访诊(visit),即,医生访诊或医院查房(由医务人员对医院中的患者进行访诊以做出有关患者护理的决定)。
如果飞机出现诸如发动机故障等问题,则驾驶舱会与附近的塔台沟通该问题,并且塔台可能会建议或指示驾驶舱应采取哪些行动-例如,飞机是否应该返回到启程机场或在可能的情况下立即紧急降落。
通常,通信的形式是在驾驶舱的飞行员(被问询方,interviewee party)与塔台中的空中交通管制员(问询方)之间进行问询。塔台可以请求驾驶舱关于诸如油压等的驾驶舱仪表盘的读数。这些问题可以由协议限定并按顺序排列,塔台遵循该顺序以缩小问题的范围。在沟通或问询期间,塔台可能会达成一条或更多条指令供驾驶舱遵循。
设想用计算机系统来辅助塔台,使得可以更快地将正确的指令发送到驾驶舱,或者有更高的机会发送正确指令,即,这些指令适合飞机遭遇的问题。
驾驶舱与塔台之间的通信优选地被实时记录并路由到计算机系统的处理单元,在该处理单元处使用统计模型对该通信进行处理以便对问题进行诊断,并且确定最可能的行动原因以便对针对飞机的安全和运行的威胁做出响应。结果被呈现给塔台,这可能会或可能不会考虑计算机的建议。
如果发生诸如心脏骤停等的紧急情况,则提供适当护理的关键组成部分是通过使用适当的本地紧急电话号码(紧急呼叫)寻求帮助来召唤紧急医疗服务(通常是救护车)。及早认识到已发生心脏骤停是生存的关键-患者心脏骤停每停留一分钟,他们的存活机会就会下降。
紧急呼叫由在公共安全应答点(PSAP),即,紧急呼叫中心处的调度员接收。与飞机遭遇问题类似,调度员会问询或问讯呼叫者,以便对紧急情况进行诊断并且确定是否应调度紧急医疗服务以及应该调度何种紧急医疗服务。
设想与针对飞机紧急情况描述的计算机系统类似的计算机系统可以协助调度员以便更快地做出响应行动,即,呼叫者与调度员之间的通信被记录并路由到计算机系统的处理单元,在该处理单元处使用统计模型对该通信进行处理以便对紧急情况进行诊断,并且确定预期的响应行动。预期的响应行动被呈现给调度员,该调度员可以遵循由计算机系统提出的建议。
响应行动可以包括哪种治疗适合或调度诸如救护车等的紧急医疗服务和/或可能向呼叫者提供一组到达前指令以便呼叫者执行到达前紧急医疗服务,诸如在呼叫者对于有医疗紧急情况的受伤者而言是旁观者的情况下的急救。替代性地,受伤者被指示在急诊室或当地医生办公室寻求医疗协助。响应行动也可以是对驾驶舱的指令。
上述目的和优点以及从本发明的描述中显而易见的许多其他目的和优点是根据本发明的第一方面通过以下方式获得的:
一种用于协助问询方响应于所述问询方与被问询方之间的问询而决定响应行动的方法,所述方法包括以下步骤:
-提供处理单元,并且将所述被问询方的话音(voice)作为电子信号输入到所述处理单元中,
-与发生所述问询并行地,借助于所述处理单元对所述电子信号进行处理,所述处理在所述问询的持续时间内持续或者所述处理持续到所述问询方决定了所述响应行动为止,
所述处理包括:
将所述电子信号分离成在时域中或者在代表所述电子信号的频率内容的域中的样本序列,
所述处理还包括:
a)异态例行程序(anomaly routine),所述异态例行程序包含统计学习模型,以及
借助于所述统计学习模型来确定下述:
-所述样本序列的相应的样本数量是所述统计学习模型的异态;或者
-所述相应的样本数量是所述统计学习模型的常态(normality),
b)当所述相应的样本数量被确定为所述统计学习模型的异态时:
-返回到所述异态例行程序以对所述样本序列的后续样本数量进行处理,
c)当所述相应的样本数量被确定为所述统计学习模型的常态时:
-提供音频识别模型,并且借助于所述音频识别模型对所述相应的样本数量的音频特征进行检测,
-提供行动预测模型,并且借助于所述行动预测模型对所述音频特征进行分析以确定预期的响应行动,
-提供显示器或扬声器,并且借助于所述显示器或所述扬声器向所述问询方呈现所述预期的响应行动以协助所述问询方,
-返回到所述异态例行程序以通过所述异态例行程序对所述样本序列的后续样本数量进行处理。
行动预测模型或分析模型可以是行动预测例行程序的一部分并且构成用于确定响应行动的诊断例行程序。
也可以借助于将诊断行动与响应行动相关联的查找表来确定响应行动。
行动预测例行程序(诊断)的结果可以是响应行动,或者是否提出了正确的问题,或者对要提出的问题的建议,或者哪些症状描述了一般情况。
异态可以由数据点来解释,该数据点位于统计模型进行学习的数据的概率分布之外,即,该数据点是不太可能发生的事件。
统计模型可以被构造,使得该统计模型(例如借助于神经网络)对输入信号进行编码或将输入信号转换为潜在概率分布。潜在分布可以由比输入信号的概率分布的维度更低的维度来构成。然后来自潜在分布的样本可以通过第二统计模型(即,解码器,其也可以是神经网络的形式)被解码回到对于输入信号的分布的近似(approximation)。
在学习过程期间,潜在分布可能以已知的先验分布为条件,因此对真实潜在分布的近似是已知的。潜在分布、先验分布以及输入分布的近似的组合可以被收集到置信度的近似中。当根据输入数据点计算这个近似时,它解释了这个数据点在统计模型进行学习的数据集中的表现如何。如果差异超过某个阈值,则数据点被归类为异态。
音频特征可以是语音、噪声或声音,诸如呼吸模式。
相应的样本数量可以是第一样本数量,不应被理解为代表在问询的第一部分中的被问询方话音的样本,而可以是代表在有点进入问询的窗口中的被问询方话音的一个或更多个样本,例如,相应的样本数量可能代表2ms的窗口,这发生在进入问询的1秒。
处理也可以在问询被启动之后的固定时间处被终止,例如在进入问询的2分钟至10分钟之间,处理可以被终止。替代性地,在2分钟至8分钟或2分钟至5分钟或3分钟至8分钟之间。
样本数量以真实数据或生产数据的形式,即,以统计学习模型在该方法的执行期间处理的数据(该数据根据由该方法限定的指令集被处理)的形式构成信息。
问询方通过向被问询方提问的方式对被问询方进行问询,并且该方法连续地确定被问询方的话音是否包含可靠信息,该信息可以被处理以返回可靠输出。可靠的信息被连续地处理,并且任何噪声被跳过。通过这种方式,可以将噪声排除在处理之外,这可以提高处理的速度和输出的可靠性。在当前上下文中,噪声将被理解为音频,该音频与在统计学习模型的训练中使用的音频偏离,以至于统计学习模型不会返回有用的输出。
根据本发明,问询方可以是空中交通管制塔台中的空中交通管制员,或是公共安全应答点的调度员,或者是医院查房的医疗专业人员。
相应地,被问询方可能是遇到问题的飞机的驾驶舱中的飞行员,或是诸如车祸等事故中涉及的人,或是医院的病人。
问询的目的是从被问询方收集信息,以对问题进行诊断并基于所收集的信息以及问询方的经验来决定响应行动。
处理单元与问询并行操作,并且对表示被问询方的话音的音频信号进行处理。该处理可以确定由被问询方所说的单词,并且可以基于所识别到的单词对问题进行诊断以确定响应行动。
处理单元独立地或在不与问询方交互的情况下确定响应行动,并将响应行动呈现给问询方。由处理单元确定的响应行动是预期的响应行动,因为它是基于学习到的数据和从问询中收集的数据。
处理单元可以是系统的一部分,该系统的一部分可以包括用于记录问询方和/或被问询方的话音的多个麦克风。该系统还可以包括用于向问询方呈现预期的响应行动的显示器和/或扬声器。
可以结合话音的记录对话音进行采样。采样频率可以是16kHz,这对人类语音是有用的。
在问询方和被问询方位于相距一定距离处(诸如在空中交通管制塔台中和在飞机的驾驶舱内)的情况下,该系统也可以包含电信网络。
电信网络可以是分别将问询方和被问询方的通信终端进行连接的电话或卫星网络。
被问询方的话音可以在被问询方的位置处用麦克风被记录下来,并转换成电子信号,该电子信号可以以有线或无线的方式被传输到问询方的通信终端,并且被路由到处理单元中。该麦克风可能与被问询方的通信终端(诸如电话或耳机)相关联。
问询方的话音也可以由处理单元处理,以便处理单元确定预期的响应行动。问询方的话音可以被麦克风记录、被转换为电子信号、以及被路由到处理单元中。
在问询方和被问询方在同一个房间的情况下,诸如在医院查房的情况下,可以设想使用麦克风来记录对话/问询。麦克风可以连接到诸如膝上型计算机或平板计算机等的便携式计算机的终端,医疗专业人员可以在医院查房期间或在医生办公室访诊期间携带该便携式计算机。再者,该系统可以通过提出预期诊断的建议来协助医疗专业人员,使得医疗专业人员可以更快或更可靠地决定患者的治疗或护理类型。
在当前上下文中术语“协助”是指问询方从系统接收信息以帮助决定在紧急呼叫期间问询方可能会或可能不会使用或利用的响应行动。
因此,问询方决定响应行动,但从系统获取信息以帮助决定响应行动。替代性地,该系统可以提出响应行动以供问询方批准。
统计学习模型可以是隐马尔可夫模型或神经网络(人工神经网络),并且该统计学习模型可以用训练数据进行训练,以便找到将输入与输出相关联的预测函数。
训练数据是来自概率分布的样本,输入和输出根据该概率分布而进行分布。统计学习模型被训练成:使得预测函数以尽可能最小的误差(即,使损失函数被限定并被最小化)将输入与输出相关联。
异态例行程序/检测是对相应的区间(interval)是否为统计学习模型已被训练所依据的分布的异常值(outlier)/异态进行的测试,即,对以下内容进行测试:用于对统计学习模型进行训练的样本是否也代表在系统的现场执行期间被提供的样本(相应的样本数量)。
在相应的样本数量是异常值/异态的情况下,统计学习的模型将不产生有用的输出-可以说统计学习模型然后用太少的训练样本进行了训练,这些太少的训练样本不代表使得可以预期有用输出的样本数量。
多个样本将被理解为样本组或样本集,其中样本在时间上按时间顺序彼此跟随。因此,样本数量表示时间序列或信号,其是整个问询的区间或窗口-窗口可能与单个样本一样小。
每个样本可以被表示为整数或实数。
处理单元可以一次对一个样本进行操作,即,样本数量是单个样本,使得单个样本可以构成统计学习模型的输入。
替代性地,多个样本可以构成统计学习模型的输入。多个样本可以包括新(之前未处理过)的一个或更多个样本,以及之前已经处理过的一个或更多个样本。
样本序列将被理解为在时间上彼此跟随的样本-来源于被问询方的被采样的话音。
后续样本数将被理解为多个样本,该多个样本具有的第一样本开始的时间点晚于先前的样本数量中的第一样本。
根据本发明的第二方面,上述目的和优点通过以下方式获得:
一种用于协助问询方响应于所述问询方与被问询方之间的问询而决定响应行动的系统,所述系统包括:
-接收器,该接收器用于接收所述被问询方的话音并且将所述被问询方的话音作为电子信号来呈现,
-处理单元,用于与发生所述问询并行地对所述电子信号单元进行处理,所述处理在所述问询的持续时间内持续或者所述处理持续到所述问询方决定了所述响应行动为止,
所述处理包括将所述电子信号分离成在时域中或者在代表所述电子信号的频率内容的域中的样本序列,
所述处理单元包括:
a)异态例行程序,所述异态例行程序包含统计学习模型,该统计学模型用于确定下述:
-所述样本序列的相应的样本数量是所述统计学习模型的异态;或者
-所述相应的样本数量是所述统计学习模型的常态,
b)回路,所述回路用于在所述相应的样本数量被确定为所述统计学习模型的异态时返回到所述异态例行程序以处理所述样本序列的后续样本数量,
c)音频识别模型和诊断模型,所述音频识别模型和诊断模型用于分别对所述相应的样本数量的语音进行检测,以及对所述音频特征进行诊断,以当所述相应的样本数量被检测为所述统计学习模型的常态时确定对所述问询的预期的响应行动,
所述系统还包括:
反馈单元,所述反馈单元用于向所述问询方呈现所述预期的响应行动。
接收器可以是:麦克风,该麦克风用于将被问询方的话音从声音转换为电子信号;或者电话,该电话用于将所述被问询方的话音作为电子信号来接收。
根据本发明的第三方面,上述目的和优点通过以下方式获得:
一种协助问询方响应于所述问询方与被问询方之间的问询而决定响应行动的方法:
-提供处理单元,并且将所述被问询方的话音作为电子信号输入到所述处理单元中,
-与发生所述问询并行地,借助于所述处理单元对所述电子信号进行处理,所述处理在所述问询的持续时间内持续或者所述处理持续到所述问询方决定了所述响应行动为止,
所述处理包括:
将所述电子信号分离成在时域中或在代表所述电子信号的频率内容的域中的样本序列,
所述处理还包括:
a)音频识别例行程序,所述音频识别例行程序包括音频识别模型,所述音频识别模型用于借助于第一统计学习模型对所述样本序列的相应的样本数量的音频特征进行检测,
所述音频识别例行程序返回第一音频输出,所述第一音频输出表示检测到的所述相应的样本数量的音频特征,
b)行动预测例行程序,所述行动预测例行程序包括分析模型,所述分析模型用于借助于第二统计学习模型对所述第一音频输出进行分析,所述行动预测例行程序将反馈返回到所述问询方,
-返回到所述音频识别例行程序和所述行动预测例行程序,以由所述音频识别例行程序和所述行动预测例行程序对所述样本序列的相应的后续样本数量进行处理,以基于所述相应的区间和所述相应的后续区间来确定预期的响应行动,以及借助于显示器或扬声器将所述预期的响应行动呈现给所述问询方。
根据本发明的第四方面,上述目的和优点通过以下方式获得:
一种用于生成信息的方法,该信息例如是图像或语音,所述方法包括:
提供存储单元和处理单元,该存储单元存储指令集,该处理单元用于执行所述指令集,
所述指令集包括生成器例行程序,该生成器例行程序具有由统计学习模型构成的解码器,
所述解码器是由可观察变量以及解码器层级的随机变量集来限定的,
所述解码器层级由下述层构成:所述层在每个层中具有所述随机变量集中的至少一个随机变量,
所述可观察变量和所述随机变量集是根据先验概率分布而被联合地分布的,
所述先验概率分布被因式分解(factorized)为具有:
-第一因子,该第一因子被限定为以所述随机变量集为条件的所述可观察变量的第一概率分布,
-第二因子,该第二因子被限定为所述解码器的顶层的随机变量的第二概率分布,
-第三因子,该第三因子被限定为针对所述随机变量集的随机变量的概率分布的序列乘积(product of sequence),
所述序列乘积中的每个相应元素的随机变量是以较高层中的随机变量为条件的,
所述方法还包括对顶层的随机变量的值进行采样,并且通过所述层级对所述值进行处理,使得所述信息被生成。
根据本发明的第五方面,上述目的和优点通过以下方式获得:
一种用于对信息进行识别的方法,所述信息例如是语音或文本,所述方法包括:
提供处理单元,
将所述信息作为电子信号输入到所述处理单元中,并且对所述电子信号进行处理,
所述处理包括识别例行程序,所述识别例行程序具有由统计学习模型构成的编码器,
所述编码器是由可观察变量以及编码器层级的随机变量集来限定的,
所述编码器层级由层构成,
所述随机变量集的随机变量通过所述编码器层级被分为自底向上路径和自顶向下路径,
所述随机变量集根据用于对后验概率分布进行近似的概率分布而按所述可观察变量被有条件地分布,
所述概率分布被因式分解为具有:
-第一因子,所述第一因子被限定为所述编码器的顶层的随机变量的第一概率分布,该第一概率分布是以所述可观察变量以及在顶层下方的所述自底向上路径的相应随机变量为条件的,
-第二因子,所述第二因子被限定为在用于所述自底向上路径的随机变量的概率分布与用于所述自顶向下路径的随机变量的概率分布之间的乘积(products)的序列乘积,
用于序列乘积中的给定索引的所述自底向上路径的相应随机变量是以以下各项为条件的:所述可观察变量、以及用于与所述给定索引相比低的索引的所述自底向上路径的相应随机变量,
用于序列乘积中的给定索引的所述自顶向下路径的相应随机变量是以以下各项为条件的:
·所述可观察变量,
·所述自底向上路径的至少一个相应随机变量,
·用于比所述给定索引高的索引的所述自顶向下路径的相应随机变量,
所述处理还包括通过所述编码器层级来传递所述信息,并且输出所识别到的信息。
根据本发明的第六方面,上述目的和优点通过以下方式获得:
一种用于确定数据点何时为异态的方法,包括:
提供处理单元,
将所述数据点作为电子信号输入到所述处理单元中,并且对所述电子信号进行处理,
所述处理包括具有编码器和解码器的统计学习模型,
所述编码器具有编码器层级并且所述解码器具有解码器层级,
所述编码器层级和所述解码器层级是由随机变量集来限定的,所述随机变量集的随机变量被分为自底向上路径和自顶向下路径,
所述编码器层级和所述解码器层级由下述层构成:所述层在每个层中具有所述随机变量集中的至少一个随机变量,
所述编码器对用于对后验概率分布进行近似的第一概率分布进行限定,以及所述解码器对先验概率分布进行限定,
对证据下界函数进行限定,该证据下界函数是针对所述随机变量集中的随机变量的所述第一概率分布的函数,所述随机变量集包括:与来自顶层的随机变量相比,更多的来自底层的随机变量,
所述证据下界函数还是针对所述随机变量集中的随机变量的所述先验概率分布的函数,所述随机变量集包括:与来自顶层的随机变量相比,更多的来自底层的随机变量,
所述方法还包括借助于所述统计学习模型来确定下述:
-当所述证据下界函数被积分为小于阈值的值时,所述数据点是所述统计学习模型的异态,
-当所述证据下界函数被积分为小于阈值的值时,所述数据点是所述统计学习模型的常态。
附图说明
下面将参考非常示意性的图借助于实施方式的示例更详细地解释本发明,其中:
图1示出了医疗紧急情况和公共安全应答点。
图2示出了用于协助医疗呼叫接听者的流程图。
图3示出了用于协助医疗呼叫接听者的系统的示意图。
图4示出了用于协助医疗呼叫接听者的流程图。
图5a示出了用于解码器的特定模型。
图5b示出了用于编码器的特定模型。
图5c示出了编码器的自顶向下路径。
具体实施方式
然而,本发明可以以不同的形式体现并且不应被解释为限于本文中所阐述的实施方式。相反,提供这些实施方式是为了使本公开是彻底和完整的,并且将本发明的范围充分传达给本领域技术人员。相同的附图标记始终指代相同的元素。因此,将不会关于每个图的描述来详细描述相同的元素。
图1示出了医疗紧急情况和公共安全应答点。
受伤的人10正在经历急性损伤或疾病,并被图示为躺在地上。
呼叫者12是旁观者并且需要协助从而帮助经历急性损伤或疾病形式的医疗紧急情况的受伤者10。
呼叫者(被问询方)12被图示为使用移动电话18以呼叫紧急电话号码(紧急呼叫)。
紧急呼叫通过具有手机信号塔16的公共交换电话网络被传输,并且紧急呼叫被路由到公共安全应答点26。
紧急呼叫在公共安全应答点处作为电子信号(表示信息的电流)被接收。电子信号可以是模拟的或数字的。
医疗呼叫接听者(问询方),在下文中被称为调度员14,接听紧急呼叫并且呼叫者与调度员之间的对话开始。接收器20(诸如电话,其可能包括针对调度员的电话听筒)可以用于接听紧急呼叫并且借助于扬声器将电子信号转换成声音。
在紧急呼叫期间,调度员遵循针对系统化呼叫者问讯的协议。
针对系统化问讯的协议可以包括按序列顺序的问题,以确定所需的协助类型。协议可以由处理单元储存,并且协议的问题序列可以由处理单元基于在处理中识别的信息来重新排列-例如某些线索或背景噪声可能具有与某些紧急情况的相关性或与某些紧急情况相关联,这意味着处理单元可能与问询方可能意识到他或她应该提出与此类紧急情况有关的问题相比更早地提出与此类紧急情况相关的问题。
在对话期间的某个时间点,调度员决定响应行动,该响应行动通常包括调度紧急医疗服务(诸如救护车)并且向呼叫者提供到达前指示集。
电子信号也被路由到处理单元22,即,与公共安全应答点相关联的计算机。处理单元包括用于对电子信号进行处理的指令集(算法)。
图2示出了协助问询方(诸如紧急调度员或空中交通管制员或医疗专业人员(医生/护士))的方法的流程图。
在问询期间,只要呼叫/问询发生,电子信号就会被持续地路由或传递到处理单元,并且电子信号的处理在问询的持续时间内持续。
但是,当调度员/问询方已经决定响应行动(诸如调度救护车前往事故现场)或当呼叫方/被问询方挂断电话时,处理可能会中止。
第一样本数量被选择并且被传递至异态例行程序,这将结合图3进一步描述。第一样本数量可以由介于1个样本与300个样本(甚至达1000个样本)之间的多个样本构成。
图3示出了异态例行程序的示例性部分的示意图。
异态例行程序确定区间是否为异态。如果不是异态,则称为常态。
异态例行程序包括统计学习模型,该统计学习模型可以是隐马尔可夫模型或神经网络。
利用训练数据对统计学习模型进行训练,以找到将输入与输出相关联的预测函数。
训练数据是来自概率分布的样本,输入和输出根据该概率分布而进行分布。
统计学习模型被训练成使得:预测函数以尽可能最小的误差(即,使损失函数被限定并最小化)将输入与输出相关联。
图3示出了神经网络的两个示例。左手侧神经网络用三个输入(x1、x2、x3)来示出,即,输入层具有三个输入节点。左侧神经网络还用三个输出(y1、y2、y3)来示出,即,输出层具有三个输出节点。
在左手侧神经网络的输入层与输出层之间示出了单层(一个隐藏层)。输入与输出经由该单层彼此连接。该单层中的每个节点可以具有函数f,例如,具有在函数前面的一定幅度/常数的双曲正切(tanh)函数。
图3中所示的右手侧神经网络具有与左手侧神经网络相同的结构。右手侧神经网络的输入是来自于左手侧神经网络的输出。
图3中所示的两个神经网络是神经网络的示例,但示出了在异态例行程序中使用的统计学习模型的设置,以便确定相应的样本数量是异态还是常态。
因此,在由异态例行程序对第一样本数量进行处理的过程中,可以使用第一神经网络(编码器/推断模型/识别模型)和第二神经网络(解码器/生成器)以确定相应的样本数量是异态还是常态。
第一神经网络可以构成音频识别神经网络,并且第二神经网络可以构成逆向神经网络,即可以将第一神经网络的预测进行反转的神经网络-根据第一神经网络的输出来预测第一神经网络的输入。
音频识别神经网络可以由递归神经网络构成,该递归神经网络可以使用单词中的先前所识别到的字母来估计单词中的接下来的字母。
第一神经网络的输入由输入向量
Figure BDA0003458905040000171
来限定,即,由统计学习模型的输入来限定。
如果相应的第一样本数量表示以16kHz采样的20ms音频,则相应的样本数量为320,并且第一神经网络可以具有320个输入(320个输入节点-针对每个样本,一个输入节点)。
隐藏层的数量和隐藏节点的数量在总数上应该被选择为使得神经网络不会欠拟合或过拟合。这些数量可以根据用于对神经网络进行训练的样本数量以及输入节点和输出节点的数量来选择。
第一神经网络可以由具有达5000万个元素的矩阵来限定。
第一神经网络的输出由输出向量
Figure BDA0003458905040000172
来限定,该输出可以具有320个输出节点。
异态例行程序中的第一神经网络的输出可以构成第二神经网络的输入,即,第二神经网络的输入向量
Figure BDA0003458905040000173
对于这样的构成,以及在如上例举的第一神经网络的输出层具有320个输出的情况下,第二神经网络的输入层可以具有320个输入。
第二神经网络可以由具有达1.3亿个元素的矩阵来限定。
第二神经网络的输出由输出向量
Figure BDA0003458905040000174
来限定。
异态例行程序:
异态例行程序可以将输入向量
Figure BDA0003458905040000175
与输出向量
Figure BDA0003458905040000176
进行比较。如果这两个向量不相比较,则确定相应的样本数量是异态-或者相应的样本数表示是异态的信号/信息。如果这两个向量能相比较,则确定相应的样本数量是常态。
换句话说,对以下内容进行测试:用于对统计学习模型进行训练的训练样本(训练数据)是否也代表相应的样本数量(真实/生产数据),即,相应的样本数量是否为统计学习模型进行训练所依据的分布的异常值-例如,如果真实数据中的信噪比太低,或者如果发音偏离到不能根据统计学习模型进行训练所用的数据被识别的程度。
如果相应的样本数量是异常值,统计学习的模型将不产生有用的输出-可以说统计学习模型然后是用太少的训练样本进行训练的,这些太少的训练样本不代表使得可以预期有用输出的相应的样本数量。
向量的比较可以包括确定输入向量
Figure BDA0003458905040000181
与输出向量
Figure BDA0003458905040000182
之间的相关性。
统计学习模型的输入和输出与输出向量
Figure BDA0003458905040000183
之间的相关性或差异可以与阈值进行比较,即,如果相关性或差异高于阈值或低于阈值,则相应的样本数量是常态或异态。
例如,如果相关性在0与0.5之间,则确定相应的区间是异态。例如,如果相关性大于0.5,则确定相应的样本数量是常态。
作为上述的替代或补充,异态测试/例行程序可以包括将训练数据的概率分布与真实数据(相应的样本数量)的概率分布进行比较。
在训练数据的概率函数未知或具有高维度的情况下,训练数据可以经历变换以降低维度,使得训练数据的概率函数可以例如由一维的概率分布(诸如处于一维的指数函数)表示。
变换可以是线性的或非线性的。神经网络可以用于降低维度,即,执行变换。
较低维度的概率分布可以是先验给定的分布(诸如,处于例如具有限定参数的一维的高斯函数或指数函数),并且转换函数可以被训练成将训练数据的概率函数转换为限定的低维度概率分布。可以使用相同的变换函数作为将相应的样本数量的概率分布进行变换的基础。然后可以将相应的样本数量的较低维度概率分布与训练数据的较低维度概率分布进行比较。
概率分布(无论是高维度还是低维度)的比较可以通过对两个概率分布的积分并将积分与阈值进行比较来完成。如果积分低于阈值,则可以确定相应的样本数量表示异态。
作为另一种选择或另外地,对于相应的样本数量是否为异常值/异态的测试可以包括确定相应的样本数量与训练数据的概率分布(即,对统计学习模型进行限定的概率分布)的平均值相距多远。例如,如果距离多于0.5个标准偏差,则可以判定相应的样本数量为异态。
相应的区间可以被傅立叶变换到频域,并且由相应的样本数量表示的信号的频率可以构成由异态例行程序使用的统计学习模型的输入,即,由相应的样本数量表示的信号可以根据在相应的区间的频率处的能量而被分为频率。
返回到图2的示例性流程图,在已经由异态例行程序处理的相应的样本数量的结果为异态的情况下,处理则将反馈返回至问询方。
该反馈可能构成负反馈,从某种意义上说,问询方被告知处理正在进行中。该反馈可以通过声音或被显示在显示器24上。
替代性地,该方法可能不会向问询方提供反馈,直到它返回对响应行动的建议,或者直到处理达到表示(不是异态的)信号的样本数量。
然后处理可以继续进行后续样本数量(窗口),该后续样本数量表示在(是异态的)先前样本数量之后的被问询方的话音的部分。因此,该方法循环回到异态例行程序-可能同时满足的条件是紧急呼叫仍在进行中。
在已经由异态例行程序处理的相应的样本数量的结果为不是异态的情况下,然后该处理可以继续进行该相应的样本数量,该相应的样本数量可以被传递到音频识别例行程序以对相应的区间中的音频进行识别。
音频识别例行程序可能已经结合异态例行程序被执行,即,异态例行程序的第一神经网络是用于音频识别的神经网络-音频识别例行程序可以包括与也由异态例行程序使用的第一神经网络相对应的音频识别神经网络,使得在由异态例行程序执行的测试与音频识别例行程序之间存在符合性(compliance)。
音频识别例行程序确定由被问询方所说的字母,并且将字母组合成单词。
相应的样本数量的所识别到音频、单词被传递到诊断例行程序用于对紧急情况进行诊断。
诊断例行程序可以包括诊断神经网络。
可能有必要使用来自多于一个样本集的音频,以做出诊断并且针对该方法提出响应行动。
但是,只有若干样本集,诸如只有经过音频识别和诊断例行程序的一个样本集,可能以一种或更多种提示或建议的形式向问询方带来正面反馈-替代性地,以重新安排协议的形式进行系统化的呼叫者问讯,即,重新安排协议中的问题列表的顺序,使得被问询方在某些紧急情况下更快地提出正确问题的概率-对问询方的反馈可以包括对协议的问题的重新安排。
当已经识别出足够的音频以便诊断例行程序基于所识别到的单词进行诊断时,向调度员建议响应行动。
处理可以包括与异态例行程序类似的测试,其中对以下内容进行测试:是否存在足够的信息可用于诊断例行程序以进行诊断,即,可以预期诊断例行程序返回诊断以及对应的响应行动(是正确的/可能的)。
背景噪声和线索。
音频识别和诊断例行程序还可以对背景噪声进行分析和/或响应于背景噪声,即,特定的背景噪声可以表示某些紧急情况。该处理可以在问询方之前识别这样的特定背景噪声,从而减少响应时间。
用于音频事件分类的神经网络可以被使用以对背景噪声(诸如呼吸模式)进行识别以及基于所识别到的背景噪声进行诊断。它可以是专用神经网络,因为训练数据可以表示特定的音频事件,即,训练数据可以由经历心脏病发作的许多人(诸如1000人)的呼吸的声音的记录来构成。
诊断例行程序还可以对例如特定单词等的特殊线索进行分析和/或对例如特定单词等的特殊线索进行响应,这些特定线索可能已被观察为与某些紧急情况或身体状况具有高度相关性。特殊单词可以是帮助、心脏病发作、发动机故障等。专用神经网络可以用于对特殊线索进行诊断,并且专用神经网络可以用表示特殊线索的数据进行训练。
此外,还可以在处理中对被问询方的话音的幅度和/或频率进行分析。例如,高幅度可能表示需要将救护车快速调度至事故现场。
该处理可以包括用于对呼叫者的语言进行确定的语言例行程序。语言例行程序可以包括语言神经网络。当在公共安全应答点处接收到紧急呼叫时,语言例行程序可以立即初始化。
图4示出了根据本发明的第三方面的用于协助医疗呼叫接听者的流程图。
该方法中省略了异态例行程序,并且由音频识别例行程序和诊断例行程序分别对样本集进行相继地处理。
图5a示出了解码器的特定模型。
图5b示出了编码器的特定模型。
解码器和编码器可以分别用于图2和图4所示的处理例行程序。由解码器和编码器限定的模型(如图5a至图5c所示)构成双向推断变分自编码器(BIVA)。
在图5a中,解码器包括具有三层的层级。顶层(第三层)具有根据概率分布而分布的一个随机变量z3。通常,可以使用正态分布(高斯)。概率分布的参数(在正态分布情况下的均值和方差)可以借助于神经网络来确定-每个参数可以使用一个神经网络。其他统计学习模型也可以用于对随机变量进行限定。
可以使用多于三层,并且在下面,层的数量是任意的,以及特定层可以用索引号来指代。
对于顶层之下的层(即,第二层)以及底层(即,第一层),可以看出,相应层的随机变量被分成了两个分量
Figure BDA0003458905040000221
上标BU指的是自底向上编码器路径,而上标TD指的是自顶向下编码器路径(将结合图5b来解释编码器)。
解码器可以具有确定性的自顶向下路径dL-1,···,d1(可以用神经网络对该路径进行参数化),并且在层级的每个层i接收随机变量zi+1作为输入。
这可以通过对完全卷积的模型进行限定以及沿着特征的维度将
Figure BDA0003458905040000222
与di+1进行连接来完成。
因此,di可以被视为确定性的变量,该确定性的变量汇总来自层级中较高的随机变量z>i的所有相关信息。
在图5a至图5c中,虚线示出了在解码器内或在解码器与编码器之间共享的确定性的参数。
随机变量
Figure BDA0003458905040000223
Figure BDA0003458905040000224
以较高层中的所有信息为条件,并且在给定z>i的情况下是有条件地独立的。
解码器的联合分布(先验概率分布)pθ(x,z)由下式给出:
Figure BDA0003458905040000225
其中θ指的是解码器的参数,即,在神经网络用于对随机变量(或用于层级中随机变量的概率分布)进行限定的情况下,参数可以是神经网络的权重。
pθ(x|z)是第一因子,该第一因子被限定为以随机变量集(即,z)为条件的可观察变量x的第一概率分布。
pθ(zL)是第二因子,该第二因子被限定为解码器的顶层zL(其中索引i=L)的随机变量的第二概率分布。在图5a中,L=3。
Figure BDA0003458905040000231
是第三因子,该第三因子被限定为用于针对解码器的随机变量集的随机变量的概率分布的序列乘积
Figure BDA0003458905040000232
——所述序列乘积中的每个相应元素的随机变量以较高层中的一个或更多个较高层的随机变量为条件。例如,对于索引i=2,随机变量z2可以以随机变量z3或z4或更高的随机变量为条件。该条件也可能是若干个较高层的随机变量,即,例如z3或z4。对于索引或元素i=L-1,随机变量zL-1仅以顶部随机变量zL为条件。
乘积序列中的元素可以被因式分解为
Figure BDA0003458905040000233
即第一因子被限定为用于自底向上随机变量的条件概率分布(其中信息/数据从层级的底部朝向顶部)。并且第二因子被限定为用于自顶向下随机变量的条件概率分布(其中信息/数据从层级的顶部朝向底部)。
概率分布可以具有对角协方差,其中一个神经网络用于均值,而另一神经网络用于方差。
由于
Figure BDA0003458905040000234
Figure BDA0003458905040000235
变量在解码器中处于同一级并且具有相同的维度,因此所有去到下面层的确定性的参数被共享。
具体地,解码器具有自顶向下路径,该自顶向下路径从zL通过中间随机变量到x。每个层之间存在设置了M个层的ResNet块。权重归一化被应用于所有神经网络层。
ResNet的与层i相关联的层j的神经网络函数(解码器参数θ的函数)被表示为fi,j
特征图被写为di,j。然后可以将解码器例行程序迭代为
Figure BDA0003458905040000241
和i=L-1,L-2,...,1:
di,0=zi+1
Figure BDA0003458905040000242
Figure BDA0003458905040000243
在图5b中,编码器包括具有三层的层级。
由于使解码器参数化的神经网络中的非线性,精确的后验分布pθ(z|x)是难解的,并且需要进行近似。可以为此对变分分布(用于对后验概率分布进行近似的概率分布)qφ(z|x)进行限定。
自底向上(BU)和自顶向下(TD)编码器路径被限定,并且在为每个数据点x构建后验近似时依次计算这些路径。
BU随机变量之上的变分分布依赖于数据x和层级中较低的所有BU变量,即,
Figure BDA0003458905040000244
——替代性地,该条件可以是层级中较低的较少数量的BU变量,诸如仅在相应索引i的层下方的层中的BU变量。φ表示BU路径的所有参数。
Figure BDA0003458905040000245
可以仅直接依赖于下面的BU变量,即,
Figure BDA0003458905040000246
与解码器类似,可以通过确定性的自底向上路径
Figure BDA0003458905040000247
来实现对
Figure BDA0003458905040000248
的依赖。
TD变量也依赖于通过BU编码器路径在层级中较低的BU变量和数据,但也依赖于通过图5c中的TD编码器路径在上方层级中的所有变量。因此,对TD变量的变分近似为
Figure BDA0003458905040000249
TD路径的所有参数都可以与解码器共享,并且因此被表示为θ,而编码器的参数被表示为φ。编码器可以被因式分解如下:
Figure BDA0003458905040000251
即,根据用于对后验概率分布进行近似的概率分布qφ(z|x),随机变量z按可观察变量x被有条件地分布。
BU和TD随机变量的变分分布可以是高斯分布,该高斯分布的均值和对角协方差可以用神经网络进行参数化,所述神经网络将条件变量的特征维度上的级联(concatenation)作为输入。
第一因子
Figure BDA0003458905040000252
可以被限定为所述编码器的顶层的随机变量的第一概率分布,该第一概率分布以可观察变量和顶层下方的自底向上路径的相应随机变量为条件。可以进一步以顶层下方的自底向上路径的所有相应随机变量为条件-或者它可以排除最接近层级的底部的一些随机变量。
第二因子:
Figure BDA0003458905040000253
可以被限定为用于自底向上路径的随机变量的概率分布
Figure BDA0003458905040000254
与用于自顶向下路径的随机变量的概率分布
Figure BDA0003458905040000255
之间的乘积的序列乘积。
用于序列乘积中的给定索引(或元素)的自底向上路径的相应随机变量以以下各项为条件:可观察变量、以及用于比给定索引低的索引的自底向上路径的相应随机变量。
用于序列乘积中给定索引的自顶向下路径的相应随机变量以以下各项为条件:
-可观察变量,
-自底向上路径的至少一个相应随机变量,以及
-用于比给定索引高的索引的自顶向下路径的相应随机变量。
用于序列乘积中给定索引的自顶向下路径的相应随机变量可以以下各项为条件:用于比所述给定索引高的索引的自底向上路径的随机变量,和用于比所述给定索引低的索引的自底向上路径的随机变量;使得用于除了给定索引之一以外的自底向上路径的所有随机变量。
对于变分自编码器,可以通过利用随机反向传播和重新参数化技巧使证据下界(ELBO)最大化来执行编码器和解码器的训练:
Figure BDA0003458905040000261
在上述标准ELBO中,对预期的对数似然项的主要贡献来自对较低级随机变量的变分分布的求平均。因此,这将强调低级统计信息。
当利用图5a至图5c所示的和上面提到的特定编码器和解码器执行异态检测时,可以强调来自较高层的贡献。
用于异态检测的证据下限是后验概率分布(或该分布的近似)qφ(z>k|x)以及先验概率分布pθ(z>k)的函数:
Figure BDA0003458905040000262
关于先验概率分布,它是针对高于k的层的随机变量,即,排除较低变量的随机变量。例如,k的选择可以是3,使得对于具有6层的层级,先验概率分布是针对第四层、第五层和第六层的随机变量。因此,k可以被视为对层级的顶部与底部之间的特定层进行限定的层编号。层编号可以对应于中间层或比顶部或底部更靠近中间层的层。
可能只排除k层中或低于k的层中的一个变量,即,例如,仅排除第一层或第二层的随机变量,并且分布是针对层级的其他随机变量。一般而言,先验概率分布是针对从底部两层或底部三层或底部四层之一中排除至少一个随机变量的层级的随机变量。
关于后验概率分布,是针对高于k的层的随机变量。随机变量以可观察变量x为条件。k的选择和函数可能与针对先验概率分布的相同。
随机变量可以说是属于被限定为z=z1,z2,z3,…,zL的随机变量集,其中
Figure BDA0003458905040000271
Figure BDA0003458905040000272
的计算近似于蒙特卡罗(Monte Carlo)积分。
可以通过从编码器获取样本
Figure BDA0003458905040000273
来执行来自pθ(z≤k|z>k)qφ(z>k|x)的采样,然后这些样本被用于来自条件先验
Figure BDA0003458905040000274
中的样本
Figure BDA0003458905040000275
通过仅从变分近似中对顶部L至k个变量进行采样,在评估该指标(metrics)时,仅依赖于在层级的最高变量中编码的高级语义,而不依赖于在较低变量中编码的低级统计信息。
下面是在本发明的详细描述中和在本发明的详细描述中提及的附图中使用的附图标记的列表。
10 受伤人员
12 呼叫者
14 医疗呼叫接听者
16 手机信号塔
18 移动电话
20 接收器
22 处理单元
24 显示器
26 公共安全应答点。

Claims (15)

1.一种用于协助问询方响应于所述问询方与被问询方之间的问询而决定响应行动的方法,所述方法包括以下步骤:
-提供处理单元,并且将所述被问询方的话音作为电子信号输入到所述处理单元中,
-与发生所述问询并行地,借助于所述处理单元来处理所述电子信号,所述处理在所述问询的持续时间内持续或者所述处理持续到所述问询方决定了所述响应行动为止,
所述处理包括:
将所述电子信号分离成在时域中或者在代表所述电子信号的频率内容的域中的样本序列,
所述处理还包括:
a)异态例行程序,所述异态例行程序包含统计学习模型,以及
借助于所述统计学习模型来确定下述:
-所述样本序列的相应的样本数量是所述统计学习模型的异态;或者
-所述相应的样本数量是所述统计学习模型的常态,
b)当所述相应的样本数量被确定为所述统计学习模型的异态时:
-返回到所述异态例行程序以处理所述样本序列的后续样本数量,
c)当所述相应的样本数量被确定为所述统计学习模型的常态时:
-提供音频识别模型,并且借助于所述音频识别模型对所述相应的样本数量的音频特征进行检测,
-提供行动预测模型,并且借助于所述行动预测模型对所述音频特征进行分析以确定预期的响应行动,
-提供显示器或扬声器,并且借助于所述显示器或所述扬声器向所述问询方呈现所述预期的响应行动以协助所述问询方,
-返回到所述异态例行程序以通过所述异态例行程序对所述样本序列的后续样本数量进行处理。
2.一种协助问询方响应于所述问询方与被问询方之间的问询而决定响应行动的方法:
-提供处理单元,并且将所述被问询方的话音作为电子信号输入到所述处理单元中,
-与发生所述问询并行地,借助于所述处理单元来处理所述电子信号,所述处理在所述问询的持续时间内持续或者所述处理持续到所述问询方决定了所述响应行动为止,
所述处理包括:
将所述电子信号分离成在时域中或者在代表所述电子信号的频率内容的域中的样本序列,
所述处理还包括:
a)音频识别例行程序,所述音频识别例行程序包括音频识别模型,所述音频识别模型用于借助于第一统计学习模型对所述样本序列的相应的样本数量的音频特征进行检测,
所述音频识别例行程序返回第一音频输出,所述第一音频输出表示检测到的所述相应的样本数量的音频特征,
b)行动预测例行程序,所述行动预测例行程序包括分析模型,所述分析模型用于借助于第二统计学习模型来对所述第一音频输出进行分析,所述行动预测例行程序将反馈返回到所述问询方,
-返回到所述音频识别例行程序和所述行动预测例行程序,以由所述音频识别例行程序和所述行动预测例行程序对所述样本序列的相应的后续样本数量进行处理,以基于所述相应的区间和所述相应的后续区间来确定预期的响应行动,以及借助于显示器或扬声器将所述预期的响应行动呈现给所述问询方。
3.根据前述权利要求中任一项所述的方法,所述方法包括将所述问询方的话音输入到所述处理单元中。
4.根据前述权利要求中任一项所述的方法,在所述处理期间借助于所述显示器或所述扬声器将反馈提供给所述问询方。
5.根据权利要求4所述的方法,当所述相应的样本数量被检测为所述统计学习模型的异态时,所述反馈构成负反馈。
6.根据权利要求5所述的方法,所述负反馈表示正在进行所述处理。
7.一种用于生成信息的方法,所述信息例如是图像或语音,所述方法包括:
提供存储指令集的存储单元,以及
提供用于执行所述指令集的处理单元,
所述指令集包括生成器例行程序,所述生成器例行程序具有由统计学习模型构成的解码器,
所述解码器是由可观察变量以及解码器层级的随机变量集来限定的,所述解码器层级由下述层构成:所述层在每个层中具有所述随机变量集中的至少一个随机变量,
所述可观察变量和所述随机变量集是根据先验概率分布而被联合地分布的,
所述先验概率分布被因式分解为具有:
-第一因子,所述第一因子被限定为以所述随机变量集中的至少一个随机变量为条件的所述可观察变量的第一概率分布,
-第二因子,所述第二因子被限定为所述解码器的顶层的随机变量的第二概率分布,
-第三因子,所述第三因子被限定为用于所述随机变量集的随机变量的概率分布的序列乘积,
所述序列乘积中的每个相应元素的随机变量是以较高层中的随机变量中的至少两个随机变量为条件的,
所述方法还包括对所述顶层的随机变量的值进行采样,并且通过所述层级对所述值进行处理,使得所述信息被生成。
8.根据权利要求7所述的方法,所述序列乘积中的每个相应元素的随机变量是以所述较高层中的随机变量为条件的。
9.一种用于对信息进行识别的方法,所述信息例如是语音或文本,所述方法包括:
提供处理单元,
将所述信息作为电子信号输入到所述处理单元中,并且对所述电子信号进行处理,
所述处理包括识别例行程序,所述识别例行程序具有由统计学习模型构成的编码器,
所述编码器是由可观察变量以及编码器层级的随机变量集来限定,所述编码器层级由层构成,
所述随机变量集的随机变量通过所述编码器层级被分为自底向上路径和自顶向下路径,
所述随机变量集根据用于对后验概率分布进行近似的概率分布而按所述可观察变量被有条件地分布,
所述概率分布被因式分解为具有:
-第一因子,所述第一因子被限定为所述编码器的所述顶层的随机变量的第一概率分布,所述第一概率分布是以所述可观察变量以及在所述顶层下方的所述自底向上路径的相应随机变量为条件的,
-第二因子,所述第二因子被限定为在用于所述自底向上路径的随机变量的概率分布与用于所述自顶向下路径的随机变量的概率分布之间的乘积的序列乘积,
用于序列乘积中的给定索引的所述自底向上路径的相应随机变量是以以下各项为条件的:所述可观察变量、以及用于比所述给定索引低的索引的所述自底向上路径的相应随机变量,
用于序列乘积中给定索引的所述自顶向下路径的相应随机变量是以以下各项为条件的:
·所述可观察变量,
·所述自底向上路径的至少一个相应随机变量,
·用于比所述给定索引高的索引的所述自顶向下路径的相应随机变量,
所述处理还包括通过所述编码器层级来传递所述信息,并且输出所识别到的信息。
10.一种用于确定数据点何时为异态的方法,包括:
提供处理单元,
将所述数据点作为电子信号输入到所述处理单元中,并且对所述电子信号进行处理,
所述处理包括具有编码器和解码器的统计学习模型,
所述编码器具有编码器层级并且所述解码器具有解码器层级,
所述编码器层级和所述解码器层级是由随机变量集来限定的,
所述编码器层级和所述解码器层级由下述层构成:所述层在每个层中具有所述随机变量集中的至少一个随机变量,
所述编码器对用于对后验概率分布进行近似的第一概率分布进行限定,以及所述解码器对先验概率分布进行限定,
对证据下界函数进行限定,所述证据下界函数是针对所述随机变量集中的随机变量的所述第一概率分布的函数,
所述证据下界函数还是针对所述随机变量集中的随机变量的所述先验概率分布的函数,
所述方法还包括借助于所述统计学习模型来确定下述:
-当所述证据下界函数被积分为小于阈值的值时,所述数据点是所述统计学习模型的异态,
-当所述证据下界函数被积分为小于阈值的值时,所述数据点是所述统计学习模型的常态。
11.根据权利要求10所述的方法,所述方法包括对层编号进行限定,使得用于所述随机变量集中的随机变量的所述第一概率分布和/或所述先验概率分布包括:针对比所述层编号高的层的多个相应随机变量,并且排除针对比所述层编号低的层的多个相应随机变量。
12.根据权利要求10所述的方法,所述证据下界函数是针对所述随机变量集中的随机变量的所述第一概率分布的函数,所述随机变量集包括:与来自顶层的随机变量相比,更多的来自底层的随机变量。
13.根据权利要求10或12所述的方法,所述证据下界函数是针对所述随机变量集中的随机变量的所述先验概率分布的函数,所述随机变量集包括:与来自顶层的随机变量相比,更多的来自底层的随机变量。
14.根据前述权利要求中任一项所述的方法,所述随机变量集的随机变量被分为自底向上路径和自顶向下路径。
15.根据前述权利要求中任一项所述的方法,所述解码器包括确定性变量,所述确定性变量用于汇总来自所述解码器层级中较高的随机变量的信息。
CN202080049560.XA 2019-05-28 2020-05-28 智能计算机辅助决策支持系统 Pending CN114080649A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP19177115 2019-05-28
EP19177115.3 2019-05-28
EP20152460.0 2020-01-17
EP20152460.0A EP3745412A1 (en) 2019-05-28 2020-01-17 An intelligent computer aided decision support system
PCT/EP2020/064842 WO2020239910A2 (en) 2019-05-28 2020-05-28 An intelligent computer aided decision support system

Publications (1)

Publication Number Publication Date
CN114080649A true CN114080649A (zh) 2022-02-22

Family

ID=66951752

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080049560.XA Pending CN114080649A (zh) 2019-05-28 2020-05-28 智能计算机辅助决策支持系统

Country Status (4)

Country Link
US (1) US20220240871A1 (zh)
EP (2) EP3745412A1 (zh)
CN (1) CN114080649A (zh)
WO (1) WO2020239910A2 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021018228A1 (en) * 2019-07-30 2021-02-04 Huawei Technologies Co., Ltd. Detection of adverserial attacks on graphs and graph subsets
WO2023057576A1 (en) 2021-10-06 2023-04-13 Corti Aps An intelligent computer aided decision support system
WO2023094657A1 (en) 2021-11-29 2023-06-01 Corti Aps Spoken language understanding by means of representations learned unsupervised
CN114298183B (zh) * 2021-12-20 2024-04-05 江西洪都航空工业集团有限责任公司 飞行动作智能识别方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7797261B2 (en) * 2005-04-13 2010-09-14 Yang George L Consultative system
KR102351366B1 (ko) * 2015-01-26 2022-01-14 삼성전자주식회사 음성 인식 방법 및 장치
US10311980B2 (en) * 2017-05-05 2019-06-04 Canary Speech, LLC Medical assessment based on voice
US20190065486A1 (en) * 2017-08-24 2019-02-28 Microsoft Technology Licensing, Llc Compression of word embeddings for natural language processing systems
US10916344B2 (en) * 2017-11-22 2021-02-09 Accenture Global Solutions Limited Utilizing a machine learning model to identify activities and deviations from the activities by an individual
US10152970B1 (en) * 2018-02-08 2018-12-11 Capital One Services, Llc Adversarial learning and generation of dialogue responses
CN108766419B (zh) * 2018-05-04 2020-10-27 华南理工大学 一种基于深度学习的非常态语音区别方法

Also Published As

Publication number Publication date
WO2020239910A2 (en) 2020-12-03
EP3745412A1 (en) 2020-12-02
EP3977479B1 (en) 2024-04-10
EP3977479A2 (en) 2022-04-06
US20220240871A1 (en) 2022-08-04
WO2020239910A3 (en) 2021-02-18

Similar Documents

Publication Publication Date Title
CN114080649A (zh) 智能计算机辅助决策支持系统
CN111461176B (zh) 基于归一化互信息的多模态融合方法、装置、介质及设备
US10726846B2 (en) Virtual health assistant for promotion of well-being and independent living
KR102314572B1 (ko) 인공지능 기반의 언어 능력 평가 방법 및 시스템
Rehmam et al. Artificial neural network-based speech recognition using dwt analysis applied on isolated words from oriental languages
CN111986679A (zh) 一种应对复杂声学环境的说话人确认方法、系统及存储介质
Świetlicka et al. Hierarchical ANN system for stuttering identification
Dhakal et al. IVACS: I ntelligent v oice A ssistant for C oronavirus Disease (COVID-19) S elf-Assessment
Gilke et al. MFCC-based vocal emotion recognition using ANN
JP2021110895A (ja) 難聴判定装置、難聴判定システム、コンピュータプログラム及び認知機能レベル補正方法
JP4631464B2 (ja) 体調判定装置およびそのプログラム
Chan et al. Multiexpert automatic speech recognition using acoustic and myoelectric signals
JP2017196115A (ja) 認知機能評価装置、認知機能評価方法、およびプログラム
CN113643798A (zh) 为失能人员匹配照护人员的方法、装置及计算机设备
Paul et al. Automated speech recognition of isolated words using neural networks
KR20180065761A (ko) 디지털 목소리 유전 요소에 기반한 사용자 적응형 음성 인식 시스템 및 방법
Zaman et al. Classification of Harmful Noise Signals for Hearing Aid Applications using Spectrogram Images and Convolutional Neural Networks
Ktistakis et al. A multimodal human-machine interaction scheme for an intelligent robotic nurse
Marimuthu Speech recognition using Taylor-gradient Descent political optimization based Deep residual network
CN116229581B (zh) 一种基于大数据的智能互联急救系统
Kavitha et al. Deep Learning based Audio Processing Speech Emotion Detection
CN116614580B (zh) 一种多端呼叫及时响应通讯方法及系统
CN112349298A (zh) 声音事件识别方法、装置、设备和存储介质
JP2020144676A (ja) 情報連携システム、情報連携サーバー、音声入出力装置、情報連携方法およびプログラム
CN117688344B (zh) 一种基于大模型的多模态细粒度倾向分析方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination