CN116075886A - 用于言语障碍用户的人工智能语音响应系统 - Google Patents
用于言语障碍用户的人工智能语音响应系统 Download PDFInfo
- Publication number
- CN116075886A CN116075886A CN202180062375.9A CN202180062375A CN116075886A CN 116075886 A CN116075886 A CN 116075886A CN 202180062375 A CN202180062375 A CN 202180062375A CN 116075886 A CN116075886 A CN 116075886A
- Authority
- CN
- China
- Prior art keywords
- user
- voice response
- user data
- computer
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000004044 response Effects 0.000 title claims abstract description 85
- 230000001771 impaired effect Effects 0.000 title description 12
- 238000013473 artificial intelligence Methods 0.000 title description 11
- 238000000034 method Methods 0.000 claims abstract description 35
- 238000004590 computer program Methods 0.000 claims abstract description 14
- 238000012549 training Methods 0.000 claims abstract description 9
- 238000004891 communication Methods 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 15
- 230000015654 memory Effects 0.000 claims description 14
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 230000003542 behavioural effect Effects 0.000 claims description 9
- 230000000306 recurrent effect Effects 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 238000007637 random forest analysis Methods 0.000 claims description 5
- 230000008859 change Effects 0.000 claims description 4
- 230000007787 long-term memory Effects 0.000 claims 5
- 230000006403 short-term memory Effects 0.000 claims 3
- 230000003862 health status Effects 0.000 claims 1
- 238000003062 neural network model Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 11
- 230000008569 process Effects 0.000 description 10
- 239000010410 layer Substances 0.000 description 8
- 230000006399 behavior Effects 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 6
- 238000013480 data collection Methods 0.000 description 6
- 230000003993 interaction Effects 0.000 description 5
- 238000007726 management method Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000002787 reinforcement Effects 0.000 description 4
- 230000001755 vocal effect Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 239000000835 fiber Substances 0.000 description 3
- 230000010354 integration Effects 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 230000006855 networking Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000008520 organization Effects 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 2
- 206010013887 Dysarthria Diseases 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 229910052802 copper Inorganic materials 0.000 description 2
- 239000010949 copper Substances 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 208000027765 speech disease Diseases 0.000 description 2
- 241001122767 Theaceae Species 0.000 description 1
- 208000027418 Wounds and injury Diseases 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000003466 anti-cipated effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000006735 deficit Effects 0.000 description 1
- 230000035622 drinking Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 239000002346 layers by function Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 230000029058 respiratory gaseous exchange Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012384 transportation and delivery Methods 0.000 description 1
- 230000002618 waking effect Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Signal Processing (AREA)
- User Interface Of Digital Computer (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Electrically Operated Instructional Devices (AREA)
- Telephonic Communication Services (AREA)
Abstract
提供了一种用于语音响应的方法、计算机系统和计算机程序产品。本发明可以包括从至少一个连接的设备收集用户数据。本发明可以包括基于所收集的用户数据来训练语音响应系统。本发明可以包括基于所训练的语音响应系统来识别唤醒信号。本发明可以包括基于识别唤醒信号来确定用户参与是有意的。本发明可以包括通过至少一个连接的设备与用户接洽。
Description
技术领域
本发明一般涉及计算领域,尤其涉及虚拟辅助。
背景技术
言语障碍,包括口齿不清和/或其他言语发音障碍,可能导致不能构造语言和/或利用适当的词语来制定可由人工智能(AI)语音响应系统可理解的语音命令。导致疲劳和/或其他身体状况的疾病也可能影响个人不能提交语音命令和/或不能向AI语音响应系统说出详细的请求。
发明内容
本发明的实施例公开了一种用于语音响应的方法、计算机系统和计算机程序产品。本发明可以包括从至少一个连接的设备收集用户数据。本发明可以包括基于所收集的用户数据来训练语音响应系统。本发明可以包括基于所训练的语音响应系统来识别唤醒信号。本发明可以包括基于识别唤醒信号来确定用户参与是有意的。本发明可以包括通过至少一个连接的设备与用户接洽。
附图说明
本发明的这些和其它目的、特征和优点将从以下结合附图解读的对其说明性实施例的详细描述中变得显而易见。附图的各种特征不是按比例的,为了清楚起见,图示是为了帮助本领域技术人员结合详细描述理解本发明。在附图中:
图1示出了根据至少一个实施例的联网计算机环境;
图2是示出根据至少一个实施例的用于语音响应的过程的操作流程图;
图3是根据至少一个实施例的图1所描绘的计算机和服务器的内部和外部部件的框图;
图4是根据本公开的实施例的包括图1所描绘的计算机系统的说明性云计算环境的框图;以及
图5是根据本公开的实施例的图4的说明性云计算环境的功能层的框图。
具体实施例
本文公开了所要求保护的结构和方法的详细实施例;然而,可以理解,所公开的实施例仅是对可以以各种形式实施的所要求保护的结构和方法的说明。然而,本发明可以以许多不同的形式实施,并且不应被解释为限于本文阐述的示例性实施例。相反,提供这些示例性实施例是为了使本公开透彻和完整,并将本发明的范围完全传达给本领域技术人员。在描述中,可以省略公知的特征和技术的细节,以避免不必要地模糊所呈现的实施例。
本发明可以是任何可能的技术细节集成水平的系统、方法和/或计算机程序产品。计算机程序产品可以包括其上具有计算机可读程序指令的计算机可读存储介质(或媒介),所述计算机可读程序指令用于使处理器执行本发明的各方面。
计算机可读存储介质可以是能够保留和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质可以是例如但不限于电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备、或前述设备的任何合适的组合。计算机可读存储介质的更具体示例的非穷举列表包括以下各项:便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式光盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、诸如上面记录有指令的打孔卡或凹槽中的凸起结构的机械编码设备、以及前述设备的任何适当组合。如本文所使用的计算机可读存储介质不应被解释为暂时性信号本身,诸如无线电波或其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤光缆的光脉冲)、或通过导线传输的电信号。
本文描述的计算机可读程序指令可以从计算机可读存储介质下载到相应的计算/处理设备,或者经由网络,例如因特网、局域网、广域网和/或无线网络,下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或网络接口从网络接收计算机可读程序指令,并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。
用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路的配置数据、或者以一种或多种编程语言(包括面向对象的编程语言,例如Smalltalk、C++等)和过程编程语言(例如“C”编程语言或类似的编程语言)的任意组合编写的源代码或目标代码。计算机可读程序指令可以完全在用户的计算机上执行,部分在用户的计算机上执行,作为独立的软件包执行,部分在用户的计算机上并且部分在远程计算机上执行,或者完全在远程计算机或服务器上执行。在后一种情况下,远程计算机可以通过任何类型的网络连接到用户的计算机,包括局域网(LAN)或广域网(WAN),或者可以连接到外部计算机(例如,使用因特网服务提供商通过因特网)。在一些实施例中,为了执行本发明的各方面,包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来执行计算机可读程序指令以使电子电路个性化。
在此参考根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明的各方面。将理解,流程图和/或框图的每个框以及流程图和/或框图中的框的组合可以由计算机可读程序指令来实现。
这些计算机可读程序指令可以被提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器以产生机器,使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现流程图和/或框图的一个或多个框中指定的功能/动作的装置。这些计算机可读程序指令还可以被存储在计算机可读存储介质中,其可以引导计算机、可编程数据处理装置和/或其他设备以特定方式工作,以使得其中存储有指令的计算机可读存储介质包括制品,该制品包括实现流程图和/或框图的一个或多个框中指定的功能/动作的各方面的指令。
计算机可读程序指令还可以被加载到计算机、其他可编程数据处理装置或其他设备上,以使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤,以产生计算机实现的过程,使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图的一个或多个框中指定的功能/动作。
附图中的流程图和框图示出了根据本发明的各种实施例的系统、方法和计算机程序产品的可能实施方式的架构、功能和操作。在这点上,流程图或框图中的每个框可以表示指令的模块、段或部分,其包括用于实现一个或多个指定的逻辑功能的一个或多个可执行指令。在一些替代实施方式中,框中所注明的功能可不按图中所注明的次序发生。例如,连续示出的两个框实际上可以基本上同时执行,或者这些框有时可以以相反的顺序执行,这取决于所涉及的功能。还将注意,框图和/或流程图图示的每个框以及框图和/或流程图图示中的框的组合可以由执行指定功能或动作或执行专用硬件和计算机指令的组合的专用的基于硬件的系统来实现。
以下描述的示例性实施例提供了一种用于语音响应的系统、方法和程序产品。这样,本实施例具有通过使言语受损用户能够使用一个或多个连接的设备,包括替代的和附加的通信设备,与语音响应系统通信来改进语音响应系统的技术领域的能力。更具体地,本发明可以包括从至少一个连接的设备收集用户数据。本发明可以包括基于所收集的用户数据来训练语音响应系统。本发明可以包括基于所训练的语音响应系统来识别唤醒信号。本发明可以包括基于识别唤醒信号来确定用户参与是有意的。本发明可以包括通过至少一个连接的设备与用户接洽。
如前所述,包括口齿不清和/或其他言语发音障碍的言语障碍可能导致无法构造语言和/或利用适当的词语来制定可由人工智能(AI)语音响应系统理解的语音命令。导致疲劳和/或其他身体状况的疾病也可能影响个人不能提交语音命令和/或不能向AI语音响应系统说出详细的请求。
因此,除了别的以外,提供一种人工智能(AI)系统可以观察包括但不限于环境对话的人类对话的手段,并且可以利用行为和/或生物测定信号来学习菜单选项并生成定制语音菜单,该定制语音菜单可以辅助口齿不清用户执行预期的语音响应或语音命令,这可能是有利的。
根据至少一个实施例,人工智能(AI)系统可以预测用户何时以及是否可能希望提交语音命令和/或可能不能提交语音命令。
根据至少一个实施例,在预测用户何时以及是否可能希望提交语音命令和/或可能不能提交语音命令时,可以考虑用户的试探和/或健康状况。用户的试探和/或健康状况也可以用于预测语音命令和/或语音请求的主题,并且可选地向用户提供口头菜单,从该语音菜单可以选择至少一个适当的语音命令。
根据至少一个实施例,语音响应程序可以确保在没有用户的完全知识和批准的情况下,用户的语音响应数据和/或集成数据源不可以在任何其他系统中使用。通过系统集成,可以给予语音响应程序的用户集成诸如IoT生物计量传感器、扩大性及替代性通信设备(AAC设备)、和/或视频流的工具的选项,以提供增强的功能性并进一步训练用户自己的语音响应程序的实例。与语音响应程序的集成过程可以被明确地选择加入,并且任何收集的数据可以不在用户自己的语音响应程序的个人实例之外被共享。
参考图1,描述了根据一个实施例的示例性联网计算机环境100。联网计算机环境100可包括具有处理器104和数据存储设备106的计算机102,该计算机能够运行软件程序108和语音响应程序110a。联网计算机环境100还可包括服务器112,其被启用来运行可与数据库114和通信网络116交互的语音响应程序110b。联网计算机环境100可以包括多个计算机102和服务器112,仅示出其中的一个。通信网络116可以包括各种类型的通信网络,诸如广域网(WAN)、局域网(LAN)、电信网络、无线网络、公共交换网络和/或卫星网络。连接的设备118被描绘为如所示的其自己的单独实体,但是可以集成到计算机网络环境的另一部分中。应当理解,图1仅提供了一种实施方式的说明,而不暗示对其中可实现不同实施例的环境的任何限制。可以基于设计和实现要求对所描述的环境进行许多修改。
客户计算机102可以经由通信网络116与服务器计算机112通信。通信网络116可以包括诸如有线、无线通信链路或光纤光缆的连接。如将参考图3讨论的,服务器计算机112可以分别包括内部部件902a和外部部件904a,并且客户端计算机102可以分别包括内部部件902b和外部部件904b。服务器计算机112还可以在云计算服务模型中操作,诸如软件即服务(SaaS)、平台即服务(PaaS)或基础设施即服务(IaaS)。服务器112还可以位于云计算部署模型中,诸如私有云、社区云、公共云或混合云。客户计算机102可以是例如移动设备、电话、个人数字助理、上网本、膝上型计算机、平板计算机、台式计算机或能够运行程序、访问网络、以及访问数据库114的任何类型的计算设备。根据本实施例的各种实现方式,语音响应程序110a、110b可以与可以嵌入在各种存储设备中的数据库114交互,所述存储设备诸如但不限于计算机/移动设备102、联网服务器112或云存储服务。
根据本实施例,使用客户计算机102或服务器计算机112的用户可以(分别)使用语音响应程序110a、110b来使得言语受损用户能够使用一个或多个连接设备(例如,连接设备118),(包括替代性和附加性通信设备,与语音响应系统通信。下面将参考图2更详细地解释语音响应方法。
现在参考图2,示出了根据至少一个实施例的语音响应程序110a和110b所使用的示例性语音应答处理200的操作流程图。
在202,语音响应程序110a、110b收集用户数据。语音响应程序110A、110b的数据收集模块可以收集数据,包括但不限于历史行为数据和/或会话数据,以及由用户的连接的设备(例如,连接的设备118)实时馈送并收集的新数据。
数据收集模块可以从言语受损用户和/或任何其他用户提取行为、生物测定、和/或移动模式数据,并且可以将提取(即,收集)的数据存储在知识语料库(例如,数据库114)中。
可穿戴设备,包括物联网(IoT)连接环、眼镜、衣服(例如,具有心脏和/或呼吸传感器)、手表、鞋和/或健身跟踪器等,可以将数据馈送到数据收集模块,该数据可以包括相机馈送数据和/或任何其他IoT生物计量传感器设备数据。
数据还可以从各种扩大性及替代性通信(AAC)设备(例如,其组合)收集。AAC设备可以是针对由具有一个或多个表达沟通障碍的个人所显示的一个或多个损伤和/或残疾模式而启用和/或促进沟通的设备。扩大性通信设备可以由具有一些言语但不能被理解或具有有限讲话能力的个人使用。替代性通信设备可以由没有言语的个人使用,并且可以依赖于另一种通信方法来表达他们的想法(例如,想法、需求)。
可以从视频设备和/或言语流设备收集数据。原始视频数据流一旦被收集就可被传递通过图像和/或视频处理系统以对模型输入的接洽指示符进行分类(例如,以识别举手、眨眼等)。图像和/或视频处理系统可以是IBM的WatsonTM(Watson和所有基于Watson的商标是国际商业机器公司在美国和/或其它国家的商标或注册商标)视觉识别解决方案、以及其它解决方案。WatsonTM视觉识别解决方案可使用深度学习算法来分析图像的面部(例如,面部识别)、场景、对象、和/或任何其它内容,并对所分析的视觉内容加标签、分类和搜索。
从言语流设备收集的原始言语流数据可以通过音语到文本处理器,例如WatsonTM言语到文本,以便可以用自然语言处理(NLP)算法分析内容。可以使用NLP算法,诸如WatsonTM语调分析器(例如,动态确定用户的满意或挫折水平)和情感分析(例如,确定用户是否是喜怒无常的、愤怒的、失望的、悲伤的或高兴的等),应用编程接口以及WatsonTM自然语言分类器(例如,收集言语内容和关键字指示符数据)。
例如,语音响应程序110a、110b可以在其中语音响应程序110a、110b的至少一个用户是言语障碍的并且不能呈现口头命令的医疗设施处被利用和训练。在这种情况下,由语音响应程序110a、110b收集的数据可以包括:由言语受损用户说出的命令和/或由医疗支持团队的任何部分说出的命令;以及由连接的和/或可穿戴设备识别的行为和/或(一个或多个)生物计量参数的所得变化。
在204,基于所收集的数据来训练语音响应系统。用于时间序列排序(例如,用于诸如言语的连接排序模式)的长短期记忆(LSTM)循环神经网络(RNN)可以用于预测言语受损用户以及其他用户的语音请求的预期主题(即,主题、用户主题)。
如先前关于以上步骤202所述,可以解释由数据收集模块收集的数据,以识别用户(例如,言语受损的用户和/或语音响应程序110a、110b的任何其他用户)的行为、生物测定和/或移动模式数据,并且预测用户的预期主题和/或请求。这可以进一步使用LSTM-RNN模型来完成,这将在下面关于步骤208更详细地描述。
在206,识别唤醒信号。一旦知识语料库(例如,数据库114)成熟(例如,一旦已经收集了足够的数据来进行关于未来结果的基于知识预测),则由跟踪言语受损的用户的行为和/或生物计量参数的改变的连接的设备(例如,连接的可穿戴设备、IoT传感器、相机等)收集的任何数据可以唤醒人工智能(AI)设备并且触发设备与用户的接洽。
连接的IoT设备可被动地监听用户的对话直到唤醒信号被识别并且可仅在唤醒信号被标识时才开始存储数据。然而,语音响应程序110a、110b的用户可以关闭收听特征,并且可以触发连接的IoT设备仅在发出命令时开始收听。
在208,语音响应程序110a、110b确定用户希望与连接的设备接洽。在唤醒人工智能(AI)设备之后,由连接的设备收集的所有数据可以被传递到随机森林算法以执行二元分类(例如,对数据进行分类以解释用户是否希望基于分类规则参与系统)。例如,语音响应程序110A、110B可以从数据收集模块取得所有输入,并且可以通过随机森林模型运行该输入,以使用二元分类(例如,其中0表示不需要的数据并且用户不希望接洽,而1表示需要的数据并且用户希望接洽)来决定是否需要该输入(例如,用户是否希望接洽)。
如果语音响应程序110a、110b基于分类规则确定用户希望参与系统,则收集的数据可被传递到深度强化学习模型(即,LSTM-RNN模型)以确定如何继续接洽用户。
用户接受或拒绝参与语音响应程序110A、110b可以被反馈到深度强化学习模型中以进一步调整模型。否定用户反馈可以作为惩罚,肯定用户反馈可以作为奖励。深度强化学习模型可以充当反馈回路,并且可以将数据分类为肯定或否定,以便进一步朝向期望的结果调整模型。这可以辅助深度强化学习模型调整当前状态并且确定用于参与语音响应程序110a、110b的未来动作。
在210,语音响应程序110a、110b与用户接洽。为了与言语受损的用户(即,用户)接洽,语音响应程序110a、110b可以向用户提供与预测主题相关的定制菜单。语音响应程序可以考虑由数据收集模块收集的行为和/或生物测定信号,如先前关于以上步骤202所描述的,以确定可以执行的语音请求。在导航语音菜单时,可以分析用户反馈,包括同意和/或不同意反馈(例如,由于提出的问题而接收到的肯定和/或否定生物计量和/或行为数据)。语音菜单可以由语音响应程序110A、110b导航,直到可以确定与预测的主题有关的定制菜单为止,并且因此,可以执行语音命令。
继续从以上202的示例,可以询问医疗设施中的言语受损用户“您饿了”和“您口渴了”。在问题“您口渴”之后,可识别视觉信号(例如,由用户做出的面部表情),并且下一组问题可包括“您想要喝水”和“您想要喝茶”。由语音响应程序110a、110b的连接的和/或可穿戴的设备观察到的该数据(例如,视频数据)可以用于生成知识库,并且用于识别预期主题以及相关联的分层语音菜单。
LSTM-RNN模型在此可以用来处理用户的言语并基于用户的言语来决定如何继续进行。LSTM-RNN模型可以是在深度学习领域中使用的人工循环神经网络架构,其基于反馈连接而不是标准前馈神经网络来工作。LSTM-RNN模型不仅可以处理单个数据点(例如,由一个或多个连接的设备获得的用户的图像),而且还可以处理整个数据序列(例如,用户与设备交互的语音或视频)。例如,LSTM-RNN模型可以应用于诸如未分段言语识别、手写识别和网络流量或入侵检测系统中的异常检测的任务。
在本申请中,LSTM-RNN模型可以用于通过将所观察的言语分解为顺序的、相关的输入以预测用户的预期主题,来处理用户的语音请求。该言语到文本能力可以起作用,使得输入的言语可以是顺序的、相关的输入,并且预测的预期主题可以是基于LSTM-RNN模型的结果输出。
LSTM-RNN模型在此可以用来通过将收集的行为输入、身体语言、和/或生物测定信号与预期主题和/或与预期主题相关的分层语音菜单相关来改进知识库(例如,数据库114)。
为了使数据与语音菜单的某些方面相关,可以在知识库(例如,数据库114)中定义和/或识别语音菜单。语音响应程序110a、110b可以基于所收集的数据来识别适当的语音菜单,例如,通过识别给定所接收的数据类型最常见的命令(例如,基于特定行为输入和/或生物计量信号等)。
根据至少一个实施例,基于与用户的接洽,语音响应程序110a、110b可随时间动态地创建语音菜单,并且可通过使用与一个或多个的连接的IoT设备上的特定域相关联的预先存在的语音菜单来开始。例如,如果用户说“Alexa设置定时器”,则IoT设备可通过询问“你希望定时器叫什么”以及“多少时间”等来使用户按下相关的预先存在的“定时器”层级语音菜单来作出响应。语音响应程序110a、110b可以基于用户的进一步命令,诸如“设定时间”、“设定停止点”、“提醒我”或“不要让我忘记”等,来学习与预先存在的语音菜单进行交互。基于这些相关命令的接收,语音响应程序110a、110b可以知道将用户置于“定时器”层级语音菜单中,如上所述。
包括口头纹理和/或声音的行为和/或生物计量数据可以被解释为与用户的活动(例如,吃、喝、看电视和/或听歌等)相关,并且可以相应地定制菜单。用户行为中的模式(即,行为模式)可以辅助识别预期主题,如先前关于上面步骤202所描述的,并且语音响应程序110a、110b可以基于所观察到的与受损的用户和人工智能(AI)设备的交互或交互集来创建问题的分层集合。
根据至少一个实施方式,语音响应程序110a、110b可以通过以一组模式(例如,用户的当前健康状况和/或试探)开始来处理非日常事件(例如,如可以由语音响应程序110a、110b和/或任何一个或多个连接的设备确定的,与用户的一个或多个正常身体移动不同的观察到的身体移动,或者可以由语音响应程序110a、110b使用的、没有与用户请求有关的在先数据的事件),该模式是预先存在的(例如,在IoT设备上预先配置的)或者基于用户交互和/或观察到的行为学习的,和/或可以发起对现场人员(例如,在语音响应程序110a、110b的用户简档中配置的人员)的电话呼叫,该现场人员可以辅助语音响应程序110a、110b理解非日常事件。
如果在208语音响应程序110a、110b确定用户不希望参与,则程序将结束。
可以理解,图2仅提供了一个实施例的说明,而不暗示对可以如何实现不同实施例的任何限制。可以基于设计和实现要求对所描绘一个或多个实施例进行许多修改。
图3是根据本发明的说明性实施例的图1所描绘的计算机的内部和外部部件的框图900。应当理解,图3仅提供了一种实施方式的说明,而不暗示对其中可实现不同实施例的环境的任何限制。可以基于设计和实现要求对所描绘的环境进行许多修改。
数据处理系统902、904代表能够执行机器可读程序指令的任何电子设备。数据处理系统902、904可以代表智能电话、计算机系统、PDA或其他电子设备。可由数据处理系统902、904表示的计算系统、环境和/或配置的示例包括但不限于个人计算机系统、服务器计算机系统、瘦客户端、胖客户端、手持式或膝上型设备、多处理器系统、基于微处理器的系统、网络PC、小型计算机系统和包括任何上述系统或设备的分布式云计算环境。
用户客户计算机102和网络服务器112可以包括图3所示的内部部件902a、b和外部部件904a、b的相应集合。内部部件902a、b的集合中的每一个包括一个或多个处理器906、在一个或多个总线912上的一个或多个计算机可读RAM 908及一个或多个计算机可读ROM910、以及一个或多个操作系统914及一个或多个计算机可读有形存储设备916。客户计算机102中的一个或多个操作系统914、软件程序108和语音响应程序110a以及网络服务器112中的语音响应程序110b可以被存储在一个或多个计算机可读有形存储设备916上,以便由一个或多个处理器906经由一个或多个RAM 908(其通常包括高速缓冲存储器)来执行。在图3所示的实施例中,每一个计算机可读有形存储设备916是内部硬盘驱动器的磁盘存储设备。或者,每个计算机可读有形存储设备916是半导体存储设备,诸如ROM 910、EPROM、闪存或任何其它能够存储计算机程序和数字信息的计算机可读有形存储设备。
每个内部部件902a、b集合还包括R/W驱动器或接口918,以从一个或多个便携式计算机可读有形存储设备920读取和向其写入,所述便携式计算机可读有形存储设备诸如CD-ROM、DVD、记忆棒、磁带、磁盘、光盘或半导体存储设备。诸如软件程序108以及语音响应程序110A和110b的软件程序可以被存储在一个或多个相应的便携式计算机可读有形存储设备920上,经由相应的R/W驱动器或接口918读取,并加载到相应的硬盘驱动器916中。
每个内部部件902a、b的集合还可以包括网络适配器(或交换端口卡)或接口922,例如TCP/IP适配卡、无线Wi-Fi接口卡或3G或4G无线接口卡或其他有线或无线通信链路。客户计算机102中的软件程序108和语音响应程序110a以及网络服务器计算机112中的语音响应程序110b可以经由网络(例如,因特网、局域网或其它广域网)和相应的网络适配器或接口922从外部计算机(例如,服务器)下载。从网络适配器(或交换机端口适配器)或接口922,客户计算机102中的软件程序108和语音响应程序110a以及网络服务器计算机112中的语音响应程序110b被加载到相应的硬盘驱动器916中。网络可以包括铜线、光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。
每个外部部件904a、b的集合可以包括计算机显示监视器924、键盘926和计算机鼠标928。外部部件904a、b还可以包括触摸屏、虚拟键盘、触摸板、定点设备和其他人机接口设备。每个内部部件902a、b的集合还包括设备驱动器930,以接口到计算机显示监视器924、键盘926和计算机鼠标928。设备驱动器930、R/W驱动器或接口918以及网络适配器或接口922包括硬件和软件(被存储在存储设备916和/或ROM 910中)。
预先理解,尽管本公开包括关于云计算的详细描述,但是本文中记载的教导的实现不限于云计算环境。相反,本发明的实施例能够结合现在已知或以后开发的任何其它类型的计算环境来实现。
云计算是一种服务递送模型,用于实现对可配置计算资源(例如,网络、网络带宽、服务器、处理、存储器、存储、应用、虚拟机和服务)的共享池的方便的按需网络访问,该可配置计算资源可以以最小的管理努力或与服务的供应商的交互来快速供应和释放。该云模型可以包括至少五个特性、至少三个服务模型和至少四个部署模型。
特征如下:
按需自助:云消费者可以单方面地自动地根据需要提供计算能力,诸如服务器时间和网络存储,而不需要与服务的供应商进行人工交互。
广域网接入:能力在网络上可用,并且通过促进由异构的瘦或肥客户端平台(例如,移动电话、膝上型计算机和PDA)使用的标准机制来访问。
资源池化:供应商的计算资源被集中以使用多租户模型来服务多个消费者,其中不同的物理和虚拟资源根据需求被动态地分配和重新分配。存在位置无关的意义,因为消费者通常不控制或不知道所提供的资源的确切位置,但是能够将位置指定在较高抽象级(例如国家、州或数据中心)处的。
快速弹性:在一些情况下自动地,可以快速且弹性地提供快速向外扩展的能力和快速向内扩展的能力。对于消费者,可用于提供的能力通常看起来不受限制,并且可以在任何时间以任何数量购买。
测量服务:云系统通过利用在适合于服务类型(例如,存储、处理、带宽和活动用户账户)的某一抽象级别的计量能力来自动地控制和优化资源使用。可以监视、控制和报告资源使用,从而为所利用服务的供应商和消费者两者提供透明度。
服务模型如下:
软件即服务(SaaS):提供给消费者的能力是使用在云基础设施上运行的供应商的应用。应用可通过诸如web浏览器(例如,基于web的电子邮件)等瘦客户界面从各种客户设备访问。消费者不管理或控制包括网络、服务器、操作系统、存储、或甚至个别应用能力的底层云基础结构,可能除了有限的用户专用应用配置设置。
平台即服务(PaaS):提供给消费者的能力是将使用由供应商支持的编程语言和工具创建的消费者创建或获取的应用部署到云基础设施上。消费者不管理或控制包括网络、服务器、操作系统或存储的底层云基础设施,但具有对部署的应用和可能的应用托管环境配置的控制。
基础设施即服务(IaaS):提供给消费者的能力是提供处理、存储、网络和消费者能够部署和运行任意软件的其它基本计算资源,所述软件可以包括操作系统和应用。消费者不管理或控制底层云基础设施,但具有对操作系统、存储、部署的应用的控制,并且可能对选择的联网部件(例如,主机防火墙)的有限控制。
部署模型如下:
私有云:云基础设施仅为组织操作。它可以由组织或第三方管理,并且可以存在于场内或场外。
社区云:云基础设施由若干组织共享,并且支持具有共享关注(例如,任务、安全要求、策略和合规性考虑)的特定社区。它可以由组织或第三方管理,并且可以存在于场内或场外。
公有云:云基础设施可用于一般公众或大型工业群体,并且由销售云服务的组织拥有。
混合云:云基础设施是两个或更多云(私有、社区或公共)的组合,云保持唯一实体,但是通过使数据和应用能够移植的标准化或私有技术(例如,用于云之间的负载平衡的云爆发)绑定在一起。
云计算环境是面向服务的,其焦点在于无状态、低耦合、模块性和语义互操作性。在云计算的核心是包括互连节点的网络的基础设施。
现在参考图4,描绘了说明性云计算环境1000。如图所示,云计算环境1000包括由云消费者使用的本地计算设备可以与其通信的一个或多个云计算节点100,所述本地计算设备例如个人数字助理(PDA)或蜂窝电话1000A、台式计算机1000B、膝上型计算机1000C和/或汽车计算机系统1000N。节点100可以彼此通信。它们可以被物理地或虚拟地分组(未示出)在一个或多个网络中,诸如如上文描述的私有云、社区云、公共云或混合云或其组合。这允许云计算环境1000提供基础设施、平台和/或软件作为服务,云消费者不需要为其维护本地计算设备上的资源。应当理解,图4所示的计算设备1000A-N的类型仅旨在说明,并且计算节点100和云计算环境1000可以通过任何类型的网络和/或网络可寻址连接(例如,使用web浏览器)与任何类型的计算设备通信。
现在参考图5,示出了由云计算环境1000提供的功能抽象层1100集合。应当预先理解,图5所示的部件、层和功能仅旨在说明,并且本发明的实施例不限于此。如所描绘的,提供了以下层和对应的功能:
硬件和软件层1102包括硬件和软件部件。硬件部件的示例包括:主机1104;基于RISC(精简指令集计算机)架构的服务器1106;服务器1108;刀片服务器1110;存储设备1112;以及网络和联网部件1114。在一些实施例中,软件部件包括网络应用服务器软件1116和数据库软件1118。
虚拟化层1120提供抽象层,从该抽象层可以提供虚拟实体的以下示例:虚拟服务器1122;虚拟存储1124;虚拟网络1126,包括虚拟专用网络;虚拟应用和操作系统1128;以及虚拟客户端1130。
在一个示例中,管理层1132可以提供下面描述的功能。资源供应1134提供用于在云计算环境内执行任务的计算资源和其他资源的动态采购。计量和定价1136提供了在云计算环境中利用资源时的成本跟踪,以及用于这些资源的消耗的记帐或出具发票。在一个示例中,这些资源可以包括应用软件许可证。安全性为云消费者和任务提供身份验证,以及为数据和其他资源提供保护。用户门户1138为消费者和系统管理员提供对云计算环境的访问。服务水平管理1140提供云计算资源分配和管理,以使得满足所需的服务水平。服务水平协议(SLA)规划和履行1142提供对云计算资源的预先安排和采购,其中根据SLA预期未来需求。
工作负载层1144提供了可以利用云计算环境的功能性的示例。可以从该层提供的工作负载和功能的示例包括:映射和导航1146;软件开发和生命周期管理1148;虚拟教室教育传送1150;数据分析处理1152;事务处理1154;以及语音响应1156。语音响应程序110A、110b提供了一种使言语受损用户能够使用一个或多个连接的设备(包括替代性和扩大性通信设备)与语音响应系统沟通的方式。
已经出于说明的目的给出了本发明的各种实施例的描述,但是其不旨在是穷尽的或限于所公开的实施例。在不背离所描述的实施例的范围的情况下,许多修改和变化对于本领域的普通技术人员将是显而易见的。将本文所使用的术语选择为最好地解释实施例的原理、实际应用或对市场上存在的技术改进,以或使本领域的其他普通技术人员能够理解本文所公开的实施例。
Claims (25)
1.一种用于语音响应的方法,所述方法包括:
从至少一个连接的设备收集用户数据;
基于所收集的用户数据,训练语音响应系统;
基于所训练的语音响应系统,识别唤醒信号;
基于识别所述唤醒信号,确定用户参与是有意的;以及
通过所述至少一个连接的设备与所述用户接洽。
2.根据权利要求1所述的方法,其中,所述至少一个连接的设备是扩大性及替代性通信设备。
3.根据权利要求1所述的方法,其中,基于所收集的用户数据,训练所述语音响应系统进一步包括:
使用长短期记忆循环神经网络来预测语音请求的主题。
4.根据权利要求1所述的方法,其中,所述唤醒信号是在连接的物联网(IoT)设备上记录的生物测定参数的变化。
5.根据权利要求1所述的方法,其中,确定用户参与是有意的进一步包括:
使用随机森林算法来对所收集的用户数据执行二元分类。
6.根据权利要求1所述的方法,其中,通过所述至少一个连接的设备与所述用户接洽进一步包括:
基于所述用户数据,向所述用户提供定制菜单;
分析用户反馈;以及
预测用户主题。
7.根据权利要求1所述的方法,其中,所述用户数据被存储在数据库中,并且其中,所述数据库基于与所述用户的接洽来更新,以将所述用户数据与由长短期记忆循环神经网络预测的用户主题相关联。
8.根据权利要求7所述的方法,其中,在所述数据库中预定义语音菜单。
9.一种用于语音响应的计算机系统,包括:
一个或多个处理器、一个或多个计算机可读存储器、一个或多个计算机可读有形存储介质、以及存储在所述一个或多个有形存储介质中的至少一个有形存储介质上的程序指令,所述程序指令用于由所述一个或多个处理器中的至少一个处理器经由所述一个或多个存储器中的至少一个存储器来执行,其中,所述计算机系统能够执行一种方法,所述方法包括:
从至少一个连接的设备收集用户数据;
基于所收集的用户数据,训练语音响应系统;
基于所训练的语音响应系统,识别唤醒信号;
基于识别所述唤醒信号,确定用户参与是有意的;以及
通过所述至少一个连接的设备与所述用户接洽。
10.根据权利要求9所述的计算机系统,其中,所述至少一个连接的设备是扩大性及替代性通信设备。
11.根据权利要求9所述的计算机系统,其中,基于所收集的用户数据,训练所述语音响应系统进一步包括:
使用长短期记忆循环神经网络来预测语音请求的主题。
12.根据权利要求9所述的计算机系统,其中,所述唤醒信号是在连接的物联网(IoT)设备上记录的生物测定参数的变化。
13.根据权利要求9所述的计算机系统,其中,确定用户参与是有意的进一步包括:
使用随机森林算法来对所收集的用户数据执行二元分类。
14.根据权利要求9所述的计算机系统,其中,通过所述至少一个连接的设备与所述用户接洽进一步包括:
基于所述用户数据,向所述用户提供定制菜单;
分析用户反馈;以及
预测用户主题。
15.根据权利要求9所述的计算机系统,其中,所述用户数据被存储在数据库中,并且其中,所述数据库基于与所述用户的接洽来更新,以将所述用户数据与由长短期记忆循环神经网络预测的用户主题相关联。
16.根据权利要求15所述的计算机系统,其中,在所述数据库中预定义语音菜单。
17.一种用于语音响应的计算机程序产品,其包括:
一个或多个非暂时性计算机可读存储介质和存储在所述一个或多个有形存储介质中的至少一个有形存储介质上的程序指令,所述程序指令由处理器可执行以使所述处理器执行一种方法,所述方法包括:
从至少一个连接的设备收集用户数据;
基于所收集的用户数据,训练语音响应系统;
基于所训练的语音响应系统,识别唤醒信号;
基于识别所述唤醒信号,确定用户参与是有意的;以及
通过所述至少一个连接的设备与所述用户接洽。
18.根据权利要求17所述的计算机程序产品,其中,所述至少一个连接的设备是扩大性及替代性设备。
19.根据权利要求17所述的计算机程序产品,其中,基于所收集的用户数据,训练所述语音响应系统进一步包括:
使用长短期记忆循环神经网络来预测语音请求的主题。
20.根据权利要求17所述的计算机程序产品,其中,所述唤醒信号是在连接的物联网(IoT)设备上记录的生物测定参数的变化。
21.根据权利要求17所述的计算机程序产品,其中,确定用户参与是有意的进一步包括:
使用随机森林算法来对所收集的用户数据执行二元分类。
22.根据权利要求17所述的计算机程序产品,其中,通过所述至少一个连接的设备与所述用户接洽进一步包括:
基于所述用户数据,向所述用户提供定制菜单;
分析用户反馈;以及
预测用户主题。
23.根据权利要求17所述的计算机程序产品,其中,所述用户数据被存储在数据库中,并且其中,所述数据库基于与所述用户的接洽来更新,以将所述用户数据与由长短期记忆循环神经网络预测的用户主题相关联。
24.一种用于语音响应的方法,所述方法包括:
接收来自用户的非例行请求;
利用所述用户的健康状况来预测所述非例行请求的主题;以及
提供语音响应。
25.一种用于生成命令的方法,所述方法包括:
使用长短期记忆循环神经网络模型来处理数据序列;以及
基于至少一个观察到的行为参数,预测所述命令的主题。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/948,310 | 2020-09-11 | ||
US16/948,310 US20220084504A1 (en) | 2020-09-11 | 2020-09-11 | Artificial intelligence voice response system for speech impaired users |
PCT/IB2021/058096 WO2022053926A1 (en) | 2020-09-11 | 2021-09-06 | Artificial intelligence voice response system for speech impaired users |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116075886A true CN116075886A (zh) | 2023-05-05 |
Family
ID=80626957
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180062375.9A Pending CN116075886A (zh) | 2020-09-11 | 2021-09-06 | 用于言语障碍用户的人工智能语音响应系统 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20220084504A1 (zh) |
JP (1) | JP2023542615A (zh) |
CN (1) | CN116075886A (zh) |
DE (1) | DE112021004208T5 (zh) |
GB (1) | GB2614193A (zh) |
WO (1) | WO2022053926A1 (zh) |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7920682B2 (en) * | 2001-08-21 | 2011-04-05 | Byrne William J | Dynamic interactive voice interface |
US9251717B2 (en) * | 2011-04-27 | 2016-02-02 | Heidi LoStracco | Augmentative and alternative communication language system |
CN104110770B (zh) * | 2013-06-28 | 2016-12-28 | 广东美的制冷设备有限公司 | 空调及其声控遥控器和声控遥控器的语音控制与提示方法 |
US10510266B1 (en) * | 2015-09-29 | 2019-12-17 | Alexander T. Huynh | Language communication and acquisition device |
US10262555B2 (en) * | 2015-10-09 | 2019-04-16 | Microsoft Technology Licensing, Llc | Facilitating awareness and conversation throughput in an augmentative and alternative communication system |
US20180197438A1 (en) * | 2017-01-10 | 2018-07-12 | International Business Machines Corporation | System for enhancing speech performance via pattern detection and learning |
KR102411766B1 (ko) * | 2017-08-25 | 2022-06-22 | 삼성전자주식회사 | 음성 인식 서비스를 활성화하는 방법 및 이를 구현한 전자 장치 |
AU2018367613B2 (en) * | 2017-11-16 | 2022-08-11 | Control Bionics Limited | Electromyography (EMG) assistive communications device with context-sensitive user interface |
US10713343B2 (en) * | 2018-05-10 | 2020-07-14 | Lenovo (Singapore) Pte. Ltd. | Methods, devices and systems for authenticated access to electronic device in a closed configuration |
JP7063779B2 (ja) * | 2018-08-31 | 2022-05-09 | 国立大学法人京都大学 | 音声対話システム、音声対話方法、プログラム、学習モデル生成装置及び学習モデル生成方法 |
US20200201970A1 (en) * | 2018-12-20 | 2020-06-25 | Cirrus Logic International Semiconductor Ltd. | Biometric user recognition |
US10943588B2 (en) * | 2019-01-03 | 2021-03-09 | International Business Machines Corporation | Methods and systems for managing voice response systems based on references to previous responses |
US11164575B2 (en) * | 2019-01-04 | 2021-11-02 | International Business Machines Corporation | Methods and systems for managing voice response systems to optimize responses |
US11741945B1 (en) * | 2019-09-30 | 2023-08-29 | Amazon Technologies, Inc. | Adaptive virtual assistant attributes |
CN111310847B (zh) * | 2020-02-28 | 2023-06-23 | 支付宝(杭州)信息技术有限公司 | 训练要素分类模型的方法和装置 |
-
2020
- 2020-09-11 US US16/948,310 patent/US20220084504A1/en active Pending
-
2021
- 2021-09-06 WO PCT/IB2021/058096 patent/WO2022053926A1/en active Application Filing
- 2021-09-06 CN CN202180062375.9A patent/CN116075886A/zh active Pending
- 2021-09-06 GB GB2304708.7A patent/GB2614193A/en active Pending
- 2021-09-06 JP JP2023512417A patent/JP2023542615A/ja active Pending
- 2021-09-06 DE DE112021004208.4T patent/DE112021004208T5/de active Pending
Also Published As
Publication number | Publication date |
---|---|
JP2023542615A (ja) | 2023-10-11 |
GB2614193A (en) | 2023-06-28 |
GB202304708D0 (en) | 2023-05-17 |
US20220084504A1 (en) | 2022-03-17 |
WO2022053926A1 (en) | 2022-03-17 |
DE112021004208T5 (de) | 2023-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10692606B2 (en) | Stress level reduction using haptic feedback | |
US11056114B2 (en) | Voice response interfacing with multiple smart devices of different types | |
US9722965B2 (en) | Smartphone indicator for conversation nonproductivity | |
US10943070B2 (en) | Interactively building a topic model employing semantic similarity in a spoken dialog system | |
US11153109B2 (en) | Intelligent teleconference operations in an internet of things (IoT) computing environment | |
US11004449B2 (en) | Vocal utterance based item inventory actions | |
US11721338B2 (en) | Context-based dynamic tolerance of virtual assistant | |
US20200076759A1 (en) | Methods and systems for managing multiple topic electronic communications | |
US11205422B2 (en) | Methods and systems for managing chatbots with data access | |
US11227583B2 (en) | Artificial intelligence voice response system having variable modes for interaction with user | |
US11526681B2 (en) | Dynamic multilingual speech recognition | |
US11082498B2 (en) | Methods and systems for managing multi-channel computing environments to optimize user efficiency | |
US20210181791A1 (en) | System, method, and recording medium for predicting cognitive states of a sender of an electronic message | |
CN116235246A (zh) | 基于个性化词汇和用户简档的语音响应系统-个性化语言学ai引擎 | |
US11164575B2 (en) | Methods and systems for managing voice response systems to optimize responses | |
US11290414B2 (en) | Methods and systems for managing communications and responses thereto | |
US20200219484A1 (en) | Methods and systems for managing chatbots based on topic sensitivity | |
US11631488B2 (en) | Dialogue generation via hashing functions | |
US11223595B2 (en) | Methods and systems for managing communication sessions for discussion completeness | |
US11734588B2 (en) | Managing domain competence during a computing session | |
CN116075886A (zh) | 用于言语障碍用户的人工智能语音响应系统 | |
US10510220B1 (en) | Intelligent alarm sound control | |
US20220101860A1 (en) | Automated speech generation based on device feed | |
US20230087133A1 (en) | User assistance through demonstration | |
JP2023547152A (ja) | 記憶力低下の検出と改善 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |