CN110719544A - 提供vui特定回应的方法及其应用在智能音箱 - Google Patents
提供vui特定回应的方法及其应用在智能音箱 Download PDFInfo
- Publication number
- CN110719544A CN110719544A CN201810756067.6A CN201810756067A CN110719544A CN 110719544 A CN110719544 A CN 110719544A CN 201810756067 A CN201810756067 A CN 201810756067A CN 110719544 A CN110719544 A CN 110719544A
- Authority
- CN
- China
- Prior art keywords
- command
- feedback information
- voice
- voice command
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 20
- 230000004044 response Effects 0.000 title claims abstract description 13
- 230000002159 abnormal effect Effects 0.000 claims abstract description 29
- 230000003993 interaction Effects 0.000 abstract description 3
- 239000004576 sand Substances 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 230000035790 physiological processes and functions Effects 0.000 description 3
- 230000005856 abnormality Effects 0.000 description 2
- 230000008713 feedback mechanism Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 210000001260 vocal cord Anatomy 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000035479 physiological effects, processes and functions Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000008961 swelling Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/63—Querying
- G06F16/632—Query formulation
- G06F16/634—Query by example, e.g. query by humming
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/16—Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
- A61B5/165—Evaluating the state of mind, e.g. depression, anxiety
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/48—Other medical applications
- A61B5/4803—Speech analysis specially adapted for diagnostic purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/63—Querying
- G06F16/635—Filtering based on additional data, e.g. user or group profiles
- G06F16/636—Filtering based on additional data, e.g. user or group profiles by using biological or physiological data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9032—Query formulation
- G06F16/90332—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
- G10L15/075—Adaptation to the speaker supervised, i.e. under machine guidance
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/227—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Pathology (AREA)
- Veterinary Medicine (AREA)
- Public Health (AREA)
- Animal Behavior & Ethology (AREA)
- Surgery (AREA)
- Medical Informatics (AREA)
- Heart & Thoracic Surgery (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Psychiatry (AREA)
- Physiology (AREA)
- Child & Adolescent Psychology (AREA)
- Developmental Disabilities (AREA)
- Educational Technology (AREA)
- Hospice & Palliative Care (AREA)
- Psychology (AREA)
- Social Psychology (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
一种提供VUI特定回应的方法,包含声音输入步骤、生理信息判断步骤、搜寻步骤、及反馈信息输出步骤。声音输入步骤接收声音指令。生理信息判断步骤存取声音数据库中的声音档案并辨识声音指令是否异常,当判断声音指令异常时产生搜寻指令,并将声音指令及搜寻指令共同传送出。搜寻步骤根据声音指令及搜寻指令搜寻对应的反馈,并产生第一反馈信息及第二反馈信息。反馈信息输出步骤输出第一反馈信息及第二反馈信息。透过声音样本收集、持续互动,判断生理信息的异常,并提供反馈,解决了声音识别困难而终止运行的状况,并提供良好的用户界面体验。
Description
技术领域
本发明涉及声音输入领域,尤其涉及提供VUI特定回应的方法及其应用在智能音箱。
背景技术
近年随着无线网络、智能型手机、云端连网、以及物连网的技术发展,各种控制的方式,例如图形用户界面或声音控制等,不断的产生以符合使用者的需求。
图形用户界面(GUI)采用图形方式显示的计算机操作用户界面。现今更有声音用户界面(VUI)提供用户以声音输入的方式来操作指令。简单来说,这些界面都是为了服务用户,给用户更好的直接交互的界面。
声音用户界面主要是根据所接收的声音,辩识该声音(转成文字),根据文字内容执行相应指令。也就是目前的声音用户界面是仅作到“声音助手”的功能。
发明内容
声音用户界面(VUI)接收语音时,不仅仅可以进行识别语言文字,还可接收和语音(语言)无关的“声音”。这些声音(音频结构)与语言(内容语义)结合,其实代表着用户说话时的生理(或心理)状态,例如喜、怒、哀、乐、生病、健康等等。
因此本申请提供一种提供VUI特定回应的方法,包含声音输入步骤、生理信息判断步骤、搜寻步骤、以及反馈信息输出步骤。声音输入步骤接收声音指令。生理信息判断步骤辨识声音指令是否异常,当判断声音指令异常时产生搜寻指令,并将声音指令及搜寻指令传送出。搜寻步骤根据声音指令及搜寻指令搜寻对应的反馈,并分别产生第一反馈信息及第二反馈信息。反馈信息输出步骤输出第一反馈信息及第二反馈信息。
在一些实施例中,一种提供VUI特定回应的方法更包含储存步骤,储存声音指令于声音数据库中。
更进一步地,在一些实施例中,一种提供VUI特定回应的方法更包含标示步骤,当判断声音指令异常时,将声音指令附加标示,再进入储存步骤,将附加标示后之声音指令储存于声音数据库中。更进一步地,在一些实施例中,更可依据后续声音指令,修改储存于声音数据库中声音指令的标示。
在一些实施例中,生理信息判断步骤是比较声音指令与声音档案的基准波形以判断声音指令是否异常。
在此也提供一种智能音箱,智能音箱包括声音指令输入单元、声音数据库、生理信息判断单元、数据处理单元、信息传送接收单元以及反馈信息输出模块。
声音指令输入单元接收声音指令,并将声音指令加以传送出。声音数据库接收并储存声音指令,声音数据库电性连接声音指令输入单元,更储存有复数个声音档案。生理信息判断单元接收声音指令,辨识声音指令是否异常,当生理信息判断单元判断声音指令异常时产生搜寻指令,并将搜寻指令与声音指令传送出。数据处理单元电性连接生理信息判断单元,接收声音指令及搜寻指令,并将声音指令及搜寻指令编码后传送出。信息传送接收单元电性连接数据处理单元,传送编码后的声音指令及搜寻指令,并接收对应于声音指令及搜寻指令的第一反馈信息及第二反馈信息,并将第一反馈信息及第二反馈信息传送至数据处理单元进行译码。反馈信息输出模块电性连接数据处理单元,接收来自数据处理单元译码后的第一反馈信息及第二反馈信息,并加以输出。
在一些实施例中,生理信息判断单元判断波形,比较声音指令与声音档案的波形以判断声音指令是否异常。
在一些实施例中,信息传送接收单元无线连接云端服务器,第一反馈信息及第二反馈信息是云端服务器分别依据编码后的声音指令及搜寻指令所对应产生。
在一些实施例中,反馈信息输出模块包含声音输出单元,将第一反馈信息及第二反馈信息转换成声音信息后加以播放出。更进一步地,在一些实施例中,反馈信息输出模块更包含显示单元,将第一反馈信息及第二反馈信息转换成文字信息或图像信息后加以显示出。
对于此,通过声音样本的收集、并通过智能音箱在声音指令输入时,判断产生声音指令的用户之声音的偏差量,判断用户生理是否有任何异常的状况,从而能进行后续的判断及反馈机制,从而改善了传统上辨识困难的问题,并能使得使用者有更实时的反馈或建议,进而达到更好的用户界面体验。
附图说明
图1是智能音箱在用户生理异常状态的方块示意图。
图2是智能音箱在用户生理正常状态的方块示意图。
图3是提供VUI特定回应的方法的流程图。
具体实施方式
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
图1是智能音箱在异常状态的方块示意图。如图1所示,智能音箱1包括声音指令输入单元10、声音数据库20、生理信息判断单元30、数据处理单元40、信息传送接收单元50、以及反馈信息输出模块60。
声音指令输入单元(例如麦克风)10接收来自外部的声音指令CV。声音数据库20电性连接声音指令输入单元10,接收并储存声音指令CV,声音数据库20更储存有复数个声音档案。
更详细地,声音数据库20可以储存使用者预先录制的复数个声音档案,这些声音档案包括使用者正常状态(例如健康)下录制的,也包括异常状态(例如生病)下录制的,作为后续判断的基础。进一步地,也可以是将储存每次由用户产生的声音指令CV来作为声音档案。生理信息判断单元30电性连接声音指令输入单元10,接收声音指令CV,并存取声音档案以辨识声音指令CV是否异常。当生理信息判断单元30判断声音指令CV异常时产生搜寻指令CS,并将搜寻指令CS及声音指令CV传送出。
数据处理单元40电性连接生理信息判断单元30,接收声音指令CV及搜寻指令CS,将声音指令CV及搜寻指令CS编码后传送出。信息传送接收单元50电性连接数据处理单元40,传送编码后的声音指令CV及搜寻指令CS,例如,传送至云端服务器500。接着,信息传送接收单元50接收来自云端服务器500对应于声音指令CV及搜寻指令CS所产生的第一反馈信息F1及第二反馈信息F2,再将第一反馈信息F1及第二反馈信息F2传送至数据处理单元40进行译码。反馈信息输出模块60电性连接数据处理单元40,接收来自数据处理单元40译码后的第一反馈信息F1及第二反馈信息F2,并加以输出。在此,数据处理单元40所谓的编码,可将声音指令CV,例如将.wmv檔,压缩成.mp3檔、或是转换为无损格式.flac文件,亦可以转换成文本文件.txt格式,以利于云端服务器500或计算机进行解读,以上仅为示例,而不限于此。进一步地,译码可以以反向的方式,达到反馈信息输出模块60可解读的格式。
上述的实施方式仅为示例,而不限于此,例如,并非一定需要透过传送至云端服务器500产生的第一反馈信息F1及第二反馈信息F2,此接技术亦可以透过安装于智能音箱1内的计算机来进行。
在此,举例来详细地说明,生理信息判断单元30可以为波形判断装置等,生理信息判断单元30可以存取声音数据库20中多个声音档案而拼贴出基准波形,并与声音指令CS的基准波形进行比对,以判断声音指令CV是否异常,从而判断用户的生理是否有异常的状况。例如,在使用者感冒的状态,由于声带及周边器官产生肿胀的变化,导致声带震动时波形改变,因而,用户感冒时产生的声音指令CV会与先前未感冒状态声音档案而拼贴出基准波形有所差。另外,更可基于差异的偏差瓶颈值,来认定声音指令CV为异常。例如波形偏差量差异超过40%,则生理信息判断单元30判断声音指令CV为异常。以上仅为示例,而不限于此。
搜寻指令CS可以依据声音的变化,产生欲搜寻的信息指令,例如,搜寻前几天的天候、温度、附近的医院位置等。然而,以上仅为示例,而不限于此。例如,也可以透过频段分析判断产生声音指令CV的用户是否为同一人。进一步地,通过储存声音指令CV可以使得声音数据库20中的声音样本数量增加,能使基准波形能进一步地修正,使得判断是否异常能够更加地精确。
图2是智能音箱在用户生理正常状态的方块示意图。参见图1及图2,在生理信息判断单元30判断声音指令CV正常时不产生搜寻指令CS,数据处理单元40仅进行声音指令CV及由对息传送接收单元50所接受之对应声音指令CV的第一反馈信息F1进行编码及译码。以上仅为示例。
举例而言,请同时参见图1,当使用者对智能音箱1发出「早安,今天会下雨吗?」的声音指令Cv时,声音指令输入单元(例如麦克风)10接收该声音指令Cv。智能音箱1的生理信息判断单元30判断用户的声音指令Cv中的波形,与基准波形的偏差量超出瓶颈值时,更产生「前两天温度为何?」、以及「附近的医院门诊的时间?」的搜寻指令CS,并由数据处理单元40进行编码后、透过信息传送接收单元50传送至云端服务器500。云端服务器500搜寻相关信息后,对应声音指令CV产生第一反馈信息F1,例如,「今日下午两点后会下雨,请携带雨具」,并针对搜寻指令CS产生第一反馈信息F2,例如,「声音听起来怪怪的呢,前两天温度较低,是感冒了吗?」、「这附近的医院将于早上9点开始门诊」并加以输出。
又举例来说,请同时参见图2,当使用者对智能音箱1发出「早安,今天温度几度呢?」的声音指令Cv时,且智能音箱1判断用户的声音指令Cv中的波形正常时,并由数据处理单元40进行编码后、透过信息传送接收单元50传送至云端服务器500。云端服务器500搜寻相关信息后,对对应声音指令CV产生第一反馈信息F1,例如,「今日平均温度约在33度,最高温度能高达36度,请多补充水分」,再加以输出。
进一步地,在一些实施例中,反馈信息输出模块60包含声音输出单元61,将第一反馈信息F1及第二反馈信息F2转换成声音信息VF1及VF2后加以播放出。换言之,智能音箱1具有完全以声音用户界面(voice user interface,VUI)。更进一步地,在一些实施例中,反馈信息输出模块60更包含显示单元63,将第一反馈信息F1及第二反馈信息F2转换成文字信息或图像信息后加以显示出。换言之,在此些实施例中,智能音箱1具有声音及图像混合式的用户界面(voice graphical hybrid user interface)。
数据处理单元40更电性连接声音数据库20,当生理信息判断单元30判断声音指令异常时,数据处理单元40对声音指令CV附加标示,将附加标示的储存声音指令CVT作为声音档案而储存于声音数据库20中。举例而言,当生理信息判断单元30判断声音指令CV异常时,数据处理单元40更可在加上「沙哑」或「感冒」标示的储存声音指令CVT,再储存于声音数据库20中,如此,未来若遇到类似的状况,生理信息判断单元30更可依据标示来判读,使整个判读声音指令CV正常、异常的速度能更快、更精准。藉由喂养、收集大量的声音指令CV进而达成智能音箱1自我学习(Machine Learning)的功效。更进一步地,声音数据库20更可以设置于云端服务器500之中,而能达到更大的声音档案储存量。
更进一步地,数据处理单元40更可依据后续声音指令CV,修改储存于声音数据库20中声音指令的标示。例如,数据处理单元40更可在储存声音指令CV加上「感冒」的标示,且当反馈信息输出模块60所输出之第二反馈信息F2「声音听起来怪怪的呢,前两天温度较低,是感冒了吗?」时,若使用者紧接着产生「只是晚睡」的后续声音指令时,可以理解「感冒」的标示并非正确,数据处理单元40更依据「只是晚睡」的后续声音指令,将附加有「感冒」标示之声音指令CVT中的标示「感冒」修改为「晚睡」。从而,能进一步地将不同的波形,更细致地辨识为不同的状态,而能在产生第二反馈信息F2能越加精确地反应到使用者的状态。如此,不仅能克服传统上声音改变无法进行声音控制的问题,更能让使用者感到贴心的状态,而能大幅地改善是用者经验。
图3是提供VUI特定回应的方法的流程图。如图3所示,提供VUI特定回应的方法S1包含声音输入步骤S10、生理信息判断步骤S20、搜寻步骤S30、以及反馈信息输出步骤S40。同时参见图1,声音输入步骤S10系接收声音指令CV。生理信息判断步骤S20存取声音数据库20中的声音档案并辨识声音指令CV是否异常,当判断声音指令CV异常时产生搜寻指令CS,并将声音指令CV及搜寻指令CS传送出。
搜寻步骤S30根据声音指令CV及搜寻指令CS搜寻对应的反馈,并分别产生第一反馈信息F1及第二反馈信息F2。反馈信息输出步骤S40输出第一反馈信息F1及第二反馈信息F2。透过声音判断预先储存的声音档案及声音指令CV,以此可以解决难以识别声音来源就无法操作的问题,同时,能透过搜寻指令CS来获得声音指令CV变异的相关性,或是提供进一步地协助,而使得使用者能获得更加的使用者体验。
更进一步地,在一些实施例中,提供VUI特定回应的方法S1更包含储存步骤S50,储存声音指令CV于声音数据库20中,透过声音档案的样本累计,能使得判断声音指令CV变异能更为准确。进一步可以透过样本喂养的学习,达到自动学习,可以更进一步地透过声音的变异来更细致地分辨出各种生理状态的差异。在此,图3中虽然呈现储存步骤S50在生理信息判断步骤S20之前,然而,这仅为示例,而不限于此,储存步骤S50可以仅在声音输入步骤S10之后,与其他的步骤并不限于特定的先后次序。
更进一步地,在一些实施例中,提供VUI特定回应的方法S1更包含标示步骤S60,若判断声音指令CV异常时,将声音指令CV附加标示,再进入储存步骤S50,将附加标示后之声音指令CVT储存于声音数据库20中。更进一步地,在一些实施例中,更可依据后续声音指令CV,修改储存于声音数据库20中声音指令的标示。透过附加标示,可以进一步地将声音档案分类,从而在搜寻指令CS的产生,关连性可以更相近,而达到用户更加的用户界面体验。
对于此,能通过智能音箱1在声音指令CV输入时,可以透过声音样本的收集,以及持续与使用者互动,透过声音指令CV的比较来判断出用户的生理信息是否有任何异常的状况,从而能进行后续的判断及反馈机制,以此解决了声音识别困难而终止运行的状况,更能够过更实时的反馈或建议,进而使得用户有更加的用户界面体验。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (10)
1.一种提供VUI特定回应的方法,其特征在于,包含:
接收声音指令;
辨识所述声音指令是否异常,当判断所述声音指令异常时产生搜寻指令,并将所述声音指令及所述搜寻指令传送出;
根据所述声音指令及所述搜寻指令搜寻对应的反馈,并分别产生第一反馈信息及第二反馈信息;以及
输出所述第一反馈信息及所述第二反馈信息。
2.如权利要求1所述的方法,其特征在于:
更包含储存所述声音指令于所述声音数据库中。
3.如权利要求2所述的方法,其特征在于:
更包含若判断所述声音指令异常时,将所述声音指令附加标示,再进入所述储存步骤,将附加标示后之所述声音指令储存于所述声音数据库中。
4.如权利要求3所述的方法,其特征在于:
更包含修改储存于所述声音数据库中所述声音指令的标示。
5.如权利要求1所述的方法,其特征在于:
所述生理信息判断步骤是比较所述声音指令与所述声音档案的基准波形以判断所述声音指令是否异常。
6.一种智能音箱,包括:
声音指令输入单元,接收声音指令,并将所述声音指令加以传送出;
声音数据库,电性连接所述声音指令输入单元,接收并储存所述声音指令,所述声音数据库更储存有复数个声音档案;
生理信息判断单元,电性连接所述声音指令输入单元,接收所述声音指令,辨识所述声音指令是否异常,当所述生理信息判断单元判断所述声音指令异常时产生搜寻指令,并将所述搜寻指令及所述声音指令传送出;
数据处理单元,电性连接所述生理信息判断单元,接收所述声音指令及所述搜寻指令,并将所述声音指令及所述搜寻指令编码后传送出;
信息传送接收单元,电性连接所述数据处理单元,接收对应于所述声音指令及所述搜寻指令的第一反馈信息及第二反馈信息,并将所述第一反馈信息及所述第二反馈信息传送至所述数据处理单元进行译码;以及
反馈信息输出模块,,电性连接所述数据处理单元,接收来自所述数据处理单元译码后的所述第一反馈信息及所述第二反馈信息,并加以输出。
7.如权利要求6所述的智能音箱,其特征在于:
所述生理信息判断单元判断波形,比较所述声音指令与所述声音档案的波形以判断所述声音指令是否异常。
8.如权利要求6所述的智能音箱,其特征在于:
所述信息传送接收单元无线连接云端服务器,所述第一反馈信息及所述第二反馈信息是所述云端服务器分别依据编码后的所述声音指令及所述搜寻指令所对应产生。
9.如权利要求6所述的智能音箱,其特征在于:
所述反馈信息输出模块包含声音输出单元,将所述第一反馈信息及所述第二反馈信息转换成声音信息后加以播放出。
10.如权利要求9所述的智能音箱,其特征在于:
所述反馈信息输出模块更包含显示单元,将所述第一反馈信息及所述第二反馈信息转换成文字信息或图像信息后加以显示出。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810756067.6A CN110719544A (zh) | 2018-07-11 | 2018-07-11 | 提供vui特定回应的方法及其应用在智能音箱 |
US16/505,088 US20200020335A1 (en) | 2018-07-11 | 2019-07-08 | Method for providing vui particular response and application thereof to intelligent sound box |
DE102019118800.8A DE102019118800A1 (de) | 2018-07-11 | 2019-07-11 | Verfahren zum bereitstellen einer sbs-spezifischen antwort und dessen anwendung auf eine intelligente sound box |
GB1909950.6A GB2577157A (en) | 2018-07-11 | 2019-07-11 | Method for providing VUI particular response and application thereof to intelligent sound box |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810756067.6A CN110719544A (zh) | 2018-07-11 | 2018-07-11 | 提供vui特定回应的方法及其应用在智能音箱 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110719544A true CN110719544A (zh) | 2020-01-21 |
Family
ID=67700325
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810756067.6A Withdrawn CN110719544A (zh) | 2018-07-11 | 2018-07-11 | 提供vui特定回应的方法及其应用在智能音箱 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20200020335A1 (zh) |
CN (1) | CN110719544A (zh) |
DE (1) | DE102019118800A1 (zh) |
GB (1) | GB2577157A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112325460A (zh) * | 2020-10-15 | 2021-02-05 | 珠海格力电器股份有限公司 | 一种空调器的控制方法、控制系统及空调器 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111916083B (zh) * | 2020-08-20 | 2023-08-22 | 北京基智科技有限公司 | 一种通过大数据采集的智能设备语音指令识别算法 |
US12040082B2 (en) | 2021-02-04 | 2024-07-16 | Unitedhealth Group Incorporated | Use of audio data for matching patients with healthcare providers |
CN113889111A (zh) * | 2021-11-02 | 2022-01-04 | 东莞市凌岳电子科技有限公司 | 一种智能语音交互系统和钟表 |
CN115171689A (zh) * | 2022-07-05 | 2022-10-11 | 赣州数源科技有限公司 | 一种基于人工智能语音交互系统集成终端设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110179003A1 (en) * | 2010-01-21 | 2011-07-21 | Korea Advanced Institute Of Science And Technology | System for Sharing Emotion Data and Method of Sharing Emotion Data Using the Same |
CN102637433A (zh) * | 2011-02-09 | 2012-08-15 | 富士通株式会社 | 识别语音信号中所承载的情感状态的方法和系统 |
CN105874405A (zh) * | 2013-12-11 | 2016-08-17 | Lg电子株式会社 | 智能家用电器、其操作方法及使用智能家用电器的语音识别系统 |
CN106682090A (zh) * | 2016-11-29 | 2017-05-17 | 上海智臻智能网络科技股份有限公司 | 主动交互实现装置、方法及智能语音交互设备 |
CN107393529A (zh) * | 2017-07-13 | 2017-11-24 | 珠海市魅族科技有限公司 | 语音识别方法、装置、终端及计算机可读存储介质 |
CN107657017A (zh) * | 2017-09-26 | 2018-02-02 | 百度在线网络技术(北京)有限公司 | 用于提供语音服务的方法和装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9493130B2 (en) * | 2011-04-22 | 2016-11-15 | Angel A. Penilla | Methods and systems for communicating content to connected vehicle users based detected tone/mood in voice input |
US10431215B2 (en) * | 2015-12-06 | 2019-10-01 | Voicebox Technologies Corporation | System and method of conversational adjustment based on user's cognitive state and/or situational state |
US11380438B2 (en) * | 2017-09-27 | 2022-07-05 | Honeywell International Inc. | Respiration-vocalization data collection system for air quality determination |
-
2018
- 2018-07-11 CN CN201810756067.6A patent/CN110719544A/zh not_active Withdrawn
-
2019
- 2019-07-08 US US16/505,088 patent/US20200020335A1/en not_active Abandoned
- 2019-07-11 GB GB1909950.6A patent/GB2577157A/en not_active Withdrawn
- 2019-07-11 DE DE102019118800.8A patent/DE102019118800A1/de not_active Ceased
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110179003A1 (en) * | 2010-01-21 | 2011-07-21 | Korea Advanced Institute Of Science And Technology | System for Sharing Emotion Data and Method of Sharing Emotion Data Using the Same |
CN102637433A (zh) * | 2011-02-09 | 2012-08-15 | 富士通株式会社 | 识别语音信号中所承载的情感状态的方法和系统 |
CN105874405A (zh) * | 2013-12-11 | 2016-08-17 | Lg电子株式会社 | 智能家用电器、其操作方法及使用智能家用电器的语音识别系统 |
CN106682090A (zh) * | 2016-11-29 | 2017-05-17 | 上海智臻智能网络科技股份有限公司 | 主动交互实现装置、方法及智能语音交互设备 |
CN107393529A (zh) * | 2017-07-13 | 2017-11-24 | 珠海市魅族科技有限公司 | 语音识别方法、装置、终端及计算机可读存储介质 |
CN107657017A (zh) * | 2017-09-26 | 2018-02-02 | 百度在线网络技术(北京)有限公司 | 用于提供语音服务的方法和装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112325460A (zh) * | 2020-10-15 | 2021-02-05 | 珠海格力电器股份有限公司 | 一种空调器的控制方法、控制系统及空调器 |
Also Published As
Publication number | Publication date |
---|---|
GB201909950D0 (en) | 2019-08-28 |
US20200020335A1 (en) | 2020-01-16 |
GB2577157A (en) | 2020-03-18 |
DE102019118800A1 (de) | 2020-01-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110719544A (zh) | 提供vui特定回应的方法及其应用在智能音箱 | |
JP6751122B2 (ja) | ページ制御方法および装置 | |
CN107657017B (zh) | 用于提供语音服务的方法和装置 | |
KR101577607B1 (ko) | 상황 및 의도인지 기반의 언어 표현 장치 및 그 방법 | |
US11494161B2 (en) | Coding system and coding method using voice recognition | |
US11017770B2 (en) | Vehicle having dialogue system and control method thereof | |
KR102081925B1 (ko) | 디스플레이 디바이스 및 스피치 검색 방법 | |
US8682640B2 (en) | Self-configuring language translation device | |
CN109346078B (zh) | 语音交互方法、装置以及电子设备、计算机可读介质 | |
US20220148576A1 (en) | Electronic device and control method | |
US20130091429A1 (en) | Apparatus, and associated method, for cognitively translating media to facilitate understanding | |
WO2011053549A1 (en) | Transforming components of a web page to voice prompts | |
CN112735418B (zh) | 一种语音交互的处理方法、装置、终端及存储介质 | |
WO2012094422A2 (en) | A voice based system and method for data input | |
CN109710799B (zh) | 语音交互方法、介质、装置和计算设备 | |
KR20150077580A (ko) | 음성 인식 기반 서비스 제공 방법 및 그 장치 | |
CN112256827A (zh) | 一种手语翻译方法、装置、计算机设备及存储介质 | |
CN202758609U (zh) | 可语音控制的点歌系统 | |
CN112380865A (zh) | 识别文本中的实体方法、装置及存储介质 | |
CN116955704A (zh) | 搜索方法、装置、设备及计算机可读存储介质 | |
CN112201225B (zh) | 一种语料获取的方法、装置、可读存储介质和电子设备 | |
CN112951274A (zh) | 语音相似度确定方法及设备、程序产品 | |
US12087294B2 (en) | Device and method for providing recommended sentence related to utterance input of user | |
US11798542B1 (en) | Systems and methods for integrating voice controls into applications | |
KR20050040983A (ko) | 음성을 이용한 웹 브라우징 시스템 및 제어방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20200121 |
|
WW01 | Invention patent application withdrawn after publication |