CN114765026A - 一种语音控制方法、装置及系统 - Google Patents
一种语音控制方法、装置及系统 Download PDFInfo
- Publication number
- CN114765026A CN114765026A CN202011634181.5A CN202011634181A CN114765026A CN 114765026 A CN114765026 A CN 114765026A CN 202011634181 A CN202011634181 A CN 202011634181A CN 114765026 A CN114765026 A CN 114765026A
- Authority
- CN
- China
- Prior art keywords
- wake
- word
- awakening
- data
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 85
- 238000012545 processing Methods 0.000 claims description 75
- 230000006870 function Effects 0.000 claims description 54
- 238000004891 communication Methods 0.000 claims description 46
- 230000006854 communication Effects 0.000 claims description 46
- 230000015572 biosynthetic process Effects 0.000 claims description 40
- 238000003786 synthesis reaction Methods 0.000 claims description 40
- 230000004044 response Effects 0.000 claims description 34
- 230000003321 amplification Effects 0.000 claims description 19
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 19
- 230000002194 synthesizing effect Effects 0.000 claims description 17
- 230000002618 waking effect Effects 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000012544 monitoring process Methods 0.000 claims description 8
- 238000013434 data augmentation Methods 0.000 claims description 3
- 239000004973 liquid crystal related substance Substances 0.000 claims description 2
- 230000008859 change Effects 0.000 abstract description 11
- 230000001976 improved effect Effects 0.000 abstract description 5
- 230000000875 corresponding effect Effects 0.000 description 114
- 238000013461 design Methods 0.000 description 64
- 238000007726 management method Methods 0.000 description 57
- 239000010410 layer Substances 0.000 description 47
- 238000010586 diagram Methods 0.000 description 32
- 230000008569 process Effects 0.000 description 14
- 230000009471 action Effects 0.000 description 13
- 238000010295 mobile communication Methods 0.000 description 12
- 230000005236 sound signal Effects 0.000 description 12
- 238000004590 computer program Methods 0.000 description 10
- 230000035945 sensitivity Effects 0.000 description 10
- 230000001360 synchronised effect Effects 0.000 description 10
- 230000000694 effects Effects 0.000 description 8
- 230000003993 interaction Effects 0.000 description 8
- 238000001514 detection method Methods 0.000 description 7
- 238000012986 modification Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 238000013500 data storage Methods 0.000 description 4
- 229920001621 AMOLED Polymers 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 3
- 238000010367 cloning Methods 0.000 description 3
- 241000219357 Cactaceae Species 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 238000010187 selection method Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241001417527 Pempheridae Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007175 bidirectional communication Effects 0.000 description 1
- 238000013529 biological neural network Methods 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000004020 conductor Substances 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 239000012792 core layer Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000002096 quantum dot Substances 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 230000008093 supporting effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
- G10L17/24—Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Telephonic Communication Services (AREA)
Abstract
本申请提供一种语音控制方法、装置及系统,电子设备在进行唤醒决策时,同一唤醒词或者不同唤醒词在不同的使用场景下使用不同的唤醒阈值,从而唤醒阈值跟随使用场景的变化,能够满足用户在不同的使用场景下的唤醒需求,提升用户体验。用户可以通过管理设备为不同的电子设备配置相同或者不同的唤醒词,也可以通过管理设备进行自定义唤醒词,为自定义唤醒词配置不同的使用场景(比如使用模式或者设备模式等),进一步满足用户在不同的使用场景下的唤醒需求。
Description
技术领域
本申请实施例涉及语音控制技术领域,尤其涉及一种语音控制方法、装置及系统。
背景技术
随着移动设备的快速发展,语音交互变的越来越流行。目前大多数电子设备提供语音助手使用语音对设备进行操作。而进行语音交互前,往往需要唤醒词唤醒设备,之后再进行语音识别的交互。因此,语音唤醒作为人机交互的入口,其易用性和准确率至关重要。
目前电子设备一般采用固有的唤醒词来唤醒,在一定程度上无法满足用户对电子设备的唤醒需求。
发明内容
本申请实施例提供一种语音控制方法、装置及系统,以满足用户对电子设备的唤醒需求。
第一方面,本申请提供一种语音控制方法,比如该方法可由第一电子设备实现或者第一电子设备的芯片或者芯片系统。该方法包括:监听语音信息;确定语音信息中包含第一唤醒词的概率大于第一唤醒阈值时,执行在第一使用场景下所述第一唤醒词对应的唤醒第一电子设备的第一操作;所述第一唤醒词是配置于所述第一电子设备中在所述第一使用场景下的唤醒词,所述第一唤醒阈值是所述第一唤醒词在所述第一使用场景下的唤醒阈值;不同的使用场景下的唤醒阈值不同。确定所述语音信息中包含第二唤醒词的概率大于第二唤醒阈值时,执行在第二使用场景下所述第二唤醒词对应的唤醒所述第一电子设备的第二操作;所述第二唤醒词是配置于所述第一电子设备中的在所述第二使用场景下的唤醒词,所述第二唤醒阈值是所述第二唤醒词在所述第二使用场景下的唤醒阈值;其中,第一唤醒阈值不同于第二唤醒阈值。通过上述方案,在不同的使用场景下的唤醒阈值不同,从而唤醒阈值跟随使用场景的变化而变化,能够满足用户在不同的使用场景下的唤醒需求,提升用户体验。
在一种可能的设计中,第一唤醒词与第二唤醒词相同,或者,所述第一唤醒词不同于所述第二唤醒词。
例如,第一唤醒词与第二唤醒词不同时,不同的唤醒词对应的使用场景可以不同。进而第一电子设备可以通过唤醒词来确定使用场景。
在一种可能的设计中,所述第一电子设备接入第一局域网时,所述第一电子设备的使用场景为所述第一使用场景;所述第一电子设备接入第二局域网时,所述第一电子设备的使用场景为所述第二使用场景;或者,所述第一电子设备位于第一位置区域时,所述第一电子设备的使用场景为所述第一使用场景,所述第一电子设备处于第二位置区域时,所述第一电子设备的使用场景为所述第二使用场景。
上述设计中,针对同一唤醒词或者不同唤醒词,不同的使用场景对应不同的局域网或者不同的使用场景对应不同的位置区域,从而电子设备可以根据当前接入局域网或者位置区域确定当前的使用场景。从而不同的位置区域或者不同的局域网使用不同的使用场景,进一步实现根据用户需求自动切换唤醒词的唤醒阈值,提升用户体验。
在一种可能的设计中,确定语音信息中包含第一唤醒词的概率大于第一唤醒阈值之前,所述方法还包括:获取用户输入的信息,所述信息包括所述第一唤醒词的唤醒词数据以及所述第一唤醒词的使用场景信息,所述使用场景信息指示的使用场景为所述第一使用场景;所述唤醒词数据和所述使用场景信息用于确定所述第一唤醒阈值。
上述设计,用户可以根据需求配置使用场景信息,提升用户体验。
在一种可能的设计中,用户输入的信息中还可以包括使用第一唤醒词的位置区域信息、时间段信息或者无线局域网信息中的一项或者多项。
在一种可能的设计中,电子设备可以关联保存第一唤醒词的位置区域信息、时间段信息或者无线局域网信息,与第一唤醒词、第一唤醒阈值以及使用场景信息。
在一种可能的设计中,所述方法还包括:将包括所述唤醒词数据和所述使用场景信息的用户输入的信息发送给服务器;接收来自所述服务器根据所述唤醒词数据和所述使用场景信息确定的所述第一唤醒阈值。
上述设计中,通过服务器来实现唤醒阈值的确定,减少电子设备资源的占用。
在一种可能的设计中,所述方法还包括:根据所述使用场景信息对所述唤醒词数据进行合成处理得到合成语音数据集;根据合成语音数据集确定所述第一唤醒词在第一使用场景下的第一唤醒阈值。
上述设计中,通过使用场景信息来实现合成用于确定唤醒阈值的数据,从而使得唤醒阈值跟随使用场景变化,灵活性较高。
在一种可能的设计中,所述使用场景信息包括使用模式和/或设备模式;其中,所述使用模式指示私有模式或者公有模式,所述私有模式用于指示所述第一唤醒词适配一个私有用户,所述公有模式用于指示所述第一唤醒词适配多个用户;所述设备模式指示近讲模式或者远讲模式,所述近讲模式的唤醒距离小于所述远讲模式的唤醒距离;所述唤醒距离为声源与所述第一电子设备之间的距离。
在一种可能的设计中,所述使用场景信息包括所述使用模式,所述使用模式指示公有模式,根据所述使用场景信息对所述唤醒词数据进行合成处理得到合成语音数据集,包括:若所述唤醒词数据为文本格式,对所述唤醒词数据进行文本到语音TTS处理得到第一语音数据,对所述第一语音数据进行数据增广处理得到多个第一语音合成数据,所述合成数据集包括所述多个第一语音合成数据和所述第一语音数据;或者,若所述唤醒词数据为语音格式,对所述唤醒词数据进行数据增广处理得到多个第二语音合成数据;所述合成数据集包括所述多个第二语音合成数据和所述唤醒词数据。
上述设计中,通过对数据进行增广处理,来保证数据的多样性,比如改变生成数据的语气、情感和语调等状态,生成不同噪声、混响、语速和音量的数据等。
在一种可能的设计中,所述使用场景信息包括所述使用模式,所述使用模式指示私有模式,所述唤醒词数据为语音格式;根据所述使用场景信息对所述唤醒词数据进行合成处理得到合成语音数据集,包括:对所述唤醒词数据进行声音克隆处理得到多个第三语音合成数据;所述合成数据集包括所述多个第三语音合成数据和所述唤醒词数据。上述设计中,通过声音克隆技术来生成模仿用户的声音的数据,为确定唤醒阈值增加有效数据,提升确定的唤醒阈值的正确率。
在一种可能的设计中,所述使用场景信息包括使用模式和设备模式,所述使用模式指示公有模式,所述设备模式指示远讲模式;根据所述使用场景信息对所述唤醒词数据进行合成处理得到合成语音数据集,包括:所述唤醒词数据为文本格式的情况下,对所述唤醒词数据进行TTS处理得到第二语音数据,对所述第二语音数据进行数据增广处理得到多个第四语音合成数据,并对所述第四语音合成数据和所述第二语音数据转换为远讲语音得到所述合成语音数据集;或者,所述唤醒词数据为语音格式的情况下,对所述唤醒词数据进行数据增广处理得到多个第五语音合成数据,并对所述第四语音合成数据和所述唤醒词数据转换为远讲语音得到所述合成语音数据集。
在一种可能的设计中,获取用户输入的信息,包括:显示第一用户界面,所述第一用户界面包括用于用户输入第一唤醒词的输入控件和用于选择所述第一唤醒词的使用场景的第一选择控件;响应于用户通过输入控件输入的第一唤醒词以及通过所述第一选择控件选择第一使用场景的操作,则获取所述唤醒词数据以及所述第一唤醒词的使用场景信息。
在一种可能的设计中,所述方法还包括:显示控制主界面,所述控制主界面包括用于添加自定义的唤醒词的第一选项;响应于用户选择所述第一选项的操作,显示所述第一用户界面。
在一种可能的设计中,所述控制主界面还包括用于选择对所述第一电子设备定义的N个唤醒词进行管理的第二选项;响应于用于选择第二选项的操作,显示第三用户界面;其中,所述第三用户界面包括N个唤醒词选项,不同的唤醒词选项用于选择不同的唤醒词;所述第三用户界面还包括用于选择每个唤醒词对应的使用场景的第二选择控件。
上述设计,支持唤醒词的选择,提升用户体验。
在一种可能的设计中,所述确定语音信息中包含第一唤醒词的概率大于第一唤醒阈值,包括:根据概率补偿值集合确定所述语音信息中包括第一唤醒词的概率大于所述第一唤醒阈值;其中,所述概率补偿值集合包括在所述第一使用场景下用于确定语音信息中是否包括所述第一唤醒词的N1个建模单元的概率补偿值,N1为正整数;第一建模单元的概率补偿值用于在确定所述语音信息中包括所述第一建模单元的声学后验概率时,补偿所述第一建模单元的声学后验概率,所述第一建模单元的声学后验概率用于确定所述第一唤醒词的概率,所述第一建模单元为所述N1个建模单元中的任一个。
上述设计,通过对建模单元进行概率补偿的方式来修正唤醒模型,简单且有效。
在一种可能的设计中,所述方法还包括:根据所述合成语音数据集确定所述第一唤醒词在第一使用场景下的概率补偿值集合;其中,所述合成语音数据集是根据用于输入的用于指示第一使用场景的使用场景信息对用户输入的第一唤醒词的唤醒词数据进行合成处理得到的。
在一种可能的设计中,所述方法还包括:接收服务器发送的所述第一唤醒词在第一使用场景下的概率补偿值集合。
在一种可能的设计中,所述根据合成语音数据集确定所述第一唤醒词在第一使用场景下的概率补偿值集合,所述合成语音数据集包括K个合成语音信息,包括:提取所述K个合成语音数据中每个基本计算单元的语音特征信息;根据每个基本计算单元的语音特征数据确定M个基本计算单元对应的建模单元的声学后验概率;所述M个基本计算单元对应的建模单元为所述第一唤醒词包括的建模单元;获取M个基本计算单元对应于第j个建模单元的声学后验概率的平均值;所述第i个建模单元为所述N1个建模单元中的第j个,j取遍小于或者等于N1的正整数;获取N1个建模单元的声学后验概率的平均值中的最大值;根据所述第j个建模单元的声学后验概率的平均值和所述最大值获得所述第j个建模单元的概率补偿值。
在一种可能的设计中,根据所述合成语音数据集确定所述第一唤醒词在第一使用场景下的第一唤醒阈值,包括:根据所述第j个建模单元的概率补偿值,对所述M个基本计算单元对应于第j个建模单元的声学后验概率进行概率补偿得到第j个建模单元的补偿后的声学后验概率,j取遍小于或者等于N1的正整数;根据N1个建模单元的补偿后的声学后验概率确定所述合成语音数据集包括所述第一唤醒词的概率,所述合成语音数据集中包括所述第一唤醒词的概率用于确定所述第一唤醒阈值。
在一种可能的设计中,所述确定语音信息中包含第一唤醒词的概率大于第一唤醒阈值之前,所述方法还包括:接收服务器发送的控制消息,所述控制消息包括所述第一唤醒词、用于指示第一唤醒词的第一使用场景的使用场景信息以及所述第一唤醒词在第一使用场景下的第一唤醒阈值。
在一种可能的设计中,确定语音信息中包含第一唤醒词的概率大于第一唤醒阈值,包括:通过框架层对象接收麦克风检测到的所述语音信息;通过所述框架层对象确定配置于所述第一电子设备的至少一个唤醒词和所述至少一个唤醒词分别对应的使用场景信息,所述至少一个唤醒词包括所述第一唤醒词;通过框架层对象获取存储的每个唤醒词的使用场景信息对应的唤醒阈值;通过框架层对象确定所述语音信息包括所述第一唤醒词的概率大于所述第一唤醒阈值且所述语音信息包括其它唤醒词的概率小于或者等于所述其它唤醒词的唤醒阈值。
第二方面,本申请实施例还提供一种语音控制装置,应用于电子设备中。比如语音控制装置可以是电子设备或者是应用于电子设备的芯片或芯片系统。语音控制装置包括相应的功能模块,分别用于实现以上方法中的步骤,具体参见方法示例中的详细描述,此处不做赘述。功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块。例如,语音控制装置包括监听模块和处理模块。监听模块,用于监听语音信息;处理模块,用于确定语音信息中包含第一唤醒词的概率大于第一唤醒阈值时,执行在第一使用场景下所述第一唤醒词对应的唤醒第一电子设备的第一操作;所述第一唤醒词是配置于所述第一电子设备中在所述第一使用场景下的唤醒词,所述第一唤醒阈值是所述第一唤醒词在所述第一使用场景下的唤醒阈值;或者,处理模块,用于确定所述语音信息中包含第二唤醒词的概率大于第二唤醒阈值时,执行在第二使用场景下所述第二唤醒词对应的唤醒所述第一电子设备的第二操作;所述第二唤醒词是配置于所述第一电子设备中的在所述第二使用场景下的唤醒词,所述第二唤醒阈值是所述第二唤醒词在所述第二使用场景下的唤醒阈值;其中,第一唤醒阈值不同于第二唤醒阈值。
第三方面,本申请实施例提供一种语音控制装置,包括存储器、处理器;所述存储器,用于存储程序或指令;所述处理器,用于调用所述程序或指令,以使得所述装置执行第一方面或者第一方面的任一设计所述的方法。
第四方面,本申请实施例一种语音控制方法,包括:向所述第一电子设备配置第一唤醒词以及所述第一唤醒词对应的第一唤醒阈值,所述第一唤醒阈值是所述第一唤醒词在第一使用场景下的唤醒阈值;向所述第一电子设备配置第二唤醒词以及所述第二唤醒词对应的第二唤醒阈值;所述第二唤醒阈值是所述第二唤醒词在第二使用场景下的唤醒阈值;其中,第一唤醒阈值不同于第二唤醒阈值。
在一种可能的设计中,在一种可能的设计中,所述第一唤醒词与所述第二唤醒词不同。
在一种可能的设计中,所述方法还包括:向所述第三电子设备配置第三唤醒词以及所述第三唤醒词对应的第三唤醒阈值,所述第三唤醒阈值是所述第三唤醒词在第三使用场景下的唤醒阈值。
上述设计中,不同的电子设备配置不同的唤醒词和唤醒阈值,减少误唤醒。
在一种可能的设计中,所述方法还包括:获取用户输入的信息,所述信息包括所述第一唤醒词的唤醒词数据以及所述第一唤醒词的使用场景信息,所述使用场景信息指示的使用场景为所述第一使用场景;根据所述使用场景信息对所述唤醒词数据进行合成处理得到合成语音数据集;根据合成语音数据集确定所述第一唤醒词在第一使用场景下的第一唤醒阈值。
在一种可能的设计中,所述方法还包括:根据合成语音数据集确定所述第一唤醒词在第一使用场景下的概率补偿值集合;其中,所述合成语音数据集是根据用户输入的用于指示第一使用场景的使用场景信息对用户输入的第一唤醒词的唤醒词数据进行合成处理得到的。并将所述概率补偿值集合发送给所述第一电子设备。
在一种可能的设计中,根据合成语音数据集确定所述第一唤醒词在第一使用场景下的概率补偿值集合,包括:提取所述K个合成语音数据中每个基本计算单元的语音特征信息;根据每个基本计算单元的语音特征数据确定M个基本计算单元对应的建模单元的声学后验概率;所述M个基本计算单元对应的建模单元为所述第一唤醒词包括的建模单元;获取M个基本计算单元对应于第j个建模单元的声学后验概率的平均值;所述第j个建模单元为所述N1个建模单元中的第j个,j取遍小于或者等于N1的正整数;获取N1个建模单元的声学后验概率的平均值中的最大值;根据所述第j个建模单元的声学后验概率的平均值和所述最大值获得所述第j个建模单元的概率补偿值。
在一种可能的设计中,根据合成语音数据集确定所述第一唤醒词在第一使用场景下的第一唤醒阈值,包括:根据所述第j个建模单元的概率补偿值,对所述M个基本计算单元对应于第j个建模单元的声学后验概率进行概率补偿得到第j个建模单元的补偿后的声学后验概率,j取遍小于或者等于N1的正整数;根据N1个建模单元的补偿后的声学后验概率确定所述合成语音数据集包括所述第一唤醒词的概率,所述合成语音数据集中包括所述第一唤醒词的概率用于确定所述第一唤醒阈值。
第五方面,本申请实施例还提供一种语音控制装置,可以应用于管理设备,比如语音控制装置可以是管理设备或者是应用于管理设备的芯片或者芯片系统。管理设备可以是电子设备或者服务器。语音控制装置包括相应的功能模块,分别用于实现以上第四方面或者第四方面任一种设计的方法中的步骤,具体参见方法示例中的详细描述,此处不做赘述。功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块。
第六方面,本申请实施例提供一种语音控制装置,包括存储器、处理器;所述存储器,用于存储程序或指令;所述处理器,用于调用所述程序或指令,以使得所述装置执行第四方面或者第四方面的任一设计所述的方法。
第七方面,本申请提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序或指令,当计算机程序或指令被电子设备执行时,使得该电子设备执行上述第一方面或第一方面的任意可能的设计中的方法,或者使得该电子设备执行上述第四方面或第四方面的任意可能的设计中的方法。
第八方面,本申请提供一种计算机程序产品,该计算机程序产品包括计算机程序或指令,当该计算机程序或指令被电子设备执行时,实现上述第一方面或第一方面的任意可能的实现方式中的方法,或者实现上述第四方面或第四方面的任意可能的设计中的方法。
第九方面,本申请实施例提供一种语音控制系统,包括管理设备、第一电子设备,所述管理设备与所述第一电子设备建立通信连接;管理设备,用于向所述第一电子设备配置第一唤醒词以及所述第一唤醒词对应的第一唤醒阈值,所述第一唤醒阈值是所述第一唤醒词在第一使用场景下的唤醒阈值;所述第一电子设备,用于监听到第一语音信息包括所述第一唤醒词的概率大于第一唤醒阈值时,执行在第一使用场景下所述第一唤醒词对应的唤醒所述第一电子设备的第一操作;管理设备,还用于向所述第一电子设备配置第二唤醒词以及所述第二唤醒词对应的第二唤醒阈值;所述第二唤醒阈值是所述第二唤醒词在第二使用场景下的唤醒阈值;所述第一电子设备,还用于监听到第二语音信息包括所述第二唤醒词的概率大于第二唤醒阈值时,执行在第二使用场景下所述第二唤醒词对应的唤醒所述第二电子设备的第二操作;其中,第一唤醒阈值不同于第二唤醒阈值。
在一种可能的设计中,所述第一唤醒词与所述第二唤醒词不同。
在一种可能的设计中,所述第一电子设备接入第一局域网时,所述第一电子设备的使用场景为所述第一使用场景;所述第一电子设备接入第二局域网时,所述第一电子设备的使用场景为所述第二使用场景;或者,所述第一电子设备位于第一位置区域时,所述第一电子设备的使用场景为所述第一使用场景,所述第一电子设备处于第二位置区域时,所述第一电子设备的使用场景为所述第二使用场景。
在一种可能的设计中,所述管理设备为第二电子设备,所述第二电子设备,还用于:确定第一语音信息中包含第一唤醒词的概率大于第一唤醒阈值之前,获取用户输入的信息,所述信息包括所述第一唤醒词的唤醒词数据以及所述第一唤醒词的使用场景信息,所述使用场景信息指示的使用场景为所述第一使用场景;根据所述唤醒词数据和所述使用场景信息确定所述第一唤醒阈值,并将所述第一唤醒阈值发送给所述第一电子设备。
上述设计中,不同的电子设备配置相同的唤醒词和唤醒阈值。从而实现用户可以同时唤醒多个电子设备。
在一种可能的设计中,所述管理设备为服务器,所述系统还包括第三电子设备;所述管理设备,还用于向所述第三电子设备配置第三唤醒词以及所述第三唤醒词对应的第三唤醒阈值,所述第三唤醒阈值是所述第三唤醒词在第三使用场景下的唤醒阈值;所述第三电子设备,还用于监听到第三语音信息包括所述第三唤醒词的概率大于第三唤醒阈值时,执行在第三使用场景下所述第三唤醒词对应的唤醒所述第三电子设备的第三操作;其中,第三唤醒阈值不同于第一唤醒阈值和所述第二唤醒阈值。
上述设计中,不同的电子设备配置不同的唤醒词和唤醒阈值,减少误唤醒。
在一种可能的设计中,所述管理设备为服务器,所述系统还包括第四电子设备;所述第四电子设备,用于获取用户输入的信息,所述信息包括所述第一唤醒词的唤醒词数据以及所述第一唤醒词的使用场景信息,所述使用场景信息指示的使用场景为所述第一使用场景;用于将所述用户输入的信息发送给所述服务器;所述服务器,用于根据所述唤醒词数据和所述使用场景信息确定所述第一唤醒阈值,并将所述第一唤醒阈值发送给所述第一电子设备。
在一种可能的设计中,所述用户输入的信息中还包括所述第一唤醒词作用的电子设备信息,所述电子设备信息指示所述第一电子设备。
在一种可能的设计中,所述系统还包括第五电子设备;所述电子设备信息还指示所述第五电子设备;所述服务器,还用于将所述第一唤醒词和所述第一唤醒阈值发送给所述第五电子设备。
在一种可能的设计中,所述服务器,具体用于:根据所述使用场景信息对所述唤醒词数据进行合成处理得到合成语音数据集;根据合成语音数据集确定所述第一唤醒词在第一使用场景下的第一唤醒阈值。
在一种可能的设计中,所述使用场景信息包括使用模式和/或设备模式;其中,所述使用模式指示私有模式或者公有模式,所述私有模式用于指示所述第一唤醒词适配一个私有用户,所述公有模式用于指示所述第一唤醒词适配多个用户;所述设备模式指示近讲模式或者远讲模式,所述近讲模式的唤醒距离小于所述远讲模式的唤醒距离;所述唤醒距离为声源与所述第一电子设备之间的距离。
在一种可能的设计中,所述使用场景信息包括所述使用模式,所述使用模式指示公有模式,所述服务器,具体用于:若所述唤醒词数据为文本格式,对所述唤醒词数据进行文本到语音TTS处理得到第一语音数据,对所述第一语音数据进行数据增广处理得到多个第一语音合成数据,所述合成数据集包括所述多个第一语音合成数据和所述第一语音数据;或者,若所述唤醒词数据为语音格式,对所述唤醒词数据进行数据增广处理得到多个第二语音合成数据;所述合成数据集包括所述多个第二语音合成数据和所述唤醒词数据。
在一种可能的设计中,所述使用场景信息包括所述使用模式,所述使用模式指示私有模式,所述唤醒词数据为语音格式;所述服务器,具体用于:对所述唤醒词数据进行声音克隆处理得到多个第三语音合成数据;所述合成数据集包括所述多个第三语音合成数据和所述唤醒词数据。
在一种可能的设计中,所述使用场景信息包括使用模式和设备模式,所述使用模式指示公有模式,所述设备模式指示远讲模式;所述服务器,具体用于:所述唤醒词数据为文本格式的情况下,对所述唤醒词数据进行TTS处理得到第二语音数据,对所述第二语音数据进行数据增广处理得到多个第四语音合成数据,并对所述第四语音合成数据和所述第二语音数据转换为远讲语音得到所述合成语音数据集;或者,所述唤醒词数据为语音格式的情况下,对所述唤醒词数据进行数据增广处理得到多个第五语音合成数据,并对所述第四语音合成数据和所述唤醒词数据转换为远讲语音得到所述合成语音数据集。
在一种可能的设计中,管理设备,具体用于根据合成语音数据集确定所述第一唤醒词在第一使用场景下的概率补偿值集合;其中,所述合成语音数据集是根据用户输入的用于指示第一使用场景的使用场景信息对用户输入的第一唤醒词的唤醒词数据进行合成处理得到的。
第一电子设备,具体用于根据概率补偿值集合确定所述语音信息中包括第一唤醒词的概率大于所述第一唤醒阈值;其中,所述概率补偿值集合包括在所述第一使用场景下用于确定语音信息中是否包括所述第一唤醒词的N1个建模单元的概率补偿值,N1为正整数;第一建模单元的概率补偿值用于在确定所述语音信息中包括所述第一建模单元的声学后验概率时,补偿所述第一建模单元的声学后验概率,所述第一建模单元的声学后验概率用于确定所述第一唤醒词的概率,所述第一建模单元为所述N1个建模单元中的任一个。上述设计,通过对建模单元进行概率补偿的方式来修正唤醒模型,简单且有效。
在一种可能的设计中,所述管理设备具体用于提取所述K个合成语音数据中每个基本计算单元的语音特征信息;根据每个基本计算单元的语音特征数据确定M个基本计算单元对应的建模单元的声学后验概率;所述M个基本计算单元对应的建模单元为所述第一唤醒词包括的建模单元;获取M个基本计算单元对应于第j个建模单元的声学后验概率的平均值;所述第j个建模单元为所述N1个建模单元中的第j个,j取遍小于或者等于N1的正整数;获取N1个建模单元的声学后验概率的平均值中的最大值;根据所述第j个建模单元的声学后验概率的平均值和所述最大值获得所述第j个建模单元的概率补偿值。
在一种可能的设计中,所述管理设备根据所述第j个建模单元的概率补偿值,对所述M个基本计算单元对应于第j个建模单元的声学后验概率进行概率补偿得到第j个建模单元的补偿后的声学后验概率,j取遍小于或者等于N1的正整数;根据N1个建模单元的补偿后的声学后验概率确定所述合成语音数据集包括所述第一唤醒词的概率,所述合成语音数据集中包括所述第一唤醒词的概率用于确定所述第一唤醒阈值。
在一种可能的设计中,第一电子设备,在确定语音信息中包含第一唤醒词的概率大于第一唤醒阈值时,具体用于通过框架层对象接收麦克风检测到的所述语音信息;通过所述框架层对象确定配置于所述第一电子设备的至少一个唤醒词和所述至少一个唤醒词分别对应的使用场景信息,所述至少一个唤醒词包括所述第一唤醒词;通过框架层对象获取存储的每个唤醒词的使用场景信息对应的唤醒阈值;通过框架层对象确定所述语音信息包括所述第一唤醒词的概率大于所述第一唤醒阈值且所述语音信息包括其它唤醒词的概率小于或者等于所述其它唤醒词的唤醒阈值。
在一种可能的设计中,所述第四电子设备,具体用于:显示第一用户界面,所述第一用户界面包括用于用户输入第一唤醒词的输入控件和用于选择所述第一唤醒词的使用场景的第一选择控件;响应于用户通过输入控件输入的第一唤醒词以及通过所述第一选择控件选择第一使用场景的操作,则获取所述唤醒词数据以及所述第一唤醒词的使用场景信息。
在一种可能的设计中,所述管理设备为服务器,所述第四电子设备,还用于:显示第二用户界面,所述第二用户界面包括用于添加自定义的唤醒词的第一选项;响应于用户选择所述第一选项的操作,显示所述第一用户界面。
在一种可能的设计中,所述管理设备为服务器,所述系统还包括第四电子设备;所述第四电子设备,用于显示第三用户界面,所述第三用户界面包括用于选择对所述第一电子设备定义的N个唤醒词进行管理的第二选项;响应于用于选择第二选项的操作,显示第四用户界面;其中,所述第四用户界面包括N个唤醒词选项,不同的唤醒词选项用于选择不同的唤醒词,所述N个唤醒词选项包括所述第一唤醒词的选项;所述第四电子设备,还用于响应于选择第二唤醒词的选项,向所述管理设备发送控制信息,所述控制信息用于指示为所述第一电子设备配置第二唤醒词;所述管理设备,具体用于根据所述控制信息,向所述第一电子设备配置第二唤醒词以及所述第二唤醒词对应的第二唤醒阈值。
本申请实施例中,通过终端设备可以对电子设备的唤醒词进行自定义,并且针对唤醒词可以配置私有模式或者公有模式,比如电子设备为手机,可以采用私有模式,比如电子设备为家居设备,可以采用公有模式,支持了对电子设备的唤醒词进行修改。
上述第二方面至第九方面中任一方面可以达到的技术效果可以参照上述第一方面中有益效果的描述,此处不再重复赘述。
附图说明
图1为本申请实施例中一种可能的语音控制系统架构示意图;
图2为本申请实施例中一种可能的电子设备100结构示意图;
图3为本申请实施例中一种可能的终端设备200结构示意图;
图4A为本申请实施例中一种可能的终端设备200的软件结构示意图;
图4B为本申请实施例中另一种可能的终端设备200的软件结构示意图;
图5为本申请实施例中一种可能的语音控制系统的逻辑架构示意图;
图6为本申请实施例第一种可能的应用场景下第一种用户界面示意图;
图7A为本申请实施例第一种可能的应用场景下第二种用户界面示意图;
图7B为本申请实施例第一种可能的应用场景下第三种用户界面示意图;
图7C为本申请实施例第一种可能的应用场景下第四种用户界面示意图;
图8A为本申请实施例第一种可能的应用场景下第五种用户界面示意图;
图8B为本申请实施例第一种可能的应用场景下第六种用户界面示意图;
图8C为本申请实施例第一种可能的应用场景下第七种用户界面示意图;
图8D为本申请实施例第一种可能的应用场景下第八种用户界面示意图;
图8E为本申请实施例第一种可能的应用场景下第九种用户界面示意图;
图8F为本申请实施例第一种可能的应用场景下第十种用户界面示意图;
图9为本申请实施例中确定唤醒阈值的流程示意图;
图10为本申请实施例第二种可能的应用场景下第一种用户界面示意图;
图11为本申请实施例第二种可能的应用场景下第二种用户界面示意图;
图12A为本申请实施例第二种可能的应用场景下第三种用户界面示意图;
图12B为本申请实施例第二种可能的应用场景下第四种用户界面示意图;
图12C为本申请实施例第二种可能的应用场景下第五种用户界面示意图;
图13为本申请实施例第二种可能的应用场景下第六种用户界面示意图;
图14为本申请实施例第二种可能的应用场景下第七种用户界面示意图;
图15为本申请实施例语音控制方法流程示意图;
图16为本申请实施例语音控制装置1600结构示意图;
图17为本申请实施例语音控制装置1700结构示意图。
具体实施方式
下面将结合附图对本申请实施例中的技术方案进行清除、详尽地描述。
以下,先对本申请实施例中的部分用语进行解释说明,以便于本领域技术人员理解。
1)自定义唤醒词的使用模式,可以包括私有模式和公有模式。私有模式也可以称为私人模式,或者采用其它的称呼,本申请对此不作具体限定。私有模式是指一个电子设备由一个用户单独使用。自定义唤醒词仅用于私有用户,其它用户使用该唤醒词无法唤醒该电子设备。公有模式是也可以称为共有模式,或者采用其它的称呼,本申请对此不作具体限定。公有模式下一个电子设备可以被多个人共同使用,比如智能家居设备,例如智能电视、智能音箱、智能窗帘等等。一个自定义唤醒词,在共有模式下,多个用户均可以唤醒该电子设备。
2)设备模式,可以包括近讲模式和远讲模式。近讲模式是指电子设备在近距离使用的情况,使用唤醒词可以被唤醒,比如30厘米以内距离。远讲模式是指电子设备在远距离使用的情况下,使用唤醒词唤醒该电子设备时,该电子设备能够被唤醒,比如1~3米。
近讲模式与远讲模式是相对的,比如针对同一个唤醒词以及同一个电子设备,采用远讲模式时,在用户距离该电子设备超过一定距离时,依然能够唤醒该电子设备;而采用近讲模式时,在用户距离该电子设备超过一定距离时,可能无法唤醒该电子设备。
近讲模式也可以称为近场模式,远讲模式也可以称为远场模式,当然还可以命名为其它的名字,本申请实施例对此不作具体限定。
3)多设备协同模式,是指一个唤醒词可以配置给多个电子设备,即该多个电子设备可以共用一个唤醒词,当用户说出唤醒词时,可以唤醒多个电子设备。多设备协同模式也可以称为同步模式。
4)本申请实施例涉及的应用(application,app),为能够实现某项或多项特定功能的软件程序。通常,终端设备中可以安装多个应用。比如,相机应用、邮箱应用、耳机控制应用等。下文中提到的应用,可以是终端设备出厂时已安装的系统应用,也可以是用户在使用终端设备的过程中从网络下载或从其他终端设备获取的第三方应用。
5)本申请实施例涉及的唤醒阈值,也可以称为置信度阈值,或者采用其它的称呼。一个唤醒词的唤醒阈值用于指示决定唤醒电子设备时,所确定的语音数据包括该唤醒词的最小概率。即在检测到语音数据包括该唤醒词的概率大于或者等于该唤醒阈值,确定唤醒电子设备。
6)本申请实施例中“至少一个(项)”是指一个(项)或者多(项),“多个(项)”是指两个(项)或两个(项)以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B的情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a、b或c中的至少一项(个),可以表示:a、b、c、a-b、a-c、b-c或a-b-c,其中a、b、c可以是单个,也可以是多个。本申请中,符号“(a,b)”表示开区间,范围为大于a且小于b;“[a,b]”表示闭区间,范围为大于或等于a且小于或等于b;“(a,b]”表示半开半闭区间,范围为大于a且小于或等于b;“(a,b]”表示半开半闭区间,范围为大于a且小于或等于b。以及,除非有相反的说明,本申请实施例提及“第一”、“第二”等序数词是用于对多个对象进行区分,不用于限定多个对象的大小、内容、顺序、时序、优先级或者重要程度等。
本申请实施例提供的语音控制方法,可以应用到一个或者一组电子设备中,一组电子设备可以包括多个电子设备,多个电子设备均具备语音控制功能,多个设备采用的唤醒词可以相同也可以不同。目前,具备语音控制功能的设备通常会有一个固定的唤醒词,比如“小易小易”。在使用过程中,用户通过说出唤醒词“小易小易”实现对设备的唤醒。
本申请应用的第一种可能的应用场景中,可以实现用户根据需求为终端设备或者一个电子设备单独配置一个或者多个自定义唤醒词、以及自定义唤醒词所对应的属性(包括使用场景信息),比如自定义唤醒词对应的动作,比如设备启动。比如,自定义唤醒词为“小可小可”,用户通过说出唤醒词“小可小可”实现对终端设备或者电子设备的唤醒。
使用场景信息,用于指示该自定义唤醒词的使用场景,比如使用场景包括用户私有,再比如,使用场景包括多用户共有,再比如使用场景包括远距离唤醒,又比如,使用场景包括近距离唤醒等,又比如,使用场景包括用户私有,且近距离唤醒,又比如,使用场景包括多用户共有,且远距离唤醒等等。
在该第一种可能的应用场景中,可以通过终端设备为自身或者其它电子设备配置自定义唤醒词。需要说明的是,本申请中提及的为电子设备配置自定义唤醒词至少将自定义唤醒词以及自定义唤醒词对应的唤醒阈值发送给电子设备。
第二种可能的应用场景中,可以实现用户根据需求统一管理多个电子设备的唤醒词,几个电子设备可以共用唤醒词,支持电子设备唤醒词的查询、更新。比如,用户设置自定义唤醒词“小宝小宝”,能够用于同时唤醒设备1、设备2和设备3。该自定义唤醒词可以仅适用于一个用户,也可以适用于多个用户。比如适用于一个用户,当该用户说出唤醒词“小宝小宝”时,能够同时唤醒设备1、设备2和设备3。唤醒词“小宝小宝”唤醒设备1、设备2和设备3执行的行为可以相同,也可以不同。
本申请实施例中,可以采用不同的唤醒词唤醒相同或不同的电子设备,为了提高准确度,减少误唤醒,针对不同的自定义唤醒词均进行唤醒阈值的确定。
后续针对唤醒阈值的确定方式进行详细说明,此处不再重复描述。
作为一种示例,在第一种可能的应用场景中,终端设备可以为自身配置自定义唤醒词,确定唤醒阈值的设备可以是终端设备,也可以是一个服务器。自定义唤醒词所作用的电子设备也是该终端设备。确定唤醒阈值的设备为服务器时,用户可以通过该终端设备设置自定义唤醒词,以及自定义唤醒词的使用场景,由服务器根据自定义唤醒词和使用场景确定唤醒阈值再发送给终端设备。用户说出自定义唤醒词时,该电子设备监测到周围环境中的语音信息,根据该使用场景信息指示的使用场景下的唤醒阈值进行语音唤醒的判决,确定语音信息中是否包括该自定义唤醒词。
作为另一种示例,第一种可能的应用场景中,终端设备可以为其它电子设备配置自定义唤醒词,确定唤醒阈值的设备可以是终端设备,也可以是一个服务器。确定唤醒阈值的设备为服务器时,用户可以通过该终端设备设置自定义唤醒词,以及自定义唤醒词的使用场景,由服务器根据自定义唤醒词和使用场景确定唤醒阈值再发送给其它电子设备。确定唤醒阈值的设备为终端设备时,用户可以通过该终端设备设置自定义唤醒词,以及自定义唤醒词的使用场景,由终端设备根据自定义唤醒词和使用场景确定唤醒阈值再发送给其它电子设备。进而,用户说出自定义唤醒词时,该电子设备能够根据该使用场景信息指示的使用场景下的唤醒阈值进行语音唤醒的判决。
作为又一种示例,在第二种可能的应用场景中,服务器从终端设备获得用户输入的自定义唤醒词、使用场景以及自定义唤醒词所作用的多个电子设备,完成自定义唤醒词的唤醒阈值的确认,并将确认后的自定义唤醒词的唤醒阈值发送给自定义唤醒词所作用的多个电子设备,进而自定义唤醒词所能够作用的任一用户说出该自定义唤醒词时,自定义唤醒词所作用的任一电子设备检测到用户说出自定义唤醒词时能够根据确认的唤醒阈值进行语音唤醒的判决。
下面结合具体附图对上述各个应用场景对应的实现方式进行详细说明。
图1为本申请实施例提供的一种语音控制系统的组成示意图。该语音控制系统可以应用于以上所述的一个或者一组电子设备100中。该一组电子设备包括的多个电子设备满足以下条件中的一个或多个:连接了同一个无线接入点(如WiFi接入点);登录了同一个账号;或者,被用户设置在同一个组中。该语音控制系统包括终端设备200和一个或者多个电子设备100,终端设备200具备显示功能,能够为用户提供配置界面,能够支持用户设置自定义唤醒词以及自定义唤醒词对应的使用场景信息。终端设备可以为一组电子设备100具有显示功能的电子设备中一个,也可以是一组电子设备200以外的设备。
语音控制系统还可以包括服务器。这里所说的服务器可以是云服务器,也可以本地服务器。如图1所示,语音控制系统中还可以包括服务器300。服务器用于执行唤醒阈值的确定操作。服务器300还可以用于管理语音控制系统中不同电子设备100所使用的唤醒词、唤醒词对应执行的动作。
示例性的,本申请实施例所述的电子设备100,如上述电子设备100可以为手机、平板电脑、桌面型、膝上型、手持计算机、笔记本电脑、台式电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本,以及蜂窝电话、个人数字助理(personaldigital assistant,PDA)、增强现实(augmentedreality,AR)\虚拟现实(virtualreality,VR)设备、媒体播放器、智能音箱、智能手表、智能耳机、或者智能家居设备、智能AI设备、车载终端等。智能家居设备,比如智能电视、智能热水器、智能窗帘、智能空调、智能冰箱等。本申请实施例对电子设备的具体形态不作特殊限制。智能AI设备,比如可以智能扫地机、智能眼镜等。
示例性地,本申请实施例所述的终端设备200,可以是手机、平板电脑、桌面型、膝上型、手持计算机、笔记本电脑、台式电脑、超级移动个人计算、上网本,以及蜂窝电话、AR\VR设备、智能手表等。
参考图2所示,为本申请实施例提供的一种电子设备100的结构示意图。
电子设备100至少包括处理器110、存储器120以及麦克风130。
处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
处理器110中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据,可从所述存储器中直接调用。避免了重复存取,减少了处理器110的等待时间,因而提高了系统的效率。
在本申请实施例中,电子设备100中可以设置有唤醒词(如“小I小I”)。上述DSP可以通过电子设备100的麦克风130实时监测语音数据。当DSP监测到语音数据时,可以对监测到的语音数据进行校验,以确定其是否疑似设置在电子设备100中的唤醒词。若校验通过,如果电子设备100的AP处于休眠状态,则DSP可以唤醒AP,并通知AP对接收到该语音数据进行再次校验。在再次校验通过时,AP可以确定该语音数据与设置在电子设备100中的唤醒词相匹配。处理器110中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据,可从所述存储器中直接调用。避免了重复存取,减少了处理器110的等待时间,因而提高了系统的效率。
麦克风130,也称“话筒”,“传声器”,用于将声音信号转换为电信号。比如,当发送语音数据触发电子设备执行某些事件时,用户可以通过人嘴靠近麦克风130发声,将声音信号输入到麦克风130。电子设备100可以设置至少一个麦克风130。在另一些实施例中,电子设备可以设置两个麦克风130,除了采集声音信号,还可以实现降噪功能。在另一些实施例中,电子设备还可以设置三个,四个或更多麦克风130,实现采集声音信号,降噪,还可以识别声音来源,实现定向录音功能等。
存储器120可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。处理器110通过运行存储在存储器120的指令,从而执行电子设备100的各种功能应用以及数据处理。存储器120可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统,至少一个功能所需的应用程序(比如声音播放功能)等。存储数据区可存储电子设备100使用过程中所创建的数据(比如音频数据)等。此外,存储器120可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universal flash storage,UFS)等。
电子设备100还可以包括无线通信模块140。无线通信模块140可以提供应用在电子设备上的包括局域网(wirelesslocal area networks,WLAN)(如无线保真(wirelessfidelity,Wi-Fi)网络),蓝牙(bluetooth,BT),全球导航卫星系统(global navigationsatellite system,GNSS),调频(frequency modulation,FM),近距离无线通信技术(nearfield communication,NFC),红外技术(infrared,IR)等无线通信的解决方案。在本申请一些实施例中,无线通信模块140可以与其他电子设备进行交互,如在检测到与唤醒词匹配的语音数据后,向其他电子设备发送检测到的语音数据的能量信息,接收该电子设备返回的唤醒指示,以便根据该唤醒指示确定是否需要进行唤醒响应。又例如,接收该电子设备发送的内容指示,根据该内容指示执行用户语音命令对应的事件。
可以理解的是,本实施例示意的结构并不构成对电子设备的具体限定。本申请实施例中不同的电子设备的结构可能不同,本申请实施例不作一一举例。在另一些实施例中,电子设备可以包括比图示更多的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
参考图3所示,为本申请实施例提供的一种终端设备200的结构示意图。作为一种举例,终端设备200也包括处理器110、存储器120、麦克风130。还可以包括无线通信模式140,针对处理器110、存储器120、麦克风130。还可以包括无线通信模式140相关说明如上所述,此处不再赘述。终端设备200还包括显示屏150。
显示屏150用于显示图像,视频等。显示屏150包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display,LCD),有机发光二极管(organic light-emittingdiode,OLED),有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的,AMOLED),柔性发光二极管(flex light-emittingdiode,FLED),Miniled,MicroLed,Micro-oLed,量子点发光二极管(quantum dot lightemitting diodes,QLED)等。在一些实施例中,终端设备200可以包括1个或N1个显示屏150,N1为大于1的正整数。
终端设备200通过GPU,显示屏150,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏150和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器110可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
进一步地,终端设备200还可以包括如下中的一个或多个:充电管理模块160,电源管理模块141,电池142,天线1,天线2,移动通信模块150,无线通信模块140,音频模块170,扬声器170A,受话器170B,耳机接口170C,传感器模块180,按键190,马达191,指示器192,摄像头193,外部存储器接口194,以及用户标识模块(subscriber identification module,SIM)卡接口195、USB接口196等。例如,传感器模块180可以包括压力传感器,陀螺仪传感器,气压传感器,磁传感器,加速度传感器,距离传感器,接近光传感器,指纹传感器,温度传感器,触摸传感器,环境光传感器,骨传导传感器等。
在一些实施例中,处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit,I2C)接口,集成电路内置音频(inter-integrated circuitsound,I2S)接口,脉冲编码调制(pulse code modulation,PCM)接口,通用异步收发传输器(universal asynchronous receiver/transmitter,UART)接口,移动产业处理器接口(mobile industry processor interface,MIPI),通用输入输出(general-purposeinput/output,GPIO)接口,用户标识模块(subscriber identity module,SIM)接口,和/或通用串行总线(universal serial bus,USB)接口等。
I2C接口是一种双向同步串行总线,包括一根串行数据线(serial data line,SDA)和一根串行时钟线(derail clock line,SCL)。在一些实施例中,处理器110可以包含多组I2C总线。处理器110可以通过不同的I2C总线接口分别耦合触摸传感器180K,充电器,闪光灯,摄像头193等。例如:处理器110可以通过I2C接口耦合触摸传感器180K,使处理器110与触摸传感器180K通过I2C总线接口通信,实现终端设备200的触摸功能。
I2S接口可以用于音频通信。在一些实施例中,处理器110可以包含多组I2S总线。处理器110可以通过I2S总线与音频模块170耦合,实现处理器110与音频模块170之间的通信。在一些实施例中,音频模块170可以通过I2S接口向无线通信模块140传递音频信号,实现通过耳机200(比如蓝牙耳机)接听电话的功能。
PCM接口也可以用于音频通信,将模拟信号抽样,量化和编码。在一些实施例中,音频模块170与无线通信模块140可以通过PCM总线接口耦合。在一些实施例中,音频模块170也可以通过PCM接口向无线通信模块140传递音频信号,实现通过蓝牙耳机200接听电话的功能。所述I2S接口和所述PCM接口都可以用于音频通信。
UART接口是一种通用串行数据总线,用于异步通信。该总线可以为双向通信总线。它将要传输的数据在串行通信与并行通信之间转换。在一些实施例中,UART接口通常被用于连接处理器110与无线通信模块140。例如:处理器110通过UART接口与无线通信模块140中的蓝牙模块通信,实现蓝牙功能。在一些实施例中,音频模块170可以通过UART接口向无线通信模块140传递音频信号,实现通过耳机播放音乐的功能。
MIPI接口可以被用于连接处理器110与显示屏150,摄像头193等外围器件。MIPI接口包括摄像头串行接口(camera serial interface,CSI),显示屏串行接口(displayserial interface,DSI)等。在一些实施例中,处理器110和摄像头193通过CSI接口通信,实现终端设备200的拍摄功能。处理器110和显示屏150通过DSI接口通信,实现终端设备200的显示功能。
GPIO接口可以通过软件配置。GPIO接口可以被配置为控制信号,也可被配置为数据信号。在一些实施例中,GPIO接口可以用于连接处理器110与摄像头193,显示屏150,无线通信模块140,音频模块170,传感器模块180等。GPIO接口还可以被配置为I2C接口,I2S接口,UART接口,MIPI接口等。
USB接口196是符合USB标准规范的接口,具体可以是Mini USB接口,Micro USB接口,USB Type C接口等。USB接口196可以用于连接充电器为终端设备200充电,也可以用于终端设备200与外围设备之间传输数据。也可以用于连接耳机,通过耳机播放音频。该接口还可以用于连接其他电子设备,例如AR设备等。
可以理解的是,本发明实施例示意的各模块间的接口连接关系,只是示意性说明,并不构成对终端设备200的结构限定。在本申请另一些实施例中,终端设备200也可以采用上述实施例中不同的接口连接方式,或多种接口连接方式的组合。
充电管理模块160用于从充电器接收充电输入。其中,充电器可以是无线充电器,也可以是有线充电器。在一些有线充电的实施例中,充电管理模块160可以通过USB接口196接收有线充电器的充电输入。在一些无线充电的实施例中,充电管理模块160可以通过终端设备200的无线充电线圈接收无线充电输入。充电管理模块160为电池142充电的同时,还可以通过电源管理模块141为电子设备供电。
电源管理模块141用于连接电池142,充电管理模块160与处理器110。电源管理模块141接收电池142和/或充电管理模块160的输入,为处理器110,内部存储器121,显示屏150,摄像头193,和无线通信模块140等供电。电源管理模块141还可以用于监测电池容量,电池循环次数,电池健康状态(漏电,阻抗)等参数。在其他一些实施例中,电源管理模块141也可以设置于处理器110中。在另一些实施例中,电源管理模块141和充电管理模块160也可以设置于同一个器件中。
终端设备200的无线通信功能可以通过天线1,天线2,移动通信模块150,无线通信模块140,调制解调处理器以及基带处理器等实现。
天线1和天线2用于发射和接收电磁波信号。终端设备200中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。例如:可以将天线1复用为无线局域网的分集天线。在另外一些实施例中,天线可以和调谐开关结合使用。
移动通信模块150可以提供应用在终端设备200上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(low noise amplifier,LNA)等。移动通信模块150可以由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大,经天线1转为电磁波辐射出去。在一些实施例中,移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中,移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。
调制解调处理器可以包括调制器和解调器。其中,调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后,被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170A,受话器170B等)输出声音信号,或通过显示屏150显示图像或视频。在一些实施例中,调制解调处理器可以是独立的器件。在另一些实施例中,调制解调处理器可以独立于处理器110,与移动通信模块150或其他功能模块设置在同一个器件中。
无线通信模块140可以提供应用在终端设备200上的包括无线局域网(wirelesslocal area networks,WLAN)(如无线保真(wireless fidelity,Wi-Fi)网络),蓝牙(bluetooth,BT),全球导航卫星系统(global navigation satellite system,GNSS),调频(frequency modulation,FM),近距离无线通信技术(near field communication,NFC),红外技术(infrared,IR)等无线通信的解决方案。无线通信模块140可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块140经由天线2接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器110。无线通信模块140还可以从处理器110接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。比如,无线通信模块140包括蓝牙模块,终端设备200通过蓝牙与其它电子设备建立无线连接。再比如,无线通信模块140包括红外模块,终端设备200可以通过红外模块与其它电子设备建立无线连接。
在一些实施例中,终端设备200的天线1和移动通信模块150耦合,天线2和无线通信模块140耦合,使得终端设备200可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯系统(global system for mobile communications,GSM),通用分组无线服务(general packet radio service,GPRS),码分多址接入(codedivision multiple access,CDMA),宽带码分多址(wideband code division multipleaccess,WCDMA),时分码分多址(time-division code division multiple access,TD-SCDMA),长期演进(long term evolution,LTE),BT,GNSS,WLAN,NFC,FM,和/或IR技术等。所述GNSS可以包括全球卫星定位系统(global positioning system,GPS),全球导航卫星系统(global navigation satellite system,GLONASS),北斗卫星导航系统(beidounavigation satellite system,BDS),准天顶卫星系统(quasi-zenith satellitesystem,QZSS)和/或星基增强系统(satellite based augmentation systems,SBAS)。
终端设备200可以通过ISP,摄像头193,视频编解码器,GPU,显示屏150以及应用处理器等实现拍摄功能。
ISP用于处理摄像头193反馈的数据。例如,拍照时,打开快门,光线通过镜头被传递到摄像头感光元件上,光信号转换为电信号,摄像头感光元件将所述电信号传递给ISP处理,转化为肉眼可见的图像。ISP还可以对图像的噪点,亮度,肤色进行算法优化。ISP还可以对拍摄场景的曝光,色温等参数优化。在一些实施例中,ISP可以设置在摄像头193中。
摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device,CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,CMOS)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB,YUV等格式的图像信号。在一些实施例中,处理器110可以根据内部存储器121中的程序或者指令触发启动摄像头193,从而摄像头193采集至少一个图像,并根据程序或者指令对至少一个图像进行相应的处理。在一些实施例中,终端设备200可以包括1个或N2个摄像头193,N2为大于1的正整数。
数字信号处理器用于处理数字信号,除了可以处理数字图像信号,还可以处理其他数字信号。例如,当终端设备200在频点选择时,数字信号处理器用于对频点能量进行傅里叶变换等。
视频编解码器用于对数字视频压缩或解压缩。终端设备200可以支持一种或多种视频编解码器。这样,终端设备200可以播放或录制多种编码格式的视频,例如:动态图像专家组(moving picture experts group,MPEG)1,MPEG2,MPEG3,MPEG4等。
NPU为神经网络(neural-network,NN)计算处理器,通过借鉴生物神经网络结构,例如借鉴人脑神经元之间传递模式,对输入信息快速处理,还可以不断的自学习。通过NPU可以实现终端设备200的智能认知等应用,例如:图像识别,人脸识别,语音识别,文本理解等。
外部存储器接口194可以用于连接外部存储卡,例如Micro SD卡,实现扩展终端设备200的存储能力。外部存储卡通过外部存储器接口194与处理器110通信,实现数据存储功能。例如将音乐,视频等文件保存在外部存储卡中。
内部存储器121可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。内部存储器121可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统,至少一个功能所需的应用程序(比如相机应用)等。存储数据区可存储终端设备200使用过程中所创建的数据(比如摄像头采集的图像等)等。此外,内部存储器121可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universal flash storage,UFS)等。处理器110通过运行存储在内部存储器121的指令,和/或存储在设置于处理器中的存储器的指令,执行终端设备200的各种功能应用以及数据处理。
终端设备200可以通过音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,以及应用处理器等实现音频功能。例如音乐播放,录音等。
音频模块170用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中,音频模块170可以设置于处理器110中,或将音频模块170的部分功能模块设置于处理器110中。
扬声器170A,也称“喇叭”,用于将音频电信号转换为声音信号。终端设备200可以通过扬声器170A收听音乐,或收听免提通话。
受话器170B,也称“听筒”,用于将音频电信号转换成声音信号。当终端设备200接听电话或语音数据时,可以通过将受话器170B靠近人耳接听语音。
压力传感器用于感受压力信号,可以将压力信号转换成电信号。在一些实施例中,压力传感器可以设置于显示屏150。压力传感器的种类很多,如电阻式压力传感器,电感式压力传感器,电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器,电极之间的电容改变。终端设备200根据电容的变化确定压力的强度。当有触摸操作作用于显示屏150,终端设备200根据压力传感器检测所述触摸操作强度。终端设备200也可以根据压力传感器的检测信号计算触摸的位置。在一些实施例中,作用于相同触摸位置,但不同触摸操作强度的触摸操作,可以对应不同的操作指令。例如:当有触摸操作强度小于第一压力阈值的触摸操作作用于短消息应用图标时,执行查看短消息的指令。当有触摸操作强度大于或等于第一压力阈值的触摸操作作用于短消息应用图标时,执行新建短消息的指令。
加速度传感器可检测终端设备200在各个方向上(一般为三轴)加速度的大小。当终端设备200静止时可检测出重力的大小及方向。还可以用于识别电子设备姿态,应用于横竖屏切换,计步器等应用。
距离传感器,用于测量距离。终端设备200可以通过红外或激光测量距离。在一些实施例中,拍摄场景,终端设备200可以利用距离传感器测距以实现快速对焦。
指纹传感器用于采集指纹。终端设备200可以利用采集的指纹特性实现指纹解锁,访问应用锁,指纹拍照,指纹接听来电等。
触摸传感器,也称“触控器件”。触摸传感器可以设置于显示屏150,由触摸传感器与显示屏150组成触摸屏,也称“触控屏”。触摸传感器用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器,以确定触摸事件类型。可以通过显示屏150提供与触摸操作相关的视觉输出。在另一些实施例中,触摸传感器也可以设置于终端设备200的表面,与显示屏150所处的位置不同。
按键190包括开机键,音量键等。按键190可以是机械按键。也可以是触摸式按键。终端设备200可以接收按键输入,产生与终端设备200的用户设置以及功能控制有关的键信号输入。
马达191可以产生振动提示。马达191可以用于来电振动提示,也可以用于触摸振动反馈。例如,作用于不同应用(例如拍照,音频播放等)的触摸操作,可以对应不同的振动反馈效果。作用于显示屏150不同区域的触摸操作,马达191也可对应不同的振动反馈效果。不同的应用场景(例如:时间提醒,接收信息,闹钟,游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。
指示器192可以是指示灯,可以用于指示充电状态,电量变化,也可以用于指示消息,未接来电,通知等。
SIM卡接口195用于连接SIM卡。SIM卡可以通过插入SIM卡接口195,或从SIM卡接口195拔出,实现和终端设备200的接触和分离。终端设备200可以支持1个或N3个SIM卡接口,N3为大于1的正整数。SIM卡接口195可以支持Nano SIM卡,Micro SIM卡,SIM卡等。同一个SIM卡接口195可以同时插入多张卡。所述多张卡的类型可以相同,也可以不同。SIM卡接口195也可以兼容不同类型的SIM卡。SIM卡接口195也可以兼容外部存储卡。终端设备200通过SIM卡和网络交互,实现通话以及数据通信等功能。在一些实施例中,终端设备200采用eSIM,即:嵌入式SIM卡。eSIM卡可以嵌在终端设备200中,不能和终端设备200分离。
终端设备200的软件系统可以采用分层架构,事件驱动架构,微核架构,微服务架构,或云架构。本发明实施例以分层架构的Android系统为例,示例性说明终端设备200的软件结构。
图4A是本发明实施例的终端设备200的软件结构框图。
分层架构将软件分成若干个层,每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中,将Android系统分为四层,从上至下分别为应用程序层,应用程序框架层,安卓运行时(Android runtime)和系统库,以及内核层。应用程序层可以包括一系列应用程序包。
如图4A所示,应用程序包可以包括相机,图库,日历,通话,地图,导航,WLAN,蓝牙,音乐,视频,短信息、设置等应用程序。
应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface,API)和编程框架。应用程序框架层包括一些预先定义的函数。
如图4A所示,应用程序框架层可以包括窗口管理器,内容提供器,视图系统,电话管理器,资源管理器,通知管理器、和语音唤醒引擎等。
窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小,判断是否有状态栏,锁定屏幕,截取屏幕等。
内容提供器用来存放和获取数据,并使这些数据可以被应用程序访问。所述数据可以包括视频,图像,音频,拨打和接听的电话,浏览历史和书签,电话簿等。
视图系统包括可视控件,例如显示文字的控件,显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如,包括短信通知图标的显示界面,可以包括显示文字的视图以及显示图片的视图。
电话管理器用于提供终端设备200的通信功能。例如通话状态的管理(包括接通,挂断等)。
资源管理器为应用程序提供各种资源,比如本地化字符串,图标,图片,布局文件,视频文件等等。
通知管理器使应用程序可以在状态栏中显示通知信息,可以用于传达告知类型的消息,可以短暂停留后自动消失,无需用户交互。比如通知管理器被用于告知下载完成,消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知,例如后台运行的应用程序的通知,还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息,发出提示音,终端设备振动,指示灯闪烁等。
语音唤醒引擎,用于实现语音唤醒服务,在检测周围环境的语音信息中包括唤醒词时,可以执行语音唤醒服务。
Android Runtime包括核心库和虚拟机。Android runtime负责安卓系统的调度和管理。
核心库包含两部分:一部分是java语言需要调用的功能函数,另一部分是安卓的核心库。
应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理,堆栈管理,线程管理,安全和异常的管理,以及垃圾回收等功能。
系统库可以包括多个功能模块。例如:表面管理器(surface manager),媒体库(Media Libraries),三维图形处理库(例如:OpenGL ES),2D图形引擎(例如:SGL)等。
表面管理器用于对显示子系统进行管理,并且为多个应用程序提供了2D和3D图层的融合。
媒体库支持多种常用的音频,视频格式回放和录制,以及静态图像文件等。媒体库可以支持多种音视频编码格式,例如:MPEG4,H.264,MP3,AAC,AMR,JPG,PNG等。
三维图形处理库用于实现三维图形绘图,图像渲染,合成,和图层处理等。
2D图形引擎是2D绘图的绘图引擎。
内核层是硬件和软件之间的层。内核层至少包含显示驱动,摄像头驱动,音频驱动,耳机驱动、传感器驱动。
在一些应用场景中,终端设备200中的应用程序框架层还可以部署华为移动核心服务(huawei mobile services,HMS core),在华为移动核心服务中部署语音唤醒引擎,参见图4B所示。语音唤醒引擎用于实现语音唤醒服务,在检测周围环境的语音信息中包括唤醒词时,可以执行语音唤醒服务。
下面结合用户输入自定义唤醒词场景,示例性说明终端设备200软件以及硬件的工作流程。
当触摸传感器接收到触摸操作,相应的硬件中断被发给内核层。内核层将触摸操作加工成原始输入事件(包括触摸坐标,触摸操作的时间戳等信息)。原始输入事件被存储在内核层。应用程序框架层从内核层获取原始输入事件,识别该输入事件所对应的用于输入自定义唤醒词的输入框控件,用户在输入框控件中输入自定义唤醒词,从而输入框控件获得该自定义唤醒词。
下面结合语音唤醒场景,示例性说明终端设备200软件以及硬件的工作流程。
当语音传感器检测到语音数据,并将语音数据传输到语音唤醒引擎,语音唤醒引擎确定语音数据中是否包括唤醒词,当包括唤醒词时,执行唤醒词对应的唤醒操作,比如在包括唤醒词,唤醒词对应的操作的播放音乐,语音唤醒引擎可以触发应用程序层的应用启动,并播放音乐。
参见图5所示,为本申请实施例提供的语音控制系统的逻辑架构示意图。语音控制系统从逻辑上划分可以包括:中央管理模块501、人机交互模块502、设备管理模块503、云服务模块504、数据库模块505、阈值确定模块506。应理解,图5所示的语音控制系统中单元的划分仅仅是一种逻辑功能的划分,实际实现时可以一部分集成到一个物理实体上,也可以物理上分开。语音控制系统可以部分单元以软件通过处理元件调用的形式实现,部分单元以硬件的形式实现。图示的部件可以以硬件,软件或软件和硬件的组合实现。可以理解的是,本实施例示意的结构并不构成对语音控制系统的具体限定。本申请实施例中不同的语音控制系统的模块可能不同,本申请实施例不作一一举例。在另一些实施例中,语音控制系统可以包括比图示更多或者更少的模块,或者组合某些模块,或者拆分某些模块,或者不同的模块布置。
中央管理模块501主要用于统一管理各个模块之间的协作,以便完成用户对自定义唤醒词的设置,以及自定义唤醒词的唤醒阈值的确定。作为一种示例,中央管理模块501可以由服务器300来实现,也可以由负责管理的终端设备200来实现。
人机交互模块502用于为用户提供设备交互界面,用于用户设置自定义唤醒词,以及进行自定义唤醒词的属性的选择,比如使用模式(如私有模式或公用模式),设备模式(如近讲模式或远讲模式)、设备协同模式等。人机交互模块502可以由负责管理的终端设备200来实现。
设备管理模块503,用于统一管理电子设备组,以及不同电子设备所使用的唤醒词,和唤醒后对应执行的动作。在用于通过人机交互模块502进行自定义唤醒词的录入后,自定义唤醒词可以同步到不同的电子设备中,比如可以将该自定义唤醒词添加到语音控制系统中注册的所有电子设备或指定的电子设备中。设备管理模块503可以由服务器300来实现,也可以由负责管理的终端设备200来实现。
云服务模块504,用于统一管理不同电子设备的自定义唤醒词和唤醒阈值。同时,云服务模块504,可以对存储的不同用户的自定义唤醒词和唤醒阈值进行检索,当某个用户的设定的唤醒词在云端存在时,则无需执行唤醒阈值的确定流程,直接从云端同步该自定义唤醒词的唤醒阈值即可。
云服务模块504,可以云端的服务器来实现。当然在未部署云端的服务器的情况下,可以由本地服务器来实现。
数据库模块505,用于存储不同的自定义唤醒词和不同属性下对应的唤醒阈值和确定自定义唤醒词的唤醒阈值过程中产生的相关的统计数据。
数据库模块可以部署于在云端,也可以部署于本地,或者本地、云端分别部署有各自的数据库。本地数据库用于存储当前电子设备所使用的唤醒词、唤醒词对应的唤醒阈值、唤醒词唤醒后执行的动作(或者命令)和相关的统计数据。云端数据库用于存放用户账户下注册的所有电子设备相关的自定义唤醒词、唤醒阈值、每个唤醒词对应在唤醒后执行的动作和相关的统计数据等。
阈值确定模块506,用于唤醒词的识别,按照用户设定的唤醒词和对应的属性,合成属性对应的不同风格的唤醒词音频数据,根据不同风格的唤醒词音频数据来计算或者调整唤醒词的唤醒阈值。阈值确定模块506可以进一步包括唤醒模块506A、语音合成模块506B、自适应模块506C。
唤醒模块506A,用于唤醒词的识别,当检测到语音中包含唤醒词后,反馈唤醒状态,并且输出唤醒词的概率得分、每个建模单元的概率得分以及强制对齐信息等。
语音合成模块506B,用于按照用户设定的唤醒词和对应的属性,合成属性对应的不同风格的唤醒词音频数据。
自适应模块506C,用于使用唤醒模块506A得到的结果和语音合成模块合成的数据,计算和调整该唤醒词的唤醒阈值。
语音控制系统还可以包括语音识别模块507。语音识别模块507部署于各个电子设备100。语音识别模块507用于接收唤醒阈值和唤醒词。根据唤醒词与唤醒阈值,识别用户说出的唤醒词,并触发执行唤醒词对应的动作指令。
以下实施例中,以执行阈值确定的设备为服务器为例,该服务器可以是云服务器或者本地服务器或者应用服务器。用户通过终端设备提供的显示界面来进行自定义唤醒词的输入以及自定义唤醒词的属性的输入。自定义唤醒词的属性可以包括自定义唤醒词的使用场景(可以包括使用模式、设备模式)或者多设备协同模式、自定义唤醒词对应的动作指令等中的一项或者多项。可选地,自定义唤醒词的属性还可以包括自定义唤醒词所使用的位置区域信息、时间段信息或者局域网信息等。
终端设备将自定义唤醒词和自定义唤醒词的属性发送给服务器,从而服务器根据自定义唤醒词和自定义唤醒词的使用场景确定该自定义唤醒词的唤醒阈值,进而将自定义唤醒词以及自定义唤醒词的唤醒阈值、自定义唤醒词唤醒后执行的动作指令发送给相应的一个或者多个电子设备。一种示例中,服务器还可以将自定义唤醒词的使用场景信息发送给一个或者多个电子设备。另一种示例中,服务器还可以将用户设置的自定义唤醒词所使用的位置区域信息、时间段信息或者局域网信息等发送给一个或者多个电子设备。从而一个或者多个电子设备根据自定义唤醒词和唤醒阈值判断用户说出的语音是否能够唤醒该电子设备执行相应的动作。
下面结合具体实施例针对第一种可能的应用场景下的音频控制方法进行详细说明。
本申请实施例可以应用于具有控制功能的应用中,例如智能管理、智慧助手或者智慧语音、系统设置等应用中。
示例的,终端设备在显示屏150显示主界面,比如可以如图6所示的用户界面600。其中,用户界面600可以包括状态栏601、可隐藏的导航栏602,还有多个应用程序的图标(例如设置图标603)等。其中,状态栏601中可以包括移动网络标识(例如5G)、时间和剩余电量。可以理解的是,在其他一些实施例中,状态栏601中还可以包括蓝牙图标、WiFi图标、外接设备图标等。还可以理解的是,在其他一些实施例中,用户界面600还可以包括快捷应用栏。其中,快捷应用栏又可以称之为Dock栏、常用应用栏等。快捷应用栏中可以包括常用的应用程序的图标等。当终端设备检测到用户的手指(或触控笔等)针对某一应用程序的图标的触摸操作后,响应于上述触摸操作,终端设备启动该应用程序,并在显示屏150上显示该应用程序的用户界面。
例如,终端设备检测到对设置图标603的触摸操作,则响应于上述触摸操作,在显示屏150上显示系统设置界面。示例的,系统设置界面可以如图7A所示的用户界面710。用户界面710包括唤醒设置701。在另一些实施例中,用户界面710还可以包括多个用于其他功能的设置选项,例如登录账号、移动网络、声音和振动等。终端设备响应于用户对唤醒设置701的操作,在显示屏150上显示用户界面720,参加图7B和图7C所示。其中,用户界面720又可以称之为唤醒设置界面,可以包括语音唤醒721,该语音唤醒721为用于配置该终端设备的语音唤醒功能的开启(ON)或关闭(OFF)。用户界面720还可以包括添加自定义唤醒词722、唤醒词管理723或者设备管理724等中的一项或者多项。
例如,终端设备响应于语音唤醒721的操作,在显示屏150显示用户界面730,用户界面730中包括虚拟按钮731,终端设备响应于用户将虚拟按钮731设置ON,开启语音唤醒功能。再例如,终端设备响应于用户将虚拟按钮771设置为OFF,关闭语音唤醒功能。
在一些实施例中,终端设备还在支持本终端设备的唤醒词的更换。例如,参见图7B和图7C所示,用户界面730中可以包括唤醒词更换732,终端设备响应于用户对唤醒词更换732的操作,显示用户界面740。用户界面740中包括可供用户选择的用于唤醒该终端设备的唤醒词。图7B中以唤醒词包括“小A小A”、“大宝大宝”、“小花小花”为例。不同的唤醒词对应有选择的虚拟按钮741。一些实施例中,仅支持用户选择一个唤醒词。用户可以选择“小A小A”、“大宝大宝”、“小花小花”中其中一项作为该终端设备的唤醒词,参见图7B所示。另一些实施例中,支持用户选择多个唤醒词,用户说出多个唤醒词中的任一唤醒词均能唤醒该终端设备,图7C中,以支持用户选择多个唤醒词为例。
参见图7A中,添加自定义唤醒词722支持对语音控制系统中任一电子设备添加自定义唤醒词。任一电子设备可以是该终端设备,也可以是除本终端设备以外的其它电子设备。参见图8A所示,终端设备响应于用户对添加自定义唤醒词722的操作(比如触控操作或者悬空选择操作等),显示用户界面810。一些实施例中,显示界面810中包括文本输入框811。参见图8A所示。另一些实施例中,显示界面810中还可以指示语音录入自定义唤醒词,包括语音输入唤醒词812选项。
一种可能的示例中,显示界面810还可以包括用于配置自定义唤醒词的使用场景信息(比如,包括使用模式和/或设备模式)的选择控件。另一种可能的示例中,显示界面810中不包括使用模式选择控件的情况下,即默认采用的是私有模式。在显示界面810中不包括设备模式选择控件的情况下,即默认采用的是近场模式。图8A中以显示界面810中包括使用模式813和设备模式814为例。可选地,显示界面810还可以包括使用说明,用于提示用户的选择方式和输入自定义唤醒词的方式。
一些实施例中,终端设备响应于用户在文本输入框811的操作,显示用户界面820,用户界面820中包括虚拟键盘,参见图8B所示,响应于用户通过虚拟键盘输入自定义唤醒词的操作,显示用户界面830,从而获得自定义唤醒词。比如用户通过虚拟键盘在文本输入框811中输入“小可小可”。
另一些实施例中,终端设备响应于用户针对语音输入唤醒词812选项的操作,显示用户界面840,参见图8C所示。一种示例中,在显示用户界面840后,通过扬声器播放提示信息或者提示框显示提示信息,用于提示用户在安静场景下说出自定义唤醒词N次,N为大于1的整数。终端设备通过语音识别功能,识别到用户说出自定义唤醒词N次后,将语音说出的唤醒词转换为文本。一种示例中,终端设备响应于用户点击“开始”按钮的操作,通过扬声器提示用户开始朗读自定义唤醒词,识别到用户朗读自定义唤醒词N次后,并获得该唤醒词的文本,将唤醒词的文本显示在显示界面840上,参见图8C所示。另一种示例中,终端设备响应于用户点击“开始”按钮的操作,通过扬声器提示用户开始朗读自定义唤醒词,识别到用户朗读自定义唤醒词一次后,并获得该唤醒词的文本,将唤醒词的文本显示在显示界面840上,并提示用户再次朗读自定义唤醒词,如果识别到的自定义唤醒词与上一次识别到的用户朗读的自定义唤醒词相同,终端设备记录的用户的朗读次数累加,否则不记录该次朗读并提示用户重新朗读,直到确定用户朗读N个有效的自定义唤醒词。
在一种可能的示例中,进一步地,用户可以选择该自定义唤醒词的使用模式。一些实施例中,以私有模式为例。由于私有模式下,仅作为私人使用,比如针对手机、平板和电脑等等。在该私有模式下,仅针对使用者进行唤醒阈值的优化,在私有模式下,需要满足语音设置需求,即需要使用者录入针对自定义唤醒词的语音数据。终端设备在确定用户通过文本输入自定义唤醒词时,则确定不满足私人模式的语音设置需求,需要提示私有用户录入自定义唤醒词的语音数据。
一些实施例中,结合图8B,终端设备响应于用户在使用模式813中选择私有模式的操作,终端设备在确定用户采用本文方式输入自定义唤醒词时,显示用户界面850,参见图8D所示。用户界面850中可以包括提示信息,提示信息用于提示用户需要朗读的自定义唤醒词。参见图8D所示,以需要用户朗读的自定义唤醒词为“小可小可”为例。在显示用户界面850后,通过扬声器播放提示信息,用于提示用户在安静场景下说出自定义唤醒词“小可小可”N次,N为大于1的整数。终端设备通过语音识别功能,识别到用户说出自定义唤醒词N次后,确定完成语音录入。一种示例中,终端设备响应于用户点击“开始”按钮的操作,通过扬声器提示用户开始朗读自定义唤醒词,识别到用户朗读自定义唤醒词N次后,并获得该唤醒词的文本,将唤醒词的文本显示在显示界面850上,参见图8D所示。另一种示例中,终端设备响应于用户点击“开始”按钮的操作,通过扬声器提示用户开始朗读自定义唤醒词,识别到用户朗读自定义唤醒词一次后,并获得该唤醒词的文本,将唤醒词的文本显示在显示界面850上,并提示用户再次朗读自定义唤醒词,如果识别到的自定义唤醒词与文本录入的自定义唤醒词相同,终端设备记录的用户的朗读次数累加,否则不记录该次朗读并提示用户重新朗读,直到确定用户朗读N个有效的自定义唤醒词。
另一些实施例中,结合图8C,终端设备响应于用户在使用模式813中选择私有模式的操作,终端设备在确定用户采用语音输入方式输入自定义唤醒词时,确定语音输入方式输入的自定义唤醒词是否满足私人模式的语音设置需求,若不满足时,需要提示私有用户录入自定义唤醒词的语音数据。例如,当前语音控制系统中的私有用户与通过语音输入方式输入自定义唤醒词的用户不同,不满足私人模式的语音设置需求。比如,当前语音控制系统注册的私有用户为用户A,使用终端设备通过语音输入方式输入自定义唤醒词的用户为用户B,则不满足私人模式的语音设置需求。结合图8C来说,终端设备响应于用户在使用模式813中选择私有模式的操作,终端设备在确定语音输入自定义唤醒词的语音数据不满足私人模式的语音设置需求时,显示用户界面850,参见图8D所示。作为一种示例,确定语音输入自定义唤醒词的语音数据是否满足私人模式的语义设置需求,可以通过如下方式来实现,确定语音输入自定义唤醒词的语音数据与保存的私有用户A的语音数据进行频谱分析,确定语音输入自定义唤醒词的语音数据是否为私有用户A的语音数据。比如可以通过声纹识别的方式来确定语音输入自定义唤醒词的语音数据是否为私有用户A的语音数据。
又一些实施例中,结合图8B,终端设备响应于用户在使用模式813中选择公有模式的操作,则公有模式中的选择控件被选中,显示形式如图8E所示的显示界面。
在一种可能的示例中,用户还可以选择该自定义唤醒词的设备模式,用户可以根据需求选择近场模式或者远场模式。
一些实施例中,终端设备将用户输入的自定义唤醒词的语音数据、选择的使用模式(私有模式或者公有模式)和设备模式(近场模式或者远场模式)发送给服务器。进而服务器生成与用户设定的自定义唤醒词及模式信息(选择模式和/或设备模式)相对应的不同类型的合成语音数据集,进一步根据合成语音数据集进行唤醒阈值的确认。另一些实施例中,由终端设备根据用户输入的自定义唤醒词的语音数据、选择使用模式和设备模式确定唤醒阈值。
又一些实施例中,用户可以根据需求设置自定义唤醒词所使用的位置或者所连接的局域网络或者使用时间段等等。比如,不同的位置可以对应于不同的使用模式。再比如,不同的局域网络对应于不同的使用模式。又比如,不同的时间段对应不同的使用模式。
比如,针对同一个唤醒词或者不同唤醒词配置所使用的位置以及在该位置下的使用场景。比如用户在家中可以采用公有模式或者远场模式等。在除家里以外的地方采用私有模式或者近场模式等。
比如,位置可以通过电子设备中的位置传感器来获得,位置传感器可以为全球定位系统(global positioning system,GPS)。
又比如,针对同一个唤醒词或者不同唤醒词配置所使用的局域网以及在该局域网下的使用场景。比如电子设备连接家里的局域网情况下,可以配置公有模式或者远场模式等。比如,连接公司的局域网时,可以配置私有模式或者近场模式等。
再比如,针对同一个唤醒词或者不同唤醒词配置所使用的时间段以及该时间段的使用场景。比如夜间,可以配置近场模式,比如白天,可以配置远程模式。
再比如,针对同一个唤醒词或者不同唤醒词配置所使用的时间段和局域网,比如夜间连接家里的局域网时,可以配置远场模式和/或公有模式,其余情况均配置为近场模式和/或私有模式。
作为一种举例,参见图8F所示为一种可能的配置使用位置的示意图。图8E仅作为一种示例,并不对具体选择方式以及界面显示形式进行具体限定。比如可以采用排他性的选择方式,例如,排除某个位置以外的其它位置对应配置的使用场景。再比如,采用包含的选择方式,例如,选择某个位置对应配置的使用场景。
进一步地,服务器在接收到该自定义唤醒词对应的使用场景信息和用户输入的位置区域信息、时间段信息或者局域网信息时,可以将使用场景信息和用户输入的位置区域信息、时间段信息或者局域网信息配置该自定义唤醒词作用的电子设备。电子设备可以关联保存使用场景信息、位置区域信息、时间段信息、局域网信息、自定义唤醒词、唤醒阈值。
例如,时间段信息可以为一天中某个时间段,或者一个月中某一天或某几天等,局域网信息可以包括服务集标识符(service set identifier,SSID),或者其它用于标识局域网的信息等。
参见图9所示,为唤醒阈值的确定流程示意图。唤醒阈值的确定,可以由终端设备执行,也可以由服务器来执行。图9中以服务器来执行为例。终端设备确定唤醒阈值的方式与服务器确定唤醒阈值的方式类似,可以参见服务器确定唤醒阈值的方式。
901,服务器接收来自终端设备的自定义唤醒词的语音数据以及自定义唤醒词的使用场景信息,使用场景信息包括使用模式为私有模式或者公有模式。使用场景信息还可以包括设备模式。
902,服务器根据自定义唤醒词的语音信息和/或文本信息,以及自定义唤醒词的使用场景信息生成合成语音数据集。
一种示例中,在私人模式下,根据私有用户的自定义唤醒词的语音数据,利用声音克隆技术,合成一批模仿用户声音的近场模式下的唤醒数据得到合成语音数据集,合成语音数据集中包括私有用户的自定义唤醒词的语音数据和利用声音克隆技术得到的合成语音数据。
在使用场景信息包括的设备模式为远场模式时,服务器将近场模式下的合成语音数据集转换为远场模式的合成语音数据集。比如,可以将合成语音数据集与特定房间冲击响应进行卷积操作得到远场模式的合成语音数据集。
另一种示例中,在公有模式下,根据自定义唤醒词的语音数据,生成一批模仿不同说话人风格的多样化的唤醒数据得到合成语音数据集。为了保证数据的多样性,还可以克隆不同人的语气、情感、语调等信息,并通过数据增广来生成不同噪声、混响、语速或者音量的唤醒数据。合成语音数据集中自定义唤醒词的语音数据以及生成的模仿不同说明人风格的合成语音数据。
903,服务器确定合成语音数据集(近场模式下的合成语音数据集或者远场模式的语音合成据)的语音能量大于预设阈值时,基于合成语音数据集进行唤醒词检测。
在合成语音数据集的语音能量小于或者等于预设阈值时,不进行唤醒词检测处理。服务器在确定语音能量小于或者等于预设阈值,表明合成语音数据集中可能并不含有唤醒词的相关数据。因此,在执行唤醒词检测之前来确定语音能量是否满足要求,防止唤醒词检测过程中检测不到唤醒词导致资源浪费以及功耗的增加。
步骤903为一种可选的步骤,也可以不执行步骤903。
904,服务器提取合成语音数据集中每个合成语音数据包括的每个基本计算单元的语音特征信息。比如,基本计算单元可以为时间帧,或者其它的定义的计算单元。后续以基本计算单元为时间帧为例。
905,服务器根据每个基本计算单元的语音特征数据确定M个基本计算单元对应的建模单元的声学后验概率;所述M个基本计算单元对应的建模单元为所述第一唤醒词包括的建模单元。
具体的,服务器针对每个合成语音数据根据唤醒声学模型以及每个时间帧的语音特征数据确定建模单元Sj的声学后验概率。
例如,时间帧1对应到预定义唤醒词包括的每个建模单元均存在一个声学后验概率。比如预定义唤醒词包括N1个建模单元为例,时间帧1对应到N1个建模单元均存在一个声学后验概率。
其中,唤醒声学模型可以采用机器学习模型,比如深度神经网络(deep neuralnetworks,DNN)模型、卷积神经网络模型(convolutional neural networks,CNN)模型或者循环神经网络(recurrent neural network,RNN)模型。唤醒声学模型也可以采用Logistic回归模型、支持向量机(support vector machines,SVM)、朴素贝叶斯(Naive Bayes,NB)、K近邻(k-nearest neighbor,KNN)、决策树(decision tree,DT)或者集成模型等等。
本申请实施例中,建模单元可以指音素、音节或者汉字之类的内容。例如,在“xiaoA,xiao A”中,“xiao”可以是一个建模单元,“A”可以是一个建模单元,以此类推,在此不再赘述。或者,在另一种实现中,在“xiao”中,“X”可以是一个建模单元,“i”也可以是一个建模单元,以此类推,在此不再赘述。
一个或者多个建模单元构成一个解码路径,例如,一条解码路径包括“xiao,A,xiao,A”,或者包括“x,i,a,o,A”等。
进一步地,通过合成语音数据中各个建模单元对应到每个时间帧中的声学后验概率进行维特比搜索得到强制对齐信息,即时间帧与建模单元的对应关系,以及时间帧对应的建模单元的声学后验概率。
可选地,在通过合成语音数据中各个建模单元对应到每个时间帧中的声学后验概率进行维特比搜索时,可以先确定该合成语音数据中是否存在唤醒词,若不存在唤醒词可以将合成语音数据删除。示例性地,在执行维特比搜索时,还可以将噪声时间帧、空白时间帧删除。若合成语音数据包括预定义唤醒词,从而获得预定义唤醒词对应的解码路径中的时间帧(比如10ms)对应的建模单元的声学后验概率,即得到建模单元的强制对齐信息。即时间帧与建模单元的对应关系。
比如合成语音数据中包括100个时间帧,每个时间帧分别对应N个建模单元均存在声学后验概率,在确定包括唤醒词时,确定唤醒词对应建模单元的声学后验概率,以及建模单元所在的时间帧。比如解码路径为:x-i-a-o-A-x-i-a-o-A,进而从100个时间帧中确定分别解码为建模单元x,i,a,o,A的各个时间帧,以及对应的声学后验概率,获得强制对齐信息。例如,时间帧1解码为建模单元x,并且时间帧1对应解码建模单元x的声学后验概率为P1。
比如,第k个合成语音数据中解码为预定义唤醒词包括的建模单元的时间帧数量为mk。比如,预定义唤醒词包括2个建模单元,分别为建模单元1和建模单元2,则mk个时间帧中一部分时间帧解码为建模单元1,另一部分时间帧解码为建模单元2。
906,获取M个基本计算单元对应于第j个建模单元Sj的声学后验概率的平均值;j取遍小于或者等于N1的正整数。
比如合成语音数据集的有效时间片段中包括N1个建模单元(即自定义唤醒词的解码路径包括的建模单元数量),针对一个建模单元,确定合成语音数据集中有效时间片段包括解码为该建模单元Sj的时间帧的数量dj以及dj个时间帧中对应该建模单元Sj的声学后验概率表示为P(Sj|Xi),从而求取平均值
908,根据所述第j个建模单元的声学后验概率的平均值和所述最大值获得所述第j个建模单元的概率补偿值。
907,服务器根据经过补偿后的每个建模单元的修正声学后验概率P’(Sj)计算经过解码后得到的合成语音数据集中每个合成语音数据中的唤醒词的整体概率得分(t为唤醒词的持续时间)。将合成语音数据集中所有合成语音数据的得分求平均得到平均似然度得分(n为唤醒词个数,即合成语音数据集中合成语音数据的个数),作为新的唤醒阈值(或者称为唤醒阈值)。
可选地,还可以将似然度得分进行微调F=favg+△作为新的唤醒阈值。其中△可以根据实际任务进行调整,为了提升唤醒率可以设△为一个小的负值,为了降低误唤醒率,可以设△为一个小的正值。可选地,该△可以是根据经验得出的一个设定值配置于服务器中的。△值的设定,可以由终端设备的用户所调整的唤醒灵敏度来确定,比如不同的唤醒灵敏度对应不同的△值。
作为一种示例,唤醒设置中可以包括唤醒灵敏度的设置控件。作为一种示例中,结合图7B所示的唤醒设置的用户界面720来说,参见图10所示,终端设备响应于用户针对语音唤醒721的操作,显示用户界面1010,用户界面1010中包括唤醒灵敏度的设置控件1001。图10中,唤醒灵敏度包括三个等级,分别为低、中和高。不同的等级对应的△值不同,唤醒灵敏度越高,△值越小。需要说明的是,本申请实施例中并不对唤醒灵敏度的等级划分进行限定,可以划分更多或者更少的等级。终端设备在获取到用户选择的唤醒灵敏度等级时,将唤醒灵敏度等级发送给服务器,从而服务器在确定唤醒阈值时,根据将唤醒灵敏度等级对应的△值来确定。
908,服务器将新的唤醒阈值发送给自定义唤醒词所作用的电子设备,比如该终端设备,该终端设备可以采用该唤醒阈值来对终端设备执行唤醒操作。
在一些实施例中,服务器在发送自定义唤醒词以及自定义唤醒词对应的唤醒阈值时,还可以将自定义唤醒词包括的N1个建模单元的概率补偿值发送给自定义唤醒词所作用的电子设备。后续描述时,以服务器将唤醒阈值和自定义唤醒词包括建模单元的概率补偿值发送给电子设备为例。所述概率补偿值集合包括在使用场景信息所指示的使用场景下,所述自定义唤醒词包括的N1个建模单元的概率补偿值。第一建模单元的概率补偿值用于在确定所述语音信息中包括所述自定唤醒词中所述第一建模单元的声学后验概率时,补偿所述第一建模单元的声学后验概率,所述第一建模单元为所述N1个建模单元中的任一个。比如,自定义唤醒词中包括xiao,A,xiao,A;所述自定义唤醒词中建模单元分别包括x-i-a-o-A-x-i-a-o-A;以第一建模单元为x为例,在电子设备通过声学概率模型确定x的声学后验概率后,再使用该x的概率补偿值对通过声学概率模型确定x的声学后验概率进行补偿,作为该建模单元x的声学后验概率。然后再进一步通过确定的各个建模单元的声学后验概率确定接收到语音信息中包括自定义唤醒词的概率是否达到自定义唤醒词对应的唤醒阈值,来决定是否唤醒该电子设备。
另一些实施例中,服务器在发送自定义唤醒词以及自定义唤醒词对应的唤醒阈值时,服务器还可以将自定义唤醒词对应的使用场景信息发送给自定义唤醒词所作用的电子设备。
又一些实施例中,服务器在发送自定义唤醒词以及自定义唤醒词对应的唤醒阈值时,服务器还可以将自定义唤醒词对应的使用场景信息以及自义定唤醒词的使用位置区域信息、使用时间段信息或者局域网信息发送给自定义唤醒词所作用的电子设备。
下面结合具体实施例针对第二种可能的应用场景下的音频控制方法进行详细说明。
在第二种可能的应用场景中,终端设备根据用户需求设置自定义唤醒词,该自定义唤醒词可以适用于一个电子设备或者多个电子设备。
一种可能的示例中,参见图11所示,为一种可能的添加自定义唤醒词的用户界面1110示意图。一些实施例中,结合图7B,终端设备可以响应于对添加自定义唤醒词722的操作,显示用户界面1110。用户界面1110可以包括用于输入自定义唤醒词的文本框1111,用户语音输入自定义唤醒词的控件1112。用户界面1110包括多设备协同的选择控件1113。多设备协同的选择控件1113用于选择自定义唤醒词所适用的电子设备,或者说用于选择自定义唤醒词所同步到的电子设备。可选地,用户界面1110中还可以包括使用模式1114和/或设备模式1115。
针对自定义唤醒词的文本框1111的输入方式与图8B的文本框811的输入方式类似,可以参见图8B针对文本框的输入说明,此处不再赘述。针对语音输入自定义唤醒词的语音输入方式,与图8C的中语音输入自定义唤醒词的输入方式类型,可以参见图8C中针对语音输入自定义唤醒词的输入说明,此处不再赘述。针对私有模式的选择方式与图8D中的使用模式的选择方式类似,可以参见图8D中的私有模式的选择说明,此处不再赘述。针对公有模式的选择说明与图8E中的使用模式的选择方式类型,可以图8E中的公有模式的选择说明,此处不再赘述。另外,针对设备模式的选择说明,可以参见在第一种可能的应用场景中针对设备模式的相关说明,此处不再赘述。
下面重点描述针对多设备协同的选择控件1113。
一些实施例中,以使用模式为私有模式为例。以用户通过语音输入自定义唤醒词为“小A,小A”,选择的使用模式为私有模式,设备模式为近场模式,参见图12A所示。终端设备响应于用户针对多设备协同选择项的选中操作,然后多设备协同选项下,可以选择同步到所有设备,或者同步到指定设备。在多设备协同的选择项未被选中时,同步到所有设备以及同步到指定设备的选择项无法被选中。若选择同步到所有设备,终端设备检测到用户针对同步到所有设备的选择控件的操作,则确定在语音控制系统中的一组电子设备中均同步该自定义唤醒词,参见图12A所示。在另一些实施例中,参见图12B所示,终端设备响应于用户针对多设备协同选择项的选中操作,然后多设备协同选项下,可以选择同步到所有设备,或者同步到指定设备。若选择同步到指定设备,终端设备检测到用户针对同步到指定设备的选择控件的操作,用户可以根据需求选择指定设备中的一项或多项。图12B中仅以两个电子设备,分别为电子设备1和电子设备2作为举例,用于可以选中电子设备1,也可以选中电子设备2。具体的,终端设备检测到用户在电子设备1的选项中的选择操作,比如参见图12B所示的显示形式,则确定同步到指定设备包括电子设备1。终端设备检测到用户在电子设备2的选项中的选择操作,比如参见图12B所示的显示形式,则确定同步到指定设备还包括电子设备2。则确定在语音控制系统中的电子设备1和电子设备2中均同步该自定义唤醒词,参见图12B所示。
一种示例中,在用户未选择同步到哪个指定设备时,可以默认为当前终端设备。终端设备将用户的自定义唤醒词的语音信息(和/或自定义唤醒词的文本)、用户选择的模式信息(包括使用场景信息以及自定义唤醒词作用的电子设备信息)发送给服务器。使用场景信息包括使用模式、设备模式中一项或多项。
进一步的,服务器根据用户的自定义唤醒词的语音信息(和/或自定义唤醒词的文本)和用户选择的使用场景信息为终端设备的自定义唤醒词确定唤醒阈值,并发送给终端设备。在一些实施例中,服务器还可以将为终端设备确定的自定义唤醒词包括的建模单元的概率补偿值和唤醒阈值一并发送给终端设备。
另一种示例中,在用户选择同步到一个指定设备时,终端设备将用户的自定义唤醒词的语音信息(和/或自定义唤醒词的文本)和用户选择的模式信息(包括使用场景信息以及自定义唤醒词作用的电子设备信息)发送给服务器。使用场景信息包括使用模式或者设备模式中的一项或多项。进一步的,服务器根据用户的自定义唤醒词的语音信息(和/或自定义唤醒词的文本)和用户选择的使用场景信息为终端设备的自定义唤醒词确定唤醒阈值(还可以包括自定义唤醒词包括的建模单元的概率补偿值),并发送给指定设备。
另一种示例中,在用户选择同步到多个指定设备时,终端设备将用户的自定义唤醒词的语音信息(和/或自定义唤醒词的文本)和用户选择的模式信息(包括使用场景信息以及自定义唤醒词作用的电子设备信息)发送给服务器。使用场景信息包括使用模式或者设备模式中一项或多项。进一步的,服务器根据用户的自定义唤醒词的语音信息(和/或自定义唤醒词的文本)和用户选择的使用场景信息为多个指定设备的自定义唤醒词确定唤醒阈值(还可以包括自定义唤醒词包括的建模单元的概率补偿值),并发送给多个指定设备。
又一种示例中,在用户选择同步到所有电子设备或者指定电子设备时,终端设备可以根据电子设备的设备类型来确定各个电子设备的使用模式和/或设备模式。例如,电子设备的设备类型与使用模式和设备模式的关联关系可以参见表1所示。在该示例中,用户针对自定义唤醒词选择的使用模式和设备模式可以不产生作用。
表1
设备类型 | 使用模式 | 设备模式 |
手机 | 私有模式 | 近场模式 |
平板 | 私有模式 | 近场模式 |
电脑 | 私有模式 | 远场模式 |
智能电视 | 共有模式 | 远场模式 |
智能音箱 | 共有模式 | 远场模式 |
智能家电 | 共有模式 | 远场模式 |
车载设备 | 共有模式 | 近场模式 |
又一种示例中,在用户选择同步到所有电子设备或者指定电子设备时,终端设备的用户可以不对指定电子设备的设备模式和使用模式进行配置,终端设备将用户的自定义唤醒词的语音信息(和/或自定义唤醒词的文本)和用户选择的多设备协同信息发送给服务器。用户选择的多设备协同信息包括同步到的指定设备的标识或者指示同步到所有设备。服务器根据同步到的电子设备的设备类型确定各个电子设备的使用模式和/或设备模式。进一步的,服务器根据用户的自定义唤醒词的语音信息(和/或自定义唤醒词的文本)和使用场景信息为每个电子设备的自定义唤醒词确定唤醒阈值(还可以包括自定义唤醒词包括的建模单元的概率补偿值),并根据多设备协同信息把自定义唤醒词和为每个电子设备分别确定的该自定义唤醒词对应的唤醒阈值(还可以包括自定义唤醒词包括的建模单元的概率补偿值)发送给相应的电子设备。
例如,指定电子设备包括平板,平板的使用模式为私有模式、设备模式为近讲模式,则服务器根据私有模式、近场模式以及平板的私有用户的语音信息以及自定义唤醒词为该平板确定该自定义唤醒词的唤醒阈值和自定义唤醒词包括的建模单元的概率补偿值,然后将该自定义唤醒词和自定义唤醒词的唤醒阈值发送给平板。再例如,指定电子设备包括智能电视,智能电视的使用模式为公有模式、设备模式为远场模式,则服务器根据私有模式、近场模式以及自定唤醒词的文本(或者自定义唤醒词的语音数据)为该智能电视确定该自定义唤醒词的唤醒阈值和自定义唤醒词包括的建模单元的概率补偿值,然后将该自定义唤醒词、自定义唤醒词的唤醒阈值和自定义唤醒词包括的建模单元的概率补偿值发送给智能电视。再例如,指定电子设备包括耳机,耳机的使用模式为私有模式、设备模式为近场模式,则服务器根据私有模式、近场模式以及自定义唤醒词的语音数据为该耳机确定该自定义唤醒词的唤醒阈值和自定义唤醒词包括的建模单元的概率补偿值,然后将该自定义唤醒词、自定义唤醒词的唤醒阈值和自定义唤醒词包括的建模单元的概率补偿值发送给耳机。再例如,指定电子设备包括车载终端,车载终端的使用模式为私有模式、设备模式为近场模式,则服务器根据私有模式、近场模式以及自定义唤醒词的语音数据为该耳机确定该自定义唤醒词的唤醒阈值和自定义唤醒词包括的建模单元的概率补偿值,然后将该自定义唤醒词、自定义唤醒词的唤醒阈值和自定义唤醒词包括的建模单元的概率补偿值发送给车载终端。
在一些实施例中,用户根据需求针对不同的电子设备所采用的使用模式、设备模式和使用该自定义唤醒词唤醒电子设备时执行的动作进行配置。
一种示例中,结合图12B,终端设备响应于用户选中电子设备1的设置按钮的操作,显示用户界面1210,参见图12C所示,用户界面1210中包括针对该电子设备1在使用该自定义唤醒词时的选择模式、设备模式以及动作选择。用户可以根据需求进行选择。
在一种可能的实施方式中,终端设备还可以为用户提供用于对系统中的唤醒词进行统一管理的用户界面。作为一种示例,参见图13所示,为一种可能的对唤醒词进行统一管理的用户界面1310。用户可以根据需求对唤醒词适配的电子设备、唤醒词的使用模式、唤醒词的设备模式等进行修改。举例来说,语音控制系统中包括唤醒词如图13所示。用户界面1310中包括针对各个唤醒词设置的选择控件,如图13中的1311-1314等。响应于用户针对唤醒词“小A小A”的设置操作,显示针对“小A小A”的当前设置的使用模式、设备模式或者适配的电子设备等,例如参见图13所示,“小A小A”的当前使用模式是私有模式,设备模式是近场模式、适配的电子设备为电子设备1和电子设备2。用户可以根据需求对使用模式、设备模式或者适配的电子设备进行更改。需要说明的是,当用户针对唤醒词的使用模式或者设备模式进行更改时,需要通过服务器向适配的电子设备发送更新后的唤醒词的唤醒阈值。如果服务器针对更改后的使用模式或者设备模式配置过该唤醒词的唤醒阈值,可以将预先存储的该使用模式或者设备模式下的唤醒阈值发送给适配的电子设备。作为一种举例,终端设备响应于用户针对用户界面720中唤醒词管理的设置控件723的操作时,显示唤醒词管理的用户界面1310。
在另一种可能的实施方式中,终端设备还可以为用户提供用于对系统中的电子设备的唤醒词进行统一管理的用户界面。作为一种示例,参见图14所示,为一种可能的对电子设备进行统一管理的用户界面1410。用户可以根据需求对电子设备采用的唤醒词、唤醒词唤醒电子设备时执行的动作、唤醒词的使用模式、唤醒词的设备模式、唤醒词适配的其它电子设备等进行修改。举例来说,语音控制系统中包括电子设备如图14所示。用户界面1410中包括针对各个电子设备进行设置的选择控件。响应于用户针对电子设备1的设置操作,用户界面1410显示针对电子设备1配置的唤醒词、电子设备当前使用的唤醒词、以及针对唤醒的动作以及使用场景信息的设置控件等。用户可以根据需求选择唤醒词以及唤醒词对应执行的动作,以及使用场景信息。用户可以根据需求对使用模式、设备模式或者适配的电子设备进行更改。需要说明的是,当用户针对唤醒词的使用模式或者设备模式进行更改时,需要通过服务器向适配的电子设备发送更新后的唤醒词的唤醒阈值和唤醒词包括的建模单元的概率补偿值。如果服务器针对更改后的使用模式或者设备模式配置过该唤醒词的唤醒阈值和唤醒词包括的建模单元的概率补偿值,可以将预先存储的该使用模式或者设备模式下的唤醒阈值和唤醒词包括的建模单元的概率补偿值发送给适配的电子设备。作为一种举例,终端设备响应于用户针对用户界面720中唤醒设备管理的设置控件724的操作时,显示唤醒设备管理的用户界面1410。
在第二种可能的应用场景下,一些实施例中,用户可以根据需求设置自定义唤醒词所使用的位置或者所连接的局域网络或者使用时间段等等。比如,不同的位置可以对应于不同的使用模式。再比如,不同的局域网络对应于不同的使用模式。又比如,不同的时间段对应不同的使用模式。
比如,针对同一个唤醒词或者不同唤醒词配置所使用的位置以及在该位置下的使用场景。比如用户在家中可以采用公有模式或者远场模式等。在除家里以外的地方采用私有模式或者近场模式等。
又比如,针对同一个唤醒词或者不同唤醒词配置所使用的局域网以及在该局域网下的使用场景。比如电子设备连接家里的局域网情况下,可以配置公有模式或者远场模式等。比如,连接公司的局域网时,可以配置私有模式或者近场模式等。
再比如,针对同一个唤醒词或者不同唤醒词配置所使用的时间段以及该时间段的使用场景。比如夜间,可以配置近场模式,比如白天,可以配置远程模式。
再比如,针对同一个唤醒词或者不同唤醒词配置所使用的时间段和局域网,比如夜间连接家里的局域网时,可以配置远场模式和/或公有模式,其余情况均配置为近场模式和/或私有模式。
作为一种举例,参见图8F所示为一种可能的配置使用位置的示意图。图8E仅作为一种示例,并不对具体选择方式以及界面显示形式进行具体限定。比如可以采用排他性的选择方式,例如,排除某个位置以外的其它位置对应配置的使用场景。再比如,采用包含的选择方式,例如,选择某个位置对应配置的使用场景。
进一步地,服务器在接收到该自定义唤醒词对应的使用场景信息和用户输入的位置区域信息、时间段信息或者局域网信息时,可以将使用场景信息和用户输入的位置区域信息、时间段信息或者局域网信息配置该自定义唤醒词作用的电子设备。电子设备可以关联保存使用场景信息、位置区域信息、时间段信息、局域网信息、自定义唤醒词、唤醒阈值。
下面针对电子设备根据唤醒阈值(和唤醒词包括的建模单元的概率补偿值)执行唤醒操作的流程进行详细说明。参见图15所示,以第一电子设备为例,第一电子设备当前配置的唤醒词为第一唤醒词。
1501,第一电子设备监听语音信息。
一些实施例中,可以通过麦克风或者麦克风阵列监听语音信息。
1502,第一电子设备确定语音信息包括第一唤醒词的概率大于第一唤醒阈值时,执行在第一使用场景下所述第一唤醒词对应的唤醒第一电子设备的操作;第一唤醒阈值是第一唤醒词在第一使用场景下的唤醒阈值。比如,第一使用场景可以包括私有模式或者公有模式,第一使用场景还可以包括近场模式或者远场模式。
不同的唤醒词在不同使用场景下,对应的唤醒阈值不同。同一唤醒词,在不同的使用场景下,对应的唤醒阈值不同。
比如,第一电子设备,进一步确定所述语音信息中包含第二唤醒词的概率大于第二唤醒阈值时,执行在第二使用场景下所述第二唤醒词对应的唤醒所述第一电子设备的第二操作;所述第二唤醒词是配置于所述第一电子设备中的在所述第二使用场景下的唤醒词,所述第二唤醒阈值是所述第二唤醒词在所述第二使用场景下的唤醒阈值。第一唤醒词与第二唤醒可以不同,或者相同。
在一些实施例中,针对同一唤醒词,在不同的使用场景下的唤醒阈值不同。例如,针对一个电子设备的一个唤醒词可以配置不同的使用场景,不同的使用场景对应的唤醒阈值不同,从而唤醒的效果跟随使用场景的变化而变化。用户可以根据需求配置使用该唤醒词时的使用场景。又例如,针对一个电子设备的一个唤醒词可以配置不同的使用场景,不同的使用场景对应的唤醒阈值不同,从而唤醒的效果跟随使用场景的变化而变化。用户可以根据该唤醒词的多种使用场景,不同的使用场景对应不同的位置区域或者不同的使用场景对应不同的时间段、或者不同的使用场景对应不同的局域网。
在另一些实施例中,针对一个电子设备,不同的唤醒词对应不同的使用场景,从而电子设备可以根据唤醒词确定使用场景。可选地,不同的唤醒词还可以对应不同的位置区域或者不同的唤醒词对应不同的时间段或者不同的唤醒词对应不同的局域网。
一些实施例中,第一电子设备的第一唤醒词以及第一唤醒阈值可以是自身确定的,比如第一电子设备为终端设备。具体确定方式如前所述,此处不再赘述。
另一些实施例中,第一电子设备的第一唤醒词也可以是由服务器确定的并向第一电子设备发来的。第一电子设备可以连接到服务器。比如,服务器为云端的服务器,第一电子设备可以注册到云端的服务器。
又一些实施例中,第一电子设备的第一唤醒词,也可以是由终端设备确定的并向第一电子设备发来的。第一电子设备可以与终端设备建立连接,比如近距离通信连接,例如,蓝牙、WIFI等方式。
在一种可能的实施方式中,第一电子设备在确定语音信息包括第一唤醒词的概率大于第一唤醒阈值时,可以通过如下方式来实现:
确定配置于所述第一电子设备的各个唤醒词和各个唤醒词分别对应的使用场景信息,所述各个唤醒词中包括所述第一唤醒词。进一步地,获取各个唤醒词分别对应的使用场景下的唤醒阈值。各个唤醒词的使用场景信息对应不同的唤醒阈值。
作为一种举例,为第一电子设备配置一个唤醒词,该唤醒词仅对应一种使用场景。
作为另一种举例,第一电子设备配置的唤醒词与第一电子设备的当前注册用户有关。第一电子设备上随着注册用户的变化,配置的唤醒词或配置的唤醒词的使用场景发生变化。在第一电子设备上注册的不同用户的相同唤醒词的使用场景可以不同,也可以相同。进一步地,确定配置于所述第一电子设备的各个唤醒词和各个唤醒词分别对应的使用场景信息时,可以根据使用第一电子设备的第一用户的用户信息确定所述第一用户对应在所述第一电子设备上的各个唤醒词以及各个唤醒词分别对应的使用场景信息。
在一种可能的实施方式中,第一电子设备在确定语音信息包括第一唤醒词的概率大于第一唤醒阈值时,可以根据概率补偿值集合来确定语音信息中包括第一唤醒词的概率大于第一唤醒阈值。概率补偿值集合中包括在第一使用场景下所述第一唤醒词包括的N1个建模单元的概率补偿值,N1为正整数。第一建模单元的概率补偿值用于在确定语音信息中包括第一建模单元的声学后验概率时,补偿第一建模单元的声学后验概率,第一建模单元为N1个建模单元的任一个。
例如,第一唤醒词中包括xiao,hua,xiao,hua;所述第一唤醒词中建模单元分别包括x-i-a-o-h-u-a-x-i-a-o-h-u-a;以第一建模单元为x为例,在第一电子设备通过声学概率模型确定x的声学后验概率后,再使用该x的概率补偿值对通过声学概率模型确定的x的声学后验概率进行补偿,作为该建模单元x的声学后验概率。然后再进一步通过确定的各个建模单元的声学后验概率确定接收到语音信息中包括自定义唤醒词的概率是否达到自定义唤醒词对应的唤醒阈值,来决定是否唤醒该电子设备。
下面结合图4B的应用程序框架层对语音唤醒流程进行详细说明。
A1,通过框架层对象接收麦克风检测到的所述语音信息;
框架层对象可以是应用程序框架层中的语音唤醒引擎,或者HMS core中的语音唤醒引擎。
作为一种示例,语音唤醒引擎也可以位于应用程序层。
A2,通过所述框架层对象确定配置于所述第一电子设备的至少一个唤醒词和所述至少一个唤醒词分别对应的使用场景信息,所述至少一个唤醒词包括所述第一唤醒词。
A3,通过框架层对象获取存储的每个唤醒词的使用场景信息对应的唤醒阈值。
框架层对象可以从存储服务获取配置于所述第一电子设备的一个或者多个唤醒词,以及每个唤醒词对应的使用场景信息下的唤醒阈值。
作为一种举例,为第一电子设备配置一个唤醒词,该唤醒词的使用场景已经确定。
作为另一种距离,在第一电子设备上不同用户的相同唤醒词的使用场景可以不同,也可以相同。
A4,通过框架层对象确定所述语音信息包括所述第一唤醒词的概率大于所述第一唤醒阈值且所述语音信息包括其它唤醒词的概率小于或者等于所述其它唤醒词的唤醒阈值。
可以理解的是,为了实现上述方法实施例中功能,电子设备包括了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本申请中所公开的实施例描述的各示例的模块及方法步骤,本申请能够以硬件或硬件和计算机软件相结合的形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用场景和设计约束条件。
基于与上述方法同样的发明构思,如图16所示,本申请实施例还提供一种语音控制装置1600。语音控制装置应用于电子设备或者具有触控显示功能的终端设备中,比如应用于图2所示的电子设备100中,或者图3所示的终端设备200,装置1600可以用于实现上述方法实施例中终端设备或者电子设备的功能,因此可以实现上述方法实施例所具备的有益效果。例如,语音控制装置可以包括监听模块1601,处理模块1602。
一些实施例中:
监听模块1601,用于监听语音信息;
处理模块1602,用于确定语音信息中包含第一唤醒词的概率大于第一唤醒阈值时,执行在第一使用场景下所述第一唤醒词对应的唤醒第一电子设备的第一操作;所述第一唤醒词是配置于所述第一电子设备中在所述第一使用场景下的唤醒词,所述第一唤醒阈值是所述第一唤醒词在所述第一使用场景下的唤醒阈值;
处理模块1602,用于确定所述语音信息中包含第二唤醒词的概率大于第二唤醒阈值时,执行在第二使用场景下所述第二唤醒词对应的唤醒所述第一电子设备的第二操作;所述第二唤醒词是配置于所述第一电子设备中的在所述第二使用场景下的唤醒词,所述第二唤醒阈值是所述第二唤醒词在所述第二使用场景下的唤醒阈值;其中,第一唤醒阈值不同于第二唤醒阈值。
在一种可能的实施方式中,所述第一唤醒词不同于所述第二唤醒词。
在一种可能的实施方式中,所述第一电子设备接入第一局域网时,所述第一电子设备的使用场景为所述第一使用场景;所述第一电子设备接入第二局域网时,所述第一电子设备的使用场景为所述第二使用场景;或者,
所述第一电子设备位于第一位置区域时,所述第一电子设备的使用场景为所述第一使用场景,所述第一电子设备处于第二位置区域时,所述第一电子设备的使用场景为所述第二使用场景。
在一种可能的实施方式中,处理模块1602,在确定语音信息中包含第一唤醒词的概率大于第一唤醒阈值之前,还用于获取用户输入的信息,所述信息包括所述第一唤醒词的唤醒词数据以及所述第一唤醒词的使用场景信息,所述使用场景信息指示的使用场景为所述第一使用场景;所述唤醒词数据和所述使用场景信息用于确定所述第一唤醒阈值。
在一种可能的实施方式中,还可以包括收发模块1603,用于将包括所述唤醒词数据和所述使用场景信息的用户输入的信息发送给服务器;接收来自所述服务器根据所述唤醒词数据和所述使用场景信息确定的所述第一唤醒阈值。
在一种可能的实施方式中,所述处理模块1602,还用于:根据所述使用场景信息对所述唤醒词数据进行合成处理得到合成语音数据集;根据合成语音数据集确定所述第一唤醒词在第一使用场景下的第一唤醒阈值。
在一种可能的实施方式中,所述使用场景信息包括使用模式和/或设备模式;其中,所述使用模式指示私有模式或者公有模式,所述私有模式用于指示所述第一唤醒词适配一个私有用户,所述公有模式用于指示所述第一唤醒词适配多个用户;所述设备模式指示近讲模式或者远讲模式,所述近讲模式的唤醒距离小于所述远讲模式的唤醒距离;所述唤醒距离为声源与所述第一电子设备之间的距离。
在一种可能的实施方式中,所述使用场景信息包括所述使用模式,所述使用模式指示公有模式,所述处理模块1602,具体用于:若所述唤醒词数据为文本格式,对所述唤醒词数据进行文本到语音TTS处理得到第一语音数据,对所述第一语音数据进行数据增广处理得到多个第一语音合成数据,所述合成数据集包括所述多个第一语音合成数据和所述第一语音数据;或者,若所述唤醒词数据为语音格式,对所述唤醒词数据进行数据增广处理得到多个第二语音合成数据;所述合成数据集包括所述多个第二语音合成数据和所述唤醒词数据。
在一种可能的实施方式中,所述使用场景信息包括所述使用模式,所述使用模式指示私有模式,所述唤醒词数据为语音格式;所述处理模块1602,具体用于:对所述唤醒词数据进行声音克隆处理得到多个第三语音合成数据;所述合成数据集包括所述多个第三语音合成数据和所述唤醒词数据。
在一种可能的实施方式中,所述使用场景信息包括使用模式和设备模式,所述使用模式指示公有模式,所述设备模式指示远讲模式;所述处理模块1602,具体用于:所述唤醒词数据为文本格式的情况下,对所述唤醒词数据进行TTS处理得到第二语音数据,对所述第二语音数据进行数据增广处理得到多个第四语音合成数据,并对所述第四语音合成数据和所述第二语音数据转换为远讲语音得到所述合成语音数据集;或者,所述唤醒词数据为语音格式的情况下,对所述唤醒词数据进行数据增广处理得到多个第五语音合成数据,并对所述第四语音合成数据和所述唤醒词数据转换为远讲语音得到所述合成语音数据集。
在一种可能的实施方式中,还包括显示模块1604,用于显示第一用户界面,所述第一用户界面包括用于用户输入第一唤醒词的输入控件和用于选择所述第一唤醒词的使用场景的第一选择控件;所述处理模块1602,还用于响应于用户通过输入控件输入的第一唤醒词以及通过所述第一选择控件选择第一使用场景的操作,则获取所述唤醒词数据以及所述第一唤醒词的使用场景信息。
在一种可能的实施方式中,显示模块1604,还用于显示控制主界面,所述控制主界面包括用于添加自定义的唤醒词的第一选项;所述处理模块1602,还用于响应于用户选择所述第一选项的操作,显示模块1604,还用于显示所述第一用户界面。
在一种可能的实施方式中,所述控制主界面还包括用于选择对所述第一电子设备定义的N个唤醒词进行管理的第二选项;所述处理模块1602,还用于响应于用于选择第二选项的操作,显示模块1604,还用于显示第三用户界面;其中,所述第三用户界面包括N个唤醒词选项,不同的唤醒词选项用于选择不同的唤醒词;所述第三用户界面还包括用于选择每个唤醒词对应的使用场景的第二选择控件。
在一种可能的实施方式中,所述处理模块1602,具体用于根据概率补偿值集合确定所述语音信息中包括第一唤醒词的概率大于所述第一唤醒阈值;其中,所述概率补偿值集合包括在所述第一使用场景下用于确定语音信息中是否包括所述第一唤醒词的N1个建模单元的概率补偿值,N1为正整数;第一建模单元的概率补偿值用于在确定所述语音信息中包括所述第一建模单元的声学后验概率时,补偿所述第一建模单元的声学后验概率,所述第一建模单元的声学后验概率用于确定所述第一唤醒词的概率,所述第一建模单元为所述N1个建模单元中的任一个。
在一种可能的实施方式中,所述处理模块1602,还用于根据所述合成语音数据集确定所述第一唤醒词在第一使用场景下的概率补偿值集合。
在一种可能的实施方式中,所述处理模块1602,具体用于提取所述K个合成语音数据中每个基本计算单元的语音特征信息;根据每个基本计算单元的语音特征数据确定M个基本计算单元对应的建模单元的声学后验概率;所述M个基本计算单元对应的建模单元为所述第一唤醒词包括的建模单元;获取M个基本计算单元对应于第j个建模单元的声学后验概率的平均值;所述第i个建模单元为所述N1个建模单元中的第j个,j取遍小于或者等于N1的正整数;获取N1个建模单元的声学后验概率的平均值中的最大值;根据所述第j个建模单元的声学后验概率的平均值和所述最大值获得所述第j个建模单元的概率补偿值。
在一种可能的实施方式中,所述处理模块1602,具体用于根据所述第j个建模单元的概率补偿值,对所述M个基本计算单元对应于第j个建模单元的声学后验概率进行概率补偿得到第j个建模单元的补偿后的声学后验概率,j取遍小于或者等于N1的正整数;根据N1个建模单元的补偿后的声学后验概率确定所述合成语音数据集包括所述第一唤醒词的概率,所述合成语音数据集中包括所述第一唤醒词的概率用于确定所述第一唤醒阈值。
在一种可能的实施方式中,所述收发模块1603,还用于确定语音信息中包含第一唤醒词的概率大于第一唤醒阈值之前,接收服务器发送的控制消息,所述控制消息包括所述第一唤醒词、用于指示第一唤醒词的第一使用场景的使用场景信息以及所述第一唤醒词在第一使用场景下的第一唤醒阈值。
在一种可能的实施方式中,所述处理模块1602,具体用于通过框架层对象接收麦克风检测到的所述语音信息;通过所述框架层对象确定配置于所述第一电子设备的至少一个唤醒词和所述至少一个唤醒词分别对应的使用场景信息,所述至少一个唤醒词包括所述第一唤醒词;通过框架层对象获取存储的每个唤醒词的使用场景信息对应的唤醒阈值;通过框架层对象确定所述语音信息包括所述第一唤醒词的概率大于所述第一唤醒阈值且所述语音信息包括其它唤醒词的概率小于或者等于所述其它唤醒词的唤醒阈值。
基于此,本申请实施例中还提供一种语音控制装置,参见图17所示,语音控制装置1700中包括处理器1701、麦克风1702、存储器1703。存储器1703用于存储处理器1701执行的指令或程序,或存储处理器1701运行指令或程序所需要的输入数据,或存储处理器1701运行指令或程序后产生的数据。麦克风用于监听语音信息。处理器1701用于运行存储器1703存储的指令或者程序,执行上述任一方法实施例中的电子设备或者终端设备的功能。语音控制装置1700还可以包括收发器1704,用于收发数据,比如发送用户输入的信息,或者接收唤醒词和唤醒阈值等。收发器1704可以使用任何具有收发一类功能的装置,用于与其他设备或通信网络通信,如以太网,无线接入网(radio access network,RAN),无线局域网(wireless local area networks,WLAN),有线接入网等。语音控制装置1700用于实现终端设备的功能时,语音控制装置1700中还可以包括显示屏1705,显示屏1705可以具有触控检测功能。
一种示例中,处理器1701用于执行上述监听模块1601和处理模块1602、收发模块1603和显示模块1604的功能。另一种示例中,监听模块1601的功能由麦克风1702实现,处理模块1602的功能由处理器1701实现,收发模块1603的功能由收发器1704实现,显示模块1604的功能可由显示屏1705实现。
可以理解的是,本申请的实施例中的处理器可以是中央处理单元(centralprocessing unit,CPU),还可以是其它通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现场可编程门阵列(field programmable gate array,FPGA)或者其它可编程逻辑器件、晶体管逻辑器件,硬件部件或者其任意组合。通用处理器可以是微处理器,也可以是任何常规的处理器。
本申请的实施例中的方法步骤可以通过硬件的方式来实现,也可以由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成,软件模块可以被存放于随机存取存储器(random access memory,RAM)、闪存、只读存储器(read-only memory,ROM)、可编程只读存储器(programmableROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically ePROM,EEPROM)、寄存器、硬盘、移动硬盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。另外,该ASIC可以位于终端设备中。当然,处理器和存储介质也可以作为分立组件存在于终端设备中。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机程序或指令。在计算机上加载和执行所述计算机程序或指令时,全部或部分地执行本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、用户设备或者其它可编程装置。所述计算机程序或指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机程序或指令可以从一个网站站点、计算机、服务器或数据中心通过有线或无线方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是集成一个或多个可用介质的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,例如,软盘、硬盘、磁带;也可以是光介质,例如,数字视频光盘(digital video disc,DVD);还可以是半导体介质,例如,固态硬盘(solid state drive,SSD)。
在本申请的各个实施例中,如果没有特殊说明以及逻辑冲突,不同的实施例之间的术语和/或描述具有一致性、且可以相互引用,不同的实施例中的技术特征根据其内在的逻辑关系可以组合形成新的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元。方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
尽管结合具体特征及其实施例对本申请进行了描述,显而易见的,在不脱离本申请的精神和范围的情况下,可对其进行各种修改和组合。相应地,本说明书和附图仅仅是所附权利要求所界定的方案进行示例性说明,且视为已覆盖本申请范围内的任意和所有修改、变化、组合或等同物。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的范围。这样,倘若本申请实施例的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (38)
1.一种语音控制方法,其特征在于,包括:
监听语音信息;
确定语音信息中包含第一唤醒词的概率大于第一唤醒阈值时,执行在第一使用场景下所述第一唤醒词对应的唤醒第一电子设备的第一操作;所述第一唤醒词是配置于所述第一电子设备中在所述第一使用场景下的唤醒词,所述第一唤醒阈值是所述第一唤醒词在所述第一使用场景下的唤醒阈值;
确定所述语音信息中包含第二唤醒词的概率大于第二唤醒阈值时,执行在第二使用场景下所述第二唤醒词对应的唤醒所述第一电子设备的第二操作;所述第二唤醒词是配置于所述第一电子设备中的在所述第二使用场景下的唤醒词,所述第二唤醒阈值是所述第二唤醒词在所述第二使用场景下的唤醒阈值;
其中,第一唤醒阈值不同于第二唤醒阈值。
2.如权利要求1所述的方法,其特征在于,所述第一唤醒词不同于所述第二唤醒词。
3.如权利要求1或2所述的方法,其特征在于,所述第一电子设备接入第一局域网时,所述第一电子设备的使用场景为所述第一使用场景;所述第一电子设备接入第二局域网时,所述第一电子设备的使用场景为所述第二使用场景;或者,
所述第一电子设备位于第一位置区域时,所述第一电子设备的使用场景为所述第一使用场景,所述第一电子设备处于第二位置区域时,所述第一电子设备的使用场景为所述第二使用场景。
4.如权利要求1-3任一项所述的方法,其特征在于,所述确定语音信息中包含第一唤醒词的概率大于第一唤醒阈值之前,所述方法还包括:
获取用户输入的信息,所述信息包括所述第一唤醒词的唤醒词数据以及所述第一唤醒词的使用场景信息,所述使用场景信息指示的使用场景为所述第一使用场景;
所述唤醒词数据和所述使用场景信息用于确定所述第一唤醒阈值。
5.如权利要求4所述的方法,其特征在于,所述方法还包括:
将包括所述唤醒词数据和所述使用场景信息的用户输入的信息发送给服务器;
接收来自所述服务器根据所述唤醒词数据和所述使用场景信息确定的所述第一唤醒阈值。
6.如权利要求4所述的方法,其特征在于,所述方法还包括:
根据所述使用场景信息对所述唤醒词数据进行合成处理得到合成语音数据集;
根据合成语音数据集确定所述第一唤醒词在第一使用场景下的第一唤醒阈值。
7.如权利要求5或6所述的方法,其特征在于,所述使用场景信息包括使用模式和/或设备模式;其中,所述使用模式指示私有模式或者公有模式,所述私有模式用于指示所述第一唤醒词适配一个私有用户,所述公有模式用于指示所述第一唤醒词适配多个用户;所述设备模式指示近讲模式或者远讲模式,所述近讲模式的唤醒距离小于所述远讲模式的唤醒距离;所述唤醒距离为声源与所述第一电子设备之间的距离。
8.如权利要求7所述的方法,其特征在于,所述使用场景信息包括所述使用模式,所述使用模式指示公有模式,根据所述使用场景信息对所述唤醒词数据进行合成处理得到合成语音数据集,包括:
若所述唤醒词数据为文本格式,对所述唤醒词数据进行文本到语音TTS处理得到第一语音数据,对所述第一语音数据进行数据增广处理得到多个第一语音合成数据,所述合成数据集包括所述多个第一语音合成数据和所述第一语音数据;或者,
若所述唤醒词数据为语音格式,对所述唤醒词数据进行数据增广处理得到多个第二语音合成数据;所述合成数据集包括所述多个第二语音合成数据和所述唤醒词数据。
9.如权利要求7所述的方法,其特征在于,所述使用场景信息包括所述使用模式,所述使用模式指示私有模式,所述唤醒词数据为语音格式;根据所述使用场景信息对所述唤醒词数据进行合成处理得到合成语音数据集,包括:
对所述唤醒词数据进行声音克隆处理得到多个第三语音合成数据;
所述合成数据集包括所述多个第三语音合成数据和所述唤醒词数据。
10.如权利要求7所述的方法,其特征在于,所述使用场景信息包括使用模式和设备模式,所述使用模式指示公有模式,所述设备模式指示远讲模式;
根据所述使用场景信息对所述唤醒词数据进行合成处理得到合成语音数据集,包括:
所述唤醒词数据为文本格式的情况下,对所述唤醒词数据进行TTS处理得到第二语音数据,对所述第二语音数据进行数据增广处理得到多个第四语音合成数据,并对所述第四语音合成数据和所述第二语音数据转换为远讲语音得到所述合成语音数据集;或者,
所述唤醒词数据为语音格式的情况下,对所述唤醒词数据进行数据增广处理得到多个第五语音合成数据,并对所述第四语音合成数据和所述唤醒词数据转换为远讲语音得到所述合成语音数据集。
11.如权利要求4-10任一项所述的方法,其特征在于,所述获取用户输入的信息,包括:
显示第一用户界面,所述第一用户界面包括用于用户输入第一唤醒词的输入控件和用于选择所述第一唤醒词的使用场景的第一选择控件;
响应于用户通过输入控件输入的第一唤醒词以及通过所述第一选择控件选择第一使用场景的操作,获取所述唤醒词数据以及所述第一唤醒词的使用场景信息。
12.如权利要求11所述的方法,其特征在于,所述方法还包括:
显示控制主界面,所述控制主界面包括用于添加自定义的唤醒词的第一选项;
响应于用户选择所述第一选项的操作,显示所述第一用户界面。
13.如权利要求12所述的方法,其特征在于,所述控制主界面还包括用于选择对所述第一电子设备定义的N个唤醒词进行管理的第二选项;
响应于用于选择第二选项的操作,显示第三用户界面;
其中,所述第三用户界面包括N个唤醒词选项,不同的唤醒词选项用于选择不同的唤醒词;
所述第三用户界面还包括用于选择每个唤醒词对应的使用场景的第二选择控件。
14.如权利要求1-13任一项所述的方法,其特征在于,所述确定语音信息中包含第一唤醒词的概率大于第一唤醒阈值,包括:
根据概率补偿值集合确定所述语音信息中包括第一唤醒词的概率大于所述第一唤醒阈值;
其中,所述概率补偿值集合包括在所述第一使用场景下用于确定语音信息中是否包括所述第一唤醒词的N1个建模单元的概率补偿值,N1为正整数;
第一建模单元的概率补偿值用于在确定所述语音信息中包括所述第一建模单元的声学后验概率时,补偿所述第一建模单元的声学后验概率,所述第一建模单元的声学后验概率用于确定所述第一唤醒词的概率,所述第一建模单元为所述N1个建模单元中的任一个。
15.如权利要求14所述的方法,其特征在于,所述方法还包括:
根据合成语音数据集确定所述第一唤醒词在第一使用场景下的概率补偿值集合;
其中,所述合成语音数据集是根据用于输入的用于指示第一使用场景的使用场景信息对用户输入的第一唤醒词的唤醒词数据进行合成处理得到的。
16.如权利要求15所述的方法,其特征在于,所述根据合成语音数据集确定所述第一唤醒词在第一使用场景下的概率补偿值集合,所述合成语音数据集包括K个合成语音信息,包括:
提取所述K个合成语音数据中每个基本计算单元的语音特征信息;
根据每个基本计算单元的语音特征数据确定M个基本计算单元对应的建模单元的声学后验概率;所述M个基本计算单元对应的建模单元为所述第一唤醒词包括的建模单元;
获取M个基本计算单元对应于第j个建模单元的声学后验概率的平均值;所述第j个建模单元为所述N1个建模单元中的第j个,j取遍小于或者等于N1的正整数;
获取N1个建模单元的声学后验概率的平均值中的最大值;
根据所述第j个建模单元的声学后验概率的平均值和所述最大值获得所述第j个建模单元的概率补偿值。
17.如权利要求16所述的方法,其特征在于,根据所述合成语音数据集确定所述第一唤醒词在第一使用场景下的第一唤醒阈值,包括:
根据所述第j个建模单元的概率补偿值,对所述M个基本计算单元对应于第j个建模单元的声学后验概率进行概率补偿得到第j个建模单元的补偿后的声学后验概率,j取遍小于或者等于N1的正整数;
根据N1个建模单元的补偿后的声学后验概率确定所述合成语音数据集包括所述第一唤醒词的概率,所述合成语音数据集中包括所述第一唤醒词的概率用于确定所述第一唤醒阈值。
18.如权利要求1-3任一项所述的方法,其特征在于,所述确定语音信息中包含第一唤醒词的概率大于第一唤醒阈值之前,所述方法还包括:
接收服务器发送的控制消息,所述控制消息包括所述第一唤醒词、用于指示第一唤醒词的第一使用场景的使用场景信息以及所述第一唤醒词在第一使用场景下的第一唤醒阈值。
19.如权利要求1-18任一项所述的方法,其特征在于,确定语音信息中包含第一唤醒词的概率大于第一唤醒阈值,包括:
通过框架层对象接收麦克风检测到的所述语音信息;
通过所述框架层对象确定配置于所述第一电子设备的至少一个唤醒词和所述至少一个唤醒词分别对应的使用场景信息,所述至少一个唤醒词包括所述第一唤醒词;
通过框架层对象获取存储的每个唤醒词的使用场景信息对应的唤醒阈值;
通过框架层对象确定所述语音信息包括所述第一唤醒词的概率大于所述第一唤醒阈值且所述语音信息包括其它唤醒词的概率小于或者等于所述其它唤醒词的唤醒阈值。
20.一种语音控制装置,其特征在于,包括存储器和处理器;
所述存储器,用于存储程序或指令;
所述处理器,用于调用所述程序或指令,以使得所述语音控制装置执行如权利要求1至20任一项所述的方法。
21.一种语音控制方法,其特征在于,包括:
向所述第一电子设备配置第一唤醒词以及所述第一唤醒词对应的第一唤醒阈值,所述第一唤醒阈值是所述第一唤醒词在第一使用场景下的唤醒阈值;
向所述第一电子设备配置第二唤醒词以及所述第二唤醒词对应的第二唤醒阈值;所述第二唤醒阈值是所述第二唤醒词在第二使用场景下的唤醒阈值;
其中,第一唤醒阈值不同于第二唤醒阈值。
22.一种语音控制装置,其特征在于,包括存储器和处理器;
所述存储器,用于存储程序或指令;
所述处理器,用于调用所述程序或指令,以使得所述语音控制装置执行如权利要求21所述的方法。
23.一种语音控制系统,其特征在于,包括管理设备、第一电子设备,所述管理设备与所述第一电子设备建立通信连接;
管理设备,用于向所述第一电子设备配置第一唤醒词以及所述第一唤醒词对应的第一唤醒阈值,所述第一唤醒阈值是所述第一唤醒词在第一使用场景下的唤醒阈值;
所述第一电子设备,用于监听到第一语音信息包括所述第一唤醒词的概率大于第一唤醒阈值时,执行在第一使用场景下所述第一唤醒词对应的唤醒所述第一电子设备的第一操作;
管理设备,还用于向所述第一电子设备配置第二唤醒词以及所述第二唤醒词对应的第二唤醒阈值;所述第二唤醒阈值是所述第二唤醒词在第二使用场景下的唤醒阈值;
所述第一电子设备,还用于监听到第二语音信息包括所述第二唤醒词的概率大于第二唤醒阈值时,执行在第二使用场景下所述第二唤醒词对应的唤醒所述第二电子设备的第二操作;
其中,第一唤醒阈值不同于第二唤醒阈值。
24.如权利要求23所述的系统,其特征在于,所述第一唤醒词与所述第二唤醒词不同。
25.如权利要求23或24所述的系统,其特征在于,所述第一电子设备接入第一局域网时,所述第一电子设备的使用场景为所述第一使用场景;所述第一电子设备接入第二局域网时,所述第一电子设备的使用场景为所述第二使用场景;或者,
所述第一电子设备位于第一位置区域时,所述第一电子设备的使用场景为所述第一使用场景,所述第一电子设备处于第二位置区域时,所述第一电子设备的使用场景为所述第二使用场景。
26.如权利要求23-25任一项所述的系统,其特征在于,所述管理设备为第二电子设备,所述第二电子设备,还用于:
确定第一语音信息中包含第一唤醒词的概率大于第一唤醒阈值之前,获取用户输入的信息,所述信息包括所述第一唤醒词的唤醒词数据以及所述第一唤醒词的使用场景信息,所述使用场景信息指示的使用场景为所述第一使用场景;
根据所述唤醒词数据和所述使用场景信息确定所述第一唤醒阈值,并将所述第一唤醒阈值发送给所述第一电子设备。
27.如权利要求23-25任一项所述的系统,其特征在于,所述管理设备为服务器,所述系统还包括第三电子设备;
所述管理设备,还用于向所述第三电子设备配置第三唤醒词以及所述第三唤醒词对应的第三唤醒阈值,所述第三唤醒阈值是所述第三唤醒词在第三使用场景下的唤醒阈值;
所述第三电子设备,还用于监听到第三语音信息包括所述第三唤醒词的概率大于第三唤醒阈值时,执行在第三使用场景下所述第三唤醒词对应的唤醒所述第三电子设备的第三操作;
其中,第三唤醒阈值不同于第一唤醒阈值和所述第二唤醒阈值。
28.如权利要求23-25、27任一项所述的系统,其特征在于,所述管理设备为服务器,所述系统还包括第四电子设备;
所述第四电子设备,用于获取用户输入的信息,所述信息包括所述第一唤醒词的唤醒词数据以及所述第一唤醒词的使用场景信息,所述使用场景信息指示的使用场景为所述第一使用场景;用于将所述用户输入的信息发送给所述服务器;
所述服务器,用于根据所述唤醒词数据和所述使用场景信息确定所述第一唤醒阈值,并将所述第一唤醒阈值发送给所述第一电子设备。
29.如权利要求28所述的系统,其特征在于,所述用户输入的信息中还包括所述第一唤醒词作用的电子设备信息,所述电子设备信息指示所述第一电子设备。
30.如权利要求29所述的系统,其特征在于,所述系统还包括第五电子设备;所述电子设备信息还指示所述第五电子设备;
所述服务器,还用于将所述第一唤醒词和所述第一唤醒阈值发送给所述第五电子设备。
31.如权利要求29所述的系统,其特征在于,所述服务器,具体用于:
根据所述使用场景信息对所述唤醒词数据进行合成处理得到合成语音数据集;
根据合成语音数据集确定所述第一唤醒词在第一使用场景下的第一唤醒阈值。
32.如权利要求31所述的系统,其特征在于,所述使用场景信息包括使用模式和/或设备模式;其中,所述使用模式指示私有模式或者公有模式,所述私有模式用于指示所述第一唤醒词适配一个私有用户,所述公有模式用于指示所述第一唤醒词适配多个用户;所述设备模式指示近讲模式或者远讲模式,所述近讲模式的唤醒距离小于所述远讲模式的唤醒距离;所述唤醒距离为声源与所述第一电子设备之间的距离。
33.如权利要求32所述的系统,其特征在于,所述使用场景信息包括所述使用模式,所述使用模式指示公有模式,所述服务器,具体用于:
若所述唤醒词数据为文本格式,对所述唤醒词数据进行文本到语音TTS处理得到第一语音数据,对所述第一语音数据进行数据增广处理得到多个第一语音合成数据,所述合成数据集包括所述多个第一语音合成数据和所述第一语音数据;或者,
若所述唤醒词数据为语音格式,对所述唤醒词数据进行数据增广处理得到多个第二语音合成数据;所述合成数据集包括所述多个第二语音合成数据和所述唤醒词数据。
34.如权利要求32所述的系统,其特征在于,所述使用场景信息包括所述使用模式,所述使用模式指示私有模式,所述唤醒词数据为语音格式;所述服务器,具体用于:
对所述唤醒词数据进行声音克隆处理得到多个第三语音合成数据;
所述合成数据集包括所述多个第三语音合成数据和所述唤醒词数据。
35.如权利要求32所述的系统,其特征在于,所述使用场景信息包括使用模式和设备模式,所述使用模式指示公有模式,所述设备模式指示远讲模式;
所述服务器,具体用于:
所述唤醒词数据为文本格式的情况下,对所述唤醒词数据进行TTS处理得到第二语音数据,对所述第二语音数据进行数据增广处理得到多个第四语音合成数据,并对所述第四语音合成数据和所述第二语音数据转换为远讲语音得到所述合成语音数据集;或者,
所述唤醒词数据为语音格式的情况下,对所述唤醒词数据进行数据增广处理得到多个第五语音合成数据,并对所述第四语音合成数据和所述唤醒词数据转换为远讲语音得到所述合成语音数据集。
36.如权利要求29-35任一项所述的系统,其特征在于,所述第四电子设备,具体用于:
显示第一用户界面,所述第一用户界面包括用于用户输入第一唤醒词的输入控件和用于选择所述第一唤醒词的使用场景的第一选择控件;
响应于用户通过输入控件输入的第一唤醒词以及通过所述第一选择控件选择第一使用场景的操作,则获取所述唤醒词数据以及所述第一唤醒词的使用场景信息。
37.如权利要求36所述的系统,其特征在于,所述管理设备为服务器,所述第四电子设备,还用于:
显示第二用户界面,所述第二用户界面包括用于添加自定义的唤醒词的第一选项;
响应于用户选择所述第一选项的操作,显示所述第一用户界面。
38.如权利要求23-25任一项所述的系统,其特征在于,所述管理设备为服务器,所述系统还包括第四电子设备;
所述第四电子设备,用于显示第三用户界面,所述第三用户界面包括用于选择对所述第一电子设备定义的N个唤醒词进行管理的第二选项;响应于用于选择第二选项的操作,显示第四用户界面;
其中,所述第四用户界面包括N个唤醒词选项,不同的唤醒词选项用于选择不同的唤醒词,所述N个唤醒词选项包括所述第一唤醒词的选项;
所述第四电子设备,还用于响应于选择第二唤醒词的选项,向所述管理设备发送控制信息,所述控制信息用于指示为所述第一电子设备配置第二唤醒词;
所述管理设备,具体用于根据所述控制信息,向所述第一电子设备配置第二唤醒词以及所述第二唤醒词对应的第二唤醒阈值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011634181.5A CN114765026A (zh) | 2020-12-31 | 2020-12-31 | 一种语音控制方法、装置及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011634181.5A CN114765026A (zh) | 2020-12-31 | 2020-12-31 | 一种语音控制方法、装置及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114765026A true CN114765026A (zh) | 2022-07-19 |
Family
ID=82363498
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011634181.5A Pending CN114765026A (zh) | 2020-12-31 | 2020-12-31 | 一种语音控制方法、装置及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114765026A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11887579B1 (en) * | 2022-09-28 | 2024-01-30 | Intuit Inc. | Synthetic utterance generation |
-
2020
- 2020-12-31 CN CN202011634181.5A patent/CN114765026A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11887579B1 (en) * | 2022-09-28 | 2024-01-30 | Intuit Inc. | Synthetic utterance generation |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109584879B (zh) | 一种语音控制方法及电子设备 | |
CN110134316B (zh) | 模型训练方法、情绪识别方法及相关装置和设备 | |
CN110910872B (zh) | 语音交互方法及装置 | |
CN110138959B (zh) | 显示人机交互指令的提示的方法及电子设备 | |
CN110825469A (zh) | 语音助手显示方法及装置 | |
CN111650840B (zh) | 智能家居场景编排方法及终端 | |
CN111819533B (zh) | 一种触发电子设备执行功能的方法及电子设备 | |
CN112397062A (zh) | 语音交互方法、装置、终端及存储介质 | |
CN111316199B (zh) | 一种信息处理方法及电子设备 | |
CN110543289A (zh) | 控制音量的方法和电子设备 | |
CN111742539B (zh) | 一种语音控制命令生成方法及终端 | |
CN112527093A (zh) | 手势输入方法及电子设备 | |
CN112150778A (zh) | 环境音处理方法及相关装置 | |
WO2022088964A1 (zh) | 一种电子设备的控制方法和装置 | |
CN113742460B (zh) | 生成虚拟角色的方法及装置 | |
CN114765026A (zh) | 一种语音控制方法、装置及系统 | |
CN113380240B (zh) | 语音交互方法和电子设备 | |
CN114822543A (zh) | 唇语识别方法、样本标注方法、模型训练方法及装置、设备、存储介质 | |
CN114120987B (zh) | 一种语音唤醒方法、电子设备及芯片系统 | |
CN113572798B (zh) | 设备控制方法、系统、设备和存储介质 | |
CN115206308A (zh) | 一种人机交互的方法及电子设备 | |
CN114822525A (zh) | 语音控制方法和电子设备 | |
CN112102848B (zh) | 一种用于识别音乐的方法、芯片和终端 | |
CN118072723A (zh) | 协同唤醒的方法、装置和电子设备 | |
CN115691479A (zh) | 语音检测方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |