CN112581947A - 一种语音指令响应方法、装置及终端设备 - Google Patents
一种语音指令响应方法、装置及终端设备 Download PDFInfo
- Publication number
- CN112581947A CN112581947A CN201910935362.2A CN201910935362A CN112581947A CN 112581947 A CN112581947 A CN 112581947A CN 201910935362 A CN201910935362 A CN 201910935362A CN 112581947 A CN112581947 A CN 112581947A
- Authority
- CN
- China
- Prior art keywords
- sound source
- source object
- objects
- voice
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000004044 response Effects 0.000 title claims abstract description 90
- 238000000034 method Methods 0.000 title claims abstract description 76
- 238000012545 processing Methods 0.000 claims description 46
- 238000004590 computer program Methods 0.000 claims description 13
- 230000000875 corresponding effect Effects 0.000 description 32
- 238000005516 engineering process Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 102100038612 Calmodulin-regulated spectrin-associated protein 3 Human genes 0.000 description 2
- 101000741294 Homo sapiens Calmodulin-regulated spectrin-associated protein 3 Proteins 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Circuit For Audible Band Transducer (AREA)
- Telephone Function (AREA)
Abstract
本发明实施例提供了一种语音指令响应方法、装置及终端设备,涉及语音识别技术领域,用于在同时接收到多个声源对象分别输入的语音指令的情况下,准确选择多个语音指令中最希望被响应的语音指令进行响应。该方法包括:在接收到至少两个声源对象输入的至少两个语音指令的情况下,获取至少两个声源对象的声源信息,任一声源对象的声源信息包括该声源对象到终端设备的距离、该声源对象和终端设备连线与终端设备正面朝向之间的加角,以及该声源对象输入的语音指令的音量中的至少一个;根据至少两个声源对象的声源信息确定至少两个声源对象中的目标声源对象;响应目标声源对象输入的语音指令。本发明实施例用于对语音指令进行响应。
Description
技术领域
本发明涉及语音识别技术领域,尤其涉及一种语音指令响应方法、装置及终端设备。
背景技术
随着语音及自然语言处理相关技术的发展,越来越多的应用场景已支持通过语音方式与用户进行交互,因此准确识别用户发出的语音指令对应的用户意图越来越重要。
自然语言理解(Natural Language Understanding,NLU)技术中,用户意图是指用户想要通过语言表达的意图,就是在语言表达中所体现出的“用户想干什么”。一般情况下,用户意图由槽位来表达。即,将从语句中抽取出的特定概念,并将抽取出的特定概念转换为意图的槽位参数来表达用户的意图。然而,在用户与智能设备进行语音交互的过程中,常常会多个用户同时向智能设备输入语音指令的情况。例如:在一个用户想要看电影《哪吒》并输入语音指令“我要电影哪吒”的同时,另一个用户想要查询当地今天的天气情况下并输入“今天天气怎么样”,此时智能设备会同时接收到两个用户输入的不同语音指令,而智能设备并不能同时执行接收到的所有语音指令。在现有技术中,当智能设备同时接收到多个用户输入的不同语音指令时,智能设备只能随机选择其中一个语音指令进行响应,并忽略以其他用户输入的语音指令,然而这种随机选择一个语音指令进行响应的方式可能会忽略掉多个语音指令中较为希望被响应的语音指令,进而导致用户体验下降。
发明内容
有鉴于此,本发明提供了一种语音指令响应方法、装置及终端设备,用于在同时接收到多个声源对象分别输入的语音指令的情况下,准确选择多个语音指令中最希望被响应的语音指令进行响应,从而提升用户的体验。
为了实现上述目的,本发明实施例提供技术方案如下:
第一方面,本发明实施例提供了一种语音指令响应方法,应用于终端设备,所述方法包括:
在接收到至少两个声源对象输入的至少两个语音指令的情况下,获取所述至少两个声源对象的声源信息,任一声源对象的声源信息包括该声源对象到所述终端设备的距离、该声源对象到所述终端设备的连线与所述终端设备正面朝向之间的加角,以及该声源对象输入的语音指令的音量中的至少一个;
根据所述至少两个声源对象的声源信息确定所述至少两个声源对象中的目标声源对象;
响应所述目标声源对象输入的语音指令。
作为本发明实施例一种可选的实施方式,任一声源对象的声源信息包括该声源对象到所述终端设备的距离;
所述根据所述至少两个声源对象的声源信息确定所述至少两个声源对象中的目标声源对象,包括:
将所述至少两个声源对象中到所述终端设备的距离最小的声源对象确定为所述目标声源对象。
作为本发明实施例一种可选的实施方式,任一声源对象的声源信息还包括该声源对象到所述终端设备的连线与所述终端设备正面朝向之间的加角,所述方法还包括:
当到所述终端设备的距离最小的声源对象包括N个声源对象时,将所述N个声源对象中到所述终端设备的连线与所述终端设备正面朝向之间的加角最小的声源对象确定为所述目标声源对象;
N为大于1的整数。
作为本发明实施例一种可选的实施方式,任一声源对象的声源信息还包括该声源对象输入的语音指令的音量,所述方法还包括:
当到所述终端设备的连线与所述终端设备正面朝向之间的加角最小的声源对象包括M个声源对象时,将所述M个声源对象中输入的语音指令的音量最大的声源对象确定为所述目标声源对象;
M为大于1的整数。
作为本发明实施例一种可选的实施方式,任一声源对象的声源信息还包括该声源对象输入的语音指令的音量,所述方法还包括:
当到所述终端设备的距离最小的声源对象包括P个声源对象时,将所述P个声源对象中输入的语音指令的音量最大的声源对象确定为所述目标声源对象;
P为大于1的整数。
作为本发明实施例一种可选的实施方式,任一声源对象的声源信息还包括该声源对象到所述终端设备的连线与所述终端设备正面朝向之间的加角,所述方法还包括:
当输入的语音指令的音量最大的声源对象确定包括Q个声源对象时,将所述Q个声源对象中到所述终端设备的连线与所述终端设备正面朝向之间的加角最小的声源对象确定为所述目标声源对象;
Q为大于1的整数。
作为本发明实施例一种可选的实施方式,任一声源对象的声源信息包括该声源对象到所述终端设备的连线与所述终端设备正面朝向之间的加角;
所述根据所述至少两个声源对象的声源信息确定所述至少两个声源对象中的目标声源对象,包括:
将所述至少两个声源对象中到所述终端设备的连线与所述终端设备正面朝向之间的加角最小的声源对象确定为所述目标声源对象。
作为本发明实施例一种可选的实施方式,任一声源对象的声源信息包括该声源对象到所述终端设备的距离,所述方法还包括:
当到所述终端设备的连线与所述终端设备正面朝向之间的加角最小的声源对象包括N个声源对象时,将到所述终端设备的距离最小的声源对象确定为所述目标声源对象;
N为大于1的整数。
作为本发明实施例一种可选的实施方式,任一声源对象的声源信息包括该声源对象输入的语音指令的音量,所述方法还包括:
当到所述终端设备的距离最小的声源对象包括M个声源对象时,将所述M个声源对象中输入的语音指令的音量最大的声源对象确定为所述目标声源对象;
M为大于1的整数。
作为本发明实施例一种可选的实施方式,任一声源对象的声源信息包括该声源对象输入的语音指令的音量,所述方法还包括:
当到所述终端设备的连线与所述终端设备正面朝向之间的加角最小的声源对象包括P个声源对象时,将所述P个声源对象中输入的语音指令的音量最大的声源对象确定为所述目标声源对象;
P为大于1的整数。
作为本发明实施例一种可选的实施方式,任一声源对象的声源信息还包括该声源对象到所述终端设备的距离,所述方法还包括:
当输入的语音指令的音量最大的声源对象确定包括Q个声源对象时,将所述Q个声源对象中到所述终端设备的距离最小的声源对象确定为所述目标声源对象;
Q为大于1的整数。
作为本发明实施例一种可选的实施方式,任一声源对象的声源信息包括该声源对象输入的语音指令的音量;
所述根据所述至少两个声源对象的声源信息确定所述至少两个声源对象中的目标声源对象,包括:
将所述至少两个声源对象中输入的语音指令的音量最大的声源对象确定为所述目标声源对象。
作为本发明实施例一种可选的实施方式,任一声源对象的声源信息还包括该声源对象到所述终端设备的距离,所述方法还包括:
当输入的语音指令的音量最大的声源对象包括N个声源对象时,将所述N个声源对象中到所述终端设备的距离最小的声源对象确定为所述目标声源对象;
N为大于1的整数。
作为本发明实施例一种可选的实施方式,任一声源对象的声源信息还包括该声源对象到所述终端设备的连线与所述终端设备正面朝向之间的加角,所述方法还包括:
当到所述终端设备的距离最小的声源对象包括M各声源对象时,将到所述终端设备的连线与所述终端设备正面朝向之间的加角最小的声源对象确定为所述目标声源对象;
M为大于1的整数。
作为本发明实施例一种可选的实施方式,任一声源对象的声源信息还包括该声源对象和所述终端设备连线与所述终端设备正面朝向之间的加角,所述方法还包括:
当输入的语音指令的音量最大的声源对象包括P个声源对象时,将所述P个声源对象中到所述终端设备的连线与所述终端设备正面朝向之间的加角最小的声源对象确定为所述目标声源对象;
P为大于1的整数。
作为本发明实施例一种可选的实施方式,任一声源对象的声源信息还包括该声源对象到所述终端设备的距离,所述方法还包括:
当到所述终端设备的连线与所述终端设备正面朝向之间的加角最小的声源对象包括Q个声源对象时,将所述Q个声源对象中到所述终端设备的距离最小的声源对象确定为所述目标声源对象;
Q为大于1的整数。
作为本发明实施例一种可选的实施方式,任一声源对象的声源信息包括该声源对象到所述终端设备的距离、该声源对象到所述终端设备的连线与所述终端设备正面朝向之间的加角,以及该声源对象输入的语音指令的音量;
所述根据所述至少两个声源对象的声源信息确定所述至少两个声源对象中的目标声源对象,包括:
获取所述至少两个声源对象的权重值,任一声源对象的权重值为该声源对象的距离权重值、加角权重值以及音量权重值的和,任一声源对象的距离权重值为该声源对象到所述终端设备的距离与第一权重系数的乘积,任一声源对象的加角权重值为该声源对象到所述终端设备的连线与所述终端设备正面朝向之间的加角与第二权重系数的乘积,任一声源对象的音量权重值为该声源对象输入的语音指令的音量与第三权重系数的乘积;
将权重值符合预设要求的声源对象确定为所述目标声源对象。
作为本发明实施例一种可选的实施方式,任一声源对象的声源信息包括该声源对象到所述终端设备的连线与所述终端设备正面朝向之间的加角;
所述根据所述至少两个声源对象的声源信息确定所述至少两个声源对象中的目标声源对象,包括:
根据各个声源对象到所述终端设备的连线与所述终端设备正面朝向之间的加角,确定各个声源对象对应的显示区域;
在各个声源对象对应的显示区域显示与各个声源对象输入的语音指令相应的显示内容;
接收用户对目标显示区域内显示的显示内容的选择输入;
响应于所述选择输入,将所述目标显示区域对应的声源对象确定为所述目标声源对象。
作为本发明实施例一种可选的实施方式,任一声源对象的声源信息该包括该声源对象到所述终端设备的距离,所述方法还包括:
根据各个声源对象到所述终端设备的距离,确定各个声源对象对应的显示区域的面积。
作为本发明实施例一种可选的实施方式,任一声源对象的声源信息该包括该声源对象输入的语音指令的音量,所述方法还包括:
根据各个声源对象输入的语音指令的音量,确定各个声源对象对应的显示区域的面积。
第二方面,本发明实施例提供一种语音指令响应装置,包括:
获取单元,用于在接收到至少两个声源对象输入的至少两个语音指令的情况下,获取所述至少两个声源对象的声源信息,任一声源对象的声源信息包括该声源对象到所述语音指令响应装置的距离、该声源对象和所述语音指令响应装置的连线与所述语音指令响应装置正面朝向之间的加角,以及该声源对象输入的语音指令的音量中的至少一个;
处理单元,用于根据所述至少两个声源对象的声源信息确定所述至少两个声源对象中的目标声源对象;
响应单元,用于响应所述目标声源对象输入的语音指令。
作为本发明实施例一种可选的实施方式,任一声源对象的声源信息包括该声源对象到所述语音指令响应装置的距离;
所述处理单元,具体用于将所述至少两个声源对象中到所述语音指令响应装置的距离最小的声源对象确定为所述目标声源对象。
作为本发明实施例一种可选的实施方式,任一声源对象的声源信息还包括该声源对象和所述语音指令响应装置的连线与所述语音指令响应装置正面朝向之间的加角;
所述处理单元,还用于当到所述语音指令响应装置的距离最小的声源对象包括N个声源对象时,将所述N个声源对象中和所述语音指令响应装置的连线与所述语音指令响应装置正面朝向之间的加角最小的声源对象确定为所述目标声源对象;
N为大于1的整数。
作为本发明实施例一种可选的实施方式,任一声源对象的声源信息还包括该声源对象输入的语音指令的音量;
所述处理单元,还用于当和所述语音指令响应装置的连线与所述语音指令响应装置正面朝向之间的加角最小的声源对象包括M个声源对象时,将所述M个声源对象中输入的语音指令的音量最大的声源对象确定为所述目标声源对象;
M为大于1的整数。
作为本发明实施例一种可选的实施方式,任一声源对象的声源信息还包括该声源对象输入的语音指令的音量;
所述处理单元,还用于当到所述语音指令响应装置的距离最小的声源对象包括P个声源对象时,将所述P个声源对象中输入的语音指令的音量最大的声源对象确定为所述目标声源对象;
P为大于1的整数。
作为本发明实施例一种可选的实施方式,任一声源对象的声源信息还包括该声源对象和所述语音指令响应装置的连线与所述语音指令响应装置正面朝向之间的加角;
所述处理单元,还用于当输入的语音指令的音量最大的声源对象确定包括Q个声源对象时,将所述Q个声源对象中和所述语音指令响应装置的连线与所述语音指令响应装置正面朝向之间的加角最小的声源对象确定为所述目标声源对象;
Q为大于1的整数。
作为本发明实施例一种可选的实施方式,任一声源对象的声源信息包括该声源对象和所述语音指令响应装置的连线与所述语音指令响应装置正面朝向之间的加角;
所述处理单元,具体用于将所述至少两个声源对象中和所述语音指令响应装置的连线与所述语音指令响应装置正面朝向之间的加角最小的声源对象确定为所述目标声源对象。
作为本发明实施例一种可选的实施方式,任一声源对象的声源信息包括该声源对象到所述语音指令响应装置的距离;
所述处理单元,还用于当和所述语音指令响应装置的连线与所述语音指令响应装置正面朝向之间的加角最小的声源对象包括N个声源对象时,将到所述语音指令响应装置的距离最小的声源对象确定为所述目标声源对象;
N为大于1的整数。
作为本发明实施例一种可选的实施方式,任一声源对象的声源信息包括该声源对象输入的语音指令的音量;
所述处理单元,还用于当到所述语音指令响应装置的距离最小的声源对象包括M个声源对象时,将所述M个声源对象中输入的语音指令的音量最大的声源对象确定为所述目标声源对象;
M为大于1的整数。
作为本发明实施例一种可选的实施方式,任一声源对象的声源信息包括该声源对象输入的语音指令的音量;
所述处理单元,还用于当和所述语音指令响应装置的连线与所述语音指令响应装置正面朝向之间的加角最小的声源对象包括P个声源对象时,将所述P个声源对象中输入的语音指令的音量最大的声源对象确定为所述目标声源对象;
P为大于1的整数。
作为本发明实施例一种可选的实施方式,任一声源对象的声源信息还包括该声源对象到所述语音指令响应装置的距离;
所述处理单元,还用于当输入的语音指令的音量最大的声源对象确定包括Q个声源对象时,将所述Q个声源对象中到所述语音指令响应装置的距离最小的声源对象确定为所述目标声源对象;
Q为大于1的整数。
作为本发明实施例一种可选的实施方式,任一声源对象的声源信息包括该声源对象输入的语音指令的音量;
所述处理单元,具体用于将所述至少两个声源对象中输入的语音指令的音量最大的声源对象确定为所述目标声源对象。
作为本发明实施例一种可选的实施方式,任一声源对象的声源信息还包括该声源对象到所述语音指令响应装置的距离;
所述处理单元,还用于当输入的语音指令的音量最大的声源对象包括N个声源对象时,将所述N个声源对象中到所述语音指令响应装置的距离最小的声源对象确定为所述目标声源对象;
N为大于1的整数。
作为本发明实施例一种可选的实施方式,任一声源对象的声源信息还包括该声源对象和所述语音指令响应装置的连线与所述语音指令响应装置正面朝向之间的加角;
所述处理单元,还用于当到所述语音指令响应装置的距离最小的声源对象包括M各声源对象时,将和所述语音指令响应装置的连线与所述语音指令响应装置正面朝向之间的加角最小的声源对象确定为所述目标声源对象;
M为大于1的整数。
作为本发明实施例一种可选的实施方式,任一声源对象的声源信息还包括该声源对象和所述语音指令响应装置的连线与所述语音指令响应装置正面朝向之间的加角;
所述处理单元,还用于当输入的语音指令的音量最大的声源对象包括P个声源对象时,将所述P个声源对象中和所述语音指令响应装置的连线与所述语音指令响应装置正面朝向之间的加角最小的声源对象确定为所述目标声源对象;
P为大于1的整数。
作为本发明实施例一种可选的实施方式,任一声源对象的声源信息还包括该声源对象到所述语音指令响应装置的距离;
所述处理单元,还用于当和所述语音指令响应装置的连线与所述语音指令响应装置正面朝向之间的加角最小的声源对象包括Q个声源对象时,将所述Q个声源对象中到所述语音指令响应装置的距离最小的声源对象确定为所述目标声源对象;
Q为大于1的整数。
作为本发明实施例一种可选的实施方式,任一声源对象的声源信息包括该声源对象到所述语音指令响应装置的距离、该声源对象和所述语音指令响应装置的连线与所述语音指令响应装置正面朝向之间的加角,以及该声源对象输入的语音指令的音量;
所述处理单元,具体用于获取所述至少两个声源对象的权重值,任一声源对象的权重值为该声源对象的距离权重值、加角权重值以及音量权重值的和,任一声源对象的距离权重值为该声源对象到所述语音指令响应装置的距离与第一权重系数的乘积,任一声源对象的加角权重值为该声源对象和所述语音指令响应装置的连线与所述语音指令响应装置正面朝向之间的加角与第二权重系数的乘积,任一声源对象的音量权重值为该声源对象输入的语音指令的音量与第三权重系数的乘积,将权重值符合预设要求的声源对象确定为所述目标声源对象。
作为本发明实施例一种可选的实施方式,任一声源对象的声源信息包括该声源对象和所述语音指令响应装置的连线与所述语音指令响应装置正面朝向之间的加角;
所述处理单元,具体用于根据各个声源对象和所述语音指令响应装置的连线与所述语音指令响应装置正面朝向之间的加角,确定各个声源对象对应的显示区域;在各个声源对象对应的显示区域显示与各个声源对象输入的语音指令相应的显示内容;接收用户对目标显示区域内显示的显示内容的选择输入;响应于所述选择输入,将所述目标显示区域对应的声源对象确定为所述目标声源对象。
作为本发明实施例一种可选的实施方式,任一声源对象的声源信息该包括该声源对象到所述语音指令响应装置的距离;
所述处理单元,还用于根据各个声源对象到所述语音指令响应装置的距离,确定各个声源对象对应的显示区域的面积。
作为本发明实施例一种可选的实施方式,任一声源对象的声源信息该包括该声源对象输入的语音指令的音量;
所述处理单元,还用于根据各个声源对象输入的语音指令的音量,确定各个声源对象对应的显示区域的面积。
第三方面,本发明实施例提供一种终端设备,包括:存储器和处理器,存储器用于存储计算机程序;处理器用于在调用计算机程序时执行上述第一方面或第一方面的任一实施方式所述的语音指令响应方法。
第四方面,本发明实施例提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述第一方面或第一方面的任一实施方式所述的语音指令响应方法。
本发明实施例提供的语音指令响应方法在接收到至少两个声源对象输入的至少两个语音指令的情况下,获取所述至少两个声源对象到所述终端设备的距离、到所述终端设备的连线与所述终端设备正面朝向之间的加角以及输入的语音指令的音量中的至少一个,然后根据所述至少两个声源对象的声源信息确定所述至少两个声源对象中的目标声源对象,并响应所述目标声源对象输入的语音指令,由于声源对象到所述终端设备的距离、声源对象到所述终端设备的连线与所述终端设备正面朝向之间的加角以及声源对象输入的语音指令的音量均可以反应出声源对象输入的语音指令想要被执行的强烈程度,因此根据声源信息可以在输入语音指令的声源对象中确定最希望语音指令被响应声源对象,并响应该声源对象输入的语音指令,因此本发明实施例可以在同时接收到多个声源对象分别输入的语音指令的情况下,准确选择多个语音指令中最希望被响应的语音指令进行响应,从而提升用户的体验。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。
图1为本发明实施例提供的语音指令响应方法的步骤流程图;
图2为本发明实施例提供的声源对象与终端设备的距离示意图;
图3为本发明实施例提供的声源对象和终端设备的连线与终端设备的正面朝向之间的加角示意图;
图4为本发明实施例提供的语音指令响应方法的场景示界面图之一;
图5为本发明实施例提供的语音指令响应方法的场景示界面图之二;
图6为本发明实施例提供的语音指令响应装置的示意性结构图;
图7为本发明实施例提供的终端设备的硬件结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。
本发明的说明书和权利要求书中的术语“第一”和“第二”等是用于区别同步的对象,而不是用于描述对象的特定顺序。例如,第一接口和第二接口等是用于区别不同的接口,而不是用于描述接口的特定顺序。
在本发明实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本发明实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。此外,在本发明实施例的描述中,除非另有说明,“多个”的含义是指两个或两个以上。
本发明实施例提供的语音指令响应方法的执行主体可以为移动终端,也可以为非移动终端。移动终端可以为手机、平板电脑、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本、电子相框、个人数字助理(personal digitalassistant,PDA)、智能手表、智能手环等,非移动终端可以为电视机、个人计算机(personalcomputer,PC)智能音箱、车载设备等,或者该电子设备还可以为其他类型的终端设备,本发明实施例不作限定。为了便于理解,以下实施例中均以终端设备为手机为例示出。
本发明实施例提供了一种语音指令响应方法,具体的,参照图1所示,本发明实施例提供的语音指令响应方法包括如下步骤S11-S13:
S11、在接收到至少两个声源对象输入的至少两个语音指令的情况下,获取所述至少两个声源对象的声源信息。
其中,任一声源对象的声源信息包括该声源对象到所述终端设备的距离、该声源对象到所述终端设备的连线与所述终端设备正面朝向之间的加角,以及该声源对象输入的语音指令的音量中的至少一个。
具体的,终端设备在备唤醒后,可以通过麦克风或麦克风阵列对声源对象发出声音进行拾音,并通过语音识别技术(Automatic Speech Recognition,ASR)对拾取到的声音进行识别,从而接收声源对象输入的语音指令,并且在接声源对象输入语音指令的同时还可以通过声源测向等技术获取声源对象到所述终端设备的距离、声源对象到所述终端设备的连线与所述终端设备正面朝向之间的加角以及该声源对象输入的语音指令的音量等声源信息。
进一步的,本发明实施例中声源对象到所述终端设备的距离是指声源对象所在位置到终端设备所在位置的水平距离。即,忽略声源对象与终端设备的高度差异,获取声源对象与终端设备在同一水平面内的距离。
示例性的,参照图2所示,图2中以终端设备接收到两个声源对象为例示出,如图2所示,获取声源到所述终端设备的距离包括:获取终端设备21所在位置到声源对象22所在位置的水平距离a,以及获取终端设备21所在位置到声源对象23所在位置的水平距离b。
进一步的,本发明实施例中声源对象到所述终端设备的连线与所述终端设备正面朝向之间的加角是指,声源对象所在位置和所述终端设备所在位置的连线与所述终端设备正面朝向之间形成的劣角(大于0°小于180°的角)。
示例性的,参照图3所示,图3中以终端设备接收到两个声源对象为例示出,如图3所示,获取声源对象到所述终端设备的连线与所述终端设备正面朝向之间的加角,包括:获取声源对象32所在位置到所述终端设备31所在位置的连线F2与所述终端设备正面朝向F1之间的加角α,以及获取声源对象33所在位置到所述终端设备31所在位置的连线F3与所述终端设备正面朝向F1之间的加角β。
S12、根据所述至少两个声源对象的声源信息确定所述至少两个声源对象中的目标声源对象。
即,根据声源对象的声源信息从所述至少两个声源对象中选取一个声源对象作为目标声源对象。
S13、响应所述目标声源对象输入的语音指令。
需要说明的是,对于目标声源对象以外的其它声源对象输入的语音指令,终端设备可以直接忽略,也可以在响应所述目标声源对象输入的语音指令之后,在响应其它声源对象输入的语音指令。
本发明实施例提供的语音指令响应方法在接收到至少两个声源对象输入的至少两个语音指令的情况下,获取所述至少两个声源对象到所述终端设备的距离、到所述终端设备的连线与所述终端设备正面朝向之间的加角以及输入的语音指令的音量中的至少一个,然后根据所述至少两个声源对象的声源信息确定所述至少两个声源对象中的目标声源对象,并响应所述目标声源对象输入的语音指令,由于声源对象到所述终端设备的距离、声源对象到所述终端设备的连线与所述终端设备正面朝向之间的加角以及声源对象输入的语音指令的音量均可以反应出声源对象输入的语音指令想要被执行的强烈程度,因此根据声源信息可以在输入语音指令的声源对象中确定最希望语音指令被响应声源对象,并响应该声源对象输入的语音指令,因此本发明实施例可以在同时接收到多个声源对象分别输入的语音指令的情况下,准确选择多个语音指令中最希望被响应的语音指令进行响应,从而提升用户的体验。
以下对上述步骤S12(根据所述至少两个声源对象的声源信息确定所述至少两个声源对象中的目标声源对象)的实现方式进行详细说明。
实现方式一、
任一声源对象的声源信息包括该声源对象到所述终端设备的距离,上述步骤S12的实现方法包括:
将所述至少两个声源对象中到所述终端设备的距离最小的声源对象确定为所述目标声源对象。
例如:所述至少两个声源对象包括声源对象A和声源对象B,声源对象A到所述终端设备的距离为a,声源对象B到所述终端设备的距离为b,且a<b,则将声源对象A确定为所述目标声源对象。
进一步的,任一声源对象的声源信息还包括该声源对象到所述终端设备的连线与所述终端设备正面朝向之间的加角,上述实现步骤S12的方法还包括:
当到所述终端设备的距离最小的声源对象包括N个声源对象时,将所述N个声源对象中到所述终端设备的连线与所述终端设备正面朝向之间的加角最小的声源对象确定为所述目标声源对象;
N为大于1的整数。
例如:所述至少两个声源对象包括声源对象A、声源对象B以及声源对象C;声源对象A到所述终端设备的距离为a,声源对象B到所述终端设备的距离为b,声源对象A到所述终端设备的距离为c,其中a>b=c;由于到所述终端设备的距离最小的声源对象包括2个声源对象(声源对象B和声源对象C),因此进一步比较声源对象B到所述终端设备的连线与所述终端设备正面朝向之间的加角β、声源对象C到所述终端设备的连线与所述终端设备正面朝向之间的加角γ之间的大小关系,若β>γ,则将声源对象C确定为所述目标声源对象;若β<γ,则将声源对象B确定为所述目标声源对象。
再进一步的,任一声源对象的声源信息还包括该声源对象输入的语音指令的音量,上述实现步骤S12的方法还包括:
当到所述终端设备的连线与所述终端设备正面朝向之间的加角最小的声源对象包括M个声源对象时,将所述M个声源对象中输入的语音指令的音量最大的声源对象确定为所述目标声源对象;
M为大于1的整数。
例如:所述至少两个声源对象包括声源对象A、声源对象B、声源对象C以及声源对象D;声源对象A到所述终端设备的距离为a,声源对象B到所述终端设备的距离为b,声源对象A到所述终端设备的距离为c,声源对象D到所述终端设备的距离为d;其中a>b=c=d;由于到所述终端设备的距离最小的声源对象包括3个声源对象(声源对象B、声源对象C以及声源对象D),因此进一步比较声源对象B到所述终端设备的连线与所述终端设备正面朝向之间的加角β、声源对象C到所述终端设备的连线与所述终端设备正面朝向之间的加角γ、声源对象D到所述终端设备的连线与所述终端设备正面朝向之间的加角δ之间的大小关系;若β>γ=δ,则由于到所述终端设备的距离最小,且到所述终端设备的连线与所述终端设备正面朝向之间的加角最小的声源对象包括2个声源对象(声源对象C和声源对象D),因此进一步比较声源对象C输入的语音指令的音量vol_c、声源对象D输入的语音指令的音量vol_d的大小关系;若vol_c<vol_d,则将声源对象D确定为所述目标声源对象;若vol_c>vol_d,则将声源对象C确定为所述目标声源对象。
实现方式二、
任一声源对象的声源信息包括该声源对象到所述终端设备的距离,上述步骤S12的实现方法包括:
将所述至少两个声源对象中到所述终端设备的距离最小的声源对象确定为所述目标声源对象。
进一步的,任一声源对象的声源信息还包括该声源对象输入的语音指令的音量,上述步骤S12的实现方式还包括:
当到所述终端设备的距离最小的声源对象包括P个声源对象时,将所述P个声源对象中输入的语音指令的音量最大的声源对象确定为所述目标声源对象;
P为大于1的整数。
实现方式二上述实现方式一的相同之处在于,均首先将到所述终端设备的距离最小的声源对象确定为所述目标声源对象,不同之处在于,当到所述终端设备的距离最小的声源对象包括多个时,上述实施例方式是将到所述终端设备的连线与所述终端设备正面朝向之间的加角最小的声源对象确定为所述目标声源对象,而实现方式二是将输入的语音指令的音量最大的声源对象确定为声源对象。
在进一步的,任一声源对象的声源信息还包括该声源对象到所述终端设备的连线与所述终端设备正面朝向之间的加角,上述步骤S12的实现方式还包括:
当输入的语音指令的音量最大的声源对象确定包括Q个声源对象时,将所述Q个声源对象中到所述终端设备的连线与所述终端设备正面朝向之间的加角最小的声源对象确定为所述目标声源对象;
Q为大于1的整数。
即,当到所述终端设备的距离最小,且输入的语音指令的音量最大的声源对象包括2个或2个以上的声源对象时,将该2个或2个以上声源对象中到所述终端设备的连线与所述终端设备正面朝向之间的加角最小的声源对象确定为所述目标声源对象。
实现方式三、
任一声源对象的声源信息包括该声源对象到所述终端设备的连线与所述终端设备正面朝向之间的加角,上述步骤S12的实现方法包括:
将所述至少两个声源对象中到所述终端设备的连线与所述终端设备正面朝向之间的加角最小的声源对象确定为所述目标声源对象。
进一步的,任一声源对象的声源信息包括该声源对象到所述终端设备的距离,上述步骤S12的实现方法还包括:
当到所述终端设备的连线与所述终端设备正面朝向之间的加角最小的声源对象包括N个声源对象时,将到所述终端设备的距离最小的声源对象确定为所述目标声源对象;
N为大于1的整数。
再进一步的,任一声源对象的声源信息包括该声源对象输入的语音指令的音量,上述步骤S12的实现方法还包括:
当到所述终端设备的距离最小的声源对象包括M个声源对象时,将所述M个声源对象中输入的语音指令的音量最大的声源对象确定为所述目标声源对象;
M为大于1的整数。
即,先确定到所述终端设备的连线与所述终端设备正面朝向之间的加角最小的声源对象的数量;若只有1个,则将该声源对象确定为所述目标声源对象;若有2个或2个以上,则确定该2个或2个以上声源对象中到所述终端设备的距离最小的声源对象的数量;若只有1个,则将该声源对象确定为所述目标声源对象;若仍有2个或2个以上,则进一步将该到所述终端设备的距离最小的2个或2个以上声源对象中输入的语音指令的音量最大的声源对象确定为所述目标声源对象。
实现方式四、
任一声源对象的声源信息包括该声源对象到所述终端设备的连线与所述终端设备正面朝向之间的加角,上述步骤S12的实现方法包括:
将所述至少两个声源对象中到所述终端设备的连线与所述终端设备正面朝向之间的加角最小的声源对象确定为所述目标声源对象。
进一步的,任一声源对象的声源信息包括该声源对象输入的语音指令的音量,上述步骤S12的实现方法还包括:
当到所述终端设备的连线与所述终端设备正面朝向之间的加角最小的声源对象包括P个声源对象时,将所述P个声源对象中输入的语音指令的音量最大的声源对象确定为所述目标声源对象;
P为大于1的整数。
再进一步的,任一声源对象的声源信息还包括该声源对象到所述终端设备的距离,上述步骤S12的实现方法还包括:
当输入的语音指令的音量最大的声源对象确定包括Q个声源对象时,将所述Q个声源对象中到所述终端设备的距离最小的声源对象确定为所述目标声源对象;
Q为大于1的整数。
即,先确定到所述终端设备的连线与所述终端设备正面朝向之间的加角最小的声源对象的数量;若只有1个,则将该声源对象确定为所述目标声源对象;若有2个或2个以上,则确定该2个或2个以上声源对象中输入的语音指令的音量最大的声源对象的数量;若只有1个,则将该声源对象确定为所述目标声源对象;若仍有2个或2个以上,则进一步将该输入的语音指令的音量最大的2个或2个以上声源对象中到所述终端设备的距离最小的声源对象确定为所述目标声源对象。
实现方式五、
任一声源对象的声源信息包括该声源对象输入的语音指令的音量;上述步骤S12的实现方法包括:
将所述至少两个声源对象中输入的语音指令的音量最大的声源对象确定为所述目标声源对象。
进一步的,任一声源对象的声源信息还包括该声源对象到所述终端设备的距离,上述步骤S12的实现方法还包括:
当输入的语音指令的音量最大的声源对象包括N个声源对象时,将所述N个声源对象中到所述终端设备的距离最小的声源对象确定为所述目标声源对象;
N为大于1的整数。
再进一步的,任一声源对象的声源信息还包括该声源对象到所述终端设备的连线与所述终端设备正面朝向之间的加角,上述步骤S12的实现方法还包括:
当到所述终端设备的距离最小的声源对象包括M各声源对象时,将到所述终端设备的连线与所述终端设备正面朝向之间的加角最小的声源对象确定为所述目标声源对象;
M为大于1的整数。
即,先确定输入的语音指令的音量最大的声源对象的数量;若只有1个,则将该声源对象确定为所述目标声源对象;若有2个或2个以上,则确定该2个或2个以上声源对象中到所述终端设备的距离最小的声源对象的数量,若只有1个,则将该声源对象确定为所述目标声源对象;若仍有2个或2个以上,则进一步将该到所述终端设备的距离最小的2个或2个以上声源对象中到所述终端设备的连线与所述终端设备正面朝向之间的加角最小的声源对象确定为所述目标声源对象。
实现方式六、
任一声源对象的声源信息包括该声源对象输入的语音指令的音量,上述步骤S12的实现方法包括:
将所述至少两个声源对象中输入的语音指令的音量最大的声源对象确定为所述目标声源对象。
进一步的,任一声源对象的声源信息还包括该声源对象和所述终端设备连线与所述终端设备正面朝向之间的加角,上述步骤S12的实现方法还包括:
当输入的语音指令的音量最大的声源对象包括P个声源对象时,将所述P个声源对象中到所述终端设备的连线与所述终端设备正面朝向之间的加角最小的声源对象确定为所述目标声源对象;
P为大于1的整数。
再进一步的,任一声源对象的声源信息还包括该声源对象到所述终端设备的距离,上述步骤S12的实现方法包括:
当到所述终端设备的连线与所述终端设备正面朝向之间的加角最小的声源对象包括Q个声源对象时,将所述Q个声源对象中到所述终端设备的距离最小的声源对象确定为所述目标声源对象;
Q为大于1的整数。
即,先确定输入的语音指令的音量最大的声源对象的数量;若只有1个,则将该声源对象确定为所述目标声源对象;若有2个或2个以上,则确定该2个或2个以上声源对象中到所述终端设备的连线与所述终端设备正面朝向之间的加角最小的声源对象的数量;若只有1个,则将该声源对象确定为所述目标声源对象;若仍有2个或2个以上,则进一步将该到所述终端设备的连线与所述终端设备正面朝向之间的加角最小的2个或2个以上声源对象中到所述终端设备的距离最小的声源对象确定为所述目标声源对象。
实现方式七、
任一声源对象的声源信息包括该声源对象到所述终端设备的距离、该声源对象到所述终端设备的连线与所述终端设备正面朝向之间的加角,以及该声源对象输入的语音指令的音量,上述步骤S12的实现方法包括如下步骤a和步骤b:
步骤a、获取所述至少两个声源对象的权重值。
其中,任一声源对象的权重值为该声源对象的距离权重值、加角权重值以及音量权重值的和,任一声源对象的距离权重值为该声源对象到所述终端设备的距离与第一权重系数的乘积,任一声源对象的加角权重值为该声源对象到所述终端设备的连线与所述终端设备正面朝向之间的加角与第二权重系数的乘积,任一声源对象的音量权重值为该声源对象输入的语音指令的音量与第三权重系数的乘积。
即,可以通过如下公式获取各个声源对象的权重值:
Q_i=L_i*a+Deg_i*b+Vol_i*c
其中,Q_i为声源对象i的权重值;L_i*a为声源对象i的距离权重值;Deg_i*b为声源对象i的角度权重值;Vol_i*c为声源对象i的音量权重值;L_i为声源对象i到所述终端设备的距离;a为第一权重系数;Deg_i为声源对象i到所述终端设备的连线与所述终端设备正面朝向之间的加角;b为第二权重系数;Vol_i为声源对象i输入的语音指令的音量;b为第三权重系数。
步骤b、将权重值符合预设要求的声源对象确定为所述目标声源对象。
示例性的,可以将第一权重系数a和第二权重系数b设置为负数,并将权重值最大的声源对象确定为所述目标声源对象。
实现方式八、
任一声源对象的声源信息包括该声源对象到所述终端设备的连线与所述终端设备正面朝向之间的加角,上述步骤S12的实现方法包括如下步骤1至步骤4:
步骤1、根据各个声源对象到所述终端设备的连线与所述终端设备正面朝向之间的加角,确定各个声源对象对应的显示区域。
示例性的,参照图4所示,图4中以所述至少两个声源对象包括声源对象41、声源对象42以及声源对象43为例示出,根据各个声源对象41到所述终端设备的连线与所述终端设备正面朝向之间的加角,确定声源对象41对应的显示区域410;根据各个声源对象42到所述终端设备的连线与所述终端设备正面朝向之间的加角,确定声源对象42对应的显示区域420;根据各个声源对象43到所述终端设备的连线与所述终端设备正面朝向之间的加角,确定声源对象43对应的显示区域430。
步骤2、在各个声源对象对应的显示区域显示与各个声源对象输入的语音指令相应的显示内容。
具体的,语音指令相应的显示内容包括:语音指令的用户意图、或根据语音指令获取的收缩结果的缩略图等显示内容,本发明实施例对此不作限定。
步骤3、接收用户对目标显示区域内显示的显示内容的选择输入。
具体的,本发明实施例中,所述选择输入可以是对目标显示区域内显示的显示内容的触控点击输入、或者是用户通过鼠标对目标显示区域内显示的显示内容的点击输入、或者是用户输入的语音指令,或者是用户输入的特定手势。
在本发明的一些实施例中,所述特定手势可以为单击手势、滑动手势、压力识别手势、长按手势、面积变化手势、双按手势、双击手势中的任意一种。
步骤4、响应于所述选择输入,将所述目标显示区域对应的声源对象确定为所述目标声源对象。
示例性的,参照图5所示,用户对显示区域420内的显示内容输入选择输入,则将声源对象42确定为所述目标声源对象,且全屏显示原本在显示区域420内显示的显示内容。
进一步的,任一声源对象的声源信息该包括该声源对象到所述终端设备的距离,所述方法还包括:
根据各个声源对象到所述终端设备的距离,确定各个声源对象对应的显示区域的面积。
示例性的,各个声源对象对应的显示区域的面积可以与各个声源对象到所述终端设备的距离负相关。
进一步的,任一声源对象的声源信息该包括该声源对象输入的语音指令的音量,所述方法还包括:
根据各个声源对象输入的语音指令的音量,确定各个声源对象对应的显示区域的面积。
示例性的,各个声源对象对应的显示区域的面积可以与各个声源对象输入的语音指令的音量正相关。
基于同一发明构思,作为对上述方法的实现,本发明实施例还提供了一种语音指令响应装置,该装置实施例与前述方法实施例对应,为便于阅读,本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。
图6为本发明实施例提供的语音指令响应装置的结构示意图,如图6所示,本实施例提供的语音指令响应装置600,包括:
获取单元61,用于在接收到至少两个声源对象输入的至少两个语音指令的情况下,获取所述至少两个声源对象的声源信息,任一声源对象的声源信息包括该声源对象到所述语音指令响应装置的距离、该声源对象和所述语音指令响应装置的连线与所述语音指令响应装置正面朝向之间的加角,以及该声源对象输入的语音指令的音量中的至少一个;
处理单元62,用于根据所述至少两个声源对象的声源信息确定所述至少两个声源对象中的目标声源对象;
响应单元63,用于响应所述目标声源对象输入的语音指令。
作为本发明实施例一种可选的实施方式,任一声源对象的声源信息包括该声源对象到所述语音指令响应装置的距离;
所述处理单元62,具体用于将所述至少两个声源对象中到所述语音指令响应装置的距离最小的声源对象确定为所述目标声源对象。
作为本发明实施例一种可选的实施方式,任一声源对象的声源信息还包括该声源对象和所述语音指令响应装置的连线与所述语音指令响应装置正面朝向之间的加角;
所述处理单元62,还用于当到所述语音指令响应装置的距离最小的声源对象包括N个声源对象时,将所述N个声源对象中和所述语音指令响应装置的连线与所述语音指令响应装置正面朝向之间的加角最小的声源对象确定为所述目标声源对象;
N为大于1的整数。
作为本发明实施例一种可选的实施方式,任一声源对象的声源信息还包括该声源对象输入的语音指令的音量;
所述处理单元62,还用于当和所述语音指令响应装置的连线与所述语音指令响应装置正面朝向之间的加角最小的声源对象包括M个声源对象时,将所述M个声源对象中输入的语音指令的音量最大的声源对象确定为所述目标声源对象;
M为大于1的整数。
作为本发明实施例一种可选的实施方式,任一声源对象的声源信息还包括该声源对象输入的语音指令的音量;
所述处理单元62,还用于当到所述语音指令响应装置的距离最小的声源对象包括P个声源对象时,将所述P个声源对象中输入的语音指令的音量最大的声源对象确定为所述目标声源对象;
P为大于1的整数。
作为本发明实施例一种可选的实施方式,任一声源对象的声源信息还包括该声源对象和所述语音指令响应装置的连线与所述语音指令响应装置正面朝向之间的加角;
所述处理单元62,还用于当输入的语音指令的音量最大的声源对象确定包括Q个声源对象时,将所述Q个声源对象中和所述语音指令响应装置的连线与所述语音指令响应装置正面朝向之间的加角最小的声源对象确定为所述目标声源对象;
Q为大于1的整数。
作为本发明实施例一种可选的实施方式,任一声源对象的声源信息包括该声源对象和所述语音指令响应装置的连线与所述语音指令响应装置正面朝向之间的加角;
所述处理单元62,具体用于将所述至少两个声源对象中和所述语音指令响应装置的连线与所述语音指令响应装置正面朝向之间的加角最小的声源对象确定为所述目标声源对象。
作为本发明实施例一种可选的实施方式,任一声源对象的声源信息包括该声源对象到所述语音指令响应装置的距离;
所述处理单元62,还用于当和所述语音指令响应装置的连线与所述语音指令响应装置正面朝向之间的加角最小的声源对象包括N个声源对象时,将到所述语音指令响应装置的距离最小的声源对象确定为所述目标声源对象;
N为大于1的整数。
作为本发明实施例一种可选的实施方式,任一声源对象的声源信息包括该声源对象输入的语音指令的音量;
所述处理单元62,还用于当到所述语音指令响应装置的距离最小的声源对象包括M个声源对象时,将所述M个声源对象中输入的语音指令的音量最大的声源对象确定为所述目标声源对象;
M为大于1的整数。
作为本发明实施例一种可选的实施方式,任一声源对象的声源信息包括该声源对象输入的语音指令的音量;
所述处理单元62,还用于当和所述语音指令响应装置的连线与所述语音指令响应装置正面朝向之间的加角最小的声源对象包括P个声源对象时,将所述P个声源对象中输入的语音指令的音量最大的声源对象确定为所述目标声源对象;
P为大于1的整数。
作为本发明实施例一种可选的实施方式,任一声源对象的声源信息还包括该声源对象到所述语音指令响应装置的距离;
所述处理单元62,还用于当输入的语音指令的音量最大的声源对象确定包括Q个声源对象时,将所述Q个声源对象中到所述语音指令响应装置的距离最小的声源对象确定为所述目标声源对象;
Q为大于1的整数。
作为本发明实施例一种可选的实施方式,任一声源对象的声源信息包括该声源对象输入的语音指令的音量;
所述处理单元62,具体用于将所述至少两个声源对象中输入的语音指令的音量最大的声源对象确定为所述目标声源对象。
作为本发明实施例一种可选的实施方式,任一声源对象的声源信息还包括该声源对象到所述语音指令响应装置的距离;
所述处理单元62,还用于当输入的语音指令的音量最大的声源对象包括N个声源对象时,将所述N个声源对象中到所述语音指令响应装置的距离最小的声源对象确定为所述目标声源对象;
N为大于1的整数。
作为本发明实施例一种可选的实施方式,任一声源对象的声源信息还包括该声源对象和所述语音指令响应装置的连线与所述语音指令响应装置正面朝向之间的加角;
所述处理单元62,还用于当到所述语音指令响应装置的距离最小的声源对象包括M各声源对象时,将和所述语音指令响应装置的连线与所述语音指令响应装置正面朝向之间的加角最小的声源对象确定为所述目标声源对象;
M为大于1的整数。
作为本发明实施例一种可选的实施方式,任一声源对象的声源信息还包括该声源对象和所述语音指令响应装置的连线与所述语音指令响应装置正面朝向之间的加角;
所述处理单元62,还用于当输入的语音指令的音量最大的声源对象包括P个声源对象时,将所述P个声源对象中和所述语音指令响应装置的连线与所述语音指令响应装置正面朝向之间的加角最小的声源对象确定为所述目标声源对象;
P为大于1的整数。
作为本发明实施例一种可选的实施方式,任一声源对象的声源信息还包括该声源对象到所述语音指令响应装置的距离;
所述处理单元62,还用于当和所述语音指令响应装置的连线与所述语音指令响应装置正面朝向之间的加角最小的声源对象包括Q个声源对象时,将所述Q个声源对象中到所述语音指令响应装置的距离最小的声源对象确定为所述目标声源对象;
Q为大于1的整数。
作为本发明实施例一种可选的实施方式,任一声源对象的声源信息包括该声源对象到所述语音指令响应装置的距离、该声源对象和所述语音指令响应装置的连线与所述语音指令响应装置正面朝向之间的加角,以及该声源对象输入的语音指令的音量;
所述处理单元62,具体用于获取所述至少两个声源对象的权重值,任一声源对象的权重值为该声源对象的距离权重值、加角权重值以及音量权重值的和,任一声源对象的距离权重值为该声源对象到所述语音指令响应装置的距离与第一权重系数的乘积,任一声源对象的加角权重值为该声源对象和所述语音指令响应装置的连线与所述语音指令响应装置正面朝向之间的加角与第二权重系数的乘积,任一声源对象的音量权重值为该声源对象输入的语音指令的音量与第三权重系数的乘积,将权重值符合预设要求的声源对象确定为所述目标声源对象。
作为本发明实施例一种可选的实施方式,任一声源对象的声源信息包括该声源对象和所述语音指令响应装置的连线与所述语音指令响应装置正面朝向之间的加角;
所述处理单元62,具体用于根据各个声源对象和所述语音指令响应装置的连线与所述语音指令响应装置正面朝向之间的加角,确定各个声源对象对应的显示区域;在各个声源对象对应的显示区域显示与各个声源对象输入的语音指令相应的显示内容;接收用户对目标显示区域内显示的显示内容的选择输入;响应于所述选择输入,将所述目标显示区域对应的声源对象确定为所述目标声源对象。
作为本发明实施例一种可选的实施方式,任一声源对象的声源信息该包括该声源对象到所述语音指令响应装置的距离;
所述处理单元62,还用于根据各个声源对象到所述语音指令响应装置的距离,确定各个声源对象对应的显示区域的面积。
作为本发明实施例一种可选的实施方式,任一声源对象的声源信息该包括该声源对象输入的语音指令的音量;
所述处理单元62,还用于根据各个声源对象输入的语音指令的音量,确定各个声源对象对应的显示区域的面积。
本实施例提供的语音指令执行装置可以执行上述方法实施例提供的语音指令响应方法,其实现原理与技术效果类似,此处不再赘述。
基于同一发明构思,本发明实施例还提供了一种终端设备。图7为本发明实施例提供的终端设备的结构示意图,如图7所示,本实施例提供的终端设备包括:存储器71和处理器72,存储器71用于存储计算机程序;处理器72用于在调用计算机程序时执行上述方法实施例所述的语音指令响应方法中的各个步骤。
本发明实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述方法实施例所述的语音指令响应方法。
本领域技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。
处理器可以是中央处理单元(CentralProcessingUnit,CPU),还可以是其他通用处理器、数字信号处理器(DigitalSignalProcessor,DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,ASIC)、现成可编程门阵列(Field-ProgrammableGateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动存储介质。存储介质可以由任何方法或技术来实现信息存储,信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。根据本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种语音指令响应方法,其特征在于,应用于终端设备,所述方法包括:
在接收到至少两个声源对象输入的至少两个语音指令的情况下,获取所述至少两个声源对象的声源信息,任一声源对象的声源信息包括该声源对象到所述终端设备的距离、该声源对象到所述终端设备的连线与所述终端设备正面朝向之间的加角,以及该声源对象输入的语音指令的音量中的至少一个;
根据所述至少两个声源对象的声源信息确定所述至少两个声源对象中的目标声源对象;
响应所述目标声源对象输入的语音指令。
2.根据权利要求1所述的方法,其特征在于,任一声源对象的声源信息包括该声源对象到所述终端设备的距离;
所述根据所述至少两个声源对象的声源信息确定所述至少两个声源对象中的目标声源对象,包括:
将所述至少两个声源对象中到所述终端设备的距离最小的声源对象确定为所述目标声源对象。
3.根据权利要求2所述的方法,其特征在于,任一声源对象的声源信息还包括该声源对象到所述终端设备的连线与所述终端设备正面朝向之间的加角,所述方法还包括:
当到所述终端设备的距离最小的声源对象包括N个声源对象时,将所述N个声源对象中到所述终端设备的连线与所述终端设备正面朝向之间的加角最小的声源对象确定为所述目标声源对象;
N为大于1的整数。
4.根据权利要求1所述的方法,其特征在于,任一声源对象的声源信息包括该声源对象到所述终端设备的连线与所述终端设备正面朝向之间的加角;
所述根据所述至少两个声源对象的声源信息确定所述至少两个声源对象中的目标声源对象,包括:
将所述至少两个声源对象中到所述终端设备的连线与所述终端设备正面朝向之间的加角最小的声源对象确定为所述目标声源对象。
5.根据权利要求1所述的方法,其特征在于,任一声源对象的声源信息包括该声源对象输入的语音指令的音量;
所述根据所述至少两个声源对象的声源信息确定所述至少两个声源对象中的目标声源对象,包括:
将所述至少两个声源对象中输入的语音指令的音量最大的声源对象确定为所述目标声源对象。
6.根据权利要求1所述的方法,其特征在于,任一声源对象的声源信息包括该声源对象到所述终端设备的距离、该声源对象到所述终端设备的连线与所述终端设备正面朝向之间的加角,以及该声源对象输入的语音指令的音量;
所述根据所述至少两个声源对象的声源信息确定所述至少两个声源对象中的目标声源对象,包括:
获取所述至少两个声源对象的权重值,任一声源对象的权重值为该声源对象的距离权重值、加角权重值以及音量权重值的和,任一声源对象的距离权重值为该声源对象到所述终端设备的距离与第一权重系数的乘积,任一声源对象的加角权重值为该声源对象到所述终端设备的连线与所述终端设备正面朝向之间的加角与第二权重系数的乘积,任一声源对象的音量权重值为该声源对象输入的语音指令的音量与第三权重系数的乘积;
将权重值符合预设要求的声源对象确定为所述目标声源对象。
7.根据权利要求1所述的方法,其特征在于,任一声源对象的声源信息包括该声源对象到所述终端设备的连线与所述终端设备正面朝向之间的加角;
所述根据所述至少两个声源对象的声源信息确定所述至少两个声源对象中的目标声源对象,包括:
根据各个声源对象到所述终端设备的连线与所述终端设备正面朝向之间的加角,确定各个声源对象对应的显示区域;
在各个声源对象对应的显示区域显示与各个声源对象输入的语音指令相应的显示内容;
接收用户对目标显示区域内显示的显示内容的选择输入;
响应于所述选择输入,将所述目标显示区域对应的声源对象确定为所述目标声源对象。
8.一种语音指令响应装置,其特征在于,包括:
获取单元,用于在接收到至少两个声源对象输入的至少两个语音指令的情况下,获取所述至少两个声源对象的声源信息,任一声源对象的声源信息包括该声源对象到所述语音指令响应装置的距离、该声源对象和所述语音指令响应装置的连线与所述语音指令响应装置正面朝向之间的加角,以及该声源对象输入的语音指令的音量中的至少一个;
处理单元,用于根据所述至少两个声源对象的声源信息确定所述至少两个声源对象中的目标声源对象;
响应单元,用于响应所述目标声源对象输入的语音指令。
9.一种终端设备,其特征在于,包括存储器和处理器,所述存储器用于存储计算机程序;所述处理器用于在调用所述计算机程序时执行如权利要求1-7任一项所述的语音指令响应方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的语音指令响应方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910935362.2A CN112581947A (zh) | 2019-09-29 | 2019-09-29 | 一种语音指令响应方法、装置及终端设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910935362.2A CN112581947A (zh) | 2019-09-29 | 2019-09-29 | 一种语音指令响应方法、装置及终端设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112581947A true CN112581947A (zh) | 2021-03-30 |
Family
ID=75111194
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910935362.2A Pending CN112581947A (zh) | 2019-09-29 | 2019-09-29 | 一种语音指令响应方法、装置及终端设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112581947A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113314120A (zh) * | 2021-07-30 | 2021-08-27 | 深圳传音控股股份有限公司 | 处理方法、处理设备及存储介质 |
WO2023005362A1 (zh) * | 2021-07-30 | 2023-02-02 | 深圳传音控股股份有限公司 | 处理方法、处理设备及存储介质 |
-
2019
- 2019-09-29 CN CN201910935362.2A patent/CN112581947A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113314120A (zh) * | 2021-07-30 | 2021-08-27 | 深圳传音控股股份有限公司 | 处理方法、处理设备及存储介质 |
WO2023005362A1 (zh) * | 2021-07-30 | 2023-02-02 | 深圳传音控股股份有限公司 | 处理方法、处理设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9007524B2 (en) | Techniques and apparatus for audio isolation in video processing | |
CN108733342B (zh) | 音量调节方法、移动终端及计算机可读存储介质 | |
KR102175602B1 (ko) | 다수의 마이크로폰들을 통한 오디오 포커싱 | |
WO2020140976A1 (zh) | 图像获取方法、装置、点读设备、电子设备及存储介质 | |
US10649635B2 (en) | Multi-modal fusion engine | |
CN112581947A (zh) | 一种语音指令响应方法、装置及终端设备 | |
CN105740213A (zh) | 一种演示文稿模板提供方法及装置 | |
US9426573B2 (en) | Sound field encoder | |
CN108156368A (zh) | 一种图像处理方法、终端及计算机可读存储介质 | |
US11093073B2 (en) | Touch control chip, touch detection method, touch detection system and electronic device | |
US20240193945A1 (en) | Method for determining recommended scenario and electronic device | |
CN113727021A (zh) | 拍摄方法、装置及电子设备 | |
CN112612566A (zh) | 一种信息显示方法、装置和可读存储介质 | |
CN115689963A (zh) | 一种图像处理方法及电子设备 | |
CN111461968A (zh) | 图片处理方法、装置、电子设备和计算机可读介质 | |
US20180341041A1 (en) | Method and device for determining descriptive information of precipitation trend, and readable storage medium | |
CN111615045B (zh) | 音频处理方法、装置、设备及存储介质 | |
CN106453835B (zh) | 一种切换接听方式的方法和终端 | |
KR20210054522A (ko) | 얼굴 인식 방법 및 장치, 전자 기기 및 저장 매체 | |
US20170076427A1 (en) | Methods and devices for outputting a zoom sequence | |
CN116048361B (zh) | 交互方法、可读存储介质和电子设备 | |
CN112581944A (zh) | 一种语音指令响应方法、装置及终端设备 | |
US11303464B2 (en) | Associating content items with images captured of meeting content | |
CN115994006A (zh) | 动画效果显示方法及电子设备 | |
CA3003002C (en) | Systems and methods for using image searching with voice recognition commands |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210330 |
|
WD01 | Invention patent application deemed withdrawn after publication |