CN105957530B - 一种语音控制方法、装置和终端设备 - Google Patents

一种语音控制方法、装置和终端设备 Download PDF

Info

Publication number
CN105957530B
CN105957530B CN201610271400.5A CN201610271400A CN105957530B CN 105957530 B CN105957530 B CN 105957530B CN 201610271400 A CN201610271400 A CN 201610271400A CN 105957530 B CN105957530 B CN 105957530B
Authority
CN
China
Prior art keywords
interface
voice
text
link
operation link
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610271400.5A
Other languages
English (en)
Other versions
CN105957530A (zh
Inventor
张大钊
崔保磊
朱文菲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hisense Group Co Ltd
Original Assignee
Hisense Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hisense Group Co Ltd filed Critical Hisense Group Co Ltd
Priority to CN201610271400.5A priority Critical patent/CN105957530B/zh
Publication of CN105957530A publication Critical patent/CN105957530A/zh
Priority to US15/393,546 priority patent/US10068574B2/en
Priority to US16/045,331 priority patent/US10600413B2/en
Application granted granted Critical
Publication of CN105957530B publication Critical patent/CN105957530B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Abstract

本发明公开了一种语音控制方法、装置和终端设备,涉及语音控制技术领域,旨在简化终端设备的语音控制过程,提高终端设备的语音控制响应速度和准确率,进而提高终端设备的用户体验性。该方法包括:当终端设备被触发进入语音控制模式后,接收输入的语音数据,并根据所述语音数据获取对应的语音文本;将所述语音文本与当前操作界面对应的界面词列表进行匹配,其中,所述界面词列表包括当前操作界面的文字信息;若所述语音文本与所述界面词列表匹配成功,获取所述语音文本在当前操作界面中对应的操作链接;根据所述操作链接执行所述操作。

Description

一种语音控制方法、装置和终端设备
技术领域
本发明涉及语音控制技术领域,尤其涉及一种语音控制方法、装置和终端设备。
背景技术
近几年随着科技的飞速发展,语音识别控制技术已逐渐应用在各种终端设备上。用户可通过终端设备上配置的语音识别装置对终端设备进行声控,这为终端设备的控制技术带来了新的变革。目前,语音控制已经成为终端设备的一种主流控制方式。
以智能电视为例,通常,智能电视设置有语音应用程序,比如语音助手等,用户通过语音助手进行语音输入,进而智能电视对用户的语音输入进行语义理解和业务定位,进而实现智能电视的语音控制。由于语义理解过程复杂,计算量大,导致终端设备的语音控制响应缓慢,用户体验性差。
发明内容
本发明实施例提供一种语音控制方法、装置和终端设备,旨在简化终端设备的语音控制过程,提高终端设备的语音控制响应速度和准确率,进而提高终端设备的用户体验性。
本发明提供的具体技术方案如下:
一方面,本发明实施例提供一种语音控制方法,包括:
当终端设备被触发进入语音控制模式后,接收输入的语音数据,并根据所述语音数据获取对应的语音文本;
将所述语音文本与当前操作界面对应的界面词列表进行匹配,其中,所述界面词列表包括当前操作界面的文字信息;
若所述语音文本与所述界面词列表匹配成功,获取所述语音文本在当前操作界面中对应的操作链接;
根据所述操作链接执行所述操作。
另一方面,本发明实施例提供一种语音控制装置,包括:
语音输入模块,用于当终端设备被触发进入语音控制模式后,接收输入的语音数据,并根据所述语音数据获取对应的语音文本;
判断模块,用于判断所述语音文本与当前操作界面对应的界面词列表是否匹配;
获取模块,用于当所述语音文本与所述界面词列表匹配成功时,获取所述语音文本在当前操作界面中对应的操作链接;
执行模块,用于根据所述操作链接执行所述操作。
再一方面,本发明实施例提供一种终端设备,所述终端设备包括上述语音控制装置。
本发明的有益效果如下:
本发明实施例提供的语音控制方法,将用户输入的语音文本与当前操作界面对应的界面词列表进行匹配,如果匹配成功,则获取该语音文本在当前操作界面中对应的操作链接,进而根据该操作链接执行相应的操作,实现用户对终端设备的语音控制。本发明实施例提供的语音控制方法,不需要对用户输入的语音文本进行语义理解,简化了终端设备的语音控制过程,进一步提高了终端设备的语音控制响应速度和准确率,改善了终端设备的用户体验性。
附图说明
图1为本发明实施例的一种语音控制方法流程示意图;
图2为本发明实施例输入的语文文本在当前操作界面的显示示意图;
图3为本发明实施例的一种当前操作介界面示意图;
图4为本发明实施例的步骤120的执行流程示意图;
图5为本发明实施例的步骤120的另一种执行流程示意图;
图6为本发明实施例的一种语音控制方法流程示意图;
图7为本发明实施例的一种语音控制装置的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明实施例提供一种语音控制方法,适用于操作界面的终端设备,示例的,本发明实施例提供的语音控制方法可以应用于智能电视的语音控制、智能手机的语音控制、平板电脑和笔记本电脑的语音控制等。需要说明的是,本发明实施例的描述中,以智能电视为例进行详细说明,但并不代表本发明局限于智能电视。
图1示出了本发明实施例提供的一种语音控制方法的流程示意图。参考图1所示,该语音控制方法的流程包括:
步骤100:当终端设备被触发进入语音控制模式后,接收输入的语音数据。
进一步的,在本发明实施例中,用户可以通过遥控器触发终端设备进入语音控制模式,也可以通过终端设备上的按键触发终端设备进入语音控制模式。示例的,用户按下遥控器上的语音控制按钮,此时,触发智能电视进入语音控制模式,语音输入模块实时监测用户输入的语音数据。示例的,语音输入模块具有录音功能,通过一麦克风实现,可以设置在智能电视上,也可以设置在智能电视所对应的遥控器上。
进一步的,当终端设备进入语音控制模式后,在用户输入语音数据时,可以通过语音输入模块接收用户输入的语音数据,并根据用户输入的语音数据识别得到其对应的语音文本。示例的,当用户输入“播放中国合伙人”、“观看新娘大作战”、“观看”、“咱们结婚吧”、“朱亚文”等语音数据时,终端设备可以通过语音输入模块接收到用户输入的上述语音数据,进而根据上述语音数据识别得到其对应的语音文本“播放中国合伙人”、“观看新娘大作战”、“观看”、“咱们结婚吧”、“朱亚文”。当然,用户在实际应用中可以输入任意的语音数据,终端设备可以通过语音输入模块接收用户输入的任意语音数据,并根据该语音数据识别得到其对应的语音数据文本。
进一步的,在步骤100的执行过程中,终端设备可以将语音输入模块接收到的语音数据所对应的语音文本显示在当前界面,如将“播放中国合伙人”、“观看新娘大作战”、“观看”、“咱们结婚吧”、“朱亚文”等语音文本显示在当前界面。示例的,如图2所示,将“收藏”显示在智能电视的当前视频画面中。
步骤110:将所述语音数据与当前操作界面对应的界面词列表进行匹配。
终端设备接收到用户输入的语音数据并识别得到其对应的语音文本之后,获取当前操作界面对应的界面词列表,其中,当前操作界面对应的界面词列表包含当前操作界面的所有文字信息,示例的,当前操作界面如图3所示,则当前操作界面对应的界面词列表包含:新娘大作战、评分、8.2分、类型、清晰、剧情、喜剧、爱情、青春、2015、导演、陈国辉、演员、Angelababy、朱亚文、倪妮、陈晓、本视频来自爱奇艺、购买荔枝VIP享1080P内容全时段观看、本视频版权来自于爱奇艺、马丽和何静是从小相识的闺蜜两人儿时在一个美丽的酒店参加了一场浪漫的婚礼他们从此梦想长大后也能在这里举行自己的婚礼十、观看、更多精彩、收藏、咱们结婚吧、中国合伙人、命中注定、夜上海、美女总裁的(或美女总裁的贴身高手)、撒娇女人最(或撒娇女人最好命)、爱谁谁、斗地主、情人节缘分(或情人节缘分制造记)。需要说明的是,图3的操作界面所对应的界面词列表中每一个顿号隔开的词组为一个独立的界面词列表字符串。当然,此处仅是举例说明,在实际的使用过程中,当前操作界面对应的界面词列表并不局限与此。
示例的,终端设备通过其后台服务,可以获取到当前操作界面显示的文本词组,由于终端设备显示的文本词组都是通过不同的控件加载的,因此,终端设备显示的文本词组均是以控件作为区分的字符串,即一个控件对应一个字符串和该字符串所对应的操作链接。终端设备获取到当前操作界面显示的文本词组后,根据其文本词组生成当前操作界面对应的界面词列表。
进一步的,终端设备将用户输入的语音数据对应的语音文本与当前操作界面对应的界面词列表进行匹配,匹配的方式可以是将用户输入的语音文本对应的字符串与当前操作界面对应的界面词列表中的字符串进行比对,若当前操作界面对应的界面词列表中存在与用户输入的语音数据对应的字符串相同的字符串,则匹配成功,否则匹配失败,当然,本领域技术人员也可以根据实际需要设置其他的匹配方式,本发明实施例对此不加以限制。
示例的,用户输入的语音数据对应的语音文本为“中国合伙人”,则终端设备将字符串“中国合伙人”作为一个整体与图3中的操作界面对应的界面词列表中的字符串进行比对,发现图3的操作界面对应的界面词列表中存在与用户输入的语音数据“中国合伙人”完全相同的字符串,则匹配成功。
示例的,用户输入的语音数据对应的语音文本为“观看”,则终端设备将字符串“观看”作为一个整体与图3中的操作界面对应的界面词列表中的字符串进行比对,发现图3的操作界面对应的界面词列表中存在与用户输入的语音数据“观看”完全相同的字符串,则匹配成功。
示例的,用户输入的语音数据为“观看中国合伙人”,则终端设备将字符串“观看中国合伙人”作为一个整体与图3中的操作界面对应的界面词列表中的字符串进行比对,发现图3的操作界面对应的界面词列表中存在字符串“观看”和“中国合伙人”,但是不存在合在一起的字符串“观看中国合伙人”,则匹配失败。
步骤120:若所述语音文本与所述界面词列表匹配成功,获取所述语音文本在当前操作界面中对应的操作链接。
一方面,若用户输入的语音数据对应的语音文本与当前操作界面对应的界面词列表匹配成功,终端设备可以通过以下方式获取用户输入的语音文本在当前操作界面中对应的操作链接,具体的执行流程如图4所示。
步骤1201a:若所述语音文本为预设界面词,获取所述语音文本在当前操作界面中对应的操作控件。
步骤1202a:判断所述操作控件在当前操作界面中是否有对应的操作链接。
步骤1203a:若所述操作控件在当前操作界面中有对应的操作链接,获取所述操作链接。
具体的,若用户输入的语音数据对应的语音文本与当前操作界面对应的界面词列表匹配成功,进一步的确认用户输入的语音数据对应的语音文本在当前界面中对应的操作控件。示例的,用户输入的语音数据对应的语音文本为“中国合伙人”,与图3中的操作界面对应的界面词列表中的字符串“中国合伙人”匹配成功,则进一步的确认用户输入的语音数据对应的语音文本 “中国合伙人”在当前操作界面中对应的操作控件是电影《中国合伙人》详情页面的加载控件。
进一步的,获取到用户输入的语音数据对应的语音文本在当前界面中对应的操作控件之后,判断该操作控件在当前操作界面中是否有对应的操作链接。如果该操作控件在当前操作界面中有对应的操作链接,则获取该操作控件对应的操作链接;如果该操作控件在当前操作界面中没有对应的操作链接,则对用户输入的语音数据对应的语音文本进行语义理解。
需要说明的,确认用户输入的语音数据对应的语音文本在当前操作界面中对应的操作控件可以通过终端设备的后台程序实现,因为终端设备显示的文本词组均是以控件作为区分的字符串,即一个控件对应一个字符串和该控件对应的操作链接,因此,通过终端设备的显示文本词组可以确定用户输入的语音数据对应的语音文本在当前界面中对应的操作控件和该操作控件对应的操作链接。示例的,图3中的操作界面中字符串“观看”对应的操作控件是播放电影《新娘大作战》的播放控件,其对应的操作链接是播放电影《新娘大作战》,即点击字符串“观看”对应的操作控件,终端设备的操作界面呈现电影《新娘大作战》的播放界面。
下面将通过具体的例子说明步骤1201a、步骤1202a和步骤1203a的执行过程:
示例的,用户输入的语音数据对应的语音文本为“中国合伙人”与图3中的操作界面对应的界面词列表中的字符串“中国合伙人”匹配成功,进而,终端设备获取到字符串“中国合伙人”在当前操作界面中对应的操作控件是电影《中国合伙人》详情页面的加载控件,进而判断到字符串“中国合伙人”对应的操作控件在当前操作界面中有对应的操作链接,该操作链接为展现电影《中国合伙人》详情页面,即字符串“中国合伙人”在当前操作界面中对应的操作链接为展现电影《中国合伙人》详情页面。
示例的,用户输入的语音数据对应的语音文本为“观看”与图3中的操作界面对应的界面词列表中的字符串“观看”匹配成功,进而,终端设备获取到字符串“观看”在当前操作界面中对应的操作控件是播放电影《新娘大作战》的播放控件,进而判断到字符串“观看”对应的操作控件在当前操作界面中有对应的操作链接,该操作链接是电影《新娘大作战》播放链接,即字符串“观看”在当前在当前操作界面中对应的操作链接是播放电影《新娘大作战》。
示例的,用户输入的语音数据对应的语音文本为“陈国辉”与图3中的操作界面对应的界面词列表中的字符串“陈国辉”匹配成功,进而,终端设备获取到字符串“陈国辉”在当前操作界面中对应的操作控件是电影《新娘大作战》的导演名称显示控件,进而判断到字符串“陈国辉”对应的操作控件在当前操作界面中没有对应的操作链接,进而对用户输入的语音文本“陈国辉”进行语义理解,字符串“陈国辉”对应的是一个人名,进而终端设备根据语义理解的结果生成相应的控制指令,示例的,生成的控制指令是控制终端设备针对字符串“陈国辉”进行网络搜索,进而终端设备进行网络搜索,终端设备的操作界面呈现字符串“陈国辉”所对应的网络搜索结果。
另一方面,若用户输入的语音数据对应的语音文本与当前操作界面对应的界面词列表匹配成功,终端设备还可以通过以下方式获取用户输入的语音文本在当前操作界面中对应的操作链接,具体的执行过程如图5所示。
步骤1201b:若所述语音文本与所述界面词列表匹配成功,获取当前操作界面的界面类型。
步骤1202b:根据所述当前操作界面的界面类型,获取所述语音文本在当前操作界面中对应的操作链接。
具体的,若用户输入的语音数据对应的语音文本与当前操作界面对应的界面词列表匹配成功,进一步的确认当前操作界面所对应的界面类型。其中,当前操作界面的界面类型包括主界面类型和子界面类型,以智能电视为例,智能电视的主界面类型包括但不限于影视类应用主页、音乐类应用主页、购物类应用主页、游戏类应用主页、教育类应用主页和搜索类应用主页,子界面类型包括主界面类型对应的业务所具有的固定界面类型,示例的,比如影视类应用主页对应的影视业务所具有的固定界面类型包括但不限于影视分类界面、影视专区界面、影视详情界面和影视播放界面等;购物类应用主页对应的购物业务所具有的固定界面类型包括但不限于商品分类界面、商品专区界面、商品详情界面和商品下单界面等。
示例的,用户输入的语音数据对应的语音文本为“中国合伙人”与图3中的操作界面对应的界面词列表中的字符串“中国合伙人”匹配成功后,终端设备获取到图3所示的当前操作界面的界面类型为影视详情界面。
进一步的,终端设备获取到当前操作界面的界面类型后,根据当前操作界面的界面类型,获取该界面类型对应的界面词模板,其中,该界面词模板包括该界面类型对应的固定界面词和预设界面词,固定界面词是该界面类型对应的业务界面中常用的固定界面词,每一个固定界面词都会对应一个固定的操作链接,示例的,比如图3所示的影视详情界面,其固定界面词“观看”对应的操作链接是该影视资源的播放链接,固定界面词“收藏”对应的操作链接是该影视资源的收藏链接。示例的,影视分类界面的界面词模板中的固定界面词包括但不限于“体育”、“财经”、“动漫”、“综艺”、“纪录片”等;影视详情界面的界面词模板中的固定界面词包括但不限于“观看”、“播放”、“收藏”和“更多精彩”等;影视专区界面的界面词模板中的固定界面词包括但不限于“惊悚”、“喜剧”、“动作”、“犯罪”等。当然,此处仅是举例说明,并不代表本发明实施例的固定界面词局限于此。
需要说明的是,当前操作界面中的界面词,除去固定界面词后的其余界面词都是当前操作界面的预设界面词,示例的,如图3所示的当前操作界面,当该操作界面对应的界面词包含:新娘大作战、评分、8.2分、类型、清晰、剧情、喜剧、爱情、青春、2015、导演、陈国辉、演员、Angelababy、朱亚文、倪妮、陈晓、本视频来自爱奇艺、购买荔枝VIP享1080P内容全时段观看、本视频版权来自于爱奇艺、马丽和何静是从小相识的闺蜜两人儿时在一个美丽的酒店参加了一场浪漫的婚礼他们从此梦想长大后也能在这里举行自己的婚礼十、观看、更多精彩、收藏、咱们结婚吧、中国合伙人、命中注定、夜上海、美女总裁的(或美女总裁的贴身高手)、撒娇女人最(或撒娇女人最好命)、爱谁谁、斗地主、情人节缘分(或情人节缘分制造记)。其中,观看、更多精彩、收藏为当前操作界面对应的固定界面词,其余的为当前操作界面对应的预设界面词。
进一步的,若用户输入的语音文本匹配的是当前操作界面的固定界面词,直接根据当前操作界面的界面类型和界面词模板,获取该固定界面词对应的操作链接,示例的,用户输入的语音数据对应的语音文本为“观看”与图3中的操作界面对应的固定界面词 “观看”匹配成功,进而获取到固定界面词“观看”对应的操作链接是该影视资源的播放链接,即用户输入的语音文本“观看”对应的操作链接是电影《新娘大作战》的播放链接。
更进一步的,若用户输入的语音文本匹配的是当前操作界面的预设界面词,进而获取该预设界面词在当前界面中对应的操作控件,进而判断该操作控件在当前操作界面中是否有对应的操作链接。如果该操作控件在当前操作界面中有对应的操作链接,则获取该操作控件对应的操作链接;如果该操作控件在当前操作界面中没有对应的操作链接,则对用户输入的语音数据对应的语音文本进行语义理解。该过程在前面的描述中已经详细论述,在此,本发明不再累述。
步骤130:根据所述操作链接执行所述操作。
具体的,终端设备获取到用户输入的语音文本对应的操作控件所对应的操作链接之后,终端设备执行该操作链接所对应的操作,需要说明的是,终端设备获取到用户输入的语音文本对应的操作控件所对应的操作链接之后,不需要用户再对该操作控件执行点击事件,终端设备即可执行该操作链接所对应的操作,提高了终端设备的语音控制响应速度。
示例的,当前操作界面如图3所示,用户输入的语音数据对应的语音文本为“观看”,终端设备获取到字符串 “观看”在当前在当前操作界面中对应的操作链接是播放电影《新娘大作战》,进而终端设备播放电影《新娘大作战》,即终端设备的操作界面呈现电影《新娘大作战》的播放界面。
示例的,当前操作界面如图3所示,用户输入的语音数据对应的语音文本为“中国合伙人”,终端设备获取到字符串 “中国合伙人”在当前在当前操作界面中对应的操作链接是展现电影《中国合伙人》详情页面,进而终端设备展现电影《中国合伙人》详情页面,即终端设备的操作界面呈现电影《中国合伙人》详情页面。
将用户输入的语音文本与当前操作界面对应的界面词列表进行匹配,如果匹配成功,则获取该语音文本在当前操作界面中对应的操作链接,进而根据该操作链接执行相应的操作,实现用户对终端设备的语音控制。本发明实施例提供的语音控制方法,不需要对用户输入的语音文本进行语义理解,也不需要对用户输入的语音文本对应的操作控件执行点击事件,即可实现对终端设备的语音控制,简化了终端设备的语音控制过程,进一步提高了终端设备的语音控制响应速度和准确率,改善了终端设备的用户体验性。
在实际使用的过程中,用户可以输入任意的语音数据,终端设备可以通过语音输入模块接收用户输入的任意语音数据,以及由于语音输入模块本身的识别准确率比较低,很容易出现用户输入的语音数据与当前操作界面的界面词列表不匹配的现象,为进一步提高终端设备语音控制的准确性和用户体验性,本发明实施例提供的另一种语音控制方法的流程如图4所示。
参考图6所示,在步骤110之后还包括:
步骤140:若所述语音文本与所述界面词列表匹配失败,对所述语音文本进行语义理解。
步骤150:根据所述语义理解结果,将所述语音文本生成控制指令。
步骤160:执行所述控制指令。
具体的,如果用户输入的语音数据对应的语音文本与当前操作界面对应的界面词列表匹配失败,则对用户输入的语音文本进行语义理解,根据语义理解结果进行业务定位,根据所定位的业务生成执行相应业务所对应的控制指令,进而执行所生成的控制指令。本发明实施例提供的语音控制方法中,步骤140、步骤150和步骤160的具体执行过程,与现有技术中相同,因此,本发明实施例在此不再累述,具体的,本领域技术人员可参考现有技术。
示例的,用户输入的语音数据对应的语音文本为“观看中国合伙人”,则终端设备将字符串“观看中国合伙人”作为一个整体与图3中的操作界面对应的界面词列表中的字符串进行比对,发现图3的操作界面对应的界面词列表中存在字符串“观看”和“中国合伙人”,但是不存在合在一起的字符串“观看中国合伙人”,则匹配失败。进而终端设备对用户输入的语音文本“观看中国合伙人”进行语义理解,语义理解的结果为用户想要播放电影《中国合伙人》,进而根据语义理解的结果生成相应的控制指令:播放电影《中国合伙人》,进而终端设备执行播放电影《中国合伙人》的控制指令,则终端设备的播放界面呈现电影《中国合伙人》的播放界面。
本发明实施例还提供一种语音控制装置,该语音控制装置可以设置在智能手机、智能电视、平板电脑和笔记本电脑等终端设备上。本发明实施例提供的语音控制装置,如图7所示,包括:
语音输入模块701,用于当终端设备被触发进入语音控制模式后,接收用户输入的语音数据,并根据其接收到的语音数据获取对应的语音文本;
判断模块702,用于判断语音输入模块701接收到的语音文本与当前操作界面对应的界面词列表是否匹配;
获取模块703,用于获取当前操作界面对应的界面词列表,以及当判断模块702判断到语音输入模块701接收到的语音文本与当前操作界面对应的界面词列表匹配成功时,用于获取语音输入模块701接收到的语音文本在当前操作界面中对应的操作链接;
执行模块704,用于执行获取模块703获取到的语音输入模块701接收的语音文本在当前操作界面中对应的操作链接。
具体的,当判断模块702判断到语音输入模块701接收到的语音文本与当前操作界面对应的界面词列表匹配成功时,获取模块703获取语音输入模块701接收的语音文本与当前操作界面对应的操作控件,进而判断模块702判断该操作控件在当前操作界面中是否有对应的操作链接,如果该操作控件在当前操作界面中有对应的操作链接,获取模块703获取该操作控件所对应的操作链接。
另一方面,具体的,当判断模块702判断到语音输入模块701接收到的语音文本与当前操作界面对应的界面词列表匹配成功时,获取模块703获取当前操作界面的界面类型,进而根据该操作界面的界面类型,获取该界面类型对应的界面词模板,进而获取语音输入模块701接收的语音文本在当前操作界面中对应的操作链接。
本发明实施例提供的语音控制装置,用于执行上述语音控制方法的方法步骤,在此不再累述。
本发明实施例提供的语音控制装置,判断模块702将语音输入模块701接收的用户输入的语音文本与当前操作界面对应的界面词列表进行匹配,如果匹配成功,则获取模块703获取该语音文本在当前操作界面中对应的操作链接,进而执行模块704根据该操作链接执行相应的操作,实现用户对终端设备的语音控制。本发明实施例提供的语音控制装置,不需要对用户输入的语音文本进行语义理解,简化了终端设备的语音控制过程,进一步提高了终端设备的语音控制响应速度和准确率,改善了终端设备的用户体验性。
本发明实施例还提供一种终端设备,该终端设备包括但不限于智能手机、智能电视、平板电脑、笔记本电脑等,该终端设备包括上述语音控制装置,用于执行上述语音控制方法的方法步骤,在此不再累述。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器,使得通过该计算机或其他可编程数据处理设备的处理器执行的指令可实现流程图中的一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图的一个流程或多个流程和/或方框图的一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (4)

1.一种语音控制方法,其特征在于,所述语音控制方法包括:
当终端设备被触发进入语音控制模式后,接收输入的语音数据,并根据所述语音数据获取对应的语音文本;
将所述语音文本与当前操作界面对应的界面词列表进行匹配,其中,所述界面词列表包括当前操作界面中不同操作控件加载的文本词组,每一操作控件对应一个文本词组;
若所述语音文本与所述界面词列表匹配成功,判断所述界面词列表中匹配成功的文本词组对应的操作控件是否存在操作链接,响应于存在操作链接,根据所述操作链接执行所述操作;响应于不存在操作链接,对所述语音文本进行语义理解并根据所述语义理解结果,将所述语音文本生成语音控制指令;执行所述语音控制指令;
若所述语音文本与所述界面词列表匹配失败,则对所述语音文本进行语义理解并根据所述语义理解结果,将所述语音文本生成语音控制指令;执行所述语音控制指令。
2.根据权利要求1所述方法,其特征在于,所述若所述语音文本与所述界面词列表匹配成功,判断所述界面词列表中匹配成功的文本词组对应的操作控件是否存在操作链接,响应于存在操作链接,根据所述操作链接执行所述操作;响应于不存在操作链接,对所述语音文本进行语义理解并根据所述语义理解结果,将所述语音文本生成语音控制指令;执行所述语音控制指令包括:
若所述语音文本与所述界面词列表匹配成功,获取当前操作界面的界面类型,其中,所述界面类型包括主界面类型和子界面类型;
根据所述当前操作界面的界面类型,判断所述界面词列表中匹配成功的文本词组对应的操作控件是否存在操作链接,响应于存在操作链接,根据所述操作链接执行所述操作;响应于不存在操作链接,对所述语音文本进行语义理解并根据所述语义理解结果,将所述语音文本生成语音控制指令;执行所述语音控制指令。
3.根据权利要求2所述方法,其特征在于,所述根据所述当前操作界面的界面类型,判断所述界面词列表中匹配成功的文本词组对应的操作控件是否存在操作链接,响应于存在操作链接,根据所述操作链接执行所述操作;响应于不存在操作链接,对所述语音文本进行语义理解并根据所述语义理解结果,将所述语音文本生成语音控制指令;执行所述语音控制指令包括:
获取所述当前操作界面的界面类型对应的界面词模板,其中,所述界面词模板包括固定界面词和预设界面词,其中固定界面词均对应一个固定的操作链接;
若所述语音文本为固定界面词,根据所述固定界面词对应的操作链接的执行所述操作;
若所述语音文本为预设界面词,获取所述语音文本在当前操作界面中对应的操作控件;
判断所述操作控件在当前操作界面中是否有对应的操作链接;
若所述操作控件在当前操作界面中有对应的操作链接,获取所述操作链接,获取所述操作链接并根据所述操作链接执行所述操作;
若所述操作控件在当前操作界面中不存在对应的操作链接,则对所述语音文本进行语义理解并根据所述语义理解结果,将所述语音文本生成语音控制指令;执行所述语音控制指令。
4.一种终端设备,其特征在于,用于执行权利要求1-3任意一项所述的方法。
CN201610271400.5A 2016-04-28 2016-04-28 一种语音控制方法、装置和终端设备 Active CN105957530B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201610271400.5A CN105957530B (zh) 2016-04-28 2016-04-28 一种语音控制方法、装置和终端设备
US15/393,546 US10068574B2 (en) 2016-04-28 2016-12-29 Voice control method, device and terminal
US16/045,331 US10600413B2 (en) 2016-04-28 2018-07-25 Voice control method, device and terminal

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610271400.5A CN105957530B (zh) 2016-04-28 2016-04-28 一种语音控制方法、装置和终端设备

Publications (2)

Publication Number Publication Date
CN105957530A CN105957530A (zh) 2016-09-21
CN105957530B true CN105957530B (zh) 2020-01-03

Family

ID=56916609

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610271400.5A Active CN105957530B (zh) 2016-04-28 2016-04-28 一种语音控制方法、装置和终端设备

Country Status (2)

Country Link
US (2) US10068574B2 (zh)
CN (1) CN105957530B (zh)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105957530B (zh) * 2016-04-28 2020-01-03 海信集团有限公司 一种语音控制方法、装置和终端设备
CN107657471B (zh) * 2016-09-22 2021-04-30 腾讯科技(北京)有限公司 一种虚拟资源的展示方法、客户端及插件
CN106710598A (zh) * 2017-03-24 2017-05-24 上海与德科技有限公司 语音识别方法及装置
CN106846959A (zh) * 2017-04-20 2017-06-13 成都景中教育软件有限公司 语音控制和操作教学辅助软件的方法及装置
US10449440B2 (en) 2017-06-30 2019-10-22 Electronic Arts Inc. Interactive voice-controlled companion application for a video game
CN109474843B (zh) 2017-09-08 2021-09-03 腾讯科技(深圳)有限公司 语音操控终端的方法、客户端、服务器
US10621317B1 (en) 2017-09-14 2020-04-14 Electronic Arts Inc. Audio-based device authentication system
CN109545223B (zh) * 2017-09-22 2022-03-01 Tcl科技集团股份有限公司 应用于用户终端的语音识别方法及终端设备
CN107948698A (zh) * 2017-12-14 2018-04-20 深圳市雷鸟信息科技有限公司 智能电视的语音控制方法、系统及智能电视
CN108600796B (zh) * 2018-03-09 2019-11-26 百度在线网络技术(北京)有限公司 智能电视的控制模式切换方法、设备及计算机可读介质
US10789940B2 (en) * 2018-03-27 2020-09-29 Lenovo (Singapore) Pte. Ltd. Dynamic wake word identification
CN109741737B (zh) * 2018-05-14 2020-07-21 北京字节跳动网络技术有限公司 一种语音控制的方法及装置
CN110602559A (zh) * 2018-06-12 2019-12-20 阿里巴巴集团控股有限公司 人机交互及电视操作控制方法、装置、设备以及存储介质
CN108877796A (zh) * 2018-06-14 2018-11-23 合肥品冠慧享家智能家居科技有限责任公司 语音控制智能设备终端操作的方法和装置
CN110691160A (zh) * 2018-07-04 2020-01-14 青岛海信移动通信技术股份有限公司 一种语音控制方法、装置及手机
CN109254972B (zh) * 2018-07-23 2022-09-13 上海法本信息技术有限公司 一种离线命令词库更新方法、终端及计算机可读存储介质
CN109101586B (zh) * 2018-07-23 2021-11-16 Oppo广东移动通信有限公司 电影信息获取方法、装置及移动终端
CN110782886A (zh) * 2018-07-30 2020-02-11 阿里巴巴集团控股有限公司 语音处理的系统、方法、电视、设备和介质
CN108984800B (zh) * 2018-08-22 2020-10-16 广东小天才科技有限公司 一种语音搜题方法及终端设备
CN109218526B (zh) * 2018-08-30 2020-09-25 维沃移动通信有限公司 一种语音处理方法及移动终端
CN109215650A (zh) * 2018-09-17 2019-01-15 珠海格力电器股份有限公司 一种基于终端界面识别的语音控制方法、系统及智能终端
CN113794800B (zh) 2018-11-23 2022-08-26 华为技术有限公司 一种语音控制方法及电子设备
CN111243580B (zh) * 2018-11-28 2023-06-09 Tcl科技集团股份有限公司 语音控制方法、装置及计算机可读存储介质
CN109616126A (zh) * 2018-12-06 2019-04-12 珠海格力电器股份有限公司 一种语音数据处理方法、装置、存储介质及终端
US10926173B2 (en) * 2019-06-10 2021-02-23 Electronic Arts Inc. Custom voice control of video game character
CN110312040B (zh) * 2019-07-02 2021-02-19 网易(杭州)网络有限公司 信息处理的方法、装置和系统
CN110675872B (zh) * 2019-09-27 2023-09-01 海信视像科技股份有限公司 基于多系统显示设备的语音交互方法及多系统显示设备
CN111124229B (zh) * 2019-12-24 2022-03-11 山东舜网传媒股份有限公司 通过语音交互实现网页动画控制的方法、系统及浏览器
CN111326145B (zh) * 2020-01-22 2023-04-28 深圳市灰鲨科技有限公司 语音模型训练方法、系统及计算机可读存储介质
CN112309388A (zh) * 2020-03-02 2021-02-02 北京字节跳动网络技术有限公司 用于处理信息的方法和装置
CN114007117B (zh) * 2020-07-28 2023-03-21 华为技术有限公司 一种控件显示方法和设备
CN113035194B (zh) * 2021-03-02 2022-11-29 海信视像科技股份有限公司 一种语音控制方法、显示设备及服务器
US20220301549A1 (en) * 2021-03-17 2022-09-22 Samsung Electronics Co., Ltd. Electronic device and method for providing voice recognition service
CN115396709A (zh) * 2022-08-22 2022-11-25 海信视像科技股份有限公司 显示设备、服务器及免唤醒语音控制方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5884266A (en) * 1997-04-02 1999-03-16 Motorola, Inc. Audio interface for document based information resource navigation and method therefor
CN102629246A (zh) * 2012-02-10 2012-08-08 北京百纳信息技术有限公司 识别浏览器语音命令的服务器及浏览器语音命令识别方法
CN102866824A (zh) * 2011-06-07 2013-01-09 三星电子株式会社 执行链接的显示设备和方法及其识别语音的方法

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5774859A (en) * 1995-01-03 1998-06-30 Scientific-Atlanta, Inc. Information system having a speech interface
US5890123A (en) * 1995-06-05 1999-03-30 Lucent Technologies, Inc. System and method for voice controlled video screen display
US5729659A (en) * 1995-06-06 1998-03-17 Potter; Jerry L. Method and apparatus for controlling a digital computer using oral input
IL119948A (en) * 1996-12-31 2004-09-27 News Datacom Ltd Voice activated communication system and program guide
US6101472A (en) * 1997-04-16 2000-08-08 International Business Machines Corporation Data processing system and method for navigating a network using a voice command
JP4197195B2 (ja) * 1998-02-27 2008-12-17 ヒューレット・パッカード・カンパニー 音声情報の提供方法
FR2783625B1 (fr) * 1998-09-21 2000-10-13 Thomson Multimedia Sa Systeme comprenant un appareil telecommande et un dispositif de telecommande vocale de l'appareil
US6308157B1 (en) * 1999-06-08 2001-10-23 International Business Machines Corp. Method and apparatus for providing an event-based “What-Can-I-Say?” window
US7519534B2 (en) * 2002-10-31 2009-04-14 Agiletv Corporation Speech controlled access to content on a presentation medium
US7593845B2 (en) * 2003-10-06 2009-09-22 Microsoflt Corporation Method and apparatus for identifying semantic structures from text
US8738377B2 (en) * 2010-06-07 2014-05-27 Google Inc. Predicting and learning carrier phrases for speech input
US9031847B2 (en) * 2011-11-15 2015-05-12 Microsoft Technology Licensing, Llc Voice-controlled camera operations
EP2860726B1 (en) * 2011-12-30 2017-12-06 Samsung Electronics Co., Ltd Electronic apparatus and method of controlling electronic apparatus
KR20140089861A (ko) * 2013-01-07 2014-07-16 삼성전자주식회사 디스플레이 장치 및 그의 제어 방법
US8938394B1 (en) * 2014-01-09 2015-01-20 Google Inc. Audio triggers based on context
KR102210433B1 (ko) * 2014-01-21 2021-02-01 삼성전자주식회사 전자 장치 및 이의 음성 인식 방법
CN105957530B (zh) * 2016-04-28 2020-01-03 海信集团有限公司 一种语音控制方法、装置和终端设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5884266A (en) * 1997-04-02 1999-03-16 Motorola, Inc. Audio interface for document based information resource navigation and method therefor
CN102866824A (zh) * 2011-06-07 2013-01-09 三星电子株式会社 执行链接的显示设备和方法及其识别语音的方法
CN102629246A (zh) * 2012-02-10 2012-08-08 北京百纳信息技术有限公司 识别浏览器语音命令的服务器及浏览器语音命令识别方法

Also Published As

Publication number Publication date
US20180330734A1 (en) 2018-11-15
US10600413B2 (en) 2020-03-24
US20170110128A1 (en) 2017-04-20
US10068574B2 (en) 2018-09-04
CN105957530A (zh) 2016-09-21

Similar Documents

Publication Publication Date Title
CN105957530B (zh) 一种语音控制方法、装置和终端设备
CN106098063B (zh) 一种语音控制方法、终端设备和服务器
US20180152767A1 (en) Providing related objects during playback of video data
CN111683263B (zh) 直播指导方法、装置、设备及计算机可读存储介质
CN109189987A (zh) 视频搜索方法和装置
CN109688475B (zh) 视频播放跳转方法、系统及计算机可读存储介质
CN108536414B (zh) 语音处理方法、装置和系统、移动终端
CN112040263A (zh) 视频处理方法、视频播放方法、装置、存储介质和设备
US20170206243A1 (en) Control apparatus, control method and computer program
WO2017181611A1 (zh) 在特定视频库中搜索视频的方法及其视频终端
CN109547840A (zh) 影视作品搜索引导方法、电视及计算机可读存储介质
CN110602516A (zh) 基于视频直播的信息交互方法、装置及电子设备
CN112004117B (zh) 视频播放方法及装置
AU2017302604A1 (en) Systems and methods for executing a supplemental function for a natural language query
CN108965981A (zh) 视频播放方法、装置、存储介质及电子设备
TWI555393B (zh) 電視節目智慧播放方法與其控制裝置
CN103995822A (zh) 一种终端及信息搜索方法
WO2017185604A1 (zh) 一种智能终端的界面显示方法及设备
CN113556603B (zh) 调整视频播放效果的方法及装置、电子设备
CN113992972A (zh) 一种字幕显示方法、装置、电子设备和可读存储介质
CN106528149A (zh) 一种锁屏方法及装置
US20140181672A1 (en) Information processing method and electronic apparatus
CN114125149A (zh) 视频播放方法、装置、系统、电子设备及存储介质
JPWO2015037098A1 (ja) 電子機器、方法及びプログラム
CN113111197A (zh) 多媒体内容的推荐方法、装置、设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant