CN109192212A - 语音控制方法及装置 - Google Patents

语音控制方法及装置 Download PDF

Info

Publication number
CN109192212A
CN109192212A CN201811348000.5A CN201811348000A CN109192212A CN 109192212 A CN109192212 A CN 109192212A CN 201811348000 A CN201811348000 A CN 201811348000A CN 109192212 A CN109192212 A CN 109192212A
Authority
CN
China
Prior art keywords
participle
user
alternate item
content information
alternate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811348000.5A
Other languages
English (en)
Other versions
CN109192212B (zh
Inventor
王强
甘津瑞
徐鸿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sipic Technology Co Ltd
Original Assignee
AI Speech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AI Speech Ltd filed Critical AI Speech Ltd
Priority to CN201811348000.5A priority Critical patent/CN109192212B/zh
Publication of CN109192212A publication Critical patent/CN109192212A/zh
Application granted granted Critical
Publication of CN109192212B publication Critical patent/CN109192212B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种语音控制方法及装置,其中,该方法包括:接收第一用户语音指令;根据所述第一用户语音指令确定多个备选项并呈现给用户;对每一个所述备选项的内容信息进行分词处理,每一个所述备选项分别对应于至少一个分词;接收用户根据所呈现的内容发出的第二用户语音指令;确定所述第二用户语音指令所命中的分词所对应的备选项。基于本发明实施例的语音控制方法支持人性化的说法,用户能够直接说出自己所看到的内容信息并得到自己想要的结果。而不必确定并说出想要选择的备选项的位置,相较于现有方式,能够更加快速准确的使用语音控制指令来从众多选项中精准的选中目标选项。

Description

语音控制方法及装置
技术领域
本发明涉及语音控制技术领域,尤其涉及一种语音控制方法及装置。
背景技术
现有技术中,用户在进行语音选择或者搜索时,往往会呈现多个命中用户语义指令的备选项,需要用户从所呈现的多个备选项中进一步选择自己真正想要的结果。
目前现有技术中,用户只能从根据观察确定想要选择的选项在类表中的位置,并且具体说出该选项的位置信息的形式来进行进一步的选择。例如,第一个,第二行第三个等。
例如,当说第几行第几个时,是需要稍微想一想的,尤其对于需要滚动显示的情况下(由于要展示内容不足以在当前屏幕上完全显示,需要滚动鼠标使得页面滚动显示),在用户在滚动查看的过程中当确定选项之后,可能并不记得当前选项处于第几行,需要往回翻滚并计数,显然操作起来较为麻烦。此外,对于图标较小的页面或者仅仅以文字条信息形成的类表,多数情况下会由于数错而不能准确选择真正想要选择的备选项。
因此,由于现有技术不支持人性化的说法,所以存在无法快速定位选项,无法精准匹配及响应速度慢的问题。
发明内容
本发明实施例提供一种语音控制方法及装置,用于至少解决上述技术问题之一。
第一方面,本发明实施例提供一种语音控制方法,包括:接收第一用户语音指令;根据所述第一用户语音指令确定多个备选项并呈现给用户;对每一个所述备选项的内容信息进行分词处理,每一个所述备选项分别对应于至少一个分词;接收用户根据所呈现的内容发出的第二用户语音指令;确定所述第二用户语音指令所命中的分词所对应的备选项。
第二方面,本发明实施例提供一种语音控制装置,包括:
第一接收模块,用于接收第一用户语音指令;
呈现内容获取模块,用于根据所述第一用户语音指令确定多个备选项并呈现给用户;
分词获取模块,用于对每一个所述备选项的内容信息进行分词处理,每一个所述备选项分别对应于至少一个分词;
第二接收模块,用于接收用户根据所呈现的内容发出的第二用户语音指令;
命中备选项确定模块,用于确定所述第二用户语音指令所命中的分词所对应的备选项。
第三方面,本发明实施例提供一种存储介质,所述存储介质中存储有一个或多个包括执行指令的程序,所述执行指令能够被电子设备(包括但不限于计算机,服务器,或者网络设备等)读取并执行,以用于执行本发明上述任一项语音控制方法。
第四方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明上述任一项语音控制方法。
第五方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述任一项语音控制方法。
本发明实施例的有益效果在于:基于本发明实施例的语音控制方法支持人性化的说法,用户能够直接说出自己所看到的内容信息并得到自己想要的结果。而不必确定并说出想要选择的备选项的位置,相较于现有方式,能够更加快速准确的使用语音控制指令来从众多选项中精准的选中目标选项。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的语音控制方法的一实施例的流程图;
图2为本发明的语音控制方法的另一实施例的流程图;
图3为本发明的语音控制方法的又一实施例的流程图;
图4为本发明的语音控制装置的一实施例的原理框图;
图5为本发明的语音控制装置中的分词获取模块的一实施例的原理框图;
图6为本发明的语音控制装置的另一实施例的原理框图;
图7为本发明的电子设备的一实施例的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
在本发明中,“模块”、“装置”、“系统”等指应用于计算机的相关实体,如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说,例如,元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有,运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中,并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间,并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号,例如,来自一个与本地系统、分布式系统中另一元件交互的,和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本发明实施例中的语音控制方法及装置应用于配置有语音智能服务的终端设备上,该智能终端上配置有显示屏或者该终端设备能够投影出显示界面用于用户进行交互操作,例如,智能电视、智能手机、平板电脑、PC、智能家居、投影仪等任何智能硬件,本发明对此不作限定。
如图1所示,本发明的实施例提供一种语音控制方法,包括:
S10、接收第一用户语音指令。
示例性地,在智能电视上,通过麦克风检测并接收用户说法(即,第一用户语音指令),用户可以说我想看关于“功夫”的电影。
S20、根据所述第一用户语音指令确定多个备选项并呈现给用户。
本发明实施例中可以采用任何形式将多个备选项呈现给用户,例如,可以以备选项列表(单列、当行、或者矩阵)的形式,或者以其它不规则的排布形式呈现在界面上供用户查看选择。本发明对此不作限定,仅仅在以下实施例中以列表形式为例进行示例性说明。
示例性地,当第一用户指令是“我想看关于功夫的电影”时,根据该第一用户指令得到的结果可能包括了以下备选项内容:功夫熊猫1、功夫熊猫2、功夫熊猫3、功夫、功夫(粤语)、功夫美男、功夫道长、功夫大侠等20部电影。这些备选项内容可能是以4行乘5列的海报列表形式呈现的;或者是以电影名称为条目,以下拉列表的形式呈现的。
S30、对多个备选项中的每一个备选项的内容信息进行分词处理,每一个备选项分别对应于至少一个分词。
本实施例中的备选项的内容信息可以是直接以文字形式呈现的备选项,也可以是基于对所呈现的电影海报进行图像识别所得到的文字内容。
例如,对于复仇者联盟的海报,可以经过图像识别技术确定该内容为“复仇者联盟”或者“功夫熊猫3”。可以将“复仇者联盟”进行分词得到“复仇”、“复仇者”、“联盟”、“复联”、“复仇者联盟”等;可以将“功夫熊猫”进行分词得到“功夫”、“熊猫”、“功夫熊猫”、“功夫3”、“功夫熊猫3”、“熊猫3”等。
S40、接收用户根据所呈现的内容发出的第二用户语音指令。
本实施了中,第二用户语音指令是基于用户观察到的备选项列表中的备选项所呈现出的内容信息发出的。例如,列表中呈现有功夫熊猫3的海报,则用户可能会基于此说出“我想看熊猫3”。
S50、确定所述第二用户语音指令所命中的分词所对应的备选项。
本实施例中,由之前对于备选项列表中的每一个备选项的内容信息的分词可知,存在包含了“熊猫3”的分词的备选项,从而也就确定了对应于第二用户语音指令的备选项。
本发明实施例的一个具体应用场景为:对于智能电视,当用户在智能电视上搜索自己想要观看的电影(或者听音乐)时,可以通过语音交互实现搜索,但一般情况下,用户可能并没有明确的搜索目标或者不能够完整的记得电影(或者歌曲)的名称,这时用户说出的语音可能就不会太精准,从而导致呈现给用户多个备选项。进一步的用户可以根据自己看到的已经呈现出的多个备选项来组织自己的说法并选择想要观看的电影(或者想要听的歌曲)。
因此,基于本发明实施例的语音控制方法支持人性化的说法,用户能够直接说出自己所看到的内容信息并得到自己想要的结果。而不必确定想要选择的备选项在类表中的坐标,相较于现有方式,能够更加快速准确的使用语音控制指令来从众多选项中精准的选中目标选项。
额外地,发明人在实现本发明的过程中发现,传统语音交互界面上为了便于用户确定并说出想要操作的控件所处的相对位置以实现对控件的操作,在进行交互界面设计时仅仅只能将界面中的控件按照规则的类表形式进行排列,以便用户能够准确确定目标控件所在行列从而通过说出目标控件所在行列的方式实现语音控制。
但是,由于本发明的方法只需要用户说出想要选择的目标控件的控件信息,而不必确定控件的相对位置就能实现语音控制,所以给语音交互界面中的控件的排列形式提供了更加灵活广泛的设计空间(可以以任意想要的形式安排控件的空间排布)。
在本发明的语音控制方法的一些实施例中,在对多个备选项中的每一个备选项的内容信息进行分词处理之后还包括:将分词处理得到的所有分词注册为唤醒词;此时,所述确定所述第二用户语音指令所命中的分词所对应的备选项包括:确定所述第二用户语音指令所命中的分词所对应的备选项并呈现给用户。
本发明实施例中,采用申请人自己公司(思必驰信息科技有限公司)的语音平台(DUI),该语音平台支持注册列表中的信息,生成快捷唤醒词供用户直接说出列表中的信息从而进行选择。其次,我们采用了合适语音平台接口的分词算法、匹配唤醒资源的阈值计算,将分词结果输送到语音后台从而实现注册,用户只需要列表中的信息的一部分,就能实现选择。
在一些实施例中,首先,语音平台(DUI)开发人员开发核心接口,可以添加/注册快捷唤醒词。
其次,后台开发分词算法及处理逻辑,将客户端列表中的信息进行分词操作,返回到客户端,再由客户端将已经分词完毕的信息通过语音平台的接口去注册快捷唤醒词。
然后,再列表展示出来的时候,用户没感知的情况下我们已经处理完这一系列操作,用户不仅可以通过列表条目的位置进行选择,而且可以通过列表中的条目一部分信息进行选择,如:列表中有“复仇者联盟”这部电影,用户只需要说“复仇者”或者“联盟”就进行播放。
这里还有一条重要的点,那就是:语音平台会将接口中的分词信息,全部添加到一个空的分词技能里面,除非用户关掉列表界面,否则这个技能一直生效,那么用户说的分词就能马上被识别。当用户关掉列表界面会通过接口告诉语音平台清空分词技能,这样就不会影响到语音的正常使用。
在一些实施例中,唤醒+oneshot典型案例:“功夫”和“功夫熊猫”,如何命中“功夫熊猫”。其中,oneshot为思必驰公司所开发的一种语音识别方法“一把说”,即,在说法命中的同时,执行启动被命中的功能。
当input text为“功夫”,根据匹配算法,命中的是“功夫”;
当input text为“功夫熊猫”,此时仅“功夫”被唤醒,命中的还是“功夫”。
为了解决这个问题,引入唤醒+oneshot技术方案;
通过一个能判断是否oneshot的事件消息来区分,非oneshot情况即唤醒命中;oneshot的情况下,需参考唤醒结果(wakeup.result)+识别结果(asr.text)。
在一些实施例中,结合GUI(Graphical User Interface,图形用户界面)和VUI(Voice User Interface,语音用户界面)来实现本发明的语音控制方法,具体包括以下步骤:
1、语音输入;具体地,基于远场或进场唤醒语音,检测语音输入“我想看电影功夫”;
2、展示语音输入动画,并展示对用户输入语音的识别结果“我想看电影功夫”;
3、根据识别结果搜索并展示影视结果,结果中包含“功夫”和“功夫熊猫”;
4、对搜索到的影视结果中的影片名分词、转拼音及计算阈值,设置该场景下的打断和命令唤醒词,输入语音“功夫熊猫”;
5、进一步“功夫”被唤醒,“功夫熊猫”被识别,根据优先级策略命中含有“功夫熊猫”的Item;
6、展示“功夫熊猫”的影视详情页。
本发明实施例能够实现影视搜索界面快速精准的定位选择功能,提升对话交互的用户体验。不仅仅只是影视搜索列表页面,将来可以应用在任何可交互的GUI+VUI的场景。
如图2所示,在本发明的语音控制方法的一些实施例中,所述对所述备选项列表中的每一个备选项的内容信息进行分词处理包括:
S31、将所述每一个备选项的内容信息拆分成多个语义完整的分词作为第一分词集;例如,对于“复仇者联盟3”,将其进行分词处理得到第一分词集:复仇、复仇者、联盟、联盟3。
S32、基于所述多个语义完整的分词中的至少两个生成第二分词集。例如,对于“复仇者联盟3”,由上述步骤中得到的第一分词集中的分词,可以得到第二分词集:复仇者联盟、复仇者联盟3。
S33、将所述第一分词集合所述第二分词集合并得到对应于所述内容信息的分词集。
本发明实施例中能够保证无论用户基于所看到的备选列表说出的是什么内容,都能够命中想要选择的内容,此外,由于采用了分词以得到用户可能说出的所有说法,在用户进行语音控制时,识别过程是对于具体说法的与相应分词的匹配过程,无需进行复杂的模糊搜索,降低了终端设备的运算量,降低了对终端设备的运算性能的要求。
在一些实施例中,所述第二分词集中的每一个分词所包含的至少两个语义完整的分词的先后顺序与所述至少两个语义完整的分词在所述内容信息中的先后顺序保持一致。
按照用户实际说话的习惯来生成分词,而非机械的对所有语义完整的分词进行排列组合,确保了分词结果的有效性,同时也减少了分词处理量以及根据用户语音指令查询命中分词的搜索量,从而总体上提升了响应用户的实时性,改善了用户体验。
如图3所示,在本发明的语音控制方法的一些实施例中,还包括:
S31′、对当前备选项的内容信息进行分词处理之后,判断所得到的当前分词结果中是否存在与历史分词结果相同的分词;
S32′、如果存在,则确定历史分词结果中的所述相同的分词对应的历史备选项的内容信息;
S33′、确定所述当前备选项的内容信息中不同于所述历史备选项的内容信息的区别词;
S34′、将所述区别词作为所述当前分词结果中的分词的前缀或者后缀以得到新的分词结果。
本实施例中,当同一个列表中,对于不同的备选项的分词结果中存在重复的分词结果时,将区别部分的分词作为所有分词结果的前缀或者后缀。例如,复仇者联盟1、复仇者联盟2,区别部分的分词就是“1”和“2”,分词结果可以包括:复仇者1、复仇者2、复联1、复联2等);例如,复仇者联盟(英文版)、复仇者联盟(中文版),区别部分就是“英文版”和中文版,从而分词结果可以包括:英文版复联、中文版复联、英文版复仇者、中文版复仇者等。这种采用前缀或者后缀的方式也恰恰符合用户说法习惯,从而解决了对于相类似的备选项目,用户按照自己的习惯说法进行语音控制依然能够准确的命中选项。从而提升了语音控制的友好性,提升了用户体验。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作合并,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
如图4所示,本发明的实施例还提供一种语音控制装置400,包括:
第一接收模块410,用于接收第一用户语音指令;
呈现内容获取模块420,用于根据所述第一用户语音指令确定多个备选项并呈现给用户;
分词获取模块430,用于对所述多个备选项中的每一个备选项的内容信息进行分词处理,所述多个备选项中的每一个备选项分别对应于至少一个分词;
第二接收模块440,用于接收用户根据所呈现的多个备选项发出的第二用户语音指令;
命中备选项确定模块450,用于确定所述第二用户语音指令所命中的分词所对应的备选项。
本发明实施例的一个具体应用场景为:对于智能电视,当用户在智能电视上搜索自己想要观看的电影(或者听音乐)时,可以通过语音交互实现搜索,但一般情况下,用户可能并没有明确的搜索目标或者不能够完整的记得电影(或者歌曲)的名称,这时用户说出的语音可能就不会太精准,从而导致呈现给用户多个备选项。进一步的用户可以根据自己看到的已经呈现出的多个备选项来组织自己的说法并选择想要观看的电影(或者想要听的歌曲)。
因此,基于本发明实施例的语音控制装置支持人性化的说法,用户能够直接说出自己所看到的内容信息并得到自己想要的结果。而不必确定想要选择的备选项在类表中的坐标,相较于现有方式,能够更加快速准确的使用语音控制指令来从众多选项中精准的选中目标选项。
在本发明的语音控制装置的一些实施例中,还包括:唤醒词注册模块,用于在对所述多个备选项中的每一个备选项的内容信息进行分词处理之后,将分词处理得到的所有分词注册为唤醒词;所述命中备选项确定模块450用于确定所述第二用户语音指令所命中的分词所对应的备选项并呈现给用户。
如图5所示,本发明的一种语音控制装置的一些实施例中,所述分词获取模块430包括:
第一分词集确定单元431,用于将所述每一个备选项的内容信息拆分成多个语义完整的分词作为第一分词集;
第二分词集确定单元432,用于基于所述多个语义完整的分词中的至少两个生成第二分词集;
分词集确定单元433,用于将所述第一分词集合所述第二分词集合并得到对应于所述内容信息的分词集。
在一些实施例中,所述第二分词集中的每一个分词所包含的至少两个语义完整的分词的先后顺序与所述至少两个语义完整的分词在所述内容信息中的先后顺序保持一致。
如图6所示,在本发明的语音控制装置的一些实施例中,还包括:
判定模块431′,用于对当前备选项的内容信息进行分词处理之后,判断所得到的当前分词结果中是否存在与历史分词结果相同的分词;
历史内容信息确定模块432′,用于当所得到的当前分词结果中存在与历史分词结果相同的分词,则确定历史分词结果中的所述相同的分词对应的历史备选项的内容信息;
区别词确定模块433′,用于确定所述当前备选项的内容信息中不同于所述历史备选项的内容信息的区别词;
新分词结果生成模块434′,用于将所述区别词作为所述当前分词结果中的分词的前缀或者后缀以得到新的分词结果。
在一些实施例中,本发明实施例提供一种非易失性计算机可读存储介质,所述存储介质中存储有一个或多个包括执行指令的程序,所述执行指令能够被电子设备(包括但不限于计算机,服务器,或者网络设备等)读取并执行,以用于执行本发明上述任一项语音控制方法。
在一些实施例中,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述任一项语音控制方法。
在一些实施例中,本发明实施例还提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行语音控制方法。
在一些实施例中,本发明实施例还提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时语音控制方法。
上述本发明实施例的语音控制装置可用于执行本发明实施例的语音控制方法,并相应的达到上述本发明实施例的实现语音控制方法所达到的技术效果,这里不再赘述。本发明实施例中可以通过硬件处理器(hardware processor)来实现相关功能模块。
图7是本申请另一实施例提供的执行语音控制方法的电子设备的硬件结构示意图,如图7所示,该设备包括:
一个或多个处理器710以及存储器720,图7中以一个处理器710为例。
执行语音控制方法的设备还可以包括:输入装置730和输出装置740。
处理器710、存储器720、输入装置730和输出装置740可以通过总线或者其他方式连接,图7中以通过总线连接为例。
存储器720作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本申请实施例中的语音控制方法对应的程序指令/模块。处理器710通过运行存储在存储器720中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例语音控制方法。
存储器720可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据语音控制装置的使用所创建的数据等。此外,存储器720可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器720可选包括相对于处理器710远程设置的存储器,这些远程存储器可以通过网络连接至语音控制装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置730可接收输入的数字或字符信息,以及产生与语音控制装置的用户设置以及功能控制有关的信号。输出装置740可包括显示屏等显示设备。
所述一个或者多个模块存储在所述存储器720中,当被所述一个或者多个处理器710执行时,执行上述任意方法实施例中的语音控制方法。
上述产品可执行本申请实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请实施例所提供的方法。
本申请实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子装置。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (10)

1.一种语音控制方法,包括:
接收第一用户语音指令;
根据所述第一用户语音指令确定多个备选项并呈现给用户;
对每一个所述备选项的内容信息进行分词处理,每一个所述备选项分别对应于至少一个分词;
接收用户根据所呈现的内容发出的第二用户语音指令;
确定所述第二用户语音指令所命中的分词所对应的备选项。
2.根据权利要求1所述的方法,其中,在对每一个所述备选项的内容信息进行分词处理之后还包括:
将分词处理得到的所有分词注册为唤醒词;
所述确定所述第二用户语音指令所命中的分词所对应的备选项包括:确定所述第二用户语音指令所命中的分词所对应的备选项并呈现给用户。
3.根据权利要求1所述的方法,其中,所述对每一个所述备选项的内容信息进行分词处理包括:
对所述每一个备选项的内容信息执行以下步骤:
将所述内容信息拆分成多个语义完整的分词作为第一分词集;
基于所述多个语义完整的分词中的至少两个生成第二分词集;
将所述第一分词集合所述第二分词集合并得到对应于所述内容信息的分词集。
4.根据权利要求3所述的方法,其中,所述第二分词集中的每一个分词所包含的至少两个语义完整的分词的先后顺序与所述至少两个语义完整的分词在所述内容信息中的先后顺序保持一致。
5.一种语音控制装置,包括:
第一接收模块,用于接收第一用户语音指令;
呈现内容获取模块,用于根据所述第一用户语音指令确定多个备选项并呈现给用户;
分词获取模块,用于对每一个所述备选项的内容信息进行分词处理,每一个所述备选项分别对应于至少一个分词;
第二接收模块,用于接收用户根据所呈现的内容发出的第二用户语音指令;
命中备选项确定模块,用于确定所述第二用户语音指令所命中的分词所对应的备选项。
6.根据权利要求5所述的装置,其中,还包括:
唤醒词注册模块,用于在对每一个所述备选项的内容信息进行分词处理之后,将分词处理得到的所有分词注册为唤醒词;
所述命中备选项确定模块用于确定所述第二用户语音指令所命中的分词所对应的备选项并呈现给用户。
7.根据权利要求5所述的装置,其中,所述分词获取模块包括:
第一分词集确定单元,用于将所述每一个备选项的内容信息拆分成多个语义完整的分词作为第一分词集;
第二分词集确定单元,用于基于所述多个语义完整的分词中的至少两个生成第二分词集;
分词集确定单元,用于将所述第一分词集合所述第二分词集合并得到对应于所述内容信息的分词集。
8.根据权利要求7所述的装置,其中,所述第二分词集中的每一个分词所包含的至少两个语义完整的分词的先后顺序与所述至少两个语义完整的分词在所述内容信息中的先后顺序保持一致。
9.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-4中任意一项所述方法的步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-4中任意一项所述方法的步骤。
CN201811348000.5A 2018-11-13 2018-11-13 语音控制方法及装置 Active CN109192212B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811348000.5A CN109192212B (zh) 2018-11-13 2018-11-13 语音控制方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811348000.5A CN109192212B (zh) 2018-11-13 2018-11-13 语音控制方法及装置

Publications (2)

Publication Number Publication Date
CN109192212A true CN109192212A (zh) 2019-01-11
CN109192212B CN109192212B (zh) 2019-12-10

Family

ID=64939661

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811348000.5A Active CN109192212B (zh) 2018-11-13 2018-11-13 语音控制方法及装置

Country Status (1)

Country Link
CN (1) CN109192212B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111128184A (zh) * 2019-12-25 2020-05-08 苏州思必驰信息科技有限公司 一种设备间的语音交互方法和装置
CN111145747A (zh) * 2019-12-30 2020-05-12 智车优行科技(北京)有限公司 一种语音控制实现方法及装置
CN112445390A (zh) * 2019-08-29 2021-03-05 Tcl集团股份有限公司 子菜单选择方法、装置及终端设备
CN112509573A (zh) * 2020-11-19 2021-03-16 北京蓦然认知科技有限公司 一种语音识别的方法、装置
CN113628704A (zh) * 2021-07-22 2021-11-09 海信集团控股股份有限公司 一种健康数据存储的方法及设备
CN113823283A (zh) * 2021-09-22 2021-12-21 百度在线网络技术(北京)有限公司 信息处理的方法、设备、存储介质及程序产品

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080201130A1 (en) * 2003-11-21 2008-08-21 Koninklijke Philips Electronic, N.V. Text Segmentation and Label Assignment with User Interaction by Means of Topic Specific Language Models and Topic-Specific Label Statistics
CN101256559A (zh) * 2007-02-27 2008-09-03 株式会社东芝 用于处理输入语音的装置和方法
CN101605223A (zh) * 2008-06-09 2009-12-16 三星电子株式会社 用于选择节目的方法及其设备
CN102253937A (zh) * 2010-05-18 2011-11-23 阿里巴巴集团控股有限公司 获取网页中的感兴趣信息的方法及相关装置
CN103258534A (zh) * 2012-02-21 2013-08-21 联发科技股份有限公司 语音命令识别方法和电子装置
CN103400576A (zh) * 2013-07-18 2013-11-20 百度在线网络技术(北京)有限公司 基于用户行为日志的语音模型更新方法及装置
CN105810189A (zh) * 2016-03-22 2016-07-27 北京京东尚科信息技术有限公司 设备的语音控制方法、装置及系统
US20170169816A1 (en) * 2015-12-09 2017-06-15 International Business Machines Corporation Audio-based event interaction analytics
CN107318036A (zh) * 2017-06-01 2017-11-03 腾讯音乐娱乐(深圳)有限公司 歌曲搜索方法、智能电视及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080201130A1 (en) * 2003-11-21 2008-08-21 Koninklijke Philips Electronic, N.V. Text Segmentation and Label Assignment with User Interaction by Means of Topic Specific Language Models and Topic-Specific Label Statistics
CN101256559A (zh) * 2007-02-27 2008-09-03 株式会社东芝 用于处理输入语音的装置和方法
CN101605223A (zh) * 2008-06-09 2009-12-16 三星电子株式会社 用于选择节目的方法及其设备
CN102253937A (zh) * 2010-05-18 2011-11-23 阿里巴巴集团控股有限公司 获取网页中的感兴趣信息的方法及相关装置
CN103258534A (zh) * 2012-02-21 2013-08-21 联发科技股份有限公司 语音命令识别方法和电子装置
CN103400576A (zh) * 2013-07-18 2013-11-20 百度在线网络技术(北京)有限公司 基于用户行为日志的语音模型更新方法及装置
US20170169816A1 (en) * 2015-12-09 2017-06-15 International Business Machines Corporation Audio-based event interaction analytics
CN105810189A (zh) * 2016-03-22 2016-07-27 北京京东尚科信息技术有限公司 设备的语音控制方法、装置及系统
CN107318036A (zh) * 2017-06-01 2017-11-03 腾讯音乐娱乐(深圳)有限公司 歌曲搜索方法、智能电视及存储介质

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112445390A (zh) * 2019-08-29 2021-03-05 Tcl集团股份有限公司 子菜单选择方法、装置及终端设备
CN112445390B (zh) * 2019-08-29 2022-10-11 Tcl科技集团股份有限公司 子菜单选择方法、装置及终端设备
CN111128184A (zh) * 2019-12-25 2020-05-08 苏州思必驰信息科技有限公司 一种设备间的语音交互方法和装置
CN111145747A (zh) * 2019-12-30 2020-05-12 智车优行科技(北京)有限公司 一种语音控制实现方法及装置
CN112509573A (zh) * 2020-11-19 2021-03-16 北京蓦然认知科技有限公司 一种语音识别的方法、装置
CN113628704A (zh) * 2021-07-22 2021-11-09 海信集团控股股份有限公司 一种健康数据存储的方法及设备
CN113823283A (zh) * 2021-09-22 2021-12-21 百度在线网络技术(北京)有限公司 信息处理的方法、设备、存储介质及程序产品
CN113823283B (zh) * 2021-09-22 2024-03-08 百度在线网络技术(北京)有限公司 信息处理的方法、设备、存储介质及程序产品

Also Published As

Publication number Publication date
CN109192212B (zh) 2019-12-10

Similar Documents

Publication Publication Date Title
CN109192212A (zh) 语音控制方法及装置
CN109564571B (zh) 利用搜索上下文的查询推荐方法及系统
CN109471678A (zh) 基于图像识别的语音中控方法及装置
US11681712B2 (en) User attribute resolution of unresolved terms of action queries
US10122839B1 (en) Techniques for enhancing content on a mobile device
US9141916B1 (en) Using embedding functions with a deep network
US9886958B2 (en) Language and domain independent model based approach for on-screen item selection
KR20160127810A (ko) 온스크린 아이템 선택 및 명확화를 위한 모델 기반 방식
JP6419858B2 (ja) マルチメディアコンテンツにおける文脈探索
US20160012104A1 (en) Search interfaces with preloaded suggested search queries
US9563695B2 (en) Personalized electronic magazine
US9043714B1 (en) Adaptive user interface for widescreen devices
WO2019212728A1 (en) Displaying a subset of menu items based on a prediction of the next user-actions
CN107608799B (zh) 一种用于执行交互指令的方法、设备及存储介质
CN104809223A (zh) 一种用于在应用内提供应用内容搜索结果的方法与设备
US20170206052A1 (en) Method and system for automatically managing content in an electronic device
CN110008326A (zh) 会话系统中的知识摘要生成方法及系统
US9298712B2 (en) Content and object metadata based search in e-reader environment
CN103888799A (zh) 控制方法和控制装置
WO2021104274A1 (zh) 图文联合表征的搜索方法、系统、服务器和存储介质
CN110874176B (zh) 交互方法、存储介质、操作系统和设备
US8694509B2 (en) Method and apparatus for managing for handwritten memo data
US20220415312A1 (en) Multi-tier speech processing and content operations
CN113470649A (zh) 语音交互方法及装置
US9720748B1 (en) Predefined intents for native applications

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Patentee after: Sipic Technology Co.,Ltd.

Address before: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Patentee before: AI SPEECH Co.,Ltd.

CP01 Change in the name or title of a patent holder
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Voice control methods and devices

Effective date of registration: 20230726

Granted publication date: 20191210

Pledgee: CITIC Bank Limited by Share Ltd. Suzhou branch

Pledgor: Sipic Technology Co.,Ltd.

Registration number: Y2023980049433

PE01 Entry into force of the registration of the contract for pledge of patent right