CN102237087B - 语音控制方法和语音控制装置 - Google Patents

语音控制方法和语音控制装置 Download PDF

Info

Publication number
CN102237087B
CN102237087B CN201010165495.5A CN201010165495A CN102237087B CN 102237087 B CN102237087 B CN 102237087B CN 201010165495 A CN201010165495 A CN 201010165495A CN 102237087 B CN102237087 B CN 102237087B
Authority
CN
China
Prior art keywords
voice
voice signal
grammer bag
grammer
bag
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201010165495.5A
Other languages
English (en)
Other versions
CN102237087A (zh
Inventor
李满海
肖开利
王景平
廖芯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN201010165495.5A priority Critical patent/CN102237087B/zh
Priority to PCT/CN2011/070198 priority patent/WO2011134288A1/zh
Priority to EP11774279.1A priority patent/EP2521121B1/en
Priority to US13/575,717 priority patent/US9236048B2/en
Publication of CN102237087A publication Critical patent/CN102237087A/zh
Application granted granted Critical
Publication of CN102237087B publication Critical patent/CN102237087B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/74Details of telephonic subscriber devices with voice recognition means

Abstract

本发明公开了一种语音控制方法和语音控制装置,用以解决现有技术中语音控制成功率低的问题。该方法包括:对存储的用于进行语音识别的识别信息分类,获得各类识别信息分别对应的语法包;接收输入的语音信号,并依次使用获得的每个语法包分别对接收到的语音信号进行语音识别处理,以及根据各语法包对所述语音信号的语音识别结果,执行对应控制处理。

Description

语音控制方法和语音控制装置
技术领域
本发明涉及语音识别和通信技术领域,尤其涉及一种语音控制方法及一种语音控制装置。
背景技术
为了使人们在特定场景下能够无需按键、快捷地使用终端设备提供的各种业务,语音控制技术应运而生,人们只需要在终端设备的麦克风附近说出各种指令,终端设备就可以根据该指令执行相应的处理。以语音拨号技术为例,为了方便人们在双手被占用无法按键(如驾驶交通工具)时、或者为了使上肢不健全的残疾人也能够拨打电话,该技术能够从用户的语音中识别出拨打电话所需的信息,并根据识别出的信息进行拨号。人们只需在终端设备(包括固定终端或移动终端)的麦克风中输入语音指令,例如“拨通张三的手机”,终端设备就可以为用户建立与被叫人的通话,极大地简化了用户的操作。除了语音拨号这种应用之外,语音控制技术还广泛应用于机器人、能够音控开关的车库等很多产品中。
下面以语音拨号技术为例,介绍现有语音控制技术的基本原理:
终端设备首先根据通信录中包含的各种联系人信息,例如姓名、地址、联系方式等等,生成一个语法包,该语法包中包含上述联系人信息的语音数据;然后终端设备通过麦克风等音频信号接收接口接收用户输入的语音信号,并根据接收到的语音信号和生成的语法包进行语音识别,判断接收到的语音信号中的每个字的语音数据是否存在语法包中,若是,认为从接收到的语音信号中识别出了这个字。在从接收到的语音信号中识别出的字数量在接收到的语音信号包含的全部字中所占比例超过预定阈值后,确定对接收到的语音信号识别成功,执行对应的后续处理。举例来说:假如终端设备规定在能够成功识别出60%的字时确定识别成功,这时用户输入的语音为“拨通张三的手机”,那么如果终端设备能识别出其中的四个(7*60%=4.2)以上字的音节时,认为识别成功,进行后续拨号流程;否则认为识别失败,处理结束。
为了在语音识别成功后能够根据识别出的信息有效地进行对应的拨号处理,通常会预先规定在语音识别时,判别语音识别成功与否时识别出的字数在接收到的语音信号包含的总字数中所占比例的阈值较高。而现实中,很多原因都会导致能识别出的字的比例难以达到预定阈值而导致语音识别失败,处理结束,例如用户无意识地输入了很长一段话,其中只有少数几个字是与拨号行为相关的,这时往往会因为能识别出的字所占比例难以达到预定阈值而导致识别失败,处理结束;又如,用户由于方言口音问题,终端设备只能识别出其中的极少几个字,也会因为能识别出的字所占比例难以达到预定阈值而导致处理结束。因此,现有语音控制技术的成功率较低。
发明内容
本发明实施例提供一种语音控制方法,用以解决现有技术中语音控制成功率低的问题。
对应地,本发明实施例还提供了一种语音控制装置。
本发明实施例提供的技术方案如下:
一种语音控制方法,包括:
对存储的用于进行语音识别的识别信息分类,获得各类识别信息分别对应的语法包;
接收输入的语音信号,并依次使用获得的每个语法包分别对接收到的语音信号进行语音识别处理,具体为:当能够从接收到的语音信号中识别出该语法包中至少一个识别信息时,从预先指定的该语法包中各识别信息对应的标识中,选择出识别出的识别信息对应的标识作为该语法包对所述语音信号的语音识别结果;
否则,确定本次语音识别失败,并根据本次语音识别处理失败原因,从预先指定的各语音识别处理失败原因对应的标识中,选择出本次语音识别处理失败原因对应的标识作为该语法包对所述语音信号的语音识别结果;
根据各语法包对所述语音信号的语音识别结果,执行对应控制处理。
一种语音控制装置,包括:
语法包获取单元,用于对存储的用于进行语音识别的识别信息分类,获得各类型识别信息分别对应的语法包;
语音识别处理单元包括第一确定子单元和第二确定子单元,用于接收输入的语音信号,并依次使用语法包获取单元获得的每个语法包分别对接收到的语音信号进行语音识别处理;
所述第一确定子单元,用于针对语法包获取单元获取的每个语法包,当能够从接收到的语音信号中识别出该语法包中至少一个识别信息时,从预先指定的该语法包中各识别信息对应的标识中,选择出识别出的识别信息对应的标识作为该语法包对所述语音信号的语音识别结果;
所述第二确定子单元,用于当不能从接收到的语音信号中识别出该语法包中至少一个识别信息时,确定本次语音识别失败,并根据本次语音识别处理失败原因,从预先指定的各语音识别处理失败原因对应的标识中,选择出本次语音识别处理失败原因对应的标识作为该语法包对所述语音信号的语音识别结果;
执行单元,用于根据语音识别处理单元获得的各语法包对所述语音信号的语音识别结果,执行对应控制处理。
一种与外部设备连接的语音控制装置,包括:
语法包获取单元,用于对存储的用于进行语音识别的识别信息分类,获得各类型识别信息分别对应的语法包;
语音识别处理单元,用于接收输入的语音信号,并依次使用语法包获取单元获得的每个语法包分别对接收到的语音信号进行语音识别处理;
组合子单元,用于按照预定组合顺序,将语音识别处理单元获取的各语法包对所述语音信号的语音识别结果进行组合,将组合结果发送给所述外部设备;
接收子单元,用于接收所述外部设备发来的查询请求,所述查询请求中包含所述外部设备按照与所述预定组合顺序对应的拆分顺序对所述组合结果进行拆分后获得的拆分结果;
选择子单元,用于从预先指定的识别信息与标识的对应关系中,选择出接收子单元接收到的所述查询请求中包含的拆分结果对应的识别信息;
发送子单元,用于将选择子单元选择出的拆分结果对应的识别信息提供给所述外部设备,以便所述外部设备根据拆分结果对应的识别信息执行控制处理。
本发明实施例提供的方案根据识别信息的不同类型,分别生成用于进行语音识别所需的语法包,而不是像现有技术一样根据全部识别信息生成一个语法包,然后根据各个语法包分别对接收到的语音信号进行语音识别处理,无论接收到的语音信号中包含的总字数如何,在能够从接收到的语音信号中识别出每个语法包中的识别信息时、或者能够从接收到的语音信号中识别出部分语法包中的识别信息时,根据识别出的识别信息执行后续控制处理,从而提高了语音控制的成功率。
附图说明
图1为本发明实施例的主要实现原理流程图;
图2为本发明实施例进行语音拨号时具体过程的流程示意图;
图3为本发明实施例提供的语音控制装置的结构示意图;
图4为本发明实施例提供的另一种语音控制装置的结构示意图;
图5为本发明实施例提供的另一种语音控制装置的结构示意图。
具体实施方式
发明人在实施包括语音拨号在内的语音控制技术的过程中发现语音控制成功率较低,主要原因是现有语音控制技术在对用户通过麦克风输入的语音信号进行语音识别处理时,规定识别出的字数与语音信号包含的全部字数之间的比例超过预定阈值时,才能进行后续处理,而事实上,很多情况下虽然语音识别出的字已经足够指导完成后续的处理,但由于语音识别出的字在语音信号包含的字中所占比例仍然低于预定阈值导致语音拨号失败。而单纯为了解决上述问题降低语音识别时的预定阈值也是不合理的,因为这会导致在很多情况下由于识别出的字过少将会导致后续处理无法完成。可见现有语音控制技术在语音识别处理环节中灵活些较差。
本发明实施例提出根据用于进行语音识别的信息的不同类型,分别生成用于进行语音识别所需的语法包,并根据各个语法包分别对接收到的语音信号进行语音识别处理,根据各语法包的语音识别结果,在该结果中包含执行后续处理所需的信息时,即可执行后续处理,从而提高了语音控制的成功率。
下面结合各个附图对本发明实施例技术方案的主要实现原理、具体实施方式及其对应能够达到的有益效果进行详细的阐述。
如图1所示,本发明实施例的主要实现原理流程如下:
步骤10,根据存储的用于进行语音识别的识别信息,获得各类识别信息分别对应的语法包;
步骤20,接收输入的语音信号,并依次使用步骤10获得的每个语法包分别对接收到的语音信号进行语音识别处理;
步骤30,根据步骤20获得的每个语法包对所述语音信号的语音识别结果,执行对应控制处理。
在上述步骤20中,采用以下方法来确定根据每个语法包分别对接收到的语音信号进行语音识别处理,获得的语音识别结果:
针对每个语法包,根据预先指定的该语法包中每个识别信息对应的标识,将从接收到的语音信号中识别出的该语法包中的识别信息对应的标识作为该语法包对所述语音信号的语音识别结果,例如根据第一语法包中包含的各联系人姓名信息的语音信号数据,经语音识别处理识别出接收到的语音信号中包含该语法包中包含的联系人姓名信息“张三”,则将预先指定的“张三”的对应的标识作为该第一语法包对语音信号的语音识别结果。
在实际实施过程中,考虑到功能模块配置的灵活性,可以由第一模块和第二模块两个不同的功能模块、或两个设备分别执行步骤10、步骤20和步骤30的功能,为了在语法包数量较多的情况下,二者之间无需传送过多的参数(即其中一个模块将每个语法包对语音信号的语音识别结果分别传送给另一模块),可以在第一模块获得每个语法包对语音信号的语音识别结果后,将其进行合并,处理为一个结果发送给第二模块,第二模块进行与组合处理对应的拆分处理,并根据拆分结果来执行对应处理。例如,由与外部设备连接的语音控制装置执行步骤10、步骤20,而由外部设备执行步骤30,具体地:
语音控制装置在步骤20中,按照预定组合顺序,将每个语法包对所述语音信号的语音识别结果进行组合,将组合结果作为所述语音信号对应的语音识别结果。例如,共有第一语法包和第二语法包两个语法包,其中第一语法包对所述语音信号的语音识别结果为“张三”的标识,第二语法包对所述语音信号的语音识别结果为“手机”的标识,那么按照第一语法包对所述语音信号的语音识别结果在先,第二语法包对所述语音信号的语音识别结果在后的顺序,将第一语法包对所述语音信号的语音识别结果和第二语法包对所述语音信号的语音识别结果组合后,将组合结果(“张三”的标识+“手机”的标识)作为接收到的语音信号的语音识别结果。
语音控制装置将组合获得的语音信号的语音识别结果发送给外部设备;
对应地,外部设备按照步骤20中的所述预定组合顺序对应的拆分顺序,对语音识别结果进行拆分,将拆分结果携带在查询请求中发送给语音控制装置;
语音控制装置接收所述外部设备发来的查询请求,并从预先指定的识别信息与标识的对应关系中,选择出所述查询请求中包含的拆分结果对应的识别信息,以及将拆分结果对应的识别信息提供给所述外部设备;
所述外部设备根据拆分结果对应的识别信息执行控制处理。
在上述各个步骤中,将每个语法包中识别出的联系人信息对应的标识作为语音识别结果,将各每个语法包的语音识别结果组合作为接收到的语音信号的语音识别结果、以及后续进行拆分,根据拆分结果执行对应处理是因为标示相对于字符串来说,所需的存储空间较小,可以提高终端设备的处理效率。
下面将依据本发明上述发明原理,以语音拨号过程为例详细介绍一个实施例来对本发明方法的主要实现原理进行详细的阐述和说明。
终端设备的通信录中存储有联系人的各种信息,在本实施例中对联系人信息进行分类(在实际中许多终端设备在存储联系人信息时已经按照类别进行存储,那么这一步就可以省略),例如包括“张三”、“李四”在内的联系人姓名类型信息、包括“手机”、“座机”在内的联系人联系方式类型信息、包括“拨通”、“打电话”在内的操作类型信息等。
请参照附图2,步骤201,对分类获得的每种类型的联系人信息,分别进行语法编译,从而获得每种类型联系人信息对应的、包含该类型联系人信息的语音数据的语法包,具体编译获得语法包的技术属于现有技术,在这里不再详述。在本实施例中分别获得联系人姓名类型信息对应的第一语法包、联系人联系方式类型信息对应的第二语法包和操作类型信息对应的第三语法包。
出于终端设备执行效率方面的考虑,在生成语法包时,为每个联系人信息预先设定对应的标识,该标识可以为一个预定长度的字符串,例如在本实施例中每个联系人姓名信息对应的标识为以字符“c”开头的3位字符串,“张三”对应的标识为c01、“李四”对应的标识为c02;每个联系人联系方式信息对应的标识为以字符“e”开头的3位字符串,“手机”对应的标识为e01、“办公电话”对应的标识为e02、“家庭电话”对应的标识为e03;每个操作信息对应的标识为以字符“d”开通的3位字符串,“拨通”对应的标识为d01、“查询”对应的标识为d02。
较佳地,还可以设定预定数量语音识别处理失败时各种失败原因分别对应的标识,例如在本实施例中每种失败原因对应的标识为以字符“cx”开头的3位字符串,“输入语音声音过小”对应的标识为cx1。
步骤202,终端设备接收用户通过麦克风等语音输入接口输入的语音信号,例如用户输入“替我拨通张三的手机”,为了便于说明本实施例提供的方案,假定存在两种场景:
场景1:用户音量足以满足语音识别的需要,能够从用户输入的语音信号中识别出每一个字,进入步骤203;
场景2:用户音量很低,难以满足语音识别的需要,无法从用户输入的语音信号中识别出每一个字,进入步骤210;
步骤203,终端设备根据步骤201获得的三个语法包中的每个语法包,依次对步骤202接收到的语音信号进行语音识别处理(即在语音识别处理模块中加载步骤201获得的各语法包),将接收信号中出现的、且该语法包中存在的联系人信息语音数据对应的联系人信息对应的标识作为该语法包对所述语音信号的语音识别结果,进入步骤204;
例如,先根据第一语法包,对用户输入的语音信号进行语音识别处理,能够识别出用户输入的语音信号中包括“张三”,那么将“张三”对应的标识c01作为第一语法包对接收到的语音信号的语音识别结果;
同理,根据第二语法包,对用户输入的语音信号进行语音识别处理,能够识别出用户输入的语音信号中包括“手机”,那么将“手机”对应的标识e01作为第二语法包对接收到的语音信号的语音识别结果;
然后,根据第三语法包,对用户输入的语音信号进行语音识别处理,能够识别出用户输入的语音信号中包括“拨通”,那么将“拨通”对应的标识d01作为第三语法包对接收到的语音信号的语音识别结果。
步骤204,按照预定组合顺序,将步骤203获得的每个语法包对所述语音信号的语音识别结果组合,将组合结果作为所述语音信号对应的语音识别结果发送给外部设备,进入步骤205;
在本实施例中按照将第一语法包的语音识别结果放在第一位、将第二语法包的语音识别结果放在第二位、将第三语法包的语音识别结果放在第三位的顺序,将各语法包的语音识别结果组合在一起,将组合结果c01e01d01作为步骤202接收到的语音信号的语音识别结果。
步骤205,外部设备按照与步骤204中的组合顺序对应的拆分顺序,对所述语音信号对应的语音识别结果进行拆分,获得三个标识分别为c01、e01和d01,进入步骤206;
步骤206,外部设备将步骤205中的拆分结果c01、e01和d01携带在查询请求中发送给终端设备;
步骤207,终端设备从预先指定的每个联系人信息与标识的对应关系中,选择出所述查询请求中包含的拆分结果对应的识别信息,例如选择出c01对应的“张三”、选择出e01对应的“拨通”和d01对应的“手机”;
步骤208,终端设备将包含步骤207中的拆分结果对应的识别信息提供给所述外部设备,例如携带在查询响应中发送给外部设备;
步骤209,外部设备根据查询响应中c01对应的“张三”、e01对应的“手机”和d01对应的“拨通”,执行向张三发起呼叫的处理;
步骤210,终端设备根据步骤201获得的三个语法包中的每个语法包,依次对步骤202接收到的语音信号进行语音识别处理,由于不能从接收到的语音信号中识别出该语法包中包含的任一联系人信息,因此确定本次语音识别失败,并根据本次语音识别处理失败原因,从预先指定的各种语音识别处理失败原因对应的标识中,选择出本次语音识别处理失败原因对应的标识作为该语法包中识别出的联系人信息对应的标识,进入步骤211;
例如,先根据第一语法包,对用户输入的语音信号进行语音识别处理,由于不能从接收到的语音信号中识别出第一语法包的任一一个联系人姓名信息,将预先指定的“由于音量过小导致识别失败”对应的标识cx1作为第一语法包对接收到的语音信号的语音识别结果;
同理,根据第二语法包,对用户输入的语音信号进行语音识别处理,由于不能从接收到的语音信号中识别出第一语法包的任一一个联系人联系方式信息,将预先指定的“由于音量过小导致识别失败”对应的标识ex1作为第二语法包对接收到的语音信号的语音识别结果;
然后,根据第三语法包,对用户输入的语音信号进行语音识别处理,由于不能从接收到的语音信号中识别出第一语法包的任一一个操作信息,将预先指定的“由于音量过小导致识别失败”对应的标识dx1作为第三语法包对接收到的语音信号的语音识别结果。
步骤211,按照预定组合顺序,将步骤210获得的每个语法包对所述语音信号的语音识别结果组合,将组合结果作为所述接收到的语音信号的语音识别结果发送给外部设备,进入步骤212;
在本实施例中按照将第一语法包的语音识别结果放在第一位、将第二语法包的语音识别结果放在第二位、将第三语法包的语音识别结果放在第三位的顺序,将各语法包的语音识别结果组合在一起,将组合结果cx1ex1dx1作为步骤202接收到的语音信号的语音识别结果。
212,外部设备按照与步骤211中的预定组合顺序对应的拆分顺序,对所述语音信号对应的语音识别结果进行拆分,获得三个标识分别为cx1、ex1和dx1,进入步骤213;
步骤213,外部设备将步骤205中的拆分结果cx1、ex1和dx1携带在查询请求中发送给终端设备;
步骤214,终端设备从预先指定的语音识别失败原因与标识的对应关系中,选择出所述查询请求中包含的拆分结果对应的语音识别失败原因,例如“由于音量过小导致识别失败”;
步骤215,终端设备将包含步骤214中的拆分结果对应的语音识别失败原因提供给所述外部设备,例如携带在查询响应中发送给外部设备;
步骤216,外部设备根据查询响应中的拆分结果对应的音识别失败原因,判断出无法进行后续的处理,执行向用户发送语音识别失败的提示信号。
在步骤202中给出的两种场景均为比较极端的情况,实际中往往会出现采用部分语法包进行语音识别处理时,能从接收到的语音信号中识别出该语法包中包含的联系人信息,而在采用其余部分语法包进行语音识别处理时,语音识别失败,这时可以采用如下适应方案:
在确定存在至少一个语法包对所述语音信号的语音识别结果为语音识别处理失败原因对应的标识时,向用户发送提示消息,通过该提示消息提示用户语音识别失败,可选地,终端设备根据用户收到提示信号后的反馈信息判断是否进一步根据语音识别处理失败原因对应的标识确定语音识别处理失败原因;或者,
较佳地,统计在所有语法包对所述语音信号的语音识别结果中,相同语音识别处理失败原因对应的标识的数量,并将其中数量最多的标识对应的语音识别处理失败原因通过提示消息提示给用户;或者
在所有语法包对所述语音信号的语音识别结果中语音识别处理失败原因对应的标识数量超过预定阈值时,根据其中数量最多的相同语音识别处理失败原因对应的标识对应的语音识别处理失败原因,输出提示信号;否则根据拆分结果执行对应的处理,或者
预先指定部分语法包对所述语音信号的语音识别结果不是语音识别处理失败对应的标识(即各种语音识别处理失败原因对应的标识)时,根据该部分语法包对所述语音信号的语音识别结果,执行对应的处理,例如,预先指定第一语法包和第三语法包的对所述语音信号的语音识别结果不是语音识别处理失败对应的标识时,例如第一语法包的语音识别结果为cx1(对应的联系人信息为“张三”)、第一语法包的语音识别结果为dx1(对应的联系人信息为“拨通”),那么即可拨通张三的手机或办公电话。
在上述步骤203或步骤210中,由于是根据各联系人类型信息对应的数据量较小的语法包进行语音识别处理,而不是像现有技术一样根据包括所有联系人信息在内的一个数据量较大的语法包进行语音识别处理,因而加快了语音识别的速度,节省了进行语音识别处理耗用的时间。
本发明实施例提供的方案根据联系人信息的不同类型,分别生成用于进行语音识别所需的语法包,而不是像现有技术一样根据全部联系人信息生成一个语法包,然后根据各个语法包分别对接收到的语音信号进行语音识别处理,在能够从接收到的语音信号中识别出每个语法包中的联系人信息时,或者能够从接收到的语音信号中识别出部分语法包中的联系人信息时,根据识别出的联系人信息执行后续处理,而不是像现有技术一样只有识别出的联系人信息的音节在语音信号包含的全部音节中所占比例高于预定阈值才能执行后续处理,否则认为识别失败处理结束,忽略了此时识别出的联系人信息是否已经足以支持执行后续处理。因此,实施例提供的语音控制方案解决了现有技术语音控制成功率低的问题。
相应地,本发明实施例还提供了一种语音控制装置,如图3所示,该装置包括语法包获取单元301、语音识别处理单元302和执行单元303,具体如下:
语法包获取单元301,用于对存储的用于进行语音识别的识别信息分类,获得各类型识别信息分别对应的语法包;
语音识别处理单元302,用于接收输入的语音信号,并依次使用语法包获取单元301获得的每个语法包分别对接收到的语音信号进行语音识别处理;
执行单元303,用于根据语音识别处理单元302获得的各语法包对所述语音信号的语音识别结果,执行对应控制处理。
请参照附图4,在附图3所示的语音控制装置中,语音识别处理单元302具体包括第一确定子单元401和第二确定子单元402,其中:
第一确定子单元401,用于针对语法包获取单元获取的每个语法包,当能够从接收到的语音信号中识别出该语法包中至少一个识别信息时,从预先指定的该语法包中各识别信息对应的标识中,选择出识别出的识别信息对应的标识作为该语法包对所述语音信号的语音识别结果;
第二确定子单元402,用于当不能从接收到的语音信号中识别出该语法包中至少一个识别信息时,确定本次语音识别失败,并根据本次语音识别处理失败原因,从预先指定的各语音识别处理失败原因对应的标识中,选择出本次语音识别处理失败原因对应的标识作为该语法包对所述语音信号的语音识别结果。
较佳地,请参照附图5,为本发明实施例提供了另一种语音控制装置的结构示意图,该语音控制装置与外部设备连接,包括语法包获取单元501、语音识别处理单元502、组合单元503、接收单元504、选择单元505和发送单元506,其中:
语法包获取单元501,用于对存储的用于进行语音识别的识别信息分类,获得各类型识别信息分别对应的语法包;
语音识别处理单元502,用于接收输入的语音信号,并依次使用语法包获取单元501获得的每个语法包分别对接收到的语音信号进行语音识别处理;
组合单元503,用于按照预定组合顺序,将各语法包对所述语音信号的语音识别结果进行组合,将组合结果发送给所述外部设备;
接收单元504,用于接收所述外部设备发来的查询请求,所述查询请求中包含所述外部设备按照与所述预定组合顺序对应的拆分顺序对所述组合结果进行拆分后获得的拆分结果;
选择单元505,用于从预先指定的识别信息与标识的对应关系中,选择出接收单元504接收到的所述查询请求中包含的拆分结果对应的识别信息;
发送单元506,用于将选择单元505选择出的拆分结果对应的识别信息提供给所述外部设备,以便所述外部设备根据拆分结果对应的识别信息执行控制处理。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读取存储介质中,如:ROM/RAM、磁碟、光盘等。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1.一种语音控制方法,其特征在于,包括:
对存储的用于进行语音识别的识别信息分类,获得各类识别信息分别对应的语法包;
接收输入的语音信号,并依次使用获得的每个语法包分别对接收到的语音信号进行语音识别处理,具体为:当能够从接收到的语音信号中识别出该语法包中至少一个识别信息时,从预先指定的该语法包中各识别信息对应的标识中,选择出识别出的识别信息对应的标识作为该语法包对所述语音信号的语音识别结果;否则,确定本次语音识别失败,并根据本次语音识别处理失败原因,从预先指定的各语音识别处理失败原因对应的标识中,选择出本次语音识别处理失败原因对应的标识作为该语法包对所述语音信号的语音识别结果;
根据各语法包对所述语音信号的语音识别结果,执行对应控制处理。
2.如权利要求1所述的方法,其特征在于,根据各语法包对所述语音信号的语音识别结果,执行对应控制处理,具体包括:
当各语法包对所述语音信号的语音识别结果中,存在至少一个语音识别处理失败原因对应的标识时,输出用于提示语音识别失败的提示信号。
3.如权利要求1所述的方法,其特征在于,根据各语法包对所述语音信号的语音识别结果,执行对应控制处理,具体包括:
统计在各语法包对所述语音信号的语音识别结果中,相同语音识别处理失败原因对应的标识的数量,并将其中数量最多的标识对应的语音识别处理失败原因通过提示消息提示给用户。
4.如权利要求1所述的方法,其特征在于,根据各语法包对所述语音信号的语音识别结果,执行对应控制处理,具体包括:
在指定语法包对所述语音信号的语音识别结果中,不存在语音识别处理失败原因对应的标识时,根据所述指定语法包对所述语音信号的语音识别结果,执行预定的与所述指定语法包对所述语音信号的语音识别结果对应的控制处理。
5.如权利要求1所述的方法,其特征在于,根据各语法包对所述语音信号的语音识别结果,执行对应控制处理,具体包括:
按照预定组合顺序,将各语法包对所述语音信号的语音识别结果进行组合,将组合结果发送给外部设备;以及
接收所述外部设备发来的查询请求,所述查询请求中包含所述外部设备按照与所述预定组合顺序对应的拆分顺序对所述组合结果进行拆分后获得的拆分结果;并
从预先指定的识别信息与标识的对应关系中,选择出所述查询请求中包含的拆分结果对应的识别信息;
将拆分结果对应的识别信息提供给所述外部设备,以便所述外部设备根据拆分结果对应的识别信息执行控制处理。
6.如权利要求1至5中任一权利要求所述的方法,其特征在于,所述用于进行语音识别的识别信息包括联系人姓名类型信息、联系人联系方式类型信息、操作类型信息。
7.一种语音控制装置,其特征在于,包括:
语法包获取单元,用于对存储的用于进行语音识别的识别信息分类,获得各类型识别信息分别对应的语法包;
语音识别处理单元包括第一确定子单元和第二确定子单元,用于接收输入的语音信号,并依次使用语法包获取单元获得的每个语法包分别对接收到的语音信号进行语音识别处理;
所述第一确定子单元,用于针对语法包获取单元获取的每个语法包,当能够从接收到的语音信号中识别出该语法包中至少一个识别信息时,从预先指定的该语法包中各识别信息对应的标识中,选择出识别出的识别信息对应的标识作为该语法包对所述语音信号的语音识别结果;
所述第二确定子单元,用于当不能从接收到的语音信号中识别出该语法包中至少一个识别信息时,确定本次语音识别失败,并根据本次语音识别处理失败原因,从预先指定的各语音识别处理失败原因对应的标识中,选择出本次语音识别处理失败原因对应的标识作为该语法包对所述语音信号的语音识别结果;
执行单元,用于根据语音识别处理单元获得的各语法包对所述语音信号的语音识别结果,执行对应控制处理。
8.一种与外部设备连接的语音控制装置,其特征在于,包括:
语法包获取单元,用于对存储的用于进行语音识别的识别信息分类,获得各类型识别信息分别对应的语法包;
语音识别处理单元,用于接收输入的语音信号,并依次使用语法包获取单元获得的每个语法包分别对接收到的语音信号进行语音识别处理;
组合子单元,用于按照预定组合顺序,将语音识别处理单元获取的各语法包对所述语音信号的语音识别结果进行组合,将组合结果发送给所述外部设备;
接收子单元,用于接收所述外部设备发来的查询请求,所述查询请求中包含所述外部设备按照与所述预定组合顺序对应的拆分顺序对所述组合结果进行拆分后获得的拆分结果;
选择子单元,用于从预先指定的识别信息与标识的对应关系中,选择出接收子单元接收到的所述查询请求中包含的拆分结果对应的识别信息;
发送子单元,用于将选择子单元选择出的拆分结果对应的识别信息提供给所述外部设备,以便所述外部设备根据拆分结果对应的识别信息执行控制处理。
CN201010165495.5A 2010-04-27 2010-04-27 语音控制方法和语音控制装置 Expired - Fee Related CN102237087B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201010165495.5A CN102237087B (zh) 2010-04-27 2010-04-27 语音控制方法和语音控制装置
PCT/CN2011/070198 WO2011134288A1 (zh) 2010-04-27 2011-01-12 语音控制方法和语音控制装置
EP11774279.1A EP2521121B1 (en) 2010-04-27 2011-01-12 Method and device for voice controlling
US13/575,717 US9236048B2 (en) 2010-04-27 2011-01-12 Method and device for voice controlling

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010165495.5A CN102237087B (zh) 2010-04-27 2010-04-27 语音控制方法和语音控制装置

Publications (2)

Publication Number Publication Date
CN102237087A CN102237087A (zh) 2011-11-09
CN102237087B true CN102237087B (zh) 2014-01-01

Family

ID=44860825

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010165495.5A Expired - Fee Related CN102237087B (zh) 2010-04-27 2010-04-27 语音控制方法和语音控制装置

Country Status (4)

Country Link
US (1) US9236048B2 (zh)
EP (1) EP2521121B1 (zh)
CN (1) CN102237087B (zh)
WO (1) WO2011134288A1 (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103366740B (zh) * 2012-03-27 2016-12-14 联想(北京)有限公司 语音命令识别方法及装置
CN102739869A (zh) * 2012-06-26 2012-10-17 华为终端有限公司 语音查找目标联系人的信息的方法及终端
CN102780653B (zh) * 2012-08-09 2016-03-09 上海量明科技发展有限公司 即时通信中快捷通信的方法、客户端及系统
KR101453979B1 (ko) * 2013-01-28 2014-10-28 주식회사 팬택 음성 명령에 의한 데이터 송수신 방법, 단말 및 시스템
CN103729123A (zh) * 2013-12-31 2014-04-16 青岛高校信息产业有限公司 一种应用程序的映射方法和系统
US10046457B2 (en) 2014-10-31 2018-08-14 General Electric Company System and method for the creation and utilization of multi-agent dynamic situational awareness models
CN104469002A (zh) * 2014-12-02 2015-03-25 科大讯飞股份有限公司 确定手机联系人的方法和装置
KR101643560B1 (ko) * 2014-12-17 2016-08-10 현대자동차주식회사 음성 인식 장치, 그를 가지는 차량 및 그 방법
CN105872687A (zh) * 2016-03-31 2016-08-17 乐视控股(北京)有限公司 一种通过语音控制智能设备的方法及装置
CN107545896A (zh) * 2016-06-24 2018-01-05 中兴通讯股份有限公司 设备的控制方法、装置及系统、文件的发送方法和装置
CN106531158A (zh) * 2016-11-30 2017-03-22 北京理工大学 一种应答语音的识别方法及装置
US10229682B2 (en) * 2017-02-01 2019-03-12 International Business Machines Corporation Cognitive intervention for voice recognition failure
CN109215640B (zh) * 2017-06-30 2021-06-01 深圳大森智能科技有限公司 语音识别方法、智能终端及计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1389852A (zh) * 2001-06-06 2003-01-08 松下电器产业株式会社 使用语音识别和自然语言对家居活动的自动控制
CN1402867A (zh) * 1999-12-02 2003-03-12 汤姆森许可贸易公司 含有固定和可变语法块的语言模型的语音识别装置
CN1783213A (zh) * 2004-12-01 2006-06-07 国际商业机器公司 用于自动语音识别的方法和装置
CN101369425A (zh) * 2007-08-17 2009-02-18 株式会社东芝 语音识别装置及其方法
CN101540169A (zh) * 2008-03-19 2009-09-23 株式会社东芝 语音识别设备和方法

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10187185A (ja) * 1996-12-25 1998-07-14 Fuji Xerox Co Ltd 言語処理装置および方法
JP3402100B2 (ja) * 1996-12-27 2003-04-28 カシオ計算機株式会社 音声制御ホスト装置
US6058166A (en) * 1997-10-06 2000-05-02 Unisys Corporation Enhanced multi-lingual prompt management in a voice messaging system with support for speech recognition
US6249765B1 (en) * 1998-12-22 2001-06-19 Xerox Corporation System and method for extracting data from audio messages
US6377922B2 (en) * 1998-12-29 2002-04-23 At&T Corp. Distributed recognition system having multiple prompt-specific and response-specific speech recognizers
JP3444486B2 (ja) * 2000-01-26 2003-09-08 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識手段を使用する自動音声応答システムおよび方法
US6654720B1 (en) 2000-05-09 2003-11-25 International Business Machines Corporation Method and system for voice control enabling device in a service discovery network
US20040085162A1 (en) 2000-11-29 2004-05-06 Rajeev Agarwal Method and apparatus for providing a mixed-initiative dialog between a user and a machine
US6728348B2 (en) * 2000-11-30 2004-04-27 Comverse, Inc. System for storing voice recognizable identifiers using a limited input device such as a telephone key pad
JP2003295890A (ja) * 2002-04-04 2003-10-15 Nec Corp 音声認識対話選択装置、音声認識対話システム、音声認識対話選択方法、プログラム
US7003464B2 (en) * 2003-01-09 2006-02-21 Motorola, Inc. Dialog recognition and control in a voice browser
US7331036B1 (en) 2003-05-02 2008-02-12 Intervoice Limited Partnership System and method to graphically facilitate speech enabled user interfaces
US20050043067A1 (en) * 2003-08-21 2005-02-24 Odell Thomas W. Voice recognition in a vehicle radio system
US7363228B2 (en) * 2003-09-18 2008-04-22 Interactive Intelligence, Inc. Speech recognition system and method
US8000452B2 (en) * 2004-07-26 2011-08-16 General Motors Llc Method and system for predictive interactive voice recognition
US8121839B2 (en) * 2005-12-19 2012-02-21 Rockstar Bidco, LP Method and apparatus for detecting unsolicited multimedia communications
US8214213B1 (en) * 2006-04-27 2012-07-03 At&T Intellectual Property Ii, L.P. Speech recognition based on pronunciation modeling
US8055502B2 (en) * 2006-11-28 2011-11-08 General Motors Llc Voice dialing using a rejection reference
US8725513B2 (en) * 2007-04-12 2014-05-13 Nuance Communications, Inc. Providing expressive user interaction with a multimodal application
US20080300025A1 (en) * 2007-05-31 2008-12-04 Motorola, Inc. Method and system to configure audio processing paths for voice recognition
WO2009048434A1 (en) 2007-10-11 2009-04-16 Agency For Science, Technology And Research A dialogue system and a method for executing a fully mixed initiative dialogue (fmid) interaction between a human and a machine
US8868424B1 (en) * 2008-02-08 2014-10-21 West Corporation Interactive voice response data collection object framework, vertical benchmarking, and bootstrapping engine

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1402867A (zh) * 1999-12-02 2003-03-12 汤姆森许可贸易公司 含有固定和可变语法块的语言模型的语音识别装置
CN1389852A (zh) * 2001-06-06 2003-01-08 松下电器产业株式会社 使用语音识别和自然语言对家居活动的自动控制
CN1783213A (zh) * 2004-12-01 2006-06-07 国际商业机器公司 用于自动语音识别的方法和装置
CN101369425A (zh) * 2007-08-17 2009-02-18 株式会社东芝 语音识别装置及其方法
CN101540169A (zh) * 2008-03-19 2009-09-23 株式会社东芝 语音识别设备和方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JP特开平10-187185A 1998.07.14

Also Published As

Publication number Publication date
US9236048B2 (en) 2016-01-12
US20130289995A1 (en) 2013-10-31
EP2521121A4 (en) 2014-03-19
EP2521121A1 (en) 2012-11-07
CN102237087A (zh) 2011-11-09
EP2521121B1 (en) 2017-10-25
WO2011134288A1 (zh) 2011-11-03

Similar Documents

Publication Publication Date Title
CN102237087B (zh) 语音控制方法和语音控制装置
EP0653701B1 (en) Method and system for location dependent verbal command execution in a computer based control system
US20200082826A1 (en) Command and control of devices and applications by voice using a communication base system
CN102842306B (zh) 语音控制方法及装置、语音响应方法及装置
US7203651B2 (en) Voice control system with multiple voice recognition engines
CN1220176C (zh) 用于一种语音识别设备的训练或适配方法
CN202871290U (zh) 一种用于卡拉ok设备的原唱/伴唱自动切换装置
CN103198831A (zh) 语音操控方法与移动终端装置
CN103220423A (zh) 语音接听方法与移动终端装置
CN101873180A (zh) 一种自动保存语音的方法及终端
CN103257594A (zh) 通用的声控装置、系统及方法
CN104992715A (zh) 一种智能设备的界面切换方法及系统
CN103514882A (zh) 一种语音识别方法及系统
CN109712623A (zh) 语音控制方法、装置及计算机可读存储介质
CN104898821A (zh) 一种信息处理的方法及电子设备
CN101123034A (zh) 一种语音遥控电视的方法及其装置
CN202905151U (zh) 一种用于卡拉ok设备的原唱/伴唱自动切换装置
EP1374228A1 (en) Method and processor system for processing of an audio signal
CN202737978U (zh) 语音定位手机
JP2006058390A (ja) 音声認識装置
CN102291487B (zh) 短信息读取方法和移动终端设备
CN110865789A (zh) 基于语音识别的智能开启麦克风的方法及系统
US7636661B2 (en) Microphone initialization enhancement for speech recognition
CN1801846A (zh) 耳机全语音手机拨号交互应用的方法
CN102104655A (zh) 一种通过声控更换手机待机墙纸的方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140101

Termination date: 20200427