CN110235087B - 一种实现语音控制的方法和终端 - Google Patents

一种实现语音控制的方法和终端 Download PDF

Info

Publication number
CN110235087B
CN110235087B CN201780084159.8A CN201780084159A CN110235087B CN 110235087 B CN110235087 B CN 110235087B CN 201780084159 A CN201780084159 A CN 201780084159A CN 110235087 B CN110235087 B CN 110235087B
Authority
CN
China
Prior art keywords
keyword
text
terminal
server
control command
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201780084159.8A
Other languages
English (en)
Other versions
CN110235087A (zh
Inventor
李念
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of CN110235087A publication Critical patent/CN110235087A/zh
Application granted granted Critical
Publication of CN110235087B publication Critical patent/CN110235087B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明提供了一种实现语音控制的方法和终端,所述终端首先记录第一关键词文本和第二关键词文本的对应关系;当用户输入的语音时:所述终端将所述用户输入的语音发送给第一服务器进行语义解析和逻辑解析;接着,在所述第一服务器返回解析失败时,所述终端获取所述第一服务器返回的解析文本,根据所述对应关系将所述解析文本中的所述第二关键词替换为所述第一关键词后发送给所述第一服务器;然后,所述终端接收所述第一服务器逻辑解析成功后所返回的控制命令结构,并根据所述控制命令结构执行功能,播放通知语音。所述方法和终端提高了用户个性化设置的语音控制的成功低和安全性。

Description

一种实现语音控制的方法和终端
技术领域
本发明涉及电子技术领域,尤其涉及一种实现语音控制的方法和终端。
背景技术
语音识别和控制已经比较成熟并广泛使用,如手机输入法、车载电器控制等,智能家居是一种对传统家电的升级功能,可以通过手机、电脑等智能终端远程控制家电,还能同时控制多个家电或实现自动重复控制,目前也普遍了实现语音控制功能。
因为语音识别和处理需要强大的处理能力和大容量数据库,以及实时的响应能力,所以目前对语音识别的处理通常都放在云端进行。然而,由于目前云端处理能力的局限,一种方式是限制使用标准命令的控制方法,该方法限制了普通用户的语言控制的实用性,例如每个用户或家庭对家中设备、房间都有自己的习惯叫法,如果云端记录所有用户对所有关键字的不同说法,关键字数量过大需要复杂的算法处理,提高成本,影响处理速度,降低识别率,同时容易造成冲突,影响语音控制成功率,进而降低用户使用体验。此外,如果额外增加一个loT云接口,语音云通过读取loT云的数据,获得用户所有的设备名、房间名等自定义的关键字的用法,进行识别和解析的方法,会大幅提高成本和且在安全方面存在问题。
发明内容
根据本发明一些实施例提供的一种实现语音控制的方法、终端,旨在解决提高用户个性化设置的语音控制的成功低和安全性。
第一方面,本发明实施例提供了一种实现语音控制的方法,其中,所述方法包括:所述终端记录第一关键词文本和第二关键词文本的对应关系;当用户输入的语音时:所述终端将所述用户输入的语音发送给第一服务器进行语义解析和逻辑解析;接着,在所述第一服务器返回解析失败时,所述终端获取所述第一服务器返回的解析文本,根据所述对应关系将所述解析文本中的所述第二关键词替换为所述第一关键词后发送给所述第一服务器;然后,所述终端接收所述第一服务器逻辑解析成功后所返回的控制命令结构,并根据所述控制命令结构执行功能,播放通知语音。
所述方法通过在所述终端记录第一关键词文本和第二关键词文本的对应关系,在所述第一服务器无法解析第二关键词文本时,所述终端根据所述对应关系将所述第二关键词文本替换为第一关键词文本后再发送给第一服务器进行语义解析和逻辑解析,既能够为用户提供个性化的语音命令,并且不增加第一服务器额外的处理复杂度,不增加成本,且提高识别准确性,此外,不需要增加第二服务器提供第一关键词文本和第二关键词文本关系说明,减少用户个人私有信息和企业全部用户信息对外界暴露,提高安全度。
结合本发明第一方面,在第一方面的第一实施例中,所述终端记录第一关键词文本和第二关键词文本的对应关系包括:当用户将第一关键词文本修改为第二关键词文本的操作:所述终端记录所述第一关键词文本和所述第二关键词文本的对应关系,所述终端通过随用户的操作随时记录所述对应关系,无需依赖外界设备,操作方便,更新速度快。
结合本发明第一方面,在第一方面的第一实施例中,所述终端记录第一关键词文本和第二关键词文本的对应关系包括:所述终端从第二服务器获取并记录第一关键词文本和第二关键词文本的对应关系,第二服务器可以是物联网服务器,其记录用户在所述终端上设置的将第一关键词文本和第二关键词文本修改操作,所述终端在与所述第二服务器交互时,可以从所述第二服务器获取该对应关系,该方法可以使终端无需实时搜集和记录修改操作,降低所述终端的处理逻辑复杂度。
结合本发明第一方面各实施例,在可能的实现方式中,所述终端保存所述第一关键词文本和所述第二关键词文本的对应关系包括:所述终端将所述第一关键词文本和所述第二关键词文本及其对应关系记录在词汇列表中。
结合本发明第一方面前述实施例,在可能的实现方式中,在所述第一服务器返回解析失败时,所述终端获取所述第一服务器返回的解析文本,根据所述对应关系将所述解析文本中的所述第二关键词替换为所述第一关键词后发送给所述第一服务器包括:所述终端将所述词汇列表中的所述第二关键词文本与所述解析文本进行匹配;所述终端将所述解析文本中匹配到的所述第二关键词替换为对应的所述第一关键词后发送给第一服务器。
结合本发明第一方面前述实施,在可能的实现方式中,所述终端将所述第一关键词文本和所述第二关键词文本及其对应关系记录在词汇列表中包括:所述终端根据所述第一关键词文本不同的类型,将所述第一关键词文本和所述第二关键词文本及其对应关系记录在不同的词汇列表中。
结合本发明第一方面各实施例,在可能的实现方式中,所述终端根据所述控制命令结构执行功能,并播放通知语音包括:所述终端将所述控制命令结构中所述第一关键词文本替换为所对应的所述第二关键词文本;所述终端根据替换后的所述控制命令结构,生成可执行的控制命令,并执行所述控制命令;所述终端根据替换后的所述控制命令结构,生成通知语音,并播放所述通知语音。所述终端替换为第二关键词文本后执行功能,包括将执行功能命令发送给设备或通过第二服务器发送给所述设备,都能够使设备或第二服务器更易理解执行命令的含义,通知语音播放第二关键词文本能够避免词汇变化给用户带来的误解,进而提高用户使用体验。
结合本发明第一方面各实施例,在可能的实现方式中,所述终端将所述解析文本中匹配到的所述第二关键词替换为对应的所述第一关键词后还包括:所述终端记录所述第二关键词和对应的所述第一关键词的替换记录;则所述终端将所述控制命令结构中所述第一关键词文本替换为所对应的所述第二关键词文本包括:所述终端根据所述替换记录将所述控制命令结构中所述第一关键词文本替换为所对应的所述第二关键词文本。
结合本发明第一方面各实施例,在可能的实现方式中,所述方法还包括:在所述终端将所述用户输入的语音发送给第一服务器进行语义解析和逻辑解析时,所述终端将所述第一关键词文本和第二关键词文本的对应关系发送给所述第一服务器。
第二方面,本发明实施例提供了一种实现语音控制的终端,其中,所述终端包括:至少一个处理器;至少一个存储器,所述至少一个存储器包括若干指令;所述处理器执行所述若干指令使所述终端至少执行如下步骤:记录第一关键词文本和第二关键词文本的对应关系;当用户输入的语音:将所述用户输入的语音发送给第一服务器进行语义解析和逻辑解析;在所述第一服务器返回解析失败时,获取所述第一服务器返回的解析文本,根据所述对应关系将所述解析文本中的所述第二关键词替换为所述第一关键词后发送给所述第一服务器;接收所述第一服务器逻辑解析成功后所返回的控制命令结构,并根据所述控制命令结构执行功能,播放通知语音。
结合本发明第二方面,在第二方面的第一实施例中,在记录第一关键词文本和第二关键词文本的对应关系步骤中,所述处理器执行所述若干指令使所述终端至少执行如下步骤:
当用户将第一关键词文本修改为第二关键词文本的操作,记录所述第一关键词文本和所述第二关键词文本的对应关系。
结合本发明第二方面,在第二方面的第二实施例中,在记录第一关键词文本和第二关键词文本的对应关系的步骤中,所述处理器执行所述若干指令使所述终端至少执行如下步骤:
从第二服务器获取并记录第一关键词文本和第二关键词文本的对应关系。
结合本发明第二方面各实施例,在可能的实现方式中,在保存所述第一关键词文本和所述第二关键词文本的对应关系的步骤中,所述处理器执行所述若干指令使所述终端至少执行如下步骤:
将所述第一关键词文本和所述第二关键词文本及其对应关系记录在词汇列表中。
结合本发明第二方面前述实施,在可能的实现方式中,在将所述第一关键词文本和所述第二关键词文本及其对应关系记录在词汇列表中,所述处理器执行所述若干指令使所述终端至少执行如下步骤:根据所述第一关键词文本不同的类型,将所述第一关键词文本和所述第二关键词文本及其对应关系记录在不同的词汇列表中。
结合本发明第二方面各实施例,在可能的实现方式中,在所述第一服务器返回解析失败时,获取所述第一服务器返回的解析文本,根据所述对应关系将所述解析文本中的所述第二关键词替换为所述第一关键词后发送给所述第一服务器的步骤中,所述处理器执行所述若干指令使所述终端至少执行如下步骤:将所述词汇列表中的所述第二关键词文本与所述解析文本进行匹配;将所述解析文本中匹配到的所述第二关键词替换为对应的所述第一关键词后发送给第一服务器。
结合本发明第二方面各实施例,在可能的实现方式中,根据所述控制命令结构执行功能,并播放通知语音的步骤中,所述处理器执行所述若干指令使所述终端至少执行如下步骤:将所述控制命令结构中所述第一关键词文本替换为所对应的所述第二关键词文本;根据替换后的所述控制命令结构,生成可执行的控制命令,并执行所述控制命令;根据替换后的所述控制命令结构,生成通知语音,并播放所述通知语音。
结合本发明第二方面各实施例,在可能的实现方式中,在将所述解析文本中匹配到的所述第二关键词替换为对应的所述第一关键词的步骤后,所述处理器执行所述若干指令使所述终端至少执行如下步骤:记录所述第二关键词和对应的所述第一关键词的替换记录;将所述控制命令结构中所述第一关键词文本替换为所对应的所述第二关键词文本包括:根据所述替换记录将所述控制命令结构中所述第一关键词文本替换为所对应的所述第二关键词文本。
结合本发明第二方面各实施例,在可能的实现方式中,所述处理器还执行所述若干指令使所述终端至少执行如下步骤:
在将所述用户输入的语音发送给第一服务器进行语义解析和逻辑解析时,将所述第一关键词文本和第二关键词文本的对应关系发送给所述第一服务器。
第三方面,本发明实施例提供了一种实现语音控制的终端,其中,包括记录单元,第一发送单元、替换单元和执行单元;所述记录单元用于记录第一关键词文本和第二关键词文本的对应关系;当用户输入的语音:所述第一发送单元用于将所述用户输入的语音发送给第一服务器进行语义解析和逻辑解析;所述替换单元用于在所述第一服务器返回解析失败时,获取所述第一服务器返回的解析文本,根据所述对应关系将所述解析文本中的所述第二关键词替换为所述第一关键词后发送给所述第一服务器;所述执行单元用于接收所述第一服务器逻辑解析成功后所返回的控制命令结构,并根据所述控制命令结构执行功能,播放通知语音。
结合本发明第三方面,在可能的实现方式中,所述记录单元包括:第一记录子单元,用于当用户将第一关键词文本修改为第二关键词文本的操作,记录所述第一关键词文本和所述第二关键词文本的对应关系。
结合本发明第三方面,在可能的实现方式中,所述记录单元包括:第二记录子单元,用于从第二服务器获取并记录第一关键词文本和第二关键词文本的对应关系。
结合本发明第三方面各实施例,在可能的实现方式中,所述记录单元还包括:第三记录子单元,用于将所述第一关键词文本和所述第二关键词文本及其对应关系记录在词汇列表中。
结合本发明第三方面前述各实施例,在可能的实现方式中,所述第三记录子单元用于:根据所述第一关键词文本不同的类型,将所述第一关键词文本和所述第二关键词文本及其对应关系记录在不同的词汇列表中。
结合本发明第三方面前述各实施例,在可能的实现方式中,所述替换单元包括:匹配子单元,用于将所述词汇列表中的所述第二关键词文本与所述解析文本进行匹配;替换子单元,用于将所述解析文本中匹配到的所述第二关键词替换为对应的所述第一关键词后发送给第一服务器。
结合本发明第三方面前述各实施例,在可能的实现方式中,所述执行单元包括:再替换子单元,用于将所述控制命令结构中所述第一关键词文本替换为所对应的所述第二关键词文本;执行子单元,用于根据替换后的所述控制命令结构,生成可执行的控制命令,并执行所述控制命令;语音生成子单元,用于根据替换后的所述控制命令结构,生成通知语音,并播放所述通知语音。
结合本发明第三方面前述实施例,在可能的实现方式中,所述替换单元还包括:替换记录子单元,用于在所述解析文本中匹配到的所述第二关键词替换为对应的所述第一关键词后,记录所述第二关键词和对应的所述第一关键词的替换记录;所述再替换子单元用于根据所述替换记录将所述控制命令结构中所述第一关键词文本替换为所对应的所述第二关键词文本。
结合本发明第三方面前述各实施例,在可能的实现方式中,所述终端还包括:第二发送单元,用于将所述用户输入的语音发送给第一服务器进行语义解析和逻辑解析时,将所述第一关键词文本和第二关键词文本的对应关系发送给所述第一服务器。
第四方面,本发明实施例提供了一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如第一方面各实施例所述的方法。
第五方面,本发明实施例提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行如第一方面各实施例所述的方法。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要地介绍。在附图中,相同的标好表示相应的部分。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,而非全部。对于本领域普通技术人员来讲,在没有付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1示出根据本发明实施例提供的一种实现语音控制的系统的结构示意图;
图2示出根据本发明实施例提供的一种终端的结构示意图;
图3示出根据本发明实施例提供的一种实现语音控制的方法流程示意图;
图4示出根据本发明实施例提供的一种实现语音控制的系统的结构示意图;
图5示出根据本发明实施例提供的一种实现语音控制的方法流程示意图;
图6示出根据本发明实施例提供的一种实现语音控制的终端的改进示意图;
图7示出根据本发明实施例提供的一种实现语音控制的过程示意图;
图8示出根据本发明实施例提供的一种实现语音控制方法的流程示意图。
具体实施方式
本发明实施例中所使用的术语只是为了描述特定实施例的目的,而并非旨在作为对本发明的限制。如在本发明的说明书和所附权利要求书中所使用的那样,单数表达形式“一个”、“一种”、“所述”、“上述”和“该”旨在也包括复数表达形式,除非其上下文中明确地有相反指示。还应当理解,本发明中可能使用的术语“和/或”是指并包含一个或多个相绑定的列出项目的任何或所有可能组合。
以下介绍本发明实施例中终端、设备、服务器、系统、以及所述终端配合所述服务器实现语音控制的实施例,用来提高语音控制的准确率和成功率。
语音识别和控制已经比较成熟并广泛使用,如手机输入法、车载电器控制等。目前在智能家居的操作控制也普遍实现了语音控制功能,智能家居是一种对传统家电的升级功能,可以通过手机、电脑等智能终端远程控制家电,还能同时控制多个家电或实现自动重复控制,目前也普遍了实现语音控制功能,用户通过对手机或支持语音输入的控制终端讲出控制命令,就可以操作家电设备。后者的语音控制终端形态很多,如智能音箱、路由器、摄像头、专用语音控制终端等多种,以下对支持语音控制的智能设备统称“终端”或“语音终端”。
因为语音识别和处理需要强大的处理能力和大容量数据库,以及实时的响应能力,所以目前对语音识别的处理通常都放在云端(以下称为“语音云”,主要是计算中心里的服务器集群,具有强大的存储和处理能力)进行,即,终端把用户的语音发送到语音云,语音云的服务器进行识别和处理,转换成文本、控制命令的数据结构等形式返回给终端,终端再根据这些数据,转换成家电控制命令去执行用户的控制意图。通常语音云并不只是给智能家居服务,还会支持手机、车载的其它语音业务,并且有单独的运营商提供服务。
以智能家庭系统为例,图1中所示为目前通常的智能家庭系统组网图。本发明的系统架构使用基于语音云进行语音和主义识别的语音控制系统,所述系统包括终端、设备和一个或多个服务器。
在本发明一些实施例中,所述智能设备可以是智能家电,包括通过物联网技术将家中的各种设备,如音视频设备、照明系统、窗帘控制、空调控制、安防系统、数字影院系统、影音服务器、影柜系统、网络家电等。所述电子设备具有数据处理能力,不仅能够提供传统居住功能,还能够支持用户利用终端通过网络进行远程控制、定时控制等智能功能。还应当理解的是,在本发明其他一些实施例中,所述智能家电还可以是其他需要进行入网连接并可以通过终端配合实现入网连接的设备。
在一些实施例中,智能家电例如为智能电视。智能电视除具有普通电视的显示器、扬声器等装置外,还具有处理器、存储器、网络连接装置,能够搭载各种操作系统,并能够连接互联网,可以类似终端支持多种方式的交互式应用,例如根据用户安装、更新、删除应用。
在本发明一些实施例中,所述终端可以是还包含其它功能诸如个人数字助理和/或音乐播放器功能的便携式电子设备,诸如手机、平板电脑、具备无线通讯功能的可穿戴电子设备(如智能手表)等。便携式电子设备的示例性实施例包括但不限于搭载
Figure GPA0000269284680000081
Figure GPA0000269284680000082
或者其它操作系统的便携式电子设备。上述便携式电子设备也可以是其它便携式电子设备,诸如具有触敏表面(例如触控板)的膝上型计算机(Laptop)等。还应当理解的是,在本发明其他一些实施例中,所述终端还可以是符合同类规范的遥控器、智能环境检测器等可作为移动安全代理的设备。
如图2所示,本发明实施例中的终端可以为手机100。下面以手机100为例对实施例进行具体说明。应该理解的是,图示手机100仅是终端的一个范例,并且手机100可以具有比图中所示出的更多的或者更少的部件,可以组合两个或更多的部件,或者可以具有不同的部件配置。图中所示出的各种部件可以在包括一个或多个信号处理和/或专用集成电路在内的硬件、软件、或硬件和软件的组合中实现。
如图2所示,手机100具体可以包括:处理器101、射频(RF)电路102、存储器103、触摸屏104、蓝牙装置105、一个或多个传感器106、Wi-Fi装置107、定位装置108、音频电路109、外设接口110以及电源系统111等部件。这些部件可通过一根或多根通信总线或信号线(图2中未示出)进行通信。本领域技术人员可以理解,图2中示出的硬件结构并不构成对手机100的限定,手机100可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图2对手机100的各个部件进行具体的介绍:
处理器101是手机100的控制中心,利用各种接口和线路连接手机100的各个部分,通过运行或执行存储在存储器103内的应用程序(以下可以简称App),以及调用存储在存储器103内的数据和指令,执行手机100的各种功能和处理数据。在一些实施例中,处理器101可包括一个或多个处理单元;处理器101还可以集成应用处理器和调制解调处理器;其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器101中。处理器101可以是集成芯片。在本发明一些实施例中,上述处理器101还可以包括指纹验证芯片,用于对采集到的指纹进行验证。
射频电路102可用于在收发信息或通话过程中,无线信号的接收和发送。具体地,射频电路102可以将基站的下行数据接收后,给处理器101处理;另外,将涉及上行的数据发送给基站。通常,射频电路包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外,射频电路102还可以通过无线通信和其他设备通信。所述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统、通用分组无线服务、码分多址、宽带码分多址、长期演进、电子邮件、短消息服务等。
存储器103用于存储应用程序以及数据,处理器101通过运行存储在存储器103的应用程序以及数据,执行手机100的各种功能以及数据处理。存储器103主要包括存储程序区以及存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等);存储数据区可以存储根据使用手机100时所创建的数据(比如音频数据、电话本等)。此外,存储器103可以包括高速随机存取存储器,还可以包括非易失存储器,例如磁盘存储器件、闪存器件或其他易失性固态存储器件等。存储器103可以存储各种操作系统,例如苹果公司所开发的
Figure GPA0000269284680000091
操作系统,谷歌公司所开发的
Figure GPA0000269284680000092
操作系统等。
触摸屏104可以包括触控板104-1和显示器104-2。其中,触控板104-1可采集手机100的用户在其上或附近的触摸事件(比如用户使用手指、触控笔等任何适合的物体在触控板104-1上或在触控板104-1附近的操作),并将采集到的触摸信息发送给其他器件例如处理器101。其中,用户在触控板104-1附近的触摸事件可以称之为悬浮触控;悬浮触控可以是指,用户无需为了选择、移动或拖动目标(例如图标等)而直接接触触控板,而只需用户位于终端附近以便执行所想要的功能。在悬浮触控的应用场景下,术语“触摸”、“接触”等不会暗示用于直接接触触摸屏,而是附近或接近的接触。能够进行悬浮触控的触控板104-1可以采用电容式、红外光感以及超声波等实现。触控板104-1可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再发送给处理器101,触摸控制器还可以接收处理器101发送的指令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型来实现触控板104-1。显示器(也称为显示屏)104-2可用于显示由用户输入的信息或提供给用户的信息以及手机100的各种菜单。可以采用液晶显示器、有机发光二极管等形式来配置显示器104-2。触控板104-1可以覆盖在显示器104-2之上,当触控板104-1检测到在其上或附近的触摸事件后,传送给处理器101以确定触摸事件的类型,随后处理器101可以根据触摸事件的类型在显示器104-2上提供相应的视觉输出。虽然在图2中,触控板104-1与显示屏104-2是作为两个独立的部件来实现手机100的输入和输出功能,但是在某些实施例中,可以将触控板104-1与显示屏104-2集成而实现手机100的输入和输出功能。可以理解的是,触摸屏104是由多层的材料堆叠而成,本发明实施例中只展示出了触控板(层)和显示屏(层),其他层在本发明实施例中不予记载。另外,在本发明其他一些实施例中,触控板104-1可以覆盖在显示器104-2之上,并且触控板104-1的尺寸大于显示屏104-2的尺寸,使得显示屏104-2全部覆盖在触控板104-1下面,或者,上述触控板104-1可以以全面板的形式配置在手机100的正面,也即用户在手机100正面的触摸均能被手机感知,这样就可以实现手机正面的全触控体验。在其他一些实施例中,触控板104-1以全面板的形式配置在手机100的正面,显示屏104-2也可以以全面板的形式配置在手机100的正面,这样在手机的正面就能够实现无边框(Bezel)的结构。
在本发明实施例中,手机100还可以具有指纹识别功能。例如,可以在手机100的背面(例如后置摄像头的下方)配置指纹识别器,或者在手机100的正面(例如触摸屏104的下方)配置指纹识别器。不再详述。
手机100还可以包括蓝牙装置105,用于实现手机100与其他短距离的终端(例如手机、智能手表等)之间的数据交换。本发明实施例中的蓝牙装置可以是集成电路或者蓝牙芯片等。
手机100还可以包括至少一种传感器106,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节触摸屏104的显示器的亮度,接近传感器可在手机100移动到耳边时,关闭显示器的电源。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机100还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
Wi-Fi装置107,用于为手机100提供遵循Wi-Fi相关标准协议的网络接入,手机100可以通过Wi-Fi装置107接入到Wi-Fi接入点,进而帮助用户收发电子邮件、浏览网页和访问流媒体等,它为用户提供了无线的宽带互联网访问。在其他一些实施例中,该Wi-Fi装置107也可以作为Wi-Fi无线接入点,可以为其他终端提供Wi-Fi网络接入。
定位装置108,用于为手机100提供地理位置。可以理解的是,该定位装置108具体可以是全球定位系统(GPS)或北斗卫星导航系统、俄罗斯GLONASS等定位系统的接收器。定位装置108在接收到上述定位系统发送的地理位置后,将该信息发送给处理器101进行处理,或者发送给存储器103进行保存。在另外的一些实施例中,该定位装置108可以是辅助全球卫星定位系统(AGPS)的接收器,AGPS是一种在一定辅助配合下进行GPS定位的运行方式,它可以利用基站的信号,配合GPS卫星信号,可以让手机100定位的速度更快;在AGPS系统中,该定位装置108可通过与辅助定位服务器(例如手机定位服务器)的通信而获得定位辅助。AGPS系统通过作为辅助服务器来协助定位装置108完成测距和定位服务,在这种情况下,辅助定位服务器通过无线通信网络与终端例如手机100的定位装置108(即GPS接收器)通信而提供定位协助。在另外的一些实施例中,该定位装置108也可以是基于Wi-Fi接入点的定位技术。由于每一个Wi-Fi接入点都有一个全球唯一的MAC地址,终端在开启Wi-Fi的情况下即可扫描并收集周围的Wi-Fi接入点的广播信号,因此可以获取到Wi-Fi接入点广播出来的MAC地址;终端将这些能够标示Wi-Fi接入点的数据(例如MAC地址)通过无线通信网络发送给位置服务器,由位置服务器检索出每一个Wi-Fi接入点的地理位置,并结合Wi-Fi广播信号的强弱程度,计算出该终端的地理位置并发送到该终端的定位装置108中。
音频电路109、扬声器113、麦克风114可提供用户与手机100之间的音频接口。音频电路109可将接收到的音频数据转换后的电信号,传输到扬声器113,由扬声器113转换为声音信号输出;另一方面,麦克风114将收集的声音信号转换为电信号,由音频电路109接收后转换为音频数据,再将音频数据输出至RF电路102以发送给比如另一手机,或者将音频数据输出至存储器103以便进一步处理。
外设接口110,用于为外部的输入/输出设备(例如键盘、鼠标、外接显示器、外部存储器、用户识别模块卡等)提供各种接口。例如通过通用串行总线(USB)接口与鼠标连接,通过用户识别模块卡卡槽上的金属触点与电信运营商提供的用户识别模块卡(SIM)卡进行连接。外设接口110可以被用来将上述外部的输入/输出外围设备耦接到处理器101和存储器103。
手机100还可以包括给各个部件供电的电源装置111(比如电池和电源管理芯片),电池可以通过电源管理芯片与处理器101逻辑相连,从而通过电源装置111实现管理充电、放电、以及功耗管理等功能。
尽管图2未示出,手机100还可以包括摄像头(前置摄像头和/或后置摄像头)、闪光灯、微型投影装置、近场通信(NFC)装置等,在此不再赘述。以下实施例均可以在具有上述结构的手机100中实现。
所述服务器可以是云服务器,是一种基于互联网的计算方式,具有计算和存储能力,提供共享的软硬件资源和信息可以按需求提供给计算机各种终端和其他设备的服务设备。所述云服务器可以是语音云。
结合图1,在具体的实施例中,所述系统可以包括如下:
智能家电——只有联网、远程控制、按命令自动运行的用户所使用的家电设备,有些还具有编程、定时功能,是对传统家电的升级。
控制终端——运行控制软件的控制设备,通常有固定和移动两种。移动的控制终端通常是智能手机、平板等智能设备;固定控制终端通常是面板、开关等非智能设备。本发明针对前者的移动智能终端进行改进。移动控制终端可以在家庭中(图中“控制终端1”位置)通过家庭无线局域网和设备通信,也可以在家庭以外通过互联网和设备通信(图中“控制终端2”位置)。
IoT云(物联网云)——为了实现在控制终端不能和设备直接通信时,仍能对设备状态进行处理和控制,设备和控制终端在通信时都要通过控制服务器,称为“IoT云”,由IoT云转发两者间的消息和命令。IoT云还会对这些消息/命令进行记录和执行。
语音云——语音云本身并不是智能家庭的组成部分,而是第三方服务商,提供把语音转换成文本,以及文本转换成可执行的命令数据结构的功能。
语音云和智能家居系统是两个独立运行的实体,中间通过互联网进行通信,通信内容为上述的“语音-->文本”的交互过程。另外,智能家居系统也包括很多组成部分,如控制和管理家庭设备的“智能家居云”(简称“IoT云”)、大量用户家庭中的智能家电设备、控制家电的终端(如带有控制软件的智能手机或语音终端)等。在本方法中,当终端识别到正确的用户控制命令后,后续控制过程与原先用户在终端上手工操作app界面相同,所以本方只涉及语音云和终端两个设备,其它设备的功能和处理过程不再描述。
随着数据库技术、人工智能技术、服务器处理能力的发展,当前的语音云已经能达到很高的识别准确率,能把任意一段话音转换成文本,并且在很多如订票、查询等公共业务上,语音识别已经能达到很高的智能程度和准确率。
在本发明一些实施例中,智能家居业务中实现语音控制的流程如图3。
在家电语音控制中,通常使用“操作+设备+目的”的表达方式,如“设置客厅空调26度”,对于这类标准用法,语音云都能正确地识别操作对象为“空调”,位置是“客厅”,动作是“调节温度”,目标参数“26度”,并根据此处理结果返回如下正确的数据结构:
{
“dev”,”空调”
“op”,”set”
“temp”,”26”
“loc”,”客厅”
}
语音云为了完整地识别这类控制命令,控制命令中必须存在相应的关键字,例如必须有“空调”,才能判断“26”是温度。而终端在收到这种参数完整数据后才能生成相应的控制命令、知道是控制哪个设备。语音云在提供此类业务时,已经学习并归纳了大量的设备,如“空调”、“冰箱”、“灯”等,并且对每类设备都设计了相应的控制参数组合,对家庭中的各个房间也已经定义为诸如“客厅”、“卧室”、“走廊”等标准用法。同时,语音云还对各种可能的词语顺序、语气词进行了相应的处理,对于这些在标准表达范围内的语音命令,具有很高的准确率。
当其中某项缺少或描述不符合预先定义的关键字时,虽然能从语言识别出文本(把语音转换为文字),但命令解析失败,例如,“打开客厅空调”符合预先定义的关键字、可以解析成命令,但用户把“客厅”换成“大房间”时,如果关键字没有定义“大房间”,则命令解析失败,语音云给终端返回解析后的文本字符串,但是无法返回控制命令的数据结构,而是返回错误码,终端提示用户“无法识别的命令,请重新说”。这种情况下因为语音云上缺少用户自定义的关键字,无论用户如何改变说法,结果总是失败:使用用户自定义的非标准关键字,语音云无法识别;使用语音识别系统预定义的标准关键字,虽然语音云可以识别出命令的数据结构,但与用户在智能家居中的描述不同,终端无法找到应该控制的目标设备。为避免这种情况下,智能家居不断要求用户尝试不同的控制语音说法,却始终无法控制成功,造成用户对语音控制的不信任和低能印象的问题,同时避免语音云试图改进提供更全面的功能搜集尽可能多的“非标准关键字”、把它们标准化,如对“房间”的描述增加“大房间”、“小房间”等关键字,通过扩大能够处理的集合的方法提高命令解析的成功率所带来的显而易见的问题,带来显而易见的运算复杂度大幅提高、处理速度下降、识别率降低的问题。在本发明的实施例中,利用家庭智能业务中,不同用户的个性化设置(修改关键字)实际发生的位置和有效范围在其所在家庭内部这一特点,用户操作的客户端(即终端)可对此修改完全感知并能加以区分,通过识别用户对标准关键字的修改,得到与个性化关键字的对应关系,对语音云不能识别的个性化部分加以替换,利用其基础能力实现扩展功能。不限制用户个性化关键字,并不需要把全部用户的个性化关键字提交到云端、不需要云端针对性开发和升级,无论用户如何修改,本地都可以用同一个软件获取修改后的值,并加以替换和反替换;也解决了现有技术三的问题,不需要把整个用户的情况暴露给第三方。
本发明的实施例通过利用终端的自身的计算能力以及是对用户个体进行处理的特点,把原先无法解决、或者全部交给语音云进行处理的语音识别过程,分为标准和非标准两个阶段,在用户本地终端上对非标准关键字替换为标准关键字,把个性信息范围限制在终端上,原先方案必须把个性部分提供给云才能识别,通过两步的迭代过程完成语音控制命令识别,而不是现有技术的一次提交、直接返回结果,从而使用户修改其个性化的语言用法在语音控制上能立即生效,无论修改成什么值都能立即识别,语音云不需要修改,并且不需要云间接口,减少信息泄漏风险。
本发明从用户个性化设置的根源,即用户自己对标准关键字的修改来解决问题:用户的个性化设置只和特定的家庭或个人有关,不需要集中到语音云进行处理,在现有技术三的解决方法中,语音云需要识别用户、取得个性化关键字,再进行匹配,实际是在集中的共性处理过程中进行个性化处理,效率低、成本高。每个用户把哪个标准关键字修改成非标准值,在终端侧已经可以判断,不需要再到语音云进行区分,那样会导致,语音云在针对不同智能家居服务商时,对方会提供不同关键字的修改范围,需要区别处理,加上用户对关键字的修改值就变成需要进行多级处理,开发量大且执行效率低,语音终端作为智能家居系统的一个部分,用户可以修改哪些类别关键字从设计上就已经知道,也能无信息风险地读取到用户实际上是否修改、修改成什么值。
结合以上,结合图8,根据本发明一方面提供的一种实现语音控制的方法,其中,所述方法包括:
步骤11:所述终端记录第一关键词文本和第二关键词文本的对应关系。
步骤12:当用户输入的语音,与服务器配合对用户输入的语音进行解析,并执行功能,步骤12具体包括:
步骤121:所述终端将所述用户输入的语音发送给第一服务器进行语义解析和逻辑解析;
步骤122:在所述第一服务器返回解析失败时,所述终端获取所述第一服务器返回的解析文本,根据所述对应关系将所述解析文本中的所述第二关键词替换服务器为所述第一关键词后发送给所述第一服务器;
步骤123:所述终端接收所述第一服务器逻辑解析成功后所返回的控制命令结构,并根据所述控制命令结构执行功能,播放通知语音。
本领域技术人员可以理解的,以下为了方便描述,将第一服务器与语音云互换使用、将第二服务器与loT云互换使用。
本发明实施例通过在终端进行非标准关键字识别、替换和反替换,实现对用户个性化参数的语音识别和控制。之所以存在非标准关键字,是因为智能家居为了符合用户日常习惯,提供了修改设备属性的功能,用户可以把标准关键字(如房间中的信息“客厅”)修改为符合自己习惯用法的非标准关键字(如“大房间”),因此,在步骤11中,当用户将第一关键词文本修改为第二关键词文本的操作:所述终端记录所述第一关键词文本和所述第二关键词文本的对应关系;或者,所述终端从第二服务器获取并记录第一关键词文本和第二关键词文本的对应关系,也就是说,哪些关键字被修改、被修改成什么内容,终端可以无障碍地从IoT云获取到。
结合图3,在步骤S12,所述终端与服务器配合对用户输入的语音进行解析,并执行功能中,在原先的“语音提交,结果返回”流程包括以下处理过程:
步骤121:所述终端将所述用户输入的语音上传到语音云进行语音识别,包括语义解析和逻辑解析,等待语音云返回识别结果;
结合图4,可知,通过本发明的实施例,当语音云无法解析非标准关键字时,终端完成非标准关键字向标准关键字的替换,再发给语音云,语音云无需建立一个云间数据库接口向loT云查找对应标准关键词,无需依赖另一个服务商,降低成本并且提高信息安全性。
可选地,所述终端将所述用户输入的语音发送给语音云进行语义解析和逻辑解析时,同时上传用户个性化的词汇表(非标准关键字)到语音云,以达到较高的语音识别率,依据语音云提供的服务,可以增加自定义词汇的识别准确率,通常是语音识别服务都能提供的标准功能,使用后效果更好,客户端上传语音(录音文件),语音云按标准流程进行语音和语义解析,因为有上一步骤的词汇表后,语音解析有较高准确率。
当用户语音中存在非标准关键字时,语音云对控制命令的语义识别会因为缺少关键词(如缺少房间信息)而失败。此时在步骤122中,终端根据词汇表中非标准关键字对返回的语音识别文本进行替换,把非标准关键字(如“大房间”)替换为标准关键字(如“客厅”、也可以为此类别中的标准关键字,只要终端有记录,不影响语音云的识别和后续的反替换),并可以在程序中记录此替换。
随后,终端重新上传替换后的标准化控制命令文本字符串(文本字符串),语音云进行语义识别,此时为标准词汇,语义识别成功。
当语音云返回语义解析后的控制命令结构,在步骤123中,终端再根据先前的替换进行反替换,并生成实际能对应到设备的控制命令。
然后,终端根据命令执行结果,用非标准关键字生成通知语音告诉用户执行结果(即通知用户时,房间信息为用户所说的“大房间”,用户才能理解)。
此处把原来完全有语音云完成的语音、语义识别过程分成两个阶段,利用终端已知的标准和非标准关键字对应关系,使非标准语义识别过程标准化。
上述处理过程如图5所示,虚线中为新增加处理过程,包括:
非标准关键字是用户对标准关键字进行过修改内容,在用户修改后保存时,终端或IoT云即记录此非标准关键字及其对应的类别,可以根据类别生成不同的词汇表。
用标准关键字替代非标准关键字的过程,是语音终端在语音云返回和语音识别文本中,通过匹配非标准关键字的方法判断。对于能匹配的内容,终端替换为同类别的标准关键字之一,(终端的软件可任意指定,通常为便于理解和人工识别,选第一个标准关键字),并记录替换的类别,才能在语音云返回控制命令时替换为实际的设备。
因为一句话中,同类关键字只会出现一次(一个命令能控制一个房间中的一个设备),所以在语音云成功完成语义解析(图中“语义解析2”)后,把命令结构中相应类别替换前面匹配出的非标准关键字。
通过上述这一过程的几个步骤(对应表示在下图6中虚线框内),即完成了用户非标准关键字的语音识别,而不需要对语音云的命令解析过程进行修改,也不需要提供接口让语音云取得所有用户的信息。
结合图6,在本发明一些实施例中,完成这一过程所需的软件模块在终端中实现,即语音终端中需要在原先的语音控制模块中增加“自定义关键字识别功能”(图6虚线框内模块)。
与原先语音控制模块把语音发送到语音云、由语音云返回的识别成功或失败的结果,只有成功时才能进行语音控制命令不同,流程举例如下图7,本方法对语音命令的处理过程如下:
1)在设置设备时,先提供标准的设备参数模板,其中包括标准的设备名,如“空调”等列表;标准的房间,如“客厅”等列表。如果用户修改其中的项目,客户端将根据记录用户修改的全部项目和修改值(用户可能修改家中多个设备),分别记录为不同列表,如修改的设备名记入“custom-device-list”,修改的设备房间名记入“custom-location-list”,每个不同的修改值记为其中一项,列表中每项内容不同相同。每一项记录还将对应原先的标准名称,如用户给空调起名为“北极风”,则在“custom-device-list”中,有一项为“北极风,空调”;对于房间,可以任意指定一个标准房间名,如“客厅,大房间”。记录顺序为“标准关键字,非标准关键字”。
2)首先终端把用户的语音发送到语音云,如“调节大房间的北极风到18度”,此时语音内容可被语音云识别,但无法转换成控制命令,语音云返回{执行失败,原因=“缺少关键字”,文本=“调节大房间的北极风到18度”},终端识别此命令,进入标准化处理过程
3)首先终端把所有列表中的非标准关键字与语音云返回的文本(以下简称“听写文本”)进行匹配,如上述的“custom-device-list”和“custom-location-list”(也可以有更多列表,取决于有多少个允许修改的关键字,就有多少个列表),将其中每个非标准关键字在“听写文本”中搜索,在上述语音控制中可以搜索到“北极风”和“大房间”两个值,分别位于“custom-device-list”和“custom-location-list”两个列表中
4)对此二个值进行标准化替换,即把文本中的“北极风”替换为“空调”,“大房间”替换为“客厅”,并记录替换类型和原始值对,“device,北极风”,“location,大房间”,用户控制语音的文本变为“调节客厅的空调到18度”,记录为“standardization-list”
5)将此文本发送到语音云进行语义识别,语音云可返回正确的识别结果{执行成功,device=“空调”,action=“调节温度”,parameter=“18”,location=“客厅”,文本=“调节客厅的空调到18度”}
6)终端得到此识别结果,对照“standardization-list”,发现其中被替换了两个值“device”和“location”,则对其进行反替换,忽略无关部分,设备控制参数表变为{device=“北极风”,action=“调节温度”,parameter=“18”,location=“大房间”}。因为终端和IoT云都是按此参数记录和控制设备,按此参数可以正确控制家电设备。
以上过程即完成了非标准化关键字的语音识别过程。
综上所述,根据本发明实施例所述终端实现语音识别的方法可实现用户自定义关键字识别和处理,提高控制命令的语音和语义识别率,解决方法与用户所做修改无关,不需要根据用户修改升级系统,解决个性化设计带来的无法识别语音命令的问题;所述方法不需要其余服务器接口,避免云间接口,减少受网络攻击的端口,网络和信息安全性高,不需要云端先识别用户、再处理用户非标准信息,本地分散处理效率高,同时,方法使接口标准化,和语音服务商之间耦合低、依赖少,便于推广和灵活选择供应商,此外,减少用户个人私有信息和企业全部用户信息对外界暴露,保护隐私和商业秘密,通过终端侧的软件实现,不涉及语音服务升级和维护,成本低。
结合以上方法描述,在另一方面,本发明实施例提供了一种实现语音控制的终端,其中,包括记录单元,第一发送单元、替换单元和执行单元;所述记录单元用于记录第一关键词文本和第二关键词文本的对应关系;当用户输入的语音:所述第一发送单元用于将所述用户输入的语音发送给第一服务器进行语义解析和逻辑解析;所述替换单元用于在所述第一服务器返回解析失败时,获取所述第一服务器返回的解析文本,根据所述对应关系将所述解析文本中的所述第二关键词替换为所述第一关键词后发送给所述第一服务器;所述执行单元用于接收所述第一服务器逻辑解析成功后所返回的控制命令结构,并根据所述控制命令结构执行功能,播放通知语音。
在可能的实现方式中,所述记录单元包括:第一记录子单元,用于当用户将第一关键词文本修改为第二关键词文本的操作,记录所述第一关键词文本和所述第二关键词文本的对应关系。
在可能的实现方式中,所述记录单元包括:第二记录子单元,用于从第二服务器获取并记录第一关键词文本和第二关键词文本的对应关系。
结合本发明第三方面各实施例,在可能的实现方式中,所述记录单元还包括:第三记录子单元,用于将所述第一关键词文本和所述第二关键词文本及其对应关系记录在词汇列表中。
在可能的实现方式中,所述第三记录子单元用于:根据所述第一关键词文本不同的类型,将所述第一关键词文本和所述第二关键词文本及其对应关系记录在不同的词汇列表中。
在可能的实现方式中,所述替换单元包括:匹配子单元,用于将所述词汇列表中的所述第二关键词文本与所述解析文本进行匹配;替换子单元,用于将所述解析文本中匹配到的所述第二关键词替换为对应的所述第一关键词后发送给第一服务器。
在可能的实现方式中,所述执行单元包括:再替换子单元,用于将所述控制命令结构中所述第一关键词文本替换为所对应的所述第二关键词文本;执行子单元,用于根据替换后的所述控制命令结构,生成可执行的控制命令,并执行所述控制命令;语音生成子单元,用于根据替换后的所述控制命令结构,生成通知语音,并播放所述通知语音。
在可能的实现方式中,所述替换单元还包括:替换记录子单元,用于在所述解析文本中匹配到的所述第二关键词替换为对应的所述第一关键词后,记录所述第二关键词和对应的所述第一关键词的替换记录;所述再替换子单元用于根据所述替换记录将所述控制命令结构中所述第一关键词文本替换为所对应的所述第二关键词文本。
在可能的实现方式中,所述终端还包括:第二发送单元,用于将所述用户输入的语音发送给第一服务器进行语义解析和逻辑解析时,将所述第一关键词文本和第二关键词文本的对应关系发送给所述第一服务器。
以上各单元及各子单元执行的步骤具体请参见方法描述,为简明起见,不再赘述。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
综上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照上述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对上述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (28)

1.一种实现语音控制的方法,其中,所述方法包括:
终端记录第一关键词文本和第二关键词文本的对应关系;
当接收到用户输入的语音:
所述终端将所述用户输入的语音发送给第一服务器进行语义解析和逻辑解析;
在所述第一服务器返回解析失败时,所述终端获取所述第一服务器返回的解析文本,根据所述对应关系将所述解析文本中的所述第二关键词替换为所述第一关键词后发送给所述第一服务器;
所述终端接收所述第一服务器逻辑解析成功后所返回的控制命令结构,并根据所述控制命令结构执行功能,播放通知语音;
所述根据所述控制命令结构执行功能包括:
对所述控制命令结构中的所述第一关键词进行反替换得到所述终端能够执行的控制命令,并执行所述控制命令。
2.根据权利要求1所述的方法,其中,所述终端记录第一关键词文本和第二关键词文本的对应关系包括:当用户将第一关键词文本修改为第二关键词文本的操作:所述终端记录所述第一关键词文本和所述第二关键词文本的对应关系。
3.根据权利要求1所述的方法,其中,所述终端记录第一关键词文本和第二关键词文本的对应关系包括:所述终端从第二服务器获取并记录第一关键词文本和第二关键词文本的对应关系。
4.根据权利要求1所述的方法,其中,所述终端保存所述第一关键词文本和所述第二关键词文本的对应关系的步骤包括:
所述终端将所述第一关键词文本和所述第二关键词文本及其对应关系记录在词汇列表中。
5.根据权利要求4所述的方法,所述终端将所述第一关键词文本和所述第二关键词文本及其对应关系记录在词汇列表中的步骤,包括:
所述终端根据所述第一关键词文本不同的类型,将所述第一关键词文本和所述第二关键词文本及其对应关系记录在不同的词汇列表中。
6.根据权利要求4或5所述的方法,其中,在所述第一服务器返回解析失败时,所述终端获取所述第一服务器返回的解析文本,根据所述对应关系将所述解析文本中的所述第二关键词替换为所述第一关键词后发送给所述第一服务器的步骤,包括:
所述终端将所述词汇列表中的所述第二关键词文本与所述解析文本进行匹配;
所述终端将所述解析文本中匹配到的所述第二关键词替换为对应的所述第一关键词后发送给第一服务器。
7.根据权利要求1至5中任一项所述的方法,其中,所述终端根据所述控制命令结构执行功能,并播放通知语音包括:
所述终端将所述控制命令结构中所述第一关键词文本替换为所对应的所述第二关键词文本;
所述终端根据替换后的所述控制命令结构,生成可执行的控制命令,并执行所述控制命令;
所述终端根据替换后的所述控制命令结构,生成通知语音,并播放所述通知语音。
8.根据权利要求7所述的方法,其中,所述终端将所述解析文本中匹配到的所述第二关键词替换为对应的所述第一关键词后还包括:
所述终端记录所述第二关键词和对应的所述第一关键词的替换记录;
所述终端将所述控制命令结构中所述第一关键词文本替换为所对应的所述第二关键词文本包括:
所述终端根据所述替换记录将所述控制命令结构中所述第一关键词文本替换为所对应的所述第二关键词文本。
9.根据权利要求1至5中任一项所述的方法,其中,所述方法还包括:
在所述终端将所述用户输入的语音发送给第一服务器进行语义解析和逻辑解析时,所述终端将所述第一关键词文本和第二关键词文本的对应关系发送给所述第一服务器。
10.一种实现语音控制的终端,其中,所述终端包括:
至少一个处理器;
至少一个存储器,所述至少一个存储器包括若干指令;
所述处理器执行所述若干指令使所述终端至少执行如下步骤:
记录第一关键词文本和第二关键词文本的对应关系;
当用户输入的语音:
将所述用户输入的语音发送给第一服务器进行语义解析和逻辑解析;
在所述第一服务器返回解析失败时,获取所述第一服务器返回的解析文本,根据所述对应关系将所述解析文本中的所述第二关键词替换为所述第一关键词后发送给所述第一服务器;
接收所述第一服务器逻辑解析成功后所返回的控制命令结构,并根据所述控制命令结构执行功能,播放通知语音;
所述根据所述控制命令结构执行功能包括:
对所述控制命令结构中的所述第一关键词进行反替换得到所述终端能够执行的控制命令,并执行所述控制命令。
11.根据权利要求10所述的终端,其中,在记录第一关键词文本和第二关键词文本的对应关系步骤中,所述处理器执行所述若干指令使所述终端至少执行如下步骤:
当用户将第一关键词文本修改为第二关键词文本的操作,记录所述第一关键词文本和所述第二关键词文本的对应关系。
12.根据权利要求11所述的终端,其中,在记录第一关键词文本和第二关键词文本的对应关系的步骤中,所述处理器执行所述若干指令使所述终端至少执行如下步骤:
从第二服务器获取并记录第一关键词文本和第二关键词文本的对应关系。
13.根据权利要求10所述的终端,其中,在保存所述第一关键词文本和所述第二关键词文本的对应关系的步骤中,所述处理器执行所述若干指令使所述终端至少执行如下步骤:
将所述第一关键词文本和所述第二关键词文本及其对应关系记录在词汇列表中。
14.根据权利要求13所述的终端,在将所述第一关键词文本和所述第二关键词文本及其对应关系记录在词汇列表中,所述处理器执行所述若干指令使所述终端至少执行如下步骤:
根据所述第一关键词文本不同的类型,将所述第一关键词文本和所述第二关键词文本及其对应关系记录在不同的词汇列表中。
15.根据权利要求10至14中任一项所述的终端,其中,在所述第一服务器返回解析失败时,获取所述第一服务器返回的解析文本,根据所述对应关系将所述解析文本中的所述第二关键词替换为所述第一关键词后发送给所述第一服务器的步骤中,所述处理器执行所述若干指令使所述终端至少执行如下步骤:
将词汇列表中的所述第二关键词文本与所述解析文本进行匹配;
将所述解析文本中匹配到的所述第二关键词替换为对应的所述第一关键词后发送给第一服务器。
16.根据权利要求10至14中任一项所述的终端,其中,根据所述控制命令结构执行功能,并播放通知语音的步骤中,所述处理器执行所述若干指令使所述终端至少执行如下步骤:
将所述控制命令结构中所述第一关键词文本替换为所对应的所述第二关键词文本;
根据替换后的所述控制命令结构,生成可执行的控制命令,并执行所述控制命令;
根据替换后的所述控制命令结构,生成通知语音,并播放所述通知语音。
17.根据权利要求16所述的终端,其中,在将所述解析文本中匹配到的所述第二关键词替换为对应的所述第一关键词的步骤后,所述处理器执行所述若干指令使所述终端至少执行如下步骤:
记录所述第二关键词和对应的所述第一关键词的替换记录;
将所述控制命令结构中所述第一关键词文本替换为所对应的所述第二关键词文本包括:
根据所述替换记录将所述控制命令结构中所述第一关键词文本替换为所对应的所述第二关键词文本。
18.根据权利要求10至14中任一项所述的终端,其中,所述处理器还执行所述若干指令使所述终端至少执行如下步骤:
在将所述用户输入的语音发送给第一服务器进行语义解析和逻辑解析时,将所述第一关键词文本和第二关键词文本的对应关系发送给所述第一服务器。
19.一种实现语音控制的终端,其中,包括记录单元,第一发送单元、替换单元和执行单元;
所述记录单元用于记录第一关键词文本和第二关键词文本的对应关系;
当用户输入的语音:
所述第一发送单元用于将所述用户输入的语音发送给第一服务器进行语义解析和逻辑解析;
所述替换单元用于在所述第一服务器返回解析失败时,获取所述第一服务器返回的解析文本,根据所述对应关系将所述解析文本中的所述第二关键词替换为所述第一关键词后发送给所述第一服务器;
所述执行单元用于接收所述第一服务器逻辑解析成功后所返回的控制命令结构,并根据所述控制命令结构执行功能,播放通知语音;
所述根据所述控制命令结构执行功能包括:
对所述控制命令结构中的所述第一关键词进行反替换得到所述终端能够执行的控制命令,并执行所述控制命令。
20.根据权利要求19所述的终端,其中,所述记录单元包括:
第一记录子单元,用于当用户将第一关键词文本修改为第二关键词文本的操作,记录所述第一关键词文本和所述第二关键词文本的对应关系。
21.根据权利要求19所述的终端,其中,所述记录单元包括:
第二记录子单元,用于从第二服务器获取并记录第一关键词文本和第二关键词文本的对应关系。
22.根据权利要求19所述的终端,其中,所述记录单元还包括:
第三记录子单元,用于将所述第一关键词文本和所述第二关键词文本及其对应关系记录在词汇列表中。
23.根据权利要求22所述的终端,所述第三记录子单元用于:
根据所述第一关键词文本不同的类型,将所述第一关键词文本和所述第二关键词文本及其对应关系记录在不同的词汇列表中。
24.根据权利要求22或23所述的终端,其中,所述替换单元包括:
匹配子单元,用于将所述词汇列表中的所述第二关键词文本与所述解析文本进行匹配;
替换子单元,用于将所述解析文本中匹配到的所述第二关键词替换为对应的所述第一关键词后发送给第一服务器。
25.根据权利要求19至23中任一项所述的终端,其中,所述执行单元包括:
再替换子单元,用于将所述控制命令结构中所述第一关键词文本替换为所对应的所述第二关键词文本;
执行子单元,用于根据替换后的所述控制命令结构,生成可执行的控制命令,并执行所述控制命令;
语音生成子单元,用于根据替换后的所述控制命令结构,生成通知语音,并播放所述通知语音。
26.根据权利要求25所述的终端,其中,所述替换单元还包括:
替换记录子单元,用于在所述解析文本中匹配到的所述第二关键词替换为对应的所述第一关键词后,记录所述第二关键词和对应的所述第一关键词的替换记录;
所述再替换子单元用于根据所述替换记录将所述控制命令结构中所述第一关键词文本替换为所对应的所述第二关键词文本。
27.根据权利要求19至23中任一项所述的终端,其中,还包括:
第二发送单元,用于将所述用户输入的语音发送给第一服务器进行语义解析和逻辑解析时,将所述第一关键词文本和第二关键词文本的对应关系发送给所述第一服务器。
28.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1至9中任意一项所述的方法。
CN201780084159.8A 2017-01-20 2017-06-13 一种实现语音控制的方法和终端 Active CN110235087B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN2017100518137 2017-01-20
CN201710051813 2017-01-20
PCT/CN2017/088150 WO2018133307A1 (zh) 2017-01-20 2017-06-13 一种实现语音控制的方法和终端

Publications (2)

Publication Number Publication Date
CN110235087A CN110235087A (zh) 2019-09-13
CN110235087B true CN110235087B (zh) 2021-06-08

Family

ID=62907588

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780084159.8A Active CN110235087B (zh) 2017-01-20 2017-06-13 一种实现语音控制的方法和终端

Country Status (4)

Country Link
US (1) US11238860B2 (zh)
EP (1) EP3561643B1 (zh)
CN (1) CN110235087B (zh)
WO (1) WO2018133307A1 (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018133307A1 (zh) * 2017-01-20 2018-07-26 华为技术有限公司 一种实现语音控制的方法和终端
US11276395B1 (en) * 2017-03-10 2022-03-15 Amazon Technologies, Inc. Voice-based parameter assignment for voice-capturing devices
EP4354041A3 (en) * 2017-07-14 2024-05-01 Daikin Industries, Ltd. Information providing system
CN107507615A (zh) * 2017-08-29 2017-12-22 百度在线网络技术(北京)有限公司 界面智能交互控制方法、装置、系统及存储介质
JP7065314B2 (ja) * 2018-02-14 2022-05-12 パナソニックIpマネジメント株式会社 制御システム、及び、制御方法
CN111312253A (zh) * 2018-12-11 2020-06-19 青岛海尔洗衣机有限公司 语音控制方法、云端服务器及终端设备
CN110223694B (zh) * 2019-06-26 2021-10-15 百度在线网络技术(北京)有限公司 语音处理方法、系统和装置
WO2021051403A1 (zh) * 2019-09-20 2021-03-25 深圳市汇顶科技股份有限公司 一种语音控制方法、装置、芯片、耳机及系统
CN111696557A (zh) * 2020-06-23 2020-09-22 深圳壹账通智能科技有限公司 语音识别结果的校准方法、装置、设备及存储介质
CN112202870A (zh) * 2020-09-27 2021-01-08 上汽通用五菱汽车股份有限公司 语音交互方法、车载无屏设备、服务器及存储介质
CN112581952A (zh) * 2020-11-09 2021-03-30 金茂智慧科技(广州)有限公司 一种在线与离线语音结合的智能设备控制方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1632932A1 (en) * 2003-06-02 2006-03-08 International Business Machines Corporation Voice response system, voice response method, voice server, voice file processing method, program and recording medium
CN103730116A (zh) * 2014-01-07 2014-04-16 苏州思必驰信息科技有限公司 在智能手表上实现智能家居设备控制的系统及其方法
CN104318924A (zh) * 2014-11-12 2015-01-28 沈阳美行科技有限公司 一种实现语音识别功能的方法
CN105916090A (zh) * 2016-05-31 2016-08-31 成都九十度工业产品设计有限公司 一种基于智能化语音识别技术的助听器系统

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0426347D0 (en) 2004-12-01 2005-01-05 Ibm Methods, apparatus and computer programs for automatic speech recognition
US9318108B2 (en) * 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US10276170B2 (en) * 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US9305553B2 (en) * 2010-04-28 2016-04-05 William S. Meisel Speech recognition accuracy improvement through speaker categories
IL220411A0 (en) * 2012-06-14 2012-10-31 Haim Nachum Markovitz Information presentation system and method
US9786294B1 (en) * 2012-07-30 2017-10-10 Amazon Technologies, Inc. Visual indication of an operational state
CN103021403A (zh) 2012-12-31 2013-04-03 威盛电子股份有限公司 基于语音识别的选择方法及其移动终端装置及信息系统
US20150081663A1 (en) * 2013-09-18 2015-03-19 First Principles, Inc. System and method for active search environment
WO2015100107A1 (en) * 2013-12-26 2015-07-02 Kopin Corporation User configurable speech commands
US9514743B2 (en) * 2014-08-29 2016-12-06 Google Inc. Query rewrite corrections
US9836452B2 (en) * 2014-12-30 2017-12-05 Microsoft Technology Licensing, Llc Discriminating ambiguous expressions to enhance user experience
US10691473B2 (en) * 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US9484030B1 (en) * 2015-12-02 2016-11-01 Amazon Technologies, Inc. Audio triggered commands
CN105488032A (zh) 2015-12-31 2016-04-13 杭州智蚁科技有限公司 一种语音识别输入的控制方法及系统
CN106057199B (zh) * 2016-05-31 2019-10-15 广东美的制冷设备有限公司 控制方法、控制装置和终端
US9875740B1 (en) * 2016-06-20 2018-01-23 A9.Com, Inc. Using voice information to influence importance of search result categories
US10074369B2 (en) * 2016-09-01 2018-09-11 Amazon Technologies, Inc. Voice-based communications
US10474753B2 (en) * 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
WO2018133307A1 (zh) * 2017-01-20 2018-07-26 华为技术有限公司 一种实现语音控制的方法和终端
US10467509B2 (en) * 2017-02-14 2019-11-05 Microsoft Technology Licensing, Llc Computationally-efficient human-identifying smart assistant computer
KR102401377B1 (ko) * 2017-06-07 2022-05-24 현대자동차주식회사 대화형 음성인식을 이용한 지리정보 검색 방법 및 장치
US11076039B2 (en) * 2018-06-03 2021-07-27 Apple Inc. Accelerated task performance
US10839159B2 (en) * 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11194796B2 (en) * 2019-02-14 2021-12-07 Microsoft Technology Licensing, Llc Intuitive voice search

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1632932A1 (en) * 2003-06-02 2006-03-08 International Business Machines Corporation Voice response system, voice response method, voice server, voice file processing method, program and recording medium
CN103730116A (zh) * 2014-01-07 2014-04-16 苏州思必驰信息科技有限公司 在智能手表上实现智能家居设备控制的系统及其方法
CN104318924A (zh) * 2014-11-12 2015-01-28 沈阳美行科技有限公司 一种实现语音识别功能的方法
CN105916090A (zh) * 2016-05-31 2016-08-31 成都九十度工业产品设计有限公司 一种基于智能化语音识别技术的助听器系统

Also Published As

Publication number Publication date
WO2018133307A1 (zh) 2018-07-26
US11238860B2 (en) 2022-02-01
EP3561643A4 (en) 2020-01-22
CN110235087A (zh) 2019-09-13
US20200175980A1 (en) 2020-06-04
EP3561643B1 (en) 2023-07-19
EP3561643A1 (en) 2019-10-30

Similar Documents

Publication Publication Date Title
CN110235087B (zh) 一种实现语音控制的方法和终端
US11664027B2 (en) Method of providing voice command and electronic device supporting the same
CN105634881B (zh) 应用场景推荐方法及装置
US9807218B2 (en) Method for filtering spam in electronic device and the electronic device
US11031011B2 (en) Electronic device and method for determining electronic device to perform speech recognition
US11647108B2 (en) Service processing method and apparatus
US9967744B2 (en) Method for providing personal assistant service and electronic device thereof
CN103501382B (zh) 语音服务提供方法、装置和终端
EP3777115B1 (en) Electronic device supporting personalized device connection and method thereof
WO2021204098A1 (zh) 语音交互方法及电子设备
CN107544271A (zh) 终端控制方法、装置及计算机可读存储介质
CN112230877A (zh) 一种语音操作方法、装置、存储介质及电子设备
CN116686257A (zh) 用于提供用户界面的方法及其电子装置
US20160004784A1 (en) Method of providing relevant information and electronic device adapted to the same
CN112700770A (zh) 语音控制方法、音箱设备、计算设备和存储介质
US9392540B2 (en) Method for reducing power consumption and electronic device thereof
US20230127543A1 (en) Method of identifying target device based on utterance and electronic device therefor
US11756575B2 (en) Electronic device and method for speech recognition processing of electronic device
CN116564311B (zh) 设备控制方法、装置、电子设备及可读存储介质
CN118160332A (zh) 与外部电子装置通信的电子装置及其操作方法
KR20230175069A (ko) 전자 장치 및 오프라인 장치 등록 방법
CN113870868A (zh) 交互方法、装置及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant