CN114093365A - 实时更新语料库的方法、服务器、终端和系统 - Google Patents
实时更新语料库的方法、服务器、终端和系统 Download PDFInfo
- Publication number
- CN114093365A CN114093365A CN202111331890.0A CN202111331890A CN114093365A CN 114093365 A CN114093365 A CN 114093365A CN 202111331890 A CN202111331890 A CN 202111331890A CN 114093365 A CN114093365 A CN 114093365A
- Authority
- CN
- China
- Prior art keywords
- voice
- name list
- room
- voice recognition
- updated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000012549 training Methods 0.000 claims abstract description 70
- 230000009471 action Effects 0.000 claims description 21
- 238000012986 modification Methods 0.000 claims description 16
- 230000004048 modification Effects 0.000 claims description 16
- 230000000875 corresponding effect Effects 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 6
- 238000011161 development Methods 0.000 abstract description 12
- 238000012356 Product development Methods 0.000 abstract description 8
- 238000010586 diagram Methods 0.000 description 15
- 230000003993 interaction Effects 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 230000001276 controlling effect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000004378 air conditioning Methods 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Abstract
本申请提供了一种实时更新语料库的方法、服务器、终端和系统,涉及智能家电技术领域。本申请的方案创建初始不包括任何词条的房间名称词库和设备名称词库,在语音识别终端语音初始化后获取到房间名称列表和设备名称列表并上传至语音识别服务器后,再将房间名称列表和设备名称列表添加至房间名称词库和设备名称词库中,并基于添加形成的模型训练词库训练语音识别模型,避免了在产品开发阶段就固化了语料库,使用户能够根据自己的需求或喜好设置房间名称和设备名称,并确保包括自己设置的房间名称和设备名称的语音指令能够被语音识别模型识别,不仅能够满足用户的语音控制需求,而且不会限制产品的语音功能开发。
Description
技术领域
本发明涉及智能家电技术领域,特别涉及一种实时更新语料库的方法、服务器、终端和系统。
背景技术
随着智能技术和物联网技术的发展,分布式家居控制系统出现在人们的生活中。所谓分布式家居控制系统是指在系统内的任意一个终端设备上可以控制系统内其它任意房间内的任意设备。如果将语音技术应用到分布式家居控制系统中,例如当用户正在看电视时,却忘记关闭主卧空调时,他可以对着电视发出语音指令“关闭主卧空调”来关闭主卧空调,这样可以极大得方便人机交互和提升用户体验。
在分布式家居控制系统中用户有通过语音指令控制某个房间中的某个家电设备的需求,如打开主卧空调,当语音识别设备识别用户指令后需要通过语法分析获取到语音指令中的语义槽用以判断当前语音控制的是哪个房间中的哪个设备。语法分析中关键的一环是词库匹配,若语音指令中的房间名和设备名不存在于相应的词库中,则语法分析不能解析出语音指令的意图,不能判断出语音控制的是哪个房间、哪个设备。
然而,在目前的分布式家居控制系统中,语音指令在分布式控制系统开发阶段已被固定设置,用户只能按照产品定义的语音指令进行控制,如果用户发出的语音指令不在所设置的命令词范围之内,会导致语音指令不会被识别执行。由于不同用户家庭内的房间名和设备名是不同的,同时用户有自定义房间名称和设备名称的需求。通过预置命令词的方式不仅不能满足用户的语音控制需求,而且会导致产品项目的语音功能开发拓展受限。
发明内容
本发明提供了一种实时更新语料库的方法、服务器、终端和系统。本发明的技术方案如下:
第一方面,提供了一种实时更新语料库的方法,其包括:
创建初始词库,将所述初始词库映射到语义槽,使用所述语义槽编辑语音意图,所述初始词库包括动作词库、房间名称词库和设备名称词库,所述房间名称词库和设备名称词库为空;
接收语音识别终端发送的房间名称列表和设备名称列表,所述房间名称列表和所述设备名称列表为所述语音识别终端在语音初始化后获取的;
将所述房间名称列表和所述设备名称列表分别添加至所述房间名称词库和所述设备名称词库中,形成模型训练词库;
使用所述模型训练词库训练语音识别模型;
基于训练好的语音识别模型识别语音指令的语音意图。
可选地,所述将所述房间名称列表和所述设备名称列表分别添加至所述房间名称词库和所述设备名称词库中之后,还包括:
接收更新后的房间名称列表和/或更新后的设备名称列表;
将所述更新后的房间名称列表和/或所述更新后的设备名称列表分别更新至所述房间名称词库和所述设备名称词库中,得到更新的词库;
使用所述更新的词库训练所述语音识别模型。
可选地,所述基于训练好的语音识别模型识别语音指令的语音意图,包括:
通过训练好的语音识别模型匹配出语音指令中的文本信息;
通过语义理解和语法分析获取所述文本信息的语义槽,得到所述语音指令的语音意图;
根据所述训练词库中的词条从所述文本信息中提取关键字;
将所述语音意图和所述关键字发送至所述语音识别终端,使所述语音识别终端根据所述语音意图和所述关键字执行相应的动作。
第二方面,提供了一种实时更新语料库的方法,其包括:
当检测到语音初始化后,获取所在局域网中的房间名称列表和设备名称列表;
将所述房间名称列表和所述设备名称列表发送至语音识别服务器,使所述语音识别服务器将所述房间名称列表和所述设备名称列表分别添加至房间名称词库和设备名称词库中后与动作词库形成模型训练词库,并使用所述模型训练词库训练语音识别模型以及基于训练好的语音识别模型识别语音指令的语音意图。
可选地,所述将所述房间名称列表和所述设备名称列表发送至语音识别服务器之后,还包括:
获取语音指令;
将所述语音指令发送至所述语音识别服务器,使所述语音识别服务器基于训练好的语音识别模型识别所述语音指令的语音意图;
接收所述语音意图,并根据所述语音意图执行相应的动作。
可选地,所述将所述房间名称列表和所述设备名称列表发送至语音识别服务器之后,还包括:
实时获取更新后的房间名称列表和/或更新后的设备名称列表;
将所述更新后的房间名称列表和/或所述更新后的设备名称列表发送至所述语音识别服务器,使所述语音识别服务器将所述更新后的房间名称列表和/或所述更新后的设备名称列表分别更新至所述房间名称词库和所述设备名称词库中,得到更新的词库,并基于所述更新的词库训练所述语音识别模型。
可选地,所述实时获取更新后的房间名称列表和/或更新后的设备名称列表,包括:
当监测到房间名称修改指令或设备名称修改指令时,实时获取更新后的房间名称列表和/或更新后的设备名称列表;
或者,接收移动终端发送的更新后的房间名称列表和/或更新后的设备名称列表。
第三方面,提供了一种语音识别服务器,其包括:
创建单元,配置为:创建初始词库,将所述初始词库映射到语义槽,使用所述语义槽编辑语音意图,所述初始词库包括动作词库、房间名称词库和设备名称词库,所述房间名称词库和设备名称词库为空;
接收单元,配置为接收语音识别终端发送的房间名称列表和设备名称列表,所述房间名称列表和所述设备名称列表为所述语音识别终端在语音初始化后获取的;
词库添加单元,配置为将所述房间名称列表和所述设备名称列表分别添加至所述房间名称词库和所述设备名称词库中,形成模型训练词库;
模型训练单元,配置为使用所述模型训练词库训练语音识别模型;
语音识别单元,配置为基于训练好的语音识别模型识别语音指令的语音意图。
可选地,所述接收单元还配置为:接收更新后的房间名称列表和/或更新后的设备名称列表;
所述词库添加单元还配置为:将所述更新后的房间名称列表和/或所述更新后的设备名称列表分别更新至所述房间名称词库和所述设备名称词库中,得到更新的词库;
所述模型训练单元还配置为:使用所述更新的词库训练所述语音识别模型。
可选地,所述语音识别单元包括:
匹配模块,配置为通过训练好的语音识别模型匹配出语音指令中的文本信息;
获取模块,配置为通过语义理解和语法分析获取所述文本信息的语义槽,得到所述语音指令的语音意图;
提取模块,配置为根据所述训练词库中的词条从所述文本信息中提取关键字;
发送模块,配置为将所述语音意图和所述关键字发送至所述语音识别终端,使所述语音识别终端根据所述语音意图和所述关键字执行相应的动作。
第四方面,提供了一种语音识别终端,其包括:
第一获取单元,配置为当检测到语音初始化后,获取所在局域网中的房间名称列表和设备名称列表;
第一发送单元,配置为将所述房间名称列表和所述设备名称列表发送至语音识别服务器,使所述语音识别服务器将所述房间名称列表和所述设备名称列表分别添加至房间名称词库和设备名称词库中后与动作词库形成模型训练词库,并使用所述模型训练词库训练语音识别模型以及基于训练好的语音识别模型识别语音指令的语音意图。
可选地,所述语音识别终端还包括:
第二获取单元,配置为获取语音指令;
第二发送单元,配置为将所述语音指令发送至所述语音识别服务器,使所述语音识别服务器基于训练好的语音识别模型识别所述语音指令的语音意图;
执行单元,配置为接收所述语音意图,并根据所述语音意图执行相应的动作。
可选地,所述语音识别终端还包括:
第三获取单元,配置为实时获取更新后的房间名称列表和/或更新后的设备名称列表;
第三发送单元,配置为将所述更新后的房间名称列表和/或所述更新后的设备名称列表发送至所述语音识别服务器,使所述语音识别服务器将所述更新后的房间名称列表和/或所述更新后的设备名称列表分别更新至所述房间名称词库和所述设备名称词库中,得到更新的词库,并基于所述更新的词库训练所述语音识别模型。
可选地,所述第三获取单元配置为:当监测到房间名称修改指令或设备名称修改指令时,实时获取更新后的房间名称列表和/或更新后的设备名称列表;或者,接收移动终端发送的更新后的房间名称列表和/或更新后的设备名称列表。
第五方面,提供了一种实时更新语料库的系统,其包括语音识别服务器和至少两个语音识别终端;
所述语音识别服务器配置为执行上述第一方面所述的方法;
所述语音识别终端配置为执行上述第二方面所述的方法。
根据说明书实施例提供的方法、服务器和终端,通过语音识别服务器创建初始不包括任何词条的房间名称词库和设备名称词库,在语音识别终端语音初始化后获取到房间名称列表和设备名称列表并上传至语音识别服务器后,语音识别服务器再将房间名称列表和设备名称列表添加至房间名称词库和设备名称词库中,并基于添加形成的模型训练词库训练语音识别模型,避免了在产品开发阶段就固化了语料库,使用户能够根据自己的需求或喜好设置房间名称和设备名称,并确保包括自己设置的房间名称和设备名称的语音指令能够被语音识别模型识别,不仅能够满足用户的语音控制需求,而且不会限制产品的语音功能开发。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的实时更新语料库的方法的应用环境示意图。
图2是本发明一个实施例提供的实时更新语料库的方法流程图。
图3是本发明实施例中初始词库的示意图。
图4是本发明实施例中初始词库、语义槽和语音意图之间的关系示意图。
图5是将房间名称列表和设备名称列表分别添加至初始词库的示意图。
图6是本发明一个实施例提供的实时更新语料库的方法流程图。
图7是本发明一个实施例提供的实时更新语料库的方法流程图。
图8是本发明一个实施例提供的语音识别的流程图。
图9是本发明一个实施例提供的语音识别服务器的框图。
图10是本发明一个实施例提供的语音识别终端的框图。
图11是本发明一个实施例提供的实时更新语料库的系统组成示意图。
具体实施方式
如图1所示,其为本发明实施例提供的实时更新语料库的方法的实施环境示意图,该实施环境包括语音识别服务器10和若干个语音识别终端20。语音识别服务器10和若干个语音识别终端20通过无线网络连接,该无线网络可以为WiFi,也可以为移动网络等。语音识别服务器10可以为台式电脑、平板电脑、PC集群等。语音识别终端20可以为任何具有语音识别功能的设备,如智能电视、智能冰箱、智能洗衣机、智能空调或智能手机等。若干个语音识别终端20位于同一局域网中。
结合图1所示的实施环境示意图,本发明实施例提供了一种实时更新语料库的方法,本发明实施例以语音识别服务器10执行本发明实施例提供的方法为例,对本发明实施例提供的方法进行详细说明。如图2所示,该方法可以包括以下步骤:
步骤201、创建初始词库,将初始词库映射到语义槽,使用语义槽编辑语音意图,初始词库包括动作词库、房间名称词库和设备名称词库,房间名称词库和设备名称词库为空。
其中,词库是同类词条的集合,比如一个家庭内所有房间名称可以看作为一个名为“room”的词库。语义槽是词库的映射,其是预先定义的一个关键字的集合,用来创建语音意图以增强说法的扩展能力。语义槽和词库总是一起使用,一个语义槽只能绑定一个词库。room的词库映射到Room的语义槽,device的词库映射到Device的语义槽。例如,语音意图“打开主卧空调”,语义槽就是Room和Device,取值分别为主卧和空调。语音意图是语音指令的作用,是运用语义槽+关键字按一定的规则组合而成,例如“打开主卧空调”的语音指令可表示为#Action##Room##Device#。
由于不同用户家庭里的房间名称和设备名称以及它们的数量可能不一样,因此,本发明实施例创建的初始词库中房间名称词库和设备名称词库为空。如图3所示,其为本发明实施例中初始词库的示意图。分布式家居控制系统在开发阶段,在语音识别服务器上创建初始词库,包括动作词库:action,房间名称词库:room,设备名称词库:device。其中,动作词库中已编辑插入有“打开”、“关闭”等词条,房间名称词库和设备名称词库中不用插入任何词条。
结合上述举例,在将初始词库映射到语义槽时,具体为action->Action,room->Room,device->Device。使用语义槽编辑语音意图为#Action##Room##Device#。如图4所示详细阐述了初始词库、语义槽和语音意图三者间的关系。语义槽通过对初始词库的绑定和调用,在语音识别和语义分析阶段对语音指令进行重要信息的提取,从而判断用户语音指令的语音意图。
步骤203、接收语音识别终端发送的房间名称列表和设备名称列表,房间名称列表和设备名称列表为语音识别终端在语音初始化后获取的。
具体地,语音识别终端在语音初始化完成后,获取家庭内房间名称列表和设备名称列表,通过http协议将房间名称列表和设备名称列表上传到语音识别服务器。需要特别注意的是,语音识别服务器为了分辨词库来源,语音识别终端在上传词库时要将其唯一标识(mac或sn)作为参数一起上传。
步骤205、将房间名称列表和设备名称列表分别添加至房间名称词库和设备名称词库中,形成模型训练词库。
结合上述举例,如图5所示,语音识别服务器将房间名称列表添加到房间名称词库中,将设备名称列表添加到设备名称词库中。
步骤207、使用模型训练词库训练语音识别模型。
其中,语音识别模型是描述语音指令特征的集合。一个语音指令在识别时,通过语音识别模型匹配出识别结果,如识别出语音指令中的文字信息等。语音识别模型可以为卷积神经网络(CNN)模型,优选为卷积神经网络和连接性时序分类(CTC)的组合模型,使得通过训练好的语音识别模型识别语音指令的准确性比较高。具体训练方式,本发明实施例不作详细阐述,具体可参见现有技术中的相关训练算法。训练完成后语音识别服务器便能识别处理用户相应的语音指令。
步骤209、基于训练好的语音识别模型识别语音指令的语音意图。
本发明实施例提供的方法,通过创建初始不包括任何词条的房间名称词库和设备名称词库,在语音识别终端语音初始化后获取到房间名称列表和设备名称列表并上传至语音识别服务器后,再将房间名称列表和设备名称列表添加至房间名称词库和设备名称词库中,并基于添加形成的模型训练词库训练语音识别模型,避免了在产品开发阶段就固化了语料库,使用户能够根据自己的需求或喜好设置房间名称和设备名称,并确保包括自己设置的房间名称和设备名称的语音指令能够被语音识别模型识别,不仅能够满足用户的语音控制需求,而且不会限制产品的语音功能开发。
进一步地,由于用户可能有更改房间名称和/或数量的需求,也有更改设备名称和/或数量的需求,当房间名称或设备名称中的任一个发生修改或者增删时,模型训练词库中的相关词条即会发生变化,为了能够确保更新房间名称或设备名称后,仍然可以通过语音识别终端进行语音识别和控制,本发明实施例提供的方法在上述实施例的基础上,还可以进一步包括:接收更新后的房间名称列表和/或更新后的设备名称列表;将更新后的房间名称列表和/或更新后的设备名称列表分别更新至房间名称词库和设备名称词库中,得到更新的词库;使用更新的词库训练语音识别模型。通过该种方式,可以确保语音识别模型是基于最新的词库训练得到的,确保用户在修改设备或房间名称后,语音识别服务器依旧能够识别用户指令,确保依旧可以通过语音识别终端进行语音识别和控制。
更进一步地,步骤209语音识别服务器在基于训练好的语音识别模型识别语音指令的语音意图时,可以通过如下步骤来实现:
步骤2091、通过训练好的语音识别模型匹配出语音指令中的文本信息。
步骤2093、通过语义理解和语法分析获取文本信息的语义槽,得到语音指令的语音意图。
步骤2095、根据训练词库中的词条从文本信息中提取关键字。
步骤2097、将语音意图和关键字发送至语音识别终端,使语音识别终端根据语音意图和关键字执行相应的动作。
具体地,语音识别服务器可以通过json组装发送给语音识别终端完成解析和控制。
例如,当语音指令为“将主卧空调温度调至25℃”时,
通过语音识别模型匹配出的文本信息为:将主卧空调温度调至25℃”;
语义槽为:room(主卧)、device(空调)、temp(25);
语音意图为:设置空调温度;
关键字可看作json类型如下:
{
“room”:”主卧”,
“device”:”空调”,
“temp”:”25”
}
结合图1所示的实施环境示意图,本发明实施例提供了一种实时更新语料库的方法,本发明实施例以语音识别终端20执行本发明实施例提供的方法为例,对本发明实施例提供的方法进行详细说明。如图6所示,该方法可以包括以下步骤:
步骤601、当检测到语音初始化后,获取所在局域网中的房间名称列表和设备名称列表。
具体地,当用户操作语音识别终端进行语音初始化后,语音识别终端显示房间名称添加提示和设备名称添加提示,用户可以提示可以自定义房间名称和设备名称,并将房间名称和设备名称添加至房间名称列表和设备名称列表中。
步骤602、将房间名称列表和设备名称列表发送至语音识别服务器,使语音识别服务器将房间名称列表和设备名称列表分别添加至房间名称词库和设备名称词库中后与动作词库形成模型训练词库,并使用模型训练词库训练语音识别模型以及基于训练好的语音识别模型识别语音指令的语音意图。
具体地,可以通过http协议将房间名称列表和设备名称列表发送至语音识别服务器。
本发明实施例提供的方法,通过语音识别服务器创建初始不包括任何词条的房间名称词库和设备名称词库,在语音识别终端语音初始化后获取到房间名称列表和设备名称列表并上传至语音识别服务器后,语音识别服务器再将房间名称列表和设备名称列表添加至房间名称词库和设备名称词库中,并基于添加形成的模型训练词库训练语音识别模型,避免了在产品开发阶段就固化了语料库,使用户能够根据自己的需求或喜好设置房间名称和设备名称,并确保包括自己设置的房间名称和设备名称的语音指令能够被语音识别模型识别,不仅能够满足用户的语音控制需求,而且不会限制产品的语音功能开发。
可选地,由于用户可能有根据需要更新房间名称和/或设备名称的需求,当房间名称和/或设备名称更新后,为了确保用户依旧能够语音识别终端进行语音控制,在将房间名称列表和设备名称列表发送至语音识别服务器之后,还可以包括:实时获取更新后的房间名称列表和/或更新后的设备名称列表;将更新后的房间名称列表和/或更新后的设备名称列表发送至语音识别服务器,使语音识别服务器将更新后的房间名称列表和/或更新后的设备名称列表分别更新至房间名称词库和设备名称词库中,得到更新的词库,并基于更新的词库训练语音识别模型。
通过实时获取更新后的房间名称列表和/或更新后的设备名称列表,并实时发送至语音识别服务器,可以确保语音识别服务器基于最新的房间名称列表和设备名称列表训练语音识别模型,确保当房间名称和/或设备名称更新后,依然能够识别用户的语音指令。
具体地,实时获取更新后的房间名称列表和/或更新后的设备名称列表的方式,包括但不限于有如下两种:
第一种方式:房间名称和/或设备名称的修改在语音识别终端本地进行。在该种方式下,当监测到房间名称修改指令和/或设备名称修改指令时,实时获取更新后的房间名称列表和/或更新后的设备名称列表。其中,监测到房间名称修改指令或设备名称修改指令的方式可以为监测到预设指令,如当监测到双击房间名称和/或设备名称的操作时,确定监测到房间名称修改指令和/或设备名称修改指令。
第二种方式:接收移动终端发送的更新后的房间名称列表和/或更新后的设备名称列表。该种方式修改房间名称和/或设备名称的操作在移动终端进行,移动终端获取到更新后的房间名称列表和/或更新后的设备名称列表后,发送至语音识别终端。例如,用户可以通过手机APP新建或删除家庭内的房间名称列表,绑定和解绑家庭内的设备名称列表,修改家庭内的房间名称或设备名称等,并在修改完成以后将更新后的房间名称列表和/或更新后的设备名称列表发送至语音识别终端。
进一步地,语音识别终端在将房间名称列表和设备名称列表发送至语音识别服务器之后,语音识别服务器训练好语音识别模型后,语音识别终端即可识别用户指令并根据用户指执行相关动作。该过程的具体实现方式包括如下步骤:获取语音指令;将语音指令发送至语音识别服务器,使语音识别服务器基于训练好的语音识别模型识别语音指令的语音意图;接收语音识别服务器发送的语音意图,并根据语音意图执行相应的动作。其中,在获取语音指令时,可以通过其麦克风实时采集语音指令。在发送语音指令时,可以通过mqtt协议实现。
结合图1所示的实施环境示意图,本发明实施例提供了一种实时更新语料库的方法,本发明实施例以语音识别服务器10和语音识别终端20交互执行本发明实施例提供的方法为例,对本发明实施例提供的方法进行详细说明。如图7所示,该方法可以包括以下步骤:
步骤701,语音识别服务器创建初始词库,将初始词库映射到语义槽,使用语义槽编辑语音意图,初始词库包括动作词库、房间名称词库和设备名称词库,房间名称词库和设备名称词库为空。
步骤703,当检测到语音初始化后,语音识别终端获取所在局域网中的房间名称列表和设备名称列表。
步骤705,语音识别终端将房间名称列表和设备名称列表发送至语音识别服务器。
步骤707,语音识别服务器将房间名称列表和设备名称列表分别添加至房间名称词库和设备名称词库中,形成模型训练词库。
步骤709,语音识别服务器使用模型训练词库训练语音识别模型。
步骤711、语音识别服务器基于训练好的语音识别模型识别语音指令的语音意图。
本发明实施例提供的方法,通过语音识别服务器创建初始不包括任何词条的房间名称词库和设备名称词库,在语音识别终端语音初始化后获取到房间名称列表和设备名称列表并上传至语音识别服务器后,语音识别服务器再将房间名称列表和设备名称列表添加至房间名称词库和设备名称词库中,并基于添加形成的模型训练词库训练语音识别模型,避免了在产品开发阶段就固化了语料库,使用户能够根据自己的需求或喜好设置房间名称和设备名称,并确保包括自己设置的房间名称和设备名称的语音指令能够被语音识别模型识别,不仅能够满足用户的语音控制需求,而且不会限制产品的语音功能开发。
进一步地,本发明实施例提供的方法还可以包括如下步骤:
步骤713、语音识别终端实时获取更新后的房间名称列表和/或更新后的设备名称列表。
步骤715、语音识别终端将更新后的房间名称列表和/或更新后的设备名称列表发送至语音识别服务器。
步骤717、将更新后的房间名称列表和/或更新后的设备名称列表分别更新至房间名称词库和设备名称词库中,得到更新的词库。
步骤719、使用更新的词库训练语音识别模型。
本发明实施例提供的方法,通过语音识别终端实时监听更新后的房间名称列表和/或更新后的设备名称列表,并在监听到房间名称和设备名称的变动更新后将更新后数据上传到语音识别服务器的词库中并进行语音模型的训练,使得训练完成后语音识别终端能够识别用户相关控制指令,实现了语音识别语料库的实时更新,从而能够提高语音识别率,丰富语音功能,保证用户语音指令的有效性,提升用户语音交互体验。
在上述实施例的基础上,当用户需要通过语音识别终端进行语音控制时,可以通过如下步骤来实现:
步骤801、语音识别终端获取语音指令。
步骤803、语音识别终端将语音指令发送至语音识别服务器。
步骤805、语音识别服务器通过训练好的语音识别模型匹配出语音指令中的文本信息。
步骤807、语音识别服务器通过语义理解和语法分析获取文本信息的语义槽,得到语音指令的语音意图。
步骤809、语音识别服务器根据训练词库中的词条从文本信息中提取关键字。
步骤811、语音识别服务器将语音意图和关键字发送至语音识别终端。
步骤813、语音识别终端根据语音意图和关键字执行相应的动作。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本发明实施例提供了一种语音识别服务器,图9示出根据一个实施例的该语音识别服务器的示意性框图。可以理解,该语音识别服务器可以为任何具有计算、处理能力的装置、设备、平台或设备集群。如图9所示,该语音识别服务器包括:
创建单元901,配置为创建初始词库,将初始词库映射到语义槽,使用语义槽编辑语音意图,初始词库包括动作词库、房间名称词库和设备名称词库,房间名称词库和设备名称词库为空;
接收单元903,配置为接收语音识别终端发送的房间名称列表和设备名称列表,房间名称列表和设备名称列表为语音识别终端在语音初始化后获取的;
词库添加单元905,配置为将房间名称列表和设备名称列表分别添加至房间名称词库和设备名称词库中,形成模型训练词库;
模型训练单元907,配置为使用模型训练词库训练语音识别模型;
语音识别单元909,配置为基于训练好的语音识别模型识别语音指令的语音意图。
可选地,接收单元903还配置为:接收更新后的房间名称列表和/或更新后的设备名称列表;
词库添加单元905还配置为:将更新后的房间名称列表和/或更新后的设备名称列表分别更新至房间名称词库和设备名称词库中,得到更新的词库;
模型训练单元907还配置为:使用更新的词库训练语音识别模型。
可选地,语音识别单元909包括:
匹配模块,配置为通过训练好的语音识别模型匹配出语音指令中的文本信息;
获取模块,配置为通过语义理解和语法分析获取文本信息的语义槽,得到语音指令的语音意图;
提取模块,配置为根据训练词库中的词条从文本信息中提取关键字;
发送模块,配置为将语音意图和关键字发送至语音识别终端,使语音识别终端根据语音意图和关键字执行相应的动作。
本发明实施例提供的语音识别服务器,通过创建初始不包括任何词条的房间名称词库和设备名称词库,在语音识别终端语音初始化后获取到房间名称列表和设备名称列表并上传至语音识别服务器后,再将房间名称列表和设备名称列表添加至房间名称词库和设备名称词库中,并基于添加形成的模型训练词库训练语音识别模型,避免了在产品开发阶段就固化了语料库,使用户能够根据自己的需求或喜好设置房间名称和设备名称,并确保包括自己设置的房间名称和设备名称的语音指令能够被语音识别模型识别,不仅能够满足用户的语音控制需求,而且不会限制产品的语音功能开发。
可以理解的是,本发明实施例示意的结构并不构成对语音识别服务器的具体限定。在本发明的另一些实施例中,语音识别服务器可以包括比图示更多或者更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件、软件或者软件和硬件的组合来实现。
上述语音识别服务器内的各单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
本发明实施例提供了一种语音识别终端,图10示出根据一个实施例的该语音识别终端的示意性框图。可以理解,该语音识别终端可以为任何具有计算、处理能力的装置、设备、平台或设备集群。如图10所示,该语音识别终端包括:
第一获取单元1001,配置为当检测到语音初始化后,获取所在局域网中的房间名称列表和设备名称列表;
第一发送单元1003,配置为将房间名称列表和设备名称列表发送至语音识别服务器,使语音识别服务器将房间名称列表和设备名称列表分别添加至房间名称词库和设备名称词库中后与动作词库形成模型训练词库,并使用模型训练词库训练语音识别模型以及基于训练好的语音识别模型识别语音指令的语音意图。
可选地,语音识别终端还包括:
第二获取单元,配置为获取语音指令;
第二发送单元,配置为将语音指令发送至语音识别服务器,使语音识别服务器基于训练好的语音识别模型识别语音指令的语音意图;
执行单元,配置为接收语音意图,并根据语音意图执行相应的动作。
可选地,语音识别终端还包括还包括:
第三获取单元,配置为实时获取更新后的房间名称列表和/或更新后的设备名称列表;
第三发送单元,配置为将更新后的房间名称列表和/或更新后的设备名称列表发送至语音识别服务器,使语音识别服务器将更新后的房间名称列表和/或更新后的设备名称列表分别更新至房间名称词库和设备名称词库中,得到更新的词库,并基于更新的词库训练语音识别模型。
可选地,第三获取单元配置为:当监测到房间名称修改指令或设备名称修改指令时,实时获取更新后的房间名称列表和/或更新后的设备名称列表;或者,接收移动终端发送的更新后的房间名称列表和/或更新后的设备名称列表。
本发明实施例提供的语音识别终端,通过语音识别服务器创建初始不包括任何词条的房间名称词库和设备名称词库,在语音识别终端语音初始化后获取到房间名称列表和设备名称列表并上传至语音识别服务器后,语音识别服务器再将房间名称列表和设备名称列表添加至房间名称词库和设备名称词库中,并基于添加形成的模型训练词库训练语音识别模型,避免了在产品开发阶段就固化了语料库,使用户能够根据自己的需求或喜好设置房间名称和设备名称,并确保包括自己设置的房间名称和设备名称的语音指令能够被语音识别模型识别,不仅能够满足用户的语音控制需求,而且不会限制产品的语音功能开发。通过实时监听更新后的房间名称列表和/或更新后的设备名称列表,并在监听到房间名称和设备名称的变动更新后将更新后数据上传到语音识别服务器的词库中并进行语音模型的训练,使得训练完成后语音识别终端能够识别用户相关控制指令,实现了语音识别语料库的实时更新,从而能够提高语音识别率,丰富语音功能,保证用户语音指令的有效性,提升用户语音交互体验。
可以理解的是,本发明实施例示意的结构并不构成对语音识别终端的具体限定。在本发明的另一些实施例中,语音识别终端可以包括比图示更多或者更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件、软件或者软件和硬件的组合来实现。
上述语音识别终端内的各单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
如图11所示,本发明实施例还提供了一种实时更新语料库的系统,其包括语音识别服务器1101和至少两个语音识别终端1103;所述语音识别服务器1101配置为执行上述实施例中语音服务器所配置的功能;所述语音识别终端1103配置为执行上述执行上述实施例中语音识别服务器所配置的功能。关于语音识别服务器和语音识别终端配置的功能的具体实现方式已在上述实施例中进行了详细阐述,此处不再赘述。
本发明实施例提供的系统,通过语音识别服务器创建初始不包括任何词条的房间名称词库和设备名称词库,在语音识别终端语音初始化后获取到房间名称列表和设备名称列表并上传至语音识别服务器后,语音识别服务器再将房间名称列表和设备名称列表添加至房间名称词库和设备名称词库中,并基于添加形成的模型训练词库训练语音识别模型,避免了在产品开发阶段就固化了语料库,使用户能够根据自己的需求或喜好设置房间名称和设备名称,并确保包括自己设置的房间名称和设备名称的语音指令能够被语音识别模型识别,不仅能够满足用户的语音控制需求,而且不会限制产品的语音功能开发。语音识别终端通过实时监听更新后的房间名称列表和/或更新后的设备名称列表,并在监听到房间名称和设备名称的变动更新后将更新后数据上传到语音识别服务器的词库中并进行语音模型的训练,使得训练完成后语音识别终端能够识别用户相关控制指令,实现了语音识别语料库的实时更新,从而能够提高语音识别率,丰富语音功能,保证用户语音指令的有效性,提升用户语音交互体验。
需要说明的是,上述各流程和各系统结构图中不是所有的步骤和模块都是必须的,可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的,可以根据需要进行调整。上述各实施例中描述的系统结构可以是物理结构,也可以是逻辑结构,即,有些模块可能由同一物理实体实现,或者,有些模块可能分由多个物理实体实现,或者,可以由多个独立设备中的某些部件共同实现。
以上各实施例中,硬件单元可以通过机械方式或电气方式实现。例如,一个硬件单元可以包括永久性专用的电路或逻辑(如专门的处理器,FPGA或ASIC)来完成相应操作。硬件单元还可以包括可编程逻辑或电路(如通用处理器或其它可编程处理器),可以由软件进行临时的设置以完成相应操作。具体的实现方式(机械方式、或专用的永久性电路、或者临时设置的电路)可以基于成本和时间上的考虑来确定。
上文通过附图和优选实施例对本发明进行了详细展示和说明,然而本发明不限于这些已揭示的实施例,基与上述多个实施例本领域技术人员可以知晓,可以组合上述不同实施例中的代码审核手段得到本发明更多的实施例,这些实施例也在本发明的保护范围之内。
Claims (10)
1.一种实时更新语料库的方法,其特征在于,包括:
创建初始词库,将所述初始词库映射到语义槽,使用所述语义槽编辑语音意图,所述初始词库包括动作词库、房间名称词库和设备名称词库,所述房间名称词库和设备名称词库为空;
接收语音识别终端发送的房间名称列表和设备名称列表,所述房间名称列表和所述设备名称列表为所述语音识别终端在语音初始化后获取的;
将所述房间名称列表和所述设备名称列表分别添加至所述房间名称词库和所述设备名称词库中,形成模型训练词库;
使用所述模型训练词库训练语音识别模型;
基于训练好的语音识别模型识别语音指令的语音意图。
2.根据权利要求1所述的方法,其特征在于,所述将所述房间名称列表和所述设备名称列表分别添加至所述房间名称词库和所述设备名称词库中之后,还包括:
接收更新后的房间名称列表和/或更新后的设备名称列表;
将所述更新后的房间名称列表和/或所述更新后的设备名称列表分别更新至所述房间名称词库和所述设备名称词库中,得到更新的词库;
使用所述更新的词库训练所述语音识别模型。
3.根据权利要求1或2所述的方法,其特征在于,所述基于训练好的语音识别模型识别语音指令的语音意图,包括:
通过训练好的语音识别模型匹配出语音指令中的文本信息;
通过语义理解和语法分析获取所述文本信息的语义槽,得到所述语音指令的语音意图;
根据所述训练词库中的词条从所述文本信息中提取关键字;
将所述语音意图和所述关键字发送至所述语音识别终端,使所述语音识别终端根据所述语音意图和所述关键字执行相应的动作。
4.一种实时更新语料库的方法,其特征在于,包括:
当检测到语音初始化后,获取所在局域网中的房间名称列表和设备名称列表;
将所述房间名称列表和所述设备名称列表发送至语音识别服务器,使所述语音识别服务器将所述房间名称列表和所述设备名称列表分别添加至房间名称词库和设备名称词库中后与动作词库形成模型训练词库,并使用所述模型训练词库训练语音识别模型以及基于训练好的语音识别模型识别语音指令的语音意图。
5.根据权利要求4所述的方法,其特征在于,所述将所述房间名称列表和所述设备名称列表发送至语音识别服务器之后,还包括:
获取语音指令;
将所述语音指令发送至所述语音识别服务器,使所述语音识别服务器基于训练好的语音识别模型识别所述语音指令的语音意图;
接收所述语音意图,并根据所述语音意图执行相应的动作。
6.根据权利要求4所述的方法,其特征在于,所述将所述房间名称列表和所述设备名称列表发送至语音识别服务器之后,还包括:
实时获取更新后的房间名称列表和/或更新后的设备名称列表;
将所述更新后的房间名称列表和/或所述更新后的设备名称列表发送至所述语音识别服务器,使所述语音识别服务器将所述更新后的房间名称列表和/或所述更新后的设备名称列表分别更新至所述房间名称词库和所述设备名称词库中,得到更新的词库,并基于所述更新的词库训练所述语音识别模型。
7.根据权利要求6所述的方法,其特征在于,所述实时获取更新后的房间名称列表和/或更新后的设备名称列表,包括:
当监测到房间名称修改指令或设备名称修改指令时,实时获取更新后的房间名称列表和/或更新后的设备名称列表;
或者,接收移动终端发送的更新后的房间名称列表和/或更新后的设备名称列表。
8.一种语音识别服务器,其特征在于,包括:
创建单元,配置为:创建初始词库,将所述初始词库映射到语义槽,使用所述语义槽编辑语音意图,所述初始词库包括动作词库、房间名称词库和设备名称词库,所述房间名称词库和设备名称词库为空;
接收单元,配置为接收语音识别终端发送的房间名称列表和设备名称列表,所述房间名称列表和所述设备名称列表为所述语音识别终端在语音初始化后获取的;
词库添加单元,配置为将所述房间名称列表和所述设备名称列表分别添加至所述房间名称词库和所述设备名称词库中,形成模型训练词库;
模型训练单元,配置为使用所述模型训练词库训练语音识别模型;
语音识别单元,配置为基于训练好的语音识别模型识别语音指令的语音意图。
9.一种语音识别终端,其特征在于,包括:
第一获取单元,配置为当检测到语音初始化后,获取所在局域网中的房间名称列表和设备名称列表;
第一发送单元,配置为将所述房间名称列表和所述设备名称列表发送至语音识别服务器,使所述语音识别服务器将所述房间名称列表和所述设备名称列表分别添加至房间名称词库和设备名称词库中后与动作词库形成模型训练词库,并使用所述模型训练词库训练语音识别模型以及基于训练好的语音识别模型识别语音指令的语音意图。
10.一种实时更新语料库的系统,其特征在于,包括语音识别服务器和至少两个语音识别终端;
所述语音识别服务器配置为执行权利要求1至3中任一权利要求所述的方法;
所述语音识别终端配置为执行权利要求4至7中任一权利要求所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111331890.0A CN114093365A (zh) | 2021-11-11 | 2021-11-11 | 实时更新语料库的方法、服务器、终端和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111331890.0A CN114093365A (zh) | 2021-11-11 | 2021-11-11 | 实时更新语料库的方法、服务器、终端和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114093365A true CN114093365A (zh) | 2022-02-25 |
Family
ID=80299804
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111331890.0A Pending CN114093365A (zh) | 2021-11-11 | 2021-11-11 | 实时更新语料库的方法、服务器、终端和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114093365A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103680498A (zh) * | 2012-09-26 | 2014-03-26 | 华为技术有限公司 | 一种语音识别方法和设备 |
CN107885089A (zh) * | 2017-11-06 | 2018-04-06 | 四川长虹电器股份有限公司 | 基于自定义语音指令库的智慧家居语音操控方法 |
CN108710310A (zh) * | 2018-06-05 | 2018-10-26 | 南京邮电大学 | 一种适用于智能家居的模糊指令交互方法 |
CN109754795A (zh) * | 2017-11-08 | 2019-05-14 | 哈曼国际工业有限公司 | 接近感知语音代理 |
CN109885835A (zh) * | 2019-02-19 | 2019-06-14 | 广东小天才科技有限公司 | 一种获取用户语料中词语之间的关联关系的方法和系统 |
US20210343272A1 (en) * | 2020-04-29 | 2021-11-04 | Ali Corporation | Semantic recognition method and semantic recognition device |
-
2021
- 2021-11-11 CN CN202111331890.0A patent/CN114093365A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103680498A (zh) * | 2012-09-26 | 2014-03-26 | 华为技术有限公司 | 一种语音识别方法和设备 |
CN107885089A (zh) * | 2017-11-06 | 2018-04-06 | 四川长虹电器股份有限公司 | 基于自定义语音指令库的智慧家居语音操控方法 |
CN109754795A (zh) * | 2017-11-08 | 2019-05-14 | 哈曼国际工业有限公司 | 接近感知语音代理 |
CN108710310A (zh) * | 2018-06-05 | 2018-10-26 | 南京邮电大学 | 一种适用于智能家居的模糊指令交互方法 |
CN109885835A (zh) * | 2019-02-19 | 2019-06-14 | 广东小天才科技有限公司 | 一种获取用户语料中词语之间的关联关系的方法和系统 |
US20210343272A1 (en) * | 2020-04-29 | 2021-11-04 | Ali Corporation | Semantic recognition method and semantic recognition device |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107370649B (zh) | 家电控制方法、系统、控制终端、及存储介质 | |
CN106101789B (zh) | 终端的语音交互方法及装置 | |
CN108831469B (zh) | 语音命令定制方法、装置和设备及计算机存储介质 | |
CN105847099B (zh) | 基于人工智能的物联网实现系统和方法 | |
CN112074898A (zh) | 用于意图推理的上下文无关文法的机器生成 | |
CN107667318A (zh) | 用于系统控制的对话界面技术 | |
CN102196207A (zh) | 语音控制电视机的方法、装置和系统 | |
CN111462741B (zh) | 语音数据处理方法、装置及存储介质 | |
CN110992937B (zh) | 语言离线识别方法、终端及可读存储介质 | |
CN106328124A (zh) | 一种基于用户行为特征的语音识别方法 | |
CN102830915A (zh) | 语义输入控制系统及其方法 | |
CN113921004A (zh) | 智能设备控制方法、装置、存储介质和电子设备 | |
CN105141998A (zh) | 一种基于dlna的智能电视语音遥控器控制方法及系统 | |
CN113611306A (zh) | 基于用户习惯的智能家居语音控制方法、系统及存储介质 | |
CN113056066B (zh) | 基于电视节目的灯光调节方法、设备、系统及存储介质 | |
CN110782897B (zh) | 一种基于自然语义编码的语音终端通信方法及系统 | |
CN110531632B (zh) | 控制方法及系统 | |
CN114299939A (zh) | 一种智能设备、智能家居的语音控制设备及控制方法 | |
CN114093365A (zh) | 实时更新语料库的方法、服务器、终端和系统 | |
CN109976169B (zh) | 基于自学习技术的互联网电视智能控制方法及控制系统 | |
CN113127729A (zh) | 家居方案的推荐方法、装置、电子设备及存储介质 | |
CN112700770A (zh) | 语音控制方法、音箱设备、计算设备和存储介质 | |
KR20060102601A (ko) | 로봇 컨텐츠 제공 서비스 시스템 및 그 방법 | |
CN111128177B (zh) | 一种语音控制命令词动态加载系统及方法 | |
CN113314115B (zh) | 终端设备的语音处理方法、终端设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220225 |
|
RJ01 | Rejection of invention patent application after publication |