CN111986658A - 离线终端进行语音识别训练的方法及装置 - Google Patents
离线终端进行语音识别训练的方法及装置 Download PDFInfo
- Publication number
- CN111986658A CN111986658A CN201910436198.0A CN201910436198A CN111986658A CN 111986658 A CN111986658 A CN 111986658A CN 201910436198 A CN201910436198 A CN 201910436198A CN 111986658 A CN111986658 A CN 111986658A
- Authority
- CN
- China
- Prior art keywords
- voice
- line terminal
- terminal
- training
- corpus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 89
- 238000000034 method Methods 0.000 title claims abstract description 19
- 238000004891 communication Methods 0.000 claims description 35
- 230000005236 sound signal Effects 0.000 claims description 19
- 230000005540 biological transmission Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/80—Services using short range communication, e.g. near-field communication [NFC], radio-frequency identification [RFID] or low energy communication
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W52/00—Power management, e.g. TPC [Transmission Power Control], power saving or power classes
- H04W52/02—Power saving arrangements
- H04W52/0209—Power saving arrangements in terminal devices
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0638—Interactive procedures
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Abstract
本发明实施例提供一种离线终端进行语音识别训练的方法,包括如下步骤:建立所述离线终端与智能设备的无线连接;所述离线终端进行语料采集,将采集到的所述语料通过所述无线连接传输到所述智能设备;所述离线终端接收所述智能设备发送的根据所述语料进行训练生成的语音模型库文件。本发明实施例还相应提供一种用于离线终端进行语音识别训练的装置。本发明可以使得离线产品通过智能设备联网后进行终端客户的语音训练。
Description
技术领域
本申请涉及音频技术领域,具体涉及一种离线终端进行语音识别训练的方法及装置。
背景技术
随着语音人机交互界面的出现,越来越多的产品需要智能语音的交互。目前在线的智能语音产品较多,但是在线语音产品有着反应有延时,保密性,系统成本高等问题。市场上也存在一些离线语音产品,需要在产品设计时候就进行大量的语音采集进行训练来达到语音识别的覆盖率。但即使是这样,仍然有不能覆盖全部人的声音,而且存在方言的人群的训练问题也无法得以解决,这样就导致离线产品在语音识别上难以识别很多语音。
发明内容
有鉴于此,本发明实施例的主要目的在于提供一种离线终端进行语音识别训练的方法,可以使得离线产品通过其他设备联网后进行终端客户的语音训练。
本发明实施例是这样实现的,一种离线终端进行语音识别训练的方法包括如下步骤:建立所述离线终端与智能设备的无线连接;所述离线终端进行语料采集,将采集到的所述语料通过所述无线连接传输到所述智能设备;所述离线终端接收所述智能设备发送的根据所述语料进行训练生成的语音模型库文件。
进一步地,
在用户启动所述离线终端和/或距所述离线终端上一次采集到声音信号T1时长后,当所述离线终端采集到声音信号,且所述声音信号无法被所述离线终端识别,则所述离线终端语音提示用户启动语音识别训练;或者,
在用户启动所述离线终端和/或距所述离线终端上一次采集到声音信号T1时长后,当所述离线终端采集到声音信号强度大于预设阈值的声音信号,且所述声音信号无法被所述离线终端识别,则所述离线终端语音提示用户启动语音识别训练。
进一步地,所述无线连接包括蓝牙连接或蓝牙低功耗连接。
进一步地,所述离线终端进行语料采集包括:
所述智能设备或所述离线终端发出语音引导,引导用户说出语料命令词;
重复上述步骤,对相同命令词语料至少采集2次。
进一步地,所述根据所述语料进行训练生成的语音模型库文件包括:
在所述智能设备本地进行语料训练生成的语音模型库文件;或
所述智能设备将所述语料通过网络上传到云端服务器进行语料训练生成的语音模型库文件。
进一步地,所述方法进一步包括:
将所述语音模型库文件保存在所述智能设备或云端数据库中;
判断所述离线终端采集到新的语料与所述智能终端或所述云端数据库中存储的语音模型库文件匹配度;当所述匹配度高于预设值时,将匹配度最高的语音模型库文件发送给所述离线终端。
根据本发明实施例的另一方面,本发明实施例还提供一种用于离线终端进行语音识别训练的装置,可以使得离线产品通过设备联网后进行终端客户的语音训练。
本发明实施例是这样实现的,一种用于离线终端进行语音识别训练的装置,包括离线终端和智能设备;所述离线终端进一步包括语音采集装置和第一通信装置;所述第一通信装置与所述智能设备通过无线连接;所述语音采集装置用于语料采集,并通过所述第一通信装置将所述语料传输到所述智能设备;
所述智能设备包括第二通信装置,所述第二通信装置用于接收所述语料,还用于将语音训练装置根据所述语料进行训练生成的语音模型库文件传输给所述第一通讯装置。
进一步地,所述语音训练装置属于所述智能设备或云端服务器;
当所述语音训练装置属于所述云端服务器时,所述智能设备还包括网络装置,用于发送所述语料给云端服务器和接收所述云端服务器发送的所述语音模型库文件。
进一步地,所述离线终端还包括提醒装置,用于在用户启动所述离线终端和/或距所述离线终端上一次采集到声音信号T1时长后,当所述离线终端采集到声音信号,且所述声音信号无法被所述离线终端识别,则所述离线终端语音提示用户启动语音识别训练;或者,
所述离线终端还包括提醒装置,用于在用户启动所述离线终端和/或距所述离线终端上一次采集到声音信号T1时长后,当所述离线终端采集到声音信号强度大于预设阈值的声音信号,且所述声音信号无法被所述离线终端识别,则所述离线终端语音提示用户启动语音识别训练;或者,
所述用于离线终端进行语音识别训练装置还包括:匹配装置,用于判断所述离线终端采集到新的语料与所述智能终端或所述云端数据库中存储的语音模型库文件匹配度;当所述匹配度高于预设值时,通过所述第二通信装置将匹配度最高的语音模型库文件发送给所述离线终端。
进一步地,所述第一通信装置为蓝牙连接装置或蓝牙低功耗连接装置。
根据上述技术方案,本发明实施例具有如下效果:这种方式既解决了使用时候的离线的需求,也针对于使用者进行针对性的训练,解决了部分人员使用统一语音训练库识别率低的情况。利用手机等智能设备的处理能力,以及云端服务器的训练能力,把设备上离线的语音识别控制装置升级,实现了在线训练和升级,离线使用的场景。这样更好的适配使用者的场景和环境。同时解决了出厂训练工作量大,和方言难于训练的问题。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1示出了本申请提供的离线终端进行语音识别训练的方法流程图;
图2示出了本申请提供的用于离线终端进行语音识别训练的装置的电路框图;
图3示出了本申请提供的用于离线终端进行语音识别训练的装置的另一实施例的电路框图
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请,以下实施例中的步骤顺序仅为例举,在不冲突的情况下可以调整。
如图1所示,本发明实施例提供的一种离线终端进行语音识别训练的方法包括如下步骤:
S101,建立所述离线终端与智能设备的无线连接;
S102,所述离线终端进行语料采集,将采集到的所述语料通过所述无线连接传输到所述智能设备;
S103,所述离线终端接收所述智能设备发送的根据所述语料进行训练生成的语音模型库文件。
具体来说,离线终端具有两个使用场景,一种是正常使用的场景,另一种是进入语音训练模式的场景。离线终端一般指不具有网络功能的终端产品,例如蓝牙音箱、普通空调、冰箱、蓝牙灯等产品,这类产品的特点是不具有高性能处理器,但是一般具有基本的短距离无线连接功能,例如蓝牙连接功能或蓝牙低功耗BLE连接功能,下面的实施例以BLE为例说明,这些具有语音功能的离线终端在进入语音训练模式时,首先建立起与外部智能设备的无线连接,一般来说,智能设备一般选用具有较强运算和处理能力并且具备网络功能的设备,例如我们常用的智能手机、平板电脑、智能机顶盒等设备,下面实施例以手机为例进行介绍。例如通过BLE先建立离线终端和手机蓝牙连接的数据通路,第二步,离线终端进行语料采集,将采集到的语料通过蓝牙连接传输到手机;第三步,手机进入训练阶段,调用本地的训练算法库,根据刚才采集的命令词的语料,在手机本地进行语料训练,生成针对这个用户的语音模型库文件,并将生成的语音模型库文件发回给离线终端。本领域技术人可以理解,上述步骤的顺序在不冲突的情况下是不限定的,例如可以先采集语料,再进行无线连接。
本发明实施例还提供另外一实施例,离线终端在进入语音训练模式时,首先通过BLE先建立离线终端和手机蓝牙BLE连接的数据通路;第二步,离线终端进行语料采集,将采集到的语料通过蓝牙BLE连接传输到手机,手机进而将所述语料通过网络上传到云端服务器;第三步,云端服务器进入训练阶段,调用云端更为丰富的训练算法库,根据采集的命令词的语料,进行训练,在云端生成针对这个用户的语音模型库文件,并将生成的语音模型库文件发回给手机,手机进而通过BLE将生成的语音模型库文件发送给离线终端。
需要说明的是,本实施例中获得的语音模型库文件可以保存在离线终端中,最终用于所述离线终端的语音识别,通过该语音模型库文件离线终端可以对采集到的命令词进行识别,从而根据识别结果对离线终端进行命令操控,实现语音控制。
本发明实施例还提供另外一实施例,在进行语料采集时,智能设备或离线终端发出语音引导,引导用户说出语料命令词;重复上述步骤,对相同命令词语料至少采集2次。具体来说,离线终端在进入语音训练模式时,当与手机进行连接后,手机apk或离线终端通过语音引导的方式,指引用户“在听到滴的一声后重复命令词”。用户说出命令词的时候,语音采集装置将采集到的语音命令语料编码成适宜BLE传输的音频文件格式,例如opus格式,然后通过BLE传回手机,编码后会可以使得语料数据更小,特别是对于一些带宽不够的设备,传输更为快捷,当然,语料采集后进行简单的模数转换后不进一步压缩编码就传输给手机也是可以的。如此采集相同命令词的采集进行至少两次,采集的次数越多就可以使得命令词识别成功的概率更高。再进行其他的命令词的语料采集,直到采集完全部命令词的语料。
在客户训练语音的同时,手机apk可以将采集到的语料保存在云端数据库或手机本地,用大量的用户数据,提升这个产品的语音的模型库的精准程度和适配性。随着用户使用的增多,可以持续优化训练模型。同时可采集具有某种方言的语料,来训练方言的识别库,可以让用户在手机apk定期选择更新不断改进的方言语音识别库。这样可以更好的提升产品的体验,和不同人的语音的适配性。
本发明实施例还提供另外一实施例,在用户启动所述离线终端和/或距所述离线终端上一次采集到声音信号T1时长后,当所述离线终端采集到声音信号,且所述声音信号无法被所述离线终端识别,则所述离线终端语音提示用户启动语音识别训练;或者,在用户启动所述离线终端和/或距所述离线终端上一次采集到声音信号T1时长后,当所述离线终端采集到声音信号强度大于预设阈值的声音信号,且所述声音信号无法被所述离线终端识别,则所述离线终端语音提示用户启动语音识别训练。例如,用户启动蓝牙音箱后,采集到一段语音,但是蓝牙音箱无法识别,那么蓝牙音箱即可启动提醒程序,提醒用户是否要启动语音识别训练。又例如,距离上一次采集到声音信号T1时间后才采集到新的声音信号,且该新的声音信号无法识别时,很有可能是新用户在使用,因此做出提醒,可以方便新用户使用,其中,上述时间T1可以根据需要进行预设,也可以用户自定义。优选地,为了进一步提升用户体验,可以对所述声音信号的信号强度(例如分贝值)进行筛选,当高于预设阈值时认为对离线终端说话的可能性高,而低于预设阈值可能是其他话音或者背景音,所述预设阈值可根据上述目的设置。
本发明实施例还提供另外一实施例,将所述语音模型库文件保存在所述智能设备或云端数据库中;判断所述离线终端采集到新的语料与所述智能终端或所述云端数据库中存储的语音模型库文件匹配度;当所述匹配度高于预设值时,将匹配度最高的语音模型库文件发送给所述离线终端。
该实施方式可以将每次生成的语音模型库文件保存在手机或云端服务器上,当离线终端进入一次新的语料识别过程中时,判断所述离线终端采集到新的语料与所述智能终端或所述云端数据库中存储的语音模型库文件匹配度;当所述匹配度高于预设值时,将匹配度最高的语音模型库文件发送给所述离线终端。这样就可以避免重复训练,也可以使得在在新的语料获取时,快速的使用已经生成的语音模型库文件。当所述匹配度低于预设值(该预设值可以根据用户实际需求进行设置)时,即进入生成语音模型库文件的流程当中。该实施方式对于在云端服务器生成语音模型库文件的方案,还可以节省网络传输成本。
根据本发明实施例的另一方面,本发明实施例还提供一种用于离线终端进行语音识别训练的装置,包括离线终端和智能设备;所述离线终端进一步包括语音采集装置和第一通信装置;
所述第一通信装置与所述智能设备通过无线连接;所述语音采集装置用于语料采集,并通过所述第一通信装置将所述语料传输到所述智能设备;所述智能设备包括第二通信装置,所述第二通信装置用于接收所述语料,还用于将语音训练装置根据所述语料进行训练生成的语音模型库文件传输给所述第一通讯装置。
本发明实施例还提供另外一实施例,所述语音训练装置属于所述智能设备或云端服务器;
当所述语音训练装置属于所述云端服务器时,所述智能设备还包括网络装置,用于发送所述语料给云端服务器和接收所述云端服务器发送的所述语音模型库文件。
当所述语音训练装置属于所述智能设备时,如图2所示,为本发明实施例用于离线终端进行语音识别训练的装置的一种电路结构图,包括离线终端和智能设备;所述离线终端包括语音采集装置和第一通信装置;所述智能设备包括语音训练装置和第二通信装置;语音采集装置与第一通信装置相连;所述第一通信装置与所述智能设备通过无线连接;所述语音采集装置用于语料采集,并通过所述第一通信装置将所述语料传输到所述智能设备的第二通讯装置;所述语音训练装置用于根据所述语料进行训练生成语音模型库文件,并通过所述第二通信装置将所述语音模型库文件发送给所述离线终端的第一通信装置。进一步地,所述离线终端还包括语音识别装置和控制装置,语音识别装置用于根据第一通信装置接收的语音模型库文件对采集的语音进行语音识别,该控制装置根据语音识别装置识别到的语音命令,对离线终端进行控制。通过前述实施例的介绍,上述第一通信装置或第二通信装置为蓝牙连接装置或蓝牙低功耗连接装置。
当所述语音训练装置属于所述云端服务器时,如图3所示,所述云端服务器通过网络与所述智能设备的网络装置连接,所述云端服务器对智能设备发送来的语料进行语料训练,并生成语音模型库文件。云端服务器收到采集的语料后进入训练阶段,可以调用云端更为丰富的训练算法库,根据采集的命令词的语料进行训练,在云端生成针对这个用户的语音模型库文件,并将生成的语音模型库文件发回给手机,手机进而通过BLE将生成的语音模型库文件发送给离线终端。
本发明实施例还提供另一实施例,所述离线终端还包括提醒装置(如图2或图3),用于在用户启动所述离线终端和/或距所述离线终端上一次采集到声音信号T1时长后,当所述离线终端采集到声音信号,且所述声音信号无法被所述离线终端识别,则所述离线终端语音提示用户启动语音识别训练;或者,所述离线终端还包括提醒装置,用于在用户启动所述离线终端和/或距所述离线终端上一次采集到声音信号T1时长后,当所述离线终端采集到声音信号强度大于预设阈值的声音信号,且所述声音信号无法被所述离线终端识别,则所述离线终端语音提示用户启动语音识别训练;或者,
所述用于离线终端进行语音识别训练装置还包括:匹配装置,用于判断所述离线终端采集到新的语料与所述智能终端或所述云端数据库中存储的语音模型库文件匹配度;当所述匹配度高于预设值时,通过所述第二通信装置将匹配度最高的语音模型库文件发送给所述离线终端。
例如,用户启动蓝牙音箱后,采集到一段语音,但是蓝牙音箱无法识别,那么蓝牙音箱即可启动提醒程序,提醒用户是否要启动语音识别训练。
所述匹配装置,可以在采集到新的语料时先从现有的语音模型库文件中进行匹配,如果有合适的则不用再生成新的模型库文件,如果没有符合要求的则生成新的语音模型库文件,如果能够在智能设备上找到匹配的模型库文件,对于需要在云端生成模型库文件的情况还可以节省网络成本。
本发明实施例还提供另一实施例,在上述实施例的基础上,离线终端还包括编码装置,编码装置连接在语音采集装置和第一通信装置之间,语音采集装置将采集到的语音命令语料通过编码装置编码成ble传输的音频文件格式,例如opus格式,然后通过BLE传回手机,编码后会可以使得语料数据更小,传输更为快捷。
需要说明的是,本发明中的所有实施例中的所述离线终端与智能设备的无线连接都可以是蓝牙连接,特别是BLE低功耗蓝牙连接。本发明通过蓝牙实现离线终端的语音识别训练,能满足用户的离线使用,又方便不同用户使用离线终端时的快速语音训练,还节省了离线终端产品的软硬件成本,从而既能节约成本又能满足用户需求。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (10)
1.一种离线终端进行语音识别训练的方法,其特征在于,包括如下步骤:
建立所述离线终端与智能设备的无线连接;
所述离线终端进行语料采集,将采集到的所述语料通过所述无线连接传输到所述智能设备;
所述离线终端接收所述智能设备发送的根据所述语料进行训练生成的语音模型库文件。
2.根据权利要求1所述的离线终端进行语音识别训练的方法,其特征在于,
在用户启动所述离线终端和/或距所述离线终端上一次采集到声音信号T1时长后,当所述离线终端采集到声音信号,且所述声音信号无法被所述离线终端识别,则所述离线终端语音提示用户启动语音识别训练;或者,
在用户启动所述离线终端和/或距所述离线终端上一次采集到声音信号T1时长后,当所述离线终端采集到声音信号强度大于预设阈值的声音信号,且所述声音信号无法被所述离线终端识别,则所述离线终端语音提示用户启动语音识别训练。
3.根据权利要求1或2所述的离线终端进行语音识别训练的方法,其特征在于,所述无线连接包括蓝牙连接或蓝牙低功耗连接。
4.根据权利要求1或2所述的离线终端进行语音识别训练的方法,其特征在于,
所述离线终端进行语料采集包括:
所述智能设备或所述离线终端发出语音引导,引导用户说出语料命令词;
重复上述步骤,对相同命令词语料至少采集2次。
5.根据权利要求1或2所述的离线终端进行语音识别训练的方法,其特征在于,所述根据所述语料进行训练生成的语音模型库文件包括:
在所述智能设备本地进行语料训练生成的语音模型库文件;或
所述智能设备将所述语料通过网络上传到云端服务器进行语料训练生成的语音模型库文件。
6.根据权利要求1所述的离线终端进行语音识别训练的方法,其特征在于,所述方法进一步包括:
将所述语音模型库文件保存在所述智能设备或云端数据库中;
判断所述离线终端采集到新的语料与所述智能终端或所述云端数据库中存储的语音模型库文件匹配度;当所述匹配度高于预设值时,将匹配度最高的语音模型库文件发送给所述离线终端。
7.一种用于离线终端进行语音识别训练的装置,其特征在于,包括离线终端和智能设备;所述离线终端进一步包括语音采集装置和第一通信装置;
所述第一通信装置与所述智能设备通过无线连接;所述语音采集装置用于语料采集,并通过所述第一通信装置将所述语料传输到所述智能设备;所述智能设备包括第二通信装置,所述第二通信装置用于接收所述语料,还用于将语音训练装置根据所述语料进行训练生成的语音模型库文件传输给所述第一通讯装置。
8.根据权利要求7所述的用于离线终端进行语音识别训练的装置,其特征在于,
所述语音训练装置属于所述智能设备或云端服务器;
当所述语音训练装置属于所述云端服务器时,所述智能设备还包括网络装置,用于发送所述语料给云端服务器和接收所述云端服务器发送的所述语音模型库文件。
9.根据权利要求7或8所述的用于离线终端进行语音识别训练装置,其特征在于,
所述离线终端还包括提醒装置,用于在用户启动所述离线终端和/或距所述离线终端上一次采集到声音信号T1时长后,当所述离线终端采集到声音信号,且所述声音信号无法被所述离线终端识别,则所述离线终端语音提示用户启动语音识别训练;或者,
所述离线终端还包括提醒装置,用于在用户启动所述离线终端和/或距所述离线终端上一次采集到声音信号T1时长后,当所述离线终端采集到声音信号强度大于预设阈值的声音信号,且所述声音信号无法被所述离线终端识别,则所述离线终端语音提示用户启动语音识别训练;或者,
所述用于离线终端进行语音识别训练装置还包括:匹配装置,用于判断所述离线终端采集到新的语料与所述智能终端或所述云端数据库中存储的语音模型库文件匹配度;当所述匹配度高于预设值时,通过所述第二通信装置将匹配度最高的语音模型库文件发送给所述离线终端。
10.根据权利要求7或8所述的用于离线终端进行语音识别训练装置,其特征在于,所述第一通信装置为蓝牙连接装置或蓝牙低功耗连接装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910436198.0A CN111986658A (zh) | 2019-05-23 | 2019-05-23 | 离线终端进行语音识别训练的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910436198.0A CN111986658A (zh) | 2019-05-23 | 2019-05-23 | 离线终端进行语音识别训练的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111986658A true CN111986658A (zh) | 2020-11-24 |
Family
ID=73436596
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910436198.0A Pending CN111986658A (zh) | 2019-05-23 | 2019-05-23 | 离线终端进行语音识别训练的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111986658A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104168353A (zh) * | 2013-07-30 | 2014-11-26 | 无锡中星微电子有限公司 | 蓝牙耳机及其语音交互控制方法 |
CN104601202A (zh) * | 2014-12-23 | 2015-05-06 | 惠州Tcl移动通信有限公司 | 基于蓝牙技术实现文件搜索的方法、终端及蓝牙设备 |
CN104978964A (zh) * | 2014-04-14 | 2015-10-14 | 美的集团股份有限公司 | 语音控制指令纠错方法和系统 |
CN105792050A (zh) * | 2016-04-20 | 2016-07-20 | 青岛歌尔声学科技有限公司 | 一种蓝牙耳机及基于该蓝牙耳机的通信方法 |
CN106997762A (zh) * | 2017-03-08 | 2017-08-01 | 广东美的制冷设备有限公司 | 家用电器的语音控制方法以及装置 |
-
2019
- 2019-05-23 CN CN201910436198.0A patent/CN111986658A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104168353A (zh) * | 2013-07-30 | 2014-11-26 | 无锡中星微电子有限公司 | 蓝牙耳机及其语音交互控制方法 |
CN104978964A (zh) * | 2014-04-14 | 2015-10-14 | 美的集团股份有限公司 | 语音控制指令纠错方法和系统 |
CN104601202A (zh) * | 2014-12-23 | 2015-05-06 | 惠州Tcl移动通信有限公司 | 基于蓝牙技术实现文件搜索的方法、终端及蓝牙设备 |
CN105792050A (zh) * | 2016-04-20 | 2016-07-20 | 青岛歌尔声学科技有限公司 | 一种蓝牙耳机及基于该蓝牙耳机的通信方法 |
CN106997762A (zh) * | 2017-03-08 | 2017-08-01 | 广东美的制冷设备有限公司 | 家用电器的语音控制方法以及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107623614B (zh) | 用于推送信息的方法和装置 | |
KR102284973B1 (ko) | 음성 정보를 처리하기 위한 방법 및 장치 | |
CN109584876B (zh) | 语音数据的处理方法、装置和语音空调 | |
EP3084633B1 (en) | Attribute-based audio channel arbitration | |
CN106653008B (zh) | 一种语音控制方法、装置及系统 | |
CN108962262B (zh) | 语音数据处理方法和装置 | |
WO2011048826A1 (ja) | 音声翻訳システム、制御装置、および制御方法 | |
CN107995360B (zh) | 通话处理方法及相关产品 | |
US7689424B2 (en) | Distributed speech recognition method | |
CN111341325A (zh) | 声纹识别方法、装置、存储介质、电子装置 | |
WO2016194740A1 (ja) | 音声認識装置、音声認識システム、当該音声認識システムで使用される端末、および、話者識別モデルを生成するための方法 | |
CN205508398U (zh) | 具有云端交互功能的智能机器人 | |
US9929709B1 (en) | Electronic device capable of adjusting output sound and method of adjusting output sound | |
CN111508491A (zh) | 一种基于深度学习的智能语音交互设备 | |
CN108932947B (zh) | 语音控制方法及家电设备 | |
CN108922522B (zh) | 设备的控制方法、装置、存储介质及电子装置 | |
CN111161742A (zh) | 一种定向人员沟通方法、系统、存储介质及智能语音设备 | |
CN111179903A (zh) | 一种语音识别方法、装置、存储介质及电器 | |
JP2003177790A (ja) | 端末装置、サーバ装置および音声認識方法 | |
CN111986658A (zh) | 离线终端进行语音识别训练的方法及装置 | |
CN111128127A (zh) | 一种语音识别处理方法及装置 | |
CN114999496A (zh) | 音频传输方法、控制设备及终端设备 | |
CN111028837B (zh) | 语音会话方法、语音识别系统及计算机存储介质 | |
CN113889116A (zh) | 语音信息的处理方法和装置、存储介质及电子装置 | |
CN112309396A (zh) | 一种ai虚拟机器人状态动态设置系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201124 |