CN111627431B - 语音识别方法、装置、终端及存储介质 - Google Patents
语音识别方法、装置、终端及存储介质 Download PDFInfo
- Publication number
- CN111627431B CN111627431B CN202010405131.3A CN202010405131A CN111627431B CN 111627431 B CN111627431 B CN 111627431B CN 202010405131 A CN202010405131 A CN 202010405131A CN 111627431 B CN111627431 B CN 111627431B
- Authority
- CN
- China
- Prior art keywords
- recognition
- voice data
- preset
- voice
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000004891 communication Methods 0.000 claims abstract description 20
- 238000012545 processing Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 description 8
- 230000006855 networking Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 241001672694 Citrus reticulata Species 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 239000000523 sample Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Telephone Function (AREA)
Abstract
本申请公开了一种语音识别方法、装置、终端和计算机可读存储介质,语音识别方法通过获取移动终端接收到的语音数据和所述移动终端的属性信息,其中,所述移动终端和网络服务器通信连接;将所述语音数据和所述属性信息发送至预设语音识别模型;基于所述语音数据、所述属性信息和所述预设语音识别模型,确定所述语音数据的识别时间,其中,所述识别时间为识别所述语音数据需要的时间;基于所述识别时间和预设时间阈值,判断是否将所述语音数据发送至所述网络服务器进行识别,实现了根据识别时间和预设时间阈值的关系确定是否由网络服务器进行语音识别,从而减少了网络服务器的工作压力和对网络资源的占据,并且节约了移动终端的流量。
Description
技术领域
本申请涉及语音识别技术领域,尤其涉及一种语音识别方法、装置、终端及计算机可读存储介质。
背景技术
在联网的情况下,当移动终端检测到声音信号时,会将检测到的声音信号发送到网络服务器(云端)进行识别,之后,移动终端便会根据所识别出的声音信号执行相应的操作,例如,当用户输入“拨打XX的手机”的语音时,网络服务器(云端)便可以对用户输入的“拨打XX的手机”的语音信息进行识别,并在正确识别后,从移动终端中获取XX的手机号码的信息,并拨打。即在联网情况下,移动终端语音识别是通过网络服务器完成的。由此可见,在联网的情况下语音识别占据大量网络资源,同时会给网络服务器带来较大的工作压力,并且会耗费移动终端较多流量。
发明内容
本申请的主要目的在于提供一种语音识别方法、装置、终端及计算机存储介质,旨在解决现有技术中在联网的情况下,语音识别占据大量网络资源的技术问题。
为实现上述目的,本申请实施例提供一种语音识别方法,所述语音识别方法的步骤包括:
获取移动终端接收到的语音数据和所述移动终端的属性信息,其中,所述移动终端和网络服务器通信连接;
将所述语音数据和所述属性信息发送至预设语音识别模型;
基于所述语音数据、所述属性信息和所述预设语音识别模型,确定所述语音数据的识别时间,其中,所述识别时间为识别所述语音数据需要的时间;
基于所述识别时间和预设时间阈值,判断是否将所述语音数据发送至所述网络服务器进行识别。
可选地,所述基于所述语音数据、所述属性信息和所述预设语音识别模型,确定所述语音数据的识别时间的步骤包括:
获取所述语音数据和所述预设语音识别模型的第一相似度信息;
获取所述属性信息和所述预设语音识别模型的第二相似度信息;
基于所述第一相似度信息和所述第二相似度信息,确定所述语音数据的识别时间。
可选地,所述获取所述语音数据和所述预设语音识别模型的第一相似度信息的步骤包括:
提取所述语音数据的特征量;
计算所述语音数据的特征量和所述预设语音识别模型之间的第一相似度;
获取所述第一相似度的预设第一权重系数;
将所述第一相似度和所述预设第一权重系数作为所述语音数据和所述预设语音识别模型的第一相似度信息。
可选地,所述获取所述属性信息和所述预设语音识别模型的第二相似度信息的步骤包括:
提取所述属性信息的特征量;
计算所述属性信息的特征量和所述预设语音识别模型之间的第二相似度;
获取所述第二相似度的预设第二权重系数;
将所述第二相似度和所述预设第二权重系数作为所述属性信息和所述预设语音识别模型的第二相似度信息。
可选地,所述基于所述第一相似度信息和所述第二相似度信息,确定所述语音数据的识别时间的步骤包括:
比对所述第一相似度信息和预设第一参数,确定所述语音数据的预估识别时间;
基于所述预估识别时间和所述第二相似度信息,确定所述语音数据的识别时间。
可选地,所述基于所述预估识别时间和所述第二相似度信息,确定所述语音数据的识别时间的步骤包括:
比对所述第二相似度信息和预设第二参数,获得比对结果;
基于所述比对结果和所述预估识别时间,确定所述语音数据的识别时间。
可选地,所述基于所述识别时间和预设时间阈值,判断是否将所述语音数据发送至所述网络服务器进行识别的步骤包括:
若所述识别时间超过所述预设时间阈值,则将所述语音数据发送至所述网络服务器进行识别,并获取所述网络服务器对所述语音数据的识别结果;
若所述识别时间不超过所述预设时间阈值,则通知所述移动终端对所述语音数据进行识别,并获取所述移动终端对所述语音数据的识别结果。
本申请还提供一种语音识别装置,所述语音识别装置包括:
获取模块,用于获取移动终端接收到的语音数据和所述移动终端的属性信息,其中,所述移动终端和网络服务器通信连接;
发送模块,用于将所述语音数据和所述属性信息发送至预设语音识别模型;
确定模块,用于基于所述语音数据、所述属性信息和所述预设语音识别模型,确定所述语音数据的识别时间,其中,所述识别时间为识别所述语音数据需要的时间;
判断模块,用于基于所述识别时间和预设时间阈值,判断是否将所述语音数据发送至所述网络服务器进行识别。
可选地,所述确定模块包括:
第一获取子模块,用于获取所述语音数据和所述预设语音识别模型的第一相似度信息;
第二获取子模块,用于获取所述属性信息和所述预设语音识别模型的第二相似度信息;
确定子模块,用于基于所述第一相似度信息和所述第二相似度信息,确定所述语音数据的识别时间。
可选地,所述第一获取子模块包括:
第一提取单元,用于提取所述语音数据的特征量;
第一计算单元,用于计算所述语音数据的特征量和所述预设语音识别模型之间的第一相似度;
第一获取单元,用于获取所述第一相似度的预设第一权重系数;
第一确定单元,用于将所述第一相似度和所述预设第一权重系数作为所述语音数据和所述预设语音识别模型的第一相似度信息。
可选地,所述第二获取子模块包括:
第二提取单元,用于提取所述属性信息的特征量;
第二计算单元,用于计算所述属性信息的特征量和所述预设语音识别模型之间的第二相似度;
第二获取单元,用于获取所述第二相似度的预设第二权重系数;
第二确定单元,用于将所述第二相似度和所述预设第二权重系数作为所述属性信息和所述预设语音识别模型的第二相似度信息。
可选地,所述确定子模块包括:
比对单元,用于比对所述第一相似度信息和预设第一参数,确定所述语音数据的预估识别时间;
确定单元,用于基于所述预估识别时间和所述第二相似度信息,确定所述语音数据的识别时间。
可选地,所述确定单元包括:
比对子单元,用于比对所述第二相似度信息和预设第二参数,获得比对结果;
确定子单元,用于基于所述比对结果和所述预估识别时间,确定所述语音数据的识别时间。
可选地,所述判断模块包括:
第一判断子模块,用于若所述识别时间超过所述预设时间阈值,则将所述语音数据发送至所述网络服务器进行识别,并获取所述网络服务器对所述语音数据的识别结果;
第二判断子模块,用于若所述识别时间不超过所述预设时间阈值,则通知所述移动终端对所述语音数据进行识别,并获取所述移动终端对所述语音数据的识别结果。
本申请还提供一种终端,所述终端包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音识别程序,所述语音识别程序被所述处理器执行时实现如上所述的语音识别方法的步骤。
本申请还提供一种计算机存储介质,所述计算机存储介质上存储有语音识别程序,所述语音识别程序被处理器执行时实现如上所述的语音识别方法的步骤。
本申请公开了一种语音识别方法、装置、终端和计算机可读存储介质,所述语音识别方法通过获取移动终端接收到的语音数据和所述移动终端的属性信息,其中,所述移动终端和网络服务器通信连接;将所述语音数据和所述属性信息发送至预设语音识别模型;基于所述语音数据、所述属性信息和所述预设语音识别模型,确定所述语音数据的识别时间,其中,所述识别时间为识别所述语音数据需要的时间;基于所述识别时间和预设时间阈值,判断是否将所述语音数据发送至所述网络服务器进行识别,实现了根据识别时间和预设时间阈值的关系确定是否由网络服务器进行语音识别,从而减少了网络服务器的工作压力和对网络资源的占据,并且节约了移动终端的流量。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例一个可选的终端的硬件结构示意图;
图2为本申请语音识别方法第一实施例的流程示意图;
图3为本申请语音识别方法第二实施例的流程示意图;
图4为本申请语音识别方法第三实施例的流程示意图;
图5为本申请语音识别方法第四实施例的流程示意图;
图6为本申请语音识别方法第五实施例的流程示意图;
图7为本申请语音识别方法第六实施例的流程示意图;
图8为本申请语音识别方法第七实施例的应用场景示意图;
图9为本申请语音识别装置的功能模块示意图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本申请的说明,其本身没有特定的意义。因此,“模块”、“部件”或“单元”可以混合地使用。
如图1所示,图1是本申请实施例方案涉及的硬件运行环境的终端结构示意图。
本申请实施例终端可以是固定终端,如物联网智能设备,包括智能空调、智能电灯、智能电源、智能路由器等智能家居;也可以是移动终端,包括智能手机、可穿戴的联网AR/VR装置、智能音箱、自动驾驶汽车等诸多联网设备。
如图1所示,该语音识别系统的架构设计包括节点和服务器,其设备结构可以包括:处理器1001,例如CPU,存储器1005,通信总线1002。其中,通信总线1002用于实现处理器1001和存储器1005之间的连接通信。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
可选地,该语音识别系统还可以包括用户接口、网络接口、摄像头、RF(RadioFrequency,射频)电路,传感器、音频电路、WiFi模块等等。用户接口可以包括显示屏(Display)、触摸屏、摄像头(包括AR/VR设备)等,可选用户接口还可以包括标准的有线接口、无线接口。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口、蓝牙接口、探针接口、3G/4G/5G联网通信接口等)。
本领域技术人员可以理解,图1中示出的语音识别系统结构并不构成对语音识别系统的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块以及语音识别程序。操作系统是管理和控制语音识别系统硬件和软件资源的程序,支持语音识别程序以及其它软件和/或程序的运行。网络通信模块用于实现存储器1005内部各组件之间的通信,以及与语音识别系统中其它硬件和软件之间通信。
在图1所示的语音识别系统中,处理器1001用于执行存储器1005中存储的语音识别程序,实现以下步骤:
获取移动终端接收到的语音数据和所述移动终端的属性信息,其中,所述移动终端和网络服务器通信连接;
将所述语音数据和所述属性信息发送至预设语音识别模型;
基于所述语音数据、所述属性信息和所述预设语音识别模型,确定所述语音数据的识别时间,其中,所述识别时间为识别所述语音数据需要的时间;
基于所述识别时间和预设时间阈值,判断是否将所述语音数据发送至所述网络服务器进行识别。
进一步地,处理器1001可以调用存储器1005中存储的语音识别程序,还执行以下操作:
获取所述语音数据和所述预设语音识别模型的第一相似度信息;
获取所述属性信息和所述预设语音识别模型的第二相似度信息;
基于所述第一相似度信息和所述第二相似度信息,确定所述语音数据的识别时间。
进一步地,处理器1001可以调用存储器1005中存储的语音识别程序,还执行以下操作:
提取所述语音数据的特征量;
计算所述语音数据的特征量和所述预设语音识别模型之间的第一相似度;
获取所述第一相似度的预设第一权重系数;
将所述第一相似度和所述预设第一权重系数作为所述语音数据和所述预设语音识别模型的第一相似度信息。
进一步地,处理器1001可以调用存储器1005中存储的语音识别程序,还执行以下操作:
提取所述属性信息的特征量;
计算所述属性信息的特征量和所述预设语音识别模型之间的第二相似度;
获取所述第二相似度的预设第二权重系数;
将所述第二相似度和所述预设第二权重系数作为所述属性信息和所述预设语音识别模型的第二相似度信息。
进一步地,处理器1001可以调用存储器1005中存储的语音识别程序,还执行以下操作:
比对所述第一相似度信息和预设第一参数,确定所述语音数据的预估识别时间;
基于所述预估识别时间和所述第二相似度信息,确定所述语音数据的识别时间。
进一步地,处理器1001可以调用存储器1005中存储的语音识别程序,还执行以下操作:
比对所述第二相似度信息和预设第二参数,获得比对结果;
基于所述比对结果和所述预估识别时间,确定所述语音数据的识别时间。
进一步地,处理器1001可以调用存储器1005中存储的语音识别程序,还执行以下操作:
若所述识别时间超过所述预设时间阈值,则将所述语音数据发送至所述网络服务器进行识别,并获取所述网络服务器对所述语音数据的识别结果;
若所述识别时间不超过所述预设时间阈值,则通知所述移动终端对所述语音数据进行识别,并获取所述移动终端对所述语音数据的识别结果。
基于上述硬件结构,提出本申请语音识别方法的各个实施例。
参照图2,本申请语音识别方法第一实施例提供一种语音识别方法,所述语音识别方法包括:
步骤S10,获取移动终端接收到的语音数据和移动终端的属性信息,其中,移动终端和网络服务器通信连接;
在本申请公开的技术方案中,可以通过麦克风来获取语音数据。移动终端,是指可以在移动中使用的计算机设备,广义地讲包括手机、笔记本、平板电脑、POS机、车载电脑等。随着集成电路技术的飞速发展,移动终端已经拥有了强大的处理能力,移动终端正在从简单的通话工具变为一个综合信息处理平台,这也给移动终端增加了更加宽广的发展空间。如今市场上的大多数移动终端都具备语音识别功能,可识别用户发出的语音指令,并根据用户的语音指令执行相应的操作。
具体地,用户可以通过发送语音指令给移动终端,移动终端对语音指令进行语音识别之后,便可以根据语音识别结果执行相应的操作。其中,当移动终端在离线状态下,由移动终端对语音指令进行语音识别;当移动终端在连接了网络的情况下,则完全由网络服务器对语音指令进行语音识别,移动终端不对语音指令进行识别。移动终端接收到的语音数据,是指移动终端用户发出的需要移动终端执行的语音指令,语音数据可以包括拨打电话、打开微博、打开facebook等,形式可以是普通话、英语等通用语言,在实施过程中可灵活设置,此处不做限制。移动终端的属性信息,是指能够描述移动终端整体性能的参数信息,可以理解的是,移动终端整体性能会影响移动终端对语音识别的效率和正确率。网络服务器,是指因特网与外部设备的连接渠道;移动终端和网络服务器通信连接,是指移动终端处于联网状态,可以与互联网进行数据通信。
步骤S20,将语音数据和属性信息发送至预设语音识别模型;
在本申请公开的技术方案中,预设语音识别模型指的是一个具备数字处理能力的数字模型;预设语音识别模型接收到语音数据和属性信息之后,语音识别程序能够确定语音识别需要的时间。
步骤S30,基于语音数据、属性信息和预设语音识别模型,确定语音数据的识别时间,其中,识别时间为识别语音数据需要的时间;
在本申请公开的技术方案中,通过语音数据可以获得语音是否标准、语音时间长度等信息;通过属性信息可以获得移动终端对语音数据的识别能力和识别时间等信息;因此基于语音数据、属性信息和预设语音识别模型这三者的结合,可以确定语音识别需要的时间。
步骤S40,基于识别时间和预设时间阈值,判断是否将语音数据发送至网络服务器进行识别。
在本申请公开的技术方案中,预设时间阈值,是指预设的时间长度值,作用在于通过区分语音数据的识别时间,来确定是否需要将该语音数据发送至网络服务器进行语音识别,还是直接在移动终端进行识别。
在本实施例中,语音识别方法通过获取移动终端接收到的语音数据和所述移动终端的属性信息,其中,所述移动终端和网络服务器通信连接;将所述语音数据和所述属性信息发送至预设语音识别模型;基于所述语音数据、所述属性信息和所述预设语音识别模型,确定所述语音数据的识别时间,其中,所述识别时间为识别所述语音数据需要的时间;基于所述识别时间和预设时间阈值,判断是否将所述语音数据发送至所述网络服务器进行识别,实现了根据识别时间和预设时间阈值的关系确定是否由网络服务器进行语音识别,从而减少了网络服务器的工作压力和对网络资源的占据,并且节约了移动终端的流量。
进一步地,在本申请语音识别方法第二实施例中,参照图3,步骤S30包括:
步骤S31,获取语音数据和预设语音识别模型的第一相似度信息;
在本申请公开的技术方案中,相似度,就是比较两个事物的相似性。可以通过计算事物的特征之间的距离,如果距离小,那么相似度大;如果距离大,那么相似度小。第一相似度信息,是指语音数据和预设语音识别模型之间的相似程度。
步骤S32,获取属性信息和预设语音识别模型的第二相似度信息;
同理,第二相似度信息,是指属性信息和预设语音识别模型之间的相似程度。
步骤S33,基于第一相似度信息和第二相似度信息,确定语音数据的识别时间。
在本申请公开的技术方案中,由于可以通过相似度来比较语音数据和预设语音识别模型、属性信息和预设语音识别模型这两组信息的相似性。即可以通过计算语音数据的特征和预设语音识别模型的特征之间的距离(即第一相似度信息),来确定语音数据和预设语音识别模型的距离,如果距离小,那么相似度大;如果距离大,那么相似度小。
同理,可以通过计算属性信息的特征和预设语音识别模型的特征之间的距离(即第二相似度信息),来确定属性信息和预设语音识别模型的距离,如果距离小,那么相似度大;如果距离大,那么相似度小。
在本实施例中,由于第一相似度信息表征了语音数据和预设语音识别模型的相似程度、第二相似度信息表征了属性信息和预设语音识别模型的相似程度,因此可以通过第一相似度信息和第二相似度信息,来确定移动终端语音数据的识别时间。
进一步地,在本申请语音识别方法第三实施例中,参照图4,步骤S31包括:
步骤S311,提取语音数据的特征量;
在本申请公开的技术方案中,接收到语音数据后,可先对语音数据进行抗混叠滤波、预加重、模/数转换、自动增益控制等预处理过程,以滤除语音数据中的噪音及次要信息。然后,可分析语音数据中的声学参数,提取出语音数据的特征量。在具体实施中,可以对语音数据进行时域和频域处理,例如,使用快速傅氏变换(Fast Fourier Transformation,FFT)、频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)等,提取移动终端接收到的语音数据的特征量。
步骤S312,计算语音数据的特征量和预设语音识别模型之间的第一相似度;
第一相似度,是指语音数据的特征量和预设语音识别模型之间的距离。常见的距离计算方法有:欧氏距离(Euclidean Distance)、曼哈顿距离(ManhattanDistance)和闵可夫斯基距离(Minkowski Distance)等。
步骤S313,获取第一相似度的预设第一权重系数;
预设第一权重系数,是指第一相似度的权重系数;预设第一权重系数和步骤S323中的预设第二权重系数的和是1。
步骤S314,将第一相似度和预设第一权重系数作为语音数据和预设语音识别模型的第一相似度信息。
在本实施例中,通过获取第一相似度和第一相似度的预设第一权重系数,可以获得语音数据和预设语音识别模型的第一相似度信息。
进一步地,在本申请语音识别方法第四实施例中,参照图5,步骤S32包括:
步骤S321,提取属性信息的特征量;
在本申请公开的技术方案中,可以通过属性信息的具体内容来提取特征量,例如语音数据处理能力、已经处理的语音数据个数、语音数据处理准确率和效率等,在实施过程中可灵活设置,此处不做限制。
步骤S322,计算属性信息的特征量和预设语音识别模型之间的第二相似度;
第二相似度,是指属性信息的特征量和预设语音识别模型之间的距离。同理,计算属性信息的特征量和预设语音识别模型之间的距离方法有:欧氏距离(EuclideanDistance)、曼哈顿距离(Manhattan Distance)和闵可夫斯基距离(Minkowski Distance)等。
步骤S323,获取第二相似度的预设第二权重系数;
同理,预设第二权重系数,是指第二相似度的权重系数;预设第二权重系数和步骤S313中的预设第一权重系数的和是1。
步骤S324,将第二相似度和预设第二权重系数作为属性信息和预设语音识别模型的第二相似度信息。
在本实施例中,通过获取第二相似度和第二相似度的预设第二权重系数,可以获得属性信息和预设语音识别模型的第二相似度信息。
进一步地,在本申请语音识别方法第五实施例中,参照图6,步骤S33包括:
步骤S331,比对第一相似度信息和预设第一参数,确定语音数据的预估识别时间;
在本申请公开的技术方案中,预设第一参数,是指用于评估第一语音数据和预设语音识别模型相似度的量度。预估识别时间是指语音数据识别所需要的时间的大致时间范围。例如,比对第一相似度信息和预设第一参数,当第一相似度信息和预设第一参数越接近或者相同,则可以确定语音数据的预估识别时间越短;反之,第一相似度信息和预设第一参数相差越大,则可以确定语音数据的预估识别时间越长。
步骤S322,基于预估识别时间和第二相似度信息,确定语音数据的识别时间。
在本实施例中,语音数据的识别时间,是指语音数据识别所需要的时间的比较精确的(相比于预估识别时间)时间范围。
进一步地,在本申请语音识别方法第六实施例中,参照图7,步骤S332包括:
步骤S3321,比对第二相似度信息和预设第二参数,获得比对结果;
步骤S3322,基于比对结果和预估识别时间,确定语音数据的识别时间。
在本实施例中,基于预估识别时间和第二相似度信息,确定语音数据的识别时间的方法是,通过比对第二相似度信息和预设第二参数,获得比对结果,再基于比对结果和预估识别时间,确定语音数据的识别时间,即当第二相似度信息和预设第二参数越接近或者相同,则可以确定语音数据的预估识别时间越短;反之,第二相似度信息和预设第二参数相差越大,则可以确定语音数据的识别时间越长。
在本申请公开的技术方案中,首先通过比对第一相似度信息和预设第一参数,确定语音数据的预估识别时间;再基于预估识别时间和第二相似度信息,确定语音数据的识别时间,提高了预测语音数据识别时间的准确率。
进一步地,在本申请语音识别方法第七实施例中,参照图8,步骤S40包括:
步骤S41,若识别时间超过预设时间阈值,则将语音数据发送至网络服务器进行识别,并获取网络服务器对语音数据的识别结果;
步骤S42,若识别时间不超过预设时间阈值,则通知移动终端对语音数据进行识别,并获取移动终端对语音数据的识别结果。
在本实施例中,确定语音数据的识别时间之后,再基于识别时间和预设时间阈值,判断是否将语音数据发送至网络服务器进行识别:当识别时间超过预设时间阈值,则将语音数据发送至网络服务器进行识别,并获取网络服务器对语音数据的识别结果;当识别时间不超过预设时间阈值,则通知移动终端对语音数据进行识别,并获取移动终端对语音数据的识别结果,从而有效地减轻了网络服务器的工作压力,并且减少了对网络资源的占用,也节约了移动终端的流量。
此外,参照图9,本发明实施例还提出一种语音识别装置,语音识别装置包括:
获取模块,用于获取移动终端接收到的语音数据和所述移动终端的属性信息,其中,所述移动终端和网络服务器通信连接;
发送模块,用于将所述语音数据和所述属性信息发送至预设语音识别模型;
确定模块,用于基于所述语音数据、所述属性信息和所述预设语音识别模型,确定所述语音数据的识别时间,其中,所述识别时间为识别所述语音数据需要的时间;
判断模块,用于基于所述识别时间和预设时间阈值,判断是否将所述语音数据发送至所述网络服务器进行识别。
本申请还提供一种终端,所述终端包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的语音识别程序,所述语音识别程序被所述处理器执行时实现上述语音识别方法的步骤。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有语音识别程序,所述语音识别程序被处理器执行时实现上述的语音识别方法的步骤。
在本申请语音识别方法、装置、终端及可读存储介质的实施例中,包含了上述语音识别方法各实施例的全部技术特征,说明书拓展和解释内容与上述语音识别方法各实施例基本相同,在此不做赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (9)
1.一种语音识别方法,其特征在于,所述语音识别方法包括以下步骤:
获取移动终端接收到的语音数据和所述移动终端的属性信息,其中,所述移动终端和网络服务器通信连接;
将所述语音数据和所述属性信息发送至预设语音识别模型;
基于所述语音数据、所述属性信息和所述预设语音识别模型,确定所述语音数据的识别时间,其中,所述识别时间为识别所述语音数据需要的时间;
基于所述识别时间和预设时间阈值,判断是否将所述语音数据发送至所述网络服务器进行识别;
所述基于所述语音数据、所述属性信息和所述预设语音识别模型,确定所述语音数据的识别时间的步骤包括:
获取所述语音数据和所述预设语音识别模型的第一相似度信息;
获取所述属性信息和所述预设语音识别模型的第二相似度信息;
基于所述第一相似度信息和所述第二相似度信息,确定所述语音数据的识别时间。
2.如权利要求1所述的语音识别方法,其特征在于,所述获取所述语音数据和所述预设语音识别模型的第一相似度信息的步骤包括:
提取所述语音数据的特征量;
计算所述语音数据的特征量和所述预设语音识别模型之间的第一相似度;
获取所述第一相似度的预设第一权重系数;
将所述第一相似度和所述预设第一权重系数作为所述语音数据和所述预设语音识别模型的第一相似度信息。
3.如权利要求1所述的语音识别方法,其特征在于,所述获取所述属性信息和所述预设语音识别模型的第二相似度信息的步骤包括:
提取所述属性信息的特征量;
计算所述属性信息的特征量和所述预设语音识别模型之间的第二相似度;
获取所述第二相似度的预设第二权重系数;
将所述第二相似度和所述预设第二权重系数作为所述属性信息和所述预设语音识别模型的第二相似度信息。
4.如权利要求2至3任一项所述的语音识别方法,其特征在于,所述基于所述第一相似度信息和所述第二相似度信息,确定所述语音数据的识别时间的步骤包括:
比对所述第一相似度信息和预设第一参数,确定所述语音数据的预估识别时间;
基于所述预估识别时间和所述第二相似度信息,确定所述语音数据的识别时间。
5.如权利要求4所述的语音识别方法,其特征在于,所述基于所述预估识别时间和所述第二相似度信息,确定所述语音数据的识别时间的步骤包括:
比对所述第二相似度信息和预设第二参数,获得比对结果;
基于所述比对结果和所述预估识别时间,确定所述语音数据的识别时间。
6.如权利要求5所述的语音识别方法,其特征在于,所述基于所述识别时间和预设时间阈值,判断是否将所述语音数据发送至所述网络服务器进行识别的步骤包括:
若所述识别时间超过所述预设时间阈值,则将所述语音数据发送至所述网络服务器进行识别,并获取所述网络服务器对所述语音数据的识别结果;
若所述识别时间不超过所述预设时间阈值,则通知所述移动终端对所述语音数据进行识别,并获取所述移动终端对所述语音数据的识别结果。
7.一种语音识别装置,其特征在于,所述语音识别装置包括:
获取模块,用于获取移动终端接收到的语音数据和所述移动终端的属性信息,其中,所述移动终端和网络服务器通信连接;
发送模块,用于将所述语音数据和所述属性信息发送至预设语音识别模型;
确定模块,用于基于所述语音数据、所述属性信息和所述预设语音识别模型,确定所述语音数据的识别时间,其中,所述识别时间为识别所述语音数据需要的时间;
判断模块,用于基于所述识别时间和预设时间阈值,判断是否将所述语音数据发送至所述网络服务器进行识别;
所述确定模块,还用于:
获取所述语音数据和所述预设语音识别模型的第一相似度信息;
获取所述属性信息和所述预设语音识别模型的第二相似度信息;
基于所述第一相似度信息和所述第二相似度信息,确定所述语音数据的识别时间。
8.一种终端,其特征在于,所述终端包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音识别程序,所述语音识别程序被所述处理器执行时实现如权利要求1至6中任一项所述的语音识别方法的步骤。
9.一种存储介质,其特征在于,所述存储介质上存储有语音识别程序,所述语音识别程序被处理器执行时实现如权利要求1至6中任一项所述的语音识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010405131.3A CN111627431B (zh) | 2020-05-13 | 2020-05-13 | 语音识别方法、装置、终端及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010405131.3A CN111627431B (zh) | 2020-05-13 | 2020-05-13 | 语音识别方法、装置、终端及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111627431A CN111627431A (zh) | 2020-09-04 |
CN111627431B true CN111627431B (zh) | 2022-08-09 |
Family
ID=72261153
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010405131.3A Active CN111627431B (zh) | 2020-05-13 | 2020-05-13 | 语音识别方法、装置、终端及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111627431B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104575503A (zh) * | 2015-01-16 | 2015-04-29 | 广东美的制冷设备有限公司 | 语音识别方法和装置 |
JP2018180409A (ja) * | 2017-04-19 | 2018-11-15 | 三菱電機株式会社 | 音声認識装置、ナビゲーション装置、音声認識システム、及び、音声認識方法 |
CN110992937A (zh) * | 2019-12-06 | 2020-04-10 | 广州国音智能科技有限公司 | 语言离线识别方法、终端及可读存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7933777B2 (en) * | 2008-08-29 | 2011-04-26 | Multimodal Technologies, Inc. | Hybrid speech recognition |
US10410635B2 (en) * | 2017-06-09 | 2019-09-10 | Soundhound, Inc. | Dual mode speech recognition |
-
2020
- 2020-05-13 CN CN202010405131.3A patent/CN111627431B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104575503A (zh) * | 2015-01-16 | 2015-04-29 | 广东美的制冷设备有限公司 | 语音识别方法和装置 |
JP2018180409A (ja) * | 2017-04-19 | 2018-11-15 | 三菱電機株式会社 | 音声認識装置、ナビゲーション装置、音声認識システム、及び、音声認識方法 |
CN110992937A (zh) * | 2019-12-06 | 2020-04-10 | 广州国音智能科技有限公司 | 语言离线识别方法、终端及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111627431A (zh) | 2020-09-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107591152B (zh) | 基于耳机的语音控制方法、装置及其设备 | |
US9934781B2 (en) | Method of providing voice command and electronic device supporting the same | |
CN107544272B (zh) | 终端控制方法、装置及存储介质 | |
CN105654949A (zh) | 一种语音唤醒方法及装置 | |
US9854439B2 (en) | Device and method for authenticating a user of a voice user interface and selectively managing incoming communications | |
CN108011976B (zh) | 一种上网终端型号的识别方法及计算机设备 | |
CN110290280B (zh) | 一种终端状态的识别方法、装置及存储介质 | |
CN103024169A (zh) | 一种通讯终端应用程序的语音启动方法和装置 | |
CN108600559B (zh) | 静音模式的控制方法、装置、存储介质及电子设备 | |
CN110830771A (zh) | 智能监控方法、装置、设备及计算机可读存储介质 | |
CN111261160B (zh) | 一种信号处理方法及装置 | |
CN110808041B (zh) | 语音识别方法、智能投影仪及相关产品 | |
CN104575503A (zh) | 语音识别方法和装置 | |
CN109215640B (zh) | 语音识别方法、智能终端及计算机可读存储介质 | |
CN104575509A (zh) | 语音增强处理方法及装置 | |
CN103426429A (zh) | 语音控制方法和装置 | |
CN113709629A (zh) | 频响参数调节方法、装置、设备及存储介质 | |
CN107864442B (zh) | 基于智能语音设备的测试方法、智能语音设备及存储介质 | |
CN111627431B (zh) | 语音识别方法、装置、终端及存储介质 | |
CN107680598B (zh) | 基于好友声纹通讯录的信息交互方法、装置及其设备 | |
CN113543099A (zh) | 从复杂环境中快速连接目标设备的方法及系统 | |
CN110600031A (zh) | 播放控制方法、播放设备及计算机可读存储介质 | |
CN112908330B (zh) | 终端设备的语音唤醒方法、装置及计算机可读存储介质 | |
CN112581957B (zh) | 一种计算机语音控制方法、系统及相关装置 | |
CN111640422A (zh) | 语音人声分离方法、装置、终端及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |