CN112562673A - 语音识别方法及装置 - Google Patents
语音识别方法及装置 Download PDFInfo
- Publication number
- CN112562673A CN112562673A CN202011598818.XA CN202011598818A CN112562673A CN 112562673 A CN112562673 A CN 112562673A CN 202011598818 A CN202011598818 A CN 202011598818A CN 112562673 A CN112562673 A CN 112562673A
- Authority
- CN
- China
- Prior art keywords
- recognition result
- candidate
- speech
- voice data
- candidate recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000001514 detection method Methods 0.000 claims abstract description 10
- 238000004590 computer program Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 11
- 238000012545 processing Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 238000010521 absorption reaction Methods 0.000 description 6
- 230000009191 jumping Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 241001672694 Citrus reticulata Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/34—Adaptation of a single recogniser for parallel processing, e.g. by use of multiple processors or cloud computing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Theoretical Computer Science (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开一种语音识别方法及装置,其中在该方法中,基于本地语音模型,确定用户语音数据相应的第一候选识别结果;发送所述用户语音数据至服务器,并检测在设定时间段是否存在来自于所述服务器的第二候选识别结果,所述服务器设置有用于对所述用户语音数据进行语音识别的云端语音模型;根据所述第一候选识别结果和关于所述第二候选识别结果的检测结果,确定所述用户语音数据所对应的目标识别结果。由此,可以提升正常语音识别率并降低噪音的误识别率。
Description
技术领域
本发明属于语音设备技术领域,尤其涉及一种语音识别方法及装置。
背景技术
在语音识别过程中,噪声是影响识别结果的一大因素,导致整个语音交互的体验比较差。为了解决噪声误识别的问题,可以通过调整语音识别系统中的置信度阈值来完成对误识别率的控制,或者通过提高整体的识别率来提升语音识别的性能。
通过置信度阈值来控制误识别率,将阈值提高可以降低噪声的误识别的概率,但是同时会降低正常语音的识别率;反之降低阈值提高正常语音的识别率,也会提高误识别率,导致噪音误识别率与正常语音识别率之间难以平衡。
针对上述问题,目前业界暂时并未提供较佳的解决方案。
发明内容
本发明实施例提供一种语音识别方法及装置,用于至少解决上述技术问题之一。
第一方面,本发明实施例提供一种语音识别方法,应用于客户端,所述方法包括:基于本地语音模型,确定用户语音数据相应的第一候选识别结果;发送所述用户语音数据至服务器,并检测在设定时间段是否存在来自于所述服务器的第二候选识别结果,所述服务器设置有用于对所述用户语音数据进行语音识别的云端语音模型;根据所述第一候选识别结果和关于所述第二候选识别结果的检测结果,确定所述用户语音数据所对应的目标识别结果。
第二方面,本发明实施例提供一种语音识别方法,应用于服务器,所述方法包括:从客户端接收用户语音数据,所述客户端用于基于本地语音模型,确定所述用户语音数据相应的第一候选识别结果;基于云端语音模型确定对应所述用户语音数据的第二候选识别结果;发送所述第二候选识别结果至所述客户端,以使得所述客户端根据所述第一候选识别结果和所述第二候选识别结果,确定所述用户语音数据所对应的目标识别结果。
第三方面,本发明实施例提供一种语音识别装置,包括:本地语音识别单元,被配置为基于本地语音模型,确定用户语音数据相应的第一候选识别结果;云端语音识别单元,被配置为发送所述用户语音数据至服务器,并检测在设定时间段是否存在来自于所述服务器的第二候选识别结果,所述服务器设置有用于对所述用户语音数据进行语音识别的云端语音模型;识别结果确定单元,被配置为根据所述第一候选识别结果和关于所述第二候选识别结果的检测结果,确定所述用户语音数据所对应的目标识别结果。
第四方面,本发明实施例提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述方法的步骤。
第五方面,本发明实施例提供一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法的步骤。
本发明实施例的有益效果在于:
在进行语音识别服务时,客户端可以利用本地语音模型来确定第一候选识别结果,并通过与服务器交互来从云端语音模型检测第二候选识别结果,综合考虑本地语音模型和云端语音模型来对用户语音数据的识别结果,既可以利用本地语音模型对固定内容识别率较高的特点,又可以结合云端语音模型可以较准确地识别非固定内容的特性,从而提升正常语音识别率并降低噪音的误识别率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了根据本发明实施例的语音识别方法的一示例的流程图;
图2示出了根据本发明实施例的基于本地语音模型确定用户语音数据相应的第一候选识别结果的一示例的流程图;
图3示出了在客户端配置的基于语法的语音处理系统的一示例的原理示意图;
图4示出了根据本发明实施例的语音识别方法的一示例的流程图;
图5示出了根据本发明实施例的基于云端语音模型确定对应用户语音数据的第二候选识别结果的一示例的流程图;
图6示出了根据本发明实施例的语音识别方法的一示例的流程图;
图7示出了根据本发明实施例的语音识别装置的一示例的结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
在本发明中,“模块”、“系统”等等指应用于计算机的相关实体,如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说,例如,元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有,运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中,并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间,并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号,例如,来自一个与本地系统、分布式系统中另一元件交互的,和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。
最后,还需要说明的是,在本文中,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
图1示出了根据本发明实施例的语音识别方法的一示例的流程图。关于本发明实施例的执行主体,其可以是语音识别客户端,例如配置有语音功能软件的移动终端设备。
如图1所示,在步骤110中,基于本地语音模型,确定用户语音数据相应的第一候选识别结果。需说明的是,术语“语音模型”可以表示具有语音处理功能的模型,其除了具备语音识别功能之外,还可以具有其他语音功能,例如语义解析功能、对话管理功能等等,且都属于本发明实施例的实施范围内。此外,用户语音数据的语言种类也应不加限制,例如不仅适用于中文普通话的噪声误识别处理,而是可以扩展到语音交互系统中的其他语种的噪声误识别的处理。
在步骤120中,发送用户语音数据至服务器,并检测在设定时间段是否存在来自于服务器的第二候选识别结果。这里,服务器设置有用于对用户语音数据进行语音识别的云端语音模型,并且云端语音模型可以是在服务器中所配置的一个或多个语音模型。
应理解的是,在对上述设定时间段进行设置时,可以考虑客户端与服务器之间的信号传输耗时和服务器的语音识别耗时,以保障服务器能将第二候选识别结果在设定时间段内成功反馈至客户端。
在步骤130中,根据第一候选识别结果和关于第二候选识别结果的检测结果,确定用户语音数据所对应的目标识别结果。示例性地,当检测到不存在第二候选识别结果时,可以确定目标识别结果为噪声识别结果;另一方面,当同时存在第一候选识别结果和第二候选识别结果时,可以对比第一候选识别结果和第二候选识别结果,从而确定相应的目标识别结果。
通过本发明实施例,在识别语音时,除了利用设备本地的通用语音模型外,还可以利用在云端的定制语音模型来识别该语音,重构语音识别网络以融合云端和本地语音识别系统,可以实现降低噪声误识别率。
在本发明实施例的一些示例中,定制语音模型可以是用于识别预设的任务语句集的任务型语义模型。相应地,当检测到不存在第二候选识别结果时,可以确定目标识别结果为噪声识别结果。这里,任务型语义模型适用于对特定语义场景的任务处理,例如音乐播放器的任务场景,其所涉及的任务语句是比较有限的,例如“上一曲”、“下一曲”和“暂停”等。此时,如果用户语音数据所对应的内容并未命中上述的任务语句,则可以确定用户语音数据是噪音数据,可以指导客户端不输出本地识别结果,以降低噪音识别率。
由此,可以基于云端语义理解方式来滤除噪声信息。具体地,可以借助语义理解来判断一段文本内容是否为符合设定的语义理解关键信息的内容,如果未符合则可以确定为噪声。需说明的是,语义算法在基于任务型的系统有比较好的性能,尤其是对基于任务型的语音识别系统有效,例如语音识别的内容是类似听歌、看电影的任务型内容等。
在一些实施方式中,用户所需要的特定识别内容(例如,定制于某些应用场景的内容)可以被专门的训练一个小模型来存储,还可以实现快速训练和更新,既保证定制内容的效果也能有效地降低误识别率。
在本发明实施例的一些示例中,定制语音模型可以是噪声预测模型。相应地,如果第二候选识别结果指示用户语音数据为噪音数据,则确定目标识别结果为噪声识别结果;如果第二候选识别结果指示用户语音数据为正常语音数据,则根据第一候选识别结果确定目标识别结果。由此,可以结合服务器来识别用户语音是否为噪音数据,并可以在确定用户语音不是噪音数据时,利用本地的识别结果来进行输出,可以降低噪音误识率。
具体地,噪声预测模型可以采用基于神经网络的噪声预测模型。具体地,在整个识别系统架构中,可以增加一个基于神经网络的噪声预测模型,可以计算并识别语音是否为噪声,并决策该语音是否进入后续的识别系统中。
图2示出了根据本发明实施例的基于本地语音模型确定用户语音数据相应的第一候选识别结果的一示例的流程图。
如图2所示,在步骤210中,对用户语音数据中不符合预设的语音语法规则的噪音分量进行过滤。
在步骤220中,基于本地语音模型识别经过滤的用户语音数据,以得到相应的第一候选识别结果。
在一些实施方式中,可以利用在客户端配置的吸收模块来实现基于语法(例如,只识别固定规则的内容)的语音处理系统,能够将用户语音数据中不符合语音语法规则的噪音分量进行过滤,即噪声或者其他的非法内容均会被吸收模块吸收,可以有效降低噪声误识别率。
图3示出了根据本发明实施例的在客户端配置的基于语法的语音处理系统的一示例的原理示意图。
如图3所示,吸收模块310可以对不符合设定语法文件的语音进行滤除。具体地,可以正常识别的固定内容为“hao”,其中每条边上对应的数字为对应的惩罚分数,分数越高表示惩罚越大,路径越不容易通过。然后,自起始点至终止点经过的路径即为识别结果。
当输入的语音内容为“hao”时,在图示3的结构中会同时经过正常“hao”的路径和吸收模块中“hao”的路径。但是,由于吸收模块的惩罚分数高,实际并不会输出吸收模块的结果。但是,当输入语音是非“hao”的噪声数据时,输入语音可以经过吸收模块中的路径,而由于吸收模块的输出内容有殊标记,所以在最终的输出过程中发现该特殊标记的内容时,可以直接丢弃输出结果,使得在进行实际的语音应用服务时,噪声不会被误识别为合法内容。
在本发明实施例的一些示例中,候选识别结果(第一候选识别结果和第二候选识别结果)可以包括语音识别结果和相应的置信度。这里,候选识别结果包括语音识别结果和相应的置信度。相应地,当检测到存在第二候选识别结果时,可以从第一候选识别结果和第二候选识别结果中选择对应具有较高置信度的一者,以作为目标识别结果,可以保障语音识别结果的精确度。
在本发明实施例中,可以融合云端与本地设备端的语音识别结果,既可以利用本地设备端对固定内容识别率较高,又结合云端识别对非固定内容识别较为准确的特性,从而提升识别率降低误识别率。
图4示出了根据本发明实施例的语音识别方法的一示例的流程图。关于本发明实施例的执行主体,其可以是服务器,例如提供语音服务的平台服务器。
如图4所示,在步骤410中,从客户端接收用户语音数据。这里,客户端可以基于本地语音模型来确定用户语音数据相应的第一候选识别结果。
在步骤420中,基于云端语音模型确定对应用户语音数据的第二候选识别结果。
在步骤430中,发送第二候选识别结果至客户端。这样,客户端可以根据第一候选识别结果和第二候选识别结果,确定用户语音数据所对应的目标识别结果,具体细节可以参照上文中结合其他实施例中的相关描述,故在此不赘述。
通过本发明实施例,在进行语音识别操作时,客户端可以从云端获得语音识别的备选结果,并可以结合本地的识别结果来确定最终的输出结果,可以有效降低语音识别结果的误差率。
图5示出了根据本发明实施例的基于云端语音模型确定对应用户语音数据的第二候选识别结果的一示例的流程图。这里,云端语音模型包括定制语音模型和通用语音模型。
如图5所示,在步骤510中,基于定制语音模型和通用语音模型,分别确定针对所述用户语音数据的第一输出结果和第二输出结果。
在步骤520中,确定第一输出结果和第二输出结果之间的差异度。
在步骤530中,将差异度与设定阈值进行比较。
如果在步骤530中的比较结果指示差异度大于或等于设定阈值,则跳转至步骤540。如果在步骤530中的比较结果指示差异度小于设定阈值,则跳转至步骤550。
在步骤540中,将噪声识别结果确定为第二候选识别结果。
在步骤550中,将第一输出结果或第二输出结果确定为第二候选识别结果。
通过本发明实施例,将对应定制语音模型的第一输出结果和对应通用语音模型的第二输出结果进行差异度分析,并可以在差异度较大时,确定当前识别结果存在误差,可以有效降低误识别率。另外,在差异度较小时,可以从第一输出结果或第二输出结果中确定目标识别结果,保障正常语音识别率,平衡噪音误识别率和正常语音识别率。
在本发明实施例中,在云端(即,服务器端)语音识别系统中,由于存储和算力相对不会受限,可以采取多模型融合的策略,将不同的识别系统以相同的声学模型打分作为输入,在不同的语言模型解码网络中搜索最佳的结果作为识别文本的备选输出结果。
关于上述步骤520的实施细节,在一些实施方式中,可以计算第一输出结果所对应的字符串与第二输出结果所对应的字符串之间的编辑距离,并根据编辑距离来确定第一候选识别结果和第二候选识别结果之间的差异度。
在一些实施方式中,如果通用模型未输出任何备选,则可以确定该语音为噪声语音而不输出任何识别结果;如果通用模型和定制模型均产生识别结果,可以先比较两个模型的置信度,然后如果定制模型的置信度较低时,可以再计算识别文本的输出结果的拼音层面的编辑距离,根据编辑距离再选取最终的识别结果,可在保证识别率的情况下,降低噪声误识别的概率。
图6示出了根据本发明实施例的语音识别方法的一示例的流程图。
如图6所示,在步骤610中,客户端检测与云端服务的连接是否超时。如超时,则跳转至步骤620;如未超时,则跳转至步骤630。
在步骤620中,选择本地识别结果进行输出。
在步骤630中,客户端检测是否在收到云端针对用户语音数据的云端识别结果。如检测到云端识别结果,则跳转至步骤640;如未检测到云端识别结果,则跳转至步骤650。
当存在待识别的语音时,该语音可以先被送入声学模型中计算出对应的声学得分,相应的结果会分别传入通用语言模型解码网络和定制语言模型解码网络。
在步骤650中,选择本地识别结果进行输出。
在步骤640中,检测本地置信度是否大于云端置信度。如本地置信度大于云端置信度,则跳转至步骤660;如本地置信度小于或等于云端置信度,则跳转至步骤670。
在步骤660中,选择本地识别结果进行输出。
在步骤670中,选择云端识别结果进行输出。
在本发明实施例中,融合了云端和本地设备的语音识别技术,输入语音可以被同时送入本地识别系统和云端识别系统。如果云端识别网络超时即会选择本地识别的结果,如果网络返回正常的情况下,云端没有识别结果即认为该语音输入为噪声,不输出任何结果。另外,在本地和云端结果都正常返回的情况下,通过比较云端和本地的识别结果的置信度选取最终的识别结果。
在一些可替换或可附加的实施方式中,针对用户语音数据,在通用模型和定制模型中均存在相应的识别结果时,如果通用模型的置信度大于定制模型的置信度,则选择通用模型的识别结果输出,以及如果通用模型的置信度小于定制模型的情况下,可以计算通用模型与定制模型输出的文字对应的拼音序列的编辑距离。进一步地,如果编辑距离大于设定阈值,则确定该语音为噪声语音;然而,如果编辑距离小于设定阈值,则可以输出定制模型的识别结果。
在一些可替换或可附加的实施方式中,在本地-云端双模型融合语音识别模块中,可以首先判断本地的通用模型是否有识别结果,如果通用模型没有识别结果,则可以直接确定该输入语音为噪声语音。
在一些应用场景下,通用模型可以是性能和稳定性都比较全面的模型,而定制模型可以是为了满足某一些特定的场景需求训练的模型,相对于通用模型来说,稳定性可能有所欠缺,但是对于特殊场景的识别性能可能会更佳。此外,本地模型和云端模型可以是相互独立的,可以实现语音服务的快速迭代升级。
图7示出了根据本发明实施例的语音识别装置的一示例的结构框图。
如图7所示,语音识别装置700包括本地语音识别单元710、云端语音识别单元720和识别结果确定单元730。
本地语音识别单元710被配置为基于本地语音模型,确定用户语音数据相应的第一候选识别结果。
云端语音识别单元720被配置为发送所述用户语音数据至服务器,并检测在设定时间段是否存在来自于所述服务器的第二候选识别结果,所述服务器设置有用于对所述用户语音数据进行语音识别的云端语音模型。
识别结果确定单元730被配置为根据所述第一候选识别结果和关于所述第二候选识别结果的检测结果,确定所述用户语音数据所对应的目标识别结果。
上述本发明实施例的装置可用于执行本发明中相应的方法实施例,并相应的达到上述本发明方法实施例所达到的技术效果,这里不再赘述。
本发明实施例中可以通过硬件处理器(hardware processor)来实现相关功能模块。
另一方面,本发明实施例提供一种存储介质,其上存储有计算机程序,该程序被处理器执行如上的语音识别方法的步骤。
上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。
本发明实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)其他具有数据交互功能的电子装置。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种语音识别方法,应用于客户端,所述方法包括:
基于本地语音模型,确定用户语音数据相应的第一候选识别结果;
发送所述用户语音数据至服务器,并检测在设定时间段是否存在来自于所述服务器的第二候选识别结果,所述服务器设置有用于对所述用户语音数据进行语音识别的云端语音模型;
根据所述第一候选识别结果和关于所述第二候选识别结果的检测结果,确定所述用户语音数据所对应的目标识别结果。
2.根据权利要求1所述的方法,其中,所述基于本地语音模型,确定用户语音数据相应的第一候选识别结果,包括:
对所述用户语音数据中不符合预设的语音语法规则的噪音分量进行过滤;
基于本地语音模型识别经过滤的用户语音数据,以得到相应的第一候选识别结果。
3.根据权利要求1所述的方法,其中,所述候选识别结果包括语音识别结果和相应的置信度,
其中,所述根据所述第一候选识别结果和关于所述第二候选识别结果的检测结果,确定所述用户语音数据所对应的目标识别结果,包括:
当检测到存在所述第二候选识别结果时,从所述第一候选识别结果和所述第二候选识别结果中选择对应具有较高置信度的一者,以作为目标识别结果。
4.根据权利要求1所述的方法,其中,所述云端语音模型包括噪声预测模型,
所述根据所述第一候选识别结果和关于所述第二候选识别结果的检测结果,确定所述用户语音数据所对应的目标识别结果,包括:
如果所述第二候选识别结果指示所述用户语音数据为噪音数据,则确定所述目标识别结果为噪声识别结果;以及
如果所述第二候选识别结果指示所述用户语音数据为正常语音数据,则根据所述第一候选识别结果确定目标识别结果。
5.根据权利要求1所述的方法,其中,所述云端语音模型包括用于识别预设的任务语句集的任务型语义模型,
所述根据所述第一候选识别结果和关于所述第二候选识别结果的检测结果,确定所述用户语音数据所对应的目标识别结果,包括:
当检测到不存在所述第二候选识别结果时,确定所述用户语音数据所对应的目标识别结果为噪声识别结果。
6.一种语音识别方法,应用于服务器,所述方法包括:
从客户端接收用户语音数据,所述客户端用于基于本地语音模型,确定所述用户语音数据相应的第一候选识别结果;
基于云端语音模型确定对应所述用户语音数据的第二候选识别结果;
发送所述第二候选识别结果至所述客户端,以使得所述客户端根据所述第一候选识别结果和所述第二候选识别结果,确定所述用户语音数据所对应的目标识别结果。
7.如权利要求6所述的方法,其中,所述云端语音模型包括定制语音模型和通用语音模型,
其中,所述基于云端语音模型确定对应所述用户语音数据的第二候选识别结果,包括:
基于定制语音模型和通用语音模型,分别确定针对所述用户语音数据的第一输出结果和第二输出结果;
确定所述第一输出结果和所述第二输出结果之间的差异度;
如果所述差异度大于或等于设定阈值,则将噪声识别结果确定为第二候选识别结果;以及
如果所述差异度小于设定阈值,则将所述第一输出结果或所述第二输出结果确定为第二候选识别结果。
8.一种语音识别装置,包括:
本地语音识别单元,被配置为基于本地语音模型,确定用户语音数据相应的第一候选识别结果;
云端语音识别单元,被配置为发送所述用户语音数据至服务器,并检测在设定时间段是否存在来自于所述服务器的第二候选识别结果,所述服务器设置有用于对所述用户语音数据进行语音识别的云端语音模型;
识别结果确定单元,被配置为根据所述第一候选识别结果和关于所述第二候选识别结果的检测结果,确定所述用户语音数据所对应的目标识别结果。
9.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述方法的步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011598818.XA CN112562673A (zh) | 2020-12-29 | 2020-12-29 | 语音识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011598818.XA CN112562673A (zh) | 2020-12-29 | 2020-12-29 | 语音识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112562673A true CN112562673A (zh) | 2021-03-26 |
Family
ID=75032989
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011598818.XA Withdrawn CN112562673A (zh) | 2020-12-29 | 2020-12-29 | 语音识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112562673A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113921003A (zh) * | 2021-07-27 | 2022-01-11 | 歌尔科技有限公司 | 语音识别方法、本地语音识别装置及智能电子设备 |
CN115410578A (zh) * | 2022-10-27 | 2022-11-29 | 广州小鹏汽车科技有限公司 | 语音识别的处理方法及其处理系统、车辆和可读存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1588537A (zh) * | 2004-09-29 | 2005-03-02 | 上海交通大学 | 建立基于语法模型的语义分析器的方法 |
CN102810096A (zh) * | 2011-06-02 | 2012-12-05 | 阿里巴巴集团控股有限公司 | 一种基于单字索引系统的检索方法和装置 |
CN106384594A (zh) * | 2016-11-04 | 2017-02-08 | 湖南海翼电子商务股份有限公司 | 语音识别的车载终端及其方法 |
CN108428446A (zh) * | 2018-03-06 | 2018-08-21 | 北京百度网讯科技有限公司 | 语音识别方法和装置 |
CN109545214A (zh) * | 2018-12-26 | 2019-03-29 | 苏州思必驰信息科技有限公司 | 基于语音交互系统的消息分发方法及装置 |
-
2020
- 2020-12-29 CN CN202011598818.XA patent/CN112562673A/zh not_active Withdrawn
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1588537A (zh) * | 2004-09-29 | 2005-03-02 | 上海交通大学 | 建立基于语法模型的语义分析器的方法 |
CN102810096A (zh) * | 2011-06-02 | 2012-12-05 | 阿里巴巴集团控股有限公司 | 一种基于单字索引系统的检索方法和装置 |
CN106384594A (zh) * | 2016-11-04 | 2017-02-08 | 湖南海翼电子商务股份有限公司 | 语音识别的车载终端及其方法 |
CN108428446A (zh) * | 2018-03-06 | 2018-08-21 | 北京百度网讯科技有限公司 | 语音识别方法和装置 |
CN109545214A (zh) * | 2018-12-26 | 2019-03-29 | 苏州思必驰信息科技有限公司 | 基于语音交互系统的消息分发方法及装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113921003A (zh) * | 2021-07-27 | 2022-01-11 | 歌尔科技有限公司 | 语音识别方法、本地语音识别装置及智能电子设备 |
CN115410578A (zh) * | 2022-10-27 | 2022-11-29 | 广州小鹏汽车科技有限公司 | 语音识别的处理方法及其处理系统、车辆和可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11302337B2 (en) | Voiceprint recognition method and apparatus | |
CN108694940B (zh) | 一种语音识别方法、装置及电子设备 | |
CN111081280B (zh) | 与文本无关的语音情感识别方法及装置、用于识别情感的算法模型的生成方法 | |
CN108922553B (zh) | 用于音箱设备的波达方向估计方法及系统 | |
US20230352012A1 (en) | Speech skill jumping method for man machine dialogue, electronic device and storage medium | |
CN111145732B (zh) | 多任务语音识别后的处理方法及系统 | |
CN110910885B (zh) | 基于解码网络的语音唤醒方法和装置 | |
CN110503944B (zh) | 语音唤醒模型的训练和使用方法及装置 | |
US11527237B1 (en) | User-system dialog expansion | |
CN111179915A (zh) | 基于语音的年龄识别方法及装置 | |
CN112562673A (zh) | 语音识别方法及装置 | |
CN111627423A (zh) | Vad尾点检测方法、装置、服务器和计算机可读介质 | |
CN113205809A (zh) | 语音唤醒方法和装置 | |
CN112861521A (zh) | 语音识别结果纠错方法、电子设备及存储介质 | |
CN112863508A (zh) | 免唤醒交互方法和装置 | |
CN111611358A (zh) | 信息交互方法、装置、电子设备及存储介质 | |
CN111243604A (zh) | 支持多唤醒词的说话人识别神经网络模型的训练方法、说话人识别方法及系统 | |
CN111105803A (zh) | 快速识别性别的方法及装置、用于识别性别的算法模型的生成方法 | |
CN112614506B (zh) | 语音激活检测方法和装置 | |
CN109190116B (zh) | 语义解析方法、系统、电子设备及存储介质 | |
US11775070B2 (en) | Vibration control method and system for computer device | |
CN112837683B (zh) | 语音服务方法及装置 | |
KR20170048008A (ko) | 질의의도를 분석하기 위한 장치 및 방법 | |
CN109273004B (zh) | 基于大数据的预测性语音识别方法及装置 | |
CN110473524B (zh) | 语音识别系统的构建方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu. Applicant after: Sipic Technology Co.,Ltd. Address before: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu. Applicant before: AI SPEECH Co.,Ltd. |
|
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20210326 |