CN113763952B - 一种动态语音识别方法、装置、电子设备以及存储介质 - Google Patents
一种动态语音识别方法、装置、电子设备以及存储介质 Download PDFInfo
- Publication number
- CN113763952B CN113763952B CN202111034104.0A CN202111034104A CN113763952B CN 113763952 B CN113763952 B CN 113763952B CN 202111034104 A CN202111034104 A CN 202111034104A CN 113763952 B CN113763952 B CN 113763952B
- Authority
- CN
- China
- Prior art keywords
- scene
- preset
- identification
- active
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 230000000694 effects Effects 0.000 claims abstract description 34
- 238000013145 classification model Methods 0.000 claims description 28
- 238000012549 training Methods 0.000 claims description 23
- 230000015654 memory Effects 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 abstract description 5
- 230000008569 process Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 102100039424 Polyadenylate-binding protein 4 Human genes 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000011897 real-time detection Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明涉及语音处理领域,提供了一种动态语音识别方法、装置、电子设备以及存储介质,所述动态语音方法包括:获取多段音频数据,按照多个预设场景对每段音频数据进行音频识别,得到对应的多个第一识别结果;实时检测当前的活动窗口,识别活动窗口的活动场景,并根据活动场景在第一识别结果中查找活动窗口对应的第二识别结果;显示查找到的第二识别结果。本发明可以实现不同活动场景下音频识别结果的动态显示,提高语音识别的灵活性。
Description
技术领域
本发明涉及语音处理领域,尤其涉及一种动态语音识别方法、装置、电子设备以及计算机可读存储介质。
背景技术
语音识别技术通常是指将声音信号转化为文字或指令的过程,如在语音输入控制系统中,它使用户可以甩掉键盘,通过识别语音中的要求、请求或命令,做出正确的响应,在语音输入对话系统中,用户通过语音命令,可以方便地从远端的数据库系统中查询与提取有关信息,享受自然、友好的数据库检索服务,例如信息网络查询、医疗服务、银行服务等。
现有的语音输入系统,一般是根据业务场景进行语音识别,并输入语音识别结果。其语音识别结果根据所处的业务场景通常是固定不变的,当用户需要在多个应用中输入同一段语音时,由于各个应用所处的应用环境不同,则需要在多个不同应用反复切换语音识别结果,这样会带来在多个应用场景下语音识别的极大不便,从而影响语音识别的灵活度。
发明内容
为了解决上述技术问题本发明提供了一种动态语音识别方法、装置、电子设备以及计算机可读存储介质,可以实现不同活动场景下音频识别结果的动态显示,提高语音识别的灵活性。
第一方面,本发明提供了一种动态语音识别方法,包括:
获取多段音频数据,按照多个预设场景对每段所述音频数据进行音频识别,得到对应的多个第一识别结果;
实时检测当前的活动窗口,识别所述活动窗口的活动场景,并根据所述活动场景在所述第一识别结果中查找所述活动窗口对应的第二识别结果;
显示查找到的所述第二识别结果。
可以看出,本发明实施例首先通过获取多段音频数据,按照多个预设场景对每段所述音频数据进行音频识别,得到对应的多个第一识别结果,可以满足后续不同活动场景的识别结果显示的前提,保障后续音频的识别结果在应用过程中的快速匹配性;其次,本发明通过实时检测当前的活动窗口,并识别所述活动窗口的活动场景,以从所述第一识别结果中匹配所述活动窗口对应的第二识别结果,可以实现不同活动场景下音频识别结果的动态显示,提高语音识别的灵活性。
在第一方面的一种可能实现方式中,所述按照多个预设场景对每段所述音频数据进行音频识别,得到对应的多个第一识别结果,包括:
提取每段所述音频数据的音频特征,利用所述预设场景的声学模型计算每段所述音频特征的音素序列概率;
根据所述音素序列概率,利用所述预设场景的语言模型计算每段所述音频特征的文字序列;
根据每段所述音频数据的文字序列,得到多个所述第一识别结果。
在第一方面的一种可能实现方式中,所述识别所述活动窗口的活动场景,包括:
获取所述活动窗口的历史输入数据,将所述历史输入数据输入至训练完成的文本分类模型中,以识别所述历史输入数据对应的文档类别;
根据所述文档类别,确定所述活动窗口的活动场景。
在第一方面的一种可能实现方式中,所述将所述窗口名称输入至训练完成的文本分类模型中之前,还包括:
获取训练数据和其对应的标签,利用预构建文本分类模型中的输入门计算所述训练数据的状态值;
利用所述预构建文本分类模型中的遗忘门计算所述训练数据的激活值;
根据所述状态值和激活值计算所述训练数据的状态更新值;
利用所述预构建文本分类模型中的输出门计算所述状态更新值的窗口类别序列,得到所述训练数据的预测文档类别;
计算所述预测文档类别与所述标签的损失值;
在所述损失值大于预设阈值时,调整所述预构建文本分类模型的参数,并返回所述利用预构建文本分类模型中的输入门计算所述训练数据的状态值的步骤;
在所述损失值不大于预设阈值时,得到训练完成的文本分类模型。
在第一方面的一种可能实现方式中,所述预设场景包括默认场景,所述根据所述活动场景在所述第一识别结果中查找所述活动窗口对应的第二识别结果,包括:
将所述活动场景与所述预设场景进行匹配;
若匹配到与所述活动场景对应的预设场景,则获取所匹配到的场景对应的第一识别结果,作为所述活动窗口对应的第二识别结果;
若未匹配到与所述活动场景对应的预设场景,则获取所述默认场景对应的第一识别结果,作为所述活动窗口对应的第二识别结果。
在第一方面的一种可能实现方式中,所述将所述活动场景与所述预设场景进行匹配,包括:
获取所述活动场景的第一标识字段及所述预设场景的第二标识字段;
计算所述第一标识字段与所述第二标识字段的匹配度;
若所述匹配度小于预设匹配度,则所述当前活动窗口与所述预设场景匹配失败;
若所述匹配度不小于预设匹配度,则所述当前活动窗口与所述预设场景匹配成功。
在第一方面的一种可能实现方式中,所述计算所述第一标识字段与所述第二标识字段的匹配度:
利用下述公式计算所述第一标识字段与所述第二标识字段的匹配度:
其中,T(x,y)表示匹配度,xi表示第一标识字段中第i个字符串,yj表示第二标识字段中第j个字符串。
第二方面,本发明提供了一种动态语音识别装置,所述装置包括:
音频数据识别模块,用于获取多段音频数据,按照多个预设场景对每段所述音频数据进行音频识别,得到对应的多个第一识别结果;
音频结果匹配模块,用于实时检测当前的活动窗口,识别所述活动窗口的活动场景,并根据所述活动场景在所述第一识别结果中查找所述活动窗口对应的第二识别结果;
音频结果显示模块,用于显示查找到的所述第二识别结果。
第三方面,本发明提供一种电子设备,包括:
至少一个处理器;以及与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序,以使所述至少一个处理器能够执行如上述第一方面中任意一项所述的动态语音识别方法。
第四方面,本发明提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面中任意一项所述的动态语音识别方法。
可以理解的是,上述第二方面至第四方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的一种动态语音识别方法的详细流程示意图;
图2为本发明一实施例提供的动态语音识别方法的音频文件列表的数据结构图;
图3为本发明一实施例提供的一种动态语音识别装置的模块示意图;
图4为本发明一实施例提供的实现动态语音识别方法的电子设备的内部结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
参阅图1所示的流程图描述了本发明第一实施例提供的动态语音识别方法。其中,图1中描述的动态语音识别方法包括:
S1、获取多段音频数据,按照多个预设场景对每段所述音频数据进行音频识别,得到对应的多个第一识别结果。
本发明中,动态语音识别方法各个实施例中的执行主体可以是语音识别客户端,或者也可以是安装有语音识别客户端的终端设备,该终端设备可以是智能手机、个人计算机或服务器等设备。为便于描述,以下各实施例中省略执行主体进行阐述。
本发明实施例中,所述的多段音频数据包括会议音频数据、通讯音频数据或者医疗音频数据等,可选的,所述音频数据可以是通过录音笔等音频记录工具获取的音频数据。例如:用户启动语音识别客户端,该语音识别客户端识别所连接的录音笔,从该录音笔中读取多段会议音频数据,并按照多个预设场景对音频数据进行音频识别,得到对应的多个识别结果,并进行保存。需要说明的是,在本发明中,通过获取多段音频数据,以满足后续不同活动窗口中音频识别结果的输入。
进一步地,本发明实施例按照不同场景对每段所述音频数据进行音频识别,以得到每段音频数据在各个预设场景下的音频识别结果,保障后续活动窗口的音频识别结果匹配的前提,其中,所述预设场景可以为生物、通讯、教育或者医疗等场景。在本发明的另一实施例中,所述预设场景可以包括默认场景,该默认场景所对应的音频识别结果用于在启动语音识别客户端时进行显示,或者,也可以用于在无法识别活动窗口的场景时进行显示。
作为本发明的一个实施例,所述按照多个预设场景对每段所述音频数据进行音频识别,得到对应的多个第一识别结果,包括:提取每段所述音频数据的音频特征,利用所述预设场景的声学模型计算每段所述音频特征的音素序列概率,根据所述音素序列概率,利用所述预设场景的语言模型计算每段所述音频特征的文字序列,根据每段所述音频数据的文字序列,得到多个所述第一识别结果。
其中,所述音频特征的提取是指对所述音频数据进行信息压缩的过程,以提高后续音频数据的语音识别速度,可选的,所述音频特征的提取通过Mel频率倒谱系数(MelFrequency Cepstrum Coefficient,MFCC)方法实现。
进一步地,所述音素序列概率是指生成文字的音节概率,如文字为“信”,其音节包括:“x”、“i”以及“n”,则通过计算所述音频特征的音素序列概率,可以明确后续可以生成文字“信”的音节,从而得到所述音频特征的文字序列,可选的,本发明实施例中,所述声学模型包括隐马尔可夫模型。
进一步地,所述文字序列是指音素序列生成文字的信息关系,用于生成所述音频数据的音频识别结果,可选的,本发明实施例中,所述语言模型包括N-Gram语言模型。
应该了解的是,每个所述音频识别结果是基于不同预设场景进行语音识别生成,因此,本发明实施例根据所述多个第一识别结果,生成音频文件列表,可以保障后续在音频的识别结果应用过程中的快速匹配性,从而实现后续音频的识别结果在活动窗口的快速切换与动态显示。
参阅图2所示,是本发明一实施例提供的动态语音识别方法的音频文件列表的数据结构图,其中,LIST0表征音频文件列表的索引目录,SP1表示第一音频文件,SP2表示第二音频文件,SPN表示第N音频文件;S1表示第一音频文件的识别结果,S2表示第二音频文件的识别结果,SN表示第N音频文件的识别结果;S11表示第一音频文件在第一预设场景下的识别结果,S12表示第一音频文件在第二预设场景下的识别结果,S1N表示第一音频文件在第N预设场景下的识别结果;S21表示第二音频文件在第一预设场景下的识别结果,S22表示第二音频文件在第二预设场景下的识别结果,S2N表示第二音频文件在第N预设场景下的识别结果;SN1表示第N音频文件在第一预设场景下的识别结果,SN2表示第N音频文件在第二预设场景下的识别结果,SNN表示第N音频文件在第N预设场景下的识别结果。
S2、实时检测当前的活动窗口,识别所述活动窗口的活动场景,并根据所述活动场景,在所述第一识别结果中查找所述活动窗口对应的第二识别结果。
本发明实施例中,所述活动窗口的实时检测可以通过检测应用程序的窗口控件实现,所述应用程序是指需要通过语音识别客户端进行输入的目标程序,其响应于不同触发指令产生,例如:在PC端,所述应用程序可以通过浏览器加载指令产生,在移动端,所述应用程序可以通过聊天应用指令产生。应该了解的是,在所述应用程序中,存在多个窗口如应用程序APP1对应C11,C12,C13...C1N等N个窗口,和T11,T12,T13...T1N个识别结果,其中,需要说明的是,本发明实施例中,在上述预设场景中会对应一个识别结果,即T11→S11,T12→S12...1N→S1N,进一步地,本发明又一可选实施例中,在所述应用程序还设置默认场景和S10和其对应的识别结果T10,所述默认场景用于作为后续查找识别结果失败的活动场景,所述默认场景的识别结果用于作为查找失败的活动场景的识别结果。
进一步地,所述当前的活动窗口是指当前的工作窗口,或者也可以是指当前窗口,优选的,在有多个打开的窗口时,只有一个是活动窗口,它就是位于最上层,不为其他窗口遮掩的那个窗口。
作为本发明的一个实施例,所述识别所述活动窗口的活动场景,包括:获取所述活动窗口的历史输入数据,将所述历史输入数据输入至训练完成的文本分类模型中,以识别所述历史输入数据对应的文档类别;根据所述文档类别,确定所述活动窗口的活动场景。
其中,所述历史输入数据是指在所述活动窗口中已经存在的数据,如标题、格式以及文字等,所述文本分类模型可以通过长短期记忆网络(LSTM,Long Short-Term Memory)构建,所述LSTM网络用于解决循环神经网络长期依赖的问题,在本发明中,所述文本分类模型用于识别所述识别所述历史输入数据的文档类别,以确定所述活动窗口的活动场景。
进一步地,本发明另一实施例中,所述将所述历史输入数据输入至训练完成的文本分类模型中之前,还包括:获取训练数据和其对应的标签,利用预构建文本分类模型中的输入门计算所述训练数据的状态值;利用所述预构建文本分类模型中的遗忘门计算所述训练数据的激活值;根据所述状态值和激活值计算所述训练数据的状态更新值;利用所述预构建文本分类模型中的输出门计算所述状态更新值的文档类别序列,得到所述训练数据的预测文档类别;计算所述预测文档类别与所述标签的损失值;在所述损失值大于预设阈值时,调整所述预构建文本分类模型的参数,并返回所述利用预构建文本分类模型中的输入门计算所述训练数据的状态值的步骤,在所述损失值不大于所述预设阈值时,得到训练完成的文本分类模型。
其中,所述训练数据可以通过搜集与所述活动窗口具有相同特征或属性的窗口的文本数据得到,所述标签是指所述训练数据对应的真实文档类别,所述预设阈值可以设置为0.1,也可以根据实际业务场景设置,所述参数包括权重和偏置,所述预构建文本分类模型的参数调整可以通过随机梯度下降算法实现。
基于所述活动场景的识别,可以保障后续活动窗口的识别结果显示的前提。
需要说明的是,在所述活动窗口不具有历史输入数据时,本发明实施例通过根据所述活动窗口的窗口名称,确定所述活动窗口的活动场景。其中,所述窗口名称用于表征所述当前活动窗口的窗口身份。详细地,所述根据所述活动窗口的窗口名称,确定所述活动窗口的活动场景,包括:获取所述活动窗口的窗口名称,并将所述窗口名称输入至所述训练完成的文本分类模型中,以识别所述窗口名称的窗口类别,根据所述窗口类别,确定所述当前活动窗口的活动场景。
进一步地,本发明实施例中,所述根据所述活动场景在所述第一识别结果中查找所述活动窗口对应的第二识别结果,包括:将所述活动场景与所述预设场景进行匹配;若匹配到与所述活动场景对应的预设场景,则获取所匹配到的场景对应的第一识别结果,作为所述活动窗口对应的第二识别结果;若未匹配到与所述活动场景对应的预设场景,则获取所述默认场景对应的第一识别结果,作为所述活动窗口对应的第二识别结果。
进一步地,本发明一可选实施例中,所述将所述活动场景与所述预设场景进行匹配,包括:获取所述活动场景的第一标识字段及所述预设场景的第二标识字段;计算所述第一标识字段与所述第二标识字段的匹配度;若所述匹配度小于预设匹配度,则所述当前活动窗口与所述预设场景匹配失败;若所述匹配度不小于预设匹配度,则所述当前活动窗口与所述预设场景匹配成功。
其中,所述标识字段用于表征当前活动窗口和音频识别结果的身份类型,即根据所述标识字段可以识别出对应的场景身份信息,所述预设匹配度可以设置为0.94,也可以根据实际业务场景设置。
进一步地,本发明又一可选实施例中,利用下述公式计算所述第一标识字段与所述第二标识字段的匹配度:
其中,T(x,y)表示匹配度,xi表示第一标识字段中第i个字符串,yj表示第二标识字段中第j个字符串。
S3、显示查找到的所述第二识别结果。
本发明实施例中,可以在语音识别客户端显示查找到的所述第二识别结果,以供用户进行复制、粘贴等的输入操作。或者,也可以通过加载函数实现,如load()函数。
进一步地,本发明实施例在显示查找到的所述第二识别结果之后,还包括:返回执行S2的步骤,以持续检测所述应用程序中当前的活动窗口,及显示检测的活动窗口的识别结果,以支持所述应用程序中所有活动窗口的识别结果动态显示。
可以看出,本发明实施例首先通过获取多段音频数据,按照多个预设场景对每段所述音频数据进行音频识别,得到对应的多个第一识别结果,可以满足后续不同活动场景的识别结果显示的前提,保障后续音频的识别结果在应用过程中的快速匹配性;其次,本发明通过实时检测当前的活动窗口,并识别所述活动窗口的活动场景,以从所述第一识别结果中匹配所述活动窗口对应的第二识别结果,可以实现不同活动场景下音频识别结果的动态显示,提高语音识别的灵活性。
如图3所示,是本发明动态语音识别装置的功能模块图。
本发明所述动态语音识别装置300可以安装于电子设备中。根据实现的功能,所述动态语音识别装置可以包括音频数据识别模块301、音频结果匹配模块303以及音频结果显示模块303。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
所述音频数据识别模块301,用于获取多段音频数据,对每段所述音频数据进行音频识别,得到多个音频识别结果,根据所述多个音频识别结果,生成音频文件列表;
所述音频结果匹配模块302,用于实时检测当前的活动窗口,识别所述活动窗口的活动场景,并根据所述活动场景在所述第一识别结果中查找所述活动窗口对应的第二识别结果;
所述音频结果显示模块303,用于将匹配成功的音频识别结果显示在所述当前活动窗口中。
详细地,本发明实施例中所述动态语音识别装置300中的所述各模块在使用时采用与上述的图1和图2中所述的动态语音识别方法一样的技术手段,并能够产生相同的技术效果,这里不再赘述。
如图4所示,是本发明实现动态语音识别方法的电子设备的结构示意图。
所述电子设备4可以包括处理器40、存储器41和总线,还可以包括存储在所述存储器41中并可在所述处理器40上运行的计算机程序,如动态语音识别程序42。
其中,所述存储器41至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器41在一些实施例中可以是电子设备4的内部存储单元,例如该电子设备4的移动硬盘。所述存储器41在另一些实施例中也可以是电子设备4的外部存储设备,例如电子设备4上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(SecureDigital,SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器41还可以既包括电子设备4的内部存储单元也包括外部存储设备。所述存储器41不仅可以用于存储安装于电子设备4的应用软件及各类数据,例如动态语音识别程序42的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述处理器40在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器40是所述电子设备的控制核心(Control Unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器41内的程序或者模块(例如执行动态语音识别程序42等),以及调用存储在所述存储器41内的数据,以执行电子设备4的各种功能和处理数据。
所述总线可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器41以及至少一个处理器40等之间的连接通信。
图4仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图4示出的结构并不构成对所述电子设备4的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备4还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器40逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备4还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
进一步地,所述电子设备4还可以包括网络接口,可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备4与其他电子设备之间建立通信连接。
可选地,该电子设备4还可以包括用户接口,用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备4中处理的信息以及用于显示可视化的用户界面。
应该了解,所述实施例仅为说明之用,在专利发明范围上并不受此结构的限制。
所述电子设备4中的所述存储器41存储的动态语音识别程序42是多个计算机程序的组合,在所述处理器40中运行时,可以实现:
获取多段音频数据,按照多个预设场景对每段所述音频数据进行音频识别,得到对应的多个第一识别结果;
实时检测当前的活动窗口,识别所述活动窗口的活动场景,并根据所述活动场景在所述第一识别结果中查找所述活动窗口对应的第二识别结果;
显示查找到的所述第二识别结果。
具体地,所述处理器40对上述计算机程序的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
进一步地,所述电子设备4集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个非易失性计算机可读取存储介质中。所述计算机可读存储介质可以是易失性的,也可以是非易失性的。例如,所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
本发明还提供一种计算机可读存储介质,所述可读存储介质存储有计算机程序,所述计算机程序在被电子设备的处理器所执行时,可以实现:
获取多段音频数据,按照多个预设场景对每段所述音频数据进行音频识别,得到对应的多个第一识别结果;
实时检测当前的活动窗口,识别所述活动窗口的活动场景,并根据所述活动场景在所述第一识别结果中查找所述活动窗口对应的第二识别结果;
显示查找到的所述第二识别结果。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所发明的原理和新颖特点相一致的最宽的范围。
Claims (8)
1.一种动态语音识别方法,其特征在于,所述方法包括:
获取多段音频数据,按照多个预设场景对每段所述音频数据进行音频识别,得到对应的多个第一识别结果;
实时检测当前的活动窗口,识别所述活动窗口的活动场景,并根据所述活动场景在所述第一识别结果中查找所述活动窗口对应的第二识别结果;
显示查找到的所述第二识别结果;
其中,所述预设场景包括默认场景,所述根据所述活动场景在所述第一识别结果中查找所述活动窗口对应的第二识别结果,包括:将所述活动场景与所述预设场景进行匹配;若匹配到与所述活动场景对应的预设场景,则获取所匹配到的场景对应的第一识别结果,作为所述活动窗口对应的第二识别结果;若未匹配到与所述活动场景对应的预设场景,则获取所述默认场景对应的第一识别结果,作为所述活动窗口对应的第二识别结果;
所述将所述活动场景与所述预设场景进行匹配,包括:获取所述活动场景的第一标识字段及所述预设场景的第二标识字段;计算所述第一标识字段与所述第二标识字段的匹配度;若所述匹配度小于预设匹配度,则所述活动窗口与所述预设场景匹配失败;若所述匹配度不小于预设匹配度,则所述活动窗口与所述预设场景匹配成功。
2.如权利要求1所述的动态语音识别方法,其特征在于,所述按照多个预设场景对每段所述音频数据进行音频识别,得到对应的多个第一识别结果,包括:
提取每段所述音频数据的音频特征,利用所述预设场景的声学模型计算每段所述音频特征的音素序列概率;
根据所述音素序列概率,利用所述预设场景的语言模型计算每段所述音频特征的文字序列;
根据每段所述音频数据的文字序列,得到多个所述第一识别结果。
3.如权利要求1所述的动态语音识别方法,其特征在于,所述识别所述活动窗口的活动场景,包括:
获取所述活动窗口的历史输入数据,将所述历史输入数据输入至训练完成的文本分类模型中,以识别所述历史输入数据对应的文档类别;
根据所述文档类别,确定所述活动窗口的活动场景。
4.如权利要求3所述的动态语音识别方法,其特征在于,将所述窗口名称输入至训练完成的文本分类模型中之前,还包括:
获取训练数据和其对应的标签,利用预构建文本分类模型中的输入门计算所述训练数据的状态值;
利用所述预构建文本分类模型中的遗忘门计算所述训练数据的激活值;
根据所述状态值和激活值计算所述训练数据的状态更新值;
利用所述预构建文本分类模型中的输出门计算所述状态更新值的窗口类别序列,得到所述训练数据的预测文档类别;
计算所述预测文档类别与所述标签的损失值;
在所述损失值大于预设阈值时,调整所述预构建文本分类模型的参数,并返回所述利用预构建文本分类模型中的输入门计算所述训练数据的状态值的步骤;
在所述损失值不大于所述预设阈值时,得到训练完成的文本分类模型。
6.一种动态语音识别装置,其特征在于,所述装置包括:
音频数据识别模块,用于获取多段音频数据,按照多个预设场景对每段所述音频数据进行音频识别,得到对应的多个第一识别结果;
音频结果匹配模块,用于实时检测当前的活动窗口,识别所述活动窗口的活动场景,并根据所述活动场景在所述第一识别结果中查找所述活动窗口对应的第二识别结果;
所述预设场景包括默认场景,所述根据所述活动场景在所述第一识别结果中查找所述活动窗口对应的第二识别结果,包括:将所述活动场景与所述预设场景进行匹配;若匹配到与所述活动场景对应的预设场景,则获取所匹配到的场景对应的第一识别结果,作为所述活动窗口对应的第二识别结果;若未匹配到与所述活动场景对应的预设场景,则获取所述默认场景对应的第一识别结果,作为所述活动窗口对应的第二识别结果;
所述将所述活动场景与所述预设场景进行匹配,包括:获取所述活动场景的第一标识字段及所述预设场景的第二标识字段;计算所述第一标识字段与所述第二标识字段的匹配度;若所述匹配度小于预设匹配度,则所述活动窗口与所述预设场景匹配失败;若所述匹配度不小于预设匹配度,则所述活动窗口与所述预设场景匹配成功;
音频结果显示模块,用于显示查找到的所述第二识别结果。
7.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至5中任意一项所述的动态语音识别方法。
8.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5中任意一项所述的动态语音识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111034104.0A CN113763952B (zh) | 2021-09-03 | 2021-09-03 | 一种动态语音识别方法、装置、电子设备以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111034104.0A CN113763952B (zh) | 2021-09-03 | 2021-09-03 | 一种动态语音识别方法、装置、电子设备以及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113763952A CN113763952A (zh) | 2021-12-07 |
CN113763952B true CN113763952B (zh) | 2022-07-26 |
Family
ID=78793033
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111034104.0A Active CN113763952B (zh) | 2021-09-03 | 2021-09-03 | 一种动态语音识别方法、装置、电子设备以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113763952B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109817236A (zh) * | 2019-02-01 | 2019-05-28 | 安克创新科技股份有限公司 | 基于场景的音频降噪方法、装置、电子设备和存储介质 |
CN110674482A (zh) * | 2019-08-13 | 2020-01-10 | 武汉攀升鼎承科技有限公司 | 一种多场景应用计算机 |
CN111049996A (zh) * | 2019-12-26 | 2020-04-21 | 苏州思必驰信息科技有限公司 | 多场景语音识别方法及装置、和应用其的智能客服系统 |
CN112750448A (zh) * | 2020-08-07 | 2021-05-04 | 腾讯科技(深圳)有限公司 | 声音场景的识别方法、装置、设备及存储介质 |
US11070891B1 (en) * | 2019-12-10 | 2021-07-20 | Amazon Technologies, Inc. | Optimization of subtitles for video content |
CN113327586A (zh) * | 2021-06-01 | 2021-08-31 | 深圳市北科瑞声科技股份有限公司 | 一种语音识别方法、装置、电子设备以及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10930301B1 (en) * | 2019-08-27 | 2021-02-23 | Nec Corporation | Sequence models for audio scene recognition |
-
2021
- 2021-09-03 CN CN202111034104.0A patent/CN113763952B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109817236A (zh) * | 2019-02-01 | 2019-05-28 | 安克创新科技股份有限公司 | 基于场景的音频降噪方法、装置、电子设备和存储介质 |
CN110674482A (zh) * | 2019-08-13 | 2020-01-10 | 武汉攀升鼎承科技有限公司 | 一种多场景应用计算机 |
US11070891B1 (en) * | 2019-12-10 | 2021-07-20 | Amazon Technologies, Inc. | Optimization of subtitles for video content |
CN111049996A (zh) * | 2019-12-26 | 2020-04-21 | 苏州思必驰信息科技有限公司 | 多场景语音识别方法及装置、和应用其的智能客服系统 |
CN112750448A (zh) * | 2020-08-07 | 2021-05-04 | 腾讯科技(深圳)有限公司 | 声音场景的识别方法、装置、设备及存储介质 |
CN113327586A (zh) * | 2021-06-01 | 2021-08-31 | 深圳市北科瑞声科技股份有限公司 | 一种语音识别方法、装置、电子设备以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113763952A (zh) | 2021-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107291783B (zh) | 一种语义匹配方法及智能设备 | |
US10114809B2 (en) | Method and apparatus for phonetically annotating text | |
CN110415679B (zh) | 语音纠错方法、装置、设备和存储介质 | |
CN110298019A (zh) | 命名实体识别方法、装置、设备及计算机可读存储介质 | |
CN110020422A (zh) | 特征词的确定方法、装置和服务器 | |
CN112507706B (zh) | 知识预训练模型的训练方法、装置和电子设备 | |
CN113326702B (zh) | 语义识别方法、装置、电子设备及存储介质 | |
CN112926308B (zh) | 匹配正文的方法、装置、设备、存储介质以及程序产品 | |
CN111460117B (zh) | 对话机器人意图语料生成方法、装置、介质及电子设备 | |
CN112836521A (zh) | 问答匹配方法、装置、计算机设备及存储介质 | |
KR20210022819A (ko) | 전자 장치 및 딥 러닝 기반 대화형 메신저 운영 방법 | |
CN113220835A (zh) | 文本信息处理方法、装置、电子设备以及存储介质 | |
CN111126084B (zh) | 数据处理方法、装置、电子设备和存储介质 | |
US20210141865A1 (en) | Machine learning based tenant-specific chatbots for performing actions in a multi-tenant system | |
CN111444321B (zh) | 问答方法、装置、电子设备和存储介质 | |
CN109408175B (zh) | 通用高性能深度学习计算引擎中的实时交互方法及系统 | |
CN113220828B (zh) | 意图识别模型处理方法、装置、计算机设备及存储介质 | |
CN110827799A (zh) | 用于处理语音信号的方法、装置、设备和介质 | |
CN114090792A (zh) | 基于对比学习的文档关系抽取方法及其相关设备 | |
CN111858966B (zh) | 知识图谱的更新方法、装置、终端设备及可读存储介质 | |
US10282417B2 (en) | Conversational list management | |
CN113763952B (zh) | 一种动态语音识别方法、装置、电子设备以及存储介质 | |
CN114490986B (zh) | 计算机实施的数据挖掘方法、装置、电子设备及存储介质 | |
CN114242047A (zh) | 一种语音处理方法、装置、电子设备及存储介质 | |
CN114925206A (zh) | 人工智能体、语音信息识别方法、存储介质和程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |