CN113270104B - 语音的人工智能处理方法及系统 - Google Patents
语音的人工智能处理方法及系统 Download PDFInfo
- Publication number
- CN113270104B CN113270104B CN202110815613.0A CN202110815613A CN113270104B CN 113270104 B CN113270104 B CN 113270104B CN 202110815613 A CN202110815613 A CN 202110815613A CN 113270104 B CN113270104 B CN 113270104B
- Authority
- CN
- China
- Prior art keywords
- time
- max
- output result
- hidden layer
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 17
- 238000003672 processing method Methods 0.000 title claims abstract description 5
- 238000000034 method Methods 0.000 claims abstract description 48
- 238000012545 processing Methods 0.000 claims description 23
- 238000004364 calculation method Methods 0.000 claims description 20
- 230000015654 memory Effects 0.000 claims description 16
- 238000004891 communication Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 13
- 239000000284 extract Substances 0.000 claims description 3
- 230000008901 benefit Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 14
- 230000005540 biological transmission Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 5
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Navigation (AREA)
Abstract
本申请实施例提供一种语音的人工智能处理方法及系统,方法包括:终端设备采集目标对象的语音数据,将该语音数据按采集时间确定为多个时刻的输入数据;终端设备将多个时刻的输入数据分别输入到RNN模型的输入层进行计算得到隐层输出结果S以及输出层输出结果O,依据输出结果确定多个时刻对应的多个最大置信率。本申请提供的技术方案具有语音识别准确度高的优点。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种语音的人工智能处理方法及系统。
背景技术
语音为人们发出的声音,随着人工智能(AI)领域的发展,通过人工智能对语音进行识别越来越多,AI处理语音具有优势,但是现有的语音识别技术对语音识别的准确度低,影响了用户的体验度。
发明内容
本申请实施例公开了一种语音的人工智能处理方法,能够提高语音识别的准确率,进而提高用户的体验度。
第一方面,提供一种语音的人工智能处理方法,所述方法应用于终端设备,其中,所述方法包括如下步骤:
终端设备采集目标对象的语音数据,将该语音数据按采集时间确定为多个时刻的输入数据;
终端设备将多个时刻的输入数据分别输入到RNN模型的输入层进行计算得到RNN模型的隐层输出结果S以及输出层输出结果O,依据输出结果确定多个时刻对应的多个最大置信率Cmax;
终端设备提取多个Cmax中的最小值Cmax min;若Cmax min小于第一阈值,确定Cmax min对应的时刻t以及对应的第一字,获取时刻t的后一时刻t+1的最大置信率Cmax t+1;若Cmax t+1大于第二阈值,将t+1的隐层输出结果St+1传递给上一时刻t的隐层,终端设备依据隐层输出结果St+1对当前时刻t的输出结果进行调整得到调整后的输出结果Ot’,依据输出结果Ot’得到当前时刻的第二字。
可选的,所述终端设备依据隐层输出结果St+1对当前时刻t的输出结果进行调整得到调整后的输出结果Ot’具体包括:
采用下一时刻t+1的隐层输出结果替换上一时刻t-1的隐层输出结果直接计算Ot’;具体包括:
其中,W表示权值,Xt表示t时刻的输入层的输入数据,St+1表示t+1时刻的隐层的输出结果,St ’表示t时刻调整后的隐层的输出结果; OtA ’表示t时刻的输出层的调整后的输出结果。
可选的,所述终端设备依据隐层输出结果St+1对当前时刻t的输出结果进行调整得到调整后的输出结果Ot’具体包括:
采用下一时刻t+1的隐层输出结果和上一时刻t-1的隐层输出结果的平均值计算Ot’;具体包括:
其中,W表示权值,Xt表示t时刻的输入层的输入数据,St-1表示t-1时刻的隐层的输出结果;St+1表示t+1时刻的隐层的输出结果,St ’表示t时刻调整后的隐层的输出结果;OtB ’表示t时刻的输出层的调整后的输出结果。
可选的,将所述OtA ’或所述OtB ’的最大置信率对应的字确定为所述第二字。
可选的,所述终端设备依据隐层输出结果St+1对当前时刻t的输出结果进行调整得到调整后的输出结果Ot’,依据输出结果Ot’得到当前时刻的第二字具体包括:
依据St+1分别执行计算得到输出结果OtA’、OtB’;提取OtA’、OtB’的最大置信率Cmax A和Cmax B;若Cmax A和Cmax B均对应同一个字,确定该同一个字为第二字,若Cmax A和Cmax B不为同一个字,确定Cmax min、Cmax A和Cmax B中最大值对应的字为所述第二个字;其中;
其中,W表示权值,Xt表示t时刻的输入层的输入数据,St-1表示t-1时刻的隐层的输出结果;St+1表示t+1时刻的隐层的输出结果,St ’表示t时刻调整后的隐层的输出结果; OtA ’表示t时刻的输出层的调整后的一个输出结果,OtB ’表示t时刻的输出层的调整后的另一个输出结果。
可选的,所述终端设备依据隐层输出结果St+1对当前时刻t的输出结果进行调整得到调整后的输出结果Ot’,依据输出结果Ot’得到当前时刻的第二字具体包括:
依据St+1计算得到OtA’、OtB’、StA’、StB’,将StA’、StB’传递给隐层的下一时刻t+1计算得到更新后的St+1A’、St+1B’;将St+1A’、St+1B’回传给当前时刻t执行下一轮的计算得到输出结果OtA’’、OtB’’;提取OtA’、OtB’的最大置信率Cmax A和Cmax B;提取OtA’’、OtB’’的最大置信率Cmax A’和Cmax B’;从Cmax min、Cmax A、Cmax B、Cmax A’、Cmax B’提取最大值,确定最大值对应的字为所述第二字;
其中,W表示权值,Xt表示t时刻的输入层的输入数据,St-1表示t-1时刻的隐层的输出结果;St+1表示t+1时刻的隐层的输出结果,St ’表示t时刻调整后的隐层的输出结果; OtA ’表示t时刻的输出层的调整后的一个输出结果,OtB ’表示t时刻的输出层的调整后的另一个输出结果。
第二方面,提供一种语音的人工智能处理系统,所述系统包括:
采集单元,用于采集目标对象的语音数据;
处理单元,用于将该语音数据按采集时间确定为多个时刻的输入数据;将多个时刻的输入数据分别输入到RNN模型的输入层进行计算得到RNN模型的隐层输出结果S以及输出层输出结果O,依据输出结果确定多个时刻对应的多个最大置信率Cmax;提取多个Cmax中的最小值Cmax min;若Cmax min小于第一阈值,确定Cmax min对应的时刻t以及对应的第一字,获取时刻t的后一时刻t+1的最大置信率Cmax t+1;若Cmax t+1大于第二阈值,将t+1的隐层输出结果St+1传递给上一时刻t的隐层,终端设备依据隐层输出结果St+1对当前时刻t的输出结果进行调整得到调整后的输出结果Ot’,依据输出结果Ot’得到当前时刻的第二字。
可选的,
所述处理单元,具体用于依据St+1分别执行计算得到输出结果OtA’、OtB’;提取OtA’、OtB’的最大置信率Cmax A和Cmax B;若Cmax A和Cmax B均对应同一个字,确定该同一个字为第二字,若Cmax A和Cmax B不为同一个字,确定Cmax min、Cmax A和Cmax B中最大值对应的字为所述第二个字;其中;
其中,W表示权值,Xt表示t时刻的输入层的输入数据,St-1表示t-1时刻的隐层的输出结果;St+1表示t+1时刻的隐层的输出结果,St ’表示t时刻调整后的隐层的输出结果;OtA ’表示t时刻的输出层的调整后的一个输出结果,OtB ’表示t时刻的输出层的调整后的另一个输出结果。
可选的,
处理单元,具体用于采用下一时刻t+1的隐层输出结果替换上一时刻t-1的隐层输出结果直接计算Ot’;具体包括:
其中,W表示权值,Xt表示t时刻的输入层的输入数据,St+1表示t+1时刻的隐层的输出结果,St ’表示t时刻调整后的隐层的输出结果; OtA ’表示t时刻的输出层的调整后的输出结果。
可选的,
处理单元,具体用于采用下一时刻t+1的隐层输出结果和上一时刻t-1的隐层输出结果的平均值计算Ot’;具体包括:
其中,W表示权值,Xt表示t时刻的输入层的输入数据,St-1表示t-1时刻的隐层的输出结果;St+1表示t+1时刻的隐层的输出结果,St ’表示t时刻调整后的隐层的输出结果; OtB ’表示t时刻的输出层的调整后的输出结果。
可选的,
处理单元,具体用于将所述OtA ’或所述OtB ’的最大置信率对应的字确定为所述第二字。
可选的,
处理单元,具体用于依据St+1计算得到OtA’、OtB’、StA’、StB’,将StA’、StB’传递给隐层的下一时刻t+1计算得到更新后的St+1A’、St+1B’;将St+1A’、St+1B’回传给当前时刻t执行下一轮的计算得到输出结果OtA’’、OtB’’;提取OtA’、OtB’的最大置信率Cmax A和Cmax B;提取OtA’’、OtB’’的最大置信率Cmax A’和Cmax B’;从Cmax min、Cmax A、Cmax B、Cmax A’、Cmax B’提取最大值,确定最大值对应的字为所述第二字;
其中,W表示权值,Xt表示t时刻的输入层的输入数据,St-1表示t-1时刻的隐层的输出结果;St+1表示t+1时刻的隐层的输出结果,St ’表示t时刻调整后的隐层的输出结果;OtA ’表示t时刻的输出层的调整后的一个输出结果,OtB ’表示t时刻的输出层的调整后的另一个输出结果。
本申请实施例第三方面提供一种终端设备,包括处理器、存储器、通信接口,以及一个或多个程序,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器执行,所述程序包括用于执行第一方面所述的方法中的步骤的指令。
本申请实施例第四方面公开了一种计算机可读存储介质,存储用于电子数据交换的计算机程序,其中,所述计算机程序使得计算机执行第一方面所述的方法。
本申请实施例第五方面公开了一种计算机程序产品,其中,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。
本申请提供的技术方案,对于RNN模型来说,其隐层输出结果均为正向传递,即通过前一时刻的隐层输出结果传递到当前时刻t进而进行运算,类似如图2所示的示意图,但是此种方式的运算对于后一时刻,即未来的结果的影响未进行考虑,但是对于未来的结果在语音数据中对前面时刻的结果也会有影响,因此需要考虑未来的结果,另外,通过前一时刻的隐层输出结果传递到当前时刻t进而进行运算若称为正向传递,那么通过后一时刻的隐层输出结果传递到当前时刻t进而进行运算可以称为反向传递,对于反向传递,若类似正向传递所有的时刻均执行反向传递,首先计算量较大,其次对于置信率较高的时刻来说,若通过反向传递的隐层数据进行运算反而会影响其精度,基于此种情况,本申请的技术方案仅仅对最大置信率的最小值的语音数据执行反向的运算,这样提高语音识别的准确度。
附图说明
以下对本申请实施例用到的附图进行介绍。
图1是本申请实施例提供的一种终端设备的结构示意图;
图2是一种RNN示意图;
图3是本申请实施例提供的一种语音的人工智能处理方法的流程示意图;
图4是本申请实施例提供的一种RNN示意图;
图5是本申请实施例提供的一种语音的人工智能处理系统的结构示意图。
具体实施方式
下面结合本申请实施例中的附图对本申请实施例进行描述。
本申请中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/“,表示前后关联对象是一种“或”的关系。
本申请实施例中出现的“多个”是指两个或两个以上。本申请实施例中出现的第一、第二等描述,仅作示意与区分描述对象之用,没有次序之分,也不表示本申请实施例中对设备个数的特别限定,不能构成对本申请实施例的任何限制。本申请实施例中出现的“连接”是指直接连接或者间接连接等各种连接方式,以实现设备间的通信,本申请实施例对此不做任何限定。
本申请实施例的终端设备是一种具有无线通信功能的设备,可以称为终端(terminal)、用户设备(user equipment,UE)、移动台(mobile station,MS)、移动终端(mobile terminal,MT)、接入终端设备、车载终端设备、工业控制终端设备、UE单元、UE站、移动站、远方站、远程终端设备、移动设备、UE终端设备、无线通信设备、UE代理或UE装置等。终端设备可以是固定的或者移动的。需要说明的是,终端设备可以支持至少一种无线通信技术,例如LTE、新空口(new radio,NR)等。例如,终端设备可以是手机(mobile phone)、平板电脑(pad)、台式机、笔记本电脑、一体机、车载终端、虚拟现实(virtual reality,VR)终端设备、增强现实(augmented reality,AR)终端设备、工业控制(industrial control)中的无线终端、无人驾驶(self driving)中的无线终端、远程手术(remote medicalsurgery)中的无线终端、智能电网(smart grid)中的无线终端、运输安全(transportationsafety)中的无线终端、智慧城市(smart city)中的无线终端、智慧家庭(smart home)中的无线终端、蜂窝电话、无绳电话、会话启动协议(session initiation protocol,SIP)电话、无线本地环路(wireless local loop,WLL)站、个人数字助理(personal digitalassistant,PDA)、具有无线通信功能的手持设备、计算设备或连接到无线调制解调器的其它处理设备、可穿戴设备、未来移动通信网络中的终端设备或者未来演进的公共移动陆地网络(public land mobile network,PLMN)中的终端设备等。
参阅图1,图1提供了一种终端设备的结构示意图,如图1所示,该终端具体可以包括:处理器、存储器、通信单元、音频采集单元和总线,其中,处理器、存储器、通信单元、音频采集单元通过总线连接。
参阅图2,图2提供一种RNN(Recurrent Neural Network,循环神经网络)的示意图,RNN是一类专门用于处理时序数据样本的神经网络,它的每一层不仅输出给下一层,同时还输出一个隐状态,给当前层在处理下一个样本时使用。就像卷积神经网络可以很容易地扩展到具有很大长度和宽度数据,而且一些卷积神经网络还可以处理不同尺寸的图像,循环神经网络可以扩展到更长的序列数据,而且大多数的循环神经网络可以处理序列长度不同的语音数据(for 循环,变量长度可变)。它可以看作是带自循环反馈的全连接神经网络。
对于语音识别,语音出现的位置很重要,因此,为了提高语音识别的准确度,将前一时刻的语音的识别结果传递给下一个时刻执行语音识别得到结果,对于中文的识别来说,其可以为一个字的发音,参阅图2,若当前时刻为t,那么上一个时刻t-1的一个字的发音可以被作为输入Xt-1;在t-1时刻,计算得到t-1时刻的输出结果Ot-1;同时将隐层的计算结果St-1输出给下一时刻(即当前时刻t)作为t的计算结果的计算,此种传递为正向传递,即上一时刻向下一时刻的传递,进而体现语音的位置实现对语音识别结果的准确度的提高。
示例的,上述RNN语音识别方法的计算公式可以如下所示:
以t-1时刻为例:
依据Ot-1确定t-1时刻的输出结果字的置信率;对于t-1时刻,若t-1时刻为开始时刻,则St-2=0。
对于t时刻,
其中,W表示权值,Xt-1表示t-1时刻的输入层的输入数据(t-1时刻输入的语音数据),Xt表示t时刻的输入层的输入数据(t时刻输入的语音数据),St-1表示t-1时刻的隐层的输出结果,St-2表示t-2时刻的隐层的输出结果;Ot-1表示t-1时刻的输出层的输出结果,Ot表示t时刻的输出层的输出结果。
f表示激活函数,该激活函数包括但不限于:sigmoid函数、tanh函数等等。
当然在实际应用中,还可以使用其他的激活函数。 参阅图3,图3提供了一种语音的人工智能处理方法,所述方法应用于如图1所示的终端设备,上述终端设备的具体结构可以如图1所示的,上述终端设备可以为智能手机、智能音箱等等,其中,所述方法包括如下步骤:
步骤S301、终端设备采集目标对象的语音数据,将该语音数据按采集时间确定为多个时刻的输入数据;
上述目标对象具体可以为用户、人员等等。上述语音数据可以为一句话或多句话等等,上述语音数据至少包括三个以上的字。
步骤S302、终端设备将多个时刻的输入数据分别输入到RNN模型的输入层进行计算得到RNN模型的隐层输出结果S以及输出层输出结果O,依据输出结果确定多个时刻对应的多个最大置信率Cmax;
步骤S303、终端设备提取多个Cmax中的最小值Cmax min;若Cmax min小于第一阈值,确定Cmax min对应的时刻t以及对应的第一字(即t时刻的最大置信率对应的字),获取时刻t的后一时刻t+1的最大置信率Cmax t+1;若Cmax t+1大于第二阈值,将t+1的隐层输出结果St+1传递给上一时刻t的隐层,终端设备依据隐层输出结果St+1对当前时刻t的输出结果进行调整得到调整后的输出结果Ot’,依据输出结果Ot’得到当前时刻的第二字。
示例的,可以用第二字替换第一字。
上述依据输出结果确定多个时刻对应的多个最大置信率Cmax可以采用现有的RNN的方式来获取,本申请并不涉及到最大置信率Cmax的获取方式的改进,这里不再赘述。上述置信率也可以称为置信度或后验概率。
示例的,上述第二阈值(例如85%)大于第一阈值(例如50%)。
示例的,上述第二字可以与第一字相同,也可以与第一字不相同,具体的实现方式可以参见下述描述,这里不再赘述。
对于RNN模型来说,其隐层输出结果均为正向传递,即通过前一时刻的隐层输出结果传递到当前时刻t进而进行运算,类似如图2所示的示意图,但是此种方式的运算对于后一时刻,即未来的结果的影响未进行考虑,但是对于未来的结果在语音数据中对前面时刻的结果也会有影响,因此需要考虑未来的结果,另外,通过前一时刻的隐层输出结果传递到当前时刻t进而进行运算若称为正向传递,那么通过后一时刻的隐层输出结果传递到当前时刻t进而进行运算可以称为反向传递,对于反向传递,若类似正向传递所有的时刻均执行反向传递,首先计算量较大,其次对于置信率较高的时刻来说,若通过反向传递的隐层数据进行运算反而会影响其精度,基于此种情况,本申请的技术方案仅仅对最大置信率的最小值的语音数据执行反向的运算,这样提高语音识别的准确度。
其正反向运算的示意图如图4所示。
参阅图4,这里假设t时刻的最大置信率在所有时刻的最大置信率中最低,那么对于t时刻,其识别出错的概率相对于其他时刻来说较高,此时,需要将未来时刻(即下一时刻t+1)的隐层结果返回给当前时刻,进而对当前时刻t的输出结果进行调整,但是对于当前时刻t调整时,需要确定t+1的最大置信率需要大于一定的值,即第二阈值(例如85%或80%),如图4所示,未来时刻(t+1)的隐层输出结果不仅需要输出给下一时刻(即t+2时刻),也需要反传给当前时刻(t),这样对当前时刻t执行输出结果的调整。
示例的,如图4所示,终端设备依据隐层输出结果St+1对当前时刻t的输出结果进行调整得到调整后的输出结果Ot’具体可以采用下述方式中的任意一种。
方式A,采用下一时刻t+1的隐层输出结果替换上一时刻t-1的隐层输出结果直接计算Ot’;具体的计算公式如下所示:
其中,W表示权值,Xt表示t时刻的输入层的输入数据(t时刻输入的语音数据),St+1表示t+1时刻的隐层的输出结果,St ’表示t时刻调整后的隐层的输出结果; Ot ’表示t时刻的输出层的调整后的输出结果。
方式B,采用下一时刻t+1的隐层输出结果和上一时刻t-1的隐层输出结果的平均值计算Ot’;具体的计算公式如下所示:
其中,W表示权值,Xt表示t时刻的输入层的输入数据(t时刻输入的语音数据),St-1表示t-1时刻的隐层的输出结果;St+1表示t+1时刻的隐层的输出结果,St ’表示t时刻调整后的隐层的输出结果; Ot ’表示t时刻的输出层的调整后的输出结果。
示例的,上述依据输出结果Ot’得到当前时刻的第二字具体可以包括:
将方式A或方式B计算的Ot’的最大置信率Cmax t’对应的字确定为第二字。
示例的,上述终端设备依据隐层输出结果St+1对当前时刻t的输出结果进行调整得到调整后的输出结果Ot’,依据输出结果Ot’得到当前时刻的第二字具体可以包括:
依据上述方式A和方式B分别计算得到输出结果OtA’、OtB’;提取OtA’、OtB’的最大置信率Cmax A和Cmax B;若Cmax A和Cmax B均对应同一个字,确定该同一个字为第二字,若Cmax A和Cmax B不为同一个字,确定Cmax min、Cmax A和Cmax B中最大值对应的字为第二个字。
示例的,上述OtA’的计算方式可以参见上述方式A的Ot’计算公式,上述OtB’的计算方式可以参见上述方式B的Ot’计算公式,具体可以采用下述描述:
示例的,上述终端设备依据隐层输出结果St+1对当前时刻t的输出结果进行调整得到调整后的输出结果Ot’具体可以包括:
采用上述方式A以及方式B计算得到OtA’、OtB’、StA’、StB’,将StA’、StB’传递给隐层的下一时刻t+1计算得到更新后的St+1A’、St+1B’;将St+1A’、St+1B’回传给当前时刻t执行下一轮的计算得到输出结果OtA’’、OtB’’;提取OtA’、OtB’的最大置信率Cmax A和Cmax B;提取OtA’’、OtB’’的最大置信率Cmax A’和Cmax B’;从Cmax min、Cmax A、Cmax B、Cmax A’、Cmax B’提取最大值,确定最大值对应的字为第二字。
上述提取OtA’、OtB’的最大置信率Cmax A和Cmax B可以采用现有的RNN的方式来获取,本申请并不涉及到最大置信率的获取方式的改进,这里不再赘述。
上述St+1A’、St+1B’、OtA’’、OtB’’的计算公式可以参见上述方式A、方式B的计算方式,仅仅是输入有所区别,具体可以包括:
上述示例的技术方案采用循环二次的方式来进一步提高语音识别的精确度,即反向传输二次,第一次反向传输为,将t+1时刻的隐层输出结果S t+1反向传输至t时刻计算得到两个输出结果和两个隐层输出结果,然后确定两个输出结果对应的两个最大置信率,然后将两个隐层输出结果正向传输至t+1时刻计算得到两个隐层输出结果St+1A’、St+1B’;上述St+1A’、St+1B’采用同样的方式(即St+1A’采用方式A计算、St+1B’采用方式B计算);再次将St+1A’、St+1B’反向传输至t时刻采用同样的方式计算得到两个输出结果OtA’’、OtB’’,最后从Cmax min、Cmax A、Cmax B、Cmax A’、Cmax B’提取最大值对应的字确定为第二个字。
参阅图5,图5提供一种语音的人工智能处理系统,所述系统包括:
采集单元501,用于采集目标对象的语音数据;
处理单元502,用于将该语音数据按采集时间确定为多个时刻的输入数据;将多个时刻的输入数据分别输入到RNN模型的输入层进行计算得到RNN模型的隐层输出结果S以及输出层输出结果O,依据输出结果确定多个时刻对应的多个最大置信率Cmax;提取多个Cmax中的最小值Cmax min;若Cmax min小于第一阈值,确定Cmax min对应的时刻t以及对应的第一字,获取时刻t的后一时刻t+1的最大置信率Cmax t+1;若Cmax t+1大于第二阈值,将t+1的隐层输出结果St+1传递给上一时刻t的隐层,终端设备依据隐层输出结果St+1对当前时刻t的输出结果进行调整得到调整后的输出结果Ot’,依据输出结果Ot’得到当前时刻的第二字。
参阅图5所示的系统中的处理单元还用于执行如图3所示方法实施例中的示例方案或细化方案,在此不再赘述。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,当其在网络设备上运行时,图3所示的方法流程得以实现。
本申请实施例还提供一种计算机程序产品,当所述计算机程序产品在终端上运行时,图3所示的方法流程得以实现。
本申请实施例还提供一种终端,包括处理器、存储器、通信接口,以及一个或多个程序,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器执行,所述程序包括用于执行图3所示实施例的方法中的步骤的指令。
上述主要从方法侧执行过程的角度对本申请实施例的方案进行了介绍。可以理解的是,电子设备为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模板。本领域技术人员应该很容易意识到,结合本文中所提供的实施例描述的各示例的单元及算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例可以根据上述方法示例对电子设备进行功能单元的划分,例如,可以对应各个功能划分各个功能单元,也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。需要说明的是,本申请实施例中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模板并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例上述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器(英文:Read-Only Memory ,简称:ROM)、随机存取器(英文:Random Access Memory,简称:RAM)、磁盘或光盘等。
以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种语音的人工智能处理方法,其特征在于,所述方法应用于终端设备,其中,所述方法包括如下步骤:
终端设备采集目标对象的语音数据,将该语音数据按采集时间确定为多个时刻的输入数据;
终端设备将多个时刻的输入数据分别输入到RNN模型的输入层进行计算得到RNN模型的隐层输出结果S以及输出层输出结果O,依据输出结果确定多个时刻对应的多个最大置信率Cmax;
终端设备提取多个Cmax中的最小值Cmax min;若Cmax min小于第一阈值,确定Cmax min对应的时刻t以及对应的第一字,获取时刻t的后一时刻t+1的最大置信率Cmax t+1;若Cmax t+1大于第二阈值,将t+1的隐层输出结果St+1传递给上一时刻t的隐层,终端设备依据隐层输出结果St+1对当前时刻t的输出结果进行调整得到调整后的输出结果Ot’,依据输出结果Ot’得到当前时刻的第二字。
4.根据权利要求2或3所述的方法,其特征在于,
将OtA ’或OtB ’的最大置信率对应的字确定为所述第二字。
5.根据权利要求1所述的方法,其特征在于,所述终端设备依据隐层输出结果St+1对当前时刻t的输出结果进行调整得到调整后的输出结果Ot’,依据输出结果Ot’得到当前时刻的第二字具体包括:
依据St+1分别执行计算得到输出结果OtA’、OtB’;提取OtA’、OtB’的最大置信率Cmax A和Cmax B;若Cmax A和Cmax B均对应同一个字,确定该同一个字为第二字,若Cmax A和Cmax B不为同一个字,确定Cmax min、Cmax A和Cmax B中最大值对应的字为所述第二个字;其中;
其中,W表示权值,Xt表示t时刻的输入层的输入数据,St-1表示t-1时刻的隐层的输出结果;St+1表示t+1时刻的隐层的输出结果,St ’表示t时刻调整后的隐层的输出结果; OtA ’表示t时刻的输出层的调整后的一个输出结果,OtB ’表示t时刻的输出层的调整后的另一个输出结果。
6.根据权利要求1所述的方法,其特征在于,所述终端设备依据隐层输出结果St+1对当前时刻t的输出结果进行调整得到调整后的输出结果Ot’,依据输出结果Ot’得到当前时刻的第二字具体包括:
依据St+1计算得到OtA’、OtB’、StA’、StB’,将StA’、StB’传递给隐层的下一时刻t+1计算得到更新后的St+1A’、St+1B’;将St+1A’、St+1B’回传给当前时刻t执行下一轮的计算得到输出结果OtA’’、OtB’’;提取OtA’、OtB’的最大置信率Cmax A和Cmax B;提取OtA’’、OtB’’的最大置信率Cmax A’和Cmax B’;从Cmax min、Cmax A、Cmax B、Cmax A’、Cmax B’提取最大值,确定最大值对应的字为所述第二字;
其中,W表示权值,Xt表示t时刻的输入层的输入数据,St-1表示t-1时刻的隐层的输出结果;St+1表示t+1时刻的隐层的输出结果,St ’表示t时刻调整后的隐层的输出结果; OtA ’表示t时刻的输出层的调整后的一个输出结果,OtB ’表示t时刻的输出层的调整后的另一个输出结果。
7.一种语音的人工智能处理系统,其特征在于,所述系统包括:
采集单元,用于采集目标对象的语音数据;
处理单元,用于将该语音数据按采集时间确定为多个时刻的输入数据;将多个时刻的输入数据分别输入到RNN模型的输入层进行计算得到RNN模型的隐层输出结果S以及输出层输出结果O,依据输出结果确定多个时刻对应的多个最大置信率Cmax;提取多个Cmax中的最小值Cmax min;若Cmax min小于第一阈值,确定Cmax min对应的时刻t以及对应的第一字,获取时刻t的后一时刻t+1的最大置信率Cmax t+1;若Cmax t+1大于第二阈值,将t+1的隐层输出结果St+1传递给上一时刻t的隐层,终端设备依据隐层输出结果St+1对当前时刻t的输出结果进行调整得到调整后的输出结果Ot’,依据输出结果Ot’得到当前时刻的第二字。
8.根据权利要求7所述的系统,其特征在于,
所述处理单元,具体用于依据St+1分别执行计算得到输出结果OtA’、OtB’;提取OtA’、OtB’的最大置信率Cmax A和Cmax B;若Cmax A和Cmax B均对应同一个字,确定该同一个字为第二字,若Cmax A和Cmax B不为同一个字,确定Cmax min、Cmax A和Cmax B中最大值对应的字为所述第二个字;其中;
其中,W表示权值,Xt表示t时刻的输入层的输入数据,St-1表示t-1时刻的隐层的输出结果;St+1表示t+1时刻的隐层的输出结果,St ’表示t时刻调整后的隐层的输出结果; OtA ’表示t时刻的输出层的调整后的一个输出结果,OtB ’表示t时刻的输出层的调整后的另一个输出结果。
9.一种终端设备,其特征在于,所述终端设备包括:处理器、存储器、通信接口,以及一个或多个程序,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器执行,所述程序包括用于执行如权利要求1-6任意一项所述的方法中的步骤的指令。
10.一种计算机可读存储介质,其特征在于,存储用于电子数据交换的计算机程序,其中,所述计算机程序使得计算机执行如权利要求1-6任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110815613.0A CN113270104B (zh) | 2021-07-19 | 2021-07-19 | 语音的人工智能处理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110815613.0A CN113270104B (zh) | 2021-07-19 | 2021-07-19 | 语音的人工智能处理方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113270104A CN113270104A (zh) | 2021-08-17 |
CN113270104B true CN113270104B (zh) | 2021-10-15 |
Family
ID=77236791
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110815613.0A Active CN113270104B (zh) | 2021-07-19 | 2021-07-19 | 语音的人工智能处理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113270104B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113836270A (zh) * | 2021-09-28 | 2021-12-24 | 深圳格隆汇信息科技有限公司 | 大数据的处理方法及相关产品 |
CN113963696B (zh) * | 2021-10-18 | 2022-07-08 | 深圳市前海方睿科技有限公司 | 窗帘电机语音控制方法及系统 |
CN115168646A (zh) * | 2022-05-19 | 2022-10-11 | 深圳格隆汇信息科技有限公司 | 金融主播的历史视频分析方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9799327B1 (en) * | 2016-02-26 | 2017-10-24 | Google Inc. | Speech recognition with attention-based recurrent neural networks |
CN108470212A (zh) * | 2018-01-31 | 2018-08-31 | 江苏大学 | 一种能利用事件持续时间的高效lstm设计方法 |
CN109147774A (zh) * | 2018-09-19 | 2019-01-04 | 华南理工大学 | 一种改进的延时神经网络声学模型 |
CN110782882A (zh) * | 2019-11-04 | 2020-02-11 | 科大讯飞股份有限公司 | 语音识别方法、装置、电子设备和存储介质 |
CN111259675A (zh) * | 2020-01-08 | 2020-06-09 | 北京松果电子有限公司 | 基于神经网络计算的方法和装置 |
CN111326148A (zh) * | 2020-01-19 | 2020-06-23 | 北京世纪好未来教育科技有限公司 | 置信度校正及其模型训练方法、装置、设备及存储介质 |
CN111951789A (zh) * | 2020-08-14 | 2020-11-17 | 北京达佳互联信息技术有限公司 | 语音识别模型的训练、语音识别方法、装置、设备及介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9311915B2 (en) * | 2013-07-31 | 2016-04-12 | Google Inc. | Context-based speech recognition |
-
2021
- 2021-07-19 CN CN202110815613.0A patent/CN113270104B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9799327B1 (en) * | 2016-02-26 | 2017-10-24 | Google Inc. | Speech recognition with attention-based recurrent neural networks |
CN108470212A (zh) * | 2018-01-31 | 2018-08-31 | 江苏大学 | 一种能利用事件持续时间的高效lstm设计方法 |
CN109147774A (zh) * | 2018-09-19 | 2019-01-04 | 华南理工大学 | 一种改进的延时神经网络声学模型 |
CN110782882A (zh) * | 2019-11-04 | 2020-02-11 | 科大讯飞股份有限公司 | 语音识别方法、装置、电子设备和存储介质 |
CN111259675A (zh) * | 2020-01-08 | 2020-06-09 | 北京松果电子有限公司 | 基于神经网络计算的方法和装置 |
CN111326148A (zh) * | 2020-01-19 | 2020-06-23 | 北京世纪好未来教育科技有限公司 | 置信度校正及其模型训练方法、装置、设备及存储介质 |
CN111951789A (zh) * | 2020-08-14 | 2020-11-17 | 北京达佳互联信息技术有限公司 | 语音识别模型的训练、语音识别方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113270104A (zh) | 2021-08-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113270104B (zh) | 语音的人工智能处理方法及系统 | |
JP6828001B2 (ja) | 音声ウェイクアップ方法及び装置 | |
CN108319599B (zh) | 一种人机对话的方法和装置 | |
US11355097B2 (en) | Sample-efficient adaptive text-to-speech | |
CN110349232B (zh) | 图像的生成方法、装置、存储介质和电子设备 | |
KR101771071B1 (ko) | 통신 방법, 클라이언트, 및 단말 | |
CN107221330A (zh) | 标点添加方法和装置、用于标点添加的装置 | |
CN110209803B (zh) | 故事生成方法、装置、计算机设备及存储介质 | |
WO2007116253A2 (en) | Method, apparatus, mobile terminal and computer program product for providing efficient evaluation of feature transformation | |
CN108959388B (zh) | 信息生成方法及装置 | |
CN109815322B (zh) | 应答的方法、装置、存储介质及电子设备 | |
WO2021135457A1 (zh) | 基于循环神经网络的情绪识别方法、装置及存储介质 | |
CN112686023A (zh) | 文本数据处理方法、装置、电子设备及存储介质 | |
CN111539199A (zh) | 文本的纠错方法、装置、终端、及存储介质 | |
US20240161372A1 (en) | Method and system for providing service for conversing with virtual person simulating deceased person | |
KR20210065629A (ko) | 챗봇 채널연계 통합을 위한 챗봇 통합 에이전트 플랫폼 시스템 및 그 서비스 방법 | |
CN108984071A (zh) | 文本重组方法、装置、终端设备及计算机可读存储介质 | |
JP6449368B2 (ja) | 会話提供装置、会話提供方法及びプログラム | |
US10714118B2 (en) | Audio compression using an artificial neural network | |
CN109616103B (zh) | 声学模型的训练方法、装置及存储介质 | |
CN117424956A (zh) | 设置项处理方法、装置、电子设备及存储介质 | |
CN112330408A (zh) | 一种产品推荐方法、装置及电子设备 | |
CN111901220A (zh) | 确定聊天机器人的方法和应答系统 | |
CN109333539B (zh) | 机器人及其控制方法、装置和存储介质 | |
CN114708849A (zh) | 语音处理方法、装置、计算机设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |