CN111859954A - 目标对象识别方法、装置、设备及计算机可读存储介质 - Google Patents
目标对象识别方法、装置、设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN111859954A CN111859954A CN202010630224.6A CN202010630224A CN111859954A CN 111859954 A CN111859954 A CN 111859954A CN 202010630224 A CN202010630224 A CN 202010630224A CN 111859954 A CN111859954 A CN 111859954A
- Authority
- CN
- China
- Prior art keywords
- feature
- network
- decoding
- sequence
- coding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 82
- 238000012545 processing Methods 0.000 claims abstract description 96
- 239000013598 vector Substances 0.000 claims description 240
- 230000011218 segmentation Effects 0.000 claims description 46
- 230000008569 process Effects 0.000 claims description 26
- 230000009466 transformation Effects 0.000 claims description 24
- 238000010606 normalization Methods 0.000 claims description 17
- 238000013507 mapping Methods 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 8
- 238000012986 modification Methods 0.000 claims description 4
- 230000004048 modification Effects 0.000 claims description 4
- 238000013473 artificial intelligence Methods 0.000 abstract description 32
- 238000005516 engineering process Methods 0.000 abstract description 23
- 238000010586 diagram Methods 0.000 description 16
- 238000013519 translation Methods 0.000 description 10
- 238000000605 extraction Methods 0.000 description 7
- 238000011160 research Methods 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 5
- 210000004027 cell Anatomy 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 241000282414 Homo sapiens Species 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 210000004460 N cell Anatomy 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Signal Processing (AREA)
- Image Analysis (AREA)
Abstract
本申请的实施例揭示了一种目标对象识别方法、装置、设备以及计算机可读存储介质。该方法包括:获取编码器网络对目标对象的特征序列进行特征编码处理得到的编码特征序列;对所述编码特征序列中的各个编码特征进行识别处理,得到所述目标对象对应的上下文识别信息;根据所述上下文识别信息对所述编码特征序列进行特征解码处理,获得解码特征序列;基于所述解码特征序列生成所述目标对象的识别结果。本申请实施例的技术方案基于人工智能技术对目标对象进行智能识别,能够提升目标对象的识别准确性。
Description
技术领域
本申请涉及人工智能技术领域,具体涉及一种目标对象识别方法、装置、设备和计算机可读存储介质。
背景技术
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。如何提升人工智能技术针对目标对象进行识别的准确性,是本领域的技术人员需要不断研究的技术问题。
发明内容
为进一步提升目标对象识别的准确性,本申请的实施例分别提供了目标对象识别方法、语音识别方法、文本识别方法,并提供了与方法相应的装置、设备以及计算机可读存储介质。
其中,本申请所采用的技术方案为:
一种目标对象识别方法,包括:获取编码器网络对目标对象的特征序列进行特征编码处理得到的编码特征序列;对所述编码特征序列中的各个编码特征进行识别处理,得到所述目标对象对应的上下文识别信息;根据所述上下文识别信息对所述编码特征序列进行特征解码处理,获得解码特征序列;基于所述解码特征序列生成所述目标对象的识别结果。
一种语音识别方法,包括:获取编码器网络对语音的语音特征序列进行特征编码处理得到的语音编码特征序列;对所述语音编码特征序列中的各个语音编码特征进行语音识别,得到所述语音对应的上下文识别信息;根据所述上下文识别信息对所述语音编码特征序列进行特征解码处理,获得语音解码特征序列;基于所述语音解码特征序列生成所述语音的识别结果。
一种文本识别方法,包括:获取编码器网络对文本对应的分词特征序列进行特征编码处理得到的分词编码特征序列;对所述分词编码特征序列中的各个分词编码特征进行文本处理,得到所述文本对应的上下文识别信息;根据所述上下文识别信息对所述分词编码特征序列进行特征解码处理,获得分词解码特征序列;基于所述分词解码特征序列生成所述文本的识别结果。
一种目标对象识别装置,包括:编码处理模块,用于获取编码器网络对目标对象的特征序列进行特征编码处理得到的编码特征序列;编码识别模块,用于对所述编码特征序列中的各个编码特征进行识别处理,得到所述目标对象对应的上下文识别信息;解码处理模块,用于根据所述上下文识别信息对所述编码特征序列进行特征解码处理,获得解码特征序列;结果生成模块,用于基于所述解码特征序列生成所述目标对象的识别结果。
一种目标对象识别设备,包括处理器及存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现如上所述的目标对象识别方法。
一种计算机可读存储介质,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行如上所述的目标对象识别方法。
在上述技术方案中,获取编码器网络对目标对象的特征序列进行特征编码处理得到的编码特征序列之后,还对编码特征序列中的各个编码特征进行识别处理,以得到目标对象对应的上下文识别信息,然后根据上下文识别信息对编码特征序列进行特征编码处理得到解码特征序列,以在编码特征序列的解码过程中基于上下文识别信息对目标对象进行准确解码,最后再通过对解码特征序列进行识别处理,以生成准确的目标对象的识别结果,由此提升目标对象的识别准确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术者来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1是根据一示例性的实施例示出的一种人工智能识别模型的结构示意图;
图2为图1所示的第一特征嵌入网络11在一个实施例中的结构示意图;
图3为图1所示的特征编码网络12在一个实施例中的结构示意图;
图4为图1所示的第一识别网络13在一个实施例中的结构示意图;
图5为图1所示的特征解码网络22在一个实施例中的结构示意图;
图6是根据一示例性实施例示出的一种语音识别方法的流程图;
图7是根据一示例性实施例示出的特征解码网络对其输入信号进行处理的流程图;
图8是根据一示例性实施例示出的一种文本识别方法的流程图;
图9是根据一示例性实施例示出的一种目标对象识别装置的框图;
图10是根据一示例性实施例示出的一种目标对象识别设备的结构示意图。
具体实施方式
这里将详细地对示例性实施例执行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
例如,语音技术(Speech Technology)的关键技术包括自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。基于语音技术让计算机能听、能看、能说、能感觉,将是未来人机交互的重要发展方向。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法,因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。
本申请实施例提供的方案涉及人工智能的智能识别技术,例如涉及到语音识别以及文本识别等技术,具体通过如下的实施例进行说明。
请参阅图1,图1是根据一示例性实施例示出的一种人工智能识别模型的结构示意图。该示例性的人工智能识别模型用于对输入的目标对象的特征序列进行智能识别,以输出目标对象的识别结果。其中,目标对象包括但不限于语音、文本等待识别的对象。
如图1所示,该人工智能识别模型主要由编码器网络10以及解码器网络20构成,其中编码器网络10包括第一特征嵌入网络11、依次连接的多个特征编码网络12、以及第一识别网络13,解码器网络20包括第二特征嵌入网络21、依次连接的多个特征解码网络22、以及第二识别网络23。
应当说明的是,本申请实施例所述的“多个”具体理解为是至少两个。
目标对象的特征序列作为编码器网络10的输入信号输入至第一特征嵌入网络11中,以使得第一特征嵌入网络11对目标对象的特征序列中含有的各个特征进行向量映射,以得到目标对象的特征序列对应的特征向量序列,并将目标对象对应的特征向量序列输入至依次连接的多个特征编码网络12中的第一个特征编码网络12中。第一个特征编码网络12通过对输入信号进行特征编码处理,将得到的处理结果作为下一个特征编码网络12的输入信号输入至该下一个特征编码网络12中,以通过该下一个特征编码网络12对输入信号进行特征编码处理。后续连接的每一个特征编码网络12均执行此过程,直至最后一个特征编码网络12输出目标对象的编码特征序列。目标对象的编码特征序列则作为第一识别网络13的输入信号,以通过第一识别网络13对编码特征序列中的各个编码特征识别得到相应的识别信息,生成目标对象对应的上下文识别信息。
此外,最后一个特征编码网络12还将获得的编码特征序列分别输入至解码器网络20中的各个特征解码网络22。并且,编码器网络10中输出的上下文识别信息还将作为解码器网络20的输入信号,具体输入至第二特征嵌入网络21中。
第二特征嵌入网络21用于对目标对象的上下文识别信息中含有的各个识别信息进行向量映射,以得到该上下文信息对应的识别向量序列,并将该识别向量序列作为多个特征解码网络22中的第一个特征解码网络22的输入信号。第一个特征解码网络22则对输入的识别向量序列和编码特征序列进行联合解码,将得到的解码结果作为下一个特征解码网络22的输入信号。该下一个特征解码网络22对其输入信号(具体包括上层网络输出的解码结果以及特征编码网络12输出的编码特征序列)进行联合解码,并将得到的解码结果输入至另一个特征解码网络22中。如此循环,直至最后一个特征解码网络22输出解码结果,并将最后一个特征解码网络22输出的解码结果作为解码特征序列输入至第二识别网络23中。第二识别网络23对解码特征序列进行识别处理,并生成目标对象的识别结果。
请具体参阅图2至图5,其中,图2为图1所示的第一特征嵌入网络11在一示例性实施例的结构示意图,图3为图1所示的特征编码网络12在一示例性实施例的结构示意图,图4为图1所示的第一识别网络13在一示例性实施例的结构示意图,图5为图1所示的特征解码网络22在一示例性实施例的结构示意图。
如图2所示,第一特征嵌入网络11具体包括输入嵌入网络和位置嵌入网络。输入嵌入网络用于对输入的目标对象的特征序列中的各个特征进行向量映射,以得到各个特征对应的嵌入向量;位置嵌入网络用于根据各个特征在特征序列中的位置信息,提取各个特征对应的位置向量;通过叠加输入嵌入网络输入的嵌入向量以及位置嵌入网络输出的位置向量,即能够得到目标对象的特征序列对应的特征向量序列。
需要说明的是,该特征向量序列中含有目标对象的特征序列中的各个特征对应的位置信息,以使得特征编码网络12在特征编码处理过程中能够考虑到各个特征在特征序列中的位置信息,由此便于第一识别网络13能够准确输出目标对象对应的上下文信息。
还需要说明的是,第二特征嵌入网络21的结构与第一特征嵌入网络11的结构相同。但与第一特征嵌入网络11相区别的是,第二特征嵌入网络21的输入信号是第一识别网络13输出的目标对象对应的上下文识别信息,第二特征嵌入网络21中含有的输入嵌入网络用于提取该上下文识别信息中的各个识别信息对应的嵌入向量,第二特征嵌入网络21中含有的位置嵌入网络用于提取各个识别信息对应的位置向量。第二特征嵌入网络21的输出信号具体为该上下文识别信息对应的识别向量序列。
如图3所示,特征编码网络12包括自注意力网络和前馈网络,自注意力网络与前馈网络相连接。自注意力网络用于计算上层网络的输出信号对应的自注意力特征,前馈网络用于对自注意力网络输出的自注意力特征进行线性变换,并将线性变换的结果作为输出信号进行输出。
具体地,自注意力网络的输入信号为一向量序列,该向量序列中的各个向量的输入路径(对应于各个向量在向量序列中的位置)之间具有依赖关系,自注意力网络在处理输入的向量序列中的每个向量时会关注整个向量序列中的所有向量,有利于特征编码网络12对各个向量进行准确编码。自注意力网络具体可以为Scaled Dot-Product Attention(理解为缩放点积注意力)、Multi-Head Attention等网络,其中Multi-Head Attention网络中含有多个Scaled Dot-Product Attention网络,并将各个Scaled Dot-ProductAttention网络的输出拼接起来作为Multi-Head Attention网络的输出结果。
自注意力网络针对每个向量计算得到的自注意力特征将各自通过前馈网络进行线性变换,因此前馈网络中不存在各个向量的输入路径之间的联系。由此可知,图3所示的多个前馈网络是用于表征各个自注意力特征是各自通过前馈网络进行处理的,并不表示为是对前馈网络的数量的限制。
此外,本实施例在自注意力网络和前馈网络之后还各自设有残差网络,残差网络用于对其连接上层网络进行求和归一化处理。例如,针对自注意力网络之后连接的残差网络,其用于根据自注意力网络的输入信号和输出信号,对该自注意力网络进行求和归一化运算,并将运算得到的各个向量输入至不同的前馈网络中进行线性变换。本实施例基于设置的残差网络,可以方便地对上层网络进行参数优化。
如图4所示,第一识别网络13包括相互连接的线性网络和归一化网络。线性网络用于对最后一个特征编码网络12输出的编码特征序列中含有的各个编码特征进行线性变换,以得到各个编码特征对应的样本权重。归一化网络用于对各个编码特征对应的样本权重进行归一化处理,以获得各个编码特征对应的标记样本的概率分布,并根据标记样本的概率分布选择与各个编码特征对应的标记样本,以将选择的标记样本作为相应编码特征的识别信息,并对各个编码特征的识别信息进行组合即可得到目标对象对应的上下文识别信息。
具体地,线性网络是一个全连接神经网络,该全连接神经网络可以把特征编码网络输出的编码特征序列中含有的各个编码特征投射到一个对数几率(也即logits)向量中。例如,若预置的标记样本的总数为N(N为数值较大的正整数),对数几率向量则表示为N个单元格长度的向量,每个单元格对应一个标记样本的分数。归一化网络则将标记样本对应的分数计算为概率,概率最高的单元格被选中,且将对应的标记样本作为编码特征对应的识别信息输出。归一化网络具体可以为softmax(是指基于softmax函数模型的网络)网络或者其它形式的网络,本处不进行限制。
第二识别网络23与第一识别网络13的结构相同,并且预置的标记样本也完全相同,因此第二识别网络23中含有的线性网络和归一化网络的处理过程与第一识别网络13是完全一致的,第二识别网络23与第一识别网络13之间的区别仅在于输入信号和输出信号不同。
如图5所示,特征解码网络22包括自注意力网络、编解码注意力网络和前馈网络。自注意力网络用于对上层网络的输出信号计算自注意力特征,并将计算得到的自注意力特征输入编解码注意力网络中,因此编解码注意力网络的输入信号包括自注意力网络的输出信号和最后一个特征编码网络12输出的编码特征序列。编解码注意力网络用于计算自注意力特征与编码特征序列之间的联合注意力特征,其具体结构与自注意力网络相同,但输入信号和输出信号对应不同。并且,图5所示的多个前馈网络也是用于表征各个联合注意力特征是各自通过前馈网络进行处理的,并不表示为是对前馈网络的数量的限制。
并且,自注意力网络在处理输入的向量序列中的每个向量时仍会关注整个向量序列中的所有向量,因此编解码注意力网络的输入信号含有目标对象对应的上下文信息。编解码注意力网络在对编码特征序列中的各个编码特征进行解码处理时,则会考虑目标对象对应的上下文信息,相当于根据目标对象的上下文信息对各个编码特征进行解码修正,由此进行准确的解码操作。
相比于现有的编解码网络模型,本实施例提供的人工智能识别模型在编码器网络中增加了第一识别网络,通过第一识别网络对最后一个特征编码网络输出的编码特征序列进行识别处理,能够得到目标对象对应的上下文识别信息。目标对象的对应的上下文识别信息将输入解码器网络含有的第二特征嵌入网络中,使得解码器网络中含有的各个特征解码网络在对最后一个特征编码网络输出的编码特征序列解码处理时,能够根据目标对象对应的上下文识别信息对编码特征序列进行解码修正,极大程度地提升了解码器网络输出的识别结果的准确性。因此,本实施例提供的人工智能识别模型将具有更好的识别效果。
还需要提及的是,特征解码网络中含有的自注意力网络并不含有MASK操作,也即自注意力网络并不需要将其作用范围限制在当前时刻之前,因此特征解码网络中的自注意力网络也可以关注于目标对象对应的上下文信息,保证编解码注意力网络的输入信号中含有目标对象对应的上下文信息,从而能够对编码特征序列进行解码修正。
另外由于编码器网络中设有第一识别网络,以及解码器网络中设有第二识别网络,二者网络均能够输出具体的输出信息,使得本实施例提供的人工智能设备模型中含有的编码器网络以及解码器网络可以相互独立,因此可以采用多任务训练的方式对该人工智能设备模型进行训练,损失函数由编码器网络以及解码器网络两部分的损失函数进行加权求和构成。
或者,还可以先针对编码器网络进行预训练,以使编码器网络收敛,然后将收敛的编码器网络的输出信号作为解码器网络的输入信号对解码器网络进行预训练,并使解码器网络收敛,最后针对收敛的编码器网络和收敛的解码器网络进行联合训练,由此来提升整体模型的性能。
并且还需要说明的是,由于该人工智能设备模型中含有的编码器网络以及解码器网络可以相互独立,因此编码器网络和解码器网络均可以依次采用不同类型的损失函数进行训练,以使得该人工智能识别模型具有更好的识别效果。示例性的,训练所使用的损失函数具体可以包括交叉熵损失函数、CTC(Connectionist Temporal Classification,可以理解为是基于神经网络的时序类分类)损失函数等,本处不对此进行限制。
为便于清楚且准确地理解本申请提出的人工智能识别模型,以下将结合具体的实施例对该人工智能识别模型的处理过程进行详细描述。
请参阅图6,图6是根据一示例性实施例示出的一种语音识别方法的流程图。该方法是基于图1所示的人工智能识别模型具体实现的,该人工智能模型的输入信号具体为待进行语音识别的语音特征序列,该人工智能模型的输出信号具体为对应的语音识别结果。
如图6所示,在一示例性实施例中,该语音识别方法包括如下步骤:
步骤110,获取编码器网络对语音的语音特征序列进行特征编码处理得到的语音编码特征序列。
其中,待识别的语音对应的语音特征序列是对每一帧或者每几帧语音提取得到的语音特征构成的序列,语音特征可以包括MFCC(Mel Frequency Cepstrum Coefficient,梅尔频率倒谱系数)特征、LPC(linear predictive coding,线性预测编码)特征、LSF(linearspectral frequency,线谱频率)特征等,本处不进行限制。并且,语音特征序列中含有的各个语音特征的排列顺序对应于语音的帧顺序。
具体地,对语音特征序列进行编码处理是通过编码器网络中含有的第一特征嵌入网络和依次连接的各个特征编码网络实现的。
第一特征嵌入网络对语音特征序列中含有的各个语音特征进行向量映射,获得语音特征序列对应的语音特征向量序列,并将该语音特征向量序列作为多个特征编码网络中的第一个特征编码网络的输入信号。第一特征嵌入网络具体含有输入嵌入网络和位置嵌入网络,输入嵌入网络对各个语音特征进行向量映射,得到各个语音特征对应的语音向量,位置嵌入网络根据各个语音特征在整个语音特征序列中的位置,提取各个语音特征对应的位置向量,最后通过叠加各个语音特征对应的语音向量和位置向量,即可得到各个语音特征对应的语音特征向量。通过组合各个语音特征对应的语音特征向量,即可得到语音特征向量序列。
各个特征解码网络中含有自注意力网络和前馈网络,自注意力网络对上层网络的输出信号中含有的各个向量计算自注意力特征,并将各个向量对应的自注意力特征各自输入到前馈网络中进行线性变换,将所得结果作为输出信号进行输出。通过各个特征解码网络对上层网络的输出信号进行特征编码处理,最后一个特征编码网络的输出信号即为语音特征序列对应的语音编码特征序列,语音编码特征序列中的各个语音编码特征即对应于语音特征序列中的各个语音特征。
需要说明的是,语音编码特征序列还输入至解码器网络含有的各个特征解码网络中,以使得各个特征解码网络对语音编码特征序列进行解码处理,得到语音解码特征序列,并基于对语音解码特征序列进行语音识别,从而获得待识别的语音的识别结果。
步骤130,对语音编码特征序列中的各个语音编码特征进行语音识别,得到语音对应的上下文识别信息。
对语音编码特征序列中的各个语音编码特征进行语音识别的过程具体是由编码器网络含有的第一识别网络实现的。
具体地,第一识别网络包括线性网络和归一化网络,首先需要通过线性网络对语音编码特征序列中的各个语音编码特征进行线性变换,以得到各个语音编码特征对应的样本权重。该样本权重即是将各个语音编码特征投射到对数几率向量之后,各个语音编码特征对应于对数几率向量中的各个单元格的分数。对数几率向量中的各个单元格对应于各个预置的标记样本。然后通过归一化网络对各个语音编码特征对应的样本权重进行归一化处理,以获得各个语音编码特征对应的标记样本的概率分布,根据标记样本的概率分布选择与各个语音编码特征对应的标记样本,并将选择的标记样本作为语音编码特征的语音识别信息,最后对各个语音编码特征的语音识别信息进行组合,从而得到待识别的语音对应的上下文识别信息。
由于待识别的语音对应的上下文识别信息中含有各个语音特征对应的语音识别信息,并且各个语音识别信息按照各个语音特征在语音特征序列中的顺序进行排列,因此该上下文识别信息可以理解为是含有待识别的语音的上下文信息或者全局信息。
标记样本是预置的若干样本,标记样本的类型和具体值是已知的,例如在本实施例中,标记样本具体可以是不同的文字、音节或者音素,可以根据语音识别的实际应用场景进行具体设置。例如,如果各个语音编码特征对应的标记样本具体为文字,归一化网络的输出信号则为语音特征序列对应的文字识别结果。
步骤150,根据上下文识别信息对语音编码特征序列进行特征解码处理,获得语音解码特征序列。
根据上下文识别信息对语音编码特征序列进行特征解码处理具体由解码器网络中的第二特征嵌入网络和依次连接的多个特征解码网络实现。
如前所述的,上下文识别信息中含有各个语音特征对应的语音识别信息,因此第二特征嵌入网络中含有的输入嵌入网络对各个语音识别信息进行向量化处理,以得到各个语音识别信息对应的嵌入向量,第二特征嵌入网络中含有的位置嵌入网络对各个语音识别信息在上下文识别信息中的位置信息进行向量映射,以得到各个语音识别信息的位置向量,最后通过叠加各个语音识别信息对应的位置向量和嵌入向量,即得到各个语音识别信息对应的语音识别向量。通过组合各个语音识别信息对应的语音识别向量,即得到待识别的语音的上下文识别信息所对应的语音识别向量序列。
各个特征解码网络的输入信号不仅包括编码器网络中的最后一个特征编码网络输出的语音编码特征序列,还包括上层网络的输出信号,以通过各个特征解码网络对其输入信号进行联合解码,并在联合解码的过程中根据上下文识别信息对语音特征编码特征序列进行解码修正,进而提升解码器网络的解码准确性。
具体的,各个特征解码网络包括依次连接的自注意力网络、编解码注意力网络和前馈网络,编码器网络中的最后一个特征编码网络输出的语音编码特征序列具体输入至编解码注意力网络,特征解码网络的上层网络的输出信号输入自注意力网络中。其中,特征解码网络的上层网络的输出信号具体为一向量序列,其中含有拼接组成的若干向量。
通过自注意力网络计算上层网络的输出信号对应的自注意力特征,能够得到该输出信号中含有的各个向量对应的自注意力特征,并且各个向量对应的自注意力特征中均考虑了整个向量序列中的其它向量,因此自注意力网络的输出信号仍含有与待识别的语音的上下文识别信息相关的信息。通过编解码注意力网络计算自注意力网络的输出信号与语音编码特征序列所含有的各个语音编码特征之间的联合注意力特征,以根据自注意力网络的输出信号中含有与待识别的语音的上下文识别信息相关的信息,对语音编码特征序列进行解码修正。
编解码注意力网络输出的各个语音编码特征对应的联合注意力特征各自输入至前馈网络中,以使得前馈网络对输入的各个联合注意力特征进行线性变换,并将前馈网络的输出信号的组合作为整个特征解码网络的输出信号,并且将最后一个特征解码网络的输出信号作为语音特征序列对应的语音解码特征序列。
步骤170,基于语音解码特征序列生成语音的识别结果。
基于语音解码特征序列生成语音的识别结果的过程,则是由解码器网络含有的第二识别网络具体实现。通过第二识别网络对语音解码特征序列进行语音识别,即得到待识别的语音的识别结果。
第二识别网络与第一识别网络具有相同的结构,因此第二识别网络也包括线性网络和归一化网络。通过线性网络对语音解码特征序列中含有的各个语音解码特征进行线性变换,以获得各个语音解码特征对应的样本权重。通过归一化网络对各个语音解码特征对应的样本权重进行归一化处理,以获得各个语音解码特征对应的标记样本的概率分布,然后根据标记样本的概率分布选择与各个语音解码特征对应的标记样本作为语音编码特征的识别结果,并对各个语音解码特征的识别结果进行组合,即得到待识别的语音的识别结果。
由于第二识别网络与第一识别网络的结构、以及预置的所有标记样本是完全一致的,因此本实施例提供的语音识别方法在编码阶段和解码阶段各自进行一次语音识别。通过二次语音识别的方式,使得解码阶段可以根据第一次语音识别的结果对编码阶段的各个语音编码特征进行解码修正,解码阶段得到的语音解码特征序列因此能够更加准确地表征待识别的语音,经由第二次语音识别得到的识别结果的准确性也能够得到极大提升,因此本实施例提出的方法能够对待识别的语音准确地进行识别。
为了更好地理解本申请基于待识别的语音的上下文识别信息对语音编码特征序列进行解码修正的过程,下面将根据一个示例性实施例来对特征解码网络中的特征解码过程进行具体描述。
如前所述的,解码器网络包括依次连接的自注意力网络、编解码注意力网络和前馈网络。自注意力网络的输入信号为上层网络的输出信号,编码器网络中的最后一个特征编码网络输出的语音编码特征序列、以及自注意力网络的输出信号均作为编解码注意力网络的输入信号。
下面以解码器网络含有的多个特征解码网络中的第一个特征解码网络作为示例,对该第一个特征解码网络的解码处理过程进行详细描述。在该第一个特征解码网络中,自注意力网络的输入信号为第二特征嵌入网络针对待识别的语音的上下文识别信息进行向量映射得到的语音识别向量序列。
如图7所示,针对解码器网络含有的多个特征解码网络中的第一个特征解码网络,其根据语音识别向量序列和语音编码特征序列进行联合解码的过程可以包括如下步骤:
步骤210,根据自注意力网络计算语音识别向量序列中的各个语音识别向量对应的自注意力特征,获得语音识别向量序列对应的自注意力特征序列。
如前所述的,自注意力网络在处理语音识别向量序列中的各个语音识别向量时,还关注于整个语音识别向量序列中的其它语音识别向量,因此自注意力网络输出的各个语音识别向量对应的自注意力特征中含有整个语音识别向量序列的全局信息,相当于含有待识别的语音的上下文信息。
自注意力网络首先需要对语音识别向量序列中的各个语音识别向量进行线性变换,以得到各个语音识别向量对应的一个查询向量(可表示为Q)、一个键向量(可表示为K)和一个值向量(可表示为V),因此本实施例针对语音识别向量序列中的每一个语音识别向量均含可以得到对应的向量组(Q,K,V),该向量组中的三个向量是基于各个语音识别向量与预设的三个权重矩阵分别相乘得到的。
在计算各个语音识别向量的自注意力特征时,需要根据语音识别向量序列中的其它语音识别向量对当前语音识别向量进行打分,这些分数决定了在对解码当前语音识别向量的过程中对于其它语音识别向量的重视程度。这些分数具体通过所有语音识别向量的键向量与当前语音识别向量的查询向量进行点积运算得到,并且这些分数也用于表示查询向量与各个键向量之间的相似度。
若将语音识别向量序列中的各个语音识别向量依次表示为(Q1,K1,V1),(Q2,K2,V2),……,(Qn,Kn,Vn),语音识别向量序列中的第一个语音识别向量对应的打分序列则为:Q1*K1,Q1*K2,……,Q1*Kn。语音识别向量序列中的其它语音识别向量的打分序列同理,本处不进行赘述。
本实施例还计算各个打分序列中的分数除以相应键向量的维数的平方根的值,或者除以一设定值,以使计算打分的梯度更加稳定。如果将键向量的维数的平方根表示为则最终输出的语音识别向量序列中的第一个语音识别向量对应的打分序列为:
最后,则需要归一化各个查询向量与各个键向量之间的相似度(即各个查询向量对应的打分序列中的各个分数),以获得各个键向量相对各个查询向量的重要性程度,并根据获得的重要性程度对各个值向量进行加权和运算,从而得到各个查询向量对应的语音识别向量的自注意力特征。
归一化各个查询向量与各个键向量之间的相似度具体可以是通过softmax函数计算得到的,以得到每一查询向量相对各个键向量的重要性程度。针对每一查询向量,都通过将查询向量相对每一键向量的重要性程度与健向量对应的值向量相乘,并将所得的各个乘积相加,由此得到每一查询向量对应的语音识别向量的自注意力特征,此相乘以及相加的过程即理解为是根据重要性程度对获得的值向量进行加权和运算的过程。由此,自注意力网络输出的各个语音识别向量的自注意力特征具体为一向量矩阵。
并且在另一示例性的实施例中,自注意力网络中具体含有多个自注意力子网络,每个自注意力子网络分别按照以上过程计算各个语音识别向量的自注意力子特征。基于此,每个自注意力子网络都将输出多个自注意力子特征,并且各个自注意力子特征与语音识别向量序列中的各个语音识别向量一一对应。
每个自注意力子网络具有不同的注意力头,以使得每个自注意力子网络在计算注意力子特征的过程中具有不同的注意力。不同的注意力头具体是指用于计算语音识别向量的查询向量、键向量以及值向量所使用的权重矩阵不同,例如这些权重矩阵是随机初始化得到的权重矩阵。因此在不同的自注意力子网络中,各个识别向量对应的查询向量、键向量以及值向量各不相同,从而使得各个自注意力子网络对于语音识别向量序列中的各个语音识别向量之间的注意力不同。
通过拼接同一语音识别向量对应的各个自注意力子特征,即可将各个语音识别向量对应的拼接结果作为各个语音识别向量的自注意力特征。
由此,本实施例得到的各个语音识别向量序列对应的自注意力特征序列能够很大程度地体现语音识别向量序列中各个语音识别向量之间的关联程度,也即,各个语音识别向量序列对应的自注意力特征序列中含有整个待识别的语音的上下文信息。
步骤230,根据编解码注意力网络计算自注意力特征序列与语音编码特征序列之间的联合注意力特征。
如前所述,编解码注意力网络的输入信号包括上层自注意力网络输出的每个语音识别向量的自注意力特征,还包括编码器网络输出的语音编码特征序列,自注意力网络输出的各个自注意力特征与语音编码特征序列中的各个语音编码特征基于相同的序列位置一一对应,且对应于待识别的语音特征序列中的各个语音特征。
编解码注意力网络需要对这二者输入信号进行联合处理,以得到二者输入信号之间的联合注意力特征。具体地,编解码注意力网络根据自注意力网络输出的各个语音识别向量的自注意力特征计算各个查询向量,并根据语音编码特征序列中的各个语音编码特征计算各个查询向量对应的键向量以及值向量。
由此,编解码注意力网络针对各个语音识别向量仍可得到对应的一个查询向量、一个键向量和一个值向量,但与自注意力网络相区别的是,编解码注意力网络中与各个语音识别向量对应的键向量和值向量来源于编码器网络输出的语音编码特征序列中的各个语音编码特征,以保证后续能够计算自注意力特征与各个语音编码特征之间的相似度。
编解码注意力网络计算各个查询向量与各个键向量之间的相似度的过程、以及归一化各个查询向量与各个键向量之间的相似度,获得各个键向量相对各个查询向量的重要性程度,并根据重要性程度对获得的值向量进行加权和运算的过程均与自注意力网络中的计算过程相类似,本实施例不对此进行赘述。
由于自注意力网络输出的自注意力特征序列中也含有待识别的语音的上下文信息,因此编解码注意力网络输出的各个查询向量对应的联合注意力特征中也融合有待识别的语音的上下文信息,由此实现对于自注意力特征和语音编码特征的联合解码,使得解码过程融合有待识别的语音的上下文信息,从而提升解码过程的准确性。
步骤250,根据前馈网络对联合注意力特征序列进行线性变换,将线性变换的结果作为特征解码网络的输出信号。
编解码注意力网络输出的各个联合注意力特征各自经由前馈网络进行线性变换,由此得到特征解码网络的输出信号。前馈网络可以是一全连接网络,因此特征解码网络的输出信号中依然含有待识别的语音的上下文信息。
后续的每一个特征解码网络都将针对其输入信号执行同样的操作,以按照语音特征序列的编码过程对语音编码特征序列进行相应解码,直至最后一个特征解码网络输出待识别的语音对应的语音解码特征序列。最后通过第二识别网络对语音解码特征序列进行语音识别,即得到待识别的语音的识别结果。
请参阅图8,本申请的另一示例性实施例还基于图1所示的人工智能识别模型提出一种文本识别方法,该方法可以包括如下步骤:
步骤310,获取编码器网络对文本对应的分词特征序列进行特征编码处理得到的分词编码特征序列。
首先需要说明的是,本实施例进行的文本识别具体可以应用于文本翻译、文本摘要提取等文本识别场景,本实施例不对此进行限制。文本对应的分词特征序列是对待识别的文本进行分词处理得到的,本实施例也不对进行分词处理的具体方式进行限制。
对文本对应的分词特征序列进行特征编码处理是根据编码器网络中含有的第一特征嵌入网络和依次连接的多个特征编码网络实现的。第一特征嵌入网络用于对分词特征序列中的各个分词特征进行向量映射,以得到分词特征向量序列。各个特征编码网络用于对上层网络的输出信号进行特征编码处理,将最后一个特征编码网络的输出信号作为文本对应的分词编码特征序列。
需要说明的是,第一特征嵌入网络和各个特征编码网络中的具体处理过程请参见图6所示实施例中关于步骤110的相关描述,本处不进行赘述。
步骤330,对分词编码特征序列中的各个分词编码特征进行文本处理,得到文本对应的上下文识别信息。
对分词编码特征序列中的各个分词编码特征进行文本识别的过程具体是由编码器网络含有的第一识别网络实现的。并且,针对不同的文本识别场景,第一识别网络对分词编码特征序列中的各个分词编码特征进行文本处理的具体方式也不相同。
举例来说,在需要对待识别的文本进行文本翻译的应用场景下,需要得到文本中各个分词对应的翻译结果,因此第一识别网络通过线性网络对分词编码特征序列中的各个分词编码特征进行线性变换,以得到各个分词编码特征对应的样本权重,然后通过归一化网络对各个分词编码特征对应的样本权重进行归一化处理,获得各个分词编码特征对应的标记样本的概率分布,根据标记样本的概率分布选择与各个分词编码特征对应的标记样本,并将选择的标记样本作为分词编码特征的文本识别信息,最后对各个分词编码特征的文本识别信息进行组合,从而得到待识别的文本对应的上下文识别信息。
在待识别的文本对应的上下文识别信息中,具体含有待识别的文本中的各个分词对应的翻译文本。预置的若干标记样本具体为若干分词,并且这些分词的类型与待识别的文本中含有的分词的类型不同。例如,在汉译英的翻译场景中,待识别的文本为中文文本,其含有的分词具体为中文分词,预置的标记标本则为若干英文单词,具体可以从英文语料库中获取。
在需要对待识别的文本进行摘要提取的应用场景下,第一识别网络需要根据分词编码特征序列进行文本摘要提取,以得到待识别的文本对应的文本摘要。
具体地,可以通过线性网络对分词编码特征序列中的各个分词编码特征进行的线性变换,然后通过归一化网络处理得到各个分词编码特征为关键词的概率。在本实施例中,由于并不是每个分词都为文本中的关键词,因此可以将概率大于预设的概率阈值的分词选取为文本中的关键词。通过组合选取得到的各个关键词,即得到文本摘要。需要说明的是,基于不同的文本摘要提取方式,第一识别网络中涉及的文本摘要提取的具体参数可能不同。
由此,在文本翻译的应用场景下,上下文识别信息具体为待识别的文本中的各个分词对应的翻译结果所组成的序列;在文本摘要提取的应用场景下,上下文识别信息具体含有待识别的文本中的各个关键词所组成的序列。
步骤350,根据上下文识别信息对分词编码特征序列进行特征解码处理,获得分词解码特征序列。
其中,根据上下文识别信息对分词编码特征序列进行特征解码处理具体由解码器网络中的第二特征嵌入网络和依次连接的多个特征解码网络实现,具体过程请参见图6所示实施例中关于步骤150的描述,本处不进行赘述。各个特征解码网络的处理过程也请参见图7所示实施例中的相关描述,本处也不进行赘述。
在本实施例中,最后一个特征解码网络的输出信号具体为上下文识别信息对应的分词解码特征序列。
步骤370,基于分词解码特征序列生成文本的识别结果。
在本实施例中,基于分词解码特征序列生成文本的识别结果的过程,也即是通过第二识别网络对分词解码特征序列进行文本处理的过程,具体请参见步骤330中记载的内容。在不同的文本识别场景下,第二识别网络所执行的处理过程也不相同。
综上可知,本申请提出的人工智能识别模型可以应用于不同的应用场景,以对语音、文本等目标对象进行准确识别,因此本申请提出的人工智能识别模型不仅具有较好的识别性能,同时还具有较高的可应用性。
本申请的另一示例性实施例提出一种目标对象识别装置,如图9所示,该装置包括编码处理模块410、编码识别模块430、解码处理模块450和结果生成模块470。该装置也是基于图1所示的人工智能识别模型所提出的。
其中,编码处理模块410用于获取编码器网络对目标对象的特征序列进行特征编码处理得到的编码特征序列。编码识别模块430用于对编码特征序列中的各个编码特征进行识别处理,得到目标对象对应的上下文识别信息。解码处理模块450用于根据上下文识别信息对编码特征序列进行特征解码处理,获得解码特征序列。结果生成模块470用于基于解码特征序列生成目标对象的识别结果。
在另一示例性的实施例中,解码处理模块450包括信息输入单元和解码修正单元。信息输入单元用于将上下文识别信息和编码特征序列输入至解码器网络中。解码修正单元用于根据解码器网络对编码特征序列中含有的各个编码特征进行解码,并基于上下文识别信息对各个编码特征进行解码修正,以获得解码特征序列。
在另一示例性的实施例中,解码器网络包括特征嵌入网络和依次连接的多个特征解码网络,多个特征解码网络中前一个特征解码网络的输出信号作为下一个特征解码网络的输入信号,编码器网络的输出信号分别输入至各个特征解码网络中,解码修正单元包括向量映射子单元和联合解码子单元。
其中,向量映射子单元用于根据特征嵌入网络对上下文信息中含有的各个识别信息进行向量映射,获得上下文信息对应的识别向量序列,将识别向量序列作为多个特征解码网络中第一个特征解码网络的输入信号。联合解码子单元用于根据各个特征解码网络的输入信号依次进行联合解码,将最后一个特征解码网络输出的解码结果作为解码特征序列。
在另一示例性实施例中,向量映射子单元包括向量嵌入子单元和向量叠加子单元。向量嵌入子单元用于根据各个识别信息分别在上下文信息中的位置信息,确定各个识别信息对应的位置向量,并确定各个识别信息对应的嵌入向量。向量叠加子单元用于叠加各个识别信息对应的位置向量和嵌入向量,以得到各个识别信息对应的识别向量。
在另一示例性实施例中,特征解码网络包括依次连接的自注意力网络、编解码注意力网络和前馈网络,联合解码子单元包括自注意力计算子单元、编解码注意力计算子单元和前馈计算子单元。
其中,自注意力计算子单元用于根据自注意力网络计算上层网络的输出信号对应的自注意力特征序列。编解码注意力计算子单元用于根据编解码注意力网络计算自注意力特征序列与编码特征序列之间的联合注意力特征序列。前馈计算子单元用于根据前馈网络对联合注意力特征序列进行线性变换,将线性变换的结果作为特征解码网络的输出信号。
在另一示例性实施例中,自注意力计算子单元包括向量转化子单元、点积运算子单元和特征获取子单元。向量转化子单元用于对上层网络的输出信号中含有的各个向量进行线性变换,获得各个向量对应的查询向量、键向量以及值向量。点积运算子单元用于将获得的各个查询向量与获得的各个键向量分别进行点积运算,以获得各个查询向量与所述各个键向量之间的相似度。特征获取子单元用于归一化各个查询向量与各个键向量之间的相似度,获得各个键向量相对各个查询向量的重要性程度,并根据重要性程度对获得的值向量进行加权和运算,以获得查询向量对应的向量的自注意力特征。
在另一示例性实施例中,自注意力网络中含有多个自注意力子网络,每个自注意力子网络分别用于计算上层网络的输出信号中含有的各个向量的自注意力子特征;自注意力计算子单元包括自注意力子特征获取子单元和自注意力子特征拼接子单元。
其中,自注意力子特征获取子单元用于获取各个自注意力子网络输出的多个自注意力子特征,多个自注意力子特征与上层网络的输出信号中含有的各个向量一一对应。自注意力子特征拼接子单元用于拼接同一向量对应的各个自注意力子特征,以根据各个向量对应的拼接结果获得向量的自注意力特征。
在另一示例性实施例中,编码识别模块430包括线性变换单元、归一化处理单元和识别信息获取单元。线性变换单元用于针对编码特征序列中含有的各个编码特征进行线性变换,获得各个编码特征对应的样本权重。归一化处理单元用于对各个编码特征对应的样本权重进行归一化处理,获得各个编码特征对应的标记样本的概率分布。识别信息获取单元用于根据标记样本的概率分布选择与各个编码特征对应的标记样本,将选择的标记样本作为编码特征的识别信息,并对各个编码特征的识别信息进行组合,以得到上下文识别信息。
在另一示例性实施例中,该装置还包括训练模块,该训练模块用于针对编码器网络进行预训练,以使编码器网络收敛,然后将收敛的编码器网络的输出信号作为解码器网络的输入信号,对解码器网络进行预训练,并使解码器网络收敛,然后针对收敛的编码器网络和收敛的解码器网络进行联合训练,以通过联合训练所得到的编码器网络和解码器网络进行目标对象的识别。
此外,本申请的另一示例性实施例还提出一种语音识别装置,该装置包括语音编码处理模块、语音编码识别模块、语音解码处理模块和语音结果生成模块。
其中,语音编码处理模块用于获取编码器网络对语音的语音特征序列进行特征编码处理得到的语音编码特征序列。语音编码识别模块用于对语音编码特征序列中的各个语音编码特征进行语音识别,得到语音对应的上下文识别信息。语音解码处理模块用于根据上下文识别信息对语音编码特征序列进行特征解码处理,获得语音解码特征序列。语音结果生成模块用于基于语音解码特征序列生成语音的识别结果。
本申请的另一示例性实施例还提出一种文本识别装置,该装置包括文本编码处理模块、文本编码识别模块、文本解码处理模块和文本结果生成模块。
其中,文本编码处理模块用于获取编码器网络对文本对应的分词特征序列进行特征编码处理得到的分词编码特征序列。文本编码识别模块用于对分词编码特征序列中的各个分词编码特征进行文本处理,得到文本对应的上下文识别信息。文本解码处理模块用于根据上下文识别信息对分词编码特征序列进行特征解码处理,获得分词解码特征序列。文本结果生成模块用于基于分词解码特征序列生成文本的识别结果。
需要说明的是,上述实施例所提供的装置与上述实施例所提供的方法属于同一构思,其中各个模块和单元执行操作的具体方式已经在方法实施例中进行了详细描述,此处不再赘述。
本申请的实施例还提供了一种目标对象识别设备,包括处理器和存储器,其中,存储器上存储有计算机可读指令,该计算机可读指令被处理器执行时实现如前所述的目标对象识别方法。该设备具体可应用于语音识别、文本翻译、文本摘要提取等场景中。
图10是根据一示例性实施例示出的一种目标对象识别设备的结构示意图。
需要说明的是,该目标对象识别设备只是一个适配于本申请的示例,不能认为是提供了对本申请的使用范围的任何限制。该目标对象识别设备也不能解释为需要依赖于或者必须具有图10中示出的示例性的目标对象识别设备中的一个或者多个组件。
该设备的硬件结构可因配置或者性能的不同而产生较大的差异,如图10所示,该设备包括:电源610、接口630、至少一存储器650、以及至少一中央处理器(CPU,CentralProcessing Units)670。
其中,电源610用于为该设备上的各硬件设备提供工作电压。
接口630包括至少一有线或无线网络接口631、至少一串并转换接口633、至少一输入输出接口635以及至少一USB接口637等,用于与外部设备通信。
存储器650作为资源存储的载体,可以是只读存储器、随机存储器、磁盘或者光盘等,其上所存储的资源包括操作系统651、应用程序653或者数据655等,存储方式可以是短暂存储或者永久存储。其中,操作系统651用于管理与控制该设备上的各硬件设备以及应用程序653,以实现中央处理器670对海量数据655的计算与处理,其可以是WindowsServerTM、Mac OS XTM、UnixTM、LinuxTM等。应用程序653是基于操作系统651之上完成至少一项特定工作的计算机程序,其可以包括至少一模块,每个模块都可以分别包含有对该设备的一系列计算机可读指令。
中央处理器670可以包括一个或多个以上的处理器,并设置为通过总线与存储器650通信,用于运算与处理存储器650中的海量数据655。
如上面所详细描述的,适用本申请的样本获取设备将通过中央处理器670读取存储器650中存储的一系列计算机可读指令的形式来完成如前所述的目标对象识别方法。
此外,通过硬件电路或者硬件电路结合软件指令也能同样实现本申请,因此,实现本申请并不限于任何特定硬件电路、软件以及两者的组合。
本申请的另一方面还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如前所述的目标对象识别方法。该计算机可读存储介质可以是上述实施例中描述的目标对象识别设备中所包含的,也可以是单独存在,而未装配入该目标对象识别设备中。
上述内容,仅为本申请的较佳示例性实施例,并非用于限制本申请的实施方案,本领域普通技术人员根据本申请的主要构思和精神,可以十分方便地进行相应的变通或修改,故本申请的保护范围应以权利要求书所要求的保护范围为准。
Claims (15)
1.一种目标对象识别方法,其特征在于,包括:
获取编码器网络对目标对象的特征序列进行特征编码处理得到的编码特征序列;
对所述编码特征序列中的各个编码特征进行识别处理,得到所述目标对象对应的上下文识别信息;
根据所述上下文识别信息对所述编码特征序列进行特征解码处理,获得解码特征序列;
基于所述解码特征序列生成所述目标对象的识别结果。
2.根据权利要求1所述的方法,其特征在于,根据所述上下文识别信息对所述编码特征序列进行特征解码处理,获得解码特征序列,包括:
将所述上下文识别信息和所述编码特征序列输入至解码器网络中;
根据所述解码器网络对所述编码特征序列中含有的各个编码特征进行解码,并基于所述上下文识别信息对所述各个编码特征进行解码修正,以获得所述解码特征序列。
3.根据权利要求2所述的方法,其特征在于,所述解码器网络包括特征嵌入网络和依次连接的多个特征解码网络,所述多个特征解码网络中前一个特征解码网络的输出信号作为下一个特征解码网络的输入信号,所述编码器网络的输出信号分别输入至各个特征解码网络中;
根据所述解码器网络对所述编码特征序列中含有的各个编码特征进行解码,并基于所述上下文识别信息对所述各个编码特征进行解码修正,包括:
根据所述特征嵌入网络对所述上下文信息中含有的各个识别信息进行向量映射,获得所述上下文信息对应的识别向量序列,将所述识别向量序列作为所述多个特征解码网络中第一个特征解码网络的输入信号;
根据各个特征解码网络的输入信号依次进行联合解码,将最后一个特征解码网络输出的解码结果作为所述解码特征序列。
4.根据权利要求3所述的方法,其特征在于,根据所述特征嵌入网络对所述上下文信息中含有的各个识别信息进行向量映射,获得所述上下文信息对应的识别向量序列,包括:
根据各个识别信息分别在所述上下文信息中的位置信息,确定所述各个识别信息对应的位置向量,并确定所述各个识别信息对应的嵌入向量;
叠加所述各个识别信息对应的位置向量和嵌入向量,以得到所述各个识别信息对应的识别向量。
5.根据权利要求3所述的方法,其特征在于,所述特征解码网络包括依次连接的自注意力网络、编解码注意力网络和前馈网络;根据各个特征解码网络的输入信号依次进行联合解码,包括:
根据所述自注意力网络计算上层网络的输出信号对应的自注意力特征序列;
根据所述编解码注意力网络计算所述自注意力特征序列与所述编码特征序列之间的联合注意力特征序列;
根据所述前馈网络对所述联合注意力特征序列进行线性变换,将所述线性变换的结果作为所述特征解码网络的输出信号。
6.根据权利要求5所述的方法,其特征在于,根据所述自注意力网络计算上层网络的输出信号对应的自注意力特征,包括:
对所述上层网络的输出信号中含有的各个向量进行线性变换,获得所述各个向量对应的查询向量、键向量以及值向量;
将获得的各个查询向量与获得的各个键向量分别进行点积运算,以获得各个查询向量与所述各个键向量之间的相似度;
归一化所述各个查询向量与所述各个键向量之间的相似度,获得各个键向量相对所述各个查询向量的重要性程度,并根据所述重要性程度对获得的值向量进行加权和运算,以获得所述查询向量对应的向量的自注意力特征。
7.根据权利要求5所述的方法,其特征在于,所述自注意力网络中含有多个自注意力子网络,每个自注意力子网络分别用于计算上层网络的输出信号中含有的各个向量的自注意力子特征;
根据所述自注意力网络计算上层网络的输出信号对应的自注意力特征,包括:
获取各个自注意力子网络输出的多个自注意力子特征,所述多个自注意力子特征与上层网络的输出信号中含有的各个向量一一对应;
拼接同一向量对应的各个自注意力子特征,以根据各个向量对应的拼接结果获得所述向量的自注意力特征。
8.根据权利要求1所述的方法,其特征在于,针对所述编码特征序列进行识别处理,获得所述目标对象对应的上下文识别信息,包括:
针对所述编码特征序列中含有的各个编码特征进行线性变换,获得所述各个编码特征对应的样本权重;
对所述各个编码特征对应的样本权重进行归一化处理,获得所述各个编码特征对应的标记样本的概率分布;
根据所述标记样本的概率分布选择与所述各个编码特征对应的标记样本,将选择的标记样本作为所述编码特征的识别信息,并对所述各个编码特征的识别信息进行组合,以得到所述上下文识别信息。
9.根据权利要求1所述的方法,其特征在于,根据所述上下文识别信息,通过解码器网络对所述语音编码特征序列进行特征解码处理;所述方法还包括:
针对所述编码器网络进行预训练,以使所述编码器网络收敛;
将收敛的编码器网络的输出信号作为所述解码器网络的输入信号,对所述解码器网络进行预训练,并使所述解码器网络收敛;
针对所述收敛的编码器网络和收敛的解码器网络进行联合训练,以通过所述联合训练所得到的编码器网络和解码器网络进行所述目标对象的识别。
10.根据权利要求9所述的方法,其特征在于,所述编码器网络和所述解码器网络依次采用不同类型的损失函数进行训练,所述损失函数至少包括交叉熵损失函数和CTC损失函数。
11.一种语音识别方法,其特征在于,包括:
获取编码器网络对语音的语音特征序列进行特征编码处理得到的语音编码特征序列;
对所述语音编码特征序列中的各个语音编码特征进行语音识别,得到所述语音对应的上下文识别信息;
根据所述上下文识别信息对所述语音编码特征序列进行特征解码处理,获得语音解码特征序列;
基于所述语音解码特征序列生成所述语音的识别结果。
12.一种文本识别方法,其特征在于,包括:
获取编码器网络对文本对应的分词特征序列进行特征编码处理得到的分词编码特征序列;
对所述分词编码特征序列中的各个分词编码特征进行文本处理,得到所述文本对应的上下文识别信息;
根据所述上下文识别信息对所述分词编码特征序列进行特征解码处理,获得分词解码特征序列;
基于所述分词解码特征序列生成所述文本的识别结果。
13.一种目标对象识别装置,其特征在于,包括:
编码处理模块,用于获取编码器网络对目标对象的特征序列进行特征编码处理得到的编码特征序列;
编码识别模块,用于对所述编码特征序列中的各个编码特征进行识别处理,得到所述目标对象对应的上下文识别信息;
解码处理模块,用于根据所述上下文识别信息对所述编码特征序列进行特征解码处理,获得解码特征序列;
结果生成模块,用于基于所述解码特征序列生成所述目标对象的识别结果。
14.一种目标对象识别设备,其特征在于,包括:
存储器,存储有计算机可读指令;
处理器,读取存储器存储的计算机可读指令,以执行权利要求1-12中的任一项所述的方法。
15.一种计算机可读存储介质,其特征在于,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行权利要求1-12中的任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010630224.6A CN111859954A (zh) | 2020-07-01 | 2020-07-01 | 目标对象识别方法、装置、设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010630224.6A CN111859954A (zh) | 2020-07-01 | 2020-07-01 | 目标对象识别方法、装置、设备及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111859954A true CN111859954A (zh) | 2020-10-30 |
Family
ID=73153592
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010630224.6A Pending CN111859954A (zh) | 2020-07-01 | 2020-07-01 | 目标对象识别方法、装置、设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111859954A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112863550A (zh) * | 2021-03-01 | 2021-05-28 | 德鲁动力科技(成都)有限公司 | 基于注意力残差学习的哭声检测方法及系统 |
CN112989970A (zh) * | 2021-02-26 | 2021-06-18 | 北京百度网讯科技有限公司 | 文档版面分析方法、装置、电子设备及可读存储介质 |
CN113409769A (zh) * | 2020-11-24 | 2021-09-17 | 腾讯科技(深圳)有限公司 | 基于神经网络模型的数据识别方法、装置、设备及介质 |
CN113705315A (zh) * | 2021-04-08 | 2021-11-26 | 腾讯科技(深圳)有限公司 | 视频处理方法、装置、设备及存储介质 |
CN113838468A (zh) * | 2021-09-24 | 2021-12-24 | 中移(杭州)信息技术有限公司 | 流式语音识别方法、终端设备及介质 |
CN116913266A (zh) * | 2023-09-13 | 2023-10-20 | 腾讯科技(深圳)有限公司 | 一种语音检测方法、装置、设备及存储介质 |
CN117094283A (zh) * | 2023-10-13 | 2023-11-21 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、电子设备、存储介质和程序产品 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090249165A1 (en) * | 2008-03-25 | 2009-10-01 | Her Majesty the Queen in Right of Canada, as represented by the Minister of Industry, through | Event Cleanup Processing For Improving The Performance Of Sequence-Based Decoders |
CN110046338A (zh) * | 2018-01-15 | 2019-07-23 | 深圳市腾讯计算机系统有限公司 | 一种上下文选择方法、装置、电子设备及存储介质 |
CN110795556A (zh) * | 2019-11-01 | 2020-02-14 | 中山大学 | 一种基于细粒度插入式解码的摘要生成方法 |
-
2020
- 2020-07-01 CN CN202010630224.6A patent/CN111859954A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090249165A1 (en) * | 2008-03-25 | 2009-10-01 | Her Majesty the Queen in Right of Canada, as represented by the Minister of Industry, through | Event Cleanup Processing For Improving The Performance Of Sequence-Based Decoders |
CN110046338A (zh) * | 2018-01-15 | 2019-07-23 | 深圳市腾讯计算机系统有限公司 | 一种上下文选择方法、装置、电子设备及存储介质 |
CN110795556A (zh) * | 2019-11-01 | 2020-02-14 | 中山大学 | 一种基于细粒度插入式解码的摘要生成方法 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113409769A (zh) * | 2020-11-24 | 2021-09-17 | 腾讯科技(深圳)有限公司 | 基于神经网络模型的数据识别方法、装置、设备及介质 |
CN113409769B (zh) * | 2020-11-24 | 2024-02-09 | 腾讯科技(深圳)有限公司 | 基于神经网络模型的数据识别方法、装置、设备及介质 |
CN112989970A (zh) * | 2021-02-26 | 2021-06-18 | 北京百度网讯科技有限公司 | 文档版面分析方法、装置、电子设备及可读存储介质 |
CN112863550A (zh) * | 2021-03-01 | 2021-05-28 | 德鲁动力科技(成都)有限公司 | 基于注意力残差学习的哭声检测方法及系统 |
CN113705315A (zh) * | 2021-04-08 | 2021-11-26 | 腾讯科技(深圳)有限公司 | 视频处理方法、装置、设备及存储介质 |
CN113705315B (zh) * | 2021-04-08 | 2024-05-14 | 腾讯科技(深圳)有限公司 | 视频处理方法、装置、设备及存储介质 |
CN113838468A (zh) * | 2021-09-24 | 2021-12-24 | 中移(杭州)信息技术有限公司 | 流式语音识别方法、终端设备及介质 |
CN116913266A (zh) * | 2023-09-13 | 2023-10-20 | 腾讯科技(深圳)有限公司 | 一种语音检测方法、装置、设备及存储介质 |
CN116913266B (zh) * | 2023-09-13 | 2024-01-05 | 腾讯科技(深圳)有限公司 | 一种语音检测方法、装置、设备及存储介质 |
CN117094283A (zh) * | 2023-10-13 | 2023-11-21 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、电子设备、存储介质和程序产品 |
CN117094283B (zh) * | 2023-10-13 | 2024-02-13 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、电子设备、存储介质和程序产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111859954A (zh) | 目标对象识别方法、装置、设备及计算机可读存储介质 | |
CN110288665B (zh) | 基于卷积神经网络的图像描述方法、计算机可读存储介质、电子设备 | |
CN113987209B (zh) | 基于知识指导前缀微调的自然语言处理方法、装置、计算设备和存储介质 | |
WO2020140487A1 (zh) | 用于智能设备的人机交互语音识别方法及系统 | |
CN111931513B (zh) | 一种文本的意图识别方法及装置 | |
Zhou et al. | Converting anyone's emotion: Towards speaker-independent emotional voice conversion | |
CN113205817B (zh) | 语音语义识别方法、系统、设备及介质 | |
CN112115687B (zh) | 一种结合知识库中的三元组和实体类型的生成问题方法 | |
CN112990296B (zh) | 基于正交相似度蒸馏的图文匹配模型压缩与加速方法及系统 | |
Chen et al. | Aipnet: Generative adversarial pre-training of accent-invariant networks for end-to-end speech recognition | |
CN114676234A (zh) | 一种模型训练方法及相关设备 | |
CN112466316A (zh) | 一种基于生成对抗网络的零样本语音转换系统 | |
CN112101044B (zh) | 一种意图识别方法、装置及电子设备 | |
CN112543932A (zh) | 语义分析方法、装置、设备及存储介质 | |
CN114360502A (zh) | 语音识别模型的处理方法、语音识别方法及装置 | |
CN113823272A (zh) | 语音处理方法、装置、电子设备以及存储介质 | |
CN111984780A (zh) | 多意图识别模型训练方法和多意图识别方法及相关装置 | |
CN110717021A (zh) | 人工智能面试中获取输入文本和相关装置 | |
CN114416948A (zh) | 一种基于语义感知的一对多对话生成方法及装置 | |
Gao et al. | Self-supervised pre-training for attention-based encoder-decoder asr model | |
CN114048290A (zh) | 一种文本分类方法及装置 | |
Haidar et al. | Fine-tuning of pre-trained end-to-end speech recognition with generative adversarial networks | |
CN117034951A (zh) | 基于大语言模型的具有特定语言风格的数字人 | |
CN116564330A (zh) | 弱监督语音预训练方法、电子设备和存储介质 | |
CN116484885A (zh) | 基于对比学习和词粒度权重的视觉语言翻译方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40030050 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |