CN113763931A - 波形特征提取方法、装置、计算机设备及存储介质 - Google Patents

波形特征提取方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN113763931A
CN113763931A CN202110496090.8A CN202110496090A CN113763931A CN 113763931 A CN113763931 A CN 113763931A CN 202110496090 A CN202110496090 A CN 202110496090A CN 113763931 A CN113763931 A CN 113763931A
Authority
CN
China
Prior art keywords
waveform
subsequence
feature
scale
subsequences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110496090.8A
Other languages
English (en)
Other versions
CN113763931B (zh
Inventor
林永业
王珺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110496090.8A priority Critical patent/CN113763931B/zh
Publication of CN113763931A publication Critical patent/CN113763931A/zh
Application granted granted Critical
Publication of CN113763931B publication Critical patent/CN113763931B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种波形特征提取方法、装置、计算机设备及存储介质,属于计算机技术领域。该方法包括:按照多个尺度分别对语音波形进行分割,得到多个尺度对应的波形序列,分别对每个尺度对应的波形序列中的多个波形片段进行编码,得到每个尺度对应的第一特征序列,分别将每个尺度对应的第一特征序列中的多个波形特征进行融合,得到每个尺度对应的第二特征序列,将多个尺度对应的第二特征序列进行拼接,得到语音波形对应的波形特征信息,按照多个尺度对语音波形进行分割成多个波形片段,并对每个尺度对应的波形片段的波形特征进行增强处理,以提高每个波形特征的准确性,将每个尺度对应的波形特征进行拼接,提高了波形特征信息的准确性。

Description

波形特征提取方法、装置、计算机设备及存储介质
技术领域
本申请实施例涉及计算机技术领域,特别涉及一种波形特征提取方法、装置、计算机设备及存储介质。
背景技术
随着计算机技术的发展,语音处理技术的应用越来越广泛。在多种场景下,如语音交互场景、语音识别场景等,通常都需要对语音数据对应的语音波形进行处理,以获知语音波形中包含的语义。相关技术中,直接对语音波形进行特征提取,来获取语音波形的波形特征。但这种特征提取的方式简单,得到的波形特征的准确性差。
发明内容
本申请实施例提供了一种波形特征提取方法、装置、计算机设备及存储介质,能够提高波形特征信息的准确性。所述技术方案如下:
一方面,提供了一种波形特征提取方法,所述方法包括:
按照多个尺度分别对语音波形进行分割,得到所述多个尺度对应的波形序列,任一尺度对应的波形序列包括属于所述任一尺度的多个波形片段;
分别对每个尺度对应的波形序列中的多个波形片段进行编码,得到所述每个尺度对应的第一特征序列,任一尺度对应的第一特征序列包括属于所述任一尺度的多个波形片段编码得到的波形特征;
分别将所述每个尺度对应的第一特征序列中的多个波形特征进行融合,得到所述每个尺度对应的第二特征序列;
将所述多个尺度对应的第二特征序列进行拼接,得到所述语音波形对应的波形特征信息。
在一种可能实现方式中,所述语音波形为语音通话场景中的语音波形;所述将所述多个尺度对应的第二特征序列进行拼接,得到所述语音波形对应的波形特征信息之后,所述方法还包括:
将所述波形特征信息进行语音转换,得到所述波形特征对应的语音信息;
播放所述语音信息。
另一方面,提供了一种波形特征提取装置,所述装置包括:
分割模块,用于按照多个尺度分别对语音波形进行分割,得到所述多个尺度对应的波形序列,任一尺度对应的波形序列包括属于所述任一尺度的多个波形片段;
编码模块,用于分别对每个尺度对应的波形序列中的多个波形片段进行编码,得到所述每个尺度对应的第一特征序列,任一尺度对应的第一特征序列包括属于所述任一尺度的多个波形片段编码得到的波形特征;
融合模块,用于分别将所述每个尺度对应的第一特征序列中的多个波形特征进行融合,得到所述每个尺度对应的第二特征序列;
拼接模块,用于将所述多个尺度对应的第二特征序列进行拼接,得到所述语音波形对应的波形特征信息。
在一种可能实现方式中,所述融合模块,包括:
分割单元,用于对于任一尺度,对所述尺度对应的第一特征序列进行分割,得到多个第一子序列,每个第一子序列包括至少一个第一波形特征,每个第一波形特征与一个波形片段对应;
处理单元,用于对所述多个第一子序列中的第一波形特征进行增强处理,得到所述多个第一子序列对应的第二子序列,所述第二子序列包括至少一个第二波形特征,且每个第二波形特征与所述第二子序列对应的第一子序列中的一个第一波形特征对应;
融合单元,用于按照所述多个第一子序列的排列顺序,将得到的多个第二子序列进行融合,得到所述尺度对应的第二特征序列。
在另一种可能实现方式中,所述处理单元,用于对于任一第一子序列,根据所述第一子序列中的多个第一波形特征,分别对每个第一波形特征进行增强处理,得到所述每个第一波形特征对应的第三波形特征,将得到的多个第三波形特征构成第三子序列;将所述尺度对应的第一权重信息与所述第三子序列进行融合,得到所述第一子序列对应的第二子序列。
在另一种可能实现方式中,所述处理单元,用于将所述每个第一子序列与对应的位置信息进行融合,得到所述每个第一子序列对应的第二子序列,所述位置信息用于指示对应的第一子序列在所述多个第一子序列中的位置。
在另一种可能实现方式中,所述处理单元,用于
对于任一第一子序列,对所述第一子序列中的每个第一波形特征进行特征变换,得到所述每个第一波形特征对应的第四波形特征;
将得到的第四波形特征构成的第四子序列,与所述第一子序列对应的位置信息进行融合,得到所述第一子序列对应的第二子序列。
在另一种可能实现方式中,所述每个第一子序列包括多个第一波形特征,所述处理单元,用于将所述每个第一子序列与对应的位置信息进行融合,得到所述每个第一子序列对应的第五子序列,每个第五子序列包括多个第五波形特征,且每个第五波形特征与对应的第一子序列中的一个第一波形特征对应;将得到的多个第五子序列中每个相同位置上的多个第五波形特征,构成一个第六子序列,得到多个第六子序列;将每个第六子序列与对应的第二权重信息进行融合,得到所述每个第六子序列对应的第七子序列,所述第七子序列包括多个第六波形特征,且每个第六波形特征与对应的第六子序列中的一个第五波形特征对应;将得到的多个第七子序列中每个相同位置上的第六波形特征,构成一个第二子序列,得到所述多个第二子序列。
在另一种可能实现方式中,所述装置还包括:
获取模块,用于根据每个第六子序列中的多个第五波形特征之间的相似度,分别获取所述每个第六子序列对应的第二权重信息。
在另一种可能实现方式中,所述每个第一子序列包括多个第一波形特征,所述多个第一子序列中相邻的任两个第一子序列中包括至少一个相同的第一波形特征;
所述融合单元,用于按照所述多个第一子序列的排列顺序,将相邻的每两个第二子序列中对应于相同的第一波形特征的第二波形特征进行融合;将所述多个第二子序列中融合后的波形特征,以及剩余的波形特征构成所述尺度对应的第二特征序列。
在另一种可能实现方式中,所述融合单元,用于将每个第二子序列中的第二波形特征与对应的第一波形特征融合,得到融合波形特征;按照所述多个第一子序列的排列顺序,将相邻的每两个第二子序列中对应于相同的第一波形特征的融合波形特征进行融合。
在另一种可能实现方式中,所述第二特征序列和所述波形特征信息均为二维特征矩阵;所述拼接模块,包括:
确定单元,用于将所述多个尺度中目标尺度对应的第二特征序列,确定为目标特征序列;
变换单元,用于对所述多个尺度中剩余的尺度对应的第二特征序列进行尺寸变换,得到与所述目标特征序列尺寸相同的第三特征序列;
拼接单元,用于将所述目标特征序列及所述第三特征序列进行拼接,得到所述波形特征信息。
在另一种可能实现方式中,所述拼接单元,用于将所述目标特征序列及所述第三特征序列中,相同位置上的列向量进行拼接,得到多个拼接向量,将所述多个拼接向量构成所述波形特征信息。
在另一种可能实现方式中,所述装置还包括:
识别模块,用于对所述波形特征信息进行语音识别,得到所述语音波形对应的文本信息。
在另一种可能实现方式中,所述语音波形为语音通话场景中的语音波形;所述装置还包括:
转换模块,用于将所述波形特征信息进行语音转换,得到所述波形特征对应的语音信息;
播放模块,用于播放所述语音信息。
另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条计算机程序,所述至少一条计算机程序由所述处理器加载并执行以实现如上述方面所述的波形特征提取方法中所执行的操作。
另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条计算机程序,所述至少一条计算机程序由处理器加载并执行以实现如上述方面所述的波形特征提取方法中所执行的操作。
再一方面,提供了一种计算机程序产品或计算机程序,所述计算机程序产品或计算机程序包括计算机程序代码,所述计算机程序代码存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序代码,处理器执行所述计算机程序代码,使得所述计算机设备实现如上述方面所述的波形特征提取方法中所执行的操作。
本申请实施例提供的技术方案带来的有益效果至少包括:
本申请实施例提供的方法、装置、计算机设备及存储介质,按照多个尺度对语音波形进行分割成多个波形片段,来获取每个尺度对应的波形片段的波形特征,并对每个尺度对应的波形特征进行增强处理,以提高每个波形特征的准确性,之后将每个尺度对应的波形特征进行融合、拼接,使得到的波形特征信息中融入了多个尺度对应的波形特征,丰富了包含的波形特征,从而提高了波形特征信息的准确性,降低了语音波形中噪音的影响。因此,该波形特征信息能够准确体现语音波形的特征,在多种场景下利用上述波形特征信息进行处理时,均可提高准确率。例如,在语音识别场景下,对得到的波形特征信息进行语音识别,以提高语音识别的准确率;或者,在语音通话场景下,对得到的波形特征信息进行语音转换,降低语音波形中噪音的影响,从而提高语音通话的语音质量。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种实施环境的结构示意图;
图2是本申请实施例提供的一种波形特征提取方法的流程图;
图3是本申请实施例提供的一种波形特征提取方法的流程图;
图4是本申请实施例提供的一种波形特征提取方法的流程图;
图5是本申请实施例提供的一种波形特征提取方法的流程图;
图6是本申请实施例提供的一种波形特征提取装置的结构示意图;
图7是本申请实施例提供的一种波形特征提取装置的结构示意图;
图8是本申请实施例提供的一种终端的结构示意图;
图9是本申请实施例提供的一种服务器的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
本申请所使用的术语“第一”、“第二”、“第三”、“第四”、“第五”、“第六”等可在本文中用于描述各种概念,但除非特别说明,这些概念不受这些术语限制。这些术语仅用于将一个概念与另一个概念区分。举例来说,在不脱离本申请的范围的情况下,能够将第一子序列称为第二子序列,且类似地,能够将第二子序列称为第一子序列。
本申请所使用的术语“至少一个”、“多个”、“每个”、“任一”,至少一个包括一个、两个或两个以上,多个包括两个或两个以上,而每个是指对应的多个中的每一个,任一是指多个中的任意一个。举例来说,多个第一子序列包括3个第一子序列,而每个是指这3个第一子序列中的每一个第一子序列,任一是指这3个第一子序列中的任意一个,能够是第一个,或者,是第二个,或者,是第三个。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
本申请实施例提供的方案,基于人工智能的机器学习技术,能够训练特征提取模型,利用训练后的特征提取模型,来提取语音波形对应的波形特征信息。
本申请实施例提供的波形特征提取方法,能够用于计算机设备中。可选地,该计算机设备为终端或服务器。可选地,该服务器是独立的物理服务器,或者,是多个物理服务器构成的服务器集群或者分布式系统,或者,是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。可选地,该终端是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。
在一种可能实现方式中,本申请实施例所涉及的计算机程序可被部署在一个计算机设备上执行,或者在位于一个地点的多个计算机设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算机设备上执行,分布在多个地点且通过通信网络互连的多个计算机设备能够组成区块链系统。
图1是本申请实施例提供的一种实施环境的示意图。参见图1,该实施环境包括终端101和服务器102。终端101和服务器102之间通过无线或者有线网络连接。终端101上安装由服务器102提供服务的目标应用,终端101能够通过该目标应用实现例如数据传输、消息交互等功能。可选地,目标应用为终端101操作系统中的目标应用,或者为第三方提供的目标应用。例如,目标应用为语音识别应用,该语音识别应用具有语音识别的功能,当然,该语音识别应用还能够具有其他功能,例如,购物功能、导航功能、游戏功能等。
在一种可能实现方式中,终端101用于采集语音波形,并将采集到的语音波形发送至服务器101,服务器101能够对接收到的语音波形进行波形特征提取。之后,服务器101还能够基于提取到的波形特征信息来进行语音识别、语音转换等,或者,服务器将提取到的波形特征信息返回至终端101,由终端101对该波形特征信息进行语音识别、语音转换等。
本申请实施例提供的方法,可用于多种场景。
例如,语音识别场景下:
终端在采集到用户输入的语音波形后,采用本申请实施例提供的波形特征提取方法,获取该语音波形的波形特征信息,之后,对该波形特征信息进行语音识别,得到该波形特征信息对应的文本信息,以实现对语音波形中所包含的语义的理解。
例如,语音通话场景下:
两个终端均安装有语音通话应用,在该两个终端基于该语音通话应用进行语音通话时,任一终端采集到用户输入的语音波形后,基于该语音通话应用向该语音通话应用对应的服务器发送该语音波形,该服务器接收到该语音波形后,采用本申请实施例提供的波形特征提取方法,获取该语音波形的波形特征信息,之后,之后,将该波形特征信息进行语音转换,并将转换得到的语音信息发送至另一个终端,由另一个终端播放该语音信息,此过程能够降低语音波形中噪音的影响,从而提高语音通话的语音质量。
图2是本申请实施例提供的一种波形特征提取方法的流程图,应用于计算机设备中,如图2所示,该方法包括:
201、计算机设备按照多个尺度分别对语音波形进行分割,得到多个尺度对应的波形序列。
其中,语音波形用于表示一段语音,即将语音以波形的形式表示。任一尺度对应的波形序列包括属于任一尺度的多个波形片段,即该多个波形片段中每个波形片段的波形尺度,与所属的波形序列对应的尺度相等。
202、计算机设备分别对每个尺度对应的波形序列中的多个波形片段进行编码,得到每个尺度对应的第一特征序列。
其中,任一尺度对应的第一特征序列包括属于任一尺度的多个波形片段编码得到的波形特征,即任一尺度对应的第一特征序列中包括多个波形特征,且该多个波形特征与该尺度对应的多个波形片段一一对应。
203、计算机设备分别将每个尺度对应的第一特征序列中的多个波形特征进行融合,得到每个尺度对应的第二特征序列。
其中,每个尺度对应的第二特征序列中包括多个波形特征,且每个波形特征与属于对应尺度的一个波形片段对应。
204、计算机设备将多个尺度对应的第二特征序列进行拼接,得到语音波形对应的波形特征信息。
通过将多个尺度对应的第二特征序列进行拼接,使得到的波形特征信息中包含了多个尺度对应的波形特征,丰富了波形特征信息中包含的特征,从而提高了波形特征信息的准确性。
本申请实施例提供的方法,按照多个尺度对语音波形进行分割成多个波形片段,来获取每个尺度对应的波形片段的波形特征,并对每个尺度对应的波形特征进行增强处理,以提高每个波形特征的准确性,之后将每个尺度对应的波形特征进行融合、拼接,使得到的波形特征信息中融入了多个尺度对应的波形特征,丰富了包含的波形特征,从而提高了波形特征信息的准确性,降低了语音波形中噪音的影响。因此,该波形特征信息能够准确体现语音波形的特征,在多种场景下利用上述波形特征信息进行处理时,均可提高准确率。例如,在语音识别场景下,对得到的波形特征信息进行语音识别,以提高语音识别的准确率;或者,在语音通话场景下,对得到的波形特征信息进行语音转换,降低语音波形中噪音的影响,从而提高语音通话的语音质量。
图3是本申请实施例提供的一种波形特征提取方法的流程图,应用于计算机设备中,如图3所示,该方法包括:
301、计算机设备按照多个尺度分别对语音波形进行分割,得到多个尺度对应的波形序列。
其中,语音波形用于表示一段语音,即将语音以波形的形式表示,如,该语音波形是时域波形。可选地,该语音波形是由该计算机设备采集到的,或者是由其他设备发送的。
在一种可能实现方式中,在任一尺度对应的波形序列中,该波形序列中的多个波形片段按照在语音波形中的位置排列。例如,任一尺度,将语音波形划分成3个波形片段,如波形片段1、波形片段2及波形片段3,波形片段1为语音波形中的第一个波形片段,波形片段2为语音波形中的第二个波形片段,波形片段3为语音波形中的最后一个波形片段,则该尺度对应的波形序列中的波形片段的排列顺序为:波形片段1、波形片段2及波形片段3。
在一种可能实现方式中,在任一波形序列中相邻的任两个波形片段中的部分波形重合。在分割得到的多个波形片段中,相邻波形片段中的部分波形部分重合,避免由于对波形片段分割而导致的信息减少,以保证语音波形中所包含的特征的完整性。
可选地,相邻的任两个波形片段中重合部分为每个波形片段的一半。例如,任一波形序列包括3个波形片段,第一个波形片段中的后半段,与第二个波形片段的前半段重合,第二个波形片段的后半段与第三波形片段的前半段重合。
在一种可能实现方式中,该语音波形用向量表示,波形序列以二维矩阵的形式表示,在任一波形序列中相邻的任两个波形片段中重合部分为每个波形片段的一半,则多个尺度对应的波形序列满足以下关系:
Figure BDA0003054468850000101
其中,
Figure BDA0003054468850000107
用于表示多个尺度中第k个尺度对应的波形序列,
Figure BDA0003054468850000102
用于表示波形序列
Figure BDA0003054468850000103
的尺寸,也即是该波形序列
Figure BDA0003054468850000108
为Mk×Lk的二维矩阵;Mk用于表示多个尺度中第k个尺度,也即是波形序列
Figure BDA0003054468850000104
中每个波形片段的波形长度,该尺度Mk是一个超参数,通常称为窗宽;Lk用于表示波形序列
Figure BDA0003054468850000105
中的波形片段数目;x用于表示语音波形,
Figure BDA0003054468850000106
用于表示语音波形x的尺寸,即该语音波形x为T维度的列向量;T用于表示语音波形的维度。
在一种可能实现方式中,该步骤301包括:计算机设备调用多个尺度对应特征提取模型,分别对语音波形进行分割,得到多个尺度对应的波形序列。
其中,该特征提取模型是用于提取语音波形的波形特征信息的模型。可选地,该特征提取模型为TasNet(Time-domain Audio Separation Network,语音分离模型)。例如,该特征提取模型为GALR(Globally Attentive Locally Recurrent Network,全局关注局部递归模型)、DPRNN(Dual-Path Recurrent Neural Network,双路递归神经模型)、DPTNet(一种语音分离模型)等。在本申请实施例中,该计算机设备中配置有多个特征提取模型,每个特征提取模型对应的一个尺度,在计算机设备获取到语音波形后,分别调用每个特征提取模型,对该语音波形进行分割,得到每个特征提取模型对应的波形序列,即得到多个尺度对应的波形序列。
302、计算机设备分别对每个尺度对应的波形序列中的多个波形片段进行编码,得到每个尺度对应的第一特征序列。
其中,任一尺度对应的第一特征序列包括属于任一尺度的多个波形片段编码得到的波形特征,即任一尺度对应的第一特征序列中包括多个波形特征,且该多个波形特征与该尺度对应的多个波形片段一一对应。
在一种可能实现方式中,该步骤302包括:计算机设备调用任一尺度对应的特征提取模型,对该尺度对应的波形序列中的多个波形片段进行编码,得到该尺度对应的第一特征序列。
在本申请实施例中,计算机设备中配置有多个尺度对应的特征提取模型,调用任一尺度对应的特征提取模型,来获取该尺度对应的波形序列对应的第一特征序列,即获取到该尺度对应的第一特征序列,按照上述方式分别调用每个尺度对应的特征提取模型,能够获取到每个尺度对应的第一特征序列。
可选地,特征提取模型包括编码子模型,获取第一特征序列的过程包括:对于任一尺度,调用该尺度对应的特征提取模型中的编码子模型,对该尺度对应的波形序列中的多个波形片段进行编码,得到该尺度对应的第一特征序列。其中,该编码子模型为任意的卷积模型。
可选地,第一特征序列为二维特征矩阵,则获取第一特征序列的过程包括:对于任一尺度,调用该尺度对应的特征提取模型中的编码子模型,对该尺度对应的波形序列中的多个波形片段进行编码,得到该波形序列编码后的特征序列,对该编码后的特征序列进行特征变换,得到该尺度对应的第一特征序列。
例如,第一特征序列为二维特征矩阵,则调用任一尺度对应的特征提取模型中的编码子模型,获取该尺度对应的第一特征序列的过程,满足以下关系:
Figure BDA0003054468850000111
其中,Xk为多个尺度中第k个尺度对应的第一特征序列;Bk为编码子模型中的映射矩阵;
Figure BDA0003054468850000112
用于表示第k个尺度对应的波形序列编码后的特征序列,且该编码后的特征序列
Figure BDA0003054468850000113
为E行Lk列的矩阵;
Figure BDA0003054468850000114
用于表示第一特征序列Xk为D行Lk列的矩阵;
Figure BDA0003054468850000121
用于表示该映射矩阵Bk为D行E列的矩阵,D<E;ReLU(·)用于表示线性整流函数,用于保证输出的编码后的特征序列
Figure BDA0003054468850000122
中的数值均为非负的数值;Conv1D(·)用于表示一维卷积层;
Figure BDA0003054468850000123
表示第k个尺度对应的波形序列;Uk用于表示该编码子模型中的权重矩阵,
Figure BDA0003054468850000124
表示该权重矩阵Uk为E行Mk列的矩阵;
Figure BDA0003054468850000125
用于表示通过该权重矩阵Uk对波形序列
Figure BDA0003054468850000126
进行卷积处理。
303、计算机设备对于任一尺度,对尺度对应的第一特征序列进行分割,得到多个第一子序列。
其中,每个第一子序列包括至少一个第一波形特征,每个第一波形特征与一个波形片段对应。通过分别对每个尺度对应的第一特征序列进行分割,能够得到每个尺度对应的多个第一子序列。
在一种可能实现方式中,对于任一尺度,该尺度对应的多个第一子序列按照对应的声波片段在语音波形中的位置排列,也即是该尺度对应的多个第一子序列按照对应的声波片段在语音波形中的时间先后顺序排列。
在一种可能实现方式中,对于任一尺度对应的多个第一子序列,每个第一子序列包括多个第一波形特征,且在多个第一子序列中相邻的任两个第一子序列中包括至少一个相同的第一波形特征。
可选地,在多个第一子序列中,每个第一子序列所包括的第一波形特征的数目相同,相邻的任两个第一子序列中相同的第一波形特征的数目,为第一子序列所包括的第一波形特征的数目的二分之一。
例如,对于任一尺度对应的多个第一子序列中相邻的第一子序列1和第一子序列2,第一子序列1和第一子序列2均包括四个第一波形特征,第一子序列1包括第一波形特征1、第一波形特征2、第一波形特征3及第一波形特征4,第二子序列1包括第一波形特征3、第一波形特征4、第一波形特征5及第一波形特征6,即第一子序列1和第一子序列2中包括两个相同的第一波形特征。
在一种可能实现方式中,第一特征序列和第一子序列均为二维特征矩阵,任一尺度对应的多个第一子序列能够构成一个三维特征矩阵。
可选地,每个第一子序列包括多个列向量,每个列向量用于表示一个第一波形特征,对于任一尺度,该尺度对应的多个第一子序列中,每个子序列包括的列向量的个数相同,且相邻的任两个第一子序列中相同的列向量的数目,为第一子序列所包括的列向量的数目的二分之一,该尺度对应的多个第一子序列满足以下关系:
Figure BDA0003054468850000131
其中,
Figure BDA0003054468850000132
表示该多个尺度中第k个尺度对应的多个第一子序列构成的三维特征矩阵,
Figure BDA0003054468850000133
表示该三维矩阵
Figure BDA0003054468850000134
尺寸D×Lk×Sk;D用于表示每个第一子序列中包括的第一波形特征的维度,即第一波形特征为一个D维度的列向量,Jk用于表示每个第一子序列中包括的第一波形特征的数目,即每个第一子序列为一个D行Lk列的矩阵,Sk用于表示第k个尺度对应的多个第一子序列的数目。
可选地,在分割前,对该第一特征序列中第一个列向量前添加多个第一列向量,且在最后一个列向量之后添加多个第二列向量。其中,该第一列向量和第二列向量均为零向量,且添加的第一列向量和第二列向量的数目相等,第一列向量的数目与第二列向量的数目之和,为第一子序列中所包含的第一波形特征的数目。通过在第一特征序列中添加多个列向量,以使将第一特征序列分成多个第一子序列之后,该第一特征序列中的每个波形特征均属于两个第一子序列,以避免分割不均匀而导致的信息减少的情况,以保证分割得到的多个第一子序列的准确性。
304、计算机设备对该尺度对应的多个第一子序列中的第一波形特征进行增强处理,得到该多个第一子序列对应的第二子序列。
其中,第二子序列包括至少一个第二波形特征,且每个第二波形特征与第二子序列对应的第一子序列中的一个第一波形特征对应。对于任一尺度,对该尺度对应的多个第一子序列中的第一波形特征进行增强处理,以增强每个波形特征中所包含的信息,保证了得到的第二子序列中的第二波形特征的准确性。
在一种可能实现方式中,该步骤304包括以下三种方式:
第一种方式,包括:对于任一第一子序列,根据该第一子序列中的多个第一波形特征,分别对每个第一波形特征进行增强处理,得到每个第一波形特征对应的第三波形特征,将得到的多个第三波形特征构成第三子序列,将尺度对应的第一权重信息与第三子序列进行融合,得到第一子序列对应的第二子序列。
其中,第三子序列中包括的多个第三波形特征,与对应的第一子序列中包括的多个第一波形特征一一对应。在本申请实施例中,每个尺度对应有第一权重信息,该第一权重信息用于指示对应的尺度所需增强的特征的权重。按照上述第一种方式,对每个第一子序列进行处理,来获取每个第一子序列对应的第二子序列。
由于每个第一子序列中包括多个第一波形特征,每个第一波形特征对应一个波形片段,即每个第一子序列对应多个波形片段,且第一子序列对应的多个波形片段在时间上是连续的。通过第一子序列中的多个第一波形特征,对每个第一波形特征进行增强处理,使得增强处理后的第三波形特征中不仅包括了对应的第一波形特征中所包含的特征信息,还包含了其他第一波形特征中所包含的特征信息,从增强了多个第一波形特征之间的关联性,能够体现出多个第一波形特征之间在时间或频谱上的连续性,并能够突出多个第一波形特征对应的多个波形片段所对应的频谱特征和音色特征。并且将尺度对应的权重信息与第三子序列中的第三波形特征进行融合,使得到的第二子序列中的每个第二波形特征中融入了权重信息,增强了每个第二波形特征中所包含的特征,从而提高了第二波形特征的准确性。
在一种可能实现方式中,该第一种方式包括:对于任一尺度对应的任一第一子序列,调用特征提取模型,根据该第一子序列中的多个第一波形特征,分别对每个第一波形特征进行增强处理,得到每个第一波形特征对应的第三波形特征,将得到的多个第三波形特征构成第三子序列,将该尺度对应的第一权重信息与第三子序列进行融合,得到第一子序列对应的第二子序列。
可选地,该特征提取模型包括第一子模型,通过调用该特征提取模型中的第一子模型,执行上述获取任一第一子序列对应的第二子序列的过程。
其中,该第一子模型为任意的网络模型,例如,该第一子模型为递归神经网络模型,如GALR(Globally Attentive Locally Recurrent Network,全局关注局部递归模型)。
可选地,第一子模型中包括记忆层,该记忆层用于执行根据该第一子序列中的多个第一波形特征,分别对每个第一波形特征进行增强处理,得到每个第一波形特征对应的第三波形特征的步骤。其中,该记忆层为循环神经网络层,例如,该记忆层为BiLSTM(Bi-directional Long Short-Term Memory,双向长短时记忆层)。
可选地,第一权重信息为二维权重矩阵,第一子序列和第二子序列均为二维特征序列,则对于任一尺度对应的任一第一子序列,该第一子序列及对应的第二子序列满足以下关系:
Figure BDA0003054468850000151
其中,
Figure BDA0003054468850000152
用于表示多个尺度中第k个尺度对应的多个第二子序列构成的三维特征矩阵;Mk用于表示第k个尺度对应的第一权重信息,也即是第一子模型中的权重矩阵;
Figure BDA0003054468850000153
表示第k个尺度对应的多个第一子序列构成的三维特征矩阵,
Figure BDA0003054468850000154
用于表示三维特征矩阵
Figure BDA0003054468850000155
中第s个第一子序列,s用于表示第k个尺度对应的第一子序列的序号,序号s为大于等于1,且小于等于Sk的正整数,该Sk为大于等于2的正整数;BiLSTMk(·)用于表示第一子模型中的记忆层,用于对第s个第一子序列中的第一波形特征进行增强处理;ck用于表示第一子模型中的线性变换参数,
Figure BDA0003054468850000156
用于表示第一权重信息Mk为D行2H列的矩阵,H用于表示记忆层中的隐藏节点个数;
Figure BDA0003054468850000157
用于表示线性变换参数ck为D行的列向量。
第二种方式:将每个第一子序列与对应的位置信息进行融合,得到每个第一子序列对应的第二子序列。
其中,位置信息用于指示对应的第一子序列在多个第一子序列中的位置,也即是用于指示对应的第一子序列在多个第一子序列中的排列顺序。
在将任一第一子序列与对应的位置信息进行融合时,将该第一子序列中的每个第一波形特征与该位置信息进行融合,使得到的第二子序列中的每个第二波形特征中包含了对应的位置信息,以突出每个第二波形特征在多个第二子序列中的位置,从而增强了每个第二波形特征中所包含的信息。
在一种可能实现方式中,每个第一子序列对应的位置信息以数值的形式表示,或者,以向量的形式表示。
如果每个第一子序列对应的位置信息以数值表示,则该多个第一子序列对应的位置信息构成一个向量。例如,第一个子序列对应的位置信息包括“1”,第二个子序列对应的位置信息包括“2”,第三个子序列对应的位置信息包括“3”,则多个第一子序列对应的位置信息构成一个向量,即为[1,2,3]。如果每个第一子序列对应的位置信息以向量形式表示,则该多个第一子序列对应的位置信息构成一个二维位置矩阵。
在一种可能实现方式中,第二种方式包括:对于任一第一子序列,对该第一子序列中的每个第一波形特征进行特征变换,得到每个第一波形特征对应的第四波形特征,将得到的第四波形特征构成的第四子序列,与第一子序列对应的位置信息进行融合,得到第一子序列对应的第二子序列。
其中,每个第一子序列对应一个第四子序列,每个第一子序列中的第一波形特征,与对应的第四子序列中的一个第四波形特征对应。
可选地,采用规范化函数,对每个第一波形特征进行特征变换。例如,该规范化函数为LN(Layer Normalization,规范化函数)。通过对每个第一波形特征中包含的特征值进行特征变换,以保证特征变换后的第四波形特征满足目标样式,以便后续对得到的第四波形继续进行处理。
第三种方式包括以下步骤3041-3043:
3041、将每个第一子序列与对应的位置信息进行融合,得到每个第一子序列对应的第五子序列。
其中,每个第一子序列包括多个第一波形特征,每个第五子序列包括多个第五波形特征,且每个第五波形特征与对应的第一子序列中的一个第一波形特征对应。该步骤与上述第二种方式同理,在此不再赘述。
3042、将得到的多个第五子序列中每个相同位置上的多个第五波形特征,构成一个第六子序列,得到多个第六子序列。
其中,每个第五子序列中包括多个第五波形特征,且多个第五波形特征按照对应的波形片段在声音波形中的位置排列。多个第五子序列中任一相同位置上的多个第五波形特征,包括了每个第五子序列中的一个第五波形特征,且每个波形特征在对应的第五子序列中的位置相同。例如,由每个第五子序列中的第一个第五波形特征,构成一个第六子序列;由每个第五子序列中的第二个第五波形特征,构成一个第六子序列。
3043、将每个第六子序列与对应的第二权重信息进行融合,得到每个第六子序列对应的第七子序列。
其中,第七子序列包括多个第六波形特征,且每个第六波形特征与对应的第六子序列中的一个第五波形特征对应。第二权重信息包括对应的第六子序列中的多个第五波形特征之间的权重,用于指示该多个第五波形特征之间的重要程度。可选地,该第二权重信息为二维权重矩阵。通过将第六子序列与对应的第二权重信息进行融合,使得到的每个第六波形特征中融入了对应的权重,以增强多个波形特征中重要的语音特征,削弱语音波形中的噪声,从而提高了每个波形片段对应的第六波形特征的准确性。
在一种可能实现方式中,第六子序列为二维特征矩阵,第二权重信息为二维权重矩阵,第七子序列为二维特征矩阵;则该步骤3043包括:将每个第六子序列与对应的第二权重信息相加,得到每个第六子序列对应的第七子序列。
由于第六子序列为二维特征矩阵,第二权重信息为二维权重矩阵,则第六子序列与对应的第二权重信息相加,也即是将二维特征矩阵与对应的二维权重矩阵相加,得到该第七子序列。
在一种可能实现方式中,获取第六子序列对应的第二权重信息的过程包括:根据每个第六子序列中的多个第五波形特征之间的相似度,分别获取每个第六子序列对应的第二权重信息。
通过第六子序列中的多个第五波形特征之间的相似度,来获取第六子序列对应的第二权重信息,以使后续通过该第二权重信息,能够增强与其他第五波形特征相似度大的第五波形特征的,削弱与其他第五波形特征相似度小的第五波形特征,从而提高了得到的第六波形特征的准确性。
可选地,第二权重信息为二维权重矩阵;则获取第六子序列对应的第二权重信息的过程包括:对于任一第六子序列,根据第六子序列中的多个第五波形特征之间的相似度,获取第六子序列对应的第三权重信息,将第三权重信息与目标参数的乘积,确定为第六子序列对应的第二权重信息。
其中,目标参数为任意的数据,如该目标参数为0.9,或者0.8等。
在一种可能实现方式中,该则该步骤3043包括:对于任一第六子序列,调用特征提取模型中的自注意力子模型,根据第六子序列中的多个第五波形特征之间的相似度,获取第六子序列对应的第三权重信息,将第三权重信息与目标参数的乘积,确定为该第六子序列对应的第二权重信息,将该第六子序列与对应的第二权重信息进行融合,得到每个第六子序列对应的第七子序列。
其中,自注意力子模型是用于根据第五波形特征的权重来增强第五波形特征的模型。可选地,该自注意力子模型为多头自注意力子模型。
可选地,第六子序列为二维特征矩阵,第二权重信息为二维权重矩阵,则该第六子序列及第二权重信息满足以下关系:
Figure BDA0003054468850000181
A=W·Concat(Al,…,AH)
Figure BDA0003054468850000182
Figure BDA0003054468850000183
其中,
Figure BDA0003054468850000184
用于表示第六子序列,且第六子序列
Figure BDA0003054468850000185
为D行S列的矩阵;
Figure BDA0003054468850000186
用于表示第六子序列
Figure BDA0003054468850000187
对应的第七子序列;Selfttn(·)用于表示多头自注意力函数;LN(·)用于表示规范化函数;DROP(A)用于表示第六子序列
Figure BDA0003054468850000188
对应的第二权重信息;A用于表示第六子序列
Figure BDA0003054468850000189
对应的第三权重信息;W用于表示自注意力子模型中的权重矩阵;Concat(·)用于表示组合函数,用于将自注意力子模型中多个头输出的权重矩阵进行组合;自注意力子模型为多头自注意力子模型,该自注意力子模型包括H个头,H为大于等于2的正整数;h用于表示自注意力子模型包含的多个头中的第h个头,h为大于等于1、且小于等于H的正整数;A1用于表示自注意力子模型中的第1个头输出的权重矩阵;AH用于表示自注意力子模型中的第H个头输出的权重矩阵;Qh、Kh、Vh分别用于表示通过自注意力子模型中的第h个头对第六子序列
Figure BDA00030544688500001810
经过线性变换后的三个子矩阵,T用于表示对矩阵的转置;
Figure BDA00030544688500001811
Figure BDA00030544688500001812
均为自注意力子模型中的第h个头对应参数,
Figure BDA00030544688500001813
用于表示参数
Figure BDA00030544688500001814
Figure BDA00030544688500001815
均为
Figure BDA00030544688500001816
行D列的矩阵;
Figure BDA00030544688500001817
用于表示参数
Figure BDA00030544688500001818
Figure BDA00030544688500001819
均为
Figure BDA00030544688500001820
列向量;Ah用于表示自注意力子模型中的第h个头输出的权重矩阵;softmax(·)用于表示归一化函数。
在一种可能实现方式中,第一子序列、第五子序列、第六子序列及第七子序列均为二维特征矩阵,位置信息为二维位置矩阵,第二权重信息为二维权重矩阵,多个第一子序列、多个第五子序列及多个第七子序列均能构成一个三维特征矩阵,且每个第六子序列为多个第五子序列构成的三维特征矩阵中、多个第五子序列中每个相同位置上的多个第五波形特征,则通过多个第一子序列来获取多个第七子序列的过程,相当于调用特征提取模型中的自注意力子模型,将每个第一子序列与对应的位置信息进行融合,得到每个第一子序列对应的第五子序列,将多个第五子序列构成的三维特征矩阵中的每个第六子序列与对应的第二权重信息进行融合,得到多个第七子序列构成的三维特征矩阵。
可选地,多个第五子序列及多个第七子序列满足以下关系:
Figure BDA0003054468850000191
Figure BDA0003054468850000192
其中,
Figure BDA0003054468850000193
用于表示多个尺度中第k个尺度对应的多个第七子序列构成的三维特征矩阵,SANk(·)用于表示自注意力子模型;
Figure BDA0003054468850000194
用于表示多个尺度中第k个尺度对应的多个第一子序列构成的三维特征矩阵,该三维特征矩阵的尺寸为D×Jk×Sk,D表示每个第一波形特征的维度数目,Jk用于表示第k个尺度对应的第一子序列中包括的多个第一波形特征的数目,Sk用于表示第k个尺度对应的多个第一子序列的数目,D、Jk、Sk均为大于等于2的正整数;Selfttn(·)用于表示自注意力子模型对应的多头自注意力函数;LN(·)用于表示规范化函数;
Figure BDA0003054468850000195
用于表示三维特征矩阵
Figure BDA0003054468850000196
中的每个第一子序列中第j个第一波形特征构成的子序列,该子序列与第j个第六子序列,j为大于等于1、且小于等于Jk的正整数,
Figure BDA0003054468850000197
为D行Sk列的矩阵;P为多个第一子序列与对应的位置信息构成的二维位置矩阵。
3044、将得到的多个第七子序列中每个相同位置上的第六波形特征,构成一个第二子序列,得到多个第二子序列。
其中,每个第七子序列中包括多个第六波形特征,每个第六波形特征与一个第五波形特征对应,且每个第六波形特征与所对应的第五波形特征所属的第五子序列对应,且任一第七子序列中的多个第六波形特征按照对应的第五子序列在多个第五子序列中的位置排列。多个第七子序列中任一相同位置上的多个第六波形特征,分别与同一个第五子序列中的多个第五子序列对应,则将多个第七子序列中每个相同位置上的第六波形特征,构成一个第二子序列,且该第二子序列与一个第五子序列对应,即该第二子序列与第一个第一子序列对应,按照上述方式,即可得到多个第一子序列对应的多个第二子序列。
需要说明的是,上述对第一子序列中的第一波形特征进行增强处理的三种方式能够任意两两结合,或者三种方式结合。
在一种可能实现方式中,该步骤304包括以下步骤:
3045、对于任一第一子序列,根据该第一子序列中的多个第一波形特征,分别对每个第一波形特征进行增强处理,得到每个第一波形特征对应的第三波形特征,将得到的多个第三波形特征构成第三子序列,将尺度对应的第一权重信息与第三子序列进行融合,得到第一子序列对应的第八子序列。
需要说明的是,该步骤3045与上述第一种方式同理,在此不再赘述。
3046、将每个第八子序列与对应的位置信息进行融合,得到每个第八子序列对应的第九子序列。
在一种可能实现方式中,该步骤3046包括:对每个第八子序列中的波形特征进行特征变换,将每个特征变换后的第八子序列与对应的第一子序列进行融合,将每个融合后的子序列与对应的位置信息进行融合,得到每个第八子序列对应的第九子序列。
其中,在将每个特征变换后的第八子序列与对应的第一子序列进行融合时,是将特征变换后的第八子序列中的每个波形特征与对应的第一波形特征进行融合。可选地,采用规范化函数,对每个第一波形特征进行特征变换。
可选地,第一子序列、第八子序列、特征变换后的第八子序列及融合后的子序列均为二维特征矩阵,多个第一子序列能构成一个三维特征矩阵,多个第八子序列也能构成一个三维特征矩阵,多个特征变换后的第八子序列也能构成一个三维特征矩阵,多个融合后的子序列也能构成一个三维特征矩阵,则获取每个第八子序列对应的融合后的子序列的过程,相当于对多个第八子序列构成的三维特征矩阵进行特征变换,得到多个特征变换后的第八子序列构成的三维特征矩阵,并将多个特征变换后的第八子序列构成的三维特征矩阵,与多个第一子序列构成的三维特征矩阵进行融合,得到多个融合后的子序列构成的三维特征矩阵。
可选地,多个第八子序列及多个第一子序列满足以下关系:
Figure BDA0003054468850000201
其中,
Figure BDA0003054468850000202
用于表示多个尺度中第k个尺度对应的多个融合后的子序列构成的三维特征矩阵;
Figure BDA0003054468850000203
用于表示第k个尺度对应的多个第八子序列构成的三维特征矩阵;LN(·)用于表示规范化函数;
Figure BDA0003054468850000204
用于表示第k个尺度对应的多个特征变换后的第八子序列构成的三维特征矩阵;
Figure BDA0003054468850000205
用于表示第k个尺度对应的多个第一子序列构成的三维特征矩阵。
需要说明的是,该步骤3046与上述步骤3041同理,在此不再赘述。
3047、将得到的多个第九子序列中每个相同位置上的多个波形特征,构成一个第十子序列,得到多个第十子序列。
需要说明的是,该步骤3047与上述步骤3042同理,在此不再赘述。
3048、将每个第十子序列与对应的第三权重信息进行融合,得到每个第十子序列对应的第十一子序列。
需要说明的是,该步骤3048与上述步骤3043同理,在此不再赘述。
3049、将得到的多个第十一子序列中每个相同位置上的波形特征,构成一个第二子序列,得到多个第二子序列。
需要说明的是,该步骤3048与上述步骤3044同理,在此不再赘述。
305、计算机设备按照多个第一子序列的排列顺序,将得到的多个第二子序列进行融合,得到该尺度对应的第二特征序列。
其中,第二特征序列中包括多个波形特征,且每个波形特征与一个波形片段对应,该多个波形特征在第二特征序列中,按照多个波形片段的先后顺序排列。多个第一子序列的排列顺序,是根据多个第一子序列对应的波形片段在声音波形中的位置得到的。通过按照多个第一子序列的排列顺序,将多个第二子序列进行融合,以保证得到的第二特征序列与多个波形片段对应,保证第二特征序列的准确性。
在一种可能实现方式中,该步骤305包括:按照多个第一子序列的排列顺序,将相邻的每两个第二子序列中对应于相同的第一波形特征的第二波形特征进行融合,将多个第二子序列中融合后的波形特征,以及剩余的波形特征构成尺度对应的第二特征序列。
在本申请实施例中,每个第一子序列包括多个第一波形特征,多个第一子序列中相邻的任两个第一子序列中包括至少一个相同的第一波形特征,得到的多个第二子序列中,每个第二子序列与一个第一子序列对应,且每个第二子序列中的第二波形特征与对应的第一子序列中的一个第一波形特征对应。
可选地,将每个第二子序列中的第二波形特征与对应的第一波形特征融合,得到融合波形特征,按照多个第一子序列的排列顺序,将相邻的每两个第二子序列中对应于相同的第一波形特征的融合波形特征进行融合,将多个第二子序列中融合后的波形特征,以及剩余的波形特征构成尺度对应的第二特征序列。
通过将多个第二子序列中的第二波形特征与对应的第一波形特征进行融合,以使得到的融合特征中不仅包含了每个第一波形特征增强后的特征,还包含了原始特征,从而丰富了融合波形特征包含的特征信息,提高了融合波形特征的准确性,通过融合波形特征来构成第二特征序列,从而提高了第二特征序列的准确性。
可选地,第一子序列、第二子序列和第二特征序列均为二维特征矩阵,多个第一子序列、多个第二子序列均能构成一个三维特征矩阵,则通过多个第二子序列获取第二特征序列的过程包括:对多个第二子序列构成的三维特征矩阵进行特征转换,将特征转换后的三维特征矩阵与多个第一子序列构成的三维特征矩阵进行融合,得到融合后的三维特征矩阵,按照多个第一子序列的排列顺序,将融合后的三维特征矩阵中、相邻的每两个第二子序列中对应于相同的第一波形特征的融合波形特征进行融合,将多个第二子序列中融合后的波形特征,以及剩余的波形特征构成尺度对应的第二特征序列。
可选地,多个第二子序列是按照上述步骤3045-3049得到的,则多个第一子序列、多个第二子序列及第二特征序列,满足以下关系:
Figure BDA0003054468850000221
Figure BDA0003054468850000222
其中,
Figure BDA0003054468850000223
用于表示多个尺度中第k个尺度对应的融合后的三维特征矩阵,LN(·)用于表示规范化函数;
Figure BDA0003054468850000224
用于表示第k个尺度对应的多个第二子序列构成的三维特征矩阵;
Figure BDA0003054468850000225
用于表示第k个尺度对应的特征转换后的三维特征矩阵;
Figure BDA0003054468850000226
用于表示第k个尺度对应的多个融合后的子序列构成的三维特征矩阵;Yk用于表示多个尺度中第k个尺度对应的第二特征序列,Overlapadd(·)用于表示重叠相加卷积函数,用于将三维特征矩阵
Figure BDA0003054468850000227
中对应于相同的第一波形特征的融合波形特征进行融合,第二特征序列Yk为D行Lk列的二维特征矩阵。
需要说明的是,本申请实施例仅是以获取多个尺度中任一尺度对应的第二特征序列进行说明的,而在另一实施例中,按照上述步骤303-305,能够获取每个尺度对应的第二特征序列。
需要说明的是,本申请实施例是通过对任一尺度的第一特征序列进行分割,来获取该尺度对应的第二特征序列的,而在另一实施例中,无需执行步骤303-305,能够采取其他方式,分别将每个尺度对应的第一特征序列中的多个波形特征进行融合,得到每个尺度对应的第二特征序列。
需要说明的是,本申请实施例是以计算机设备直接按照多个尺度分别对语音波形进行分割,来获取多个尺度对应的第二特征序列进行说明的,而在另一实施例中,计算机设备中配置有多个尺度对应的特征提取模型,分别调用每个尺度对应的特征提取模型,按照上述步骤301-305,来获取每个尺度对应的第二特征序列。
306、计算机设备将多个尺度对应的第二特征序列进行拼接,得到语音波形对应的波形特征信息。
其中,波形特征信息能够以二维特征矩阵的形式表示。通过将多个尺度对应的第二特征序列进行拼接,使得到的波形特征信息中包含了多个尺度对应的波形特征,丰富了波形特征信息中包含的特征,从而提高了波形特征信息的准确性。
在一种可能实现方式中,第二特征序列和波形特征信息均为二维特征矩阵;该步骤306包括以下步骤3061-3063:
3061、将多个尺度中目标尺度对应的第二特征序列,确定为目标特征序列。
其中,目标尺度为多个尺度中任一尺度,可选地,该目标尺度为多个尺度中的最大尺度。
3062、对多个尺度中剩余的尺度对应的第二特征序列进行尺寸变换,得到与目标特征序列尺寸相同的第三特征序列。
在本申请实施例中,每个尺度对应的第二特征序列为二维特征矩阵,即每个第二特征序列的尺寸,即为对应的二维特征矩阵的尺寸。由于不同的尺度对应的第二特征序列的尺寸不同,通过将多个第二特征序列中,除目标特征序列外的其他第二特征序列进行尺寸变换,以使得到与目标特征序列尺寸相同的特征序列,以便后续将多个特征序列进行融合。
在一种可能实现方式中,在对第二特征序列进行尺寸变换时,第二特征矩阵及对应的第三特征矩阵满足以下关系:
Figure BDA0003054468850000231
其中,
Figure BDA0003054468850000232
用于表示第k个尺度对应的第三特征序列,Conv1D(·)表示一维卷积层,用于对第二特征序列进行尺寸变换;Yk用于表示第k个尺度对应的第二特征序列,目标特征序列为D行Lmin列的二维特征矩阵,Mmax为目标尺度;Mk用于表示第k个尺度,kernel用于表示卷积核尺寸,该卷积核的尺寸为1×kernel;stride用于表示步长;padding用于表示第k个尺度对应的第二特征序列的前后需要增加的列向量的数目,且该列向量为0向量。
3063、将目标特征序列及第三特征序列进行拼接,得到波形特征信息。
由于目标特征序列与第三特征序列的尺寸相同,能够将目标特征序列与第三特征序列进行拼接,从而得到该波形特征信息。
可选地,3063包括:将目标特征序列及第三特征序列中,相同位置上的列向量进行拼接,得到多个拼接向量,将多个拼接向量构成波形特征信息。
Figure BDA0003054468850000241
其中,Y为波形特征信息,该波形特征信息Y为DK行Lmin列的二维特征矩阵;Concatenate(·)用于表示拼接函数;
Figure BDA0003054468850000242
用于表示第1个尺度对应的第三特征序列;
Figure BDA0003054468850000243
用于表示第K个尺度对应的第三特征序列,K为多个尺度的总数目。
在一种可能实现方式中,该步骤306之后,该方法还包括:对波形特征信息进行语音识别,得到语音波形对应的文本信息。
在获取到语音波形的波形特征信息后,通过对波形特征信息进行语音识别,来得到语音波形对应的文本信息,该文本信息用于指示语音波形中包含的语音所对应的信息。
在一种可能实现方式中,语音波形为语音通话场景中的语音波形;该步骤306之后,该方法还包括:将波形特征信息进行语音转换,得到波形特征对应的语音信息,播放语音信息。
在获取到语音波形的波形特征信息后,以削弱语音波形中的噪声,通过对波形特征信息进行语音识别,以提高语音信息中的语音质量。
本申请实施例提供的方法,按照多个尺度对语音波形进行分割成多个波形片段,来获取每个尺度对应的波形片段的波形特征,并对每个尺度对应的波形特征进行增强处理,以提高每个波形特征的准确性,之后将每个尺度对应的波形特征进行融合、拼接,使得到的波形特征信息中融入了多个尺度对应的波形特征,丰富了包含的波形特征,从而提高了波形特征信息的准确性,降低了语音波形中噪音的影响。因此,该波形特征信息能够准确体现语音波形的特征,在多种场景下利用上述波形特征信息进行处理时,均可提高准确率。例如,在语音识别场景下,对得到的波形特征信息进行语音识别,以提高语音识别的准确率;或者,在语音通话场景下,对得到的波形特征信息进行语音转换,降低语音波形中噪音的影响,从而提高语音通话的语音质量。
并且,通过将第一特征序列分成多个第一子序列,通过第一子序列中的多个第一波形特征,对每个第一波形特征进行增强处理,使得增强处理后的第三波形特征中不仅包括了对应的第一波形特征中所包含的特征信息,还包含了其他第一波形特征中所包含的特征信息,从增强了多个第一波形特征之间的关联性,能够体现出多个第一波形特征之间在时间或频谱上的连续性,并能够突出多个第一波形特征对应的多个波形片段所对应的频谱特征和音色特征。
并且将尺度对应的权重信息与第三子序列中的第三波形特征进行融合,使得到的第二子序列中的每个第二波形特征中融入了权重信息,增强了每个第二波形特征中所包含的特征,从而提高了第二波形特征的准确性,后续将多个第二子序列融合成第二特征序列,提高了第二特征序列的准确性,从而提高了波形特征信息的准确性。
并且,通过第六子序列中的多个第五波形特征之间的相似度,来获取第六子序列对应的第二权重信息,以使后续通过该第二权重信息,能够增强与其他第五波形特征相似度大的第五波形特征的,削弱与其他第五波形特征相似度小的第五波形特征,从而提高了得到的第六波形特征的准确性,提高了后续的第二特征序列的准确性,从而提高了后续的第二特征序列的准确性。
并且,通过将第六子序列与对应的第二权重信息进行融合,使得到的每个第六波形特征中融入了对应的权重,以增强多个波形特征中重要的语音特征,削弱语音波形中的噪声,从而提高了每个波形片段对应的第六波形特征的准确性,提高了后续的第二特征序列的准确性,从而提高了后续的第二特征序列的准确性。
图4是本申请实施例提供的一种波形特征提取方法的流程图,如图4所示,本申请提供的特征提取模型为语音分离模型,通过多个尺度对应的语音分离模型,按照上述步骤301-305,对声音波形进行处理,得到每个尺度对应的第二特征序列,并在得到多个尺度对应的第二特征序列之后,将得到的多个尺度对应的第二特征序列进行拼接,得到该语音波形的特征信息。
在一种可能实现方式中,该语音分类模型为全局关注局部递归模型,如图5所示,通过多个尺度的全局关注局部递归模型,来获取语音波形的特征信息。
表1提供了本申请提供的特征提取模型,及相关技术中的特征提取模型的参数量和识别字错误率(Character Error Rate,CER)。其中,特征提取模型1、特征提取模型2、特征提取模型3、特征提取模型4、特征提取模型5均为相关技术中的特征提取模型。特征提取模型1为TDNN-Transformer(Time Delay Neural NetworkTransformer,时延神经网络),特征提取模型2为Wave-TDNN-Transformer(WaveTime Delay Neural NetworkTransformer,声波时延神经网络),特征提取模型3为2GALR-TDNN-Transformer(2Globally AttentiveLocally Recurrent NetworkTime Delay Neural NetworkTransformer,全局关注局部递归时延神经网络),特征提取模型4为2GALR-6Conformer(2Globally Attentive LocallyRecurrent Network-6Conformer,一种全局关注局部递归网络),特征提取模型5为2GALR-8Conformer(2Globally Attentive Locally Recurrent Network-8 Conformer,一种全局关注局部递归网络)。本申请的特征提取模型1、本申请的特征提取模型2、本申请的特征提取模型3均对应有多个尺度,且按照本申请的特征提取模型1、本申请的特征提取模型2、本申请的特征提取模型3的顺序,对应尺度的个数依次增多。
如表1所示,相关技术中的特征提取模型1是传统的语音处理模型,特征提取模型2是以声音波形为输入的模型,通过对比特征提取模型1和特征提取模型2的参数量和识别字错误率,可知以波形作为输入得到的波形特征信息的效果更好。
通过对比特征提取模型2和特征提取模型3的参数量和识别字错误率,可知采用两个单尺度的全局关注局部递归网络来代替以为卷积层,得到的波形特征信息的效果更好。
通过将本申请的特征提取模型与相关技术中的特征提取模型进行对比可知,本申请采用多尺度来获取波形特征信息,参数里减少,且识别字错误率降低,且对比本申请的多个特征提取模型可知,采用的多个尺度的尺度越多,得到的波形特征信息越准确,
表1
Figure BDA0003054468850000261
Figure BDA0003054468850000271
图6是本申请实施例提供的一种波形特征提取装置的结构示意图,如图6所示,该装置包括:
分割模块601,用于按照多个尺度分别对语音波形进行分割,得到多个尺度对应的波形序列,任一尺度对应的波形序列包括属于任一尺度的多个波形片段;
编码模块602,用于分别对每个尺度对应的波形序列中的多个波形片段进行编码,得到每个尺度对应的第一特征序列,任一尺度对应的第一特征序列包括属于任一尺度的多个波形片段编码得到的波形特征;
融合模块603,用于分别将每个尺度对应的第一特征序列中的多个波形特征进行融合,得到每个尺度对应的第二特征序列;
拼接模块604,用于将多个尺度对应的第二特征序列进行拼接,得到语音波形对应的波形特征信息。
本申请实施例提供的装置,按照多个尺度对语音波形进行分割成多个波形片段,来获取每个尺度对应的波形片段的波形特征,并对每个尺度对应的波形特征进行增强处理,以提高每个波形特征的准确性,之后将每个尺度对应的波形特征进行融合、拼接,使得到的波形特征信息中融入了多个尺度对应的波形特征,丰富了包含的波形特征,从而提高了波形特征信息的准确性,降低了语音波形中噪音的影响。因此,该波形特征信息能够准确体现语音波形的特征,在多种场景下利用上述波形特征信息进行处理时,均可提高准确率。例如,在语音识别场景下,对得到的波形特征信息进行语音识别,以提高语音识别的准确率;或者,在语音通话场景下,对得到的波形特征信息进行语音转换,降低语音波形中噪音的影响,从而提高语音通话的语音质量。
如图7所示,在一种可能实现方式中,融合模块603,包括:
分割单元6031,用于对于任一尺度,对尺度对应的第一特征序列进行分割,得到多个第一子序列,每个第一子序列包括至少一个第一波形特征,每个第一波形特征与一个波形片段对应;
处理单元6032,用于对多个第一子序列中的第一波形特征进行增强处理,得到多个第一子序列对应的第二子序列,第二子序列包括至少一个第二波形特征,且每个第二波形特征与第二子序列对应的第一子序列中的一个第一波形特征对应;
融合单元6033,用于按照多个第一子序列的排列顺序,将得到的多个第二子序列进行融合,得到尺度对应的第二特征序列。
在另一种可能实现方式中,处理单元6032,用于对于任一第一子序列,根据第一子序列中的多个第一波形特征,分别对每个第一波形特征进行增强处理,得到每个第一波形特征对应的第三波形特征,将得到的多个第三波形特征构成第三子序列;将尺度对应的第一权重信息与第三子序列进行融合,得到第一子序列对应的第二子序列。
在另一种可能实现方式中,处理单元6032,用于将每个第一子序列与对应的位置信息进行融合,得到每个第一子序列对应的第二子序列,位置信息用于指示对应的第一子序列在多个第一子序列中的位置。
在另一种可能实现方式中,处理单元6032,用于对于任一第一子序列,对第一子序列中的每个第一波形特征进行特征变换,得到每个第一波形特征对应的第四波形特征;将得到的第四波形特征构成的第四子序列,与第一子序列对应的位置信息进行融合,得到第一子序列对应的第二子序列。
在另一种可能实现方式中,每个第一子序列包括多个第一波形特征,处理单元6032,用于将每个第一子序列与对应的位置信息进行融合,得到每个第一子序列对应的第五子序列,每个第五子序列包括多个第五波形特征,且每个第五波形特征与对应的第一子序列中的一个第一波形特征对应;将得到的多个第五子序列中每个相同位置上的多个第五波形特征,构成一个第六子序列,得到多个第六子序列;将每个第六子序列与对应的第二权重信息进行融合,得到每个第六子序列对应的第七子序列,第七子序列包括多个第六波形特征,且每个第六波形特征与对应的第六子序列中的一个第五波形特征对应;将得到的多个第七子序列中每个相同位置上的第六波形特征,构成一个第二子序列,得到多个第二子序列。
在另一种可能实现方式中,装置还包括:
获取模块605,用于根据每个第六子序列中的多个第五波形特征之间的相似度,分别获取每个第六子序列对应的第二权重信息。
在另一种可能实现方式中,每个第一子序列包括多个第一波形特征,多个第一子序列中相邻的任两个第一子序列中包括至少一个相同的第一波形特征;
融合单元6033,用于按照多个第一子序列的排列顺序,将相邻的每两个第二子序列中对应于相同的第一波形特征的第二波形特征进行融合;将多个第二子序列中融合后的波形特征,以及剩余的波形特征构成尺度对应的第二特征序列。
在另一种可能实现方式中,融合单元6033,用于将每个第二子序列中的第二波形特征与对应的第一波形特征融合,得到融合波形特征;按照多个第一子序列的排列顺序,将相邻的每两个第二子序列中对应于相同的第一波形特征的融合波形特征进行融合。
在另一种可能实现方式中,第二特征序列和波形特征信息均为二维特征矩阵;拼接模块604,包括:
确定单元6041,用于将多个尺度中目标尺度对应的第二特征序列,确定为目标特征序列;
变换单元6042,用于对多个尺度中剩余的尺度对应的第二特征序列进行尺寸变换,得到与目标特征序列尺寸相同的第三特征序列;
拼接单元6043,用于将目标特征序列及第三特征序列进行拼接,得到波形特征信息。
在另一种可能实现方式中,拼接单元6043,用于将目标特征序列及第三特征序列中,相同位置上的列向量进行拼接,得到多个拼接向量,将多个拼接向量构成波形特征信息。
在另一种可能实现方式中,装置还包括:
识别模块606,用于对波形特征信息进行语音识别,得到语音波形对应的文本信息。
在另一种可能实现方式中,语音波形为语音通话场景中的语音波形;装置还包括:
转换模块607,用于将波形特征信息进行语音转换,得到波形特征对应的语音信息;
播放模块608,用于播放语音信息。
需要说明的是:上述实施例提供的波形特征提取装置在提取波形特征信息时,仅以上述各功能模块的划分进行举例说明,实际应用中,能够根据需要而将上述功能分配由不同的功能模块完成,即将计算机设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的波形特征提取装置与波形特征提取方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本申请实施例还提供了一种计算机设备,该计算机设备包括处理器和存储器,存储器中存储有至少一条计算机程序,该至少一条计算机程序由处理器加载并执行以实现上述实施例的波形特征提取方法中所执行的操作。
可选地,计算机设备提供为终端。图8示出了本申请一个示例性实施例提供的终端800的结构框图。该终端800可以是便携式移动终端,比如:智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端800还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
终端800包括有:处理器801和存储器802。
处理器801可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器801可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器801也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器801可以集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器801还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器802可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器802还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器802中的非暂态的计算机可读存储介质用于存储至少一个计算机程序,该至少一个计算机程序用于被处理器801所执行以实现本申请中方法实施例提供的波形特征提取方法。
在一些实施例中,终端800还可选包括有:外围设备接口803和至少一个外围设备。处理器801、存储器802和外围设备接口803之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口803相连。具体地,外围设备包括:射频电路804、显示屏805、摄像头组件806、音频电路807、定位组件808和电源809中的至少一种。
外围设备接口803可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器801和存储器802。在一些实施例中,处理器801、存储器802和外围设备接口803被集成在同一芯片或电路板上;在一些其他实施例中,处理器801、存储器802和外围设备接口803中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路804用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路804通过电磁信号与通信网络以及其他通信设备进行通信。射频电路804将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路804包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路804可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路804还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏805用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏805是触摸显示屏时,显示屏805还具有采集在显示屏805的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器801进行处理。此时,显示屏805还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏805可以为一个,设置在终端800的前面板;在另一些实施例中,显示屏805可以为至少两个,分别设置在终端800的不同表面或呈折叠设计;在另一些实施例中,显示屏805可以是柔性显示屏,设置在终端800的弯曲表面上或折叠面上。甚至,显示屏805还可以设置成非矩形的不规则图形,也即异形屏。显示屏805可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件806用于采集图像或视频。可选地,摄像头组件806包括前置摄像头和后置摄像头。前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件806还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路807可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器801进行处理,或者输入至射频电路804以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端800的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器801或射频电路804的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路807还可以包括耳机插孔。
定位组件808用于定位终端800的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。定位组件808可以是基于美国的GPS(GlobalPositioning System,全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。
电源809用于为终端800中的各个组件进行供电。电源809可以是交流电、直流电、一次性电池或可充电电池。当电源809包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。
在一些实施例中,终端800还包括有一个或多个传感器810。该一个或多个传感器810包括但不限于:加速度传感器811、陀螺仪传感器812、压力传感器813、指纹传感器814、光学传感器815以及接近传感器816。
加速度传感器811可以检测以终端800建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器811可以用于检测重力加速度在三个坐标轴上的分量。处理器801可以根据加速度传感器811采集的重力加速度信号,控制显示屏805以横向视图或纵向视图进行用户界面的显示。加速度传感器811还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器812可以检测终端800的机体方向及转动角度,陀螺仪传感器812可以与加速度传感器811协同采集用户对终端800的3D动作。处理器801根据陀螺仪传感器812采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器813可以设置在终端800的侧边框和/或显示屏805的下层。当压力传感器813设置在终端800的侧边框时,可以检测用户对终端800的握持信号,由处理器801根据压力传感器813采集的握持信号进行左右手识别或快捷操作。当压力传感器813设置在显示屏805的下层时,由处理器801根据用户对显示屏805的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器814用于采集用户的指纹,由处理器801根据指纹传感器814采集到的指纹识别用户的身份,或者,由指纹传感器814根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器801授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器814可以被设置在终端800的正面、背面或侧面。当终端800上设置有物理按键或厂商Logo时,指纹传感器814可以与物理按键或厂商Logo集成在一起。
光学传感器815用于采集环境光强度。在一个实施例中,处理器801可以根据光学传感器815采集的环境光强度,控制显示屏805的显示亮度。具体地,当环境光强度较高时,调高显示屏805的显示亮度;当环境光强度较低时,调低显示屏805的显示亮度。在另一个实施例中,处理器801还可以根据光学传感器815采集的环境光强度,动态调整摄像头组件806的拍摄参数。
接近传感器816,也称距离传感器,设置在终端800的前面板。接近传感器816用于采集用户与终端800的正面之间的距离。在一个实施例中,当接近传感器816检测到用户与终端800的正面之间的距离逐渐变小时,由处理器801控制显示屏805从亮屏状态切换为息屏状态;当接近传感器816检测到用户与终端800的正面之间的距离逐渐变大时,由处理器801控制显示屏805从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图8中示出的结构并不构成对终端800的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
可选地,计算机设备提供为服务器。图9是本申请实施例提供的一种服务器的结构示意图,该服务器900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(Central Processing Units,CPU)901和一个或一个以上的存储器902,其中,存储器902中存储有至少一条计算机程序,至少一条计算机程序由处理器901加载并执行以实现上述各个方法实施例提供的方法。当然,该服务器还可以具有有线或无线网络接口、键盘及输入输出接口等部件,以便进行输入输出,该服务器还可以包括其他用于实现设备功能的部件,在此不做赘述。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有至少一条计算机程序,该至少一条计算机程序由处理器加载并执行以实现上述实施例的波形特征提取方法中所执行的操作。
本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机程序代码,该计算机程序代码存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序代码,处理器执行该计算机程序代码,使得该计算机设备实现如上述实施例的波形特征提取方法中所执行的操作。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请实施例的可选实施例,并不用以限制本申请实施例,凡在本申请实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (15)

1.一种波形特征提取方法,其特征在于,所述方法包括:
按照多个尺度分别对语音波形进行分割,得到所述多个尺度对应的波形序列,任一尺度对应的波形序列包括属于所述任一尺度的多个波形片段;
分别对每个尺度对应的波形序列中的多个波形片段进行编码,得到所述每个尺度对应的第一特征序列,任一尺度对应的第一特征序列包括属于所述任一尺度的多个波形片段编码得到的波形特征;
分别将所述每个尺度对应的第一特征序列中的多个波形特征进行融合,得到所述每个尺度对应的第二特征序列;
将所述多个尺度对应的第二特征序列进行拼接,得到所述语音波形对应的波形特征信息。
2.根据权利要求1所述的方法,其特征在于,所述分别将所述每个尺度对应的第一特征序列中的多个波形特征进行融合,得到所述每个尺度对应的第二特征序列,包括:
对于任一尺度,对所述尺度对应的第一特征序列进行分割,得到多个第一子序列,每个第一子序列包括至少一个第一波形特征,每个第一波形特征与一个波形片段对应;
对所述多个第一子序列中的第一波形特征进行增强处理,得到所述多个第一子序列对应的第二子序列,所述第二子序列包括至少一个第二波形特征,且每个第二波形特征与所述第二子序列对应的第一子序列中的一个第一波形特征对应;
按照所述多个第一子序列的排列顺序,将得到的多个第二子序列进行融合,得到所述尺度对应的第二特征序列。
3.根据权利要求2所述的方法,其特征在于,所述对所述多个第一子序列中的第一波形特征进行增强处理,得到所述多个第一子序列对应的第二子序列,包括:
对于任一第一子序列,根据所述第一子序列中的多个第一波形特征,分别对每个第一波形特征进行增强处理,得到所述每个第一波形特征对应的第三波形特征,将得到的多个第三波形特征构成第三子序列;
将所述尺度对应的第一权重信息与所述第三子序列进行融合,得到所述第一子序列对应的第二子序列。
4.根据权利要求2所述的方法,其特征在于,所述对所述多个第一子序列中的第一波形特征进行增强处理,得到所述多个第一子序列对应的第二子序列,包括:
将所述每个第一子序列与对应的位置信息进行融合,得到所述每个第一子序列对应的第二子序列,所述位置信息用于指示对应的第一子序列在所述多个第一子序列中的位置。
5.根据权利要求4所述的方法,其特征在于,所述将所述每个第一子序列与对应的位置信息进行融合,得到所述每个第一子序列对应的第二子序列,包括:
对于任一第一子序列,对所述第一子序列中的每个第一波形特征进行特征变换,得到所述每个第一波形特征对应的第四波形特征;
将得到的第四波形特征构成的第四子序列,与所述第一子序列对应的位置信息进行融合,得到所述第一子序列对应的第二子序列。
6.根据权利要求2所述的方法,其特征在于,所述每个第一子序列包括多个第一波形特征,所述对所述多个第一子序列中的第一波形特征进行增强处理,得到所述多个第一子序列对应的第二子序列,包括:
将所述每个第一子序列与对应的位置信息进行融合,得到所述每个第一子序列对应的第五子序列,每个第五子序列包括多个第五波形特征,且每个第五波形特征与对应的第一子序列中的一个第一波形特征对应;
将得到的多个第五子序列中每个相同位置上的多个第五波形特征,构成一个第六子序列,得到多个第六子序列;
将每个第六子序列与对应的第二权重信息进行融合,得到所述每个第六子序列对应的第七子序列,所述第七子序列包括多个第六波形特征,且每个第六波形特征与对应的第六子序列中的一个第五波形特征对应;
将得到的多个第七子序列中每个相同位置上的第六波形特征,构成一个第二子序列,得到所述多个第二子序列。
7.根据权利要求6所述的方法,其特征在于,所述将得到的多个第五子序列中每个相同位置上的多个第五波形特征,构成一个第六子序列,得到多个第六子序列之后,所述方法还包括:
根据每个第六子序列中的多个第五波形特征之间的相似度,分别获取所述每个第六子序列对应的第二权重信息。
8.根据权利要求2所述的方法,其特征在于,所述每个第一子序列包括多个第一波形特征,所述多个第一子序列中相邻的任两个第一子序列中包括至少一个相同的第一波形特征;
所述按照所述多个第一子序列的排列顺序,将得到的多个第二子序列进行融合,得到所述尺度对应的第二特征序列,包括:
按照所述多个第一子序列的排列顺序,将相邻的每两个第二子序列中对应于相同的第一波形特征的第二波形特征进行融合;
将所述多个第二子序列中融合后的波形特征,以及剩余的波形特征构成所述尺度对应的第二特征序列。
9.根据权利要求8所述的方法,其特征在于,所述按照所述多个第一子序列的排列顺序,将相邻的每两个第二子序列中对应于相同的第一波形特征的第二波形特征进行融合,包括:
将每个第二子序列中的第二波形特征与对应的第一波形特征融合,得到融合波形特征;
按照所述多个第一子序列的排列顺序,将相邻的每两个第二子序列中对应于相同的第一波形特征的融合波形特征进行融合。
10.根据权利要求1所述的方法,其特征在于,所述第二特征序列和所述波形特征信息均为二维特征矩阵;所述将所述多个尺度对应的第二特征序列进行拼接,得到所述语音波形对应的波形特征信息,包括:
将所述多个尺度中目标尺度对应的第二特征序列,确定为目标特征序列;
对所述多个尺度中剩余的尺度对应的第二特征序列进行尺寸变换,得到与所述目标特征序列尺寸相同的第三特征序列;
将所述目标特征序列及所述第三特征序列进行拼接,得到所述波形特征信息。
11.根据权利要求10所述的方法,其特征在于,所述将所述目标特征序列及所述第三特征序列进行拼接,得到所述波形特征信息,包括:
将所述目标特征序列及所述第三特征序列中,相同位置上的列向量进行拼接,得到多个拼接向量,将所述多个拼接向量构成所述波形特征信息。
12.根据权利要求1-11任一项所述的方法,其特征在于,所述将所述多个尺度对应的第二特征序列进行拼接,得到所述语音波形对应的波形特征信息之后,所述方法还包括:
对所述波形特征信息进行语音识别,得到所述语音波形对应的文本信息。
13.一种波形特征提取装置,其特征在于,所述装置包括:
分割模块,用于按照多个尺度分别对语音波形进行分割,得到所述多个尺度对应的波形序列,任一尺度对应的波形序列包括属于所述任一尺度的多个波形片段;
编码模块,用于分别对每个尺度对应的波形序列中的多个波形片段进行编码,得到所述每个尺度对应的第一特征序列,任一尺度对应的第一特征序列包括属于所述任一尺度的多个波形片段编码得到的波形特征;
融合模块,用于分别将所述每个尺度对应的第一特征序列中的多个波形特征进行融合,得到所述每个尺度对应的第二特征序列;
拼接模块,用于将所述多个尺度对应的第二特征序列进行拼接,得到所述语音波形对应的波形特征信息。
14.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条计算机程序,所述至少一条计算机程序由所述处理器加载并执行以实现如权利要求1至12任一权利要求所述的波形特征提取方法中所执行的操作。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条计算机程序,所述至少一条计算机程序由处理器加载并执行以实现如权利要求1至12任一权利要求所述的波形特征提取方法中所执行的操作。
CN202110496090.8A 2021-05-07 2021-05-07 波形特征提取方法、装置、计算机设备及存储介质 Active CN113763931B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110496090.8A CN113763931B (zh) 2021-05-07 2021-05-07 波形特征提取方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110496090.8A CN113763931B (zh) 2021-05-07 2021-05-07 波形特征提取方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN113763931A true CN113763931A (zh) 2021-12-07
CN113763931B CN113763931B (zh) 2023-06-16

Family

ID=78787104

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110496090.8A Active CN113763931B (zh) 2021-05-07 2021-05-07 波形特征提取方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN113763931B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114333823A (zh) * 2021-12-30 2022-04-12 北京市商汤科技开发有限公司 会议记录方法及装置、电子设备及计算机可读存储介质
CN115128438A (zh) * 2022-09-02 2022-09-30 中诚华隆计算机技术有限公司 一种芯片内部故障监测方法及其装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009047837A (ja) * 2007-08-17 2009-03-05 Toshiba Corp 音声合成方法及びその装置
WO2011030424A1 (ja) * 2009-09-10 2011-03-17 株式会社東芝 音声合成装置およびプログラム
CN109840052A (zh) * 2019-01-31 2019-06-04 成都超有爱科技有限公司 一种音频处理方法、装置、电子设备及存储介质
CN111309965A (zh) * 2020-03-20 2020-06-19 腾讯科技(深圳)有限公司 音频匹配方法、装置、计算机设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009047837A (ja) * 2007-08-17 2009-03-05 Toshiba Corp 音声合成方法及びその装置
WO2011030424A1 (ja) * 2009-09-10 2011-03-17 株式会社東芝 音声合成装置およびプログラム
CN109840052A (zh) * 2019-01-31 2019-06-04 成都超有爱科技有限公司 一种音频处理方法、装置、电子设备及存储介质
CN111309965A (zh) * 2020-03-20 2020-06-19 腾讯科技(深圳)有限公司 音频匹配方法、装置、计算机设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114333823A (zh) * 2021-12-30 2022-04-12 北京市商汤科技开发有限公司 会议记录方法及装置、电子设备及计算机可读存储介质
CN115128438A (zh) * 2022-09-02 2022-09-30 中诚华隆计算机技术有限公司 一种芯片内部故障监测方法及其装置

Also Published As

Publication number Publication date
CN113763931B (zh) 2023-06-16

Similar Documents

Publication Publication Date Title
CN110136136B (zh) 场景分割方法、装置、计算机设备及存储介质
CN110097019B (zh) 字符识别方法、装置、计算机设备以及存储介质
CN111091132B (zh) 基于人工智能的图像识别方法、装置、计算机设备及介质
CN110807361B (zh) 人体识别方法、装置、计算机设备及存储介质
CN111489378B (zh) 视频帧特征提取方法、装置、计算机设备及存储介质
CN111476783B (zh) 基于人工智能的图像处理方法、装置、设备及存储介质
CN112598686B (zh) 图像分割方法、装置、计算机设备及存储介质
CN108320756B (zh) 一种检测音频是否是纯音乐音频的方法和装置
CN114332530A (zh) 图像分类方法、装置、计算机设备及存储介质
CN113705302A (zh) 图像生成模型的训练方法、装置、计算机设备及存储介质
CN113516143A (zh) 文本图像匹配方法、装置、计算机设备及存储介质
CN113763931B (zh) 波形特征提取方法、装置、计算机设备及存储介质
CN114359225A (zh) 图像检测方法、装置、计算机设备及存储介质
CN113918767A (zh) 视频片段定位方法、装置、设备及存储介质
CN111738365A (zh) 图像分类模型训练方法、装置、计算机设备及存储介质
CN115129932A (zh) 视频片段的确定方法、装置、设备及存储介质
CN115170896A (zh) 图像处理方法、装置、电子设备及可读存储介质
CN113823296A (zh) 语音数据处理方法、装置、计算机设备及存储介质
CN113570510A (zh) 图像处理方法、装置、设备及存储介质
CN112528760A (zh) 图像处理方法、装置、计算机设备及介质
CN114691860A (zh) 文本分类模型的训练方法、装置、电子设备及存储介质
CN113822955B (zh) 图像数据处理方法、装置、计算机设备及存储介质
CN113569822B (zh) 图像分割方法、装置、计算机设备及存储介质
CN113343709B (zh) 意图识别模型的训练方法、意图识别方法、装置及设备
CN113032560B (zh) 语句分类模型训练方法、语句处理方法及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant