CN111161705A - 语音转换方法及装置 - Google Patents
语音转换方法及装置 Download PDFInfo
- Publication number
- CN111161705A CN111161705A CN201911322081.6A CN201911322081A CN111161705A CN 111161705 A CN111161705 A CN 111161705A CN 201911322081 A CN201911322081 A CN 201911322081A CN 111161705 A CN111161705 A CN 111161705A
- Authority
- CN
- China
- Prior art keywords
- processing circuit
- vector
- basic processing
- processing circuits
- basic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 34
- 238000012545 processing Methods 0.000 claims abstract description 222
- 239000013598 vector Substances 0.000 claims abstract description 111
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 23
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 23
- 230000008569 process Effects 0.000 claims abstract description 17
- 239000000284 extract Substances 0.000 claims abstract description 6
- 238000013473 artificial intelligence Methods 0.000 claims description 42
- 230000005540 biological transmission Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 7
- 238000009825 accumulation Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 5
- 230000015654 memory Effects 0.000 claims description 3
- 230000008707 rearrangement Effects 0.000 claims 1
- 230000017105 transposition Effects 0.000 claims 1
- 238000004364 calculation method Methods 0.000 description 24
- 238000010586 diagram Methods 0.000 description 10
- 238000013528 artificial neural network Methods 0.000 description 7
- 238000012512 characterization method Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 241000699666 Mus <mouse, genus> Species 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 238000005481 NMR spectroscopy Methods 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000004148 unit process Methods 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种语音转换方法及装置,该方法包括:核心处理电路接收待转换的文字信息,对该文字信息处理得到音素向量;核心处理电路确定目标语音,提取该目标语音对应的声纹特征向量;核心处理电路将该声纹特征向量拼接在该音素向量得到输入向量,将该输入向量进行拆分得到多个输入数据块分发给多个基本处理电路,将语音转换模型的权值广播至多个基本处理电路;多个基本处理电路将接收到的输入数据块与该权值执行乘积运算得到乘积结果发送至核心处理电路;核心处理电路将所有乘积结果拼接得到语音合成向量,对该语音合成向量处理得到合成语音。本申请的方案通过并行运算提高了计算速度,进而提高效率,提高了用户体验度。
Description
技术领域
本申请涉及人工智能领域,尤其涉及一种语音转换方法及装置。
背景技术
人工神经网络(Artificial Neural Network,ANN),是20世纪80年代以来人工智能领域兴起的研究热点。它从信息处理角度对人脑神经元网络进行抽象,建立某种简单模型,按不同的连接方式组成不同的网络。在工程与学术界也常直接简称为神经网络或类神经网络。神经网络是一种运算模型,由大量的节点(或称神经元)之间相互联接构成。现有的神经网络的运算基于CPU(Central Processing Unit,中央处理器)或GPU(英文:GraphicsProcessing Unit,图形处理器)来实现神经网络的运算,现有的语音转换无法由用户任意选择转换的目标发声,影响用户体验度。
发明内容
本申请实施例提供了一种语音转换方法及装置,可以提高语音转换的个性化,提高用户体验度。
第一方面,本申请实施例提供一种语音转换方法,所述方法包括如下步骤:
所述核心处理电路接收待转换的文字信息,对所述文字信息处理,得到所述文字信息的音素向量;
所述核心处理电路确定目标对象选择的目标语音,提取所述目标语音对应的声纹特征向量;
所述核心处理电路将所述声纹特征向量拼接在所述音素向量得到输入向量,将所述输入向量进行拆分,得到多个输入数据块,将所述多个输入数据块分发给所述多个基本处理电路,将语音转换模型的权值广播至多个基础电路;
所述多个基本处理电路将接收到的输入数据块与所述权值执行乘积运算得到乘积结果,将所述乘积结果发送至所述核心处理电路;
所述核心处理电路将所有基本处理电路的乘积结果拼接得到语音合成向量,对所述语音合成向量处理得到合成语音。
第二方面,提供一种电子设备,所述电子设备包括:人工智能芯片和应用处理器,所述人工智能芯片包括:一个核心处理电路以及多个基本处理电路;
所述核心处理电路,用于接收待转换的文字信息,对所述文字信息处理得到所述文字信息的音素向量;目标对象选择的目标语音,提取所述目标语音对应的声纹特征向量;将所述声纹特征向量拼接在所述音素向量得到输入向量,将所述输入向量进行拆分,得到多个输入数据块,将所述多个输入数据块分发给所述多个基本处理电路,将语音转换模型的权值广播至多个基本处理电路;
所述多个基本处理电路,用于将接收到的输入数据块与所述权值执行乘积运算得到乘积结果,将所述乘积结果发送至所述核心处理电路;
所述核心处理电路,还用于将所有基本处理电路的乘积结果拼接,得到语音合成向量,对所述语音合成向量处理得到合成语音。
第三方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储用于电子数据交换的计算机程序,所述计算机程序使得计算机执行第一方面提供的方法。
第四方面,提供一种计算机程序产品,其中,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行第一方面提供的方法。
可以看出,本申请实施例描述了一种语音转换方法及装置,核心处理电路接收待转换的文字信息,对该文字信息处理得到音素向量,核心处理电路确定目标语音,提取该目标语音对应的声纹特征向量;核心处理电路将该声纹特征向量拼接在该音素向量得到输入向量,将该输入向量进行拆分得到多个输入数据块,将多个输入数据块分发给多个基本处理电路,将语音转换模型的权值广播至多个基本处理电路;多个基本处理电路将接收到的输入数据块与该权值执行乘积运算得到乘积结果,将该乘积结果发送至核心处理电路;核心处理电路将所有乘积结果拼接得到语音合成向量,对该语音合成向量处理得到合成语音。本申请的方案通过并行运算提高了计算速度,进而提高效率,提高了用户体验度。
附图说明
图1a是本申请实施例提供的一种人工智能芯片的结构示意图;
图1b是本申请实施例提供的一种人工智能芯片的另一结构示意图;
图1c是本申请实施例提供的一种人工智能芯片的另一结构示意图;
图2是本申请实施例提供的一种语音转换方法的流程示意图;
图3是本申请实施例提供的一种计算方法的流程示意图;
图4是本申请实施例提供的一种计算芯片的结构示意图;
图5a本申请实施例提供的一种组合处理装置的结构示意图;
图5b本申请实施例提供的另一种组合处理装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参阅图1a,图1a是本申请实施例提供的一种人工智能芯片,该人工智能芯片可以实现语音转换处理,该人工智能芯片如图1a所示,包括:存储介质111(可选的)、寄存器单元112、互联模块113、运算单元114、控制器单元115和数据访问单元116;
其中,运算单元114可以包括:加法计算器、乘法计算器、比较器、激活运算器中的二种或二种以上。当然在实际应用中,运算单元114也可以包括多个加法计算器或多个乘法计算器,当然在实际应用中,上述运算单元包含的加法计算器、乘法计算器、比较器、激活运算器的数量可以不限。
互联模块113,用于连接运算单元114中计算器的连接关系,使得至少二种计算器组成不同的计算拓扑结构。
寄存器单元112,用于存储运算指令、数据块在存储介质的地址、运算指令对应的计算拓扑结构。
数据访问单元116,用于实现与外部器件的数据传输,该传输包括但不限于:输入数据或输出数据。
外部器件在针对不同的场景可能有所不同,例如对于语音转换场景,其对应的外部器件可以为音频采集器,具体的,例如麦克风。对于语音转换场景,其实现的方式具体可以包括:麦克风采集语音数据,数据转换器(例如模数转换器)将语音数据转换成输入数据传输给数据访问单元,数据访问单元接收到该输入数据后,数据访问单元将该输入数据发送至运算单元或数据访问单元,通过互联模块将输入数据分发给运算单元的各个计算器,数据访问单元从存储介质内读取计算指令,将计算指令发送至控制器单元,控制器单元将计算指令发送给运算单元,运算单元的各个计算器依据计算指令执行各自计算后得到中间结果,运算单元依据中间结果处理得到最终计算结果,依据该最终计算结果得到语音转换的结果。
参阅图1b,图1b为本申请实施例提供的一种人工智能芯片另一结构示意图,所述人工智能芯片用于执行语音转换运算,所述人工智能芯片包括:核心处理电路以及多个基本处理电路;该核心处理电路与多个基本处理电路连接,该连接的方式可以为直接连接的方式,当然也可以通过其他器件连接,例如,如图1b所示的通过其他器件(即传输处理电路)连接,该核心处理电路与该外部器件连接,核心处理电路可以直接从外部器件获取或输出数据。
外部器件在针对不同的场景可能有所不同,例如对于语音转换场景,其对应的外部器件可以为音频采集器,具体的,例如麦克风。对于语音转换场景,其实现的方式具体可以包括:麦克风采集语音数据,数据转换器(例如模数转换器)将语音数据转换成输入数据传输给核心处理电路,核心处理电路将该接收到的输入数据分发至传输处理电路(可选的),传输处理电路将数据转发至各个基本处理电路,各个基本处理电路执行各自计算后得到中间结果,将中间结果通过传输处理电路转发至核心处理电路,核心处理电路依据中间结果处理得到最终计算结果,依据该最终计算结果得到语音转换的结果。
如图1c所示,为本申请实施例提供的一种人工智能芯片的另一结构示意图,所述人工智能芯片用于执行语音转换处理;所述人工智能芯片包括:核心处理电路以及多个基本处理电路;所述核心处理电路与外部器件连接,核心处理电路可以直接从外部器件获取或输出数据;
多个基本处理电路呈阵列分布;每个基本处理电路与相邻的其他基本处理电路连接,核心处理电路连接第1行的n个基本处理电路、第m行的n个基本处理电路以及第1列的m个基本处理电路。
外部器件在针对不同的场景可能有所不同,例如对于语音转换场景,其对应的外部器件可以为音频采集器,具体的,例如麦克风。对于语音转换场景,其实现的方式具体可以包括:麦克风采集语音数据,数据转换器(例如模数转换器)将语音数据转换成输入数据传输给核心处理电路,核心处理电路将接收到的输入数据分发至与核心处理电路相连接的基本处理电路(即第1行的n个基本处理电路、第m行的n个基本处理电路以及第1列的m个基本处理电路),与核心处理电路相连接的基本处理电路通过相邻的基本处理电路将输入数据分发至其他的基本处理电路,各个基本处理电路执行各自计算后得到中间结果,将中间结果通过相邻的基本处理电路转发至核心处理电路,核心处理电路依据中间结果处理得到最终计算结果,依据该最终计算结果得到语音转换的结果。
参阅图2,图2是本申请实施例提供的一种语音转换方法的流程示意图,如图2所示的语音转换方法由电子设备完成,该电子设备可以包括如图1a、图1b或如图1c所示的人工智能芯片,该方法如图2所示,包括如下步骤:
步骤S201、核心处理电路接收待转换的文字信息,对所述文字信息处理,得到所述文字信息的音素向量。
上述步骤S201中的接收文字信息可以通过多种方式获取,例如,在一种可选的技术方案中,可以通过输入界面输入的文字来得到该文字信息。又如,在另一种可选的技术方案中,可以获取该文字信息的摘要,检索该摘要得到与该摘要匹配的文字信息。另如,在一种可选的方案中,可以采集图片信息,对图片信息进行文字识别确定该文字信息。
上述步骤S201中的对该文字信息处理得到该文字信息的音素向量具体可以包括:将该文字信息输入到语音识别模型中即可以得到音素向量。当然在实际应用中,也可以直接对该文字信息识别,确定该文字信息,得到每个文字信息对应的音素,然后从预设的音素矩阵中提取与该音素对应的音素子向量,然后将所有文字信息的因素子向量前后拼接即得到该文字信息对应的音素向量。
下面以一个实际例子来说明,以中文为例,一般有40个音素,那么假设该文字信息对应的音素分别为“a、e、i、o、u”,那么即可以从预设的音素矩阵中提取a、e、i、o、u对应列的向量,然后将该向量按顺序拼接起来即得到该文字信息的因素向量。这里的预设的音素矩阵可以从语音合成中查询得到。
步骤S202、核心处理电路确定目标对象选择的目标语音,提取所述目标语音对应的声纹特征向量。
上述步骤获取目标语音的方式可以为,直接通过音频采集设备采集该目标语音,该音频采集设备包括但不限于:麦克风等音频采集设备。上述目标语音还可以通过网络搜索得到,例如,该目标对象为“歌星A”,则可以直接从网络搜索“歌星A”的歌曲的语音,将该语音确定为目标语音。
上述步骤S202中的声纹特征向量的获取方式可以包括:将该目标语音发送至声纹识别模型处理得到声纹特征向量。
步骤S203、核心处理电路将所述声纹特征向量拼接在所述音素向量得到输入向量,将所述输入向量进行拆分,得到多个输入数据块,将所述多个输入数据块分发给所述多个基本处理电路,将语音转换模型的权值广播至多个基本处理电路。
上述步骤S203的实现方法具体可以包括:
将该声纹特征向量确定为广播数据块,将该音素向量中每个音素的元素值拆分成基础数据块,将广播数据块广播至多个基本处理电路,将基础数据块分发至多个基本处理电路。
上述技术方案将所有的音素均拼接了声纹特征向量,这样能够提高输入数据的信息量,进而提高识别的结果,并且上述技术方案将声纹特征向量直接广播给多个基本处理电路,基本处理电路将该声纹特征向量缓存,避免了声纹特征向量的多次IO操作以及重复IO操作,减少了IO开销。
步骤S204、多个基本处理电路将接收到的输入数据块与所述权值执行乘积运算得到乘积结果,将所述乘积结果发送至所述核心处理电路。
上述乘积可以采用普通的向量乘向量的方式。
步骤S205、核心处理电路将所有基本处理电路的乘积结果拼接得到语音合成向量,对所述语音合成向量处理得到合成语音。
上述拼接的方式可以采用顺序拼接的方式,即按音素的顺序对该乘积结果拼接得到语音合成向量,该语音合成向量得到合成语音可以采用现有的语音合成方案。
本申请提供的技术方案在进行语音合成时,将声纹特征向量添加至音素向量得到输入数据,然后通过拆分的方式来发送该输入数据,能够实现输入数据的迭代运算,提高了计算效率,另外,该声纹特征向量添加至音素向量以后,能够提高输入数据的信息量,提高了语音合成的准确度。
参阅图3,图3提供了一种如图1b所示人工智能芯片实现运算的方法,这里假设输入数据为向量A,权值数据为向量B,则具体的计算方法可以包括:
步骤S301、将向量A中的声纹表征向量广播至k个基本处理电路,将向量A中的每个音素对应的元素值分发至到K个基本处理电路中的某一个上,基本处理电路将接收到的声纹表征向量保存在基本处理电路的片上缓存和/或寄存器中。
在一种可选方案中,如果向量A中包含的音素的个数M<=K,则给K个基本处理电路分别分发一个音素对应的元素值。
在一种可选方案中,如果M>K,则给每个基本处理电路分别分发一个或多个音素的数据。
步骤S302、将向量B中各部分以广播的方式传输给K个基本处理电路。
在一种可选方案中,核心处理电路可以将向量B中各部分只广播一次到各个基本处理电路的寄存器或者片上缓存中,第i个基本处理电路对这一次得到的向量B的数据进行充分地复用,完成一次的内积运算。优点是,减少从核心处理电路到基本处理电路的向量B的重复传输的数据传输量,提高执行效率,降低传输功耗。
步骤S303、K个基本处理电路将声纹表征向量与每个音素的元素拼接得到输入数据块,执行输入数据块与向量B的内积运算得到内积结果。
在一种可选方案中,可以将每次基本处理电路执行内积运算得到的部分和传输回核心处理电路进行累加。优点是,减少了基本处理电路内部的运算量,提高基本处理电路的运算效率。
在一种可选方案中,也可以将每次基本处理电路执行的内积运算得到的部分和保存在基本处理电路的寄存器和/或片上缓存中,累加结束之后传输回核心处理电路;优点是,减少了基本处理电路和核心处理电路之间的数据传输量,提高了运算效率,降低了数据传输功耗。
在一种可选方案中,也可以将每次基本处理电路执行的内积运算得到的部分和在部分情况下保存在基本处理电路的寄存器和/或片上缓存中进行累加,部分情况下传输到核心处理电路进行累加,累加结束之后传输回核心处理电路;优点是,减少了基本处理电路和核心处理电路之间的数据传输量,提高了运算效率,降低了数据传输功耗,减少了基本处理电路内部的运算量,提高基本处理电路的运算效率。
步骤S304、K个基本处理电路将内积结果发送至核心处理电路,核心处理电路按音素的顺序将内积结果拼接得到语音合成向量。
本申请实施例还提供一种电子设备,所述电子设备包括:人工智能芯片和应用处理器,所述人工智能芯片包括:一个核心处理电路以及多个基本处理电路;
所述核心处理电路,用于接收待转换的文字信息,对所述文字信息处理得到所述文字信息的音素向量;目标对象选择的目标语音,提取所述目标语音对应的声纹特征向量;将所述声纹特征向量拼接在所述音素向量得到输入向量,将所述输入向量进行拆分,得到多个输入数据块,将所述多个输入数据块分发给所述多个基本处理电路,将语音转换模型的权值广播至多个基本处理电路;
所述多个基本处理电路,用于将接收到的输入数据块与所述权值执行乘积运算得到乘积结果,将所述乘积结果发送至所述核心处理电路;
所述核心处理电路,还用于将所有基本处理电路的乘积结果拼接,得到语音合成向量,对所述语音合成向量处理得到合成语音。
人工智能芯片(参阅图1b)确定基本处理电路的数量γ1,将输入数据沿CI方向存储,获取输入数据的尺寸CO1*CI1*H1*W1以及卷积核尺寸M*CI2*N*N;计算λ1=CI1/γ1/N;如果λ为大于1的整数,核心处理电路将输入数据的尺寸CO1*CI1*H1*W1沿CI1方向均匀切割成γ1个基础数据块,将γ1个基础数据块分发给γ1个基本处理电路,γ1基本处理电路将接收到的基础数据块与卷积核尺寸计算得到γ1个基本结果,将γ1个基本结果发送至核心处理电路,核心处理电路提取γ1个基础数据块中相邻的两个基础数据块之间的拼接数据块CO1*(N+1)*H1*W1,其中,拼接数据块CO1*(N+1)*H1*W1为基础数据块x在CI方向的最后(N+1)/2个数据块与基础数据块x+1在CI方向的最前(N+1)/2个数据块拼接得到,核心处理电路将γ1-1个拼接数据块与卷积核计算得到拼接结果,核心处理电路将拼接结果与基础结果拼接在一起得到卷积结果,上述N可以为3或5。
上述CO1*CI1*H1*W1中,H1、W1分别表示高度值、宽度值;CO1、CI1表示数量值以及深度值。上述M*CI2*N*N中,M、CI2表示数量值以及深度值,N表示二维基本卷积核尺寸,例如3*3、5*5。
对于卷积运算,由于对于具有多个基本处理电路的结构来说,由于基本处理电路的计算速度差不多,那么如何利用多个基本处理电路的就计算资源以及核心处理电路的计算资源即成为提高计算速度的关键,这里依据对输入数据与卷积核尺寸中N之间的特殊的关系,即需要保证λ1为大于等于1的整数,这样才具有相关的意义,如果不能整数,最后面的一些数据必然要单独的加载在一个基本处理电路上,这样使得这个基本处理电路的计算量比较大。上述拆分的方法由于是均匀拆分成γ1个基础数据块,那么每个基本处理电路处理的数据量是基本一样的,这样使得并行处理的基本处理电路处理的速度差不多,但是此种方式对于中间数据块具有缺失,因此通过对核心处理电路对拼接数据块进行处理,由于核心处理电路以及多个基本处理电路均并行执行了卷积运算,并且其计算的时间开销较为均衡(基本处理电路的整体计算量大,但是基本处理电路数量多,运算峰值高,因此时间开销均衡),因此能够提高卷积处理的速度,降低了功耗。
参阅图4,图4为本申请实施例提供的一种计算芯片,所述计算芯片包括:如图1a、图1b或图1c所示的人工智能芯片。
本申请实施例还提供了一种人工智能运算装置,其包括一个或多个如图4所示的计算芯片,用于从其他处理装置中获取待运算数据和控制信息,执行指定的神经网络运算,执行结果通过I/O接口传递给外围设备。外围设备譬如摄像头,显示器,鼠标,键盘,网卡,wifi接口,服务器。当包含一个以上如图4所示的计算芯片时,如图4所示的计算芯片间可以通过特定的结构进行链接并传输数据,例如,通过PCIE总线进行互联并传输数据,以支持更大规模的神经网络的运算。此时,可以共享同一控制系统,也可以有各自独立的控制系统;可以共享内存,也可以每个加速器有各自的内存。此外,其互联方式可以是任意互联拓扑。
该人工智能运算装置具有较高的兼容性,可通过PCIE接口与各种类型的服务器相连接。
本申请实施例还提供了一中组合处理装置,其包括上述的人工智能运算装置,通用互联接口,和其他处理装置(即通用处理装置)。人工智能运算装置与其他处理装置进行交互,共同完成用户指定的操作。如5a为组合处理装置的结构示意图。
其他处理装置,包括中央处理器CPU、图形处理器GPU、人工智能处理器等通用/专用处理器中的一种或以上的处理器类型。其他处理装置所包括的处理器数量不做限制。其他处理装置作为人工智能运算装置与外部数据和控制的接口,包括数据搬运,完成对本人工智能运算装置的开启、停止等基本控制;其他处理装置也可以和人工智能运算装置协作共同完成运算任务。
通用互联接口,用于在所述人工智能运算装置与其他处理装置间传输数据和控制指令。该人工智能运算装置从其他处理装置中获取所需的输入数据,写入人工智能运算装置片上的存储装置;可以从其他处理装置中获取控制指令,写入人工智能运算装置片上的控制缓存;也可以读取人工智能运算装置的存储模块中的数据并传输给其他处理装置。
如图5b所示,可选的,该结构还包括存储装置,用于保存在本运算单元/运算装置或其他运算单元所需要的数据,尤其适用于所需要运算的数据在本人工智能运算装置或其他处理装置的内部存储中无法全部保存的数据。
该组合处理装置可以作为手机、机器人、无人机、视频监控设备等设备的SOC片上系统,有效降低控制部分的核心面积,提高处理速度,降低整体功耗。此情况时,该组合处理装置的通用互联接口与设备的某些部件相连接。某些部件例如摄像头,显示器,鼠标,键盘,网卡,wifi接口。
电子装置包括数据处理装置、机器人、电脑、打印机、扫描仪、平板电脑、智能终端、手机、行车记录仪、导航仪、传感器、摄像头、服务器、相机、摄像机、投影仪、手表、耳机、移动存储、可穿戴设备、交通工具、家用电器、和/或医疗设备。
所述交通工具包括飞机、轮船和/或车辆;所述家用电器包括电视、空调、微波炉、冰箱、电饭煲、加湿器、洗衣机、电灯、燃气灶、油烟机;所述医疗设备包括核磁共振仪、B超仪和/或心电图仪。
以上所述的具体实施例,对本申请的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本申请的具体实施例而已,并不用于限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种语音转换方法,其特征在于,所述方法应用于电子设备,所述电子设备包括人工智能芯片和应用处理器,所述人工智能芯片包括:一个核心处理电路以及多个基本处理电路;所述方法包括如下步骤:
所述核心处理电路接收待转换的文字信息,对所述文字信息处理,得到所述文字信息的音素向量;
所述核心处理电路确定目标对象选择的目标语音,提取所述目标语音对应的声纹特征向量;
所述核心处理电路将所述声纹特征向量拼接在所述音素向量得到输入向量,将所述输入向量进行拆分,得到多个输入数据块,将所述多个输入数据块分发给所述多个基本处理电路,将语音转换模型的权值广播至多个基本处理电路;
所述多个基本处理电路将接收到的输入数据块与所述权值执行乘积运算得到乘积结果,将所述乘积结果发送至所述核心处理电路;
所述核心处理电路将所有基本处理电路的乘积结果拼接得到语音合成向量,对所述语音合成向量处理得到合成语音。
2.根据权利要求1所述的方法,其特征在于,所述对所述文字信息处理得到所述文字信息的音素向量具体包括:
对所述文字信息识别,确定所述文字信息,得到每个文字信息对应的音素,然后从预设的音素矩阵中提取与所述音素对应的音素子向量,将所有文字信息的音素子向量前后拼接,得到该文字信息对应的音素向量。
3.根据权利要求1所述的方法,其特征在于,所述提取所述目标语音对应的声纹特征向量具体包括:
将所述目标语音发送至声纹识别模型,处理得到声纹特征向量。
4.根据权利要求1所述的方法,其特征在于,所述核心处理电路将所述声纹特征向量拼接在该音素向量得到输入向量,将所述输入向量进行拆分得到多个输入数据块,将所述多个输入数据块分发给所述多个基本处理电路,将语音转换模型的权值广播至多个基本处理电路具体包括:
将所述声纹特征向量确定为广播数据块,将所述音素向量中每个音素的元素值拆分成基础数据块,将所述广播数据块广播至所述多个基本处理电路,将所述基础数据块分发至所述多个基本处理电路,所述多个基本处理电路将所述广播数据块拼接在所述基础数据块后面,得到输入数据块。
5.根据权利要求4所述的方法,其特征在于,所述人工智能芯片还包括:传输处理电路,所述传输处理电路用于连接所述基本处理电路与所述核心处理电路。
6.根据权利要求4所述的方法,其特征在于,所述人工智能芯片还包括:多个基本处理电路呈阵列分布;每个基本处理电路与相邻的其他基本处理电路连接,核心处理电路连接第1行的n个基本处理电路、第m行的n个基本处理电路以及第1列的m个基本处理电路。
7.根据权利要求1所述的方法,其特征在于,所述核心处理电路包括:向量运算电路、算数逻辑电路、累加运算电路、矩阵转置电路、直接内存存取电路、数据类型运算电路或数据重排电路中的一种或任意组合。
8.根据权利要求1所述的方法,其特征在于,所述基本处理电路包括:乘法运算电路和累加运算电路。
9.一种电子设备,其特征在于,所述电子设备包括:人工智能芯片和应用处理器,所述人工智能芯片包括:一个核心处理电路以及多个基本处理电路;
所述核心处理电路,用于接收待转换的文字信息,对所述文字信息处理得到所述文字信息的音素向量;目标对象选择的目标语音,提取所述目标语音对应的声纹特征向量;将所述声纹特征向量拼接在所述音素向量得到输入向量,将所述输入向量进行拆分,得到多个输入数据块,将所述多个输入数据块分发给所述多个基本处理电路,将语音转换模型的权值广播至多个基本处理电路;
所述多个基本处理电路,用于将接收到的输入数据块与所述权值执行乘积运算得到乘积结果,将所述乘积结果发送至所述核心处理电路;
所述核心处理电路,还用于将所有基本处理电路的乘积结果拼接,得到语音合成向量,对所述语音合成向量处理得到合成语音。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储用于电子数据交换的计算机程序,其中,所述计算机程序使得计算机执行如权利要求1-8任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911322081.6A CN111161705B (zh) | 2019-12-19 | 2019-12-19 | 语音转换方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911322081.6A CN111161705B (zh) | 2019-12-19 | 2019-12-19 | 语音转换方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111161705A true CN111161705A (zh) | 2020-05-15 |
CN111161705B CN111161705B (zh) | 2022-11-18 |
Family
ID=70557496
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911322081.6A Active CN111161705B (zh) | 2019-12-19 | 2019-12-19 | 语音转换方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111161705B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112037758A (zh) * | 2020-06-19 | 2020-12-04 | 四川长虹电器股份有限公司 | 一种语音合成方法及装置 |
CN112491555A (zh) * | 2020-11-20 | 2021-03-12 | 重庆无缝拼接智能科技有限公司 | 医疗电子签名的处理方法及电子设备 |
WO2023116243A1 (zh) * | 2021-12-20 | 2023-06-29 | 阿里巴巴达摩院(杭州)科技有限公司 | 数据转换方法及计算机存储介质 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014123072A (ja) * | 2012-12-21 | 2014-07-03 | Nec Corp | 音声合成システム及び音声合成方法 |
CN107341547A (zh) * | 2016-04-29 | 2017-11-10 | 北京中科寒武纪科技有限公司 | 一种用于执行卷积神经网络训练的装置和方法 |
CN107564511A (zh) * | 2017-09-25 | 2018-01-09 | 平安科技(深圳)有限公司 | 电子装置、语音合成方法和计算机可读存储介质 |
CN107749296A (zh) * | 2017-10-12 | 2018-03-02 | 深圳市沃特沃德股份有限公司 | 语音翻译方法和装置 |
CN108735222A (zh) * | 2018-05-03 | 2018-11-02 | 广州国音科技有限公司 | 一种基于声纹识别的声纹鉴定方法及系统 |
CN109087648A (zh) * | 2018-08-21 | 2018-12-25 | 平安科技(深圳)有限公司 | 柜台语音监控方法、装置、计算机设备及存储介质 |
CN109326294A (zh) * | 2018-09-28 | 2019-02-12 | 杭州电子科技大学 | 一种文本相关的声纹密钥生成方法 |
WO2019041251A1 (zh) * | 2017-08-31 | 2019-03-07 | 北京中科寒武纪科技有限公司 | 芯片装置及相关产品 |
CN109543832A (zh) * | 2018-11-27 | 2019-03-29 | 北京中科寒武纪科技有限公司 | 一种计算装置及板卡 |
US20190104120A1 (en) * | 2017-09-29 | 2019-04-04 | Nice Ltd. | System and method for optimizing matched voice biometric passphrases |
CN110491393A (zh) * | 2019-08-30 | 2019-11-22 | 科大讯飞股份有限公司 | 声纹表征模型的训练方法及相关装置 |
US20190378533A1 (en) * | 2018-06-07 | 2019-12-12 | Gene Chao | Computing devices and methods for converting audio signals to text |
-
2019
- 2019-12-19 CN CN201911322081.6A patent/CN111161705B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014123072A (ja) * | 2012-12-21 | 2014-07-03 | Nec Corp | 音声合成システム及び音声合成方法 |
CN107341547A (zh) * | 2016-04-29 | 2017-11-10 | 北京中科寒武纪科技有限公司 | 一种用于执行卷积神经网络训练的装置和方法 |
WO2019041251A1 (zh) * | 2017-08-31 | 2019-03-07 | 北京中科寒武纪科技有限公司 | 芯片装置及相关产品 |
CN107564511A (zh) * | 2017-09-25 | 2018-01-09 | 平安科技(深圳)有限公司 | 电子装置、语音合成方法和计算机可读存储介质 |
US20190104120A1 (en) * | 2017-09-29 | 2019-04-04 | Nice Ltd. | System and method for optimizing matched voice biometric passphrases |
CN107749296A (zh) * | 2017-10-12 | 2018-03-02 | 深圳市沃特沃德股份有限公司 | 语音翻译方法和装置 |
CN108735222A (zh) * | 2018-05-03 | 2018-11-02 | 广州国音科技有限公司 | 一种基于声纹识别的声纹鉴定方法及系统 |
US20190378533A1 (en) * | 2018-06-07 | 2019-12-12 | Gene Chao | Computing devices and methods for converting audio signals to text |
CN109087648A (zh) * | 2018-08-21 | 2018-12-25 | 平安科技(深圳)有限公司 | 柜台语音监控方法、装置、计算机设备及存储介质 |
CN109326294A (zh) * | 2018-09-28 | 2019-02-12 | 杭州电子科技大学 | 一种文本相关的声纹密钥生成方法 |
CN109543832A (zh) * | 2018-11-27 | 2019-03-29 | 北京中科寒武纪科技有限公司 | 一种计算装置及板卡 |
CN110491393A (zh) * | 2019-08-30 | 2019-11-22 | 科大讯飞股份有限公司 | 声纹表征模型的训练方法及相关装置 |
Non-Patent Citations (4)
Title |
---|
CHOU, C. H. , ET AL.: "A New Binary-Halved Clustering Method and ERT Processor for ASSR System", 《IEEE TRANSACTIONS ON VERY LARGE SCALE INTEGRATION SYSTEMS》 * |
JIACHENG SHANG ET AL.: "SRVoice: A Robust Sparse Representation-Based Liveness Detection System", 《ICPADS》 * |
周聖元 等: "稀疏神经网络加速器设计", 《高技术通讯》 * |
张雄伟 等: "语音转换技术研究现状及展望", 《数据采集与处理》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112037758A (zh) * | 2020-06-19 | 2020-12-04 | 四川长虹电器股份有限公司 | 一种语音合成方法及装置 |
CN112491555A (zh) * | 2020-11-20 | 2021-03-12 | 重庆无缝拼接智能科技有限公司 | 医疗电子签名的处理方法及电子设备 |
CN112491555B (zh) * | 2020-11-20 | 2022-04-05 | 山西智杰软件工程有限公司 | 医疗电子签名的处理方法及电子设备 |
WO2023116243A1 (zh) * | 2021-12-20 | 2023-06-29 | 阿里巴巴达摩院(杭州)科技有限公司 | 数据转换方法及计算机存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111161705B (zh) | 2022-11-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10762164B2 (en) | Vector and matrix computing device | |
CN109101273B (zh) | 神经网络处理装置及其执行向量最大值指令的方法 | |
CN109543832B (zh) | 一种计算装置及板卡 | |
CN109522052B (zh) | 一种计算装置及板卡 | |
US20200034698A1 (en) | Computing apparatus and related product | |
CN111161705B (zh) | 语音转换方法及装置 | |
CN110163363B (zh) | 一种计算装置及方法 | |
CN110147249B (zh) | 一种网络模型的计算方法及装置 | |
CN111126590B (zh) | 一种人工神经网络运算的装置及方法 | |
CN110163349B (zh) | 一种网络模型的计算方法及装置 | |
CN109711540B (zh) | 一种计算装置及板卡 | |
CN111199276B (zh) | 数据处理方法及相关产品 | |
CN109711538B (zh) | 运算方法、装置及相关产品 | |
CN109740730B (zh) | 运算方法、装置及相关产品 | |
CN110472734B (zh) | 一种计算装置及相关产品 | |
CN111079916B (zh) | 运算方法、系统及相关产品 | |
CN111260046B (zh) | 运算方法、装置及相关产品 | |
CN118012505A (zh) | 人工智能处理器、集成电路芯片、板卡、电子设备 | |
CN111258641A (zh) | 运算方法、装置及相关产品 | |
CN111078293B (zh) | 运算方法、装置及相关产品 | |
CN111079914B (zh) | 运算方法、系统及相关产品 | |
CN111078280B (zh) | 运算方法、装置及相关产品 | |
CN111078285B (zh) | 运算方法、系统及相关产品 | |
CN111078281B (zh) | 运算方法、系统及相关产品 | |
CN115471391A (zh) | 用于单目标检测的芯片、板卡、方法及计算装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20221031 Address after: 710116 floor 24, office building 3, runjing Yiyuan, the junction of Haojing Avenue and Hanchi 1st Road, Fengdong new town, Xi'an, Shaanxi Province Applicant after: Cambrian (Xi'an) integrated circuit Co.,Ltd. Address before: 6 / F, block B, 168 Tonghui Road, Pudong New Area, Shanghai 201306 Applicant before: SHANGHAI CAMBRICON INFORMATION TECHNOLOGY Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |