CN109791772A

CN109791772A - 声音信号处理装置、声音信号处理方法以及控制程序

Info

Publication number: CN109791772A
Application number: CN201780059386.5A
Authority: CN
Inventors: 铃木良二
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2016-09-27
Filing date: 2017-09-22
Publication date: 2019-05-21
Anticipated expiration: 2037-09-22
Also published as: EP3522158A4; CN109791772B; US11507807B2; WO2018062021A1; JPWO2018062021A1; EP3522158B1; US20200090029A1; EP3522158A1; JP7126061B2

Abstract

提供声音信号处理装置，能够针对因基于声音信号串的样本化等而丢失高频成分等而生成的输入信号数据，抑制失真以及噪声，进行丢失的成分的复原。声音信号处理装置具备：神经网络电路，包括具备多个输入单元的输入层、中间层、以及具备多个输出单元的输出层；输入部，将基于声音信号串经过样本化而生成的输入信号数据串中的多个连续的样本单位的各单位数据按每个单位时间一一对应地统一输入到多个输入单元，并进行每个单位时间的统一输入以使得在一个单位时间被输入到一个输入单元的单位数据在其他单位时间被输入到其他输入单元；以及输出部，将基于与跨越连续的多个单位时间的统一输入相应地从多个输出单元在多个单位时间的每个单位时间输出的数据的运算结果按每个单位时间进行输出。

Description

声音信号处理装置、声音信号处理方法以及控制程序

技术领域

本公开涉及对基于声音信号经过样本化等而生成的声音信号数据实施声音信号处理的声音信号处理装置、声音信号处理方法、以及控制程序。

背景技术

专利文献1公开了将在模拟数据的传送时除去的高频成分在接收侧通过神经网络来复原的模拟数据传送方式。该模拟数据传送方式具备：预先匹配数据特性进行学习的神经网络；和将通过神经网络复原的高频信号与在接收侧接收到的窄带信号进行合成的合成器。

在先技术文献

专利文献

专利文献1：JP特开平3-254223号公报

发明内容

本公开提供声音信号处理装置，能够针对因声音信号的样本化而丢失高频成分并因量子化而丢失微小振幅成分所生成的声音信号数据，抑制失真以及噪声，进行丢失的成分的复原。

此外，本公开提供用于针对该声音信号数据抑制失真以及噪声并进行复原的声音信号处理方法以及由声音信号处理装置使用的控制程序。

本公开的声音信号处理装置具备：神经网络电路，其包括具备多个输入单元而构成的输入层、中间层、以及具备多个输出单元而构成的输出层；输入部，其按每个单位时间将基于声音信号串经过样本化而生成的输入信号数据串中的多个连续的样本单位的各单位数据以一一对应的方式统一输入到所述多个输入单元，并进行每个所述单位时间的所述统一输入以使得在一个单位时间被输入到一个输入单元的单位数据在其他单位时间被输入到其他输入单元；以及输出部，其将基于与跨越连续的多个单位时间的所述统一输入相应地从所述多个输出单元在所述多个单位时间的每个单位时间输出的数据的运算结果按每个所述单位时间进行输出。

此外，本公开的声音信号处理方法使用神经网络电路，输出与基于声音信号串经过样本化而生成的输入信号数据串相应的输出信号数据串，该神经网络电路包括具备多个输入单元而构成的输入层、中间层、以及具备多个输出单元而构成的输出层，在该声音信号处理方法中，按每个单位时间将所述输入信号数据串中的多个连续的样本单位的各单位数据一一对应地统一输入到所述多个输入单元，并进行每个所述单位时间的所述统一输入以使得在一个单位时间被输入到一个输入单元的单位数据在其他单位时间被输入到其他输入单元，将基于与跨越连续的多个单位时间的所述统一输入相应地从所述多个输出单元在所述多个单位时间的每个单位时间输出的数据的运算结果作为所述输出信号数据串的结构要素按每个所述单位时间进行输出。

此外，本公开的控制程序是用于使计算机进行声音信号处理的控制程序，在该声音信号处理中，使用神经网络电路，输出与基于声音信号串经过样本化而生成的输入信号数据串相应的输出信号数据串，该神经网络电路包括具备多个输入单元而构成的输入层、中间层、以及具备多个输出单元而构成的输出层，所述声音信号处理包括：输入处理，将所述输入信号数据串中的多个连续的样本单位的各单位数据按每个单位时间一一对应地统一输入到所述多个输入单元，并进行每个所述单位时间的所述统一输入以使得在一个单位时间被输入到一个输入单元的单位数据在其他单位时间被输入到其他输入单元；以及输出处理，将基于与跨越连续的多个单位时间的所述统一输入相应地从所述多个输出单元在所述多个单位时间的每个单位时间输出的数据的运算结果作为所述输出信号数据串的结构要素，按每个所述单位时间进行输出。

根据本公开的声音信号处理装置等，能够将声音信号数据中因样本化等而丢失的成分复原。此外，能够在抑制失真、噪声的情况下进行该复原。

附图说明

图1是示意性表示实施方式1的声音信号处理装置的结构的一例的框图。

图2是表示由实施方式1的声音信号处理装置执行的学习控制处理的一例的流程图。

图3是表示由实施方式1的声音信号处理装置执行的复原处理的一例的流程图。

具体实施方式

目的在于，针对因声音信号的样本化而丢失高频成分并因量子化而丢失微小振幅成分所生成的声音信号数据，抑制失真以及噪声，并将丢失的成分复原。

本公开的声音信号处理装置具备：神经网络电路，包括具备多个输入单元而构成的输入层、中间层、以及具备多个输出单元而构成的输出层；输入部，将基于声音信号串经过样本化而生成的输入信号数据串中的多个连续的样本单位的各单位数据按每个单位时间一一对应地统一输入到该多个输入单元，并进行每个单位时间的该统一输入以使得在一个单位时间被输入到一个输入单元的单位数据在其他单位时间被输入到其他输入单元；以及输出部，将基于与跨越连续的多个单位时间的该统一输入相应地从该多个输出单元在该多个单位时间的每个单位时间输出的数据的运算结果按每个单位时间进行输出。

由此，在该声音信号处理装置中，将反映了跨越多个单位时间多次输入到神经网络电路的输入层的一个单位数据的数据从输出层跨越多个单位时间进行输出，完成使用了跨越该多个单位时间的各数据的运算。因此，通过该声音信号处理装置，有可能得到抑制了失真以及噪声成分的影响的输出。因此，在该声音信号处理装置中，在神经网络电路处于学习完毕的状态的情况下，在将因声音信号的样本化而丢失高频成分并因量子化而丢失微小振幅成分所生成的声音信号数据作为输入信号数据串来提供时，能够在抑制失真以及噪声的情况下得到将丢失的成分复原的数据。

例如，所谓输入层的输入单元的数目和输出层的输出单元的数目，均可以为N个(N为2以上的整数)。输入部可以包括能够将N个单位数据作为输入单位数据串来保持的第1移位寄存器电路。第1移位寄存器电路可以按每个单位时间从输入信号数据串将M个(M为1以上且小于N的整数)单位数据取入到输入单位数据串，按每个单位时间针对输入单位数据串来进行与M个单位数据相应量的移位，并按每个单位时间将输入单位数据串中的N个单位数据统一输入到N个输入单元。输出部可以包括：第2移位寄存器电路，能够将N个单位数据作为输出单位数据串来保持；乘法电路，对从N个输出单元的每一个输出的数据乘以系数；以及加法电路，将乘法电路的乘法结果和第2移位寄存器电路中保持的输出单位数据串相加，通过该加法结果对第2移位寄存器电路的N个单位数据进行更新。第2移位寄存器电路可以按每个单位时间从输出单位数据串输出M个单位数据，按每个单位时间针对输出单位数据串进行与M个单位数据相应量的移位，按每个单位时间将输出单位数据串中的N个单位数据送出到加法电路，从而取得加法结果，并将由此取得的加法结果作为输出单位数据串来保持。此外，例如，M可以为1，乘法电路对从N个输出单元分别输出的数据乘以的系数可以均为1/N。

由此，在该声音信号处理装置中，通过由第1移位寄存器电路进行数据的移位，从而能够容易地实现将相同的单位数据逐次输入到神经网络电路的输入层等。此外，在该声音信号处理装置中，由于通过与第1移位寄存器电路同步地对数据进行移位的第2移位寄存器电路、乘法电路、以及加法电路来进行使用了由神经网络电路跨越多个单位时间输出的数据的累积乘法，因此能够得到抑制了失真以及噪声的输出信号数据串。

例如，声音信号处理装置可以进一步具备进行用于使神经网络电路进行学习的控制的控制部。控制部可以包括能够将N个单位数据作为教师单位数据串来保持的第3移位寄存器电路。控制部可以对第3移位寄存器电路进行控制，以使得第3移位寄存器电路从基于学习用声音信号串以第1样本化频率进行样本化并以第1量子化比特数进行量子化后得到的教师信号数据串中，按每个单位时间将M个单位数据取入到教师单位数据串，按每个单位时间针对教师单位数据串进行与M个单位数据相应量的移位，按每个单位时间将教师单位数据串中的N个单位数据提供给N个输出单元。控制部可以进行控制，以使得在基于学习用声音信号串以比第1样本化频率低的第2样本化频率进行样本化并以比第1量子化比特数少的第2量子化比特数进行量子化后，使第1移位寄存器电路将针对样本化频率以及量子化比特数变换成与教师信号数据串相同而得到的学习信号数据串作为输入信号数据串来对待。由此，控制部可以使神经网络电路进行学习。

由此，在该声音信号处理装置中，能够将基于学习用声音信号串的学习信号数据串以及教师信号数据串提供给声音信号处理装置的神经网络电路，来使该神经网络电路进行学习。

例如，神经网络电路可以是堆叠自编码器而成的堆叠自编码器。

由此，该声音信号处理装置能够设置多个神经网络电路的中间层，从而能够更适当地进行因声音信号的样本化等而丢失的高频成分以及微小振幅成分的复原。

例如，中间层的各单元可以进行非线性处理。

由此，该声音信号处理装置能够通过神经网络电路适当地进行声音信号的因样本化等而丢失的高频成分以及微小振幅成分的复原。此外，在输出部中，能够抑制可能因该非线性处理而产生的失真。

本公开的声音信号处理方法使用包括具备多个输入单元而构成的输入层、中间层、以及具备多个输出单元而构成的输出层的神经网络电路，输出与基于声音信号串经过样本化而生成的输入信号数据串相应的输出信号数据串，在该声音信号处理方法中，将输入信号数据串中的多个连续的样本单位的各单位数据按每个单位时间一一对应地统一输入到该多个输入单元，并进行每个单位时间的该统一输入以使得在一个单位时间被输入到一个输入单元的单位数据在其他单位时间被输入到其他输入单元，将基于与跨越连续的多个单位时间的该统一输入相应地从该多个输出单元在该多个单位时间的每个单位时间输出的数据的运算结果作为输出信号数据串的结构要素按每个单位时间进行输出。

由此，在执行该声音信号处理方法的声音信号处理装置中，将反映了跨越多个单位时间多次输入到神经网络电路的输入层的一个单位数据的数据从输出层跨越多个单位时间来输出，完成使用了跨越该多个单位时间的各数据的运算。因此，通过该声音信号处理装置，有可能得到抑制了失真以及噪声成分的影响的输出。因此，在该声音信号处理装置中，在神经网络电路处于学习完毕的状态的情况下，在将因声音信号的样本化而丢失高频成分并因量子化而丢失微小振幅成分所生成的声音信号数据作为输入信号数据串来提供时，能够在抑制失真以及噪声的情况下得到将丢失的成分复原的数据。

例如，在声音信号处理方法中，进一步地，在使神经网络电路进行学习时，可以按每个单位时间将基于学习用声音信号串以第1样本化频率进行样本化并以第1量子化比特数进行量子化后得到的教师信号数据串中的多个连续的样本单位的各单位数据一一对应地统一赋予给该多个输出单元。可以进行每个单位时间的该统一赋予以使得在一个单位时间赋予给一个输出单元的单位数据在其他单位时间赋予给其他输出单元。可以在基于学习用声音信号串以比第1样本化频率低的第2样本化频率进行样本化并以比第1量子化比特数少的第2量子化比特数进行量子化后，将通过针对样本化频率以及量子化比特数变换成与教师信号数据串相同而得到的学习信号数据串中的多个连续的样本单位的各单位数据按每个单位时间一对应地统一输入到该多个输入单元。可以进行每个单位时间的该统一输入以使得在一个单位时间被输入到一个输入单元的单位数据在其他单位时间被输入到其他输入单元。

由此，能够将基于学习用声音信号串的学习信号数据串以及教师信号数据串提供给神经网络电路，使该神经网络电路进行学习，以使得能够相对于因样本化而丢失高频成分并因量子化而丢失微小振幅成分后生成的输入信号数据串的输入，输出将该丢失的成分复原的输出信号数据串。

例如，学习用声音信号串可以是进行了频率扫描的信号或者进行了振幅扫描的信号。

由此，神经网络电路能够对基于各种声音信号串的输入信号数据串适当地复原因样本化等而丢失的成分。

此外，本公开的控制程序用于使计算机进行如下声音信号处理，在该声音信号处理中，使用包括具备多个输入单元而构成的输入层、中间层、以及具备多个输出单元而构成的输出层的神经网络电路，输出与基于声音信号串经过样本化而生成的输入信号数据串相应的输出信号数据串，声音信号处理包括：输入处理，将输入信号数据串中的多个连续的样本单位的各单位数据按每个单位时间一一对应地统一输入到该多个输入单元，并进行每个单位时间的该统一输入以使得在一个单位时间被输入到一个输入单元的单位数据在其他单位时间被输入到其他输入单元；以及输出处理，将基于与跨越连续的多个单位时间的该统一输入相应地从该多个输出单元在该多个单位时间的每个单位时间输出的数据的运算结果作为输出信号数据串的结构要素按每个单位时间进行输出。

安装并执行该控制程序的声音信号处理装置有可能与输入信号数据串相应地输出在抑制失真以及噪声的情况下将输入信号数据串中因样本化等丢失的成分进行了复原而得到的输出信号数据串。

另外，这些通用或者具体的各种方式可以由装置、系统、方法、集成电路、计算机程序、或者计算机能读取的记录介质来实现，也可以由装置、系统、方法、集成电路、计算机程序、以及记录介质当中的多个组合来实现。

以下，适当参照附图来详细说明实施方式。其中，有时会省略必要以上的详细的说明。例如，有时会省略已经知晓的事项的详细说明以及针对实质上相同的结构的重复说明等。这是为了避免以下的说明变得不必要的冗长，使本领域技术人员容易理解。

另外，附图以及以下说明的实施方式是为了本领域技术人员充分理解本公开而提供的，均是表示本公开的一例。在以下的实施方式中示出的数值、形状、材料、结构要素、结构要素的配置位置以及连接方式、步骤(工序)、步骤的顺序等是一例，意图并不在于由此来限定权利要求书记载的主题。此外，以下的实施方式中的结构要素当中未记载于表示最上位概念的独立权利要求的结构要素是能够任意附加于独立权利要求所示的结构要素的结构要素。

此外，各图并不一定严格地进行图示，而是为了以容易理解本公开的方式进行表示而适当进行了省略等的示意图。此外，各图中，有时会对实质相同的结构要素附加相同的符号，省略或简化说明。

(实施方式1)

在实施方式1中，说明执行声音信号处理方法的声音信号处理装置100，该声音信号处理方法用于针对因声音信号串的样本化而丢失高频成分并因量子化而丢失微小振幅成分所生成的声音信号数据串，在抑制失真以及噪声的情况下将丢失的成分复原。

以下，使用附图说明实施方式1。

[1-1.结构]

图1是示意性表示实施方式1的声音信号处理装置100的结构的一例的框图。

声音信号处理装置100如图1所示具备神经网络电路110、输入部120、输出部130、控制部140、以及变换部150。

声音信号处理装置100是输出使用神经网络电路110对输入的声音信号数据串(输入信号数据串)实施基于输入信号数据串将高频成分以及微小振幅成分复原的声音信号处理而得到的输出信号数据串的装置。

神经网络电路110使用教师信号数据串进行学习。输出信号数据串以及教师信号数据串是具有如下结构(形式)的数据串，该结构与通过对模拟声音信号串以比较高的第1样本化频率(例如，88.2kHz)进行样本化并以比较多的第1量子化比特数(例如，24比特)进行量子化而生成的数字声音信号数据的结构相同。

向输入部120输入的输入信号数据串是从变换部150输出的数据串。向变换部150输入的输入信号数据串是通过对模拟声音信号串以比第1样本化频率低的第2样本化频率(例如，44.1kHz)进行样本化并以比第1量子化比特数少的第2量子化比特数(例如，16比特)进行量子化而生成的数字声音信号数据。将该数字声音信号数据在变换部150中变换成使得样本化频率以及量子化比特数与上述的输出信号数据串以及教师信号数据串相同。这样得到的数据串是向输入部120输入的输入信号数据串。另外，在变换部150中进行的该变换仅仅是基于以下换算的形式上的变换(比特数的扩展)：用于使与输出信号数据串以及教师信号数据串不同的输入信号数据串的样本化频率与输出信号数据串以及教师信号数据串一致的换算、和用于使与输出信号数据串以及教师信号数据串不同的输入信号数据串的量子化比特数与输出信号数据串以及教师信号数据串一致的换算。即，在变换部150中进行的变换中，信号成分实质上不变化(即，在该变换中，不对输入信号数据串进行高频成分以及微小振幅成分的补偿)。

另外，向变换部150输入的输入信号数据串例如是与记录于音乐CD(CompactDisc)的声音信号数据串相同品质的声音信号数据串(以样本化频率44.1kHz进行样本化并以量子化比特数16比特进行量子化而得到的数据串)。对该输入信号数据串在变换部150中实施上述的变换，生成向输入部120输入的输入信号数据串。

另外，模拟声音信号串是沿时间轴的时间序列的信号，模拟声音信号串的逐次样本化等沿该时间轴来进行。向变换部150输入的输入信号数据串与成为其生成的基础的模拟声音信号串同样是时间序列的数据串。

声音信号处理装置100是包括移位寄存器电路、神经网络电路等的电子电路(半导体集成电路等)而构成的装置。该电子电路可以包括存储器、处理器(微处理器)等而构成。

存储器是预先保持有程序以及数据的ROM(Read Only Memory)、用于在程序执行时利用于数据等的存储的RAM(Random Access Memory)等。存储器例如可以包括非易失性存储器。在存储器中可以预先存储用于实现声音信号处理方法涉及的声音信号处理的控制程序、以及用于由该控制程序利用的设定值等。

处理器通过执行控制程序来控制声音信号处理装置100的各部并进行声音信号处理等。声音信号处理有：用于使用神经网络电路110进行基于输入信号数据串的高频成分等的复原的复原处理、以及使神经网络电路110进行学习以便适当地进行该复原的学习控制处理。

存储器可以为了临时存储而采用由处理器执行控制程序时使用的各数值。

另外，神经网络电路110可以由执行程序的处理器以及存储器来实现。

接着，说明作为图1所示的声音信号处理装置100的声音信号处理涉及的结构要素的、神经网络电路110、输入部120、输出部130、以及控制部140。

[1-1-1.神经网络电路]

神经网络电路110具有输入层111、两个中间层112a及中间层112b、输出层113。

输入层111包括N个(例如256个、1024个等)单元(输入单元111a)而构成。输出层113也同样包括N个(例如256个、1024个等)单元(输出单元113a)而构成。在本实施方式中，示出神经网络电路110具有中间层112a以及中间层112b这两层的结构例，但是本公开完全不限定于该结构例。神经网络电路110具备的中间层例如可以是一层，也可以是三层以上。

中间层112a、中间层112b分别包括任意的数目的单元而构成。在图1中，以圆来表示输入层111的各输入单元111a、输出层113的各输出单元113a、中间层112a的各单元112aa、以及中间层112b的各单元112ba。此外，在图1中，为了方便，省略示出单元的数目。

向输入层111的N个输入单元111a的每一个输入将n比特(例如，24比特)的数据归一化到-1≤(输入信号数据)＜+1的范围而变换成k比特(例如，32比特)所得到的数据。并且，输入层111的各输入单元111a以中间层112a的各单元112aa作为输出目的地来输出k比特的数据。这是为了在激活函数运算中使用的非线性函数为例如tanh(双曲线正切函数)的情况下使数据一致到tanh的输出值的范围。例如，该n比特的数据是定点数据，该k比特的数据是浮点数据。在该情况下，数据的归一化例如能够通过改变小数点的位置来实现。此外，通过设为k＞n，能够防止运算中途的下溢。

另外，将n比特的数据变换成k比特的处理例如可以在输入部120中进行。

中间层112a的各单元112aa从输入层111的N个输入单元111a的每一个输入k比特的数据。中间层112a的各单元112aa将输入数据的每一个乘以权重，作为基于乘以权重后得到的输入数据的总和的激活函数的运算结果来算出k比特的数据。并且，中间层112a的各单元112aa以中间层112b的各单元112ba作为输出目的地来输出该k比特的数据。该权重(即，将层间的单元间结合的权重)可以通过学习而变化。此外，该权重可以在输入层111的输入单元111a到中间层112a的单元112aa之间与k比特的数据相乘。或者，可以将乘以该权重而得到的k比特的数据从输入层111的输入单元111a输出。此外，该激活函数是非线性函数，例如，是tanh(双曲线正切函数)等。因此，中间层112a的各单元112aa能够进行非线性处理来作为激活函数的运算。

中间层112b的各单元112ba从中间层112a的单元112aa分别输入k比特的数据。中间层112b的各单元112ba将权重分别与输入数据相乘，算出k比特的数据作为基于乘以权重后得到的输入数据的总和的激活函数的运算结果。并且，中间层112b的各单元112ba以输出层113的各输出单元113a作为输出目的地来输出该k比特的数据。该权重可以通过学习而变化。此外，该权重可以在中间层112a的单元112aa到中间层112b的单元112ba之间与k比特的数据相乘。或者，可以将乘以该权重而得到的k比特的数据从中间层112a的单元112aa输出。此外，该激活函数例如与中间层112a的各单元112aa使用的激活函数同样是非线性函数，例如是tanh(双曲线正切函数)等。因此，中间层112b的各单元112ba能够进行非线性处理来作为激活函数的运算。

输出层113的N个各输出单元113a从中间层112b的单元112ba分别输入k比特的数据。输出层113的各输出单元113a将输入数据的每一个乘以权重，算出k比特的数据作为基于乘以权重而得到的输入数据的总和的运算结果。并且，输出层113的N个各输出单元113a将该算出的k比特的数据变换成与向输入部120输入的输入信号数据串相同的n比特，并输出该n比特的数据。该权重可以通过学习而变化。此外，该权重可以在中间层112b的单元112ba到输出层113的输出单元113a之间与k比特的数据相乘。或者，可以将乘以该权重后得到的k比特的数据从中间层112b的单元112ba输出。

神经网络电路110是将自编码器堆叠而成的堆叠自编码器。在神经网络电路110的学习中使用如下事前学习的方法，在该事前学习的方法中，由接近输入层111的中间层112a的自编码器进行无教师学习，并依次在后级的中间层进行同样的学习，由此积累合适的权重。此外，在神经网络电路110中，在有教师学习中使用误差反向传播法(后传播)。不是随机设定将各层的单元间结合的权重的初始值，而使通过堆叠自编码器对权重进行事前学习，由此可解决在误差反向传播法中不传播误差就不会更新权重的梯度消失问题。

[1-1-2.输入部]

输入部120具有逐次取得并保持成为输入信号数据串的结构要素的样本单位的各单位数据并输入到神经网络电路110的输入层111的各输入单元111a的功能。样本单位是第1样本化频率(例如，88.2kHz)下的样本化的单位量，单位数据是n比特的数据(第1量子化比特数的数据，例如，24比特的数据)。

输入部120使用移位寄存器电路121将输入信号数据串中的多个(N个)连续的各单位数据按每个单位时间T一一对应地统一输入到输入层111的多个(N个)的输入单元111a。并且，输入部120进行每个单位时间T的该统一输入以使得在一个单位时间T(例如，单位时间T(X))被输入到一个输入单元111a(例如，输入单元111a(x))的单位数据在其他单位时间T(例如，单位时间T(X)的紧邻之后的单位时间T(X+1))被输入到其他输入单元111a(例如，输入单元111a(x)的紧邻之后的输入单元111a(x+1))。此时，输入部120将新取入到移位寄存器电路121的单位数据输入到最前的输入单元111a(例如，输入单元111a(1))。另外，上述的动作例是M＝1的情况下的例子，X为任意的整数，x为满足1≤x≤(N-1)的整数。

单位时间T是为了使声音信号处理装置100中的各部的处理同步而通过时钟产生器或者计数器(未图示)等计时的一定时间，单位时间T的时间长度能够任意设定。例如，单位时间T是由时钟产生器生成的时钟信号的一个周期的期间。其中，该单位时间T用于使声音信号处理装置100中的各部的处理同步，只要确保同步，就容许单位时间T的时间长度在每次该单位时间T经过时发生变化。

输入部120具体来说包括能够将N个单位数据作为输入单位数据串来保持的移位寄存器电路121(第1移位寄存器电路)。移位寄存器电路121按每个单位时间T从输入信号数据串将M个(M为1以上且小于N的整数)的单位数据作为输入单位数据串来取入，并按每个单位时间T针对输入单位数据串进行与M个单位数据相应量的移位。并且，移位寄存器电路121按每个单位时间T将输入单位数据串中的N个单位数据统一输入到输入层111的N个输入单元111a。M例如是1。输入单位数据串是与基于时间序列的声音信号的输入信号数据串对应的时间序列的数据。

[1-1-3.输出部]

输出部130具有对按照输入信号数据串从神经网络电路110输出的数据实施用于降低失真以及噪声的运算并将构成为该运算结果的时间序列数据的输出信号数据串输出的功能。即，输出部130按每个单位时间T输出运算结果，该运算结果基于与输入部120跨越连续的多个单位时间T对输入单元111a进行的统一输入相应地从多个(N个)的输出单元113a在该多个单位时间T的每个单位时间输出的数据而得到。

输出部130具体来说包括乘法电路131、加法电路132、以及能够将N个单位数据(n比特的数据)作为输出单位数据串来保持的移位寄存器电路133(第2移位寄存器电路)。

乘法电路131将从输出层113的N个输出单元113a分别输出的数据乘以系数。在多个单位时间T的每个单位时间与数据相乘的各系数的总和是1。例如在M为1的情况下，乘法电路131对从N个输出单元113a分别输出的n比特的数据乘以的系数例如都是1/N。

加法电路132按每个单位时间T对n比特的每个数据将从乘法电路131输出的n比特的各数据的乘法结果和移位寄存器电路133中保持的输出单位数据串(N个单位数据)的各单位数据相加。并且，加法电路132通过该加法结果对移位寄存器电路133的N个单位数据(n比特的数据)进行更新。

移位寄存器电路133按每个单位时间T取入M个初始值零的单位数据。并且，移位寄存器电路133按每个单位时间T从输出单位数据串输出M个单位数据，并按每个单位时间T针对输出单位数据串进行与M个单位数据相应量的移位。并且，移位寄存器电路133将通过按每个单位时间T将输出单位数据串中的N个单位数据送出到加法电路132而取得的加法结果作为输出单位数据串来保持。输出单位数据串是用于与移位寄存器电路121中的时间序列的输入单位数据串对应地形成时间序列的输出信号数据串的时间序列的数据串。从移位寄存器电路133按每个单位时间T输出的M个单位数据的串成为与输入信号数据串对应的、将丢失的高频成分以及微小振幅成分复原所得到的输出信号数据串。

[1-1-4.控制部]

控制部140具有进行用于使神经网络电路110进行学习的控制(学习控制处理等)的功能。控制部140在使神经网络电路110进行了学习后，通过使神经网络电路110在学习后的状态下进行运算而开始复原处理。

具体来说，控制部140使神经网络电路110通过自编码器进行无教师学习。此外，为了使神经网络电路110进行有教师学习，控制部140包括能够将N个单位数据作为教师单位数据串来保持的移位寄存器电路141(第3移位寄存器电路)。并且，控制部140如下那样对移位寄存器电路141进行控制。即，移位寄存器电路141从基于学习用声音信号串以第1样本化频率(例如，88.2kHz)进行样本化并以第1量子化比特数(例如，24比特)进行量子化所得到的教师信号数据串按每个单位时间T将M个单位数据取入到教师单位数据串，按每个单位时间T针对教师单位数据串进行与M个单位数据相应量的移位，并按每个单位时间T将教师单位数据串中的N个单位数据提供给输出层113的N个输出单元113a。控制部140这样对移位寄存器电路141进行控制。另外，学习用声音信号串是神经网络电路110的学习中使用的模拟声音信号串声音信号串。

学习用声音信号串例如可以由频率扫描过的信号或者振幅扫描过的信号构成，也可以由频率扫描且振幅扫描过的信号构成。频率扫描过的信号是随时间经过而变更频率并离散地或者全面地包括了可听范围的频率范围的声音信号，且是包括至少三个不同的频率的声音信号。此外，振幅扫描过的信号是随时间经过变更振幅并离散地或者全面地包括可作为信号波形来取得的各种振幅的声音信号，且是包括至少三个不同的振幅的声音信号。另外，学习用声音信号串可以不是频率扫描过的信号，也可以不是振幅扫描过的信号。学习用声音信号串例如可以是音乐的声音信号串。

进一步地，控制部140如下那样对变换部150以及输入部120进行控制。即，由变换部150对基于学习用声音信号串以第2样本化频率(例如，44.1kHz)样本化并以第2量子化比特数(例如，16比特)进行了量子化得到的数据串进行变换，使得针对样本化频率以及量子化比特数与教师信号数据串成为相同，从而得到学习信号数据串，使移位寄存器电路121将由此得到的学习信号数据串作为输入信号数据串来对待。控制部140这样对变换部150以及输入部120进行控制。

由此，向神经网络电路110的输入层111提供基于学习用声音信号串的学习信号数据串，向输出层113提供基于学习用声音信号串的教师信号数据串。这样，控制部140使神经网络电路110进行使用了误差反向传播法的有教师学习。

[1-2.动作]

以下，说明具备上述的结构的声音信号处理装置100的动作。

声音信号处理装置100作为声音信号处理方法用的声音信号处理而进行学习控制处理以及复原处理。

[1-2-1.学习控制处理]

在学习控制处理中，使用以相同的学习用声音信号串为基础而生成的教师信号数据串和学习信号数据串。教师信号数据串是通过对学习用声音信号串以相对高的样本化频率(例如，88.2kHz)进行样本化并以相对多的量子化比特数(例如，24比特)进行量子化而生成的数据串，包括相对高的频率成分(高频成分)以及相对小的振幅成分(微小振幅成分)。相对于此，学习信号数据串是通过对学习用声音信号串以相对低的样本化频率(例如，44.1kHz)进行样本化并以相对少的量子化比特数(例如，16比特)进行量子化而生成的数据串，在其生成过程中，会丢失教师信号数据串所具有的高频成分以及微小振幅成分。学习用声音信号串是沿时间轴的时间序列的信号。学习信号数据串以及教师信号数据串与成为它们的生成的基础的学习用声音信号串同样是时间序列的数据串。

图2是表示由实施方式1的声音信号处理装置100执行的学习控制处理的一例的流程图。以下，结合图2来说明本实施方式的学习控制处理。

通过声音信号处理装置100的控制部140的控制，输入部120通过变换部150来取得学习信号数据串的一样本单位的单位数据(n比特的数据)。并且，输入部120将所取得的单位数据加入到移位寄存器电路121的输入单位数据串进行保持(步骤S11)。

输入部120将由移位寄存器电路121保持的输入单位数据串的N个量的单位数据一一对应地输入到神经网络电路110的输入层111的N个输入单元111a(步骤S12)。由此，将输入部120取得的学习信号数据串中的从最后取得的量起的N个单位数据(按取得的顺序的相反顺序的N个单位数据)中的一个一个单位数据一齐输入到输入层111的N个输入单元111a中的一个一个输入单元。

控制部140取得教师信号数据串的一样本单位的单位数据(n比特的数据)，将取得的单位数据加入到移位寄存器电路141的教师单位数据串进行保持(步骤S13)。

控制部140与输入部120同步地进行向各移位寄存器电路的输入。即，控制部140在步骤S13中取得并输入到移位寄存器电路141的教师信号数据串的单位数据是以与成为输入部120在步骤S11中取得并输入到移位寄存器电路121的学习信号数据串的单位数据的基础的学习用声音信号串相同的学习用声音信号串为基础而生成的。

控制部140将由移位寄存器电路141保持的教师单位数据串的N个量的单位数据一一对应地赋予(输入)给神经网络电路110的输出层113的N个输出单元113a(步骤S14)。由此，将控制部140取得的教师信号数据串中的从最后取得的量起的N个单位数据(按取得的顺序的相反顺序的N个单位数据)中的一个一个单位数据一齐提供给输出层113的N个输出单元113a中的一个一个输出单元。

控制部140使神经网络电路110基于提供给输入层111的数据和提供给输出层113的数据进行误差反向传播法等的学习(步骤S15)。

在该学习中能够应用一般所使用的误差反向传播法的学习等，因此省略详细的说明。

通过控制部140的控制，输入部120对移位寄存器电路121中保持的数据(包括N个单位数据的输入单位数据串)进行与一个单位数据相应量(一样本单位量)的移位(步骤S16)。

控制部140对移位寄存器电路141中保持的数据(包括N个单位数据的教师单位数据串)进行与一个单位数据相应量(一样本单位的量)的移位(步骤S17)。

控制部140判定学习结束条件是否成立(步骤S18)。学习结束条件例如是结束针对教师信号数据串的全部处理等。

在步骤S18中，在控制部140判定为学习结束条件成立的情况下(步骤S18中“是”)，声音信号处理装置100结束学习控制处理。

在步骤S18中，在控制部140判定为学习结束条件不成立的情况下(步骤S18中“否”)，声音信号处理装置100重复进行步骤S11～S17的处理直到学习结束条件成立。

另外，图2仅表示学习控制处理的步骤的一例。学习控制处理的各步骤的执行顺序可以调换，多个步骤也可以并行执行。

在使神经网络电路110进行学习的学习控制处理中，声音信号处理装置100的控制部140使用移位寄存器电路141按每个单位时间T将教师信号数据串中的多个连续的各单位数据一一对应地统一赋予给输出层113的N个输出单元113a。并且，控制部140进行每个单位时间T的该统一赋予以使得在一个单位时间T(例如，单位时间T(X))被赋予给一个输出单元113a(例如，输出单元113a(x))的单位数据在其他单位时间T(例如，单位时间T(X)的紧邻之后的单位时间T(X+1))被赋予给其他输出单元113a(例如，输出单元113a(x)的紧邻之后的输出单元113a(x+1))。此时，控制部140将新取入到移位寄存器电路141的单位数据赋予给最前的输出单元113a(例如，输出单元113a(1))。此外，控制部140使用输入部120的移位寄存器电路121按每个单位时间T将学习信号数据串中的多个连续的各单位数据一一对应地统一输入到输入层111的N个输入单元111a。并且，控制部140对输入部120进行控制，进行每个单位时间T的该统一输入以使得在一个单位时间T(例如，单位时间T(X))被输入到一个输入单元111a(例如，输入单元111a(x))的单位数据在其他单位时间T(例如，单位时间T(X)的紧邻之后的单位时间T(X+1))被输入到其他输入单元111a(例如，输入单元111a(x)的紧邻之后的输入单元111a(x+1))。此时，输入部120将新取入到移位寄存器电路121的单位数据输入到最前的输入单元111a(例如，输入单元111a(1))。另外，X为任意的整数，x为满足1≤x≤(N-1)的整数。

在图2中示出将学习控制处理设为逐次处理的动作例。因此，在图2所示的动作例中，进行一次步骤S11～S17的处理的期间成为单位时间T。

通过该学习控制处理，神经网络电路110能够掌握可从经过相对低的样本化频率下的样本化以及相对少的量子化比特数下的量子化而生成并丢失了高频成分以及微小振幅成分的声音信号数据串中生成将该高频成分以及微小振幅成分复原所得到的声音信号数据串的能力。

另外，在上述的学习控制处理的动作例中，说明M＝1的情况。

[1-2-2.复原处理]

图3是表示由实施方式1的声音信号处理装置100执行的复原处理的一例的流程图。以下，结合图3来说明本实施方式的复原处理。

在上述的学习控制处理结束后，声音信号处理装置100的控制部140能够对输入部120通知能开始复原处理这一信息。

声音信号处理装置100的输入部120通过变换部150取得成为复原处理的对象的输入信号数据串的一样本单位的单位数据(n比特的数据)，并将取得的单位数据加入到移位寄存器电路121的输入单位数据串来保持(步骤S21)。

成为复原处理的对象的输入信号数据串是经过相对低的样本化频率(例如，44.1kHz)下的样本化以及相对少的量子化比特数(例如，16比特)下的量子化而生成的声音信号数据串，有可能会在样本化以及量子化的过程中丢失高频成分以及微小振幅成分。

输入部120将由移位寄存器电路121保持的输入单位数据串的N个量的单位数据一一对应地输入到神经网络电路110的输入层111的N个输入单元111a(步骤S22)。由此，将输入部120取得的输入信号数据串中的从最后取得的量起的N个单位数据(按取得的顺序的相反顺序的N个单位数据)中的一个一个单位数据一齐输入到输入层111的N个输入单元111a中的一个一个输入单元。

声音信号处理装置100使神经网络电路110进行运算处理(步骤S23)。

在神经网络电路110内的单元中使用的权重(将各层的单元间结合的权重)已经经过上述的学习控制处理被更新。因此，通过该运算处理，神经网络电路110有可能能够输出将输入信号数据串所丢失的高频成分以及微小振幅成分复原所得到的数据。针对来自神经网络电路110的输出，通过输出部130来实施用于失真以及噪声降低化的处理。

输出部130的乘法电路131对于从神经网络电路110的输出层113的N个输出单元113a输出的N个n比特的数据，进行总和为1的各系数(例如，均为1/N)的乘法(步骤S24)。乘法结果成为N个n比特的数据。

输出部130的加法电路132分别将乘法电路131的N个乘法结果和移位寄存器电路133中保持的N个输出单位数据串(新取入的数据的初始值为零的N个n比特的单位数据)相加。并且，加法电路132将加法结果返回移位寄存器电路133。由此，输出部130对移位寄存器电路133中保持的N个输出单位数据串进行更新(步骤S25)。

通过乘法电路131以及加法电路132的步骤S24以及步骤S25中的处理(由加法电路132对乘法电路131的乘法结果进行累积加法的累积乘法)，在移位寄存器电路133中，作为输出单位数据串来保持累积乘法结果。

接着，输出部130对移位寄存器电路133中保持的输出单位数据串(由N个单位数据构成的输出单位数据串)进行与一个单位数据相应量(一样本单位量)的移位。输出部130将通过该移位从输出单位数据串(移位寄存器电路133)推出的单位数据作为输出信号数据串的结构要素来输出(步骤S26)。

接着，输入部120对移位寄存器电路121中保持的数据(包括N个单位数据的输入单位数据串)进行与一个单位数据相应量(一样本单位量)的移位(步骤S27)。

声音信号处理装置100判定复原处理的结束条件是否成立(步骤S28)。复原处理的结束条件例如是结束针对输入信号数据串的所有处理等。

在步骤S28中判定为复原处理的结束条件成立的情况下，声音信号处理装置100结束复原处理。

在步骤S28中判定为复原处理的结束条件不成立的情况下，声音信号处理装置100直至复原处理的结束条件成立为止都重复进行步骤S21～S27的处理。

另外，图3仅表示复原处理的步骤的一例。复原处理的各步骤的执行顺序可以调换，多个步骤也可以并行执行。

声音信号处理装置100使用学习后的神经网络电路110来进行复原处理。声音信号处理装置100使用输入部120的移位寄存器电路121按每个单位时间T将输入信号数据串中的多个连续的各单位数据一一对应地统一输入到输入层111的N个输入单元111a。并且，输入部120进行每个单位时间T的该统一输入以使得在一个单位时间T(例如，单位时间T(X))被输入到一个输入单元111a(例如，输入单元111a(x))的单位数据在其他单位时间T(例如，单位时间T(X)的紧邻之后的单位时间T(X+1))输入到其他输入单元111a(例如，输入单元111a(x)后的输入单元111a(x+M))。另外，X为任意的整数，x为满足1≤x≤(N-M)的整数。此时，输入部120将新取入到移位寄存器电路121的M个单位数据输入到从最前起的M个输入单元111a(例如，输入单元111a(1)～输入单元111a(M))。并且，声音信号处理装置100按每个单位时间T输出运算结果(累积乘法结束的M个数据)，来作为输出信号数据串的结构要素，该运算结果基于与跨越连续的多个单位时间T的该统一输入相应地从输出层113的N个输出单元113a在单位时间T的每个单位时间输出的数据而得到。

图3示出将复原处理作为逐次处理的动作例。因此，在图3所示的动作例中，进行一次步骤S21～S27的处理的期间成为上述的单位时间T。

[1-3.效果等]

在本实施方式中，声音信号处理装置100是声音信号处理装置的一例。输入层111是输入层的一例。中间层112a以及中间层112b分别是中间层的一例。输出层113是输出层的一例。神经网络电路110是神经网络电路的一例。输入部120是输入部的一例。输入单元111a是输入单元的一例。输出部130是输出部的一例。输出单元113a是输出单元的一例。移位寄存器电路121是第1移位寄存器电路的一例。移位寄存器电路133是第2移位寄存器电路的一例。乘法电路131是乘法电路的一例。加法电路132是加法电路的一例。控制部140是控制部的一例。移位寄存器电路141是第3移位寄存器电路的一例。第1样本化频率例如是88.2kHz。第2样本化频率例如是44.1kHz。第1量子化比特数例如是24比特。第2量子化比特数例如是16比特。

例如，本实施方式所示的声音信号处理装置100具备神经网络电路110、输入部120、输出部130。神经网络电路110包括：具备多个输入单元111a而构成的输入层111、中间层112a及中间层112b、以及具备多个输出单元113a而构成的输出层113。输入部120按每个单位时间将基于声音信号串经过样本化而生成的输入信号数据串中的多个连续的样本单位的各单位数据一一对应地统一输入到该多个输入单元111a。此外，输入部120进行每个单位时间的该统一输入以使得在一个单位时间T被输入到一个输入单元111a的单位数据在其他单位时间T被输入到其他输入单元111a。输出部130按每个单位时间输出运算结果，该运算结果基于与跨越连续的多个单位时间的该统一输入相应地从该多个输出单元113a在该多个单位时间的每个单位时间输出的数据而得到。

此外，在本实施方式所示的例子中，在声音信号处理装置100中，输入层111的输入单元111a的数目和输出层113的输出单元113a的数目均为N个(N为2以上的整数)。输入部120包括能够将N个单位数据作为输入单位数据串来保持的移位寄存器电路121。移位寄存器电路121按每个单位时间从输入信号数据串将M个(M为1以上且小于N的整数)单位数据取入到输入单位数据串，按每个单位时间针对输入单位数据串进行与M个单位数据相应量的移位，按每个单位时间将输入单位数据串中的N个单位数据统一输入到N个输入单元111a。输出部130包括：能够将N个单位数据作为输出单位数据串来保持的移位寄存器电路133；对从N个输出单元113a的每一个输出的数据乘以系数的乘法电路131；以及加法电路132。加法电路132将乘法电路131的乘法结果和移位寄存器电路133中保持的输出单位数据串相加，通过该加法结果对移位寄存器电路133的N个单位数据进行更新。移位寄存器电路133按每个单位时间从输出单位数据串输出M个单位数据，按每个单位时间针对输出单位数据串进行与M个单位数据相应量的移位。此外，移位寄存器电路133将通过按每个单位时间将输出单位数据串中的N个单位数据送出到加法电路而取得的加法结果作为输出单位数据串来保持。

此外，在本实施方式所示的例子中，在声音信号处理装置100中，M为1，乘法电路131对从N个输出单元113a分别输出的数据乘以的系数均为1/N。

此外，在本实施方式所示的例子中，声音信号处理装置100进一步具备进行用于使神经网络电路110进行学习的控制的控制部140。控制部140包括能够将N个单位数据作为教师单位数据串来保持的移位寄存器电路141。控制部140对移位寄存器电路141进行控制，以使得移位寄存器电路141从基于学习用声音信号串以第1样本化频率(例如，88.2kHz)进行样本化并以第1量子化比特数(例如，24比特)进行量子化后得到的教师信号数据串中按每个单位时间将M个单位数据取入到教师单位数据串，按每个单位时间针对教师单位数据串进行与M个单位数据相应量的移位，按每个单位时间将教师单位数据串中的N个单位数据提供给N个输出单元113a。此外，控制部140进行控制，以使得在基于学习用声音信号串以比第1样本化频率低的第2样本化频率(例如，44.1kHz)进行样本化并以比第1量子化比特数少的第2量子化比特数(例如，16比特)进行量子化后，针对样本化频率以及量子化比特数变换成与教师信号数据串相同，从而得到学习信号数据串，使移位寄存器电路121将由此得到的学习信号数据串作为输入信号数据串来对待。这样，控制部140使神经网络电路110进行学习。

此外，在本实施方式所示的例子中，在声音信号处理装置100中，神经网络电路110是将自编码器堆叠而成的堆叠自编码器。

此外，在本实施方式所示的例子中，在声音信号处理装置100中，中间层112a以及中间层112b的各单元(单元112aa、单元112ba)进行非线性处理。

在声音信号处理装置100中，学习用声音信号串可以是频率扫描过的信号或者振幅扫描过的信号。

在这样构成的本实施方式涉及的声音信号处理装置100中，神经网络电路110通过学习控制处理分别按一样本单位的每个单位数据同步地将学习信号数据串赋予给输入层111，将教师信号数据串赋予给输出层113。并且，神经网络电路110进行学习(将各层的单元间结合的权重的更新)，以使得与基于学习信号数据串提供给输入层111的内容相应的输出层113的输出接近于基于教师信号数据串提供给输出层113的目标的输出。学习信号数据串是以学习用声音信号串为基础经过相对低的样本化频率(例如，44.1kHz)下的样本化以及相对少的量子化比特数(例如，16比特)下的量子化而生成并丢失了超过乃奎斯特频率(样本化频率的1/2)的高频成分以及微小振幅成分的声音信号数据串。教师信号数据串是以该学习用声音信号串为基础经过相对高的样本化频率(例如，88.2kHz)下的样本化以及相对多的量子化比特数(例如，24比特)下的量子化而生成并相对地未丢失该高频成分以及微小振幅成分的声音信号数据串。因此，通过该学习，神经网络电路110能够掌握可从在样本化以及量子化的过程中丢失了高频成分以及微小振幅成分的声音信号数据串中生成将该高频成分以及微小振幅成分复原了所得到的声音信号数据串的能力。

此外，在声音信号处理装置100中，在学习控制处理中，使移位寄存器电路121和移位寄存器电路141同步地移位。此外，学习信号数据串和教师信号数据串中的彼此对应的一样本单位的单位数据的组分别被多次赋予给输入层111中的不同的输入单元111a和输出层113中的不同的输出单元113a。由此，神经网络电路110高效地进行学习。

此外，在声音信号处理装置100中，在复原处理中，输入信号数据串的各单位数据通过由移位寄存器电路121进行移位而以多次的不同定时输入到神经网络电路110的输入层111。将反映了被统一输入到该输入层111的各单位数据的数据从输出层113输出。此外，将反映了以多次的不同定时被输入到该输入层111的一个单位数据的数据从输出层113以多次的不同的定时被输出。基于在该多次的不同定时从输出层113输出的数据的累积乘法结果(由加法电路132对乘法电路131的乘法结果累积后得到的结果)被抑制了噪声成分的影响。这是由于，因为噪声成分在各瞬时是随机的，所以针对输入信号数据串的各单位数据被设想为随机的值，因此通过累积乘法，能够抑制该噪声成分。此外，进行非线性处理(即，使用非线性函数作为激活函数)的神经网络电路110的输出的失真能够通过乘法电路131以及加法电路132的累积乘法来抑制。因此，声音信号处理装置100能够输出抑制了失真以及噪声的输出信号数据串，即，能够输出将输入信号数据串所丢失的高频成分以及微小振幅成分复原了所得到的输出信号数据串。因此，若从声音信号涉及的信号数据串再生声音的再生装置(音响设备等)基于从声音信号处理装置100输出的输出信号数据串来再生声音，则该再生声音与从输入到声音信号处理装置100的输入信号数据串再生声音的情况下相比，有可能成为高音质。

(其他实施方式)

如以上那样，作为本申请中公开的技术的例示，说明了实施方式1。但是，本公开中的技术并不限定于此，而是也能够应用到适当进行变更、置换、附加、省略等的实施方式中。此外，还能够对上述实施方式1中说明的各结构要素进行组合而构成新的实施方式。

因此，以下，例示其他实施方式。

(1)在实施方式1中，作为第1样本化频率的一例，示出88.2kHz，作为第1量子化比特数的一例，示出24比特，作为第2样本化频率的一例，示出44.1kHz，作为第2量子化比特数的一例，示出16比特。但是，本公开完全不限定于这些数值，这些数值可以是其他数值。

(2)在实施方式1中，示出了声音信号处理装置100具备移位寄存器电路121、移位寄存器电路133、以及移位寄存器电路141的结构例。但是，本公开完全不限定于该结构例。例如，可以通过声音信号处理装置100具备存储器和执行存储于存储器的控制程序的处理器，由处理器将配置在存储器的任意的地址的多个单位数据作为串(输入单位数据串、教师单位数据串、输出单位数据串)来管理并进行移位等操作，从而实现与上述的各移位寄存器电路同样的功能。此外，也可以通过声音信号处理装置100具备存储器和执行存储于存储器的控制程序的处理器，由处理器进行累积乘法涉及的运算处理，从而实现与乘法电路131以及加法电路132同样的功能。此外，在声音信号处理装置100中也可以取代由处理器执行存储于存储器的控制程序从而以软件方式来实现各种功能(例如，执行声音信号处理的功能)，而通过专用的硬件(数字电路、模拟电路等)来实现该功能。

(3)在实施方式1中，示出了神经网络电路110具有两层中间层的结构例(参照图1)。但是，该结构仅是一例，本公开完全不限定于该结构例。神经网络电路110的内部结构(中间层的层数、单元数、运算方式等)能够从图1例示的结构变更成任意的结构。此外，在实施方式1中，示出了中间层的各单元将双曲线正切函数用作激活函数的结构例，但是本公开完全不限定于该结构例。中间层的各单元可以使用双曲线正切函数以外的函数。

(4)在实施方式1的学习控制处理(参照图2)以及复原处理(参照图3)中，示出了移位寄存器电路121、移位寄存器电路133、以及移位寄存器电路141将保持的数据按每个单位时间T进行一样本单位的单位数据的量的移位的结构例。但是，本公开完全不限定于该结构例。各移位寄存器电路也可以将保持的数据按每个单位时间T进行与M个单位数据相应量的移位。M为小于N的任意的自然数。另外，N为神经网络电路110的输入层111以及输出层113各自中的单元的数目。例如，在各移位寄存器电路构成为按每个单位时间T将保持的数据移位M个的情况下，移位寄存器电路121以及移位寄存器电路133按每个单位时间T取得M个单位数据并重新取入。此外，移位寄存器电路133按每个单位时间T取入M个初始值为零的单位数据，将从移位寄存器电路133推出的M个单位数据作为输出信号数据串的结构要素来输出。另外，在声音信号处理装置100中，可以在神经网络电路110进行学习时和这以外的时候(进行复原涉及的处理时)，使各移位寄存器电路中的移位数即M的值不同。

(5)在实施方式1的学习控制处理(参照图2)以及复原处理(参照图3)中，示出了乘法电路131进行对从输出层113的各输出单元113a输出的数据均乘以相同的系数(例如，1/N)的乘法的结构例。但是，例如，在移位寄存器电路133将保持的数据按每个单位时间T移位M个情况下，可以将该系数例如设为M/N。此外，与从输出层113的各输出单元113a输出的数据相乘的各系数不一定是相同的值，也可以任意调整。例如，在神经网络电路110的输出层113中的N个输出单元113a的排列顺序中，可以相对地增大针对中央附近的输出单元113a的系数。对于该输出单元113a的排列顺序(位次)，可以通过窗函数来确定系数。作为窗函数，例如列举海因窗(hanning window)、汉明窗(hamming window)等。

(6)在实施方式1中，示出了声音信号处理装置100为了进行神经网络电路110的学习而通过控制部140进行学习控制处理的结构例。但是，本公开完全不限定于该结构例。例如，声音信号处理装置100可以构成为不具备学习用的结构要素，不进行学习控制处理。在这样的结构的情况下，声音信号处理装置100可以构成为从外部取得作为实施方式1所示那样的学习控制处理的学习的结果的与将神经网络电路110的各层的单元间结合的权重相关的信息等。并且，声音信号处理装置100也可以构成为具有通过将所取得的信息传递到神经网络电路110而使神经网络电路110成为与学习后的状态同样的状态的功能。或者，声音信号处理装置100可以在制造阶段被制造成使神经网络电路110预先成为与该学习后同样的状态。

(7)在实施方式1中，示出声音信号处理装置100从输出部130输出输出信号数据串的结构例。但是，本公开完全不限定于该结构例。例如，也可以将基于输出部130的输出进行声音信号串的输出或者声音的输出的再生装置包括在声音信号处理装置100中。

(8)实施方式1所示的声音信号处理装置100中的各结构要素(功能模块)可以由IC(Integrated Circuit)或者LSI(Large Scale Integration)等半导体集成电路单独地被一芯片化，也可以包括各结构要素的一部分或者全部地被一芯片化。或者，各结构要素的一部分或者全部可以由将包括存储控制程序的存储器、执行控制程序的微处理器、以及执行信号处理的一部分的电路在内的多个结构部集成在一个芯片上的系统LSI来构成。此外，集成电路化的手法并不限定于LSI，可以由专用电路或者通用处理器来实现功能模块的电路。在LSI制造后，可以利用能够将电路结构程序化的FPGA(Field Programmable Gate Array)或者能够重构LSI内部的电路单元的连接以及设定的可重新配置处理器。或者，通过半导体技术的进步或者派生的其他技术，若被置换为LSI的集成电路化的技术出现，则可以使用该技术进行功能模块的集成化。在这样的技术中，例如，有可能进行生物技术的应用等。

(9)实施方式1所示的各种处理(例如图2、图3所示的步骤等)的全部或者一部分可以由电子电路等硬件来实现，也可以使用软件来实现。或者，可以包括能对计算机或者信号处理装置装卸的半导体存储器卡或者单体的模块而构成。另外，基于软件的处理通过声音信号处理装置100中包括的处理器执行被存储于存储器的控制程序来实现。此外，可以将该控制程序记录到计算机或者信号处理装置能读取的记录介质(例如，光盘、磁盘、磁带、或者半导体存储器等)使其分发或者流通。或者，可以将该控制程序经由电通信线路、无线或者有线通信线路、互联网等网络、数据广播等来传送。例如，将被分发的控制程序安装到声音信号处理装置，由声音信号处理装置的处理器执行该控制程序，由此，该声音信号处理装置能够进行各种处理(图2、图3所示的声音信号处理的步骤等)。或者，可以通过独立的其他计算机系统执行该控制程序来执行各种处理。可由执行控制程序的处理器来执行的声音信号处理例如包括输入处理和输出处理。输入处理是按每个单位时间将输入信号数据串中的多个连续的样本单位的各单位数据一一对应地统一输入到神经网络电路的输入层的多个输入单元，并进行每个单位时间的统一输入以使得在一个单位时间被输入到一个输入单元的单位数据在其他单位时间被输入到其他输入单元的处理。此外，输出处理是以下的处理，即按每个单位时间输出运算结果来作为输出信号数据串的结构要素，该运算结果基于与跨越连续的多个单位时间的输入处理中的统一输入相应地从神经网络电路的输出层的多个输出单元在该多个单位时间的每个单位时间输出的数据而得到。

(10)通过将实施方式1所示的结构要素以及功能任意组合而实现的方式也包括在本公开的范围中。

实施方式1所示的各处理(各功能)可以通过由单一的装置(系统)集中处理来实现，或者，可以通过由多个装置分散处理来实现。

如以上，作为本公开的技术的例示，说明了实施方式。为此，提供了附图以及详细的说明。

因此，在附图以及详细的说明所记载的结构要素当中，不仅包括为了解决课题而必须的结构要素，而且为了例示上述技术，也包括不是为了解决课题而必须的结构要素。因此，不应当根据这些不是必须的结构要素记载于附图、详细的说明中而直接将这些不是必须的结构要素认定为是必须的。

此外，上述的实施方式用于例示本公开的技术，因此能够在权利要求书或者其均等的范围内进行各种变更、置换、附加、省略等。

工业上的可利用性

本公开能够应用于对基于声音信号经过样本化等而生成的声音信号数据进行处理的声音信号处理装置以及声音信号处理方法中。

符号说明

100 声音信号处理装置；

110 神经网络电路；

111 输入层；

111a 输入单元；

112a，112b 中间层；

112aa，112ba 单元；

113 输出层；

113a 输出单元；

120 输入部；

121 移位寄存器电路；

130 输出部；

131 乘法电路；

132 加法电路；

133 移位寄存器电路；

140 控制部；

141 移位寄存器电路；

150 变换部。

Claims

1.一种声音信号处理装置，具备：

神经网络电路，包括具备多个输入单元而构成的输入层、中间层、以及具备多个输出单元而构成的输出层；

输入部，按每个单位时间将基于声音信号串经过样本化而生成的输入信号数据串中的多个连续的样本单位的各单位数据一一对应地统一输入到所述多个输入单元，并进行每个所述单位时间的所述统一输入以使得在一个单位时间被输入到一个输入单元的单位数据在其他单位时间被输入到其他输入单元；以及

输出部，将基于与跨越连续的多个单位时间的所述统一输入相应地从所述多个输出单元在所述多个单位时间的每个单位时间输出的数据的运算结果按每个所述单位时间进行输出。

2.根据权利要求1所述的声音信号处理装置，其中，

所述输入层的输入单元的数目和所述输出层的输出单元的数目均为N个，其中N为2以上的整数，

所述输入部包括能够将N个单位数据作为输入单位数据串保持的第1移位寄存器电路，

所述第1移位寄存器电路按每个所述单位时间从所述输入信号数据串将M个单位数据取入到所述输入单位数据串，按每个所述单位时间针对所述输入单位数据串进行与M个单位数据相应量的移位，按每个所述单位时间将所述输入单位数据串中的N个单位数据统一输入到所述N个输入单元，其中M为1以上且小于N的整数，

所述输出部包括：

第2移位寄存器电路，能够将N个单位数据作为输出单位数据串来保持；

乘法电路，对从所述N个输出单元分别输出的数据乘以系数；以及

加法电路，将所述乘法电路的乘法结果和所述第2移位寄存器电路中保持的输出单位数据串相加，通过该加法结果来更新该第2移位寄存器电路的N个单位数据，

所述第2移位寄存器电路按每个所述单位时间从所述输出单位数据串输出M个单位数据，按每个所述单位时间针对所述输出单位数据串进行与M个单位数据相应量的移位，按每个所述单位时间将所述输出单位数据串中的N个单位数据送出到所述加法电路，从而取得所述加法结果，将由此取得的所述加法结果作为所述输出单位数据串保持。

3.根据权利要求2所述的声音信号处理装置，其中，

所述M为1，

所述乘法电路对从所述N个输出单元分别输出的数据相乘的系数均为1/N。

4.根据权利要求2或3所述的声音信号处理装置，其中，

所述声音信号处理装置进一步具备：

控制部，进行用于使所述神经网络电路进行学习的控制，

所述控制部包括能够将N个单位数据作为教师单位数据串来保持的第3移位寄存器电路，

所述控制部进行控制，以使得所述第3移位寄存器电路从基于学习用声音信号串以第1样本化频率进行样本化并以第1量子化比特数进行了量子化所得到的教师信号数据串中，按每个所述单位时间将M个单位数据取入到所述教师单位数据串，按每个所述单位时间针对所述教师单位数据串进行与M个单位数据相应量的移位，按每个所述单位时间将所述教师单位数据串中的N个单位数据提供给所述N个输出单元，并且所述控制部进行控制，以使得在基于所述学习用声音信号串以比所述第1样本化频率低的第2样本化频率进行样本化并以比所述第1量子化比特数少的第2量子化比特数进行量子化后，使所述第1移位寄存器电路将针对样本化频率以及量子化比特数变换成与所述教师信号数据串相同而得到的学习信号数据串作为所述输入信号数据串来对待，通过以上控制使所述神经网络电路进行学习。

5.根据权利要求4所述的声音信号处理装置，其中，

所述神经网络电路是将自编码器堆叠而成的堆叠自编码器。

6.根据权利要求1～5中任一项所述的声音信号处理装置，其中，

所述中间层的各单元进行非线性处理。

7.一种声音信号处理方法，使用神经网络电路，输出与基于声音信号串经过样本化而生成的输入信号数据串相应的输出信号数据串，该神经网络电路包括具备多个输入单元而构成的输入层、中间层、以及具备多个输出单元而构成的输出层，在该声音信号处理方法中，

按每个单位时间将所述输入信号数据串中的多个连续的样本单位的各单位数据一一对应地统一输入到所述多个输入单元，并进行每个所述单位时间的所述统一输入以使得在一个单位时间被输入到一个输入单元的单位数据在其他单位时间被输入到其他输入单元，

将基于与跨越连续的多个单位时间的所述统一输入相应地从所述多个输出单元在所述多个单位时间的每个单位时间输出的数据的运算结果作为所述输出信号数据串的结构要素，按每个所述单位时间进行输出。

8.根据权利要求7所述的声音信号处理方法，其中，

所述声音信号处理方法进一步在使所述神经网络电路进行学习时，

按每个所述单位时间将基于学习用声音信号串以第1样本化频率进行样本化并以第1量子化比特数进行了量子化所得到的教师信号数据串中的多个连续的样本单位的各单位数据一一对应地统一赋予给所述多个输出单元，并进行每个所述单位时间的所述统一赋予以使得在一个单位时间被赋予给一个输出单元的单位数据在其他单位时间被赋予给其他输出单元，并且，

在基于所述学习用声音信号串以比所述第1样本化频率低的第2样本化频率进行样本化并以比所述第1量子化比特数少的第2量子化比特数进行量子化后，按每个所述单位时间将针对样本化频率以及量子化比特数变换成与所述教师信号数据串相同而得到的学习信号数据串中的多个连续的样本单位的各单位数据一一对应地统一输入到所述多个输入单元，并进行每个所述单位时间的所述统一输入以使得在一个单位时间被输入到一个输入单元的单位数据在其他单位时间被输入到其他输入单元。

9.根据权利要求8所述的声音信号处理方法，其中，

所述学习用声音信号串是频率扫描过的信号或者振幅扫描过的信号。

10.一种控制程序，用于使计算机进行声音信号处理，在该声音信号处理中，使用神经网络电路，输出与基于声音信号串经过样本化而生成的输入信号数据串相应的输出信号数据串，所述神经网络电路包括具备多个输入单元而构成的输入层、中间层、以及具备多个输出单元而构成的输出层，

所述声音信号处理包括：

输入处理，按每个单位时间将所述输入信号数据串中的多个连续的样本单位的各单位数据一一对应地统一输入到所述多个输入单元，并进行每个所述单位时间的所述统一输入以使得在一个单位时间被输入到一个输入单元的单位数据在其他单位时间被输入到其他输入单元；以及

输出处理，将基于与跨越连续的多个单位时间的所述统一输入相应地从所述多个输出单元在所述多个单位时间的每个单位时间输出的数据的运算结果作为所述输出信号数据串的结构要素，按每个所述单位时间进行输出。