CN110706714B

CN110706714B - 说话者模型制作系统

Info

Publication number: CN110706714B
Application number: CN201910110478.2A
Authority: CN
Inventors: 藤村浩司
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2018-06-21
Filing date: 2019-02-12
Publication date: 2023-12-01
Anticipated expiration: 2039-02-12
Also published as: US11495235B2; US20190392839A1; JP2019219574A; CN110706714A; JP6980603B2

Abstract

本发明提供一种说话者模型制作系统，能够以更少的数据更高效地执行说话者登记。说话者模型制作系统具备扩展部和制作部。扩展部根据多个图案来变更从输入层至规定的中间层为止的网络参数的一部分，针对与多个图案对应的变更后的神经网络分别输入1个声音，从而从中间层得到多个输出。制作部根据多个输出，制作针对从声音检测出的单词的说话者模型。

Description

说话者模型制作系统

本申请以日本专利申请2018-118090(申请日：2018年6月21日)为基础，从该申请享受优先的权益。本申请通过参照该申请而包括该申请的全部内容。

技术领域

本发明的实施方式涉及说话者模型制作系统、辨识系统、程序以及控制装置。

背景技术

提出了具有从用户的声音检测关键字并确定是针对检测出的关键字进行了登记的说话者之中的哪个说话者发声的关键字的说话者辨识功能的各种仪器。用户只是通过用户的声音来登记关键字并进行关键字的发声，就能够使仪器辨识用户并进行适合该用户的期望的动作。另外，已知使用了神经网络的说话者辨识高精度地动作。

然而，在以往的使用了神经网络的说话者辨识中，需要在说话者的声音关键字的登记处理(注册)中准备许多输入声音(发声)。

发明内容

实施方式的说话者模型制作系统具备扩展部和制作部。扩展部根据多个图案来变更从输入层至规定的中间层为止的网络参数的一部分，针对与多个图案对应的变更后的神经网络分别输入1个声音，从而从中间层得到多个输出。制作部根据多个输出，制作针对从声音检测出的单词的说话者模型。

根据上述说话者模型制作系统，能够以更少的数据更高效地执行说话者登记。

附图说明

图1是第1实施方式所涉及的辨识系统的框图。

图2是第1实施方式所涉及的辨识装置的框图。

图3是第1实施方式中的模型制作处理的流程图。

图4是示出模型制作处理的具体例的图。

图5是第1实施方式中的辨识处理的流程图。

图6是第2实施方式所涉及的辨识系统的框图。

图7是第2实施方式所涉及的客户端的硬件结构图。

图8是示出在变形例中使用的指定画面的一例的图。

(符号说明)

100：辨识装置；100-2：辨识服务器；101：CPU；102：系统控制器；103：主存储器；104：LCD；105：BIOS-ROM；106：非易失性存储器；107：麦克风；108：通信设备；109：键盘；110：指示设备；111：EC；121、122：存储部；131：声音取得部；132：计算部；133：检测部；134：扩展部；135：制作部；136：辨识部；141：通信控制部；200-2：客户端；241：受理部；242：通信控制部；300-2：网络。

具体实施方式

以下参照附图，详细地说明本发明所涉及的说话者模型制作系统、辨识系统以及程序的优选的实施方式。

(第1实施方式)

说明以往的说话者辨识技术的具体例。例如在专利文献1中提出了一种如下方法：在利用某个仪器根据说话者的关键字声音(对成为检测对象的关键字进行了发声的声音)制作说话者模型时，使用所登记的多个说话者的关键字声音针对每个说话者生成新的神经网络的输出节点并学习，在辨识时使用每个说话者的网络参数来计算说话者的似然度，并进行辨识。根据该方法，能够利用神经网络，同时进行关键字检测等所需的音韵的似然度的计算和说话者的辨识。但是，在该方法中，每当登记说话者时神经网络的参数会增加，因此计算量增加。另外，需要同时使用多个说话者的关键字声音。

在非专利文献2的技术中，通过对关键字声音重叠预先确定的音乐等噪声声音或者叠加余音来制作仿真声音，并制作利用神经网络的说话者辨识特征量，从而提高说话者登记的鲁棒性。但是，在该方法中，会带来由预先确定的噪声以及余音引起的变化，因此对于原本混入了噪声、余音的输入声音而言，有可能会制作不自然的声音。另外，需要预先存储对重叠的噪声进行了规定的噪声文件等。另外，需要重新制作声音数据，因此说话者登记的效率降低。

另外，在基于利用了神经网络的关键字的说话者辨识中，为了同时进行音韵的辨识(关键字的检测)和说话者辨识而利用多个神经网络，因此存在计算量变多这样的问题。另外，说话者登记的效率性存在问题。

因此，第1实施方式所涉及的辨识系统将专用于关键字检测的神经网络的规定的中间层的输出用作用于说话者辨识的特征量(说话者辨识特征量)。而且，通过以多个图案来变更该神经网络的输入层至相应中间层的网络参数的一部分，从而将针对1个输入声音的特征量扩展为多个，利用所扩展的特征量来制作用于说话者辨识的模型(说话者模型)。在辨识时，将成为辨识对象的输入声音输入到神经网络来进行关键字检测，并且将相应中间层的输出作为说话者辨识的特征量，利用特征量和说话者模型来进行说话者辨识。

由此，能够以更少的数据更高效地执行说话者登记。另外，由于能够仅使用关键字检测用的一个神经网络，因此能够以更少的运算量来执行各种关键字的检测和针对该关键字的说话者辨识。

此外，也可以不具备辨识功能，而作为具备至说话者模型的制作功能为止的说话者模型制作系统来实现系统。说话者不仅包括人，而且也可以包括动物以及发出声音的仪器(机器人等)等音源。

在第1实施方式中，示出例如如便携电话、便携终端以及个人计算机等那样在物理上作为一个装置而实现辨识系统的例子。

图1是示出第1实施方式的作为辨识系统的辨识装置100的系统结构的一例的框图。辨识装置100具备CPU(Central Processing Unit，中央处理单元)101、系统控制器102、主存储器103、LCD(Liquid Crystal Display，液晶显示器)104、BIOS-ROM(Basic InputOutput System-Read Only Memory，基本输入输出系统-只读存储器)105、非易失性存储器106、麦克风107、通信设备108、键盘109、指示设备110、以及嵌入式控制器(EC)111等。

CPU101是对辨识装置100内的各种组件的动作进行控制的处理器。CPU101执行从作为存储设备的非易失性存储器106加载到主存储器103的各种程序。在这些程序中包含有操作系统(OS)201以及各种应用程序。在应用程序中包含有辨识程序202。该辨识程序202包括用于从声音数据辨识说话者的命令组。

另外，CPU101还执行储存于BIOS-ROM105的基本输入输出系统(BIOS)。BIOS是用于硬件控制的程序。

系统控制器102是将CPU101的本地总线与各种组件之间进行连接的设备。在系统控制器102中内置有对主存储器103进行存取控制的存储器控制器。另外，在系统控制器102中还内置有对作为辨识装置100的显示监视器而使用的LCD104进行控制的显示控制器。由该显示控制器生成的显示信号被发送到LCD104。LCD104根据显示信号来显示画面图像。

另外，系统控制器102内置有音频编解码器。以控制麦克风10的方式构成音频编解码器。音频编解码器生成基于由麦克风107收集的声音的声音信号(表示被数字处理的声音波形的数据列。以下称为声音波形。)。

通信设备108是以执行有线通信以及无线通信中的至少一方的方式构成的设备。通信设备108包括发送信号的发送部以及接收信号的接收部。

键盘109以及指示设备110是用于由用户进行输入的设备。指示设备110是鼠标、触摸板以及触摸面板那样的用于对LCD104的画面上的点以及点的活动进行检测的设备。

EC111是包括用于电力管理的嵌入式控制器的单片式微型计算机。EC111具有根据由用户进行的电源按钮的操作而将辨识装置100进行电源接通或者电源关闭的功能。

基于上述结构的辨识装置100从声音波形检索成为检测对象的关键字的声音部分，使用检索到的声音部分来辨识对成为检测对象的关键字进行了发声的说话者。搭载该辨识装置100的仪器搭载有根据被辨识的说话者而进行动作的应用(application)。这样，优选为在受理说话者的声音而进行动作的仪器所搭载的辨识装置100中，始终受理声音，对关键字进行检测，针对检测出的关键字要求准确的说话者辨识，并以低电力以及低计算量进行动作。另外，为了使用户不会感受到压力而舒适地操作仪器，需要减少针对说话者的关键字的说话者登记的次数。

接下来，对辨识装置100的功能结构例进行说明。图2是示出第1实施方式所涉及的辨识装置100的功能结构的一例的框图。如图2所示，辨识装置100具备存储部121、122、声音取得部131、计算部132、检测部133、扩展部134、制作部135以及辨识部136。

存储部121、122分别是存储神经网络以及说话者模型的存储装置。存储部121、122能够由闪存、存储卡、RAM(Random Access Memory，随机存取存储器)、HDD(Hard DiskDrive，硬盘驱动器)以及光盘等一般利用的所有存储介质来构成。存储部121、122既可以设为物理上不同的存储介质，也可以作为物理上相同的存储介质的不同的存储区域来实现。而且，存储部121、122各自也可以通过物理上不同的多个存储介质来实现。此外，神经网络是指一个数学上的模型，通过学习来调整参数(权重、偏移(bias)等)，例如用于声音的辨识。

声音取得部131取得作为处理对象的声音数据(输入声音)。例如，声音取得部131受理声音，将受理的声音变换为特征量而输出。

计算部132将特征量输入到神经网络，计算表示特征量与预先确定的单词对应的可能性的得分。此外，单词是从声音抽出的音素以及音节等的单位，以下有时称为关键字。例如，也可以仅抽出辨识的说话者的发言中所包含的韵母，将抽出结果作为关键字来辨识。

检测部133使用计算出的得分，从输入声音检测预先确定的关键字。例如，检测部133比较计算出的得分与针对每个关键字确定的阈值，在超过阈值的情况下检测出与该阈值对应的关键字。

扩展部134进行用于对在说话者模型的制作中使用的数据进行扩展的处理。例如，扩展部134进行如下处理：根据多个图案来变更神经网络的输入层至规定的中间层的网络参数的一部分，针对与多个图案对应的变更后的神经网络分别输入1个输入声音，从而从该中间层得到多个输出。由此，能够针对1个输入声音，得到在说话者模型的制作中使用的多个数据(中间层的输出)。

由扩展部134实施的网络参数的变更方法可以是任意的方法。例如，扩展部134也可以变更从输入层至中间层为止的各层的网络参数之中的一部分的权重。另外，扩展部134也可以通过对从输入层至中间层为止的各层的网络参数之中的一部分的偏移相加随机值，从而变更网络参数。另外，既可以对在神经网络中使用的S型函数(Sigmoid function)等激活函数添加偏移项并在那里相加随机值，也可以对向各层的输入值添加偏移项并在那里相加随机值。

规定的中间层可以是神经网络的中间层之中的任意中间层。在与输入层接近的中间层中残留有噪声的情况下，也可以将比这些中间层靠后的中间层设为规定的中间层。在与输出层接近的中间层中说话者的特征未被表现出来的情况下，也可以将比这些中间层靠前的中间层设为规定的中间层。

扩展部134所扩展的神经网络既可以与计算部132在得分的计算中使用的神经网络相同，也可以是不同的神经网络。

制作部135使用扩展的数据来制作说话者模型。例如，制作部135根据从变更了网络参数的多个神经网络的中间层分别输出的多个输出，制作针对检测出的关键字的说话者模型。说话者模型可以是任意的形式。制作部135例如也可以将由多个输出的平均以及方差表示的高斯分布制作为说话者模型。另外，制作部135也可以通过使用1个以上的说话者的输入声音以及与该输入声音对应的多个输出的学习，来制作说话者模型。制作部135也可以针对关键字所包含的每个部分区间，制作说话者模型。部分区间例如是构成关键字的音韵以及音素等。

辨识部136使用说话者模型来辨识说话者。例如，辨识部136通过向制作的说话者模型输入针对为了辨识而输入的输入声音的中间层的输出，从而辨识说话者。

上述各部(声音取得部131、计算部132、检测部133、扩展部134、制作部135以及辨识部136)例如通过1个或者多个处理器来实现。例如，上述各部也可以通过使CPU(CentralProcessing Unit)等处理器执行程序、即通过软件来实现。上述各部也可以通过专用的IC(Integrated Circuit，集成电路)等处理器、即通过硬件来实现。上述各部也可以并用软件以及硬件来实现。在使用多个处理器的情况下，各处理器既可以实现各部中的1个，也可以实现各部中的2个以上。

接下来，说明这样构成的第1实施方式所涉及的辨识装置100的模型制作处理。图3是示出第1实施方式中的模型制作处理的一例的流程图。模型制作处理是与使用从说话者的声音检测出的关键字来登记说话者的说话者登记相当的处理。

声音取得部131受理声音数据的输入，生成受理的声音的特征量而输出(步骤S101)。例如，声音取得部131根据声音数据的256点采样，计算12维度的MFCC(MelFrequency Cepstrum Coefficient，梅尔频率倒谱系数)特征量。声音取得部131对该MFCC特征量进行3帧量的缓冲，把将3帧量的MFCC特征量进行了连结的36维度的特征量作为这3帧之中的中央帧的时刻的特征量而输出。

此外，所抽出的特征量不限于MFCC，例如也可以使用梅尔滤波器组特征量、PLP(Perceptual Linear Prediction，感知线性预测)、RASTA-PLP特征量及音调特征量、以及这些特征量的Δ成分及ΔΔ成分。或者，也可以使用这些特征量的组合。另外，连结帧数不限于3，只要是1帧以上，则连结多少帧都可以。切出采样大小以及帧周期不限于上述的值。

接下来，计算部132接受由声音取得部131生成的特征量，使用该特征量和神经网络，计算帧得分以及关键字得分(步骤S102)。帧得分是每个帧的音素的出现概率(声响得分)。关键字得分是表示特征量与成为预先确定的检测对象的关键字对应的可能性的得分。

以下，说明检测对象的关键字是“交流(communication)”时的具体例。针对该关键字，使用关键字模型对于表示按每个帧切出的特征量的矢量列而计算累积得分的方法存在许多。以下，以适用left-to-right(左到右)型的隐马尔可夫模型(Hidden Markov Model：HMM)以及专利文献2的方法为例进行说明。

首先，将检测对象的关键字设为关键字w。关键字由left-to-right型的音素HMM来表示。关于音素HMM，将分别表示关键字w的音素文字(列)“k a my u n i k e i sy o n”中包含的各音素分别设为1个状态。另外，作为音素HMM的参数，关于音素间的转移概率，任何转移间的概率都设为相同概率。输出的概率由每个帧的音素的出现概率(声响得分)来表示。

在计算每个帧的声响得分(帧得分)的模型中，针对多个关键字设为共同的前馈型的神经网络。使用专利文献2的方法来计算帧得分。

用于计算声响得分的神经网络的输出层是对表示关键字w的音素“k a my u n ik e i sy o n”添加针对无声区间的音素“sil”，由10个输出单元构成的。输入层由与计算出的特征量相当的36个输入单元构成。中间层是将具有256个单元的层重叠3个而成的层。神经网络使用包含无声音区间的关键字w的宣读声音，利用反向传播来学习。

这样，计算部132准备针对关键字w的音素HMM，通过专利文献2的方法来计算针对关键字模型的音素HMM在从声音取入开始起的帧数te下到达末端的路径的得分。此时将具有针对关键字模型的帧数te时间点的平均局部得分S的路径的音素HMM的起始端帧设为ts。

计算部132一边使帧数te在时间方向上递增一边进行得分计算。此时，也可以几帧几帧地跳过得分计算来削减计算量。计算部132将平均局部得分S用作该关键字的得分(关键字得分)。

此外，关键字模型不限于音素单位下的模型化，而也能够以音韵、短音节、音标或者书写文字的单位进行模型化。另外，平均局部得分的计算方法不限于专利文献2的方法。另外，帧单位的声响得分计算不限于使用了前馈型的神经网络的方法，还能够适用递归构造的神经网络、例如LSTM等。

检测部133通过比较关键字得分与预先确定的阈值，判定是否存在具有超过阈值的关键字得分的关键字(步骤S103)。即，检测部133如以下的(1)式那样比较针对关键字模型预先准备的平均局部得分S与针对该平均局部得分S的阈值th。

th<S…(1)

在满足(1)式的情况下，检测部133检测出关键字w。在将该关键字的起始端时间设为tms时，会检测出始末端区间(tms，te)的关键字w。关于阈值th，使用包含关键字的开发用的声音数据集，针对所有关键字，设定1个作为适合率以及再现率的调节平均的F值为最大的值。在该情况下，如果使阈值th的值变高，则关键字不易被检测，如果使阈值th的值变低，则关键字易于被检测。也可以对得分乘以负1而使正负反转，在该情况下当低于阈值时检测出关键字。

在不存在超过阈值th的关键字的情况下(步骤S103：否)，返回到步骤S101的程序，继续进行用于从后续的声音数据检测关键字的处理。

另一方面，在存在超过阈值th的关键字的情况(步骤S103：是)、即检测出关键字w的情况下，针对检测出的关键字区间，扩展部134扩展特征量(步骤S104)。

例如，扩展部134将基于在检测中使用的神经网络的第2层的中间层的256维度的输出用作表示说话者的特征的特征量(说话者特征量)。例如，扩展部134生成未超过一定的范围的若干个随机图案作为输入层以及中间层的神经网络输出的偏移参数，并将它们进行相加，从而变更神经网络的参数。扩展部134取得来自与各随机图案对应的多个神经网络的该中间层的多个输出作为扩展的说话者特征量。

例如，在产生了3组随机图案的情况下，针对1个输入能够得到3个不同的中间层输出(说话者特征量)。另外，也可以准备将一部分的神经网络的权重设为0等的图案，取得多个中间层的输出。扩展部134使这样的处理适用于检测出的关键字区间，扩展说话者特征量。

图4是示出模型制作处理的具体例的图。图4的左端示出用于关键字的检测的神经网络的例子。扩展部134变更直至该神经网络的第2层的中间层为止的网络参数的一部分。在图4中，示出在3个图案各自中将相互不同的部位的权重设为0的例子。例如，在图4的中央左上的图案中，与连接线401～404对应的权重被变更为0。在图4的中央右上的图案中，与连接线411、412对应的权重被变更为0。在图4的中央下方的图案中，与连接线421、422对应的权重被变更为0。

返回到图3，制作部135针对关键字区间，使用扩展的多个说话者特征量来制作说话者模型(步骤S105)。例如，制作部135针对256维度的矢量的各维度，制作具有单一的高斯分布的256维度高斯分布模型作为说话者模型。制作部135计算扩展的多个说话者特征量的平均以及方差，构筑高斯分布模型。制作部135将构筑的高斯分布模型作为说话者模型而存储到存储部122。图4的右端示出制作部135利用3个说话者特征量的平均以及方差来制作说话者模型的情况。

说话者模型的制作方法不限于此。例如，制作部135也可以在得到了多个说话者向神经网络的输入矢量、或者扩展的说话者特征量矢量的情况下，通过学习利用它们来识别说话者的神经网络，从而制作说话者模型(学习的神经网络)。另外，在该情况下，能够适用SVM(Support Vector Machine，支持矢量机)以及AdaBoost等识别模型作为说话者模型。除此以外，也能够如非专利文献1那样以使用神经网络容易识别说话者的方式对表示说话者特征量的矢量进行变换之后，计算平均以及方差等，构筑高斯分布模型。另外，制作部135也可以将表示说话者特征量的矢量的平均矢量制作为说话者模型。

接下来，说明这样构成的第1实施方式所涉及的辨识装置100的辨识处理。图5是示出第1实施方式中的辨识处理的一例的流程图。辨识处理是使用所制作的说话者模型对输入声音的说话者进行辨识的处理。在辨识处理中，检测成为检测对象的关键字，并且辨识检测出的关键字的说话者。

步骤S201至步骤S203是与表示模型制作处理的图3的步骤S101至步骤S103同样的处理，因此省略说明。

在存在超过阈值th的关键字的情况(步骤S203：是)、即检测出关键字w的情况下，辨识部136使用所制作的说话者模型和在关键字检测时计算的中间层的输出，判定说话者相似度(步骤S204)。例如，辨识部136向高斯分布输入关于关键字检测区间的所有帧的中间层的输出，并将所输出的似然度的合计设为说话者相似度。此时，辨识部136既可以针对每个帧向高斯分布进行输入而得到似然度，也可以在姑且取得所有帧的矢量的平均之后向高斯分布进行输入而得到似然度。辨识部136例如将说话者相似度为最大的说话者作为辨识结果来输出。此时，也可以对似然度设置阈值，在针对多个说话者模型或者单一的说话者模型的似然度为阈值以下的情况下，返回并不是所登记的任何说话者这样的辨识结果。

在说话者模型是神经网络、SVM以及AdaBoost等识别模型的情况下，辨识部136既可以针对每个帧的识别结果进行投票，并将数量多的说话者作为辨识结果来输出，也可以将每个帧的说话者等级概率或者似然度相加。另外，辨识部136也可以使用与平均矢量的余弦距离来计算说话者辨识结果。

这样，在第1实施方式所涉及的辨识装置中，将输入声音扩展为多个说话者特征量，能够使用这些说话者特征量来制作说话者模型。因此，能够以更少的数据更高效地执行说话者登记。另外，在使用高斯分布等作为说话者模型的情况下，无需如以往那样使用2个神经网络，而是使用1个关键字检测用的神经网络，因此能够降低运算量。

(第2实施方式)

在第2实施方式中，示出通过多个装置来实现辨识系统的例子。图6是示出第2实施方式所涉及的辨识系统的结构的例子的框图。

如图6所示，第2实施方式的辨识系统为客户端200-2和辨识服务器100-2经由网络300-2连接的结构。此外，在图6中将各装置仅记载了1台，但各装置的个数可以是任意台。

网络300-2既可以是无线网络以及有线网络中的任意网络，也可以是遵循任意标准的网络。网络300-2例如是因特网。

客户端200-2具备受理部241和通信控制部242。受理部241例如受理通过麦克风等而生成的声音数据的输入。通信控制部242控制与辨识服务器100-2等外部装置之间的通信。例如，通信控制部242将受理的声音数据发送到辨识服务器100-2。另外，通信控制部242从辨识服务器100-2接收针对发送的声音数据的说话者辨识结果。

辨识服务器100-2具备存储部121、122、声音取得部131、计算部132、检测部133、扩展部134、制作部135、辨识部136以及通信控制部141。辨识服务器100-2追加有通信控制部141，这点与第1实施方式的辨识装置100不同。

通信控制部141控制与客户端200-2等外部装置之间的通信。例如，通信控制部141接收从客户端200-2发送的声音数据。另外，通信控制部141将针对声音数据的说话者辨识结果发送到客户端200-2。

例如，声音取得部131受理从通信控制部141传过来的输入声音，将所受理的输入声音变换为特征量而输出。此后的模型制作处理以及辨识处理与第1实施方式相同。

接下来，使用图7来说明第2实施方式所涉及的客户端200-2的硬件结构。图7是示出第2实施方式所涉及的客户端200-2的硬件结构例的说明图。

第2实施方式所涉及的客户端200-2具备CPU51等控制装置、ROM(Read OnlyMemory，只读存储器)52、RAM(Random Access Memory，随机存取存储器)53等存储装置、与网络连接而进行通信的通信I/F54、以及将各部分进行连接的总线61。

辨识服务器100-2例如能够作为服务器计算机来实现。辨识服务器100-2也可以作为在云上执行处理的云服务器来实现。客户端200-2能够作为个人计算机、内置于各种电子仪器的嵌入式系统、以及平板电脑、智能手机、便携电话机及PDA这样的便携信息终端来实现。客户端200-2和辨识服务器100-2能够经由网络300-2来交换数据。

第2实施方式的辨识系统能够根据使用设置于客户端200-2的麦克风等来生成的声音数据(声音信号)，辨识说话者。例如，客户端200-2将使用设置于该客户端200-2的麦克风等来生成的声音数据，经由网络300-2而发送到辨识服务器100-2。辨识服务器100-2使用说话者辨识功能，根据从客户端200-2接收到的声音数据来辨识说话者，并经由网络300-2将其辨识结果发送到客户端200-2。由此，客户端200-2例如能够开始与所辨识的说话者对应的特定的动作。

这样，在本实施方式中，由客户端200-2取得的声音被发送到辨识服务器100-2，由辨识服务器100-2执行说话者辨识。各装置(客户端200-2、辨识服务器100-2)分散地执行说话者辨识的功能的方法不限于图6所示的例子，以什么样的方法来分散都可以。

例如，客户端200-2也可以并非是将声音数据，而是将使用声音数据来生成的特征量(例如，声音特征矢量列)发送到辨识服务器100-2。在该情况下，辨识服务器100-2也可以从接收到的特征量检测关键字，并将该关键字发送到客户端200-2。

这样，在第2实施方式中，能够以如客户端、服务器系统等那样包括多个装置的系统的形态，实现与第1实施方式同样的说话者辨识功能。

(变形例)

辨识系统例如能够适用于根据检测出的关键字以及所辨识的说话者(用户)而执行期望的动作的应用。通常能够在登记说话者之后开始利用这样的应用。因此，为了能够更早地开始利用，优选为更高效地执行说话者登记。

因此，在变形例中，设为能够简易地执行说话者登记，更早地完成说话者登记。例如在变形例中，设为能够指定要变更的网络参数的个数以及变更时所适用的图案的个数等之中的至少1个。扩展部134按照指定来变更网络参数。

图8是示出在变形例中使用的指定画面的一例的图。如图8所示，指定画面800能够选择通常模式以及简易模式中的任意模式。简易模式是以使处理负载比通常模式低的方式变更网络参数的模式。例如在简易模式中，要变更的网络参数的个数以及所适用的图案的个数中的至少一方比通常模式少。在指定模式之后按下输入开始按钮811时，按照所指定的模式来开始声音输入以及说话者登记。

例如，设想将本实施方式所涉及的系统适用于把多个用户的发言分别利用于不同的控制的控制装置的情况。例如是利用于如下等情形的情况：在某个店铺中，即使在顾客和店铺的职员对于相同的关键字进行了发言的情况下，也仅在辨识为职员时能够进行装置的控制等。装置的控制是指输出店铺的照明、空调等的控制。例如，控制装置所具备的输出部对于“开/关(电)”、“提高/降低(温度)”等这样的语言，在辨识为职员的情况下能够作为控制命令来输出。输出部能够使用用户的声音以及通过该声音的学习而得到的说话者模型，决定是否为预先确定的用户。

另一方面，例如也可以在顾客尝试新的功能的情况下等，在想要临时地进行简易的登记等这样的状况下使用简易模式。例如，也可以在想要试验电子仪器的“开/关(定时器)”等功能是否工作的情况下等使用简易模式。在要以比通常短的时间进行说话者登记的情况下，预先由用户选择简易模式，从而缩短说话者登记的时间。

此外，即使在职员为1人的情况下，只要进行说话者登记就能够区分是否是职员的发言。另外，模式的选择不限于2个，也可以利用辨识精度、说话者登记的时间而准备3个以上的模式。

在第1以及第2实施方式所涉及的各装置(辨识装置、辨识服务器、客户端)中执行的程序预先编入到非易失性存储器或者ROM等而被提供。

在第1以及第2实施方式所涉及的各装置中执行的程序也可以构成为以可安装的形式或者可执行的形式的文件记录到CD-ROM(Compact Disk Read Only Memory，高密度盘只读存储器)、软盘(FD)、CD-R(Compact Disk Recordable，可记录高密度盘)、DVD(DigitalVersatile Disk，数字多功能盘)等由计算机可读取的记录介质而作为计算机程序产品来提供。

而且，也可以构成为将在第1以及第2实施方式所涉及的各装置中执行的程序储存到与因特网等网络连接的计算机上并通过经由网络下载来提供。另外，也可以构成为将在第1以及第2实施方式所涉及的各装置中执行的程序经由因特网等网络来提供或者发布。

在第1以及第2实施方式所涉及的各装置中执行的程序能够使计算机作为上述辨识装置的各部分而发挥功能。该计算机能够使CPU将程序从计算机可读取的存储介质读出到主存储装置(主存储器)上来执行。

如以上说明，根据第1至第2实施方式，能够以更少的数据更高效地执行说话者登记。

说明了本发明的若干个实施方式，但这些实施方式只是作为例子来呈现的，并非限定发明的范围。这些新的实施方式能够以其它各种形态来实施，能够在不脱离发明的要旨的范围中进行各种省略、置换、变更。这些实施方式及其变形包含于发明的范围、要旨，并且包含于在权利要求书中记载的发明及其均等的范围。

此外，能够将上述实施方式归纳为以下的技术方案。

技术方案1

一种说话者模型制作系统，具备：

扩展部，根据多个图案来变更从输入层至规定的中间层为止的网络参数的一部分，针对与多个所述图案对应的变更后的神经网络分别输入1个声音，从而从所述中间层得到多个输出；以及

制作部，根据多个所述输出，制作针对从所述声音检测出的单词的说话者模型。

技术方案2

在技术方案1所记载的说话者模型制作系统中，

所述制作部制作由多个所述输出的平均以及方差表示的高斯分布作为所述说话者模型。

技术方案3

在技术方案1所记载的说话者模型制作系统中，

所述制作部通过使用说话者的声音以及多个所述输出的学习来制作所述说话者模型。

技术方案4

在技术方案1所记载的说话者模型制作系统中，

所述制作部针对所述单词所包含的每个部分区间，制作所述说话者模型。

技术方案5

在技术方案1所记载的说话者模型制作系统中，

所述扩展部变更从所述输入层至所述中间层为止的网络参数之中的一部分的权重。

技术方案6

在技术方案1所记载的说话者模型制作系统中，

所述扩展部对从所述输入层至所述中间层为止的网络参数之中的一部分的偏移相加随机值。

技术方案7

在技术方案1所记载的说话者模型制作系统中，

所述网络参数针对向从所述输入层至所述中间层为止的各层的输入值，包括偏移项参数，

所述扩展部对一部分的偏移项参数相加随机值。

技术方案8

在技术方案1所记载的说话者模型制作系统中，还具备：

声音取得部，受理声音并变换为特征量；

计算部，将所述特征量输入到神经网络，计算表示所述特征量与预先确定的单词对应的可能性的得分；以及

检测部，使用所述得分，从所述声音检测所述单词。

技术方案9

在技术方案8所记载的说话者模型制作系统中，

在所述得分的计算中使用的神经网络与所述扩展部变更网络参数的神经网络相同。

技术方案10

在技术方案8所记载的说话者模型制作系统中，

在所述得分的计算中使用的神经网络与所述扩展部变更网络参数的神经网络不同。

技术方案11

一种辨识系统，具备：

声音取得部，受理声音并变换为特征量；

计算部，将所述特征量输入到神经网络，计算表示所述特征量与预先确定的单词对应的可能性的得分；

检测部，使用所述得分，从所述声音检测所述单词；

扩展部，根据多个图案来变更从输入层至规定的中间层为止的网络参数的一部分，针对与多个所述图案对应的变更后的神经网络分别输入1个所述声音，从而从所述中间层得到多个输出；

制作部，根据多个所述输出，制作针对检测出的所述单词的说话者模型；以及

辨识部，使用所述说话者模型来辨识说话者。

技术方案12

在技术方案11所记载的辨识系统中，

所述辨识部通过向所述说话者模型输入针对为了辨识而输入的声音的所述中间层的输出，从而辨识说话者。

技术方案13

一种程序，用于使计算机作为扩展部和制作部发挥功能，其中，

所述扩展部根据多个图案来变更从输入层至规定的中间层为止的网络参数的一部分，针对与多个所述图案对应的变更后的神经网络分别输入1个声音，从而从所述中间层得到多个输出，

所述制作部根据多个所述输出，制作针对从所述声音检测出的单词的说话者模型。

技术方案14

一种控制装置，具备：

检测部，取得用户的发言，检测规定的单词；以及

输出部，在所述用户是预先确定的用户的情况下，输出被所述单词设定的控制命令。

技术方案15

在技术方案14所记载的控制装置中，

所述输出部使用所述用户的声音以及通过该声音的学习而得到的说话者模型，决定是否为预先确定的用户。

技术方案16

在技术方案15所记载的控制装置中，

通过使用所述用户的声音以及从扩展的模型得到的多个输出的学习，来制作所述说话者模型。

Claims

1.一种说话者模型制作系统，具备：

扩展部，根据多个图案来变更神经网络的输入层至规定的中间层的网络参数的一部分，所述神经网络是不辨识说话者而检测1个以上的单词的神经网络，通过针对与多个所述图案对应的变更后的神经网络分别输入1个声音，从而从所述中间层得到多个输出；以及

制作部，制作通过输入利用所述1个声音得到的多个所述输出作为所述说话者的特征而输出将所述说话者的特征作为输入来辨识出的说话者的说话者模型。

2.根据权利要求1所述的说话者模型制作系统，其中，

3.根据权利要求1所述的说话者模型制作系统，其中，

4.根据权利要求1所述的说话者模型制作系统，其中，

5.根据权利要求1所述的说话者模型制作系统，其中，

6.根据权利要求1所述的说话者模型制作系统，其中，

7.根据权利要求1所述的说话者模型制作系统，其中，

所述扩展部对一部分的偏移项参数相加随机值。

8.根据权利要求1所述的说话者模型制作系统，其中，所述说话者模型制作系统还具备：

声音取得部，受理声音并变换为特征量；

检测部，使用所述得分，从所述声音检测所述单词。

9.根据权利要求8所述的说话者模型制作系统，其中，

10.根据权利要求8所述的说话者模型制作系统，其中，