CN105448305A - 语音处理装置和语音处理方法 - Google Patents
语音处理装置和语音处理方法 Download PDFInfo
- Publication number
- CN105448305A CN105448305A CN201510566659.8A CN201510566659A CN105448305A CN 105448305 A CN105448305 A CN 105448305A CN 201510566659 A CN201510566659 A CN 201510566659A CN 105448305 A CN105448305 A CN 105448305A
- Authority
- CN
- China
- Prior art keywords
- sensation
- voice
- window function
- speech
- pseudo frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000012545 processing Methods 0.000 title claims abstract description 59
- 238000003672 processing method Methods 0.000 title abstract 2
- 230000035807 sensation Effects 0.000 claims abstract description 138
- 230000006870 function Effects 0.000 claims abstract description 128
- 238000004458 analytical method Methods 0.000 claims abstract description 61
- 238000000034 method Methods 0.000 claims description 52
- 230000000052 comparative effect Effects 0.000 claims description 14
- 230000036651 mood Effects 0.000 claims description 3
- 230000015572 biosynthetic process Effects 0.000 claims description 2
- 238000003786 synthesis reaction Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 description 34
- 238000010586 diagram Methods 0.000 description 26
- 230000004044 response Effects 0.000 description 18
- 238000011156 evaluation Methods 0.000 description 9
- 239000013598 vector Substances 0.000 description 8
- 238000005070 sampling Methods 0.000 description 6
- 230000000875 corresponding effect Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000003796 beauty Effects 0.000 description 3
- 230000007177 brain activity Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000033764 rhythmic process Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 230000033001 locomotion Effects 0.000 description 2
- 238000001320 near-infrared absorption spectroscopy Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000002329 infrared spectrum Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000002595 magnetic resonance imaging Methods 0.000 description 1
- 238000012067 mathematical method Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Data Mining & Analysis (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
根据实施例,提供语音处理装置和语音处理方法。语音处理装置包含分析器、特征量计算器、比较器和感觉指标计算器。分析器进行多个伪频率分析,每个伪频率分析对要被处理的对象语音使用不同的窗函数。特征量计算器基于多个伪频率分析的分析结果,来计算对象语音的特征量。比较器将对象语音的特征量与从基准语音计算出的基准特征量进行比较,并且产生比较结果。感觉指标计算器基于比较结果,来计算感觉指标,感觉指标表示从对象语音接收到的感觉。
Description
相关申请的交叉引用
这个申请基于并且要求2014年9月18日提交的第2014-190196号日本专利申请的优先权的利益;其全部内容通过引用被结合于此。
技术领域
此处描述的实施例一般涉及语音处理装置和语音处理方法。
背景技术
语音的评价在对话和通信中是非常重要的。特别地,在构建对话系统中,对话中的自然性的客观评价形成了在平滑的对话和通信的处理中的基础。因而,已经有评价针对语音质量的自然性的各种提案。
然而,针对语音质量的评价方法能够评价声音片段的自然性,但是不能评价语音对人类感觉的影响。还有评价作为来自频谱包络的连续声音的语音的方法。然而,利用这个方法,因为二次特征量从频谱包络中被生成,所以一些特征可能被遗漏,并且因而,难以适当地评价语音对人类感觉的影响。因此,已经有对于能够适当地评价语音对人类感觉具有什么影响的新技术的提案的需求。
发明内容
实施例的目的是提供能够适当地评价语音对人类感觉具有什么影响的语音处理装置和语音处理方法。
根据实施例,语音处理装置包含分析器、特征量计算器、比较器和感觉指标计算器。分析器进行多个伪频率分析,每个伪频率分析对要被处理的对象语音使用不同的窗函数。特征量计算器基于多个伪频率分析的分析结果,来计算对象语音的特征量。比较器将对象语音的特征量与从基准语音计算出的基准特征量进行比较,并且产生比较结果。感觉指标计算器基于比较结果,来计算感觉指标,感觉指标表示从对象语音接收到的感觉。
根据上述语音处理装置,可以适当地评价语音对人类感觉具有什么影响。
附图说明
图1是图解根据第一实施例的语音处理装置的实例配置的框图;
图2是图解被显示在显示器上的消息的实例的图;
图3是图解窗函数的实例的图表;
图4是图解被分类到感觉类别中的窗函数的实例的图;
图5图解感觉指标的实例;
图6是图解用于将对象语音的特征量与基准特征量进行比较的处理的实例的图表;
图7是图解根据第一实施例的语音处理装置的操作的概要的流程图;
图8是图解根据第二实施例的语音处理装置的实例配置的框图;
图9是图解根据第三实施例的语音处理装置的实例配置的框图;和
图10是图解根据第三实施例的语音处理装置的实例硬件配置的框图。
具体实施方式
第一实施例
图1是图解根据第一实施例的语音处理装置100的实例配置的框图。如图1中所示,语音处理装置100包含语音分析器110、评价运算单元120、存储器130和显示器140。存储器130包含用于存储稍后将被描述的窗函数的窗函数存储器131、以及用于存储稍后将被描述的基准特征量的特征量存储器132。显示器140具有根据本实施例的语音处理装置100的用户界面的功能,并且被配置成显示信息,诸如指示处理结果的信息或者正在被处理的信息、给用户的消息、以及用于接受用户的操作的信息,并且接收指定预定操作的用户的操作。
语音分析器110是用于分析语音并且计算特征量的块,并且包含如图1中所示的预处理单元111、窗函数选择器112、分析器113、以及特征量计算器114。
预处理单元111进行预处理,诸如从外部接收要被处理的对象语音的语音数据,并且进行用于噪声消除的滤波。注意,本实施例中使用的语音数据可以是自然嗓音的语音、合成语音、以任何方式生成的语音等等。预处理单元111还对于对象语音的语音数据,分析采样率和数据时间。在这个处理中,预处理单元111将对象语音的语音数据的采样率与稍后将被描述的基准语音的采样率进行比较。如果不存在相同的采样率,则预处理单元111例如在显示器140上显示如图2中所示的消息Ms,以提示用户变换采样率或者使语音数据再生。如果用户请求采样率的变换,则预处理单元111对于对象语音的语音数据,变换采样率。已经被预处理单元111处理的对象语音的语音数据被传递给分析器113。
窗函数选择器112从存储在窗函数存储器131中的窗函数中,选择要在分析器113被用于伪频率分析的窗函数。存储在窗函数存储器131中的窗函数被设计成滤波器,用于借助于与人类的听觉和发声有关的身体部位,来再现从语音信号中接收到的感觉,并且其实例包含自适应滤波函数和非线性滤波函数。
图3是图解存储在窗函数存储器131中的窗函数的实例的图表。如图3中所示,两个窗函数以成对的形式被存储在窗函数存储器131中。在下文中,为了方便起见,成对中的一个将被称为第一窗函数,并且另一个将被称为第二窗函数。第一窗函数是沿着时间轴的不对称的窗函数,以及第二窗函数是通过在时间轴的方向上反转第一窗函数所获得的窗函数。注意,沿着时间轴的不对称的窗函数指的是具有这种波形的窗函数,这种波形具有以下特征:通过关于时间轴上的中点(图3中的点P)转动该波形180度所获得的波形不与原始波形重叠,并且该波形关于穿过时间轴上的中点并且垂直于时间轴的线是不对称的。
例如,当登记某个第一窗函数的操作被进行时,通过在时间轴的方向上反转第一窗函数所获得的第二窗函数响应于登记第一窗函数的操作被自动地生成,并且成对的第一窗函数和第二窗函数被存储在窗函数存储器131中。在这个处理中,成对的第一窗函数和第二窗函数(一对窗函数),如图4中所示的,被分类到稍后将被描述的感觉指标的要素的感觉类别中,并且被存储在窗函数存储器131中。感觉类别基于从语音中接收到的感觉。
在本实施例中,例如,使用了十个感觉类别,这十个感觉类别是“自然”、“魅力”、“接近”、“回避”、“愤怒”、“悲伤”、“放松”、“集中”、“突现(灵感)”、以及“美丽”。多个成对的上述第一窗函数和第二窗函数被存储在每个感觉类别中。在图4的实例中,五对窗函数被包含在每个感觉类别中。注意,五对以上的窗函数可以被存储在每个感觉类别中,或者成对的窗函数可以被存储,如此,因为感觉类别的加权,被分类到一个感觉类别中的窗函数的成对的数目大于被分类到另一个感觉类别中的窗函数的成对的数目。例如,为了增加感觉类别“自然”的权重,可以通过增加被分类到“自然”中的窗函数的成对的数目来进行次元扩充。
例如,响应于用户的选择操作,窗函数选择器112至少选择包含在要被评价的感觉类别中的一对窗函数。例如,当用户进行选择属于感觉类别的窗函数的操作时,用户选择的窗函数(第一窗函数)和通过在时间轴的方向上反转该窗函数获得的窗函数(第二窗函数)被选择,并且因此,一对窗函数被选择。在这个处理中,对于要被处理的对象语音,当包含多个要素的感觉指标被计算作为稍后将被描述的感觉指标时,从每个感觉类别中选择出一对窗函数。替代地,如在图4中所示的实例中,当多对(图4的实例中的五对)窗函数被存储在一个感觉类别中时,可以选择属于要被评价的感觉类别的所有成对的窗函数,或者可以选择一些成对的窗函数。当从一个感觉类别中被选择出的窗函数的成对的数目较大时,感觉类别的评价的稳健性被增加。窗函数选择器112选择出的窗函数被传递给分析器113。
分析器113使用窗函数选择器112选择出的窗函数,对从预处理单元111接收到的对象语音的语音数据,进行伪频率分析。小波分析(Waveletanalysis)作为伪频率分析的一个实例是广为人知的。在小波分析中,信号乘以作为基底函数的小波函数,并且与小波函数的比例因子相关联的伪频率被分析。例如,根据本实施例的语音处理装置100能够使用这个小波分析作为分析器113所进行的伪频率分析。在这种情况下,窗函数选择器112选择出的窗函数是小波函数。注意,分析器113所使用的分析法不局限于小波分析,而可以是能够使用窗函数分析伪频率的任何方法。
对于要被评价的感觉类别,上述窗函数选择器112选择至少一对窗函数(第一窗函数和第二窗函数)。因而,分析器113对于对象语音的语音数据,至少使用第一窗函数进行伪频率分析以及使用第二窗函数进行伪频率分析。当多个感觉类别要被评价时,使用选择出的至少一对窗函数,对每个感觉类别,进行伪频率分析。分析器113所进行的伪频率分析的分析结果被传递给特征量计算器114。
特征量计算器114从接收自分析器113的伪频率分析的分析结果,计算对象语音的特征量。如上所述,对于如上所述的要被评价的每个感觉类别,分析器113使用至少一对窗函数(第一窗函数和第二窗函数)来进行伪频率分析。特征量计算器114根据使用一对窗函数中的一个窗函数(第一窗函数)的伪频率分析的分析结果和使用另一个窗函数(第二窗函数)的伪频率分析的分析结果,来计算对象语音的特征量。当多个感觉类别要被评价时,对于每个感觉类别,计算特征量。此外,当对于一个感觉类别,选择多对窗函数,并且使用各个窗函数进行伪频率分析时,与选择出的成对的窗函数相对应的次元的数目的特征量被计算。
例如,能够沿着时间轴,通过相关系数,获得对象语音的特征量。注意,可以通过使用能够定义具有时间轴的信号的特征量的任何方法,诸如多重相关、或者来自梅尔倒谱系数(Mel-frequencycepstralcoefficient,MFCC)的相关结果,来计算对象语音的特征量。特征量计算器114计算出的对象语音的特征量被传递给评价运算单元120的稍后将被描述的比较器122。
评价运算单元120是用于通过使用经过语音分析器110所进行的处理所计算出的特征量来计算对象语音的感觉指标的块,并且包含如图1中所示的特征量选择器121、比较器122、和感觉指标计算器123。
感觉指标是表现从语音中接收到的人类感觉的指标,并且是从信号的基音(pitch)、频带和韵律中计算出的张量或者矢量。例如,如图5中所示,通过使用与各个感觉类别相对应的十次元矢量,来表现具有如上所述的十个感觉类别作为其要素的感觉指标。
特征量选择器121从存储在存储器130的特征量存储器132中的基准特征量中,选择要与对象语音的特征量相比较的基准特征量。例如,基准特征量是从大量基准语音(基准语音群)中计算出的各个感觉类别的特征量,并且能够通过在上述的语音分析器110中对大量基准语音进行处理来被计算。基准语音是用于产生基准特征量的语音,并且基于稍后将被描述的基准感觉指标被分类到一个以上的感觉类别中。注意,基准语音较佳地是具有男性和女性的标准韵律的语音。另外,基准语音较佳地包含人类发出的具有情绪的自然语音。例如,具有各种情绪的各种自然语音被记录,而且通过在上述的语音分析器110中,对自然语音的语音数据进行处理所计算出基准特征量,根据计算出的基准感觉指标被分类到感觉类别中,并且被存储在特征量存储器132中。
特征量存储器132已经在其中存储了与用于计算基准特征量的基准语音和基准感觉指标相关联的上述基准特征量。替代地,基准语音可以被输入到上述的语音分析器110并且还可以被存储在特征量存储器132中,而且在语音分析器110计算出基准特征量之后,基准语音可以与基准特征量相关联。
特征量选择器121从特征量存储器132中选择与要被评价的感觉类别相关联的基准特征量。具体地,特征量选择器121从特征量存储器132中选择属于相同感觉类别的基准特征量,作为用于伪频率分析的窗函数,伪频率分析用于计算对象语音的特征量。当多个感觉类别要被评价并且通过特征量计算器114对于每个感觉类别计算对象语音的特征量时,特征量选择器121对于每个感觉类别,选择基准特征量。特征量选择器121选择出的基准特征量被传递给比较器122。
比较器122将从语音分析器110的特征量计算器114接收到的对象语音的特征量与从特征量选择器121接收到的基准特征量进行比较,并且产生比较结果。例如,对于从分析器113进行的小波分析的结果中计算出的特征量的比较,比较器122的处理能够作为例如如图6中所示的图像的匹配被进行。
图6中所示的实例呈现了特征图像Im1与特征图像Im2的比较,特征图像Im1表示对象语音的特征量,特征图像Im2表示感觉类别“自然”中的基准特征量。在图6中所示的特征图像Im1和Im2中,垂直方向表示伪频率的幅度,以及水平方向表示时间。另外,图6中的浓度分布表示信号强度,其中较浓的部分指示较高的信号强度。如图6中所示的,表示对象语音的特征量的特征图像Im1能够沿着时间轴与表示感觉类别“自然”中的基准特征量相比较,以判定对象语音的哪个部分是不自然的。注意,这个方法是能够容易地进行相关分析的方法,但是比较器122所使用的方法不局限于这个实例,并且可以使用能够进行两个统计量的比较的任何方法。由比较器122产生的特征量的比较的结果被传递给感觉指标计算器123。
感觉指标计算器123根据从比较器122接收到的比较结果,计算对象语音的感觉指标。基准特征量根据如上所述的基准语音的基准感觉指标,被分类到感觉类别中,并且表示感觉类别的特征。因而,在某个感觉类别中的对象语音的特征量与该感觉类别中的特征量的比较的比较结果指示对象语音给予与该感觉类别相对应的感觉的程度。感觉指标计算器123使用对于要被评价用于对象语音的每个感觉类别所产生的来自比较器122的比较结果,计算具有要被评价的感觉类别作为要素的感觉指标。
由感觉指标计算器123计算出的对象语音的感觉指标被发送到显示器140。显示器140能够通过使用诸如图表和图形的图示的图像表示,以对于用户清楚的方式,显示对象语音的感觉指标。显示器140还能够根据对象语音的感觉指标来处理图像,并且显示经处理的图像。显示器140可以与对象语音的感觉指标一起,显示对象语音的波形、用于计算感觉指标的基准特征量所基于的基准语音的波形、基准感觉指标等等。
这里,将描述用于计算从基准语音中计算出的基准感觉指标的方法的实例。基准感觉指标是表现从基准语音中接收到的人类感觉的指标,并且被预先计算。用于计算基准感觉指标的方法可以使用功能性磁共振成像(fMRI)、脑磁图(MEG)、光学绘图(近红外光谱:NIRS、功能性NIRS(fNIRS))、脑电图(EEG)、皮肤电活动(EDA)、语义分化(SD)、多维标度(MDS)等等,并且较佳地,使用能够通过基于神经科学、心理学和生理学的技术来定量地并且定性地评价包含潜力级别的那些人类感觉的方法中的一个或者组合。
在本实施例中,基于主观评价,通过使用SD方法和fMRI,分析从基准语音中接收到的人类的大脑活动,并且从与典型的大脑活动的相关性中,计算基准感觉指标,典型的大脑活动与“自然”、“魅力”、“接近”、“回避”、“愤怒”、“悲伤”、“放松”、“集中”、“突现(灵感)”和“美丽”有关。然后,从基准语音中计算出的上述基准特征量根据计算出的基准感觉指标,被分类到各个感觉类别中。可以通过使用诸如深度学习(DeepLearning)的技术经由机器学习来进行到感觉类别中的分类,或者可以通过用户来进行到感觉类别中的分类。
作为以这种方式根据从基准语音中计算出的基准感觉指标来分类基准特征量的结果,基准特征量能够被定量地分类到诸如“自然”、“魅力”、“接近”、“回避”、“愤怒”、“悲伤”、“放松”、“集中”、“突现(灵感)”和“美丽”的与人类从语音中接收到的感觉相对应的感觉类别中。替代地,用户更喜欢的语音信号可以被用作基准语音。在这种情况下,因为更喜欢的语音信号能够被分类到感觉类别中,所以作为将对象语音与更喜欢的语音进行比较的这种处理能够被进行。
在本实施例中,例如,在对语音数据进行频率分析和伪频率分析之后,进行使用MFCC等等的频带分析、基音分析、韵律分析等等。然后,经过从分析结果中产生基准矢量的处理来获得特征矢量。结果,例如,通过使用十次元矢量来表达的感觉指标被计算。
注意,这里使用的频率分析例如可以是使用傅里叶变换的级数展开的指标,并且同时,能够使用通过分形分析获得的指标作为频率分析。具体地,可以从不同的数学方法或者不同的分析结果中提取出用于矢量产生的特征量计算的基准,并且可以通过适合于评价的分析处理来从特征量空间中选择出矢量。虽然在本实施例中使用了十次元矢量,但是在分析器所进行的处理中,可以选择具有评价所必要的分析结果作为要素的任何矢量。
此外,对于各个感觉类别的基准特征量,可以独立地存储从包含在各个感觉类别中的各个基准语音中计算出的基准特征量,或者可以通过计算多个基准特征量的加权总和来产生一个新的基准特征量。在这种情况下,使用SIFT进行次元压缩是有效的。
替代地,在提取部分特征量之后,部分特征量是否是通用的分析能够被应用于基准语音,并且当具有相似的部分量的语音存在时,通过PCA、ICA等等被重新提取出的伪基准语音能够被产生。类似地,新的基准语音能够通过使用学习用户的更喜欢的语音信号的结果来被产生。
接下来,将参考图7描述根据第一实施例的语音处理装置100。图7是图解根据第一实施例的语音处理装置100的操作的概要的流程图。
当对象语音的语音数据被输入到语音处理装置100时(步骤S101),预处理单元111首先对输入的语音数据进行诸如用于噪声消除的滤波的预处理以及采样率的变换(步骤S102)。
随后,窗函数选择器112例如根据用户的选择操作来选择窗函数(步骤S103)。在这个处理中,对于至少一个感觉类别,选择一对窗函数(第一窗函数和第二窗函数)。
随后,分析器113使用步骤S103中选择出的窗函数来进行伪频率分析(步骤S104)。步骤S104中的伪频率分析以与步骤S103中选择出的窗函数的数目相对应的次数被重复。具体地,在伪频率分析在步骤S104中被终止之后,判定是否存在未使用过的窗函数(步骤S105),并且如果存在未使用过的窗函数(步骤S105:是),则处理返回到步骤S104,在步骤S104中,使用该窗函数进行伪频率分析。
然后,在使用所有的窗函数进行伪频率分析之后(步骤S105:否),特征量计算器114对于伪频率分析中所使用的窗函数的每个感觉类别,从使用第一窗函数的伪频率分析的结果和使用第二窗函数的伪频率分析的结果之间的相关性中,计算对象语音的特征量(步骤S106)。
随后,特征量选择器121选择基准特征量,该基准特征量被分类到伪频率分析中所使用的窗函数的感觉类别中(步骤S107)。然后,比较器122进行将在步骤S106中计算出的对象语音的特征量与在步骤S107中选择出的基准特征量进行比较的处理(步骤S108),并且对于每个感觉类别,产生比较结果。然后,感觉指标计算器123根据比较结果,计算对象语音的感觉指标(步骤S109)。如此,计算出的对象语音的感觉指标例如使用图示的图像表示,被显示在显示器140上。
如上所述,利用具体的实例,根据本实施例的语音处理装置100计算从各自对于对象语音使用不同窗函数的多个伪频率分析的分析结果的相关性中获得的特征量,即,特别地,从使用第一窗函数的伪频率分析的结果和使用第二窗函数的伪频率分析的分析结果之间的相关性中的对象语音的特征量,通过在时间轴的方向上反转第一窗函数来获得第二窗函数。然后,对象语音的特征量与基准特征量相比较,该基准特征量是基准感觉指标被预先已知的基准语音的特征量,并且对象语音的感觉指标根据比较结果被计算。按照根据本实施例的语音处理装置100,作为连续声音的对象语音因此能够通过使用不能根据相关技术被获取到的特征量来被评价,并且可以适当地评价对象语音对人类感觉具有什么影响。
第二实施例
接下来,应用根据第一实施例的语音处理装置100的实例将被描述作为第二实施例,其中,产生具有感觉指标接近于目标基准语音的基准感觉指标的合成语音。
图8是图解根据第二实施例的语音处理装置200的实例配置的框图。如图8中所示,语音处理装置200包含语音分析器210、评价运算单元220、存储器230和语音合成器250。因为语音分析器210、评价运算单元220和存储器230类似于上述第一实施例的语音分析器110、评价运算单元120和存储器130,所以将不重复这些部件的具体描述。
在根据本实施例的语音处理装置200中,由语音合成器250产生的合成语音作为对象语音被输入到语音分析器210。语音分析器210对作为对象语音输入的合成语音进行与第一实施例中的语音分析器110的处理相同的处理,以计算合成语音的特征量。评价运算单元220通过使用语音分析器210在处理中计算出的合成语音的特征量,来进行与第一实施例中的评价运算单元120的处理相同的处理,以计算合成语音的感觉指标。评价运算单元220计算出的合成语音的感觉指标被传递给语音合成器250。
语音合成器250包含参数设定单元251和合成器252。参数设定单元251设定与语音合成有关的各种参数,诸如用于产生声源波形的参数或者用于产生韵律的参数。合成器252根据由参数设定单元251设定的参数,从文本产生合成语音。
注意,在本实施例的语音处理装置200中,语音合成器250从评价运算单元220接收由合成器252产生的合成语音的感觉指标,并且改变由参数设定单元251设定的参数,以致合成语音的感觉指标变得更接近目标基准语音的基准感觉指标。具体地,将由评价运算单元220计算出的合成语音的感觉指标与预先被指定作为目标的基准语音的基准感觉指标相比较。参数设定单元251根据朝向感觉指标之间的差异变得更小的方向的参数梯度,设定新的参数。然后,合成器252根据参数设定单元251重新设定的参数,产生合成语音。合成语音作为对象语音被输入到语音分析器210,并且合成语音的感觉指标被重新计算。上述处理被重复,直到合成语音的感觉指标的相似性以及目标基准语音的基准感觉指标变得等于或者高于阈值,以致接近于目标基准语音的基准感觉指标的合成语音能够被产生。在这个处理中,类似于第一实施例,评价运算单元220计算出的合成语音的感觉指标可以被显示在未被图解的显示器上。
如上所述,根据本实施例的语音处理装置200,能够在适当地评价由语音合成器250所产生的合成语音对人类感觉所具有的影响的同时,产生接近于目标基准语音的基准感觉指标的合成语音。
第三实施例
接下来,应用根据第一实施例的语音处理装置100的实例将被描述作为第三实施例,其中方在对话处理中的感受被推测。
图9是图解根据第三实施例的语音处理装置300的实例配置的框图。如图9中所示的,语音处理装置300包含语音分析器310、评价运算单元320、存储器330、显示器340、状态转移单元350和语音合成器360。因为语音分析器310、评价运算单元320和存储器330类似于上述第一实施例的语音分析器110、评价运算单元120和存储器130,所以将不重复这些部件的具体描述。
根据本实施例的语音处理装置300例如通过经由电话线获取对话对方发出的语音并且以合成语音响应,来进行与对话对方的对话处理。
由对话对方所发出的语音被输入到状态转移单元350。状态转移单元350分析由对话对方发出的语音,以识别发声的内容,并且根据预先学习到的状态转移,指示语音合成器360响应由对话对方发出的语音。语音合成器360根据来自状态转移单元350的指令,产生具有合成语音的响应。由语音合成器360产生的具有合成语音的响应借助于显示器340被传送到对话对方。
例如,在显示器340上显示人的半身或者全身的图像的同时,通过根据需要将语音合成器360产生的具有合成语音的响应传达给对话对方,来进行根据状态转移的与对话对方的对话响应。注意,显示在显示器340上的人的图像可以是摄影图像或者可以是计算机图形(CG)。
例如,在呼叫中心的对话响应的情况下,对话对方往往期望该对话具有某个响应。在这种情况下,由语音处理装置300做出的具有合成语音的响应可能不足以满足对于对话对方的精调响应。因而,在根据本实施例的语音处理装置300中,在对话响应被引导到对话对方的同时,对话对方发出的语音作为对象语音被输入到语音分析器310,并且对话对方发出的语音的感觉指标被评价运算单元320所计算。如果作为计算出的感觉指标的评价结果,指示偏离诸如愤怒、回避等等的中性对话的信号开始被观察到,则例如,第一信号被显示在显示器340上,并且突出显示对话的实际条件。此后,如果指示对话对方发出的语音的感觉指标进一步偏离中性对话的强信号被观察到,则该强信号通过显示器340等等上的警告显示被传达给操作者。操作者将通过系统给予警告的对话响应,切换成操作者他自己/她自己在良好的时刻做出的响应。
如上所述,根据本实施例的语音处理装置300,因为通过使用对话对方发出的语音的感觉指标来确定与中性对话的偏差,并且在必要时给予警告,所以可以取决于对话的条件,适当地在对具有合成语音的对话的响应和来自操作者他自己/她自己的响应之间切换,并且可以实现对具有合成语音的对话的有效响应和对对话对方的精调响应两者。
补充说明
例如,根据上述实施例的语音处理装置可以通过服务器-客户端系统被构成。在这种情况下,服务器装置从客户端装置接收对象语音和基准语音,计算对象语音的感觉指标,以及将计算出的感觉指标返回到客户端装置。客户端装置能够基于由服务器装置计算出的对象语音的感觉指标,进行诸如信息显示的各种处理。在这种情况下,服务器装置可以通过使用全球定位系统(GPS)等等来收集使用客户端装置的区域信息。作为使用客户端装置被使用的区域信息的结果,可以通过使用类似的基准语音,对含有该区域所特有的表达方式和方言的对象语音进行适当评价。
根据上述每个实施例的语音处理装置能够通过用作基本硬件的通用计算机系统被构成。具体地,上述每个实施例的语音处理装置的功能性部件能够通过安装在通用计算机系统上的处理器,在使用存储器的同时执行预定程序,来被实现。语音处理装置可以通过预先在计算机系统中安装程序来被实现,或者可以通过在诸如CD-ROM的存储介质中存储程序,或者借助于网络分布程序并且在必要时在计算机系统中安装程序来被实现。替代地,可以通过执行服务器计算机系统上的程序并且通过客户端计算机系统借助于网络接收结果,来实现语音处理装置。
此外,视情况而定,能够使用包含在计算机系统中的存储器或者外部存储器、硬盘或者诸如CD-R、CD-RW、DVD-RAM、DVD-R的记录介质,来存储根据上述实施例的语音处理装置要使用的信息。例如,视情况而定,根据上述实施例的语音处理装置所使用的窗函数、基准特征量、基准语音、基准感觉指标等等能够使用这些存储媒体被存储。
要被根据上述实施例的语音处理装置所执行的程序具有模块化结构,该模块化结构包含语音处理装置中所包含的各个处理单元(功能性部件)。例如,在实际的硬件配置中,处理器从存储媒体读取程序并且执行程序,借此,各个处理单元被加载在主存储器上并且在其上被产生。
这里,将参考图10描述语音处理装置的硬件配置的具体实例。图10是图解根据上述第三实施例的语音处理装置300的实例硬件配置的框图。具有图10中所示的硬件配置的语音处理装置300根据存储在ROM12中的系统启动信息被启动。到语音处理装置300的主要输入是视频和语音信号,视频和语音信号通过输入装置19被输入到装置中。对于补充输入或者对于大范围信息的处理显示和同时输入,提供了构成显示器340的触摸面板18。用于校正屏幕中的选择错误以及用户的语音输入的键盘17可以被提供用于输入。
到语音处理装置300的各种信号输入经过I/O15,通过由CPU10和RAM11实现的语音分析器310和评价运算单元320被处理,以及通过由CPU10和RAM11实现的状态转移单元350和语音合成器360被处理。存储器330由存储介质14构成。在本实例的硬件配置中,通过使用GPU13来执行语音分析器310的部分处理和评价运算单元320的部分处理,响应时间能够被缩短,并且能量能够被节省。网络终端16被提供用于从装置外部的输入以及到装置外部的输出,并且借助于网络、更新系统等等,被用于在进行各种处理的分布式环境或者云中的处理。
虽然已经描述了某些实施例,但是这些实施例仅仅通过实例的方式被呈现,而不意欲限制本发明的范围。实际上,此处描述的新颖的实施例可以以各种其他的形式被具体化;此外,在不背离本发明的精神的情况下,可以以此处描述的实施例的形式进行各种省略、替换和变化。附有的权利要求书和它们的同等物意欲覆盖将属于本发明的范围和精神的这种形式或者修改。
Claims (9)
1.一种语音处理装置,其特征在于,包括:
分析器,所述分析器进行多个伪频率分析,每个所述伪频率分析对要被处理的对象语音使用不同的窗函数;
特征量计算器,所述特征量计算器基于所述多个伪频率分析的分析结果,来计算所述对象语音的特征量;
比较器,所述比较器将所述对象语音的所述特征量与从基准语音计算出的基准特征量进行比较,并且产生比较结果;和
感觉指标计算器,所述感觉指标计算器基于所述比较结果,来计算感觉指标,所述感觉指标表示从所述对象语音接收到的感觉。
2.如权利要求1所述的装置,其特征在于,所述分析器至少进行使用第一窗函数的伪频率分析和使用第二窗函数的伪频率分析,所述第一窗函数是沿着时间轴的不对称的窗函数,所述第二窗函数是通过在所述时间轴的方向上反转所述第一窗函数而获得的窗函数。
3.如权利要求2所述的装置,其特征在于,进一步包括存储器,所述存储器对于每个预定感觉类别,在其中存储由所述第一窗函数和所述第二窗函数组成的一对窗函数、以及基准特征量,其中
所述分析器进行多个伪频率分析,每个所述伪频率分析取决于要被评价的感觉类别,使用从所述存储器中选择出的一对窗函数,
所述比较器将所述对象语音的所述特征量与所述基准特征量进行比较,并且产生比较结果,所述基准特征量与要被评价的所述感觉类别相关联,和
所述感觉指标计算器基于所述比较结果,计算所述感觉指标,所述感觉指标含有要被评价的感觉类别作为其要素。
4.如权利要求1所述的装置,其特征在于,所述基准特征量是由所述特征量计算器基于所述分析器进行多个伪频率分析的结果所计算出的特征量,每个所述伪频率分析对所述基准语音使用不同的窗函数。
5.如权利要求1所述的装置,其特征在于,所述基准语音包含由人类发出的具有情绪的自然语音。
6.如权利要求1所述的装置,其特征在于,进一步包括语音合成器,所述语音合成器根据预定语音合成参数,产生合成语音,其中
所述对象语音是所述语音合成器产生的合成语音,和
所述语音合成器改变所述语音合成参数,以致由所述感觉指标计算器计算出的所述合成语音的所述感觉指标变得更接近于目标感觉指标。
7.如权利要求1所述的装置,其特征在于,进一步包括显示器,所述显示器基于由所述感觉指标计算器计算出的所述感觉指标,来显示信息。
8.如权利要求1所述的装置,其特征在于,所述分析器进行作为所述伪频率分析的小波分析。
9.一种在语音处理装置中进行的语音处理方法,其特征在于,所述方法包括:
进行多个伪频率分析,每个所述伪频率分析对要被处理的对象语音使用不同的窗函数;
基于所述多个伪频率分析的分析结果,计算所述对象语音的特征量;
将所述对象语音的所述特征量与从基准语音产生的基准特征量进行比较,并且产生比较结果;和
基于所述比较结果,计算感觉指标,所述感觉指标表示从所述对象语音接收到的感觉。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014190196A JP6251145B2 (ja) | 2014-09-18 | 2014-09-18 | 音声処理装置、音声処理方法およびプログラム |
JP2014-190196 | 2014-09-18 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105448305A true CN105448305A (zh) | 2016-03-30 |
Family
ID=55526330
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510566659.8A Withdrawn CN105448305A (zh) | 2014-09-18 | 2015-09-08 | 语音处理装置和语音处理方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20160086622A1 (zh) |
JP (1) | JP6251145B2 (zh) |
CN (1) | CN105448305A (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102137523B1 (ko) * | 2017-08-09 | 2020-07-24 | 한국과학기술원 | 텍스트-음성 변환 방법 및 시스템 |
US11723579B2 (en) | 2017-09-19 | 2023-08-15 | Neuroenhancement Lab, LLC | Method and apparatus for neuroenhancement |
JP2018025827A (ja) * | 2017-11-15 | 2018-02-15 | 株式会社東芝 | 対話システム |
US11717686B2 (en) | 2017-12-04 | 2023-08-08 | Neuroenhancement Lab, LLC | Method and apparatus for neuroenhancement to facilitate learning and performance |
WO2019133997A1 (en) | 2017-12-31 | 2019-07-04 | Neuroenhancement Lab, LLC | System and method for neuroenhancement to enhance emotional response |
US11364361B2 (en) | 2018-04-20 | 2022-06-21 | Neuroenhancement Lab, LLC | System and method for inducing sleep by transplanting mental states |
EP3849410A4 (en) | 2018-09-14 | 2022-11-02 | Neuroenhancement Lab, LLC | SLEEP ENHANCEMENT SYSTEM AND METHOD |
JP6580281B1 (ja) * | 2019-02-20 | 2019-09-25 | ソフトバンク株式会社 | 翻訳装置、翻訳方法、および翻訳プログラム |
KR102057926B1 (ko) * | 2019-03-19 | 2019-12-20 | 휴멜로 주식회사 | 음성 합성 장치 및 그 방법 |
US11786694B2 (en) | 2019-05-24 | 2023-10-17 | NeuroLight, Inc. | Device, method, and app for facilitating sleep |
KR102630490B1 (ko) * | 2019-09-06 | 2024-01-31 | 엘지전자 주식회사 | 감정 정보 보정을 이용한 합성 음성 생성 방법 및 이를 위한 장치 |
CN111048116B (zh) * | 2019-12-23 | 2022-08-19 | 度小满科技(北京)有限公司 | 一种数据处理方法、装置及电子设备 |
JP7380188B2 (ja) | 2019-12-24 | 2023-11-15 | 富士通株式会社 | 更新プログラム、更新方法および情報処理装置 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3266819B2 (ja) * | 1996-07-30 | 2002-03-18 | 株式会社エイ・ティ・アール人間情報通信研究所 | 周期信号変換方法、音変換方法および信号分析方法 |
EP1078354B1 (de) * | 1998-05-11 | 2002-03-20 | Siemens Aktiengesellschaft | Verfahren und anordnung zur bestimmung spektraler sprachcharakteristika in einer gesprochenen äusserung |
CN1478269B (zh) * | 2001-08-06 | 2012-06-13 | 株式会社索引网 | 根据吠声的特征分析判断狗的情绪的设备及其方法 |
CN102982810B (zh) * | 2008-03-05 | 2016-01-13 | 尼尔森(美国)有限公司 | 生成签名的方法和装置 |
JP2012198277A (ja) * | 2011-03-18 | 2012-10-18 | Toshiba Corp | 文書読み上げ支援装置、文書読み上げ支援方法および文書読み上げ支援プログラム |
US20130297297A1 (en) * | 2012-05-07 | 2013-11-07 | Erhan Guven | System and method for classification of emotion in human speech |
US9020822B2 (en) * | 2012-10-19 | 2015-04-28 | Sony Computer Entertainment Inc. | Emotion recognition using auditory attention cues extracted from users voice |
CN103236258B (zh) * | 2013-05-06 | 2015-09-16 | 东南大学 | 基于巴氏距离最优小波包分解的语音情感特征提取方法 |
IL229370A (en) * | 2013-11-11 | 2015-01-29 | Mera Software Services Inc | Interface system and method for providing user interaction with network entities |
-
2014
- 2014-09-18 JP JP2014190196A patent/JP6251145B2/ja active Active
-
2015
- 2015-09-04 US US14/845,310 patent/US20160086622A1/en not_active Abandoned
- 2015-09-08 CN CN201510566659.8A patent/CN105448305A/zh not_active Withdrawn
Also Published As
Publication number | Publication date |
---|---|
JP2016061968A (ja) | 2016-04-25 |
US20160086622A1 (en) | 2016-03-24 |
JP6251145B2 (ja) | 2017-12-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105448305A (zh) | 语音处理装置和语音处理方法 | |
Airas | TKK Aparat: An environment for voice inverse filtering and parameterization | |
US7729914B2 (en) | Method for detecting emotions involving subspace specialists | |
JP6755304B2 (ja) | 情報処理装置 | |
Mencattini et al. | Speech emotion recognition using amplitude modulation parameters and a combined feature selection procedure | |
Tsanas et al. | Robust fundamental frequency estimation in sustained vowels: Detailed algorithmic comparisons and information fusion with adaptive Kalman filtering | |
JP4876207B2 (ja) | 認知機能障害危険度算出装置、認知機能障害危険度算出システム、及びプログラム | |
Callan et al. | Self-organizing map for the classification of normal and disordered female voices | |
Gauthier et al. | Sound quality prediction based on systematic metric selection and shrinkage: Comparison of stepwise, lasso, and elastic-net algorithms and clustering preprocessing | |
JP4281790B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
Moro-Velázquez et al. | Voice pathology detection using modulation spectrum-optimized metrics | |
Kothinti et al. | Auditory salience using natural scenes: An online study | |
Cartwright et al. | Crowdsourced pairwise-comparison for source separation evaluation | |
US5799133A (en) | Training process | |
Francombe et al. | A model of distraction in an audio-on-audio interference situation with music program material | |
Harrison | Variability of formant measurements | |
Sundar et al. | A mixture model approach for formant tracking and the robustness of student's-t distribution | |
Bone et al. | Acoustic-Prosodic and Physiological Response to Stressful Interactions in Children with Autism Spectrum Disorder. | |
JP5961048B2 (ja) | 聴覚印象量推定装置及びそのプログラム | |
JP2018025827A (ja) | 対話システム | |
Jiralerspong et al. | Generating diverse vocal bursts with StyleGAN2 and mel-spectrograms | |
Jaiswal et al. | A generative adversarial network based ensemble technique for automatic evaluation of machine synthesized speech | |
CN114302301A (zh) | 频响校正方法及相关产品 | |
Rossetti et al. | Musical Analysis of Sound Feature Emergences Using Acoustic and Psychoacoustic Descriptors | |
Rodriguez et al. | Prediction of inter-personal trust and team familiarity from speech: A double transfer learning approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C04 | Withdrawal of patent application after publication (patent law 2001) | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20160330 |