JP2016061968A - 音声処理装置、音声処理方法およびプログラム - Google Patents
音声処理装置、音声処理方法およびプログラム Download PDFInfo
- Publication number
- JP2016061968A JP2016061968A JP2014190196A JP2014190196A JP2016061968A JP 2016061968 A JP2016061968 A JP 2016061968A JP 2014190196 A JP2014190196 A JP 2014190196A JP 2014190196 A JP2014190196 A JP 2014190196A JP 2016061968 A JP2016061968 A JP 2016061968A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- feature amount
- unit
- analysis
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims abstract description 72
- 238000003672 processing method Methods 0.000 title claims abstract description 5
- 230000006870 function Effects 0.000 claims abstract description 127
- 238000004458 analytical method Methods 0.000 claims abstract description 116
- 238000004364 calculation method Methods 0.000 claims abstract description 54
- 230000035807 sensation Effects 0.000 claims abstract description 22
- 230000001953 sensory effect Effects 0.000 claims description 103
- 230000015572 biosynthetic process Effects 0.000 claims description 16
- 238000003786 synthesis reaction Methods 0.000 claims description 16
- 238000013459 approach Methods 0.000 claims description 5
- 230000008451 emotion Effects 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 abstract description 32
- 230000000694 effects Effects 0.000 abstract description 2
- 238000000034 method Methods 0.000 description 33
- 230000004044 response Effects 0.000 description 15
- 230000008569 process Effects 0.000 description 13
- 238000007781 pre-processing Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 239000013598 vector Substances 0.000 description 9
- 238000005070 sampling Methods 0.000 description 8
- 230000007704 transition Effects 0.000 description 7
- 230000005236 sound signal Effects 0.000 description 4
- 230000003796 beauty Effects 0.000 description 3
- 238000002599 functional magnetic resonance imaging Methods 0.000 description 3
- 230000007935 neutral effect Effects 0.000 description 3
- 230000007177 brain activity Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000001320 near-infrared absorption spectroscopy Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012067 mathematical method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000035479 physiological effects, processes and functions Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012876 topography Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Data Mining & Analysis (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
【解決手段】実施形態の音声処理装置は、解析部と、特徴量算出部と、比較部と、感覚指標算出部と、を備える。解析部は、処理対象となる対象音声に対し、複数の異なる窓関数を各々用いた複数の疑似周波数解析を行う。特徴量算出部は、前記複数の疑似周波数解析の解析結果に基づき、前記対象音声の特徴量を算出する。評価演算部は、前記対象音声の特徴量を、基準音声から算出された基準特徴量と比較して比較結果を生成する。感覚指標算出部は、前記比較結果に基づき、前記対象音声から受ける感覚を表す感覚指標を算出する。
【選択図】図1
Description
図1は、第1実施形態の音声処理装置100の構成例を示すブロック図である。この音声処理装置100は、図1に示すように、音声解析部110と、評価演算部120と、記憶部130と、表示部140とを備える。記憶部130は、後述の窓関数を格納する窓関数格納部131および後述の基準特徴量を格納する特徴量格納部132を含む。表示部140は、本実施形態の音声処理装置100におけるユーザインターフェースとしての機能を持ち、処理の結果を表す情報や処理中の情報、ユーザに対するメッセージ、ユーザの操作を受け付ける情報などの各種情報を表示したり、所定の動作を指定するユーザ操作を受け付けたりする。
次に、第1実施形態の音声処理装置100を応用して、目標とする基準音声の基準感覚指標に近い感覚指標を持つ合成音声を生成する例を、第2実施形態として説明する。
次に、第1実施形態の音声処理装置100を応用して、対話処理における対話相手の感情を推察する例を、第3実施形態として説明する。
なお、上述した各実施形態の音声処理装置は、例えば、サーバ・クライアント型システムとして実現するようにしてもよい。この場合、サーバ装置は、クライアント装置から対象音声や基準音声を受け取って、対象音声の感覚指標を算出してクライアント装置に返す。クライアント装置は、サーバ装置で算出された対象音声の感覚指標に基づく情報表示などの各種処理を行うことができる。また、この場合、サーバ装置は、GPS(Global Positioning System)などを用いてクライアント装置が使用されている地域情報を収集してもよい。クライアント装置が使用されている地域情報を用いることで、地域特有の言い回しや方言などを含む対象音声に対し、同様の基準音声を用いて適切な評価を行うことが可能となる。
110 音声解析部
113 解析部
114 特徴量算出部
120 評価演算部
122 比較部
123 感覚指標算出部
130 記憶部
131 窓関数格納部
132 特徴量格納部
140 表示部
200 音声処理装置
210 音声解析部
220 評価演算部
230 記憶部
250 音声合成部
300 音声処理装置
310 音声解析部
320 評価演算部
330 記憶部
340 表示部
Claims (10)
- 処理対象となる対象音声に対し、複数の異なる窓関数を各々用いた複数の疑似周波数解析を行う解析部と、
前記複数の疑似周波数解析の解析結果に基づき、前記対象音声の特徴量を算出する特徴量算出部と、
前記対象音声の特徴量を、基準音声から算出された基準特徴量と比較して比較結果を生成する比較部と、
前記比較結果に基づき、前記対象音声から受ける感覚を表す感覚指標を算出する感覚指標算出部と、を備える音声処理装置。 - 前記解析部は、少なくとも、時間軸上での非対称窓関数である第1窓関数を用いた疑似周波数解析と、前記第1窓関数を時間軸方向に反転した窓関数である第2窓関数を用いた疑似周波数解析とを行う、請求項1に記載の音声処理装置。
- 予め定めた感覚カテゴリごとに、前記第1窓関数および前記第2窓関数の一対の窓関数と前記基準特徴量とを格納する格納部をさらに備え、
前記解析部は、評価すべき感覚カテゴリに応じて前記格納部から選択された一対の窓関数を各々用いた複数の疑似周波数解析を行い、
前記比較部は、前記対象音声の特徴量を、評価すべき感覚カテゴリに対応する前記基準特徴量と比較して比較結果を生成し、
前記感覚指標算出部は、前記比較結果に基づき、評価すべき感覚カテゴリを要素に含む前記感覚指標を算出する、請求項2に記載の音声処理装置。 - 前記基準特徴量は、前記基準音声に対して前記解析部が複数の異なる窓関数を各々用いて複数の疑似周波数解析を行った結果に基づいて前記特徴量算出部により算出された特徴量である、請求項1に記載の音声処理装置。
- 前記基準音声は、人が感情を伴って発話した自然音声を含む、請求項1に記載の音声処理装置。
- 所定の音声合成パラメータに従って合成音声を生成する音声合成部をさらに備え、
前記対象音声は、前記音声合成部が生成する合成音声であり、
前記音声合成部は、前記感覚指標算出部が算出する前記合成音声の前記感覚指標が、目標とする感覚指標に近づくように、前記音声合成パラメータを変更する、請求項1に記載の音声処理装置。 - 前記感覚指標算出部が算出する前記感覚指標に基づいて、情報の表示を行う表示部をさらに備える、請求項1に記載の音声処理装置。
- 前記解析部は、前記疑似周波数解析としてウェーブレット解析を行う、請求項1に記載の音声処理装置。
- 音声処理装置において実行される音声処理方法であって、
処理対象となる対象音声に対し、複数の異なる窓関数を各々用いた複数の疑似周波数解析を行うステップと、
前記複数の疑似周波数解析の解析結果に基づき、前記対象音声の特徴量を算出するステップと、
前記対象音声の特徴量を、基準音声から生成された基準特徴量と比較して比較結果を生成するステップと、
前記比較結果に基づき、前記対象音声から受ける感覚を表す感覚指標を算出するステップと、を含む音声処理方法。 - コンピュータに、
処理対象となる対象音声に対し、複数の異なる窓関数を各々用いた複数の疑似周波数解析を行う機能と、
前記複数の疑似周波数解析の解析結果に基づき、前記対象音声の特徴量を算出する機能と、
前記対象音声の特徴量を、基準音声から生成された基準特徴量と比較して比較結果を生成する機能と、
前記比較結果に基づき、前記対象音声から受ける感覚を表す感覚指標を算出する機能と、を実現させるためのプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014190196A JP6251145B2 (ja) | 2014-09-18 | 2014-09-18 | 音声処理装置、音声処理方法およびプログラム |
US14/845,310 US20160086622A1 (en) | 2014-09-18 | 2015-09-04 | Speech processing device, speech processing method, and computer program product |
CN201510566659.8A CN105448305A (zh) | 2014-09-18 | 2015-09-08 | 语音处理装置和语音处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014190196A JP6251145B2 (ja) | 2014-09-18 | 2014-09-18 | 音声処理装置、音声処理方法およびプログラム |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017219576A Division JP2018025827A (ja) | 2017-11-15 | 2017-11-15 | 対話システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016061968A true JP2016061968A (ja) | 2016-04-25 |
JP6251145B2 JP6251145B2 (ja) | 2017-12-20 |
Family
ID=55526330
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014190196A Active JP6251145B2 (ja) | 2014-09-18 | 2014-09-18 | 音声処理装置、音声処理方法およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20160086622A1 (ja) |
JP (1) | JP6251145B2 (ja) |
CN (1) | CN105448305A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018025827A (ja) * | 2017-11-15 | 2018-02-15 | 株式会社東芝 | 対話システム |
KR20190016889A (ko) * | 2017-08-09 | 2019-02-19 | 한국과학기술원 | 텍스트-음성 변환 방법 및 시스템 |
JP2020134719A (ja) * | 2019-02-20 | 2020-08-31 | ソフトバンク株式会社 | 翻訳装置、翻訳方法、および翻訳プログラム |
WO2020190050A1 (ko) * | 2019-03-19 | 2020-09-24 | 휴멜로 주식회사 | 음성 합성 장치 및 그 방법 |
KR20210029599A (ko) * | 2019-09-06 | 2021-03-16 | 엘지전자 주식회사 | 감정 정보 보정을 이용한 합성 음성 생성 방법 및 이를 위한 장치 |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019060298A1 (en) | 2017-09-19 | 2019-03-28 | Neuroenhancement Lab, LLC | METHOD AND APPARATUS FOR NEURO-ACTIVATION |
US11717686B2 (en) | 2017-12-04 | 2023-08-08 | Neuroenhancement Lab, LLC | Method and apparatus for neuroenhancement to facilitate learning and performance |
US11478603B2 (en) | 2017-12-31 | 2022-10-25 | Neuroenhancement Lab, LLC | Method and apparatus for neuroenhancement to enhance emotional response |
US11364361B2 (en) | 2018-04-20 | 2022-06-21 | Neuroenhancement Lab, LLC | System and method for inducing sleep by transplanting mental states |
WO2020056418A1 (en) | 2018-09-14 | 2020-03-19 | Neuroenhancement Lab, LLC | System and method of improving sleep |
US11786694B2 (en) | 2019-05-24 | 2023-10-17 | NeuroLight, Inc. | Device, method, and app for facilitating sleep |
CN111048116B (zh) * | 2019-12-23 | 2022-08-19 | 度小满科技(北京)有限公司 | 一种数据处理方法、装置及电子设备 |
JP7380188B2 (ja) | 2019-12-24 | 2023-11-15 | 富士通株式会社 | 更新プログラム、更新方法および情報処理装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002515608A (ja) * | 1998-05-11 | 2002-05-28 | シーメンス アクチエンゲゼルシヤフト | 発声された表出のスペクトル的な音声特徴を求める方法および装置 |
WO2003015076A1 (fr) * | 2001-08-06 | 2003-02-20 | Index Corporation | Dispositif et procede d'evaluation des sentiments d'un chien a partir d'une analyse caracterielle des cris de l'animal |
JP2011521272A (ja) * | 2008-03-05 | 2011-07-21 | ザ ニールセン カンパニー (ユー エス) エルエルシー | 署名を生成する方法及び装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3266819B2 (ja) * | 1996-07-30 | 2002-03-18 | 株式会社エイ・ティ・アール人間情報通信研究所 | 周期信号変換方法、音変換方法および信号分析方法 |
JP2012198277A (ja) * | 2011-03-18 | 2012-10-18 | Toshiba Corp | 文書読み上げ支援装置、文書読み上げ支援方法および文書読み上げ支援プログラム |
US20130297297A1 (en) * | 2012-05-07 | 2013-11-07 | Erhan Guven | System and method for classification of emotion in human speech |
US9020822B2 (en) * | 2012-10-19 | 2015-04-28 | Sony Computer Entertainment Inc. | Emotion recognition using auditory attention cues extracted from users voice |
CN103236258B (zh) * | 2013-05-06 | 2015-09-16 | 东南大学 | 基于巴氏距离最优小波包分解的语音情感特征提取方法 |
IL229370A (en) * | 2013-11-11 | 2015-01-29 | Mera Software Services Inc | Interface system and method for providing user interaction with network entities |
-
2014
- 2014-09-18 JP JP2014190196A patent/JP6251145B2/ja active Active
-
2015
- 2015-09-04 US US14/845,310 patent/US20160086622A1/en not_active Abandoned
- 2015-09-08 CN CN201510566659.8A patent/CN105448305A/zh not_active Withdrawn
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002515608A (ja) * | 1998-05-11 | 2002-05-28 | シーメンス アクチエンゲゼルシヤフト | 発声された表出のスペクトル的な音声特徴を求める方法および装置 |
WO2003015076A1 (fr) * | 2001-08-06 | 2003-02-20 | Index Corporation | Dispositif et procede d'evaluation des sentiments d'un chien a partir d'une analyse caracterielle des cris de l'animal |
JP2011521272A (ja) * | 2008-03-05 | 2011-07-21 | ザ ニールセン カンパニー (ユー エス) エルエルシー | 署名を生成する方法及び装置 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190016889A (ko) * | 2017-08-09 | 2019-02-19 | 한국과학기술원 | 텍스트-음성 변환 방법 및 시스템 |
KR102137523B1 (ko) * | 2017-08-09 | 2020-07-24 | 한국과학기술원 | 텍스트-음성 변환 방법 및 시스템 |
JP2018025827A (ja) * | 2017-11-15 | 2018-02-15 | 株式会社東芝 | 対話システム |
JP2020134719A (ja) * | 2019-02-20 | 2020-08-31 | ソフトバンク株式会社 | 翻訳装置、翻訳方法、および翻訳プログラム |
WO2020190050A1 (ko) * | 2019-03-19 | 2020-09-24 | 휴멜로 주식회사 | 음성 합성 장치 및 그 방법 |
KR20210029599A (ko) * | 2019-09-06 | 2021-03-16 | 엘지전자 주식회사 | 감정 정보 보정을 이용한 합성 음성 생성 방법 및 이를 위한 장치 |
KR102630490B1 (ko) * | 2019-09-06 | 2024-01-31 | 엘지전자 주식회사 | 감정 정보 보정을 이용한 합성 음성 생성 방법 및 이를 위한 장치 |
Also Published As
Publication number | Publication date |
---|---|
CN105448305A (zh) | 2016-03-30 |
US20160086622A1 (en) | 2016-03-24 |
JP6251145B2 (ja) | 2017-12-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6251145B2 (ja) | 音声処理装置、音声処理方法およびプログラム | |
Mencattini et al. | Speech emotion recognition using amplitude modulation parameters and a combined feature selection procedure | |
Nasir et al. | Multimodal and multiresolution depression detection from speech and facial landmark features | |
Welker et al. | Speech enhancement with score-based generative models in the complex STFT domain | |
Ittichaichareon et al. | Speech recognition using MFCC | |
Markaki et al. | Voice pathology detection and discrimination based on modulation spectral features | |
Mariooryad et al. | Compensating for speaker or lexical variabilities in speech for emotion recognition | |
López-de-Ipiña et al. | Feature selection for spontaneous speech analysis to aid in Alzheimer's disease diagnosis: A fractal dimension approach | |
Narendra et al. | Dysarthric speech classification from coded telephone speech using glottal features | |
Dangol et al. | Speech emotion recognition UsingConvolutional neural network and long-short TermMemory | |
Heckmann et al. | A hierarchical framework for spectro-temporal feature extraction | |
Kamińska et al. | Recognition of human emotion from a speech signal based on Plutchik's model | |
Sefara | The effects of normalisation methods on speech emotion recognition | |
Bone et al. | Acoustic-Prosodic and Turn-Taking Features in Interactions with Children with Neurodevelopmental Disorders. | |
JPWO2017146073A1 (ja) | 声質変換装置、声質変換方法およびプログラム | |
Do et al. | Speech source separation using variational autoencoder and bandpass filter | |
Zhang et al. | Multiple vowels repair based on pitch extraction and line spectrum pair feature for voice disorder | |
Bayerl et al. | Detecting vocal fatigue with neural embeddings | |
Ravi et al. | Voice quality and between-frame entropy for sleepiness estimation | |
Deb et al. | Classification of speech under stress using harmonic peak to energy ratio | |
Neumann et al. | Investigations on audiovisual emotion recognition in noisy conditions | |
Mande et al. | EMOTION DETECTION USING AUDIO DATA SAMPLES. | |
Haque et al. | Modification of energy spectra, epoch parameters and prosody for emotion conversion in speech | |
Hussain et al. | A novel speech intelligibility enhancement model based on canonical correlation and deep learning | |
JP2018025827A (ja) | 対話システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160912 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170807 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170815 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170912 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20171024 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20171124 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6251145 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313114 Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |