JP2020126125A - 音声処理プログラム、音声処理方法および音声処理装置 - Google Patents
音声処理プログラム、音声処理方法および音声処理装置 Download PDFInfo
- Publication number
- JP2020126125A JP2020126125A JP2019017950A JP2019017950A JP2020126125A JP 2020126125 A JP2020126125 A JP 2020126125A JP 2019017950 A JP2019017950 A JP 2019017950A JP 2019017950 A JP2019017950 A JP 2019017950A JP 2020126125 A JP2020126125 A JP 2020126125A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- feature amount
- emotion
- speaker
- clustering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims description 6
- 230000008451 emotion Effects 0.000 claims abstract description 180
- 239000013598 vector Substances 0.000 claims abstract description 175
- 238000012545 processing Methods 0.000 claims description 190
- 238000000034 method Methods 0.000 claims description 95
- 238000004364 calculation method Methods 0.000 claims description 78
- 238000001514 detection method Methods 0.000 claims description 31
- 238000001228 spectrum Methods 0.000 claims description 19
- 238000013136 deep learning model Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 27
- 230000005484 gravity Effects 0.000 description 19
- 230000005540 biological transmission Effects 0.000 description 18
- 230000006870 function Effects 0.000 description 13
- 238000012937 correction Methods 0.000 description 12
- 230000005236 sound signal Effects 0.000 description 11
- 230000004044 response Effects 0.000 description 10
- 238000012854 evaluation process Methods 0.000 description 9
- 238000012935 Averaging Methods 0.000 description 8
- 230000002996 emotional effect Effects 0.000 description 5
- 238000000513 principal component analysis Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000007796 conventional method Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000037007 arousal Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Psychiatry (AREA)
- Hospice & Palliative Care (AREA)
- General Health & Medical Sciences (AREA)
- Child & Adolescent Psychology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
N(n)=N(n−1)・・・(5)
複数の話者の音声が含まれる入力音から複数の音声区間を検出し、
前記複数の音声区間から特徴量をそれぞれ算出し、
前記複数の音声区間に対する話者の感情をそれぞれ判定し、
第1の感情と判定された音声区間の特徴量から、前記第1の感情とは異なる第2の感情と判定された音声区間の特徴量までの変化ベクトルを基にして、複数の特徴量をクラスタリングする
処理を実行させることを特徴とする音声処理プログラム。
複数の話者の音声が含まれる入力音から複数の音声区間を検出し、
前記複数の音声区間から特徴量をそれぞれ算出し、
前記複数の音声区間に対する話者の感情をそれぞれ判定し、
第1の感情と判定された音声区間の特徴量から、前記第1の感情とは異なる第2の感情と判定された音声区間の特徴量までの変化ベクトルを基にして、複数の特徴量をクラスタリングする
処理を実行することを特徴とする音声処理方法。
前記複数の音声区間から特徴量をそれぞれ算出する算出部と、
前記複数の音声区間に対する話者の感情をそれぞれ判定する判定部と、
第1の感情と判定された音声区間の特徴量から、前記第1の感情とは異なる第2の感情と判定された音声区間の特徴量までの変化ベクトルを基にして、複数の特徴量をクラスタリングするクラスタリング部と
を有することを特徴とする音声処理装置。
21a マイク
21b スピーカ
25 ネットワーク
26,45 サーバ
100,200,300 音声処理装置
110,210,310 取得部
120,220,320 検出部
130,230,330 算出部
140,240,340 判定部
150,250,350 クラスタリング部
160,260,360 送信部
Claims (14)
- コンピュータに、
複数の話者の音声が含まれる入力音から複数の音声区間を検出し、
前記複数の音声区間から特徴量をそれぞれ算出し、
前記複数の音声区間に対する話者の感情をそれぞれ判定し、
第1の感情と判定された音声区間の特徴量から、前記第1の感情とは異なる第2の感情と判定された音声区間の特徴量までの変化ベクトルを基にして、複数の特徴量をクラスタリングする
処理を実行させることを特徴とする音声処理プログラム。 - 前記クラスタリングする処理は、前記第1の感情と判定された各音声区間の第1特徴量を複数のクラスタに分類し、前記複数のクラスタのうち一つのクラスタと、前記第2の感情と判定された各音声区間の複数の第2特徴量のうち一つの第2特徴量とを結ぶ変化ベクトルを、前記クラスタと前記第2特徴量との組み合わせに基づいて生成し、複数の変化ベクトルの方向の類似性が最大となるクラスタと第2特徴量との組み合わせを特定することを特徴とする請求項1に記載の音声処理プログラム。
- 前記変化ベクトルを基にして、前記第2の感情と判定された各音声区間の特徴量を補正する処理を更に実行し、前記クラスタリングする処理は、前記第1の感情と判定された各音声区間の特徴量、および、補正された各特徴量をクラスタリングすることを特徴とする請求項1または2に記載の音声処理プログラム。
- 前記クラスタリングする処理は、平常感情と判定された各音声区間の複数の特徴量に対してクラスタリングしたクラスタのうち一つのクラスタと、平常感情以外の感情と判定された各音声区間の複数の特徴量のうち一つの特徴量とを結ぶことで、前記変化ベクトルを生成することを特徴とする請求項1、2または3に記載の音声処理プログラム。
- 前記クラスタリングの結果を基にして、特徴量に対応する音声区間と、話者とを対応付ける処理を更に実行することを特徴とする請求項1〜4のいずれか一つに記載の音声処理プログラム。
- 前記クラスタリングする処理は、前記複数の変化ベクトル間のコサイン類似度またはピアソンの相関係数を基にして、前記類似性を評価することを特徴とする請求項2に記載の音声処理プログラム。
- 前記判定する処理は、前記音声区間に含まれる音声の特徴量を基にして、前記話者の感情を判定することを特徴とする請求項1〜6のいずれか一つに記載の音声処理プログラム。
- 前記判定する処理は、話者の顔画像を基にして、前記話者の感情を判定することを特徴とする請求項1〜7のいずれか一つに記載の音声処理プログラム。
- 前記判定する処理は、話者の生体情報を基にして、前記話者の感情を判定することを特徴とする請求項1〜8のいずれか一つに記載の音声処理プログラム。
- 前記算出する処理は、前記音声区間の特徴量として、調波性、周期性または信号強度に関する特徴量を算出することを特徴とする請求項1〜9のいずれか一つに記載の音声処理プログラム。
- 前記算出する処理は、前記音声区間の特徴量として、前記入力音のスペクトルの相関性、フォルマント周波数、前記入力音の自己相関係数、ピッチ周波数、前記入力音のパワー、SNR(Signal-Noise Ratio)、スペクトルパワーのいずれかを抽出することを特徴とする請求項10に記載の音声処理プログラム。
- 前記算出する処理は、前記音声区間の情報と話者とを対応付けた学習データを用いて学習された深層学習モデルを基にして、特徴量を算出することを特徴とする請求項1〜11のいずれか一つに記載の音声処理プログラム。
- コンピュータが実行する音声処理方法であって、
複数の話者の音声が含まれる入力音から複数の音声区間を検出し、
前記複数の音声区間から特徴量をそれぞれ算出し、
前記複数の音声区間に対する話者の感情をそれぞれ判定し、
第1の感情と判定された音声区間の特徴量から、前記第1の感情とは異なる第2の感情と判定された音声区間の特徴量までの変化ベクトルを基にして、複数の特徴量をクラスタリングする
処理を実行することを特徴とする音声処理方法。 - 複数の話者の音声が含まれる入力音から複数の音声区間を検出する検出部と、
前記複数の音声区間から特徴量をそれぞれ算出する算出部と、
前記複数の音声区間に対する話者の感情をそれぞれ判定する判定部と、
第1の感情と判定された音声区間の特徴量から、前記第1の感情とは異なる第2の感情と判定された音声区間の特徴量までの変化ベクトルを基にして、複数の特徴量をクラスタリングするクラスタリング部と
を有することを特徴とする音声処理装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019017950A JP7230545B2 (ja) | 2019-02-04 | 2019-02-04 | 音声処理プログラム、音声処理方法および音声処理装置 |
US16/742,493 US11721357B2 (en) | 2019-02-04 | 2020-01-14 | Voice processing method and voice processing apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019017950A JP7230545B2 (ja) | 2019-02-04 | 2019-02-04 | 音声処理プログラム、音声処理方法および音声処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020126125A true JP2020126125A (ja) | 2020-08-20 |
JP7230545B2 JP7230545B2 (ja) | 2023-03-01 |
Family
ID=71837820
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019017950A Active JP7230545B2 (ja) | 2019-02-04 | 2019-02-04 | 音声処理プログラム、音声処理方法および音声処理装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11721357B2 (ja) |
JP (1) | JP7230545B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021171956A1 (ja) * | 2020-02-25 | 2021-09-02 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 話者識別装置、話者識別方法、及び、プログラム |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117953919A (zh) * | 2022-10-31 | 2024-04-30 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、设备、存储介质及计算机程序产品 |
CN117746905B (zh) * | 2024-02-18 | 2024-04-19 | 百鸟数据科技(北京)有限责任公司 | 基于时频持续性分析的人类活动影响评估方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001215993A (ja) * | 2000-01-31 | 2001-08-10 | Sony Corp | 対話処理装置および対話処理方法、並びに記録媒体 |
JP2004252085A (ja) * | 2003-02-19 | 2004-09-09 | Fujitsu Ltd | 音声変換システム及び音声変換プログラム |
JP2014123239A (ja) * | 2012-12-21 | 2014-07-03 | Hitachi Ltd | 渋滞情報配信システム、サーバ、車載端末、及びプログラム |
JP2016507772A (ja) * | 2012-12-27 | 2016-03-10 | ゼットティーイー コーポレーションZte Corporation | 音声データの伝送方法及び装置 |
JP2016102860A (ja) * | 2014-11-27 | 2016-06-02 | 日本放送協会 | 音声加工装置、及びプログラム |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007017853A1 (en) * | 2005-08-08 | 2007-02-15 | Nice Systems Ltd. | Apparatus and methods for the detection of emotions in audio interactions |
US8788270B2 (en) * | 2009-06-16 | 2014-07-22 | University Of Florida Research Foundation, Inc. | Apparatus and method for determining an emotion state of a speaker |
WO2011011413A2 (en) * | 2009-07-20 | 2011-01-27 | University Of Florida Research Foundation, Inc. | Method and apparatus for evaluation of a subject's emotional, physiological and/or physical state with the subject's physiological and/or acoustic data |
JP5494468B2 (ja) | 2010-12-27 | 2014-05-14 | 富士通株式会社 | 状態検出装置、状態検出方法および状態検出のためのプログラム |
KR102191306B1 (ko) * | 2014-01-22 | 2020-12-15 | 삼성전자주식회사 | 음성 감정 인식 시스템 및 방법 |
JP6720520B2 (ja) | 2015-12-18 | 2020-07-08 | カシオ計算機株式会社 | 感情推定器生成方法、感情推定器生成装置、感情推定方法、感情推定装置及びプログラム |
US10896428B1 (en) * | 2017-12-14 | 2021-01-19 | Amazon Technologies, Inc. | Dynamic speech to text analysis and contact processing using agent and customer sentiments |
CN110998725B (zh) * | 2018-04-19 | 2024-04-12 | 微软技术许可有限责任公司 | 在对话中生成响应 |
-
2019
- 2019-02-04 JP JP2019017950A patent/JP7230545B2/ja active Active
-
2020
- 2020-01-14 US US16/742,493 patent/US11721357B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001215993A (ja) * | 2000-01-31 | 2001-08-10 | Sony Corp | 対話処理装置および対話処理方法、並びに記録媒体 |
JP2004252085A (ja) * | 2003-02-19 | 2004-09-09 | Fujitsu Ltd | 音声変換システム及び音声変換プログラム |
JP2014123239A (ja) * | 2012-12-21 | 2014-07-03 | Hitachi Ltd | 渋滞情報配信システム、サーバ、車載端末、及びプログラム |
JP2016507772A (ja) * | 2012-12-27 | 2016-03-10 | ゼットティーイー コーポレーションZte Corporation | 音声データの伝送方法及び装置 |
JP2016102860A (ja) * | 2014-11-27 | 2016-06-02 | 日本放送協会 | 音声加工装置、及びプログラム |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021171956A1 (ja) * | 2020-02-25 | 2021-09-02 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 話者識別装置、話者識別方法、及び、プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP7230545B2 (ja) | 2023-03-01 |
US11721357B2 (en) | 2023-08-08 |
US20200251129A1 (en) | 2020-08-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107799126B (zh) | 基于有监督机器学习的语音端点检测方法及装置 | |
JP5708155B2 (ja) | 話者状態検出装置、話者状態検出方法及び話者状態検出用コンピュータプログラム | |
JP4796309B2 (ja) | モバイル・デバイス上のマルチセンサによるスピーチ改良のための方法および装置 | |
US7729914B2 (en) | Method for detecting emotions involving subspace specialists | |
JP2021527840A (ja) | 声紋識別方法、モデルトレーニング方法、サーバ、及びコンピュータプログラム | |
JP7230545B2 (ja) | 音声処理プログラム、音声処理方法および音声処理装置 | |
US9047866B2 (en) | System and method for identification of a speaker by phonograms of spontaneous oral speech and by using formant equalization using one vowel phoneme type | |
JP3584458B2 (ja) | パターン認識装置およびパターン認識方法 | |
JP4572218B2 (ja) | 音楽区間検出方法、音楽区間検出装置、音楽区間検出プログラム及び記録媒体 | |
JP2003508804A (ja) | 音源をクラス分けするためのシステムおよび方法 | |
JP2013222113A (ja) | 音検出装置、音検出方法、音特徴量検出装置、音特徴量検出方法、音区間検出装置、音区間検出方法およびプログラム | |
US20170287489A1 (en) | Synthetic oversampling to enhance speaker identification or verification | |
Gao et al. | Wearable audio monitoring: Content-based processing methodology and implementation | |
CN110570870A (zh) | 一种文本无关的声纹识别方法、装置及设备 | |
CN110400565A (zh) | 说话人识别方法、系统及计算机可读存储介质 | |
TW202221624A (zh) | 沖壓品質檢測系統及沖壓品質檢測方法 | |
CN111710332A (zh) | 语音处理方法、装置、电子设备及存储介质 | |
JP6268916B2 (ja) | 異常会話検出装置、異常会話検出方法及び異常会話検出用コンピュータプログラム | |
Zhang et al. | Articulatory movement features for short-duration text-dependent speaker verification | |
Dov et al. | Multimodal kernel method for activity detection of sound sources | |
JP2021021749A (ja) | 検出プログラム、検出方法、検出装置 | |
JP5272141B2 (ja) | 音声処理装置およびプログラム | |
Shakeel et al. | Metric-based multimodal meta-learning for human movement identification via footstep recognition | |
Wróbel et al. | Identification of Humans Using Hand Clapping Sounds | |
Yang | Algorithms for affective and ubiquitous sensing systems and for protein structure prediction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211109 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220902 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220906 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220926 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230117 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230130 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7230545 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |