JP6521173B2 - 発話印象判定プログラム、発話印象判定方法及び発話印象判定装置 - Google Patents
発話印象判定プログラム、発話印象判定方法及び発話印象判定装置 Download PDFInfo
- Publication number
- JP6521173B2 JP6521173B2 JP2018507963A JP2018507963A JP6521173B2 JP 6521173 B2 JP6521173 B2 JP 6521173B2 JP 2018507963 A JP2018507963 A JP 2018507963A JP 2018507963 A JP2018507963 A JP 2018507963A JP 6521173 B2 JP6521173 B2 JP 6521173B2
- Authority
- JP
- Japan
- Prior art keywords
- fundamental frequency
- impression
- value
- difference
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 27
- 230000005236 sound signal Effects 0.000 claims description 55
- 230000008859 change Effects 0.000 claims description 29
- 238000012545 processing Methods 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 12
- 230000007774 longterm Effects 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims description 5
- 230000008569 process Effects 0.000 description 23
- 238000013500 data storage Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 14
- 230000007423 decrease Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 6
- 238000001514 detection method Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 101100420776 Arabidopsis thaliana SYN1 gene Proteins 0.000 description 1
- VUDQSRFCCHQIIU-UHFFFAOYSA-N DIF1 Natural products CCCCCC(=O)C1=C(O)C(Cl)=C(OC)C(Cl)=C1O VUDQSRFCCHQIIU-UHFFFAOYSA-N 0.000 description 1
- 101150001108 DIF1 gene Proteins 0.000 description 1
- 101100396286 Homo sapiens IER3 gene Proteins 0.000 description 1
- 102100036900 Radiation-inducible immediate-early gene IEX-1 Human genes 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 210000004704 glottis Anatomy 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 230000000116 mitigating effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/24—Arrangements for testing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
- G10L2021/0135—Voice conversion or morphing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
- Telephonic Communication Services (AREA)
Description
以下、開示の技術の実施形態の一例である第1実施形態を説明する。
FF1=Fs/pr … (1)
サンプリング周波数Fsは、例えば、8,000Hzである。
FF2=12×log2(FF1/50) … (2)
次に、CPU21は、取得した緩和値A1を配列A1R[F1]に記憶する。A1Rは、例えば、二次記憶部23のデータ格納領域23Dに含まれる配列であってよく、第1フレームカウンタF1は上記したように、音声フレームのカウント値を記憶している。
即ち、式(4)では、単位時間毎の基本周波数FF2の各々と、基本周波数FF2の各々に対応する緩和値A1の各々との差の大きさを表す度合いである差分量ADを算出する。
次に、開示の技術の実施形態の一例である第2実施形態を説明する。第1実施形態と同様の構成及び作用については説明を省略する。
A1A=R1×A1R[F3−1]+(1−R1)×FFR[F3] … (5)
基本周波数の変化が緩やかになるように基本周波数を変化させる長期用重み係数の一例であるR1は、1より小さく、1−R1より大きい値である。算出した緩和値A1Aは、配列A1R[F3]に記憶される。
A2=R2×A2R[F3−1]+(1−R2)×FFR[F3] … (6)
基本周波数の変化が緩やかになるように基本周波数を変化させる短期用重み係数の一例であるR2は、R1より小さく、1−R2より大きい値である。算出した特徴量A2は、配列A2R[F3]に記憶される。R1は、例えば、0.9であってよく、R2は、例えば、0.6であってよい。
式(7)では、単位発話区間毎の特徴量の各々と特徴量の各々に対応する緩和値の各々との差の大きさの度合いを表す差分量AD2を算出する。
次に、開示の技術の実施形態の一例である第3実施形態を説明する。第1実施形態及び第2実施形態と同様の構成及び作用については説明を省略する。
|FFR[F4]−A3R[F4]|>TA … (9)
A1B=R3×A1R[F5−1]+(1−R3)×FFI[F5] … (10)
算出した緩和値A1Bは、配列A1R[F5]に記憶される。
式(11)では、単位発話区間毎の、外れ値を除外した基本周波数の各々と基本周波数の各々に対応する緩和値の各々との差の大きさの度合いを表す差分量AD3を算出する。即ち、差分量AD3は、ステップ153で、基本周波数FF2が外れ値ではないと判定された基本周波数FF2及び緩和値A1Bを用いて計算される。
Claims (10)
- 音声信号から基本周波数を抽出し、
前記音声信号から抽出した前記基本周波数の変化が緩やかになるように前記基本周波数を変化させた緩和値を時系列に算出し、
前記音声信号から抽出した基本周波数に関連する時系列の特徴量の各々について、前記特徴量と前記特徴量に対応する前記緩和値との差の大きさの度合いを表す差分量を演算し、演算した前記差分量に基づいて、前記音声信号に対応する音声の発話印象を判定する、
発話印象判定処理をコンピュータに実行させるためのプログラム。 - 前記緩和値は、
前記音声信号の一部の区間の基本周波数の移動平均値、または、
前記基本周波数の変化が緩やかになるように前記基本周波数を変化させる長期用重み係数を用いて、過去の基本周波数の加重平均値の重みを重くして過去の基本周波数の加重平均値と前記音声信号から抽出した現在の基本周波数とで演算した現在の基本周波数の加重平均値である、
請求項1に記載のプログラム。 - 前記緩和値が加重平均値であって、前記特徴量が前記特徴量に対応する前記緩和値以下である場合、前記特徴量が前記特徴量に対応する前記緩和値より大きい場合よりも変化を緩やかにする度合いが小さくなるように、前記長期用重み係数を決定する、
請求項2に記載のプログラム。 - 前記特徴量は、
前記音声信号から抽出した基本周波数、または、
変化を緩やかにする度合いが前記緩和値を算出する場合より小さくなるように定めた短期用重み係数を用いて、過去の基本周波数の加重平均値の重みを重くして過去の基本周波数の加重平均値と前記音声信号から抽出した現在の基本周波数とで演算した現在の基本周波数の加重平均値である、
請求項1〜請求項3の何れか1項に記載のプログラム。 - 前記差分量は、印象判定の単位時間当たりまたは単位発話区間当たりにおける前記特徴量と前記特徴量に対応する前記緩和値との差の二乗和の平方根である、
請求項1〜請求項4の何れか1項に記載のプログラム。 - 前記差分量が閾値より小さい場合に印象が悪いと判定し、前記差分量が前記閾値より所定値以上大きい場合に印象が良いと判定する、
請求項1〜請求項5の何れか1項に記載のプログラム。 - 前記閾値は、前記音声信号全体の平均値に基づいて決定される、
請求項6に記載のプログラム。 - 前記音声信号から前記基本周波数を抽出した際に、前記基本周波数と前記基本周波数に対応する所定区間の基本周波数の平均値との差の絶対値が所定値を越える場合、前記緩和値を算出する前に、前記所定値を越える基本周波数を前記音声信号から抽出した基本周波数から予め除外する、
請求項1〜請求項7の何れか1項に記載のプログラム。 - コンピュータが、
音声信号から基本周波数を抽出し、
前記音声信号から抽出した前記基本周波数の変化が緩やかになるように前記基本周波数を変化させた緩和値を時系列に算出し、
前記音声信号から抽出した基本周波数に関連する時系列の特徴量の各々について、前記特徴量と前記特徴量に対応する前記緩和値との差の大きさの度合いを表す差分量を演算し、演算した前記差分量に基づいて、前記音声信号に対応する音声の発話印象を判定する、
発話印象判定方法。 - 音声信号から基本周波数を抽出し、
前記音声信号から抽出した前記基本周波数の変化が緩やかになるように前記基本周波数を変化させた緩和値を時系列に算出する算出部と、
前記音声信号から抽出した基本周波数に関連する時系列の特徴量の各々について、前記特徴量と前記特徴量に対応する前記緩和値との差の大きさの度合いを表す差分量を演算し、演算した前記差分量に基づいて、前記音声信号に対応する音声の発話印象を判定する印象判定部と、
を含む発話印象判定装置。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2016/060565 WO2017168663A1 (ja) | 2016-03-30 | 2016-03-30 | 発話印象判定プログラム、発話印象判定方法及び発話印象判定装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2017168663A1 JPWO2017168663A1 (ja) | 2018-10-11 |
JP6521173B2 true JP6521173B2 (ja) | 2019-05-29 |
Family
ID=59962784
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018507963A Active JP6521173B2 (ja) | 2016-03-30 | 2016-03-30 | 発話印象判定プログラム、発話印象判定方法及び発話印象判定装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10861477B2 (ja) |
EP (1) | EP3438980B1 (ja) |
JP (1) | JP6521173B2 (ja) |
WO (1) | WO2017168663A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP4145444A1 (en) * | 2021-09-07 | 2023-03-08 | Avaya Management L.P. | Optimizing interaction results using ai-guided manipulated speech |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3418005B2 (ja) | 1994-08-04 | 2003-06-16 | 富士通株式会社 | 音声ピッチ検出装置 |
US7222075B2 (en) * | 1999-08-31 | 2007-05-22 | Accenture Llp | Detecting emotions using voice signal analysis |
US6151571A (en) | 1999-08-31 | 2000-11-21 | Andersen Consulting | System, method and article of manufacture for detecting emotion in voice signals through analysis of a plurality of voice signal parameters |
US7219059B2 (en) * | 2002-07-03 | 2007-05-15 | Lucent Technologies Inc. | Automatic pronunciation scoring for language learning |
JP2006267465A (ja) * | 2005-03-23 | 2006-10-05 | Tokyo Electric Power Co Inc:The | 発話状態評価装置、発話状態評価プログラム、プログラム格納媒体 |
JP2007004000A (ja) * | 2005-06-27 | 2007-01-11 | Tokyo Electric Power Co Inc:The | コールセンターにおけるオペレータ業務支援システム |
JP2007004001A (ja) * | 2005-06-27 | 2007-01-11 | Tokyo Electric Power Co Inc:The | オペレータ応対能力診断装置、オペレータ応対能力診断プログラム、プログラム格納媒体 |
JP4107613B2 (ja) * | 2006-09-04 | 2008-06-25 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 残響除去における低コストのフィルタ係数決定法 |
JP2008134557A (ja) | 2006-11-29 | 2008-06-12 | Fujitsu Ltd | 携帯端末装置 |
US7856353B2 (en) * | 2007-08-07 | 2010-12-21 | Nuance Communications, Inc. | Method for processing speech signal data with reverberation filtering |
JP2009071403A (ja) * | 2007-09-11 | 2009-04-02 | Fujitsu Fsas Inc | オペレータ受付監視・切替システム |
JP4943370B2 (ja) * | 2008-04-09 | 2012-05-30 | 日本電信電話株式会社 | コンテンツ視聴時の印象度推定方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体 |
US8589152B2 (en) | 2008-05-28 | 2013-11-19 | Nec Corporation | Device, method and program for voice detection and recording medium |
JP5278952B2 (ja) * | 2009-03-09 | 2013-09-04 | 国立大学法人福井大学 | 乳幼児の感情診断装置及び方法 |
JP5664480B2 (ja) * | 2011-06-30 | 2015-02-04 | 富士通株式会社 | 異常状態検出装置、電話機、異常状態検出方法、及びプログラム |
JP5772448B2 (ja) * | 2011-09-27 | 2015-09-02 | 富士ゼロックス株式会社 | 音声解析システムおよび音声解析装置 |
JP6891662B2 (ja) * | 2017-06-23 | 2021-06-18 | 富士通株式会社 | 音声評価プログラム、音声評価方法および音声評価装置 |
-
2016
- 2016-03-30 WO PCT/JP2016/060565 patent/WO2017168663A1/ja active Application Filing
- 2016-03-30 EP EP16896881.6A patent/EP3438980B1/en active Active
- 2016-03-30 JP JP2018507963A patent/JP6521173B2/ja active Active
-
2018
- 2018-09-27 US US16/143,537 patent/US10861477B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
WO2017168663A1 (ja) | 2017-10-05 |
EP3438980B1 (en) | 2020-04-08 |
JPWO2017168663A1 (ja) | 2018-10-11 |
EP3438980A4 (en) | 2019-04-10 |
US20190027158A1 (en) | 2019-01-24 |
US10861477B2 (en) | 2020-12-08 |
EP3438980A1 (en) | 2019-02-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102549657B (zh) | 用于确定音频系统的感知质量的方法和系统 | |
JP5664480B2 (ja) | 異常状態検出装置、電話機、異常状態検出方法、及びプログラム | |
KR20160039677A (ko) | 보이스 활성화 탐지 방법 및 장치 | |
WO2016015461A1 (zh) | 异常帧检测方法和装置 | |
JP2018156044A (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
EP2881948A1 (en) | Spectral comb voice activity detection | |
KR101430321B1 (ko) | 오디오 시스템의 지각 품질을 결정하기 위한 방법 및 시스템 | |
JP6731631B2 (ja) | 認知機能評価装置、プログラム | |
JP4769673B2 (ja) | オーディオ信号補間方法及びオーディオ信号補間装置 | |
JP5204904B2 (ja) | オーディオ信号品質予測 | |
JP2008015443A (ja) | 雑音抑圧音声品質推定装置、方法およびプログラム | |
KR20180100452A (ko) | 오디오 신호의 배경 잡음 추정 | |
JP2013500498A (ja) | 音声品質の評価のための方法、コンピュータ、コンピュータプログラム、およびコンピュータプログラム製品 | |
JP6521173B2 (ja) | 発話印象判定プログラム、発話印象判定方法及び発話印象判定装置 | |
JP5293329B2 (ja) | 音声信号評価プログラム、音声信号評価装置、音声信号評価方法 | |
CN114694678A (zh) | 音质检测模型训练方法、音质检测方法、电子设备及介质 | |
WO2019218749A1 (zh) | 基于语音的交互方法及系统 | |
JP5782402B2 (ja) | 音声品質客観評価装置及び方法 | |
JP4490090B2 (ja) | 有音無音判定装置および有音無音判定方法 | |
JP4601970B2 (ja) | 有音無音判定装置および有音無音判定方法 | |
DK3232906T3 (en) | HEARING TEST SYSTEM | |
JP6544439B2 (ja) | 困惑状態判定装置、困惑状態判定方法、及びプログラム | |
CN113593604A (zh) | 检测音频质量方法、装置及存储介质 | |
JP6729187B2 (ja) | 音声処理プログラム、音声処理方法及び音声処理装置 | |
JP2006148752A (ja) | 通話品質の主観評価のための評価サンプル数を決定する方法及びサーバ |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180622 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180622 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190312 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190329 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190402 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190415 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6521173 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |