JP2019045527A - 音声処理プログラム、音声処理方法および音声処理装置 - Google Patents
音声処理プログラム、音声処理方法および音声処理装置 Download PDFInfo
- Publication number
- JP2019045527A JP2019045527A JP2017164725A JP2017164725A JP2019045527A JP 2019045527 A JP2019045527 A JP 2019045527A JP 2017164725 A JP2017164725 A JP 2017164725A JP 2017164725 A JP2017164725 A JP 2017164725A JP 2019045527 A JP2019045527 A JP 2019045527A
- Authority
- JP
- Japan
- Prior art keywords
- frequency
- spectrum
- frequency spectrum
- unit
- pitch
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims abstract description 142
- 238000003672 processing method Methods 0.000 title claims description 14
- 238000001228 spectrum Methods 0.000 claims abstract description 272
- 230000000737 periodic effect Effects 0.000 claims abstract description 29
- 238000000034 method Methods 0.000 claims description 74
- 238000012937 correction Methods 0.000 claims description 68
- 238000001514 detection method Methods 0.000 claims description 53
- 238000011156 evaluation Methods 0.000 claims description 10
- 238000009499 grossing Methods 0.000 claims description 6
- 230000005236 sound signal Effects 0.000 description 73
- 238000006243 chemical reaction Methods 0.000 description 35
- 238000010586 diagram Methods 0.000 description 34
- 230000003595 spectral effect Effects 0.000 description 13
- 230000006870 function Effects 0.000 description 10
- 238000004458 analytical method Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 3
- 230000008451 emotion Effects 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 238000004891 communication Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/06—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrophonic Musical Instruments (AREA)
- Telephone Function (AREA)
Abstract
Description
条件2:X(l,P)、X(l,2P)、X(l,3P)が閾値TH2以上である。
条件4:過去qフレーム以内に出力したピッチ周波数を、P1、P2、・・・、Pqとした場合、P−P1、P−P2、・・・、P−Pqのうち、いずれかの値が閾値TH3未満である。
前記入力音声から第1周波数スペクトルを検出し、
前記第1周波数スペクトルの包絡に基づく第2周波数スペクトルを算出し、
前記第1周波数スペクトルの第1の大きさと、前記第2周波数スペクトルの第2の大きさとの比較に基づいて、前記第1の大きさを補正し、
補正した前記第1周波数スペクトルと所定の帯域内の周波数に対応する周期信号との相関に基づいて、前記入力音声のピッチ周波数を推定する
処理をコンピュータに実行させることを特徴とする音声処理プログラム。
入力音声を取得し、
前記入力音声から第1周波数スペクトルを検出し、
前記第1周波数スペクトルの包絡に基づく第2周波数スペクトルを算出し、
前記第1周波数スペクトルの第1の大きさと、前記第2周波数スペクトルの第2の大きさとの比較に基づいて、前記第1の大きさを補正し、
補正した前記第1周波数スペクトルと所定の帯域内の周波数に対応する周期信号との相関に基づいて、前記入力音声のピッチ周波数を推定する
処理を実行することを特徴とする音声処理方法。
前記第1周波数スペクトルの包絡に基づく第2周波数スペクトルを算出する算出部と、
前記第1周波数スペクトルの第1の大きさと、前記第2周波数スペクトルの第2の大きさとの比較に基づいて、前記第1の大きさを補正する補正部と、
補正した前記第1周波数スペクトルと所定の帯域内の周波数に対応する周期信号との相関に基づいて、前記入力音声のピッチ周波数を推定する推定部と
を有することを特徴とする音声処理装置。
50b 表示部
100,200 音声処理装置
110 AD変換部
115 音声ファイル化部
120,230,321 検出部
130,240,322 算出部
140,250,323 補正部
150,260,324 推定部
160,220,325 記憶部
170 出力部
210 受信部
320 ピッチ検出部
Claims (10)
- 入力音声を取得し、
前記入力音声から第1周波数スペクトルを検出し、
前記第1周波数スペクトルの包絡に基づく第2周波数スペクトルを算出し、
前記第1周波数スペクトルの第1の大きさと、前記第2周波数スペクトルの第2の大きさとの比較に基づいて、前記第1の大きさを補正し、
補正した前記第1周波数スペクトルと所定の帯域内の周波数に対応する周期信号との相関に基づいて、前記入力音声のピッチ周波数を推定する
処理をコンピュータに実行させることを特徴とする音声処理プログラム。 - 前記第2周波数スペクトルを算出する処理は、前記第1周波数スペクトルを平滑化することで、前記第2周波数スペクトルを算出することを特徴とする請求項1に記載の音声処理プログラム。
- 前記第2周波数スペクトルを算出する処理は、前記第1周波数スペクトルの各極大値を繋いだスペクトルを平行移動させ、平行移動させたスペクトルを、前記第2周波数スペクトルとして算出することを特徴とする請求項1に記載の音声処理プログラム。
- 前記第2周波数スペクトルを算出する処理は、前記第1周波数スペクトルのスペクトル包絡線を算出し、前記スペクトル包絡線を平行移動させ、平行移動させたスペクトル包絡線を、前記第2周波数スペクトルとして算出することを特徴とする請求項1に記載の音声処理プログラム。
- 前記ピッチ周波数を推定する処理は、前記第1周波数スペクトルとの相関の値が最大値となり、かつ、前記相関の値が閾値以上である場合に、前記第1周波数スペクトルとの相関の値が最大値となる周期信号の周波数を、ピッチ周波数として推定することを特徴とする請求項1〜4のうちいずれか一つに記載の音声処理プログラム。
- 前記ピッチ周波数の整数倍の周波数に対応する、前記第1周波数スペクトルの大きさに基づいて、前記ピッチ周波数を修正する処理を更に実行することを特徴とする請求項1〜5のうちいずれか一つに記載の音声処理プログラム。
- 推定された前記ピッチ周波数の情報を記憶装置に順次記憶し、前記記憶装置に記憶された過去の所定期間に推定された複数の前記ピッチ周波数を基にして、今後推定されるピッチ周波数を修正する処理を更に実行することを特徴とする請求項1〜6のうちいずれか一つに記載の音声処理プログラム。
- 前記記憶装置に記憶された複数のピッチ周波数に基づいて、前記入力音声を評価し、評価結果を表示する処理を更に実行することを特徴とする請求項7に記載の音声処理プログラム。
- コンピュータが実行する音声処理方法であって、
入力音声を取得し、
前記入力音声から第1周波数スペクトルを検出し、
前記第1周波数スペクトルの包絡に基づく第2周波数スペクトルを算出し、
前記第1周波数スペクトルの第1の大きさと、前記第2周波数スペクトルの第2の大きさとの比較に基づいて、前記第1の大きさを補正し、
補正した前記第1周波数スペクトルと所定の帯域内の周波数に対応する周期信号との相関に基づいて、前記入力音声のピッチ周波数を推定する
処理を実行することを特徴とする音声処理方法。 - 入力音声を取得し、前記入力音声から第1周波数スペクトルを検出する検出部と、
前記第1周波数スペクトルの包絡に基づく第2周波数スペクトルを算出する算出部と、
前記第1周波数スペクトルの第1の大きさと、前記第2周波数スペクトルの第2の大きさとの比較に基づいて、前記第1の大きさを補正する補正部と、
補正した前記第1周波数スペクトルと所定の帯域内の周波数に対応する周期信号との相関に基づいて、前記入力音声のピッチ周波数を推定する推定部と
を有することを特徴とする音声処理装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017164725A JP6891736B2 (ja) | 2017-08-29 | 2017-08-29 | 音声処理プログラム、音声処理方法および音声処理装置 |
US16/113,125 US10636438B2 (en) | 2017-08-29 | 2018-08-27 | Method, information processing apparatus for processing speech, and non-transitory computer-readable storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017164725A JP6891736B2 (ja) | 2017-08-29 | 2017-08-29 | 音声処理プログラム、音声処理方法および音声処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019045527A true JP2019045527A (ja) | 2019-03-22 |
JP6891736B2 JP6891736B2 (ja) | 2021-06-18 |
Family
ID=65434401
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017164725A Active JP6891736B2 (ja) | 2017-08-29 | 2017-08-29 | 音声処理プログラム、音声処理方法および音声処理装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US10636438B2 (ja) |
JP (1) | JP6891736B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110070884B (zh) * | 2019-02-28 | 2022-03-15 | 北京字节跳动网络技术有限公司 | 音频起始点检测方法和装置 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3276732D1 (en) * | 1982-04-27 | 1987-08-13 | Philips Nv | Speech analysis system |
US5189701A (en) * | 1991-10-25 | 1993-02-23 | Micom Communications Corp. | Voice coder/decoder and methods of coding/decoding |
US5799276A (en) * | 1995-11-07 | 1998-08-25 | Accent Incorporated | Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals |
JP4641620B2 (ja) * | 1998-05-11 | 2011-03-02 | エヌエックスピー ビー ヴィ | ピッチ検出の精密化 |
GB9811019D0 (en) | 1998-05-21 | 1998-07-22 | Univ Surrey | Speech coders |
US6836761B1 (en) * | 1999-10-21 | 2004-12-28 | Yamaha Corporation | Voice converter for assimilation by frame synthesis with temporal alignment |
JP5223786B2 (ja) * | 2009-06-10 | 2013-06-26 | 富士通株式会社 | 音声帯域拡張装置、音声帯域拡張方法及び音声帯域拡張用コンピュータプログラムならびに電話機 |
US20110313762A1 (en) * | 2010-06-20 | 2011-12-22 | International Business Machines Corporation | Speech output with confidence indication |
WO2014071330A2 (en) * | 2012-11-02 | 2014-05-08 | Fido Labs Inc. | Natural language processing system and method |
KR101610151B1 (ko) * | 2014-10-17 | 2016-04-08 | 현대자동차 주식회사 | 개인음향모델을 이용한 음성 인식장치 및 방법 |
-
2017
- 2017-08-29 JP JP2017164725A patent/JP6891736B2/ja active Active
-
2018
- 2018-08-27 US US16/113,125 patent/US10636438B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US10636438B2 (en) | 2020-04-28 |
JP6891736B2 (ja) | 2021-06-18 |
US20190066714A1 (en) | 2019-02-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100583909C (zh) | 移动设备上多传感语音增强的装置 | |
EP2643981B1 (en) | A device comprising a plurality of audio sensors and a method of operating the same | |
JP5998603B2 (ja) | 音検出装置、音検出方法、音特徴量検出装置、音特徴量検出方法、音区間検出装置、音区間検出方法およびプログラム | |
KR101153093B1 (ko) | 다감각 음성 향상을 위한 방법 및 장치 | |
JP5721098B2 (ja) | 雑音抑圧装置および雑音抑圧方法 | |
EP2458586A1 (en) | System and method for producing an audio signal | |
KR20190045278A (ko) | 음성 품질 평가 방법 및 음성 품질 평가 장치 | |
JP6668995B2 (ja) | 雑音抑圧装置、雑音抑圧方法及び雑音抑圧用コンピュータプログラム | |
US11232810B2 (en) | Voice evaluation method, voice evaluation apparatus, and recording medium for evaluating an impression correlated to pitch | |
JP6182895B2 (ja) | 処理装置、処理方法、プログラム及び処理システム | |
CN110795996A (zh) | 心音信号的分类方法、装置、设备及存储介质 | |
US20190096433A1 (en) | Voice processing method, voice processing apparatus, and non-transitory computer-readable storage medium for storing voice processing computer program | |
JP2019045527A (ja) | 音声処理プログラム、音声処理方法および音声処理装置 | |
JP5077847B2 (ja) | 残響時間推定装置及び残響時間推定方法 | |
JP2013512475A (ja) | 複素音響共鳴音声分析システム | |
JP4505597B2 (ja) | 雑音除去装置 | |
US11004463B2 (en) | Speech processing method, apparatus, and non-transitory computer-readable storage medium for storing a computer program for pitch frequency detection based upon a learned value | |
CN110875043B (zh) | 声纹识别方法、装置、移动终端及计算机可读存储介质 | |
US11069373B2 (en) | Speech processing method, speech processing apparatus, and non-transitory computer-readable storage medium for storing speech processing computer program | |
JP2018180482A (ja) | 音声検出装置及び音声検出プログラム | |
JP6759927B2 (ja) | 発話評価装置、発話評価方法、および発話評価プログラム | |
JP2021033134A (ja) | 評価装置、評価方法、及び評価プログラム | |
Singh | Noise estimation for real-time speech enhancement | |
JP6221463B2 (ja) | 音声信号処理装置及びプログラム | |
JP2016158072A (ja) | 集音装置、音声処理方法、および音声処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200514 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210329 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210427 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210510 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6891736 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |