JP7000757B2 - 音声処理プログラム、音声処理方法および音声処理装置 - Google Patents
音声処理プログラム、音声処理方法および音声処理装置 Download PDFInfo
- Publication number
- JP7000757B2 JP7000757B2 JP2017175635A JP2017175635A JP7000757B2 JP 7000757 B2 JP7000757 B2 JP 7000757B2 JP 2017175635 A JP2017175635 A JP 2017175635A JP 2017175635 A JP2017175635 A JP 2017175635A JP 7000757 B2 JP7000757 B2 JP 7000757B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- acoustic feature
- feature amount
- frequency
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims description 18
- 238000004364 calculation method Methods 0.000 claims description 118
- 238000000034 method Methods 0.000 claims description 82
- 238000001514 detection method Methods 0.000 claims description 41
- 230000003595 spectral effect Effects 0.000 claims description 26
- 238000011156 evaluation Methods 0.000 description 80
- 230000005236 sound signal Effects 0.000 description 60
- 239000000872 buffer Substances 0.000 description 49
- 238000010586 diagram Methods 0.000 description 38
- 230000006870 function Effects 0.000 description 16
- 230000005540 biological transmission Effects 0.000 description 9
- 238000004458 analytical method Methods 0.000 description 6
- 238000000926 separation method Methods 0.000 description 6
- 239000004065 semiconductor Substances 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000008451 emotion Effects 0.000 description 3
- 238000009499 grossing Methods 0.000 description 3
- 239000004973 liquid crystal related substance Substances 0.000 description 3
- 238000012854 evaluation process Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000001174 ascending effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/20—Drawing from basic elements, e.g. lines or circles
- G06T11/206—Drawing of charts or graphs
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/15—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Physics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Algebra (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Auxiliary Devices For Music (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
Description
前記入力音声の第1および第2の音響特徴量を検出し、
前記第1の音響特徴量の時間変化量を算出し、
前記時間変化量に基づいて前記第2の音響特徴量に対する係数を算出し、
前記係数に基づいて前記第2の音響特徴量に関する統計量を算出する
ことをコンピュータに実行させることを特徴とする音声処理プログラム。
入力音声を取得し、
前記入力音声の第1および第2の音響特徴量を検出し、
前記第1の音響特徴量の時間変化量を算出し、
前記時間変化量に基づいて前記第2の音響特徴量に対する係数を算出し、
前記係数に基づいて前記第2の音響特徴量に関する統計量を算出する
処理を実行することを特徴とする音声処理方法。
前記第1の音響特徴量の時間変化量を算出する時間変化算出部と、
前記時間変化量に基づいて前記第2の音響特徴量に対する係数を算出し、前記係数に基づいて前記第2の音響特徴量に関する統計量を算出する統計量算出部と
を有することを特徴とする音声処理装置。
140,240、440,540 音響特徴量検出部
150,250、450,550 時間変化算出部
160,260、460,560 統計量算出部
170,270、470,570 印象評価部
Claims (6)
- 入力音声を取得し、
前記入力音声から、ピッチ周波数、パワー、フォルマント周波数、スペクトルパワーのうち、いずれか一つの種別の音響特徴量を検出し、
前記音響特徴量の時間変化量が、所定の閾値よりも小さい区間を特定し、
特定した区間の継続時間が短いほど大きい係数を、前記音響特徴量に対する係数として算出し、
前記係数を、各音響特徴量の度数に対する係数として求めた、前記音響特徴量のヒストグラムの広がりを、前記音響特徴量に関する統計量として算出する
ことをコンピュータに実行させることを特徴とする音声処理プログラム。 - 前記統計量を基にして、前記入力音声の印象を評価する処理をコンピュータに更に実行させることを特徴とする請求項1に記載の音声処理プログラム。
- 前記入力音声は時系列に並んだ複数の音声フレームを含み、前記時間変化量を算出する処理は、過去の音声フレームの音響特徴量と、現在の音声フレームの音響特徴量との差分が閾値未満となる区間を特定することを特徴とする請求項1に記載の音声処理プログラム。
- 前記統計量を算出する処理は、前記音響特徴量の頻度分布の広がり、平均値、最小値、最大値のうち、いずれか一つ以上を、前記統計量として算出することを特徴とする請求項1、2または3に記載の音声処理プログラム。
- コンピュータが実行する音声処理方法であって、
入力音声を取得し、
前記入力音声から、ピッチ周波数、パワー、フォルマント周波数、スペクトルパワーのうち、いずれか一つの種別の音響特徴量を検出し、
前記音響特徴量の時間変化量が、所定の閾値よりも小さい区間を特定し、
特定した区間の継続時間が短いほど大きい係数を、前記音響特徴量に対する係数として算出し、
前記係数を、各音響特徴量の度数に対する係数として求めた、前記音響特徴量のヒストグラムの広がりを、前記音響特徴量に関する統計量として算出する
処理を実行することを特徴とする音声処理方法。 - 入力音声を取得し、前記入力音声から、ピッチ周波数、パワー、フォルマント周波数、スペクトルパワーのうち、いずれか一つの種別の音響特徴量を検出する音響特徴検出部と、
前記音響特徴量の時間変化量が、所定の閾値よりも小さい区間を特定する時間変化算出部と、
特定した区間の継続時間が短いほど大きい係数を、前記音響特徴量に対する係数として算出し、
前記係数を、各音響特徴量の度数に対する係数として求めた、前記音響特徴量のヒストグラムの広がりを、前記音響特徴量に関する統計量として算出する統計量算出部と
を有することを特徴とする音声処理装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017175635A JP7000757B2 (ja) | 2017-09-13 | 2017-09-13 | 音声処理プログラム、音声処理方法および音声処理装置 |
US16/122,098 US10832687B2 (en) | 2017-09-13 | 2018-09-05 | Audio processing device and audio processing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017175635A JP7000757B2 (ja) | 2017-09-13 | 2017-09-13 | 音声処理プログラム、音声処理方法および音声処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019053121A JP2019053121A (ja) | 2019-04-04 |
JP7000757B2 true JP7000757B2 (ja) | 2022-01-19 |
Family
ID=65632188
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017175635A Active JP7000757B2 (ja) | 2017-09-13 | 2017-09-13 | 音声処理プログラム、音声処理方法および音声処理装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US10832687B2 (ja) |
JP (1) | JP7000757B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7000757B2 (ja) * | 2017-09-13 | 2022-01-19 | 富士通株式会社 | 音声処理プログラム、音声処理方法および音声処理装置 |
JP7311319B2 (ja) * | 2019-06-19 | 2023-07-19 | ファナック株式会社 | 時系列データ表示装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014123011A (ja) | 2012-12-21 | 2014-07-03 | Sony Corp | 雑音検出装置および方法、並びに、プログラム |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4944018A (en) * | 1988-04-04 | 1990-07-24 | Bose Corporation | Speed controlled amplifying |
KR970011724B1 (ko) * | 1994-12-29 | 1997-07-14 | 삼성전자 주식회사 | 디지탈 오디오신호 혼합회로 |
KR100211830B1 (ko) * | 1995-03-16 | 1999-08-02 | 윤종용 | 미니디스크의 적응변환 오디오 코딩회로 |
US20030236663A1 (en) * | 2002-06-19 | 2003-12-25 | Koninklijke Philips Electronics N.V. | Mega speaker identification (ID) system and corresponding methods therefor |
US8311821B2 (en) * | 2003-04-24 | 2012-11-13 | Koninklijke Philips Electronics N.V. | Parameterized temporal feature analysis |
EP2063416B1 (en) * | 2006-09-13 | 2011-11-16 | Nippon Telegraph And Telephone Corporation | Feeling detection method, feeling detection device, feeling detection program containing the method, and recording medium containing the program |
JP2010054568A (ja) | 2008-08-26 | 2010-03-11 | Oki Electric Ind Co Ltd | 感情識別装置、感情識別方法およびプログラム |
EP2573763B1 (en) * | 2010-05-17 | 2018-06-20 | Panasonic Intellectual Property Corporation of America | Audio classification device, method, program |
US9173025B2 (en) * | 2012-02-08 | 2015-10-27 | Dolby Laboratories Licensing Corporation | Combined suppression of noise, echo, and out-of-location signals |
EP3096242A1 (en) * | 2015-05-20 | 2016-11-23 | Nokia Technologies Oy | Media content selection |
JP7000757B2 (ja) * | 2017-09-13 | 2022-01-19 | 富士通株式会社 | 音声処理プログラム、音声処理方法および音声処理装置 |
-
2017
- 2017-09-13 JP JP2017175635A patent/JP7000757B2/ja active Active
-
2018
- 2018-09-05 US US16/122,098 patent/US10832687B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014123011A (ja) | 2012-12-21 | 2014-07-03 | Sony Corp | 雑音検出装置および方法、並びに、プログラム |
Non-Patent Citations (1)
Title |
---|
外川太郎 他,"感性デジタルマーケティングを支えるメディア処理技術",FUJITSU,2017年09月01日,Vol.68,No.5,pp.43-51 |
Also Published As
Publication number | Publication date |
---|---|
US10832687B2 (en) | 2020-11-10 |
US20190080699A1 (en) | 2019-03-14 |
JP2019053121A (ja) | 2019-04-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108900725B (zh) | 一种声纹识别方法、装置、终端设备及存储介质 | |
JP5542206B2 (ja) | オーディオ・システムの知覚品質を判定する方法およびシステム | |
RU2597487C2 (ru) | Устройство обработки, способ обработки, программа, машиночитаемый носитель записи информации и система обработки | |
US20200051585A1 (en) | Voice activity detection method and apparatus | |
US11232810B2 (en) | Voice evaluation method, voice evaluation apparatus, and recording medium for evaluating an impression correlated to pitch | |
JP7000757B2 (ja) | 音声処理プログラム、音声処理方法および音声処理装置 | |
JP6676009B2 (ja) | 話者判定装置、話者判定情報生成方法、プログラム | |
CN111785294A (zh) | 音频检测方法及装置、终端、存储介质 | |
CN111199749A (zh) | 行为识别方法、装置,机器学习方法、装置以及记录介质 | |
US20190096433A1 (en) | Voice processing method, voice processing apparatus, and non-transitory computer-readable storage medium for storing voice processing computer program | |
JP6724290B2 (ja) | 音響処理装置、音響処理方法、及び、プログラム | |
US20210027796A1 (en) | Non-transitory computer-readable storage medium for storing detection program, detection method, and detection apparatus | |
US11004463B2 (en) | Speech processing method, apparatus, and non-transitory computer-readable storage medium for storing a computer program for pitch frequency detection based upon a learned value | |
JP6891736B2 (ja) | 音声処理プログラム、音声処理方法および音声処理装置 | |
JP6994922B2 (ja) | 会話認識記録システム | |
CN105989838B (zh) | 语音识别方法及装置 | |
JP7293826B2 (ja) | 問題検出装置、問題検出方法および問題検出プログラム | |
JP6907859B2 (ja) | 音声処理プログラム、音声処理方法および音声処理装置 | |
CN117727311B (zh) | 音频处理方法及装置、电子设备及计算机可读存储介质 | |
JP2018180482A (ja) | 音声検出装置及び音声検出プログラム | |
JP6819426B2 (ja) | 音声処理プログラム、音声処理方法および音声処理装置 | |
JP5777569B2 (ja) | 音響特徴量計算装置及び方法、特定状況モデルデータベース作成装置、特定要素音モデルデータベース作成装置、状況推定装置、発呼適否通知装置並びにプログラム | |
JP2022038498A (ja) | 選定プログラム、選定方法および選定装置 | |
CN117727311A (zh) | 音频处理方法及装置、电子设备及计算机可读存储介质 | |
JP2019020600A (ja) | 評価プログラム、評価方法および評価装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200611 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210408 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210420 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210617 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211124 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211207 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7000757 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |