JP7000773B2 - 音声処理プログラム、音声処理方法および音声処理装置 - Google Patents
音声処理プログラム、音声処理方法および音声処理装置 Download PDFInfo
- Publication number
- JP7000773B2 JP7000773B2 JP2017186584A JP2017186584A JP7000773B2 JP 7000773 B2 JP7000773 B2 JP 7000773B2 JP 2017186584 A JP2017186584 A JP 2017186584A JP 2017186584 A JP2017186584 A JP 2017186584A JP 7000773 B2 JP7000773 B2 JP 7000773B2
- Authority
- JP
- Japan
- Prior art keywords
- calculated
- frame
- voice
- audio signal
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims description 128
- 238000003672 processing method Methods 0.000 title claims description 11
- 230000005236 sound signal Effects 0.000 claims description 111
- 238000000034 method Methods 0.000 claims description 54
- 238000001228 spectrum Methods 0.000 claims description 14
- 238000013459 approach Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 description 80
- 238000011156 evaluation Methods 0.000 description 48
- 238000009795 derivation Methods 0.000 description 30
- 238000010586 diagram Methods 0.000 description 29
- 230000006870 function Effects 0.000 description 21
- 238000001514 detection method Methods 0.000 description 19
- 238000009499 grossing Methods 0.000 description 7
- 238000013500 data storage Methods 0.000 description 6
- 230000003595 spectral effect Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 230000008451 emotion Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005401 electroluminescence Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/15—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Telephonic Communication Services (AREA)
Description
上記の実施例1では、音声パラメータの一例として、音声信号から導出されるフレームパワーを用いて話者の音声らしさを算出する場合を例示したが、フレームパワー以外の他の音声パラメータを用いて話者の音声らしさを算出することができる。
音声パラメータの他の一例として、音声処理装置100は、SNRを用いて話者の音声らしさを算出することができる。例えば、導出部130Eは、取得部130Aにより音声信号のフレームnが取得される度に、フレームごとに雑音レベルを更新しながら各フレームのSNRを算出する。
N(n)=N(n-1)・・・(3)
音声パラメータの他の一例として、音声処理装置100は、音声信号から導出されるスペクトルパワーを用いて話者の音声らしさを算出することができる。例えば、導出部130Eは、取得部130Aにより音声信号のフレームnが取得される度に、フレームごとにスペクトルパワーを算出する。
音声パラメータの他の一例として、音声処理装置100は、音声信号から導出される自己相関係数を用いて話者の音声らしさを算出することができる。例えば、導出部130Eは、取得部130Aにより音声信号のフレームnが取得される度に、フレームごとに自己相関係数を算出する。
音声パラメータの他の一例として、音声処理装置100は、音声信号から導出されるピッチ周波数を用いて話者の音声らしさを算出することができる。例えば、導出部130Eは、取得部130Aにより音声信号のフレームnが取得される度に、ピッチ周波数の最頻値を算出する。ここで言う「最頻値」とは、一例として、音声信号の取得が開始された最初のフレームから選択フレームまでの間で観測されるピッチ周波数を母集団とする集合における最頻値を指す。この母集団には、必ずしも発話区間に対応しないフレームは含まれずともよく、発話区間に含まれるフレームに絞って実行することもできる。
音声パラメータの他の一例として、音声処理装置100は、音声信号から導出されるフォルマント周波数を用いて話者の音声らしさを算出することができる。例えば、導出部130Eは、取得部130Aにより音声信号のフレームnが取得される度に、フォルマント周波数の平均値を算出する。ここで言う「平均値」とは、一例として、音声信号の取得が開始された最初のフレームから選択フレームまでの間で観測されるフォルマント周波数を母集団とする集合における平均値を指す。この母集団には、必ずしも発話区間に対応しないフレームは含まれずともよく、発話区間に含まれるフレームに絞って実行することもできる。
上記の実施例1では、印象の評価結果を「印象がよい」、「普通」、「印象が悪い」のいずれかの評価結果として表示する場合を例示したが、評価結果を評価値として出力してもよい。例えば、印象評価部130Kは、平常時のヒストグラムの広がりよりも、統計量の情報に含まれる広がりの方が広い場合、「評価値=1」と評価する。また、印象評価部130Kは、平常時のヒストグラムの広がりと、統計量の情報に含まれる広がりとが等しい場合、「評価値=0」と評価する。さらに、印象評価部130Kは、平常時のヒストグラムの広がりよりも、統計量の情報に含まれる広がりの方が狭い場合、「評価値=-1」と評価する。
上記の実施例1で説明した実装形態は、実施例1に係る音声処理装置の機能がコンピュータシステムに実装される一例であり、他の実装形態を採用することもできる。
図12は、他の実装形態の一例を示す図である。図12に示すように、他の実装形態では、システムは、電話機50と、交換機30a,30bと、オペレータ端末60と、音声処理装置200とを有する。電話機50は、スピーカ20aおよびマイク25aに接続される。オペレータ端末60は、スピーカ20bおよびマイク25bに接続される。
図13、他の実装形態の一例を示す図である。図13に示すように、他の実装形態では、システムは、マイク40a、40b、40c、収録機器300、表示装置350、音声処理装置400を有する。収録機器300は、ネットワーク35を介して、音声処理装置400に接続される。図示を省略するが、音声処理装置400は、クラウド上の単数または複数のサーバによって構成されていてもよい。
図15は、他の実装形態の一例を示す図である。図15に示すように、他の実装形態では、システムは、携帯端末65と、基地局60a,60bと、音声処理装置500とを有する。携帯端末65は、スピーカ20aおよびマイク25aに接続される。音声処理装置500は、スピーカ20bおよびマイク25bに接続される。
また、上記の実施例で説明した各種の処理は、予め用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。そこで、以下では、図16を用いて、上記の実施例と同様の機能を有する音声処理プログラムを実行するコンピュータの一例について説明する。
前記音声信号に関する音響特徴量を算出し、
前記音声信号のフレームに関する音声パラメータを算出し、
前記算出された音声パラメータと、音声パラメータの統計値との間で相対値を算出し、
前記相対値に応じて前記音声信号のフレームに重みを付与し、
前記音声信号のフレームに付与された重みに基づいて前記音響特徴量の分布を算出する、
処理をコンピュータに実行させることを特徴とする音声処理プログラム。
前記相対値を算出する処理は、前記音声信号に含まれる複数のフレームで算出される音声パラメータのうち音声パラメータの最大値と、前記取得されたフレームから算出された音声パラメータとの差を前記相対値として算出することを特徴とする付記1または付記2に記載の音声処理プログラム。
前記相対値を算出する処理は、前記音声信号に含まれる複数のフレームで算出される音声パラメータのうち音声パラメータの最頻値と、前記取得されたフレームから算出された音声パラメータとの比を前記相対値として算出することを特徴とする付記1または付記2に記載の音声処理プログラム。
前記相対値を算出する処理は、前記音声信号に含まれる複数のフレームの間でフォルマント周波数の平均値をフォルマントごとに算出し、該算出されたフォルマント周波数の平均値と、前記取得されたフレームから算出されたフォルマント周波数との比をフォルマントごとに算出し、該算出されたフォルマントごとの比が合成された合成比を前記相対値として算出することを特徴とする付記1または付記2に記載の音声処理プログラム。
前記音声信号に関する音響特徴量を算出し、
前記音声信号のフレームに関する音声パラメータを算出し、
前記算出された音声パラメータと、音声パラメータの統計値との間で相対値を算出し、
前記相対値に応じて前記音声信号のフレームに重みを付与し、
前記音声信号のフレームに付与された重みに基づいて前記音響特徴量の分布を算出する、
処理をコンピュータが実行することを特徴とする音声処理方法。
前記相対値を算出する処理は、前記音声信号に含まれる複数のフレームで算出される音声パラメータのうち音声パラメータの最大値と、前記取得されたフレームから算出された音声パラメータとの差を前記相対値として算出することを特徴とする付記7または付記8に記載の音声処理方法。
前記相対値を算出する処理は、前記音声信号に含まれる複数のフレームで算出される音声パラメータのうち音声パラメータの最頻値と、前記取得されたフレームから算出された音声パラメータとの比を前記相対値として算出することを特徴とする付記7または付記8に記載の音声処理方法。
前記相対値を算出する処理は、前記音声信号に含まれる複数のフレームの間でフォルマント周波数の平均値をフォルマントごとに算出し、該算出されたフォルマント周波数の平均値と、前記取得されたフレームから算出されたフォルマント周波数との比をフォルマントごとに算出し、該算出されたフォルマントごとの比が合成された合成比を前記相対値として算出することを特徴とする付記7または付記8に記載の音声処理方法。
前記音声信号に関する音響特徴量を算出する第1算出部と、
前記音声信号のフレームに関する音声パラメータを算出する第2算出部と、
前記算出された音声パラメータと、音声パラメータの統計値との間で相対値を算出する第3算出部と、
前記相対値に応じて前記音声信号のフレームに重みを付与する重み付与部と、
前記音声信号のフレームに付与された重みに基づいて前記音響特徴量の分布を算出する第4算出部と、
を有することを特徴とする音声処理装置。
前記第3算出部は、前記音声信号に含まれる複数のフレームで算出される音声パラメータのうち音声パラメータの最大値と、前記取得されたフレームから算出された音声パラメータとの差を前記相対値として算出することを特徴とする付記13または付記14に記載の音声処理装置。
前記第3算出部は、前記音声信号に含まれる複数のフレームで算出される音声パラメータのうち音声パラメータの最頻値と、前記取得されたフレームから算出された音声パラメータとの比を前記相対値として算出することを特徴とする付記13または付記14に記載の音声処理装置。
前記第3算出部は、前記音声信号に含まれる複数のフレームの間でフォルマント周波数の平均値をフォルマントごとに算出し、該算出されたフォルマント周波数の平均値と、前記取得されたフレームから算出されたフォルマント周波数との比をフォルマントごとに算出し、該算出されたフォルマントごとの比が合成された合成比を前記相対値として算出することを特徴とする付記13または付記14に記載の音声処理装置。
110 受信部
120 音声データ記憶部
120a 音声バッファ
130A 取得部
130B 強度算出部
130C 発話区間検出部
130D 音響特徴量算出部
130E 導出部
130F 統計値記憶部
130G 更新部
130H 音声らしさ算出部
130I 重み付与部
130J 分布算出部
130K 印象評価部
140 表示部
Claims (9)
- 音声信号を取得し、
前記音声信号のフレームに関する音響特徴量としてピッチ周波数を算出し、
前記音声信号のフレームに関する音声パラメータとしてパワーを算出し、
前記フレームで算出された前記パワーと、前記音声信号におけるパワーの最大値との相対値を算出し、
算出された前記相対値に応じて、前記音声信号のフレームに、前記相対値が大きいほど大きい係数を、重みとして付与し、
前記音声信号のフレームに付与された重みに基づいて前記音響特徴量の分布を算出し、前記分布の広がりを算出する、
処理をコンピュータに実行させることを特徴とする音声処理プログラム。 - 前記音響特徴量の分布の広がりに基づいて、前記音声信号から検出される発話の印象を評価する処理を前記コンピュータにさらに実行させることを特徴とする請求項1に記載の音声処理プログラム。
- 音声信号を取得し、
前記音声信号のフレームに関する音響特徴量としてピッチ周波数を算出し、
前記音声信号のフレームに関する音声パラメータとして信号雑音比を算出し、
前記フレームで算出された前記信号雑音比と、前記音声信号における信号雑音比の最大値との相対値を算出し、
算出された前記相対値に応じて、前記音声信号のフレームに、前記相対値が大きいほど大きい係数を、重みとして付与し、
前記音声信号のフレームに付与された重みに基づいて前記音響特徴量の分布を算出し、前記分布の広がりを算出する、
処理をコンピュータに実行させることを特徴とする音声処理プログラム。 - 音声信号を取得し、
前記音声信号のフレームに関する音響特徴量としてピッチ周波数を算出し、
前記音声信号のフレームに関する音声パラメータとしてスペクトルの平均パワーを算出し、
前記フレームで算出された前記スペクトルの平均パワーと、前記音声信号におけるスペクトルの平均パワーの最大値との相対値を算出し、
算出された前記相対値に応じて、前記音声信号のフレームに、前記相対値が大きいほど大きい係数を、重みとして付与し、
前記音声信号のフレームに付与された重みに基づいて前記音響特徴量の分布を算出し、前記分布の広がりを算出する、
処理をコンピュータに実行させることを特徴とする音声処理プログラム。 - 音声信号を取得し、
前記音声信号のフレームに関する音響特徴量としてピッチ周波数を算出し、
前記音声信号のフレームに関する音声パラメータとして自己相関係数を算出し、
前記フレームで算出された前記自己相関係数と、前記音声信号における自己相関係数の最大値との相対値を算出し、
算出された前記相対値に応じて、前記音声信号のフレームに、前記相対値が大きいほど大きい係数を、重みとして付与し、
前記音声信号のフレームに付与された重みに基づいて前記音響特徴量の分布を算出し、前記分布の広がりを算出する、
処理をコンピュータに実行させることを特徴とする音声処理プログラム。 - 音声信号を取得し、
前記音声信号のフレームに関する音響特徴量としてピッチ周波数を算出し、
前記音声信号のフレームに関する音声パラメータとしてピッチ周波数を算出し、
前記フレームで前記音声パラメータとして算出された前記ピッチ周波数と、前記音声信号におけるピッチ周波数の最頻値との相対値を算出し、
算出された前記相対値に応じて、前記音声信号のフレームに、前記相対値が前記最頻値に近いほど大きい係数を、重みとして付与し、
前記音声信号のフレームに付与された重みに基づいて前記音響特徴量の分布を算出し、前記分布の広がりを算出する、
処理をコンピュータに実行させることを特徴とする音声処理プログラム。 - 音声信号を取得し、
前記音声信号のフレームに関する音響特徴量としてピッチ周波数を算出し、
前記音声信号のフレームに関する音声パラメータとして、第1フォルマント周波数と、第2フォルマント周波数とを算出し、
前記音声信号における第1フォルマント周波数の平均に対する前記第1フォルマント周波数の相対値と、前記音声信号における第2フォルマント周波数の平均に対する前記第2フォルマント周波数の相対値とのフォルマント相対値の比を算出し、
算出された前記フォルマント相対値の比に応じて、前記音声信号のフレームに、前記フォルマント相対値の比が特定の値に近づくほど大きい係数を、重みとして付与し、
前記音声信号のフレームに付与された重みに基づいて前記音響特徴量の分布を算出し、前記分布の広がりを算出する、
処理をコンピュータに実行させることを特徴とする音声処理プログラム。 - 音声信号を取得し、
前記音声信号のフレームに関する音響特徴量としてピッチ周波数を算出し、
前記音声信号のフレームに関する音声パラメータとしてパワーを算出し、
前記フレームで算出された前記パワーと、前記音声信号におけるパワーの最大値との相対値を算出し、
算出された前記相対値に応じて、前記音声信号のフレームに、前記相対値が大きいほど大きい係数を、重みとして付与し、
前記音声信号のフレームに付与された重みに基づいて前記音響特徴量の分布を算出し、前記分布の広がりを算出する、
処理をコンピュータが実行することを特徴とする音声処理方法。 - 音声信号を取得し、
前記音声信号のフレームに関する音響特徴量としてピッチ周波数を算出し、
前記音声信号のフレームに関する音声パラメータとしてパワーを算出し、
前記フレームで算出された前記パワーと、前記音声信号におけるパワーの最大値との相対値を算出し、
算出された前記相対値に応じて、前記音声信号のフレームに、前記相対値が大きいほど大きい係数を、重みとして付与し、
前記音声信号のフレームに付与された重みに基づいて前記音響特徴量の分布を算出し、前記分布の広がりを算出する、
処理を実行する制御部を含む音声処理装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017186584A JP7000773B2 (ja) | 2017-09-27 | 2017-09-27 | 音声処理プログラム、音声処理方法および音声処理装置 |
US16/139,291 US10885931B2 (en) | 2017-09-27 | 2018-09-24 | Voice processing method, voice processing apparatus, and non-transitory computer-readable storage medium for storing voice processing computer program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017186584A JP7000773B2 (ja) | 2017-09-27 | 2017-09-27 | 音声処理プログラム、音声処理方法および音声処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019061129A JP2019061129A (ja) | 2019-04-18 |
JP7000773B2 true JP7000773B2 (ja) | 2022-01-19 |
Family
ID=65806777
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017186584A Active JP7000773B2 (ja) | 2017-09-27 | 2017-09-27 | 音声処理プログラム、音声処理方法および音声処理装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US10885931B2 (ja) |
JP (1) | JP7000773B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220277761A1 (en) * | 2019-07-29 | 2022-09-01 | Nippon Telegraph And Telephone Corporation | Impression estimation apparatus, learning apparatus, methods and programs for the same |
CN112562687B (zh) * | 2020-12-11 | 2023-08-04 | 天津讯飞极智科技有限公司 | 音视频处理方法、装置、录音笔和存储介质 |
CN113593527B (zh) | 2021-08-02 | 2024-02-20 | 北京有竹居网络技术有限公司 | 一种生成声学特征、语音模型训练、语音识别方法及装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013118192A1 (ja) | 2012-02-10 | 2013-08-15 | 三菱電機株式会社 | 雑音抑圧装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0638199B2 (ja) | 1985-09-02 | 1994-05-18 | 日本電気株式会社 | 音声認識装置 |
GB9419388D0 (en) * | 1994-09-26 | 1994-11-09 | Canon Kk | Speech analysis |
JP4883750B2 (ja) | 2005-01-20 | 2012-02-22 | 株式会社国際電気通信基礎技術研究所 | 音響評定装置、およびプログラム |
JP2006267465A (ja) | 2005-03-23 | 2006-10-05 | Tokyo Electric Power Co Inc:The | 発話状態評価装置、発話状態評価プログラム、プログラム格納媒体 |
JP5716595B2 (ja) * | 2011-01-28 | 2015-05-13 | 富士通株式会社 | 音声補正装置、音声補正方法及び音声補正プログラム |
-
2017
- 2017-09-27 JP JP2017186584A patent/JP7000773B2/ja active Active
-
2018
- 2018-09-24 US US16/139,291 patent/US10885931B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013118192A1 (ja) | 2012-02-10 | 2013-08-15 | 三菱電機株式会社 | 雑音抑圧装置 |
Non-Patent Citations (1)
Title |
---|
外川太郎 他,"感性デジタルマーケティングを支えるメディア処理技術",FUJITSU,2017年09月01日,Vol.68,No.5,pp.43-51 |
Also Published As
Publication number | Publication date |
---|---|
JP2019061129A (ja) | 2019-04-18 |
US20190096433A1 (en) | 2019-03-28 |
US10885931B2 (en) | 2021-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10504539B2 (en) | Voice activity detection systems and methods | |
JP4307557B2 (ja) | 音声活性度検出器 | |
CN109036460B (zh) | 基于多模型神经网络的语音处理方法和装置 | |
JP7000773B2 (ja) | 音声処理プログラム、音声処理方法および音声処理装置 | |
US10783899B2 (en) | Babble noise suppression | |
KR101260938B1 (ko) | 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체 | |
JP5542206B2 (ja) | オーディオ・システムの知覚品質を判定する方法およびシステム | |
CN105118522B (zh) | 噪声检测方法及装置 | |
EP2363852A1 (en) | Computer-based method and system of assessing intelligibility of speech represented by a speech signal | |
KR101317813B1 (ko) | 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체 | |
KR20180056281A (ko) | 키워드 인식 장치 및 방법 | |
Morales-Cordovilla et al. | Feature extraction based on pitch-synchronous averaging for robust speech recognition | |
KR101335417B1 (ko) | 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체 | |
JP6268916B2 (ja) | 異常会話検出装置、異常会話検出方法及び異常会話検出用コンピュータプログラム | |
RU2611973C2 (ru) | Ослабление шума в сигнале | |
Lu | Noise reduction using three-step gain factor and iterative-directional-median filter | |
CN113593604A (zh) | 检测音频质量方法、装置及存储介质 | |
JP7000757B2 (ja) | 音声処理プログラム、音声処理方法および音声処理装置 | |
CN115995234A (zh) | 音频降噪方法、装置、电子设备及可读存储介质 | |
RU2230375C2 (ru) | Метод распознавания диктора и устройство для его осуществления | |
CN113450812A (zh) | 一种啸叫检测方法、语音通话方法以及相关装置 | |
JP2019060976A (ja) | 音声処理プログラム、音声処理方法および音声処理装置 | |
CN117995193B (zh) | 一种基于自然语言处理的智能机器人语音交互方法 | |
JP6907859B2 (ja) | 音声処理プログラム、音声処理方法および音声処理装置 | |
CN115662475A (zh) | 音频数据处理方法、装置、电子设备和可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200611 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210408 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210420 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210614 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211124 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211207 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7000773 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |