JP7257834B2 - Speech processing device, speech processing method, and speech processing system - Google Patents
Speech processing device, speech processing method, and speech processing system Download PDFInfo
- Publication number
- JP7257834B2 JP7257834B2 JP2019056800A JP2019056800A JP7257834B2 JP 7257834 B2 JP7257834 B2 JP 7257834B2 JP 2019056800 A JP2019056800 A JP 2019056800A JP 2019056800 A JP2019056800 A JP 2019056800A JP 7257834 B2 JP7257834 B2 JP 7257834B2
- Authority
- JP
- Japan
- Prior art keywords
- audio signal
- audio
- user
- carbon dioxide
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
本開示は音声処理装置、音声処理方法、および音声処理システムに関する。 The present disclosure relates to an audio processing device, an audio processing method, and an audio processing system.
スピーカから出力された音をマイクが拾うことによって耳障りな騒音を発生する現象(ハウリング)が知られている。ハウリングは音声を聞き取る際の支障となる。そのため、ハウリングを抑制する様々な装置および方法が提案されている。 A phenomenon (howling) is known in which an offensive noise is generated when a microphone picks up sound output from a speaker. Howling interferes with listening to voice. Therefore, various devices and methods for suppressing howling have been proposed.
例えば、特許文献1のハウリング抑制装置はカラオケ装置で使用される。特許文献1のハウリング抑制装置は、ハウリングが検知されている期間において、アナログドライ音経路をデジタルドライ音経路に切り替える。 For example, the howling suppression device of Patent Document 1 is used in a karaoke machine. The howling suppression device of Patent Literature 1 switches the analog dry sound path to the digital dry sound path during a period in which howling is detected.
しかし、特許文献1の技術では、マイクに入力される音声が、その場にいる者が発した声であるか、話者の発声以外の音(例えばノイズ、電話を介した音声等)であるかを区別しない。そのため、特許文献1の技術では、ハウリングが発生しにくい肉声に対しても、肉声以外の音声に対しても、画一的な音声処理が実行される。しかしながら、ハウリング抑制効果等の音響効果を施す音声処理は、話者の発声状態(例えば、話者が発声しているか否か等)に応じて制御されることが望ましい。 However, in the technique of Patent Document 1, the voice input to the microphone is the voice uttered by a person present on the spot, or a sound other than the utterance of the speaker (for example, noise, voice via telephone, etc.). does not distinguish between Therefore, in the technique disclosed in Patent Document 1, uniform audio processing is performed for both human voice in which howling is unlikely to occur and audio other than human voice. However, it is desirable that the audio processing for applying acoustic effects such as howling suppression effects is controlled according to the speaking state of the speaker (for example, whether the speaker is speaking or not).
本開示は、話者の発声状態に応じて音響効果を施す音声処理を制御する音声処理装置、音声処理方法、および音声処理システムの提供を目的とする。 An object of the present disclosure is to provide a speech processing device, a speech processing method, and a speech processing system that control speech processing for applying sound effects according to the utterance state of a speaker.
本開示の音声処理装置は、外部から入力される音声に基づく音声信号を出力するマイクロフォンと、二酸化炭素濃度を測定する濃度測定部と、前記二酸化炭素濃度に基づいて、前記音声信号に施す音響効果を制御する制御信号を生成する音声信号制御部と、前記制御信号に基づいて前記音声信号に前記音響効果を施す音声信号処理部と、を備える。 The sound processing device of the present disclosure includes a microphone that outputs a sound signal based on sound input from the outside, a concentration measurement unit that measures the carbon dioxide concentration, and a sound effect that is applied to the sound signal based on the carbon dioxide concentration. and an audio signal processing unit that applies the sound effect to the audio signal based on the control signal.
本開示の音声処理方法は、外部から入力される音声に基づく音声信号を出力するステップと、二酸化炭素濃度を測定するステップと、前記二酸化炭素濃度に基づいて、前記音声信号に施す音響効果を制御する制御信号を生成するステップと、前記制御信号に基づいて前記音声信号に前記音響効果を施すステップと、を含む。 The audio processing method of the present disclosure includes the steps of outputting an audio signal based on an externally input audio, measuring a carbon dioxide concentration, and controlling a sound effect applied to the audio signal based on the carbon dioxide concentration. and applying the sound effect to the audio signal based on the control signal.
本開示の音声処理システムは、音声を収音する収音装置と、音声出力装置とを備え、前記収音装置は、外部から入力される音声に基づく音声信号を出力するマイクロフォンと、二酸化炭素濃度を測定する濃度測定部と、前記二酸化炭素濃度に基づいて、前記音声信号に施す音響効果を制御する制御信号を生成する音声信号制御部と、を備え、前記収音装置および/または前記音声出力装置が、前記制御信号に基づいて前記音声信号に前記音響効果を施す音声信号処理部を備え、前記音声出力装置が、前記音響効果が施された前記音声信号を音声として出力する音声出力部を備える。 A sound processing system of the present disclosure includes a sound collecting device that collects sound and a sound output device. The sound collecting device includes a microphone that outputs a sound signal based on sound input from the outside, and a carbon dioxide concentration and an audio signal control unit that generates a control signal for controlling a sound effect applied to the audio signal based on the carbon dioxide concentration, the sound collecting device and / or the audio output The device comprises an audio signal processing unit that applies the sound effect to the audio signal based on the control signal, and the audio output device includes an audio output unit that outputs the audio signal to which the sound effect has been applied as sound. Prepare.
本開示によれば、話者の発声状態に応じて音響効果を施す音声処理を制御する音声処理装置、音声処理方法、および音声処理システムを提供することができる。 Advantageous Effects of Invention According to the present disclosure, it is possible to provide a speech processing device, a speech processing method, and a speech processing system that control speech processing for applying sound effects according to the utterance state of a speaker.
以下、図面を参照して本開示の実施形態を説明する。 Embodiments of the present disclosure will be described below with reference to the drawings.
(音声処理装置)
(第1実施形態)
まず、第1実施形態を説明する。図1は、本実施形態における音声処理装置10の一例を示す概略構成図である。音声処理装置10は、話者の発声状態に応じて音響効果を施すために音声信号に対する音声処理を実行する。ここで、音声処理装置10は、使用者の呼気を検出し、入力情報が使用者の肉声であるか否かを判定する。音声処理装置10は、入力情報についての判定結果に応じて、実行する音声処理を変更する。
(sound processing device)
(First embodiment)
First, the first embodiment will be explained. FIG. 1 is a schematic configuration diagram showing an example of a
音声処理装置10は、マイクロフォン20と、濃度測定部30と、音声信号制御部40と、音声信号処理部50と、を備える。音声処理装置10は、音声出力部60を更に備えてよい。
The
例えば、音声処理装置10は、拡声器(図3参照)、ハンドマイクまたは自動車内のハンズフリー通話装置等に搭載されてよい。
For example, the
(マイクロフォン)
マイクロフォン20は、音声処理装置10の外部から入力される音声に基づく音声信号を音声信号処理部50に出力する。マイクロフォン20としては、音声を取得可能なものであれば特に限定されず、例えばコンデンサマイク、圧電マイク、ダイナミックマイクとすることができる。
マイクロフォン20は、音声処理装置10の内部に配置し、マイクロフォン20と音声処理装置10の外部とを音声処理装置10の開口部を介して連通させてもよいし、或いは、音声処理装置10より露出された状態で配置されてもよい。
ここで、音声処理装置10は、外部から入力される入力情報を取得する。入力情報は音声および呼気を含む。マイクロフォン20は、入力情報のうちの音声を取得する。音声は、使用者が発した声、ノイズおよび電話を介した音声等を含み得る。
(microphone)
The
The
Here, the
(濃度測定部)
濃度測定部30は、入力情報のうちの呼気に基づいて変化する空気中の二酸化炭素濃度を測定する。濃度測定部30としては、二酸化炭素濃度を測定可能であれば限定されず、例えば非分散型赤外線分析法を用いたガスセンサを用いることができる。また、濃度測定部30における二酸化炭素濃度の検知方式は、絶対値検知、相対値検知のどちらでもよい。
濃度測定部30の音声処理装置10内の配置は、特に限定されないが、例えばマイクロフォン20が音声処理装置10の内部に配置されている場合には、濃度測定部30を、音声処理装置10の開口部付近に設けることができる。また、マイクロフォン20が音声処理装置10より露出された状態で配置されている場合には、濃度測定部30を、露出したマイクロフォン20付近に設けることができる。濃度測定部30による空気中の二酸化炭素濃度は、使用者の発声に伴う呼気を含む空気が、開口部を介して音声処理装置10の内部に取り込まれることで変化し、または、使用者の呼気を含んだ空気が、マイクロフォン20に吹き込まれることで変化する。なお、濃度測定部30は、使用者がマイクロフォン20に向かって発声した際に、濃度測定部30による二酸化炭素濃度の測定が可能であればマイクロフォン20と濃度測定部30とが離間することは許容される。
濃度測定部30は、常時動作、または、適切な間隔(例えば1秒)での間欠動作を行ってよい。
(Concentration measuring part)
The
The arrangement of the
The
(音声信号制御部)
音声信号制御部40は、濃度測定部30が測定した二酸化炭素濃度を取得する。また、音声信号制御部40は、取得した二酸化炭素濃度に基づいて、音声信号に施す音響効果を制御する制御信号を生成する。音声信号制御部40による信号の生成は、例えばマイクロプロセッサ、マイクロコントローラ、または、CPU(Central Processing Unit)などの演算処理装置により実現される。
音声信号制御部40は、二酸化炭素濃度に基づいて、使用者が発声中か否かの判定を行う。判定の詳細は後述する。音声信号制御部40は、判定結果、すなわち、使用者が発声中か否かに応じて、異なる制御信号を生成する。生成された制御信号は、音声信号処理部50に出力される。本実施形態において、音声信号制御部40は、使用者が発声中と判定した場合に、第1の制御信号を生成する。また、音声信号制御部40は、使用者が発声していないと判定した場合に、第2の制御信号を生成する。
(Audio signal control unit)
The audio
The audio
(音声信号処理部)
音声信号処理部50は、音声信号制御部40から取得した制御信号に基づいて、マイクロフォン20から取得した音声信号に対して音響効果を施す。上記のように、音声信号制御部40は、使用者が発声中か否かに応じて異なる制御信号を生成する。音声信号処理部50は、音声信号に対して、制御信号に応じた音響効果を施すことができる。
本実施形態において、音声信号処理部50が音声信号に対して施す音響効果は、周波数フィルタ効果とすることができる。ここで、音声信号に対して施す音響効果は、周波数フィルタ効果に限定されるものではない。別の例として、音声信号処理部50は、音声信号に対して、ノイズ除去等の音響効果を施してよい。また、さらに別の例として、音声信号処理部50は、音声信号を増幅させる音響効果(アンプ)を施してもよい。また、その他の例として、音声信号処理部50は、音声信号に対して、音程補正加工および歪み加工といったいわゆるボイスエフェクト等の音響効果を施してもよい。
音声信号処理部50は、例えばマイクロプロセッサ、マイクロコントローラ、または、CPU(Central Processing Unit)などの演算処理装置により実現される。
(Audio signal processor)
The audio
In this embodiment, the acoustic effect applied to the audio signal by the audio
The audio
音声信号処理部50が施す音響効果が上記の周波数フィルタ効果である場合、音声信号処理部50は、第1ハウリング抑制フィルタおよび第2ハウリング抑制フィルタを備える。音声信号処理部50は、第1の制御信号(使用者が発声中と判断された場合に生成される)を取得した場合に、音声信号に対して第1ハウリング抑制フィルタを適用する。つまり、音声信号処理部50は、第1の制御信号に従って、音声信号に対して第1の周波数帯域におけるハウリング抑制効果を施す。第1の周波数帯域は、例えば人の声の主な周波数帯域である100Hzから1000Hz、または、100Hzから1000Hzのうち、使用する音響装置や周辺環境に依存するハウリングが発生しやすい周波数帯域である。音声信号処理部50は、使用者が発声中と判定された場合に、音声信号に対して第1の周波数帯域の音量を下げてハウリングを抑制する。また、音声信号処理部50は、第2の制御信号(使用者が発声していないと判断された場合に生成される)を取得した場合に、音声信号に対して第2ハウリング抑制フィルタを適用する。つまり、音声信号処理部50は、第2の制御信号に従って、音声信号に対して第2の周波数帯域におけるハウリング抑制効果を施す。第2の周波数帯域は、第1の周波数帯域よりも広い。第2の周波数帯域は、例えば人の可聴領域である20Hzから20000Hzのうち、使用する音響装置や周辺環境に依存するハウリングが発生しやすい周波数帯域である。音声信号処理部50は、使用者が発声していないと判定された場合に、音声信号に対して第2の周波数帯域の音量を下げてハウリングを抑制する。したがって、本実施形態の音声処理装置10によれば、ハウリングの発生しやすさに応じて効果的にハウリング抑制を実行することができる。
ここで、別の例として、音声信号処理部50は、それぞれが第1の制御信号または第2の制御信号に従って適用される3つ以上のハウリング抑制フィルタを備えてよい。
また、必要に応じて、ハウリング抑制効果が施された音声信号に対して、さらに、別の音響効果を施してもよい。具体的には、例えば、ハウリング抑制効果が施された音声信号を増幅させる音響効果を施してもよい。
When the acoustic effect applied by the audio
Here, as another example, the audio
Further, if necessary, another sound effect may be applied to the audio signal to which the howling suppression effect has been applied. Specifically, for example, a sound effect that amplifies an audio signal to which the howling suppression effect has been applied may be applied.
また、第1実施形態の変形例において、音声信号処理部50が施す音響効果が音声信号を増幅させる効果であるとき、音声信号処理部50は、第1の制御信号を取得した場合に、音声信号を増幅させる音響効果を施す一方、また、第2の制御信号を取得した場合に、音声信号を増幅させる効果を施さない。或いは、音声信号処理部50は、第2の制御信号を取得した場合に、音声信号の出力を停止することでハウリングを抑制する。
Further, in the modified example of the first embodiment, when the acoustic effect applied by the audio
(音声出力部)
音声出力部60では、音声信号処理部50によって音響効果が施された音声信号を音声として出力する。音声出力部60は、例えばスピーカであってもよく、音声出力部60は、音声信号処理部50によって音響効果が施された音声信号を音声として出力可能なものであれば、この種類に限定されるものではない。
(Audio output part)
The
図2は、音声処理装置10の処理手順の一例を示すフローチャートである。音声処理装置10は、フローチャートに記載の処理を実行することによって、音声処理方法を実現する。
FIG. 2 is a flow chart showing an example of a processing procedure of the
音声処理装置10のマイクロフォン20は、外部から入力される入力情報のうちの音声(入力音声)を取得する。そして、マイクロフォン20は、入力音声に応じて音声信号を音声信号処理部50に出力する(ステップS1)。
The
音声処理装置10の濃度測定部30は、入力情報のうちの呼気を含む空気を取得する。そして、濃度測定部30は呼気に基づいて変化する空気中の二酸化炭素濃度を測定する(ステップS2)。ステップS2は、予め使用者によって設定されたタイミング、或いは、使用者によって指定される任意のタイミングで実行されてよい。予め設定されたタイミングは一定の周期で定められてよい。また、予め設定されたタイミングは、音声処理装置10の電源がオンとなったときでよい。また、予め設定されたタイミングは、話者である使用者とマイクロフォン20の距離が変動して、入力情報のうちの音声の音量が予め設定した閾値を超えたときでよい。
The
音声処理装置10の音声信号制御部40は、濃度測定部30で測定された二酸化炭素濃度が、予め設定した閾値以上と判定する場合に、使用者が発声中であると判定する。また、音声信号制御部40は、二酸化炭素濃度が予め設定した閾値より低いと判定する場合に、使用者が発声していないと判定する(ステップS3)。本実施形態において、閾値は、固定値であって音声信号制御部40が記憶している。
The audio
使用者が発声中であると判定された場合に(ステップS3のYES)、音声処理装置10の音声信号処理部50は、音声信号を第1ハウリング抑制フィルタで処理する(ステップS4)。
When it is determined that the user is speaking (YES in step S3), the audio
使用者が発声していないと判定された場合に(ステップS3のNO)、音声処理装置10の音声信号処理部50は、音声信号を第2ハウリング抑制フィルタで処理する(ステップS5)。
When it is determined that the user does not speak (NO in step S3), the audio
使用者がマイクロフォン20に向かって話していない場合に、ノイズなどの肉声より広い周波数帯域を有する音声がマイクロフォン20へ入力される。このとき、第2ハウリング抑制フィルタによって入力音声の音声信号に対して処理が行わなければ、人の可聴領域である20Hzから20000Hzでハウリングが発生する可能性がある。また、使用者がマイクロフォン20に向かって話す場合に、人の声の主な周波数帯域である100Hzから1000Hzの音量が、その他の周波数帯域の音量に比べて相対的に大きくなる。そのため、100Hzから1000Hz以外の周波数帯域で、ハウリングは起こりにくい。このとき、仮に第2ハウリング抑制フィルタによって入力音声の音声信号に対する処理を行うと、ハウリングが起こりにくい周波数帯域の音量も同時に下げてしまう。その結果、音声信号処理部50から出力される音声信号、すなわち、音声信号処理部50によって音響効果が施された音声信号の音質が悪化する。そこで、使用者がマイクロフォン20に向かって話す場合に、ハウリングが発生しやすい100Hzから1000Hzの周波数帯域のみのボリュームを下げる音響効果を施す第1ハウリング抑制フィルタによって音声信号を処理すれば、音質を悪化させることなくハウリングを抑制することができる。
When the user is not speaking into the
ステップS4またはステップS5が実行された後に、音声信号処理部50から出力された音声信号は、音声出力部60によって出力音声が生成される(ステップS6)。
なお、ステップS4またはステップS5が実行された後であってステップS6の前に、ハウリング抑制効果が施された音声信号に対して、さらに、音声信号を増幅させる音響効果を施してもよい。
After step S4 or step S5 is executed, the audio signal output from the audio
Note that after step S4 or step S5 is executed and before step S6, an acoustic effect for amplifying the audio signal may be further applied to the audio signal to which the howling suppression effect has been applied.
(第2実施形態)
次に、第2実施形態を説明する。図4は、本実施形態における音声処理装置10の一例を示す概略構成図である。本実施形態における音声処理装置10は、第1実施形態における音声処理装置10の構成に加えて、濃度記憶部100を更に備える。濃度記憶部100は、音声信号制御部40による使用者の発声状態の判定で用いられる閾値を記憶する。
(Second embodiment)
Next, a second embodiment will be described. FIG. 4 is a schematic configuration diagram showing an example of the
人の呼気中の二酸化炭素濃度は通常4%程度であるが、発せられた呼気は空気中を拡散するため、二酸化炭素濃度は口元からの距離が大きくなるほど低下する。また、新鮮な空気中の二酸化炭素濃度は0.04%以下であるが、換気が悪い屋内の空気中の二酸化炭素濃度は0.4%程度となる。このように、二酸化炭素濃度は、使用者と濃度測定部30の間の距離および使用環境によって変動する。例えば、濃度測定部30で測定された二酸化炭素濃度が、屋内の換気が悪いことによって0.4%程度のとき、固定の閾値との比較では誤って使用者の発声と判定するおそれがある。そのため、使用者が発声状態であるか否かを判断する二酸化炭素濃度の閾値を、使用環境に応じて変動させることによって検出の精度を高めることが可能である。
The concentration of carbon dioxide in human exhaled breath is usually about 4%, but since emitted exhaled breath diffuses in the air, the carbon dioxide concentration decreases as the distance from the mouth increases. Also, the carbon dioxide concentration in fresh air is 0.04% or less, but the carbon dioxide concentration in indoor air with poor ventilation is about 0.4%. Thus, the carbon dioxide concentration varies depending on the distance between the user and the
音声信号制御部40は、濃度測定部30によって測定された空気中の二酸化炭素濃度と濃度記憶部100に記憶された閾値とを比較することによって、使用者が発声中か否かの判定を行う。濃度記憶部100に記憶される二酸化炭素濃度の閾値は、濃度測定部30で測定された二酸化炭素濃度、或いは、濃度測定部30で測定された二酸化炭素濃度を演算した値である。例えば、濃度測定部30で測定された二酸化炭素濃度を演算した値は、使用者である話者が当該装置10を使用している状態で一定期間測定し、当該期間中の最小の二酸化炭素濃度を閾値としてもよいし、或いは、使用者である話者が周囲にいない状態で一定期間測定し、当該期間中の最大の二酸化炭素濃度を閾値としてもよい。例えば、濃度測定部30で測定された二酸化炭素濃度を演算した値は、二酸化炭素濃度に所定の割合を乗じた値であってよく、これにより、例えば、使用者と濃度測定部30とが多少離れていたとしても、発声中か否かを判断できるようにしてもよい。
The audio
濃度記憶部100が記憶する閾値は、予め設定されたタイミング、或いは、使用者によって指定される任意のタイミングで更新される。予め設定されたタイミングは一定の周期で定められてよい。また、予め設定されたタイミングは、音声処理装置10の電源がオンとなったときでよい。また、予め設定されたタイミングは、話者である使用者とマイクロフォン20の距離が変動して、入力情報のうちの音声の音量が予め設定した閾値を超えたときでよい。また、予め設定されたタイミングとは、使用者とマイクロフォン20の距離が変動して、入力情報のうちの濃度測定部30で測定された二酸化炭素濃度が予め設定した閾値を超えたときでよい。また、予め設定されたタイミングは、使用環境中の二酸化炭素濃度が変動して、ある範囲内の二酸化炭素濃度が一定期間以上、濃度測定部30で測定されたときでよい。閾値が更新されることによって、音声処理装置10と使用者の口元との距離の変動、使用環境中の二酸化炭素濃度の変動があっても、音声信号制御部40は、高精度に使用者の発声状態を判定することができる。例えば、濃度測定部30において0.4%程度の二酸化炭素濃度が連続して1分間以上測定された場合は、使用環境の空気中の二酸化炭素濃度が0.4%程度であると判断し、使用者が発声しているタイミング、或いは、使用者が指定する任意のタイミングで二酸化炭素濃度を測定し、これを基に使用者の発声状態を判定する二酸化炭素濃度の閾値が定められてもよい。
The threshold value stored in the
(濃度記憶部)
濃度記憶部100は、使用者の発声状態を判定する二酸化炭素濃度の閾値を記憶することが可能なものであれば特に制限されない。例えば、DRAM(Dynamic Random Access Memory)やSRAM(Static Random Access Memory)に代表される半導体メモリ等の主記憶装置や、HDD(Hard Disk Drive)に代表される磁気ディスクや、CD-ROMやDVD-ROMに代表される光ディスク、USBメモリや各種メモリーカード、SSD(Solid State Drive)に搭載されるフラッシュメモリ等の補助記憶装置を適用することができる。
(Concentration storage unit)
The
図5は、音声処理装置10の、処理手順の一例を示すフローチャートである。音声処理装置10では、まず、使用者の発声状態を判定する二酸化炭素濃度の閾値を更新するタイミングかどうかを判定する(ステップS11)。
FIG. 5 is a flowchart showing an example of a processing procedure of the
そして、二酸化炭素濃度の閾値を更新するタイミングだった場合(ステップS11のYES)は、濃度記憶部100に記憶されている二酸化炭素濃度の閾値を消去する(ステップS12)。一方、二酸化炭素濃度の閾値を更新するタイミングではない場合(ステップS11のNO)、二酸化炭素濃度の閾値が記憶されているかどうかを判定する(ステップS13)。
If it is time to update the carbon dioxide concentration threshold (YES in step S11), the carbon dioxide concentration threshold stored in the
そして、濃度記憶部100において二酸化炭素濃度の閾値が記憶されている場合(ステップS13のYES)は、第1実施形態と同様に、濃度測定部30において測定された二酸化炭素濃度に応じた処理が実施される(ステップS16からステップS21)。一方、濃度記憶部100において二酸化炭素濃度の閾値が記憶されていない場合(ステップS13のNO)は、予め設定したタイミング、或いは、使用者によって指定される任意のタイミングで、濃度測定部30において二酸化炭素濃度を測定する(ステップS14)。予め設定されたタイミングは、使用者がマイクロフォン20に対して発声し、入力情報のうちの音声の音量が予め設定した閾値を超えたときでよい。
Then, when the threshold value of the carbon dioxide concentration is stored in the concentration storage unit 100 (YES in step S13), the process corresponding to the carbon dioxide concentration measured by the
そして、ステップS14において測定された二酸化炭素濃度を基に、使用者の発声状態を判定する二酸化炭素濃度の閾値を濃度記憶部100に記憶する(ステップS15)。 Then, based on the carbon dioxide concentration measured in step S14, the carbon dioxide concentration threshold for determining the vocalization state of the user is stored in the concentration storage unit 100 (step S15).
ところで、第1実施形態および第2実施形態にかかる音声処理装置10において、音声処理装置10の各構成要素および機能は再配置可能であってよい。例えば、音声処理装置10、特に音声信号処理部50の構成および機能の一部または全部を、他の装置に包含させてもよい。
By the way, in the
(音声処理システム)
つづいて、本実施形態に係る音声処理システムを説明する。
図6は、本実施形態に係る音声処理システム200の一例を示す概略構成図である。音声処理システム200は、ハウリング抑制をするために音声信号に対する音声処理を実行する。ここで、音声処理システム200は、使用者の呼気を検出し、入力情報が使用者の肉声であるか否かを判定する。音声処理システム200は、入力情報についての判定結果に応じて、実行する音声処理を変更する。
音声処理システム200は、例えば、カラオケ店舗でのカラオケシステム、コンサートホールでの音響設備等に搭載されてよい。
(Voice processing system)
Next, the voice processing system according to this embodiment will be described.
FIG. 6 is a schematic configuration diagram showing an example of the
The
本実施形態における音声信号処理システムは、音声を収音する収音装置210と、音声出力装置220とを備える。
また、収音装置210は、外部から入力される音声に基づく音声信号を出力するマイクロフォン20と、二酸化炭素濃度を測定する濃度測定部30と、二酸化炭素濃度に基づいて、音声信号に施す音響効果を制御する制御信号を生成する音声信号制御部40と、を備える。さらに、収音装置210および/または音声出力装置220が、制御信号に基づいて音声信号に音響効果を施す音声信号処理部50を備える(図6では収音装置210が音声信号処理部50を備える)。また、音声出力装置220が、音響効果が施された音声信号を音声として出力する音声出力部60を備える。
本実施形態においては、音声処理システム200は、さらに、収音装置210が、二酸化炭素濃度の閾値を記憶する濃度記憶部100を備えてもよい。
The audio signal processing system in this embodiment includes a
The
In the present embodiment, the
本実施形態において、収音装置210が備える、マイクロフォン20、濃度測定部30および音声信号制御部40、濃度記憶部100、収音装置210および/または音声出力装置220が備える音声信号処理部50、並びに、音声出力装置220が備える音声出力部60は、上記の本実施形態の音声処理装置10の各構成要素と同様にすることができる。
In the present embodiment, the
また、収音装置210および音声出力装置220は、例えばネットワーク230を介して情報を送受信可能である。ネットワーク230は、例えば無線または有線の任意の情報伝達経路を含んでよい。
Also, the
以上、本実施形態の音声処理システム200によれば、ハウリングの発生しやすさに応じて効果的にハウリング抑制を実行することができる。
As described above, according to the
本発明を諸図面や実施形態に基づき説明してきたが、当業者であれば本開示に基づき種々の変形や修正を行うことが容易であることに注意されたい。したがって、これらの変形や修正は本発明の範囲に含まれることに留意されたい。例えば、各手段、各ステップ等に含まれる機能等は論理的に矛盾しないように再配置可能であり、複数の手段やステップ等を1つに組み合わせたり、あるいは分割したりすることが可能である。
さらに、本発明は、ハウリング抑制以外の目的にも用いてもよい。
Although the present invention has been described with reference to drawings and embodiments, it should be noted that those skilled in the art can easily make various changes and modifications based on this disclosure. Therefore, please note that these variations and modifications are included in the scope of the present invention. For example, the functions included in each means, each step, etc. can be rearranged so as not to be logically inconsistent, and it is possible to combine a plurality of means, steps, etc. into one or divide them. .
Furthermore, the present invention may be used for purposes other than howling suppression.
10 音声処理装置
20 マイクロフォン
30 濃度測定部
40 音声信号制御部
50 音声信号処理部
60 音声出力部
100 濃度記憶部
200 音声処理システム
210 収音装置
220 音声出力装置
230 ネットワーク
10
Claims (5)
二酸化炭素濃度を測定する濃度測定部と、
前記二酸化炭素濃度に基づいて、前記音声信号に施す音響効果を制御する制御信号を生成する音声信号制御部と、
前記制御信号に基づいて前記音声信号に前記音響効果を施す音声信号処理部と、を備え、
前記音声信号制御部は、前記二酸化炭素濃度に基づいて使用者が発声中か否かの判定を行い、前記使用者が発声中か否かに応じた前記制御信号を生成し、
前記音声信号処理部は、前記使用者が発声中と判定された場合に、前記音声信号に対して第1の周波数帯域におけるハウリング抑制効果を施し、前記使用者が発声していないと判定された場合に、前記音声信号に対して前記第1の周波数帯域よりも広い第2の周波数帯域におけるハウリング抑制効果を施す、音声処理装置。 a microphone that outputs an audio signal based on audio input from the outside;
a concentration measuring unit that measures carbon dioxide concentration;
an audio signal control unit that generates a control signal for controlling a sound effect applied to the audio signal based on the carbon dioxide concentration;
an audio signal processing unit that applies the sound effect to the audio signal based on the control signal ,
The audio signal control unit determines whether or not the user is speaking based on the carbon dioxide concentration, generates the control signal according to whether the user is speaking,
The audio signal processing unit applies a howling suppression effect in a first frequency band to the audio signal when it is determined that the user is speaking, and it is determined that the user is not speaking. and applying a howling suppression effect to the audio signal in a second frequency band wider than the first frequency band .
前記音声信号制御部は、前記二酸化炭素濃度と前記閾値とを比較することによって、前記使用者が発声中か否かの判定を行う、請求項1に記載の音声処理装置。 further comprising a concentration storage unit that stores the threshold value of the carbon dioxide concentration;
2. The speech processing apparatus according to claim 1 , wherein said speech signal control section compares said carbon dioxide concentration with said threshold to determine whether said user is speaking.
二酸化炭素濃度を測定するステップと、
前記二酸化炭素濃度に基づいて、前記音声信号に施す音響効果を制御する制御信号を生成するステップと、
前記制御信号に基づいて前記音声信号に前記音響効果を施すステップと、を含み、
前記制御信号を生成するステップは、前記二酸化炭素濃度に基づいて使用者が発声中か否かの判定を行い、前記使用者が発声中か否かに応じた前記制御信号を生成し、
前記音響効果を施すステップは、前記使用者が発声中と判定された場合に、前記音声信号に対して第1の周波数帯域におけるハウリング抑制効果を施し、前記使用者が発声していないと判定された場合に、前記音声信号に対して前記第1の周波数帯域よりも広い第2の周波数帯域におけるハウリング抑制効果を施す、音声処理方法。 a step of outputting an audio signal based on an externally input audio;
measuring carbon dioxide concentration;
generating a control signal for controlling a sound effect applied to the audio signal based on the carbon dioxide concentration;
applying the sound effect to the audio signal based on the control signal ;
The step of generating the control signal includes determining whether or not the user is vocalizing based on the carbon dioxide concentration, generating the control signal according to whether the user is vocalizing,
The step of applying a sound effect applies a howling suppression effect in a first frequency band to the audio signal when it is determined that the user is speaking, and when it is determined that the user is not speaking. and applying a howling suppression effect to the audio signal in a second frequency band wider than the first frequency band .
前記収音装置は、外部から入力される音声に基づく音声信号を出力するマイクロフォンと、二酸化炭素濃度を測定する濃度測定部と、前記二酸化炭素濃度に基づいて、前記音声信号に施す音響効果を制御する制御信号を生成する音声信号制御部と、を備え、
前記収音装置および/または前記音声出力装置が、前記制御信号に基づいて前記音声信号に前記音響効果を施す音声信号処理部を備え、
前記音声出力装置が、前記音響効果が施された前記音声信号を音声として出力する音声出力部を備え、
前記音声信号制御部は、前記二酸化炭素濃度に基づいて使用者が発声中か否かの判定を行い、前記使用者が発声中か否かに応じた前記制御信号を生成し、
前記音声信号処理部は、前記使用者が発声中と判定された場合に、前記音声信号に対して第1の周波数帯域におけるハウリング抑制効果を施し、前記使用者が発声していないと判定された場合に、前記音声信号に対して前記第1の周波数帯域よりも広い第2の周波数帯域におけるハウリング抑制効果を施す、音声処理システム。 A sound processing system comprising a sound collecting device for collecting sound and a sound output device,
The sound collecting device includes a microphone that outputs an audio signal based on a sound input from the outside, a concentration measurement unit that measures the carbon dioxide concentration, and a sound effect applied to the audio signal based on the carbon dioxide concentration. and an audio signal control unit that generates a control signal to
The sound collecting device and/or the audio output device comprises an audio signal processing unit that applies the sound effect to the audio signal based on the control signal,
The audio output device includes an audio output unit that outputs the audio signal to which the sound effect has been applied as audio,
The audio signal control unit determines whether or not the user is speaking based on the carbon dioxide concentration, generates the control signal according to whether the user is speaking,
The audio signal processing unit applies a howling suppression effect in a first frequency band to the audio signal when it is determined that the user is speaking, and it is determined that the user is not speaking. and applying a howling suppression effect to the audio signal in a second frequency band wider than the first frequency band .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019056800A JP7257834B2 (en) | 2019-03-25 | 2019-03-25 | Speech processing device, speech processing method, and speech processing system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019056800A JP7257834B2 (en) | 2019-03-25 | 2019-03-25 | Speech processing device, speech processing method, and speech processing system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020161884A JP2020161884A (en) | 2020-10-01 |
JP7257834B2 true JP7257834B2 (en) | 2023-04-14 |
Family
ID=72643686
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019056800A Active JP7257834B2 (en) | 2019-03-25 | 2019-03-25 | Speech processing device, speech processing method, and speech processing system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7257834B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113225657B (en) * | 2021-04-16 | 2022-09-30 | 深圳木芯科技有限公司 | Multi-channel squeal suppression method based on double-microphone architecture |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012195801A (en) | 2011-03-17 | 2012-10-11 | Panasonic Corp | Conversation support device |
JP2014165817A (en) | 2013-02-27 | 2014-09-08 | Asahi Kasei Electronics Co Ltd | Information communication device |
WO2017057296A1 (en) | 2015-09-28 | 2017-04-06 | 旭化成エレクトロニクス株式会社 | Acoustic feedback suppression device |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11146057A (en) * | 1997-11-04 | 1999-05-28 | Tokai Rika Co Ltd | Mobile telephone set and personal identification system |
-
2019
- 2019-03-25 JP JP2019056800A patent/JP7257834B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012195801A (en) | 2011-03-17 | 2012-10-11 | Panasonic Corp | Conversation support device |
JP2014165817A (en) | 2013-02-27 | 2014-09-08 | Asahi Kasei Electronics Co Ltd | Information communication device |
WO2017057296A1 (en) | 2015-09-28 | 2017-04-06 | 旭化成エレクトロニクス株式会社 | Acoustic feedback suppression device |
Also Published As
Publication number | Publication date |
---|---|
JP2020161884A (en) | 2020-10-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6572894B2 (en) | Information processing apparatus, information processing method, and program | |
JP6104629B2 (en) | Dynamic sound providing system and method | |
US9728179B2 (en) | Calibration and stabilization of an active noise cancelation system | |
US8611560B2 (en) | Method and device for voice operated control | |
JP4640461B2 (en) | Volume control device and program | |
US9959886B2 (en) | Spectral comb voice activity detection | |
JP2011059376A (en) | Headphone with noise reduction device | |
JP2014030254A (en) | Headphone | |
WO2008128173A1 (en) | Method and device for voice operated control | |
US20220122605A1 (en) | Method and device for voice operated control | |
CN115039415A (en) | System and method for on-ear detection of a headset | |
JP7257834B2 (en) | Speech processing device, speech processing method, and speech processing system | |
TWI478151B (en) | Audio processing system and method thereof | |
US7424119B2 (en) | Voice matching system for audio transducers | |
JP2002330498A (en) | Speaker detector | |
JP4811475B2 (en) | Recording apparatus, recording method, audio signal correction circuit, and program | |
JP2006333396A (en) | Audio signal loudspeaker | |
TW201506913A (en) | Microphone system and sound processing method thereof | |
JPS6257040B2 (en) | ||
JP5339849B2 (en) | Speech intelligibility improving method and speech intelligibility improving system | |
KR102167469B1 (en) | Feedback processing apparatus | |
JP2002353757A (en) | Automatic sound volume controller | |
KR20220111054A (en) | Wearable electronic apparatus and method for controlling thereof | |
JP2010200258A (en) | Hearing aid | |
JPH08116596A (en) | Hearing aid having speech speed conversion function |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211126 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220914 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220920 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221121 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230307 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230404 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7257834 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |