JP2007068847A - Glottal closure region detecting apparatus and method - Google Patents
Glottal closure region detecting apparatus and method Download PDFInfo
- Publication number
- JP2007068847A JP2007068847A JP2005261008A JP2005261008A JP2007068847A JP 2007068847 A JP2007068847 A JP 2007068847A JP 2005261008 A JP2005261008 A JP 2005261008A JP 2005261008 A JP2005261008 A JP 2005261008A JP 2007068847 A JP2007068847 A JP 2007068847A
- Authority
- JP
- Japan
- Prior art keywords
- glottal
- band
- frequency
- signal
- cavity resonance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
Description
この発明は、音声信号から当該音声の発声の際の声門閉鎖区間を検出することが可能な声門閉鎖区間検出装置および声門閉鎖区間検出方法に関する。 The present invention relates to a glottal closing segment detecting device and a glottal closing segment detecting method capable of detecting a glottal closing segment when a voice is uttered from a voice signal.
人の声帯ヒダは、発声中1秒間に100回以上、ときには1,000回も振動する。このため、個々の振動の状態を肉眼で直接見ることはできない。 Human vocal cord folds vibrate 100 times or more, sometimes 1,000 times per second during utterance. For this reason, the state of each vibration cannot be directly seen with the naked eye.
そこで、声帯の振動の様子を観察するためにこれを可視化する方法には、喉頭の画像を機器の応用によって可視化する直接的な方法と、声門の開閉運動のみを検出記録する間接的な方法とに大別することができる。直接的観測法には喉頭高速度映画、喉頭ストロボスコピー、フォトキモグラフィ、半導体撮像素子法などがあり、間接的観測法には、光電グロトグラフィ、電気グロトグラフィ(Electro-glottogram:EGG)、超音波グロトグラフィなどがある。 Therefore, in order to visualize the vibration of the vocal cords, there are a direct method for visualizing the larynx image by application of the device and an indirect method for detecting and recording only the opening and closing movement of the glottis. Can be broadly classified. Direct observation methods include laryngeal high-speed movies, laryngeal stroboscopic copying, photochromography, and semiconductor imaging device methods, and indirect observation methods include photoelectric glography, electro-glottogram (EGG), ultra There is sonic grography.
このうち、EGGは、左右の甲状軟骨板外側の皮膚面に電極をおいて高周波電流を流しておき、声門の開閉による電気的インピーダンスの変化を検出記録する方法である。 Among them, EGG is a method of detecting and recording a change in electrical impedance due to opening and closing of the glottis by placing electrodes on the skin surfaces outside the left and right thyroid cartilage plates and passing a high-frequency current.
非特許文献1によれば、図7に示すとおり、発声中の声帯粘膜の運動は決して単純な左右方向の開閉運動ではなく、上下方向の波動を伴った3次元の運動である。図7において、1〜3は、声門の開大期、3〜7は閉小期、7〜10は閉鎖期をそれぞれ示す。
According to Non-Patent
しかし、喉頭での発声を考える際には、気流に直角な平面上での声門面積の変化が最も問題になるので、声帯振動の観測に当たっては、声門面積波形(声門面積を時間の関数として表示したもの)を把握することが、最も重要な課題となる。 However, when considering vocalization at the larynx, the change in glottal area on a plane perpendicular to the airflow is the most problematic, so glottal area waveform (glottal area is displayed as a function of time) when observing glottal vibration. Is the most important issue.
図8は、このような声門面積波形を示す図である。声門面積波形では、振動サイクルごとに、上述した開大期、閉小期、閉鎖期の3つの位相を区別する。1回の振動に要する時間を、基本周期という。また単位時間当たりの振動回数を、基本周波数という。音声の基本周期は、声帯振動の基本周期に一致する。したがって音声の基本周波数は、声帯振動の基本周波数に等しい。 FIG. 8 is a diagram showing such a glottal area waveform. In the glottal area waveform, for each vibration cycle, the above-described three phases of the large period, the small period, and the closed period are distinguished. The time required for one vibration is called a basic period. The number of vibrations per unit time is called the fundamental frequency. The fundamental period of speech coincides with the fundamental period of vocal cord vibration. Therefore, the fundamental frequency of speech is equal to the fundamental frequency of vocal cord vibration.
一方で、音声の伝送・認識において、声道伝達特性を正確に推定することは極めて重要であり、その推定のための方法の1つとして、従来、線形予測法が用いられている。しかしながら、通常の線形予測法を用いて正確な声道伝達特性を得るためには、励起源が単一のインパルスあるいは白色雑音でなければならない。ところが、現実には、このような仮定は成り立たず、ホルマント周波数推定には励起源の影響が生じる。 On the other hand, in voice transmission / recognition, it is extremely important to accurately estimate vocal tract transmission characteristics, and a linear prediction method has been conventionally used as one of the estimation methods. However, in order to obtain accurate vocal tract transfer characteristics using normal linear prediction methods, the excitation source must be a single impulse or white noise. However, in reality, this assumption does not hold, and the influence of the excitation source occurs on the formant frequency estimation.
このような励起源の影響を軽減する方法には、分析窓長を1ピッチ周期以下と短くして声門閉止(閉鎖)期間すなわち自由振動区間のみ推定し、これを分析対象とする方法(たとえば、非特許文献2を参照)や、残差情報を参照することで線形予測モデルに適合する音声標本点を選択する標本選択線形予測法において、標本の選択処理を予測誤差の大局的な特徴を考慮して行い、かつこの処理を2段階行って、声門開口期間の音声標本を非予測標本から除く「2段標本選択線形予測法」などが提案されている(たとえば、非特許文献3を参照)。
しかしながら、前者においては、自然音声の声門閉止区間を正確に推定するのは一般に困難であり、後者にあっては、残差の絶対値がしきい値以上となるものを被予測標本から除くという処理を行うものの声門の状態の観察結果との対比が行われている訳ではない。 However, in the former, it is generally difficult to accurately estimate the glottal closure interval of natural speech, and in the latter case, those whose absolute value of the residual is greater than or equal to the threshold value are excluded from the predicted sample. What is being processed does not compare with the observation of glottal state.
また、声門の閉鎖区間を簡単に検出できれば、ボイストレーニングなどにおいては、明瞭な発声の指標として使用することが期待でき、また、言語聴覚療法においては、声門閉鎖不全音声の診断やリハビリの支援に活用できることが期待できるものの、上述した声帯振動の観察方法は、自然発声中の観察には不向きであったり、測定には被験者に身体的あるいは精神的な負担を強いるためにリハビリなどの用途には不向きであるなどの問題点があった。 In addition, if it can easily detect the glottal closure interval, it can be used as a clear voicing index in voice training, etc. Although it can be expected that it can be utilized, the above-mentioned method of observing vocal cord vibration is not suitable for observation during natural utterance, or for the purpose of rehabilitation because it places a physical or mental burden on the subject for measurement. There were problems such as being unsuitable.
本発明は、上述したような問題点を解決するためになされたものであって、その目的は、自然な発声状態における声門の閉鎖区間の検出を簡単な構成で可能とする声門閉鎖区間検出装置および声門閉鎖区間検出方法を提供することである。 The present invention has been made to solve the above-described problems, and an object of the present invention is to detect a glottal closure interval detection device that can detect a glottal closure interval in a natural utterance state with a simple configuration. And providing a glottal closure interval detection method.
このような目的を達成するために、本発明の1つの局面にしたがうと、声門閉鎖区間検出装置であって、入力された音声信号のうち、喉頭腔共鳴に対応する周波数帯域の音声信号を選択的に抽出する帯域抽出手段と、抽出された音声信号の強度に基づいて、声門閉鎖区間を判定する演算手段とを備える。 In order to achieve such an object, according to one aspect of the present invention, there is provided a glottal closed section detecting device that selects an audio signal in a frequency band corresponding to laryngeal cavity resonance from among input audio signals. Band extracting means for extracting automatically, and arithmetic means for determining the glottal closure interval based on the intensity of the extracted voice signal.
好ましくは、帯域抽出手段は、通過帯域を可変に変更できる帯域通過型フィルタ手段を含み、声門閉鎖区間検出装置は、入力された音声信号を周波数分析して、喉頭腔共鳴に対応する周波数帯域を特定して、帯域通過型フィルタ手段の通過帯域として設定するための通過帯域設定手段をさらに備え、演算手段は、抽出された音声信号の強度が設定されたしきい値を超えることに応じて、対応する音声信号の区間を声門閉鎖区間と判定する。 Preferably, the band extracting means includes band-pass type filter means that can change the pass band variably, and the glottal closed section detecting device frequency-analyzes the input voice signal to obtain a frequency band corresponding to laryngeal cavity resonance. In particular, it further comprises a passband setting means for setting as a passband of the bandpass filter means, the computing means according to when the intensity of the extracted audio signal exceeds a set threshold value, The corresponding voice signal section is determined as a glottal closed section.
好ましくは、通過帯域設定手段は、音声信号の周波数スペクトルに基づいて、第4ホルマントを喉頭腔共鳴に対応する周波数と判定する。 Preferably, the passband setting means determines the fourth formant as a frequency corresponding to the laryngeal cavity resonance based on the frequency spectrum of the audio signal.
この発明の他の局面に従うと、声門閉鎖区間検出方法であって、被験者の音声を音声信号に変換して、喉頭腔共鳴に対応する周波数帯域の音声信号を選択的に抽出するステップと、抽出された音声信号の強度に基づいて、声門閉鎖区間を判定するステップとを備える。 According to another aspect of the present invention, there is provided a glottal closed section detecting method, wherein a voice of a subject is converted into a voice signal and a voice signal in a frequency band corresponding to laryngeal cavity resonance is selectively extracted; Determining a glottal closure interval based on the intensity of the voice signal that has been generated.
好ましくは、抽出するステップは、入力された音声信号を周波数分析して、喉頭腔共鳴に対応する周波数帯域を特定するステップと、特定された喉頭腔共鳴に対応する周波数帯域を帯域通過型フィルタ手段の通過帯域として設定するステップとを含み、判定するステップは、帯域通過型フィルタ手段の出力の強度が設定されたしきい値を超えることに応じて、対応する音声信号の区間を声門閉鎖区間と判定するステップを含む。 Preferably, in the extracting step, a frequency analysis corresponding to the laryngeal cavity resonance is performed by analyzing the frequency of the input audio signal, and the frequency band corresponding to the identified laryngeal cavity resonance is band-pass filter means. The step of determining as a passband of the vowel is determined to be a glottal closed section in response to the fact that the output intensity of the bandpass filter means exceeds a set threshold value. Determining.
本発明に係る声門閉鎖区間検出装置および声門閉鎖区間検出方法によれば、特殊な装置を必要とせず、簡単な装置構成で、声門の閉鎖区間の検出を行うことが可能である。 According to the glottal closed section detecting device and the glottal closed section detecting method according to the present invention, it is possible to detect the glottal closed section with a simple device configuration without requiring a special device.
また、本発明に係る声門閉鎖区間検出装置および声門閉鎖区間検出方法によれば、発声の内容によらず、被験者の自然な発声状態において、声門の閉鎖区間の検出を行うことが可能である。 Moreover, according to the glottal closed section detecting device and the glottal closed section detecting method according to the present invention, it is possible to detect the glottal closed section in the natural utterance state of the subject regardless of the content of the utterance.
以下、図面を参照して本発明の実施の形態について説明する。
[ハードウェア構成]
図1は、本発明の声門閉鎖区間検出方法が適用される声門閉鎖区間検出装置100の一例を示すブロック図である。
Embodiments of the present invention will be described below with reference to the drawings.
[Hardware configuration]
FIG. 1 is a block diagram showing an example of a glottal closing
図1を参照して、声門閉鎖区間検出装置100は、基本的には、パーソナルコンピュータに音声処理インタフェースを設けることで構成される。
Referring to FIG. 1, glottal closing
すなわち、この声門閉鎖区間検出装置100は、CD−ROM(Compact Disc Read-Only Memory )118などの光ディスク上の情報を読込むための光ディスクドライブ108およびフレキシブルディスク(Flexible Disk、以下FD)116に情報を読み書きするためのFDドライブ106を備えたコンピュータ本体102と、コンピュータ本体102に接続された表示装置としてのモニタ104と、同じくコンピュータ本体102に接続された入力装置としてのキーボード110およびマウス112と、音声入力装置としてのマイク132と、音声出力装置としてのスピーカ134とを含む。
That is, the glottal closed
このコンピュータ本体102は、光ディスクドライブ108およびFDドライブ106に加えて、それぞれバスBSに接続された演算処理部であるCPU(Central Processing Unit )120と、ROM(Read Only Memory) およびRAM (Random Access Memory)を含むメモリ122と、直接アクセスメモリ装置、たとえば、ハードディスク124と、マイク132またはスピーカ134とデータの授受を行うための音声処理インタフェース部128とを含んでいる。
In addition to the
なお、CD−ROM118は、コンピュータ本体に対してインストールされるプログラム等の情報を記録可能な媒体であれば、他の媒体、たとえば、DVD−ROM(Digital Versatile Disc)やメモリカードなどでもよく、その場合は、コンピュータ本体102には、これらの媒体を読取ることが可能なドライブ装置が設けられる。
The CD-
本発明の声門閉鎖区間検出装置の主要部は、コンピュータハードウェアと、CPU120により実行される声門閉鎖区間検出装置を制御するためのソフトウェアとにより構成される。一般的にこうしたソフトウェアはCD−ROM118、FD116等の記憶媒体に格納されて流通し、CD−ROMドライブ108またはFDドライブ106等により記憶媒体から読取られてハードディスク124に一旦格納される。または、当該装置がネットワーク310に接続されている場合には、ネットワーク上のサーバから一旦ハードディスク124にコピーされる。そうしてさらにハードディスク124からメモリ122中のRAMに読出されてCPU120により実行される。なお、ネットワーク接続されている場合には、ハードディスク124に格納することなくRAMに直接ロードして実行するようにしてもよい。
The main part of the glottal closing section detecting device of the present invention is constituted by computer hardware and software for controlling the glottal closing section detecting device executed by the
図1に示したコンピュータのハードウェア自体およびその動作原理は一般的なものである。したがって、本発明の最も本質的な部分は、FD116、CD−ROM118、ハードディスク124等の記憶媒体に記憶されたソフトウェアである。
The computer hardware itself shown in FIG. 1 and its operating principle are general. Therefore, the most essential part of the present invention is software stored in a storage medium such as the FD 116, the CD-
なお、一般的傾向として、コンピュータのオペレーティングシステムの一部として様々なプログラムモジュールを用意しておき、アプリケーションプログラムはこれらモジュールを所定の配列で必要な時に呼び出して処理を進める方式が一般的である。そうした場合、当該声門閉鎖区間検出装置を実現するためのソフトウェア自体にはそうしたモジュールは含まれず、当該コンピュータでオペレーティングシステムと協働してはじめて声門閉鎖区間検出装置が実現することになる。しかし、一般的なプラットフォームを使用する限り、そうしたモジュールを含ませたソフトウェアを流通させる必要はなく、それらモジュールを含まないソフトウェア自体およびそれらソフトウェアを記録した記録媒体(およびそれらソフトウェアがネットワーク上を流通する場合のデータ信号)が実施の形態を構成すると考えることができる。 As a general tendency, various program modules are prepared as a part of a computer operating system, and an application program generally calls a module in a predetermined arrangement and advances the processing when necessary. In such a case, the software itself for realizing the glottal closing section detecting device does not include such a module, and the glottal closing section detecting device is realized only in cooperation with the operating system on the computer. However, as long as a general platform is used, it is not necessary to distribute software including such modules, and the software itself not including these modules and the recording medium storing the software (and the software distributes on the network). Data signal) can be considered to constitute the embodiment.
図2は、図1に示した音声処理インタフェース部128の構成をより詳しく説明するための機能ブロック図である。なお、図2においては、マイク132からの音声信号の入力処理に関する部分のみを抜き出して示す。
FIG. 2 is a functional block diagram for explaining the configuration of the voice
図2を参照して、切換器202は、マイク132からアナログの音声信号を直接受け取るとともに、マイク132からの音声信号が通過帯域可変のバンドパスフィルタ(以下、BPFと呼ぶ)200を通過した後の信号を受ける。BPF200の通過帯域および切換器202がいずれの信号を選択するかについては、CPU120により制御される。
Referring to FIG. 2,
切換器202の出力は、A/D変換器204によりデジタル信号に変換された後、バッファメモリ部206に格納される。周波数分析部208は、バッファメモリ部206に格納された音声信号に対して周波数スペクトルを求めて、CPU120に対して出力する。
The output of the
CPU120は、周波数スペクトルに基づいて、後に説明するように喉頭腔共鳴に相当するホルマント(第4ホルマント)の周波数領域を検出し、これに基づいて、第4ホルマントの領域を通過させるようにBPF200の通過帯域を制御する。また、CPU120での処理の結果は、たとえば、表示装置104に表示される。
The
なお、図2においては、BPF200としては、アナログ方式の帯域可変フィルタを用いるものとして説明した。しかしながら、BPF200と切換器202とをA/D変換器204の後段に配置して、デジタル方式の帯域可変フィルタを用いることも可能である。あるいは、マイク132からの音声信号をA/D変換器204がデジタル信号に変換して直接バッファメモリ部206に格納することとし、このバッファメモリ206内の音声信号データに対して、CPU120が演算処理を行うことで、デジタルフィルタ処理を行うこととしてもよい。
In FIG. 2, the
また、バッファメモリ部206は、必ずしも音声処理インタフェース部128内に設けられる必要はなく、たとえば、メモリ122またはハードディスク124をバッファメモリとして使用してもよい。さらに、周波数分析部208についても、必ずしも音声処理インタフェース部128内に設けられる必要はなく、たとえば、CPU120のフーリエ変換などの演算処理により同等の処理を行うことも可能である。
Further, the
図3は、等価回路モデルで求めた声道伝達特性における声門開口面積Agの影響を結果を示す図である。 FIG. 3 is a diagram showing the result of the effect of the glottal opening area Ag on the vocal tract transmission characteristics obtained by the equivalent circuit model.
図3においては、声門開口面積Agを0.0cm2(声門閉鎖)、0.1cm2、0.2cm2の3段階に変化させている。この図から声門の開放により3.1kHzのホルマント(低周波側から4番目のピーク:第4ホルマント)が消失することがわかる。このホルマントは、喉頭腔により生じるホルマント(喉頭腔共鳴)と一致する。 In FIG. 3, the glottal opening area Ag 0.0 cm 2 (glottal closure), 0.1 cm 2, is varied in three steps of 0.2 cm 2. It can be seen from this figure that the 3.1 kHz formant (fourth peak from the low frequency side: the fourth formant) disappears due to the opening of the glottis. This formant is consistent with the formant produced by the laryngeal cavity (laryngeal cavity resonance).
従って、喉頭腔共鳴は声門の閉鎖区間で出現し、開放区間で消失することが予測される。したがって、この喉頭腔共鳴の周期内変動を検出することによって音声から声門閉鎖区間を抽出できると考えられる。 Therefore, it is predicted that the laryngeal cavity resonance appears in the closed section of the glottis and disappears in the open section. Therefore, it is considered that the glottal closure section can be extracted from the voice by detecting the intra-periodic variation of the laryngeal cavity resonance.
図4は、図1および図2に示した声門閉鎖区間検出装置100の動作を説明するためのフローチャートである。
FIG. 4 is a flowchart for explaining the operation of the glottal closing
図4を参照して、まず、CPU120により制御されて、切換器202はマイク132から直接受け取った信号をA/D変換器204に与え、バッファメモリ部206にデジタル化された音声信号が格納される。このバッファメモリ部206中のデータに対して、周波数分析部208が、周波数分析を行う(S100)。
Referring to FIG. 4, first, under the control of
周波数分析の結果得られる周波数スペクトルをCPU120が解析することにより、被験者の第4ホルマントの周波数領域を特定する(S102)。
The
続いて、CPU120は、第4ホルマントの音声信号を通過させるようにBPF200の通過帯域を調整する(S104)。特に限定されないが、たとえば、第4ホルマントのピーク位置がわかれば、これに対して周波数の上下について所定の周波数分だけの帯域の信号を通過させるように調整することとしてもよい。
Subsequently, the
このようにBPF200の通過帯域を調整した後、CPU120は、切換器202を制御して、BPF200を通過した信号が、バッファメモリ部206に格納されるように調整する。以後は、同一の被験者についての同一の入力条件については、調整されたBPF200からの信号強度に応じて、声門の閉鎖区間を検出する(S106)。すなわち、声門の閉鎖区間においては、BPF200からの信号強度が大きくなるので、しきい値を設定して、CPU120は、信号強度がこのしきい値を超える区間は、声門閉鎖区間であると判定できる。特に限定されないが、このようなしきい値は、ユーザが表示装置104に出力される測定結果を見て、マニュアルで設定してもよいし、CPU120が、BPF200を通過した信号の強度に応じて、たとえば、その最高強度の絶対値の所定割合となるように設定してもよい。
After adjusting the pass band of the
(実験結果)
図5および図6は、男女各1名が座位で持続発声した日本語母音/a/および/i/を無響室にて収録した結果を示す図である。図5は、男性の測定結果を、図6は女性の測定結果をそれぞれ示す。
(Experimental result)
FIG. 5 and FIG. 6 are diagrams showing the results of recording Japanese vowels / a / and / i / that were uttered continuously by one male and one female in a sitting position in an anechoic room. FIG. 5 shows measurement results for men, and FIG. 6 shows measurement results for women.
図5および図6示した実験においては、音声と同時にEGG信号も収録した。EGG信号はカットオフ1.6Hzのハイパスフィルタにより直流成分を除去した。これらの信号は標本化周波数48kHz、量子化16bitで収録した。音声とEGG信号の間には声門からマイクロホンまでの距離に対応する時間差が存在するため、EGG信号をこの時間差分シフトさせた。 In the experiments shown in FIG. 5 and FIG. 6, EGG signals were recorded simultaneously with voice. The direct current component was removed from the EGG signal by a high-pass filter with a cutoff of 1.6 Hz. These signals were recorded at a sampling frequency of 48 kHz and a quantization of 16 bits. Since there is a time difference corresponding to the distance from the glottis to the microphone between the voice and the EGG signal, the EGG signal is shifted by this time difference.
また、BPF200としては、理想的なフィルタ特性のフーリエ級数に窓関数をかける方法でFIR(Finite Impulse Response)型のバンドパスフィルタを作成した。窓関数として101点のハミング窓を用いた。
As the
音声データのスペクトログラムから男性話者のバンドパスフィルタの通過帯域は2.8kHzから3.8kHz、女性話者の通過帯域は3.8kHzから4.8kHzと決定した。音声データにこのバンドパスフィルタをかけ、その出力とEGG 信号とを比較した。 From the spectrogram of the voice data, the passband of the band pass filter of the male speaker was determined from 2.8 kHz to 3.8 kHz, and the passband of the female speaker was determined from 3.8 kHz to 4.8 kHz. The bandpass filter was applied to the audio data, and the output was compared with the EGG signal.
図5および図6では、母音の30msecの音声波形、対応するEGG信号、およびバンドパスフィルタの出力(第4ホルマント信号)ならびに比較のために第2ホルマント信号も示している。EGG信号は声帯の接触面積に比例するため、その値の大きい区間が声門閉鎖区間となる。 FIGS. 5 and 6 also show the 30 msec speech waveform of the vowel, the corresponding EGG signal, the output of the bandpass filter (fourth formant signal) and the second formant signal for comparison. Since the EGG signal is proportional to the contact area of the vocal cords, a section with a large value is a glottal closure section.
図5および図6から、声門閉鎖区間においてバンドパスフィルタの出力の振幅が相対的に大きくなることがわかる。この結果は、図3に示したシミュレーション結果と同様に、実音声でもピッチ周期のうち声門閉鎖区間で喉頭腔共鳴(第4ホルマント)が出現し、声門開放区間においてこの共鳴が消失することを示している。声帯振動の1周期内で声門は急激に閉鎖し緩徐に開放する。バンドパスフィルタ出力もこれに対応し、声門閉鎖の開始時点で振幅が急激に増加し、その後ゆるやかに振幅が減衰する。 5 and 6 that the amplitude of the output of the bandpass filter becomes relatively large in the glottal closed period. Similar to the simulation results shown in FIG. 3, this result shows that the laryngeal cavity resonance (fourth formant) appears in the glottal closed section of the pitch period even in real speech, and this resonance disappears in the glottal open section. ing. Within one cycle of vocal cord vibration, the glottis closes rapidly and opens slowly. The bandpass filter output also corresponds to this, and the amplitude increases rapidly at the start of glottal closure and then gradually attenuates.
従って、バンドパスフィルタ出力、すなわち、第4ホルマントに対応する信号の包絡線では、明確にオン・オフの変化が検出でき、しきい値処理により声門閉鎖区間を判定できる。これに対して、第2ホルマントではなだらかに減衰し、明確なオン・オフの変化が検出できない。 Accordingly, the on / off change can be clearly detected in the bandpass filter output, that is, the envelope of the signal corresponding to the fourth formant, and the glottal closure interval can be determined by threshold processing. On the other hand, the second formant is gently attenuated, and a clear on / off change cannot be detected.
以上説明したとおり、母音の喉頭腔共鳴パターンが1ピッチ周期内で変動することを利用して、声門閉鎖区間を検出すること可能となる。本発明の声門閉鎖区間の検出方法は、後舌母音にも適用でき、より自然な発声状態における声門開閉を記録することが可能である。また、この方法は、基本的に、マイクロホンとバンドパスフィルタを用いれば、音声入出力機能を有するコンピュータで実現できる。さらに、喉頭腔共鳴は他のホルマントと異なり母音によらずほぼ一定した周波数帯域に現れるため、バンドパスフィルタの通過帯域を一旦決めればどの母音でも利用することができる。 As described above, it is possible to detect the glottal closure section by utilizing the fact that the laryngeal cavity resonance pattern of the vowel varies within one pitch period. The method for detecting the glottal closure interval of the present invention can be applied to the back tongue vowel, and can record glottal opening and closing in a more natural voicing state. This method can be basically realized by a computer having an audio input / output function if a microphone and a band-pass filter are used. Furthermore, unlike the other formants, the laryngeal cavity resonance appears in a substantially constant frequency band regardless of the vowels, so that any vowel can be used once the passband of the bandpass filter is determined.
また、ボイストレーニングなどにおいて、検出された声門閉鎖区間を、明瞭な発声の指標として使用することが可能である。あるいは、言語聴覚療法においては、声門閉鎖不全音声の診断やリハビリの支援に活用できる。 In voice training or the like, the detected glottal closure interval can be used as a clear utterance index. Alternatively, in speech and auditory therapy, it can be used for diagnosis of glottic insufficiency speech and rehabilitation support.
なお、以上の説明では、単に、声門の閉鎖区間の検出について説明した。しかし、一般に、音声処理技術は、発声時に声門が閉じていることを前提としている。従って、音声の特徴量抽出の際には声門閉鎖区間のみから抽出する必要がある。本発明の声門の閉鎖区間の検出方法を使って声門閉鎖区間を検出し、そこから特徴量抽出を行うという応用も可能である。 In the above description, only the detection of the glottal closed section has been described. However, in general, the speech processing technology is based on the premise that the glottis are closed when speaking. Therefore, it is necessary to extract only from the glottal closed section when extracting the voice feature value. An application is also possible in which the glottal closed section is detected by using the glottal closed section detection method of the present invention, and the feature amount is extracted therefrom.
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。 The embodiment disclosed this time should be considered as illustrative in all points and not restrictive. The scope of the present invention is defined by the terms of the claims, rather than the description above, and is intended to include any modifications within the scope and meaning equivalent to the terms of the claims.
100 声門閉鎖区間検出装置、102 コンピュータ本体、104 表示装置、106 FDドライブ、108 光ディスクドライブ、110 キーボード、112 マウス、116 フレキシブルディスク、118 CD−ROM、120 CPU、122 メモリ、124 ハードディスク、128 音声処理インタフェース部、132 マイク、134 スピーカ、200 BPF、202 切換器、204 A/D変換器、206 バッファメモリ部。 100 Glottal Closure Section Detection Device, 102 Computer Main Body, 104 Display Device, 106 FD Drive, 108 Optical Disk Drive, 110 Keyboard, 112 Mouse, 116 Flexible Disk, 118 CD-ROM, 120 CPU, 122 Memory, 124 Hard Disk, 128 Audio Processing Interface unit, 132 microphone, 134 speaker, 200 BPF, 202 switching unit, 204 A / D converter, 206 buffer memory unit.
Claims (5)
抽出された前記音声信号の強度に基づいて、声門閉鎖区間を判定する演算手段とを備える、声門閉鎖区間検出装置。 Band extraction means for selectively extracting an audio signal in a frequency band corresponding to laryngeal cavity resonance from the input audio signal;
A glottal closure segment detection device comprising: a calculating means for determining a glottal closure segment based on the intensity of the extracted voice signal.
入力された前記音声信号を周波数分析して、前記喉頭腔共鳴に対応する周波数帯域を特定して、前記帯域通過型フィルタ手段の前記通過帯域として設定するための通過帯域設定手段をさらに備え、
前記演算手段は、前記抽出された音声信号の強度が設定されたしきい値を超えることに応じて、対応する音声信号の区間を前記声門閉鎖区間と判定する、請求項1記載の声門閉鎖区間検出装置。 The band extracting means includes band pass filter means that can change the pass band variably,
A frequency analysis of the input audio signal to identify a frequency band corresponding to the laryngeal cavity resonance, further comprising passband setting means for setting as the passband of the bandpass filter means;
2. The glottal closing section according to claim 1, wherein the computing means determines that the corresponding speech signal section is the glottal closing section when the intensity of the extracted voice signal exceeds a set threshold value. 3. Detection device.
抽出された前記音声信号の強度に基づいて、声門閉鎖区間を判定するステップとを備える、声門閉鎖区間検出方法。 Converting the subject's voice into a voice signal and selectively extracting a voice signal in a frequency band corresponding to the laryngeal cavity resonance;
A glottal closure interval detection method comprising: determining a glottal closure interval based on the intensity of the extracted speech signal.
入力された前記音声信号を周波数分析して、前記喉頭腔共鳴に対応する周波数帯域を特定するステップと、
特定された前記喉頭腔共鳴に対応する周波数帯域を帯域通過型フィルタ手段の通過帯域として設定するステップとを含み、
前記判定するステップは、
前記帯域通過型フィルタ手段の出力の強度が設定されたしきい値を超えることに応じて、対応する音声信号の区間を前記声門閉鎖区間と判定するステップを含む、請求項4記載の声門閉鎖区間検出方法。 The extracting step includes:
Analyzing the frequency of the input audio signal to identify a frequency band corresponding to the laryngeal cavity resonance;
Setting a frequency band corresponding to the identified laryngeal cavity resonance as a pass band of the band-pass filter means,
The step of determining includes
5. The glottal closed section according to claim 4, comprising the step of determining a corresponding voice signal section as the glottal closed section in response to an output intensity of the band-pass filter means exceeding a set threshold value. Detection method.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005261008A JP4568826B2 (en) | 2005-09-08 | 2005-09-08 | Glottal closure segment detection device and glottal closure segment detection program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005261008A JP4568826B2 (en) | 2005-09-08 | 2005-09-08 | Glottal closure segment detection device and glottal closure segment detection program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007068847A true JP2007068847A (en) | 2007-03-22 |
JP4568826B2 JP4568826B2 (en) | 2010-10-27 |
Family
ID=37930805
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005261008A Expired - Fee Related JP4568826B2 (en) | 2005-09-08 | 2005-09-08 | Glottal closure segment detection device and glottal closure segment detection program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4568826B2 (en) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010528796A (en) * | 2007-06-14 | 2010-08-26 | サントル ナシオナル ドゥ ラ ルシェルシェサイアンティフィク(セエヌエールエス) | Non-invasive photoelectric grommography method and apparatus |
CN102341853A (en) * | 2009-02-04 | 2012-02-01 | 海莫梅德海因泽有限及两合公司 | Method for separating signal paths and use for improving speech using electric larynx |
US8311831B2 (en) | 2007-10-01 | 2012-11-13 | Panasonic Corporation | Voice emphasizing device and voice emphasizing method |
JP2013088522A (en) * | 2011-10-14 | 2013-05-13 | Nippon Telegr & Teleph Corp <Ntt> | Vocal tract spectrum extraction device, vocal tract spectrum extraction method and program |
JP2016133522A (en) * | 2015-01-15 | 2016-07-25 | 日本電信電話株式会社 | Glottis closing time estimation device, pitch mark time estimation device, pitch waveform connection point estimation device, and method and program thereof |
JP2019150234A (en) * | 2018-03-01 | 2019-09-12 | 公立大学法人広島市立大学 | Adenoid hypertrophy determination device, adenoid hypertrophy determination method, and program |
CN112634266A (en) * | 2021-01-06 | 2021-04-09 | 厦门大学 | Semi-automatic marking method, medium, equipment and device for laryngoscope image |
CN114120758A (en) * | 2021-10-14 | 2022-03-01 | 深圳大学 | Vocal music training auxiliary system based on intelligent wearable equipment |
CN116884437A (en) * | 2023-09-07 | 2023-10-13 | 北京惠朗时代科技有限公司 | Speech recognition processor based on artificial intelligence |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05143098A (en) * | 1990-02-08 | 1993-06-11 | British Technol Group Ltd | Method and apparatus for spectrum analysis |
JPH06348298A (en) * | 1993-06-04 | 1994-12-22 | Sumitomo Electric Ind Ltd | Voice analyzing device |
JPH1185197A (en) * | 1997-09-02 | 1999-03-30 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | Voice signal analyzer |
JP2003122380A (en) * | 2001-10-09 | 2003-04-25 | Canon Inc | Peak mark imparting device and its processing method, and storage medium |
JP2003150181A (en) * | 2001-11-15 | 2003-05-23 | Canon Inc | Device and method of imparting pitch mark, and program |
-
2005
- 2005-09-08 JP JP2005261008A patent/JP4568826B2/en not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05143098A (en) * | 1990-02-08 | 1993-06-11 | British Technol Group Ltd | Method and apparatus for spectrum analysis |
JPH06348298A (en) * | 1993-06-04 | 1994-12-22 | Sumitomo Electric Ind Ltd | Voice analyzing device |
JPH1185197A (en) * | 1997-09-02 | 1999-03-30 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | Voice signal analyzer |
JP2003122380A (en) * | 2001-10-09 | 2003-04-25 | Canon Inc | Peak mark imparting device and its processing method, and storage medium |
JP2003150181A (en) * | 2001-11-15 | 2003-05-23 | Canon Inc | Device and method of imparting pitch mark, and program |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010528796A (en) * | 2007-06-14 | 2010-08-26 | サントル ナシオナル ドゥ ラ ルシェルシェサイアンティフィク(セエヌエールエス) | Non-invasive photoelectric grommography method and apparatus |
US8311831B2 (en) | 2007-10-01 | 2012-11-13 | Panasonic Corporation | Voice emphasizing device and voice emphasizing method |
CN102341853A (en) * | 2009-02-04 | 2012-02-01 | 海莫梅德海因泽有限及两合公司 | Method for separating signal paths and use for improving speech using electric larynx |
CN102341853B (en) * | 2009-02-04 | 2014-06-04 | 海莫梅德海因泽有限及两合公司 | Method for separating signal paths and use for improving speech using electric larynx |
JP2013088522A (en) * | 2011-10-14 | 2013-05-13 | Nippon Telegr & Teleph Corp <Ntt> | Vocal tract spectrum extraction device, vocal tract spectrum extraction method and program |
JP2016133522A (en) * | 2015-01-15 | 2016-07-25 | 日本電信電話株式会社 | Glottis closing time estimation device, pitch mark time estimation device, pitch waveform connection point estimation device, and method and program thereof |
JP2019150234A (en) * | 2018-03-01 | 2019-09-12 | 公立大学法人広島市立大学 | Adenoid hypertrophy determination device, adenoid hypertrophy determination method, and program |
JP7076732B2 (en) | 2018-03-01 | 2022-05-30 | 公立大学法人広島市立大学 | Adenoid hypertrophy determination device, adenoid hypertrophy determination method and program |
CN112634266A (en) * | 2021-01-06 | 2021-04-09 | 厦门大学 | Semi-automatic marking method, medium, equipment and device for laryngoscope image |
CN112634266B (en) * | 2021-01-06 | 2024-03-19 | 厦门大学 | Semi-automatic labeling method, medium, equipment and device for laryngoscope image |
CN114120758A (en) * | 2021-10-14 | 2022-03-01 | 深圳大学 | Vocal music training auxiliary system based on intelligent wearable equipment |
CN116884437A (en) * | 2023-09-07 | 2023-10-13 | 北京惠朗时代科技有限公司 | Speech recognition processor based on artificial intelligence |
CN116884437B (en) * | 2023-09-07 | 2023-11-17 | 北京惠朗时代科技有限公司 | Speech recognition processor based on artificial intelligence |
Also Published As
Publication number | Publication date |
---|---|
JP4568826B2 (en) | 2010-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4568826B2 (en) | Glottal closure segment detection device and glottal closure segment detection program | |
Owren et al. | Measuring emotion-related vocal acoustics | |
Drugman et al. | Glottal source processing: From analysis to applications | |
JP4202090B2 (en) | Speech synthesis system using smoothing filter and method thereof, smoothing filter characteristic control device and method thereof | |
US7089177B2 (en) | System and method for characterizing voiced excitations of speech and acoustic signals, removing acoustic noise from speech, and synthesizing speech | |
CN110610719A (en) | Sound processing apparatus | |
JPH02242298A (en) | Speaker identifying device based on glottis waveform | |
Mittal et al. | Analysis of production characteristics of laughter | |
CN108896878A (en) | A kind of detection method for local discharge based on ultrasound | |
Maruri et al. | V-Speech: noise-robust speech capturing glasses using vibration sensors | |
WO2011144617A1 (en) | Apparatus and method for extending or compressing time sections of an audio signal | |
Illner et al. | Validation of freely-available pitch detection algorithms across various noise levels in assessing speech captured by smartphone in Parkinson’s disease | |
Arsikere et al. | Automatic estimation of the first three subglottal resonances from adults’ speech signals with application to speaker height estimation | |
CN115346561B (en) | Depression emotion assessment and prediction method and system based on voice characteristics | |
Cychosz et al. | Spectral and temporal measures of coarticulation in child speech | |
JP3673507B2 (en) | APPARATUS AND PROGRAM FOR DETERMINING PART OF SPECIFIC VOICE CHARACTERISTIC CHARACTERISTICS, APPARATUS AND PROGRAM FOR DETERMINING PART OF SPEECH SIGNAL CHARACTERISTICS WITH HIGH RELIABILITY, AND Pseudo-Syllable Nucleus Extraction Apparatus and Program | |
Akafi et al. | Assessment of hypernasality for children with cleft palate based on cepstrum analysis | |
Schultz et al. | A tutorial review on clinical acoustic markers in speech science | |
Airas et al. | Emotions in short vowel segments: effects of the glottal flow as reflected by the normalized amplitude quotient | |
Fux et al. | Talker-to-listener distance effects on the variations of the intensity and the fundamental frequency of speech | |
EP1069861B1 (en) | A method and an apparatus for processing an auscultation signal | |
Akafi et al. | Detection of hypernasal speech in children with cleft palate | |
JP4177751B2 (en) | Voice quality model generation method, voice quality conversion method, computer program therefor, recording medium recording the program, and computer programmed by the program | |
Weber et al. | Constructing a dataset of speech recordings with lombard effect | |
Ansari et al. | Representation of prosodic structure in speech using nonlinear methods. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070423 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100302 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100430 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100622 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100713 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130820 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4568826 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |