JP2018033540A - Lingual position/lingual habit determination device, lingual position/lingual habit determination method and program - Google Patents
Lingual position/lingual habit determination device, lingual position/lingual habit determination method and program Download PDFInfo
- Publication number
- JP2018033540A JP2018033540A JP2016167180A JP2016167180A JP2018033540A JP 2018033540 A JP2018033540 A JP 2018033540A JP 2016167180 A JP2016167180 A JP 2016167180A JP 2016167180 A JP2016167180 A JP 2016167180A JP 2018033540 A JP2018033540 A JP 2018033540A
- Authority
- JP
- Japan
- Prior art keywords
- tongue
- lingual
- speaker
- acoustic feature
- tongue position
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
本発明は、舌位・舌癖判定装置、舌位・舌癖判定方法及びプログラムに関する。 The present invention relates to a tongue position / lingual tongue determining apparatus, a tongue position / lingual tongue determining method, and a program.
口腔は発声、呼吸、咀嚼及び嚥下の際に用いられる器官である。口腔環境を正常な状態に保つことは身体の健康等にとって極めて重要であるため、従来から口腔環境の測定が行われている(例えば、特許文献1参照)。 The oral cavity is an organ used for vocalization, breathing, chewing and swallowing. Since maintaining the oral environment in a normal state is extremely important for physical health and the like, the oral environment has been conventionally measured (see, for example, Patent Document 1).
口腔環境に大きな影響を与え、身体の健康等を損なうおそれがあるものの1つに不正咬合がある。不正咬合の約25%は口腔習癖(吸指癖や舌癖(舌突出癖))などが原因である。そこで、不正咬合を矯正すべく、舌、口唇や顔面の筋肉バランスを改善することで口腔習癖を改善する口腔筋機能療法(MTF)が行われている。 Malocclusion is one of the factors that have a great impact on the oral environment and may impair physical health. About 25% of malocclusions are caused by oral habits (such as finger sucking and tongue wrinkles (tongue protrusions)). Therefore, in order to correct malocclusion, oral muscle function therapy (MTF) for improving oral habits by improving muscle balance of the tongue, lips and face has been performed.
不正咬合は、原因となる口腔習癖がなんであるかによってその治療法も変わってくる。このため、舌の機能を解析して不正咬合の原因となる口腔習癖を突き止めることが重要になっている。従来の医療現場では、口腔習癖を突き止めるためエックス線、パラトグラム圧力センサ等を用いて舌機能の解析が行われているため、検査の際に、被曝のおそれがあり、口腔内に器具を設置する必要がある。そこで、非侵襲に舌位・舌癖を識別、判定する方法が望まれている。 The treatment of malocclusion varies depending on what causes the oral habit. For this reason, it has become important to analyze the function of the tongue and identify oral habits that cause malocclusion. In conventional medical practice, analysis of tongue function is performed using X-rays, palatogram pressure sensors, etc. in order to identify oral habits, so there is a risk of exposure during examination, and it is necessary to install instruments in the oral cavity There is. Therefore, a non-invasive method for identifying and determining the tongue position and tongue fold is desired.
一方で、音響モデルを用いた音響認識技術が急速に発達している。しかしながら、舌位・舌癖を判定可能な音響認識技術は未だ考案されていない。 On the other hand, acoustic recognition technology using acoustic models is rapidly developing. However, an acoustic recognition technology that can determine the tongue position and tongue tongue has not yet been devised.
本発明は、非侵襲に舌位・舌癖を判定することができる舌位・舌癖判定装置、舌位・舌癖判定方法及びプログラムを提供することを目的とする。 An object of the present invention is to provide a tongue position / lingual tongue determination device, a tongue position / lingual tongue determination method, and a program capable of determining the tongue position / tongue in a non-invasive manner.
上記目的を達成するために、本発明に係る舌位・舌癖判定装置は、
発話者の発話に係る音声データに基づいて、前記発話者の舌位及び舌癖と関連する音響特徴量を計測する計測部と、
計測された音響特徴量に基づいて、前記発話者の舌位又は舌癖を推定する推定部と、
を備える。
In order to achieve the above object, a tongue position / lingual tongue determining apparatus according to the present invention includes:
Based on voice data related to the utterance of the speaker, a measurement unit that measures acoustic features related to the tongue position and tongue tongue of the speaker;
An estimation unit for estimating the tongue position or tongue tongue of the speaker based on the measured acoustic features;
Is provided.
この場合、前記計測部は、入力された音声データの波形が零レベルまたは零レベル付近の一定区間と交差する数である零交差数を、前記音響特徴量として計測し、
前記推定部は、計測された零交差数に基づいて、前記発話者の舌位又は舌癖を推定する、
こととしてもよい。
In this case, the measurement unit measures, as the acoustic feature quantity, the number of zero crossings, which is the number that the waveform of the input voice data intersects with a zero level or a constant section near the zero level,
The estimating unit estimates the tongue position or tongue tongue of the speaker based on the measured number of zero crossings;
It is good as well.
また、前記計測部は、入力された音声データのメル周波数ケプストラム係数を、前記音響特徴量として計測し、
前記推定部は、計測されたメル周波数ケプストラム係数に基づいて、前記発話者の舌位又は舌癖を推定する、
こととしてもよい。
Further, the measurement unit measures a mel frequency cepstrum coefficient of the input voice data as the acoustic feature amount,
The estimation unit estimates the tongue position or tongue tongue of the speaker based on the measured Mel frequency cepstrum coefficient;
It is good as well.
舌位又は舌癖と参照用の音響特徴量に関する情報とを対応付けて記憶しており、
前記推定部は、計測された音響特徴量に最も近い参照用の音響特徴量に対応付けられた舌位又は舌癖を、前記発話者の舌位又は舌癖として推定する、
こととしてもよい。
The tongue position or tongue fold is stored in association with information on the acoustic feature for reference,
The estimation unit estimates a tongue position or tongue tongue associated with the reference acoustic feature quantity closest to the measured acoustic feature quantity as the tongue position or tongue tongue of the speaker;
It is good as well.
また、同じ舌位又は舌癖を有する複数の発話者の発話に係る音声データから得られた零交差数及びメル周波数ケプストラム係数を各要素とする参照用の音響特徴量ベクトルを参照用の音響特徴量に関する情報として記憶し、
前記推定部は、被験者の発話に係る音声データから得られた零交差数及びメル周波数ケプストラム係数を各要素とする音響特徴量ベクトルを、前記参照用の音響特徴量ベクトルと比較して、被験者の舌位又は舌癖を推定する、
こととしてもよい。
Moreover, the acoustic feature for reference is the acoustic feature vector for reference that includes the number of zero crossings and the mel frequency cepstrum coefficient obtained from the speech data related to the utterances of a plurality of speakers having the same tongue position or tongue tongue. Memorize as quantity information,
The estimation unit compares the acoustic feature quantity vector having the zero-crossing number and the mel frequency cepstrum coefficient obtained from the speech data related to the subject's utterance with the reference acoustic feature quantity vector. Estimating tongue position or tongue fold,
It is good as well.
前記計測部は、子音区間の音声データを、判定用の音声データとして抽出する、
こととしてもよい。
The measurement unit extracts the sound data of the consonant section as sound data for determination.
It is good as well.
前記計測部は、前記音声データの零交差数が閾値以上となる区間の音声データを、子音区間の音声データとして抽出する、
こととしてもよい。
The measurement unit extracts voice data of a section in which the number of zero crossings of the voice data is equal to or greater than a threshold value as voice data of a consonant section;
It is good as well.
本発明の第2の観点に係る舌位・舌癖判定方法は、
発話者の発話に係る音声データに基づいて、前記発話者の舌位及び舌癖と関連する音響特徴量を計測する計測工程と、
計測された音響特徴量に基づいて、前記発話者の舌位又は舌癖を推定する推定工程と、
を含む。
Tongue position / tongue determination method according to the second aspect of the present invention,
A measurement step of measuring an acoustic feature amount related to the tongue position and tongue tongue of the speaker based on voice data related to the speaker's speech;
An estimation step for estimating the tongue position or tongue tongue of the speaker based on the measured acoustic features;
including.
本発明の第3の観点に係るプログラムは、
コンピュータを、
発話者の発話に係る音声データに基づいて、前記発話者の舌位及び舌癖と関連する音響特徴量を計測する計測部、
計測された音響特徴量に基づいて、前記発話者の舌位又は舌癖を推定する推定部、
として機能させる。
The program according to the third aspect of the present invention is:
Computer
A measurement unit that measures acoustic features related to the tongue position and tongue tongue of the speaker based on voice data related to the speaker's speech,
An estimation unit that estimates the tongue position or tongue tongue of the speaker based on the measured acoustic feature amount;
To function as.
本発明によれば、発話者の発話に係る音声データから得られる音響特徴量に基づいて、発話者の舌位・舌癖を推定するので、非侵襲に舌位・舌癖を判定することができる。 According to the present invention, since the tongue position / tongue of the speaker is estimated based on the acoustic feature amount obtained from the voice data related to the utterance of the speaker, the tongue position / tongue can be determined non-invasively. it can.
以下、本発明の実施の形態について、図面を参照して詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
図1に示すように、本実施の形態に係る舌位・舌癖判定装置1としては、発話者hの音声を入力可能な例えば携帯電話、スマートフォン、レコーダ又はパーソナルコンピュータを用いることができる。
As shown in FIG. 1, for example, a mobile phone, a smartphone, a recorder, or a personal computer that can input the voice of the speaker h can be used as the tongue / lingual
判定対象となる舌位・舌癖には、「健常(Origin)」、「低位舌(Lower tongue)」、「下顎前突症(Mandibular)」、「舌突出(Protruding tongue)」、「低位舌+下顎前突症(Mandibular+Lower tongue)」がある。図2に示すように、「健常(Origin)」は、舌22の先が上の前歯20のすぐ後ろに位置して、舌22の広い部分が上あごの口蓋(天井の部分)に軽く付いている状態、すなわち図2の実線で示す舌22の状態である。「低位舌(Lower tongue)」は、舌22の先の位置が低く、下の前歯21の裏側に触れている状態、すなわち図2に示す点線で示した舌22の状態である。「下顎前突症(Mandibular)」は、噛み合わせたときに下あごにある歯(前歯21含む)全体が上あごにある歯全体(前歯20含む)より前方に突出している状態(図2と逆の状態)である。「舌突出(Protruding tongue)」は、舌22が前歯20、21の間から突出している状態である。「低位舌+下顎前突症(Mandibular+Lower tongue)」は、低位舌と下顎前突症とが合併した状態である。
Tongue position and tongue tongue to be judged include “Origin”, “Lower tongue”, “Mandibular”, “Protruding tongue”, “Lower tongue” + Mandibular + Lower tongue ”. As shown in FIG. 2, “Origin” means that the tip of the
舌位・舌癖判定装置1は、入力された発話者hの発話に係る音声データに基づいて、発話者hの舌位・舌癖が、「健常(Origin)」、「低位舌(Lower tongue)」、「下顎前突症(Mandibular)」、「舌突出(Protruding tongue)」、「低位舌+下顎前突症(Mandibular+Lower tongue)」のいずれに該当するか否かを判定する。
The tongue position / lingual
図1に示すように、本実施の形態に係る舌位・舌癖判定装置1は、発話者hの発話に係る音声データを入力する音声入力部2と、入力された音声データに基づいて、発話者hの舌位及び舌癖と関連する音響特徴量を計測する計測部3と、計測された音響特徴量に基づいて、発話者hの舌位又は舌癖を推定する推定部4と、を備える。また、舌位・舌癖判定装置1は、各種データを記憶する記憶装置である記憶部5を備える。
As shown in FIG. 1, the tongue position / lingual
音声入力部2は、マイクロフォンであり、発話者hの発話に係る音声データを入力する。入力された音声データは、音声データ10として記憶部5に記憶される。発話者hは、ある決まった言葉、例えば「いしいしいし・・・」という言葉を発する。音声入力部2は、この発話による音声を音声データとして入力する。発話者hが発話する言葉は、フォルマントが存在する子音である”S”を含む言葉が用いられる。ここで、フォルマントとは、言葉を発している人の音声のスペクトルに含まれる、時間的に移動している複数のピークの塊のことである。発明者は、上述した舌位・舌璧とフォルマントとが相関関係が高いことを突き止めている。
The
計測部3は、抽出された音声データにおける舌位及び舌癖と関連する音響特徴量を計測する。このような音響特徴量には、抽出された音声データにおける音声レベルの零交差数がある。すなわち、計測部3は、抽出された音声データにおける波形が零レベルまたは零レベル付近の一定区間と交差する回数である零交差数を計測する。
The measuring
零交差数は、例えば母音と子音とを発声したときに、母音の区間では少なくなり、子音の区間では多くなることが知られている。また、零交差数は、同じ音を発した複数の者が発した場合でも、発話者の上述の舌位・舌癖によって異なることが知られている。図3(A)及び図3(B)に示すように、「低位舌(Lower tongue)」、「下顎前突症(Mandibular)」、「低位舌+下顎前突症(Mandibular+Lower tongue)」、「健常(Origin)」、「舌突出(Protruding tongue)」について、子音内の各舌位・舌癖について零交差数の分布を確認したところ、舌位・舌癖毎に、零交差数の分布は大きく異なっている。 It is known that the number of zero crossings decreases in a vowel section and increases in a consonant section when, for example, vowels and consonants are uttered. Further, it is known that the number of zero crossings varies depending on the above-mentioned tongue position / tongue of the speaker even when a plurality of persons who have made the same sound are emitted. As shown in FIGS. 3 (A) and 3 (B), “Lower tongue”, “Mandibular”, “Lower tongue + Mandibular + Lower tongue”, “ With regard to “Origin” and “Protruding tongue”, the distribution of the number of zero crossings for each tongue position and tongue fold in the consonant was confirmed. It is very different.
なお、図3(A)では、短冊状の中途にある横ラインが各舌位・舌癖における平均値であり、短冊の上端が上位1/4のデータの値であり、短冊の下端が下位1/4のデータの値である。また、縦ラインの上端が各舌位・舌癖における最高値であり、縦ラインの下端が各舌位・舌癖における最低値である。また、図3(B)では、横軸が零交差数であり、縦軸が各舌位・舌癖に係る密度(出現確率)を示している。これらのデータは、すべて子音区間の音声データから得られたものである。 In FIG. 3A, the horizontal line in the middle of the strip is the average value for each tongue position and tongue tongue, the upper end of the strip is the value of the upper quarter, and the lower end of the strip is the lower order. The data value is 1/4. Further, the upper end of the vertical line is the highest value in each tongue position / tongue, and the lower end of the vertical line is the lowest value in each tongue position / tongue. In FIG. 3B, the horizontal axis represents the number of zero crossings, and the vertical axis represents the density (appearance probability) associated with each tongue position and tongue tongue. These data are all obtained from the speech data of the consonant section.
また、計測部3は、記憶部5に記憶された音声データ10の中から判定対象となる区間の音声データを抽出する。例えば、計測部3は、子音区間の音声データを、判定用の音声データとして抽出する。子音区間の判別には、例えば、上述した零交差数を用いることができる。
In addition, the
零交差数から子音区間の音声データを抽出する方法は、以下の通りである。図4(A)に示すような音声データ(波形データ)が得られた場合、この波形データのスペクトル(Spectrogram)は、図4(B)に示すようになる。計測部3は、図4(A)に示す音声データの波形から、その波形がゼロレベルと交差する零クロス点(Z cross(Only trigger))を検出する(図4(C))。ここで、フレーム(単位時間)毎の零クロス点の数(Z cross(Each frame))は、図4(D)に示すようになる。計測部3は、このフレーム毎の零クロス点の数が閾値以上の部分(図4(E))の音声データ(Z cross(Detected result)で示される区間の音声データ)を、判定用の音声データとして抽出する。
A method for extracting speech data of a consonant section from the number of zero crossings is as follows. When audio data (waveform data) as shown in FIG. 4A is obtained, the spectrum of the waveform data is as shown in FIG. 4B. The measuring
さらに、計測部3は、音声データのメル周波数ケプストラム係数(MFCC)を、音響特徴量として計測する。具体的には、計測部3は、子音区間の音声データとして抽出された判定用の音声データのメル周波数ケプストラム係数を計測する。メル周波数ケプストラム係数は、ケプストラムと同じく声道特性を表す音響特徴量である。ここで、ケプストラムとは、音のスペクトルを信号とみなして周波数変換(例えばフーリエ変換)した結果である。メルとは、その係数が、人間の音声知覚の特徴を考慮し算出されたものであることを示している。
Furthermore, the
計測部3は、プリエンファシスフィルタで判定用の音声データの波形の高域成分を強調する。プリエンファシスフィルタは、高域成分を強調することで声道特徴をはっきりと出すために用いられる。フィルタの演算式は、例えば、以下の式を採用することができる。
y(n)=x(n)−px(n−1)
ここで、nは、自然数であり、サンプリング番号である。また、x(n)は判定用の音声波形データであり、x(n−1)は1つ前の音声データの値である。pはプリエンファシス係数であり、0.97を用いることが多いが、設定する値は任意である。また、y(n)がフィルタの出力である。
The measuring
y (n) = x (n) -px (n-1)
Here, n is a natural number and a sampling number. Further, x (n) is the sound waveform data for determination, and x (n−1) is the value of the previous sound data. p is a pre-emphasis coefficient, and 0.97 is often used, but the value to be set is arbitrary. Y (n) is the output of the filter.
さらに、計測部3は、窓関数(ハミング窓)をかけた後に高域成分が強調された音声データに対して高速フーリエ変換(FFT)を行い、音声データの振幅スペクトルを求める。
Further, the measuring
続いて、計測部3は、振幅スペクトルにメルフィルタバンクをかけて圧縮する。メルフィルタバンクとは、例えば三角形のバンドパスフィルタを複数並べたものであり、メル尺度上で等間隔なフィルタバンクである。メル尺度は、人間の音声知覚を反映した周波数軸で単位はmelである。すなわち、メルフィルタバンクのバンドパスフィルタは、低周波数ほど間隔が狭く、高周波ほど間隔が広くなっている。バンドパスフィルタの数をチャネル数と呼ぶ。
Subsequently, the
さらに、計測部3は、圧縮した数値列を信号とみなして離散コサイン変換を行ってケプストラムを得る。そして、得られたケプストラムの低次成分がメル周波数ケプストラム係数(MFCC)であり、計測部3は、MFCCを抽出する。MFCCは、次数が低い順に、MFCC(1)〜MFCC(20)などと表現される。
Further, the
例えば、図5(A)及び図5(B)に示すように、「低位舌(Lower tongue)」、「下顎前突症(Mandibular)」、「低位舌+下顎前突症(Mandibular+Lower tongue)」、「健常(Origin)」、「舌突出(Protruding tongue)」について、子音内の各舌位・舌癖についてMFCC(4)(第4係数)の分布を確認したところ、舌位・舌癖毎に、MFCC(4)の分布が大きく異なっている。なお、図5(A)及び図5(B)の見方は、図3(A)及び図3(B)と同じである。 For example, as shown in FIGS. 5 (A) and 5 (B), “Lower tongue”, “Mandibular”, “Lower tongue + Mandibular + Lower tongue” , “Origin”, “Protruding tongue”, the distribution of MFCC (4) (4th coefficient) for each tongue position and tongue tongue in the consonant, the tongue position and tongue tongue In addition, the distribution of MFCC (4) is greatly different. 5A and 5B are the same as those in FIGS. 3A and 3B.
図6(A)乃至図6(E)には、「低位舌(Lower tongue)」、「下顎前突症(Mandibular)」、「低位舌+下顎前突症(Mandibular+Lower tongue)」、「健常(Origin)」、「舌突出(Protruding tongue)」におけるMFCC(2)乃至MFCC(13)の計測結果が示されている。図6(A)乃至図6(E)に示すように、各舌位・舌癖において、MFCC(2)乃至MFCC(13)の変化パターン(プロフィール)はよく一致しており、そのプロフィールは、舌位・舌癖間で異なっている。 6 (A) to 6 (E), “Lower tongue”, “Mandibular”, “Mandibular + Lower tongue”, “Healthy ( The measurement results of MFCC (2) to MFCC (13) in “Origin” and “Protruding tongue” are shown. As shown in FIG. 6 (A) to FIG. 6 (E), the change patterns (profiles) of MFCC (2) to MFCC (13) are in good agreement in each tongue position and tongue tongue, and the profile is It is different between tongue position and tongue tongue.
推定部4は、計測された零交差数及びメル周波数ケプストラム係数(MFCC)に基づいて、発話者hの舌位又は舌癖を推定する。具体的には、記憶部5は、同じ舌位又は舌癖を有する複数の発話者(発話者hとは異なる)の発話に係る音声データから得られた音響特徴量に関する情報を参照データ12として記憶している。推定部4は、計測された発話者hの音響特徴量に関する情報と最も近い参照データ12に対応付けられた舌位又は舌癖を、発話者hの舌位又は舌癖として推定する。
The
より具体的には、記憶部5に記憶される参照データ12は、同じ舌位又は舌癖を有する複数の発話者(発話者hを除く)の発話に係る音声データから得られた零交差数及びメル周波数ケプストラム係数(MFCC)を各要素とする参照用の音響特徴量ベクトルである。推定部4は、発話者hの発話に係る音声データから得られた零交差数及びメル周波数ケプストラム係数(MFCC)を各要素とする音響特徴量ベクトルを、参照用データ(参照用の音響特徴量ベクトル)12と比較して、発話者hの舌位又は舌癖を推定する。
More specifically, the
舌位・舌癖毎にまとめられた零交差数及びMFCC(1)〜MFCC(8)を各要素とする参照用の音響特徴量ベクトル(参照データ12)を2次元平面に変換して図示すると、図7に示すように、「低位舌(Lower tongue)」、「下顎前突症(Mandibular)」、「低位舌+下顎前突症(Mandibular+Lower tongue)」、「健常(Origin)」、「舌突出(Protruding tongue)」についてベクトルが存在する領域が明確に区別される。推定部4は、発話者hの発話に係る音声データから零交差数及びMFCC(1)〜MFCC(8)を計測し、それらの値を要素とする音響特徴量ベクトルが、どの領域に属するかを判定することにより、発話者hの舌位・舌癖を推定する。例えば、図7に示す空間において、音響特徴量ベクトルが「Lower tongue」の領域に入っている場合には、その発話者hの舌位・舌癖は、「低位舌(Lower tongue)」であると推定される。
If the number of zero crossings and the MFCC (1) to MFCC (8) collected for each tongue position and tongue fold are used as reference elements, the reference acoustic feature vector (reference data 12) is converted into a two-dimensional plane and illustrated. As shown in Fig. 7, "Lower tongue", "Mandibular", "Lower tongue + Mandibular + Lower tongue", "Origin", "Tongue" The region where the vector exists for the “protruding tongue” is clearly distinguished. The
図8に示すように、舌位・舌癖判定装置1は、制御部31、主記憶部32、外部記憶部33、操作部34、表示部35及び入力部36をハードウエア構成として備えている。主記憶部32、外部記憶部33、操作部34、表示部35及び入力部36はいずれも内部バス30を介して制御部31に接続されている。
As shown in FIG. 8, the tongue / lingual
制御部31は、CPU(Central Processing Unit)等から構成されている。このCPUが、外部記憶部33に記憶されているプログラム39を実行することにより、図1に示す舌位・舌癖判定装置1の各構成要素が実現される。
The
主記憶部32は、RAM(Random-Access Memory)等から構成されている。主記憶部32には、外部記憶部33に記憶されているプログラム39がロードされる。この他、主記憶部32は、制御部31の作業領域(データの一時記憶領域)として用いられる。
The
外部記憶部33は、フラッシュメモリ、ハードディスク、DVD−RAM(Digital Versatile Disc Random-Access Memory)、DVD−RW(Digital Versatile Disc ReWritable)等の不揮発性メモリから構成される。外部記憶部33には、制御部31に実行させるためのプログラム39があらかじめ記憶されている。また、外部記憶部33は、制御部31の指示に従って、このプログラム39の実行の際に用いられるデータを制御部31に供給し、制御部31から供給されたデータを記憶する。
The
上述の、計測部3及び推定部4は、制御部31に対応しており、記憶部5は、主記憶部32及び外部記憶部33に対応している。
The
操作部34は、キーボード及びマウスなどのポインティングデバイス等と、キーボードおよびポインティングデバイス等を内部バス30に接続するインターフェイス装置から構成されている。操作部34を介して、操作者が操作した内容に関する情報が制御部31に入力される。この操作部34から操作入力によって、音声入力部2、計測部3及び推定部4の動作が開始される。
The
表示部35は、CRT(Cathode Ray Tube)またはLCD(Liquid Crystal Display)などから構成され、操作者が操作情報を入力する場合は、操作用の画面が表示される。表示部35には、例えば、舌位の判定結果等が表示される。
The
入力部36は、マイクロフォンから構成されている。入力部36が、周囲の音声を入力し、音声データとして内部バス30に出力する。音声入力部2は、制御部31及び入力部36によって構成される。
The
なお、この他、通信ネットワークを介して通信可能な通信インターフェイスを有していてもよい。このような通信インターフェイスを介して受信した音声データも判定対象とすることができる。 In addition, you may have a communication interface which can communicate via a communication network. Audio data received via such a communication interface can also be determined.
図1に示す舌位・舌癖判定装置1の各種構成要素は、図2に示すプログラム39が、制御部31、主記憶部32、外部記憶部33、操作部34、表示部35及び入力部36などをハードウエア資源として用いて実行されることによってその機能を発揮する。
The various components of the tongue / lingual
次に、本実施の形態に係る舌位・舌癖判定装置1の動作について説明する。図9には、舌位・舌癖判定装置1で実行される判定処理を示すフローチャートが示されている。
Next, the operation of the tongue position / lingual
図9に示すように、音声入力部2は、発話者hの発話に係る音声データを入力する音声入力工程を行う(ステップS1)。音声入力部2は、入力された音声データを、記憶部5に音声データ10として記憶する。
As shown in FIG. 9, the
続いて、計測部3は、発話者hの発話に係る音声データから、判定対象となる音声データを抽出し、抽出された音声データにおける舌位又は舌癖と関連する音響特徴量を計測する計測工程を行う(ステップS2)。
Subsequently, the
このステップS2において、図8に示すように、まず、計測部3は、音声データ10を読み込んで、その音声データ10の波形について零レベルと交差する零交差数を計測する零交差数計測を行う(ステップS10)。そして、計測部3は、零交差数が閾値以上の区間の音声データを、子音区間の音声データとして抽出する子音区間抽出を行う(ステップS11)。この子音区間抽出において、計測部3は、抽出された音声データにおける零交差数及びMFCC(1)〜MFCC(8)の値を算出する音響特徴量算出を行う(ステップS12)。この音響特徴量の算出の工程において、計測部3は、算出された音響特徴量を、音響特徴量データ11として記憶部5に記憶する。
In step S2, as shown in FIG. 8, first, the
図9に戻り、さらに、推定部4は、記憶部5に記憶された音響特徴量データ11に基づいて、発話者(被験者)hの舌位又は舌癖を推定する推定工程を行う(ステップS3)。基本的には、推定部4は、音響特徴量データ11(発話者hの音響特徴量ベクトル)と、参照データ12としての舌位・舌癖毎の参照用の音響特徴量ベクトルとの間の距離をそれぞれ算出し、その距離が最も短い音響特徴量ベクトルに対応する舌位・舌癖を、判定結果として出力する。この判定結果は、例えば画面表示され、発話者hや医師等に提示することができる。
Returning to FIG. 9, the
なお、記憶部5に記憶される参照データ12としては、上述した処理が実行される前に、舌位・舌癖が明らかな複数の被験者の音声を音声入力部2により入力して、その音声データに対して、計測部3が計測した音響特徴量を、記憶部5に参照データ12として記憶したものを用いればよい。また、全国平均でとられた膨大な量から成る参照データ12を、記憶部5に記憶しておくようにしてもよい。
In addition, as the
以上詳細に説明したように、本実施の形態によれば、発話者hの発話に係る音声データから得られる音響特徴量に基づいて、発話者hの舌位・舌癖を推定するので、非侵襲に舌位・舌癖を判定することができる。 As described above in detail, according to the present embodiment, the tongue position / tongue of the speaker h is estimated based on the acoustic feature amount obtained from the speech data related to the speech of the speaker h. Tongue position and tongue fold can be determined during invasion.
なお、上記実施の形態では、零交差数及びMFCC(1)〜MFCC(8)を要素とする音響特徴量ベクトルを用いて舌位・舌癖を判定したが、これには限られない。例えば、MFCC(9)以上を、ベクトルの要素に含めて判定を行うようにしてもかまわない。 In the above embodiment, the tongue position / lingual tongue is determined using the acoustic feature quantity vector having the number of zero crossings and the MFCC (1) to MFCC (8) as elements, but the present invention is not limited to this. For example, MFCC (9) or higher may be included in the vector element for the determination.
また、メル周波数ケプストラム係数の演算方法は、上述したものには限られない。例えば、プリエンファシスフィルタとは別の高調波フィルタ(ハイパスフィルタ)で、高調波成分を強調するようにしてもよい。また、ハミング窓を用いずに、矩形窓、ガウス窓、ハン窓のような他の窓関数を用いてもよい。また、離散コサイン変換を用いずに、高速フーリエ変換を用いて周波数変換を行ってもよい。 Further, the calculation method of the mel frequency cepstrum coefficient is not limited to the above. For example, the harmonic component may be emphasized by a harmonic filter (high pass filter) different from the pre-emphasis filter. Further, other window functions such as a rectangular window, a Gaussian window, and a Hann window may be used without using a Hamming window. Further, frequency conversion may be performed using fast Fourier transform without using discrete cosine transform.
また、上記実施の形態では、発話者hは、ある決まった言葉、例えば「いしいしいし・・・」という言葉を発するようにしたが、本発明はこれには限られない。発話者hが発する言葉は、フォルマントが存在する子音である”S”を含む他の言葉であってもよい。 Further, in the above embodiment, the speaker h utters a certain fixed word, for example, the word “delicious”, but the present invention is not limited to this. The words uttered by the speaker h may be other words including “S” which is a consonant in which a formant exists.
また、上記実施の形態では、舌位・舌癖として、「健常(Origin)」、「低位舌(Lower tongue)」、「下顎前突症(Mandibular)」、「舌突出(Protruding tongue)」を判定した。しかしながら、本発明はこれには限られない。他の舌位・舌癖を判定対象とするようにしてもよい。例えば、舌を上下の前歯20、21で挟み込むような舌癖を抽出するようにしてもよい。
In the above embodiment, “Origin”, “Lower tongue”, “Mandibular”, and “Protruding tongue” are used as the tongue position and tongue tongue. Judged. However, the present invention is not limited to this. Other tongue positions and tongue folds may be determined. For example, it is possible to extract a tongue fold that sandwiches the tongue between the upper and lower
また、判定するのは、「健常(Origin)」か、「低位舌(Lower tongue)」かだけでもよい。すなわち、上述した舌位・舌癖のうち、一部を判定することができるようにしてもよい。 Further, it may be determined only whether “Origin” or “Lower tongue”. That is, you may enable it to determine a part among tongue position and tongue tongue mentioned above.
また、上記実施の形態では、音声データの零交差数、メル周波数ケプストラム係数を音響特徴量として発話者hの舌位・舌癖を判定したが、本発明はこれには限られない。例えば、零交差数だけで発話者hの舌位・舌癖を判定することも可能である。発話者hの零交差数の分布を計測し、その分布を舌位・舌癖毎の分布(参照データ12)と比べ、分布曲線が最も近い分布を有する舌位・舌癖を判定結果とするようにしてもよい。このように、音響特徴量が1つであっても、統計的な手法で、発話者hの舌位・舌癖を判定することが可能である。また、発話者hの舌位・舌癖を判定可能な音響特徴量であれば、他のものを用いることも可能である。 In the above embodiment, the tongue position / tongue of the speaker h is determined by using the number of zero crossings of the voice data and the mel frequency cepstrum coefficient as the acoustic feature quantity. However, the present invention is not limited to this. For example, it is also possible to determine the tongue position / tongue of the speaker h only from the number of zero crossings. The distribution of the number of zero crossings of the speaker h is measured, and the distribution is compared with the distribution for each tongue position / tongue (reference data 12), and the tongue position / tongue having the closest distribution curve is used as the determination result. You may do it. As described above, even if there is only one acoustic feature amount, it is possible to determine the tongue position / tongue of the speaker h by a statistical method. Any other acoustic feature can be used as long as it can determine the tongue position / tongue of the speaker h.
なお、本実施の形態では、舌位・舌癖判定装置1に音声入力部2を備えたが、本発明はこれには限られない。すなわち、音声入力部2は備えていなくてもよい。例えば遠隔地から送られてきた音声データに対して、舌位の判定を行う舌位・舌癖判定装置を用いるようにしてもよい。
In the present embodiment, the tongue position / lingual
また、上記実施の形態では、舌位・舌癖判定装置1を、例えば携帯電話、スマートフォン、ボイスレコーダ又はパーソナルコンピュータとしたが、これには限られない。舌位・舌癖判定装置1は、専用の装置であってもよい。
Moreover, in the said embodiment, although the tongue position / lingual
その他、舌位・舌癖判定装置1のハードウエア構成やソフトウエア構成は一例であり、任意に変更および修正が可能である。
In addition, the hardware configuration and software configuration of the tongue position / lingual
制御部31、主記憶部32、外部記憶部33、操作部34、表示部35及び入力部36、内部バス30などから構成される舌位・舌癖判定装置1の処理を行う中心となる部分は、上述のように、専用のシステムによらず、通常のコンピュータシステムを用いて実現可能である。例えば、前記の動作を実行するためのコンピュータプログラムを、コンピュータが読み取り可能な記録媒体(フレキシブルディスク、CD−ROM、DVD−ROM等)に格納して配布し、当該コンピュータプログラムをコンピュータにインストールすることにより、前記の処理を実行する舌位・舌癖判定装置1を構成してもよい。また、インターネット等の通信ネットワーク上のサーバ装置が有する記憶装置に当該コンピュータプログラムを格納しておき、通常のコンピュータシステムがダウンロード等することで舌位・舌癖判定装置1を構成してもよい。
A central part that performs processing of the tongue position / lingual
コンピュータの機能を、OS(オペレーティングシステム)とアプリケーションプログラムの分担、またはOSとアプリケーションプログラムとの協働により実現する場合などには、アプリケーションプログラム部分のみを記録媒体や記憶装置に格納してもよい。 When realizing the function of a computer by sharing an OS (operating system) and an application program, or by cooperation between the OS and an application program, only the application program portion may be stored in a recording medium or a storage device.
搬送波にコンピュータプログラムを重畳し、通信ネットワークを介して配信することも可能である。たとえば、通信ネットワーク上の掲示板(BBS, Bulletin Board System)にコンピュータプログラムを掲示し、ネットワークを介してコンピュータプログラムを配信してもよい。そして、このコンピュータプログラムを起動し、OSの制御下で、他のアプリケーションプログラムと同様に実行することにより、前記の処理を実行できるように構成してもよい。 It is also possible to superimpose a computer program on a carrier wave and distribute it via a communication network. For example, a computer program may be posted on a bulletin board (BBS, Bulletin Board System) on a communication network, and the computer program distributed via the network. The computer program may be started and executed in the same manner as other application programs under the control of the OS, so that the above-described processing may be executed.
この発明は、この発明の広義の精神と範囲を逸脱することなく、様々な実施の形態及び変形が可能とされるものである。また、上述した実施の形態は、この発明を説明するためのものであり、この発明の範囲を限定するものではない。すなわち、この発明の範囲は、実施の形態ではなく、特許請求の範囲によって示される。そして、特許請求の範囲内及びそれと同等の発明の意義の範囲内で施される様々な変形が、この発明の範囲内とみなされる。 Various embodiments and modifications can be made to the present invention without departing from the broad spirit and scope of the present invention. The above-described embodiments are for explaining the present invention and do not limit the scope of the present invention. In other words, the scope of the present invention is shown not by the embodiments but by the claims. Various modifications within the scope of the claims and within the scope of the equivalent invention are considered to be within the scope of the present invention.
本発明は、発話者の舌位・舌癖を推定するのに有用である。 The present invention is useful for estimating a speaker's tongue position and tongue tongue.
1 舌位・舌癖判定装置、2 音声入力部、3 計測部、4 推定部、5 記憶部、10 音声データ、11 音響特徴量データ、12 参照データ、13 参照データ、20,21 前歯、22 舌、30 内部バス、31 制御部、32 主記憶部、33 外部記憶部、34 操作部、35 表示部、36 入力部、39 プログラム、h 発話者
DESCRIPTION OF
Claims (9)
計測された音響特徴量に基づいて、前記発話者の舌位又は舌癖を推定する推定部と、
を備える舌位・舌癖判定装置。 Based on voice data related to the utterance of the speaker, a measurement unit that measures acoustic features related to the tongue position and tongue tongue of the speaker;
An estimation unit for estimating the tongue position or tongue tongue of the speaker based on the measured acoustic features;
Tongue position / tongue determination device.
前記推定部は、計測された零交差数に基づいて、前記発話者の舌位又は舌癖を推定する、
請求項1に記載の舌位・舌癖判定装置。 The measurement unit measures, as the acoustic feature amount, the number of zero crossings, which is the number at which the waveform of the input voice data intersects with a zero level or a constant section near the zero level,
The estimating unit estimates the tongue position or tongue tongue of the speaker based on the measured number of zero crossings;
The tongue position / tongue determining apparatus according to claim 1.
前記推定部は、
計測されたメル周波数ケプストラム係数に基づいて、前記発話者の舌位又は舌癖を推定する、
請求項1又は2に記載の舌位・舌癖判定装置。 The measurement unit measures a mel frequency cepstrum coefficient of input voice data as the acoustic feature amount,
The estimation unit includes
Based on the measured Mel frequency cepstrum coefficient, estimating the tongue position or tongue tongue of the speaker,
The tongue position / tongue determining apparatus according to claim 1 or 2.
前記推定部は、計測された音響特徴量に最も近い参照用の音響特徴量に対応付けられた舌位又は舌癖を、前記発話者の舌位又は舌癖として推定する、
請求項1から3のいずれか一項に記載の舌位・舌癖判定装置。 The tongue position or tongue fold is stored in association with information on the acoustic feature for reference,
The estimation unit estimates a tongue position or tongue tongue associated with the reference acoustic feature quantity closest to the measured acoustic feature quantity as the tongue position or tongue tongue of the speaker;
The tongue position / tongue determining apparatus according to any one of claims 1 to 3.
前記推定部は、被験者の発話に係る音声データから得られた零交差数及びメル周波数ケプストラム係数を各要素とする音響特徴量ベクトルを、前記参照用の音響特徴量ベクトルと比較して、被験者の舌位又は舌癖を推定する、
請求項4に記載の舌位・舌癖判定装置。 A reference acoustic feature vector having a zero-crossing number and a mel frequency cepstrum coefficient obtained from speech data related to the utterances of a plurality of speakers having the same tongue position or tongue fold as a reference acoustic feature amount Remember as information,
The estimation unit compares the acoustic feature quantity vector having the zero-crossing number and the mel frequency cepstrum coefficient obtained from the speech data related to the subject's utterance with the reference acoustic feature quantity vector. Estimating tongue position or tongue fold,
The tongue position / tongue determining apparatus according to claim 4.
請求項1から5のいずれか一項に記載の舌位・舌癖判定装置。 The measurement unit extracts the sound data of the consonant section as sound data for determination.
The tongue position / tongue determining apparatus according to any one of claims 1 to 5.
請求項6に記載の舌位・舌癖判定装置。 The measurement unit extracts voice data of a section in which the number of zero crossings of the voice data is equal to or greater than a threshold value as voice data of a consonant section;
The tongue position / tongue determining apparatus according to claim 6.
計測された音響特徴量に基づいて、前記発話者の舌位又は舌癖を推定する推定工程と、
を含む舌位・舌癖判定方法。 A measurement step of measuring an acoustic feature amount related to the tongue position and tongue tongue of the speaker based on voice data related to the speaker's speech;
An estimation step for estimating the tongue position or tongue tongue of the speaker based on the measured acoustic features;
Tongue position / tongue determination method.
発話者の発話に係る音声データに基づいて、前記発話者の舌位及び舌癖と関連する音響特徴量を計測する計測部、
計測された音響特徴量に基づいて、前記発話者の舌位又は舌癖を推定する推定部、
として機能させるプログラム。 Computer
A measurement unit that measures acoustic features related to the tongue position and tongue tongue of the speaker based on voice data related to the speaker's speech,
An estimation unit that estimates the tongue position or tongue tongue of the speaker based on the measured acoustic feature amount;
Program to function as.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016167180A JP6782940B2 (en) | 2016-08-29 | 2016-08-29 | Tongue position / tongue habit judgment device, tongue position / tongue habit judgment method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016167180A JP6782940B2 (en) | 2016-08-29 | 2016-08-29 | Tongue position / tongue habit judgment device, tongue position / tongue habit judgment method and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018033540A true JP2018033540A (en) | 2018-03-08 |
JP6782940B2 JP6782940B2 (en) | 2020-11-11 |
Family
ID=61566272
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016167180A Active JP6782940B2 (en) | 2016-08-29 | 2016-08-29 | Tongue position / tongue habit judgment device, tongue position / tongue habit judgment method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6782940B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019225242A1 (en) * | 2018-05-23 | 2019-11-28 | パナソニックIpマネジメント株式会社 | Swallowing function evaluation method, program, swallowing function evaluation device, and swallowing function evaluation system |
-
2016
- 2016-08-29 JP JP2016167180A patent/JP6782940B2/en active Active
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019225242A1 (en) * | 2018-05-23 | 2019-11-28 | パナソニックIpマネジメント株式会社 | Swallowing function evaluation method, program, swallowing function evaluation device, and swallowing function evaluation system |
CN112135564A (en) * | 2018-05-23 | 2020-12-25 | 松下知识产权经营株式会社 | Method, program, device and system for evaluating ingestion swallowing function |
JPWO2019225242A1 (en) * | 2018-05-23 | 2021-07-08 | パナソニックIpマネジメント株式会社 | Eating and swallowing function evaluation method, program, eating and swallowing function evaluation device and eating and swallowing function evaluation system |
CN112135564B (en) * | 2018-05-23 | 2024-04-02 | 松下知识产权经营株式会社 | Method, recording medium, evaluation device, and evaluation system for ingestion swallowing function |
Also Published As
Publication number | Publication date |
---|---|
JP6782940B2 (en) | 2020-11-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mehta et al. | Relationships between vocal function measures derived from an acoustic microphone and a subglottal neck-surface accelerometer | |
TWI680453B (en) | Cognitive function evaluation device, cognitive function evaluation system, cognitive function evaluation method and program | |
Kreiman et al. | Variability in the relationships among voice quality, harmonic amplitudes, open quotient, and glottal area waveform shape in sustained phonation | |
JP7385299B2 (en) | Estimation of lung volume by speech analysis | |
Fryd et al. | Estimating subglottal pressure from neck-surface acceleration during normal voice production | |
Mehta et al. | The difference between first and second harmonic amplitudes correlates between glottal airflow and neck-surface accelerometer signals during phonation | |
US8571873B2 (en) | Systems and methods for reconstruction of a smooth speech signal from a stuttered speech signal | |
Khan et al. | Cepstral separation difference: A novel approach for speech impairment quantification in Parkinson's disease | |
Daudet et al. | Portable mTBI assessment using temporal and frequency analysis of speech | |
Drugman et al. | Tracheoesophageal speech: A dedicated objective acoustic assessment | |
Fahed et al. | Comparison of acoustic voice features derived from mobile devices and studio microphone recordings | |
CN114287913A (en) | Multi-modal spirometric measurements for respiratory rate instability prediction | |
Mitev et al. | Fundamental frequency estimation of voice of patients with laryngeal disorders | |
JP6373621B2 (en) | Speech evaluation device, speech evaluation method, program | |
JP6782940B2 (en) | Tongue position / tongue habit judgment device, tongue position / tongue habit judgment method and program | |
JP7076732B2 (en) | Adenoid hypertrophy determination device, adenoid hypertrophy determination method and program | |
Schultz et al. | A tutorial review on clinical acoustic markers in speech science | |
US20220409063A1 (en) | Diagnosis of medical conditions using voice recordings and auscultation | |
Akafi et al. | Assessment of hypernasality for children with cleft palate based on cepstrum analysis | |
Perrine et al. | Signal interpretation considerations when estimating subglottal pressure from oral air pressure | |
JP2012024527A (en) | Device for determining proficiency level of abdominal breathing | |
JP4381404B2 (en) | Speech synthesis system, speech synthesis method, speech synthesis program | |
Pandey et al. | Estimation of place of articulation during stop closures of vowel–consonant–vowel utterances | |
Al-Junaid et al. | Design of Digital Blowing Detector | |
WO2023233667A1 (en) | Information processing device, information processing method, information processing system, and information processing program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190613 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200422 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200623 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200820 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201006 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201013 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6782940 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |