JP6782940B2 - 舌位・舌癖判定装置、舌位・舌癖判定方法及びプログラム - Google Patents

舌位・舌癖判定装置、舌位・舌癖判定方法及びプログラム Download PDF

Info

Publication number
JP6782940B2
JP6782940B2 JP2016167180A JP2016167180A JP6782940B2 JP 6782940 B2 JP6782940 B2 JP 6782940B2 JP 2016167180 A JP2016167180 A JP 2016167180A JP 2016167180 A JP2016167180 A JP 2016167180A JP 6782940 B2 JP6782940 B2 JP 6782940B2
Authority
JP
Japan
Prior art keywords
tongue
habit
voice data
speaker
tongue position
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016167180A
Other languages
English (en)
Other versions
JP2018033540A (ja
Inventor
俊介 石光
俊介 石光
仁史 中山
仁史 中山
一貴 葛西
一貴 葛西
聡 堀畑
聡 堀畑
石井 かおり
かおり 石井
公子 山下
公子 山下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nihon University
Hiroshima City University
Original Assignee
Nihon University
Hiroshima City University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nihon University, Hiroshima City University filed Critical Nihon University
Priority to JP2016167180A priority Critical patent/JP6782940B2/ja
Publication of JP2018033540A publication Critical patent/JP2018033540A/ja
Application granted granted Critical
Publication of JP6782940B2 publication Critical patent/JP6782940B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Description

本発明は、舌位・舌癖判定装置、舌位・舌癖判定方法及びプログラムに関する。
口腔は発声、呼吸、咀嚼及び嚥下の際に用いられる器官である。口腔環境を正常な状態に保つことは身体の健康等にとって極めて重要であるため、従来から口腔環境の測定が行われている(例えば、特許文献1参照)。
口腔環境に大きな影響を与え、身体の健康等を損なうおそれがあるものの1つに不正咬合がある。不正咬合の約25%は口腔習癖(吸指癖や舌癖(舌突出癖))などが原因である。そこで、不正咬合を矯正すべく、舌、口唇や顔面の筋肉バランスを改善することで口腔習癖を改善する口腔筋機能療法(MTF)が行われている。
国際公開第2001/078602号
不正咬合は、原因となる口腔習癖がなんであるかによってその治療法も変わってくる。このため、舌の機能を解析して不正咬合の原因となる口腔習癖を突き止めることが重要になっている。従来の医療現場では、口腔習癖を突き止めるためエックス線、パラトグラム圧力センサ等を用いて舌機能の解析が行われているため、検査の際に、被曝のおそれがあり、口腔内に器具を設置する必要がある。そこで、非侵襲に舌位・舌癖を識別、判定する方法が望まれている。
一方で、音響モデルを用いた音響認識技術が急速に発達している。しかしながら、舌位・舌癖を判定可能な音響認識技術は未だ考案されていない。
本発明は、非侵襲に舌位・舌癖を判定することができる舌位・舌癖判定装置、舌位・舌癖判定方法及びプログラムを提供することを目的とする。
上記目的を達成するために、本発明に係る舌位・舌癖判定装置は、
発話者の発話に係る音声データに基づいて、前記発話者の舌位及び舌癖と関連する音響特徴量であり、入力された音声データの波形が零レベルまたは零レベル付近の一定区間と交差する数である零交差数と、入力された音声データのメル周波数ケプストラム係数との少なくとも一方である音響特徴量を計測する計測部と、
計測された前記音響特徴量に基づいて、前記発話者の舌位又は舌癖を推定する推定部と、
を備える。
この場合、前記計測部は、前記零交差数を、前記音響特徴量として計測し、
前記推定部は、計測された前記零交差数に基づいて、前記発話者の舌位又は舌癖を推定する、
こととしてもよい。
また、前記計測部は、前記メル周波数ケプストラム係数を、前記音響特徴量として計測し、
前記推定部は、
計測された前記メル周波数ケプストラム係数に基づいて、前記発話者の舌位又は舌癖を推定する、
こととしてもよい。
舌位又は舌癖と参照用の前記音響特徴量に関する情報とを対応付けて記憶しており、
前記推定部は、計測された前記音響特徴量に最も近い参照用の前記音響特徴量に対応付けられた舌位又は舌癖を、前記発話者の舌位又は舌癖として推定する、
こととしてもよい。
また、同じ舌位又は舌癖を有する複数の発話者の発話に係る音声データから得られた零交差数及びメル周波数ケプストラム係数を各要素とする参照用の音響特徴量ベクトルを参照用の前記音響特徴量に関する情報として記憶し、
前記推定部は、被験者の発話に係る音声データから得られた前記零交差数及び前記メル周波数ケプストラム係数を各要素とする音響特徴量ベクトルを、前記参照用の音響特徴量ベクトルと比較して、被験者の舌位又は舌癖を推定する、
こととしてもよい。
前記計測部は、子音区間の音声データを、判定用の音声データとして抽出する、
こととしてもよい。
前記計測部は、前記音声データの零交差数が閾値以上となる区間の音声データを、子音区間の音声データとして抽出する、
こととしてもよい。
本発明の第2の観点に係る舌位・舌癖判定方法は、
舌位・舌癖判定装置によって実行される舌位・舌癖判定方法であって、
発話者の発話に係る音声データに基づいて、前記発話者の舌位及び舌癖と関連する音響特徴量であり、入力された音声データの波形が零レベルまたは零レベル付近の一定区間と交差する数である零交差数と、入力された音声データのメル周波数ケプストラム係数との少なくとも一方である音響特徴量を計測する計測工程と、
計測された前記音響特徴量に基づいて、前記発話者の舌位又は舌癖を推定する推定工程と、
を含む。
本発明の第3の観点に係るプログラムは、
コンピュータを、
発話者の発話に係る音声データに基づいて、前記発話者の舌位及び舌癖と関連する音響特徴量であり、入力された音声データの波形が零レベルまたは零レベル付近の一定区間と交差する数である零交差数と、入力された音声データのメル周波数ケプストラム係数との少なくとも一方である音響特徴量を計測する計測部、
計測された前記音響特徴量に基づいて、前記発話者の舌位又は舌癖を推定する推定部、
として機能させる。
本発明によれば、発話者の発話に係る音声データから得られる音響特徴量に基づいて、発話者の舌位・舌癖を推定するので、非侵襲に舌位・舌癖を判定することができる。
本発明の実施の形態に係る舌位・舌癖判定装置の機能構成を示すブロック図である。 舌位・舌癖の一例を示す図である。 図3(A)及び図3(B)は、舌位・舌癖毎の零交差数の分布を示す図である。 図4(A)乃至図4(E)は、音声データ中における子音区間の音声データを示す図である。 図5(A)及び図5(B)は、舌位・舌癖毎のメル周波数ケプストラム第4係数の分布を示す図である。 図6(A)乃至図6(E)は、舌位・舌癖毎のメル周波数ケプストラム係数の計測結果を示すグラフである。 音響特徴量ベクトルが2次元変換されたベクトル空間を示す図である。 図1の舌位・舌癖判定装置のハードウエア構成を示すブロック図である。 舌位・舌癖判定装置における判定処理のフローチャートである。 計測工程のフローチャートである。
以下、本発明の実施の形態について、図面を参照して詳細に説明する。
図1に示すように、本実施の形態に係る舌位・舌癖判定装置1としては、発話者hの音声を入力可能な例えば携帯電話、スマートフォン、レコーダ又はパーソナルコンピュータを用いることができる。
判定対象となる舌位・舌癖には、「健常(Origin)」、「低位舌(Lower tongue)」、「下顎前突症(Mandibular)」、「舌突出(Protruding tongue)」、「低位舌+下顎前突症(Mandibular+Lower tongue)」がある。図2に示すように、「健常(Origin)」は、舌22の先が上の前歯20のすぐ後ろに位置して、舌22の広い部分が上あごの口蓋(天井の部分)に軽く付いている状態、すなわち図2の実線で示す舌22の状態である。「低位舌(Lower tongue)」は、舌22の先の位置が低く、下の前歯21の裏側に触れている状態、すなわち図2に示す点線で示した舌22の状態である。「下顎前突症(Mandibular)」は、噛み合わせたときに下あごにある歯(前歯21含む)全体が上あごにある歯全体(前歯20含む)より前方に突出している状態(図2と逆の状態)である。「舌突出(Protruding tongue)」は、舌22が前歯20、21の間から突出している状態である。「低位舌+下顎前突症(Mandibular+Lower tongue)」は、低位舌と下顎前突症とが合併した状態である。
舌位・舌癖判定装置1は、入力された発話者hの発話に係る音声データに基づいて、発話者hの舌位・舌癖が、「健常(Origin)」、「低位舌(Lower tongue)」、「下顎前突症(Mandibular)」、「舌突出(Protruding tongue)」、「低位舌+下顎前突症(Mandibular+Lower tongue)」のいずれに該当するか否かを判定する。
図1に示すように、本実施の形態に係る舌位・舌癖判定装置1は、発話者hの発話に係る音声データを入力する音声入力部2と、入力された音声データに基づいて、発話者hの舌位及び舌癖と関連する音響特徴量を計測する計測部3と、計測された音響特徴量に基づいて、発話者hの舌位又は舌癖を推定する推定部4と、を備える。また、舌位・舌癖判定装置1は、各種データを記憶する記憶装置である記憶部5を備える。
音声入力部2は、マイクロフォンであり、発話者hの発話に係る音声データを入力する。入力された音声データは、音声データ10として記憶部5に記憶される。発話者hは、ある決まった言葉、例えば「いしいしいし・・・」という言葉を発する。音声入力部2は、この発話による音声を音声データとして入力する。発話者hが発話する言葉は、フォルマントが存在する子音である”S”を含む言葉が用いられる。ここで、フォルマントとは、言葉を発している人の音声のスペクトルに含まれる、時間的に移動している複数のピークの塊のことである。発明者は、上述した舌位・舌璧とフォルマントとが相関関係が高いことを突き止めている。
計測部3は、抽出された音声データにおける舌位及び舌癖と関連する音響特徴量を計測する。このような音響特徴量には、抽出された音声データにおける音声レベルの零交差数がある。すなわち、計測部3は、抽出された音声データにおける波形が零レベルまたは零レベル付近の一定区間と交差する回数である零交差数を計測する。
零交差数は、例えば母音と子音とを発声したときに、母音の区間では少なくなり、子音の区間では多くなることが知られている。また、零交差数は、同じ音を発した複数の者が発した場合でも、発話者の上述の舌位・舌癖によって異なることが知られている。図3(A)及び図3(B)に示すように、「低位舌(Lower tongue)」、「下顎前突症(Mandibular)」、「低位舌+下顎前突症(Mandibular+Lower tongue)」、「健常(Origin)」、「舌突出(Protruding tongue)」について、子音内の各舌位・舌癖について零交差数の分布を確認したところ、舌位・舌癖毎に、零交差数の分布は大きく異なっている。
なお、図3(A)では、短冊状の中途にある横ラインが各舌位・舌癖における平均値であり、短冊の上端が上位1/4のデータの値であり、短冊の下端が下位1/4のデータの値である。また、縦ラインの上端が各舌位・舌癖における最高値であり、縦ラインの下端が各舌位・舌癖における最低値である。また、図3(B)では、横軸が零交差数であり、縦軸が各舌位・舌癖に係る密度(出現確率)を示している。これらのデータは、すべて子音区間の音声データから得られたものである。
また、計測部3は、記憶部5に記憶された音声データ10の中から判定対象となる区間の音声データを抽出する。例えば、計測部3は、子音区間の音声データを、判定用の音声データとして抽出する。子音区間の判別には、例えば、上述した零交差数を用いることができる。
零交差数から子音区間の音声データを抽出する方法は、以下の通りである。図4(A)に示すような音声データ(波形データ)が得られた場合、この波形データのスペクトル(Spectrogram)は、図4(B)に示すようになる。計測部3は、図4(A)に示す音声データの波形から、その波形がゼロレベルと交差する零クロス点(Z cross(Only trigger))を検出する(図4(C))。ここで、フレーム(単位時間)毎の零クロス点の数(Z cross(Each frame))は、図4(D)に示すようになる。計測部3は、このフレーム毎の零クロス点の数が閾値以上の部分(図4(E))の音声データ(Z cross(Detected result)で示される区間の音声データ)を、判定用の音声データとして抽出する。
さらに、計測部3は、音声データのメル周波数ケプストラム係数(MFCC)を、音響特徴量として計測する。具体的には、計測部3は、子音区間の音声データとして抽出された判定用の音声データのメル周波数ケプストラム係数を計測する。メル周波数ケプストラム係数は、ケプストラムと同じく声道特性を表す音響特徴量である。ここで、ケプストラムとは、音のスペクトルを信号とみなして周波数変換(例えばフーリエ変換)した結果である。メルとは、その係数が、人間の音声知覚の特徴を考慮し算出されたものであることを示している。
計測部3は、プリエンファシスフィルタで判定用の音声データの波形の高域成分を強調する。プリエンファシスフィルタは、高域成分を強調することで声道特徴をはっきりと出すために用いられる。フィルタの演算式は、例えば、以下の式を採用することができる。
y(n)=x(n)−px(n−1)
ここで、nは、自然数であり、サンプリング番号である。また、x(n)は判定用の音声波形データであり、x(n−1)は1つ前の音声データの値である。pはプリエンファシス係数であり、0.97を用いることが多いが、設定する値は任意である。また、y(n)がフィルタの出力である。
さらに、計測部3は、窓関数(ハミング窓)をかけた後に高域成分が強調された音声データに対して高速フーリエ変換(FFT)を行い、音声データの振幅スペクトルを求める。
続いて、計測部3は、振幅スペクトルにメルフィルタバンクをかけて圧縮する。メルフィルタバンクとは、例えば三角形のバンドパスフィルタを複数並べたものであり、メル尺度上で等間隔なフィルタバンクである。メル尺度は、人間の音声知覚を反映した周波数軸で単位はmelである。すなわち、メルフィルタバンクのバンドパスフィルタは、低周波数ほど間隔が狭く、高周波ほど間隔が広くなっている。バンドパスフィルタの数をチャネル数と呼ぶ。
さらに、計測部3は、圧縮した数値列を信号とみなして離散コサイン変換を行ってケプストラムを得る。そして、得られたケプストラムの低次成分がメル周波数ケプストラム係数(MFCC)であり、計測部3は、MFCCを抽出する。MFCCは、次数が低い順に、MFCC(1)〜MFCC(20)などと表現される。
例えば、図5(A)及び図5(B)に示すように、「低位舌(Lower tongue)」、「下顎前突症(Mandibular)」、「低位舌+下顎前突症(Mandibular+Lower tongue)」、「健常(Origin)」、「舌突出(Protruding tongue)」について、子音内の各舌位・舌癖についてMFCC(4)(第4係数)の分布を確認したところ、舌位・舌癖毎に、MFCC(4)の分布が大きく異なっている。なお、図5(A)及び図5(B)の見方は、図3(A)及び図3(B)と同じである。
図6(A)乃至図6(E)には、「低位舌(Lower tongue)」、「下顎前突症(Mandibular)」、「低位舌+下顎前突症(Mandibular+Lower tongue)」、「健常(Origin)」、「舌突出(Protruding tongue)」におけるMFCC(2)乃至MFCC(13)の計測結果が示されている。図6(A)乃至図6(E)に示すように、各舌位・舌癖において、MFCC(2)乃至MFCC(13)の変化パターン(プロフィール)はよく一致しており、そのプロフィールは、舌位・舌癖間で異なっている。
推定部4は、計測された零交差数及びメル周波数ケプストラム係数(MFCC)に基づいて、発話者hの舌位又は舌癖を推定する。具体的には、記憶部5は、同じ舌位又は舌癖を有する複数の発話者(発話者hとは異なる)の発話に係る音声データから得られた音響特徴量に関する情報を参照データ12として記憶している。推定部4は、計測された発話者hの音響特徴量に関する情報と最も近い参照データ12に対応付けられた舌位又は舌癖を、発話者hの舌位又は舌癖として推定する。
より具体的には、記憶部5に記憶される参照データ12は、同じ舌位又は舌癖を有する複数の発話者(発話者hを除く)の発話に係る音声データから得られた零交差数及びメル周波数ケプストラム係数(MFCC)を各要素とする参照用の音響特徴量ベクトルである。推定部4は、発話者hの発話に係る音声データから得られた零交差数及びメル周波数ケプストラム係数(MFCC)を各要素とする音響特徴量ベクトルを、参照用データ(参照用の音響特徴量ベクトル)12と比較して、発話者hの舌位又は舌癖を推定する。
舌位・舌癖毎にまとめられた零交差数及びMFCC(1)〜MFCC(8)を各要素とする参照用の音響特徴量ベクトル(参照データ12)を2次元平面に変換して図示すると、図7に示すように、「低位舌(Lower tongue)」、「下顎前突症(Mandibular)」、「低位舌+下顎前突症(Mandibular+Lower tongue)」、「健常(Origin)」、「舌突出(Protruding tongue)」についてベクトルが存在する領域が明確に区別される。推定部4は、発話者hの発話に係る音声データから零交差数及びMFCC(1)〜MFCC(8)を計測し、それらの値を要素とする音響特徴量ベクトルが、どの領域に属するかを判定することにより、発話者hの舌位・舌癖を推定する。例えば、図7に示す空間において、音響特徴量ベクトルが「Lower tongue」の領域に入っている場合には、その発話者hの舌位・舌癖は、「低位舌(Lower tongue)」であると推定される。
図8に示すように、舌位・舌癖判定装置1は、制御部31、主記憶部32、外部記憶部33、操作部34、表示部35及び入力部36をハードウエア構成として備えている。主記憶部32、外部記憶部33、操作部34、表示部35及び入力部36はいずれも内部バス30を介して制御部31に接続されている。
制御部31は、CPU(Central Processing Unit)等から構成されている。このCPUが、外部記憶部33に記憶されているプログラム39を実行することにより、図1に示す舌位・舌癖判定装置1の各構成要素が実現される。
主記憶部32は、RAM(Random-Access Memory)等から構成されている。主記憶部32には、外部記憶部33に記憶されているプログラム39がロードされる。この他、主記憶部32は、制御部31の作業領域(データの一時記憶領域)として用いられる。
外部記憶部33は、フラッシュメモリ、ハードディスク、DVD−RAM(Digital Versatile Disc Random-Access Memory)、DVD−RW(Digital Versatile Disc ReWritable)等の不揮発性メモリから構成される。外部記憶部33には、制御部31に実行させるためのプログラム39があらかじめ記憶されている。また、外部記憶部33は、制御部31の指示に従って、このプログラム39の実行の際に用いられるデータを制御部31に供給し、制御部31から供給されたデータを記憶する。
上述の、計測部3及び推定部4は、制御部31に対応しており、記憶部5は、主記憶部32及び外部記憶部33に対応している。
操作部34は、キーボード及びマウスなどのポインティングデバイス等と、キーボードおよびポインティングデバイス等を内部バス30に接続するインターフェイス装置から構成されている。操作部34を介して、操作者が操作した内容に関する情報が制御部31に入力される。この操作部34から操作入力によって、音声入力部2、計測部3及び推定部4の動作が開始される。
表示部35は、CRT(Cathode Ray Tube)またはLCD(Liquid Crystal Display)などから構成され、操作者が操作情報を入力する場合は、操作用の画面が表示される。表示部35には、例えば、舌位の判定結果等が表示される。
入力部36は、マイクロフォンから構成されている。入力部36が、周囲の音声を入力し、音声データとして内部バス30に出力する。音声入力部2は、制御部31及び入力部36によって構成される。
なお、この他、通信ネットワークを介して通信可能な通信インターフェイスを有していてもよい。このような通信インターフェイスを介して受信した音声データも判定対象とすることができる。
図1に示す舌位・舌癖判定装置1の各種構成要素は、図2に示すプログラム39が、制御部31、主記憶部32、外部記憶部33、操作部34、表示部35及び入力部36などをハードウエア資源として用いて実行されることによってその機能を発揮する。
次に、本実施の形態に係る舌位・舌癖判定装置1の動作について説明する。図9には、舌位・舌癖判定装置1で実行される判定処理を示すフローチャートが示されている。
図9に示すように、音声入力部2は、発話者hの発話に係る音声データを入力する音声入力工程を行う(ステップS1)。音声入力部2は、入力された音声データを、記憶部5に音声データ10として記憶する。
続いて、計測部3は、発話者hの発話に係る音声データから、判定対象となる音声データを抽出し、抽出された音声データにおける舌位又は舌癖と関連する音響特徴量を計測する計測工程を行う(ステップS2)。
このステップS2において、図8に示すように、まず、計測部3は、音声データ10を読み込んで、その音声データ10の波形について零レベルと交差する零交差数を計測する零交差数計測を行う(ステップS10)。そして、計測部3は、零交差数が閾値以上の区間の音声データを、子音区間の音声データとして抽出する子音区間抽出を行う(ステップS11)。この子音区間抽出において、計測部3は、抽出された音声データにおける零交差数及びMFCC(1)〜MFCC(8)の値を算出する音響特徴量算出を行う(ステップS12)。この音響特徴量の算出の工程において、計測部3は、算出された音響特徴量を、音響特徴量データ11として記憶部5に記憶する。
図9に戻り、さらに、推定部4は、記憶部5に記憶された音響特徴量データ11に基づいて、発話者(被験者)hの舌位又は舌癖を推定する推定工程を行う(ステップS3)。基本的には、推定部4は、音響特徴量データ11(発話者hの音響特徴量ベクトル)と、参照データ12としての舌位・舌癖毎の参照用の音響特徴量ベクトルとの間の距離をそれぞれ算出し、その距離が最も短い音響特徴量ベクトルに対応する舌位・舌癖を、判定結果として出力する。この判定結果は、例えば画面表示され、発話者hや医師等に提示することができる。
なお、記憶部5に記憶される参照データ12としては、上述した処理が実行される前に、舌位・舌癖が明らかな複数の被験者の音声を音声入力部2により入力して、その音声データに対して、計測部3が計測した音響特徴量を、記憶部5に参照データ12として記憶したものを用いればよい。また、全国平均でとられた膨大な量から成る参照データ12を、記憶部5に記憶しておくようにしてもよい。
以上詳細に説明したように、本実施の形態によれば、発話者hの発話に係る音声データから得られる音響特徴量に基づいて、発話者hの舌位・舌癖を推定するので、非侵襲に舌位・舌癖を判定することができる。
なお、上記実施の形態では、零交差数及びMFCC(1)〜MFCC(8)を要素とする音響特徴量ベクトルを用いて舌位・舌癖を判定したが、これには限られない。例えば、MFCC(9)以上を、ベクトルの要素に含めて判定を行うようにしてもかまわない。
また、メル周波数ケプストラム係数の演算方法は、上述したものには限られない。例えば、プリエンファシスフィルタとは別の高調波フィルタ(ハイパスフィルタ)で、高調波成分を強調するようにしてもよい。また、ハミング窓を用いずに、矩形窓、ガウス窓、ハン窓のような他の窓関数を用いてもよい。また、離散コサイン変換を用いずに、高速フーリエ変換を用いて周波数変換を行ってもよい。
また、上記実施の形態では、発話者hは、ある決まった言葉、例えば「いしいしいし・・・」という言葉を発するようにしたが、本発明はこれには限られない。発話者hが発する言葉は、フォルマントが存在する子音である”S”を含む他の言葉であってもよい。
また、上記実施の形態では、舌位・舌癖として、「健常(Origin)」、「低位舌(Lower tongue)」、「下顎前突症(Mandibular)」、「舌突出(Protruding tongue)」を判定した。しかしながら、本発明はこれには限られない。他の舌位・舌癖を判定対象とするようにしてもよい。例えば、舌を上下の前歯20、21で挟み込むような舌癖を抽出するようにしてもよい。
また、判定するのは、「健常(Origin)」か、「低位舌(Lower tongue)」かだけでもよい。すなわち、上述した舌位・舌癖のうち、一部を判定することができるようにしてもよい。
また、上記実施の形態では、音声データの零交差数、メル周波数ケプストラム係数を音響特徴量として発話者hの舌位・舌癖を判定したが、本発明はこれには限られない。例えば、零交差数だけで発話者hの舌位・舌癖を判定することも可能である。発話者hの零交差数の分布を計測し、その分布を舌位・舌癖毎の分布(参照データ12)と比べ、分布曲線が最も近い分布を有する舌位・舌癖を判定結果とするようにしてもよい。このように、音響特徴量が1つであっても、統計的な手法で、発話者hの舌位・舌癖を判定することが可能である。また、発話者hの舌位・舌癖を判定可能な音響特徴量であれば、他のものを用いることも可能である。
なお、本実施の形態では、舌位・舌癖判定装置1に音声入力部2を備えたが、本発明はこれには限られない。すなわち、音声入力部2は備えていなくてもよい。例えば遠隔地から送られてきた音声データに対して、舌位の判定を行う舌位・舌癖判定装置を用いるようにしてもよい。
また、上記実施の形態では、舌位・舌癖判定装置1を、例えば携帯電話、スマートフォン、ボイスレコーダ又はパーソナルコンピュータとしたが、これには限られない。舌位・舌癖判定装置1は、専用の装置であってもよい。
その他、舌位・舌癖判定装置1のハードウエア構成やソフトウエア構成は一例であり、任意に変更および修正が可能である。
制御部31、主記憶部32、外部記憶部33、操作部34、表示部35及び入力部36、内部バス30などから構成される舌位・舌癖判定装置1の処理を行う中心となる部分は、上述のように、専用のシステムによらず、通常のコンピュータシステムを用いて実現可能である。例えば、前記の動作を実行するためのコンピュータプログラムを、コンピュータが読み取り可能な記録媒体(フレキシブルディスク、CD−ROM、DVD−ROM等)に格納して配布し、当該コンピュータプログラムをコンピュータにインストールすることにより、前記の処理を実行する舌位・舌癖判定装置1を構成してもよい。また、インターネット等の通信ネットワーク上のサーバ装置が有する記憶装置に当該コンピュータプログラムを格納しておき、通常のコンピュータシステムがダウンロード等することで舌位・舌癖判定装置1を構成してもよい。
コンピュータの機能を、OS(オペレーティングシステム)とアプリケーションプログラムの分担、またはOSとアプリケーションプログラムとの協働により実現する場合などには、アプリケーションプログラム部分のみを記録媒体や記憶装置に格納してもよい。
搬送波にコンピュータプログラムを重畳し、通信ネットワークを介して配信することも可能である。たとえば、通信ネットワーク上の掲示板(BBS, Bulletin Board System)にコンピュータプログラムを掲示し、ネットワークを介してコンピュータプログラムを配信してもよい。そして、このコンピュータプログラムを起動し、OSの制御下で、他のアプリケーションプログラムと同様に実行することにより、前記の処理を実行できるように構成してもよい。
この発明は、この発明の広義の精神と範囲を逸脱することなく、様々な実施の形態及び変形が可能とされるものである。また、上述した実施の形態は、この発明を説明するためのものであり、この発明の範囲を限定するものではない。すなわち、この発明の範囲は、実施の形態ではなく、特許請求の範囲によって示される。そして、特許請求の範囲内及びそれと同等の発明の意義の範囲内で施される様々な変形が、この発明の範囲内とみなされる。
本発明は、発話者の舌位・舌癖を推定するのに有用である。
1 舌位・舌癖判定装置、2 音声入力部、3 計測部、4 推定部、5 記憶部、10 音声データ、11 音響特徴量データ、12 参照データ、13 参照データ、20,21 前歯、22 舌、30 内部バス、31 制御部、32 主記憶部、33 外部記憶部、34 操作部、35 表示部、36 入力部、39 プログラム、h 発話者

Claims (9)

  1. 発話者の発話に係る音声データに基づいて、前記発話者の舌位及び舌癖と関連する音響特徴量であり、入力された音声データの波形が零レベルまたは零レベル付近の一定区間と交差する数である零交差数と、入力された音声データのメル周波数ケプストラム係数との少なくとも一方である音響特徴量を計測する計測部と、
    計測された前記音響特徴量に基づいて、前記発話者の舌位又は舌癖を推定する推定部と、
    を備える舌位・舌癖判定装置。
  2. 前記計測部は、前記零交差数を、前記音響特徴量として計測し、
    前記推定部は、計測された前記零交差数に基づいて、前記発話者の舌位又は舌癖を推定する、
    請求項1に記載の舌位・舌癖判定装置。
  3. 前記計測部は、前記メル周波数ケプストラム係数を、前記音響特徴量として計測し、
    前記推定部は、
    計測された前記メル周波数ケプストラム係数に基づいて、前記発話者の舌位又は舌癖を推定する、
    請求項1又は2に記載の舌位・舌癖判定装置。
  4. 舌位又は舌癖と参照用の前記音響特徴量に関する情報とを対応付けて記憶しており、
    前記推定部は、計測された前記音響特徴量に最も近い参照用の前記音響特徴量に対応付けられた舌位又は舌癖を、前記発話者の舌位又は舌癖として推定する、
    請求項1から3のいずれか一項に記載の舌位・舌癖判定装置。
  5. 同じ舌位又は舌癖を有する複数の発話者の発話に係る音声データから得られた零交差数及びメル周波数ケプストラム係数を各要素とする参照用の音響特徴量ベクトルを参照用の前記音響特徴量に関する情報として記憶し、
    前記推定部は、被験者の発話に係る音声データから得られた前記零交差数及び前記メル周波数ケプストラム係数を各要素とする音響特徴量ベクトルを、前記参照用の音響特徴量ベクトルと比較して、被験者の舌位又は舌癖を推定する、
    請求項4に記載の舌位・舌癖判定装置。
  6. 前記計測部は、子音区間の音声データを、判定用の音声データとして抽出する、
    請求項1から5のいずれか一項に記載の舌位・舌癖判定装置。
  7. 前記計測部は、前記音声データの零交差数が閾値以上となる区間の音声データを、子音区間の音声データとして抽出する、
    請求項6に記載の舌位・舌癖判定装置。
  8. 舌位・舌癖判定装置によって実行される舌位・舌癖判定方法であって、
    発話者の発話に係る音声データに基づいて、前記発話者の舌位及び舌癖と関連する音響特徴量であり、入力された音声データの波形が零レベルまたは零レベル付近の一定区間と交差する数である零交差数と、入力された音声データのメル周波数ケプストラム係数との少なくとも一方である音響特徴量を計測する計測工程と、
    計測された前記音響特徴量に基づいて、前記発話者の舌位又は舌癖を推定する推定工程と、
    を含む舌位・舌癖判定方法。
  9. コンピュータを、
    発話者の発話に係る音声データに基づいて、前記発話者の舌位及び舌癖と関連する音響特徴量であり、入力された音声データの波形が零レベルまたは零レベル付近の一定区間と交差する数である零交差数と、入力された音声データのメル周波数ケプストラム係数との少なくとも一方である音響特徴量を計測する計測部、
    計測された前記音響特徴量に基づいて、前記発話者の舌位又は舌癖を推定する推定部、
    として機能させるプログラム。
JP2016167180A 2016-08-29 2016-08-29 舌位・舌癖判定装置、舌位・舌癖判定方法及びプログラム Active JP6782940B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016167180A JP6782940B2 (ja) 2016-08-29 2016-08-29 舌位・舌癖判定装置、舌位・舌癖判定方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016167180A JP6782940B2 (ja) 2016-08-29 2016-08-29 舌位・舌癖判定装置、舌位・舌癖判定方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2018033540A JP2018033540A (ja) 2018-03-08
JP6782940B2 true JP6782940B2 (ja) 2020-11-11

Family

ID=61566272

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016167180A Active JP6782940B2 (ja) 2016-08-29 2016-08-29 舌位・舌癖判定装置、舌位・舌癖判定方法及びプログラム

Country Status (1)

Country Link
JP (1) JP6782940B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112135564B (zh) * 2018-05-23 2024-04-02 松下知识产权经营株式会社 摄食吞咽功能评价方法、记录介质、评价装置以及评价系统

Also Published As

Publication number Publication date
JP2018033540A (ja) 2018-03-08

Similar Documents

Publication Publication Date Title
JP2020524308A (ja) 声紋モデルを構築する方法、装置、コンピュータデバイス、プログラム及び記憶媒体
JP7385299B2 (ja) スピーチ分析による肺気量の推定
US10229702B2 (en) Conversation evaluation device and method
Manfredi et al. Perturbation measurements in highly irregular voice signals: Performances/validity of analysis software tools
Fahed et al. Comparison of acoustic voice features derived from mobile devices and studio microphone recordings
Akafi et al. Assessment of hypernasality for children with cleft palate based on cepstrum analysis
JP4381404B2 (ja) 音声合成システム、音声合成方法、音声合成プログラム
JP6782940B2 (ja) 舌位・舌癖判定装置、舌位・舌癖判定方法及びプログラム
JP6373621B2 (ja) 話し方評価装置、話し方評価方法、プログラム
JP7076732B2 (ja) アデノイド肥大判定装置、アデノイド肥大判定方法及びプログラム
JP4587854B2 (ja) 感情解析装置、感情解析プログラム、プログラム格納媒体
Schultz et al. A tutorial review on clinical acoustic markers in speech science
JP2012024527A (ja) 腹式呼吸習熟度判定装置
Perrine et al. Signal interpretation considerations when estimating subglottal pressure from oral air pressure
Pandey et al. Estimation of place of articulation during stop closures of vowel–consonant–vowel utterances
JP2006154212A (ja) 音声評価方法および評価装置
JP2010060846A (ja) 合成音声評価システム及び合成音声評価方法
Muzaffar et al. DSP implementation of voice recognition using dynamic time warping algorithm
Akafi et al. Detection of hypernasal speech in children with cleft palate
JP4177751B2 (ja) 声質モデル生成方法、声質変換方法、並びにそれらのためのコンピュータプログラム、当該プログラムを記録した記録媒体、及び当該プログラムによりプログラムされたコンピュータ
TWI226600B (en) Nasal detection method and device thereof
JP2023517175A (ja) 音声録音と体内からの音の聴音を使用した医学的状態の診断
JP4556028B2 (ja) 発話主体同定装置及びコンピュータプログラム
JP7246664B1 (ja) 情報処理装置、情報処理方法、情報処理システム、及び情報処理プログラム
EP4414984A1 (en) Breathing signal-dependent speech processing of an audio signal

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190613

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200422

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200623

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200820

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201006

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201013

R150 Certificate of patent or registration of utility model

Ref document number: 6782940

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250