JP2006086877A - ピッチ周波数推定装置、無声信号変換装置、無声信号検出装置、無声信号変換方法 - Google Patents

ピッチ周波数推定装置、無声信号変換装置、無声信号検出装置、無声信号変換方法 Download PDF

Info

Publication number
JP2006086877A
JP2006086877A JP2004270262A JP2004270262A JP2006086877A JP 2006086877 A JP2006086877 A JP 2006086877A JP 2004270262 A JP2004270262 A JP 2004270262A JP 2004270262 A JP2004270262 A JP 2004270262A JP 2006086877 A JP2006086877 A JP 2006086877A
Authority
JP
Japan
Prior art keywords
signal
pitch frequency
nam
sound
microphone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004270262A
Other languages
English (en)
Inventor
Yoshitaka Nakajima
淑貴 中島
Sakae Fujimaki
栄 藤巻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Asahi Kasei Corp
Original Assignee
Asahi Kasei Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Asahi Kasei Corp filed Critical Asahi Kasei Corp
Priority to JP2004270262A priority Critical patent/JP2006086877A/ja
Publication of JP2006086877A publication Critical patent/JP2006086877A/ja
Pending legal-status Critical Current

Links

Abstract

【課題】非可聴つぶやき音(Non−Audible Murmur;NAM)発声から、通常発声した場合の有声音区間及びそのピッチ周波数を推定し、かつ、通常発声からも有声音区間及びそのピッチ周波数を推定する。
【解決手段】声門からの振動音を検出するために、2つのNAMマイクロフォン1001、1002を用いる。NAMマイクロフォン1001は乳様突起直下の胸鎖乳突筋上の位置に、NAMマイクロフォン1002はその3cm下方の位置に、それぞれ装着する。これら上下2つのNAMマイクロフォンによって、声門からの振動音をそれぞれ検出してサンプリングし、そのパワーを比較することによって音源の相対的高さを推定する。定位の方法はいろいろ考えられるが、例えば一番単純な上下のパワー比を用いることができる。
【選択図】図1

Description

本発明はピッチ周波数推定装置、無声信号変換装置、無声信号検出装置、無声信号変換方法に関し、特に乳様突起直下の皮膚表面から、発声器官の運動に伴う共振フィルタ特性変化により調音された、声帯の規則振動を伴わない、外部からは非可聴な呼吸音の体内軟部組織を伝導する振動音である非可聴つぶやき音(Non−Audible Murmur;NAM)あるいは通常音声などの体内軟部組織を伝導する振動音を採取して音声入力するNAMマイクロフォンを利用したピッチ周波数推定装置、無声信号変換装置、無声信号検出装置、無声信号変換方法に関する。
従来、耳介の下方部の、頭蓋骨の乳様突起直下の、胸鎖乳頭筋上の皮膚表面に装着され、発声器官の運動に伴う共振フィルタ特性変化により調音された、声帯の規則振動を伴わない、外部からは非可聴な呼吸音の体内軟部組織を伝導する振動音である非可聴つぶやき音(NAM)を採取して、音声入力するコミュニケーションインタフェースシステムが提案されている(例えば、特許文献1)。
ただし、コミュニケーションに適用し、発話者がNAM発声を行った場合、声帯の規則振動を伴わない非可聴つぶやき音のため、受話者が発話内容を聞きとりにくいという問題がある。この問題の解決方法の一つとして、発話者のNAM音声を、できるだけ通常発声に近い音声に変換することが考えられる。
一般的に通常音声は有声音と無声音に分けられる。有声音は、声帯の規則振動により生じる規則波(ピッチ)を、のどから口蓋にかけての発声器官により構成される共振フィルタで変調して生成される。一方無声音は、規則波の代わりに気道の狭めで生ずる乱流雑音を音源とする。ここで、規則波の周期(ピッチ周波数)は声の高低・韻律に影響を与え、ピッチ周波数が高くなると高い声を生成する。また、共振フィルタは、音素に対応して形状を変えて規則波や乱流雑音を共鳴/反共鳴させ、所望の音声を生成する。
NAM発声はもともと声帯の規則振動を伴わないため、すべて無声音となる。また、NAM発声から従来方式で抽出できるのは、発声器官の共振フィルタ特性情報のみであり、ピッチ周波数を求める際に一般的に使用される自己相関法(例えば、非特許文献1)を適用しても、ピッチ周波数などの韻律情報は抽出できない。つまり、有声音については、自己相関法を適用してピッチ周波数を抽出できるのに対し、無声音については、取り出すべきピッチ情報がもともと含まれていないので抽出できない。
国際公開WO2004/021738号パンフレット 古井貞煕著、「音声情報処理」、森北出版、2002年3月15日、P.22−23
従って、NAM発声を通常発声に変換するためには、まず、通常発声した場合に有声音となる区間を検出し、この有声音区間において通常発声した場合の韻律情報をなんらかの方法で推定する必要がある。
また、NAM発声時に一時的に通常発声が混じることがあるが、その都度、断続的に処理を中断したり、別方式に切り替えたりすると変換音声が不連続となるため、通常発声に対してもNAM発声と同様に適用できる構成及び方法が望ましい。
本発明の目的は、NAM発声から、通常発声した場合の有声音区間及びそのピッチ周波数を推定し、かつ、通常発声からも有声音区間及びそのピッチ周波数の推定が可能なNAMマイクロフォンの構成、及びそれを用いた有声音区間検出方法、及びピッチ周波数推定方法を提供することである。
本発明の請求項1によるピッチ周波数推定装置は、信号の発声された時の声帯位置により、該信号のピッチ周波数を推定するピッチ周波数推定手段と、前記声帯位置を検出するために、該声帯近傍の皮膚表面に装着された少なくとも2つの検出器とを含み、前記ピッチ周波数推定手段は、前記検出器それぞれの検出結果同士の比に基づいて前記信号のピッチ周波数を推定することを特徴とする。検出器の検出結果であるパワー比によって、声門の位置を推定し、喉頭部の位置、及びそれに対応した声のピッチ周波数を推定できる。
本発明の請求項2によるピッチ周波数推定装置は、請求項1において、前記検出器は、声帯の移動範囲の両端それぞれに対応する位置に装着されていることを特徴とする。声帯の移動範囲の上下位置など、その範囲の両端それぞれに対応する位置に検出器を装着することによって、声門の位置を良好に推定し、喉頭部の位置、及びそれに対応した声のピッチ周波数を推定できる。
本発明の請求項3による無声信号変換装置は、無声信号の発声された時の声帯位置により、該無声信号のピッチ周波数を推定するピッチ周波数推定手段と、前記ピッチ周波数推定手段により推定されたピッチ周波数を用いて、前記無声信号を有声信号に変換する変換手段とを含むことを特徴とする。この変換された通常音声を用いれば、携帯電話機などを用いた通話や音声認識処理を良好に行うことができる。
本発明の請求項4による無声信号変換装置は、請求項3において、前記声帯位置を検出するために、該声帯近傍の皮膚表面に装着された少なくとも2つの検出器を更に含み、前記ピッチ周波数推定手段は、前記検出器それぞれの検出結果同士の比に基づいて前記無声信号のピッチ周波数を推定することを特徴とする。検出器の検出結果であるパワー比によって、声門の位置を推定し、喉頭部の位置、及びそれに対応した声のピッチ周波数を推定できる。
本発明の請求項5による無声信号変換装置は、請求項4において、前記検出器は、声帯の移動範囲の両端それぞれに対応する位置に装着されていることを特徴とする。声帯の移動範囲の上下位置など、その範囲の両端それぞれに対応する位置に検出器を装着することによって、声門の位置を良好に推定し、喉頭部の位置、及びそれに対応した声のピッチ周波数を推定できる。
本発明の請求項6による無声信号変換装置は、請求項4又は5において、前記検出器の少なくとも1つは、乳様突起直下の皮膚表面から、発声器官の運動に伴う共振フィルタ特性変化により調音された、声帯の規則振動を伴わない、外部からは非可聴な呼吸音の体内軟部組織を伝導する振動音である非可聴つぶやき音(Non−Audible Murmur;NAM)あるいは通常音声などの体内軟部組織を伝導する振動音を採取して音声入力するNAMマイクロフォンであることを特徴とする。NAMマイクロフォンを利用することにより、声門の位置を良好に推定し、喉頭部の位置、及びそれに対応した声のピッチ周波数を推定できる。
本発明の請求項7による無声信号検出装置は、信号の発声された時の声帯位置を検出するために、該声帯近傍の皮膚表面の、該声帯の移動範囲の両端それぞれに対応する位置に装着された少なくとも2つのマイクロフォンを含むことを特徴とする。声帯の移動範囲の上下位置など、その範囲の両端それぞれに対応する位置に検出器を装着することによって、声門の位置を良好に推定でき、喉頭部の位置、及びそれに対応した声のピッチ周波数を推定できる。
本発明の請求項8による無声信号検出装置は、請求項7において、前記マイクロフォンは、乳様突起直下の皮膚表面から、発声器官の運動に伴う共振フィルタ特性変化により調音された、声帯の規則振動を伴わない、外部からは非可聴な呼吸音の体内軟部組織を伝導する振動音である非可聴つぶやき音(Non−Audible Murmur;NAM)あるいは通常音声などの体内軟部組織を伝導する振動音を採取して音声入力するNAMマイクロフォンであることを特徴とする。NAMマイクロフォンを利用することにより、声門の位置を良好に推定し、喉頭部の位置、及びそれに対応した声のピッチ周波数を推定できる。
本発明の請求項9による無声信号変換方法は、無声信号の発声された時の声帯位置により、該無声信号のピッチ周波数を推定するピッチ周波数推定ステップと、前記ピッチ周波数推定ステップにおいて推定されたピッチ周波数を用いて、前記無声信号を有声信号に変換する変換ステップとを含むことを特徴とする。無声信号の発声された時の声帯位置によりピッチ周波数を推定し、この推定されたピッチ周波数を用いて無声信号を有声信号に変換することにより、NAM音声を通常音声に変換することができる。この変換された通常音声を用いれば、携帯電話機などを用いた通話や音声認識処理を良好に行うことができる。
本発明によれば、NAM発声音から、通常発声した場合と同様なピッチ周波数を推定することができ、この情報を用いてNAM音声を通常音声に変換することにより、コミュニケーションに適用した場合には、音声品質の改善、音声認識入力に用いた場合には、認識率の改善が期待できる。また、通常発声に対してもNAM発声と同様にピッチ周波数を推定することができ、同様に音声品質の改善、認識率の改善が期待できる。
以下、本発明の実施の形態を、図面を参照して説明する。なお、以下の説明において参照する各図では、他の図と同等部分は同一符号によって示されている。
まず非可聴つぶやき音(NAM)とは、発声器官の運動に伴う共振フィルタ特性変化により調音された、声帯の規則振動を伴わない、外部からは非可聴な呼吸音の体内軟部組織を伝導する振動音である。
(原理)
通常発声時、声の高低に応じて、喉頭部、及び喉頭内部に固定された声門は上下に運動することは一般的に知られている。例えば、医療用超音波イメージング装置のプローブを前頸部正中に縦にあてれば、喉頭部の韻律変化に伴う上下動を観察することができる。
図2(a)及び図2(b)は、医療用超音波イメージング装置によって得られる前頸部の超音波イメージ画像である。同図中の左側が喉頭部上部、右側が喉頭部下部である。
同図(a)は、個人特有の基本周波数に近い「ド」を発声したときの画像である。同図(a)において、甲状軟骨下縁は線Aの位置である。
一方、同図(b)は、1オクターブ高い「ド」を発声したときの画像である。同図(b)において、甲状軟骨下縁は元の線Aの位置から線Bの位置まで移動していることがわかる。
なお、図3は人間の喉頭部分の構造を示す図であり、同図(a)は正面図、同図(b)は背面図である。同図(a)及び同図(b)において、甲状軟骨191は、舌骨192の下方に位置しているが、この甲状軟骨191の位置が韻律変化に伴って上下に移動する。
ここで、ド(do)、ミ(mi)、ソ(sol)、ド(do)の音程をaの音韻で発声した場合、「あらゆる現実をすべて自分のほうへねじまげたのだ」という文章を通常発声した場合、同じ文章をNAM発声した場合、の信号波形、ピッチ曲線、超音波イメージ画像が図4に示されている。
同図中の区間(イ)はド(do)、ミ(mi)、ソ(sol)、ド(do)の音程を通常発声した場合、同図中の区間(ロ)は上記の文章を通常発声した場合、同図中の区間(ハ)は上記の文章をNAM発声した場合である。
同図中の区間(イ)、(ハ)及び(ロ)において、画像(3−1)は信号波形、画像(3−2)はピッチ曲線、画像(3−3)は発声時の短時間毎の超音波イメージ画像を適当な水平断線で1ピクセルずつ切り出し時系列マージして作成した画像、である。
画像(3−3)において、丸数字「3」と丸数字「4」との間の白黒境界線は、甲状軟骨下縁の動きを示している。画像(3−3)において、線Aは個人特有の自然発声時基本周波数の高さに相当し、線Bはその1オクターブ上の音に相当する。
画像(3−3)の区間(イ)を参照すると、ド、ミ、ソ、ドの音程の変化に伴い、甲状軟骨下縁が上に動いているのがわかる。また、画像(3−3)の区間(ロ)を参照すると、通常の発話時には甲状軟骨下縁が、線Aと線Bとの間を声の高低に応じて揺れ動いているのがわかる。さらに、画像(3−3)の区間(ハ)を参照すると、NAM発声時にも、韻律意図による喉頭部の上下動があるのがわかる。
以上のように発明者は、声帯の規則振動を伴わないNAM発声においても、通常発声時と同様に、喉頭部、及び声門が上下に運動することを見出した。そこで、声門を上下に挟んだ位置から振動音を検出し、そのパワー比で、声門の位置を推定することにより、喉頭部の位置、及びそれに対応した声のピッチ周波数を推定することを考えた。振動音は、被験者に装着したマイクロフォンによって検出すればよい。このとき、特許文献1に記載されているNAMマイクロフォンを2つ用いることが望ましい。この場合、NAMマイクロフォンの装着場所である乳様突起直下の胸鎖乳突筋上の位置に加え、胸鎖乳突筋に沿って数cm下方の位置にもう1つの同じ特性を持つNAMマイクロフォンを装着し、これら2つのNAMマイクロフォンによって振動音を検出すればよい。すなわち、声帯の移動範囲の上下位置など、その範囲の両端それぞれに対応する位置に検出器であるNAMマイクロフォンを装着することによって、声門の位置を良好に推定し、喉頭部の位置、及びそれに対応した声のピッチ周波数を推定できる。
(マイクロフォンの装着方法)
図1は、本発明による信号変換装置に用いる信号検出装置であるNAMアレイマイクロフォンの装着方法の一例を示す図である。同図において、声門からの振動音を検出するために、本例では2つのNAMマイクロフォン1001、1002を用いる。NAMマイクロフォン1001は乳様突起直下の胸鎖乳突筋上の位置に、NAMマイクロフォン1002はその3cm下方の位置に、それぞれ装着する。
これら上下2つのNAMマイクロフォンによって、声門からの振動音をそれぞれ検出してサンプリングし、そのパワーを比較することによって音源最強点の相対的高さを推定する。定位の方法はいろいろ考えられるが、例えば一番単純な上下のパワー比を用いることができる。アレーアンテナ等で使用されているビームフォーマ法、MUSIC(Multiple Signal Classification)法などを用いてもよい。ビームフォーマ法、MUSIC法については、菊間信良著、「アレーアンテナによる適応信号処理」、科学技術出版、1998年11月25日、P.178−181、P.194−202、にそれぞれ記載されている。
なお、2つのNAMマイクロフォンは、乳様突起直下の胸鎖乳突筋上の位置以外の位置に装着してもよい。すなわち、声帯位置を検出するために、声帯近傍の皮膚表面の、声帯の移動範囲の両端それぞれに対応する位置に装着すればよい。
(NAMマイクロフォンの構成例)
発明者は、図5に示されているようなNAMマイクロフォンを2つ用意した。NAMマイクロフォンは、皮膚表面に接触させる接触部aにソフトシリコーンが用いられている。この接触部aの裏側をフレームbが覆い、フレームb内には外部雑音防音空間cが形成されている。接触部aの奥にはコンデンサマイクロフォンeが設けられ、そのリード線gがフレームbの裏面から導出されている。コンデンサマイクロフォンeは、振動板電極fを含んで構成されている。
このように構成された2つのNAMマイクロフォンのうち、1つを上部NAMマイクロフォン(U)とし、これを通常装着時と同じ乳様突起直下の耳介後下方部に装着した。そして、もう1つを下部NAMマイクロフォン(D)とし、これを胸鎖乳突筋に沿って上部NAMマイクロフォン(U)の3cm下方に装着した。マイクアンプについても同じ特性のものを2つ用意し(図示せず)、サンプリングレート16KHzにて同期ステレオ録音を行った。
(収録結果)
まずピッチ周波数を求めるのが容易な通常発声音を、NAMアレイマイクロフォンで収録した。収録内容は最初にキャリブレーション用として「a」の音韻で「ド、ミ、ソ、(1オクターブ上の)ド」を発声し、その後「一週間ばかり、ニューヨークを取材した」という文章を読み上げた。
収録した上部NAMマイクロフォン(Upper NAM Microphone(U))と下部NAMマイクロフォン(Downer NAM Microphone(D))からの信号が図6に示されている。同図には、これら2つのマイクロフォンによって得られる、スペクトラム(Spectrum)、波形(Waveform)、パワー図(Power Plot)、がそれぞれ示されている。同図の左側がキャリブレーション(Calibration)部分、同図の右側が上記文章の読み上げ部分である。
また、図6に示されている2つの信号のパワー比Up/Dpのプロットが図7(b)に、上部NAMマイクロフォン(U)の通常発声音信号を元に自己相関法で求めたピッチ周波数曲線が図7(a)に、それぞれ示されている。なお、図7においては、基本周波数「ド」発声時のパワー比Up/Dp が1、 1オクターブ高い「ド」発声時のパワー比Up/Dp が約1.1となるようにキャリブレーションを行って表示している。
図7を参照すると、無音声部は小さなノイズのためパワー比は極端値をとる。また、「sh」や「k」などの摩擦性の無声子音は口唇近くで発声するためNAMマイクロフォン(U)のパワーが相対的に高くなり、図7(b)中の矢印で示されているように特異値をとる。これら極端値と特異値とを除いた区間が有声音部である。この有声音部において、図7(b)のUp/Dpパワー比曲線は、図7(a)のピッチ周波数曲線と相関の高い曲線であることがわかる。
ここで、図8(b)は、図7と同じ文章「一週間ばかり、ニューヨークを取材した」をNAM発声で読み上げた時の、キャリブレーション後のUp/Dpパワー比を散布図形式で示した図である。図8(a)は、図7(a)のピッチ周波数曲線のうち、文章発声部分を抜き出した図である。
これらの図を参照すると、通常発声の時と同様に、無声子音による特異値や、無音区間や促音による極端値を除いた有声音部において、図8(b)のUp/Dpパワー比は、図8(a)のピッチ周波数曲線と相関の高い分布となっていることがわかる。この図8に示されているように、有声音で発声した結果をデータベースとして保存しておき、これをキャリブレーションに用いる。
(有声音/無声音判定及びピッチ周波数推定)
図9は、NAMアレイマイクロフォンで収録したNAM発声音声信号からピッチ周波数を推定する手順を示すフローチャートである。まず、準備モードとして、NAMアレイマイクロフォンを装着して、基本周波数「ド」と1オクターブ高い「ド」の音階のaを通常発声し、自己相関法などによりそれぞれのピッチ周波数Pitch1とPitch2とを計算して記憶する(ステップ701)。同一NAMアレイマイクロフォンを使用する場合には、一度基準となるピッチ周波数Pitch1とPitch2とを求めて記憶しておけば、以後はステップ701を行う必要はない。次に、NAMアレイマイクロフォンを装着して、NAM発声で基本周波数「ド」と1オクターブ高い「ド」の音階のaを発声し、基本周波数「ド」 でUp/Dpパワー比 が「1」、 1オクターブ高い「ド」でUp/Dpパワー比 が「1+α」となるようにキャリブレーション係数を求める(ステップ702)。このステップ702はNAMアレイマイクロフォン使用時毎、最初に1回行う。
ステップ703以下が、入力モードである。
まず、サンプル毎にパワー比Up/Dpを計算し、キャリブレーションを行う(ステップ703)。このキャリブレーションは、加算又は乗算によって行われる。
次に、パワー比Up/Dpを、有声音判定用の閾値ThLow及びThHighによる予め定められた範囲と、比較する(ステップ704)。
そして、この比較の結果、ThLow≦ Up/Dp≦ThHighの場合、有声音と判定し、ステップ701で記憶されたピッチ周波数ThLow、ThHighとパワー比Up/Dpから、内挿又は外挿により入力音声のピッチ周波数を推定する(ステップ704→705)。その後、ステップ703に戻る。
一方、ステップ704の比較の結果、Up/Dp<ThLow、又は、ThHigh<Up/Dpの場合、無声音と判定し、もし過去Nサンプル中に無声音に挟まれた有声音があれば無声音に置き換える(ステップ704→706)。これは、本来無声音であるはずの部分(スパイク状に変化する波形の途中部分)が有声音として判断される範囲を通過する結果、「有声音」として判断されてしまったからである。その後、ステップ703に戻る。
(NAM発声音の通常発声音への変換)
図10は、本発明によるNAMアレイマイクロフォンにより、NAM発声音を通常発声音に変換する方法の一例を示す図である。
まず、NAM発声音(ステップ801)をNサンプル毎にひとまとめとする。これをフレームと呼ぶ(ステップ802)。フレーム化されたNサンプルに対してLPC分析を行い、LPC係数を求める(ステップ803)。
また一方、フレーム化されたNサンプルに対し、まずサンプル単位について図9を参照して説明した有声音/無声音判定及びピッチ周波数推定方法により、有声音/無声音判定及びピッチ周波数推定を行う(ステップ804)。その後、フレーム単位での有声音/無声音判定及びピッチ周波数推定を行う。例えば、フレーム単位での有声音/無声音判定は、サンプル単位での有声音/無声音判定結果の多数決で行い、有声音フレームと判定された場合には、フレームに含まれる各有声音サンプルに対応したピッチ周波数の平均を計算して、フレームピッチ周波数とする(ステップ805)。
ここで、ステップ805で有声音フレームと判定された場合には、推定されたピッチ周波数をもつパルス信号を生成して音源とする(ステップ806)。一方、ステップ805で無声音フレームと判定された場合には、白色雑音信号を生成して音源とする(ステップ807)。
最後に、ステップ803で計算されたLPC係数をフィルタ係数とする合成フィルタに上記の音源を入力し(ステップ808)、通常発声音(ステップ809)を合成する。
(携帯電話システムへの適用例)
図11は、本発明による信号変換装置に用いる信号検出装置であるNAMアレイマイクロフォンを携帯電話システムに適用した場合の構成例を示すブロック図である。本例では、NAMアレイマイクロフォン901及びイヤフォン902と携帯電話機909との間が音声変換ユニット903を介して有線接続されている。
音声変換ユニット903は、携帯電話機909のイヤホンマイク端子を介して携帯電話機909に接続される。この音声変換ユニット903は、NAMアレイマイクロフォン901と一体化されてもよい。
無線ネットワーク910は、例えば、無線基地局912a及び912bと、基地局制御装置913a及び913bと、交換機914a及び914bと、通信網911とを含んで構成されている。本例では、携帯電話機が無線基地局912bと無線通信することにより、携帯電話機909と携帯電話機915との間で通話が可能となる。
(NAMマイクロフォンの構成例)
ここで、声門からの振動音の検出器となるNAMマイクロフォンの一構成例が、図12及び図13に示されている。図12はNAMマイクロフォンの側面断面図である。
同図に示されているように、NAMマイクロフォン1001は、乳様突起直下の皮膚表面に接触させる接触部1001aの裏側を、フレーム1001bが覆う構成になっている。接触部1001aの内部には、コンデンサマイクロフォン1001eが設けられ、そのリード線1001gが接触部1001aの裏面から導出されている。コンデンサマイクロフォン1001eは、振動板電極1001fを含んで構成されている。また、接触部1001aとフレーム1001bとの境界には、反射板1001dが設けられている。フレーム1001bの内部には、外部雑音防音空間1001cが形成されている。
一方、NAMマイクロフォン1002も同様に、皮膚表面に接触させる接触部1002aの裏側を、フレーム1002bが覆う構成になっている。接触部1002aの内部には、コンデンサマイクロフォン1002eが設けられ、そのリード線1002gが接触部1002aの裏面から導出されている。コンデンサマイクロフォン1002eは、振動板電極1002fを含んで構成されている。また、接触部1002aとフレーム1002bとの境界には、反射板1002dが設けられている。フレーム1002bの内部には、外部雑音防音空間1002cが形成されている。
接触部1001a、1002aは、皮膚との間で音響インピーダンスの不整合が生じないように、シリコーンゴムなどの人間の軟体組織に近い音響インピーダンスを有する生体適合性物質で構成される。また、連結部1003の素材には、吸音材で柔軟性のある、例えば、天然ゴム、合成ゴム、エラストマーなどが使用される。
図13は図12のNAMマイクロフォンを同図中の矢印Y方向から見た正面図である。同図を参照すると、NAMマイクロフォン1001、1002は共に略円形である。接触部1001aの周囲にはフレーム1001bが、接触部1002aの周囲にはフレーム1002bが、それぞれ設けられている。接触部1001aの内部にはコンデンサマイクロフォン1001eが、接触部1002aの内部にはコンデンサマイクロフォン1002eが、それぞれ設けられている。
図11に戻り、通話者900は、その接触部1002a、1003aをそれぞれ乳様突起直下の皮膚表面と、胸鎖乳突筋に沿って数cm下方に装着し、イヤフォン902を耳孔内に装着する。NAMアレイマイクロフォン901及びイヤフォン902は、携帯電話機909と有線の通信手段で接続されている。イヤフォン902の代わりにスピーカを用いてもよい。
(音声変換ユニットの構成例)
ここで、NAM発声音を通常発声音に変換するための音声変換ユニット903の構成例について、図14を参照して説明する。本例の音声変換ユニット903は、同じ特性を持つマイクアンプ1201及び1202と、同じ特性を持つA/Dコンバータ1203及び1204とを含んで構成されている。マイクアンプ1201及びA/Dコンバータ1203は、NAMマイクロフォン1001に対応して設けられており、マイクアンプ1202及びA/Dコンバータ1204は、NAMマイクロフォン1002に対応して設けられている。
デジタル信号処理ユニット1205、D/Aコンバータ1206及び電池1207は、2つのNAMマイクロフォン1001及び1002に共通に設けられている。
(動作例)
図15は図11中の通話者900が発声した非可聴つぶやき音(NAM)が相手側に通常発声音として伝わるまでの動作を示すフローチャートである。
同図において、通話者900のNAM発声音を発すると(ステップ1301)、そのNAM発生音は、乳様突起直下とその下方の皮膚表面からNAMマイクロフォン901の接触部1001aと接触部1002aに伝わる(ステップ1302)。すると、コンデンサマイクロフォン1001dの振動板電極1001fと、コンデンサマイクロフォン1002dの振動板電極1002fを振動させることによってそれぞれ電気信号となり、この電気信号は、リード線1001gとリード線1002gから取り出される(ステップ1303)。この電気信号は、音声変換ユニット903に送られ、マイクアンプ1201とマイクアンプ1202でそれぞれ増幅され、A/Dコンバータ1203とA/Dコンバータ1204でデジタル信号にそれぞれ変換された後、デジタル信号処理ユニット1205で例えば図10に示されている方法で通常発声音に変換される(ステップ1304)。
この変換後の通常発声音はD/Aコンバータ1206によりアナログ信号に変換された後、有線の通信手段により自分の携帯電話機909に送られる(ステップ1305)。携帯電話機909に送信された電気信号は、無線ネットワーク910を介して、通話相手の携帯電話機915に送信され(ステップ1306)、通話相手の携帯電話機915のスピーカで電気信号から振動音に変換されて(ステップ1307)、通話者900の通常発声音声として再生される(ステップ1308)。
一方、図16は相手側が発声した音声が図11中の通話者900に伝わるまでの動作を示すフローチャートである。同図において、通話相手が発音すると(ステップ1401)、その音声は、通話相手の携帯電話機915のマイクロフォンで電気信号に変換される(ステップ1402)。この変換後の電気信号は、無線ネットワーク910を経由して、携帯電話機909に送信される(ステップ1403)。電気信号はさらに携帯電話機909から有線により、音声変換ユニット903経由でイヤフォン902(又はスピーカ)に送信され(ステップ1404)、イヤフォン902(又はスピーカ)で電気信号から振動音に変換されて(ステップ1405)、通話相手の再生音声となる(ステップ1406)。なお、携帯電話機909の設けられているスピーカから直接音声を聞く場合は、イヤフォン902は必要ない。
(携帯電話システムへの適用例)
図17は、本発明による信号変換装置に用いる信号検出装置であるNAMアレイマイクロフォンを携帯電話システムに適用した場合の構成例を示すブロック図である。本例では、NAMアレイマイクロフォン901及びイヤフォン902と携帯電話機909との間が無線接続されている。実施例1(図11)の場合と異なるのは、音声変換ユニット903が音声変換・無線ユニット1501に置き換わった点と、新たに携帯電話機909側に無線ユニット1502が追加された点である。
(音声変換・無線ユニット、無線ユニットの構成例)
音声変換・無線ユニット1501と無線ユニット1502の構成例が図18に示されている。同図において、音声変換・無線ユニット1501は、マイクアンプ1201及び1202と、A/Dコンバータ1203及び1204と、デジタル信号処理ユニット1205と、D/Aコンバータ1206と、電池1207とを含んで構成されている。これらの構成は、図14の場合と同様であるため、その説明を省略する。
音声変換・無線ユニット1501には、上記に加え、例えばBluetooth(登録商標)などの機能を有するデジタル無線通信ユニット1601と、アンテナ1602とが設けられている。
また、無線ユニット1502は、アンテナ1604と、上記のデジタル無線通信ユニット1601に対応して設けられたデジタル無線通信ユニット1603と、A/Dコンバータ1605と、D/Aコンバータ1606と、電池1607とを含んで構成されている。
ここで、デジタル無線通信ユニット1601とデジタル無線通信ユニット1603とは同一のものでもよい。また、無線ユニット1502は、携帯電話機909内に収納されていてもよい。無線ユニット1502が、携帯電話機909内に収納されていない場合、無線ユニット1502は、携帯電話機909のイヤホンマイク端子を介して携帯電話機909に接続される。
さらに、無線ユニット1502が携帯電話機909から電源を供給してもらえる場合には、電池1607は不要である。音声変換・無線ユニット1501は、NAMアレイマイクロフォン901と一体化されてもよい。
デジタル無線通信ユニット1601、デジタル無線通信ユニット1603として、例えばBluetooth(登録商標)Ver1.1に準拠したものを使用した場合、最大通信速度は721kbpsとなり、さらに出力がBluetooth(登録商標)Class2に対応している場合、デジタル無線通信ユニット1601、デジタル無線通信ユニット1603の出力は最大4dBmで、見通しの条件において10m程度の通信が可能となる。
(動作例)
図19は、図17のシステムを使用した場合の、通話者900が発声した非可聴つぶやき音(NAM)が相手側に通常発声音として伝わるまでの動作を示すフローチャートである。
図19中のステップ1301からステップ1303までの動作は、図15の場合と同一であるのでその説明を省略する。
NAMアレイマイクロフォン901からの電気信号は、音声変換・無線ユニット1501に送られ、マイクアンプ1201とマイクアンプ1202でそれぞれ増幅され、A/Dコンバータ1203とA/Dコンバータ1204でそれぞれデジタル信号に変換された後、デジタル信号処理ユニット1205で例えば図10に示されている方法で通常発声音に変換される(ステップ1701)。
この変換後の通常発声音は、デジタル無線通信ユニット1601でデジタル変調された後、アンテナ1602から送信され、無線ユニット1502のアンテナ1604で受信される(ステップ1702)。受信信号はデジタル無線通信ユニット1603でデジタル復調され、D/Aコンバータ1606でアナログ信号に変換された後、有線により自分の携帯電話機909に送信される(ステップ1703)。
その後のステップ1306からステップ1308までの動作は、図15の場合と同一であるのでその説明を省略する。
一方、図20は、図17のシステムを使用した場合の、相手側が発声した音声が通話者900に伝わるまでの動作を示すフローチャートである。
図20中のステップ1401からステップ1403までの動作は、図16の場合と同一であるのでその説明を省略する。
携帯電話機909からの信号は無線ユニット1502に送られ(ステップ1801)、A/Dコンバータ1605でデジタル信号に変換された後、デジタル無線通信ユニット1603でデジタル変調され、アンテナ1604から送信され、音声変換・無線ユニット1501のアンテナ1602で受信される(ステップ1802)。
この受信信号はデジタル無線通信ユニット1601でデジタル復調され、D/Aコンバータ1206でアナログ信号に変換された後、有線によりイヤフォン又はスピーカに送信される(ステップ1803)。
その後のステップ1405からステップ1406までの動作は、図16の場合と同一であるのでその説明を省略する。
(無声信号変換方法)
以上説明した信号変換装置においては、以下のような無声信号変換方法が実現されている。すなわち、無声信号の発声された時の声帯位置により、該無声信号のピッチ周波数を推定するピッチ周波数推定ステップ(図9の処理に対応)と、上記ピッチ周波数推定ステップにおいて推定されたピッチ周波数を用いて、上記無声信号を有声信号に変換する変換ステップ(図10の処理に対応)とを含む無声信号変換方法が実現されている。
このように、無声信号の発声された時の声帯位置によりピッチ周波数を推定し、この推定されたピッチ周波数を用いて無声信号を有声信号に変換することにより、NAM音声を通常音声に変換することができる。この変換された通常音声を用いれば、携帯電話機などを用いた通話や音声認識処理を良好に行うことができる。
(まとめ)
以上のように、無声信号の発声された時の声帯位置によりピッチ周波数を推定し、この推定されたピッチ周波数を用いて無声信号を有声信号に変換することにより、NAM音声を通常音声に変換することができる。また、通常発声された時も同様に、声帯位置によりピッチ周波数を推定できるので、断続的に処理を中断したり、別方式に切り替えた場合でも、正しい通常音声に変換できる。この変換された通常音声を用いれば、携帯電話機などを用いた通話や音声認識処理を良好に行うことができる。
本発明により、NAM発声によるコミュニケーションに適用した場合、音声の通信品質の改善が可能となる。
また、中国語など、韻律情報により認識率が向上するような言語に適用した場合、NAM発声音声認識の性能改善が可能となる。
本発明を用いたNAMアレイマイクロフォンの装着方法の一例を示す図である。 医療用超音波イメージング装置で撮影した喉頭部の超音波イメージ画像であり、(a)は「ド」を発声したときの画像、(b)は1オクターブ高い「ド」を発声したときの画像である。 人間の喉頭部分の構造を示す図であり、同図(a)は正面図、同図(b)は背面図である。 通常発声とNAM発声したときの信号波形、ピッチ周波数曲線、超音波イメージ画像を適当な水平断線で1ピクセルずつ切り出し時系列マージして作成した図である。 NAMマイクロフォンの構成例を示す側面断面図である。 通常発声をNAMアレイマイクロフォンで収録した際の、上部マイクロフォン(U)と下部マイクロフォン(D)の信号のスペクトラム、波形図、パワー図である。 (a)は通常発声をNAMアレイマイクロフォンで収録した際の、上部マイクロフォンの信号より抽出したピッチ周波数曲線を示す図、(b)は上部マイクロフォンと下部マイクロフォンからの信号のパワー比曲線を示す図である。 (a)は図7(a)のピッチ周波数曲線のうち、文章発声部分を抜き出した図、(b)は図7の場合と同じ文章をNAM発声してNAMアレイマイクロフォンで収録した際の、キャリブレーション後のパワー比分布を示す図である。 本発明を用いたNAMアレイマイクロフォン収録信号からピッチ周波数を推定する処理例を示すフローチャートである。 本発明を用いたNAMアレイマイクロフォンにより、NAM発声音を通常発声音に変換する処理例を示すフローチャートである。 実施例1によるNAMアレイマイクロフォンを携帯電話システムに適用した場合の構成例を示すブロック図である。 NAMアレイマイクロフォンの一例を示す側面断面図である。 NAMアレイマイクロフォンの一例を示す正面図である。 音声変換ユニットの構成例を示すブロック図である。 実施例1によるNAMアレイマイクロフォンを携帯電話システムに適用した場合の送信時の処理例を示すフローチャートである。 実施例1によるNAMアレイマイクロフォンを携帯電話システムに適用した場合の受信時の処理例を示すフローチャートである。 実施例2によるNAMアレイマイクロフォンを携帯電話システムに適用した場合の構成例を示すブロック図である。 図17中の音声変換・無線ユニットと無線ユニットの構成例を示すブロック図である。 実施例2によるNAMアレイマイクロフォンを携帯電話システムに適用した場合の送信時の別の処理例を示すフローチャートである。 実施例2によるNAMアレイマイクロフォンを携帯電話システムに適用した場合の受信時の別の処理例を示すフローチャートである。
符号の説明
191 甲状軟骨
192 舌骨
900 通話者
901 マイクロフォン
902 イヤフォン
903 音声変換ユニット
909、915 携帯電話機
910 無線ネットワーク
911 通信網
912a、912b 無線基地局
913a、913b 基地局制御装置
914a、914b 交換機
1001、1002 マイクロフォン
1001a、1002a、a 接触部
1001b、1002b、b フレーム
1001c、1002c、c 外部雑音防音空間
1001d、1002d 反射板
1001e、1002e、e コンデンサマイクロフォン
1001f、1002f、f 振動板電極
1001g、1002g、g リード線
1003 連結部
1201、1202 マイクアンプ
1203、1204、1605 A/Dコンバータ
1205 デジタル信号処理ユニット
1206、1606 D/Aコンバータ
1207、1607 電池
1501 音声変換・無線ユニット
1502 無線ユニット
1602、1604 アンテナ
1601、1603 デジタル無線通信ユニット

Claims (9)

  1. 信号の発声された時の声帯位置により、該信号のピッチ周波数を推定するピッチ周波数推定手段と、前記声帯位置を検出するために、該声帯近傍の皮膚表面に装着された少なくとも2つの検出器とを含み、前記ピッチ周波数推定手段は、前記検出器それぞれの検出結果同士の比に基づいて前記信号のピッチ周波数を推定することを特徴とするピッチ周波数推定装置。
  2. 前記検出器は、声帯の移動範囲の両端それぞれに対応する位置に装着されていることを特徴とする請求項1記載のピッチ周波数推定装置。
  3. 無声信号の発声された時の声帯位置により、該無声信号のピッチ周波数を推定するピッチ周波数推定手段と、前記ピッチ周波数推定手段により推定されたピッチ周波数を用いて、前記無声信号を有声信号に変換する変換手段とを含むことを特徴とする無声信号変換装置。
  4. 前記声帯位置を検出するために、該声帯近傍の皮膚表面に装着された少なくとも2つの検出器を更に含み、前記ピッチ周波数推定手段は、前記検出器それぞれの検出結果同士の比に基づいて前記無声信号のピッチ周波数を推定することを特徴とする請求項3記載の無声信号変換装置。
  5. 前記検出器は、声帯の移動範囲の両端それぞれに対応する位置に装着されていることを特徴とする請求項4記載の無声信号変換装置。
  6. 前記検出器の少なくとも1つは、乳様突起直下の皮膚表面から、発声器官の運動に伴う共振フィルタ特性変化により調音された、声帯の規則振動を伴わない、外部からは非可聴な呼吸音の体内軟部組織を伝導する振動音である非可聴つぶやき音(Non−Audible Murmur;NAM)あるいは通常音声などの体内軟部組織を伝導する振動音を採取して音声入力するNAMマイクロフォンであることを特徴とする請求項4又は5記載の無声信号変換装置。
  7. 信号の発声された時の声帯位置を検出するために、該声帯近傍の皮膚表面の、該声帯の移動範囲の両端それぞれに対応する位置に装着された少なくとも2つのマイクロフォンを含むことを特徴とする無声信号検出装置。
  8. 前記マイクロフォンは、乳様突起直下の皮膚表面から、発声器官の運動に伴う共振フィルタ特性変化により調音された、声帯の規則振動を伴わない、外部からは非可聴な呼吸音の体内軟部組織を伝導する振動音である非可聴つぶやき音(Non−Audible Murmur;NAM)あるいは通常音声などの体内軟部組織を伝導する振動音を採取して音声入力するNAMマイクロフォンであることを特徴とする請求項7記載の無声信号検出装置。
  9. 無声信号の発声された時の声帯位置により、該無声信号のピッチ周波数を推定するピッチ周波数推定ステップと、前記ピッチ周波数推定ステップにおいて推定されたピッチ周波数を用いて、前記無声信号を有声信号に変換する変換ステップとを含むことを特徴とする無声信号変換方法。
JP2004270262A 2004-09-16 2004-09-16 ピッチ周波数推定装置、無声信号変換装置、無声信号検出装置、無声信号変換方法 Pending JP2006086877A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004270262A JP2006086877A (ja) 2004-09-16 2004-09-16 ピッチ周波数推定装置、無声信号変換装置、無声信号検出装置、無声信号変換方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004270262A JP2006086877A (ja) 2004-09-16 2004-09-16 ピッチ周波数推定装置、無声信号変換装置、無声信号検出装置、無声信号変換方法

Publications (1)

Publication Number Publication Date
JP2006086877A true JP2006086877A (ja) 2006-03-30

Family

ID=36165004

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004270262A Pending JP2006086877A (ja) 2004-09-16 2004-09-16 ピッチ周波数推定装置、無声信号変換装置、無声信号検出装置、無声信号変換方法

Country Status (1)

Country Link
JP (1) JP2006086877A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008007616A1 (fr) * 2006-07-13 2008-01-17 Nec Corporation Dispositif, procédé et programme d'alarme relatif à une entrée de murmure non audible
WO2008015800A1 (fr) * 2006-08-02 2008-02-07 National University Corporation NARA Institute of Science and Technology procédé de traitement de la parole, programme de traitement de la parole et dispositif de traitement de la parole
JP2008042740A (ja) * 2006-08-09 2008-02-21 Nara Institute Of Science & Technology 非可聴つぶやき音声採取用マイクロホン
JP2009162879A (ja) * 2007-12-28 2009-07-23 Hiroshima Industrial Promotion Organization 発声支援方法
JP2012252060A (ja) * 2011-05-31 2012-12-20 Fujitsu Ltd 話者判別装置、話者判別プログラム及び話者判別方法
JP2013011680A (ja) * 2011-06-28 2013-01-17 Fujitsu Ltd 話者判別装置、話者判別プログラム及び話者判別方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008007616A1 (fr) * 2006-07-13 2008-01-17 Nec Corporation Dispositif, procédé et programme d'alarme relatif à une entrée de murmure non audible
WO2008015800A1 (fr) * 2006-08-02 2008-02-07 National University Corporation NARA Institute of Science and Technology procédé de traitement de la parole, programme de traitement de la parole et dispositif de traitement de la parole
JPWO2008015800A1 (ja) * 2006-08-02 2009-12-17 国立大学法人 奈良先端科学技術大学院大学 音声処理方法、音声処理プログラム、音声処理装置
US8155966B2 (en) 2006-08-02 2012-04-10 National University Corporation NARA Institute of Science and Technology Apparatus and method for producing an audible speech signal from a non-audible speech signal
JP2008042740A (ja) * 2006-08-09 2008-02-21 Nara Institute Of Science & Technology 非可聴つぶやき音声採取用マイクロホン
JP2009162879A (ja) * 2007-12-28 2009-07-23 Hiroshima Industrial Promotion Organization 発声支援方法
JP2012252060A (ja) * 2011-05-31 2012-12-20 Fujitsu Ltd 話者判別装置、話者判別プログラム及び話者判別方法
JP2013011680A (ja) * 2011-06-28 2013-01-17 Fujitsu Ltd 話者判別装置、話者判別プログラム及び話者判別方法

Similar Documents

Publication Publication Date Title
JP3760173B2 (ja) マイクロフォン、コミュニケーションインタフェースシステム
US10475467B2 (en) Systems, methods and devices for intelligent speech recognition and processing
ES2775799T3 (es) Método y aparato para la mejora multisensorial del habla en un dispositivo móvil
US7778430B2 (en) Flesh conducted sound microphone, signal processing device, communication interface system and sound sampling method
RU2595636C2 (ru) Система и способ для генерации аудиосигнала
US8504360B2 (en) Automatic sound recognition based on binary time frequency units
US20100131268A1 (en) Voice-estimation interface and communication system
US8155966B2 (en) Apparatus and method for producing an audible speech signal from a non-audible speech signal
JP2006086877A (ja) ピッチ周波数推定装置、無声信号変換装置、無声信号検出装置、無声信号変換方法
Nakagiri et al. Improving body transmitted unvoiced speech with statistical voice conversion
Rahman et al. Amplitude variation of bone-conducted speech compared with air-conducted speech
KR100778143B1 (ko) 후두 임피던스 신호를 이용하는 넥마이크를 구비한 골도헤드셋
WO2020208926A1 (ja) 信号処理装置、信号処理方法及びプログラム
US8644538B2 (en) Method for improving the comprehensibility of speech with a hearing aid, together with a hearing aid
Hirahara et al. Acoustic characteristics of non-audible murmur
Cordourier Maruri et al. V-speech: Noise-robust speech capturing glasses using vibration sensors
Heracleous et al. Non-audible murmur recognition based on fusion of audio and visual streams.
CN111445912A (zh) 语音处理方法和系统
Rice Reviews Of Acoustical Patents

Legal Events

Date Code Title Description
A621 Written request for application examination

Effective date: 20070704

Free format text: JAPANESE INTERMEDIATE CODE: A621

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090828

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090929

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100330