JP2017509014A

JP2017509014A - 音声分析および知覚増強のためのシステム

Info

Publication number: JP2017509014A
Application number: JP2016552306A
Authority: JP
Inventors: ドナルドジェームズデリック; リベルトムジェラードデ
Original assignee: ドナルドジェームズデリック; リベルトムジェラードデ
Priority date: 2014-02-14
Filing date: 2015-02-13
Publication date: 2017-03-30
Also published as: EP3105756A1; CL2016002050A1; US20170194019A1; CA2936331A1; CN106030707A; AU2015217610A1; SG11201605362PA; KR20160120730A; WO2015122785A1

Abstract

音声知覚システムであって、音響発話信号情報を捕捉するように構成された捕捉モジュールと、音響信号内の可能性のある無声部分を特定する特徴を抽出するように構成された特徴抽出モジュールと、音響信号が、無声部分である、または無声部分を含むかどうかを抽出された特徴に基づいて特定するように構成された分類モジュールと、聞き手に送られる空気触覚刺激を生成するための感覚刺激アクチュエータへの制御信号を生成するように構成された制御モジュールであって、制御信号は、特定された無声部分を表す信号に少なくとも部分的に基づく、制御モジュールとを備える、音声知覚システムが開示される。また、関連する方法も開示される。【選択図】図１

Description

本発明は、音声分析および知覚のためのシステムに関する。詳細には、本発明は、聴覚発話情報を、自然発話において生成される空気流に類似する空気触覚刺激に変換するためのシステムに関する。本発明は、さらに、聞き手が発話情報を受け取りまたは聞くときにこの空気触覚刺激を聞き手にもたらして発話情報の知覚を増強するためのシステムに関する。

人は、話すとき、聞き手が聞いているものを理解するのを潜在的に助けることができる聴覚、視覚、および体知覚（振動および空気流）の情報を生み出す。発話知覚には聴覚的情報だけで十分になり得るが、情報の他の流れが、発話知覚を増強することができる。たとえば、話し手の顔からの視覚情報が、発話知覚を増強することができる。聞き手の顔に触れることもまた、発話知覚を助けることができる。たとえば、タドマ（Ｔａｄｏｍａ）方法、すなわち人が自身の親指を話し手の唇に置き、指を話し手の顎の線に全体的に沿って置くコミュニケーション増強の方法などの技術が、耳が不自由な人が発話を理解するのを助けるために使用される。

既存の空気触覚システムは、エアパフをかけ、無声閉鎖音（起こり得る無声の発声のサブセットであり、「ｐ」、「ｔ」、および「ｋ」などの子音を含む）から生み出されたこれらを手、首、または遠位の皮膚場所（足首など）に合わせることによって発話知覚を増強することができる。エアパフは、電磁弁を開いて加圧された空気（約５〜８ｐｓｉ）をチューブから放出する５０ｍｓ長さの信号を送って、「ｐａ」の「ｐ」および「ｔａ」の「ｔ」として話し手から生み出された自然なエアパフを真似ることによって作り出され得る。

オペレータが、発話信号内の無声閉鎖音を手動で特定し、発話内の無声閉鎖音の発生とエアパフの送出のタイミングを決定する。信号内の無声閉鎖音が特定された後、音声信号が、エアパフと組み合わせて聞き手に送られ得る。

その結果、既存の空気触覚システムは、リアルタイムの用途に適さない。これらのシステムは、エアパフを音声信号に適切に整合させるために聴覚信号の入念な手動／人的支援された前処理を必要とする。

発話知覚を増強するための他の既存のシステムは、振動触覚デバイスを含む。
空気触覚刺激は、発話の非周期的な成分に基づいており、それにより、これらは、空気流に応じた体知覚刺激を加えるために使用される。これは、空気流自体を含むことができるが、空気流を真似る直接的な触覚もしくは電気触覚の刺激、または聞き手が信号を使用することを可能にする任意の他の技術であることもできる。それとは対照的に、振動刺激触覚システムは、主に、発話の周期的な（振動）成分に基づく。

振動触覚デバイスは、体のさまざまな部分に取り付けられ、発話信号に関連する振動または振動触覚の刺激を与える。この技術に関連する取り組みは、基本周波数の二次源および発話内のイントネーションパターンを提示することを対象としており、このとき、一部は母音（フォルマント）情報を提示することも対象としている。この種類の情報は、空気流が皮膚と接触する機会がほとんどまたは全くないとき、唇からの低空気圧力の時間の間、発話から生み出される。したがって、現在の振動触覚デバイスは、正確には、空気触覚デバイスが使用しない発話信号からの情報を使用し、また、その逆の形にもなる。さらに、振動触覚デバイスは、うまく働かせるにはタスクの訓練または事前の認知を必要とする。

本発明の目的は、音声分析および／または知覚を増強するためのシステムを提供すること、および／または少なくとも公衆に有用な選択を提供することである。

本発明は、広義には、音響発話信号から乱気流情報を決定することによる音声知覚の増強のためのシステムおよび方法であって、聞き手に送られるように構成された空気触覚刺激は、決定された乱気流情報に少なくとも部分的に基づく、システムおよび方法からなる。

１つの態様では、本発明は、音声知覚システムであって、音響発話信号情報を捕捉するように構成された捕捉モジュールと、音響信号内の可能性のある無声部分を特定する特徴を抽出するように構成された特徴抽出モジュールと、音響信号が、無声部分である、または無声部分を含むかどうかを抽出された特徴に基づいて特定するように構成された分類モジュールと、聞き手に送られる空気触覚刺激を生成するための感覚刺激アクチュエータへの制御信号を生成するように構成された制御モジュールであって、制御信号は、特定された無声部分を表す信号に少なくとも部分的に基づく、制御モジュールとを備える、音声知覚システムを備える。

本明細書において使用される用語「備える」は、「少なくとも部分的になる」ことを意味する。本明細書において、用語「備えている」を含む各々の記述を解釈する際、この用語によって前置きされるものまたはその複数のもの以外の特徴もまた、存在することができる。「備える」などの関連用語は、同じ方法で解釈されるものとする。

好ましくは、捕捉モジュールは、音響発話信号情報を生成するように構成されたセンサに接続される。

好ましくは、センサは、音響マイクロホンを備える。

好ましくは、捕捉モジュールは、音響発話信号情報を生成するように適合された通信媒体に接続される。

好ましくは、捕捉モジュールは、音響発話信号情報が記憶されるコンピュータ可読媒体に接続される。

好ましくは、捕捉モジュールは、圧力変換器を備える。

好ましくは、捕捉モジュールは、話し手の唇からの空気流内にまたはその近くに置かれた力感知デバイスを備える。

好ましくは、捕捉モジュールは、光学流量計を備える。

好ましくは、捕捉モジュールは、熱流量計を備える。

好ましくは、捕捉モジュールは、機械的流量計を備える。

好ましくは、捕捉モジュールは、乱流および／または乱流を生成する発話圧力波からの情報を含む音響発話信号情報を捕捉するように構成される。

好ましくは、特徴抽出モジュールは、分類モジュールによって解釈されるとき、音響信号の抽出された特徴のうちの１つまたは複数に基づいて無声部分を特定するために使用される信号の強音の様相を特定するように構成される。

好ましくは、特徴抽出モジュールは、ゼロ交差レート、周期性、自己相関性、瞬時周波数、周波数エネルギー、統計的測定、変化率、強度二乗平均平方根値、時間スペクトル情報、フィルタバンク、復調スキーム、または音響信号それ自体のうちの１つまたは複数に基づいて、無声部分に関連する特徴を抽出するように構成される。

好ましくは、特徴抽出モジュールは、音響信号のゼロ交差レートを計算するように構成され、分類モジュールは、前記ゼロ交差レートを使用して、音響信号の一部分の時間単位あたりのゼロ交差の少なくとも１つが閾値を上回った場合、音響信号のその部分が無声部分であることを示す。

好ましくは、特徴抽出モジュールは、音響信号の周波数エネルギーを計算するように構成され、分類モジュールは、音響信号の一部分の周波数エネルギーが閾値を上回った場合、音響信号のその部分が無声部分であることを示す。

好ましくは、特徴抽出モジュールは、ティーガー（Ｔｅａｇｅｒ）エネルギーに基づいて周波数エネルギーを算出するように構成される。

好ましくは、特徴抽出モジュールは、組み合わされたとき、音響信号が無声部分である、または無声部分を含むかどうかを特定するために分類モジュールによって使用される、音響信号のゼロ交差および周波数エネルギーを計算するように構成される。

好ましくは、特徴抽出モジュールは、センサからの低周波音響信号を使用して音響信号内の可能性のある無声部分を特定するように構成される。

好ましくは、分類モジュールは、ヒューリスティックス、論理システム、数学的分析、統計的分析、学習システム、ゲーティングオペレーション、範囲限定、および可能性のある無声部分における正規化のうちの１つまたは複数に基づいて無声部分を特定するように構成される。

好ましくは、制御モジュールは、音響信号内の可能性のある無声部分を表す信号に基づいて制御信号を生成するように構成される。

好ましくは、制御モジュールは、無声部分を表す信号を、無声部分の乱気流情報内のエネルギーに基づいて、このエネルギーと発話から起こる可能性のある空気流との間の関係に基づいて転換して、乱気流を表す信号に変換するように構成される。

好ましくは、乱気流を表す信号は、乱気流情報を表す音響信号の包絡線である。

好ましくは、信号は、無声部分を表す信号の微分である。

好ましくは、信号は、少なくとも１つの信号特性を有する任意の信号であり、この場合、少なくとも１つの信号特性は、音響信号内の乱流情報の発生を示す。

好ましくは、信号は、インパルス列を含み、この場合各々のインパルスのタイミングは、乱流情報の発生を示す。

好ましくは、信号特性は、ピーク、ゼロ交差、およびトラフのうちの１つまたは複数を含む。

好ましくは、システムは、さらに、少なくとも１つの後処理モジュールを備える。

好ましくは、少なくとも１つの後処理モジュールは、フィルタ処理し、線形または非線形のマッピングを使用し、ゲーティングオペレーションを使用し、範囲限定を使用し、および／または正規化を使用して少なくとも１つの後処理モジュールへの信号を増強するように構成される。

好ましくは、少なくとも１つの後処理モジュールは、高パスフィルタリング、低パスフィルタリング、バンドパスフィルタリング、バンドストップフィルタリング、移動平均、およびメジアンフィルタリングのうちの１つまたは複数を使用して信号をフィルタ処理するように構成される。

好ましくは、少なくとも１つの後処理モジュールは、分類モジュールのために可能性のある無声部分の抽出された特徴を表す信号を処理するための特徴抽出後処理モジュールを備え、分類モジュールは、特徴抽出後処理モジュールからの出力に基づいて無声部分を特定するように構成される。

好ましくは、少なくとも１つの後処理モジュールは、分類モジュールからの無声部分を表す信号を処理するための分類後モジュールを備え、制御モジュールは、分類後処理モジュールからの出力に基づいて制御信号を生成するように構成される。

好ましくは、少なくとも１つの後処理モジュールは、制御ユニットからの制御信号を処理するための制御後処理モジュールを備え、感覚刺激アクチュエータは、制御後処理モジュールからの出力に基づいて空気触覚刺激を出力するように構成される。

好ましくは、少なくとも１つの後処理モジュールは、制御ユニットからの制御信号を処理するための制御後処理モジュールを備える。

好ましくは、感覚刺激アクチュエータは、制御後処理モジュールからの出力に基づいて光学刺激を出力するように構成された光学アクチュエータを備える。

好ましくは、光学アクチュエータは、聞き手の電子デバイス内に光源を備える。

好ましくは、光学刺激は、電子デバイスのバックライトディスプレイ内の輝度の変化を含む。

好ましくは、感覚刺激アクチュエータは、制御後処理モジュールからの出力に基づいて刺激を出力するように構成された体知覚アクチュエータを備える。

好ましくは、体知覚刺激アクチュエータは、制御後処理モジュールからの出力に基づいて可聴刺激を出力するように構成されたサウンドアクチュエータを備える。

好ましくは、サウンドアクチュエータは、ホストデバイス、および／またはラウドスピーカの音響サブシステムを備える。

好ましくは、音響信号は、発話信号を含む。

好ましくは、音響信号は、声道乱気流から引き起こされたあらゆる情報を含む。

好ましくは、音響信号は、人工的な声道乱気流から引き起こされたあらゆる情報を含む。

好ましくは、音響信号は、発話合成システムによって生み出された発話、音響情報、および／または音声を含む。

好ましくは、システムは、さらに、音響信号を受け取るためのレシーバを備える。

好ましくは、レシーバは、音響信号をセンサデバイスから受け取るように構成される。

好ましくは、センサは、音響マイクロホンデバイスを備える。

好ましくは、マイクロホンデバイスは、マイクロホンからの音響信号をデジタル信号に変換するためのマイクロホンデジタイザを備える。

好ましくは、レシーバは、音響信号を外部音響源から受け取るように構成される。

好ましくは、レシーバは、音響信号をリアルタイムまたは事前記録のうちの１つで受け取るように構成される。

好ましくは、システムは、さらに、不要な背景ノイズおよび不要な無発話サウンドを音響信号から除去するためのレシーバ後処理モジュールを備える。

好ましくは、捕捉モジュールは、事前にフィルタ処理された発話音響信号から音響発話信号情報を捕捉するように構成される。

好ましくは、捕捉モジュールは、フィタリングを必要としないきれいな発話音響信号から音響発話信号情報を捕捉するように構成される。

好ましくは、システムは、さらに、空気触覚刺激を生成するための感覚刺激アクチュエータを備える。

好ましくは、感覚刺激アクチュエータは、制御モジュールからの直接的な、および／または制御後処理モジュールを介して制御モジュールからの間接的な制御信号に少なくとも部分的に基づいて空気触覚刺激を生成するように構成される。

好ましくは、感覚刺激アクチュエータは、分類モジュールからの直接的な、および／または分類後処理モジュールを介して分類モジュールからの間接的な無声部分に少なくとも部分的に基づいて空気触覚刺激を生成するように構成される。

好ましくは、感覚刺激アクチュエータは、空気触覚アクチュエータを備える。

好ましくは、空気触覚刺激は、１つまたは複数のエアパフおよび／または空気流を含む。

好ましくは、感覚刺激アクチュエータは、振動触覚アクチュエータを備える。

好ましくは、振動触覚アクチュエータは、音響信号内の無声部分に基づいて振動触覚刺激を生成するように構成される。

好ましくは、空気触覚刺激は、聞き手の体知覚的感覚を刺激するための直接的な触覚刺激を含む。

好ましくは、感覚刺激アクチュエータは、電気触覚アクチュエータを備え、空気触覚刺激は、聞き手の体知覚的感覚を刺激するための電気刺激を含む。

好ましくは、感覚刺激アクチュエータは、光学アクチュエータを備え、空気触覚刺激は、光学刺激を含む。

好ましくは、感覚刺激アクチュエータは、音響アクチュエータを備え、空気触覚刺激は、聴覚刺激を含む。

好ましくは、感覚刺激アクチュエータは、２つまたはそれ以上の異なる空気触覚刺激を聞き手に送るように構成される。

好ましくは、２つまたはそれ以上の異なる空気触覚刺激は、物理タップ、振動、静電パルス、光学刺激、聴覚刺激、および他の感覚刺激のうち２つまたはそれ以上を含む。

好ましくは、空気触覚刺激（複数可）は、音響信号、特徴抽出モジュールによって音響信号から抽出された特徴、分類モジュールからの特定された無声部分、または乱気流エネルギーを含む、可能性のあるおよび／または特定された無声部分を表す信号の派生物を用いて生成される。

好ましくは、特定された無声部分は、乱気流の信号の反数を含む。

好ましくは、感覚刺激アクチュエータは、空気触覚刺激を聞き手の皮膚に送るように構成される。

好ましくは、感覚刺激アクチュエータは、刺激を聞き手の任意の触覚細胞に送るように構成される。

別の態様では、本発明は、音響知覚のための方法であって、捕捉モジュールによって、音響発話信号情報を捕捉することと、特徴抽出モジュールによって、音響信号内の可能性のある無声部分を特定する特徴を決定することと、分類モジュールによって、音響信号が、無声部分であるか、または無声部分を含むかどうかを抽出された特徴に基づいて決定することと、制御モジュールによって、聞き手に送られる空気触覚刺激を生成するためのアクチュエータへの制御信号を生成することであって、前記制御信号は、無声部分を表す信号に少なくとも部分的に基づく、生成することとを含む、方法を含む。

好ましくは、方法は、感覚刺激アクチュエータによって、空気触覚刺激を聞き手に送ることを含み、空気触覚刺激は、アクチュエータからの刺激に基づいて生成される。

好ましくは、感覚刺激アクチュエータは、触覚刺激、光学／視覚刺激、聴覚刺激、および／または任意の他のタイプの刺激の形態で、空気触覚刺激情報を聞き手に送るように構成された１つまたは複数のアクチュエータを備える。

本明細書では、「空気触覚刺激」は、発話内の乱気流部分などの空気流に基づく感覚刺激を指す。感覚刺激は、聞き手の体の体知覚部分に送られる。この刺激は、通常、発話の非周期成分に基づく。空気触覚刺激をもたらすアクチュエータは、空気流情報に基づいて体知覚刺激をもたらすように構成され得る。刺激は、空気流自体を含むことができる。追加的にまたは代替的には、刺激は、空気流を真似る直接触覚または電気触覚の刺激、聴覚刺激、または聞き手が乱気流情報を受け取り／感知することを可能にする任意の他の技術を含むことができる。

方法の実施形態は、上記のシステムの第１の態様を参照して説明された実施形態に類似する。

本発明は、したがって、いくつかのステップおよびそのようなステップのうちの１つまたは複数の互いの関連付け、ならびに構造の特徴、要素の組み合わせおよびそのようなステップに影響を与えるように適合された部分の配置を包含する装置を備え、そのすべては、以下の詳細な開示に例示される。

本発明はまた、広義には、個々にまたは集約的に本出願の明細書に参照された、または示された部分、要素、および特徴、ならびに任意の２つまたはそれ以上の前記部分、要素、または特徴のあらゆるすべての組み合わせに存すると述べられてもよく、本発明が関連する当技術分野において知られている均等物を有する特定の番号が、本明細書において言及されたとき、そのような知られている均等物は、あたかも個々に記載されるように本明細書に組み込まれるとみなされる。

さらに、本発明の特徴または態様が、マーカッシュ（Ｍａｒｋｕｓｈ）グループに関連して説明される場合、本発明はまた、それによって、マーカッシュグループの任意の個々の項目または項目のサブグループに関連して説明されることを当業者は理解するであろう。

本明細書では、名詞の後に続く「ｓ」は、名詞の複数および／または単数の形態を意味する。

本明細書では、用語「および／または」は、「および」または「または」またはその両方を意味する。

本明細書に開示する数の範囲（たとえば１から１０）の参照はまた、その範囲内のすべての有理数（たとえば１、１．１、２、３、３．９、４、５、６、６．５、７、８、９、および１０）、さらにその範囲内の有理数の任意の範囲（たとえば２から８、１．５から５．５、および３．１から４．７）を組み込み、したがって、本明細書において明示的に開示するすべての範囲のすべての副範囲が、ここに明示的に開示される。これらは、詳細に意図されるものの一例にすぎず、列挙される最低値と最高値の間の数値のすべての可能な組み合わせが、類似の方法でこの出願において明示的に述べられると考えられるものである。

特許明細書、他の外部文献、または情報の他の供給源に参照がなされているこの明細書では、これは、通常、本発明の特徴を論じるための文脈を提供する目的のものである。別途詳細に述べられない限り、そのような外部文献または情報のそのような供給源への参照は、そのような文献または情報のそのような供給源が、いかなる管轄権においても、従来技術である、または当技術分野における共通の一般的知識の一部を形成するという承認として解釈されるものではない。

本発明は、広義には、上記で定義された通りであるが、本発明が、それに限定されず、本発明は、以下の説明が例を挙げる実施形態も含むことを当業者は理解するであろう。

本発明をより完璧に理解するために、非限定的な例として、以下の説明および添付の図に参照がなされる。

本発明の第１の実施形態によるシステムのブロック図である。乱気流の強度を伴った聴覚発話波形の図である。本発明の第２の態様によるシステムのブロック図である。本発明の実施形態によるゼロ交差方法のソフトウェア構成要素の流れ図である。本発明の実施形態によるゼロ交差方法と組み合わせられたティーガーエネルギー／ＤＥＳＡ方法のソフトウェア構成要素の流れ図である。図５に示すシステムのさまざまに異なる段階における信号の例となる波形を示す図である。耳掛型補聴器における本発明の実施形態によるシステムの実装を示す図である。スマートホンまたはスマートデバイスにおける本発明の実施形態によるシステムの実装を示す図である。スマートホンまたはスマートデバイスにおける本発明の実施形態によるシステムの実装を示す図である。ヘッドホンにおける本発明の実施形態によるシステムの実装施を示す図である。空気触覚アクチュエータの実装を示す図である。

図１は、音響信号の知覚を増強するためのシステム１００を示す。特に、システム１００は、音響信号内の発話情報の知覚を増強するように構成される。他の実施形態では、システム１００は、音響信号内の空気触覚情報の知覚を増強するように構成される。システム１００は、自動化され、発話中に音響信号から生み出された乱気流をリアルタイムで回復することができる。

システム１００は、音響源１２０からの音響信号内の１つまたは複数の強音の特徴を示しおよび／または計算し／抽出するための特徴抽出モジュールと、特徴抽出モジュールによって特定された特徴に基づいて無声音響部分内の無声部分を特定するための分類モジュールとを含む信号処理モジュール１３０を備える。システム１００は、さらに、無声音響部分（複数可）を表す信号に少なくとも基づいて感覚刺激アクチュエータ１６０への制御信号を生成するための空気流制御モジュール１４０を備える。感覚刺激アクチュエータ１６０は、（たとえば空気流になり得る）空気触覚刺激を生成するように構成され、空気触覚刺激は、次いで、たとえば空気チューブなどのガイドまたはシステム出力部１７０を介し、聞き手の皮膚または聞き手の任意の他の体知覚部分に出力される。

システムの構成要素およびモジュール１２０、１３０、１４０、および１６０は、別々でよく、互いから分離してよい。一部の代替の実施形態では、構成要素および／またはモジュールの２つまたはすべては、単一の統合された構成要素／モジュールの一部になり得る。

本明細書では、「モジュール」は、任意の１つまたは複数のタスクを実施するために一組または複数の組の命令を個々にまたは結合して実行する計算デバイスまたは機械の集まりを指す。モジュールはまた、アナログ処理技術を単独で、またはデジタル処理技術と組み合わせて実施するように構成された処理デバイスまたは処理デバイスの集まりも含む。例となるモジュールは、たとえば中央処理ユニットなどの少なくとも１つのプロセッサを備える。モジュールは、さらに、メインシステムメモリおよびスタティックメモリを含むことができる。プロセッサ、メインメモリ、およびスタティックメモリは、データバスを介して互いと通信することができる。

ソフトウェアは、モジュールのメモリ内および／または少なくとも１つのプロセッサ内に存在し得る。メモリおよびプロセッサは、機械可読媒体またはその複数の媒体を構成する。用語「機械可読媒体」は、モジュールによって実行するため命令の組を記憶、符号化、または担持することができ、モジュールにタスクを実施させる任意の媒体を含む。用語の機械可読媒体は、ソリッドステートメモリ、光学メモリ、磁気媒体、非一時的媒体、および搬送波信号を含む。

例として、モジュールは、アナログ回路、デジタル信号処理ユニット、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ、マイクロプロセッサ、またはタスクを実施するために機械可読媒体内に記憶されたコンピュータ可読命令を実行することができる任意の処理ユニットの１つまたはその組み合わせでよい。

システム１００は、さらに、音響信号を受け取るためのシステム入力部１２０を備える。システム入力部１２０は、音響信号を受け取るためのマイクロホンに接続可能になり得る。他の実施形態では、システム入力部１２０は、音響録音または音響ストリ−ムから音響信号を受け取ることができる。他の実施形態では、システム入力部１２０は、音響信号を表すものを直接的または間接的に生み出すことができる任意のセンサタイプに由来するものである。

システム１００は、感覚刺激デバイス（図示せず）に結合されまたはこれと連通する空気チューブなどのシステム出力部１７０を備える。感覚刺激デバイスは、聞き手に送られる空気触覚刺激を生成するための空気触覚アクチュエータを備える。空気触覚刺激は、エアパフまたは聞き手に送られる空気流を含む。空気触覚刺激は、発話の対応する聴覚部分が聞き手の耳に到達した後約２００ｍｓ以内に聞き手に送られる。一部の実施形態では、システム１００は、発話の対応する聴覚部分が聞き手の耳に到達した後約１００ｍｓ以内に空気触覚刺激を聞き手に送るように構成される。一部の実施形態では、システム１００は、発話の対応する聴覚部分が聞き手の耳に到達した後約５０ｍｓ以内に空気触覚刺激を聞き手に送るように構成される。

発話知覚のために空気触覚刺激を使用することは、発話における情報の任意の他の感覚源に勝る利点を有する。たとえば、乱気流によって生み出される発話内のノイズは、しばしば、４ｋＨｚから６ｋＨｚ、時に８ｋＨｚ以上の高周波数でほとんどの感覚情報を含む。その反対に、発話生成に関連付けられる音響圧力波による直接的な空気流情報は、その情報を、１Ｈｚ以下から１００Ｈｚまでの非常に低い周波数で担持する。この低周波数情報は、乱流によって引き起こされた高周波数情報に関連する。これらの高周波数の発話サウンドおよび低周波数の圧力情報は、３００〜３４００Ｈｚのみの聴覚情報を提供する、電話会話に使用される狭帯域の音声コードによってフィルタ除去される。また、多くの通信デバイスおよびマイクロホン自体における信号処理は、これらのエネルギーが、帯域を節約するために送信において省かれ、通常は、発話理解度に向けた多くの有用な情報を含むように保持されないため、これらのエネルギーを除去する。空気触覚刺激は、この高周波数サウンド内の情報に置き換わり、それ自体、より低い音響周波数内であっても計算的に検出可能である。代替的に、この方法が、音声コードの適用前に使用されるとき、コード化された音声に沿って送信され得る低帯域信号を得ることができ、そのためフィルタ除去された部分は、不可逆圧縮の利点を依然として維持しながら、人工的に再生され得る。

空気触覚刺激はまた、ほとんどの難聴者に有用である。高周波数音声知覚は、老化または老人性難聴の結果最初に衰えるものである。発話情報のこの復元はまた、音声デバイスをより静かにすることも可能にし、その理由は、これは、知覚を増強させ、聞き手は、これを会話の大きさに対して自由にバランスを取るためであり、音声デバイスを小さくすることは、聴力を保つことを助ける。これは、道路沿い、バー、および飲食店などのあらゆるすべてのノイズで損なわれた環境に特に重要である。

一実施形態では、感覚刺激デバイスは、物理タップ、振動、静電パルス、光学刺激、聴覚キュー、または任意の他の感覚刺激などの同時に提示される感覚刺激と整合させて、感覚刺激を聞き手に送るように構成される。一実施形態では、補助的な触覚刺激（複数可）は、音響信号、特徴抽出モジュールによって抽出された特徴、分類モジュールからの特定された無声部分、または層状空気流エネルギーを含む、乱気流の信号の反数などの、可能性のあるおよび／または特定された無声部分を表す信号の派生物を用いて生成される。

空気触覚刺激は、聞き手に送られた音響信号内の無声部分の可聴的増強を含むことができ、それによって、サウンドが処理され、記憶され、または送信された方法によって低発現され得る、またはノイズで損なわれた環境によって理解度が低下した、発話信号内の乱流情報を増強する。

図２は、発話情報を含む音響信号Ａの波形を示す。音響信号は、実線Ｂによって図式化された乱気流情報を含む。乱流情報を特定し抽出することは、簡単なタスクではなく、その理由は、背景ノイズ、非乱流（層状）発話空気流、および乱流発話空気流がすべて音響信号内に一緒に混合されているためである。

本発明の実施形態によれば、システム入力部１２０によって受け取られた音響信号は、低から中程度の背景ノイズを有する聴覚および非聴覚の発話関連入力、または代替的には、背景ノイズがすでにフィルタ処理された入力を使用する。背景ノイズは、（たとえば道路ノイズまたは航空機ノイズからの）定常状態乱流、背景雑音、および背景の過渡的な事象を含む数多くの源から生じる。この背景ノイズを取り扱うために使用され得る方法、技術、およびシステムは、数多く存在する。ノイズ低減およびノイズ取り消しの目的で乱流の非発話音響情報を発話から分離することは、２０世紀の初期から音声デバイス技術の重要な部分である。

信号内の背景ノイズが除去されまたは低減された後、残存する音響信号を関連する空気流情報に変換することは依然として難しい。音響信号と発話生成中に口から離れる乱気流との間の関係は、極めて複雑である。発話中口から放出された空気流および空気圧は、時間と共にすばやく変化し、このとき触覚的に検出可能な乱気流に必要とされる、最も高い空気流／圧力の組み合わせは、過渡音、気音、および狭窄的気音中に発生している。

有声発話を無声発話から分離して発話を区分けする既存の方法およびシステムは、自動化された発話認識のタスクに十分ではない。したがって、研究者は、エネルギー成分を分離することによってそのようなシステムを改良しようとしてきた。他の研究者は、デジタル信号処理の分野を改良するため、または（ピッチとして知覚される）発話の基本周波数を追跡するプロセスを改良するためのみに同じ疑問に対処するためのやり方を導くことに取り組んできた。しかし、これらのやり方は、発話からの空気流を複製するために使用されるよう意図されるものではなかった。

さらに、音響信号から空気流を特定することは、音響信号の乱流情報の部分を抽出するだけでなく、発話内の過渡音、気音、および狭窄的気音の知識に基づいてこれを適切に操作することを必要とする。十分な層状空気流と組み合わさった発話中の大きな口の開口は、口内の乱気流のかなりの量でも、口の外側では検出可能な空気流として解釈されないことを意味する。それとは対照的に、小さい口の開口は、より少ない量の乱気流が、口の外側で依然として検出可能であることを意味する。

発話の無声部分を検出し、感覚刺激デバイスを適切な方法で作動させるために必要とされる図１に示す信号処理構成要素を実装する可能な方法は、数多く存在する。図３は、図１に示すシステム１００の拡張である、本発明の第２の実施形態によるシステム２００を示す。図３を参照して説明する特徴は、図１を参照して説明する対応する特徴に類似するまたは同一の機能を有し、これは、１００を加えた同様の参照番号によって示される。

処理システムの一部の実施形態は、一部が音声捕捉に従来関連付けられていない、音響信号のさまざまな異なる様相を捕捉する１つまたは複数のセンサデバイスを使用することにも留意されたい。そのようなデバイスの使用は、特徴抽出モジュールを改変、または補完する。従来のマイクロホン、圧力変換器、力計量計、熱、光学、力、渦流出に基づく流量計、および他のものに加えて、画像化ベース方法および音響情報を捕捉することができる任意の他の方法が、企図される。

詳細には、非常に低周波数の能力（１００Ｈｚ以下）を有するセンサの使用は、乱流の様相、特に破裂音を直接的に捕捉するために使用するものである。これらは、単に計算的方法で音声信号から得るには難しいものである。直接測定の推定値および計算推定値を組み合わせて使用することで、システムパフォーマンスをさらに向上させることができる。

システム２００は、音響信号を音響源２１０から受け取るための特徴抽出モジュール２２０を備える。特徴抽出モジュール２２０は、音響情報を処理して１つまたは複数の特定する特徴を抽出するように構成され、これらの特徴は、何らかの手段によって解釈されるとき、単独でまたは組み合わされて、信号の可能性のあるまたは可能な無声部分を示す。そのような特徴の例は、それだけに限定されないが、周期性、自己相関性、ゼロ交差レート、瞬時周波数、周波数エネルギー（ティーガーエネルギーなど）、変化率、強度、ＲＭＳ値、時間スペクトル情報（ウェーブレット、短時間高速フーリエ変換）、フィルタバンク、さまざまな復調スキーム（振幅変調、周波数変調、位相変調など）、統計的測定（中央値、分散、ヒストグラム、平均値など）、入力信号自体、およびそれらの組み合わせである。

これらの抽出された特徴は、しばしばノイズが多く、または何らかの方法で増強される場合により良好なパフォーマンスを結果として生じ得る応答を呈するので、システム２００は、特徴抽出モジュール２２０の出力の後処理のための抽出後処理モジュール２３０を備える。一部の実施形態では、システムは、抽出後処理モジュールを含まなくてよい。これらの実施形態では、特徴抽出モジュール２２０からの出力は、分類モジュールおよび／または制御モジュール２６０によって直接的に使用される。抽出後処理モジュール２３０によって実施される作動は、たとえば、フィルタリング（高パス、低パス、バンドパス、移動平均、メジアンフィルタリングなど）、線形および非線形マッピング（信号比、スケーリング、対数、指数、累乗、累乗根、ルックアップテーブルなど）、ゲーティングオペレーション、範囲限定、正規化およびそれらの組み合わせのうちの１つまたは複数を含む。

システムは、抽出後処理モジュール２３０からの特徴を処理するための分類モジュール２４０を備える。このモジュール２４０は、特徴および／または信号自体を解釈して無声通過の実際の特定を実施する。分類モジュール２４０は、当技術分野に知られている多様な方法、たとえばそれだけに限定されないが、ヒューリスティックス（状態機械）、統計的手法（ベイジアン、マルコフモデルおよびチェーンなど）、ファジー理論、学習システム（中立ネットワーク、シミュレーテッドアニーリング、線形ベース関数など）、パターンマッチング（データベース、ルックアップテーブル、コンボリューションなど）およびその他のものも実施するように構成され得る。

システム２００の実施形態は、分類モジュール２４０からの出力信号を処理するための分類後処理モジュール（図示せず）を備えることができる。分類後モジュールは、抽出後処理モジュール２３０に関して上記で説明したものに類似する作動を実施するように構成され得る。

最後に、システム２００は、無声通過を特定する分類子出力信号を分類モジュール２４０から受け取るための制御モジュール２６０を備える。制御モジュール２６０は、この信号を直接的または間接的に使用して、出力ポート２７０に接続された空気触覚アクチュエータのための制御信号を得る。制御モジュールが信号を間接的に使用する場合、分類子出力信号または信号の適切な特徴／特性（強度、包絡線など）が、分類子出力によって線形または非線形の形でゲーティング／または制御される。

システム２００の実施形態は、信号が空気触覚アクチュエータに送られる前に制御信号出力を処理するための制御後処理モジュール（図示せず）を備えることができる。制御後モジュールは、抽出後処理モジュールに関して上記で説明したものに類似する作動を実施するように構成され得る。

追加的に、一部の波および／またはスペクトルシェーピングが、アクチュエータの応答を合致させるために必要となることがあり、外れ値が除去される必要があることがあり、当技術分野の他の一般的な処理装置が、アクチュエータ応答を所望の応答に最適に合致させるために適用される。

システム２００の実施は、非限定的な例として以下に説明される。

実施例１：ゼロ交差レート技術
歯擦音タイプの発声（無声）は、幅広いスペクトルを有する。他方では、強い基本的な関連する高調波を伴った発声は、より一層周期的な外観を呈し、したがって、より明確に特定可能なピークを有するスペクトルを有する。周期性計算が使用されて無声発声から有声発声を特定することができるが、この計算は、非常に計算集約型であり、関係する計算コストのためにパフォーマンスが限定される。

図４は、空気触覚デバイスへの制御信号を生成するためのシステム３００を示す。別途説明されない限り、図４を参照して説明する特徴は、図３を参照して説明した対応する特徴に類似するまたは同一の機能性を有し、これは、１００を加えた同様の参照番号によって示される。

システム３００は、時間単位あたりに入力された音響信号のゼロ交差の数を測定することにより、制御された状態下で有用なパフォーマンスを伴う簡単な手法を実施する。このゼロ交差レートは、計算複雑度を小さくして計算可能であり、ハードウェアに容易に委譲され得る。

ゼロ交差レートに基づくシステムは、有声および無声の発声の性質により、うまく作用する。ゼロ交差レートにおける適切に調整された閾値を使用して方法がノイズを発生させることを防止することにより、有声発声が、信号の高周波様相を信号の平均値から「持ち上げる」ことが、関係する波形の検査時に明確である。したがって、これらの高周波様相は、有声の基本波の期間の大部分の間、ゼロ交差を生み出さず、その結果比較的低いゼロ交差レートをもたらす。閾値は、実験的にまたは適応アルゴリズムによって決定され、発話が存在しないが（小さい信号大きさ、高いゼロ交差率）、環境ノイズおよび他の要因が存在する場合の通過中に測定されたゼロ交差レートを下回って設定される。閾値はまた、無声セグメント（ノイズフロアを上回る信号の大きさ、高いゼロ交差レート）のレートを上回らなければならず、そのため、有声セクション（高い信号大きさ、比較的低いゼロ交差レート）は、無視される。

システム３００は、音響源３１０から受け取られた音響信号からの可能性のある無声発声を示すための特徴抽出モジュール３２０を備える。特徴抽出モジュールは、一定の持続時間にわたって音響信号のゼロ交差の回数を決定するためのゼロ交差検出器３２２を備える。ゼロ交差検出器３２２からのゼロ交差レート数は、特徴抽出モジュール３２０の出力である。

特徴抽出モジュールは、追加的に、ゼロ交差検出器によって処理される音響信号の同じ部分の強度を算出するためのウィンドウ化された中間平均値３２４を含み、ここでは強度信号は、制御モジュール３６２に送られる。

特徴抽出モジュール３２０からのゼロ交差レートは、分類モジュール３４０の比較器３４２において使用される。比較器３４２は、ノイズ、無声発声、有声発声の間を区別する３状態のウィンドウの比較器になることができる。無声発声は、有声発声中遭遇するレートと比較して、（これらが検出時非常にノイズ様で出現するため）時間単位あたり高いレートのゼロ交差によって特徴付けられ、その結果、有声発声と比較してはるかに高いゼロ交差レートをもたらす。比較器３４２が信号を首尾良く分類するように決定された適切な設定閾値３４４を使用し、このレート信号を後処理することにより、３つの帯域：ノイズ、無声発声、および有声発声が特定され得る。本発明の好ましい実施形態では、無声閾値のみが、音響信号内の無声部分を表す信号３４６を生み出すために実装されており、これは、他の２つの帯域の両方は、対象ではない信号の部分を意味するためである。

システム３００は、制御モジュール３６０を備える。分類モジュールは、分類モジュール３４０からの無声部分を表す信号３４６、および特徴抽出モジュール３２０のウィンドウ化された中間平均値３２４によって算出された強度信号を受け取るゲート３６２を有する。ゲート３６２は、空気触覚アクチュエータに接続される、または通信するように構成された出力ポート３７０への出力制御信号を生成する。この特定の実施では、特徴抽出モジュール３２０からの入力信号のウィンドウ化された中間平均値は、分類ブロックからの信号３４６を使用して出力制御信号を生成することによってゲート３６２によってゲーティングされる。

ゼロ交差技術の欠点は、背景ノイズ間を確実に差別化し、話し手および環境状態に確実に適応させる方法で（動的）閾値（ヒステリシス作用を有してまたは有さずに）を設定することにある。

ゼロ交差技術の利点は、極めて簡単であり、低複雑度を有するアナログシステムとしても実装することができることである。（適応）閾値は、リアルタイムで音響信号を処理する必要がないシステムを使用して、さらに実施コストを低減して計算することができる。

実施例２：ティーガーエネルギー／離散エネルギー分離技術
ゼロ交差レート方法は、まだ多く改良の余地を示しているため、限定されたハードウェア上で作動する必要性を依然として念頭においてより良好な方法が、求められた。

ゼロ交差方法が信号の物理的様相に基づくように、ティーガーエネルギーおよび離散エネルギーの分離を使用する方法は、この推論をさらに一歩進め、発話が生成されるプロセスの知識を使用しようとするものである。

等しい振幅の２つの信号を生成するために、低周波数信号よりも高周波信号を生成する方がよりエネルギーを使うことが物理学の事実である。無声発声は、基本的に広帯域ノイズであり（ノイズよりも相関性があるが）、これは、多くのエネルギーがその創出に送り込まれたことを意味する。有声発声では、ほとんどのエネルギーは、比較的低周波数の基本波としてまとめられる。したがって、周波数が生成される物理的プロセスに基づいて各々の周波数帯域に異なるエネルギーを割り当てる方法が、有声と無声の発声間を差別化することに対する有用な指標を与える。１つのそのような可能な方法が、ティーガーエネルギーである。この方法は、同じ振幅であるが異なる周波数の２つの信号を仮定して、低周波数のものは、生み出すためにあまりエネルギーをかけず、したがって、このより低い周波数信号に、同じ振幅の高い周波数信号よりも低いエネルギー読み取り値を割り当てると認識する。有声発声は、主に低周波数成分を含み、このときエネルギーのほとんどはその基本波およびいくつかの高調波の周りにまとめられているため、そのような信号の結果、等しい振幅の無声信号よりも小さいティーガーエネルギー読み取り値を生じさせ、ここでは、エネルギーのほとんどは、より高い周波数成分に拡がっている。このアルゴリズムは、ノイズに敏感であるが、サンプルあたりのベースで作動することができるという大きな利点を有し、計算を実施することをほとんど必要としない。

この方法の拡張は、離散エネルギー分離アルゴリズム（ＤＥＳＡ）の群である。これらのアルゴリズムは、従来の復調理論に関連して最適に理解される。ＤＥＳＡは、（周波数変調に関連する）瞬時周波数および（振幅変調に関連する）大きさを提供する。主な特徴としてここで関心対象となるのは、瞬時周波数であり、これは、多くの情報をこれもまた生み出すゼロ交差レートと組み合わされる。

実施例３：ゼロ交差レート、ティーガーエネルギーおよび離散エネルギー分離技術の組み合わせ
図５は、全体的なパフォーマンスを改良するために上記で説明したゼロ交差レートおよびティーガーエネルギー技術を組み合わせるシステム４００を示す。別途説明されない限り、図５を参照して説明する特徴は、図３を参照する対応する特徴に類似するまたは同一の機能性を有し、これは、２００を加えた同様の参照番号によって示される。

システム４００の機能ブロックは、互いに対する多くの相互作用を有することができる。システム４００は、主に、ヒューリスティックス手法を採用し、ここでは、分類モジュール４４０からの信号が、特徴抽出後処理モジュール４３０へのフィードバック信号として使用されて、ノイズゲーティング機能として使用されてアルゴリズムのパフォーマンスを改良する。

システム４００は、音響源４１０から受け取られた音響信号内の可能性のある無声部分を示すことに関連する信号特徴を得るための特徴抽出モジュール４２０と、可能性のある無声部分が、無声部分であるかどうかを得られた信号特徴から決定するための分類モジュール４４０と、空気触覚アクチュエータのための制御信号を生成するための制御モジュール４６０とを備える。

システム４００は、追加的に、特徴抽出モジュール４２０からの信号を処理し、処理された信号を分類モジュール４４０に送信するための抽出後処理モジュール４３０を備える。システム４００は、さらに、分類モジュール４４０内に含まれた分類後処理モジュールのための構成要素を備える。ヒューリスティックス分類は、特徴の後処理と直接的に相互作用する。

特徴抽出モジュール４２０では、システム４００は、音響信号のサンプルの周波数エネルギーを算出するためのティーガーエネルギー計算ブロック４２１を備える。特徴抽出モジュール４２０は、追加的に、現在のサンプルと前のサンプルとの間のエネルギー差を計算するための微分ティーガーエネルギー計算ブロック４２４を備える。ティーガーエネルギーおよび微分ティーガーエネルギー計算ブロック４２１、４２４からの算出されたエネルギー値は、それぞれのフィルタ４２５、４２２を使用してフィルタ処理される。フィルタ４２５、４２２は、移動平均フィルタになり得る。フィルタ処理された値は、瞬時周波数を提供するＤＥＳＡブロック４２３によって処理される。ＤＥＳＡブロック４２３もまた、特徴抽出モジュール４２０の一部である。特徴抽出モジュール４２０は、さらに、音響信号のゼロ交差を決定するためのゼロ交差検出器ブロック４２６を備える。

ブロック４２３のＤＥＳＡアルゴリズムの前の移動平均フィルタ４２２、４２５は重要であり、これは、ティーガーエネルギー算出が、この方法をノイズに対して敏感にする微分演算子を使用するためである。フィルタリングはこの敏感性を低減するのを助ける。

抽出後処理モジュール４３０は、スケーリング構成要素４３３を備えて、フィルタ４２２からの信号内のティーガーエネルギー内の小さい寄与を強調する。これらの寄与は、普通なら失いやすい有用な情報を含み、一方で非常に強い信号は、それほど犠牲を払わずに低減され得る。スケーリング構成要素４３３は、自然対数アルゴリズムを使用して、たとえばそれにしたがってティーガーエネルギーをスケーリングすることができる。抽出後処理モジュール４３０は、追加的に、ＤＥＳＡ４２３の出力をフィルタリングするための瞬時周波数フィルタ４３４を備える。抽出後処理モジュール４３０は、さらに、ゼロ交差検出器ブロック４２６からのゼロ交差信号を処理するためのゼロ交差ゲート４３１およびゼロ交差フィルタ４３２を備える。ゼロ交差ゲート４３１は、ゼロ交差フィルタ４３２の前に適用されて、ノイズとして特定されたゼロ交差が出力内に現れることを取り除く。ゼロ交差フィルタ４３２は、移動平均フィルタになり得る。

分類モジュール４４０では、計算ブロック４４１および第１の決定ブロック４４２は、ノイズ閾値制御信号を計算する。スケーリング構成要素４３３からのティーガーエネルギーの動的範囲圧縮型バージョンを使用して、構成可能な閾値（無音閾値）は、ノイズゲーティングを実施する。計算ブロック４４１は、信号の平均を計算するように構成され、この平均は、第１の決定ブロック４４２において使用されて、ゼロ交差ゲート４３１内のゼロ交差信号および瞬時周波数制御ゲート４４４内の瞬時周波数フィルタ４３４からのフィルタ処理された瞬時周波数の両方のための閾値ゲーティング信号４４７を生み出す。

分類モジュール４４０は、瞬時周波数制御ゲート４４４からの信号４４９およびゼロ交差フィルタ４３２からの信号４３６を乗算するための乗算器４４５を備える。フィルタ処理された瞬時周波数およびフィルタ処理されたゼロ交差レートを乗算することによって得られた制御信号が、信号自体を使用することに比べて、より良好に動作する出力ゲーティング信号を生み出したことが、実験的に見出された。乗算は、これらの両方が、無声寄与が存在することに同意する場合特徴のこれらの部分を増強するだけでなく、両方の入力信号の１つがゼロであるときの見かけ上の寄与も防止する。分類モジュール４４０は、信号が無声信号であるかどうかを決定するための第２の決定ブロック４４６を備える。この制御信号が閾値（周波数閾値）を超えたとき、この特徴は、入力信号内の無声セクションになるのに十分な強さであると考えられる。分類モジュール４４０は、追加的に、計算ブロック４４１内で算出されたノイズ成分を有さずにティーガーエネルギーを決定するための引き算ブロック４４３を備える。引き算ブロック４４３からの信号は、スケーリングブロック４３３からの圧縮されたティーガーエネルギーから、計算ブロック４４１によって算出された平均値（ＤＣレベルは背景ノイズに関連付けられる）を引いたものである。

この出力ゲート信号４４８は、次に、使用されて、適切に処理された特徴、または特徴の組み合わせを出力部に向けてゲーティングして感覚刺激アクチュエータを作動させる。

制御モジュール４６０は、第２の決定ブロック４４６からの制御信号によってゲーティングされた引き算ブロック４４３からのノイズ成分を有さずに、ティーガーエネルギーを出力するように構成されたゲート４６１を備える。制御モジュール４６０は、追加的に、フィルタ４６２を備えて、ゲート４６１の結果として生じた出力から、短い、見かけ上の応答を除去する。分類ブロックの出力は、感覚刺激アクチュエータに接続される、または通信するように構成された出力ポート４７０に送信される。

感覚刺激アクチュエータは、感覚刺激を聞き手の皮膚に送るように構成される。一実施形態では、感覚刺激アクチュエータは、刺激を聞き手の任意の触覚細胞に送るように構成される。一実施形態では、感覚刺激アクチュエータは、刺激を、聞き手の足首、耳、顔、髪、目、小鼻、または聞き手の体の任意の他の部分に送るように構成される。一実施形態では、システムは、手持ち用音声デバイスの一部であり、またはこれと通信しており、感覚刺激デバイスは、刺激を手にもたらすように構成される。一実施形態では、システムは、頭保持用または装着用音声オデバイスの一部であり、またはこれと通信しており、感覚刺激デバイスは、刺激を頭にもたらすように構成される。

図６は、図５に示し、実施例３に説明したシステム４００のオペレーションの異なる段階における例となる処理された信号の波形５００を示す。第１の波形５１０は、音響源４１０から受け取られた入力波形である。第２の波形５２０は、スケーリング構成要素４３３からのティーガーエネルギー４３５に対応する。第３の波形５３０は、第１の決定ブロック４４２からのノイズゲート制御４４７に対応する。第４の波形５４０は、ゼロ交差フィルタ４３２からのゲーティングされた平均ゼロ交差４３６に対応する。第５の波形５５０は、周波数制御ゲート４４４からのゲーティングされたＤＥＳＡ瞬時周波数信号（ＧａｔｅｄＤＥＳＡＩｎｓｔａｎｔａｎｅｏｕｓＦｒｅｑｕｅｎｃｙＳｉｇｎａｌ）４４９に対応する。第６の波形５６０は、第２の決定ブロック４４６からの出力されたゲート制御信号４４８に対応する。第７の波形５７０は、システム４００の出力４７０に対応する。

図１０は、圧電ポンプ９４０によって生成されたエアパフ９５０に基づく感覚アクチュエータ９００を示す。アクチュエータ９００は、ユーザの皮膚９６０またはユーザの任意の他の体知覚部分に送られる所望の空気触覚刺激を表す制御信号９１０を受け取る。システム９００は、制御信号９１０を使用するためのドライバ電子装置９２０を備える。ドライバ電子装置９２０は、この制御信号９１０を増幅し、この信号を、圧電ポンプ９４０を駆動させるための適切な電子信号９３０に変換する。このポンプ９４０は、エアパフ９５０を生み出し、エアパフ９５０は、直接的に、またはガイドもしくはチューブなどの空気導管を通じて、たとえば、ユーザの皮膚９６０などのユーザの体知覚体部分に向けられる。

図７は、空気触覚発話知覚増強システム６０４が、いかにして耳掛型補聴器６００内に組み込まれ得るかを示す。補聴器は、補聴増幅のための受話口６０２と、補聴器を聞き手の耳の後方に装着するためのアーム６０３とを備える。空気触覚刺激が可聴刺激を含む場合、可聴刺激は、受話口６０２を通じて送られ得る。図示するシステムは、マイクロホン６０１およびデジタイザ６０７から、または外部源から聴覚入力を取得することができる。ノイズおよび極端な過渡音を除去し、１人の話し手に集中させるための事前処理、または任意の他の信号後処理が、補聴器６００の一部としてのシステム外部のシステムによってもたらされる。こうしてクリーンにされた信号は、次いで、上記で説明したように、音響信号を空気触覚刺激信号に変換するために必要とされる信号処理にかけられる。空気触覚刺激信号は、次いで、空気流源６０５の制御装置に進められ、制御装置は、補聴器が増幅された音声を耳に進めるのと同期させて、耳の後方の空気チューブ６０６を通じて空気のパフを聞き手の皮膚に出力するように構成される。

図８Ａおよび８Ｂは、空気触覚発話知覚増強システムが、いかにしてスマートデバイス７００内に組み込まれ得るかを示す。図８Ａは、正面からスマートデバイス７００を示し、図８Ｂは、背面からスマートデバイス７００を示す。図示するシステムは、デジタル源からＧＳＭ(登録商標)信号などの聴覚入力７０２を受け取るように構成される。補聴器と同様に、ノイズ、極端な過渡音を除去するための前処理、または任意の他の信号後処理が、スマートホンシステムからもたらされ得る。こうしてクリーンにされた信号は、次いで、上記で説明したうように、本発明のシステム７０３によって音響信号を空気流信号に変換するために必要とされる信号処理にかけられる。空気流信号は、次いで、空気流制御装置および空気流源７０４に進められ、空気は、スマートホンが増幅された音響をスピーカ７０６を通じて耳に進めるのに同期して、空気チューブ７０５を通じて皮膚（通常は手の上または耳の後方）に進められる。

スマートデバイスの一部の実施形態では、スマートデバイスは、空気触覚刺激信号に基づいて光学刺激を出力するように構成された光学アクチュエータを備える。一実施形態では、光学アクチュエータは、スマートデバイス７００内に光源７０７を備える。一実施形態では、光学刺激は、スマートデバイス、または任意の他の電子デバイスのバックライトディスプレイ７０８内の輝度の変化を含む。スマートデバイスの一部の実施形態では、空気触覚刺激は、可聴感覚刺激を含む。

図９は、空気触覚発話知覚増強システムが、いかにしてヘッドホン８００のセット内に組み込まれ得るかを示す。図示するシステムは、ヘッドホンジャックまたは無線送信などのデジタル源から聴覚入力８０２を取得する。補聴器と同様に、ノイズ、極端な過渡音を除去するための前処理、または任意の他の信号後処理が、ヘッドホンシステムによってもたらされ得る。こうしてクリーンにされた信号は、次いで、上記で説明したうように、本発明のシステム８０４によって音響信号を空気流信号に変換するために必要とされる信号処理にかけられる。空気流信号は、次いで、空気流制御装置および空気流源８０６に進められ、空気は、ヘッドホンが増幅された音響を耳に進めるのに同期して、空気チューブ８０８を通じて、耳の後方の皮膚に進められる。

ヘッドホンの一部の実施形態では、空気触覚刺激は、可聴感覚刺激を含む。

上記の説明から明らかにされたものの中でもとりわけ上記に記載した目的が、効率的に達成されることが確認され、また、特定の変更が、上記の方法を実施する上で、および記載した構造（複数可）において、本発明の趣旨および範囲から逸脱することなく加えられ得るため、上記の説明および添付の図に示すすべての事項は、限定的意味ではなく例示的なものとして解釈されるものであることが意図される。

Claims

音声知覚システムであって、
音響発話信号情報を捕捉するように構成された捕捉モジュールと、
音響信号内の可能性のある無声部分を特定する特徴を抽出するように構成された特徴抽出モジュールと、
前記音響信号が、無声部分である、または無声部分を含むかどうかを前記抽出された特徴に基づいて特定するように構成された分類モジュールと、
聞き手に送られる空気触覚刺激を生成するための感覚刺激アクチュエータへの制御信号を生成するように構成された制御モジュールであって、前記制御信号は、前記特定された無声部分を表す信号に少なくとも部分的に基づく、制御モジュールと
を備える、音声知覚システム。
前記捕捉モジュールが、前記音響発話信号情報を生成するように構成されたセンサに接続される、請求項１に記載のシステム。
前記センサが、音響マイクロホンを備える、請求項２に記載のシステム。
前記捕捉モジュールが、前記音響発話信号情報を生成するように適合された通信媒体に接続される、請求項１に記載のシステム。
前記捕捉モジュールが、前記音響発話信号情報が記憶されるコンピュータ可読媒体に接続される、請求項１に記載のシステム。
前記捕捉モジュールが、圧力変換器を備える、請求項１に記載のシステム。
前記捕捉モジュールが、話し手の唇からの空気流内に、またはその近くに置かれた力感知デバイスを備える、請求項１に記載のシステム。
前記捕捉モジュールが、光学流量計を備える、請求項１に記載のシステム。
前記捕捉モジュールが、熱流量計を備える、請求項１に記載のシステム。
前記捕捉モジュールが、機械的流量計を備える、請求項１に記載のシステム。
前記捕捉モジュールが、乱流および／または乱流を生成する発話圧力波からの情報を含む音響発話信号情報を捕捉するように構成される、請求項１から１０のいずれか一項に記載のシステム。
前記特徴抽出モジュールが、前記分類モジュールによって解釈される場合、前記音響信号の前記抽出された特徴のうちの１つまたは複数に基づいて無声部分を特定するために使用される前記信号の強音の様相を特定するように構成される、請求項１から１１のいずれか一項に記載のシステム。
前記特徴抽出モジュールが、ゼロ交差レート、周期性、自己相関性、瞬時周波数、周波数エネルギー、統計的測定、変化率、強度二乗平均平方根値、時間スペクトル情報、フィルタバンク、復調スキーム、または前記音響信号それ自体のうちの１つまたは複数に基づいて、無声部分に関連する特徴を抽出するように構成される、請求項１から１２のいずれか一項に記載のシステム。
前記特徴抽出モジュールが、前記音響信号の前記ゼロ交差レートを計算するように構成され、前記分類モジュールは、前記ゼロ交差レートを使用して、前記音響信号の一部分の時間単位あたりのゼロ交差の少なくとも１つが閾値を上回った場合、前記音響信号の前記部分が無声部分であることを示す、請求項１から１３のいずれか一項に記載のシステム。
前記特徴抽出モジュールが、前記音響信号の周波数エネルギーを計算するように構成され、前記分類モジュールは、前記音響信号の一部分の前記周波数エネルギーが閾値を上回った場合、前記音響信号の前記部分が無声部分であることを示す、請求項１から１４のいずれか一項に記載のシステム。
前記特徴抽出モジュールが、ティーガーエネルギーに基づいて前記周波数エネルギーを算出するように構成される、請求項１５に記載のシステム。
前記特徴抽出モジュールが、組み合わされたとき、前記分類モジュールによって使用されて前記音響信号が前記無声部分である、または前記無声部分を含むかどうかを特定する前記音響信号のゼロ交差および周波数エネルギーを計算するように構成される、請求項１から１６のいずれか一項に記載のシステム。
前記特徴抽出モジュールが、センサからの低周波音響信号を使用して音響信号内の前記可能性のある無声部分を特定するように構成される、請求項１から１７のいずれか一項に記載のシステム。
前記分類モジュールが、ヒューリスティックス、論理システム、数学的分析、統計的分析、学習システム、ゲーティングオペレーション、範囲限定、および前記可能性のある無声部分に対する正規化のうちの１つまたは複数に基づいて無声部分を特定するように構成される、請求項１から１８のいずれか一項に記載のシステム。
前記制御モジュールが、前記音響信号内の前記可能性のある無声部分を表す信号に基づいて前記制御信号を生成するように構成される、請求項１から１９のいずれか一項に記載のシステム。
前記制御モジュールが、前記無声部分を表す前記信号を、前記無声部分の乱気流情報内のエネルギーに基づいて、前記エネルギーと発話から起こり得る空気流との間の関係に基づいて転換して、乱気流を表す信号に変換するように構成される、請求項２０に記載のシステム。
乱気流を表す前記信号が、乱気流情報を表す前記音響信号の包絡線である、請求項２０または２１に記載のシステム。
前記信号が、前記無声部分を表す前記信号の微分である、請求項２０または２１に記載のシステム。
前記信号が、少なくとも１つの信号特性を有する任意の信号であり、この場合、前記少なくとも１つの信号特性は、前記音響信号内の乱流情報の発生を示す、請求項２０または２１に記載のシステム。
前記信号が、インパルス列を含み、この場合各々のインパルスのタイミングは、乱流情報の発生を示す、請求項２４に記載のシステム。
前記信号特性が、ピーク、ゼロ交差、およびトラフのうちの１つまたは複数を含む、請求項２４または２５に記載のシステム。
少なくとも１つの後処理モジュールをさらに備える、請求項１から２６のいずれか一項に記載のシステム。
前記少なくとも１つの後処理モジュールが、フィルタ処理し、線形または非線形のマッピングを使用し、ゲーティングオペレーションを使用し、範囲限定を使用し、および／または正規化を使用して前記少なくとも１つの後処理モジュールへの信号を増強するように構成される、請求項２７に記載のシステム。
前記少なくとも１つの後処理モジュールが、高パスフィルタリング、低パスフィルタリング、バンドパスフィルタリング、バンドストップフィルタリング、移動平均、およびメジアンフィルタリングのうちの１つまたは複数を使用して信号をフィルタ処理するように構成される、請求項２７または２８に記載のシステム。
前記少なくとも１つの後処理モジュールが、前記分類モジュールのために前記可能性のある無声部分の前記抽出された特徴を表す信号を処理するための特徴抽出後処理モジュールを備え、前記分類モジュールは、前記特徴抽出後処理モジュールからの出力に基づいて前記無声部分を特定するように構成される、請求項２７から２９のいずれか一項に記載のシステム。
前記少なくとも１つの後処理モジュールが、前記分類モジュールからの前記無声部分を表す前記信号を処理するための分類後モジュールを備え、前記制御モジュールは、前記分類後処理モジュールからの出力に基づいて前記制御信号を生成するように構成される、請求項２７から３０のいずれか一項に記載のシステム。
前記少なくとも１つの後処理モジュールが、前記制御ユニットからの前記制御信号を処理するための制御後処理モジュールを備え、前記感覚刺激アクチュエータは、前記制御後処理モジュールからの出力に基づいて空気触覚刺激を出力するように構成される、請求項２７から３１のいずれか一項に記載のシステム。
前記少なくとも１つの後処理モジュールが、前記制御ユニットからの前記制御信号を処理するための制御後処理モジュールを備える、請求項２７から３２のいずれか一項に記載のシステム。
前記感覚刺激アクチュエータが、前記制御後処理モジュールからの出力に基づいて光学刺激を出力するように構成された光学アクチュエータを備える、請求項１から３３のいずれか一項に記載のシステム。
前記光学アクチュエータが、前記聞き手の電子デバイス内に光源を備える、請求項３４に記載のシステム。
前記光学刺激が、前記電子デバイスのバックライトディスプレイ内の輝度の変化を含む、請求項３４または３５に記載のシステム。
前記感覚刺激アクチュエータが、前記制御後処理モジュールからの出力に基づいて刺激を出力するように構成された体知覚アクチュエータを備える、請求項１から３３のいずれか一項に記載のシステム。
前記感覚刺激アクチュエータが、制御後処理モジュールからの出力に基づいて可聴刺激を出力するように構成されたサウンドアクチュエータを備える、請求項１から３３のいずれか一項に記載のシステム。
前記サウンドアクチュエータが、ホストデバイスおよび／またはラウドスピーカの音響サブシステムを備える、請求項３８に記載のシステム。
前記音響信号が、発話信号を含む、請求項１から３９のいずれか一項に記載のシステム。
前記音響信号が、声道乱気流から引き起こされたあらゆる情報を含む、請求項１から３９のいずれか一項に記載のシステム。
前記音響信号が、人工的な声道乱気流から引き起こされたあらゆる情報を含む、請求項１から３９のいずれか一項に記載のシステム。
前記音響信号が、発話合成システムによって生み出された発話、音響情報、および／または音声を含む、請求項４２に記載のシステム。
前記音響信号を受け取るためのレシーバをさらに備える、請求項１から４３のいずれか一項に記載のシステム。
前記レシーバが、前記音響信号をセンサデバイスから受け取るように構成される、請求項４４に記載のシステム。
前記センサが、音響マイクロホンデバイスを備える、請求項４５に記載のシステム。
前記マイクロホンデバイスが、マイクロホンからの前記音響信号をデジタル信号に変換するためのマイクロホンデジタイザを備える、請求項４６に記載のシステム。
前記レシーバが、前記音響信号を外部音響源から受け取るように構成される、請求項４４に記載のシステム。
前記レシーバが、前記音響信号をリアルタイムまたは事前記録のうちの１つで受け取るように構成される、請求項４８に記載のシステム。
不要な背景ノイズおよび不要な無発話サウンドを前記音響信号から除去するためのレシーバ後処理モジュールをさらに備える、請求項１から４９のいずれか一項に記載のシステム。
前記捕捉モジュールが、事前にフィルタ処理された発話音響信号から音響発話信号情報を捕捉するように構成される、請求項１から４９のいずれか一項に記載のシステム。
前記捕捉モジュールが、フィルタリングを必要としないきれいな音響信号から音響発話信号情報を捕捉するように構成される、請求項１から４９のいずれか一項に記載のシステム。
前記空気触覚刺激を生成するための感覚刺激アクチュエータをさらに備える、請求項１から５２のいずれか一項に記載のシステム。
前記感覚刺激アクチュエータが、前記制御モジュールからの直接的な、および／または制御後処理モジュールを介して前記制御モジュールからの間接的な前記制御信号に少なくとも部分的に基づいて、前記空気触覚刺激を生成するように構成される、請求項５３に記載のシステム。
前記感覚刺激アクチュエータが、前記分類モジュールからの直接的な、および／または分類後処理モジュールを介して前記分類モジュールからの間接的な前記無声部分に少なくとも部分的に基づいて、前記空気触覚刺激を生成するように構成される、請求項５３または５４に記載のシステム。
前記感覚刺激アクチュエータが、空気触覚アクチュエータを備える、請求項５３から５５のいずれか一項に記載のシステム。
前記空気触覚刺激が、１つまたは複数のエアパフおよび／または空気流を含む、請求項５６に記載のシステム。
前記感覚刺激アクチュエータが、振動触覚アクチュエータを備える、請求項５３から５５のいずれか一項に記載のシステム。
前記振動触覚アクチュエータが、前記音響信号内の有声部分に基づいて振動触覚刺激を生成するように構成される、請求項５８に記載のシステム。
前記空気触覚刺激が、前記聞き手の体知覚的感覚を刺激するための直接的な触覚刺激を含む、請求項５３から５５のいずれか一項に記載のシステム。
前記感覚刺激アクチュエータが、電気触覚アクチュエータを備え、前記空気触覚刺激は、聞き手の体知覚的感覚を刺激するための電気刺激を含む、請求項５３から５５のいずれか一項に記載のシステム。
前記感覚刺激アクチュエータが、光学アクチュエータを備え、前記空気触覚刺激が、光学刺激を含む、請求項５３から５５のいずれか一項に記載のシステム。
前記感覚刺激アクチュエータが、音響アクチュエータを備え、前記空気触覚刺激は、聴覚刺激を含む、請求項５３から５５のいずれか一項に記載のシステム。
前記感覚刺激アクチュエータが、前記２つまたはそれ以上の異なる空気触覚刺激を前記聞き手に送るように構成される、請求項５３から６３のいずれか一項に記載のシステム。
前記２つまたはそれ以上の異なる空気触覚刺激が、物理タップ、振動、静電パルス、光学刺激、聴覚刺激、および他の感覚刺激のうちの２つまたはそれ以上を含む、請求項６４に記載のシステム。
前記空気触覚刺激が、前記音響信号、前記特徴抽出モジュールによって前記音響信号から抽出された前記特徴、前記分類モジュールからの前記特定された無声部分、または前記乱気流のエネルギーを含む、前記可能性のあるおよび／または特定された無声部分を表す前記信号の派生物を用いて生成される、請求項６４または６５に記載のシステム。
前記特定された無声部分が、前記乱気流の信号の反数を含む、請求項６６に記載のシステム。
前記感覚刺激アクチュエータが、前記空気触覚刺激を前記聞き手の皮膚に送るように構成される、請求項１から６７のいずれか一項に記載のシステム。
前記感覚刺激アクチュエータが、前記刺激を前記聞き手の任意の触覚細胞に送るように構成される、請求項１から６７のいずれか一項に記載のシステム。
音響知覚のための方法であって、
捕捉モジュールによって、音響発話信号情報を捕捉することと、
特徴抽出モジュールによって、音響信号内の可能性のある無声部分を特定する特徴を決定することと、
分類モジュールによって、前記音響信号が、無声部分である、または無声部分を含むかどうかを前記抽出された特徴に基づいて決定することと、
制御モジュールによって、聞き手に送られる空気触覚刺激を生成するためのアクチュエータへの制御信号を生成することであって、前記制御信号は、前記無声部分を表す信号に少なくとも部分的に基づく、生成することと
を含む、方法。
感覚刺激アクチュエータによって前記空気触覚刺激を聞き手に送ることをさらに含み、前記空気触覚刺激は、前記アクチュエータからの前記刺激に基づいて生成される、請求項７０に記載の方法。
前記感覚刺激アクチュエータが、触覚刺激、光学／視覚刺激、聴覚刺激、および／または任意の他のタイプの刺激の形態で、前記空気触覚刺激情報を前記聞き手に送るように構成された１つまたは複数のアクチュエータを備える、請求項７０または７１に記載の方法。