JP2017509014A - 音声分析および知覚増強のためのシステム - Google Patents
音声分析および知覚増強のためのシステム Download PDFInfo
- Publication number
- JP2017509014A JP2017509014A JP2016552306A JP2016552306A JP2017509014A JP 2017509014 A JP2017509014 A JP 2017509014A JP 2016552306 A JP2016552306 A JP 2016552306A JP 2016552306 A JP2016552306 A JP 2016552306A JP 2017509014 A JP2017509014 A JP 2017509014A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- module
- stimulus
- acoustic
- actuator
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0364—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/016—Input arrangements with force or tactile feedback as computer generated output to the user
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
Abstract
音声知覚システムであって、音響発話信号情報を捕捉するように構成された捕捉モジュールと、音響信号内の可能性のある無声部分を特定する特徴を抽出するように構成された特徴抽出モジュールと、音響信号が、無声部分である、または無声部分を含むかどうかを抽出された特徴に基づいて特定するように構成された分類モジュールと、聞き手に送られる空気触覚刺激を生成するための感覚刺激アクチュエータへの制御信号を生成するように構成された制御モジュールであって、制御信号は、特定された無声部分を表す信号に少なくとも部分的に基づく、制御モジュールとを備える、音声知覚システムが開示される。また、関連する方法も開示される。【選択図】図1
Description
本発明は、音声分析および知覚のためのシステムに関する。詳細には、本発明は、聴覚発話情報を、自然発話において生成される空気流に類似する空気触覚刺激に変換するためのシステムに関する。本発明は、さらに、聞き手が発話情報を受け取りまたは聞くときにこの空気触覚刺激を聞き手にもたらして発話情報の知覚を増強するためのシステムに関する。
人は、話すとき、聞き手が聞いているものを理解するのを潜在的に助けることができる聴覚、視覚、および体知覚(振動および空気流)の情報を生み出す。発話知覚には聴覚的情報だけで十分になり得るが、情報の他の流れが、発話知覚を増強することができる。たとえば、話し手の顔からの視覚情報が、発話知覚を増強することができる。聞き手の顔に触れることもまた、発話知覚を助けることができる。たとえば、タドマ(Tadoma)方法、すなわち人が自身の親指を話し手の唇に置き、指を話し手の顎の線に全体的に沿って置くコミュニケーション増強の方法などの技術が、耳が不自由な人が発話を理解するのを助けるために使用される。
既存の空気触覚システムは、エアパフをかけ、無声閉鎖音(起こり得る無声の発声のサブセットであり、「p」、「t」、および「k」などの子音を含む)から生み出されたこれらを手、首、または遠位の皮膚場所(足首など)に合わせることによって発話知覚を増強することができる。エアパフは、電磁弁を開いて加圧された空気(約5〜8psi)をチューブから放出する50ms長さの信号を送って、「pa」の「p」および「ta」の「t」として話し手から生み出された自然なエアパフを真似ることによって作り出され得る。
オペレータが、発話信号内の無声閉鎖音を手動で特定し、発話内の無声閉鎖音の発生とエアパフの送出のタイミングを決定する。信号内の無声閉鎖音が特定された後、音声信号が、エアパフと組み合わせて聞き手に送られ得る。
その結果、既存の空気触覚システムは、リアルタイムの用途に適さない。これらのシステムは、エアパフを音声信号に適切に整合させるために聴覚信号の入念な手動/人的支援された前処理を必要とする。
発話知覚を増強するための他の既存のシステムは、振動触覚デバイスを含む。
空気触覚刺激は、発話の非周期的な成分に基づいており、それにより、これらは、空気流に応じた体知覚刺激を加えるために使用される。これは、空気流自体を含むことができるが、空気流を真似る直接的な触覚もしくは電気触覚の刺激、または聞き手が信号を使用することを可能にする任意の他の技術であることもできる。それとは対照的に、振動刺激触覚システムは、主に、発話の周期的な(振動)成分に基づく。
空気触覚刺激は、発話の非周期的な成分に基づいており、それにより、これらは、空気流に応じた体知覚刺激を加えるために使用される。これは、空気流自体を含むことができるが、空気流を真似る直接的な触覚もしくは電気触覚の刺激、または聞き手が信号を使用することを可能にする任意の他の技術であることもできる。それとは対照的に、振動刺激触覚システムは、主に、発話の周期的な(振動)成分に基づく。
振動触覚デバイスは、体のさまざまな部分に取り付けられ、発話信号に関連する振動または振動触覚の刺激を与える。この技術に関連する取り組みは、基本周波数の二次源および発話内のイントネーションパターンを提示することを対象としており、このとき、一部は母音(フォルマント)情報を提示することも対象としている。この種類の情報は、空気流が皮膚と接触する機会がほとんどまたは全くないとき、唇からの低空気圧力の時間の間、発話から生み出される。したがって、現在の振動触覚デバイスは、正確には、空気触覚デバイスが使用しない発話信号からの情報を使用し、また、その逆の形にもなる。さらに、振動触覚デバイスは、うまく働かせるにはタスクの訓練または事前の認知を必要とする。
本発明の目的は、音声分析および/または知覚を増強するためのシステムを提供すること、および/または少なくとも公衆に有用な選択を提供することである。
本発明は、広義には、音響発話信号から乱気流情報を決定することによる音声知覚の増強のためのシステムおよび方法であって、聞き手に送られるように構成された空気触覚刺激は、決定された乱気流情報に少なくとも部分的に基づく、システムおよび方法からなる。
1つの態様では、本発明は、音声知覚システムであって、音響発話信号情報を捕捉するように構成された捕捉モジュールと、音響信号内の可能性のある無声部分を特定する特徴を抽出するように構成された特徴抽出モジュールと、音響信号が、無声部分である、または無声部分を含むかどうかを抽出された特徴に基づいて特定するように構成された分類モジュールと、聞き手に送られる空気触覚刺激を生成するための感覚刺激アクチュエータへの制御信号を生成するように構成された制御モジュールであって、制御信号は、特定された無声部分を表す信号に少なくとも部分的に基づく、制御モジュールとを備える、音声知覚システムを備える。
本明細書において使用される用語「備える」は、「少なくとも部分的になる」ことを意味する。本明細書において、用語「備えている」を含む各々の記述を解釈する際、この用語によって前置きされるものまたはその複数のもの以外の特徴もまた、存在することができる。「備える」などの関連用語は、同じ方法で解釈されるものとする。
好ましくは、捕捉モジュールは、音響発話信号情報を生成するように構成されたセンサに接続される。
好ましくは、センサは、音響マイクロホンを備える。
好ましくは、捕捉モジュールは、音響発話信号情報を生成するように適合された通信媒体に接続される。
好ましくは、捕捉モジュールは、音響発話信号情報が記憶されるコンピュータ可読媒体に接続される。
好ましくは、捕捉モジュールは、圧力変換器を備える。
好ましくは、捕捉モジュールは、話し手の唇からの空気流内にまたはその近くに置かれた力感知デバイスを備える。
好ましくは、捕捉モジュールは、光学流量計を備える。
好ましくは、捕捉モジュールは、熱流量計を備える。
好ましくは、捕捉モジュールは、機械的流量計を備える。
好ましくは、捕捉モジュールは、乱流および/または乱流を生成する発話圧力波からの情報を含む音響発話信号情報を捕捉するように構成される。
好ましくは、特徴抽出モジュールは、分類モジュールによって解釈されるとき、音響信号の抽出された特徴のうちの1つまたは複数に基づいて無声部分を特定するために使用される信号の強音の様相を特定するように構成される。
好ましくは、特徴抽出モジュールは、ゼロ交差レート、周期性、自己相関性、瞬時周波数、周波数エネルギー、統計的測定、変化率、強度二乗平均平方根値、時間スペクトル情報、フィルタバンク、復調スキーム、または音響信号それ自体のうちの1つまたは複数に基づいて、無声部分に関連する特徴を抽出するように構成される。
好ましくは、特徴抽出モジュールは、音響信号のゼロ交差レートを計算するように構成され、分類モジュールは、前記ゼロ交差レートを使用して、音響信号の一部分の時間単位あたりのゼロ交差の少なくとも1つが閾値を上回った場合、音響信号のその部分が無声部分であることを示す。
好ましくは、特徴抽出モジュールは、音響信号の周波数エネルギーを計算するように構成され、分類モジュールは、音響信号の一部分の周波数エネルギーが閾値を上回った場合、音響信号のその部分が無声部分であることを示す。
好ましくは、特徴抽出モジュールは、ティーガー(Teager)エネルギーに基づいて周波数エネルギーを算出するように構成される。
好ましくは、特徴抽出モジュールは、組み合わされたとき、音響信号が無声部分である、または無声部分を含むかどうかを特定するために分類モジュールによって使用される、音響信号のゼロ交差および周波数エネルギーを計算するように構成される。
好ましくは、特徴抽出モジュールは、センサからの低周波音響信号を使用して音響信号内の可能性のある無声部分を特定するように構成される。
好ましくは、分類モジュールは、ヒューリスティックス、論理システム、数学的分析、統計的分析、学習システム、ゲーティングオペレーション、範囲限定、および可能性のある無声部分における正規化のうちの1つまたは複数に基づいて無声部分を特定するように構成される。
好ましくは、制御モジュールは、音響信号内の可能性のある無声部分を表す信号に基づいて制御信号を生成するように構成される。
好ましくは、制御モジュールは、無声部分を表す信号を、無声部分の乱気流情報内のエネルギーに基づいて、このエネルギーと発話から起こる可能性のある空気流との間の関係に基づいて転換して、乱気流を表す信号に変換するように構成される。
好ましくは、乱気流を表す信号は、乱気流情報を表す音響信号の包絡線である。
好ましくは、信号は、無声部分を表す信号の微分である。
好ましくは、信号は、少なくとも1つの信号特性を有する任意の信号であり、この場合、少なくとも1つの信号特性は、音響信号内の乱流情報の発生を示す。
好ましくは、信号は、インパルス列を含み、この場合各々のインパルスのタイミングは、乱流情報の発生を示す。
好ましくは、信号特性は、ピーク、ゼロ交差、およびトラフのうちの1つまたは複数を含む。
好ましくは、システムは、さらに、少なくとも1つの後処理モジュールを備える。
好ましくは、少なくとも1つの後処理モジュールは、フィルタ処理し、線形または非線形のマッピングを使用し、ゲーティングオペレーションを使用し、範囲限定を使用し、および/または正規化を使用して少なくとも1つの後処理モジュールへの信号を増強するように構成される。
好ましくは、少なくとも1つの後処理モジュールは、高パスフィルタリング、低パスフィルタリング、バンドパスフィルタリング、バンドストップフィルタリング、移動平均、およびメジアンフィルタリングのうちの1つまたは複数を使用して信号をフィルタ処理するように構成される。
好ましくは、少なくとも1つの後処理モジュールは、分類モジュールのために可能性のある無声部分の抽出された特徴を表す信号を処理するための特徴抽出後処理モジュールを備え、分類モジュールは、特徴抽出後処理モジュールからの出力に基づいて無声部分を特定するように構成される。
好ましくは、少なくとも1つの後処理モジュールは、分類モジュールからの無声部分を表す信号を処理するための分類後モジュールを備え、制御モジュールは、分類後処理モジュールからの出力に基づいて制御信号を生成するように構成される。
好ましくは、少なくとも1つの後処理モジュールは、制御ユニットからの制御信号を処理するための制御後処理モジュールを備え、感覚刺激アクチュエータは、制御後処理モジュールからの出力に基づいて空気触覚刺激を出力するように構成される。
好ましくは、少なくとも1つの後処理モジュールは、制御ユニットからの制御信号を処理するための制御後処理モジュールを備える。
好ましくは、感覚刺激アクチュエータは、制御後処理モジュールからの出力に基づいて光学刺激を出力するように構成された光学アクチュエータを備える。
好ましくは、光学アクチュエータは、聞き手の電子デバイス内に光源を備える。
好ましくは、光学刺激は、電子デバイスのバックライトディスプレイ内の輝度の変化を含む。
好ましくは、感覚刺激アクチュエータは、制御後処理モジュールからの出力に基づいて刺激を出力するように構成された体知覚アクチュエータを備える。
好ましくは、体知覚刺激アクチュエータは、制御後処理モジュールからの出力に基づいて可聴刺激を出力するように構成されたサウンドアクチュエータを備える。
好ましくは、サウンドアクチュエータは、ホストデバイス、および/またはラウドスピーカの音響サブシステムを備える。
好ましくは、音響信号は、発話信号を含む。
好ましくは、音響信号は、声道乱気流から引き起こされたあらゆる情報を含む。
好ましくは、音響信号は、人工的な声道乱気流から引き起こされたあらゆる情報を含む。
好ましくは、音響信号は、発話合成システムによって生み出された発話、音響情報、および/または音声を含む。
好ましくは、システムは、さらに、音響信号を受け取るためのレシーバを備える。
好ましくは、レシーバは、音響信号をセンサデバイスから受け取るように構成される。
好ましくは、センサは、音響マイクロホンデバイスを備える。
好ましくは、マイクロホンデバイスは、マイクロホンからの音響信号をデジタル信号に変換するためのマイクロホンデジタイザを備える。
好ましくは、レシーバは、音響信号を外部音響源から受け取るように構成される。
好ましくは、レシーバは、音響信号をリアルタイムまたは事前記録のうちの1つで受け取るように構成される。
好ましくは、システムは、さらに、不要な背景ノイズおよび不要な無発話サウンドを音響信号から除去するためのレシーバ後処理モジュールを備える。
好ましくは、捕捉モジュールは、事前にフィルタ処理された発話音響信号から音響発話信号情報を捕捉するように構成される。
好ましくは、捕捉モジュールは、フィタリングを必要としないきれいな発話音響信号から音響発話信号情報を捕捉するように構成される。
好ましくは、システムは、さらに、空気触覚刺激を生成するための感覚刺激アクチュエータを備える。
好ましくは、感覚刺激アクチュエータは、制御モジュールからの直接的な、および/または制御後処理モジュールを介して制御モジュールからの間接的な制御信号に少なくとも部分的に基づいて空気触覚刺激を生成するように構成される。
好ましくは、感覚刺激アクチュエータは、分類モジュールからの直接的な、および/または分類後処理モジュールを介して分類モジュールからの間接的な無声部分に少なくとも部分的に基づいて空気触覚刺激を生成するように構成される。
好ましくは、感覚刺激アクチュエータは、空気触覚アクチュエータを備える。
好ましくは、空気触覚刺激は、1つまたは複数のエアパフおよび/または空気流を含む。
好ましくは、感覚刺激アクチュエータは、振動触覚アクチュエータを備える。
好ましくは、振動触覚アクチュエータは、音響信号内の無声部分に基づいて振動触覚刺激を生成するように構成される。
好ましくは、空気触覚刺激は、聞き手の体知覚的感覚を刺激するための直接的な触覚刺激を含む。
好ましくは、感覚刺激アクチュエータは、電気触覚アクチュエータを備え、空気触覚刺激は、聞き手の体知覚的感覚を刺激するための電気刺激を含む。
好ましくは、感覚刺激アクチュエータは、光学アクチュエータを備え、空気触覚刺激は、光学刺激を含む。
好ましくは、感覚刺激アクチュエータは、音響アクチュエータを備え、空気触覚刺激は、聴覚刺激を含む。
好ましくは、感覚刺激アクチュエータは、2つまたはそれ以上の異なる空気触覚刺激を聞き手に送るように構成される。
好ましくは、2つまたはそれ以上の異なる空気触覚刺激は、物理タップ、振動、静電パルス、光学刺激、聴覚刺激、および他の感覚刺激のうち2つまたはそれ以上を含む。
好ましくは、空気触覚刺激(複数可)は、音響信号、特徴抽出モジュールによって音響信号から抽出された特徴、分類モジュールからの特定された無声部分、または乱気流エネルギーを含む、可能性のあるおよび/または特定された無声部分を表す信号の派生物を用いて生成される。
好ましくは、特定された無声部分は、乱気流の信号の反数を含む。
好ましくは、感覚刺激アクチュエータは、空気触覚刺激を聞き手の皮膚に送るように構成される。
好ましくは、感覚刺激アクチュエータは、刺激を聞き手の任意の触覚細胞に送るように構成される。
別の態様では、本発明は、音響知覚のための方法であって、捕捉モジュールによって、音響発話信号情報を捕捉することと、特徴抽出モジュールによって、音響信号内の可能性のある無声部分を特定する特徴を決定することと、分類モジュールによって、音響信号が、無声部分であるか、または無声部分を含むかどうかを抽出された特徴に基づいて決定することと、制御モジュールによって、聞き手に送られる空気触覚刺激を生成するためのアクチュエータへの制御信号を生成することであって、前記制御信号は、無声部分を表す信号に少なくとも部分的に基づく、生成することとを含む、方法を含む。
好ましくは、方法は、感覚刺激アクチュエータによって、空気触覚刺激を聞き手に送ることを含み、空気触覚刺激は、アクチュエータからの刺激に基づいて生成される。
好ましくは、感覚刺激アクチュエータは、触覚刺激、光学/視覚刺激、聴覚刺激、および/または任意の他のタイプの刺激の形態で、空気触覚刺激情報を聞き手に送るように構成された1つまたは複数のアクチュエータを備える。
本明細書では、「空気触覚刺激」は、発話内の乱気流部分などの空気流に基づく感覚刺激を指す。感覚刺激は、聞き手の体の体知覚部分に送られる。この刺激は、通常、発話の非周期成分に基づく。空気触覚刺激をもたらすアクチュエータは、空気流情報に基づいて体知覚刺激をもたらすように構成され得る。刺激は、空気流自体を含むことができる。追加的にまたは代替的には、刺激は、空気流を真似る直接触覚または電気触覚の刺激、聴覚刺激、または聞き手が乱気流情報を受け取り/感知することを可能にする任意の他の技術を含むことができる。
方法の実施形態は、上記のシステムの第1の態様を参照して説明された実施形態に類似する。
本発明は、したがって、いくつかのステップおよびそのようなステップのうちの1つまたは複数の互いの関連付け、ならびに構造の特徴、要素の組み合わせおよびそのようなステップに影響を与えるように適合された部分の配置を包含する装置を備え、そのすべては、以下の詳細な開示に例示される。
本発明はまた、広義には、個々にまたは集約的に本出願の明細書に参照された、または示された部分、要素、および特徴、ならびに任意の2つまたはそれ以上の前記部分、要素、または特徴のあらゆるすべての組み合わせに存すると述べられてもよく、本発明が関連する当技術分野において知られている均等物を有する特定の番号が、本明細書において言及されたとき、そのような知られている均等物は、あたかも個々に記載されるように本明細書に組み込まれるとみなされる。
さらに、本発明の特徴または態様が、マーカッシュ(Markush)グループに関連して説明される場合、本発明はまた、それによって、マーカッシュグループの任意の個々の項目または項目のサブグループに関連して説明されることを当業者は理解するであろう。
本明細書では、名詞の後に続く「s」は、名詞の複数および/または単数の形態を意味する。
本明細書では、用語「および/または」は、「および」または「または」またはその両方を意味する。
本明細書に開示する数の範囲(たとえば1から10)の参照はまた、その範囲内のすべての有理数(たとえば1、1.1、2、3、3.9、4、5、6、6.5、7、8、9、および10)、さらにその範囲内の有理数の任意の範囲(たとえば2から8、1.5から5.5、および3.1から4.7)を組み込み、したがって、本明細書において明示的に開示するすべての範囲のすべての副範囲が、ここに明示的に開示される。これらは、詳細に意図されるものの一例にすぎず、列挙される最低値と最高値の間の数値のすべての可能な組み合わせが、類似の方法でこの出願において明示的に述べられると考えられるものである。
特許明細書、他の外部文献、または情報の他の供給源に参照がなされているこの明細書では、これは、通常、本発明の特徴を論じるための文脈を提供する目的のものである。別途詳細に述べられない限り、そのような外部文献または情報のそのような供給源への参照は、そのような文献または情報のそのような供給源が、いかなる管轄権においても、従来技術である、または当技術分野における共通の一般的知識の一部を形成するという承認として解釈されるものではない。
本発明は、広義には、上記で定義された通りであるが、本発明が、それに限定されず、本発明は、以下の説明が例を挙げる実施形態も含むことを当業者は理解するであろう。
本発明をより完璧に理解するために、非限定的な例として、以下の説明および添付の図に参照がなされる。
図1は、音響信号の知覚を増強するためのシステム100を示す。特に、システム100は、音響信号内の発話情報の知覚を増強するように構成される。他の実施形態では、システム100は、音響信号内の空気触覚情報の知覚を増強するように構成される。システム100は、自動化され、発話中に音響信号から生み出された乱気流をリアルタイムで回復することができる。
システム100は、音響源120からの音響信号内の1つまたは複数の強音の特徴を示しおよび/または計算し/抽出するための特徴抽出モジュールと、特徴抽出モジュールによって特定された特徴に基づいて無声音響部分内の無声部分を特定するための分類モジュールとを含む信号処理モジュール130を備える。システム100は、さらに、無声音響部分(複数可)を表す信号に少なくとも基づいて感覚刺激アクチュエータ160への制御信号を生成するための空気流制御モジュール140を備える。感覚刺激アクチュエータ160は、(たとえば空気流になり得る)空気触覚刺激を生成するように構成され、空気触覚刺激は、次いで、たとえば空気チューブなどのガイドまたはシステム出力部170を介し、聞き手の皮膚または聞き手の任意の他の体知覚部分に出力される。
システムの構成要素およびモジュール120、130、140、および160は、別々でよく、互いから分離してよい。一部の代替の実施形態では、構成要素および/またはモジュールの2つまたはすべては、単一の統合された構成要素/モジュールの一部になり得る。
本明細書では、「モジュール」は、任意の1つまたは複数のタスクを実施するために一組または複数の組の命令を個々にまたは結合して実行する計算デバイスまたは機械の集まりを指す。モジュールはまた、アナログ処理技術を単独で、またはデジタル処理技術と組み合わせて実施するように構成された処理デバイスまたは処理デバイスの集まりも含む。例となるモジュールは、たとえば中央処理ユニットなどの少なくとも1つのプロセッサを備える。モジュールは、さらに、メインシステムメモリおよびスタティックメモリを含むことができる。プロセッサ、メインメモリ、およびスタティックメモリは、データバスを介して互いと通信することができる。
ソフトウェアは、モジュールのメモリ内および/または少なくとも1つのプロセッサ内に存在し得る。メモリおよびプロセッサは、機械可読媒体またはその複数の媒体を構成する。用語「機械可読媒体」は、モジュールによって実行するため命令の組を記憶、符号化、または担持することができ、モジュールにタスクを実施させる任意の媒体を含む。用語の機械可読媒体は、ソリッドステートメモリ、光学メモリ、磁気媒体、非一時的媒体、および搬送波信号を含む。
例として、モジュールは、アナログ回路、デジタル信号処理ユニット、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ、マイクロプロセッサ、またはタスクを実施するために機械可読媒体内に記憶されたコンピュータ可読命令を実行することができる任意の処理ユニットの1つまたはその組み合わせでよい。
システム100は、さらに、音響信号を受け取るためのシステム入力部120を備える。システム入力部120は、音響信号を受け取るためのマイクロホンに接続可能になり得る。他の実施形態では、システム入力部120は、音響録音または音響ストリ−ムから音響信号を受け取ることができる。他の実施形態では、システム入力部120は、音響信号を表すものを直接的または間接的に生み出すことができる任意のセンサタイプに由来するものである。
システム100は、感覚刺激デバイス(図示せず)に結合されまたはこれと連通する空気チューブなどのシステム出力部170を備える。感覚刺激デバイスは、聞き手に送られる空気触覚刺激を生成するための空気触覚アクチュエータを備える。空気触覚刺激は、エアパフまたは聞き手に送られる空気流を含む。空気触覚刺激は、発話の対応する聴覚部分が聞き手の耳に到達した後約200ms以内に聞き手に送られる。一部の実施形態では、システム100は、発話の対応する聴覚部分が聞き手の耳に到達した後約100ms以内に空気触覚刺激を聞き手に送るように構成される。一部の実施形態では、システム100は、発話の対応する聴覚部分が聞き手の耳に到達した後約50ms以内に空気触覚刺激を聞き手に送るように構成される。
発話知覚のために空気触覚刺激を使用することは、発話における情報の任意の他の感覚源に勝る利点を有する。たとえば、乱気流によって生み出される発話内のノイズは、しばしば、4kHzから6kHz、時に8kHz以上の高周波数でほとんどの感覚情報を含む。その反対に、発話生成に関連付けられる音響圧力波による直接的な空気流情報は、その情報を、1Hz以下から100Hzまでの非常に低い周波数で担持する。この低周波数情報は、乱流によって引き起こされた高周波数情報に関連する。これらの高周波数の発話サウンドおよび低周波数の圧力情報は、300〜3400Hzのみの聴覚情報を提供する、電話会話に使用される狭帯域の音声コードによってフィルタ除去される。また、多くの通信デバイスおよびマイクロホン自体における信号処理は、これらのエネルギーが、帯域を節約するために送信において省かれ、通常は、発話理解度に向けた多くの有用な情報を含むように保持されないため、これらのエネルギーを除去する。空気触覚刺激は、この高周波数サウンド内の情報に置き換わり、それ自体、より低い音響周波数内であっても計算的に検出可能である。代替的に、この方法が、音声コードの適用前に使用されるとき、コード化された音声に沿って送信され得る低帯域信号を得ることができ、そのためフィルタ除去された部分は、不可逆圧縮の利点を依然として維持しながら、人工的に再生され得る。
空気触覚刺激はまた、ほとんどの難聴者に有用である。高周波数音声知覚は、老化または老人性難聴の結果最初に衰えるものである。発話情報のこの復元はまた、音声デバイスをより静かにすることも可能にし、その理由は、これは、知覚を増強させ、聞き手は、これを会話の大きさに対して自由にバランスを取るためであり、音声デバイスを小さくすることは、聴力を保つことを助ける。これは、道路沿い、バー、および飲食店などのあらゆるすべてのノイズで損なわれた環境に特に重要である。
一実施形態では、感覚刺激デバイスは、物理タップ、振動、静電パルス、光学刺激、聴覚キュー、または任意の他の感覚刺激などの同時に提示される感覚刺激と整合させて、感覚刺激を聞き手に送るように構成される。一実施形態では、補助的な触覚刺激(複数可)は、音響信号、特徴抽出モジュールによって抽出された特徴、分類モジュールからの特定された無声部分、または層状空気流エネルギーを含む、乱気流の信号の反数などの、可能性のあるおよび/または特定された無声部分を表す信号の派生物を用いて生成される。
空気触覚刺激は、聞き手に送られた音響信号内の無声部分の可聴的増強を含むことができ、それによって、サウンドが処理され、記憶され、または送信された方法によって低発現され得る、またはノイズで損なわれた環境によって理解度が低下した、発話信号内の乱流情報を増強する。
図2は、発話情報を含む音響信号Aの波形を示す。音響信号は、実線Bによって図式化された乱気流情報を含む。乱流情報を特定し抽出することは、簡単なタスクではなく、その理由は、背景ノイズ、非乱流(層状)発話空気流、および乱流発話空気流がすべて音響信号内に一緒に混合されているためである。
本発明の実施形態によれば、システム入力部120によって受け取られた音響信号は、低から中程度の背景ノイズを有する聴覚および非聴覚の発話関連入力、または代替的には、背景ノイズがすでにフィルタ処理された入力を使用する。背景ノイズは、(たとえば道路ノイズまたは航空機ノイズからの)定常状態乱流、背景雑音、および背景の過渡的な事象を含む数多くの源から生じる。この背景ノイズを取り扱うために使用され得る方法、技術、およびシステムは、数多く存在する。ノイズ低減およびノイズ取り消しの目的で乱流の非発話音響情報を発話から分離することは、20世紀の初期から音声デバイス技術の重要な部分である。
信号内の背景ノイズが除去されまたは低減された後、残存する音響信号を関連する空気流情報に変換することは依然として難しい。音響信号と発話生成中に口から離れる乱気流との間の関係は、極めて複雑である。発話中口から放出された空気流および空気圧は、時間と共にすばやく変化し、このとき触覚的に検出可能な乱気流に必要とされる、最も高い空気流/圧力の組み合わせは、過渡音、気音、および狭窄的気音中に発生している。
有声発話を無声発話から分離して発話を区分けする既存の方法およびシステムは、自動化された発話認識のタスクに十分ではない。したがって、研究者は、エネルギー成分を分離することによってそのようなシステムを改良しようとしてきた。他の研究者は、デジタル信号処理の分野を改良するため、または(ピッチとして知覚される)発話の基本周波数を追跡するプロセスを改良するためのみに同じ疑問に対処するためのやり方を導くことに取り組んできた。しかし、これらのやり方は、発話からの空気流を複製するために使用されるよう意図されるものではなかった。
さらに、音響信号から空気流を特定することは、音響信号の乱流情報の部分を抽出するだけでなく、発話内の過渡音、気音、および狭窄的気音の知識に基づいてこれを適切に操作することを必要とする。十分な層状空気流と組み合わさった発話中の大きな口の開口は、口内の乱気流のかなりの量でも、口の外側では検出可能な空気流として解釈されないことを意味する。それとは対照的に、小さい口の開口は、より少ない量の乱気流が、口の外側で依然として検出可能であることを意味する。
発話の無声部分を検出し、感覚刺激デバイスを適切な方法で作動させるために必要とされる図1に示す信号処理構成要素を実装する可能な方法は、数多く存在する。図3は、図1に示すシステム100の拡張である、本発明の第2の実施形態によるシステム200を示す。図3を参照して説明する特徴は、図1を参照して説明する対応する特徴に類似するまたは同一の機能を有し、これは、100を加えた同様の参照番号によって示される。
処理システムの一部の実施形態は、一部が音声捕捉に従来関連付けられていない、音響信号のさまざまな異なる様相を捕捉する1つまたは複数のセンサデバイスを使用することにも留意されたい。そのようなデバイスの使用は、特徴抽出モジュールを改変、または補完する。従来のマイクロホン、圧力変換器、力計量計、熱、光学、力、渦流出に基づく流量計、および他のものに加えて、画像化ベース方法および音響情報を捕捉することができる任意の他の方法が、企図される。
詳細には、非常に低周波数の能力(100Hz以下)を有するセンサの使用は、乱流の様相、特に破裂音を直接的に捕捉するために使用するものである。これらは、単に計算的方法で音声信号から得るには難しいものである。直接測定の推定値および計算推定値を組み合わせて使用することで、システムパフォーマンスをさらに向上させることができる。
システム200は、音響信号を音響源210から受け取るための特徴抽出モジュール220を備える。特徴抽出モジュール220は、音響情報を処理して1つまたは複数の特定する特徴を抽出するように構成され、これらの特徴は、何らかの手段によって解釈されるとき、単独でまたは組み合わされて、信号の可能性のあるまたは可能な無声部分を示す。そのような特徴の例は、それだけに限定されないが、周期性、自己相関性、ゼロ交差レート、瞬時周波数、周波数エネルギー(ティーガーエネルギーなど)、変化率、強度、RMS値、時間スペクトル情報(ウェーブレット、短時間高速フーリエ変換)、フィルタバンク、さまざまな復調スキーム(振幅変調、周波数変調、位相変調など)、統計的測定(中央値、分散、ヒストグラム、平均値など)、入力信号自体、およびそれらの組み合わせである。
これらの抽出された特徴は、しばしばノイズが多く、または何らかの方法で増強される場合により良好なパフォーマンスを結果として生じ得る応答を呈するので、システム200は、特徴抽出モジュール220の出力の後処理のための抽出後処理モジュール230を備える。一部の実施形態では、システムは、抽出後処理モジュールを含まなくてよい。これらの実施形態では、特徴抽出モジュール220からの出力は、分類モジュールおよび/または制御モジュール260によって直接的に使用される。抽出後処理モジュール230によって実施される作動は、たとえば、フィルタリング(高パス、低パス、バンドパス、移動平均、メジアンフィルタリングなど)、線形および非線形マッピング(信号比、スケーリング、対数、指数、累乗、累乗根、ルックアップテーブルなど)、ゲーティングオペレーション、範囲限定、正規化およびそれらの組み合わせのうちの1つまたは複数を含む。
システムは、抽出後処理モジュール230からの特徴を処理するための分類モジュール240を備える。このモジュール240は、特徴および/または信号自体を解釈して無声通過の実際の特定を実施する。分類モジュール240は、当技術分野に知られている多様な方法、たとえばそれだけに限定されないが、ヒューリスティックス(状態機械)、統計的手法(ベイジアン、マルコフモデルおよびチェーンなど)、ファジー理論、学習システム(中立ネットワーク、シミュレーテッドアニーリング、線形ベース関数など)、パターンマッチング(データベース、ルックアップテーブル、コンボリューションなど)およびその他のものも実施するように構成され得る。
システム200の実施形態は、分類モジュール240からの出力信号を処理するための分類後処理モジュール(図示せず)を備えることができる。分類後モジュールは、抽出後処理モジュール230に関して上記で説明したものに類似する作動を実施するように構成され得る。
最後に、システム200は、無声通過を特定する分類子出力信号を分類モジュール240から受け取るための制御モジュール260を備える。制御モジュール260は、この信号を直接的または間接的に使用して、出力ポート270に接続された空気触覚アクチュエータのための制御信号を得る。制御モジュールが信号を間接的に使用する場合、分類子出力信号または信号の適切な特徴/特性(強度、包絡線など)が、分類子出力によって線形または非線形の形でゲーティング/または制御される。
システム200の実施形態は、信号が空気触覚アクチュエータに送られる前に制御信号出力を処理するための制御後処理モジュール(図示せず)を備えることができる。制御後モジュールは、抽出後処理モジュールに関して上記で説明したものに類似する作動を実施するように構成され得る。
追加的に、一部の波および/またはスペクトルシェーピングが、アクチュエータの応答を合致させるために必要となることがあり、外れ値が除去される必要があることがあり、当技術分野の他の一般的な処理装置が、アクチュエータ応答を所望の応答に最適に合致させるために適用される。
システム200の実施は、非限定的な例として以下に説明される。
実施例1:ゼロ交差レート技術
歯擦音タイプの発声(無声)は、幅広いスペクトルを有する。他方では、強い基本的な関連する高調波を伴った発声は、より一層周期的な外観を呈し、したがって、より明確に特定可能なピークを有するスペクトルを有する。周期性計算が使用されて無声発声から有声発声を特定することができるが、この計算は、非常に計算集約型であり、関係する計算コストのためにパフォーマンスが限定される。
歯擦音タイプの発声(無声)は、幅広いスペクトルを有する。他方では、強い基本的な関連する高調波を伴った発声は、より一層周期的な外観を呈し、したがって、より明確に特定可能なピークを有するスペクトルを有する。周期性計算が使用されて無声発声から有声発声を特定することができるが、この計算は、非常に計算集約型であり、関係する計算コストのためにパフォーマンスが限定される。
図4は、空気触覚デバイスへの制御信号を生成するためのシステム300を示す。別途説明されない限り、図4を参照して説明する特徴は、図3を参照して説明した対応する特徴に類似するまたは同一の機能性を有し、これは、100を加えた同様の参照番号によって示される。
システム300は、時間単位あたりに入力された音響信号のゼロ交差の数を測定することにより、制御された状態下で有用なパフォーマンスを伴う簡単な手法を実施する。このゼロ交差レートは、計算複雑度を小さくして計算可能であり、ハードウェアに容易に委譲され得る。
ゼロ交差レートに基づくシステムは、有声および無声の発声の性質により、うまく作用する。ゼロ交差レートにおける適切に調整された閾値を使用して方法がノイズを発生させることを防止することにより、有声発声が、信号の高周波様相を信号の平均値から「持ち上げる」ことが、関係する波形の検査時に明確である。したがって、これらの高周波様相は、有声の基本波の期間の大部分の間、ゼロ交差を生み出さず、その結果比較的低いゼロ交差レートをもたらす。閾値は、実験的にまたは適応アルゴリズムによって決定され、発話が存在しないが(小さい信号大きさ、高いゼロ交差率)、環境ノイズおよび他の要因が存在する場合の通過中に測定されたゼロ交差レートを下回って設定される。閾値はまた、無声セグメント(ノイズフロアを上回る信号の大きさ、高いゼロ交差レート)のレートを上回らなければならず、そのため、有声セクション(高い信号大きさ、比較的低いゼロ交差レート)は、無視される。
システム300は、音響源310から受け取られた音響信号からの可能性のある無声発声を示すための特徴抽出モジュール320を備える。特徴抽出モジュールは、一定の持続時間にわたって音響信号のゼロ交差の回数を決定するためのゼロ交差検出器322を備える。ゼロ交差検出器322からのゼロ交差レート数は、特徴抽出モジュール320の出力である。
特徴抽出モジュールは、追加的に、ゼロ交差検出器によって処理される音響信号の同じ部分の強度を算出するためのウィンドウ化された中間平均値324を含み、ここでは強度信号は、制御モジュール362に送られる。
特徴抽出モジュール320からのゼロ交差レートは、分類モジュール340の比較器342において使用される。比較器342は、ノイズ、無声発声、有声発声の間を区別する3状態のウィンドウの比較器になることができる。無声発声は、有声発声中遭遇するレートと比較して、(これらが検出時非常にノイズ様で出現するため)時間単位あたり高いレートのゼロ交差によって特徴付けられ、その結果、有声発声と比較してはるかに高いゼロ交差レートをもたらす。比較器342が信号を首尾良く分類するように決定された適切な設定閾値344を使用し、このレート信号を後処理することにより、3つの帯域:ノイズ、無声発声、および有声発声が特定され得る。本発明の好ましい実施形態では、無声閾値のみが、音響信号内の無声部分を表す信号346を生み出すために実装されており、これは、他の2つの帯域の両方は、対象ではない信号の部分を意味するためである。
システム300は、制御モジュール360を備える。分類モジュールは、分類モジュール340からの無声部分を表す信号346、および特徴抽出モジュール320のウィンドウ化された中間平均値324によって算出された強度信号を受け取るゲート362を有する。ゲート362は、空気触覚アクチュエータに接続される、または通信するように構成された出力ポート370への出力制御信号を生成する。この特定の実施では、特徴抽出モジュール320からの入力信号のウィンドウ化された中間平均値は、分類ブロックからの信号346を使用して出力制御信号を生成することによってゲート362によってゲーティングされる。
ゼロ交差技術の欠点は、背景ノイズ間を確実に差別化し、話し手および環境状態に確実に適応させる方法で(動的)閾値(ヒステリシス作用を有してまたは有さずに)を設定することにある。
ゼロ交差技術の利点は、極めて簡単であり、低複雑度を有するアナログシステムとしても実装することができることである。(適応)閾値は、リアルタイムで音響信号を処理する必要がないシステムを使用して、さらに実施コストを低減して計算することができる。
実施例2:ティーガーエネルギー/離散エネルギー分離技術
ゼロ交差レート方法は、まだ多く改良の余地を示しているため、限定されたハードウェア上で作動する必要性を依然として念頭においてより良好な方法が、求められた。
ゼロ交差レート方法は、まだ多く改良の余地を示しているため、限定されたハードウェア上で作動する必要性を依然として念頭においてより良好な方法が、求められた。
ゼロ交差方法が信号の物理的様相に基づくように、ティーガーエネルギーおよび離散エネルギーの分離を使用する方法は、この推論をさらに一歩進め、発話が生成されるプロセスの知識を使用しようとするものである。
等しい振幅の2つの信号を生成するために、低周波数信号よりも高周波信号を生成する方がよりエネルギーを使うことが物理学の事実である。無声発声は、基本的に広帯域ノイズであり(ノイズよりも相関性があるが)、これは、多くのエネルギーがその創出に送り込まれたことを意味する。有声発声では、ほとんどのエネルギーは、比較的低周波数の基本波としてまとめられる。したがって、周波数が生成される物理的プロセスに基づいて各々の周波数帯域に異なるエネルギーを割り当てる方法が、有声と無声の発声間を差別化することに対する有用な指標を与える。1つのそのような可能な方法が、ティーガーエネルギーである。この方法は、同じ振幅であるが異なる周波数の2つの信号を仮定して、低周波数のものは、生み出すためにあまりエネルギーをかけず、したがって、このより低い周波数信号に、同じ振幅の高い周波数信号よりも低いエネルギー読み取り値を割り当てると認識する。有声発声は、主に低周波数成分を含み、このときエネルギーのほとんどはその基本波およびいくつかの高調波の周りにまとめられているため、そのような信号の結果、等しい振幅の無声信号よりも小さいティーガーエネルギー読み取り値を生じさせ、ここでは、エネルギーのほとんどは、より高い周波数成分に拡がっている。このアルゴリズムは、ノイズに敏感であるが、サンプルあたりのベースで作動することができるという大きな利点を有し、計算を実施することをほとんど必要としない。
この方法の拡張は、離散エネルギー分離アルゴリズム(DESA)の群である。これらのアルゴリズムは、従来の復調理論に関連して最適に理解される。DESAは、(周波数変調に関連する)瞬時周波数および(振幅変調に関連する)大きさを提供する。主な特徴としてここで関心対象となるのは、瞬時周波数であり、これは、多くの情報をこれもまた生み出すゼロ交差レートと組み合わされる。
実施例3:ゼロ交差レート、ティーガーエネルギーおよび離散エネルギー分離技術の組み合わせ
図5は、全体的なパフォーマンスを改良するために上記で説明したゼロ交差レートおよびティーガーエネルギー技術を組み合わせるシステム400を示す。別途説明されない限り、図5を参照して説明する特徴は、図3を参照する対応する特徴に類似するまたは同一の機能性を有し、これは、200を加えた同様の参照番号によって示される。
図5は、全体的なパフォーマンスを改良するために上記で説明したゼロ交差レートおよびティーガーエネルギー技術を組み合わせるシステム400を示す。別途説明されない限り、図5を参照して説明する特徴は、図3を参照する対応する特徴に類似するまたは同一の機能性を有し、これは、200を加えた同様の参照番号によって示される。
システム400の機能ブロックは、互いに対する多くの相互作用を有することができる。システム400は、主に、ヒューリスティックス手法を採用し、ここでは、分類モジュール440からの信号が、特徴抽出後処理モジュール430へのフィードバック信号として使用されて、ノイズゲーティング機能として使用されてアルゴリズムのパフォーマンスを改良する。
システム400は、音響源410から受け取られた音響信号内の可能性のある無声部分を示すことに関連する信号特徴を得るための特徴抽出モジュール420と、可能性のある無声部分が、無声部分であるかどうかを得られた信号特徴から決定するための分類モジュール440と、空気触覚アクチュエータのための制御信号を生成するための制御モジュール460とを備える。
システム400は、追加的に、特徴抽出モジュール420からの信号を処理し、処理された信号を分類モジュール440に送信するための抽出後処理モジュール430を備える。システム400は、さらに、分類モジュール440内に含まれた分類後処理モジュールのための構成要素を備える。ヒューリスティックス分類は、特徴の後処理と直接的に相互作用する。
特徴抽出モジュール420では、システム400は、音響信号のサンプルの周波数エネルギーを算出するためのティーガーエネルギー計算ブロック421を備える。特徴抽出モジュール420は、追加的に、現在のサンプルと前のサンプルとの間のエネルギー差を計算するための微分ティーガーエネルギー計算ブロック424を備える。ティーガーエネルギーおよび微分ティーガーエネルギー計算ブロック421、424からの算出されたエネルギー値は、それぞれのフィルタ425、422を使用してフィルタ処理される。フィルタ425、422は、移動平均フィルタになり得る。フィルタ処理された値は、瞬時周波数を提供するDESAブロック423によって処理される。DESAブロック423もまた、特徴抽出モジュール420の一部である。特徴抽出モジュール420は、さらに、音響信号のゼロ交差を決定するためのゼロ交差検出器ブロック426を備える。
ブロック423のDESAアルゴリズムの前の移動平均フィルタ422、425は重要であり、これは、ティーガーエネルギー算出が、この方法をノイズに対して敏感にする微分演算子を使用するためである。フィルタリングはこの敏感性を低減するのを助ける。
抽出後処理モジュール430は、スケーリング構成要素433を備えて、フィルタ422からの信号内のティーガーエネルギー内の小さい寄与を強調する。これらの寄与は、普通なら失いやすい有用な情報を含み、一方で非常に強い信号は、それほど犠牲を払わずに低減され得る。スケーリング構成要素433は、自然対数アルゴリズムを使用して、たとえばそれにしたがってティーガーエネルギーをスケーリングすることができる。抽出後処理モジュール430は、追加的に、DESA423の出力をフィルタリングするための瞬時周波数フィルタ434を備える。抽出後処理モジュール430は、さらに、ゼロ交差検出器ブロック426からのゼロ交差信号を処理するためのゼロ交差ゲート431およびゼロ交差フィルタ432を備える。ゼロ交差ゲート431は、ゼロ交差フィルタ432の前に適用されて、ノイズとして特定されたゼロ交差が出力内に現れることを取り除く。ゼロ交差フィルタ432は、移動平均フィルタになり得る。
分類モジュール440では、計算ブロック441および第1の決定ブロック442は、ノイズ閾値制御信号を計算する。スケーリング構成要素433からのティーガーエネルギーの動的範囲圧縮型バージョンを使用して、構成可能な閾値(無音閾値)は、ノイズゲーティングを実施する。計算ブロック441は、信号の平均を計算するように構成され、この平均は、第1の決定ブロック442において使用されて、ゼロ交差ゲート431内のゼロ交差信号および瞬時周波数制御ゲート444内の瞬時周波数フィルタ434からのフィルタ処理された瞬時周波数の両方のための閾値ゲーティング信号447を生み出す。
分類モジュール440は、瞬時周波数制御ゲート444からの信号449およびゼロ交差フィルタ432からの信号436を乗算するための乗算器445を備える。フィルタ処理された瞬時周波数およびフィルタ処理されたゼロ交差レートを乗算することによって得られた制御信号が、信号自体を使用することに比べて、より良好に動作する出力ゲーティング信号を生み出したことが、実験的に見出された。乗算は、これらの両方が、無声寄与が存在することに同意する場合特徴のこれらの部分を増強するだけでなく、両方の入力信号の1つがゼロであるときの見かけ上の寄与も防止する。分類モジュール440は、信号が無声信号であるかどうかを決定するための第2の決定ブロック446を備える。この制御信号が閾値(周波数閾値)を超えたとき、この特徴は、入力信号内の無声セクションになるのに十分な強さであると考えられる。分類モジュール440は、追加的に、計算ブロック441内で算出されたノイズ成分を有さずにティーガーエネルギーを決定するための引き算ブロック443を備える。引き算ブロック443からの信号は、スケーリングブロック433からの圧縮されたティーガーエネルギーから、計算ブロック441によって算出された平均値(DCレベルは背景ノイズに関連付けられる)を引いたものである。
この出力ゲート信号448は、次に、使用されて、適切に処理された特徴、または特徴の組み合わせを出力部に向けてゲーティングして感覚刺激アクチュエータを作動させる。
制御モジュール460は、第2の決定ブロック446からの制御信号によってゲーティングされた引き算ブロック443からのノイズ成分を有さずに、ティーガーエネルギーを出力するように構成されたゲート461を備える。制御モジュール460は、追加的に、フィルタ462を備えて、ゲート461の結果として生じた出力から、短い、見かけ上の応答を除去する。分類ブロックの出力は、感覚刺激アクチュエータに接続される、または通信するように構成された出力ポート470に送信される。
感覚刺激アクチュエータは、感覚刺激を聞き手の皮膚に送るように構成される。一実施形態では、感覚刺激アクチュエータは、刺激を聞き手の任意の触覚細胞に送るように構成される。一実施形態では、感覚刺激アクチュエータは、刺激を、聞き手の足首、耳、顔、髪、目、小鼻、または聞き手の体の任意の他の部分に送るように構成される。一実施形態では、システムは、手持ち用音声デバイスの一部であり、またはこれと通信しており、感覚刺激デバイスは、刺激を手にもたらすように構成される。一実施形態では、システムは、頭保持用または装着用音声オデバイスの一部であり、またはこれと通信しており、感覚刺激デバイスは、刺激を頭にもたらすように構成される。
図6は、図5に示し、実施例3に説明したシステム400のオペレーションの異なる段階における例となる処理された信号の波形500を示す。第1の波形510は、音響源410から受け取られた入力波形である。第2の波形520は、スケーリング構成要素433からのティーガーエネルギー435に対応する。第3の波形530は、第1の決定ブロック442からのノイズゲート制御447に対応する。第4の波形540は、ゼロ交差フィルタ432からのゲーティングされた平均ゼロ交差436に対応する。第5の波形550は、周波数制御ゲート444からのゲーティングされたDESA瞬時周波数信号(Gated DESA Instantaneous Frequency Signal)449に対応する。第6の波形560は、第2の決定ブロック446からの出力されたゲート制御信号448に対応する。第7の波形570は、システム400の出力470に対応する。
図10は、圧電ポンプ940によって生成されたエアパフ950に基づく感覚アクチュエータ900を示す。アクチュエータ900は、ユーザの皮膚960またはユーザの任意の他の体知覚部分に送られる所望の空気触覚刺激を表す制御信号910を受け取る。システム900は、制御信号910を使用するためのドライバ電子装置920を備える。ドライバ電子装置920は、この制御信号910を増幅し、この信号を、圧電ポンプ940を駆動させるための適切な電子信号930に変換する。このポンプ940は、エアパフ950を生み出し、エアパフ950は、直接的に、またはガイドもしくはチューブなどの空気導管を通じて、たとえば、ユーザの皮膚960などのユーザの体知覚体部分に向けられる。
図7は、空気触覚発話知覚増強システム604が、いかにして耳掛型補聴器600内に組み込まれ得るかを示す。補聴器は、補聴増幅のための受話口602と、補聴器を聞き手の耳の後方に装着するためのアーム603とを備える。空気触覚刺激が可聴刺激を含む場合、可聴刺激は、受話口602を通じて送られ得る。図示するシステムは、マイクロホン601およびデジタイザ607から、または外部源から聴覚入力を取得することができる。ノイズおよび極端な過渡音を除去し、1人の話し手に集中させるための事前処理、または任意の他の信号後処理が、補聴器600の一部としてのシステム外部のシステムによってもたらされる。こうしてクリーンにされた信号は、次いで、上記で説明したように、音響信号を空気触覚刺激信号に変換するために必要とされる信号処理にかけられる。空気触覚刺激信号は、次いで、空気流源605の制御装置に進められ、制御装置は、補聴器が増幅された音声を耳に進めるのと同期させて、耳の後方の空気チューブ606を通じて空気のパフを聞き手の皮膚に出力するように構成される。
図8Aおよび8Bは、空気触覚発話知覚増強システムが、いかにしてスマートデバイス700内に組み込まれ得るかを示す。図8Aは、正面からスマートデバイス700を示し、図8Bは、背面からスマートデバイス700を示す。図示するシステムは、デジタル源からGSM(登録商標)信号などの聴覚入力702を受け取るように構成される。補聴器と同様に、ノイズ、極端な過渡音を除去するための前処理、または任意の他の信号後処理が、スマートホンシステムからもたらされ得る。こうしてクリーンにされた信号は、次いで、上記で説明したうように、本発明のシステム703によって音響信号を空気流信号に変換するために必要とされる信号処理にかけられる。空気流信号は、次いで、空気流制御装置および空気流源704に進められ、空気は、スマートホンが増幅された音響をスピーカ706を通じて耳に進めるのに同期して、空気チューブ705を通じて皮膚(通常は手の上または耳の後方)に進められる。
スマートデバイスの一部の実施形態では、スマートデバイスは、空気触覚刺激信号に基づいて光学刺激を出力するように構成された光学アクチュエータを備える。一実施形態では、光学アクチュエータは、スマートデバイス700内に光源707を備える。一実施形態では、光学刺激は、スマートデバイス、または任意の他の電子デバイスのバックライトディスプレイ708内の輝度の変化を含む。スマートデバイスの一部の実施形態では、空気触覚刺激は、可聴感覚刺激を含む。
図9は、空気触覚発話知覚増強システムが、いかにしてヘッドホン800のセット内に組み込まれ得るかを示す。図示するシステムは、ヘッドホンジャックまたは無線送信などのデジタル源から聴覚入力802を取得する。補聴器と同様に、ノイズ、極端な過渡音を除去するための前処理、または任意の他の信号後処理が、ヘッドホンシステムによってもたらされ得る。こうしてクリーンにされた信号は、次いで、上記で説明したうように、本発明のシステム804によって音響信号を空気流信号に変換するために必要とされる信号処理にかけられる。空気流信号は、次いで、空気流制御装置および空気流源806に進められ、空気は、ヘッドホンが増幅された音響を耳に進めるのに同期して、空気チューブ808を通じて、耳の後方の皮膚に進められる。
ヘッドホンの一部の実施形態では、空気触覚刺激は、可聴感覚刺激を含む。
上記の説明から明らかにされたものの中でもとりわけ上記に記載した目的が、効率的に達成されることが確認され、また、特定の変更が、上記の方法を実施する上で、および記載した構造(複数可)において、本発明の趣旨および範囲から逸脱することなく加えられ得るため、上記の説明および添付の図に示すすべての事項は、限定的意味ではなく例示的なものとして解釈されるものであることが意図される。
Claims (72)
- 音声知覚システムであって、
音響発話信号情報を捕捉するように構成された捕捉モジュールと、
音響信号内の可能性のある無声部分を特定する特徴を抽出するように構成された特徴抽出モジュールと、
前記音響信号が、無声部分である、または無声部分を含むかどうかを前記抽出された特徴に基づいて特定するように構成された分類モジュールと、
聞き手に送られる空気触覚刺激を生成するための感覚刺激アクチュエータへの制御信号を生成するように構成された制御モジュールであって、前記制御信号は、前記特定された無声部分を表す信号に少なくとも部分的に基づく、制御モジュールと
を備える、音声知覚システム。 - 前記捕捉モジュールが、前記音響発話信号情報を生成するように構成されたセンサに接続される、請求項1に記載のシステム。
- 前記センサが、音響マイクロホンを備える、請求項2に記載のシステム。
- 前記捕捉モジュールが、前記音響発話信号情報を生成するように適合された通信媒体に接続される、請求項1に記載のシステム。
- 前記捕捉モジュールが、前記音響発話信号情報が記憶されるコンピュータ可読媒体に接続される、請求項1に記載のシステム。
- 前記捕捉モジュールが、圧力変換器を備える、請求項1に記載のシステム。
- 前記捕捉モジュールが、話し手の唇からの空気流内に、またはその近くに置かれた力感知デバイスを備える、請求項1に記載のシステム。
- 前記捕捉モジュールが、光学流量計を備える、請求項1に記載のシステム。
- 前記捕捉モジュールが、熱流量計を備える、請求項1に記載のシステム。
- 前記捕捉モジュールが、機械的流量計を備える、請求項1に記載のシステム。
- 前記捕捉モジュールが、乱流および/または乱流を生成する発話圧力波からの情報を含む音響発話信号情報を捕捉するように構成される、請求項1から10のいずれか一項に記載のシステム。
- 前記特徴抽出モジュールが、前記分類モジュールによって解釈される場合、前記音響信号の前記抽出された特徴のうちの1つまたは複数に基づいて無声部分を特定するために使用される前記信号の強音の様相を特定するように構成される、請求項1から11のいずれか一項に記載のシステム。
- 前記特徴抽出モジュールが、ゼロ交差レート、周期性、自己相関性、瞬時周波数、周波数エネルギー、統計的測定、変化率、強度二乗平均平方根値、時間スペクトル情報、フィルタバンク、復調スキーム、または前記音響信号それ自体のうちの1つまたは複数に基づいて、無声部分に関連する特徴を抽出するように構成される、請求項1から12のいずれか一項に記載のシステム。
- 前記特徴抽出モジュールが、前記音響信号の前記ゼロ交差レートを計算するように構成され、前記分類モジュールは、前記ゼロ交差レートを使用して、前記音響信号の一部分の時間単位あたりのゼロ交差の少なくとも1つが閾値を上回った場合、前記音響信号の前記部分が無声部分であることを示す、請求項1から13のいずれか一項に記載のシステム。
- 前記特徴抽出モジュールが、前記音響信号の周波数エネルギーを計算するように構成され、前記分類モジュールは、前記音響信号の一部分の前記周波数エネルギーが閾値を上回った場合、前記音響信号の前記部分が無声部分であることを示す、請求項1から14のいずれか一項に記載のシステム。
- 前記特徴抽出モジュールが、ティーガーエネルギーに基づいて前記周波数エネルギーを算出するように構成される、請求項15に記載のシステム。
- 前記特徴抽出モジュールが、組み合わされたとき、前記分類モジュールによって使用されて前記音響信号が前記無声部分である、または前記無声部分を含むかどうかを特定する前記音響信号のゼロ交差および周波数エネルギーを計算するように構成される、請求項1から16のいずれか一項に記載のシステム。
- 前記特徴抽出モジュールが、センサからの低周波音響信号を使用して音響信号内の前記可能性のある無声部分を特定するように構成される、請求項1から17のいずれか一項に記載のシステム。
- 前記分類モジュールが、ヒューリスティックス、論理システム、数学的分析、統計的分析、学習システム、ゲーティングオペレーション、範囲限定、および前記可能性のある無声部分に対する正規化のうちの1つまたは複数に基づいて無声部分を特定するように構成される、請求項1から18のいずれか一項に記載のシステム。
- 前記制御モジュールが、前記音響信号内の前記可能性のある無声部分を表す信号に基づいて前記制御信号を生成するように構成される、請求項1から19のいずれか一項に記載のシステム。
- 前記制御モジュールが、前記無声部分を表す前記信号を、前記無声部分の乱気流情報内のエネルギーに基づいて、前記エネルギーと発話から起こり得る空気流との間の関係に基づいて転換して、乱気流を表す信号に変換するように構成される、請求項20に記載のシステム。
- 乱気流を表す前記信号が、乱気流情報を表す前記音響信号の包絡線である、請求項20または21に記載のシステム。
- 前記信号が、前記無声部分を表す前記信号の微分である、請求項20または21に記載のシステム。
- 前記信号が、少なくとも1つの信号特性を有する任意の信号であり、この場合、前記少なくとも1つの信号特性は、前記音響信号内の乱流情報の発生を示す、請求項20または21に記載のシステム。
- 前記信号が、インパルス列を含み、この場合各々のインパルスのタイミングは、乱流情報の発生を示す、請求項24に記載のシステム。
- 前記信号特性が、ピーク、ゼロ交差、およびトラフのうちの1つまたは複数を含む、請求項24または25に記載のシステム。
- 少なくとも1つの後処理モジュールをさらに備える、請求項1から26のいずれか一項に記載のシステム。
- 前記少なくとも1つの後処理モジュールが、フィルタ処理し、線形または非線形のマッピングを使用し、ゲーティングオペレーションを使用し、範囲限定を使用し、および/または正規化を使用して前記少なくとも1つの後処理モジュールへの信号を増強するように構成される、請求項27に記載のシステム。
- 前記少なくとも1つの後処理モジュールが、高パスフィルタリング、低パスフィルタリング、バンドパスフィルタリング、バンドストップフィルタリング、移動平均、およびメジアンフィルタリングのうちの1つまたは複数を使用して信号をフィルタ処理するように構成される、請求項27または28に記載のシステム。
- 前記少なくとも1つの後処理モジュールが、前記分類モジュールのために前記可能性のある無声部分の前記抽出された特徴を表す信号を処理するための特徴抽出後処理モジュールを備え、前記分類モジュールは、前記特徴抽出後処理モジュールからの出力に基づいて前記無声部分を特定するように構成される、請求項27から29のいずれか一項に記載のシステム。
- 前記少なくとも1つの後処理モジュールが、前記分類モジュールからの前記無声部分を表す前記信号を処理するための分類後モジュールを備え、前記制御モジュールは、前記分類後処理モジュールからの出力に基づいて前記制御信号を生成するように構成される、請求項27から30のいずれか一項に記載のシステム。
- 前記少なくとも1つの後処理モジュールが、前記制御ユニットからの前記制御信号を処理するための制御後処理モジュールを備え、前記感覚刺激アクチュエータは、前記制御後処理モジュールからの出力に基づいて空気触覚刺激を出力するように構成される、請求項27から31のいずれか一項に記載のシステム。
- 前記少なくとも1つの後処理モジュールが、前記制御ユニットからの前記制御信号を処理するための制御後処理モジュールを備える、請求項27から32のいずれか一項に記載のシステム。
- 前記感覚刺激アクチュエータが、前記制御後処理モジュールからの出力に基づいて光学刺激を出力するように構成された光学アクチュエータを備える、請求項1から33のいずれか一項に記載のシステム。
- 前記光学アクチュエータが、前記聞き手の電子デバイス内に光源を備える、請求項34に記載のシステム。
- 前記光学刺激が、前記電子デバイスのバックライトディスプレイ内の輝度の変化を含む、請求項34または35に記載のシステム。
- 前記感覚刺激アクチュエータが、前記制御後処理モジュールからの出力に基づいて刺激を出力するように構成された体知覚アクチュエータを備える、請求項1から33のいずれか一項に記載のシステム。
- 前記感覚刺激アクチュエータが、制御後処理モジュールからの出力に基づいて可聴刺激を出力するように構成されたサウンドアクチュエータを備える、請求項1から33のいずれか一項に記載のシステム。
- 前記サウンドアクチュエータが、ホストデバイスおよび/またはラウドスピーカの音響サブシステムを備える、請求項38に記載のシステム。
- 前記音響信号が、発話信号を含む、請求項1から39のいずれか一項に記載のシステム。
- 前記音響信号が、声道乱気流から引き起こされたあらゆる情報を含む、請求項1から39のいずれか一項に記載のシステム。
- 前記音響信号が、人工的な声道乱気流から引き起こされたあらゆる情報を含む、請求項1から39のいずれか一項に記載のシステム。
- 前記音響信号が、発話合成システムによって生み出された発話、音響情報、および/または音声を含む、請求項42に記載のシステム。
- 前記音響信号を受け取るためのレシーバをさらに備える、請求項1から43のいずれか一項に記載のシステム。
- 前記レシーバが、前記音響信号をセンサデバイスから受け取るように構成される、請求項44に記載のシステム。
- 前記センサが、音響マイクロホンデバイスを備える、請求項45に記載のシステム。
- 前記マイクロホンデバイスが、マイクロホンからの前記音響信号をデジタル信号に変換するためのマイクロホンデジタイザを備える、請求項46に記載のシステム。
- 前記レシーバが、前記音響信号を外部音響源から受け取るように構成される、請求項44に記載のシステム。
- 前記レシーバが、前記音響信号をリアルタイムまたは事前記録のうちの1つで受け取るように構成される、請求項48に記載のシステム。
- 不要な背景ノイズおよび不要な無発話サウンドを前記音響信号から除去するためのレシーバ後処理モジュールをさらに備える、請求項1から49のいずれか一項に記載のシステム。
- 前記捕捉モジュールが、事前にフィルタ処理された発話音響信号から音響発話信号情報を捕捉するように構成される、請求項1から49のいずれか一項に記載のシステム。
- 前記捕捉モジュールが、フィルタリングを必要としないきれいな音響信号から音響発話信号情報を捕捉するように構成される、請求項1から49のいずれか一項に記載のシステム。
- 前記空気触覚刺激を生成するための感覚刺激アクチュエータをさらに備える、請求項1から52のいずれか一項に記載のシステム。
- 前記感覚刺激アクチュエータが、前記制御モジュールからの直接的な、および/または制御後処理モジュールを介して前記制御モジュールからの間接的な前記制御信号に少なくとも部分的に基づいて、前記空気触覚刺激を生成するように構成される、請求項53に記載のシステム。
- 前記感覚刺激アクチュエータが、前記分類モジュールからの直接的な、および/または分類後処理モジュールを介して前記分類モジュールからの間接的な前記無声部分に少なくとも部分的に基づいて、前記空気触覚刺激を生成するように構成される、請求項53または54に記載のシステム。
- 前記感覚刺激アクチュエータが、空気触覚アクチュエータを備える、請求項53から55のいずれか一項に記載のシステム。
- 前記空気触覚刺激が、1つまたは複数のエアパフおよび/または空気流を含む、請求項56に記載のシステム。
- 前記感覚刺激アクチュエータが、振動触覚アクチュエータを備える、請求項53から55のいずれか一項に記載のシステム。
- 前記振動触覚アクチュエータが、前記音響信号内の有声部分に基づいて振動触覚刺激を生成するように構成される、請求項58に記載のシステム。
- 前記空気触覚刺激が、前記聞き手の体知覚的感覚を刺激するための直接的な触覚刺激を含む、請求項53から55のいずれか一項に記載のシステム。
- 前記感覚刺激アクチュエータが、電気触覚アクチュエータを備え、前記空気触覚刺激は、聞き手の体知覚的感覚を刺激するための電気刺激を含む、請求項53から55のいずれか一項に記載のシステム。
- 前記感覚刺激アクチュエータが、光学アクチュエータを備え、前記空気触覚刺激が、光学刺激を含む、請求項53から55のいずれか一項に記載のシステム。
- 前記感覚刺激アクチュエータが、音響アクチュエータを備え、前記空気触覚刺激は、聴覚刺激を含む、請求項53から55のいずれか一項に記載のシステム。
- 前記感覚刺激アクチュエータが、前記2つまたはそれ以上の異なる空気触覚刺激を前記聞き手に送るように構成される、請求項53から63のいずれか一項に記載のシステム。
- 前記2つまたはそれ以上の異なる空気触覚刺激が、物理タップ、振動、静電パルス、光学刺激、聴覚刺激、および他の感覚刺激のうちの2つまたはそれ以上を含む、請求項64に記載のシステム。
- 前記空気触覚刺激が、前記音響信号、前記特徴抽出モジュールによって前記音響信号から抽出された前記特徴、前記分類モジュールからの前記特定された無声部分、または前記乱気流のエネルギーを含む、前記可能性のあるおよび/または特定された無声部分を表す前記信号の派生物を用いて生成される、請求項64または65に記載のシステム。
- 前記特定された無声部分が、前記乱気流の信号の反数を含む、請求項66に記載のシステム。
- 前記感覚刺激アクチュエータが、前記空気触覚刺激を前記聞き手の皮膚に送るように構成される、請求項1から67のいずれか一項に記載のシステム。
- 前記感覚刺激アクチュエータが、前記刺激を前記聞き手の任意の触覚細胞に送るように構成される、請求項1から67のいずれか一項に記載のシステム。
- 音響知覚のための方法であって、
捕捉モジュールによって、音響発話信号情報を捕捉することと、
特徴抽出モジュールによって、音響信号内の可能性のある無声部分を特定する特徴を決定することと、
分類モジュールによって、前記音響信号が、無声部分である、または無声部分を含むかどうかを前記抽出された特徴に基づいて決定することと、
制御モジュールによって、聞き手に送られる空気触覚刺激を生成するためのアクチュエータへの制御信号を生成することであって、前記制御信号は、前記無声部分を表す信号に少なくとも部分的に基づく、生成することと
を含む、方法。 - 感覚刺激アクチュエータによって前記空気触覚刺激を聞き手に送ることをさらに含み、前記空気触覚刺激は、前記アクチュエータからの前記刺激に基づいて生成される、請求項70に記載の方法。
- 前記感覚刺激アクチュエータが、触覚刺激、光学/視覚刺激、聴覚刺激、および/または任意の他のタイプの刺激の形態で、前記空気触覚刺激情報を前記聞き手に送るように構成された1つまたは複数のアクチュエータを備える、請求項70または71に記載の方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201461939974P | 2014-02-14 | 2014-02-14 | |
US61/939,974 | 2014-02-14 | ||
PCT/NZ2015/050014 WO2015122785A1 (en) | 2014-02-14 | 2015-02-13 | System for audio analysis and perception enhancement |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2017509014A true JP2017509014A (ja) | 2017-03-30 |
Family
ID=53800426
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016552306A Pending JP2017509014A (ja) | 2014-02-14 | 2015-02-13 | 音声分析および知覚増強のためのシステム |
Country Status (10)
Country | Link |
---|---|
US (1) | US20170194019A1 (ja) |
EP (1) | EP3105756A1 (ja) |
JP (1) | JP2017509014A (ja) |
KR (1) | KR20160120730A (ja) |
CN (1) | CN106030707A (ja) |
AU (1) | AU2015217610A1 (ja) |
CA (1) | CA2936331A1 (ja) |
CL (1) | CL2016002050A1 (ja) |
SG (1) | SG11201605362PA (ja) |
WO (1) | WO2015122785A1 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10451537B2 (en) * | 2016-02-04 | 2019-10-22 | Canon U.S.A., Inc. | Diffusing wave spectroscopy with heterodyne detection |
KR101790892B1 (ko) * | 2016-05-17 | 2017-10-26 | 주식회사 씨케이머티리얼즈랩 | 음향 신호를 촉각 신호로 변환하기 방법 및 이를 이용하는 햅틱 장치 |
EP3409380A1 (en) * | 2017-05-31 | 2018-12-05 | Nxp B.V. | Acoustic processor |
KR102077642B1 (ko) * | 2017-07-03 | 2020-02-14 | (주)주스 | 시창평가 시스템 및 그것을 이용한 시창평가방법 |
WO2019083130A1 (ko) * | 2017-10-25 | 2019-05-02 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
CN108231084B (zh) * | 2017-12-04 | 2021-09-10 | 重庆邮电大学 | 一种基于Teager能量算子的改进小波阈值函数去噪方法 |
CN107891448A (zh) * | 2017-12-25 | 2018-04-10 | 胡明建 | 一种机械视觉听觉触觉以时间相互映射的设计方法 |
KR102265399B1 (ko) * | 2019-06-12 | 2021-06-15 | 주식회사 씨케이머티리얼즈랩 | 스테레오 촉각 제공 장치 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6377915B1 (en) * | 1999-03-17 | 2002-04-23 | Yrp Advanced Mobile Communication Systems Research Laboratories Co., Ltd. | Speech decoding using mix ratio table |
JP3365360B2 (ja) * | 1999-07-28 | 2003-01-08 | 日本電気株式会社 | 音声信号復号方法および音声信号符号化復号方法とその装置 |
JP4380669B2 (ja) * | 2006-08-07 | 2009-12-09 | カシオ計算機株式会社 | 音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、及び、プログラム |
WO2008023346A1 (en) * | 2006-08-24 | 2008-02-28 | Koninklijke Philips Electronics N.V. | Device for and method of processing an audio signal and/or a video signal to generate haptic excitation |
EP2118892B1 (en) * | 2007-02-12 | 2010-07-14 | Dolby Laboratories Licensing Corporation | Improved ratio of speech to non-speech audio such as for elderly or hearing-impaired listeners |
US8484035B2 (en) * | 2007-09-06 | 2013-07-09 | Massachusetts Institute Of Technology | Modification of voice waveforms to change social signaling |
KR100930584B1 (ko) * | 2007-09-19 | 2009-12-09 | 한국전자통신연구원 | 인간 음성의 유성음 특징을 이용한 음성 판별 방법 및 장치 |
PL2232700T3 (pl) * | 2007-12-21 | 2015-01-30 | Dts Llc | System regulacji odczuwanej głośności sygnałów audio |
EP2151822B8 (en) * | 2008-08-05 | 2018-10-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for processing an audio signal for speech enhancement using a feature extraction |
DK2649812T3 (da) * | 2010-12-08 | 2014-08-04 | Widex As | Høreapparat og en fremgangsmåde til at forbedre talegengivelse |
US9037458B2 (en) * | 2011-02-23 | 2015-05-19 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for spatially selective audio augmentation |
-
2015
- 2015-02-13 EP EP15749174.7A patent/EP3105756A1/en not_active Withdrawn
- 2015-02-13 JP JP2016552306A patent/JP2017509014A/ja active Pending
- 2015-02-13 WO PCT/NZ2015/050014 patent/WO2015122785A1/en active Application Filing
- 2015-02-13 SG SG11201605362PA patent/SG11201605362PA/en unknown
- 2015-02-13 AU AU2015217610A patent/AU2015217610A1/en not_active Abandoned
- 2015-02-13 US US15/115,878 patent/US20170194019A1/en not_active Abandoned
- 2015-02-13 CN CN201580008708.4A patent/CN106030707A/zh active Pending
- 2015-02-13 KR KR1020167022190A patent/KR20160120730A/ko unknown
- 2015-02-13 CA CA2936331A patent/CA2936331A1/en not_active Abandoned
-
2016
- 2016-08-12 CL CL2016002050A patent/CL2016002050A1/es unknown
Also Published As
Publication number | Publication date |
---|---|
EP3105756A1 (en) | 2016-12-21 |
CL2016002050A1 (es) | 2017-06-09 |
US20170194019A1 (en) | 2017-07-06 |
CA2936331A1 (en) | 2015-08-20 |
CN106030707A (zh) | 2016-10-12 |
AU2015217610A1 (en) | 2016-08-11 |
SG11201605362PA (en) | 2016-07-28 |
KR20160120730A (ko) | 2016-10-18 |
WO2015122785A1 (en) | 2015-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2017509014A (ja) | 音声分析および知覚増強のためのシステム | |
CN104040627B (zh) | 用于风噪声检测的方法和设备 | |
Mittal et al. | Effect of glottal dynamics in the production of shouted speech | |
CN106816158B (zh) | 一种语音质量评估方法、装置及设备 | |
Kim et al. | Nonlinear enhancement of onset for robust speech recognition. | |
CN110610719A (zh) | 声音处理设备 | |
CN104810024A (zh) | 一种双路麦克风语音降噪处理方法及系统 | |
WO2012074652A1 (en) | Voice-estimation based on real-time probing of the vocal tract | |
CN103892939B (zh) | 提高汉语声调识别率的人工耳蜗言语处理器和方法 | |
Kim et al. | Robust speech recognition using temporal masking and thresholding algorithm. | |
Mesgarani et al. | Denoising in the domain of spectrotemporal modulations | |
Derrick et al. | System for audio analysis and perception enhancement | |
Maniak et al. | Automated sound signalling device quality assurance tool for embedded industrial control applications | |
Basha et al. | Real-time enhancement of electrolaryngeal speech by spectral subtraction | |
JP4381404B2 (ja) | 音声合成システム、音声合成方法、音声合成プログラム | |
Carullo et al. | Performance comparison of different contact microphones used for voice monitoring | |
Wu et al. | Robust target feature extraction based on modified cochlear filter analysis model | |
Qaisar et al. | Automatic Speech Recognition and its Visual Perception Via a Cymatics Based Display | |
GGLGGGGGGGG | A human operator manually identifies voiceless stops in a speech signal and determines the timing of a delivery of air puffs with the occurrence of voiceless stops | |
Liu et al. | A new frequency lowering technique for Mandarin-speaking hearing aid users | |
Fulop et al. | Signal Processing in Speech and Hearing Technology | |
Wichern et al. | Removing lavalier microphone rustle with recurrent neural networks | |
CN102341853B (zh) | 用于分离信号路径的方法及用于改善电子喉语音的应用 | |
Kabir et al. | Enhancement of alaryngeal speech utilizing spectral subtraction and minimum statistics | |
Chen et al. | Investigating the relationship between glottal area waveform shape and harmonic magnitudes through computational modeling and laryngeal high-speed videoendoscopy. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170110 |