JP2014525159A - 発話の検出システム、装置及び方法 - Google Patents

発話の検出システム、装置及び方法 Download PDF

Info

Publication number
JP2014525159A
JP2014525159A JP2014515338A JP2014515338A JP2014525159A JP 2014525159 A JP2014525159 A JP 2014525159A JP 2014515338 A JP2014515338 A JP 2014515338A JP 2014515338 A JP2014515338 A JP 2014515338A JP 2014525159 A JP2014525159 A JP 2014525159A
Authority
JP
Japan
Prior art keywords
touch screen
communication device
cluster
mobile communication
speech activity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014515338A
Other languages
English (en)
Inventor
ハイマン、アリエ
イェフダイ、ウリ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bone Tone Communications Israel ltd
Original Assignee
Bone Tone Communications Israel ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bone Tone Communications Israel ltd filed Critical Bone Tone Communications Israel ltd
Publication of JP2014525159A publication Critical patent/JP2014525159A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Telephone Function (AREA)

Abstract

携帯通信システムは、(a)タッチスクリーンを備える携帯通信装置と、(b)発話活動分析器とを備える。発話活動分析器は、タッチスクリーンから、タッチスクリーンの一領域に印加される圧力を示すデータと、タッチスクリーンの一領域に印加される圧力が時間と共に変化するデータを受信する。
【選択図】 図3

Description

本発明は、携帯電話器などの通信装置に関連するタッチスクリーンの新規の使用に関し、このような使用のために設計される通信装置に関する。本発明はさらに、発話の発生を検出することによって、携帯通信装置を操作することに関する。
携帯通信装置は最近10年間に大幅に進化してきた。この進化により、多くの事例において、携帯情報端末(PDA)などのポータブルコンピュータと、携帯電話器またはコードレス電話などの電話装置との間の区別が無くなることになった。ユーザはボイスオーバーインターネットプロトコル(VoIP)対応または携帯電話対応のPDAを用いて、携帯電話またはコードレス電話を用いて行う通信とほとんど同じように通信することが可能である。アイフォーン及びギャラクシーなどの製品は、異なる種類の装置を区別している一線を完全にあいまいにした。簡潔にするために、以下の本明細書における多くの事例では、「電話器」に言及するが、「電話器」は、前述した通信装置を含むすべての利用可能な通信装置を内包する。
電話器の使用が広がるに連れ、電話器は非常に様々な条件下で、ユーザが多様な活動に従事する際に、様々な環境で用いられる装置へと変化してきた。たとえば、同じ電話器を、あるときは静かな部屋で、またはパーティの騒々しい環境で、または風の強い屋外で用いることができる。さらに、ユーザが別の活動に従事し、電話器上の物理的なボタンまたは仮想ボタンを押すなどの追加の活動を行うためには片手しか使えないか、または両手が使えない可能性がある場合であっても、電話器を用いることができる。
特に課題となる一領域は、ユーザの発話活動の認識に関する。これは特に、騒々しい環境において通信品質を改善することと、ユーザの発話によって条件付けられる任意の別の活動を実施することの両方を目的とする。
したがって、通信装置においてユーザの発話に関連するパラメータを検出する方法及び機器が必要となる。このパラメータを用いて、通信装置内部での処理をさらに実行することができる。
本発明の目的は、通信装置においてユーザの発話に関連するパラメータを検出するために、通信装置に設けられるタッチスクリーンを有効に使うための簡潔かつ比較的安価な方法を提供することである。
本発明の別の目的は、ユーザの発話に関連するパラメータを検出可能な通信装置を提供することである。
本発明の別の目的及び有利な点は、以下の説明に応じて明らかになる。
本発明の携帯通信システムは、
a)タッチスクリーンを装備する携帯通信装置と、
b)発話活動分析器とを備える。発話活動分析器は、タッチスクリーンから、タッチスクリーンの一領域に印加される圧力を示すデータと、タッチスクリーンの一領域に印加される圧力が時間と共に変化するデータを受信するために適切である。
本発明の一実施形態によれば、発話活動分析器は、
A)クラスタを特定するためのクラスタプロセッサと、
B)前記クラスタプロセッサによって特定されるクラスタからパラメータを抽出するための特徴抽出器と、
C)前記パラメータを分析するための特徴分析器と、
D)ユーザが話しているかを判断するための、前記パラメータを処理するために適切な発話活動決定要素とを備える。
本発明の一実施形態では、発話活動分析器は携帯通信装置と一体であり、本発明の別の実施形態では、発話活動分析器は携帯通信装置から離間して配置され、携帯通信装置と通信する。発話活動分析器と携帯通信装置との間の通信は任意の適切な様式で実施されることができ、一般に、ワイファイ(Wi−Fi)またはブルートゥース、または任意の有線または無線手段によって実施されるが、これらに限定されない。
本発明による携帯通信装置は、携帯電話器、コードレス電話器、PDAなどの様々な種類であってもよい。
本発明はまた、タッチスクリーンを装備する携帯通信装置のユーザが前記携帯通信装置に話しかけているかを判断するための方法を対象とする。この方法は、
(i)タッチスクリーンから、前記タッチスクリーンとユーザの頬との接触から生成されるグリッド点のクラスタを表す信号を得ることと、
(ii)前記クラスタの圧力に関連するパラメータの時間と共に変化する力学を分析することと、
(iii)前記分析から、発話活動が存在するかを判断することとを備える。
以下の明細書でさらに説明するように、クラスタは、前記タッチスクリーン上の座標によって識別可能な画素または一群の画素を備える。ユーザの頬とタッチスクリーンとの接触から得ることができるパラメータは様々な種類であってもよく、たとえば、重心、周囲、面積及び配向から、または前記パラメータの2つ以上の組み合わせから選択される。
本発明はまた、装置がユーザの耳の周辺まで移動されたかどうかの指示を得るために、携帯通信装置に設けられるセンサを有効に使う装置及び方法を内包する。
本発明に関連する典型的な状況を概略的に例示し、タッチスクリーンを装備する携帯電話器を頬に当てているユーザを例示する説明図 本発明に関連する典型的な状況を概略的に例示し、代表的な携帯電話器の正面図を例示する説明図 タッチスクリーンの2次元グリッド表示を概略的に例示する説明図 本発明の実施形態にしたがって構成され、動作する発話活動検出(SAD)に適切なタッチスクリーンの実例的な要素を例示するフローチャート SAD分析システムを概略的に示すフローチャート タッチスクリーンから得たデータの分析を例示し、特徴分析器が実施する時間分析処理のフローチャートを例示するフローチャート タッチスクリーンから得たデータの分析を例示し、特徴抽出器が抽出するパラメータの入力を例示するフローチャート
以下の詳細な説明には、本発明をよく理解できるように、多数の特定な詳細が記載されている。ただし、本発明がこれらの特定な詳細を用いずに実施されてもよい。別の事例では、既知の方法、手順、及び構成部品は、本発明を明確にするために詳細には記載されていない。
タッチスクリーン付きの携帯電話器を用いて話す場合には、ユーザは一般に、電話器をユーザの耳に当て、通常は、電話器のパネルの一部が頬に触れる。本出願者は、意外にも、電話器を機能的に操作するために用いることができるパラメータを抽出するために、ユーザの頬が電話器のタッチスクリーンに当たることによって生じる圧力から生成される信号を分析することが可能であることを発見した。ユーザが話している間、発話活動の結果として、頬によってタッチスクリーン上に生成される圧力は、大きさと場所の両方において変化する。このような圧力から誘導可能なパラメータを用いて、最も単純な事例では、ユーザが話しているかを判断することができる。より複雑な事例では、パラメータは、ユーザがゆっくりと話しているか、速く話しているか、または声の大きさなど発話のパターンに関する有益な情報を提供する。このように、本発明の実施形態によれば、タッチスクリーンは発話活動検出(SAD)のために利用されてもよい。
ここで図lAを参照すると、タッチスクリーンを装備する携帯電話器20を頬30に当てているユーザ10が例示される。図1Bも参照すると、代表的な携帯電話器20の正面図が例示され、タッチスクリーン40が占めている表面積が示される。当業者には明らかであるように、タッチスクリーンの任意の商業的な大きさは、話者の頬と触れているとき信号を生成するが、たとえば、アイフォーン4のように、より大きいタッチスクリーンを用いることが望ましい。ただし、本発明は、特定の大きさに限定されるものではなく、識別可能な信号を生成するために十分な大きさであれば有効に使用することができる。
ユーザ10が話すとき、頬30はタッチスクリーン40と接触してもよく、タッチスクリーン40上に圧力を及ぼしてもよい。実際に、これはほとんどのユーザにとって自然な配置である。タッチスクリーン40に対する頬30の圧力及び位置は、ユーザ10が携帯電話器20で話している間中、動的に変化してもよく、頬30の様々な部分は、スクリーン40の様々な領域と常に接触してもよい。会話中に、ユーザ10が話をせず、したがって、頬30がスクリーン40に対して静止していてもよい期間もあってもよい。
ここで図2を参照すると、スクリーン40の2次元グリッド表示が例示される。スクリーン40上の単一のグリッド素子41(単一の画素、または画素の大きさによっては複数の画素からなるグリッド素子であってもよい)は、「i」及び「j」座標によって表されてもよい。クラスタ50、60及び70は、電話での会話中のいずれかの時点でスクリーン40と接触する頬30の面積のスナップショットを概略的に表す。本明細書で用いる用語「クラスタ」は、同時に圧力が印加される複数の隣接するグリッド素子を表す。各個々のクラスタは、スクリーン40の異なる表面積を覆う2以上の画素を含有してもよく、スクリーン40に対して加えられる様々な圧力を検出してもよい。任意のクラスタの形状、力学及び配向の分析によって、以下で詳細に記載するように、分析に用いることができる様々なパラメータが提供される。本明細書で用いる用語「力学」は、任意の時間間隔中に特定のクラスタに起こりうる圧力の変化を表す。この圧力の変化によって、クラスタの形状の変化が生じることもある。
ここで図3を参照すると、本発明の実施形態にしたがって構成され、動作する実例的なタッチスクリーンSAD100の要素が例示される。システム100は、タッチスクリーン40と、タッチスクリーンコントローラ110と、アプリケーションプロセッサ120とを備える。アプリケーションプロセッサ120は発話活動分析器130を備える。タッチスクリーン40はコントローラ110によって制御される。コントローラ110は、スクリーン40に対して頬20が加える圧力に関する情報をプロセッサ120に提供する。プロセッサ120は次に、任意の時間nにおけるスクリーン40の各グリッド素子(i,j)での圧力Pを解釈する。時間nにおける点(i,j)の圧力P(i,j,n)は次に、プロセッサ120を介して発話活動分析器130に提供される。圧力の抽出率は、当業者には明らかであるように、使用するタッチスクリーンの種類によって、発話に関連するパラメータによって起動または制御されねばならない処理の種類によって、ならびに特定のアプリケーションが必要とする正確さのレベルによって、当然ながら変動する。指示する抽出率は、グリッド素子毎に50−100Hzの範囲内であるが、使用目的によって、もちろん多くの様々な抽出率を用いることができる。当業者は、各事例において、使用することを望む抽出率を決定する。本発明は任意の特定の抽出率に限定されない。
あるアプリケーションでは、時間kにおける発話周波数f毎の発話活動を知ることが有用であってもよい。したがって音声活動分析器130からの出力をPSAD(k,f)と表示してもよい。PSAD(k,f)は0または1の2値信号(発話活動=0、発話なし=1)または0と1との間の任意の値として提供されることができる。この値は、時間kにおいて周波数fで、発話活動が検出される可能性を表す。
様々な方法を用いて発話活動を分析することができる。そのような方法及びシステムの1つを、図4を参照して例示する。図4は、発話活動を分析するためのSAD分析システム200を概略的に示す。SAD分析システム200は、発話活動分析器130の一部であってもよく、または個別に提供されてもよい。この実例的な例では、SAD分析システム200は、クラスタプロセッサ210と、特徴抽出器220と、特徴分析器230と、SAD決定装置240とを備える。
この実例的な例によると、クラスタプロセッサ210はP(i,j,n)をタッチスクリーンコントローラ110(図3)から受信し、ユーザが話している場合は、クラスタ50、60及び70などのクラスタの存在を特定する。クラスタプロセッサ210は、2次元セグメンテーション及びクラスタリングのために用いられる任意の標準セグメンテーション・クラスタリングアルゴリズムを実装してもよい。例として、http://en.wikipedia.org/wiki/Segmentation_(image_processing)を参照のこと。
形状、配向及びその他の特徴は、クラスタ毎に分析されてもよい。特徴抽出器220は、クラスタ毎に様々なパラメータを抽出してもよく、この情報を特徴分析器230に伝達する。特徴分析器230は次に、各パラメータの時間挙動を分析する。特徴抽出器220によって抽出される実例的なパラメータは、たとえば、クラスタの重心(CoG)と、クラスタ周囲の長さ、クラスタの面積及び配向などを含む。
ここで図5Aを参照すると、特定例による、特徴分析器230(図4)によって実施される時間分析処理、及び特徴抽出器220(図5B参照)によって抽出されるパラメータのフローチャートである。時間nにおいて抽出されるパラメータの算出値は帯域通過フィルタ300を通過し、規定範囲内のパラメータのみが確実に受容されるようにする。これは、不正確な測定値が考慮されないことを確実にするためである。たとえば、ユーザ10が、会話をしていないときにガムを噛んでいる場合にも、タッチスクリーン40に対してある程度の運動が検出される。ただし、噛むことは、通常は周波数が低いため、P(i,j,n)の周波数測定値は規定閾値未満であってもよく、したがって算出時には考慮されなくてもよい。図5Aは、この特定例によって、帯域通過フィルタ300を通過するデータ301のストリームに対して行われる処理を示す。抽出されるパラメータ301には、選択した期間にわたる変化にしたがって点数を付ける。たとえば、特定のクラスタの重心を、時間と共に常に変化するかを観察するためにモニタしてもよい。これは、スクリーン40を頬に当てていながらユーザ10が話していない場合に、スクリーン40によってそれでも圧力が検出されることがあるが、特定のクラスタの重心は顕著には変化しないこともあるためである。点数320は重心パラメータに対して算出されてもよく、同様に、面積及び配向などのその他のパラメータに対して算出されてもよい。すべてのパラメータに対する最終平均点330を次に算出してもよい。最終平均点330はSAD分析器240に入力される。SAD分析器240は次に、音声活動があるかどうかに関して最終決定を行う。
本発明のタッチスクリーンSAD100は、携帯電話器20のアプリケーションプロセッサまたは任意の専用ハードウェアまたは汎用プロセッサに実装されてもよい。たとえば、タッチスクリーンに当たる頬の圧力から得られるデータを、たとえばワイファイまたはブルートゥースを介して、離間したプロセッサに伝えることができる。離間したプロセッサは分析を実施し、決定を行い、同一の回線または異なる回線を介してこの分析の結果を電話器20にフィードバックしてもよい。
ユーザ10が騒々しい環境において携帯電話器20で話す場合には、携帯電話器のマイクロフォンは周囲の騒音と結合した音声信号を拾うこともある。会話の相手が騒音消去技術を用いていないと、ユーザ10が話していないときにも相手は騒音を聞くことになる。当該技術において騒音消去または騒音抑圧のために多くの既知の技術がある。多くの携帯電話器及びヘッドセットは多様な技術を用いて、背景騒音の影響を低減する。これらの技術の大部分が成功するためには、ユーザが話しているかどうかを知ることが重要である。騒音が大きい場合には、ほとんどのSADアルゴリズムはこの点において、信頼できる決定を提供できない。
しかし、タッチスクリーンSAD100は一般に、スクリーンに対する運動及び圧力のみを検出するため、騒音には敏感ではない。上記のようなタッチスクリーンSAD100を、ユーザが話しているかどうかに関する情報に依存する、任意の適切な騒音消去技術と共に用いることによって、非常に騒々しい環境においても、高品質な音声電話を産出できる。
携帯電話器は音声圧縮アルゴリズムを用いて、携帯回線を介して送信される発話を圧縮する。現在用いられている、より一般的なアルゴリズムの1つは適応多重レートである。(AMR、たとえば、http://en.wikipedia.org/wiki/Adaptive_Multi−Rate_audio_codecを参照。)このアルゴリズムはまた、無音検出器として機能してもよい。この無音検出器は、発話信号を分析することによって、ユーザが話しているかどうかを検出してもよい。ユーザが話していないときは、少ないビットを送信する。これは、携帯電話器回線の容量を増加するため、携帯電話器の操作者にとって非常に好ましい特徴である。ただし、騒々しい環境では、アルゴリズムは発話信号と騒音信号との違いを認識することができず、無音検出器は効果がなく、送信されるビット数は高くなる。タッチスクリーンSAD100は、信頼できる無音検出器を騒々しい環境でさえも提供できる。これによって、携帯回線を介する伝達効率を顕著に改善することができる。
携帯電話器の使用中に放出される放射線量を心配するユーザもいる。本発明の代替実施形態では、タッチスクリーンSAD100を用いて、P(i,j,n)測定値があるかどうかを判断することによって、ユーザ10が携帯電話器20を顔に当てているときを判断してもよい。測定値がある場合は、この代替実施形態によって、発話活動分析器130はプロセッサ120(図3)に通信する。プロセッサ120は次に、携帯電話器20の中央処理装置(CPU)に指示して、伝達力を低減する。同一の様式で、プロセッサ120は、携帯電話器20が送信していないときには少ない電力しか必要としなくてもよいため、電池の使用を節約するために、CPUにCPU電力を低減するように指示してもよい。タッチフォンSAD100は、表示器として、無音検出器として、及び携帯電話器の放射を低減し、電力を節約するためのツールとして用いてもよい。
本発明は、ある事例においては、追加の手段と共に有効に使用されてもよい。たとえば、現代の通信装置は、装置がユーザの耳まで移動されるときを判断するために適切な加速度計などのセンサを備える。これは、たとえば、スクリーン上のタッチコマンドを無効にして、ユーザが頬でタッチコマンドを不注意に起動しないようにするためのものである。このような情報をタッチスクリーンと頬との相互作用からの入力と組み合わせることもまた、本発明の範囲である。
別段明示しない限り、前述の記載から明らかであるように、本明細書を通じて、「処理」、「算出」、「計算」、「判断」などの用語を用いる記述は、コンピュータ、算出システム、または類似する電子算出装置の行動及び/または処理を指す。コンピュータ、算出システム、または類似する電子算出装置は、算出システムのレジスタ及び/またはメモリ内で、電子などの物理量として表されるデータを利用し、及び/または算出システムのメモリ、レジスタまたはその他の情報記憶、伝達または表示装置内で物理量として同様に表されるその他のデータに変換する。
本発明の実施形態は、本明細書に記載する操作を実施するための機器を含んでいてもよい。この機器は、所望する目的のために特別に構築されてもよく、またはコンピュータに記憶されるコンピュータプログラムによって選択的に起動または再構成される汎用コンピュータを備えていてもよい。このようなコンピュータプログラムは、任意の種類のディスクなどのコンピュータ可読記憶媒体に記憶されてもよいが、これらに限定されない。コンピュータ可読記憶媒体は、フロッピディスク、光ディスク、磁気光ディスク、読み出し専用メモリ(ROM)、コンパクトディスク読み出し専用メモリ(CD−ROM)、ランダムアクセスメモリ(RAM)、電気的プログラマブル読み出し専用メモリ(EPROM)、電気的消去可能プログラマブル読み出し専用メモリ(EEPROM)、磁気または光カード、フラッシュメモリ、または電子指示を記憶するために適切であり、コンピュータシステムバスに接続可能な任意のその他の種類の媒体を含む。
本発明の一定の特徴を本明細書で例示したが、多くの修正、代替、変更、及び同等物は当業者には明らかである。添付の請求項は、本発明の趣旨の範疇にあるすべての修正及び変更を網羅することを目的とするものである。

Claims (11)

  1. a)タッチスクリーンを装備する携帯通信装置と、
    b)発話活動分析器と、
    を備える携帯通信システムであって、
    発話活動分析器が、タッチスクリーンの一領域に印加される圧力を示すデータと、タッチスクリーンの一領域に印加される圧力が時間と共に変化するデータを、タッチスクリーンから受信する手段を有する
    ことを特徴とする携帯通信システム。
  2. 発話活動分析器が、
    A)クラスタを特定するクラスタプロセッサと、
    B)クラスタプロセッサによって特定されるクラスタからパラメータを抽出する特徴抽出器と、
    C)パラメータを分析する特徴分析器と、
    D)ユーザが話しているかを判断するために、パラメータを処理する発話活動決定要素と、
    を備える
    請求項1に記載のシステム。
  3. 発話活動分析器が、携帯通信装置と一体である
    請求項1に記載のシステム。
  4. 発話活動分析器が、携帯通信装置から離間して配置され、携帯通信装置と通信する
    請求項1に記載のシステム。
  5. 発話活動分析器と携帯通信装置との間の通信が、ワイファイまたはブルートゥースまたは任意の有線または無線手段によって実施される
    請求項1に記載のシステム。
  6. 携帯通信装置が、携帯電話器である
    請求項3または4に記載のシステム。
  7. 携帯通信装置が、コードレス電話器である
    請求項3または4に記載のシステム。
  8. タッチスクリーンを装備する携帯通信装置のユーザが、携帯通信装置に向かって話しているかを判断する方法であって、
    (i)タッチスクリーンから、タッチスクリーンとユーザの頬との接触から生成されるグリッド点のクラスタを表す信号を得るステップと、
    (ii)クラスタの圧力に関連するパラメータの時間と共に変化する力を分析するステップと、
    (iii)その分析から、発話活動が存在するかを判断するステップと、
    を有する
    ことを特徴とする方法。
  9. クラスタが、タッチスクリーン上の座標によって識別可能な画素または一群の画素を備える
    請求項8に記載の方法。
  10. パラメータが、重心、周囲、面積及び配向から、または、それらのパラメータの2つ以上の組み合わせから選択される
    請求項8に記載の方法。
  11. 携帯通信装置に設けられるセンサから、携帯通信装置がユーザの耳の周辺まで移動されたかどうかの情報を得るステップを有する
    請求項8に記載の方法。
JP2014515338A 2011-06-15 2012-06-14 発話の検出システム、装置及び方法 Pending JP2014525159A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201161497105P 2011-06-15 2011-06-15
US61/497,105 2011-06-15
PCT/IL2012/000233 WO2012172543A1 (en) 2011-06-15 2012-06-14 System, device and method for detecting speech

Publications (1)

Publication Number Publication Date
JP2014525159A true JP2014525159A (ja) 2014-09-25

Family

ID=47356611

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014515338A Pending JP2014525159A (ja) 2011-06-15 2012-06-14 発話の検出システム、装置及び方法

Country Status (6)

Country Link
US (1) US9230563B2 (ja)
EP (1) EP2721607A1 (ja)
JP (1) JP2014525159A (ja)
KR (1) KR20140041556A (ja)
CN (1) CN103650032A (ja)
WO (1) WO2012172543A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9552376B2 (en) 2011-06-09 2017-01-24 MemoryWeb, LLC Method and apparatus for managing digital files
JP6569926B2 (ja) * 2016-08-17 2019-09-04 パナソニックIpマネジメント株式会社 音声入力装置、翻訳装置、音声入力方法、及び音声入力プログラム
US10936178B2 (en) 2019-01-07 2021-03-02 MemoryWeb, LLC Systems and methods for analyzing and organizing digital photos and videos

Family Cites Families (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7265494B2 (en) * 1998-10-09 2007-09-04 Azoteq Pty Ltd. Intelligent user interface with touch sensor technology
US6615170B1 (en) * 2000-03-07 2003-09-02 International Business Machines Corporation Model-based voice activity detection system and method using a log-likelihood ratio and pitch
US7016833B2 (en) * 2000-11-21 2006-03-21 The Regents Of The University Of California Speaker verification system using acoustic data and non-acoustic data
JP2002268681A (ja) * 2001-03-08 2002-09-20 Canon Inc 音声認識システム及び方法及び該システムに用いる情報処理装置とその方法
US7254775B2 (en) * 2001-10-03 2007-08-07 3M Innovative Properties Company Touch panel system and method for distinguishing multiple touch inputs
US6728385B2 (en) * 2002-02-28 2004-04-27 Nacre As Voice detection and discrimination apparatus and method
US7251605B2 (en) * 2002-08-19 2007-07-31 The United States Of America As Represented By The Secretary Of The Navy Speech to touch translator assembly and method
TW200425763A (en) * 2003-01-30 2004-11-16 Aliphcom Inc Acoustic vibration sensor
US20080082018A1 (en) * 2003-04-10 2008-04-03 Sackner Marvin A Systems and methods for respiratory event detection
JP4832289B2 (ja) * 2003-04-10 2011-12-07 アディダス アーゲー 呼吸事象検出システムおよび方法
EP1524586A1 (en) * 2003-10-17 2005-04-20 Sony International (Europe) GmbH Transmitting information to a user's body
US7542026B2 (en) * 2003-11-03 2009-06-02 International Business Machines Corporation Apparatus method and system for improved feedback of pointing device event processing
US8164573B2 (en) * 2003-11-26 2012-04-24 Immersion Corporation Systems and methods for adaptive interpretation of input from a touch-sensitive input device
US6856259B1 (en) * 2004-02-06 2005-02-15 Elo Touchsystems, Inc. Touch sensor system to detect multiple touch events
US7664642B2 (en) * 2004-03-17 2010-02-16 University Of Maryland System and method for automatic speech recognition from phonetic features and acoustic landmarks
US7457741B2 (en) * 2004-03-30 2008-11-25 National Institute of Advnaced Industrial Science and Technology Device for transmitting speech information
US20060033625A1 (en) * 2004-08-11 2006-02-16 General Electric Company Digital assurance method and system to extend in-home living
JPWO2006059679A1 (ja) * 2004-12-02 2008-06-05 松下電器産業株式会社 携帯端末装置
US7683889B2 (en) * 2004-12-21 2010-03-23 Microsoft Corporation Pressure based selection
US8130203B2 (en) * 2007-01-03 2012-03-06 Apple Inc. Multi-touch input discrimination
US7855718B2 (en) * 2007-01-03 2010-12-21 Apple Inc. Multi-touch input discrimination
US10437459B2 (en) * 2007-01-07 2019-10-08 Apple Inc. Multitouch data fusion
US8503686B2 (en) * 2007-05-25 2013-08-06 Aliphcom Vibration sensor and acoustic voice activity detection system (VADS) for use with electronic systems
US20090264789A1 (en) * 2007-09-26 2009-10-22 Medtronic, Inc. Therapy program selection
US8125458B2 (en) * 2007-09-28 2012-02-28 Microsoft Corporation Detecting finger orientation on a touch-sensitive device
US9767817B2 (en) * 2008-05-14 2017-09-19 Sony Corporation Adaptively filtering a microphone signal responsive to vibration sensed in a user's face while speaking
CN101295223A (zh) * 2008-06-06 2008-10-29 马晶 实现快捷操作的系统及其操作方法、通讯终端及使用方法
US8094009B2 (en) * 2008-08-27 2012-01-10 The Invention Science Fund I, Llc Health-related signaling via wearable items
US8271262B1 (en) * 2008-09-22 2012-09-18 ISC8 Inc. Portable lip reading sensor system
US8294047B2 (en) * 2008-12-08 2012-10-23 Apple Inc. Selective input signal rejection and modification
JP5157969B2 (ja) * 2009-03-09 2013-03-06 ソニー株式会社 情報処理装置、閾値設定方法及びそのプログラム
US8572513B2 (en) * 2009-03-16 2013-10-29 Apple Inc. Device, method, and graphical user interface for moving a current position in content at a variable scrubbing rate
US9254383B2 (en) * 2009-03-20 2016-02-09 ElectroCore, LLC Devices and methods for monitoring non-invasive vagus nerve stimulation
US8412531B2 (en) * 2009-06-10 2013-04-02 Microsoft Corporation Touch anywhere to speak
US20110010172A1 (en) * 2009-07-10 2011-01-13 Alon Konchitsky Noise reduction system using a sensor based speech detector
FR2949007B1 (fr) * 2009-08-07 2012-06-08 Nanotec Solution Dispositif et procede d'interface de commande sensible a un mouvement d'un corps ou d'un objet et equipement de commande integrant ce dispositif.
US8179376B2 (en) * 2009-08-27 2012-05-15 Research In Motion Limited Touch-sensitive display with capacitive and resistive touch sensors and method of control
US8269511B2 (en) * 2009-09-08 2012-09-18 Synaptics Incorporated Sensing and defining an input object
US8624933B2 (en) * 2009-09-25 2014-01-07 Apple Inc. Device, method, and graphical user interface for scrolling a multi-section document
US9357921B2 (en) * 2009-10-16 2016-06-07 At&T Intellectual Property I, Lp Wearable health monitoring system
TWI423144B (zh) * 2009-11-10 2014-01-11 Inst Information Industry Combined with the audio and video behavior identification system, identification methods and computer program products
PT2515760E (pt) * 2009-12-21 2014-05-23 Fundación Tecnalia Res & Innovation Sistema e método de supervisão do bem-estar afectivo
US8531412B1 (en) * 2010-01-06 2013-09-10 Sprint Spectrum L.P. Method and system for processing touch input
US8698762B2 (en) * 2010-01-06 2014-04-15 Apple Inc. Device, method, and graphical user interface for navigating and displaying content in context
US20120019557A1 (en) * 2010-07-22 2012-01-26 Sony Ericsson Mobile Communications Ab Displaying augmented reality information
US8700392B1 (en) * 2010-09-10 2014-04-15 Amazon Technologies, Inc. Speech-inclusive device interfaces
US8773377B2 (en) * 2011-03-04 2014-07-08 Microsoft Corporation Multi-pass touch contact tracking
US8786561B2 (en) * 2011-05-18 2014-07-22 Microsoft Corporation Disambiguating intentional and incidental contact and motion in multi-touch pointing devices
US8587542B2 (en) * 2011-06-01 2013-11-19 Motorola Mobility Llc Using pressure differences with a touch-sensitive display screen

Also Published As

Publication number Publication date
US9230563B2 (en) 2016-01-05
US20140207444A1 (en) 2014-07-24
KR20140041556A (ko) 2014-04-04
CN103650032A (zh) 2014-03-19
WO2012172543A1 (en) 2012-12-20
EP2721607A1 (en) 2014-04-23

Similar Documents

Publication Publication Date Title
KR102216048B1 (ko) 음성 명령 인식 장치 및 방법
CN102890557B (zh) 用于响应于麦克风输出的触摸手势检测的方法和系统
CN105657125B (zh) 一种用于调节通话音量的方法与设备
US9547408B2 (en) Quantifying frustration via a user interface
CN111210021B (zh) 一种音频信号处理方法、模型训练方法以及相关装置
CN105554303B (zh) 一种双mic降噪方法及移动终端
CN107742523B (zh) 语音信号处理方法、装置以及移动终端
WO2017032030A1 (zh) 一种音量调节方法及用户终端
CN102293012A (zh) 耳机的耳内声检测
CN109616135B (zh) 音频处理方法、装置及存储介质
US20150310878A1 (en) Method and apparatus for determining emotion information from user voice
KR101559364B1 (ko) 페이스 투 페이스 인터랙션 모니터링을 수행하는 모바일 장치, 이를 이용하는 인터랙션 모니터링 방법, 이를 포함하는 인터랙션 모니터링 시스템 및 이에 의해 수행되는 인터랙션 모니터링 모바일 애플리케이션
CN110364156A (zh) 语音交互方法、系统、终端及可读存储介质
CN110335593A (zh) 语音端点检测方法、装置、设备及存储介质
CN108282575A (zh) 音量控制方法、移动终端及计算机可读存储介质
CN110390953A (zh) 啸叫语音信号的检测方法、装置、终端及存储介质
CN105677192A (zh) 移动终端的控制方法及控制装置
CN114360527A (zh) 车载语音交互方法、装置、设备及存储介质
WO2022233308A9 (zh) 佩戴检测方法、可穿戴设备及存储介质
JP2014525159A (ja) 発話の検出システム、装置及び方法
CN104217728A (zh) 一种音频处理方法及电子设备
CN105554218B (zh) 一种听筒音量调节方法及相关设备
CN107508979A (zh) 音量调节方法、装置、终端及存储介质
CN112259124B (zh) 基于音频频域特征的对话过程捂嘴手势识别方法
CN110895930B (zh) 语音识别方法及装置