JP2014525159A - 発話の検出システム、装置及び方法 - Google Patents
発話の検出システム、装置及び方法 Download PDFInfo
- Publication number
- JP2014525159A JP2014525159A JP2014515338A JP2014515338A JP2014525159A JP 2014525159 A JP2014525159 A JP 2014525159A JP 2014515338 A JP2014515338 A JP 2014515338A JP 2014515338 A JP2014515338 A JP 2014515338A JP 2014525159 A JP2014525159 A JP 2014525159A
- Authority
- JP
- Japan
- Prior art keywords
- touch screen
- communication device
- cluster
- mobile communication
- speech activity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 19
- 238000001514 detection method Methods 0.000 title description 3
- 230000000694 effects Effects 0.000 claims abstract description 37
- 238000010295 mobile communication Methods 0.000 claims abstract description 14
- 238000004891 communication Methods 0.000 claims description 26
- 238000004458 analytical method Methods 0.000 claims description 14
- 239000000284 extract Substances 0.000 claims description 2
- 230000008569 process Effects 0.000 claims description 2
- 238000012545 processing Methods 0.000 description 9
- 238000004422 calculation algorithm Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 238000005259 measurement Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000005484 gravity Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000005855 radiation Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000002730 additional effect Effects 0.000 description 1
- 229940112822 chewing gum Drugs 0.000 description 1
- 235000015218 chewing gum Nutrition 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0487—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
- G06F3/0488—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Telephone Function (AREA)
Abstract
携帯通信システムは、(a)タッチスクリーンを備える携帯通信装置と、(b)発話活動分析器とを備える。発話活動分析器は、タッチスクリーンから、タッチスクリーンの一領域に印加される圧力を示すデータと、タッチスクリーンの一領域に印加される圧力が時間と共に変化するデータを受信する。
【選択図】 図3
【選択図】 図3
Description
本発明は、携帯電話器などの通信装置に関連するタッチスクリーンの新規の使用に関し、このような使用のために設計される通信装置に関する。本発明はさらに、発話の発生を検出することによって、携帯通信装置を操作することに関する。
携帯通信装置は最近10年間に大幅に進化してきた。この進化により、多くの事例において、携帯情報端末(PDA)などのポータブルコンピュータと、携帯電話器またはコードレス電話などの電話装置との間の区別が無くなることになった。ユーザはボイスオーバーインターネットプロトコル(VoIP)対応または携帯電話対応のPDAを用いて、携帯電話またはコードレス電話を用いて行う通信とほとんど同じように通信することが可能である。アイフォーン及びギャラクシーなどの製品は、異なる種類の装置を区別している一線を完全にあいまいにした。簡潔にするために、以下の本明細書における多くの事例では、「電話器」に言及するが、「電話器」は、前述した通信装置を含むすべての利用可能な通信装置を内包する。
電話器の使用が広がるに連れ、電話器は非常に様々な条件下で、ユーザが多様な活動に従事する際に、様々な環境で用いられる装置へと変化してきた。たとえば、同じ電話器を、あるときは静かな部屋で、またはパーティの騒々しい環境で、または風の強い屋外で用いることができる。さらに、ユーザが別の活動に従事し、電話器上の物理的なボタンまたは仮想ボタンを押すなどの追加の活動を行うためには片手しか使えないか、または両手が使えない可能性がある場合であっても、電話器を用いることができる。
特に課題となる一領域は、ユーザの発話活動の認識に関する。これは特に、騒々しい環境において通信品質を改善することと、ユーザの発話によって条件付けられる任意の別の活動を実施することの両方を目的とする。
したがって、通信装置においてユーザの発話に関連するパラメータを検出する方法及び機器が必要となる。このパラメータを用いて、通信装置内部での処理をさらに実行することができる。
本発明の目的は、通信装置においてユーザの発話に関連するパラメータを検出するために、通信装置に設けられるタッチスクリーンを有効に使うための簡潔かつ比較的安価な方法を提供することである。
本発明の別の目的は、ユーザの発話に関連するパラメータを検出可能な通信装置を提供することである。
本発明の別の目的及び有利な点は、以下の説明に応じて明らかになる。
本発明の携帯通信システムは、
a)タッチスクリーンを装備する携帯通信装置と、
b)発話活動分析器とを備える。発話活動分析器は、タッチスクリーンから、タッチスクリーンの一領域に印加される圧力を示すデータと、タッチスクリーンの一領域に印加される圧力が時間と共に変化するデータを受信するために適切である。
a)タッチスクリーンを装備する携帯通信装置と、
b)発話活動分析器とを備える。発話活動分析器は、タッチスクリーンから、タッチスクリーンの一領域に印加される圧力を示すデータと、タッチスクリーンの一領域に印加される圧力が時間と共に変化するデータを受信するために適切である。
本発明の一実施形態によれば、発話活動分析器は、
A)クラスタを特定するためのクラスタプロセッサと、
B)前記クラスタプロセッサによって特定されるクラスタからパラメータを抽出するための特徴抽出器と、
C)前記パラメータを分析するための特徴分析器と、
D)ユーザが話しているかを判断するための、前記パラメータを処理するために適切な発話活動決定要素とを備える。
A)クラスタを特定するためのクラスタプロセッサと、
B)前記クラスタプロセッサによって特定されるクラスタからパラメータを抽出するための特徴抽出器と、
C)前記パラメータを分析するための特徴分析器と、
D)ユーザが話しているかを判断するための、前記パラメータを処理するために適切な発話活動決定要素とを備える。
本発明の一実施形態では、発話活動分析器は携帯通信装置と一体であり、本発明の別の実施形態では、発話活動分析器は携帯通信装置から離間して配置され、携帯通信装置と通信する。発話活動分析器と携帯通信装置との間の通信は任意の適切な様式で実施されることができ、一般に、ワイファイ(Wi−Fi)またはブルートゥース、または任意の有線または無線手段によって実施されるが、これらに限定されない。
本発明による携帯通信装置は、携帯電話器、コードレス電話器、PDAなどの様々な種類であってもよい。
本発明はまた、タッチスクリーンを装備する携帯通信装置のユーザが前記携帯通信装置に話しかけているかを判断するための方法を対象とする。この方法は、
(i)タッチスクリーンから、前記タッチスクリーンとユーザの頬との接触から生成されるグリッド点のクラスタを表す信号を得ることと、
(ii)前記クラスタの圧力に関連するパラメータの時間と共に変化する力学を分析することと、
(iii)前記分析から、発話活動が存在するかを判断することとを備える。
(i)タッチスクリーンから、前記タッチスクリーンとユーザの頬との接触から生成されるグリッド点のクラスタを表す信号を得ることと、
(ii)前記クラスタの圧力に関連するパラメータの時間と共に変化する力学を分析することと、
(iii)前記分析から、発話活動が存在するかを判断することとを備える。
以下の明細書でさらに説明するように、クラスタは、前記タッチスクリーン上の座標によって識別可能な画素または一群の画素を備える。ユーザの頬とタッチスクリーンとの接触から得ることができるパラメータは様々な種類であってもよく、たとえば、重心、周囲、面積及び配向から、または前記パラメータの2つ以上の組み合わせから選択される。
本発明はまた、装置がユーザの耳の周辺まで移動されたかどうかの指示を得るために、携帯通信装置に設けられるセンサを有効に使う装置及び方法を内包する。
以下の詳細な説明には、本発明をよく理解できるように、多数の特定な詳細が記載されている。ただし、本発明がこれらの特定な詳細を用いずに実施されてもよい。別の事例では、既知の方法、手順、及び構成部品は、本発明を明確にするために詳細には記載されていない。
タッチスクリーン付きの携帯電話器を用いて話す場合には、ユーザは一般に、電話器をユーザの耳に当て、通常は、電話器のパネルの一部が頬に触れる。本出願者は、意外にも、電話器を機能的に操作するために用いることができるパラメータを抽出するために、ユーザの頬が電話器のタッチスクリーンに当たることによって生じる圧力から生成される信号を分析することが可能であることを発見した。ユーザが話している間、発話活動の結果として、頬によってタッチスクリーン上に生成される圧力は、大きさと場所の両方において変化する。このような圧力から誘導可能なパラメータを用いて、最も単純な事例では、ユーザが話しているかを判断することができる。より複雑な事例では、パラメータは、ユーザがゆっくりと話しているか、速く話しているか、または声の大きさなど発話のパターンに関する有益な情報を提供する。このように、本発明の実施形態によれば、タッチスクリーンは発話活動検出(SAD)のために利用されてもよい。
ここで図lAを参照すると、タッチスクリーンを装備する携帯電話器20を頬30に当てているユーザ10が例示される。図1Bも参照すると、代表的な携帯電話器20の正面図が例示され、タッチスクリーン40が占めている表面積が示される。当業者には明らかであるように、タッチスクリーンの任意の商業的な大きさは、話者の頬と触れているとき信号を生成するが、たとえば、アイフォーン4のように、より大きいタッチスクリーンを用いることが望ましい。ただし、本発明は、特定の大きさに限定されるものではなく、識別可能な信号を生成するために十分な大きさであれば有効に使用することができる。
ユーザ10が話すとき、頬30はタッチスクリーン40と接触してもよく、タッチスクリーン40上に圧力を及ぼしてもよい。実際に、これはほとんどのユーザにとって自然な配置である。タッチスクリーン40に対する頬30の圧力及び位置は、ユーザ10が携帯電話器20で話している間中、動的に変化してもよく、頬30の様々な部分は、スクリーン40の様々な領域と常に接触してもよい。会話中に、ユーザ10が話をせず、したがって、頬30がスクリーン40に対して静止していてもよい期間もあってもよい。
ここで図2を参照すると、スクリーン40の2次元グリッド表示が例示される。スクリーン40上の単一のグリッド素子41(単一の画素、または画素の大きさによっては複数の画素からなるグリッド素子であってもよい)は、「i」及び「j」座標によって表されてもよい。クラスタ50、60及び70は、電話での会話中のいずれかの時点でスクリーン40と接触する頬30の面積のスナップショットを概略的に表す。本明細書で用いる用語「クラスタ」は、同時に圧力が印加される複数の隣接するグリッド素子を表す。各個々のクラスタは、スクリーン40の異なる表面積を覆う2以上の画素を含有してもよく、スクリーン40に対して加えられる様々な圧力を検出してもよい。任意のクラスタの形状、力学及び配向の分析によって、以下で詳細に記載するように、分析に用いることができる様々なパラメータが提供される。本明細書で用いる用語「力学」は、任意の時間間隔中に特定のクラスタに起こりうる圧力の変化を表す。この圧力の変化によって、クラスタの形状の変化が生じることもある。
ここで図3を参照すると、本発明の実施形態にしたがって構成され、動作する実例的なタッチスクリーンSAD100の要素が例示される。システム100は、タッチスクリーン40と、タッチスクリーンコントローラ110と、アプリケーションプロセッサ120とを備える。アプリケーションプロセッサ120は発話活動分析器130を備える。タッチスクリーン40はコントローラ110によって制御される。コントローラ110は、スクリーン40に対して頬20が加える圧力に関する情報をプロセッサ120に提供する。プロセッサ120は次に、任意の時間nにおけるスクリーン40の各グリッド素子(i,j)での圧力Pを解釈する。時間nにおける点(i,j)の圧力P(i,j,n)は次に、プロセッサ120を介して発話活動分析器130に提供される。圧力の抽出率は、当業者には明らかであるように、使用するタッチスクリーンの種類によって、発話に関連するパラメータによって起動または制御されねばならない処理の種類によって、ならびに特定のアプリケーションが必要とする正確さのレベルによって、当然ながら変動する。指示する抽出率は、グリッド素子毎に50−100Hzの範囲内であるが、使用目的によって、もちろん多くの様々な抽出率を用いることができる。当業者は、各事例において、使用することを望む抽出率を決定する。本発明は任意の特定の抽出率に限定されない。
あるアプリケーションでは、時間kにおける発話周波数f毎の発話活動を知ることが有用であってもよい。したがって音声活動分析器130からの出力をPSAD(k,f)と表示してもよい。PSAD(k,f)は0または1の2値信号(発話活動=0、発話なし=1)または0と1との間の任意の値として提供されることができる。この値は、時間kにおいて周波数fで、発話活動が検出される可能性を表す。
様々な方法を用いて発話活動を分析することができる。そのような方法及びシステムの1つを、図4を参照して例示する。図4は、発話活動を分析するためのSAD分析システム200を概略的に示す。SAD分析システム200は、発話活動分析器130の一部であってもよく、または個別に提供されてもよい。この実例的な例では、SAD分析システム200は、クラスタプロセッサ210と、特徴抽出器220と、特徴分析器230と、SAD決定装置240とを備える。
この実例的な例によると、クラスタプロセッサ210はP(i,j,n)をタッチスクリーンコントローラ110(図3)から受信し、ユーザが話している場合は、クラスタ50、60及び70などのクラスタの存在を特定する。クラスタプロセッサ210は、2次元セグメンテーション及びクラスタリングのために用いられる任意の標準セグメンテーション・クラスタリングアルゴリズムを実装してもよい。例として、http://en.wikipedia.org/wiki/Segmentation_(image_processing)を参照のこと。
形状、配向及びその他の特徴は、クラスタ毎に分析されてもよい。特徴抽出器220は、クラスタ毎に様々なパラメータを抽出してもよく、この情報を特徴分析器230に伝達する。特徴分析器230は次に、各パラメータの時間挙動を分析する。特徴抽出器220によって抽出される実例的なパラメータは、たとえば、クラスタの重心(CoG)と、クラスタ周囲の長さ、クラスタの面積及び配向などを含む。
ここで図5Aを参照すると、特定例による、特徴分析器230(図4)によって実施される時間分析処理、及び特徴抽出器220(図5B参照)によって抽出されるパラメータのフローチャートである。時間nにおいて抽出されるパラメータの算出値は帯域通過フィルタ300を通過し、規定範囲内のパラメータのみが確実に受容されるようにする。これは、不正確な測定値が考慮されないことを確実にするためである。たとえば、ユーザ10が、会話をしていないときにガムを噛んでいる場合にも、タッチスクリーン40に対してある程度の運動が検出される。ただし、噛むことは、通常は周波数が低いため、P(i,j,n)の周波数測定値は規定閾値未満であってもよく、したがって算出時には考慮されなくてもよい。図5Aは、この特定例によって、帯域通過フィルタ300を通過するデータ301のストリームに対して行われる処理を示す。抽出されるパラメータ301には、選択した期間にわたる変化にしたがって点数を付ける。たとえば、特定のクラスタの重心を、時間と共に常に変化するかを観察するためにモニタしてもよい。これは、スクリーン40を頬に当てていながらユーザ10が話していない場合に、スクリーン40によってそれでも圧力が検出されることがあるが、特定のクラスタの重心は顕著には変化しないこともあるためである。点数320は重心パラメータに対して算出されてもよく、同様に、面積及び配向などのその他のパラメータに対して算出されてもよい。すべてのパラメータに対する最終平均点330を次に算出してもよい。最終平均点330はSAD分析器240に入力される。SAD分析器240は次に、音声活動があるかどうかに関して最終決定を行う。
本発明のタッチスクリーンSAD100は、携帯電話器20のアプリケーションプロセッサまたは任意の専用ハードウェアまたは汎用プロセッサに実装されてもよい。たとえば、タッチスクリーンに当たる頬の圧力から得られるデータを、たとえばワイファイまたはブルートゥースを介して、離間したプロセッサに伝えることができる。離間したプロセッサは分析を実施し、決定を行い、同一の回線または異なる回線を介してこの分析の結果を電話器20にフィードバックしてもよい。
ユーザ10が騒々しい環境において携帯電話器20で話す場合には、携帯電話器のマイクロフォンは周囲の騒音と結合した音声信号を拾うこともある。会話の相手が騒音消去技術を用いていないと、ユーザ10が話していないときにも相手は騒音を聞くことになる。当該技術において騒音消去または騒音抑圧のために多くの既知の技術がある。多くの携帯電話器及びヘッドセットは多様な技術を用いて、背景騒音の影響を低減する。これらの技術の大部分が成功するためには、ユーザが話しているかどうかを知ることが重要である。騒音が大きい場合には、ほとんどのSADアルゴリズムはこの点において、信頼できる決定を提供できない。
しかし、タッチスクリーンSAD100は一般に、スクリーンに対する運動及び圧力のみを検出するため、騒音には敏感ではない。上記のようなタッチスクリーンSAD100を、ユーザが話しているかどうかに関する情報に依存する、任意の適切な騒音消去技術と共に用いることによって、非常に騒々しい環境においても、高品質な音声電話を産出できる。
携帯電話器は音声圧縮アルゴリズムを用いて、携帯回線を介して送信される発話を圧縮する。現在用いられている、より一般的なアルゴリズムの1つは適応多重レートである。(AMR、たとえば、http://en.wikipedia.org/wiki/Adaptive_Multi−Rate_audio_codecを参照。)このアルゴリズムはまた、無音検出器として機能してもよい。この無音検出器は、発話信号を分析することによって、ユーザが話しているかどうかを検出してもよい。ユーザが話していないときは、少ないビットを送信する。これは、携帯電話器回線の容量を増加するため、携帯電話器の操作者にとって非常に好ましい特徴である。ただし、騒々しい環境では、アルゴリズムは発話信号と騒音信号との違いを認識することができず、無音検出器は効果がなく、送信されるビット数は高くなる。タッチスクリーンSAD100は、信頼できる無音検出器を騒々しい環境でさえも提供できる。これによって、携帯回線を介する伝達効率を顕著に改善することができる。
携帯電話器の使用中に放出される放射線量を心配するユーザもいる。本発明の代替実施形態では、タッチスクリーンSAD100を用いて、P(i,j,n)測定値があるかどうかを判断することによって、ユーザ10が携帯電話器20を顔に当てているときを判断してもよい。測定値がある場合は、この代替実施形態によって、発話活動分析器130はプロセッサ120(図3)に通信する。プロセッサ120は次に、携帯電話器20の中央処理装置(CPU)に指示して、伝達力を低減する。同一の様式で、プロセッサ120は、携帯電話器20が送信していないときには少ない電力しか必要としなくてもよいため、電池の使用を節約するために、CPUにCPU電力を低減するように指示してもよい。タッチフォンSAD100は、表示器として、無音検出器として、及び携帯電話器の放射を低減し、電力を節約するためのツールとして用いてもよい。
本発明は、ある事例においては、追加の手段と共に有効に使用されてもよい。たとえば、現代の通信装置は、装置がユーザの耳まで移動されるときを判断するために適切な加速度計などのセンサを備える。これは、たとえば、スクリーン上のタッチコマンドを無効にして、ユーザが頬でタッチコマンドを不注意に起動しないようにするためのものである。このような情報をタッチスクリーンと頬との相互作用からの入力と組み合わせることもまた、本発明の範囲である。
別段明示しない限り、前述の記載から明らかであるように、本明細書を通じて、「処理」、「算出」、「計算」、「判断」などの用語を用いる記述は、コンピュータ、算出システム、または類似する電子算出装置の行動及び/または処理を指す。コンピュータ、算出システム、または類似する電子算出装置は、算出システムのレジスタ及び/またはメモリ内で、電子などの物理量として表されるデータを利用し、及び/または算出システムのメモリ、レジスタまたはその他の情報記憶、伝達または表示装置内で物理量として同様に表されるその他のデータに変換する。
本発明の実施形態は、本明細書に記載する操作を実施するための機器を含んでいてもよい。この機器は、所望する目的のために特別に構築されてもよく、またはコンピュータに記憶されるコンピュータプログラムによって選択的に起動または再構成される汎用コンピュータを備えていてもよい。このようなコンピュータプログラムは、任意の種類のディスクなどのコンピュータ可読記憶媒体に記憶されてもよいが、これらに限定されない。コンピュータ可読記憶媒体は、フロッピディスク、光ディスク、磁気光ディスク、読み出し専用メモリ(ROM)、コンパクトディスク読み出し専用メモリ(CD−ROM)、ランダムアクセスメモリ(RAM)、電気的プログラマブル読み出し専用メモリ(EPROM)、電気的消去可能プログラマブル読み出し専用メモリ(EEPROM)、磁気または光カード、フラッシュメモリ、または電子指示を記憶するために適切であり、コンピュータシステムバスに接続可能な任意のその他の種類の媒体を含む。
本発明の一定の特徴を本明細書で例示したが、多くの修正、代替、変更、及び同等物は当業者には明らかである。添付の請求項は、本発明の趣旨の範疇にあるすべての修正及び変更を網羅することを目的とするものである。
Claims (11)
- a)タッチスクリーンを装備する携帯通信装置と、
b)発話活動分析器と、
を備える携帯通信システムであって、
発話活動分析器が、タッチスクリーンの一領域に印加される圧力を示すデータと、タッチスクリーンの一領域に印加される圧力が時間と共に変化するデータを、タッチスクリーンから受信する手段を有する
ことを特徴とする携帯通信システム。 - 発話活動分析器が、
A)クラスタを特定するクラスタプロセッサと、
B)クラスタプロセッサによって特定されるクラスタからパラメータを抽出する特徴抽出器と、
C)パラメータを分析する特徴分析器と、
D)ユーザが話しているかを判断するために、パラメータを処理する発話活動決定要素と、
を備える
請求項1に記載のシステム。 - 発話活動分析器が、携帯通信装置と一体である
請求項1に記載のシステム。 - 発話活動分析器が、携帯通信装置から離間して配置され、携帯通信装置と通信する
請求項1に記載のシステム。 - 発話活動分析器と携帯通信装置との間の通信が、ワイファイまたはブルートゥースまたは任意の有線または無線手段によって実施される
請求項1に記載のシステム。 - 携帯通信装置が、携帯電話器である
請求項3または4に記載のシステム。 - 携帯通信装置が、コードレス電話器である
請求項3または4に記載のシステム。 - タッチスクリーンを装備する携帯通信装置のユーザが、携帯通信装置に向かって話しているかを判断する方法であって、
(i)タッチスクリーンから、タッチスクリーンとユーザの頬との接触から生成されるグリッド点のクラスタを表す信号を得るステップと、
(ii)クラスタの圧力に関連するパラメータの時間と共に変化する力を分析するステップと、
(iii)その分析から、発話活動が存在するかを判断するステップと、
を有する
ことを特徴とする方法。 - クラスタが、タッチスクリーン上の座標によって識別可能な画素または一群の画素を備える
請求項8に記載の方法。 - パラメータが、重心、周囲、面積及び配向から、または、それらのパラメータの2つ以上の組み合わせから選択される
請求項8に記載の方法。 - 携帯通信装置に設けられるセンサから、携帯通信装置がユーザの耳の周辺まで移動されたかどうかの情報を得るステップを有する
請求項8に記載の方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201161497105P | 2011-06-15 | 2011-06-15 | |
US61/497,105 | 2011-06-15 | ||
PCT/IL2012/000233 WO2012172543A1 (en) | 2011-06-15 | 2012-06-14 | System, device and method for detecting speech |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2014525159A true JP2014525159A (ja) | 2014-09-25 |
Family
ID=47356611
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014515338A Pending JP2014525159A (ja) | 2011-06-15 | 2012-06-14 | 発話の検出システム、装置及び方法 |
Country Status (6)
Country | Link |
---|---|
US (1) | US9230563B2 (ja) |
EP (1) | EP2721607A1 (ja) |
JP (1) | JP2014525159A (ja) |
KR (1) | KR20140041556A (ja) |
CN (1) | CN103650032A (ja) |
WO (1) | WO2012172543A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9552376B2 (en) | 2011-06-09 | 2017-01-24 | MemoryWeb, LLC | Method and apparatus for managing digital files |
JP6569926B2 (ja) * | 2016-08-17 | 2019-09-04 | パナソニックIpマネジメント株式会社 | 音声入力装置、翻訳装置、音声入力方法、及び音声入力プログラム |
US10936178B2 (en) | 2019-01-07 | 2021-03-02 | MemoryWeb, LLC | Systems and methods for analyzing and organizing digital photos and videos |
Family Cites Families (49)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7265494B2 (en) * | 1998-10-09 | 2007-09-04 | Azoteq Pty Ltd. | Intelligent user interface with touch sensor technology |
US6615170B1 (en) * | 2000-03-07 | 2003-09-02 | International Business Machines Corporation | Model-based voice activity detection system and method using a log-likelihood ratio and pitch |
US7016833B2 (en) * | 2000-11-21 | 2006-03-21 | The Regents Of The University Of California | Speaker verification system using acoustic data and non-acoustic data |
JP2002268681A (ja) * | 2001-03-08 | 2002-09-20 | Canon Inc | 音声認識システム及び方法及び該システムに用いる情報処理装置とその方法 |
US7254775B2 (en) * | 2001-10-03 | 2007-08-07 | 3M Innovative Properties Company | Touch panel system and method for distinguishing multiple touch inputs |
US6728385B2 (en) * | 2002-02-28 | 2004-04-27 | Nacre As | Voice detection and discrimination apparatus and method |
US7251605B2 (en) * | 2002-08-19 | 2007-07-31 | The United States Of America As Represented By The Secretary Of The Navy | Speech to touch translator assembly and method |
TW200425763A (en) * | 2003-01-30 | 2004-11-16 | Aliphcom Inc | Acoustic vibration sensor |
US20080082018A1 (en) * | 2003-04-10 | 2008-04-03 | Sackner Marvin A | Systems and methods for respiratory event detection |
JP4832289B2 (ja) * | 2003-04-10 | 2011-12-07 | アディダス アーゲー | 呼吸事象検出システムおよび方法 |
EP1524586A1 (en) * | 2003-10-17 | 2005-04-20 | Sony International (Europe) GmbH | Transmitting information to a user's body |
US7542026B2 (en) * | 2003-11-03 | 2009-06-02 | International Business Machines Corporation | Apparatus method and system for improved feedback of pointing device event processing |
US8164573B2 (en) * | 2003-11-26 | 2012-04-24 | Immersion Corporation | Systems and methods for adaptive interpretation of input from a touch-sensitive input device |
US6856259B1 (en) * | 2004-02-06 | 2005-02-15 | Elo Touchsystems, Inc. | Touch sensor system to detect multiple touch events |
US7664642B2 (en) * | 2004-03-17 | 2010-02-16 | University Of Maryland | System and method for automatic speech recognition from phonetic features and acoustic landmarks |
US7457741B2 (en) * | 2004-03-30 | 2008-11-25 | National Institute of Advnaced Industrial Science and Technology | Device for transmitting speech information |
US20060033625A1 (en) * | 2004-08-11 | 2006-02-16 | General Electric Company | Digital assurance method and system to extend in-home living |
JPWO2006059679A1 (ja) * | 2004-12-02 | 2008-06-05 | 松下電器産業株式会社 | 携帯端末装置 |
US7683889B2 (en) * | 2004-12-21 | 2010-03-23 | Microsoft Corporation | Pressure based selection |
US8130203B2 (en) * | 2007-01-03 | 2012-03-06 | Apple Inc. | Multi-touch input discrimination |
US7855718B2 (en) * | 2007-01-03 | 2010-12-21 | Apple Inc. | Multi-touch input discrimination |
US10437459B2 (en) * | 2007-01-07 | 2019-10-08 | Apple Inc. | Multitouch data fusion |
US8503686B2 (en) * | 2007-05-25 | 2013-08-06 | Aliphcom | Vibration sensor and acoustic voice activity detection system (VADS) for use with electronic systems |
US20090264789A1 (en) * | 2007-09-26 | 2009-10-22 | Medtronic, Inc. | Therapy program selection |
US8125458B2 (en) * | 2007-09-28 | 2012-02-28 | Microsoft Corporation | Detecting finger orientation on a touch-sensitive device |
US9767817B2 (en) * | 2008-05-14 | 2017-09-19 | Sony Corporation | Adaptively filtering a microphone signal responsive to vibration sensed in a user's face while speaking |
CN101295223A (zh) * | 2008-06-06 | 2008-10-29 | 马晶 | 实现快捷操作的系统及其操作方法、通讯终端及使用方法 |
US8094009B2 (en) * | 2008-08-27 | 2012-01-10 | The Invention Science Fund I, Llc | Health-related signaling via wearable items |
US8271262B1 (en) * | 2008-09-22 | 2012-09-18 | ISC8 Inc. | Portable lip reading sensor system |
US8294047B2 (en) * | 2008-12-08 | 2012-10-23 | Apple Inc. | Selective input signal rejection and modification |
JP5157969B2 (ja) * | 2009-03-09 | 2013-03-06 | ソニー株式会社 | 情報処理装置、閾値設定方法及びそのプログラム |
US8572513B2 (en) * | 2009-03-16 | 2013-10-29 | Apple Inc. | Device, method, and graphical user interface for moving a current position in content at a variable scrubbing rate |
US9254383B2 (en) * | 2009-03-20 | 2016-02-09 | ElectroCore, LLC | Devices and methods for monitoring non-invasive vagus nerve stimulation |
US8412531B2 (en) * | 2009-06-10 | 2013-04-02 | Microsoft Corporation | Touch anywhere to speak |
US20110010172A1 (en) * | 2009-07-10 | 2011-01-13 | Alon Konchitsky | Noise reduction system using a sensor based speech detector |
FR2949007B1 (fr) * | 2009-08-07 | 2012-06-08 | Nanotec Solution | Dispositif et procede d'interface de commande sensible a un mouvement d'un corps ou d'un objet et equipement de commande integrant ce dispositif. |
US8179376B2 (en) * | 2009-08-27 | 2012-05-15 | Research In Motion Limited | Touch-sensitive display with capacitive and resistive touch sensors and method of control |
US8269511B2 (en) * | 2009-09-08 | 2012-09-18 | Synaptics Incorporated | Sensing and defining an input object |
US8624933B2 (en) * | 2009-09-25 | 2014-01-07 | Apple Inc. | Device, method, and graphical user interface for scrolling a multi-section document |
US9357921B2 (en) * | 2009-10-16 | 2016-06-07 | At&T Intellectual Property I, Lp | Wearable health monitoring system |
TWI423144B (zh) * | 2009-11-10 | 2014-01-11 | Inst Information Industry | Combined with the audio and video behavior identification system, identification methods and computer program products |
PT2515760E (pt) * | 2009-12-21 | 2014-05-23 | Fundación Tecnalia Res & Innovation | Sistema e método de supervisão do bem-estar afectivo |
US8531412B1 (en) * | 2010-01-06 | 2013-09-10 | Sprint Spectrum L.P. | Method and system for processing touch input |
US8698762B2 (en) * | 2010-01-06 | 2014-04-15 | Apple Inc. | Device, method, and graphical user interface for navigating and displaying content in context |
US20120019557A1 (en) * | 2010-07-22 | 2012-01-26 | Sony Ericsson Mobile Communications Ab | Displaying augmented reality information |
US8700392B1 (en) * | 2010-09-10 | 2014-04-15 | Amazon Technologies, Inc. | Speech-inclusive device interfaces |
US8773377B2 (en) * | 2011-03-04 | 2014-07-08 | Microsoft Corporation | Multi-pass touch contact tracking |
US8786561B2 (en) * | 2011-05-18 | 2014-07-22 | Microsoft Corporation | Disambiguating intentional and incidental contact and motion in multi-touch pointing devices |
US8587542B2 (en) * | 2011-06-01 | 2013-11-19 | Motorola Mobility Llc | Using pressure differences with a touch-sensitive display screen |
-
2012
- 2012-06-14 JP JP2014515338A patent/JP2014525159A/ja active Pending
- 2012-06-14 KR KR1020137033361A patent/KR20140041556A/ko not_active Application Discontinuation
- 2012-06-14 EP EP12800238.3A patent/EP2721607A1/en not_active Withdrawn
- 2012-06-14 US US14/126,138 patent/US9230563B2/en active Active
- 2012-06-14 WO PCT/IL2012/000233 patent/WO2012172543A1/en active Application Filing
- 2012-06-14 CN CN201280030692.3A patent/CN103650032A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
US9230563B2 (en) | 2016-01-05 |
US20140207444A1 (en) | 2014-07-24 |
KR20140041556A (ko) | 2014-04-04 |
CN103650032A (zh) | 2014-03-19 |
WO2012172543A1 (en) | 2012-12-20 |
EP2721607A1 (en) | 2014-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102216048B1 (ko) | 음성 명령 인식 장치 및 방법 | |
CN102890557B (zh) | 用于响应于麦克风输出的触摸手势检测的方法和系统 | |
CN105657125B (zh) | 一种用于调节通话音量的方法与设备 | |
US9547408B2 (en) | Quantifying frustration via a user interface | |
CN111210021B (zh) | 一种音频信号处理方法、模型训练方法以及相关装置 | |
CN105554303B (zh) | 一种双mic降噪方法及移动终端 | |
CN107742523B (zh) | 语音信号处理方法、装置以及移动终端 | |
WO2017032030A1 (zh) | 一种音量调节方法及用户终端 | |
CN102293012A (zh) | 耳机的耳内声检测 | |
CN109616135B (zh) | 音频处理方法、装置及存储介质 | |
US20150310878A1 (en) | Method and apparatus for determining emotion information from user voice | |
KR101559364B1 (ko) | 페이스 투 페이스 인터랙션 모니터링을 수행하는 모바일 장치, 이를 이용하는 인터랙션 모니터링 방법, 이를 포함하는 인터랙션 모니터링 시스템 및 이에 의해 수행되는 인터랙션 모니터링 모바일 애플리케이션 | |
CN110364156A (zh) | 语音交互方法、系统、终端及可读存储介质 | |
CN110335593A (zh) | 语音端点检测方法、装置、设备及存储介质 | |
CN108282575A (zh) | 音量控制方法、移动终端及计算机可读存储介质 | |
CN110390953A (zh) | 啸叫语音信号的检测方法、装置、终端及存储介质 | |
CN105677192A (zh) | 移动终端的控制方法及控制装置 | |
CN114360527A (zh) | 车载语音交互方法、装置、设备及存储介质 | |
WO2022233308A9 (zh) | 佩戴检测方法、可穿戴设备及存储介质 | |
JP2014525159A (ja) | 発話の検出システム、装置及び方法 | |
CN104217728A (zh) | 一种音频处理方法及电子设备 | |
CN105554218B (zh) | 一种听筒音量调节方法及相关设备 | |
CN107508979A (zh) | 音量调节方法、装置、终端及存储介质 | |
CN112259124B (zh) | 基于音频频域特征的对话过程捂嘴手势识别方法 | |
CN110895930B (zh) | 语音识别方法及装置 |