JP2014525159A

JP2014525159A - 発話の検出システム、装置及び方法

Info

Publication number: JP2014525159A
Application number: JP2014515338A
Authority: JP
Inventors: ハイマン、アリエ; イェフダイ、ウリ
Original assignee: Bone Tone Communications Israel ltd
Current assignee: Bone Tone Communications Israel ltd
Priority date: 2011-06-15
Filing date: 2012-06-14
Publication date: 2014-09-25
Also published as: US9230563B2; US20140207444A1; KR20140041556A; CN103650032A; WO2012172543A1; EP2721607A1

Abstract

携帯通信システムは、（ａ）タッチスクリーンを備える携帯通信装置と、（ｂ）発話活動分析器とを備える。発話活動分析器は、タッチスクリーンから、タッチスクリーンの一領域に印加される圧力を示すデータと、タッチスクリーンの一領域に印加される圧力が時間と共に変化するデータを受信する。
【選択図】図３

Description

本発明は、携帯電話器などの通信装置に関連するタッチスクリーンの新規の使用に関し、このような使用のために設計される通信装置に関する。本発明はさらに、発話の発生を検出することによって、携帯通信装置を操作することに関する。

携帯通信装置は最近１０年間に大幅に進化してきた。この進化により、多くの事例において、携帯情報端末（ＰＤＡ）などのポータブルコンピュータと、携帯電話器またはコードレス電話などの電話装置との間の区別が無くなることになった。ユーザはボイスオーバーインターネットプロトコル（ＶｏＩＰ）対応または携帯電話対応のＰＤＡを用いて、携帯電話またはコードレス電話を用いて行う通信とほとんど同じように通信することが可能である。アイフォーン及びギャラクシーなどの製品は、異なる種類の装置を区別している一線を完全にあいまいにした。簡潔にするために、以下の本明細書における多くの事例では、「電話器」に言及するが、「電話器」は、前述した通信装置を含むすべての利用可能な通信装置を内包する。

電話器の使用が広がるに連れ、電話器は非常に様々な条件下で、ユーザが多様な活動に従事する際に、様々な環境で用いられる装置へと変化してきた。たとえば、同じ電話器を、あるときは静かな部屋で、またはパーティの騒々しい環境で、または風の強い屋外で用いることができる。さらに、ユーザが別の活動に従事し、電話器上の物理的なボタンまたは仮想ボタンを押すなどの追加の活動を行うためには片手しか使えないか、または両手が使えない可能性がある場合であっても、電話器を用いることができる。

特に課題となる一領域は、ユーザの発話活動の認識に関する。これは特に、騒々しい環境において通信品質を改善することと、ユーザの発話によって条件付けられる任意の別の活動を実施することの両方を目的とする。

したがって、通信装置においてユーザの発話に関連するパラメータを検出する方法及び機器が必要となる。このパラメータを用いて、通信装置内部での処理をさらに実行することができる。

本発明の目的は、通信装置においてユーザの発話に関連するパラメータを検出するために、通信装置に設けられるタッチスクリーンを有効に使うための簡潔かつ比較的安価な方法を提供することである。

本発明の別の目的は、ユーザの発話に関連するパラメータを検出可能な通信装置を提供することである。

本発明の別の目的及び有利な点は、以下の説明に応じて明らかになる。

本発明の携帯通信システムは、
ａ）タッチスクリーンを装備する携帯通信装置と、
ｂ）発話活動分析器とを備える。発話活動分析器は、タッチスクリーンから、タッチスクリーンの一領域に印加される圧力を示すデータと、タッチスクリーンの一領域に印加される圧力が時間と共に変化するデータを受信するために適切である。

本発明の一実施形態によれば、発話活動分析器は、
Ａ）クラスタを特定するためのクラスタプロセッサと、
Ｂ）前記クラスタプロセッサによって特定されるクラスタからパラメータを抽出するための特徴抽出器と、
Ｃ）前記パラメータを分析するための特徴分析器と、
Ｄ）ユーザが話しているかを判断するための、前記パラメータを処理するために適切な発話活動決定要素とを備える。

本発明の一実施形態では、発話活動分析器は携帯通信装置と一体であり、本発明の別の実施形態では、発話活動分析器は携帯通信装置から離間して配置され、携帯通信装置と通信する。発話活動分析器と携帯通信装置との間の通信は任意の適切な様式で実施されることができ、一般に、ワイファイ（Ｗｉ−Ｆｉ）またはブルートゥース、または任意の有線または無線手段によって実施されるが、これらに限定されない。

本発明による携帯通信装置は、携帯電話器、コードレス電話器、ＰＤＡなどの様々な種類であってもよい。

本発明はまた、タッチスクリーンを装備する携帯通信装置のユーザが前記携帯通信装置に話しかけているかを判断するための方法を対象とする。この方法は、
（ｉ）タッチスクリーンから、前記タッチスクリーンとユーザの頬との接触から生成されるグリッド点のクラスタを表す信号を得ることと、
（ｉｉ）前記クラスタの圧力に関連するパラメータの時間と共に変化する力学を分析することと、
（ｉｉｉ）前記分析から、発話活動が存在するかを判断することとを備える。

以下の明細書でさらに説明するように、クラスタは、前記タッチスクリーン上の座標によって識別可能な画素または一群の画素を備える。ユーザの頬とタッチスクリーンとの接触から得ることができるパラメータは様々な種類であってもよく、たとえば、重心、周囲、面積及び配向から、または前記パラメータの２つ以上の組み合わせから選択される。

本発明はまた、装置がユーザの耳の周辺まで移動されたかどうかの指示を得るために、携帯通信装置に設けられるセンサを有効に使う装置及び方法を内包する。

本発明に関連する典型的な状況を概略的に例示し、タッチスクリーンを装備する携帯電話器を頬に当てているユーザを例示する説明図本発明に関連する典型的な状況を概略的に例示し、代表的な携帯電話器の正面図を例示する説明図タッチスクリーンの２次元グリッド表示を概略的に例示する説明図本発明の実施形態にしたがって構成され、動作する発話活動検出（ＳＡＤ）に適切なタッチスクリーンの実例的な要素を例示するフローチャートＳＡＤ分析システムを概略的に示すフローチャートタッチスクリーンから得たデータの分析を例示し、特徴分析器が実施する時間分析処理のフローチャートを例示するフローチャートタッチスクリーンから得たデータの分析を例示し、特徴抽出器が抽出するパラメータの入力を例示するフローチャート

以下の詳細な説明には、本発明をよく理解できるように、多数の特定な詳細が記載されている。ただし、本発明がこれらの特定な詳細を用いずに実施されてもよい。別の事例では、既知の方法、手順、及び構成部品は、本発明を明確にするために詳細には記載されていない。

タッチスクリーン付きの携帯電話器を用いて話す場合には、ユーザは一般に、電話器をユーザの耳に当て、通常は、電話器のパネルの一部が頬に触れる。本出願者は、意外にも、電話器を機能的に操作するために用いることができるパラメータを抽出するために、ユーザの頬が電話器のタッチスクリーンに当たることによって生じる圧力から生成される信号を分析することが可能であることを発見した。ユーザが話している間、発話活動の結果として、頬によってタッチスクリーン上に生成される圧力は、大きさと場所の両方において変化する。このような圧力から誘導可能なパラメータを用いて、最も単純な事例では、ユーザが話しているかを判断することができる。より複雑な事例では、パラメータは、ユーザがゆっくりと話しているか、速く話しているか、または声の大きさなど発話のパターンに関する有益な情報を提供する。このように、本発明の実施形態によれば、タッチスクリーンは発話活動検出（ＳＡＤ）のために利用されてもよい。

ここで図ｌＡを参照すると、タッチスクリーンを装備する携帯電話器２０を頬３０に当てているユーザ１０が例示される。図１Ｂも参照すると、代表的な携帯電話器２０の正面図が例示され、タッチスクリーン４０が占めている表面積が示される。当業者には明らかであるように、タッチスクリーンの任意の商業的な大きさは、話者の頬と触れているとき信号を生成するが、たとえば、アイフォーン４のように、より大きいタッチスクリーンを用いることが望ましい。ただし、本発明は、特定の大きさに限定されるものではなく、識別可能な信号を生成するために十分な大きさであれば有効に使用することができる。

ユーザ１０が話すとき、頬３０はタッチスクリーン４０と接触してもよく、タッチスクリーン４０上に圧力を及ぼしてもよい。実際に、これはほとんどのユーザにとって自然な配置である。タッチスクリーン４０に対する頬３０の圧力及び位置は、ユーザ１０が携帯電話器２０で話している間中、動的に変化してもよく、頬３０の様々な部分は、スクリーン４０の様々な領域と常に接触してもよい。会話中に、ユーザ１０が話をせず、したがって、頬３０がスクリーン４０に対して静止していてもよい期間もあってもよい。

ここで図２を参照すると、スクリーン４０の２次元グリッド表示が例示される。スクリーン４０上の単一のグリッド素子４１（単一の画素、または画素の大きさによっては複数の画素からなるグリッド素子であってもよい）は、「ｉ」及び「ｊ」座標によって表されてもよい。クラスタ５０、６０及び７０は、電話での会話中のいずれかの時点でスクリーン４０と接触する頬３０の面積のスナップショットを概略的に表す。本明細書で用いる用語「クラスタ」は、同時に圧力が印加される複数の隣接するグリッド素子を表す。各個々のクラスタは、スクリーン４０の異なる表面積を覆う２以上の画素を含有してもよく、スクリーン４０に対して加えられる様々な圧力を検出してもよい。任意のクラスタの形状、力学及び配向の分析によって、以下で詳細に記載するように、分析に用いることができる様々なパラメータが提供される。本明細書で用いる用語「力学」は、任意の時間間隔中に特定のクラスタに起こりうる圧力の変化を表す。この圧力の変化によって、クラスタの形状の変化が生じることもある。

ここで図３を参照すると、本発明の実施形態にしたがって構成され、動作する実例的なタッチスクリーンＳＡＤ１００の要素が例示される。システム１００は、タッチスクリーン４０と、タッチスクリーンコントローラ１１０と、アプリケーションプロセッサ１２０とを備える。アプリケーションプロセッサ１２０は発話活動分析器１３０を備える。タッチスクリーン４０はコントローラ１１０によって制御される。コントローラ１１０は、スクリーン４０に対して頬２０が加える圧力に関する情報をプロセッサ１２０に提供する。プロセッサ１２０は次に、任意の時間ｎにおけるスクリーン４０の各グリッド素子（ｉ，ｊ）での圧力Ｐを解釈する。時間ｎにおける点（ｉ，ｊ）の圧力Ｐ（ｉ，ｊ，ｎ）は次に、プロセッサ１２０を介して発話活動分析器１３０に提供される。圧力の抽出率は、当業者には明らかであるように、使用するタッチスクリーンの種類によって、発話に関連するパラメータによって起動または制御されねばならない処理の種類によって、ならびに特定のアプリケーションが必要とする正確さのレベルによって、当然ながら変動する。指示する抽出率は、グリッド素子毎に５０−１００Ｈｚの範囲内であるが、使用目的によって、もちろん多くの様々な抽出率を用いることができる。当業者は、各事例において、使用することを望む抽出率を決定する。本発明は任意の特定の抽出率に限定されない。

あるアプリケーションでは、時間ｋにおける発話周波数ｆ毎の発話活動を知ることが有用であってもよい。したがって音声活動分析器１３０からの出力をＰＳＡＤ（ｋ，ｆ）と表示してもよい。ＰＳＡＤ（ｋ，ｆ）は０または１の２値信号（発話活動＝０、発話なし＝１）または０と１との間の任意の値として提供されることができる。この値は、時間ｋにおいて周波数ｆで、発話活動が検出される可能性を表す。

様々な方法を用いて発話活動を分析することができる。そのような方法及びシステムの１つを、図４を参照して例示する。図４は、発話活動を分析するためのＳＡＤ分析システム２００を概略的に示す。ＳＡＤ分析システム２００は、発話活動分析器１３０の一部であってもよく、または個別に提供されてもよい。この実例的な例では、ＳＡＤ分析システム２００は、クラスタプロセッサ２１０と、特徴抽出器２２０と、特徴分析器２３０と、ＳＡＤ決定装置２４０とを備える。

この実例的な例によると、クラスタプロセッサ２１０はＰ（ｉ，ｊ，ｎ）をタッチスクリーンコントローラ１１０（図３）から受信し、ユーザが話している場合は、クラスタ５０、６０及び７０などのクラスタの存在を特定する。クラスタプロセッサ２１０は、２次元セグメンテーション及びクラスタリングのために用いられる任意の標準セグメンテーション・クラスタリングアルゴリズムを実装してもよい。例として、ｈｔｔｐ：／／ｅｎ．ｗｉｋｉｐｅｄｉａ．ｏｒｇ／ｗｉｋｉ／Ｓｅｇｍｅｎｔａｔｉｏｎ＿（ｉｍａｇｅ＿ｐｒｏｃｅｓｓｉｎｇ）を参照のこと。

形状、配向及びその他の特徴は、クラスタ毎に分析されてもよい。特徴抽出器２２０は、クラスタ毎に様々なパラメータを抽出してもよく、この情報を特徴分析器２３０に伝達する。特徴分析器２３０は次に、各パラメータの時間挙動を分析する。特徴抽出器２２０によって抽出される実例的なパラメータは、たとえば、クラスタの重心（ＣｏＧ）と、クラスタ周囲の長さ、クラスタの面積及び配向などを含む。

ここで図５Ａを参照すると、特定例による、特徴分析器２３０（図４）によって実施される時間分析処理、及び特徴抽出器２２０（図５Ｂ参照）によって抽出されるパラメータのフローチャートである。時間ｎにおいて抽出されるパラメータの算出値は帯域通過フィルタ３００を通過し、規定範囲内のパラメータのみが確実に受容されるようにする。これは、不正確な測定値が考慮されないことを確実にするためである。たとえば、ユーザ１０が、会話をしていないときにガムを噛んでいる場合にも、タッチスクリーン４０に対してある程度の運動が検出される。ただし、噛むことは、通常は周波数が低いため、Ｐ（ｉ，ｊ，ｎ）の周波数測定値は規定閾値未満であってもよく、したがって算出時には考慮されなくてもよい。図５Ａは、この特定例によって、帯域通過フィルタ３００を通過するデータ３０１のストリームに対して行われる処理を示す。抽出されるパラメータ３０１には、選択した期間にわたる変化にしたがって点数を付ける。たとえば、特定のクラスタの重心を、時間と共に常に変化するかを観察するためにモニタしてもよい。これは、スクリーン４０を頬に当てていながらユーザ１０が話していない場合に、スクリーン４０によってそれでも圧力が検出されることがあるが、特定のクラスタの重心は顕著には変化しないこともあるためである。点数３２０は重心パラメータに対して算出されてもよく、同様に、面積及び配向などのその他のパラメータに対して算出されてもよい。すべてのパラメータに対する最終平均点３３０を次に算出してもよい。最終平均点３３０はＳＡＤ分析器２４０に入力される。ＳＡＤ分析器２４０は次に、音声活動があるかどうかに関して最終決定を行う。

本発明のタッチスクリーンＳＡＤ１００は、携帯電話器２０のアプリケーションプロセッサまたは任意の専用ハードウェアまたは汎用プロセッサに実装されてもよい。たとえば、タッチスクリーンに当たる頬の圧力から得られるデータを、たとえばワイファイまたはブルートゥースを介して、離間したプロセッサに伝えることができる。離間したプロセッサは分析を実施し、決定を行い、同一の回線または異なる回線を介してこの分析の結果を電話器２０にフィードバックしてもよい。

ユーザ１０が騒々しい環境において携帯電話器２０で話す場合には、携帯電話器のマイクロフォンは周囲の騒音と結合した音声信号を拾うこともある。会話の相手が騒音消去技術を用いていないと、ユーザ１０が話していないときにも相手は騒音を聞くことになる。当該技術において騒音消去または騒音抑圧のために多くの既知の技術がある。多くの携帯電話器及びヘッドセットは多様な技術を用いて、背景騒音の影響を低減する。これらの技術の大部分が成功するためには、ユーザが話しているかどうかを知ることが重要である。騒音が大きい場合には、ほとんどのＳＡＤアルゴリズムはこの点において、信頼できる決定を提供できない。

しかし、タッチスクリーンＳＡＤ１００は一般に、スクリーンに対する運動及び圧力のみを検出するため、騒音には敏感ではない。上記のようなタッチスクリーンＳＡＤ１００を、ユーザが話しているかどうかに関する情報に依存する、任意の適切な騒音消去技術と共に用いることによって、非常に騒々しい環境においても、高品質な音声電話を産出できる。

携帯電話器は音声圧縮アルゴリズムを用いて、携帯回線を介して送信される発話を圧縮する。現在用いられている、より一般的なアルゴリズムの１つは適応多重レートである。（ＡＭＲ、たとえば、ｈｔｔｐ：／／ｅｎ．ｗｉｋｉｐｅｄｉａ．ｏｒｇ／ｗｉｋｉ／Ａｄａｐｔｉｖｅ＿Ｍｕｌｔｉ−Ｒａｔｅ＿ａｕｄｉｏ＿ｃｏｄｅｃを参照。）このアルゴリズムはまた、無音検出器として機能してもよい。この無音検出器は、発話信号を分析することによって、ユーザが話しているかどうかを検出してもよい。ユーザが話していないときは、少ないビットを送信する。これは、携帯電話器回線の容量を増加するため、携帯電話器の操作者にとって非常に好ましい特徴である。ただし、騒々しい環境では、アルゴリズムは発話信号と騒音信号との違いを認識することができず、無音検出器は効果がなく、送信されるビット数は高くなる。タッチスクリーンＳＡＤ１００は、信頼できる無音検出器を騒々しい環境でさえも提供できる。これによって、携帯回線を介する伝達効率を顕著に改善することができる。

携帯電話器の使用中に放出される放射線量を心配するユーザもいる。本発明の代替実施形態では、タッチスクリーンＳＡＤ１００を用いて、Ｐ（ｉ，ｊ，ｎ）測定値があるかどうかを判断することによって、ユーザ１０が携帯電話器２０を顔に当てているときを判断してもよい。測定値がある場合は、この代替実施形態によって、発話活動分析器１３０はプロセッサ１２０（図３）に通信する。プロセッサ１２０は次に、携帯電話器２０の中央処理装置（ＣＰＵ）に指示して、伝達力を低減する。同一の様式で、プロセッサ１２０は、携帯電話器２０が送信していないときには少ない電力しか必要としなくてもよいため、電池の使用を節約するために、ＣＰＵにＣＰＵ電力を低減するように指示してもよい。タッチフォンＳＡＤ１００は、表示器として、無音検出器として、及び携帯電話器の放射を低減し、電力を節約するためのツールとして用いてもよい。

本発明は、ある事例においては、追加の手段と共に有効に使用されてもよい。たとえば、現代の通信装置は、装置がユーザの耳まで移動されるときを判断するために適切な加速度計などのセンサを備える。これは、たとえば、スクリーン上のタッチコマンドを無効にして、ユーザが頬でタッチコマンドを不注意に起動しないようにするためのものである。このような情報をタッチスクリーンと頬との相互作用からの入力と組み合わせることもまた、本発明の範囲である。

別段明示しない限り、前述の記載から明らかであるように、本明細書を通じて、「処理」、「算出」、「計算」、「判断」などの用語を用いる記述は、コンピュータ、算出システム、または類似する電子算出装置の行動及び／または処理を指す。コンピュータ、算出システム、または類似する電子算出装置は、算出システムのレジスタ及び／またはメモリ内で、電子などの物理量として表されるデータを利用し、及び／または算出システムのメモリ、レジスタまたはその他の情報記憶、伝達または表示装置内で物理量として同様に表されるその他のデータに変換する。

本発明の実施形態は、本明細書に記載する操作を実施するための機器を含んでいてもよい。この機器は、所望する目的のために特別に構築されてもよく、またはコンピュータに記憶されるコンピュータプログラムによって選択的に起動または再構成される汎用コンピュータを備えていてもよい。このようなコンピュータプログラムは、任意の種類のディスクなどのコンピュータ可読記憶媒体に記憶されてもよいが、これらに限定されない。コンピュータ可読記憶媒体は、フロッピディスク、光ディスク、磁気光ディスク、読み出し専用メモリ（ＲＯＭ）、コンパクトディスク読み出し専用メモリ（ＣＤ−ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、電気的プログラマブル読み出し専用メモリ（ＥＰＲＯＭ）、電気的消去可能プログラマブル読み出し専用メモリ（ＥＥＰＲＯＭ）、磁気または光カード、フラッシュメモリ、または電子指示を記憶するために適切であり、コンピュータシステムバスに接続可能な任意のその他の種類の媒体を含む。

本発明の一定の特徴を本明細書で例示したが、多くの修正、代替、変更、及び同等物は当業者には明らかである。添付の請求項は、本発明の趣旨の範疇にあるすべての修正及び変更を網羅することを目的とするものである。

Claims

ａ）タッチスクリーンを装備する携帯通信装置と、
ｂ）発話活動分析器と、
を備える携帯通信システムであって、
発話活動分析器が、タッチスクリーンの一領域に印加される圧力を示すデータと、タッチスクリーンの一領域に印加される圧力が時間と共に変化するデータを、タッチスクリーンから受信する手段を有する
ことを特徴とする携帯通信システム。
発話活動分析器が、
Ａ）クラスタを特定するクラスタプロセッサと、
Ｂ）クラスタプロセッサによって特定されるクラスタからパラメータを抽出する特徴抽出器と、
Ｃ）パラメータを分析する特徴分析器と、
Ｄ）ユーザが話しているかを判断するために、パラメータを処理する発話活動決定要素と、
を備える
請求項１に記載のシステム。
発話活動分析器が、携帯通信装置と一体である
請求項１に記載のシステム。
発話活動分析器が、携帯通信装置から離間して配置され、携帯通信装置と通信する
請求項１に記載のシステム。
発話活動分析器と携帯通信装置との間の通信が、ワイファイまたはブルートゥースまたは任意の有線または無線手段によって実施される
請求項１に記載のシステム。
携帯通信装置が、携帯電話器である
請求項３または４に記載のシステム。
携帯通信装置が、コードレス電話器である
請求項３または４に記載のシステム。
タッチスクリーンを装備する携帯通信装置のユーザが、携帯通信装置に向かって話しているかを判断する方法であって、
（ｉ）タッチスクリーンから、タッチスクリーンとユーザの頬との接触から生成されるグリッド点のクラスタを表す信号を得るステップと、
（ｉｉ）クラスタの圧力に関連するパラメータの時間と共に変化する力を分析するステップと、
（ｉｉｉ）その分析から、発話活動が存在するかを判断するステップと、
を有する
ことを特徴とする方法。
クラスタが、タッチスクリーン上の座標によって識別可能な画素または一群の画素を備える
請求項８に記載の方法。
パラメータが、重心、周囲、面積及び配向から、または、それらのパラメータの２つ以上の組み合わせから選択される
請求項８に記載の方法。
携帯通信装置に設けられるセンサから、携帯通信装置がユーザの耳の周辺まで移動されたかどうかの情報を得るステップを有する
請求項８に記載の方法。