JP2020510865A

JP2020510865A - 音声認識トリガーを提供するための方法、システムおよび非一過性のコンピュータ読み取り可能な記録媒体

Info

Publication number: JP2020510865A
Application number: JP2019546117A
Authority: JP
Inventors: ジョンキムソク; ジンジョンウォン
Original assignee: ブイタッチ・カンパニー・リミテッド
Priority date: 2017-02-27
Filing date: 2018-02-26
Publication date: 2020-04-09
Anticipated expiration: 2038-02-26
Also published as: WO2018155981A1; KR101893768B1; US11315557B2; US20190385605A1; JP6799693B2

Abstract

本発明の一態様によると、音声認識トリガーを提供するための方法であって、デバイスで感知される近接情報に基づいて前記デバイスとユーザー間の距離である第１距離を推定し、前記デバイスで感知される音声に関する情報を参照して、前記デバイスと前記デバイスで感知される音声が発話される位置間の距離である第２距離を推定する段階、および前記第１距離および前記第２距離間の類似性を参照して、前記デバイスで感知される音声が音声認識の対象であるかの可否を決定する段階を含む方法が提供される。

Description

本発明は音声認識トリガーを提供するための方法、システムおよび非一過性のコンピュータ読み取り可能な記録媒体に関する。

最近ユーザーインターフェースに対する関心が高まり、音声処理技術の発達につれて、音声認識機能が内蔵されたＩＴ機器が増えつつある。例えば、ユーザーの音声を認識してユーザーが要請した動作を遂行できるスマートフォン、スマートウォッチ、スマートＴＶ、スマート冷蔵庫などが広く普及されている。このような従来技術の一例として、韓国公開特許公報第２０１６−３９２４４号に開示された技術を挙げることができるが、コンピューティングデバイスがオーディオデータの提供を受けると、オーディオデータに音声開始アクションが含まれているかの可否を判断し、含まれていると判断される場合、音声開始アクションが認識されたことを示すディスプレイをコンピューティングデバイスを介してユーザーに提供する技術が紹介されている。

しかし、前記のような従来技術をはじめとして、これまで紹介された技術によると、ユーザーが音声入力を開始する前にボタンを押したりあらかじめ定められたトリガー単語を入力して、ユーザーが音声入力を開始する地点を特定しなければならなかったのであるが、ボタンを押す前者の方式は、ユーザーが手を自由に使用できない場合には音声入力を遂行できないため不便さをもたらさざるを得なかったし、ユーザーがあらかじめ定められたトリガー単語を話す後者の方式は、音声認識装置とユーザーが少しでも離れていると、同じ空間で発生する他人の音声のような多様なノイズによって音声入力開始地点の特定が難しいだけでなく、ユーザーがあらかじめ定められたトリガー単語を話しても音声入力が開始されたことをユーザーに確信させるために、音や光でフィードバックをしてからユーザーが音声入力を開始するようにするしかなかったため、音声入力を開始する段階から相当に長い時間が所要されざるを得ない限界があった。

そこで、本発明者は、デバイスとユーザー間の距離および音声を感知するデバイスとデバイスで感知される音声が発話される位置間の距離を推定し、その推定される両距離が既設定された水準以上に類似する場合に、デバイスで感知される音声を音声認識の対象に決定する、音声認識トリガーに関する技術を提案するところである。

本発明は前述した問題点をすべて解決することをその目的とする。

また、本発明は、音声入力を開始するための不要な過程を省略してユーザーが迅速に音声を入力できるように支援することを他の目的とする。

また、本発明は、デバイスに近接して音声が入力されるようにすることによって周辺ノイズの影響を最小化し、小さい音声でも正確に動作する音声認識トリガーを提供することを他の目的とする。

前記目的を達成するための本発明の代表的な構成は次の通りである。

発明の他の態様によると、音声認識トリガーを提供するためのシステムであって、デバイスで感知される近接情報に基づいて前記デバイスとユーザー間の距離である第１距離を推定し、前記デバイスで感知される音声に関する情報を参照して、前記デバイスと前記デバイスで感知される音声が発話される位置間の距離である第２距離を推定する推定部、および前記第１距離および前記第２距離間の類似性を参照して、前記デバイスで感知される音声が音声認識の対象であるかの可否を決定する決定部を含むシステムが提供される。

この他にも、本発明を具現するための他の方法、システムおよび前記方法を実行するためのコンピュータプログラムを記録するための非一過性のコンピュータ読み取り可能な記録媒体がさらに提供される。

本発明によると、音声入力を開始するための不要な過程を省略してユーザーが迅速に音声を入力できる効果が達成される。

また、本発明によると、デバイスに近接して音声が入力されるようにすることによって周辺ノイズの影響を最小化し、小さい音声でも正確に動作する音声認識トリガーを提供する効果が達成される。

本発明の一実施例に係る音声認識システムの内部構成を例示的に示したブロック図である。本発明の一実施例に係る音声認識システムを通じて音声認識トリガーが提供される状況を例示的に示した斜視図である。本発明の一実施例に係る音声認識システムが活用され得る多様な実施例を示した図である。

後述する本発明についての詳細な説明は、本発明が実施され得る特定の実施例を例示として図示する添付図面を参照する。これらの実施例は当業者が本発明を実施できるように充分かつ詳細に説明される。本発明の多様な実施例は互いに異なるが互いに排他的である必要はないことが理解されるべきである。例えば、ここに記載されている特定の形状、構造および特性は、一実施例に関連して本発明の精神および範囲を逸脱することなく他の実施例で具現され得る。また、それぞれの開示された実施例内の個別の構成要素の位置または配置は、本発明の精神および範囲を逸脱することなく変更され得ることが理解されるべきである。したがって、後述する詳細な説明は限定する意味のものではなく、本発明の範囲は、適切に説明されるのであれば、その請求項が主張するものと均等なすべての範囲とともに、添付された請求項によってのみ限定される。図面で類似する参照符号は多様な側面に亘って同一または類似する機能を指し示す。

以下では、本発明が属する技術分野で通常の知識を有する者が本発明を容易に実施できるようにするために、本発明の好ましい実施例に関して添付された図面を参照して詳細に説明する。

音声認識システムの構成

以下では、本発明を具現するために重要な機能を遂行する音声認識システム１００の内部構成および各構成要素の機能について詳察する。

図１は、本発明の一実施例に係る音声認識システム１００の内部構成を例示的に示した図面である。

図１を参照すると、本発明の一実施例に係る音声認識システム１００は、推定部１１０、決定部１２０、通信部１３０および制御部１４０を含むことができる。また、本発明の一実施例により推定部１１０、決定部１２０、通信部１３０および制御部１４０は、そのうち少なくとも一部が外部システム（図示されず）と通信するプログラムモジュールであり得る。このようなプログラムモジュールは運営システム、アプリケーションモジュールおよびその他のプログラムモジュールの形態で音声認識システム１００に含まれ得、物理的には多様な公知の記憶装置上に保存され得る。また、このようなプログラムモジュールは音声認識システム１００と通信可能な遠隔記憶装置に保存されてもよい。一方、このようなプログラムモジュールは本発明により後述する特定の業務を遂行したり、特定の抽象データの類型を実行するルーチン、サブルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを包括するが、これに制限されはしない。

一方、音声認識システム１００について前記のように説明されたが、このような説明は例示的なものであって、音声認識システム１００の構成要素または機能のうち少なくとも一部が、必要に応じてユーザーが携帯したり、ユーザーの身体部位（例えば、頭、目、指、手首、耳、首など）に着用されるデバイス２００内で具現されたり、このようなデバイス２００内に含まれてもよいことは当業者に自明である。また、場合によっては、音声認識システム１００のすべての機能とすべての構成要素がデバイス２００内ですべて実行されたりデバイス２００内にすべて含まれてもよい。

本発明の一実施例に係るデバイス２００は、メモリ手段を具備し、マイクロ・プロセッサを搭載して演算能力を備えたデジタル機器であって、スマートグラス、スマートウォッチ、スマートバンド、スマートリング、スマートネックレス、スマートイヤホンセット、スマートイヤホン、スマートイヤリングなどのようなウェアラブルデバイスやスマートフォン、スマートパッド、デスクトップコンピュータ、ノートパソコン、ワークステーション、ピーディーエー（ＰＤＡ）、ウェブパッド、移動電話機、リモートコントローラなどのような多少伝統的なデバイスが含まれ得、デバイス２００は前述した例示だけでなく本発明の目的を達成できる範囲内でいくらでも変更され得る。また、本発明の一実施例によりデバイス２００は音声を認識または感知するためのマイクモジュール（図示されず）を含むことができ、デバイス２００とユーザー間の距離を感知するための近接センシングモジュール（図示されず）またはデバイス２００とデバイス２００で感知される音声が発話される位置間の距離を感知するための音声距離認識モジュール（図示されず）を含むことができる。

一方、本発明の一実施例に係るデバイス２００には、本発明に係る音声認識トリガーが提供される機能が遂行され得るように支援するアプリケーションが含まれていてもよい。このようなアプリケーションは外部のアプリケーション配布サーバー（図示されず）からダウンロードされたものであり得る。一方、このようなプログラムモジュールの性格は、後述するような音声認識システム１００の推定部１１０、決定部１２０、通信部１３０および制御部１４０と全般的に類似し得る。ここで、アプリケーションはその少なくとも一部が、必要に応じてそれと実質的に同一または均等な機能を遂行できるハードウェア装置やファームウェア装置に置換されてもよい。

まず、本発明の一実施例に係る推定部１１０は、デバイス２００で感知される近接情報に基づいてデバイス２００とユーザー間の距離である第１距離を推定することができる。

具体的には、本発明の一実施例により推定部１１０は、デバイス２００で感知される近接情報からユーザーとデバイス２００間の物理的距離に関する情報を獲得することによって前述した第１距離を推定することができ、このために、デバイス２００は近接情報を感知できる少なくとも一つのセンシングモジュール（図示されず）を含むことができる。本発明の一実施例によりこのようなセンシングモジュールには、光学（ｏｐｔｉｃａｌ）センサ、光電（ｐｈｏｔｏｅｌｅｃｔｒｉｃ）センサ、超音波（ｕｌｔｒａｓｏｎｉｃ）センサ、誘導（ｉｎｄｕｃｔｉｖｅ）センサ、静電容量（ｃａｐａｃｉｔｉｖｅ）センサ、抵抗膜（ｒｅｓｉｓｔｉｖｅ）センサ、渦電流（ｅｄｄｙｃｕｒｒｅｎｔ）センサ、赤外線（ｉｎｆｒａｒｅｄ）センサ、マグネチック（ｍａｇｎｅｔｉｃ）センサなどの公知のセンサのうち少なくとも一つが含まれ得る。

また、本発明の一実施例により、推定部１１０は、デバイス２００で感知される音声に関する情報を参照して、デバイス２００とデバイス２００で感知される音声が発話される位置間の距離である第２距離を推定することができる。本発明の一実施例によりデバイス２００で感知される音声に関する情報には、音声の強度、波形、周波数スペクトルなどに関する情報が含まれ得る。

具体的には、本発明の一実施例により推定部１１０は、デバイス２００で感知される音声と音声パターンを比較することによって、デバイス２００とデバイス２００で感知される音声が発話される位置間の距離である第２距離を推定することができる。本発明の一実施例に係る音声パターンには、音声スペクトル（ｓｐｅｃｔｒｕｍ）情報を表現する線形予測係数（ｌｉｎｅａｒｐｒｅｄｉｃｔｉｖｅｃｏｅｆｆｉｃｉｅｎｔｓ；ＬＰＣ）または認知線形予測（ｐｅｒｃｅｐｔｕａｌｌｉｎｅａｒｐｒｅｄｉｃｔｉｖｅ；ＰＬＰ）に関するパターン、人体聴覚モデルに基づいたメル周波数ケプストラム係数（ｍｅｌ−ｆｒｅｑｕｅｎｃｙｃｅｐｓｔｒａｌｃｏｅｆｆｉｃｉｅｎｔｓ；ＭＦＣＣ）に関するパターン、マシンラーニング（ｍａｃｈｉｎｅｌｅａｒｎｉｎｇ）またはディープラーニング（ｄｅｅｐｌｅａｒｎｉｎｇ）を通じて学習される畳み込みニューラルネットワーク（ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ；ＣＮＮ）または弁別学習（ｄｉｓｃｒｉｍｉｎａｔｉｖｅｔｒａｉｎｉｎｇ）に関するパターンなどが含まれ得る。

例えば、本発明の一実施例に係る推定部１１０は、音声の発話位置およびその音声が感知される位置間の距離により現れる音声パターンをデバイス２００で感知される音声と比較することによって、デバイス２００とデバイス２００で感知される音声が発話される位置間の距離（すなわち、第２距離）を推定することができる。このために、本発明の一実施例に係る推定部１１０は、音声の発話位置およびその音声が感知される位置間の距離により現れる既設定された音声パターンを参照することができ、音声の発話位置およびその音声が感知される位置間の距離により現れる音声パターンに関する情報が保存されたデータベースを参照することもできる。

一方、本発明の一実施例に係る推定部１１０は、少なくとも一つの位置で発話される音声に関するマシンラーニング（ｍａｃｈｉｎｅｌｅａｒｎｉｎｇ）またはディープラーニング（ｄｅｅｐｌｅａｒｎｉｎｇ）を通じて、音声の発話される位置による音声パターンを獲得することもできる。この場合、本発明の一実施例により推定部１１０は、マシンラーニング（ｍａｃｈｉｎｅｌｅａｒｎｉｎｇ）またはディープラーニング（ｄｅｅｐｌｅａｒｎｉｎｇ）を通じて獲得される発話位置による音声パターンを、デバイス２００で感知される音声と比較することによって、デバイス２００とデバイス２００で感知される音声が発話される位置間の距離（すなわち、第２距離）を推定することができる。本発明の一実施例に係る推定部１１０は、マシンラーニング（ｍａｃｈｉｎｅｌｅａｒｎｉｎｇ）またはディープラーニング（ｄｅｅｐｌｅａｒｎｉｎｇ）のために成分分析（ｃｏｍｐｏｎｅｎｔａｎａｌｙｓｉｓ）、行列分解（ｍａｔｒｉｘｆａｃｔｏｒｉｚａｔｉｏｎ）、期待最大化（ｅｘｐｅｃｔａｔｉｏｎｍａｘｉｍｉｚａｔｉｏｎ）、隠れマルコフモデル（ｈｉｄｄｅｎｍａｒｋｏｖｍｏｄｅｌ）、カルマンフィルター（ｋａｌｍａｎｆｉｌｔｅｒｉｎｇ）、ｋ近傍（ｋ−ｎｅａｒｅｓｔｎｅｉｇｈｂｏｒ）、ブースティング（ｂｏｏｓｔｉｎｇ）、支持ベクターマシン（ｓｕｐｐｏｒｔｖｅｃｔｏｒｍａｃｈｉｎｅ）、関連規則（ａｓｓｏｃｉａｔｉｏｎｒｕｌｅ）、混同マトリックス（ｃｏｎｆｕｓｉｏｎｍａｔｒｉｘ）、同時出現マトリックス（ｃｏ−ｏｃｃｕｒａｎｃｅｍａｔｒｉｘ）、ウェーブレット（ｗａｖｅｌｅｔ）、最尤推定（ｍａｘｉｍｕｍｌｉｋｅｌｉｈｏｏｄ）、混合ガウスモデル（ｇａｕｓｓｉａｎｍｉｘｔｕｒｅｍｏｄｅｌｓ）、デシジョンツリー（ｄｅｃｉｓｉｏｎｔｒｅｅ）等を利用した公知のアルゴリズムのうち少なくとも一つを利用することができる。

一方、本発明の一実施例に係る推定部１１０は、デバイス２００で感知される音声に関する情報から音声とその周辺で発生する騒音を分離するために尤度比検証（ｌｉｋｅｌｉｈｏｏｄｒａｔｉｏｔｅｓｔ；ＬＲＴ）、ブラインド音声分離（ｂｌｉｎｄｓｏｕｒｃｅｓｅｐａｒａｔｉｏｎ；ＢＳＳ）等の公知の音声分離アルゴリズムのうち少なくとも一つを利用することができる。

例えば、本発明の一実施例により推定部１１０は、ブラインド音声分離（ＢｌｉｎｄＳｏｕｒｃｅＳｅｐａｒａｔｉｏｎ；ＢＳＳ）アルゴリズムを通じてデバイス２００の複数の音声認識モジュール（図示されず）から感知される信号を分析することによって、デバイス２００で感知される音声から周辺の騒音を分離させることができる。

次いで、本発明の一実施例に係る決定部１２０は、推定部１１０を通じて推定される第１距離および第２距離の類似性を参照して、デバイス２００で感知される音声が音声認識の対象であるかの可否を決定することができる。

具体的には、本発明の一実施例に係る決定部１２０は、デバイス２００とユーザー間の距離（すなわち、第１距離）およびデバイス２００とデバイス２００で感知される音声が発話される位置間の距離（すなわち、第２距離）が既設定された水準以上に類似すると判断されると、デバイス２００で感知される音声を音声認識の対象に決定することができる。本発明の一実施例により、前述した既設定された水準とは、第１距離や第２距離を測定するためのセンシング（または認識）モジュールまたは第１距離や第２距離を推定するための方法により第１距離および第２距離が同一または類似すると判断され得る範囲内で適切に設定される基準であり得る。

例えば、本発明の一実施例により、ユーザーがデバイス２００をユーザーの所定の身体部位に位置（例えば、ユーザーの唇から３ｃｍ）させた状態で、音声を発話した場合、デバイス２００とユーザー間の距離（すなわち、第１距離）が２．８ｃｍと推定され、デバイス２００とデバイス２００で感知される音声が発話される距離（すなわち、第２距離）が３ｃｍと推定されると、決定部１２０は第１距離と第２距離の差が０．２ｃｍであって無視してもよいものと判断して、デバイス２００で感知される音声を音声認識の対象に決定することができる。

また、本発明の一実施例により決定部１２０は、デバイス２００とユーザー間の距離（すなわち、第１距離）および／またはデバイス２００とデバイス２００で感知される音声が発話される位置間の距離（すなわち、第２距離）が既設定された距離以内であるかの可否をさらに参照して、該当デバイスで感知される音声が音声認識の対象であるかの可否を決定することができる。

例えば、本発明の一実施例により、ユーザーがデバイス２００をユーザーの所定の身体部位に位置（例えば、ユーザーの唇から２５ｃｍ）させた状態で、ユーザーが音声を発話した場合、推定部１１０を通じてデバイス２００とユーザー間の距離（すなわち、第１距離）が２５ｃｍと推定され、デバイス２００とデバイス２００で感知される音声が発話される距離（すなわち、第２距離）が２５．４ｃｍと推定されると、決定部１２０は第１距離および／または第２距離が既設定された距離（例えば、１０ｃｍ以内）を超過するので、その距離（第１距離と第２距離）の差が無視できるようなものである（この場合、０．４ｃｍ）にもかかわらず、デバイス２００で感知される音声を音声認識の対象ではないものと決定することができる。すなわち、この場合、本発明の一実施例によりユーザーがデバイス２００をユーザーの身体部位に近接したところに位置させた場合に限って、本発明に係る音声認識トリガーが提供され得る。

一方、本発明の一実施例に係る決定部１２０は、デバイス２００で感知される音声が音声認識の対象であるかの可否を決定するにおいて、デバイス２００で感知される音声が人体から発話されたかの可否をさらに参照して決定することができる。

具体的には、本発明の一実施例により、決定部１２０はデバイス２００で感知される音声に関する情報を分析して、人体から発話される音声であるかの可否を判断し、判断された結果を参照して、デバイス２００で感知される音声が音声認識の対象であるかの可否を決定することができる。本発明の一実施例により、決定部１２０はデバイス２００で感知される音声が人体から発話されるものではないと判断されると、第１距離および第２距離が互いに類似すると判断されてもデバイス２００で感知される音声が音声認識の対象ではないものと決定することができる。本発明の一実施例により、決定部１２０はデバイス２００で感知される音声が人体から発話される音声であるかの可否を判断するために、ガベジモデル（ｇａｒｂａｇｅｍｏｄｅｌ）を利用したアルゴリズム、ＲａｂｉｎｅｒとＳａｍｂｕｒ（ＲａｂｉｎｅｒａｎｄＳａｍｂｕｒ）のエネルギーとゼロクロッシングを利用したアルゴリズム、ラメル（Ｌａｍｅｌ）のレベル等化器を利用したアルゴリズム、ティーザー（Ｔｅａｇｅｒ）のエネルギーを利用したアルゴリズムなど、公知の分析アルゴリズムのうち少なくとも一つを利用することができる。

例えば、本発明の一実施例により、推定部１１０がデバイス２００で感知される音声が人体から発話される音声であるかの可否を判断するためにガベジモデリング（ｇａｒｂａｇｅｍｏｄｅｌｉｎｇ）を利用したアルゴリズムを適用することができるが、この場合、推定部１１０は音声と判断されるキーワード単語を設定し、音声キーワード信号および音声キーワードではない雑音信号のそれぞれに加重値スコアおよびペナルティスコアを付与し、デバイス２００で感知される音声に付与されたスコアが所定の水準以上である場合、デバイス２００で感知される音声が人体から発話される音声であると判断することができる。

次いで、本発明の一実施例によると、通信部１３０は推定部１１０および決定部１２０からの／へのデータの送受信を可能にする機能を遂行することができる。

最後に、本発明の一実施例によると、制御部１４０は推定部１１０、決定部１２０および通信部１３０間のデータの流れを制御する機能を遂行することができる。すなわち、本発明に係る制御部１４０は、音声認識システム１００の外部からの／へのデータの流れまたは音声認識システム１００の各構成要素間のデータの流れを制御することによって、推定部１１０、決定部１２０および通信部１３０でそれぞれ固有の機能を遂行するように制御することができる。

図２は、本発明の一実施例に係る音声認識システム１００を通じて音声認識トリガーが提供される状況を例示的に示した図面である。

図２を参照すると、本発明の一実施例に係る音声認識システム１００が含まれたスマートフォン２００を利用するユーザーに音声認識トリガーが提供される状況を仮定してみることができる。本発明の一実施例により、ユーザーがスマートフォン２００を唇付近に位置させると、音声認識システム１００はスマートフォン２００の距離感知センサ（図示されず）を通じて感知される近接情報に基づいてスマートフォン２００とユーザー間の距離（すなわち、第１距離）を推定することができ、ユーザーが音声を発話すると、音声認識システム２００はスマートフォン２００のマイク（図示されず）モジュールを通じて感知される音声を、スマートフォン２００およびスマートフォン２００で感知される音声が発話される位置間の距離により現れる音声パターンと比較することによって、スマートフォン２００とスマートフォン２００で感知される音声が発話される位置間の距離（すなわち、第２距離）を推定することができる。

その後、本発明の一実施例に係る音声認識システム１００は、前記のように推定される第１距離および第２距離間の類似性を参照してスマートフォン２００で感知される音声が音声認識の対象であるかの可否を決定することができる。すなわち、本発明の一実施例に係る音声認識システム１００を通じてスマートフォン２００で感知される音声が音声認識の対象に決定された場合、ユーザーに音声認識トリガーが提供され得るようになる。したがって、本発明に係る音声認識トリガー提供技術を通じて音声入力が開始されるための不要な過程を省略することによって、ユーザーの音声入力時間が短縮され得、デバイスに近接して音声が入力されることによって周辺ノイズの影響も最小化され得、ユーザーの小さい音声でも正確に動作する音声認識トリガーが提供され得るようになる。

図３は、本発明の一実施例に係る音声認識システム１００が活用され得る多様な実施例を示した図面である。

図３を参照すると、本発明の一実施例により、ユーザーが本発明に係る音声認識システム１００が含まれたスマートリング２００ａ、スマートウォッチ２００ｂ、スマートリモコン２００ｃ、スマートペン２００ｄまたはスマートフォン２００ｅを、ユーザーの口（または唇）付近に位置させた状態で音声を発話することによってユーザーに音声認識トリガーが提供される状況であり得る。本発明の一実施例により、デバイス２００ａ、２００ｂ、２００ｃ、２００ｄ、２００ｅには、近接情報を感知するためのセンシングモジュール２１０ａ、２１０ｂ、２１０ｃ、２１０ｄ、２１０ｅまたは音声に関する情報を感知するための認識モジュール２２０ａ、２２０ｂ、２２０ｃ、２２０ｄ、２２０ｅが含まれ得、近接情報を感知するためのセンシングモジュール２１０ａ、２１０ｂ、２１０ｃ、２１０ｄ、２１０ｅと音声に関する情報を感知するための認識モジュール２２０ａ、２２０ｂ、２２０ｃ、２２０ｄ、２２０ｅが互いに物理的に近い位置に配置されることによって、本発明に係る目的が達成され得る。

また、本発明の一実施例により、デバイス２００ａ、２００ｂ、２００ｃ、２００ｄ、２００ｅとユーザー間の距離（すなわち、第１距離）およびデバイス２００ａ、２００ｂ、２００ｃ、２００ｄ、２００ｅとデバイス２００ａ、２００ｂ、２００ｃ、２００ｄ、２００ｅで感知される音声が発話される位置間の距離（すなわち、第２距離）が既設定された水準以上に類似しつつ、既設定された距離以内であると判断される場合、すなわち、デバイス２００ａ、２００ｂ、２００ｃ、２００ｄ、２００ｅがユーザーの口または唇部位に近接するように位置した状態で、第１距離および第２距離が同一または類似すると判断されると、デバイス２００ａ、２００ｂ、２００ｃ、２００ｄ、２００ｅで感知される音声を音声認識の対象に決定することによって、本発明に係る目的が達成され得る。

以上で説明された本発明に係る実施例は、多様なコンピュータ構成要素を通じて実行され得るプログラム命令語の形態で具現されて、非一過性のコンピュータ読み取り可能な記録媒体に記録され得る。前記非一過性のコンピュータ読み取り可能な記録媒体は、プログラム命令語、データファイル、データ構造などを単独でまたは組み合わせて含むことができる。前記非一過性のコンピュータ読み取り可能な記録媒体に記録されるプログラム命令語は、本発明のために特別に設計されて構成されたものであるか、コンピュータソフトウェア分野の当業者に公知とされて使用可能なものでもよい。非一過性のコンピュータ読み取り可能な記録媒体の例には、ハードディスク、フロッピーディスクおよび磁気テープのような磁気媒体、ＣＤ−ＲＯＭ、ＤＶＤのような光記録媒体、フロプティカルディスク（ｆｌｏｐｔｉｃａｌｄｉｓｋ）のような磁気−光媒体（ｍａｇｎｅｔｏ−ｏｐｔｉｃａｌｍｅｄｉａ）、およびＲＯＭ、ＲＡＭ、フラッシュメモリなどのようなプログラム命令語を保存し遂行するように特別に構成されたハードウェア装置が含まれる。プログラム命令語の例には、コンパイラによって作られるような機械語コードだけでなく、インタープリタなどを使ってコンピュータによって実行され得る高級言語コードも含まれる。前記ハードウェア装置は本発明に係る処理を遂行するために一つ以上のソフトウェアモジュールとして作動するように構成され得、その逆も同じである。

以上、本発明が具体的な構成要素などのような特定の事項と限定された実施例および図面によって説明されたが、これは本発明のより全般的な理解を助けるために提供されたものに過ぎず、本発明は前記実施例に限定されるものではなく、本発明が属する技術分野で通常の知識を有する者であればこのような記載から多様な修正および変形を図ることができる。

したがって、本発明の思想は前記説明された実施例に限定されて定められてはならず、後述する特許請求の範囲だけでなくこの特許請求の範囲と均等にまたは等価的に変形された全てのものは本発明の思想の範疇に属するものと言える。

１００：音声認識システム
１１０：推定部
１２０：決定部
１３０：通信部
１４０：制御部
２００：デバイス

Claims

音声認識トリガーを提供するための方法であって、
デバイスで感知される近接情報に基づいて前記デバイスとユーザー間の距離である第１距離を推定し、前記デバイスで感知される音声に関する情報を参照して、前記デバイスと前記デバイスで感知される音声が発話される位置間の距離である第２距離を推定する段階、および
前記第１距離および前記第２距離間の類似性を参照して、前記デバイスで感知される音声が音声認識の対象であるかの可否を決定する段階を含む、方法。
前記近接情報は、光学（ｏｐｔｉｃａｌ）センサ、光電（ｐｈｏｔｏｅｌｅｃｔｒｉｃ）センサ、超音波（ｕｌｔｒａｓｏｎｉｃ）センサ、誘導（ｉｎｄｕｃｔｉｖｅ）センサ、静電容量（ｃａｐａｃｉｔｉｖｅ）センサ、抵抗膜（ｒｅｓｉｓｔｉｖｅ）センサ、渦電流（ｅｄｄｙｃｕｒｒｅｎｔ）センサ、赤外線（ｉｎｆｒａｒｅｄ）センサおよびマグネチック（ｍａｇｎｅｔｉｃ）センサのうち少なくとも一つから獲得される、請求項１に記載の方法。
前記第２距離は、音声の発話位置および感知位置間の距離により現れる音声パターンと前記デバイスで感知される音声を比較することによって推定される、請求項１に記載の方法。
前記音声パターンは、少なくとも一つの位置で発話される音声に関するマシンラーニング（ｍａｃｈｉｎｅｌｅａｒｎｉｎｇ）またはディープラーニング（ｄｅｅｐｌｅａｒｎｉｎｇ）を通じて獲得される、請求項３に記載の方法。
前記推定段階で、
前記デバイスで感知される音声に関する情報を参照して、前記デバイスで感知される音声から周辺の騒音を分離する、請求項１に記載の方法。
前記決定段階で、
前記デバイスで感知される音声が人体から発話されたかの可否をさらに参照して、前記デバイスで感知される音声が音声認識の対象であるかの可否を決定する、請求項１に記載の方法。
前記決定段階で、
前記第１距離または前記第２距離が既設定された距離以内であるかの可否をさらに参照して、前記デバイスで感知される音声が音声認識の対象であるかの可否を決定する、請求項１に記載の方法。
請求項１から請求項７のいずれか一項に記載された方法を実行するためのコンピュータプログラムを記録する、非一過性のコンピュータ読み取り可能記録媒体。
音声認識トリガーを提供するためのシステムであって、
デバイスで感知される近接情報に基づいて前記デバイスとユーザー間の距離である第１距離を推定し、前記デバイスで感知される音声に関する情報を参照して、前記デバイスと前記デバイスで感知される音声が発話される位置間の距離である第２距離を推定する推定部、および
前記第１距離および前記第２距離間の類似性を参照して、前記デバイスで感知される音声が音声認識の対象であるかの可否を決定する決定部を含む、システム。