JP6811755B2 - 読話による音声ウェイクアップ方法、装置、設備及びコンピュータ可読媒体、プログラム - Google Patents

読話による音声ウェイクアップ方法、装置、設備及びコンピュータ可読媒体、プログラム Download PDF

Info

Publication number
JP6811755B2
JP6811755B2 JP2018167824A JP2018167824A JP6811755B2 JP 6811755 B2 JP6811755 B2 JP 6811755B2 JP 2018167824 A JP2018167824 A JP 2018167824A JP 2018167824 A JP2018167824 A JP 2018167824A JP 6811755 B2 JP6811755 B2 JP 6811755B2
Authority
JP
Japan
Prior art keywords
voice
change image
wake
lips
reading
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018167824A
Other languages
English (en)
Other versions
JP2019128938A (ja
Inventor
リヤーン・ガオ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2019128938A publication Critical patent/JP2019128938A/ja
Application granted granted Critical
Publication of JP6811755B2 publication Critical patent/JP6811755B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/74Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Description

本発明は、音声ウェイクアップ技術分野に関し、特に読話による音声ウェイクアップ方法、装置、設備及びコンピュータ可読媒体、プログラムに関する。
音声認識能力の向上に伴い、ますます多くのスマート設備にも音声認識が応用されてきた。基本的に、従来のスマート設備の音声対話態様に使用されるのは音声ウェイクアップワードによる音声対話である。音声機能をウェイクアップする具体的な動作は、一般的に、一定のウェイクアップワード、例えば「度ちゃん、度ちゃん」、「Alexa」等で音声対話設備をウェイクアップさせる。音声対話設備で認識を開始し、更にユーザーと音声対話を行う。
ところが、従来の音声ウェイクアップ態様は、音声対話をするたびにウェイクアップワードを一回言う必要がある。ウェイクアップワードを繰り返し言うと、ユーザーに悪い経験を与えてしまう。
従来技術における以上の技術的問題を解決又は緩和するために、本発明の実施例は読話による音声ウェイクアップ方法、装置、設備及びコンピュータ可読媒体を提供する。
第一態様において、本発明の実施例は読話による音声ウェイクアップ方法を提供し、
ユーザーの唇の変化画像を収集するステップと、
ユーザーの唇の変化画像がプリセット変化画像に一致するかどうかを判断するステップと、
ユーザーの唇の変化画像がプリセット変化画像に一致する場合、音声対話機能をウェイクアップするステップと、を含む。
第一態様と合わせて、本発明の第一態様の第一実現形態において、ユーザーの唇の変化画像がプリセット変化画像に一致するかどうかを判断する前記ステップは、具体的に、唇の変化画像が唇の正面画像であるかどうかを判断し、YESの場合、唇の変化画像がプリセット変化画像と同じであるかどうかを判断することを含む。
第一態様と合わせて、本発明の第一態様の第二実現形態において、前記プリセット変化画像は唇が閉鎖状態から開放状態まで変化する。
第一態様と合わせて、本発明の第一態様の第三実現形態において、ユーザーの唇の変化画像がプリセット変化画像に一致する場合、音声対話機能をウェイクアップする前記ステップの後、更に、ユーザーの音声を受信して、前記音声が有効音声情報であるかどうかを判断し、YESの場合、応答動作を実行し、NOの場合、音声対話機能をオフにすることを含む。
第二態様において、本発明の実施例は読話による音声ウェイクアップ装置を提供し、
ユーザーの唇の変化画像を収集するための収集モジュールと、
ユーザーの唇の変化画像がプリセット変化画像に一致するかどうかを判断するための画像判断モジュールと、
ユーザーの唇の変化画像がプリセット変化画像に一致する場合、音声対話機能をウェイクアップするためのウェイクアップモジュールと、を備える。
第二態様と合わせて、本発明の第二態様の第一実現形態において、前記画像判断モジュールは具体的に、唇の変化画像が唇の正面画像であるかどうかを判断することに用いられ、YESの場合、唇の変化画像がプリセット変化画像と同じであるかどうかを判断する。
第二態様と合わせて、本発明の第二態様の第二実現形態において、前記プリセット変化画像は唇が閉鎖状態から開放状態まで変化する。
第二態様と合わせて、本発明の第二態様の第三実現形態において、更に音声判断モジュールを備え、前記音声判断モジュールはユーザーの音声を受信して、前記音声が有効音声情報であるかどうかを判断することに用いられ、YESの場合、応答動作を実行し、NOの場合、音声対話機能をオフにする。
前記装置の機能をハードウェアで実現してもよいし、ハードウェアで対応するソフトウェアを実行することで実現してもよい。前記ハードウェア又はソフトウェアは上記機能に対応する1つ又は複数のモジュールを含む。
可能な一設計において、読話による音声ウェイクアップ装置の構造はプロセッサ及びメモリを備え、前記メモリは読話による音声ウェイクアップ装置が上記第一態様における読話による音声ウェイクアップ方法を実行することをサポートするプログラムを記憶することに用いられ、前記プロセッサが前記メモリに記憶されるプログラムを実行するように配置される。前記読話による音声ウェイクアップ装置は読話による音声ウェイクアップ装置をほかの設備又は通信ネットワークと通信させるための通信インターフェースを更に備えてもよい。
第三態様において、本発明の実施例は、読話による音声ウェイクアップ装置に使用されるコンピュータソフトウェア命令を記憶することに用いられ、前記コンピュータソフトウェア命令が上記第一態様の読話による音声ウェイクアップ方法を実行するために関するプログラムを含むコンピュータ可読媒体を提供する。
上記技術案のうち一つの技術案は、本発明の実施例において明確なウェイクアップワードを言わずにスマート音声対話装置をウェイクアップさせることができ、それにより音声ウェイクアップを更にスマート化し、ユーザーと音声装置との対話に役立つという利点又は有益な効果を有する。
上記概説は明細書の目的のために説明されたが、何らかの形態で本発明を限定するものではない。上記例示的な態様、実施形態及び特徴に加えて、図面及び以下の詳細な説明を参照することによって、本発明のさらなる態様、実施形態及び特徴は分かりやすくなる。
図面では、特に断りがない限り、複数の図面に亘って同じ符号で同一又は類似する部材又は要素を示す。これらの図面は必ずしも一定の比例に応じて描かれているとは限らない。理解すべきなのは、これらの図面は本発明開示のいくつかの実施形態を描いているためのものであり、本発明の範囲を制限するためのものであると見なされるべきではない。
実施例1に係る読話による音声ウェイクアップ方法のフローチャートである。 実施例1に係る唇閉鎖時の模式図である。 実施例1に係る唇開放時の模式図である。 実施例2に係る読話による音声ウェイクアップ方法のフローチャートである。 実施例3に係る読話による音声ウェイクアップ装置の接続ブロック図である。 実施例4に係る読話による音声ウェイクアップ装置の接続ブロック図である。 実施例5に係る読話による音声ウェイクアップ設備の接続ブロック図である。
以下、ある例示的な実施例を簡単に説明する。当業者が認識できる通り、本発明の趣旨又は範囲を逸脱せずに、種々の異なる態様で説明された実施例を修正することができる。従って、図面及び説明が実質的に例示的なものであって、制限的なものではないと見なされている。
本発明の実施例の目的は、従来技術における、音声ウェイクアップを行う時にウェイクアップワードを一回言う必要があるという技術的問題を解決することである。本発明の実施例は主にジェスチャーで音声ウェイクアップを行い、これから、以下の実施例によって技術案をそれぞれ詳しく説明する。
実施例1
図1は本発明の実施例1に係る読話による音声ウェイクアップ方法のフローチャートである。本実施例1は読話による音声ウェイクアップ方法を提供し、以下のステップを含む。
S110では、ユーザーの唇の変化画像を収集する。
ユーザーがあるスマート設備に対して音声対話機能を起動する必要がある場合、スマート設備のカメラに面して直接話してもよく、この時、カメラによってユーザーの唇の画像をリアルタイムに収集することができる。
S120では、ユーザーの唇の変化画像がプリセット変化画像に一致するかどうかを判断する。
受信されたユーザーの唇の変化画像に基づいて判断し、プリセット変化画像と比較して、一致するかどうかを判断してもよい。また、ユーザーがほかの人と話す可能性があるため、この時、ユーザーがスマート設備に面して音声入力を行っているかどうかを判断する必要がある。従って、本実施例において、更に収集されたユーザーの唇の画像が唇の正面画像であるかどうかを判断する必要があり、YESの場合、唇の変化画像がプリセット変化画像に一致するかどうかを更に判断する。
本実施例に記載の一致する唇の変化画像は必ずしも完全に同じであるとは限らず、同じ動作をすればよい。例えば、図2〜3はそれぞれ本実施例に係る唇閉鎖時及び唇開放時の模式図である。本実施例において、プリセット唇の変化画像は唇が閉鎖状態から開放状態まで変化してもよい。
S130では、ユーザーの唇の変化画像がプリセット変化画像に一致する場合、音声対話機能をウェイクアップする。
この時、ユーザーの唇の変化画像がプリセット画像に一致する場合、ユーザーがスマート設備と音声通話をしたがると説明され、この時、スマート設備が音声対話機能をウェイクアップする。この場合、ユーザーが余計なウェイクアップ動作をしなくても、直接音声対話をすることができる。
実施例2
実施例1との相違点は、本実施例2において、音声対話機能をウェイクアップした後、更にユーザーの入力した音声情報が有効音声情報であるかどうかを判断することであり、具体案は以下のとおりである。
図4は本実施例2に係る読話による音声ウェイクアップ方法のフローチャートである。本実施例2における読話による音声ウェイクアップ方法は以下のステップを含む。
S210では、ユーザーの唇の変化画像を収集する。
S220では、ユーザーの唇の変化画像がプリセット変化画像に一致するかどうかを判断する。
受信されたユーザーの唇の変化画像に基づいて判断し、プリセット変化画像と比較して、一致するかどうかを判断してもよい。また、ユーザーがほかの人と話す可能性があるため、この時、ユーザーがスマート設備に面して音声入力を行っているかどうかを判断する必要がある。従って、本実施例において、更に収集されたユーザーの唇の画像が唇の正面画像であるかどうかを判断する必要があり、YESの場合、唇の変化画像がプリセット変化画像に一致するかどうかを更に判断する。本実施例において、プリセット唇の変化画像は唇が閉鎖状態から開放状態まで変化してもよい。
S230では、ユーザーの唇の変化画像がプリセット変化画像に一致する場合、音声対話機能をウェイクアップする。
S240では、ユーザーの音声を受信して、前記音声が有効音声情報であるかどうかを判断し、YESの場合、応答動作を実行し、NOの場合、音声対話機能をオフにする。
ユーザーの唇が閉鎖状態から開放状態に変える場合、音声対話機能をウェイクアップする。この時、更にユーザーが有効音声情報を入力したかどうかを検出する必要がある。ユーザーの唇が変化する時には必ずしも話したがるとは限らず、「あくびしたがる」又は「何か食べたがる」場合もある。このため、ユーザーが有効音声情報を入力していないと検出する場合、音声ウェイクアップ機能をオフにする。
本実施例2におけるステップS210〜S230は実施例1と同様であり、詳細な説明は省略する。
実施例3
本実施例3は実施例1に対応し、読話による音声ウェイクアップ装置を提供する。図5は本実施例3に係る読話による音声ウェイクアップ装置の接続ブロック図である。
本実施例3における読話による音声ウェイクアップ装置は、
ユーザーの唇の変化画像を収集するための収集モジュール110と、
ユーザーの唇の変化画像がプリセット変化画像に一致するかどうかを判断するための画像判断モジュール120と、
ユーザーの唇の変化画像がプリセット変化画像に一致する場合、音声対話機能をウェイクアップするためのウェイクアップモジュール130と、を備える。
前記画像判断モジュール120は、具体的に、唇の変化画像が唇の正面画像であるかどうかを判断することに用いられ、YESの場合、唇の変化画像がプリセット変化画像と同じであるかどうかを判断する。本実施例において、前記プリセット変化画像は唇が閉鎖状態から開放状態まで変化する。
本実施例3は実施例1の原理と同様であり、詳細な説明は省略する。
実施例4
本実施例4は実施例2に対応し、読話による音声ウェイクアップ装置を提供し、具体的に、以下のとおりである。
図6は本実施例4に係る読話による音声ウェイクアップ装置の接続ブロック図である。本発明の実施例4は読話による音声ウェイクアップ装置を提供し、
ユーザーの唇の変化画像を収集するための収集モジュール210と、
ユーザーの唇の変化画像がプリセット変化画像に一致するかどうかを判断するための画像判断モジュール220と、
ユーザーの唇の変化画像がプリセット変化画像に一致する場合、音声対話機能をウェイクアップするためのウェイクアップモジュール230と、
ユーザーの音声を受信して、前記音声が有効音声情報であるかどうかを判断することに用いられ、YESの場合、応答動作を実行し、NOの場合、音声対話機能をオフにする音声判断モジュール240と、を備える。
前記画像判断モジュール220は、具体的に、唇の変化画像が唇の正面画像であるかどうかを判断することに用いられ、YESの場合、唇の変化画像がプリセット変化画像と同じであるかどうかを判断する。本実施例において、前記プリセット変化画像は唇が閉鎖状態から開放状態まで変化する。
本実施例4の応用形態及び原理は実施例2と同様であり、詳細な説明は省略する。
実施例5
本発明の実施例5は読話による音声ウェイクアップ設備を提供し、図7に示すように、該設備は、メモリ310及びプロセッサ320を備え、メモリ310にプロセッサ320で実行できるコンピュータプログラムが記憶される。前記プロセッサ320が前記コンピュータプログラムを実行する時、上記実施例における読話による音声ウェイクアップ方法を実現する。前記メモリ310及びプロセッサ320の数が1つ又は複数であってもよい。
該設備は、更に、
外部設備と通信し、データの対話式伝送を行うための通信インターフェース330を備える。
メモリ310は高速RAMメモリを含んでもよいし、更に不揮発性メモリ(non−volatile memory)、例えば少なくとも1つの磁気ディスク記憶装置を含んでもよい。
メモリ310、プロセッサ320及び通信インターフェース330が独立して実現される場合、メモリ310、プロセッサ320及び通信インターフェース330がバスを介して互いに接続されて相互間の通信を実現することができる。前記バスはインダストリ・スタンダード・アーキテクチャ(ISA、Industry Standard Architecture)バス、ペリフェラル・コンポーネント・インターコネクト(PCI、Peripheral Component Interconnect)バス又は拡張インダストリ・スタンダード・アーキテクチャ(EISA、Extended Industry Standard Architecture)バス等であってもよい。前記バスをアドレスバス、データバス、制御バス等に分けてもよい。容易に示すために、図7に一本のみの太線で示すが、一本のみのバス又は1つのみのタイプのバスがあると示すことではない。
好ましくは、具体的に実現する時、メモリ310、プロセッサ320及び通信インターフェース330が一枚のチップに統合される場合、メモリ310、プロセッサ320及び通信インターフェース330が内部インターフェースを介して相互間の通信を実現することができる。
本明細書の説明において、参照用語「一実施例」、「いくつかの実施例」、「例」、「具体例」、又は「いくつかの例」等の説明とは該実施例又は例を参照しながら説明された具体的な特徴、構造、材料又は特徴が本発明の少なくとも1つの実施例又は例に含まれることを意味する。且つ、説明された具体的な特徴、構造、材料又は特徴はいずれか又は複数の実施例又は例で適切な態様で結合してもよい。また、矛盾しない限り、当業者は本明細書に説明された異なる実施例又は例及び異なる実施例又は例の特徴を結合する及び組み合わせることができる。
また、用語「第1」、「第2」は説明目的でのみ使用されており、相対重要性を指示又は示唆したり、指示した技術的特徴の数を黙示的に指示したりするものではない。従って、「第1」、「第2」を付けて定義された特徴は少なくとも1つの該特徴を明示的又は黙示的に含むと理解できる。本発明の説明において、「複数」は、特に断らない限り、2つ又は2つ以上を意味する。
当業者は、フローチャート又はここでほかの態様で説明された任意の過程又は方法についての説明が、特定の論理機能又は過程を実現するための1つ又はそれ以上のステップを含む実行可能命令コードのモジュール、セグメント又は一部を示すと理解されてもよく、且つ本発明の好適な実施形態の範囲はほかの実現を含み、図示又は検討された順序ではなく、関わる機能に応じて基本同時の態様又は逆順序で機能を実行してもよいことを理解すべきである。
フローチャートに示し又はここでほかの態様で説明された論理及び/又はステップは、例えば、論理機能を実現するための実行可能命令の順番付けリストであると見なされてもよく、具体的に任意のコンピュータ可読媒体で命令実行システム、装置又は設備(例えばコンピュータに基づくシステム、プロセッサを備えるシステム又は命令実行システム、装置又は設備から命令を取得して命令を実行することができるほかのシステム)に使用されてもよく、又はこれらの命令実行システム、装置又は設備と合わせて使用されてもよい。本明細書は、「コンピュータ可読媒体」がプログラムを包含、記憶、通信、伝播又は伝送することにより命令を実行するためのシステム、装置又は設備又はこれらの命令実行システム、装置又は設備を合わせて使用する任意の装置であってもよい。
本発明の実施例に記載のコンピュータ可読媒体はコンピュータ可読信号媒体又はコンピュータ可読記憶媒体又は上記2つの組み合わせであってもよい。コンピュータ可読記憶媒体のさらなる具体例は少なくとも(非網羅的リスト)1つ又は複数の配線を有する電気接続部(電子装置)、ポータブルコンピュータケース(磁気装置)、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、消去可能プログラマブルリードオンリメモリ(EPROM又はフラッシュメモリ)、光ファイバー装置、及びポータブルリードオンリメモリ(CDROM)を含む。また、例えば用紙又はほかの媒体を光学的に走査し、次に編集、解釈し又は必要な時にほかの適切な態様で処理して電子態様で前記プログラムを取得し、次にそれをコンピュータメモリに記憶することができるため、コンピュータ可読記憶媒体は更にその上に前記プログラムを印刷できる用紙又はほかの適切な媒体であってもよい。
本発明の実施例において、コンピュータ可読プログラムコードを運ぶコンピュータ可読信号媒体がベースバンド、又は搬送波の一部として伝播するデータ信号に含まれてもよい。このような伝播するデータ信号は様々な形態を用いてもよく、電磁信号、光信号又は上記任意の適切な組み合わせを含むが、それらに限らない。コンピュータ可読信号媒体は更にコンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であってもよく、該コンピュータ可読媒体は命令実行システム、入力法又はデバイスに使用され又はそれと合わせて使用されるためのプログラムを送信、伝播又は伝送することができる。コンピュータ可読媒体に含まれるプログラムコードは任意の適切な媒体で伝送されてもよく、上記媒体は無線、電線、光ケーブル、無線周波数(Radio Frequency、RF)等、又は上記任意の適切な組み合わせを含むが、それらに限らない。
理解すべきなのは、本発明の各部分はハードウェア、ソフトウェア、ファームウェア又はそれらの組み合わせで実現されてもよい。上記実施形態において、複数のステップ又は方法はメモリに記憶されて適切な命令実行システムで実行するソフトウェア又はファームウェアにより実現されてもよい。例えば、ハードウェアにより実現される場合は、別の実施形態と同様に、データ信号に対して論理機能を実現するための論理ゲート回路を有する離散論理回路、適切な組み合わせ論理ゲート回路を有する特定用途向け統合回路、プログラマブルゲートアレイ(PGA)、フィールドプログラマブルゲートアレイ(FPGA)等の本分野で公知の技術のいずれか一項又はそれらの組み合わせにより実現されてもよい。
当業者は、上記実施例方法におけるステップの全部又は一部を実現するために、プログラムによって関連するハードウェアを命令することにより完了することができ、前記プログラムが一種のコンピュータ可読記憶媒体に記憶されてもよく、該プログラムが実行時に方法実施例における1つのステップ又はその組み合わせを含むと理解される。
また、本発明の各実施例における各機能ユニットが1つの処理モジュールに統合されてもよく、各ユニットが独立して物理的に存在してもよく、2つ又は2つ以上のユニットが1つのモジュールに統合されてもよい。上記統合されたモジュールはハードウェアの形で実現されてもよいし、ソフトウェア機能モジュールの形で実現されてもよい。前記統合されたモジュールはソフトウェア機能モジュールの形で実現されて独立した製品として販売又は使用される時、1つのコンピュータ可読記憶媒体に記憶されてもよい。前記記憶媒体はリードオンリメモリ、磁気ディスク又は光ディスク等であってもよい。
要するに、本発明の実施例は明確なウェイクアップワードを言わずにスマート音声対話設備をウェイクアップさせることができ、それにより音声ウェイクアップを更にスマート化し、ユーザーと音声設備との対話に役立つ。
以上の説明は本発明の具体的な実施形態であって、本発明の保護範囲はこれに限らず、当業者が本発明に開示された技術的範囲内に、容易に想到し得る種々の変更又は置換は、いずれも本発明の保護範囲内に含まれるべきである。従って、本発明の保護範囲は前記特許請求の保護範囲に準じる。
110 収集モジュール
120 画像判断モジュール
130 ウェイクアップモジュール
210 収集モジュール
220 画像判断モジュール
230 ウェイクアップモジュール
240 音声判断モジュール
310 メモリ
320 プロセッサ
330 通信インターフェース

Claims (9)

  1. 読話による音声ウェイクアップ方法であって、
    ユーザーの唇の変化画像を収集するステップと、
    ユーザーの唇の変化画像がプリセット変化画像に一致するかどうかを判断するステップと、
    ユーザーの唇の変化画像がプリセット変化画像に一致する場合、音声対話機能をウェイクアップするステップと、
    ユーザーの音声を受信して、前記音声が有効音声情報であるかどうかを判断し、前記音声が有効音声情報ではない場合、前記音声対話機能をオフにするステップと、
    を含むことを特徴とする読話による音声ウェイクアップ方法。
  2. ユーザーの唇の変化画像がプリセット変化画像に一致するかどうかを判断する前記ステップは、
    唇の変化画像が唇の正面画像であるかどうかを判断することと、
    YESの場合、唇の変化画像がプリセット変化画像と同じであるかどうかを判断することと、を含むことを特徴とする請求項1に記載の読話による音声ウェイクアップ方法。
  3. 前記プリセット変化画像は唇が閉鎖状態から開放状態まで変化することを特徴とする請求項1に記載の読話による音声ウェイクアップ方法。
  4. 読話による音声ウェイクアップ装置であって、
    ユーザーの唇の変化画像を収集するための収集モジュールと、
    ユーザーの唇の変化画像がプリセット変化画像に一致するかどうかを判断するための画像判断モジュールと、
    ユーザーの唇の変化画像がプリセット変化画像に一致する場合、音声対話機能をウェイクアップするためのウェイクアップモジュールと、
    ユーザーの音声を受信して、前記音声が有効音声情報であるかどうかを判断し、前記音声が有効音声情報ではない場合、前記音声対話機能をオフにするための音声判断モジュールと、
    を含むことを特徴とする読話による音声ウェイクアップ装置。
  5. 前記画像判断モジュールは唇の変化画像が唇の正面画像であるかどうかを判断することに用いられ、YESの場合、唇の変化画像がプリセット変化画像と同じであるかどうかを判断することを特徴とする請求項に記載の読話による音声ウェイクアップ装置。
  6. 前記プリセット変化画像は唇が閉鎖状態から開放状態まで変化することを特徴とする請求項に記載の読話による音声ウェイクアップ装置。
  7. 読話による音声ウェイクアップ設備であって、
    1つ又は複数のプロセッサと、
    1つ又は複数のプログラムを記憶するための記憶装置と、を備え、
    前記1つ又は複数のプログラムが前記1つ又は複数のプロセッサにより実行される場合、前記1つ又は複数のプロセッサに請求項1〜のいずれか一項に記載の読話による音声ウェイクアップ方法を実現させることを特徴とする読話による音声ウェイクアップ設備。
  8. コンピュータプログラムを記憶するコンピュータ可読媒体であって、
    該プログラムがプロセッサにより実行される場合、請求項1〜のいずれか一項に記載の読話による音声ウェイクアップ方法を実現することを特徴とするコンピュータ可読媒体。
  9. コンピュータにおいて、プロセッサにより実行される場合、請求項1〜のいずれか一項に記載の読話による音声ウェイクアップ方法を実現することを特徴とするプログラム。
JP2018167824A 2018-01-22 2018-09-07 読話による音声ウェイクアップ方法、装置、設備及びコンピュータ可読媒体、プログラム Active JP6811755B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810061009.1 2018-01-22
CN201810061009.1A CN108154140A (zh) 2018-01-22 2018-01-22 基于唇语的语音唤醒方法、装置、设备及计算机可读介质

Publications (2)

Publication Number Publication Date
JP2019128938A JP2019128938A (ja) 2019-08-01
JP6811755B2 true JP6811755B2 (ja) 2021-01-13

Family

ID=62461886

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018167824A Active JP6811755B2 (ja) 2018-01-22 2018-09-07 読話による音声ウェイクアップ方法、装置、設備及びコンピュータ可読媒体、プログラム

Country Status (3)

Country Link
US (1) US10810413B2 (ja)
JP (1) JP6811755B2 (ja)
CN (1) CN108154140A (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108848011B (zh) * 2018-06-19 2021-08-20 广东美的制冷设备有限公司 家电设备及其语音交互方法和装置
CN109558788B (zh) * 2018-10-08 2023-10-27 清华大学 静默语音输入辨识方法、计算装置和计算机可读介质
CN111078297A (zh) * 2018-10-18 2020-04-28 奇酷互联网络科技(深圳)有限公司 唤醒语音助手的方法、移动终端和计算机可读存储介质
CN111105792A (zh) * 2018-10-29 2020-05-05 华为技术有限公司 语音交互处理方法及装置
CN109949812A (zh) * 2019-04-26 2019-06-28 百度在线网络技术(北京)有限公司 一种语音交互方法、装置、设备及存储介质
CN110196900A (zh) * 2019-06-13 2019-09-03 三星电子(中国)研发中心 用于终端的交互方法和装置
CN111241922B (zh) * 2019-12-28 2024-04-26 深圳市优必选科技股份有限公司 一种机器人及其控制方法、计算机可读存储介质
CN111309283B (zh) * 2020-03-25 2023-12-05 北京百度网讯科技有限公司 用户界面的语音控制方法、装置、电子设备及存储介质
CN111599361A (zh) * 2020-05-14 2020-08-28 宁波奥克斯电气股份有限公司 一种唤醒方法、装置、计算机存储介质及空调器
CN113460067B (zh) * 2020-12-30 2023-06-23 安波福电子(苏州)有限公司 一种人车交互系统
CN113113009A (zh) * 2021-04-08 2021-07-13 思必驰科技股份有限公司 多模态语音唤醒和打断方法及装置
CN113450795A (zh) * 2021-06-28 2021-09-28 深圳七号家园信息技术有限公司 一种具有语音唤醒功能的图像识别方法及系统
CN113674746B (zh) * 2021-08-18 2022-09-16 北京百度网讯科技有限公司 人机交互方法、装置、设备以及存储介质

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4715738B2 (ja) * 2006-12-19 2011-07-06 トヨタ自動車株式会社 発話検出装置及び発話検出方法
US8798311B2 (en) * 2009-01-23 2014-08-05 Eldon Technology Limited Scrolling display of electronic program guide utilizing images of user lip movements
US20100332229A1 (en) * 2009-06-30 2010-12-30 Sony Corporation Apparatus control based on visual lip share recognition
JP2011013731A (ja) * 2009-06-30 2011-01-20 Sony Corp 情報処理装置、情報処理方法、およびプログラム
US20120304067A1 (en) * 2011-05-25 2012-11-29 Samsung Electronics Co., Ltd. Apparatus and method for controlling user interface using sound recognition
US9318129B2 (en) * 2011-07-18 2016-04-19 At&T Intellectual Property I, Lp System and method for enhancing speech activity detection using facial feature detection
US8863042B2 (en) * 2012-01-24 2014-10-14 Charles J. Kulas Handheld device with touch controls that reconfigure in response to the way a user operates the device
US9443510B2 (en) * 2012-07-09 2016-09-13 Lg Electronics Inc. Speech recognition apparatus and method
JP2014240856A (ja) * 2013-06-11 2014-12-25 アルパイン株式会社 音声入力システム及びコンピュータプログラム
KR102216048B1 (ko) * 2014-05-20 2021-02-15 삼성전자주식회사 음성 명령 인식 장치 및 방법
CN105389097A (zh) * 2014-09-03 2016-03-09 中兴通讯股份有限公司 一种人机交互装置及方法
CN104820556A (zh) * 2015-05-06 2015-08-05 广州视源电子科技股份有限公司 唤醒语音助手的方法及装置
CN105045122A (zh) * 2015-06-24 2015-11-11 张子兴 一种基于音频和视频的智能家居自然交互系统
US9875352B2 (en) * 2015-10-02 2018-01-23 International Business Machines Corporation Oral authentication management
US9963096B2 (en) * 2015-11-16 2018-05-08 Continental Automotive Systems, Inc. Vehicle infotainment and connectivity system
US20170186446A1 (en) * 2015-12-24 2017-06-29 Michal Wosk Mouth proximity detection
CN105501121B (zh) * 2016-01-08 2018-08-03 北京乐驾科技有限公司 一种智能唤醒方法及系统
US9916832B2 (en) * 2016-02-18 2018-03-13 Sensory, Incorporated Using combined audio and vision-based cues for voice command-and-control
CN105881548B (zh) 2016-04-29 2018-07-20 北京快乐智慧科技有限责任公司 唤醒智能交互机器人的方法及智能交互机器人
CN106288229B (zh) * 2016-09-20 2018-09-07 珠海格力电器股份有限公司 一种空调控制方法、装置、集中控制节点及系统
CN106782524A (zh) * 2016-11-30 2017-05-31 深圳讯飞互动电子有限公司 一种混合唤醒方法及系统
JP7337699B2 (ja) * 2017-03-23 2023-09-04 ジョイソン セイフティ システムズ アクイジション エルエルシー 口の画像を入力コマンドと相互に関連付けるシステム及び方法
CN107517313A (zh) * 2017-08-22 2017-12-26 珠海市魅族科技有限公司 唤醒方法及装置、终端及可读存储介质

Also Published As

Publication number Publication date
CN108154140A (zh) 2018-06-12
US10810413B2 (en) 2020-10-20
US20190228212A1 (en) 2019-07-25
JP2019128938A (ja) 2019-08-01

Similar Documents

Publication Publication Date Title
JP6811755B2 (ja) 読話による音声ウェイクアップ方法、装置、設備及びコンピュータ可読媒体、プログラム
JP6975696B2 (ja) ジェスチャーによる音声ウェイクアップ方法、装置、設備及びコンピュータ可読媒体、プログラム
US11502859B2 (en) Method and apparatus for waking up via speech
CN107256707B (zh) 一种语音识别方法、系统及终端设备
US20200219503A1 (en) Method and apparatus for filtering out voice instruction
US11587560B2 (en) Voice interaction method, device, apparatus and server
CN109240107B (zh) 一种电器设备的控制方法、装置、电器设备和介质
JP7166294B2 (ja) オーディオ処理方法、装置及び記憶媒体
CN108428451B (zh) 语音控制方法、电子设备和语音控制系统
US11200899B2 (en) Voice processing method, apparatus and device
CN108965981B (zh) 视频播放方法、装置、存储介质及电子设备
CN112017650A (zh) 电子设备的语音控制方法、装置、计算机设备和存储介质
CN107643909B (zh) 用于协调多个本地设备上的输入的方法和电子设备
US20210191580A1 (en) Method and Apparatus for Displaying Application Program, Terminal Device, and Storage Medium
CN114333774B (zh) 语音识别方法、装置、计算机设备及存储介质
CN105760084A (zh) 语音输入的控制方法和装置
JP2020109475A (ja) 音声対話方法、装置、設備、及び記憶媒体
CN111063356B (zh) 电子设备响应方法及系统、音箱和计算机可读存储介质
CN107391180A (zh) 点屏方法、装置及计算机可读存储介质
CN111739535A (zh) 一种语音识别方法、装置和电子设备
CN109753148A (zh) 一种vr设备的控制方法、装置及控制终端
EP3745252A1 (en) Voice control method and apparatus of electronic device, computer device and storage medium
CN109358755B (zh) 用于移动终端的手势检测方法、装置和移动终端
US11238863B2 (en) Query disambiguation using environmental audio
US11302322B2 (en) Ignoring command sources at a digital assistant

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180907

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191008

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191225

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200415

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200713

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201201

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201215

R150 Certificate of patent or registration of utility model

Ref document number: 6811755

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250