JP6811755B2 - 読話による音声ウェイクアップ方法、装置、設備及びコンピュータ可読媒体、プログラム - Google Patents
読話による音声ウェイクアップ方法、装置、設備及びコンピュータ可読媒体、プログラム Download PDFInfo
- Publication number
- JP6811755B2 JP6811755B2 JP2018167824A JP2018167824A JP6811755B2 JP 6811755 B2 JP6811755 B2 JP 6811755B2 JP 2018167824 A JP2018167824 A JP 2018167824A JP 2018167824 A JP2018167824 A JP 2018167824A JP 6811755 B2 JP6811755 B2 JP 6811755B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- change image
- wake
- lips
- reading
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 28
- 230000008859 change Effects 0.000 claims description 80
- 230000003993 interaction Effects 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 24
- 238000004891 communication Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 230000004044 response Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000001902 propagating effect Effects 0.000 description 3
- 239000000463 material Substances 0.000 description 2
- 206010048232 Yawning Diseases 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
- G06T7/74—Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
Description
ユーザーの唇の変化画像を収集するステップと、
ユーザーの唇の変化画像がプリセット変化画像に一致するかどうかを判断するステップと、
ユーザーの唇の変化画像がプリセット変化画像に一致する場合、音声対話機能をウェイクアップするステップと、を含む。
ユーザーの唇の変化画像を収集するための収集モジュールと、
ユーザーの唇の変化画像がプリセット変化画像に一致するかどうかを判断するための画像判断モジュールと、
ユーザーの唇の変化画像がプリセット変化画像に一致する場合、音声対話機能をウェイクアップするためのウェイクアップモジュールと、を備える。
ユーザーの唇の変化画像を収集するための収集モジュール110と、
ユーザーの唇の変化画像がプリセット変化画像に一致するかどうかを判断するための画像判断モジュール120と、
ユーザーの唇の変化画像がプリセット変化画像に一致する場合、音声対話機能をウェイクアップするためのウェイクアップモジュール130と、を備える。
ユーザーの唇の変化画像を収集するための収集モジュール210と、
ユーザーの唇の変化画像がプリセット変化画像に一致するかどうかを判断するための画像判断モジュール220と、
ユーザーの唇の変化画像がプリセット変化画像に一致する場合、音声対話機能をウェイクアップするためのウェイクアップモジュール230と、
ユーザーの音声を受信して、前記音声が有効音声情報であるかどうかを判断することに用いられ、YESの場合、応答動作を実行し、NOの場合、音声対話機能をオフにする音声判断モジュール240と、を備える。
外部設備と通信し、データの対話式伝送を行うための通信インターフェース330を備える。
120 画像判断モジュール
130 ウェイクアップモジュール
210 収集モジュール
220 画像判断モジュール
230 ウェイクアップモジュール
240 音声判断モジュール
310 メモリ
320 プロセッサ
330 通信インターフェース
Claims (9)
- 読話による音声ウェイクアップ方法であって、
ユーザーの唇の変化画像を収集するステップと、
ユーザーの唇の変化画像がプリセット変化画像に一致するかどうかを判断するステップと、
ユーザーの唇の変化画像がプリセット変化画像に一致する場合、音声対話機能をウェイクアップするステップと、
ユーザーの音声を受信して、前記音声が有効音声情報であるかどうかを判断し、前記音声が有効音声情報ではない場合、前記音声対話機能をオフにするステップと、
を含むことを特徴とする読話による音声ウェイクアップ方法。 - ユーザーの唇の変化画像がプリセット変化画像に一致するかどうかを判断する前記ステップは、
唇の変化画像が唇の正面画像であるかどうかを判断することと、
YESの場合、唇の変化画像がプリセット変化画像と同じであるかどうかを判断することと、を含むことを特徴とする請求項1に記載の読話による音声ウェイクアップ方法。 - 前記プリセット変化画像は唇が閉鎖状態から開放状態まで変化することを特徴とする請求項1に記載の読話による音声ウェイクアップ方法。
- 読話による音声ウェイクアップ装置であって、
ユーザーの唇の変化画像を収集するための収集モジュールと、
ユーザーの唇の変化画像がプリセット変化画像に一致するかどうかを判断するための画像判断モジュールと、
ユーザーの唇の変化画像がプリセット変化画像に一致する場合、音声対話機能をウェイクアップするためのウェイクアップモジュールと、
ユーザーの音声を受信して、前記音声が有効音声情報であるかどうかを判断し、前記音声が有効音声情報ではない場合、前記音声対話機能をオフにするための音声判断モジュールと、
を含むことを特徴とする読話による音声ウェイクアップ装置。 - 前記画像判断モジュールは唇の変化画像が唇の正面画像であるかどうかを判断することに用いられ、YESの場合、唇の変化画像がプリセット変化画像と同じであるかどうかを判断することを特徴とする請求項4に記載の読話による音声ウェイクアップ装置。
- 前記プリセット変化画像は唇が閉鎖状態から開放状態まで変化することを特徴とする請求項4に記載の読話による音声ウェイクアップ装置。
- 読話による音声ウェイクアップ設備であって、
1つ又は複数のプロセッサと、
1つ又は複数のプログラムを記憶するための記憶装置と、を備え、
前記1つ又は複数のプログラムが前記1つ又は複数のプロセッサにより実行される場合、前記1つ又は複数のプロセッサに請求項1〜3のいずれか一項に記載の読話による音声ウェイクアップ方法を実現させることを特徴とする読話による音声ウェイクアップ設備。 - コンピュータプログラムを記憶するコンピュータ可読媒体であって、
該プログラムがプロセッサにより実行される場合、請求項1〜3のいずれか一項に記載の読話による音声ウェイクアップ方法を実現することを特徴とするコンピュータ可読媒体。 - コンピュータにおいて、プロセッサにより実行される場合、請求項1〜3のいずれか一項に記載の読話による音声ウェイクアップ方法を実現することを特徴とするプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810061009.1 | 2018-01-22 | ||
CN201810061009.1A CN108154140A (zh) | 2018-01-22 | 2018-01-22 | 基于唇语的语音唤醒方法、装置、设备及计算机可读介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019128938A JP2019128938A (ja) | 2019-08-01 |
JP6811755B2 true JP6811755B2 (ja) | 2021-01-13 |
Family
ID=62461886
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018167824A Active JP6811755B2 (ja) | 2018-01-22 | 2018-09-07 | 読話による音声ウェイクアップ方法、装置、設備及びコンピュータ可読媒体、プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US10810413B2 (ja) |
JP (1) | JP6811755B2 (ja) |
CN (1) | CN108154140A (ja) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108848011B (zh) * | 2018-06-19 | 2021-08-20 | 广东美的制冷设备有限公司 | 家电设备及其语音交互方法和装置 |
CN109558788B (zh) * | 2018-10-08 | 2023-10-27 | 清华大学 | 静默语音输入辨识方法、计算装置和计算机可读介质 |
CN111078297A (zh) * | 2018-10-18 | 2020-04-28 | 奇酷互联网络科技(深圳)有限公司 | 唤醒语音助手的方法、移动终端和计算机可读存储介质 |
CN111105792A (zh) * | 2018-10-29 | 2020-05-05 | 华为技术有限公司 | 语音交互处理方法及装置 |
CN109949812A (zh) * | 2019-04-26 | 2019-06-28 | 百度在线网络技术(北京)有限公司 | 一种语音交互方法、装置、设备及存储介质 |
CN110196900A (zh) * | 2019-06-13 | 2019-09-03 | 三星电子(中国)研发中心 | 用于终端的交互方法和装置 |
CN111241922B (zh) * | 2019-12-28 | 2024-04-26 | 深圳市优必选科技股份有限公司 | 一种机器人及其控制方法、计算机可读存储介质 |
CN111309283B (zh) * | 2020-03-25 | 2023-12-05 | 北京百度网讯科技有限公司 | 用户界面的语音控制方法、装置、电子设备及存储介质 |
CN111599361A (zh) * | 2020-05-14 | 2020-08-28 | 宁波奥克斯电气股份有限公司 | 一种唤醒方法、装置、计算机存储介质及空调器 |
CN113460067B (zh) * | 2020-12-30 | 2023-06-23 | 安波福电子(苏州)有限公司 | 一种人车交互系统 |
CN113113009A (zh) * | 2021-04-08 | 2021-07-13 | 思必驰科技股份有限公司 | 多模态语音唤醒和打断方法及装置 |
CN113450795A (zh) * | 2021-06-28 | 2021-09-28 | 深圳七号家园信息技术有限公司 | 一种具有语音唤醒功能的图像识别方法及系统 |
CN113674746B (zh) * | 2021-08-18 | 2022-09-16 | 北京百度网讯科技有限公司 | 人机交互方法、装置、设备以及存储介质 |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4715738B2 (ja) * | 2006-12-19 | 2011-07-06 | トヨタ自動車株式会社 | 発話検出装置及び発話検出方法 |
US8798311B2 (en) * | 2009-01-23 | 2014-08-05 | Eldon Technology Limited | Scrolling display of electronic program guide utilizing images of user lip movements |
US20100332229A1 (en) * | 2009-06-30 | 2010-12-30 | Sony Corporation | Apparatus control based on visual lip share recognition |
JP2011013731A (ja) * | 2009-06-30 | 2011-01-20 | Sony Corp | 情報処理装置、情報処理方法、およびプログラム |
US20120304067A1 (en) * | 2011-05-25 | 2012-11-29 | Samsung Electronics Co., Ltd. | Apparatus and method for controlling user interface using sound recognition |
US9318129B2 (en) * | 2011-07-18 | 2016-04-19 | At&T Intellectual Property I, Lp | System and method for enhancing speech activity detection using facial feature detection |
US8863042B2 (en) * | 2012-01-24 | 2014-10-14 | Charles J. Kulas | Handheld device with touch controls that reconfigure in response to the way a user operates the device |
US9443510B2 (en) * | 2012-07-09 | 2016-09-13 | Lg Electronics Inc. | Speech recognition apparatus and method |
JP2014240856A (ja) * | 2013-06-11 | 2014-12-25 | アルパイン株式会社 | 音声入力システム及びコンピュータプログラム |
KR102216048B1 (ko) * | 2014-05-20 | 2021-02-15 | 삼성전자주식회사 | 음성 명령 인식 장치 및 방법 |
CN105389097A (zh) * | 2014-09-03 | 2016-03-09 | 中兴通讯股份有限公司 | 一种人机交互装置及方法 |
CN104820556A (zh) * | 2015-05-06 | 2015-08-05 | 广州视源电子科技股份有限公司 | 唤醒语音助手的方法及装置 |
CN105045122A (zh) * | 2015-06-24 | 2015-11-11 | 张子兴 | 一种基于音频和视频的智能家居自然交互系统 |
US9875352B2 (en) * | 2015-10-02 | 2018-01-23 | International Business Machines Corporation | Oral authentication management |
US9963096B2 (en) * | 2015-11-16 | 2018-05-08 | Continental Automotive Systems, Inc. | Vehicle infotainment and connectivity system |
US20170186446A1 (en) * | 2015-12-24 | 2017-06-29 | Michal Wosk | Mouth proximity detection |
CN105501121B (zh) * | 2016-01-08 | 2018-08-03 | 北京乐驾科技有限公司 | 一种智能唤醒方法及系统 |
US9916832B2 (en) * | 2016-02-18 | 2018-03-13 | Sensory, Incorporated | Using combined audio and vision-based cues for voice command-and-control |
CN105881548B (zh) | 2016-04-29 | 2018-07-20 | 北京快乐智慧科技有限责任公司 | 唤醒智能交互机器人的方法及智能交互机器人 |
CN106288229B (zh) * | 2016-09-20 | 2018-09-07 | 珠海格力电器股份有限公司 | 一种空调控制方法、装置、集中控制节点及系统 |
CN106782524A (zh) * | 2016-11-30 | 2017-05-31 | 深圳讯飞互动电子有限公司 | 一种混合唤醒方法及系统 |
JP7337699B2 (ja) * | 2017-03-23 | 2023-09-04 | ジョイソン セイフティ システムズ アクイジション エルエルシー | 口の画像を入力コマンドと相互に関連付けるシステム及び方法 |
CN107517313A (zh) * | 2017-08-22 | 2017-12-26 | 珠海市魅族科技有限公司 | 唤醒方法及装置、终端及可读存储介质 |
-
2018
- 2018-01-22 CN CN201810061009.1A patent/CN108154140A/zh active Pending
- 2018-09-07 JP JP2018167824A patent/JP6811755B2/ja active Active
- 2018-10-19 US US16/165,597 patent/US10810413B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
CN108154140A (zh) | 2018-06-12 |
US10810413B2 (en) | 2020-10-20 |
US20190228212A1 (en) | 2019-07-25 |
JP2019128938A (ja) | 2019-08-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6811755B2 (ja) | 読話による音声ウェイクアップ方法、装置、設備及びコンピュータ可読媒体、プログラム | |
JP6975696B2 (ja) | ジェスチャーによる音声ウェイクアップ方法、装置、設備及びコンピュータ可読媒体、プログラム | |
US11502859B2 (en) | Method and apparatus for waking up via speech | |
CN107256707B (zh) | 一种语音识别方法、系统及终端设备 | |
US20200219503A1 (en) | Method and apparatus for filtering out voice instruction | |
US11587560B2 (en) | Voice interaction method, device, apparatus and server | |
CN109240107B (zh) | 一种电器设备的控制方法、装置、电器设备和介质 | |
JP7166294B2 (ja) | オーディオ処理方法、装置及び記憶媒体 | |
CN108428451B (zh) | 语音控制方法、电子设备和语音控制系统 | |
US11200899B2 (en) | Voice processing method, apparatus and device | |
CN108965981B (zh) | 视频播放方法、装置、存储介质及电子设备 | |
CN112017650A (zh) | 电子设备的语音控制方法、装置、计算机设备和存储介质 | |
CN107643909B (zh) | 用于协调多个本地设备上的输入的方法和电子设备 | |
US20210191580A1 (en) | Method and Apparatus for Displaying Application Program, Terminal Device, and Storage Medium | |
CN114333774B (zh) | 语音识别方法、装置、计算机设备及存储介质 | |
CN105760084A (zh) | 语音输入的控制方法和装置 | |
JP2020109475A (ja) | 音声対話方法、装置、設備、及び記憶媒体 | |
CN111063356B (zh) | 电子设备响应方法及系统、音箱和计算机可读存储介质 | |
CN107391180A (zh) | 点屏方法、装置及计算机可读存储介质 | |
CN111739535A (zh) | 一种语音识别方法、装置和电子设备 | |
CN109753148A (zh) | 一种vr设备的控制方法、装置及控制终端 | |
EP3745252A1 (en) | Voice control method and apparatus of electronic device, computer device and storage medium | |
CN109358755B (zh) | 用于移动终端的手势检测方法、装置和移动终端 | |
US11238863B2 (en) | Query disambiguation using environmental audio | |
US11302322B2 (en) | Ignoring command sources at a digital assistant |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180907 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20191008 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191225 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200415 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200713 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201201 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201215 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6811755 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |