JP2019128938A - 読話による音声ウェイクアップ方法、装置、設備及びコンピュータ可読媒体 - Google Patents
読話による音声ウェイクアップ方法、装置、設備及びコンピュータ可読媒体 Download PDFInfo
- Publication number
- JP2019128938A JP2019128938A JP2018167824A JP2018167824A JP2019128938A JP 2019128938 A JP2019128938 A JP 2019128938A JP 2018167824 A JP2018167824 A JP 2018167824A JP 2018167824 A JP2018167824 A JP 2018167824A JP 2019128938 A JP2019128938 A JP 2019128938A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- change image
- user
- speech
- lip
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 230000003993 interaction Effects 0.000 claims abstract description 18
- 230000002618 waking effect Effects 0.000 claims abstract description 11
- 230000004044 response Effects 0.000 claims abstract description 6
- 230000008859 change Effects 0.000 claims description 82
- 230000006870 function Effects 0.000 claims description 30
- 230000009471 action Effects 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 3
- 230000015654 memory Effects 0.000 description 20
- 238000004891 communication Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 230000002452 interceptive effect Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000001902 propagating effect Effects 0.000 description 3
- 239000000463 material Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 206010048232 Yawning Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000005316 response function Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
- G06T7/74—Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Data Mining & Analysis (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- User Interface Of Digital Computer (AREA)
- Image Analysis (AREA)
- Toys (AREA)
Abstract
Description
ユーザーの唇の変化画像を収集するステップと、
ユーザーの唇の変化画像がプリセット変化画像に一致するかどうかを判断するステップと、
ユーザーの唇の変化画像がプリセット変化画像に一致する場合、音声対話機能をウェイクアップするステップと、を含む。
ユーザーの唇の変化画像を収集するための収集モジュールと、
ユーザーの唇の変化画像がプリセット変化画像に一致するかどうかを判断するための画像判断モジュールと、
ユーザーの唇の変化画像がプリセット変化画像に一致する場合、音声対話機能をウェイクアップするためのウェイクアップモジュールと、を備える。
ユーザーの唇の変化画像を収集するための収集モジュール110と、
ユーザーの唇の変化画像がプリセット変化画像に一致するかどうかを判断するための画像判断モジュール120と、
ユーザーの唇の変化画像がプリセット変化画像に一致する場合、音声対話機能をウェイクアップするためのウェイクアップモジュール130と、を備える。
ユーザーの唇の変化画像を収集するための収集モジュール210と、
ユーザーの唇の変化画像がプリセット変化画像に一致するかどうかを判断するための画像判断モジュール220と、
ユーザーの唇の変化画像がプリセット変化画像に一致する場合、音声対話機能をウェイクアップするためのウェイクアップモジュール230と、
ユーザーの音声を受信して、前記音声が有効音声情報であるかどうかを判断することに用いられ、YESの場合、応答動作を実行し、NOの場合、音声対話機能をオフにする音声判断モジュール240と、を備える。
外部設備と通信し、データの対話式伝送を行うための通信インターフェース330を備える。
120 画像判断モジュール
130 ウェイクアップモジュール
210 収集モジュール
220 画像判断モジュール
230 ウェイクアップモジュール
240 音声判断モジュール
310 メモリ
320 プロセッサ
330 通信インターフェース
Claims (10)
- 読話による音声ウェイクアップ方法であって、
ユーザーの唇の変化画像を収集することと、
ユーザーの唇の変化画像がプリセット変化画像に一致するかどうかを判断することと、
ユーザーの唇の変化画像がプリセット変化画像に一致する場合、音声対話機能をウェイクアップすることと、を含むことを特徴とする読話による音声ウェイクアップ方法。 - ユーザーの唇の変化画像がプリセット変化画像に一致するかどうかを判断する前記ステップは、
唇の変化画像が唇の正面画像であるかどうかを判断することと、
YESの場合、唇の変化画像がプリセット変化画像と同じであるかどうかを判断することと、を含むことを特徴とする請求項1に記載の読話による音声ウェイクアップ方法。 - 前記プリセット変化画像は唇が閉鎖状態から開放状態まで変化することを特徴とする請求項1に記載の読話による音声ウェイクアップ方法。
- ユーザーの唇の変化画像がプリセット変化画像に一致する場合、音声対話機能をウェイクアップする前記ステップの後、前記音声ウェイクアップ方法は、
ユーザーの音声を受信して、前記音声が有効音声情報であるかどうかを判断し、YESの場合、応答動作を実行し、NOの場合、音声対話機能をオフにすることを更に含むことを特徴とする請求項1に記載の読話による音声ウェイクアップ方法。 - 読話による音声ウェイクアップ装置であって、
ユーザーの唇の変化画像を収集するための収集モジュールと、
ユーザーの唇の変化画像がプリセット変化画像に一致するかどうかを判断するための画像判断モジュールと、
ユーザーの唇の変化画像がプリセット変化画像に一致する場合、音声対話機能をウェイクアップするためのウェイクアップモジュールと、を含むことを特徴とする読話による音声ウェイクアップ装置。 - 前記画像判断モジュールは唇の変化画像が唇の正面画像であるかどうかを判断することに用いられ、YESの場合、唇の変化画像がプリセット変化画像と同じであるかどうかを判断することを特徴とする請求項5に記載の読話による音声ウェイクアップ装置。
- 前記プリセット変化画像は唇が閉鎖状態から開放状態まで変化することを特徴とする請求項5に記載の読話による音声ウェイクアップ装置。
- 音声判断モジュールを更に含み、前記音声判断モジュールはユーザーの音声を受信して、前記音声が有効音声情報であるかどうかを判断することに用いられ、YESの場合、応答動作を実行し、NOの場合、音声対話機能をオフにすることを特徴とする請求項5に記載の読話による音声ウェイクアップ装置。
- 読話による音声ウェイクアップ設備であって、
1つ又は複数のプロセッサと、
1つ又は複数のプログラムを記憶するための記憶装置と、を備え、
前記1つ又は複数のプログラムが前記1つ又は複数のプロセッサにより実行される場合、前記1つ又は複数のプロセッサに請求項1〜4のいずれか一項に記載の読話による音声ウェイクアップ方法を実現させることを特徴とする読話による音声ウェイクアップ設備。 - コンピュータプログラムを記憶するコンピュータ可読媒体であって、
該プログラムがプロセッサにより実行される場合、請求項1〜4のいずれか一項に記載の読話による音声ウェイクアップ方法を実現することを特徴とするコンピュータ可読媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810061009.1 | 2018-01-22 | ||
CN201810061009.1A CN108154140A (zh) | 2018-01-22 | 2018-01-22 | 基于唇语的语音唤醒方法、装置、设备及计算机可读介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019128938A true JP2019128938A (ja) | 2019-08-01 |
JP6811755B2 JP6811755B2 (ja) | 2021-01-13 |
Family
ID=62461886
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018167824A Active JP6811755B2 (ja) | 2018-01-22 | 2018-09-07 | 読話による音声ウェイクアップ方法、装置、設備及びコンピュータ可読媒体、プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US10810413B2 (ja) |
JP (1) | JP6811755B2 (ja) |
CN (1) | CN108154140A (ja) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108848011B (zh) * | 2018-06-19 | 2021-08-20 | 广东美的制冷设备有限公司 | 家电设备及其语音交互方法和装置 |
CN109558788B (zh) * | 2018-10-08 | 2023-10-27 | 清华大学 | 静默语音输入辨识方法、计算装置和计算机可读介质 |
CN111078297A (zh) * | 2018-10-18 | 2020-04-28 | 奇酷互联网络科技(深圳)有限公司 | 唤醒语音助手的方法、移动终端和计算机可读存储介质 |
CN111105792A (zh) | 2018-10-29 | 2020-05-05 | 华为技术有限公司 | 语音交互处理方法及装置 |
CN109949812A (zh) * | 2019-04-26 | 2019-06-28 | 百度在线网络技术(北京)有限公司 | 一种语音交互方法、装置、设备及存储介质 |
CN110196900A (zh) * | 2019-06-13 | 2019-09-03 | 三星电子(中国)研发中心 | 用于终端的交互方法和装置 |
CN111241922B (zh) * | 2019-12-28 | 2024-04-26 | 深圳市优必选科技股份有限公司 | 一种机器人及其控制方法、计算机可读存储介质 |
CN111309283B (zh) * | 2020-03-25 | 2023-12-05 | 北京百度网讯科技有限公司 | 用户界面的语音控制方法、装置、电子设备及存储介质 |
CN111599361A (zh) * | 2020-05-14 | 2020-08-28 | 宁波奥克斯电气股份有限公司 | 一种唤醒方法、装置、计算机存储介质及空调器 |
CN113460067B (zh) * | 2020-12-30 | 2023-06-23 | 安波福电子(苏州)有限公司 | 一种人车交互系统 |
CN113113009A (zh) * | 2021-04-08 | 2021-07-13 | 思必驰科技股份有限公司 | 多模态语音唤醒和打断方法及装置 |
CN113450795A (zh) * | 2021-06-28 | 2021-09-28 | 深圳七号家园信息技术有限公司 | 一种具有语音唤醒功能的图像识别方法及系统 |
CN113674746B (zh) * | 2021-08-18 | 2022-09-16 | 北京百度网讯科技有限公司 | 人机交互方法、装置、设备以及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008152125A (ja) * | 2006-12-19 | 2008-07-03 | Toyota Central R&D Labs Inc | 発話検出装置及び発話検出方法 |
US20100189305A1 (en) * | 2009-01-23 | 2010-07-29 | Eldon Technology Limited | Systems and methods for lip reading control of a media device |
JP2011013731A (ja) * | 2009-06-30 | 2011-01-20 | Sony Corp | 情報処理装置、情報処理方法、およびプログラム |
JP2014240856A (ja) * | 2013-06-11 | 2014-12-25 | アルパイン株式会社 | 音声入力システム及びコンピュータプログラム |
US20150161992A1 (en) * | 2012-07-09 | 2015-06-11 | Lg Electronics Inc. | Speech recognition apparatus and method |
CN104820556A (zh) * | 2015-05-06 | 2015-08-05 | 广州视源电子科技股份有限公司 | 唤醒语音助手的方法及装置 |
CN105389097A (zh) * | 2014-09-03 | 2016-03-09 | 中兴通讯股份有限公司 | 一种人机交互装置及方法 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100332229A1 (en) * | 2009-06-30 | 2010-12-30 | Sony Corporation | Apparatus control based on visual lip share recognition |
US20120304067A1 (en) * | 2011-05-25 | 2012-11-29 | Samsung Electronics Co., Ltd. | Apparatus and method for controlling user interface using sound recognition |
US9318129B2 (en) * | 2011-07-18 | 2016-04-19 | At&T Intellectual Property I, Lp | System and method for enhancing speech activity detection using facial feature detection |
US8863042B2 (en) * | 2012-01-24 | 2014-10-14 | Charles J. Kulas | Handheld device with touch controls that reconfigure in response to the way a user operates the device |
KR102216048B1 (ko) * | 2014-05-20 | 2021-02-15 | 삼성전자주식회사 | 음성 명령 인식 장치 및 방법 |
CN105045122A (zh) * | 2015-06-24 | 2015-11-11 | 张子兴 | 一种基于音频和视频的智能家居自然交互系统 |
US9875352B2 (en) * | 2015-10-02 | 2018-01-23 | International Business Machines Corporation | Oral authentication management |
US9963096B2 (en) * | 2015-11-16 | 2018-05-08 | Continental Automotive Systems, Inc. | Vehicle infotainment and connectivity system |
US20170186446A1 (en) * | 2015-12-24 | 2017-06-29 | Michal Wosk | Mouth proximity detection |
CN105501121B (zh) * | 2016-01-08 | 2018-08-03 | 北京乐驾科技有限公司 | 一种智能唤醒方法及系统 |
US9916832B2 (en) * | 2016-02-18 | 2018-03-13 | Sensory, Incorporated | Using combined audio and vision-based cues for voice command-and-control |
CN105881548B (zh) | 2016-04-29 | 2018-07-20 | 北京快乐智慧科技有限责任公司 | 唤醒智能交互机器人的方法及智能交互机器人 |
CN106288229B (zh) * | 2016-09-20 | 2018-09-07 | 珠海格力电器股份有限公司 | 一种空调控制方法、装置、集中控制节点及系统 |
CN106782524A (zh) * | 2016-11-30 | 2017-05-31 | 深圳讯飞互动电子有限公司 | 一种混合唤醒方法及系统 |
EP3602544A4 (en) * | 2017-03-23 | 2020-02-05 | Joyson Safety Systems Acquisition LLC | SYSTEM AND METHOD FOR CORRELATION OF MOUTH IMAGES WITH INPUT COMMANDS |
CN107517313A (zh) * | 2017-08-22 | 2017-12-26 | 珠海市魅族科技有限公司 | 唤醒方法及装置、终端及可读存储介质 |
-
2018
- 2018-01-22 CN CN201810061009.1A patent/CN108154140A/zh active Pending
- 2018-09-07 JP JP2018167824A patent/JP6811755B2/ja active Active
- 2018-10-19 US US16/165,597 patent/US10810413B2/en active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008152125A (ja) * | 2006-12-19 | 2008-07-03 | Toyota Central R&D Labs Inc | 発話検出装置及び発話検出方法 |
US20100189305A1 (en) * | 2009-01-23 | 2010-07-29 | Eldon Technology Limited | Systems and methods for lip reading control of a media device |
JP2011013731A (ja) * | 2009-06-30 | 2011-01-20 | Sony Corp | 情報処理装置、情報処理方法、およびプログラム |
US20150161992A1 (en) * | 2012-07-09 | 2015-06-11 | Lg Electronics Inc. | Speech recognition apparatus and method |
JP2014240856A (ja) * | 2013-06-11 | 2014-12-25 | アルパイン株式会社 | 音声入力システム及びコンピュータプログラム |
CN105389097A (zh) * | 2014-09-03 | 2016-03-09 | 中兴通讯股份有限公司 | 一种人机交互装置及方法 |
CN104820556A (zh) * | 2015-05-06 | 2015-08-05 | 广州视源电子科技股份有限公司 | 唤醒语音助手的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
US10810413B2 (en) | 2020-10-20 |
JP6811755B2 (ja) | 2021-01-13 |
CN108154140A (zh) | 2018-06-12 |
US20190228212A1 (en) | 2019-07-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2019128938A (ja) | 読話による音声ウェイクアップ方法、装置、設備及びコンピュータ可読媒体 | |
JP2019128939A (ja) | ジェスチャーによる音声ウェイクアップ方法、装置、設備及びコンピュータ可読媒体 | |
US11074924B2 (en) | Speech recognition method, device, apparatus and computer-readable storage medium | |
CN109378000B (zh) | 语音唤醒方法、装置、系统、设备、服务器及存储介质 | |
US11502859B2 (en) | Method and apparatus for waking up via speech | |
US20200227049A1 (en) | Method, apparatus and device for waking up voice interaction device, and storage medium | |
US11587560B2 (en) | Voice interaction method, device, apparatus and server | |
US20200219503A1 (en) | Method and apparatus for filtering out voice instruction | |
CN109240107B (zh) | 一种电器设备的控制方法、装置、电器设备和介质 | |
CN107591151A (zh) | 远场语音唤醒方法、装置和终端设备 | |
US11200899B2 (en) | Voice processing method, apparatus and device | |
US20200265843A1 (en) | Speech broadcast method, device and terminal | |
JP7166294B2 (ja) | オーディオ処理方法、装置及び記憶媒体 | |
CN111192590B (zh) | 语音唤醒方法、装置、设备及存储介质 | |
US11574632B2 (en) | In-cloud wake-up method and system, terminal and computer-readable storage medium | |
CN111402877A (zh) | 基于车载多音区的降噪方法、装置、设备和介质 | |
CN111722696B (zh) | 用于低功耗设备的语音数据处理方法和装置 | |
CN111128166B (zh) | 连续唤醒识别功能的优化方法和装置 | |
CN112233676A (zh) | 智能设备唤醒方法、装置、电子设备及存储介质 | |
CN109686372B (zh) | 资源播放控制方法和装置 | |
CN111063356B (zh) | 电子设备响应方法及系统、音箱和计算机可读存储介质 | |
CN112420043A (zh) | 基于语音的智能唤醒方法、装置、电子设备及存储介质 | |
US20200380975A1 (en) | Voice control method and apparatus of electronic device, and storage medium | |
US20200211552A1 (en) | Voice interaction control method and apparatus | |
CN116705033A (zh) | 用于无线智能音频设备的片上系统和无线处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180907 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20191008 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191225 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200415 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200713 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201201 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201215 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6811755 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |