CN111179927A - 一种金融设备语音交互方法以及系统 - Google Patents
一种金融设备语音交互方法以及系统 Download PDFInfo
- Publication number
- CN111179927A CN111179927A CN201911327665.2A CN201911327665A CN111179927A CN 111179927 A CN111179927 A CN 111179927A CN 201911327665 A CN201911327665 A CN 201911327665A CN 111179927 A CN111179927 A CN 111179927A
- Authority
- CN
- China
- Prior art keywords
- equipment
- lip language
- sound source
- financial
- voice interaction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 25
- 238000000034 method Methods 0.000 title claims abstract description 14
- 230000005236 sound signal Effects 0.000 claims abstract description 9
- 238000004891 communication Methods 0.000 description 4
- 238000005034 decoration Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004438 eyesight Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007474 system interaction Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/166—Detection; Localisation; Normalisation using acquisition arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/40—Spoof detection, e.g. liveness detection
- G06V40/45—Detection of the body part being alive
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- User Interface Of Digital Computer (AREA)
- Image Processing (AREA)
- Collating Specific Patterns (AREA)
Abstract
本发明公开一种金融设备语音交互方法以及系统。该方法包括:进行设备前面人与金融设备间的距离判断,若距离小于判定阈值,进行活体判断;若为活体,则启动人脸摄像头,判断声源方向;若为有效声源,则采集音频信号并转出音频文本;通过人脸识别判断人脸方向以及眼睛目光方向是否朝向设备;若朝向设备,开启唇语识别;唇语图像采集与唇语数据库比对,输出唇语文本;将音频文本与唇语文本对比,若对比通过,则对设备前面人对设备所发出的指令进行语义分析并回复。本发明解决了嘈杂环境下以及设备前两人或多人互相交流,不是与设备交流,设备乱说话问题,增强了客户体验度。
Description
技术领域
本发明涉及金融自助终端技术领域,特别是涉及一种金融设备语音交互方法以及系统。
背景技术
随着金融自助设备和语音交互设备的广泛应用,在嘈杂环境中,设备会识别到错误或者无效的声音,并对无效声音进行回答,大大降低了客户体验度。
发明内容
本发明的目的是针对现有技术中存在的技术缺陷,而提供一种金融设备语音交互方法以及系统。
为实现本发明的目的所采用的技术方案是:
一种金融设备语音交互系统的交互方法,包括步骤:
进行设备前面人与金融设备间的距离判断,若距离小于判定阈值,进行活体判断;若为活体,则启动人脸摄像头,判断声源方向;若为有效声源,则采集音频信号并转出音频文本;通过人脸识别判断人脸方向以及眼睛目光方向是否朝向设备;若朝向设备,开启唇语识别;唇语图像采集与唇语数据库比对,输出唇语文本;将音频文本与唇语文本对比,若对比通过,则对设备前面人对设备所发出的指令进行语义分析并回复。
优选的,通过超声波传感器和\或激光雷达来检测设备与设备前面人间的距离。
优选的,通过红外传感器进行活体判断。
优选的,通过麦克风阵列判断声源方向。
本发明的目的还在于提供一种金融设备语音交互系统,包括主控系统以及与所述主控系统连接的测距装置、红外传感器、人脸摄像头、麦克风阵列,喇叭,所述主控系统还通过无线模块连接到唇语数据库以及语义识别问答系统;
所述测距装置用于对设备前面人与金融设备间的距离进行判断,若距离小于判定阈值,通过红外传感器进行活体判断,若为活体,则开启人脸摄像头,通过麦克风阵列判断声源方向;若为有效声源,则采集音频信号并转出音频文本;通过人脸识别判断人脸方向以及眼睛目光方向是否朝向设备;若朝向设备,开启唇语识别;唇语图像采集与唇语数据库比对,输出唇语文本;将音频文本与唇语文本对比,若对比通过,则对设备前面人对设备所发出的指令进行语义分析并回复。
其中,所述测距离装置包括超声波传感器和\或激光雷达。
其中,所述语义识别问答系统包括语义识别模块以及问答数据库,所述语义识别模块与问答数据库。
其中,所述无线模块为WIFI模块。
本发明解决了嘈杂环境下以及设备前两人或多人互相交流,不是与设备交流,设备乱说话问题,增强了客户体验度。
附图说明
图1是金融设备语音交互系统交互方法的流程图。
图2是金融设备语音交互系统结构原理图;
具体实施方式
以下结合附图和具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明的一种金融设备语音交互系统的交互方法,包括步骤:
通过测距装置进行设备前面人与金融设备间的距离判断,若距离小于判定阈值,通过红外传感器进行活体判断,若为活体,则开启人脸摄像头,通过麦克风阵列判断声源方向;若为有效声源,则采集音频信号并转出音频文本;通过人脸识别判断人脸方向以及眼睛目光方向是否朝向设备;若朝向设备,开启唇语识别;唇语图像采集与唇语数据库比对,输出唇语文本;将音频文本与唇语文本对比,若对比通过,则对设备前面人对设备所发出的指令进行语义分析并回复。
本发明中,通过距离判断为有效的交流范围距离时,才进一步的开启红外传感器进行活体判断。通常情况下,语言交流通常距离是1.2米左右,阈值距离1.5。通过激光雷达测距和超声波测距,在阈值范围内,判定为语音交流距离,然后进一步的开启红外传感器进行活体判断,否则不开启下一步的交互。
本发明中,在判断为有效交流距离时,启动活体识别系统。具体是通过红外传感器来检测,判断设备前面人是否为活体,如是则打开人脸摄像头和音频识别功能,否则不打开人脸摄像头和音频识别功能。
本发明中,还进一步的通过麦克风阵列,判断声音来源方向。通过来声源角度判断是否是有效声音,若有效,将采集中音频转换成相应音频文本,否则不进行音频到文本的处理转换,不处理。
本发明中,还通过人脸识别中的人脸方向和人眼方向识别。通过人脸摄像头采集人脸后,通过人脸方向和人眼的目光方向识别,判断交流人是否面向设备,或者眼光是否关注设备。若人脸面向设备,眼睛目光朝向设备,判定为有效交流。则进行下一步的交互步骤,否则不再继续进行。
本发明通过以上的技术方案,能实现当嘈杂环境下以及设备前两人或多人互相交流,而非对设备进行交流,设备不会被接受的音频所干扰,设备能自主判断出有效音频信号,并对问题进行回答。
本发明中,在判断有效交流的基础上,还通过唇型判断说话内容。采集的的唇型通过与数据库进行分析对比,产生相应语言文本。将音频文本与唇语文本进行对比,判断音频文本是否设备前面的人的语音。
如图2所示,本发明还在于提供一种金融设备语音交互系统,包括主控系统以及与所述主控系统连接的测距装置、红外传感器、人脸摄像头、麦克风阵列,喇叭,所述主控系统还通过无线模块连接到唇语数据库以及语义识别问答系统。
其中,所述测距离装置包括超声波传感器和\或激光雷达。
其中,所述语义识别问答系统包括语义识别模块以及问答数据库,所述语义识别模块与问答数据库。
其中,所述无线模块为WIFI模块。
本发明的上述的系统,通过激光雷达,超声波传感器进行距离判断;若距离小于判定阈值,红外传感器进行活体判断;若为活体,开启人脸摄像头和语音识别;语音识别通过麦克风阵列判断声源方向;对音频信号采集,转出文本;人脸识别判断人脸方向,眼睛目光方向,是否朝向设备;若人脸方向朝向设备,开启唇语识别;唇语图像采集与数据库进行比对,输出文本;音频文本与唇语文本对比。若对比通过,语音音频为设备前面人对设备发出的指令,进行语义分析,回复答案。
本发明通过以上的技术方案,能实现当嘈杂环境下以及设备前两人或多人互相交流,而非对设备进行交流,设备不会被接受的音频所干扰,设备能自主判断出有效音频信号,并对问题进行回答。
以上所述仅是本发明的优选实施方式,应当指出的是,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (8)
1.一种金融设备语音交互系统的交互方法,其特征在于,包括步骤:
进行设备前面人与金融设备间的距离判断,若距离小于判定阈值,进行活体判断;若为活体,则启动人脸摄像头,判断声源方向;若为有效声源,则采集音频信号并转出音频文本;通过人脸识别判断人脸方向以及眼睛目光方向是否朝向设备;若朝向设备,开启唇语识别;唇语图像采集与唇语数据库比对,输出唇语文本;将音频文本与唇语文本对比,若对比通过,则对设备前面人对设备所发出的指令进行语义分析并回复。
2.根据权利要求1所述金融设备语音交互方法,其特征在于,通过超声波传感器和\或激光雷达来检测设备与设备前面人间的距离。
3.根据权利要求1所述金融设备语音交互方法,其特征在于,通过红外传感器进行活体判断。
4.根据权利要求1所述金融设备语音交互方法,其特征在于,通过麦克风阵列判断声源方向。
5.一种所述金融设备语音交互系统,其特征在于,包括主控系统以及与所述主控系统连接的测距装置、红外传感器、人脸摄像头、麦克风阵列,喇叭,所述主控系统还通过无线模块连接到唇语数据库以及语义识别问答系统;
所述测距装置用于对设备前面人与金融设备间的距离进行判断,若距离小于判定阈值,通过红外传感器进行活体判断,若为活体,则开启人脸摄像头,通过麦克风阵列判断声源方向;若为有效声源,则采集音频信号并转出音频文本;通过人脸识别判断人脸方向以及眼睛目光方向是否朝向设备;若朝向设备,开启唇语识别;唇语图像采集与唇语数据库比对,输出唇语文本;将音频文本与唇语文本对比,若对比通过,则对设备前面人对设备所发出的指令进行语义分析并回复。
6.根据权利要求5所述金融设备语音交互系统,其特征在于,所述测距离装置包括超声波传感器和\或激光雷达。
7.根据权利要求5所述金融设备语音交互系统,其特征在于,所述语义识别问答系统包括语义识别模块以及问答数据库,所述语义识别模块与问答数据库。
8.根据权利要求5所述金融设备语音交互系统,其特征在于,所述无线模块为WIFI模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911327665.2A CN111179927A (zh) | 2019-12-20 | 2019-12-20 | 一种金融设备语音交互方法以及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911327665.2A CN111179927A (zh) | 2019-12-20 | 2019-12-20 | 一种金融设备语音交互方法以及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111179927A true CN111179927A (zh) | 2020-05-19 |
Family
ID=70657440
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911327665.2A Pending CN111179927A (zh) | 2019-12-20 | 2019-12-20 | 一种金融设备语音交互方法以及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111179927A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111933136A (zh) * | 2020-08-18 | 2020-11-13 | 南京奥拓电子科技有限公司 | 一种辅助语音识别控制方法和装置 |
CN112634895A (zh) * | 2020-12-25 | 2021-04-09 | 苏州思必驰信息科技有限公司 | 语音交互免唤醒方法和装置 |
CN113035196A (zh) * | 2021-03-09 | 2021-06-25 | 思必驰科技股份有限公司 | 用于自助一体机的无接触操控方法和装置 |
CN113593544A (zh) * | 2021-06-11 | 2021-11-02 | 青岛海尔科技有限公司 | 设备的控制方法和装置、存储介质及电子装置 |
CN114842846A (zh) * | 2022-04-21 | 2022-08-02 | 歌尔股份有限公司 | 头戴设备的控制方法、装置及计算机可读存储介质 |
-
2019
- 2019-12-20 CN CN201911327665.2A patent/CN111179927A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111933136A (zh) * | 2020-08-18 | 2020-11-13 | 南京奥拓电子科技有限公司 | 一种辅助语音识别控制方法和装置 |
CN111933136B (zh) * | 2020-08-18 | 2024-05-10 | 南京奥拓电子科技有限公司 | 一种辅助语音识别控制方法和装置 |
CN112634895A (zh) * | 2020-12-25 | 2021-04-09 | 苏州思必驰信息科技有限公司 | 语音交互免唤醒方法和装置 |
CN113035196A (zh) * | 2021-03-09 | 2021-06-25 | 思必驰科技股份有限公司 | 用于自助一体机的无接触操控方法和装置 |
CN113593544A (zh) * | 2021-06-11 | 2021-11-02 | 青岛海尔科技有限公司 | 设备的控制方法和装置、存储介质及电子装置 |
CN114842846A (zh) * | 2022-04-21 | 2022-08-02 | 歌尔股份有限公司 | 头戴设备的控制方法、装置及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111179927A (zh) | 一种金融设备语音交互方法以及系统 | |
US20200335128A1 (en) | Identifying input for speech recognition engine | |
CN110291489B (zh) | 计算上高效的人类标识智能助理计算机 | |
CN109410957B (zh) | 基于计算机视觉辅助的正面人机交互语音识别方法及系统 | |
EP3923273B1 (en) | Voice recognition method and device, storage medium, and air conditioner | |
US9286889B2 (en) | Improving voice communication over a network | |
US11854566B2 (en) | Wearable system speech processing | |
US11854550B2 (en) | Determining input for speech processing engine | |
US20190139547A1 (en) | Interactive Method and Device | |
CN110741433A (zh) | 使用多个计算设备的对讲式通信 | |
CN107346661B (zh) | 一种基于麦克风阵列的远距离虹膜跟踪与采集方法 | |
WO2018107489A1 (zh) | 一种聋哑人辅助方法、装置以及电子设备 | |
US20230386461A1 (en) | Voice user interface using non-linguistic input | |
CN109032345A (zh) | 设备控制方法、装置、设备、服务端和存储介质 | |
CN110111776A (zh) | 基于麦克风信号的语音交互唤醒电子设备、方法和介质 | |
CN111370004A (zh) | 人机交互方法、语音处理方法及设备 | |
US11641544B2 (en) | Lightweight full 360 audio source location detection with two microphones | |
KR20210124050A (ko) | 자동 통역 서버 및 그 방법 | |
KR20210066774A (ko) | 멀티모달 기반 사용자 구별 방법 및 장치 | |
US20150039314A1 (en) | Speech recognition method and apparatus based on sound mapping | |
CN115171284A (zh) | 一种老年人关怀方法及装置 | |
Freitas et al. | Multimodal silent speech interface based on video, depth, surface electromyography and ultrasonic doppler: Data collection and first recognition results | |
CN111326175A (zh) | 一种对话者的提示方法及穿戴设备 | |
CN110738995B (zh) | 一种声音信号采集方法及装置 | |
JP2022038344A (ja) | コミュニケーションシステム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200519 |
|
WD01 | Invention patent application deemed withdrawn after publication |