CN111179927A - 一种金融设备语音交互方法以及系统 - Google Patents

一种金融设备语音交互方法以及系统 Download PDF

Info

Publication number
CN111179927A
CN111179927A CN201911327665.2A CN201911327665A CN111179927A CN 111179927 A CN111179927 A CN 111179927A CN 201911327665 A CN201911327665 A CN 201911327665A CN 111179927 A CN111179927 A CN 111179927A
Authority
CN
China
Prior art keywords
equipment
lip language
sound source
financial
voice interaction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911327665.2A
Other languages
English (en)
Inventor
田立刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cashway Technology Co Ltd
Original Assignee
Cashway Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cashway Technology Co Ltd filed Critical Cashway Technology Co Ltd
Priority to CN201911327665.2A priority Critical patent/CN111179927A/zh
Publication of CN111179927A publication Critical patent/CN111179927A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/166Detection; Localisation; Normalisation using acquisition arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/40Spoof detection, e.g. liveness detection
    • G06V40/45Detection of the body part being alive
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Processing (AREA)
  • Collating Specific Patterns (AREA)

Abstract

本发明公开一种金融设备语音交互方法以及系统。该方法包括:进行设备前面人与金融设备间的距离判断,若距离小于判定阈值,进行活体判断;若为活体,则启动人脸摄像头,判断声源方向;若为有效声源,则采集音频信号并转出音频文本;通过人脸识别判断人脸方向以及眼睛目光方向是否朝向设备;若朝向设备,开启唇语识别;唇语图像采集与唇语数据库比对,输出唇语文本;将音频文本与唇语文本对比,若对比通过,则对设备前面人对设备所发出的指令进行语义分析并回复。本发明解决了嘈杂环境下以及设备前两人或多人互相交流,不是与设备交流,设备乱说话问题,增强了客户体验度。

Description

一种金融设备语音交互方法以及系统
技术领域
本发明涉及金融自助终端技术领域,特别是涉及一种金融设备语音交互方法以及系统。
背景技术
随着金融自助设备和语音交互设备的广泛应用,在嘈杂环境中,设备会识别到错误或者无效的声音,并对无效声音进行回答,大大降低了客户体验度。
发明内容
本发明的目的是针对现有技术中存在的技术缺陷,而提供一种金融设备语音交互方法以及系统。
为实现本发明的目的所采用的技术方案是:
一种金融设备语音交互系统的交互方法,包括步骤:
进行设备前面人与金融设备间的距离判断,若距离小于判定阈值,进行活体判断;若为活体,则启动人脸摄像头,判断声源方向;若为有效声源,则采集音频信号并转出音频文本;通过人脸识别判断人脸方向以及眼睛目光方向是否朝向设备;若朝向设备,开启唇语识别;唇语图像采集与唇语数据库比对,输出唇语文本;将音频文本与唇语文本对比,若对比通过,则对设备前面人对设备所发出的指令进行语义分析并回复。
优选的,通过超声波传感器和\或激光雷达来检测设备与设备前面人间的距离。
优选的,通过红外传感器进行活体判断。
优选的,通过麦克风阵列判断声源方向。
本发明的目的还在于提供一种金融设备语音交互系统,包括主控系统以及与所述主控系统连接的测距装置、红外传感器、人脸摄像头、麦克风阵列,喇叭,所述主控系统还通过无线模块连接到唇语数据库以及语义识别问答系统;
所述测距装置用于对设备前面人与金融设备间的距离进行判断,若距离小于判定阈值,通过红外传感器进行活体判断,若为活体,则开启人脸摄像头,通过麦克风阵列判断声源方向;若为有效声源,则采集音频信号并转出音频文本;通过人脸识别判断人脸方向以及眼睛目光方向是否朝向设备;若朝向设备,开启唇语识别;唇语图像采集与唇语数据库比对,输出唇语文本;将音频文本与唇语文本对比,若对比通过,则对设备前面人对设备所发出的指令进行语义分析并回复。
其中,所述测距离装置包括超声波传感器和\或激光雷达。
其中,所述语义识别问答系统包括语义识别模块以及问答数据库,所述语义识别模块与问答数据库。
其中,所述无线模块为WIFI模块。
本发明解决了嘈杂环境下以及设备前两人或多人互相交流,不是与设备交流,设备乱说话问题,增强了客户体验度。
附图说明
图1是金融设备语音交互系统交互方法的流程图。
图2是金融设备语音交互系统结构原理图;
具体实施方式
以下结合附图和具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明的一种金融设备语音交互系统的交互方法,包括步骤:
通过测距装置进行设备前面人与金融设备间的距离判断,若距离小于判定阈值,通过红外传感器进行活体判断,若为活体,则开启人脸摄像头,通过麦克风阵列判断声源方向;若为有效声源,则采集音频信号并转出音频文本;通过人脸识别判断人脸方向以及眼睛目光方向是否朝向设备;若朝向设备,开启唇语识别;唇语图像采集与唇语数据库比对,输出唇语文本;将音频文本与唇语文本对比,若对比通过,则对设备前面人对设备所发出的指令进行语义分析并回复。
本发明中,通过距离判断为有效的交流范围距离时,才进一步的开启红外传感器进行活体判断。通常情况下,语言交流通常距离是1.2米左右,阈值距离1.5。通过激光雷达测距和超声波测距,在阈值范围内,判定为语音交流距离,然后进一步的开启红外传感器进行活体判断,否则不开启下一步的交互。
本发明中,在判断为有效交流距离时,启动活体识别系统。具体是通过红外传感器来检测,判断设备前面人是否为活体,如是则打开人脸摄像头和音频识别功能,否则不打开人脸摄像头和音频识别功能。
本发明中,还进一步的通过麦克风阵列,判断声音来源方向。通过来声源角度判断是否是有效声音,若有效,将采集中音频转换成相应音频文本,否则不进行音频到文本的处理转换,不处理。
本发明中,还通过人脸识别中的人脸方向和人眼方向识别。通过人脸摄像头采集人脸后,通过人脸方向和人眼的目光方向识别,判断交流人是否面向设备,或者眼光是否关注设备。若人脸面向设备,眼睛目光朝向设备,判定为有效交流。则进行下一步的交互步骤,否则不再继续进行。
本发明通过以上的技术方案,能实现当嘈杂环境下以及设备前两人或多人互相交流,而非对设备进行交流,设备不会被接受的音频所干扰,设备能自主判断出有效音频信号,并对问题进行回答。
本发明中,在判断有效交流的基础上,还通过唇型判断说话内容。采集的的唇型通过与数据库进行分析对比,产生相应语言文本。将音频文本与唇语文本进行对比,判断音频文本是否设备前面的人的语音。
如图2所示,本发明还在于提供一种金融设备语音交互系统,包括主控系统以及与所述主控系统连接的测距装置、红外传感器、人脸摄像头、麦克风阵列,喇叭,所述主控系统还通过无线模块连接到唇语数据库以及语义识别问答系统。
其中,所述测距离装置包括超声波传感器和\或激光雷达。
其中,所述语义识别问答系统包括语义识别模块以及问答数据库,所述语义识别模块与问答数据库。
其中,所述无线模块为WIFI模块。
本发明的上述的系统,通过激光雷达,超声波传感器进行距离判断;若距离小于判定阈值,红外传感器进行活体判断;若为活体,开启人脸摄像头和语音识别;语音识别通过麦克风阵列判断声源方向;对音频信号采集,转出文本;人脸识别判断人脸方向,眼睛目光方向,是否朝向设备;若人脸方向朝向设备,开启唇语识别;唇语图像采集与数据库进行比对,输出文本;音频文本与唇语文本对比。若对比通过,语音音频为设备前面人对设备发出的指令,进行语义分析,回复答案。
本发明通过以上的技术方案,能实现当嘈杂环境下以及设备前两人或多人互相交流,而非对设备进行交流,设备不会被接受的音频所干扰,设备能自主判断出有效音频信号,并对问题进行回答。
以上所述仅是本发明的优选实施方式,应当指出的是,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (8)

1.一种金融设备语音交互系统的交互方法,其特征在于,包括步骤:
进行设备前面人与金融设备间的距离判断,若距离小于判定阈值,进行活体判断;若为活体,则启动人脸摄像头,判断声源方向;若为有效声源,则采集音频信号并转出音频文本;通过人脸识别判断人脸方向以及眼睛目光方向是否朝向设备;若朝向设备,开启唇语识别;唇语图像采集与唇语数据库比对,输出唇语文本;将音频文本与唇语文本对比,若对比通过,则对设备前面人对设备所发出的指令进行语义分析并回复。
2.根据权利要求1所述金融设备语音交互方法,其特征在于,通过超声波传感器和\或激光雷达来检测设备与设备前面人间的距离。
3.根据权利要求1所述金融设备语音交互方法,其特征在于,通过红外传感器进行活体判断。
4.根据权利要求1所述金融设备语音交互方法,其特征在于,通过麦克风阵列判断声源方向。
5.一种所述金融设备语音交互系统,其特征在于,包括主控系统以及与所述主控系统连接的测距装置、红外传感器、人脸摄像头、麦克风阵列,喇叭,所述主控系统还通过无线模块连接到唇语数据库以及语义识别问答系统;
所述测距装置用于对设备前面人与金融设备间的距离进行判断,若距离小于判定阈值,通过红外传感器进行活体判断,若为活体,则开启人脸摄像头,通过麦克风阵列判断声源方向;若为有效声源,则采集音频信号并转出音频文本;通过人脸识别判断人脸方向以及眼睛目光方向是否朝向设备;若朝向设备,开启唇语识别;唇语图像采集与唇语数据库比对,输出唇语文本;将音频文本与唇语文本对比,若对比通过,则对设备前面人对设备所发出的指令进行语义分析并回复。
6.根据权利要求5所述金融设备语音交互系统,其特征在于,所述测距离装置包括超声波传感器和\或激光雷达。
7.根据权利要求5所述金融设备语音交互系统,其特征在于,所述语义识别问答系统包括语义识别模块以及问答数据库,所述语义识别模块与问答数据库。
8.根据权利要求5所述金融设备语音交互系统,其特征在于,所述无线模块为WIFI模块。
CN201911327665.2A 2019-12-20 2019-12-20 一种金融设备语音交互方法以及系统 Pending CN111179927A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911327665.2A CN111179927A (zh) 2019-12-20 2019-12-20 一种金融设备语音交互方法以及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911327665.2A CN111179927A (zh) 2019-12-20 2019-12-20 一种金融设备语音交互方法以及系统

Publications (1)

Publication Number Publication Date
CN111179927A true CN111179927A (zh) 2020-05-19

Family

ID=70657440

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911327665.2A Pending CN111179927A (zh) 2019-12-20 2019-12-20 一种金融设备语音交互方法以及系统

Country Status (1)

Country Link
CN (1) CN111179927A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111933136A (zh) * 2020-08-18 2020-11-13 南京奥拓电子科技有限公司 一种辅助语音识别控制方法和装置
CN112634895A (zh) * 2020-12-25 2021-04-09 苏州思必驰信息科技有限公司 语音交互免唤醒方法和装置
CN113035196A (zh) * 2021-03-09 2021-06-25 思必驰科技股份有限公司 用于自助一体机的无接触操控方法和装置
CN113593544A (zh) * 2021-06-11 2021-11-02 青岛海尔科技有限公司 设备的控制方法和装置、存储介质及电子装置
CN114842846A (zh) * 2022-04-21 2022-08-02 歌尔股份有限公司 头戴设备的控制方法、装置及计算机可读存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111933136A (zh) * 2020-08-18 2020-11-13 南京奥拓电子科技有限公司 一种辅助语音识别控制方法和装置
CN111933136B (zh) * 2020-08-18 2024-05-10 南京奥拓电子科技有限公司 一种辅助语音识别控制方法和装置
CN112634895A (zh) * 2020-12-25 2021-04-09 苏州思必驰信息科技有限公司 语音交互免唤醒方法和装置
CN113035196A (zh) * 2021-03-09 2021-06-25 思必驰科技股份有限公司 用于自助一体机的无接触操控方法和装置
CN113593544A (zh) * 2021-06-11 2021-11-02 青岛海尔科技有限公司 设备的控制方法和装置、存储介质及电子装置
CN114842846A (zh) * 2022-04-21 2022-08-02 歌尔股份有限公司 头戴设备的控制方法、装置及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN111179927A (zh) 一种金融设备语音交互方法以及系统
US20200335128A1 (en) Identifying input for speech recognition engine
CN110291489B (zh) 计算上高效的人类标识智能助理计算机
CN109410957B (zh) 基于计算机视觉辅助的正面人机交互语音识别方法及系统
EP3923273B1 (en) Voice recognition method and device, storage medium, and air conditioner
US9286889B2 (en) Improving voice communication over a network
US11854566B2 (en) Wearable system speech processing
US11854550B2 (en) Determining input for speech processing engine
US20190139547A1 (en) Interactive Method and Device
CN110741433A (zh) 使用多个计算设备的对讲式通信
CN107346661B (zh) 一种基于麦克风阵列的远距离虹膜跟踪与采集方法
WO2018107489A1 (zh) 一种聋哑人辅助方法、装置以及电子设备
US20230386461A1 (en) Voice user interface using non-linguistic input
CN109032345A (zh) 设备控制方法、装置、设备、服务端和存储介质
CN110111776A (zh) 基于麦克风信号的语音交互唤醒电子设备、方法和介质
CN111370004A (zh) 人机交互方法、语音处理方法及设备
US11641544B2 (en) Lightweight full 360 audio source location detection with two microphones
KR20210124050A (ko) 자동 통역 서버 및 그 방법
KR20210066774A (ko) 멀티모달 기반 사용자 구별 방법 및 장치
US20150039314A1 (en) Speech recognition method and apparatus based on sound mapping
CN115171284A (zh) 一种老年人关怀方法及装置
Freitas et al. Multimodal silent speech interface based on video, depth, surface electromyography and ultrasonic doppler: Data collection and first recognition results
CN111326175A (zh) 一种对话者的提示方法及穿戴设备
CN110738995B (zh) 一种声音信号采集方法及装置
JP2022038344A (ja) コミュニケーションシステム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200519

WD01 Invention patent application deemed withdrawn after publication