CN110517678B - 一种基于视觉感应的ai语音应答响应系统 - Google Patents

一种基于视觉感应的ai语音应答响应系统 Download PDF

Info

Publication number
CN110517678B
CN110517678B CN201910804779.5A CN201910804779A CN110517678B CN 110517678 B CN110517678 B CN 110517678B CN 201910804779 A CN201910804779 A CN 201910804779A CN 110517678 B CN110517678 B CN 110517678B
Authority
CN
China
Prior art keywords
voice
equipment
response
voice response
visual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910804779.5A
Other languages
English (en)
Other versions
CN110517678A (zh
Inventor
邹珺
熊阿伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanchang Baolai Technology Co ltd
Original Assignee
Nanchang Baolai Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanchang Baolai Technology Co ltd filed Critical Nanchang Baolai Technology Co ltd
Priority to CN201910804779.5A priority Critical patent/CN110517678B/zh
Publication of CN110517678A publication Critical patent/CN110517678A/zh
Application granted granted Critical
Publication of CN110517678B publication Critical patent/CN110517678B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Abstract

本发明涉及一种基于视觉感应的AI语音应答响应系统,包括语音输出设备,语音输入设备,语音转换设备,语音响应设备;人数视觉感应设备,电话视觉感应设备,嘴型视觉感应设备,耳塞视觉感应设备,监控设备;用户通过语音输入设备输入语音,语音转换设备对输入的语音进行模拟信号和数字信号的转换,语音响应设备进行判断是否是特定语音,是特定语音则进行语音响应,通过语音输出设备进行AI对话模式;不是特定语音则为其他语音响应;则启动监控设备,这时就要根据嘴型视觉感应设备,电话视觉感应设备,人数视觉感应设备产生的信息来判断是否响应,只有当三者都判断为是时,通过语音输出设备进行AI对话模式。

Description

一种基于视觉感应的AI语音应答响应系统
技术领域
本发明涉及一种人工智能语音应答响应系统,具体的说是一种基于视觉感应的AI语音应答响应系统。
背景技术
智能音箱,是一个音箱升级的产物,是家庭消费者用语音进行上网的一个工具,比如点播歌曲、上网购物,或是了解天气预报,它也可以对智能家居设备进行控制,比如打开窗帘、设置冰箱温度、提前让热水器升温等。
智能音箱实际上都属于智能语音技术,其核心非常简要——要让机器在语音对话这一环节拥有近似于人的能力,智能音箱成为小家电一般的存在,渗入人们的日常生活空间,但是目前的智能语音技术的应答响应系统,对于模拟人的日常习惯和行为方面表现并不尽如人意。
目前的智能语音技术的应答响应系统,需要使用者说出一个特定的词语,智能音箱通过这个特定的词语,进行应答响应,这个特定的词语通常是智能音箱的名称。而人们在日常对话中,人与人面对面对话时,很少说对方的名称,再进行对话,这就不符合人的日常习惯和行为,这是现有技术的不足之处。
发明内容
为了解决现有技术中的智能检索功能,本发明采取的技术方案是,一种基于视觉感应的AI语音应答响应系统,其特征在于,包括语音输出设备,语音输入设备,语音转换设备,语音响应设备;人数视觉感应设备,电话视觉感应设备,嘴型视觉感应设备,监控设备。
本发明还可以说是一种智能语音交互平台,监控设备,安装在需要响应的区域,对该区域进行实时监控。
在监控设备中,能360°旋转摄像头,对响应区域进行全景视频监控。
本发明还可以说是一种AI语音判定对话系统,语音输出设备,与语音转换设备相连,是产生语音的输出设备。
在语音输出设备中,设置了电动式扬声器,利用音圈与恒定磁场之间的相互作用力使振膜振动而发声。
在语音输出设备中,设置了锥盆式扬声器,使用的振膜材料在纸浆材料中或掺入羊毛、蚕丝、碳纤维材料,以增加其刚性、内阻尼及防水性能。
在语音输出设备中,设置了分频器,分频器为功率分频器也称无源式后级分频器,是在功率功放之后进行分频的。它主要包含电感、电阻、电容无源组件,组成滤波器网络,把各频段的音频信号分别送到相应频段的扬声器中去重放。
本发明还可以说是一种人工智能语音应答响应交互平台,语音输入设备,与语音转换设备相连,将人的语音信息直接输入到计算机的人机接口设备。
本发明还可以说是一种AI语音技术应答响应系统,语音转换设备,与语音输入设备和语音输出设备相连,输入的语音进行模拟信号和数字信号的转换,把语音输入设备输入的语音的特征信息(频率、周期、声调等变化)作数字化处理后记录在计算机中;或者把计算机的信息转换为语音的特征信息输出。
嘴型视觉感应设备,与语音响应设备,监控设备相连,对监控设备对监控区域拍摄的视频,进行判断视频中的人的嘴型是否静止,人的嘴型是静止,则不响应。
在嘴型视觉感应设备中,设置人脸识别系统,在识别的人脸区域内通过设定特定色彩的阈值,检测到嘴唇的区域,通过视频的上一帧和下一帧的对比,嘴唇的边界不重合,则人的嘴型不是静止的。
人数视觉感应设备,与语音响应设备,监控设备相连,对监控设备对监控区域拍摄的视频,进行判断,视频中有几个人,两个或两个以上的人就判断为是,就不响应。
在人数视觉感应设备中,设置计数器,计数器为1,则响应,计数器大于1,则不响应。
电话视觉感应设备,与语音响应设备,监控设备相连,对监控设备对监控区域拍摄的视频,进行判断视频中的人是否手持电话或戴耳机,人手持电话或戴耳机,则不响应。
在电话视觉感应设备中,设置移动电话和固定电话的三维模型库,通过识别人的手,进而通过三维模型库比对人的手中物体,进而判断是否为电话。
在电话视觉感应设备中,设置蓝牙耳机和普通耳机的三维模型库,通过识别人的耳朵,进而通过三维模型库比对人的耳朵上戴的物体,进而判断是否为耳机。
语音响应设备,与语音输入设备,语音转换设备相连,对语音产生响应的设备,语音响应分为两种,一种为特定语音响应,一种为其他语音响应。特定语音响应,就是只要语音响应设备接收到特定语音就产生响应,通过语音输出设备进行对话模式;其他语音响应,是除了语音响应设备接收到特定语音的其他语音,则启动监控设备,这时就要根据嘴型视觉感应设备,电话视觉感应设备,人数视觉感应设备产生的信息来判断是否响应,只有当人数视觉感应设备,电话视觉感应设备,嘴型视觉感应设备,都判断为是时,通过语音输出设备进行AI对话模式。
语音响应的工作流程是,用户通过语音输入设备输入语音,语音转换设备对输入的语音进行模拟信号和数字信号的转换,语音响应设备进行判断是否是特定语音,是特定语音则进行语音响应,通过语音输出设备进行AI对话模式;不是特定语音则为其他语音响应;
其他语音响应的工作流程是,由嘴型视觉感应设备,对监控设备对监控区域拍摄的视频,进行判断视频中的人的嘴型是否静止,人的嘴型是静止则不响应,人的嘴型不静止则,由人数视觉感应设备,对监控设备对监控区域拍摄的视频,进行判断,视频中有几个人,两个或两个以上的人就判断为是,就不响应,一个人就由电话视觉感应设备,对监控设备对监控区域拍摄的视频,进行判断视频中的人是否手持电话或戴耳机,人手持电话或戴耳机则不响应,人不手持电话或戴耳机则,进行语音响应,通过语音输出设备进行AI对话模式。
附图说明
图1为本发明的整体结构示意图。
图2为本发明的语音响应的工作流图。
图3为本发明的其他语音响应的实施例一工作流程图。
图4为本发明的其他语音响应的实施例二工作流程图。
图5为本发明的其他语音响应的实施例三工作流程图。
图6为本发明的其他语音响应的实施例四工作流程图。
图7为本发明的其他语音响应的实施例五工作流程图。
图8为本发明的其他语音响应的实施例六工作流程图。
具体实施方式
下面将参照附图对本发明的智能检索的监控平台系统的实施方案进行详细说明。
实施例一
为了解决现有技术中的智能检索功能,本发明采取的技术方案是,一种基于视觉感应的AI语音应答响应系统,其特征在于,包括语音输出设备,语音输入设备,语音转换设备,语音响应设备;人数视觉感应设备,电话视觉感应设备,嘴型视觉感应设备,监控设备。
监控设备,安装在需要响应的区域,对该区域进行实时监控。
在监控设备中,能360°旋转摄像头,对响应区域进行全景视频监控。
语音输出设备,与语音转换设备相连,是产生语音的输出设备。
在语音输出设备中,电动式扬声器,利用音圈与恒定磁场之间的相互作用力使振膜振动而发声。
在语音输出设备中,设置了电动式扬声器,利用音圈与恒定磁场之间的相互作用力使振膜振动而发声。
在语音输出设备中,设置了锥盆式扬声器,使用的振膜材料以纸浆材料为主,或掺入羊毛、蚕丝、碳纤维材料,以增加其刚性、内阻尼及防水性能。
在语音输出设备中,设置了分频器,分频器为功率分频器也称无源式后级分频器,是在功率功放之后进行分频的。它主要包含电感、电阻、电容无源组件,组成滤波器网络,把各频段的音频信号分别送到相应频段的扬声器中去重放。
语音输入设备,与语音转换设备相连,将人的语音信息直接输入到计算机的人机接口设备。
语音转换设备,与语音输入设备和语音输出设备相连,输入的语音进行模拟信号和数字信号的转换,把语音输入设备输入的语音的特征信息(频率、周期、声调等变化)作数字化处理后记录在计算机中;或者把计算机的信息转换为语音的特征信息输出。
嘴型视觉感应设备,与语音响应设备,监控设备相连,对监控设备对监控区域拍摄的视频,进行判断视频中的人的嘴型是否静止,人的嘴型是静止,则不响应。
在嘴型视觉感应设备中,设置人脸识别系统,在识别的人脸区域内通过设定特定色彩的阈值,检测到嘴唇的区域,通过视频的上一帧和下一帧的对比,嘴唇的边界不重合,则人的嘴型不是静止的。
在嘴型视觉感应设备中,设置人脸识别系统,通过矩形边缘对比,忽略边框内部的图像识别。
这个主要是为了嘴型视觉感应设备排除电视机中的人脸。由于电视机为矩形边框,因此将电视机中的人脸进行忽略,以免误将电视机中的人脸进行识别。
人数视觉感应设备,与语音响应设备,监控设备相连,对监控设备对监控区域拍摄的视频,进行判断,视频中有几个人,两个或两个以上的人就判断为是,就不响应。
在人数视觉感应设备中,设置计数器,计数器为1,则响应,计数器大于1,则不响应。
电话视觉感应设备,与语音响应设备,监控设备相连,对监控设备对监控区域拍摄的视频,进行判断视频中的人是否手持电话,人手持电话,则不响应。
在电话视觉感应设备中,设置移动电话和固定电话的三维模型库,通过识别人的手,进而通过三维模型库比对人的手中物体,进而判断是否为电话。
在电话视觉感应设备中,设置蓝牙耳机和普通耳机的三维模型库,通过识别人的耳朵,进而通过三维模型库比对人的耳朵上戴的物体,进而判断是否为耳机。
为了判断使用者是否是通过耳机进行打电话的,识别使用者的是否带有耳机。
语音响应设备,与语音输入设备,语音转换设备相连,对语音产生响应的设备,语音响应分为两种,一种为特定语音响应,一种为其他语音响应。特定语音响应,就是只要语音响应设备接收到特定语音就产生响应,通过语音输出设备进行对话模式;其他语音响应,是除了语音响应设备接收到特定语音的其他语音,则启动监控设备,这时就要根据嘴型视觉感应设备,电话视觉感应设备,人数视觉感应设备产生的信息来判断是否响应,只有当人数视觉感应设备,电话视觉感应设备,嘴型视觉感应设备,都判断为是时,语音响应设备进行响应,并通过语音输出设备进行AI对话模式。
语音响应的工作流程是,用户通过语音输入设备输入语音,语音转换设备对输入的语音进行模拟信号和数字信号的转换,语音响应设备进行判断是否是特定语音,是特定语音则进行语音响应,通过语音输出设备进行AI对话模式;不是特定语音则为其他语音响应;
其他语音响应的工作流程是,由嘴型视觉感应设备,对监控设备对监控区域拍摄的视频,进行判断视频中的人的嘴型是否静止,人的嘴型是静止则不响应,人的嘴型不静止则,由人数视觉感应设备,对监控设备对监控区域拍摄的视频,进行判断,视频中有几个人,两个或两个以上的人就判断为是,就不响应,一个人就由电话视觉感应设备,对监控设备对监控区域拍摄的视频,进行判断视频中的人是否手持电话或戴耳机,人手持电话或戴耳机则不响应,人不手持电话或戴耳机则,进行语音响应,通过语音输出设备进行AI对话模式。
实施例二
其他语音响应的工作流程是,由嘴型视觉感应设备,对监控设备对监控区域拍摄的视频,进行判断视频中的人的嘴型是否静止,人的嘴型是静止则不响应,人的嘴型不静止则,由电话视觉感应设备,对监控设备对监控区域拍摄的视频,进行判断视频中的人是否手持电话或戴耳机,人手持电话或戴耳机则不响应,人不手持电话或戴耳机则,由人数视觉感应设备,对监控设备对监控区域拍摄的视频,进行判断,视频中有几个人,两个或两个以上的人就判断为是,就不响应,一个人就进行语音响应,通过语音输出设备进行AI对话模式。
实施例三
其他语音响应的工作流程是,由人数视觉感应设备,对监控设备对监控区域拍摄的视频,进行判断视频中有几个人,两个或两个以上的人就判断为是,就不响应,,再由嘴型视觉感应设备,对监控设备对监控区域拍摄的视频,进行判断视频中的人的嘴型是否静止,人的嘴型是静止则不响应,人的嘴型不静止则,由电话视觉感应设备,对监控设备对监控区域拍摄的视频,进行判断视频中的人是否手持电话或戴耳机,人手持电话或戴耳机则不响应,人不手持电话或戴耳机则进行语音响应,通过语音输出设备进行AI对话模式。
实施例四
其他语音响应的工作流程是,由人数视觉感应设备,对监控设备对监控区域拍摄的视频,进行判断视频中有几个人,两个或两个以上的人就判断为是,就不响应,再由电话视觉感应设备,对监控设备对监控区域拍摄的视频,进行判断视频中的人是否手持电话或戴耳机,人手持电话或戴耳机则不响应,人不手持电话或戴耳机,再由嘴型视觉感应设备,对监控设备对监控区域拍摄的视频,进行判断视频中的人的嘴型是否静止,人的嘴型是静止则不响应,人的嘴型不静止,则进行语音响应,通过语音输出设备进行AI对话模式。
实施例五
其他语音响应的工作流程是,由电话视觉感应设备,对监控设备对监控区域拍摄的视频,进行判断视频中的人是否手持电话或戴耳机,人手持电话或戴耳机则不响应,人不手持电话或戴耳机则,由人数视觉感应设备,对监控设备对监控区域拍摄的视频,进行判断,视频中有几个人,两个或两个以上的人就判断为是,就不响应,一个人就由嘴型视觉感应设备,对监控设备对监控区域拍摄的视频,进行判断视频中的人的嘴型是否静止,人的嘴型是静止则不响应,人的嘴型不静止则,进行语音响应,通过语音输出设备进行AI对话模式。
实施例六
其他语音响应的工作流程是,由电话视觉感应设备,对监控设备对监控区域拍摄的视频,进行判断视频中的人是否手持电话或戴耳机,人手持电话或戴耳机则不响应,人不手持电话或戴耳机则,由嘴型视觉感应设备,对监控设备对监控区域拍摄的视频,进行判断视频中的人的嘴型是否静止,人的嘴型是静止则不响应,人的嘴型不静止,再由人数视觉感应设备,对监控设备对监控区域拍摄的视频,进行判断,视频中有几个人,两个或两个以上的人就判断为是,就不响应,一个人就则,进行语音响应,通过语音输出设备进行AI对话模式。
通过嘴型视觉感应设备,用来判断人的嘴型不变化,说明使用者并没有说话,声音的来源可能是来自电视,收音机,其他噪音,则不响应;人的嘴型发生变化则,说明声音为使用者的声音,但是有可能是和其他人说话,因此再通过人数视觉感应设备,判断视频中的人数,如果是两个或两个以上的人,就说明可能是两个人之间在对话,则不响应;如果是一个人,就说明这个人很可能是对智能应答系统说话,但是有可能在打电话或戴耳机;因此再通过电话视觉感应设备,判断视频中的人是否手持电话或戴耳机,人手持电话或戴耳机,则说明他在打电话或戴耳机,则不响应,如果人不手持电话或戴耳机则,则说明他是在和智能语音应答系统说话,则进行语音响应,通过语音输出设备进行AI对话模式。
本发明的目的是为了使得智能语音应答系统能更合理的模仿人的行为习惯,将智能语音应答系统作为一个“人”来看,他应该在什么情况下做出应答反应才能更加人性化。智能语音应答系统经过嘴型视觉感应设备,电话视觉感应设备,人数视觉感应设备的判断是否使用者在与智能语音应答系统对话,而不需要特定词语作为呆板的指令。当然也有例外,比如说如果使用者是自言自语呢。首先,这种情况很少,再者,如果将智能语音应答系统作为一个“人”,A和B两个人呆在一起,A自言自语,另外B也很可能会认为A是在和自己说话,这正是人的行为习惯。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (8)

1.一种基于视觉感应的AI语音应答响应系统,其特征在于,包括语音输出设备,语音输入设备,语音转换设备,语音响应设备;人数视觉感应设备,电话视觉感应设备,嘴型视觉感应设备,监控设备;
监控设备,安装在需要响应的区域,对该区域进行实时监控;
语音输出设备,与语音转换设备相连,是产生语音的输出设备;
语音输入设备,与语音转换设备相连,将人的语音信息直接输入到计算机的人机接口设备;
语音转换设备,与语音输入设备和语音输出设备相连,输入的语音进行模拟信号和数字信号的转换,把语音输入设备输入的语音的特征信息作数字化处理后记录在计算机中;或者把计算机的信息转换为语音的特征信息输出;
嘴型视觉感应设备,与语音响应设备,监控设备相连,对监控设备对监控区域拍摄的视频,进行判断视频中的人的嘴型是否静止,人的嘴型是静止,则不响应;
人数视觉感应设备,与语音响应设备,监控设备相连,对监控设备对监控区域拍摄的视频,进行判断,视频中有几个人,两个或两个以上的人就判断为是,就不响应;
电话视觉感应设备,与语音响应设备,监控设备相连,对监控设备对监控区域拍摄的视频,进行判断视频中的人是否手持电话或戴耳机,人手持电话或戴耳机,则不响应;
语音响应设备,与语音输入设备,语音转换设备相连,对语音产生响应的设备,语音响应分为两种,一种为特定语音响应,一种为特定语音响应,一种为其他语音响应;特定语音响应,就是只要语音响应设备接收到特定语音就产生响应,通过语音输出设备进行对话模式;其他语音响应,是除了语音响应设备接收到特定语音的其他语音,则启动监控设备,这时就要根据嘴型视觉感应设备,电话视觉感应设备,人数视觉感应设备产生的信息来判断是否响应,只有当人数视觉感应设备,电话视觉感应设备,嘴型视觉感应设备,都判断为是时,通过语音输出设备进行AI对话模式;
语音响应的工作流程是,用户通过语音输入设备输入语音,语音转换设备对输入的语音进行模拟信号和数字信号的转换,语音响应设备进行判断是否是特定语音,是特定语音则进行语音响应,通过语音输出设备进行AI对话模式;不是特定语音则为其他语音响应;
其他语音响应的工作流程是,由嘴型视觉感应设备,对监控设备对监控区域拍摄的视频,进行判断视频中的人的嘴型是否静止,人的嘴型是静止则不响应,人的嘴型不静止则,人的嘴型不静止则,由人数视觉感应设备,对监控设备对监控区域拍摄的视频,进行判断,视频中有几个人,两个或两个以上的人就判断为是,就不响应,一个人就由电话视觉感应设备,对监控设备对监控区域拍摄的视频,进行判断视频中的人是否手持电话,人手持电话则不响应,人不手持电话则,进行语音响应,通过语音输出设备进行AI对话模式。
2.根据权利要求1中的所述一种基于视觉感应的AI语音应答响应系统,其特征在于,在监控设备中,能360°旋转摄像头,对响应区域进行全景视频监控。
3.根据权利要求1中的所述一种基于视觉感应的AI语音应答响应系统,其特征在于,在语音输出设备中,设置了锥盆式扬声器,使用的振膜材料在纸浆材料中掺入羊毛、蚕丝、碳纤维材料。
4.根据权利要求1中的所述一种基于视觉感应的AI语音应答响应系统,其特征在于,在语音输出设备中,设置了分频器,分频器为功率分频器也称无源式后级分频器,是在功率功放之后进行分频的;它主要包含电感、电阻、电容无源组件,组成滤波器网络,把各频段的音频信号分别送到相应频段的扬声器中去重放。
5.根据权利要求1中的所述一种基于视觉感应的AI语音应答响应系统,其特征在于,在嘴型视觉感应设备中,设置人脸识别系统,在识别的人脸区域内通过设定特定色彩的阈值,检测到嘴唇的区域,通过视频的上一帧和下一帧的对比,嘴唇的边界不重合,则人的嘴型不是静止的。
6.根据权利要求1中的所述一种基于视觉感应的AI语音应答响应系统,其特征在于,在人数视觉感应设备中,设置计数器,计数器为1,则响应,计数器大于1,则不响应。
7.根据权利要求1中的所述一种基于视觉感应的AI语音应答响应系统,其特征在于,在电话视觉感应设备中,设置移动电话和固定电话的三维模型库,通过识别人的手,进而通过三维模型库比对人的手中物体,进而判断是否为电话。
8.根据权利要求1中的所述一种基于视觉感应的AI语音应答响应系统,其特征在于,在电话视觉感应设备中,设置蓝牙耳机和普通耳机的三维模型库,通过识别人的耳朵,进而通过三维模型库比对人的耳朵上戴的物体,进而判断是否为耳机。
CN201910804779.5A 2019-08-28 2019-08-28 一种基于视觉感应的ai语音应答响应系统 Active CN110517678B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910804779.5A CN110517678B (zh) 2019-08-28 2019-08-28 一种基于视觉感应的ai语音应答响应系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910804779.5A CN110517678B (zh) 2019-08-28 2019-08-28 一种基于视觉感应的ai语音应答响应系统

Publications (2)

Publication Number Publication Date
CN110517678A CN110517678A (zh) 2019-11-29
CN110517678B true CN110517678B (zh) 2022-04-08

Family

ID=68627619

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910804779.5A Active CN110517678B (zh) 2019-08-28 2019-08-28 一种基于视觉感应的ai语音应答响应系统

Country Status (1)

Country Link
CN (1) CN110517678B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114360527B (zh) * 2021-12-30 2023-09-26 亿咖通(湖北)技术有限公司 车载语音交互方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014159581A1 (en) * 2013-03-12 2014-10-02 Nuance Communications, Inc. Methods and apparatus for detecting a voice command
CN108337362A (zh) * 2017-12-26 2018-07-27 百度在线网络技术(北京)有限公司 语音交互方法、装置、设备和存储介质
CN109658925A (zh) * 2018-11-28 2019-04-19 上海蔚来汽车有限公司 一种基于上下文的免唤醒车载语音对话方法及系统
CN109767774A (zh) * 2017-11-08 2019-05-17 阿里巴巴集团控股有限公司 一种交互方法和设备
CN109979036A (zh) * 2019-04-03 2019-07-05 深圳市海圳汽车技术有限公司 具有记录仪控制和语音识别控制的系统及控制方法、记录仪
CN110010125A (zh) * 2017-12-29 2019-07-12 深圳市优必选科技有限公司 一种智能机器人的控制方法、装置、终端设备及介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106611597B (zh) * 2016-12-02 2019-11-08 百度在线网络技术(北京)有限公司 基于人工智能的语音唤醒方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014159581A1 (en) * 2013-03-12 2014-10-02 Nuance Communications, Inc. Methods and apparatus for detecting a voice command
CN109767774A (zh) * 2017-11-08 2019-05-17 阿里巴巴集团控股有限公司 一种交互方法和设备
CN108337362A (zh) * 2017-12-26 2018-07-27 百度在线网络技术(北京)有限公司 语音交互方法、装置、设备和存储介质
CN110010125A (zh) * 2017-12-29 2019-07-12 深圳市优必选科技有限公司 一种智能机器人的控制方法、装置、终端设备及介质
CN109658925A (zh) * 2018-11-28 2019-04-19 上海蔚来汽车有限公司 一种基于上下文的免唤醒车载语音对话方法及系统
CN109979036A (zh) * 2019-04-03 2019-07-05 深圳市海圳汽车技术有限公司 具有记录仪控制和语音识别控制的系统及控制方法、记录仪

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Interaction of receptionist ASKA using vision and speech information;Jun"ichi Ido,等;《IEEE Conference on Multisensor Fusion and Integration for Intelligent Systems 2003》;20031231;第335-340页 *
基于语音实现人机对话的空调控制器研究开发;郑志辉,等;《2 0 1 8年中国家用电器技术大会 论文集》;20181231;第331-335页 *

Also Published As

Publication number Publication date
CN110517678A (zh) 2019-11-29

Similar Documents

Publication Publication Date Title
CN108521621B (zh) 信号处理方法、装置、终端、耳机及可读存储介质
JP6600634B2 (ja) ユーザが制御可能な聴覚環境のカスタマイズのためのシステム及び方法
US9344815B2 (en) Method for augmenting hearing
CN110493678B (zh) 耳机的控制方法、装置、耳机和存储介质
CN104991754B (zh) 录音方法及装置
CN107978316A (zh) 控制终端的方法及装置
US20230164475A1 (en) Mode Control Method and Apparatus, and Terminal Device
CN110312235A (zh) 实时语音唤醒的音频设备、运行方法、装置及存储介质
CN104272599B (zh) 用于输出音频的设备和方法
US9923535B2 (en) Noise control method and device
CN103139351A (zh) 音量控制方法、装置及通信终端
CN103973877A (zh) 一种在移动终端中利用文字实现实时通话的方法和装置
CN106067996B (zh) 语音再现方法、语音对话装置
CN103024630A (zh) 一种第一电子设备的音量调节方法及第一电子设备
CN106210960A (zh) 具有本地通话情况确认模式的耳机装置
CN109151642B (zh) 一种智能耳机、智能耳机处理方法、电子设备及存储介质
WO2018000764A1 (zh) 一种声道自动匹配的方法、装置以及耳机
CN104754462A (zh) 音量自动调节装置及方法和耳机
US20180279048A1 (en) Binaural recording system and earpiece set
CN204733335U (zh) 一种智能耳塞
CN110517678B (zh) 一种基于视觉感应的ai语音应答响应系统
CN110232909A (zh) 一种音频处理方法、装置、设备及可读存储介质
CN105448300A (zh) 用于通话的方法及装置
CN113228710A (zh) 听力装置中的声源分离及相关方法
CN113038337B (zh) 一种音频播放方法、无线耳机和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant