CN110134821A - 一种针对行车拥堵的智能车载音频精准推送方法 - Google Patents
一种针对行车拥堵的智能车载音频精准推送方法 Download PDFInfo
- Publication number
- CN110134821A CN110134821A CN201910378014.XA CN201910378014A CN110134821A CN 110134821 A CN110134821 A CN 110134821A CN 201910378014 A CN201910378014 A CN 201910378014A CN 110134821 A CN110134821 A CN 110134821A
- Authority
- CN
- China
- Prior art keywords
- audio
- face
- congestion
- module
- pushing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000012545 processing Methods 0.000 claims abstract description 19
- 230000003993 interaction Effects 0.000 claims abstract description 11
- 238000004891 communication Methods 0.000 claims abstract description 4
- 238000000605 extraction Methods 0.000 claims description 15
- 230000009467 reduction Effects 0.000 claims description 15
- 238000001514 detection method Methods 0.000 claims description 11
- 238000001914 filtration Methods 0.000 claims description 11
- 230000009466 transformation Effects 0.000 claims description 10
- 230000001815 facial effect Effects 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 210000004709 eyebrow Anatomy 0.000 claims description 4
- 230000015572 biosynthetic process Effects 0.000 claims description 3
- 235000013350 formula milk Nutrition 0.000 claims description 3
- 238000001228 spectrum Methods 0.000 claims description 3
- 238000003786 synthesis reaction Methods 0.000 claims description 3
- 230000003044 adaptive effect Effects 0.000 claims 1
- 239000011159 matrix material Substances 0.000 description 8
- 230000036651 mood Effects 0.000 description 4
- 238000012706 support-vector machine Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 206010041349 Somnolence Diseases 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 206010039203 Road traffic accident Diseases 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 229910002056 binary alloy Inorganic materials 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 210000004209 hair Anatomy 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/63—Querying
- G06F16/635—Filtering based on additional data, e.g. user or group profiles
- G06F16/636—Filtering based on additional data, e.g. user or group profiles by using biological or physiological data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/63—Querying
- G06F16/638—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/59—Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
- G06V20/597—Recognising the driver's state or behaviour, e.g. attention or drowsiness
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/467—Encoded features or binary features, e.g. local binary patterns [LBP]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Library & Information Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Physiology (AREA)
- Molecular Biology (AREA)
- Acoustics & Sound (AREA)
- Biophysics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种针对行车拥堵的智能车载音频精准推送方法,包括如下步骤:1)人脸识别模块通过车内摄像头采集驾驶员的图像,采集图像后运用人脸识别算法进行人脸识别;2)堵车情景识别模块获取车载GPS系统的路况信息,判断当前行程路段是否属于拥堵状态;3)所述核心处理步骤模块根据识别信息推送给所述定向内容大数据推送模块,然后通过和云后台通信连接获取该人脸ID喜好的音频内容推送给车载音响系统播放;若没有匹配识别到为已有的人脸ID,则所述核心处理模块通过所述语音交互模块与所述驾驶员交流,获取其喜好的音频。本发明技术方案旨在能够智能识别行车拥堵状态,主动与驾驶员进行交互,提供定向精准的内容推送。
Description
技术领域
本发明涉及车载智能识别与语音交互领域,特别涉及一种针对行车拥堵的智能车载音频精准推送方法。
背景技术
随着汽车的日益普及,驾车出行已成为最重要的出行方式,我国的机动车保有量约为3.9亿辆,且每年都在以2000万辆递增。随着车辆增速远远超过道路基础设施的修建和改良速度,再加上早晚高峰期超聚集行车数量,以及因社会竞争造成的日益急躁的驾驶陋习,导致交通拥堵情况也变得越来越普遍,越来越严重。以至于贵阳、北京等城市被冠以“堵城”的称号。
高频率的拥堵会带来以下几个方面的危害:
1.驾驶员心情烦躁,容易引起路怒甚至擦碰等纠纷;
2.拥堵停滞容易导致驾驶员瞌睡,导致追尾等交通事故;
3.上班路上拥堵郁闷,影响心情从而影响一天的工作状态;
4.烦闷无聊影响驾驶员身心健康。
现有车辆都是被动式的机器,没有人工智能的交互,使用体验没有情感温度。传统的车载娱乐电子产品如车载中控、流媒体后视镜、DVD娱乐系统都是被动式的,需要驾驶员自己去设置或手动播放音视频内容,操作不便而且增加驾驶时的不安全因素,不能进行主动定向推送,不够智能,内容相对固定,需要用户自己提前下载相应的音视频内容,已不适应目前经济社会发展所需要的车联网新需求,也不符合广大驾车人员对移动互联时代驾车的期许。
因此,有必要针对上述问题提出一种新的解决方案。
发明内容
本发明的主要目的是提出一种针对行车拥堵的智能车载音频精准推送方法,旨在能智能识别行车拥堵状态,主动与驾驶员进行交互,提供定向精准的内容推送,在检测到堵车时能根据大数据智能分析,推送特定的音频内容,从而消磨堵车时光,舒畅驾驶员心情,预防驾驶员因为拥堵停滞引起的瞌睡,提高驾驶安全和驾驶乐趣。
为实现上述目的,本发明提出的一种针对行车拥堵的智能车载音频精准推送方法,包括如下步骤:
1)人脸识别模块通过车内摄像头采集驾驶员的图像,采集图像后运用人脸识别算法进行人脸识别,将识别信息传送给核心处理模块;
2)堵车情景识别模块获取车载GPS系统的路况信息,判断当前行程路段是否属于拥堵状态,若属于拥堵状态,则将拥堵状态信息发送给所述核心处理模块;
3)所述核心处理步骤模块根据所述人脸识别模块的识别信息匹配数据库,若匹配识别到为已有人脸ID,则将该人脸ID传送给定向内容大数据推送模块,所述定向内容大数据推送模块通过和云后台通信连接获取该人脸ID喜好的音频内容推送给车载音响系统播放;若没有匹配识别到为已有的人脸ID,则所述核心处理模块通过所述语音交互模块与所述驾驶员交流,获取其喜好的音频,储存喜好信息并推送给所述车载音响系统播放。
进一步地,所述车内摄像头角度可调节,且所述车内摄像头与所述驾驶员人脸的夹角小于30°。
进一步地,所述堵车情景识别模块还包括车载OBD盒子。
进一步地,所述语音交互模块包括AI语音识别装置,所述AI语音识别装置的识别步骤如下:
S1、音频检测:装置通过语音识别控制单元采集车内的音频数据,得到音频数据序列x(n);
S2、检测静音:对采集到的音频数据做傅里叶变换得到能量场分布图,其变换公式为:其中x(n)为采集到的音频数据,X(ejω) 为离散傅里叶变换,通过对于的频谱分布可知数据能量场,检测能量场分布接近0的部分音频数据即为静音,检测到静音可以让装置进入休眠节省功耗,但检测到非静音时,继续执行S3;
S3、语音输入预处理:音频数据中其中S(j)为前面的静音片段,V(m)为音频中去除静音的语音信号,将其作为语音输入;
将音频数据进行数字滤波,去除背景噪声干扰,滤除方法采用LMS自适应滤波方法,已知V(m)为语音输入信号,L(m)为对应的另一路MIC采集的背景噪声,Y(m)=V(m)-L(m),背景噪声可为音乐声、风雨声等环境噪声,则将噪声滤除得到较为纯净的语音信号。后对语音输入进行加窗处理成一帧一帧的帧数据,每帧的长度为T,帧移动的长度为t,则每帧之间存在着T-t的交替重叠(T>2t),处理好的帧送入步骤S4;
S4、特征提取:识别语音信号中的口音特征,通过对语音信号进行傅里叶变换,利用梅尔倒频谱系数法(MFCC)后由深度神经网络(DNN)来分析和综合运算语音信号所属的口音类型;
S5、声学模型选择:根据上一步骤中获得的所述口音类型,获取所属的声学词典和解码器。
进一步地,步骤S3中所述核心处理步骤模块接收到拥堵状态信息后,通过所述语音交互模块获取所述驾驶员是否需要收听音频的答案;若是,则继续执行;若否,则在一定时间后返回S2。
进一步地,所述人脸识别算法采用LBP算法对人脸区域的纹理特征进行提取,并进行特征分类识别,其包括如下步骤:
B1、人脸区域划分,从人脸图像中划分出重要区域矩形,包括人眼、鼻子、嘴唇和眉毛四大区域矩形,其他的区域归为非重要区域;
B2、分类LBP特征提取,对重要区域采用对纹理信息描述力更强的LBP算子进行纹理特征提取,而对非重要区域采用对纹理信息描述力一般的LBP算子进行纹理特征提取;
B3、PCA特征降维,对上步骤B2中提取的LBP纹理特征进行降维;
B4、VM分类识别,对降维后的特征进行纹理分类。
与现有技术相比,本发明的有益效果是:能采集并识别驾驶员的面部图像,通过深度神经网络识别算法识别驾驶人的面部特征,在堵车过程中,当识别到当前路段处于堵车状态,本发明的智能装置能自动与驾驶员进行沟通,询问是否需要收听内容资源;当驾驶员回复肯定时,装置播放对应内容资源,解决上下班高峰期堵车时的无聊。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本发明中堵车情景识别的流程图;
图2为本发明中人脸识别流程图;
图3为本发明中语音识别流程图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
本实施例提出的一种针对行车拥堵的智能车载音频精准推送方法,旨在能智能识别行车拥堵状态,主动与驾驶员进行交互,提供定向精准的内容推送,在检测到堵车时能根据大数据智能分析,推送特定的音频内容,从而消磨堵车时光,舒畅驾驶员心情,预防驾驶员因为拥堵停滞引起的瞌睡,提高驾驶安全和驾驶乐趣。
为实现上述目的,本发明提出的一种针对行车拥堵的智能车载音频精准推送方法,包括如下步骤:
1)人脸识别模块通过车内摄像头采集驾驶员的图像,采集图像后运用人脸识别算法进行人脸识别,将识别信息传送给核心处理模块;
2)堵车情景识别模块获取车载GPS系统的路况信息,判断当前行程路段是否属于拥堵状态,若属于拥堵状态,则将拥堵状态信息发送给核心处理模块;
3)核心处理步骤模块根据人脸识别模块的识别信息匹配数据库,若匹配识别到为已有人脸ID,则将该人脸ID传送给定向内容大数据推送模块,定向内容大数据推送模块通过和云后台通信连接获取该人脸ID喜好的音频内容推送给车载音响系统播放;若没有匹配识别到为已有的人脸ID,则核心处理模块通过语音交互模块与驾驶员交流,获取其喜好的音频,储存喜好信息并推送给车载音响系统播放。
本发明能采集并识别驾驶员的面部图像,通过深度神经网络识别算法识别驾驶人的面部特征,在堵车过程中,当识别到当前路段处于堵车状态,本发明的智能装置能自动与驾驶员进行沟通,询问是否需要收听内容资源;当驾驶员回复肯定时,装置播放对应内容资源,解决上下班高峰期堵车时的无聊。
在本发明一实施例中,车内摄像头角度可调节,且车内摄像头与驾驶员人脸的夹角小于30°。
在本发明一实施例中,堵车情景识别模块还包括车载OBD盒子。由于隧道等信号弱地方无法调取GPS信息,所以本模块增加车载OBD盒子采集车速信息,两者结合判定当前行车速度在所行驶路段是否属于拥堵状态,如果是拥堵状态就启动语音交互定向推送当前驾驶员喜好的音频内容。
堵车情景识别的流程如图1所示。
堵车情景判定步骤为:
第一步,通过OBD盒子采集当前行驶测速,只要测到车辆未熄火,车速为0,则通过摄像头识别当前驾驶员面部信息,语音互动定向推送其喜好的音频内容。
第二如果通过OBD盒子读取车速不为0,则根据GPS定位所行驶路段属于哪一种路段,依据下面表1中不同路段行车拥堵判定国家标准,判定是否堵车,如果判定已经堵车,则通过摄像头识别当前驾驶员面部信息,语音互动定向推送其喜好的音频内容。
在本发明一实施例中,语音交互模块包括AI语音识别装置,语音识别流程如图3所示,AI语音识别装置的识别步骤如下:
S1、音频检测:装置通过语音识别控制单元采集车内的音频数据,得到音频数据序列x(n);
S2、检测静音:对采集到的音频数据做傅里叶变换得到能量场分布图,其变换公式为:其中x(n)为采集到的音频数据,X(ejω) 为离散傅里叶变换,通过对于的频谱分布可知数据能量场,检测能量场分布接近0的部分音频数据即为静音,检测到静音可以让装置进入休眠节省功耗,但检测到非静音时,继续执行S3;
S3、语音输入预处理:音频数据中其中S(j)为前面的静音片段,V(m)为音频中去除静音的语音信号,将其作为语音输入;
将音频数据进行数字滤波,去除背景噪声干扰,滤除方法采用LMS自适应滤波方法,已知V(m)为语音输入信号,L(m)为对应的另一路MIC采集的背景噪声,Y(m)=V(m)-L(m),背景噪声可为音乐声、风雨声等环境噪声,则将噪声滤除得到较为纯净的语音信号。后对语音输入进行加窗处理成一帧一帧的帧数据,如图2所示,每帧的长度为T,帧移动的长度为t,则每帧之间存在着T-t的交替重叠(T>2t),处理好的帧送入步骤S4;
S4、特征提取:识别语音信号中的口音特征,通过对语音信号进行傅里叶变换,利用梅尔倒频谱系数法(MFCC)后由深度神经网络(DNN)来分析和综合运算语音信号所属的口音类型;
S5、声学模型选择:根据上一步骤中获得的口音类型,获取所属的声学词典和解码器。
在本发明一实施例中,步骤S3中核心处理步骤模块接收到拥堵状态信息后,通过语音交互模块获取驾驶员是否需要收听音频的答案;若是,则继续执行;若否,则在一定时间后返回S2。
在本发明一实施例中,人脸识别算法采用LBP算法对人脸区域的纹理特征进行提取,并进行特征分类识别。方法如下:人脸识别模块通过车内摄像头采集驾驶员位置的图像,摄像头可对准人脸上下左右调整角度,校准到摄像头与人脸的夹角小于30°为最佳,采集图像后运用人脸识别算法进行ID识别,识别结果如果跟目前数据库人脸ID匹配,则根据该人脸ID的音频内容喜好进行精准推送。如果识别结果跟目前数据库人脸ID不匹配,则建立新的人脸ID,询问其想要听的内容进行推送,同时统计其使用喜好,以便下一次精准推送。
人脸识别算法采用LBP算法对人脸区域的纹理特征进行提取,然后进行特征分类识别。算法首先对人脸区域进行分块,区分出重要特征区域和非重要特征区域,然后采用不同模式的LBP算子进行特征提取的策略,最后对特征进行降维和分类识别。主要步骤为:
第一步:人脸区域划分,从人脸图像中划分出重要区域矩形,包括人眼、鼻子、嘴唇和眉毛四大区域矩形,其他的区域归为非重要区域;
第二步:分类LBP特征提取,对重要区域采用对纹理信息描述力更强的LBP 算子进行纹理特征提取,而对非重要区域采用对纹理信息描述力一般的LBP 算子进行纹理特征提取;
首先计算图像中每个像素与其局部领域点在灰度上的二值关系;其次,对二值关系按一定规则加权形成局部二值模式;最后采用多区域直方图序列作为图像的特征。这种局部纹理特征可由下面T算子进行描述:
T≈t(f(g0-gc),f(g1-gc),Λf(gp-1-gc))
将二进制f(gp-gc)乘以相应的权值2p,然后累加求和就可以得到以点gc为中心,R为半径邻域的纹理特征T描述:
T≈t(LBPP,R(xc,yc))
接下来将求解该特征描述的直方图,将其分解成不同的若干个区域,则该图像的直方图定义如下:
Hi,j=∑x,yI{h(x,y)=i}I{(x,y)∈Rj},
i=0,1,Λn-1,j=0,1,ΛD-1
其中Hi,j表示从图像划分的区域Rj中属于第i个bin的个数,n为LBP的统计模式特征个数,D为图像划分的区域的个数。
第三步:PCA特征降维,对上一步中提取的LBP纹理特征进行降维;
假设此时共有n幅样本人脸图片参与特征提取工作,将图像的LBP模式直方图Hi,j看做一向量,并把所有Hi,j合并为一矩阵H,那么H就是D×n的矩阵。现在就是要采用PCA算法对D×n的矩阵H进行降维,降维后的矩阵称之为使得的矩阵规模远小于矩阵H的规模。令其中W称之为投影变换矩阵。
第四步:SVM分类识别,对降维后的特征进行纹理分类。
对于特征矩阵H的n类样本分类求解问题,可以把这n类分类划分为多个两类分类问题,每类分类问题可以构建一个最小支持向量机,那么对于n类分类问题需要构建N=n(n-1)/2个最小支持向量机。在构造任意两类样本的最小支持向量机分类器时如p和q类,可以选取将属于第p类的训练样本数据标记为+1,将属于第q类的训练样本数据标记为-1,这样就可以训练出这两类样本数据的最小支持向量机用于人脸分类。当人脸待测样本经过N=n(n-1)/2个这样的两类最小支持向量机分类之后,便可确定其所属人脸样本库的最终类别,即达到人脸分类识别的目的。
人脸识别流程如图2所示,基体步骤如下:
B1、人脸区域划分,从人脸图像中划分出重要区域矩形,包括人眼、鼻子、嘴唇和眉毛四大区域矩形,其他的区域归为非重要区域;
B2、分类LBP特征提取,对重要区域采用对纹理信息描述力更强的LBP算子进行纹理特征提取,而对非重要区域采用对纹理信息描述力一般的LBP算子进行纹理特征提取;
B3、PCA特征降维,对上步骤B2中提取的LBP纹理特征进行降维;
B4、VM分类识别,对降维后的特征进行纹理分类。
其中核心处理模块:核心处理模块的作用为其他模块的“大脑”--控制中心,在收到各个模块的信息反馈后进行决策,根据堵车、疲劳、不同交互场景、个性化设置内容等进行定制不同的决策给定向内容大数据推送模块,提供定向的内容大数据推送,针对不同的场景和不同的用户习惯,通过大数据机器学习算法提供多种用户个性化内容,是整个系统的“指挥中心”。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (6)
1.一种针对行车拥堵的智能车载音频精准推送方法,其特征在于,包括如下步骤:
1)人脸识别模块通过车内摄像头采集驾驶员的图像,采集图像后运用人脸识别算法进行人脸识别,将识别信息传送给核心处理模块;
2)堵车情景识别模块获取车载GPS系统的路况信息,判断当前行程路段是否属于拥堵状态,若无拥堵状态则继续判定,若属于拥堵状态,则将拥堵状态信息发送给所述核心处理模块;
3)所述核心处理步骤模块接收到拥堵状态信息后,根据所述人脸识别模块的识别信息匹配数据库,若匹配识别到为已有人脸ID,则将该人脸ID传送给定向内容大数据推送模块,所述定向内容大数据推送模块通过和云后台通信连接获取该人脸ID喜好的音频内容推送给车载音响系统播放;若没有匹配识别到为已有的人脸ID,则所述核心处理模块通过所述语音交互模块与所述驾驶员交流,获取其喜好的音频,储存喜好信息并推送给所述车载音响系统播放。
2.如权利要求1所述的针对行车拥堵的智能车载音频精准推送方法,其特征在于,所述车内摄像头角度可调节,且所述车内摄像头与所述驾驶员人脸的夹角小于30°。
3.如权利要求1所述的针对行车拥堵的智能车载音频精准推送方法,其特征在于,所述堵车情景识别模块还包括车载OBD盒子。
4.如权利要求1所述的针对行车拥堵的智能车载音频精准推送方法,其特征在于,所述语音交互模块包括AI语音识别装置,所述AI语音识别装置的识别步骤如下:
S1、音频检测:装置通过语音识别控制单元采集车内的音频数据,得到音频数据序列x(n);
S2、检测静音:对采集到的音频数据做傅里叶变换得到能量场分布图,其变换公式为:其中x(n)为采集到的音频数据,X(ejω)为离散傅里叶变换,通过对于的频谱分布可知数据能量场,检测能量场分布接近0的部分音频数据即为静音,检测到静音可以让装置进入休眠节省功耗,但检测到非静音时,继续执行S3;
S3、语音输入预处理:音频数据中其中S(j)为前面的静音片段,V(m)为音频中去除静音的语音信号,将其作为语音输入;
将音频数据进行数字滤波,去除背景噪声干扰,滤除方法采用LMS自适应滤波方法,已知V(m)为语音输入信号,L(m)为对应的另一路MIC采集的背景噪声,Y(m)=V(m)-L(m),背景噪声可为音乐声、风雨声等环境噪声,则将噪声滤除得到较为纯净的语音信号。后对语音输入进行加窗处理成一帧一帧的帧数据,每帧的长度为T,帧移动的长度为t,则每帧之间存在着T-t的交替重叠(T>2t),处理好的帧送入步骤S4;
S4、特征提取:识别语音信号中的口音特征,通过对语音信号进行傅里叶变换,利用梅尔倒频谱系数法(MFCC)后由深度神经网络(DNN)来分析和综合运算语音信号所属的口音类型;
S5、声学模型选择:根据上一步骤中获得的所述口音类型,获取所属的声学词典和解码器。
5.如权利要求1所述的针对行车拥堵的智能车载音频精准推送方法,其特征在于,步骤S3中所述核心处理步骤模块接收到拥堵状态信息后,通过所述语音交互模块获取所述驾驶员是否需要收听音频的答案;若是,则继续执行;若否,则在一定时间后返回S2。
6.如权利要求1~4任一所述的针对行车拥堵的智能车载音频精准推送方法,其特征在于,所述人脸识别算法采用LBP算法对人脸区域的纹理特征进行提取,并进行特征分类识别,其包括如下步骤:
B1、人脸区域划分,从人脸图像中划分出重要区域矩形,包括人眼、鼻子、嘴唇和眉毛四大区域矩形,其他的区域归为非重要区域;
B2、分类LBP特征提取,对重要区域采用对纹理信息描述力更强的LBP算子进行纹理特征提取,而对非重要区域采用对纹理信息描述力一般的LBP算子进行纹理特征提取;
B3、PCA特征降维,对上步骤B2中提取的LBP纹理特征进行降维;
B4、VM分类识别,对降维后的特征进行纹理分类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910378014.XA CN110134821A (zh) | 2019-05-06 | 2019-05-06 | 一种针对行车拥堵的智能车载音频精准推送方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910378014.XA CN110134821A (zh) | 2019-05-06 | 2019-05-06 | 一种针对行车拥堵的智能车载音频精准推送方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110134821A true CN110134821A (zh) | 2019-08-16 |
Family
ID=67576450
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910378014.XA Pending CN110134821A (zh) | 2019-05-06 | 2019-05-06 | 一种针对行车拥堵的智能车载音频精准推送方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110134821A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111405324A (zh) * | 2020-03-23 | 2020-07-10 | 东风小康汽车有限公司重庆分公司 | 一种影音文件的推送方法、装置、系统 |
CN111857638A (zh) * | 2020-06-01 | 2020-10-30 | 江西江铃集团新能源汽车有限公司 | 一种基于人脸识别的语音交互方法、系统及汽车 |
CN115022363A (zh) * | 2022-05-30 | 2022-09-06 | 深圳季连科技有限公司 | 一种基于车联网顾及安全的信息分享方法 |
CN115994233A (zh) * | 2022-12-27 | 2023-04-21 | 安徽江淮汽车集团股份有限公司 | 基于驾驶模式与空闲时长的多媒体推荐方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106126591A (zh) * | 2016-06-16 | 2016-11-16 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 音乐数据推荐方法与系统 |
CN106650633A (zh) * | 2016-11-29 | 2017-05-10 | 上海智臻智能网络科技股份有限公司 | 一种驾驶员情绪识别方法和装置 |
CN108877146A (zh) * | 2018-09-03 | 2018-11-23 | 深圳市尼欧科技有限公司 | 一种基于智能语音识别的乘驾安全自动报警装置及其方法 |
CN109120653A (zh) * | 2017-06-22 | 2019-01-01 | 阿里巴巴集团控股有限公司 | 一种多媒体数据推荐方法及装置 |
-
2019
- 2019-05-06 CN CN201910378014.XA patent/CN110134821A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106126591A (zh) * | 2016-06-16 | 2016-11-16 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 音乐数据推荐方法与系统 |
CN106650633A (zh) * | 2016-11-29 | 2017-05-10 | 上海智臻智能网络科技股份有限公司 | 一种驾驶员情绪识别方法和装置 |
CN109120653A (zh) * | 2017-06-22 | 2019-01-01 | 阿里巴巴集团控股有限公司 | 一种多媒体数据推荐方法及装置 |
CN108877146A (zh) * | 2018-09-03 | 2018-11-23 | 深圳市尼欧科技有限公司 | 一种基于智能语音识别的乘驾安全自动报警装置及其方法 |
Non-Patent Citations (1)
Title |
---|
过秀成 等: "《《高速公路交通运行状态分析方法及应用》", 合肥工业大学出版社, pages: 195 - 198 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111405324A (zh) * | 2020-03-23 | 2020-07-10 | 东风小康汽车有限公司重庆分公司 | 一种影音文件的推送方法、装置、系统 |
CN111405324B (zh) * | 2020-03-23 | 2022-04-26 | 东风小康汽车有限公司重庆分公司 | 一种影音文件的推送方法、装置、系统 |
CN111857638A (zh) * | 2020-06-01 | 2020-10-30 | 江西江铃集团新能源汽车有限公司 | 一种基于人脸识别的语音交互方法、系统及汽车 |
CN115022363A (zh) * | 2022-05-30 | 2022-09-06 | 深圳季连科技有限公司 | 一种基于车联网顾及安全的信息分享方法 |
CN115022363B (zh) * | 2022-05-30 | 2024-04-16 | 深圳季连科技有限公司 | 一种基于车联网顾及安全的信息分享方法 |
CN115994233A (zh) * | 2022-12-27 | 2023-04-21 | 安徽江淮汽车集团股份有限公司 | 基于驾驶模式与空闲时长的多媒体推荐方法 |
CN115994233B (zh) * | 2022-12-27 | 2023-09-12 | 安徽江淮汽车集团股份有限公司 | 基于驾驶模式与空闲时长的多媒体推荐方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110134821A (zh) | 一种针对行车拥堵的智能车载音频精准推送方法 | |
Badshah et al. | Deep features-based speech emotion recognition for smart affective services | |
CN110838286B (zh) | 一种模型训练的方法、语种识别的方法、装置及设备 | |
ES2800348T3 (es) | Método y sistema para verificación de orador | |
WO2020248376A1 (zh) | 情绪检测方法、装置、电子设备及存储介质 | |
CN109117777A (zh) | 生成信息的方法和装置 | |
DE112020002531T5 (de) | Emotionsdetektion unter verwendung der sprechergrundlinie | |
CN109190459A (zh) | 一种车主情绪识别及调节方法、存储介质及车载系统 | |
CN108269133A (zh) | 一种结合人体识别和语音识别的智能广告推送方法及终端 | |
CN110600054B (zh) | 基于网络模型融合的声场景分类方法 | |
WO2021169742A1 (zh) | 交通工具运行状态的预测方法、装置、终端及存储介质 | |
CN110674483B (zh) | 一种基于多模态信息的身份识别方法 | |
CN110211594B (zh) | 一种基于孪生网络模型和knn算法的说话人识别方法 | |
CN109243492A (zh) | 一种语音情感识别系统及识别方法 | |
CN113723292A (zh) | 司乘异常行为识别方法、装置、电子设备和介质 | |
Chen et al. | Mandarin emotion recognition combining acoustic and emotional point information | |
CN104463194A (zh) | 一种人车分类方法及装置 | |
WO2021115232A1 (zh) | 到站提醒方法、装置、终端及存储介质 | |
Waldekar et al. | Two-level fusion-based acoustic scene classification | |
Xue et al. | A context-aware framework for risky driving behavior evaluation based on trajectory data | |
Wang et al. | Audio event detection and classification using extended R-FCN approach | |
Hu et al. | MeDJ: multidimensional emotion-aware music delivery for adolescent | |
CN103035239A (zh) | 一种基于局部学习的说话人识别方法 | |
CN110428617A (zh) | 一种基于5g便携式智能终端及mec的交通对象识别方法 | |
Pham et al. | A method upon deep learning for speech emotion recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190816 |
|
RJ01 | Rejection of invention patent application after publication |