CN116612761A - 车辆旅程相册生成方法、装置、设备及可读存储介质 - Google Patents
车辆旅程相册生成方法、装置、设备及可读存储介质 Download PDFInfo
- Publication number
- CN116612761A CN116612761A CN202310358647.0A CN202310358647A CN116612761A CN 116612761 A CN116612761 A CN 116612761A CN 202310358647 A CN202310358647 A CN 202310358647A CN 116612761 A CN116612761 A CN 116612761A
- Authority
- CN
- China
- Prior art keywords
- album
- vehicle
- journey
- recording
- accumulated value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 230000008451 emotion Effects 0.000 claims abstract description 69
- 239000000463 material Substances 0.000 claims abstract description 16
- 239000012634 fragment Substances 0.000 claims abstract description 15
- 238000001514 detection method Methods 0.000 claims description 52
- 230000005236 sound signal Effects 0.000 claims description 39
- 230000007613 environmental effect Effects 0.000 claims description 9
- 230000008569 process Effects 0.000 description 8
- 230000001186 cumulative effect Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000001755 vocal effect Effects 0.000 description 3
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 206010042496 Sunburn Diseases 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/14—Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/18—Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
- H04N7/181—Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast for receiving images from a plurality of remote sources
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Child & Adolescent Psychology (AREA)
- Game Theory and Decision Science (AREA)
- Artificial Intelligence (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
Abstract
本发明提供一种车辆旅程相册生成方法、装置、设备及可读存储介质,车辆旅程相册生成方法包括:获取车内录音未经检测的录音片段;检测录音片段中是否存在由用户发出的表征正面情绪的特征人声,若存在,则累计值加一,若不存在,则累计值不变,累计值的初始值为零;检测累计值是否大于或等于预设阈值;若累计值小于预设阈值,则返回执行获取车内录音未经检测的录音片段的步骤;若累计值大于或等于预设阈值,则生成旅程相册。本发明通过对车内录音进行检测,判断用户在车辆行程中的情感特征,在累计值大于或等于预设阈值时,判断用户具有生成旅程相册的需求且具备足够素材,进而生成旅程相册,该旅程相册能更好地满足用户需求,更能引起情感共鸣。
Description
技术领域
本发明涉及智能车辆技术领域,尤其涉及一种车辆旅程相册生成方法、装置、设备及可读存储介质。
背景技术
随着车辆技术的发展,对智能车辆的研究越来越多,目前对智能车辆的研究主要致力于提高汽车的安全性、舒适性,以及提供优良的人车交互界面,而对于车辆旅程相册的研究较少。相关技术中,车辆旅程相册生成方法主要强调录音、照片等素材的收集,缺乏对于用户需求的判断,导致生成的旅程相册不符合用户需求,无法引起情感共鸣。
发明内容
本发明的主要目的在于提供一种车辆旅程相册生成方法、装置、设备及可读存储介质,旨在解决现有技术中车辆旅程相册生成方法缺乏对于用户需求的判断,生成的旅程相册不符合用户需求、无法引起情感共鸣的技术问题。
第一方面,本发明提供一种车辆旅程相册生成方法,所述车辆旅程相册生成方法包括:
获取车内录音未经检测的录音片段;
检测所述录音片段中是否存在由用户发出的表征正面情绪的特征人声,若存在,则累计值加一,若不存在,则所述累计值不变,所述累计值的初始值为零;
检测所述累计值是否大于或等于预设阈值;
若所述累计值小于所述预设阈值,则返回执行所述获取车内录音未经检测的录音片段的步骤;
若所述累计值大于或等于所述预设阈值,则生成旅程相册。
可选地,所述检测所述录音片段中是否存在由用户发出的表征正面情绪的特征人声的步骤包括:
获取所述录音片段对应的录制时长内的车机音频信号;
根据所述录音片段及其对应的所述车机音频信号,检测所述录音片段中是否存在由用户发出的表征正面情绪的特征人声。
可选地,所述根据所述录音片段及其对应的所述车机音频信号,检测所述录音片段中是否存在由用户发出的表征正面情绪的特征人声的步骤包括:
检测所述车机音频信号中是否存在表征正面情绪的人声;
若所述车机音频信号中不存在所述表征正面情绪的人声,则检测所述录音片段中是否存在所述表征正面情绪的人声;
若所述录音片段中存在所述表征正面情绪的人声,则确定所述录音片段中存在由用户发出的表征正面情绪的特征人声。
可选地,所述特征人声包括歌声;
在所述若所述累计值大于或等于所述预设阈值,则生成旅程相册的步骤之后还包括:
将所述歌声对应的歌曲作为旅程相册的背景音乐。
可选地,在所述根据所述录音片段及其对应的所述车机音频信号,检测所述录音片段中是否存在由用户发出的表征正面情绪的特征人声的步骤之后还包括:
若所述录音片段中存在所述特征人声,则将所述录音片段对应的录制时长内拍摄到的车内照片和/或车外照片标记为特征照片;
在生成旅程相册时,优先选用所述特征照片。
可选地,所述车辆旅程相册生成方法还包括:
对车内录音进行语义识别,以获取相册生成命令;
若获取到所述相册生成命令,则生成旅程相册。
可选地,所述车辆旅程相册生成方法还包括:
对车内照片进行笑脸检测,以获取笑脸照片,并将所述笑脸照片储存于旅程相册的素材库中;和/或
对车外照片进行图像识别,以获取预设主题的环境照片,并将所述环境照片储存于旅程相册的素材库中。
第二方面,本发明还提供一种车辆旅程相册生成装置,所述车辆旅程相册生成装置包括:
录音片段获取模块,用于获取车内录音未经检测的录音片段;
特征人声检测模块,用于检测所述录音片段中是否存在由用户发出的表征正面情绪的特征人声,若存在,则累计值加一,若不存在,则所述累计值不变,所述累计值的初始值为零;
阈值检测模块,用于检测所述累计值是否大于或等于预设阈值;
回调模块,用于若所述累计值小于所述预设阈值,则返回执行所述获取车内录音未经检测的录音片段的步骤;
旅程相册生成模块,用于若所述累计值大于或等于所述预设阈值,则生成旅程相册。
第三方面,本发明还提供一种车辆旅程相册生成设备,其特征在于,所述车辆旅程相册生成设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的车辆旅程相册生成程序,其中所述车辆旅程相册生成程序被所述处理器执行时,实现上述车辆旅程相册生成方法的步骤。
第四方面,本发明还提供一种可读存储介质,所述可读存储介质上存储有车辆旅程相册生成程序,其中所述车辆旅程相册生成程序被处理器执行时,实现上述车辆旅程相册生成方法的步骤。
本发明中,获取车内录音未经检测的录音片段;检测录音片段中是否存在由用户发出的表征正面情绪的特征人声,若存在,则累计值加一,若不存在,则累计值不变,累计值的初始值为零;检测累计值是否大于或等于预设阈值;若累计值小于预设阈值,则返回执行获取车内录音未经检测的录音片段的步骤;若累计值大于或等于预设阈值,则生成旅程相册。本发明通过对车内录音进行检测,判断用户在车辆行程中的情感特征,在累计值大于或等于预设阈值时,判断用户具有生成旅程相册的需求且具备足够素材,进而生成旅程相册,该旅程相册能更好地满足用户需求,更能引起情感共鸣。
附图说明
图1为本发明一实施例中车辆旅程相册生成方法的流程示意图;
图2为本发明一实施例中车辆中采集装置的连接示意图;
图3为本发明一实施例中笑声检测的流程示意图;
图4为本发明一实施例中歌声检测的流程示意图;
图5为本发明一实施例中车辆旅程相册生成设备的硬件结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
第一方面,本发明实施例提供了一种车辆旅程相册生成方法。
图1示出了本发明一实施例中车辆旅程相册生成方法的流程示意图。
参照图1,一实施例中,车辆旅程相册生成方法包括如下步骤:
S11、获取车内录音未经检测的录音片段;
本实施例中,车内录音为车辆行程中采集的车辆内部的录音,录音内容中包含车内用户的声音数据,通过对车内录音进行检测,能够判断用户在车辆行程中的情感特征。需要说明的是,录音采集动作在车辆行程中实时进行,获取到的车内录音的时长取决于车辆行程的时长,而用于后续步骤中进行单次检测的对象为从车内录音中抽取的一段预设时长的录音片段。示例地,预设时长可设置为1s、2s等。
图2示出了本发明一实施例中车辆中采集装置的连接示意图。
参照图2,一实施例中,车辆中的采集装置包括麦克风M1至M4,其中,M1、M2分别为主驾、副驾麦克风,M3、M4分别为后排左右两侧麦克风。如此,能够提高数据收集的全面性,使每个座位的驾乘人员的声音均能采集到。麦克风M1至M4采集的数据通过数据线传输至车辆ECU(Electronic ControlUnit,电子控制器单元),再由车辆ECU传输至车机,供本实施例的方法使用。
S12、检测录音片段中是否存在由用户发出的表征正面情绪的特征人声,若存在,则累计值加一,若不存在,则累计值不变,累计值的初始值为零;
本实施例中,若录音片段中存在由用户发出的表征正面情绪的特征人声(例如,笑声、歌声等),则说明在该录音片段对应的录制时长内,用户的情感特征呈现正面情绪,用户可能具有生成旅程相册的倾向,且与此同时,可能采集到了引起用户正面情绪的素材。故本步骤中,若检测到存在上述特征人声,则累计值加一,便于后续通过累计值判断用户在包含了已检测的所有录音片段的时段内的情感特征。
S13、检测累计值是否大于或等于预设阈值;
本实施例中,通过将累计值与预设阈值进行比较,判断用户在包含了已检测的所有录音片段的时段内的情感特征。预设阈值可根据需求进行设置,本发明对此不作限定。
S14、若累计值小于预设阈值,则返回执行获取车内录音未经检测的录音片段的步骤;
本实施例中,累计值小于预设阈值可能存在两种情况:一种情况是已检测的录音片段数量不足,因此,在车内录音还存在未经检测的录音片段的前提下,若累计值小于预设阈值,则返回执行步骤S11,继续对下一段录音片段进行检测。另一种情况是,将车内录音的所有录音片段均检测完毕后,累计值仍小于预设阈值,则说明在车内录音对应的车辆行程中,用户的情绪不高,这种情况下本实施例做出不生成旅程相册的判断。步骤S14所描述的是上述的第一种情况。
S15、若累计值大于或等于预设阈值,则生成旅程相册。
本实施例中,累计值大于或等于预设阈值时,说明用户在包含了已检测的所有录音片段的时段内呈现正面情绪,具有生成旅程相册的需求,且车辆中的采集装置也采集到了足够的素材,即,具备了生成旅程相册的主观条件和客观条件,故本实施例做出生成旅程相册的判断。
需要说明的是,做出是否生成旅程相册的判断并不一定需要检测车内录音中的所有录音片段。例如,一实施例中,在车辆行程中,按照时序依次获取并检测车内录音未经检测的录音片段,在累计值等于预设阈值时即做出生成旅程相册的判断。作为一种可选的实施方式,在做出生成旅程相册的判断后,可利用已获取的素材即时生成对应的旅程相册,并将累计值恢复为初始值零,继续按照时序检测并判断。作为另一种可选的实施方式,在做出生成旅程相册的判断且车辆行程结束后(即车辆停机后),再生成旅行相册,进一步保证素材充足。
由此,本实施例中,获取车内录音未经检测的录音片段;检测录音片段中是否存在由用户发出的表征正面情绪的特征人声,若存在,则累计值加一,若不存在,则累计值不变,累计值的初始值为零;检测累计值是否大于或等于预设阈值;若累计值小于预设阈值,则返回执行获取车内录音未经检测的录音片段的步骤;若累计值大于或等于预设阈值,则生成旅程相册。本实施例通过对车内录音进行检测,判断用户在车辆行程中的情感特征,在累计值大于或等于预设阈值时,判断用户具有生成旅程相册的需求且具备足够素材,进而生成旅程相册,该旅程相册能更好地满足用户需求,更能引起情感共鸣。
一实施例中,检测录音片段中是否存在由用户发出的表征正面情绪的特征人声的步骤包括:
获取录音片段对应的录制时长内的车机音频信号;
根据录音片段及其对应的车机音频信号,检测录音片段中是否存在由用户发出的表征正面情绪的特征人声。
本实施例中,考虑到车机在播放音视频文件时,车机播放出的声音会与用户声音一起被录入车内录音,因此,在对一段录音片段进行检测时,需要判断该录音片段对应的录制时长内车机是否播放音视频文件,若录制时长内车机没有播放音视频文件,则直接检测录音片段,若录制时长内车机播放了音视频文件,则需要排除车机音频信号对用户声音信号的干扰,以提高检测结果的准确性。
一实施例中,根据录音片段及其对应的车机音频信号,检测录音片段中是否存在由用户发出的表征正面情绪的特征人声的步骤包括:
检测车机音频信号中是否存在表征正面情绪的人声;
若车机音频信号中不存在表征正面情绪的人声,则检测录音片段中是否存在表征正面情绪的人声;
若录音片段中存在表征正面情绪的人声,则确定录音片段中存在由用户发出的表征正面情绪的特征人声。
本实施例中,首先检测车机音频信号中是否存在表征正面情绪的人声,例如,通过笑声检测模型检测是否有笑声,通过歌声检测模型检测是否有歌声。在车机音频信号中不存在表征正面情绪的人声的情况下,才继续检测录音片段,在检测到录音片段中存在表征正面情绪的人声时,可确定该声音由用户发出,可以计入累加值。若车机音频信号中存在表征正面情绪的人声,则返回执行步骤S11,获取下一段录音片段进行检测。如此,排除了车机音频信号对特征人声检测存在严重干扰的情况,提高了检测结果的准确性。
排除车机音频信号对用户声音信号的干扰的方式不限于上述方式。例如,由于录音片段中包含用户声音信号和车机音频信号,结合获取到的车机音频信号的原始数据,利用声波反相干涉相消来消除噪声的方法,从录音片段中消去大部分车机音频信号,再对降噪后的录音片段进行检测。又例如,预先录入用户的声纹,在对录音片段进行检测的过程中加入声纹判断。
图3示出了本发明一实施例中笑声检测的流程示意图。
参照图3,一实施例中,特征人声包括笑声,笑声对应的累加值为笑声次数。笑声检测的总流程如下:判断是否存在未经检测的录音片段,若存在,则获取一段未经检测的录音片段,若不存在,则结束整个笑声检测流程。获取到录音片段后,判断录制时长内车机是否播放音频。若车机播放音频,则对车机音频信号进行笑声检测,若车机音频信号中不存在笑声,则继续对录音片段进行笑声检测。若车机未播放音频,则直接对录音片段进行笑声检测。对录音片段进行笑声检测后,若录音片段中存在笑声,则笑声次数加一,并判断笑声次数是否等于预设阈值,若等于,则笑声检测结果赋值为1并结束整个笑声检测流程。在上述判断中,若车机音频信号中存在笑声、若录音片段中不存在笑声、若笑声次数不等于预设阈值,均返回执行判断是否存在未经检测的录音片段的步骤,尝试取出下一段录音片段继续进行笑声检测。本实施例中,在笑声检测结果的值为1时,做出生成旅程相册的判断。
具体地,对一段音频(录音片段或车机音频信号)进行笑声检测的步骤如下:
步骤1、对音频数据进行语音端点检测。语音端点检测检测的目的是识别语音信号的起始时刻和终止时刻,剔除无效的背景噪声信号。
步骤2、对步骤1中得到的信号进行预处理。预处理过程包括预加重,分帧,加窗。预加重的目的是提升高频部分,使信号的频谱变得平坦,以便于进行频谱分析及声道参数分析。分帧的目的是保证语音信号分析有足够高的时间分辨率。加窗(施加窗函数)的目的是减少频谱泄露。
步骤3、获取步骤2中所得数据的MFCC参数。
步骤4、将步骤3中的MFCC参数输入到预先训练完成的笑声检测模型中,判定a中的数据是否有笑声。
图4示出了本发明一实施例中歌声检测的流程示意图。
参照图4,一实施例中,特征人声包括歌声,歌声对应的累加值为歌声次数。歌声检测的总流程可参考笑声检测的总流程,在此不多赘述。本实施例中,在歌声检测结果的值为1时,做出生成旅程相册的判断。
具体地,对一段音频(录音片段或车机音频信号)进行歌声检测的步骤可参考笑声检测的步骤,不同的是,歌声检测的步骤4中采用的是歌声检测模型,与笑声检测模型相比,预先训练完成的检测模型的参数不同,训练样本也不相同,因而,通过预先训练完成的检测模型,笑声和歌声是能区分的。
一实施例中,特征人声包括笑声和歌声,作为一种可选的实施方式,分别对笑声和歌声采用两种累计值,其对应的录音片段的预设时长以及累计值的预设阈值可根据需要设置相同或不同的值,各自的检测流程参考图3和图4,在歌声检测结果和笑声检测结果其中至少一者的值为1时,做出生成旅程相册的判断。作为另一种可选的实施方式,对笑声和歌声采用一种累计值,即累计值的增加既可能是录音片段中存在歌声也可能是录音片段中存在笑声,在该累计值大于或等于预设阈值时,做出生成旅程相册的判断。
一实施例中,特征人声包括歌声,在步骤S15之后还包括:
将歌声对应的歌曲作为旅程相册的背景音乐。
本实施例中,根据检测出的歌声识别出所唱歌曲的信息(如歌名、演唱者等),并将识别出的歌曲信息所对应的歌曲作为旅程相册的背景音乐,从而进一步地引起情感共鸣。具体到图4所示的实施例中,若歌声检测结果的值为1,则将歌声对应的歌曲作为旅程相册的背景音乐;若歌声检测结果的值为0,则从预设背景音乐集中选取一首作为旅程相册的背景音乐。
一实施例中,车辆旅程相册生成方法还包括:
对车内录音进行语义识别,以获取相册生成命令;
若获取到相册生成命令,则生成旅程相册。
本实施例中,相册生成命令可以是隐式形式或者显式形式的。示例地,隐式形式的相册生成命令可以包含“今天天气不错”、“今晚的月亮好圆啊”、“天好蓝啊”、“景色好美啊”等预设关键词(关键句)。显式形式的关键词可以包含“制作旅程相册”、“做一个相册”等预设关键词(关键句)。
可选地,为提高语义识别的准确性,可利用前文提到的方式排除车机音频信号对用户声音信号的干扰。例如,利用声波反相干涉相消来消除噪声的方法,从车内录音中消去大部分车机音频信号,再对降噪后的车内录音进行语义识别。又例如,预先录入用户的声纹,在对车内录音进行语义识别的过程中加入声纹判断。
一实施例中,车辆旅程相册生成方法还包括:
对车内照片进行笑脸检测,以获取笑脸照片,并将笑脸照片储存于旅程相册的素材库中。
本实施例中,车内照片为车辆行程中采集的车辆内部的照片,照片内容中包含车内用户的图像数据,其中,笑脸照片记录了用户在旅程中的正面情绪。在生成旅程相册时采用获取到的笑脸照片,能够进一步地引起情感共鸣。
参照图2,一实施例中,车辆中的采集装置还包括车内摄像头C1至C5,其中,C1、C2分别为主驾、副驾摄像头,C3、C4分别为后排左右两侧摄像头,其可以安装于主驾、副驾座椅后方,C5为前排中央摄像头,是用于拍摄车内前后排全景的广角摄像头。如此,能够提高数据收集的全面性,使每个座位的驾乘人员的图像均能采集到。车内摄像头C1至C5采集的数据通过数据线传输至车辆ECU,再由车辆ECU传输至车机,供本实施例的方法使用。
一实施例中,车辆旅程相册生成方法还包括:
对车外照片进行图像识别,以获取预设主题的环境照片,并将环境照片储存于旅程相册的素材库中。
本实施例中,车外照片为车辆行程中采集的车辆外部的照片,照片内容中包含车外的环境图像。预设主题包括蓝天、白云、旭日、夕阳、皓月、林荫小道、鲜花、绿树、红叶、草原、雨景、大海、海滩、山川、河流、湖泊等自然环境,或高楼、夜景、桥梁、灯光、广告屏等都市环境,用户也可按照喜好添加主题。
参照图2,一实施例中,车辆中的采集装置还包括车外摄像头C6,C6为多目摄像头(多个摄像头集成在一起,便于拍摄不同角度的照片),安装于车外顶棚钣金上。车外摄像头C6采集的数据通过数据线传输至车辆ECU,再由车辆ECU传输至车机,供本实施例的方法使用。
一实施例中,在检测录音片段中是否存在由用户发出的表征正面情绪的特征人声的步骤之后还包括:
若录音片段中存在特征人声,则将录音片段对应的录制时长内拍摄到的车内照片和/或车外照片标记为特征照片;
在生成旅程相册时,优先选用特征照片。
本实施例中,将用户呈现正面情绪时拍摄的照片标记为特征照片,例如,特征照片可能为展现用户正面情绪的笑脸照片或者是引起用户正面情绪的环境照片。在生成旅程相册时,优先选用上述特征照片,能更好地满足用户需求,更能引起情感共鸣。
第二方面,本发明实施例还提供一种车辆旅程相册生成装置。
一实施例中,车辆旅程相册生成装置包括:
录音片段获取模块,用于获取车内录音未经检测的录音片段;
特征人声检测模块,用于检测录音片段中是否存在由用户发出的表征正面情绪的特征人声,若存在,则累计值加一,若不存在,则累计值不变,累计值的初始值为零;
阈值检测模块,用于检测累计值是否大于或等于预设阈值;
回调模块,用于若累计值小于预设阈值,则返回执行获取车内录音未经检测的录音片段的步骤;
旅程相册生成模块,用于若累计值大于或等于预设阈值,则生成旅程相册。
进一步地,一实施例中,特征人声检测模块用于:
获取所述录音片段对应的录制时长内的车机音频信号;
根据所述录音片段及其对应的所述车机音频信号,检测所述录音片段中是否存在由用户发出的表征正面情绪的特征人声。
进一步地,一实施例中,特征人声检测模块用于:
检测所述车机音频信号中是否存在表征正面情绪的人声;
若所述车机音频信号中不存在所述表征正面情绪的人声,则检测所述录音片段中是否存在所述表征正面情绪的人声;
若所述录音片段中存在所述表征正面情绪的人声,则确定所述录音片段中存在由用户发出的表征正面情绪的特征人声。
进一步地,一实施例中,特征人声包括歌声,车辆旅程相册生成装置还包括配乐模块,用于:
将歌声对应的歌曲作为旅程相册的背景音乐。
进一步地,一实施例中,车辆旅程相册生成装置还包括特征照片标记模块,用于:
若录音片段中存在特征人声,则将录音片段对应的录制时长内拍摄到的车内照片和/或车外照片标记为特征照片;
在生成旅程相册时,优先选用所述特征照片。
进一步地,一实施例中,车辆旅程相册生成装置还包括语义识别模块,用于:
对车内录音进行语义识别,以获取相册生成命令;
若获取到相册生成命令,则生成旅程相册。
进一步地,一实施例中,车辆旅程相册生成装置还包括笑脸检测模块,用于:
对车内照片进行笑脸检测,以获取笑脸照片,并将所述笑脸照片储存于旅程相册的素材库中。
进一步地,一实施例中,车辆旅程相册生成装置还包括图像识别模块,用于:
对车外照片进行图像识别,以获取预设主题的环境照片,并将所述环境照片储存于旅程相册的素材库中。
其中,上述车辆旅程相册生成装置中各个模块的功能实现与上述车辆旅程相册生成方法实施例中各步骤相对应,其功能和实现过程在此处不再一一赘述。
第三方面,本发明实施例提供一种车辆旅程相册生成设备,该车辆旅程相册生成设备可以是个人计算机(personalcomputer,PC)、笔记本电脑、服务器等具有数据处理功能的设备。
图5为本发明一实施例中车辆旅程相册生成设备的硬件结构示意图。
参照图5,本发明实施例中,车辆旅程相册生成设备可以包括处理器1001(例如中央处理器CentralProcessingUnit,CPU),通信总线1002,用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信;用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard);网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真WIreless-FIdelity,WI-FI接口);存储器1005可以是高速随机存取存储器(randomaccessmemory,RAM),也可以是稳定的存储器(non-volatilememory),例如磁盘存储器,存储器1005可选的还可以是独立于前述处理器1001的存储装置。本领域技术人员可以理解,图5中示出的硬件结构并不构成对本发明的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
继续参照图5,图5中作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及车辆旅程相册生成程序。其中,处理器1001可以调用存储器1005中存储的车辆旅程相册生成程序,并执行本发明实施例提供的车辆旅程相册生成方法。
第四方面,本发明实施例还提供一种可读存储介质。
本发明可读存储介质上存储有车辆旅程相册生成程序,其中所述车辆旅程相册生成程序被处理器执行时,实现如上述的车辆旅程相册生成方法的步骤。
其中,车辆旅程相册生成程序被执行时所实现的方法可参照本发明车辆旅程相册生成方法的各个实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种车辆旅程相册生成方法,其特征在于,所述车辆旅程相册生成方法包括:
获取车内录音未经检测的录音片段;
检测所述录音片段中是否存在由用户发出的表征正面情绪的特征人声,若存在,则累计值加一,若不存在,则所述累计值不变,所述累计值的初始值为零;
检测所述累计值是否大于或等于预设阈值;
若所述累计值小于所述预设阈值,则返回执行所述获取车内录音未经检测的录音片段的步骤;
若所述累计值大于或等于所述预设阈值,则生成旅程相册。
2.如权利要求1所述的车辆旅程相册生成方法,其特征在于,所述检测所述录音片段中是否存在由用户发出的表征正面情绪的特征人声的步骤包括:
获取所述录音片段对应的录制时长内的车机音频信号;
根据所述录音片段及其对应的所述车机音频信号,检测所述录音片段中是否存在由用户发出的表征正面情绪的特征人声。
3.如权利要求2所述的车辆旅程相册生成方法,其特征在于,所述根据所述录音片段及其对应的所述车机音频信号,检测所述录音片段中是否存在由用户发出的表征正面情绪的特征人声的步骤包括:
检测所述车机音频信号中是否存在表征正面情绪的人声;
若所述车机音频信号中不存在所述表征正面情绪的人声,则检测所述录音片段中是否存在所述表征正面情绪的人声;
若所述录音片段中存在所述表征正面情绪的人声,则确定所述录音片段中存在由用户发出的表征正面情绪的特征人声。
4.如权利要求1所述的车辆旅程相册生成方法,其特征在于,所述特征人声包括歌声;
在所述若所述累计值大于或等于所述预设阈值,则生成旅程相册的步骤之后还包括:
将所述歌声对应的歌曲作为旅程相册的背景音乐。
5.如权利要求1所述的车辆旅程相册生成方法,其特征在于,在所述根据所述录音片段及其对应的所述车机音频信号,检测所述录音片段中是否存在由用户发出的表征正面情绪的特征人声的步骤之后还包括:
若所述录音片段中存在所述特征人声,则将所述录音片段对应的录制时长内拍摄到的车内照片和/或车外照片标记为特征照片;
在生成旅程相册时,优先选用所述特征照片。
6.如权利要求1至5任一项所述的车辆旅程相册生成方法,其特征在于,所述车辆旅程相册生成方法还包括:
对车内录音进行语义识别,以获取相册生成命令;
若获取到所述相册生成命令,则生成旅程相册。
7.如权利要求1至5任一项所述的车辆旅程相册生成方法,其特征在于,所述车辆旅程相册生成方法还包括:
对车内照片进行笑脸检测,以获取笑脸照片,并将所述笑脸照片储存于旅程相册的素材库中;和/或
对车外照片进行图像识别,以获取预设主题的环境照片,并将所述环境照片储存于旅程相册的素材库中。
8.一种车辆旅程相册生成装置,其特征在于,所述车辆旅程相册生成装置包括:
录音片段获取模块,用于获取车内录音未经检测的录音片段;
特征人声检测模块,用于检测所述录音片段中是否存在由用户发出的表征正面情绪的特征人声,若存在,则累计值加一,若不存在,则所述累计值不变,所述累计值的初始值为零;
阈值检测模块,用于检测所述累计值是否大于或等于预设阈值;
回调模块,用于若所述累计值小于所述预设阈值,则返回执行所述获取车内录音未经检测的录音片段的步骤;
旅程相册生成模块,用于若所述累计值大于或等于所述预设阈值,则生成旅程相册。
9.一种车辆旅程相册生成设备,其特征在于,所述车辆旅程相册生成设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的车辆旅程相册生成程序,其中所述车辆旅程相册生成程序被所述处理器执行时,实现如权利要求1至7中任一项所述的车辆旅程相册生成方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有车辆旅程相册生成程序,其中所述车辆旅程相册生成程序被处理器执行时,实现如权利要求1至7中任一项所述的车辆旅程相册生成方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310358647.0A CN116612761A (zh) | 2023-04-06 | 2023-04-06 | 车辆旅程相册生成方法、装置、设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310358647.0A CN116612761A (zh) | 2023-04-06 | 2023-04-06 | 车辆旅程相册生成方法、装置、设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116612761A true CN116612761A (zh) | 2023-08-18 |
Family
ID=87678872
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310358647.0A Pending CN116612761A (zh) | 2023-04-06 | 2023-04-06 | 车辆旅程相册生成方法、装置、设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116612761A (zh) |
-
2023
- 2023-04-06 CN CN202310358647.0A patent/CN116612761A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110709924B (zh) | 视听语音分离 | |
CN107274916B (zh) | 基于声纹信息对音频/视频文件进行操作的方法及装置 | |
CN112397065A (zh) | 语音交互方法、装置、计算机可读存储介质及电子设备 | |
CN110113540A (zh) | 一种车辆拍摄方法、装置、车辆和可读介质 | |
CN112017650B (zh) | 电子设备的语音控制方法、装置、计算机设备和存储介质 | |
DE102014118450A1 (de) | Audiobasiertes System und Verfahren zur Klassifikation von fahrzeuginternem Kontext | |
US9058384B2 (en) | System and method for identification of highly-variable vocalizations | |
DE112018007847T5 (de) | Informationsverarbeitungsvorrichtung, informationsverarbeitungsverfahren und programm | |
CN109922290A (zh) | 用于车辆的音视频合成方法、装置、系统、设备及车辆 | |
CN115312068A (zh) | 语音控制方法、设备及存储介质 | |
CN113643704A (zh) | 车机语音系统的测试方法、上位机、系统和存储介质 | |
DE112017008305T5 (de) | Spracherkennungsvorrichtung, Spracherkennungssystem und Spracherkennungsverfahren | |
CN115079989A (zh) | 车辆及其控制方法 | |
US8712211B2 (en) | Image reproduction system and image reproduction processing program | |
Nor et al. | Driver identification and driver's emotion verification using KDE and MLP neural networks | |
CN116612761A (zh) | 车辆旅程相册生成方法、装置、设备及可读存储介质 | |
CN110297617B (zh) | 一种主动对话的发起方法和装置 | |
CN114630472A (zh) | 灯光控制方法及设备 | |
CN112927721A (zh) | 人车互动方法、系统以及车辆和计算机可读存储介质 | |
CN113771703B (zh) | 一种汽车副驾驶座位调节方法及系统 | |
CN111429882A (zh) | 播放语音的方法、装置及电子设备 | |
CN114584839A (zh) | 拍摄车载视频的剪辑方法、装置、电子设备及存储介质 | |
CN111866382A (zh) | 用于采集图像的方法、电子设备及计算机可读存储介质 | |
KR20220053498A (ko) | 기계 학습 모델을 이용하여 복수의 신호 성분을 포함하는 오디오 신호 처리 장치 | |
CN113506578A (zh) | 一种语音与图像的匹配方法、装置、存储介质及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |