CN118173083A - 车辆语音交互功能的测试方法、系统、设备及介质 - Google Patents
车辆语音交互功能的测试方法、系统、设备及介质 Download PDFInfo
- Publication number
- CN118173083A CN118173083A CN202410272896.2A CN202410272896A CN118173083A CN 118173083 A CN118173083 A CN 118173083A CN 202410272896 A CN202410272896 A CN 202410272896A CN 118173083 A CN118173083 A CN 118173083A
- Authority
- CN
- China
- Prior art keywords
- vehicle
- audio
- data
- audio data
- feedback
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 78
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000012360 testing method Methods 0.000 title claims abstract description 40
- 230000002159 abnormal effect Effects 0.000 claims abstract description 11
- 230000006870 function Effects 0.000 claims description 116
- 238000012549 training Methods 0.000 claims description 47
- 238000001514 detection method Methods 0.000 claims description 33
- 238000012545 processing Methods 0.000 claims description 10
- 238000011161 development Methods 0.000 claims description 9
- 230000002452 interceptive effect Effects 0.000 claims description 8
- 230000009467 reduction Effects 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 6
- 238000010998 test method Methods 0.000 claims description 4
- 238000004806 packaging method and process Methods 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 abstract description 7
- 230000006872 improvement Effects 0.000 abstract description 6
- 238000005516 engineering process Methods 0.000 description 17
- 238000013473 artificial intelligence Methods 0.000 description 12
- 238000010801 machine learning Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000006467 substitution reaction Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 239000012141 concentrate Substances 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Abstract
本申请公开了一种车辆语音交互功能的测试方法、系统、设备及介质,通过采集包含人声数据的音频样本数据播放给待测车辆,检测车辆是否对音频数据进行了车机答复反馈。如果车辆有反馈,则获取反馈音频数据和答复前的目标音频数据,发送给复核人员进行误触发判定,根据判定结果确定车辆的语音交互功能是否存在异常。该方法能够高效、准确地实现对车辆语音交互功能的测试,检测出车辆的语音交互功能存在的误触发情况,能够便于生产厂商提前对车辆语音交互功能进行改进迭代,从而有利于提高车辆的性能和用户的使用体验。本申请可广泛应用于汽车技术领域内。
Description
技术领域
本申请涉及汽车技术领域,尤其是车辆语音交互功能的测试方法、系统、设备及介质。
背景技术
当前,随着信息技术的发展,各行各业涌现出了较多的应用。例如,在汽车领域,存在有语音交互功能的应用,汽车语音交互功能是一种通过语音识别、语音合成技术实现与汽车系统进行交互和控制的功能。用户可以通过说出指令或问题,让车载系统执行特定的操作或提供相关信息。该应用大大提升了驾驶的便利性和安全性,让驾驶者可以更专注于驾驶而无需分神操作车载系统。
相关技术中,车辆语音交互功能往往由研发配置的相关语音对话模型来实现,该语音对话模型在大量的语料中训练得到,用于对用户的指令或者问题进行语义理解,执行相关的操作或者反馈问题的答案。但是,在实际应用中发现,当前车辆内配置的语音对话模型,其精度偏低,用户的使用体验不好,而车辆的生产厂商往往只能依靠用户的体验反馈来了解这些问题,存在有滞后性,难以高效、及时地对车辆语音交互功能进行改进迭代。
综上,相关技术存在的问题亟需得到解决。
发明内容
本申请的目的在于至少一定程度上解决相关技术中存在的技术问题之一。
为此,本申请实施例的一个目的在于提供车辆语音交互功能的测试方法、系统、设备及介质。
为了达到上述技术目的,本申请实施例所采取的技术方案包括:
一方面,本申请实施例提供了车辆语音交互功能的测试方法,所述方法包括:
采集音频样本数据;所述音频样本数据中包括有人声数据;
在待测车辆内播放所述音频样本数据,检测所述待测车辆是否对所述音频样本数据进行了车机答复反馈;
若所述待测车辆对所述音频样本数据进行了车机答复反馈,获取所述待测车辆的反馈音频数据,以及从所述音频样本数据截取所述待测车辆进行车机答复反馈前的预定时长的目标音频数据;
将所述目标音频数据和所述反馈音频数据发送给复核人员,接收所述复核人员上传的误触发判定结果,根据所述误触发判定结果确定所述待测车辆的语音交互功能是否存在异常;其中,所述误触发判定结果用于表征所述反馈音频数据是否属于误触发的类型。
另外,根据本申请上述实施例的车辆语音交互功能的测试方法,还可以具有以下附加的技术特征:
进一步地,在本申请的一个实施例中,所述采集音频样本数据,包括:
批量采集原始视频数据;
对所述原始视频数据进行音频提取处理,得到原始音频数据;
对所述原始音频数据进行降噪处理,得到所述音频样本数据。
进一步地,在本申请的一个实施例中,所述方法还包括:
检测所述音频样本数据对应的场景类型;
根据所述场景类型,对所述音频样本数据进行分类存储,并记录每个场景类型的音频样本数据的播放时长。
进一步地,在本申请的一个实施例中,所述在待测车辆内播放所述音频样本数据,检测所述待测车辆是否对所述音频样本数据进行了车机答复反馈,包括:
采集所述待测车辆内的第一音频数据;
将所述第一音频数据输入到训练好的声音判别模型中,通过所述声音判别模型检测所述第一音频数据中是否包含所述待测车辆的反馈音频数据,得到第一检测结果;
若所述第一检测结果表征所述第一音频数据中包含所述待测车辆的反馈音频数据,确定待测车辆对所述音频样本数据进行了车机答复反馈;或者,若所述第一检测结果表征所述第一音频数据中不包含所述待测车辆的反馈音频数据,确定待测车辆未对所述音频样本数据进行车机答复反馈。
进一步地,在本申请的一个实施例中,所述声音判别模型通过以下步骤训练得到:
获取音频训练数据和标签信息;所述音频训练数据包括所述待测车辆输出的音频数据和非所述待测车辆输出的音频数据,所述标签信息用于表征所述音频训练数据是否是所述待测车辆输出的音频数据;
将所述音频训练数据输入到待训练的声音判别模型中,通过所述声音判别模型对所述音频训练数据是否是所述待测车辆输出的音频数据进行检测识别,得到第二检测结果;
根据所述第二检测结果和所述标签信息,确定训练的损失值;
根据所述损失值,对所述声音判别模型的参数进行更新,得到训练好的声音判别模型。
进一步地,在本申请的一个实施例中,所述根据所述损失值,对所述声音判别模型的参数进行更新,得到训练好的声音判别模型,包括:
获取预设的损失函数;所述损失函数采用0-1损失函数、平方损失函数、绝对损失函数、对数损失函数或者交叉熵损失函数;
根据所述第二检测结果和所述标签信息,基于所述损失函数确定训练的损失值。
进一步地,在本申请的一个实施例中,所述方法还包括:
对所述反馈音频数据和所述目标音频数据进行语音识别,得到对应的文本内容信息;
若所述误触发判定结果表征所述反馈音频数据属于误触发的类型,对所述目标音频数据、所述反馈音频数据和所述文本内容信息进行打包,得到负样本数据集;
将所述负样本数据集发送给所述待测车辆的语音交互功能的开发对象,以使得所述开发对象根据所述负样本数据集对所述待测车辆的语音交互功能进行优化。
另一方面,本申请实施例提供一种车辆语音交互功能的测试系统,所述系统包括:
采集单元,用于采集音频样本数据;所述音频样本数据中包括有人声数据;
播放单元,用于在待测车辆内播放所述音频样本数据,检测所述待测车辆是否对所述音频样本数据进行了车机答复反馈;
截取单元,用于若所述待测车辆对所述音频样本数据进行了车机答复反馈,获取所述待测车辆的反馈音频数据,以及从所述音频样本数据截取所述待测车辆进行车机答复反馈前的预定时长的目标音频数据;
判定单元,用于将所述目标音频数据和所述反馈音频数据发送给复核人员,接收所述复核人员上传的误触发判定结果,根据所述误触发判定结果确定所述待测车辆的语音交互功能是否存在异常;其中,所述误触发判定结果用于表征所述反馈音频数据是否属于误触发的类型。
另一方面,本申请实施例提供了一种电子设备,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行时,使得所述至少一个处理器实现上述的车辆语音交互功能的测试方法。
另一方面,本申请实施例还提供了一种计算机可读存储介质,其中存储有处理器可执行的程序,上述处理器可执行的程序在由处理器执行时用于实现上述的车辆语音交互功能的测试方法。
本申请的优点和有益效果将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到:
本申请实施例所公开的车辆语音交互功能的测试方法、系统、设备及介质,采集音频样本数据;所述音频样本数据中包括有人声数据;在待测车辆内播放所述音频样本数据,检测所述待测车辆是否对所述音频样本数据进行了车机答复反馈;若所述待测车辆对所述音频样本数据进行了车机答复反馈,获取所述待测车辆的反馈音频数据,以及从所述音频样本数据截取所述待测车辆进行车机答复反馈前的预定时长的目标音频数据;将所述目标音频数据和所述反馈音频数据发送给复核人员,接收所述复核人员上传的误触发判定结果,根据所述误触发判定结果确定所述待测车辆的语音交互功能是否存在异常;其中,所述误触发判定结果用于表征所述反馈音频数据是否属于误触发的类型。该方法能够高效、准确地实现对车辆语音交互功能的测试,检测出车辆的语音交互功能存在的误触发情况,能够便于生产厂商提前对车辆语音交互功能进行改进迭代,从而有利于提高车辆的性能和用户的使用体验。
附图说明
为了更清楚地说明本申请实施例或者现有技术中的技术方案,下面对本申请实施例或者现有技术中的相关技术方案附图作以下介绍,应当理解的是,下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例,对于本领域的技术人员来说,在无需付出创造性劳动的前提下,还可以根据这些附图获取到其他附图。
图1为本申请实施例中提供的一种车辆语音交互功能的测试方法的实施环境示意图;
图2为本申请实施例中提供的一种车辆语音交互功能的测试方法的流程示意图;
图3为本申请实施例中提供的一种电子设备的结构示意图。
具体实施方式
下面结合说明书附图和具体的实施例对本申请进行进一步的说明。所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
1)人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等。其中,预训练模型又称大模型、基础模型,经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
2)语音识别,一种通过计算机程序将语音信号转换为文本或命令的技术。通过语音识别技术,计算机可以理解人类的语音,并将其转换为文字形式或执行相应的操作。
3)机器学习,一种人工智能(AI)的分支领域,旨在让计算机系统具有通过数据学习和改进的能力,而无需明确地进行编程。简而言之,机器学习是让计算机从数据中学习并提升性能的一种方法。在机器学习中,计算机系统通过使用算法和数学模型对大量数据进行分析和学习,从而能够做出预测、识别模式、做出决策或执行特定任务。机器学习的主要目标是从数据中发现规律和模式,以便系统能够自动进行学习和改进。
当前,随着信息技术的发展,各行各业涌现出了较多的应用。例如,在汽车领域,存在有语音交互功能的应用,汽车语音交互功能是一种通过语音识别、语音合成技术实现与汽车系统进行交互和控制的功能。用户可以通过说出指令或问题,让车载系统执行特定的操作或提供相关信息。该应用大大提升了驾驶的便利性和安全性,让驾驶者可以更专注于驾驶而无需分神操作车载系统。
相关技术中,车辆语音交互功能往往由研发配置的相关语音对话模型来实现,该语音对话模型在大量的语料中训练得到,用于对用户的指令或者问题进行语义理解,执行相关的操作或者反馈问题的答案。但是,在实际应用中发现,当前车辆内配置的语音对话模型,其精度偏低,用户的使用体验不好,而车辆的生产厂商往往只能依靠用户的体验反馈来了解这些问题,存在有滞后性,难以高效、及时地对车辆语音交互功能进行改进迭代。
有鉴于此,本申请实施例中提供一种车辆语音交互功能的测试方法,该方法能够高效、准确地实现对车辆语音交互功能的测试,检测出车辆的语音交互功能存在的误触发情况,能够便于生产厂商提前对车辆语音交互功能进行改进迭代,从而有利于提高车辆的性能和用户的使用体验。
请参照图1,图1示出了本申请实施例中提供的一种车辆语音交互功能的测试方法的实施环境示意图。在该实施环境中,主要涉及的软硬件主体包括终端设备110、后台服务器120。终端设备110、后台服务器120之间通信连接。
具体地,本申请实施例中提供的车辆语音交互功能的测试方法,可以单独在终端设备110侧执行,也可以单独在后台服务器120侧执行,或者基于终端设备110和后台服务器120之间的数据交互来执行。
其中,以上实施例的终端设备110可以包括手机、电脑、智能穿戴设备、PDA设备、智能语音交互设备、智能家电、车载终端等,但并不局限于此。
后台服务器120可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。
终端设备110和后台服务器120之间可以通过无线网络或有线网络建立通信连接。该无线网络或有线网络使用标准通信技术和/或协议,网络可以设置为因特网,也可以是其它任何网络,例如包括但不限于局域网(Local Area Network,LAN)、城域网(MetropolitanArea Network,MAN)、广域网(Wide Area Network,WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。
当然,可以理解的是,图1中的实施环境只是本申请实施例中提供的车辆语音交互功能的测试方法一些可选的应用场景,实际的应用并不固定为图1所示出的软硬件环境。
下面,结合前述的实施环境的介绍,对本申请实施例中提供的一种车辆语音交互功能的测试方法进行介绍和说明。
请参照图2,图2是本申请实施例提供的一种车辆语音交互功能的测试方法的示意图,该车辆语音交互功能的测试方法包括但不限于:
步骤210、采集音频样本数据;所述音频样本数据中包括有人声数据;
本步骤中,在进行车辆语音交互功能的测试时,可以采集包含有人声数据的音频样本数据。具体地,在本申请实施例中,一般来说,车辆内语音交互功能的误触发,往往是由用户在车内播放的视频引起的,或者由用户之间的对话引起的。因此,本步骤中,可以从视频或者普通的人物对话场景中采集得到音频样本数据。当然,以上的场景仅用于示例性的说明,并不意味着对实际的音频样本数据的来源进行限制。
本步骤中,在进行音频样本数据采集时,首先确定采集的环境和场景,以确保采集到的数据能够代表真实的情况。可以选择在不同的地点和条件下进行采集,例如在车辆内、户外环境、静音环境等,以获取多样化的数据。在采集过程中,应尽可能使得采集到的音频数据具有足够的清晰度和质量,以确保后续对数据的分析和处理能够取得准确的结果。需要说明的是,在采集过程中,需要注意保护个人隐私信息,确保符合相关法律法规的规定。
在一些实施例中,所述采集音频样本数据,包括:
批量采集原始视频数据;
对所述原始视频数据进行音频提取处理,得到原始音频数据;
对所述原始音频数据进行降噪处理,得到所述音频样本数据。
本申请实施例中,可以从视频中采集得到音频样本数据。具体地,可以从各类视频源中批量采集原始视频数据,例如可以选择不同类型的视频、不同场景下的视频等。通过使用专业的视频采集设备或软件,可以同时采集多个视频文件,并确保视频文件的质量和完整性。接下来,可以对原始视频数据进行音频提取处理,这可以通过视频编辑软件或专门的音频提取工具来实现;在提取音频时,需要注意选择适当的音频提取参数,如音频格式、采样率等,以保证提取到的音频数据具有较高的质量和清晰度。
本申请实施例中,将提取得到的音频数据记为原始音频数据,并对原始音频数据进行降噪处理,从而去除可能存在的噪音和干扰,提升音频数据的质量和可听性。可以通过使用专业的音频处理软件或降噪工具来进行处理,根据实际情况选择合适的降噪算法和参数,以确保降噪效果达到最佳状态。
在一些实施例中,所述方法还包括:
检测所述音频样本数据对应的场景类型;
根据所述场景类型,对所述音频样本数据进行分类存储,并记录每个场景类型的音频样本数据的播放时长。
本申请实施例中,在得到音频样本数据后,可以检测音频样本数据对应的场景类型,例如可以包括有新闻类、言情类、古装类、武侠类、培训类、娱乐类等。然后,可以根据该场景类型,对音频样本数据进行分类存储,并且记录每个场景类型的音频样本数据的播放时长。这样,后续在使用时,可以结合具体的需求和测试时间要求,选择对应的音频样本数据来进行测试。
步骤220、在待测车辆内播放所述音频样本数据,检测所述待测车辆是否对所述音频样本数据进行了车机答复反馈;
本步骤中,可以在待测车辆内播放音频样本数据,然后,检测待测车辆是否对音频样本数据进行了车机答复反馈。具体地,例如可以通过手机或其他媒体设备在待测车辆内播放音频样本数据。然后,可以检测待测车辆是否给出了对应的反馈音频数据输出,如果存在有反馈音频数据输出,可以确定待测车辆对音频样本数据进行了车机答复反馈;反之,如果不存在有反馈音频数据输出,可以确定待测车辆没有对音频样本数据进行车机答复反馈。
步骤230、若所述待测车辆对所述音频样本数据进行了车机答复反馈,获取所述待测车辆的反馈音频数据,以及从所述音频样本数据截取所述待测车辆进行车机答复反馈前的预定时长的目标音频数据;
本步骤中,如果待测车辆对音频样本数据进行了车机答复反馈,那么可以获取待测车辆的反馈音频数据,并且,可以从音频样本数据截取待测车辆进行车机答复反馈前的预定时长的音频数据,本申请实施例中,将其记为目标音频数据。
具体地,本申请实施例中,可以在车机系统内设置记录每次输出的反馈音频数据。如果待测车辆对音频样本数据进行了车机答复反馈,可以从车机系统内获取其对应的反馈音频数据。并且,对于每个反馈音频数据,可以检测其开始输出的时间节点,然后从音频样本数据中截取待测车辆进行车机答复反馈前的预定时长的目标音频数据。示例性地,比如说某个反馈音频数据开始的输出时间节点为11点40分34秒,那么可以从11点40分34秒开始,向前取预定时长,假设预定时长是10秒,则可以截取11点40分24秒到11点40分34秒之间播放的音频样本数据作为目标音频数据。
可以理解的是,如果待测车辆对音频样本数据进行了车机答复反馈,那么说明音频样本数据中刚才播放的内容很有可能触发了待测车辆的语音交互功能,因此,本申请实施例中,可以选择截取待测车辆进行车机答复反馈前的预定时长的目标音频数据,该目标音频数据即为触发待测车辆的语音交互功能的数据。当然,本申请实施例中,对于预定时长的具体长短不作限制,其可以根据实际的需求灵活调整。
步骤240、将所述目标音频数据和所述反馈音频数据发送给复核人员,接收所述复核人员上传的误触发判定结果,根据所述误触发判定结果确定所述待测车辆的语音交互功能是否存在异常;其中,所述误触发判定结果用于表征所述反馈音频数据是否属于误触发的类型。
本申请实施例中,可以理解的是,由于目标音频数据并非是用户真实下达指令或者进行语音交互的数据,所以其对应的反馈音频数据很有可能是误触发的情况。但是,在一些特定场景下,可能视频中含有的目标音频数据,确实是特定触发词,例如可能视频内也在播放相关的车机交互语音。因此,本步骤中,在截取得到目标音频数据和反馈音频数据后,可以将它们打包发送给复核人员,由复核人员根据实际的车机交互经验对这一对交互的语料进行判别,从而确定出反馈音频数据是否属于误触发的类型,并接收复核人员上传的误触发判定结果,该结果可以是判定为属于误触发,或者判定为不属于误触发。
接着,可以根据误触发判定结果确定待测车辆的语音交互功能是否存在异常。具体地,在一些实施例中,当出现属于误触发的情况时,可以认为待测车辆的语音交互功能存在异常;在另一些实施例中,可以综合出现误触发的情况占测试样本的比例来确定,比如说当出现误触发的比例高于特定的阈值时,认为待测车辆的语音交互功能存在异常,本申请对此不作限制。
可以理解的是,本申请实施例中提供的车辆语音交互功能的测试方法,通过采集包含人声数据的音频样本数据播放给待测车辆,检测车辆是否对音频数据进行了车机答复反馈。如果车辆有反馈,则获取反馈音频数据和答复前的目标音频数据,发送给复核人员进行误触发判定,根据判定结果确定车辆的语音交互功能是否存在异常。这种方法可以有效检测车辆的语音交互功能是否正常工作,能够便于生产厂商提前对车辆语音交互功能进行改进迭代,从而有利于提高车辆的性能和用户的使用体验。
具体地,在一些实施例中,所述在待测车辆内播放所述音频样本数据,检测所述待测车辆是否对所述音频样本数据进行了车机答复反馈,包括:
采集所述待测车辆内的第一音频数据;
将所述第一音频数据输入到训练好的声音判别模型中,通过所述声音判别模型检测所述第一音频数据中是否包含所述待测车辆的反馈音频数据,得到第一检测结果;
若所述第一检测结果表征所述第一音频数据中包含所述待测车辆的反馈音频数据,确定待测车辆对所述音频样本数据进行了车机答复反馈;或者,若所述第一检测结果表征所述第一音频数据中不包含所述待测车辆的反馈音频数据,确定待测车辆未对所述音频样本数据进行车机答复反馈。
本申请实施例中,在检测待测车辆是否对音频样本数据进行了车机答复反馈时,在一些实施例中,可以使用训练好的声音判别模型来进行检测,将得到的检测结果记为第一检测结果,第一检测结果用于表征第一音频数据中是否包含待测车辆的反馈音频数据。该声音判别模型可以是分类模型,用于对音频数据是否为待测车辆输出的进行检测识别。在进行检测时,可以采集待测车辆内的第一音频数据,第一音频数据可能包括有音频样本数据和/或反馈音频数据。如果第一音频数据中不包括反馈音频数据,那么声音判别模型给出的检测结果为否,即输入的第一音频数据全部不是待测车辆输出的,此时,第一检测结果对应为第一音频数据中不包含所述待测车辆的反馈音频数据;相对地,如果第一音频数据中包括反馈音频数据,那么声音判别模型给出的检测结果为是,即输入的第一音频数据存在待测车辆输出的内容,此时,第一检测结果对应为第一音频数据中包含所述待测车辆的反馈音频数据。
可以理解的是,若第一检测结果表征第一音频数据中包含待测车辆的反馈音频数据,确定待测车辆对音频样本数据进行了车机答复反馈;反之,若第一检测结果表征第一音频数据中不包含待测车辆的反馈音频数据,确定待测车辆未对音频样本数据进行车机答复反馈。
在一些实施例中,所述声音判别模型通过以下步骤训练得到:
获取音频训练数据和标签信息;所述音频训练数据包括所述待测车辆输出的音频数据和非所述待测车辆输出的音频数据,所述标签信息用于表征所述音频训练数据是否是所述待测车辆输出的音频数据;
将所述音频训练数据输入到待训练的声音判别模型中,通过所述声音判别模型对所述音频训练数据是否是所述待测车辆输出的音频数据进行检测识别,得到第二检测结果;
根据所述第二检测结果和所述标签信息,确定训练的损失值;
根据所述损失值,对所述声音判别模型的参数进行更新,得到训练好的声音判别模型。
本申请实施例中,声音判别模型在投入使用前,需要经过训练来调整其内部的参数,以改善其预测的精度。具体地,声音判别模型可以在多个音频训练数据上训练得到,在训练声音判别模型时,可以获取一个训练数据集,在训练数据集中,包括有批量的音频训练数据和这些音频训练数据对应的标签信息,这些音频训练数据包括待测车辆输出的音频数据和非待测车辆输出的音频数据。标签信息可以用于表征音频训练数据是否是待测车辆输出的音频数据的真实结果,其具体的数据结构可以包括数字、向量、矩阵或者张量中的至少一种,本申请对此不作限制。
本申请实施例中,可以将音频训练数据输入到待训练的声音判别模型中,通过声音判别模型来预测音频训练数据对应的类别,得到一个预测结果,记为第二检测结果,第二检测结果用于表征音频训练数据是否是待测车辆输出的音频数据。第二检测结果的数据格式可以参照标签信息来实现,本申请在此不作赘述。接着,可以基于第二检测结果和标签信息,确定声音判别模型分类预测的准确度。具体地,可以确定第二检测结果和标签信息之间的偏差,得到声音判别模型分类预测的损失值,然后可以根据损失值的大小评估声音判别模型的预测准确度,以对声音判别模型进行反向传播训练,更新其内部的相关参数。
具体地,对于机器学习模型来说,它预测的准确度可以通过损失函数(LossFunction)来衡量,损失函数是定义在单个训练数据上的,用于衡量一个训练数据的预测误差,具体是通过单个训练数据的标签和模型对该训练数据的预测结果确定该训练数据的损失值。而实际训练时,一个训练数据集有很多训练数据,因此一般采用代价函数(CostFunction)来衡量训练数据集的整体误差,代价函数是定义在整个训练数据集上的,用于计算所有训练数据的预测误差的平均值,能够更好地衡量出模型的预测效果。对于一般的机器学习模型来说,基于前述的代价函数,再加上衡量模型复杂度的正则项即可作为训练的目标函数,基于该目标函数便能求出整个训练数据集的损失值。常用的损失函数种类有很多,例如0-1损失函数、平方损失函数、绝对损失函数、对数损失函数、交叉熵损失函数等均可以作为机器学习模型的损失函数,在此不再一一阐述。本申请实施例中,可以任选一种损失函数来确定损失值,对待优化的声音判别模型进行参数更新,当损失值小于设定的指标值,或者达到更新迭代次数时,可以认为训练完成,得到训练好的声音判别模型。
在一些实施例中,所述方法还包括:
对所述反馈音频数据和所述目标音频数据进行语音识别,得到对应的文本内容信息;
若所述误触发判定结果表征所述反馈音频数据属于误触发的类型,对所述目标音频数据、所述反馈音频数据和所述文本内容信息进行打包,得到负样本数据集;
将所述负样本数据集发送给所述待测车辆的语音交互功能的开发对象,以使得所述开发对象根据所述负样本数据集对所述待测车辆的语音交互功能进行优化。
本申请实施例中,还可以对反馈音频数据和目标音频数据进行语音识别,得到对应的文本内容信息。如果反馈的误触发判定结果表征反馈音频数据属于误触发的类型,可以对目标音频数据、反馈音频数据和文本内容信息进行打包,得到负样本数据集。可以理解的是,本申请实施例中,收集的负样本数据集为车辆容易出现误识别的音频数据,其可以提供给待测车辆的语音交互功能的开发对象,使其对待测车辆的语音交互功能进行优化。比如说,可以提供给负责待测车辆的语音交互功能的AI厂商,从而方便对误触发的音频数据进行针对性的改进优化,提高语音交互功能的准确性和可靠性。
本申请实施例中还提供一种车辆语音交互功能的测试系统,包括:
采集单元,用于采集音频样本数据;所述音频样本数据中包括有人声数据;
播放单元,用于在待测车辆内播放所述音频样本数据,检测所述待测车辆是否对所述音频样本数据进行了车机答复反馈;
截取单元,用于若所述待测车辆对所述音频样本数据进行了车机答复反馈,获取所述待测车辆的反馈音频数据,以及从所述音频样本数据截取所述待测车辆进行车机答复反馈前的预定时长的目标音频数据;
判定单元,用于将所述目标音频数据和所述反馈音频数据发送给复核人员,接收所述复核人员上传的误触发判定结果,根据所述误触发判定结果确定所述待测车辆的语音交互功能是否存在异常;其中,所述误触发判定结果用于表征所述反馈音频数据是否属于误触发的类型。
可以理解的是,上述方法实施例中的内容均适用于本系统实施例中,本系统实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
参照图3,本申请实施例提供了一种电子设备,包括:
至少一个处理器310;
至少一个存储器320,用于存储至少一个程序;
当至少一个程序被至少一个处理器310执行时,使得至少一个处理器310实现上述的车辆语音交互功能的测试方法。
同理,上述方法实施例中的内容均适用于本电子设备实施例中,本电子设备实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
本申请实施例还提供了一种计算机可读存储介质,其中存储有处理器310可执行的程序,处理器310可执行的程序在由处理器310执行时用于执行上述的车辆语音交互功能的测试方法。
同理,上述方法实施例中的内容均适用于本计算机可读存储介质实施例中,本计算机可读存储介质实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或方框有时能以相反顺序被执行。此外,在本申请的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
此外,虽然在功能性模块的背景下描述了本申请,但应当理解的是,除非另有相反说明,功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本申请是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本申请。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本申请的范围,本申请的范围由所附权利要求书及其等同方案的全部范围来决定。
功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的上述描述中,参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。
尽管已经示出和描述了本申请的实施方式,本领域的普通技术人员可以理解:在不脱离本申请的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型,本申请的范围由权利要求及其等同物限定。
以上是对本申请的较佳实施进行了具体说明,但本申请并不限于实施例,熟悉本领域的技术人员在不违背本申请精神的前提下可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
Claims (10)
1.一种车辆语音交互功能的测试方法,其特征在于,所述方法包括:
采集音频样本数据;所述音频样本数据中包括有人声数据;
在待测车辆内播放所述音频样本数据,检测所述待测车辆是否对所述音频样本数据进行了车机答复反馈;
若所述待测车辆对所述音频样本数据进行了车机答复反馈,获取所述待测车辆的反馈音频数据,以及从所述音频样本数据截取所述待测车辆进行车机答复反馈前的预定时长的目标音频数据;
将所述目标音频数据和所述反馈音频数据发送给复核人员,接收所述复核人员上传的误触发判定结果,根据所述误触发判定结果确定所述待测车辆的语音交互功能是否存在异常;其中,所述误触发判定结果用于表征所述反馈音频数据是否属于误触发的类型。
2.根据权利要求1所述的一种车辆语音交互功能的测试方法,其特征在于,所述采集音频样本数据,包括:
批量采集原始视频数据;
对所述原始视频数据进行音频提取处理,得到原始音频数据;
对所述原始音频数据进行降噪处理,得到所述音频样本数据。
3.根据权利要求2所述的一种车辆语音交互功能的测试方法,其特征在于,所述方法还包括:
检测所述音频样本数据对应的场景类型;
根据所述场景类型,对所述音频样本数据进行分类存储,并记录每个场景类型的音频样本数据的播放时长。
4.根据权利要求1所述的一种车辆语音交互功能的测试方法,其特征在于,所述在待测车辆内播放所述音频样本数据,检测所述待测车辆是否对所述音频样本数据进行了车机答复反馈,包括:
采集所述待测车辆内的第一音频数据;
将所述第一音频数据输入到训练好的声音判别模型中,通过所述声音判别模型检测所述第一音频数据中是否包含所述待测车辆的反馈音频数据,得到第一检测结果;
若所述第一检测结果表征所述第一音频数据中包含所述待测车辆的反馈音频数据,确定待测车辆对所述音频样本数据进行了车机答复反馈;或者,若所述第一检测结果表征所述第一音频数据中不包含所述待测车辆的反馈音频数据,确定待测车辆未对所述音频样本数据进行车机答复反馈。
5.根据权利要求4所述的一种车辆语音交互功能的测试方法,其特征在于,所述声音判别模型通过以下步骤训练得到:
获取音频训练数据和标签信息;所述音频训练数据包括所述待测车辆输出的音频数据和非所述待测车辆输出的音频数据,所述标签信息用于表征所述音频训练数据是否是所述待测车辆输出的音频数据;
将所述音频训练数据输入到待训练的声音判别模型中,通过所述声音判别模型对所述音频训练数据是否是所述待测车辆输出的音频数据进行检测识别,得到第二检测结果;
根据所述第二检测结果和所述标签信息,确定训练的损失值;
根据所述损失值,对所述声音判别模型的参数进行更新,得到训练好的声音判别模型。
6.根据权利要求5所述的一种车辆语音交互功能的测试方法,其特征在于,所述根据所述损失值,对所述声音判别模型的参数进行更新,得到训练好的声音判别模型,包括:
获取预设的损失函数;所述损失函数采用0-1损失函数、平方损失函数、绝对损失函数、对数损失函数或者交叉熵损失函数;
根据所述第二检测结果和所述标签信息,基于所述损失函数确定训练的损失值。
7.根据权利要求1-6中任一项所述的一种车辆语音交互功能的测试方法,其特征在于,所述方法还包括:
对所述反馈音频数据和所述目标音频数据进行语音识别,得到对应的文本内容信息;
若所述误触发判定结果表征所述反馈音频数据属于误触发的类型,对所述目标音频数据、所述反馈音频数据和所述文本内容信息进行打包,得到负样本数据集;
将所述负样本数据集发送给所述待测车辆的语音交互功能的开发对象,以使得所述开发对象根据所述负样本数据集对所述待测车辆的语音交互功能进行优化。
8.一种车辆语音交互功能的测试系统,其特征在于,所述系统包括:
采集单元,用于采集音频样本数据;所述音频样本数据中包括有人声数据;
播放单元,用于在待测车辆内播放所述音频样本数据,检测所述待测车辆是否对所述音频样本数据进行了车机答复反馈;
截取单元,用于若所述待测车辆对所述音频样本数据进行了车机答复反馈,获取所述待测车辆的反馈音频数据,以及从所述音频样本数据截取所述待测车辆进行车机答复反馈前的预定时长的目标音频数据;
判定单元,用于将所述目标音频数据和所述反馈音频数据发送给复核人员,接收所述复核人员上传的误触发判定结果,根据所述误触发判定结果确定所述待测车辆的语音交互功能是否存在异常;其中,所述误触发判定结果用于表征所述反馈音频数据是否属于误触发的类型。
9.一种电子设备,其特征在于,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如权利要求1-7中任一项所述的一种车辆语音交互功能的测试方法。
10.一种计算机可读存储介质,其中存储有处理器可执行的程序,其特征在于,所述处理器可执行的程序在由处理器执行时用于实现如权利要求1-7中任一项所述的一种车辆语音交互功能的测试方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410272896.2A CN118173083A (zh) | 2024-03-11 | 2024-03-11 | 车辆语音交互功能的测试方法、系统、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410272896.2A CN118173083A (zh) | 2024-03-11 | 2024-03-11 | 车辆语音交互功能的测试方法、系统、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118173083A true CN118173083A (zh) | 2024-06-11 |
Family
ID=91359743
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410272896.2A Pending CN118173083A (zh) | 2024-03-11 | 2024-03-11 | 车辆语音交互功能的测试方法、系统、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118173083A (zh) |
-
2024
- 2024-03-11 CN CN202410272896.2A patent/CN118173083A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112785016B (zh) | 基于机器学习的新能源汽车保养维护与故障监测诊断方法 | |
CN110021308B (zh) | 语音情绪识别方法、装置、计算机设备和存储介质 | |
CN110147726A (zh) | 业务质检方法和装置、存储介质及电子装置 | |
CN106710599A (zh) | 一种基于深度神经网络的特定声源检测方法与系统 | |
CN110047512B (zh) | 一种环境声音分类方法、系统及相关装置 | |
CN111881707B (zh) | 图像翻拍检测方法、身份验证方法、模型训练方法及装置 | |
CN110363220B (zh) | 行为类别检测方法、装置、电子设备和计算机可读介质 | |
CN117079299B (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN112786029B (zh) | 使用弱监督数据训练vad的方法及装置 | |
Schlotterbeck et al. | What classroom audio tells about teaching: a cost-effective approach for detection of teaching practices using spectral audio features | |
CN111915111A (zh) | 在线课堂的互动质量评价方法、装置及终端设备 | |
CN117409419A (zh) | 图像检测方法、设备及存储介质 | |
CN117523218A (zh) | 标签生成、图像分类模型的训练、图像分类方法及装置 | |
Pandeya et al. | Sound event detection in cowshed using synthetic data and convolutional neural network | |
CN114285587B (zh) | 域名鉴别方法和装置、域名分类模型的获取方法和装置 | |
CN116822633B (zh) | 基于自我认知的模型推理方法、装置及电子设备 | |
CN113889077A (zh) | 声音识别方法、装置、电子设备及存储介质 | |
CN111488950B (zh) | 分类模型信息输出方法及装置 | |
CN118173083A (zh) | 车辆语音交互功能的测试方法、系统、设备及介质 | |
CN117275522A (zh) | 语音交互方法、装置、设备、存储介质及车辆 | |
CN109492124A (zh) | 选择性注意线索指导的不良主播检测方法、装置及电子设备 | |
CN114974302A (zh) | 环境声音事件检测方法、装置和介质 | |
CN114822557A (zh) | 课堂中不同声音的区分方法、装置、设备以及存储介质 | |
CN114360586A (zh) | 一种大学生心理健康教育示教系统和方法 | |
CN114639390A (zh) | 一种语音噪声分析方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |