CN115731945A

CN115731945A - 异常声音确定装置、异常声音确定方法以及异常声音确定程序

Info

Publication number: CN115731945A
Application number: CN202211050347.8A
Authority: CN
Inventors: 植田裕
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2021-08-30
Filing date: 2022-08-30
Publication date: 2023-03-03
Also published as: US12019951B2; JP2023033848A; US20230067447A1

Abstract

本发明涉及异常声音确定装置、异常声音确定方法以及异常声音确定程序。使用人工智能精度良好地确定异常声音。一种异常声音确定装置，具有运算装置。所述运算装置执行如下步骤：确定由车辆录音的声音的频率‑时间数据；将所确定的所述频率‑时间数据输入到所述学习完毕模型，使所述学习完毕模型确定所述声音所包含的异常声音的种类，使所述学习完毕模型确定依据范围，该依据范围表示确定所述异常声音的种类所使用的频率范围和时间范围；在所确定的所述频率‑时间数据中指定表示频率范围和时间范围的指定范围；在包含所述依据范围和所述指定范围是否重叠作为判定要素的至少1个的判定处理中，判定是否使所述输出装置输出所述异常声音的种类。

Description

异常声音确定装置、异常声音确定方法以及异常声音确定程序

技术领域

本说明书所公开的技术涉及异常声音确定装置、异常声音确定方法以及异常声音确定程序。

背景技术

在日本特开2017-110919号公报中公开了一种根据由图像形成装置录音的声音确定异常声音的技术。在该技术中，将由图像形成装置录音的声音变换为表示频谱的时间变化的频率-时间数据。进而，对频率-时间数据在时间轴方向上进行快速傅里叶变换。用户基于快速傅里叶变换的分析结果和过去产生的异常声音的数据库，确定异常声音的种类(例如，异常声音的产生源)。

发明内容

发明要解决的问题

如上所述，在日本特开2017-110919号公报中，用户(即，人)确定异常声音的种类。相对于此，本申请发明人们实施了使人工智能根据由车辆录音的声音确定异常声音的实验。在实验中，存在实际未产生的异常声音被人工智能确定的情况。在本说明书中，提出了使用人工智能精度良好地确定异常声音的技术。

用于解决问题的方案

本说明书公开的异常声音确定装置具有能够访问人工智能的学习完毕模型的运算装置以及输出装置。所述运算装置执行如下步骤：确定表示由车辆录音的声音的频谱的时间变化的频率-时间数据；将所确定的所述频率-时间数据输入到所述学习完毕模型，使所述学习完毕模型基于所输入的所述频率-时间数据确定所述声音所包含的异常声音的种类，使所述学习完毕模型在所输入的所述频率-时间数据中确定依据范围，该依据范围表示确定所述异常声音的种类所使用的频率范围和时间范围；在所确定的所述频率-时间数据中指定表示频率范围和时间范围的指定范围；以及在包含所述依据范围和所述指定范围是否重叠作为判定要素的至少1个的判定处理中，判定是否使所述输出装置输出所述异常声音的种类。

需要说明的是，上述“确定表示由车辆录音的声音的频谱的时间变化的频率-时间数据的步骤”既可以是运算装置基于由车辆录音的声音计算频率-时间数据的步骤，也可以是由外部设备计算的频率-时间数据输入到运算装置的步骤。

另外，上述“学习完毕模型”只要能够由运算装置访问，就可以位于任何位置。例如，学习完毕模型既可以保存于异常声音确定装置的内部的存储装置内，也可以保存于能够由运算装置访问的网络上的存储装置内。

另外，上述“指定范围”的指定既可以根据来自用户的输入来实施，也可以根据预定的算法由运算装置自主地实施。

在该异常声音确定装置中，运算装置若确定频率-时间数据，则将所确定的频率-时间数据输入到学习完毕模型。于是，学习完毕模型基于频率-时间数据确定声音所包含的异常声音的种类。在该阶段中，学习完毕模型所确定的异常声音的种类的精度不那么高。即，学习完毕模型有可能确定实际上未产生的异常声音的种类。另外，学习完毕模型在频率-时间数据中确定表示确定异常声音的种类所使用的频率范围和时间范围的依据范围。另外，运算装置若确定学习完毕模型，则在所确定的频率-时间数据中指定表示频率范围和时间范围的指定范围。指定范围的指定通过来自用户的操作、预定的算法等来实施。作为指定范围，能够指定与异常声音相当的频率范围和时间范围。像这样，与学习完毕模型确定的依据范围分开地对指定范围进行指定。运算装置在依据范围和指定范围确定时，在包含依据范围和指定范围是否重叠作为判定要素的至少1个的判定处理中，判定是否使输出装置输出学习完毕模型所确定的异常声音的种类。在依据范围与指定范围重叠的情况下，由学习完毕模型确定的异常声音的种类正确的可能性较高，在依据范围与指定范围不重叠的情况下，由学习完毕模型确定的异常声音的种类不正确的可能性较高。因而，通过在包含依据范围和指定范围是否重叠作为判定要素的至少1个的判定处理中，判定是否使输出装置输出异常声音的种类，能够抑制错误的异常声音的种类被输出装置输出。根据该异常声音确定装置，能够以更高的精度确定由车辆录音的声音所包含的异常声音的种类。

附图说明

图1是异常声音确定装置10的框图。

图2是录音装置42的说明图。

图3是表示异常声音确定方法的流程图。

图4是表示STFT数据54的图。

图5是表示依据范围60的图。

图6是表示确定轮廓的依据范围60的图。

图7是表示选择指定范围64的画面的图。

图8是表示基于依据范围60和指定范围64的判定处理的流程图。

图9是表示依据范围60与指定范围64的位置关系的图。

图10是表示依据范围60与指定范围64的位置关系的图。

图11是表示依据范围60与指定范围64的位置关系的图。

图12是表示依据范围60与指定范围64的位置关系的图。

图13是表示异常声音的确定结果的显示画面的图。

图14是表示变形例的判定处理的流程图。

图15是表示变形例的判定处理的流程图。

具体实施方式

在本说明书公开的一例的异常声音确定装置中，也可以是所述运算装置在所述依据范围和所述指定范围重叠时，使所述输出装置输出所述异常声音的种类。

在本说明书公开的一例的异常声音确定装置中，也可以是所述运算装置在所述依据范围和所述指定范围不重叠时，不使所述输出装置输出所述异常声音的种类。

本说明书公开的一例的异常声音确定装置也可以还具有输入装置。在该情况下，所述运算装置也可以根据来自使用了所述输入装置的用户的输入指定所述指定范围。

根据该结构，能够将用户判断为异常声音的范围指定为指定范围。因而，通过判定用户判断为产生了异常声音的指定范围与学习完毕模型所确定的依据范围是否重叠，能够精度良好地判定由学习完毕模型确定的异常声音的种类是否正确。

本说明书公开的一例的异常声音确定装置也可以还具有扬声器。在该情况下，所述运算装置也可以还执行如下步骤：在所述指定范围被指定之后且判定所述依据范围和所述指定范围是否重叠之前，使所述扬声器发出所述指定范围内的声音。

根据该结构，用户能够在指定了指定范围时听到该指定范围内的音。因而，用户判断是否能够正确地对指定范围进行指定，在未能正确地指定的情况下，能够再次对指定范围进行指定。

在本说明书公开的一例的异常声音确定装置中，也可以是所述运算装置还执行计算确定了所述依据范围的轮廓的轮廓确定依据范围的步骤。在该情况下，所述运算装置也可以在所述判定处理中，判定所述轮廓确定依据范围和所述指定范围是否重叠。

学习完毕模型确定的依据范围的轮廓有时模糊。在该情况下，运算装置计算确定了依据范围的轮廓的轮廓确定依据范围，由此能够明确地判定轮廓确定依据范围和指定范围是否重叠。

在本说明书公开的一例的异常声音确定装置中，也可以是所述学习完毕模型由卷积网络构成。

在本说明书公开的一例的异常声音确定装置中，也可以是所述学习完毕模型使用梯度加权类激活映射确定所述依据范围。

[实施例]

图1所示的异常声音确定装置10根据由车辆录音的声音确定异常声音。异常声音确定装置10由所谓的计算机构成。异常声音确定装置10具有运算装置12、存储装置16、监视器18、扬声器20、输入装置22以及网络接口24等。运算装置12由CPU(central processingunit，中央处理器)、存储器等构成。运算装置12与存储装置16、监视器18、扬声器20、输入装置22以及网络接口24连接。存储装置16由硬盘驱动器、固态驱动器等构成。存储装置16存储有异常声音确定程序50。运算装置12执行异常声音确定程序50。输入装置22由鼠标、键盘等构成。通过用户操作输入装置22，而向运算装置12输入信号。运算装置12控制监视器18和扬声器20。另外，运算装置12经由网络接口24与网络线路30连接。网络线路30既可以是互联网，也可以是内联网。在网络线路30连接有存储装置32等。存储装置16和存储装置32中的至少一者存储有学习完毕模型52。无论在存储装置16和存储装置32中的哪一者存储有学习完毕模型52的情况下，运算装置12都能够访问学习完毕模型52。学习完毕模型52是人工智能，由卷积网络(CNN：convolutional neural network，卷积神经网络)构成。学习完毕模型52是以根据频率-时间数据(表示声音的频率分布的时间变化的数据)确定异常声音的方式被实施了学习的模型。在本实施例中，作为频率-时间数据，使用短时傅里叶变换数据(以下，称为STFT(short-time fourier transform，短时傅里叶变换)数据)。若向学习完毕模型52输入STFT数据，则学习完毕模型52基于STFT数据确定该声音所包含的异常声音的种类。另外，学习完毕模型52具有梯度加权类激活映射(Grad-CAM：gradient-weighted classactivation mapping，梯度加权类激活映射)这样的功能。学习完毕模型52在基于STFT数据确定异常声音的种类时，使用Grad-CAM从STFT数据中确定成为异常声音的种类的确定的依据的频率范围和时间范围。

存储装置16能够存储声音数据56。声音数据56由图2所示的录音装置42生成。录音装置42搭载于车辆40。录音装置42记录在车辆40的行驶过程中由车辆40产生的声音。录音装置42既可以在车厢内录音，也可以在车厢外(例如，发动机室内等)录音。录音装置42将所记录的声音作为声音数据56保存于便携式存储装置。声音数据56是表示声音的振动(即，空气的振动)的波形的数据。在声音数据56中包含车辆的路面噪声、发动机噪声、部件(例如，交流发电机、水泵、涡轮、VSV(vacuum switching valve，真空开关阀)等)的工作音等。另外，在由于某种理由而在车辆40产生了异常声音的情况下，异常声音也包含于声音数据56。通过将便携式存储装置连接到异常声音确定装置10，能够将声音数据56输入到异常声音确定装置10。另外，也能够经由网络线路30向异常声音确定装置10输入声音数据56。如图1所示，输入到异常声音确定装置10的声音数据56保存于存储装置16。

接下来，对异常声音确定装置10执行的异常声音确定方法进行说明。异常声音确定装置10通过执行异常声音确定程序50，而执行图3所示的异常声音确定方法。在用户利用输入装置22进行预定操作时，运算装置12开始异常声音确定程序50(即，图3的异常声音确定方法)。

在步骤S2中，运算装置12通过在监视器18上显示窗口等，指示用户选择声音数据56。用户能够利用输入装置22从存储于存储装置16的声音数据56中选择任意的声音数据56。

在步骤S4中，运算装置12对在步骤S2中选择的声音数据56实施短时傅里叶变换。由此，运算装置12计算图4所示的STFT数据54。STFT数据54的纵轴表示声音的频率，STFT数据54的横轴表示时间。另外，STFT数据54中的各像素的颜色表示声压级(dB)。即，STFT数据54是表示声音的频谱的时间变化的数据。运算装置12计算STFT数据54作为图像数据。

在步骤S6中，运算装置12将在步骤S4中计算出的STFT数据54输入到学习完毕模型52。于是，学习完毕模型52从被输入的STFT数据54提取特征，基于所提取的特征确定STFT数据54所包含的异常声音(更详细而言，STFT数据54表示的声音中包含的异常声音)。即，学习完毕模型52在确定异常声音的同时，确定该异常声音的种类。学习完毕模型52确定异常声音A、异常声音B等作为异常声音的种类。在更具体化的例子中，学习完毕模型52确定交流发电机异常声音、水泵异常声音、涡轮异常声音、VSV异常声音等作为异常声音。即，异常声音的种类表示异常声音的产生源。另外，学习完毕模型52在确定异常声音的种类的同时，通过Grad-CAM来确定作为异常声音的种类的确定的依据的频率范围和时间范围即依据范围。即，学习完毕模型52对STFT数据54的各像素设定重要度，以重要度高的像素对输出结果(即，所确定的异常声音的种类)影响更大的方式确定异常声音的种类。依据范围是STFT数据54中的重要度高的像素的集合。例如，针对图4所示的STFT数据54，如图5所示确定依据范围60。各像素的重要度不同，因此依据范围60的轮廓模糊。需要说明的是，在步骤S6中，学习完毕模型52有时确定多个异常声音的种类。在该情况下，也确定多个依据范围60。

在步骤S8中，运算装置12将对STFT数据54的各像素设定的重要度以预定的阈值为基准进行二值化。由此，运算装置12如图6所示那样明确地确定依据范围60的轮廓。在步骤S8以后，运算装置12将确定了轮廓的依据范围用作依据范围60。

在步骤S10中，如图7所示，运算装置12将STFT数据54显示于监视器18。用户通过操作输入装置22，能够在显示于监视器18的STFT数据54上选择频率范围和时间范围。在以下，将在步骤S10中选择的范围称为指定范围64。例如，如图7所示，选择指定范围64。在步骤S10中，用户能够在STFT数据54内选择被认为相当于异常声音的范围作为指定范围64。用户能够在视觉辨认STFT数据54的同时基于自身的经验选择指定范围64。另外，如图7所示，在STFT数据54的旁边显示有重放按钮90和确定按钮92。若在选择了指定范围64的状态下按下重放按钮90，则运算装置12通过扬声器20重放指定范围64内的声音。因而，用户通过听到指定范围64内的声音，能够判断在指定范围64内是否包含异常声音。由此，能够容易地选择被认为相当于异常声音的范围作为指定范围64。用户能够在选择了指定范围64的状态下按下确定按钮92。若按下确定按钮92，则运算装置12确定所选择的指定范围64，向下一个步骤转移。像这样，在步骤S10中，用户判断为相当于异常声音的范围被指定为指定范围64。需要说明的是，在步骤S10中，也能够将多个范围指定为指定范围64。

在步骤S12中，实施基于在步骤S6中确定的依据范围60和在步骤S10中指定的指定范围64的判定处理。然后，根据判定处理在监视器18上显示异常声音的种类。图8表示步骤S12的详细情况。如图8所示，在步骤S12中，运算装置12执行步骤S20～28。

在步骤S20中，运算装置12从在步骤S6中由学习完毕模型52确定的异常声音(即，异常声音的种类)中选择1个异常声音。若在步骤S6中确定的异常声音是1个，则选择该异常声音。

在步骤S22中，运算装置12判定与所选择的异常声音相对应的依据范围60是否与指定范围64重叠。

例如，如图9所示，在所选择的异常声音的依据范围60与指定范围64重叠的情况下，运算装置12在步骤S22中判定为YES。

另外，如图10所示，在所选择的异常声音的依据范围60与指定范围64不重叠的情况下，运算装置12在步骤S22中判定为NO。

另外，图11表示存在多个依据范围60a、60b的情况。在该情况下，若所选择的异常声音的依据范围60是依据范围60a，则依据范围60a与指定范围64重叠，因此运算装置12在步骤S22中判定为YES。另外，若所选择的异常声音的依据范围60是依据范围60b，则由于依据范围60b与指定范围64不重叠，因此运算装置12在步骤S22中判定为NO。

另外，图12表示存在多个指定范围64a、64b的情况。在该情况下，若所选择的异常声音的依据范围60与指定范围64a、64b中的任一者重叠，则运算装置12在步骤S22中判定为YES。另外，若所选择的异常声音的依据范围60与指定范围64a、64b均不重叠，则运算装置12在步骤S22中判定为NO。

若在步骤S22中判定为YES，则运算装置12执行步骤S24。在步骤S24中，运算装置12将在步骤S20中选择的异常声音的种类显示于监视器18。例如，在所选择的异常声音是异常声音A的情况下，在步骤S24中，如图13所示，在监视器18上显示“检测到异常声音A。”。另一方面，若在步骤S22中判定为NO，则运算装置12执行步骤S26。在步骤S26中，运算装置12不将在步骤S20中选择的异常声音的种类显示于监视器18。

在步骤S28中，运算装置12判定针对由学习完毕模型52确定的所有异常声音的处理是否完成。当在步骤S28中为NO的情况下，再次执行步骤S20。在该情况下，在步骤S20中，选择处理未完成的异常声音。因而，重复步骤S20～S28，直到针对所有异常声音的处理完成。因而，在由学习完毕模型52确定出多个异常声音的情况下，仅将在步骤S22中判定为YES的异常声音显示在监视器18上。另外，在不存在在步骤S22中判定为YES的异常声音的情况下，在监视器18上显示“未能检测到异常声音。”。若针对由学习完毕模型52确定的所有异常声音的处理完成，则运算装置12结束异常声音判定处理。

如以上说明的那样，运算装置12在选择中的异常声音的依据范围60和由用户指定的指定范围64重叠的情况下，将选择中的异常声音的种类显示于监视器18，在选择中的异常声音的依据范围60与由用户指定的指定范围64不重叠的情况下，不将选择中的异常声音的种类显示于监视器18。因而，由学习完毕模型52确定的异常声音中与用户所识别的异常声音一致的异常声音显示于监视器18，由学习完毕模型52确定的异常声音中用户未识别出的异常声音不显示于监视器18。因而，用户能够通过监视器18确认自身识别为异常声音的异常声音的种类。

根据实施例的异常声音确定装置10，能够从由学习完毕模型52确定的异常声音中仅选择用户识别为异常声音的异常声音并将该异常声音的种类显示于监视器18。因而，能够精度良好地确定在车辆40中实际产生的异常声音的种类。

另外，实施例的异常声音确定装置10能够在用户选择了指定范围64之后重放指定范围64内的声音。因而，用户能够容易地将与异常声音相当的范围确定为指定范围64。

另外，对于实施例的异常声音特性装置而言，由于由运算装置12确定学习完毕模型52确定出的依据范围60的轮廓，因此能够准确地判定依据范围60与指定范围64是否重叠。

需要说明的是，在图8中，当在步骤S22中判定为依据范围60与指定范围64重叠的情况下，在步骤S24中将所选择的异常声音显示于监视器18。然而，如图14所示，也可以在步骤S22与步骤S24之间存在进行其他判定的步骤S23。在图14中，即使在依据范围60与指定范围64重叠的情况下，在所选择的异常声音不满足基准条件1的情况(即，在步骤S23中为NO的情况)下，所选择的异常声音也不显示于监视器18。像这样，即使当在步骤S22中判定为YES的情况下，也可以存在所选择的异常声音不显示于监视器18的情况。

另外，在图8中，当在步骤S22中判定为依据范围60与指定范围64不重叠的情况下，在步骤S26中不将所选择的异常声音显示于监视器18。然而，如图15所示，也可以在步骤S22与步骤S26之间存在进行其他判定的步骤S25。在图15中，即使在依据范围60与指定范围64不重叠的情况下，在所选择的异常声音满足基准条件2的情况(即，在步骤S25中为YES的情况)下，也将所选择的异常声音显示于监视器18。像这样，即使当在步骤S22中判定为NO的情况下，也可以存在所选择的异常声音显示于监视器18的情况。另外，也可以组合图14和图15。

另外，在上述实施例中，运算装置12使监视器18显示异常声音的种类。然而，运算装置12也可以使其他设备输出异常声音的种类。例如，也可以经由网络线路30使其他设备输出异常声音的种类。

另外，在上述实施例中，STFT数据54是图像数据。即，学习完毕模型52基于作为图像数据的STFT数据54确定了异常声音的种类和依据范围。然而，STFT数据54的数据形式并不限定于图像数据。例如，STFT数据54也可以是按时间和频率表示声压级的数值的数据。

另外，在上述实施例中，通过用户的操作指定了指定范围64。然而，运算装置12也可以按照预定的算法对指定范围64进行指定。例如，也可以自动地将声压级高的范围指定为指定范围64。在这样的结构中，也能够使用由不同的算法确定的依据范围60和指定范围64来选择最终输出的异常声音的种类，因此能够精度良好地确定异常声音的种类。

以上，对实施方式详细地进行了说明，但这些只不过是例示，并不限定权利要求书。在权利要求书所记载的技术中，包含对以上例示的具体例进行各种变形、变更而得到的技术。本说明书或者附图所说明的技术要素单独或者通过各种组合发挥技术有用性，并不限定于申请时权利要求所记载的组合。另外，本说明书或者附图所例示的技术同时实现多个目的，实现其中的1个目的本身就具有技术有用性。

Claims

1.一种异常声音确定装置，其中，

该异常声音确定装置具有：

运算装置，能够访问人工智能的学习完毕模型；以及

输出装置，

所述运算装置执行如下步骤：

确定表示由车辆录音的声音的频谱的时间变化的频率-时间数据；

将所确定的所述频率-时间数据输入到所述学习完毕模型，使所述学习完毕模型基于所输入的所述频率-时间数据确定所述声音所包含的异常声音的种类，使所述学习完毕模型在所输入的所述频率-时间数据中确定依据范围，该依据范围表示确定所述异常声音的种类所使用的频率范围和时间范围；

在所确定的所述频率-时间数据中指定表示频率范围和时间范围的指定范围；以及

在包含所述依据范围和所述指定范围是否重叠作为判定要素的至少1个的判定处理中，判定是否使所述输出装置输出所述异常声音的种类。

2.根据权利要求1所述的异常声音确定装置，其中，

所述运算装置在所述依据范围和所述指定范围重叠时，使所述输出装置输出所述异常声音的种类。

3.根据权利要求1或2所述的异常声音确定装置，其中，

所述运算装置在所述依据范围和所述指定范围不重叠时，不使所述输出装置输出所述异常声音的种类。

4.根据权利要求1～3中任一项所述的异常声音确定装置，其中，

还具有输入装置，

所述运算装置根据来自使用了所述输入装置的用户的输入指定所述指定范围。

5.根据权利要求1～4中任一项所述的异常声音确定装置，其中，

还具有扬声器，

所述运算装置还执行如下步骤：在所述指定范围被指定之后且判定所述依据范围和所述指定范围是否重叠之前，使所述扬声器发出所述指定范围内的声音。

6.根据权利要求1～5中任一项所述的异常声音确定装置，其中，

所述运算装置还执行计算确定了所述依据范围的轮廓的轮廓确定依据范围的步骤，

所述运算装置在所述判定处理中，判定所述轮廓确定依据范围和所述指定范围是否重叠。

7.根据权利要求1～6中任一项所述的异常声音确定装置，其中，

所述学习完毕模型由卷积网络构成。

8.根据权利要求7所述的异常声音确定装置，其中，

所述学习完毕模型使用梯度加权类激活映射确定所述依据范围。

9.一种异常声音确定方法，使用能够访问人工智能的学习完毕模型的运算装置以及输出装置，根据由车辆录音的声音确定异常声音，其中，

该异常声音确定方法包括如下步骤：

所述运算装置确定表示所述声音的频谱的时间变化的频率-时间数据；

所述运算装置将所确定的所述频率-时间数据输入到所述学习完毕模型，使所述学习完毕模型基于所输入的所述频率-时间数据确定所述声音所包含的异常声音的种类，使所述学习完毕模型在所输入的所述频率-时间数据中确定依据范围，该依据范围表示确定所述异常声音的种类所使用的频率范围和时间范围；

所述运算装置在所确定的所述频率-时间数据中指定表示频率范围和时间范围的指定范围；以及

所述运算装置在包含所述依据范围和所述指定范围是否重叠作为判定要素的至少1个的判定处理中，判定是否使所述输出装置输出所述异常声音的种类。

10.一种异常声音确定程序，其中，

该异常声音确定程序使能够访问人工智能的学习完毕模型且与输出装置连接的运算装置执行如下步骤：

在所确定的所述频率-时间数据中指定表示频率范围和时间范围的指定范围；