JP2023157213A

JP2023157213A - 特定装置

Info

Publication number: JP2023157213A
Application number: JP2022066971A
Authority: JP
Inventors: 光夫大窪; Mitsuo Okubo; 伸一竹内; Shinichi Takeuchi; 真吾則竹; Shingo Noritake; 亮村上; Ryo Murakami; 涼柳川; Ryo Yanagawa
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2022-04-14
Filing date: 2022-04-14
Publication date: 2023-10-26

Abstract

【課題】異音又は振動の発生要因を適切に特定することが可能な特定装置を提供すること。
【解決手段】本開示にかかる特定装置１０は、対象物から発生する音及び振動の少なくとも一方を示す観測信号と、観測信号に含まれる異常の種別である異常種別と、の組を教師データとして機械学習を行うことにより、入力された観測信号から異常種別を出力するように生成された学習モデルを記憶する記憶部１２と、未知の観測信号の入力を受け付ける入力部１６と、学習モデルを用いて、未知の観測信号から異常種別を特定する特定部１４３と、を備える。機械学習では、観測信号から生成されたスペクトログラムに対して半教師付き非負値行列因子分解を行うことで得られた基底行列を用いて異常種別が学習されている。特定部１４３は、観測信号の振幅が所定の閾値以上であるか否かを判定し、閾値以上である場合に当該異常種別を特定する。
【選択図】図２

Description

本開示は、特定装置に関する。

車両や装置などで発生する異音の音圧データを取得し、所定の処理を行うことで異音の発生要因を特定する技術が知られている。例えば、特許文献１は、取得された音圧データを高速フーリエ変換（ＦＦＴ：Fast Fourier Transform）し、統計解析処理による異常度を演算し、異常発生要因毎にクラスタリングされたクラスタと照合し、異音発生要因を特定する異音発生要因特定システムを開示する。

特開２０２１－０８１３６４号公報

例えば車両内で発生する音の発生要因を特定するとする。車両内では、周波数の近い複数の異音が同時に発生している場合がある。特許文献１が開示する技術を用いた場合、これらの異音を同じクラスタに分けてしまうため、異音発生要因を精度よく特定することが難しいという問題がある。

本開示の目的は、上述した課題を鑑み、異音又は振動の発生要因を適切に特定することが可能な特定装置を提供することにある。

本開示にかかる特定装置は、
対象物から発生する音及び振動の少なくとも一方を示す観測信号と、前記観測信号に含まれる異常の種別である異常種別と、の組を教師データとして機械学習を行うことにより、入力された前記観測信号から前記異常種別を出力するように生成された学習モデルを記憶する記憶部と、
未知の前記観測信号の入力を受け付ける入力部と、
前記学習モデルを用いて、前記未知の観測信号から前記異常種別を特定する特定部と、を備え、
前記機械学習では、前記観測信号から生成されたスペクトログラムに対して半教師付き非負値行列因子分解を行うことで得られた基底行列を用いて前記異常種別が学習されており、
前記特定部は、前記学習モデルを用いて前記未知の観測信号に含まれる前記異常種別を取得し、取得した前記異常種別に対応する前記観測信号の振幅が所定の閾値以上であるか否かを判定し、前記閾値以上である場合に当該異常種別を特定する。

本開示にかかる特定装置は、異音又は振動の発生要因を適切に特定することを可能とする。

実施形態にかかる特定システムの構成を示すブロック図である。実施形態にかかる特定装置の構成を示すブロック図である。実施形態にかかる基底行列の一例を示す図である。実施形態で用いられる聴感補正カーブを示す図である。実施形態にかかる聴感補正前の音響信号のスペクトログラムを示す図である。実施形態にかかる聴感補正後の音響信号のスペクトログラムを示す図である。実施形態において取得された異音種別の所定時間ごとの出力の一例を示す図である。実施形態にかかる閾値の変化を示す図である。実施形態で用いられる非負値行列因子分解の説明図である。実施形態にかかる特定装置が行う全体動作の処理を示すフローチャートである。実施形態にかかる特定装置が行う異音特定処理を示すフローチャートである。実施形態にかかる特定装置を実現するコンピュータのハードウエア構成を例示するブロック図である。

以下では、本開示の実施形態について、図面を参照しながら詳細に説明する。各図面において、同一又は対応する要素には同一の符号が付されている。説明の明確化のため、必要に応じて重複説明は省略される。

＜特定システム１００の構成＞
図１を参照して、本実施形態にかかる特定システム１００について説明する。図１は、本実施形態にかかる特定システム１００の構成を示すブロック図である。特定システム１００は、本実施形態にかかる特定処理を実行する特定装置１０を備えている。特定装置１０は、周囲で発生する音又は振動を示す観測信号を取得して、所定の特定処理を行うことで、対象物から発生する観測信号の発生要因を特定する情報処理装置である。

特定装置１０は、例えば、対象物である車両や装置などにおいて発生する音又は振動の発生要因を特定するために用いられ得る。特定装置１０は、車両等に搭載される専用の装置として実現されてもよいし、ユーザが使用する携帯電話端末、スマートフォン、タブレット端末、又はＰＣ（Personal Computer）などの情報端末により実現されてもよい。

本実施形態では、観測信号の例として、車両７で発生した音を示す音響信号を用いて説明を行う。また、以下では、車両７で発生した音であって、車両７の状態が正常である場合には発生しない音を「異音」と称して説明する場合がある。また、以下では、異音の発生要因の種別を、「異音種別」と称して説明する場合がある。特定装置１０は、車両７で発生した異音の異音種別を特定する。

なお、本実施形態では、特定装置１０が音響信号から異音種別を特定する例を用いて説明するが、特定装置１０は、車両７で発生した振動であって、車両７の状態が正常な正常である場合には発生しない振動の種別を特定してもよい。

図１に示されるように、特定システム１００は、特定装置１０の他、マイク２０及びＣＡＮ（Controller Area Network）３０を備えている。

マイク２０は、車両７で発生する音を検出するマイクロフォンである。マイク２０は、例えば、図１に示されるように、車両７が備える原動機４０、又はその近傍に設けられている。これに限らず、マイク２０は任意の場所に設けられてよい。また、マイク２０は複数設けられてもよい。なお、本実施形態では、マイク２０を用いて説明を行うが、特定システム１００は、マイク２０に代えて、車両７で発生する振動を検出する振動ピックアップなどを備えていてもよい。また、特定システム１００は、マイク２０及び振動ピックアップの両方を備えていてもよい。

ＣＡＮ３０は、車両７の状態を示す車両信号を取得する。車両信号は、例えば、車両７の走行状態に関する走行情報を含み得る。走行情報は、例えば、車両７の車速、エンジン回転数、エンジン負荷、ブレーキ信号、シフトポジション、又はステアリング操舵角などを含み得る。車両信号は、車両に搭載される各種ＥＣＵ（Electric Control Unit）が生成するＤＴＣ（Diagnostic Trouble Code）情報を含んでもよい。また、車両信号は、車両７の停止時における車両７の状態を示す情報を含んでもよい。

＜特定装置１０の構成＞
続いて、図２を参照して、特定装置１０について説明する。図２は、特定装置１０の構成を示すブロック図である。特定装置１０は、記憶部１２、演算部１４、表示部１５、及び入力部１６を備えている。

記憶部１２は、特定装置１０の各機能を実現するためのプログラムを格納する記憶装置である。また、記憶部１２は、後述する学習部１４１で生成された基底行列及び特定モデルをそれぞれ格納する異音基底ＤＢ１２１及びモデルＤＢ１２２を有している。

異音基底ＤＢ１２１は、特定対象である異音の周波数パターンを示すスペクトル基底群である基底行列を格納する。モデルＤＢ１２２は、当該基底行列を用いた学習により生成された特定モデルを格納する。特定モデルは、音響信号と、音響信号が示す異常の種別である異音種別と、の組を教師データとして機械学習を行うことにより、入力された音響信号から異音種別を出力するように生成された学習モデルである。当該機械学習では、音響信号から生成されたスペクトログラムに対して、例えば、半教師付き非負値行列因子分解を行うことで得られた基底行列を用いて異音種別が学習されている。基底行列及び特定モデルの詳細については後述する。

異音基底ＤＢ１２１及びモデルＤＢ１２２は、記憶部１２においてライブラリとして登録されている。また、異音基底ＤＢ１２１及びモデルＤＢ１２２は、学習部１４１が適宜参照することが可能に構成されている。なお、記憶部１２は、特定装置１０の内部に限らず、特定装置１０の外部に設けられていてもよい。

図３は、異音基底ＤＢ１２１に登録された基底行列が示す異音基底の一例を示す図である。図では、種別の異なる５つの異音１～５に対応する異音基底が示されている。縦軸は振幅、横軸は周波数である。後述するように、基底行列は、非負値行列因子分解（ＮＭＦ：Nonnegative Matrix Factorization）を用いて生成され得る。また、基底行列は、半教師付き非負値行列因子分解（ＳＳＮＭＦ：Semi-supervised Non-negative Matrix Factorization）を用いて生成され得る。

図２に戻り説明を続ける。演算部１４は、特定装置１０における各種演算を行うための演算装置である。演算部１４は、学習部１４１、前処理部１４２、及び特定部１４３を備えている。

学習部１４１は、ＮＭＦを用いて、異音発生要因の特定に用いるための基底行列を生成し、当該基底行列を用いて、異音特定処理を行うための特定モデルを生成する。学習部１４１は、特定対象である複数の異音に対応する複数の基底行列を生成することができる。学習部１４１は、生成した複数の基底行列を、記憶部１２の異音基底ＤＢ１２１に格納する。また、学習部１４１は、当該基底行列を用いて生成された特定モデルを、記憶部１２のモデルＤＢ１２２に格納する。基底行列及び特定モデルの生成について、詳細は後述する。

前処理部１４２は、特定装置１０に入力された音響信号に対し、聴感補正を用いた前処理を行う。前処理部１４２は、例えば、入力された音響信号を、いわゆるＡカーブと呼ばれる聴感補正カーブのフィルタ特性を用いてフィルタリング処理する。

図４は、聴感補正カーブを示す図である。人間の耳は、２０Ｈｚ以下の周波数、及び５ｋＨｚ以上の周波数の音響信号を聞き取りにくく、２ｋＨｚ～４ｋＨｚ程度の周波数の音響信号を聞き取りやすくなっている。前処理部１４２は、このような人間の耳の聴感上の特徴を考慮し、音響信号に対して聴感補正処理を行う。図５及び図６は、それぞれ聴感補正前及び聴感補正後の音響信号のスペクトログラムを示す図である。前処理部１４２が聴感補正処理を行うことで、特定装置１０は、人間の耳の聴感特性を考慮して、異音の特定処理を行うことができる。

図２に戻り説明を続ける。特定部１４３は、学習モデルを用いて、未知の観測信号から異常種別を特定する。例えば、特定部１４３は、学習部１４１で生成された特定モデルを用いて所定の演算を行い、入力部１６で入力された未知の音響信号に含まれる異音の発生要因を特定する特定処理を行う。また、前処理部１４２において聴感補正処理が行われた場合、特定部１４３は、当該補正処理後の音響信号を用いて特定処理を行う。

特定部１４３は、未知の音響信号を、モデルＤＢ１２２に格納された特定モデルに入力し、出力として、当該音響信号に含まれる異音種別を取得する。また、特定部１４３は、取得された異音種別ごとの振幅を推定する。入力された音響信号が複数の異音種別を含む場合、特定部１４３は、特定モデルから複数の異音種別を取得し、異音種別のそれぞれに対応する振幅を推定する。これにより、特定部１４３は、未知の音響信号から当該音響信号に含まれる複数の異音種別と、異音種別ごとの振幅を取得することができるので、未知の音響信号に含まれる複数の異音を分離することができる。

図７は、取得された異音種別の所定時間ごとの出力の一例を示す図である。縦軸は振幅、横軸は時間を示している。図の例では、異音種別の異なる複数の異音１～５が出力されている。このようにして、特定部１４３は、入力された未知の音響信号に含まれる異音を特定し、所定時間ごとの振幅を求めることができる。なお、振幅に代えて、各異音種別に対応する音の音量を示す他の指標が用いられてもよい。

なお、特定部１４３は、学習モデルを用いて取得された異音種別の全てを、異音種別としてそのまま特定してもよいし、所定の判定処理を行い、その結果に応じて、それらの一部を異音種別として特定してもよい。

例えば、特定部１４３は、取得した異音種別に対応する音響信号の振幅が所定の閾値以上であるか否かを判定し、判定結果に応じて異音種別を特定してもよい。例えば図７の例では、特定部１４３は、取得された複数の異音種別のそれぞれの振幅を、予め設定された所定の閾値Ｔｈ１と比較する。特定部１４３は、各音の振幅がＴｈ１以上であるか否かを判定し、振幅がＴｈ１以上である音を異音種別として特定し、Ｔｈ１未満である音を異音種別として特定しない。このようにすることで、音量の小さい異音については、異音として扱わないものとすることができるので、音量が所定の閾値以上の音のみを異音として特定することができる。

所定の閾値は、予め設定されていてもよいし、適宜変更されてもよい。例えば、特定部１４３は、車両信号に応じて当該閾値を変更し、車両信号に応じた閾値を用いて異音の特定を行う。車両信号は、例えば、エンジン回転数又はエンジン負荷などである。これらに限らず、他の車両信号が用いられてもよい。

図８は、閾値の変化を示す図である。特定部１４３は、例えばエンジン回転数の大きさに応じて閾値を変更する。図では、閾値Ｔｈ２と、Ｔｈ２より大きい閾値Ｔｈ３が示されている。特定部１４３は、エンジン回転数が小さい場合はＴｈ２を閾値とし、エンジン回転数が大きい場合はＴｈ３を閾値として上記の判定を行う。このようにすることで、特定部１４３はエンジン回転数などに応じた閾値を設定し、適切に判定を行うことができるので、精度よく異音を特定することができる。なお、ここでは閾値を２段階に変更する例を用いたが、閾値を３段階以上に変更するようにしてもよい。

また、特定部１４３は、ＣＡＮ３０で取得される車両信号を加味して異音を特定してもよい。例えば、周波数の近い複数の異音が取得された場合、特定部１４３は、当該音が取得されたタイミングにおいて取得された車両信号との関連の大きさに応じて異音を特定する。取得された複数の音の間の周波数が近いか否かは、閾値などにより適宜判定されてよい。

例えば、特定モデルの出力として取得された複数の異音種別に、周波数の近いバキュームポンプ異音とウォーターポンプベアリング異音とが含まれており、かつ、音の発生タイミングにおいて、車両信号としてブレーキ信号が取得されているとする。この場合、特定部１４３は、ブレーキとの関連が大きいバキュームポンプ異音を異音として特定し、ブレーキとの関連が小さいウォーターベアリング異音を、異音として特定しないようにしてもよい。このようにすることで、特定部１４３は、周波数の近い複数の異音の異音種別を、適切に特定することができる。

図２に戻り説明を続ける。表示部１５は、演算部１４における演算の結果を表示する表示装置である。表示部１５は、文字や画像を表示するディスプレイなどであってよい。また、表示部１５は、入力部１６の機能を備えるタッチパネルなどであってもよい。表示部１５は、例えば、観測音に含まれる異音に関する情報を表示する。

例えば、表示部１５は、「○○音が発生しています。」のように、異音種別を示す情報を表示する。また、「発生音が○○音である確率は△△％です。」のように、特定された異音種別の確からしさを示す情報を、異音種別と共に表示してもよい。複数の異音が特定された場合はそれぞれの異音について情報を表示してもよい。

例えば、表示部１５は、複数の異音に関する情報を同一画面上に表示する。表示部１５は、車両７と、異音の発生箇所とを重ねて表示するなどしてもよい。このようにすることで、ユーザは容易に異音の発生箇所及び発生要因を確認することができる。表示部１５は、演算部１４で特定された、所定の閾値以上の音量を示す異音を表示するようにしてよい。これにより、異音の大きさに応じて表示を行うことができる。

入力部１６は、未知の観測信号の入力を受け付ける。例えば、入力部１６は、車両７で発生した音を示す音響信号の入力をマイク２０から受け付ける。また、入力部１６は、ＣＡＮ３０から車両信号の入力を受け付ける。車両信号は、車両７のエンジン回転数、エンジン負荷、又はブレーキ信号などを含み得る。入力部１６は、車両７が備える他のセンサ（例えば、振動ピックアップ）からの入力を受け付けてもよい。

ここで、図９を参照して、本開示にかかる特定方法に用いるＮＭＦによる音源分離動作について説明する。図９は、本実施形態で用いられるＮＭＦの説明図である。ＮＭＦは、入力された音響信号のスペクトログラムを、基底行列とアクティベーション行列との積で近似する数理アルゴリズムである。

ここでは、ＮＭＦに入力される音響信号のスペクトログラムをＸ、基底行列をＴ、アクティベーション行列をＶとする。入力される音響信号のスペクトログラムＸは、例えば、音響時系列信号ｘ（ｔ）に対して短時間フーリエ変換（ＳＴＦＴ：short-time Fourier transform）を行って得られる、Ｉ行Ｊ列の強度数値データからなる観測行列Ｘ（ｉ，ｊ）であってもよい。ここで、ｔは時間のインデックスを示している。また、Ｉは周波数ビン数、Ｊは時間フレーム数、ｉは周波数ビンのインデックス、ｊは時間フレームのインデックスを示している。

音響時系列信号ｘ（ｔ）は、例えば、マイク２０で収録したアナログ信号をＡＤ変換（Analog Digital Convert）して得られるデジタル信号である。スペクトログラムＸは、Ｉ行Ｋ列の基底行列Ｔ（ｉ，ｋ）と、Ｋ行Ｊ列のアクティベーション行列Ｖ（ｋ，ｊ）と、を用いて、以下に示す式（１）で表すことができる。ここで、Ｋは基底数を示し、ｋは基底のインデックスを示している。

Ｘ≒ＴＶ・・・（１）

図９に示されるように、基底行列Ｔ（ｉ，ｋ）は、スペクトル形状を表すベクトルとして表現されるスペクトル基底を、列方向にＫ個結合したものとして表すことができる。図９は、一例として、Ｋ＝２の場合を示したものである。同様に、アクティベーション行列Ｖ（ｋ，ｊ）は、各スペクトル基底に対応する発現度合いを表すアクティベーションを行方向にＫ個結合したものとして表すことができる。

上述の式（１）のように、ＮＭＦでは音響信号のスペクトログラムＸを、基底行列Ｔ及びアクティベーション行列Ｖを用いて近似を行うが、一般に２つの行列の間には誤差が発生する。そのため、学習部１４１は、ＸとＴＶの距離を示すコスト関数を最小化するような基底行列Ｔ及びアクティベーション行列Ｖを求める。コスト関数には、例えば、ユークリッド距離、ＫＬ（Kullback-Leibler）ダイバージェンス、板倉齋藤距離、又はβダイバージェンスなどの距離規範が用いられてよい。

学習部１４１は、コスト関数が所定の閾値以下になるか、又は設定した繰り返し回数に達するまで、基底行列Ｔ及びアクティベーション行列Ｖを更新する。このようにして、学習部１４１は、適切な基底行列Ｔ及びアクティベーション行列Ｖを得ることができる。

本実施形態では、学習部１４１は、異音特定の前処理として、特定しようとする異音を含む音響信号のスペクトログラムに対し、上述のようなＮＭＦを行うことで、当該異音に対応するスペクトル基底群（基底行列Ｔ）を生成する。また、特定部１４３は、未知の音響信号のスペクトログラムに対し、基底行列Ｔを用いた半教師付きＮＭＦなどを行い、各スペクトル基底の発現度合い（アクティベーション行列Ｖ）を生成する。そして、特定部１４３は、各スペクトル基底の発現度合いの組み合わせから、未知の音響信号に、特定対象の異音が含まれているか否かを判定する。これにより、特定部１４３は、未知の音響信号に含まれる異音の種別を特定する。

上述したように、特許文献１の技術では、分割したデータごとに、突出した周波数を統計処理して異常度を算出し、異常発生要因ごとにクラスタリングされたクラスタと照合することで、異音の発生要因を特定した。特許文献１では、着眼点はデータのピーク値であるので、複数の異音が同時に発生している場合には、異音の検出精度が低下する。

これに対し、本実施形態では、ＮＭＦを用いるので、検出精度の低下を低減することができる。例えば、図９の例において、基底行列Ｔが基底Ｋ１、Ｋ２、・・・、Ｋｎを含むとする。特定部１４３は、これらの基底Ｋ１、Ｋ２、・・・、Ｋｎが示す周波数が全て音源に含まれる場合、当該基底行列Ｔに対応する異音が発生したと判断する。そのため、本実施形態にかかる特定装置１０では、近い周波数において複数の異音が発生した場合であっても、異音を正しく判別することが可能である。

＜特定装置１０が行う処理＞
続いて、図１０及び図１１を参照して、特定装置１０が行う処理について具体的に説明する。まず、図１０を参照して、特定装置１０が行う全体的な動作を説明する。図１０は、特定装置１０が行う全体動作の処理を示すフローチャートである。

まず、学習部１４１は、基底を生成するための基底生成処理を行う（Ｓ１０１）。ここでは、特定装置１０は、基底生成用スペクトログラムＸ１の入力を受け付けて、基底行列Ｔ１を生成するものとする。Ｘ１としては、特定対象とされる異音を含む音響信号を示すスペクトログラムが用いられ得る。

学習部１４１は、基底生成用スペクトログラムＸ１が入力されると、上述したＮＭＦを行うことで基底行列Ｔ１を生成し、生成した基底行列Ｔ１を異音基底ＤＢ１２１に格納する。学習部１４１は、教師付きＮＭＦを用いて基底行列Ｔ１を生成してもよいし、半教師付きＮＭＦを用いて基底行列Ｔ１を生成してもよい。また、これに限らず、学習部１４１は、他の手法を用いて基底行列Ｔ１を生成してもよい。

学習部１４１は、Ｘ１に対して、以下の式（２）で示す近似式によるＮＭＦを行うことにより、基底行列Ｔ１及びアクティベーション行列Ｖ１を生成する。

Ｘ１≒Ｔ１Ｖ１・・・（２）

学習部１４１は、Ｔ１及びＶ１を最適化（更新）する。学習部１４１は、生成した基底行列Ｔ１を異音基底ＤＢ１２１に格納する。基底行列Ｔ１は、学習データとして用いられる。

続いて、学習部１４１は、生成された基底行列Ｔ１を用いてモデル学習処理を行う（Ｓ１０２）。学習には、例えば、ニューラルネットワーク、混合ガウスモデル、又はサポートベクトルマシンなどの公知の手法が用いられ得る。これらに限らず、種々の機械学習方法が用いられてもよい。

例えば、まず、学習部１４１は、対応する異音種別を示す異音ラベルが付けられたラベル付きスペクトログラムＸ２の入力を受け付ける。学習部１４１は、Ｘ２を取得すると、Ｘ２に対し、異音基底ＤＢ１２１に格納されている基底行列Ｔ１を教師基底に用いた教師付きＮＭＦを実施する。学習部１４１は、半教師付きＮＭＦを実施してもよい。

学習部１４１は、上述した式（１）及び式（２）と同様にして、Ｘ２を、基底行列Ｔ２とアクティベーション行列Ｖ２との積で表現される近似式に適用する。学習部１４１は、Ｖ２の更新が所定の更新回数以上となるか、又はコスト関数が所定の閾値以下となるまでＶ２を更新する。

次に、学習部１４１は、異音ラベルごとのアクティベーション行列Ｖ２を特徴量として、Ｖ２と異音ラベルとの関係を表す特定モデルを学習する。これにより、学習部１４１は、音響信号を入力とし、当該音響信号に含まれる異音の異音種別を出力とする特定モデルを生成する。学習部１４１は、学習の結果得られた特定モデルを、モデルＤＢ１２２に格納する。

そして、特定部１４３は、異音特定処理を行う（Ｓ１０３）。異音特定処理の詳細については、図１１を参照して説明する。図１１は、特定装置１０が行う異音特定処理を示すフローチャートである。

まず、特定部１４３は、車両７において観測された観測音を示す音響信号をマイク２０から取得する（Ｓ２０１）。ここで、当該音響信号から生成されるスペクトログラムを特定用スペクトログラムＸ３とする。なお、特定部１４３は、音響信号に代えて、又は音響信号と共に、車両７の振動を示す振動信号を振動ピックアップから取得してもよい。また、特定部１４３は、車両信号をＣＡＮ３０から取得する。

前処理部１４２は、特定用スペクトログラムＸ３に対して聴感補正処理を行う（Ｓ２０２）。前処理部１４２は、図４に示すような聴感補正カーブを用いて、特定用スペクトログラムＸ３を補正する。前処理部１４２は、必要に応じて聴感補正以外の補正を行ってもよいし、これらの補正を行わなくともよい。

特定部１４３は、モデルＤＢ１２２に格納された特定モデルを用いて、特定用スペクトログラムＸ３に含まれる音に対応する異音種別を取得する（Ｓ２０３）。ここでは、特定部１４３は、聴感補正後の特定用スペクトログラムＸ３を特定モデルに入力し、特定モデルから異音種別を取得する。特定部１４３は、例えば図７の例に示すように、出力として複数の異音種別を取得する。また、特定部１４３は、異音種別ごとに、音響信号の振幅を推定する。これにより、特定部１４３は、特定用スペクトログラムＸ３に含まれる異音種別ごとの振幅を取得する。

特定部１４３は、取得された異音種別のそれぞれの振幅を所定の閾値と比較し、振幅が閾値以上であるか否かを判定する（Ｓ２０４）。特定部１４３は、判定結果に応じて、異音種別を特定する（Ｓ２０５）。特定部１４３は、各異音種別に対応する音の振幅が閾値以上であると判定した場合、当該音を異音として特定し、閾値未満であると判定した場合、当該音を異音として特定しないようにしてもよい。

また、特定部１４３は、車両信号に基づいて上記の閾値を変更してもよい。車両信号は、例えば、エンジン回転数又はエンジン負荷などである。これにより、図８を用いて説明したように、特定部１４３は、エンジン回転数などに応じて複数の閾値を設定し、判定を行うことができる。

また、特定部１４３は、当該音が取得されたタイミングにおいて取得された車両信号との関連の大きさに応じて異音種別を特定してもよい。例えば、周波数の近い複数の異音が取得された場合、特定部１４３は、当該音が取得されたタイミングにおいて取得された車両信号との関連の大きさに応じて異音を特定することができる。

特定部１４３は、特定結果を表示部１５に出力する（Ｓ２０６）。例えば、特定部１４３は、観測音に含まれる異音に関する情報を表示するための表示情報を生成して表示部１５に出力する。これにより、例えば、表示部１５は、「○○音が発生しています。」、「発生音が○○音である確率は△△％です。」のような表示を行う。なお、特定結果を画像や音声等により出力するようにしてもよい。

以上説明したように、本実施形態にかかる特定システム１００は、特定装置１０、マイク２０、及びＣＡＮ３０を備えており、特定装置１０は、マイク２０及びＣＡＮ３０から音響信号及び車両信号を取得して異音の特定処理を行う。

特定装置１０において、記憶部１２は、特定処理に用いられる特定モデルをモデルＤＢ１２２に格納する。特定モデルは、学習部１４１により、対象物から発生する音及び振動の少なくとも一方を示す音響信号と、音響信号が示す異常の種別である異音種別と、の組を教師データとして機械学習を行うことにより生成されている。当該機械学習では、音響信号から生成されたスペクトログラムに対して半教師付き非負値行列因子分解などを行うことで得られた基底行列を用いて異音種別が学習されている。これにより、特定モデルは、入力された音響信号から異音種別を出力することが可能に構築されている。

また、入力部１６は、マイク２０から未知の音響信号の入力を受け付け、ＣＡＮ３０から車両信号の入力を受け付ける。特定装置１０の演算部１４において、特定部１４３は、上記の特定モデルを用いて、未知の音響信号から異音種別を特定する。特定部１４３は、特定モデルを用いて未知の音響信号に含まれる異音種別を取得し、取得した異音種別に対応する音響信号の振幅が所定の閾値以上であるか否かを判定する。特定部１４３は、当該音響信号の振幅が所定値以上である場合に、当該異音種別を特定する。

このような構成により、本実施形態にかかる特定装置１０によれば、僅かに特徴の違う異音が発生している場合であっても、それぞれの異音種別を判別することができる。また、特定部１４３は、ブレーキ信号などの車両信号を加味して異音種別を特定することができるので、より精度よく異音を検出することができる。さらに、特定部１４３は、上述した振幅の判定において、エンジン回転数などの車両信号に応じて閾値を変更することができるので、精度よく異音を検出することができる。

本実施形態にかかる特定装置１０を用いることで、例えば、車両の販売店において、異音で入庫された車両の原因特定を支援することができるので、無駄な部品交換による無償修理費を低減することができる。また、開発現場においては、異音を特定することで、異常を早期発見することができるので、早期の対応が可能となり品質向上に繋げることができる。

なお、図１及び図２に示される構成は一例に過ぎず、特定システム１００は、複数の構成が集約された装置などを用いて構成されてもよい。例えば、特定装置１０における各機能部は、複数の装置などを用いて分散処理されてもよい。本実施形態では、学習部１４１を特定装置１０の内部に設けているが、学習部１４１は特定装置１０の外部に設けられてもよい。

また、特定システム１００の各機能が同一の装置に集約されていてもよい。例えば、本実施形態では、車両７に設けられたマイク２０を用いて観測音を取得したが、ユーザが使用するスマートフォンなどの携帯端末が備えるマイクを用いてもよい。また、ネットワークを介して、携帯端末がＣＡＮ３０から車両信号を受信するようにしてもよい。これにより、ユーザの携帯端末を、特定装置１０として実現することができる。

例えば、携帯端末のマイクで車両７内の音を録音し、ＷＡＶファイル等を取得してＳＴＦＴを行い、上述したスペクトログラムＸを得る。携帯端末において、上述した特定処理を行い、特定結果を携帯端末の表示部に表示する。このようにすることで、ユーザは、自身の携帯端末を用いて、車両７内で発生した異音の種別を特定することができる。この場合、携帯端末を特定装置１０として用いてもよいし、必要な情報を、携帯端末から特定装置１０に送信するようにしてもよい。携帯端末と特定装置１０とは、有線又は無線により接続されてよい。例えば、携帯端末において、車両７内で観測された音を示す音響信号を特定装置１０に送信する。特定装置１０は、上述した特定処理により異音種別を特定し、特定結果を携帯端末に送信する。このようにすることで、ユーザは携帯端末を用いて異音を特定することができる。

＜ハードウエアの構成例＞
特定装置１０の各機能構成部は、各機能構成部を実現するハードウエア（例：ハードワイヤードされた電子回路など）で実現されてもよいし、ハードウエアとソフトウエアとの組み合わせ（例：電子回路とそれを制御するプログラムの組み合わせなど）で実現されてもよい。以下、特定装置１０の各機能構成部がハードウエアとソフトウエアとの組み合わせで実現される場合について説明する。

図１２は、特定装置１０を実現するコンピュータ９００のハードウエア構成を例示するブロック図である。コンピュータ９００は、特定装置１０を実現するために設計された専用のコンピュータであってもよいし、汎用のコンピュータであってもよい。コンピュータ９００は、スマートフォンやタブレット端末などといった可搬型のコンピュータであってもよい。

例えば、コンピュータ９００に対して所定のアプリケーションをインストールすることにより、コンピュータ９００で、特定装置１０の各機能が実現される。上記アプリケーションは、特定装置１０の機能構成部を実現するためのプログラムで構成される。

コンピュータ９００は、バス９０２、プロセッサ９０４、メモリ９０６、ストレージデバイス９０８、入出力インタフェース９１０、及びネットワークインタフェース９１２を有する。バス９０２は、プロセッサ９０４、メモリ９０６、ストレージデバイス９０８、入出力インタフェース９１０、及びネットワークインタフェース９１２が、相互にデータを送受信するためのデータ伝送路である。ただし、プロセッサ９０４などを互いに接続する方法は、バス接続に限定されない。

プロセッサ９０４は、CPU（Central Processing Unit）、GPU（Graphics Processing Unit）、又は FPGA（Field－Programmable Gate Array）などの種々のプロセッサである。メモリ９０６は、RAM（Random Access Memory）などを用いて実現される主記憶装置である。ストレージデバイス９０８は、ハードディスク、SSD（Solid State Drive）、メモリカード、又は ROM（Read Only Memory）などを用いて実現される補助記憶装置である。

入出力インタフェース９１０は、コンピュータ９００と入出力デバイスとを接続するためのインタフェースである。例えば入出力インタフェース９１０には、キーボードなどの入力装置や、ディスプレイ装置などの出力装置が接続される。

ネットワークインタフェース９１２は、コンピュータ９００をネットワークに接続するためのインタフェースである。このネットワークは、LAN（Local Area Network）であってもよいし、WAN（Wide Area Network）であってもよい。

ストレージデバイス９０８は、特定装置１０の各機能構成部を実現するプログラム（前述したアプリケーションを実現するプログラム）を記憶している。プロセッサ９０４は、このプログラムをメモリ９０６に読み出して実行することで、特定装置１０の各機能構成部を実現する。

プロセッサの各々は、アルゴリズムをコンピュータに行わせるための命令群を含む１又はそれ以上のプログラムを実行する。このプログラムは、コンピュータに読み込まれた場合に、実施形態で説明された１又はそれ以上の機能をコンピュータに行わせるための命令群（又はソフトウェアコード）を含む。プログラムは、様々なタイプの非一時的なコンピュータ可読媒体（non-transitory computer readable medium）又は実体のある記憶媒体（tangible storage medium）に格納されてもよい。限定ではなく例として、コンピュータ可読媒体又は実体のある記憶媒体は、random-access memory（RAM）、read-only memory（ROM）、フラッシュメモリ、solid-state drive（SSD）又はその他のメモリ技術、CD-ROM、digital versatile disc（DVD）、Blu-ray（登録商標）ディスク又はその他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ又はその他の磁気ストレージデバイスを含む。プログラムは、様々なタイプの一時的なコンピュータ可読媒体（transitory computer readable medium）又は通信媒体上で送信されてもよい。限定ではなく例として、一時的なコンピュータ可読媒体又は通信媒体は、電気的、光学的、音響的、又はその他の形式の伝搬信号を含む。

なお、本開示は上記実施形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。

１～５異音
７車両
１０特定装置
１２記憶部
１２１異音基底ＤＢ
１２２モデルＤＢ
１４演算部
１４１学習部
１４２前処理部
１４３特定部
１５表示部
１６入力部
２０マイク
３０ＣＡＮ
４０原動機
１００特定システム
Ｋ１、Ｋ２基底
Ｔ、Ｔ１、Ｔ２基底行列
Ｖ、Ｖ１、Ｖ２アクティベーション行列
Ｔｈ１～Ｔｈ３閾値
Ｘスペクトログラム（観測行列）
Ｘ１基底生成用スペクトログラム
Ｘ２ラベル付きスペクトログラム
Ｘ３特定用スペクトログラム
９００コンピュータ
９０２バス
９０４プロセッサ
９０６メモリ
９０８ストレージデバイス
９１０入出力インタフェース
９１２ネットワークインタフェース

Claims

対象物から発生する音及び振動の少なくとも一方を示す観測信号と、前記観測信号に含まれる異常の種別である異常種別と、の組を教師データとして機械学習を行うことにより、入力された前記観測信号から前記異常種別を出力するように生成された学習モデルを記憶する記憶部と、
未知の前記観測信号の入力を受け付ける入力部と、
前記学習モデルを用いて、前記未知の観測信号から前記異常種別を特定する特定部と、を備え、
前記機械学習では、前記観測信号から生成されたスペクトログラムに対して半教師付き非負値行列因子分解を行うことで得られた基底行列を用いて前記異常種別が学習されており、
前記特定部は、前記学習モデルを用いて前記未知の観測信号に含まれる前記異常種別を取得し、取得した前記異常種別に対応する前記観測信号の振幅が所定の閾値以上であるか否かを判定し、前記閾値以上である場合に当該異常種別を特定する
特定装置。