JP2024066497A

JP2024066497A - バイナリ分類モデルと回帰とを用いた音の快適性予測

Info

Publication number: JP2024066497A
Application number: JP2023185296A
Authority: JP
Inventors: クマールソーランビジェイ; アーウキャリーン; ショーンフェリックス; カブリタコンデッサフィリペ; ランクフローリアン; クーカミヒャエル; フェイトニーリサール; アルバ― トーマス
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2022-10-31
Filing date: 2023-10-30
Publication date: 2024-05-15
Also published as: US20240144954A1; KR20240063014A; DE102023210497A1

Abstract

【課題】機械学習を使用した音の快適性の評価に関する。【解決手段】機械学習は、デバイスから放出される音の快適性を分類するために使用される。人による審査者からの複数の快適性評価が受信され、各快適性評価は、１つ又は複数のデバイスによって放出される複数の音のそれぞれの１つに対応する。快適性評価の各々と快適性評価の別の各々との間の差分が、対ごとの比較を介して決定される。これらの差分は、各比較においてどちらの快適性評価が高いか又は低いかに基づいてバイナリ値に変換される。音に関連付けられている測定可能な音質が受信される。測定可能な音質の各々と、複数の測定された音質の他のすべてとの間の第２の差分が、対ごとの方式により決定される。分類モデルは、バイナリ値を第２の差分と比較することによって音の快適性を分類するようにトレーニングされる。【選択図】図２

Description

関連出願との相互参照
本出願は、本出願と同日に出願された、「ＰＲＥＤＩＣＴＩＮＧＳＯＵＮＤＰＬＥＡＳＡＮＴＮＥＳＳＵＳＩＮＧＲＥＧＲＥＳＳＩＯＮＰＲＥＤＩＣＴＩＯＮＭＡＣＨＩＮＥＬＥＡＲＮＩＮＧＭＯＤＥＬ」と題する同時係属（米国特許）出願第１７／９７７５７４号明細書、代理人整理番号０９７１８２－００１９６に関連しており、その開示全体が参照により組み込まれる。

技術分野
本開示は、機械学習を使用して、電子デバイスや家電製品などの対象物から放出される音の快適性（以下、心地よさとも称する）を評価することに関する。

背景技術
いくつかの適用分野で要求されることの１つには、聞き手としての人が知覚する対象の代表量を測定することが挙げられる。例えば、音質評価においては、ユーザが工業製品対象（電子デバイス、自動車、電化製品など）の音質をどのように知覚するかが研究され、これらの音の設計のための仕様が確立される。音質評価とは、人と対象との相互作用を向上させるために、当該対象によって放出される音について、不快度又は快適性の点から評価することを指すことができる。現代の電化や都市化の進展に伴い、対象の音についての人の知覚との関連性は、特にこれらの音の快適性又は不快と感じられる潜在性に関して益々高まってきている。

その上さらに、ノイズ、振動、ハーシュネス（ＮＶＨ）についての電気機械システムの分析は、製品開発及び製造品質管理の重要な部分である。ＮＶＨ性能が乏しいと、製品を用いて作業しているときのユーザの疲労が増加したり、製品の経時的な付加的劣化（磨耗や破損）を引き起こしたり、顧客の購買決定に悪影響を与えたりする可能性がある。

多くの電気デバイスの音質評価には、典型的には、聴取審査者に音を聞かせ、その音の快適性を評価させることが含まれる。しかしながら、これには時間がかかり、新製品が開発されるたびに新たな聴取審査者が必要になる可能性がある。ＮＶＨ分析は、典型的には、実験室設定でのセンサを用いて測定され、音の快適性を考慮することはあまりない。その上さらに、ＮＶＨ分析中に測定された音質は、ある人には不快でも、他の人には心地よい場合もある。

概要
一実施形態によれば、デバイスから放出される音の快適性を分類する分類モデルをトレーニングする方法は、以下のステップ、すなわち、１人又は複数の人による審査者からの複数の快適性評価を受信するステップであって、各快適性評価は、１つ又は複数のデバイスによって放出される複数の音のそれぞれ１つに対応する、ステップと、第１の対ごとの比較を介して、複数の快適性評価の各々と、複数の快適性評価の他のすべてとの間の第１の差分を決定するステップと、決定された第１の差分を、当該対ごとの比較についてどちらの快適性評価が高いかに基づいてバイナリ値に変換するステップと、１つ又は複数のセンサから、複数の測定可能な音質を受信するステップであって、各測定可能な音質は、複数の音のそれぞれ１つに関連付けられている、ステップと、第２の対ごとの比較を介して、複数の測定可能な音質の各々と、複数の測定された音質の他のすべてとの間の第２の差分を対ごとの方式により決定するステップと、バイナリ値を第２の差分と比較することによって音の快適性を分類する分類モデルをトレーニングするステップと、トレーニングするステップの間の収束に基づいて、音の快適性を分類するように構成されたトレーニングされた分類モデルを出力するステップと、を含む。

他の実施形態によれば、デバイスから放出される音の快適性を分類するように構成された分類モデルをトレーニングするためのシステムは、１つ又は複数のデバイスによって放出される複数の音を検出するように構成されたマイクと、複数の音を処理するようにプログラミングされたプロセッサと、を含む。メモリには、プロセッサによって実行されるときに、プロセッサに以下のステップ、すなわち、１人又は複数の人による審査者からの複数の快適性評価を受信するステップであって、各快適性評価は、複数の音のそれぞれ１つに対応する、ステップと、第１の対ごとの比較を介して、複数の快適性評価の各々と、複数の快適性評価の他のすべてとの間の第１の差分を決定するステップと、決定された第１の差分を、当該対ごとの比較についてどちらの快適性評価が高いかに基づいてバイナリ値に変換するステップと、複数の音質と、複数の音のそれぞれ１つに関連付けられた各音質とを測定するステップと、第２の対ごとの比較を介して、測定された音質の各々と、測定された音質の他のすべてとの間の第２の差分を対ごとの方式により決定するステップと、バイナリ値を第２の差分と比較することにより、音の快適性を分類する分類モデルをトレーニングするステップと、分類モデルのトレーニング中の収束に基づいて、音の快適性を分類するように構成されたトレーニングされた分類モデルを出力するステップと、を実施させるための命令が格納されている。

さらに他の実施形態によれば、機械学習を利用して音の快適性を予測する方法は、以下のステップ、すなわち、人による審査者からの複数の快適性評価を受信するステップであって、各快適性評価は、１つ又は複数のデバイスによって放出されるそれぞれの音に対応する、ステップと、複数の快適性評価の各々と、複数の快適性評価の他の各々との間の第１の差分を決定するステップと、複数の音質と、複数の音のそれぞれ１つに関連付けられた各音質とを測定するためにマイクを利用するステップと、測定された音質の各々と、測定された音質の他の各々との間の第２の差分を決定するステップと、トレーニングされた分類モデルが収束を得るまで、第１の差分と第２の差分との比較に基づいて音の快適性を分類する分類モデルをトレーニングするステップと、新しい音の新しい音質を測定するためにマイクを使用するステップと、トレーニングされた分類モデルを介して、新しい音の測定された新しい音質を、音に関連付けられた各測定された音質と比較するステップと、トレーニングされた分類モデルによって行われた比較に基づいて、未評価音の全体的な快適性を予測するために回帰モデルを利用するステップと、を含む。

一実施形態による、ニューラルネットワークをトレーニングするためのシステムを示した図である。一実施形態による、ニューラルネットワークをトレーニングし利用するためのコンピュータ実装方法を示した図である。バイナリ分類機械学習モデルを使用して音の快適性を予測するためのシステム及び方法を示した図であり、ここではシステムフローチャートが示されている。バイナリ分類機械学習モデルを使用して音の快適性を予測するためのシステム及び方法を示した図であり、ここでは音ごとの対ごとの比較の一実施形態を示す表が示されている。バイナリ分類機械学習モデルを使用して音の快適性を予測するためのシステム及び方法を示した図であり、ここでは一実施形態による、バイナリ形式への結果の変換が示されている。一実施形態による、回帰予測機械学習モデルを使用して音の快適性を予測するシステムフローチャートを示した図である。一実施形態による、コンピュータ制御された機械と制御システムとの間の対話を示した概略図である。一実施形態による、部分的に自律的な車両、完全に自律的な車両、部分的に自律的なロボット又は完全に自律的なロボットであり得る車両に関して、本明細書に開示される快適性予測方法を実行するように構成された図５の制御システムを示した概略図である。生産ラインの一部などの製造システムのパンチカッタ、カッタ又はガンドリルなどの製造機械に関して、本明細書に開示される快適性予測方法を実行するように構成された図５の制御システムを示した概略図である。少なくとも部分的に自律的なモードを有する電動ドリル又はドライバーなどの電動工具に関して、本明細書に開示される快適性予測方法を実行するように構成された図５の制御システムを示した概略図である。自動化されたパーソナルアシスタントに関して、本明細書に開示される快適性予測方法を実行するように構成された図５の制御システムを示した概略図である。アクセス制御システム又は見張りシステムなどの監視システムに関して、本明細書に開示される快適性予測方法を実行するように構成された図５の制御システムを示した概略図である。例えばＭＲＩ装置、Ｘ線撮像装置又は超音波装置などの撮像システムに関して、本明細書に開示される快適性予測方法を実行するように構成された図５の制御システムを示した概略図である。

詳細な説明
本明細書には本開示の実施形態が記載されている。しかしながら、開示されている実施形態は単なる例であり、他の実施形態は様々な代替的形態をとることが可能なことを理解すべきである。図面は必ずしも縮尺通りではなく、いくつかの特徴は、特定のコンポーネントの詳細を示すために、誇張又は最小化されている場合がある。それゆえ、本明細書に開示された特定の構造的及び機能的詳細は、限定として解釈されるべきではなく、単に、実施形態を様々に採用する態様を当業者に教示するための代表的な基礎として解釈されるべきである。当業者であれば理解するように、図面の任意の１つに示されそれを参照して説明される様々な特徴は、１つ又は複数の他の図面に示されている特徴と結合されて、明示的に図示又は説明されていない実施形態を生み出すことができる。図示された特徴の組合せは、典型的な用途のための代表的な実施形態を提供する。しかしながら、本開示の教示と一致する特徴の様々な組合せ及び修正を特定の用途又は実装のために望むこともできよう。

本開示においては、音量、調性、鮮明さなど、様々な測定可能な音質について言及する。音量とは、音の強さ又は振幅を指す。この音量とは、実際に測定された音の大きさ、又は、人による音の強さの知覚のいずれかを指し得る。音量は、デシベルスケールで測定すること（例えば、音の大きさを測定すること）も、又は、フォンスケールで測定すること（例えば、人による音の知覚を測定すること）も可能である。調性とは、人が音の調性成分（ピッチ、トーン、コード、キーなど）をどのように知覚するかに相関する音質の測定を指す。鮮明さとは、音の周波数又は音の高周波成分の量を指し、つまり、高周波の割合が高いほど鮮明な音になる。測定可能な音質の他のタイプには、粗さ（例えば、７０Ｈｚなどの特定の周波数における音量の緩やかな一時的変化の強調）、包絡線（例えば、音の衝撃、減衰、持続及び解放）などが含まれ得る。

例えば、音質評価においては、ユーザが工業製品対象（電子デバイス、自動車、電化製品など）の音質をどのように知覚するかが研究され、これらの音の設計のための仕様が確立される。音質評価とは、人と対象との相互作用を向上させるために、当該対象によって放出される音について、不快度又は快適性の点から評価することを指すことができる。現代の電化や都市化の進展に照らせば、対象の音と人の知覚との関連性は、特にそれらの快適性又は不快と知覚される潜在性に関して益々高まっている。

本明細書に開示される様々な実施形態によれば、デバイスの音の快適性を予測するために機械学習モデリングを使用するための方法及びシステムが提供される。このアプローチは、例えば、定置デバイス（例えば、ポンプ、ヒートポンプ、ファン、電子デバイスなど）を制御するときに、現下で放出される音の人の知覚を推定するために使用することができる。したがって、この推定は、人の音響知覚に関してデバイスの制御を最適化するために使用することができる。これは機械学習アルゴリズムにより、１つ又は複数のマイク又は加速度センサの信号に基づいて行われ、それらの信号は、前処理された後で、品質が人の知覚の点において既にリスニングテストにおいて連続スケールでの数値形態で決定されている対応する信号と比較される。次いで、予測された比較結果は、実際の音質を推定するための後続のアルゴリズムによって累算され、それらに基づいて製品の制御を適合化させることができる。

開示された本方法及び本システムは、少量のトレーニングデータしか利用可能でない場合における回帰タスクのための新しいアプローチを提供する。これは、元のタスクを分類タスクに変換し、続いて元の回帰問題を解決するために分類結果をさらに処理することによって達成される。例えば、実施形態において、機械学習モデルは、様々な音を採点又は評価する人による評価者の審査でトレーニングされる。トレーニングの間、１つの音の測定可能な品質（例えば、音量、調性、鮮明さ、振動、電圧など）は、別の音の対応する測定可能な品質と対ごとの方式により比較される。この比較においては、それぞれの品質における差分を得ることができる。例えば、「０」は、音質Ａが音質Ｂよりも快適性が高いことを意味し、「１」は、音質Ｂが音質Ａよりも快適性が高いことを意味する、バイナリ分類を実装することができる。一度トレーニングされた回帰タスクは、新しい音の音質をトレーニングから格納されたすべての音質と比較するために利用することができ、他の音質との類似性に基づいて、その新しい音の快適性の予測をモデルによって生成することができる。

音の快適性を予測するためのモデルのトレーニング、及び、モデルの使用に関する付加的な詳細は、以下において提供される。しかしながら、最初は図１及び図２を参照する。その中で図１は、ニューラルネットワーク、例えばディープニューラルネットワークをトレーニングするためのシステム１００を示し、図２は、本明細書において説明される機械学習モデル２１０（例えば、図３乃至図４を参照して説明されるバイナリ分類モデル、回帰モデル及び回帰予測モデル）を実行するシステム２００を示している。図１を参照すると、システム１００は、ニューラルネットワーク用のトレーニングデータ１０２にアクセスするための入力インタフェースを含み得る。例えば、図１に示されているように、入力インタフェースは、データストレージ１０６からトレーニングデータ１０２にアクセスすることができるデータストレージインタフェース１０４によって構成されるものとしてよい。例えば、データストレージインタフェース１０４は、メモリインタフェース、又は、例えばハードディスク若しくはＳＳＤインタフェースなどの永続的ストレージインタフェースであるものとしてもよいが、Ｂｌｕｅｔｏｏｔｈ、Ｚｉｇｂｅｅ若しくはＷｉ－Ｆｉインタフェース、イーサネット又は光ファイバインタフェースなどのパーソナル、ローカル又はワイドエリアネットワークインタフェースであるものとしてもよい。データストレージ１０６は、ハードドライブ又はＳＳＤなどのシステム１００の内部データストレージであるものとしてもよいが、例えば、ネットワークアクセス可能なデータストレージなどの外部データストレージであるものとしてもよい。

いくつかの実施形態においては、データストレージ１０６は、トレーニングされていないバージョンのニューラルネットワークのデータ表現１０８をさらに含み得るものであり、このデータ表現１０８は、システム１００によりデータストレージ１０６からアクセスされるものとしてよい。しかしながら、トレーニングデータ１０２及びトレーニングされていないニューラルネットワークのデータ表現１０８は、それぞれ例えばデータストレージインタフェース１０４の異なるサブシステムを介して異なるデータストレージからアクセスされるものとしてもよいことが理解されよう。各サブシステムは、データストレージインタフェース１０４について上述したようなタイプであるものとしてよい。他の実施形態においては、トレーニングされていないニューラルネットワークのデータ表現１０８は、ニューラルネットワークについての設計パラメータに基づいてシステム１００により内部的に生成されるものとしてよく、それゆえデータストレージ１０６に明示的に格納されなくてよい。システム１００は、システム１００の動作中に、トレーニングされるニューラルネットワークの層のスタックの代わりに反復関数を提供するように構成され得るプロセッササブシステム１１０をさらに含み得る。ここでは、置換される層のスタックのそれぞれの層は、相互に共有される重みを有し得るものであり、先行する層の出力、又は、層のスタックの最初の層については、初期アクティブ化及び層のスタックの入力の一部を、入力として受け取ることができる。プロセッササブシステム１１０は、トレーニングデータ１０２を使用してニューラルネットワークを反復的にトレーニングするようにさらに構成されるものとしてよい。ここでは、プロセッササブシステム１１０によるトレーニングの反復は、順方向伝播部分と逆方向伝播部分とを含み得る。プロセッササブシステム１１０は、実行され得る順方向伝播部分を定義する他の動作の中でも、反復関数が固定点に収束する反復関数の平衡点を決定することと、ただし、この平衡点を決定することには、反復関数からその入力を引いた根の解を見つける数値的な根探索アルゴリズムを使用することが含まれ、当該平衡点をニューラルネットワーク内の層のスタックの出力の代わりに提供することとによって、順方向伝播部分を実行するように構成されるものとしてよい。システム１００は、トレーニングされたニューラルネットワークのデータ表現１１２を出力するための出力インタフェースをさらに含み得るものであり、このデータは、トレーニングされたモデルデータ１１２と称され得る。例えば、図１にも示されているように、出力インタフェースは、データストレージインタフェース１０４によって構成されるものとしてよく、これらの実施形態においては、前述のインタフェースは、入力／出力（「ＩＯ」）インタフェースであり、このインタフェースを介して、トレーニングされたモデルデータ１１２がデータストレージ１０６に格納されるものとしてよい。例えば、「トレーニングされていない」ニューラルネットワークを定義するデータ表現１０８は、トレーニング中又はトレーニング後に少なくとも部分的にトレーニングされたニューラルネットワークのデータ表現１１２によって置き換えられるものとしてもよく、ここでは、重みなどのニューラルネットワークのパラメータ、ハイパーパラメータ、及び、ニューラルネットワークの他のタイプのパラメータは、トレーニングデータ１０２についてのトレーニングを反映するように適合化されるものとしてよい。これは、図１でもデータストレージ１０６上の同一のデータレコードを参照する参照番号１０８，１１２によって示されている。他の実施形態においては、データ表現１１２は、「トレーニングされていない」ニューラルネットワークを定義するデータ表現１０８とは別個に格納されるものとしてもよい。いくつかの実施形態においては、出力インタフェースは、データストレージインタフェース１０４とは別個であるものとしてもよいが、一般に、データストレージインタフェース１０４について上述したようなタイプであるものとしてもよい。

システム１００の構造は、本明細書に記載される機械学習モデルをトレーニングするために利用され得るシステムの一例である。機械学習モデルを動作させ、トレーニングするための付加的構造は図２に示されている。

図２は、本明細書に記載される機械学習モデル、例えば、バイナリ分類モデル、回帰モデル、図３乃至図４を参照して以下において説明される回帰予測モデルなどを実装するためのシステム２００を示している。このシステム２００は、本明細書に記載される画像分類処理を実行するために実装することができる。このシステム２００は、少なくとも１つのコンピューティングシステム２０２を含み得る。このコンピューティングシステム２０２は、メモリユニット２０８に動作可能に接続される少なくとも１つのプロセッサ２０４を含み得る。このプロセッサ２０４は、中央処理ユニット（ＣＰＵ）２０６の機能性を実装する１つ又は複数の集積回路を含み得る。ＣＰＵ２０６は、ｘ８６、ＡＲＭ、Ｐｏｗｅｒ、又は、ＭＩＰＳ命令セットファミリのうちの１つなどの命令セットを実装する市販の処理ユニットであるものとしてよい。動作中、ＣＰＵ２０６は、メモリユニット２０８から取得される格納されたプログラム命令を実行することができる。格納されたプログラム命令は、本明細書に記載される動作を実行するためにＣＰＵ２０６の動作を制御するソフトウェアを含み得る。いくつかの例においては、プロセッサ２０４は、ＣＰＵ２０６、メモリユニット２０８、ネットワークインタフェース、及び、入力／出力インタフェースの機能性を単一の統合デバイスに統合したシステムオンチップ（ＳｏＣ）であるものとしてよい。コンピューティングシステム２０２は、動作の様々な態様を管理するためのオペレーティングシステムを実装することができる。図２には、１つのプロセッサ２０４、１つのＣＰＵ２０６、及び、１つのメモリ２０８が示されているが、もちろん、システム全体でそれぞれを２つ以上利用することもできる。

メモリユニット２０８は、命令及びデータを格納するための揮発性メモリ及び不揮発性メモリを含み得る。不揮発性メモリには、ＮＡＮＤフラッシュメモリなどのソリッドステートメモリ、磁気的及び光学的ストレージ媒体、又は、コンピューティングシステム２０２が非活動化され若しくは電力を落とされたときにデータを保持する任意の他の適当なデータストレージデバイスが含まれ得る。揮発性メモリには、プログラム命令とデータとを格納する静的及び動的ランダムアクセスメモリ（ＲＡＭ）が含まれ得る。例えば、メモリユニット２０８は、機械学習モデル又はアルゴリズム２１０、機械学習モデル２１０用のトレーニングデータセット２１２、生のソースデータセット２１６を格納することができる。

コンピューティングシステム２０２は、外部のシステム及びデバイスとの通信を提供するように構成されたネットワークインタフェースデバイス２２２を含み得る。例えば、ネットワークインタフェースデバイス２２２は、電気電子学会（ＩＥＥＥ）８０２．１１規格ファミリによって定義される有線及び／又は無線イーサネットインタフェースを含み得る。ネットワークインタフェースデバイス２２２は、セルラーネットワーク（例えば、３Ｇ、４Ｇ、５Ｇ）と通信するためのセルラー通信インタフェースを含み得る。ネットワークインタフェースデバイス２２２は、外部ネットワーク２２４又はクラウドに通信インタフェースを提供するようにさらに構成されるものとしてもよい。

外部ネットワーク２２４は、ワールドワイドウェブ又はインターネットと称される場合がある。外部ネットワーク２２４は、コンピューティングデバイス間の標準通信プロトコルを確立することができる。外部ネットワーク２２４は、コンピューティングデバイスとネットワークとの間の情報及びデータ交換を容易にさせることができる。１つ又は複数のサーバ２３０が外部ネットワーク２２４と通信するものとしてもよい。

コンピューティングシステム２０２は、デジタル及び／又はアナログの入力及び出力を提供するように構成され得る入力／出力（Ｉ／Ｏ）インタフェース２２０を含み得る。Ｉ／Ｏインタフェース２２０は、内部ストレージと外部入力及び／又は出力デバイス（例えば、ＨＭＩデバイス）との間で情報を転送するために使用されている。Ｉ／Ｏインタフェース２２０は、プロセッサ及びストレージに対して又はそれらの間で情報を転送するための関連付けされた回路又はＢＵＳネットワークを含み得る。例えば、Ｉ／Ｏインタフェース２２０は、プロセッサによって読み取り又は設定され得るデジタルＩ／Ｏ論理線路、Ｉ／Ｏ線路を介したデータ転送を監視するためのハンドシェーク線路、タイミング及びカウント設備、並びに、そのような機能を提供することが既知である他の構造部を含み得る。入力デバイスの例には、キーボード、マウス、センサなどが含まれる。出力デバイスの例には、モニタ、プリンタ、スピーカなどが含まれる。Ｉ／Ｏインタフェース２２０は、外部デバイスと通信するための付加的なシリアルインタフェース（例えば、ユニバーサルシリアルバス（ＵＳＢ）インタフェース）を含み得る。Ｉ／Ｏインタフェース２２０は、（センサなどの外部入力からのデータを転送するという意味において）入力インタフェース又は（ディスプレイなどの外部出力にデータを転送するという意味において）出力インタフェースと称することができる。

コンピューティングシステム２０２は、システム２００が制御入力を受信できるようにする任意のデバイスを含み得るヒューマンマシンインタフェース（ＨＭＩ）デバイス２１８を含み得る。入力デバイスの例には、キーボード、マウス、タッチスクリーン、音声入力デバイス、及び、他の同様のデバイスなどのヒューマンインタフェース入力が含まれ得る。コンピューティングシステム２０２は、ディスプレイデバイス２３２を含み得る。コンピューティングシステム２０２は、グラフィックス及びテキスト情報をディスプレイデバイス２３２に出力するためのハードウェア及びソフトウェアを含み得る。ディスプレイデバイス２３２は、電子表示スクリーン、プロジェクタ、プリンタ、又は、ユーザ若しくはオペレータに情報を表示するための他の適当なデバイスを含み得る。コンピューティングシステム２０２は、ネットワークインタフェースデバイス２２２を介してリモートＨＭＩ及びリモートディスプレイデバイスとの対話を可能にするようにさらに構成されるものとしてよい。

システム２００は、１つ又は複数のコンピューティングシステムを使用して実装されるものとしてよい。この例は、記載された特徴のすべてを実装する単一のコンピューティングシステム２０２を示しているが、様々な特徴及び機能が、相互に通信する複数のコンピューティングユニットによって分離され実装され得ることが意図されている。選択される特定のシステムアーキテクチャは、様々な要因に依存し得る。

システム２００は、生のソースデータセット２１６を分析するように構成された機械学習アルゴリズム２１０を実装することができる。この生のソースデータセット２１６は、機械学習システムのための入力データセットを表し得る生の又は未処理のセンサデータを含み得る。この生のソースデータセット２１６は、音量、調性、鮮明さなどの測定可能な音質を含み得る。生のソースデータセット２１６は、それでもなお、時系列データなど（例えば、経時的な圧力センサ信号、振動データ、温度データ、電圧データ、電流データなど）、デバイスによって生成される音の原因となり得る又はそうでなければ関連付けられ得る測定可能な非音質も含み得る。生のソースデータセット２１６は、本明細書に記載される１つ若しくは複数のセンサによって受信される又は本明細書に記載される１つ若しくは複数のセンサに由来する完全に生のセンサデータ又は部分的に処理されたセンサデータであるものとしてもよい。入力のいくつかの異なる例は、図５乃至図１１を参照して示され、説明される。いくつかの例においては、機械学習モデル２１０は、予め定められた機能を実行するように設計されたニューラルネットワークアルゴリズム（例えば、ディープニューラルネットワーク）であるものとしてよい。例えば、ニューラルネットワークアルゴリズムは、車両エンジン又はモーターの音の快適性スコアを予測するように構成されるものとしてもよい。機械学習モデル２１０は、図３乃至図４を参照して以下においてさらに説明されるバイナリ分類モデル、回帰モデル及び回帰予測モデルを動作させるように構成されたアルゴリズムを含み得る。

コンピュータシステム２００は、機械学習モデル２１０用のトレーニングデータセット２１２を格納することができる。このトレーニングデータセット２１２は、機械学習モデル２１０をトレーニングするために先に構築されたデータのセットを表すことができる。例えば、トレーニングデータセット２１２は、上述の測定可能な音質又は非音質と、対応する音の快適性に対する関連付けられたスコア又はランクとを含み得る。トレーニングデータセット２１２は、ニューラルネットワークアルゴリズムに関連付けられた重み係数を学習するための機械学習アルゴリズム２１０によって使用されるものとしてよい。トレーニングデータセット２１２は、機械学習アルゴリズム２１０が学習プロセスを介して複製することを試みる対応する成果又は結果を有するソースデータのセットを含み得る。

機械学習アルゴリズム２１０は、入力としてトレーニングデータセット２１２を使用する学習モードで動作させられるものとしてよい。この機械学習アルゴリズム２１０は、トレーニングデータセット２１２からのデータを使用して複数の反復にわたって実行されるものとしてよい。各反復を用いることにより、機械学習アルゴリズム２１０は、達成された結果に基づいて内部重み付け係数を更新することができる。例えば、機械学習アルゴリズム２１０は、新たな音（例えば、それに関連付けられた測定可能な音質又は非音質）をトレーニングデータセット２１２に含まれる音と比較することができる。トレーニングデータセット２１２には予想される結果が含まれるため、機械学習アルゴリズム２１０は、許容可能な性能であるときを決定することができる。機械学習アルゴリズム２１０が予め定められた性能レベル（例えば、トレーニングデータセット２１２に関連付けられた結果と１００％一致するレベル）又は収束に達した後、機械学習アルゴリズム２１０は、トレーニングデータセット２１２にないデータを使用して実行されるものとしてよい。本開示において、「収束」とは、設定された（例えば、予め定められた）反復の数が発生したこと、若しくは、残差が十分に小さいこと（例えば、反復にわたって近似確率における変化が閾値未満の変化であること）、又は、他の収束条件であることを意味し得ることを理解されたい。トレーニングされた機械学習アルゴリズム２１０は、注釈付きデータを生成する新しいデータセットに適用されるものとしてよい。

機械学習アルゴリズム２１０は、高音の快適性に対応する生のソースデータ２１６内の特定の特徴、及び、低音の快適性に対応する他の特徴を識別するように構成されるものとしてよい。生のソースデータ２１６は、音の快適性が求められる複数のインスタンス又は入力データセットを含み得る。例えば、機械学習アルゴリズム２１０は、むしろ低い快適性スコアに相当することが多い特定の音のピッチ又はトーンの存在を識別するように構成されるものとしてよい。機械学習アルゴリズム２１０は、生のソースデータ２１６を処理して特定の特徴の存在を識別するようにプログラミングされるものとしてよい。

生のソースデータ２１６は、様々なソースから導出されるものとしてよい。例えば、生のソースデータ２１６は、機械学習システムによって収集された実際の入力データであるものとしてもよい。生のソースデータ２１６は、システムをテストするために機械で生成されるものとしてもよい。実施形態においては、生のソースデータ２１６は、マイク又は他の音響的センサ（例えば、マイク、ピーク検出器及び増幅器を有する音響的センサモジュール）から受信した測定可能な音質を含む。ノイズフィルタリング、最小閾値及び最大閾値、ピーク検出などの他の前処理を生のソースデータ２１６に適用することも可能である。例えば、マイクは、音を検出することができるが、マイクシステム（例えば、関連付けられたプロセッサを備えたマイク）は、音の測定可能な音質を検出又は決定することができる。

モデルを実行するように構成された図１乃至図２の構造例とともに、機械学習モデルの上記の説明から、図３Ａは、一実施形態による、音の快適性評価を予測するためのシステム３００のフローチャートを示している。このシステム３００は、音の快適性の最終予測に使用できる機械学習モデル（例えば、バイナリ分類モデル）をトレーニングするためのシステムを含むという点において、エンドツーエンドであり得る。もちろん、本明細書の別の箇所で述べたように、システム３００は、音の快適性を予測するものとして言及されるが、それでもなおデバイスによって出力される音に関連付けることができる振動などの測定可能な非音データについても使用することが可能である。

図３Ａには、２つのモデル、すなわち、バイナリ分類モデルと回帰モデルとが示されている。図３Ａは、これらの２つのモデルの使用と実装とを示している。ただし、最初は、これらのモデルをトレーニングする必要がある。バイナリ分類モデルをトレーニングするために、複数の人による審査者によって既に評価された音に関する入力データが受信される。一例として、人による審査者は、リスニングテストにおいて、ヒートポンプ、モーター、ローター、車両エンジン、電動工具、家電製品、コンピュータ、ラップトップなどの１つ又は複数の様々なデバイスによって出力されるｎ個の音を聞くことができる。リスニングテストの対象となるデバイスのタイプは事実上無限であり、音を生成するあらゆるものが含まれる。審査者は、単純に、それらの音の快適性に基づいて例えば０から１０までのスケールで音を評価することができる。その間、音に関連付けられた測定可能な音データは、例えば、生のソースデータ２１６としてメモリ２０８に記録される。測定可能な音データには、記述的な量を含めることができ、それらは、スカラ（例えば、音量、調性、鮮明さなどの音響心理量）、一次元ベクトル（例えば、経時的な音量）、又は、二次元スペクトル（高速フーリエ変換（ＦＦＴ）対時間などの周波数分析など）であり得る。異なる入力チャネルを使用したこれらの測定可能な品質の組合せも可能である。

トレーニング用のモデルを準備するために、評価された音が両方向において相互に結合される（例えば、音ｎ_１が音ｎ_２と比較され、音ｎ_２が音ｎ_１と比較される）。測定された音質間の差分、及び、審査者の評価が、両方向において計算される。これは、対ごとの方式により行うことができる。例えば、各音の測定された音データの各々、及び、各音の対応する快適性評価について、データは、ｎ個の対ごとの比較に変換される。音の数をｎ個と想定すれば、これによってｎ^２個の比較対が得られる。主対角線のもの（例えば、音２と比較される音２などそれ自体と比較される音）については、データから削除し又はゼロにすることができる。同様に、厳密に同一の審査者評価を有する音の比較が存在する場合（例えば、音７と比較した音４の審査者評価間の差分がゼロである場合）は削除することができる。そのような対ごとの比較は、測定可能な音データ及び審査者評価について作成することができる。結果として得られるデータは、モデルによる処理を改善するために（例えば、０から１までのスケールで）スケーリングすることができる。

図３Ｂは、７つの異なる音のそのような対ごとの比較から結果として得られるテーブル３５０の例を示している。この例は、音の快適性についての審査者評価間の差分を０から１までのスケールで示している。各列の水平ヘッダは、比較における第１の音を表し、各行の垂直ヘッダは、比較における第２の音を表す。この図示の例においては、列「音１」と行「音２」との交点にあるセルは、音１から音２までの快適性評価における差分である。０乃至１０のスケールの審査者評価の例においては、この対ごとの比較は、－１０（１０と評価された最良音との比較において０と評価された最悪音）と１０（０と評価された最悪音との比較において１０と評価された最良音）との間の、２つの比較音間の審査者評価差分につながる。対角線の反対側の値（例えば、音Ｂに対する音Ａの比較、及び、音Ａに対する音Ｂの比較）は、同一の値を有するが、異なった算術符号（＋／－）を有する。したがって、これらの対ごとの評価差分は、対ごとの最大差分による除算（この例においては、これは１０による除算）によって、－１から１までのスケールでスケーリングすることができ、これは、対角線の反対側の値との関係を依然として保持する。０と１との間のスケーリングには、２つの比較差分（Ａ－Ｂ及びＢ－Ａ）の合計が常に１に等しくなるような値のシフトが含まれる。図３Ｂに示されているように、対ごとの比較の合計数は、「音の数の２乗」から、「それ自体と比較される対角線の各音質」を減算した値又は（ｎ^２－ｎ）に等しくなる。

図示されていないが、各音について測定された他の音質（例えば、鮮明さ、調性、音量など）の各々について、同様の対ごとの比較表を作成することができる。例えば、各音の調性を他の音の各々の調性と比較する同様の表を作成することができ、それによって、各音の音質が他のすべての音の音質と対ごとの方式により比較される。これは、音量や鮮明さなど、測定可能な他の音についても行うことができる。

実施形態によれば、システムへの入力（例えば、測定された音質及び審査者評価）は、バイナリ分類モデルに別個に又は個別に供給されない。代わりに、それらの差分は、前述の対ごとの比較に従って最初に計算される。これにより、必要なモデルの重みの数が低減され、それゆえ、トレーニングデータの必要な量及び重みの最適化の点において、より効率的になる。付加的に、このアプローチにおいては、自動的に０を中心とする入力変数が得られ、これは、典型的には問題解決に適した機械学習方法にとって有利となる。差分の使用は、２つの比較音の（音量などの）音特性の実際の値に関係なく、同一の差分は、常に同様の好みにつながるという仮定に基づいている。この仮定が有効でない場合、特性絶対値（例えば、音Ａの最大音圧レベル）をさらなる入力チャネルを通じてモデルに付加的に転送することができ、これにより、上述の利点を維持しながら、２つの音が別個に転送されることに比較して最適化されるモデルパラメータの数が依然としてより少なくなるように導かれる。

快適性スコアとそれらの差分とに関して、バイナリ分類モデルは、各快適性スコアの差分をバイナリ値、例えば「０」又は「１」のいずれかで上書きすることによってトレーニングすることができる。比較されるそれぞれの各音評価について、これらの対ごとの比較の出力は、各比較においてどちらの音がより良好と評価されたかに依存して、バイナリ値のいずれか一方で上書きされる。例えば、図３Ｂを参照すると、音２の審査者評価が音３よりも良好と評価されている場合（０．８８の差分で示されている）、その値は、音２が審査者によって快適性がより高いものであると評価されたことを示す「１」で上書きされる。列ヘッダにおける音の快適性が、行ヘッダにおける音の快適性よりも良好と評価されているすべての音については、その値を「１」に置き換えることができ、列ヘッダにおける音の快適性が、行ヘッダにおける音の快適性よりも不良と評価されているすべての音については、その値を「０」に置き換えることができる。図３Ｃは、図３Ｂの値をバイナリ値形式に変換した結果として得られるバイナリテーブル３６０を示している。

前記の別の態様においては、バイナリ分類モデルは、（ａ）各音の快適性評価と、他のすべての音の快適性評価との間の差分を対ごとの方式により決定するステップと、（ｂ）それらの差分を、各対ごとの比較においてどちらの快適性評価が他方を超えているかに依存して第１のバイナリ値又は第２のバイナリ値のいずれかに変換するステップと、によってトレーニングすることができる。

測定可能な音データ入力は、他方では、バイナリ形式に変換する必要はない。ただし、各対ごとの比較の測定可能な音質間の差分は、メモリに格納することができ、バイナリ分類モデルを実行するときに依存させることができる。例えば、音２が４５ｄＢの音量を有し、かつ、音３が７２ｄＢの音量を有する場合には、音２と音３との間の差分は、－２７として格納することができ、音３と音２との間の差分は、２７として格納することができる。

したがって、バイナリ分類モデルは、音のバイナリ分類を行うために最適化される。測定可能な音質をそれに関連付けられた音評価比較で処理することにより、モデルは、測定された音質の差分に基づいて、２つの音の間でバイナリ予測を行うように構成される（例えば、音Ａが音Ｂよりも快適性が高い場合は「１」、音Ｂが音Ａよりも快適性が高い場合は「０」）。バイナリ分類モデルは、そのような予測を実行するために、ニューラルネットワーク（ディープニューラルネットワークなど）又はバイナリ分類に適した他の数学的手法（ランダムフォレスト、サポートベクターマシンなど）に依存させることができる。

これにより、バイナリ分類モデルを審査者によって評価されていない新しい音に作用させることが可能になる。図３Ａを参照すると、システム３００は、以下の実施形態に従って進行することができる。ステップ３０２においては、審査者によって既に評価された音が受信され又はストレージから取得される。これには、各音の審査者評価比較だけでなく、各音の測定可能な音質、及び、上述したすべての対ごとの比較も含まれる。

ステップ３０４においては、審査者によってスコアリングされていない新しい音（例えば、「音Ｘ」）が処理される。これには、マイクを介して音を受信すること、及び／又は、音の大きさ、鮮明さ、調性などの測定可能な品質を決定するために音を処理することが含まれる。音は、上述したように、スカラ音響心理量又は二次元スペクトルなど、既に評価された音が記述される任意の形式で記述することも可能である。

ステップ３０６においては、システムは、未評価音Ｘと既に評価された音の数ｎとの間の対ごとの比較を実行する。この計算には、ステップ３０４で決定された音量、調性、鮮明さなどの各測定可能な音質の対ごとの比較が含まれる。音Ｘのこれらの測定可能な音質は、ステップ３０２の評価された音の対応する測定可能な音質と対ごとの方式により比較される。例えば、音Ｘの調性は、音１～ｎの各々の調性と比較される。同様の比較は、音Ｘと音１～ｎとの間の他の音質（鮮明さ、音量など）の各々について行われる。

上記において説明したように、バイナリ分類モデルは、ステップ３０４及びステップ３０６からの測定可能な音質入力を別個に又は個別に受信又は処理しない。代わりに、音質の各タイプについて、それらの音の各々の間の差分が計算される。これらの差分は、ステップ３０８でバイナリ分類モデルへの入力として使用される。上記において説明したように、これにより、必要なモデルの重みの数が低減され、したがって、必要なトレーニングデータ量の点においても、重みの最適化の点においても、より効率的になる。

ステップ３０８においては、バイナリ分類モデルは、音Ｘが他の音１～ｎの各々よりも良好であるかどうかを予測する。これは、上記において計算された差分（例えば、各音についての測定可能な音質の対ごとの比較）に基づいて、上述したもの（例えば、ランダムフォレスト、サポートベクターマシンなど）のようなニューラルネットワークを使用して行うことができる。各音比較について、ステップ３０８でのバイナリ分類モデルの結果は、音Ｘが比較される音（例えば、音Ａ）よりも快適性が高いと予測される場合には「１」を返すことができ、音Ｘが音Ａよりも快適性が低いと予測される場合には「０」を返すことができる。一実施形態によれば、この結果は二進整数である必要はなく、代わりに０と１との間の範囲の浮動小数点数でよく、これは、０又は１で評価される比較対の確率として解釈することができる。１に近い予測は、音Ｘが音Ａよりも快適性が高いということの高い確率として解釈され、０に近い予測は、音Ｘが音Ａよりも快適性が低いということの高い確率として解釈される。

バイナリ分類モデルの結果は、音Ｘと、既に評価された他のすべての音との比較である。審査者によって評価されたそれらの快適性スコアとともに、評価された音１～ｎの測定可能な音質に基づいて、バイナリ分類モデルは、各音との比較として音Ｘの快適性の尤度又は信頼度に関して、０と１との間のスコアを出力するように構成されている。例えば、バイナリ分類モデルは、音Ｘを音７と比較するときに、音Ｘが音７よりも高い快適性の音を有することが審査者によって評価される比較的高い信頼度が示される場合、数０．９２を出力することができる。対照的に、バイナリ分類モデルは、音Ｘを音８と比較するときに、音Ｘが音８よりも低い快適性の音を有することが審査者によって評価される比較的高い信頼度が示される場合、数０．１１を出力することができる。

ステップ３０８におけるバイナリ分類モデルの出力は、音Ｘを他の任意の音と比較するために使用することができる。これらの出力は、そのような音ごとの比較が望まれる場合、それら独自のスタンドアロン使用を有する。一例として、ユーザは、音Ｘが音３、音５及び／又は音７よりも快適性が高いと審査者によって評価されるかどうかを理解したいと望むことがあり得る。しかしながら、バイナリ分類モデル３０８からの出力は、音Ｘの全体的な快適性評価を生成するために使用することもできる。例えば、回帰モデルは、評価された音の付加的なセットをバイナリ分類モデルのトレーニング中に使用された先行評価音との比較によってトレーニングすることができる。これは、結果として、先行評価音と比較される付加的な各音についての快適性予測とともに、測定された各音質についての対ごとの比較となる。代替的に、数ｋの代表的な音を、バイナリ分類モデルをトレーニングするために使用された先行評価音から選択し、先行評価音の残余のｎ－ｋ個の音と比較することもできる。これらの比較は、他のすべての音との対ごとの比較のバイナリ分類モデルの予測を、連続スケールでの実際の審査者評価に転送する回帰モデルを最適化するための基礎として役立つ。一度トレーニングされると、回帰タスクは、新しい音（例えば、音Ｘ）の測定可能な音質をトレーニングから既に既知の音質と比較することができる。

図３Ａに示されている例を参照すると、ステップ３１０においては、音Ｘとバイナリ分類モデル３０８によって使用される数ｎの審査者評価音との間のすべての対ごとの比較が累算される。数ｎの審査者評価音の快適性評価をコンパイルすることも可能である。例えば、本明細書において示されているように、音Ｘと音１との比較について、０．８１は、音１の快適性評価を表し、音Ｘと音２との比較について、１．０９は、音２の快適性評価を表すなどである。上述したように、これらの審査者音評価は、本明細書のステップ３１０で示されているように、０から１０までのスケールであるものとしてもよいが、０～１００などの他のスケール、又は、文字グレード（「Ａ」乃至「Ｆ」）などが使用されるものとしてもよい。ステップ３１０の最後の行は、モデル予測を示し、これも音Ｘが比較音相手よりも高く又は低く評価されたかどうかを０と１との間の数で表している。例えば、音Ｘと音１との比較においては、０．０２が得られ、これは、音Ｘが音１よりも快適性が低いということの高い確信度又は確率を示す。同様に、音Ｘと音ｎとの比較においては、０．９９が得られ、これは、音Ｘが音ｎよりも快適性が高いということの高い確信度又は確率を示す。

ステップ３１２においては、回帰タスクを利用して、回帰モデルが、音Ｘの全体的な快適性評価を出力する。音Ｘと評価音との比較に関するステップ３１０での各モデル予測出力は、ステップ３１２での回帰タスクによって利用される。一般に、回帰タスクは、バイナリ分類モデルからの予測リスト（例えば、音Ｘと既に既知の各音との比較）と、比較相手の既知の審査者評価とから、未知音Ｘの最終評価の結論が引き出される。１つのアプローチにおいては、バイナリ分類モデルが、音Ｘがより良好な評価を受けることを予測した最低評価既知音の既知の審査者予測を取得し、バイナリ分類モデルが、音Ｘがより不良な評価を受けることを予測した最高評価音の既知の審査者予測を取得し、これら２つの平均を音Ｘの最終審査者評価として導出することが可能である。他のより複雑なモデルは、比較音の既知の審査者評価の値分布を含むバイナリ予測値の全範囲を考慮に入れることができる。このようなモデルは、バイナリ分類器と同様に、機械学習モデルにすることができる。

したがって、回帰モデル３１２は、審査者によって評価されていない様々な音の予測される快適性スコアを出力するように構成することができる。この快適性スコアは、審査者によって使用されるのと同様のスケール（例えば、０から１０までのスケール）と一致するようにスケーリングすることができる。新しい未評価音の予想される審査者評価を予測するために、これらの音は、最初に、調性、鮮明さ及び／又は音量など、バイナリ分類モデル３０８をトレーニングするために使用されたのと同様の量によって記述されるべきである。次いで、これらの音は、（例えば、ステップ３０２で説明したように）バイナリ分類モデル３０８のトレーニングに使用される既知の音と対にされ、測定された音の量の差分が形成される。必要に応じて、これらは、バイナリ分類モデルの最適化におけるのと同様のスケーリング方法を使用して前処理される。次いで、バイナリ分類モデル３１２は、各音の比較対について予測を行い、新しい未評価音を先行評価音と比較する。次いで、既に既知のｎ個又はｎ－ｋ個の音との予測された比較結果の結果リストは、連続スケールでの最終回帰のために回帰モデルによって使用される。

図３の実施形態は、一実施形態によれば、極値の特別な考慮を含む。新しい音がモデルのトレーニングに使用されたどの音よりも不良であることが予測される場合、最悪のトレーニング評価からすべてのトレーニング音の平均差を引いたものがその音に割り当てられる。反対に、新しい音がどの所定のトレーニング音よりも良好であることが予測される場合は、最高のトレーニング評価とすべてのトレーニング音の平均差とを足したものがその音に割り当てられる。

図３の実施形態も、０と１とのリストに基づいてではなく、第２の後続の回帰モデルを使用した予測確率に基づいて、最終的な回帰決定を行う。この目的のために、対ごとの比較の予測は、０又は１に丸められるのではなく、０と１との間の浮動小数点数として残され、これは、イベントがその比較音よりも良好か不良かの確率として解釈することができる。次いで、第２のモデル（例えば、回帰モデル）は、第１のモデル（例えば、２項分類モデル）によって実行された対比較の予測確率に基づいて、新しい音についての最終回帰決定を行う。これは、第２のモデルがここではバイナリ分類よりも複雑である回帰タスクを解決する必要があることを意味するが、しかしながら、第１のモデルによって実行された広範な前処理の恩恵を受けることが可能である。

図３の実施形態は、２つの音の差分が２項分類モデルに対する入力として使用されるため、対比較の２項分類に関して効率的である。付加的に、この実施形態は、極値を考慮し、特に既にラベル付けされたトレーニング音の数が増加する場合に、０と１との２つのリストに基づく最終回帰結果の単なる推定よりも正確な予測を可能にする。

図４は、未評価音の快適性評価を決定するためのシステム４００のフローチャートの代替的実施形態を示している。図４に示されているフローチャートに示されるステップも、例えば、図１乃至図２に示される構造を使用して実行されるものとしてもよい。図３を参照して上記において説明した方法とは異なり、ここでは、対ごとの分類が使用されているが、ここでのこの実施形態によれば、対ごとの相対回帰問題が、絶対的な対ごとの予測値にわたる後続の平均とともに使用されている。

一般に、回帰問題は、関数

を求めるタスクとして定式化することができるため、

を用いることにより、トレーニングデータセットＸ，Ｙのすべてのｎ個のサンプル対（ｘ_ｉ，ｙ_ｉ）∈（Ｘ，Ｙ）にわたって、誤差又は損失率

が最小化される。図４の例においては、ｘは、測定された音の音質であり、ｙは、例えば０から１０までのスケールでスケーリング可能なスコアである。本明細書において使用する対ごとの相対回帰は、関数

を求める問題として定式化することができるため、トレーニングデータセットＸ，Ｙのすべての（ｘ_ｉ，ｙ_ｉ）∈（Ｘ，Ｙ），（ｘ_ｊ，ｙ_ｊ）∈（Ｘ，Ｙ）について、誤差又は損失率

が最小化される。その後、絶対スケールへの回帰が、対ごとの相対回帰の予測にわたる適当な平均化によって実行され、例えば、欠損値が

として、例えば、

及び｜ｘ_ｉ－ｙ_ｉ｜を入力データ空間における適当な距離メトリック（例えば、ユークリッド標準）として用いた

としての負の指数回帰差分に基づく重み付けで平均化することによって計算される。ここで、

は、音ｉの最終評価予測であり、

は、音ｉと音ｊとの間の評価差分についての回帰モデルの予測であり、ｙ_ｊは、比較音ｊの既知の評価であり、Ｍは、平均化関数であり、Ｃ２は、定数であり、ｘ_ｉ，ｘ_ｊは、入力特徴空間における音ｉ及び音ｊの量（例えば、ｉ及びｊについての音量値）である。誤差又は損失率Ｌについての例示的な任意選択肢は、トレーニング値の平均二乗偏差の平方根（「二乗平均平方根誤差」）、すなわち、

である。

図４を参照すると、システム４００は、以下において説明する回帰予測モデルを含む。最初に、モデルがトレーニングされる。このトレーニングには、図３を参照して上記において説明したのと同様のトレーニングデータを含めることができる。例えば、回帰予測モデルは、リスニングテストにおいて１人又は複数の審査者によって既に評価された音を使用する機械学習方法（例えば、人工ニューラルネットワーク）に基づいてトレーニングすることができる。このモデルの入力データとして使用される記述量は、スカラ（例えば、音量、調性、鮮明さ）、一次元ベクトル（例えば、音量対時間）、二次元スペクトル（例えば、ＦＦＴ対時間）、又は、異なる表現の組合せであり得る。モデルをトレーニングするための準備のために、すべての評価音が両方向において相互に結合される（例えば、音Ａと音Ｂとの比較、及び、音Ｂと音Ａとの比較）。次いで、入力データ対は、別個の入力チャネルを通じて、２つの比較音の特徴の差分を受け取る１つの入力チャネルを介して、又は、付加的特性量とともに差分の組合せを使用して、回帰予測モデルに供給することができる。出力変数として、対になった音の審査者評価の差分が形成される。音の数がｎ個の場合、ｎ^２個の比較対が得られる。音の差分が入力として使用される場合、主対角線上のすべての入力及び出力量はゼロであるため、主対角線上の比較を削除することができる（上記の図３Ｂと同様）。次いで、入力データは、アルゴリズムによる良好な処理のためにスケーリングされるものとしてよい。回帰予測モデルのターゲット変数は、比較された２つの音の審査者評価における差分である。次いで、モデルは、入力変数の対が供給されたときに２つの審査者評価の差分を予測するように最適化される。

一度トレーニングされると、これにより、回帰予測モデルを審査者によって評価されていない新しい音に作用させることが可能になる。図４を参照すると、システム４００は、以下の実施形態に従って進行することができる。ステップ４０２においては、審査者によって既に評価された音が受信され又はストレージから取得される。これには、各音の審査者評価比較だけでなく、各音の測定可能な音質、及び、上述したすべての対ごとの比較も含まれる。ｊ＝１…ｎの場合、これらの音ｘ_ｊがｎ個の数だけ受信又は取得される。

ステップ４０４においては、審査者によってスコアリングされていない新しい音（例えば、「ｘ_ｉ」）が処理される。これには、マイクを介して音を受信すること、及び／又は、音の大きさ、鮮明さ、調性などの測定可能な品質を決定するために音を処理することが含まれる。音は、上述したように、スカラ音響心理量又は二次元スペクトルなど、既に評価された音が記述される任意の形式で記述することも可能である。

次いで、対ごとの相対回帰予測モデルとも称される回帰予測モデル４０６が、対ごとの方式によりこのデータに作用し、未評価音ｘ_ｉの測定された音質が各審査者評価音ｘ_ｊの測定された音質と比較される。このモデルは、すべての対比較について、新しい音の審査者評価とそれぞれの比較音との間の差分を予測する。上記の例に従ってトレーニングされたモデルを使用して、回帰予測モデル４０６は、ｘ_ｉの音質をｘ_ｊの音質と比較し、既に評価された音ｘ_ｊの既知の審査者評価とともに、比較された２つの品質に基づいて予測ｙ_ｉ，ｊを出力することができる。

ステップ４０６での例４０６には、ｊ＝１…ｎの場合の各音ｘ_ｊと比較された音ｘ_ｉの予測評価が示されている。この例においては、新しい未評価音ｘ_ｉを音ｘ_１と比較した場合、モデルは、新しい音ｘ_ｉが、審査者によって評価された比較音ｘ_１の既知の評価ｙ_１よりも＋４．１５高くなる評価（ｙ_ｉ）を有することを予測する。換言すれば、モデルは、音ｘ_ｊと音ｘ_１との対ごとの比較について、４．１５の予測される快適性差分評価を出力する。このプロセスは、各音ｘ_ｊについて音の数ｎ個まで継続され、未評価音を各々と比較する。この例においては、音ｘ_ｎにおいて、モデルは、未評価音ｘ_ｉと評価音ｘ_ｎとの間の評価の差分が－４．５になると予測する。換言すれば、０から１０までのスケールでの評価は、未評価音ｘ_ｉについて４．５小さくなる。

ステップ４０８においては、回帰予測モデル４０６の出力からの比較結果が要約のためにコンパイル又は累算される。換言すれば、未評価音ｘ_ｉとそれぞれの各評価音ｘ_ｊとの間の評価における差分がコンパイルされる。第１の行は、未評価音と比較される各音の既知の評価ｙ_ｊを示す。例えば、第１の音ｘ_１についての音の快適性の審査者平均評価ｙ_１は、０．８１であり、第２の音ｘ_２についての音の快適性の審査者平均評価ｙ_２は、１．０９などである。各音について、この数値が回帰予測モデル４０６の出力に加算又は結合され、合計された評価

に達する。これは、回帰予測モデルを使用した、既に評価された各音との比較に基づいて、未評価音の予測評価を表す。

ステップ４１０においては、システムは、合計されたすべての評価の加重平均を決定する。一実施形態においては、重みは、実際の平均からの開きに依存して、合計された評価の各々に付けられる。例えば、合計された評価が平均から逸脱するほど、それらの合計された評価に付けられる重みは低減する。これにより、評価は平均に近いほどより重く重み付けされる。

結果として得られる加重平均は、新しい未評価音の全体的な予測快適性評価ｙ_ｉを表す。したがって、システム４００は、未評価音の測定された音質を、回帰予測モデルにおいて既に審査者により評価された音の音質と比較することによって、未評価音の快適性評価を予測することができる。

一般に、一度回帰予測モデルがトレーニングされると、それは、新しい未評価音の予想される審査者評価を予測するために使用することができる。新しい未評価音の予想される審査者評価を予測するために、最初に未評価音は、モデルのトレーニングに使用した量と同様の量（例えば、音量、調性、鮮明さなど）によって記述されることが必要である。次いで、測定された各音質が、モデルのトレーニングに使用された既に評価された音の各々の対応する音質と対になる。対比較の入力量が導出される。必要に応じて、これらは、モデルの最適化と同様のスケーリング方法を使用して前処理される。次いで、モデルは、すべての対比較について、新しい音の審査者評価とそれぞれの比較音との間の差分を予測する。ここで、未評価音の所望の審査者評価は、すべての既知の音評価の対応する加重平均と、未評価音に対する関連付けられた予測差分とを計算することによって決定することができる。

図３の実施形態及び他のシステムと比較した図４のシステムの１つの利点は、初期回帰タスクを分類問題に変換する中間ステップが必要ないことである。分類タスクへの変換の場合、分類問題の変動領域内（したがって、予測「０－新しい音は調性／快適性／…が低い」と「１－新しい音は調性／快適性／…が高い」との間）のサンプルのみが予測結果に寄与する可能性があり、すべてのトレーニングサンプルの対比較は、相対回帰アプローチの場合に寄与する可能性があり、これは予測精度を向上させ得る。

確立された方法に関する利点は、特に、モデルのトレーニング又は回帰関数の較正のためにそれぞれ少量のデータしか利用できない場合に達成することができる。比較対の２つのサンプルのデータをモデルに供給することは、（ａ）

として別個に（例えば、人工ニューラルネットワークの２つの異なる入力チャネルを介して）行うことができ、同様に、（ｂ）２つのサンプルの差分

として、又は、（ｃ）サンプルと１つ又は複数の付加的特性量との間の差分の組合せ

として行うことができる。アプローチ（ａ）は、特に、サンプルの高次元表現（例えば、音響タスクの場合における音の短期スペクトル又は時間信号）の場合に適しているが、変形形態（ｂ）及び（ｃ）は、特に、サンプルの低次元表現（例えば、音響タスクの場合における一次元音響心理量の組合せ）に適している。

付加的に、図４で説明した方法は概念的に単純であり、分類問題を回帰問題に変換するステップはもはや必要なく、相対回帰値にわたる平均化によって置き換えられる。

上述したシステム及び方法は、例えば、製品によって放出される音の音響特性（例えば、音の快適性、音量、調性など）に関して製品の制御を最適化するために使用することができる。この最適化は、製品開発プロセスの段階で行われることも、製品適用時に動的に行われることも可能である。使用ケースの一例として、住宅密集地におけるヒートポンプが挙げられ、ここでは、上述のシステムは、（ｉ）製品から放出される音質を測定するためにセンサ（マイク、加速度センサなど）を使用し、（ｉｉ）システムに既に既知である音の音質との対ごとの比較に基づいてその快適性を評価する。この評価は、ヒートポンプによって生成される音を変化させるために、現下の動作点におけるヒートポンプの制御を最適化するために使用することができる。

提案されたアプローチを使用してそれらの音響特性を最適化することができるデバイスの他の例は、電気自動車、電動工具、及び、他のデバイスである。これらの例は、図６乃至図１１に示されており、以下において説明される。これらの用途（及び他の用途）のための機械学習モデルをトレーニングして使用するために使用される構造が図５に例示されている。

図５は、コンピュータ制御された機械５００と制御システム５０２との間の対話の概略図を示している。コンピュータ制御された機械５００は、アクチュエータ５０４及びセンサ５０６を含む。アクチュエータ５０４は、１つ又は複数のアクチュエータを含み得るものであり、センサ５０６は、１つ又は複数のセンサを含み得る。センサ５０６は、コンピュータ制御された機械５００の状態を感知するように構成されている。センサ５０６は、感知された状態をセンサ信号５０８に符号化し、このセンサ信号５０８を制御システム５０２に伝送するように構成されるものとしてよい。センサ５０６の非限定的な例には、マイク、ビデオ、レーダ、ＬｉＤＡＲ、超音波、及び、モーションセンサが含まれる。

制御システム５０２は、コンピュータ制御された機械５００からセンサ信号５０８を受信するように構成されている。以下に説明するように、制御システム５０２は、センサ信号に依存してアクチュエータ制御コマンド５１０を計算し、このアクチュエータ制御コマンド５１０をコンピュータ制御された機械５００のアクチュエータ５０４に伝送するようにさらに構成されるものとしてよい。一実施形態においては、制御システム５０２は、本明細書に記載されるモデルの出力に依存してアクチュエータ制御コマンド５１０を計算するようにさらに構成されるものとしてよい。例えば、アクチュエータ制御コマンド５１０は、本明細書に記載されるモデルを使用して、未評価音の予測快適性に基づいて計算することができる。１つ又は複数のデバイスから放出される音が閾値未満の快適性を有することが予測される場合、システムは、それぞれの１つ又は複数のデバイスを分離又は編成するようにアクチュエータに命令することができる。

図５に示されているように、制御システム５０２は受信ユニット５１２を含む。受信ユニット５１２は、センサ５０６からセンサ信号５０８を受信し、このセンサ信号５０８を入力信号ｘに変換するように構成されるものとしてよい。代替的な実施形態においては、センサ信号５０８は、受信ユニット５１２なしで入力信号ｘとして直接的に受信される。各入力信号ｘは、各センサ信号５０８の一部であるものとしてもよい。受信ユニット５１２は、各センサ信号５０８を処理して各入力信号ｘを生成するように構成されるものとしてよい。入力信号ｘは、センサ５０６によって記録された画像に対応するデータを含み得る。

制御システム５０２は、分類器５１４を含む。この分類器５１４は、上述したニューラルネットワークなどの機械学習アルゴリズムを使用して、入力信号ｘを１つ又は複数のラベルに分類するように構成されるものとしてよい。分類器５１４は、上述したもの（例えば、パラメータθ）などのパラメータによってパラメータ化されるように構成されている。パラメータθは、不揮発性ストレージ５１６に格納され、不揮発性ストレージ５１６によって提供されるものとしてよい。分類器５１４は、入力信号ｘから出力信号ｙを決定するように構成されている。各出力信号ｙには、各入力信号ｘに１つ又は複数のラベルを割り当てる情報が含まれている。分類器５１４は、出力信号ｙを変換ユニット５１８に伝送することができる。変換ユニット５１８は、出力信号ｙをアクチュエータ制御コマンド５１０に変換するように構成されている。制御システム５０２は、アクチュエータ制御コマンド５１０をアクチュエータ５０４に伝送するように構成されており、アクチュエータ５０４は、アクチュエータ制御コマンド５１０に応じてコンピュータ制御された機械５００を動作させるように構成されている。他の実施形態においては、アクチュエータ５０４は、直接的に出力信号ｙに基づいてコンピュータ制御された機械５００を動作させるように構成されている。

アクチュエータ５０４によってアクチュエータ制御コマンド５１０が受信されると、アクチュエータ５０４は、関連するアクチュエータ制御コマンド５１０に対応する動作を実行するように構成されている。アクチュエータ５０４は、アクチュエータ制御コマンド５１０を、アクチュエータ５０４の制御のために利用される第２のアクチュエータ制御コマンドに変換するように構成された制御ロジックを含み得る。１つ又は複数の実施形態においては、アクチュエータ制御コマンド５１０は、アクチュエータの代わりに又はアクチュエータに加えて、ディスプレイを制御するために利用されるものとしてよい。

他の実施形態においては、制御システム５０２は、センサ５０６を含むコンピュータ制御された機械５００の代わりに、又は、センサ５０６を含むコンピュータ制御された機械５００に加えて、センサ５０６を含む。制御システム５０２は、アクチュエータ５０４を含むコンピュータ制御された機械５００の代わりに、又は、アクチュエータ５０４を含むコンピュータ制御された機械５００に加えて、アクチュエータ５０４を含み得る。

図５に示されているように、制御システム５０２は、プロセッサ５２０及びメモリ５２２も含む。プロセッサ５２０は、１つ又は複数のプロセッサを含み得る。メモリ５２２は、１つ又は複数のメモリデバイスを含み得る。１つ又は複数の実施形態の分類器５１４（例えば、バイナリ分類モデルに関して上述したような機械学習アルゴリズム）は、不揮発性ストレージ５１６、プロセッサ５２０及びメモリ５２２を含む制御システム５０２によって実装されるものとしてよい。

不揮発性ストレージ５１６は、ハードドライブ、光学的ドライブ、テープドライブ、不揮発性ソリッドステートデバイス、クラウドストレージ、又は、情報を永続的に格納することができる任意の他のデバイスなどの１つ又は複数の永続的データストレージデバイスを含み得る。プロセッサ５２０は、高性能コア、マイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ、マイクロコンピュータ、中央処理ユニット、フィールドプログラマブルゲートアレイ、プログラマブルロジックデバイス、ステートマシン、論理回路、アナログ回路、デジタル回路、又は、メモリ５２２内に常駐するコンピュータ実行可能命令に基づいて信号（アナログ若しくはデジタル）を操作する任意の他のデバイスを含む高性能コンピューティング（ＨＰＣ）システムから選択される１つ又は複数のデバイスを含み得る。メモリ５２２は、ランダムアクセスメモリ（ＲＡＭ）、揮発性メモリ、不揮発性メモリ、スタティックランダムアクセスメモリ（ＳＲＡＭ）、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、フラッシュメモリ、キャッシュメモリ、又は、情報を格納し得る任意の他のデバイスを含むがこれらに限定されるものではない単一のメモリデバイス若しくは複数のメモリデバイスを含み得る。

プロセッサ５２０は、不揮発性ストレージ５１６に常駐し、１つ又は複数の実施形態の１つ又は複数の機械学習アルゴリズム及び／又は方法論を具体化するコンピュータ実行可能命令をメモリ５２２に読み込んで実行するように構成されるものとしてよい。不揮発性ストレージ５１６は、１つ又は複数のオペレーティングシステムとアプリケーションとを含み得る。不揮発性ストレージ５１６は、Ｊａｖａ、Ｃ、Ｃ＋＋、Ｃ＃、ＯｂｊｅｃｔｉｖｅＣ、Ｆｏｒｔｒａｎ、Ｐａｓｃａｌ、ＪａｖａＳｃｒｉｐｔ、Ｐｙｔｈｏｎ、Ｐｅｒｌ及びＰＬ／ＳＱＬを含むがこれらに限定されるものではない、単独で又は組合せにおいて、様々なプログラミング言語及び／又は技術を使用して作成されたコンピュータプログラムからコンパイル及び／又は解釈されたものを格納することができる。

プロセッサ５２０によって実行されると、不揮発性ストレージ５１６のコンピュータ実行可能命令は、制御システム５０２に、本明細書に開示される機械学習アルゴリズム及び／又は方法論の１つ又は複数を実装させることができる。不揮発性ストレージ５１６は、本明細書に記載される１つ又は複数の実施形態の機能、特徴及びプロセスを支援する機械学習データ（データパラメータを含む）も含み得る。

本明細書に記載されるアルゴリズム及び／又は方法論を具体化するプログラムコードは、様々な異なる形態のプログラム製品として個別に又は一括して配布することができる。プログラムコードは、プロセッサに１つ又は複数の実施形態の態様を実行させるためのコンピュータ可読プログラム命令を有するコンピュータ可読ストレージ媒体を使用して配布されるものとしてよい。本質的に非一時的なコンピュータ可読ストレージ媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、又は、他のデータなどの情報を格納するための任意の方法若しくは技術により実装された揮発性及び不揮発性で、取り外し可能及び取り外し不可能な有形媒体を含み得る。コンピュータ可読ストレージ媒体は、ＲＡＭ、ＲＯＭ、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭ）、電気的消去可能プログラマブル読み取り専用メモリ（ＥＥＰＲＯＭ）、フラッシュメモリ若しくは他のソリッドステートメモリ技術、ポータブルコンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）若しくは他の光学的ストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ若しくは他の磁気ストレージデバイス、又は、所望の情報を格納するために使用可能であり、コンピュータによって読み取り可能な任意の他の媒体をさらに含み得る。コンピュータ可読プログラム命令は、コンピュータ可読ストレージ媒体からコンピュータ、他のタイプのプログラマブルデータ処理装置若しくは他のデバイスにダウンロードされるものとしてもよいし、又は、ネットワークを介して外部コンピュータ若しくは外部ストレージデバイスにダウンロードされるものとしてもよい。

コンピュータ可読媒体に格納されたコンピュータ可読プログラム命令は、コンピュータ、他のタイプのプログラマブルデータ処理装置又は他のデバイスが特定の態様により機能するように命令するために使用されるものとしてよく、それによって、コンピュータ可読媒体に格納された命令は、フローチャート又は図で規定された機能、行為及び／又は動作を実装する命令を含む製造品を生成する。所定の代替的実施形態においては、フローチャート及び図で規定された機能、行為及び／又は動作は、１つ又は複数の実施形態と一致して、並べ替えられ、逐次的に処理され、及び／又は、同時に処理されるものとしてよい。その上さらに、フローチャート及び／又は図のいずれも、１つ又は複数の実施形態と一致して図示されたものよりも多い又は少ないノード又はブロックを含み得る。

プロセス、方法又はアルゴリズムは、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、ステートマシン、コントローラ、又は、他のハードウェアコンポーネント若しくはデバイス、又は、ハードウェア、ソフトウェア及びファームウェアコンポーネントの組合せなどの適当なハードウェアコンポーネントを使用して全体的に又は部分的に実現することができる。

図６は、車両６００を制御するように構成された制御システム５０２の概略図を示している。この車両６００は、少なくとも部分的に自律的な車両又は少なくとも部分的に自律的なロボットであるものとしてよい。車両６００は、アクチュエータ５０４及びセンサ５０６を含む。センサ５０６は、１つ又は複数のマイク、ビデオセンサ、カメラ、レーダセンサ、超音波センサ、ＬｉＤＡＲセンサ、及び／又は、位置センサ（例えば、ＧＰＳ）を含み得る。１つ又は複数の特定のセンサのうちの１つ又は複数は、車両６００に統合されるものとしてもよいし、又は、車両の一部であるものとしてもよい。

車両６００の制御システム５０２の分類器５１４は、入力信号ｘに依存して車両６００の近くの対象を検出するように構成されるものとしてよい。そのような実施形態においては、出力信号ｙは、車両６００に対する対象の近傍を特徴付ける情報を含み得る。アクチュエータ制御コマンド５１０は、この情報に従って決定されるものとしてよい。アクチュエータ制御コマンド５１０は、検出された対象との衝突を回避するために使用されるものとしてよい。本明細書の教示は、カメラによって捕捉された画像に関連付けられた画像データが、それらの画像の予測快適性評価を導出し得るこの特定の実施形態に適用することができる。次いで、車両によって捕捉されたシーンは、快適である（例えば、起伏のある田園地帯を運転している）か、又は、快適ではない（例えば、渋滞に巻き込まれている）かを予測することができる。

車両６００が少なくとも部分的に自律的なロボットである他の実施形態においては、車両６００は、飛行、水泳、ダイビング及びステッピングなどの１つ又は複数の機能を実行するように構成された移動型ロボットであるものとしてよい。これらのデバイスからは音が放出される場合があり、それらの音は、本明細書の教示に従って、快適であるか又は快適でないかが予測される。この移動型ロボットは、少なくとも部分的に自律的な芝刈り機又は少なくとも部分的に自律的な掃除ロボットであるものとしてもよい。そのような実施形態においては、アクチュエータ制御コマンド５１０は、移動型ロボットがそのような動き又は音の予測快適性に基づいてより快適な動き又は音を出すことができるように、移動型ロボットの推進ユニット、操舵ユニット及び／又はブレーキユニットが制御され得るように決定されるものとしてよい。

車両６００は、家庭用電化製品の形態の少なくとも部分的に自律的なロボットであるものとしてよい。家庭用電化製品の非限定的な例には、洗濯機、コンロ、オーブン、電子レンジ、又は、食器洗浄機が含まれる。そのような車両６００においては、センサ５０６は、家庭用電化製品によって放出される音を検出するように構成されたマイクであるものとしてよい。例えば、家庭用電化製品が洗濯機である場合、センサ５０６は洗濯機の動作に関連付けられたノイズを検出することができ、ここで、その音の予測快適性は、本明細書に記載される方法に基づいて決定することができる。そのような動作には、家庭又は電化製品に局限されない外部サーバが関与し得る。次いで、サーバは、洗濯機に動作を停止させる信号を送信したり、不快な音が放出されていることに基づいて家電製品が修理を必要としているかもしれないという信号を家電製品のメーカーや管理者に送信したりすることができる。

図７は、生産ラインの一部などの製造システム７０２の、パンチカッタ、カッタ又はガンドリルなどのシステム７００（例えば、製造機械）を制御するように構成された制御システム５０２の概略図を示している。この制御システム５０２は、システム７００（例えば、製造機械）を制御するように構成されたアクチュエータ５０４を制御するように構成されるものとしてよい。

システム７００（例えば、製造機械）のセンサ５０６は、製造された製品７０４の１つ又は複数の特性を捕捉するように構成された光学的センサであるものとしてよい。分類器５１４は、分類器５１４は、光学的センサによって捕捉された画像の快適性を分類するように構成されるものとしてよい。アクチュエータ５０４は、製造された製品７０４の予測快適性に依存してシステム７００（例えば、製造機械）を制御するように構成されるものとしてよい。アクチュエータ５０４は、製造された製品７０４の予測快適性に依存してシステム７００（例えば、製造機械）の後続の製造された製品７０６へのシステム７００（例えば、製造機械）の機能を制御するように構成されるものとしてよい。

図８は、少なくとも部分的に自律的なモードを有する電動ドリル又はドライバーなどの電動工具８００を制御するように構成された制御システム５０２の概略図を示している。この制御システム５０２は、電動工具８００を制御するように構成されたアクチュエータ５０４を制御するように構成されるものとしてよい。

電動工具８００のセンサ５０６は、作業面８０２及び／又は作業面８０２に締め込まれる締結具８０４上で工具が動作するときの１つ又は複数の音を捕捉するように構成されたマイクであるものとしてもよい。分類器５１４は、そのような音を分類又は予測するように構成されるものとしてよい。これは、電動工具８００の製造業者に、製品が様々な表面や締結具での作業中に快適な音を出しているかどうかをより良好に伝えることができる。これは、人による審査者が様々な表面や締結具で様々なツールが動作するのを聞くという終わりのない作業になりかねない作業の必要性を取り除くことができる。アクチュエータ５０４は、電動工具８００の駆動機能が、予測される音の快適性に依存して調整されるように電動工具８００を制御するように構成されるものとしてよい。例えば、アクチュエータ５０４は、例えば、締結具８０４の状態が作業面８０２に対して面一でないことを予測される音の快適性が示す場合に、駆動機能を中止することができる。他の非限定的な例として、アクチュエータ５０４は、作業面８０２の硬さに依存して付加的なトルクを印加することも、又は、より少ないトルクを印加することも、可能である。

図９は、自動化されたパーソナルアシスタント９００を制御するように構成された制御システム５０２の概略図を示している。センサ５０６は、マイク又はカメラであるものとしてよく、パーソナルアシスタント９００によって捕捉された音又は画像は、本明細書の教示に従って、捕捉された画像又は音の快適性を予測するシステムに（例えば、無線信号を介して）配信することができる。

図１０は、監視システム１０００を制御するように構成された制御システム５０２の概略図を示している。一実施形態においては、この監視システム１０００は、センサ５０６、例えば、カメラによって捕捉された画像に基づいて、又は、ディスプレイ１００４上への捕捉された画像の表示に基づいて、ドア１００２を通るアクセスを物理的に制御するように構成されるものとしてよい。ドア１００２の制御は、例えば、カメラによって捕捉された１つ又は複数の対象の予測される快適性に基づいて許可又は拒否されるものとしてよい。

図１１は、例えばＭＲＩ装置、Ｘ線撮像装置又は超音波装置などディスプレイ１１０２上に画像を表示する撮像システム１１００を制御するように構成された制御システム５０２の概略図を示している。センサ５０６は、例えば、撮像システムに取り付けられたマイクであるものとしてよく、ここで、このシステムは、撮像装置によって放出される音の快適性を予測する。これは、例えば、診療所でのより良好な経験につながり得る。

本開示は、１つの音に関連付けられた音質測定値（例えば、音量、調性、鮮明さ）を別の音の音質測定値と比較することを提供するが、これは音の測定値だけに限定されるべきではないことを理解すべきである。それでもなお音に関連付けられる他の非音測定値は、本明細書に記載されるモデル及びアルゴリズムを用いて比較することができる。換言すれば、音に関連付けられる測定値は、音自体の品質である必要はない。代わりに、これらの測定値は、それらの品質が人によって知覚される音を引き起こす又はそれに影響を与える可能性がある振動又は電圧などの音以外の測定値である可能性もある。（例えば、加速度計を使用して）測定された振動特性、及び、（例えば、電圧計又はデジタルマルチメータを使用して）測定された電圧特性は、本明細書に記載される機械学習モデルに入力することができ、ここで、この機械学習モデルは、部品の音に関連付けられた振動又は電圧特性を、別の音に関連付けられた振動又は電圧特性と対ごとの比較方式により比較することができる。したがって、音の品質への言及は、直接的な音質ではないが、それでもなお音に関連付けることができる非音測定値（振動や電圧など）を含み得ることを理解すべきである。その一例がモーターである。モーターが所定の大きさや位相で振動しているときに、それが不快に知覚される音に関連付けられる場合があり、さらにその音の知覚される快適性が振動特性の変化しだいで変わる可能性もある。

さらに、本明細書において提供される教示は、音だけに限定されるものではないことを理解すべきである。音響回帰問題に加えて、提示されたアプローチは、センサデータの評価に基づく他の種類の回帰問題にも適用することができる。これについての例には、測定された電流信号、電圧信号、振動信号などに依存して、生産プロセスのエラー確率を決定することが含まれる。本明細書の教示は、最初にデバイスの測定可能な品質の対ごとの比較を用いて機械学習モデルをトレーニングし、次いで、デバイスの測定可能な品質をトレーニングから既に既知の品質と比較する回帰タスクを使用することによって、人によって知覚されるデバイスの全体的な主観的品質（例えば、視覚的快適性、使いやすさ、作業性、匂いなど）が予測できる非音環境にも適用することができる。最先端の方法と比較して、提示された本アプローチは、特に少ない量の学習データしか利用可能でない場合に有利である。

例えば、製品の音響最適化に加えて、本開示は、センサデータ又は画像データの評価に基づく他の回帰問題にも適用することができる。例えば、審査者は、人の写真に見られるような顔の表情に親しみやすさのスコアを割り当てるタスクを課されるものとしてもよい。その後、モデルは、親しみやすさのスコアに対応する画像データ（例えば、カメラ又は他の画像センサから捕捉され、前処理されたもの）でトレーニングし、回帰タスク及び対ごとの比較を、審査者によって評価されていない新しい画像を用いて行うことができる。本明細書の教示は、測定された電流信号又は記録された音若しくは画像に依存して、生産プロセスの故障確率の決定にも、又は、話し言葉の音声記録からの深刻度の評価にも提供することができる。

本明細書において開示する本システム及び本方法は、機械学習方法を使用して回帰タスクに取り組む新規な方法を提供し、特に入力データが低次元であり、利用可能なトレーニングデータの量が少ない場合に利点がある。また、本システム及び方法は、特徴的な低次元量（電流、圧入力など）と連続スケールでの異常基準とが利用可能である場合には、異常の検出にも使用することができる。これには、例えば、技術部品やシステムの製造プロセスが該当し得るであろう。最先端の方法と比較して、提示された本アプローチは、特に少ない量の学習データしか利用可能でない場合に有利である。

例示的な実施形態が上記において説明されているが、これらの実施形態は、特許請求の範囲に含まれるすべての可能な形態の説明を意図したものではない。本明細書において使用される用語は、限定ではなく説明のための用語であり、本開示の精神及び範囲から逸脱することなく様々な変更を行うことが可能であることは理解されよう。先に説明したように、様々な実施形態の特徴は、明示的に説明又は図示されていない場合がある本発明のさらなる実施形態を形成するために組み合わせることができる。様々な実施形態は、１つ又は複数の所望の特性に関して利点を提供するものとして、又は、他の実施形態若しくは従来技術の実装よりも好ましいものとして説明することができようが、当業者であれば、特定の用途及び実装に依存する所望の全体的なシステム属性を達成するために、１つ又は複数の特徴又は特性が妥協され得ることを認識するであろう。これらの属性には、コスト、強度、耐久性、ライフサイクルコスト、市場性、外観、パッケージング、サイズ、保守性、重量、製造可能性、組立の容易さなどが含まれ得るが、これらに限定されるものではない。このように、任意の実施形態が、１つ又は複数の特性に関して、他の実施形態又は先行技術の実装形態よりも望ましくないものとして記載されている範囲において、これらの実施形態は、本開示の範囲外ではなく、特定の用途にとっては望ましい可能性がある。

Claims

デバイスから放出される音の快適性を分類する分類モデルをトレーニングする方法であって、
１人又は複数の人による審査者からの複数の快適性評価を受信するステップであって、各快適性評価は、１つ又は複数のデバイスによって放出される複数の音のそれぞれ１つに対応する、ステップと、
第１の対ごとの比較を介して、複数の快適性評価の各々と、複数の快適性評価の他のすべてとの間の第１の差分を決定するステップと、
前記決定された第１の差分を、前記対ごとの比較についてどちらの快適性評価が高いかに基づいてバイナリ値に変換するステップと、
１つ又は複数のセンサから、複数の測定可能な音質を受信するステップであって、各測定可能な音質は、複数の音のそれぞれ１つに関連付けられている、ステップと、
第２の対ごとの比較を介して、前記複数の測定可能な音質の各々と、複数の測定された音質の他のすべてとの間の第２の差分を対ごとの方式により決定するステップと、
前記バイナリ値を前記第２の差分と比較することによって音の快適性を分類する分類モデルをトレーニングするステップと、
前記トレーニングするステップの間の収束に基づいて、音の快適性を分類するように構成されたトレーニングされた分類モデルを出力するステップと、
を含む方法。
前記複数の測定可能な音質は、音量、調性及び鮮明さのうちの少なくとも１つを含む、請求項１に記載の方法。
前記１つ又は複数のセンサから、１人又は複数の人による審査者によって評価されなかった未評価音の少なくとも１つの測定可能な音質を受信するステップと、
前記トレーニングされた分類モデルを介して、前記未評価音の前記少なくとも１つの測定可能な音質を、それぞれ複数の音に関連付けられた各測定可能な音質と比較するステップと、
をさらに含む、請求項１に記載の方法。
前記トレーニングされた分類モデルから、複数の音の各々と比較した前記未評価音の快適性の信頼度評価を出力するステップをさらに含む、請求項３に記載の方法。
前記信頼度評価は、２つのバイナリ値間のスケールで行われる、請求項４に記載の方法。
前記トレーニングされた分類モデルから出力される信頼度評価に基づいて、前記未評価音の全体的な快適性を予測する回帰モデルを利用するステップをさらに含む、請求項４に記載の方法。
前記第１の対ごとの比較の各々は、第１の快適性評価と第２の快適性評価との間の比較を含み、
前記各対ごとの比較の第１の差分の各々に関連付けられたバイナリ値は、（ａ）前記第１の快適性評価が前記対ごとの比較の第２の評価を超えていることを示す第１のバイナリ値と、（ｂ）前記第２の快適性評価が前記対ごとの比較の第１の快適性評価を超えていることを示す第２のバイナリ値と、を含む、請求項１に記載の方法。
人による審査者によって評価された前記複数の音の数は、ｎに等しく、前記バイナリ値の数は、ｎ^２－ｎに等しい、請求項１に記載の方法。
前記第２の差分は、バイナリ値に変換されない、請求項１に記載の方法。
デバイスから放出される音の快適性を分類するように構成された分類モデルをトレーニングするためのシステムであって、前記システムは、
１つ又は複数のデバイスによって放出される複数の音を検出するように構成されたマイクと、
複数の音を処理するようにプログラミングされたプロセッサと、
メモリと、
を含み、
前記メモリには、前記プロセッサによって実行されるときに、前記プロセッサに以下のステップ、すなわち、
１人又は複数の人による審査者からの複数の快適性評価を受信するステップであって、各快適性評価は、複数の音のそれぞれ１つに対応する、ステップと、
第１の対ごとの比較を介して、複数の快適性評価の各々と、複数の快適性評価の他のすべてとの間の第１の差分を決定するステップと、
前記決定された第１の差分を、当該対ごとの比較についてどちらの快適性評価が高いかに基づいてバイナリ値に変換するステップと、
複数の音質と、複数の音のそれぞれ１つに関連付けられた各音質とを測定するステップと、
第２の対ごとの比較を介して、測定された音質の各々と、測定された音質の他のすべてとの間の第２の差分を対ごとの方式により決定するステップと、
前記バイナリ値を前記第２の差分と比較することにより、音の快適性を分類する分類モデルをトレーニングするステップと、
前記分類モデルのトレーニング中の収束に基づいて、音の快適性を分類するように構成されたトレーニングされた分類モデルを出力するステップと、
を実施させるための命令が格納されている、システム。
前記測定された音質は、音量、調性及び鮮明さのうちの少なくとも１つを含む、請求項１０に記載のシステム。
前記メモリには、前記プロセッサによって実行されるときに、前記プロセッサに以下のステップ、すなわち、
１人又は複数の人による審査者によって評価されなかった未評価音の音質を受信するステップと、
前記トレーニングされた分類モデルを介して、前記未評価音の前記測定された音質を、それぞれ複数の音に関連付けられた各測定された音質と比較するステップと、
を実施させるための命令がさらに含まれている、請求項１０に記載のシステム。
前記メモリには、前記プロセッサによって実行されるときに、前記プロセッサに以下のステップ、すなわち、
前記トレーニングされた分類モデルから、複数の音の各々と比較した前記未評価音の快適性の信頼度評価を出力するステップを実施させるための命令がさらに含まれている、請求項１２に記載のシステム。
前記信頼度評価は、２つのバイナリ値間のスケールで行われる、請求項１３に記載のシステム。
前記メモリには、前記プロセッサによって実行されるときに、前記プロセッサに以下のステップ、すなわち、
前記トレーニングされた分類モデルから出力される信頼度評価に基づいて、前記未評価音の全体的な快適性を予測する回帰モデルを利用するステップを実施させるための命令がさらに含まれている、請求項１３に記載のシステム。
前記第１の対ごとの比較の各々は、第１の快適性評価と第２の快適性評価との間の比較を含み、
前記各対ごとの比較の第１の差分の各々に関連付けられたバイナリ値は、（ａ）前記第１の快適性評価が前記対ごとの比較の第２の評価を超えていることを示す第１のバイナリ値と、（ｂ）前記第２の快適性評価が前記対ごとの比較の第１の快適性評価を超えていることを示す第２のバイナリ値と、を含む、請求項１０に記載のシステム。
前記第２の差分は、バイナリ値に変換されていない、請求項１０に記載のシステム。
機械学習を利用して音の快適性を予測する方法であって、
人による審査者からの複数の快適性評価を受信するステップであって、各快適性評価は、１つ又は複数のデバイスによって放出されるそれぞれの音に対応する、ステップと、
複数の快適性評価の各々と、複数の快適性評価の他の各々との間の第１の差分を決定するステップと、
複数の音質と、複数の音のそれぞれ１つに関連付けられた各音質とを測定するためにマイクを利用するステップと、
測定された音質の各々と、測定された音質の他の各々との間の第２の差分を決定するステップと、
トレーニングされた分類モデルの収束が得られるまで、第１の差分と第２の差分との比較に基づいて音の快適性を分類する分類モデルをトレーニングするステップと、
新しい音の新しい音質を測定するためにマイクを使用するステップと、
前記トレーニングされた分類モデルを介して、新しい音の測定された新しい音質を、音に関連付けられた各測定された音質と比較するステップと、
前記トレーニングされた分類モデルによって行われた比較に基づいて、未評価音の全体的な快適性を予測するために回帰モデルを利用するステップと、
を含む方法。
前記方法は、以下のステップ、すなわち、
前記決定された第１の差分を、前記第１の差分の各々についてどちらの快適性評価が高いかに基づいてバイナリ値に変換するステップをさらに含み、
前記分類モデルは、バイナリ値を用いてトレーニングされる、請求項１８に記載の方法。
前記測定された音質は、音量、調性及び鮮明さのうちの少なくとも１つを含む、請求項１８に記載の方法。