JP2024066497A - バイナリ分類モデルと回帰とを用いた音の快適性予測 - Google Patents

バイナリ分類モデルと回帰とを用いた音の快適性予測 Download PDF

Info

Publication number
JP2024066497A
JP2024066497A JP2023185296A JP2023185296A JP2024066497A JP 2024066497 A JP2024066497 A JP 2024066497A JP 2023185296 A JP2023185296 A JP 2023185296A JP 2023185296 A JP2023185296 A JP 2023185296A JP 2024066497 A JP2024066497 A JP 2024066497A
Authority
JP
Japan
Prior art keywords
sound
sounds
comfort
rating
classification model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023185296A
Other languages
English (en)
Inventor
クマール ソーラン ビジェイ
アーウ キャリーン
ショーン フェリックス
カブリタ コンデッサ フィリペ
ランク フローリアン
クーカ ミヒャエル
フェイトニー リサール
アルバ― トーマス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Publication of JP2024066497A publication Critical patent/JP2024066497A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Psychiatry (AREA)
  • Hospice & Palliative Care (AREA)
  • Child & Adolescent Psychology (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Otolaryngology (AREA)

Abstract

【課題】機械学習を使用した音の快適性の評価に関する。【解決手段】機械学習は、デバイスから放出される音の快適性を分類するために使用される。人による審査者からの複数の快適性評価が受信され、各快適性評価は、1つ又は複数のデバイスによって放出される複数の音のそれぞれの1つに対応する。快適性評価の各々と快適性評価の別の各々との間の差分が、対ごとの比較を介して決定される。これらの差分は、各比較においてどちらの快適性評価が高いか又は低いかに基づいてバイナリ値に変換される。音に関連付けられている測定可能な音質が受信される。測定可能な音質の各々と、複数の測定された音質の他のすべてとの間の第2の差分が、対ごとの方式により決定される。分類モデルは、バイナリ値を第2の差分と比較することによって音の快適性を分類するようにトレーニングされる。【選択図】図2

Description

関連出願との相互参照
本出願は、本出願と同日に出願された、「PREDICTING SOUND PLEASANTNESS USING REGRESSION PREDICTION MACHINE LEARNING MODEL」と題する同時係属(米国特許)出願第17/977574号明細書、代理人整理番号097182-00196に関連しており、その開示全体が参照により組み込まれる。
技術分野
本開示は、機械学習を使用して、電子デバイスや家電製品などの対象物から放出される音の快適性(以下、心地よさとも称する)を評価することに関する。
背景技術
いくつかの適用分野で要求されることの1つには、聞き手としての人が知覚する対象の代表量を測定することが挙げられる。例えば、音質評価においては、ユーザが工業製品対象(電子デバイス、自動車、電化製品など)の音質をどのように知覚するかが研究され、これらの音の設計のための仕様が確立される。音質評価とは、人と対象との相互作用を向上させるために、当該対象によって放出される音について、不快度又は快適性の点から評価することを指すことができる。現代の電化や都市化の進展に伴い、対象の音についての人の知覚との関連性は、特にこれらの音の快適性又は不快と感じられる潜在性に関して益々高まってきている。
その上さらに、ノイズ、振動、ハーシュネス(NVH)についての電気機械システムの分析は、製品開発及び製造品質管理の重要な部分である。NVH性能が乏しいと、製品を用いて作業しているときのユーザの疲労が増加したり、製品の経時的な付加的劣化(磨耗や破損)を引き起こしたり、顧客の購買決定に悪影響を与えたりする可能性がある。
多くの電気デバイスの音質評価には、典型的には、聴取審査者に音を聞かせ、その音の快適性を評価させることが含まれる。しかしながら、これには時間がかかり、新製品が開発されるたびに新たな聴取審査者が必要になる可能性がある。NVH分析は、典型的には、実験室設定でのセンサを用いて測定され、音の快適性を考慮することはあまりない。その上さらに、NVH分析中に測定された音質は、ある人には不快でも、他の人には心地よい場合もある。
概要
一実施形態によれば、デバイスから放出される音の快適性を分類する分類モデルをトレーニングする方法は、以下のステップ、すなわち、1人又は複数の人による審査者からの複数の快適性評価を受信するステップであって、各快適性評価は、1つ又は複数のデバイスによって放出される複数の音のそれぞれ1つに対応する、ステップと、第1の対ごとの比較を介して、複数の快適性評価の各々と、複数の快適性評価の他のすべてとの間の第1の差分を決定するステップと、決定された第1の差分を、当該対ごとの比較についてどちらの快適性評価が高いかに基づいてバイナリ値に変換するステップと、1つ又は複数のセンサから、複数の測定可能な音質を受信するステップであって、各測定可能な音質は、複数の音のそれぞれ1つに関連付けられている、ステップと、第2の対ごとの比較を介して、複数の測定可能な音質の各々と、複数の測定された音質の他のすべてとの間の第2の差分を対ごとの方式により決定するステップと、バイナリ値を第2の差分と比較することによって音の快適性を分類する分類モデルをトレーニングするステップと、トレーニングするステップの間の収束に基づいて、音の快適性を分類するように構成されたトレーニングされた分類モデルを出力するステップと、を含む。
他の実施形態によれば、デバイスから放出される音の快適性を分類するように構成された分類モデルをトレーニングするためのシステムは、1つ又は複数のデバイスによって放出される複数の音を検出するように構成されたマイクと、複数の音を処理するようにプログラミングされたプロセッサと、を含む。メモリには、プロセッサによって実行されるときに、プロセッサに以下のステップ、すなわち、1人又は複数の人による審査者からの複数の快適性評価を受信するステップであって、各快適性評価は、複数の音のそれぞれ1つに対応する、ステップと、第1の対ごとの比較を介して、複数の快適性評価の各々と、複数の快適性評価の他のすべてとの間の第1の差分を決定するステップと、決定された第1の差分を、当該対ごとの比較についてどちらの快適性評価が高いかに基づいてバイナリ値に変換するステップと、複数の音質と、複数の音のそれぞれ1つに関連付けられた各音質とを測定するステップと、第2の対ごとの比較を介して、測定された音質の各々と、測定された音質の他のすべてとの間の第2の差分を対ごとの方式により決定するステップと、バイナリ値を第2の差分と比較することにより、音の快適性を分類する分類モデルをトレーニングするステップと、分類モデルのトレーニング中の収束に基づいて、音の快適性を分類するように構成されたトレーニングされた分類モデルを出力するステップと、を実施させるための命令が格納されている。
さらに他の実施形態によれば、機械学習を利用して音の快適性を予測する方法は、以下のステップ、すなわち、人による審査者からの複数の快適性評価を受信するステップであって、各快適性評価は、1つ又は複数のデバイスによって放出されるそれぞれの音に対応する、ステップと、複数の快適性評価の各々と、複数の快適性評価の他の各々との間の第1の差分を決定するステップと、複数の音質と、複数の音のそれぞれ1つに関連付けられた各音質とを測定するためにマイクを利用するステップと、測定された音質の各々と、測定された音質の他の各々との間の第2の差分を決定するステップと、トレーニングされた分類モデルが収束を得るまで、第1の差分と第2の差分との比較に基づいて音の快適性を分類する分類モデルをトレーニングするステップと、新しい音の新しい音質を測定するためにマイクを使用するステップと、トレーニングされた分類モデルを介して、新しい音の測定された新しい音質を、音に関連付けられた各測定された音質と比較するステップと、トレーニングされた分類モデルによって行われた比較に基づいて、未評価音の全体的な快適性を予測するために回帰モデルを利用するステップと、を含む。
一実施形態による、ニューラルネットワークをトレーニングするためのシステムを示した図である。 一実施形態による、ニューラルネットワークをトレーニングし利用するためのコンピュータ実装方法を示した図である。 バイナリ分類機械学習モデルを使用して音の快適性を予測するためのシステム及び方法を示した図であり、ここではシステムフローチャートが示されている。 バイナリ分類機械学習モデルを使用して音の快適性を予測するためのシステム及び方法を示した図であり、ここでは音ごとの対ごとの比較の一実施形態を示す表が示されている。 バイナリ分類機械学習モデルを使用して音の快適性を予測するためのシステム及び方法を示した図であり、ここでは一実施形態による、バイナリ形式への結果の変換が示されている。 一実施形態による、回帰予測機械学習モデルを使用して音の快適性を予測するシステムフローチャートを示した図である。 一実施形態による、コンピュータ制御された機械と制御システムとの間の対話を示した概略図である。 一実施形態による、部分的に自律的な車両、完全に自律的な車両、部分的に自律的なロボット又は完全に自律的なロボットであり得る車両に関して、本明細書に開示される快適性予測方法を実行するように構成された図5の制御システムを示した概略図である。 生産ラインの一部などの製造システムのパンチカッタ、カッタ又はガンドリルなどの製造機械に関して、本明細書に開示される快適性予測方法を実行するように構成された図5の制御システムを示した概略図である。 少なくとも部分的に自律的なモードを有する電動ドリル又はドライバーなどの電動工具に関して、本明細書に開示される快適性予測方法を実行するように構成された図5の制御システムを示した概略図である。 自動化されたパーソナルアシスタントに関して、本明細書に開示される快適性予測方法を実行するように構成された図5の制御システムを示した概略図である。 アクセス制御システム又は見張りシステムなどの監視システムに関して、本明細書に開示される快適性予測方法を実行するように構成された図5の制御システムを示した概略図である。 例えばMRI装置、X線撮像装置又は超音波装置などの撮像システムに関して、本明細書に開示される快適性予測方法を実行するように構成された図5の制御システムを示した概略図である。
詳細な説明
本明細書には本開示の実施形態が記載されている。しかしながら、開示されている実施形態は単なる例であり、他の実施形態は様々な代替的形態をとることが可能なことを理解すべきである。図面は必ずしも縮尺通りではなく、いくつかの特徴は、特定のコンポーネントの詳細を示すために、誇張又は最小化されている場合がある。それゆえ、本明細書に開示された特定の構造的及び機能的詳細は、限定として解釈されるべきではなく、単に、実施形態を様々に採用する態様を当業者に教示するための代表的な基礎として解釈されるべきである。当業者であれば理解するように、図面の任意の1つに示されそれを参照して説明される様々な特徴は、1つ又は複数の他の図面に示されている特徴と結合されて、明示的に図示又は説明されていない実施形態を生み出すことができる。図示された特徴の組合せは、典型的な用途のための代表的な実施形態を提供する。しかしながら、本開示の教示と一致する特徴の様々な組合せ及び修正を特定の用途又は実装のために望むこともできよう。
本開示においては、音量、調性、鮮明さなど、様々な測定可能な音質について言及する。音量とは、音の強さ又は振幅を指す。この音量とは、実際に測定された音の大きさ、又は、人による音の強さの知覚のいずれかを指し得る。音量は、デシベルスケールで測定すること(例えば、音の大きさを測定すること)も、又は、フォンスケールで測定すること(例えば、人による音の知覚を測定すること)も可能である。調性とは、人が音の調性成分(ピッチ、トーン、コード、キーなど)をどのように知覚するかに相関する音質の測定を指す。鮮明さとは、音の周波数又は音の高周波成分の量を指し、つまり、高周波の割合が高いほど鮮明な音になる。測定可能な音質の他のタイプには、粗さ(例えば、70Hzなどの特定の周波数における音量の緩やかな一時的変化の強調)、包絡線(例えば、音の衝撃、減衰、持続及び解放)などが含まれ得る。
例えば、音質評価においては、ユーザが工業製品対象(電子デバイス、自動車、電化製品など)の音質をどのように知覚するかが研究され、これらの音の設計のための仕様が確立される。音質評価とは、人と対象との相互作用を向上させるために、当該対象によって放出される音について、不快度又は快適性の点から評価することを指すことができる。現代の電化や都市化の進展に照らせば、対象の音と人の知覚との関連性は、特にそれらの快適性又は不快と知覚される潜在性に関して益々高まっている。
本明細書に開示される様々な実施形態によれば、デバイスの音の快適性を予測するために機械学習モデリングを使用するための方法及びシステムが提供される。このアプローチは、例えば、定置デバイス(例えば、ポンプ、ヒートポンプ、ファン、電子デバイスなど)を制御するときに、現下で放出される音の人の知覚を推定するために使用することができる。したがって、この推定は、人の音響知覚に関してデバイスの制御を最適化するために使用することができる。これは機械学習アルゴリズムにより、1つ又は複数のマイク又は加速度センサの信号に基づいて行われ、それらの信号は、前処理された後で、品質が人の知覚の点において既にリスニングテストにおいて連続スケールでの数値形態で決定されている対応する信号と比較される。次いで、予測された比較結果は、実際の音質を推定するための後続のアルゴリズムによって累算され、それらに基づいて製品の制御を適合化させることができる。
開示された本方法及び本システムは、少量のトレーニングデータしか利用可能でない場合における回帰タスクのための新しいアプローチを提供する。これは、元のタスクを分類タスクに変換し、続いて元の回帰問題を解決するために分類結果をさらに処理することによって達成される。例えば、実施形態において、機械学習モデルは、様々な音を採点又は評価する人による評価者の審査でトレーニングされる。トレーニングの間、1つの音の測定可能な品質(例えば、音量、調性、鮮明さ、振動、電圧など)は、別の音の対応する測定可能な品質と対ごとの方式により比較される。この比較においては、それぞれの品質における差分を得ることができる。例えば、「0」は、音質Aが音質Bよりも快適性が高いことを意味し、「1」は、音質Bが音質Aよりも快適性が高いことを意味する、バイナリ分類を実装することができる。一度トレーニングされた回帰タスクは、新しい音の音質をトレーニングから格納されたすべての音質と比較するために利用することができ、他の音質との類似性に基づいて、その新しい音の快適性の予測をモデルによって生成することができる。
音の快適性を予測するためのモデルのトレーニング、及び、モデルの使用に関する付加的な詳細は、以下において提供される。しかしながら、最初は図1及び図2を参照する。その中で図1は、ニューラルネットワーク、例えばディープニューラルネットワークをトレーニングするためのシステム100を示し、図2は、本明細書において説明される機械学習モデル210(例えば、図3乃至図4を参照して説明されるバイナリ分類モデル、回帰モデル及び回帰予測モデル)を実行するシステム200を示している。図1を参照すると、システム100は、ニューラルネットワーク用のトレーニングデータ102にアクセスするための入力インタフェースを含み得る。例えば、図1に示されているように、入力インタフェースは、データストレージ106からトレーニングデータ102にアクセスすることができるデータストレージインタフェース104によって構成されるものとしてよい。例えば、データストレージインタフェース104は、メモリインタフェース、又は、例えばハードディスク若しくはSSDインタフェースなどの永続的ストレージインタフェースであるものとしてもよいが、Bluetooth、Zigbee若しくはWi-Fiインタフェース、イーサネット又は光ファイバインタフェースなどのパーソナル、ローカル又はワイドエリアネットワークインタフェースであるものとしてもよい。データストレージ106は、ハードドライブ又はSSDなどのシステム100の内部データストレージであるものとしてもよいが、例えば、ネットワークアクセス可能なデータストレージなどの外部データストレージであるものとしてもよい。
いくつかの実施形態においては、データストレージ106は、トレーニングされていないバージョンのニューラルネットワークのデータ表現108をさらに含み得るものであり、このデータ表現108は、システム100によりデータストレージ106からアクセスされるものとしてよい。しかしながら、トレーニングデータ102及びトレーニングされていないニューラルネットワークのデータ表現108は、それぞれ例えばデータストレージインタフェース104の異なるサブシステムを介して異なるデータストレージからアクセスされるものとしてもよいことが理解されよう。各サブシステムは、データストレージインタフェース104について上述したようなタイプであるものとしてよい。他の実施形態においては、トレーニングされていないニューラルネットワークのデータ表現108は、ニューラルネットワークについての設計パラメータに基づいてシステム100により内部的に生成されるものとしてよく、それゆえデータストレージ106に明示的に格納されなくてよい。システム100は、システム100の動作中に、トレーニングされるニューラルネットワークの層のスタックの代わりに反復関数を提供するように構成され得るプロセッササブシステム110をさらに含み得る。ここでは、置換される層のスタックのそれぞれの層は、相互に共有される重みを有し得るものであり、先行する層の出力、又は、層のスタックの最初の層については、初期アクティブ化及び層のスタックの入力の一部を、入力として受け取ることができる。プロセッササブシステム110は、トレーニングデータ102を使用してニューラルネットワークを反復的にトレーニングするようにさらに構成されるものとしてよい。ここでは、プロセッササブシステム110によるトレーニングの反復は、順方向伝播部分と逆方向伝播部分とを含み得る。プロセッササブシステム110は、実行され得る順方向伝播部分を定義する他の動作の中でも、反復関数が固定点に収束する反復関数の平衡点を決定することと、ただし、この平衡点を決定することには、反復関数からその入力を引いた根の解を見つける数値的な根探索アルゴリズムを使用することが含まれ、当該平衡点をニューラルネットワーク内の層のスタックの出力の代わりに提供することとによって、順方向伝播部分を実行するように構成されるものとしてよい。システム100は、トレーニングされたニューラルネットワークのデータ表現112を出力するための出力インタフェースをさらに含み得るものであり、このデータは、トレーニングされたモデルデータ112と称され得る。例えば、図1にも示されているように、出力インタフェースは、データストレージインタフェース104によって構成されるものとしてよく、これらの実施形態においては、前述のインタフェースは、入力/出力(「IO」)インタフェースであり、このインタフェースを介して、トレーニングされたモデルデータ112がデータストレージ106に格納されるものとしてよい。例えば、「トレーニングされていない」ニューラルネットワークを定義するデータ表現108は、トレーニング中又はトレーニング後に少なくとも部分的にトレーニングされたニューラルネットワークのデータ表現112によって置き換えられるものとしてもよく、ここでは、重みなどのニューラルネットワークのパラメータ、ハイパーパラメータ、及び、ニューラルネットワークの他のタイプのパラメータは、トレーニングデータ102についてのトレーニングを反映するように適合化されるものとしてよい。これは、図1でもデータストレージ106上の同一のデータレコードを参照する参照番号108,112によって示されている。他の実施形態においては、データ表現112は、「トレーニングされていない」ニューラルネットワークを定義するデータ表現108とは別個に格納されるものとしてもよい。いくつかの実施形態においては、出力インタフェースは、データストレージインタフェース104とは別個であるものとしてもよいが、一般に、データストレージインタフェース104について上述したようなタイプであるものとしてもよい。
システム100の構造は、本明細書に記載される機械学習モデルをトレーニングするために利用され得るシステムの一例である。機械学習モデルを動作させ、トレーニングするための付加的構造は図2に示されている。
図2は、本明細書に記載される機械学習モデル、例えば、バイナリ分類モデル、回帰モデル、図3乃至図4を参照して以下において説明される回帰予測モデルなどを実装するためのシステム200を示している。このシステム200は、本明細書に記載される画像分類処理を実行するために実装することができる。このシステム200は、少なくとも1つのコンピューティングシステム202を含み得る。このコンピューティングシステム202は、メモリユニット208に動作可能に接続される少なくとも1つのプロセッサ204を含み得る。このプロセッサ204は、中央処理ユニット(CPU)206の機能性を実装する1つ又は複数の集積回路を含み得る。CPU206は、x86、ARM、Power、又は、MIPS命令セットファミリのうちの1つなどの命令セットを実装する市販の処理ユニットであるものとしてよい。動作中、CPU206は、メモリユニット208から取得される格納されたプログラム命令を実行することができる。格納されたプログラム命令は、本明細書に記載される動作を実行するためにCPU206の動作を制御するソフトウェアを含み得る。いくつかの例においては、プロセッサ204は、CPU206、メモリユニット208、ネットワークインタフェース、及び、入力/出力インタフェースの機能性を単一の統合デバイスに統合したシステムオンチップ(SoC)であるものとしてよい。コンピューティングシステム202は、動作の様々な態様を管理するためのオペレーティングシステムを実装することができる。図2には、1つのプロセッサ204、1つのCPU206、及び、1つのメモリ208が示されているが、もちろん、システム全体でそれぞれを2つ以上利用することもできる。
メモリユニット208は、命令及びデータを格納するための揮発性メモリ及び不揮発性メモリを含み得る。不揮発性メモリには、NANDフラッシュメモリなどのソリッドステートメモリ、磁気的及び光学的ストレージ媒体、又は、コンピューティングシステム202が非活動化され若しくは電力を落とされたときにデータを保持する任意の他の適当なデータストレージデバイスが含まれ得る。揮発性メモリには、プログラム命令とデータとを格納する静的及び動的ランダムアクセスメモリ(RAM)が含まれ得る。例えば、メモリユニット208は、機械学習モデル又はアルゴリズム210、機械学習モデル210用のトレーニングデータセット212、生のソースデータセット216を格納することができる。
コンピューティングシステム202は、外部のシステム及びデバイスとの通信を提供するように構成されたネットワークインタフェースデバイス222を含み得る。例えば、ネットワークインタフェースデバイス222は、電気電子学会(IEEE)802.11規格ファミリによって定義される有線及び/又は無線イーサネットインタフェースを含み得る。ネットワークインタフェースデバイス222は、セルラーネットワーク(例えば、3G、4G、5G)と通信するためのセルラー通信インタフェースを含み得る。ネットワークインタフェースデバイス222は、外部ネットワーク224又はクラウドに通信インタフェースを提供するようにさらに構成されるものとしてもよい。
外部ネットワーク224は、ワールドワイドウェブ又はインターネットと称される場合がある。外部ネットワーク224は、コンピューティングデバイス間の標準通信プロトコルを確立することができる。外部ネットワーク224は、コンピューティングデバイスとネットワークとの間の情報及びデータ交換を容易にさせることができる。1つ又は複数のサーバ230が外部ネットワーク224と通信するものとしてもよい。
コンピューティングシステム202は、デジタル及び/又はアナログの入力及び出力を提供するように構成され得る入力/出力(I/O)インタフェース220を含み得る。I/Oインタフェース220は、内部ストレージと外部入力及び/又は出力デバイス(例えば、HMIデバイス)との間で情報を転送するために使用されている。I/Oインタフェース220は、プロセッサ及びストレージに対して又はそれらの間で情報を転送するための関連付けされた回路又はBUSネットワークを含み得る。例えば、I/Oインタフェース220は、プロセッサによって読み取り又は設定され得るデジタルI/O論理線路、I/O線路を介したデータ転送を監視するためのハンドシェーク線路、タイミング及びカウント設備、並びに、そのような機能を提供することが既知である他の構造部を含み得る。入力デバイスの例には、キーボード、マウス、センサなどが含まれる。出力デバイスの例には、モニタ、プリンタ、スピーカなどが含まれる。I/Oインタフェース220は、外部デバイスと通信するための付加的なシリアルインタフェース(例えば、ユニバーサルシリアルバス(USB)インタフェース)を含み得る。I/Oインタフェース220は、(センサなどの外部入力からのデータを転送するという意味において)入力インタフェース又は(ディスプレイなどの外部出力にデータを転送するという意味において)出力インタフェースと称することができる。
コンピューティングシステム202は、システム200が制御入力を受信できるようにする任意のデバイスを含み得るヒューマンマシンインタフェース(HMI)デバイス218を含み得る。入力デバイスの例には、キーボード、マウス、タッチスクリーン、音声入力デバイス、及び、他の同様のデバイスなどのヒューマンインタフェース入力が含まれ得る。コンピューティングシステム202は、ディスプレイデバイス232を含み得る。コンピューティングシステム202は、グラフィックス及びテキスト情報をディスプレイデバイス232に出力するためのハードウェア及びソフトウェアを含み得る。ディスプレイデバイス232は、電子表示スクリーン、プロジェクタ、プリンタ、又は、ユーザ若しくはオペレータに情報を表示するための他の適当なデバイスを含み得る。コンピューティングシステム202は、ネットワークインタフェースデバイス222を介してリモートHMI及びリモートディスプレイデバイスとの対話を可能にするようにさらに構成されるものとしてよい。
システム200は、1つ又は複数のコンピューティングシステムを使用して実装されるものとしてよい。この例は、記載された特徴のすべてを実装する単一のコンピューティングシステム202を示しているが、様々な特徴及び機能が、相互に通信する複数のコンピューティングユニットによって分離され実装され得ることが意図されている。選択される特定のシステムアーキテクチャは、様々な要因に依存し得る。
システム200は、生のソースデータセット216を分析するように構成された機械学習アルゴリズム210を実装することができる。この生のソースデータセット216は、機械学習システムのための入力データセットを表し得る生の又は未処理のセンサデータを含み得る。この生のソースデータセット216は、音量、調性、鮮明さなどの測定可能な音質を含み得る。生のソースデータセット216は、それでもなお、時系列データなど(例えば、経時的な圧力センサ信号、振動データ、温度データ、電圧データ、電流データなど)、デバイスによって生成される音の原因となり得る又はそうでなければ関連付けられ得る測定可能な非音質も含み得る。生のソースデータセット216は、本明細書に記載される1つ若しくは複数のセンサによって受信される又は本明細書に記載される1つ若しくは複数のセンサに由来する完全に生のセンサデータ又は部分的に処理されたセンサデータであるものとしてもよい。入力のいくつかの異なる例は、図5乃至図11を参照して示され、説明される。いくつかの例においては、機械学習モデル210は、予め定められた機能を実行するように設計されたニューラルネットワークアルゴリズム(例えば、ディープニューラルネットワーク)であるものとしてよい。例えば、ニューラルネットワークアルゴリズムは、車両エンジン又はモーターの音の快適性スコアを予測するように構成されるものとしてもよい。機械学習モデル210は、図3乃至図4を参照して以下においてさらに説明されるバイナリ分類モデル、回帰モデル及び回帰予測モデルを動作させるように構成されたアルゴリズムを含み得る。
コンピュータシステム200は、機械学習モデル210用のトレーニングデータセット212を格納することができる。このトレーニングデータセット212は、機械学習モデル210をトレーニングするために先に構築されたデータのセットを表すことができる。例えば、トレーニングデータセット212は、上述の測定可能な音質又は非音質と、対応する音の快適性に対する関連付けられたスコア又はランクとを含み得る。トレーニングデータセット212は、ニューラルネットワークアルゴリズムに関連付けられた重み係数を学習するための機械学習アルゴリズム210によって使用されるものとしてよい。トレーニングデータセット212は、機械学習アルゴリズム210が学習プロセスを介して複製することを試みる対応する成果又は結果を有するソースデータのセットを含み得る。
機械学習アルゴリズム210は、入力としてトレーニングデータセット212を使用する学習モードで動作させられるものとしてよい。この機械学習アルゴリズム210は、トレーニングデータセット212からのデータを使用して複数の反復にわたって実行されるものとしてよい。各反復を用いることにより、機械学習アルゴリズム210は、達成された結果に基づいて内部重み付け係数を更新することができる。例えば、機械学習アルゴリズム210は、新たな音(例えば、それに関連付けられた測定可能な音質又は非音質)をトレーニングデータセット212に含まれる音と比較することができる。トレーニングデータセット212には予想される結果が含まれるため、機械学習アルゴリズム210は、許容可能な性能であるときを決定することができる。機械学習アルゴリズム210が予め定められた性能レベル(例えば、トレーニングデータセット212に関連付けられた結果と100%一致するレベル)又は収束に達した後、機械学習アルゴリズム210は、トレーニングデータセット212にないデータを使用して実行されるものとしてよい。本開示において、「収束」とは、設定された(例えば、予め定められた)反復の数が発生したこと、若しくは、残差が十分に小さいこと(例えば、反復にわたって近似確率における変化が閾値未満の変化であること)、又は、他の収束条件であることを意味し得ることを理解されたい。トレーニングされた機械学習アルゴリズム210は、注釈付きデータを生成する新しいデータセットに適用されるものとしてよい。
機械学習アルゴリズム210は、高音の快適性に対応する生のソースデータ216内の特定の特徴、及び、低音の快適性に対応する他の特徴を識別するように構成されるものとしてよい。生のソースデータ216は、音の快適性が求められる複数のインスタンス又は入力データセットを含み得る。例えば、機械学習アルゴリズム210は、むしろ低い快適性スコアに相当することが多い特定の音のピッチ又はトーンの存在を識別するように構成されるものとしてよい。機械学習アルゴリズム210は、生のソースデータ216を処理して特定の特徴の存在を識別するようにプログラミングされるものとしてよい。
生のソースデータ216は、様々なソースから導出されるものとしてよい。例えば、生のソースデータ216は、機械学習システムによって収集された実際の入力データであるものとしてもよい。生のソースデータ216は、システムをテストするために機械で生成されるものとしてもよい。実施形態においては、生のソースデータ216は、マイク又は他の音響的センサ(例えば、マイク、ピーク検出器及び増幅器を有する音響的センサモジュール)から受信した測定可能な音質を含む。ノイズフィルタリング、最小閾値及び最大閾値、ピーク検出などの他の前処理を生のソースデータ216に適用することも可能である。例えば、マイクは、音を検出することができるが、マイクシステム(例えば、関連付けられたプロセッサを備えたマイク)は、音の測定可能な音質を検出又は決定することができる。
モデルを実行するように構成された図1乃至図2の構造例とともに、機械学習モデルの上記の説明から、図3Aは、一実施形態による、音の快適性評価を予測するためのシステム300のフローチャートを示している。このシステム300は、音の快適性の最終予測に使用できる機械学習モデル(例えば、バイナリ分類モデル)をトレーニングするためのシステムを含むという点において、エンドツーエンドであり得る。もちろん、本明細書の別の箇所で述べたように、システム300は、音の快適性を予測するものとして言及されるが、それでもなおデバイスによって出力される音に関連付けることができる振動などの測定可能な非音データについても使用することが可能である。
図3Aには、2つのモデル、すなわち、バイナリ分類モデルと回帰モデルとが示されている。図3Aは、これらの2つのモデルの使用と実装とを示している。ただし、最初は、これらのモデルをトレーニングする必要がある。バイナリ分類モデルをトレーニングするために、複数の人による審査者によって既に評価された音に関する入力データが受信される。一例として、人による審査者は、リスニングテストにおいて、ヒートポンプ、モーター、ローター、車両エンジン、電動工具、家電製品、コンピュータ、ラップトップなどの1つ又は複数の様々なデバイスによって出力されるn個の音を聞くことができる。リスニングテストの対象となるデバイスのタイプは事実上無限であり、音を生成するあらゆるものが含まれる。審査者は、単純に、それらの音の快適性に基づいて例えば0から10までのスケールで音を評価することができる。その間、音に関連付けられた測定可能な音データは、例えば、生のソースデータ216としてメモリ208に記録される。測定可能な音データには、記述的な量を含めることができ、それらは、スカラ(例えば、音量、調性、鮮明さなどの音響心理量)、一次元ベクトル(例えば、経時的な音量)、又は、二次元スペクトル(高速フーリエ変換(FFT)対時間などの周波数分析など)であり得る。異なる入力チャネルを使用したこれらの測定可能な品質の組合せも可能である。
トレーニング用のモデルを準備するために、評価された音が両方向において相互に結合される(例えば、音nが音nと比較され、音nが音nと比較される)。測定された音質間の差分、及び、審査者の評価が、両方向において計算される。これは、対ごとの方式により行うことができる。例えば、各音の測定された音データの各々、及び、各音の対応する快適性評価について、データは、n個の対ごとの比較に変換される。音の数をn個と想定すれば、これによってn個の比較対が得られる。主対角線のもの(例えば、音2と比較される音2などそれ自体と比較される音)については、データから削除し又はゼロにすることができる。同様に、厳密に同一の審査者評価を有する音の比較が存在する場合(例えば、音7と比較した音4の審査者評価間の差分がゼロである場合)は削除することができる。そのような対ごとの比較は、測定可能な音データ及び審査者評価について作成することができる。結果として得られるデータは、モデルによる処理を改善するために(例えば、0から1までのスケールで)スケーリングすることができる。
図3Bは、7つの異なる音のそのような対ごとの比較から結果として得られるテーブル350の例を示している。この例は、音の快適性についての審査者評価間の差分を0から1までのスケールで示している。各列の水平ヘッダは、比較における第1の音を表し、各行の垂直ヘッダは、比較における第2の音を表す。この図示の例においては、列「音1」と行「音2」との交点にあるセルは、音1から音2までの快適性評価における差分である。0乃至10のスケールの審査者評価の例においては、この対ごとの比較は、-10(10と評価された最良音との比較において0と評価された最悪音)と10(0と評価された最悪音との比較において10と評価された最良音)との間の、2つの比較音間の審査者評価差分につながる。対角線の反対側の値(例えば、音Bに対する音Aの比較、及び、音Aに対する音Bの比較)は、同一の値を有するが、異なった算術符号(+/-)を有する。したがって、これらの対ごとの評価差分は、対ごとの最大差分による除算(この例においては、これは10による除算)によって、-1から1までのスケールでスケーリングすることができ、これは、対角線の反対側の値との関係を依然として保持する。0と1との間のスケーリングには、2つの比較差分(A-B及びB-A)の合計が常に1に等しくなるような値のシフトが含まれる。図3Bに示されているように、対ごとの比較の合計数は、「音の数の2乗」から、「それ自体と比較される対角線の各音質」を減算した値又は(n-n)に等しくなる。
図示されていないが、各音について測定された他の音質(例えば、鮮明さ、調性、音量など)の各々について、同様の対ごとの比較表を作成することができる。例えば、各音の調性を他の音の各々の調性と比較する同様の表を作成することができ、それによって、各音の音質が他のすべての音の音質と対ごとの方式により比較される。これは、音量や鮮明さなど、測定可能な他の音についても行うことができる。
実施形態によれば、システムへの入力(例えば、測定された音質及び審査者評価)は、バイナリ分類モデルに別個に又は個別に供給されない。代わりに、それらの差分は、前述の対ごとの比較に従って最初に計算される。これにより、必要なモデルの重みの数が低減され、それゆえ、トレーニングデータの必要な量及び重みの最適化の点において、より効率的になる。付加的に、このアプローチにおいては、自動的に0を中心とする入力変数が得られ、これは、典型的には問題解決に適した機械学習方法にとって有利となる。差分の使用は、2つの比較音の(音量などの)音特性の実際の値に関係なく、同一の差分は、常に同様の好みにつながるという仮定に基づいている。この仮定が有効でない場合、特性絶対値(例えば、音Aの最大音圧レベル)をさらなる入力チャネルを通じてモデルに付加的に転送することができ、これにより、上述の利点を維持しながら、2つの音が別個に転送されることに比較して最適化されるモデルパラメータの数が依然としてより少なくなるように導かれる。
快適性スコアとそれらの差分とに関して、バイナリ分類モデルは、各快適性スコアの差分をバイナリ値、例えば「0」又は「1」のいずれかで上書きすることによってトレーニングすることができる。比較されるそれぞれの各音評価について、これらの対ごとの比較の出力は、各比較においてどちらの音がより良好と評価されたかに依存して、バイナリ値のいずれか一方で上書きされる。例えば、図3Bを参照すると、音2の審査者評価が音3よりも良好と評価されている場合(0.88の差分で示されている)、その値は、音2が審査者によって快適性がより高いものであると評価されたことを示す「1」で上書きされる。列ヘッダにおける音の快適性が、行ヘッダにおける音の快適性よりも良好と評価されているすべての音については、その値を「1」に置き換えることができ、列ヘッダにおける音の快適性が、行ヘッダにおける音の快適性よりも不良と評価されているすべての音については、その値を「0」に置き換えることができる。図3Cは、図3Bの値をバイナリ値形式に変換した結果として得られるバイナリテーブル360を示している。
前記の別の態様においては、バイナリ分類モデルは、(a)各音の快適性評価と、他のすべての音の快適性評価との間の差分を対ごとの方式により決定するステップと、(b)それらの差分を、各対ごとの比較においてどちらの快適性評価が他方を超えているかに依存して第1のバイナリ値又は第2のバイナリ値のいずれかに変換するステップと、によってトレーニングすることができる。
測定可能な音データ入力は、他方では、バイナリ形式に変換する必要はない。ただし、各対ごとの比較の測定可能な音質間の差分は、メモリに格納することができ、バイナリ分類モデルを実行するときに依存させることができる。例えば、音2が45dBの音量を有し、かつ、音3が72dBの音量を有する場合には、音2と音3との間の差分は、-27として格納することができ、音3と音2との間の差分は、27として格納することができる。
したがって、バイナリ分類モデルは、音のバイナリ分類を行うために最適化される。測定可能な音質をそれに関連付けられた音評価比較で処理することにより、モデルは、測定された音質の差分に基づいて、2つの音の間でバイナリ予測を行うように構成される(例えば、音Aが音Bよりも快適性が高い場合は「1」、音Bが音Aよりも快適性が高い場合は「0」)。バイナリ分類モデルは、そのような予測を実行するために、ニューラルネットワーク(ディープニューラルネットワークなど)又はバイナリ分類に適した他の数学的手法(ランダムフォレスト、サポートベクターマシンなど)に依存させることができる。
これにより、バイナリ分類モデルを審査者によって評価されていない新しい音に作用させることが可能になる。図3Aを参照すると、システム300は、以下の実施形態に従って進行することができる。ステップ302においては、審査者によって既に評価された音が受信され又はストレージから取得される。これには、各音の審査者評価比較だけでなく、各音の測定可能な音質、及び、上述したすべての対ごとの比較も含まれる。
ステップ304においては、審査者によってスコアリングされていない新しい音(例えば、「音X」)が処理される。これには、マイクを介して音を受信すること、及び/又は、音の大きさ、鮮明さ、調性などの測定可能な品質を決定するために音を処理することが含まれる。音は、上述したように、スカラ音響心理量又は二次元スペクトルなど、既に評価された音が記述される任意の形式で記述することも可能である。
ステップ306においては、システムは、未評価音Xと既に評価された音の数nとの間の対ごとの比較を実行する。この計算には、ステップ304で決定された音量、調性、鮮明さなどの各測定可能な音質の対ごとの比較が含まれる。音Xのこれらの測定可能な音質は、ステップ302の評価された音の対応する測定可能な音質と対ごとの方式により比較される。例えば、音Xの調性は、音1~nの各々の調性と比較される。同様の比較は、音Xと音1~nとの間の他の音質(鮮明さ、音量など)の各々について行われる。
上記において説明したように、バイナリ分類モデルは、ステップ304及びステップ306からの測定可能な音質入力を別個に又は個別に受信又は処理しない。代わりに、音質の各タイプについて、それらの音の各々の間の差分が計算される。これらの差分は、ステップ308でバイナリ分類モデルへの入力として使用される。上記において説明したように、これにより、必要なモデルの重みの数が低減され、したがって、必要なトレーニングデータ量の点においても、重みの最適化の点においても、より効率的になる。
ステップ308においては、バイナリ分類モデルは、音Xが他の音1~nの各々よりも良好であるかどうかを予測する。これは、上記において計算された差分(例えば、各音についての測定可能な音質の対ごとの比較)に基づいて、上述したもの(例えば、ランダムフォレスト、サポートベクターマシンなど)のようなニューラルネットワークを使用して行うことができる。各音比較について、ステップ308でのバイナリ分類モデルの結果は、音Xが比較される音(例えば、音A)よりも快適性が高いと予測される場合には「1」を返すことができ、音Xが音Aよりも快適性が低いと予測される場合には「0」を返すことができる。一実施形態によれば、この結果は二進整数である必要はなく、代わりに0と1との間の範囲の浮動小数点数でよく、これは、0又は1で評価される比較対の確率として解釈することができる。1に近い予測は、音Xが音Aよりも快適性が高いということの高い確率として解釈され、0に近い予測は、音Xが音Aよりも快適性が低いということの高い確率として解釈される。
バイナリ分類モデルの結果は、音Xと、既に評価された他のすべての音との比較である。審査者によって評価されたそれらの快適性スコアとともに、評価された音1~nの測定可能な音質に基づいて、バイナリ分類モデルは、各音との比較として音Xの快適性の尤度又は信頼度に関して、0と1との間のスコアを出力するように構成されている。例えば、バイナリ分類モデルは、音Xを音7と比較するときに、音Xが音7よりも高い快適性の音を有することが審査者によって評価される比較的高い信頼度が示される場合、数0.92を出力することができる。対照的に、バイナリ分類モデルは、音Xを音8と比較するときに、音Xが音8よりも低い快適性の音を有することが審査者によって評価される比較的高い信頼度が示される場合、数0.11を出力することができる。
ステップ308におけるバイナリ分類モデルの出力は、音Xを他の任意の音と比較するために使用することができる。これらの出力は、そのような音ごとの比較が望まれる場合、それら独自のスタンドアロン使用を有する。一例として、ユーザは、音Xが音3、音5及び/又は音7よりも快適性が高いと審査者によって評価されるかどうかを理解したいと望むことがあり得る。しかしながら、バイナリ分類モデル308からの出力は、音Xの全体的な快適性評価を生成するために使用することもできる。例えば、回帰モデルは、評価された音の付加的なセットをバイナリ分類モデルのトレーニング中に使用された先行評価音との比較によってトレーニングすることができる。これは、結果として、先行評価音と比較される付加的な各音についての快適性予測とともに、測定された各音質についての対ごとの比較となる。代替的に、数kの代表的な音を、バイナリ分類モデルをトレーニングするために使用された先行評価音から選択し、先行評価音の残余のn-k個の音と比較することもできる。これらの比較は、他のすべての音との対ごとの比較のバイナリ分類モデルの予測を、連続スケールでの実際の審査者評価に転送する回帰モデルを最適化するための基礎として役立つ。一度トレーニングされると、回帰タスクは、新しい音(例えば、音X)の測定可能な音質をトレーニングから既に既知の音質と比較することができる。
図3Aに示されている例を参照すると、ステップ310においては、音Xとバイナリ分類モデル308によって使用される数nの審査者評価音との間のすべての対ごとの比較が累算される。数nの審査者評価音の快適性評価をコンパイルすることも可能である。例えば、本明細書において示されているように、音Xと音1との比較について、0.81は、音1の快適性評価を表し、音Xと音2との比較について、1.09は、音2の快適性評価を表すなどである。上述したように、これらの審査者音評価は、本明細書のステップ310で示されているように、0から10までのスケールであるものとしてもよいが、0~100などの他のスケール、又は、文字グレード(「A」乃至「F」)などが使用されるものとしてもよい。ステップ310の最後の行は、モデル予測を示し、これも音Xが比較音相手よりも高く又は低く評価されたかどうかを0と1との間の数で表している。例えば、音Xと音1との比較においては、0.02が得られ、これは、音Xが音1よりも快適性が低いということの高い確信度又は確率を示す。同様に、音Xと音nとの比較においては、0.99が得られ、これは、音Xが音nよりも快適性が高いということの高い確信度又は確率を示す。
ステップ312においては、回帰タスクを利用して、回帰モデルが、音Xの全体的な快適性評価を出力する。音Xと評価音との比較に関するステップ310での各モデル予測出力は、ステップ312での回帰タスクによって利用される。一般に、回帰タスクは、バイナリ分類モデルからの予測リスト(例えば、音Xと既に既知の各音との比較)と、比較相手の既知の審査者評価とから、未知音Xの最終評価の結論が引き出される。1つのアプローチにおいては、バイナリ分類モデルが、音Xがより良好な評価を受けることを予測した最低評価既知音の既知の審査者予測を取得し、バイナリ分類モデルが、音Xがより不良な評価を受けることを予測した最高評価音の既知の審査者予測を取得し、これら2つの平均を音Xの最終審査者評価として導出することが可能である。他のより複雑なモデルは、比較音の既知の審査者評価の値分布を含むバイナリ予測値の全範囲を考慮に入れることができる。このようなモデルは、バイナリ分類器と同様に、機械学習モデルにすることができる。
したがって、回帰モデル312は、審査者によって評価されていない様々な音の予測される快適性スコアを出力するように構成することができる。この快適性スコアは、審査者によって使用されるのと同様のスケール(例えば、0から10までのスケール)と一致するようにスケーリングすることができる。新しい未評価音の予想される審査者評価を予測するために、これらの音は、最初に、調性、鮮明さ及び/又は音量など、バイナリ分類モデル308をトレーニングするために使用されたのと同様の量によって記述されるべきである。次いで、これらの音は、(例えば、ステップ302で説明したように)バイナリ分類モデル308のトレーニングに使用される既知の音と対にされ、測定された音の量の差分が形成される。必要に応じて、これらは、バイナリ分類モデルの最適化におけるのと同様のスケーリング方法を使用して前処理される。次いで、バイナリ分類モデル312は、各音の比較対について予測を行い、新しい未評価音を先行評価音と比較する。次いで、既に既知のn個又はn-k個の音との予測された比較結果の結果リストは、連続スケールでの最終回帰のために回帰モデルによって使用される。
図3の実施形態は、一実施形態によれば、極値の特別な考慮を含む。新しい音がモデルのトレーニングに使用されたどの音よりも不良であることが予測される場合、最悪のトレーニング評価からすべてのトレーニング音の平均差を引いたものがその音に割り当てられる。反対に、新しい音がどの所定のトレーニング音よりも良好であることが予測される場合は、最高のトレーニング評価とすべてのトレーニング音の平均差とを足したものがその音に割り当てられる。
図3の実施形態も、0と1とのリストに基づいてではなく、第2の後続の回帰モデルを使用した予測確率に基づいて、最終的な回帰決定を行う。この目的のために、対ごとの比較の予測は、0又は1に丸められるのではなく、0と1との間の浮動小数点数として残され、これは、イベントがその比較音よりも良好か不良かの確率として解釈することができる。次いで、第2のモデル(例えば、回帰モデル)は、第1のモデル(例えば、2項分類モデル)によって実行された対比較の予測確率に基づいて、新しい音についての最終回帰決定を行う。これは、第2のモデルがここではバイナリ分類よりも複雑である回帰タスクを解決する必要があることを意味するが、しかしながら、第1のモデルによって実行された広範な前処理の恩恵を受けることが可能である。
図3の実施形態は、2つの音の差分が2項分類モデルに対する入力として使用されるため、対比較の2項分類に関して効率的である。付加的に、この実施形態は、極値を考慮し、特に既にラベル付けされたトレーニング音の数が増加する場合に、0と1との2つのリストに基づく最終回帰結果の単なる推定よりも正確な予測を可能にする。
図4は、未評価音の快適性評価を決定するためのシステム400のフローチャートの代替的実施形態を示している。図4に示されているフローチャートに示されるステップも、例えば、図1乃至図2に示される構造を使用して実行されるものとしてもよい。図3を参照して上記において説明した方法とは異なり、ここでは、対ごとの分類が使用されているが、ここでのこの実施形態によれば、対ごとの相対回帰問題が、絶対的な対ごとの予測値にわたる後続の平均とともに使用されている。
一般に、回帰問題は、関数
Figure 2024066497000002
を求めるタスクとして定式化することができるため、
Figure 2024066497000003
を用いることにより、トレーニングデータセットX,Yのすべてのn個のサンプル対(x,y)∈(X,Y)にわたって、誤差又は損失率
Figure 2024066497000004
が最小化される。図4の例においては、xは、測定された音の音質であり、yは、例えば0から10までのスケールでスケーリング可能なスコアである。本明細書において使用する対ごとの相対回帰は、関数
Figure 2024066497000005
を求める問題として定式化することができるため、トレーニングデータセットX,Yのすべての(x,y)∈(X,Y),(x,y)∈(X,Y)について、誤差又は損失率
Figure 2024066497000006
が最小化される。その後、絶対スケールへの回帰が、対ごとの相対回帰の予測にわたる適当な平均化によって実行され、例えば、欠損値が
Figure 2024066497000007
として、例えば、
Figure 2024066497000008
及び|x-y|を入力データ空間における適当な距離メトリック(例えば、ユークリッド標準)として用いた
Figure 2024066497000009
としての負の指数回帰差分に基づく重み付けで平均化することによって計算される。ここで、
Figure 2024066497000010
は、音iの最終評価予測であり、
Figure 2024066497000011
は、音iと音jとの間の評価差分についての回帰モデルの予測であり、yは、比較音jの既知の評価であり、Mは、平均化関数であり、C2は、定数であり、x,xは、入力特徴空間における音i及び音jの量(例えば、i及びjについての音量値)である。誤差又は損失率Lについての例示的な任意選択肢は、トレーニング値の平均二乗偏差の平方根(「二乗平均平方根誤差」)、すなわち、
Figure 2024066497000012
である。
図4を参照すると、システム400は、以下において説明する回帰予測モデルを含む。最初に、モデルがトレーニングされる。このトレーニングには、図3を参照して上記において説明したのと同様のトレーニングデータを含めることができる。例えば、回帰予測モデルは、リスニングテストにおいて1人又は複数の審査者によって既に評価された音を使用する機械学習方法(例えば、人工ニューラルネットワーク)に基づいてトレーニングすることができる。このモデルの入力データとして使用される記述量は、スカラ(例えば、音量、調性、鮮明さ)、一次元ベクトル(例えば、音量対時間)、二次元スペクトル(例えば、FFT対時間)、又は、異なる表現の組合せであり得る。モデルをトレーニングするための準備のために、すべての評価音が両方向において相互に結合される(例えば、音Aと音Bとの比較、及び、音Bと音Aとの比較)。次いで、入力データ対は、別個の入力チャネルを通じて、2つの比較音の特徴の差分を受け取る1つの入力チャネルを介して、又は、付加的特性量とともに差分の組合せを使用して、回帰予測モデルに供給することができる。出力変数として、対になった音の審査者評価の差分が形成される。音の数がn個の場合、n個の比較対が得られる。音の差分が入力として使用される場合、主対角線上のすべての入力及び出力量はゼロであるため、主対角線上の比較を削除することができる(上記の図3Bと同様)。次いで、入力データは、アルゴリズムによる良好な処理のためにスケーリングされるものとしてよい。回帰予測モデルのターゲット変数は、比較された2つの音の審査者評価における差分である。次いで、モデルは、入力変数の対が供給されたときに2つの審査者評価の差分を予測するように最適化される。
一度トレーニングされると、これにより、回帰予測モデルを審査者によって評価されていない新しい音に作用させることが可能になる。図4を参照すると、システム400は、以下の実施形態に従って進行することができる。ステップ402においては、審査者によって既に評価された音が受信され又はストレージから取得される。これには、各音の審査者評価比較だけでなく、各音の測定可能な音質、及び、上述したすべての対ごとの比較も含まれる。j=1…nの場合、これらの音xがn個の数だけ受信又は取得される。
ステップ404においては、審査者によってスコアリングされていない新しい音(例えば、「x」)が処理される。これには、マイクを介して音を受信すること、及び/又は、音の大きさ、鮮明さ、調性などの測定可能な品質を決定するために音を処理することが含まれる。音は、上述したように、スカラ音響心理量又は二次元スペクトルなど、既に評価された音が記述される任意の形式で記述することも可能である。
次いで、対ごとの相対回帰予測モデルとも称される回帰予測モデル406が、対ごとの方式によりこのデータに作用し、未評価音xの測定された音質が各審査者評価音xの測定された音質と比較される。このモデルは、すべての対比較について、新しい音の審査者評価とそれぞれの比較音との間の差分を予測する。上記の例に従ってトレーニングされたモデルを使用して、回帰予測モデル406は、xの音質をxの音質と比較し、既に評価された音xの既知の審査者評価とともに、比較された2つの品質に基づいて予測yi,jを出力することができる。
ステップ406での例406には、j=1…nの場合の各音xと比較された音xの予測評価が示されている。この例においては、新しい未評価音xを音xと比較した場合、モデルは、新しい音xが、審査者によって評価された比較音xの既知の評価yよりも+4.15高くなる評価(y)を有することを予測する。換言すれば、モデルは、音xと音xとの対ごとの比較について、4.15の予測される快適性差分評価を出力する。このプロセスは、各音xについて音の数n個まで継続され、未評価音を各々と比較する。この例においては、音xにおいて、モデルは、未評価音xと評価音xとの間の評価の差分が-4.5になると予測する。換言すれば、0から10までのスケールでの評価は、未評価音xについて4.5小さくなる。
ステップ408においては、回帰予測モデル406の出力からの比較結果が要約のためにコンパイル又は累算される。換言すれば、未評価音xとそれぞれの各評価音xとの間の評価における差分がコンパイルされる。第1の行は、未評価音と比較される各音の既知の評価yを示す。例えば、第1の音xについての音の快適性の審査者平均評価yは、0.81であり、第2の音xについての音の快適性の審査者平均評価yは、1.09などである。各音について、この数値が回帰予測モデル406の出力に加算又は結合され、合計された評価
Figure 2024066497000013
に達する。これは、回帰予測モデルを使用した、既に評価された各音との比較に基づいて、未評価音の予測評価を表す。
ステップ410においては、システムは、合計されたすべての評価の加重平均を決定する。一実施形態においては、重みは、実際の平均からの開きに依存して、合計された評価の各々に付けられる。例えば、合計された評価が平均から逸脱するほど、それらの合計された評価に付けられる重みは低減する。これにより、評価は平均に近いほどより重く重み付けされる。
結果として得られる加重平均は、新しい未評価音の全体的な予測快適性評価yを表す。したがって、システム400は、未評価音の測定された音質を、回帰予測モデルにおいて既に審査者により評価された音の音質と比較することによって、未評価音の快適性評価を予測することができる。
一般に、一度回帰予測モデルがトレーニングされると、それは、新しい未評価音の予想される審査者評価を予測するために使用することができる。新しい未評価音の予想される審査者評価を予測するために、最初に未評価音は、モデルのトレーニングに使用した量と同様の量(例えば、音量、調性、鮮明さなど)によって記述されることが必要である。次いで、測定された各音質が、モデルのトレーニングに使用された既に評価された音の各々の対応する音質と対になる。対比較の入力量が導出される。必要に応じて、これらは、モデルの最適化と同様のスケーリング方法を使用して前処理される。次いで、モデルは、すべての対比較について、新しい音の審査者評価とそれぞれの比較音との間の差分を予測する。ここで、未評価音の所望の審査者評価は、すべての既知の音評価の対応する加重平均と、未評価音に対する関連付けられた予測差分とを計算することによって決定することができる。
図3の実施形態及び他のシステムと比較した図4のシステムの1つの利点は、初期回帰タスクを分類問題に変換する中間ステップが必要ないことである。分類タスクへの変換の場合、分類問題の変動領域内(したがって、予測「0-新しい音は調性/快適性/…が低い」と「1-新しい音は調性/快適性/…が高い」との間)のサンプルのみが予測結果に寄与する可能性があり、すべてのトレーニングサンプルの対比較は、相対回帰アプローチの場合に寄与する可能性があり、これは予測精度を向上させ得る。
確立された方法に関する利点は、特に、モデルのトレーニング又は回帰関数の較正のためにそれぞれ少量のデータしか利用できない場合に達成することができる。比較対の2つのサンプルのデータをモデルに供給することは、(a)
Figure 2024066497000014
として別個に(例えば、人工ニューラルネットワークの2つの異なる入力チャネルを介して)行うことができ、同様に、(b)2つのサンプルの差分
Figure 2024066497000015
として、又は、(c)サンプルと1つ又は複数の付加的特性量との間の差分の組合せ
Figure 2024066497000016
として行うことができる。アプローチ(a)は、特に、サンプルの高次元表現(例えば、音響タスクの場合における音の短期スペクトル又は時間信号)の場合に適しているが、変形形態(b)及び(c)は、特に、サンプルの低次元表現(例えば、音響タスクの場合における一次元音響心理量の組合せ)に適している。
付加的に、図4で説明した方法は概念的に単純であり、分類問題を回帰問題に変換するステップはもはや必要なく、相対回帰値にわたる平均化によって置き換えられる。
上述したシステム及び方法は、例えば、製品によって放出される音の音響特性(例えば、音の快適性、音量、調性など)に関して製品の制御を最適化するために使用することができる。この最適化は、製品開発プロセスの段階で行われることも、製品適用時に動的に行われることも可能である。使用ケースの一例として、住宅密集地におけるヒートポンプが挙げられ、ここでは、上述のシステムは、(i)製品から放出される音質を測定するためにセンサ(マイク、加速度センサなど)を使用し、(ii)システムに既に既知である音の音質との対ごとの比較に基づいてその快適性を評価する。この評価は、ヒートポンプによって生成される音を変化させるために、現下の動作点におけるヒートポンプの制御を最適化するために使用することができる。
提案されたアプローチを使用してそれらの音響特性を最適化することができるデバイスの他の例は、電気自動車、電動工具、及び、他のデバイスである。これらの例は、図6乃至図11に示されており、以下において説明される。これらの用途(及び他の用途)のための機械学習モデルをトレーニングして使用するために使用される構造が図5に例示されている。
図5は、コンピュータ制御された機械500と制御システム502との間の対話の概略図を示している。コンピュータ制御された機械500は、アクチュエータ504及びセンサ506を含む。アクチュエータ504は、1つ又は複数のアクチュエータを含み得るものであり、センサ506は、1つ又は複数のセンサを含み得る。センサ506は、コンピュータ制御された機械500の状態を感知するように構成されている。センサ506は、感知された状態をセンサ信号508に符号化し、このセンサ信号508を制御システム502に伝送するように構成されるものとしてよい。センサ506の非限定的な例には、マイク、ビデオ、レーダ、LiDAR、超音波、及び、モーションセンサが含まれる。
制御システム502は、コンピュータ制御された機械500からセンサ信号508を受信するように構成されている。以下に説明するように、制御システム502は、センサ信号に依存してアクチュエータ制御コマンド510を計算し、このアクチュエータ制御コマンド510をコンピュータ制御された機械500のアクチュエータ504に伝送するようにさらに構成されるものとしてよい。一実施形態においては、制御システム502は、本明細書に記載されるモデルの出力に依存してアクチュエータ制御コマンド510を計算するようにさらに構成されるものとしてよい。例えば、アクチュエータ制御コマンド510は、本明細書に記載されるモデルを使用して、未評価音の予測快適性に基づいて計算することができる。1つ又は複数のデバイスから放出される音が閾値未満の快適性を有することが予測される場合、システムは、それぞれの1つ又は複数のデバイスを分離又は編成するようにアクチュエータに命令することができる。
図5に示されているように、制御システム502は受信ユニット512を含む。受信ユニット512は、センサ506からセンサ信号508を受信し、このセンサ信号508を入力信号xに変換するように構成されるものとしてよい。代替的な実施形態においては、センサ信号508は、受信ユニット512なしで入力信号xとして直接的に受信される。各入力信号xは、各センサ信号508の一部であるものとしてもよい。受信ユニット512は、各センサ信号508を処理して各入力信号xを生成するように構成されるものとしてよい。入力信号xは、センサ506によって記録された画像に対応するデータを含み得る。
制御システム502は、分類器514を含む。この分類器514は、上述したニューラルネットワークなどの機械学習アルゴリズムを使用して、入力信号xを1つ又は複数のラベルに分類するように構成されるものとしてよい。分類器514は、上述したもの(例えば、パラメータθ)などのパラメータによってパラメータ化されるように構成されている。パラメータθは、不揮発性ストレージ516に格納され、不揮発性ストレージ516によって提供されるものとしてよい。分類器514は、入力信号xから出力信号yを決定するように構成されている。各出力信号yには、各入力信号xに1つ又は複数のラベルを割り当てる情報が含まれている。分類器514は、出力信号yを変換ユニット518に伝送することができる。変換ユニット518は、出力信号yをアクチュエータ制御コマンド510に変換するように構成されている。制御システム502は、アクチュエータ制御コマンド510をアクチュエータ504に伝送するように構成されており、アクチュエータ504は、アクチュエータ制御コマンド510に応じてコンピュータ制御された機械500を動作させるように構成されている。他の実施形態においては、アクチュエータ504は、直接的に出力信号yに基づいてコンピュータ制御された機械500を動作させるように構成されている。
アクチュエータ504によってアクチュエータ制御コマンド510が受信されると、アクチュエータ504は、関連するアクチュエータ制御コマンド510に対応する動作を実行するように構成されている。アクチュエータ504は、アクチュエータ制御コマンド510を、アクチュエータ504の制御のために利用される第2のアクチュエータ制御コマンドに変換するように構成された制御ロジックを含み得る。1つ又は複数の実施形態においては、アクチュエータ制御コマンド510は、アクチュエータの代わりに又はアクチュエータに加えて、ディスプレイを制御するために利用されるものとしてよい。
他の実施形態においては、制御システム502は、センサ506を含むコンピュータ制御された機械500の代わりに、又は、センサ506を含むコンピュータ制御された機械500に加えて、センサ506を含む。制御システム502は、アクチュエータ504を含むコンピュータ制御された機械500の代わりに、又は、アクチュエータ504を含むコンピュータ制御された機械500に加えて、アクチュエータ504を含み得る。
図5に示されているように、制御システム502は、プロセッサ520及びメモリ522も含む。プロセッサ520は、1つ又は複数のプロセッサを含み得る。メモリ522は、1つ又は複数のメモリデバイスを含み得る。1つ又は複数の実施形態の分類器514(例えば、バイナリ分類モデルに関して上述したような機械学習アルゴリズム)は、不揮発性ストレージ516、プロセッサ520及びメモリ522を含む制御システム502によって実装されるものとしてよい。
不揮発性ストレージ516は、ハードドライブ、光学的ドライブ、テープドライブ、不揮発性ソリッドステートデバイス、クラウドストレージ、又は、情報を永続的に格納することができる任意の他のデバイスなどの1つ又は複数の永続的データストレージデバイスを含み得る。プロセッサ520は、高性能コア、マイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ、マイクロコンピュータ、中央処理ユニット、フィールドプログラマブルゲートアレイ、プログラマブルロジックデバイス、ステートマシン、論理回路、アナログ回路、デジタル回路、又は、メモリ522内に常駐するコンピュータ実行可能命令に基づいて信号(アナログ若しくはデジタル)を操作する任意の他のデバイスを含む高性能コンピューティング(HPC)システムから選択される1つ又は複数のデバイスを含み得る。メモリ522は、ランダムアクセスメモリ(RAM)、揮発性メモリ、不揮発性メモリ、スタティックランダムアクセスメモリ(SRAM)、ダイナミックランダムアクセスメモリ(DRAM)、フラッシュメモリ、キャッシュメモリ、又は、情報を格納し得る任意の他のデバイスを含むがこれらに限定されるものではない単一のメモリデバイス若しくは複数のメモリデバイスを含み得る。
プロセッサ520は、不揮発性ストレージ516に常駐し、1つ又は複数の実施形態の1つ又は複数の機械学習アルゴリズム及び/又は方法論を具体化するコンピュータ実行可能命令をメモリ522に読み込んで実行するように構成されるものとしてよい。不揮発性ストレージ516は、1つ又は複数のオペレーティングシステムとアプリケーションとを含み得る。不揮発性ストレージ516は、Java、C、C++、C#、Objective C、Fortran、Pascal、JavaScript、Python、Perl及びPL/SQLを含むがこれらに限定されるものではない、単独で又は組合せにおいて、様々なプログラミング言語及び/又は技術を使用して作成されたコンピュータプログラムからコンパイル及び/又は解釈されたものを格納することができる。
プロセッサ520によって実行されると、不揮発性ストレージ516のコンピュータ実行可能命令は、制御システム502に、本明細書に開示される機械学習アルゴリズム及び/又は方法論の1つ又は複数を実装させることができる。不揮発性ストレージ516は、本明細書に記載される1つ又は複数の実施形態の機能、特徴及びプロセスを支援する機械学習データ(データパラメータを含む)も含み得る。
本明細書に記載されるアルゴリズム及び/又は方法論を具体化するプログラムコードは、様々な異なる形態のプログラム製品として個別に又は一括して配布することができる。プログラムコードは、プロセッサに1つ又は複数の実施形態の態様を実行させるためのコンピュータ可読プログラム命令を有するコンピュータ可読ストレージ媒体を使用して配布されるものとしてよい。本質的に非一時的なコンピュータ可読ストレージ媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、又は、他のデータなどの情報を格納するための任意の方法若しくは技術により実装された揮発性及び不揮発性で、取り外し可能及び取り外し不可能な有形媒体を含み得る。コンピュータ可読ストレージ媒体は、RAM、ROM、消去可能プログラマブル読み取り専用メモリ(EPROM)、電気的消去可能プログラマブル読み取り専用メモリ(EEPROM)、フラッシュメモリ若しくは他のソリッドステートメモリ技術、ポータブルコンパクトディスク読み取り専用メモリ(CD-ROM)若しくは他の光学的ストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ若しくは他の磁気ストレージデバイス、又は、所望の情報を格納するために使用可能であり、コンピュータによって読み取り可能な任意の他の媒体をさらに含み得る。コンピュータ可読プログラム命令は、コンピュータ可読ストレージ媒体からコンピュータ、他のタイプのプログラマブルデータ処理装置若しくは他のデバイスにダウンロードされるものとしてもよいし、又は、ネットワークを介して外部コンピュータ若しくは外部ストレージデバイスにダウンロードされるものとしてもよい。
コンピュータ可読媒体に格納されたコンピュータ可読プログラム命令は、コンピュータ、他のタイプのプログラマブルデータ処理装置又は他のデバイスが特定の態様により機能するように命令するために使用されるものとしてよく、それによって、コンピュータ可読媒体に格納された命令は、フローチャート又は図で規定された機能、行為及び/又は動作を実装する命令を含む製造品を生成する。所定の代替的実施形態においては、フローチャート及び図で規定された機能、行為及び/又は動作は、1つ又は複数の実施形態と一致して、並べ替えられ、逐次的に処理され、及び/又は、同時に処理されるものとしてよい。その上さらに、フローチャート及び/又は図のいずれも、1つ又は複数の実施形態と一致して図示されたものよりも多い又は少ないノード又はブロックを含み得る。
プロセス、方法又はアルゴリズムは、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、ステートマシン、コントローラ、又は、他のハードウェアコンポーネント若しくはデバイス、又は、ハードウェア、ソフトウェア及びファームウェアコンポーネントの組合せなどの適当なハードウェアコンポーネントを使用して全体的に又は部分的に実現することができる。
図6は、車両600を制御するように構成された制御システム502の概略図を示している。この車両600は、少なくとも部分的に自律的な車両又は少なくとも部分的に自律的なロボットであるものとしてよい。車両600は、アクチュエータ504及びセンサ506を含む。センサ506は、1つ又は複数のマイク、ビデオセンサ、カメラ、レーダセンサ、超音波センサ、LiDARセンサ、及び/又は、位置センサ(例えば、GPS)を含み得る。1つ又は複数の特定のセンサのうちの1つ又は複数は、車両600に統合されるものとしてもよいし、又は、車両の一部であるものとしてもよい。
車両600の制御システム502の分類器514は、入力信号xに依存して車両600の近くの対象を検出するように構成されるものとしてよい。そのような実施形態においては、出力信号yは、車両600に対する対象の近傍を特徴付ける情報を含み得る。アクチュエータ制御コマンド510は、この情報に従って決定されるものとしてよい。アクチュエータ制御コマンド510は、検出された対象との衝突を回避するために使用されるものとしてよい。本明細書の教示は、カメラによって捕捉された画像に関連付けられた画像データが、それらの画像の予測快適性評価を導出し得るこの特定の実施形態に適用することができる。次いで、車両によって捕捉されたシーンは、快適である(例えば、起伏のある田園地帯を運転している)か、又は、快適ではない(例えば、渋滞に巻き込まれている)かを予測することができる。
車両600が少なくとも部分的に自律的なロボットである他の実施形態においては、車両600は、飛行、水泳、ダイビング及びステッピングなどの1つ又は複数の機能を実行するように構成された移動型ロボットであるものとしてよい。これらのデバイスからは音が放出される場合があり、それらの音は、本明細書の教示に従って、快適であるか又は快適でないかが予測される。この移動型ロボットは、少なくとも部分的に自律的な芝刈り機又は少なくとも部分的に自律的な掃除ロボットであるものとしてもよい。そのような実施形態においては、アクチュエータ制御コマンド510は、移動型ロボットがそのような動き又は音の予測快適性に基づいてより快適な動き又は音を出すことができるように、移動型ロボットの推進ユニット、操舵ユニット及び/又はブレーキユニットが制御され得るように決定されるものとしてよい。
車両600は、家庭用電化製品の形態の少なくとも部分的に自律的なロボットであるものとしてよい。家庭用電化製品の非限定的な例には、洗濯機、コンロ、オーブン、電子レンジ、又は、食器洗浄機が含まれる。そのような車両600においては、センサ506は、家庭用電化製品によって放出される音を検出するように構成されたマイクであるものとしてよい。例えば、家庭用電化製品が洗濯機である場合、センサ506は洗濯機の動作に関連付けられたノイズを検出することができ、ここで、その音の予測快適性は、本明細書に記載される方法に基づいて決定することができる。そのような動作には、家庭又は電化製品に局限されない外部サーバが関与し得る。次いで、サーバは、洗濯機に動作を停止させる信号を送信したり、不快な音が放出されていることに基づいて家電製品が修理を必要としているかもしれないという信号を家電製品のメーカーや管理者に送信したりすることができる。
図7は、生産ラインの一部などの製造システム702の、パンチカッタ、カッタ又はガンドリルなどのシステム700(例えば、製造機械)を制御するように構成された制御システム502の概略図を示している。この制御システム502は、システム700(例えば、製造機械)を制御するように構成されたアクチュエータ504を制御するように構成されるものとしてよい。
システム700(例えば、製造機械)のセンサ506は、製造された製品704の1つ又は複数の特性を捕捉するように構成された光学的センサであるものとしてよい。分類器514は、分類器514は、光学的センサによって捕捉された画像の快適性を分類するように構成されるものとしてよい。アクチュエータ504は、製造された製品704の予測快適性に依存してシステム700(例えば、製造機械)を制御するように構成されるものとしてよい。アクチュエータ504は、製造された製品704の予測快適性に依存してシステム700(例えば、製造機械)の後続の製造された製品706へのシステム700(例えば、製造機械)の機能を制御するように構成されるものとしてよい。
図8は、少なくとも部分的に自律的なモードを有する電動ドリル又はドライバーなどの電動工具800を制御するように構成された制御システム502の概略図を示している。この制御システム502は、電動工具800を制御するように構成されたアクチュエータ504を制御するように構成されるものとしてよい。
電動工具800のセンサ506は、作業面802及び/又は作業面802に締め込まれる締結具804上で工具が動作するときの1つ又は複数の音を捕捉するように構成されたマイクであるものとしてもよい。分類器514は、そのような音を分類又は予測するように構成されるものとしてよい。これは、電動工具800の製造業者に、製品が様々な表面や締結具での作業中に快適な音を出しているかどうかをより良好に伝えることができる。これは、人による審査者が様々な表面や締結具で様々なツールが動作するのを聞くという終わりのない作業になりかねない作業の必要性を取り除くことができる。アクチュエータ504は、電動工具800の駆動機能が、予測される音の快適性に依存して調整されるように電動工具800を制御するように構成されるものとしてよい。例えば、アクチュエータ504は、例えば、締結具804の状態が作業面802に対して面一でないことを予測される音の快適性が示す場合に、駆動機能を中止することができる。他の非限定的な例として、アクチュエータ504は、作業面802の硬さに依存して付加的なトルクを印加することも、又は、より少ないトルクを印加することも、可能である。
図9は、自動化されたパーソナルアシスタント900を制御するように構成された制御システム502の概略図を示している。センサ506は、マイク又はカメラであるものとしてよく、パーソナルアシスタント900によって捕捉された音又は画像は、本明細書の教示に従って、捕捉された画像又は音の快適性を予測するシステムに(例えば、無線信号を介して)配信することができる。
図10は、監視システム1000を制御するように構成された制御システム502の概略図を示している。一実施形態においては、この監視システム1000は、センサ506、例えば、カメラによって捕捉された画像に基づいて、又は、ディスプレイ1004上への捕捉された画像の表示に基づいて、ドア1002を通るアクセスを物理的に制御するように構成されるものとしてよい。ドア1002の制御は、例えば、カメラによって捕捉された1つ又は複数の対象の予測される快適性に基づいて許可又は拒否されるものとしてよい。
図11は、例えばMRI装置、X線撮像装置又は超音波装置などディスプレイ1102上に画像を表示する撮像システム1100を制御するように構成された制御システム502の概略図を示している。センサ506は、例えば、撮像システムに取り付けられたマイクであるものとしてよく、ここで、このシステムは、撮像装置によって放出される音の快適性を予測する。これは、例えば、診療所でのより良好な経験につながり得る。
本開示は、1つの音に関連付けられた音質測定値(例えば、音量、調性、鮮明さ)を別の音の音質測定値と比較することを提供するが、これは音の測定値だけに限定されるべきではないことを理解すべきである。それでもなお音に関連付けられる他の非音測定値は、本明細書に記載されるモデル及びアルゴリズムを用いて比較することができる。換言すれば、音に関連付けられる測定値は、音自体の品質である必要はない。代わりに、これらの測定値は、それらの品質が人によって知覚される音を引き起こす又はそれに影響を与える可能性がある振動又は電圧などの音以外の測定値である可能性もある。(例えば、加速度計を使用して)測定された振動特性、及び、(例えば、電圧計又はデジタルマルチメータを使用して)測定された電圧特性は、本明細書に記載される機械学習モデルに入力することができ、ここで、この機械学習モデルは、部品の音に関連付けられた振動又は電圧特性を、別の音に関連付けられた振動又は電圧特性と対ごとの比較方式により比較することができる。したがって、音の品質への言及は、直接的な音質ではないが、それでもなお音に関連付けることができる非音測定値(振動や電圧など)を含み得ることを理解すべきである。その一例がモーターである。モーターが所定の大きさや位相で振動しているときに、それが不快に知覚される音に関連付けられる場合があり、さらにその音の知覚される快適性が振動特性の変化しだいで変わる可能性もある。
さらに、本明細書において提供される教示は、音だけに限定されるものではないことを理解すべきである。音響回帰問題に加えて、提示されたアプローチは、センサデータの評価に基づく他の種類の回帰問題にも適用することができる。これについての例には、測定された電流信号、電圧信号、振動信号などに依存して、生産プロセスのエラー確率を決定することが含まれる。本明細書の教示は、最初にデバイスの測定可能な品質の対ごとの比較を用いて機械学習モデルをトレーニングし、次いで、デバイスの測定可能な品質をトレーニングから既に既知の品質と比較する回帰タスクを使用することによって、人によって知覚されるデバイスの全体的な主観的品質(例えば、視覚的快適性、使いやすさ、作業性、匂いなど)が予測できる非音環境にも適用することができる。最先端の方法と比較して、提示された本アプローチは、特に少ない量の学習データしか利用可能でない場合に有利である。
例えば、製品の音響最適化に加えて、本開示は、センサデータ又は画像データの評価に基づく他の回帰問題にも適用することができる。例えば、審査者は、人の写真に見られるような顔の表情に親しみやすさのスコアを割り当てるタスクを課されるものとしてもよい。その後、モデルは、親しみやすさのスコアに対応する画像データ(例えば、カメラ又は他の画像センサから捕捉され、前処理されたもの)でトレーニングし、回帰タスク及び対ごとの比較を、審査者によって評価されていない新しい画像を用いて行うことができる。本明細書の教示は、測定された電流信号又は記録された音若しくは画像に依存して、生産プロセスの故障確率の決定にも、又は、話し言葉の音声記録からの深刻度の評価にも提供することができる。
本明細書において開示する本システム及び本方法は、機械学習方法を使用して回帰タスクに取り組む新規な方法を提供し、特に入力データが低次元であり、利用可能なトレーニングデータの量が少ない場合に利点がある。また、本システム及び方法は、特徴的な低次元量(電流、圧入力など)と連続スケールでの異常基準とが利用可能である場合には、異常の検出にも使用することができる。これには、例えば、技術部品やシステムの製造プロセスが該当し得るであろう。最先端の方法と比較して、提示された本アプローチは、特に少ない量の学習データしか利用可能でない場合に有利である。
例示的な実施形態が上記において説明されているが、これらの実施形態は、特許請求の範囲に含まれるすべての可能な形態の説明を意図したものではない。本明細書において使用される用語は、限定ではなく説明のための用語であり、本開示の精神及び範囲から逸脱することなく様々な変更を行うことが可能であることは理解されよう。先に説明したように、様々な実施形態の特徴は、明示的に説明又は図示されていない場合がある本発明のさらなる実施形態を形成するために組み合わせることができる。様々な実施形態は、1つ又は複数の所望の特性に関して利点を提供するものとして、又は、他の実施形態若しくは従来技術の実装よりも好ましいものとして説明することができようが、当業者であれば、特定の用途及び実装に依存する所望の全体的なシステム属性を達成するために、1つ又は複数の特徴又は特性が妥協され得ることを認識するであろう。これらの属性には、コスト、強度、耐久性、ライフサイクルコスト、市場性、外観、パッケージング、サイズ、保守性、重量、製造可能性、組立の容易さなどが含まれ得るが、これらに限定されるものではない。このように、任意の実施形態が、1つ又は複数の特性に関して、他の実施形態又は先行技術の実装形態よりも望ましくないものとして記載されている範囲において、これらの実施形態は、本開示の範囲外ではなく、特定の用途にとっては望ましい可能性がある。

Claims (20)

  1. デバイスから放出される音の快適性を分類する分類モデルをトレーニングする方法であって、
    1人又は複数の人による審査者からの複数の快適性評価を受信するステップであって、各快適性評価は、1つ又は複数のデバイスによって放出される複数の音のそれぞれ1つに対応する、ステップと、
    第1の対ごとの比較を介して、複数の快適性評価の各々と、複数の快適性評価の他のすべてとの間の第1の差分を決定するステップと、
    前記決定された第1の差分を、前記対ごとの比較についてどちらの快適性評価が高いかに基づいてバイナリ値に変換するステップと、
    1つ又は複数のセンサから、複数の測定可能な音質を受信するステップであって、各測定可能な音質は、複数の音のそれぞれ1つに関連付けられている、ステップと、
    第2の対ごとの比較を介して、前記複数の測定可能な音質の各々と、複数の測定された音質の他のすべてとの間の第2の差分を対ごとの方式により決定するステップと、
    前記バイナリ値を前記第2の差分と比較することによって音の快適性を分類する分類モデルをトレーニングするステップと、
    前記トレーニングするステップの間の収束に基づいて、音の快適性を分類するように構成されたトレーニングされた分類モデルを出力するステップと、
    を含む方法。
  2. 前記複数の測定可能な音質は、音量、調性及び鮮明さのうちの少なくとも1つを含む、請求項1に記載の方法。
  3. 前記1つ又は複数のセンサから、1人又は複数の人による審査者によって評価されなかった未評価音の少なくとも1つの測定可能な音質を受信するステップと、
    前記トレーニングされた分類モデルを介して、前記未評価音の前記少なくとも1つの測定可能な音質を、それぞれ複数の音に関連付けられた各測定可能な音質と比較するステップと、
    をさらに含む、請求項1に記載の方法。
  4. 前記トレーニングされた分類モデルから、複数の音の各々と比較した前記未評価音の快適性の信頼度評価を出力するステップをさらに含む、請求項3に記載の方法。
  5. 前記信頼度評価は、2つのバイナリ値間のスケールで行われる、請求項4に記載の方法。
  6. 前記トレーニングされた分類モデルから出力される信頼度評価に基づいて、前記未評価音の全体的な快適性を予測する回帰モデルを利用するステップをさらに含む、請求項4に記載の方法。
  7. 前記第1の対ごとの比較の各々は、第1の快適性評価と第2の快適性評価との間の比較を含み、
    前記各対ごとの比較の第1の差分の各々に関連付けられたバイナリ値は、(a)前記第1の快適性評価が前記対ごとの比較の第2の評価を超えていることを示す第1のバイナリ値と、(b)前記第2の快適性評価が前記対ごとの比較の第1の快適性評価を超えていることを示す第2のバイナリ値と、を含む、請求項1に記載の方法。
  8. 人による審査者によって評価された前記複数の音の数は、nに等しく、前記バイナリ値の数は、n-nに等しい、請求項1に記載の方法。
  9. 前記第2の差分は、バイナリ値に変換されない、請求項1に記載の方法。
  10. デバイスから放出される音の快適性を分類するように構成された分類モデルをトレーニングするためのシステムであって、前記システムは、
    1つ又は複数のデバイスによって放出される複数の音を検出するように構成されたマイクと、
    複数の音を処理するようにプログラミングされたプロセッサと、
    メモリと、
    を含み、
    前記メモリには、前記プロセッサによって実行されるときに、前記プロセッサに以下のステップ、すなわち、
    1人又は複数の人による審査者からの複数の快適性評価を受信するステップであって、各快適性評価は、複数の音のそれぞれ1つに対応する、ステップと、
    第1の対ごとの比較を介して、複数の快適性評価の各々と、複数の快適性評価の他のすべてとの間の第1の差分を決定するステップと、
    前記決定された第1の差分を、当該対ごとの比較についてどちらの快適性評価が高いかに基づいてバイナリ値に変換するステップと、
    複数の音質と、複数の音のそれぞれ1つに関連付けられた各音質とを測定するステップと、
    第2の対ごとの比較を介して、測定された音質の各々と、測定された音質の他のすべてとの間の第2の差分を対ごとの方式により決定するステップと、
    前記バイナリ値を前記第2の差分と比較することにより、音の快適性を分類する分類モデルをトレーニングするステップと、
    前記分類モデルのトレーニング中の収束に基づいて、音の快適性を分類するように構成されたトレーニングされた分類モデルを出力するステップと、
    を実施させるための命令が格納されている、システム。
  11. 前記測定された音質は、音量、調性及び鮮明さのうちの少なくとも1つを含む、請求項10に記載のシステム。
  12. 前記メモリには、前記プロセッサによって実行されるときに、前記プロセッサに以下のステップ、すなわち、
    1人又は複数の人による審査者によって評価されなかった未評価音の音質を受信するステップと、
    前記トレーニングされた分類モデルを介して、前記未評価音の前記測定された音質を、それぞれ複数の音に関連付けられた各測定された音質と比較するステップと、
    を実施させるための命令がさらに含まれている、請求項10に記載のシステム。
  13. 前記メモリには、前記プロセッサによって実行されるときに、前記プロセッサに以下のステップ、すなわち、
    前記トレーニングされた分類モデルから、複数の音の各々と比較した前記未評価音の快適性の信頼度評価を出力するステップを実施させるための命令がさらに含まれている、請求項12に記載のシステム。
  14. 前記信頼度評価は、2つのバイナリ値間のスケールで行われる、請求項13に記載のシステム。
  15. 前記メモリには、前記プロセッサによって実行されるときに、前記プロセッサに以下のステップ、すなわち、
    前記トレーニングされた分類モデルから出力される信頼度評価に基づいて、前記未評価音の全体的な快適性を予測する回帰モデルを利用するステップを実施させるための命令がさらに含まれている、請求項13に記載のシステム。
  16. 前記第1の対ごとの比較の各々は、第1の快適性評価と第2の快適性評価との間の比較を含み、
    前記各対ごとの比較の第1の差分の各々に関連付けられたバイナリ値は、(a)前記第1の快適性評価が前記対ごとの比較の第2の評価を超えていることを示す第1のバイナリ値と、(b)前記第2の快適性評価が前記対ごとの比較の第1の快適性評価を超えていることを示す第2のバイナリ値と、を含む、請求項10に記載のシステム。
  17. 前記第2の差分は、バイナリ値に変換されていない、請求項10に記載のシステム。
  18. 機械学習を利用して音の快適性を予測する方法であって、
    人による審査者からの複数の快適性評価を受信するステップであって、各快適性評価は、1つ又は複数のデバイスによって放出されるそれぞれの音に対応する、ステップと、
    複数の快適性評価の各々と、複数の快適性評価の他の各々との間の第1の差分を決定するステップと、
    複数の音質と、複数の音のそれぞれ1つに関連付けられた各音質とを測定するためにマイクを利用するステップと、
    測定された音質の各々と、測定された音質の他の各々との間の第2の差分を決定するステップと、
    トレーニングされた分類モデルの収束が得られるまで、第1の差分と第2の差分との比較に基づいて音の快適性を分類する分類モデルをトレーニングするステップと、
    新しい音の新しい音質を測定するためにマイクを使用するステップと、
    前記トレーニングされた分類モデルを介して、新しい音の測定された新しい音質を、音に関連付けられた各測定された音質と比較するステップと、
    前記トレーニングされた分類モデルによって行われた比較に基づいて、未評価音の全体的な快適性を予測するために回帰モデルを利用するステップと、
    を含む方法。
  19. 前記方法は、以下のステップ、すなわち、
    前記決定された第1の差分を、前記第1の差分の各々についてどちらの快適性評価が高いかに基づいてバイナリ値に変換するステップをさらに含み、
    前記分類モデルは、バイナリ値を用いてトレーニングされる、請求項18に記載の方法。
  20. 前記測定された音質は、音量、調性及び鮮明さのうちの少なくとも1つを含む、請求項18に記載の方法。
JP2023185296A 2022-10-31 2023-10-30 バイナリ分類モデルと回帰とを用いた音の快適性予測 Pending JP2024066497A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US17/977,587 2022-10-31
US17/977,587 US20240144954A1 (en) 2022-10-31 2022-10-31 Predicting sound pleasantness using binary classification model and regression

Publications (1)

Publication Number Publication Date
JP2024066497A true JP2024066497A (ja) 2024-05-15

Family

ID=90628920

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023185296A Pending JP2024066497A (ja) 2022-10-31 2023-10-30 バイナリ分類モデルと回帰とを用いた音の快適性予測

Country Status (4)

Country Link
US (1) US20240144954A1 (ja)
JP (1) JP2024066497A (ja)
KR (1) KR20240063014A (ja)
DE (1) DE102023210497A1 (ja)

Also Published As

Publication number Publication date
US20240144954A1 (en) 2024-05-02
KR20240063014A (ko) 2024-05-09
DE102023210497A1 (de) 2024-05-02

Similar Documents

Publication Publication Date Title
US11941868B2 (en) Inference apparatus, inference method, and computer-readable storage medium storing an inference program
JP2020119605A (ja) 異常検出システム、異常検出方法、異常検出プログラム及び学習済モデル生成方法
Zhou et al. Remaining useful life prediction and fault diagnosis of rolling bearings based on short-time fourier transform and convolutional neural network
JP2016085704A (ja) 情報処理システム、情報処理装置、情報処理方法、及びプログラム
US11017619B2 (en) Techniques to detect vehicle anomalies based on real-time vehicle data collection and processing
El-Banna A novel approach for classifying imbalance welding data: Mahalanobis genetic algorithm (MGA)
Wu et al. Two neural-metaheuristic techniques based on vortex search and backtracking search algorithms for predicting the heating load of residential buildings
Kumar et al. Ensemble-based extreme learning machine model for occupancy detection with ambient attributes
CN113469470A (zh) 基于电力大脑中枢的用能数据与碳排放量关联分析方法
CN116822652A (zh) 地铁故障预测方法、装置、电子设备、系统及存储介质
Dessouky et al. Feature extraction of the Alzheimer’s disease images using different optimization algorithms
US20180314242A1 (en) Numerical controller
JP2024066497A (ja) バイナリ分類モデルと回帰とを用いた音の快適性予測
US20240143994A1 (en) Predicting sound pleasantness using regression prediction machine learning model
WO2020071066A1 (ja) 異常判定装置、信号特徴量予測器、異常判定方法、学習モデルの生成方法及び学習モデル
Wu Fault diagnosis model based on Gaussian support vector classifier machine
US20220269988A1 (en) Abnormality degree calculation system and abnormality degree calculation method
JP2020086786A (ja) 検出装置及び機械学習方法
JP2024003643A (ja) ニューラルネットワークの学習方法、コンピュータプログラム、及び余寿命予測システム
CN113449585A (zh) 用于运行分类器的方法和设备
JP2024052635A (ja) 加速度計データを使用した深層学習に基づく音予測のためのシステム及び方法
WO2022149372A1 (ja) 情報処理装置、情報処理方法及びプログラム
CN117807483A (zh) 利用机器学习网络对系统进行预测分析的系统和方法
US20240110825A1 (en) System and method for a model for prediction of sound perception using accelerometer data
Granstedt Möller The use of machine Learningin industrial quality control