DE102023210596A1

DE102023210596A1 - Vorhersagen von Klangangenehmheit unter Verwendung eines Maschinenlernmodells mit Regressionsvorhersage

Info

Publication number: DE102023210596A1
Application number: DE102023210596.9A
Authority: DE
Inventors: Michael Kuka; Thomas Alber; Bijay Kumar Soren; Felix Schorn; Filipe Cabrita Condessa; Rizal Fathony; Carine Au; Florian Lang
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2022-10-31
Filing date: 2023-10-26
Publication date: 2024-05-23
Also published as: CN117953916A; US20240143994A1

Abstract

Maschinelles Lernen wird verwendet, um eine Angenehmheit eines von einer Vorrichtung abgegebenen Klangs vorherzusagen. Es wird eine Mehrzahl von Angenehmheitsbewertungen von menschlichen Juroren empfangen, wobei jede Angenehmheitsbewertung einem jeweiligen einer Mehrzahl von durch eine oder mehrere Vorrichtungen abgegebenen Klängen entspricht. Ein Mikrofonsystem detektiert eine Mehrzahl von messbaren Klangqualitäten (z. B. Lautstärke, Tonalität, Schärfe usw.) dieser bewerteten Klänge. Ein Regressionsvorhersagemodell wird basierend auf den Jurybewertungen und den entsprechenden messbaren Klangqualitäten trainiert. Dann detektiert das Mikrofonsystem messbare Klangqualitäten eines nicht bewerteten Klangs, der nicht von der Jury bewertet wurde. Das trainierte Regressionsvorhersagemodell wird an der messbaren Klangqualität des nicht bewerteten Klangs ausgeführt, um eine vorhergesagte Angenehmheit des nicht bewerteten Klangs bereitzustellen.

Description

Querverweis auf verwandte Anmeldungen
Die vorliegende Anmeldung bezieht sich auf die gleichzeitige Anmeldung mit der Seriennummer 17/977587 , eingereicht am selben Tag wie diese Anmeldung, mit dem Titel „PREDICTING SOUND PLEASANTNESS USING BINARY CLASSIFICATION MODEL AND REGRESSION“, Aktenzeichen 097182-00197 , deren gesamte Offenbarung durch Bezugnahme aufgenommen wird.
Technisches Gebiet
Die vorliegende Offenbarung bezieht sich auf die Verwendung von maschinellem Lernen zur Beurteilung der Angenehmheit von Geräuschen, die von Objekten wie elektronischen Vorrichtungen und Geräten abgegeben werden.
Hintergrund
Mehrere Anwendungsbereiche erfordern eine Messung von Größen, die das repräsentieren, was ein menschlicher Zuhörer wahrnimmt. Bei der Klangqualitätsbeurteilung wird beispielsweise untersucht, wie Benutzer die Qualität der Klänge von industriellen Objekten (elektronischen Vorrichtungen, Autos, Elektrogeräte usw.) wahrnehmen, und es werden Spezifikationen für die Gestaltung dieser Klänge festgelegt. Die Klangqualitätsbeurteilung sich auf die Beurteilung des durch ein Objekt erzeugten Klangs hinsichtlich Belästigung oder Angenehmheit beziehen, um die Interaktion von Menschen mit dem Objekt zu verbessern. Angesichts der heutigen Elektrifizierung und der zunehmenden Urbanisierung nimmt die Bedeutung der menschlichen Wahrnehmung des Klangs eines Objekts zu, insbesondere im Hinblick auf seine Angenehmheit oder sein Potenzial, als störend wahrgenommen zu werden.
Zudem ist die Analyse elektromechanischer Systeme auf Geräusche, Vibrationen und Rauheit (NVH - Noise, Vibration, Harshness) ein wichtiger Teil der Produktentwicklung und Qualitätskontrolle bei der Herstellung. Eine schlechte NVH-Leistung kann die Ermüdung des Benutzers bei der Arbeit mit dem Produkt erhöhen, zu einer zusätzlichen Beeinträchtigung (Verschleiß) des Produkts im Laufe der Zeit führen und sich negativ auf die Kaufentscheidungen von Kunden auswirken.
Die Klangqualitätsbeurteilung vieler elektrischer Vorrichtungen umfasst in der Regel, dass man eine Jury von Zuhörern den Klang hören und die Angenehmheit des Klangs bewerten lässt. Dies kann jedoch zeitaufwändig sein und erfordert für jedes neu entwickelte Produkt eine neue Jury von Zuhörern. Die NVH-Analyse wird in der Regel mit Sensoren in einer Laborumgebung gemessen und berücksichtigt nur selten die Angenehmheit eines Klangs. Darüber hinaus können die gemessenen Klangeigenschaften während einer NVH-Analyse für einige Menschen unangenehm, für andere jedoch angenehm sein.
Kurzdarstellung
Gemäß einer Ausführungsform umfasst ein Verfahren zum Vorhersagen einer Angenehmheit eines von einer Vorrichtung abgegebenen Klangs unter Nutzung von maschinellem Lernen Folgendes: Empfangen einer Mehrzahl von Angenehmheitsbewertungen von einem oder mehreren menschlichen Juroren, wobei jede Angenehmheitsbewertung einem jeweiligen einer Mehrzahl von durch eine oder mehrere Vorrichtungen abgegebenen Klängen entspricht; Detektieren, über ein Mikrofonsystem, einer Mehrzahl von messbaren Klangqualitäten, wobei jede messbare Klangqualität mit einem jeweiligen der Mehrzahl von Klängen assoziiert ist; Trainieren eines Regressionsvorhersagemodells basierend auf, für jeden jeweiligen Klang, seiner Angenehmheitsbewertung und seiner entsprechenden messbaren Klangqualität, bis durch Konvergenz ein trainiertes Regressionsvorhersagemodell entsteht; Detektieren, über das Mikrofon, einer messbaren Klangqualität eines nicht bewerteten Klangs, wobei der nicht bewertete Klang nicht durch den einen oder die mehreren menschlichen Juroren bewertet wurde; und Ausführen des trainierten Regressionsvorhersagemodells an der messbaren Klangqualität des nicht bewerteten Klangs, um eine Mehrzahl von vorhergesagten Angenehmheitsdifferenzbewertungen zu erhalten, wobei jede vorhergesagte Angenehmheitsdifferenzbewertung einem jeweiligen paarweisen Vergleich zwischen dem nicht bewerteten Klang und einem jeweiligen der Mehrzahl von Klängen entspricht.
Gemäß einer anderen Ausführungsform umfasst ein System zum Vorhersagen einer Angenehmheit eines von einer Vorrichtung abgegebenen Klangs unter Nutzung von maschinellem Lernen ein Mikrofon, ausgelegt zum Detektieren einer Mehrzahl von durch eine oder mehrere Vorrichtungen abgegebenen Klängen; einen Prozessor, programmiert zum Verarbeiten der Mehrzahl von Klängen; und einen Speicher, der Anweisungen speichert, die bei Ausführung durch den Prozessor bewirken, dass der Prozessor verschiedene Schritte durchführt. Die Schritte umfassen Folgendes: Empfangen einer Mehrzahl von Angenehmheitsbewertungen von einem oder mehreren menschlichen Juroren, wobei jede Angenehmheitsbewertung einem jeweiligen der Mehrzahl von Klängen entspricht, Detektieren einer Mehrzahl von messbaren Klangqualitäten, wobei jede messbare Klangqualität mit einem jeweiligen der Mehrzahl von durch das Mikrofon detektierten Klängen assoziiert ist, Trainieren eines Regressionsvorhersagemodells basierend auf, für jeden jeweiligen Klang, seiner Angenehmheitsbewertung und seiner entsprechenden messbaren Klangqualität, bis durch Konvergenz ein trainiertes Regressionsvorhersagemodell entsteht, Detektieren einer messbaren Klangqualität eines nicht bewerteten Klangs, wobei der nicht bewertete Klang nicht durch den einen oder die mehreren menschlichen Juroren bewertet wurde, und Ausführen des trainierten Regressionsvorhersagemodells an der messbaren Klangqualität des nicht bewerteten Klangs, um eine Mehrzahl von vorhergesagten Angenehmheitsdifferenzbewertungen zu erhalten, wobei jede vorhergesagte Angenehmheitsdifferenzbewertung einem jeweiligen paarweisen Vergleich zwischen dem nicht bewerteten Klang und einem jeweiligen der Mehrzahl von Klängen entspricht.
Gemäß einer weiteren Ausführungsform umfasst ein Verfahren zum Vorhersagen eines von einer Vorrichtung abgegebenen Klangs unter Nutzung von maschinellem Lernen Folgendes: Empfangen einer Mehrzahl von Angenehmheitsbewertungen von einem oder mehreren menschlichen Juroren, wobei jede Angenehmheitsbewertung einem jeweiligen einer Mehrzahl von durch eine oder mehrere Vorrichtungen abgegebenen Klängen entspricht; Detektieren, über ein Mikrofonsystem, einer Mehrzahl von messbaren Klangqualitäten, wobei jede messbare Klangqualität mit einem jeweiligen der Mehrzahl von Klängen assoziiert ist; Detektieren, über das Mikrofonsystem, einer messbaren Klangqualität eines nicht bewerteten Klangs, wobei der nicht bewertete Klang nicht durch den einen oder die mehreren menschlichen Juroren bewertet wurde; Ausführen eines Regressionsvorhersagemodells an der messbaren Klangqualität des nicht bewerteten Klangs, um eine Mehrzahl von vorhergesagten Angenehmheitsdifferenzbewertungen zu erhalten, wobei jede vorhergesagte Angenehmheitsdifferenzbewertung einem jeweiligen paarweisen Vergleich zwischen dem nicht bewerteten Klang und einem jeweiligen der Mehrzahl von Klängen entspricht; für jeden paarweisen Vergleich, Kombinieren der vorhergesagten Angenehmheitsdifferenzbewertung mit einer jeweiligen der Angenehmheitsbewertungen, um eine jeweilige summierte Bewertung zu erhalten; und Ausgeben einer vorhergesagten Gesamtangenehmheitsbewertung des nicht bewerteten Klangs basierend auf einem Durchschnitt der summierten Bewertungen.
Kurze Beschreibung der Zeichnungen

1 zeigt ein System zum Trainieren eines neuronalen Netzes gemäß einer Ausführungsform.
2 zeigt ein computer-implementiertes Verfahren zum Trainieren und Nutzen eines neuronalen Netzes gemäß einer Ausführungsform.
3 veranschaulicht Systeme und Verfahren zum Vorhersagen von Klangangenehmheit unter Verwendung eines Maschinenlernmodells mit binärer Klassifizierung, wobei 3A ein Systemflussdiagramm zeigt, 3B eine Tabelle zeigt, die eine Ausführungsform von paarweisen Klang-für-Klang-Vergleichen veranschaulicht, und 3C eine Umwandlung von Ergebnissen in ein Binärformat zeigt, gemäß einer Ausführungsform.
4 veranschaulicht ein Systemflussdiagramm zur Vorhersage von Klangangenehmheit unter Verwendung eines Maschinenlernmodells mit Regressionsvorhersage gemäß einer Ausführungsform.
5 zeigt ein schematisches Diagramm einer Interaktion zwischen einer computergesteuerten Maschine und einem Steuersystem gemäß einer Ausführungsform.
6 zeigt ein schematisches Diagramm des Steuersystems von 5, ausgelegt zum Durchführen der hier offenbarten Angenehmheitsvorhersageverfahren in Bezug auf ein Fahrzeug, bei dem es sich um ein teilweise autonomes Fahrzeug, ein vollständig autonomes Fahrzeug, einen teilweise autonomen Roboter oder einen vollständig autonomen Roboter handeln kann, gemäß einer Ausführungsform.
7 zeigt ein schematisches Diagramm des Steuersystems von 5, ausgelegt zum Durchführen der hier offenbarten Angenehmheitsvorhersageverfahren in Bezug auf eine Fertigungsmaschine, wie etwa eine Stanz-Schneidvorrichtung, eine Schneidvorrichtung oder eines Kanonenbohrers, eines Fertigungssystems, wie etwa Teil einer Fertigungsstraße.
8 zeigt ein schematisches Diagramm des Steuersystems von 5, ausgelegt zum Durchführen der hier offenbarten Angenehmheitsvorhersageverfahren in Bezug auf ein Elektrowerkzeug, wie etwa eine Bohrmaschine oder einen Akkubohrer, das einen zumindest teilweise autonomen Modus aufweist.
9 zeigt ein schematisches Diagramm des Steuersystems von 5, ausgelegt zum Durchführen der hier offenbarten Angenehmheitsvorhersageverfahren in Bezug auf einen automatisierten persönlichen Assistenten.
10 zeigt ein schematisches Diagramm des Steuersystems von 5, ausgelegt zum Durchführen der hier offenbarten Angenehmheitsvorhersageverfahren in Bezug auf ein Überwachungssystem, wie etwa ein Steuerzugriffssystem oder ein Beobachtungssystem.
11 zeigt ein schematisches Diagramm des Steuersystems von 5, ausgelegt zum Durchführen der hier offenbarten Angenehmheitsvorhersageverfahren in Bezug auf ein Bildgebungssystem, zum Beispiel ein MRT-Gerät, ein Röntgenbildgebungsgerät oder ein Ultraschallgerät.

Ausführliche Beschreibung
Hier werden Ausführungsformen der vorliegenden Offenbarung beschrieben. Es versteht sich jedoch, dass die offenbarten Ausführungsformen lediglich Beispiele sind und andere Ausführungsformen verschiedene und alternative Formen annehmen können. Die Figuren sind nicht notwendigerweise maßstabsgetreu; einige Merkmale könnten übertrieben oder minimiert sein, um Einzelheiten bestimmter Komponenten zu zeigen. Hier offenbarte spezifische strukturelle und funktionale Einzelheiten sind daher nicht als beschränkend aufzufassen, sondern lediglich als eine repräsentative Basis, um Fachleute zu lehren, die Ausführungsformen verschiedentlich einzusetzen. Durchschnittsfachleute erkennen, dass verschiedene unter Bezugnahme auf eine beliebige der Figuren veranschaulichte und beschriebene Merkmale mit in einer oder mehreren anderen Figuren veranschaulichten Merkmalen kombiniert werden können, um Ausführungsformen zu produzieren, die nicht explizit veranschaulicht oder beschrieben werden. Die Kombinationen veranschaulichter Merkmale stellen repräsentative Ausführungsformen für typische Anwendungen bereit. Verschiedene Kombinationen und Modifikationen der mit den Lehren dieser im Einklang stehenden Merkmale könnten jedoch für bestimmte Anwendungen oder Implementierungen erwünscht sein.
Diese Offenbarung bezieht sich auf verschiedene messbare Klangeigenschaften wie Lautstärke, Tonalität und Schärfe. Lautstärke bezieht sich auf die Intensität oder Amplitude von Schall. Lautstärke kann sich entweder auf die tatsächlich gemessene Lautstärke des Klangs oder auf die Wahrnehmung der Klangintensität durch eine Person beziehen. Lautstärke kann auf der Dezibel-Skala (z. B. um die Lautstärke des Klangs zu messen) oder auf der Phon-Skala (z. B. um die Wahrnehmung des Klangs durch eine Person zu messen) gemessen werden. Tonalität bezieht sich auf eine Messung der Klangqualität, die damit korreliert, wie Menschen die Klangkomponenten (z. B. Klanghöhe, Klang, Akkord, Tonart usw.) des Klangs wahrnehmen. Schärfe bezieht sich auf die Frequenz des Klangs oder das Ausmaß an Hochfrequenzanteilen eines Klangs; je höher der Hochfrequenzanteil, desto schärfer der Klang. Zu anderen Arten messbarer Klangeigenschaften können Rauheit (z. B. Betonung der langsamen temporären Änderungen der Lautstärke bei einer bestimmten Frequenz, wie etwa 70 Hz), Hüllkurve (z. B. Attack, Decay, Sustain und Release eines Klangs) und anderes gehören.
Bei der Klangqualitätsbeurteilung wird beispielsweise untersucht, wie Benutzer die Qualität der Klänge von industriellen Objekten (elektronischen Vorrichtungen, Autos, Elektrogeräte usw.) wahrnehmen, und es werden Spezifikationen für die Gestaltung dieser Klänge festgelegt. Die Klangqualitätsbeurteilung sich auf die Beurteilung des durch ein Objekt erzeugten Klangs hinsichtlich Belästigung oder Angenehmheit beziehen, um die Interaktion von Menschen mit dem Objekt zu verbessern. Angesichts der heutigen Elektrifizierung und der zunehmenden Urbanisierung nimmt die Bedeutung der menschlichen Wahrnehmung des Klangs eines Objekts zu, insbesondere im Hinblick auf seine Angenehmheit oder sein Potenzial, als störend wahrgenommen zu werden.
Gemäß verschiedenen hier offenbarten Ausführungsformen werden Verfahren und Systeme zur Verwendung von Maschinenlernmodellierung zur Vorhersage der Angenehmheit eines Klangs einer Vorrichtung bereitgestellt. Mit diesem Ansatz lässt sich beispielsweise die menschliche Wahrnehmung des derzeit abgegebenen Klangs bei der Steuerung stationärer Vorrichtung (z. B. Pumpen, Wärmepumpen, Lüftern, elektronische Vorrichtungen, usw.) schätzen. Diese Schätzung kann dann verwendet werden, um die Steuerung der Vorrichtung im Hinblick auf die menschliche akustische Wahrnehmung zu optimieren. Dies erfolgt durch einen Maschinenlernalgorithmus und basierend auf den Signalen eines oder mehrerer Mikrofone oder Beschleunigungssensoren, die vorverarbeitet und dann mit entsprechenden Signalen verglichen werden, für die die Qualität hinsichtlich der menschlichen Wahrnehmung bereits in Hörtests in Form von Zahlenwerten auf einer kontinuierlichen Skala bestimmt wurde. Die vorhergesagten Vergleichsergebnisse werden dann durch einen nachfolgenden Algorithmus zur Schätzung der tatsächlichen Klangqualität akkumuliert, auf deren Grundlage die Steuerung des Produkts dann angepasst werden kann.
Die offenbarten Verfahren und Systeme bieten einen neuen Ansatz für Regressionsaufgaben in Fällen, in denen nur geringe Mengen an Trainingsdaten verfügbar sind. Dies wird erreicht durch eine Umwandlung der ursprünglichen Aufgabe in eine Klassifizierungsaufgabe und eine anschließende Weiterverarbeitung der Klassifizierungsergebnisse zur Lösung des ursprünglichen Regressionsproblems. Beispielsweise wird in Ausführungsformen ein Maschinenlernmodell mit einer Jury von menschlichen Beurteilern trainiert, die verschiedene Klänge beurteilen oder bewerten. Während des Trainings werden die messbaren Eigenschaften eines Klangs (z. B. Lautstärke, Tonalität, Schärfe, Vibration, Spannung, usw.) paarweise mit entsprechenden messbaren Eigenschaften anderen Klangs verglichen. Der Vergleich kann eine Differenz der jeweiligen Qualitäten ergeben. Es können binäre Klassifizierungen implementiert werden, wobei beispielsweise „0“ bedeutet, dass Klangqualität A angenehmer als Klangqualität B ist, und „1“ bedeutet, dass Klangqualität B angenehmer als Klangqualität A ist. Nachdem es trainiert wurde, kann eine Regressionsaufgabe genutzt werden, um die Klangqualitäten eines neuen Klangs mit allen gespeicherten Klangqualitäten aus dem Training zu vergleichen, und basierend auf Ähnlichkeiten mit anderen Klangqualitäten kann das Modell eine Vorhersage über die Angenehmheit dieses neuen Klangs erzeugen.
Weitere Details zum Training der Modelle und zur Verwendung der Modelle zur Vorhersage einer Klangangenehmheit werden weiter unten bereitgestellt. Zunächst wird jedoch auf 1-2 verwiesen, in denen 1 ein System 100 zum Trainieren eines neuronalen Netzes zeigt, z. B. eines tiefen neuronalen Netzes, und 2 ein System 200 zum Ausführen der hier beschriebenen Maschinenlernmodelle 210 (z. B. eines binären Klassifizierungsmodells, eines Regressionsmodells und eines Regressionsvorhersagemodells, die unter Bezugnahme auf 3-4 beschrieben werden) zeigt. Unter Bezugnahme auf 1 kann das System 100 eine Eingangsschnittstelle zum Zugreifen auf Trainingsdaten 102 für das neuronale Netz umfassen. Beispielsweise, wie in 1 veranschaulicht, kann die Eingangsschnittstelle aus einer Datenspeicherungsschnittstelle 104 bestehen, die aus einer Datenspeicherung 106 auf die Trainingsdaten 102 zugreifen kann. Beispielsweise kann die Datenspeicherungsschnittstelle 104 eine Speicherschnittstelle oder eine persistente Speicherungsschnittstelle sein, z. B. eine Festplatte oder eine SSD-Schnittstelle, aber auch eine Schnittstelle eines persönlichen, lokalen oder weitflächigen Netzwerks, wie etwa eine Bluetooth-, Zigbee- oder WiFi-Schnittstelle oder eine Ethernet- oder Faseroptik-Schnittstelle. Die Datenspeicherung 106 kann eine interne Datenspeicherung des Systems 100 sein, wie etwa eine Festplatte oder SSD, aber auch eine externe Datenspeicherung, z. B. eine netzwerkzugängliche Datenspeicherung.
In einigen Ausführungsformen kann die Datenspeicherung 106 ferner eine Datenrepräsentation 108 einer untrainierten Version des neuronalen Netzes umfassen, auf die das System 100 von der Datenspeicherung 106 zugreifen kann. Es versteht sich jedoch, dass auf die Trainingsdaten 102 und die Datenrepräsentation 108 des untrainierten neuronalen Netzes auch von einer anderen Datenspeicherung zugegriffen werden kann, z. B. über ein anderes Untersystem der Datenspeicherungsschnittstelle 104. Jedes Untersystem kann einen Typ aufweisen, wie oben für die Datenspeicherungsschnittstelle 104 beschrieben. In anderen Ausführungsformen kann die Datenrepräsentation 108 des untrainierten neuronalen Netzes intern durch das System 100 auf Basis von Designparametern für das neuronale Netz erzeugt werden, und ist daher möglicherweise nicht explizit in der Datenspeicherung 106 gespeichert. Das System 100 kann ferner ein Prozessoruntersystem 110 umfassen, das dazu ausgelegt sein kann, während des Betriebs des Systems 100 eine iterative Funktion als einen Ersatz für einen Stapel von Schichten des zu trainierenden neuronalen Netzes bereitzustellen. Hier können jeweilige Schichten des Stapels von Schichten, die ersetzt werden, gegenseitig geteilte Gewichtungen aufweisen und können als Eingabe eine Ausgabe einer vorherigen Schicht oder, für eine erste Schicht des Stapels von Schichten, eine anfängliche Aktivierung, und einen Teil der Eingabe des Stapels von Schichten empfangen. Das Prozessoruntersystem 110 kann ferner dazu ausgelegt sein, das neuronale Netz unter Verwendung der Trainingsdaten 102 iterativ zu trainieren. Hier kann eine Iteration des Trainings durch das Prozessoruntersystem 110 einen Vorwärtspropagierungsteil und einen Rückwärtspropagierungsteil umfassen. Das Prozessorsubsystem 110 kann ausgelegt sein zum Durchführen des Vorwärtspropagierungsteils durch, unter anderen den Vorwärtspropagierungsteil definierenden Operationen, die durchgeführt werden können, Bestimmen eines Gleichgewichtspunkts der iterativen Funktion, an dem die iterative Funktion zu einem festen Punkt konvergiert, wobei das Bestimmen des Gleichgewichtspunkts die Verwendung eines numerischen Wurzelfindungsalgorithmus umfasst, um eine Wurzellösung für die iterative Funktion minus deren Eingabe zu finden, und durch Bereitstellen des Gleichgewichtspunkts als Ersatz für eine Ausgabe des Schichtstapels in dem neuronalen Netz. Das System 100 kann ferner eine Ausgabeschnittstelle zum Ausgeben einer Datenrepräsentation 112 des trainierten neuronalen Netzes umfassen, diese Daten können auch als trainierte Modelldaten 112 bezeichnet werden. Beispielsweise, wie auch in 1 veranschaulicht, kann die Ausgangsschnittstelle aus der Datenspeicherungsschnittstelle 104 bestehen, wobei die Schnittstelle in diesen Ausführungsformen eine Eingabe/Ausgabe(„EA“)-Schnittstelle ist, über die die trainierten Modelldaten 112 in der Datenspeicherung 106 gespeichert werden können. Beispielsweise kann die Datenrepräsentation 108, die das „untrainierte“ neuronale Netz definiert, während oder nach dem Training zumindest teilweise durch die Datenrepräsentation 112 des trainierten neuronalen Netzes ersetzt werden, in dem Sinne, dass die Parameter des neuronalen Netzes, wie etwa Gewichtungen, Hyperparameter und andere Arten von Parametern neuronaler Netze, angepasst werden können, um das Training an den Trainingsdaten 102 widerzuspiegeln. Dies ist auch in 1 durch die Bezugsziffern 108,112 veranschaulicht, die sich auf den gleichen Datensatz in der Datenspeicherung 106 beziehen. In anderen Ausführungsformen kann die Datenrepräsentation 112 getrennt von der Datenrepräsentation 108, die das „untrainierte“ neuronale Netz definiert, gespeichert werden. In einigen Ausführungsformen kann die Ausgabeschnittstelle von der Datenspeicherungsschnittstelle 104 getrennt sein, kann aber im Allgemeinen von einer Art sein, wie oben für die Datenspeicherungsschnittstelle 104 beschrieben.
Die Struktur des Systems 100 ist ein Beispiel eines Systems, das zum Trainieren der hierin beschriebenen Maschinenlernmodelle verwendet werden kann. Eine zusätzliche Struktur zum Betreiben und Trainieren der Maschinenlernmodelle ist in 2 gezeigt.
2 zeigt ein System 200 zum Implementieren der hier beschriebenen Maschinenlernmodelle, zum Beispiel des binären Klassifizierungsmodells, des Regressionsmodells und des Regressionsvorhersagemodells, die nachstehend unter Bezugnahme auf 3-4 beschrieben werden. Das System 200 kann mindestens ein Rechensystem 202 beinhalten. Das Rechensystem 202 kann mindestens einen Prozessor 204 beinhalten, der mit einer Speichereinheit 208 betriebsverbunden ist. Der Prozessor 204 kann eine oder mehrere integrierte Schaltungen beinhalten, die die Funktionalität einer zentralen Verarbeitungseinheit (CPU) 206 implementieren. Die CPU 206 kann eine kommerziell erhältliche Verarbeitungseinheit sein, die einen Befehlssatz, wie etwa eine der Befehlssatzfamilien x86, ARM, Power oder MIPS, implementiert. Während des Betriebs kann die CPU 206 gespeicherte Programmanweisungen ausführen, die aus der Speichereinheit 208 abgerufen werden. Die gespeicherten Programmanweisungen können Software beinhalten, die den Betrieb der CPU 206 dahingehend steuert, die hier beschriebene Operation durchzuführen. Bei einigen Beispielen kann der Prozessor 204 ein System auf einem Chip (SoC) sein, das die Funktionalität der CPU 206, der Speichereinheit 208, einer Netzwerkschnittstelle und von Eingabe/Ausgabe-Schnittstellen in einer einzigen integrierten Vorrichtung integriert. Das Rechensystem 202 kann ein Betriebssystem zum Verwalten verschiedener Aspekte des Betriebs implementieren. Während in 2 ein Prozessor 204, eine CPU 206 und ein Speicher 208 gezeigt sind, können in einem Gesamtsystem natürlich mehr als jeweils eines davon verwendet werden.
Die Speichereinheit 208 kann einen flüchtigen Speicher und einen nichtflüchtigen Speicher zum Speichern von Anweisungen und Daten beinhalten. Der nichtflüchtige Speicher kann Festkörperspeicher, wie etwa NAND-Flash-Speicher, magnetische und optische Speicherungsmedien oder eine beliebige andere geeignete Datenspeicherungsvorrichtung, die Daten beibehält, wenn das Rechensystem 202 deaktiviert oder vom Strom getrennt wird, beinhalten. Der flüchtige Speicher kann einen statischen oder dynamischen Direktzugriffsspeicher (RAM) beinhalten, der Programmanweisungen und Daten speichert. Beispielsweise kann die Speichereinheit 208 ein(en) Maschinenlernmodell 210 oder -Algorithmus, einen Trainingsdatensatz 212 für das Maschinenlernmodell 210, Rohquellendatensatz 216 speichern.
Das Rechensystem 202 kann eine Netzwerkschnittstellenvorrichtung 222 beinhalten, die zum Bereitstellen einer Kommunikation mit externen Systemen und Vorrichtungen ausgelegt ist. Beispielsweise kann die Netzwerkschnittstellenvorrichtung 222 eine drahtgebundene und/oder drahtlose Ethernet-Schnittstelle gemäß der Institute-of-Electrical-and-Electronics-Engineers(IEEE)802.11-Standardfamilie beinhalten. Die Netzwerkschnittstellenvorrichtung 222 kann eine Mobilfunkkommunikationsschnittstelle zum Kommunizieren mit einem Mobilfunknetz (z. B. 3G, 4G, 5G) beinhalten. Die Netzwerkschnittstellenvorrichtung 222 kann zum Bereitstellen einer Kommunikationsschnittstelle mit einem externen Netzwerk 224 oder einer Cloud ausgelegt sein.
Das externe Netzwerk 224 kann als das World Wide Web oder das Internet bezeichnet werden. Das externe Netzwerk 224 kann ein Standardkommunikationsprotokoll zwischen Rechenvorrichtungen einrichten. Das externe Netzwerk 224 kann ermöglichen, dass Informationen und Daten leicht zwischen Rechenvorrichtungen und Netzwerken ausgetauscht werden können. Ein oder mehrere Server 230 können mit dem externen Netzwerk 224 in Kommunikation stehen.
Das Rechensystem 202 kann eine Eingabe/Ausgabe(E/A)-Schnittstelle 220 beinhalten, die zum Bereitstellen digitaler und/oder analoger Eingaben und Ausgaben ausgelegt sein kann. Die E/A-Schnittstelle 220 dient zur Übertragung von Informationen zwischen interner Speicherung und externen Eingabe- und/oder Ausgabevorrichtungen (z. B. HMI-Vorrichtungen). Die E/A-220-Schnittstelle kann eine zugehörige Schaltungsanordnung oder Busnetzwerke beinhalten, um Informationen zu oder zwischen dem bzw. den Prozessor(en) und der Speicherung zu übertragen. Beispielsweise kann die E/A-Schnittstelle 220 digitale E/A-Logikleitungen, die durch den bzw. die Prozessor(en) gelesen oder eingestellt werden können, Handshake-Leitungen zur Überwachung der Datenübertragung über die E/A-Leitungen; Zeitvorgabe- und Zähleinrichtungen und andere Strukturen, von denen bekannt ist, dass sie solche Funktionen bereitstellen, beinhalten. Zu Beispielen für Eingabevorrichtungen gehören eine Tastatur, eine Maus, Sensoren usw. Zu Beispielen für Ausgabevorrichtungen gehören Monitore, Drucker, Lautsprecher usw. Die E/A-Schnittstelle 220 kann zusätzliche serielle Schnittstellen zum Kommunizieren mit externen Vorrichtungen beinhalten (z. B. die Universal-Serial-Bus(USB)-Schnittstelle). Die E/A-Schnittstelle 220 kann als Eingabeschnittstelle (da sie Daten von einer externen Eingabe, etwa einem Sensor, überträgt) oder als Ausgabeschnittstelle (da sie Daten an eine externe Ausgabe, etwa eine Anzeige, überträgt) bezeichnet werden.
Das Rechensystem 202 kann eine Mensch-Maschine-Schnittstellen(HMI)-Vorrichtung 218 beinhalten, die jede Vorrichtung beinhalten kann, die ermöglicht, dass das System 200 eine Steuereingabe empfängt. Zu Beispielen für Eingabevorrichtungen können Mensch-Schnittstelle-Eingaben wie etwa Tastaturen, Mäuse, Berührungsbildschirme, Spracheingabevorrichtungen und andere ähnliche Vorrichtungen gehören. Das Rechensystem 202 kann eine Anzeigevorrichtung 232 beinhalten. Das Rechensystem 202 kann Hardware und Software zum Ausgeben von Grafik- und Textinformationen an die Anzeigevorrichtung 232 beinhalten. Die Anzeigevorrichtung 232 kann einen elektronischen Anzeigebildschirm, einen Projektor, einen Drucker oder eine andere geeignete Vorrichtung, um einem Benutzer Informationen anzuzeigen, beinhalten. Das Rechensystem 202 kann ferner dazu ausgelegt sein, eine Interaktion mit Fern-HMI- und Fernanzeigevorrichtungen über die Netzwerkschnittstellenvorrichtung 222 zu ermöglichen.
Das System 200 kann unter Verwendung eines oder mehrerer Rechensysteme implementiert werden. Obgleich das Beispiel ein einziges Rechensystem 202, das alle beschriebenen Merkmale implementiert, darstellt, wird beabsichtigt, dass verschiedene Merkmale und Funktionen getrennt und durch mehrere miteinander in Kommunikation stehende Recheneinheiten implementiert werden können. Die ausgewählte spezielle Systemarchitektur kann von einer Vielzahl von Faktoren abhängen.
Das System 200 kann ein Maschinenlernmodell 210 implementieren, das zum Analysieren des Rohquellendatensatzes 216 ausgelegt ist. Der Rohquellendatensatz 216 kann rohe oder unverarbeitete Sensordaten beinhalten, die einen Eingangsdatensatz für ein Maschinenlernsystem repräsentieren können. Der Rohquellendatensatz 216 kann messbare Klangqualitäten wie Lautstärke, Tonalität, Schärfe und dergleichen beinhalten. Der Rohquellendatensatz 216 kann auch messbare Nichtklangqualitäten aufweisen, die dennoch den durch die Vorrichtung erzeugten Klang verursachen oder auf andere Weise damit in Zusammenhang stehen können, wie beispielsweise Zeitreihendaten (z. B. ein Drucksensorsignal über die Zeit, Vibrationsdaten, Temperaturdaten, Spannungsdaten, Stromdaten, usw.). Bei dem Rohquellendatensatz 216 kann es sich um vollständig rohe oder teilweise verarbeitete Sensordaten handeln, die durch einen oder mehrere der hier beschriebenen Sensoren empfangen wurden oder von diesen stammen. Mehrere verschiedene Beispiele für Eingaben werden unter Bezugnahme auf 5-11 gezeigt und beschrieben. In einigen Beispielen kann es sich bei dem Maschinenlernmodell 210 um einen Neuronalnetzalgorithmus (z. B. ein tiefes neuronales Netz) handeln, der darauf ausgelegt ist, eine vorgegebene Funktion auszuführen. Beispielsweise kann der Neuronalnetzalgorithmus dazu ausgelegt sein, eine Angenehmheitsbewertung des Klangs eines Fahrzeugmotors vorherzusagen. Das bzw. die Maschinenlernmodell(e) 210 können Algorithmen beinhalten, die für den Betrieb des binären Klassifizierungsmodells, des Regressionsmodells und des Regressionsvorhersagemodells ausgelegt sind, die weiter unten unter Bezugnahme auf 3-4 beschrieben werden.
Das Computersystem 200 kann einen Trainingsdatensatz 212 für das Maschinenlernmodell 210 speichern. Der Trainingsdatensatz 212 kann einen Satz zuvor erstellter Daten zum Trainieren des Maschinenlernmodells 210 repräsentieren. Beispielsweise kann der Trainingsdatensatz 212 die oben beschriebenen messbaren Klangqualitäten oder Nichtklangqualitäten sowie eine zugehörige Bewertung oder Einstufung hinsichtlich der Angenehmheit des entsprechenden Klangs enthalten. Der Trainingsdatensatz 212 kann durch den Maschinenlernalgorithmus 210 verwendet werden, um mit einem Neuronalnetzalgorithmus assoziierte Gewichtungsfaktoren zu lernen. Der Trainingsdatensatz 212 kann einen Satz von Quellendaten beinhalten, die entsprechende Resultate oder Ergebnisse aufweisen, die der Maschinenlernalgorithmus 210 über den Lernprozess zu duplizieren versucht.
Der Maschinenlernalgorithmus 210 kann in einem Lernmodus unter Verwendung des Trainingsdatensatzes 212 als Eingabe betrieben werden. Der Maschinenlernalgorithmus 210 kann unter Verwendung der Daten aus dem Trainingsdatensatz 212 über eine Reihe von Iterationen ausgeführt werden. Bei jeder Iteration kann der Maschinenlernalgorithmus 210 interne Gewichtungsfaktoren basierend auf den erzielten Ergebnissen aktualisieren. Beispielsweise kann der Maschinenlernalgorithmus 210 einen neuen Klang (z. B. seine assoziierten messbaren Klangqualitäten oder Nichtklangqualitäten) mit den in dem Trainingsdatensatz 212 enthaltenen Klängen vergleichen. Da der Trainingsdatensatz 212 die erwarteten Ergebnisse beinhaltet, kann der Maschinenlernalgorithmus 210 bestimmen, wann die Leistung akzeptabel ist. Nachdem der Maschinenlernalgorithmus 210 ein vorbestimmtes Leistungsniveau (z. B. 100 % Übereinstimmung mit den mit dem Trainingsdatensatz 212 assoziierten Resultaten) oder Konvergenz erreicht hat, kann der Maschinenlernalgorithmus 210 unter Verwendung von Daten ausgeführt werden, die nicht im Trainingsdatensatz 212 enthalten sind. Es versteht sich, dass „Konvergenz“ in dieser Offenbarung bedeuten kann, dass eine festgelegte (z. B. vorbestimmte) Anzahl von Iterationen stattgefunden hat, oder dass der Rest ausreichend klein ist (sich z. B. die Änderung der ungefähren Wahrscheinlichkeit über Iterationen um weniger als eine Schwelle ändert), oder andere Konvergenzbedingungen. Der trainierte Maschinenlernalgorithmus 210 kann auf neue Datensätze angewendet werden, um annotierte Daten zu erzeugen.
Der Maschinenlernalgorithmus 210 kann dazu ausgelegt sein, bestimmte Merkmale in den Rohquellendaten 216, die einer hohen Klangangenehmheit entsprechen, und andere Merkmale, die einer niedrigen Klangangenehmheit entsprechen, zu identifizieren. Die Rohquellendaten 216 können eine Mehrzahl von Instanzen oder einen Eingabedatensatz beinhalten, für die Klangangenehmheit erwünscht ist. Beispielsweise kann der Maschinenlernalgorithmus 210 dazu ausgelegt sein, das Vorhandensein einer bestimmten Klanghöhe oder eines bestimmten Klangs, der in den meisten Fällen einer niedrigen Angenehmheitsbewertung entspricht, zu erkennen. Der Maschinenlernalgorithmus 210 kann dazu programmiert sein, die Rohquellendaten 216 zu verarbeiten, um das Vorhandensein der bestimmten Merkmale zu identifizieren.
Die Rohquellendaten 216 können aus einer Vielzahl von Quellen stammen. Beispielsweise können die Rohquellendaten 216 tatsächliche Eingabedaten sein, die durch ein Maschinenlernsystem erfasst werden. Die Rohquellendaten 216 können zum Testen des Systems maschinell erzeugt werden. In Ausführungsformen beinhalten die Rohquellendaten 216 messbare Klangqualitäten auf, wie sie von einem Mikrofon oder einem anderen Schallsensor (z. B. einem Schallsensormodul mit einem Mikrofon, einem Spitzendetektor und einem Verstärker) empfangen werden. Auf die Rohquellendaten 216 kann eine andere Vorverarbeitung angewendet werden, beispielsweise ein Rauschfilterung, Minimum- und Maximum-Schwellenwerte, Spitzendetektion, und dergleichen. Während beispielsweise ein Mikrofon den Klang detektieren kann, kann ein Mikrofonsystem (z. B. ein Mikrofon, das mit einem assoziierten Prozessor ausgestattet ist) die messbaren Klangqualitäten des Klangs detektieren oder bestimmen.
Angesichts der obigen Beschreibung der Maschinenlernmodelle, einhergehend mit den Strukturbeispielen von 1-2, die dazu ausgelegt sind, die Modelle auszuführen, veranschaulicht 3A ein Flussdiagramm eines Systems 300 zur Vorhersage einer Angenehmheitsbewertung eines Klangs gemäß einer Ausführungsform. Das System 300 kann durchgängig sein, da es ein System zum Trainieren eines Maschinenlernmodells (z. B. eines binären Klassifizierungsmodells) enthält, das bei der finalen Vorhersage der Klangangenehmheit verwendet werden kann. Natürlich kann das System 300, wie hier an anderer Stelle erwähnt, obgleich es als die Klangangenehmheit vorhersagend bezeichnet wird, auch für messbare Nichtklangdaten wie Vibrationen verwendet werden, die dennoch mit den durch die Vorrichtung abgegebenen Klängen assoziiert sein können.
Zwei Modelle sind in 3A gezeigt, nämlich ein binäres Klassifizierungsmodell und ein Regressionsmodell. 3A zeigt die Verwendung und Implementierung dieser beiden Modelle. Doch zunächst müssen diese Modelle trainiert werden. Um das binäre Klassifizierungsmodell zu trainieren, werden Eingabedaten zu Klängen empfangen, die bereits von einer Mehrzahl von menschlichen Juroren bewertet wurden. Beispielsweise können die menschlichen Juroren in Hörtests eine Reihe von n Klängen hören, die durch eine oder mehrere verschiedene Vorrichtungen, wie etwa Wärmepumpen, Motoren, Rotoren, Fahrzeugmotoren, Elektrowerkzeugen, Geräten, Computern, Laptops usw., abgegeben werden. Die Arten von Vorrichtungen, die den Hörtests unterzogen werden, sind nahezu unbegrenzt und können alles umfassen, was einen Klang erzeugt. Die Juroren können den Klang einfach nach seiner Angenehmheit bewerten, beispielsweise auf einer Skala von null bis zehn. In der Zwischenzeit werden mit den Klängen assoziierte messbare Klangdaten beispielsweise im Speicher 208 als Rohquellendaten 216 aufgezeichnet. Die messbaren Klangdaten können beschreibende Größen beinhalten und können skalar (z. B. psychoakustische Größen wie Lautstärke, Tonalität, Schärfe, usw.), eindimensionale Vektoren (z. B. Lautstärke als Funktion der Zeit) oder zweidimensionale Spektren (z. B. Frequenzanalysen, wie eine schnelle Fouriertransformation (FFT) als Funktion der Zeit) sein. Auch eine Kombination dieser messbaren Qualitäten über unterschiedliche Eingabekanäle ist möglich.
Um die Modelle für das Training vorzubereiten, werden die bewerteten Klänge in beiden Richtungen miteinander kombiniert (z. B. Klang n₁ im Vergleich zu Klang n₂ und Klang n₂ im Vergleich zu Klang n₁). Die Differenzen zwischen den gemessenen Klangqualitäten sowie den Jurybewertungen werden in beiden Richtungen berechnet. Dies kann paarweise erfolgen. Beispielsweise werden die Daten für alle gemessenen Klangdaten jedes Klangs sowie die entsprechenden Angenehmheitsbewertungen jedes Klangs in n paarweise Vergleiche umgewandelt. Unter der Annahme einer Anzahl von n Klängen ergibt dies ein Anzahl von n² Vergleichspaaren. Die Hauptdiagonale (z. B. ein Klang im Vergleich zu sich selbst, wie etwa Klang 2 im Vergleich zu Klang 2) kann aus den Daten entfernt oder auf null gesetzt werden. Ebenso können, sofern vorhanden, die Vergleiche von Klängen mit genau gleicher Jurybewertung (z. B. beträgt die Differenz zwischen der Jurybewertung von Klang 4 und Klang 7 null) entfernt werden. Solche paarweisen Vergleiche können sowohl für die messbaren Klangdaten als auch für die Jurybewertung erstellt werden. Die resultierenden Daten können zur besseren Verarbeitung durch das Modell skaliert werden (z. B. auf einer Skala von 0 bis 1).
3B zeigt ein Beispiel einer Tabelle 350, die aus einem solchen paarweisen Vergleich von sieben verschiedenen Klängen resultiert. Dieses Beispiel zeigt die Differenzen zwischen den Jurybewertungen zur Klangangenehmheit, skaliert auf einer Skala von 0 bis 1. Die horizontale Kopfzeile jeder Spalte stellt den ersten Klang im Vergleich dar und die vertikale Kopfzeile jeder Zeile stellt den zweiten Klang im Vergleich dar. In diesem veranschaulichten Beispiel ist die Zelle am Schnittpunkt der Spalte „Klang 1“ und der Zeile „Klang 2“ die Differenz der Angenehmheitsbewertung zwischen Klang 1 und Klang 2. Am Beispiel einer Jurybewertung auf einer Skala von null bis zehn würde dieser paarweise Vergleich zu Jurybewertungsdifferenzen zwischen zwei verglichenen Klängen zwischen -10 (der schlechteste Klang, bewertet mit null, verglichen mit dem besten Klang, bewertet mit zehn) und 10 (der beste Klang, bewertet mit zehn, verglichen mit dem schlechtesten Klang, bewertet mit null) führen. Werte gegenüberliegend hinsichtlich der Diagonale (z. B. Vergleiche von Klang A mit Klang B und Klang B mit Klang A) haben die gleichen Werte, aber unterschiedliche Vorzeichen (+/-). Diese paarweisen Bewertungsunterschiede können dann durch Division durch die größte paarweise Differenz (in diesem Beispiel wäre dies eine Division durch 10) auf eine Skala von -1 bis 1 skaliert werden, wodurch die Beziehung zu den Werten gegenüber der Diagonale erhalten bliebe. Eine Skalierung zwischen 0 und 1 beinhaltet eine Verschiebung der Werte, sodass die Summe zweier Vergleichsdifferenzen (A-B und B-A) immer gleich 1 ist. Wie in 3B zu sehen ist, ist die Gesamtzahl paarweiser Vergleiche gleich dem Quadrat der Anzahl von Klängen minus der Diagonale jeder Klangqualität im Vergleich zu sich selbst, oder (n² - n).
Obgleich dies nicht gezeigt ist, können ähnliche Tabellen paarweiser Vergleiche für jede der anderen gemessenen Klangqualitäten (z. B. Schärfe, Tonalität, Lautstärke usw.) für jeden Klang erstellt werden. Beispielsweise kann eine ähnliche Tabelle erstellt werden, die die Tonalität jedes Klangs mit der Tonalität jedes der anderen Klänge vergleicht, sodass die Klangqualität jedes Klangs paarweise mit der Klangqualität aller anderen Klänge verglichen wird. Dies kann für andere Klangmessgrößen wie Lautstärke, Schärfe usw. durchgeführt werden.
Gemäß Ausführungsformen werden die Eingaben in das System (z. B. gemessene Klangqualitäten und Jurybewertungen) nicht separat oder einzeln in das binäre Klassifizierungsmodell eingespeist. Stattdessen werden ihre Differenzen zunächst gemäß dem oben beschriebenen paarweisen Vergleich berechnet. Dies reduziert die Anzahl der benötigten Modellgewichte und ist somit effizienter hinsichtlich der notwendigen Menge an Trainingsdaten sowie hinsichtlich der Optimierung der Gewichte. Darüber hinaus liefert dieser Ansatz Eingabevariablen, die automatisch um 0 zentriert sind, was in der Regel für die zur Lösung des Problems geeigneten Maschinenlernverfahren von Vorteil ist. Der Verwendung der Differenz liegt die Annahme zugrunde, dass unabhängig von den tatsächlichen Werten der Klangeigenschaften (z. B. der Lautstärke) zweier Vergleichsklänge die gleiche Differenz immer zur gleichen Präferenz führt. Sollte diese Annahme nicht zutreffen, kann über einen weiteren Eingabekanal zusätzlich ein charakteristischer Absolutwert (z. B. der maximale Schalldruckpegel von Klang A) auf das Modell übertragen werden, was immer noch zu einer geringeren Anzahl zu optimierender Modellparameter führt als die getrennte Übertragung der beiden Klänge, während die oben genannten Vorteile beibehalten werden.
Im Hinblick auf die Angenehmheitsbewertungen und ihre Differenzen kann das binäre Klassifizierungsmodell trainiert werden, indem jede Angenehmheitsbewertungsdifferenz mit einem binären Wert, beispielsweise entweder einer „0“ oder einer „1“, überschrieben wird. Für jede entsprechende Klangbewertung, die verglichen wird, wird die Ausgabe dieser paarweisen Vergleiche mit einem oder dem anderen eines binären Werts überschrieben, je nachdem, welcher Klang bei jedem Vergleich besser bewertet wird. Unter Bezugnahme auf 3B wird beispielsweise, wenn die Jurybewertung von Klang 2 besser ausfällt als die von Klang 3 (dargestellt mit einer Differenz von 0,88), dieser Wert mit einer „1“ überschrieben, was bedeutet, dass Klang 2 von der Jury als angenehmer bewertet wurde. Für jeden Klang, bei dem die Angenehmheit des Klangs im Spaltenkopf besser bewertet ist als die Angenehmheit des Klangs in der Zeilenkopf, kann der Wert durch „1“ ersetzt werden; für jeden Klang, bei dem die Angenehmheit des Klangs im Spaltenkopf schlechter bewertet ist als die Angenehmheit des Klangs im Spaltenkopf, kann der Wert durch „0“ ersetzt werden. 3C veranschaulicht eine resultierende Binärtabelle 360, die die Werte von 3B in das Binärformat umwandelt.
Anders ausgedrückt kann das binäre Klassifizierungsmodell trainiert werden, indem (a) eine Differenz zwischen der Angenehmheitsbewertung jedes Klangs und der Angenehmheitsbewertung jedes anderen Klangs paarweise bestimmt wird und (b) die Differenzen je nachdem, welche Angenehmheitsbewertung die andere in jedem paarweisen Vergleich übertrifft, in entweder einen ersten binären Wert oder einen zweiten binären Wert umgewandelt werden.
Die eingegebenen messbaren Klangdaten müssen hingegen nicht in das Binärformat umgewandelt werden. Die Differenz zwischen den messbaren Klangqualitäten jedes paarweisen Vergleichs kann jedoch im Speicher gespeichert und bei der Ausführung des binären Klassifizierungsmodells als Basis verwendet werden. Wenn beispielsweise Klang 2 eine Lautstärke von 45 dB und Klang 3 eine Lautstärke von 72 dB hat, kann die Differenz zwischen Klang 2 und Klang 3 als - 27 gespeichert werden, und die Differenz zwischen Klang 3 und Klang 2 kann als 27 gespeichert werden.
Das binäre Klassifizierungsmodell wird somit optimiert, um eine binäre Klassifizierung eines Klangs vorzunehmen. Durch die Verarbeitung der messbaren Klangqualitäten mit den dazugehörigen Klangbewertungsvergleichen ist das Modell dazu ausgelegt, basierend auf den Differenzen der gemessenen Klangqualitäten eine binäre Vorhersage zwischen zwei Klängen vorzunehmen (z. B. „1“, wenn Klang A angenehmer als Klang B ist, und „0“, wenn Klang B angenehmer als Klang A ist). Das binäre Klassifizierungsmodell kann sich auf neuronale Netze (z. B. tiefe neuronale Netze) oder andere mathematische Verfahren stützen, die für die binäre Klassifizierung geeignet sind (z. B. Random Forest, Support Vector Machine, usw.), um solche Vorhersagen durchzuführen.
Dadurch kann das binäre Klassifizierungsmodell auf einen neuen Klang reagieren, der nicht von einer Jury bewertet wurde. Bezugnehmend auf 3A, kann das System 300 gemäß der folgenden Ausführungsform vorgehen. Bei 302 werden Klänge, die bereits von einer Jury bewertet wurden, empfangen oder aus einem Speicher abgerufen. Dazu gehört der Empfang nicht nur der Jurybewertungsvergleiche für jeden Klang, sondern auch der messbaren Klangqualitäten für jeden Klang und aller oben beschriebenen paarweisen Vergleiche.
Bei 304 wird ein neuer Klang (z. B. „Klang X“), der nicht von einer Jury bewertet wurde, verarbeitet. Dazu kann der Empfang des Klangs über ein Mikrofon und/oder die Verarbeitung des Klangs gehören, um seine messbaren Qualitäten wie Lautstärke, Schärfe und Tonalität zu bestimmen. Der Klang kann auch in jedem Format beschrieben werden, in dem die bereits bewerteten Klänge beschrieben werden, beispielsweise als skalare psychoakustische Größen oder zweidimensionale Spektren, wie oben beschrieben.
Bei 306 führt das System einen paarweisen Vergleich zwischen dem nicht bewerteten Klang X und der bereits bewerteten Anzahl von Klängen n durch. Zu dieser Berechnung gehört ein paarweiser Vergleich jeder in 304 bestimmten messbaren Klangqualität wie Lautstärke, Tonalität, Schärfe usw. Diese messbaren Klangqualitäten von Klang X werden paarweise mit entsprechenden messbaren Klangqualitäten der bewerteten Klänge von 302 verglichen. Beispielsweise wird die Tonalität von Klang X mit der Tonalität jedes der Klänge 1-n verglichen. Ähnliche Vergleiche werden für jede der anderen Klangqualitäten (z. B. Schärfe, Lautstärke) zwischen Klang X und den Klängen 1-n durchgeführt.
Wie oben erläutert, empfängt oder verarbeitet das binäre Klassifizierungsmodell die messbaren Klangqualitätseingaben von 304 und 306 nicht separat oder einzeln. Stattdessen werden für jede Art von Klangqualität die Differenzen zwischen den einzelnen Klängen berechnet; diese Differenzen werden bei 308 als Eingabe in das binäre Klassifizierungsmodell verwendet. Wie oben erläutert wurde, reduziert dies die Anzahl der benötigten Modellgewichte und ist somit effizienter hinsichtlich der notwendigen Menge an Trainingsdaten sowie hinsichtlich der Optimierung der Gewichte.
Bei 308 sagt das binäre Klassifizierungsmodell voraus, ob Klang X besser ist als jeder der anderen Klänge 1-n. Dies kann unter Verwendung neuronaler Netze wie den oben beschriebenen (z. B. Random Forest, Support Vector Machine, usw.) basierend auf den oben berechneten Differenzen (z. B. paarweise Vergleiche messbarer Klangqualitäten für jeden Klang) erfolgen. Für jeden Klangvergleich kann das Ergebnis des binären Klassifizierungsmodells bei 308 eine „1“ zurückgeben, wenn Klang X laut Vorhersage angenehmer als der verglichene Klang (z. B. Klang A) ist, oder eine „0“ zurückgeben, wenn Klang X laut Vorhersage weniger angenehm als Klang A ist. Gemäß einer Ausführungsform muss dieses Ergebnis keine binäre ganze Zahl sein, sondern eine Gleitkommazahl im Bereich zwischen 0 und 1, die als Wahrscheinlichkeit interpretiert werden kann, mit der das Vergleichspaar mit 0 oder 1 bewertet wird. Vorhersagen, die nahe bei 1 liegen, sind als hohe Wahrscheinlichkeit zu interpretieren, dass Klang X angenehmer als Klang A ist, und Vorhersagen, die nahe bei 0 liegen, werden als hohe Wahrscheinlichkeit interpretiert, dass Klang X weniger angenehm als Klang A ist.
Das Ergebnis des binären Klassifizierungsmodells ist ein Vergleich von Klang X mit jedem anderen Klang, der bereits bewertet wurde. Basierend auf den messbaren Klangqualitäten der bewerteten Klänge 1-n und ihrem von der Jury bewerteten Angenehmheitswert ist das binäre Klassifizierungsmodell dazu ausgelegt, einen Wert zwischen 0 und 1 hinsichtlich der Wahrscheinlichkeit oder Konfidenz der Angenehmheit von Klang X im Vergleich zu jedem Klang auszugeben. Beispielsweise kann das binäre Klassifizierungsmodell einen Wert von 0,92 ausgeben, wenn es Klang X mit Klang 7 vergleicht, was einen relativ hohen Konfidenzgrad angibt, dass Klang X von einer Jury als angenehmer bewertet werden würde als Klang 7. Im Gegensatz dazu kann das binäre Klassifizierungsmodell einen Wert von 0,11 ausgeben, wenn es Klang X mit Klang 8 vergleicht, was einen relativ hohen Konfidenzgrad angibt, dass Klang X von einer Jury als weniger angenehm bewertet werden würde als Klang 8.
Die Ausgaben des binären Klassifizierungsmodells bei 308 können verwendet werden, um einen Klang X mit jedem anderen Klang zu vergleichen. Diese Ausgaben haben ihre eigenen eigenständigen Verwendungszwecke, wenn ein solcher Klang-für-Klang-Vergleich erwünscht ist. Beispielsweise möchte ein Benutzer möglicherweise verstehen, ob Klang X durch eine Jury als angenehmer bewertet werden würde als Klang 3, Klang 5 und/oder Klang 7. Jedoch können die Ausgaben von dem binären Klassifizierungsmodell 308 auch dazu verwendet werden, eine Gesamtangenehmheitsbewertung von Klang X zu erzeugen. Beispielsweise kann ein Regressionsmodel trainiert werden, indem ein zusätzlicher Satz von bewerteten Klängen mit den zuvor bewerteten Klängen verglichen wird, die bei dem Training des binären Klassifizierungsmodells verwendet wurden. Dies führt zu paarweisen Vergleichen für jede gemessene Klangqualität, einhergehend mit Angenehmheitsvorhersagen für jeden zusätzlichen Klang im Vergleich zu den zuvor bewerteten Klängen. Alternativ kann aus den zuvor bewerteten Klängen, die zum Trainieren des binären Klassifizierungsmodells verwendet wurden, eine Anzahl k repräsentativer Klänge ausgewählt und mit den verbleibenden n-k Klängen der zuvor bewerteten Klänge verglichen werden. Diese Vergleiche dienen als Basis für die Optimierung des Regressionsmodells, das die Vorhersagen des binären Klassifizierungsmodells aus den paarweisen Vergleichen mit allen anderen Klängen auf die tatsächliche Jurybewertung auf einer kontinuierlichen Skala überträgt. Nach dem Training kann eine Regressionsaufgabe die messbaren Klangqualitäten eines neuen Klangs (z. B. Klang X) mit denen vergleichen, die bereits aus dem Training bekannt sind.
Unter Bezugnahme auf das in 3A gezeigte Beispiel werden bei 310 alle paarweisen Vergleiche zwischen Klang X und der Anzahl n der von einer Jury bewerteten Klänge, die durch das binäre Klassifizierungsmodel 308 verwendet werden, akkumuliert. Die Klangangenehmheitsbewertung der von der Jury bewerteten Anzahl von Klängen n kann ebenfalls kompiliert werden. Beispielsweise stellt, wie hier gezeigt, für den Vergleich von Klang X und Klang 1 0,81 die Angenehmheitsbewertung von Klang 1 dar; für den Vergleich von Klang X mit Klang 2 stellt 1,09 die Angenehmheitsbewertung von Klang 2 dar; usw. Wie oben beschrieben, können diese Klangbewertungen der Jury auf einer Skala von null bis zehn liegen, wie hier bei 310 gezeigt; es können jedoch auch andere Skalen, z. B. 0-100, oder Buchstabennoten („A“ bis „F“) usw. verwendet werden. Die letzte Zeile von 310 zeigt eine Modellvorhersage, wobei wiederum die Zahl zwischen 0 und 1 darstellt, ob Klang X höher oder niedriger als der Vergleichsklangpartner bewertet würde. Beispielsweise ergibt der Vergleich von Klang X mit Klang 1 einen Wert von 0,02, was auf einen hohen Grad an Sicherheit oder Wahrscheinlichkeit hinweist, dass Klang X weniger angenehm als Klang 1 ist. Auf ähnliche Weise ergibt ein Vergleich von Klang X mit Klang n 0,99, was auf einen hohen Grad an Sicherheit oder Wahrscheinlichkeit hinweist, dass Klang X angenehmer als Klang n ist.
Unter Verwendung einer Regressionsaufgabe bei 312 gibt das Regressionsmodell eine Gesamtangenehmheitsbewertung von Klang X aus. Jede bei 310 ausgegebene Modellvorhersage bezüglich des Vergleichs des Klangs X mit den bewerteten Klängen wird durch die Regressionsaufgabe bei 312 genutzt. Im Allgemeinen stützt sich die Regressionsaufgabe auf die Schlussfolgerung der finalen Bewertung des unbekannten Klangs X aus der Liste der Vorhersagen des binären Klassifizierungsmodells (z. B. Vergleiche von Klang X mit jedem bereits bekannten Klang) und den bekannten Jurybewertungen der Vergleichspartner. Ein Ansatz kann darin bestehen, die bekannte Juryvorhersage des am niedrigsten bewerteten bekannten Klangs zu nehmen, für den das binäre Klassifizierungsmodell vorhergesagt hat, dass Klang X besser bewertet wird, und die bekannte Juryvorhersage des am höchsten bewerteten Klangs zu nehmen, für den das binäre Klassifizierungsmodell vorhergesagt hat, dass Klang X schlechter bewertet wird, und den Mittelwert dieser beiden als finale Jurybewertung von Klang X abzuleiten. Andere komplexere Modelle können den vollständigen Bereich binärer Vorhersagewerte einschließlich der Werteverteilung von bekannten Jurybewertungen der Vergleichsklänge berücksichtigen. Diese Modelle können, genau wie der binäre Klassifikator, Maschinenlernmodelle sein.
Somit kann das Regressionsmodell 312 dazu ausgelegt sein, vorhergesagte Angenehmheitswerte verschiedener Klänge, die nicht von Jurys bewertet wurden, auszugeben. Dieser Angenehmheitswert kann so skaliert werden, dass er mit der gleichen Skala übereinstimmt, die von den Jurys verwendet wird (z. B. eine Skala von null bis zehn). Um die erwartete Jurybewertung neuer, nicht bewerteter Klänge vorherzusagen, sollten diese Klänge zunächst durch dieselben Größen beschrieben werden, die zum Trainieren des binären Klassifizierungsmodells 308 verwendet wurden, wie z. B. Tonalität, Schärfe und/oder Lautstärke. Anschließend werden diese Klänge mit den bekannten Klängen gepaart, die beim Training des binären Klassifizierungsmodells 308 verwendet werden (z. B. wie in 302 beschrieben), und die Differenzen der gemessenen Klanggrößen werden gebildet. Bei Bedarf werden diese mit dem gleichen Skalierungsverfahren wie bei der Optimierung des binären Klassifizierungsmodells vorverarbeitet. Das binäre Klassifizierungsmodell 312 macht dann eine Vorhersage für jedes Klangvergleichspaar, wobei der neue, nicht bewertete Klang mit dem zuvor bewerteten Klang verglichen wird. Die resultierende Liste vorhergesagter Vergleichsergebnisse mit den bereits bekannten n oder n-k Klängen wird dann durch das Regressionsmodell für die finale Regression auf einer kontinuierlichen Skala verwendet.
Die Ausführungsform von 3 beinhaltet gemäß einer Ausführungsform eine spezielle Berücksichtigung von Extremwerten. Wenn vorhergesagt wird, dass ein neuer Klang schlechter ist als jeder Klang, der beim Trainieren des Modells verwendet wird, wird ihm die schlechteste Trainingsbewertung abzüglich der durchschnittlichen Differenz aller Trainingsklänge zugewiesen. Wenn dagegen vorhergesagt wird, dass ein neuer Klang besser als ein bestimmter Trainingsklang ist, wird ihm die beste Trainingsbewertung plus der durchschnittlichen Differenz aller Trainingsklänge zugewiesen.
Die Ausführungsform von 3 trifft außerdem die finale Regressionsentscheidung nicht basierend auf Listen mit Nullen und Einsen, sondern basierend auf den vorhergesagten Wahrscheinlichkeiten unter Verwendung eines zweiten, nachfolgenden Regressionsmodells. Zu diesem Zweck wird die Vorhersage der paarweisen Vergleiche nicht auf 0 oder 1 gerundet, sondern als Gleitkommazahl zwischen 0 und 1 belassen, was als Wahrscheinlichkeit interpretiert werden kann, dass das Ereignis besser oder schlechter als sein Vergleichsklang ist. Das zweite Modell (z. B. Regressionsmodell) trifft dann die finale Regressionsentscheidung für einen neuen Klang basierend auf den vorhergesagten Wahrscheinlichkeiten der Paarvergleiche, die durch das erste Modell (z. B. einem binären Klassifizierungsmodell) durchgeführt wurden. Das bedeutet, dass das zweite Modell nun eine Regressionsaufgabe lösen muss, die komplexer als die binäre Klassifizierung ist, aber von der durch das erste Modell durchgeführten umfangreichen Vorverarbeitung profitieren kann.
Die Ausführungsform von 3 ist hinsichtlich der binären Klassifizierung von Paarvergleichen effizient, da die Differenz zweier Klänge als Eingabe in das binäre Klassifizierungsmodell verwendet wird. Darüber hinaus berücksichtigt diese Ausführungsform Extremwerte und ermöglicht eine genauere Vorhersage als die bloße Schätzung des finalen Regressionsergebnisses basierend auf zwei Listen mit Nullen und Einsen, insbesondere wenn die Anzahl bereits markierter Trainingsklänge zunimmt.
4 veranschaulicht eine alternative Ausführungsform eines Flussdiagramms eines Systems 400 zum Bestimmen einer Angenehmheitsbewertung eines nicht bewerteten Klangs. Auch hier können die im Flussdiagramm in 4 dargestellten Schritte beispielsweise unter Verwendung der in 1-2 veranschaulichten Strukturen ausgeführt werden. Im Gegensatz zu den oben unter Bezugnahme auf 3 beschriebenen Verfahren, in denen paarweise Klassifizierungen verwendet werden, werden hier gemäß dieser Ausführungsform paarweise relative Regressionsprobleme mit anschließender Mittelung über die absoluten paarweisen Vorhersagewerte verwendet.
Im Allgemeinen kann ein Regressionsproblem als die Aufgabe formuliert werden, eine Funktion ŷ = f(x) zu finden, sodass über alle n Probenpaare (x_i, y_i) ∈ (X, Y) eines Trainingsdatensatzes X, Y die Fehler- oder Verlustrate L(ŷ_n - y_n) minimiert wird, mit ŷ_i = f(x_i). In dem Beispiel von 4, ist x die gemessene Klangqualität, und y ist die Bewertung, die z. B. auf einer Skala von null bis zehn skaliert werden kann. Die hier verwendete paarweise relative Regression kann als das Problem formuliert werden, eine Funktion ŷ_{i, j} = g(x_i, x_j) zu finden, sodass für alle (x_i, y_i) ∈ (X, Y), (x_j, y_j) ∈ (X, Y) eines Trainingsdatensatzes X, Y die Fehler- oder Verlustrate L(y_{i, j} - ŷ_{i, j}) minimiert wird. Anschließend erfolgt eine Rückkehr zur absoluten Skala durch eine entsprechende Mittelung über die Vorhersagen der paarweisen relativen Regression, z. B. Berechnen des fehlenden Werts als ŷ_i = M_j=1..n(ŷ_{i, j} + y_j), beispielsweise durch Mittelung mit einer Gewichtung basierend auf der negativen exponentiellen Regressionsdifferenz als ${\hat{y}}_{i} = \frac{1}{C} \sum_{j} e^{- C_{2} | x_{i} - x_{j} |} (y_{j} + {\hat{y}}_{i, j})$
mit $C = \sum_{j} e^{- C_{2} | x_{i} - x_{j} |}$

und |x_i - x_j| als geeignete Abstandsmetrik im Eingabedatenraum (z. B. dem euklidischen Standard). Hier ist ŷ_i die finale Bewertungsvorhersage für den Klang i, ŷ_{i, j} ist die Vorhersage des Regressionsmodells für die Bewertungsdifferenz zwischen den Klängen / und j, y_j ist die bekannte Bewertung des Vergleichsklangs j, M ist eine Mittelungsfunktion, C₂ ist eine Konstante, und x_i, x_j sind Größen der Klänge i und y im Eingabemerkmalsraum (z. B. Lautstärkewerte für i und j). Eine beispielhafte Option für die Fehler- oder Verlustrate L ist die Quadratwurzel der mittleren quadratischen Abweichungen („mittlerer quadratischer Fehler“) des Trainingswerts, $L ({\hat{y}}_{n} - y_{n}) = \sqrt{\frac{1}{n - 1} \sum_{i = 0}^{n} {({\hat{y}}_{i} - y_{i})}^{2}} .$
Bezugnehmend auf 4 beinhaltet das System 400 ein nachstehend beschriebenes Regressionsvorhersagemodell. Zunächst wird das Modell trainiert. Das Training kann ähnliche Trainingsdaten beinhalten, wie oben unter Bezugnahme auf 3 beschrieben. Beispielsweise kann das Regressionsvorhersagemodell basierend auf Maschinenlernverfahren (z. B. einem künstlichen neuronalen Netz) unter Verwendung von Klängen trainiert werden, die bereits von einem oder mehreren menschlichen Juroren in Hörtests bewertet wurden. Die in diesem Modell als Eingabedaten verwendeten beschreibenden Größen können skalar (z. B. Lautstärke, Tonalität, Schärfe), eindimensionale Vektoren (z. B. Lautstärke als Funktion der Zeit), zweidimensionale Spektren (z. B. FFT als Funktion der Zeit) oder eine Kombination der verschiedenen Darstellungen sein. Zur Vorbereitung auf das Modelltraining werden alle bewerteten Klänge in beiden Richtungen miteinander kombiniert (z. B. Vergleich von Klang A mit B und Vergleich von Klang B mit A). Die Eingabedaten eines Paars können dann durch separate Eingabekanäle, über einen Eingabekanal, der die Differenz der Merkmale der beiden verglichenen Klänge empfängt, oder über eine Kombination einer Differenz zusammen mit zusätzlichen charakteristischen Größen in das Regressionsvorhersagemodell eingespeist werden. Als Ausgabevariable wird die Differenz der Jurorenbewertungen der gepaarten Klänge gebildet. Im Fall einer Anzahl von n Klängen ergeben sich daraus n² Vergleichspaare. Falls die Klangdifferenz als Eingabe verwendet wird, können die Vergleiche auf der Hauptdiagonalen entfernt werden (ähnlich wie in 3B oben), da alle Eingabe- und Ausgabegrößen auf der Hauptdiagonalen null betragen. Die Eingabedaten können dann für eine bessere Verarbeitung durch den Algorithmus skaliert werden. Die Zielvariable des Regressionsvorhersagemodells ist die Differenz der Jurybewertungen der beiden verglichenen Klänge. Das Modell wird dann optimiert, um die Differenz der beiden Jurybewertungen bei Einspeisung eines Paars von Eingabevariablen vorherzusagen.
Nach dem Training kann das Regressionsvorhersagemodell auf einen neuen Klang reagieren, der nicht von einer Jury bewertet wurde. Bezugnehmend auf 4, kann das System 400 gemäß der folgenden Ausführungsform vorgehen. Bei 402 werden Klänge, die bereits von einer Jury bewertet wurden, empfangen oder aus einem Speicher abgerufen. Dazu gehört der Empfang nicht nur der Jurybewertungsvergleiche für jeden Klang, sondern auch der messbaren Klangqualitäten für jeden Klang und aller oben beschriebenen paarweisen Vergleiche. Eine Anzahl n dieser Klänge x_j wird empfangen oder abgerufen, für j = 1 ... n.
Bei 404 wird ein neuer Klang (z. B. „x_i“) verarbeitet, der nicht von einer Jury bewertet wurde. Dazu kann der Empfang des Klangs über ein Mikrofon und/oder die Verarbeitung des Klangs gehören, um seine messbaren Qualitäten wie Lautstärke, Schärfe und Tonalität zu bestimmen. Der Klang kann auch in jedem Format beschrieben werden, in dem die bereits bewerteten Klänge beschrieben werden, beispielsweise als skalare psychoakustische Größen oder zweidimensionale Spektren, wie oben beschrieben.
Das Regressionsvorhersagemodell 406, auch als paarweises relatives Regressionsvorhersagemodell bezeichnet, verarbeitet diese Daten dann paarweise und vergleicht die gemessenen Klangqualitäten des nicht bewerteten Klangs x_i mit den gemessenen Klangqualitäten jedes von der Jury bewerteten Klangs x_j. Das Modell sagt für alle Paarvergleiche die Differenz zwischen der Jurybewertung des neuen Klangs und dem jeweiligen Vergleichsklang voraus. Unter Verwendung des wie in den obigen Beispielen trainierten Modells kann das Regressionsvorhersagemodell 406 die Klangqualitäten von x_i mit den Klangqualitäten von x_j vergleichen und eine Vorhersage y_{i, j} basierend auf den beiden verglichenen Qualitäten zusammen mit der bekannten Jurybewertung des bereits bewerteten Klangs x_j ausgeben.
In dem Beispiel wird bei 406 eine vorhergesagte Bewertung des Klangs x_i im Vergleich zu jedem Klang x_j, für j = 1 ... n, gezeigt. In diesem Beispiel sagt das Modell beim Vergleich des neuen, nicht bewerteten Klangs x_i mit dem Klang x₁ voraus, dass der neue Klang x_i eine Bewertung (y_i) hat, die um +4,15 höher ist als die bekannte Bewertung y₁ des von der Jury bewerteten verglichenen Klangs x₁. .Anders ausgedrückt gibt das Modell eine vorhergesagte Angenehmheitsdifferenzbewertung von 4,15 für den paarweisen Vergleich von Klang x_j mit Klang x₁ aus. Dieser Prozess wird für jeden Klang x_j bis zur Anzahl n von Klängen fortgesetzt, wobei der nicht bewertete Klang mit jedem verglichen wird. In diesem Beispiel sagt das Modell für den Klang x_n voraus, dass die Differenz der Bewertungen zwischen dem nicht bewerteten Klang x_i und dem bewerteten Klang x_n -4,5 beträgt. Anders ausgedrückt ist die Bewertung auf einer Skala von null bis zehn für den nicht bewerteten Klang x_i um 4,5 niedriger.
Bei 408 werden die Vergleichsergebnisse aus der Ausgabe des Regressionsvorhersagemodells 406 für eine Zusammenfassung kompiliert oder akkumuliert. Anders ausgedrückt wird die Differenz der Bewertungen zwischen dem nicht bewerteten Klang x_i und dem jeweiligen bewerteten Klang x_j kompiliert. Die erste Zeile zeigt die bekannte Bewertung y_j jedes Klangs, die mit dem nicht bewerteten Klang verglichen wird. Beispielsweise beträgt die durchschnittliche Jurybewertung y₁ der Klangangenehmheit für den ersten Klang x₁ 0,81; die durchschnittliche Jurybewertung y₂ der Klangangenehmheit für den zweiten Klang x₂ beträgt 1,09; usw. Für jeden Klang wird diese Zahl mit der Ausgabe des Regressionsvorhersagemodells 406 addiert oder kombiniert, um zu einer summierten Bewertung y_j + ŷ_{i, j} zu gelangen. Dies stellt eine vorhergesagte Bewertung des nicht bewerteten Klangs basierend auf seinem Vergleich mit jedem bereits bewerteten Klang unter Verwendung des Regressionsvorhersagemodells dar.
Bei 410 bestimmt das System einen gewichteten Mittelwert aller summierten Bewertungen. In einer Ausführungsform wird jede der summierten Bewertungen in Abhängigkeit von ihrer Abweichung von dem tatsächlichen Mittelwert gewichtet. Beispielsweise wird mit zunehmender Abweichung der summierten Bewertungen vom Mittelwert die Gewichtung dieser summierten Bewertungen verringert. Dadurch werden die Bewertungen, die näher am Mittelwert liegen, stärker gewichtet.
Der resultierende gewichtete Mittelwert repräsentiert eine gesamte vorhergesagte Angenehmheitsbewertung y_i des neuen, nicht bewerteten Klangs. Somit kann das System 400 eine Angenehmheitsbewertung eines nicht bewerteten Klangs vorhersagen, indem es seine gemessenen Klangqualitäten mit denen der bereits von der Jury bewerteten Klängen in einem Regressionsvorhersagemodell vergleicht.
Sobald das Regressionsvorhersagemodell trainiert ist, kann es im Allgemeinen verwendet werden, um eine erwartete Jurybewertung eines neuen, nicht bewerteten Klangs vorherzusagen. Um die erwartete Jurybewertung neuer, nicht bewerteter Klänge vorherzusagen, müssen die nicht bewerteten Klänge zunächst durch dieselben Größen beschrieben werden, die zum Trainieren des Modells verwendet wurden (z. B. Lautstärke, Tonalität, Schärfe usw.). Anschließend wird jede gemessene Klangqualität mit der entsprechenden Klangqualität jedes der bereits bewerteten Klänge, die zum Trainieren des Modells verwendet wurden, gepaart. Die Eingabegrößen der Paarvergleiche werden abgeleitet. Bei Bedarf werden diese mit dem gleichen Skalierungsverfahren wie bei der Optimierung des Modells vorverarbeitet. Das Modell sagt dann für alle Paarvergleiche die Differenz zwischen der Jurybewertung des neuen Klangs und dem jeweiligen Vergleichsklang voraus. Nun kann die gewünschte Jurybewertung des nicht bewerteten Klangs bestimmt werden, indem ein entsprechend gewichteter Mittelwert aller bekannten Klangbewertungen zuzüglich der assoziierten vorausgesagten Differenzen zu dem unbewerteten Klang berechnet wird.
Ein Vorteil des Systems von 4 im Vergleich zu der Ausführungsform von 3 und anderen Systemen besteht darin, dass ein Zwischenschritt zur Umwandlung der anfänglichen Regressionsaufgabe in ein Klassifizierungsproblem nicht erforderlich ist. Während bei einer Umwandlung in eine Klassifizierungsaufgabe nur die Proben im Schwankungsbereich des Klassifizierungsproblems (also zwischen Vorhersage „0 - neuer Klang ist weniger tonal/angenehm/...“ und „1 - neuer Klang ist tonaler/angenehmer/...“) zum Vorhersageergebnis beitragen können, können im Fall des relativen Regressionsansatzes Paarvergleiche aller Trainingsproben dazu beitragen, wodurch die Vorhersagegenauigkeit verbessert werden kann.
Vorteile gegenüber etablierten Verfahren können insbesondere dann erzielt werden, wenn nur geringe Datenmengen für das Training des Modells bzw. die Kalibrierung der Regressionsfunktion zur Verfügung stehen. Die Einspeisung der Daten der beiden Proben eines Vergleichspaars in das Modell kann (a) getrennt (beispielsweise über zwei verschiedene Eingabekanäle eines künstlichen neuronalen Netzes), da ŷ_{i, j} = g(x_i, x_j), sowie (b) als Differenz der beiden Proben ŷ_{i, j} = g̃(x_i - x_j), oder (c) als Kombination der Differenz zwischen den Proben und einer oder mehreren zusätzlichen charakteristischen Größen ŷ_{i, j} = ĝ(x_i - x_j, h(x_i, x_j)) erfolgen. Während Ansatz (a) insbesondere bei einer hochdimensionalen Darstellung der Proben geeignet ist (z. B. Kurzzeitspektren oder Zeitsignale von Klängen bei akustischen Aufgaben), sind Varianten (b) und (c) besonders geeignet für niedrigdimensionale Darstellungen von Proben (z. B. eine Kombination eindimensionaler psychoakustischer Größen bei akustischen Aufgaben).
Darüber hinaus ist das in 4 beschriebene Verfahren konzeptionell einfacher, und der Schritt der Umwandlung des Klassifizierungsproblems in ein Regressionsproblem ist nicht mehr erforderlich, sondern wird durch die Mittelung über die relativen Regressionswerte ersetzt.
Die oben beschriebenen Systeme und Verfahren können beispielsweise dazu verwendet werden, die Steuerung von Produkten hinsichtlich der akustischen Eigenschaften des von ihnen abgegebenen Klangs (z. B. Klangangenehmheit, Lautstärke, Tonalität, usw.) zu optimieren. Diese Optimierung kann sowohl im Laufe des Produktentwicklungsprozesses als auch dynamisch zum Zeitpunkt der Produktanwendung erfolgen. Ein Beispiel für einen Anwendungsfall ist eine Wärmepumpe in einem dicht besiedelten Wohngebiet, wobei die oben beschriebenen Systeme (i) einen Sensor (Mikrofon, Beschleunigungssensor usw.) verwenden, um die von dem Produkt ausgehenden Klangqualitäten zu messen, und (ii) seine Angenehmheit basierend auf paarweisen Vergleichen mit den Klangqualitäten von Klängen, die dem System bereits bekannt sind, bewerten. Diese Auswertung kann dann genutzt werden, um die Steuerung der Wärmepumpe im aktuellen Betriebspunkt zu optimieren und so den durch die Wärmepumpe erzeugten Klang zu verändern.
Zu weiteren Beispielen für Vorrichtungen, deren akustische Eigenschaften mit dem vorgeschlagenen Ansatz optimiert werden können, gehören Elektrofahrzeuge, Elektrowerkzeuge und andere Vorrichtungen. Beispiele hierfür sind in 6-11 gezeigt und nachstehend beschrieben. Die Struktur, die für zum Trainieren und Verwenden der Maschinenlernmodelle für diese Anwendungen (und andere Anwendungen) verwendet wird, ist in 5 veranschaulicht.
5 zeigt ein schematisches Diagramm einer Interaktion zwischen einer computergesteuerten Maschine 500 und einem Steuersystem 502. Die computergesteuerte Maschine 500 beinhaltet einen Aktuator 504 und einen Sensor 506. Der Aktuator 504 kann einen oder mehrere Aktuatoren beinhalten, und der Sensor 506 kann einen oder mehrere Sensoren beinhalten. Der Sensor 506 ist dazu ausgelegt, einen Zustand der computergesteuerten Maschine 500 zu erfassen. Der Sensor 506 kann dazu ausgelegt sein, den erfassten Zustand in Sensorsignale 508 zu codieren und Sensorsignale 508 an das Steuersystem 502 zu übertragen. Zu nicht-einschränkenden Beispielen des Sensors 506 gehören Mikrofon-, Video-, Radar-, LiDAR-, Ultraschall- und Bewegungssensoren.
Das Steuersystem 502 ist dazu ausgelegt, Sensorsignale 508 von der computergesteuerten Maschine 500 zu empfangen. Wie im Folgenden dargelegt, kann das Steuersystem 502 ferner dazu ausgelegt sein, Aktuatorsteuerbefehle 510 abhängig von den Sensorsignalen zu berechnen und die Aktuatorsteuerbefehle 510 an den Aktuator 504 der computergesteuerten Maschine 500 zu übertragen. In einer Ausführungsform kann das Steuersystem 502 ferner dazu ausgelegt sein, Aktuatorsteuerbefehle 510 in Abhängigkeit von den Ausgaben der hier beschriebenen Modelle zu berechnen. Beispielsweise können die Aktuatorsteuerbefehle 510 basierend auf einer vorhergesagten Angenehmheit eines nicht bewerteten Klangs unter Verwendung der hier beschriebenen Modelle berechnet werden. Wenn vorhergesagt wird, dass ein Klang, der von einer oder mehreren Vorrichtungen abgegeben wird, eine Angenehmheitsbewertung unterhalb eines Schwellenwerts aufweist, kann das System den Aktuator anweisen, die eine oder die mehreren jeweiligen Vorrichtungen zu trennen oder zu organisieren.
Wie in 5 gezeigt, beinhaltet das Steuersystem 502 eine Empfangseinheit 512. Die Empfangseinheit 512 kann dazu ausgelegt sein, Sensorsignale 508 vom Sensor 506 zu empfangen und Sensorsignale 508 in Eingangssignale x umzuwandeln. In einer alternativen Ausführungsform werden Sensorsignale 508 direkt als Eingangssignale x ohne die Empfangseinheit 512 empfangen. Jedes Eingangssignal x kann ein Teil jedes Sensorsignals 508 sein. Die Empfangseinheit 512 kann dazu ausgelegt sein, jedes Sensorsignal 508 zu verarbeiten, um jedes Eingangssignal x zu erzeugen. Das Eingangssignal x kann Daten beinhalten, die einem durch den Sensor 506 aufgezeichneten Bild entsprechen.
Das Steuersystem 502 beinhaltet einen Klassifikator 514. Der Klassifikator 514 kann dazu ausgelegt sein, Eingangssignale x unter Verwendung eines der Maschinenlernalgorithmus, wie etwa eines oben beschriebenen neuronalen Netzes, in ein oder mehrere Labels zu klassifizieren. Der Klassifikator 514 ist dazu ausgelegt, durch Parameter, wie etwa die oben beschriebenen (z. B. Parameter θ), parametrisiert zu werden. Parameter θ kann in einer nichtflüchtigen Speicherung 516 gespeichert und durch diese bereitgestellt werden. Der Klassifikator 514 ist dazu ausgelegt, Ausgangssignale y anhand von Eingangssignalen x zu bestimmen. Jedes Ausgangssignal y beinhaltet Informationen, die jedem Eingangssignal x ein oder mehrere Labels zuweisen. Der Klassifikator 514 kann Ausgangssignale y an die Umwandlungseinheit 518 übertragen. Die Umwandlungseinheit 518 ist dazu ausgelegt, Ausgangssignale y in Aktuatorsteuerbefehle 510 umzuwandeln. Das Steuersystem 502 ist dazu ausgelegt, die Aktuatorsteuerbefehle 510 an den Aktuator 504 zu übertragen, der dazu ausgelegt ist, die computergesteuerte Maschine 500 als Reaktion auf Aktuatorsteuerbefehle 510 zu betätigen. In einer anderen Ausführungsform ist der Aktuator 504 dazu ausgelegt, die computergesteuerte Maschine 500 direkt auf der Grundlage der Ausgangssignale y zu betätigen.
Bei Empfang der Aktuatorsteuerbefehle 510 des durch den Aktuator 504 ist der Aktuator 504 dazu ausgelegt, eine dem verbundenen Aktuatorsteuerbefehl 510 entsprechende Aktion auszuführen. Der Aktuator 504 kann eine Steuerlogik beinhalten, die dazu ausgelegt ist, die Aktuatorsteuerbefehle 510 in einen zweiten Aktuatorsteuerbefehl umzuwandeln, der zum Steuern des Aktuators 504 verwendet wird. In einer oder mehreren Ausführungsformen können die Aktuatorsteuerbefehle 510 verwendet werden, um anstelle eines oder zusätzlich zu einem Aktuator eine Anzeige zu steuern.
In einer anderen Ausführungsform beinhaltet das Steuersystem 502 den Sensor 506 anstelle oder zusätzlich zu der den Sensor 506 enthaltenden computergesteuerten Maschine 500. Das Steuersystem 502 kann auch den Aktuator 504 anstelle oder zusätzlich zu der den Sensor 504 enthaltenden computergesteuerten Maschine 500 beinhalten.
Wie in 5 gezeigt, beinhaltet das Steuersystem 502 auch einen Prozessor 520 und einen Speicher 522. Der Prozessor 520 kann einen oder mehrere Prozessoren beinhalten. Der Speicher 522 kann ein oder mehrere Speichervorrichtungen beinhalten. Der Klassifikator 514 (z. B. Maschinenlernalgorithmen, wie sie oben im Hinblick auf das binäre Klassifizierungsmodell beschrieben wurden) einer oder mehrerer Ausführungsformen kann durch das Steuersystem 502 implementiert werden, das die nichtflüchtige Speicherung 516, den Prozessor 520 und den Speicher 522 beinhaltet.
Die nichtflüchtige Speicherung 516 kann eine oder mehrere beständige Datenspeicherungsvorrichtungen beinhalten, wie etwa eine Festplatte, ein optisches Laufwerk, ein Bandlaufwerk, eine nichtflüchtige Festkörpervorrichtung, eine Cloud-Speicherung oder eine beliebige andere Vorrichtung, die zum beständigen Speichern von Informationen in Lage ist. Der Prozessor 520 kann eine oder mehrere Vorrichtungen beinhalten, die aus Hochleistungsrechen(HPC: High-Performance Computing)-Systemen, einschließlich Hochleistungskernen, Mikroprozessoren, Mikrocontrollern, Digitalsignalprozessoren, Mikrocomputern, Zentralverarbeitungseinheiten feldprogrammierbarer Gatterarrays, programmierbarer Logikvorrichtungen, Zustandsmaschinen, Logikschaltkreisen, Analogschaltkreisen, Digitalschaltkreisen oder beliebiger anderer Vorrichtungen, die (analoge oder digitale) Signale basierend auf in einem Speicher 522 befindlichen computerausführbaren Anweisungen manipulieren, ausgewählt wird. Der Speicher 522 kann eine einzige Speichervorrichtung oder eine Reihe an Speichervorrichtungen beinhalten, einschließlich unter anderem Direktzugriffsspeicher (RAM), flüchtigen Speichers, nichtflüchtigen Speichers, statischen Direktzugriffsspeichers (SRAM), dynamischen Direktzugriffsspeichers (DRAM), Flash-Speicher, Cache-Speicher oder einer beliebigen anderen Vorrichtung, die zum Speichern von Informationen in der Lage ist.
Der Prozessor 520 kann dazu ausgelegt sein, in den Speicher 522 zu lesen und computerausführbare Anweisungen, die sich in der nichtflüchtigen Speicherung 516 befinden und einen oder mehrere Maschinenlernalgorithmen und/oder -methodologien einer oder mehrerer Ausführungsformen umsetzen, auszuführen. Die nichtflüchtige Speicherung 516 kann ein oder mehrere Betriebssysteme und Anwendungen beinhalten. Die nichtflüchtige Speicherung 516 kann von Computerprogrammen kompiliert und/oder interpretiert speichern, die unter Verwendung einer Vielzahl von Programmiersprachen und/oder -technologien erschaffen wurden, einschließlich unter anderem, und entweder allein oder in Kombination, Java, C, C++, C#, Objective-C, Fortran, Pascal, Java Script, Python, Perl und PL/SQL.
Bei Ausführung durch den Prozessor 520 können die computerausführbaren Anweisungen der nichtflüchtigen Speicherung 516 bewirken, dass das Steuersystem 502 eine(n) oder mehrere der hier offenbarten Maschinenlernalgorithmen und/oder Methodologien implementiert. Die nichtflüchtige Speicherung 516 kann auch Maschinenlerndaten (darunter Datenparameter) beinhalten, die Funktionen, Merkmale und Prozesse der einen oder mehreren hier beschriebenen Ausführungsformen unterstützen.
Der Programmcode, der die hier beschriebenen Algorithmen und/oder Methoden umsetzt, kann einzeln oder kollektiv in einer Vielfalt von unterschiedlichen Formen als ein Programmprodukt verteilt werden. Der Programmcode kann unter Verwendung eines computerlesbaren Speicherungsmediums mit computerlesbaren Programmanweisungen darauf zum Veranlassen, dass ein Prozessor Aspekte einer oder mehrerer Ausführungsformen ausführt, verteilt werden. Computerlesbare Speicherungsmedien, die inhärent nichttransitorisch sind, können flüchtige und nichtflüchtige und entfernbare und nicht entfernbare greifbare Medien beinhalten, die in einem beliebigen Verfahren oder einer beliebigen Technologie zur Speicherung von Informationen implementiert werden, wie etwa computer-lesbare Anweisungen, Datenstrukturen, Programmmodule oder andere Daten. Computerlesbare Speicherungsmedien können ferner RAM, ROM, löschbaren programmierbaren Nurlesespeicher (EPROM), elektrisch löschbaren programmierbaren Nurlesespeicher (EEPROM), Flash-Speicher oder eine andere Solid-State-Speichertechnologie, portablen Compact-Disc-Nurlesespeicher (CD-ROM) oder eine andere optische Speicherung, magnetische Kassetten, Magnetband, magnetische Plattenspeicherung oder andere magnetische Speicherungsvorrichtungen oder ein beliebiges anderes Medium beinhalten, das zum Speichern der gewünschten Informationen verwendet werden und durch einen Computer gelesen werden kann. Computerlesbare Programmanweisungen können von einem computerlesbaren Speicherungsmedium zu einem Computer, einer anderen Art von programmierbarer Datenverarbeitungseinrichtung oder einer anderen Vorrichtung oder über ein Netzwerk zu einem externen Computer oder einer externen Speicherungsvorrichtung heruntergeladen werden.
Computerlesbare Programmanweisungen, die auf einem computerlesbaren Medium gespeichert sind, können dazu verwendet werden, einen Computer, andere Arten einer programmierbaren Datenverarbeitungseinrichtung oder andere Vorrichtungen dazu anzuweisen, auf eine spezielle Weise zu arbeiten, sodass die in dem computerlesbaren Medium gespeicherten Anweisungen einen Herstellungsgegenstand einschließlich Anweisungen produzieren, die die Funktionen, Handlungen und/oder Operationen implementieren, die in den Flussdiagrammen oder Diagrammen spezifiziert sind. Bei gewissen alternativen Ausführungsformen können die Funktionen, Handlungen und/oder Operationen, die in den Flussdiagrammen und Diagrammen spezifiziert sind, in Übereinstimmung mit einer oder mehreren Ausführungsformen umgeordnet, seriell verarbeitet und/oder gleichzeitig verarbeitet werden. Zudem können beliebige der Flussdiagramme und/oder Diagramme mehr oder weniger Knoten oder Blöcke als jene beinhalten, die in Übereinstimmung mit einer oder mehreren Ausführungsformen veranschaulicht sind.
Die Prozesse, Verfahren oder Algorithmen können vollständig oder teilweise unter Verwendung geeigneter Hardware-Komponenten, wie etwa anwendungsspezifischer integrierter Schaltungen (ASICs), feldprogrammierbarer Gate-Arrays (FPGAs), Zustandsmaschinen, Steuerungen oder anderer Hardware-Komponenten oder -Vorrichtungen oder einer Kombination von Hardware-, Software- und Firmware-Komponenten umgesetzt werden.
6 zeigt ein schematisches Diagramm eines Steuersystems 502, ausgelegt zum Steuern eines Fahrzeugs 600, bei dem es sich um ein zumindest teilweise autonomes Fahrzeug oder einen zumindest teilweise autonomen Roboter handeln kann. Das Fahrzeug 600 beinhaltet einen Aktuator 504 und einen Sensor 506. Der Sensor 506 kann ein oder mehrere Mikrofone, Videosensoren, Kameras, Radarsensoren, Ultraschallsensoren, LiDAR-Sensoren und/oder Positionssensoren (z. B. GPS) beinhalten. Einer oder mehrere des einen oder der mehreren spezifischen Sensoren können in dem Fahrzeug 600 oder in einem Teil des Fahrzeugs integriert sein.
Der Klassifikator 514 des Steuersystems 502 des Fahrzeugs 600 kann dazu ausgelegt sein, Objekte in der Nähe des Fahrzeugs 600 abhängig von Eingangssignalen x zu detektieren. In einer solchen Ausführungsform kann das Ausgangssignal y Informationen beinhalten, die die Umgebung von Objekten des Fahrzeugs 600 charakterisieren. Der Aktuatorsteuerbefehl 510 kann gemäß diesen Informationen bestimmt werden. Der Aktuatorsteuerbefehl 510 kann verwendet werden, um Kollisionen mit den detektierten Objekten zu vermeiden. Die vorliegenden Lehren können auf diese spezielle Ausführungsform angewendet werden, wobei die Bilddaten, die mit den durch die Kamera erfassten Bildern assoziiert sind, zu einer vorhergesagten Angenehmheitsbewertung dieser Bilder führen können. Durch das Fahrzeug erfasste Szenen können dann als angenehm (z. B. Fahren durch eine hügelige Landschaft) oder unangenehm (z. B. im Stau stehen) vorhergesagt werden.
In anderen Ausführungsformen, in denen das Fahrzeug 600 ein zumindest teilweise autonomer Roboter ist, kann das Fahrzeug 600 ein mobiler Roboter sein, der dazu ausgelegt ist, eine oder mehrere Funktionen, wie etwa Fliegen, Schwimmen, Tauchen und Schreiten, auszuführen. Diese Vorrichtungen können Klänge abgeben, die gemäß den vorliegenden Lehren als angenehm oder nicht angenehm vorhergesagt werden. Der mobile Roboter kann ein zumindest teilweise autonomer Rasenmäher oder ein zumindest teilweise autonomer Reinigungsroboter sein. In solchen Ausführungsformen kann der Aktuatorsteuerbefehl 510 so bestimmt werden, dass eine Antriebseinheit, eine Lenkeinheit und/oder eine Bremseinheit des mobilen Roboters so gesteuert werden kann, dass der mobile Roboter Bewegungen vornehmen oder Klänge erzeugen kann, die basierend auf der vorhergesagten Angenehmheit solcher Bewegungen oder Klänge angenehmer sind.
Das Fahrzeug 600 kann ein zumindest teilweise autonomer Roboter in Form eines Haushaltsgeräts sein. Zu nichteinschränkenden Beispielen für Haushaltsgeräte gehören eine Waschmaschine, ein Herd, ein Backofen, eine Mikrowelle oder eine Geschirrspülmaschine. In einem solchen Fahrzeug 600 kann der Sensor 506 ein Mikrofon sein, das dazu ausgelegt ist, einen durch das Haushaltsgerät abgegebenen Klang zu detektieren. Handelt es sich bei dem Haushaltsgerät beispielsweise um eine Waschmaschine, kann der Sensor 506 Geräusche im Zusammenhang mit dem Betrieb der Waschmaschine detektieren, wobei die vorhergesagte Angenehmheit dieses Klangs basierend auf den hier beschriebenen Verfahren bestimmt werden kann. Bei einem solchen Vorgang können externe Server beteiligt sein, die sich nicht vor Ort im Haushalt oder Gerät befinden. Der Server kann dann ein Signal an die Waschmaschine senden, um den Betrieb einzustellen, oder ein Signal an den Gerätehersteller oder -manager senden, dass das Gerät aufgrund des unangenehmen Klangs möglicherweise repariert werden muss.
7 zeigt ein schematisches Diagramm eines Steuersystems 502, ausgelegt zum Steuern eines Systems 700 (z. B. Fertigungsmaschine), wie etwa einer Stanz-Schneidvorrichtung, einer Schneidvorrichtung oder eines Kanonenbohrers, eines Fertigungssystems 702, wie etwa Teil einer Fertigungsstraße. Das Steuersystem 502 kann dazu ausgelegt sein, einen Aktuator 504 zu steuern, der zum Steuern des System 700 (z. B. Fertigungsmaschine) ausgelegt ist.
Ein Sensor 506 des Systems 700 (z. B. Fertigungsmaschine) kann ein optischer Sensor sein, der dazu ausgelegt ist, eine oder mehrere Eigenschaften eines Fabrikats 704 zu erfassen. Der Klassifikator 514 kann dazu ausgelegt sein, die Angenehmheit eines durch den optischen Sensor erfassten Bilds zu klassifizieren. Der Aktuator 504 kann dazu ausgelegt sein, das System 700 (z. B. die Fertigungsmaschine) in Abhängigkeit von der vorhergesagten Angenehmheit des Fabrikats 704 zu steuern. Der Aktuator 504 kann dazu ausgelegt sein, Funktionen des Systems 700 (z. B. Fertigungsmaschine) an einem nächsten Fabrikat 706 des Systems 700 (z. B. Fertigungsmaschine) abhängig von der vorhergesagten Angenehmheit des Fabrikats 704 zu steuern.
8 zeigt ein schematisches Diagramm eines Steuersystems 502, ausgelegt zum Steuern eines Elektrowerkzeugs 800, wie etwa einer Bohrmaschine oder eines Akkubohrers, das einen zumindest teilweise autonomen Modus aufweist. Das Steuersystem 502 kann dazu ausgelegt sein, einen Aktuator 504 zu steuern, der zum Steuern des Elektrowerkzeugs 800 ausgelegt ist.
Der Sensor 506 des Elektrowerkzeugs 800 kann ein Mikrofon sein, das dazu ausgelegt ist, einen oder mehrere Klänge zu erfassen, wenn das Werkzeug auf einer Arbeitsfläche 802 betrieben wird und/oder das Befestigungselement 804 in die Arbeitsfläche 802 getrieben wird. Der Klassifikator 514 kann dazu ausgelegt sein, die Angenehmheit solcher Klänge vorherzusagen oder zu klassifizieren. Dadurch kann der Hersteller des Elektrowerkzeugs 800 besser darüber informiert werden, ob das Produkt beim Arbeiten an verschiedenen Oberflächen oder Befestigungselementen angenehme Klänge erzeugt. Dadurch entfällt die Notwendigkeit, dass menschliche Juroren die verschiedenen Werkzeuge bei der Arbeit an verschiedenen Oberflächen oder Befestigungselementen hören müssen, was eine endlose Aufgabe sein könnte. Der Aktuator 504 kann dazu ausgelegt sein, das Elektrowerkzeug 800 so zu steuern, dass die Antriebsfunktion des Elektrowerkzeugs 800 in Abhängigkeit von der vorhergesagten Klangangenehmheit angepasst wird. Beispielsweise kann der Aktuator 504 die Antriebsfunktion unterbrechen, wenn die vorhergesagte Klangangenehmheit darauf hindeutet, dass das Befestigungselement 804 beispielsweise nicht bündig mit der Arbeitsfläche 802 ist. Als weiteres nichteinschränkendes Beispiel kann der Aktuator 504 abhängig von der Härte der Arbeitsfläche 802 ein zusätzliches oder geringeres Drehmoment anlegen.
9 zeigt ein schematisches Diagramm des Steuersystems 502, ausgelegt zum Steuern eines automatisierten persönlichen Assistenten 900. Der Sensor 506 kann ein Mikrofon oder eine Kamera sein, und durch den persönlichen Assistenten 900 erfasste Klänge oder Bilder können (z. B. über drahtlose Signale) an ein System übermittelt werden, das die Angenehmheit der aufgenommenen Bilder oder Klänge gemäß den vorliegenden Lehren vorhersagt.
10 zeigt ein schematisches Diagramm des Steuersystems 502, ausgelegt zum Steuern eines Überwachungssystems 1000. In einer Ausführungsform kann das Überwachungssystem 1000 dazu ausgelegt sein, den Zugang durch eine Tür 1002 basierend auf Bildern, die durch den Sensor 506, z. B. eine Kamera, erfasst werden, physisch zu steuern oder die erfassten Bilder auf einer Anzeige 1004 anzuzeigen. Die Steuerung der Tür 1002 kann beispielsweise basierend auf der vorhergesagten Angenehmheit eines oder mehrerer durch die Kamera erfasster Objekte gewährt oder verweigert werden.
11 zeigt ein schematisches Diagramm des Steuersystems 502, das dazu ausgelegt ist, ein Bildgebungssystem 1100, das Bilder auf einer Anzeige 1102 anzeigt, beispielsweise ein MRT-Gerät, ein Röntgenbildgerät oder ein Ultraschallgerät, zu steuern. Der Sensor 506 kann beispielsweise ein an das Bildgebungssystem angeschlossenes Mikrofon sein, wobei das System die Angenehmheit eines durch das Bildgebungsgerät abgegebenen Klangs vorhersagt. Dies kann beispielsweise zu einem besseren Erlebnis in einer Arztpraxis führen.
Es versteht sich, dass diese Offenbarung zwar den Vergleich von Klangqualitätsmessungen (z. B. Lautstärke, Tonalität, Schärfe), die mit einem Klang assoziiert sind, mit Klangqualitätsmessungen eines anderen Klangs bereitstellt, dies jedoch nicht nur auf Klangmessungen beschränkt sein sollte. Andere nicht klangbezogene Messungen, die dennoch mit dem Klang im Zusammenhang stehen, können mit den hier beschriebenen Modellen und Algorithmen verglichen werden. Anders ausgedrückt muss es sich bei der mit dem Klang assoziierten Messung nicht unbedingt um die Qualitäten des Klangs selbst handeln. Stattdessen kann es sich bei den Messungen um nicht klangbezogene Messungen wie Vibration oder Spannung handeln, da diese Qualitäten auch den von den Personen wahrgenommenen Klang verursachen oder beeinflussen können. Gemessene Vibrationseigenschaften (z. B. unter Verwendung eines Beschleunigungsmessers) und Spannungseigenschaften (z. B. unter Verwendung eines Voltmeters oder digitalen Multimeters) können in die hier beschriebenen Maschinenlernmodelle eingegeben werden, wobei die Maschinenlernmodelle in paarweisen Vergleichen mit einem Klang einer Komponente assoziierte Vibrations- oder Spannungseigenschaften mit mit einem anderen Klang assoziierten Vibrations- oder Spannungseigenschaften vergleichen können. Daher versteht es sich, dass Verweise auf Klangqualitäten auch Nichtklangmessungen (wie Vibration oder Spannung) beinhalten können, bei denen es sich nicht um direkte Klangqualitäten handelt, die aber dennoch mit Klang assoziiert sein können. Ein Beispiel hierfür ist ein Motor. Wenn der Motor mit einer bestimmten Stärke oder Phase vibriert, kann dies mit einem Klang assoziiert sein, der als unangenehm empfunden wird, und die wahrgenommene Angenehmheit dieses Klangs kann sich mit Änderung der Vibrationseigenschaften ändern.
Darüber hinaus versteht es sich, dass die hier bereitgestellten Lehren nicht nur auf Klang beschränkt sind. Neben akustischen Regressionsproblemen lässt sich der vorgestellte Ansatz auch auf andere Arten von Regressionsproblemen anwenden, die auf der Auswertung von Sensordaten basieren. Beispiele hierfür sind die Bestimmung der Fehlerwahrscheinlichkeit eines Produktionsprozesses als Funktion eines gemessenen Stromsignals, Spannungssignals, Vibrationssignals usw. Die vorliegenden Lehren können auf Nichtklangumgebungen angewendet werden, in denen die gesamten vom Menschen wahrgenommenen subjektiven Qualitäten einer Vorrichtung (z. B. visuelle Angenehmheit, Benutzerfreundlichkeit, Bedienbarkeit, Geruch, usw.) vorhergesagt werden können, indem zunächst ein Maschinenlernmodell mit paarweisen Vergleichen ihrer messbaren Qualitäten trainiert wird und dann eine Regressionsaufgabe verwendet wird, die die messbaren Qualitäten der Vorrichtung mit denen vergleicht, die bereits aus dem Training bekannt sind. Im Vergleich zu modernsten Verfahren bietet der vorgestellte Ansatz insbesondere dann Vorteile, wenn nur wenige Trainingsdaten zur Verfügung stehen.
Beispielsweise kann die vorliegende Offenbarung neben der akustischen Optimierung von Produkten auch auf andere Regressionsprobleme angewendet werden, die auf der Auswertung von Sensor- oder Bilddaten basieren. Beispielsweise kann eine Jury beauftragt werden, einem Gesichtsausdruck, der auf einem Foto einer Person zu sehen ist, einen Freundlichkeitswert zuzuweisen. Anschließend können die Modelle mit den Bilddaten trainiert werden (z. B. wie sie von einer Kamera oder einem anderen Bildsensor erfasst und vorverarbeitet wurden), die dem Freundlichkeitswert entsprechen, und die Regressionsaufgaben und paarweisen Vergleiche können mit einem neuen Bild durchgeführt werden, das nicht von einer Jury bewertet wurde. Die vorliegenden Lehren können auch zur Bestimmung der Ausfallwahrscheinlichkeit eines Produktionsprozesses als Funktion eines gemessenen Stromsignals oder aufgezeichneten Klangs oder Bilds, oder zur Bewertung der Seriosität aus der Audioaufzeichnung eines gesprochenen Satzes bereitgestellt werden.
Die hier offenbarten Systeme und Verfahren bieten eine neuartige Möglichkeit, Regressionsaufgaben unter Verwendung von Maschinenlernverfahren zu bewältigen, mit Vorteilen insbesondere in Fällen, in denen die Eingabedaten niedrigdimensional sind und die Menge verfügbarer Trainingsdaten gering ist. Die Systeme und Verfahren können auch zur Detektion von Anomalien verwendet werden, wenn charakteristische niedrigdimensionale Größen (z. B. Ströme, Einpresskräfte, ...) und Anomaliekriterien auf einer kontinuierlichen Skala verfügbar sind. Dies könnte beispielsweise im Herstellungsprozess technischer Komponenten oder Systeme der Fall sein. Im Vergleich zu modernsten Verfahren bietet der vorgestellte Ansatz insbesondere dann Vorteile, wenn nur wenige Trainingsdaten zur Verfügung stehen.
Obgleich oben beispielhafte Ausführungsformen beschrieben sind, ist nicht beabsichtigt, dass diese Ausführungsformen alle möglichen durch die Ansprüche eingeschlossenen Formen beschreiben. Die in der Patentschrift verwendeten Ausdrücke sind Ausdrücke der Beschreibung und nicht der Beschränkung, und es versteht sich, dass verschiedene Änderungen vorgenommen werden können, ohne von der Idee und dem Schutzumfang der Offenbarung abzuweichen. Wie zuvor beschrieben, können die Merkmale verschiedener Ausführungsformen kombiniert werden, um weitere Ausführungsformen der Erfindung zu bilden, die möglicherweise nicht explizit beschrieben oder veranschaulicht sind. Obgleich verschiedene Ausführungsformen als Vorteile bereitstellend oder gegenüber anderen Ausführungsformen oder Implementierungen nach dem Stand der Technik bezüglich einer oder mehrerer erwünschter Charakteristiken bevorzugt beschrieben worden sein können, erkennen Durchschnittsfachleute, dass ein(e) oder mehrere Merkmale oder Charakteristiken beeinträchtigt werden können, um erwünschte Gesamtsystemattribute zu erzielen, die von der speziellen Anwendung und Implementierung abhängen. Zu diesen Attributen können unter anderem Kosten, Festigkeit, Haltbarkeit, Lebenszykluskosten, Vermarktungsfähigkeit, Erscheinungsbild, Verpackung, Größe, Wartbarkeit, Gewicht, Herstellbarkeit, Montagefreundlichkeit usw. gehören. Demnach liegen, wenn Ausführungsformen als bezüglich einer oder mehrerer Charakteristiken weniger wünschenswert als andere Ausführungsformen oder Implementierungen des Stands der Technik beschrieben sind, diese Ausführungsformen nicht außerhalb des Schutzumfangs der Offenbarung und können für bestimmte Anwendungen wünschenswert sein.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

WO 17/977587 [0001]
WO 09718200197 [0001]

Claims

Verfahren zum Vorhersagen einer Angenehmheit eines von einer Vorrichtung abgegebenen Klangs unter Nutzung von maschinellem Lernen, wobei das Verfahren Folgendes umfasst: Empfangen einer Mehrzahl von Angenehmheitsbewertungen von einem oder mehreren menschlichen Juroren, wobei jede Angenehmheitsbewertung einem jeweiligen einer Mehrzahl von durch eine oder mehrere Vorrichtungen abgegebenen Klängen entspricht; Detektieren, über ein Mikrofonsystem, einer Mehrzahl von messbaren Klangqualitäten, wobei jede messbare Klangqualität mit einem jeweiligen der Mehrzahl von Klängen assoziiert ist; Trainieren eines Regressionsvorhersagemodells basierend auf, für jeden jeweiligen Klang, seiner Angenehmheitsbewertung und seiner entsprechenden messbaren Klangqualität, bis durch Konvergenz ein trainiertes Regressionsvorhersagemodell entsteht; Detektieren, über das Mikrofonsystem, einer messbaren Klangqualität eines nicht bewerteten Klangs, wobei der nicht bewertete Klang nicht durch den einen oder die mehreren menschlichen Juroren bewertet wurde; und Ausführen des trainierten Regressionsvorhersagemodells an der messbaren Klangqualität des nicht bewerteten Klangs, um eine Mehrzahl von vorhergesagten Angenehmheitsdifferenzbewertungen zu erhalten, wobei jede vorhergesagte Angenehmheitsdifferenzbewertung einem jeweiligen paarweisen Vergleich zwischen dem nicht bewerteten Klang und einem jeweiligen der Mehrzahl von Klängen entspricht.
Verfahren nach Anspruch 1, wobei die Mehrzahl von messbaren Klangqualitäten Lautstärke und/oder Tonalität und/oder Schärfe beinhaltet.
Verfahren nach Anspruch 1, das ferner Folgendes umfasst: für jeden paarweisen Vergleich, Kombinieren der vorhergesagten Angenehmheitsdifferenzbewertung mit einer jeweiligen der Angenehmheitsbewertungen, um eine jeweilige summierte Bewertung zu erhalten.
Verfahren nach Anspruch 3, das ferner Folgendes umfasst: Ausgeben einer vorhergesagten Gesamtangenehmheitsbewertung des nicht bewerteten Klangs basierend auf einem Mittelwert der summierten Bewertungen.
Verfahren nach Anspruch 3, das ferner Folgendes umfasst: Ausgeben einer vorhergesagten Gesamtangenehmheitsbewertung des nicht bewerteten Klangs basierend auf einem gewichteten Mittelwert der summierten Bewertungen.
Verfahren nach Anspruch 1, das ferner Folgendes umfasst: Bestimmen, durch paarweise Vergleiche, der Differenzen zwischen jeder der Mehrzahl von Angenehmheitsbewertungen und jeder anderen der Mehrzahl von Angenehmheitsbewertungen; wobei beim Trainieren des Regressionsvorhersagemodells die Differenzen als Eingaben verwendet werden.
Verfahren nach Anspruch 1, wobei die Mehrzahl von messbaren Klangqualitäten auf einem zeitlichen Spektrum liegt.
Verfahren nach Anspruch 1, wobei die Mehrzahl von messbaren Klangqualitäten in zweidimensionalen Spektren in das Regressionsvorhersagemodell eingegeben wird.
System zum Vorhersagen einer Angenehmheit eines von einer Vorrichtung abgegebenen Klangs unter Nutzung von maschinellem Lernen, wobei das System Folgendes umfasst: ein Mikrofon, ausgelegt zum Detektieren einer Mehrzahl von durch eine oder mehrere Vorrichtungen abgegebenen Klängen; einen Prozessor, programmiert zum Verarbeiten der Mehrzahl von Klängen; und einen Speicher, der Anweisungen speichert, die bei Ausführung durch den Prozessor bewirken, dass der Prozessor Folgendes durchführt: Empfangen einer Mehrzahl von Angenehmheitsbewertungen von einem oder mehreren menschlichen Juroren, wobei jede Angenehmheitsbewertung einem jeweiligen der Mehrzahl von Klängen entspricht, Detektieren einer Mehrzahl von messbaren Klangqualitäten, wobei jede messbare Klangqualität mit einem jeweiligen der Mehrzahl von durch das Mikrofon detektierten Klängen assoziiert ist, Trainieren eines Regressionsvorhersagemodells basierend auf, für jeden jeweiligen Klang, seiner Angenehmheitsbewertung und seiner entsprechenden messbaren Klangqualität, bis durch Konvergenz ein trainiertes Regressionsvorhersagemodell entsteht, Detektieren einer messbaren Klangqualität eines nicht bewerteten Klangs, wobei der nicht bewertete Klang nicht durch den einen oder die mehreren Juroren bewertet wurde, und Ausführen des trainierten Regressionsvorhersagemodells an der messbaren Klangqualität des nicht bewerteten Klangs, um eine Mehrzahl von vorhergesagten Angenehmheitsdifferenzbewertungen zu erhalten, wobei jede vorhergesagte Angenehmheitsdifferenzbewertung einem jeweiligen paarweisen Vergleich zwischen einem nicht bewerteten Klang und einem jeweiligen der Mehrzahl von Klängen entspricht.
System nach Anspruch 9, wobei die Mehrzahl von messbaren Klangqualitäten Lautstärke und/oder Tonalität und/oder Schärfe beinhaltet.
System nach Anspruch 9, wobei der Speicher weitere Anweisungen beinhaltet, die bei Ausführung durch den Prozessor bewirken, dass der Prozessor Folgendes durchführt: für jeden paarweisen Vergleich, Kombinieren der vorhergesagten Angenehmheitsdifferenzbewertung mit einer jeweiligen der Angenehmheitsbewertungen, um eine jeweilige summierte Bewertung zu erhalten.
System nach Anspruch 11, wobei der Speicher weitere Anweisungen beinhaltet, die bei Ausführung durch den Prozessor bewirken, dass der Prozessor Folgendes durchführt: Ausgeben einer vorhergesagten Gesamtangenehmheitsbewertung des nicht bewerteten Klangs basierend auf einem Mittelwert der summierten Bewertungen.
System nach Anspruch 11, wobei der Speicher weitere Anweisungen beinhaltet, die bei Ausführung durch den Prozessor bewirken, dass der Prozessor Folgendes durchführt: Ausgeben einer vorhergesagten Gesamtangenehmheitsbewertung des nicht bewerteten Klangs basierend auf einem gewichteten Mittelwert der summierten Bewertungen.
System nach Anspruch 9, wobei der Speicher weitere Anweisungen beinhaltet, die bei Ausführung durch den Prozessor bewirken, dass der Prozessor Folgendes durchführt: Bestimmen, durch paarweise Vergleiche, der Differenzen zwischen jeder der Mehrzahl von Angenehmheitsbewertungen und jeder anderen der Mehrzahl von Angenehmheitsbewertungen; wobei beim Trainieren des Regressionsvorhersagemodells die Differenzen als Eingaben verwendet werden.
System nach Anspruch 9, wobei die Mehrzahl von messbaren Klangqualitäten auf einem zeitlichen Spektrum liegt.
System nach Anspruch 9, wobei die Mehrzahl von messbaren Klangqualitäten in zweidimensionalen Spektren in das Regressionsvorhersagemodell eingegeben wird.
Verfahren zum Vorhersagen einer Angenehmheit eines von einer Vorrichtung abgegebenen Klangs unter Nutzung von maschinellem Lernen, wobei das Verfahren Folgendes umfasst: Empfangen einer Mehrzahl von Angenehmheitsbewertungen von einem oder mehreren menschlichen Juroren, wobei jede Angenehmheitsbewertung einem jeweiligen einer Mehrzahl von durch eine oder mehrere Vorrichtungen abgegebenen Klängen entspricht; Detektieren, über ein Mikrofonsystem, einer Mehrzahl von messbaren Klangqualitäten, wobei jede messbare Klangqualität mit einem jeweiligen der Mehrzahl von Klängen assoziiert ist; Detektieren, über das Mikrofonsystem, einer messbaren Klangqualität eines nicht bewerteten Klangs, wobei der nicht bewertete Klang nicht durch den einen oder die mehreren menschlichen Juroren bewertet wurde; Ausführen eines Regressionsvorhersagemodells an der messbaren Klangqualität des nicht bewerteten Klangs, um eine Mehrzahl von vorhergesagten Angenehmheitsdifferenzbewertungen zu erhalten, wobei jede vorhergesagte Angenehmheitsdifferenzbewertung einem jeweiligen paarweisen Vergleich zwischen dem nicht bewerteten Klang und einem jeweiligen der Mehrzahl von Klängen entspricht; für jeden paarweisen Vergleich, Kombinieren der vorhergesagten Angenehmheitsdifferenzbewertung mit einer jeweiligen der Angenehmheitsbewertungen, um eine jeweilige summierte Bewertung zu erhalten; und Ausgeben einer vorhergesagten Gesamtangenehmheitsbewertung des nicht bewerteten Klangs basierend auf einem Mittelwert der summierten Bewertungen.
Verfahren nach Anspruch 17, wobei die Mehrzahl von messbaren Klangqualitäten Lautstärke und/oder Tonalität und/oder Schärfe beinhaltet.
Verfahren nach Anspruch 17, wobei die vorhergesagte Gesamtangenehmheitsbewertung des nicht bewerteten Klangs auf einem gewichteten Mittelwert der summierten Bewertungen basiert.
Verfahren nach Anspruch 17, wobei die Mehrzahl von messbaren Klangqualitäten auf einem zeitlichen Spektrum liegt oder in zweidimensionalen Spektren in das Regressionsvorhersagemodell eingegeben wird.