DE102023209511A1

DE102023209511A1 - System und Verfahren für ein Modell zur Vorhersage der Tonwahrnehmung unter Verwendung von Beschleunigungsmesserdaten

Info

Publication number: DE102023209511A1
Application number: DE102023209511.4A
Authority: DE
Inventors: Dmitry Naumkin; Michael Kuka; Matthias Huber; Thomas Alber; Ivan BATALOV; Felix Schorn; Filipe Cabrita Condessa; Carine Au; Balazs Lipcsik; Florian Lang; Andreas Henke; Martin Boschert
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2022-09-30
Filing date: 2023-09-28
Publication date: 2024-04-04
Also published as: CN117809688A; US20240110825A1

Abstract

Ein System beinhaltet einen Prozessor, wobei der Prozessor programmiert ist zum Empfangen von Toninformationen und Vibrationsdaten von einer Vorrichtung in einer ersten Umgebung, Erzeugen eines Trainingsdatensatzes unter Verwendung zumindest der Vibrationsinformationen und einer Tonwahrnehmungsbewertung, die mit dem entsprechenden Ton der Vibrationsinformationen assoziiert ist, wobei der Trainingsdatensatz in ein untrainiertes maschinelles Lernmodell eingespeist wird, als Reaktion darauf, dass eine Konvergenzschwelle des untrainierten maschinellen Lernmodells erfüllt ist, Ausgeben eines trainierten maschinellen Lernmodells, Empfangen von Echtzeit-Vibrationsinformationen von der Vorrichtung in einer zweiten Umgebung, und basierend auf den Echtzeit-Vibrationsinformationen als eine Eingabe in das trainierte maschinelle Lernmodell, Ausgeben einer Echtzeit-Tonwahrnehmungsbewertung, die Charakteristiken angibt, die mit einem von der Vorrichtung emittierten Ton assoziiert sind.

Description

Technisches Gebiet
Die vorliegende Offenbarung betrifft ein maschinelles Lernnetzwerk, einschließlich eines maschinellen Lernnetzwerks, das mit einer Vorrichtung mit einer elektrischen Antriebsmaschine assoziiert ist.
Hintergrund
Die menschliche Wahrnehmung von Tönen, die durch elektromechanische Systeme (EMS), wie etwa elektrische Antriebe (EDs), Aktoren, Pumpen usw. produziert werden, ist eine wichtige Charakteristik, die die Verwendbarkeit von Produkten, die EMS enthalten, sowie die Produktkaufentscheidungen von Kunden beeinflussen. Normalerweise wird eine Bewertung der menschlichen Wahrnehmung unter Verwendung einer menschlichen Eingabe von Jury-Tests gemessen, bei denen eine ausgewählte Anzahl von Personen aufgefordert wird, die klangliche Angenehmheit wiederholt zu bewerten, oder zu wählen, welcher von 2 Tönen als „besser“ oder angenehmer wahrgenommen wird. Das Durchführen von solchen Jury-Tests ist jedoch kostspielig, da jeder Ton manuell mehrere Male durch mehrere Personen beurteilt werden muss. Eine Alternative für das manuelle Bewerten ist die Entwicklung eines automatisierten Bewertungsmodells, das die Bewertungen der menschlichen Wahrnehmung basierend auf zuvor gesehenen gelabelten Daten vorhersagt. In einigen Fällen, wie etwa End-of-Line(EOL)-Tests in einem Montagewerk, ist jedoch das Aufnehmen von Produkttönen aufgrund unzureichender Aufnahmebedingungen (z. B. laute Hintergrundgeräusche) schwierig. Gegenwärtig bestehen, soweit bekannt, keine Verfahren, die in der Lage sind, die Bewertungen der menschlichen Wahrnehmung in solchen Fällen zu schätzen. Hier wird ein virtueller Erfassungsansatz zur Schätzung der menschlichen Tonwahrnehmung basierend auf Beschleunigungsmesserdaten oder anderen leicht aufgenommenen Modalitäten in EOL-Testumgebungen vorgeschlagen.
Der Großteil von gegenwärtigen virtuellen Erfassungsansätzen ist auf physikbasierte Modelle angewiesen, die umständlich zu entwickeln sind, schwierig für die Verwendung außerhalb des schmalen Bereichs von Systemen anzupassen sind, für die sie konzipiert wurden, und die hinsichtlich der Komplexität von Beziehungen zwischen Sensoren, die sie lernen können, unter jene, die implementiert werden, beschränkt sind. Neuartige Verfahren basierend auf Deep Learning wurden auch für eine Vielfalt von virtuellen Erfassungsanwendungen entwickelt, wie etwa Geräuschtrennung, Verbesserung von rauschbehafteter Sprache und anderes. Diese datengesteuerten Verfahren sind vielseitig einsetzbar und können komplexe Datenbeziehungen lernen. Es wurden jedoch bisher keine derartigen Verfahren entwickelt, um die menschliche Wahrnehmung eines Tons unter Verwendung von Beschleunigungsmesserdaten vorherzusagen.
Kurzdarstellung
Gemäß einer ersten Ausführungsform beinhaltet ein computer-implementiertes Verfahren Empfangen von Toninformationen und Vibrationsdaten von einem oder mehreren Sensoren, die mit einer Vorrichtung assoziiert sind, Erzeugen eines Trainingsdatensatzes unter Verwendung zumindest der Vibrationsinformationen und einer Tonwahrnehmungsbewertung, die mit den Vibrationsinformationen assoziiert ist, wobei der Trainingsdatensatz zu einem untrainierten maschinellen Lernmodell gesendet wird, als Reaktion darauf, dass eine Konvergenzschwelle des untrainierten maschinellen Lernmodells erfüllt ist, Ausgeben eines trainierten maschinellen Lernmodells, Empfangen von Echtzeit-Vibrationsinformationen von der Vorrichtung, und basierend auf dem trainierten maschinellen Lernmodell und den Echtzeit-Vibrationsinformationen, Ausgeben einer Echtzeit-Tonwahrnehmungsbewertung, die Charakteristiken angibt, die mit einem von der Vorrichtung emittierten Ton assoziiert sind.
Gemäß einer zweiten Ausführungsform beinhaltet ein computer-implementiertes Verfahren Empfangen eines ersten Satzes von Toninformationen und eines ersten Satzes von Vibrationsdaten von einer Vorrichtung in einer ersten Umgebung, Erzeugen eines Trainingsdatensatzes unter Verwendung zumindest des ersten Satzes von Vibrationsinformationen und einer assoziierten Tonwahrnehmungsbewertung, wobei der Trainingsdatensatz zu einem untrainierten maschinellen Lernmodell gesendet wird, als Reaktion darauf, dass eine Konvergenzschwelle des untrainierten maschinellen Lernmodells erfüllt ist, Ausgeben eines trainierten maschinellen Lernmodells, Empfangen von Echtzeit-Vibrationsinformationen von der Vorrichtung in einer zweiten Umgebung, und basierend auf dem trainierten maschinellen Lernmodell und den Echtzeit-Vibrationsinformationen, Ausgeben einer Echtzeit-Tonwahrnehmungsbewertung, die Charakteristiken angibt, die mit einem von der Vorrichtung emittierten Ton assoziiert sind.
Gemäß einer dritten Ausführungsform beinhaltet ein System einen Prozessor, wobei der Prozessor programmiert ist zum Empfangen von Toninformationen und Vibrationsdaten von einer Vorrichtung in einer ersten Umgebung, Erzeugen eines Trainingsdatensatzes unter Verwendung zumindest der Vibrationsinformationen und einer Tonwahrnehmungsbewertung, die mit dem entsprechenden Ton der Vibrationsinformationen assoziiert ist, wobei der Trainingsdatensatz in ein untrainiertes maschinelles Lernmodell eingespeist wird, als Reaktion darauf, dass eine Konvergenzschwelle des untrainierten maschinellen Lernmodells erfüllt ist, Ausgeben eines trainierten maschinellen Lernmodells, Empfangen von Echtzeit-Vibrationsinformationen von der Vorrichtung in einer zweiten Umgebung, und basierend auf den Echtzeit-Vibrationsinformationen als eine Eingabe in das trainierte maschinelle Lernmodell, Ausgeben einer Echtzeit-Tonwahrnehmungsbewertung, die Charakteristiken angibt, die mit einem von der Vorrichtung emittierten Ton assoziiert sind.
Kurze Beschreibung der Zeichnungen

1 zeigt ein System 100 zum Trainieren eines neuronalen Netzwerks.
2 stellt ein Datenannotationssystem 200 zum Implementieren eines Systems zum Annotieren von Daten dar.
3 offenbart ein Flussdiagramm einer Ausführungsform, die Toninformationen nutzt, um ein maschinelles Lernmodell zu trainieren.
4A offenbart ein Flussdiagramm, das eine direkte Vorhersage nutzt.
4B offenbart ein Flussdiagramm, das eine indirekte Vorhersage nutzt.
5 stellt ein schematisches Diagramm einer Interaktion zwischen einer computer-gesteuerten Maschine 10 und einem Steuersystem 12 dar.
6 stellt ein schematisches Diagramm des Steuersystems dar, das dazu ausgelegt ist, ein Fahrzeug zu steuern, das ein teilautonomes Fahrzeug oder ein teilautonomer Roboter sein kann.
7 stellt ein schematisches Diagramm des Steuersystems dar, das dazu ausgelegt ist, eine Fertigungsmaschine, wie etwa ein Stanzgerät, ein Schneidemesser oder einen Tieflochbohrer, eines Fertigungssystems, wie etwa ein Teil einer Produktionslinie, zu steuern.
8 stellt ein schematisches Diagramm des Steuersystems dar, das dazu ausgelegt ist, ein Elektrowerkzeug, wie etwa eine elektrische Bohrmaschine oder einen elektrischen Schraubendreher, zu steuern, das einen zumindest teilweise autonomen Modus aufweist.
9 stellt ein schematisches Diagramm des Steuersystems dar, das dazu ausgelegt ist, einen automatisierten persönlichen Assistenten zu steuern.
10 offenbart ein Beispiel für ein Flussdiagramm eines virtuellen Erfassungsmodells in einem Szenario.
11 offenbart ein Diagramm eines Systems, das End-of-Line-Tests in Bezug auf verschiedene Sensordaten überwacht, um eine Vorhersage auszugeben, die eine Drehmomentvorhersage oder Tonvorhersage einschließen kann.
12 offenbart ein Flussdiagramm, das mit einem Vorhersageanalysemodell assoziiert ist.

Ausführliche Beschreibung
Hierin sind Ausführungsformen der vorliegenden Offenbarung beschrieben. Es versteht sich jedoch, dass die offenbarten Ausführungsformen lediglich Beispiele sind und andere Ausführungsformen verschiedene und alternative Formen annehmen können. Die Figuren sind nicht notwendigerweise maßstabsgetreu; manche Merkmale könnten übertrieben oder minimiert sein, um Einzelheiten von bestimmten Komponenten zu zeigen. Daher sollen spezifische, hierin offenbarte strukturelle und funktionelle Einzelheiten nicht als beschränkend interpretiert werden, sondern lediglich als eine repräsentative Basis zum Lehren eines Fachmanns auf dem Gebiet, die Ausführungsformen verschiedenartig einzusetzen. Wie Durchschnittsfachleute auf dem Gebiet verstehen werden, können verschiedene Merkmale, die mit Bezugnahme auf irgendeine der Figuren veranschaulicht und beschrieben sind, mit Merkmalen kombiniert werden, die in einer oder mehreren anderen Figuren veranschaulicht sind, um Ausführungsformen zu erzeugen, die nicht ausdrücklich veranschaulicht oder beschrieben sind. Die Kombinationen von veranschaulichten Merkmalen liefern repräsentative Ausführungsformen für typische Anwendungen. Verschiedene Kombinationen und Modifikationen der Merkmale, die mit den Lehren dieser Offenbarung konsistent sind, könnten jedoch für bestimmte Anwendungen oder Implementierungen gewünscht sein.
Das unten beschriebene System und Verfahren schlägt ein neuartiges virtuelles Erfassungsverfahren basierend auf Deep Learning zum Schätzen der menschlichen Wahrnehmung von Ton, der durch EMS während des Betriebs erzeugt wird, unter Verwendung von Vibrationsdaten (d. h. Beschleunigungsmesserdaten) vor. Das Modell wird an gepaarten, im Labor aufgenommenen Beschleunigungsmesser- und Mikrofondaten sowie Bewertungen der menschlichen Wahrnehmung, die für die Mikrofondaten erfasst werden, trainiert. Das Modell kann trainiert werden, um entweder eine Wahrnehmungsbewertung aus den Beschleunigungsmesserdaten direkt vorherzusagen oder das Motorgeräusch vorherzusagen, das dann in ein anderes Deep-Learning-Modell eingegeben wird, das die Wahrnehmungsbewertung vom Ton vorhersagt. Während der erstgenannte Ansatz leichter zu implementieren ist, weist der letztgenannte mehrere wichtige Vorteile auf:
Er kann angepasst werden, um in unterschiedlichen End-of-Line(EOL)-Testkonfigurationen mit unterschiedlichen Positionierungen des Beschleunigungsmessers oder mit einem anderen getesteten Produkt verwendet zu werden, ohne die Notwendigkeit, die Bewertungen der menschlichen Wahrnehmung für die neue Konfiguration manuell zu messen. Dies wird durch das Wiederverwenden des vortrainierten Modells der menschlichen Wahrnehmung und das Neutrainieren von nur dem Tonwahrnehmungsmodell unter Verwendung von im Labor aufgenommenen Sensordaten, die die neue EOL-Konfiguration replizieren, durchgeführt. Es muss eine vergleichsweise kleinere Menge an Sensordaten gesammelt werden, um das bestehende Modell auf die neue EOL-Konfiguration anzupassen, da nur das Tonwahrnehmungsmodell neu trainiert werden muss.
Bei diesem Ansatz kann das Tonwahrnehmungsmodell trainiert werden, um sowohl den Tonrekonstruktionsfehler als auch den Fehler der Bewertung der menschlichen Wahrnehmung auf eine Ende-zu-Ende-Weise zu minimieren, was die Modellleistungsfähigkeit im Vergleich zu dem direkten Ansatz verbessern kann. Der vorgeschlagene Ansatz ist auf gegenwärtig bestehende tiefe maschinelle Lernarchitekturen angewiesen, wie etwa U-Net und Transformer, um die Beziehung zwischen unterschiedlichen Sensorsignalen zu lernen. Diese Modelle können bei einer breiten Vielfalt von Aufgaben angewendet werden, einschließlich der Verarbeitung natürlicher Sprache, Computervision, Audioverarbeitung, Signalverarbeitung und anderes.
Die virtuelle Erfassung beruht auf der Annahme, dass das Quellsignal Informationen über das Zielsignal enthält, d. h. die gegenseitigen Informationen zwischen dem Quell- und Zielsignal sind positiv: $I (S, T) = H (T) - H (T | S) = D_{K L} (p (S, T) ‖ p (S) * p (T)) > 0$
Wobei H(T) die Entropie des Zielsignals ist, H(T|S) die Entropie des Zielsignals, konditioniert auf das Quellsignal ist, und D_KL(p(S,T)∥p(S)*p(T)) die Kullback-Leibler-Divergenz zwischen der gemeinsamen Verteilung und dem Produkt von Randsignalverteilungen ist. Falls I(S,T) > 0, dann ist es möglich, das erwartete Zielsignal durch die Beobachtung des Quellsignals zu schätzen. Da Ton, der durch ein Motor-Getriebe-System erzeugt wird, von Motor- sowie Getriebevibrationen ausgeht, führen die Vibrationsdaten nützliche Informationen, die für die Schätzung des Tons und der menschlichen Tonwahrnehmung genutzt werden können. Da die Beziehung zwischen dem Beschleunigungsmesser und dem Tonsignal jedoch komplex und umgebungsabhängig sein kann, ist das Finden einer solchen Beziehung nicht trivial. Hier wird die Darstellungskraft tiefer neuronaler Netzwerke ausgenutzt, um das erwartete Zielsignal zu schätzen:
$E (T | S) = f (S)$
wobei f die Transferfunktion ist, die durch das neuronale Netzwerk basierend auf den verfügbaren Trainingsdaten gelernt wird.
Die EOL-Testkonfiguration kann in der geräuschfreien Laborumgebung mit einem Zusatz eines Mikrofons, oder einer beliebigen anderen Tonerfassungsvorrichtung, repliziert werden. Gepaarte Sensordaten (z. B. Beschleunigungsmesser- und Mikrofondaten) können für einen ausgewählten Satz von Produkten gesammelt werden, um als die Trainingsdaten für das virtuelle Erfassungsmodell zu dienen. Die Töne können durch menschliche Beurteiler bewertet werden, um Wahrnehmungsbewertungen zu erzeugen.
Ein tiefes neuronales Netzwerk kann trainiert werden, um die Bewertung der menschlichen Wahrnehmung mittels zwei unterschiedlicher Verfahren vorherzusagen. In einem direkten Verfahren kann das Netzwerk trainiert werden, um Bewertungen der menschlichen Wahrnehmung direkt aus den Beschleunigungsdaten durch das Minimieren des Bewertungsvorhersagefehlers vorherzusagen.
In einem indirekten Verfahren kann ein neuronales Netzwerk trainiert werden, um die Bewertung der menschlichen Wahrnehmung von einem Ton eines anderen neuronalen Netzwerks vorherzusagen, das trainiert ist, um gemessenen Ton aus den Beschleunigungsdaten vorherzusagen. Der vorhergesagte Ton kann in das Bewertungsvorhersagenetzwerk eingegeben werden, um eine Bewertung der menschlichen Wahrnehmung für das Sample während des Trainings des Tonvorhersagenetzwerks zu erzeugen, wobei die Gewichte des Bewertungsvorhersagenetzwerks eingefroren sind, und die Gewichte des Tonvorhersagenetzwerks trainiert werden, um eine gewichtete Summe von Ton- und Bewertungsvorhersagefehlern zu minimieren.
Das trainierte neuronale Netzwerk kann bei den EOL-Tests eingesetzt werden, um die Bewertung der menschlichen Wahrnehmung zu schätzen. Zusätzlich kann das mittels des indirekten Verfahrens (d. h. mit den Ton- und Bewertungsvorhersagenetzwerken) trainierte Modell auf eine andere EOL-Konfiguration unter Verwendung der folgenden Prozedur angepasst werden:
Die EOL-Testkonfiguration kann in der geräuschfreien Laborumgebung mit einem Zusatz eines Mikrofons repliziert werden. Beschleunigungsmesser- und Mikrofondaten werden für einen ausgewählten Satz von Testvorrichtungen gesammelt, um als die Trainingsdaten für das virtuelle Erfassungsmodell zu dienen. Die Bewertungen der menschlichen Wahrnehmung für die Mikrofondaten werden unter Verwendung des Bewertungsvorhersagenetzwerks geschätzt, das für die vorherige EOL-Konfiguration trainiert wurde. Ein tiefes neuronales Netzwerk kann trainiert werden, um den Testvorrichtungston durch eine gemeinsame Optimierung des Tonrekonstruktionsfehlers und des Fehlers zwischen der Bewertung, die mittels des ursprünglichen neuronalen Bewertungsvorhersagenetzwerks unter Verwendung des rekonstruierten Tons vorhergesagt wird, und der Bewertung, die unter Verwendung des aufgenommenen Tons vorhergesagt wird, auf eine Ende-zu-Ende-Weise vorherzusagen.
1 zeigt ein System 100 zum Trainieren eines neuronalen Netzwerks. Das System 100 kann eine Eingangsschnittstelle zum Zugreifen auf Trainingsdaten 192 für das neuronale Netzwerk umfassen. Beispielsweise, wie in 1 veranschaulicht, kann die Eingangsschnittstelle aus einer Datenspeicherungsschnittstelle 180 bestehen, die auf die Trainingsdaten 192 aus einer Datenspeicherung 190 zugreifen kann. Beispielsweise kann die Datenspeicherungsschnittstelle 180 eine Speicherschnittstelle oder eine persistente Speicherungsschnittstelle sein, z. B. eine Festplatte oder eine SSD-Schnittstelle, aber auch eine Schnittstelle eines persönlichen, lokalen oder weitflächigen Netzwerks, wie etwa eine Bluetooth-, Zigbee- oder WiFi-Schnittstelle oder eine Ethernet- oder Faseroptik-Schnittstelle. Die Datenspeicherung 190 kann eine interne Datenspeicherung des Systems 100 sein, wie etwa eine Festplatte oder SSD, aber auch eine externe Datenspeicherung, z. B. eine netzwerkzugängliche Datenspeicherung.
In einigen Ausführungsformen kann die Datenspeicherung 190 ferner eine Datenrepräsentation 194 einer untrainierten Version des neuronalen Netzwerks umfassen, auf die das System 100 von der Datenspeicherung 190 zugreifen kann. Es versteht sich jedoch, dass auf die Trainingsdaten 192 und die Datenrepräsentation 194 des untrainierten neuronalen Netzwerks auch von einer anderen Datenspeicherung zugegriffen werden kann, z. B. über ein anderes Untersystem der Datenspeicherungsschnittstelle 180. Jedes Untersystem kann einen Typ aufweisen, wie oben für die Datenspeicherungsschnittstelle 180 beschrieben. In anderen Ausführungsformen kann die Datenrepräsentation 194 des untrainierten neuronalen Netzwerks intern durch das System 100 auf Basis von Designparametern für das neuronale Netzwerk erzeugt werden, und ist daher möglicherweise nicht explizit in der Datenspeicherung 190 gespeichert. Das System 100 kann ferner ein Prozessoruntersystem 160 umfassen, das dazu ausgelegt sein kann, während des Betriebs des Systems 100 eine iterative Funktion als einen Ersatz für einen Stapel von Schichten des zu trainierenden neuronalen Netzwerks bereitzustellen. In einer Ausführungsform können jeweilige Schichten des Stapels von Schichten, die ersetzt werden, gegenseitig geteilte Gewichtungen aufweisen und können als Eingabe eine Ausgabe einer vorherigen Schicht oder, für eine erste Schicht des Stapels von Schichten, eine anfängliche Aktivierung, und einen Teil der Eingabe des Stapels von Schichten empfangen. Das System kann auch mehrere Schichten einschließen. Das Prozessoruntersystem 160 kann ferner dazu ausgelegt sein, das neuronale Netzwerk unter Verwendung der Trainingsdaten 192 iterativ zu trainieren. Hier kann eine Iteration des Trainings durch das Prozessoruntersystem 160 einen Vorwärtspropagationsteil und einen Rückwärtspropagationsteil umfassen. Das Prozessoruntersystem 160 kann dazu ausgelegt sein, den Vorwärtspropagationsteil durchzuführen durch, unter anderen Operationen, die den Vorwärtspropagationsteil definieren, der durchgeführt werden kann, Bestimmen eines Gleichgewichtspunktes der iterativen Funktion, an dem die iterative Funktion zu einem festen Punkt konvergiert, wobei das Bestimmen des Gleichgewichtspunktes Verwenden eines numerischen Wurzelfindungsalgorithmus umfasst, um eine Wurzellösung für die iterative Funktion minus ihrer Eingabe zu finden, und durch Bereitstellen des Gleichgewichtspunktes als einen Ersatz für eine Ausgabe des Stapels von Schichten in dem neuronalen Netzwerk. Das System 100 kann ferner eine Ausgangsschnittstelle zum Ausgeben einer Datenrepräsentation 196 des trainierten neuronalen Netzwerks umfassen, diese Daten können auch als trainierte Modelldaten 196 bezeichnet werden. Beispielsweise, wie auch in 1 veranschaulicht, kann die Ausgangsschnittstelle aus der Datenspeicherungsschnittstelle 180 bestehen, wobei die Schnittstelle in diesen Ausführungsformen eine Eingabe/Ausgabe(„EA“)-Schnittstelle ist, über die die trainierten Modelldaten 196 in der Datenspeicherung 190 gespeichert werden können. Beispielsweise kann die Datenrepräsentation 194, die das ,untrainierte` neuronale Netzwerk definiert, während oder nach dem Training zumindest teilweise durch die Datenrepräsentation 196 des trainierten neuronalen Netzwerks ersetzt werden, in dem Sinne, dass die Parameter des neuronalen Netzwerks, wie etwa Gewichtungen, Hyperparameter und andere Arten von Parametern neuronaler Netzwerke, angepasst werden können, um das Training an den Trainingsdaten 192 widerzuspiegeln. Dies ist auch in 1 durch die Bezugsziffern 194, 196 veranschaulicht, die sich auf den gleichen Datensatz in der Datenspeicherung 190 beziehen. In anderen Ausführungsformen kann die Datenrepräsentation 196 separat von der Datenrepräsentation 194, die das ,untrainierte' neuronale Netzwerk definiert, gespeichert sein. In einigen Ausführungsformen kann die Ausgangsschnittstelle separat von der Datenspeicherungsschnittstelle 180 sein, aber kann im Allgemeinen einen Typ aufweisen, wie oben für die Datenspeicherungsschnittstelle 180 beschrieben.
2 stellt ein Datenannotationssystem 200 zum Implementieren eines Systems zum Annotieren von Daten dar. Das Datenannotationssystem 200 kann mindestens ein Rechensystem 202 beinhalten. Das Rechensystem 202 kann mindestens einen Prozessor 204 beinhalten, der operativ mit einer Speichereinheit 208 verbunden ist. Der Prozessor 204 kann eine oder mehrere integrierte Schaltungen beinhalten, die die Funktionalität einer Zentralverarbeitungseinheit (CPU) 206 implementieren. Die CPU 206 kann eine kommerziell erhältliche Verarbeitungseinheit sein, die einen Befehlssatz wie etwa einen der x86-, ARM-, Power- oder MIPS-Befehlssatzfamilien implementiert. Während des Betriebs kann die CPU 206 gespeicherte Programmanweisungen ausführen, die aus der Speichereinheit 208 abgerufen werden. Die gespeicherten Programmanweisungen können Software beinhalten, die den Betrieb der CPU 206 zum Durchführen des hierin beschriebenen Betriebs steuert. In einigen Beispielen kann der Prozessor 204 ein System-on-Chip (SoC) sein, das die Funktionalität der CPU 206, der Speichereinheit 208, einer Netzwerkschnittstelle und von Eingabe/Ausgabe-Schnittstellen in eine einzige integrierte Vorrichtung integriert. Das Rechensystem 202 kann ein Betriebssystem zum Verwalten verschiedener Aspekte des Betriebs implementieren.
Die Speichereinheit 208 kann flüchtigen Speicher und nichtflüchtigen Speicher zum Speichern von Anweisungen und Daten beinhalten. Der nichtflüchtige Speicher kann Solid-State-Speicher, wie etwa NAND-Flash-Speicher, magnetische und optische Speicherungsmedien oder eine beliebige andere geeignete Datenspeicherungsvorrichtung beinhalten, die Daten hält, wenn das Rechensystem 202 deaktiviert wird oder Strom verliert. Der flüchtige Speicher kann statischen und dynamischen Direktzugriffsspeicher (RAM) beinhalten, der Programmanweisungen und Daten speichert. Beispielsweise kann die Speichereinheit 208 ein Maschinenlernmodell 210 oder einen Maschinenlernalgorithmus, einen Trainingsdatensatz 212 für das Maschinenlernmodell 210, einen Rohquellendatensatz 215 speichern.
Das Rechensystem 202 kann eine Netzwerkschnittstellenvorrichtung 222 beinhalten, die dazu ausgelegt ist, eine Kommunikation mit externen Systemen und Vorrichtungen bereitzustellen. Beispielsweise kann die Netzwerkschnittstellenvorrichtung 222 eine drahtgebundene und/oder drahtlose Ethernet-Schnittstelle beinhalten, wie durch die IEEE (Institute of Electrical and Electronics Engineers) 802.11-Familie von Standards definiert. Die Netzwerkschnittstellenvorrichtung 222 kann eine Zellularkommunikationsschnittstelle zum Kommunizieren mit einem zellularen Netz (z. B. 3G, 4G, 5G) beinhalten. Die Netzwerkschnittstellenvorrichtung 222 kann ferner dazu ausgelegt sein, eine Kommunikationsschnittstelle zu einem externen Netzwerk 224 oder der Cloud bereitzustellen.
Das externe Netzwerk 224 kann als das World-Wide Web oder das Internet bezeichnet werden. Das externe Netzwerk 224 kann ein Standardkommunikationsprotokoll zwischen Rechenvorrichtungen erstellen. Das externe Netzwerk 224 kann ermöglichen, dass Informationen und Daten leicht zwischen Rechenvorrichtungen und Netzwerken ausgetauscht werden. Ein oder mehrere Server 230 können in Kommunikation mit dem externen Netzwerk 224 stehen.
Das Rechensystem 202 kann eine Eingabe/Ausgabe(E/A)-Schnittstelle 220 beinhalten, die dazu ausgelegt sein kann, digitale und/oder analoge Eingaben und Ausgaben bereitzustellen. Die E/A-Schnittstelle 220 kann zusätzliche serielle Schnittstellen zum Kommunizieren mit externen Vorrichtungen beinhalten (z. B. USB(Universal Serial Bus)-Schnittstelle).
Das Rechensystem 202 kann eine Mensch-Maschine-Schnittstelle(HMI)-Vorrichtung 218 beinhalten, die eine beliebige Vorrichtung beinhalten kann, die dem System 200 ermöglicht, eine Steuereingabe zu empfangen. Beispiele für Eingabevorrichtungen können Eingaben mit einer menschlichen Schnittstelle wie etwa Tastaturen, Mäuse, Touchscreens, Spracheingabevorrichtungen und andere ähnliche Vorrichtungen beinhalten. Das Rechensystem 202 kann eine Anzeigevorrichtung 232 beinhalten. Das Rechensystem 202 kann Hardware und Software zum Ausgeben von Grafiken und Textinformationen an die Anzeigevorrichtung 232 beinhalten. Die Anzeigevorrichtung 232 kann einen elektronischen Anzeigebildschirm, einen Projektor, einen Drucker oder eine andere geeignete Vorrichtung zum Anzeigen von Informationen für einen Benutzer oder Bediener beinhalten. Das Rechensystem 202 kann ferner dazu ausgelegt sein, eine Interaktion mit einer entfernten HMI und entfernten Anzeigevorrichtungen über die Netzwerkschnittstellenvorrichtung 222 zu ermöglichen.
Das System 200 kann unter Verwendung eines oder mehrerer Rechensysteme implementiert werden. Obwohl das Beispiel ein einzelnes Rechensystem 202 darstellt, das alle der beschriebenen Merkmale implementiert, wird beabsichtigt, dass verschiedene Merkmale und Funktionen getrennt sein und durch mehrere Recheneinheiten, die in Kommunikation miteinander stehen, implementiert werden können. Die bestimmte ausgewählte Systemarchitektur kann von einer Vielfalt von Faktoren abhängen.
Das System 200 kann einen Maschinenlernalgorithmus 210 implementieren, der dazu ausgelegt ist, den Rohquellendatensatz 215 zu analysieren. Der Rohquellendatensatz 215 kann rohe oder nicht verarbeitete Sensordaten beinhalten, die einen Eingangsdatensatz für ein Maschinenlernsystem repräsentieren können. Der Rohquellendatensatz 215 kann Video, Videosegmente, Bilder, textbasierte Informationen und rohe oder teilweise verarbeitete Sensordaten (z. B. Radar-Karte von Objekten) beinhalten. In einigen Beispielen kann der Maschinenlernalgorithmus 210 ein Neuronalnetzwerkalgorithmus sein, der dazu ausgebildet ist, eine vorbestimmte Funktion durchzuführen. Beispielsweise kann der Neuronalnetzwerkalgorithmus in Kraftfahrzeuganwendungen dazu ausgelegt sein, Fußgänger in Videobildern zu identifizieren.
Das Computersystem 200 kann einen Trainingsdatensatz 212 für den Maschinenlernalgorithmus 210 speichern. Der Trainingsdatensatz 212 kann einen Satz von zuvor konstruierten Daten zum Trainieren des Maschinenlernalgorithmus 210 repräsentieren. Der Trainingsdatensatz 212 kann durch den Maschinenlernalgorithmus 210 verwendet werden, um Gewichtungsfaktoren zu lernen, die mit einem Neuronalnetzwerkalgorithmus assoziiert sind. Der Trainingsdatensatz 212 kann einen Satz von Quelldaten beinhalten, die entsprechende Resultate oder Ergebnisse aufweisen, die der Maschinenlernalgorithmus 210 versucht, über den Lernprozess zu duplizieren. In diesem Beispiel kann der Trainingsdatensatz 212 Quellvideos mit und ohne Fußgänger und entsprechende Vorhandensein- und Standortinformationen beinhalten. Die Quellvideos können verschiedene Szenarien beinhalten, bei denen Fußgänger identifiziert werden.
Der Maschinenlernalgorithmus 210 kann in einem Lernmodus unter Verwendung des Trainingsdatensatzes 212 als Eingabe betrieben werden. Der Maschinenlernalgorithmus 210 kann über eine Anzahl von Iterationen unter Verwendung der Daten aus dem Trainingsdatensatz 212 ausgeführt werden. Mit jeder Iteration kann der Maschinenlernalgorithmus 210 interne Gewichtungsfaktoren basierend auf den erreichten Ergebnissen aktualisieren. Beispielsweise kann der Maschinenlernalgorithmus 210 Ausgabeergebnisse (z. B. Annotationen) mit jenen vergleichen, die im Trainingsdatensatz 212 enthalten sind. Da der Trainingsdatensatz 212 die erwarteten Ergebnisse beinhaltet, kann der Maschinenlernalgorithmus 210 bestimmen, wann die Leistungsfähigkeit akzeptabel ist. Nachdem der Maschinenlernalgorithmus 210 ein vorbestimmtes Leistungsfähigkeitsniveau erreicht (z. B. 100 % Übereinstimmung mit den Resultaten, die mit dem Trainingsdatensatz 212 assoziiert sind), kann der Maschinenlernalgorithmus 210 unter Verwendung von Daten ausgeführt werden, die nicht im Trainingsdatensatz 212 vorhanden sind. Der trainierte Maschinenlernalgorithmus 210 kann auf neue Datensätze angewendet werden, um annotierte Daten zu erzeugen.
Der Maschinenlernalgorithmus 210 kann dazu ausgelegt sein, ein bestimmtes Merkmal in den Rohquellendaten 215 zu identifizieren. Die Rohquellendaten 215 können eine Mehrzahl von Instanzen oder einen Eingangsdatensatz beinhalten, für die/den Annotationsergebnisse gewünscht werden. Beispielsweise kann der Maschinenlernalgorithmus 210 dazu ausgelegt sein, das Vorhandensein eines Fußgängers in Videobildern zu identifizieren und die Vorkommnisse zu annotieren. Der Maschinenlernalgorithmus 210 kann programmiert sein, die Rohquellendaten 215 zu verarbeiten, um das Vorhandensein der bestimmten Merkmale zu identifizieren. Der Maschinenlernalgorithmus 210 kann dazu ausgelegt sein, ein Merkmal in den Rohquellendaten 215 als ein vorbestimmtes Merkmal (z. B. Fußgänger) zu identifizieren. Die Rohquellendaten 215 können aus einer Vielfalt von Quellen abgeleitet werden. Beispielsweise können die Rohquellendaten 215 tatsächliche Eingangsdaten sein, die durch ein Maschinenlernsystem gesammelt werden. Die Rohquellendaten 215 können zum Testen des Systems maschinell erzeugt sein. Als ein Beispiel können die Rohquellendaten 215 rohe Videobilder von einer Kamera beinhalten.
In dem Beispiel kann der Maschinenlernalgorithmus 210 die Rohquellendaten 215 verarbeiten und eine Indikation einer Repräsentation eines Bildes ausgeben. Die Ausgabe kann auch eine augmentierte Repräsentation des Bildes beinhalten. Ein Maschinenlernalgorithmus 210 kann ein Konfidenzniveau oder einen Konfidenzfaktor für jede erzeugte Ausgabe erzeugen. Beispielsweise kann ein Konfidenzwert, der eine vorbestimmte Hochkonfidenzschwelle überschreitet, angeben, dass der Maschinenlernalgorithmus 210 sicher ist, dass das identifizierte Merkmal dem bestimmten Merkmal entspricht. Ein Konfidenzwert, der kleiner als eine Niedrigkonfidenzschwelle ist, kann angeben, dass der Maschinenlernalgorithmus 210 etwas ungewiss ist, dass das bestimmte Merkmal vorhanden ist.
3 offenbart ein Flussdiagramm einer Ausführungsform, die Toninformationen nutzt, um ein maschinelles Lernmodell zu trainieren. Die elektronische Vorrichtung kann eine beliebige Art von Vorrichtung sein. Beispielsweise kann die elektronische Vorrichtung ein Fahrzeug, ein Elektrowerkzeug oder eine beliebige Art von Vorrichtung sein, die einen Ton von einem elektrischen Antrieb emittiert. Der elektrische Antrieb kann in einer Ausführungsform entweder ein ACT-Motorantrieb oder DC-Motorantrieb sein. Beispielsweise kann ein AC-Antrieb eine Vorrichtung sein, die zum Steuern der Drehzahl eines Elektromotors wie etwa eines Dreiphasen-Induktionsmotors durch das Ändern der Frequenz der elektrischen Versorgung zu dem Motor verwendet wird. Der AC-Antrieb kann auch Antrieb mit variabler Frequenz (VFD) oder Antrieb mit variabler Drehzahl (VSD) genannt werden. Der DC-Motorantrieb kann ein Drehzahlsteuersystem eines DC-Elektromotors sein, das den Motor mit Spannung versorgt, um ihn mit der gewünschten Drehzahl zu betreiben. DC-Antriebe können auch als analoge DC-Antriebe und digitale DC-Antriebe klassifiziert werden.
Der elektrische Antrieb 301 kann einen oder mehrere Sensoren einschließen, die Ton emittieren. Der elektrische Antrieb 301 kann einen Prozessor, eine Steuerung oder eine elektronische Steuereinheit 303 einschließen. Beispielsweise kann der Sensor einen Beschleunigungsmesser 305 einschließen. Der Ton 307 kann vom elektrischen Antrieb (EDs) emittiert und von einem Mikrofon 313 aufgenommen werden. Um die Daten zu trainieren, kann der Ton in einem Laborumfeld emittiert und genutzt werden. Somit können die Trainingsdaten 311 von einem Laborumfeld genutzt werden. Das Labor kann eine geräuschfreie Umgebung mit einem Mikrofon 313 zum Erfassen des Tons beinhalten. Mit den Trainingsdaten 311 können Bewertungen der menschlichen Wahrnehmung aus den Mikrofondaten unter Verwendung eines Bewertungsvorhersagenetzwerks geschätzt werden.
Die Toninformationen 307 können durch einen Menschen manuell bestimmt werden 309, um eine Bewertung 315 in einem Aspekt abzuleiten. Beispielsweise können der Mensch oder die Menschen die Toninformationen, die mit verschiedenen Konfigurationen der elektrischen Vorrichtung assoziiert sind, hören und ihnen eine Wahrnehmungsbewertung zuordnen. Die Wahrnehmungsbewertung kann in anderen Ausführungsformen auch automatisch programmiert werden. Beispielsweise kann das System verschiedene Charakteristiken der Töne nutzen (z. B. Dezibelpegel, Tonfrequenz, Häufigkeit uncharakteristischer Töne usw.), um eine Tonwahrnehmungsbewertung 319 zuzuordnen. Ein hybrider Ansatz, der beides verwendet, kann genutzt werden. Die Bewertungen können jedoch in das maschinelle Lernmodell eingespeist werden, das genutzt werden kann, um Ton von anderen Tests zu trainieren.
Das maschinelle Lernnetzwerk kann die Trainingsdaten nutzen, um das maschinelle Lernnetzwerk zu trainieren, den von den EDs emittierten Ton zu identifizieren. Die Trainingsdaten können zumindest die darin genutzten Beschleunigungsmesserdaten einschließen. Die Beschleunigungsmesserdaten können Informationen über mehrere Achsen einschließen, einschließlich Informationen der x-Achse, y-Achse und z-Achse. Das maschinelle Lernmodell kann das Modell unter Verwendung eines direkten Verfahrens oder eines indirekten Verfahrens trainieren. Das direkte Verfahren und indirekte Verfahren werden ausführlicher unten in 4A bzw. 4B besprochen. In einigen Ausführungsformen kann eine Kombination von beiden Verfahren zum Trainieren des maschinellen Lernmodells genutzt werden.
Als Nächstes kann das System dann in einer End-of-Line-Testumgebung betrieben werden. Aufgrund dessen, dass die EOL-Umgebung geräuschintensiv ist, stehen die Toninformationen möglicherweise nicht zur Verfügung. Das System kann die Echtzeit-Vibrationsdaten (z. B. Beschleunigungsmesserdaten) in der EOL-Umgebung nutzen. Selbst wenn somit Toninformationen in bestimmten Umgebungen nicht verfügbar sind, kann sich das trainierte maschinelle Lernmodell auf die Vibrationsdaten von der Vorrichtung stützen, um eine Wahrnehmungsbewertung in Bezug auf den Ton der verschiedenen Komponenten der Vorrichtung zu identifizieren. Das System kann dann eine Wahrnehmungsbewertung, die mit der EOL-Vorrichtung assoziiert ist, unter Verwendung der Vibrationsdaten ausgeben. Basierend auf der Wahrnehmungsbewertung kann das System bestimmen, ob das
Das oben beschriebene Verfahren wird die Notwendigkeit eliminieren, die Bewertungen der menschlichen Wahrnehmung unter Verwendung von Jury-Tests zu evaluieren. Ferner werden möglicherweise weniger Daten im Vergleich zu einem üblichen Modell benötigt.
4A offenbart ein Flussdiagramm, das eine direkte Vorhersage 401 nutzt. Das direkte Vorhersageverfahren 401 kann genutzt werden, um das maschinelle Lernmodell zu trainieren. Das maschinelle Lernmodell kann anhand einer Konvergenzschwelle trainiert werden. Das maschinelle Lernmodellnetzwerk kann trainiert werden, um eine Bewertung 407 der menschlichen Wahrnehmung direkt aus den Beschleunigungsdaten 403 durch das Minimieren des Bewertungsvorhersagefehlers vorherzusagen. Die Beschleunigungsmesserdaten 403 können von den End-of-Line-Tests oder einem beliebigen anderen Typ von Umgebung erhalten und in ein neuronales Netzwerk 405 eingespeist werden. Somit kann das System beim Erreichen einer Schwelle eines bestimmten Bewertungsvorhersagefehlers ein trainiertes Modell ausgeben. Das trainierte Modell kann bei einer End-of-Line-Umgebung oder einer beliebigen anderen Art von Umgebungsumfeld eingesetzt werden.
4B offenbart ein Flussdiagramm, das eine indirekte Vorhersage 450 nutzt. Das indirekte Verfahren kann ein oder mehrere neuronale Netzwerke 453, 457 einschließen. Das neuronale Netzwerk 453 kann trainiert werden, um einen gemessenen Ton aus den Beschleunigungsmesserdaten vorherzusagen. Ein anderes neuronales Netzwerk 457 kann trainiert werden, um eine Bewertung 461 der menschlichen Wahrnehmung aus Toninformationen/-daten vorherzusagen. Das zweite neuronale Netzwerk 457 kann eine mit dem Ton assoziierte Projektion 459 ausgeben. Die Projektion 459 kann genutzt werden, um eine Wahrnehmungsbewertung 461 zu identifizieren. Der vorhergesagte Ton 461 kann zu einem Bewertungsvorhersagenetzwerk gesendet werden. Das Bewertungsvorhersagenetzwerk kann eine Bewertung der menschlichen Wahrnehmung aus dem Sample erzeugen. Die Bewertung 461 der menschlichen Wahrnehmung kann verschiedene Charakteristiken des Tons 455 widerspiegeln, wie etwa ob der Ton angenehm, unangenehm, hoch, tief usw. ist oder nicht. Während des Trainings des Tonvorhersagenetzwerks können die Gewichte des Bewertungsvorhersagenetzwerks eingefroren sein, und die Gewichte des Tonvorhersagenetzwerks werden trainiert, um eine gewichtete Summe von Ton- und Bewertungsvorhersagefehlern zu minimieren. Nach der Annäherung oder dem Erreichen einer Konvergenzschwelle kann das System ein trainiertes Netzwerk ausgeben, und das trainierte Netzwerk kann eingesetzt werden.
5 stellt ein schematisches Diagramm einer Interaktion zwischen einer computer-gesteuerten Maschine 10 und einem Steuersystem 12 dar. Die computer-gesteuerte Maschine 10 kann ein oben beschriebenes neuronales Netzwerk einschließen, wie etwa ein Netzwerk, das ein Bewertungsvorhersagenetzwerk einschließt. Die computer-gesteuerte Maschine 10 beinhaltet einen Aktor 14 und einen Sensor 16. Der Aktor 14 kann einen oder mehrere Aktoren beinhalten und der Sensor 16 kann einen oder mehrere Sensoren beinhalten. Der Sensor 16 ist dazu ausgelegt, einen Zustand der computer-gesteuerten Maschine 10 zu erfassen. Der Sensor 16 kann dazu ausgelegt sein, den erfassten Zustand in Sensorsignale 18 zu codieren und die Sensorsignale 18 zu einem Steuersystem 12 zu übertragen. Nicht beschränkende Beispiele des Sensors 16 beinhalten Video-, Radar-, LiDAR-, Ultraschall- und Bewegungssensoren. In einer Ausführungsform ist der Sensor 16 ein optischer Sensor, der dazu ausgelegt ist, optische Bilder einer Umgebung in der Nähe der computer-gesteuerten Maschine 10 zu erfassen.
Das Steuersystem 12 ist dazu ausgelegt, die Sensorsignale 18 von der computer-gesteuerten Maschine 10 zu empfangen. Wie nachfolgend dargelegt, kann das Steuersystem 12 ferner dazu ausgelegt sein, Aktorsteuerbefehle 20 in Abhängigkeit von den Sensorsignalen zu berechnen und die Aktorsteuerbefehle 20 zu dem Aktor 14 der computer-gesteuerten Maschine 10 zu übertragen.
Wie in 5 gezeigt, beinhaltet das Steuersystem 12 eine Empfangseinheit 22. Die Empfangseinheit 22 kann dazu ausgelegt sein, die Sensorsignale 18 vom Sensor 16 zu empfangen und die Sensorsignale 18 in Eingangssignale x zu transformieren. In einer alternativen Ausführungsform werden die Sensorsignale 18 direkt als Eingangssignale x ohne die Empfangseinheit 22 empfangen. Jedes Eingangssignal x kann ein Abschnitt jedes Sensorsignals 18 sein. Die Empfangseinheit 22 kann dazu ausgelegt sein, jedes Sensorsignal 18 zu verarbeiten, um jedes Eingangssignal x zu erzeugen. Das Eingangssignal x kann Daten beinhalten, die einem durch den Sensor 16 aufgezeichneten Bild entsprechen.
Das Steuersystem 12 beinhaltet einen Klassifizierer 24. Der Klassifizierer 24 kann dazu ausgelegt sein, die Eingangssignale x unter Verwendung eines Maschinenlernalgorithmus (ML-Algorithmus), wie etwa eines oben beschriebenen neuronalen Netzwerks, in ein oder mehrere Labels zu klassifizieren. Das Eingangssignal x kann Toninformationen beinhalten. Der Klassifizierer 24 ist dazu ausgelegt, durch Parameter parametrisiert zu werden, wie etwa jene, die oben beschrieben sind (z. B. Parameter θ). Die Parameter θ können in einer nichtflüchtigen Speicherung 26 gespeichert und durch diese bereitgestellt werden. Der Klassifizierer 24 ist dazu ausgelegt, Ausgangssignale y aus den Eingangssignalen x zu bestimmen. Jedes Ausgangssignal y beinhaltet Informationen, die jedem Eingangssignal x ein oder mehrere Labels zuweisen. Der Klassifizierer 24 kann die Ausgangssignale y zu einer Umwandlungseinheit 28 übertragen. Die Umwandlungseinheit 28 ist dazu ausgelegt, die Ausgangssignale y in die Aktorsteuerbefehle 20 umzuwandeln. Das Steuersystem 12 ist dazu ausgelegt, die Aktorsteuerbefehle 20 zu dem Aktor 14 zu übertragen, der dazu ausgelegt ist, die computer-gesteuerte Maschine 10 als Reaktion auf die Aktorsteuerbefehle 20 zu betätigen. In einer anderen Ausführungsform ist der Aktor 14 dazu ausgelegt, die computer-gesteuerte Maschine 10 direkt basierend auf den Ausgangssignalen y zu betätigen.
Nach dem Empfangen der Aktorsteuerbefehle 20 durch den Aktor 14 ist der Aktor 14 dazu ausgelegt, eine Aktion entsprechend dem zugehörigen Aktorsteuerbefehl 20 auszuführen. Der Aktor 14 kann eine Steuerlogik beinhalten, die dazu ausgelegt ist, die Aktorsteuerbefehle 20 in einen zweiten Aktorsteuerbefehl zu transformieren, der zum Steuern des Aktors 14 genutzt wird. In einer oder mehreren Ausführungsformen können die Aktorsteuerbefehle 20 genutzt werden, um eine Anzeige anstelle von oder zusätzlich zu einem Aktor zu steuern.
In einer anderen Ausführungsform beinhaltet das Steuersystem 12 den Sensor 16 anstelle von oder zusätzlich zu der computer-gesteuerten Maschine 10, die den Sensor 16 beinhaltet. Das Steuersystem 12 kann auch den Aktor 14 anstelle von oder zusätzlich zu der computer-gesteuerten Maschine 10 beinhalten, die den Aktor 14 beinhaltet.
Wie in 5 gezeigt, beinhaltet das Steuersystem 12 auch einen Prozessor 30 und einen Speicher 32. Der Prozessor 30 kann einen oder mehrere Prozessoren beinhalten. Der Speicher 32 kann eine oder mehrere Speichervorrichtungen beinhalten. Der Klassifizierer 24 (z. B. ML-Algorithmen) einer oder mehrerer Ausführungsformen kann durch das Steuersystem 12 implementiert werden, das die nichtflüchtige Speicherung 26, den Prozessor 30 und den Speicher 32 beinhaltet.
Die nichtflüchtige Speicherung 26 kann eine oder mehrere persistente Datenspeicherungsvorrichtungen beinhalten, wie etwa eine Festplatte, ein optisches Laufwerk, ein Bandlaufwerk, eine nichtflüchtige Solid-State-Vorrichtung, Cloud-Speicherung oder eine beliebige andere Vorrichtung, die in der Lage ist, Informationen persistent zu speichern. Der Prozessor 30 kann eine oder mehrere Vorrichtungen beinhalten, die aus Hochleistungsrechensystemen (HPC-Systemen) ausgewählt werden, einschließlich Hochleistungskernen, Mikroprozessoren, Mikrocontrollern, Digitalsignalprozessoren, Mikrocomputern, Zentralverarbeitungseinheiten, feldprogrammierbaren Gate-Arrays, programmierbaren Logikvorrichtungen, Zustandsmaschinen, Logikschaltungen, Analogschaltungen, Digitalschaltungen oder beliebigen anderen Vorrichtungen, die Signale (analog oder digital) basierend auf computer-ausführbaren Anweisungen manipulieren, die sich im Speicher 32 befinden. Der Speicher 32 kann eine einzelne Speichervorrichtung oder eine Anzahl von Speichervorrichtungen beinhalten, einschließlich unter anderem Direktzugriffsspeicher (RAM), flüchtigem Speicher, nichtflüchtigem Speicher, statischem Direktzugriffsspeicher (SRAM), dynamischem Direktzugriffsspeicher (DRAM), Flash-Speicher, Cache-Speicher oder einer beliebigen anderen Vorrichtung, die in der Lage ist, Informationen zu speichern.
Der Prozessor 30 kann dazu ausgelegt sein, in den Speicher 32 zu lesen und computer-ausführbare Anweisungen auszuführen, die sich in der nichtflüchtigen Speicherung 26 befinden und einen oder mehrere ML-Algorithmen und/oder -Methoden einer oder mehrerer Ausführungsformen verkörpern. Die nichtflüchtige Speicherung 26 kann ein(e) oder mehrere Betriebssysteme und Anwendungen beinhalten. Die nichtflüchtige Speicherung 26 kann kompilierte und/oder interpretierte Computerprogramme speichern, die unter Verwendung einer Vielfalt von Programmiersprachen und/oder -technologien erzeugt werden, einschließlich unter anderem, und entweder alleine oder in Kombination, Java, C, C++, C#, Objective C, Fortran, Pascal, Java Script, Python, Perl und PL/SQL.
Nach der Ausführung durch den Prozessor 30 können die computer-ausführbaren Anweisungen der nichtflüchtigen Speicherung 26 bewirken, dass das Steuersystem 12 eine(n) oder mehrere der ML-Algorithmen und -Methoden implementiert, wie hierin offenbart. Die nichtflüchtige Speicherung 26 kann auch ML-Daten (einschließlich Datenparametern) beinhalten, die die Funktionen, Merkmale und Prozesse der einen oder der mehreren hierin beschriebenen Ausführungsformen unterstützen.
Der Programmcode, der die hierin beschriebenen Algorithmen und/oder Methoden verkörpert, kann einzeln oder kollektiv als ein Programmprodukt in einer Vielfalt verschiedener Formen verteilt werden. Der Programmcode kann unter Verwendung eines computer-lesbaren Speicherungsmediums mit darauf befindlichen computer-lesbaren Programmanweisungen verteilt werden, um zu bewirken, dass ein Prozessor Aspekte einer oder mehrerer Ausführungsformen ausführt. Computer-lesbare Speicherungsmedien, die inhärent nichttransitorisch sind, können flüchtige und nichtflüchtige und entfernbare und nicht entfernbare greifbare Medien beinhalten, die in einem beliebigen Verfahren oder einer beliebigen Technologie zur Speicherung von Informationen implementiert werden, wie etwa computer-lesbare Anweisungen, Datenstrukturen, Programmmodule oder andere Daten. Computer-lesbare Speicherungsmedien können ferner RAM, ROM, löschbaren programmierbaren Nurlesespeicher (EPROM), elektrisch löschbaren programmierbaren Nurlesespeicher (EEPROM), Flash-Speicher oder eine andere Solid-State-Speichertechnologie, portablen Compact-Disc-Nurlesespeicher (CD-ROM) oder eine andere optische Speicherung, magnetische Kassetten, Magnetband, magnetische Plattenspeicherung oder andere magnetische Speicherungsvorrichtungen oder ein beliebiges anderes Medium beinhalten, das zum Speichern der gewünschten Informationen verwendet werden und durch einen Computer gelesen werden kann. Computer-lesbare Programmanweisungen können von einem computer-lesbaren Speicherungsmedium zu einem Computer, einer anderen Art von programmierbarer Datenverarbeitungseinrichtung oder einer anderen Vorrichtung oder über ein Netzwerk zu einem externen Computer oder einer externen Speicherungsvorrichtung heruntergeladen werden.
Computer-lesbare Programmanweisungen, die in einem computer-lesbaren Medium gespeichert sind, können verwendet werden, um einen Computer, andere Arten von programmierbarer Datenverarbeitungseinrichtung oder andere Vorrichtungen anzuweisen, auf eine bestimmte Art und Weise zu funktionieren, sodass die in dem computer-lesbaren Medium gespeicherten Anweisungen einen Herstellungsartikel erzeugen, der Anweisungen beinhaltet, die die Funktionen, Handlungen und/oder Operationen implementieren, die in den Flussdiagrammen oder Diagrammen spezifiziert sind. In gewissen alternativen Ausführungsformen können die Funktionen, Handlungen und/oder Operationen, die in den Flussdiagrammen und Diagrammen spezifiziert sind, in Übereinstimmung mit einer oder mehreren Ausführungsformen umgeordnet, seriell verarbeitet und/oder gleichzeitig verarbeitet werden. Darüber hinaus können beliebige der Flussdiagramme und/oder Diagramme mehr oder weniger Knoten oder Blöcke als jene beinhalten, die in Übereinstimmung mit einer oder mehreren Ausführungsformen veranschaulicht sind. Die Prozesse, Verfahren oder Algorithmen können insgesamt oder teilweise unter Verwendung geeigneter Hardwarekomponenten verkörpert werden, wie etwa anwendungsspezifischer integrierter Schaltungen (ASICs), feldprogrammierbarer Gate-Arrays (FPGAs), Zustandsmaschinen, Steuerungen oder anderer Hardwarekomponenten oder -vorrichtungen oder einer Kombination aus Hardware-, Software- und Firmwarekomponenten.
6 stellt ein schematisches Diagramm des Steuersystems 12 dar, das dazu ausgelegt ist, ein Fahrzeug 50 zu steuern, das ein zumindest teilweises autonomes Fahrzeug oder ein zumindest teilweiser autonomer Roboter sein kann. Wie in 5 gezeigt, beinhaltet das Fahrzeug 50 den Aktor 14 und den Sensor 16. Der Sensor 16 kann einen oder mehrere Videosensoren, Radarsensoren, Ultraschallsensoren, LiDAR-Sensoren und/oder Positionssensoren (z. B. GPS) beinhalten. Ein oder mehrere des einen oder der mehreren spezifischen Sensoren kann in das Fahrzeug 50 integriert sein. Alternativ oder zusätzlich zu einem oder mehreren oben identifizierten spezifischen Sensoren kann der Sensor 16 ein Softwaremodul beinhalten, das dazu ausgelegt ist, bei seiner Ausführung einen Zustand des Aktors 14 zu bestimmen. Ein nicht beschränkendes Beispiel eines Softwaremoduls beinhaltet ein Wetterinformationen-Softwaremodul, das dazu ausgelegt ist, einen gegenwärtigen oder zukünftigen Zustand des Wetters in der Nähe des Fahrzeugs 50 oder eines anderen Ortes zu bestimmen.
Der Klassifizierer 24 des Steuersystems 12 des Fahrzeugs 50 kann dazu ausgelegt sein, Objekte in der Nähe des Fahrzeugs 50 in Abhängigkeit von den Eingangssignalen x zu detektieren. In einer solchen Ausführungsform kann das Ausgangssignal y Informationen beinhalten, die die Nähe von Objekten zu dem Fahrzeug 50 charakterisieren. Der Aktorsteuerbefehl 20 kann gemäß diesen Informationen bestimmt werden. Der Aktorsteuerbefehl 20 kann verwendet werden, um Kollisionen mit den detektierten Objekten zu vermeiden.
In Ausführungsformen, bei denen das Fahrzeug 50 ein zumindest teilweise autonomes Fahrzeug ist, kann der Aktor 14 in einer Bremse, einem Antriebssystem, einem Motor, einem Antriebsstrang oder einer Lenkung des Fahrzeugs 50 verkörpert sein. Die Aktorsteuerbefehle 20 können so bestimmt werden, dass der Aktor 14 so gesteuert wird, dass das Fahrzeug 50 Kollisionen mit detektierten Objekten vermeidet. Detektierte Objekte können auch gemäß dem klassifiziert werden, was der Klassifizierer 24 für am wahrscheinlichsten hält, wie etwa Fußgänger oder Bäume. Die Aktorsteuerbefehle 20 können in Abhängigkeit von der Klassifikation bestimmt werden. Das Steuersystem 12 kann den Robustifizierer nutzen, um dabei zu helfen, das Netzwerk für widrige Bedingungen zu trainieren, wie etwa während schlechter Beleuchtungsbedingungen oder schlechter Wetterbedingungen der Fahrzeugumgebung, sowie ein Angriff.
In anderen Ausführungsformen, bei denen das Fahrzeug 50 ein zumindest teilweise autonomer Roboter ist, kann das Fahrzeug 50 ein mobiler Roboter sein, der dazu ausgelegt ist, eine oder mehrere Funktionen auszuführen, wie etwa Fliegen, Schwimmen, Tauchen und Schreiten. Der mobile Roboter kann ein zumindest teilweise autonomer Rasenmäher oder ein zumindest teilweise autonomer Reinigungsroboter sein. In solchen Ausführungsformen kann der Aktorsteuerbefehl 20 so bestimmt werden, dass ein elektrischer Antrieb, eine Antriebseinheit, eine Lenkeinheit und/oder eine Bremseinheit des mobilen Roboters so gesteuert werden kann, dass der mobile Roboter Kollisionen mit identifizierten Objekten vermeiden kann.
In einer anderen Ausführungsform ist das Fahrzeug 50 ein zumindest teilweiser autonomer Roboter in Form eines Gartenroboters. In einer solchen Ausführungsform kann das Fahrzeug 50 einen optischen Sensor als den Sensor 16 verwenden, um einen Zustand von Pflanzen in einer Umgebung in der Nähe des Fahrzeugs 50 zu bestimmen. Der Aktor 14 kann eine Düse sein, die dazu ausgelegt ist, Chemikalien zu sprühen. Das Fahrzeug 50 kann basierend auf einem elektrischen Antrieb arbeiten und sich bewegen. In Abhängigkeit von einer identifizierten Art und/oder einem identifizierten Zustand der Pflanzen kann der Aktorsteuerbefehl 20 bestimmt werden, um zu bewirken, dass der Aktor 14 die Pflanzen mit einer geeigneten Menge geeigneter Chemikalien besprüht.
Das Fahrzeug 50 kann ein zumindest teilweiser autonomer Roboter in Form eines Haushaltsgeräts sein. Nicht beschränkende Beispiele von Haushaltsgeräten beinhalten eine Waschmaschine, einen Herd, einen Ofen, eine Mikrowelle oder eine Spülmaschine. In einem solchen Fahrzeug 50 kann der Sensor 16 ein optischer Sensor sein, der dazu ausgelegt ist, einen Zustand eines Objekts zu detektieren, das einer Bearbeitung durch das Haushaltsgerät unterzogen werden soll. Beispielsweise in dem Fall, dass das Haushaltsgerät eine Waschmaschine ist, kann der Sensor 16 einen Zustand der Wäsche in der Waschmaschine detektieren. Der Aktorsteuerbefehl 20 kann basierend auf einem detektierten Zustand der Wäsche bestimmt werden.
7 stellt ein schematisches Diagramm des Steuersystems 12 dar, das dazu ausgelegt ist, das System 100 (z. B. Fertigungsmaschine), wie etwa ein Stanzgerät, ein Schneidemesser oder einen Tieflochbohrer, eines Fertigungssystems 102, wie etwa ein Teil einer Produktionslinie, zu steuern. Das Steuersystem 12 kann dazu ausgelegt sein, den Aktor 14 zu steuern, der dazu ausgelegt ist, das System 100 (z. B. Fertigungsmaschine) zu steuern.
Der Sensor 16 des Systems 100 (z. B. Fertigungsmaschine) kann ein optischer Sensor sein, der dazu ausgelegt ist, eine oder mehrere Eigenschaften eines hergestellten Produkts 104 zu erfassen, oder der Sensor kann ein Beschleunigungsmesser sein. Der Klassifizierer 24 kann dazu ausgelegt sein, einen Zustand des hergestellten Produkts 104 aus einer oder mehreren der erfassten Eigenschaften zu bestimmen. Der Aktor 14 kann dazu ausgelegt sein, das System 100 (z. B. Fertigungsmaschine) in Abhängigkeit von dem bestimmten Zustand des hergestellten Produkts 104 für einen anschließenden Herstellungsschritt des hergestellten Produkts 104 zu steuern. Der Aktor 14 kann dazu ausgelegt sein, Funktionen des Systems 100 (z. B. Fertigungsmaschine) an dem anschließenden hergestellten Produkt 106 des Systems 100 (z. B. Fertigungsmaschine) in Abhängigkeit von dem bestimmten Zustand des hergestellten Produkts 104 zu steuern. Das Steuersystem 12 kann das System nutzen, um dabei zu helfen, das maschinelle Lernnetzwerk für schwierige Bedingungen zu trainieren, die mit Geräuschen assoziiert sind, die vom Aktor oder einem elektrischen Antrieb genutzt werden, wie etwa ein mechanischer Ausfall mit Teilen, die mit der Fertigungslinie assoziiert sind.
8 stellt ein schematisches Diagramm des Steuersystems 12 dar, das dazu ausgelegt ist, ein Elektrowerkzeug 150, wie etwa eine elektrische Bohrmaschine oder einen elektrischen Schraubendreher, zu steuern, das einen zumindest teilweise autonomen Modus aufweist. Das Steuersystem 12 kann dazu ausgelegt sein, den Aktor 14 zu steuern, der dazu ausgelegt ist, das Elektrowerkzeug 150 zu steuern. Der Aktor kann durch einen Motor oder einen elektrischen Antriebsstrang angetrieben werden. Der Aktor kann einen Ton emittieren, wie etwa der Motor oder der elektrische Antrieb.
Der Sensor 16 des Elektrowerkzeugs 150 kann ein optischer Sensor sein, der dazu ausgelegt ist, eine oder mehrere Eigenschaften einer Arbeitsfläche 152 und/oder eines Befestigungsmittels 154, das in die Arbeitsfläche 152 getrieben wird, zu erfassen. Der Klassifizierer 24 kann genutzt werden, um einen mit dem Betrieb des Werkzeugs assoziierten Ton zu klassifizieren. Zusätzlich kann der Klassifizierer 24 dazu ausgelegt sein, einen Zustand der Arbeitsfläche 152 und/oder des Befestigungsmittels 154 relativ zu der Arbeitsfläche 152 aus einer oder mehreren der erfassten Eigenschaften zu bestimmen. Der Zustand kann lauten, dass das Befestigungsmittel 154 mit der Arbeitsfläche 152 bündig ist. Der Zustand alternativ die Härte der Arbeitsfläche 152 sein. Der Aktor 14 kann dazu ausgelegt sein, das Elektrowerkzeug 150 so zu steuern, dass die Antriebsfunktion des Elektrowerkzeugs 150 in Abhängigkeit von dem bestimmten Zustand des Befestigungsmittels 154 relativ zu der Arbeitsfläche 152 oder einer oder mehreren erfassten Eigenschaften der Arbeitsfläche 152 angepasst wird. Beispielsweise kann der Aktor 14 mit der Antriebsfunktion aufhören, falls der Zustand des Befestigungsmittels 154 relativ zu der Arbeitsfläche 152 bündig ist. Als ein anderes nicht beschränkendes Beispiel kann der Aktor 14 in Abhängigkeit von der Härte der Arbeitsfläche 152 zusätzliches oder weniger Drehmoment anwenden. Das Steuersystem 12 kann den Robustifizierer nutzen, um dabei zu helfen, das maschinelle Lernnetzwerk für schwierige Bedingungen zu trainieren, wie etwa während schlechter Beleuchtungsbedingungen oder schlechter Wetterbedingungen. Somit kann das Steuersystem 12 in der Lage sein, Umgebungsbedingungen des Elektrowerkzeugs 150 zu identifizieren.
9 stellt ein schematisches Diagramm des Steuersystems 12 dar, das dazu ausgelegt ist, einen automatisierten persönlichen Assistenten 900 zu steuern. Das Steuersystem 12 kann dazu ausgelegt sein, den Aktor 14 zu steuern, der dazu ausgelegt ist, den automatisierten persönlichen Assistenten 900 zu steuern. Der automatisierte persönliche Assistent 900 kann dazu ausgelegt sein, ein Haushaltsgerät zu steuern, wie etwa eine Waschmaschine, einen Herd, einen Ofen, eine Mikrowelle oder eine Spülmaschine. Der Sensor 16 kann ein optischer Sensor und/oder ein Audiosensor wie etwa ein Mikrofon sein. Der optische Sensor kann dazu ausgelegt sein, Videobilder von Gesten 904 eines Benutzers 902 zu empfangen. Der Audiosensor kann dazu ausgelegt sein, einen Sprachbefehl des Benutzers 902 zu empfangen.
Das Steuersystem 12 des automatisierten persönlichen Assistenten 900 kann dazu ausgelegt sein, die Aktorsteuerbefehle 20 zu bestimmen, die dazu ausgelegt sind, das System 12 zu steuern. Das Steuersystem 12 kann dazu ausgelegt sein, die Aktorsteuerbefehle 20 gemäß den Sensorsignalen 18 des Sensors 16 zu bestimmen. Der automatisierte persönliche Assistent 900 ist dazu ausgelegt, die Sensorsignale 18 zu dem Steuersystem 12 zu übertragen. Der Klassifizierer 24 des Steuersystems 12 kann dazu ausgelegt sein, einen Gestenerkennungsalgorithmus auszuführen, um die durch den Benutzer 902 vorgenommene Geste 904 zu identifizieren, um die Aktorsteuerbefehle 20 zu bestimmen, und die Aktorsteuerbefehle 20 zu dem Aktor 14 zu übertragen. Der Aktor kann durch eine Maschine mit elektrischem Antriebsstrang angetrieben werden. Der Klassifizierer 24 kann als Reaktion darauf, dass der Antriebsstrang den Aktor aktiviert, auf Ton konfiguriert sein, und kann dazu ausgelegt sein, die erfassten Toninformationen in einer für den Empfang durch den Benutzer 902 geeigneten Form auszugeben. Das Steuersystem 12 kann den Klassifizierer nutzen, um dabei zu helfen, das maschinelle Lernnetzwerk für schwierige Bedingungen basierend auf dem Ton zu trainieren, wie etwa eine Fehlfunktion des Aktors oder eine Fehlfunktion einer anderen Komponente. Somit kann das Steuersystem 12 in der Lage sein, in einem solchen Szenario einen Schaden zu mindern.
10 offenbart ein Beispiel für ein Flussdiagramm eines virtuellen Erfassungsmodells in einem Szenario. Das System kann zuerst in einer Laborumgebung oder einer Umgebung, die geräuschfrei ist oder relativ wenig Geräusche aufweist, initiiert werden (z. B. haben Geräusche keinen Einfluss auf Ton, der von der elektronischen Vorrichtung 1005 emittiert wird). Beispielsweise kann die Umgebung ein schalltoter Raum oder ein Labor sein, die/das jegliches Hintergrundgeräusch oder jeglichen Hintergrundton dämpft. Das System kann eine elektronische Vorrichtung 1003 beinhalten. Die elektronische Vorrichtung kann einen Motor, einen Aktor, einen elektrischen Antrieb, ein Antriebssystem oder eine ähnliche Komponente beinhalten, die ein Drehmoment 1009 emittiert. Die Vorrichtung 1003 kann sich in Kommunikation mit einer ECU 1001 befinden, die genutzt wird, um Informationen und Daten zu verarbeiten. Die elektronische Vorrichtung 1003 kann einen Beschleunigungsmesser 1005 oder einen anderen Sensor beinhalten, der Vibrationsinformationen emittiert, wie etwa Beschleunigungsmesserdaten, die von einem Aktor oder einem elektrischen Antrieb einer Vorrichtung emittiert werden. Das Drehmoment 1009 kann durch einen Antrieb der Vorrichtung oder eine beliebige andere Komponente emittiert werden. Ein Mikrofon kann den von der Vorrichtung emittierten Ton 1007 erhalten. Das Mikrofon kann sich in der Laborumgebung befinden oder mit der Vorrichtung 1005 assoziiert sein.
Der Ton (z. B. Toninformationen) kann mit den Vibrationsdaten gepaart werden, um einen Trainingsdatensatz 1011 zu erzeugen. Die Vibrationsdaten können Beschleunigungsmesserdaten beinhalten, die Informationen der x-Achse, y-Achse und z-Achse beinhalten. Die gemeinsamen Daten können gepaart werden, um einen Trainingsdatensatz zu erzeugen, der in ein maschinelles Lernmodell 1013 eingespeist wird. Das maschinelle Lernmodell 1013 kann ein trainiertes oder untrainiertes Modell sein. Falls es sich somit um ein untrainiertes Modell handelt, kann es am Anfang beginnen, um ein trainiertes Modell unter Verwendung der Trainingsdaten 1011 zu entwickeln, bis eine Konvergenzschwelle erfüllt ist, indem ein Tonvorhersagefehler reduziert wird. In dem Maße, wie das untrainierte Modell genutzt wird, kann es den Trainingsdatensatz nutzen, um ein trainiertes Modell zu erzeugen, wenn eine Konvergenzschwelle erfüllt ist und Fehler minimiert werden. Falls das Modell schon trainiert oder teilweise trainiert ist, können die Trainingsdaten genutzt werden, um die Tonvorhersage zu verbessern.
Als Nächstes kann eine elektronische Vorrichtung 1015 in einer anderen Umgebung genutzt werden, wie etwa einem Fabrikumfeld oder einer End-of-Line-Umgebung. Die elektrische Vorrichtung 1015 kann eine oder mehrere ECUs 1019 beinhalten, die genutzt werden, um unter anderem die Vorrichtung zu betreiben oder Sensormesswerte zu überwachen. Die elektrische Vorrichtung 1015 kann Sensoren beinhalten, wie etwa einen Beschleunigungsmesser 1017, die Vibrationsinformationen/-daten oder eine andere Art von Informationen/Daten einschließen, die von einem elektrischen Antrieb, einem Aktor oder einer ähnlichen Komponente emittiert werden. Beispielsweise können die Vibrationsdaten in der EOL-Konfiguration Echtzeit-Vibrationsinformationen sein. Die Umgebung ermöglicht möglicherweise nicht die genaue Verwendung von zu erhaltenden Toninformationen, somit reichen möglicherweise nur die Vibrationsdaten aus, um einen vorhergesagten Ton zu erhalten. Es ist anzumerken, dass ein Mikrofon in einer solchen Umgebung fehlen kann, oder das Mikrofon aufgrund von Hintergrundgeräusch schwierig zu verwenden sein kann.
Die Echtzeit-Vibrationsinformationen 1021 können zu dem trainierten maschinellen Lernmodell 1013 gesendet werden. In einem Szenario können die Vibrationsdaten die Beschleunigungsmesserdaten sein. Die Echtzeit-Vibrationsinformationen 1021 können Beschleunigungsmesserdaten beinhalten, die Informationen der x-Achse, y-Achse und z-Achse beinhalten. Die Echtzeitdaten können zu dem maschinellen Lernmodell 1013 in Form von entweder Zeitreihe, Spektrogramm oder Ordnungsspektrogramm gesendet werden. Die Form der Eingabe, die in das Modell eingespeist wird, kann die gleiche sein wie die Ausgabe (z. B. Tonvorhersage 1023) des Modells, und somit kann der Eingabetyp den Ausgabetyp vorschreiben. Falls beispielsweise ein Spektrogramm als die Eingabe des Modells genutzt wird, wird ein Spektrogramm mit der gleichen Dimensionalität vorhergesagt. Somit kann das Modell die Vibrationsinformationen nutzen, um einen entsprechenden Ton 1023 vorherzusagen. Die Tonvorhersage 1023 kann einen Ton angeben, der von der Vorrichtung angesichts des Betriebs des Motors, des elektrischen Antriebs, des Aktors oder einer beliebigen anderen Komponente der Vorrichtung emittiert werden würde. In einer Ausführungsform kann dies ohne jegliche anderen Daten und nur unter Verwendung der Vibrationsdaten erreicht werden.
11 offenbart ein Diagramm eines Systems, das End-of-Line-Tests in Bezug auf verschiedene Sensordaten überwacht, um eine Vorhersage auszugeben, die eine Drehmomentvorhersage oder Tonvorhersage einschließen kann. Das System kann ein maschinelles Lernmodell 1115 beinhalten. Das maschinelle Lernmodell 1115 kann ein tiefes neuronales Netzwerk sein. Das tiefe neuronale Netzwerk (U-Net oder ein Transformer) empfängt einen Satz von Sensorsignalen von Sensoren, die an einem elektrischen Antrieb installiert sind. Die elektrische Vorrichtung 1107 kann eine beliebige Art von Vorrichtung sein, die einen Prozessor oder eine ECU 1101, einen Motor, einen Aktor, einen elektrischen Antrieb, ein Antriebssystem usw. einschließt. Die elektrische Vorrichtung 1107 kann eine Komponente einschließen, die ein Drehmoment 1111 an eine Komponente ausgibt. Ein Sensor kann mit dieser Komponente verbunden sein, um einen Drehmomentmesswert zu ermitteln. Die elektrische Vorrichtung 1107 kann Sensoren einschließen, die genutzt werden, um Messwerte verschiedener Charakteristiken in einer bestimmten Umgebung, wie etwa einem Laborumfeld, zu erhalten. Die Sensoren können ein beliebiger Typ von Sensor sein, wie etwa ein Drehzahlsensor, ein Beschleunigungsmesser 1109, ein Spannungssensor (z. B. Eingangsspannungssensor) 1103, ein Stromsensor (z. B. Eingangsstromsensor) 1105, ein Drehmomentsensor usw. Signale können die Form von Zeitreihe, Spektrogramm, Ordnungsspektrogramm oder anderes aufweisen. Das Modell führt eine Signal-zu-Signal-Übersetzung durch, um die Zielsensorsignale vorherzusagen, wie etwa Drehmoment-, Ton- oder Beschleunigungsmesserdaten (falls nicht im Eingang eingeschlossen). Das Zielsignal wird in der gleichen Form wie die Eingabe vorhergesagt. Falls die Eingabe beispielsweise in Form eines Spektrogramms vorliegt, kann ein Spektrogramm mit der gleichen Dimensionalität vorhergesagt werden. Sobald die Vorhersage getroffen ist, kann sie in den zweckmäßigen Analyseansätzen auf die gleiche Weise verwendet werden, wie Zielsensordaten verwendet werden würden, wie etwa eine NVH-Analyse, Resonanzdetektion, Analyse der menschlichen Wahrnehmung des Tons, Fehlerdetektion usw.
In der Testumgebung können Strominformationen, Spannungsinformationen, Toninformationen und Drehmomentinformationen gesammelt werden, um Trainingsdaten 1113 zu erzeugen. Die Trainingsdaten 1113 können zu dem trainierten maschinellen Lernmodell gesendet werden. In einem Szenario können die Vibrationsinformationen die Beschleunigungsmesserdaten sein. Die Echtzeit-Vibrationsinformationen können Beschleunigungsmesserdaten beinhalten, die Informationen der x-Achse, y-Achse und z-Achse beinhalten. Die Echtzeitinformationen/-daten können zu dem maschinellen Lernmodell in Form von entweder Zeitreihe, Spektrogramm oder Ordnungsspektrogramm gesendet werden. Die Form der Eingabe, die in das Modell eingespeist wird, kann die gleiche wie die Ausgabe des Modells sein. Falls beispielsweise ein Spektrogramm als die Eingabe des Modells genutzt wird, wird ein Spektrogramm mit der gleichen Dimensionalität vorhergesagt. Somit kann das Modell eine Kombination verschiedener Eingabemesswerte von Sensoren nutzen, um einen entsprechenden Ton oder ein entsprechendes Drehmoment vorherzusagen, der/das mit der elektrischen Vorrichtung assoziiert ist.
Als Nächstes kann eine elektronische Vorrichtung 1121 in einer anderen Umgebung genutzt werden, wie etwa einer Fabrikumgebung oder einer End-of-Line-Testumgebung usw. Die elektrische Vorrichtung 1121 kann Sensoren beinhalten, die Strommesswerte (z. B. Eingangsstrommesswerte) von einem Stromsensor 1119, Spannung (z. B. Eingangsspannung) von einem Spannungssensor 1118 und Vibrationsinformationen von einem Vibrationssensor 1120 (z. B. Beschleunigungsmesser) oder einen anderen Typ von Daten beinhalten, die von einem elektrischen Antrieb, einem Aktor oder einer ähnlichen Komponente emittiert werden. Beispielsweise können die Vibrationsinformationen in der EOL-Konfiguration Echtzeit-Vibrationsdaten sein. Die Umgebung ermöglicht möglicherweise nicht die genaue Verwendung von zu erhaltenden Toninformationen, somit reichen möglicherweise nur die Vibrationsinformationen aus, um eine Vorhersage 1125 zu erhalten. Die Vorhersage 1125 kann einen vorhergesagten Ton, ein vorhergesagtes Drehmoment oder vorhergesagte Beschleunigungsmesserdaten (falls nicht im Eingang eingeschlossen) beinhalten. Somit kann das Modell 1115 ein vorhergesagtes Signal 1125 basierend auf einer Kombination der Eingabe 1123, die von den verschiedenen Sensoren gesammelt wird, ausgeben. Beispielsweise kann das Modell 1115 nur Echtzeit-Strominformationen und Echtzeit-Spannungsinformationen als die Eingabe 1123 nutzen, um eine Vorhersage 1125 auszugeben. Die Vorhersage 1125 kann eine erwartete Tonvorhersage sein, die mit den Komponenten assoziiert ist, die an der elektrischen Vorrichtung 1121 betrieben werden, angesichts der Werte, die mit der Maschine assoziiert sind. Die Vorhersage 1125 kann auch eine erwartete Drehmomentvorhersage sein, die mit den Komponenten assoziiert ist, die an der elektrischen Vorrichtung 1121 betrieben werden, angesichts der Werte, die mit der Maschine assoziiert sind.
Die Vorhersage 1125 kann einen beliebigen Satz von verfügbaren Daten nutzen, um die Vorhersage zu erzeugen. Falls somit ein bestimmter Sensor ausfällt oder nicht verfügbar ist, sind die Messwerte möglicherweise nicht notwendig, um die Vorhersage zu erzeugen. Das Modell kann jegliche verfügbaren Daten oder Informationen nehmen, um die Vorhersage auszugeben. Ferner können bestimmte Messwerte gegenüber anderen nützlicher sein. Beispielsweise benötigt ein Spannungsablesung möglicherweise keine gleichzeitigen Ablesungen, jedoch benötigt eine Stromablesung möglicherweise andere Informationen (z. B. Spannungsinformationen oder Vibrationsinformationen), um eine Vorhersage zu erzeugen. In einem anderen Beispiel kann eine Spannungsablesung oder Vibrationsablesung alleine ausreichen. In einem anderen Beispiel kann es sich bei einer Stromablesung um sekundäre Informationen handeln, die dabei helfen, die Vorhersage zu entwickeln oder die Vorhersage zu verbessern.
12 offenbart ein Flussdiagramm, das mit einem Vorhersageanalysemodell assoziiert ist. Das System kann ein maschinelles Lernmodell 1217 beinhalten. Das maschinelle Lernmodell 1217 kann ein tiefes neuronales Netzwerk sein. Das tiefe neuronale Netzwerk (U-Net oder ein Transformer) empfängt einen Satz von Sensorsignalen von Sensoren, die sich in Kommunikation mit einem elektrischen Antrieb 1201 befinden/mit diesem verbunden sind. Die elektrische Vorrichtung 1201 kann eine beliebige Art von Vorrichtung sein, die einen Prozessor oder eine ECU 1203, einen Motor, einen Aktor, einen elektrischen Antrieb, ein Antriebssystem usw. einschließt. Die elektrische Vorrichtung 1203 kann eine Komponente einschließen, die ein Drehmoment 1213 an eine Komponente ausgibt. Ein Sensor kann mit dieser Komponente verbunden sein, um einen Drehmomentmesswert zu ermitteln. Die elektrische Vorrichtung 1201 kann Sensoren einschließen, die genutzt werden, um Messwerte verschiedener Charakteristiken in einer bestimmten Umgebung, wie etwa einem Laborumfeld, zu erhalten. Die Sensoren können ein beliebiger Typ von Sensor sein, wie etwa ein Drehzahlsensor, ein Beschleunigungsmesser 1209, ein Spannungssensor (z. B. Eingangsspannungssensor) 1205, ein Stromsensor (z. B. Eingangsstromsensor) 1207, ein Drehmomentsensor usw.
Ein Mikrofon kann genutzt werden, um Ton 1211 von einer elektrischen Vorrichtung 1201 aufzunehmen. Ein Prozessor oder eine ECU (z. B. elektronische Steuereinheit) 1203 der elektrischen Vorrichtung 1201 kann mit Sensoren verbunden sein oder sich in Kommunikation mit diesen befinden, die eine Eingangsspannung 1205 und einen Strom 1207 der Vorrichtung im Betrieb lesen. Ferner können Vibrationsdaten 1209 von einem oder mehreren Sensoren gesammelt werden. Die Vibrationsinformationen 1209 können ein Beschleunigungsmessersignal zwischen drei Achsen einschließen. Beispielsweise können die Beschleunigungsmesserinformationen der x-Achse, die Beschleunigungsmesserinformationen der y-Achse und die Beschleunigungsmesserinformationen der z-Achse genutzt werden.
Das vorgeschlagene Verfahren kann für die Verwendung während der Analyse von komplexen physischen Systemen gedacht sein, wie etwa gefertigten Produkten mit mehreren Komponenten. Die Größen, deren Beziehung untersucht werden muss, können ausgewählt werden. Beispielsweise können die Vibrationen des Elektromotors, der Fensterheber in einem Auto betreibt, und der Ton im Fahrgastraum ein bestimmtes Beispiel sein. Zweitens werden die gewählten Größen im geeigneten Umfeld gemessen, d. h. auf eine Art und Weise, die ermöglicht, dass eine vermutete Beziehung zwischen gemessenen Größen bestimmt wird. In dem obigen Beispiel würde dies das gleichzeitige Aufzeichnen von sowohl den Beschleunigungsmesser- als auch den Mikrofondaten im gleichen Fahrzeug implizieren. Ein maschinelles Lernmodell 1217 kann genutzt werden, und in dieses können die Trainingsdaten 1215 eingespeist werden. Die Trainingsdaten 1215 können ein Spannungssignal, ein Stromsignal, ein Beschleunigungsmessersignal, ein Drehmomentsignal, ein Mikrofonsignal usw. einschließen. Das maschinelle Lernmodell 1217 kann ein neuronales Netzwerk sein, das trainiert ist, um eine der Größen unter Verwendung der anderen vorherzusagen, z. B. ein Signal-zu-Signal-Modell, das die Beschleunigungsmesserzeitreihe als eine Eingabe nimmt und eine Tonzeitreihe vorhersagt.
Und schließlich kann die Leistungsfähigkeit des Netzwerks analysiert werden, um das Vorhandensein und/oder Nichtvorhandensein der Beziehung und ihre Eigenschaften zu bestimmen. Somit kann die Vorhersageanalyse 1221 genutzt werden, um das Netzwerk und assoziierte Vorhersagen zu bewerten. Beispielsweise kann der Vorhersagefehler in der Zeitdomäne analysiert werden, um die gegenseitigen Informationen zwischen Motorvibrationen und dem Ton innerhalb des Fahrgastraums zu schätzen, und in der Frequenzdomäne, um zu bestimmen, welche Tonfrequenzen durch Motorvibrationen entstehen. Für den letztgenannten Fall kann eine Fourier-Transformation bei sowohl dem vorhergesagten als auch dem aufgenommenen Signal angewendet werden, um die Frequenzinformationen zu erhalten, und der Fehler kann zwischen den resultierenden Fourier-Koeffizienten berechnet werden. Die Vorhersageanalyse 1211 kann in Form einer Heatmap, einer Bewertung oder einer beliebigen anderen Art von Ausgabe vorliegen. Die Vorhersageanalyse kann in einer veranschaulichenden Ausführungsform eine Vorhersagegenauigkeit angesichts ihrer Quellinformationen oder Eingabeinformationen analysieren. Beispielsweise kann eine Vorhersageanalyse eine Leistungsfähigkeit zum Vorhersagen von Vibrationsinformationen (z. B. Beschleunigungsmesserdaten) angesichts von nur einer Eingabe von Spannung und Strom angeben.
Die hierin offenbarten Prozesse, Verfahren oder Algorithmen können zu einer Verarbeitungsvorrichtung, einer Steuerung oder einem Computer lieferbar sein/durch diese implementiert werden, die/der eine bestehende programmierbare elektronische Steuereinheit oder dedizierte elektronische Steuereinheit beinhalten kann. Gleichermaßen können die Prozesse, Verfahren oder Algorithmen als Daten und Anweisungen, die durch eine Steuerung oder einen Computer ausführbar sind, in vielen Formen gespeichert werden, einschließlich unter anderem Informationen, die permanent auf nicht beschreibbaren Speicherungsmedien gespeichert sind, wie etwa ROM-Vorrichtungen, und Informationen, die änderbar auf beschreibbaren Speicherungsmedien gespeichert sind, wie etwa Disketten, Magnetbändern, CDs, RAM-Vorrichtungen und anderen magnetischen und optischen Medien. Die Prozesse, Verfahren oder Algorithmen können auch in einem softwareausführbaren Objekt implementiert werden. Alternativ können die Prozesse, Verfahren oder Algorithmen insgesamt oder teilweise unter Verwendung geeigneter Hardwarekomponenten umgesetzt werden, wie etwa anwendungsspezifischer integrierter Schaltungen (ASICs), feldprogrammierbarer Gate-Arrays (FPGAs), Zustandsmaschinen, Steuerungen oder anderer Hardwarekomponenten oder -vorrichtungen oder einer Kombination aus Hardware-, Software- und Firmwarekomponenten.
Obwohl beispielhafte Ausführungsformen vorstehend beschrieben sind, wird nicht beabsichtigt, dass diese Ausführungsformen alle möglichen Formen beschreiben, die durch die Ansprüche umspannt werden. Die in der Spezifikation verwendeten Wörter sind Wörter der Beschreibung anstatt Beschränkung, und es versteht sich, dass verschiedene Änderungen vorgenommen werden können, ohne vom Gedanken und Schutzumfang der Offenbarung abzuweichen. Wie zuvor beschrieben, können die Merkmale verschiedener Ausführungsformen kombiniert werden, um weitere Ausführungsformen der Erfindung zu bilden, die möglicherweise nicht ausdrücklich beschrieben oder veranschaulicht sind. Obwohl verschiedene Ausführungsformen so beschrieben sein könnten, dass sie Vorteile bereitstellen oder gegenüber anderen Ausführungsformen oder Implementierungen des Stands der Technik bezüglich einer oder mehrerer gewünschter Charakteristiken bevorzugt werden, erkennen Durchschnittsfachleute auf dem Gebiet, dass ein oder mehrere Merkmale oder eine oder mehrere Charakteristiken kompromittiert werden können, um gewünschte Gesamtsystemattribute zu erreichen, die von der spezifischen Anwendung und Implementierung abhängen. Diese Attribute können unter anderem Kosten, Stärke, Dauerhaftigkeit, Lebenszykluskosten, Marktfähigkeit, Erscheinungsbild, Verpackung, Größe, Gebrauchsfähigkeit, Gewicht, Herstellbarkeit, Montagefreundlichkeit usw. beinhalten. Demnach, in dem Ausmaß, dass jegliche Ausführungsformen als weniger wünschenswert als andere Ausführungsformen oder Implementierungen des Stands der Technik bezüglich einer oder mehrerer Charakteristiken beschrieben sind, liegen diese Ausführungsformen nicht außerhalb des Schutzumfangs der Offenbarung und können für bestimmte Anwendungen wünschenswert sein.

Claims

Computer-implementiertes Verfahren, umfassend: Empfangen von Toninformationen und Vibrationsdaten von einem oder mehreren Sensoren, die mit einer Vorrichtung assoziiert sind; Erzeugen eines Trainingsdatensatzes unter Verwendung zumindest der Vibrationsinformationen und einer Tonwahrnehmungsbewertung, die mit den Vibrationsinformationen assoziiert ist, wobei der Trainingsdatensatz zu einem untrainierten maschinellen Lernmodell gesendet wird, als Reaktion darauf, dass eine Konvergenzschwelle des untrainierten maschinellen Lernmodells erfüllt ist, Ausgeben eines trainierten maschinellen Lernmodells; Empfangen von Echtzeit-Vibrationsinformationen von der Vorrichtung; und basierend auf dem trainierten maschinellen Lernmodell und den Echtzeit-Vibrationsinformationen, Ausgeben einer Echtzeit-Tonwahrnehmungsbewertung, die Charakteristiken angibt, die mit einem von der Vorrichtung emittierten Ton assoziiert sind.
Computer-implementiertes Verfahren nach Anspruch 1, wobei das trainierte maschinelle Lernmodell nur unter Verwendung der Vibrationsinformationen trainiert wird und einen Bewertungsvorhersagefehler minimiert, der durch das untrainierte maschinelle Lernmodell ausgegeben wird.
Computer-implementiertes Verfahren nach Anspruch 1, wobei das trainierte maschinelle Lernmodell mittels eines indirekten Verfahrens trainiert wird, bei dem ein erstes neuronales Netzwerk des maschinellen Lernmodells unter Verwendung der Toninformationen trainiert wird und ein zweites neuronales Netzwerk trainiert wird, um gemessenen Ton unter Verwendung der Vibrationsinformationen vorherzusagen und einen vorhergesagten Ton zu erhalten; Einspeisen des vorhergesagten Tons in ein Bewertungsvorhersagenetzwerk, um eine Bewertung der menschlichen Wahrnehmung zu erzeugen; und Einfrieren von Gewichten, die mit dem Bewertungsvorhersagenetzwerk assoziiert sind, und Trainieren der Gewichte des Tonvorhersagenetzwerks, um eine gewichtete Summe von Ton- und Bewertungsvorhersagefehlern zu minimieren.
Computer-implementiertes Verfahren nach Anspruch 1, wobei die Trainingsdaten Toninformationen und Beschleunigungsmesserdaten nutzen, die von einer geräuschfreien Umgebung erhalten werden.
Computer-implementiertes Verfahren nach Anspruch 1, wobei die Tonwahrnehmungsbewertung manuell als Reaktion auf die Toninformationen erzeugt wird.
Computer-implementiertes Verfahren nach Anspruch 1, wobei es sich bei den Vibrationsinformationen um Beschleunigungsmesserdaten handelt.
Computer-implementiertes Verfahren nach Anspruch 1, wobei das maschinelle Lernmodell ein U-Net oder ein Transformer-Netzwerk ist.
Computer-implementiertes Verfahren nach Anspruch 1, wobei die Echtzeit-Tonwahrnehmungsbewertung unter Verwendung von nur den Echtzeit-Vibrationsinformationen erzeugt wird.
Computer-implementiertes Verfahren nach Anspruch 1, wobei das maschinelle Lernmodell ein Deep-Learning-Netzwerk ist.
Computer-implementiertes Verfahren, umfassend: Empfangen eines ersten Satzes von Toninformationen und eines ersten Satzes von Vibrationsinformationen von einer Vorrichtung in einer ersten Umgebung; Erzeugen eines Trainingsdatensatzes unter Verwendung zumindest des ersten Satzes von Vibrationsinformationen und einer assoziierten Tonwahrnehmungsbewertung, wobei der Trainingsdatensatz zu einem untrainierten maschinellen Lernmodell gesendet wird; als Reaktion darauf, dass eine Konvergenzschwelle des untrainierten maschinellen Lernmodells erfüllt ist, Ausgeben eines trainierten maschinellen Lernmodells; Empfangen von Echtzeit-Vibrationsinformationen von der Vorrichtung in einer zweiten Umgebung; und basierend auf dem trainierten maschinellen Lernmodell und den Echtzeit-Vibrationsinformationen, Ausgeben einer Echtzeit-Tonwahrnehmungsbewertung, die Charakteristiken angibt, die mit einem von der Vorrichtung emittierten Ton assoziiert sind.
Computer-implementiertes Verfahren nach Anspruch 10, wobei die Vibrationsdaten Beschleunigungsmesserdaten beinhalten.
Computer-implementiertes Verfahren nach Anspruch 10, wobei das maschinelle Lernmodell ein U-Net oder ein Transformer-Netzwerk ist.
Computer-implementiertes Verfahren nach Anspruch 10, wobei die Echtzeit-Tonwahrnehmungsbewertung unter Verwendung von nur den Echtzeit-Vibrationsdaten erzeugt wird.
Computer-implementiertes Verfahren nach Anspruch 10, wobei das maschinelle Lernmodell ein Deep-Learning-Netzwerk ist.
Computer-implementiertes Verfahren nach Anspruch 10, wobei die erste Umgebung eine Laborumgebung ist und die zweite Umgebung eine End-of-Line-Fabrikumgebung ist.
System, umfassend: einen Prozessor, wobei der Prozessor programmiert ist zum: Empfangen von Toninformationen und Vibrationsinformationen von einer Vorrichtung in einer ersten Umgebung; Erzeugen eines Trainingsdatensatzes unter Verwendung zumindest der Vibrationsinformationen und einer Tonwahrnehmungsbewertung, die mit dem entsprechenden Ton der Vibrationsinformationen assoziiert ist, wobei der Trainingsdatensatz zu einem untrainierten maschinellen Lernmodell gesendet wird; als Reaktion darauf, dass eine Konvergenzschwelle des untrainierten maschinellen Lernmodells erfüllt ist, Ausgeben eines trainierten maschinellen Lernmodells; Empfangen von Echtzeit-Vibrationsinformationen von der Vorrichtung in einer zweiten Umgebung; und basierend auf den Echtzeit-Vibrationsinformationen als eine Eingabe in das trainierte maschinelle Lernmodell, Ausgeben einer Echtzeit-Tonwahrnehmungsbewertung, die Charakteristiken angibt, die mit einem von der Vorrichtung emittierten Ton assoziiert sind.
System nach Anspruch 16, wobei die Vibrationsinformationen dreidimensionale Informationen beinhalten.
System nach Anspruch 16, wobei der Prozessor ferner programmiert ist zum Erzeugen des Trainingsdatensatzes unter Verwendung von sowohl den Vibrationsinformationen als auch den Toninformationen.
System nach Anspruch 16, wobei das maschinelle Lernmodell zwei oder mehr neuronale Netzwerke beinhaltet, die genutzt werden, um eine Echtzeit-Tonwahrnehmungsbewertung auszugeben.
System nach Anspruch 16, wobei die erste Umgebung und die zweite Umgebung nicht dieselbe Umgebung sind.