DE102018202775A1

DE102018202775A1 - Verfahren zum automatischen Steuern zumindest eines Geräts eines Gebäudes mittels eines Gebäudemanagementsystems und Gebäudemanagementsystem

Info

Publication number: DE102018202775A1
Application number: DE102018202775.7A
Authority: DE
Inventors: Fabio GALASSO; Yi Li; Herbert Kaestle; Ling Wang; Bernhard Siessegger
Original assignee: Osram GmbH
Current assignee: Inventronics De GmbH
Priority date: 2018-02-23
Filing date: 2018-02-23
Publication date: 2019-08-29
Also published as: WO2019162104A1

Abstract

Die Erfindung betrifft ein Verfahren zum automatischen Steuern zumindest eines Geräts (18) eines Gebäudes (10) mittels eines Gebäudemanagementsystems (12), wobei in einer Lernphase (LP) mindestens ein Benutzer (B, B1, B2, B3, B4) des Gebäudes (10) auf Basis zumindest einer erfassten ersten Benutzercharakteristik (C1) identifiziert wird, mindestens eine Steuerungseingabe (SE), welche durch den mindestens einen Benutzer (B, B1, B2, B3, B4) zum Steuern des zumindest einen Geräts (18) getätigt wird, erfasst wird, während sich der mindestens eine identifizierte Benutzer (B, B1, B2, B3, B4) im Gebäude (10) befindet, und in Abhängigkeit von der mindestens einer erfassten Steuerungseingabe (SE) des mindestens einen identifizierten Benutzers (B, B1, B2, B3, B4) das Gebäudemanagementsystem (12) Steuerungsregeln (R1) ermittelt, die dem mindestens einen identifizierten Benutzer (B, B1, B2, B3, B4) zugeordnet sind und gemäß welchen das zumindest eine Gerät (18) des Gebäudes (10) automatisch in einer zweiten Phase (AP) des Gebäudemanagementsystems (12) gesteuert wird, während sich der mindestens einen Benutzer (B, B1, B2, B3, B4) im Gebäude (10) befindet.

Description

Die Erfindung betrifft ein Verfahren zum automatischen Steuern zumindest eines Geräts eines Gebäudes mittels eines Gebäudemanagementsystems, sowie ein Gebäudemanagementsystem.
Aus dem Stand der Technik sind Gebäudemanagementsysteme bekannt, mittels welchen sich Geräte eines Gebäudes, wie zum Beispiel die Heizung oder auch das Licht, automatisch steuern oder regeln lassen. Die Zielvorgaben für die Steuerung beziehungsweise Regelung, zum Beispiel die Soll-Raumtemperatur, werden dabei von den jeweiligen Benutzern eines Gebäudes vorgegeben. Aufgrund der zunehmenden Komplexität solcher Gebäudemanagementsysteme wird es für Benutzer zunehmend schwerer, derartige Systeme richtig zu konfigurieren. Dies erfordert damit oftmals technische Experten. Ein weiterer Nachteil besteht zudem auch darin, dass, wenn es mehrere Benutzer eines Gebäudes gibt, zum Beispiel mehrere Bewohner eines Hauses, mitunter sehr starke Kompromisse eingegangen werden müssen, da sich widersprechende Zielvorgaben, die zu unterschiedlichen Bedürfnissen oder Wünschen verschiedener Personen beziehungsweise Benutzer eines Hauses korrespondieren, nicht gleichzeitig umsetzen lassen.
Aufgabe der vorliegenden Erfindung ist es daher, ein Verfahren zum automatischen Steuern zumindest eines Geräts eines Gebäudes und ein Gebäudemanagementsystem bereitzustellen, welche es ermöglichen, den Komfort für die Bewohner oder Benutzer eines Gebäudes zu erhöhen.
Diese Aufgabe wird gelöst durch ein Verfahren zum automatischen Steuern zumindest eines Geräts eines Gebäudes und durch ein Gebäudemanagementsystem mit den Merkmalen gemäß den jeweiligen unabhängigen Ansprüchen. Vorteilhafte Ausgestaltungen der Erfindung sind Gegenstand der abhängigen Patentansprüche, der Beschreibung, sowie der Figuren.
Bei einem erfindungsgemäßen Verfahren zum automatischen Steuern zumindest eines Geräts eines Gebäudes mittels eines Gebäudemanagementsystems wird in einer Lernphase des Gebäudemanagementsystems mindestens ein Benutzer des Gebäudes auf Basis zumindest einer erfassten ersten Benutzercharakteristik identifiziert. Darüber hinaus wird mindestens eine Steuerungseingabe, welche durch den mindestens einen Benutzer zum Steuern des zumindest einen Geräts getätigt wird, erfasst, während sich der mindestens eine identifizierte Benutzer im Gebäude befindet. Weiterhin ermittelt das Gebäudemanagementsystem in Abhängigkeit von der mindestens einen erfassten Steuerungseingabe des mindestens einen identifizierten Benutzers Steuerungsregeln, die dem mindestens einen identifizierten Benutzer zugeordnet sind und gemäß welchen das zumindest eine Gerät des Gebäudes automatisch in einer zweiten Phase des Gebäudemanagementsystems gesteuert wird, während sich der mindestens einen Benutzer im Gebäude befindet.
Das erfindungsgemäße Verfahren hat dabei gleich mehrere Vorteile. Zum einen macht das erfindungsgemäße Verfahren von einem lernenden Verfahren gebraucht, sodass während einer Lernphase des Gebäudemanagementsystems das Steuerungsverhalten des Benutzers bezüglich des zumindest einen Geräts beobachtet werden kann und aus diesen Beobachtungen Steuerungsregeln abgeleitet werden können, gemäß welchen dann letztendlich das Gebäudemanagementsystem das zumindest einen Gerät automatisch in einer zweiten Phase steuern kann. Dies hat den Vorteil, dass ein Benutzer das Gebäudemanagementsystem nicht selbst konfigurieren muss und selbst Steuerungsvorgaben spezifizieren muss. Diese Vorgaben werden automatisch von dem Gebäudemanagementsystem durch Beobachtung des Benutzers in der Lernphase selbsttätig gelernt, während der Benutzer das zumindest eine Gerät nach seinen Vorlieben bedient. Die Bedienung des zumindest einen Geräts durch den Benutzer wird als die oben genannte Steuerungseingabe erfasst. Darunter ist insbesondere jegliche Art von Bedienhandlung des Benutzers zur Bedienung des zumindest einen Geräts zu verstehen. Besonders vorteilhaft ist es dabei aber vor allem, dass sowohl das Erlernen des Benutzerverhaltens in der Lernphase als auch die automatisierte Steuerung des zumindest einen Geräts in der zweiten Phase benutzerspezifisch erfolgen kann. Ermöglicht wird dies dadurch, dass der mindestens eine Benutzer des Gebäudes auf Basis zumindest einer ersten Benutzercharakteristik identifiziert wird. Diese ermöglicht vorteilhafter Weise letztendlich eine benutzerspezifische und individualisierte Steuerung des zumindest einen Geräts des Gebäudes. Befinden sich verschiedene Benutzer beispielsweise zeitlich nacheinander im Gebäude, so kann das Gebäudemanagementsystem die Steuerung des mindestens einen Geräts immer automatisch an den jeweiligen gerade im Gebäude befindlichen Benutzer anpassen. Insbesondere ist auch eine zimmerspezifische Steuerung möglich, wie dies nachfolgend noch näher beschrieben wird, so dass für den Fall, dass sich einzelne Benutzer im Gebäude in verschiedenen Zimmern des Gebäudes befinden, die Steuerung des zumindest einen Geräts in jedem Zimmer auf den in dem Zimmer befindlichen Benutzer angepasst durchgeführt werden kann. Hierdurch müssen also auch bei mehreren Benutzern eines Gebäudes deutlich einfacher Kompromisse gefunden werden. Bei einem System dagegen, bei welchem vorab Steuerungsregeln festgelegt werden müssen, gemäß welchen dann Geräte des Gebäudes gesteuert werden, können keine benutzerspezifischen Steuerungsregeln festgelegt werden. Diese einmal festgelegten Steuerungsregeln gelten dann immer, unabhängig davon, welcher Benutzer sich gerade im Gebäude oder in welchem Zimmer des Gebäudes befindet. Möchte ein Benutzer eine andere Steuerung umgesetzt haben, so muss er die Steuerungsregeln manuell anpassen und abändern.
Die Erfindung ermöglicht es dagegen, wenn sich also beispielsweise mehrere unterschiedliche Benutzer im Gebäude befinden, zum Beispiel auch in unterschiedlichen Zimmern, dass für die jeweiligen Zimmer des Gebäudes eine individuelle Steuerung des zumindest einen Geräts gemäß den für die jeweilige unterschiedlichen Benutzer ermittelten Steuerungsregeln erfolgt. Beispielsweise kann also die Zimmertemperatur in einem jeweiligen Zimmer auf einen Wert geregelt werden, der den Vorlieben des gerade in diesem Zimmer befindlichen Benutzers entspricht. Auch wenn sich mehrere Benutzer zum gleichen Zeitpunkt in einem Zimmer befinden, kann das Gebäudemanagementsystem beispielsweise Regeln erlernen, die bei Anwesenheit mehrerer Nutzer allgemeingültig sind, und die dann, wenn sich diese Benutzer in der zweiten Phase wiederum gemeinsam in einem Zimmer des Gebäudes befinden, können diese Regeln für die bestimmte Benutzergruppe angewandt werden. Hierdurch lassen sich die Gewohnheiten und Vorlieben mehrerer Benutzer gleichzeitig berücksichtigen.
Insgesamt ermöglicht es das erfindungsgemäße Verfahren somit, eine für einen Benutzer deutlich vereinfachte und damit deutlich komfortablere automatische Steuerung des zumindest einen Geräts eines Gebäudes bereitzustellen, sowie zudem auch unterschiedliche Bedürfnisse mehrerer verschiedener Benutzer miteinander deutlich besser in Einklang zu bringen, was wiederum für einen jeweiligen Benutzer den Komfort deutlich erhöht.
Das zumindest eine Gerät des Gebäudes kann dabei beispielsweise eine Beleuchtungseinrichtung oder einen Teil einer Beleuchtungseinrichtung, wie zum Beispiel eine Lampe, darstellen, oder ein das Raumklima beeinflussendes Gerät, wie zum Beispiel eine Heizung, eine Klimaanlage, einen Ventilator beziehungsweise eine Lüftung, oder ähnliches. Weiterhin kann der vom Benutzer getätigte und durch das Gebäudemanagementsystem erfasste Steuerungseingabe zur Steuerung des zumindest einen Geräts vom Benutzer über jedes beliebige Bediengerät beziehungsweise Bedienelement getätigt werden, wie zum Beispiel einen Lichtschalter, eine Fernbedienung, oder im allgemeinen mit einem mobilen Kommunikationsgerät, über ein zentrales Steuerterminal, über in jeweiligen Räumen einzeln vorgesehene Bedieneinheiten oder Steuerterminals oder ähnliches. Die Bedienungselemente, oder im Allgemeinen Erfassungsmittel zur Erfassung von Bedienhandlungen bzw. der Steuerungseingaben, sind sowohl in der Lernphase und zur Bereitstellung einer Rückmeldung für das später beschriebene Reinforced Learning, bzw. Q-Learning vorteilhaft, sowie auch im Command-Mode (Manual-Mode). Hier kann der Q-Lerner beispielsweise im Hintergrund Benutzer und ihr Bedienverhalten stets mitbeobachten bzw. mitsimulieren und seine Performance verbessern.
Die mindestens eine erste Benutzercharakteristik, die das Gebäudemanagementsystem zur Identifikation des Benutzers erfasst, kann zum Beispiel mindestens ein Gesichtsmerkmal, mindestens ein Merkmal betreffend das Aussehen des Körpers, mindestens ein Fingerabdruck, mindestens eine Stimmencharakteristik, mindestens eine Gangidentifikation bzw. Gangcharakteristik oder ähnliches darstellen. Besonders vorteilhaft ist es dabei, wenn zur Identifikation des mindestens einen Benutzers ein Merkmal betreffend das Aussehen des Gesichts oder des Körpers des Benutzers erfasst wird, da durch das Erfassen derartiger Merkmale eine besonders zuverlässige und robuste Identifikation eines Benutzers möglich ist. Insbesondere eine Identifikation basierend auf einer Gesichtserkennung ist besonders zuverlässig und lässt sich auch auf einfache Weise, zum Beispiel mit einer Kamera, umsetzen. Weiterhin kann die Benutzeridentifikation beispielsweise in einem Eingangsbereich des Gebäudes erfolgen. Somit kann vorteilhafter Weise sobald ein Benutzer das Gebäude betritt dieser als solcher identifiziert werden. Weiterhin existieren auch Haustüren beziehungsweise Eingangstüren, die als Zugangsberechtigungsnachweis den Fingerabdruck der entsprechenden Benutzer verwenden. Ein solcher Fingerabdruck kann damit auch vorteilhafter Weise zur Identifikation des mindestens einen Benutzers des Gebäudes vom Gebäudemanagementsystem genutzt werden. Denkbar ist beispielsweise auch der Einsatz von Iris-Scannern zur Identifikation des mindestens einen Benutzers. Auch eine Identifikation auf Basis der Stimmencharakteristik des Benutzers ist möglich. Alternativ oder zusätzlich kann zur Identifikation des Benutzers auch eine erfasste Aktivitäts-Charakteristik des Benutzers verwendet werden, wie die oben erwähnte Gangcharakteristik , eine Bewegungscharakteristik, allgemeine Aktivitäten des Benutzers bzw. charakteristische Verhaltensmuster des Benutzers. Insbesondere können die nachfolgend noch beschriebenen zweiten Benutzercharakteristiken ebenfalls zur Identifikation des mindestens einen Benutzers dienen. Diese erfassten ersten Benutzercharakteristiken können auch in beliebiger Weise miteinander kombiniert werden. Gerade eine Kombination von zwei oder mehr der oben beschriebenen ersten Benutzercharakteristiken können die Zuverlässigkeit der Identifikation des mindestens einen Benutzers erhöhen.
Bei einer weiteren vorteilhaft Ausgestaltung der Erfindung wird während der Lernphase zusätzlich zumindest eine zweite Benutzercharakteristik des mindestens einen identifizierten Benutzers bestimmt, insbesondere eine Aktivität des mindestens einen identifizierten Benutzers, während sich der mindestens eine identifizierte Benutzer Gebäude befindet. Weiterhin werden die Steuerungsregeln durch das Gebäudemanagementsystem zusätzlich in Abhängigkeit von der mindestens einen zweiten Benutzercharakteristik des mindestens einen identifizierten Benutzers ermittelt bzw. erlernt.
Diese zweite Benutzercharakteristik stellt also vorzugsweise ein Verhalten des Benutzers beziehungsweise eine Aktivität des mindestens einen Benutzers dar. Hierdurch kann die vom Benutzer getätigte mindestens eine Steuerungseingabe zur Steuerung des Geräts vorteilhafter Weise in einen Kontext gesetzt werden, und insbesondere kann auch eine Identifikation des mindestens einen Benutzers mithilfe der erfassten mindestens einen zweiten Benutzercharakteristik erfolgen. Das Gebäudemanagementsystem verwendet also nicht nur die vom Benutzer getätigten Steuerungseingaben und Bedienvorgaben an sich, sondern es beobachtet auch, wann, unter welchen Umständen der Benutzer welche Steuerungseingaben macht. Das Verhalten des Benutzers, insbesondere in Bezug auf die Steuerung des zumindest einen Geräts des Gebäudes, kann durch das Gebäudemanagementsystem somit deutlich effizienter verstanden und gelernt werden. Damit können in der zweiten Phase des Gebäudemanagementsystems durch dieses deutlich präzisiere Vorhersagen gemacht werden, wann und unter welchen Umständen ein Benutzer bestimmte Einstellungen des mindestens einen Geräts wünscht, damit diese Einstellungen dann vollkommen automatisiert und auch den Wünschen und Bedürfnissen eines jeweiligen Benutzers möglichst entsprechend umgesetzt werden.
Weiterhin ist es vorteilhaft, wenn die mindestens eine zweite Benutzercharakteristik in Abhängigkeit von mindestens einem erfassten Parameter der folgenden Parameter bestimmt wird: eine erfasste Körperhaltung des mindestens einen identifizierten Benutzers, eine erfasste Bewegung des mindestens einen identifizierten Benutzers und/oder zumindest eines Körperteils des mindestens einen identifizierten Benutzers und/oder eine verfolgte beziehungsweise getrackte Position des mindestens einen identifizierten Benutzers. Es kann also vorteilhafter Weise die Körperhaltung des mindestens einen Benutzers, wie beispielsweise auch Gesten, oder auch die Bewegung einzelner Körperteile, sowie auch dessen Position und Positionsverlauf beobachtet werden, um zu bestimmen, welcher Aktivität ein Benutzer im Moment nachgeht. Dadurch ist es vorteilhafter Weise wiederum möglich, vom Benutzer getätigte Bedienhandlungen beziehungsweise Steuerungseingaben mit seinen jeweiligen Aktivitäten in Beziehung zu setzen und daraus letztendlich wieder die Steuerungsregeln abzuleiten, gemäß welchen dann das Gebäudemanagementsystem in der zweiten Phase das mindestens eine Gerät automatisiert steuern kann. Zum Erlernen der Steuerungsregeln können dabei verschiedene Verfahren zum Einsatz kommen, auf die später noch näher eingegangen wird. Beispielsweise kann ein konventionelles maschinenlernendes Verfahren mit der aktuell vorherrschenden Aktivität des Benutzers als Vordergrund-Merkmal verwendet werden, insbesondere ein überwachtes Lernverfahren als modellbasiertes konventionelles maschinenlernendes Verfahren. Auch kann ein verstärkendes Lernverfahren ohne Modell und ohne Belohnung basierend auf dem Tripel Q(s, a, s') verwendet werden, wobei Q eine zu optimierende Nutzenfunktion darstellt, die vom aktuellen Zustand s, der in diesem Zustand ausgeführten Aktion a und dem Zustand s', in welchen ausgehend vom aktuellen Zustand s nach Durchführung der Aktion a gelangt wird, abhängt. Auch kann ,Q-Lernen ohne Modell aber mit Belohnung basierend auf dem Quadrupel Q(s, a, r, s') verwendet werden, wobei hier die Nutzenfunktion Q zusätzlich von der Belohnung r abhängt, die bei der Ausführung der Aktion A im Zustand s erhalten wird. Auch kann das sogenannte SARSA-Lernen ohne Model und mit Belohnung basierend auf dem Quintupel Q(s, a, r, s', a') verwendet werden, wobei hier zusätzlich noch die im neuen Zustand s' ausgeführte Aktion a' berücksichtigt wird. Im Rahmen dieses Konzepts (Sarsa)lassen sich vom Lerner auch Steuerungsaktionen ermitteln, die im Allgemeinen von den Benutzern des Gebäudes nicht angewendet werden oder angewandt worden sind, aber dennoch bezüglich Nutzerfreundlichkeit und weiteren Randbedingungen wie Energieeffizienz optimal sind.
Bei einer weiteren vorteilhaften Ausgestaltung der Erfindung wird basierend auf einer Analyse des mindestens einen erfassten Parameters des mindestens einen identifizierten Benutzers die mindestens eine zweite Benutzercharakteristik als eine von mehreren verschiedenen vorbestimmten Benutzeraktivitäten klassifiziert. Solche vorbestimmten Benutzeraktivitäten können beispielsweise das Sitzen an einem Tisch, zum Beispiel an einem Schreibtisch, darstellen, ein Gruppentreffen beziehungsweise Gruppenmeeting, eine Kaffeepause, zufälliges Umherlaufen oder auch ein spezielles Ereignis. Kann beispielsweise auf Basis einer Beobachtung und Analyse der oben beschriebenen Parameter wie Körperhaltung, Bewegung des Benutzers oder dessen Körperteile, seine Position oder sein Positionsverlauf, nicht eindeutig einer der vorbestimmten Gruppen wie das Sitzen an einem Tisch, dem Gruppentreffen, der Kaffeepause oder dem zufälligen Umherlaufen, zugeordnet werden, so kann die aktuell vom Benutzer ausgeführte Aktivität als spezielles Ereignis klassifiziert werden. Mit anderen Worten kann die Klasse der speziellen Ereignisse die Klasse darstellen, welcher Aktivitäten des Benutzers zugeordnet werden, die keiner anderen definierten Klasse eindeutig zuordenbar sind. Auf diese Weise ist es auch möglich, eine oder auch mehrere Aktivitätsklassen zu erlernen, die nicht vorab definiert wurden bzw. in der anfänglichen Lernphase aufgetreten sind. Die oben beschriebenen Benutzeraktivitäten, in die das Benutzerverhalten klassifiziert werden kann, stellen dabei lediglich nur Beispiele dar. Die definierten Klassen beziehungsweise Kategorien, in welche die Benutzeraktivitäten eingeteilt werden können, können dabei auch von der Art des Gebäudes abhängen, in welchem das Gebäudemanagementsystem zum Einsatz kommt. Beispielsweise sind die oben beschriebenen Aktivitätsklassen besonders vorteilhaft, wenn das Gebäudemanagementsystem zum Beispiel in einem Bürogebäude zum Einsatz kommt. In einem Wohngebäude dagegen, oder beispielsweise auch in einem Einfamilienhaus, können weitere oder andere Klassen für die vorbestimmten Benutzeraktivitäten definiert sein, wie zum Beispiel Schlafen, Kochen, Fernsehen, Treffen mit Freunden, Spieleabend, sportliche Aktivitäten, oder ähnliches. Das Benutzerverhalten lässt sich durch das Vorsehen dieser weiteren Aktivitätsklassen effizienter kategorisieren und auswerten.
Zur Kategorisierung beziehungsweise zum Bestimmen der aktuellen Benutzeraktivität können aber nicht nur oben beschriebene Parameter verwendet und analysiert werden, die auf einer optische Erfassung des Benutzers basieren, sondern beispielsweise auch solche, die auf einer akustischen Erfassung basieren. Daher stellt es eine weitere vorteilhafte Ausgestaltung der Erfindung dar, wenn Audiosignale mittels zumindest eines Audiosensors, zum Beispiel eines Mikrofons, aufgenommen werden, während sich der mindestens eine identifizierte Benutzer im Gebäude befindet, wobei die mindestens eine zweite Benutzercharakteristik, also insbesondere eine aktuelle Aktivität des Benutzers, in Abhängigkeit von dem aufgenommenen Audiosignal bestimmt wird, insbesondere unter Verwendung von Spracherkennung. Dadurch lässt sich vorteilhafter Weise eine noch genauere Zuordnung des aktuellen Benutzerverhaltens zu einer der oben beschriebenen Aktivitätskategorien vornehmen. Beispielsweise können hierfür erkannte Schlüsselwörter genutzt werden, um Aktivitäten genauer oder zuverlässiger zu klassifizieren. Zum Beispiel kann das Schlüsselwort „Kaffee“ auf eine Kaffeepause hindeuten, oder „Bett“ auf ein nachfolgendes Schlafengehen des mindestens einen Benutzers. Die Zuverlässigkeit der korrekten Kategorisierung von Aktivitäten des mindestens einen Benutzers lässt sich durch die Verwendung von aufgenommenen Akustischen Signalen, zu welchem Zweck zum Beispiel Mikrofone im Gebäude bzw. den einzelnen Zimmern oder Räumen verbaut werden können, deutliche erhöhen.
Bei einer weiteren vorteilhaften Ausgestaltung der Erfindung wird während der Lernphase zusätzlich mindestens eine Umfeldinformation, zum Beispiel Temperatur, Helligkeit, Luftreinheit, Lautstärke, usw., mittels mindestens eines Sensors erfasst, während sich der mindestens eine identifizierte Benutzer im Gebäude befindet, wobei die Steuerungsregeln zusätzlich in Abhängigkeit von der mindestens einen Umfeldinformationen ermittelt werden. Somit können vorteilhafter Weise auch Umfeldinformationen berücksichtigt werden. Derartige Umgebungs- beziehungsweise Umfeldinformationen können sich dabei auf das Benutzerumfeld innerhalb des Gebäudes beziehen, aber auch auf Umfeldinformationen außerhalb des Gebäudes, zum Beispiel Außentemperatur, Luftfeuchtigkeit, Wind, usw. Diese Umfeldinformationen helfen dabei ebenfalls, um die von einem Benutzer durchgeführten Steuerungseingaben deutlich besser verstehen und lernen zu können. Dies ist darin begründet, dass die Motivation eines Benutzers, eine bestimmte Steuerungseingabe zu tätigen, durch bestimmte Umfeldbedingungen motiviert sein kann. Ist es einem Benutzer zu warm, stellt er die Heizung auf einen niedrigeren Temperaturwert ein oder deaktiviert diese vollständig. Somit können diese Umfeldinformationen ebenfalls als Vordergrunds-Merkmal zum Erlernen geeigneter Steuerungsaktionen herangezogen werden.
Beispielsweise kann die Raumtemperatur innerhalb des Gebäudes, insbesondere innerhalb jeweiliger Zimmer, erfasst werden, so wie auch die Außentemperatur außerhalb des Gebäudes. Auch Lichtverhältnisse, wie zum Beispiel die aktuelle Helligkeit oder Beleuchtungsstärke, kann hierzu innerhalb des Gebäudes, insbesondere wieder innerhalb jeweiliger Zimmer, sowie auch außerhalb des Gebäudes erfasst werden. Im Allgemeinen können zudem Sensoren, mittels welchen diese Umfeldinformationen erfasst werden, Lichtsensoren sein, Temperatursensoren, Luftfeuchtigkeitssensoren, Rauchsensoren, Luftqualitätssensoren, CO₂-Sensoren, oder ähnliches. Durch die Berücksichtigung von Umfeldinformationen können Steuerungseingaben durch den Benutzer in einer Lernphase des Gebäudemanagementsystems wiederum in einen Kontext, der in diesem Fall durch die Umfeldinformationen bereitgestellt wird, eingebettet werden. Wann und unter welchen Umständen ein Benutzer bestimmte Einstellungen des zumindest einen Geräts des Gebäudes tätigt, kann somit auch unter diesem Kontext erlernt werden. Dies wiederum erhöht die Wahrscheinlichkeit, dass die aus der Beobachtung des Benutzers und seines Verhaltens abgeleiteten Regeln zur automatischen Steuerung des zumindest einen Geräts deutlich zutreffender die Bedürfnisse und Absichten des Benutzers in jeweiligen Situationen wiederspiegeln. Beispielsweise kann also in der Lernphase erfasst werden, ab welcher Helligkeit im Gebäude ein Benutzer dazu tendiert, das Licht an- oder auszuschalten oder zu dimmen. Diese Erkenntnis kann dann entsprechend in der zweiten Phase genutzt werden, um dann das Licht im Gebäude automatisiert gemäß diesen aus der Beobachtung des Benutzers hergeleiteten Regeln zu steuern.
Bei einer weiteren vorteilhaften Ausgestaltung der Erfindung werden zum Ermitteln bzw. Lernen der Steuerungsregeln durch das Gebäudemanagementsystem zweite Benutzercharakteristiken und/oder erfasste Umfeldinformationen, die einen kürzeren zeitlichen Abstand zu einer nachfolgenden Steuerungseingabe durch den mindestens einen Benutzer aufweisen, stärker gewichtet als erfasste zweite Benutzercharakteristiken und/oder Umfeldinformationen, die einen größeren zeitlichen Abstand zu der nachfolgenden Steuerungseingabe aufweisen. Die aus der Beobachtung des Benutzers gewonnen Informationen, das heißt sein Verhalten und seine Aktivitäten, sowie die korrespondierenden Umfeldinformationen, die während der Lernphase gewonnen wurden, können in einem Speicher mit einer entsprechenden Zeitinformation, zum Beispiel jeweiligen Zeitstempeln, abgelegt werden. Ein jeweiliges solches Zeitabstands-Tag, d.h. die zusätzlichen Informationen bezüglich des zeitlichen Abstands einer Aktion und/oder Umfeldinformation zu einer Steuerungseingabe, kann ebenfalls als Eingangsgröße für das Ermitteln bzw. Erlernen der Steuerungsregeln dienen. Ebenso werden in diesem Speicher die erfassten Steuerungseingaben des Benutzers zur Steuerung des zumindest einen Geräts, ebenfalls mit einer entsprechenden Zeitinformation bzw. Zeitstempel, abgelegt. Die Steuerungsregeln, die das Gebäudemanagementsystem auf Basis der Beobachtung des Benutzers letztendlich während und/oder nach der Lernphase ermittelt, sollen dazu dienen, wann beziehungsweise unter welchen Umständen, zum Beispiel bei welchen Aktivitäten und/oder in welchem Umgebungszustand für den Benutzer üblicherweise welche Einstellungen an dem Gerät vorgenommen werden sollen bzw. ausgeführt werden sollen. Treten diese Umstände während der zweite Phase erneut auf, so kann das Gebäudemanagementsystem automatisiert diese Einstellungen am Gerät vornehmen. Da die Motivation für eine bestimmte Einstellung des Geräts beziehungsweise für eine bestimmte Steuerungseingabe durch den Benutzer üblicherweise in einem relativ kurzen Zeitraum vor dieser Steuerungseingabe zu finden ist, ist es besonders vorteilhaft, zum Ermitteln bzw. Lernen der Steuerungsregeln durch das Gebäudemanagementsystem gerade diese Zeiträume vor den durch den Benutzer getätigten Steuerungseingaben zu analysieren und die aus diesem Zeitraum vor einer durch den Benutzer getätigten Steuerungseingaben gewonnenen Informationen beim Ermitteln bzw. Lernen der Steuerungsregeln stärker zu gewichten. Hierdurch lässt sich vorteilhafter Weise das Benutzerverhalten deutlich zutreffender mit den durch den Benutzer getätigten Steuerungseingaben in Beziehung setzen und die Motivation hinter bestimmten Bedienhandlungen vom Gebäudemanagementsystem deutlich besser und zutreffender verstehen und erlernen.
Beispielsweise kann es dabei auch vorgesehen sein, dass nur Daten, welche die mindestens eine zweite Benutzercharakteristik und/oder die mindestens eine Umfeldinformation betreffen und die innerhalb eines vorbestimmten Zeitintervalls vor der mindestens einen Steuerungseingabe erfasst wurden, zum Ermitteln bzw. Lernen und/oder zum Anpassen der Steuerungsregeln berücksichtigt werden. Die Auswertung der Daten kann somit vorteilhafter Weise auf vorbestimmte Zeiträume vor einer erfassten Benutzereingabe beziehungsweise Steuerungseingabe durch den Benutzer beschränkt sein. Dadurch lassen sich die oben beschriebenen Vorteile noch verstärkt erzielen und zusätzlich auch Zeit bei der Analyse sowie auch Rechenkapazität einsparen, da nicht notwendigerweise alle gespeicherten Daten zum Ermitteln bzw. Lernen bzw. Anpassen der Steuerungsregeln analysiert und ausgewertet werden müssen, sondern eben nur diese, welche in den oben spezifizierten Zeitraum fallen. Hierdurch kann der Featurevektor, das heißt die einen Zustand charakterisierenden Merkmale, die dem System als Eingangsgrößen zugeführt werden, auf die wesentlichen Informationen beschränkt werden.
Alternativ oder zusätzlich können auch die in einem kurzen Zeitraum nach einer Steuerungseingabe durch den Benutzer gewonnenen Informationen, das heißt wiederum betreffend seine Aktivitäten und/oder die Umgebungsinformationen, zum Ermitteln bzw. Lernen der Steuerungsregeln, oder auch zu deren Anpassung genutzt werden. Dies ist vorteilhaft, da sich manchmal die Gründe für eine Steuerungseingabe des Benutzers in einer nach dieser Eingabe durchgeführten Aktivität finden lassen, zum Beispiel wenn ein Benutzer die Temperatur jedes Mal kurz von dem Schlafen gehen erniedrigt, oder das Licht vor dem Verlassen des Gebäudes ausschaltet. Durch die gezielte Betrachtung eines bestimmten Zeitraums um eine durch den Benutzer getätigten Steuerungseingabe lassen sich die kausalen Beziehungen zwischen dem Benutzerverhalten, den Umgebungsinformationen und der getätigten Steuerungseingabe deutlich besser und zutreffender ableiten und dann entsprechend beim Ermitteln bzw. Lernen der Steuerungsregeln für die automatische Steuerung berücksichtigen.
Die durch das Gebäudemanagementsystem ermittelten Steuerungsregeln müssen dabei nicht notwendiger Weise fix sein. Auch während der zweiten Phase kann das Benutzerverhalten weiterhin beobachtet werden, sowie auch die Umfeldinformationen weiterhin erfasst werden. Erfolgt dann während der automatisierten Steuerung des zumindest einen Geräts in der zweiten Phase dennoch eine durch den Benutzer getätigte Steuerungseingabe zur Steuerung des Geräts, insbesondere zum Ändern einer bestimmten Einstellung, so können die ermittelten Steuerungsregeln abgeändert und angepasst werden. Somit können auch die während der zweiten Phase weiterhin gewonnenen Informationen genutzt werden, um die Steuerungsregeln weiter anzupassen, die automatisierte Steuerung weiter zu verfeinern und noch gezielter an die Bedürfnisse des Benutzers anzupassen.
Bei einer weiteren vorteilhaften Ausgestaltung der Erfindung wird in der zweiten Phase und im Fall, dass der mindestens eine Benutzer erneut identifiziert wird, die mindestens eine erste und/oder zweite Benutzercharakteristik und/oder die Umgebungsinformation erneut bestimmt und das mindestens eine Gerät in Abhängigkeit von der erneut bestimmten ersten und/oder zweiten Benutzercharakteristik und/oder Umgebungsinformation gesteuert. Mit anderen Worten kann also dem erneut erfassten Benutzerverhalten und den erneut erfassten Umfeldinformationen gemäß den ermittelten Steuerungsregeln entsprechende Steuerungseingabe zugeordnet werden, die der Benutzer in der gegebenen Situation wahrscheinlich vornehmen würde, und diese Steuerungseingaben können dann vorteilhafter Weise automatisiert durch das Gebäudemanagementsystem umgesetzt werden. Idealer Weise muss also der Benutzer letztendlich, das heißt nach der Lernphase, keine Steuerungseingaben mehr selbststätig vornehmen.
Bei einer weiteren vorteilhaften Ausgestaltung der Erfindung weist das Gebäude mehrere Zimmer und/oder Etagen auf, wobei die Steuerung des mindestens einen Geräts separat für jedes Zimmer und/oder für jede Etage durchgeführt wird. Die zuvor beschriebenen Maßnahmen können also separat für ein jeweiliges Zimmer eines Gebäudes oder auch nur für eine jeweilige Etage umgesetzt werden. Mit anderen Worten kann das Gebäudemanagementsystem Aktionen in Abhängigkeit vom Ort erlernen. Der Ort im Gebäude, d.h. die Etage und/oder das Zimmer bzw. der Raum kann ebenfalls als Eingangsgröße zum Erlernen der Steuerungsregeln dienen. Somit können also jeweilige Einstellungen betreffend das Licht oder das Raumklima zimmerspezifisch und abgestimmt auf die jeweiligen Benutzer, die sich gerade in dem jeweiligen Zimmer befinden, vorgenommen werden. Auch die Erfassung von Informationen, d.h. die Aktivitäten des Benutzers, die Umfeldinformationen und die Steuerungseingaben, können dabei zimmerspezifisch erfasst und auch zimmerspezifisch gespeichert und ausgewertet werden, um zimmerspezifische Steuerungsregeln zu ermitteln bzw. zu lernen. Gleiches gilt auch für verschiedene Etagen des Gebäudes. Dadurch lässt sich beispielsweise berücksichtigen, dass das Verhalten eines Benutzers in Bezug auf die Steuerung des zumindest einen Geräts auf unterschiedlichen Etagen auch unterschiedlich ausfällt, zum Beispiel sind Benutzergewohnheiten, zum Beispiel bezüglich der Lichtdimmung oder auch der Heizung, in einem Keller oft anders als im Erdgeschoss.
Besonders vorteilhaft ist es auch, wenn die Steuerung des mindestens einen Geräts in Abhängigkeit davon durchgeführt wird, ob der mindestens eine Benutzer die einzige Person im Gebäude ist, insbesondere in einem Zimmer des Gebäudes ist, oder ob der mindestens eine Benutzer Teil eine Benutzergruppe aus mehreren Benutzern ist, die sich zur gleichen Zeit im Gebäude, insbesondere in einem Zimmer des Gebäudes, befinden. Auch bereits in der Lernphase ist es möglich, das Benutzerverhalten, speziell in Bezug auf die Steuerung des zumindest einen Geräts, zu erfassen und zu analysieren, und dabei zusätzlich zu berücksichtigen bzw. zu unterschieden, ob sich der Benutzer gerade alleine in einem Zimmer oder im Allgemeinen im Gebäude befindet, oder Teil einer Benutzergruppe darstellt. Gegebenenfalls kann sich das Benutzerverhalten ändern, je nachdem ob der Benutzer Teil einer Gruppe ist oder nicht. Somit können auch vorteilhafterweise die Vorlieben bzw. Präferenzen eines Benutzers in Abhängigkeit seines Verhaltens oder seiner Tätigkeit in der Gruppe erlernt werden. Auch dies kann nun vorteilhafter Weise durch das Gebäudemanagementsystem, insbesondere durch den intelligenten Agenten des Gebäudemanagementsystems, der später näher beschrieben wird, erlernt werden. Die Steuerung des zumindest einen Geräts in der zweiten Phase kann somit ebenfalls vorteilhafter Weise auf das Verhalten des Benutzers angepasst werden, je nachdem ob dieser sich als Einzelperson in einem Zimmer befindet oder Teil einer Gruppe ist. Auch die Identitäten der jeweiligen Gruppenmitglieder können bei einer solchen Anpassung berücksichtigt werden. Die durch das Gebäudemanagementsystem ermittelten Steuerungsregeln können damit vorteilhafter Weise nicht nur von Benutzer zu Benutzer variieren, sondern auch von Benutzergruppe zu Benutzergruppe. Beispielsweise könne so auch für eine bestimmte Benutzergruppe bestehend aus mehreren bestimmten identifizierten Benutzern Verhaltenscharakteristiken und Steuerungseingaben erfasst werden und zusammen mit der Auswertung der erfassten Umfeldinformationen entsprechende Steuerungsregeln speziell für diese Benutzergruppe ermittelt werden. Entsprechend können so vorteilhafterweise also auch für jeweilige Benutzergruppen entsprechende Steuerungsregeln ermittelt werden, die für die jeweilige Benutzergruppe optimal sind und die Vorlieben dieser Gruppe in Bezug auf die Steuerung des zumindest einen Geräts möglichst gut wiederspiegeln.
Wie bereits eingangs erwähnt basiert das Gebäudemanagementsystem auf einem lernenden Verfahren. Dabei ist es besonders vorteilhaft, wenn das Gebäudemanagementsystem insbesondere mittels eines bestärkenden Lernverfahrens, insbesondere eines Deep-Q-Lernverfahrens unter Verwendung eines künstlichen neuronalen Netzes als ein intelligenter Agent, die Steuerungsregeln ermittelt bzw. lernt und/oder die ermittelten bzw. erlernten Steuerungsregeln anpasst und die Steuerung durchführt.
Bei einem bestärkenden Lernverfahren oder auch verstärkendes Lernen genannt, wird von einem Agenten selbstständig eine Strategie erlernt, um erhaltene Belohnungen zu maximieren. Der große Vorteil ist dabei, dass dem Agenten nicht vorgezeigt wird, welche Aktion in welcher Situation die beste ist, sondern er erhält zu bestimmten Zeitpunkten eine Belohnung anhand welcher er eine Nutzenfunktion approximiert, die beschreibt, welchen Wert ein bestimmter Zustand oder eine Aktion hat. Das Q-Lernen stellt dabei eine modellfreie Technik des verstärkenden Lernens dar. Es müssen also dem System vorteilhafter Weise keinerlei Vorgaben gemacht werden. Das Gebäudemanagementsystem erarbeitet sich die benutzerspezifischen Steuerstrategien vollkommen selbstständig. Dies bietet einen enorm hohen Bedien- und Benutzungskomfort, da von Seiten des Benutzers oder des Einrichters des Systems keinerlei Vorgaben oder Spezifikationen gemacht werden müssen. Dies bedeutet, dass es keines technisch versierten Einstellers bedarf, der das Gebäudemanagementsystem kommissioniert.
Wie bereits erwähnt erhält der intelligente Agent eine Belohnung, anhand von welcher er selbstständig die richtige Steuerungsstrategie erarbeiten kann. Dabei ist es besonders vorteilhaft, wenn diese Belohnung umso höher ist, je seltener durch den mindestens einen Benutzer Steuerungseingaben ausgeführt werden. Die Zielsetzung dieses lernenden Verfahrens ist es also, die durch den Benutzer getätigten manuellen Steuerungseingaben in ihrer Anzahl zu minimieren und insbesondere im Idealfall vollständig zu eliminieren. Die durch den Benutzer getätigten Steuerungseingaben stellen also ein Feedback, d.h. eine Rückmeldung, für das Gebäudemanagementsystem dar. Nimmt beispielsweise der Benutzer in der zweiten Phase des Gebäudemanagementsystems dennoch eine Einstellungen des zumindest einen Geräts selbst manuell vor, so kann diese manuelle Einstellung wiederum als Feedback bzw. Rückmeldung für das Gebäudemanagementsystem dienen. Darauf basierend können die ermittelten Steuerungsregeln verändert werden, insbesondere derart, dass wiederum die Belohnung maximiert wird. Diese Vorgehensweise wird vom Gebäudemanagementsystem fortwährend wiederholt, bis die Anzahl an manuell getätigten Steuerungseingaben durch den Benutzer verringert ist und letztendlich keine Steuerungseingaben durch den Benutzer mehr getätigt werden. Hierzu kann es beispielsweise vorgesehen sein, dass nach jeder Aktion, die vom intelligenten Agenten durchgeführt wird, also beispielsweise bei jeder Steuerungsaktion zur Steuerung des zumindest einen Geräts durch das Gebäudemanagementsystem, überprüft wird, ob eine Steuerungseingabe durch den mindestens einen identifizierten Benutzer durchgeführt wurde, beispielsweise innerhalb eines vorbestimmten Zeitraums nach der durch den intelligenten Agenten durchgeführte und das zumindest eine Gerät betreffende Steuerungsaktion, und falls keine Steuerungseingabe durch den mindestens einen Benutzer durchgeführt wurde, insbesondere innerhalb dieses vorbestimmten Zeitraums, der intelligente Agent die Belohnung erhält.
Der intelligente Agent kann also vorteilhafter Weise die Steuerungsregeln schrittweise anpassen mit dem Ziel seine Belohnung zu optimieren und dadurch seine Steuerungs- und Regelstrategie fortwährend verbessern. Hierzu können immer neu gewonnene Informationen genutzt werden. Daher stellt es eine weitere vorteilhafte Ausgestaltung der Erfindung dar, wenn der intelligente Agent schrittweise die Steuerungsregeln, die dem mindestens eine Benutzer zugeordnet sind, basierend auf neu erfassten Informationen betreffend den mindestens eine Benutzer, insbesondere neu bestimmte zweite Benutzercharakteristiken und neu erfasste Steuerungseingaben, insbesondere auch neu erfasste Umfeldinformationen, mit dem Ziel, die Belohnung zu maximieren, anpasst. Die Vorlieben jeweiliger Benutzer und Benutzergruppen können so auf besonders effiziente Weise vollkommen selbstständig vom Gebäudemanagementsystem erlernt werden und die Steuerungsstrategie im Laufe der Zeit noch weiter optimiert werden.
Dabei ist es weiterhin besonders vorteilhaft, wenn nicht nur gemäß dem sogenannten On-Policy-Q-Learning auf bekannte Aktionen zurückgegriffen wird, sondern auch auf neuartige unbekannte Aktion gemäß dem sogenannten Off-Policy-Q-Learning. Dies ist vorteilhaft, da die von Benutzern abgeschauten und erlernten Aktionen (Policy) nicht immer optimal in Bezug auf die Energieverbrauchsminimierung sind.
Dies kann durch folgendes Beispiel veranschaulicht werden: Beim Betreten eines abgedunkelten Raumes schaltet ein Benutzer immer erst das Licht ein und fährt dann die Rollläden hoch und schaltet anschließend das Licht wieder aus. Das kurzzeitige Einschalten des Lichts führt damit zu einem Energieverbrauch. Die bis dato unbekannte Aktionsfolge schon vor dem Betreten des Raumes sofort die Rollläden hochzufahren und das Licht erst gar nicht einzuschalten führt zur gleichen Benutzerzufriedenheit, aber in dieser unbekannten Schaltkombination zu keinem Energieverbrauch. Ein derartiges Trainieren ist im Rahmen einer erweiterten Q-Learning-Methode möglich bei der auch unbekannte Schaltaktionen exploriert werden. Insbesondere können neue, d.h. von einem Benutzer so nicht vorgelebte Auswahlen von Handlungssequenzen ausprobiert und hierdurch erlernt werden. Das System kann also beispielsweise als solche unbekannte Aktionsfolge schon vor dem Betreten des Raumes sofort die Rollläden hochfahren ohne das Licht einzuschalten, obwohl diese Aktionsfolge vom Benutzer so nicht vorgelebt wurde. Ob nun diese Aktionsfolge tatsächlich auch zur Benutzerzufriedenheit führt und damit vom Benutzer akzeptiert wird, kann wiederum daran erkannt werden, ob der Benutzer nach einer solchen „Test“-Aktionsfolge eine Steuerungseingabe durchführt oder nicht.
Daher stellt es eine weitere vorteilhafte Ausgestaltung der Erfindung dar, dass in Abhängigkeit von der mindestens einen vorbestimmten Energiespar-Bedingung die Steuerungsregeln durch erweitertes Q-Learning variiert werden, insbesondere so dass ein Energieverbrauch und ein Benutzerkomfort gleichzeitig optimiert werden. Der Benutzerkomfort kann zum Beispiel in Abhängigkeit von den von dem mindestens einen Benutzer durchgeführten Steuerungseingaben bemessen werden, insbesondere in Abhängigkeit von dem Auftreten von durch den Benutzer getätigten Steuerungseingaben. Der Energieverbrauch des mindestens einen Geräts kann zum Beispiel in der Lernphase ermittelt werden, indem der Energieverbrauch durch geeignete Erfassungsmittel gemessen wird. Mit anderen Worten kann von den basierend auf dem Benutzerverhalten erlernten Steuerungsregeln derart abgewichen werden, dass durch diese Variation der Energieverbrauch verringert bzw. optimiert wird. Anschließend wird die benutzerseitige Akzeptanz dieser Abweichung bzw. Variation überprüft, indem überprüft wird, ob innerhalb eines vorbestimmbaren Zeitraums nach der automatischen Steuerung des mindestens einen Geräts gemäß den variierten Steuerungsregeln eine manuelle Steuerungseingabe durch den Benutzer erfasst wird. Falls nicht, gilt die Benutzerkomfortfunktion weiterhin als optimiert und die variierten Steuerungsregeln werden beibehalten, andernfalls nicht.
Bei einer weiteren vorteilhaften Weiterbildung der Erfindung bestimmt das Gebäudemanagementsystem für jede mögliche definierte Einstellung des mindestens einen Geräts einen Q-Wert, der die Wahrscheinlichkeit wiedergibt, dass die jeweilige Einstellung in einem gegebenen, bestimmten Zustand, welcher als eine Eingangsgröße vom künstlichen neuronalen Netz empfangen wird, vorgenommen wird, und wobei der bestimmte Zustand durch mindestens einen, vorzugsweise mehrere, besonders bevorzugt alle der folgenden Zustands-Parameter bestimmt wird: einer Benutzer-ID, die dem mindestens einen Benutzer zugeordnet wird, wenn der mindestens eine Benutzer auf der Basis der mindestens einen ersten Benutzercharakteristik identifiziert wird, der mindestens einen zweiten Benutzercharakteristik, eines aktuellen Zustands bzw. einer aktuellen Einstellung des mindestens einen Geräts und der mindestens einen Umfeldinformation, wobei die Einstellung, für welchen der Q-Wert oberhalb eines definierten Grenzwerts liegt und/oder für welche der Q-Wert den Höchsten darstellt, durch das Gebäudemanagementsystem umgesetzt wird.
Mit anderen Worten kann also ein bestimmter Zustand charakterisiert werden durch die Identität des Benutzers beziehungsweise auch die Identität mehrerer Benutzer im Falle einer Benutzergruppe, der mindestens einen zweiten Benutzercharakteristik, das heißt also die Aktivität, die der Benutzer gerade durchführt, den aktuellen Zustand des mindestens einen Geräts, das heißt also beispielsweise in welcher aktuellen Einstellung sich das Gerät gerade befindet, sowie auch der mindestens einen Umfeldinformation, zum Beispiel also der aktuellen Raumtemperatur, Helligkeit, oder ähnliches. Für einen zu charakterisierenden Zustand, der dem neuronalen Netz als Eingangsgröße zugeführt wird, ermittelt das neuronale Netz, welche der möglichen Einstellungen der Benutzer in dieser gegebenen Situation nun am wahrscheinlichsten durchführen würde. Hierzu kann für alle der möglichen Einstellungen des Geräts ein entsprechender Q-Wert berechnet werden. Der Q-Wert stellt dabei den integralen R-Wert dar, wobei der R-Wert den numerischen Wert der oben beschriebenen Belohnung darstellt. In der Lernphase ermittelt das System, welche Belohnungen sich ausgehend von gegebenen Zuständen durch Ausführen bestimmter Steuerungsaktionen zur Steuerung des mindestens einen Geräts erwarten lassen. Wird dabei beispielsweise nur eine einzeln vorzunehmende Steuerungsaktion betrachtet, so wird ausgehend vom aktuellen Zustand diejenige gewählt, welche zu dem neuen Zustand mit dem größten zu erwartenden R-Wert führt. Sollen dagegen mehrere Steuerungsaktionen nacheinander ausgeführt werden, um ausgehend von einem gegebenen Zustand in einen bestimmten anvisierten Zustand zu kommen, so wird derjenige Weg bzw. diejenige Abfolge von Steuerungsaktionen gewählt, die die Summe der einzelnen auf diesem Weg zu erwartende R-Werte maximiert. Dieser integrale R-Wert wird durch den oben genannten Q-Wert beschrieben. Die Einstellung mit dem höchsten Q-Wert kann dann entsprechend vom Gebäudemanagementsystem umgesetzt werden. Diese Umsetzung kann zusätzlich auch an die weitere Bedingung geknüpft sein, dass der so berechnete Q-Wert einen bestimmten Grenzwert überschreitet. Die Berechnung des Q-Werts basiert dabei vorzugsweise auf den in Abhängigkeit vom Benutzerverhalten ermittelten Steuerungsregeln.
Da gerade bei mehreren aufeinanderfolgen auszuführenden Steuerungsaktionen die Ermittlung der optimalen Schaltfolge sehr komplex sein kann, ist die Verwendung eines neuronalen Netzes besonders vorteilhaft.
Bei einer weiteren vorteilhaften Ausgestaltung der Erfindung werden in Abhängigkeit von mindestens einer vorbestimmten Energiesparbedingung die Steuerungsregeln ermittelt und/oder angepasst. Damit lassen sich vorteilhafter Weise auch bestimmte Randbedingungen betreffend die Energieeffizienz definieren, wie dies bereits oben beschrieben wurde. Vorzugsweise sind aber derartige Energieeffizienzvorgaben den Vorlieben des Benutzers und dessen Komfort untergeordnet. Neben den oben genannte Beispielen kann eine solche Energiesparbedingung beispielsweise auch vorsehen, dass, wenn der mindestens eine Benutzer, insbesondere auch alle Benutzer eines Gebäudes, dieses Gebäude verlassen haben, das zumindest eine Gerät, wie beispielsweise eine Heizung oder das Licht, abgeschaltet wird oder zumindest in seiner Leistung reduziert wird. Auch kann beispielsweise das Licht in einem bestimmten Zimmer abgeschaltet werden, sobald sich kein Benutzer mehr in diesem Zimmer befindet. Ein weiteres Beispiel für eine solche Energiesparbedingung kann beispielsweise sein, dass, wenn zwei verschiedene Einstellungen für das zumindest eine Gerät zumindest näherungsweise die gleiche Wahrscheinlichkeit gemäß dem oben beschriebenen Q-Wert aufweisen, das Gebäudemanagementsystem die Einstellung mit dem geringeren Energieverbrauch umsetzt. Neben diesen zusätzlichen optionalen Energiesparbedingungen, die einen besonders effizienten Betrieb des zumindest einen Geräts erlauben, und diesen effizienten Betrieb zusätzlich vorteilhafter Weise in Einklang mit den Vorlieben eines Benutzers bringen, wird dabei bereits schon durch die Tatsache, dass die Steuerung des zumindest einen Geräts des Gebäudes automatisiert erfolgt, Energie gespart. Dies ist dadurch bedingt, dass Situationen besser vermieden werden können, in denen Benutzer aus Bequemlichkeit oder Vergesslichkeit zur Energieverschwendung neigen, wie zum Beispiel vergessen, das Licht beim Verlassen eines Raumes oder des Gebäudes abzuschalten.
Besonders vorteilhaft ist es jedoch, wenn zur Energieeinsparung der Agent per erweitertes Q-Learning auch vom Benutzer nicht vorpraktizierte Einstellungen erlernt, die aber weitaus energieeffizienter sind und vom Benutzer immer noch bzw. weiterhin akzeptiert werden, wie dies zum Beispiel oben beschrieben wurde.
Bei einer weiteren vorteilhaften Ausgestaltung der Erfindung ist der intelligente Agent mit Videosensoren zum Tracken der Position des mindestens einen Benutzers verbunden, wobei die Videosensoren ein sensorintegriertes Deep-Learning-Verfahren zum Tracken der Position des mindestens einen Benutzers, und insbesondere zum Wiedererkennen beziehungsweise ReIdentifizieren des mindestens einen Benutzers im Falle, dass der mindestens eine Benutzer ein erstes Sichtfeld eines ersten Videosensors der Videosensoren verlässt und ein zweites Sichtfeld eines zweiten Videosensors der Videosensoren betritt, verwenden, wobei sich das erstes Sichtfeld und das zweites Sichtfeld nicht überschneiden. Durch den Einsatz von Videosensoren, wie beispielsweise Kameras, ist es vorteilhafter Weise möglich, die Position des Benutzers im gesamten Gebäude nachzuverfolgen. Hierzu ist vorzugsweise in einem jeweiligen Raum beziehungsweise Zimmer des Gebäudes mindestens eine Kamera angeordnet. In Kenntnis der Position des Benutzers kann beispielsweise die oben beschriebene zimmerspezifische Steuerung des zumindest einen Geräts umgesetzt werden. Dieses Kamerasystem ist dabei insbesondere in Bezug auf die benutzerspezifische Steuerung des zumindest einen Geräts besonders vorteilhaft, denn für den Fall, dass sich zum gleichen Zeitpunkt mehrere Personen beziehungsweise Benutzer im Gebäude befinden, die Positionen der jeweiligen Benutzer und auch deren Positionsverlauf mittels des Kamerasystems erfasst werden kann, insbesondere ohne die Benutzer dabei zu verwechseln. Diese Kameras können nicht nur zur Verfolgung der Position des Benutzers genutzt werden, sondern beispielsweise auch um die mindestens eine zweite Benutzercharakteristik, also beispielsweise die durch den Benutzer gerade ausgeführten Aktionen, zu bestimmen. Da gerade bei Bild- beziehungsweise Videoaufnahmen enorm große Datenmengen anfallen können, ist es besonders vorteilhaft, wenn die Videosensoren selbst über ein sensorintegriertes Deep-Learning-Verfahren verfügen, mittels welchem die erfassten Sensordaten ausgewertet werden können. Somit ist es vorteilhafter Weise möglich, nur bestimmte Ergebnisse oder Ergebnisse der durch die Videosensoren ausgeführten Analyse an den intelligenten Agenten zu übermitteln und nicht die gesamten erfassten Videodaten. Hierdurch kann der Datenverkehr deutlich verringert werden und das Gebäudemanagementsystem deutlich effizienter betrieben werden. Um mittels des Kamerasystems die Position eines Benutzers, wenn dieser von Raum zu Raum geht oder zumindest einen Sichtbereich einer ersten Kamera verlässt und in den einer zweiten Kamera eintritt, zu verfolgen, selbst wenn die jeweiligen Sichtbereiche der einzelnen Kameras nicht überlappen oder nur teilweise, jedoch nicht an allen möglichen Übergangsbereichen, ist es besonders vorteilhaft, wenn die einzelnen Videosensoren zum Wiedererkennen des mindestens einen Benutzers ausgelegt sind. Zu diesem Zweck können zum Beispiel gleich einhergehend mit der Identifizierung des mindestens einen Benutzers auch geeignete Wiedererkennungsmerkmale dieses Benutzers erfasst werden. Hierzu eignen sich besonders Widererkennungsmerkmale, die die äußere Erscheinung des Benutzers betreffen, wie zum Beispiel die Kleidung, die Farbe der Kleidung, Haarfarbe oder Hautfarbe, Gangart bzw. Gangcharakteristik oder ähnliches. Derartige Merkmale lassen sich besonders einfach von einer Kamera, auch bei einer relativ großen Entfernung zum Benutzer und unter verschiedenen Blickwinkeln, leicht erkennen. Dies hat den großen Vorteil, dass sich die Sichtfelder der einzelnen Kameras nicht notwendiger Weise vollständig überschneiden müssen und jeden Bereich eines jeweiligen Zimmers des Gebäudes erfassen müssen und zudem kostengünstige Kameras verwendet werden können. Hierdurch kann das Videosensorsystem deutlich kostengünstiger und einfacher ausgestaltet werden.
Des Weiteren betrifft die Erfindung auch ein Gebäudemanagementsystem zum automatischen Steuern zumindest eines Geräts eines Gebäudes, wobei das Gebäudemanagementsystem dazu ausgelegt ist, in einer Lernphase des Gebäudemanagementsystems mindestens einen Benutzer des Gebäudes auf Basis mindestens einer erfassten ersten Benutzercharakteristik zu identifizieren, mindestens eine Steuerungseingabe, die vom mindestens einen Benutzer zum Steuern des zumindest einen Geräts ausgeführt wird, zu erfassen, während der mindestens eine identifizierte Benutzer sich innerhalb des Gebäudes befindet, und in Abhängigkeit von der mindestens einen erfassten Steuerungseingabe des mindestens einen identifizierten Benutzers Steuerungsregeln zu ermitteln, welche dem mindestens einen identifizierten Benutzer zugeordnet werden. Weiterhin ist das Gebäudemanagementsystem dazu ausgelegt, in einer zweiten Phase des Gebäudemanagementsystems das zumindest eine Geräte des Gebäude automatisch gemäß den ermittelten Steuerungsregeln zu steuern, während sich der mindestens eine Benutzer im Gebäude befindet.
Die für das erfindungsgemäße Verfahren und seine Ausführungsformen beschriebenen Vorteile gelten in gleicher Weise für das erfindungsgemäße Gebäudemanagementsystem. Darüber hinaus ermöglichen die im Zusammenhang mit dem erfindungsgemäßen Verfahren und seinen Ausgestaltungen genannten Verfahrensschritte die Weiterbildung des erfindungsgemäßen Gebäudemanagementsystems durch weitere korrespondierende gegenständliche Merkmale.
Das Gebäudemanagementsystem kann dabei in mehrere Ebene bzw. Layer gegliedert sein. Darunter fällt zum Beispiel eine physische Ebene, die die Hardware innerhalb des Gebäudes umfasst, einschließlich individueller Geräte, Transducer, und Netzwerk-Hardware. Weiterhin ist es bevorzugt, dass die meisten elektrischen Komponenten des Gebäudemanagementsystems Datenübertragung über Stromkabel des Gebäudes nutzen. Insbesondere basiert die kabelbasierte Vernetzung der Schnittstellen der verschiedenen Sensoren, zum Beispiel der Kameras, Mikrofone und der Umfeldsensoren, auf Ethernet, RS-485 und/oder CAN. Die Vernetzung kann auch kabellos ausgeführt sein, und basiert dann vorzugswiese auf Wi-Fi, ZigBee, sub-1-GHs ISM-Bändern und/oder proprietären Systemen. Eine kabellose Vernetzung bzw. ein kabellos vermaschtes Netz kann vorteilhafterweise die Kosten für eine aufwendige Verkabelung im Falle eines Nachrüstens vermeiden und die Installation beschleunigen. Eine weitere Ebene stellt die Kommunikationsebene dar, die den Austausch von Informationen und Anfragen zwischen dem Agenten und den Geräten bzw. elektrischen Komponenten und Sensoren ermöglicht. Die Kommunikationsebene leitet auch auszuführende Aktionen an geeignete Effektoren und Stellelemente bzw. Schaltaktoren zur Ausführung weiter. Dabei können Kommunikationsprotokolle wie KNX, Lonworks, Dali, BACnet, LonMark, und Modbus, d.h. konventionelle Gebäudemanagementbusse, verwendet werden. Eine weitere Ebene stellt die Informationsebene dar, die die Aufgabe des Sammelns und Speicherns der Status-Daten der Sensoren übernimmt, um Wissen zu generieren, dass vom Agenten genutzt werden kann. Die Informationsebene speichert das beschaffte Wissen in einer Datenbank und aktualisiert die gelernten Konzepte, um die Geräte des Gebäudes zu steuern. Die Informationsebene benachrichtigt auch die Entscheidungsebene über das Vorhandensein neuer Daten. Die Entscheidungsebene umfasst den intelligenten Agenten, der die Geräte gemäß dem allgemeinen Status in der Informationsebene steuert. Der intelligente Agent ist dabei die Entscheidungs-Komponente des Gebäudemanagementsystems bzw. der Gebäudeautomatisierung. Dabei kann der intelligente Agent auch den Entscheidungsprozess auf mehrere verschiedene Komponenten des Gebäudes verteilen. Der intelligente Agent kann wie zuvor beschrieben ausgebildet sein und Technologien künstlicher Intelligenz und maschinenlernender Verfahren vereinen, die die Analyse umfassender Datensätze der Video- und Audiosensoren sowie der Umfeldsensoren ermöglichen. Der intelligente Agent verwendet dabei Deep-Learning-Technologie, die die Definition von Merkmalen auf Rohdatenebene ermöglicht (Videoframes, Audiosequenzen und Zählerstände), und extrahiert automatisch die relevanten Informationen für Klassifikationen. Hier wird die künstliche Intelligenz nun zum Ermessen des momentanen Zustandes herangezogen und noch nicht zur Entscheidung über die darauffolgenden Entscheidung Schaltaktion. Das Auswerten und Klassifizieren von Bilddaten und Audiosignalen mit Deep-Learning-Methoden geschieht dabei zum Zweck des Messens des momentanen Zustandes. Hierbei werden die Person und deren Aktivität im Bild erkannt. Der intelligente Agent erkennt somit auch die Aktivitäten der Benutzer basierend auf deren Detektion und Tracking. Der intelligente Agent bewältigt auch Situationen, in welchen sich vielzählige Benutzer gleichzeitig in derselben Umgebung befinden, insbesondere mit der Fähigkeit das Verhalten eines einzelnen Benutzers in einer Multi-User-Umgebung zu beobachten. Der intelligente Agent benutzt dann die beobachteten Aktionen bzw. Verhaltenssequenzen der Bewohner bzw. Benutzer, die zum Beispiel in der Lernphase über typischerweise 15 Tage hinweg beobachtet wurden, um gemäß dem beschriebenen Verfahren das Ziel die Anzahl der manuellen Steuerungshandlungen der Benutzer zu minimieren und die Energieeffizienz des Gebäudes dabei gleichzeitig zu maximieren.
Während der Trainingsphase bzw. Lernphase versucht also der Agent per einhergehender Simulation (on-line) die aus dem Kontext heraus vorgenommenen Steueraktion zu erlernen, um sie anschließend im Automode, d.h. der zweiten Phase, selbständig zur vollsten Benutzerzufriedenheit umzusetzen, wobei als Nebenbedingung der Energieverbrauch des Gebäudes niedrig gehalten werden soll. Die Benutzerzufriedenheit bzw. Der Benutzerkomfort lässt sich dann anhand der vom Benutzer vorgenommen manuellen Steuerungseingriffe ermessen.
Der Algorithmus des intelligenten Agenten passt sich dabei selbst an, insbesondere durch den Zugriff auf vielzählige Langzeitbeobachtungsdaten mit menschlichen Reaktionen, d.h. den Steuerungseingaben, die Trainingsdaten für Verhaltens-Aktionsmuster mit den Vorlieben und Bedürfnissen der Benutzer liefern. Auch ist der intelligente Agent dazu ausgelegt, insbesondere mittels erweitertem Q-Learning, neue Auswahlen von Handlungssequenzen auszuprobieren und hierdurch zu lernen.
Die Erfindung umfasst auch die Kombinationen der beschriebenen Ausführungsformen.
Weitere Vorteile, Merkmale und Einzelheiten der Erfindung ergeben sich aus der nachfolgenden Beschreibung bevorzugter Ausführungsbeispiele sowie anhand der Zeichnung. Dabei zeigen:

1 eine schematische Darstellung eines Gebäudes mit einem Gebäudemanagementsystem gemäß einem Ausführungsbeispiel der Erfindung;
2 eine schematische Darstellung einzelner Systemkomponenten des Gebäudemanagementsystems gemäß einem Ausführungsbeispiel der Erfindung;
3 eine schematische Darstellung der Lernphase des Gebäudemanagementsystems gemäß einem Ausführungsbeispiel der Erfindung; und
4 eine schematische Darstellung einer zweiten Phase des Gebäudemanagementsystems, welche eine Anwendungsphase darstellt, gemäß einem Ausführungsbeispiel der Erfindung.

Bei den im Folgenden erläuterten Ausführungsbeispielen handelt es sich um bevorzugte Ausführungsformen der Erfindung. Bei den Ausführungsbeispielen stellen die beschriebenen Komponenten der Ausführungsformen jeweils einzelnen, unabhängig voneinander zu betrachtende Merkmale der Erfindung dar, welche die Erfindung jeweils auch unabhängig voneinander weiterbilden und damit auch einzeln oder in einer anderen als der gezeigten Kombination als Bestandteil der Erfindung anzusehen sind. Des Weiteren sind die beschriebenen Ausführungsformen auch durch weitere der bereits beschriebenen Merkmale der Erfindung ergänzbar.
In den Fig. sind funktionsgleiche Elemente jeweils mit denselben Bezugszeichen versehen.
1 zeigt eine schematische Darstellung eines Gebäudes 10 mit einem Gebäudemanagementsystem 12 gemäß einem Ausführungsbeispiel der Erfindung. Das Gebäude 10 weist dabei einen Eingangsbereich 14 auf, sowie mehrere Zimmer 16, von denen hier exemplarisch drei dargestellt sind. Zudem umfasst das Gebäude 10 mehrere zu steuernde Geräte 18. Diese Geräte 18 dienen vorzugsweise der Beleuchtung und/oder der Raumklimatisierung. Beispiele für solche Geräte 18 sind Lampen, eine Heizung, Ventilatoren und/oder eine Klimaanlage. Dabei können in jedem der Zimmer 16 eines oder mehrere solcher Geräte angeordnet sein, wie zum Beispiel im Falle von Lampen oder Ventilatoren, oder zumindest ist mittels eines solchen Geräts 18 eine zimmerspezifische Steuerung möglich, zum Beispiel im Falle einer Heizung oder einer Klimaanlage. Das Gebäudemanagementsystem 12 umfasst mehrere verschiedenartige Sensoren, die miteinander vernetzt sind. Dazu zählen beispielsweise ein Kamerasystem mit mehreren Kameras 20. Vorzugsweist ist in einem jeweiligen Zimmer 16 mindestens eine Kamera 20 angeordnet. Diese kann beispielsweise in einem zentralen Bereich an der Decke eines Zimmers 16 angeordnet sein, oder es können auch vier Kameras 20 in einer jeweiligen Ecke eines Zimmers 16 des Gebäudes 10 angeordnet sein. Eine jeweilige Kamera 20 weist dabei ein ihr zugeordnetes Sichtfeld 22, welches einen maximalen Erfassungsbereich darstellt, auf, und welches hier exemplarisch durch eine gestrichelte Linie angedeutet ist. Diese Sichtfelder 22 der jeweiligen Kameras 20 müssen sich nicht notwendiger Weise überschneiden. Weiterhin kann auch eine Kamera 20 im Eingangsbereich 14 angeordnet sein, insbesondere als Teil eines Benutzeridentifikationssystems 24, sowie auch eine weitere hier nicht dargestellte Kamera im Eingangsbereich 14.
Darüber hinaus können als weitere Sensoren des Gebäudemanagementsystems 12 auch in jeweiligen Zimmern 16 Mikrofone 26 angeordnet sein, sowie Umfeldsensoren 28. Solche Umfeldsensoren 28 können zum Beispiel Lichtsensoren darstellen, Temperatursensoren, Luftfeuchtigkeitssensoren, Rauchsensoren, Luftqualitätssensoren oder CO₂-Sensoren. Ferner umfasst das Gebäudemanagementsystem 12 eine Steuereinheit 30 zur Steuerung der Geräte 18, sowie eine Rechnereinrichtung 32, die als Großrechner ausgebildet sein kann. Zudem weist das Gebäudemanagementsystem 12 auch einen Speicher 34 auf.
Das Gebäudemanagementsystem 12 ist ein identitätsbasiertes, automatisiertes Gebäudemanagementsystem, welches ein im Großrechner 32 implementiertes bestärkendes Lernverfahren verwendet, um die Gewohnheiten, Vorlieben und Verhaltensweisen von Benutzern B1, B2, B3, B4 des Gebäudes 10 zu erlernen, insbesondere in Bezug auf die Steuerung der Geräte 18, um darauf basierend nach einer Lernphase eine vollkommen automatisierte Steuerung dieser Geräte 18 vorzunehmen. Wenn ein Benutzer, wie der hier dargestellte erste Benutzer B1, das Gebäude 10 betritt und damit den Eingangsbereich 14 des Gebäudes 10, wird dieser Benutzer B1 durch das Benutzeridentifikationssystem 24, insbesondere mittels einer Gesichtserkennungsvorrichtung unter Verwendung der Kamera 20 des Benutzeridentifikationssystems 24 identifiziert. Zu diesem Zweck können im Speicher 34 verschiedene Benutzerprofile P1, P2, für die jeweiligen Benutzer B1, B2, B3, B4 des Gebäudes 10 hinterlegt sein, in welchen jeweils zugeordnete Benutzercharakteristiken C1 für die jeweiligen Benutzer B1, B2, B3, B4 hinterlegt sind, und auf Basis von welchen die Identifikation vorgenommen wird. In der Darstellung in 1 sind exemplarisch nur die Benutzercharakteristiken C1 des ersten Benutzers B1 in dessen Benutzerprofil P1 dargestellt. Diese Benutzercharakteristiken C1 können also vom Benutzeridentifikationssystem 24 erfasst werden, sobald ein Benutzer B1, B2, B3, B4 den Eingangsbereich 14 betritt. In diesem Beispiel wird für den ersten Benutzer B1 eine erste Benutzercharakteristik C1 mittels des Benutzeridentifikationssystem 24 erfasst, wie zum Beispiel eines oder mehrere Gesichtsmerkmale, und mit den im Speicher 34 zu den jeweiligen Benutzerprofilen P1, P2 hinterlegten Benutzercharakteristiken C1 abgeglichen und darüber der Benutzer B1 identifiziert. Nach dessen Identifikation wird dem Benutzer B1 eine entsprechende und in seinem Benutzerprofil P1 hinterlegte Kennung ID1 zugeordnet.
Weiterhin ist es bevorzugt, dass im Eingangsbereich 14 zusätzlich auch Wiedererkennungsmerkmale W1 erfasst werden, was durch die zuvor erwähnte und hier nicht dargestellte zusätzliche Kamera, die beispielsweise an der Decke des Eingangsbereichs 14 oder an einer Wand montiert sein kann, bewerkstelligt werden kann. Auch diese Wiedererkennungsmerkmale W1 können entsprechend im korrespondierenden Benutzerprofil P1, P2 gespeichert werden. Solche Wiedererkennungsmerkmale W1 stellen vorzugsweise keine Gesichtsmerkmale dar, sondern solche, die mittels weiter entfernten Kameras 20 insbesondere auch unter verschiedenen Blickwinkeln besonders leicht zu erfassen sind, wie zum Beispiel das Aussehen der Kleidung, die Farbe der Kleidung, die Haarfarbe und/oder Hautfarbe. Läuft dieser erste Benutzer B1 nun durch verschiedene Räume beziehungsweise Zimmer 16 des Gebäudes 10, so können die in den jeweiligen Zimmern 16 angeordneten Kameras 20 auf Basis dieser Wiedererkennungscharakteristiken W1 den Benutzer B1 wiedererkennen beziehungsweise reidentifizieren. In einer Lernphase des Gebäudemanagementsystems 12 werden also die jeweiligen Benutzer B1, B2, B3, B4 ab dem Zeitpunkt ab dem sie das Gebäude 10 betreten haben, durch das Gebäudemanagementsystem 12 beobachtet. Hierzu werden insbesondere Bedienhandlungen beziehungsweise Steuerungseingaben SE, welche die Benutzer B1, B2, B3, B4 mittels entsprechender Bedienelemente 36 zur Steuerung beziehungsweise Bedienung der jeweiligen Geräte 18 vornehmen, erfasst. Aber nicht nur solche Steuerungseingaben SE werden erfasst, sondern auch das Verhalten der jeweiligen Benutzer B1, B2, B3, B4. Zu diesem Zweck kann sowohl die Position als auch der Positionsverlauf der jeweiligen Benutzer B1, B2, B3, B4 verfolgt bzw. getrackt werden, deren Körperhaltung, Gestik oder sonstige Bewegungen erfasst werden, und auf Basis dieser erfassten Verhaltensinformationen kann das Benutzerverhalten klassifiziert werden. Mit anderen Worten kann dem aktuellen Benutzerverhalten eine von mehreren definierten Aktionen beziehungsweise Handlungen zugeordnet werden, wie beispielsweise das Sitzen an einem Schreibtisch, ein Gruppenmeeting, eine Kaffeepause, oder ein zufälliges Umherlaufen. Weiterhin können Verhaltensweisen, die keinem dieser definierten Kategorien zugeordnet werden können, der Gruppe „Spezielles Ereignis“ zugeordnet werden. Sowohl die von den jeweiligen Benutzern durchgeführten Steuerungseingaben SE als auch die im Verlauf der Zeit von den Benutzern ausgeführten Aktionen A1 können in den jeweiligen Benutzerprofilen P1, P2 mit entsprechenden Zeitstempeln abgelegt werden. Zur Klassifikation des Benutzerverhaltens können darüber hinaus auch akustische Sensoren, wie zum Beispiel die Mikrofone 26, genutzt werden. Weiterhin können auch die jeweiligen von den Umfeldsensoren 28 bereitgestellten Umfeldinformationen, zum Beispiel aktuelle Helligkeit und/oder Temperatur, gespeichert werden.
Zusätzlich kann bei der Beobachtung noch zwischen dem Benutzerverhalten eines einzelnen in einem Zimmer 16 befindlichen Benutzers B1, B2, B3, B4 und einem Benutzerverhalten eines Benutzers B1, B2, B3, B4 innerhalb einer Benutzergruppe BG unterschieden werden. Auf Basis dieser erfassten Informationen und unter Verwendung eines bestärkenden Lernverfahrens ist das Gebäudemanagementsystem 12 dazu in der Lage, die Benutzergewohnheiten bezüglich der Benutzung der Geräte 18 des Gebäudes 10 zu erlernen. Dabei unterscheidet das Gebäudemanagementsystem 12 die Gewohnheiten eines Benutzers B1, B2, B3, B4 als Einzelperson und die Gewohnheiten einer Benutzergruppe BG mit mehreren bestimmten Benutzern B1, B2, B3, B4, wie in diesem Beispiel die Benutzer B3 und B4. Auf Basis dieser Beobachtungen und des gelernten Verhaltens können dann Steuerungsregeln R1 für die jeweiligen Benutzer beziehungsweise Benutzergruppen BG und insbesondere auch für ein jeweilige Zimmer 16 abgeleitet und gespeichert werden. Betritt ein Benutzer B1, B2, B3, B4 zu einem späteren Zeitpunkt das Gebäude 10 erneut, so wird dieser mittels des Benutzeridentifikationssystems 24 identifiziert, beim Betreten der Zimmer 16 durch die jeweiligen Kameras 20 reidentifziert und entsprechend unter Verwendung der für diesen Benutzer B1, B2, B3, B4 und für das betreffende Zimmer 16 ermittelten Regeln R1 das Gerät 18 des Gebäudes 10 gesteuert. Dadurch ist es vorteilhafter Weise möglich, eine vollkommen automatisierte und personalisierte Steuerung jeweiliger Geräte 18 eines Gebäudes 10 umzusetzen.
Vorteilhafter Weise erfolgt dies, ohne dass dem Gebäudemanagementsystem 12 irgendwelche Vorgaben gemacht werden müssen. Dieses erlernt selbsttätig das Verhalten der jeweiligen Benutzer B1, B2, B3, B4 und setzt dies dann entsprechend in der zweiten Phase, der Anwendungsphase, um. Nimmt ein Benutzer B1, B2, B3, B4 in dieser zweiten Phase dennoch eine Steuerungseingabe SE zur Änderung einer Einstellung an einem der Geräte 18 vor, so kann diese Steuerungseingabe SE dem Gebäudemanagementsystem 12 als Feedback, d.h. Rückmeldung, zugeführt werden. Basierend auf diesem Feedback können die zuvor für das betreffende Zimmer 16 und den betreffenden Benutzer B1, B2, B3, B4 ermittelten Steuerungsregeln R1 angepasst werden. Dies wird später im Detail beschrieben.
2 zeigt eine schematische Darstellung einzelner Systemkomponenten, insbesondere der drei Hauptkomponenten, des Gebäudemanagementsystems 12 gemäß einem Ausführungsbeispiel der Erfindung. Diese drei Hauptkomponenten stellen das Benutzeridentifikationssystem 24 dar, welches bevorzugt als Gesichtserkennungssystem ausgebildet ist, das Benutzerwiedererkennungssystem 38, sowie das verstärkende Lernsystem 40. Erscheint ein Benutzer B im Eingangsbereich 14 des Gebäudes, so wird dieser mittels des Benutzeridentifikationssystems 24 wie zuvor beschrieben identifiziert und dessen entsprechende Kennung ID an das Benutzerwiedererkennungssystem 38 übermittelt. Diese Benutzerwiedererkennungssystem 38 erfasst Wiedererkennungsmerkmale W1 des Benutzers B, was zum Beispiel wie zuvor beschrieben mittels einer im Eingangsbereich 14 angeordneten Kamera realisiert werden kann. Diese Wiedererkennungsmerkmale W1 stellen vorzugsweise Merkmale betreffend das äußere Erscheinungsbild des Benutzers B dar. Das Benutzerwiedererkennungssystem 38 assoziiert nun die Kennung ID des Benutzers B mit dessen erfassten Wiedererkennungsmerkmale W1 und speichert diese im Speicher 34. Betritt nun der Benutzer B ein (anderes) Zimmer 16 des Gebäudes, so wird der Benutzer B auf Basis der gespeicherten Wiedererkennungsmerkmale W1 durch das Benutzerwiedererkennungssystem 38 reidentifiziert und die dem wiedererkannten Benutzer B zugeordnete Kennung ID aus dem Speicher 34 abgerufen und an das bestärkende Lernsystem 40 übermittelt. Das bestärkende Lernsystem 40 benutzt nun die übermittelte Kennung ID, um in einer Lernphase die beobachteten Verhaltensweisen des Benutzers B wie zuvor beschrieben mit dessen Kennung ID zu assoziieren und für diesen Benutzer B entsprechende Steuerungsregeln R1 zur Steuerung der Geräte 18 zu ermitteln. In einer zweiten Phase, der Anwendungsphase des bestärkenden Lernsystems 40, wird die Kennung ID verwendet, um nun die Steuerung der Geräte 18 gemäß den für diesen Benutzer B ermittelten Steuerungsregeln R1 umzusetzen.
Der Kern dieses verstärkenden Lernens ist dabei das so genannten Deep-Q-Lernen, welches ein künstliches neuronales Netz ANN als intelligenten Agenten nutzt, was nun anhand von 3 beschrieben wird.
3 zeigt dabei eine schematische Darstellung der Lernphase LP, in welcher als Eingangsgrößen dem künstlichen neuronalen Netz ANN Zustandsparameter Z1, Z2, Z3, Z4 zugeführt werden, die einen aktuellen Zustand Z definieren. Diese Zustandsparameter Z1, Z2, Z3, Z4 stellen dabei den aktuellen Zustand Z1 beziehungsweise die aktuelle Einstellung eines betreffenden Geräts 18 dar, die Sensordaten Z2, insbesondere der Umfeldsensoren 28, die Identität bzw. Kennung ID des im Zimmer 16 befindlichen Benutzers B, B1, B2, B3, B4, welche hier einen dritten Zustandsparameter Z3 darstellt, sowie die Benutzeraktivitäten bzw. die klassifizierten Aktionen A1, welche hier einen dritten Zustandsparameter Z4 darstellen. Weitere hier nicht dargestellte Zustandsparameter stellen vorzugsweise noch das Zimmer 16 und/oder die Etage dar, in welchem sich der Benutzer B, B1, B2, B3, B4 befindet und der Energieverbrauch des Geräts 18.
Stellt das Gerät 18 beispielsweise eine Beleuchtungseinrichtung dar, so können die folgenden Einstellmöglichkeiten Z1 vorgesehen sein: An, Aus, Dimmgrad, Farbe und ein Helligkeitswechselschema. Stellt das Gerät 18 eine Heizung dar, so können folgende Einstellmöglichkeiten Z1 vorgesehen sein: An, Aus, Heizgrad beziehungsweise Temperatur. Stellt das Gerät 18 einen Ventilator dar, so können folgende Einstellmöglichkeiten Z1 vorgesehen sein: An, Aus, Ventilatorgeschwindigkeit. Stellt das Gerät 18 eine Klimaanlage an, so können folgende Einstellmöglichkeiten Z1 vorgesehen sein: An, Aus, Modus, Lüftergeschwindigkeit, Temperatur. In dieser Lernphase LP werden dem künstlichen neuronalen Netz ANN zusätzlich auch die vom Benutzer B, B1, B2, B3, B4 getätigten Steuerungseingaben SE als Feedback zugeführt. In Abhängigkeit von diesen Eingangsgrößen ermittelt das künstliche neuronale Netz ANN nun eine Steuerstrategie zum Steuern der Geräte 18, und zwar so, dass, wenn eine automatische Steuerung des Geräts 18 gemäß dieser Steuerstrategie in der Lernphase durchgeführt worden wäre, sich die automatischen Steuerungseingaben mit den vom Benutzer durchgeführten Steuerungseingaben so weit wie mögliche gedeckt hätten und damit die Anzahl der vom identifizierten Benutzer B, B1, B2, B3, B4 getätigten Steuerungsangaben SE minimiert worden wäre. In der Lernphase LP selbst werden jedoch noch keine automatischen Steuerungen durchgeführt und der Agent beobachtet nur. Jedoch kann der Agent gleichzeitig seine hypothetischen Aktivitäten und Steuerungsstrategien simulieren und dann nach einem vorbestimmbare Zeitraum, zum Beispiel 15 Tagen, selbst entscheiden, ob seine hypothetischen Aktionen sich mit den noch manuellen Aktionen bzw. Steuerungseingaben SE des Benutzers B, B1, B2, B3, B4 decken. Wenn der Agent dann im Laufe der Lernphase LP einen Entscheidungszustand oder eine vorbestimmte Vorhersagequalität erreicht, dass seine simulierten Aktionen bzw. Steuerungseingaben sich mit den Aktionen bzw. Steuerungseingaben SE des Benutzers B, B1, B2, B3, B4 decken, dann kann der Agent selbsttätig die automatische Steuerung übernehmen und dadurch in die zweite Phase, d.h. die Anwendungsphase AP übergehen. Dabei erhält der intelligente Agent, das heißt in diesem Fall das künstliche neuronale Netz ANN, eine Belohnung, die umso höher ausfällt, je weniger Steuerungseingaben SE vom Benutzer B, B1, B2, B3, B4 getätigt werden mussten.
Das bestärkende Lernsystem 40, in welchem das künstliche neuronale Netz ANN zum Einsatz kommt, wählt letztendlich die Steuerungsregeln so, dass die Belohnung maximiert wird. Mit anderen Worten, es versucht vom Benutzer B, B1, B2, B3, B4 getätigte manuelle Steuerungseingaben SE vollständig zu vermeiden und damit zur vollen Automatisierung der Steuerung der Geräte 18 zu gelangen. In der Lernphase LP wird also das Feedback der Benutzer in Form ihrer getätigten Steuerungseingaben SE genutzt, um das künstliche neuronale Netz ANN zu trainieren.
Als Ergebnis ist jedem Zustand Z ein R-Wert, d.h. der numerische Wert der Belohnung, zugeordnet, den der Agent einsammeln kann, wenn er diesen Zustand Z anfährt. Mit anderen Worten wird also in der Lernphase LP die Qualität der Zustände Z ausgelotet bzw. ermittelt. Wenn also der Benutzer B, B1, B2, B3, B4 in der Lernphase LP ausgehend von einem gegebenen Zustand Z eine bestimmte Steuerungseingabe SE macht, um in einen anderen Zustand Z zu gelangen, so kann diesem vom gegebenen Zustand Z aus angefahrene andere Zustand Z ein hoher R-Wert zugeordnet werden. Die Zielzustände Z, die ein Benutzer B, B1, B2, B3, B4 ausgehend von einem gegebenen Zustand Z häufiger anfährt als andere werden entsprechend in der Lernphase LP mit einem höheren R-Wert bewertet als andere. Zudem können durch die Belohnung auch energieeffizientere Zustände Z präferiert werden. Beispielsweise kann einem Zustand Z mit einem niedrigeren Energieverbrauch ein höherer R-Wert zugeordnet werden als einem Zustand Z mit höherem Energieverbrauch. Mit anderen Worten kann die Belohnung zusätzlich zu den Benutzerpräferenzen auch vom Energieverbrauch eines Zustands Z abhängig sein. In der Anwendungsphase AP (vgl. 4) kann anschließend der intelligente Agent eine Policy (Plan) ausrechnen, um über Zwischenzuständen mit möglichst vielen R-Werten von einem Jetzt-Zustand Z in einen anderen Endzustand Z zu gelangen. Dies entspricht einem Markov-Entscheidungsproblem, bei welchem jeder Zustand Z des großen Zustandsraums (Zustandsmatrix) seinen R-Wert mitbeinhaltet.
4 zeigt eine schematische Darstellung der Anwendungsphase AP, die sich an die Lernphase LP anschließt. Auch hier erhält das künstliche neuronale Netz ANN wiederum die bereits zu 3 beschriebenen Zustandsparameter Z1, Z2, Z3, Z4 als Eingangsparameter. In Abhängigkeit von diesem Eingangszustand Z berechnet das künstliche neuronale Netz ANN nun für jede mögliche Einstellung der Geräte 18, das heißt zum Beispiel das An- und Abschalten des betreffenden Geräts 18, ein Verändern des Dimmgrads einer Beleuchtungseinrichtung, das Erhöhen und Verringern der Temperatur der Klimaanlage und so weiter, einen so genannten Q-Wert. Dieser Q-Wert repräsentiert die Wahrscheinlichkeit dafür, dass für den gegebenen Eingangszustand Z der betreffende identifizierte Benutzer B, B1, B2, B3, B4 eine bestimmte Einstellung vornehmen würde, und stellt den integralen R-Wert dar.
Diese ermittelten und in 4 mit Q bezeichneten Q-Werte für die jeweiligen Einstellungen werden an das Steuerungszentrum, das heißt der Steuereinheit 30 (vergleiche 1) zum Steuern der jeweiligen Geräte 18 übermittelt. Dabei werden durch die Steuereinheit 30 nur diejenigen Einstellungen umgesetzt, deren Q-Wert Q einen vorbestimmten Grenzwert überschreitet und/oder im Falle mehrerer nur alternativer Einstellmöglichkeiten, diejenige, deren Q-Wert Q am höchsten ist. Die so ermittelten Einstellungen für die jeweiligen Geräte 18 können als vorläufige Einstellungen VE durch die Steuereinheit 30 bereitgestellt werden. Optional können diese vorläufigen Einstellungen VE noch mit bestimmten Randbedingungen R, die die Energieeffizienz betreffen, abgeglichen werden. Dieser Abgleich liefert letztendlich die finalen Einstellungen FE und werden dann durch eine entsprechende automatische Ansteuerung der jeweiligen Geräte 18 durch die Steuereinheit 30 umgesetzt. Die Optimierung des Energieverbrauchs kann jedoch, wie oben beschrieben, bereits in den R-Werten für die jeweiligen Zustände Z bereits berücksichtigt sein. Zudem kann der Agent auch in der Anwendungsphase weiterhin lernen. Auch dies erfolgt wiederum durch die Rückmeldung des Benutzers B, B1, B2, B3, B4. Wird beispielsweise eine automatische Ansteuerung der jeweiligen Geräte 18 durch die Steuereinheit 30 umgesetzt, kann daraufhin überprüft werden, ob eine vom Benutzer B, B1, B2, B3, B4 getätigte Steuerungseingabe SE erfasst wird. Wenn ein Benutzer B, B1, B2, B3, B4 bei einem bestimmten angefahrenen Zustand Z interferiert bzw. eingreift, dann ist dieser Zustand Z sicher nicht wünschenswert. Entsprechend kann zum Beispiel der diesem Zustand Z, der vom System angefahren wurde, zugeordnete R-Wert verringert werden.
Bezugszeichenliste

10: Gebäude
12: Gebäudemanagementsystem
14: Eingangsbereich
16: Zimmer
18: Gerät
20: Kamera
22: Sichtfeld
24: Benutzeridentifikationssystem
26: Mikrofon
28: Umfeldsensor
30: Steuereinheit
32: Rechnereinrichtung
34: Speicher
36: Bedienelement
38: Benutzerwiedererkennungssystem
40: Bestärkendes Lernsystem
A1: Aktion
ANN: künstliches neuronales Netz
AP: Anwendungsphase
B: Benutzer
B1-B4: Benutzer
BG: Benutzergruppe
C1-C2: Benutzercharakteristik
FE: finale Einstellungen
ID: Kennung
ID1: Kennung
LP: Lernphase
P1-P2: Benutzerprofil
Q: Q-Wert
R1: Steuerungsregel
SE: Steuerungseingaben
VE: vorläufige Einstellungen
W1: Wiedererkennungsmerkmal
Z: Zustand
Z1-Z4: Zustandsparameter

Claims

Verfahren zum automatischen Steuern zumindest eines Geräts (18) eines Gebäudes (10) mittels eines Gebäudemanagementsystems (12), wobei - in einer Lernphase (LP) des Gebäudemanagementsystems (12) mindestens ein Benutzer (B, B1, B2, B3, B4) des Gebäudes (10) auf Basis zumindest einer erfassten ersten Benutzercharakteristik (C1) identifiziert wird; - mindestens eine Steuerungseingabe (SE), welche durch den mindestens einen Benutzer (B, B1, B2, B3, B4) zum Steuern des zumindest einen Geräts (18) getätigt wird, erfasst wird, während sich der mindestens eine identifizierte Benutzer (B, B1, B2, B3, B4) im Gebäude (10) befindet; und - in Abhängigkeit von der mindestens einer erfassten Steuerungseingabe (SE) des mindestens einen identifizierten Benutzers (B, B1, B2, B3, B4) das Gebäudemanagementsystem (12) Steuerungsregeln (R1) ermittelt, die dem mindestens einen identifizierten Benutzer (B, B1, B2, B3, B4) zugeordnet sind und gemäß welchen das zumindest eine Gerät (18) des Gebäudes (10) automatisch in einer zweiten Phase (AP) des Gebäudemanagementsystems (12) gesteuert wird, während sich der mindestens einen Benutzer (B, B1, B2, B3, B4) im Gebäude (10) befindet.
Verfahren nach Anspruch 1, wobei die mindestens eine erste Benutzercharakteristik (C1) zumindest eine der Folgenden darstellt: - mindestens ein Gesichtsmerkmal; - mindestens ein Merkmal betreffend das Aussehen des Körpers; - mindestens ein Fingerabdruck; - mindestens eine Stimmencharakteristik; - mindestens eine Gangcharakteristik.
Verfahren nach einem der vorhergehenden Ansprüche, wobei während der Lernphase (LP) zusätzlich zumindest eine zweite Benutzercharakteristik (A1) des mindestens einen identifizierten Benutzers (B, B1, B2, B3, B4) bestimmt wird, insbesondere eine Aktivität (A1) des mindestens einen identifizierten Benutzers (B, B1, B2, B3, B4), während sich der mindestens eine identifizierte Benutzer (B, B1, B2, B3, B4) im Gebäude (10) befindet, und wobei die Steuerungsregeln (R1) zusätzlich in Abhängigkeit von der mindestens einen zweiten Benutzercharakteristik (A1) des mindestens einen identifizierten Benutzers (B, B1, B2, B3, B4) ermittelt werden.
Verfahren nach Anspruch 3, wobei die mindestens eine zweite Benutzercharakteristik (A1) in Abhängigkeit von mindestens einem erfassten Parameter der folgenden Parameter bestimmt wird: - eine erfasste Körperhaltung des mindestens einen identifizierten Benutzers (B, B1, B2, B3, B4); - eine erfasste Bewegung des mindestens einen identifizierten Benutzers (B, B1, B2, B3, B4) und/oder zumindest eines Körperteils des mindestens einen identifizierten Benutzers (B, B1, B2, B3, B4); - eine verfolgte Position des mindestens einen identifizierten Benutzers (B, B1, B2, B3, B4).
Verfahren nach Anspruch 4, wobei basierend auf einer Analyse des mindestens einen erfassten Parameters des mindestens einen identifizierten Benutzers (B, B1, B2, B3, B4) die mindestens eine zweite Benutzercharakteristik (A1) als eine von mehreren verschiedenen vorbestimmten Benutzeraktivitäten (A1) klassifiziert wird, die insbesondere darstellen: - Sitzen an einem Tisch; - ein Gruppentreffen; - eine Kaffeepause; - zufälliges Umherlaufen; und - ein spezielles Ereignis.
Verfahren nach einem der Ansprüche 3 bis 5, wobei Audiosignale mittels zumindest eines Audiosensors (26) aufgenommen werden, während sich der mindestens eine identifizierte Benutzer (B, B1, B2, B3, B4) im Gebäude (10) befindet, wobei die mindestens eine zweite Benutzercharakteristik (A1) in Abhängigkeit von dem aufgenommenen Audiosignal bestimmt wird, insbesondere unter Verwendung von Spracherkennung.
Verfahren nach einem der vorhergehenden Ansprüche, wobei während der Lernphase (LP) zusätzlich mindestens eine Umfeldinformation mittels mindestens eines Sensors (28) erfasst wird, während sich der mindestens eine identifizierte Benutzer (B, B1, B2, B3, B4) im Gebäude (10) befindet, wobei die Steuerungsregeln (R1) zusätzlich in Abhängigkeit von der mindestens einen Umfeldinformationen ermittelt werden.
Verfahren nach einer der Ansprüche 3 bis 7, wobei zum Ermitteln der Steuerungsregeln (R1) zweite Benutzercharakteristiken (A1) und/oder erfasste Umfeldinformationen, die einen kürzeren zeitlichen Abstand zu einer nachfolgenden Steuerungseingabe (SE) durch den mindestens einen Benutzer (B, B1, B2, B3, B4) aufweisen, stärker gewichtet werden als erfasste zweite Benutzercharakteristiken (A1) und/oder Umfeldinformationen, die einen größeren zeitlichen Abstand zu der nachfolgenden Steuerungseingabe (SE) aufweisen.
Verfahren nach einem der Ansprüche 3 bis 8, wobei nur Daten, welche die mindestens eine zweite Benutzercharakteristik (A1) und/oder die mindestens eine Umfeldinformationen betreffen und die innerhalb eines vorbestimmten Zeitintervalls vor der mindestens einen Steuerungseingabe (SE) erfasst wurden, zum Ermitteln und/oder zum Anpassen der Steuerungsregeln (R1) berücksichtigt werden.
Verfahren nach einem der Ansprüche 3 bis 9, wobei in der zweiten Phase (AP) und im Fall, dass der mindestens eine Benutzer (B, B1, B2, B3, B4) erneut identifiziert wird, die mindestens eine erste und/oder zweite Benutzercharakteristik (C1, A1) und/oder die Umgebungsinformation erneut bestimmt wird und das mindestens eine Gerät (18) in Abhängigkeit von der erneut bestimmten ersten (C1) und/oder zweiten Benutzercharakteristik (C2) und/oder Umgebungsinformation gesteuert wird.
Verfahren nach einem der vorhergehenden Ansprüche, wobei das Gebäude (10) mehrere Zimmer (16) und/oder Etagen aufweist, und wobei die Steuerung des mindestens einen Geräts (18) separat für jedes Zimmer (16) und/oder für jede Etage durchgeführt wird.
Verfahren nach einem der vorhergehenden Ansprüche, wobei die Steuerung des mindestens einen Geräts (18) in Abhängigkeit davon durchgeführt wird, ob der mindestens eine Benutzer (B, B1, B2, B3, B4) die einzige Person im Gebäude (10), insbesondere in einem Zimmer (16) des Gebäudes (10), ist oder ob der mindestens eine Benutzer (B, B1, B2, B3, B4) Teil eine Benutzergruppe (BG) aus mehreren Benutzern (B1, B2, B3, B4) ist, die sich zur gleichen Zeit im Gebäude (10), insbesondere in einem Zimmer (16) des Gebäudes (10), befinden.
Verfahren nach einem der vorhergehenden Ansprüche, wobei das Gebäudemanagementsystem (12) mittels eines maschinenlernenden Verfahrens, insbesondere eines bestärkenden Lernverfahrens, insbesondere eines Deep-Q-Lernverfahrens unter Verwendung eines künstlichen neuronalen Netzes (ANN) als ein intelligenter Agent, bevorzugt mittels eines Off-Policy-Q(s, a, r, s', a')-Lernverfahrens die Steuerungsregeln (R1) ermittelt und/oder die ermittelten Steuerungsregeln (R1) anpasst und die Steuerung durchführt.
Verfahren nach Anspruch 13, wobei der intelligente Agent eine Belohnung erhält, die umso höher ist, je seltener durch den mindestens einen Benutzer (B, B1, B2, B3, B4) Steuerungseingaben (SE) ausgeführt werden, insbesondere wobei nach jeder Aktion, die vom Agenten durchgeführt wurde, überprüft wird, ob eine Steuerungseingabe (SE) durch den mindestens einen identifizierten Benutzer (B, B1, B2, B3, B4) durchgeführt würde, und falls keine Steuerungseingabe (SE) durch den mindestens einen Benutzer (B, B1, B2, B3, B4) durchgeführt wurde, der intelligente Agent die Belohnung erhält.
Verfahren nach einem der Ansprüche 13 oder 14, wobei der intelligente Agent schrittweise die Steuerungsregeln (R1), die dem mindestens einen Benutzer (B, B1, B2, B3, B4) zugeordnet sind, basierend auf neu erfassten Informationen betreffend den mindestens einen Benutzer (B, B1, B2, B3, B4), insbesondere neu bestimmte zweite Benutzercharakteristiken (A1) und neu erfasste Steuerungseingaben (SE), mit dem Ziel, die Belohnung zu maximieren, anpasst.
Verfahren nach einem der Ansprüche 13 bis 15, wobei das Gebäudemanagementsystem (12) für jede mögliche definierte Einstellung des mindestens einen Geräts (18) einen Q-Wert (Q) bestimmt, der die Wahrscheinlichkeit wiedergibt, dass die jeweilige Einstellung in einem gegebenen bestimmten Zustand (Z), welcher als eine Eingangsgröße vom künstlichen neuronalen Netz (ANN) empfangen wird, vorgenommen wird, und wobei der bestimmte Zustand (Z) durch mindestens einen, vorzugsweise mehrere, besonders bevorzugt alle der folgenden Zustands-Parameter (Z1, Z2, Z3, Z4) bestimmt wird: - einer Benutzer-ID (ID, ID1), die dem mindestens einen Benutzer (B, B1, B2, B3, B4) zugeordnet wird, wenn der mindestens eine Benutzer (B, B1, B2, B3, B4) auf der Basis der mindestens einen ersten Benutzercharakteristik (C1) identifiziert wird; - der mindestens einen zweiten Benutzercharakteristik (A1) ; - eines aktuellen Zustands des mindestens einen Geräts (18) ; - der mindestens einen Umfeldinformation; wobei die Einstellung, für welchen der Q-Wert (Q) oberhalb eines definierten Grenzwerts liegt und/oder für welche der Q-Wert (Q) den Höchsten darstellt, durch das Gebäudemanagementsystem (12) umgesetzt wird.
Verfahren nach einem der vorhergehenden Ansprüche, wobei in Abhängigkeit von mindestens einer vorbestimmten Energiespar-Bedingung (R) die Steuerungsregeln (R1) ermittelt werden und/oder angepasst werden.
Verfahren nach Anspruch 17, wobei in Abhängigkeit von der mindestens einen vorbestimmten Energiespar-Bedingung (R) die Steuerungsregeln (R1) durch erweitertes Q-Learning variiert werden, insbesondere so dass ein Energieverbrauch des mindestens einen Geräts (18) und ein Benutzerkomfort gleichzeitig optimiert werden.
Verfahren nach einem der Ansprüche 13 bis 18, wobei der intelligente Agent mit Videosensoren (20) zum Tracken der Position des mindestens einen Benutzers (B, B1, B2, B3, B4) verbunden ist, wobei die Videosensoren (20) ein sensorintegriertes Deep-Learning-Verfahren zum Tracken der Position des mindestens einen Benutzers (B, B1, B2, B3, B4), und insbesondere zum Wiedererkennen des mindestens einen Benutzers (B, B1, B2, B3, B4) im Falle, dass der mindestens eine Benutzer (B, B1, B2, B3, B4) ein erstes Sichtfeld (22) eines ersten Videosensors (20) der Videosensoren (20) verlässt und ein zweites Sichtfeld (22) eines zweiten Videosensors (20) der Videosensoren (20) betritt, verwenden, wobei sich das erstes Sichtfeld (22) und das zweite Sichtfeld (22) nicht überschneiden.
Gebäudemanagementsystem (12) zum automatischen Steuern zumindest eines Geräts (18) eines Gebäudes (10), wobei das Gebäudemanagementsystem (12) dazu ausgelegt ist - in einer Lernphase (LP) des Gebäudemanagementsystems (12) mindestens einen Benutzer (B, B1, B2, B3, B4) des Gebäudes (10) auf Basis mindestens einer erfassten ersten Benutzercharakteristik (C1) zu identifizieren; - mindestens eine Steuerungseingabe (SE), die vom mindestens einen Benutzer (B, B1, B2, B3, B4) zum Steuern des zumindest einen Geräts (18) ausgeführt wird, zu erfassen, während der mindestens eine identifizierte Benutzer (B, B1, B2, B3, B4) sich innerhalb des Gebäudes (10) befindet; und - in Abhängigkeit von der mindestens einen erfassten Steuerungseingabe (SE) des mindestens einen identifizierten Benutzers (B, B1, B2, B3, B4) Steuerungsregeln (R1) zu ermitteln, welche dem mindestens einen identifizierten Benutzer (B, B1, B2, B3, B4) zugeordnet werden, und in einer zweiten Phase (AP) des Gebäudemanagementsystems (12) das zumindest eine Gerät (18) des Gebäude (10) automatisch gemäß den ermittelten Steuerungsregeln (R1) zu steuern, während sich der mindestens eine Benutzer (B, B1, B2, B3, B4) im Gebäude (10) befindet.