DE102021115778A1 - Fahrzeugsteuerungsvorrichtung, fahrzeugsteuerungssytem und fahrzeuglernvorrichtung - Google Patents

Fahrzeugsteuerungsvorrichtung, fahrzeugsteuerungssytem und fahrzeuglernvorrichtung Download PDF

Info

Publication number
DE102021115778A1
DE102021115778A1 DE102021115778.1A DE102021115778A DE102021115778A1 DE 102021115778 A1 DE102021115778 A1 DE 102021115778A1 DE 102021115778 A DE102021115778 A DE 102021115778A DE 102021115778 A1 DE102021115778 A1 DE 102021115778A1
Authority
DE
Germany
Prior art keywords
relationship
processing
powertrain
defining data
reward
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE102021115778.1A
Other languages
English (en)
Inventor
Hideaki Bunazawa
Atsushi Tabata
Koichi Okuda
Ken IMAMURA
Kota FUJII
Keita Sasaki
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Publication of DE102021115778A1 publication Critical patent/DE102021115778A1/de
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W50/04Monitoring the functioning of the control system
    • B60W50/045Monitoring control system parameters
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60KARRANGEMENT OR MOUNTING OF PROPULSION UNITS OR OF TRANSMISSIONS IN VEHICLES; ARRANGEMENT OR MOUNTING OF PLURAL DIVERSE PRIME-MOVERS IN VEHICLES; AUXILIARY DRIVES FOR VEHICLES; INSTRUMENTATION OR DASHBOARDS FOR VEHICLES; ARRANGEMENTS IN CONNECTION WITH COOLING, AIR INTAKE, GAS EXHAUST OR FUEL SUPPLY OF PROPULSION UNITS IN VEHICLES
    • B60K6/00Arrangement or mounting of plural diverse prime-movers for mutual or common propulsion, e.g. hybrid propulsion systems comprising electric motors and internal combustion engines ; Control systems therefor, i.e. systems controlling two or more prime movers, or controlling one of these prime movers and any of the transmission, drive or drive units Informative references: mechanical gearings with secondary electric drive F16H3/72; arrangements for handling mechanical energy structurally associated with the dynamo-electric machine H02K7/00; machines comprising structurally interrelated motor and generator parts H02K51/00; dynamo-electric machines not otherwise provided for in H02K see H02K99/00
    • B60K6/20Arrangement or mounting of plural diverse prime-movers for mutual or common propulsion, e.g. hybrid propulsion systems comprising electric motors and internal combustion engines ; Control systems therefor, i.e. systems controlling two or more prime movers, or controlling one of these prime movers and any of the transmission, drive or drive units Informative references: mechanical gearings with secondary electric drive F16H3/72; arrangements for handling mechanical energy structurally associated with the dynamo-electric machine H02K7/00; machines comprising structurally interrelated motor and generator parts H02K51/00; dynamo-electric machines not otherwise provided for in H02K see H02K99/00 the prime-movers consisting of electric motors and internal combustion engines, e.g. HEVs
    • B60K6/42Arrangement or mounting of plural diverse prime-movers for mutual or common propulsion, e.g. hybrid propulsion systems comprising electric motors and internal combustion engines ; Control systems therefor, i.e. systems controlling two or more prime movers, or controlling one of these prime movers and any of the transmission, drive or drive units Informative references: mechanical gearings with secondary electric drive F16H3/72; arrangements for handling mechanical energy structurally associated with the dynamo-electric machine H02K7/00; machines comprising structurally interrelated motor and generator parts H02K51/00; dynamo-electric machines not otherwise provided for in H02K see H02K99/00 the prime-movers consisting of electric motors and internal combustion engines, e.g. HEVs characterised by the architecture of the hybrid electric vehicle
    • B60K6/44Series-parallel type
    • B60K6/445Differential gearing distribution type
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W10/00Conjoint control of vehicle sub-units of different type or different function
    • B60W10/04Conjoint control of vehicle sub-units of different type or different function including control of propulsion units
    • B60W10/06Conjoint control of vehicle sub-units of different type or different function including control of propulsion units including control of combustion engines
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W10/00Conjoint control of vehicle sub-units of different type or different function
    • B60W10/04Conjoint control of vehicle sub-units of different type or different function including control of propulsion units
    • B60W10/08Conjoint control of vehicle sub-units of different type or different function including control of propulsion units including control of electric propulsion units, e.g. motors or generators
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W10/00Conjoint control of vehicle sub-units of different type or different function
    • B60W10/10Conjoint control of vehicle sub-units of different type or different function including control of change-speed gearings
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W20/00Control systems specially adapted for hybrid vehicles
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W40/00Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W50/02Ensuring safety in case of control system failures, e.g. by diagnosing, circumventing or fixing failures
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W50/02Ensuring safety in case of control system failures, e.g. by diagnosing, circumventing or fixing failures
    • B60W50/0205Diagnosing or detecting failures; Failure detection models
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F16ENGINEERING ELEMENTS AND UNITS; GENERAL MEASURES FOR PRODUCING AND MAINTAINING EFFECTIVE FUNCTIONING OF MACHINES OR INSTALLATIONS; THERMAL INSULATION IN GENERAL
    • F16HGEARING
    • F16H59/00Control inputs to control units of change-speed-, or reversing-gearings for conveying rotary motion
    • F16H59/68Inputs being a function of gearing status
    • F16H59/72Inputs being a function of gearing status dependent on oil characteristics, e.g. temperature, viscosity
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • B60W2050/0019Control system elements or transfer functions
    • B60W2050/0026Lookup tables or parameter maps
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0062Adapting control system settings
    • B60W2050/0075Automatic parameter input, automatic initialising or calibrating means
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0062Adapting control system settings
    • B60W2050/0075Automatic parameter input, automatic initialising or calibrating means
    • B60W2050/0083Setting, resetting, calibration
    • B60W2050/0088Adaptive recalibration
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2510/00Input parameters relating to a particular sub-units
    • B60W2510/06Combustion engines, Gas turbines
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2510/00Input parameters relating to a particular sub-units
    • B60W2510/06Combustion engines, Gas turbines
    • B60W2510/0676Engine temperature
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2510/00Input parameters relating to a particular sub-units
    • B60W2510/08Electric propulsion units
    • B60W2510/087Temperature
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2510/00Input parameters relating to a particular sub-units
    • B60W2510/10Change speed gearings
    • B60W2510/107Temperature
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F16ENGINEERING ELEMENTS AND UNITS; GENERAL MEASURES FOR PRODUCING AND MAINTAINING EFFECTIVE FUNCTIONING OF MACHINES OR INSTALLATIONS; THERMAL INSULATION IN GENERAL
    • F16HGEARING
    • F16H61/00Control functions within control units of change-speed- or reversing-gearings for conveying rotary motion ; Control of exclusively fluid gearing, friction gearing, gearings with endless flexible members or other particular types of gearing
    • F16H2061/0075Control functions within control units of change-speed- or reversing-gearings for conveying rotary motion ; Control of exclusively fluid gearing, friction gearing, gearings with endless flexible members or other particular types of gearing characterised by a particular control method
    • F16H2061/0087Adaptive control, e.g. the control parameters adapted by learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/60Other road transportation technologies with climate change mitigation effect
    • Y02T10/62Hybrid vehicles

Landscapes

  • Engineering & Computer Science (AREA)
  • Mechanical Engineering (AREA)
  • Chemical & Material Sciences (AREA)
  • Combustion & Propulsion (AREA)
  • Transportation (AREA)
  • Automation & Control Theory (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Oil, Petroleum & Natural Gas (AREA)
  • Control Of Transmission Device (AREA)
  • Feedback Control In General (AREA)

Abstract

Ein Fahrzeugsteuerungsvorrichtung (40) umfasst: eine Speichervorrichtung (46), die beziehungsdefinierende Daten (DR) speichert, die Daten sind zum Definieren einer Beziehung zwischen einem Zustand eines Fahrzeugs und einer Aktionsvariable; und eine Ausführungsvorrichtung (42, 44), die ausgelegt ist, um den Zustand zu ermitteln, eine Antriebsstrangvorrichtung (10, 23, 25, 26) auf der Grundlage eines Wert der Aktionsvariable zu betreiben, eine Belohnung so abzuleiten, dass die Belohnung größer ist, wenn der Zustand der Antriebsstrangvorrichtung (10, 23, 25, 26) auf der Grundlage des ermittelten Zustands ein vorbestimmtes Kriterium erfüllt, eine Aktualisierung der beziehungsdefinierenden Daten (DR) einer Aktualisierungskarte durchzuführen und die Aktualisierung der beziehungsdefinierenden Daten (DR) so einzuschränken, dass ein Aktualisierungsbetrag der beziehungsdefinierenden Daten (DR) kleiner ist, wenn die Antriebsstrangvorrichtung (10, 23, 25, 26) einer vorbestimmten Einschränkung unterliegt.

Description

  • HINTERGRUND DER ERFINDUNG
  • 1. Gebiet der Erfindung
  • Die Erfindung betrifft eine Fahrzeugsteuerungsvorrichtung, eine Fahrzeugsteuerungssystem und eine Fahrzeuglernvorrichtung.
  • 2. Beschreibung des Standes der Technik
  • Die japanische, ungeprüfte Patentoffenlegungsschrift Nr. 2000-250602 ( JP 2000-250602 A ) beschreibt zum Beispiel eine Einstellung eines geeigneten Übersetzungsverhältnisses in Übereinstimmung mit dem Zustand eines Fahrzeugs durch bestärkendes Lernen.
  • KURZDARSTELLUNG DER ERFINDUNG
  • Wenn die Steuerung eines Getriebes, das einstellt das oben beschriebene Übersetzungsverhältnis einstellt, einer Einschränkung unterliegt, kann wiederholtes bestärkendes Lernen zu Lernergebnissen führen, die stark von einem geeigneten Wert abweichen im Vergleich dazu, wenn die Steuerung des Getriebes keiner Einschränkung unterliegt. Diese Situation ist nicht auf Getriebe beschränkt, sondern kann auch in Antriebsstrangvorrichtungen auftreten.
  • Ein Fahrzeugsteuerungsvorrichtung gemäß einem ersten Aspekt der Erfindung umfasst: eine Speichervorrichtung, die beziehungsdefinierende Daten speichert, die Daten sind zum Definieren einer Beziehung zwischen einem Zustand eines Fahrzeugs und einer Aktionsvariable, die eine Variable ist, die in Bezug steht zu einem Betrieb einer Antriebsstrangvorrichtung, die in dem Fahrzeug eingebaut ist; und eine Ausführungsvorrichtung die ausgelegt ist, um den Zustand auf der Grundlage eines Erfassungswerts eines Bordsensors zu ermitteln, die Antriebsstrangvorrichtung auf der Grundlage eines Werts der Aktionsvariablen, der auf der Grundlage der beziehungsdefinierenden Daten und des durch die Ausführungsvorrichtung ermittelten Zustands bestimmt wird, zu betreiben, eine Belohnung so abzuleiten, dass die Belohnung größer ist, wenn der Zustand der Antriebsstrangvorrichtung auf der Grundlage des durch die Ausführungsvorrichtung ermittelten Zustands ein vorbestimmtes Kriterium erfüllt, als wenn der Zustand der Antriebsstrangvorrichtung auf der Grundlage des durch die Ausführungsvorrichtung ermittelten Zustands das vorbestimmte Kriterium nicht erfüllt, eine Aktualisierung der beziehungsdefinierenden Daten unter Verwendung einer Aktualisierungskarte durchzuführen, deren Argumente der durch die Ausführungsvorrichtung ermittelte Zustand, der Wert der im Betrieb der Antriebsstrangvorrichtung verwendeten Aktionsvariablen und die Belohnung, die dem Betrieb entspricht und die die beziehungsdefinierenden Daten zurückgibt, die aktualisiert werden, so dass ein erwarteter Nutzen bezüglich der Belohnung, die berechnet wird, wenn die Antriebsstrangvorrichtung gemäß den beziehungsdefinierenden Daten betrieben wird, zunimmt, und die Aktualisierung der beziehungsdefinierenden Daten zu einzuschränken, so dass ein Aktualisierungsbetrag der beziehungsdefinierenden Daten kleiner ist, wenn die einer vorbestimmten Begrenzung unterliegt, als wenn die Antriebsstrangvorrichtung der vorbestimmten Begrenzung nicht unterliegt.
  • Gemäß dem obigen Aspekt ist die Ausführung der Aktualisierungsverarbeitung so eingeschränkt, dass der Aktualisierungsbetrag kleiner ist, wenn eine Einschränkung bezüglich des Antriebs der Antriebsstrangvorrichtung wirksam ist. Daher kann eine Situation verhindert werden, in der sich die beziehungsdefinierenden Daten durch ihre Aktualisierung stark ändern, wenn eine Einschränkung bezüglich des Antriebs der Antriebsstrangvorrichtung wirksam ist. Daher kann in der obigen Konfiguration verhindert werden, dass Lernergebnisse von bestärkendem Lernen stark von einem geeigneten Wert zum Betreiben der Antriebsstrangvorrichtung im normalen Betrieb abweichen.
  • In dem obigen Aspekt kann die Ausführungsvorrichtung ausgelegt sein, um zu bestimmen, um zu bestimmen, ob eine Anormalität in der Antriebsstrangvorrichtung vorhanden ist; und die Antriebsstrangvorrichtung kann der vorbestimmten Einschränkung unterliegen, wenn die Ausführungsvorrichtung bestimmt, dass die Anormalität in der Antriebsstrangvorrichtung existiert.
  • Wenn bestärkendes Lernen ausgeführt wird und eine Anormalität in der Antriebsstrangvorrichtung vorliegt, besteht die Möglichkeit, dass Lernergebnisse vom bestärkenden Lernen stark von einem geeigneten Wert zum Betreiben der Antriebsstrangvorrichtung im normalen Betrieb abweichen. Gemäß der obigen Konfiguration wird eine Ausführung der Aktualisierungsverarbeitung eingeschränkt, wenn bestimmt wird, dass eine Anormalität vorliegt. Daher kann verhindert werden, dass Lernergebnisse von bestärkendes Lernen stark von einem geeigneten Wert zum Betreiben der Antriebsstrangvorrichtung im normalen Betrieb abweichen.
  • In dem obigen Aspekt kann die Antriebsstrangvorrichtung ein Getriebe umfassen; und die Antriebsstrangvorrichtung kann der vorbestimmten Einschränkung unterliegen, wenn eine Temperatur eines Betriebsöls des Getriebes gleich hoch wie oder höher als ein Hochtemperatur-Schwellenwert ist.
  • Wenn bestärkendes Lernen ausgeführt wird und die Temperatur des Betriebsöls übermäßig hoch ist, besteht die Möglichkeit, dass Lernergebnisse vom bestärkenden Lernen stark von einem geeigneten Wert zum Betreiben der Antriebsstrangvorrichtung in einem normalen Temperaturbereich abweichen. Gemäß der obigen Konfiguration wird die Aktualisierungsverarbeitung eingeschränkt, wenn die Temperatur des Betriebsöls gleich hoch wie oder höher als der hochtemperaturseitige Schwellenwert ist. Daher kann verhindert werden, dass Lernergebnisse vom bestärkenden Lernen stark von einem geeigneten Wert für einen Temperaturbereich, in dem die Temperatur des Betriebsöls normal ist, abweichen.
  • In dem obigen Aspekt kann die Antriebsstrangvorrichtung das Getriebe umfassen; und die Antriebsstrangvorrichtung kann der vorbestimmten Einschränkung unterliegen, wenn die Antriebsstrangvorrichtung der vorbestimmten Einschränkung unterliegt.
  • Wenn bestärkendes Lernen ausgeführt wird und die Temperatur des Betriebsöl übermäßig niedrig ist, besteht die Möglichkeit, dass Lernergebnisse vom bestärkenden Lernen stark von einem geeigneten Wert zum Betreiben der Antriebsstrangvorrichtung in einem normalen Temperaturbereich abweichen. Gemäß der obigen Konfiguration wird die Aktualisierungsverarbeitung beschränkt, wenn die Temperatur des Betriebsöls gleich hoch wie oder niedriger als der niedertemperaturseitige Schwellenwert ist. Daher kann verhindert werden, dass Lernergebnisse vom bestärkenden Lernen stark von einem geeigneten Wert für einen Temperaturbereich, in dem die Temperatur des Betriebsöls normal ist, abweichen.
  • In dem obigen Aspekt kann der Aktualisierungsbetrag null sein, wenn die Antriebsstrangvorrichtung der vorbestimmten Einschränkung unterliegt.
  • Gemäß der obigen Konfiguration kann durch Setzen des Aktualisierungsbetrags auf null durch die Einschränkungsverarbeitung eine Situation ausreichend verhindert werden, in der die beziehungsdefinierenden Daten von geeigneten Daten im normalen Betrieb abweichen, verglichen mit einem Fall, in dem der Aktualisierungsbetrag kleiner, aber nicht null ist.
  • Ein Fahrzeugsteuerungssystem gemäß einem zweiten Aspekt der Erfindung umfasst: eine Speichervorrichtung, die beziehungsdefinierende Daten speichert, die Daten sind zum Definieren einer Beziehung zwischen einem Zustand eines Fahrzeugs und einer Aktionsvariable, die eine Variable ist, die in Bezug steht zu einem Betrieb einer Antriebsstrangvorrichtung, die in dem Fahrzeug eingebaut ist; und; und eine Ausführungsvorrichtung, die umfasst: eine erste Ausführungsvorrichtung, die in dem Fahrzeug eingebaut ist, und eine zweite Ausführungsvorrichtung, die von einem Bordgerät getrennt ist, wobei die erste Ausführungsvorrichtung ist ausgelegt, um den Zustand auf der Grundlage eines Erfassungswerts eines Bordsensors zu ermitteln, die Antriebsstrangvorrichtung auf der Grundlage eines Werts der Aktionsvariablen, der auf der Grundlage der beziehungsdefinierenden und des durch die Ausführungsvorrichtung ermittelten Zustands bestimmt wird, zu betreiben, wenigstens eine von der ersten Ausführungsvorrichtung und der zweiten Ausführungsvorrichtung ausgelegt ist, um eine Belohnung so abzuleiten, dass die Belohnung größer ist, wenn der Zustand der Antriebsstrangvorrichtung auf der Grundlage des durch die erste Ausführungsvorrichtung ermittelten Zustands ein vorbestimmtes Kriterium erfüllt, als wenn der Zustand der Antriebsstrangvorrichtung auf der Grundlage des durch die erste Ausführungsvorrichtung ermittelten Zustands das vorbestimmte Kriterium nicht erfüllt, die zweite Ausführungsvorrichtung ausgelegt ist, um eine Aktualisierung der beziehungsdefinierenden Daten unter Verwendung einer Aktualisierungskarte durchzuführen, deren Argumente der durch die erste Ausführungsvorrichtung ermittelte Zustand, der Wert der im Betrieb der Antriebsstrangvorrichtung verwendeten Aktionsvariablen und die Belohnung, die dem Betrieb entspricht, sind und die die beziehungsdefinierenden Daten zurückgibt, die so aktualisiert werden, dass ein erwarteter Nutzen in Bezug auf die berechnete Belohnung, wenn die Antriebsstrangvorrichtung gemäß den beziehungsdefinierenden Daten betrieben wird, zunimmt, und die wenigstens eine von der ersten Ausführungsvorrichtung und der zweiten Ausführungsvorrichtung ferner ausgelegt ist, um die Aktualisierung der beziehungsdefinierenden Daten so einzuschränken, dass ein Aktualisierungsbetrag der beziehungsdefinierenden Daten kleiner ist, wenn die Antriebsstrangvorrichtung einer vorbestimmten Einschränkung unterliegt, als wenn die Antriebsstrangvorrichtung der vorbestimmten Einschränkung nicht unterliegt.
  • Gemäß der obigen Konfiguration führt die zweite Ausführungsvorrichtung eine Aktualisierungsverarbeitung aus, und demzufolge kann eine Berechnungslast der ersten Ausführungsvorrichtung verglichen mit einem Fall verringert sein, in dem die erste Ausführungsvorrichtung die Aktualisierungsverarbeitung ausführt. Es ist zu beachten, dass zu sagen, dass die zweite Ausführungsvorrichtung eine von einem Bordgerät getrennte Vorrichtung ist, bedeutet, dass die zweite Ausführungsvorrichtung kein Bordgerät ist.
  • Eine Fahrzeugsteuerungsvorrichtung gemäß einem dritten Aspekt der Erfindung umfasst die erste Ausführungsvorrichtung, die in dem Fahrzeugsteuerungssystem des zweiten Aspekts enthalten ist.
  • Eine Fahrzeuglernvorrichtung gemäß einem vierten Aspekt der Erfindung umfasst die zweite Ausführungsvorrichtung, die in dem Fahrzeugsteuerungssystem des zweiten Aspekts enthalten ist.
  • Figurenliste
  • Nachfolgend sind Merkmale, Vorteile und die technische sowie die industrielle Bedeutung beispielhafter Ausführungsformen der Erfindung mit Bezug auf die beigefügten Zeichnungen beschrieben, in denen gleiche Bezugszeichen gleiche Elemente bezeichnen und wobei:
    • 1 ein Diagramm ist, das eine Steuerungsvorrichtung und einen Antriebsstrang gemäß einer ersten Ausführungsform zeigt;
    • 2 ein Flussdiagramm ist, das Prozeduren zum Verarbeiten zeigt, die die Steuerungsvorrichtung gemäß der ersten Ausführungsform ausführt;
    • 3 ein Flussdiagramm ist, das detailliert Prozeduren für einen Teil der Verarbeitung zeigt, die die Steuerungsvorrichtung gemäß der ersten Ausführungsform ausführt;
    • 4 ein Flussdiagramm ist, das Prozeduren zum Verarbeiten zeigt, die die Steuerungsvorrichtung gemäß der ersten Ausführungsform ausführt;
    • 5 ein Flussdiagramm ist, das Prozeduren zum Verarbeiten zeigt, die eine Steuerungsvorrichtung gemäß einer zweiten Ausführungsform ausführt;
    • 6 ein Flussdiagramm ist, das detailliert Prozeduren für einen Teil der Verarbeitung zeigt, die die Steuerungsvorrichtung gemäß der zweiten Ausführungsform ausführt;
    • 7 ein Diagramm ist, das eine Konfiguration eines Steuerungssystems gemäß einer dritten Ausführungsform zeigt; und
    • 8 ein Flussdiagramm ist, das Prozeduren zum Verarbeiten zeigt, die das Steuerungssystem ausführt.
  • AUSFÜHRLICHE BESCHREIBUNG VON AUSFÜHRUNGSFORMEN
  • Erste Ausführungsform
  • Nachfolgend ist ein erste Ausführungsform mit Bezug auf die Zeichnungen beschrieben. Eine Leistungsverteilungsvorrichtung 20 ist mechanisch mit einer Kurbelwelle 12 eines Verbrennungsmotors 10 verbunden, wie es in 1 gezeigt ist. Die Leistungsverteilungsvorrichtung 20 verteilt die Leistung des Verbrennungsmotors 10, eines ersten Motorgenerators 22 und eines zweiten Motorgenerators 24. Die Leistungsverteilungsvorrichtung 20 umfasst einen Planetengetriebemechanismus. Die Kurbelwelle 12 ist mechanisch mit einem Träger C des Planetengetriebemechanismus verbunden, eine Drehwelle 22a des ersten Motorgenerators 22 ist mechanisch mit einem Sonnenrad S davon verbunden, und eine Drehwelle 24a des zweiten Motorgenerators 24 ist mechanisch mit einem Hohlrad R davon verbunden. Eine Ausgangsspannung eines ersten Inverters 23 liegt an einem Anschluss des ersten Motorgenerators 22. Ferner liegt eine Ausgangsspannung eines zweiten Inverters 25 an einem Anschluss des zweiten Motorgenerators 24.
  • Zusätzlich zur Drehwelle 24a des zweiten Motorgenerators 24 sind auch Antriebsräder 30 über ein Getriebe 26 mechanisch mit dem Hohlrad R der Leistungsverteilungsvorrichtung 20 verbunden. Ferner ist eine angetriebene Welle 32a einer Ölpumpe 32 mechanisch mit dem Träger C verbunden. Die Ölpumpe 32 ist eine Pumpe, die Öl in eine Ölpfanne 34 saugt und das Öl als Betriebsöl in das Getriebe 26 abführt. Es ist zu beachten, dass der Druck des von der Ölpumpe 32 abgeführten Betriebsöls durch einen Hydraulikdruck-Regelschalkreis 28 in dem Getriebe 26 eingestellt und somit als Betriebsöl verwendet wird. Der Hydraulikdruck-Regelschalkreis 28 umfasst mehrere Solenoidventile 28a und ist eine Schaltung, die den Zustand des fließenden Betriebsöls und den Hydraulikdruck des Betriebsöls durch Zuführen eines elektrischen Stroms zu den Solenoidventilen 28a steuert.
  • Eine Steuerungsvorrichtung 40 steuert den Verbrennungsmotor 10 und unterschiedliche Arten von Betriebsabschnitten des Verbrennungsmotors 10, um ein Drehmoment, ein Abgaskomponentenverhältnis und so weiter, die Regelgrößen davon sind, zu regeln. Die Steuerungsvorrichtung 40 steuert ferner den ersten Motorgenerator 22 und betätigt den ersten Inverter 23, um ein Drehmoment, eine Drehzahl und so weiter, die Regelgrößen davon sind, zu regeln. Die Steuerungsvorrichtung 40 steuert ferner den zweiten Motorgenerator 24 und betätigt den zweiten Inverter 25, um ein Drehmoment, eine Drehzahl und so weiter, die Regelgrößen davon sind, zu regeln.
  • Die Regelung der oben genannten Regelgrößen durch die Steuerungsvorrichtung 40 erfolgt auf der Grundlage eines Ausgangssignals Scr eines Kurbelwinkelsensors 50, eines Ausgangssignals Sm1 eines ersten Drehwinkelsensors 52, der den Drehwinkel der Drehwelle 22a des ersten Motorgenerators 22 erfasst, und eines Ausgangssignals Sm2 eines zweiten Drehwinkelsensors 54, der den Drehwinkel der Drehwelle 24a des zweiten Motorgenerators 24 erfasst. Ferner erfolgt die Regelung durch die Steuerungsvorrichtung 40 auf der Grundlage einer Öltemperatur Toil, die eine Temperatur eines durch einen Öltemperatursensor 56 erfassten Öls ist, einer durch einen Fahrzeuggeschwindigkeitssensor 58 erfassten Fahrzeuggeschwindigkeit SPD und eines Beschleunigerbetätigungsbetrags ACCP, der ein durch einen Beschleunigersensor 62 erfasster Niederdrückbetrag eines Gaspedals 60 ist.
  • Die Steuerungsvorrichtung 40 umfasst eine Zentralverarbeitungseinheit (CPU) 42, einen Nur-lese-Speicher (ROM) 44, einen Speichervorrichtung 46, der ein elektrisch wiederbeschreibbarer, nichtflüchtiger Speicher ist, und eine periphere Schaltung 48, die über ein lokales Netzwerk 49 kommunizieren können. Die periphere Schaltung 48 umfasst eine Schaltung, die Taktsignale erzeugt, um interne Operationen zu definieren, eine Stromquellenschaltung, eine Rücksetz- oder Resetschaltung und so weiter. Die Steuerungsvorrichtung 40 regelt die Regelgrößen durch die CPU 42, die im ROM 44 gespeicherte Programme ausführt.
  • 2 zeigt Verarbeitungsprozeduren, die die Steuerungsvorrichtung 40 ausführt. Die in 2 gezeigte Verarbeitung wird durch ein im ROM 44 gespeichertes Lernprogramm DPL realisiert, das jedes Mal durch die CPU 42 ausgeführt wird, wenn vorbestimmte Bedingungen erfüllt sind. Es ist zu beachten, dass im Folgenden Zahlen nach einem „S“ Schrittnummern der einzelnen Verarbeitungen angeben.
  • In den in 2 gezeigten Verarbeitungsreihen bestimmt die CPU 42 zuerst, ob die momentane Periode eine Periode ist, in der Übersetzungsverhältnisse geschaltet werden sollen, d. h. ob die momentane Periode eine Gangschaltperiode sein soll (S10). Wenn bestimmt wird, dass die momentan Periode eine Gangschaltperiode ist (JA in S10), ermittelt die CPU 42 den Beschleunigerbetätigungsbetrag ACCP, eine Gangschaltvariable ΔVsft, die Öltemperatur Toil, eine Phasenvariable Vpase und eine Drehzahl Nm2 des zweiten Motorgenerators 24 als einen Zustand s (S12). Es ist zu beachten, dass die Gangschaltvariable ΔVsft eine Variable ist, um vor und nach einem Übergang des Übersetzungsverhältnisses festzustellen, ob von dem ersten Gang in den zweiten Gang, von dem zweiten Gang in den ersten Gang oder dergleichen geschaltet werden sollte bzw. wurde. Die Phasenvariable Vpase ist eine Variable zum Identifizieren, welche von drei Phasen, die Schaltstufen in einer Gangschaltperiode bestimmen, momentan vorliegt.
  • Das heißt, in der vorliegenden Ausführungsform wird eine Gangschaltperiode in eine Phase 1, eine Phase 2 und eine Phase 3 unterteilt. Phase 1 ist hier eine Periode vom Beginn der Übersetzungsverhältnis-Schaltsteuerung bis zum Ablauf einer voreingestellten Zeitspanne. Phase 2 ist eine Periode vom Ende von Phase 1 bis zum Ende einer Drehmomentphase. Mit anderen Worten, dies ist eine Periode, bis die Drehmomentübertragbarkeit durch Reibeingriffselemente, die durch Schalten des Übersetzungsverhältnisses von einem Eingriffszustand in einen Nichteingriffszustand geschaltet werden, null erreicht hat. Die CPU 42 bestimmt den Endzeitpunkt der Phase 2 auf der Grundlage einer Abweichung der tatsächlichen Eingangswellendrehzahl von einer durch die Drehzahl einer Ausgangswelle des Getriebes 26 bestimmten Eingangswellendrehzahl und dem Übersetzungsverhältnis vor dem Schalten des Übersetzungsverhältnisses. Die Eingangswellendrehzahl kann die Drehzahl Nm2 sein. Ferner berechnet die CPU 42 die Ausgangswellendrehzahl entsprechend der Fahrzeuggeschwindigkeit SPD. Phase 3 ist eine Periode von dem Endzeitpunkt von Phase 2 bis zum Abschluss des Gangschaltvorgangs.
  • Es ist zu beachten, dass die oben erwähnten vorbestimmten Bedingungen, bei denen die Verarbeitung in 2 ausgeführt werden, Bedingungen sind, wonach der momentane Zeitpunkt ein Phasenstartzeitpunkt ist. Die obige Drehzahl Nm2 wird durch die CPU 42 auf der Grundlage der Ausgangssignale Sm2 berechnet.
  • Der Zustand s ist bestimmt durch Werte von Variablen, deren Beziehung zu der Aktionsvariablen durch beziehungsdefinierende Daten DR definiert ist, die in der in 1 gezeigten Speichervorrichtung 46 gespeichert sind. Ein Hydraulikdruck-Befehlswert eines Betriebsöls, das die Reibeingriffselemente betätigt, die beim Schalten des Übersetzungsverhältnisses beteiligt sind, ist in der ersten Ausführungsform beispielhaft als eine Aktionsvariable dargestellt. Insbesondere ist der Hydraulikdruck-Befehlswert bezüglich Phase 1 und Phase 2 in diesen Perioden ein konstanter Wert und ist ein Hydraulikdruck-Befehlswert, der in Phase 3 mit einer konstanten Rate ansteigt. Es ist zu beachten, dass die Aktionsvariable für Phase 3, die tatsächlich in den beziehungsdefinierenden Daten DR enthalten ist, eine Druckanstiegsrate sein kann.
  • Insbesondere umfassen die beziehungsdefinierenden Daten DR eine Aktionswertefunktion Q. Die Aktionswertefunktion Q ist eine Funktion, in der der Zustand s und eine Aktion a unabhängige Variablen sind und ein erwarteter Nutzen in Bezug auf den Zustand s und die Aktion a eine abhängige Variable ist. In der vorliegenden Ausführungsform ist die Aktionswertefunktion Q ein Funktion im Tabellenformat.
  • Danach bestimmt die CPU 42, ob ein Einschränkungsflag F „0“ ist (S14). Die Einschränkungsflag F gibt an, dass bestärkendes Lernen erlaubt ist, wenn das Einschränkungsflag F „0“ ist, und gibt an, dass bestärkendes Lernen eingeschränkt ist, wenn das Einschränkungsflag F „1“ ist.
  • Wenn bestimmt wird, dass das Einschränkungsflag F „0“ ist (JA in S14), berechnet die CPU 42 den Wert der Aktionsvariablen auf der Grundlage einer durch die beziehungsdefinierenden Daten DR definierten Strategie (engl. „policy“) π (S16). In der vorliegenden Ausführungsform ist die Strategie beispielhaft eine ε-Greedy-Strategie (engl. „ε greedy policy“). Das heißt, es wird beispielhaft eine Strategie erläutert, mit der eine Regel bestimmt wird, bei der, wenn ein Zustand s gegeben ist, die größte Aktion der Aktionswertefunktion Q, bei der eine unabhängige Variable der gegebene Zustand s ist (nachfolgend als Greedy-Aktion ag bezeichnet) priorisiert ausgewählt wird, während gleichzeitig andere Aktionen mit einer vorbestimmten Wahrscheinlichkeit ausgewählt werden. Insbesondere ist die Wahrscheinlichkeit, einen anderen Aktionsvariablenwert als den der Greedy-Aktion anzunehmen, jeweils „ε/ |A|“, wenn die Gesamtanzahl von Werten, die die Aktion annehmen kann, „|A|“ ist.
  • Da in der ersten Ausführungsform die Aktionswertefunktion Q in tabellierten Daten vorliegt, hat der Zustand s, der als eine unabhängige Variable dient, eine bestimmte Breite. Das heißt, wenn man die Aktionswertefunktion Q in 10%-Schritten in Bezug auf den Beschleunigerbetätigungsbetrag ACCP definiert, werden ein Fall, in dem der Beschleunigerbetätigungsbetrag ACCP 3 % beträgt, und ein Fall, in dem der Beschleunigerbetätigungsbetrag ACCP 6 % beträgt, nicht allein durch die Differenz des Beschleunigerbetätigungsbetrags ACCP als unterschiedliche Zustände s betrachtet.
  • Danach steuert die CPU 42 einen zugeführten elektrische Strom I so, dass der zugeführte elektrische Strom I der Solenoidventile 28a auf der Grundlage des Hydraulikdruck-Befehlswerts P* bestimmt wird (S18). Die CPU 42 berechnet dann einen Überschießungsbetrag (engl. „flare amount“) (ein Überschwingungsbetrag (engl. „racing amount“)) ΔNm2 (S20). Der Überschießungsbetrag ΔNm2 ist eine Quantifizierung des Überschießungsbetrag s der Drehzahl der Eingangswelle des Getriebe 26 während der Gangschaltperiode und wird als ein Überschreitungsbetrag (engl. „overshoot amount“) der Drehzahl Nm2 bezüglich der Drehzahl Nm2*, die eine im Voraus eingestellte Referenz ist, berechnet. Die CPU 42 stellt die Referenzdrehzahl Nm2* in Übereinstimmung mit dem Beschleunigerbetätigungsbetrag ACCP, der Fahrzeuggeschwindigkeit SPD und der Gangschaltvariable ΔVsft ein. Diese Verarbeitung kann durch Kartenberechnung der Referenzdrehzahl Nm2* durch die CPU 42 in einem Zustand realisiert werden, in dem Kartendaten, in denen der Beschleunigerbetätigungsbetrag ACCP, die Fahrzeuggeschwindigkeit SPD und die Gangschaltvariable ΔVsft Eingangsvariablen sind und die Referenzdrehzahl Nm2* eine Ausgangsvariable ist, im Voraus in dem ROM 44 gespeichert werden. Es ist zu beachten, dass Kartendaten Daten von Sätzen von diskreten Werten der Eingangsvariablen und Werten der Ausgangsvariablen, die den jeweiligen Werten der Eingangsvariablen entsprechen, sind. Es kann auch eine Kartenberechnung ausgeführt werden, in der, wenn ein Wert einer Eingangsvariablen mit einem der Werte der Eingangsvariablen in den Kartendaten übereinstimmt, der entsprechende Wert der Ausgangsvariablen in den Kartendaten als ein Berechnungsergebnis verwendet wird, und wenn keine Übereinstimmung vorliegt, zum Beispiel ein Wert, der durch Interpolation von mehreren Werten von Ausgangsvariablen gewonnen wird, die enthalten in den Kartendaten enthalten sind, als ein Berechnungsergebnis verwendet wird.
  • Die CPU 42 führt die Verarbeitung von S20 bis zum Ende der momentanen Phase aus (NEIN in S22). Wenn bestimmt wird, dass die momentane Phase endet (JA in S22), berechnet die CPU 42 eine Belohnung für die in der Verarbeitung von S16 verwendete Aktion (S24).
  • 3 zeigt Einzelheiten der Verarbeitung von S24. In dem in 3 gezeigten Verarbeitungsablauf bestimmt die CPU 42 zuerst, ob die Phasenvariable Vpase „3“ ist (S40). Wenn bestimmt wird, dass die Phasenvariable Vpase „3“ ist (JA in S40), ist der Gangschaltvorgang abgeschlossen, und dementsprechend berechnet die CPU 42 eine Gangschaltzeit Tsft, die die Zeitspanne ist, die für den Gangschaltvorgang erforderlich ist (S42). Die CPU 42 berechnet dann in Übereinstimmung mit der Gangschaltzeit Tsft eine Belohnung r1 (S44). Insbesondere berechnet die CPU 42 einen größeren Wert für die Belohnung r1, wenn die Gangschaltzeit Tsft relativ kurz ist.
  • Danach setzt die CPU 42 den größten Wert des Überschießungsbetrags ΔNm2, der in einem vorbestimmten Zyklus in der Verarbeitung von S18 wiederholt berechnet wurde, auf einen Überschießungsbetrag-Maximalwert ΔNm2max (S46). Die CPU 42 berechnet dann eine Belohnung r2 in Übereinstimmung mit dem Überschießungsbetrag-Maximalwert ΔNm2max (S48). Insbesondere berechnet die CPU 42 einen größeren Wert für die Belohnung r2, wenn der Überschießungsbetrag-Maximalwert ΔNm2max relativ klein ist.
  • Die CPU 42 setzt dann für die in der Verarbeitung von S16 verwendete Aktion die Summe aus der Belohnung r1 und der Belohnung r2 auf die Belohnung r ( S50). Wenn hingegen bestimmt wird, dass die Phasenvariable Vpase „1“ oder „2“ ist (NEIN in S40), setzt die CPU 42 die Belohnung r auf „0“ (S52).
  • Es ist zu beachten, dass, wenn die Verarbeitung von S50 oder S52 beendet ist, die CPU 42 die Verarbeitung von S24 beendet. Wie es in 2 gezeigt ist, aktualisiert die CPU 42 die in der Verarbeitung von S16 verwendete Aktionswertfunktion Q (s, a) auf der Grundlage der Belohnung r (S26). Es ist zu beachten, dass die in der Verarbeitung von S16 verwendete Aktionswertfunktion Q (s, a) die Aktionswertfunktion Q (s, a) ist, die den durch die Verarbeitung von S12 ermittelten Zustand s und die durch die Verarbeitung von S16 eingestellte Aktion a als unabhängige Variablen nimmt.
  • In der vorliegenden Ausführungsform wird die Aktionswertfunktion Q (s, a) durch so genanntes Q-Learning aktualisiert, welches ein Off-Policy-Temporal-Difference (TD) - Learning ist, das in dem nachfolgenden Ausdruck (c1) definiert ist. Q ( s ,a ) Q+ α { r + γ maxQ ( s+1 ,A ) Q ( s ,a ) }
    Figure DE102021115778A1_0001
    in dem der Discount-Faktor (engl. „discount rate“) γ und die Lernrate α für den Aktualisierungsbetrag „α • {r + γ • maxQ (s + 1, A) - Q (s, a)}“ der Aktionswertfunktion Q(s, a) verwendet werden. Es ist zu beachten, dass der Discount-Faktor γ eine Konstante größer „0“ und kleiner gleich „1“ ist. Ferner bedeutet „maxQ (s + 1, a)‟ eine Zustandsvariable zum Zeitpunkt des Phasenabschlusses, d. h. den größten Wert der Aktionswertfunktion Q, von der eine unabhängige Variable der Zustand s + 1 ist, der durch die Verarbeitung von S12 beim nächsten Mal in dem in 2 gezeigten Verarbeitungsablauf ermittelt werden soll. Es ist zu beachten, dass, wenn die momentane Phase nicht die Phase 3 ist, der Zustand s, der durch die Verarbeitung von S12 beim nächsten Mal in dem in 2 gezeigten Verarbeitungsablauf ermittelt wird, der Zustand s + 1 ist, der in der Verarbeitung von S26 verwendet wird. Ferner wird, wenn die momentane Phase die Phase 3 ist, der Zustand s, der dieses Mal durch die Verarbeitung von S12 in dem in 2 gezeigten Verarbeitungsablauf ermittelt wird, auf den Zustand s + 1 gesetzt.
  • Andererseits wird, wenn die CPU 42 in der Verarbeitung von S14 bestimmt, dass das Einschränkungsflag F „1“ ist (NEIN in S14), wird der Hydraulikdruck-Befehlswert P* durch diejenige Greedy-Aktion ag gesetzt, die die größte Aktion a in der Aktionswertfunktion Q ist, bei der eine unabhängige Variable der Zustand s ist (S28). Die CPU 42 steuert dann den den Solenoidventilen 28a zugeführten elektrischen Strom I so, dass der durch die Verarbeitung von S28 eingestellte Hydraulikdruck-Befehlswert P* realisiert wird (S30).
  • Es ist zu beachten, dass, wenn die Verarbeitung von S26 oder S30 abschlossen ist oder in der Verarbeitung von S10 eine negative Bestimmung erfolgt, die CPU 42 den in 2 gezeigten Verarbeitungsablauf einmal beendet. Es ist ferner zu beachten, dass die beziehungsdefinierenden Daten DR zum Zeitpunkt der Verschiffung eines Fahrzeugs VC Daten sind, bei denen ein Lernvorgang durch eine Verarbeitung ähnlich der Verarbeitung in 2 in einem Fahrzeugprototyp oder dergleichen mit den gleichen Spezifikationen wie das Fahrzeug VC ausgeführt worden ist. Das heißt, die Verarbeitung von 2 ist eine Verarbeitung, um den vor der Verschiffung des Fahrzeugs VC eingestellten Hydraulikdruck-Befehlswerts P* durch bestärkendes Lernen auf einen Wert zu aktualisieren, der für eine tatsächliche Fahrt des Fahrzeugs VC auf der Straße geeignet ist.
  • 4 zeigt Prozeduren zum Verarbeiten bezüglich einer Einstellung des Werts des oben beschriebenen Einschränkungsflags F. Die in 4 gezeigte Verarbeitung wird durch ein im ROM 44 gespeichertes Lernprogramm DLP, das durch die CPU 42 in einem vorbestimmten Zyklus wiederholt ausgeführt wird, realisiert.
  • In dem in 4 gezeigten Verarbeitungsablauf bestimmt die CPU 42 zuerst, ob die momentane Periode eine Gangschaltperiode ist und auch eine Periode, in der eine Greedy-Aktion ag ausgewählt ist (S60). Wenn in der Verarbeitung von S60 eine positive Bestimmung erfolgt (JA in S60), bestimmt die CPU 42, ob ein Zustand, in dem der Überschießungsbetrag ΔNm2 gleich hoch wie oder höher als ein Schwellenwert Δth ist, für eine vorbestimmte Periode andauert (S62). Diese Verarbeitung ist eine Verarbeitung, um zu bestimmen, ob eine Anormalität in der Gangschaltsteuerung aufgetreten ist. Das heißt, wenn in der Schaltzeitperiode eine Greedy-Aktion verwendet wird, wird nicht erwartet, dass der Überschießungsbetrag ΔNm2 sehr groß ist. Wenn der Überschießungsbetrag ΔNm2 dennoch den Schwellenwert überschreitet, so ist eine Anormalität denkbar wie etwa Fremdkörper, die sich in den Solenoidventile 28a verfangen und zu einer Fehlfunktion der Solenoidventile 28a führen, oder eine Verringerung der Steuerbarkeit der Reibeingriffselemente aufgrund einer Verschlechterung des Betriebsöls, was zu einer größeren Menge an Luft führt, die in das Betriebsöl gemischt wird, oder dergleichen.
  • Wenn bestimmt wird, dass ein solcher Zustand für eine vorbestimmte Periode fortdauert (JA in S62), setzt die CPU 42 das Einschränkungsflag F auf „1“ (S64). Wenn hingegen in der Verarbeitung von S60 eine negative Bestimmung erfolgt, ermittelt die CPU 42 die Öltemperatur Toil (S66). Die CPU 42 bestimmt dann, ob die logische Disjunktion der Öltemperatur Toil, die gleich hoch wie oder höher als ein hochtemperaturseitiger Schwellenwert TH ist, und die Öltemperatur Toil, die gleich hoch wie oder niedriger als ein niedertemperaturseitiger Schwellenwert (Niedertemperatur-Schwellenwert) TL ist, wahr ist (S68). Der hochtemperaturseitige Schwellenwert (Hochtemperatur-Schwellenwert) TH wird hier auf einen Wert eingestellt, der höher als der größte Wert der Temperatur ist, von dem angenommen werden kann, dass ihn die Öltemperatur Toil in einem normalen Betriebszustand des Getriebes 26 erreicht. Ferner wird hier der niedertemperaturseitige Schwellenwert TL auf einen Wert eingestellt, der kleiner als der niedrigste Wert der Temperatur ist, von dem angenommen werden kann, dass ihn die Öltemperatur Toil in einem normalen Betriebszustand der Getriebes 26 erreicht. Diese Verarbeitung ist eine Verarbeitung, um zu bestimmen, ob Einschränkungen beim Betreiben des Getriebes 26 auftreten können, weil die Öltemperatur Toil außerhalb des angenommenen Temperaturbereichs liegt und folglich die tatsächliche Viskosität stärker von der Viskosität in dem angenommenen Temperaturbereich abweicht, und so weiter.
  • Wenn bestimmt wird, dass die logische Disjunktion wahr ist (JA in S68), fährt die CPU 42 mit der Verarbeitung von S64 fort. Umgekehrt, wenn bestimmt wird, dass die logische Disjunktion nicht wahr ist (NEIN in S68) oder wenn in der Verarbeitung von S62 eine negative Bestimmung erfolgt, setzt die CPU 42 das Einschränkungsflag F auf „0“ (S70).
  • Es ist zu beachten, dass, wenn die Verarbeitung von S64 oder S70 abgeschlossen ist, die CPU 42 die in 4 gezeigte Verarbeitungsabfolge einmal beendet. Effekte und Vorteile der vorliegenden Ausführungsform sind nachfolgend beschrieben.
  • In einer Gangschaltperiode wählt die CPU 42 eine Greedy-Aktion ag und regelt einen elektrischen Strom für die Solenoidventile 28a, während sie unter Verwendung von anderen Aktionen als Greedy-Aktionen in Übereinstimmung mit einer vorbestimmten Wahrscheinlichkeit nach einem besseren Hydraulikdruck-Befehlswert P* sucht. Die CPU 42 aktualisiert dann die zum Identifizieren des Hydraulikdruck-Befehlswerts P* durch Q-Learning verwendete Aktionswertefunktion Q. Daher kann ein geeigneter Hydraulikdruck-Befehlswert P* durch bestärkendes Lernen gelernt werden, wenn das Fahrzeug VC tatsächlich fährt.
  • Wenn jedoch in der Gangschaltsteuerung eine Anormalität auftritt oder die Öltemperatur Toil anormal hoch ist oder die Öltemperatur Toil anormal niedrig ist, verhindert die CPU 42 bestärkendes Lernen. Somit kann verhindert werden, dass die Greedy-Aktion ag, die die beziehungsdefinierenden Daten DR angibt, auf einen Wert aktualisiert wird, der stark von einem geeigneten Wert zum Betrieb des Getriebes 26 beim normalen Schalten des Übersetzungsverhältnisses abweicht.
  • Zweite Ausführungsform
  • Nachfolgend ist eine zweite Ausführungsform mit Bezug auf die Zeichnungen beschrieben, und zwar primär hinsichtlich der Unterschiede gegenüber der ersten Ausführungsform.
  • 5 zeigt Verarbeitungsprozeduren, die die Steuerungsvorrichtung 40 ausführt. Die in 5 gezeigte Verarbeitung wird durch ein im ROM 44 gespeichertes Programm realisiert, das zum Beispiel in einem vorbestimmten Zyklus durch die CPU 42 wiederholt ausgeführt. Es ist zu beachten, dass zur Vereinfachung in 5 die Verarbeitung, die der in 2 gezeigten Verarbeitung entspricht, mit den gleichen Schritt-Nrn. bezeichnet ist.
  • Wenn in der in 5 gezeigten Verarbeitungsabfolge die Verarbeitung von S12 abgeschlossen ist, geht die CPU 42 zur Verarbeitung von S16 über. Das heißt, in der vorliegenden Ausführungsform werden die Verarbeitung zum Auswählen, zu welcher von der Verarbeitung von S16 und der Verarbeitung von S28 in Übereinstimmung mit dem Wert des Einschränkungsflags F übergegangen werden soll, nicht ausgeführt. Andererseits führt die CPU 42, wenn in der Verarbeitung von S22 eine positive Bestimmung erfolgt, die Verarbeitung von S24a aus und geht zu der Verarbeitung von S26 über.
  • 6 zeigt Einzelheiten der Verarbeitung von S24a. Es ist zu beachten, dass zur Vereinfachung in 6 die Verarbeitung, die der in 3 gezeigten Verarbeitung entspricht, mit den gleichen Schritt-Nrn. bezeichnet ist. Wenn in der in 6 gezeigten Verarbeitungsabfolge eine positive Bestimmung in der Verarbeitung von S40 erfolgt, ermittelt die CPU 42 die Historie der Anormalitätsbestimmung (S79). Das heißt, die Historie positiver Bestimmungen in der Verarbeitung von S62 in 4 wird ermittelt. Wenn die Verarbeitung von S42 abgeschlossen ist, berechnet die CPU 42 die Belohnung r1 in Übereinstimmung mit der Gangschaltzeit Tsft (S44a). Wenn bestimmt wird, dass eine Anormalität vorliegt, setzt die CPU 42 die Belohnung r1 unabhängig von der Gangschaltzeit Tsft auf „0“. Ferner berechnet die CPU 42, wenn die Öltemperatur Toil nicht höher als der niedertemperaturseitige Schwellenwert TL ist, die Belohnung r1 als einen größeren Wert, wenn die Gangschaltzeit Tsft relativ klein ist, aber stellt den Absolutbetrag der Belohnung r1 auf einen kleineren Wert ein im Vergleich dazu, wenn die Öltemperatur Toil höher als der niedertemperaturseitige Schwellenwert TL und niedriger als der hochtemperaturseitige Schwellenwert TH ist. Ferner berechnet die CPU 42, wenn die Öltemperatur Toil nicht niedriger als der hochtemperaturseitige Schwellenwert TH ist, die Belohnung r1 als einen größeren Wert, wenn die Gangschaltzeit Tsft relativ klein ist, aber setzt den Absolutbetrag der Belohnung r1 auf einen kleineren Wert im Vergleich dazu, wenn die Öltemperatur Toil höher als der niedertemperaturseitige Schwellenwert TL und niedriger als der hochtemperaturseitige Schwellenwert TH ist. Es ist zu beachten, dass in der ersten Ausführungsform, wenn die Öltemperatur Toil nicht niedriger als der hochtemperaturseitige Schwellenwert TH ist, der Absolutbetrag der Belohnung r1 als ein größerer Wert berechnet wird im Vergleich dazu, wenn die Öltemperatur Toil nicht höher als der niedertemperaturseitige Schwellenwert TL ist.
  • Danach führt die CPU 42 die Verarbeitung von S46 aus und berechnet ferner die Belohnung r2, die dem Überschießungsbetrag-Maximalwert ΔNm2max entspricht (S48a). Wenn bestimmt wird, dass eine Anormalität vorliegt oder die Öltemperatur Toil gleich hoch wie oder niedriger als der niedertemperaturseitige Schwellenwert TL ist, setzt die CPU 42 die Belohnung r2 unabhängig vom Überschießungsbetrag-Maximalwert ΔNm2max auf „0“. Ferner berechnet die CPU 42, wenn die Öltemperatur Toil nicht niedriger als der hochtemperaturseitige Schwellenwert TH ist, die Belohnung r2 als einen größeren Wert, wenn der Überschießungsbetrag-Maximalwert ΔNm2max relativ klein ist, aber setzt den Absolutbetrag der Belohnung r2 auf einen kleineren Wert im Vergleich dazu, wenn die Öltemperatur Toil höher als der niedertemperaturseitige Schwellenwert TL und niedriger als der hochtemperaturseitige Schwellenwert TH ist.
  • Es ist zu beachten, dass die CPU 42 nach Abschluss der Verarbeitung von S48a zur Verarbeitung von S50 übergeht. Somit setzt die CPU 42 gemäß der vorliegenden Ausführungsform, wenn eine Anormalität in der Gangschaltsteuerung vorliegt, die Belohnung r1 auf „0“, wodurch eine Aktualisierung der beziehungsdefinierenden Daten DR nicht erlaubt ist. Ferner setzt die CPU 42, wenn die Öltemperatur Toil gleich hoch wie oder niedriger als der niedertemperaturseitige Schwellenwert TL ist, die Belohnung r2 auf der Grundlage des Überschießungsbetrag-Maximalwerts ΔNm2max auf „0“, wodurch eine Aktualisierung der beziehungsdefinierenden Daten DR auf der Grundlage des Überschießungsbetrag-Maximalwerts ΔNm2max nicht erlaubt ist. Daher kann verhindert werden, dass die Greedy-Aktion ag, die die beziehungsdefinierenden Daten DR angibt, auf einen Wert aktualisiert wird, der stärker von einem geeigneten Wert beim normalen Schalten des Übersetzungsverhältnisses abweicht.
  • Ferner gibt die CPU 42, wenn die Öltemperatur Toil gleich hoch wie oder niedriger als der niedertemperaturseitige Schwellenwert TL oder gleich hoch wie oder höher als der hochtemperaturseitige Schwellenwert TH ist, eine Belohnung in Übereinstimmung mit der Gangschaltzeit Tsft, aber macht den Absolutbetrag davon klein, wodurch die Aktualisierung so begrenzt wird, dass der Aktualisierungsbetrag der beziehungsdefinierenden Daten DR klein ist. Ferner gibt die CPU 42, wenn die Öltemperatur Toil gleich hoch wie oder höher als der hochtemperaturseitige Schwellenwert TH ist, eine Belohnung in Übereinstimmung mit dem Überschießungsbetrag-Maximalwert ΔNm2max, aber macht den Absolutbetrag davon klein, wodurch die Aktualisierung so begrenzt wird, dass der Aktualisierungsbetrag der beziehungsdefinierenden Daten DR klein ist. Somit können die beziehungsdefinierenden Daten DR so aktualisiert werden, dass die Greedy-Aktion ag einen Hydraulikdruck-Befehlswert P* leicht widerspiegelt, der optimal ist, wenn die Öltemperatur Toil übermäßig von der normalen Temperatur abweicht.
  • Dritte Ausführungsform
  • Nachfolgend ist ein dritte Ausführungsform mit Bezug auf die Zeichnungen beschrieben, und zwar primär hinsichtlich der Unterschiede gegenüber der ersten Ausführungsform.
  • 7 zeigt eine Konfiguration eines Systems gemäß der vorliegenden Ausführungsform. Es ist zu beachten, dass Elemente in 7, die Elementen entsprechen, die in 1 gezeigt sind, der Einfachheit halber mit den gleichen Bezugszeichen bezeichnet und nicht erneut beschrieben sind. Die Steuerungsvorrichtung 40 eines Fahrzeugs VC(1) umfasst eine Kommunikationsvorrichtung 47 und ist dazu geeignet, über ein externes Netzwerk 80, das die Kommunikationsvorrichtung 47 verwendet, mit einem Datenanalysezentrum 90 zu kommunizieren, wie es in 7 gezeigt ist.
  • Das Datenanalysezentrum 90 analysiert Daten, die von mehreren Fahrzeugen VC(1), VC(2) usw. übertragen werden. Das Datenanalysezentrum 90 umfasst eine CPU 92, einen ROM 94, eine Speichervorrichtung 96 und eine Kommunikationsvorrichtung 97, die über ein lokales Netzwerk 99 kommunizieren können. Es ist zu beachten, dass die Speichervorrichtung 96 eine elektrisch wiederbeschreibare, nichtflüchtige Vorrichtung ist und die beziehungsdefinierenden Daten DR speichert.
  • 8 zeigt Verarbeitungsprozeduren zum bestärkenden Lernen gemäß der vorliegenden Ausführungsform. Verarbeitung (a) in 8 wird durch die CPU 42 realisiert, die ein Lernunterprogramm DPLa ausführt, das in dem in 7 gezeigten ROM 44 gespeichert ist. Ferner wird die Verarbeitung (b) in 8 durch die CPU 92 realisiert, die ein Lernhauptprogramm DPLb ausführt, das im ROM 94 gespeichert ist. Es ist zu beachten, dass aus Gründen der Vereinfachung die Verarbeitung in 8, die der in 2 gezeigten Verarbeitung entspricht, mit den gleichen Schritt-Nrn. bezeichnet ist. Die in 8 gezeigte Verarbeitung ist nachfolgend anhand der zeitlichen Abfolge des bestärkenden Lernens beschrieben.
  • Bei der Verarbeitung (a) in 8 führt die CPU 42 der Steuerungsvorrichtung 40 zuerst die Verarbeitung von S10 bis S20 aus und bestimmt dann, ob der Gangschaltvorgang beendet ist (S80). Wenn bestimmt wird, dass der Gangschaltvorgang beendet ist (JA in S80), berechnet die CPU 42 den Überschießungsbetrag-Maximalwert ΔNm2max und die Gangschaltzeit Tsft (S82). Die CPU 42 steuert dann die Kommunikationsvorrichtung 47, um den Überschießungsbetrag-Maximalwert ΔNm2max und die Gangschaltzeit Tsft, den Zustand s in der Schaltzeitperiode, die Aktion a und das Einschränkungsflag F, die Daten zur Aktualisierung der beziehungsdefinierenden Daten DR durch bestärkendes Lernen sind, zusammen mit einem Identifizierungscode des Fahrzeugs VC(1) zu übertragen (S84).
  • In Verbindung damit empfängt die CPU 92 des Datenanalysezentrums 90 die Daten zur Aktualisierung der beziehungsdefinierenden Daten DR durch bestärkendes Lernen (S90), wie es in der Verarbeitung von (b) in 8 gezeigt ist. Auf der Grundlage der empfangenen Daten führt die CPU 92 dann die Verarbeitung von S26 aus. Die CPU 92 steuert dann die Kommunikationsvorrichtung 97 an, um die aktualisierten beziehungsdefinierenden Daten DR an die Übertragungsquelle der durch die Verarbeitung von S90 empfangenen Daten zu übertragen (S92). Es ist zu beachten, dass die CPU 92 nach Abschluss der Verarbeitung von S92 die Verarbeitung (b) in 8 einmal beendet.
  • In Antwort darauf empfängt die CPU 42 die aktualisierten beziehungsdefinierenden Daten DR, wie es in der Verarbeitung (a) in 8 gezeigt ist (S86). Die CPU 42 aktualisiert dann die beziehungsdefinierenden Daten DR, die in der Verarbeitung von S16 bis S28 verwendet werden, auf der Grundlage der empfangenen Daten (S88). Es ist zu beachten, dass nach Abschluss der Verarbeitung von S88 oder S30 oder wenn in der Verarbeitung von S10 oder S80 eine negative Bestimmung erfolgt, die CPU 42 die Verarbeitung (a) in 8 einmal beendet. Wenn jedoch in der Verarbeitung von S80 eine negative Bestimmung erfolgt und der momentane Zeitpunkt nicht der Zeitpunkt für einen Phasenabschluss ist, führt die CPU 42 die Verarbeitung von S12, S16 und S18 das nächste Mal, wenn die Verarbeitung (a) in 8 ausgeführt wird, nicht erneut aus, was im Wesentlichen äquivalent zu der Verarbeitung von S20 ist.
  • Auf diese Weise werden gemäß der vorliegenden Ausführungsform die beziehungsdefinierenden Daten DR außerhalb des Fahrzeugs VC1 aktualisiert, wodurch die Rechenlast der Steuerungsvorrichtung 40 reduziert werden kann. Ferner kann durch Empfangen von Daten von den Fahrzeugen VC(1), VC(2) usw. in der Verarbeitung von S90 und Verarbeiten von S26 die Zählung von zum Lernen verwendeten Daten leicht erhöht werden.
  • Korrelative Beziehung
  • Ein Beispiel einer Antriebsstrangvorrichtung ist das Getriebe 26. Ein Beispiel einer Ausführungsvorrichtung ist die CPU 42 und der ROM 44. Ein Beispiel einer Speichervorrichtung ist die Speichervorrichtung 46. Ein Beispiel einer Ermittlungsverarbeitung ist die Verarbeitung von S12, S42 und S46. Ein Beispiel einer Regelungsverarbeitung ist die Verarbeitung von S18. Ein Beispiel einer Belohnungsberechnungsverarbeitung ist die Verarbeitung von S24 und S24a. Ein Beispiel einer Aktualisierungsverarbeitung ist die Verarbeitung von S26. Ein Beispiel einer Einschränkungsverarbeitung ist der Übergang zu S28, wenn in der Verarbeitung von S14 in 2 eine negative Bestimmung erfolgt, und ist die Verarbeitung von S44a und S48a in der Verarbeitung in 6. Ein Beispiel einer Anormalitätbestimmungsverarbeitung ist die Verarbeitung von S62. Ein Beispiel einer Einschränkungsverarbeitung ist der Übergang zu S28, wenn in der Verarbeitung von S68 in 4 eine positive Bestimmung und in der Verarbeitung von S14 in 2 eine negative Bestimmung erfolgt, und ist die Verarbeitung von S44a und S48a in der Verarbeitung in 6. Ein Beispiel einer Aktualisierungsverarbeitung, in der der Aktualisierungsbetrag null ist, ist in 2 gezeigt. Ein Beispiel einer ersten Ausführungsvorrichtung ist die CPU 42 und der ROM 44, und ein Beispiel einer zweiten Ausführungsvorrichtung ist die CPU 92 und der ROM 94.
  • Weitere Ausführungsformen
  • Es ist zu beachten, dass die Ausführungsformen wie folgt modifiziert und ausgeführt werden können. Die Ausführungsformen und die nachfolgenden Modifikationen können miteinander kombiniert und ausgeführt werden, sofern sich dadurch kein technologischer Widerspruch ergibt.
  • Zur Anormalitätbestimmungsverarbeitung
  • • Die Anormalitätbestimmungsverarbeitung ist nicht auf die Verarbeitung von S62 beschränkt. Zum Beispiel kann die Anormalitätbestimmungsverarbeitung auf der Grundlage des Verhaltens eines elektrischen Stroms, der zu den Solenoidventilen 28a fließt, bestimmen, ob eine Anormalität vorliegt. Die tatsächliche Ansprechempfindlichkeit des elektrischen Stroms ist, wenn der Sollwert des zu den Solenoidventilen 28a fließenden elektrischen Stroms schrittweise erhöht wird, tendenziell höher, wenn eine Fehlfunktion der Solenoidventile 28a vorliegt, im Vergleich dazu, wenn keine Fehlfunktion vorliegt. Daher kann zum Beispiel in Übereinstimmung auf die Antwortgeschwindigkeit bestimmt werden, ob eine Anormalität vorliegt. Es ist zu beachten, dass diese Anormalitätbestimmungsverarbeitung auch außerhalb der Gangschaltperiode ausgeführt werden kann. Dies kann zum Beispiel dadurch realisiert werden, dass auf der Grundlage des Verhaltens des elektrischen Stroms bestimmt wird, ob eine Anormalität vorliegt, wenn der elektrische Strom, der zu den Solenoidventilen 28a fließt, leicht oszilliert wird, so dass die Solenoidventile 28a in einem Zustand geringfügig vibrieren, in dem Reibeingriffselemente in dem Nichteingriffszustand gehalten werden.
  • • Die Anormalitätbestimmungsverarbeitung ist nicht beschränkt auf die Verarbeitung zur Bestimmung, ob in der Gangschaltsteuerung eine Anormalität vorliegt. Es kann zum Beispiel eine bekannte Anormalitätbestimmungsverarbeitung für einen Verbrennungsmotor verwendet werden, wenn die Antriebsstrangvorrichtung, die in Übereinstimmung mit Werten der Aktionsvariablen auf der Grundlage die beziehungsdefinierenden Daten DR betrieben werden soll, ein Verbrennungsmotor ist, wie es weiter unten in dem Abschnitt „Zur Antriebsstrangvorrichtung“ beschrieben ist. Ferner kann zum Beispiel eine bekannte Anormalitätbestimmungsverarbeitung für eine drehende elektrische Maschine oder eine Antriebsschaltung verwendet werden, wenn die Antriebsstrangvorrichtung, der in Übereinstimmung mit Werten der Aktionsvariablen auf der Grundlage die beziehungsdefinierenden Daten DR betrieben werden soll, eine Antriebsschaltung einer drehenden elektrischen Maschine ist.
  • Zur Einschränkungsverarbeitung
  • • Die Belohnung r1 in Übereinstimmung mit der Gangschaltzeit Tsft kann von null abweichen, wenn die Öltemperatur Toil gleich hoch wie oder höher als der hochtemperaturseitige Schwellenwert TH in der Verarbeitung in 6 ist, aber die Verarbeitung ist nicht hierauf beschränkt.
  • • Die Belohnung r1 in Übereinstimmung mit der Gangschaltzeit Tsft kann von null abweichen, wenn die Öltemperatur Toil gleich hoch wie oder niedriger als der niedertemperaturseitige Schwellenwert TL in der Verarbeitung in 6 ist, aber die Verarbeitung ist nicht hierauf beschränkt.
  • • Die Belohnung r2 in Übereinstimmung mit dem Überschießungsbetrag-Maximalwert ΔNm2max kann von null abweichen, wenn die Öltemperatur Toil gleich hoch wie oder höher als der hochtemperaturseitige Schwellenwert TH in der Verarbeitung in 6 ist, aber die Verarbeitung ist nicht hierauf beschränkt.
  • • Die Belohnung r2 in Übereinstimmung mit der Überschießungsbetrag-Maximalwert ΔNm2max wird unabhängig von dem Überschießungsbetrag-Maximalwert ΔNm2max auf null gesetzt, wenn die Öltemperatur Toil gleich hoch wie oder niedriger als der niedertemperaturseitige Schwellenwert TL in der Verarbeitung in 6 ist, aber die Verarbeitung ist nicht hierauf beschränkt.
  • • Obwohl in der obigen zweiten Ausführungsform selbst dann, wenn die Belohnung r für Phase 3 auf null gesetzt ist, andere Aktionen als die Greedy-Aktion ag verwendet werden können, ist eine Anordnung möglich, in der nur die Greedy-Aktion ag verwendet wird.
  • Zur Antriebsstrangvorrichtung
  • • Die Antriebsstrangvorrichtung, die in Übereinstimmung mit Werten der Aktionsvariablen auf der Grundlage der beziehungsdefinierenden Daten DR betrieben werden soll, ist nicht auf ein Stufengetriebe 26 beschränkt, sondern kann zum Beispiel ein variables Getriebe sein. Ferner kann diese Antriebsstrangvorrichtung zum Beispiel der Verbrennungsmotor 10 sein. Ferner kann diese Antriebsstrangvorrichtung zum Beispiel eine Antriebsschaltung einer drehenden elektrischen Maschine wie etwa der erste Inverter 23 oder der zweite Inverter 25 oder dergleichen sein. Auch in solchen Fällen besteht die Möglichkeit, dass bestärkendes Lernen, wenn eine Anormalität auftritt, die beziehungsdefinierenden Daten DR ungeeignet aktualisiert, so dass eine Beschränkung der Aktualisierung wie in den obigen Ausführungsformen beschrieben effektiv ist. Ferner können bei sehr niederen Temperaturen Reibungen eines Verbrennungsmotors übermäßig groß werden, und eine Ausgabe einer drehenden elektrischen Maschine kann durch eine niedrigere Ausgabe von einer Batterie verringert sein. Bei bestärkendem Lernen unter diesen Bedingungen besteht die Möglichkeit, dass die beziehungsdefinierenden Daten DR ungeeignet aktualisiert werden, so dass eine Beschränkung der Aktualisierung wie in den obigen Ausführungsformen beschrieben effektiv ist.
  • Zum Zustand zur Auswahl eines Werts der Aktionsvariable auf der Grundlage beziehungsdefinierender Daten
  • • Zustände, die zur Auswahl von Werten der Aktionsvariablen auf der Grundlage der beziehungsdefinierenden Daten verwendet werden, sind nicht auf die in den oben beschrieben Ausführungsformen beispielhaft erläuterten beschränkt. Zum Beispiel ist eine Zustandsvariable, die vom Wert einer vorherigen Aktionsvariable in Bezug auf Phase 2 und Phase 3 abhängt, nicht auf die Drehzahl Nm2 begrenzt, sondern kann zum Beispiel der Überschießungsbetrag ΔNm2 sein. Die Zustandsvariable kann zum Beispiel auch die erzeugte Wärmemenge sein. Zunächst muss eine Zustandsvariable, die vom Wert einer vorherigen Aktionsvariable in Bezug Phase 2 und Phase 3 abhängt, nicht in den zur Auswahl des Werts von der Aktionsvariable verwendeten Zuständen enthalten sein, wenn ein Profit-Sharing-Algorithmus oder dergleichen verwendet wird, wie es weiter unten im Abschnitt „Zur Aktualisierungskarte“ beschrieben ist.
  • • Die Aufnahme des Beschleunigerbetätigungsbetrags ACCP in die Zustandsvariable ist nicht zwingend erforderlich.
  • • Die Aufnahme der Öltemperatur Toil in die Zustandsvariable ist nicht zwingend erforderlich.
  • • Die Aufnahme der Phasenvariable Vpase in die Zustandsvariable ist nicht zwingend erforderlich. Zum Beispiel können die Zeit vom Start des Gangschaltvorgangs, die Drehzahl der Eingangswelle und die Gangschaltvariable ΔVsft in der Zustandsvariable enthalten sein, eine Aktionswertfunktion Q kann konstruiert werden, die jedes Mal Aktionen instruiert, und bestärkendes Lernen kann unter Verwendung dieser Aktionswertfunktion ausgeführt werden. In dieser Anordnung ist die Gangschaltperiode nicht auf drei Phasen im Voraus spezifiziert.
  • • Wenn zum Beispiel die Antriebsstrangvorrichtung, die auf der Grundlage von Werten der Aktionsvariablen betrieben werden soll, ein Verbrennungsmotor oder eine Antriebsschaltung einer drehenden elektrischen Maschine ist, wie es im Abschnitt „Zur Antriebsstrangvorrichtung“ beschrieben ist, kann der Beschleunigerbetätigungsbetrag ACCP oder dergleichen in dem Zustand enthalten sein.
  • Zur Aktionsvariable
  • • Die Aktionsvariable für Phase 3 ist in den obigen Ausführungsformen als Druckanstiegsrate beschrieben, jedoch nicht hierauf beschränkt, und Phase 3 kann weiter unterteilt werden, und Druckbefehlswerte in jeder Stufe können zum Beispiel die Aktionsvariable sein.
  • • Der Druckbefehlswert oder die Druckanstiegsrate ist in den obigen Ausführungsformen als die Aktionsvariable beschrieben, ist jedoch nicht hierauf beschränkt, sondern kann zum Beispiel ein Anweisungswert eines den Solenoidventilen 28a zugeführten elektrischen Stroms sein.
  • • Wenn die Antriebsstrangvorrichtung, die in Übereinstimmung mit Werten der Aktionsvariablen betrieben werden soll, ein Verbrennungsmotor ist, wie es zum Beispiel im Abschnitt „Zur Antriebsstrangvorrichtung“ beschrieben ist, können zum Beispiel die Kraftstoffeinspritzmenge und der Einspritzzeitpunkt in der Aktionsvariable enthalten sein. Ferner können das Drosselventil und der Zündzeitpunkt in der Aktionsvariable enthalten sein, wenn der Verbrennungsmotor zum Beispiel ein Verbrennungsmotor mit Fremdzündung ist.
  • • Wenn die Antriebsstrangvorrichtung, die auf der Grundlage von Werten der Aktionsvariablen betrieben werden soll, eine Antriebsschaltung einer drehenden elektrischen Maschine ist, wie es zum Beispiel im Abschnitt „Zur Antriebsstrangvorrichtung“ beschrieben ist, kann das Drehmoment oder der elektrische Strom der drehenden elektrischen Maschine in der Aktionsvariable enthalten sein.
  • Zu den beziehungsdefinierenden Daten
  • • Die Aktionswertfunktion Q ist in den obigen Ausführungsformen als eine Funktion in Tabellenformat beschrieben, jedoch nicht hierauf beschränkt. Zum Beispiel kann ein Funktionsapproximator verwendet werden.
  • • Zum Beispiel kann statt die Aktionswertfunktion Q zu verwenden, die Strategie π durch einen Funktionsapproximator ausgedrückt werden, in dem der Zustand s und die Aktion a unabhängige Variablen sind und eine Wahrscheinlichkeit einer Aktion a eine abhängige Variable ist, und ein Parameter, der den Funktionsapproximator einstellt, kann in Übereinstimmung mit der Belohnung r aktualisiert werden.
  • Zur Operationsverarbeitung
  • • Wenn zum Beispiel die Aktionswertfunktion Q ein Funktionsapproximator ist, wie es im Abschnitt „Zu den beziehungsdefinierenden Daten“ beschrieben ist, kann eine Aktion a, die die Aktionswertfunktion Q maximiert, ausgewählt werden, indem jeder diskrete Werte bezüglich der Aktionen, die in den obigen Ausführungsformen unabhängige Variablen der Funktion vom Tabellentyp sind, zusammen mit dem Zustand s in die Aktionswertfunktion Q eingegeben wird.
  • • Wenn zum Beispiel die Strategie π ein Funktionsapproximator ist, in dem der Zustand s und die Aktion a unabhängige Variablen sind und eine Wahrscheinlichkeit einer Aktion a eine abhängige Variable ist, wie es in dem Abschnitt „Zu den beziehungsdefinierenden Daten‟ beschrieben ist, kann eine Aktion auf der Grundlage einer Wahrscheinlichkeit, die durch die Strategie π bestimmt ist, ausgewählt werden.
  • Zur Aktualisierungskarte
  • Das so genannte Q-Learning, das ein Policy-off-TD-Learning ist, ist beispielhaft bezüglich der Verarbeitung von S26 beschrieben, ist jedoch nicht hierauf beschränkt. Zum Beispiel kann das Lernen unter Verwendung des so genannten State-Action-Reward-State-Action-Algorithmus (SARSA-Algorithmus) ausgeführt werden, der ein Policy-on-TD-Learning ist. Ferner ist das Lernen nicht auf die Verwendung von TD begrenzt, sondern es kann das Monte-Carlo-Verfahren oder es können Berechtigungsspuren (engl. „eligibility traces“) verwendet werden.
  • Eine Karte gemäß zum Beispiel einem Profit-Sharing-Algorithmus kann als die Aktualisierungskarte für die auf Belohnung basierenden beziehungsdefinierenden Daten verwendet werden. Wenn ein Beispiel der Verwendung einer Karte gemäß einem Profit-Sharing-Algorithmus eine Modifikation der Verarbeitung ist, die beispielhaft in 2 dargestellt ist, kann das Folgende ausgeführt werden. Das heißt, eine Berechnung der Belohnung wird in dem Stadium des Abschlusses des Gangschaltvorgangs durchgeführt. Die berechnete Belohnung wird dann nach einer Bestärkungsfunktion auf Regeln verteilt, die jeweils ein Zustands-Aktions-Paar bestimmen, das an dem Gangschaltvorgang beteiligt ist. Eine bekannte geometrische Verteilungsfunktion kann hier als die Bestärkungsfunktion verwendet werden. Insbesondere korreliert in Phase 3 die Gangschaltzeit Tsft stark mit dem Wert der Aktionsvariablen, so dass, wenn die Belohnung gemäß der Gangschaltzeit Tsft verteilt wird, die Verwendung einer geometrisch abnehmenden Funktion für eine Bestärkungsfunktion effektiv ist, obwohl dies nicht auf eine geometrisch abnehmende Funktion beschränkt ist. Wenn zum Beispiel eine Belohnung auf der Grundlage der erzeugten Wärmemenge gegeben wird, kann die Verteilung der Belohnung in Übereinstimmung mit der erzeugten Wärmemenge für Phase 1, angesichts der starken Korrelation zwischen der erzeugten Wärmemenge und dem Wert der Aktionsvariablen in Phase 1 am größten sein.
  • • Wenn zum Beispiel die Strategie π mit einem Funktionsapproximator ausgedrückt wird, wie es im Abschnitt „Zu den beziehungsdefinierenden Daten“ beschrieben ist, und direkt auf der Grundlage die Belohnung r aktualisiert wird, kann eine Aktualisierungskarte mit Hilfe eines Strategiegradientenverfahrens konfiguriert werden.
  • • Die Anordnung ist nicht auf eine von der Aktionswertefunktion Q und der Strategie π, die das Objekt zur direkten Aktualisierung durch die Belohnung r sind, beschränkt. Zum Beispiel können die Aktionswertefunktion Q und die Strategie π jeweils wie in einem Actor-Critic-Verfahren aktualisiert werden. Ferner ist das Actor-Critic-Verfahren nicht hierauf begrenzt, und eine Wertefunktion V kann das Objekt der Aktualisierung sein, beispielsweise anstelle der Aktionswertefunktion Q.
  • Zur Belohnungsberechnungsverarbeitung
  • • In den obigen Ausführungsformen werden die Verarbeitung, eine größere Belohnung zu geben, wenn die Gangschaltzeit Tsft relativ kurz ist, und die Verarbeitung, eine größere Belohnung zu geben, wenn der Überschießungsbetrag ΔNm2 relativ klein ist, ausgeführt, doch kann auch nur eine davon statt beide ausgeführt werden.
  • • Die Verarbeitung zum Geben einer größeren Belohnung, wenn die durch die Reibeingriffselemente in der Übersetzungsverhältnis-Schaltzeitspanne erzeugte Wärmemenge relativ gering ist, kann in der Belohnungsberechnungsverarbeitung enthalten sein.
  • • Wenn zum Beispiel das Drehmoment oder die Ausgabe bzw. der Ausgang einer drehenden elektrischen Maschine als Aktionsvariable genommen wird, wie es im Abschnitt „Zur Aktionsvariable“ beschrieben ist, können die Verarbeitung zum Geben einer größeren Belohnung, wenn die Batterieladerate innerhalb eines vorbestimmten Bereichs liegt im Vergleich dazu, wenn die Batterieladerate nicht innerhalb des vorbestimmten Bereichs liegt, oder die Verarbeitung zum Geben einer größeren Belohnung, wenn die Batterietemperatur innerhalb eines vorbestimmten Bereichs liegt im Vergleich dazu, wenn die Batterietemperatur nicht innerhalb des vorbestimmten Bereichs liegt, enthalten sein.
  • • Wenn zum Beispiel das Drosselventil oder dergleichen als eine Aktionsvariable genommen wird, wie es im Abschnitt „Zur Aktionsvariable“ beschrieben ist, kann die Verarbeitung zum Geben einer größeren Belohnung, wenn die Antwort auf eine Beschleunigungsanfrage durch eine Beschleunigerbetätigung relativ hoch ist, enthalten sein. Es ist zu beachten, dass die Antwort hier durch die Zunahmerate des Drehmoments des Verbrennungsmotors identifiziert werden kann, die zum Beispiel aus der Ansaugluft und so weiter identifiziert wird.
  • Zum Fahrzeugsteuerungssystem
  • Die Verarbeitung der Entscheidungsaktion auf der Grundlage der Strategie π (Verarbeitung von S16, S28) ist in dem in 8 gezeigten Beispiel als fahrzeugseitig beschrieben, doch ist dies nicht einschränkend. Zum Beispiel kann eine Anordnung realisiert werden, in der durch die Verarbeitung von S12 ermittelte Daten von dem Fahrzeug VC1 übertragen werden, das Datenanalysezentrum 90 eine Aktion a unter Verwendung der dorthin übertragenen Daten entscheidet und die entschiedene Aktion zu dem Fahrzeug VC1 überträgt.
  • • Das Fahrzeugsteuerungssystem ist nicht darauf beschränkt, dass es aus der Steuerungsvorrichtung 40 und dem Datenanalysezentrum 90 besteht. Zum Beispiel kann statt dem Datenanalysezentrums 90 ein mobiler Anschluss eines Anwenders verwendet werden. Ferner kann ein Fahrzeugsteuerungssystem die Steuerungsvorrichtung 40, das Datenanalysezentrum 90 und das mobile Terminal umfassen. Dies kann zum Beispiel durch Ausführen einer Verarbeitung von S16 und S28 durch das mobile Terminal realisiert werden.
  • Zur Ausführungsvorrichtung
  • • Die Ausführungsvorrichtung ist nicht darauf beschränkt, die CPU 42 (92) und den ROM 44 (94) zu umfassen und die Software-Verarbeitung auszuführen. Zum Beispiel kann eine dedizierte Hardware-Schaltung wie etwa eine anwendungsspezifische, integrierte Schaltung (ASIC) oder dergleichen vorgesehen sein, die eine Hardwareverarbeitung ausführt, um wenigstens einen Teil der Software-Verarbeitung in den obigen Ausführungsformen auszuführen. Das heißt, die Ausführungsvorrichtung kann eine Konfiguration haben, die eine der folgenden (a) bis (c) ist. (a) Eine Verarbeitungsvorrichtung, die gemäß einem Programm alle der oben beschriebenen Verarbeitungen ausführt, und eine Programmspeichervorrichtung wie etwa ein ROM oder dergleichen, die das Programm speichert, sind vorgesehen. (b) Ein Verarbeitungsvorrichtung und eine Programmspeichervorrichtung, die gemäß einem Programm einen Teil der oben beschriebenen Verarbeitung ausführt, und eine dedizierte Hardware-Schaltung, die die verbleibende Verarbeitung ausführt, sind vorgesehen. (c) Eine dedizierte Hardware-Schaltung, die sämtliche der oben beschriebenen Verarbeitungen ausführt, ist vorgesehen. Mehrere Softwareausführungsvorrichtungen, die jeweils eine Verarbeitungsvorrichtung und eine Programmspeichervorrichtung umfassen, und mehrere dedizierte Hardware-Schaltungen können vorgesehen sein.
  • Zur Speichervorrichtung
  • • In den obigen Ausführungsformen sind die Speichervorrichtung, die die beziehungsdefinierenden Daten DR speichert, und die Speichervorrichtung (ROM 44, 94), die das Lernprogramm DPL, das Lernunterprogramm DPLa und das Lernhauptprogramm DPLb speichert, als unterschiedliche Speicher beschrieben, doch dies ist nicht einschränkend.
  • Zum Fahrzeug
  • • Das Fahrzeug ist nicht auf einen Mischhybridfahrzeug begrenzt, sondern kann zum Beispiel ein serielles Hybridfahrzeug oder a paralleles Hybridfahrzeug sein. Es ist zu beachten, dass das Fahrzeug ist nicht auf ein Fahrzeug begrenzt ist, das mit einem Verbrennungsmotor und einem Motorgenerator als an Bord befindlichen drehenden Maschinen ausgestattet ist. Zum Beispiel kann das Fahrzeug ein Fahrzeug sein, das einen Verbrennungsmotor, aber keinen Motorgenerator umfasst, oder beschreibt, kann ein Fahrzeug sein, das einen Motorgenerator, aber keinen Verbrennungsmotor umfasst.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • JP 2000250602 [0002]
    • JP 2000250602 A [0002]

Claims (8)

  1. Fahrzeugsteuerungsvorrichtung (40), die umfasst: eine Speichervorrichtung (46), die beziehungsdefinierende Daten (DR) speichert, die Daten sind zum Definieren einer Beziehung zwischen einem Zustand eines Fahrzeugs und einer Aktionsvariable, die eine Variable ist, die in Bezug steht zu einem Betrieb einer Antriebsstrangvorrichtung (10, 23, 25, 26), die in dem Fahrzeug eingebaut ist; und eine Ausführungsvorrichtung (42, 44) die ausgelegt ist, um den Zustand auf der Grundlage eines Erfassungswerts eines Bordsensors zu ermitteln, die Antriebsstrangvorrichtung (10, 23, 25, 26) auf der Grundlage eines Werts der Aktionsvariablen, der auf der Grundlage der beziehungsdefinierenden Daten (DR) und des durch die Ausführungsvorrichtung (42, 44) ermittelten Zustands bestimmt wird, zu betreiben, eine Belohnung so abzuleiten, dass die Belohnung größer ist, wenn der Zustand der Antriebsstrangvorrichtung (10, 23, 25, 26) auf der Grundlage des durch die Ausführungsvorrichtung (42, 44) ermittelten Zustands ein vorbestimmtes Kriterium erfüllt, als wenn der Zustand der Antriebsstrangvorrichtung (10, 23, 25, 26) auf der Grundlage des durch die Ausführungsvorrichtung (42, 44) ermittelten Zustands das vorbestimmte Kriterium nicht erfüllt, eine Aktualisierung der beziehungsdefinierenden Daten (DR) unter Verwendung einer Aktualisierungskarte durchzuführen, deren Argumente der durch die Ausführungsvorrichtung (42, 44) ermittelte Zustand, der Wert der im Betrieb der Antriebsstrangvorrichtung (10, 23, 25, 26) verwendeten Aktionsvariablen und die Belohnung, die dem Betrieb entspricht und die die beziehungsdefinierenden Daten (DR) zurückgibt, die aktualisiert werden, so dass ein erwarteter Nutzen bezüglich der Belohnung, die berechnet wird, wenn die Antriebsstrangvorrichtung (10, 23, 25, 26) gemäß den beziehungsdefinierenden Daten (DR) betrieben wird, zunimmt, und die Aktualisierung der beziehungsdefinierenden Daten (DR) zu einzuschränken, so dass ein Aktualisierungsbetrag der beziehungsdefinierenden Daten (DR) kleiner ist, wenn die Antriebsstrangvorrichtung (10, 23, 25, 26) einer vorbestimmten Begrenzung unterliegt, als wenn die Antriebsstrangvorrichtung (10, 23, 25, 26) der vorbestimmten Begrenzung nicht unterliegt.
  2. Fahrzeugsteuerungsvorrichtung (40) nach Anspruch 1, wobei: die Ausführungsvorrichtung (42, 44) ausgelegt ist, um zu bestimmen, ob eine Anormalität in der Antriebsstrangvorrichtung (10, 23, 25, 26) vorhanden ist; und die Antriebsstrangvorrichtung (10, 23, 25, 26) der vorbestimmten Einschränkung unterliegt, wenn die Ausführungsvorrichtung (42, 44) bestimmt, dass die Anormalität in der Antriebsstrangvorrichtung (10, 23, 25, 26) existiert.
  3. Fahrzeugsteuerungsvorrichtung (40) nach Anspruch 1 oder 2, wobei: die Antriebsstrangvorrichtung (10, 23, 25, 26) ein Getriebe umfasst; und die Antriebsstrangvorrichtung (10, 23, 25, 26) der vorbestimmten Einschränkung unterliegt, wenn eine Temperatur eines Betriebsöls des Getriebes gleich hoch wie oder höher als ein Hochtemperatur-Schwellenwert ist.
  4. Fahrzeugsteuerungsvorrichtung (40) nach einem der Ansprüche 1 bis 3, wobei: die Antriebsstrangvorrichtung (10, 23, 25, 26) ein Getriebe umfasst; und die Antriebsstrangvorrichtung (10, 23, 25, 26) der vorbestimmten Einschränkung unterliegt, wenn eine Temperatur eines Betriebsöls des Getriebes gleich hoch wie oder niedriger als ein Niedertemperatur-Schwellenwert ist.
  5. Fahrzeugsteuerungsvorrichtung (40) nach einem der Ansprüche 1 bis 4, wobei der Aktualisierungsbetrag null ist, wenn die Antriebsstrangvorrichtung (10, 23, 25, 26) der vorbestimmten Einschränkung unterliegt.
  6. Fahrzeugsteuerungssystem, das umfasst: eine Speichervorrichtung (46), die beziehungsdefinierende Daten (DR) speichert, die Daten sind zum Definieren einer Beziehung zwischen einem Zustand eines Fahrzeugs und einer Aktionsvariable, die eine Variable ist, die in Bezug steht zu einem Betrieb einer Antriebsstrangvorrichtung (10, 23, 25, 26), die in dem Fahrzeug eingebaut ist; und; und eine Ausführungsvorrichtung, die umfasst: eine erste Ausführungsvorrichtung (42, 44), die in dem Fahrzeug eingebaut ist, und eine zweite Ausführungsvorrichtung (92, 94), die von einem Bordgerät getrennt ist, wobei die erste Ausführungsvorrichtung (42, 44) ist ausgelegt, um den Zustand auf der Grundlage eines Erfassungswerts eines Bordsensors zu ermitteln, die Antriebsstrangvorrichtung (10, 23, 25, 26) auf der Grundlage eines Werts der Aktionsvariablen, der auf der Grundlage der beziehungsdefinierenden Daten (DR) und des durch die Ausführungsvorrichtung (42, 44) ermittelten Zustands bestimmt wird, zu betreiben, wenigstens eine von der ersten Ausführungsvorrichtung (42, 44) und der zweiten Ausführungsvorrichtung (92, 94) ausgelegt ist, um eine Belohnung so abzuleiten, dass die Belohnung größer ist, wenn der Zustand der Antriebsstrangvorrichtung (10, 23, 25, 26) auf der Grundlage des durch die erste Ausführungsvorrichtung (42, 22) ermittelten Zustands ein vorbestimmtes Kriterium erfüllt, als wenn der Zustand der Antriebsstrangvorrichtung (10, 23, 25, 26) auf der Grundlage des durch die erste Ausführungsvorrichtung (42, 44) ermittelten Zustands das vorbestimmte Kriterium nicht erfüllt, die zweite Ausführungsvorrichtung (92, 94) ausgelegt ist, um eine Aktualisierung der beziehungsdefinierenden Daten (DR) unter Verwendung einer Aktualisierungskarte durchzuführen, deren Argumente der durch die erste Ausführungsvorrichtung (42, 44) ermittelte Zustand, der Wert der im Betrieb der Antriebsstrangvorrichtung (10, 23, 25, 26) verwendeten Aktionsvariablen und die Belohnung, die dem Betrieb entspricht, sind und die die beziehungsdefinierenden Daten (DR) zurückgibt, die so aktualisiert werden, dass ein erwarteter Nutzen in Bezug auf die berechnete Belohnung, wenn die Antriebsstrangvorrichtung (10, 23, 25, 26) gemäß den beziehungsdefinierenden Daten (DR) betrieben wird, zunimmt, und die wenigstens eine von der ersten Ausführungsvorrichtung (42, 44) und der zweiten Ausführungsvorrichtung (92, 94) ferner ausgelegt ist, um die Aktualisierung der beziehungsdefinierenden Daten (DR) so einzuschränken, dass ein Aktualisierungsbetrag der beziehungsdefinierenden Daten (DR) kleiner ist, wenn die Antriebsstrangvorrichtung (10, 23, 25, 26) einer vorbestimmten Einschränkung unterliegt, als wenn die Antriebsstrangvorrichtung (10, 23, 25, 26) der vorbestimmten Einschränkung nicht unterliegt.
  7. Fahrzeugsteuerungsvorrichtung (40), die die erste Ausführungsvorrichtung (42, 44) umfasst, die in dem Fahrzeugsteuerungssystem nach Anspruch 6 enthalten ist.
  8. Fahrzeuglernvorrichtung (90), die die zweite Ausführungsvorrichtung (92, 94) umfasst, die in dem Fahrzeugsteuerungssystem nach Anspruch 6 enthalten ist.
DE102021115778.1A 2020-06-25 2021-06-18 Fahrzeugsteuerungsvorrichtung, fahrzeugsteuerungssytem und fahrzeuglernvorrichtung Withdrawn DE102021115778A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020109675A JP2022007027A (ja) 2020-06-25 2020-06-25 車両用制御装置、車両用制御システム、および車両用学習装置
JP2020-109675 2020-06-25

Publications (1)

Publication Number Publication Date
DE102021115778A1 true DE102021115778A1 (de) 2021-12-30

Family

ID=78827127

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102021115778.1A Withdrawn DE102021115778A1 (de) 2020-06-25 2021-06-18 Fahrzeugsteuerungsvorrichtung, fahrzeugsteuerungssytem und fahrzeuglernvorrichtung

Country Status (4)

Country Link
US (1) US11420644B2 (de)
JP (1) JP2022007027A (de)
CN (1) CN114103916A (de)
DE (1) DE102021115778A1 (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102022116467A1 (de) 2022-07-01 2024-01-04 Dr. Ing. H.C. F. Porsche Aktiengesellschaft Computerimplementiertes Verfahren zur Veränderung einer Formel zur Berechnung berechneter Betriebsparameter einer elektrischen Antriebseinheit
DE102022117623A1 (de) 2022-07-14 2024-01-25 Dr. Ing. H.C. F. Porsche Aktiengesellschaft Computerimplementiertes Verfahren zur Anpassung von Kalibrierungsdaten einer Steuerungseinheit für einen elektrischen Antrieb eines Kraftfahrzeugs

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6744597B1 (ja) * 2019-10-18 2020-08-19 トヨタ自動車株式会社 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置
US11603111B2 (en) * 2019-10-18 2023-03-14 Toyota Jidosha Kabushiki Kaisha Vehicle controller, vehicle control system, and learning device for vehicle
JP7136066B2 (ja) * 2019-11-15 2022-09-13 トヨタ自動車株式会社 車両の制御装置
JP7331789B2 (ja) * 2020-06-25 2023-08-23 トヨタ自動車株式会社 車両用制御装置、車両用制御システム、車両用学習装置、および車両用学習方法
KR20220132864A (ko) * 2021-03-24 2022-10-04 현대자동차주식회사 차량 및 차량 제어 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000250602A (ja) 1999-03-02 2000-09-14 Yamaha Motor Co Ltd 総合特性最適化装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10254505A (ja) * 1997-03-14 1998-09-25 Toyota Motor Corp 自動制御装置
EP1033637A3 (de) 1999-03-02 2001-05-02 Yamaha Hatsudoki Kabushiki Kaisha Verfahren und Gerät zur Optimierung des Gesamtennzeichens einer Einrichtung mit Hilfe von heuristischen Methoden
JP4555219B2 (ja) * 2005-12-20 2010-09-29 ヤマハ発動機株式会社 航走制御装置およびそれを備えた船舶
JP4670651B2 (ja) * 2006-01-16 2011-04-13 アイシン・エィ・ダブリュ株式会社 自動変速機の変速制御装置
SE534457C2 (sv) * 2009-12-17 2011-08-30 Scania Cv Ab Förfarande och system för framförande av ett fordon vid reducerat behov av framdrivningseffekt
JP6196857B2 (ja) * 2013-09-13 2017-09-13 ジヤトコ株式会社 車両の制御装置
JP6848949B2 (ja) * 2018-10-25 2021-03-24 トヨタ自動車株式会社 制御支援装置、車両、および制御支援システム
JP6673520B1 (ja) * 2019-08-26 2020-03-25 トヨタ自動車株式会社 内燃機関の状態検出システム、データ解析装置、及び車両
JP6547991B1 (ja) * 2019-02-20 2019-07-24 トヨタ自動車株式会社 触媒温度推定装置、触媒温度推定システム、データ解析装置、および内燃機関の制御装置
JP6705540B1 (ja) * 2019-08-22 2020-06-03 トヨタ自動車株式会社 車両用学習システム、車両用制御装置、および車両用学習装置
JP6809587B1 (ja) * 2019-10-18 2021-01-06 トヨタ自動車株式会社 車両用制御装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000250602A (ja) 1999-03-02 2000-09-14 Yamaha Motor Co Ltd 総合特性最適化装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102022116467A1 (de) 2022-07-01 2024-01-04 Dr. Ing. H.C. F. Porsche Aktiengesellschaft Computerimplementiertes Verfahren zur Veränderung einer Formel zur Berechnung berechneter Betriebsparameter einer elektrischen Antriebseinheit
DE102022117623A1 (de) 2022-07-14 2024-01-25 Dr. Ing. H.C. F. Porsche Aktiengesellschaft Computerimplementiertes Verfahren zur Anpassung von Kalibrierungsdaten einer Steuerungseinheit für einen elektrischen Antrieb eines Kraftfahrzeugs

Also Published As

Publication number Publication date
JP2022007027A (ja) 2022-01-13
US20210403014A1 (en) 2021-12-30
CN114103916A (zh) 2022-03-01
US11420644B2 (en) 2022-08-23

Similar Documents

Publication Publication Date Title
DE102021115778A1 (de) Fahrzeugsteuerungsvorrichtung, fahrzeugsteuerungssytem und fahrzeuglernvorrichtung
DE112009005406B4 (de) Hybridfahrzeug-steuervorrichtung
DE102006025053B4 (de) Verfahren zur Steuerung einer Brennkraftmaschine
DE102018107338A1 (de) Hybridantriebsstrangdrehzahlregelung
DE102005021869A1 (de) Verfahren zum Bereitstellen einer Elektromotor-Drehmomentreserve in einem Hybridelektrofahrzeug
DE102021115776A1 (de) Fahrzeugsteuerungsvorrichtung, fahrzeugsteuerungssystem, fahrzeuglernvorrichtung und fahrzeuglernverfahren
DE112011102914T5 (de) Steuerung zur Regeneration einer Nachbehandlungseinrichtung in einem Fahrzeug mit Hybridantrieb
DE102011008494A1 (de) Ableitungsbasierte Hybridantriebs-Motorsteuerung für die Endantriebsoszillationsglättung
DE102021118058A1 (de) Temperaturabschätzungsvorrichtung für reibeingriffselement
DE102019133006A1 (de) Modell-vorrausschauende steuerung eines antriebsstrangsystems unter verwendung von vorschauinformationen
DE102019114727A1 (de) Fahrzeug und verfahren für ein koordiniertes spielmanagement
DE102017116810A1 (de) Prädiktive tachometerprofil-erzeugung während getriebeschaltvorgängen
DE102013014667B4 (de) Verfahren zur Applikation der Steuerung des Antriebes eines Hybridfahrzeuges
DE102021116008A1 (de) Fehlerbewertungsvorrichtung für ein automatikgetriebe, fehlerbewertungsverfahren für ein automatikgetriebe, und nichtflüchtiges speichermedium, das ein fehlerbewertungsprogramm für ein automatikgetriebe speichert
DE102010052241A1 (de) Drehmomentbefehlsstruktur für einen Elektromotor
DE102016104837A1 (de) System und Verfahren zum Steuern von Rekuperationsbremsung in einem Fahrzeug
DE102016103046A1 (de) Steuervorrichtung einer Überbrückungskupplung
DE102021118282A1 (de) Öldrucklernverfahren eines automatikgetriebes, steuervorrichtung und steuersystem
DE102021114696A1 (de) Steuervorrichtung für gangschaltvorrichtung, steuersystem für gangschaltvorrichtung und externe arithmetische betätigungsvorrichtung
DE102019114617B4 (de) Voraussagendes drehmomentmanagement für antriebsstrang mit kontinuierlichen stellgliedern und mehreren diskreten modi
EP3458324B1 (de) Verfahren zur steuerung eines antriebssystems und antriebssystem
DE10164479A1 (de) System zur Getriebesteuerung
DE102016200596A1 (de) Elektronische steuerungseinheit
DE102017200783A1 (de) Verfahren zum Betreiben eines Antriebsstrangs und Steuerungseinrichtung eines Kraftfahrzeugs
EP1859326B1 (de) Verfahren zur steuerung eines ansteuerbaren aggregats

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee