DE102021118282A1 - Öldrucklernverfahren eines automatikgetriebes, steuervorrichtung und steuersystem - Google Patents

Öldrucklernverfahren eines automatikgetriebes, steuervorrichtung und steuersystem Download PDF

Info

Publication number
DE102021118282A1
DE102021118282A1 DE102021118282.4A DE102021118282A DE102021118282A1 DE 102021118282 A1 DE102021118282 A1 DE 102021118282A1 DE 102021118282 A DE102021118282 A DE 102021118282A DE 102021118282 A1 DE102021118282 A1 DE 102021118282A1
Authority
DE
Germany
Prior art keywords
automatic transmission
variable
value
reward
amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102021118282.4A
Other languages
English (en)
Inventor
Hideaki Bunazawa
Atsushi Tabata
Koichi Okuda
Ken IMAMURA
Kota FUJII
Keita Sasaki
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Publication of DE102021118282A1 publication Critical patent/DE102021118282A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F16ENGINEERING ELEMENTS AND UNITS; GENERAL MEASURES FOR PRODUCING AND MAINTAINING EFFECTIVE FUNCTIONING OF MACHINES OR INSTALLATIONS; THERMAL INSULATION IN GENERAL
    • F16HGEARING
    • F16H61/00Control functions within control units of change-speed- or reversing-gearings for conveying rotary motion ; Control of exclusively fluid gearing, friction gearing, gearings with endless flexible members or other particular types of gearing
    • F16H61/26Generation or transmission of movements for final actuating mechanisms
    • F16H61/28Generation or transmission of movements for final actuating mechanisms with at least one movement of the final actuating mechanism being caused by a non-mechanical force, e.g. power-assisted
    • F16H61/30Hydraulic or pneumatic motors or related fluid control means therefor
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F16ENGINEERING ELEMENTS AND UNITS; GENERAL MEASURES FOR PRODUCING AND MAINTAINING EFFECTIVE FUNCTIONING OF MACHINES OR INSTALLATIONS; THERMAL INSULATION IN GENERAL
    • F16HGEARING
    • F16H61/00Control functions within control units of change-speed- or reversing-gearings for conveying rotary motion ; Control of exclusively fluid gearing, friction gearing, gearings with endless flexible members or other particular types of gearing
    • F16H61/0021Generation or control of line pressure
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F16ENGINEERING ELEMENTS AND UNITS; GENERAL MEASURES FOR PRODUCING AND MAINTAINING EFFECTIVE FUNCTIONING OF MACHINES OR INSTALLATIONS; THERMAL INSULATION IN GENERAL
    • F16HGEARING
    • F16H61/00Control functions within control units of change-speed- or reversing-gearings for conveying rotary motion ; Control of exclusively fluid gearing, friction gearing, gearings with endless flexible members or other particular types of gearing
    • F16H61/04Smoothing ratio shift
    • F16H61/08Timing control
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F16ENGINEERING ELEMENTS AND UNITS; GENERAL MEASURES FOR PRODUCING AND MAINTAINING EFFECTIVE FUNCTIONING OF MACHINES OR INSTALLATIONS; THERMAL INSULATION IN GENERAL
    • F16HGEARING
    • F16H61/00Control functions within control units of change-speed- or reversing-gearings for conveying rotary motion ; Control of exclusively fluid gearing, friction gearing, gearings with endless flexible members or other particular types of gearing
    • F16H2061/0075Control functions within control units of change-speed- or reversing-gearings for conveying rotary motion ; Control of exclusively fluid gearing, friction gearing, gearings with endless flexible members or other particular types of gearing characterised by a particular control method
    • F16H2061/0087Adaptive control, e.g. the control parameters adapted by learning
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F16ENGINEERING ELEMENTS AND UNITS; GENERAL MEASURES FOR PRODUCING AND MAINTAINING EFFECTIVE FUNCTIONING OF MACHINES OR INSTALLATIONS; THERMAL INSULATION IN GENERAL
    • F16HGEARING
    • F16H59/00Control inputs to control units of change-speed-, or reversing-gearings for conveying rotary motion
    • F16H59/14Inputs being a function of torque or torque demand
    • F16H59/18Inputs being a function of torque or torque demand dependent on the position of the accelerator pedal
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F16ENGINEERING ELEMENTS AND UNITS; GENERAL MEASURES FOR PRODUCING AND MAINTAINING EFFECTIVE FUNCTIONING OF MACHINES OR INSTALLATIONS; THERMAL INSULATION IN GENERAL
    • F16HGEARING
    • F16H59/00Control inputs to control units of change-speed-, or reversing-gearings for conveying rotary motion
    • F16H59/36Inputs being a function of speed
    • F16H59/38Inputs being a function of speed of gearing elements
    • F16H59/42Input shaft speed

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Mechanical Engineering (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Control Of Transmission Device (AREA)

Abstract

Ein Öldrucklernverfahren eines Automatikgetriebes (26) umfasst das Erfassen eines Zustands eines Fahrzeugs (VC) in einem Zustand, in dem Relationalregelungsdaten (DR) gespeichert sind, das Zuführen von Öl zu dem Automatikgetriebe (26), so dass der Wert des Öldrucks auf einen Öldruckbefehlswert eingestellt wird, das Berechnen, als eine bestimmte Variable, einer Variablen, die einen Betrag darstellt, um den eine erfasste Eingangsdrehzahl eine Zieleingangsdrehzahl übersteigt, oder dergleichen, das Berechnen einer Belohnung in einer Weise, in der sie einen größeren Wert hat, wenn die bestimmte Variable ein Kriterium erfüllt, als wenn sie das Kriterium nicht erfüllt, das Aktualisieren der Relationalregelungsdaten (DR) durch Eingeben der Belohnung und des Öldruckbefehlswerts in eine Aktualisierungsabbildung, und das Berechnen einer Drehmomentvariable (TRv) mit einem Wert, der erhöht wird, wenn ein Änderungsbetrag in einem Eingangsdrehmoment erhöht wird.

Description

  • HINTERGRUND DER ERFINDUNG
  • 1. Gebiet der Erfindung
  • Die vorliegende Erfindung bezieht sich auf ein Öldrucklernverfahren, eine Steuervorrichtung und ein Steuersystem eines Automatikgetriebes.
  • 2. Beschreibung des Stands der Technik
  • In einem Fahrzeug, das in der ungeprüften japanischen Patentanmeldungsveröffentlichung Nr. 2008-025624 ( JP 2008-025624 A ) beschrieben ist, ist ein Automatikgetriebe mit einer Stromquelle verbunden. Nach Empfangen einer Anforderung zum Schalten von Gangstufen von einer Steuervorrichtung eines Fahrzeugs schaltet das Automatikgetriebe die Gangstufen durch Eingreifen oder Lösen einer vorgegebenen Kupplung oder Bremse.
  • Dann steuert die Steuervorrichtung des Fahrzeugs beim Schalten der Gangstufen die Rückkopplung so, dass ein Betrag, um den eine erfasste Eingangsdrehzahl des Automatikgetriebes eine Zieleingangsdrehzahl des Automatikgetriebes für einen Öldruck, wenn die vorbestimmte Kupplung oder Bremse im Eingriff ist, überschreitet, d.h. ein sogenannter Überdrehbetrag, verringert wird.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Gemäß einer in der JP 2008-025624 A offenbarten Technologie wird der Öldruck, wenn ein Verschleiß in der Kupplung oder Bremse des Automatikgetriebes im Laufe der Zeit erzeugt wird und ihre Eigenschaften verändert werden, so eingestellt, dass der Überdrehbetrag der Eingangsdrehzahl des Automatikgetriebes entsprechend verringert wird. Der Überdrehbetrag der Eingangsdrehzahl des Automatikgetriebes wird j edoch nicht nur durch die Änderungen der Eigenschaften des Automatikgetriebes beeinflusst. Wenn der Öldruck der Kupplung oder dergleichen des Automatikgetriebes einfach nur auf der Grundlage des Überdrehbetrags der Eingangsdrehzahl des Automatikgetriebes eingestellt wird, besteht daher die Wahrscheinlichkeit, dass der Öldruck nicht entsprechend der Änderung der Eigenschaften des Automatikgetriebes in geeigneter Weise eingestellt werden kann.
  • Ein erster Aspekt der vorliegenden Erfindung ist eine Öldrucklernmethode bzw. ein Öldrucklernverfahren für ein Automatikgetriebe. Das Automatikgetriebe ist an einem Fahrzeug montiert, mit einer Stromquelle des Fahrzeugs verbunden und umfasst zumindest eine Bremse oder eine Kupplung als Reibungseingriffselement. Das Öldrucklernverfahren umfasst einen Schritt des Erfassens eines Zustands des Fahrzeugs in einem Zustand, in dem eine Speichervorrichtung Relationalregelungsdaten speichert, die zum Regeln einer Beziehung zwischen dem Zustand des Fahrzeugs und einem Öldruckbefehlswert verwendet werden, der ein Druck von Öl ist, das dem Automatikgetriebe zugeführt wird, wenn das Reibungseingriffselement, das Gangstufen des Automatikgetriebes schaltet, im Eingriff ist, einen Schritt des Zuführens von Öl zum Automatikgetriebe, wenn das Reibungseingriffselement, das die Gangstufen des Automatikgetriebes schaltet, im Eingriff ist, so dass der Wert des Drucks des zugeführten Öls auf den Öldruckbefehlswert gesetzt bzw. eingestellt wird, der durch den erfassten Zustand des Fahrzeugs und die Relationalregelungsdaten bestimmt wird, einen Schritt des Berechnens, wenn das Reibungseingriffselement im Eingriff ist, als eine bestimmte Variable zumindest eine von einer Variable, die einen Betrag darstellt, um den eine erfasste Eingangsdrehzahl des Automatikgetriebes eine Zieleingangsdrehzahl des Automatikgetriebes überschreitet, einer Variable, die eine Gangschaltzeit von einem Beginn des Schaltens der Gangstufen bis zu einem Beenden des Schaltens darstellt, und einer Variable, die einen Betrag von in dem Automatikgetriebe erzeugter Wärme darstellt, einen Schritt des Berechnens einer Belohnung („reward“) in einer Weise, in der die Belohnung einen größeren Wert hat, wenn die erfasste bestimmte Variable ein Kriterium erfüllt, als wenn die erfasste bestimmte Variable das Kriterium nicht erfüllt, einen Schritt des Aktualisierens der Relationalregelungsdaten durch Eingeben der berechneten Belohnung und des Öldruckbefehlswerts in eine im Voraus bestimmte Aktualisierungsabbildung, wobei die Belohnung berechnet wird, wenn das Reibungseingriffselement im Eingriff ist, und einen Schritt des Berechnens einer Drehmomentvariable mit einem Wert, der erhöht wird, wenn ein Änderungsbetrag in einem Eingangsdrehmoment des Automatikgetriebes erhöht wird, wenn das Reibungseingriffselement im Eingriff ist. Die Aktualisierungsabbildung gibt die Relationalregelungsdaten aus, die aktualisiert werden, um einen erwarteten Gewinn („profit“) für die Belohnung zu erhöhen, wenn das Reibungseingriffselement gemäß den Relationalregelungsdaten im Eingriff ist. Wenn der Änderungsbetrag im Eingangsdrehmoment, der durch die berechnete Drehmomentvariable dargestellt wird, gleich oder größer als ein im Voraus bestimmter vorgegebener Wert ist, wird eine Änderung in den Relationalregelungsdaten geregelt, wobei der Änderungsbetrag im Eingangsdrehmoment berechnet wird, wenn das Reibungseingriffselement im Eingriff ist.
  • Im ersten Aspekt kann die Belohnung, wenn die Drehmomentvariable kleiner als der vorgegebene Wert ist, so korrigiert werden, dass sie einen umso kleineren Wert hat, je größer die Drehmomentvariable ist.
  • Mit der obigen Konfiguration wird die Belohnung so berechnet, dass sie kleiner ist, wenn der Änderungsbetrag im Eingangsdrehmoment groß ist, als wenn der Änderungsbetrag im Eingangsdrehmoment klein ist. Aus diesem Grund ist in einer Situation, in der der Einfluss auf die bestimmte Variable klein ist, die Änderung der Relationalregelungsdaten durch das Lernen klein, und in einer Situation, in der der Einfluss auf die bestimmte Variable groß ist, die Änderung der Relationalregelungsdaten durch das Lernen ebenfalls groß.
  • Im ersten Aspekt kann die Aktualisierungsabbildung eine Abbildung aufweisen, die nur eine Aktionswertfunktion um einen aktualisierten Betrag aktualisiert, der einen Wert hat, der durch Multiplizieren einer Aktionswertfunktion vor der Aktualisierung mit einer Lernrate erhalten wird. Wenn die Drehmomentvariable gleich oder größer als der vorgegebene Wert ist, werden die Relationalregelungsdaten mit der auf „0“ eingestellten Lernrate aktualisiert wird.
  • Mit der obigen Konfiguration wird die Lernrate auf „0“ eingestellt, wenn der Änderungsbetrag im Eingangsdrehmoment gleich oder größer als der vorgegebene Wert ist. Somit werden die Relationalregelungsdaten vor und nach dem Lernen nicht geändert. Im Ergebnis wird der Öldruckbefehlswert, der aus den Relationalregelungsdaten und dem Zustand des Fahrzeugs abgeleitet wird, nicht geändert, wenn der Zustand des Fahrzeugs der gleiche ist. Durch die Implementierung des Prozesses, der die Relationalregelungsdaten nicht ändert, durch einen numerischen Wert der Lernrate, ist es möglich, den Prozess in Abhängigkeit von der Größe des Änderungsbetrags im Eingangsdrehmoment davon abzuhalten, stark verändert zu werden, was zu einer Vereinfachung einer Reihe von Lernprozessen beiträgt.
  • Im ersten Aspekt kann für jede Art des Schaltens der Gangstufen des Automatikgetriebes eine andere Belohnung zugewiesen werden.
  • Mit der obigen Konfiguration variiert die berechnete Belohnung in Abhängigkeit von der Art des Schaltens der Gangstufen des Automatikgetriebes. Aus diesem Grund werden in Abhängigkeit von der Art des Schaltens der Gangstufen unterschiedliche Relationalregelungsdaten gelernt. Daher ist es wahrscheinlicher, dass für jede Art des Schaltens der Gangstufen ein geeigneter Öldruckbefehlswert erhalten werden kann.
  • Im ersten Aspekt kann die Drehmomentvariable eine Differenz zwischen einem Gaspedalbetätigungsbetrag, der ein Betätigungsbetrag eines Gaspedals zu Beginn des Schaltens der Gangstufen ist, und dem Gaspedalbetätigungsbetrag des Gaspedals beim Beenden des Schaltens der Gangstufen sein.
  • Mit der obigen Konfiguration kann die Drehmomentvariable durch die Gaspedalbetätigungsbeträge zu Beginn der Gangschaltung des Automatikgetriebes und beim Beenden der Gangschaltung erfasst werden.
  • In dem ersten Aspekt kann die Drehmomentvariable eine Differenz zwischen einem Maximalwert und einem Minimalwert eines Gaspedalbetätigungsbetrags sein, der ein Betätigungsbetrag eines Gaspedals während der Gangschaltzeit vom Beginn des Schaltens der Gangstufen bis zum Beenden des Schaltens ist.
  • Mit der obigen Konfiguration kann die Drehmomentvariable durch den Maximalwert und den Minimalwert des Gaspedalbetätigungsbetrags während der Gangschaltzeitspanne des Automatikgetriebes erfasst werden. Aus diesem Grund kann der maximale Änderungsbetrag im Gaspedalbetätigungsbetrag als die Drehmomentvariable berechnet werden, auch wenn der Gaspedalbetätigungsbetrag während der Gangschaltzeitspanne von steigend auf fallend oder von fallend auf steigend geändert wird.
  • Im ersten Aspekt kann die Drehmomentvariable einen Wert haben, der durch Dividieren einer Differenz zwischen einem Gaspedalbetätigungsbetrag, der ein Betätigungsbetrag eines Gaspedals zu Beginn des Schaltens der Gangstufen ist, und dem Gaspedalbetätigungsbetrag beim Beenden des Schaltens der Gangstufen durch die Gangschaltzeit erhalten wird.
  • Mit der obigen Konfiguration kann die Drehmomentvariable unterschiedliche Werte haben, je nachdem, ob die Gangschaltzeit lang oder kurz ist, auch wenn die Differenz im Gaspedalbetätigungsbetrag gleich ist. Mit anderen Worten, die Drehmomentvariable kann als Änderungsrate im Gaspedalbetätigungsbetrag pro Stunde berechnet werden.
  • Ein zweiter Aspekt der vorliegenden Erfindung ist eine Steuervorrichtung eines Automatikgetriebes. Das Automatikgetriebe ist an einem Fahrzeug montiert, mit einer Stromquelle des Fahrzeugs verbunden und weist zumindest eine Bremse oder eine Kupplung als Reibungseingriffselement auf. Die Steuervorrichtung des Automatikgetriebes umfasst eine Speichervorrichtung und eine Ausführungsvorrichtung. Die Speichervorrichtung ist konfiguriert, dass sie Relationalregelungsdaten speichert, die zum Regeln einer Beziehung zwischen einem Zustand des Fahrzeugs und einem Öldruckbefehlswert verwendet werden, der ein Druck von Öl ist, das dem Automatikgetriebe zugeführt wird, wenn das Reibungseingriffselement, das Gangstufen des Automatikgetriebes schaltet, im Eingriff ist. Die Ausführungsvorrichtung ist so konfiguriert, dass sie den Zustand des Fahrzeugs erfasst, wenn das Reibungseingriffselement, das die Gangstufen des Automatikgetriebes schaltet, im Eingriff ist, dem Automatikgetriebe Öl so zuführt, dass der Wert des Drucks des zugeführten Öls auf den Öldruckbefehlswert eingestellt wird, der durch den erfassten Zustand des Fahrzeugs und die Relationalregelungsdaten bestimmt wird, wenn das Reibungseingriffselement im Eingriff ist, als eine bestimmte Variable zumindest eine von einer Variable, die einen Betrag darstellt, um den eine erfasste Eingangsdrehzahl des Automatikgetriebes eine Zieleingangsdrehzahl des Automatikgetriebes überschreitet, einer Variable, die eine Gangschaltzeit von einem Beginn des Schaltens der Gangstufen bis zu einem Beenden des Schaltens darstellt, und einer Variable berechnet, die einen Betrag der in dem Automatikgetriebe erzeugten Wärme darstellt, eine Belohnung in einer Weise berechnet, in der die Belohnung einen größeren Wert hat, wenn die erfasste bestimmte Variable ein Kriterium erfüllt, als wenn die erfasste bestimmte Variable das Kriterium nicht erfüllt, die Relationalregelungsdaten durch Eingeben der berechneten Belohnung und des Öldruckbefehlswerts in eine im Voraus bestimmte Aktualisierungsabbildung aktualisiert, wobei die Belohnung berechnet wird, wenn das Reibungseingriffselement im Eingriff ist, und eine Drehmomentvariable mit einem Wert berechnet, der erhöht wird, wenn ein Änderungsbetrag in einem Eingangsdrehmoment des Automatikgetriebes erhöht wird, wenn das Reibungseingriffselement im Eingriff ist. Die Aktualisierungsabbildung gibt die Relationalregelungsdaten aus, die aktualisiert werden, um einen erwarteten Gewinn für die Belohnung zu erhöhen, wenn das Reibungseingriffselement gemäß den Relationalregelungsdaten im Eingriff ist. Die Ausführungsvorrichtung regelt, wenn der Änderungsbetrag im Eingangsdrehmoment, der durch die berechnete Drehmomentvariable dargestellt wird, gleich oder größer als ein im Voraus bestimmter vorgegebener Wert ist, eine Änderung der Relationalregelungsdaten, wobei der Änderungsbetrag im Eingangsdrehmoment berechnet wird, wenn das Reibungseingriffselement im Eingriff ist.
  • Ein dritter Aspekt der vorliegenden Erfindung ist ein Steuersystem eines Automatikgetriebes. Das Automatikgetriebe ist an einem Fahrzeug montiert, mit einer Stromquelle des Fahrzeugs verbunden und weist zumindest eine Bremse oder eine Kupplung als Reibungseingriffselement auf. Das Steuersystem des Automatikgetriebes umfasst eine Speichervorrichtung, eine erste Ausführungsvorrichtung, die an dem Fahrzeug montiert ist, und eine zweite Ausführungsvorrichtung, die von der ersten Ausführungsvorrichtung getrennt ist. Die Speichervorrichtung ist so konfiguriert, dass sie Relationalregelungsdaten speichert, die zum Regeln einer Beziehung zwischen einem Zustand des Fahrzeugs und einem Öldruckbefehlswert verwendet werden, der ein Druck von Öl ist, das dem Automatikgetriebe zugeführt wird, wenn das Reibungseingriffselement, das Gangstufen des Automatikgetriebes schaltet, im Eingriff ist. Die erste Ausführungsvorrichtung ist so konfiguriert, dass sie einen Zustand des Fahrzeugs erfasst und, wenn das Reibungseingriffselement, das die Gangstufen des Automatikgetriebes schaltet, im Eingriff ist, dem Automatikgetriebe Öl so zuführt, dass der Wert des Drucks des zugeführten Öls auf den Öldruckbefehlswert eingestellt wird, der durch den erfassten Zustand des Fahrzeugs und die Relationalregelungsdaten bestimmt wird. Zumindest eine von der ersten Ausführungsvorrichtung und der zweiten Ausführungsvorrichtung ist konfiguriert, dass sie, wenn das Reibungseingriffselement im Eingriff ist, als eine bestimmte Variable zumindest eine von einer Variable, die einen Betrag darstellt, um den eine erfasste Eingangsdrehzahl des Automatikgetriebes eine Zieleingangsdrehzahl des Automatikgetriebes überschreitet, einer Variable, die eine Gangschaltzeit von einem Beginn des Schaltens der Gangstufen bis zu einem Beenden des Schaltens darstellt, und einer Variable berechnet, die einen Betrag der in dem Automatikgetriebe erzeugten Wärme darstellt, und eine Belohnung in einer Weise berechnet, in der die Belohnung einen größeren Wert hat, wenn die erfasste bestimmte Variable ein Kriterium erfüllt, als wenn die erfasste bestimmte Variable das Kriterium nicht erfüllt. Die zweite Ausführungsvorrichtung ist so konfiguriert, dass sie die Relationalregelungsdaten durch Eingeben der berechneten Belohnung und des Öldruckbefehlswerts in eine im Voraus bestimmte Aktualisierungsabbildung aktualisiert, wobei die Belohnung berechnet wird, wenn das Reibungseingriffselement im Eingriff ist. Zumindest eine von der ersten Ausführungsvorrichtung und der zweiten Ausführungsvorrichtung ist so konfiguriert, dass sie eine Drehmomentvariable mit einem Wert berechnet, der erhöht wird, wenn ein Änderungsbetrag in einem Eingangsdrehmoment des Automatikgetriebes erhöht wird, wenn das Reibungseingriffselement im Eingriff ist. Die Aktualisierungsabbildung gibt die Relationalregelungsdaten aus, die aktualisiert werden, um einen erwarteten Gewinn für die Belohnung zu erhöhen, wenn das Reibungseingriffselement gemäß den Relationalregelungsdaten im Eingriff ist. Die zweite Ausführungsvorrichtung ist so konfiguriert, dass sie, wenn der Änderungsbetrag im Eingangsdrehmoment, der durch die berechnete Drehmomentvariable dargestellt wird, gleich oder größer als ein im Voraus bestimmter vorgegebener Wert ist, eine Änderung in den Relationalregelungsdaten regelt, wobei der Änderungsbetrag im Eingangsdrehmoment berechnet wird, wenn das Reibungseingriffselement im Eingriff ist.
  • Wenn das Eingangsdrehmoment des Automatikgetriebes beim Schalten der Gangstufen des Automatikgetriebes geändert wird, wird auch eine bestimmte Variable, z.B. der Überdrehbetrag, die Gangschaltzeit oder die erzeugte Wärmemenge, geändert. Aus diesem Grund kann, wenn der Änderungsbetrag im Eingangsdrehmoment groß ist, die bestimmte Variable durch den Änderungsbetrag im Eingangsdrehmoment stärker beeinflusst werden als durch den Öldruckbefehlswert.
  • Mit jedem Aspekt der vorliegenden Erfindung werden, wenn der Öldruckbefehlswert, der ein Druck des Öls ist, das dem Automatikgetriebe zugeführt wird, wenn die Gangstufen des Automatikgetriebes geschaltet werden, durch bestärkendes Lernen gelernt wird, die Relationalregelungsdaten in einem Fall, in dem der Änderungsbetrag im Eingangsdrehmoment gleich oder größer als ein im Voraus bestimmter vorgegebener Wert ist, nicht geändert. Aus diesem Grund verändert in einer Situation, in der die bestimmte Variable unabhängig vom Öldruckbefehlswert beeinflusst werden kann, das auf der bestimmten Variable basierende Lernen den Öldruckbefehlswert nicht stark.
  • Figurenliste
  • Merkmale, Vorteile und technische und industrielle Bedeutung von beispielhaften Ausführungsformen der Erfindung werden im Folgenden unter Bezugnahme auf die begleitenden Zeichnungen beschrieben, in denen gleiche Bezugszeichen gleiche Elemente bezeichnen, und wobei:
    • 1 ein Diagramm ist, das ein Fahrzeug und seine Steuervorrichtung gemäß einer ersten Ausführungsform zeigt;
    • 2 ein Flussdiagramm ist, das einen Ablauf einer Verarbeitung zeigt, die von der Steuervorrichtung gemäß der Ausführungsform ausgeführt wird;
    • 3 ein Flussdiagramm ist, das einen detaillierten Ablauf eines Teils der Verarbeitung darstellt, die von der Steuervorrichtung gemäß der Ausführungsform ausgeführt wird;
    • 4 ein Flussdiagramm ist, das einen detaillierten Ablauf eines anderen Teils der Verarbeitung darstellt, die von der Steuervorrichtung gemäß der Ausführungsform ausgeführt wird;
    • 5 ein Flussdiagramm ist, das einen von der Steuervorrichtung ausgeführten Ablauf einer Verarbeitung gemäß einer zweiten Ausführungsform zeigt;
    • 6 ein Diagramm ist, das eine Konfiguration eines Steuersystems eines Automatikgetriebes gemäß einer dritten Ausführungsform zeigt;
    • 7 Flussdiagramme von A bzw. B zeigt, die die Abläufe der vom Steuersystem ausgeführten Verarbeitung darstellen;
    • 8 ein Diagramm ist, das eine Drehmomentvariable in einem modifizierten Beispiel darstellt; und
    • 9 ein weiteres Diagramm ist, das die Drehmomentvariable in dem modifizierten Beispiel zeigt.
  • DETAILLIERTE BESCHREIBUNG DER AUSFÜHRUNGSFORMEN
  • Erste Ausführungsform
  • Wie in 1 dargestellt, ist ein Verbrennungsmotor 10 an einem Fahrzeug VC montiert. Eine Leistungsverzweigungsvorrichtung 20 ist mechanisch mit einer Kurbelwelle 12 des Verbrennungsmotors 10 verbunden. Die Leistungsverzweigungsvorrichtung 20 teilt die Leistung des Verbrennungsmotors 10, eines ersten Motorgenerators 22 und eines zweiten Motorgenerators 24 auf. Die Leistungsverzweigungsvorrichtung 20 umfasst einen Planetengetriebemechanismus mit einem Träger C, einem Sonnenrad S und einem Hohlrad R. Die Kurbelwelle 12 der Leistungsverzweigungsvorrichtung 20 ist mechanisch mit dem Träger C des Planetengetriebemechanismus verbunden, eine Drehwelle 22a des ersten Motorgenerators 22 ist mechanisch mit dem Sonnenrad S der Leistungsverzweigungsvorrichtung 20 verbunden, und eine Drehwelle 24a des zweiten Motorgenerators 24 ist mechanisch mit dem Hohlrad R der Leistungsverzweigungsvorrichtung 20 verbunden. Eine Ausgangsspannung eines ersten Wechselrichters 23 liegt an Klemmen des ersten Motorgenerators 22 an. Des Weiteren liegt eine Ausgangsspannung eines zweiten Wechselrichters 25 an Klemmen des zweiten Motorgenerators 24 an.
  • Zusätzlich zur Drehwelle 24a des zweiten Motorgenerators 24 sind Antriebsräder 30 über ein Automatikgetriebe 26 mechanisch mit dem Hohlrad R der Leistungsverzweigungsvorrichtung 20 verbunden. Auf eine detaillierte Beschreibung wird verzichtet, jedoch umfasst das Automatikgetriebe 26 einen ersten Planetengetriebemechanismus G1, einen zweiten Planetengetriebemechanismus G2, eine erste Kupplung C1, eine zweite Kupplung C2, eine erste Bremse B1, eine zweite Bremse B2, eine Einwegkupplung F und einen Öldrucksteuerkreis 28. Das Schalten zwischen Eingriff und Lösen der ersten Kupplung C1, der zweiten Kupplung C2, der ersten Bremse B1 und der zweiten Bremse B2 erfolgt durch Hydrauliköl aus dem Öldrucksteuerkreis 28. Des Weiteren werden die Gangstufen des Automatikgetriebes 26 durch Ändern einer Kombination von Eingriff/Lösen der ersten Kupplung C1, der zweiten Kupplung C2, der ersten Bremse B1 und der zweiten Bremse B2 geändert. Im Automatikgetriebe 26 fungieren die erste Kupplung C1, die zweite Kupplung C2, die erste Bremse B1 und die zweite Bremse B2 als Reibungseingriffselemente.
  • Des Weiteren ist eine angetriebene Welle 32a einer Ölpumpe 32 mechanisch mit dem Träger C der Leistungsverzweigungsvorrichtung 20 verbunden. Die Ölpumpe 32 nimmt Öl aus einer Ölwanne 34 auf und gibt das Öl als Hydrauliköl an das Automatikgetriebe 26 ab. Das von der Ölpumpe 32 geförderte Hydrauliköl wird durch Anpassen des Drucks durch den Öldrucksteuerkreis 28 im Automatikgetriebe 26 verwendet. Der Öldrucksteuerkreis 28 umfasst eine Vielzahl von Magnetventilen 28a und steuert einen Strömungszustand oder den Öldruck des Hydrauliköls durch Erregen jedes der Magnetventile 28a.
  • Die Steuervorrichtung 40 hat den Verbrennungsmotor 10 als ein Steuerziel und betätigt verschiedene Betätigungseinheiten des Verbrennungsmotors 10, um das Drehmoment, ein Abgaskomponentenverhältnis oder dergleichen zu steuern, das eine Steuergröße des Verbrennungsmotors 10 ist. Des Weiteren hat die Steuervorrichtung 40 den ersten Motorgenerator 22 als ein Steuerziel und betätigt den ersten Wechselrichter 23, um das Drehmoment, die Drehzahl oder dergleichen zu steuern, das/die eine Steuergröße des Wechselrichters 23 ist. Des Weiteren hat die Steuervorrichtung 40 den zweiten Motorgenerator 24 als ein Steuerziel und betätigt den zweiten Wechselrichter 25, um das Drehmoment, die Drehzahl oder dergleichen zu steuern, das/die eine Steuergröße des Wechselrichters 25 ist. Des Weiteren hat die Steuervorrichtung 40 das Automatikgetriebe 26 als ein Steuerziel und betätigt das Magnetventil 28a, um das Reibungseingriffselement des Automatikgetriebes 26 in Eingriff zu bringen. In den Zeichnungen ist ein Signal, das von der Steuervorrichtung 40 gesendet wird, um den Verbrennungsmotor 10 oder das Automatikgetriebe 26 zu betätigen, als ein Betätigungssignal MS dargestellt.
  • Beim Steuern der Steuergröße bezieht sich die Steuervorrichtung 40 auf ein Ausgangssignal Scr eines Kurbelwinkelsensors 50, und ein Ausgangssignal Sm1 eines ersten Drehwinkelsensors 52, der einen Drehwinkel der Drehwelle 22a des ersten Motorgenerators 22 erfasst, oder ein Ausgangssignal Sm2 eines zweiten Drehwinkelsensors 54, der einen Drehwinkel der Drehwelle 24a des zweiten Motorgenerators 24 erfasst. Des Weiteren bezieht sich die Steuervorrichtung 40 auf eine Öltemperatur Toil, die die Temperatur des Öls ist, die von einem Öltemperatursensor 56 erfasst wird, eine Fahrzeuggeschwindigkeit SPD, die von einem Fahrzeuggeschwindigkeitssensor 58 erfasst wird, oder einen Gaspedalbetätigungsbetrag ACCP, der ein Niederdrückbetrag eines Gaspedals 60 ist, der von einem Gaspedalsensor 62 erfasst wird.
  • Die Steuervorrichtung 40 umfasst eine CPU 42, einen ROM 44, eine Speichervorrichtung 46, die ein elektrisch wiederbeschreibbarer nichtflüchtiger Speicher ist, und eine Peripherieschaltung 48. Diese können über interne Busse 49 miteinander kommunizieren. Beispiele für die Peripherieschaltung 48 sind dabei eine Schaltung, die ein Taktsignal erzeugt, das einen internen Betrieb regelt, eine Stromversorgungsschaltung oder eine Rücksetz- bzw. Resetschaltung. Die Steuervorrichtung 40 steuert die Steuergröße, wenn die CPU 42 ein im ROM 44 gespeichertes Programm ausführt.
  • 2 stellt einen Ablauf einer Verarbeitung dar, die von der Steuervorrichtung 40 ausgeführt wird. Die in 2 dargestellte Verarbeitung wird implementiert, wenn die CPU 42 ein im ROM 44 gespeichertes Lernprogramm DPL wiederholt, z.B. in einem vorgegebenen Zyklus, ausführt. Mit anderen Worten, die CPU 42 führt die Lernnutzung des Öldrucks des Automatikgetriebes 26 gemäß einem Lernprogramm DPL aus. Nachfolgend wird eine Schrittnummer jedes Prozesses durch eine mit „S‟ vorangestellte Zahl dargestellt.
  • In einer Reihe von Prozessen, die in 2 dargestellt sind, bestimmt die CPU 42 zunächst, ob es sich um eine Gangschaltperiode bzw. Gangschaltzeitspanne seit dem Beginn des Schaltens der Gangstufen bis zum Beenden des Schaltens handelt, d.h. ob es sich um eine Gangschaltzeitspanne des Automatikgetriebes 26 handelt (S10). Nachdem bestimmt wird, dass es sich um die Gangschaltzeitspanne handelt (S10: Ja), erfasst die CPU 42 den Gaspedalbetätigungsbetrag ACCP, eine Gangschaltvariable ΔVsft, die Öltemperatur Toil, eine Phasenvariable Vpase und eine erfasste Drehzahl Nm2 des zweiten Motorgenerators 24 als einen Zustand s des Fahrzeugs VC (S12). Die Gangschaltvariable ΔVsft gibt dabei die Gangstufen vor und nach dem Schalten an, z.B. ob vom ersten Gang in den zweiten Gang oder vom zweiten in den ersten Gang geschaltet wird. Mit anderen Worten ist es eine Variable, die die Art des Schaltens der Gangstufen angibt. Des Weiteren ist die Phasenvariable Vpase eine Variable, die angibt, welcher der drei Phasen, die eine Stufe der Gangschaltung während der Gangschaltzeitspanne bestimmen, entsprochen wird.
  • Mit anderen Worten wird in der ersten Ausführungsform die Gangschaltzeitspanne in Phase 1, Phase 2 und Phase 3 unterteilt. Dabei ist die Phase 1 eine Zeitspanne seit Beginn des Schaltens der Gangstufen bis eine vorgegebene Zeit abgelaufen ist. Die Phase 2 ist eine Zeitspanne vom Ende der Phase 1 bis zum Ende einer Drehmomentphase. Mit anderen Worten ist es die Zeitspanne vom Ende der Phase 1 bis die Drehmomentübertragbarkeit des Reibungseingriffselements, das durch das Schalten der Gangstufen vom Eingriffszustand in den Lösezustand geschaltet wird, Null wird. Die CPU 42 bestimmt einen Endpunkt der Phase 2 basierend auf einer Differenz zwischen einer tatsächlichen Drehzahl der Eingangswelle und einer Drehzahl der Eingangswelle des Automatikgetriebes 26, die durch die Drehzahl der Ausgangswelle des Automatikgetriebes 26 und des Übersetzungsverhältnisses vor dem Schalten der Gangstufen bestimmt wird. Die Rotationsgeschwindigkeit der Eingangswelle ist die erfasste Rotationsgeschwindigkeit Nm2. Des Weiteren berechnet die CPU 42 die Drehzahl der Ausgangswelle des Automatikgetriebes 26 gemäß der Fahrzeuggeschwindigkeit SPD. Phase 3 ist eine Zeitspanne vom Ende der Phase 2 bis zum Beenden des Schaltens der Gangstufen. Mit anderen Worten, es ist eine Zeitspanne vom Ende der Phase 2 bis zum Beenden des Gangschaltens des Automatikgetriebes 26. Das heißt, die CPU 42 berechnet die erfasste Drehzahl Nm2 anhand des Ausgangssignals Sm2.
  • Der Zustand s ist ein Wert einer Variablen, deren Beziehung zu einer Aktionsvariable durch Relationalregelungsdaten DR geregelt wird, die in der in 1 dargestellten Speichervorrichtung 46 gespeichert sind. Dabei ist in der ersten Ausführungsform als Aktionsvariable ein Korrekturwert ΔP eines Öldruckbefehlswerts P*, der ein dem Automatikgetriebe 26 zugeführter Öldruck ist, um das Reibungseingriffselement beim Schalten der Gangstufen anzutreiben, veranschaulicht.
  • Insbesondere ist der Öldruckbefehlswert P* in Phase 1 und Phase 2 konstant. In Phase 3 wird der Öldruckbefehlswert P* mit einer konstanten Geschwindigkeit erhöht.
  • Der Öldruckbefehlswert P* wird berechnet, indem der Korrekturwert ΔP zu einem Basiswert Pba* addiert wird. Der Basiswert Pba* wird implementiert, wenn die CPU 42 den Basiswert Pba* in einem Zustand, in dem der ROM 44 im Voraus Kennfelddaten speichert, die den Gaspedalbetätigungsbetrag ACCP, die Gangschaltvariable ΔVsft und die Öltemperatur Toil als Eingangsvariablen und den Basiswert Pba* als eine Ausgangsvariable haben, aus einem Kennfeld berechnet.
  • Dann enthalten die Relationalregelungsdaten DR eine Aktionswertfunktion Q. Die Aktionswertfunktion Q hat den Zustand s und eine Aktion a als unabhängige Variablen und einen erwarteten Gewinn für den Zustand s und die Aktion a als abhängige Variable. In der ersten Ausführungsform ist die Aktionswertfunktion Q eine tabellenartige Funktion.
  • Als Nächstes berechnet die CPU 42 einen Wert der Aktionsvariable, d.h. den Korrekturwert ΔP des Öldruckbefehlswerts P* auf der Grundlage einer Strategie („policy“) π, die durch die Relationalregelungsdaten DR geregelt wird (S14). In der ersten Ausführungsform ist eine „ε-greedy“-Strategie als die Strategie veranschaulicht. Mit anderen Worten wird eine Strategie veranschaulicht, bei der, wenn der Zustand s gewährt ist, eine Regel für die bevorzugte Auswahl einer Aktion, die die Aktionswertfunktion Q maximiert (im Folgenden als „greedy“-Aktion ag bezeichnet), aus den Aktionswertfunktionen Q, bei denen die unabhängige Variable der gegebene Zustand s wird, während die anderen Aktionen mit einer vorbestimmten Wahrscheinlichkeit ausgewählt warden, bestimmt wird. Wenn die Gesamtzahl der Werte, die von einer Aktion eingenommen werden können, durch „| A |‟ ausgedrückt wird, werden die Wahrscheinlichkeiten, andere Aktionen als die „greedy“-Aktion durchzuführen, jeweils durch „ε/ | A |‟ ausgedrückt.
  • Des Weiteren hat in der ersten Ausführungsform unter Berücksichtigung der Tatsache, dass die Aktionswertfunktion Q tabellenartige Daten sind, der Zustand s als unabhängige Variable eine bestimmte Breite. Mit anderen Worten, wenn die Aktionswertfunktion Q beispielsweise in 10%-Intervallen für den Gaspedalbetätigungsbetrag ACCP definiert ist, werden ein Fall, in dem der Gaspedalbetätigungsbetrag ACCP „3%“ ist, und ein Fall, in dem der Gaspedalbetätigungsbetrag ACCP „6%“ ist, nur aufgrund der Tatsache, dass die Fälle unterschiedliche Werte haben, nicht zu unterschiedlichen Zuständen s.
  • Als nächstes berechnet die CPU 42 den Öldruckbefehlswert P*, indem sie den Basiswert Pba* zum Korrekturwert ΔP addiert und einen Erregerstrom 1 des Magnetventils 28a so betätigt, dass der Erregerstrom I zu einem Wert wird, der auf der Grundlage des Öldruckbefehlswerts P* (S16) bestimmt wird. Dann berechnet die CPU 42 den Überdrehbetrag ΔNm2 und die Wärmeerzeugungsmenge CV (S18).
  • Der Überdrehbetrag ΔNm2 ist ein quantifizierter Betrag einer Überhöhung der Drehzahl der Eingangswelle des Automatikgetriebes 26 während der Gangschaltzeitspanne und wird als ein Betrag berechnet, um den die erfasste Drehzahl Nm2, die aus dem Ausgangssignal Sm2 des zweiten Drehwinkelsensors 54 berechnet wird, eine Zieldrehzahl Nm2* als eine im Voraus bestimmte Referenz überschreitet. Dabei stellt die CPU 42 die Zieldrehzahl Nm2* als Referenz gemäß dem Gaspedalbetätigungsbetrag ACCP, der Fahrzeuggeschwindigkeit SPD und der Gangschaltvariable ΔVsft ein. Dieser Prozess kann implementiert werden, wenn die CPU 42 die Zieldrehzahl Nm2* als Referenz in einem Zustand, in dem der ROM 44 im Voraus die Kennfelddaten speichert, die den Gaspedalbetätigungsbetrag ACCP, die Fahrzeuggeschwindigkeit SPD und die Gangschaltvariable ΔVsft als Eingangsvariablen und die Zieldrehzahl Nm2* als Referenz als Ausgangsvariable haben, aus einem Kennfeld berechnet. Die Kennfelddaten sind ein Datensatz aus diskreten Werten von Eingangsvariablen und Werten von Ausgangsvariablen, die jeweils den Werten der Eingangsvariablen entsprechen. Wenn ein Wert einer Eingangsvariable mit einem der Werte der Eingangsvariablen der Kennfelddaten übereinstimmt, wird in der Kennfeldberechnung der Wert der entsprechenden Ausgangsvariable der Kennfelddaten als Berechnungsergebnis verwendet, während, wenn ein Wert einer Eingangsvariable mit keinem der Werte der Eingangsvariable der Kennfelddaten übereinstimmt, der Wert, der durch Interpolation der Werte einer Vielzahl von Ausgangsvariablen, die in den Kennfelddaten enthalten sind, erhalten wurde, als Berechnungsergebnis verwendet wird.
  • Andererseits wird in der ersten Ausführungsform die Wärmeerzeugungsmenge CV als eine Menge bzw. Betrag berechnet, der proportional zu dem Produkt aus einer Drehzahldifferenz zwischen einem Paar der Reibungseingriffselemente und dem auf sie ausgeübten Drehmoment ist, wenn von einem der beiden Zustände des Lösezustands und des Eingriffszustands in den anderen geschaltet wird. Insbesondere berechnet die CPU 42 die Wärmeerzeugungsmenge CV auf der Grundlage der erfassten Drehzahl Nm2 als Drehzahl der Eingangswelle des Automatikgetriebes 26, der aus der Fahrzeuggeschwindigkeit SPD erfassten Drehzahl der Ausgangswelle des Automatikgetriebes 26 und des aus dem Gaspedalbetätigungsbetrag ACCP erfassten Drehmoments. Insbesondere berechnet die CPU 42 die Wärmeerzeugungsmenge CV in einem Zustand, in dem der ROM 44 im Voraus die Kennfelddaten speichert, die die Drehzahl der Eingangswelle, die Drehzahl der Ausgangswelle und den Gaspedalbetätigungsbetrag ACCP als die Eingangsvariablen und die Wärmeerzeugungsmenge CV als die Ausgangsvariable haben, aus ienem Kennfeld.
  • Die CPU 42 führt die Prozesse von S16 und S18 aus, bis die aktuelle Phase beendet ist (S20: Nein). Dann, nachdem bestimmt ist, dass die aktuelle Phase beendet ist (S20: Ja), aktualisiert die CPU 42 die Relationalregelungsdaten DR durch bestärkendes Lernen („reinforcement learning“) (S22). Nach Beenden des Prozesses von S22 oder einer negativen Bestimmung im Prozess von S10 beendet die CPU 42 vorübergehend die in 2 dargestellte Reihe von Prozessen.
  • 3 stellt Details des Prozesses von S22 dar. In einer Reihe von Prozessen, die in 3 dargestellt sind, bestimmt die CPU 42 zunächst, ob die Phasenvariable Vpase „3“ ist (S30). Nachdem festgestellt wird, dass die Variable „3“ ist (S30: Ja), berechnet die CPU 42 die Gangschaltzeit Tsft, die die für den Gangschalten erforderliche Zeit ist (S32), da das Gangschalten beendet ist. Insbesondere ist die Gangschaltzeit Tsft eine Zeitspanne vom Beginn der Steuerung zum Schalten der Gangstufen, bis ein Verhältnis der erfassten Drehzahl Nm2 als Drehzahl der Eingangswelle des Automatikgetriebes 26 zur Drehzahl der Ausgangswelle des Automatikgetriebes 26, die aus der Fahrzeuggeschwindigkeit SPD erfasst wird, mit einem Übersetzungsverhältnis in einer Gangstufe nach dem Gangschalten übereinstimmt und eine bestimmte Zeitspanne verstreicht. Dann berechnet die CPU 42 eine Belohnung („reward“) r1 entsprechend der Gangschaltzeit Tsft (S34). Insbesondere berechnet die CPU 42 die Belohnung r1 als einen höheren Wert, wenn die Schaltzeit Tsft kurz ist, als wenn sie lang ist.
  • Als nächstes trägt die CPU 42 den Maximalwert des Überdrehbetrags ΔNm2 aus den Überdrehbeträgen ΔNm2, die wiederholt in einem vorbestimmten Zyklus durch den Prozess von S18 berechnet wurden, in den Überdrehbetragmaximalwert ΔNm2max ein (S36). Als nächstes berechnet die CPU 42 eine Belohnung r2 gemäß dem Überdrehbetragmaximalwert ΔNm2max(S38). Insbesondere berechnet die CPU 42 den Wert der Belohnung r2 so, dass er höher ist, wenn der Überdrehbetragmaximalwert ΔNm2max klein ist, als wenn er groß ist.
  • Als nächstes berechnet die CPU 42 die Wärmeerzeugungsmenge InCV, die ein integrierter Wert der Wärmeerzeugungsmenge CV ist, die wiederholt in einem vorbestimmten Zyklus durch den Prozess von S18 berechnet wurde (S40). Als nächstes berechnet die CPU 42 eine Belohnung r3 gemäß der Wärmeerzeugungsmenge InCV (S42). Insbesondere berechnet die CPU 42 den Wert der Belohnung r3 so, dass er höher ist, wenn die Wärmeerzeugungsmenge InCV klein ist, als wenn sie groß ist.
  • Dann trägt die CPU 42 eine Summe der Belohnung r1, der Belohnung r2 und der Belohnung r3 in die Belohnung r für die im Prozess von S16 verwendete Aktion ein (S44). Andererseits trägt die CPU 42 nach der Bestimmung, ob die Phasenvariable Vpase „1“ oder „2“ ist (S30: Nein), „0“ in die Belohnung r ein (S46).
  • Nach Beenden der Prozesse von S44 und S46 korrigiert die CPU 42 einen Aktualisierungsbetrag, indem sie einen Aktualisierungsbetragskorrekturprozess (S48) ausführt. Details des Aktualisierungsbetragskorrekturprozesses werden im Folgenden beschrieben. Nach Beenden des Prozesses von S48 aktualisiert die CPU 42 basierend auf der Belohnung r und einer Lernrate α, auf die der Aktualisierungsbetragskorrekturprozess ausgeführt wurde, die Aktionswertfunktion Q(s,a), die in dem Prozess von S14 (S50) verwendet wurde. Die im Prozess von S14 verwendete Aktionswertfunktion Q(s,a) ist eine Aktionswertfunktion Q(s,a), die den durch den Prozess von S12 erlangten Zustand s und die durch den Prozess von S14 eingestellte Aktion a als unabhängige Variablen hat.
  • In der ersten Ausführungsform wird die Aktionswertfunktion Q(s,a) durch sogenanntes Q-Lernen („Q-Leaming“) aktualisiert, das eine TD-Methode vom Typ „policyoff‟ („policy-off type TD method“) ist. Insbesondere wird die Aktionswertfunktion Q(s,a) durch die folgende Gleichung (c1) aktualisiert: Q ( s , a ) Q + α { r + γ maxQ ( s + 1, a ) Q ( s , a ) }
    Figure DE102021118282A1_0001
  • Hier werden eine Discountrate („discount rate“) y und eine Lernrate α in einem Aktualisierungsbetrag „α · {r + γ · maxQ(s + 1, a) - Q(s, a)}‟ der Aktionswertfunktion Q(s,a) verwendet. Die Discountrate γ ist eine Konstante größer als „0“ und gleich oder kleiner als „1“. Wenn die aktuelle Phase Phase 1 oder Phase 2 ist, bedeutet „maxQ(s + 1, a)‟ die Aktionswertfunktion mit dem maximalen Wert unter den Aktionswertfunktionen Q, die eine Zustandsvariable zum Zeitpunkt des Abschlusses der Phase haben, d.h. einen Zustand s + 1, der durch einen Prozess von S12 nach der in 2 dargestellten Reihe von Prozessen als unabhängige Variable zu erfassen ist. Sofern es sich bei der aktuellen Phase nicht um Phase 3 handelt, ist der Zustand s, den der Prozess von S12 nach der in 2 dargestellten Reihe von Prozessen erfasst, der Zustand s + 1, der vom Prozess von S50 verwendet wird. Wenn die aktuelle Phase Phase 3 ist, wird des Weiteren der Zustand s, den der Prozess S12 zu diesem Zeitpunkt der in 2 dargestellten Reihe von Prozessen erfasst hat, als der Zustand s + 1 eingestellt.
  • Nach Beenden des Prozesses von S50 beendet die CPU 42 vorübergehend die in 3 dargestellte Reihe von Prozessen. Des Weiteren sind die Relationalregelungsdaten DR zum Zeitpunkt der Lieferung des Fahrzeugs VC Daten, die durch die gleiche Verarbeitung wie die von 2 in einem Prototypfahrzeug mit den gleichen Spezifikationen wie die des Fahrzeugs VC gelernt wurden. Mit anderen Worten, die Verarbeitung von 2 wird verwendet, um durch das bestärkende Lernen den Korrekturwert ΔP des Basiswerts Pba* und den vor der Lieferung des Fahrzeugs VC eingestellten Korrekturwert ΔP auf einen geeigneten Wert zu aktualisieren, wenn das Fahrzeug VC tatsächlich auf der Straße fährt.
  • Als nächstes wird der Aktualisierungsbetragkorrekturprozess beschrieben. Insbesondere werden die Belohnung r und eine Lernrate α eingestellt bzw. festgelegt. Wie in 4 dargestellt, berechnet die CPU 42 zunächst eine Drehmomentvariable TRv als eine Variable, die einen Änderungsbetrag im Eingangsdrehmoment des Automatikgetriebes 26 während eines Eingriffsprozesses (S60) darstellt. In der ersten Ausführungsform wird die Drehmomentvariable TRv als Absolutwert der Differenz zwischen dem Gaspedalbetätigungsbetrag ACCP zu Beginn des Schaltens der Gangstufen und dem Gaspedalbetätigungsbetrag ACCP beim Beenden des Schaltens der Gangstufen berechnet. Aus diesem Grund wird die Drehmomentvariable TRv umso größer berechnet, je größer der Absolutwert der Differenz zwischen diesen Gaspedalbetätigungsbeträgen ACCP wird.
  • Als nächstes bestimmt die CPU 42, ob die Drehmomentvariable TRv kleiner als ein im Voraus bestimmter erster vorgegebener Wert ΔT1 ist (S62). Wenn die Drehmomentvariable TRv kleiner als der erste vorgegebene Wert ΔT1 ist (S62: Ja), stellt die CPU 42 die Belohnung r auf einen Wert ein, der durch Multiplizieren der in S44 oder S46 berechneten Belohnung r mit einem im Voraus bestimmten ersten Korrekturkoeffizienten k1 erhalten wird (S64). In der ersten Ausführungsform ist der erste Korrekturkoeffizient k1 auf „1“ eingestellt. Des Weiteren stellt die CPU 42 die Lernrate α als eine im Voraus bestimmte Lernrate α1 ein (S66). Die Lernrate α1 wird auf einen Wert größer als „0“ und kleiner als „1“ eingestellt.
  • Wenn die Drehmomentvariable TRv andererseits gleich oder größer als der erste vorgegebene Wert ΔT1 ist (S62: Nein), bestimmt die CPU 42, ob die Drehmomentvariable TRv kleiner als ein im Voraus bestimmer zweiter vorgegebener Wert ΔT2 ist (S68). Der zweite vorgegebene Wert ΔT2 wird auf einen Wert eingestellt, der größer als der erste vorgegebene Wert ΔT1 ist. Wenn die Drehmomentvariable TRv kleiner als der zweite vorgegebene Wert ΔT2 ist (S68: Ja), stellt die CPU 42 die Belohnung r auf einen Wert ein, der durch Multiplizieren der in S44 oder S46 berechneten Belohnung r mit einem im Voraus bestimmten zweiten Korrekturkoeffizienten k2 erhalten wird (S70). Der zweite Korrekturkoeffizient k2 wird auf einen Wert eingestellt, der kleiner als der erste Korrekturkoeffizient k1 und größer als „0“ ist. Des Weiteren stellt die CPU 42 die Lernrate α als die im Voraus bestimmte Lernrate α1 ein (S72). Die hier eingestellte Lernrate α1 hat denselben Wert wie die in Schritt S66 eingestellte Lernrate α1.
  • Wenn andererseits die Drehmomentvariable TRv gleich oder größer als der zweite vorgegebene Wert ΔT2 ist (S68: Nein), bestimmt die CPU 42, ob die Drehmomentvariable TRv kleiner als ein im Voraus bestimmter dritter vorgegebener Wert ΔT3 ist (S74). Der dritte vorgegebene Wert ΔT3 wird auf einen Wert eingestellt, der größer als der zweite vorgegebene Wert ΔT2 ist. Wenn die Drehmomentvariable TRv kleiner als der dritte vorgegebene Wert ΔT3 ist (S74: Ja), stellt die CPU 42 die Belohnung r auf einen Wert ein, der durch Multiplizieren der in S44 oder S46 berechneten Belohnung r mit einem im Voraus bestimmten dritten Korrekturkoeffizienten k3 erhalten wird (S76). Der dritte Korrekturkoeffizient k3 wird auf einen Wert eingestellt, der kleiner als der zweite Korrekturkoeffizient k2 und größer als „0“ ist. Des Weiteren stellt die CPU 42 die Lernrate α als die im Voraus bestimmte Lernrate α1 ein (S78). Die hier eingestellte Lernrate α1 hat denselben Wert wie die in Schritt S66 eingestellte Lernrate α1.
  • Wenn andererseits die Drehmomentvariable TRv gleich oder größer als der dritte vorgegebene Wert ΔT3 ist (S74: Nein), stellt die CPU 42 die Belohnung r auf einen Wert ein, der durch Multiplizieren der in S44 oder S46 berechneten Belohnung r mit einem im Voraus bestimmten vierten Korrekturkoeffizienten k4 erhalten wird (S80). In der ersten Ausführungsform ist der vierte Korrekturkoeffizient k4 auf „0“ eingestellt. Aus diesem Grund wird die durch S80 korrigierte Belohnung r „0“. Des Weiteren stellt die CPU 42 die Lernrate α auf „0“ ein (S82).
  • Der dritte vorgegebene Wert ΔT3 wird im Voraus durch Experimente und Simulationen bestimmt. Insbesondere wird der dritte vorgegebene Wert ΔT3 durch den Vergleich eines Einflusses des Betrags der Änderung im Eingangsdrehmoment auf eine bestimmte Variable, z.B. den Überdrehbetrag ΔNm2, die Gangschaltzeit Tsft oder die Wärmeerzeugungsmenge InCV mit einem Einfluss des Öldruckbefehlswerts P* auf die bestimmte Variable eingestellt. Dann wird der dritte vorgegebene Wert ΔT3 auf einen Wert eingestellt, um den der Einfluss des Betrags der Änderung im Eingangsdrehmoment dominanter wird als der Einfluss des Öldruckbefehlswerts P*.
  • Des Weiteren werden der erste vorgegebene Wert ΔT1 und der zweite vorgegebene Wert ΔT2 im Voraus so eingestellt, dass die Drehmomentvariable TRv einen Bereich von „0“ bis zum dritten vorbestimmten WertΔ T3 in drei gleiche Teile unterteilen kann. Aus diesem Grund ist in der ersten Ausführungsform der erste vorgegebene Wert ΔT1 kleiner als der zweite vorgegebene Wert ΔT2 und der dritte vorgegebene Wert ΔT3. Insbesondere ist der erste vorgegebene Wert ΔT1 ein Drittel des dritten vorgegebenen Werts ΔT3. Des Weiteren ist der zweite vorgegebene Wert ΔT2 kleiner als der dritte vorgegebene Wert ΔT3. Insbesondere beträgt der zweite vorgegebene Wert ΔT2 zwei Drittel des dritten vorgegebenen Werts ΔT3.
  • Wie oben beschrieben, wird, wenn die Drehmomentvariable TRv kleiner als der dritte vorgegebene Wert ΔT3 ist, der Korrekturkoeffizient umso kleiner eingestellt, je größer die Drehmomentvariable TRv ist. Aus diesem Grund wird, wenn die Drehmomentvariable TRv kleiner als der dritte vorgegebene Wert ΔT3 ist, die Belohnung r umso kleiner korrigiert, je größer die Drehmomentvariable TRv ist.
  • Dann, wenn die Drehmomentvariable TRv gleich oder größer als der dritte vorgegebene Wert ΔT3 ist, wird die Aktionswertfunktion Q aktualisiert, ohne dass sie durch Einstellen der Lernrate α im oben beschriebenen Aktualisierungsprozess von S50 auf ,,0" geändert wird. Nach Beenden der Prozesse von S66, S72, S78 und S82 beendet die CPU 42 vorübergehend eine Reihe von Prozessen, die in 4 dargestellt sind.
  • Hier werden die Funktionsweise und ein vorteilhafter Effekt der ersten Ausführungsform beschrieben. (1- 1) Gemäß der ersten Ausführungsform wählt die CPU 42 während der Gangschaltzeitspanne die „greedy“-Aktion ag aus, betätigt den Erregerstrom des Magnetventils 28a und sucht den Korrekturwert ΔP in einem besseren Öldruckbefehlswert P* unter Verwendung einer anderen Aktion als der „greedy“-Aktion mit einer vorgegebenen Wahrscheinlichkeit. Dann aktualisiert die CPU 42 die Aktionswertfunktion Q des Korrekturwerts ΔP, der zur Bestimmung des Öldruckbefehlswerts P* verwendet wird, durch das Q-Lernen. Auf diese Weise kann ein geeigneter Öldruckbefehlswert P* durch das bestärkende Lernen gelernt werden, wenn das Fahrzeug VC tatsächlich auf der Straße fährt.
  • (1-2) Während des Schaltens der Gangstufen wird, wenn das Eingangsdrehmoment des Automatikgetriebes 26 durch die Änderung des Gaspedalbetätigungsbetrags ACCP geändert wird, auch eine bestimmte Variable, z.B. der Überdrehbetrag ΔNm2, die Gangschaltzeit Tsft oder die Wärmeerzeugungsmenge InCV, geändert. Dann, wenn der Betrag der Änderung im Eingangsdrehmoment groß ist und die Drehmomentvariable TRv gleich oder größer als der dritte vorgegebene Wert ΔT3 ist, ist der Einfluss des Betrags der Änderung im Eingangsdrehmoment auf die bestimmte Variable größer als der Einfluss des Öldrucks des Reibungseingriffselements auf die bestimmte Variable. Gemäß der ersten Ausführungsform ändert die CPU 42 die Aktionswertfunktion Q nicht, wenn die Drehmomentvariable TRv gleich oder größer als der dritte vorgegebene Wert ΔT3 ist. Aus diesem Grund wird in einer Situation, in der die bestimmte Variable unabhängig von dem Öldruckbefehlswert P* beeinflusst werden kann, der Öldruckbefehlswert P* durch das Lernen auf der Grundlage der bestimmten Variable nicht stark verändert.
  • (1-3) Gemäß der ersten Ausführungsform ist, wenn die Drehmomentvariable TRv kleiner als der dritte vorgegebene Wert ΔT3 ist, der Betrag des mit der Belohnung r multiplizierten Korrekturkoeffizienten umso größer, je kleiner der Betrag der Drehmomentvariable TRv ist. Aus diesem Grund wird, wenn die Drehmomentvariable TRv kleiner als der dritte vorgegebene Wert ΔT3 ist, der Korrekturkoeffizient r um so kleiner, je größer der Betrag der Änderung der Drehmomentvariable TRv ist. Aus diesem Grund wird in einer Situation, in der der Einfluss auf die bestimmte Variable klein ist, der Aktualisierungsbetrag der Aktionswertfunktion Q durch das Lernen klein, und in einer Situation, in der der Einfluss auf die bestimmte Variable groß ist, wird der Aktualisierungsbetrag der Aktionswertfunktion Q durch das Lernen groß.
  • (1-4) Gemäß der ersten Ausführungsform aktualisiert die CPU 42, wenn die Drehmomentvariable TRv durch den Aktualisierungsbetragskorrekturprozess gleich oder größer als der dritte vorgegebene Wert ΔT3 ist, die Aktionswertfunktion Q mit der auf ,,0" eingestellten Lernrate α. Wenn die Drehmomentvariable TRv gleich oder größer als der dritte vorgegebene Wert ΔT3 ist, führt die CPU 42 daher den Aktualisierungsprozess aus, ohne die Aktionswertfunktion Q zu ändern. Wenn der Zustand des Fahrzeugs s derselbe ist, wird als Ergebnis der Öldruckbefehlswert P*, der von den Relationalregelungsdaten DR abgeleitet wird, auch nicht geändert. Durch die Implementierung des Prozesses, der die Aktionswertfunktion Q nicht ändert, durch einen numerischen Wert der Lernrate α, ist es daher möglich, den Prozess davon abzuhalten, in Abhängigkeit von der Größe des Betrags der Änderung im Eingangsdrehmoment stark verändert zu werden, was zu einer Vereinfachung einer Reihe der Lernverarbeitung beiträgt.
  • Zweite Ausführungsform
  • Im Folgenden wird eine zweite Ausführungsform mit Bezug auf die Zeichnungen beschrieben, wobei der Schwerpunkt auf den Unterschieden zur ersten Ausführungsform liegt.
  • 5 illustriert einen detaillierten Ablauf des Prozesses von S22 gemäß der zweiten Ausführungsform. Die in 5 dargestellte Verarbeitung wird implementiert, wenn die CPU 42 das im ROM 44 gespeicherte Lernprogramm DPL wiederholt, z.B. in einem vorgegebenen Zyklus, ausführt.
  • In einer Reihe von Prozessen, die in 5 dargestellt sind, verwendet die CPU 42 den Gaspedalbetätigungsbetrag ACCP und die Gangschaltvariable ΔVsft für einen Berechnungsprozess der Belohnung r1 gemäß der Gangschaltzeit Tsft (S34a), einen Berechnungsprozess der Belohnung r2 gemäß dem maximalen Überdrehbetrag ΔNm2max (S38a) oder den Berechnungsprozess der Belohnung r3 gemäß der Wärmeerzeugungsmenge InCV (S42a).
  • Als nächstes werden die Funktionsweise und ein vorteilhafter Effekt der zweiten Ausführungsform beschrieben. (2-1) Gemäß der zweiten Ausführungsform werden die Belohnungen r1, r2, r3 aus den folgenden Gründen gemäß dem Gaspedalbetätigungsbetrag ACCP oder der Art der Gangschaltung zugeordnet.
  • Erstens ist es eine Einstellung zum Lernen der „greedy“-Aktion ag, so dass die Prioritäten von drei erforderlichen Elementen, die eine Gaspedalreaktion mit einer starken Korrelation mit der Gangschaltzeit Tsft, die Fahrbarkeit mit einer starken Korrelation mit dem maximalen Überdrehbetrag ΔNm2max und die Wärmeerzeugungsmenge InCV sind, in Abhängigkeit vom Gaspedalbetätigungsbetrag ACCP und der Gangschaltvariable ΔVsft variieren.
  • Mit anderen Worten wird zum Beispiel in einem Fall, in dem die Priorität einer Gaspedalreaktion höher ist, wenn vom zweiten Gang in den ersten Gang geschaltet wird, als wenn vom ersten Gang in den zweiten Gang geschaltet wird, der absolute Wert der Belohnung für die gleiche Gangschaltzeit Tsft so eingestellt, dass er größer ist, wenn vom zweiten Gang in den ersten Gang geschaltet wird, als wenn vom ersten Gang in den zweiten Gang geschaltet wird. In diesem Fall wird, indem beispielsweise die Priorität der Wärmeerzeugungsmenge InCV erhöht wird, der Absolutwert der Belohnung r3 für die gleiche Wärmeerzeugungsmenge InCV beim Schalten vom ersten Gang in den zweiten Gang größer eingestellt als beim Schalten vom zweiten Gang in den ersten Gang.
  • Zweitens, da das Drehmoment oder die Drehzahl, die bei dem Automatikgetriebe 26 angewendet werden, in Abhängigkeit vom Gaspedalbetätigungsbetrag ACCP oder der Art der Gangschaltung variiert, variieren die Werte des maximalen Überdrehbetrags ΔNm2max, der Gangschaltzeit Tsft und der Wärmeerzeugungsmenge InCV, die in Abhängigkeit vom Gaspedalbetätigungsbetrag ACCP und der Art des Gangwechsels eingenommen werden können. Aus diesem Grund kann das Lernen schwierig werden, wenn dieselbe Belohnung r1 unabhängig von dem Gaspedalbetätigungsbetrag ACCP oder der Art des Gangschaltens einheitlich für die Gangschaltzeit Tsft oder dergleichen zugewiesen wird.
  • Daher ist es in der zweiten Ausführungsform möglich, durch Ändern der Belohnungen r1, r2, r3 in Abhängigkeit vom Gaspedalbetätigungsbetrag ACCP und der Gangschaltvariable ΔVsft das Lernen unter Berücksichtigung der Tatsache durchzuführen, dass die Prioritäten der Gangschaltzeit Tsft, des Überdrehbetrags ΔNm2 und der Wärmeerzeugungsmenge InCV in Abhängigkeit vom Gaspedalbetätigungsbetrag ACCP oder der Art der Gangschaltung variieren. Des Weiteren ist es möglich, die Belohnungen r1 bis r3 unter Berücksichtigung der Tatsache zuzuweisen, dass die Werte des maximalen Überdrehbetrags ΔNm2max, der Gangschaltzeit Tsft und der Wärmeerzeugungsmenge InCV, die eingenommen werden können, in Abhängigkeit vom Gaspedalbetätigungsbetrag ACCP variieren, und des Weiteren mit dem Lernen reibungslos fortzufahren. Mit anderen Worten, die berechnete Belohnung r variiert in Abhängigkeit von der Art der Gangschaltung der Gangstufen des Automatikgetriebes 26. Aus diesem Grund werden je nach Art des Schaltens der Gangstufen unterschiedliche Relationalregelungsdaten DR gelernt. Somit kann für jede Art des Schaltens der Gangstufen ein entsprechender Öldruckbefehlswert P* erhalten werden.
  • Dritte Ausführungsform
  • Im Folgenden wird eine dritte Ausführungsform mit Bezug auf die Zeichnungen beschrieben, wobei der Schwerpunkt auf den Unterschieden zur ersten Ausführungsform liegt.
  • 6 zeigt eine Konfiguration eines Systems gemäß der dritten Ausführungsform. In 6 sind Teile, die den in 1 dargestellten Teilen entsprechen, der Einfachheit halber mit den gleichen Bezugszeichen versehen, und deren Beschreibung wird weggelassen. Wie in 6 dargestellt, enthält die Steuervorrichtung 40 des Fahrzeugs VC(1) eine Kommunikationsvorrichtung 47 und kann mit einem Datenanalysezentrum 90 über ein externes Netzwerk 80 durch die Kommunikationsvorrichtung 47 kommunizieren.
  • Das Datenanalysezentrum 90 analysiert die von einer Vielzahl von Fahrzeugen VC(1), VC(2), ... übertragenen Daten. Das Datenanalysezentrum 90 umfasst eine CPU 92, ein ROM 94, eine Speichervorrichtung 96 und eine Kommunikationsvorrichtung 97. Sie können über interne Busse 99 miteinander kommunizieren. Die Speichervorrichtung 96 ist eine elektrisch wiederbeschreibbare, nichtflüchtige Vorrichtung und speichert die Relationalregelungsdaten DR.
  • 7 illustriert einen Verarbeitungsablauf des bestärkende Lernens gemäß der dritten Ausführungsform. Die in 7 in A dargestellten Prozesse werden implementiert, wenn die CPU 42 ein Lernunterprogramm DPLa ausführt, das in dem in 6 dargestellten ROM 44 gespeichert ist. Des Weiteren werden die in 7 unter B dargestellten Prozesse implementiert, wenn die CPU 92 ein im ROM 94 gespeichertes Lernhauptprogramm DPLb ausführt. In 7 sind für Prozesse, die denen in 2 entsprechen, der Einfachheit halber dieselben Schrittnummern zugewiesen. Nachfolgend wird entlang der Zeitreihe des bestärkenden Lernens die in 7 dargestellte Verarbeitung beschrieben.
  • In der in 7 unter A dargestellten Reihe von Prozessen bestimmt die CPU 42 der Steuervorrichtung 40, nachdem zuerst die Prozesse von S10 bis S18 ausgeführt werden, ob das Gangschalten beendet ist (S90). Dann, nachdem festgestellt wurde, dass das Gangschalten beendet ist (S90: Ja), betätigt die CPU 42 die Kommunikationsvorrichtung 97, um die Daten, die zum Aktualisieren der Relationalregelungsdaten DR durch das bestärkende Lernen verwendet werden, zusammen mit einem Identifikationscode des Fahrzeugs VC(1) zu übertragen (S92). Diese Daten umfassen den Zustand s, die Aktion a, den Überdrehbetrag ΔNm2, die Wärmeerzeugungsmenge CV oder dergleichen.
  • In der Zwischenzeit empfängt die CPU 92 des Datenanalysezentrums 90 die Daten zum Aktualisieren der Relationalregelungsdaten DR (S100), wie in B von 7 dargestellt. Dann führt die CPU 92 einen Prozess von S22 basierend auf den empfangenen Daten aus. Dann überträgt die CPU 92 durch Betätigen der Kommunikationsvorrichtung 97 die Daten zum Aktualisieren der Relationalregelungsdaten DR an eine Quelle, von der die durch den Prozess von S100 empfangenen Daten übertragen werden (S102). Nach Beenden des Prozesses von S102 beendet die CPU 92 vorübergehend eine Reihe von Prozessen, die in B von 7 dargestellt sind.
  • Andererseits empfängt die CPU 42, wie in A von 7 dargestellt, Aktualisierungsdaten (S94). Dann aktualisiert die CPU 42 die Relationalregelungsdaten DR, die im Prozess von S14 verwendet werden, basierend auf den empfangenen Daten (S96). Nach Beenden des Prozesses von S96 oder einer negativen Bestimmung in den Prozessen von S10 und S90 beendet die CPU 42 vorübergehend die in A von 7 dargestellte Reihe von Prozessen. Des Weiteren aktualisiert die CPU 42 bei der erneuten Ausführung der in A von 7 dargestellten Reihe von Prozessen nach einer negativen Bestimmung im Prozess S90 die Aktion a durch die Prozesse S12 bis S16 nicht neu, außer wenn es sich um den Startpunkt der Phase handelt. Mit anderen Worten, in diesem Fall wird nur der Prozess von S18 neu ausgeführt.
  • Als nächstes werden die Funktionsweise und ein vorteilhafter Effekt der dritten Ausführungsform beschrieben. (3-1) Gemäß der dritten Ausführungsform kann, da der Aktualisierungsprozess der Relationalregelungsdaten DR außerhalb des Fahrzeugs VC(1) ausgeführt wird, eine Berechnungslast der Steuervorrichtung 40 reduziert werden. Des Weiteren kann z.B. im Prozess von S100, wenn Daten von den Fahrzeugen VC(1), VC(2), ... empfangen werden und der Prozess von S22 ausgeführt wird, die Anzahl der für das Lernen verwendeten Daten leicht erhöht werden.
  • Korrespondenzbeziehung
  • Die Korrespondenzbeziehung zwischen den Elementen in den Ausführungsformen und den in der „ZUSAMMENFASSUNG DER ERFINDUNG“ beschriebenen Elementen ist wie folgt. Die Stromquelle entspricht dem Verbrennungsmotor 10, dem ersten Motorgenerator 22 und dem zweiten Motorgenerator 24. Die Speichervorrichtung entspricht der Speichervorrichtung 46. Der Prozess zum Erfassen des Fahrzeugzustands entspricht dem Prozess von S12. Der Prozess zum Zuführen des Öls zum Automatikgetriebe entspricht dem Prozess von S16. Der Prozess zum Berechnen von zumindesten einer der Variablen als die bestimmte Variable entspricht den Prozessen von S18, S32, S36 und S40. Der Prozess zum Berechnen der Belohnung entspricht den Prozessen von S34, S38, S42 und S48 von 3, oder den Prozessen von S34a, S38a, S42a und S48 von 5. Der Prozess zum Aktualisieren der Relationalregelungsdaten entspricht dem Prozess von S50. Der Prozess zum Berechnen der Drehmomentvariable entspricht dem Prozess von S60. Die Aktualisierungsabbildung entspricht der Abbildung, die durch den Befehl zum Ausführen des Prozesses von S50 im Lernprogramm DPL bestimmt wird. Mit anderen Worten, die Aktualisierungsabbildung entspricht der Abbildung, die durch die obige Gleichung (c1) bestimmt wird. Ein Computer entspricht der CPU 42 von 1 oder den CPUs 42, 92 von 6. Der Prozess zum Korrigieren der Belohnung entspricht den Prozessen von S62 bis S78. Die Steuervorrichtung entspricht der Steuervorrichtung 40. Die Ausführungsvorrichtung entspricht der CPU 42 und dem ROM 44 von 1, oder den CPUs 42, 92 und den ROMs 44, 94 von 6. Die erste Ausführungsvorrichtung entspricht der CPU 42 und dem ROM 44, die zweite Ausführungsvorrichtung entspricht der CPU 92 und dem ROM 94.
  • Andere Ausführungsformen
  • Jede der obigen Ausführungsformen kann wie folgt modifiziert und implementiert werden. Jede der obigen Ausführungsformen und die folgenden modifizierten Beispiele können in Kombination miteinander innerhalb eines Bereichs implementiert werden, in dem es keine technischen Widersprüche gibt.
  • Über den Zustand, der für das Auswählen des Werts der Aktionsvariable basierend auf Relationalregelungsdaten verwendet wird
    • • Der Zustand, der für das Auswählen des Werts der Aktionsvariable basierend auf den Relationalregelungsdaten verwendet wird, ist nicht auf die in den obigen Ausführungsbeispielen veranschaulichten Zustände beschränkt. Beispielsweise müssen die Zustandsvariablen, die von den Werten der Aktionsvariablen vor Phase 2 und Phase 3 abhängen, nicht die erfasste Drehzahl Nm2 enthalten, sondern können z.B. auch den Überdrehbetrag ΔNm2 enthalten. Des Weiteren können sie z.B. die Wärmeerzeugungsmenge CV enthalten. Wenn jedoch z.B. ein Gewinnaufteilungsalgorithmus wie im Abschnitt „Über die Aktualisierungsabbildung“, der weiter unten beschrieben wird, verwendet wird, müssen die Zustandsvariablen, die von den Werten der Aktionsvariablen vor Phase 2 und Phase 3 abhängen, nicht in dem Zustand enthalten sein, der zum Auswählen der Werte der Aktionsvariablen verwendet wird.
  • Über den Erfassungsprozess
    • • Es ist nicht notwendig, den Gaspedalbetätigungsbetrag ACCP in die Zustandsvariable aufzunehmen.
    • • Es ist nicht notwendig, die Öltemperatur Toil in die Zustandsvariable aufzunehmen.
    • • Es ist nicht notwendig, die Phasenvariable Vpase in die Zustandsvariable aufzunehmen. Beispielsweise kann die Zeit vom Beginn des Schaltens der Gangstufen, die Drehzahl der Eingangswelle oder die Gangschaltvariable ΔVsft in die Zustandsvariable aufgenommen werden, um eine Aktionswertfunktion Q zu bilden, die jede Aktion bestimmt, und das bestärkende Lernen kann unter Verwendung derselben Aktionswertfunktion ausgeführt werden. In diesem Fall wird die Gangschaltzeitspanne nicht als die drei Phasen im Voraus festgelegt.
  • Über die Aktionsvariable
    • • In der obigen Ausführungsform wird der Korrekturwert ΔP des Öldruckbefehlswerts P* als Aktionsvariable eingestellt, aber die Aktionsvariable ist nicht darauf beschränkt und kann der Öldruckbefehlswert P* oder beispielsweise ein Befehlswert des Erregerstroms zum Magnetventil 28a oder eine Änderungsrate des Befehlswerts sein.
  • Über die Relationalregelungsdaten
    • • In den obigen Ausführungsformen wird die Aktionswertfunktion Q als tabellenartige Funktion eingestellt, aber die vorliegende Erfindung ist nicht darauf beschränkt, und es kann z.B. eine Funktionsapproximationsvorrichtung verwendet werden.
    • • Anstatt die Aktionswertfunktion Q zu verwenden, kann die Strategie π beispielsweise durch eine Funktionsapproximationsvorrichtung ausgedrückt werden, die den Zustand s und die Aktion a als unabhängige Variablen und eine Wahrscheinlichkeit, die Aktion a auszuführen, als abhängige Variable hat, und ein Parameter, der die Funktionsapproximationsvorrichtung bestimmt, kann gemäß der Belohnung r aktualisiert werden.
  • Über den Berechnungsprozess der bestimmten Variable
    • • Die bestimmte Variable umfasst zumindest einen der Werte des Überdrehbetrags ΔNm2, der Gangschaltzeit Tsft und der Wärmeerzeugungsmenge InCV.
    • • Die bestimmte Variable muss nicht der Überdrehbetrag ΔNm2 selbst sein und kann z.B. eine Variable sein, die die Größe des Überdrehbetrags ΔNm2 darstellt. Die bestimmte Variable kann z.B. „X“ sein, wenn der Überdrehbetrag ΔNm2 kleiner als ein zulässiger Wert ist, und „Y“ sein, wenn der Überdrehbetrag ΔNm2 gleich oder größer als der zulässige Wert ist. „Y“ ist von „X“ verschieden. Des Weiteren ist die bestimmte Variable nicht auf die obigen Beispiele beschränkt und kann eine Variable sein, die in drei oder mehr Stufen unterteilt ist. Das Gleiche gilt für andere bestimmte Variablen.
    • • Zusätzlich zu oder anstelle der Wärmeerzeugungsmenge InCV kann eine Wärmeerzeugungsmenge pro Zeiteinheit als bestimmte Variable verwendet werden. In diesem Fall wird die Wärmeerzeugungsmenge pro Zeiteinheit durch Dividieren der Wärmeerzeugungsmenge InCV durch die Gangschaltzeit Tsft erhalten.
  • Über den Eingriffsrozess
    • • Wie im Absatz „Über die Relationalregelungsdaten“ beschrieben, wird, wenn die Funktionsapproximationsvorrichtung als Aktionswertfunktion Q verwendet wird, durch Eingeben der Aktion a in die Aktionswertfunktion Q zusammen mit dem Zustand s für jeden der diskreten Werte für die Aktion, die die unabhängige Variable der tabellenartigen Funktion in den Ausführungsformen ist, die Aktion a ausgewählt, die die Aktionswertfunktion Q maximiert.
    • • Wie im Abschnitt „Über die Relationalregelungsdaten“ beschrieben, wird, wenn die Strategie π durch die Funktionsapproximationsvorrichtung ausgedrückt wird, die den Zustand s und die Aktion a als die unabhängigen Variablen und die Wahrscheinlichkeit, die Aktion a auszuführen, als die abhängige Variable hat, die Aktion a auf der Grundlage der durch die Strategie π dargestellten Wahrscheinlichkeit ausgewählt.
  • Über den Aktualisierungsprozess
    • • In jeder der obigen Ausführungsformen wird, wenn die Drehmomentvariable TRv gleich oder größer als der dritte vorgegebene Wert ΔT3 ist, der Aktualisierungsprozess ohne Änderung der Relationalregelungsdaten ausgeführt, indem die Lernrate α auf „0“ eingestellt wird. Wenn die Drehmomentvariable TRv jedoch gleich oder größer als der dritte vorgegebene Wert ΔT3 ist, muss der Aktualisierungsprozess nicht ausgeführt werden. In diesem Fall werden die Relationalregelungsdaten nicht verändert, indem der Aktualisierungsprozess nicht ausgeführt wird. Insbesondere kann zum Beispiel in der ersten Ausführungsform, wenn die Drehmomentvariable TRv gleich oder größer als der dritte vorgegebene Wert ΔT3 ist (S74: Nein), eine Reihe von Prozessen ohne Ausführen des Prozesses von S50 beendet werden.
    • • Wenn andererseits die Drehmomentvariable TRv kleiner als der dritte vorgegebene Wert ΔT3 ist, kann die Lernrate α umso kleiner eingestellt werden, je größer die Drehmomentvariable TRv ist. Je größer die Drehmomentvariable TRv ist, desto kleiner kann der durch den Aktualisierungsprozess aktualisierte Betrag werden.
  • Über die Aktualisierungsabbildung
    • • In dem Prozess von S50 wurde das sogenannte Q-Lernen, das eine TD-Methode vom Typ „policy-off‟ ist, veranschaulicht, aber die vorliegende Erfindung ist nicht darauf beschränkt, und es kann beispielsweise eine sogenannte SARSA-Methode, die eine TD-Methode vom Typ „policy-on“ („policy-on type TD method“) ist, verwendet werden. Die vorliegende Erfindung ist jedoch nicht auf die TD-Methode beschränkt, und es können z.B. die Monte-Carlo-Methode („Monte Carlo method“) oder eine Methode vom Typ „eligibility tracing“ („eligibility tracing method“) verwendet werden.
    • • Als Aktualisierungsabbildung der Relationalregelungsdaten basierend auf der Belohnung kann z.B. eine Abbildung gemäß dem Gewinnaufteilungsalgorithmus verwendet werden. Wenn ein Beispiel unter Verwendung der Abbildung gemäß dem Gewinnaufteilungsalgorithmus als modifiziertes Beispiel des in 2 veranschaulichten Prozesses verwendet wird, wird insbesondere Folgendes ausgeführt. Mit anderen Worten, die Belohnung wird in einer Stufe berechnet, in der die Gangschaltung beendet ist. Dann wird die berechnete Belohnung einer Regel zugewiesen, die ein Paar aus jedem Zustand und jeder Aktion, die an der Gangschaltung beteiligt sind, gemäß einer Verstärkungsfunktion bestimmt. Als Verstärkungsfunktion kann dabei z.B. eine bekannte geometrisch abnehmende Funktion verwendet werden. Da die Gangschaltzeit Tsft eine starke Korrelation mit dem Wert der Aktionsvariable in Phase 3 hat, ist es insbesondere effektiv, die geometrisch abnehmende Funktion als Verstärkungsfunktion zu verwenden, wenn die Belohnung gemäß der Gangschaltzeit Tsft verteilt wird. Die Verstärkungsfunktion ist jedoch nicht auf die geometrisch abnehmende Funktion beschränkt. Wenn die Belohnung beispielsweise auf der Grundlage der Wärmeerzeugungsmenge CV zugewiesen wird, kann die Verteilung der Belohnung gemäß der Wärmeerzeugungsmenge CV in Phase 1 unter Berücksichtigung der Tatsache maximiert werden, dass die Wärmeerzeugungsmenge CV eine starke Korrelation mit dem Wert der Aktionsvariable in Phase 1 hat.
    • • Wie im Abschnitt „Über die Relationalregelungsdaten“ beschrieben, wird beispielsweise, wenn die Strategie π durch die Funktionsapproximationsvorrichtung ausgedrückt und basierend auf der Belohnung r direkt aktualisiert wird, die Aktualisierungsabbildung unter Verwendung einer Strategiengradientenmethode („policy gradient method“) und dergleichen konfiguriert.
    • • Das durch die Belohnung r direkt zu aktualisierende Ziel ist nicht auf nur eine der Aktionswertfunktionen Q und die Strategie π beschränkt. Zum Beispiel können die Aktionswertfunktion Q und die Strategie π jeweils wie in einer aktorkritischen Methode („actor-critic method“) aktualisiert werden. Des Weiteren kann in der aktorkritischen Methode z.B. eine Wertfunktion V anstelle der Aktionswertfunktion Q zum zu aktualisierenden Ziel werden.
  • Über den Belohnungsberechnungsprozess
    • • In den obigen Ausführungsformen wird die Belohnung r in Phase 1 und Phase 2 auf Null eingestellt, aber die vorliegende Erfindung ist nicht darauf beschränkt. Zum Beispiel kann in Phase 1 eine höhere Belohnung zugewiesen werden, wenn die Wärmeerzeugungsmenge CV in Phase 1 klein ist, als wenn sie groß ist. Des Weiteren kann beispielsweise in Phase 2 eine größere Belohnung zugewiesen werden, wenn die Wärmeerzeugungsmenge CV in Phase 2 klein ist, als wenn sie groß ist. Des Weiteren kann beispielsweise in Phase 2 eine größere Belohnung zugewiesen werden, wenn der Überdrehbetrag ΔNm2 in Phase 2 klein ist, als wenn er groß ist.
    • • Der Prozess zum Zuweisen einer höheren Belohnung, wenn eine Wärmeerzeugungsmenge klein ist, als wenn sie groß ist, ist nicht auf den Prozess zum Zuweisen einer höheren Belohnung, wenn die Wärmeerzeugungsmenge InCV klein ist, als wenn sie groß ist, beschränkt. Zum Beispiel kann eine höhere Belohnung zugewiesen werden, wenn der Maximalwert der Wärmeerzeugungsmenge CV pro Zeiteinheit innerhalb der Gangschaltzeitspanne klein ist, als wenn er groß ist.
    • • Die Variable, die den Betrag darstellt, um den die Drehzahl der Eingangswelle des Automatikgetriebes 26 die Referenzdrehzahl überschreitet, ist nicht auf den maximalen Überdrehbetrag ΔNm2max beschränkt und kann beispielsweise der Durchschnittswert des Überdrehbetrags ΔNm2 während der Gangschaltzeitspanne sein. Des Weiteren kann es sich beispielsweise um eine Größe handeln, bei der ein Betrag, bei dem eine Drehzahl der Eingangswelle bei Ausgabe eines Gangschaltbefehls die Referenzdrehzahl überschreitet, quantifiziert wird.
    • • In den obigen Ausführungsformen werden der Prozess zum Zuweisen einer höheren Belohnung, wenn die Gangschaltzeit Tsft kurz ist, als wenn sie lang ist, der Prozess zum Zuweisen einer höheren Belohnung, wenn ein Überschreitungsbetrag klein ist, als wenn er groß ist, und der Prozess zum Zuweisen einer höheren Belohnung, wenn die Wärmeerzeugungsmenge InCV klein ist, als wenn sie groß ist, ausgeführt, aber die vorliegende Erfindung ist nicht darauf beschränkt. Beispielsweise kann von diesen drei Prozessen nur einer ausgeführt werden, oder es können beispielsweise nur zwei von ihnen ausgeführt werden.
    • • In der Verarbeitung von 5 variiert die Größe der Belohnung r1 in Abhängigkeit von dem Gaspedalbetätigungsbetrag ACCP und der Art der Gangschaltung, auch wenn die Gangschaltzeit Tsft gleich ist, aber die vorliegende Erfindung ist nicht darauf beschränkt. Sie kann z.B. nicht in Abhängigkeit vom Gaspedalbetätigungsbetrag ACCP, aber in Abhängigkeit von der Art der Gangschaltung variieren. Des Weiteren kann sie z.B. nicht in Abhängigkeit von der Art der Gangschaltung variieren, sondern in Abhängigkeit von dem Gaspedalbetätigungsbetrag ACCP.
    • • In der Verarbeitung von 5 variiert die Größe der Belohnung r2 in Abhängigkeit vom Gaspedalbetätigungsbetrag ACCP und der Art der Gangschaltung, auch wenn der maximale Überdrehbetrag ΔNm2max gleich ist, aber die vorliegende Erfindung ist nicht darauf beschränkt. Beispielsweise kann die Größe der Belohnung r2 in Abhängigkeit von der Art der Gangschaltung variieren, muss aber nicht in Abhängigkeit vom Gaspedalbetätigungsbetrag ACCP variieren. Des Weiteren kann die Größe der Belohnung r2 beispielsweise in Abhängigkeit von der Gaspedalbetätigungsbetrag ACCP variieren, muss aber nicht in Abhängigkeit von der Art der Gangschaltung variieren.
    • • In der Verarbeitung von 5 variiert die Größe der Belohnung r3 in Abhängigkeit vom Gaspedalbetätigungsbetrag ACCP und der Art der Gangschaltung, auch wenn die Wärmeerzeugungsmenge InCV gleich ist, aber die vorliegende Erfindung ist nicht darauf beschränkt. Beispielsweise kann die Größe der Belohnung r3 in Abhängigkeit von der Art der Gangschaltung variieren, muss aber nicht in Abhängigkeit vom Gaspedalbetätigungsbetrag ACCP variieren. Des Weiteren kann die Größe der Belohnung r3 beispielsweise in Abhängigkeit vom Gaspedalbetätigungsbetrag ACCP variieren, muss aber nicht in Abhängigkeit von der Art der Gangschaltung variieren.
  • Über den Belohnungsbetragskorrekturprozess
    • • In der obigen Ausführungsform wird, wenn die Drehmomentvariable TRv kleiner als der dritte vorgegebene Wert ΔT3 ist, die Drehmomentvariable TRv in drei Bereiche unterteilt, und je größer der Bereich der Drehmomentvariable TRv ist, umso kleiner wird die Belohnung r schrittweise korrigiert. Das Verfahren zum Korrigieren der Belohnung r ist jedoch nicht auf das Beispiel der obigen Ausführungsform beschränkt. Wenn die Drehmomentvariable TRv kleiner als der dritte vorgegebene Wert ΔT3 ist, kann die Belohnung r beispielsweise umso kleiner kontinuierlich korrigiert werden, je größer die Drehmomentvariable TRv wird.
    • • Des Weiteren kann die gleiche Belohnung zugewiesen werden, wenn die Drehmomentvariable TRv kleiner als der dritte vorgegebene Wert ΔT3 ist. Wie oben beschrieben, kann es implementiert werden, dass durch Ändern der Einstellung der Lernrate α der Aktualisierungsbetrag umso kleiner ist, je größer die Drehmomentvariable TRv ist, und der gleiche Betrag aktualisiert werden kann.
  • Über den Drehmomentvariablenberechnungsprozess
    • • In jeder der obigen Ausführungsformen ist die Drehmomentvariable TRv nicht auf den Absolutwert einer Differenz zwischen dem Gaspedalbetätigungsbetrag ACCP zu Beginn des Schaltens der Gangstufen und dem Gaspedalbetätigungsbetrag ACCP beim Beenden des Schaltens der Gangstufen beschränkt. Wie in 8 dargestellt, kann z.B. der Absolutwert der Differenz zwischen dem Maximalwert und dem Minimalwert des Gaspedalbetätigungsbetrags ACCP während der Gangschaltzeitspanne als Drehmomentvariable TRvmax berechnet werden. In diesem Fall kann die Drehmomentvariable TRvmax durch den Maximalwert und den Minimalwert des Gaspedalbetätigungsbetrags ACCP während der Gangschaltzeitspanne erfasst werden. Aus diesem Grund kann der maximale Betrag der Änderung des Gaspedalbetätigungsbetrags ACCP als Drehmomentvariable TRvmax berechnet werden, auch wenn der Gaspedalbetätigungsbetrag ACCP während der Gangschaltzeitspanne von steigend auf fallend oder von fallend auf steigend geändert wird.
    • • Wie in 9 dargestellt, kann des Weiteren die Drehmomentvariable als Änderungsrate berechnet werden, indem der Absolutwert AVD der Differenz zwischen dem Gaspedalbetätigungsbetrag ACCP zu Beginn des Schaltens der Gangstufen und dem Gaspedalbetätigungsbetrag ACCP beim Beenden des Schaltens der Gangstufen durch die Gangschaltzeit T sft dividiert wird. In diesem Fall kann die Drehmomentvariable, selbst wenn der Änderungsbetrag der Gaspedalbetätigungsbeträge ACCP gleich ist, unterschiedliche Werte haben, je nachdem, ob die Gangschaltzeit Tsft lang oder kurz ist. Mit anderen Worten, die Drehmomentvariable kann als Änderungsrate des Gaspedalbetätigungsbetrags ACCP pro Zeiteinheit berechnet werden. Die Drehmomentvariable wird als ein Wert berechnet, der mit der Erhöhung des Änderungsbetrags des Eingangsdrehmoments erhöht wird.
  • Über das Fahrzeugsteuersystem
    • • In dem in 7 dargestellten Beispiel wird der Prozess zum Bestimmen der Aktion basierend auf der Strategie π(der Prozess von S14) fahrzeugseitig ausgeführt, aber die vorliegende Erfindung ist nicht darauf beschränkt. Beispielsweise können die durch den Prozess von S12 erfassten Daten vom Fahrzeug VC(1) übertragen werden, die Aktion a kann anhand der übertragenen Daten im Datenanalysezentrum 90 bestimmt werden, und die bestimmte Aktion kann an das Fahrzeug VC(1) übertragen werden.
    • • Das Fahrzeugsteuersystem ist nicht auf ein System beschränkt, das aus der Steuervorrichtung 40 und dem Datenanalysezentrum 90 besteht. Zum Beispiel kann anstelle des Datenanalysezentrums 90 ein mobiles Endgerät des Benutzers verwendet werden. Des Weiteren kann das Fahrzeugsteuersystem aus der Steuervorrichtung 40, dem Datenanalysezentrum 90 und dem mobilen Endgerät bestehen. Dies kann z.B. dadurch realisiert werden, dass der Prozess von S 14 durch das mobile Endgerät ausgeführt wird.
  • Über die Ausführungsvorrichtung
    • • Die Ausführungsvorrichtung ist nicht darauf beschränkt, die CPU 42(92) und den ROM 44(94) zu enthalten und die Softwareverarbeitung auszuführen. Beispielsweise kann eine dedizierte Hardwareschaltung, wie eine ASIC (anwendungsspezifische integrierte Schaltung), vorgesehen sein, die zumindest einen Teil der Softwareprozesse in den obigen Ausführungsformen durch Hardware verarbeitet. Mit anderen Worten, die Ausführungsvorrichtung kann eine der folgenden Konfigurationen (a) bis (c) aufweisen, (a) Eine Verarbeitungsvorrichtung, die die gesamte obige Verarbeitung gemäß einem Programm ausführt, und eine Programmspeichervorrichtung, z.B. ein ROM, der das Programm speichert, sind vorgesehen. (b) Eine Verarbeitungsvorrichtung, die einen Teil der obigen Verarbeitung gemäß einem Programm ausführt, eine Programmspeichervorrichtung und eine dedizierte Hardwareschaltung, die die restliche Verarbeitung ausführt, sind vorgesehen. (c) Eine dedizierte Hardwareschaltung, die die gesamte obige Verarbeitung ausführt, ist vorgesehen. Dabei kann eine Vielzahl von Softwareausführungsvorrichtungen, die eine Verarbeitungsvorrichtung und eine Programmspeichervorrichtung aufweisen, und eine Vielzahl von dedizierten Hardwareschaltungen verwendet werden.
  • Über den Computer
    • • Der Typ des Computers ist nicht auf die CPU 42 von 1 oder die CPUs 42, 92 von 6 beschränkt. Beispielsweise kann es sich um einen Computer handeln, der zur Erzeugung der Relationalregelungsdaten DR verwendet wird, bevor das Fahrzeug VC(1) ausgeliefert und die CPU 42 an dem Fahrzeug VC(1) montiert wird. In diesem Fall kann eine Suche nach der Lieferung einen kleineren Bereich von Werten haben, die von der Aktionsvariable angenommen werden können, als eine Suche im bestärkenden Lernen, die von einem Computer ausgeführt wird, der zum Erzeugen der Relationalregelungsdaten DR verwendet wird. Des Weiteren muss das Fahrzeug im Erzeugungsprozess der Relationalregelungsdaten DR vor der Lieferung des Fahrzeugs nicht existieren, und der Zustand des Fahrzeugs kann virtuell erzeugt werden, indem der Verbrennungsmotor 10 oder dergleichen auf einem Prüfstand betrieben wird und das Fahren des Fahrzeugs simuliert wird, und der Zustand des Fahrzeugs kann für das bestärkende Lernen verwendet werden, während er virtuell erzeugt durch den Erfassungswert des Sensors oder dergleichen erfasst wird. In diesem Fall wird der virtuell erzeugte Zustand des Fahrzeugs als der Zustand des Fahrzeugs basierend auf dem Erfassungswert des Sensors betrachtet.
  • Über die Speichervorrichtung
    • • In den obigen Ausführungsformen werden die Speichervorrichtung, die die Relationalregelungsdaten DR speichert, und die Speichervorrichtung (der ROM 44, 94), die das Lernprogramm DPL, das Lernunterprogramm DPLa oder das Lernhauptprogramm DPLb speichert, als separate Speichervorrichtungen verwendet. Sie ist jedoch nicht darauf beschränkt.
  • Über das Fahrzeug
    • • Das Fahrzeug ist nicht auf ein serielles-paralleles Hybridfahrzeug (Mischhybridfahrzeug) beschränkt. Zum Beispiel kann das Fahrzeug ein serielles Hybridfahrzeug oder ein paralleles Hybridfahrzeug sein. Das Fahrzeug ist nicht darauf beschränkt, als fahrzeuginterne Rotationsaschine den Verbrennungsmotor und den Motorgenerator aufzuweisen. Zum Beispiel kann das Fahrzeug den Verbrennungsmotor haben, aber nicht den Motorgenerator, oder das Fahrzeug kann den Motorgenerator haben, aber nicht den Verbrennungsmotor.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • JP 2008025624 A [0002, 0004]

Claims (9)

  1. Öldrucklernverfahren eines Automatikgetriebes (26), wobei das Automatikgetriebe (26) an einem Fahrzeug (VC) montiert ist, mit einer Stromquelle (10, 22, 24) des Fahrzeugs (VC) verbunden ist und zumindest eine Bremse (B1, B2) oder eine Kupplung (C1, C2) als ein Reibungseingriffselement aufweist, wobei das Öldrucklernverfahren umfasst: Erfassen eines Zustands des Fahrzeugs (VC) in einem Zustand, in dem eine Speichervorrichtung (46) Relationalregelungsdaten (DR) speichert, die zum Regeln einer Beziehung zwischen dem Zustand des Fahrzeugs (VC) und einem Öldruckbefehlswert verwendet werden, der ein Druck von Öl ist, das dem Automatikgetriebe (26) zugeführt wird, wenn das Reibungseingriffselement, das Gangstufen des Automatikgetriebes (26) schaltet, im Eingriff ist; Zuführen von Öl zum Automatikgetriebe (26), wenn das Reibungseingriffselement, das die Gangstufen des Automatikgetriebes (26) schaltet, im Eingriff ist, so dass der Wert des Drucks des zugeführten Öls auf den Öldruckbefehlswert eingestellt wird, der durch den erfassten Zustand des Fahrzeugs (VC) und die Relationalregelungsdaten (DR) bestimmt wird; Berechnen, wenn das Reibungseingriffselement im Eingriff ist, als eine bestimmte Variable zumindest eine von einer Variable, die einen Betrag darstellt, um den eine erfasste Eingangsdrehzahl des Automatikgetriebes (26) eine Zieleingangsdrehzahl des Automatikgetriebes (26) überschreitet, einer Variable, die eine Gangschaltzeit von einem Beginn des Schaltens der Gangstufen bis zu einem Beenden des Schaltens darstellt, und einer Variable, die einen Betrag von in dem Automatikgetriebe (26) erzeugter Wärme darstellt; Berechnen einer Belohnung in einer Weise, in der die Belohnung einen größeren Wert hat, wenn die erfasste bestimmte Variable ein Kriterium erfüllt, als wenn die erfasste bestimmte Variable das Kriterium nicht erfüllt; Aktualisieren der Relationalregelungsdaten (DR) durch Eingeben der berechneten Belohnung und des Öldruckbefehlswerts in eine im Voraus bestimmte Aktualisierungsabbildung, wobei die Belohnung berechnet wird, wenn das Reibungseingriffselement im Eingriff ist; und Berechnen einer Drehmomentvariable (TRV) mit einem Wert, der erhöht wird, wenn ein Änderungsbetrag in einem Eingangsdrehmoment des Automatikgetriebes (26) erhöht wird, wenn das Reibungseingriffselement im Eingriff ist, wobei: die Aktualisierungsabbildung die Relationalregelungsdaten (DR) ausgibt, die aktualisiert werden, um einen erwarteten Gewinn für die Belohnung zu erhöhen, wenn das Reibungseingriffselement gemäß den Relationalregelungsdaten (DR) im Eingriff ist; und wenn der Änderungsbetrag im Eingangsdrehmoment, der durch die berechnete Drehmomentvariable (TRV) dargestellt wird, gleich oder größer als ein im Voraus bestimmter vorgegebener Wert ist, eine Änderung in den Relationalregelungsdaten (DR) geregelt wird, wobei der Änderungsbetrag im Eingangsdrehmoment berechnet wird, wenn das Reibungseingriffselement im Eingriff ist.
  2. Öldrucklernverfahren nach Anspruch 1, wobei, wenn die Drehmomentvariable (TRv) kleiner als der vorgegebene Wert ist, die Belohnung so korrigiert wird, dass sie einen umso kleineren Wert hat, je größer die Drehmomentvariable (TRv) ist.
  3. Öldrucklernverfahren nach Anspruch 1 oder 2, wobei: die Aktualisierungsabbildung eine Abbildung aufweist, die nur eine Aktionswertfunktion um einen aktualisierten Betrag aktualisiert, der einen Wert hat, der durch Multiplizieren einer Aktionswertfunktion vor der Aktualisierung mit einer Lernrate erhalten wird; und wenn die Drehmomentvariable (TRv) gleich oder größer als der vorgegebene Wert ist, die Relationalregelungsdaten (DR) mit der auf „0“ eingestellten Lernrate aktualisiert werden.
  4. Öldrucklernverfahren nach einem der Ansprüche 1 bis 3, wobei für jede Art des Schaltens der Gangstufen des Automatikgetriebes (26) eine andere Belohnung zugewiesen wird.
  5. Öldrucklernverfahren nach einem der Ansprüche 1 bis 4, wobei die Drehmomentvariable (TRv) eine Differenz zwischen einem Gaspedalbetätigungsbetrag (ACCP), der ein Betätigungsbetrag eines Gaspedals zu Beginn des Schaltens der Gangstufen ist, und dem Gaspedalbetätigungsbetrag (ACCP) des Gaspedals (60) beim Beenden des Schaltens der Gangstufen ist.
  6. Öldrucklernverfahren nach einem der Ansprüche 1 bis 4, wobei die Drehmomentvariable (TRV) eine Differenz zwischen einem Maximalwert und einem Minimalwert eines Gaspedalbetätigungsbetrags (ACCP) ist, der ein Betätigungsbetrag eines Gaspedals (60) während der Gangschaltzeit vom Beginn des Schaltens der Gangstufen bis zum Beenden des Schaltens ist.
  7. Öldrucklernverfahren nach einem der Ansprüche 1 bis 4, wobei die Drehmomentvariable (TRV) einen Wert hat, der durch Dividieren einer Differenz zwischen einem Gaspedalbetätigungsbetrag (ACCP), der ein Betätigungsbetrag eines Gaspedals (60) zu Beginn des Schaltens der Gangstufen ist, und dem Gaspedalbetätigungsbetrag (ACCP) beim Beenden des Schaltens der Gangstufen durch die Gangschaltzeit erhalten wird.
  8. Steuervorrichtung eines Automatikgetriebes (26), wobei das Automatikgetriebe (26) an einem Fahrzeug (VC) montiert ist, mit einer Stromquelle (10, 22, 24) des Fahrzeugs (VC) verbunden ist und zumindest eine Bremse (B1, B2) oder einer Kupplung (C1, C2) als Reibungseingriffselement aufweist, wobei die Steuervorrichtung umfasst: eine Speichervorrichtung (46), die so konfiguriert ist, dass sie Relationalregelungsdaten (DR) speichert, die zum Regeln einer Beziehung zwischen einem Zustand des Fahrzeugs (VC) und einem Öldruckbefehlswert verwendet werden, der ein Druck von Öl ist, das dem Automatikgetriebe (26) zugeführt wird, wenn das Reibungseingriffselement, das Gangstufen des Automatikgetriebes (26) schaltet, im Eingriff ist, und eine Ausführungsvorrichtung (42), die so konfiguriert ist, dass sie: den Zustand des Fahrzeugs (VC) erfasst; wenn das Reibungseingriffselement, das die Gangstufen des Automatikgetriebes (26) schaltet, im Eingriff ist, dem Automatikgetriebe (26) Öl so zuführt, dass der Wert des Drucks des zugeführten Öls auf den Öldruckbefehlswert eingestellt wird, der durch den erfassten Zustand des Fahrzeugs (VC) und die Relationalregelungsdaten (DR) bestimmt wird; wenn das Reibungseingriffselement im Eingriff ist, als eine bestimmte Variable zumindest eine von einer Variable, die einen Betrag darstellt, um den eine erfasste Eingangsdrehzahl des Automatikgetriebes (26) eine Zieleingangsdrehzahl des Automatikgetriebes (26) überschreitet, einer Variable, die eine Gangschaltzeit von einem Beginn des Schaltens der Gangstufen bis zu einem Beenden des Schaltens darstellt, und einer Variable berechnet, die einen Betrag der in dem Automatikgetriebe (26) erzeugten Wärme darstellt; eine Belohnung in einer Weise berechnet, in der die Belohnung einen größeren Wert hat, wenn die erfasste bestimmte Variable ein Kriterium erfüllt, als wenn die erfasste bestimmte Variable das Kriterium nicht erfüllt; die Relationalregelungsdaten (DR) durch Eingeben der berechneten Belohnung und des Öldruckbefehlswerts in eine im Voraus bestimmte Aktualisierungsabbildung aktualisiert, wobei die Belohnung berechnet wird, wenn das Reibungseingriffselement im Eingriff ist, und eine Drehmomentvariable (TRV) mit einem Wert berechnet, der erhöht wird, wenn ein Änderungsbetrag in einem Eingangsdrehmoment des Automatikgetriebes (26) erhöht wird, wenn das Reibungseingriffselement im Eingriff ist, wobei: die Aktualisierungsabbildung die Relationalregelungsdaten (DR) ausgibt, die aktualisiert werden, um einen erwarteten Gewinn für die Belohnung zu erhöhen, wenn das Reibungseingriffselement gemäß den Relationalregelungsdaten (DR) im Eingriff ist; und die Ausführungsvorrichtung (42) so konfiguriert ist, dass sie, wenn der Änderungsbetrag im Eingangsdrehmoment, der durch die berechnete Drehmomentvariable (TRV) dargestellt wird, gleich oder größer als ein im Voraus bestimmter vorgegebener Wert ist, eine Änderung in den Relationalregelungsdaten (DR) regelt, wobei der Änderungsbetrag im Eingangsdrehmoment berechnet wird, wenn das Reibungseingriffselement im Eingriff ist.
  9. Steuersystem eines Automatikgetriebes (26), wobei das Automatikgetriebe (26) an einem Fahrzeug (VC) montiert ist, mit einer Stromquelle (10, 22, 24) des Fahrzeugs (VC) verbunden ist und zumindest eine Bremse (B1, B2) oder einer Kupplung (C1, C2) als Reibungseingriffselement aufweist, wobei die Steuervorrichtung umfasst: eine Speichervorrichtung (46), die so konfiguriert ist, dass sie Relationalregelungsdaten (DR) speichert, die zum Regeln einer Beziehung zwischen einem Zustand des Fahrzeugs (VC) und einem Öldruckbefehlswert verwendet werden, der ein Druck von Öl ist, das dem Automatikgetriebe (26) zugeführt wird, wenn das Reibungseingriffselement, das Gangstufen des Automatikgetriebes (26) schaltet, im Eingriff ist, eine erste Ausführungsvorrichtung (42), die an dem Fahrzeug (VC) montiert ist; und eine zweite Ausführungsvorrichtung (92), die von der ersten Ausführungsvorrichtung (42) getrennt ist, wobei: die erste Ausführungsvorrichtung (42) so konfiguriert ist, dass sie: einen Zustand des Fahrzeugs (VC) erfasst; wenn das Reibungseingriffselement, das die Gangstufen des Automatikgetriebes (26) schaltet, im Eingriff ist, dem Automatikgetriebe (26) Öl so zuführt, dass der Wert des Drucks des zugeführten Öls auf den Öldruckbefehlswert eingestellt wird, der durch den erfassten Zustand des Fahrzeugs (VC) und die Relationalregelungsdaten (DR) bestimmt wird, zumindest eine von der ersten Ausführungsvorrichtung (42) und der zweiten Ausführungsvorrichtung (92) so konfiguriert ist, dass sie: wenn das Reibungseingriffselement im Eingriff ist, als eine bestimmte Variable zumindest eine von einer Variable, die einen Betrag darstellt, um den eine erfasste Eingangsdrehzahl des Automatikgetriebes (26) eine Zieleingangsdrehzahl des Automatikgetriebes (26) überschreitet, einer Variable, die eine Gangschaltzeit von einem Beginn des Schaltens der Gangstufen bis zu einem Beenden des Schaltens darstellt, und einer Variable berechnet, die einen Betrag der in dem Automatikgetriebe (26) erzeugten Wärme darstellt; und eine Belohnung in einer Weise berechnet, in der die Belohnung einen größeren Wert hat, wenn die erfasste bestimmte Variable ein Kriterium erfüllt, als wenn die erfasste bestimmte Variable das Kriterium nicht erfüllt, die zweite Ausführungsvorrichtung (92) so konfiguriert ist, dass sie die Relationalregelungsdaten (DR) durch Eingeben der berechneten Belohnung und des Öldruckbefehlswerts in eine im Voraus bestimmte Aktualisierungsabbildung aktualisiert, wobei die Belohnung berechnet wird, wenn das Reibungseingriffselement im Eingriff ist, und zumindestens eine von der ersten Ausführungsvorrichtung (42) und der zweiten Ausführungsvorrichtung (92) so konfiguriert ist, dass sie eine Drehmomentvariable (TRv) mit einem Wert berechnet, der erhöht wird, wenn ein Änderungsbetrag in einem Eingangsdrehmoment des Automatikgetriebes (26) erhöht wird, wenn das Reibungseingriffselement im Eingriff ist, wobei: die Aktualisierungsabbildung die Relationalregelungsdaten (DR) ausgibt, die aktualisiert werden, um einen erwarteten Gewinn für die Belohnung zu erhöhen, wenn das Reibungseingriffselement gemäß den Relationalregelungsdaten (DR) im Eingriff ist; und die zweite Ausführungsvorrichtung (92) so konfiguriert ist, dass sie, wenn der Änderungsbetrag im Eingangsdrehmoment, der durch die berechnete Drehmomentvariable (TRV) dargestellt wird, gleich oder größer als ein im Voraus bestimmter vorgegebener Wert ist, eine Änderung in den Relationalregelungsdaten (DR) regelt, wobei der Änderungsbetrag im Eingangsdrehmoment berechnet wird, wenn das Reibungseingriffselement im Eingriff ist.
DE102021118282.4A 2020-07-17 2021-07-15 Öldrucklernverfahren eines automatikgetriebes, steuervorrichtung und steuersystem Pending DE102021118282A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020-122833 2020-07-17
JP2020122833A JP7251529B2 (ja) 2020-07-17 2020-07-17 自動変速機の油圧の学習方法、自動変速機の制御装置、自動変速機の制御システム、車両用制御装置および車両用学習装置

Publications (1)

Publication Number Publication Date
DE102021118282A1 true DE102021118282A1 (de) 2022-01-20

Family

ID=79021335

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102021118282.4A Pending DE102021118282A1 (de) 2020-07-17 2021-07-15 Öldrucklernverfahren eines automatikgetriebes, steuervorrichtung und steuersystem

Country Status (4)

Country Link
US (1) US11421781B2 (de)
JP (1) JP7251529B2 (de)
CN (1) CN113944748B (de)
DE (1) DE102021118282A1 (de)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6744597B1 (ja) * 2019-10-18 2020-08-19 トヨタ自動車株式会社 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置
JP7331789B2 (ja) * 2020-06-25 2023-08-23 トヨタ自動車株式会社 車両用制御装置、車両用制御システム、車両用学習装置、および車両用学習方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008025624A (ja) 2006-07-18 2008-02-07 Toyota Motor Corp 自動変速機の制御装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4283970A (en) 1979-07-02 1981-08-18 General Motors Corporation Automatic transmission line pressure control
US5029086A (en) 1988-01-30 1991-07-02 Mazda Motor Corporation Apparatus and method for shift control of automatic transmission
JPH0490935A (ja) * 1990-08-03 1992-03-24 Mazda Motor Corp 自動変速機のライン圧制御装置
JP3414054B2 (ja) 1995-06-12 2003-06-09 日産自動車株式会社 流体作動式摩擦要素の締結制御装置
JP2010134863A (ja) 2008-12-08 2010-06-17 Hitachi Ltd 制御対象の制御入力決定手段
JP4783838B2 (ja) * 2009-03-25 2011-09-28 ジヤトコ株式会社 自動変速機の制御装置
JP4910026B2 (ja) * 2009-09-18 2012-04-04 ジヤトコ株式会社 自動変速機の制御装置及びその学習方法
US9626813B2 (en) * 2015-01-22 2017-04-18 Jatco Ltd Control device for automatic transmission and control method therfor
JP6327275B2 (ja) * 2016-03-22 2018-05-23 トヨタ自動車株式会社 車両の変速制御装置
JP6431561B2 (ja) * 2017-03-31 2018-11-28 本田技研工業株式会社 自動変速機
JP6985217B2 (ja) * 2018-07-09 2021-12-22 株式会社シマノ 制御データ作成装置、コンポーネント制御装置、制御データ作成方法、コンポーネント制御方法、およびコンピュータプログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008025624A (ja) 2006-07-18 2008-02-07 Toyota Motor Corp 自動変速機の制御装置

Also Published As

Publication number Publication date
JP7251529B2 (ja) 2023-04-04
CN113944748A (zh) 2022-01-18
CN113944748B (zh) 2022-12-13
US11421781B2 (en) 2022-08-23
JP2022019162A (ja) 2022-01-27
US20220018433A1 (en) 2022-01-20

Similar Documents

Publication Publication Date Title
DE102021118282A1 (de) Öldrucklernverfahren eines automatikgetriebes, steuervorrichtung und steuersystem
DE102021115778A1 (de) Fahrzeugsteuerungsvorrichtung, fahrzeugsteuerungssytem und fahrzeuglernvorrichtung
DE102021115776A1 (de) Fahrzeugsteuerungsvorrichtung, fahrzeugsteuerungssystem, fahrzeuglernvorrichtung und fahrzeuglernverfahren
DE19963213A1 (de) Verfahren zur Steuerung/Regelung eines Prozesses in einem Kraftfahrzeug und Vorrichtung zur Durchführung des Verfahrens
DE102018102888B4 (de) Drehmomentsicherheit der mpc-basierten antriebsstrangssteuerung
DE102019213973A1 (de) Einrichtung und verfahren zum steuern einer aktualisierung für eine fahrzeugsteuerung und fahrzeug mit denselben
DE102018121793B4 (de) Optimierung des kraftstoffverbrauchs durch luft-pro-zylinder (apc) in der mpc-basierten antriebsstrangsteuerung
DE102017116810B4 (de) Prädiktive tachometerprofil-erzeugung während getriebeschaltvorgängen
WO2013131836A2 (de) Verfahren zur emissionsoptimierung von verbrennungskraftmaschinen
DE102018123818A1 (de) Linearisierter modellbasierter mpc-antriebsstrang
DE102018106044A1 (de) Koordinierung von drehmomentinterventionen in die mpc-basierte antriebsstrangssteuerung
DE102010061208A1 (de) Fahrzeug-Anfahrverfahren unter Verwendung einer Getriebekupplung
DE102012216322A1 (de) Fahrzeugdisplaysystem und Verfahren
CN113586622B (zh) 离合器传递扭矩自学习方法、装置、设备及可读存储介质
DE102019125974A1 (de) System und Verfahren zur Kalibrierung einer Steuervorrichtung zur Steuerung einer Leerlaufdrehzahl
DE102021118058A1 (de) Temperaturabschätzungsvorrichtung für reibeingriffselement
DE102022104158A1 (de) Verfahren zum identifizieren von ausgestaltungsanforderungen an nasskupplungen auf grundlage von stochastischen simulationen
DE102018103113A1 (de) Verfahren zum Betreiben eines Hybridsystems für ein Fahrzeug
WO2008095620A1 (de) Verfahren zur optimierung eines elektronisch gesteuerten automatisch schaltenden getriebes für ein kraftfahrzeug
DE10164479A1 (de) System zur Getriebesteuerung
DE102021114696A1 (de) Steuervorrichtung für gangschaltvorrichtung, steuersystem für gangschaltvorrichtung und externe arithmetische betätigungsvorrichtung
DE102012005197B3 (de) Verfahren zur Optimierung einer Brennkraftmaschine
DE102017113156A1 (de) Antriebssystemsteuerung mit Modell-prädiktiver Steuerung (MPC)
DE10138045B4 (de) Vorrichtung und Verfahren zur CPU-Diagnose
DE102021110821A1 (de) Ölzustand-schätzvorrichtung, fahrzeugsteuerungsvorrichtung, fahrzeugsteuerungssystem, und datenanalyseeinrichtung

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R016 Response to examination communication