DE112019007659T5 - Bildanzeigevorrichtung und Spracherkennungsverfahren dafür - Google Patents

Bildanzeigevorrichtung und Spracherkennungsverfahren dafür Download PDF

Info

Publication number
DE112019007659T5
DE112019007659T5 DE112019007659.0T DE112019007659T DE112019007659T5 DE 112019007659 T5 DE112019007659 T5 DE 112019007659T5 DE 112019007659 T DE112019007659 T DE 112019007659T DE 112019007659 T5 DE112019007659 T5 DE 112019007659T5
Authority
DE
Germany
Prior art keywords
utterance data
data
buffer
display device
image display
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE112019007659.0T
Other languages
English (en)
Inventor
Woo Jin Choi
Sung Eun Kim
Hyun Woo Park
Eun Kyung Jung
Dae Gon Chae
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LG Electronics Inc
Original Assignee
LG Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LG Electronics Inc filed Critical LG Electronics Inc
Publication of DE112019007659T5 publication Critical patent/DE112019007659T5/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3206Monitoring of events, devices or parameters that trigger a change in power modality
    • G06F1/3215Monitoring of peripheral devices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3234Power saving characterised by the action undertaken
    • G06F1/325Power saving in peripheral device
    • G06F1/3265Power saving in display device
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3234Power saving characterised by the action undertaken
    • G06F1/325Power saving in peripheral device
    • G06F1/3278Power saving in modem or I/O interface
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3234Power saving characterised by the action undertaken
    • G06F1/3287Power saving characterised by the action undertaken by switching off individual functional units in the computer system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Abstract

Es werden eine Bildanzeigevorrichtung und ein Spracherkennungsverfahren dafür vorgeschlagen. Die Bildanzeigevorrichtung und ihr Spracherkennungsverfahren speichert empfangene erste Äußerungsdaten in einem ersten Puffer, wenn ein Weckwort aus Äußerungsdaten erkannt wird, speichert zweite Äußerungsdaten, die nacheinander von einem Benutzer geäußert werden, in einem zweiten Puffer, speichert dritte Äußerungsdaten, die nacheinander von dem Benutzer geäußert werden, in einem dritten Puffer, wenn die Verifikation des Weckwortes auf der Grundlage der ersten Äußerungsdaten erfolgreich ist, nachdem das Booten eines Betriebssystems abgeschlossen ist, und verbindet die zweiten geäußerten Daten und die dritten geäußerten Daten, die jeweils in dem zweiten Puffer und dem dritten Puffer gespeichert sind, um eine Spracherkennung für die Äußerungsdaten durchzuführen, die nacheinander von dem Benutzer geäußert werden. Dementsprechend, einschließlich der Befehle, die in Intervallen nach dem Weckwort geäußert werden, können die Befehle des Benutzers, die nacheinander geäußert werden, erkannt werden, so dass ein vorbestimmtes Muster nicht erforderlich ist, damit der Benutzer das Weckwort äußert, und die Befehle und die Spracherkennung mit minimaler Energie durchgeführt werden können.

Description

  • Technisches Gebiet
  • Die vorliegende Offenbarung bezieht sich auf eine Bildanzeigevorrichtung und ein Spracherkennungsverfahren dafür und insbesondere auf eine Bildanzeigevorrichtung und ein Spracherkennungsverfahren dafür mit einer Spracherken n u ngsfu n ktion.
  • Stand der Technik
  • Mit der Entwicklung von Technologie wurden in letzter Zeit in vielen Bereichen verschiedene Dienste eingeführt, bei denen die Spracherkennungstechnologie eingesetzt wird. Die Spracherkennungstechnologie kann eine Reihe von Prozessen zur Erkennung der menschlichen Stimme und zur Umwandlung der Stimme in Textinformationen sein, die von Computern verarbeitet werden können, und Spracherkennungsdienste, die die Spracherkennungstechnologie verwenden, können eine Reihe von Prozessen zur Erkennung von Stimmen eines Benutzers und zur Bereitstellung geeigneter Dienste entsprechend den Stimmen des Benutzers umfassen.
  • In jüngster Zeit wird eine Technologie zur Anwendung von Spracherkennungstechnologie auf Videobildschirme wie Fernsehgeräte entwickelt. Da ein Videobildschirm mit einer solchen Spracherkennungsfunktion auch im ausgeschalteten Zustand ein Weckwort des Benutzers erkennen muss, sollte ein Modul für die Spracherkennung mit Strom versorgt werden.
  • Inzwischen bemühen sich viele Länder auf der ganzen Welt, die Energieverschwendung zu reduzieren, indem sie Vorschriften für die Standby-Leistung elektronischer Geräte ausarbeiten. Da jedoch das Bildanzeigegerät mit der Fernspracherkennungsfunktion auch im ausgeschalteten Zustand Strom für das Spracherkennungsmodul zur Erkennung des Weckworts verbrauchen muss, besteht das Problem, dass es schwierig ist, solche Standby-Stromversorgungsvorschriften zu erfüllen.
  • Offenbarung
  • Technisches Problem
  • Ein Ziel der vorliegenden Offenbarung ist es, eine Bildanzeigevorrichtung und ein Spracherkennungsverfahren dafür bereitzustellen, die geeignet sind, nach einem Weckwort nacheinander geäußerte Befehle eines Benutzers zu erkennen. Ein weiteres Ziel der vorliegenden Offenbarung ist es, eine Bildanzeigevorrichtung und ein Spracherkennungsverfahren mit einer Spracherkennungsfunktion bereitzustellen, die geeignet ist, nacheinander geäußerte Befehle zu erkennen und dabei die Mindestleistungsstandards gemäß den Standby-Leistungsvorschriften zu erfüllen. Ein weiteres Ziel der vorliegenden Offenbarung ist es, eine Bildanzeigevorrichtung und ein Spracherkennungsverfahren bereitzustellen, die in der Lage sind, Äußerungsdaten zu speichern und zu sichern, während ein Datenverlust eines Weckwortes und von einem Benutzer geäußerter Befehle minimiert wird.
  • Technische Lösung
  • Um die oben beschriebenen Probleme zu lösen, weist eine Bildanzeigevorrichtung und ein Spracherkennungsverfahren dafür gemäß einer beispielhaften Ausführungsform der vorliegenden Offenbarung auf: Speichern von empfangenen ersten Äußerungsdaten in einem ersten Puffer, wenn ein Weckwort aus den Äußerungsdaten erkannt wird; Speichern von zweiten Äußerungsdaten, die nacheinander von einem Benutzer geäußert werden, in einem zweiten Puffer; Speichern von dritten Äußerungsdaten, die nacheinander von dem Benutzer geäußert werden, in einem dritten Puffer, wenn eine Verifikation des Weckworts auf der Grundlage der ersten Äußerungsdaten erfolgreich ist, nachdem das Booten eines Betriebssystems abgeschlossen ist; und Durchführen einer Spracherkennung für die von dem Benutzer nacheinander geäußerten Äußerungsdaten durch Verbinden der zweiten Äußerungsdaten und der dritten Äußerungsdaten, die jeweils in dem zweiten Puffer und dem dritten Puffer gespeichert sind.
  • Die Bildanzeigevorrichtung und das Spracherkennungsverfahren gemäß der beispielhaften Ausführungsform der vorliegenden Offenbarung können die Spracherkennung durchführen durch Verbinden der ersten Äußerungsdaten, der zweiten Äußerungsdaten und der dritten Äußerungsdaten, die jeweils in dem ersten Puffer, dem zweiten Puffer und dem dritten Puffer gespeichert sind.
  • Die Bildanzeigevorrichtung und das Spracherkennungsverfahren dafür gemäß der beispielhaften Ausführungsform der vorliegenden Offenbarung können verlorene Audiodaten auf der Grundlage kontinuierlicher Merkmale von zu verbindenden Audiodaten erzeugen, wenn die ersten Äußerungsdaten und die zweiten Äußerungsdaten oder die zweiten Äußerungsdaten und die dritten Äußerungsdaten verbunden werden, und die verlorenen Audiodaten zwischen die ersten Äußerungsdaten und die zweiten Äußerungsdaten oder zwischen die zweiten Äußerungsdaten und die dritten Äußerungsdaten einfügen, wodurch die Äußerungsdaten verbunden werden.
  • In der Bildanzeigevorrichtung und dem Spracherkennungsverfahren dafür gemäß der beispielhaften Ausführungsform der vorliegenden Offenbarung kann die digitale Signalverarbeitungseinheit, die konfiguriert ist, das Weckwort zu erkennen, nach dem Erkennen des Weckworts zurückgesetzt werden und in dem zweiten Puffer die zweiten Äußerungsdaten speichern, die nach dem Weckwort durch einen Mikrocontroller während des Zurücksetzens der digitalen Signalverarbeitungseinheit und des Bootens des Betriebssystems nacheinander geäußert werden.
  • Vorteilhafte Effekte
  • Wie oben beschrieben, können die Bildanzeigevorrichtung und das Spracherkennungsverfahren dafür gemäß der vorliegenden Offenbarung aufeinanderfolgend geäußerte Benutzerbefehle erkennen, einschließlich Befehlen, die in Intervallen nach einem Weckwort geäußert werden, wodurch es nicht notwendig ist, einen Benutzer für ein vorbestimmtes Muster bei der Äußerung des Weckwortes und der Befehle zu fragen. Die Bildanzeigevorrichtung und das Spracherkennungsverfahren dafür gemäß der vorliegenden Offenbarung können Spracherkennung mit nur minimaler Leistung in einem Suspend-Modus-Zustand durchführen, wodurch die minimalen Leistungsstandards in Übereinstimmung mit den Standby-Leistungsvorschriften erfüllt werden können. Die Bildanzeigevorrichtung und das Spracherkennungsverfahren dafür gemäß der vorliegenden Offenbarung können Äußerungsdaten speichern und sichern, während ein Datenverlust von von dem Benutzer geäußerten Weckwörtern und Befehlen minimiert wird.
  • Figurenliste
    • 1 ist ein Steuerblockdiagramm einer Bildanzeigevorrichtung gemäß einer beispielhaften Ausführungsform der vorliegenden Offenbarung.
    • 2 ist eine Ansicht, die ein Verfahren zur Erkennung von Benutzeräußerungsdaten gemäß der beispielhaften Ausführungsform der vorliegenden Offenbarung zeigt.
    • 3 ist eine Ansicht, die ein Verfahren zur Erkennung von Benutzeräußerungsdaten gemäß einer anderen beispielhaften Ausführungsform der vorliegenden Offenbarung zeigt.
    • 4 ist ein Flussdiagramm, das ein Spracherkennungsverfahren der Bildanzeigevorrichtung gemäß der beispielhaften Ausführungsform der vorliegenden Offenbarung veranschaulicht.
    • 5 ist ein Flussdiagramm, das einen Betrieb von jeder Komponente in dem Spracherkennungsverfahren der Bildanzeigevorrichtung gemäß der beispielhaften Ausführungsform der vorliegenden Offenbarung zeigt.
  • Modus für Erfindung
  • Nachfolgend werden bestimmte beispielhafte Ausführungsformen der vorliegenden Offenbarung unter Bezugnahme auf die Zeichnungen beschrieben.
  • Die Vorteile und Merkmale der vorliegenden Offenbarung sowie ein Verfahren zu ihrer Verwirklichung werden durch Bezugnahme auf die unten im Detail beschriebenen beispielhaften Ausführungsformen und die beigefügten Zeichnungen deutlich. Die vorliegende Offenbarung ist jedoch nicht auf die nachstehend beschriebenen beispielhaften Ausführungsformen beschränkt, sondern kann in einer Vielzahl unterschiedlicher Formen umgesetzt werden. Diese beispielhaften Ausführungsformen dienen lediglich dazu, die Offenbarung der vorliegenden Offenbarung zu vervollständigen und dem Fachmann den Umfang der vorliegenden Offenbarung vollständig zu vermitteln, und die vorliegende Offenbarung ist nur durch den Umfang der Ansprüche definiert. Gleiche Bezugsziffern bezeichnen im Allgemeinen gleiche Elemente in der vorliegenden Offenbarung.
  • 1 ist ein Steuerblockdiagramm einer Bildanzeigevorrichtung 100 gemäß der beispielhaften Ausführungsform der vorliegenden Offenbarung. Bezugnehmend auf 1 umfasst die Bildanzeigevorrichtung 100 gemäß der beispielhaften Ausführungsform der vorliegenden Offenbarung: eine Stromversorgungseinheit 10, eine Audioeingangseinheit 20, einen digitalen Signalprozessor (DSP) 30 und einen Mikrocontroller 40, eine Hauptsteuereinheit 50, eine Anzeigeeinheit 60 und eine Audioausgabeeinheit 70.
  • Das Bildanzeigegerät 100 gemäß der beispielhaften Ausführungsform der vorliegenden Offenbarung kann eines von verschiedenen elektronischen Geräten mit einem Anzeigemittel sein. Zum Beispiel kann die Bildanzeigevorrichtung 100 ein elektronisches Gerät wie einen Fernseher, einen Monitor, einen Computer, einen Tablet-PC und ein mobiles Endgerät umfassen, die in der Lage sind, Sendungen zu empfangen. In der vorliegenden beispielhaften Ausführungsform wird ein Fernsehgerät mit einer Rundfunkempfangsfunktion als ein Beispiel für die Bildanzeigevorrichtung 100 beschrieben.
  • Die Stromversorgungseinheit 10 empfängt Wechselstrom (AC) von außen und gibt den Wechselstrom durch Gleichrichtung, Glättung und Umwandlung in Gleichstrom (DC) als Antriebsleistung an eine Vielzahl von Lastmodulen ab. In der vorliegenden Spezifikation wird davon ausgegangen, dass die Bildanzeigevorrichtung 100 in einem Zustand, in dem sie an Wechselstrom angeschlossen ist, drei Stromversorgungszustände hat, darunter: einen Suspend-Modus, einen (warmen) Stand-by-Modus und einen normalen Modus. Die Bedeutung der einzelnen Modi ist wie folgt definiert. Der Suspend-Modus bezieht sich auf einen Zustand minimaler Leistung, in dem die Leistung einer Bildanzeigevorrichtung 100 ausgeschaltet ist, die Leistung einer Hauptsteuereinheit 50, einer Anzeigeeinheit 60 und dergleichen ausgeschaltet sind und die Standby-Leistung nur einer Audioeingabeeinheit 20, einem DSP und einem Mikrocontroller 40 zugeführt wird. Der Standby-Modus bezieht sich auf einen Zustand, in dem die Hauptsteuereinheit 50 mit Strom versorgt wird, nachdem ein Weckwort des Benutzers erkannt wurde, ein Betriebssystem gebootet wird und intern arbeitet, aber die Anzeigeeinheit 60 und eine Audioausgabeeinheit 70 nicht mit Strom versorgt werden. Der Normalmodus bezieht sich auf einen Zustand, in dem die Anzeigeeinheit 60 und die Audioausgabeeinheit 70 nach Erkennung des Weckworts und eines Einschaltbefehls mit Strom versorgt werden, so dass die Bildanzeigevorrichtung 100 normalerweise aktiviert und betrieben wird. Darüber hinaus bezieht sich in der vorliegenden Spezifikation das Weckwort auf Triggerdaten wie „Hi, LG“ als vorbereiteter Befehl zur Aktivierung der Bildanzeigevorrichtung.
  • Wenn sich die Stromversorgung der Bildanzeigevorrichtung 100 in einem ausgeschalteten Zustand befindet (z.B. im Suspend-Modus), während ein Netzstecker eingesteckt ist, versorgt die Stromversorgungseinheit 10 gemäß der beispielhaften Ausführungsform der vorliegenden Offenbarung die Audioeingangseinheit 20, den DSP und den Mikrocontroller 40 mit Standby-Strom, der von einer Wechselstromversorgung zugeführt wird. Wenn die Äußerung eines Weckworts durch den Benutzer erkannt wird, legt die Stromversorgungseinheit 10 Antriebsstrom an die Hauptsteuereinheit 50 an, so dass ein Betriebssystem 51 der Hauptsteuereinheit 50 hochfahren kann. Wenn der Einschaltbefehl eines Benutzers erkannt wird, versorgt die Stromversorgungseinheit 10 die Anzeigeeinheit 60 und die Audioausgabeeinheit 70 mit Strom, damit diese normal arbeiten können.
  • Die Audio-Eingabeeinheit 20 dient zur Erfassung eines Audiosignals, z.B. von Sprachdaten eines Benutzers, und umfasst ein Mikrofon. Die Audioeingangseinheit 20 kann ein externes Audiosignal über das Mikrofon empfangen und das Audiosignal als elektrische Sprachdaten verarbeiten. Die Audioeingangseinheit 20 empfängt ein analoges Audiosignal und wandelt das empfangene analoge Audiosignal in ein digitales Audiosignal um. Die Audioeingangseinheit 20 kann mindestens ein oder mehrere Mikrofone enthalten, die an einer Vorderseite oder an einer Seite der Bildanzeigevorrichtung 100 angebracht sind.
  • Der digitale Signalprozessor 30 dient zur Erkennung eines Weckwortes durch Empfang von Benutzeräußerungsdaten, die von der Audioeingabeeinheit 20 empfangen werden, und speichert vorübergehend erste Äußerungsdaten, die von der Audioeingabeeinheit 20 empfangen werden, in einem ersten Puffer. Der digitale Signalprozessor 30 wird als Mittel zur Erkennung des Weckwortes des Benutzers im Suspend-Modus-Zustand verwendet und kann im Normal-Modus-Zustand andere Funktionen wie die Frequenzumwandlung eines Audiosignals und ähnliches durchführen. Der digitale Signalprozessor 30 wird nach der Erkennung des Weckworts zurückgesetzt.
  • Wenn der digitale Signalprozessor 30 ein Weckwort erkennt, steuert der Mikrocontroller 40 das Betriebssystem 51 der Leistungssteuerungseinheit zum Hochfahren, indem er einen ersten Befehl, z.B. ein Einschaltsignal, ausgibt, und setzt den digitalen Signalprozessor 30 zurück. In der Zwischenzeit empfängt der Mikrocontroller 40 über die Audioeingangseinheit 20 nacheinander geäußerte zweite Sprachdaten und speichert die empfangenen zweiten Sprachdaten vorübergehend in einem zweiten Puffer.
  • Da der digitale Signalprozessor 30 durch einen Reset-Befehl des Mikrocontrollers 40 zusammen mit dem Booten des Betriebssystems nach dem Erkennen eines Weckworts initialisiert wird, kann er die Funktion des Speicherns der nach dem Weckwort fortlaufend geäußerten Äußerungsdaten des Benutzers nicht ausführen. Außerdem kann das Betriebssystem 51 der Hauptsteuereinheit 50, das später beschrieben wird, während des Bootens keine Äußerungsdaten speichern. In der Zwischenzeit können der digitale Signalprozessor 30 und die Hauptsteuereinheit 50 komplexe Operationen wie die Spracherkennung durchführen, aber der Mikrocontroller 40 kann in der Lage sein, die Rolle der Datenspeicherung zu übernehmen, obwohl seine Prozessorleistung nicht ausreicht, um die Spracherkennung durchzuführen, daher ermöglicht es die Ausführungsform der vorliegenden Offenbarung dem Mikrocontroller 40, die aufeinanderfolgend geäußerten zweiten Äußerungsdaten des Benutzers vorübergehend zu speichern, wenn er sich in einem Abschnitt befindet, in dem der digitale Signalprozessor 30 und die Hauptsteuereinheit 50 aufgrund des Zurücksetzens und Bootens nicht in der Lage sind, zu arbeiten, wodurch der nach dem Weckwort aufeinanderfolgend geäußerte Befehl des Benutzers gespeichert werden kann. In diesem Fall können die Anzeigen des Mikrocontrollers 40 dazu bestimmt sein, im digitalen Signalprozessor 30 und in der Hauptsteuereinheit 50 zu dienen.
  • Die Hauptsteuereinheit 50 ist für die Gesamtsteuerung der Bildanzeigevorrichtung 100 durch einen Benutzerbefehl oder ein internes Programm verantwortlich. Die Hauptsteuereinheit 50 kann ein Videosignal und/oder ein Audiosignal, die von der Signalempfangseinheit (nicht gezeigt) empfangen werden, entsprechend einem Bildwiedergabebefehl von einem Benutzer verarbeiten und das Videosignal und/oder Audiosignal steuern, um jeweils das Videosignal und/oder Audiosignal an die Anzeigeeinheit 60 und/oder die Audioausgabeeinheit 70 auszugeben. Die Steuereinheit kann so implementiert werden, dass sie Folgendes umfasst: einen Programmcode zur Signalverarbeitung und -steuerung; einen Speicher zum Speichern des Programmcodes und einen Prozessor, der den Programmcode ausführt; und verschiedene Betriebssysteme (OS), Middleware, Plattformen und verschiedene Anwendungen. Darüber hinaus enthält die Hauptsteuereinheit 50 ein Signalverarbeitungsmodul und einen Algorithmus zur Spracherkennung.
  • Die Hauptsteuereinheit 50 enthält ein Betriebssystem 51 (z.B. webOS), wobei das Betriebssystem 51 nicht nur die Systemhardware verwaltet, sondern auch eine Hardware-Abstraktionsplattform und gemeinsame Systemdienste bereitstellt, um Anwendungssoftware auszuführen. Das in der Hauptsteuereinheit 50 gespeicherte Betriebssystem 51 wird als Reaktion auf einen ersten Befehl des Mikrocontrollers 40 gebootet, z.B. ein Einschaltsignal in einem ausgeschalteten Zustand. Wenn der Bootvorgang abgeschlossen ist, empfängt das Betriebssystem 51 der Hauptsteuereinheit 50 die vom digitalen Signalprozessor 30 gespeicherten ersten Sprachdaten und verifiziert ein Weckwort durch die Spracherkennungsfunktion. Als Reaktion auf den ersten Befehl des Mikrocontrollers 40, z.B. das Einschaltsignal, versorgt die Stromversorgungseinheit 10 die Hauptsteuereinheit 50 mit Antriebsenergie, und die Bildanzeigevorrichtung 100 wird vom Suspend-Modus in den (warmen) Stand-by-Modus geschaltet.
  • Wenn es dem Betriebssystem 51 der Hauptsteuereinheit 50 gelingt, das Weckwort zu verifizieren, wird das Betriebssystem 51 mit den zweiten Äußerungsdaten versorgt, die vorübergehend im zweiten Puffer gespeichert sind, und empfängt auch in Echtzeit aufeinanderfolgend geäußerte dritte Äußerungsdaten über die Audioeingabeeinheit 20, wodurch die dritten Äußerungsdaten vorübergehend im dritten Puffer gespeichert werden. Das Betriebssystem 51 der Hauptsteuereinheit 50 verknüpft die im ersten Puffer gespeicherten ersten Äußerungsdaten, die im zweiten Puffer gespeicherten zweiten Äußerungsdaten und die im dritten Puffer gespeicherten dritten Äußerungsdaten, um eine Spracherkennung, d.h. eine Erkennung von Benutzerbefehlen, durchzuführen. Die Hauptsteuereinheit 50 steuert die Bildanzeigevorrichtung 100 in Reaktion auf einen durch die Spracherkennung erkannten Benutzerbefehl. Wenn zum Beispiel festgestellt wird, dass der Einschaltbefehl des Benutzers über die Spracherkennung eingegeben wird, legt die Hauptsteuereinheit 50 ein Steuersignal an die Stromversorgungseinheit 10 an und steuert die der Anzeigeeinheit 60 und der Audioausgabeeinheit 70 zuzuführende Antriebsenergie. Das heißt, wenn der Einschaltbefehl des Benutzers erkannt wird, wird der Zustand der Bildanzeigevorrichtung 100 vom Stand-by-Modus in den Normalmodus umgeschaltet. In der Hauptsteuereinheit 50 hingegen wird die Hauptsteuereinheit 50 ausgeschaltet und die Bildanzeigevorrichtung 100 in den Standby-Modus zurückgeschaltet, wenn die Verifizierung des Weckwortes fehlschlägt oder der Einschaltbefehl nicht vom Benutzer eingegeben wird.
  • Die digitale Signalverarbeitungseinheit 30, der Mikrocontroller 40 und die Hauptsteuereinheit 50 (mit dem Betriebssystem 51) gemäß der beispielhaften Ausführungsform der vorliegenden Offenbarung sind jeweils ein System, in dem jedes Modul unabhängig ist, und jedes System umfasst einen separaten Bootbereich und einen Datenbereich, der Daten speichern kann. Wie oben beschrieben, bezieht sich der erste Puffer auf einen Speicherbereich, auf den die digitale Signalverarbeitungseinheit 30 zugreift, der zweite Puffer bezieht sich auf einen Speicherbereich, auf den der Mikrocontroller 40 zugreift, und der dritte Puffer bezieht sich auf einen Speicherbereich, auf den die Hauptsteuereinheit 50 (z.B. das Betriebssystem 51) zugreift. Der erste Puffer, der zweite Puffer und der dritte Puffer können jeweils ein Teil des Speicherbereichs sein, der innerhalb oder außerhalb der digitalen Signalverarbeitungseinheit 30, des Mikrocontrollers 40 und der Hauptsteuereinheit 50 (mit OS 51) bereitgestellt wird. Die digitale Signalverarbeitungseinheit 30, der Mikrocontroller 40 und die Hauptsteuereinheit 50 gemäß der beispielhaften Ausführungsform der vorliegenden Offenbarung können separat konfiguriert werden, können aber durch Integration in einen Chip in Form eines Hauptsystems auf einem Chip (SoC) implementiert werden.
  • Die Anzeigeeinheit 60 dient zum Empfang eines von der Hauptsteuereinheit 50 verarbeiteten Bildes und zur Anzeige des Bildes auf einem Bildschirm und kann durch ein Flüssigkristallanzeigefeld (LCD), ein Leuchtdiodenfeld (LED), ein organisches Leuchtdiodenfeld (OLED) oder Ähnliches realisiert werden. Die Anzeigeeinheit 60 umfasst ein Anzeigemodul zur Anzeige von Bildern und einen Anzeigetreiber zur Ansteuerung des Anzeigemoduls.
  • Die Audio-Ausgabeeinheit 70 dient zum Empfang und zur Ausgabe eines von der Hauptsteuereinheit 50 verarbeiteten Audiosignals und kann verschiedene Arten von Lautsprechern umfassen.
  • 2 ist eine Ansicht, die das Verfahren zur Erkennung von Benutzeräußerungsdaten gemäß der beispielhaften Ausführungsform der vorliegenden Offenbarung zeigt. Bezug nehmend auf 2, illustriert 2(a) ein Beispiel der Äußerungsdaten des Benutzers, die durch die Audioeingabeeinheit 20 empfangen werden, und illustriert die ersten Äußerungsdaten, die in dem ersten Puffer durch die digitale Signalverarbeitungseinheit 30 gespeichert werden, die zweiten Äußerungsdaten, die in dem zweiten Puffer durch den Mikrocontroller 40 gespeichert werden, und die dritten Äußerungsdaten, die in dem dritten Puffer durch das Betriebssystem 51 der Hauptsteuereinheit 50 gespeichert werden. Das Betriebssystem 51 der Hauptsteuereinheit 50 erhält die ersten Äußerungsdaten und die zweiten Äußerungsdaten, die jeweils von der digitalen Signalverarbeitungseinheit 30 und dem Mikrocontroller 40 gesendet werden, und verbindet die ersten und zweiten Äußerungsdaten mit den dritten Äußerungsdaten, die vom Betriebssystem 51 selbst gespeichert werden.
  • Die ersten Äußerungsdaten beziehen sich auf Daten, die kontinuierlich von der Audioeingangseinheit 20 durch die digitale Signalverarbeitungseinheit 30 empfangen und bis zu einem Zeitpunkt gepuffert werden, an dem ein Weckwort erkannt wird. Die zweiten Äußerungsdaten beziehen sich auf Daten, die vom Mikrocontroller 40 ab einem Zeitpunkt unmittelbar nach der Erkennung des Weckwortes bis zu einem Zeitpunkt gepuffert werden, an dem die Hauptsteuereinheit 50 die Daten vom Mikrocontroller 40 anfordert. Die dritten Äußerungsdaten beziehen sich auf Daten, die in Echtzeit von der Audioeingabeeinheit 20 ab einem Zeitpunkt übertragen werden, an dem die Hauptsteuereinheit 50 die Daten vom Mikrocontroller 40 anfordert.
  • Da in diesem Fall eine Hauptinstanz, die für die zeitliche Speicherung der Äußerungsdaten des Benutzers verantwortlich ist, nacheinander von der digitalen Signalverarbeitungseinheit 30 auf den Mikrocontroller 40 und auf das Betriebssystem 51 der Hauptsteuereinheit 50 umgeschaltet wird, kommt es zum Zeitpunkt des Umschaltens zu einem Datenverlust zwischen den Teilen der vorübergehend gespeicherten Äußerungsdaten. Wenn die ersten Äußerungsdaten und die zweiten Äußerungsdaten zusammengefügt werden oder die zweiten Äußerungsdaten und die dritten Äußerungsdaten zusammengefügt werden, erzeugt das Betriebssystem 51 der Hauptsteuereinheit 50 verlorene Audiodaten auf der Grundlage der kontinuierlichen Eigenschaften der zusammenzufügenden Audiodaten und fügt die verlorenen Audiodaten zwischen den ersten Äußerungsdaten und den zweiten Äußerungsdaten oder zwischen den zweiten Äußerungsdaten und den dritten Äußerungsdaten ein.
  • 2(b) zeigt erste Verbindungsdaten, die zwischen den ersten Äußerungsdaten und den zweiten Äußerungsdaten eingefügt sind, und zweite Verbindungsdaten, die zwischen den zweiten Äußerungsdaten und den dritten Äußerungsdaten eingefügt sind. Der Datenverlust zum Zeitpunkt des Umschaltens beträgt etwa 10 Samples oder weniger. Die Ausführungsform der vorliegenden Offenbarung ermöglicht es dem Mikrocontroller 40, eine Pufferfunktion für die aufeinanderfolgenden Äußerungsdaten auszuführen, um den Datenverlust zum Zeitpunkt des Umschaltens zu minimieren und die verlorenen Daten entsprechend den Eigenschaften des zu verbindenden Audios zu erzeugen und hinzuzufügen, wodurch die Leistung der Spracherkennung weiter verbessert werden kann.
  • 2(c) zeigt einen Audiostrom, in dem die ersten Äußerungsdaten, die zweiten Äußerungsdaten und die dritten Äußerungsdaten mit den jeweiligen Verbindungsdaten verbunden sind. 2(d) zeigt das Ergebnis der Spracherkennungsleistung auf dem zusammengeführten Audiostrom durch die Hauptsteuereinheit 50. Als Ergebnis der Spracherkennung, wenn die Stimmen als „Hi, LG. Schalte den Fernseher an“ erkannt werden, entspricht das „Hi, LG“ einem Weckwort und „ Schalte den Fernseher an“ einem Befehl. Zu einem Zeitpunkt, zu dem der Befehl „ Schalte den Fernseher an“ erkannt wird, stoppt die Hauptsteuereinheit 50 die Übertragung des Audiostroms der Audioeingangseinheit 20 und gibt ein Einschaltsignal an die Stromversorgungseinheit 10 aus, um die Stromversorgungseinheit 10 so zu steuern, dass sie die Anzeigeeinheit 60 und die Audioausgangseinheit 70 mit Antriebsenergie versorgt.
  • Da das Audiosignal während des Zurücksetzens der digitalen Signalverarbeitungseinheit 30 und des Bootens des Betriebssystems nicht gespeichert werden kann, können die Befehle, die nach einem Weckwort nacheinander geäußert werden, üblicherweise nicht erkannt werden. Dementsprechend wird, wenn ein Benutzer das Weckwort ausspricht, ein Signal wie „Ting-a-ling“, das eine Art Rückmeldung ist, nach dem Erfassen des Weckwortes in der Bildanzeigevorrichtung 100 ausgegeben, so dass ein Befehl wie „Schalten Sie den Fernseher ein“ geäußert wird, nachdem der Benutzer das „Ting-a-ling“-Rückmeldesignal hört, wodurch der Befehl erkannt wird. Dementsprechend ist ein solches herkömmliches Spracherkennungssystem nicht in der Lage, die Befehle des Benutzers zu erkennen, die nach dem Weckwort nacheinander geäußert werden. Da das herkömmliche Betriebssystem 51 der Hauptsteuereinheit 50 beispielsweise nicht in der Lage ist, die Daten zu „Schalte den Fernseher an“ zu speichern, die vom Mikrocontroller 40 in 2 zwischengespeichert wurden, erkennt es nur „Hi, LG. TV“ und ist daher nicht in der Lage, den Befehl ordnungsgemäß auszuführen. Die Ausführungsform der vorliegenden Offenbarung ermöglicht es dem Mikrocontroller 40, die Funktion der Datenspeicherung während des Zurücksetzens der digitalen Signalverarbeitungseinheit 30 und des Bootens des Betriebssystems auszuführen, so dass der „Schalte den“-Teil, der nach dem Aussprechen des Weckworts nacheinander ausgesprochen wird, auch gespeichert werden kann, ohne verloren zu gehen, und somit kann der Befehl des Benutzers richtig erkannt werden.
  • 3 ist eine Ansicht, die das Verfahren zur Erkennung von Benutzeräußerungsdaten gemäß einer anderen beispielhaften Ausführungsform der vorliegenden Offenbarung zeigt. In der oben beschriebenen beispielhaften Ausführungsform wurde beschrieben, dass die Spracherkennung durch Verbinden aller ersten Äußerungsdaten, der zweiten Äußerungsdaten und der dritten Äußerungsdaten durchgeführt wird, aber da die Erkennung des Weckworts und die Verifizierung anhand der ersten Äußerungsdaten abgeschlossen sind, können nur die zweiten Äußerungsdaten und die dritten Äußerungsdaten mit Ausnahme der ersten Äußerungsdaten verbunden werden, um einen nach dem Weckwort nacheinander geäußerten Benutzerbefehl ebenfalls zu erkennen. Eine doppelte Beschreibung wird weggelassen.
  • Bezugnehmend auf 3 erzeugt die Hauptsteuereinheit 50 zweite Verbindungsdaten und verbindet diese mit den zweiten Äußerungsdaten, die vom Mikrocontroller 40 gepuffert werden, und den dritten Äußerungsdaten, die in Echtzeit von der Hauptsteuereinheit 50 selbst gepuffert werden, um die gesamten Äußerungsdaten zu verbinden und eine Spracherkennung durchzuführen. Die Hauptsteuereinheit 50 führt die Spracherkennung durch, stoppt die Audiostromübertragung der Audioeingangseinheit 20 zu einem Zeitpunkt, zu dem „Schalte den Fernseher ein“ erkannt wird, und gibt ein Einschaltsignal an die Stromversorgungseinheit 10 aus, um die Stromversorgungseinheit 10 so zu steuern, dass sie die Anzeigeeinheit 60 und die Audioausgabeeinheit 70 mit Antriebsenergie versorgt.
  • 4 ist ein Flussdiagramm, das das Spracherkennungsverfahren der Bildanzeigevorrichtung 100 gemäß der beispielhaften Ausführungsform der vorliegenden Offenbarung illustriert. Bezugnehmend auf 4 arbeitet die Bildanzeigevorrichtung 100 in einem Zustand, in dem sie ausgeschaltet ist und sich im Suspend-Modus befindet, in einem minimalen Energiesparmodus, d.h. in einem Zustand, in dem die Energie nur in die Audioeingabeeinheit 20, die digitale Signalverarbeitungseinheit 30 und den Mikrocontroller 40 eingegeben wird. In Schritt S10 empfängt die Audioeingabeeinheit 20 Äußerungsdaten vom Benutzer. Wenn die vom Benutzer empfangenen Äußerungsdaten gepuffert werden und eine Spracherkennung durchgeführt wird, um ein Weckwort zu erkennen, z.B. „Hallo, LG. “ in Schritt S11, werden die erkannten ersten Äußerungsdaten in einem ersten Puffer in Schritt S12 gespeichert. Nachdem das Weckwort erkannt wurde, werden das Booten des Betriebssystems und das Zurücksetzen der digitalen Signalverarbeitungseinheit 30 durchgeführt, und die Bildanzeigevorrichtung 100 wird entsprechend dem Booten des Betriebssystems von einem Suspend-Modus in einen (warmen) Stand-by-Modus geschaltet. In diesem Fall erhält der Mikrocontroller 40 in Schritt S13 eine Datenspeicherfunktion und speichert in einem zweiten Puffer vorübergehend die zweiten Äußerungsdaten, die nach dem Weckwort nacheinander geäußert werden.
  • In einem Fall, in dem das Booten des Betriebssystems in Schritt S14 abgeschlossen ist, wird die Hauptsteuereinheit 50 mit den von der digitalen Signalverarbeitungseinheit 30 gespeicherten ersten Äußerungsdaten versorgt und verifiziert das Weckwort in Schritt S15. In einem Fall, in dem die Verifizierung des Weckworts in Schritt S16 erfolgreich ist, puffert die Hauptsteuereinheit 50 in Schritt S18 die aufeinanderfolgend geäußerten dritten Äußerungsdaten in Echtzeit in dem dritten Puffer. Falls die Verifizierung des Weckworts in Schritt S17 nicht erfolgreich ist, wird der Zustand der Bildanzeigevorrichtung 100 in Schritt S17 vom (warmen) Standby-Modus in den Suspend-Modus umgeschaltet.
  • Wenn die Überprüfung des Weckworts erfolgreich war, fordert die Hauptsteuereinheit 50 die gepufferten Daten vom Mikrocontroller 40 an, um zweite Äußerungsdaten zu erhalten, und führt eine Spracherkennung durch, indem sie die zweiten Äußerungsdaten mit den dritten Äußerungsdaten verbindet, die im Schritt S19 in Echtzeit gepuffert werden. Der Mikrocontroller 40 beendet die Pufferung als Reaktion auf die Anforderung der gepufferten Daten von der Hauptsteuereinheit 50 und überträgt die entsprechenden Daten an die Hauptsteuereinheit 50. In einem Fall, in dem ein Einschaltbefehl des Benutzers, z.B. „Schalte den Fernseher ein“, als Ergebnis der Durchführung der Spracherkennung der zusammengeführten Sprachdaten in Schritt 20 erkannt wird, gibt die Hauptsteuereinheit 50 ein Einschaltsignal an die Stromversorgungseinheit 10 der Bildanzeigevorrichtung 100 aus, um die Anzeigeeinheit 60 und die Audioausgabeeinheit 70 mit Antriebsenergie zu versorgen, wodurch die Bildanzeigevorrichtung 100 in Schritt S21 in den Normalmodus geschaltet werden kann.
  • 5 ist ein Flussdiagramm, das den Betrieb der einzelnen Komponenten des Spracherkennungsverfahrens der Bildanzeigevorrichtung 100 gemäß der beispielhaften Ausführungsform der vorliegenden Offenbarung zeigt. Bezugnehmend auf 5 empfängt das Mikrofon 21 in Schritt S200 kontinuierlich Audiodaten. In Schritt S300 werden erste Äußerungsdaten, die zum ersten Mal geäußert werden, an die digitale Signalverarbeitungseinheit 30 übertragen, und die digitale Signalverarbeitungseinheit 30 puffert die ersten Äußerungsdaten, die über die Audioeingabeeinheit 20 in den ersten Puffer eingegeben werden, und erkennt ein Weckwort. In S400 überträgt die digitale Signalverarbeitungseinheit 30 in einem Fall, in dem das Weckwort detektiert wird, ein Signal oder einen Pufferungsbefehl, der mitteilt, dass das Weckwort detektiert wird, an den Mikrocontroller 40, und der Mikrocontroller 40 gibt als Reaktion auf die Detektion des Weckworts durch die digitale Signalverarbeitungseinheit 30 ein Einschaltsignal an die Hauptsteuereinheit 50 aus, um das Betriebssystem 51 zum Booten zu befähigen, und während des Anlegens eines Rücksetzsignals an die digitale Signalverarbeitungseinheit 30 zur Initialisierung speichert der Mikrocontroller 40 vorübergehend zweite Äußerungsdaten, die nach dem Weckwort nacheinander geäußert werden, in dem zweiten Puffer.
  • Wenn das Booten des Betriebssystems 51 in der Hauptsteuereinheit 50 in Schritt S500 abgeschlossen ist, aktiviert das Betriebssystem 51 die Spracherkennungsfunktion, fordert ein Triggersignal, d.h. die ersten Äußerungsdaten einschließlich des Weckworts, von der digitalen Signalverarbeitungseinheit 30 an und empfängt die ersten Äußerungsdaten, um das Weckwort in Schritt S501 zu verifizieren. In Schritt S401 fordert das Betriebssystem 51 in einem Fall, in dem die Verifizierung des Weckworts erfolgreich ist, die zweiten Äußerungsdaten vom Mikrocontroller 40 an, und als Reaktion auf diese Anforderung beendet der Mikrocontroller 40 die Pufferung und liefert die zweiten Äußerungsdaten an die Hauptsteuereinheit 50.
  • In der Zwischenzeit fordert die Hauptsteuereinheit 50 die vom Mikrofon 21 erfassten dritten Äußerungsdaten an, empfängt die dritten Äußerungsdaten in Echtzeit und speichert die dritten Äußerungsdaten im dritten Puffer in Schritt S502 und verbindet die zweiten Äußerungsdaten, die vorübergehend im Mikrocontroller 40 gespeichert sind, mit den dritten Äußerungsdaten, die in Echtzeit gepuffert wurden, um die Spracherkennung in Schritt S503 durchzuführen. Wenn der Einschaltbefehl wie „Schalte den Fernseher ein“ durch die Spracherkennung erkannt wird, ermöglicht die Hauptsteuereinheit 50 dem Fernseher, in den normalen Modus zu wechseln. Wenn hingegen die Verifizierung des Einschaltbefehls fehlschlägt oder die Erkennung des Benutzerbefehls fehlschlägt, ermöglicht die Hauptsteuereinheit 50 dem Videoanzeigegerät 100, in den Suspend-Modus zu wechseln.
  • In der Zwischenzeit kann das Betriebsverfahren der Bildanzeigevorrichtung 100 der vorliegenden Offenbarung als prozessorlesbare Codes auf einem prozessorlesbaren Aufzeichnungsmedium implementiert werden, das in der Bildanzeigevorrichtung 100 vorgesehen ist. Das prozessorlesbare Aufzeichnungsmedium umfasst alle Arten von Aufzeichnungsgeräten, in denen vom Prozessor lesbare Daten gespeichert sind. Beispiele für das prozessorlesbare Aufzeichnungsmedium sind ROM, RAM, CD-ROM, Magnetband, Disketten, optische Datenspeicher und dergleichen, aber auch solche, die in Form von Trägerwellen, z.B. über das Internet, übertragen werden. Darüber hinaus ist das prozessorlesbare Aufzeichnungsmedium in einem Computersystem verteilt, das mit einem Netzwerk verbunden ist, so dass der prozessorlesbare Code in einem verteilten Verfahren gespeichert und ausgeführt werden kann.
  • Darüber hinaus wurden im Vorstehenden die bevorzugten beispielhaften Ausführungsformen der vorliegenden Offenbarung illustriert und beschrieben, doch ist die vorliegende Offenbarung nicht auf die oben beschriebenen spezifischen beispielhaften Ausführungsformen beschränkt. In der vorliegenden Offenbarung können verschiedene Modifikationen von den Fachleuten auf dem Gebiet, zu dem die vorliegende Offenbarung gehört, möglich sein, ohne von dem Geist der vorliegenden Offenbarung, der in den Ansprüchen beansprucht wird, abzuweichen, und diese Modifikationen sollten nicht einzeln von den technischen Ideen oder der Aussicht der vorliegenden Offenbarung verstanden werden.

Claims (15)

  1. Bildanzeigevorrichtung, aufweisend: eine Audioeingabeeinheit, die konfiguriert ist, Äußerungsdaten zu empfangen; eine digitale Signalverarbeitungseinheit, die konfiguriert ist, erste Äußerungsdaten von der Audioeingabeeinheit zu empfangen, ein Weckwort zu erkennen und erste Äußerungsdaten vorübergehend in einem ersten Puffer zu speichern; einen Mikrocontroller, der konfiguriert ist, einen ersten Befehl entsprechend einer Erkennung des Weckworts durch die digitale Signalverarbeitungseinheit auszugeben, aufeinanderfolgende geäußerte zweite Äußerungsdaten über die Audioeingabeeinheit zu empfangen und die zweiten Äußerungsdaten vorübergehend in einem zweiten Puffer zu speichern; und eine Hauptsteuereinheit, die konfiguriert ist, als Reaktion auf den ersten Befehl hochzufahren, das Weckwort auf der Grundlage der ersten Äußerungsdaten zu verifizieren und die zweiten Äußerungsdaten zu empfangen, die vorübergehend in dem zweiten Puffer gespeichert sind, um eine Spracherkennung durchzuführen.
  2. Bildanzeigevorrichtung nach Anspruch 1, wobei, wenn eine Verifikation des Weckworts erfolgreich ist, die Hauptsteuereinheit aufeinanderfolgende geäußerte dritte Äußerungsdaten über die Audioeingabeeinheit empfängt und die dritten Äußerungsdaten und die zweiten Äußerungsdaten, die in dem zweiten Puffer gespeichert sind, zusammenführt, um die Spracherkennung durchzuführen.
  3. Bildanzeigevorrichtung nach Anspruch 2, wobei die Hauptsteuereinheit die dritten Äußerungsdaten in einem dritten Puffer speichert und die ersten geäußerten Daten, die zweiten geäußerten Daten und die dritten geäußerten Daten, die jeweils in dem ersten Puffer, dem zweiten Puffer und dem dritten Puffer gespeichert sind, zusammenführt, um die Spracherkennung durchzuführen.
  4. Bildanzeigevorrichtung nach Anspruch 3, wobei die Hauptsteuereinheit beim Verbinden der ersten Äußerungsdaten und der zweiten Äußerungsdaten oder beim Verbinden der zweiten Äußerungsdaten und der dritten Äußerungsdaten verlorene Audiodaten auf der Grundlage kontinuierlicher Merkmale von zu verbindenden Audiodaten erzeugt, um die verlorenen Audiodaten zwischen den ersten Äußerungsdaten und den zweiten Äußerungsdaten oder zwischen den zweiten Äußerungsdaten und den dritten Äußerungsdaten einzufügen.
  5. Bildanzeigevorrichtung nach einem der Ansprüche 1 bis 4, ferner aufweisend: eine Stromversorgungseinheit, die konfiguriert ist, die Audioeingangseinheit, die digitale Signalverarbeitungseinheit, den Mikrocontroller und die Hauptsteuereinheit mit Strom zu versorgen; und eine Anzeigeeinheit, die konfiguriert ist, ein Bild anzuzeigen, wobei die Stromversorgungseinheit die Audioeingangseinheit, die digitale Signalverarbeitungseinheit und den Mikrocontroller in einem Suspend-Modus-Zustand mit Antriebsstrom versorgt und den Antriebsstrom an die Hauptsteuereinheit als Reaktion auf den ersten Befehl des Mikrocontrollers zuführt, und wobei die Hauptsteuereinheit die Stromversorgungseinheit steuert, um der Anzeigeeinheit den Antriebsstrom zuzuführen, wenn sie erkennt, dass ein Stromeinschaltbefehl von einem Benutzer in Reaktion auf ein Spracherkennungsergebnis eingegeben worden ist.
  6. Bildanzeigevorrichtung nach Anspruch 5, wobei die digitale Signalverarbeitungseinheit, wenn das Weckwort erkannt wird, ein Weckworterkennungssignal an den Mikrocontroller sendet, und der Mikrocontroller als Reaktion auf die Erkennung des Weckworts einen Rücksetzbefehl an die digitale Signalverarbeitungseinheit sendet und den ersten Befehl an die Hauptsteuereinheit ausgibt.
  7. Bildanzeigevorrichtung nach Anspruch 6, wobei die Bildanzeigevorrichtung als Reaktion auf den ersten Befehl des Mikrocontrollers aus dem Suspend-Modus-Zustand in einen Standby-Modus-Zustand geschaltet wird.
  8. Bildanzeigevorrichtung nach Anspruch 7, wobei, wenn die Hauptsteuereinheit erkennt, dass der Stromeinschaltbefehl von dem Benutzer eingegeben worden ist, die Bildanzeigevorrichtung von dem Standby-Modus-Zustand in den Normal-Modus-Zustand geschaltet wird, und das Bildanzeigegerät von dem Standby-Modus-Zustand in den Suspend-Modus-Zustand geschaltet wird, wenn das Weckwort die Verifikation nicht besteht oder der Stromeinschaltbefehl des Benutzers nicht als Eingabe erkannt wird.
  9. Verfahren zur Spracherkennung einer Bildanzeigevorrichtung, wobei das Verfahren umfasst: Empfangen von Äußerungsdaten von einem Benutzer; Speichern von empfangenen ersten Äußerungsdaten in einem ersten Puffer, wenn ein Weckwort aus den Äußerungsdaten erkannt wird; Senden eines Einschaltsignals für ein Betriebssystem entsprechend der Erkennung des Weckworts und Speichern von zweiten Äußerungsdaten, die nacheinander von dem Benutzer geäußert werden, in einem zweiten Puffer; Verifizieren der Erkennung des Weckworts auf der Grundlage der ersten Äußerungsdaten, wenn das Booten des Betriebssystems abgeschlossen ist; Speichern von dritten Äußerungsdaten, die nacheinander von dem Benutzer geäußert werden, in einem dritten Puffer, wenn die Verifikation des Weckworts in dem Betriebssystem erfolgreich ist; und Durchführen von Spracherkennung durch Zusammenfügen der zweiten Äußerungsdaten und der dritten Äußerungsdaten, die jeweils in dem zweiten und dritten Puffer gespeichert sind.
  10. Verfahren nach Anspruch 9, ferner umfassend: Umschalten der Bildanzeigevorrichtung von einem Suspend-Modus-Zustand in einen Standby-Modus-Zustand entsprechend dem Einschaltsignal des Betriebssystems.
  11. Verfahren nach Anspruch 10, wobei das Durchführen der Spracherkennung die Spracherkennung durch Verbinden der ersten Äußerungsdaten, der zweiten Äußerungsdaten und der dritten Äußerungsdaten, die jeweils in dem ersten Puffer, dem zweiten Puffer und dem dritten Puffer gespeichert sind, durchführt.
  12. Verfahren nach Anspruch 11, wobei beim Verbinden der ersten Äußerungsdaten und der zweiten Äußerungsdaten oder beim Verbinden der zweiten Äußerungsdaten und der dritten Äußerungsdaten das Durchführen der Spracherkennung verlorene Audiodaten auf der Grundlage kontinuierlicher Merkmale der zu verbindenden Audiodaten erzeugt, um die verlorenen Audiodaten zwischen den ersten Äußerungsdaten und den zweiten Äußerungsdaten oder zwischen den zweiten Äußerungsdaten und den dritten Äußerungsdaten einzufügen.
  13. Verfahren nach Anspruch 11, wobei die digitale Signalverarbeitungseinheit zur Durchführung der Erkennung des Weckwortes nach der Erkennung des Weckwortes zurückgesetzt wird, und das Speichern der zweiten Äußerungsdaten in dem zweiten Puffer von einem Mikrocontroller durchgeführt wird, wenn die digitale Signalverarbeitungseinheit zurückgesetzt und das Betriebssystem hochgefahren wird.
  14. Verfahren nach Anspruch 12, ferner umfassend: Umschalten von dem Standby-Modus-Zustand in einen normalen Modus-Zustand, wenn festgestellt wird, dass ein Stromeinschaltbefehl von dem Benutzer als ein Ergebnis der Durchführung der Spracherkennung eingegeben wird.
  15. Verfahren nach Anspruch 12, ferner umfassend: Umschalten von dem Standby-Modus in den Suspend-Modus-Zustand, wenn die Verifikation des Weckworts fehlschlägt oder wenn der Einschaltbefehl des Benutzers nicht als Eingabe erkannt wird.
DE112019007659.0T 2019-09-24 2019-09-24 Bildanzeigevorrichtung und Spracherkennungsverfahren dafür Pending DE112019007659T5 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/KR2019/012380 WO2021060573A1 (ko) 2019-09-24 2019-09-24 영상표시장치 및 이의 음성 인식 방법

Publications (1)

Publication Number Publication Date
DE112019007659T5 true DE112019007659T5 (de) 2022-05-25

Family

ID=75165276

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112019007659.0T Pending DE112019007659T5 (de) 2019-09-24 2019-09-24 Bildanzeigevorrichtung und Spracherkennungsverfahren dafür

Country Status (4)

Country Link
US (1) US20220343900A1 (de)
KR (1) KR20220081352A (de)
DE (1) DE112019007659T5 (de)
WO (1) WO2021060573A1 (de)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210042520A (ko) * 2019-10-10 2021-04-20 삼성전자주식회사 전자 장치 및 이의 제어 방법

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10770075B2 (en) * 2014-04-21 2020-09-08 Qualcomm Incorporated Method and apparatus for activating application by speech input
KR102346302B1 (ko) * 2015-02-16 2022-01-03 삼성전자 주식회사 전자 장치 및 음성 인식 기능 운용 방법
KR20170046958A (ko) * 2015-10-22 2017-05-04 삼성전자주식회사 전자 장치 및 그의 음성 인식을 이용한 기능 실행 방법
KR20180083587A (ko) * 2017-01-13 2018-07-23 삼성전자주식회사 전자 장치 및 그의 동작 방법
KR20190089128A (ko) * 2019-07-10 2019-07-30 엘지전자 주식회사 음성 인식 방법 및 음성 인식 장치

Also Published As

Publication number Publication date
WO2021060573A1 (ko) 2021-04-01
US20220343900A1 (en) 2022-10-27
KR20220081352A (ko) 2022-06-15

Similar Documents

Publication Publication Date Title
DE102015110621B4 (de) Intelligente Untertitel
DE102015103385B4 (de) Lenken von Spracheingaben basierend auf einem Eye-Tracking
DE102016122719A1 (de) Nutzerfokus aktivierte Spracherkennung
DE60209334T2 (de) Vorrichtung zur steuerung der stromversorgung
DE102013001219B4 (de) Verfahren und System zur Sprachaktivierung eines Software-Agenten aus einem Standby-Modus
DE202017105669U1 (de) Modalitätslernen an mobilen Vorrichtungen
DE102014117344A1 (de) Gerät und Verfahren zum Empfangen einer Eingabe und Darstellen als Antwort eine Ausgabe auf einem von dem ersten Gerät unterschiedlichen zweiten Gerät
DE102006009943A1 (de) Verfahren zum Anwenden von tragbarer Software
DE102016103218A1 (de) Blickbasierte Benachrichtigungsantwort
DE202012104833U1 (de) Bildverarbeitungsvorrichtung und Bildverarbeitungssystem
DE102018114453A1 (de) Interaktive Sessions
DE102011054197A1 (de) Selektive Übertragung von Sprachdaten
DE60123803T2 (de) System zur steuerung eines gerätes mittels sprachbefehlen
DE102017115933B4 (de) Koordinieren einer Eingabe an mehreren lokalen Geräten
DE102014117343B4 (de) Erfassen einer Pause in einer akustischen Eingabe in ein Gerät
DE112019007659T5 (de) Bildanzeigevorrichtung und Spracherkennungsverfahren dafür
DE112015006350T5 (de) System, einrichtung, verfahren und computerprogrammprodukt zur bereitstellung von informationen über ein fahrzeug
DE102017126306A1 (de) Kontextabhängiger Koversionsmodus für digitalen Assistenten
DE102018105401A1 (de) Interaktive session
DE102016224591A1 (de) Fahrzeug-head-unit und verfahren zum betreiben derselben
CN201018599Y (zh) 基于视频点播系统的电脑电视一体机
CN106293750A (zh) 一种智能显示设备开机的控制方法
DE102016109521A1 (de) Multimodale Disambiguierung einer sprachunterstützten Eingabe
DE102011118340A1 (de) Doppelbildschirm-PC
CN111243585B (zh) 多人场景下的控制方法、装置、设备及存储介质

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G10L0017240000

Ipc: G10L0015220000