DE102005016853A1 - Verfahren zur Kontrolle von sprachgesteuerten Applikationen und zugehöriges Kontrollsystem - Google Patents

Verfahren zur Kontrolle von sprachgesteuerten Applikationen und zugehöriges Kontrollsystem Download PDF

Info

Publication number
DE102005016853A1
DE102005016853A1 DE102005016853A DE102005016853A DE102005016853A1 DE 102005016853 A1 DE102005016853 A1 DE 102005016853A1 DE 102005016853 A DE102005016853 A DE 102005016853A DE 102005016853 A DE102005016853 A DE 102005016853A DE 102005016853 A1 DE102005016853 A1 DE 102005016853A1
Authority
DE
Germany
Prior art keywords
data stream
application
recognition unit
voice
key term
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE102005016853A
Other languages
English (en)
Inventor
Bernhard Dr. Kämmerer
Michael Reindl
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Priority to DE102005016853A priority Critical patent/DE102005016853A1/de
Priority to US11/402,346 priority patent/US20060253287A1/en
Publication of DE102005016853A1 publication Critical patent/DE102005016853A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

Es wird ein flexibel einsetzbares Verfahren angegeben, das eine einfache, insbesondere nicht-handgebundene Kontrolle sprachgesteuerter Applikationen (10a, 10b, 10c) erlaubt. Es wird weiterhin ein zur Ausführung des Verfahrens geeignetes Kontrollsystem (1) angegeben. Erfindungsgemäß ist vorgesehen, mittels eines Mikrofons (3) einen Sprachdatenstrom (S) eines Benutzers (17) aufzunehmen und den Sprachdatenstrom (S) mittels einer Spracherkennungseinheit (6) auf das Vorkommen hinterlegter Schlüsselbegriffe (K, K') zu untersuchen, wobei bei Erkennung eines Schlüsselbegriffes (K, K') zu untersuchen, wobei bei Erkennung eines Schlüsselbegriffes (K, K') innerhalb des Sprachdatenstroms (S) eine dem Schlüsselbegriff (K, K') zugeordnete Applikation (10a, 10b, 10c) aktiviert oder deaktiviert wird.

Description

  • Die Erfindung bezieht sich auf ein Verfahren zur Kontrolle von sprachgesteuerten Applikationen. Die Erfindung bezieht sich des Weiteren auf ein zugehöriges Kontrollsystem.
  • Als sprachgesteuerte Applikation wird ein Software-Dienstprogramm bezeichnet, das durch gesprochene Sprache eines Benutzers bedienbar ist. Derartige Applikationen sind an sich bekannt und finden insbesondere auch in der Medizintechnik zunehmend Verwendung. Hierzu zählen insbesondere computerintegrierte Telefonie-Systeme (CTI), Diktatprogramme, aber auch sprachgebundene Steuerfunktionen für technische, insbesondere medizintechnische Geräte oder sonstige Dienstprogramme.
  • Bisher sind derartige Applikationen entweder unabhängig voneinander implementiert, so dass weiterhin gewöhnliche, manuell bedienbare Eingabemittel, wie Tastatur, Maus, etc. herangezogen werden müssen, um Applikationen zu starten, zu beenden oder zwischen verschiedenen Applikationen zu wechseln. Alternativ sind mitunter verschiedene Funktionen, z.B. Telefonie- und Gerätesteuerung, in einer gemeinsamen Applikation integriert. Derartige Applikationen sind jedoch hochspezialisiert und nur in einem sehr engen Anwendungsbereich einsetzbar.
  • Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren zur Kontrolle von sprachgesteuerten Applikationen anzugeben, das eine besonders einfache, insbesondere nicht-handgebundene Kontrolle sprachgesteuerter Applikationen ermöglicht und hierbei gleichzeitig flexibel einsetzbar ist. Der Erfindung liegt des Weiteren die Aufgabe zugrunde, ein geeignetes Kontrollsystem zur Durchführung des Verfahrens anzugeben.
  • Bezüglich des Verfahrens wird die Aufgabe erfindungsgemäß gelöst durch die Merkmale des Anspruchs 1. Bezüglich des zugehörigen Kontrollsystems wird die Aufgabe erfindungsgemäß gelöst durch die Merkmale des Anspruchs 7.
  • Erfindungsgemäß ist vorgesehen, mittels eines Mikrofons einen Sprachdatenstrom eines Benutzers aufzunehmen. Als Sprachdatenstrom wird eine kontinuierliche Abfolge von phonetischen Daten verstanden, wie sie durch die aufgenommene und digitalisierte Sprache eines Benutzers entstehen. Der aufgenommene Sprachdatenstrom wird mittels einer applikationsunabhängigen bzw. applikationsübergreifenden Spracherkennungseinheit auf das Vorkommen hinterlegter Schlüsselbegriffe untersucht, die jeweils einer durch das Verfahren bzw. das Kontrollsystem kontrollierten Applikation zugeordnet sind. Ingesamt sind zu jeder Applikation ein oder mehrere Schlüsselbegriffe hinterlegt. Wird eines dieser Schlüsselbegriffe innerhalb des aufgenommenen Sprachdatenstroms identifiziert, so wird die zugeordnete Applikation – je nach Funktion des Schlüsselbegriffs – aktiviert oder deaktiviert. Im Zuge der Aktivierung wird die Applikation gestartet oder, falls die betreffende Applikation bereits gestartet ist, in den Vordergrund einer Benutzeroberfläche gehoben. Im Zuge der Deaktivierung wird die aktive Applikation beendet oder in den Hintergrund der Benutzeroberfläche versetzt.
  • Beispielsweise sind für eine Diktat-Applikation die Schlüsselbegriffe "Diktat", "Diktat Ende" und "Diktat Pause" hinterlegt. Durch den Schlüsselbegriff "Diktat" wird die Applikation aktiviert, d.h. gestartet oder in den Vordergrund versetzt. Durch die Schlüsselbegriffe "Diktat Ende" und "Diktat Pause" wird die Applikation deaktiviert, d.h. beendet bzw. in den Hintergrund versetzt.
  • Durch das Verfahren bzw. das zugehörige Kontrollsystem wird die Kontrolle sprachgesteuerter Applikationen erheblich ver einfacht. Insbesondere kann der Benutzer die zur Verfügung stehenden Applikationen durch Aussprache der entsprechenden Schlüsselbegriffe starten, beenden sowie zwischen verschiedenen Applikationen wechseln, ohne die Hände benutzen zu müssen, gegebenenfalls auch ohne Blickkontakt mit einem Bildschirm od.dgl. aufnehmen zu müssen. Hierdurch wird insbesondere auch eine besonderes effiziente, Zeit sparende Arbeitsweise ermöglicht.
  • Das Kontrollsystem bildet eine, den einzelnen Applikationen übergeordnete und von letzteren unabhängige Ebene, von der aus die einzelnen Applikationen als wiederum für sich gesehen unabhängige Einheiten angesteuert werden. Das Kontrollsystem kann hierdurch flexibel zur Steuerung beliebiger sprachgesteuerter Applikationen eingesetzt, und entsprechend einfach an neue Applikationen angepasst werden.
  • Bevorzugt ist der Spracherkennungseinheit eine Stimmerkennungseinheit vorgeschaltet, durch welche zunächst überprüft wird, ob der aufgenommene Sprachdatenstrom von einem autorisierten Benutzer stammt. Diese Analyse wird insbesondere vorgenommen, indem die Stimmerkennungseinheit sequenzweise Sprachcharakteristika des Sprachdatenstroms, wie z.B. Frequenzverteilung, Sprechgeschwindigkeit, etc. ableitet und diese Sprachcharakteristika mit entsprechenden hinterlegten Referenzgrößen registrierter Benutzer vergleicht. Kann eine bestimmte zeitliche Sequenz des Sprachdatenstroms einem registrierten Benutzer zugeordnet werden, und kann dieser Benutzer als autorisiert (beispielsweise gerade "eingeloggt" oder mit Administratorrechten ausgestattet) verifiziert werden, so wird die überprüfte Sequenz des Sprachdatenstroms an die Spracherkennungseinheit weitergeleitet. Ansonsten wird die Sequenz verworfen.
  • Auf diese Weise wird einerseits ein missbräuchlicher Zugriff eines nicht-autorisierten Benutzers auf die Applikationen verhindert. Die Spracherkennung unterstützt somit sicher heitsbezogene Identifikationsprozesse (wie z.B. Passworteingabe) oder kann diese gegebenenfalls sogar ersetzen. Zum anderen wird durch die Spracherkennung auch automatisch der Sprachanteil eines autorisierten Benutzers aus dem ursprünglichen Sprachdatenstrom isoliert. Dies ist insbesondere dann von Vorteil, wenn der Sprachdatenstrom ursprünglich die Stimmen mehrerer Sprecher enthält, was z.B. bei Anwesenheit mehrerer Personen in einem Behandlungsraum oder Großraumbüro quasi zwangsläufig der Fall ist. Durch die Sprachfilterung werden auch sonstige Störgeräusche aus dem Sprachdatenstrom entfernt, und somit etwaige durch Störgeräusche verursachte Fehler automatisch unterbunden.
  • In einfacher Ausführung der Erfindung wird bei Erkennung eines Schlüsselbegriff innerhalb des Sprachdatenstroms die zugeordnete Applikation unmittelbar aktiviert. Alternativ hierzu ist zweckmäßigerweise vorgesehen, dass der Aktivierung der Applikation ein interaktiver Bestätigungsschritt vorgeschaltet ist, bei welchem die Spracherkennungseinheit zunächst eine Rückfrage an den Benutzer erzeugt. Die Applikation wird hierbei nur dann aktiviert, wenn der Benutzer die Rückfrage positiv quittiert. Die Rückfrage kann wahlweise visuell über einen Bildschirm und/oder phonetisch über Lautsprecher ausgegeben werden. Die positive bzw. negative Quittierung erfolgt bevorzugt, indem der Benutzer in das Mikrofon eine entsprechende Antwort, z.B. "Ja" bzw. "Nein" spricht. Eine derartige Rückfrage ist insbesondere für den Fall vorgesehen, dass in dem Sprachdatenstrom ein Schlüsselbegriff nur mit verbleibender Unsicherheit identifiziert wurde oder mehrere Zuordnungsmöglichkeiten bestehen. In letzterem Fall wird im Rahmen der Rückfrage eine Liste möglicherweise relevanter Schlüsselbegriffe ausgegeben. Die positive Quittierung des Benutzers erfolgt hierbei durch Auswahl eines Schlüsselbegriffs aus der Liste.
  • Bevorzugt sind zwei alternative Verfahrensweisen vorgesehen, wie bei Erkennung eines Schlüsselbegriffs, und der dadurch ausgelösten Aktivierung der zugeordneten Applikation mit einer bisher aktiven Applikation verfahren werden soll. Gemäß der ersten Variante wird bei Erkennung des Schlüsselbegriffs die bisher aktive Applikation automatisch deaktiviert, so dass die bisher aktive Applikation durch die neue Applikation ersetzt wird. Gemäß der zweiten Variante wird die bisher aktive Applikation jedoch zusätzlich zu der neuen Applikation in aktivem Zustand belassen, so dass mehrere aktive Applikationen nebeneinander bestehen. Bevorzugt erfolgt die Wahl zwischen beiden Alternativen anhand von hinterlegten Entscheidungsregeln, die für jeden Schlüsselbegriff, sowie optional in Abhängigkeit zusätzlicher Kriterien, insbesondere in Abhängigkeit der bisher aktiven Applikation, die Verfahrensweise festlegen.
  • Wird z.B. ein Diktat durch ein Telefongespräch unterbrochen, so ist in der Regel nicht beabsichtigt, dass während des Telefongesprächs gleichzeitig das Diktat weiterläuft. In diesem Fall würde demzufolge die bisherige Applikation (Diktatfunktion) bei Erkennung des die neue Applikation (Telefonat) auslösenden Schlüsselbegriffs (z.B. "Telefonat") deaktiviert, insbesondere in den Hintergrund versetzt. Wird andererseits ein Diktat während eines Telefonats angefordert, so wird in der Regel die Aufrechterhaltung der Telefonverbindung während des Diktats beabsichtigt sein, insbesondere um den Inhalt des Telefonats in dem Diktat festzuhalten. Für diesen Fall ist entsprechend vorgesehen, dass bei Erkennung des das Diktat anfordernden Schlüsselbegriffs die Telefonie-Applikation in aktivem Zustand belassen wird.
  • Zweckmäßigerweise ist vorgesehen, dass der Sprachdatenstrom von der Spracherkennungseinheit zur weiteren Verarbeitung an die oder jede aktive Applikation weitergeleitet wird. Optional ist hierbei vorgesehen, dass die Spracherkennungseinheit erkannte Schlüsselbegriffe aus dem weiterzuleitenden Sprachdatenstrom herausschneidet, um eine Missinterpretation dieser Schlüsselbegriffe durch die applikationsspezifische Verarbei tung des Sprachdatenstroms zu vermeiden. Beispielsweise wird auf diese Weise vorteilhafterweise vermieden, dass das Schlüsselwort "Diktat" durch die hierdurch aktivierte Diktatfunktion mitgeschrieben wird.
  • Auf Applikationsebene findet bevorzugt wiederum eine Spracherkennung im Hinblick auf applikationsspezifisch hinterlegte Schlüsselwörter statt. Diese applikationsspezifischen Schlüsselwörter sind nachfolgend zur Unterscheidung von den vorstehend eingeführten applikationsübergreifenden Schlüsselbegriffen als "Befehle" bezeichnet. Jedem Befehl ist eine applikationsspezifische Aktion zugeordnet, die dann ausgelöst wird, wenn der zugehörige Befehl innerhalb des Sprachdatenstroms erkannt wird.
  • Bei einem derartigen Befehl handelt es sich beispielsweise im Rahmen einer Diktatapplikation um die Anweisung, das letzte diktierte Wort zu löschen oder den bereits diktierten Text zu speichern. Im Rahmen einer computerintegrierten Telefonie-Applikation ist beispielsweise die Anweisung, eine bestimmte Nummer zu wählen, als Befehl hinterlegt.
  • Nachfolgend wird ein Ausführungsbeispiel der Erfindung anhand einer Zeichnung näher erläutert. Darin zeigt die einzige Figur in einem schematischen Blockschaltbild ein Kontrollsystem zur Kontrolle dreier sprachgesteuerter Applikationen.
  • Kernbestandteil des Kontrollsystems 1 ist eine als Softwaremodul realisierte Kontrolleinheit 2, die auf einer nicht näher dargestellten Rechneranlage installiert ist und auf Eingabe- und Ausgabegeräte der Rechneranlage, insbesondere ein Mikrofon 3, einen Lautsprecher 4 sowie einen Bildschirm 5 zugreift. Die Kontrolleinheit 2 ist optional als Teil des Betriebssystems der Rechneranlage implementiert.
  • Die Kontrolleinheit 2 umfasst eine Spracherkennungseinheit 6, der ein durch das Mikrofon 3 aufgenommener, digitalisierter Sprachdatenstrom S zugeführt ist. Der Spracherkennungseinheit 6 und dem Mikrofon 3 ist eine Stimmerkennungseinheit 7 zwischengeschaltet.
  • Die Spracherkennungseinheit 6 ist dazu ausgebildet, den Sprachdatenstrom S auf das Vorhandensein von Schlüsselbegriffen K hin zu untersuchen und greift hierzu auf eine Sammlung von Schlüsselbegriffen K zurück, die in einem Begriffspeicher 8 hinterlegt sind. Die Kontrolleinheit 2 umfasst weiterhin ein Entscheidungsmodul 9, dem durch die Spracherkennungseinheit 6 erkannte Schlüsselbegriffe K' zugeleitet werden und das dazu ausgebildet ist, in Abhängigkeit eines erkannten Schlüsselbegriffs K' nach Maßgabe hinterlegter Entscheidungsregeln R eine Maßnahme abzuleiten.
  • Die Maßnahme kann zum einen in der Aktivierung oder Deaktivierung einer dem Kontrollsystem 1 untergeordneten Applikation 10a10c bestehen. Das Entscheidungsmodul greift hierzu auf einen Applikationsmanager 11 zu, der dazu ausgebildet ist, die Applikationen 10a10c zu aktivieren bzw. zu deaktivieren. Die Maßnahme kann zum anderen in der Formulierung einer Rückfrage Q bestehen, die das Entscheidungsmodul 9 über die Ausgabemittel, d.h. den Bildschirm 5 und/oder über den Lautsprecher 4 ausgibt. Dem Lautsprecher 4 ist hierzu ein Spracherzeugungsmodul 12 vorgeschaltet, das zur phonetischen Umsetzung von Text ausgebildet ist.
  • Bei der Applikation 10a handelt es sich beispielhaft um eine Diktat-Applikation, die zur Umsetzung des Sprachdatenstroms S in Schrifttext ausgebildet ist. Bei der Applikation 10b handelt es sich beispielhaft um eine computerintegrierte Telefonie-Applikation. Bei der Applikation 10c handelt es sich beispielhaft um eine sprachgebundene Steuerapplikation zur Verwaltung und/oder Bearbeitung von Patientendaten (RIS, PACS, ...).
  • Ist eine der Applikationen 10a10c aktiv, so wird ihr der Sprachdatenstrom S durch den Applikationsmanager 11 zur weiteren Verarbeitung zugeleitet. In der Figur ist beispielhaft die Diktat-Applikation 10a beispielhaft als aktiv dargestellt.
  • Zur Weiterverarbeitung des Sprachdatenstroms S verfügt jede Applikation 10a10c über eine separate Befehlserkennungseinheit 13a13c, die dazu ausgebildet ist, eine Anzahl von applikationsspezifisch hinterlegten Befehlen C1–C3 innerhalb des Sprachdatenstroms S zu identifizieren. Jede Befehlserkennungseinheit 13a13c greift hierzu auf einen Befehlsspeicher 14a14c zu, in welchem die im Rahmen der jeweiligen Applikation 10a10c zu erkennenden Befehle C1-C3 hinterlegt sind. Jeder Befehlserkennungseinheit 13a13c ist weiterhin ein applikationsspezifisches Entscheidungsmodul 15a15c zugeordnet, das dazu ausgebildet ist, anhand eines erkannten Befehls Cl'–C3' anhand von applikationsspezifischen Entscheidungsregeln R1–R3 eine dem jeweiligen erkannten Befehl C1'–C3' zugeordnete Aktion A1–A3 auszulösen und hierzu insbesondere eine Unterroutine oder Funktionseinheit 16a16c auszuführen. Alternativ hierzu ist das Entscheidungsmodul 15a15c dazu ausgebildet, eine Rückfrage Q1–Q3 zu formulieren und (auf dem in der Figur durch Sprungmarken X verknüpften Flusspfad) über den Bildschirm 5 bzw. den Lautsprecher 4 auszugeben.
  • Die Bedienung des Kontrollsystems 1 erfolgt, indem ein Benutzer 17 in das Mikrofon 3 spricht. Der hierbei erzeugte Sprachdatenstrom S wird (nach vorausgehender Digitalisierung) zunächst der Stimmerkennungseinheit 7 zugeleitet. Durch die Stimmerkennungseinheit 7 wird der Sprachdatenstrom S daraufhin analysiert, ob er einem registrierten Benutzer zuzuordnen ist. Diese Analyse erfolgt, indem die Stimmerkennungseinheit 7 eine oder mehrere Kenngrößen P, die für menschliche Sprache charakteristisch sind, aus dem Sprachdatenstrom S ableitet. Jede ermittelte Kenngröße P des Sprachdatenstroms S wird mit einer entsprechenden Referenzgröße P' verglichen, die für je den registrierten Benutzer in einer Benutzerdatenbank 18 der Stimmerkennungseinheit 7 hinterlegt sind. Wenn die Stimmerkennungseinheit 7 anhand der Übereinstimmung von Kenngrößen P mit Referenzgrößen P' den Sprachdatenstrom S einem registrierten Benutzer zuordnen kann und damit den Benutzer 17 als bekannt identifiziert, prüft die Stimmerkennungseinheit 7 in einem zweiten Schritt, ob der erkannte Benutzer 17 autorisiert ist, d.h. eine Zugangsberechtigung besitzt. Dies ist insbesondere dann der Fall, wenn der Benutzer 17 gerade an der Rechneranlage angemeldet ist oder wenn der Benutzer 17 Administratorrechte besitzt. wird der Benutzer 17 auch als autorisiert erkannt, so wird der Sprachdatenstrom S an die Spracherkennungseinheit 6 weitergeleitet. Kann der Sprachdatenstrom S dagegen keinem registrierten Benutzer zugeordnet werden oder wird der Benutzer 17 zwar erkannt, aber als nicht-autorisiert identifiziert, so wird der Sprachdatenstrom S verworfen. Dem Benutzer 17 wird damit automatisch der Zugang verweigert.
  • Die Stimmerkennungseinheit 7 wirkt somit als ständige Zugangskontrolle und kann hierdurch sonstige Kontrollmechanismen (Passwort-Eingabe etc.) unterstützen oder gegebenenfalls sogar ersetzen.
  • Die Stimmerkennungseinheit 7 prüft hierbei den Sprachdatenstrom S fortlaufend und segmentweise. Geprüft wird mit anderen Worten stets ein zeitlich begrenztes Segment des Sprachdatenstroms S. Nur dieses wird verworfen, wenn es keinem autorisierten Benutzer zuzuordnen ist. Die Stimmerkennungseinheit 7 übt somit auch eine Filterfunktion aus, aufgrund derer Bestandteile des Sprachdatenstroms S, die nicht einem autorisierten Benutzer zuzuordnen sind (z.B. aufgenommene Sprachanteile anderer Personen oder sonstige Störgeräusche) automatisch aus dem an die Spracherkennungseinheit 6 weitergeleiteten Sprachdatenstrom S entfernt werden.
  • In der Spracherkennungseinheit 6 wird der Sprachdatenstrom S auf das Vorhandensein der in dem Begriffsspeicher 8 hinterlegten Schlüsselbegriffe K untersucht. Beispielhaft sind im Begriffsspeicher 8 als der Applikation 10a zugeordnet die Schlüsselbegriffe K "Diktat", "Diktat Pause" und "Diktat Ende", als der Applikation 10b zugeordnet der Schlüsselbegriff K "Telefonat" sowie als der Applikation 10c zugeordnet die Schlüsselbegriffe K "nächster Patient" und "Patient <Name>" hinterlegt. <Name> steht hierbei für eine Variable, die als Argument des Schlüsselbegriffs "Patient <...>" mit dem Namen eines tatsächlichen Patienten belegt wird, z.B. "Patient X". Weiterhin sind in dem Begriffsspeicher 8 die Schlüsselbegriffe K "Ja" und "Nein" hinterlegt.
  • Erkennt die Spracherkennungseinheit 6 einen der hinterlegten Schlüsselbegriffe K innerhalb des Sprachdatenstroms S, so leitet sie diesen erkannten Schlüsselbegriff K' (oder eine diesem entsprechende Kennung) an das Entscheidungsmodul 9 weiter. Dieses bestimmt anhand der hinterlegten Entscheidungsregeln R eine zu treffende Maßnahme. Diese kann, abhängig von dem erkannten Schlüsselbegriff K', in der Formulierung der entsprechenden Rückfrage Q oder in einer Anweisung A an den Applikationsmanager 11 bestehen. In den Entscheidungsregeln R sind Rückfragen Q und Anweisungen A insbesondere differenziert nach dem erkannten Schlüsselbegriff K' sowie nach dem vorausgehenden Schlüsselbegriff K' und/oder einer bisher aktiven Applikation 10a10c hinterlegt.
  • Wird beispielsweise als Schlüsselbegriff K' das Wort "Diktat" erkannt, während bereits die Diktat-Applikation 10a aktiv ist, so formuliert das Entscheidungsmodul 9 die Rückfrage Q "Neues Diktat beginnen?", gibt diese über den Lautsprecher 4 und/oder über den Bildschirm 5 aus und wartet auf eine Quittierung durch den Benutzer 17. Quittiert der Benutzer 17 diese Rückfrage Q mit einem in das Mikrofon 3 gesprochenen "Ja" oder durch Tasteneingabe positiv, so gibt das Entscheidungsmodul 9 an den Applikationsmanager 11 die Anweisung A aus, die bisherige Diktat-Applikation 10a zu deaktivieren (in den Hintergrund zu versetzen) und eine neue Diktat-Applikation 10a zu öffnen. Der erkannte Schlüsselbegriff K' "Diktat" wird hierbei zweckmäßigerweise aus dem Sprachdatenstrom S getilgt und wird somit weder von der bisherigen Diktat-Applikation 10a, noch von der neuen Diktat-Applikation 10a mitgeschrieben. Quittiert der Benutzer 17 die Rückfrage Q negativ (Durch Sprechen des Wortes "Nein" in das Mikrofon 3 oder durch Tasteneingabe) oder erfolgt innerhalb einer vorgegebenen Zeitspanne überhaupt keine Quittierung durch den Benutzer 17, bricht das Entscheidungsmodul 9 den laufenden Entscheidungsprozess ab: Der zuletzt erkannte Schlüsselbegriff K' "Diktat" wird getilgt. Das bisherige Diktat wird fortgesetzt, d.h. die bisher aktive Diktat-Applikation 10a bleibt aktiv.
  • Wird der Schlüsselbegriff K' "Diktat" während eines Telefonat (bisher aktiv: Telefonie-Applikation 10b) erkannt, so ist dagegen durch die Entscheidungsregeln R die Abgabe der Anweisung vorgesehen, die Diktat-Applikation 10a zu aktivieren, ohne die bisher aktive Telefonie-Applikation 10b zu deaktivieren. Hierdurch sind die Applikationen 10a und 10b nebeneinander aktiv, so dass der von dem Benutzer 17 während des Telefonats gesprochene Text gleichzeitig durch die Diktat-Applikation 10a mitgeschrieben wird. Optional ist vorgesehen, dass auch der von dem telefonischen Gesprächspartner des Benutzers 17 gesprochene Text als Sprachdatenstrom S an die Diktat-Applikation 10a geleitet und mitgeschrieben wird.
  • Auf entsprechende Weise ist durch die Entscheidungsregeln R vorgesehen, dass mehrere Telefonverbindungen (Telefonie-Applikation 10b) nebeneinander aufgebaut und gleichzeitig und/oder alternierend aktiviert werden können. Ebenso ist vorgesehen, dass Diktate (Diktat-Applikation 10a) und Telefonate (Telefonie-Applikation 10b) im Rahmen einer elektronischen Patientenakte (Steuer-Applikation 10c) durchgeführt werden können und dass eine elektronische Patientenakte wäh rend eines Telefonats oder eines Diktats durch Nennung des Schlüsselbegriffs K "Patient <Name>" geöffnet werden kann.
  • Innerhalb einer jeden Applikation 10a10c findet im Hinblick auf die jeweils hinterlegten Befehle C1–C3 wiederum eine Spracherkennung statt. Als Befehle C1–C3 sind im Fall der Diktat-Applikation 10a beispielsweise die Befehle C1 "Zeichen löschen", "Wort löschen", etc., im Falle der Telefonie-Applikation 10b, die Befehle C2 "Wähle <Nummer>", "Wähle <Name>", "Auflegen", etc. hinterlegt. Durch das der jeweiligen Applikation 10a10c zugeordnete Entscheidungsmodul 15a-15c werden im Hinblick auf erkannte Befehle C1–C3 entsprechende Anweisungen A1–A3 oder Rückfragen Q1–Q3 erzeugt. Jede Anweisung A1–A3 wird durch die jeweils zugeordnete Funktionseinheit 16a16c der Applikation 10a10c ausgeführt, Rückfragen Q1-Q3 über den Lautsprecher 4 und/oder den Bildschirm 5 ausgegeben.
  • Die Befehlserkennung und -ausführung erfolgt hierbei in jeder Applikation 10a10c unabhängig von den anderen Applikationen 10a10c und unabhängig von der Kontrolleinheit 2. Die Befehlserkennung und -ausführung kann deshalb, ohne die Funktion der einzelnen Applikationen 10a10c und deren Zusammenspiel zu beeinträchtigen, für jede Applikation 10a10c in unterschiedlicher Weise implementiert sein. Aufgrund der Unabhängigkeit des Kontrollsystems 1 und der einzelnen Applikationen 10a10c ist das Kontrollsystem 1 zur Kontrolle beliebiger sprachgesteuerter Applikationen, insbesondere solche verschiedener Hersteller, geeignet und kann bei Neuinstallation, Deinstallation oder einem Austausch von Applikationen entsprechend leicht umgerüstet werden.

Claims (12)

  1. Verfahren zur Kontrolle von sprachgesteuerten Applikationen (10a, 10b, 10c), bei welchem mittels eines Mikrofons (3) ein Sprachdatenstrom (S) eines Benutzers (17) aufgenommen wird, bei welchem der Sprachdatenstrom (S) mittels einer Spracherkennungseinheit (6) auf das Vorkommen hinterlegter Schlüsselbegriffe (K, K') untersucht wird, wobei bei Erkennung eines Schlüsselbegriffes (K, K') innerhalb des Sprachdatenstroms (S) eine dem Schlüsselbegriff zugeordnete Applikation (10a, 10b, 10c) aktiviert oder deaktiviert wird.
  2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass der Sprachdatenstrom (S) vor Zuleitung an die Spracherkennungseinheit (6) mittels einer Stimmerkennungseinheit (7) einmalig oder kontinuierlich dahingehend überprüft wird, ob er einem autorisierten Benutzer zuzuordnen ist, und dass nur in diesem Fall der Sprachdatenstrom (S) an die Spracherkennungseinheit (6) weitergeleitet wird.
  3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass bei Erkennung eines Schlüsselbegriffs (K, K') innerhalb des Sprachdatenstroms (S) eine Rückfrage (Q) an den Benutzer (17) erzeugt wird, und dass die dem Schlüsselbegriff (K, K') zugeordnete Applikation (10a, 10b, 10c) nur dann aktiviert wird, wenn der Benutzer (17) die Rückfrage (Q) positiv quittiert.
  4. Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, dass bei Erkennen eines Schlüsselbegriffs (K, K') anhand von hinterlegten Entscheidungsregeln (R) entschieden wird, ob eine bisher aktive Applikation (10a, 10b, 10c) deaktiviert oder in aktivem Zustand belassen wird.
  5. Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, dass der Sprachdatenstrom (S) von der Spracherkennungseinheit (6) an die oder jede aktive Applikation (10a, 10b, 10c) weitergeleitet wird.
  6. Verfahren nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, dass der Sprachdatenstrom (S) innerhalb der aktiven Applikation (10a, 10b, 10c) mittels einer applikationsspezifischen Befehlserkennungseinheit (13a, 13b, 13c) auf das Vorhandensein von applikationsspezifisch hinterlegten Befehlen (C1, C2, C3) untersucht wird, wobei bei Erkennung eines Befehls (C1, C2, C3) eine zugeordnete Aktion (A1, A2, A3) ausgelöst wird.
  7. Kontrollsystem (1) für sprachgesteuerte Applikationen (10a, 10b, 10c) mit einem Mikrofon (3) zur Aufnahme eines Sprachdatenstroms (S) sowie mit einer nachgeschalteten Spracherkennungseinheit (6), die dazu ausgebildet ist, eine Anzahl von hinterlegten Schlüsselbegriffen (K, K') innerhalb des Sprachdatenstroms (S) zu erkennen und bei Erkennung eines Schlüsselbegriffs (K, K') eine diesem zugeordnete Applikation (10a, 10b, 10c) zu aktivieren oder zu deaktivieren.
  8. Kontrollsystem (1) nach Anspruch 7, dadurch gekennzeichnet, dass der Spracherkennungseinheit (6) eine Stimmerkennungseinheit (7) vorgeschaltet ist, die dazu ausgebildet ist, durch Analyse des Sprachdatenstroms (S) den Benutzer (17) als autorisiert zu verifizieren oder falsifizieren, und den Sprachdatenstrom (S) nur im Verifikationsfall an die Spracherkennungseinheit (6) weiterzuleiten.
  9. Kontrollsystem (1) nach Anspruch 7 oder 8, dadurch gekennzeichnet, dass die Spracherkennungseinheit (6) dazu ausgebildet ist, bei Erkennung eines Schlüsselbegriffs (K, K') innerhalb des Sprachdatenstroms (S) eine Rückfrage (Q) an den Benutzer (17) zu erzeugen, und die dem erkannten Schlüsselbegriff (K') zugeordnete Applikation (10a, 10b, 10c) nur dann zu aktivieren, wenn der Benutzer (17) die Rückfrage (Q) positiv quittiert.
  10. Kontrollsystem (1) nach einem der Ansprüche 7 bis 9, dadurch gekennzeichnet, dass die Spracherkennungseinheit (6) dazu ausgebildet ist, in Hinblick auf einen erkannten Schlüsselbegriff (K') nach Maßgabe hinterlegter Entscheidungsregeln (R) entweder eine bisher aktive Applikation (10a, 10b, 10c) zu deaktivieren oder die bisher aktive Applikation (10a, 10b, 10c) in aktivem Zustand zu belassen.
  11. Kontrollsystem (1) nach einem der Ansprüche 7 bis 10, dadurch gekennzeichnet, dass die Spracherkennungseinheit (6) dazu ausgebildet ist, den Sprachdatenstrom (S) an die oder jede aktive Applikation (10a, 10b, 10c) weiterzuleiten.
  12. Kontrollsystem (1) nach einem der Ansprüche 7 bis 11, dadurch gekennzeichnet, dass jede Applikation (10a, 10b, 10c) eine Befehlserkennungseinheit (13a, 13b, 13c) umfasst, die dazu ausgebildet ist, den Sprachdatenstrom (S) auf das Vorhandensein von applikationsspezifisch hinterlegten Befehlen (C1, C2, C3) zu untersuchen und bei Erkennung eines Befehls (C1, C2, C3) innerhalb des Sprachdatenstroms (S) eine zugeordnete Aktion (A1, A2, A3) auszulösen.
DE102005016853A 2005-04-12 2005-04-12 Verfahren zur Kontrolle von sprachgesteuerten Applikationen und zugehöriges Kontrollsystem Withdrawn DE102005016853A1 (de)

Priority Applications (2)

Application Number Priority Date Filing Date Title
DE102005016853A DE102005016853A1 (de) 2005-04-12 2005-04-12 Verfahren zur Kontrolle von sprachgesteuerten Applikationen und zugehöriges Kontrollsystem
US11/402,346 US20060253287A1 (en) 2005-04-12 2006-04-12 Method and system for monitoring speech-controlled applications

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102005016853A DE102005016853A1 (de) 2005-04-12 2005-04-12 Verfahren zur Kontrolle von sprachgesteuerten Applikationen und zugehöriges Kontrollsystem

Publications (1)

Publication Number Publication Date
DE102005016853A1 true DE102005016853A1 (de) 2006-10-19

Family

ID=37055296

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102005016853A Withdrawn DE102005016853A1 (de) 2005-04-12 2005-04-12 Verfahren zur Kontrolle von sprachgesteuerten Applikationen und zugehöriges Kontrollsystem

Country Status (2)

Country Link
US (1) US20060253287A1 (de)
DE (1) DE102005016853A1 (de)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9794348B2 (en) * 2007-06-04 2017-10-17 Todd R. Smith Using voice commands from a mobile device to remotely access and control a computer
US8340968B1 (en) 2008-01-09 2012-12-25 Lockheed Martin Corporation System and method for training diction
US8589160B2 (en) * 2011-08-19 2013-11-19 Dolbey & Company, Inc. Systems and methods for providing an electronic dictation interface
CN103915095B (zh) 2013-01-06 2017-05-31 华为技术有限公司 语音识别的方法、交互设备、服务器和系统
KR20140144104A (ko) * 2013-06-10 2014-12-18 삼성전자주식회사 전자기기 및 이의 서비스 제공 방법
US9959129B2 (en) * 2015-01-09 2018-05-01 Microsoft Technology Licensing, Llc Headless task completion within digital personal assistants
US10460728B2 (en) * 2017-06-16 2019-10-29 Amazon Technologies, Inc. Exporting dialog-driven applications to digital communication platforms
JP7202853B2 (ja) * 2018-11-08 2023-01-12 シャープ株式会社 冷蔵庫

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000079515A2 (de) * 1999-06-21 2000-12-28 Palux Aktiengesellschaft Einrichtung zur steuering von automaten
DE10050808A1 (de) * 2000-10-13 2002-05-16 Voicecom Ag Sprachgeführte Gerätesteuerung mit Benutzeroptimierung

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3943295A (en) * 1974-07-17 1976-03-09 Threshold Technology, Inc. Apparatus and method for recognizing words from among continuous speech
US4227176A (en) * 1978-04-27 1980-10-07 Dialog Systems, Inc. Continuous speech recognition method
DE69326431T2 (de) * 1992-12-28 2000-02-03 Toshiba Kawasaki Kk Spracherkennungs-Schnittstellensystem, das als Fenstersystem und Sprach-Postsystem verwendbar ist
US5873064A (en) * 1996-11-08 1999-02-16 International Business Machines Corporation Multi-action voice macro method
US6233559B1 (en) * 1998-04-01 2001-05-15 Motorola, Inc. Speech control of multiple applications using applets
US6196846B1 (en) * 1998-06-02 2001-03-06 Virtual Village, Inc. System and method for establishing a data session and a voice session for training a user on a computer program
US6816837B1 (en) * 1999-05-06 2004-11-09 Hewlett-Packard Development Company, L.P. Voice macros for scanner control
GB2372864B (en) * 2001-02-28 2005-09-07 Vox Generation Ltd Spoken language interface
US7398209B2 (en) * 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
EP1661122B1 (de) * 2003-08-29 2008-10-08 Johnson Controls Technology Company System und verfahren zum betrieb eines spracherkennungssystems in einem fahrzeug

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000079515A2 (de) * 1999-06-21 2000-12-28 Palux Aktiengesellschaft Einrichtung zur steuering von automaten
DE10050808A1 (de) * 2000-10-13 2002-05-16 Voicecom Ag Sprachgeführte Gerätesteuerung mit Benutzeroptimierung

Also Published As

Publication number Publication date
US20060253287A1 (en) 2006-11-09

Similar Documents

Publication Publication Date Title
DE102005016853A1 (de) Verfahren zur Kontrolle von sprachgesteuerten Applikationen und zugehöriges Kontrollsystem
EP0852051B1 (de) Verfahren zur automatischen steuerung eines oder mehrerer geräte durch sprachkommandos oder per sprachdialog im echtzeitbetrieb und vorrichtung zum ausführen des verfahrens
DE60015531T2 (de) Client-server spracherkennungssystem
DE112018002857T5 (de) Sprecheridentifikation mit ultrakurzen Sprachsegmenten für Fern- und Nahfeld-Sprachunterstützungsanwendungen
EP1927980A2 (de) Verfahren zur Klassifizierung der gesprochenen Sprache in Sprachdialogsystemen
DE10163213A1 (de) Verfahren zum Betrieb eines Spracherkennungssystems
DE602005000308T2 (de) Vorrichtung für sprachgesteuerte Anwendungen
DE10251113A1 (de) Verfahren zum Betrieb eines Spracherkennungssystems
EP2192576A1 (de) Stimmbasierte Authentisierung mit Abwehr von Angriffen mittels Sprachkonserven
DE60212725T2 (de) Verfahren zur automatischen spracherkennung
DE10338512A1 (de) Unterstützungsverfahren für Sprachdialoge zur Bedienung von Kraftfahrzeugfunktionen
DE60034772T2 (de) Zurückweisungsverfahren in der spracherkennung
EP1097447A1 (de) Verfahren und vorrichtung zur erkennung vorgegebener schlüsselwörter in gesprochener sprache
EP1249016B1 (de) Verfahren zur sprachgesteuerten identifizierung des nutzers eines telekommunikationsanschlusses im telekommunikationsnetz beim dialog mit einem sprachgesteuerten dialogsystem
DE60014583T2 (de) Verfahren und vorrichtung zur integritätsprüfung von benutzeroberflächen sprachgesteuerter geräte
DE102005030967B4 (de) Verfahren und Vorrichtung zur Interaktion mit einem Spracherkennungssystem zur Auswahl von Elementen aus Listen
DE102018215293A1 (de) Multimodale Kommunikation mit einem Fahrzeug
EP1321851A2 (de) Verfahren zum Betrieb eines Sprach-Dialogsystems
DE102006058758B4 (de) Verfahren und Vorrichtung zum Steuern einer Telekommunikationsendeinrichtung
EP2012218B1 (de) Verfahren zur Beeinflussung der Interpretation multimodaler Eingaben
EP1083479B1 (de) Verfahren zum Betrieb einer sprachgesteuerten Befehlseingabeeinheit in einem Kraftfahrzeug
DE19937490B4 (de) Verfahren und Vorrichtung zur Eingabe von Steuerungsbefehlen für Komfortgeräte, insbesondere in Kraftfahrzeugen
DE102006045719A1 (de) Medizinisches System mit einer Spracheingabevorrichtung
DE19636452A1 (de) Mehrnutzersystem zur Spracheingabe
DE102004011426B3 (de) Vorrichtung zum Erkennen einer in einem Sprachsignal enthaltenen Emotion und Verfahren zum Erkennen einer in einem Sprachsignal enthaltenen Emotion

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8139 Disposal/non-payment of the annual fee