DE102005016853A1

DE102005016853A1 - Verfahren zur Kontrolle von sprachgesteuerten Applikationen und zugehöriges Kontrollsystem

Info

Publication number: DE102005016853A1
Application number: DE102005016853A
Authority: DE
Inventors: Bernhard Dr. Kämmerer; Michael Reindl
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2005-04-12
Filing date: 2005-04-12
Publication date: 2006-10-19
Also published as: US20060253287A1

Abstract

Es wird ein flexibel einsetzbares Verfahren angegeben, das eine einfache, insbesondere nicht-handgebundene Kontrolle sprachgesteuerter Applikationen (10a, 10b, 10c) erlaubt. Es wird weiterhin ein zur Ausführung des Verfahrens geeignetes Kontrollsystem (1) angegeben. Erfindungsgemäß ist vorgesehen, mittels eines Mikrofons (3) einen Sprachdatenstrom (S) eines Benutzers (17) aufzunehmen und den Sprachdatenstrom (S) mittels einer Spracherkennungseinheit (6) auf das Vorkommen hinterlegter Schlüsselbegriffe (K, K') zu untersuchen, wobei bei Erkennung eines Schlüsselbegriffes (K, K') zu untersuchen, wobei bei Erkennung eines Schlüsselbegriffes (K, K') innerhalb des Sprachdatenstroms (S) eine dem Schlüsselbegriff (K, K') zugeordnete Applikation (10a, 10b, 10c) aktiviert oder deaktiviert wird.

Description

Die Erfindung bezieht sich auf ein Verfahren zur Kontrolle von sprachgesteuerten Applikationen. Die Erfindung bezieht sich des Weiteren auf ein zugehöriges Kontrollsystem.

Als sprachgesteuerte Applikation wird ein Software-Dienstprogramm bezeichnet, das durch gesprochene Sprache eines Benutzers bedienbar ist. Derartige Applikationen sind an sich bekannt und finden insbesondere auch in der Medizintechnik zunehmend Verwendung. Hierzu zählen insbesondere computerintegrierte Telefonie-Systeme (CTI), Diktatprogramme, aber auch sprachgebundene Steuerfunktionen für technische, insbesondere medizintechnische Geräte oder sonstige Dienstprogramme.

Bisher sind derartige Applikationen entweder unabhängig voneinander implementiert, so dass weiterhin gewöhnliche, manuell bedienbare Eingabemittel, wie Tastatur, Maus, etc. herangezogen werden müssen, um Applikationen zu starten, zu beenden oder zwischen verschiedenen Applikationen zu wechseln. Alternativ sind mitunter verschiedene Funktionen, z.B. Telefonie- und Gerätesteuerung, in einer gemeinsamen Applikation integriert. Derartige Applikationen sind jedoch hochspezialisiert und nur in einem sehr engen Anwendungsbereich einsetzbar.

Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren zur Kontrolle von sprachgesteuerten Applikationen anzugeben, das eine besonders einfache, insbesondere nicht-handgebundene Kontrolle sprachgesteuerter Applikationen ermöglicht und hierbei gleichzeitig flexibel einsetzbar ist. Der Erfindung liegt des Weiteren die Aufgabe zugrunde, ein geeignetes Kontrollsystem zur Durchführung des Verfahrens anzugeben.

Bezüglich des Verfahrens wird die Aufgabe erfindungsgemäß gelöst durch die Merkmale des Anspruchs 1. Bezüglich des zugehörigen Kontrollsystems wird die Aufgabe erfindungsgemäß gelöst durch die Merkmale des Anspruchs 7.

Erfindungsgemäß ist vorgesehen, mittels eines Mikrofons einen Sprachdatenstrom eines Benutzers aufzunehmen. Als Sprachdatenstrom wird eine kontinuierliche Abfolge von phonetischen Daten verstanden, wie sie durch die aufgenommene und digitalisierte Sprache eines Benutzers entstehen. Der aufgenommene Sprachdatenstrom wird mittels einer applikationsunabhängigen bzw. applikationsübergreifenden Spracherkennungseinheit auf das Vorkommen hinterlegter Schlüsselbegriffe untersucht, die jeweils einer durch das Verfahren bzw. das Kontrollsystem kontrollierten Applikation zugeordnet sind. Ingesamt sind zu jeder Applikation ein oder mehrere Schlüsselbegriffe hinterlegt. Wird eines dieser Schlüsselbegriffe innerhalb des aufgenommenen Sprachdatenstroms identifiziert, so wird die zugeordnete Applikation – je nach Funktion des Schlüsselbegriffs – aktiviert oder deaktiviert. Im Zuge der Aktivierung wird die Applikation gestartet oder, falls die betreffende Applikation bereits gestartet ist, in den Vordergrund einer Benutzeroberfläche gehoben. Im Zuge der Deaktivierung wird die aktive Applikation beendet oder in den Hintergrund der Benutzeroberfläche versetzt.

Beispielsweise sind für eine Diktat-Applikation die Schlüsselbegriffe "Diktat", "Diktat Ende" und "Diktat Pause" hinterlegt. Durch den Schlüsselbegriff "Diktat" wird die Applikation aktiviert, d.h. gestartet oder in den Vordergrund versetzt. Durch die Schlüsselbegriffe "Diktat Ende" und "Diktat Pause" wird die Applikation deaktiviert, d.h. beendet bzw. in den Hintergrund versetzt.

Durch das Verfahren bzw. das zugehörige Kontrollsystem wird die Kontrolle sprachgesteuerter Applikationen erheblich ver einfacht. Insbesondere kann der Benutzer die zur Verfügung stehenden Applikationen durch Aussprache der entsprechenden Schlüsselbegriffe starten, beenden sowie zwischen verschiedenen Applikationen wechseln, ohne die Hände benutzen zu müssen, gegebenenfalls auch ohne Blickkontakt mit einem Bildschirm od.dgl. aufnehmen zu müssen. Hierdurch wird insbesondere auch eine besonderes effiziente, Zeit sparende Arbeitsweise ermöglicht.

Das Kontrollsystem bildet eine, den einzelnen Applikationen übergeordnete und von letzteren unabhängige Ebene, von der aus die einzelnen Applikationen als wiederum für sich gesehen unabhängige Einheiten angesteuert werden. Das Kontrollsystem kann hierdurch flexibel zur Steuerung beliebiger sprachgesteuerter Applikationen eingesetzt, und entsprechend einfach an neue Applikationen angepasst werden.

Bevorzugt ist der Spracherkennungseinheit eine Stimmerkennungseinheit vorgeschaltet, durch welche zunächst überprüft wird, ob der aufgenommene Sprachdatenstrom von einem autorisierten Benutzer stammt. Diese Analyse wird insbesondere vorgenommen, indem die Stimmerkennungseinheit sequenzweise Sprachcharakteristika des Sprachdatenstroms, wie z.B. Frequenzverteilung, Sprechgeschwindigkeit, etc. ableitet und diese Sprachcharakteristika mit entsprechenden hinterlegten Referenzgrößen registrierter Benutzer vergleicht. Kann eine bestimmte zeitliche Sequenz des Sprachdatenstroms einem registrierten Benutzer zugeordnet werden, und kann dieser Benutzer als autorisiert (beispielsweise gerade "eingeloggt" oder mit Administratorrechten ausgestattet) verifiziert werden, so wird die überprüfte Sequenz des Sprachdatenstroms an die Spracherkennungseinheit weitergeleitet. Ansonsten wird die Sequenz verworfen.

Auf diese Weise wird einerseits ein missbräuchlicher Zugriff eines nicht-autorisierten Benutzers auf die Applikationen verhindert. Die Spracherkennung unterstützt somit sicher heitsbezogene Identifikationsprozesse (wie z.B. Passworteingabe) oder kann diese gegebenenfalls sogar ersetzen. Zum anderen wird durch die Spracherkennung auch automatisch der Sprachanteil eines autorisierten Benutzers aus dem ursprünglichen Sprachdatenstrom isoliert. Dies ist insbesondere dann von Vorteil, wenn der Sprachdatenstrom ursprünglich die Stimmen mehrerer Sprecher enthält, was z.B. bei Anwesenheit mehrerer Personen in einem Behandlungsraum oder Großraumbüro quasi zwangsläufig der Fall ist. Durch die Sprachfilterung werden auch sonstige Störgeräusche aus dem Sprachdatenstrom entfernt, und somit etwaige durch Störgeräusche verursachte Fehler automatisch unterbunden.

In einfacher Ausführung der Erfindung wird bei Erkennung eines Schlüsselbegriff innerhalb des Sprachdatenstroms die zugeordnete Applikation unmittelbar aktiviert. Alternativ hierzu ist zweckmäßigerweise vorgesehen, dass der Aktivierung der Applikation ein interaktiver Bestätigungsschritt vorgeschaltet ist, bei welchem die Spracherkennungseinheit zunächst eine Rückfrage an den Benutzer erzeugt. Die Applikation wird hierbei nur dann aktiviert, wenn der Benutzer die Rückfrage positiv quittiert. Die Rückfrage kann wahlweise visuell über einen Bildschirm und/oder phonetisch über Lautsprecher ausgegeben werden. Die positive bzw. negative Quittierung erfolgt bevorzugt, indem der Benutzer in das Mikrofon eine entsprechende Antwort, z.B. "Ja" bzw. "Nein" spricht. Eine derartige Rückfrage ist insbesondere für den Fall vorgesehen, dass in dem Sprachdatenstrom ein Schlüsselbegriff nur mit verbleibender Unsicherheit identifiziert wurde oder mehrere Zuordnungsmöglichkeiten bestehen. In letzterem Fall wird im Rahmen der Rückfrage eine Liste möglicherweise relevanter Schlüsselbegriffe ausgegeben. Die positive Quittierung des Benutzers erfolgt hierbei durch Auswahl eines Schlüsselbegriffs aus der Liste.

Bevorzugt sind zwei alternative Verfahrensweisen vorgesehen, wie bei Erkennung eines Schlüsselbegriffs, und der dadurch ausgelösten Aktivierung der zugeordneten Applikation mit einer bisher aktiven Applikation verfahren werden soll. Gemäß der ersten Variante wird bei Erkennung des Schlüsselbegriffs die bisher aktive Applikation automatisch deaktiviert, so dass die bisher aktive Applikation durch die neue Applikation ersetzt wird. Gemäß der zweiten Variante wird die bisher aktive Applikation jedoch zusätzlich zu der neuen Applikation in aktivem Zustand belassen, so dass mehrere aktive Applikationen nebeneinander bestehen. Bevorzugt erfolgt die Wahl zwischen beiden Alternativen anhand von hinterlegten Entscheidungsregeln, die für jeden Schlüsselbegriff, sowie optional in Abhängigkeit zusätzlicher Kriterien, insbesondere in Abhängigkeit der bisher aktiven Applikation, die Verfahrensweise festlegen.

Wird z.B. ein Diktat durch ein Telefongespräch unterbrochen, so ist in der Regel nicht beabsichtigt, dass während des Telefongesprächs gleichzeitig das Diktat weiterläuft. In diesem Fall würde demzufolge die bisherige Applikation (Diktatfunktion) bei Erkennung des die neue Applikation (Telefonat) auslösenden Schlüsselbegriffs (z.B. "Telefonat") deaktiviert, insbesondere in den Hintergrund versetzt. Wird andererseits ein Diktat während eines Telefonats angefordert, so wird in der Regel die Aufrechterhaltung der Telefonverbindung während des Diktats beabsichtigt sein, insbesondere um den Inhalt des Telefonats in dem Diktat festzuhalten. Für diesen Fall ist entsprechend vorgesehen, dass bei Erkennung des das Diktat anfordernden Schlüsselbegriffs die Telefonie-Applikation in aktivem Zustand belassen wird.

Zweckmäßigerweise ist vorgesehen, dass der Sprachdatenstrom von der Spracherkennungseinheit zur weiteren Verarbeitung an die oder jede aktive Applikation weitergeleitet wird. Optional ist hierbei vorgesehen, dass die Spracherkennungseinheit erkannte Schlüsselbegriffe aus dem weiterzuleitenden Sprachdatenstrom herausschneidet, um eine Missinterpretation dieser Schlüsselbegriffe durch die applikationsspezifische Verarbei tung des Sprachdatenstroms zu vermeiden. Beispielsweise wird auf diese Weise vorteilhafterweise vermieden, dass das Schlüsselwort "Diktat" durch die hierdurch aktivierte Diktatfunktion mitgeschrieben wird.

Auf Applikationsebene findet bevorzugt wiederum eine Spracherkennung im Hinblick auf applikationsspezifisch hinterlegte Schlüsselwörter statt. Diese applikationsspezifischen Schlüsselwörter sind nachfolgend zur Unterscheidung von den vorstehend eingeführten applikationsübergreifenden Schlüsselbegriffen als "Befehle" bezeichnet. Jedem Befehl ist eine applikationsspezifische Aktion zugeordnet, die dann ausgelöst wird, wenn der zugehörige Befehl innerhalb des Sprachdatenstroms erkannt wird.

Bei einem derartigen Befehl handelt es sich beispielsweise im Rahmen einer Diktatapplikation um die Anweisung, das letzte diktierte Wort zu löschen oder den bereits diktierten Text zu speichern. Im Rahmen einer computerintegrierten Telefonie-Applikation ist beispielsweise die Anweisung, eine bestimmte Nummer zu wählen, als Befehl hinterlegt.

Nachfolgend wird ein Ausführungsbeispiel der Erfindung anhand einer Zeichnung näher erläutert. Darin zeigt die einzige Figur in einem schematischen Blockschaltbild ein Kontrollsystem zur Kontrolle dreier sprachgesteuerter Applikationen.
Kernbestandteil des Kontrollsystems 1 ist eine als Softwaremodul realisierte Kontrolleinheit 2, die auf einer nicht näher dargestellten Rechneranlage installiert ist und auf Eingabe- und Ausgabegeräte der Rechneranlage, insbesondere ein Mikrofon 3, einen Lautsprecher 4 sowie einen Bildschirm 5 zugreift. Die Kontrolleinheit 2 ist optional als Teil des Betriebssystems der Rechneranlage implementiert.
Die Kontrolleinheit 2 umfasst eine Spracherkennungseinheit 6, der ein durch das Mikrofon 3 aufgenommener, digitalisierter Sprachdatenstrom S zugeführt ist. Der Spracherkennungseinheit 6 und dem Mikrofon 3 ist eine Stimmerkennungseinheit 7 zwischengeschaltet.
Die Spracherkennungseinheit 6 ist dazu ausgebildet, den Sprachdatenstrom S auf das Vorhandensein von Schlüsselbegriffen K hin zu untersuchen und greift hierzu auf eine Sammlung von Schlüsselbegriffen K zurück, die in einem Begriffspeicher 8 hinterlegt sind. Die Kontrolleinheit 2 umfasst weiterhin ein Entscheidungsmodul 9, dem durch die Spracherkennungseinheit 6 erkannte Schlüsselbegriffe K' zugeleitet werden und das dazu ausgebildet ist, in Abhängigkeit eines erkannten Schlüsselbegriffs K' nach Maßgabe hinterlegter Entscheidungsregeln R eine Maßnahme abzuleiten.
Die Maßnahme kann zum einen in der Aktivierung oder Deaktivierung einer dem Kontrollsystem 1 untergeordneten Applikation 10a–10c bestehen. Das Entscheidungsmodul greift hierzu auf einen Applikationsmanager 11 zu, der dazu ausgebildet ist, die Applikationen 10a–10c zu aktivieren bzw. zu deaktivieren. Die Maßnahme kann zum anderen in der Formulierung einer Rückfrage Q bestehen, die das Entscheidungsmodul 9 über die Ausgabemittel, d.h. den Bildschirm 5 und/oder über den Lautsprecher 4 ausgibt. Dem Lautsprecher 4 ist hierzu ein Spracherzeugungsmodul 12 vorgeschaltet, das zur phonetischen Umsetzung von Text ausgebildet ist.
Bei der Applikation 10a handelt es sich beispielhaft um eine Diktat-Applikation, die zur Umsetzung des Sprachdatenstroms S in Schrifttext ausgebildet ist. Bei der Applikation 10b handelt es sich beispielhaft um eine computerintegrierte Telefonie-Applikation. Bei der Applikation 10c handelt es sich beispielhaft um eine sprachgebundene Steuerapplikation zur Verwaltung und/oder Bearbeitung von Patientendaten (RIS, PACS, ...).
Ist eine der Applikationen 10a–10c aktiv, so wird ihr der Sprachdatenstrom S durch den Applikationsmanager 11 zur weiteren Verarbeitung zugeleitet. In der Figur ist beispielhaft die Diktat-Applikation 10a beispielhaft als aktiv dargestellt.
Zur Weiterverarbeitung des Sprachdatenstroms S verfügt jede Applikation 10a–10c über eine separate Befehlserkennungseinheit 13a–13c, die dazu ausgebildet ist, eine Anzahl von applikationsspezifisch hinterlegten Befehlen C1–C3 innerhalb des Sprachdatenstroms S zu identifizieren. Jede Befehlserkennungseinheit 13a–13c greift hierzu auf einen Befehlsspeicher 14a–14c zu, in welchem die im Rahmen der jeweiligen Applikation 10a–10c zu erkennenden Befehle C1-C3 hinterlegt sind. Jeder Befehlserkennungseinheit 13a–13c ist weiterhin ein applikationsspezifisches Entscheidungsmodul 15a–15c zugeordnet, das dazu ausgebildet ist, anhand eines erkannten Befehls Cl'–C3' anhand von applikationsspezifischen Entscheidungsregeln R1–R3 eine dem jeweiligen erkannten Befehl C1'–C3' zugeordnete Aktion A1–A3 auszulösen und hierzu insbesondere eine Unterroutine oder Funktionseinheit 16a–16c auszuführen. Alternativ hierzu ist das Entscheidungsmodul 15a–15c dazu ausgebildet, eine Rückfrage Q1–Q3 zu formulieren und (auf dem in der Figur durch Sprungmarken X verknüpften Flusspfad) über den Bildschirm 5 bzw. den Lautsprecher 4 auszugeben.
Die Bedienung des Kontrollsystems 1 erfolgt, indem ein Benutzer 17 in das Mikrofon 3 spricht. Der hierbei erzeugte Sprachdatenstrom S wird (nach vorausgehender Digitalisierung) zunächst der Stimmerkennungseinheit 7 zugeleitet. Durch die Stimmerkennungseinheit 7 wird der Sprachdatenstrom S daraufhin analysiert, ob er einem registrierten Benutzer zuzuordnen ist. Diese Analyse erfolgt, indem die Stimmerkennungseinheit 7 eine oder mehrere Kenngrößen P, die für menschliche Sprache charakteristisch sind, aus dem Sprachdatenstrom S ableitet. Jede ermittelte Kenngröße P des Sprachdatenstroms S wird mit einer entsprechenden Referenzgröße P' verglichen, die für je den registrierten Benutzer in einer Benutzerdatenbank 18 der Stimmerkennungseinheit 7 hinterlegt sind. Wenn die Stimmerkennungseinheit 7 anhand der Übereinstimmung von Kenngrößen P mit Referenzgrößen P' den Sprachdatenstrom S einem registrierten Benutzer zuordnen kann und damit den Benutzer 17 als bekannt identifiziert, prüft die Stimmerkennungseinheit 7 in einem zweiten Schritt, ob der erkannte Benutzer 17 autorisiert ist, d.h. eine Zugangsberechtigung besitzt. Dies ist insbesondere dann der Fall, wenn der Benutzer 17 gerade an der Rechneranlage angemeldet ist oder wenn der Benutzer 17 Administratorrechte besitzt. wird der Benutzer 17 auch als autorisiert erkannt, so wird der Sprachdatenstrom S an die Spracherkennungseinheit 6 weitergeleitet. Kann der Sprachdatenstrom S dagegen keinem registrierten Benutzer zugeordnet werden oder wird der Benutzer 17 zwar erkannt, aber als nicht-autorisiert identifiziert, so wird der Sprachdatenstrom S verworfen. Dem Benutzer 17 wird damit automatisch der Zugang verweigert.
Die Stimmerkennungseinheit 7 wirkt somit als ständige Zugangskontrolle und kann hierdurch sonstige Kontrollmechanismen (Passwort-Eingabe etc.) unterstützen oder gegebenenfalls sogar ersetzen.
Die Stimmerkennungseinheit 7 prüft hierbei den Sprachdatenstrom S fortlaufend und segmentweise. Geprüft wird mit anderen Worten stets ein zeitlich begrenztes Segment des Sprachdatenstroms S. Nur dieses wird verworfen, wenn es keinem autorisierten Benutzer zuzuordnen ist. Die Stimmerkennungseinheit 7 übt somit auch eine Filterfunktion aus, aufgrund derer Bestandteile des Sprachdatenstroms S, die nicht einem autorisierten Benutzer zuzuordnen sind (z.B. aufgenommene Sprachanteile anderer Personen oder sonstige Störgeräusche) automatisch aus dem an die Spracherkennungseinheit 6 weitergeleiteten Sprachdatenstrom S entfernt werden.
In der Spracherkennungseinheit 6 wird der Sprachdatenstrom S auf das Vorhandensein der in dem Begriffsspeicher 8 hinterlegten Schlüsselbegriffe K untersucht. Beispielhaft sind im Begriffsspeicher 8 als der Applikation 10a zugeordnet die Schlüsselbegriffe K "Diktat", "Diktat Pause" und "Diktat Ende", als der Applikation 10b zugeordnet der Schlüsselbegriff K "Telefonat" sowie als der Applikation 10c zugeordnet die Schlüsselbegriffe K "nächster Patient" und "Patient <Name>" hinterlegt. <Name> steht hierbei für eine Variable, die als Argument des Schlüsselbegriffs "Patient <...>" mit dem Namen eines tatsächlichen Patienten belegt wird, z.B. "Patient X". Weiterhin sind in dem Begriffsspeicher 8 die Schlüsselbegriffe K "Ja" und "Nein" hinterlegt.
Erkennt die Spracherkennungseinheit 6 einen der hinterlegten Schlüsselbegriffe K innerhalb des Sprachdatenstroms S, so leitet sie diesen erkannten Schlüsselbegriff K' (oder eine diesem entsprechende Kennung) an das Entscheidungsmodul 9 weiter. Dieses bestimmt anhand der hinterlegten Entscheidungsregeln R eine zu treffende Maßnahme. Diese kann, abhängig von dem erkannten Schlüsselbegriff K', in der Formulierung der entsprechenden Rückfrage Q oder in einer Anweisung A an den Applikationsmanager 11 bestehen. In den Entscheidungsregeln R sind Rückfragen Q und Anweisungen A insbesondere differenziert nach dem erkannten Schlüsselbegriff K' sowie nach dem vorausgehenden Schlüsselbegriff K' und/oder einer bisher aktiven Applikation 10a–10c hinterlegt.
Wird beispielsweise als Schlüsselbegriff K' das Wort "Diktat" erkannt, während bereits die Diktat-Applikation 10a aktiv ist, so formuliert das Entscheidungsmodul 9 die Rückfrage Q "Neues Diktat beginnen?", gibt diese über den Lautsprecher 4 und/oder über den Bildschirm 5 aus und wartet auf eine Quittierung durch den Benutzer 17. Quittiert der Benutzer 17 diese Rückfrage Q mit einem in das Mikrofon 3 gesprochenen "Ja" oder durch Tasteneingabe positiv, so gibt das Entscheidungsmodul 9 an den Applikationsmanager 11 die Anweisung A aus, die bisherige Diktat-Applikation 10a zu deaktivieren (in den Hintergrund zu versetzen) und eine neue Diktat-Applikation 10a zu öffnen. Der erkannte Schlüsselbegriff K' "Diktat" wird hierbei zweckmäßigerweise aus dem Sprachdatenstrom S getilgt und wird somit weder von der bisherigen Diktat-Applikation 10a, noch von der neuen Diktat-Applikation 10a mitgeschrieben. Quittiert der Benutzer 17 die Rückfrage Q negativ (Durch Sprechen des Wortes "Nein" in das Mikrofon 3 oder durch Tasteneingabe) oder erfolgt innerhalb einer vorgegebenen Zeitspanne überhaupt keine Quittierung durch den Benutzer 17, bricht das Entscheidungsmodul 9 den laufenden Entscheidungsprozess ab: Der zuletzt erkannte Schlüsselbegriff K' "Diktat" wird getilgt. Das bisherige Diktat wird fortgesetzt, d.h. die bisher aktive Diktat-Applikation 10a bleibt aktiv.
Wird der Schlüsselbegriff K' "Diktat" während eines Telefonat (bisher aktiv: Telefonie-Applikation 10b) erkannt, so ist dagegen durch die Entscheidungsregeln R die Abgabe der Anweisung vorgesehen, die Diktat-Applikation 10a zu aktivieren, ohne die bisher aktive Telefonie-Applikation 10b zu deaktivieren. Hierdurch sind die Applikationen 10a und 10b nebeneinander aktiv, so dass der von dem Benutzer 17 während des Telefonats gesprochene Text gleichzeitig durch die Diktat-Applikation 10a mitgeschrieben wird. Optional ist vorgesehen, dass auch der von dem telefonischen Gesprächspartner des Benutzers 17 gesprochene Text als Sprachdatenstrom S an die Diktat-Applikation 10a geleitet und mitgeschrieben wird.
Auf entsprechende Weise ist durch die Entscheidungsregeln R vorgesehen, dass mehrere Telefonverbindungen (Telefonie-Applikation 10b) nebeneinander aufgebaut und gleichzeitig und/oder alternierend aktiviert werden können. Ebenso ist vorgesehen, dass Diktate (Diktat-Applikation 10a) und Telefonate (Telefonie-Applikation 10b) im Rahmen einer elektronischen Patientenakte (Steuer-Applikation 10c) durchgeführt werden können und dass eine elektronische Patientenakte wäh rend eines Telefonats oder eines Diktats durch Nennung des Schlüsselbegriffs K "Patient <Name>" geöffnet werden kann.
Innerhalb einer jeden Applikation 10a–10c findet im Hinblick auf die jeweils hinterlegten Befehle C1–C3 wiederum eine Spracherkennung statt. Als Befehle C1–C3 sind im Fall der Diktat-Applikation 10a beispielsweise die Befehle C1 "Zeichen löschen", "Wort löschen", etc., im Falle der Telefonie-Applikation 10b, die Befehle C2 "Wähle <Nummer>", "Wähle <Name>", "Auflegen", etc. hinterlegt. Durch das der jeweiligen Applikation 10a–10c zugeordnete Entscheidungsmodul 15a-15c werden im Hinblick auf erkannte Befehle C1–C3 entsprechende Anweisungen A1–A3 oder Rückfragen Q1–Q3 erzeugt. Jede Anweisung A1–A3 wird durch die jeweils zugeordnete Funktionseinheit 16a–16c der Applikation 10a–10c ausgeführt, Rückfragen Q1-Q3 über den Lautsprecher 4 und/oder den Bildschirm 5 ausgegeben.
Die Befehlserkennung und -ausführung erfolgt hierbei in jeder Applikation 10a–10c unabhängig von den anderen Applikationen 10a–10c und unabhängig von der Kontrolleinheit 2. Die Befehlserkennung und -ausführung kann deshalb, ohne die Funktion der einzelnen Applikationen 10a–10c und deren Zusammenspiel zu beeinträchtigen, für jede Applikation 10a–10c in unterschiedlicher Weise implementiert sein. Aufgrund der Unabhängigkeit des Kontrollsystems 1 und der einzelnen Applikationen 10a–10c ist das Kontrollsystem 1 zur Kontrolle beliebiger sprachgesteuerter Applikationen, insbesondere solche verschiedener Hersteller, geeignet und kann bei Neuinstallation, Deinstallation oder einem Austausch von Applikationen entsprechend leicht umgerüstet werden.

Claims

Verfahren zur Kontrolle von sprachgesteuerten Applikationen (10a, 10b, 10c), bei welchem mittels eines Mikrofons (3) ein Sprachdatenstrom (S) eines Benutzers (17) aufgenommen wird, bei welchem der Sprachdatenstrom (S) mittels einer Spracherkennungseinheit (6) auf das Vorkommen hinterlegter Schlüsselbegriffe (K, K') untersucht wird, wobei bei Erkennung eines Schlüsselbegriffes (K, K') innerhalb des Sprachdatenstroms (S) eine dem Schlüsselbegriff zugeordnete Applikation (10a, 10b, 10c) aktiviert oder deaktiviert wird.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass der Sprachdatenstrom (S) vor Zuleitung an die Spracherkennungseinheit (6) mittels einer Stimmerkennungseinheit (7) einmalig oder kontinuierlich dahingehend überprüft wird, ob er einem autorisierten Benutzer zuzuordnen ist, und dass nur in diesem Fall der Sprachdatenstrom (S) an die Spracherkennungseinheit (6) weitergeleitet wird.
Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass bei Erkennung eines Schlüsselbegriffs (K, K') innerhalb des Sprachdatenstroms (S) eine Rückfrage (Q) an den Benutzer (17) erzeugt wird, und dass die dem Schlüsselbegriff (K, K') zugeordnete Applikation (10a, 10b, 10c) nur dann aktiviert wird, wenn der Benutzer (17) die Rückfrage (Q) positiv quittiert.
Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, dass bei Erkennen eines Schlüsselbegriffs (K, K') anhand von hinterlegten Entscheidungsregeln (R) entschieden wird, ob eine bisher aktive Applikation (10a, 10b, 10c) deaktiviert oder in aktivem Zustand belassen wird.
Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, dass der Sprachdatenstrom (S) von der Spracherkennungseinheit (6) an die oder jede aktive Applikation (10a, 10b, 10c) weitergeleitet wird.
Verfahren nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, dass der Sprachdatenstrom (S) innerhalb der aktiven Applikation (10a, 10b, 10c) mittels einer applikationsspezifischen Befehlserkennungseinheit (13a, 13b, 13c) auf das Vorhandensein von applikationsspezifisch hinterlegten Befehlen (C1, C2, C3) untersucht wird, wobei bei Erkennung eines Befehls (C1, C2, C3) eine zugeordnete Aktion (A1, A2, A3) ausgelöst wird.
Kontrollsystem (1) für sprachgesteuerte Applikationen (10a, 10b, 10c) mit einem Mikrofon (3) zur Aufnahme eines Sprachdatenstroms (S) sowie mit einer nachgeschalteten Spracherkennungseinheit (6), die dazu ausgebildet ist, eine Anzahl von hinterlegten Schlüsselbegriffen (K, K') innerhalb des Sprachdatenstroms (S) zu erkennen und bei Erkennung eines Schlüsselbegriffs (K, K') eine diesem zugeordnete Applikation (10a, 10b, 10c) zu aktivieren oder zu deaktivieren.
Kontrollsystem (1) nach Anspruch 7, dadurch gekennzeichnet, dass der Spracherkennungseinheit (6) eine Stimmerkennungseinheit (7) vorgeschaltet ist, die dazu ausgebildet ist, durch Analyse des Sprachdatenstroms (S) den Benutzer (17) als autorisiert zu verifizieren oder falsifizieren, und den Sprachdatenstrom (S) nur im Verifikationsfall an die Spracherkennungseinheit (6) weiterzuleiten.
Kontrollsystem (1) nach Anspruch 7 oder 8, dadurch gekennzeichnet, dass die Spracherkennungseinheit (6) dazu ausgebildet ist, bei Erkennung eines Schlüsselbegriffs (K, K') innerhalb des Sprachdatenstroms (S) eine Rückfrage (Q) an den Benutzer (17) zu erzeugen, und die dem erkannten Schlüsselbegriff (K') zugeordnete Applikation (10a, 10b, 10c) nur dann zu aktivieren, wenn der Benutzer (17) die Rückfrage (Q) positiv quittiert.
Kontrollsystem (1) nach einem der Ansprüche 7 bis 9, dadurch gekennzeichnet, dass die Spracherkennungseinheit (6) dazu ausgebildet ist, in Hinblick auf einen erkannten Schlüsselbegriff (K') nach Maßgabe hinterlegter Entscheidungsregeln (R) entweder eine bisher aktive Applikation (10a, 10b, 10c) zu deaktivieren oder die bisher aktive Applikation (10a, 10b, 10c) in aktivem Zustand zu belassen.
Kontrollsystem (1) nach einem der Ansprüche 7 bis 10, dadurch gekennzeichnet, dass die Spracherkennungseinheit (6) dazu ausgebildet ist, den Sprachdatenstrom (S) an die oder jede aktive Applikation (10a, 10b, 10c) weiterzuleiten.
Kontrollsystem (1) nach einem der Ansprüche 7 bis 11, dadurch gekennzeichnet, dass jede Applikation (10a, 10b, 10c) eine Befehlserkennungseinheit (13a, 13b, 13c) umfasst, die dazu ausgebildet ist, den Sprachdatenstrom (S) auf das Vorhandensein von applikationsspezifisch hinterlegten Befehlen (C1, C2, C3) zu untersuchen und bei Erkennung eines Befehls (C1, C2, C3) innerhalb des Sprachdatenstroms (S) eine zugeordnete Aktion (A1, A2, A3) auszulösen.