-
HINTERGRUND DER ERFINDUNG
-
1. Gebiet der Erfindung
-
Die
Erfindung betrifft ein verteiltes Spracherkennungssystem. Genauer
gesagt betrifft die Erfindung ein verteiltes Spracherkennungssystem,
bei welchem ein zentraler Sprachprozessor Sprachdateien von einer
Vielzahl von Benutzern empfängt,
die Sprachdateien zu einer Vielzahl von Spracherkennungsmaschinen
verteilt und die Effektivität
der verschiedenen Spracherkennungsmaschinen überwacht, um die Verteilung
der Sprachdateien zu verbessern.
-
2. Beschreibung des Standes
der Technik
-
Jüngste Entwicklungen
bei der Spracherkennungs- und Telekommunikationstechnologie haben eine
automatisierte Transkription zu einer Realität gemacht. Die Fähigkeit
zum Bereitstellen einer automatisierten Transkription ist nicht
nur auf Spracher kennungsprodukte begrenzt, die auf einem einzelnen PC
verwendet werden. Große
Systeme für
eine automatisierte Transkription sind gegenwärtig verfügbar.
-
Diese
verteilten Spracherkennungssysteme lassen zu, dass Teilnehmer Sprachdateien
bei einer Vielfalt von Orten aufzeichnen, die aufgezeichneten Sprachdateien
zu einer zentralen Verarbeitungseinrichtung senden, wo die Sprachdateien
geschrieben bzw. kopiert werden, und vollständig geschriebene Textdateien
der ursprünglich
vorgelegten Sprachdateien empfangen. Wie es Fachleute auf dem Gebiet sicher
erkennen werden, erfordert ein solches System eine wesentliche Automatisierung
zum Sicherstellen, dass alle Sprachdateien auf eine geordnete und
effiziente Weise behandelt werden.
-
Frühere Systeme
haben auf einer zentralen Verarbeitungseinrichtung beruht, die mit
Gruppen bzw. Clustern von Spracherkennungsmaschinen verbunden sind,
die durch eine Spracherkennungsschnittstelle geführt werden. Gemäß solchen
Systemen treten Sprachdateien in die zentrale Verarbeitungseinrichtung
ein und werden einfach unter der Vielzahl von Spracherkennungsgruppen
ohne Berücksichtigung
der Effizienz der Gruppe verteilt, zu welcher die Datei zugeordnet
ist, oder der Fähigkeit spezifischer
Spracherkennungsmaschinen, bestimmte Sprachdateien zu handhaben.
Als solches sind viele der schnelleren Spracherkennungsmaschinen,
die mit der zentralen Verarbeitungseinrichtung verbunden sind, oftmals
unbenutzt, während
andere, langsamere Spracherkennungsmaschinen einen Rückstau mit
zu verarbeitenden Jobs haben.
-
In "The study an distributed
speech recognition system" [Proceedings
IEEE International Conference an Acoustics, Speech, and Signal Processing (ICASSP),
Istanbul, Turkey, 5. – 9-
Juni 2000, vol. 3, vom 6., 5. Juni 2000 (2000-06-05), Seiten 1431 – 1434,
XP002233412 ISBN: 0-7803-6294-2] beschreiben Weiqi Zhang et al.
ein verteiltes Spracherkennungssystem mit einem Moderator, der gemäß einem
Arbeitsbelastungs-Planungsschema entscheidet, welche Spracherkennungsmaschine
verfügbar ist.
Das Arbeitsbelastungs-Planungsschema ist darauf abgestimmt, bestimmte
Leistungsfähigkeitsmaße des Systems
zu erfüllen,
welche eine CPU-Effizienz des Spracherkennungssystems, eine Anzahl
von Jobs, eine Reaktionszeit, eine Menge an verarbeiteten Daten,
einen Kommunikationsdurchsatz und ein Speichererfordernis enthalten.
-
Denkt
man an das Vorangehende, existiert gegenwärtig eine Notwendigkeit für ein verteiltes Transkriptionssystem,
das, beruhend auf einer Vielzahl von Spracherkennungsmaschinen,
die Verteilung von Jobs unter der Vielzahl von Spracherkennungsmaschinen
effizient steuert. Das vorliegende System stellt ein solches Transkriptionssystem
zur Verfügung.
-
ZUSAMMENFASSUNG DER ERFINDUNG
-
Gemäß einem
Aspekt der vorliegenden Erfindung wird ein verteiltes Spracherkennungssystem zur
Verfügung
gestellt, das einen Sprachprozessor aufweist, der mit einer Vielzahl
von Spracherkennungsmaschinen verbunden ist, wobei der Sprachprozessor
folgendes aufweist:
einen Eingang zum Empfangen von Sprachdateien von
einer Vielzahl von Benutzern;
eine Speichereinrichtung zum
Speichern jeder der empfangenen Sprachdateien, bis die Sprachdatei
zu einer ausgewählten
Spracherkennungsmaschine zur Verarbeitung gesendet wird;
ein
Versandsystem, das mit der Speichereinrichtung verbunden ist, zum
Steuern der Übertragung
der empfangenen Sprachdateien zu den Spracherkennungsmaschinen;
dadurch
gekennzeichnet, dass das System weiterhin eine dynamische Überwachungsmaschine
zum Überwachen
und Analysieren der Aktivität
jeder der Spracherkennungsmaschinen aufweist, die mit dem Sprachprozessor
verbunden sind, um Spracherkennungsmaschinen zu identifizieren,
die die meiste Erfahrung mit spezifischem Vokabular haben, und zum Anweisen
des Versandsystems, Sprachdateien zu der Spracherkennungsmaschine
weiterzuleiten, die als diejenige mit der meisten Erfahrung mit
dem Vokabular der jeweiligen Sprachdatei identifiziert ist.
-
Vorzugsweise
enthält
jede der Vielzahl von Spracherkennungsmaschinen eine Sprachmaschinen-Wrapper-Erleichterungsschnittstelle
zwischen dem Sprachprozessor und der Spracherkennungsmaschine.
-
Der
Sprachprozessor enthält
vorzugsweise eine Datenbank von Benutzerdateien, die vor einer Übertragung
zu vorausgewählten
Spracherkennungsmaschinen anschließend mit Sprachdateien kombiniert
werden. Das verteilte Spracherkennungssystem enthält weiterhin
vorzugsweise ein Prüfsystem,
einen Stimmprozessor und/oder einen Textprozessor zugehörig zu dem
Sprachprozessor.
-
Gemäß einem
weiteren Aspekt der vorliegenden Erfindung wird ein Verfahren zum
Betreiben eines Spracherkennungssystems zur Verfügung gestellt, das einen Sprachprozessor
aufweist, der mit einer Vielzahl von Spracherkennungsmaschinen verbunden
ist, wobei das Verfahren die folgenden Schritte aufweist:
Empfangen
von Sprachdateien von einer Vielzahl von Benutzern an einem Eingang
des Sprachprozessors;
Speichern jeder der empfangenen Sprachdateien
in einer Speichereinrichtung des Sprachprozessors, bis die Sprachdatei
zu einer Spracherkennungsmaschine zur Verarbeitung übertragen
wird;
Übertragen
der empfangenen Sprachdateien zu den Spracherkennungsmaschinen unter
der Steuerung eines Versandsystems, das mit der Speichereinrichtung
verbunden ist;
gekennzeichnet durch die folgenden Schritte:
Überwachen
und Analysieren der Aktivität
jeder der Spracherkennungsmaschinen, die mit dem Sprachprozessor
verbunden sind, um die Spracherkennungsmaschinen zu identifizieren,
die die meiste Erfahrung mit spezifischem Vokabular haben; und
Anweisen
des Versandsystems, Sprachdateien zu der Spracherkennungsmaschine
weiterzuleiten, die als diejenige mit der meisten Erfahrung mit
dem Vokabular der jeweiligen Sprachdatei identifiziert ist.
-
Vorzugsweise
weist das Verfahren weiterhin die folgenden Schritte auf:
Zuordnen
eines Gewichtungsfaktors zu jeder der Vielzahl von Spracherkennungsmaschinen;
und
Verwenden des Gewichtungsfaktors beim Zuordnen von Sprachdateien
zu der Vielzahl von Spracherkennungsmaschinen.
-
Vorzugsweise
weist das Verfahren weiterhin die folgenden Schritte auf:
Versehen
des Sprachprozessors mit einer Datenbank von Benutzerdateien; und
vor
einer Übertragung
zu vorausgewählten
Spracherkennungsmaschinen anschließendes Kombinieren der Benutzerdaten
mit Sprachdateien.
-
Andere
Aufgabe und Vorteile der vorliegenden Erfindung werden aus der folgenden
detaillierten Beschreibung offensichtlich werden, wenn sie in Verbindung
mit den beigefügten
Zeichnungen angeschaut wird, die bestimmte Ausführungsbeispiele der Erfindung
aufzeigen, wie sie durch die Ansprüche definiert ist.
-
KURZE BESCHREIBUNG DER ZEICHNUNGEN
-
1 ist
ein Schema des vorliegenden Systems.
-
2 ist
ein Schema des zentralen Sprachprozessors gemäß der vorliegenden Erfindung.
-
3 ist
ein Schema des Spracherkennungsmaschinen-Wrappers und der Spracherkennungsmaschine
gemäß der vorliegenden
Erfindung.
-
BESCHREIBUNG DER BEVORZUGTEN
AUSFÜHRUNGSBEISPIELE
-
Die
detaillierten Ausführungsbeispiele
der vorliegenden Erfindung sind hierin offenbart. Es sollte jedoch
verstanden werden, dass die offenbarten Ausführungsbeispiele lediglich beispielhaft
für die
Erfindung sind, die in verschiedenen Formen ausgeführt werden
kann. Daher sind die hierin offenbarten Details nicht als beschränkend zu
interpretieren, sondern lediglich als die Basis für die Ansprüche und
als eine Basis zum Lehren eines Fachmanns, wie die Erfindung herzustellen
und/oder zu verwenden ist.
-
Unter
Bezugnahme auf die 1, 2 und 3 ist
ein verteiltes Spracherkennungssystem 10 offenbart. Das
System enthält
allgemein einen zentralen Sprachprozessor 12, der mit einer
Vielzahl von Spracherkennungsmaschinen 14 und Benutzerschnittstellen 16,
wie beispielsweise einer Vielzahl von Benutzer-Workstations, verbunden
ist. Die Konstruktion und das Design des Systems 10 sorgen
für eine
redundante Verwendung einer Vielzahl von Spracherkennungsmaschinen 14,
die direkt mit dem zentralen Sprachprozessor 12 verbunden
sind. Dies lässt
eine erweiterte Nutzung verfügbarer
Ressourcen auf eine Weise zu, die die Effizienz des verteilten Spracherkennungssystems 10 wesentlich
verbessert.
-
Das
System 10 ist mit einem dynamischen Überwachungsmittel 18 versehen,
das die Effektivität und
Verfügbarkeit
der verschiedenen Spracherkennungsmaschinen 14 dynamisch überwacht,
die mit dem zentralen Sprachprozessor 12 verbunden sind. Das
dynamische Überwachungsmittel 18 bestimmt, welche
der Vielzahl von Spracherkennungsmaschinen 14, die mit
dem zentralen Sprachprozessor 12 verbunden sind, am besten
dazu geeignet ist, in Verbindung mit einem spezifischen Job verwendet
zu werden.
-
In
Bezug auf die Architektur des vorliegenden Systems, und wie es oben
angegeben ist, enthält das
System allgemein einen zentralen Sprachprozessor 12, der
mit einer Vielzahl von unterschiedlichen Spracherkennungsmaschinen 14 verbunden
ist und eine Interaktion mit dieser steuert. Der zentrale Sprachprozessor 12 ist
zum Empfangen und Senden von Sprachdateien geeignet, und enthält demgemäß einen
Eingang 21 zum Empfangen von Sprachdateien von Systembenutzern
und einen Ausgang 23 zum Senden der Sprachdateien (mit
geeigneter angehängter
Information) zu der Vielfalt von Spracherkennungsmaschinen 14,
die mit dem zentralen Sprachprozessor 12 verbunden sind.
Eingänge
und Ausgänge
wie diese sind im Stand der Technik wohlbekannt, und Fachleute auf
dem Gebiet werden sicher die vielen möglichen Variationen beim Aufbauen
geeigneter Eingänge
und Ausgänge
zur Verwendung gemäß der vorliegenden
Erfindung erkennen. Gemäß einem
bevorzugten Ausführungsbeispiel
der vorliegenden Erfindung sind die Sprachdateien WAV-Dateien, die
zu den Spracherkennungsmaschinen 14 auf eine Weise eingegeben
werden, die Fachleuten auf dem Gebiet bekannt ist.
-
Der
zentrale Sprachprozessor 12 ist verantwortlich für das System 10 insgesamt
und ist der Hauptknoten des Systems 10. Er ist entwickelt,
um eine maximale Flexibilität
zuzulassen. Der Sprachprozessor 12 handhabt ein Zukommen
lassen von Meldungen zu und von Workstation-Clients, eine Datenbankwartung,
eine Systemüberwachung,
eine Prüfung
und ein Vorlegen korrigierten Texts für die Erkennungsmaschine 14.
Der zur Erkennung vorgelegte korrigierte Text wird anfangs zu dem
zentralen Sprachprozessor 12 durch den Textprozessor 20 geliefert,
der umgewandelte Textdateien für
einen Vergleich mit den früheren
Sprachdateien vorlegt. Wenn eine solche Textdatei zur Textkorrektur
vorgelegt wird, verifiziert der zentrale Sprachprozessor 12, dass
die Textdatei eine zugehörige
Sprachdatei hat, die zuvor einer Spracherkennung unterzogen wurde. Wenn
keine solche Sprachdatei lokalisiert ist, wird die Textdatei gelöscht und
wird nicht berücksichtigt. Wenn
jedoch die Textdatei aus der Anwendung der Spracherkennungsmaschine(n) 14 resultierte,
wird die korrigierte Textdatei zu der geeigneten Spracherkennungsmaschine 14 weitergeleitet
und wird durch die Spracherkennungsmaschine 14 ausgewertet,
um zukünftige
Transkriptionen zu verbessern.
-
Für alle Workstations
ist es erforderlich, dass sie bei dem zentralen Sprachprozessor 12 auf
die eine oder die andere Weise einloggen. Der zentrale Sprachprozessor 12 ist
die einzige Komponente, die mit allen externen Anwendungen kommuniziert,
einschließlich,
aber nicht beschränkt
darauf, eines Stimmprozessors 22, eines Textprozessors 20 und der
Spracherkennungsmaschinen-Wrapper 24. Der Stimmprozessor 22 ist
spezifisch mit einer Schnittstelle 26 entwickelt worden,
die zur Verwendung in Verbindung mit den Spracherkennungsmaschinen 14 geeignet
ist. Die Schnittstelle 26 ist dazu geeignet, Sprachdateien
in einen spezifischen Zustand zu versetzen; beispielsweise wird
dort, wo eine Sprachdatei durchgesehen und geschrieben worden ist,
die Schnittstelle den Zustand einer solchen Sprachdatei richtig
bemerken. Wie es nachfolgend detaillierter diskutiert werden wird,
enthält
der Stimmprozessor 22 sowohl eine Server- als auch eine
Client-Funktionalität,
während
der Textprozessor 20 nur eine Server-Funktionalität enthält.
-
Alle
festen Systemkonfigurationen sind im Register 28 des zentralen
Sprachprozessors 12 eingestellt. Alle Laufzeit-Systemkonfigurationen
und Benutzerkonfigurationseinstellungen sind in der Datenbank 30 des
zentralen Sprachprozessors 12 gespeichert. Der zentrale
Sprachprozessor 12 schaut auf die Einstellungen des Registers 28 nur
bei einem Hochfahren, so dass die gesamte Information, die einer Änderung
unterzogen wird, in der Datenbank 30 gespeichert sein muss.
-
Wie
es oben angegeben ist, enthält
der zentrale Sprachprozessor 12 ein dynamisches Überwachungsmittel 18.
Das dynamische Überwachungsmittel 18 führt den
zentralen Sprachprozessor 12 in Bezug darauf, wo und wann
alle Jobs den Spracherkennungsmaschinen 14 vorgelegt werden
sollten. Das dynamische Überwachungsmittel 18 funktioniert durch
Zuordnen eines Gewichtungsfaktors zu jeder der Spracherkennungsmaschinen 14,
die in Verbindung mit dem vorliegenden System arbeiten. Spezifisch
wird die Arbeitsgeschwindigkeit jedes Spracherkennungsmaschinen-Prozessors
durch das dynamische Überwachungsmittel 18 überwacht
und ist diesem bekannt. Beispielsweise wird einer Spracherkennungsmaschine 14,
die 1 Minute einer Sprachdatei in einer Zeit von 2 Minuten verarbeiten
kann, ein Gewich tungsfaktor von 2 zugeteilt werden, während einer
Spracherkennungsmaschine 14, die 1 Minute einer Sprachdatei
in 3 Minuten verarbeiten kann, ein Gewichtungsfaktor von 3 zugeteilt
werden wird. Die Gewichtungsfaktoren werden dann in Verbindung mit dem
verfügbaren
Warteschlangenraum in jeder der Spracherkennungsmaschinen 14 angewendet,
um zu bestimmen, wohin eine jeweilige neue Sprachdatei zur Verarbeitung
geführt
werden sollte.
-
Zusätzlich wird
es erwägt,
dass das dynamische Überwachungsmittel 18 die
Verfügbarkeit
von Spracherkennungsmaschinen 14 beim Zuordnen von Jobs
zu verschiedenen Erkennungsmaschinen 14 überwachen
kann. Wenn beispielsweise eine Spracherkennungsmaschine 14 aus
irgendeinem Grund nicht reagiert oder einen Job ausgelassen hat,
wird der Job zur nächsten
Maschine 14 oder zu überhaupt keiner
vorgelegt. Der zentrale Sprachprozessor 12 ist auch verantwortlich
für ein
Backup der Datenbank und ein SOS, wenn es nötig ist.
-
Es
wird weiterhin erwägt,
dass das dynamische Überwachungsmittel 18 die
Effizienz von bestimmten Spracherkennungsmaschinen 14 beim Handhaben
von Sprachdateien überwachen
kann, die durch spezifische Benutzer oder durch Benutzer, die zu
einem spezifischen Profil passen, erzeugt sind. Ein solches Merkmal
wird wahrscheinlich die Sprachmodelle und die akustischen Modelle
berücksichtigen,
die durch die verschiedenen Spracherkennungsmaschinen 14 verwendet
werden. Beispielsweise kann das dynamische Überwachungsmittel 18 herausfinden,
dass eine spezifische Spracherkennungsmaschine 18 sehr
effizient beim Handhaben von Benutzern innerhalb des Gebiets der
internen Medizin ist, und diese Information wird dazu verwendet
werden, die Arbeit effizienter unter den verschiedenen Spracherkennungsmaschinen 18 zu
verteilen, die mit dem zentralen Sprachprozessor 12 verbunden
sein könnten.
-
Der
zentrale Sprachprozessor 12 enthält weiterhin ein Versandsystem 32,
das die Übertragung
von Sprachdateien zu der Vielzahl von Spracherkennungsmaschinen 14 auf
eine kontrollierte Weise steuert. Das Versandsystem 32 ist
weiterhin mit dem dynamischen Überwachungsmittel 18 verbunden,
das die Aktivität
von jeder der Spracherkennungsmaschinen 14 überwacht,
die mit dem zentralen Sprachprozessor 12 verbunden sind,
und führt eine
Analyse von ihrer Aktivität
zur Verwendung beim Zuordnen von Sprachdateien zu der Vielzahl von Spracherkennungsmaschinen 14 durch.
Unter Verwendung dieser Information arbeiten das dynamische Überwa chungsmittel 18 und
das Versandsystem 32 zusammen, um neue Jobs in geeignete
Warteschlangen 34 der Spracherkennungsmaschinen 14 einzufügen, die
Arbeit basierend auf einer Priorität vorzulegen und den Prioritätspegel
nach oben zu treiben, wenn ein Job zu lange herumgesessen ist. Das Versandsystem 32 und
das dynamische Überwachungsmittel 18 arbeiten
in Verbindung, um sicherzustellen, dass Sprachdateien zu der Vielfalt
von verfügbaren
Spracherkennungsmaschinen 14 auf eine Weise gesendet werden,
die einen Betrieb des gesamten Systems 10 optimiert.
-
Beispielsweise
identifiziert das dynamische Überwachungsmittel 18 Spracherkennungsmaschinen 14,
die am meisten Erfahrung mit spezifischem Vokabular haben, und weist
das Versandsystem 32 an, ähnliche Sprachdateien zu denjenigen
Spracherkennungsmaschinen 14 weiterzuleiten, die am besten
zur Verarbeitung der ausgewählten
Sprachdatei geeignet sind. Das dynamische Überwachungsmittel 18 wird
auch die am schnellsten arbeitenden Spracherkennungsmaschinen 14 feststellen
und das Versandsystem 32 anweisen, Sprachdateien hoher
Priorität
zu diesen Spracherkennungsmaschinen 14 weiterzuleiten.
-
Zusammengefasst
enthält
der zentrale Sprachprozessor 12 eine Funktionalität zum Durchführen der
folgenden Aufgaben, ist aber nicht darauf beschränkt:
- – Dienst
an den Workstations; Anmeldungen bzw. Einloggen, Arbeitsvorlage,
Zustandsaktualisierungen zum Client. (basierend auf dem Netz)
- – Handhaben
von Fehlerzuständen
in dem Fall, in welchem ein Cluster bzw. eine Gruppe ein Antworten
stoppt.
- – Datenbank-Backup.
- – Verfolgungsausgabewartung.
- – Prüfer-Datenbankwartung.
- – Akzeptanz
und Vorlage eines korrigierten Textes.
- – Verfolgen
des Zustands von jeder Arbeit.
- – Erkannte
Arbeit dem Stimmprozessor vorlegen.
- – Steuervorlage
von Jobs zu den Spracherkennungsmaschinen.
-
Es
wird erwägt,
dass Benutzer des vorliegenden Systems 10 Dateien über eine
lokale PABX eingeben können,
wobei alle Dateien lokal aufgezeichnet und dann über das Internet zu dem zentralen Sprachprozessor 12 transferiert
werden. Für
diejenigen Benutzer, die keinen Vorteil aus der PABX-Verbindung
ziehen können,
können sie
den zentralen Sprachprozessor 12 direkt über herkömmliche
landgebundene Leitungen aufrufen. Es kann weiterhin möglich sein,
PC-basierende Diktier- oder in der Hand gehaltene Vorrichtungen
in Verbindung mit dem vorliegenden System zu verwenden.
-
Die
durch den zentralen Sprachprozessor 12 gespeicherte Sprachdateien
sind die durch Benutzer des vorliegenden Systems vorbereitete diktierte
Sachen. Eine Vielfalt von Aufzeichnungsprotokollen kann beim Aufzeichnen
der Sprachdateien verwendet werden. Wenn ein Benutzer ein ausreichendes Diktat
erzeugt, für
das erwünscht,
es zu einem lokalen System für
den spezifischen Benutzer zu liefern, werden zur Anwendung zwei
Protokolle erwägt.
Spezifisch wird es erwägt,
dass sowohl ADPCM, eine adaptive differentielle Pulscodemodulation
(32 kbits/s, Diktaphoneigenschaft) als auch PCM, Pulscodemodulation
(64 kbits/s) verwendet werden können. Letztlich
müssen
alle Dateien für
Spracherkennungsaktivitäten
in PCM umgewandelt werden, obwohl die Verwendung von ADPCM verschiedene
Vorteile für ein
vorläufiges
Aufzeichnen und eine vorläufige
Speicherung bietet. Allgemein ist PCM durch eine aktuelle Spracherkennungsanwendung
erforderlich, erfordert aber wesentlichen Speicherplatz und eine
größere Bandbreite
während
einer Übertragung,
während ADPCM
kleinere Dateien beim Speichern der aufgezeichneten Sprachdateien
verwendet und weniger Bandbreite zur Übertragung erfordert. Während an dieses
gedacht wird, wird die folgende Option zur Verwendung erwägt, wobei
ein Benutzer ein ausreichendes Diktat erzeugt, für das er wünscht, es zu einem lokalen
System für
den spezifischen Benutzer zu liefern:
- a) Immer
im PCM-Format aufgezeichnet, ungeachtet dessen, ob ein Job für eine manuelle
Transkription oder eine Spracherkennung verwendet wird.
Vorteile:
einfach einzurichten, identisch für alle Installationen, keine Änderung,
wenn ein Kunde von einer manuellen Transkription zu einer Spracherkennung
geändert
wird.
Nachteile: Keine Beschleunigung/Verlangsamung, doppelte
Dateigröße (lokaler
Festplattenplatz, Transfer zum Datenzentrum).
- b) Im ADPCM-Format für
Kunden/Autoren aufgezeichnet, die die Spracherkennung nicht verwenden.
Vorteile:
Beschleunigung/Verlangsamung, kleinere Datei
Nachteile: höherer Aufwand
für eine
Konfiguration beim Kunden (insbesondere dann, wenn Benutzer zu einer
Erkennung geschaltet werden, welche die Kundenseite wieder zu konfigurieren
hat)
- c) Aufzeichnen immer in PCM, aber direktes Transcodieren zu
ADPCM (für
eine lokale Speicherung).
Vorteile: sehr kleine Datei (19 kbits/s)
für einen Transfer
zum Datenzentrum, ein Transcodieren im Datenzentrum für eine Spracherkennung
nötig, Beschleunigung/Verlangsamung
Nachteile:
benötigt
eine CPU-Leistung auf der Kundenseite zum Transcodieren (kann eine
maximale Anzahl von verfügbaren
Telefonanschlüssen reduzieren)
-
Gemäß einem
bevorzugten Ausführungsbeispiel
der vorliegenden Erfindung wird eine Workstation 31 für ein PC-basierendes
Diktat verwendet. Wenn der Benutzer die Einlogginformation einloggt bzw.
anmeldet, wird die Information zu dem zentralen Sprachprozessor 12 weitergeleitet
und wird die durch den zentralen Sprachprozessor 12 gewartete
Anwenderdatenbank bzw. Benutzerdatenbank 30a in Bezug auf
die Anwenderinformation, die Konfiguration und Zulassungen abgefragt.
Auf eine Beendigung des Einloggens des Benutzers hin wird der Benutzerbildschirm
angezeigt werden und wird zugelassen, dass der Benutzer fortfährt. Das
Verfahren zum Diktieren ist nicht auf die gegenwärtigen Handmikrofone von Philips
oder Dictaphone begrenzt. Die Anwendung wird geschrieben, um zuzulassen,
dass irgendeine Eingabevorrichtung verwendet wird. Der Dateneinloggbereich
der Workstation ist nicht komprimiert, um eine maximale Geschwindigkeit
zuzulassen. Nur die aufgezeichnete Stimme wird komprimiert, um einen
Netzwerkverkehr auf einem Minimum zu halten. Eine aufgezeichnete
Stimme ist im WAV-Format bei irgendeiner eingestellten Auflösung (32K
oder 64K ...), die konfiguriert werden muss, bevor die Workstationanwendung
gestartet wird.
-
Gemäß einem
alternativen Übertragungsverfahren
können
Sprachdateien bei einer digitalen mobilen Aufzeichnungsvorrichtung
aufgezeichnet und erzeugt werden.
-
Wenn
die Sprachdatei einmal erzeugt und komprimiert ist, kann sie über das
Internet auf nahezu dieselbe Weise übertragen werden, wie es oben bei
einem PC-basierenden
Diktat beschrieben ist.
-
Die
Spracherkennungsmaschinen 14 können eine Vielfalt von Formen
annehmen, und es ist nicht nötig,
dass irgendeine spezifische Kombination von Spracherkennungsmaschinen 14 gemäß der vorliegenden
Erfindung verwendet wird. Spezifisch wird erwägt, dass Maschinen 14 von
unterschiedlichen Herstellern in Kombination verwendet werden können, und
beispielsweise können
diejenigen von Philips mit denjenigen von Dragon Systems und IBM kombiniert
werden. Gemäß einem
bevorzugten Ausführungsbeispiel
der vorliegenden Erfindung wird eine Spracherkennungsmaschine 14 von
Dragon System verwendet. Gleichermaßen kann die Vielzahl von Spracherkennungsmaschinen 14 mit
unterschiedlichen Sprachmodellen geladen sein. Beispielsweise dort,
wo das System 10 für
eine Verwendung in Verbindung mit der medizinischen Industrie beabsichtigt
ist, ist es wohlbekannt, dass Physiker aus unterschiedlichen Disziplinen
unterschiedliche Terminologie bei ihrem Diktat von Tag zu Tag in
Bezug auf verschiedene Dinge verwenden. Während an dieses gedacht wird,
kann eine Vielzahl von Spracherkennungsmaschinen 14 mit
Sprachmodellen geladen sein, die die breite Vielfalt von medizinischen Disziplinen
darstellen, einschließlich,
aber nicht darauf beschränkt,
Radiologie, Pathologie, Invaliditätsbewertung, Orthopädie, Notfallmedizin,
allgemeine Chirurgie, Neurologie, Hals, Nase, Ohren, innere Medizin
und Kardiologie.
-
Gemäß einem
bevorzugten Ausführungsbeispiel
der vorliegenden Erfindung wird jede Spracherkennungsmaschine 14 eine
Erkennungsmaschinenschnittstelle 35, einen Spracherkennungs-Logikserver 36,
der Telefonie erkennt, einen PC oder eine in der Hand gehaltene
portierbare Eingabe, einen akustischen Anpassungs-Logikserver 38,
der individuelle akustische Benutzerreferenzdateien anpasst, einen Sprachmodellanpassungs-Logikserver 40,
der Worte modifiziert, hinzufügt
oder formatiert, einen Spracherkennungsserver 42, der eine
Spracherkennung bei Sprachdateien durchführt, die der Spracherkennungsmaschine
vorgelegt werden, und einen Sprachmodell-Identifikationsserver 43 enthalten. Eine
direkte Verbindung und ein Betrieb der Vielzahl von unterschiedlichen
Spracherkennungsmaschinen 14 mit dem zentralen Sprachprozessor 12 werden dadurch
ermöglicht,
dass zuerst jeder der Spracherkennungsmaschinen 14 ein
Spracherkennungsmaschinen-Wrapper 24 zur Verfügung gestellt
wird, der eine einheitliche Schnittstelle für einen Zugriff auf die verschiedenen
Spracherkennungsmaschinen 14 zur Verfügung stellt, die gemäß der vorliegenden
Erfindung verwendet werden.
-
Die
Verwendung eines einzigen zentralen Sprachprozessors 12 als
direkte Schnittstelle zu einer Vielzahl von Spracherkennungsmaschinen 14 ist weiterhin
durch das Enthaltensein von verbundenen Datenbanken implementiert,
die sowohl die Anwenderdaten 30a als auch die Sprachdateien 30b speichern.
Gemäß einem
bevorzugten Ausführungsbeispiel
der vorliegenden Erfindung ist die Datenbank 30 eine SQL-Datenbank, obwohl
andere Datenbankstrukturen verwendet werden können, ohne vom Sinngehalt der
vorliegenden Erfindung abzuweichen. Die Anwenderdaten 30a,
die durch die Datenbank 30 gehalten sind, sind aus Daten
in Bezug auf registrierte Anwender des Systems 10 zusammengesetzt. Solche
Anwenderdaten 30a können
einen Autor, einen Zusammenhang, eine Priorität und eine Identifikation diesbezüglich, ob
ein Diktat für
eine Spracherkennung oder manuelle Transkription zu verwenden ist,
enthalten. Die Anwenderdaten 30a enthalten auch ein akustisches
Profil des Anwenders.
-
Die
Spracherkennungsmaschinen-Wrapper 24, die gemäß der vorliegenden
Erfindung verwendet werden, sind derart entwickelt, dass die sonst
heterogene Reihe von Eingaben und Ausgaben, die durch die verschiedenen
Spracherkennungsmaschinen 14 verwendet werden, normalisiert
werden. Die Spracherkennungsmaschinen-Wrapper 24 erzeugen eine gemeinsame
Schnittstelle für
die Spracherkennungsmaschinen 14 und stellen den Spracherkennungsmaschinen 14 geeignete
Eingaben zur Verfügung. Der
zentrale Sprachprozessor 12 muss daher nicht programmiert
werden, um eine Schnittstelle zu jedem Typ von Spracherkennungsmaschine 14 zu
bilden, sondern kann vielmehr mit der normalisierten Schnittstelle
arbeiten, die durch den Spracherkennungsmaschinen-Wrapper 24 definiert
ist.
-
Der
Spracherkennungsmaschinen-Wrapper 24 fungiert zum Isolieren
der Spracherkennungsmaschine 14 vom Rest des Systems. Auf
diese Weise interagiert der Spracherkennungsmaschinen-Wrapper 24 direkt
mit dem zentralen Sprachprozessor 12 und interagiert gleichermaßen direkt
mit seiner zugehörigen
Spracherkennungsmaschine 14. Der Spracherkennungsmaschinen-Wrapper 24 wird
ein Maximum von 30 Audiodateien zu der Spracherkennungsmaschine 14 direkt
vorlegen und wird die Spracherkennungsmaschine 14 bezüglich einer
Arbeit überwachen,
die mit einer Erkennung beendet ist. Der Spracherkennungsmaschinen-Wrapper 24 wird dann
die fertig gestellte Arbeit wiedergewinnen bzw. Auslesen und sie
in einem geeigneten Format zur Übertragung
zu dem zentralen Sprachprozessor 12 sichern.
-
Der
Spracherkennungsmaschinen-Wrapper 24 wird auch die gesamte
Arbeit von dem zentralen Sprachprozessor 12 akzeptieren,
legt aber nur ein Maximum von 30 Jobs zu der zugehörigen Spracherkennungsmaschine 14 vor. Übrige Jobs
werden in einer Warteschlange 34 in einer Prioritätsreihenfolge gehalten
werden. Wenn ein neuer Job akzeptiert wird, wird er an das Ende
der Warteschlange 34 für seine
Priorität
gestellt. Eine Arbeit, die gewartet hat, wird basierend auf einer
Zeit, für
die für
eine Erkennung erwartet ist, nach vorn gestoßen. Wenn ein korrigierter
Text zu dem Spracherkennungsmaschinen-Wrapper 24 zugebracht
wird, wird er für
eine akustische Anpassung akzeptiert werden. Der Spracherkennungsmaschinen-Wrapper 24 fungiert
weiterhin zum Erzeugen eines Teilprozesses zum Überwachen der Spracherkennungsmaschine 14 auf
eine fertig gestellte erkannte Arbeit mit einem Zeitgeber, zum Erzeugen
einer Fehlerhandhabungseinheit zum Berichten eines Zustands zurück zu dem
zentralen Sprachprozessor 12, so dass eine Arbeit zurückgeführt werden
kann, und zum Akzeptieren eines korrigierten Textes und zum Korrigieren
von ihm zu einer zu akustischen Anpassungsfunktionen zugeordneten Spracherkennungsmaschine 14.
-
Wie
es oben kurz angegeben ist, ist der zentrale Sprachprozessor 12 mit
einem Prüfsystem 44 zum
Verfolgen von Ereignissen versehen, die im vorliegenden System stattfinden.
Die durch das Prüfsystem 44 entwickelte
Information kann darauffolgend durch das dynamische Überwachungsmittel 18 zum Verbessern
des effizienten Betriebs des vorliegenden Systems 10 verwendet
werden. Im Allgemeinen überwacht
das Prüfsystem 44 den
vollständigen
Pfad jedes Jobs, der in das System 10 eintritt, was einem Bediener
erlaubt, Information in Bezug auf den Zustand und den Fortschritt
von spezifischen Jobs, die dem System vorgelegt sind, auf einfache
Weise auszulesen. Ein Prüfen
wird durch Anweisen jeder Komponente des vorliegenden Systems 10 erreicht,
dem Prüfsystem 44 zurück zu berichten,
wann eine Aktion vorgenommen wird. Während an dieses gedacht wird,
ist das Prüfsystem 44 gemäß einem
bevorzugten Ausführungsbeispiel
der vorliegenden Erfindung eine separate Komponente, ist aber integriert
zu dem Betrieb des gesamten Systems 10.
-
Gemäß einem
bevorzugten Ausführungsbeispiel
des vorliegenden Systems 10 enthält das Prüfsystem 44 mehrere
unterschiedliche Anwendungen/Objekte: Prüfob jekt(e), Prüfserver,
Prüfvisualisierer
und Prüfadministrator.
Eine Information wird in der SQL-Datenbank des zentralen Sprachprozessors gespeichert.
Eine Kommunikation wird über
RPC (entfernter Prozeduraufruf) und Sockel gehandhabt. RPC lässt zu,
dass ein Programm einen Dienst von einem Programm anfordert, das
in einem anderen Computer in einem Netzwerk lokalisiert ist, ohne Netzwerkdetails
verstehen zu müssen.
RPC verwendet das Client/Server-Modell. Das anfordernde Programm
ist ein Client und das dienstliefernde Programm ist der Server.
Ein RPC ist ein synchroner Betrieb, der erfordert, dass das anfordernde
Programm kurzzeitig unterbrochen wird, bis die Ergebnisse der entfernten
Prozedur zurückgebracht
werden. Jedoch lässt
die Verwendung von leichtgewichtigen Prozessen oder Teilprozessen,
die denselben Adressenraum gemeinsam nutzen, zu, dass mehrere RPCs gleichzeitig
durchgeführt
werden.
-
Jedes
Ereignis, das durch das Prüfsystem 44 überwacht
wird, wird die folgende Information enthalten: Datum/Zeit des Ereignisses,
Spracherkennungsmaschine und Anwendungsname, Ebene und Klasse des
Ereignisses und einen erklärenden
Nachrichtentext zum Kommentieren von Zwecken.
-
Bei
allen Anwendungen des vorliegenden Systems bildet ein Prüfobjekt
eine Verbindung zu dem Prüfserver,
der auf dem Server lokalisiert ist, der der Host für die SQL-Datenbank des zentralen Sprachprozessors
ist. Mehrere Prüfobjekte
können auf
einem PC verwendet werden. Alle Kommunikationen werden über RPC-Aufrufe
behandelt. Das Prüfobjekt
sammelt die gesamte Information über
eine Anwendung und sendet basierend auf der LOG-Ebene diese Information
zum Prüfserver.
Der Prüfserver kann
die LOG-Ebene ändern,
um Kommunikations- und Speicheranforderungen auf dem niedrigstmöglichen
Niveau zu halten. Im Fall eines Kommunikationszusammenbruchs erzeugt
das Prüfobjekt
eine lokale LOG-Datei, die nach einem erneuten Aufbauen der Verbindung
zu dem Prüfserver
transferiert wird. Der Kommunikationszusammenbruch wird als Fehler berichtet.
Ein systemweiter eindeutiger Identifizierer kann jedes Prüfobjekt
identifizieren. Jedoch ist es möglich,
mehr als ein Prüfobjekt
zu haben, das auf einem PC verwendet wird. Die Anwendung, die ein Prüfobjekt
verwendet, wird alle Datei-I/O-, Kommunikations-I/O- und Speicheroperationen
kommentieren müssen.
Zusätzliche
Operationen können
ebenso kommentiert werden.
-
Von
den Prüfobjekten
wird Information durch das gesamte System zu dem Prüfserver
gesendet, der die gesamte Information in der SQL-Datenbank des zentralen
Sprachprozessors speichern wird. Der Prüfserver ist verantwortlich
für ein
Interagieren mit der Datenbank. Nur ein Prüfserver ist pro System zugelassen.
Der Prüfserver
wird die SQL-Datenbank nach spezifischen Ereignissen abfragen, die
bei einer oder mehreren Anwendungen auftreten. Die Abfrageinformation
wird von einem oder mehreren Prüfvisualisierern
empfangen. Das eingestellte Ergebnis wird über RPC und/oder Sockel zurück zu dem
Prüfvisualisierer
gesendet werden. Durch den Prüfserver können unterschiedliche
LOG-Ebenen individuell an jedem Prüfobjekt eingestellt werden.
In der Endphase ist der Prüfserver
als ein NT-Server implementiert, der auf demselben PC läuft, der
der Host für
den SQL-Server ist, um eine Kommunikation und einen Netzwerkverkehr
niedrig zu halten. Die Anwenderschnittstelle zu den Serverfunktionalitäten ist
durch die Prüfadministrationsanwendung
zur Verfügung gestellt.
Um die Datenbankgröße klein
zu halten, wird der Prüfserver
Datenbankeinträge
zu LOG-Dateien auf dem Dateienserver auf einer geplanten Basis transferieren.
-
Der
Prüfvisualisierer
ist verantwortlich für
ein Sammeln von Abfrageinformation vom Anwender, ein Senden der
Information zu dem Prüfserver
und ein Empfangen des eingestellten Ergebnisses bzw. der Ergebnisgruppe.
Als COM-Objekt implementiert kann der Prüfvisualisierer bei mehreren
unterschiedlichen Anwendungen wiederverwendet werden.
-
Der
Prüfadministrator
liefert Administrationsfunktionen für den Prüfserver, was ein Ändern der LOG-Ebene
an jedem der Prüfobjekte
zulässt.
Eine Zeitplanung archiviert Zeiten zum Halten einer Menge an Information
in der SQL-Datenbank auf so niedrig wie nötig.
-
Zusätzlich zu
dem zentralen Sprachprozessor 12 und den Spracherkennungsmaschinen 14 enthält das Diktier/Transkriptions-System
gemäß der vorliegenden
Erfindung eine Stimmserverschnittstelle 46 und eine Administratoranwendung 48.
Die Stimmserverschnittstelle 46 verwendet eine bekannte
Technologie und ist allgemein verantwortlich für ein Versorgen des zentralen
Sprachprozessors 12 mit Arbeit vom Stimmprozessor 22.
Als solches ist die Stimmserverschnittstelle 46 verantwortlich
für ein Verbinden
mit der Stimmeingabevorrichtung, ein Bekommen von Sprachdateien,
die für
eine Erkennung bereit sind, ein Empfangen von Anwenderinformation,
ein Be richten des Zustands von Jobs zurück zu dem zentralen Sprachprozessor 12,
ein Nehmen des TAT-Klotzes aus WAV-Sprachdateien und ein Erzeugen
der internen Jobstruktur für
den zentralen Sprachprozessor 12.
-
Die
Administratoranwendung 48 sitzt auf allen Workstations
innerhalb des Systems und steuert das System 10 von der
Ferne aus. Basierend auf dem Zugriff des Administrators unter Verwendung des
Systems wird die Administratoranwendung einen Zugriff zum Lesen,
Schreiben, Editieren und Löschen von
Funktionen zu allen oder nur einigen der Systemfunktionen zur Verfügung zu
stellen. Die funktionellen Komponenten enthalten, sind aber nicht
darauf beschränkt,
eine Registereinstellung und eine Modifikation, eine Datenbankadministration,
eine Anwendereinstellung, eine Diagnosewerkzeugsausführung und eine
statistische Analyse.
-
Der
zentrale Sprachprozessor 12 ist weiterhin mit einem Spracherkennungsmaschinen-Manager 50 versehen,
der die Spracherkennungsmaschinen-Wrapper 24 managt und
steuert. Als solches ist der Spracherkennungsmaschinen-Manager 50 verantwortlich
für ein
Vorlegen von Arbeit zu Spracherkennungsmaschinen-Wrappern 24,
ein Warten auf eine Erkennung von Arbeit, um beendet zu werden, und
ein Verfolgen der Zeit von einer Vorlage zu einer Beendigung, ein
Zurückgeben
der erkannten Jobinformation, einschließlich irgendeiner Statistik
des Spracherkennungsmaschinen-Wrappers 24 zum zentralen
Sprachprozessor 12, ein Handhaben einer Anwenderanpassung
und eines Eintragens eines Namens und ein Berichten von Fehlern
zu dem zentralen Sprachprozessor 12 (insbesondere des dynamischen Überwachungsmittels).
-
Wenn
einmal eine Transkription über
die verschiedenen Spracherkennungsmaschinen 14 beendet
ist, wird der Text zu einem Textprozessor 20 übertragen
und darin gespeichert. Der Textprozessor 20 greift auf
Sprachdateien von dem zentralen Sprachprozessor 12 gemäß einer
vorbestimmten Abfrage und Prioritätseinstellungen zu, baut in
den geschriebenen Text geeignete Arbeitstypschablonen basierend
auf Anweisungen ein, die den Anwenderdateien gehalten sind, fügt automatisch
Information, wie beispielsweise Patienteninformation, Krankenhaus-Anfangsblock,
Arzt-Signaturlinie
und cc-Liste mit Dokumenten gemäß vorbestimmten
Formatanforderungen, ein, fügt
automatisch Normalitäten
ein, wie es in der US-Patentanmeldung mit der seriellen Nr. 09/877,254
mit dem Titel "Automatic
Normal Report System",
eingereicht am 11. Juni 2001, die im gemeinsamen Besitz ist, beschrieben
ist, verteilt au tomatisch das Enddokument über Fax, E-Mail oder einen
Netzwerkdrucker und integriert es mit HIS (Krankenhausinformationssystemen)
oder anderen relevanten Datenbanken, um irgendeine Patienten- oder Krankenhausinformation,
die für
eine Fertigstellung von Dokumenten nötig ist, schnell auszulesen.
Während
die Funktionen des Textprozessors 20 oben unter Bezugnahme
auf eine Verwendung als Teil eines Krankenhaus-Transkriptionssystems
beschrieben sind, werden Fachleute auf dem Gebiet die weite Vielfalt
von Umgebungen erkennen, in welchen das vorliegende System verwendet
werden kann.
-
Der
Textprozessor 20 liefert weiterhin ein Versorgungsvehikel
für eine
Interaktion mit Transkriptionisten, die Sprachdateien manuell schreiben, die
für eine
Spracherkennung akustisch nicht akzeptierbar sind und/oder die für eine manuelle
Transkription bestimmt worden sind. Transkriptionisten korrigieren über den
Textprozessor auch Sprachdateien, die durch verschiedene Spracherkennungsmaschinen
geschrieben sind. Wenn einmal die elektronisch geschriebenen Sprachdateien
korrigiert sind, werden die Jobs mit eindeutigen Identifizierern,
die die Arbeit definieren, und die Stelle, wo sie durchgeführt wurde, gesendet.
Der korrigierte Text kann dann zu einer vorbestimmten Spracherkennungsmaschine
auf die oben diskutierte Weise weitergeleitet werden.
-
Zusammengefasst
ist der Textprozessor 20 verantwortlich für ein Erzeugen
eines Servers zum Empfangen von Aufrufen bzw. Anrufen, ein Abfragen von
Datenbanken 30 basierend auf gelieferten Daten und ein
Bestimmen von geeigneten Stellen zum Weiterleiten korrigierter Dateien
für eine
akustische Anpassung.
-
Im
allgemeinen sendet der Stimmprozessor 22 Sprachdateien
zu dem zentralen Sprachprozessor 12 über einen entfernten Verfahrensaufruf;
relevante Information wird daher zusammen mit den zwischen dem Stimmprozessor
und dem zentralen Sprachprozessor 12 ausgegebenen RPC-Aufrufen übertragen.
Arbeit wird anfangs in irgendeiner Reihenfolge vorgelegt werden.
Es wird in der Verantwortlichkeit des zentralen Sprachprozessors 12 liegen,
unter der Steuerung des dynamischen Überwachungsmittels 18,
der Arbeit vom Stimmprozessor 22, der den TAT-Klotz aus
einer WAV-Sprachdatei nimmt, eine Priorität zuzuteilen, die interne Jobstruktur
zu erzeugen, wie es oben diskutiert ist. Es wird jedoch erwägt, dass
der Stimmprozessor 22 Arbeit zu dem zentralen Sprachprozessor 12 in
einer Prioritätsreihenfolge
vorlegen wird.
-
Daten
fließen
innerhalb des vorliegenden Systems 10 auf die folgende
Weise. Der Stimmprozessor 22 exportiert eine Audio-Sprachdatei
im PCM-Format. Ein Aufzeichnung wird gleichzeitig dem zentralen
Sprachprozessor 12 vorgelegt, so dass ein Prüfereintrag
gemacht und eine Aufzeichnung in der Anwenderdatenbank 30a erzeugt
werden kann. Ein Fehler wird dann erzeugt werden, wenn der Anwender
nicht existiert.
-
Die
Sprachdatei wird dann temporär
durch die Datenbank 30 des zentralen Sprachprozessors gehalten
werden, bis zu einer solchen Zeit, zu welcher das dynamische Überwachungsmittel 18 und das
Versandsystem 32 bestimmen, dass es geeignet ist, die Sprachdatei
und zugehörige
Anwenderinformation zu einer bestimmten Spracherkennungsmaschine 14 weiterzuleiten.
Allgemein bestimmt das dynamische Überwachungsmittel die Arbeitsbelastung jeder
Spracherkennungsmaschine 14 und sendet den Job zu der am
wenigsten belasteten Spracherkennungsmaschine 14. Dies
wird nicht nur durch die Anzahl von Jobs in der Warteschlange für irgendeine Spracherkennungsmaschine 14 bestimmt,
sondern durch die gesamte Menge an zu erkennendem Audio.
-
Jobs
vom selben Anwender können
unterschiedlichen Spracherkennungsmaschinen 14 zugeordnet
werden. Tatsächlich
können
unterschiedliche Jobs vom selben Anwender aufgrund der Fähigkeit des
vorliegenden Systems, ein Auslesen von spezifischer Anwenderinformation
durch mehrere Spracherkennungsmaschinen 14 zur gleichen
Zeit zu ermöglichen,
zur gleichen Zeit verarbeitet werden. Die Fähigkeit zum Auslesen spezifischer
Anwenderinformation ist mit dem Sprachanpassungsverfahren des vorliegenden
Systems verbunden. Spezifisch wird anfangs ein Fabriksprachenmodell
erzeugt und zur Verwendung zu einer spezifischen Spracherkennungsmaschine 14 zugeordnet.
Jedoch wird jede Organisation, die am vorliegenden System teilnimmt, ein
anderes Vokabular haben, das zu dem ursprünglichen Fabriksprachenmodell
hinzugefügt
oder von diesem gelöscht
werden kann. Dieses modifizierte Sprachmodell wird derart angesehen,
dass es das Organisations-Sprachmodell ist. Das Organisations-Sprachmodell
ist weiterhin geeignet, wenn individuelle Anwender des vorliegenden
Systems ihre eigenen persönlichen
Präferenzen
in Bezug auf die Sprache entwickeln, die verwendet wird. Das Organisations-Sprachmodell
ist daher geeignet, gemäß den spezifischen
individuellen Präferenzen
von Anwendern zu sein, und ein spezifisches Anwender-Sprachmodell
wird für
jeden individuellen Anwender des vorliegenden Systems entwickelt.
Die Erzeugung eines solchen spezifischen Anwender-Sprachmodells
gemäß der vorliegenden
Erfindung lässt
zu, dass die Spracherkennungsmaschinen Information über jeden
Anwender ohne weiteres auslesen, wenn es erforderlich ist.
-
Der
zentrale Sprachprozessor 12 legt dann den Job der Spracherkennungsmaschine 14 vor
und aktualisiert die Aufzeichnung der Datenbank 30, um die
Zustandsänderung
zu berücksichtigen.
Die Anwenderinformation (einschließlich von Sprachmodellen und
akustischen Modellen) wird mit Audio dem Spracherkennungsmaschinen-Wrapper 24 zur
Verarbeitung vorgelegt. Der Spracherkennungsmaschinen-Wrapper 24 wird
das Audio testen, bevor er die Arbeit akzeptiert. Wenn sie nicht
durchgeht, wird ein Fehler erzeugt werden und wird der Stimmprozessor 22 benachrichtigt
werden, um den Job für
eine manuelle Transkription zu markieren.
-
Wenn
die Spracherkennungsmaschine 14 einmal die Transkription
der Sprachdatei beendet, wird die geschriebene Datei für eine Endverarbeitung zu
dem zentralen Sprachprozessor 12 gesendet.
-
Der
Spracherkennungsmaschinen-Wrapper 24 legt dann den nächsten Job
in der Warteschlange 34 vor und der zentrale Sprachprozessor 12 ändert den
Zustand der Jobaufzeichnung, um den erkannten Zustand zu berücksichtigen.
Er bereitet dann den Job für
eine Vorlage zum Stimmprozessor 22 vor. Der Stimmprozessor 22 importiert
den Job und ersetzt die alte Audiodatei mit der neuen basierend
auf der Jobid, die durch den zentralen Sprachprozessor 12 erzeugt
ist. Die geschriebene Sprachdatei, die durch die Spracherkennungsmaschine 14 erzeugt
ist, wird gesichert.
-
Wenn
ein Transkriptionist den Job ausliest und den Text korrigiert, wird
der Textprozessor 20 die korrigierte geschriebene Sprachdatei
dem zentralen Sprachprozessor 12 vorlegen. Der zentrale
Sprachprozessor 12 wird bestimmen, welche Spracherkennungsmaschine 14 zuvor
für den
Job verwendet wurde, und legt den geschriebenen korrigierten Text
dieser Spracherkennungsmaschine 14 für eine akustische Anpassung
bezüglich
einer Anstrengung vom Verbessern für eine zukünftige Verarbeitung von Jobs
von diesen Anwendern vor. Die überarbeitete akustische
Anpassung wird dann in den Anwender-id-Dateien gesichert, die in
der Datenbank 30 des zentra len Sprachprozessors gehalten
sind, zur Verwendung bei nachfolgenden Transkriptionen.
-
Während die
bevorzugten Ausführungsbeispiele
gezeigt und beschrieben worden sind, wird es verstanden werden,
dass es keine Absicht gibt, die Erfindung durch eine solche Offenbarung
zu beschränken,
sondern vielmehr ist beabsichtigt, alle Modifikationen und alternative
Konstruktionen abzudecken, die in den Schutzumfang der Erfindung
fallen, wie er in den beigefügten
Ansprüchen
definiert ist.