DE60219674T2 - Verteiltes Spracherkennungssystem und Verfahren zum Betreiben desselben - Google Patents

Verteiltes Spracherkennungssystem und Verfahren zum Betreiben desselben Download PDF

Info

Publication number
DE60219674T2
DE60219674T2 DE60219674T DE60219674T DE60219674T2 DE 60219674 T2 DE60219674 T2 DE 60219674T2 DE 60219674 T DE60219674 T DE 60219674T DE 60219674 T DE60219674 T DE 60219674T DE 60219674 T2 DE60219674 T2 DE 60219674T2
Authority
DE
Germany
Prior art keywords
speech
speech recognition
processor
files
recognition engines
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60219674T
Other languages
English (en)
Other versions
DE60219674D1 (de
Inventor
James Clinton CYR
Channell Bridgeport LAROSA-GREENE
Martin Fairfield HOLD
Regina Trumbull KUHNEN
Andrew Roxbury MACGINITIE
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dictaphone Corp
Original Assignee
Dictaphone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dictaphone Corp filed Critical Dictaphone Corp
Application granted granted Critical
Publication of DE60219674D1 publication Critical patent/DE60219674D1/de
Publication of DE60219674T2 publication Critical patent/DE60219674T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/34Adaptation of a single recogniser for parallel processing, e.g. by use of multiple processors or cloud computing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)
  • Multi Processors (AREA)
  • Traffic Control Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Computer And Data Communications (AREA)
  • Devices For Executing Special Programs (AREA)

Description

  • HINTERGRUND DER ERFINDUNG
  • 1. Gebiet der Erfindung
  • Die Erfindung betrifft ein verteiltes Spracherkennungssystem. Genauer gesagt betrifft die Erfindung ein verteiltes Spracherkennungssystem, bei welchem ein zentraler Sprachprozessor Sprachdateien von einer Vielzahl von Benutzern empfängt, die Sprachdateien zu einer Vielzahl von Spracherkennungsmaschinen verteilt und die Effektivität der verschiedenen Spracherkennungsmaschinen überwacht, um die Verteilung der Sprachdateien zu verbessern.
  • 2. Beschreibung des Standes der Technik
  • Jüngste Entwicklungen bei der Spracherkennungs- und Telekommunikationstechnologie haben eine automatisierte Transkription zu einer Realität gemacht. Die Fähigkeit zum Bereitstellen einer automatisierten Transkription ist nicht nur auf Spracher kennungsprodukte begrenzt, die auf einem einzelnen PC verwendet werden. Große Systeme für eine automatisierte Transkription sind gegenwärtig verfügbar.
  • Diese verteilten Spracherkennungssysteme lassen zu, dass Teilnehmer Sprachdateien bei einer Vielfalt von Orten aufzeichnen, die aufgezeichneten Sprachdateien zu einer zentralen Verarbeitungseinrichtung senden, wo die Sprachdateien geschrieben bzw. kopiert werden, und vollständig geschriebene Textdateien der ursprünglich vorgelegten Sprachdateien empfangen. Wie es Fachleute auf dem Gebiet sicher erkennen werden, erfordert ein solches System eine wesentliche Automatisierung zum Sicherstellen, dass alle Sprachdateien auf eine geordnete und effiziente Weise behandelt werden.
  • Frühere Systeme haben auf einer zentralen Verarbeitungseinrichtung beruht, die mit Gruppen bzw. Clustern von Spracherkennungsmaschinen verbunden sind, die durch eine Spracherkennungsschnittstelle geführt werden. Gemäß solchen Systemen treten Sprachdateien in die zentrale Verarbeitungseinrichtung ein und werden einfach unter der Vielzahl von Spracherkennungsgruppen ohne Berücksichtigung der Effizienz der Gruppe verteilt, zu welcher die Datei zugeordnet ist, oder der Fähigkeit spezifischer Spracherkennungsmaschinen, bestimmte Sprachdateien zu handhaben. Als solches sind viele der schnelleren Spracherkennungsmaschinen, die mit der zentralen Verarbeitungseinrichtung verbunden sind, oftmals unbenutzt, während andere, langsamere Spracherkennungsmaschinen einen Rückstau mit zu verarbeitenden Jobs haben.
  • In "The study an distributed speech recognition system" [Proceedings IEEE International Conference an Acoustics, Speech, and Signal Processing (ICASSP), Istanbul, Turkey, 5. – 9- Juni 2000, vol. 3, vom 6., 5. Juni 2000 (2000-06-05), Seiten 1431 – 1434, XP002233412 ISBN: 0-7803-6294-2] beschreiben Weiqi Zhang et al. ein verteiltes Spracherkennungssystem mit einem Moderator, der gemäß einem Arbeitsbelastungs-Planungsschema entscheidet, welche Spracherkennungsmaschine verfügbar ist. Das Arbeitsbelastungs-Planungsschema ist darauf abgestimmt, bestimmte Leistungsfähigkeitsmaße des Systems zu erfüllen, welche eine CPU-Effizienz des Spracherkennungssystems, eine Anzahl von Jobs, eine Reaktionszeit, eine Menge an verarbeiteten Daten, einen Kommunikationsdurchsatz und ein Speichererfordernis enthalten.
  • Denkt man an das Vorangehende, existiert gegenwärtig eine Notwendigkeit für ein verteiltes Transkriptionssystem, das, beruhend auf einer Vielzahl von Spracherkennungsmaschinen, die Verteilung von Jobs unter der Vielzahl von Spracherkennungsmaschinen effizient steuert. Das vorliegende System stellt ein solches Transkriptionssystem zur Verfügung.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Gemäß einem Aspekt der vorliegenden Erfindung wird ein verteiltes Spracherkennungssystem zur Verfügung gestellt, das einen Sprachprozessor aufweist, der mit einer Vielzahl von Spracherkennungsmaschinen verbunden ist, wobei der Sprachprozessor folgendes aufweist:
    einen Eingang zum Empfangen von Sprachdateien von einer Vielzahl von Benutzern;
    eine Speichereinrichtung zum Speichern jeder der empfangenen Sprachdateien, bis die Sprachdatei zu einer ausgewählten Spracherkennungsmaschine zur Verarbeitung gesendet wird;
    ein Versandsystem, das mit der Speichereinrichtung verbunden ist, zum Steuern der Übertragung der empfangenen Sprachdateien zu den Spracherkennungsmaschinen;
    dadurch gekennzeichnet, dass das System weiterhin eine dynamische Überwachungsmaschine zum Überwachen und Analysieren der Aktivität jeder der Spracherkennungsmaschinen aufweist, die mit dem Sprachprozessor verbunden sind, um Spracherkennungsmaschinen zu identifizieren, die die meiste Erfahrung mit spezifischem Vokabular haben, und zum Anweisen des Versandsystems, Sprachdateien zu der Spracherkennungsmaschine weiterzuleiten, die als diejenige mit der meisten Erfahrung mit dem Vokabular der jeweiligen Sprachdatei identifiziert ist.
  • Vorzugsweise enthält jede der Vielzahl von Spracherkennungsmaschinen eine Sprachmaschinen-Wrapper-Erleichterungsschnittstelle zwischen dem Sprachprozessor und der Spracherkennungsmaschine.
  • Der Sprachprozessor enthält vorzugsweise eine Datenbank von Benutzerdateien, die vor einer Übertragung zu vorausgewählten Spracherkennungsmaschinen anschließend mit Sprachdateien kombiniert werden. Das verteilte Spracherkennungssystem enthält weiterhin vorzugsweise ein Prüfsystem, einen Stimmprozessor und/oder einen Textprozessor zugehörig zu dem Sprachprozessor.
  • Gemäß einem weiteren Aspekt der vorliegenden Erfindung wird ein Verfahren zum Betreiben eines Spracherkennungssystems zur Verfügung gestellt, das einen Sprachprozessor aufweist, der mit einer Vielzahl von Spracherkennungsmaschinen verbunden ist, wobei das Verfahren die folgenden Schritte aufweist:
    Empfangen von Sprachdateien von einer Vielzahl von Benutzern an einem Eingang des Sprachprozessors;
    Speichern jeder der empfangenen Sprachdateien in einer Speichereinrichtung des Sprachprozessors, bis die Sprachdatei zu einer Spracherkennungsmaschine zur Verarbeitung übertragen wird;
    Übertragen der empfangenen Sprachdateien zu den Spracherkennungsmaschinen unter der Steuerung eines Versandsystems, das mit der Speichereinrichtung verbunden ist;
    gekennzeichnet durch die folgenden Schritte:
    Überwachen und Analysieren der Aktivität jeder der Spracherkennungsmaschinen, die mit dem Sprachprozessor verbunden sind, um die Spracherkennungsmaschinen zu identifizieren, die die meiste Erfahrung mit spezifischem Vokabular haben; und
    Anweisen des Versandsystems, Sprachdateien zu der Spracherkennungsmaschine weiterzuleiten, die als diejenige mit der meisten Erfahrung mit dem Vokabular der jeweiligen Sprachdatei identifiziert ist.
  • Vorzugsweise weist das Verfahren weiterhin die folgenden Schritte auf:
    Zuordnen eines Gewichtungsfaktors zu jeder der Vielzahl von Spracherkennungsmaschinen; und
    Verwenden des Gewichtungsfaktors beim Zuordnen von Sprachdateien zu der Vielzahl von Spracherkennungsmaschinen.
  • Vorzugsweise weist das Verfahren weiterhin die folgenden Schritte auf:
    Versehen des Sprachprozessors mit einer Datenbank von Benutzerdateien; und
    vor einer Übertragung zu vorausgewählten Spracherkennungsmaschinen anschließendes Kombinieren der Benutzerdaten mit Sprachdateien.
  • Andere Aufgabe und Vorteile der vorliegenden Erfindung werden aus der folgenden detaillierten Beschreibung offensichtlich werden, wenn sie in Verbindung mit den beigefügten Zeichnungen angeschaut wird, die bestimmte Ausführungsbeispiele der Erfindung aufzeigen, wie sie durch die Ansprüche definiert ist.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • 1 ist ein Schema des vorliegenden Systems.
  • 2 ist ein Schema des zentralen Sprachprozessors gemäß der vorliegenden Erfindung.
  • 3 ist ein Schema des Spracherkennungsmaschinen-Wrappers und der Spracherkennungsmaschine gemäß der vorliegenden Erfindung.
  • BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSBEISPIELE
  • Die detaillierten Ausführungsbeispiele der vorliegenden Erfindung sind hierin offenbart. Es sollte jedoch verstanden werden, dass die offenbarten Ausführungsbeispiele lediglich beispielhaft für die Erfindung sind, die in verschiedenen Formen ausgeführt werden kann. Daher sind die hierin offenbarten Details nicht als beschränkend zu interpretieren, sondern lediglich als die Basis für die Ansprüche und als eine Basis zum Lehren eines Fachmanns, wie die Erfindung herzustellen und/oder zu verwenden ist.
  • Unter Bezugnahme auf die 1, 2 und 3 ist ein verteiltes Spracherkennungssystem 10 offenbart. Das System enthält allgemein einen zentralen Sprachprozessor 12, der mit einer Vielzahl von Spracherkennungsmaschinen 14 und Benutzerschnittstellen 16, wie beispielsweise einer Vielzahl von Benutzer-Workstations, verbunden ist. Die Konstruktion und das Design des Systems 10 sorgen für eine redundante Verwendung einer Vielzahl von Spracherkennungsmaschinen 14, die direkt mit dem zentralen Sprachprozessor 12 verbunden sind. Dies lässt eine erweiterte Nutzung verfügbarer Ressourcen auf eine Weise zu, die die Effizienz des verteilten Spracherkennungssystems 10 wesentlich verbessert.
  • Das System 10 ist mit einem dynamischen Überwachungsmittel 18 versehen, das die Effektivität und Verfügbarkeit der verschiedenen Spracherkennungsmaschinen 14 dynamisch überwacht, die mit dem zentralen Sprachprozessor 12 verbunden sind. Das dynamische Überwachungsmittel 18 bestimmt, welche der Vielzahl von Spracherkennungsmaschinen 14, die mit dem zentralen Sprachprozessor 12 verbunden sind, am besten dazu geeignet ist, in Verbindung mit einem spezifischen Job verwendet zu werden.
  • In Bezug auf die Architektur des vorliegenden Systems, und wie es oben angegeben ist, enthält das System allgemein einen zentralen Sprachprozessor 12, der mit einer Vielzahl von unterschiedlichen Spracherkennungsmaschinen 14 verbunden ist und eine Interaktion mit dieser steuert. Der zentrale Sprachprozessor 12 ist zum Empfangen und Senden von Sprachdateien geeignet, und enthält demgemäß einen Eingang 21 zum Empfangen von Sprachdateien von Systembenutzern und einen Ausgang 23 zum Senden der Sprachdateien (mit geeigneter angehängter Information) zu der Vielfalt von Spracherkennungsmaschinen 14, die mit dem zentralen Sprachprozessor 12 verbunden sind. Eingänge und Ausgänge wie diese sind im Stand der Technik wohlbekannt, und Fachleute auf dem Gebiet werden sicher die vielen möglichen Variationen beim Aufbauen geeigneter Eingänge und Ausgänge zur Verwendung gemäß der vorliegenden Erfindung erkennen. Gemäß einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung sind die Sprachdateien WAV-Dateien, die zu den Spracherkennungsmaschinen 14 auf eine Weise eingegeben werden, die Fachleuten auf dem Gebiet bekannt ist.
  • Der zentrale Sprachprozessor 12 ist verantwortlich für das System 10 insgesamt und ist der Hauptknoten des Systems 10. Er ist entwickelt, um eine maximale Flexibilität zuzulassen. Der Sprachprozessor 12 handhabt ein Zukommen lassen von Meldungen zu und von Workstation-Clients, eine Datenbankwartung, eine Systemüberwachung, eine Prüfung und ein Vorlegen korrigierten Texts für die Erkennungsmaschine 14. Der zur Erkennung vorgelegte korrigierte Text wird anfangs zu dem zentralen Sprachprozessor 12 durch den Textprozessor 20 geliefert, der umgewandelte Textdateien für einen Vergleich mit den früheren Sprachdateien vorlegt. Wenn eine solche Textdatei zur Textkorrektur vorgelegt wird, verifiziert der zentrale Sprachprozessor 12, dass die Textdatei eine zugehörige Sprachdatei hat, die zuvor einer Spracherkennung unterzogen wurde. Wenn keine solche Sprachdatei lokalisiert ist, wird die Textdatei gelöscht und wird nicht berücksichtigt. Wenn jedoch die Textdatei aus der Anwendung der Spracherkennungsmaschine(n) 14 resultierte, wird die korrigierte Textdatei zu der geeigneten Spracherkennungsmaschine 14 weitergeleitet und wird durch die Spracherkennungsmaschine 14 ausgewertet, um zukünftige Transkriptionen zu verbessern.
  • Für alle Workstations ist es erforderlich, dass sie bei dem zentralen Sprachprozessor 12 auf die eine oder die andere Weise einloggen. Der zentrale Sprachprozessor 12 ist die einzige Komponente, die mit allen externen Anwendungen kommuniziert, einschließlich, aber nicht beschränkt darauf, eines Stimmprozessors 22, eines Textprozessors 20 und der Spracherkennungsmaschinen-Wrapper 24. Der Stimmprozessor 22 ist spezifisch mit einer Schnittstelle 26 entwickelt worden, die zur Verwendung in Verbindung mit den Spracherkennungsmaschinen 14 geeignet ist. Die Schnittstelle 26 ist dazu geeignet, Sprachdateien in einen spezifischen Zustand zu versetzen; beispielsweise wird dort, wo eine Sprachdatei durchgesehen und geschrieben worden ist, die Schnittstelle den Zustand einer solchen Sprachdatei richtig bemerken. Wie es nachfolgend detaillierter diskutiert werden wird, enthält der Stimmprozessor 22 sowohl eine Server- als auch eine Client-Funktionalität, während der Textprozessor 20 nur eine Server-Funktionalität enthält.
  • Alle festen Systemkonfigurationen sind im Register 28 des zentralen Sprachprozessors 12 eingestellt. Alle Laufzeit-Systemkonfigurationen und Benutzerkonfigurationseinstellungen sind in der Datenbank 30 des zentralen Sprachprozessors 12 gespeichert. Der zentrale Sprachprozessor 12 schaut auf die Einstellungen des Registers 28 nur bei einem Hochfahren, so dass die gesamte Information, die einer Änderung unterzogen wird, in der Datenbank 30 gespeichert sein muss.
  • Wie es oben angegeben ist, enthält der zentrale Sprachprozessor 12 ein dynamisches Überwachungsmittel 18. Das dynamische Überwachungsmittel 18 führt den zentralen Sprachprozessor 12 in Bezug darauf, wo und wann alle Jobs den Spracherkennungsmaschinen 14 vorgelegt werden sollten. Das dynamische Überwachungsmittel 18 funktioniert durch Zuordnen eines Gewichtungsfaktors zu jeder der Spracherkennungsmaschinen 14, die in Verbindung mit dem vorliegenden System arbeiten. Spezifisch wird die Arbeitsgeschwindigkeit jedes Spracherkennungsmaschinen-Prozessors durch das dynamische Überwachungsmittel 18 überwacht und ist diesem bekannt. Beispielsweise wird einer Spracherkennungsmaschine 14, die 1 Minute einer Sprachdatei in einer Zeit von 2 Minuten verarbeiten kann, ein Gewich tungsfaktor von 2 zugeteilt werden, während einer Spracherkennungsmaschine 14, die 1 Minute einer Sprachdatei in 3 Minuten verarbeiten kann, ein Gewichtungsfaktor von 3 zugeteilt werden wird. Die Gewichtungsfaktoren werden dann in Verbindung mit dem verfügbaren Warteschlangenraum in jeder der Spracherkennungsmaschinen 14 angewendet, um zu bestimmen, wohin eine jeweilige neue Sprachdatei zur Verarbeitung geführt werden sollte.
  • Zusätzlich wird es erwägt, dass das dynamische Überwachungsmittel 18 die Verfügbarkeit von Spracherkennungsmaschinen 14 beim Zuordnen von Jobs zu verschiedenen Erkennungsmaschinen 14 überwachen kann. Wenn beispielsweise eine Spracherkennungsmaschine 14 aus irgendeinem Grund nicht reagiert oder einen Job ausgelassen hat, wird der Job zur nächsten Maschine 14 oder zu überhaupt keiner vorgelegt. Der zentrale Sprachprozessor 12 ist auch verantwortlich für ein Backup der Datenbank und ein SOS, wenn es nötig ist.
  • Es wird weiterhin erwägt, dass das dynamische Überwachungsmittel 18 die Effizienz von bestimmten Spracherkennungsmaschinen 14 beim Handhaben von Sprachdateien überwachen kann, die durch spezifische Benutzer oder durch Benutzer, die zu einem spezifischen Profil passen, erzeugt sind. Ein solches Merkmal wird wahrscheinlich die Sprachmodelle und die akustischen Modelle berücksichtigen, die durch die verschiedenen Spracherkennungsmaschinen 14 verwendet werden. Beispielsweise kann das dynamische Überwachungsmittel 18 herausfinden, dass eine spezifische Spracherkennungsmaschine 18 sehr effizient beim Handhaben von Benutzern innerhalb des Gebiets der internen Medizin ist, und diese Information wird dazu verwendet werden, die Arbeit effizienter unter den verschiedenen Spracherkennungsmaschinen 18 zu verteilen, die mit dem zentralen Sprachprozessor 12 verbunden sein könnten.
  • Der zentrale Sprachprozessor 12 enthält weiterhin ein Versandsystem 32, das die Übertragung von Sprachdateien zu der Vielzahl von Spracherkennungsmaschinen 14 auf eine kontrollierte Weise steuert. Das Versandsystem 32 ist weiterhin mit dem dynamischen Überwachungsmittel 18 verbunden, das die Aktivität von jeder der Spracherkennungsmaschinen 14 überwacht, die mit dem zentralen Sprachprozessor 12 verbunden sind, und führt eine Analyse von ihrer Aktivität zur Verwendung beim Zuordnen von Sprachdateien zu der Vielzahl von Spracherkennungsmaschinen 14 durch. Unter Verwendung dieser Information arbeiten das dynamische Überwa chungsmittel 18 und das Versandsystem 32 zusammen, um neue Jobs in geeignete Warteschlangen 34 der Spracherkennungsmaschinen 14 einzufügen, die Arbeit basierend auf einer Priorität vorzulegen und den Prioritätspegel nach oben zu treiben, wenn ein Job zu lange herumgesessen ist. Das Versandsystem 32 und das dynamische Überwachungsmittel 18 arbeiten in Verbindung, um sicherzustellen, dass Sprachdateien zu der Vielfalt von verfügbaren Spracherkennungsmaschinen 14 auf eine Weise gesendet werden, die einen Betrieb des gesamten Systems 10 optimiert.
  • Beispielsweise identifiziert das dynamische Überwachungsmittel 18 Spracherkennungsmaschinen 14, die am meisten Erfahrung mit spezifischem Vokabular haben, und weist das Versandsystem 32 an, ähnliche Sprachdateien zu denjenigen Spracherkennungsmaschinen 14 weiterzuleiten, die am besten zur Verarbeitung der ausgewählten Sprachdatei geeignet sind. Das dynamische Überwachungsmittel 18 wird auch die am schnellsten arbeitenden Spracherkennungsmaschinen 14 feststellen und das Versandsystem 32 anweisen, Sprachdateien hoher Priorität zu diesen Spracherkennungsmaschinen 14 weiterzuleiten.
  • Zusammengefasst enthält der zentrale Sprachprozessor 12 eine Funktionalität zum Durchführen der folgenden Aufgaben, ist aber nicht darauf beschränkt:
    • – Dienst an den Workstations; Anmeldungen bzw. Einloggen, Arbeitsvorlage, Zustandsaktualisierungen zum Client. (basierend auf dem Netz)
    • – Handhaben von Fehlerzuständen in dem Fall, in welchem ein Cluster bzw. eine Gruppe ein Antworten stoppt.
    • – Datenbank-Backup.
    • – Verfolgungsausgabewartung.
    • – Prüfer-Datenbankwartung.
    • – Akzeptanz und Vorlage eines korrigierten Textes.
    • – Verfolgen des Zustands von jeder Arbeit.
    • – Erkannte Arbeit dem Stimmprozessor vorlegen.
    • – Steuervorlage von Jobs zu den Spracherkennungsmaschinen.
  • Es wird erwägt, dass Benutzer des vorliegenden Systems 10 Dateien über eine lokale PABX eingeben können, wobei alle Dateien lokal aufgezeichnet und dann über das Internet zu dem zentralen Sprachprozessor 12 transferiert werden. Für diejenigen Benutzer, die keinen Vorteil aus der PABX-Verbindung ziehen können, können sie den zentralen Sprachprozessor 12 direkt über herkömmliche landgebundene Leitungen aufrufen. Es kann weiterhin möglich sein, PC-basierende Diktier- oder in der Hand gehaltene Vorrichtungen in Verbindung mit dem vorliegenden System zu verwenden.
  • Die durch den zentralen Sprachprozessor 12 gespeicherte Sprachdateien sind die durch Benutzer des vorliegenden Systems vorbereitete diktierte Sachen. Eine Vielfalt von Aufzeichnungsprotokollen kann beim Aufzeichnen der Sprachdateien verwendet werden. Wenn ein Benutzer ein ausreichendes Diktat erzeugt, für das erwünscht, es zu einem lokalen System für den spezifischen Benutzer zu liefern, werden zur Anwendung zwei Protokolle erwägt. Spezifisch wird es erwägt, dass sowohl ADPCM, eine adaptive differentielle Pulscodemodulation (32 kbits/s, Diktaphoneigenschaft) als auch PCM, Pulscodemodulation (64 kbits/s) verwendet werden können. Letztlich müssen alle Dateien für Spracherkennungsaktivitäten in PCM umgewandelt werden, obwohl die Verwendung von ADPCM verschiedene Vorteile für ein vorläufiges Aufzeichnen und eine vorläufige Speicherung bietet. Allgemein ist PCM durch eine aktuelle Spracherkennungsanwendung erforderlich, erfordert aber wesentlichen Speicherplatz und eine größere Bandbreite während einer Übertragung, während ADPCM kleinere Dateien beim Speichern der aufgezeichneten Sprachdateien verwendet und weniger Bandbreite zur Übertragung erfordert. Während an dieses gedacht wird, wird die folgende Option zur Verwendung erwägt, wobei ein Benutzer ein ausreichendes Diktat erzeugt, für das er wünscht, es zu einem lokalen System für den spezifischen Benutzer zu liefern:
    • a) Immer im PCM-Format aufgezeichnet, ungeachtet dessen, ob ein Job für eine manuelle Transkription oder eine Spracherkennung verwendet wird. Vorteile: einfach einzurichten, identisch für alle Installationen, keine Änderung, wenn ein Kunde von einer manuellen Transkription zu einer Spracherkennung geändert wird. Nachteile: Keine Beschleunigung/Verlangsamung, doppelte Dateigröße (lokaler Festplattenplatz, Transfer zum Datenzentrum).
    • b) Im ADPCM-Format für Kunden/Autoren aufgezeichnet, die die Spracherkennung nicht verwenden. Vorteile: Beschleunigung/Verlangsamung, kleinere Datei Nachteile: höherer Aufwand für eine Konfiguration beim Kunden (insbesondere dann, wenn Benutzer zu einer Erkennung geschaltet werden, welche die Kundenseite wieder zu konfigurieren hat)
    • c) Aufzeichnen immer in PCM, aber direktes Transcodieren zu ADPCM (für eine lokale Speicherung). Vorteile: sehr kleine Datei (19 kbits/s) für einen Transfer zum Datenzentrum, ein Transcodieren im Datenzentrum für eine Spracherkennung nötig, Beschleunigung/Verlangsamung Nachteile: benötigt eine CPU-Leistung auf der Kundenseite zum Transcodieren (kann eine maximale Anzahl von verfügbaren Telefonanschlüssen reduzieren)
  • Gemäß einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung wird eine Workstation 31 für ein PC-basierendes Diktat verwendet. Wenn der Benutzer die Einlogginformation einloggt bzw. anmeldet, wird die Information zu dem zentralen Sprachprozessor 12 weitergeleitet und wird die durch den zentralen Sprachprozessor 12 gewartete Anwenderdatenbank bzw. Benutzerdatenbank 30a in Bezug auf die Anwenderinformation, die Konfiguration und Zulassungen abgefragt. Auf eine Beendigung des Einloggens des Benutzers hin wird der Benutzerbildschirm angezeigt werden und wird zugelassen, dass der Benutzer fortfährt. Das Verfahren zum Diktieren ist nicht auf die gegenwärtigen Handmikrofone von Philips oder Dictaphone begrenzt. Die Anwendung wird geschrieben, um zuzulassen, dass irgendeine Eingabevorrichtung verwendet wird. Der Dateneinloggbereich der Workstation ist nicht komprimiert, um eine maximale Geschwindigkeit zuzulassen. Nur die aufgezeichnete Stimme wird komprimiert, um einen Netzwerkverkehr auf einem Minimum zu halten. Eine aufgezeichnete Stimme ist im WAV-Format bei irgendeiner eingestellten Auflösung (32K oder 64K ...), die konfiguriert werden muss, bevor die Workstationanwendung gestartet wird.
  • Gemäß einem alternativen Übertragungsverfahren können Sprachdateien bei einer digitalen mobilen Aufzeichnungsvorrichtung aufgezeichnet und erzeugt werden.
  • Wenn die Sprachdatei einmal erzeugt und komprimiert ist, kann sie über das Internet auf nahezu dieselbe Weise übertragen werden, wie es oben bei einem PC-basierenden Diktat beschrieben ist.
  • Die Spracherkennungsmaschinen 14 können eine Vielfalt von Formen annehmen, und es ist nicht nötig, dass irgendeine spezifische Kombination von Spracherkennungsmaschinen 14 gemäß der vorliegenden Erfindung verwendet wird. Spezifisch wird erwägt, dass Maschinen 14 von unterschiedlichen Herstellern in Kombination verwendet werden können, und beispielsweise können diejenigen von Philips mit denjenigen von Dragon Systems und IBM kombiniert werden. Gemäß einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung wird eine Spracherkennungsmaschine 14 von Dragon System verwendet. Gleichermaßen kann die Vielzahl von Spracherkennungsmaschinen 14 mit unterschiedlichen Sprachmodellen geladen sein. Beispielsweise dort, wo das System 10 für eine Verwendung in Verbindung mit der medizinischen Industrie beabsichtigt ist, ist es wohlbekannt, dass Physiker aus unterschiedlichen Disziplinen unterschiedliche Terminologie bei ihrem Diktat von Tag zu Tag in Bezug auf verschiedene Dinge verwenden. Während an dieses gedacht wird, kann eine Vielzahl von Spracherkennungsmaschinen 14 mit Sprachmodellen geladen sein, die die breite Vielfalt von medizinischen Disziplinen darstellen, einschließlich, aber nicht darauf beschränkt, Radiologie, Pathologie, Invaliditätsbewertung, Orthopädie, Notfallmedizin, allgemeine Chirurgie, Neurologie, Hals, Nase, Ohren, innere Medizin und Kardiologie.
  • Gemäß einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung wird jede Spracherkennungsmaschine 14 eine Erkennungsmaschinenschnittstelle 35, einen Spracherkennungs-Logikserver 36, der Telefonie erkennt, einen PC oder eine in der Hand gehaltene portierbare Eingabe, einen akustischen Anpassungs-Logikserver 38, der individuelle akustische Benutzerreferenzdateien anpasst, einen Sprachmodellanpassungs-Logikserver 40, der Worte modifiziert, hinzufügt oder formatiert, einen Spracherkennungsserver 42, der eine Spracherkennung bei Sprachdateien durchführt, die der Spracherkennungsmaschine vorgelegt werden, und einen Sprachmodell-Identifikationsserver 43 enthalten. Eine direkte Verbindung und ein Betrieb der Vielzahl von unterschiedlichen Spracherkennungsmaschinen 14 mit dem zentralen Sprachprozessor 12 werden dadurch ermöglicht, dass zuerst jeder der Spracherkennungsmaschinen 14 ein Spracherkennungsmaschinen-Wrapper 24 zur Verfügung gestellt wird, der eine einheitliche Schnittstelle für einen Zugriff auf die verschiedenen Spracherkennungsmaschinen 14 zur Verfügung stellt, die gemäß der vorliegenden Erfindung verwendet werden.
  • Die Verwendung eines einzigen zentralen Sprachprozessors 12 als direkte Schnittstelle zu einer Vielzahl von Spracherkennungsmaschinen 14 ist weiterhin durch das Enthaltensein von verbundenen Datenbanken implementiert, die sowohl die Anwenderdaten 30a als auch die Sprachdateien 30b speichern. Gemäß einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung ist die Datenbank 30 eine SQL-Datenbank, obwohl andere Datenbankstrukturen verwendet werden können, ohne vom Sinngehalt der vorliegenden Erfindung abzuweichen. Die Anwenderdaten 30a, die durch die Datenbank 30 gehalten sind, sind aus Daten in Bezug auf registrierte Anwender des Systems 10 zusammengesetzt. Solche Anwenderdaten 30a können einen Autor, einen Zusammenhang, eine Priorität und eine Identifikation diesbezüglich, ob ein Diktat für eine Spracherkennung oder manuelle Transkription zu verwenden ist, enthalten. Die Anwenderdaten 30a enthalten auch ein akustisches Profil des Anwenders.
  • Die Spracherkennungsmaschinen-Wrapper 24, die gemäß der vorliegenden Erfindung verwendet werden, sind derart entwickelt, dass die sonst heterogene Reihe von Eingaben und Ausgaben, die durch die verschiedenen Spracherkennungsmaschinen 14 verwendet werden, normalisiert werden. Die Spracherkennungsmaschinen-Wrapper 24 erzeugen eine gemeinsame Schnittstelle für die Spracherkennungsmaschinen 14 und stellen den Spracherkennungsmaschinen 14 geeignete Eingaben zur Verfügung. Der zentrale Sprachprozessor 12 muss daher nicht programmiert werden, um eine Schnittstelle zu jedem Typ von Spracherkennungsmaschine 14 zu bilden, sondern kann vielmehr mit der normalisierten Schnittstelle arbeiten, die durch den Spracherkennungsmaschinen-Wrapper 24 definiert ist.
  • Der Spracherkennungsmaschinen-Wrapper 24 fungiert zum Isolieren der Spracherkennungsmaschine 14 vom Rest des Systems. Auf diese Weise interagiert der Spracherkennungsmaschinen-Wrapper 24 direkt mit dem zentralen Sprachprozessor 12 und interagiert gleichermaßen direkt mit seiner zugehörigen Spracherkennungsmaschine 14. Der Spracherkennungsmaschinen-Wrapper 24 wird ein Maximum von 30 Audiodateien zu der Spracherkennungsmaschine 14 direkt vorlegen und wird die Spracherkennungsmaschine 14 bezüglich einer Arbeit überwachen, die mit einer Erkennung beendet ist. Der Spracherkennungsmaschinen-Wrapper 24 wird dann die fertig gestellte Arbeit wiedergewinnen bzw. Auslesen und sie in einem geeigneten Format zur Übertragung zu dem zentralen Sprachprozessor 12 sichern.
  • Der Spracherkennungsmaschinen-Wrapper 24 wird auch die gesamte Arbeit von dem zentralen Sprachprozessor 12 akzeptieren, legt aber nur ein Maximum von 30 Jobs zu der zugehörigen Spracherkennungsmaschine 14 vor. Übrige Jobs werden in einer Warteschlange 34 in einer Prioritätsreihenfolge gehalten werden. Wenn ein neuer Job akzeptiert wird, wird er an das Ende der Warteschlange 34 für seine Priorität gestellt. Eine Arbeit, die gewartet hat, wird basierend auf einer Zeit, für die für eine Erkennung erwartet ist, nach vorn gestoßen. Wenn ein korrigierter Text zu dem Spracherkennungsmaschinen-Wrapper 24 zugebracht wird, wird er für eine akustische Anpassung akzeptiert werden. Der Spracherkennungsmaschinen-Wrapper 24 fungiert weiterhin zum Erzeugen eines Teilprozesses zum Überwachen der Spracherkennungsmaschine 14 auf eine fertig gestellte erkannte Arbeit mit einem Zeitgeber, zum Erzeugen einer Fehlerhandhabungseinheit zum Berichten eines Zustands zurück zu dem zentralen Sprachprozessor 12, so dass eine Arbeit zurückgeführt werden kann, und zum Akzeptieren eines korrigierten Textes und zum Korrigieren von ihm zu einer zu akustischen Anpassungsfunktionen zugeordneten Spracherkennungsmaschine 14.
  • Wie es oben kurz angegeben ist, ist der zentrale Sprachprozessor 12 mit einem Prüfsystem 44 zum Verfolgen von Ereignissen versehen, die im vorliegenden System stattfinden. Die durch das Prüfsystem 44 entwickelte Information kann darauffolgend durch das dynamische Überwachungsmittel 18 zum Verbessern des effizienten Betriebs des vorliegenden Systems 10 verwendet werden. Im Allgemeinen überwacht das Prüfsystem 44 den vollständigen Pfad jedes Jobs, der in das System 10 eintritt, was einem Bediener erlaubt, Information in Bezug auf den Zustand und den Fortschritt von spezifischen Jobs, die dem System vorgelegt sind, auf einfache Weise auszulesen. Ein Prüfen wird durch Anweisen jeder Komponente des vorliegenden Systems 10 erreicht, dem Prüfsystem 44 zurück zu berichten, wann eine Aktion vorgenommen wird. Während an dieses gedacht wird, ist das Prüfsystem 44 gemäß einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung eine separate Komponente, ist aber integriert zu dem Betrieb des gesamten Systems 10.
  • Gemäß einem bevorzugten Ausführungsbeispiel des vorliegenden Systems 10 enthält das Prüfsystem 44 mehrere unterschiedliche Anwendungen/Objekte: Prüfob jekt(e), Prüfserver, Prüfvisualisierer und Prüfadministrator. Eine Information wird in der SQL-Datenbank des zentralen Sprachprozessors gespeichert. Eine Kommunikation wird über RPC (entfernter Prozeduraufruf) und Sockel gehandhabt. RPC lässt zu, dass ein Programm einen Dienst von einem Programm anfordert, das in einem anderen Computer in einem Netzwerk lokalisiert ist, ohne Netzwerkdetails verstehen zu müssen. RPC verwendet das Client/Server-Modell. Das anfordernde Programm ist ein Client und das dienstliefernde Programm ist der Server. Ein RPC ist ein synchroner Betrieb, der erfordert, dass das anfordernde Programm kurzzeitig unterbrochen wird, bis die Ergebnisse der entfernten Prozedur zurückgebracht werden. Jedoch lässt die Verwendung von leichtgewichtigen Prozessen oder Teilprozessen, die denselben Adressenraum gemeinsam nutzen, zu, dass mehrere RPCs gleichzeitig durchgeführt werden.
  • Jedes Ereignis, das durch das Prüfsystem 44 überwacht wird, wird die folgende Information enthalten: Datum/Zeit des Ereignisses, Spracherkennungsmaschine und Anwendungsname, Ebene und Klasse des Ereignisses und einen erklärenden Nachrichtentext zum Kommentieren von Zwecken.
  • Bei allen Anwendungen des vorliegenden Systems bildet ein Prüfobjekt eine Verbindung zu dem Prüfserver, der auf dem Server lokalisiert ist, der der Host für die SQL-Datenbank des zentralen Sprachprozessors ist. Mehrere Prüfobjekte können auf einem PC verwendet werden. Alle Kommunikationen werden über RPC-Aufrufe behandelt. Das Prüfobjekt sammelt die gesamte Information über eine Anwendung und sendet basierend auf der LOG-Ebene diese Information zum Prüfserver. Der Prüfserver kann die LOG-Ebene ändern, um Kommunikations- und Speicheranforderungen auf dem niedrigstmöglichen Niveau zu halten. Im Fall eines Kommunikationszusammenbruchs erzeugt das Prüfobjekt eine lokale LOG-Datei, die nach einem erneuten Aufbauen der Verbindung zu dem Prüfserver transferiert wird. Der Kommunikationszusammenbruch wird als Fehler berichtet. Ein systemweiter eindeutiger Identifizierer kann jedes Prüfobjekt identifizieren. Jedoch ist es möglich, mehr als ein Prüfobjekt zu haben, das auf einem PC verwendet wird. Die Anwendung, die ein Prüfobjekt verwendet, wird alle Datei-I/O-, Kommunikations-I/O- und Speicheroperationen kommentieren müssen. Zusätzliche Operationen können ebenso kommentiert werden.
  • Von den Prüfobjekten wird Information durch das gesamte System zu dem Prüfserver gesendet, der die gesamte Information in der SQL-Datenbank des zentralen Sprachprozessors speichern wird. Der Prüfserver ist verantwortlich für ein Interagieren mit der Datenbank. Nur ein Prüfserver ist pro System zugelassen. Der Prüfserver wird die SQL-Datenbank nach spezifischen Ereignissen abfragen, die bei einer oder mehreren Anwendungen auftreten. Die Abfrageinformation wird von einem oder mehreren Prüfvisualisierern empfangen. Das eingestellte Ergebnis wird über RPC und/oder Sockel zurück zu dem Prüfvisualisierer gesendet werden. Durch den Prüfserver können unterschiedliche LOG-Ebenen individuell an jedem Prüfobjekt eingestellt werden. In der Endphase ist der Prüfserver als ein NT-Server implementiert, der auf demselben PC läuft, der der Host für den SQL-Server ist, um eine Kommunikation und einen Netzwerkverkehr niedrig zu halten. Die Anwenderschnittstelle zu den Serverfunktionalitäten ist durch die Prüfadministrationsanwendung zur Verfügung gestellt. Um die Datenbankgröße klein zu halten, wird der Prüfserver Datenbankeinträge zu LOG-Dateien auf dem Dateienserver auf einer geplanten Basis transferieren.
  • Der Prüfvisualisierer ist verantwortlich für ein Sammeln von Abfrageinformation vom Anwender, ein Senden der Information zu dem Prüfserver und ein Empfangen des eingestellten Ergebnisses bzw. der Ergebnisgruppe. Als COM-Objekt implementiert kann der Prüfvisualisierer bei mehreren unterschiedlichen Anwendungen wiederverwendet werden.
  • Der Prüfadministrator liefert Administrationsfunktionen für den Prüfserver, was ein Ändern der LOG-Ebene an jedem der Prüfobjekte zulässt. Eine Zeitplanung archiviert Zeiten zum Halten einer Menge an Information in der SQL-Datenbank auf so niedrig wie nötig.
  • Zusätzlich zu dem zentralen Sprachprozessor 12 und den Spracherkennungsmaschinen 14 enthält das Diktier/Transkriptions-System gemäß der vorliegenden Erfindung eine Stimmserverschnittstelle 46 und eine Administratoranwendung 48. Die Stimmserverschnittstelle 46 verwendet eine bekannte Technologie und ist allgemein verantwortlich für ein Versorgen des zentralen Sprachprozessors 12 mit Arbeit vom Stimmprozessor 22. Als solches ist die Stimmserverschnittstelle 46 verantwortlich für ein Verbinden mit der Stimmeingabevorrichtung, ein Bekommen von Sprachdateien, die für eine Erkennung bereit sind, ein Empfangen von Anwenderinformation, ein Be richten des Zustands von Jobs zurück zu dem zentralen Sprachprozessor 12, ein Nehmen des TAT-Klotzes aus WAV-Sprachdateien und ein Erzeugen der internen Jobstruktur für den zentralen Sprachprozessor 12.
  • Die Administratoranwendung 48 sitzt auf allen Workstations innerhalb des Systems und steuert das System 10 von der Ferne aus. Basierend auf dem Zugriff des Administrators unter Verwendung des Systems wird die Administratoranwendung einen Zugriff zum Lesen, Schreiben, Editieren und Löschen von Funktionen zu allen oder nur einigen der Systemfunktionen zur Verfügung zu stellen. Die funktionellen Komponenten enthalten, sind aber nicht darauf beschränkt, eine Registereinstellung und eine Modifikation, eine Datenbankadministration, eine Anwendereinstellung, eine Diagnosewerkzeugsausführung und eine statistische Analyse.
  • Der zentrale Sprachprozessor 12 ist weiterhin mit einem Spracherkennungsmaschinen-Manager 50 versehen, der die Spracherkennungsmaschinen-Wrapper 24 managt und steuert. Als solches ist der Spracherkennungsmaschinen-Manager 50 verantwortlich für ein Vorlegen von Arbeit zu Spracherkennungsmaschinen-Wrappern 24, ein Warten auf eine Erkennung von Arbeit, um beendet zu werden, und ein Verfolgen der Zeit von einer Vorlage zu einer Beendigung, ein Zurückgeben der erkannten Jobinformation, einschließlich irgendeiner Statistik des Spracherkennungsmaschinen-Wrappers 24 zum zentralen Sprachprozessor 12, ein Handhaben einer Anwenderanpassung und eines Eintragens eines Namens und ein Berichten von Fehlern zu dem zentralen Sprachprozessor 12 (insbesondere des dynamischen Überwachungsmittels).
  • Wenn einmal eine Transkription über die verschiedenen Spracherkennungsmaschinen 14 beendet ist, wird der Text zu einem Textprozessor 20 übertragen und darin gespeichert. Der Textprozessor 20 greift auf Sprachdateien von dem zentralen Sprachprozessor 12 gemäß einer vorbestimmten Abfrage und Prioritätseinstellungen zu, baut in den geschriebenen Text geeignete Arbeitstypschablonen basierend auf Anweisungen ein, die den Anwenderdateien gehalten sind, fügt automatisch Information, wie beispielsweise Patienteninformation, Krankenhaus-Anfangsblock, Arzt-Signaturlinie und cc-Liste mit Dokumenten gemäß vorbestimmten Formatanforderungen, ein, fügt automatisch Normalitäten ein, wie es in der US-Patentanmeldung mit der seriellen Nr. 09/877,254 mit dem Titel "Automatic Normal Report System", eingereicht am 11. Juni 2001, die im gemeinsamen Besitz ist, beschrieben ist, verteilt au tomatisch das Enddokument über Fax, E-Mail oder einen Netzwerkdrucker und integriert es mit HIS (Krankenhausinformationssystemen) oder anderen relevanten Datenbanken, um irgendeine Patienten- oder Krankenhausinformation, die für eine Fertigstellung von Dokumenten nötig ist, schnell auszulesen. Während die Funktionen des Textprozessors 20 oben unter Bezugnahme auf eine Verwendung als Teil eines Krankenhaus-Transkriptionssystems beschrieben sind, werden Fachleute auf dem Gebiet die weite Vielfalt von Umgebungen erkennen, in welchen das vorliegende System verwendet werden kann.
  • Der Textprozessor 20 liefert weiterhin ein Versorgungsvehikel für eine Interaktion mit Transkriptionisten, die Sprachdateien manuell schreiben, die für eine Spracherkennung akustisch nicht akzeptierbar sind und/oder die für eine manuelle Transkription bestimmt worden sind. Transkriptionisten korrigieren über den Textprozessor auch Sprachdateien, die durch verschiedene Spracherkennungsmaschinen geschrieben sind. Wenn einmal die elektronisch geschriebenen Sprachdateien korrigiert sind, werden die Jobs mit eindeutigen Identifizierern, die die Arbeit definieren, und die Stelle, wo sie durchgeführt wurde, gesendet. Der korrigierte Text kann dann zu einer vorbestimmten Spracherkennungsmaschine auf die oben diskutierte Weise weitergeleitet werden.
  • Zusammengefasst ist der Textprozessor 20 verantwortlich für ein Erzeugen eines Servers zum Empfangen von Aufrufen bzw. Anrufen, ein Abfragen von Datenbanken 30 basierend auf gelieferten Daten und ein Bestimmen von geeigneten Stellen zum Weiterleiten korrigierter Dateien für eine akustische Anpassung.
  • Im allgemeinen sendet der Stimmprozessor 22 Sprachdateien zu dem zentralen Sprachprozessor 12 über einen entfernten Verfahrensaufruf; relevante Information wird daher zusammen mit den zwischen dem Stimmprozessor und dem zentralen Sprachprozessor 12 ausgegebenen RPC-Aufrufen übertragen. Arbeit wird anfangs in irgendeiner Reihenfolge vorgelegt werden. Es wird in der Verantwortlichkeit des zentralen Sprachprozessors 12 liegen, unter der Steuerung des dynamischen Überwachungsmittels 18, der Arbeit vom Stimmprozessor 22, der den TAT-Klotz aus einer WAV-Sprachdatei nimmt, eine Priorität zuzuteilen, die interne Jobstruktur zu erzeugen, wie es oben diskutiert ist. Es wird jedoch erwägt, dass der Stimmprozessor 22 Arbeit zu dem zentralen Sprachprozessor 12 in einer Prioritätsreihenfolge vorlegen wird.
  • Daten fließen innerhalb des vorliegenden Systems 10 auf die folgende Weise. Der Stimmprozessor 22 exportiert eine Audio-Sprachdatei im PCM-Format. Ein Aufzeichnung wird gleichzeitig dem zentralen Sprachprozessor 12 vorgelegt, so dass ein Prüfereintrag gemacht und eine Aufzeichnung in der Anwenderdatenbank 30a erzeugt werden kann. Ein Fehler wird dann erzeugt werden, wenn der Anwender nicht existiert.
  • Die Sprachdatei wird dann temporär durch die Datenbank 30 des zentralen Sprachprozessors gehalten werden, bis zu einer solchen Zeit, zu welcher das dynamische Überwachungsmittel 18 und das Versandsystem 32 bestimmen, dass es geeignet ist, die Sprachdatei und zugehörige Anwenderinformation zu einer bestimmten Spracherkennungsmaschine 14 weiterzuleiten. Allgemein bestimmt das dynamische Überwachungsmittel die Arbeitsbelastung jeder Spracherkennungsmaschine 14 und sendet den Job zu der am wenigsten belasteten Spracherkennungsmaschine 14. Dies wird nicht nur durch die Anzahl von Jobs in der Warteschlange für irgendeine Spracherkennungsmaschine 14 bestimmt, sondern durch die gesamte Menge an zu erkennendem Audio.
  • Jobs vom selben Anwender können unterschiedlichen Spracherkennungsmaschinen 14 zugeordnet werden. Tatsächlich können unterschiedliche Jobs vom selben Anwender aufgrund der Fähigkeit des vorliegenden Systems, ein Auslesen von spezifischer Anwenderinformation durch mehrere Spracherkennungsmaschinen 14 zur gleichen Zeit zu ermöglichen, zur gleichen Zeit verarbeitet werden. Die Fähigkeit zum Auslesen spezifischer Anwenderinformation ist mit dem Sprachanpassungsverfahren des vorliegenden Systems verbunden. Spezifisch wird anfangs ein Fabriksprachenmodell erzeugt und zur Verwendung zu einer spezifischen Spracherkennungsmaschine 14 zugeordnet. Jedoch wird jede Organisation, die am vorliegenden System teilnimmt, ein anderes Vokabular haben, das zu dem ursprünglichen Fabriksprachenmodell hinzugefügt oder von diesem gelöscht werden kann. Dieses modifizierte Sprachmodell wird derart angesehen, dass es das Organisations-Sprachmodell ist. Das Organisations-Sprachmodell ist weiterhin geeignet, wenn individuelle Anwender des vorliegenden Systems ihre eigenen persönlichen Präferenzen in Bezug auf die Sprache entwickeln, die verwendet wird. Das Organisations-Sprachmodell ist daher geeignet, gemäß den spezifischen individuellen Präferenzen von Anwendern zu sein, und ein spezifisches Anwender-Sprachmodell wird für jeden individuellen Anwender des vorliegenden Systems entwickelt. Die Erzeugung eines solchen spezifischen Anwender-Sprachmodells gemäß der vorliegenden Erfindung lässt zu, dass die Spracherkennungsmaschinen Information über jeden Anwender ohne weiteres auslesen, wenn es erforderlich ist.
  • Der zentrale Sprachprozessor 12 legt dann den Job der Spracherkennungsmaschine 14 vor und aktualisiert die Aufzeichnung der Datenbank 30, um die Zustandsänderung zu berücksichtigen. Die Anwenderinformation (einschließlich von Sprachmodellen und akustischen Modellen) wird mit Audio dem Spracherkennungsmaschinen-Wrapper 24 zur Verarbeitung vorgelegt. Der Spracherkennungsmaschinen-Wrapper 24 wird das Audio testen, bevor er die Arbeit akzeptiert. Wenn sie nicht durchgeht, wird ein Fehler erzeugt werden und wird der Stimmprozessor 22 benachrichtigt werden, um den Job für eine manuelle Transkription zu markieren.
  • Wenn die Spracherkennungsmaschine 14 einmal die Transkription der Sprachdatei beendet, wird die geschriebene Datei für eine Endverarbeitung zu dem zentralen Sprachprozessor 12 gesendet.
  • Der Spracherkennungsmaschinen-Wrapper 24 legt dann den nächsten Job in der Warteschlange 34 vor und der zentrale Sprachprozessor 12 ändert den Zustand der Jobaufzeichnung, um den erkannten Zustand zu berücksichtigen. Er bereitet dann den Job für eine Vorlage zum Stimmprozessor 22 vor. Der Stimmprozessor 22 importiert den Job und ersetzt die alte Audiodatei mit der neuen basierend auf der Jobid, die durch den zentralen Sprachprozessor 12 erzeugt ist. Die geschriebene Sprachdatei, die durch die Spracherkennungsmaschine 14 erzeugt ist, wird gesichert.
  • Wenn ein Transkriptionist den Job ausliest und den Text korrigiert, wird der Textprozessor 20 die korrigierte geschriebene Sprachdatei dem zentralen Sprachprozessor 12 vorlegen. Der zentrale Sprachprozessor 12 wird bestimmen, welche Spracherkennungsmaschine 14 zuvor für den Job verwendet wurde, und legt den geschriebenen korrigierten Text dieser Spracherkennungsmaschine 14 für eine akustische Anpassung bezüglich einer Anstrengung vom Verbessern für eine zukünftige Verarbeitung von Jobs von diesen Anwendern vor. Die überarbeitete akustische Anpassung wird dann in den Anwender-id-Dateien gesichert, die in der Datenbank 30 des zentra len Sprachprozessors gehalten sind, zur Verwendung bei nachfolgenden Transkriptionen.
  • Während die bevorzugten Ausführungsbeispiele gezeigt und beschrieben worden sind, wird es verstanden werden, dass es keine Absicht gibt, die Erfindung durch eine solche Offenbarung zu beschränken, sondern vielmehr ist beabsichtigt, alle Modifikationen und alternative Konstruktionen abzudecken, die in den Schutzumfang der Erfindung fallen, wie er in den beigefügten Ansprüchen definiert ist.

Claims (7)

  1. Verteiltes Spracherkennungssystem (10) mit einem Sprachprozessor (12), der mit einer Vielzahl von Spracherkennungsmaschinen (14) verbunden ist, wobei der Sprachprozessor Folgendes aufweist: einen Eingang zum Empfangen von Sprachdateien von einer Vielzahl von Benutzern (31); eine Speichereinrichtung (30b) zum Speichern jeder der Vielzahl von Sprachdateien, bis die Sprachdatei zur Verarbeitung zu einer ausgewählten Spracherkennungsmaschine übertragen wird; ein Versandsystem (32), das mit der Speichereinrichtung verbunden ist, zum Steuern der Übertragung der empfangenen Sprachdateien zu den Spracherkennungsmaschinen; dadurch gekennzeichnet, dass das System weiterhin eine Maschine für dynamisches Überwachen (18) zum Überwachen und Analysieren der Aktivität jeder der Spracherkennungsmaschinen aufweist, die mit dem Sprachprozessor verbunden sind, um Spracherkennungsmaschinen zu identifizieren, die die meiste Erfahrung mit spezifischem Vokabular haben, und zum Anweisen des Versandsystems, Sprachdateien zu der Spracherkennungsmaschine weiterzuleiten, die als diejenige mit der meisten Erfahrung mit dem Vokabular der jeweiligen Sprachdatei identifiziert ist.
  2. Verteiltes Spracherkennungssystem nach Anspruch 1, wobei jede der Vielzahl von Spracherkennungsmaschinen eine Sprachmaschinen-Wrapper-Erleichterungsschnittstelle (35) zwischen dem Sprachprozessor und der Spracherkennungsmaschine enthält.
  3. Verteiltes Spracherkennungssystem nach Anspruch 1 oder 2, wobei der Sprachprozessor eine Datenbank von Benutzerdateien (30a) enthält, die vor einer Übertragung zu vorausgewählten Spracherkennungsmaschinen anschließend mit Sprachdateien kombiniert werden.
  4. Verteiltes Spracherkennungssystem nach einem der vorangehenden Ansprüche, das, verbunden mit dem Sprachprozessor, weiterhin ein Prüfsystem (44), einen Stimmprozessor (22) und/oder einen Textprozessor enthält.
  5. Verfahren zum Betreiben eines Spracherkennungssystems (10) mit einem Sprachprozessor (12), der mit einer Vielzahl von Spracherkennungsmaschinen (14) verbunden ist, wobei das Verfahren Folgendes aufweist: Empfangen von Sprachdateien von einer Vielzahl von Benutzern (31) an einem Eingang (21) des Sprachprozessors; Speichern jeder der empfangenen Sprachdateien in einer Speichereinrichtung (30b) des Sprachprozessors, bis die Sprachdatei zur Verarbeitung zu einer Spracherkennungsmaschine übertragen wird; Übertragen der empfangenen Sprachdateien zu den Spracherkennungsmaschinen unter der Steuerung eines Versandsystems (32), das mit der Speichereinrichtung verbunden ist; gekennzeichnet durch die folgenden Schritte: Überwachen und Analysieren der Aktivität jeder der Spracherkennungsmaschinen, die mit dem Sprachprozessor verbunden sind, um Spracherkennungsmaschinen zu identifizieren, die die meiste Erfahrung mit spezifischem Vokabular haben; und Anweisen des Versandsystems, Sprachdateien zu der Spracherkennungsmaschine weiterzuleiten, die als diejenige mit der meisten Erfahrung mit dem Vokabular der jeweiligen Sprachdatei identifiziert ist.
  6. Verfahren nach Anspruch 5, das weiterhin die folgenden Schritte aufweist: Zuordnen eines Gewichtungsfaktors zu jeder der Vielzahl von Spracherkennungsmaschinen; und Verwenden des Gewichtungsfaktors beim Zuordnen von Sprachdateien zu der Vielzahl von Spracherkennungsmaschinen.
  7. Verfahren nach Anspruch 5 oder 6, das weiterhin die folgenden Schritte aufweist: Versehen des Sprachprozessors mit einer Datenbank von Benutzerdateien (30a); und vor einer Übertragung zu vorausgewählten Spracherkennungsmaschinen anschließendes Kombinieren der Benutzerdateien mit Sprachdateien.
DE60219674T 2001-10-31 2002-10-30 Verteiltes Spracherkennungssystem und Verfahren zum Betreiben desselben Expired - Lifetime DE60219674T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US09/984,874 US7146321B2 (en) 2001-10-31 2001-10-31 Distributed speech recognition system
US984874 2001-10-31
PCT/US2002/034697 WO2003038807A1 (en) 2001-10-31 2002-10-30 Distributed speech recognition system

Publications (2)

Publication Number Publication Date
DE60219674D1 DE60219674D1 (de) 2007-05-31
DE60219674T2 true DE60219674T2 (de) 2007-12-27

Family

ID=25530963

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60219674T Expired - Lifetime DE60219674T2 (de) 2001-10-31 2002-10-30 Verteiltes Spracherkennungssystem und Verfahren zum Betreiben desselben

Country Status (6)

Country Link
US (1) US7146321B2 (de)
EP (1) EP1451805B1 (de)
AT (1) ATE360248T1 (de)
CA (1) CA2466149C (de)
DE (1) DE60219674T2 (de)
WO (1) WO2003038807A1 (de)

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7133829B2 (en) * 2001-10-31 2006-11-07 Dictaphone Corporation Dynamic insertion of a speech recognition engine within a distributed speech recognition system
US7016842B2 (en) * 2002-03-26 2006-03-21 Sbc Technology Resources, Inc. Method and system for evaluating automatic speech recognition telephone services
JP2003295890A (ja) * 2002-04-04 2003-10-15 Nec Corp 音声認識対話選択装置、音声認識対話システム、音声認識対話選択方法、プログラム
US7292975B2 (en) * 2002-05-01 2007-11-06 Nuance Communications, Inc. Systems and methods for evaluating speaker suitability for automatic speech recognition aided transcription
US7236931B2 (en) * 2002-05-01 2007-06-26 Usb Ag, Stamford Branch Systems and methods for automatic acoustic speaker adaptation in computer-assisted transcription systems
JP2005031758A (ja) * 2003-07-07 2005-02-03 Canon Inc 音声処理装置及び方法
US7774196B2 (en) * 2003-10-01 2010-08-10 Dictaphone Corporation System and method for modifying a language model and post-processor information
US8589156B2 (en) * 2004-07-12 2013-11-19 Hewlett-Packard Development Company, L.P. Allocation of speech recognition tasks and combination of results thereof
US8311822B2 (en) 2004-11-02 2012-11-13 Nuance Communications, Inc. Method and system of enabling intelligent and lightweight speech to text transcription through distributed environment
US20060111917A1 (en) * 2004-11-19 2006-05-25 International Business Machines Corporation Method and system for transcribing speech on demand using a trascription portlet
CA2618623C (en) * 2005-08-09 2015-01-06 Mobilevoicecontrol, Inc. Control center for a voice controlled wireless communication device system
US8700404B1 (en) * 2005-08-27 2014-04-15 At&T Intellectual Property Ii, L.P. System and method for using semantic and syntactic graphs for utterance classification
US8032372B1 (en) 2005-09-13 2011-10-04 Escription, Inc. Dictation selection
WO2008008730A2 (en) 2006-07-08 2008-01-17 Personics Holdings Inc. Personal audio assistant device and method
US11750965B2 (en) 2007-03-07 2023-09-05 Staton Techiya, Llc Acoustic dampening compensation system
US20090216532A1 (en) * 2007-09-26 2009-08-27 Nuance Communications, Inc. Automatic Extraction and Dissemination of Audio Impression
US8498870B2 (en) * 2008-01-24 2013-07-30 Siemens Medical Solutions Usa, Inc. Medical ontology based data and voice command processing system
US8326622B2 (en) * 2008-09-23 2012-12-04 International Business Machines Corporation Dialog filtering for filling out a form
US8868430B2 (en) * 2009-01-16 2014-10-21 Sony Corporation Methods, devices, and computer program products for providing real-time language translation capabilities between communication terminals
US8346549B2 (en) * 2009-12-04 2013-01-01 At&T Intellectual Property I, L.P. System and method for supplemental speech recognition by identified idle resources
US8548135B1 (en) 2010-02-03 2013-10-01 Tal Lavian Systems and methods for visual presentation and selection of IVR menu
US8681951B1 (en) 2010-02-03 2014-03-25 Tal Lavian Systems and methods for visual presentation and selection of IVR menu
US8903073B2 (en) 2011-07-20 2014-12-02 Zvi Or-Bach Systems and methods for visual presentation and selection of IVR menu
US8687777B1 (en) 2010-02-03 2014-04-01 Tal Lavian Systems and methods for visual presentation and selection of IVR menu
US8548131B1 (en) 2010-02-03 2013-10-01 Tal Lavian Systems and methods for communicating with an interactive voice response system
US9001819B1 (en) 2010-02-18 2015-04-07 Zvi Or-Bach Systems and methods for visual presentation and selection of IVR menu
US8406388B2 (en) 2011-07-18 2013-03-26 Zvi Or-Bach Systems and methods for visual presentation and selection of IVR menu
US8625756B1 (en) 2010-02-03 2014-01-07 Tal Lavian Systems and methods for visual presentation and selection of IVR menu
US8553859B1 (en) 2010-02-03 2013-10-08 Tal Lavian Device and method for providing enhanced telephony
US8594280B1 (en) 2010-02-03 2013-11-26 Zvi Or-Bach Systems and methods for visual presentation and selection of IVR menu
US8879698B1 (en) 2010-02-03 2014-11-04 Tal Lavian Device and method for providing enhanced telephony
US8537989B1 (en) 2010-02-03 2013-09-17 Tal Lavian Device and method for providing enhanced telephony
US8572303B2 (en) 2010-02-03 2013-10-29 Tal Lavian Portable universal communication device
US8239366B2 (en) * 2010-09-08 2012-08-07 Nuance Communications, Inc. Method and apparatus for processing spoken search queries
WO2012116110A1 (en) 2011-02-22 2012-08-30 Speak With Me, Inc. Hybridized client-server speech recognition
US8867708B1 (en) 2012-03-02 2014-10-21 Tal Lavian Systems and methods for visual presentation and selection of IVR menu
US8731148B1 (en) 2012-03-02 2014-05-20 Tal Lavian Systems and methods for visual presentation and selection of IVR menu
US9620120B2 (en) * 2015-05-22 2017-04-11 Kabushiki Kaisha Toshiba Minutes taking system, minutes taking method, and image forming apparatus

Family Cites Families (65)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5179627A (en) 1987-02-10 1993-01-12 Dictaphone Corporation Digital dictation system
US5036539A (en) 1989-07-06 1991-07-30 Itt Corporation Real-time speech processing development system
US5333275A (en) 1992-06-23 1994-07-26 Wheatley Barbara J System and method for time aligning speech
JP2818362B2 (ja) 1992-09-21 1998-10-30 インターナショナル・ビジネス・マシーンズ・コーポレイション 音声認識装置のコンテキスト切換えシステムおよび方法
GB2272091B (en) 1992-10-30 1996-10-23 Canon Europa Nv Apparatus for use in aligning bilingual corpora
US5664195A (en) 1993-04-07 1997-09-02 Sequoia Systems, Inc. Method and apparatus for dynamic installation of a driver on a computer system
JP2986345B2 (ja) 1993-10-18 1999-12-06 インターナショナル・ビジネス・マシーンズ・コーポレイション 音声記録指標化装置及び方法
US5615296A (en) 1993-11-12 1997-03-25 International Business Machines Corporation Continuous speech recognition and voice response system and method to enable conversational dialogues with microprocessors
JP3563756B2 (ja) 1994-02-04 2004-09-08 富士通株式会社 音声合成システム
AU684872B2 (en) 1994-03-10 1998-01-08 Cable And Wireless Plc Communication system
US6058104A (en) 1994-06-17 2000-05-02 Home Wireless Networks, Inc. Communications webs for PSTN subscribers
US5787230A (en) 1994-12-09 1998-07-28 Lee; Lin-Shan System and method of intelligent Mandarin speech input for Chinese computers
US5884262A (en) 1996-03-28 1999-03-16 Bell Atlantic Network Services, Inc. Computer network audio access and conversion system
US6938263B2 (en) 1996-04-23 2005-08-30 Sun Microsystems, Inc. System and method for facilitating dynamic loading of “stub” information to enable a program operating in one address space to invoke processing of a remote method or procedure in another address space
US6282652B1 (en) 1998-02-26 2001-08-28 Sun Microsystems, Inc. System for separately designating security requirements for methods invoked on a computer
US5727950A (en) 1996-05-22 1998-03-17 Netsage Corporation Agent based instruction system and method
US5772585A (en) 1996-08-30 1998-06-30 Emc, Inc System and method for managing patient medical records
GB2303955B (en) 1996-09-24 1997-05-14 Allvoice Computing Plc Data processing method and apparatus
KR100453021B1 (ko) 1996-09-27 2005-04-08 코닌클리케 필립스 일렉트로닉스 엔.브이. 구두텍스트인식방법및시스템
US5819220A (en) 1996-09-30 1998-10-06 Hewlett-Packard Company Web triggered word set boosting for speech interfaces to the world wide web
US6122613A (en) * 1997-01-30 2000-09-19 Dragon Systems, Inc. Speech recognition using multiple recognizers (selectively) applied to the same input sample
GB2323693B (en) 1997-03-27 2001-09-26 Forum Technology Ltd Speech to text conversion
US6173259B1 (en) * 1997-03-27 2001-01-09 Speech Machines Plc Speech to text conversion
US6058426A (en) 1997-07-14 2000-05-02 International Business Machines Corporation System and method for automatically managing computing resources in a distributed computing environment
US6064957A (en) 1997-08-15 2000-05-16 General Electric Company Improving speech recognition through text-based linguistic post-processing
US6076059A (en) 1997-08-29 2000-06-13 Digital Equipment Corporation Method for aligning text with audio signals
US6094635A (en) 1997-09-17 2000-07-25 Unisys Corporation System and method for speech enabled application
US6206964B1 (en) * 1997-11-10 2001-03-27 Speedline Technologies, Inc. Multiple head dispensing system and method
JP2001508200A (ja) 1997-11-14 2001-06-19 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声に基づいた相互通信システムにおいて、比較的複雑な複数のレベルでの音声処理を共有する選択ハードウェアのための方法及びシステム
US6269188B1 (en) 1998-03-12 2001-07-31 Canon Kabushiki Kaisha Word grouping accuracy value generation
US6195641B1 (en) 1998-03-27 2001-02-27 International Business Machines Corp. Network universal spoken language vocabulary
US6081780A (en) 1998-04-28 2000-06-27 International Business Machines Corporation TTS and prosody based authoring system
US6434526B1 (en) 1998-06-29 2002-08-13 International Business Machines Corporation Network application software services containing a speech recognition capability
US6336036B1 (en) * 1998-07-08 2002-01-01 Ericsson Inc. Retractable dual-band tapped helical radiotelephone antennas
US6311242B1 (en) 1998-08-27 2001-10-30 Apple Computer, Inc. Method and apparatus for supporting dynamic insertion and removal of PCI devices
US6208964B1 (en) 1998-08-31 2001-03-27 Nortel Networks Limited Method and apparatus for providing unsupervised adaptation of transcriptions
US6338038B1 (en) 1998-09-02 2002-01-08 International Business Machines Corp. Variable speed audio playback in speech recognition proofreader
US6163794A (en) * 1998-10-23 2000-12-19 General Magic Network system extensible by users
US6192339B1 (en) * 1998-11-04 2001-02-20 Intel Corporation Mechanism for managing multiple speech applications
US6122614A (en) 1998-11-20 2000-09-19 Custom Speech Usa, Inc. System and method for automating transcription services
JP2000172483A (ja) 1998-12-10 2000-06-23 Nippon Telegr & Teleph Corp <Ntt> 共有仮想画面における音声認識方法及びシステム及び共有仮想画面における音声認識プログラムを格納した記憶媒体
US6377922B2 (en) * 1998-12-29 2002-04-23 At&T Corp. Distributed recognition system having multiple prompt-specific and response-specific speech recognizers
DE19910236A1 (de) * 1999-03-09 2000-09-21 Philips Corp Intellectual Pty Verfahren zur Spracherkennung
DE19910234A1 (de) 1999-03-09 2000-09-21 Philips Corp Intellectual Pty Verfahren mit mehreren Spracherkennern
US6526380B1 (en) 1999-03-26 2003-02-25 Koninklijke Philips Electronics N.V. Speech recognition system having parallel large vocabulary recognition engines
US6298326B1 (en) 1999-05-13 2001-10-02 Alan Feller Off-site data entry system
US6308158B1 (en) 1999-06-30 2001-10-23 Dictaphone Corporation Distributed speech recognition system with multi-user input stations
US6356882B1 (en) * 1999-12-29 2002-03-12 Pitney Bowes Inc. Method and system for inputting a weight to a browser in an internet-based shipping system
US6535849B1 (en) 2000-01-18 2003-03-18 Scansoft, Inc. Method and system for generating semi-literal transcripts for speech recognition systems
US6760697B1 (en) * 2000-01-25 2004-07-06 Minds And Technology, Inc. Centralized processing of digital speech data originated at the network clients of a set of servers
US20010037198A1 (en) 2000-02-01 2001-11-01 Into Voice Corporation Method and system for providing texts for voice requests
JP4465564B2 (ja) 2000-02-28 2010-05-19 ソニー株式会社 音声認識装置および音声認識方法、並びに記録媒体
US6260011B1 (en) 2000-03-20 2001-07-10 Microsoft Corporation Methods and apparatus for automatically synchronizing electronic audio files with electronic text files
US6263308B1 (en) 2000-03-20 2001-07-17 Microsoft Corporation Methods and apparatus for performing speech recognition using acoustic models which are improved through an interactive process
US6513010B1 (en) * 2000-05-30 2003-01-28 Voxi Ab Method and apparatus for separating processing for language-understanding from an application and its functionality
JP2002091477A (ja) 2000-09-14 2002-03-27 Mitsubishi Electric Corp 音声認識システム、音声認識装置、音響モデル管理サーバ、言語モデル管理サーバ、音声認識方法及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2002116796A (ja) * 2000-10-11 2002-04-19 Canon Inc 音声処理装置、音声処理方法及び記憶媒体
US20020091527A1 (en) * 2001-01-08 2002-07-11 Shyue-Chin Shiau Distributed speech recognition server system for mobile internet/intranet communication
US7383187B2 (en) * 2001-01-24 2008-06-03 Bevocal, Inc. System, method and computer program product for a distributed speech recognition tuning platform
US6996525B2 (en) * 2001-06-15 2006-02-07 Intel Corporation Selecting one of multiple speech recognizers in a system based on performance predections resulting from experience
US7133829B2 (en) 2001-10-31 2006-11-07 Dictaphone Corporation Dynamic insertion of a speech recognition engine within a distributed speech recognition system
US6785654B2 (en) 2001-11-30 2004-08-31 Dictaphone Corporation Distributed speech recognition system with speech recognition engines offering multiple functionalities
US6766294B2 (en) 2001-11-30 2004-07-20 Dictaphone Corporation Performance gauge for a distributed speech recognition system
US7236931B2 (en) 2002-05-01 2007-06-26 Usb Ag, Stamford Branch Systems and methods for automatic acoustic speaker adaptation in computer-assisted transcription systems
US7292975B2 (en) 2002-05-01 2007-11-06 Nuance Communications, Inc. Systems and methods for evaluating speaker suitability for automatic speech recognition aided transcription

Also Published As

Publication number Publication date
US20030083883A1 (en) 2003-05-01
CA2466149C (en) 2011-04-05
EP1451805A4 (de) 2005-11-09
DE60219674D1 (de) 2007-05-31
WO2003038807A1 (en) 2003-05-08
EP1451805A1 (de) 2004-09-01
US7146321B2 (en) 2006-12-05
EP1451805B1 (de) 2007-04-18
ATE360248T1 (de) 2007-05-15
CA2466149A1 (en) 2003-05-08

Similar Documents

Publication Publication Date Title
DE60219674T2 (de) Verteiltes Spracherkennungssystem und Verfahren zum Betreiben desselben
US6785654B2 (en) Distributed speech recognition system with speech recognition engines offering multiple functionalities
DE68919632T2 (de) Verfahren für die Ausführungsablauffolgeplanung von verteilten Anwendungsprogrammen an voreinstellbaren Zeiten in einer SNA LU 6.2-Netzwerkumgebung.
US6766294B2 (en) Performance gauge for a distributed speech recognition system
DE60037164T2 (de) Verfahren und Vorrichtung zum Zugriff auf ein Dialog-System für mehrere Klienten
DE68919976T2 (de) Verfahren zur Herstellung von aktuellen Terminaladressen für Systemanwender die verteilte Anwendungsprogramme in einer SNA LU 6.2-Netzwerkumbegung verarbeiten.
US6311192B1 (en) Method for initiating workflows in an automated organization management system
DE69222821T2 (de) Genereller Datenaustausch
DE68928195T2 (de) Überwachung von Datenbankobjekten
DE68919631T2 (de) Verfahren zur Verarbeitung von Programmteilen eines verteilten Anwendungsprogramms durch einen Hauptrechner und einen intelligenten Arbeitsplatz in einer SNA LU 6.2-Netzwerkumgebung.
DE60031113T2 (de) Automatisiertes übertragungssystem und -verfahren mit zwei instanzen zur sprachumwandlung und rechnergestützter korrektur
DE69326431T2 (de) Spracherkennungs-Schnittstellensystem, das als Fenstersystem und Sprach-Postsystem verwendbar ist
DE69904190T2 (de) Verfahren und programm zum verarbeiten der verwaltungsanfragen einer verteilten netzwerkanwendung in einer gruppierten rechnerumgebung
DE68919975T2 (de) Verfahren für die simultane Ablaufverwaltung eines verteilten Anwenderprogramms in einem Hostrechner und in einer grossen Anzahl von intelligenten Benutzerstationen in einem SNA-Netzwerk.
DE60130808T2 (de) System und Verfahren zur Konfiguration von Netzwerkressourcen
DE69202575T2 (de) Verfahren und vorrichtung zur reduktion der datenmenge fuer die softwareinstallierung.
DE202013012465U1 (de) End-to-End-Exposition von nativen Datentypen an Drittanbieteranwendungen
DE69937715T2 (de) Verbessertes Zwei-Phasen-Bindungsprotokoll
DE69128854T2 (de) Verfahren und Gerät zum Programmieren von Sprachdiensten
DE2243956A1 (de) Speicherprogrammierte datenverarbeitungsanlage
DE10119876A1 (de) Verfahren, System und Computerprorammprodukt zur Bereitstellung einer Jobüberwachung
DE102011016862A1 (de) Warteschlangenlose Hochleistungskontaktzentrale
DE102011121802A1 (de) Verfahren und System zur Verwaltung von Kontakten in einem Kontakt-Center
DE60123153T2 (de) Sprachgesteuertes Browsersystem
DE69027524T2 (de) Verfahren und System zur automatischen Steuerung der Verteilung von Datenobjekten

Legal Events

Date Code Title Description
8364 No opposition during term of opposition