DE60007620T2 - Spracherkennungsverfahren - Google Patents

Spracherkennungsverfahren Download PDF

Info

Publication number
DE60007620T2
DE60007620T2 DE2000607620 DE60007620T DE60007620T2 DE 60007620 T2 DE60007620 T2 DE 60007620T2 DE 2000607620 DE2000607620 DE 2000607620 DE 60007620 T DE60007620 T DE 60007620T DE 60007620 T2 DE60007620 T2 DE 60007620T2
Authority
DE
Germany
Prior art keywords
speech
client
information
server
speech recognizer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE2000607620
Other languages
English (en)
Other versions
DE60007620D1 (de
Inventor
Stefan Besling
Eric Thelen
Meinhard Ullrich
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Philips Intellectual Property and Standards GmbH
Koninklijke Philips NV
Original Assignee
Philips Intellectual Property and Standards GmbH
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Philips Intellectual Property and Standards GmbH, Koninklijke Philips Electronics NV filed Critical Philips Intellectual Property and Standards GmbH
Priority to DE2000607620 priority Critical patent/DE60007620T2/de
Application granted granted Critical
Publication of DE60007620D1 publication Critical patent/DE60007620D1/de
Publication of DE60007620T2 publication Critical patent/DE60007620T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer And Data Communications (AREA)
  • Information Transfer Between Computers (AREA)
  • Telephonic Communication Services (AREA)
  • Electric Clocks (AREA)
  • Navigation (AREA)

Description

  • Die Erfindung bezieht sich auf ein Verfahren, bei dem eine eine Spracheingabe ermöglichende Informationseinheit auf einem Server gespeichert und von einem Client abrufbar ist und bei dem der Client durch ein Kommunikationsnetzwerk mit einem Spracherkenner gekoppelt werden kann.
  • Die Möglichkeit, die Kommunikation mit einem Computer per Spracheingabe statt per Tastatur oder Maus vorzunehmen, erleichtert dem Benutzer den Umgang mit Computern und erhöht oft die Schnelligkeit bei der Eingabe. Spracherkennung kann in vielen Bereichen eingesetzt werden, in denen heute eine Eingabe per Tastatur erfolgt. Dabei ist es offensichtlich, daß die Themen unterschiedlichster An sein können. Andererseits werden bei der Spracherkennung hohe Anforderungen an die Rechenleistung gestellt, die auf lokalen Rechnern (Clients) oft nicht ausreichend vorhanden ist. Gerade für sprecherunabhängige Spracherkennung mit einem großen Vokabular reicht die Rechenleistung der Clients oft nicht aus. Um eine zuverlässige und schnelle Spracherkennung von Spracheingaben zu ermöglichen, ist es zweckmäßig, die Spracherkennung auf einem spezialisierten Spracherkenner vorzunehmen, der auf einem leistungsfähigen Rechner betrieben wird.
  • In der EP 0872 827 werden ein System und ein Verfahren zur Spracherkennung beschrieben. Ein Client, auf dem eine eingeschränkte Software zur Spracherkennung ausgeführt wird, wird über ein Netzwerk mit einem Spracherkennungsserver verbunden. Der Client sendet dem Spracherkennungsserver eine Spracherkennungsgrammatik und die Daten der Spracheingabe. Der Spracherkennungsserver führt die Spracherkennung durch und sendet das Erkennungsergebnis an den Client zurück.
  • Nachteilig bei eingangs beschriebenen Client/Server Spracherkennungssystemen ist, daß bei gleichzeitigen Zugriffen auf HTML-Seiten (Hyper-Text-Markup-Language) von mehreren Benutzern und daraus resultierenden mehreren Spracheingaben die Spracherkenner überlastet sind, so daß die Spracherkennung eine nicht akzeptable Verarbeitungszeit in Anspruch nimmt.
  • Aufgabe der Erfindung ist es deshalb, für die Erkennung einer Spracheingabe eine akzeptable Verarbeitungszeit bei hoher Erkennnungsqualität sicherzustellen.
  • Diese Aufgabe wird dadurch gelöst, daß der Client mit mehreren Spracherkennern gekoppelt werden kann und der Informationseinheit eine Zusatzinformation zugewiesen wird, die zur Bestimmung einer Verknüpfung eines Clients mit mindestens einem der Spracherkenner zur Erkennung eines eingegebenen Sprachsignals verwendet wird.
  • Ein Client lädt eine Informationseinheit von einem über ein Kommunikationsnetzwerk, z. B. das Internet, verbundenen Server herunter. Diese Informationseinheit ist auf dem Server abgespeichert und bietet einem Benutzer die Möglichkeit einer Spracheingabe. Ein Server ist ein Computer innerhalb eines Kommunikationsnetzwerkes, beispielsweise dem Internet, auf dem Informationen von Anbietern gespeichert und von Clients abrufbar sind. Ein Client ist ein Computer, der zum Abruf von Informationen aus dem Internet mit einem Server verbunden wird und die Informationseinheit, die auf dem Server abgespeichert ist, herunterlädt, um sie mittels einer Software darzustellen. Da der Client in seiner Rechenleistung begrenzt ist, wird die Spracherkennung nicht auf dem Client vorgenommen, sondern auf einem Spracherkenner, der über das Kommunikationsnetzwerk mit dem Client verbunden ist. Zur Verknüpfung des Clients mit einem spezialisierten Spracherkenner wird der auf dem Server abgespeicherten Informationseinheit eine Zusatzinformation vom Server zugewiesen. Diese Zusatzinformation ist mit der Informationseinheit verknüpft und wird dem Client beim Herunterladen mit übergeben. Mit Hilfe der Zusatzinformation wird der Informationseinheit ein auf diese heruntergeladene Informationseinheit spezialisierter Spracherkenner zugewiesen, auf dem dann die Spracherkennung durchgeführt wird.
  • Die Zusatzinformation wird vom Server nach einem vorgegebenen Kriterium, wie z. B. Themengebiet, Typ des Spracherkenners oder Auslastung der Spracherkenner, vergeben. Dadurch wird für jede heruntergeladene Informationseinheit ein spezieller Spracherkenner ausgewählt, der die Spracherkennung der Spracheingabe mit hoher Qualität und in schneller Verarbeitungszeit vornimmt.
  • Dies hat den Vorteil, daß der Anbieter der Informationseinheit, der das zu erwartende Vokabular kennt, einen Spracherkenner auswählt und diesen mit dieser Informationseinheit verknüpft. Die Qualität bei der Erkennung der Spracheingabe läßt sich durch eine anbietergesteuerte Zuweisung eines Spracherkenners wesentlich erhöhen, da bezüglich der entsprechenden Informationseinheit, die der Anbieter auf dem Server abgelegt hat, immer ähnliche Spracheingaben zu erwarten sind. Bei Spracherkennern, die vom Benutzer festgelegt werden, müssen von diesen Spracherkennern Spracheingaben aus ei nem sehr breiten Anwendungsgebiet erkannt werden. Bei dieser festen Kopplung eines Spracherkenners an beispielsweise den Web-Browser ist der Spracherkenner für die weitreichenden Anwendungsgebiete nicht ausreichend spezialisiert, so daß die Qualität des Erkennungsergebnisses bei dieser festen Kopplung negativ beeinflußt wird.
  • Die Zusatzinformation enthält vorzugsweise die Adresse des speziellen Spracherkenners im Kommunikationsnetz. Außerdem sind in der Zusatzinformation optionale Angaben über die Verwendung des Erkennungsergebnisses enthalten. Im einfachsten Fall wird das Erkennungsergebnis an den Client zurückgesendet und dort als Text oder Sprache ausgegeben. Weiterhin sind in dieser Zusatzinformation optionale Angaben enthalten, in denen der zu verwendende Spracherkennertyp genau spezifiziert wird. Außerdem kann die Zusatzinformation beispielsweise das Vokabular oder Parameter enthalten, um den Spracherkenner an die Spracheingabe anzupassen und eine Adaption auf diesem vorzunehmen. Durch die optionale Übergabe von weiteren Parametern wird die Geschwindigkeit und/oder Qualität der Spracherkennung verbessert.
  • Bei einer vorteilhaften Ausgestaltung der Erfindung ist vorgesehen, in der Zusatzinformation die Adresse einer Verteilereinheit anzugeben. Diese Verteilereinheit steuert mehrere Spracherkenner. Dazu gehören z. B. mehrere Spracherkenner eines gleichen Typs oder Gruppen von Spracherkennern, die nur zur Erkennung von einfachen Spracheingaben, wie Ziffern oder „Ja/Nein", vorgesehen sind. Die mittels der Zusatzinformation zugewiesene Verteilereinheit ordnet die von mehreren Clients eingehenden Sprachsignale den ihr zu Verfügung stehenden Spracherkennern zu. Dadurch ist neben einer schnelleren Bearbeitung der Spracheingaben auch eine gleichmäßige Auslastung der Spracherkenner gewährleistet.
  • Als weitere Ausgestaltung der Erfindung wird vorgeschlagen, daß die Clients die Informationseinheiten in Form von HTML-Seiten von einem Server herunterladen. Diese HTML-Seiten werden mittels eines auf dem Client ausgeführten Web-Browsers oder einer anderen zur Anzeige geeigneten Anwendung angezeigt. Die Informationseinheiten könnten auch als Web-Seiten realisiert sein. Für das Laden dieser HTML-Seite wird vom Client eine Verbindung zum Server aufgebaut, auf dem diese HTML-Seite abgespeichert ist. Beim Laden werden die Daten in Form von HTML-Code auf den Client übertragen. Dieser HTML-Code enthält die Zusatzinformation, die beispielsweise als HTML-Tag realisiert ist. Die geladene HTML-Seite wird vom Web-Browser angezeigt und der Benutzer kann eine Spracheingabe vornehmen. Durch das mitübertragene HTML-Tag ist der zur Erkennung der Spracheingabe vorgesehene Spracherkenner definiert. Für die Erkennung einer Spracheingabe baut der Client mit Hilfe des Kommunikationsnetzwerkes eine Verbindung zum Spracherkenner auf. Die Spracheingabe wird zum Spracherkenner übertragen, dort erkannt und das Erkennungsergebnis beispielsweise zum Client zurückgesendet.
  • In einer vorteilhaften Ausgestaltung der Erfindung wird beim Zugriff von mehreren Clients auf eine HTML-Seite jedem einzelnen Client ein individuelles HTML-Tag zugewiesen. Dazu werden vom Server bei Zugriffen mehrerer Clients auf die entsprechende HTML-Seite den HTML-Tags verschiedene Adressen von Spracherkennern zugewiesen. Dadurch wird erreicht, daß bei häufigen Zugriffen auf eine HTML-Seite mehrere Spracherkenner die Spracheingaben verarbeiten können und somit eine schnellere Erkennung gewährleistet ist. Bei Zugriffen von Benutzern aus unterschiedlichen Zeitzonen können Spracherkenner aus der entsprechenden Zeitzone zugewiesen werden. Bei der Verwendung oben beschriebener Verteilereinheiten zur Zuweisung von Spracherkennern werden bei Zugriffen von mehreren Clients auf eine HTML-Seite in den HTML-Tags unterschiedliche Adressen von Verteilereinheiten vergeben, falls die von der Verteilereinheit verwalteten Spracherkenner den Qualitätsanforderungen bei der Spracherkennung nicht gerecht werden.
  • In einer bevorzugten Weiterbildung der Erfindung ist vorgesehen, auf dem Client mittels einer Zusatzsoftware eine Vorverarbeitung der Spracheingabe vorzunehmen. Diese Zusatzsoftware kann beim Laden einer auf Spracheingabe basierenden HTML-Seite vom entsprechenden Server heruntergeladen werden. Es ist auch möglich, die Zusatzsoftware als Option in den Web-Browser zu integrieren oder lokal auf dem Client zu installieren. Diese Zusatzsoftware wird beim Laden einer entsprechenden HTML-Seite gestartet und nimmt bei einer Spracheingabe des Benutzers eine Extraktion von Merkmalen der Spracheingabe vor. Dabei wird die als elektrisches Signal vorliegende Spracheingabe digitalisiert, quantisiert und entsprechenden Analysen unterzogen, die Komponenten liefern, die Merkmalsvektoren zugeordnet werden. Nachdem der Client eine Verbindung zum im HTML-Tag festgelegten Spracherkenner oder zur Verteilereinheit aufgebaut hat, werden die Merkmalsvektoren über das Kommunikationsnetzwerk zu dem Spracherkenner oder zur Verteilereinheit übertragen. Der Spracherkenner nimmt die rechenintensive Erkennung vor. Durch die auf dem Client durchgeführte Extraktion der Merkmale wird die Spracheingabe komprimiert und codiert, so daß die Menge der zu übertragenden Daten verringert wird. Außerdem wird der zeitliche Aufwand für die Merkmalsextraktion auf die Clientseite ver lagert, so daß der Spracherkenner nur noch die Erkennung der ihm zugeführten Merkmalsvektoren vornimmt. Bei häufig benutzten Spracherkennern kann diese Verlagerung vorteilhaft sein.
  • In einer weiteren Ausgestaltung der Erfindung ist vorgesehen, das HTML-Tag mit Angaben zu versehen, die dem Spracherkenner oder der Verteilereinheit mitteilen, wie das Erkennungsergebnis verwendet werden soll. Mit diesen Angaben kann festgelegt werden, ob die erkannte Spracheingabe an den Client oder an den Server zurückgesendet werden soll. Beim Zurücksenden an den Server könnte beispielsweise vom Server an den Client eine weitere HTML-Seite gesendet werden. Das an den Client zurückgesendete Erkennungsergebnis kann auch nach bestimmten Kriterien aus dem erkannten Text abgeleitet werden.
  • Die Erfindung betrifft auch einen Server, auf dem eine Informationseinheit gespeichert ist, die von einem Client abrufbar ist, wobei der Client mit einem oder mehreren Spracherkennern gekoppelt werden kann und zur Bestimmung einer Verknüpfung zwischen dem Client und einem Spracherkenner zur Erkennung eines eingegebenen Sprachsignals eine Zuweisung einer Zusatzinformation zur Informationseinheit erfolgt.
  • Weiterhin betrifft die Erfindung auch einen Client, der mit einem oder mehreren Spracherkennern durch ein Kommunikationsnetzwerk gekoppelt werden kann und der zum Abruf einer auf einem Server abgespeicherten Informationseinheit vorgesehen ist und bei dem zur Bestimmung einer Verknüpfung zwischen dem Client und einem Spracherkenner zur Erkennung eines eingegebenen Sprachsignals eine Zuweisung einer Zusatzinformation zur Informationseinheit erfolgt.
  • Ausführungsbeispiele der Erfindung werden im folgenden anhand der Zeichnung näher erläutert. Es zeigen.
  • 1 eine schematische Darstellung für eine Zuordnung der Spracherkenner,
  • 2 eine schematische Darstellung für eine Zuordnung der Spracherkenner mit Verteilereinheit und
  • 3 eine schematische Darstellung für eine Zugriff mehrerer Clients auf eine HTML-Seite und die Zuordnung der Spracherkenner
  • 1 zeigt eine Anordnung für die Durchführung eines Verfahrens zur Spracherkennung. Clients 1, 2 und 3 sind über ein Kommunikationsnetzwerk 6 mit einem Server 5 verbunden. Von diesem Server 5 laden die Clients 1, 2 und 3 Informationseinhei ten 4 in Form von HTML-Seiten 4 herunter. Diese HTML-Seiten 4 werden auf den Clients 1, 2 und 3 mittels eines Web-Browsers 13 dargestellt. Die vom Client 13 angeforderte HTML-Seite 4 ist auf dem Server 5 abgespeichert. Ein Inhalt der Informationseinheit 4, den ein Dienstanbieter einem Benutzer mitteilen möchte, wird vom Server 5 mittels eines HTML-Codes auf den Client 1, 2 oder 3 übertragen. In diesem HTML-codierten Datenstrom sind neben dem darzustellenden Inhalt Formatierungsbefehle und eine Zusatzinformation 12, beispielsweise in Form eines HTML-Tags 12, enthalten.
  • Die HTML-Seite 4 bietet dem Benutzer die Möglichkeit der Spracheingabe, wobei der Inhalt der dargestellten HTML-Seite 4 nicht zwangsläufig an den Inhalt der Spracheingabe gekoppelt ist.
  • Der Client baut eine Verbindung zum Server 5 auf, indem der Benutzer eine entsprechende HTML-Seite über einen Verweis (Link) aufruft oder anfordert. Bevor die HTML-Seite 4 zum Client übertragen wird, ordnet der Server 5 dieser HTML-Seite 4 im zugewiesenen HTML-Tag 12 eine Adresse des spezialisierten Spracherkenners zu. Die Zuweisung anderer Angaben, wie ein zu verwendender Spracherkennertyp 18 oder Parameter zur Adaption des Spracherkenners oder Angaben zur Verwendung des Erkennungsergebnisses werden dem HTML-Tag gegebenenfalls zugewiesen.
  • Beim Laden einer mit einem HTML-Tag 12 versehenen HTML-Seite 4 wird eine Zusatzsoftware 14 gestartet. Diese Zusatzsoftware 14 nimmt eine Extraktion von Merkmalen der als elektrisches Signal vorliegenden Spracheingabe vor. Die Zusatzsoftware 14 kann Bestandteil des Web-Browsers 13 sein oder lokal auf dem Client 1, 2 oder 3 installiert sein.
  • Der Client baut eine Verbindung zu dem Spracherkenner 7, 8 oder 9 auf, dessen Adresse im HTML-Tag 12 angegeben ist. Dieser Spracherkenner erhält den Merkmalsstrom, der von der Zusatzware 14 erzeugt wurde, und führt die Spracherkennung der Spracheingabe durch. Nachdem der Spracherkenner 7, 8 oder 9 die Spracheingabe erkannt hat, wird diese vom Spracherkenner 7, 8 oder 9 zum Client 1, 2 oder 3 zurückgesendet und dort als Text oder als Sprache ausgegeben.
  • Bei einer weiteren Ausgestaltung kann mit optionalen Bestandteilen in den HTML-Tags 12 festgelegt werden, wie das Erkennungsergebnis verwendet werden soll. Neben der Zurücksendung zu den Clients 13 besteht die Möglichkeit, das Erkennungsergebnis an den Server 5 zu senden und daraufhin beispielsweise an den Client 13 eine weitere HTML-Seite 4 zu senden (mit der Linie 16 angedeutet). So könnte der Benutzer des Clients 1 beim Lesen einer als HTML-Seite 4 dargestellten Tageszeitung – „aktuelle Temperatur"- sagen. Diese Spracheingabe wird dann zum im HTML-Tag 12 zugewiesenen Spracherkenner 79 zum Ausführen der Spracherkennung gesendet. In der Angabe über die Verwendung des Spracherkennungsergebnisses wird der erkannte Text nicht zum Client 1 zurückgesendet, sondern zum Server 5. Der Server 5 schickt dem Client 1 daraufhin die Angabe über die aktuelle Temperatur, die als Text eingeblendet oder als Sprache ausgegeben werden kann.
  • In 2 ist ein weiteres Ausführungsbeispiel dargestellt. Jeder Client 13 lädt vom Server 5 je eine HTML-Seite 4 herunter, wobei der Inhalt der HTML-Seiten unterschiedlich ist. Diese HTML-Seiten 4 sind mit je einem HTML-Tag 12 behaftet. In diesen HTML-Tags 12 ist die Adresse 17 einer Verteilereinheit 10 enthalten. Außer der Adresse 17 der Verteilereinheit 10 sind in diesen HTML-Tags 12 noch Angaben über die Verwendung des Erkennungsergebnisses, über den zu verwendenden Spracherkennertyp 18 und/oder Parameter für den Spracherkenner zu dessen Adaption enthalten.
  • Die Verteilereinheit 10 steuert mehrere Gruppen von Spracherkennern. Dabei können diese auch unterschiedlichen Typs sein. Die Gruppe 7 umfaßt mehrere Spracherkenner Ra,n eines Typs Ra. Die Gruppe 8 umfaßt Spracherkenner Rb,n eines anderen Typs Rb. Die Gruppe 7 der Spracherkenner Ra,n vom Typ Ra ist beispielsweise auf die Erkennung von Ziffern spezialisiert. Die Gruppe 8 der Spracherkenner Rb,n vom Typ Rb ist auf die Erkennung von „Ja/Nein" spezialisiert. Die Verteilereinheit 10 verteilt nun eingehende Spracheingaben der unterschiedlichen Clients 13 nach den Spracherkennertypen, die in den jeweiligen HTML-Tags 12 festgelegt sind.
  • Die von den Clients 1 und 2 aufgerufenen HTML-Seiten 4, die der Verteilereinheit 10 zugewiesen sind, sind nach Angabe des zu verwendenden Spracherkennertyps 18 an Spracherkenner vom Typ Ra zu verweisen. Spracheingaben, die die Benutzer der Clients 1 und 2 machen, werden von der Verteilereinheit 10 der Gruppe 7 der Spracherkenner Ra,n zugewiesen. Die von Client 3 aufgerufene HTML-Seite 4 benötigt nach Angabe des Spracherkennertyps 18 einen Spracherkenner des Typ Rb. Eine Spracheingabe, die der Benutzer des Clients 3 tätigt, wird von der Verteilereinheit 10 der Gruppe 8 der Spracherkenner vom Typ Rb,n zugewiesen.
  • Wenn ein Spracherkenner Ra,1 momentan gerade mit der Verarbeitung einer Spracheingabe beschäftigt ist, wird die nächste Spracheingabe für den gleichen Spracherkennertyp Ra von der Verteilereinheit 10 an den nächsten Spracherkenner Ra,2 geleitet. Das jeweilige Erkennungsergebnis wird von den Spracherkennern R,n zu den Clients 13 zurückgesendet und dort verarbeitet.
  • 3 zeigt eine Darstellung, bei der mehrere Clients 13 auf die gleiche HTML-Seite 4 zugreifen. Bei der Darstellung der HTML-Seiten 4 mittels des Web-Browsers 13 zeigen sie den gleichen Inhalt.
  • In jedem HTML-Tag 12 ist im Adreßfeld 17 eine IP-Adresse und der Socket-Port für eine TCP/IP-Verbindung vom Client 1, 2 oder 3 zum Spracherkenner 7, 8 oder 9 enthalten. Damit wird vom Dienstanbieter der HTML-Seite 4 im Server 5 ein Spracherkenner 7, 8, oder 9 festgelegt, der die vom Benutzer getätigte Spracheingabe verarbeiten soll. Jedesmal wenn ein Client 1, 2 oder 3 eine jeweilige HTML-Seite 4 über das Internet aufruft, wird der HTML-Seite 4 von dem Server 5 ein HTML-Tag 12 zugewiesen, in dem die Adresse 17 des zuständigen Spracherkenners 7, 8 oder 9 festgelegt ist. Bei gleichzeitigem Aufruf einer HTML-Seite 4 von mehreren Clients 13 wäre bei einem einzigen fest definierten Spracherkenner 7, 8 oder 9 für diese HTML-Seite 4 eine schnelle Bearbeitung der mehreren Spracheingaben nicht gewährleistet. Deshalb wird in einem solchem Fall jedem Client 1, 2 oder 3, der die entsprechende HTML-Seite 4 aufruft, ein anderer Spracherkenner 7, 8 oder 9 mittels unterschiedlicher Adressen 17 in den einzelnen HTML-Tags 12 zugewiesen. So wird dem HTML-Tag 12 beim Laden der HTML-Seite 4 von Client 1 der Spracherkenner 7 zugewiesen. Client 2 bekommt für die Spracherkennung einer Spracheingabe den Spracherkenner 8 und Client 3 den Spracherkenner 9 zugewiesen. Damit ist für alle drei Anwender (Clients 13) eine schnelle und zuverlässige Spracherkennung ihrer Spracheingabe gewährleistet.
  • Ein Beispiel für eine Anwendung der speziellen Zuweisung von Spracherkennern wird im folgenden dargestellt. Client 1 ruft eine HTML-Seite 4 über einen Theaterspielplan auf. Client 2 ruft eine HTML-Seite 4 über einen Fußballspielplan und Client 3 ruft eine HTML-Seite 4 mit Flugverbindungen auf. Es ist offensichtlich, daß alle drei HTML-Seiten 4 unterschiedliche Spracheingaben bewirken. Die Dienstanbieter der HTML-Seiten 4 kennen das jeweils zu erwartende Vokabular und weisen jeder einzelnen HTML-Seite 4 mit dem dazugehörigen HTML-Tag 12 einen spezialisierten Spracherkenner 7, 8 oder 9 zu.
  • Bei HTML-Seiten 4, die mehrere Spracheingaben ermöglichen, beispielsweise zum Ausfüllen eines Formulars, können den einzelnen Spracheingabefeldern unterschiedliche Spracherkenner 7, 8 oder 9 zugeordnet sein, die ebenfalls in einem oder mehre ren HTML Tags 12 festgelegt sind. Welche Spracheingabe momentan behandelt wird, kann durch Kennwörter, durch Feststellen des Blickpunktes des Benutzers, die Nähe des Mauszeigers oder durch Prioritäten oder Reihenfolgen unterschieden werden.

Claims (13)

  1. Verfahren, bei dem eine eine Spracheingabe ermöglichende Informationseinheit (4) auf einem Server (5) gespeichert und von einem Client abrufbar ist und bei dem der Client durch ein Kommunikationsnetzwerk mit einem Spracherkenner gekoppelt werden kann und der Informationseinheit (4) eine Zusatzinformation (12) zugewiesen wird, die zur Bestimmung einer Verknüpfung eines Clients (1, 2, 3) mit mindestens einem der Spracherkenner (7, 8, 9) zur Erkennung eines eingegebenen Sprachsignals verwendet wird.
  2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Zusatzinformation (12) neben einer Adresse (17) zur Zuweisung des Spracherkenners (7, 8, 9) Angaben über die Verarbeitung des Erkennungsergebnisses und/oder den zu verwendenden Spracherkennertyp (18) und/oder Parameter zur Übergabe an den Spracherkenner (7, 8, 9) zu dessen Adaption enthält.
  3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Zusatzinformation (12) der Informationseinheit(4) vom Server (5) zugewiesen wird.
  4. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Informationseinheit (4) mit der zugewiesenen Zusatzinformation (12) vom Client (1, 2, 3) geladen wird.
  5. Verfahren nach einem oder mehreren der Ansprüche 1 bis 4, dadurch gekennzeichnet, daß ein eingegebenes Sprachsignal vom Client (1, 2, 3) zu der in der Zusatzinformation (12) angegebenen Adresse (17) des Spracherkenners (7, 8, 9) zur Erkennung geleitet wird.
  6. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Zusatzinformation (12) eine Adresse (17) einer Verteilereinheit (10) enthält, zu der das eingegebene Sprachsignal weitergeleitet wird und einem von mehreren Spracherkennern (7, 8, 9) zugewiesen wird.
  7. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Informationseinheit (4) als HTML-Seite (4) und die Zusatzinformation (12) als HTML-Tag (12) realisiert sind.
  8. Verfahren nach einem der Ansprüche 1 bis 7, dadurch gekennzeichnet, daß bei mehrfachen Zugriffen auf eine HTML-Seite (4) durch unterschiedliche Clients (1, 2, 3) jedem Client (1, 2, 3) im HTML-Tag (12) verschiedene Adressen (17) von Spracherkennern (7, 8, 9) zugewiesen werden.
  9. Verfahren nach einem der Ansprüche 1 oder 7, dadurch gekennzeichnet, daß für eine Extraktion von Merkmalen eines dem Client (1, 2, 3) zugeführten Sprachsignals auf dem Client (1, 2, 3) eine Zusatzsoftware (14) vorgesehen ist, welche Software beim Herunterladen der den HTML-Tag (12) enthaltenden HTML-Seite (4) gestartet wird.
  10. Verfahren nach einem oder mehreren der Ansprüche 1 bis 9, dadurch gekennzeichnet, daß ein bei der Merkmalsextraktion bezüglich des Sprachsignals erzeugter Merkmalsstrom dem im HTML-Tag (12) definierten Spracherkenner (7, 8, 9) zugeführt wird, welcher Spracherkenner (7, 8, 9) die Spracherkennung vornimmt und das Erkennungsergebnis in Abhängigkeit von in dem HTML-Tag (12) enthaltenen Angaben an den Client (1, 2, 3) zurücksendet.
  11. Verfahren nach Anspruch 10, dadurch gekennzeichnet, daß das Erkennungsergebnis in Abhängigkeit von in dem HTML-Tag (12) enthaltenen Angaben an den Server (5) zurückgesendet wird.
  12. Server (5), auf dem eine Informationseinheit (4) gespeichert ist, die von einem Client (1, 2, 3) abrufbar ist, wobei der Client (1, 2, 3) mit einem oder mehreren Spracherkennern (7, 8, 9) gekoppelt werden kann und zur Bestimmung einer Verknüpfung zwischen dem Client (1, 2, 3) und einem Spracherkenner (7, 8, 9) zur Erkennung eines eingegebenen Sprachsignals eine Zuweisung einer Zusatzinformation (12) zur Informationseinheit (4) erfolgt.
  13. Client (1, 2, 3), der zum Ausführen des Verfahrens nach Anspruch 1 ausgebildet ist und der mit einem oder mehreren Spracherkennern (7, 8, 9) durch ein Kommunikationsnetzwerk (6) gekoppelt werden kann und der zum Abruf einer auf einem Server (5) abgespeicherten Informationseinheit (4) vorgesehen ist und bei dem zur Bestimmung einer Verknüpfung zwischen dem Client (1, 2, 3) und einem Spracherkenner (7, 8, 9) zur Erkennung eines eingegebenen Sprachsignals eine Zuweisung einer Zusatzinformation (12) zur Informationseinheit (4) erfolgt.
DE2000607620 1999-03-09 2000-02-10 Spracherkennungsverfahren Expired - Lifetime DE60007620T2 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE2000607620 DE60007620T2 (de) 1999-03-09 2000-02-10 Spracherkennungsverfahren

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
DE19910236A DE19910236A1 (de) 1999-03-09 1999-03-09 Verfahren zur Spracherkennung
DE19910236 1999-03-09
PCT/EP2000/001143 WO2000054251A2 (en) 1999-03-09 2000-02-10 Method of speech recognition
DE2000607620 DE60007620T2 (de) 1999-03-09 2000-02-10 Spracherkennungsverfahren

Publications (2)

Publication Number Publication Date
DE60007620D1 DE60007620D1 (de) 2004-02-12
DE60007620T2 true DE60007620T2 (de) 2004-11-18

Family

ID=7900179

Family Applications (2)

Application Number Title Priority Date Filing Date
DE19910236A Withdrawn DE19910236A1 (de) 1999-03-09 1999-03-09 Verfahren zur Spracherkennung
DE2000607620 Expired - Lifetime DE60007620T2 (de) 1999-03-09 2000-02-10 Spracherkennungsverfahren

Family Applications Before (1)

Application Number Title Priority Date Filing Date
DE19910236A Withdrawn DE19910236A1 (de) 1999-03-09 1999-03-09 Verfahren zur Spracherkennung

Country Status (9)

Country Link
US (1) US6757655B1 (de)
EP (1) EP1163661B1 (de)
JP (1) JP4597383B2 (de)
KR (1) KR20020003865A (de)
CN (1) CN1343351A (de)
AT (1) ATE257616T1 (de)
AU (1) AU3153700A (de)
DE (2) DE19910236A1 (de)
WO (1) WO2000054251A2 (de)

Families Citing this family (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9911971D0 (en) * 1999-05-21 1999-07-21 Canon Kk A system, a server for a system and a machine for use in a system
US7330815B1 (en) * 1999-10-04 2008-02-12 Globalenglish Corporation Method and system for network-based speech recognition
US6931376B2 (en) * 2000-07-20 2005-08-16 Microsoft Corporation Speech-related event notification system
FI20001918A (fi) * 2000-08-30 2002-03-01 Nokia Corp Monimodaalinen sisältö ja automaattinen puheen tunnistus langattomassa tietoliikennejärjestelmässä
DE60125597T2 (de) * 2000-08-31 2007-05-03 Hitachi, Ltd. Vorrichtung für die Dienstleistungsvermittlung
WO2002021512A1 (en) * 2000-09-07 2002-03-14 Koninklijke Philips Electronics N.V. Voice control and uploadable user control information
JP2002116796A (ja) * 2000-10-11 2002-04-19 Canon Inc 音声処理装置、音声処理方法及び記憶媒体
JP3326424B2 (ja) 2000-10-23 2002-09-24 株式会社ジー・エフ 電話応答装置、及び電話応答装置で実現する各種の応答機能を記述した各手順ファイルを取得して電話応答する方法
US7506022B2 (en) * 2001-05-04 2009-03-17 Microsoft.Corporation Web enabled recognition architecture
US7409349B2 (en) * 2001-05-04 2008-08-05 Microsoft Corporation Servers for web enabled speech recognition
US7610547B2 (en) * 2001-05-04 2009-10-27 Microsoft Corporation Markup language extensions for web enabled recognition
US7711570B2 (en) * 2001-10-21 2010-05-04 Microsoft Corporation Application abstraction with dialog purpose
US8229753B2 (en) * 2001-10-21 2012-07-24 Microsoft Corporation Web server controls for web enabled recognition and/or audible prompting
US7133829B2 (en) * 2001-10-31 2006-11-07 Dictaphone Corporation Dynamic insertion of a speech recognition engine within a distributed speech recognition system
US7146321B2 (en) * 2001-10-31 2006-12-05 Dictaphone Corporation Distributed speech recognition system
US7292975B2 (en) * 2002-05-01 2007-11-06 Nuance Communications, Inc. Systems and methods for evaluating speaker suitability for automatic speech recognition aided transcription
US7236931B2 (en) * 2002-05-01 2007-06-26 Usb Ag, Stamford Branch Systems and methods for automatic acoustic speaker adaptation in computer-assisted transcription systems
US7260535B2 (en) * 2003-04-28 2007-08-21 Microsoft Corporation Web server controls for web enabled recognition and/or audible prompting for call controls
US20040230637A1 (en) * 2003-04-29 2004-11-18 Microsoft Corporation Application controls for speech enabled recognition
US7571102B2 (en) * 2003-04-29 2009-08-04 Ford Motor Company Controller for use with a motor vehicle
JP2005031758A (ja) * 2003-07-07 2005-02-03 Canon Inc 音声処理装置及び方法
US8160883B2 (en) * 2004-01-10 2012-04-17 Microsoft Corporation Focus tracking in dialogs
US7552055B2 (en) 2004-01-10 2009-06-23 Microsoft Corporation Dialog component re-use in recognition systems
DE602004008887T2 (de) * 2004-05-18 2008-01-17 Alcatel Lucent Verfahren und Server zur Bereitstellung eines multi-modalen Dialogs
KR100695127B1 (ko) 2004-10-08 2007-03-14 삼성전자주식회사 다 단계 음성 인식 장치 및 방법
GB2424560B (en) * 2005-02-15 2009-04-29 David Llewellyn Rees User interface for systems with automatic conversion from text to an acoustic representation
JP5320064B2 (ja) * 2005-08-09 2013-10-23 モバイル・ヴォイス・コントロール・エルエルシー 音声制御型ワイヤレス通信デバイス・システム
US8032372B1 (en) 2005-09-13 2011-10-04 Escription, Inc. Dictation selection
JP4846734B2 (ja) * 2005-12-07 2011-12-28 三菱電機株式会社 音声認識装置
US8949130B2 (en) * 2007-03-07 2015-02-03 Vlingo Corporation Internal and external speech recognition use with a mobile communication facility
US8635243B2 (en) 2007-03-07 2014-01-21 Research In Motion Limited Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application
US8886545B2 (en) 2007-03-07 2014-11-11 Vlingo Corporation Dealing with switch latency in speech recognition
US8886540B2 (en) 2007-03-07 2014-11-11 Vlingo Corporation Using speech recognition results based on an unstructured language model in a mobile communication facility application
US10056077B2 (en) 2007-03-07 2018-08-21 Nuance Communications, Inc. Using speech recognition results based on an unstructured language model with a music system
US8996379B2 (en) 2007-03-07 2015-03-31 Vlingo Corporation Speech recognition text entry for software applications
US8838457B2 (en) 2007-03-07 2014-09-16 Vlingo Corporation Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility
US8949266B2 (en) 2007-03-07 2015-02-03 Vlingo Corporation Multiple web-based content category searching in mobile search application
US20080228493A1 (en) * 2007-03-12 2008-09-18 Chih-Lin Hu Determining voice commands with cooperative voice recognition
US8180641B2 (en) * 2008-09-29 2012-05-15 Microsoft Corporation Sequential speech recognition with two unequal ASR systems
TWI411981B (zh) * 2008-11-10 2013-10-11 Inventec Corp 提供真人引導發音之語言學習系統、伺服器及其方法
US8515762B2 (en) * 2009-01-22 2013-08-20 Microsoft Corporation Markup language-based selection and utilization of recognizers for utterance processing
US8346549B2 (en) * 2009-12-04 2013-01-01 At&T Intellectual Property I, L.P. System and method for supplemental speech recognition by identified idle resources
CN102571882A (zh) * 2010-12-31 2012-07-11 上海博泰悦臻电子设备制造有限公司 基于网络的语音提醒的方法和系统
US9674328B2 (en) 2011-02-22 2017-06-06 Speak With Me, Inc. Hybridized client-server speech recognition
JP5637131B2 (ja) * 2011-12-26 2014-12-10 株式会社デンソー 音声認識装置
JP6050171B2 (ja) * 2013-03-28 2016-12-21 日本電気株式会社 認識処理制御装置、認識処理制御方法および認識処理制御プログラム
FR3045909B1 (fr) * 2015-12-17 2017-12-29 Delta Dore Procede et dispositif d'analyse et de repartition de commandes vocales
US20180025731A1 (en) * 2016-07-21 2018-01-25 Andrew Lovitt Cascading Specialized Recognition Engines Based on a Recognition Policy
US10748531B2 (en) * 2017-04-13 2020-08-18 Harman International Industries, Incorporated Management layer for multiple intelligent personal assistant services
CN110444197B (zh) 2018-05-10 2023-01-03 腾讯科技(北京)有限公司 基于同声传译的数据处理方法、装置、系统和存储介质

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2818362B2 (ja) * 1992-09-21 1998-10-30 インターナショナル・ビジネス・マシーンズ・コーポレイション 音声認識装置のコンテキスト切換えシステムおよび方法
ZA948426B (en) * 1993-12-22 1995-06-30 Qualcomm Inc Distributed voice recognition system
JPH0863478A (ja) 1994-08-26 1996-03-08 Toshiba Corp 言語処理方法及び言語処理装置
US5745776A (en) * 1995-04-19 1998-04-28 Sheppard, Ii; Charles Bradford Enhanced electronic dictionary
US5890123A (en) * 1995-06-05 1999-03-30 Lucent Technologies, Inc. System and method for voice controlled video screen display
US5710918A (en) * 1995-06-07 1998-01-20 International Business Machines Corporation Method for distributed task fulfillment of web browser requests
US5915001A (en) * 1996-11-14 1999-06-22 Vois Corporation System and method for providing and using universally accessible voice and speech data files
JPH10177468A (ja) * 1996-12-16 1998-06-30 Casio Comput Co Ltd 移動端末音声認識/データベース検索通信システム
US5960399A (en) * 1996-12-24 1999-09-28 Gte Internetworking Incorporated Client/server speech processor/recognizer
US6122613A (en) 1997-01-30 2000-09-19 Dragon Systems, Inc. Speech recognition using multiple recognizers (selectively) applied to the same input sample
US6173259B1 (en) * 1997-03-27 2001-01-09 Speech Machines Plc Speech to text conversion
GB2323693B (en) 1997-03-27 2001-09-26 Forum Technology Ltd Speech to text conversion
US5884266A (en) * 1997-04-02 1999-03-16 Motorola, Inc. Audio interface for document based information resource navigation and method therefor
US6078886A (en) * 1997-04-14 2000-06-20 At&T Corporation System and method for providing remote automatic speech recognition services via a packet network
US6112176A (en) * 1997-05-16 2000-08-29 Compaq Computer Corporation Speech data collection over the world wide web
US6157705A (en) * 1997-12-05 2000-12-05 E*Trade Group, Inc. Voice control of a server
US6233559B1 (en) * 1998-04-01 2001-05-15 Motorola, Inc. Speech control of multiple applications using applets
US6115686A (en) * 1998-04-02 2000-09-05 Industrial Technology Research Institute Hyper text mark up language document to speech converter
GB2343777B (en) * 1998-11-13 2003-07-02 Motorola Ltd Mitigating errors in a distributed speech recognition process

Also Published As

Publication number Publication date
US6757655B1 (en) 2004-06-29
WO2000054251A3 (en) 2000-12-28
CN1343351A (zh) 2002-04-03
JP2002539480A (ja) 2002-11-19
WO2000054251A2 (en) 2000-09-14
JP4597383B2 (ja) 2010-12-15
AU3153700A (en) 2000-09-28
ATE257616T1 (de) 2004-01-15
KR20020003865A (ko) 2002-01-15
EP1163661A2 (de) 2001-12-19
EP1163661B1 (de) 2004-01-07
DE19910236A1 (de) 2000-09-21
DE60007620D1 (de) 2004-02-12

Similar Documents

Publication Publication Date Title
DE60007620T2 (de) Spracherkennungsverfahren
DE69832786T2 (de) Vorrichtung und verfahren zur identifizierung von klienten die an netzwer-sites zugreifen
DE10051021B4 (de) System, Verfahren und Computerprogramm zur Bereitstellung interaktiver Web-Inhalte in statisch verknüpften Dateien
DE69724356T2 (de) Verfahren und Apparat für die Darstellung von Information im Bezug auf jeden einzelnen von mehreren Hyperlinks
DE69835718T2 (de) Verfahren und Gerät zur Sprachinteraktion über ein Netzwerk unter Verwendung von parametrierbaren Interaktionsdefinitionen
DE10051024B4 (de) Verfahren zum intermediären Cachen in einem Client-Server-Softwaresystem, Computerprogrammprodukte und Computersystem zur Durchführung eines solchen Verfahrens
DE19964030A1 (de) Effizientes Laden von Dokumenten auf dem Internet
EP1430368B1 (de) Verfahren zum zugriff auf informationen und/oder dienste eines verteilten automatisierungssystems
DE602004008483T2 (de) Analyseverfahren für benutzeranforderungen
DE60314748T2 (de) Kommunikationssystem, Mobileinrichtung und Verfahren zur Speicherung von Seiten in einer Mobileinrichtung
EP1241603A1 (de) Internet-Banner
DE60123153T2 (de) Sprachgesteuertes Browsersystem
DE69906206T2 (de) Chipkarte mit Zugriff auf eine entfernte Anwendung, Endgerät und zugehöriges Übertragungssystem und Verfahren zum Zugriff auf die entfernte Anwendung mittels dieser Chipkarte
EP1321851B1 (de) Verfahren und System zum Nutzen von vom Nutzer frei zu wählenden Markierungsnamen als Einsprungposition in die Menustruktur eines Sprach-Dialogsystems
DE10118125A1 (de) Automatisches Auskunftssystem
EP1953654A1 (de) Verfahren zur Ermittlung von zumindest zwei ähnlichen Webseiten
DE19811352C2 (de) System und Verfahren zur Suche auf untereinander vernetzten Rechnern mit Informationsbeständen mittels Softwareagenten
EP1754171A1 (de) Verfahren und system zur automatisierten erzeugung von computergestützten steuerungs- und analysevorrichtungen
DE69833470T2 (de) Verfahren und Gerät zur Aktualisierung von Textdaten für eine elektrische Einrichtung
EP1094405A2 (de) Verfahren zum Erzeugen einer dynamischen Auswahlmaske für den Abruf von Daten aus einer Datenbank
DE19934788B4 (de) Verfahren zur automatischen Anpassung von Daten an die Fähigkeiten einer Nutzer-Software
DE602004010022T2 (de) Einfügung einer Hilfe in eine Antwort zu einer Nachfrage an ein virtuelles Büro
EP1650640A2 (de) System und Verfahren zum vereinfachten Aufrufen von Datenobjekten
DE19930407A1 (de) Verfahren zur sprachbasierten Navigation in einem Kommunikationsnetzwerk und zur Implementierung einer Spracheingabemöglichkeit in private Informationseinheiten
DE19958861C2 (de) Verfahren zum automatischen Registrieren bei einer Suchmaschine eines Computer-Netzwerks

Legal Events

Date Code Title Description
8320 Willingness to grant licences declared (paragraph 23)
8364 No opposition during term of opposition